CN111191695B

CN111191695B - 一种基于深度学习的网站图片篡改检测方法

Info

Publication number: CN111191695B
Application number: CN201911318110.1A
Authority: CN
Inventors: 范如; 范渊
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2023-05-23
Anticipated expiration: 2039-12-19
Also published as: CN111191695A

Abstract

本发明涉及一种基于深度学习的网站图片篡改检测方法，收集带有文本的样本图片，预处理后建立训练集，训练对应的网络模型，进一步训练语义相近度检测模型并构建敏感词库，爬取到待测网站图片并预处理后，通过网络模型得到网站图片中的文本内容结果，分词后由语义相近度检测模型计算文本内容结果与敏感词库间的语义相似度，基于相似度进行敏感内容及网站图片被篡改的判定。本发明提高文本块识别精度，文本提取准确，模型小，收敛速度快，性能好，对图片中的文本进行语义识别，能准确地检测网页图片中的敏感言论，快速高效地识别网站是否被黑客入侵，并及时告警，对于维护网站安全起到重要作用，对于不良非法信息的传播能及时地阻断。

Description

一种基于深度学习的网站图片篡改检测方法

技术领域

本发明涉及一般的图像数据处理或产生的技术领域，特别涉及一种基于深度学习的网站图片篡改检测方法。

背景技术

随着网络的加速发展，对于网络生态的监测、监管的重要性日益上升。黑客们无时无刻不在寻找机会攻入特定的网站、对其进行系列操作以达到其犯罪目的；更有甚者，专门寻找重要的政府企业的网站漏洞，采用植入后门等手段，控制网站服务器，入侵之后篡改页面、通过在图片上增加文本内容的方式发布各种非法言论，基于其活动存在周期性，每周都要攻击两至三个网站，网页被篡改后，如果没有及时检测发现，会对政府企业网站造成不良影响，被监管部门封杀，更重要的是会使不良信息肆意传播，不利于舆情管理。

基于图片中植入文字，现有技术中主要采用单字符提取和文本行提取的方式进行检测。单字符提取是基于字符的识别方法，是一种碎片式识别方法，依赖于以图片分割技术对图片中的文本进行分割，计算字符候选区域，进而以字符训练分类器，并利用算法将字符组合成文字，从而完成识别；文本行提取是指从图片中尽可能地找出文字所在的区域，通过目标检测器，如SSD,YOLO、DenseBox等预测候选的边界框，以语义分割为基础、分割映射，处理提取成最终的文本。

对于单字符提取的检测方式来说，其最小操作单位是字符，通过分割或给候选区域评分的方法分离出单个字符，然后以训练好的模型对字符进行分类，然而，在更多的场景下，字符在图片上的排列是繁琐而复杂的，对字符进行分割异常困难，并且强制分割会破坏其物理结构，此外字符的分割没有考虑其前后其他字符，在进行字符识别时的识别精度大打折扣。

对于文本行提取的检测方式来说，相较于常规物体，文本行的长宽比例变化范围很大且整体存在方向，常规物体边框BBox的四元组描述方式提取的信息并不充足，比如部分艺术字采用了弯曲的文本行，再比如还有更多种变化方式的手写字体，这些特征使得直接通过文本行提取文字的效果并不理想。

发明内容

本发明解决了现有技术中存在的问题，提供了一种优化的基于深度学习的网站图片篡改检测方法。

本发明所采用的技术方案是，一种基于深度学习的网站图片篡改检测方法，所述方法包括以下步骤：

步骤1：收集样本图片，所述样本图样中包括文本；

步骤2：对样本图片进行预处理，建立训练集，并将训练集输入对应的网络模型进行模型训练；

步骤3：训练语义相近度检测模型；构建敏感词库；

步骤4：爬取待测网站图片，以与步骤2同样的方式预处理待测网站图片，输入步骤2训练后的网络模型，输出网站图片中的文本内容结果；

步骤5：对所述文本内容结果进行分词，输入步骤3训练的语义相近度检测模型，计算文本内容结果与敏感词库间的语义相似度；

步骤6：若相似度高于阈值，则存在敏感内容，网站图片被篡改。

优选地，所述步骤2中，网络模型包括图片文本区域检测网络和图片文本字符提取检测网络。

优选地，对应图片文本区域检测网络的训练集建立包括以下步骤：

步骤A.1：对所有的样本图片进行归一化处理，处理至统一尺寸；

步骤A.2：对所有的样本图片进行数据增强；

步骤A.3：对数据增强后所有的图片中的文本区域标注标识；

步骤A.4：将标识转换为锚点标签，得到图片数据集标签；

步骤A.5：得到训练集。

优选地，所述步骤A.5中，将所有的图片转换至lmdb格式，得到训练集。

优选地，所述步骤2中，图片文本区域检测网络的模型训练包括以下步骤：

步骤2.1.1：将训练集中的图片输入VGG16网络，提取底层特征，得到W×H×C的特征映射，W和H对应图片的长和宽，C为图片通道数；

步骤2.1.2：将得到的特征映射进行卷积操作，获取图片的特征向量，输入循环神经网络；

步骤2.1.3：将循环神经网络输出的特征向量输入全连接层，输出对应文本的锚点的垂直坐标、评分和边缘细化结果；

步骤2.1.4：将输出的锚点的垂直坐标进行去重，以文本线构造算法对属于同一文本区域的锚点进行拼接，形成1个或多个完整的文本框；

步骤2.1.5：基于输出结果完成图片文本区域检测网络的模型训练或修改参数，返回步骤2.1.1。

优选地，对应图片文本字符提取检测网络的训练集建立包括以下步骤：

步骤B.1：对所有的样本图片进行数据增强；

步骤B.2：对数据增强后的图片处理至统一分辨率；

步骤B.3：对所有的图片中的文本进行标注标签，并保存至txt文本，txt文本的文件名与图片的文件名一致；

步骤B.4：得到训练集。

优选地，所述步骤B.4中，将所有的图片转换至lmdb格式，得到训练集。

优选地，所述步骤2中，图片文本字符提取检测网络的模型训练包括以下步骤：

步骤2.2.1：将训练集中的图片输入卷积神经网络，提取图片特征；

步骤2.2.2：将得到的图片特征输入循环神经网络，在卷积特征的基础上提取文字序列特征；

步骤2.2.3：将循环神经网络输出的文字序列特征输入CTC网络模型进行整合，得到字符结果；

步骤2.2.4：基于输出结果完成图片文本字符提取检测网络的模型训练或修改参数，返回步骤2.2.1。

优选地，所述步骤4中，预处理后的待测网站图片顺次输入图片文本区域检测网络和图片文本字符提取检测网络。

优选地，所述步骤3包括以下步骤：

步骤3.1：收集敏感语句样本，作为语义相近度检测模型的训练集；

步骤3.2：以Word2Vec算法对敏感语句样本进行训练，得到语义相近度检测模型。

本发明涉及一种优化的基于深度学习的网站图片篡改检测方法，通过收集带有文本的样本图片，预处理后建立训练集，训练对应的网络模型，进一步训练语义相近度检测模型并构建敏感词库；，爬取到待测网站图片并预处理后，通过网络模型得到网站图片中的文本内容结果，分词后由语义相近度检测模型计算文本内容结果与敏感词库间的语义相似度，基于相似度进行敏感内容及网站图片被篡改的判定。

本发明通过CTPN检测模型，提取字符所在的图片上下文特征，针对不同方向的文本行进行准确识别，提高了文本块的识别精度，随后通过CRNN模型识别文本,提取文本的深度特征同时也提取了文本的序列特征，在文本的提取上相比字符切割提取和文本行提取更准确，模型较小，收敛速度快，性能好，最后通过自然语言模型对图片中的文本进行语义识别来判断网站是否被黑客入侵并对图片进行了篡改。

本发明能准确地检测网页图片中的敏感言论，快速高效地识别网站是否被黑客入侵，并及时告警，对于维护网站安全起到重要作用，对于不良非法信息的传播能及时地阻断。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合实施例对本发明做进一步的详细描述，但本发明的保护范围并不限于此。

本发明涉及一种基于深度学习的网站图片篡改检测方法，检测网站中的图片是否被黑客篡改、及时发现网站是否被黑客入侵。

所述方法包括以下步骤。

步骤1：收集样本图片，所述样本图样中包括文本。

步骤2：对样本图片进行预处理，建立训练集，并将训练集输入对应的网络模型进行模型训练。

所述步骤2中，网络模型包括图片文本区域检测网络和图片文本字符提取检测网络。

本发明中，图片文本区域检测网络可以检测水平和微斜的文本行，在模型中文本行可以被看作一个序列，而不是一般物体检测中单个独立的目标，同一个文本行上各个字符图像可以互为上下文，通过学习图片中这种上下文统计规律，可以提升文本块的预测准确率。

本发明中，图片文本字符提取检测网络主要用于解决基于图像的序列识别问题，对于序列化图像可以不用对字符进行切割，能够检测任意长度的文本序列。

对应图片文本区域检测网络的训练集建立包括以下步骤：

步骤A.2：对所有的样本图片进行数据增强；

步骤A.3：对数据增强后所有的图片中的文本区域标注标识；

步骤A.4：将标识转换为锚点标签，得到图片数据集标签；

步骤A.5：得到训练集。

所述步骤A.5中，将所有的图片转换至lmdb格式，得到训练集。

所述步骤2中，图片文本区域检测网络的模型训练包括以下步骤：

本发明中，对应步骤A.1的样本图片可以为黑客已经篡改的网站图片样本集。

本发明中，步骤A.2中通过裁剪、图片的拉伸、翻转等实现图片数据集增强，丰富训练集样本，此为本领域技术人员容易理解的内容，本领域技术人员可以依据需求自行设置。

本发明中，步骤A.3中对图片中的文本区域标注标识在文本区域的左上、右上、左下、右下四个坐标点处进行打标，共形成八个值[x1,y1,x2,y2,x3,y3,x4,y4]，分别对应四个角点的横坐标和纵坐标，然后将坐标标签转化为锚点标签，完成图片数据集标签的生成。

本发明中，lmdb格式的图片的读取速度比jpeg格式提升10%左右。

本发明中，VGG16模型输出的是W×H×C的特征映射，再对图片的特征映射以3×3的滑窗进行卷积操作获取图片的特征向量；此处的循环神经网络为双向LSTM模型，输入256维的特征向量，输出512维的向量至全连接层；全连接层的输出层包含三个输出，包括2k个垂直坐标、2k个评分、k个边缘细化，其中，k表示锚点的尺寸个数。

本发明中，将输出的×锚点信息使用标准的非极大值抑制算法将重叠程度大的锚点个体进行合并，并以文本线构造算法把距离接近、高度相仿、中心点垂直位置相近的锚点拼接至一个文本行，再根据文本行的所有锚点形成一个完整的文本框，从而实现图片中文本框位置的检测；其中，关于文本线构造算法中对于“距离接近、高度相仿、中心点垂直位置相近”的具体阈值可以由本领域技术人员基于需求自行设置。

对应图片文本字符提取检测网络的训练集建立包括以下步骤：

步骤B.1：对所有的样本图片进行数据增强；

步骤B.2：对数据增强后的图片处理至统一分辨率；

步骤B.4：得到训练集。

所述步骤B.4中，将所有的图片转换至lmdb格式，得到训练集。

所述步骤2中，图片文本字符提取检测网络的模型训练包括以下步骤：

本发明中，对应步骤B.1的样本图片可以是自行制作的、带有文字的数据集图片，也可以从互联网上下载一些开源的文本图片样本集作为数据集。

本发明中，步骤B.1的数据增强包括改变图片中文字的字体及大小、及调整图片的灰度、拉升图片等变化随机生成数据集。

步骤3：训练语义相近度检测模型；构建敏感词库。

所述步骤3包括以下步骤：

本发明中，可以从互联网上收集黑客的违法言论作为Word2Vec模型的训练集。

本发明中，敏感词库可以从文本集中提取，也可以从互联网上进行搜集，并保持持续更新。

步骤4：爬取待测网站图片，以与步骤2同样的方式预处理待测网站图片，输入步骤2训练后的网络模型，输出网站图片中的文本内容结果。

所述步骤4中，预处理后的待测网站图片顺次输入图片文本区域检测网络和图片文本字符提取检测网络。

步骤5：对所述文本内容结果进行分词，输入步骤3训练的语义相近度检测模型，计算文本内容结果与敏感词库间的语义相似度。

本发明中，一般来说，相似度大于等于0.8则认为存在敏感内容，网站图片被篡改。

本发明中,步骤6后返回步骤4，持续爬取待测网站图片，并对被篡改的网站图片进行处理。

本发明通过收集带有文本的样本图片，预处理后建立训练集，训练对应的网络模型，进一步训练语义相近度检测模型并构建敏感词库；，爬取到待测网站图片并预处理后，通过网络模型得到网站图片中的文本内容结果，分词后由语义相近度检测模型计算文本内容结果与敏感词库间的语义相似度，基于相似度进行敏感内容及网站图片被篡改的判定。

Claims

1.一种基于深度学习的网站图片篡改检测方法，其特征在于：所述方法包括以下步骤：

步骤1：收集样本图片，所述样本图样中包括文本；

图片文本区域检测网络的模型训练包括以下步骤：

步骤2.1.5：基于输出结果完成图片文本区域检测网络的模型训练或修改参数，返回步骤2.1.1；

图片文本字符提取检测网络的模型训练包括以下步骤：

步骤2.2.4：基于输出结果完成图片文本字符提取检测网络的模型训练或修改参数，返回步骤2.2.1；

步骤3：训练语义相近度检测模型；构建敏感词库；

2.根据权利要求1所述的一种基于深度学习的网站图片篡改检测方法，其特征在于：所述步骤2中，网络模型包括图片文本区域检测网络和图片文本字符提取检测网络。

3.根据权利要求2所述的一种基于深度学习的网站图片篡改检测方法，其特征在于：对应图片文本区域检测网络的训练集建立包括以下步骤：

步骤A.2：对所有的样本图片进行数据增强；

步骤A.3：对数据增强后所有的图片中的文本区域标注标识；

步骤A.4：将标识转换为锚点标签，得到图片数据集标签；

步骤A.5：得到训练集。

4.根据权利要求3所述的一种基于深度学习的网站图片篡改检测方法，其特征在于：所述步骤A.5中，将所有的图片转换至lmdb格式，得到训练集。

5.根据权利要求2所述的一种基于深度学习的网站图片篡改检测方法，其特征在于：对应图片文本字符提取检测网络的训练集建立包括以下步骤：

步骤B.1：对所有的样本图片进行数据增强；

步骤B.2：对数据增强后的图片处理至统一分辨率；

步骤B.4：得到训练集。

6.根据权利要求5所述的一种基于深度学习的网站图片篡改检测方法，其特征在于：所述步骤B.4中，将所有的图片转换至lmdb格式，得到训练集。

7.根据权利要求2所述的一种基于深度学习的网站图片篡改检测方法，其特征在于：所述步骤4中，预处理后的待测网站图片顺次输入图片文本区域检测网络和图片文本字符提取检测网络。

8.根据权利要求1所述的一种基于深度学习的网站图片篡改检测方法，其特征在于：所述步骤3包括以下步骤：