CN112906588A

CN112906588A - 基于深度学习的暴恐图片安全检测系统

Info

Publication number: CN112906588A
Application number: CN202110223480.8A
Authority: CN
Inventors: 郭捷; 陈欣然; 徐扬; 沈琪; 孙泽坤; 吴管浩; 邱卫东; 黄征
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-04

Abstract

一种基于深度学习的暴恐图片安全检测系统，包括：暴恐图片检测及暴恐程度分析模块、暴恐场景分类及枪支识别模块、自然场景下的图文分析模块、暴恐政治头目样本生成模块、暴恐政治头目识别模块和暴恐旗帜识别模块，其中：暴恐图片检测及暴恐程度分析模块、自然场景下的图文分析模块、暴恐政治头目样本生成模块和暴恐旗帜识别模块并联并分别接收图片信息。本发明以各类情景下的图片作为输入，能够在短时间内判断是否是暴恐图片，并且能对图像中存在的暴恐元素进行检测和标识，显着提升了图片安全检测系统的识别范围和识别准确率，且本发明识别效率较高，灵活性强，模型更新方便，各模块模型可根据使用情况定期进行强化训练，提高系统性能。

Description

基于深度学习的暴恐图片安全检测系统

技术领域

本发明涉及的是一种信息安全领域的技术，具体是一种基于深度学习的暴恐图片安全检测系统。

背景技术

针对暴力恐怖特定元素的图像检测系统越来越多地应用于各领域中，它不仅可用于公共安全事件的预防、应急、取证和备案，也为事后的回溯与重建提供了数据基础。暴恐图像检测技术作为信息安全领域的一个新兴研究热点，是内容安全领域最具挑战性的问题之一，它描述的是通过一系列的图像处理和模式识别技术，判定待检测图片中是否含有暴力恐怖元素，并对具体的暴恐元素进行识别和归类。由于暴恐图片涉及元素种类多样，无论是具有煽动性、蛊惑性恐怖主义宣传文字，还是带有暴恐性质的场景，还是各类枪支武器、暴恐旗帜，或者是暴恐事件的政治头目，无一例外都包含了暴力恐怖元素，但已有技术体系的算法效率与准确率并不高。因此，开发一个能联合检测各类暴恐元素，是暴恐图片安全检测技术发展中一个很大的挑战。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于深度学习的暴恐图片安全检测系统，针对目前暴恐图片检测产品无法跨域检测的缺点，将暴恐图片检测及暴恐程度分析、暴恐场景分类及枪支识别、自然场景下的图文分析、暴恐政治头目样本生成、识别以及暴恐旗帜识别等技术模块有机结合。本发明建立在大量各类暴恐图片文本数据集的基础上，最终实现了对图像中暴恐元素的识别和属性提取的功能，适用于更加具体的丰富的暴恐场景，并且具有完整的系统架构。

本发明是通过以下技术方案实现的：

本发明涉及一种基于深度学习的暴恐图片安全检测系统，包括：暴恐图片检测及暴恐程度分析模块、暴恐场景分类及枪支识别模块、自然场景下的图文分析模块、暴恐政治头目样本生成模块、暴恐政治头目识别模块和暴恐旗帜识别模块，其中：暴恐图片检测及暴恐程度分析模块、自然场景下的图文分析模块、暴恐政治头目样本生成模块和暴恐旗帜识别模块并联并分别接收图片信息，暴恐场景分类及枪支识别模块与暴恐图片检测及暴恐程度分析模块串联并接收经暴恐图片检测及暴恐程度分析模块判断为暴恐的图片且将图片分类及将图片中的枪支进行标记输出，暴恐政治头目识别模块与暴恐政治头目样本生成模块串联，暴恐政治头目识别模块接收经暴恐政治头目样本生成模块的生成的暴恐政治头目的图片且将图片中的暴恐政治头目进行识别输出，自然场景下的图文分析模块输出含暴恐文字的图片信息，暴恐旗帜识别模块输出含暴恐旗帜的图片信息。

所述的暴恐场景分类及枪支识别模块包括：并联的暴恐场景分类单元和枪支识别单元。

所述的自然场景下的图文分析模块包括：依次串联的暴恐文本定位单元、暴恐文本识别单元和暴恐文本分析单元，其中：文本定位单元对输入的图片标定出图片中文字所在的区域，文本识别单元通过定位所截取的文本框进行识别输出，暴恐文本分析单元接收输入结果，并判断是否包含暴恐信息。

所述的暴恐政治头目样本生成模块包括：图片特征编码单元、特征对抗生成单元，其中：图片特征编码单元将接收的图片进行规范处理，并将提取的图片特征输出至特征对抗生成单元，特征对抗生成单元将接收的图片特征向量线性叠加上已有的图像特征向量，最终输出重生成的图片。

所述的暴恐政治头目的检测和识别模块包括：模型训练单元、数据处理单元和匹配结果单元，其中：模型训练单元和数据处理单元分别与匹配结果单元连接，模型训练单元读取暴恐政治头目图片样本生成模块生成的数据集中的图片和原有数据库中的暴恐政治头目图片并训练人脸分类模型，数据处理单元读取待测图片和原有数据库中的图片信息并将提取的人脸特征向量输出至匹配结果单元，匹配结果单元将接收的人脸特征向量利用模型训练单元训练得到的人脸分类模型，输出具有暴恐政治头目的图片。

所述的暴恐旗帜识别模块包括：内置的深度学习网络、骨干网络和数据处理单元，其中：输入的图片信息依次经过内置的深度学习网络、骨干网络和数据处理单元，完成对暴恐旗帜的目标识别任务，实现对含暴恐元素输入图片的旗帜元素细分类。

技术效果

本发明整体解决了现有技术无法跨多个领域进行检测的缺陷和不足；与现有技术相比，本发明建立在大量各类暴恐图片文本数据集的基础上，通过多任务模型，能够检测和识别更加具体和丰富的暴恐元素和场景，包括暴恐程度、文本、枪支、暴恐头目、旗帜，显着提升了图片安全检测系统的识别范围和识别准确率，且本发明识别效率较高，灵活性强，模型更新方便，各模块模型可根据使用情况定期进行强化训练，提高系统性能。

与现有技术相比，本发明在所述的暴恐场景分类及枪支识别模块中，本发明通过注意力机制和二级分类手段，降低了对阅兵着火图片的误判率，提高了爆炸血腥场景的识别率；对于暴恐图片的预处理，本发明舍弃了传统的卷积分类网络常用的随机裁剪函数，仅使用了变更大小和旋转函数，最大程度地保留了暴恐图像的信息，并大幅提高了准确率；在自然场景下的图文分析模块中，本发明通过引入Adam正则化，加快了训练时的收敛速度，减小过拟合；在暴恐政治头目样本生成模块中，通过引入GAN网，扩充了暴恐头目的训练样本，提高了暴恐头目的识别率。总而言之，本发明比现有产品功能更完整，性能更准确。

附图说明

图1为本发明流程图。

具体实施方式

如图1所示，本实施例包括：暴恐图片检测及暴恐程度分析模块、暴恐场景分类及枪支识别模块、自然场景下的图文分析模块、暴恐政治头目样本生成模块、暴恐政治头目识别模块和暴恐旗帜识别模块，其中：暴恐图片检测及暴恐程度分析模块、自然场景下的图文分析模块、暴恐政治头目样本生成模块和暴恐旗帜识别模块并联并分别接收图片信息，暴恐场景分类及枪支识别模块与暴恐图片检测及暴恐程度分析模块串联并接收经暴恐图片检测及暴恐程度分析模块判断为暴恐的图片且将图片分类及将图片中的枪支进行标记输出，暴恐政治头目识别模块与暴恐政治头目样本生成模块串联并接收经暴恐政治头目样本生成模块训练的暴恐政治头目的图片且将图片中的暴恐政治头目进行识别输出，自然场景下的图文分析模块输出含暴恐文字的图片信息，暴恐旗帜识别模块输出含暴恐旗帜的图片信息。

所述的识别包括：人脸检测和身份识别。

所述的暴恐图片检测及暴恐程度分析模块是使用加入注意力机制的ResNet152网络对暴恐图片数据集进行预处理并训练，得到所需的网络参数，并利用带此参数的ResNet152网络对输入图片进行分类。

所述的分类是指将输入的图片信息分为无暴恐、轻微暴恐和严重暴恐。

所述的暴恐场景分类单元对经过暴恐程度分析模块判断为暴恐的图片进行分类，采用加入注意力机制的ResNet152网络，对图片进行预处理并训练，具体将场景分为爆炸及火焰场景、持械及攻击场景、血腥场景、游行暴乱场景和战争场景。

所述的加入注意力机制的ResNet152网络是指：ResNet152网络主体为3、8、36和3这四个Bottleneck，每个Bottleneck含有3个block，在每一个block最后对feature map的各个维度进行一个加权乘积，从而加强网络对特征的提取。

所述的预处理是将图片尺寸变更为224*224个像素点，随即旋转小于15°的角度，再随机水平翻转，转换成张量，使用矩阵[0.485,0.456,0.406]，[0.229,0.224,0.225]对张量进行归一化处理。

所述的场景来自各类敏感图像数据库。

所述的枪支识别单元利用RetinaNet网络实现对输入图片中的枪支进行识别并标记出图片中所有枪支的位置。

所述的RetinaNet包括：主干网和两个子网，其中：主干网计算整个输入图片上的卷积特征图，第一子网在主干网的输出上执行卷积对象分类，第二子网执行卷积边界框回归能具体地框选出枪支的位置。

所述的主干网是指横向连接的ResNet50和FPN，具体是将ResNet50网络每个layer的最后一层产生的特征{C3,C4,C5,C6,C7}分别连到FPN网络的5层上，与FPN网络产生的特征融合以增强ResNet50对图像的特征提取能力，构建有效多尺度特征。

所述的有效多尺度特征的FPN共5层，即{P3,P4,P5,P6,P7}，stride分别为{8，16，32，64，128}，尺寸均为{32,64,128,256,512}。FPN网络通过自顶向下的过程，采用上采样进行。再由横向连接将上采样产生的特征分别和ResNet50产生的特征{C3,C4,C5,C6,C7}通过1*1的卷积核后，再相加进行融合，从而产生{P3,P4,P5,P6,P7}。在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积，从而消除上采样的混叠效应。

所述的第一子网为分类子网；所述的第二子网为回归子网。

所述的子网采用Anchor算法，anchor的面积从32^2到512^2，在FPN的p3至p7每个level上都有三种不同的长宽比例，即{1:2,1:1,2:1}，每一个level的anchor集合上又加入{2^0，2^1/3，2^2/3}三种不同的size，每一个anchor分配一个长度为K的vector作为分类信息和一个长度为4的bbox回归信息。

所述的文本定位单元为通过训练后的深度学习网络，将输入图片中每个文本实例分配多个预测的分隔区域，并将这些分割区域表现为文本的核(kernel)，每个核与原始的整个文本实例共享相似形状，对每个文本实例的核采用渐进尺度扩展算法，最终得到文本定位结果，并将定位所截取的文本框送入暴恐文本识别单元。

所述的深度学习网络是指：由采用FPN结构的ResNet网络所构成的PseNet文本定位模型，通过TensorFlow实现。

所述的训练是指：利用公开的icdar2015数据集与icdar2017MLT数据集，将图片输入PseNet模型中，通过将算法对于训练集图片中的标定结果与训练集真实的标定结果(ground truth)进行比较，以此来优化算法的参数，达到模型的训练效果。

所述的渐进尺度扩展算法是指：从最小的核开始，基于广度优先搜索(BFS)，逐步在其中加入更多的像素来扩展它的区域，直到发现最大的核，此最大的核即为最终所得到的框定结果，相较于传统的文本定位算法，渐进尺度扩展算法对自然场景下的紧密排列文本与倾斜文本的识别与定位准确率更高。

所述的暴恐文本识别单元通过内置深度神经网络经训练后计算出输入的卷积序列的特征向量概率矩阵，将概率最大值形成的序列作为文本识别的结果输出至暴恐文本分析单元。

所述的内置深度神经网络是指：通过PyTorch实现的由CNN、RNN和CTC三层结构所组成的CRNN文本识别模型。

所述的深度神经网络训练是指：利用公开的icdar2015数据集，将相应的所需信息输入至CRNN模型中的CTCLoss算法中，利用模型本身的架构，通过比较模型对于数据集中的图片的识别结果和相对应的txt文件中的信息，对模型的参数进行优化，从而实现模型的训练。

所述的暴恐文本分析单元利用由自建暴恐文本数据集训练的神经网络，使用多个大小不同的核(kernel)提取文本中的关键信息，对文本进行二元分类，通过文本的词语以及上下文之间的联系来判断该文本是否为暴恐文字。

所述的自建暴恐文本数据集是指：利用网上公开的暴力言论数据集与恐怖组织的宣传标语，结合暴恐文本的语言特点，所收集的5000多条暴恐文本数据，其中也增加了包含错误拼写的暴恐关键词的文本，提升对文本识别结果中部分错误拼写的单词的识别准确率，增加检测单元的鲁棒性。对于收集到的暴恐文本，将80％分配给训练集，20％分配给测试集，划分数据集过程中以随机分配的方式保证训练集与测试集文本条目来自同一分布，尽可能降低数据集自身对测试结果的干扰。

所述的由自建暴恐文本数据集训练是指：利用自建的暴恐文本数据集，将文本信息以列表形式输入神经网络，将神经网络输出的结果列表与原本的标定值进行比较，计算出两者的偏差值，并利用梯度优化降低偏差，从而使训练结果更接近标定值，达到模型训练的效果。

所述的神经网络是指：由CNN结构所构成的TextCNN语义分析模型，相较于传统的关键字识别算法，TextCNN语义分析模型不仅可以对错误拼写的单词有更高的识别准确率，且可以直接给出语义分析的二分类结果，不必生成关键字以做进一步判断，步骤更简练。

所述的暴恐政治头目样本生成模块包括：图片特征编码单元、特征对抗生成单元，其中：。图片特征编码单元将接收的图片进行规范处理，并将提取的图片特征输出至特征对抗生成单元，特征对抗生成单元将接收的图片特征向量线性叠加上已有的图像特征向量，最终输出重生成的图片。

所述的图片特征编码单元读取暴恐政治头目图片数据库中的图片，将接收的图片进行规范处理，并将提取的图片特征输出至特征对抗生成单元，特征对抗生成单元将接收的图片特征向量线性叠加上已有的图像特征向量，最终输出重生成的图片。

所述的规范处理是指：将数据集中大小不同的暴恐政治头目图像利用python的Dlib库对人脸进行检测、定位和裁剪，转换为尺寸为1024*1024且人脸居中的规范输入图像。

所述的人脸图片编码器是指：一系列提取人脸特征的算法或神经网络训练出的模型，具体由resnet50特征向量初始化模型和vgg16_zhang_perceptual.pkl特征提取模型组成。

所述的提取特征是指：对单张输入图像，通过经过预训练的vgg16_zhang_perceptual.pkl模型，采用添加了简单梯度惩罚项的Logistic损失，逐步寻找到loss值最小的特征向量，即人脸特征。

所述的人脸特征是指：将暴恐政治头目图片利用训练好的vgg16_zhang_perceptual.pkl模型提取特征得到图片对应的特征向量dlatent。它由18个维度不同的人脸特征组成，第1到4维代表人脸姿态、发型、面部形状等，第5到8维代表面部更加细节的脸部特征，第9到10维为眼睛、头发和皮肤的颜色以及阴影和皱纹部分等微观特征。

所述的vgg16_zhang_perceptual.pkl模型来自NVlabs给出的预训练模型，是一种感知相似度的标准LPIPS度量。

所述的特征对抗生成单元先将输入的特征向量中的部分向量线性叠加上预训练好的特定面部特征向量，再经过8个全连接层组成的映射网络G_mapping，得到特征解缠的中间向量w，再将其输入对抗生成网络，以对抗生成网络训练方式生成图片，最后输出至暴恐政治头目再识别模块。

所述的预训练好的特定面部特征向量指smile.npy和age.npy，两组向量分别能控制微笑幅度和年龄衰老程度，均来自NVlabs给出的预训练模型。

所述的对抗生成网络包括生成网络G_synthesis和判别网络D_basic。G_synthesis网络接受中间向量w作为输入，并接收噪声以实现图像的逼真化，具有9个生成阶段，能够随着训练的进行实现动态增长，以生成更高分辨率的图片。而D_basic沿用了ProGAN判别器的架构，能够实现区分合成图片与真实图片的功能。

所述的生成阶段包括Upsample，AdaIN，Conv 3×3以及AdaIN四个子阶段，会受两个控制向量A的影响，其中一个控制向量施加于Upsample之后，另一个控制向量施加于Convolution，影响的方式都采用AdaIN，即自适应实例归一化。

所述的模型训练单元读取暴恐政治头目图片样本生成模块生成的数据集中的图片和数据库中原有的暴恐政治头目图片，利用预训练好的神经网络模型，进行人脸区域的检测和规范化处理，并利用规范化处理得到的人脸图片进行特征向量提取和保存，并利用提取出的人脸图像的特征向量，训练人脸分类模型。

所述的检测是指，利用mtcnn的三个子网络，P-Net、R-Net和O-Net依次对输入图像进行处理：P-Net接收一个12*12*3的输入图片，经过3次Convolution和1次Max pooling操作，得到候选框的坐标信息和置信度；R-Net接收P-Net输出的回归框位置和相应的置信度，同样经过P-Net类似的处理，去除大量的非人脸框，输出候选框的坐标信息和置信度；O-Net接收R-Net的输出作为输入，并经过3次Convolution和3次Max Pooling处理，最终输出回归框的4个坐标信息和人脸landmark的位置。

所述的规范化处理是指：对于mtcnn的最后一个子网络O-Net输出边界框的坐标信息，调用内置的resize函数，将其转化为182*182的PNG格式的图片作为最终输出结果。

所述的特征向量提取和保存是指：使用facenet的预训练模型，对预处理得到的人脸图片进行特征提取，将提取出的特征以1*128维的向量的形式保存在.pkl类型的文件中。

所述的facenet预训练模型采用了David Sandberg团队预训练好的基于MS-Celeb-1M训练集的facenet模型model-20170512-110547。该模型的LFW精度为0.992。

所述的人脸分类模型是指：线性内核的SVM多分类模型，将提取出的特征向量输入训练完毕的模型，能够获取模型预测的标签。

所述的数据处理单元读取输入的待检测图片，对图像中的人脸区域进行检测和预处理，提取人脸特征向量，并输出至匹配结果单元。

所述的匹配结果单元接收数据处理单元提取出的特征向量，利用模型训练单元训练得到的人脸分类模型，输出分类模型预测的识别结果，再将模型预测结果对应的向量和待检测图片中的人脸特征向量计算欧式距离，当该距离在设定的阈值范围内，则认为是同一个人。

所述的内置的深度学习网络是指：Faster R-CNN与Mask R-CNN在Pytorch1.0框架下的实现基准maskrcnn-benchmark。

所述的骨干网络是指：暴恐旗帜识别模块基于Mask R-CNN算法，使用ResNet101进行初步特征的提取，并结合FPN进行特征融合，输入图像经过ResNet与FPN提取特征并融合之后生成特征图，由RPN生成可能存在目标的Proposal，将原图与特征图通过ROI Align进行像素级对齐之后生成固定大小的特征图。

所述的数据处理单元包括：并联的边界框回归分支、类别回归分支和实例分割分支。

所述的边界框回归分支完成目标检测任务，在结果图上绘制目标框(boundingbox)，对暴恐旗帜进行矩形定位框检测。

所述的类别回归分支完成目标分类任务，对于每一个目标，找到对应的类别(class)，区分目标为flag。

所述的实例分割分支完成像素级目标分割任务，将每个目标与背景在像素层面进行区分，描绘出目标旗帜边线。

本实施例涉及一种基于上述系统的暴恐图片安全检测方法，通过输入待测图片并分别进行暴恐图片检测及暴恐程度分析、自然场景下的图文分析、暴恐政治头目识别和暴恐旗帜识别，最终将分析及识别结果进行输出。

所述的暴恐图片检测及暴恐程度分析是通过暴恐图片检测及暴恐程度分析模块和暴恐场景分类及枪支识别模块各自对图片进行模型训练，暴恐图片检测及暴恐程度分析模块对图片进行的场景进行具体分类，同时暴恐场景分类及枪支识别模块将目标图片中的枪支进行枪支识别框选。

所述的暴恐图片检测及暴恐程度分析模块的模型训练的具体步骤如下：

1)将图片按照：训练/验证集—类别名—各类别图片的格式存放，使用ImageFolder函数读取图片；

2)将图片尺寸变更为224*224个像素点，随即旋转一个小于15°的角度，再随机水平翻转，之后转换成张量，使用矩阵[0.485,0.456,0.406]，[0.229,0.224,0.225]对张量进行归一化处理，处理完的数据即为训练集；

3)使用Adam优化器，损失函数为NLLLoss函数，设置学习率为0.0002，训练轮次epoch为800，每个批次中训练样本的数量batchsize为32；

4)基于pytorch，网络的最后一层fc层依次定义为以下五种：

4.1)输入为fc_inputs，输出为1024的线性层，使用nn.Linear(fc_inputs,1024)进行调用；

4.2)激活函数—ReLU函数，使用nn.ReLU()进行调用；

4.3)以0.4的概率随机丢弃神经元，使用nn.Dropout(0.4)调用；

4.4)输入为1024，输出为3的线性层，使用nn.Linear(1024,3)调用；

4.5)使用指数标准化函数并求对数，使用nn.LogSoftmax(dim＝1)调用。

所述的暴恐场景分类及枪支识别模块的模型训练的具体步骤如下：

1)将图片按照训练/验证集—类别名—各类别图片的格式存放，使用ImageFolder函数读取图片；

2)将图片重新变更大小为224*224个像素点，随即旋转一个小于15°的角度，再随机水平翻转，之后转换成张量。使用矩阵[0.485,0.456,0.406]，[0.229,0.224,0.225]对张量进行归一化处理，处理完的数据即为训练集；

3)使用Adam优化器，损失函数为NLLLoss函数，设置学习率为0.0002，训练轮次epoch为200，每个批次中训练样本的数量batchsize为32；

4)基于pytorch，网络的最后一层fc层依次定义为：

4.2)激活函数—ReLU函数，使用nn.ReLU()进行调用；

4.3)以0.4的概率随机丢弃神经元，使用nn.Dropout(0.4)调用；

4.4)输入为1024，输出为5的线性层，使用nn.Linear(1024,5)调用；

所述的枪支识别框选具体步骤如下：

1)数据准备：

1.1)将自建枪支数据集进行labelme标记，得到所有图片对应标签的json文件；

1.2)运行labelme2coco.py转换成coco数据集所需的json文件用于枪支识别；

2)模型训练：

2.1)定义有效的FPN为5层，{P3,P4,P5,P6,P7}，stride分别为{8,16,32,64,128}，尺寸都是{32,64,128,256,512}；

2.2)anchor的面积定义为从32^2到512^2，在FPN的p3至p7每个level上都定义三种不同的长宽比例{1:2,1:1,2:1}。在每一个level的anchor集合上加入{2^0，2^1/3，2^2/3}三种不同的size，每一个anchor分配一个长度为K的vector作为分类信息，以及一个长度为4的bbox回归信息；

2.3)采用focalloss损失函数对回归误差和分类误差进行计算；

2.4)将batchsize设置为16，epoch设置为200。

所述的自然场景下的图文分析是通过暴恐文本定位单元、暴恐文本识别单元和暴恐文本分析单元依次对图片进行模型训练，暴恐文本定位单元运用训练好的模型对暴恐文本定位，暴恐文本识别单元运用训练好的模型从图片中提取文本信息，暴恐文本分析单元运用训练好的模型从文本信息中判断是否为暴恐文本。

所述的暴恐文本定位单元的模型训练具体步骤如下：

1)使用公开数据集，采用1000张icdar2015训练集、7200张icdar2017-mlt训练集和1800张icdar2017-mlt作为训练数据来训练模型，读取数据集中的图片，图像被随机缩放到尺度{0.5,1.0,2.0,3.0}，并做了水平镜像和[-10°，10°]之间的随机旋转，以进行数据增强；

2)从变换后的图像中随机裁剪出640*640大小的图像，使用颜色均值和方差对图像归一化；

3)对于训练集中的四边形文本，使用最小外接框作为bounding boxes的最终预测结果；

4)训练过程中优化方法为SGD，batch-size设置为16，并训练模型300个epochs，初始学习率设置为10e-3，并分别在100和200epoch时各下降1/10，weight decay设置为5*10e-4，Nesterovmomentum设置为0.99。

所述的暴恐文本定位的具体步骤如下：

1)将需要进行定位的图片以20张一组的形式，分为若干组图片，并设置于相应的文件夹下；

2)在linux系统环境下，在/psenet/tensorflow_PSENet/文件夹下，运行pythoneval.py--test_data_path＝./tmp/images/test_set--gpu_list＝0--checkpoint_path＝./resnet_v1_50/

--output_dir＝./tmp/results/result_set以进行测试，其中test_set为待检测图片存放的位置，

/result_set则为对应的结果文件存放的位置；

3)从结果文件夹中提取中存放有坐标信息的.txt文件，并利用坐标信息在原图中裁剪出对应的检测得到的文本框。

所述的暴恐文本识别单元的模型训练的具体步骤如下：

1)将icdar2015数据集中的图像样本以10：1的比例划分为训练集和测试集，并单独储存为两个文本文件train.txt和test.txt，文本文件中的标签格式如下：72685562——3468761464.jpg serral；

2)对上述数据集进行lmdb格式转化：首先读入图像和对应的文本标签，先使用字典将该组合储存起来，再利用lmdb包的put函数把字典中存储的k,v写成lmdb的格式存储好；

3)将batch_Size设置为64，共训练20个epoch，得到最终的模型。

所述的暴恐文本识别单元运用训练好的模型从图片中提取文本信息的具体步骤如下：

1)数据读取：读取经暴恐文本定位单元处理后的文本截图，进行识别；

2)文本提取：

2.1)使用训练好的模型识别文本定位单元所输出的图片中的文本信息；

2.2)将文本识别的结果输出，并输入至暴恐文本分析单元进行下一步处理。

所述的暴恐文本分析单元的模型训练的具体步骤如下：

1)将自建数据集中的文本实例随机打乱，以9：1的比例划分为训练集和测试集，并区别为正样本和负样本，分别储存为train.pos、train.neg、text.pos和test.neg四个文件；

2)从训练集中找到长度最长的一段文本，将其长度记为max_len，并以这个长度为基准，用空格符号填充其余所有文本至max_len；

3)将batch_size设置为64，epoch设置为200，dropout的概率设置为0.5；

4)填充后的文本进入Embedding层，这是一个7*5的句子矩阵，每行是词向量，维度为5，可以类比为图像中的原始像素点，随机初始化Embedding层的参数，然后基于语料通过训练模型网络来对Embeddings进行更新和学习；

5)Convolution层是一个kernel_sizes＝(3，4，5)的一维卷积层，每个kernel_size有两个输出信道；

6)MaxPolling层是一个1-max pooling层，不同长度句子经过pooling层之后都能变成定长的表示，并且可以保留全局的序列信息；

7)最后为全连接层与Softmax层，输出两个类别的概率，概率高的类别即为判断的结果。

所述的暴恐文本分析单元判断是否为暴恐文本的步骤如下：

1)使用训练好的模型识别由文字识别单元检测到的文字。

2)将识别的结果分为“含有暴恐信息”与“不含有暴恐信息”两类，并输出。

所述的暴恐政治头目识别是暴恐政治头目图片样本生成模块利用GAN网，根据数据库中原有的暴恐政治头目图片，生成一系列的表情/年龄变换后的暴恐政治头目图片作为样本扩充训练数据集，并与原有的暴恐政治头目图片一同输入暴恐政治头目识别模块，暴恐政治头目识别模块将识别的结果输出。

所述的输入暴恐政治头目识别模块的图片的具体获得方法的步骤如下：

1)对暴恐政治头目图片样本生成模块接收的图片进行图片特征编码：

1.1)利用'./models/'目录下的karras2019stylegan-ffhq-1024x1024.pkl文件，初始化StyleGAN的生成器网络和鉴别器网络；

1.2)将数据库中尺寸不同的暴恐政治头目图像进行一系列变换，转换为尺寸为规范输入图像，再将规范化图片利用事先训练好的vgg16_zhang_perceptual.pkl实例化特征提取模型perceptual_model；

1.3)利用预先准备好的resnet50模型，生成一个用于perceptual_model优化迭代的初始潜码dlatent；

1.4)调用perceptual_model.optimize()方法，并使用Adam优化器，逐步寻找loss值最小的dlatent，优化过程中利用stochastic clipping方法对dlatent_variable进行更新；

1.5)将1.4)中得到的loss值最小的dlatent保存在'./latent_representations/'下，再将该dlatent输入1.1)中的生成器网络，得到一个和原图像大小一致的重生成图像，保存在'./generated_images/'文件夹中。

2)特征对抗生成：使用源程序中预训练好的特定面部属性向量文件，包括age.npy和smile.npy，其中：age.npy保存了关于年龄的属性向量，smile.npy保存了关于表情的属性向量。

2.1)将图片特征编码单元中得到的图片特征向量和预训练好的特定面部属性向量进行加权求和计算，得到原图片的新特征向量，权重系数coeff为能够调整的变量，coeff的绝对值越大，则对应属性变化程度越大；

2.2)调用Gs.components.synthesis.run()，将合成的新特征向量转化为二维图像矩阵形式的img_array，再调用PIL.Image.fromarray()函数，将二维图像矩阵转换成图像格式，并保存在'/generated_images/generate/'目录下。

所述的暴恐政治头目识别模块的识别结果的获取步骤具体如下：

1)处理数据：

1.1)利用已预训练好的mtcnn模型对图片中人脸的存在性进行检测，当检测到人脸，则对存在的人脸区域进行框定和对齐；

1.2)对框定的人脸区域图片进行规范化处理，将其resize为182*182的PNG格式的图片；

1.3)对规范化处理得到的人脸图片，使用已预训练好的facenet模型进行特征提取，并将提取出的特征向量、标签以及标签和特征向量的一一对应数据分别保存在terro_emb_features.pkl,terro_emb_labels.pkl以及terro_emb_labels_dict.pkl文件中。

2)训练线性内核的SVM多分类模型：

2.1)首先对模型参数进行初始化，设置惩罚项penalty为l2，损失项hinge为squared_hinge，正则化参数为1.0，最大迭代次数max_iter为1000，训练样本的总数num_train为431，测试样本的总数num_test为48，训练样本类别数量为48；

2.2)读取terro_emb_labels_dict.pkl对模型进行训练，并使用验证数据集来检查准确率，并输出SVM多分类模型的准确率，为0.9791667；

2.3)将多分类模型保存至terro_svm_classifier.pkl文件。

3)处理输入数据：

3.1)使用facenet模型提取待检测图片当中的人脸特征。

3.2)利用训练得到的线性内核的SVM多分类训练模型，将提取得到的待测人脸特征向量进行分类，再计算出SVM模型预测标签对应的特征向量和待检测图片的特征向量之间的欧式距离，当小于阈值，则判定为同一个人。

4)匹配结果：

4.1)按照处理结果，为待检测图片加上标签，当两者间的欧式距离小于阈值，则将图片中的人脸区域框出，并在边框左上角标记出预测的人名；当欧式距离大于阈值，则将图片中的人脸区域框出，并在边框左上角标记出“Unknown”字样，表示待测图像中的人物身份未知。

所述的暴恐旗帜识别是通过暴恐旗帜识别模块经模型训练后从输入图片中识别出暴恐旗帜，具体步骤如下：

1)数据准备：

1.1)将自建暴恐旗帜数据集进行labelme标记；

1.2)运行labelme2coco.py转换成coco数据集用于分割任务。

2)模型训练：

2.1)修改数据路径配置文件maskrcnn_benchmark/config/paths_catalog.py，对应自建数据集目录结构；修改框架配置文件maskrcnn_benchmark/config/defaults.py，设置数据集类别数为2；修改模型配置文件configs/e2e_mask_rcnn_R_101_FPN_1x.yaml，同步数据集路径，设置初始学习率为0.0005，最大迭代次数为12000；

2.2)运行python tools/train_net.py–config-fileconfigs/e2e_mask_rcnn_R_101_FPN_1x.yaml启动训练，训练完毕后

maskrcnn-benchmark/output/路径下.pth文件即为输出模型。

3)前传：

3.1)修改模型配置文件configs/e2e_mask_rcnn_R_101_FPN_1x.yaml权重为训练后.pth文件；

3.2)运行预测代码python predictor.py，输出结果图。

本实施例经过实际实验，在Ubuntu 18.04.4LTS，CUDAVersion 10.1，Pytorch 1.0的具体环境设置下，对暴恐图片检测及暴恐程度分析模块使用python main.py进行训练，可以得到98％的准确率；在Ubuntu 18.04.4LTS，CUDAVersion 10.1，Pytorch 1.0的具体环境设置下，对暴恐场景分类及枪支识别模块中的暴恐场景分类单元使用python main.py进行训练，可以得到100％的准确率。

在Ubuntu 18.04.4LTS，CUDAVersion 10.1，Pytorch 1.0的具体环境设置下，对暴恐场景分类及枪支识别模块中的枪支识别单元使用python–-coco_path coco--coco_path./coco–depth 50–epochs 200运行，可得实验数据为：

表1枪支识别单元不同情况下的平均查准率

IoU	area	maxDets	平均查准率(％)
				0.50:0.95	all	100	87.6
0.50	all	100	93.3
				0.75	all	100	89.9
0.50:0.95	small	100	82.6
				0.50:0.95	medium	100	89.1
0.50:0.95	large	100	96.0

表2枪支识别单元不同情况下的平均查全率

IoU	area	maxDets	平均查准率(％)
				0.50:0.95	all	1	70.1
0.50:0.95	all	10	90.8
				0.50:0.95	all	100	90.8
0.50:0.95	small	100	84.4
				0.50:0.95	medium	100	92.2
0.50:0.95	large	100	100.0

经过实验，在linux系统Ubuntu 16.04.6、python 3.6.8、GCC 7.3.0、tensorflow1.9.0、CUDA 10.1的环境下，对ICDAR2015测试数据集的实验数据为：

表3暴恐文本定位单位检测结果

Database	Precision(％)	Recall(％)	F-measure(％)
				ICDAR2015	74.62	80.91	77.61

经过实验，在Windows 10、cuda 10.0、PyTorch 1.2.0的具体环境设置下，对暴恐文本识别单元使用python demo.py进行测试，可得到的实验数据如下所示：

表4暴恐文本识别单位检测结果

总图片数	有效图片数	正确识别数	正确率
				929	699	666	95.3％

对暴恐文本分析单元，在linux系统Ubuntu 16.04.6、python 3.6.8、GCC 7.3.0、tensorflow1.9.0、CUDA 10.1的环境下，使用python train.py进行训练，使用pythoneval.py进行测试，可得到如下实验结果：

表5暴恐文本分析单元检测结果

Model	Train_data准确率	Test_data准确率
			TextCNN	98.2625％	96.2000％

经过实验，在Window 10、Tensorflow 1.13.1的具体环境设置下，对暴恐头目识别模块使用02-face-embedding-and-recognition-classifier.ipynb文件进行训练，以及使用03-face-recognition.ipynb文件进行测试，可得到的实验数据如下所示：

表6暴恐政治头目识别模块对于正样本的检测结果

阈值	0.8	0.9	1.0	1.1	1.2
						错检率(％)	1.03	3.09	5.15	6.18	6.18
漏检率(％)	35.05	10.31	2.06	0.00	0.00

表7暴恐政治头目识别模块对于负样本检测结果

阈值	0.900	0.925	0.950	0.975	1.000	1.025	1.050	1.075
									错误数量	4	7	10	18	27	41	62	83
错误率％	0.34	0.60	0.86	1.54	2.31	3.51	5.31	7.11

经过实验，在Ubuntu 18.04.4LTS、CUDAVersion 10.1、Pytorch 1.0的具体环境设置下，对暴恐旗帜识别模块使用pythontrain.py进行训练，使用python test.py进行验证，使用python predictor.py进行前传，可得到如下实验结果：

表8暴恐旗帜识别模块检测结果

总图片数	正确识别数	漏识图片数	正确识别率
				303	284	19	93.7％

本发明能实现对于待检测图片多领域、高可行度的检测和分类。识别效率高、灵活性强，模型更新方便，各模型模块可根据使用情况定期进行强化训练，提高系统性能。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于深度学习的暴恐图片安全检测系统，其特征在于，包括：暴恐图片检测及暴恐程度分析模块、暴恐场景分类及枪支识别模块、自然场景下的图文分析模块、暴恐政治头目样本生成模块、暴恐政治头目识别模块和暴恐旗帜识别模块，其中：暴恐图片检测及暴恐程度分析模块、自然场景下的图文分析模块、暴恐政治头目样本生成模块和暴恐旗帜识别模块并联并分别接收图片信息，暴恐场景分类及枪支识别模块与暴恐图片检测及暴恐程度分析模块串联并接收经暴恐图片检测及暴恐程度分析模块判断为暴恐的图片且将图片分类及将图片中的枪支进行标记输出，暴恐政治头目识别模块与暴恐政治头目样本生成模块串联并接收经暴恐政治头目样本生成模块训练的暴恐政治头目的图片且将图片中的暴恐政治头目进行识别输出，自然场景下的图文分析模块输出含暴恐文字的图片信息，暴恐旗帜识别模块输出含暴恐旗帜的图片信息。

2.根据权利要求1所述的基于深度学习的暴恐图片安全检测系统，其特征是，所述的暴恐场景分类及枪支识别模块包括：并联的暴恐场景分类单元和枪支识别单元。

3.根据权利要求1所述的基于深度学习的暴恐图片安全检测系统，其特征是，所述的自然场景下的图文分析模块包括：依次串联的暴恐文本定位单元、暴恐文本识别单元和暴恐文本分析单元，其中：文本定位单元对输入的图片标定出图片中文字所在的区域，文本识别单元通过定位所截取的文本框进行识别输出，暴恐文本分析单元接收输入结果，并判断是否包含暴恐信息。

4.根据权利要求1所述的基于深度学习的暴恐图片安全检测系统，其特征是，所述的暴恐政治头目样本生成模块包括：图片特征编码单元、特征对抗生成单元，其中：图片特征编码单元将接收的图片进行规范处理，并将提取的图片特征输出至特征对抗生成单元，特征对抗生成单元将接收的图片特征向量线性叠加上已有的图像特征向量，最终输出重生成的图片。

5.根据权利要求1所述的基于深度学习的暴恐图片安全检测系统，其特征是，所述的暴恐政治头目的检测和识别模块包括：模型训练单元、数据处理单元和匹配结果单元，其中：模型训练单元和数据处理单元分别与匹配结果单元连接，模型训练单元读取暴恐政治头目图片样本生成模块生成的数据集中的图片和原有数据库中的暴恐政治头目图片并训练人脸分类模型，数据处理单元读取待测图片和原有数据库中的图片信息并将提取的人脸特征向量输出至匹配结果单元，匹配结果单元将接收的人脸特征向量利用模型训练单元训练得到的人脸分类模型，输出具有暴恐政治头目的图片。

6.根据权利要求1所述的基于深度学习的暴恐图片安全检测系统，其特征是，所述的暴恐旗帜识别模块包括：内置的深度学习网络、骨干网络和数据处理单元，其中：输入的图片信息依次经过内置的深度学习网络、骨干网络和数据处理单元，完成对暴恐旗帜的目标识别任务，实现对含暴恐元素输入图片的旗帜元素细分类。

7.一种基于权利要求1～6所述的系统的暴恐图片安全检测方法，其特征在于，输入图片至系统，分别进行暴恐图片检测及暴恐程度分析、自然场景下的图文分析、暴恐政治头目识别和暴恐旗帜识别，最终将分析及识别结果进行输出；

所述的暴恐图片检测及暴恐程度分析是通过暴恐图片检测及暴恐程度分析模块和暴恐场景分类及枪支识别模块各自对图片进行模型训练，暴恐图片检测及暴恐程度分析模块对图片进行的场景进行具体分类，同时暴恐场景分类及枪支识别模块将目标图片中的枪支进行枪支识别框选；

所述的自然场景下的图文分析是通过暴恐文本定位单元、暴恐文本识别单元和暴恐文本分析单元依次对图片进行模型训练，暴恐文本定位单元运用训练好的模型对暴恐文本定位，暴恐文本识别单元运用训练好的模型从图片中提取文本信息，暴恐文本分析单元运用训练好的模型从文本信息中判断是否为暴恐文本；

所述的暴恐政治头目识别是暴恐政治头目图片样本生成模块利用GAN网，根据数据库中原有的暴恐政治头目图片，生成一系列的表情和/或年龄变换后的暴恐政治头目图片作为样本扩充训练数据集，并与原有的暴恐政治头目图片一同输入暴恐政治头目识别模块，暴恐政治头目识别模块将识别的结果输出；

所述的暴恐旗帜识别是通过暴恐旗帜识别模块经模型训练后从输入图片中识别出暴恐旗帜。