CN111310026A

CN111310026A - 一种基于人工智能的涉黄涉恐监测方法

Info

Publication number: CN111310026A
Application number: CN202010055347.1A
Authority: CN
Inventors: 谢世朋; 袁柱柱; 庄文芹
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-19

Abstract

本发明公开了一种基于人工智能的涉黄涉恐监测方法，通过爬虫网络抓取图片或视频信息，基于深度学习融合图片整体内容；提取图片或视频特征并进行分类；通过卷积神经网络方法进行建模，对人体各部位进行跟踪定位来判断人体姿态；构建深度网络框架，检测特殊敏感部位；通过深度学习的自然场景文字识别技术过滤色情、暴恐多类图像、垃圾文字及敏感词；视频检测，包括以视觉语义概念理解为基础的视频检测和特殊标志Logo检测的敏感视频识别；评价模型，综合所述图片或视频的检测信息并进行评估，输出评价结果分值。本发明实现了对不良图片检测的深度研究，大大提高了不良图片检测率，精度高、速度快，降低了误报率。

Description

一种基于人工智能的涉黄涉恐监测方法

技术领域

本发明涉及图像检测技术领域，更具体的说是涉及一种基于人工智能的涉黄涉恐监测方法。

背景技术

目前，伴随着信息时代的到来和互联网的告诉发展，网络已经成为人们生活中不可缺少的一部分。网络的蓬勃发展，在极大的促进信息交流、社会发展的同时，也为一些不法分子提供了可乘之机。暴力、色情等不良信息经由网络轻易的渗透到各个网民身边。据估计，互联网的世界中，各种色情网站数目不下50万个，并且在各种利益的驱使下色情网站的数目每天都在以300-400的数量不断增加。

为了快速准确识别色情淫秽网站，2013年，百度、腾讯、金山等10多个互联网公司组成“安全联盟”，内容审核工作繁重复杂。以Facebook为例， Facebook已有的审核员每天要处理大量的UGC内容，他们需要审核包括色情、暴力、犯罪等多个方面的不良内容，在判断内容时会承受很大的压力。他们必须区分开普通儿童写真和儿童色情照片，还要分清楚这是朋友间的玩笑还是侵犯性内容。他们必须做到细致地归类，需要将内容放到具体语境下进行区分。要是没有审核到位，Facebook很有可能会被指责侵犯公民的言论自由。审核员的工作，会对个人生活产生很大的负面影响。长期审查儿童色情作品后,他们会对接触孩子的人疑神疑鬼。观看太多色情图片甚至会影响他们的性生活和婚姻关系，他们已经对色情影像感觉到麻木。

但是，随着科技的发展，人工智能带来的令人激动的场景，通过机器学习，极大地提升了机器智能系统对于内容类型的识别和判断概率。

因此，如何提供一种基于人工智能的涉黄涉恐监测方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于人工智能的涉黄涉恐监测方法。

为了实现上述目的，本发明采用如下技术方案：

一种基于人工智能的涉黄涉恐监测方法，包括：

图片或视频的读取和预处理，通过爬虫网络抓取网络上图片或视频信息，基于深度学习融合图片整体内容，设定忍耐度阈值；提取图片或视频特征，对图片进行分类；

人体姿态判断，通过卷积神经网络方法进行建模，对人体各部位进行跟踪定位来判断人体姿态；

特殊敏感部位检测，构建深度网络框架，检测特殊敏感部位；

图像文本综合检测，通过深度学习的自然场景文字识别技术过滤色情、暴恐多类图像、垃圾文字及敏感词；

视频检测，包括以视觉语义概念理解为基础的视频检测和特殊标志Logo 检测的敏感视频识别；

评价模型，通过人体姿态判断、特殊敏感部位检测、图像文本综合检测和视频检测信息作为训练输入，结合神经网络，通过学习的评价模型，输出评价结果。

优选的，爬虫网络抓取图片或视频信息采用多线程，实现自动负载均衡能力，平衡各线程之间任务能力，提高了抓取效率。

优选的，通过特殊的优化Densnet卷积神经网络CNN图像特征提取技术对图片或视频特征进行提取，特征提取精准，效率高。

优选的，通过卷积神经网络方法进行建模，通过采用大卷积核获得感受野来推断人体的关节点，对人体各部位进行跟踪定位来判断人体姿态，保证不良图像判断的鲁棒性，实现人的面部躯干和四肢及敏感部位的跟踪定位，实现身体语言的解读。

优选的，所述特殊敏感部位检测通过优化的RCNN算法判断特殊敏感部位。

优选的，所述深度网络框架包括候选区域生成、特征提取、人体部位分类、位置精修，计算没有重复，完全在GPU中完成，大大提高了运行速度和增强了检测的鲁棒性。

优选的，所述特殊敏感部位检测通过改进的RCNN算法判断特殊敏感部位，改进的RCNN具有良好的迁移性，准确率较高。

优选的，所述以视觉语义概念理解为基础的视频检测包括关键帧提取、视觉语义概念检测、基于多线索融合的深度视频语义事件检测模型和基于所述深度视频语义事件检测模型的面向网络环境的多维度视频检测框架。

优选的，所述评价模型通过将人体姿态判断、特殊敏感部位检测、图像文本综合检测和视频检测信息数据归一化，使用神经网络进行网络训练学习，得到最优的网络参数和评价结果，并将评价结果与所述忍耐度阈值相比较，判断是否构成不良图片或视频。

优选的，所述图像文本综合检测结合CNN的图像特征提取技术和基于 RNN的序列翻译技术用于自然场景文字识别，自动化程度较高，避免字符分割问题，实现端到端的无约束字符定位和识别。

优选的，所述特殊标志Logo检测的敏感视频识别通过改进的RCNN深度学习算法自动提取Logo视频的特征，归纳总结，进行Logo的有效过滤，准确率和有效性较高。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于人工智能的涉黄涉恐监测方法，通过爬虫网络抓取图片或视频信息，基于深度学习融合图片整体内容，提取图片或视频特征，并进行人体姿态判断和特殊敏感部位检测、图像文本综合检测和视频检测，通过对图像、视频、文本等全方位检测，提高了监测方法的准确率；通过评价模型对输出的评价结果分值与忍耐度阈值相比较，得到判断结果。本发明通过深度学习网络，实现内部深度学习的计算、数据资源管理自动化以及算法训练流程化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的结构示意图。

图2附图为本发明提供的Websocket原理图。

图3附图为本发明提供的ResNet-B的框架图。

图4附图为本发明提供的ResNet-C的框架图。

图5附图为本发明提供的ResNet-D的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于人工智能的涉黄涉恐监测方法，包括：

为了进一步优化上述技术方案，爬虫网络抓取图片或视频信息采用多线程技术，实现自动负载均衡能力，平衡各线程之间任务能力。

为了进一步优化上述技术方案，通过特殊的优化Densnet卷积神经网络 CNN图像特征提取技术对图片或视频特征进行提取。

为了进一步优化上述技术方案，通过卷积神经网络方法进行建模，通过采用大卷积核获得感受野来推断人体的关节点，对人体各部位进行跟踪定位来判断人体姿态。

为了进一步优化上述技术方案，所述深度网络框架包括候选区域生成、特征提取、人体部位分类、位置精修。

为了进一步优化上述技术方案，所述特殊敏感部位检测通过改进的RCNN 算法判断特殊敏感部位。

为了进一步优化上述技术方案，所述以视觉语义概念理解为基础的视频检测包括关键帧提取、视觉语义概念检测、基于多线索融合的深度视频语义事件检测模型和基于所述深度视频语义事件检测模型的面向网络环境的多维度视频检测框架。

为了进一步优化上述技术方案，所述评价模型通过将人体姿态判断、特殊敏感部位检测、图像文本综合检测和视频检测信息数据归一化，使用神经网络进行网络训练学习，得到最优的网络参数和评价结果，并将评价结果与所述忍耐度阈值相比较，判断是否构成不良图片或视频。

为了进一步优化上述技术方案，所述图像文本综合检测结合CNN的图像特征提取技术和基于RNN的序列翻译技术用于自然场景文字识别。

为了进一步优化上述技术方案，所述特殊标志Logo检测的敏感视频识别通过深度学习算法自动提取Logo视频的特征，归纳总结，进行Logo的有效过滤。

本发明基于深度学习融合图片整体内容、人体的姿态判断和特殊部位检测而构建色情图像检测算法。通过使用优化的DensNet，然后精调公司标注的数据集中的权重。调整了步长、基本学习率等超参数以优化性能。该模型在运行时间快和占用内存轻巧。通过爬虫对网络上的图片信息进行读取，然后通过评价模型监听爬虫所读取的图片的信息，对图片进行分类，输出一张图

是否为黄色图像的得分，该得分在0到1之间，0.8以上基本为黄图，0.2 以下基本为非黄图，在此之间的图片是具有部分性幻想的图片。用户可根据对黄色图片的忍耐的度进行设定阈值管理。

所述优化的DensNet卷积神经网络如下：假设输入为一个图片X₀,，经过一个L层的神经网络，其中第i层的非线性变换记为H_i(*)，H_i(*)可以是多种函数操作的累加如BN、ReLU、Pooling或Conv等。第i层的特征输出记作X_i。

为了进一步优化信息流的传播，DenseNet提出了一种网络结构。其中，第i层的输入不仅与i-1层的输出相关，还与所有之前层的输出有关，记作:

X_l＝H_l([X₀,X₁,…,X_l-1])

其中[]代表concatenation(拼接)，既将X₀到X_l-1层的所有输出feature map 按Channel组合在一起。这里所用到的非线性变换H为BN+ReLU+Conv(3×3)的组合。

由于在DenseNet中需要对不同层的feature map进行cat操作，所以需要不同层的feature map保持相同的feature size，这就限制了网络中Down sampling的实现。为了使用Down sampling,作者将DenseNet分为多个 Denseblock。

在同一个Denseblock中要求feature size保持相同大小，在不同Denseblock 之间设置transitionlayers实现Down sampling，transitionlayer由BN+Conv(1 ×1)+2×2average-pooling组成。

在Denseblock中,假设每一个非线性变换H的输出为K个feature map,那么第i层网络的输入便为K0+(i-1)×K,这里我们可以看到DenseNet和现有网络的一个主要的不同点：DenseNet可以接受较少的特征图数量作为网络层的输出。原因就是在同一个Denseblock中的每一层都与之前所有层相关联，如果把feature看作是一个Denseblock的全局状态，那么每一层的训练目标便是通过现有的全局状态，判断需要添加给全局状态的更新值.因而每个网络层输出的特征图数量K又称为Growth rate，同样决定着每一层需要给全局状态更新的信息的多少，在实验中只需要较小的K便足以实现state-of-art的性能。

虽然DenseNet接受较少的k，也就是feature map的数量作为输出，但由于不同层feature map之间由cat操作组合在一起，最终仍然会是feature map 的channel较大而成为网络的负担。使用1×1Conv(Bottleneck)作为特征降维的方法来降低channel数量，以提高计算效率。经过改善后的非线性变换变为 BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)，使用Bottleneck layers的 DenseNet被作者称为DenseNet-B。在实验中,作者使用1×1卷积生成channel 数量为4k的feature map。

人体的姿态判断通过CNN来进行建模，通过采用的大卷积核来获得大的感受野，推断被遮挡的关节，保证不良图像的判断的鲁棒性，实现人的面部、躯干和四肢特别是敏感部位的跟踪定位，实现身体语言的解读，其检测结果被融合到总体打分。

特殊敏感部位检测的算法把目标检测的四个基本步骤，候选区域生成、特征提取、分类和位置精修统一到一个深度网络框架之内。所有计算没有重复，完全在GPU中完成，大大提高了运行速度和增强了检测的鲁棒性。由于改进的RCNN具有良好迁移性可以使用更大的，准确率近提升20％。

为了充分利用空间信息和先验知识，在所提出的方法中采用改进的 Mask-RCNN。根据肺部结节图像修改的基于ResNet的特征金字塔网络(FPN)，被用作Mask-RCNN的主干网络。然后可以使用Mask-RCNN通过结节的像素级先验知识提取适合于图像的金字塔特征图，接下来，通过扩展由 Mask-RCNN识别提供的结节边界框来获得感兴趣区域(ROI)进行特殊敏感部位的识别和分割。

在本发明中，将使用ResNet的三种调整和DenseNet来提升网络模型的效果。

对ResNet三种调整分别称为ResNet-B、ResNet-C和ResNet-D。

(1)ResNet-B，修改了ResNet的下采样块，改进部分就是将stage中做 downsample的residual block的downsample操作从第一个1×1卷积层换成第二个3×3卷积层。

(2)ResNet-C，进一步修改了input stem，改进部分就是将input stem部分的7×7卷积层用3个3×3卷积层替换。

(3)ResNet-D，再次修改了下采样块，改进部分是将stage部分做 downsample的residual block的支路从stride为2的1×1卷积层换成stride为 1的卷积层，并在前面添加一个池化层用来做downsample。

图像文本综合检测结合基于CNN的图像特征提取技术和基于RNN的序列翻译技术，提出了一种新的神经网络结构，用于自然场景文字识别任务，以达到以下两个目标：(1)使用自动学习的、结合上下文的特征取代人工定义的特征；(2)避免字符分割问题，实现端到端的无约束字符定位和识别。本发明通过结合语义分析和聚类分析，精准识别色情文字及涉黄文本；深度定制模型，建立多维度用户画像，高效识别宗教、枪支、血腥等敏感文本；实时共享违禁公库，支持自定义关键词，高效识别涉政文本。通过智能策略定制，高效地过滤色情、广告、涉政、暴恐等多类垃圾文字及敏感词、违禁变种，实现基于深度学习的自动化文本检测。

暴恐视频检测是以视觉语义概念理解为基础的暴恐视频检测，主要内容包括视频关键帧提取、视觉语义概念检测、基于多线索融合的深度视频语义事件检测模型，和基于该模型的面向网络环境的多维度暴恐视频检测框架。同时，暴恐视频中的Logo是用来标识该视频内容的重要标志，对涉恐涉暴视频的检测与识别起着非常重要的作用。特殊标志Logo检测的敏感视频识别系统作为涉恐涉暴视频检测系统的重要组成部分，为其提供视频Logo标志领域的线索特征。通过深度学习算法，使机器像人脑一样学习，能自动提取涉恐涉暴Logo 视频的特征，并自动归纳总结，从而实现Logo的有效过滤。我们通过基于改进的RCNN的深度学习网络针对暴恐logo进行检测，监测准确率95％以上，误检率小于3％。

所述评价模型通过人体姿态判断、特殊敏感部位检测、图像文本综合检测和视频检测信息作为训练输入，输出为图像/视频评分(0～100分)，实施过程如下：

(1)数据归一化

在这个步骤中，通过最大值归一化N1，N2归一化到0～1之间，具体公式如下：

其中N1_i表示第i个图像视频中能够检测出的图像判别表达输出数据， max(N1)表示图像/视频数据中，能够检测的最大的判别表达输出数据。

(2)训练网络

通过四层全连接网络对视频进行评分，具体是输入视频R，N1，N2参数，输出5种类别，分别对应评分1-5。设置迭代次数为500次，batch size为16，学习率为0.001。

本发明使用WebSocketAPI创建安全连接，原理图如图2所示。其中，a 表示客户端向服务器发送连接请求，b表示服务端向客户端回应，可以成功进行通信，c表示客户端向服务端发送消息“你好，服务端”，d表示服务端向客户端发送消息“你好，客户端”，e表示服务端向客户端发送消息“112256546846”。WebSockets承诺通过允许客户机建立到服务器的连接来补救这种情况，该连接将保持打开状态。使用WebSockets，服务器可以直接向客户端发送数据，而不需要不断地从客户端获取新的更新。这种类型的开放连接消除了网络开销，并允许连接保持空闲状态，直到客户机或服务器发起请求。在WebSocket协议中，客户端和服务器只需要完成一次握手，就可以直接在两者中间创建持久性的连接，并可以实现数据的双向传递。所以 WebSocket协议很显然的降低了网络通信的开销，并在Web服务器和客户机之间提供了高效、有状态的通信。

Websocket协议主要有两个阶段：握手和数据传输。握手由来自客户机的消息和来自服务器的握手响应组成。如果客户端和服务器都发送了它们的握手，当握手成功的话，紧接着就会进行数据的传输。数据传输是客户端和服务端都可以发送信息的双向通信信道，彼此独立，随意发送数据。在传输过程中，一个消息是由一个或多个帧的组成。WebSocket的消息不一定是一个完整的帧，它也有可能是被合并或分解后的片段消息。每个帧都有对应的帧类型，是同一个消息的所有帧的帧类型相同。

本发明公开提供了一种基于人工智能的涉黄涉恐监测方法，通过爬虫网络抓取图片或视频信息，基于深度学习融合图片整体内容，提取图片或视频特征，并进行人体姿态判断和特殊敏感部位检测、图像文本综合检测和视频检测，通过对图像、视频、文本等全方位检测，提高了监测方法的准确率；通过评价模型对输出的评价结果分值与忍耐度阈值相比较，得到判断结果。本发明通过深度学习网络，实现内部深度学习的计算、数据资源管理自动化以及算法训练流程化。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于人工智能的涉黄涉恐监测方法，其特征在于，包括：

图片或视频的读取和预处理，通过爬虫网络抓取网络上的图片或视频信息，基于深度学习融合图片整体内容，设定忍耐度阈值；提取图片或视频特征，对图片进行分类；

视频检测，包括以视觉语义概念理解为基础的视频检测和特殊标志Logo检测的敏感视频识别；

2.根据权利要求1所述的一种基于人工智能的涉黄涉恐监测方法，其特征在于，爬虫网络抓取图片或视频信息采用多线程。

3.根据权利要求1所述的一种基于人工智能的涉黄涉恐监测方法，其特征在于，通过特殊的优化Densnet卷积神经网络CNN图像特征提取技术对图片或视频特征进行提取。

4.根据权利要求1所述的一种基于人工智能的涉黄涉恐监测方法，其特征在于，通过卷积神经网络方法进行建模，通过采用大卷积核获得感受野与优化的RCNN算法的结合来推断人体的关节点，对人体各部位进行跟踪定位来判断人体姿态。

5.根据权利要求1所述的一种基于人工智能的涉黄涉恐监测方法，其特征在于，所述特殊敏感部位检测通过改进的RCNN算法判断特殊敏感部位。

6.根据权利要求1所述的一种基于人工智能的涉黄涉恐监测方法，其特征在于，所述深度网络框架包括候选区域生成、特征提取、人体部位分类、位置精修。

7.根据权利要求1所述的一种基于人工智能的涉黄涉恐监测方法，其特征在于，所述以视觉语义概念理解为基础的视频检测包括关键帧提取、视觉语义概念检测、基于多线索融合的深度视频语义事件检测模型和基于所述深度视频语义事件检测模型的面向网络环境的多维度视频检测框架。

8.根据权利要求1所述的一种基于人工智能的涉黄涉恐监测方法，其特征在于，所述评价模型通过将人体姿态判断、特殊敏感部位检测、图像文本综合检测和视频检测信息数据归一化，使用神经网络进行网络训练学习，得到最优的网络参数和评价结果，并将评价结果与所述忍耐度阈值相比较，判断是否构成不良图片或视频。

9.根据权利要求1所述的一种基于人工智能的涉黄涉恐监测方法，其特征在于，所述图像文本综合检测结合CNN的图像特征提取技术和基于RNN的序列翻译技术用于自然场景文字识别。

10.根据权利要求1所述的一种基于人工智能的涉黄涉恐监测方法，其特征在于，所述特殊标志Logo检测的敏感视频识别通过改进的RCNN深度学习算法自动提取Logo视频的特征，归纳总结，进行Logo的有效过滤。