CN109410184B

CN109410184B - 基于稠密对抗网络半监督学习的直播色情图像检测方法

Info

Publication number: CN109410184B
Application number: CN201811172835.XA
Authority: CN
Inventors: 周建政; 明建华; 郭东岩; 潘翔
Original assignee: TIANGE TECHNOLOGY (HANGZHOU) CO LTD
Current assignee: TIANGE TECHNOLOGY (HANGZHOU) CO LTD
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2020-08-18
Anticipated expiration: 2038-10-09
Also published as: CN109410184A

Abstract

本发明提出了一种基于稠密对抗网络半监督学习的直播色情图像检测方法；在每一层都直接连接输入直播图片和损失函数，提高网络稠密度，减轻梯度消失现象。这种处理方法使生成对抗网络鉴别模型强化了模型特征表达能力，提高直播图片识别精度；构建基于对抗网络的半监督学习模型，对部分带标签数据进行离线学习，通过对直播图像生成空间的拟合，使得以有限的标签信息，最大限度提高模型对色情图像的鉴别能力；设计了一种循环渐进式的训练数据库构建方法，极大程度降低了人工成本，提高本发明的实际应用价值；本发明设计的半监督学习方法在一定程度上降低训练数据人工标注强度的同时，有效提高色情图像的检测精度。

Description

基于稠密对抗网络半监督学习的直播色情图像检测方法

技术领域

本发明涉及计算机视觉领域的多媒体大数据处理与分析，特别涉及一种基于稠密对抗网络半监督学习的直播色情图像检测方法，属于机器学习及机器视觉领域。

背景技术

当前网络直播平台作为信息传播的一种新渠道成为了一种崭新的社交媒体，其传播的实时性，快速性和不受地域限制等特点深受大众欢迎，但是这也带来新的问题。国家公共信息网络安全监察规定，网络直播禁止纹身、色情、低俗、暴力、约架等不良行为。将专项整治工作，加强对网络直播平台的规范管理。如何有效的管理网络直播，使其规范文明的传播信息，是平台管理者和有关执法部门共同关注的重点。传统的检测算法对直播画面识别精度不高，同时人工标定耗时耗力，直播环境多样等因素都影响直播画面检测无法达到检测预期目标。

从已有发明来看，目前发明主要采用传统的皮肤检测和传统分类方法，检测准确率需要进一步提高。例如CN104484683A对待分析图片进行扫描以获取该待分析图片中的若干区域，对这些区域进行分析，判断这些区域中是否包含黄色图像中的敏感部位，如果包含，则该待分析图片为黄色图片。不是对整张图片进行整体分析，而是对图片中的各个区域进行分析，这样，可以对不同大小的敏感区域进行检测，快速、准确地对黄色图片进行判定，减少误识别，提高黄色图片的召回率，可以准确、有效、全面地禁止黄色图片的传播。CN101763502B本发明公开一种高效的敏感图像的检测方法及其系统，包括：收集敏感图像样本和正常图像样本建立训练集并提取兴趣点，结合肤色模型对兴趣点进行过滤，去掉或保留与肤色无关或相关的兴趣点，提取兴趣点处的局部不变量特征并进行聚类，建立数据驱动的树形金字塔模型，在此基础上针对每一幅图像提取多分辨率直方图特征；采用金字塔匹配算法计算任意两幅图像的相似度，并生成核函数矩阵；利用得到的核函数矩阵对支持向量机分类器进行训练，得到分类器参数，并对新图像样本进行检测，判定其是否为敏感图像。本发明可以高效的对互联网上的敏感图像进行检测并过滤，使广大青少年在享受互联网所带来的便利同时免受不良信息的毒害。CN104680189B本发明公开了一种基于改进词袋模型的不良图像检测方法，主要解决传统词袋模型在检测不良图像过程中颜色描述不准确、关键特征点提取不全面、特征描述复杂、局部区域描述不精确的问题。另外一方面，深度学习是一类新兴的多层神经网络学习算法，具有多层非线性映射的深层结构，可以完成复杂的函数逼近是深度学习优势之一。余明扬等人针对通常使用的色情图像检测方法中难以获取准确的色情图像特征的问题,提出一种以数据为导向基于深度卷积神经网络来获取图像特征的色情图像检测方法。对含色情内容和不含色情内容的图片数据集进行数据增强处理,接着使用Inception模块设计及建立卷积神经网络模型；使用批量随机梯度下降算法训练卷积神经网络获取色情图像特征；使用训练好的模型识别一张图像是否是色情图像。

近些年来随着网络上可获得的信息量不断增多，在大数据集上进行图像分类不仅在时间开销上还是计算开销上都不乐观。深度学习对大量标签数据的依赖是显而易见的，长久以来，科学家们都在探索使用尽量少的标签数据，希望实现从监督式学习到半监督式学习再到最后的无监督式学习的转化。而对抗网络实现了采用尽量少的标签数据进行半监督学习达到更理想的效果。

而本发明提出的一种基于对抗网络半监督学习的直播色情图像检测方法就是通过对抗网络进行半监督学习，并运用于色情图片的检测中。

发明内容

为了解决现有图像分类技术存在的大量标记样本、训练时间长、分类精度低的问题，本发明提供一种基于稠密对抗网络半监督学习的直播色情图像检测方法。

本发明解决其技术问题所采用的技术方案是：

一种基于稠密对抗网络半监督学习的直播色情图像检测方法，所述方法主要包括初始训练数据采集及标注、稠密对抗网络半监督学习模型的构建及训练和图像检测测试这几个主要过程。

步骤一、初始训练数据采集及标注；

步骤1.1：利用人工或软件辅助手段从直播平台截取大量疑似色情图片及普通图像；

步骤1.2：对采集图像集进行部分人工标注，其中标签0代表普通图像、标签1代表色情图像；

步骤1.3：经过上述步骤得到带标签的初始训练集C_s，及不带标签的初始训练集C_u；

步骤二、对抗网络半监督学习模型的构建及训练；

步骤2.1：以在ImageNet图像库上基础上，构建稠密对抗网络半监督学习模型；

步骤2.2：稠密对抗网络模型由鉴别网络结构D(x)和生成网络结构G(z)构成；其中D(x)的输入为图像，输出为二维向量，G(z)的输入为随机噪声，输出为生成的图像；

步骤2.3：模型目标函数为

其中D(x)[1]表示向量的第二个元素，z表示随机噪声，L(x)为样本x的标签，函数E表示数据x在其所属数据集中的期望；

步骤2.4：利用交替优化方法对步骤2.3中的目标函数进行优化；

步骤三、迭代优化鉴别网络结构模型D(x)；

步骤3.1：选择直播画面中采集的实时图像，并做同样的预处理增强操作；

步骤3.2：利用步骤二中训练好的模型对直播数据进行检测，提取色情置信度较高的图像构成数据集；对该数据集进行部分人工标注，并将数据分别放入训练集C_s与C_u中；重复执行n次步骤二与步骤三；

步骤四、基于鉴别网络结构模型D(x)的色情图像检测；

步骤4.1：将待检测图像输入鉴别网络结构，从而得到该图像属于每种类别的概率；

步骤4.2：将图像最高概率值对应的类别作为图像的所属类别进行输出，从而得到图像检测结果。

可以在图像库上对所提方法进行测试，验证该算法有效性。

经过上述步骤的操作，即可实现对色情图像检测。

本发明的优势和意义：提出了一种基于稠密对抗网络半监督学习的直播色情图像检测方法；在每一层都直接连接输入直播图片和损失函数，提高网络稠密度，减轻梯度消失现象。这种处理方法使生成对抗网络鉴别模型强化了模型特征表达能力，提高直播图片识别精度；构建基于对抗生成网络结构的半监督学习模型(网络结构如图2所示)，对部分带标签数据进行离线学习，通过对直播图像生成空间的拟合，使得以有限的标签信息，最大限度提高模型对色情图像的鉴别能力；设计了一种循环渐进式的训练数据库构建方法，极大程度降低了人工成本，提高本发明的实际应用价值；本发明设计的半监督学习方法在一定程度上降低训练数据人工标注强度的同时，有效提高色情图像的检测精度。

附图说明

图1是一种基于对抗网络半监督学习的直播色情图像检测方法流程图。

图2是本发明用到的生成对抗网络框架示意图。

具体实施方式

为了更好的说明本发明的技术方案，下面结合附图，通过一个实施例，对本发明做进一步说明。

本实施案例中色情图像内容定义为：透过视觉描绘或表现裸体、性器官、性交等，与性有关的形象，使观赏者产生性兴趣和性兴奋的图像。以色情图像为正样本、非色情图像为负样本。由于人工收集样本图像具有周期长、数量少、成本高等特点，不能完全满足模型训练需要的大量样本图像，因此需要采取其他方法进行样本图像的增强处理，能在一定程度上提高模型训练的识别率。

步骤一、初始训练数据采集及标注；

步骤1.1：利用人工或辅助软件从各类直播平台下载获得直播画面样本，包含大量疑似色情图片及普通图像；

步骤1.2：对直播场景的后台视频自动截图获得，筛选共计产生30万张样本图片(其中色情图像和非色情图像大致比率为1∶1)；

步骤1.3：对采集图像集进行部分人工标注，从这30万张样本集中，随机选取10％的样本作为有标签样本集，剩余的90％样本作为无标签样本集。其中标签0代表普通图像、标签1代表色情图像；

步骤1.4：对所有样本图像进行预处理。由于采集的样本来自不同的直播平台，规格大小不一。需要通过边缘算法对边界点邻域进行线性插

计算来拓展为宽高比例16：9的图像，再进行统一缩放到相同的224*224的尺寸规格，这样能有效的避免样本图像直接缩放而造成图形畸变的问题；

步骤1.5：经过上述步骤将有标签样本集C_s和无标签样本集C_u组成训练集。

步骤二、稠密对抗网络半监督学习模型的构建及训练；

步骤2.1：本方法以在ImageNet图像库基础上，，借助生成对抗网络理论技术构建网络模型；

步骤2.2.1建立生成器，构造一个五层全连接网络，该网络的每层卷积核数由输入至输出依次为64、128、64、32、64，随机初始化该网络中各节点参数随机初始化该网络中各节点参数，得到初始化后的生成网络结构；

步骤2.2.2：建立鉴别器，鉴别器网络的结构类似CNN分类模型，卷积网络结构采用稠密连接，将网络中的所有层两两都进行了连接，使得网络中每一层都接受它前面所有层的特征作为输入。从而使得网络基本结构主要包含DenseBlock和transition layer两个组成模块。其中Dense Block为稠密连接的highway的模块，transition layer为相邻2个Dense Block中的那部分。本设计采用的Dense Block模块，其中层数为5，即具有5个BN+Relu+Conv(3*3)这样的layer，网络增长率为4，简单的说就是每一个layer输出的featuremap的维度为4。这里，由于DenseNet的每一个Dense Block模块都利用到了该模块中前面所有层的信息，即每一个layer都和前面的layer有highway的稠密连接。假设一个具有L层的网络，那么highway稠密连接数目为L^*(L+1)/2。在保持其他层不变，将最后全连接输出层节点数为分类类别数量2。这种网络中存在着大量密集的连接，这样的结构在有效解决梯度消失问题，同时强化特征传播，支持特征重用，大幅度减少参数数量。随机初始化该网络中各节点参数，最后输出层为节点参数为待分类类别数，得到初始化后的对抗网络；

步骤2.3：模型目标函数为

其中D(x)[1]表示向量的第二个元素，z表示随机噪声，L(x)为样本x的标签，函数E表示数据x在其所属数据集中的期望；接下来讨论如何根据该目标函数对网络模型进行训练：：从均匀分布函数中随机产生100个噪声，将噪声输入生成网络结构后的输出作为100个生成样本z⁽ⁱ⁾，从有标签样本集中随机选取100个有标签样本和从无标签样本集中随机选取100个无标签样本x⁽ⁱ⁾；利用鉴别网络损失梯度下降方法，计算当前输入300个样本后鉴别网络的损失值-((1-y)log(1-D(G(z)))+ylogD(x))，用损失值更新鉴别网络的参数

利用生成网络结构损失梯度下降方法，计算当前输入300个样本后生成网络结构的损失值(1-y)log(1-D(G(z)))，用损失值更新生成网络结构的参数

判断更新生成网络结构和鉴别网络参数的次数是否为200，若是，则完成对抗网络的交叉训练，执行步骤下一步，否则，重复执行当前步骤；

步骤2.4：对样本集进行分类：从样本集任选一个样本，输入到交叉训练后的对抗网络中；将对抗网络中最后一层所有节点的输出值，按照从大到小进行排序；将对应排序后输出值最大节点的序号，作为节点所在样本的类别标签；判断是否选取完样本集中所有的样本，若是，执行步骤下一步，否则，重复执行当前步骤；

步骤2.5：输出样本集中所有样本的类别标签，输出层最终输出为一个二维向量Out(x_fake/x_real，0/1)；

步骤三、迭代优化鉴别网络结构模型D(x)；

步骤3.1：选择直播画面中采集的实时图像，经过边缘算法对边界点邻域进行线性插

计算来拓展为宽高比例16∶9的图像，再缩放至224*224规格的相同的预处理操作；

步骤四、基于鉴别网络结构模型D(x)的色情图像检测；

步骤4.2：将图像最高概率值对应的类别作为图像的所属类别进行输出，从而得到图像检测结果；

步骤4.3：在图像库上对所提算法进行测试，验证该算法有效性。

经过上述步骤的操作，即可实现对测试图像的快速检测。为了验证所提算法有效性，发明人从直播平台上搜集大量图像数据，并对其进行人工标注，最终得到10000张色情图像、10000张普通图像。算法在该数据库上的检测精度为98.4％，充分说明了所提算法的有效性。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例，用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于稠密对抗网络半监督学习的直播色情图像检测方法，其特征在于包括如下步骤：

步骤一、采集初始训练数据，对初始训练数据进行部分标注；得到带标签的初始训练集C_s，及不带标签的初始训练集C_u；

步骤二、对抗网络半监督学习模型的构建及训练；所述的对抗网络由鉴别器和生成器构成；

步骤2.1：建立生成器，构造一个五层全卷积网络，随机初始化该网络中各节点参数，得到初始化后的生成网络结构；

步骤2.2：建立鉴别器，鉴别器网络的卷积网络结构采用稠密连接，将网络中的所有层进行两两连接，使得网络中每一层都接受它前面所有层的特征作为输入，从而使得网络基本结构包含DenseBlock和transition layer两个组成模块；其中Dense Block为稠密连接的highway的模块，transition layer为相邻两个Dense Block中的连接结构；所述的DenseBlock模块层数为5，网络增长率为4，每一个Dense Block模块都利用到了该模块中前面所有层的信息，即每一个layer都和前面的layer有highway的稠密连接；将最后全连接输出层节点数设为分类类别数量；随机初始化该网络中各节点参数，进而得到初始化后的鉴别网络结构；

步骤2.3：对抗网络模型的训练：从均匀分布函数中随机产生N个噪声，将噪声输入生成网络结构后的输出作为N个生成样本z⁽ⁱ⁾，从带标签的初始训练集中随机选取M个有标签样本和从不带标签的初始训练集中随机选取K个无标签样本x⁽ⁱ⁾；利用对抗网络损失梯度下降方法，计算当前输入M+N+K个样本后对抗网络的损失值-((1-y)log(1-D(G(z)))+y log D(x))，用损失值更新对抗网络的参数

利用生成网络结构损失梯度下降方法，计算当前输入M+N+K个样本后生成网络结构的损失值(1-y)log(1-D(G(z)))，用损失值更新生成网络结构的参数

判断生成网络结构和对抗网络的参数的更新次数是否达到要求，若是，则完成生成网络结构与对抗网络的交叉训练，执行步骤下一步，否则，重复执行当前步骤；

步骤2.4：对初始训练集进行分类：从初始训练集任选一个样本，输入到交叉训练后的对抗网络中；将对抗网络中最后一层所有节点的输出值，按照从大到小进行排序；将对应排序后输出值最大节点的序号，作为样本的类别标签；判断是否选取完初始训练集中所有的样本，若是，执行步骤下一步，否则，重复执行当前步骤；

步骤2.5：输出初始训练集中所有样本的类别标签，输出层最终输出为一个二维向量out(x_fake/x_real，0/1)；

步骤三、迭代优化鉴别网络结构模型D(x)；

步骤3.1：选择直播画面中采集的实时图像，做预处理增强操作；

步骤3.2：利用步骤二中训练好的模型对直播数据进行检测，提取色情置信度较高的图像构成数据集；对该数据集进行部分标注，并将数据分别放入训练集C_s与C_u中；重复执行n次步骤二与步骤三；

步骤四、基于鉴别网络结构模型D(x)的色情图像检测；