CN109214275A

CN109214275A - 一种基于深度学习的低俗图片识别方法

Info

Publication number: CN109214275A
Application number: CN201810794432.2A
Authority: CN
Inventors: 操晓春; 赵炜; 李京知
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2019-01-15
Anticipated expiration: 2038-07-19
Also published as: CN109214275B

Abstract

本发明公开一种基于深度学习的低俗图片识别方法，该方法对上下半身检测网络进行训练，对上下半身低俗分类网络进行训练，训练采用困难样本挖掘，使得网络训练过程中对困难样本侧重训练，提高检测精度；对图片进行低俗级联检测，检测过程中上下半身检测得分阈值采用动态调整，检测获得的上下半身区域缩放后输入至上下半身低俗分类网络，进行低俗识别。本发明在图片低俗识别中具有极佳的精度，在正负样本比例悬殊的情况下，仍能保持极低的误报率，具备良好实用性。

Description

一种基于深度学习的低俗图片识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种能够进行低俗图片识别的方法。

背景技术

随着网络信息时代的到来，互联网迅速发展，信息数据的存储和传播越来越便捷迅速，大量的信息数据在网络中产生和传播。在商业广告、网络社交和游戏娱乐等各个领域，图片作为信息传播的重要载体而大量使用，每天海量的图片会在网络上生成并传播，渗透到网民的生活之中。

为了博取眼球吸引用户和增加用户流量，不法分子和网站常常生成和传播大量的低俗色情图片，这对网络环境造成了极大危害。尤其，在青少年占据网络用户主体的当下，大量低俗色情图片的传播对青少年的健康成长更是造成了巨大伤害。对于网络图片的发布，各个网站以及国家网络监管部门都会进行一些审查，但主要依靠人工检查。人工识别的方式代价昂贵，效率低下。对于像微博等大量图片的产生聚集地，完全依靠人工识别是不切实际的，因而实现图片的低俗识别，净化网络环境，具有重大意义和应用价值。

低俗识别技术伴随着计算机视觉研究一直不断发展进步，目前而言，低俗识别的方法可以归为三类。第一类是基于皮肤检测的低俗识别方法。对于色情图像而言，最为直观的便是身体大面积裸露。因而，最初对于色情图像的检测，就是提取皮肤特征，通过先检测出图像中的人体皮肤，再进一步进行色情判别。第二类是基于特征表达的低俗识别的方法。单纯依靠皮肤检测进行色情识别存在着很大局限性，因而通过提取更多的图像特征，并进行特征再次表达，如采用编码统计以及词袋模型等操作，获得更加有效的特征进入分类器学习。第三类是基于深度学习的低俗识别方法。深度学习近年来迅速发展，在计算机视觉研究中获得巨大成功。在低俗识别中，深度学习的方法也开始引入。

目前深度学习在低俗识别中的应用，主要是直接将图片输入卷积网络进行识别，实际应用中效果不甚理想。如何更好地利用深度学习，设计一种低俗图片识别方法极具挑战。

发明内容

鉴于此，本发明提出一种基于深度学习的低俗图片识别方法。该方法将低俗图片的识别通过上下半身检测和对应低俗识别两个阶段来实现，第一阶段采用检测网络框架，第二阶段采用识别网络。两者相结合的级联网络降低了识别难度，解决了现有深度学习低俗识别方法中，无法学习获得有效特征，实际应用中识别误报高的问题。该方法有效地提高了识别精度，准确地完成了低俗识别任务。

为解决上述技术问题，本发明采用如下技术方案：

一种基于深度学习的低俗图片识别方法，步骤包括：

获取人体图片数据，标注出人脸、上半身、下半身，训练上下半身检测网络；

将人体图片数据输入至训练好的上下半身检测网络中，得到上下半身区域数据，标注出人脸、上半身、下半身后形成训练集，训练上下半身低俗分类网络；

由训练好的上下半身检测网络、上下半身低俗分类网络构成级联低俗识别网络框架；

将待识别的图片输入至该级联低俗识别网络框架中，通过上下半身检测网络得到上下半身数据，通过上下半身低俗分类网络得到低俗识别得分，别出低俗图片。

进一步地，上下半身检测网络采用物体检测框架，其包括faster-rcnn、RFCN检测框架。

进一步地，上下半身低俗分类网络采用用于识别低俗图片和正常图片的二分类网络，其包括GoogleNet。

进一步地，上下半身检测网络对获取到的上下半身检测区域进行打分，若分数大于一检测得分阈值，则该区域确定为检测区域，从而得到上下半身区域数据。

进一步地，该检测得分阈值为根据如下公式得到的一个动态调整的值：

thresh＝max(max(score),thresh_base)；

其中thresh_base为基本得分阈值，score为检测区域的得分。

进一步地，thresh_base取0.8。

进一步地，所述低俗识别得分的公式为：

Score＝max(Score_upper,Score_lower)；

其中，Score_upper,Score_lower分别为上下半身区域的低俗识别得分；该得分由上下半身检测网络的softmax输出层获得，范围为0～1，其中，若图片未检测到上半身或下半身区域，取0。

进一步地，根据低俗识别得分，采用如下低俗分类决策函数f(x)识别出低俗图片：

其中，t为基本得分阈值；f(x)输出值为0或者1，0表示识别为正常图片，1表示识别为低俗图片。

进一步地，上下半身数据输入至上下半身低俗分类网络前，先对上下半身区域进行尺寸调整，以对应上下半身低俗分类网络的低俗识别。

进一步地，训练上下半身检测网络、上下半身低俗分类网络时，采用困难样本挖掘的方法，步骤包括：

训练数据准备：基于上述网络测试，挖掘容易误判的样本，将其加入训练数据，以对网络进行多次训练；

训练过程使用：在训练过程中，根据计算出的损失大小来选择样本，包括：对于上下半身检测网络，生成的区域中选择计算损失最大的批量样本进行训练学习；对于上下半身低俗分类网络，训练时忽略损失小样本，只将剩余样本用于训练时更新权重。

一种基于深度学习的低俗图片识别系统，包括存储器和处理器，该存储器存储计算机程序，该程序被配置为由该处理器执行，该程序包括用于执行上述方法中各步骤的指令。

本发明方法与现有的技术相比，优点在于：

(1)先进行上下半身检测，在对应进行低俗识别的方法，有效解决了由于低俗姿态多样，背景复杂，造成难以学习的困难。该方案的处理将低俗归结为两部分，即上半身裸露和下半身裸露，使得深度学习更好地学习到有效特征，提高识别效果。

(2)采用困难样本挖掘的方法训练，可以使得训练权重更新侧重于困难样本，忽略无效样本，提高算法识别精度。

(3)测试过程中，对于上下检测部分的得分阈值采用动态调整，可以减少进入识别网络的识别区域，提高算法整体速度，同时也可以提高检测精度。

附图说明

图1是实施例的一种基于深度学习的低俗图片识别方法流程图。

图2是通过本发明方法识别低俗图片的流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例的提供的发明方法的流程如图1所示，主要步骤如下：

(1)从相关图片网站爬取人体图片数据，并按照检测所需数据标注出人脸、上半身、下半身，选取采用合适检测网络框架，对上下半身检测网络进行训练，图1中将训练好的检测网络表示为检测模型，以示与未训练好的检测网络进行区别。训练时采用困难样本挖掘方法，多次训练调高精度。

该步骤中，检测网络的目的是检测出图片中人体的上下半身，用于后续低俗判别。检测网络的检测类别为三类：人脸、上半身、下半身。其中，人脸这一类别在后续低俗识别中并不使用，但加入后可以有效提高上下半身检测的准确率。检测网路框架可采用当下主流物体检测框架(faster-rcnn等)，本发明实验采用RFCN检测框架。

(2)将包含人体的图片数据通过检测网络，获取人体上下半身数据，经过标注处理，标注出人脸、上半身、下半身后形成训练集。选取分类网络，分别训练针对上半身和下半身的低俗分类网络，图1中将训练好的分类网络表示为分类模型，以示与未训练好的分类网络进行区别。训练时同样也采用困难样本挖掘方法，多次训练调高精度。

该步骤中，分类网络为二分类网络，即低俗与正常。通过步骤(1)中的训练后的上下半身检测网络对图片数据进行检测，可获得大量人体上下半身数据，进行标注，在数据处理增强后，将其作为低俗分类网络的训练数据。本发明中采用的分类网络为GoogleNet。

步骤(1)(2)中训练网络时均采用困难样本挖掘的方法，该方法分为训练数据准备和训练过程使用两个部分。训练数据准备阶段，采用的方法是将训练收敛的网络用于测试，挖掘容易误判的样本，将其加入训练数据，进一步多次训练网络。而训练过程使用阶段，在训练过程中，根据计算出的损失(loss)大小来选择样本。具体为：在上下半身检测网络中，生成的区域(proposal)中选择计算损失最大的批量(batch_size)样本进行训练学习；在对应的低俗识别中，训练学习时则忽略损失小样本，只将剩余样本用于训练学习时更新权重。

(3)将上述训练完毕的网络进行对接，形成级联识别框架，对待识别的目标图片进行级联识别，识别出低俗图片。

本步骤的级联识别低俗图片如图2所示，主要由上下半身检测和低俗识别两部分构成，执行过程如下：

a)将图片输入上下半身检测网络进行检测，获取上下半身区域。其中，上下半身检测得分阈值采用动态调整策略。

b)对于获取到上下半身区域，按照上下半身低俗分类网络输入对其进行大小调整，之后输入对应网络对其进行低俗识别。

c)根据上下半身的低俗识别结果，进行低俗分类决策，给出目标图片的低俗识别结果。

对于检测阈值调整策略和分类决策方法详细描述如下：

(1)检测得分阈值动态调整

在检测中，通常设定一个检测得分阈值(thresh)。对于获取到的检测区域(proposal)，检测网络会给出得分(score)，若其大于该阈值，则该区域确定为检测区域。在本方法中对于该检测得分阈值并不设定为一个常量，而是一个动态调整的值，其计算公式如下：

thresh＝max(max(score),thresh_base) (1)

其中thresh_base为基本得分阈值，本方法中实验取值设为0.8；score为检测区域(proposal)的得分。根据公式可以看出阈值取最高得分和基本得分阈值的较大值，那么最终检测所获取的上下半身区域若存在，则为得分最高的一个或若干个(top1或topn)。

采用该策略的原因在于，本方法最终的目的是对图片进行低俗判别，并不需要获取所有的上下半身区域。该动态调整使得只将最有可能的检测区域输入分类网络进行识别，减少了进行识别的检测区域，极大地加快了算法速度，同时该阈值调整方案可以改善由于固定阈值设置过低带来的误检问题，提高算法精度。

(2)低俗分类决策

在获取上下半身检测区域后，需要分别对其进行低俗识别，而对整张图片的低俗识别结果则需要综合两者的结果。最终的低俗判别得分采用如下公式：

Score＝max(Score_upper,Score_lower) (2)

其中，Score_upper,Score_lower分别为上下半身区域低俗识别的得分。测试时，可由低俗分类网络的softmax输出层获得，范围为0与1之间。当然，若某一图片中未检测到上半身或下半身的区域，则其低俗识别的得分为0。之后，将两者的最大值作为该图片的最终低俗识别得分。

根据低俗识别得分进行判断。令f(x)为低俗分类决策函数，输出值为0或者1。0表示该图片为正常图片，1表示该图片为低俗图片，决策函数f(x)定义如下：

其中t为低俗得分判定阈值，本方法中实验取值设为0.8。

为证明本发明方法的技术效果，对其进行测试，测试环境及实验结果如下：

(1)测试环境：

系统环境：ubuntu14.04；

处理器：Xeon(R)CPU E5-1603v3@2.80GHz x 4；

GPU：Titan X；

测试使用深度学习开源框架：Caffe开源框架。

(2)实验数据：

网络训练数据：

上下半身检测：图片网站爬取的人体写真图片共2000张，标注相关信息(人脸、上半身、下半身)。

低俗识别：通过检测网络获取处理后的人体上下半身数据。上半身和下半身数据各2万张，其中正负样本比例均为1:1。

低俗测试数据：ImageNet数据集(120万张)。

评估方法：精度、误报率。

(3)实验结果：

本发明方法最终为用于实际网络，而在实际网络中正负样本的比例极其悬殊，故实验采用ImageNet数据集来测试(数据量足够大，且正负样本比例悬殊)。评估指标采用精度和误报率(实际运用中的关注点)。对比实验方法如下：

(a)直接的深度学习低俗二分类网络框架；

(b)本发明方法的级联低俗识别网络框架。

方法序号	检出低俗图片数	误报图片数	识别精度	误报率
					(a)	3031	485	84.00％	16.00％
(b)	2620	187	92.86％	7.14％

通过上表的实验结果可知，以往方法在样本比例悬殊的情况下，误报率较高，而本发明方法具备高精度低误报的效果，更适合于实际运用，减轻进一步人工复审的工作量。

此外，本发明方法中的检测网络框架和识别网络均可采用其他网络结构，通过采用更好地网络结构框架，本发明方法或可取得更为优秀的低俗识别效果。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于深度学习的低俗图片识别方法，步骤包括：

2.如权利要求1所述的方法，其特征在于，所述上下半身检测网络采用物体检测框架，包括faster-rcnn、RFCN检测框架；所述上下半身低俗分类网络采用用于识别低俗图片和正常图片的二分类网络，包括GoogleNet。

3.如权利要求1所述的方法，其特征在于，所述上下半身检测网络对获取到的上下半身检测区域进行打分，若分数大于一检测得分阈值，则该区域确定为检测区域，从而得到所述上下半身区域数据。

4.如权利要求3所述的方法，其特征在于，所述检测得分阈值为根据如下公式得到的一个动态调整的值：

thresh＝max(max(score),thresh_base)；

其中thresh_base为基本得分阈值，score为检测区域的得分。

5.如权利要求4所述的方法，其特征在于，thresh_base取0.8。

6.如权利要求1或3所述的方法，其特征在于，上下半身数据输入至上下半身低俗分类网络前，先对上下半身区域进行尺寸调整，以对应上下半身低俗分类网络的低俗识别。

7.如权利要求1所述的方法，其特征在于，所述低俗识别得分的公式为：

Score＝max(Score_upper,Score_lower)；

其中，Score_upper,Score_lower分别为上下半身区域的低俗识别得分，该得分由上下半身检测网络的softmax输出层获得，范围为0～1，其中，若图片未检测到上半身或下半身区域，取0。

8.如权利要求7所述的方法，其特征在于，根据低俗识别得分，采用如下低俗分类决策函数f(x)识别出低俗图片：

9.如权利要求1所述的方法，其特征在于，训练所述上下半身检测网络、上下半身低俗分类网络时，采用困难样本挖掘的方法，步骤包括：

基于上下半身检测网络、上下半身低俗分类网络测试，挖掘容易误判的样本，将其加入训练数据，以进行多次训练；

在训练过程中，根据计算出的损失大小来选择样本，包括：对于上下半身检测网络，生成的区域中选择计算损失最大的批量样本进行训练学习；对于上下半身低俗分类网络，训练时忽略损失小样本，只将剩余样本用于训练时更新权重。

10.一种基于深度学习的低俗图片识别系统，包括存储器和处理器，该存储器存储计算机程序，该程序被配置为由该处理器执行，该程序包括用于执行上述权利要求1至9任一所述方法中各步骤的指令。