CN107403200A

CN107403200A - 改进图像分割算法结合深度学习的多重不良图片分类方法

Info

Publication number: CN107403200A
Application number: CN201710680276.2A
Authority: CN
Inventors: 林飞; 潘练; 赵喜荣; 熊骁; 毛俊
Original assignee: Beijing Asia Century Technology Development Co Ltd
Current assignee: Beijing Asia Century Technology Development Co Ltd
Priority date: 2017-08-10
Filing date: 2017-08-10
Publication date: 2017-11-28

Abstract

改进图像分割算法结合深度学习的多重不良图片分类方法涉及信息技术领域尤其是图像识别技术领域，其特征在于包含：肤色识别，肤色区域的主要成分分析，深度学习，基于卷积神经网络的色情图片识别四个主要步骤；首先通过基于YCbCr理论的肤色像素检测与皮肤区域划分算法筛除掉非色情图片，未确定类别的图片将在特征提取以后进入基于LeNet5的卷积神经网络模型进行判别。与传统的基于肤色和特征的识别相比，本发明能较好地排除非人体部位图片的噪声影响，不受光线遮挡和人体姿势的约束的优势，可以大幅度提高传统色情图片分类的准确率；与一般的基于卷积神经网络的深度学习比较，不需要海量的标注图片，其次深度残差网络的特点决定了模型能更好地分析出色情图片的特点，只需十小时左右的训练，就可达到90%以上的识别效果。

Description

改进图像分割算法结合深度学习的多重不良图片分类方法

技术领域

本发明涉及信息技术领域，尤其是图像处理的技术领域。

背景技术

目前多数不良图片识别方法依据它们的识别对象，大致可以将其分为三类：传统的基于肤色检测、特征部位检测和新兴的基于神经网络的色情图片识别。

传统的色情图片识别算法，计算肤色在图片中的占比，以此来计算裸露程度，受限制于其理论基础，图片环境和光线的多样化、人种的多样性等使得很难建立完善的肤色模型及提高检测的准确率，申请号200410042877.3 的“一种色情图像检测方法”，通过将人脸区域面积与肤色区域面积的比值作为色情图片的判决依据；申请号200510048577.0 的“基于内容的网络色情图像和不良图像检测系统”，采用肤色检测以及基于肤色检测的姿态检测来识别色情图片。以上系统无法实现对很多边缘图片，例如对如泳装照，婴儿照，沙漠地理照片，医学临床照片进行准确分析。

同样的，特征部位检测同样受限于人体姿态多样性、光线遮挡，角度多样化等因素使得检测的准确率一直无法提升，如专利申请号201010237982.8的“一种基于肤色和特征部位联合检测的色情图片识别方法”。

而基于深度学习的色情图片识别算法需要海量的图片样本，尤其是需要提供数目十分庞大的标注的色情和非色情样本，而且对未曾在训练集中出现的类型图片分辨能力较差，无法适应网络图片格式图片内容多样化和差异化的特点，容易将未出现在非色情样本中的误判为色情图片，极大降低了系统的泛化能力和鲁棒性。

本发明用到的现有技术名词解释：

深度学习

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习的概念由Hinton等人于2006年提出。基于深信度网(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。同机器学习方法一样，深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如，卷积神经网络(Convolutional neural networks，简称CNNs)就是一种深度的监督学习下的机器学习模型，而深度置信网(Deep Belief Nets，简称DBNs)就是一种无监督学习下的机器学习模型。

图像分割

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。1998年以来，研究人员不断改进原有的图像分割方法并把其它学科的一些新理论和新方法用于图像分割，提出了不少新的分割方法。图像分割后提取出的目标可以用于图像语义识别，图像搜索等等领域。

Snake模型

Snake模型称为动态轮廓模型（Active Contour Model）是Kass与1987年提出的，它对于在噪声和对比度不敏感，能将目标从复杂背景中分割出来，并能有效的跟踪目标的形变和非刚体的复杂运动而被广泛用于图像分割和物体跟踪等图像处理领域。Snake模型主要原理是先提供待分割图像的一个初始轮廓的位置，并对其定义个能量函数，是轮廓沿能量降低的方向靠近。当能量函数达到最小的时候，提供的初始轮廓收敛到图形中目标的真实轮廓。 Snake模型能量函数是有内部能量函数和外部能量函数组成，内部能量控制轮廓的平滑性和连续性，外部能量由图像能量和约束能量组成，控制轮廓向着实际轮廓收敛，其中约束能量可根据具体的对象形态定义，使得snake具有很大的灵活性。 Snake模型发展10多年来，许多学者对于经典的snake模型做了改进，提出各种改进的snake模型，其中梯度矢量流（Gradient Vector Flow,GVF）模型扩大了经典snake的外力作用范围，加强了对目标凹轮廓边缘的吸引力，提高了传统的snake模型。

Snake算法

Snake算法需要给出初始的轮廓，然后进行迭代，使轮廓沿能量降低的方向靠近，最后得到一个优化的边界。能量函数包括内外力两方面，如边界曲率和梯度。由于用户无法估计迭代的最后结果，应用Snake 算法往往需要进行多次的交互工作。特别当目标比较复杂时，或与其它物体靠得较近时，初始的轮廓不易确定，而迭代的结果往往不能达到要求。主要公式为曲线能量Esnake=Vs+Vss+Eext；可以认为当Esnake的能量达到最小时snake曲线和物体的边缘一致。在图像边缘取一定个数的点来离散化snake线,那么这时就可以求这条snake线与原始图像间的曲线能量Esnake了；Vs对应的是一阶的平滑性，可转化为snake线中相邻像素之间的坐标差;差值越大能量越大平滑性也就越差；Vss对应的是二阶的刚性；可转化为snake线中某点和它相邻的线上点间的法线方向的增长度量;Eext是梯度场能量，是由原本的灰度图决定的，可转化为snake中某点在灰度图中的邻域梯度。求出了这三个；再以一定的方式进行循环逼近那个使Esnake最小的snake线就找到了轮廓。

OpenCV

OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库，可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效--由一系列 C 函数和少量 C++类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。OpenCV用C++语言编写，它的主要接口也是C++语言，但是依然保留了大量的C语言接口。该库也有大量的Python, Java and MATLAB/OCTAVE (版本2.5)的接口。这些语言的API接口函数可以通过在线文档获得。如今也提供对于C#,Ch, Ruby的支持。

ICA算法

ICA算法的研究可分为基于信息论准则的迭代估计方法和基于统计学的代数方法两大类，从原理上来说，它们都是利用了源信号的独立性和非高斯性。基于信息论的方法研究中，各国学者从最大熵、最小互信息、最大似然和负熵最大化等角度提出了一系列估计算法。如FastICA算法, Infomax算法，最大似然估计算法等。基于统计学的方法主要有二阶累积量、四阶累积量等高阶累积量方法。

SVM

SVM方法是通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间)，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题.简单地说，就是升维和线性化.升维，就是把样本向高维空间做映射，一般情况下这会增加计算的复杂性，甚至会引起"维数灾难"，因而人们很少问津.但是作为分类、回归等问题来说，很可能在低维样本空间无法线性处理的样本集，在高维特征空间中却可以通过一个线性超平面实现线性划分(或回归).一般的升维都会带来计算的复杂化，SVM方法巧妙地解决了这个难题:应用核函数的展开定理，就不需要知道非线性映射的显式表达式;由于是在高维特征空间中建立线性学习机，所以与线性模型相比，不但几乎不增加计算的复杂性，而且在某种程度上避免了"维数灾难".这一切要归功于核函数的展开和计算理论。选择不同的核函数，可以生成不同的SVM，常用的核函数有以下4种：⑴线性核函数K(x,y)=x·y；⑵多项式核函数K(x,y)=[(x·y)+1]^d；

⑶径向基函数K(x,y)=exp(-|x-y|^2/d^2)；⑷二层神经网络核函数K(x,y)=tanh(a(x·y)+b)。

卷积神经网络 Convolutional Neural Networks (LeNet)

卷积神经网络 Convolutional Neural Networks (LeNet)简称CNN，CNN（卷积神经网络）是传统神经网络的变种，CNN在传统神经网络的基础上，引入了卷积和pooling。与传统的神经网络相比，CNN更适合用于图像中，卷积和图像的局部特征相对应，pooling使得通过卷积获得的feature具有空间不变性。

现有技术中主要存在的问题有以下两点：

第一点，传统的色情图片识别算法，计算肤色在图片中的占比，以此来计算裸露程度，受限制于其理论基础，图片环境和光线的多样化、人种的多样性等使得很难建立完善的肤色模型及提高检测的准确率；

第二点，基于深度学习的色情图片识别算法需要海量的图片样本，无法适应网络图片格式图片内容多样化和差异化的特点，容易将未出现在非色情样本中的误判为色情图片，极大降低了系统的泛化能力和鲁棒性。

发明内容

基于现有技术的不足，本发明给出一种改进图像分割算法结合深度学习的多重不良图片分类方法，通过对图片的多重分析和过滤，可以极大地提高现有色情图片分类查准和查全率，降低图片因为光线和角度等各种原因的误判和遗漏率，同时可大幅度降低正负样本的需求数量，提高系统的可实现性。

改进图像分割算法结合深度学习的多重不良图片分类方法，其特征在于包含：肤色识别，肤色区域的主要成分分析，深度学习，基于卷积神经网络的色情图片识别四个主要步骤；

1）.肤色识别

（1）将图像转化到YCbCr颜色空间：肤色检测主要是根据肤色在颜色空间上的分布特征来检测图像中的肤色区域，由于YCbCr空间可以将亮度和色度分离，而其中CgCr色度受亮度变化的影响较少，且是二维独立分布，因此肤色模型选用YCbCr色度空间来构建；

（2）使用表达式(Cb > 77 And Cb < 127) And (Cr > 133 And Cr < 173)遍历图片的每个像素，检测像素颜色是否为肤色，属于表达式范围内的确定为肤色；

（3）将相邻的肤色像素归为一个皮肤区域，得到若干个皮肤区域，剔除像素数量极少的皮肤区域；

（4）我们定义非色情图片的判定规则是：皮肤区域的个数小于 2个为非色情图片，皮肤区域的像素与图像所有像素的比值小于 15%为非色情图片，皮肤区域数量超过60个为非色情图片；

2）.肤色区域的主要成分分析

（1）图像色彩降维处理即灰化处理：本方法所采用的测试图像均统一使用 JPG 格式图像，JPG 格式图像的颜色空间是RGB 颜色空间，即使用红、绿、蓝三原色组合来表示像素的颜色值，二进制值范围为0~255；由于彩色图像采用颜色空间，在对图像不做任何降维处理的情况下，算法系统所要处理的数据量将严重影响算法系统的处理效率，为提高处理效率对所有的图像库图片进行降维处理，具体的做法是调用 OpenCV 的库函数 cvCvtColor 来对图像进行处理，该函数的原型为：cvCvtColor(src, dest, CV_CONVERT_TYPE)；该函数接受三个参数，第一个参数为需要处理的源图像数据结构指针，第二个参数为处理后的输出图像数据结构指针，第三个参数为转换类型，即从哪种颜色空间转换为哪种颜色空间，本系统将图像从 RGB 空间转换为 GRAY 灰度空间，经过转换后，输出图像将采用单一的灰度值来表示像素点颜色值；

（2）图像尺寸归一化：把输入图片大小归一化，需要对图片进行下一步预处理，将图像大小压缩至长度小于320，宽度小于240的比例。本模块的具体实现可以采用 OpenCV 的库函数结合自己设计的算法实现，具体的做法是首先判断图像相比标准规格（256X256）是偏长还是偏宽；如果是偏长的话，则把图像的宽缩放成 256，因为图片偏长，所以图像的长缩放后比256要长，截取中间的长度为256的部分；如果图像为偏宽，则把图像的长缩放成256，截取中间的宽度为256的部分；如果图片本身规格小于256X256，则放大至该规格；由于大部分的图片的关键信息都集中于图像的中部，图像尺寸归一化，既降低了图片的数据量，又能把图片进行规格的归一化，而且提取了图片的关键信息；

（3）图像向量化处理：向量化处理把图片的灰度值矩阵拉伸为一个256X256维即65536维的列向量，矩阵不足位置的补齐0；

（4）基于改进后的Snake的图像分割：一般应用Snake算法时候，默认能量函数曲线的初始化位置就是整副图像的边界，然后让曲线上的蛇点收缩到该物体图像的真正边缘，因此该曲线就需要某种作用力来推动其贴近物体真正边缘上；弹性能量的收缩力作用在沿弹性能量函数曲线的切线方向上，本质就是最小化周长来抵达物体的真正边缘，可是对于凹陷物体的收敛效果不是很好；本算法中检测的乳房正是不规则的凹陷物体，可见乳房凹陷的部位，是无法收敛到乳房的真正的边缘，因此根据情况改进Snake算法中的内部能量函数；使用在二维空间中封闭曲线所围面积为内部能量替换基本 Snake 算法中的内部能量，从而得到了一个改进的 Snake 模型即面积Snake 模型；

初始化蛇点，根据边缘的图像分割检测出来的边缘，平均间隔 10 个像素点，取做初始迭代的控制点；选择改进后的能量函数，最小化(4-17)，进行迭代收缩，直到能量函数最小的时候停止收缩，分割出目标区域：

；

（5）特征提取：图像向量化处理后，样本库图片组成了特征处理模块的输入，即 ICA 算法的输入，一个待解混的图片灰度值向量矩阵；ICA 算法接受的输入是一组待解混的混合信号，输出是一组经过解混后的输入向量的独立成分矩阵，该组独立信号包含了组成不良图片的独立信号以及组成正常图片的独立成分；本算法系统采用的 ICA 算法是 ICA 算法中性能优越FAST ICA 算法，通过调用 OPENCV 的库函数实现；

（6）特征分类：通过特征提取出图像的特征向量将作为 SVM算法的输入数据，特征分类的作用就是要利用 SVM 算法，通过图像特征向量进行训练，得出不良图片和正常图片的分割面；通过特征提取得到的特征向量个数，即样本图片的个数为 M，则 SVM 输出的分割面形式为：Y = a1*x1+ a2*x2+……+am*xm，a1至am 为 SVM 输出的分割面系数；把图像的特征向量代入上式，根据判断得出的结果，与敏感图片训练集中分割出的向量比较，便可知道图像的特征向量聚集在哪个区间，是靠近不良图像的特征值区间还是靠近正常图片的特征值区间，从而可以判断图像包含的区域是正常区域还是敏感区域，敏感区域包括图片上乳房和生殖器的裸露；

3）.深度学习

（1）使用Convolutional Neural Networks (LeNet)，构建LeNet5：导入基本模块；定义LeNetConvPoolLayer即定义卷积加采样层；定义隐含层HiddenLayer；卷积神经网络CNN的基本结构就是输入层、卷积层conv、子采样层pooling、全连接层、输出层即分类器；使用两个卷积加采样层即LeNetConvPoolLayer；全连接层相当于MLP多层感知机中的隐含层HiddenLayer；输出层即分类器直接用LogisticRegression表示；

（2）定义分类器LogisticRegression，即Softmax回归，实现LeNet5 ，设置LeNet5包括两个卷积层，第一个卷积层有20个卷积核，第二个卷积层有50个卷积核；

（3）设置优化算法：优化算法采用批量随机梯度下降算法MSGD，先定义MSGD的一些要素，主要包括：代价函数，训练、验证、测试model、参数更新规则即梯度下降规则；

（4）训练模型和调整参数：程序中可以设置的参数包括：学习速率learning_rate、batch_size、n_epochs、nkerns、poolsize，根据具体训练的数据进行尝试调整和优化；

（5）提供一定量包含人体的非色情样本，如泳装、男性裸上身照片带入LeNet5让其深度学习，然后标注定量的未直接暴露敏感区域的色情样本包括各种体态的人体带入LeNet5让其深度学习，并根据系统结果调整参数，完成让LeNet5深度学习任务；

4）.基于卷积神经网络的色情图片识别

使用经过深度学习的LeNet5对完成肤色区域的主要成分分析步骤的图片进行自动识别，将非色情图片与色情图片自动分类。

有益效果

与传统的基于肤色和特征的识别相比，基于改进的snake算法方法能较好地排除非人体部位图片的噪声影响，不受光线遮挡和人体姿势的约束的优势，可以大幅度提高传统色情图片分类的准确率；与一般的基于卷积神经网络的深度学习比较，不需要海量的标注图片，其次深度残差网络的特点决定了模型能更好地分析出色情图片的特点，只需十小时左右的训练，就可达到90%以上的识别效果。

附图说明

图1是本发明的总体流程图。

具体实施方式

参考图1改进图像分割算法结合深度学习的多重不良图片分类方法包含四个主要步骤：肤色识别S1，肤色区域的主要成分分析S2，深度学习S3，基于卷积神经网络的色情图片识别S4；

步骤S1肤色识别：

步骤S2肤色区域的主要成分分析：

；

步骤S3深度学习：

步骤S4基于卷积神经网络的色情图片识别：

Claims

1.改进图像分割算法结合深度学习的多重不良图片分类方法，其特征在于包含：肤色识别，肤色区域的主要成分分析，深度学习，基于卷积神经网络的色情图片识别四个主要步骤；

1）.肤色识别

2）.肤色区域的主要成分分析

（2）图像尺寸归一化：把输入图片大小归一化，需要对图片进行下一步预处理，将图像大小压缩至长度小于320，宽度小于240的比例。

2.本模块的具体实现可以采用 OpenCV 的库函数结合自己设计的算法实现，具体的做法是首先判断图像相比标准规格（256X256）是偏长还是偏宽；如果是偏长的话，则把图像的宽缩放成 256，因为图片偏长，所以图像的长缩放后比256要长，截取中间的长度为256的部分；如果图像为偏宽，则把图像的长缩放成 256，截取中间的宽度为256的部分；如果图片本身规格小于256X256，则放大至该规格；由于大部分的图片的关键信息都集中于图像的中部，图像尺寸归一化，既降低了图片的数据量，又能把图片进行规格的归一化，而且提取了图片的关键信息；

；

3）.深度学习

4）.基于卷积神经网络的色情图片识别