CN101359372A

CN101359372A - 分类器的训练方法及装置、识别敏感图片的方法及装置

Info

Publication number: CN101359372A
Application number: CNA2008101987886A
Authority: CN
Inventors: 付立波; 王建宇; 陈波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2008-09-26
Filing date: 2008-09-26
Publication date: 2009-02-04
Anticipated expiration: 2028-09-26
Also published as: US20100310158A1; CN101359372B; WO2010037332A1; US8611644B2

Abstract

本发明提供的敏感图片分类器的训练方法及装置，提取训练图片集的区域形状特征，测量区域形状特征在正例样本集、第一反例样本集和第二反例样本集中的分布特征；根据分布特征确定区域形状特征的可分性；将相对于第一反例样本集具有可分性的区域形状特征标注为第一特征组；将相对于第二反例样本集具有可分性的区域形状特征标注为第二特征组；通过第一特征组的特征训练获得第一分类器，通过第二特征组的特征训练获得第二分类器。本发明还提供了使用该敏感图片分类器进行敏感图片识别的方法及装置。通过本发明能够提高敏感图片识别的准确度。

Description

分类器的训练方法及装置、识别敏感图片的方法及装置

技术领域

本发明涉及图像识别领域，尤其涉及一种分类器的训练方法及装置、识别敏感图片的方法及装置。

背景技术

随着互联网信息量的日益丰富，不良信息也越来越多。不良信息中的色情图片等敏感图片污染社会风气，危害青少年的身心健康，识别并拦截这类敏感图片是净化互联网内容的一项关键任务。

考虑到敏感图片绝大多数都是存在大面积人体皮肤裸露的，而检测人体裸露皮肤相对比直接检测出敏感图片容易，因此人体裸露皮肤检测是达到敏感图片识别的一种有效的启发式办法。通过人体裸露皮肤检测，可以检测出疑似度相当高的一类敏感图片，然后交给人工审核，可以大大降低人工审核的工作量。

现有技术中存在一种基于肤色检测技术及人体区域形状特征的人体裸露皮肤检测方法。通过肤色检测技术检测出待审核图片的肤色或类似肤色区域，然后在这些区域上提取出能够区分人体皮肤区域和非人体皮肤的背景区域的区域形状特征，再经过一个事先训练好的分类器进行判别。

现有的肤色检测技术主要是基于人体皮肤颜色的统计概率分布来进行的，目前使用比较广泛的肤色检测方法是Bayes决策法。该方法在一个大样本集上统计皮肤颜色和非皮肤颜色的分布，对一种给定的颜色，根据这两个分布使用Bayes公式计算出该颜色是皮肤颜色的后验概率，根据概率大小决定其是肤色区域还是非肤色区域。

现有技术中常用的人体区域形状特征主要有皮肤区域与图像的面积比(皮肤区域指所有的皮肤像素组成的区域，不要求连续)，最大皮肤Blob与图像的面积比(皮肤Blob指皮肤像素组成的连通区域)，皮肤Blob个数，皮肤Blob与外接矩形(或凸包)面积比、皮肤Blob的等价椭圆的半轴长、离心率、方向等，皮肤区域的矩不变量，以及人脸区域面积等。

在训练图片集上提取这些区域形状特征，训练出一个能够自动分类出敏感图片和正常图片的分类器。训练图片集由正例样本集(敏感图片组成)和反例样本集(正常图片组成)，在每个样本集上提取的特征分别打上各自的标签，然后用于训练分类器。用于该问题的分类器主要有支持向量机(SVM)、感知器网络(MLP)、决策树等。

由于现有技术中将各类反例图片合在一起构成反例样本集，致使反例图片的某些区域形状特征的分布进一步分散化，增大了正例与反例图片的特征重叠程度，例如，反例照片中的肖像图片与敏感图片的很多彼此重叠的特征被强行标注成不同的标签，造成训练出的分类器出现过度拟合，分类面发生扭曲，使得肖像图片的误检率和敏感图片的漏检率都会增大，场景图片的分类结果也会受到不易预料的影响。因此，现有技术训练出的分类器存在漏检率和误检率高的问题。

发明内容

本发明的一个发明目的是提供一种敏感图片分类器的训练方法及装置，能够使训练得到的分类器的漏检率和误检率降低；

本发明的另一个发明目的是提供一种识别敏感图片的方法及装置，能够提高识别敏感图片的准确率。

本发明公开了一种敏感图片分类器的训练方法，包括步骤：

提取训练图片集的区域形状特征，所述训练图片集包括正例样本集、第一反例样本集和第二反例样本集；

测量所述区域形状特征在所述正例样本集、第一反例样本集和第二反例样本集中的分布特征；

根据所述分布特征确定所述区域形状特征的可分性；

将相对于所述正例样本集与所述第一反例样本集具有可分性的区域形状特征标注为第一特征组；将相对于所述正例样本集与所述第二反例样本集具有可分性的区域形状特征标注为第二特征组；

通过所述第一特征组的特征进行分类器训练获得第一分类器，通过所述第二特征组的特征进行分类器训练获得第二分类器。

本发明还公开了一种敏感图片分类器的训练装置，包括：

训练图片集，所述训练图片集包括正例样本集、第一反例样本集和第二反例样本集；

特征可分性判决模块，用于测量所述训练图片集中的区域形状特征在所述正例样本集、第一反例样本集和第二反例样本集中的分布特征；并根据所述分布特征确定所述区域形状特征的可分性；

特征标记模块，用于将相对于所述第一反例样本集具有可分性的区域形状特征标注为第一特征组；将相对于所述第二反例样本集具有可分性的区域形状特征标注为第二特征组；

特征训练模块，用于通过所述第一特征组的特征进行分类器训练获得第一分类器，通过所述第二特征组的特征进行分类器训练获得第二分类器。

本发明将反例样本集进行了分类，针对每种类型的反例样本集对大量的区域形状特征进行可分性实验，分别找出了用于区分不同反例图片与敏感图片的特征组，使用不同的特征组训练多个分类器，从而使的训练出的分类器的漏检率和误检率大大降低。

本发明公开了一种利用上述敏感图片分类器识别敏感图片的方法，包括步骤：

获取待审核图片的肤色或类似肤色区域；

在所述肤色或类似肤色区域提取第一特征组的区域形状特征，通过所述第一分类器进行识别所述待审核图片是否为场景图片；

如果否，则在所述肤色或类似肤色区域提取第二特征组的区域形状特征，通过第二分类器进行识别所述待审核图片是否为敏感图片。

本发明还公开了一种敏感图片的识别装置，包括：

肤色区域图像检测模块，用于获取待审核图片的肤色或类似肤色区域；

第一分类器，使用所述肤色或类似肤色区域的第一特征组的区域形状特征识别所述待审核图片是否为场景图片，如果否，则通知所述第二分类器；

第二分类器，与所述第一分类器连接，使用所述肤色或类似肤色区域的第二特征组的区域形状特征，识别所述待审核图片是否为敏感图片。

本发明通过对待审核的图片进行多层分类识别，并且识别待审核图片所使用的分类器中的区域形状特征是针对每种类型的反例样本集进行可分性实验后找出的区分性较好的区域形状特征，因此对各种类型的反例图片能达到较好的区分精度，从而能够提高敏感图片识别的精确度。

附图说明

图1为本发明的一实施例中敏感图片分类器的训练方法的流程图；

图2为本发明的一实施例中识别敏感图片的方法的流程图；

图3为肤色检验结果的一实例图；

图4为本发明一实施例中敏感图片分类器的训练装置的原理框图；

图5为本发明一实施例中识别敏感图片的装置的原理框图。

具体实施方式

本发明针对场景图片和肖像图片与敏感图片的区域形状特征可区分性不同的情况，提出了两组特征组，训练生成两种分类器，通过两种分类器对正常图片分别处理，能够提高分类器的检测精度，从而提高敏感图片识别的准确度。

请参见图1，本发明首先将用于分类器训练的训练图片集区分为正例样本集、第一反例样本集和第二反例样本集。值得指出的是，正例样本集的种类和反例样本集的种类并非有数量限制，还可以根据实际情况进行相应的调整。当使用训练图片集进行分类器训练时，首先对区域形状特征进行可分性实验：分别在三类样本集中提取区域形状特征(步骤100)，测量所提取的区域形状特征在正例样本集、第一反例样本集和第二反例样本集中的不同分布特征(步骤101)；然后根据分布特征确定区域形状特征的可分性(步骤102)。针对不同区域形状特征在不同的样本集中的可分性不同，选择可分性较好的区域形状特征，将相对于正例样本集与第一反例样本集具有可分性的区域形状特征标注为第一特征组，将相对于正例样本集与第二反例样本集具有可分性的区域形状特征标注为第二特征组(步骤103)；最后使用第一特征组的区域形状特征来训练分类器获得第一分类器，通过第二特征组的区域形状特征来训练分类器获得第二分类器(步骤104)。

本发明经过对区域形状特征进行可分性试验，分别找出了用于区分不同反例图片与敏感图片的特征组，使用不同的特征组训练多个分类器，对待识别图片进行多层分类，可以降低分类器的误检率。

为了方便叙述，以下以场景图片作为第一反例，肖像图片作为第二反例，敏感图片作为正例的情况进行阐述。

在执行步骤100时，为了使可分性实验的结果更加真实的反应事实，本发明在尽可能广泛的各种区域形状特征中提取区域形状特征。通常区域形状特征包含以下几种类型：

1)区域统计特征：

皮肤区域与图像面积比，皮肤Blob个数，最大皮肤Blob与图像的面积比，最大皮肤Blob的偏心率(转动惯量与最大皮肤Blob的转动惯量相等的椭圆的偏心率)、紧凑性(Blob轮廓长度与Blob面积之比)、近圆性(Blob面积与外接圆面积之比)、近矩形性(Blob面积与最小外接矩形面积之比)；

2)轮廓特征：

最大皮肤Blob的轮廓曲率的均值、方差、曲率能量(曲率平方的均值)和曲率的一阶差分的能量(曲率的一阶差分的平方的均值)，最大皮肤Blob的轮廓的Fourier描述子的低频与高频分量(低频(高频)分量是指Fourier描述子在最低频率点(最高频率点)处的取值)；

3)矩不变量特征：

皮肤区域的Hu矩、Zernike矩(前8阶)，最大皮肤Blob的Hu矩、Zernike矩(前8阶)；

4)结构元素统计特征：

最大皮肤Blob的边缘像素的密度(边缘像素指该点位于图像的Canny边缘线条上)、最大皮肤Blob中的中长直线段的个数(中长直线段指包含像素数大于一定阈值的线段，用线检测器检出并过滤)；

5)人脸相关的统计特征(用于检测出人脸的肖像图片)：

人脸Blob与最大皮肤Blob的面积比，人脸Blob的重心距离最大皮肤Blob的重心的水平、垂直距离与人脸Blob的高、宽之比。

在本发明的一个实施例中，执行步骤100时从以上的各类区域形状特征中提取，值得指出的是也可以提取其他的区域形状特征进行特征可分性实验。

对于步骤S101，现有技术中存在多种测量所提取的区域形状特征在各个样本集的不同分布特征的方法，例如，基于散度矩阵的方法、基于分布直方图的方法等。在本发明的一个优选实施例中，将基于分布直方图的方法作为获得分布特征的途径。具体过程如下所述：

在肤色检测的结果上(如图3)，分别统计每个区域形状特征在每个样本集中的分布直方图。然后，对每个区域形状特征，依次对比其在敏感图片中的分布直方图与在场景图片中的分布直方图、在敏感图片中的分布直方图与在肖像图片中的分布直方图，使用直方图的相交比来衡量某个特征对正例样本集与某个反例样本集的可区分性。先对直方图进行归一化，然后再求交，作为本发明的一个实施例，归一化分布直方图的相交比就是两个归一化的分布直方图的相交区域的面积：

r = Σ_{i = 0}^{N - 1} \min (H_{1} [i], H_{2} [i]), - - - (4)

Σ_{i = 0}^{N - 1} H_{j} [i] = 1, j = 1,2 - - - (5)

其中，H_j[i]表示区域形状特征在第j类样本中的分布直方图的第i个bin的值，N是分布直方图的bin数，j＝1，2代表的两类分别指正例与某个反例(例如敏感图片与场景图片、敏感图片与肖像图片)。式(4)是相交比的定义，式(5)表示分布直方图H_j是归一化的。

对于步骤102，可以根据上述相交比r确定区域形状特征的可分性，r越小，则该区域形状特征对两种反例样本集的可区分性越强，反之越弱，可以根据具体应用确定预定的阈值，确定某个区域形状特征对于各反例样本集是否具有可分性。

经过上述的特征可分性实验，可以获知对于敏感图片与场景图片，上述的一些特征具有不同程度的可分性，可以从该些特征中选取至少一个特征作为第一特征组中的区域形状特征，当选取多个特征时，可以从以下三类特征中的某一类中选取多个特征，也可以在不同类的特征中分别选取至少一个特征。这三类特征包括：

1)皮肤区域Hu矩的前3分量、最大皮肤Blob的Zernike前4阶矩中的、Z22、Z40、Z42，最大皮肤Blob的Fourier描述子高频分量、曲率能量、近矩形性等，具有弱可分性，经实验数据证明，利用这些特征分别在场景图片类中的概率分布(分布直方图)和在敏感图片类中的概率分布(分布直方图)训练出的Bayes分类器，进行场景图片和敏感图片的总体识别错误率在30％左右；

2)最大皮肤Blob的Zernike矩中的Z11，最大皮肤Blob的偏心率具有中等可分性，经实验数据证明，利用这些特征分别在场景图片类中的概率分布(直方图)和在敏感图片类中的概率分布(分布直方图)训练出的Bayes分类器，进行场景图片和敏感图片的总体识别错误率＜20％；

3)最大皮肤Blob与图像面积比、紧凑性、边缘像素的密度具有强可分性，经实验数据证明，利用这些特征分别在场景图片类中的概率分布(分布直方图)和在敏感图片类中的概率分布(分布直方图)训练出的Bayes分类器，进行场景图片和敏感图片的总体识别错误率＜10％。

作为本发明的一个实施例，在执行步骤103时，将以上对场景图片具有不同程度可分性的区域形状特征标注为第一特征组。

对于敏感图片与一般肖像图片(包括人脸图片)：

在能检出人脸的前提下，与人脸相关统计特征具有可分性，利用这些特征分别在人脸图片类中的概率分布(分布直方图)和在敏感图片类中的概率分布(分布直方图)训练出的Bayes分类器，进行敏感图片和敏感图片的总体识别错误率＜10％。

作为本发明的一个实施例，在执行步骤103时，将以上对场景图片具有不同程度可分性的区域形状特征标注为第二特征组。

在执行步骤104时，使用敏感图片构成正例样本集和场景图片构成第一反例样本集，通过第一特征组中的区域形状特征训练出第一分类器，然后使用敏感图片构成正例样本集和肖像图片构成第二反例样本集，通过第二特征组中的特征训练出第二分类器。可以使用的分类器主要有支持向量机(SVM)、感知器网络(MLP)、决策树等。作为本发明的一个实施例，第一分类器和第二分类器都可以使用朴素Bayes分类器。该分类器假定特征的各维之间彼此独立，其形式为：

P (c_{j} | x_{1} x_{2} \cdot \cdot \cdot x_{N}) = Π_{i = 1}^{N} P (c_{j} | x_{i}); - - - (1)

P (c_{j} | x_{i}) = \frac{P (c_{j}) P (x_{i} | c_{j})}{P (c_{1}) P (x_{i} | c_{1}) + P (c_{2}) P (x_{i} | c_{2})}, j = 1,2 - - - (2)

其中，c_j，j＝1，2表示该分类问题中的两个类别，即分别表示正例(敏感图片)和第一反例(场景图片)/第二反例(肖像图片)；当c_j，j＝1，2分别表示正例和第一反例时，x₁x₂…x_N是所述第一特征组的N维区域形状特征；c_j，j＝1，2分别表示正例和第二反例时，x₁x₂…x_N是所述第二特征组的N维区域形状特征。值得指出的是，在本发明的各实施例中的第一特征组的区域形状特征的维数与第二特征组的区域形状特征的维数可以相同也可以不同，两组区域形状特征可以有重合的也可以有不同的。

公式(1)中的P(c_j|x_i)表示某个区域形状特征属于类c_j的概率。由公式(1)可以获知一个N维的特征向量类c_j的分布概率P(c_j|x₁x₂…x_N)。公式(1)表明了一个假设：N维特征向量的各维对判断该特征向量属于哪个类的作用是彼此独立的，因此，由式(1)的假设，当已知每个P(c_j|x_i)j＝1，2；i＝1，2，…N，就能推断出任意一个样本(其特征是一个N维特征向量x₁x₂…x_N)分别属于两个类的后验概率。通过公式(2)的Bayes公式，从两类的先验概率P(c_j)和第一/第二特征组概率分布P(x_i|c_j)推算出P(c_j|x_i)。公式(2)中两类的先验概率P(c_j)根据业务中的先验知识确定，P(x_i|c_j)为正例样本集(j＝1)、反例样本样本集(j＝2)的各个区域形状特征的分布概率，可以从正、反例样本集中估计得到。

如上所述，朴素Bayes分类器的训练过程即是从正、反例样本集统计P(x_i|c_j)的过程。

另外，作为对公式(1)的进一步改进，在本发明的一个优选实施例中，当利用公式(1)训练第一或第二分类器时，考虑到第一特征组中的不同特征的可分性不同，可以对(1)式中各维特征进行指数加权：

P (c_{j} | x_{1} x_{2} \cdot \cdot \cdot x_{N}) = Π_{i = 1}^{N} {(P (c_{j} | x_{i}))}^{α_{i}} - - - (3)

当c_j，j＝1，2分别表示正例和第一反例时，x₁x₂…x_N是所述第一特征组的N维区域形状特征；c_j，j＝1，2分别表示正例和第二反例时，x₁x₂…x_N是所述第二特征组的N维区域形状特征；第一特征组的区域形状特征的维数与第二特征组的区域形状特征的维数可以相同也可以不同，两组区域形状特征可以有重合的也可以有不同的。α_i是根据所述相交比确定的指数加权因子，其值大于零；越大表示权重越大，对可分性好的特征可以使用较大的加权因子。

使用正例样本集和第一反例样本集估计第一特征组的区域形状特征在两类(正例和第一反例即敏感图片和场景图片)中的分布P(x_i|c_j)，从而获得第一分类器，使用正例样本集和第二反例样本集估计第二特征组的区域形状特征在两类(正例和第二反例即敏感图片和肖像图片)中的分布P(x_i|c_j)，从而获得第二分类器，同样，作为一个实施例，可以使用概率直方图来表示其概率分布，具体过程可以参照上文所述的“特征的可分性实验”中的步骤。

通过上文所述的方法训练出的敏感分类器的一个典型用途是用于识别敏感图片。图2为本发明提供的利用上文的敏感分类器对敏感图片进行识别的流程图。请结合图1，参见图2，本发明首先通过肤色检测技术检测出待审核图片的肤色或类似肤色区域(步骤200)；在肤色或类似肤色区域提取第一特征组的区域形状特征(步骤201)，通过按照上文的方法获得的第一分类器识别待审核图片是否为场景图片(步骤202)；如果是，则判断为正常图片(步骤205)，如果否，则在肤色或类似肤色区域提取第二特征组的区域形状特征(步骤203)，通过第二分类器进行识别待审核图片是否为敏感图片(步骤204)如果是，则判断为正常图片(步骤205)，否则，判断为敏感图片(步骤206)，交给人工继续进行进一步审核。

本发明在特征可分性实验的基础上挑选了一组可分性较好的区域形状特征，对场景图片和敏感图片能达到较高的区分精度；并针对场景图片和肖像图片与敏感图片的可区分性不同的情况，提出了两组特征组，分别训练出两种分类器，通过两个分类器对两种正常图片分别处理，大大提高了敏感图片识别的准确度。

对于步骤200，目前使用比较广泛的肤色检测方法是Bayes决策法。该方法在一个大样本集上统计皮肤颜色和非皮肤颜色的分布，对一种给定的颜色，根据两个分布使用Bayes公式计算出该颜色是皮肤颜色的后验概率，根据概率大小决定其是皮肤色还是非皮肤色。

以对像素x进行肤色分类为例，假定像素x的颜色为color，x在两类中的似然概率为P(color|skin)和

两类的先验概率为P(skin)和则x属于肤色的后验概率为：

P (skin | color) = P (color | skin) / (P (color | skin) + P (color | &Not; skin)),

同样可以得到x属于非肤色的后验概率

Bayes决策规则可以表示为

即

其中T＝0.5，则

x &Element; \{\begin{matrix} skin \\ &Not; skin \end{matrix} .

通常两类先验概率假定为相等，则上式中后验概率可简化为似然概率。可以证明，通过Bayes决策法得到的分类结果的总体风险(错误率)是最小的。使用该方法进行肤色检验的前提条件是已知类内的总体分布，也就是在大样本集上统计出肤色类与非肤色类中的颜色分布。

另外，由于自然界中的非人体皮肤颜色与人体皮肤颜色总存在一定的重叠，且人体皮肤颜色受环境光照、成像条件的影响而有所变化，因此肤色检测技术检出的“肤色区域”中总会不同程度的包含被误检的类似皮肤颜色的场景区域。另外，大量的肖像图片中皮肤区域占整个图片的面积比例很高，这类图片与敏感图片的自动区分也比较困难。如果在检出的“肤色区域”上提取出的区域形状特征的区分性不够好，就会造成大量的正常图片(如颜色与皮肤色近似的自然场景图片、肖像图片等)被误判为敏感图片，作为对上述Bayes决策法检验肤色的一种改进，本发明在执行步骤200时还可以使用申请人在申请号为2008100841302，发明名称为《一种肤色检测方法及装置》中公开的肤色检验技术。该专利申请提供了多肤色概率模型的训练方法，以及利用多肤色概率模型进行肤色检测的方法。与现有的单肤色概率模型不同，其提供的多肤色概率模型是针对不同光照条件下的肤色或不同类的肤色训练得到的多个肤色概率模型，因此，在对待检测图像进行肤色检测时，可为待检测图像选择合适的肤色概率模型，从而降低误检率或漏检率。以下对该方案中的肤色检测技术做一简要描述，以作参考，其他细节请详见该申请文件。

在进行肤色检验前，首先将训练样本集中的肤色像素在颜色空间中聚类得到至少一个肤色色度类；提取训练样本中的候选肤色区域，计算候选肤色区域的色度均值与肤色色度类中心的距离，将训练样本归入所述距离最小的肤色色度类，得到与肤色色度类对应的训练子集；统计每一个训练子集的肤色概率分布和非肤色概率分布，得到每一肤色色度类对应的肤色概率模型。

当需要检验获取待审核图片的肤色或类似肤色区域时，提取待审核图像的候选肤色区域，计算所述候选肤色区域色度均值与肤色色度类中心的距离，根据所述距离最小的肤色色度类对应的肤色概率模型对所述待检测图像中的像素进行肤色判别，由判别为肤色的像素构成肤色区域图像。

在执行步骤202及步骤204时，在一个实施例中，使用上文所述的朴素Bayes分类器对待审核图片进行分类(识别)的过程如下：

使用上文所述的公式(1)或(3)计算待审核的第一特征组的区域形状特征x＝(x₁x₂…x_N)通过第一分类器(朴素Bayes分类器)得到的类后验概率P(c_j|x₁x₂…x_N)，j＝1，2；然后使用阈值T进行Bayes决策：

x = (x_{1} x_{2} \cdot \cdot \cdot x_{N}) &Element; \{\begin{matrix} c_{1} & P (c_{1} | x_{1} x_{2} \cdot \cdot \cdot x_{N}) / (P (c_{1} | x_{1} x_{2} \cdot \cdot \cdot x_{N}) + P (c_{2} | x_{1} x_{2} \cdot \cdot \cdot x_{N})) &GreaterEqual; T \\ c_{2} & else \end{matrix}

T的取值一般是0.5，也可以根据两类错分的风险不同进行调整。

将上式中的P(c₁|x₁x₂…x_N)/(P(c₁|x₁x₂…x_N)+P(c₂|x₁x₂…x_N))称为置信值，当这个置信值低于阈值T时，将待审核图片识别为场景图片，否则，将待审核图片执行下述步骤进行进一步识别：

待审核的第二特征组的区域形状x＝(x₁x₂…x_N)通过第二分类器(朴素Bayes分类器)得到的类后验概率P(c_j|x₁x₂…x_N)，j＝1，2，值得注意的是，第一特征组的区域形状特征的维数与第二特征组的区域形状特征的维数可以相同也可以不同，两组区域形状特征可以有重合的也可以有不同的，然后使用阈值T进行Bayes决策：

x = (x_{1} x_{2} \cdot \cdot \cdot x_{N}) &Element; \{\begin{matrix} c_{1} & P (c_{1} | x_{1} x_{2} \cdot \cdot \cdot x_{N}) / (P (c_{1} | x_{1} x_{2} \cdot \cdot \cdot x_{N}) + P (c_{2} | x_{1} x_{2} \cdot \cdot \cdot x_{N})) &GreaterEqual; T \\ c_{2} & else \end{matrix}

T的取值一般也是0.5，也可以根据两类错分的风险不同进行调整，跟使用第一分类器进行Bayes决策时的阈值T可以相同也可以不同，无必然关系。

当上式中置信值P(c₁|x₁x₂…x_N)/(P(c₁|x₁x₂…x_N)+P(c₂|x₁x₂…x_N))低于阈值T时，将待审核图片识别为肖像图片，否则，将待审核图片识别为敏感图片。

针对以上分类器的训练方法，本发明还提出了相应的分类器的训练装置，请结合图1，参见图4，本发明公开的敏感图片分类器的训练装置包括：训练图片集401，如上文所述，训练图片集可以包括正例样本集、第一反例样本集和第二反例样本集；特征可分性判决模块402，特征标记模块403以及特征训练模块404。

以下阐述各模块的工作原理：特征可分性判决模块获取训练图片集中的区域形状特征，测量其在正例样本集、第一反例样本集和第二反例样本集中的分布特征；并根据分布特征确定区域形状特征的可分性；确定可分性的途径可通过上文所述的方法中任意一种方式实现，在此不再赘述。特征标记模块，根据特征可分性判决模块的可分性实验结果，将相对于第一反例样本集具有可分性的区域形状特征标注为第一特征组；将相对于所述第二反例样本集具有可分性的区域形状特征标注为第二特征组；特征训练模块通过第一特征组的特征训练获得第一分类器，通过第二特征组的特征训练获得第二分类器。

另外，该装置的第一特征组还可以包括第一子特征组和/或第二子特征组和/或第三子特征组，各自特征组包含经过可分性实验得出的各种可分性较好的区域形状特征。例如第一子特征组包括至少一项以下区域形状特征：皮肤区域Hu矩的前3个分量、最大皮肤Blob的Zernike前4阶矩中的、Z22、Z40、Z42，最大皮肤Blob的Fourier描述子高频分量、曲率能量、近矩形性。第二子特征组包括至少一项以下区域形状特征：最大皮肤Blob的Zernike矩中的Z11，最大皮肤Blob的偏心率。第三子特征组包括至少一项以下区域形状特征：最大皮肤Blob与图像面积比、紧凑性、边缘像素的密度。

作为本发明的一个实施例，对于特征可分性判决模块402可以包括：分布概率统计模块，用于分别统计所述区域形状特征在所述正例样本集、第一反例样本集和第二反例样本集中的分布直方图；以及可分性模块，用于对所述分布直方图进行归一化，并确定归一化后的直方图的相交比；根据所述相交比确定所述区域形状特征的可分性。

对于图4所示的敏感图片分类器的训练装置的实现方法可以按照上文所述的分类器的训练方法中提到的各有关方式实现，再次不再赘述。值得指出的是，图4中的分类器的训练装置仅仅为分类器的训练方法的其中一个实例化装置，而并非可实现该分类器的训练方法的唯一实体装置。

针对以上敏感图片的识别方法，本发明还提出了相应的敏感图片的识别装置，请结合图1图2，参见图5，敏感图片的识别装置包括肤色区域图像检测模块501、第一分类器502以及第二分类器503。

以下阐述该敏感图片的识别装置的工作原理：肤色区域图像检测模块获取待审核图片的肤色或类似肤色区域；第一分类器使用肤色或类似肤色区域的第一特征组的区域形状特征识别所述待审核图片是否为场景图片，如果否，则通知第二分类器；第二分类器与所述第一分类器连接，使用肤色或类似肤色区域的第二特征组的区域形状特征识别所述待审核图片是否为敏感图片。这里的第一分类器与第二分类器的实现方法如上文所述，在此不再赘述。

作为本发明的一个实施例，第一分类器或第二分类器为Bayes分类器，该Bayes分类器可以包括：后验概率计算模块，用于通过第一特征组计算所述第一特征组的特征向量属于正例或第一反例的后验概率；通过第二特征组计算所述第二特征组的特征向量属于正例或第二反例的后验概率；以及决策模块，用于根据后验概率进行Bayes决策，识别待审核图片是否为场景图片或敏感图片。

另外，值得指出的是，对于肤色区域图像检测模块所获取的待审核图片的肤色或类似肤色区域，可以通过现有技术中的Bayes决策法实现，还可以通过上文所述的申请人在申请号为2008100841302的申请文件中公开的技术方案实现。敏感图片的识别装置还可以包括各个与检测肤色或类似肤色区域有关的模块，例如，候选肤色区域提取模块，用于提取所述待检测图像的候选肤色区域图像；肤色区域图像检测模块，用于计算所述候选肤色区域的色度均值，根据肤色色度类中心与所述色度均值最近的肤色色度类对应的肤色概率模型，对所述待检测图像中的像素进行肤色判别，由判别为肤色的像素构成肤色区域图像；肤色色度类通过将训练样本集中的肤色像素在颜色空间中聚类得到；所述肤色概率模型通过计算每一训练样本的候选肤色区域的色度均值与所述肤色色度类中心的距离，将训练样本归入所述距离最小的肤色色度类，得到与肤色色度类对应的训练子集，统计每一个训练子集的肤色概率分布和非肤色概率分布得到。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1、一种敏感图片分类器的训练方法，其特征在于，包括步骤：

根据所述分布特征确定所述区域形状特征的可分性；

通过所述第一特征组训练获得第一分类器，通过所述第二特征组训练获得第二分类器。

2、根据权利要求1所述的敏感图片分类器的训练方法，其特征在于，所述第一反例样本集由场景图片组成，所述第一特征组包括至少一项以下区域形状特征：

皮肤区域Hu矩的前3个分量，最大皮肤Blob的Zernike前4阶矩中的Z22、Z40、Z42，最大皮肤Blob的Fourier描述子高频分量、曲率能量、近矩形性。

3、根据权利要求1所述的敏感图片分类器的训练方法，其特征在于，所述第一特征组包括至少一项以下区域形状特征：

最大皮肤Blob的Zernike矩中的Z11、最大皮肤Blob的偏心率。

4、根据权利要求1所述的敏感图片分类器的训练方法，其特征在于，所述第一特征组包括至少一项以下区域形状特征：

最大皮肤Blob与图像面积比、紧凑性、边缘像素的密度。

5、根据权利要求1至4中任一项所述的敏感图片分类器的训练方法，其特征在于：根据所述分布特征确定所述区域形状特征的可分性的步骤包括：

分别统计所述区域形状特征在所述正例样本集、第一反例样本集和第二反例样本集中的分布直方图；

对所述分布直方图进行归一化，并确定归一化后的直方图的相交比；

根据所述相交比确定所述区域形状特征的可分性。

6、根据权利要求5所述的敏感图片分类器的训练方法，其特征在于：所述第一分类器或第二分类器为Bayes分类器，所述Bayes分类器的形式为：

P (\begin{matrix} c_{j} | x_{1} x_{2} L & x_{N} \end{matrix}) = Π_{i = 1}^{N} P (c_{j} | x_{i}); - - - (1)

P (c_{j} | x_{i}) = \frac{P (c_{j}) P (x_{i} | c_{j})}{P (c_{1}) P (x_{i} | c_{1}) + P (c_{2}) P (x_{i} | c_{2})}, j = 1,2 - - - (2)

其中，c_j，j＝1，2分别表示正例和第一反例时，x₁x₂L x_N是所述第一特征组的N维区域形状特征向量；P(c_j|x₁x₂L x_N)为所述第一特征组的的特征向量x₁x₂L x_N属于正例或第一反例的后验概率；c_j，j＝1，2分别表示正例和第二反例时，x₁x₂L x_N是所述第二特征组的N维区域形状特征向量；P(c_j|x₁x₂L x_N)为第二特征组的特征向量x₁x₂L x_N属于正例或第二反例的后验概率；P(c_j)为正例或第一反例或第二反例的先验概率；P(c_j|x_i)表示所述区域形状特征向量的各维属于类c_j的概率；P(x_i|c_j)为所述区域形状特征向量的各维在正例或第一/第二反例中的概率分布；

通过在所述正例样本集和第一/第二反例样本集上估计所述先验概率P(c_j)和统计第一/第二特征组的区域形状特征向量的各维在在正例或第一/第二反例中的概率分布P(x_i|c_j)，得到第一或第二分类器。

7、根据权利要求5所述的敏感图片分类器的训练方法，其特征在于：所述第一分类器或第二分类器为Bayes分类器，所述Bayes分类器的形式为：

P (\begin{matrix} c_{j} | x_{1} x_{2} L & x_{N} \end{matrix}) = Π_{i = 1}^{N} {(P (c_{j} | x_{i}))}^{α_{i}} - - - (3)

P (c_{j} | x_{i}) = \frac{P (c_{j}) P (x_{i} | c_{j})}{P (c_{1}) P (x_{i} | c_{1}) + P (c_{2}) P (x_{i} | c_{2})}, j = 1,2 - - - (2)

其中，c_j，j＝1，2分别表示正例和第一反例时，x₁x₂L x_N是所述第一特征组的N维区域形状特征向量；P(c_j|x₁x₂L x_N)为所述第一特征组的特征向量x₁x₂L x_N属于正例或第一反例的后验概率；c_j，j＝1，2分别表示正例和第二反例时，x₁x₂L x_N是所述第二特征组的N维区域形状特征向量；P(c_j|x₁x₂L x_N)为第二特征组的特征向量x₁x₂L x_N属于正例或第二反例的后验概率；P(c_j)为正例或第一反例或第二反例的先验概率；P(c_j|x_i)表示所述区域形状特征向量的各维属于类c_j的概率；P(x_i|c_j)为所述区域形状特征向量的各维在正例或第一/第二反例中的概率分布；α_i是根据所述相交比确定的指数加权因子，α_i大于零；

通过在所述正例样本集和第一/第二反例样本集上估计所述先验概率P(c_j)和统计第一/第二特征组的区域形状特征向量的各维在正例或第一/第二反例中的概率分布P(x_i|c_j)，得到第一或第二分类器。

8、一种利用权利要求1至7任一项所述的敏感图片分类器识别敏感图片的方法，其特征在于，包括步骤：

获取待审核图片的肤色或类似肤色区域；

9、根据权利要求8所述的利用敏感图片分类器识别敏感图片的方法，其特征在于，按照下述步骤获取待审核图片的肤色或类似肤色区域：

对所述待审核图片中的像素采用贝叶斯Bayes决策方法进行肤色判别，由判别为肤色的像素构成肤色或类似肤色区域。

10、根据权利要求8所述的利用敏感图片分类器识别敏感图片的方法，其特征在于，所述获取待审核图片的肤色或类似肤色区域之前还包括步骤：

将训练样本集中的肤色像素在颜色空间中聚类得到至少一个肤色色度类；

提取训练样本中的候选肤色区域，计算候选肤色区域的色度均值与肤色色度类中心的距离，将训练样本归入所述距离最小的肤色色度类，得到与肤色色度类对应的训练子集；

统计每一个训练子集的肤色概率分布和非肤色概率分布，得到每一肤色色度类对应的肤色概率模型；

所述获取待审核图片的肤色或类似肤色区域的步骤包括：

提取待审核图像的候选肤色区域，计算所述候选肤色区域色度均值与肤色色度类中心的距离，根据所述距离最小的肤色色度类对应的肤色概率模型对所述待检测图像中的像素进行肤色判别，由判别为肤色的像素构成肤色区域图像。

11、一种敏感图片分类器的训练装置，其特征在于，包括：

12、根据权利要求11所述的敏感图片分类器的训练装置，其特征在于，所述第一反例样本集由场景图片组成，所述第一特征组包括第一子特征组和/或第二子特征组和/或第三子特征组，

所述第一子特征组包括至少一项以下区域形状特征：

皮肤区域Hu矩的前3分量、最大皮肤Blob的Zernike前4阶矩中的、Z22、Z40、Z42，最大皮肤Blob的Fourier描述子高频分量、曲率能量、近矩形性；

所述第二子特征组包括至少一项以下区域形状特征：

最大皮肤Blob的Zernike矩中的Z11，最大皮肤Blob的偏心率；

所述第三子特征组包括至少一项以下区域形状特征：

最大皮肤Blob与图像面积比、紧凑性、边缘像素的密度。

13、根据权利要求11或12所述的敏感图片分类器的训练装置，其特征在于，所述特征可分性判决模块包括：

分布概率统计模块，用于分别统计所述区域形状特征在所述正例样本集、第一反例样本集和第二反例样本集中的分布直方图；

可分性模块，用于对所述分布直方图进行归一化，并确定归一化后的直方图的相交比；根据所述相交比确定所述区域形状特征的可分性。

14、一种敏感图片的识别装置，其特征在于，包括：

第一分类器，用于使用所述肤色或类似肤色区域的第一特征组的区域形状特征识别所述待审核图片是否为场景图片，如果否，则通知所述第二分类器；

第二分类器，与所述第一分类器连接，用于使用所述肤色或类似肤色区域的第二特征组的区域形状特征，识别所述待审核图片是否为敏感图片。

15、根据权利要求14所述的敏感图片的识别装置，其特征在于，还包括：

候选肤色区域提取模块，用于提取所述待检测图像的候选肤色区域图像；

所述肤色区域图像检测模块，用于计算所述候选肤色区域的色度均值，根据肤色色度类中心与所述色度均值最近的肤色色度类对应的肤色概率模型，对所述待检测图像中的像素进行肤色判别，由判别为肤色的像素构成肤色区域图像；

所述肤色色度类，通过将训练样本集中的肤色像素在颜色空间中聚类得到；

所述肤色概率模型，通过计算每一训练样本的候选肤色区域的色度均值与所述肤色色度类中心的距离，将训练样本归入所述距离最小的肤色色度类，得到与肤色色度类对应的训练子集，统计每一个训练子集的肤色概率分布和非肤色概率分布得到。

16、根据权利要求14或15所述的敏感图片的识别装置，其特征在于，所述第一分类器或第二分类器为Bayes分类器，所述Bayes分类器包括：

后验概率计算模块，用于通过所述第一特征组计算所述第一特征组的特征向量属于正例或第一反例的后验概率；通过所述第二特征组计算所述第二特征组的特征向量属于正例或第二反例的后验概率；

决策模块，用于根据所述后验概率进行Bayes决策，识别所述待审核图片是否为场景图片或敏感图片。