CN103164687A

CN103164687A - 一种色情图像侦测的方法和系统

Info

Publication number: CN103164687A
Application number: CN201110421474XA
Authority: CN
Inventors: 薛晖
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-12-15
Filing date: 2011-12-15
Publication date: 2013-06-19
Anticipated expiration: 2031-12-15
Also published as: CN103164687B

Abstract

本申请提供了一种色情图像侦测的方法和系统，其中所述方法包括：采用包含特征区域的样本图像训练分类器模型；采用所述分类器模型检测目标图像中的候选特征区域；按照预置规则判断所述候选特征区域是否为实际特征区域，若是，则判定当前目标图像为色情图像。本申请能够提高色情图像侦测的召回率和准确率。

Description

一种色情图像侦测的方法和系统

技术领域

本申请涉及图像识别的技术领域，特别是涉及一种色情图像侦测的方法和一种色情图像侦测的系统，以及，一种训练分类器模型的方法和一种训练分类器模型的系统。

背景技术

随着互联网的快速发展，互联网在为人们认识世界、方便生活、提供帮助的同时，也为有害信息的广泛传播提供了便捷的途径，例如，人们常常会受到含有如色情、暴力等不健康的色情图像和视频的侵扰；网络犯罪活动的现象也日渐增多，如色情小说、色情图像和录像的传播，它们扰乱社会秩序、破坏社会风气，给人们尤其是青少年带来了极大的负面影响。

据统计，全球现有色情网站数以百万，另外，约28％的网站包含成人内容；一个人在互联网上随便点击，每七次就有一次可能点击到色情站点，25％的小网迷曾主动访问色情网站，20％的人曾被动收到色情信息，全球75％的家长明确表示担心不良信息对孩子的负面影响；全球电子邮件中有大约55％是垃圾邮件，而其中色情图片大约占20％左右。

目前，基于图片内容的色情图像侦测算法普遍是基于肤色来进行检测的，即根据肤色的比例来估计目标图像为裸体图像的可能性。然而，这种基于肤色检测的色情图像侦测的算法主要存在如下缺陷：

1、非皮肤图片的错误召回。

这是肤色检测的一个最大问题。在自然界中，有很多物体和表面的颜色和肤色接近，单从肤色角度出发，这类物体表面与人体皮肤并不具有很高的区分度。

2、非色情皮肤图片的错误召回。

传统肤色检测本质上是一种裸体检测算法，即主要是通过皮肤区域的面积来判断一张图片是否是色情的，而这与人类认知的判断是不同的。因此此类算法很容易将某些类别的图片(比如服饰类商品的模特图片)错判为色情图片。

3、无法召回非皮肤的色情图片。

正如2中提到的原因，对某些裸露区域较小的色情图片，该算法往往会失效。因为在实际中，人能知道在某些具有肤色的区域没有必要视作是色情场景；此外，还有其它许多的虽然细小但是十分关键的特征区域，比如暴露的胸部和生殖器等，一旦出现就会直接被归类为色情内容。人能够理解、分辨在什么样的情况下判定为色情场景，可以理解图像的内容。但采用该算法却无法进行准确判断。

因此，目前需要本领域技术人员迫切解决的一个技术问题就是：提高色情图像侦测的召回率和准确率。

发明内容

本申请所要解决的技术问题是提供一种色情图像侦测的方法和装置，以及，一种训练分类器模型的方法和一种训练分类器模型的系统，用以提高色情图像侦测的召回率和准确率。

为了解决上述问题，本申请公开了一种色情图像侦测的方法，包括：

采用包含特征区域的样本图像训练分类器模型；

采用所述分类器模型检测目标图像中的候选特征区域；

按照预置规则判断所述候选特征区域是否为实际特征区域，若是，则判定当前目标图像为色情图像。

优选的是，所述采用包含特征区域的样本图像训练分类器模型的步骤，进一步包括：

采集包含特征区域的正样本图像，以及，不包含特征区域的负样本图像；

对所述正样本图像和负样本图像进行归一化；

针对所述归一化的正样本图像和负样本图像中进行预设特征的计算，获得特征值及特征数量；

根据所述特征值及特征数量训练分类器模型。

优选的是，所述对正样本图像和负样本图像进行归一化的子步骤，进一步包括：

将所述正样本图像和负样本图像缩放至统一尺寸；

和/或，

将所述正样本图像和负样本图像转换为灰度图像。

优选的是，所述预设特征为二值化矩形特征，所述针对归一化的正样本图像和负样本图像中进行预设特征的计算，获得特征值及特征数量的子步骤，进一步包括：

设置至少一种特征模板，所述特征模板包括黑色区域和白色区域；

在当前的正样本图像或负样本图像中的不同位置，选取不同的特征模板，并提取不同尺寸的特征；

统计采用各特征模板在所述正样本图像和负样本图像中所能提取到的特征数量；

以及，

计算各特征的特征值为，所述特征模板中白色区域覆盖图像的像素值之和，减去黑色区域覆盖图像的像素值之和。

优选的是，所述根据特征值及特征数量训练分类器模型的子步骤，进一步包括：

针对各个特征生成初始分类器，所述初始分类器中包括方向参数和分类阈值；

针对每一幅样本图像分配初始化的权重；

根据所述方向参数和分类阈值从所述初始分类器中提取满足预设数量的优选特征分类器；

当所述优选分类器的数量小于特征数量时，执行以下操作：

针对已分配权重的样本图像计算归一化的权重；

根据所述样本图像的归一化权利，计算各个优选特征分类器的加权分类阈值；

选择所述加权分类阈值最小的优选特征分类器作为本次循环的最佳分类器；

针对本次分类错误的样本图像，按预设规则增加权重；

组合多次循环的最佳分类器，形成最终的分类器模型。

优选的是，所述目标图像为灰度图像，所述采用分类器模型检测目标图像中的候选特征区域的步骤，进一步包括：

按预设比例持续缩放所述目标图像，判断是否达到预设的尺寸下限；

若否，则采用分类器模型检测所述缩放得到的图像中的候选特征区域，并记录检测到的候选特征区域信息；

若是，则输出所记录的候选特征区域信息。

优选的是，所述按照预置规则判断候选特征区域是否为实际特征区域的步骤，进一步包括：

提取所述候选特征区域的边缘信息；

根据所述边缘信息提取所述候选特征区域中的最大连通域；

判断所述最大连通域是否符合预设的长宽比阈值，若否，则判定该候选特征区域为实际特征区域。

优选的是，所述按照预置规则判断候选特征区域是否为实际特征区域的步骤，还包括：

在判定当前候选特征区域为实际特征区域之前，计算第一标准差和第二标准差，其中，所述第一标准差为候选特征区域的灰度值的标准差，所述第二标准差为该候选特征区域周围区域的灰度值的标准差；

若所述第一标准差是否小于第一标准差阈值，和/或，所述第二标准差是否小于第二标准差阈值，若是，则判定当前候选特征区域为实际特征区域。

在判定当前候选特征区域为实际特征区域之前，判断第一颜色信息和第二颜色信息是否满足预设条件，若是则判定当前候选特征区域为实际特征区域，其中，所述第一颜色信息为候选特征区域的颜色信息，所述第二颜色信息为该候选特征区域周围区域的颜色信息。

优选的是，所述第一颜色信息包括候选特征区域各像素R通道分量的平均值R1以及G通道分量的平均值G1，所述第二颜色信息包括该候选特征区域周围区域的R通道分量的平均值R2以及G通道分量的平均值G2，所述预设条件包括：

1)R2＜R1；

2)G2＞G1；

3)S1＜(R1-R2)/(G2-G1)＜S2；

其中，S1为0.5；S2为1.5。

本申请实施例还公开了一种色情图像侦测的系统，包括：

分类器训练模块，用于采用包含特征区域的样本图像训练分类器模型；

候选特征区域检测模块，用于采用所述分类器模型检测目标图像中的候选特征区域；

候选特征区域筛选模块，用于按照预置规则判断所述候选特征区域是否为实际特征区域，若是，则调用色情图像判定模块；

色情图像判定模块，用于判定当前目标图像为色情图像。

优选的是，所述分类器训练模块包括：

样本采集子模块，用于采集包含特征区域的正样本图像，以及，不包含特征区域的负样本图像；

归一化处理子模块，用于对所述正样本图像和负样本图像进行归一化；

特征计算子模块，用于针对所述归一化的正样本图像和负样本图像中进行预设特征的计算，获得特征值及特征数量；

分类器模型训练子模块，用于根据所述特征值及特征数量训练分类器模型。

优选的是，所述预设特征可以为二值化矩形Harr特征，所述特征计算子模块可以进一步包括以下单元：

特征模板设置单元，用于设置至少一种特征模板，所述特征模板包括黑色区域和白色区域；

特征获取单元，用于在当前的正样本图像或负样本图像中的不同位置，选取不同的特征模板，并提取不同尺寸的特征；

特征数量统计单元，用于统计采用各特征模板在所述正样本图像和负样本图像中所能提取到的特征数量；

以及，

特征值计算单元，用于计算各特征的特征值为，所述特征模板中白色区域覆盖图像的像素值之和，减去黑色区域覆盖图像的像素值之和。

优选的是，所述分类器模型训练子模块包括：

初始分类器生成单元，用于针对各个特征生成初始分类器，所述初始分类器中包括方向参数和分类阈值；

权重分配单元，用于针对每一幅样本图像分配初始化的权重；

优选分类器提取单元，用于根据所述方向参数和分类阈值从所述初始分类器中提取满足预设数量的优选特征分类器；

以及，在所述优选分类器的数量小于特征数量时，调用的以下单元：

权重归一化单元，用于针对已分配权重的样本图像计算归一化的权重；

加权分类阈值计算单元，用于根据所述样本图像的归一化权利，计算各个优选特征分类器的加权分类阈值；

最佳分类器确定单元，用于选择所述加权分类阈值最小的优选特征分类器作为本次循环的最佳分类器；

权重调整单元，用于针对本次分类错误的样本图像，按预设规则增加权重；

分类器组合单元，用于组合多次循环的最佳分类器，形成最终的分类器模型。

优选的是，所述目标图像为灰度图像，所述候选特征区域检测模块包括：

尺寸判断子模块，用于按预设比例持续缩放所述目标图像，判断是否达到预设的尺寸下限；若是，则调用输出子模块，若否，则调用检测子模块；

检测子模块，用于采用分类器模型检测所述缩放得到的图像中的候选特征区域，并记录检测到的候选特征区域信息；

输出子模块，用于输出所记录的候选特征区域信息。

优选的是，所述候选特征区域筛选模块包括：

边缘检测子模块，用于提取所述候选特征区域的边缘信息；

最大连通域分析子模块，用于根据所述边缘信息提取所述候选特征区域中的最大连通域；

长宽比判断子模块，用于判断所述最大连通域是否符合预设的长宽比阈值，若否，则调用标准差计算子模块；

标准差计算子模块，用于计算第一标准差和第二标准差，其中，所述第一标准差为候选特征区域的灰度值的标准差，所述第二标准差为该候选特征区域周围区域的灰度值的标准差；

标准差判断子模块，用于判断所述第一标准差是否小于第一标准差阈值，和/或，所述第二标准差是否小于第二标准差阈值，若是，则调用颜色判断子模块；

颜色判断子模块，用于判断第一颜色信息和第二颜色信息是否满足预设条件，若是则调用实际特征区域判定子模块，其中，所述第一颜色信息为候选特征区域的颜色信息，所述第二颜色信息为该候选特征区域周围区域的颜色信息。

实际特征区域判定子模块，用于判定当前候选特征区域为实际特征区域。

本申请实施例还公开了一种训练分类器模型的方法，包括：

对所述正样本图像和负样本图像进行归一化；

根据所述特征值及特征数量训练分类器模型。

以及，

本申请实施例还公开了一种训练分类器模型的系统，包括：

样本采集模块，用于采集包含特征区域的正样本图像，以及，不包含特征区域的负样本图像；

归一化处理模块，用于对所述正样本图像和负样本图像进行归一化；

特征计算模块，用于针对所述归一化的正样本图像和负样本图像中进行预设特征的计算，获得特征值及特征数量；

分类器模型训练模块，用于根据所述特征值及特征数量训练分类器模型。

与现有技术相比，本申请包括以下优点：

本申请通过对特征区域的识别来检测色情图像，具体通过二值化矩形特征结合Adaboost的算法，配合训练样本，进行特征区域的快速识别；并针对特征区域与周围皮肤区域的颜色、形状特征进行进一步筛选出色情图像，有效避免现有技术中非皮肤图片的错误召回，非色情皮肤图片的错误召回，以及，无法召回非皮肤的色情图片的问题，能获得较高的色情图像侦测的召回率和准确率。

附图说明

图1是本申请的一种色情图像侦测的方法实施例的步骤流程图；

图2为本申请的一种示例中采用Harr特征的常用特征模板示意图；

图3为本申请的一种示例中采用图2所示的特征模板计算特征数量的示意图；

图4a、图4b和图4c为本申请的一种示例中特征值排序表中分类阈值所在位置的示意图；

图5为本申请的一种色情图像侦测的系统实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请的核心构思在于，通过对特征区域的识别来检测色情图像，具体通过二值化矩形特征结合Adaboost的算法，配合训练样本，进行特征区域的快速识别；并针对特征区域与周围皮肤区域的颜色、形状特征进行进一步筛选出色情图像，从而获得较高的召回率和准确率。

参照图1，示出了本申请的一种色情图像侦测的方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101、采用包含特征区域的样本图像训练分类器模型；

在本申请实施例中，所述特征区域可以为人体敏感部位对应的区域，如胸部区域。

在具体实现中，本步骤可以采用二值化矩形特征(Harr特征)结合Adaboost分类的方法，配合训练样本，形成特征区域的分类器模型。其主要思想是采用一些简单的Harr特征来描述样本图像，包括正样本图像(事先收集的包含特征区域的图像)和负样本(无关图像)，使用Adaboost算法挑选其中影响较大的特征作为弱分类器，并按照加权投票的方式将其组成迭代分类器。

具体而言，在本申请的一种优选实施例中，所述步骤101具体可以包括如下子步骤：

子步骤S11、采集包含特征区域的正样本图像，以及，不包含特征区域的负样本图像；

所述正样本图像为包含特征区域的图像，如人体胸部区域特写的图像，包含周围皮肤和乳房区域；所述负样本图像为其它无关图像，即不包含特征区域的图像。上述正样本图像和负样本图像即构成训练样本集。理论上来说，训练样本集越大，得到的分类器模型越好。应用本申请实施例在实际使用过程中，采集正样本图像为2000张左右，负样本图像为5000张以上，即可达到较为理想的效果。另外，由于人体形态的复杂性，正样本图像除了要求是包含特征区域以外，需要考虑到实际情况的多样性，尽可能覆盖到各种形态，如特征区域的正面形态、侧面形态、逆光形态等等。

子步骤S12、对所述正样本图像和负样本图像进行归一化；

在具体应用中，所述归一化操作可以包括：

将所述正样本图像和负样本图像缩放至统一尺寸；

和/或，

将所述正样本图像和负样本图像转换为灰度图像。

例如，首先将所有的正样本图像和负样本图像的尺寸都统一缩放到24*24像素，然后对所有的样本图像进行灰度化处理，将原始的RGB三通道图像转化为单通道灰度图像。

子步骤S13、针对所述归一化的正样本图像和负样本图像中进行预设特征的计算，获得特征值及特征数量；

作为本申请实施例具体应用的一种优选示例，所述预设特征可以采用Harr特征，Haar特征是一种简单的二值化矩形特征。确定了特征形式之后，具体特征的数量就取决于训练样本图像的尺寸大小，特征子窗口的尺寸以及该子窗口在图像中位置生成了不同的特征。

在这种情况下，所述子步骤S13可以进一步包括如下子步骤：

子步骤S13-1，设置至少一种特征模板，所述特征模板包括黑色区域和白色区域；

子步骤S13-2，在当前的正样本图像或负样本图像中的不同位置，选取不同的特征模板，并提取不同尺寸的特征；

子步骤S13-3，统计采用各特征模板在所述正样本图像和负样本图像中所能提取到的特征数量；

以及，

子步骤S13-4，计算各特征的特征值为，所述特征模板中白色区域覆盖图像的像素值之和，减去黑色区域覆盖图像的像素值之和。

采用Harr特征来描述图像，较为常用的特征模板如图2所示，特征模板内有白色和黑色两种矩形表征二值化的特征，因而可以看到，所述特征模板包括黑色区域(如代表-1)和白色区域(如代表1)，可以根据位置和尺寸不同生成不同的特征。在实际中可以定义该模板的特征值为白色矩形像素和减去黑色矩形像素和。具体特征的计算方法为，特征模板覆盖区域的加权像素值之和，即白色区域覆盖图像的像素值之和减去黑色区域覆盖图像的像素值之和。

在不同位置选取不同的特征模板，并在各特征模板中提取不同尺寸的特征，以获得大量的特征。例如，在24*24的样本图像中提取如图2所示的四类特征，可以获得超过10万个特征。在这种情况下，各特征模板可以提取的特征数量可以参考图3所示的方式计算得到，即对于1*2或2*1类型的特征模板，在24*24的样本图像中所包含的特征数量为86400个；对于1*3类型的特征模板，在24*24的样本图像中所包含的特征数量为55200个；对于2*2类型的特征模板，在24*24的样本图像中所包含的特征数量为20736个。

子步骤S14、根据所述特征值及特征数量训练分类器模型。

作为本申请实施例具体应用的一种优选示例，所述子步骤S14可以进一步包括如下子步骤：

子步骤S14-1、针对各个特征生成初始分类器，所述初始分类器中包括方向参数和分类阈值；

针对前述步骤生成的大量Haar特征及特征值，可以计算出分类阈值，从而得到初始分类器。选择分类阈值的标准是使得其在训练样本(样本图像)上具有最小的误分率。在前述步骤中，已经将正样本图像和负样本图像归一化为统一的尺寸(如24*24)，所有样本图像都具有相同的特征数量，即可以得到同一类特征在各训练样本上的特征值。

每个特征的初始分类器均包含两个参数，方向参数p以及分类阈值s；其中s将各样本图像在该特征上的值分布分为两段，即认为小于s的属于一类，大于s的属于另一类；而方向p(取值+1或者-1)则表示了各类归属的类别，即小于s的属于特征区域(或者非特征区域)，大于s的属于非特征区域(或者特征区域)。具体可以采用如下公式来表示：

g (x, p, s) = \{\begin{matrix} 1, p * f (x) < p * s \\ 0, p * f (x) &GreaterEqual; p * s \end{matrix}

上式中，g(x，p，s)表示了某一个特征的初始分类器，取值分别为1(代表特征区域)或者0(代表非胸部区域)。x代表某一样本图像，f(x)表示了某一特征在该样本图像上计算所得的值(特征值)，s为待定的分类阈值，用以划分样本，p为方向参数，决定了小于或者大于等于阈值s两端的类别(是否为特征区域)。可以理解，特征的初始分类器的选择问题实质就是确定分类阈值s以及方向p的问题。

例如，将某一特征在所有样本图像上的取值(特征值)按照升序的方式进行排序，可以得到类似如以下表所示的结果：

正样本：1

负样本：2

正样本：4

负样本：10

负样本：13

负样本：15

正样本：20

正样本：21

在上表中，假设正样本图像的数量和负样本图像的数量均为4，则选取阈值s以及p的方式为，扫描已排序好、按照升序排列的数组，计算在各个位置插入分类阈值时的分类阈值，选择p、s使得分类阈值最小。

具体而言，所述分类阈值可以采用如下公式来计算：

分类阈值＝正样本图像误分数量/正样本图像总数+负样本图像误分数量/负样本图像总数。

为使本领域技术人员更好地理解本申请实施例，以下结合图4a、图4b和图4c，通过具体示例来说明分类阈值的计算过程。

如图4a所示，假设通过分隔线41将分类阈值划在“正样本：1”后面的位置，则在所述分隔线41所在的位置计算分类阈值为：

p＝1(代表小于阈值为正样本图像，大于阈值为负样本图像)，s＝1.5，此时，分类阈值为0/4+3/4＝0.75；

p＝0(代表小于阈值为负样本，大于阈值为正样本)，s＝1.5，此时误分率为1/4+4/4＝1.75。

如图4b所示，假设通过分隔线42将分类阈值划在“正样本：2”后面的位置，则在所述分隔线42所在的位置计算分类阈值为：

p＝1(代表小于阈值为正样本图像，大于阈值为负样本图像)，s＝3，此时误分率为1/4+3/4＝1；

p＝0(代表小于阈值为负样本图像，大于阈值为正样本图像)，s＝3，此时误分率为1/4+3/4＝1。

依此类推，直至如图4c所示，假设通过分隔线43将分类阈值划在“负样本：15”后面的位置，则在所述分隔线43所在的位置计算分类阈值为：

p＝1(代表小于阈值为正样本图像，大于阈值为负样本图像)，s＝17.5，此时误分率为4/4+2/4＝1.5；

p＝0(代表小于阈值为负样本图像，大于阈值为正样本图像)，s＝17.5，此时误分率为2/4+0/4＝0.5。

可以得出，该特征在s＝17.5，p＝0时取到最小的误分率0.5，因此该特征的分类器为g(x，0，17.5)。

在获得各特征的初始分类器后，可以进一步应用Adaboost算法训练最终的分类器模型。Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终的分类器(强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。使用Adaboost分类器可以排除一些不必要的训练数据特征，并将重点放在关键的训练数据上面。

应用Adaboost算法训练最终的分类器模型的过程主要体现在以下子步骤中。

子步骤S14-2、针对每一幅样本图像分配初始化的权重；

在实际中，每一幅样本图像都含有一个权重，表明了该图片对训练的贡献。假设训练集中正样本图像的数量和负样本图像的数量分别为m和n，则对于正样本图像来说，其权重w＝1/2m，对于负样本图像来说，其权重w＝1/2n。

子步骤S14-3、根据所述方向参数和分类阈值从所述初始分类器中提取满足预设数量的优选特征分类器；

针对之前提取出的大量Harr特征，选取一定数目的优选特征分类器，这样做的理由有两个，一是分类器的数目过于庞大会导致计算的开销太大，二是由于大部分特征分类器对图像识别的贡献很少，因此只选取那些较为重要的。

例如，针对24*24的训练样本，会有超过10万个特征，应用本实施例则可以设定选取的数目为3000。接下来会循环选取最优的3000个特征，将其初始分类器作为优选特征分类器。

子步骤S14-4、当所述优选分类器的数量小于特征数量时，执行以下操作(1)-(5)：

(1)针对已分配权重的样本图像计算归一化的权重；

在实际中，针对已分配权重的训练样本(包括正样本图像和负样本图像)，可以采用以下公式计算归一化权重k_i：

k_{i} = \frac{w_{i}}{Σ_{i = 1}^{m + n} w_{i}}, i = 1,2 . . . m + n

其中，所述m为正样本图像的数量，n为负样本图像的数量，Wi为相应的样本图像的权重。

(2)根据所述样本图像的归一化权利，计算各个优选特征分类器的加权分类阈值；

针对每一个特征，采用前述分类阈值的计算公式计算其加权误分率。需要注意的是，在前述步骤中假设各训练样本图像的权重都相同，这里需要用各样本图像对应的归一化权重k_i代替，即在确定阈值s和方向p时，采用如下公式计算加权分类阈值：

加权误分率＝误分正样本图像的权重之和/正样本图像的权重之和+误分负样本图像的数量之和/负样本图像的数量之和。

(3)选择所述加权分类阈值最小的优选特征分类器作为本次循环的最佳分类器；

(4)针对本次分类错误的样本图像，按预设规则增加权重；

在实际中，针对本次分类正确的训练样本图像(无论是正样本图像还是负样本图像)，保持其权重不变(因为该分类器已经具有较为不错的效果)；针对本次分类错误的训练样本图像，则适当增加其权重，以期待下一个分类器对其具有较好的修正)。

作为本实施例具体应用的一种优选示例，对于错误分类的样本图像的权重，可以采用以下公式进行调整：

w^{'} = w * (1 + \frac{1}{1 - a})

上式中，w为本次循环中某一样本图像的权重，w’为下一次循环中该样本图像调整的权重，a为步骤(2)算得的最佳分类器的加权分类阈值。可以看出，对于误分的图像，权重会增大；并且最佳分类器越准确(加权分类阈值越小)，调整的幅度也越小，反之则增大。

在实际中，如果选取的分类器已达到特征数目的上限，则跳出循环。

(5)组合多次循环的最佳分类器，形成最终的分类器模型。

在具体实现中，针对前一步骤所得的若干优选特征分类器，采用如下表达式将其组合起来：

P (x) = \{\begin{matrix} 1 . if Σ_{i = 1}^{N} \ln \frac{1 - a}{a} g_{1} (x) &GreaterEqual; \frac{1}{2} * Σ_{i = 1}^{N} g_{1} (x) \\ 0, else \end{matrix};

上式(分类器表达式)的含义是，针对任一与训练样本尺寸一致的图像(如本例中的24*24)，P(x)可以用来判断该区域是否为特征区域(1)或者非特征区域(0)。其中N为优选特征分类器的数目(如本例中的3000)。使用ln[(1-a)/a]来作为分类器g(x)的权重，其意义在于，该分类器的分类阈值越低，在组合表达式中所包含的权重就越高。

经过上述处理，即可获得用于特征区域检测的分类器模型。

步骤102、采用所述分类器模型检测目标图像中的候选特征区域；

由于特征区域在不同图像中的大小可能不同，因此将目标图像按比例缩放，在不同尺寸的图像上，使用一定尺寸的窗口并结合前述分类器对子区域依次判断其是否为候选特征区域(与特征区域相似性较大的区域)。

因而，在本申请的一种优选实施例中，所述步骤102具体可以包括如下子步骤：

子步骤S21、按预设比例持续缩放所述目标图像，按预设比例持续缩放判断是否达到预设的尺寸下限；若是，则执行子步骤S23；若否，则执行子步骤S22；

子步骤S22、采用分类器模型检测所述缩放得到的图像中的候选特征区域，并记录检测到的候选特征区域信息；

子步骤S23、输出所记录的候选特征区域信息。

需要说明的是，若输入的目标图像不是灰度图像，则需要先将所述目标图像进行灰度化处理，即将输入的三通道RGB图像转化为单通道的灰度图(与前述训练样本图像的灰度化处理类似)。

由于训练所用的样本图像均是固定尺寸的(比如24*24)，实际应用过程中，特征区域的尺寸可能会千差万别，为保证检测的准确性，因此需要对目标图像按一定比例持续缩放，并采用固定尺寸的(如24*24)的滑动窗口来检测和计算特征进行判断。

在本实施例中，可以设定缩放的比例为90％，设定缩放的下限为10％，举例来说，对于1000*1000的目标图像则可以依次按照900*900、800*800的顺序缩放，直到缩放至100*100为止。

针对缩放得到的图像，使用之前的分类器模型进行检测，并将候选特征区域(嫌疑区域)记录下来。

判断当前缩放的目标图像是否达到预设的尺寸下限，若否，则继续检测候选特征区域并记录所检测出来的候选特征区域的信息；若是，则输出所记录的候选特征区域的信息。

步骤103、按照预置规则判断所述候选特征区域是否为实际特征区域，若是，则判定当前目标图像为色情图像。

由于特征区域(如胸部区域)在形态以及颜色上会有一定的特征，因此，针对前述步骤所得到的候选特征区域，可以进一步采用边缘检测和连通域提取的方式，分割出环状区域，并采用颜色特征对候选特征区域作二次筛选，有效更进一步提高了算法的准确率。

因而，在本申请的一种优选实施例中，所述步骤103具体可以包括如下子步骤：

子步骤S31、提取所述候选特征区域的边缘信息；

图像边缘是图像非常重要的特征之一，因为图像边缘保留了原始图像中相当重要的部分信息。边缘提取一般采用特定尺寸的模板与原始图像作卷积操作。

针对前面提取到的候选特征区域，如各疑似胸部的图像区域，首先提取其边缘，在实际中可以采用Canny算法。例如，如果是胸部区域，一般会在乳房与周围皮肤区域提取出较为明显的连续边界。

子步骤S32、根据所述边缘信息提取所述候选特征区域中的最大连通域；

例如，如果是胸部区域，借助前一子步骤提取出来的边界作为轮廓，可以将皮肤区域与乳房区域分离开来。

子步骤S33、判断所述最大连通域是否符合预设的长宽比阈值，若是，则执行子步骤S38；若否，则执行子步骤S34；

以胸部区域检测为例，一般人体的乳房区域呈近似的圆形，因此可以通过衡量其最小外接矩形的长宽比来剔除一些错误。具体可以设定长宽比的阈值为1.75，即如果分离出来的乳房疑似区域长宽比大于1.75，则认为是非色情图像。

子步骤S34、计算第一标准差和第二标准差，其中，所述第一标准差为候选特征区域的灰度值的标准差，所述第二标准差为该候选特征区域周围区域的灰度值的标准差；

子步骤S35、判断所述第一标准差是否小于第一标准差阈值，和/或，所述第二标准差是否小于第二标准差阈值，若是，则执行子步骤S38；否则，执行子步骤S36；

以胸部区域检测为例，可以分别计算乳房区域与周围皮肤区域的灰度值的标准差。如果任一标准差超过各自预设的阈值，则认为是非色情图像。所述阈值的设定一般可以通过事先对胸部样本图片分析而得到。例如，可以选用第一标准差阈值为15，第二标准差阈值为22。

子步骤S36、判断第一颜色信息和第二颜色信息是否满足预设条件，若是，则执行子步骤S37；若否，则执行子步骤S38；

作为本实施例具体应用的一种优选示例，所述第一颜色信息可以包括候选特征区域各像素R通道分量的平均值R1以及G通道分量的平均值G1，所述第二颜色信息可以包括该候选特征区域周围区域的R通道分量的平均值R2以及G通道分量的平均值G2，在这种情况下，所述预设条件可以包括：

1)R2＜R1；

2)G2＞G1；

3)S1＜(R1-R2)/(G2-G1)＜S2；

其中，S1为0.5；S2为1.5。

在胸部检测为例，根据实验发现，乳房区域R通道的能量较高，而其周围皮肤区域G通道的能量较高。考虑到光线、人种等的区别，本申请实施例没有采用R通道或者G通道的绝对值，而是采用了相对值来判断。

假设乳房区域各像素R与G分量的平均值分别为R_nipple和G_nipple，周围皮肤区域各像素R与G分量的平均值分别为R_skin和G_skin，如果满足下面三个条件：

A)R_skin＜R_nipple；

B)G_skin＞G_nipple；

C)S₁＜(R_nipple-R_skin)/(G_skin-G_nipple)＜S₂；

则最终确认为是胸部区域，当前目标图像为色情图像，否则判定为非色情图像。在A式中，表示皮肤区域的R分量要低于乳房区域的R分量；在B式中，表示皮肤区域的G分量要高于乳房区域的G分量；在C式中，表示可以从训练样本中事先学习获得，其物理意义在于皮肤颜色和乳房颜色具有一致性。其中，S₁、S₂可以分别取0.5和1.5。

子步骤S37、判定当前候选特征区域为实际特征区域，当前目标图像为色情图像；

子步骤S38、判定当前目标图像为非色情图像。

本申请实施例还提供了一种训练分类器模型的方法，具体可以包括：

1、采集包含特征区域的正样本图像，以及，不包含特征区域的负样本图像；

2、对所述正样本图像和负样本图像进行归一化；

3、针对所述归一化的正样本图像和负样本图像中进行预设特征的计算，获得特征值及特征数量；

4、根据所述特征值及特征数量训练分类器模型。

在本申请的一种优选实施例中，可以通过以下子步骤对正样本图像和负样本图像进行归一化：

子步骤S41、将所述正样本图像和负样本图像缩放至统一尺寸；

和/或，

子步骤S42、将所述正样本图像和负样本图像转换为灰度图像。

作为本申请实施例具体应用的一种示例，所述预设特征为二值化矩形特征，在这种情况下，可以通过以下子步骤针对归一化的正样本图像和负样本图像中进行预设特征的计算，获得特征值及特征数量：

子步骤S51、设置至少一种特征模板，所述特征模板包括黑色区域和白色区域；

子步骤S52、在当前的正样本图像或负样本图像中的不同位置，选取不同的特征模板，并提取不同尺寸的特征；

子步骤S53、统计采用各特征模板在所述正样本图像和负样本图像中所能提取到的特征数量；

以及，

子步骤S54、计算各特征的特征值为，所述特征模板中白色区域覆盖图像的像素值之和，减去黑色区域覆盖图像的像素值之和。

在具体实现中，可以通过以下子步骤根据特征值及特征数量训练分类器模型：

子步骤S61、针对各个特征生成初始分类器，所述初始分类器中包括方向参数和分类阈值；

子步骤S62、针对每一幅样本图像分配初始化的权重；

子步骤S63、根据所述方向参数和分类阈值从所述初始分类器中提取满足预设数量的优选特征分类器；

子步骤S64、当所述优选分类器的数量小于特征数量时，执行以下操作：

子步骤S65、针对已分配权重的样本图像计算归一化的权重；

子步骤S66、根据所述样本图像的归一化权利，计算各个优选特征分类器的加权分类阈值；

子步骤S67、选择所述加权分类阈值最小的优选特征分类器作为本次循环的最佳分类器；

子步骤S68、针对本次分类错误的样本图像，按预设规则增加权重；

子步骤S69、组合多次循环的最佳分类器，形成最终的分类器模型。

需要说明的是，对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

参照图5，示出了本申请的一种色情图像侦测的系统实施例的结构框图，具体可以包括以下模块：

分类器训练模块501，用于采用包含特征区域的样本图像训练分类器模型；

候选特征区域检测模块502，用于采用所述分类器模型检测目标图像中的候选特征区域；

候选特征区域筛选模块503，用于按照预置规则判断所述候选特征区域是否为实际特征区域，若是，则调用色情图像判定模块504；

色情图像判定模块504，用于判定当前目标图像为色情图像。

在本申请的一种优选实施例中，所述分类器训练模块501可以包括以下子模块：

在具体实现中，所述归一化处理子模块可以进一步包括以下单元：

图像单元，用于将所述正样本图像和负样本图像缩放至统一尺寸；

和/或，

灰度化处理单元，用于将所述正样本图像和负样本图像转换为灰度图像。

作为本申请实施例具体应用的一种优选示例，所述预设特征可以为Harr特征，所述特征计算子模块可以进一步包括以下单元：

以及，

作为本申请实施例具体应用的一种优选示例，所述分类器模型训练子模块可以进一步包括以下单元：

在具体实现中，所述目标图像为灰度图像，所述候选特征区域检测模块502可以进一步包括以下子模块：

输出子模块，用于输出所记录的候选特征区域信息。

在本申请的一种优选实施例中，所述候选特征区域筛选模块503可以进一步包括以下子模块：

边缘检测子模块，用于提取所述候选特征区域的边缘信息；

更为优选的是，所述第一颜色信息包括候选特征区域各像素R通道分量的平均值R1以及G通道分量的平均值G1，所述第二颜色信息包括该候选特征区域周围区域的R通道分量的平均值R2以及G通道分量的平均值G2，所述预设条件可以包括：

1)R2＜R1；

2)G2＞G1；

3)S1＜(R1-R2)/(G2-G1)＜S2；

其中，S1为0.5；S2为1.5。

本申请实施例还提供了一种训练分类器模型的系统，包括：

在具体实现中，所述归一化处理模块可以进一步包括以下单元：

和/或，

作为本申请实施例具体应用的一种优选示例，所述预设特征可以为Harr特征，所述特征计算模块可以进一步包括以下单元：

以及，

作为本申请实施例具体应用的一种优选示例，所述分类器模型训练模块可以进一步包括以下单元：

对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上对本申请所提供的一种色情图像侦测的方法和一种色情图像侦测的系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种色情图像侦测的方法，其特征在于，包括：

采用包含特征区域的样本图像训练分类器模型；

采用所述分类器模型检测目标图像中的候选特征区域；

2.根据权利要求1所述的方法，其特征在于，所述采用包含特征区域的样本图像训练分类器模型的步骤，进一步包括：

对所述正样本图像和负样本图像进行归一化；

根据所述特征值及特征数量训练分类器模型。

3.根据权利要求2所述的方法，其特征在于，所述对正样本图像和负样本图像进行归一化的子步骤，进一步包括：

将所述正样本图像和负样本图像缩放至统一尺寸；

和/或，

将所述正样本图像和负样本图像转换为灰度图像。

4.根据权利要求2或3所述的方法，其特征在于，所述预设特征为二值化矩形特征，所述针对归一化的正样本图像和负样本图像中进行预设特征的计算，获得特征值及特征数量的子步骤，进一步包括：

以及，

5.根据权利要求4所述的方法，其特征在于，所述根据特征值及特征数量训练分类器模型的子步骤，进一步包括：

针对每一幅样本图像分配初始化的权重；

当所述优选分类器的数量小于特征数量时，执行以下操作：

针对已分配权重的样本图像计算归一化的权重；

针对本次分类错误的样本图像，按预设规则增加权重；

组合多次循环的最佳分类器，形成最终的分类器模型。

6.根据权利要求1或5所述的方法，其特征在于，所述目标图像为灰度图像，所述采用分类器模型检测目标图像中的候选特征区域的步骤，进一步包括：

若是，则输出所记录的候选特征区域信息。

7.根据权利要求1所述的方法，其特征在于，所述按照预置规则判断候选特征区域是否为实际特征区域的步骤，进一步包括：

提取所述候选特征区域的边缘信息；

根据所述边缘信息提取所述候选特征区域中的最大连通域；

8.根据权利要求7所述的方法，其特征在于，所述按照预置规则判断候选特征区域是否为实际特征区域的步骤，还包括：

9.根据权利要求7或8所述的方法，其特征在于，所述按照预置规则判断候选特征区域是否为实际特征区域的步骤，还包括：

10.根据权利要求9所述的方法，其特征在于，所述第一颜色信息包括候选特征区域各像素R通道分量的平均值R1以及G通道分量的平均值G1，所述第二颜色信息包括该候选特征区域周围区域的R通道分量的平均值R2以及G通道分量的平均值G2，所述预设条件包括：

1)R2＜R1；

2)G2＞G1；

3)S1＜(R1-R2)/(G2-G1)＜S2；

其中，S1为0.5；S2为1.5。

11.一种色情图像侦测的系统，其特征在于，包括：

色情图像判定模块，用于判定当前目标图像为色情图像。

12.根据权利要求11所述的系统，其特征在于，所述分类器训练模块包括：

13.根据权利要求12所述的系统，其特征在于，所述预设特征可以为二值化矩形Harr特征，所述特征计算子模块可以进一步包括以下单元：

以及，

14.根据权利要求13所述的系统，其特征在于，所述分类器模型训练子模块包括：

15.根据权利要求11或12或13或14所述的系统，其特征在于，所述目标图像为灰度图像，所述候选特征区域检测模块包括：

输出子模块，用于输出所记录的候选特征区域信息。

16.根据权利要求15所述的系统，其特征在于，所述候选特征区域筛选模块包括：

边缘检测子模块，用于提取所述候选特征区域的边缘信息；

17.一种训练分类器模型的方法，其特征在于，包括：

对所述正样本图像和负样本图像进行归一化；

根据所述特征值及特征数量训练分类器模型。

18.根据权利要求17所述的方法，其特征在于，所述预设特征为二值化矩形特征，所述针对归一化的正样本图像和负样本图像中进行预设特征的计算，获得特征值及特征数量的子步骤，进一步包括：

以及，

19.一种训练分类器模型的系统，其特征在于，包括：