CN101819638A

CN101819638A - 色情检测模型建立方法和色情检测方法

Info

Publication number: CN101819638A
Application number: CN 201010143777
Authority: CN
Inventors: 谢呈; 刘毅志; 唐胜; 张勇东; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Zhongkehai Micro Beijing Technology Co ltd
Priority date: 2010-04-12
Filing date: 2010-04-12
Publication date: 2010-09-01
Anticipated expiration: 2030-04-12
Also published as: CN101819638B

Abstract

本发明提供一种色情检测模型建立方法，包括：从带有标注信息的样本音视频对象中提取视频特征和音频特征；根据所述标注信息，为所述样本音视频对象中的各类音频特征、视频特征分别训练模型，然后利用基于排序的加权平均融合方法计算所述模型间的融合参数；其中，所述的基于排序的加权平均融合方法遍历参数orness的取值区间，为所述参数orness的各个取值计算相应的融合参数，然后利用所述样本音视频对象计算各个融合参数的效果，选取效果最好的融合参数作为模型间的融合参数。本发明的色情检测方法与现有技术中的相关方法相比综合采用了视频特征与音频特征，检测准确率上有较大的提高。

Description

色情检测模型建立方法和色情检测方法

技术领域

本发明涉及图像检测领域，特别涉及一种色情检测模型建立方法和色情检测方法。

背景技术

随着互联网和计算机多媒体技术日新月异的发展，数字视频特别是网络视频的应用已经家喻户晓。在人们自由访问各种网络数据的同时，大量不良信息的干扰已经日益成为互联网的一大公害。特别是网络色情视频信息的泛滥，已经不仅仅是互联网的问题，甚至日益成为一个全球性的社会问题。由于这些不良信息的存在，色情检测技术对于实现和谐、健康的互联网环境具有重要意义。

当前对网络色情信息检测的主要手段主要有三种：1、通过文本信息分析寻找敏感关键词；2、简单的肤色检测模型；3、图像视觉特征训练的单一SVM模型。上述三种方法都存在各自的缺陷。第一种方法仅仅通过文本信息来做色情信息检测，在实际使用中具有较高的误判率，一些包含有关键词的正常网页往往容易被屏蔽掉；而且当色情内容以非文本方式出现时，如图片或者视频，此类方法就变得无能为力。第二种方法仅仅通过肤色特征检测色情信息，这种方法的误检率高，容易将具有类似肤色的非色情图像误识为色情图像，如包含有黄色的门和墙壁的图像很容易被误检为色情图像。第三种方法中所采用的单一SVM模型由于受到图像光线和环境多样性的影响而具有适应性较差的缺陷，而机器学习的本质也使得该类方法推广性能较低。

综上所述，现阶段缺乏一种检测准确率高、且具有较强适应性和较好推广性的色情检测方法。

发明内容

本发明的目的是克服现有技术中的色情检测方法检测准确率较低、适应性较差的缺陷，从而提供一种检测准确率高、适应性较好的色情检测方法。

为了实现上述目的，本发明提供了一种色情检测模型建立方法，包括：

步骤1)、从带有标注信息的样本音视频对象中提取视频特征和音频特征；

步骤2)、根据所述标注信息，为所述样本音视频对象中的各类音频特征、视频特征分别训练模型，然后利用基于排序的加权平均融合方法计算所述模型间的融合参数；其中，

所述的基于排序的加权平均融合方法遍历参数orness的取值区间，为所述参数orness的各个取值计算相应的融合参数，然后利用所述样本音视频对象计算各个融合参数的效果，选取效果最好的融合参数作为模型间的融合参数。

上述技术方案中，所述模型为SVM模型。

上述技术方案中，在所述的步骤1)中，所述的提取视频特征包括：

步骤a)、为音视频对象中的图像做颜色空间转换；

步骤b)、从所述图像中提取颜色相关图、颜色直方图以及边缘直方图。

上述技术方案中，在所述的步骤a)中，所述的颜色空间转换包括：

步骤a-1)、通过移位将颜色空间转换计算公式中用浮点数表示的系数转换为定点数；

步骤a-2)、将颜色空间转换计算公式中原有颜色空间各维的值用数组存储；

步骤a-3)、将步骤a-1)中所得到的用定点数表示的系数与步骤a-2)中用于表示原有颜色空间各维的值的数组按照所述颜色空间转换计算公式加以计算；

步骤a-4)、对步骤a-3)的计算结果做移位，所述移位缩小的倍数与所述步骤a-1)中移位的放大倍数相同。

上述技术方案中，在所述的步骤b)中，所述的颜色相关图包括144维，对该144维颜色相关图的提取包括：

步骤b-1-1)、在所述图像的RGB颜色空间中将颜色均分成36个区间bin₁，bin₂，...，bin₃₆；

步骤b-1-2)、统计每个区间内颜色对的距离信息：设四个距离跨度dis＝{1，3，5，7}，则颜色相关图c_ij就定义为bin_i区间内颜色对距离小于等于dis_j的概率。

上述技术方案中，在所述的步骤b)中，所述的颜色直方图包括64维；所述64维颜色直方图的提取包括：

步骤b-2-1)、将图像在YUV颜色空间中的每一个部分均分成四个区间；

步骤b-2-2)、将每个部分中的颜色直方图定义为：h(i)＝N_i/N，i＝1，2，...，k；其中，Ni是值为i的像素个数，N是图像的总像素个数，K是区间的大小。

上述技术方案中，在所述的步骤b)中，所述的边缘直方图包括73维；所述73维边缘直方图的提取包括：

步骤b-3-1)、对图像灰度图上的每个像素点用Sobel算子计算边缘方向及长度；

步骤b-3-2)、根据阈值确定图像中的哪些像素点是边缘，哪些像素点不是边缘；

步骤b-3-3)、将确定为边缘的像素点按照5度的区间间隔分成72份，从而得到边缘直方图的前72维，将不是边缘的像素点作为第73维。

上述技术方案中，在所述的步骤2)中，为所述参数orness的各个取值计算相应的融合参数包括：

步骤2-1)、选取参数orness的一个取值；

步骤2-2)、由参数orness的值反向计算融合参数，得到多组与该参数orness对应的融合参数；

步骤2-3)、从所述的多组融合参数中选取散度值最大的一组参数作为该orness值对应的唯一融合参数；所述散度值通过下列公式计算：

Dispersion(W)＝-∑W_jlnW_j

其中，W表示融合参数，j表示融合参数中的第j个分量。

本发明还提供了一种色情检测方法，包括：

步骤1)、采用所述的色情检测模型建立方法建立色情检测模型，计算模型间的融合参数；

步骤2)、从待检测音视频对象中提取视频特征和音频特征；

步骤3)、利用所述色情检测模型分别对所提取的视频特征和音频特征加以测试，然后利用所述的融合参数对各个模型所得到的测试结果加以融合，生成用于判别所述待检测音视频对象是否包含色情内容的测试结果。

上述技术方案中，还包括：

步骤4)、根据步骤3)的测试结果从待检测音视频对象中选择被认为包含色情内容的图像，对这些图像做人脸检测和纹理特征识别，根据所述人脸检测和纹理特征识别的结果选出被误检为色情图像的图像。

上述技术方案中，所述的步骤4)包括：

步骤4-1)、根据测试结果取出待检测音视频对象中被认为包含色情的图像；

步骤4-2)、对这些图像进行人脸检测，如果在人脸检测中发现人脸面积与整个图像面积的比例大于第一阈值，则可认为该图像不包含色情内容，否则，执行下一步；

步骤4-3)、对图像做纹理特征识别，如果具有较大纹理特征的像素点占总像素点的比例大于第二阈值，则认为该图像不包含色情内容，否则，图像包含色情内容。

上述技术方案中，所述的步骤4-3)包括：

步骤4-3-1)、利用肤色模型检测图像中的类肤色像素点；

步骤4-3-2)、对所述的类肤色像素点采用区域连通算法和腐蚀平滑算法确定可能的肤色区域；

步骤4-3-3)、在可能的肤色区域内计算Sobel边缘，但肤色边缘本身不算在内；

步骤4-3-4)、根据所述Sobel边缘的多少和阈值确定具有较大纹理特征的像素点；

步骤4-3-5)、将具有较大纹理特征的像素点占总像素点的比例与实验确定的阈值进行比较，若该比例大于该阈值，则该图像为不包含色情内容的图像，否则为包含色情内容的图像。

本发明的优点在于：本发明的色情检测方法与现有技术中的相关方法相比综合采用了视频特征与音频特征，检测准确率上有较大的提高。

附图说明

图1为本发明的色情检测方法的流程图；

图2为本发明中所采用的OWA融合方法与其它类型的融合方法的融合效果比对图；

图3为本发明的色情检测方法与现有技术的色情检测正确率比较图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。

本发明的色情检测方法主要针对既具有视频特征又具有音频特征的待检测音视频对象，如有声电影、电视剧、带有声音的视频短片等。无论是何种类型的待检测音视频对象，其色情检测过程基本相同，因此在下面的实施例虽然以其中的电视剧为例对本发明的色情检测方法的实现过程做详细说明，但本发明的方法同样适用于其它类型的待检测音视频对象。

参考图1，本发明的色情检测方法分两个阶段，即训练和测试阶段。训练阶段，首先从带标注信息(所述标注信息标明了图像中是否包含了色情内容)的样本电视剧图像信息中分别提取视频特征和音频特征，然后针对这些特征分别进行SVM训练，得到多个与这些特征相对应的SVM模型，最后利用OWA算法得到多个模型的融合参数。在测试阶段，首先从无标注信息的待测试电视剧图像信息中分别提取视频特征和音频特征，然后利用训练阶段得到的多个SVM模型测试特征得到多个测试结果，最后利用训练阶段OWA算法得到的融合参数融合这些测试结果得到一个结果，即可判断待检测电视剧是否包含色情内容。下面按步骤对方法中的具体细节加以说明。

训练阶段

步骤1)、提取视频特征。本领域普通技术人员都应当了解，视频是多帧图像的组合，在电视剧上提取视频特征本质上就是在组成电视剧的各帧单幅图像上分别提取视频特征。因此，在本实施例中可以以图像为例，对视频特征的提取过程加以说明。

本发明中所提取的视频特征包括颜色相关图(Color Correlogram，CC)、颜色直方图(Color Histogram，CH)和边缘直方图(Edge Histogram，EH)。在本实施例中，颜色相关图是基于RGB颜色空间的特征，颜色直方图是基于YUV颜色空间的特征，而边缘直方图是基于灰度图的特征。从上面的定义可以看出，颜色相关图和颜色直方图这两类视频特征在不同的颜色空间上，但在提取视频特征前的读取图像过程中，往往只能获得图像在一个颜色空间中的信息，因此，在提取视频特征前需要将所提取的图像信息从一个颜色空间转换到另一个颜色空间。颜色空间的转换为本领域的公知常识，在下面的公式(1)中给出了现有技术中从RGB到YUV颜色空间转换的公式：

[\begin{matrix} Y \\ U \\ V \end{matrix}] = [\begin{matrix} 0.3 & 0.59 & 0.11 \\ - 0.15 & - 0.29 & 0.44 \\ 0.61 & - 0.52 & - 0.096 \end{matrix}] [\begin{matrix} R \\ G \\ B \end{matrix}] - - - (1)

利用这一公式可实现从RGB到YUV颜色空间的转换。对于YUV到RGB的颜色空间转换的计算公式，可以通过对公式(1)的变形得到。

在完成颜色空间转换后，即可实现对颜色相关图、颜色直方图和边缘直方图的提取。下面分别以144维颜色相关图、64维颜色直方图和73维边缘直方图为例，对这些视频特征的提取方法加以说明，参照这些方法，结合本领域公知常识，同样可以实现对其它维数的颜色相关图、颜色直方图和边缘直方图的提取。

在提取144维的颜色相关图时，首先在图像的RGB颜色空间中将颜色均分成36个区间bin₁，bin₂，...，bin₃₆，然后统计每个区间内颜色对的距离信息：设四个距离跨度dis＝{1，3，5，7}，则颜色相关图c_ij就定义为bin_i区间内颜色对距离小于等于dis_j的概率，通过上述操作所得到的颜色相关图的维数为144(36×4)。

在提取64维的颜色直方图时，由于YUV是线性颜色空间，针对图像在YUV颜色空间中的每一个部分(即Y、U和V)均分成四个区间，每个部分的颜色直方图就定义为：h(i)＝N_i/N，i＝1，2，...，k，其中，N_j是值为i的像素个数，N是图像的总像素个数，K是区间的大小(即k＝4)。通过上述操作所得到的颜色直方图的维数为64(4×4×4)。

在提取73维的边缘直方图时，首先对图像灰度图上的每个像素点用Sobel算子计算边缘方向及长度，然后根据阈值确定图像中的哪些像素点是边缘哪些像素点不是，最终将确定为边缘的像素点按照5度的区间间隔分成72份，从而得到边缘直方图的前72维，而最后一维就是图像中确定为不是边缘的像素点的总个数。

步骤2)、提取音频特征。本发明所提取的音频特征包括美尔频率倒谱系数(MFCC)。所述的美尔频率倒谱系数(MFCC)音频特征最先在语音识别研究领域中提出，它着眼于人耳的听觉特征(人耳听到的声音高低与声音的频率成非线性关系)，将线性频标转换为Mel频标，强调音频的低频信息，突出了有利于人耳识别的信息的同时屏蔽高频的噪声干扰。而且其参数无任何前提假设，通用性和鲁棒性较强，适合作为音频识别的特征，在有信道噪声和频谱失真的情况下，能产生较高的识别精度。MFCC的提取为本领域技术人员的公知常识，因此不在本发明中重复说明。

虽然在本发明中将MFCC作为所要提取的音频特征，但本领域技术人员应当了解，现有技术中常用的其它类型的音频特征，如基音周期、短时能量、短时过零率、谱质心、共振峰、频域带宽、FPBW(Feature ParameterBased on Wavelet analysis)和LPCC(Linear Prediction Cepstrum Coefficient)等，同样可以用于本发明。

步骤3)、在步骤1)和步骤2)中分别得到视频特征和音频特征后，结合标注信息，分别为这些特征训练SVM模型，并计算这些SVM模型的融合参数。

从前面步骤1)和步骤2)的说明中已经提到，从电视剧图像中所能提取的视频特征包括三类：颜色相关图、颜色直方图和边缘直方图。而所能提取的音频特征包括MFCC，因此，为视频特征和音频特征训练SVM模型具体的说就是要分别为颜色相关图、颜色直方图、边缘直方图以及MFCC训练SVM模型。关于如何利用视频特征、音频特征以及标注信息来训练SVM模型的方法在现有技术中已经有详细的说明，因此不在本发明中重复说明，下面就SVM模型的融合参数的计算予以说明。

在后续的测试阶段中，需要利用颜色相关图、颜色直方图、边缘直方图以及MFCC各自的SVM模型对待检测对象中的视频特征和音频特征进行检测，然后将所得到的多个检测结果加以融合。在本发明中采用了一种基于排序的加权平均融合方法(Ordered Weighted Average，OWA)来实现多个检测结果间的融合。所述的OWA方法首先确定一组融合参数W＝[W₁，W₂，W₃...]，其中W₁+W₂+W₃+...＝1，然后利用该组融合参数将多个排序后的测试结果加以融合，从而得到最终结果。例如，假设有三个测试结果为1、0、1(1表示色情)，对这些测试结果排序后为1，1，0。与该测试结果相对应的融合参数有三个，由于测试结果已经做了排序，因此值为1的测试结果排在前面，值为0的测试结果排在后面，因此当融合参数为W＝[1，0，0]时表示“或”，也就是说，只要测试结果中存在值为1的项，那么最后的结果就会是1(即存在色情内容)，如将前述排序后的测试结果与该融合参数相结合后的结果为1×1+1×0+0×0＝1(色情)。相反的，当融合参数为W＝[0，0，1]时表示“与”，也就是说，只有测试结果中的项都为1时，最后的结果才会是1，如将前述排序后的测试结果与该融合参数相结合后的结果为1×0+1×0+0×1＝0(非色情)。在上面的例子中为了说明清楚的目的，对测试结果、融合参数以及融合后的后果的数值都用0、1做了简化，但实际上可以是其它值，一般是0-1之间的数值。

上述OWA融合方法本质上就是研究各种待融合数据之间的相互关系，其两种极端形式是“交”和“或”，其他都是这两种极端情况的折中。从上面的说明中可以看出，OWA方法的核心在于如何确定融合参数，由于融合参数通常是一组数据，且这组数据中的各个值都是有许多种可能，因此本发明中还定义了被称为“orness”的另一个参数。该参数的取值范围在0到1之间，该参数的值为0时，表示“交”，该参数的值为1时，表示“或”。从对该参数的定义来看，该参数实质上用来表示融合的“或”程度，其计算公式如下：

orness (W) = \frac{1}{n - 1} Σ_{i = 1}^{n} ((n - i) \times w_{i})

(2)

上述公式中，n表示融合参数组中所包含的融合参数的总个数，W_i表示第i个融合参数。

将前面列举的融合参数[1，0，0]代入上述公式，计算所得到的orness值为1。同样的，将融合参数[0，0，1]代入公式，计算所得到的orness值为0。显然，融合参数、orness值的含义在计算前后并没有发生变化。

在定义orness参数以后，OWA方法中如何确定融合参数的问题变成了寻找一组符合最佳orness值(使得融合结果具有最高准确度)的融合参数的问题。现有技术中的融合方法采用各种策略来实现最佳参数的寻找，但没有真正意义上遍历各种融合情况。而本发明的OWA方法则遍历整个(0，1)的orness取值区间，对于区间内的所有orness值计算相应的融合参数，然后根据带标注的测试数据计算每个融合参数的效果，选取最好的一组作为真正的在本发明中使用的融合参数。

如何由orness值计算融合参数的方法属于现有技术，本领域普通技术人员都可以实现。但在这一计算过程中本申请人发现：参考前面的公式(1)由一组融合参数可以计算得到唯一的一个orness值，但在由一个orness值反向计算融合参数时，可能会有多组不同的融合参数与该orness值相对应。因此如何从多组融合参数中选择一组是一个需要解决的问题。通过测试我们发现：对于某一个特定的orness值所对应的不同融合参数，其实际测试效果是相近的，因此在一个实施例中可以任意选取一组作为参数。考虑到融合结果的稳定性和鲁棒性，在一个优选实施例中，还可以根据香农的熵理论，从与orness值对应的多组融合参数中，选取散度值Dispersion(W)＝-∑W_jlnW_j最大的一组参数作为该orness值对应的唯一融合参数。图2是在TRECVID数据上所做实验的实验结果，该实验结果表明：OWA融合方法的效果明显高于其他方法。

测试阶段

步骤4)、在训练阶段得到多个由视频特征、音频特征计算得到的SVM模型以及模型间的融合参数后，在所要测试的电视剧中提取视频特征和音频特征，然后利用所述的多个SVM模型测试新提取的视频特征和音频特征，得到多个测试结果，最后利用所述的融合参数融合这些测试结果得到最终的测试结果，这一最终的测试结果表示了与待检测的电视剧的色情程度，只要将这一结果与一个设定的阈值加以比较，就能够得到待检测的电视剧是否包含色情内容的判断。

在测试阶段所要提取的视频特征和音频特征的种类与提取方法与训练阶段相同，因此不再重复说明。SVM模型如何对视频特征和音频特征进行测试，以及如何利用融合参数融合多个测试结果也为本领域技术人员所公知。

颜色空间转换的加速

在上述的实施例中，介绍了本发明的色情检测方法的一种实现方式，利用这一实现方式已经可以对包括电视剧在内的待检测对象中是否包含色情内容进行检测。在前面的说明中已经提到，在实现视频特征提取之前，首先要对图像做颜色空间转换，但现有技术中的颜色空间转换方法往往比较耗时，影响整个色情检测方法的实时性。因此，在本发明的又一个实施例中，对颜色空间的转换实施加速，以提高色情检测方法中视频特征提取的效率。

在本实施例中，加快颜色空间转换的方法包括通过移位算法将浮点数转换为定点数进行计算，并利用空间换时间的方法提高效率。假设图像读取的时候得到RGB颜色空间信息，为了提取颜色直方图这一视频特征需要进行RGB到YUV的颜色空间转换。在前面的说明中已经给出了现有技术中的转换公式，即公式(1)，从该公式可以看出，该公式中存在多个小数，因此需要做浮点数的计算。本领域技术人员应当了解，在计算机上做浮点运算较定点运算需要耗费更多的资源，因此，在本实施例中可以通过移位运算将浮点数转换为定点数，从而将浮点计算转换为定点计算。具体的说，对于公式(1)，如果将系数矩阵放大1000倍，再将结果缩小1000倍就可以避免浮点数的运算，加快转换的速度。其中，之所以要将系数矩阵所要放大的倍数选取1000倍主要考虑到两个因素：首先移位运算比除法快，而且1000和1024很接近，将系数矩阵乘以1024，再将结果右移10位，就能够得到YUV的值。前述公式(1)转换后的公式如公式(3)所示：

[\begin{matrix} Y \\ U \\ V \end{matrix}] = [\begin{matrix} 300 & 590 & 110 \\ - 150 & - 290 & 440 \\ 610 & - 520 & - 96 \end{matrix}] [\begin{matrix} R \\ G \\ B \end{matrix}] > > 10

(3)

本领域技术人员知道R、G、B的取值范围通常是0-255内的整数，而当这些变量的取值在一个有限的范围内，就可以很自然地想到建立256维的数组来保存事先乘法运算的结果。如由上述公式(3)所得到的计算变量Y的公式如公式(4)所示：

Y＝(300×R+590×G+110×B)＞＞10 (4)

由此可以定义三个256维的数组：Y_R[256]、Y_G[256]和Y_B[256]，其中的Y_R[i]＝300×i，Y_G[i]＝590×i，Y_B[i]＝110×i。定义上面的数组以后，前述的公式(4)就可以改写为公式(5)：

Y＝(Y_R[R]+Y_G[G]+Y_B[B])＞＞10₍₅₎

也就是说，原来在颜色空间转换时效率较低的乘法运算转换成了高效的直接寻址取值操作。

从上述说明可以看出，本实施例中所采用的颜色空间转换加速方法可以明显地提高颜色空间转换的速度，加快整个色情检测方法的实时性。

测试结果的后处理

在前面两个实施例中，都是根据SVM模型的测试结果直接对待检测对象是否包含色情内容做出判断。但本领域技术人员已经发现，SVM训练方法本身存在可理解性较差的缺陷(即有些被SVM误检的数据无法理解或解释，而且很难通过对SVM模型的改进得到修正)，因此，在本发明的又一个实施例中，本发明的色情检测方法还包括基于规则的后处理步骤。

通过对上万误检图片的人工筛选与统计，本申请人发现22％的误检图片中出现较大的人脸，而37％的误检图片中包括未出现人物的类肤色场景，因此，基于上述情况，本发明中的基于规则的后处理步骤包括人脸检测和纹理特征判别两个方面。对于出现较大人脸的误检图片，可以通过人脸检测来排除；对于未出现人物的类肤色场景误检图片，由于其纹理特征较多(即使在类肤色区域)，可以通过边缘信息的阈值法来排除。

具体的说，在对测试结果做后处理时，首先根据测试结果取出待检测音视频对象中被认为包含色情的图像，然后对这些图像进行人脸检测，如果在人脸检测中发现人脸面积与整个图像面积的比例大于某一阈值(该阈值可通过实验设定)，则可认为该图像不包含色情内容，否则，对图像继续做纹理特征识别；如果类肤色内部具有较大纹理特征的像素点占总像素点的比例大于另一阈值(该阈值也可由实验设定)，则认为该图像不包含色情内容。如果经过了上述人脸检测与纹理特征识别后的图像仍然被认为包含色情内容，则该图像为色情图像。

人脸检测的相关方法为本领域的公知常识，在下文中对用于纹理特征识别的基于边缘信息的阈值排除法加以说明。该方法包括以下步骤：

步骤a)、利用肤色模型检测图像中的类肤色像素点；

步骤b)、对所述的类肤色像素点采用区域连通算法和腐蚀平滑算法确定可能的肤色区域；

步骤c)、在可能的肤色区域内计算Sobel边缘，但肤色边缘本身不算在内；

步骤d)、根据所述Sobel边缘的多少和阈值确定具有较大纹理特征的像素点；

步骤e)、将具有较大纹理特征(Sobel边缘)的像素点占总像素点的比例与实验确定的阈值进行比较，若该比例大于该阈值，则该图像为不包含色情内容的图像，否则为包含色情内容的图像。由于色情场景中的肤色部分内部纹理特征较少，因此根据具有较大纹理特征(Sobel边缘)的像素点占总像素点的比例和实验确定的阈值排除类肤色的非色情内容图片是有根据的。

本发明的方法将音频特征与视频特征相结合来做色情检测，与现有技术中单纯采用视频特征的色情检测方法相比，在准确性上有很大的提高。在图3中给出了ROC(Receiver Operating Characteristic curve)曲线图，从该图可以看出，本发明的将视频特征与音频特征相融合的色情检测方法较现有技术中仅仅采用视频特征的色情检测方法在正确率上有所提高，而在添加了后处理步骤后，正确率更有进一步的提高。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种色情检测模型建立方法，包括：

2.根据权利要求1所述的色情检测模型建立方法，其特征在于，所述模型为SVM模型。

3.根据权利要求1或2所述的色情检测模型建立方法，其特征在于，在所述的步骤1)中，所述的提取视频特征包括：

步骤a)、为音视频对象中的图像做颜色空间转换；

4.根据权利要求3所述的色情检测模型建立方法，其特征在于，在所述的步骤a)中，所述的颜色空间转换包括：

5.根据权利要求3所述的色情检测模型建立方法，其特征在于，在所述的步骤b)中，所述的颜色相关图包括144维，对该144维颜色相关图的提取包括：

6.根据权利要求3所述的色情检测模型建立方法，其特征在于，在所述的步骤b)中，所述的颜色直方图包括64维；所述64维颜色直方图的提取包括：

步骤b-2-2)、将每个部分中的颜色直方图定义为：h(i)＝N_i/N，i＝1，2，...，k；其中，N_i是值为i的像素个数，N是图像的总像素个数，K是区间的大小。

7.根据权利要求3所述的色情检测模型建立方法，其特征在于，在所述的步骤b)中，所述的边缘直方图包括73维；所述73维边缘直方图的提取包括：

8.根据权利要求1或2所述的色情检测模型建立方法，其特征在于，在所述的步骤2)中，为所述参数orness的各个取值计算相应的融合参数包括：

步骤2-1)、选取参数orness的一个取值；

Dispersion(W)＝-∑W_jlnW_j

其中，W表示融合参数，j表示融合参数中的第j个分量。

9.一种色情检测方法，包括：

步骤1)、采用权利要求1-8之一的色情检测模型建立方法建立色情检测模型，计算模型间的融合参数；

步骤2)、从待检测音视频对象中提取视频特征和音频特征；

10.根据权利要求9所述的色情检测方法，其特征在于，还包括：

11.根据权利要求10所述的色情检测方法，其特征在于，所述的步骤4)包括：

12.根据权利要求11所述的色情检测方法，其特征在于，所述的步骤4-3)包括：

步骤4-3-1)、利用肤色模型检测图像中的类肤色像素点；