CN101661559B

CN101661559B - 一种数字图像训练和检测方法

Info

Publication number: CN101661559B
Application number: CN 200910092710
Authority: CN
Inventors: 唐胜; 李锦涛; 张勇东; 谢呈
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2009-09-16
Filing date: 2009-09-16
Publication date: 2013-03-06
Anticipated expiration: 2029-09-16
Also published as: CN101661559A

Abstract

本发明提供一种数字图像训练方法以及利用该训练方法的图像检测方法。其中该训练方法包括下列步骤：提取训练样本的图像特征；根据所述图像特征对所述训练样本进行聚类分析，将所述训练样本分为多个子类；对于每个子类，根据所述图像特征进行SVM训练，生成SVM模型。利用该训练方法所获得的多个SVM模型进行图像检测，检测准确率高、且具有较佳推广性和较高时效性。

Description

一种数字图像训练和检测方法

技术领域

本发明涉及模式识别领域，更具体地，涉及一种数字图像训练和检测方法。

背景技术

随着多媒体技术的进步和网络带宽的显著提高，互联网络中图像和视频信息比重日趋增大，其中不乏一些有害的不良信息，例如色情图像和视频，已经成为互联网的一大公害，日益成为一个全球性的社会问题。研究如何提高对网上大规模视频有害信息、垃圾信息的过滤防范能力，以实现互联网有效治理、健康发展，具有重要的意义。

对于色情图像等不良图像信息，由于肤色差异、光线和环境的多样性导致目前检测难度很大。现有技术中，有些仅采用肤色检测，这种方法误检率高，容易将具有类似肤色的非色情图像误识为色情图像，诸如图像中包括黄色的门和墙壁的图像。如果肤色检测阈值过高则导致过高漏检率，而且单一肤色模型无法囊括各种可能的肤色，可推广性能差；还有一些采用不同的图像特征训练单一的SVM模型，但此种方法可推广性能差，而且所需的训练时间和测试时间长。

因此，迫切需要一种检测准确、且具有较佳推广性和较高时效性的数字图像训练和检测方法。

发明内容

为解决上述问题，本发明提供了一种检测准确率高、且具有较佳推广性和较高时效性的图像训练和检测方法。

根据本发明的一个方面，提供了一种数字图像训练方法，包括下列步骤：

提取训练样本的图像特征；

根据所述图像特征对所述训练样本进行聚类分析，将所述训练样本分为多个子类；

对于每个子类，根据所述图像特征进行SVM训练，生成SVM模型。

在上述训练方法中，所述图像特征包括颜色特征和边缘特征。

在上述训练方法中，所述聚类分析的步骤进一步包括：

将所述颜色特征和边缘特征进行前融合；

根据所述前融合后的特征对所述训练样本进行聚类分析。

在上述训练方法中，所述颜色特征是颜色直方图。

在上述训练方法中，所述SVM训练的步骤进一步包括：

将所述颜色特征和边缘特征进行前融合；

根据所述前融合后的特征进行SVM训练。

在上述训练方法中，所述颜色特征是颜色矩。

在上述训练方法中，所述聚类分析采用隐狄利克雷分布聚类或K均值聚类。

在上述训练方法中，所述聚类分析的步骤将每个训练样本划分到一个或多个所述子类中。

根据本发明的另一方面，还提供了一种根据权利要求1所述的训练方法的数字图像检测方法，包括下列步骤：

提取测试样本的图像特征；

计算所述测试样本属于所述每个子类的权重系数向量；

根据所述权重系数向量选择多个所述SVM模型；

根据所述权重系数向量计算所述测试样本在所述多个SVM模型上的可信度，根据所述可信度判断所述测试样本的类别。

在上述检测方法中，所述计算可信度的步骤可以包括下列步骤：

根据所述权重系数向量计算概率向量P(j|y)，其中y表示所述测试样本，j表示第j个子类；

根据所述概率向量P(j|y)选择m个SVM模型，计算所述测试样本y在所述m个SVM模型的每个上的预测值P(y|j)；

根据公式

P (y) = Σ_{j = 1}^{m} P (j | y) P (y | j)

计算所述可信度P(y)。

在上述检测方法中，所述计算可信度的步骤也可以采用平均融合方法。

根据本发明所提供的训练方法的检测方法，检测准确率高、且具有较佳推广性和较高时效性。

附图说明

图1是根据本发明一个具体实施例的数字图像训练方法的流程图；

图2是根据本发明一个具体实施例的数字图像检测方法的流程图；

图3是根据本发明一个具体实施例的ROC曲线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明一个实施例的数字图像训练和检测方法进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。本领域普通技术人员可以理解，在下面的实施例中，以色情图像作为数字图像的一个示例进行检测，本发明的方法也可以应用于其他数字图像。

图1示出了根据本发明一个具体实施例的数字图像训练方法的流程图，下面根据该流程图详细描述训练过程。

首先，建立大规模色情图像训练样本库。为保证样本库来源的广泛性，共离线搜集了1,108个色情视频和5,000个非色情视频，并从网络上实时抓取了20,000个网络色情视频片段，6.5万个非色情视频等；并搜集10万幅色情静态图像和10万幅非色情静态图像。为保证样本的代表性，可以采用基于DC系数的自适应快速聚类的关键帧提取算法对所搜集的视频进行关键帧提取。对所搜集的图像，其中包含视频关键帧，去除冗余的相似图像。在现有的样本上进行标注，将裸露乳房、股沟、阴部以及性交场景(包括自慰)的图像都标注为正样本，从而建立了训练样本库。样本库的规模为420,615幅，其中正负样本分布情况如表1所示。

表1训练样本库的正负样本分布

	静态图像	视频关键帧图像	合计
				正样本个数	21,699	44,128	65,827
负样本个数	51,680	303,108	354,788

对于样本库中的样本进行图像特征提取，优选地，不仅提取其颜色特征，其中主要包括颜色直方图和颜色矩，还提取其边缘特征，在本实施例中为边缘直方图。上述两种特征提取实现简单、速度快。本领域的普通技术人员可以理解，除了上述具体的颜色特征和边缘特征仅是示例，还可以利用其他图像特征，例如：小波纹理和视觉关键词特征等。

根据上述图像特征进行聚类分析。优选的，采用样本图像特征提取速度相对较快的颜色特征(颜色直方图)和边缘特征(边缘直方图)进行前融合。根据前融合后的特征对训练样本进行聚类分析，将样本集分为k个子类。根据本发明的一个具体实施例，该聚类分析具体过程如下。

采用隐狄利克雷分布(LDA，即Latent Dirichlet Allocation)进行聚类。通过LDA分析共现(Cocurrence)关系特征，发现和提取样本集中隐含的语义结构，得到隐含的主题(Topic)，根据样本总数，在本实施例中确定主题个数k＝40。

将每个样本表示成一个主题表示向量(TRV，即Topic-simplexRepresentation Vector)，对每个样本进行分类，该分类过程具体为：

将每个样本图像

表示成一个主题表示向量TRV(g₁，g₂，...，g_k)，其中该向量中每个元素g_j表示样本图像x在第j个主题上的权重系数，其表示该样本属于第j个主题Topic_j的程度。

对主题表示向量TRV归一化，按公式(1)计算样本图像x属于每个主题类Topic_j的概率：

P (j | x) = g_{j} / Σ_{i = 1}^{k} g_{i} - - - (1)

对样本图像x的概率向量(P(1|x)，P(2|x)，...，P(k|x))进行降序排列。可以采用软聚类方法进行分类，即按公式(2)选取最大的前m个元素，将样本图像x分到m个主题类{Topic_l，...，Topic_m}中。在公式(2)中，th为预先设定的阈值，0＜th＜1。也可以采用硬聚类方法进行分类，即选取最大元素P(j|x)，即取m＝1，将样本图像x分到一个主题类Topic_j中。

m = \arg \min_{j} {Σ_{i = 1}^{j} P (i | x) > th} - - - (2)

本领域的普通技术人员可以理解，除了上述隐狄利克雷分布聚类方法，也可以采用其他聚类方法，例如K均值聚类等。而且对于其它聚类方法，可以采用计算样本图像x与每个类的聚类中心的距离的倒数或相似度来作为权重系数g_j。

对于聚类所得到的每个子类，根据样本标注信息利用前述图像特征进行SVM训练，生成与每个子类一一对应的SVM训练模型。优选地，在进行SVM训练之前，首先将颜色矩和边缘直方图特征进行前融合。

图2示出了根据本发明一个具体实施例的数字图像检测方法的流程图。下面根据图2中所示，详细描述检测过程。对于测试样本，提取其与上面的训练过程中所提起的图像特征相同的图像特征，根据本发明的一个实施例，该图像特征为颜色特征和边缘特征。

与上面所述的训练样本的训练过程类似，优选地，将测试样本y的颜色特征(颜色直方图)和边缘特征(边缘直方图)前融合。计算测试样本属于每个子类的权重系数向量。根据本发明的上述采用LDA聚类的实施例，计算测试样本的主题表示向量作为其属于每个子类的权重系数向量。本领域普通技术人员可以理解，如果采用其它聚类方法，则也可以计算测试样本与每个类的聚类中心的距离或相似度来作为权重系数向量。

将主题表示向量TRV向量按公式(1)进行归一化，得到相应的概率向量P(j|y)，并按降序进行排序，选择最大的前m个概率向量所对应的m个SVM模型进行预测(SVM Predict)，得到该测试样本图像y在每个SVM_j模型上的预测值P(y|j)，用向量表示为：(P(y|1)，P(y|2)，...，P(y|m))。

根据本发明的一个具体实施例，可以采用平均融合方法，如公式(3)所示，即对测试样本y在m个主题类的SVM模型上的预测值的平均值来作为该测试样本y属于色情的可信度值：

P (y) = \frac{1}{m} Σ_{j = 1}^{m} P (y | j) - - - (3)

根据本发明的另一个优选具体实施例，还可以采用自适应融合方法。根据所选择的m个SVM模型，以及该测试样本y在每个SVM_j模型上相应的预测值，按公式(4)对该测试样本y在每个子类进行自适应融合，计算该测试样本y属于色情的可信度值。

P (y) = Σ_{j = 1}^{m} P (j | y) P (y | j) - - - (4)

优选地，还将可信度值归一化到区间[0，1]。若该值大于一定阈值，则判定该测试样本为色情图像，否则为非色情图像。

根据本发明的上述实施例，在色情图像检测时，在聚类分析和SVM训练与测试时分别用了颜色直方图和颜色矩，对聚类后的多个子类建立了多个SVM模型。由于所构建的训练样本库很大，样本来源相当广泛，因此能克服单一肤色模型无法囊括各种可能肤色的缺陷，从而对肤色检测具有较好的鲁棒性。通过融合边缘特征和基于分块的颜色矩特征建立SVM模型，大大降低误检率，排除了包括类似肤色但边缘和纹理明显不同的非色情图像。本发明采用聚类分析技术，实现了多SVM融合。可克服单一模型由于过拟合(Overfit)导致的可推广性能差这一问题，从而提高了检测精度；又由于采用了SVM模型选择策略，抛弃了毫不相关的模型，提高了检测速度。另外，由于分类后的样本个数比总的样本个数大减小，这可大大降低模型训练的时间，提高概念模型的训练效率。

将以上方法应用于互联网视频流实时内容过滤，测试结果如表2所示。其中，测试数据库是SVM模型训练完后独自建立的，与样本库来源完全不同，测试数据库中共7110幅图像，其中测试负例5415例，测试正例：1695例。

表2基于LDA聚类的多SVM色情图像检测结果表

检测阈值	正例识别率(查全率)	负例识别率	误检率(负例识别成正例的比率)
				0.95	840/1695＝49.56％	5409/5415＝99.89％	1-99.89％＝0.11％
0.90	1016/1695＝59.94％	5395/5415＝99.63％	1-99.63％＝0.37％
				0.80	1229/1695＝72.51％	5356/5415＝98.91％	1-98.91％＝1.09％
0.70	1377/1695＝81.24％	5307/5415＝98.01％	1-98.01％＝1.99％
				0.60	1462/1695＝86.25％	5244/5415＝96.84％	1-96.84％＝3.16％
0.50	1527/1695＝90.09％	5151/5415＝95.12％	1-95.12％＝4.88％

从上述结果可知，根据本发明的一个具体实施例的数字图像检测方法能够较准确地进行图像检测。

另外，根据以下三种方法的对比实验：(1)基于肤色模型的方法(Skin-based)；(2)单一SVM模型方法，因为训练效率问题，在该方法中没有取全部训练样本，仅从训练库中随机选取了120,000个训练样本；(3)基于本发明的LDA-SVM的方法(k＝40)，如图3的ROC曲线图所示，本发明所提供的方法明显优于前两种方法。

图3的ROC曲线图还示出了检测过程中分别采用平均融合方法和自适应融合方法的实验效果，其在图中分别示为LDA-SVM(AVG)和LDA-SVM。从图3中可知，自适应融合方法更有效。

表3示出了本发明所提供的图像训练和检测方法和现有的单一SVM模型方法的训练时间和测试时间。

表3训练和检测时间表

方法	训练样本个数	支持向量个数	训练时间	测试时间
					SVM	120,000	24,112	72小时	667毫秒
LDA-SVM	420,615	平均每个主题：1,842	6小时	49毫秒

通过表3所示可以理解，本发明提出的图像训练和检测方法与单一SVM模型方法相比更高效。

应该注意到并理解，针对不同的数字图像，通过建立相应的大规模训练样本库和研究使用相应的特征，应用本发明所提供的方法可以进行其它数字图像的检测，如飞机图像、汽车图像等的检测。在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种数字图像检测方法，包括训练步骤和检测步骤，其中训练步骤包括下列子步骤：

1)提取训练样本的图像特征；

2)根据所述图像特征对所述训练样本进行聚类分析，将所述训练样本分为多个子类；

3）对于每个子类，根据所述图像特征进行SVM训练，生成SVM模型；

所述步骤2）中，将每个样本图像x表示成一个主题表示向量(g₁,g₂，...,g_k)，该向量中每个元素g_j表示样本图像x在第j个主题类上的权重系数，其表示该样本属于第j个主题类的程度；

对权重系数向量归一化，计算样本图像x属于每个主题类的概率

P (j | x) = g_{j} / Σ_{i = 1}^{k} g_{i};

对样本图像x的概率向量(P（1|x）,P（2|x），...,P（k|x）)进行降序排列，选取其中最大的前m个元素，将样本图像x分到m个主题类中，其中按照下述公式选取最大的前m个元素：

m = \underset{j}{\arg \min} {Σ_{i = 1}^{j} P (i | x) > th}

其中，th为预先设定的阈值，0<th<1；

计算可信度P(y)，根据所述可信度判断所述测试样本的类别。

2.根据权利要求1所述的检测方法，其特征在于，所述图像特征包括颜色特征和边缘特征。

3.根据权利要求2所述的检测方法，其特征在于，所述聚类分析的步骤进一步包括：

将所述颜色特征和边缘特征进行前融合；

根据所述前融合后的特征对所述训练样本进行聚类分析。

4.根据权利要求3所述的检测方法，其特征在于，所述颜色特征是颜色直方图。

5.根据权利要求2所述的检测方法，其特征在于，所述SVM训练的步骤进一步包括：

将所述颜色特征和边缘特征进行前融合；

根据所述前融合后的特征进行SVM训练。

6.根据权利要求5所述的检测方法，其特征在于，所述颜色特征是颜色矩。

7.根据权利要求1所述的检测方法，其特征在于，所述聚类分析采用隐狄利克雷分布聚类或K均值聚类。