CN1728161A

CN1728161A - 基于非均匀量化颜色特征矢量的敏感图像过滤方法

Info

Publication number: CN1728161A
Application number: CN 200510028206
Authority: CN
Inventors: 王士林; 李生红; 李翔; 李建华; 周黎
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2005-07-28
Filing date: 2005-07-28
Publication date: 2006-02-01
Anticipated expiration: 2025-07-28
Also published as: CN100370475C

Abstract

一种模式识别领域的基于非均匀量化颜色特征矢量的敏感图像过滤方法，首先进行多种图像特征的提取，包括图像基本特征的提取和图像内容特征的提取，图像基本特征是针对敏感图像特点的非均匀量化颜色直方图特征；图像内容特征是基于纹理检测的皮肤区域分布特征；然后采用自适应提升算法，综合分析所提取的特征组合，根据其与图像样本库内敏感图像和正常图像的匹配程度，判别该图像是否为敏感图像。本发明提出了一种新型图像基本颜色特征的表达方式，能够使用尽可能低维的特征向量来描述敏感图像的颜色分布特点。因此，本发明在获得高识别率的同时，保证了较高的处理速度，具有广阔的应用前景。

Description

基于非均匀量化颜色特征矢量的敏感图像过滤方法

技术领域

本发明涉及的是一种图像处理技术领域的方法，特别是一种基于非均匀量化颜色特征矢量的敏感图像过滤方法。

背景技术

在互联网给人民生活带来极大便利的同时，其负面效应也日益凸显出来，各种不良信息能够在互联网中快捷地传播，其中，敏感图象在互联网中的泛滥则是一个重要的方面，相对于其他一些不良信息，敏感图像所带来的危害更大，更加直接，尤其对未成年少年的危害，更加不容忽视。在这种情况下，如何净化网络空间，限制敏感图像在网络中的传播已经受到人们的普遍关注。因此，有必要对网络中的信息进行监控，以发现并过滤隐藏其中的敏感图像。图像不同于一般的信息，需要在理解其中的语义的基础上才能判断是否包含敏感内容，而对于高级语义的理解则需要通过提取图像的低级特征，如颜色、纹理、形状等信息，并对这些低级特征的分析来完成，进而完成图像内容的识别和判断。对于敏感图像的语义描述以及在这个基础之上的图像内容的识别，有人提出自动识别裸体人物图片的系统。该识别方法结合了肤色和纹理特征来标记皮肤区域，然后让这些标记后的皮肤区域通过一个专门的分类器，利用人体结构的几何特征来分类出人的轮廓。带有十分大量的可能肢体区域的图片即可被认为是包含裸体人物的敏感图片。但该方法过于依赖非几何的因素(比如肤色)和部位之间的关系。还有人提出多层次特定类型图像过滤方法，是一种基于计算机视觉和模式识别的敏感图像过滤方法。通过研究人类视觉对图像的分析机理，提出综合肤色模型检验、支持向量机分类和最近邻方法校验的多层次图像处理框架。该方法通过综合多种方法的过滤结果以提高过滤的准确性。

经过对现有技术文献的检索发现，中国专利申请号为：02157115.5，名称为“基于人体局部和形体信息的敏感图像识别方法”该专利自述为：一种基于人体局部和形体信息的敏感图像识别方法，包括步骤：对静态敏感图像进行划分；确定区域几何点；采用生长点的自主抖动确定生长点所属区域的图像局部特征；进行图像性质判断。该方法主要通过将图像划分成若干个不同的区域，综合每个区域中所提取的图像局部特征和人体形体特征来进行判断。故而这种方法处理时间短，对于背景清晰或形体轮廓清晰的图像具有较好的效果。然而，实际生活中的图像往往具有复杂的背景，人体与背景之间的颜色对比度也不太明显。在这种情况下，该方法很难准确地获得人体的轮廓信息。另外，仅仅通过颜色信息来判断皮肤区域也存在较大的误差。

发明内容

本发明的目的在于克服现有技术中的不足，提出一种基于非均匀量化颜色特征矢量的敏感图像过滤方法，使其实现对于图像内容的识别，判断图像是否包含敏感内容，在获得高识别率的同时，保证了较高的处理速度。

本发明是通过以下技术方案实现的，首先进行多种图像特征的提取，主要包括：1)图像基本特征，即针对敏感图像特点的非均匀量化颜色直方图特征；2)图像内容特征，即基于纹理检测的皮肤区域分布特征。然后采用自适应提升(ADABOOST)算法，综合分析所提取的特征组合，根据其与图像样本库内敏感图像和正常图像的匹配程度，判别该图像是否为敏感图像。本发明还采用平衡因子来调节识别率和错误率的平衡，可以针对不同的情况采取不同的判别方法。

本发明采用针对敏感图像的非均匀量化颜色直方图特征，该特征在性能上优于传统的均匀量化颜色直方图，其原因在于，一方面，传统的均匀量化颜色直方图一般来说是高维的，其中包含很多与图像敏感与否无关的冗余信息；另一方面，图像性质的信息往往包含在多个邻近的直方图元素的相互关系而非任何一个单个元素中，综合多个邻近的直方图元素往往比单个元素能够提供更高的判别力。2)采取一种能够根据上述特征进行判别图像内容的方法，并可以自主调节识别率和错误率的平衡，以满足各种不同的应用需求。

本发明是一种新的敏感图像描述和识别方法，针对敏感图像的具体特点，提出了新的适合该类图像的特征描述方法，并实现了敏感图像的识别。本发明经过了性能测试，测试结果表明了本发明对于图像内容的识别有着较高正确率，即正确判断一幅是敏感图像，识别率高于88％；同时有着较低的错误率，即将一幅正常图像判断为敏感图像，错误率小于10％。因此，本发明在获得高识别率的同时，保证了较高的处理速度，具有广阔的应用前景。

附图说明

图1本发明方法流程图

图2本发明非均匀量化颜色直方图特征的提取流程图

图3本发明皮肤区域分布特征的提取流程图

具体实施方式

结合附图以及本发明的内容，对本发明作进一步详细说明：

如图1所示，本发明首先进行多种图像特征的提取，主要包括：1)图像基本特征，即针对敏感图像特点的非均匀量化颜色直方图特征；2)图像内容特征，即基于纹理检测的皮肤区域分布特征。然后采用自适应提升(ADABOOST)算法，综合分析所提取的特征组合，根据其与图像样本库内敏感图像和正常图像的匹配程度，判别该图像是否为敏感图像。

如图2所示，非均匀量化颜色直方图特征的提取流程，首先建立一个包含敏感图像和非敏感图像的训练集，从中获得能够区分敏感和非敏感图像的特征描述方法。提取步骤如下：

1)从24位RGB格式的图像中，将每个颜色成分均匀的分成10份，统计每个颜色单元中包含的像素点个数记为n_i，j，k，则均匀量化的直方图矢量为c_i，j，k＝n_i，j，k/N(i，j，k∈{0，1，2，...，9})，其中N为图像中包含的像素点总数。初始化特征组g_i*100+j*10+k＝c_i，j，k(i，j，k∈{0，1，2，...，9})。

2)对于未标记的每个特征(组)，计算依据该特征(组)作判别的误差。从中选取误差最小(记为e₁)的特征(组)g₁。

3)在特征(组)g₁的颜色空间邻域范围内寻找满足以下要求，误差最小的特征(组)g₂：

i)将特征(组)g₁和g₂合并后的判别误差e₂＜e₁。

ii)g₁和g₂中包含的元素在三个颜色成分的最大差别小于给定阈值τ。

4)如果找不到这样的特征(组)g₂，则标记特征(组)g₁，否则将特征(组)g₂并入g₁同时删除组g₂。如果存在未被标记的组则转到第2步，否则退出循环。

值得注意的是：第一，上述步骤中均采用线性判别式分析(LDA)作为判别算法，在终止循环之前记录所有的分组情况及其相应的LDA权重；第二，这样的训练过程只需预先进行一次，之后便可以通过所得到的分组和LDA权重来计算任何图像的非均匀量化颜色直方图特征。

如图3所示，皮肤区域分布特征的提取，通过颜色门限、纹理检验方法，从图像中提取皮肤区域，并生成描述皮肤区域分布情况的特征矢量。具体如下：

1.色彩门限法

首先将图像转化到HIS颜色空间，选取满足以下条件的像素点为可能的皮肤点：H∈[0，1.6]∪[5.6，2π]，I＞100，0.1＜S＜0.88且R＞240。

2.纹理检验

通过Gabor特征来描述皮肤区域的纹理特征，从可能的皮肤点中过滤掉与皮肤纹理模型不符的像素点。

3.皮肤区域的描述

从得到的皮肤区域中，提取以下特征：

i)p_i＝皮肤点的总数/图像中包含的总像素点

ii)p₂＝最大连接皮肤块中包含的像素点总数/图像中包含的总像素点

iii)p₃＝最大连接皮肤块中包含的像素点总数/最小外包矩形面积

采用自适应提升算法，综合分析所提取的特征组合，根据其与图像样本库内敏感图像和正常图像的匹配程度，判别该图像是否为敏感图像，具体如下：

记训练集中包含的非敏感图像特征集为{x₁ ⁺，x₂ ⁺，…，x_p ⁺}，敏感图像特征集为{x₁ ^-，x₂ ^-，…，x_n ^-}，其中x_i ⁺和x_i ^-为包含所有图像特征(基本特征和内容特征)的矢量。预设平衡因子c(0＜c＜1)，整个判别方法如下：

1)初始化样本权重

w_{i}^{+} (t) = \frac{c}{p} (1 \leq i \leq p), w_{i}^{-} (t) = \frac{c}{n} (1 \leq i \leq n), t = 0 .

2)针对每个图像特征，根据样本权重训练一个相应的基本分类器h_j，其产生的误差为

e_{j} = Σ_{i = 1}^{p} w_{i}^{+} (t) \frac{1 - h_{j} (x_{i}^{+})}{2} + Σ_{i = 1}^{n} w_{i}^{-} (t) \frac{1 + h_{j} (x_{i}^{-})}{2} .

3)选取误差最小的图像特征，记其误差为e_t，并计算

α_{t} = \frac{1}{2} \ln (\frac{1 - e_{t}}{e_{t}}) .

4)更新权重

w_{i}^{+} (t + 1) = \frac{c}{Z_{t}^{+}} w_{i}^{+} (t) \exp (- α_{t} h_{t} (x_{i}^{+}))

w_{i}^{+} (t + 1) = \frac{1 - c}{Z_{t}^{-}} w_{i}^{-} (t) \exp (α_{t} h_{t} (x_{i}^{-}))

其中，Z_t ⁺和Z_t ^-是归一化因子。

5)t＝t+1，如果t大于给定的阈值T，则退出循环，否则转到步骤2)。

6)最终的判别方法为

h (x) = \{\begin{matrix} 1 & Σ_{t = 1}^{T} α_{t} h_{t} (x) &GreaterEqual; 0 \\ - 1 & Σ_{t = 1}^{T} α_{t} h_{t} (x) < 0 \end{matrix} .

其中平衡因子c用来调节识别率和错误率的平衡，可以针对不同的情况采取不同的判别方法(如对于比较可靠的图像信息来源，可以适当提高因子c来降低错误率，反之亦然)。

为了实施本发明的具体方法，设计并实现了基于图像内容识别的互联网上敏感图像过滤系统。通过10,000多幅互联网上随机获取图像的性能测试(包含3,000幅敏感图像)，本系统对于图像内容的识别有着较高正确率，即正确判断一幅是敏感图像，识别率高于88％；同时有着较低的错误率，即将一幅正常图像判断为敏感图像，错误率小于10％。

Claims

1、一种基于非均匀量化颜色特征矢量的敏感图像过滤方法，其特征在于，首先进行多种图像特征的提取，包括图像基本特征的提取和图像内容特征的提取，图像基本特征是针对敏感图像特点的非均匀量化颜色直方图特征；图像内容特征是基于纹理检测的皮肤区域分布特征；然后采用自适应提升算法，综合分析所提取的特征组合，根据其与图像样本库内敏感图像和正常图像的匹配程度，判别该图像是否为敏感图像。

2、根据权利要求1所述的基于非均匀量化颜色特征矢量的敏感图像过滤方法，其特征是，所述的非均匀量化颜色直方图特征的提取，首先建立一个包含敏感图像和非敏感图像的训练集，从中获得能够区分敏感和非敏感图像的特征描述方法，提取步骤如下：

1)从24位RGB格式的图像中，将每个颜色成分均匀的分成10份，统计每个颜色单元中包含的像素点个数记为n_i，j，k，则均匀量化的直方图矢量为c_i，j，k＝n_i，j，k/N(i，j，k∈{0，1，2，...，9})，其中N为图像中包含的像素点总数，初始化特征组

g_{i * 100 + j * 10 + k} = c_{i, j, k} (i, j, k &Element; {0,1,2, . . ., 9});

2)对于未标记的每个特征组，计算依据该特征组作判别的误差。从中选取误差最小的特征组g₁，其所对应的误差为e₁；

3)在特征组g₁的颜色空间邻域范围内寻找满足要求，误差最小的特征组g₂；

4)如果所有e₂≥e₁，则标记特征组g₁，否则将特征组g₂并入g₁同时删除组g₂；如果存在未被标记的组则转到第2)步，否则退出循环。

3、根据权利要求2所述的基于非均匀量化颜色特征矢量的敏感图像过滤方法，其特征是，所述的误差最小的特征组g₂满足以下要求：

i)将特征组g₁和g₂合并后的判别误差e₂＜e₁；

4、根据权利要求2所述的基于非均匀量化颜色特征矢量的敏感图像过滤方法，其特征是，所述的非均匀量化颜色直方图特征，采用线性判别式分析作为判别算法，在终止循环之前记录所有的分组情况及其相应的LDA权重；这样的训练过程只需预先进行一次，之后便通过所得到的分组和LDA权重来计算任何图像的非均匀量化颜色直方图特征。

5、根据权利要求1所述的基于非均匀量化颜色特征矢量的敏感图像过滤方法，其特征是，所述的基于纹理检测的皮肤区域分布特征，通过颜色门限法、纹理检验法从图像中提取皮肤区域，并生成描述皮肤区域分布情况的特征矢量。

6、根据权利要求5所述的基于非均匀量化颜色特征矢量的敏感图像过滤方法，其特征是，所述的色彩门限法，具体是：首先将图像转化到HIS颜色空间，选取满足以下条件的像素点为可能的皮肤点：H∈[0，1.6]∪[5.6，2π]，I＞100，0.1＜S＜0.88且R＞240。

7、根据权利要求5所述的基于非均匀量化颜色特征矢量的敏感图像过滤方法，其特征是，所述的纹理检验法，具体是：通过Gabor特征来描述皮肤区域的纹理特征，从可能的皮肤点中寻找满足皮肤纹理模型的像素点。

8、根据权利要求5或者7所述的基于非均匀量化颜色特征矢量的敏感图像过滤方法，其特征是，所述的皮肤区域，其描述如下：

i)p₁＝皮肤点的总数/图像中包含的总像素点；

ii)p₂＝最大连接皮肤块中包含的像素点总数/图像中包含的总像素点；

iii)p₃＝最大连接皮肤块中包含的像素点总数/最小外包矩形面积。

9、根据权利要求1所述的基于非均匀量化颜色特征矢量的敏感图像过滤方法，其特征是，所述的采用自适应提升算法，综合分析所提取的特征组合，根据其与图像样本库内敏感图像和正常图像的匹配程度，判别该图像是否为敏感图像，具体如下：

记训练集中包含的非敏感图像特征集为{x₁ ⁺，x₂ ⁺，…，x_p ⁺}，敏感图像特征集为{x₁ ^-，x₂ ^-，…，x_n ^-}，其中x_i ⁺和x_i ^-为包含图像基本特征和内容特征的矢量，预设平衡因子c(0＜c＜1)，整个判别方法如下：

1)初始化样本权重

w_{i}^{+} (t) = \frac{c}{p} (1 \leq i \leq p),

w_{i}^{-} (t) = \frac{c}{n} (1 \leq i \leq n),

t＝0；

e_{j} = Σ_{i = 1}^{p} w_{i}^{+} (t) \frac{1 - h_{j} (x_{i}^{+})}{2} + Σ_{i = 1}^{n} w_{i}^{-} (t) \frac{1 + h_{j} (x_{i}^{-})}{2};

3)选取误差最小的图像特征，记其误差为e_t，并计算

α_{t} = \frac{1}{2} \ln (\frac{1 - e_{t}}{e_{t}});

4)更新权重

w_{i}^{+} (t + 1) = \frac{c}{Z_{t}^{+}} w_{i}^{+} (t) \exp (- α_{t} h_{t} (x_{i}^{+}))

w_{i}^{+} (t + 1) = \frac{1 - c}{Z_{t}^{-}} w_{i}^{-} (t) \exp (α_{t} h_{t} (x_{i}^{-}))

其中，Z_t ⁺和Z_t ^-是归一化因子；

5)t＝t+1，如果t大于给定的阈值T，则退出循环，否则转到步骤2)；

6)最终的判别方法为

h (x) = \{\begin{matrix} 1 & Σ_{t = 1}^{T} α_{t} h_{t} (x) &GreaterEqual; 0 \\ - 1 & Σ_{t = 1}^{T} α_{t} h_{t} (x) < 0 \end{matrix},

其中平衡因子c用来调节识别率和错误率的平衡。