CN101751554A

CN101751554A - 一种对互联网大麻图像进行的过滤方法

Info

Publication number: CN101751554A
Application number: CN200810239326A
Authority: CN
Inventors: 胡卫明; 谢年华; 吴偶
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2008-12-10
Filing date: 2008-12-10
Publication date: 2010-06-23
Anticipated expiration: 2028-12-10
Also published as: CN101751554B

Abstract

本发明涉及一种对互联网大麻图像进行的过滤方法，包括步骤：利用尺度不变特征变换算法提取图像的局部特征；对每一个大麻训练图像的每一个局部特征构造一个自相似性弱分类器；自相似性弱分类器考察任意一幅测试图像是否与此自相似性弱分类器的局部特征所在的大麻图像相似及自相似程度是否足够；如果一幅测试图像既与此自相似性弱分类器的局部特征所在的大麻图像相似，又有足够的自相似性；将自相似性弱分类器整合到一起，构造一个强分类器对一幅图像的所有局部特征判断此图像是否为大麻图像。本发明采用自相似性弱分类器，克服现有技术物体识别方法中无法考虑图像内部相似关系的缺点，从而有效地抓住大麻图像的特点。

Description

一种对互联网大麻图像进行的过滤方法

技术领域

本发明涉及计算机网络安全领域，特别涉及互联网敏感信息过滤方法。

背景技术

随着互联网的飞速发展，毒品信息，特别是大麻贩售信息在互联网快速的传播开来。许多不法网站利用网上购物的形式销售大麻，同时宣扬大麻无害论，给社会造成了较大的危害。因此，正如过滤网络色情一样，对毒品，特别是大麻信息的过滤已经成为当务之急。

从2001年1月1日开始，欧洲委员会启动了一项名为“网络保护(NetProtect，NetProtect II)”的计划开发互联网多语言过滤系统，其搜集的网页数据库包括色情、暴力、炸弹制作和毒品共4大类，研究人员主要根据网页中的文本信息，尝试了文本处理领域的各种方法来对这四类网页进行过滤。然而这项计划只采用了文本过滤技术，对于贩售大麻的网站，由于其主要内容是图像和文字，过滤的效果就会大打折扣。

目前对毒品网站的识别还主要依靠文本过滤技术，对于毒品类图像识别问题，目前还未见相关的研究。而从更广义上讲，毒品类图像的识别实际上是计算机视觉领域中“物体类识别(object class recognition)”问题的一个特例。物体类识别是由物体识别技术发展而来的。物体识别主要的任务是区分本类物体中此物体与彼物体，例如人脸识别，其主要难点是图像的视角、尺度、遮挡、光照等因素会严重的改变物体的信息，给识别造成较大的困难。而物体类识别的主要任务是区分一类物体和其它任何不属于此类的物体，其不仅继承了物体识别的所有难点，还要考虑一类物体内部的变化信息。虽然这个问题很困难，却吸引了一批学者对此问题进行了深入的研究，涌现出一系列有效的方法。

CVPR03上Fergus等人提出了一个概率模型，用一群已学习的部分来表达一个物体类，然后用EM算法学习这个模型的参数。这个方法在Caltech图像库上测试并取得了巨大的成功，因此在物体类识别领域作为其它方法的标尺。

在物体识别领域学者们提出了很多基于局部特征的方法，典型的方法包括一个兴趣点检测算法和一个局部特征描述子，这些局部特征一般都是平移和平面旋转不变的。Mikolajczyk和Schmid总结并比较了几种局部特征描述子，包括尺度不变特征变换(SIFT)，steerable filters，differentialinvariants和moment invariants，结论是SIFT特征是效果最好的。

Opelt等人提出一个包含3种兴趣点检测算法和4种局部描述子的模型，用Adaboost来挑选特征，进行物体类识别。Levi和Fink也采用了相似的多特征的方法来识别。他们用Adaboost来挑选类Haar特征、方向特征、甚至还有颜色特征。

物体类识别也可以用形状特征来完成。例如，Thureson和Carlsson首先在图像中找出梯度方向，然后用这些梯度形成一个直方图特征。一个物体的形状特征间接的定义为图像的梯度。两幅图像的相似度定义为他们直方图的点乘。如果一幅图像和训练图像有足够的相似度，就认为此图像属于某一类物体。

物体识别还可以利用特征的空间位置关系。Fergus等人用联合高斯密度来描述特征位置的分布。Agarwal和Roth把每对检测的部位的空间关系描述为一个二值的特征向量，然后把特征放入Winnows学习网络进行学习。

2005年CVPR上Zhang等人提出了一个两层的boosting模型，用来融合局部特征，形状特征和相对位置特征。首先对训练图像提取PCA-SIFT和Shape Context组成一个特征库，用Adaboost挑选好的特征组成第一层分类器；同时把这些挑选到的局部特征输入到第二层形成空间位置特征(PSR)，测试图像如果能通过这两层分类器就成功分类。这种方法比较成功的融合了各种类型的特征，取得了不错的实验结果。但是这种方法的PSR特征的实验效果并不是很令人满意，在处理图像背景复杂的情况下反而起到负面效果。

物体类识别领域也有些利用图像内部自相似关系进行识别的方法。Shechtman和Irani对图像中每个点提取周围的自相似信息，然后将局部特征和相对位置一起考虑，用贝耶斯概率图模型来计算图像间的相似度，取得了不错的实验结果。但是缺点是识别类似于穷举搜索，没有兴趣点定位和尺度不变的性质，计算量非常大。

物体类识别已经从利用某些特征进行识别到多特征的融合算法。对于大麻类图像，有区分力的特征除了形状、颜色、纹理等，自相似性也是其主要特点之一。因此，如何有效地利用图像中的自相似信息是现阶段研究的重点之一。

发明内容

本发明的目的是针对大麻图像存在多个自相似结构的特点提出了大麻图像过滤算法，本发明在于提供一种高识别率的对大麻图像进行过滤方法。

为实现上述目的，本发明提供的一种对互联网大麻图像进行过滤方法，该方法包括步骤：

步骤1：利用尺度不变特征变换算法(SIFT)提取图像的局部特征；

步骤2：对每一个大麻训练图像的每一个局部特征构造一个自相似性弱分类器，其中每个自相似性弱分类器包括一个局部特征，一个距离阈值，一个数量阈值；自相似性弱分类器考察任意一幅测试图像的两方面性质：一是这幅测试图像是否与此自相似性弱分类器的局部特征所在的大麻图像相似，二是这幅测试图像的自相似程度是否足够；如果一幅测试图像既与此自相似性弱分类器的局部特征所在的大麻图像相似，又有足够的自相似性，自相似性弱分类器输出1，否则输出-1；

步骤3：基于Adaboost算法将自相似性弱分类器整合到一起，构造一个强分类器，此强分类器根据一幅图像的所有局部特征判断此图像是否为大麻图像。

所述自相似性弱分类器通过计算一幅测试图像中有多少个局部特征与此自相似性弱分类器的局部特征相似来度量测试图像内的自相似性；所述自相似性弱分类器通过计算一幅图像中是否存在局部特征与此自相似性弱分类器的局部特征相似来度量这两个局部特征所在图像的相似性；具体定义如下：定义d(·，·)为两个局部特征SIFT的欧式距离；定义集合{F_i，j，j＝1，...，n_i}是第I_i个测试图像的所有局部特征；自相似性弱分类器包含一个局部特征f_k，一个距离阈值θ_d和一个数量阈值θ_n；如果一个特征F_i，j满足方程d(F_i，j，f_k)＜θ_d，就说这个特征和此自相似性弱分类器相似。

所述自相似性弱分类器定义如下：

h (f_{k}, θ_{d}, θ_{n}) =

\{\begin{matrix} 1, Card ({F_{i, j} | d (F_{i, j}, f_{k}) < θ_{d}, j = 1, . . ., n_{i}}) &GreaterEqual; θ_{n} \\ - 1, otherwise \end{matrix}

其中Card({·})表示一个集合的势，即集合中元素的个数；Card({F_i，j|d(F_i，j，f_k)＜θ_d，j＝1，...，n_i})表示集合{F_i，j，j＝1，...，n_i}中满足方程d(F_i，j，f_k)＜θ_d的特征数目；这种设计表明不仅关心是否存在特征和自相似性弱分类器相似，还关心满足这样条件的特征数目；一个图像被自相似性弱分类器接受是这幅图像中有足够多的特征和这个自相似性弱分类器相似，与某自相似性弱分类器相似的特征之间也是相似，因此，计算图像中有多少个特征与自相似性弱分类器相似表达了测试图像内部局部特征之间的相似性。

本发明的积极效果：本发明提出了一种新型的互联网大麻图像过滤技术，本发明技术针对大麻图像的特点，采用了一种自相似性弱分类器，可以克服一般物体识别方法中无法考虑图像内部相似关系的缺点，从而有效地抓住大麻图像的特点，识别与过滤大麻图像，同时本发明可与传统的文本过滤技术互补，具有广阔的应用前景。

附图说明

图1为现有技术互联网上大麻图像实例示意图；

图2a为现有技术DoG尺度空间的建立示意图；

图2b为现有技术尺度空间金字塔的26邻示意图；

图3a为现有技术尺度空间的建立示意图；

图3b为现有技术前后图片求差后，DoG尺度空间示意图；

图4a为现有技术局部极值点示意图；

图4b为现有技术去除低对比度的点后示意图；

图4c为现有技术再去除边缘上的点后示意图；

图4d为现有技术SIFT特征示意图；

图5a为现有技术梯度幅值示意图；

图5b为现有技术加权的高斯核示意图；

图5c为现有技术加权的梯度幅值示意图；

图5d为现有技术梯度方向示意图

图5e为现有技术峰值方向检测，达到主峰80％的次峰可作为另一个主方向示意图；

图6为现有技术SIFT描述子的构造示意图；

图7为本发明大麻图像过滤框架示意图；

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明的主要特点在于：

1)自相似性弱分类器的构造，这些自相似性弱分类器应尽可能互补以最大限度的提供分类信息。对于大麻图像的识别与过滤来说，自相似性弱分类器应该能很好的抓住此类物体的特点，也就是物体内部结构的自相似性。

请参阅图1为现有技术互联网上大麻图像实例示意图，再请参阅图7，为本发明大麻图像过滤框架示意，下面详细给出本发明技术方案中所涉及的各个细节问题的说明。

一、尺度不变特征变换算法(SIFT)的特征提取

SIFT由Lowe于1999年首次提出，并在2004年进行了完善总结。SIFT最初是作为一种关键点的特征提出来的，这种特征对图像的尺度变化和旋转是不变量，而且对光照的变化和图像形变具有较强的适应性，同时，SIFT特征还具有较高的辨别能力，有利于后续的匹配。SIFT出众的分辨能力和对图像平移、旋转、缩放、仿射、光照变化的鲁棒性十分适合于检测图片中的细节。

SIFT特征的构造方法包括关键点(Keypoint)的检测和描述子的构造两大部分。整个过程包括四个步骤：多尺度空间极值点检测、关键点的精确定位、关键点的主方向计算和描述子的构造。

(1)多尺度空间极值点检测

这一步是确定关键点在图像空间和尺度空间中的位置x＝(x，y，σ)^T。为了获得尺度不变性，关键点的检测是在多尺度空间完成的。

尺度空间理论最早出现于计算机视觉领域时其目的是模拟图像数据的多尺度特征。Koendetink证明高斯卷积核是实现尺度变换的唯一变换核，而Lindeberg等人则进一步证明高斯核是唯一的线性核。

二维高斯函数定义如下：

G (x, y, σ) = \frac{1}{2 π σ^{2}} e^{- (x^{2} + y^{2}) / 2 σ^{2}}

其中，σ表示高斯正态分布的方差。

根据线性尺度空间理论，多尺度空间是采用不同尺度的高斯核函数对原图像进行滤波来表示的：

L(x，y，σ)＝G(x，y，σ)*I(x，y)

其中，I(x，y)表示原图像，G(x，y，σ)代表二维卷积运算，σ是尺度因子，σ值越小则表征该图像被平滑的越少，相应的图像尺度也就越小。大尺度对应于图像的概貌特征，小尺度对应于图像的细节特征。L(x，y，σ)表示图像的多尺度空间。

Lowe证明，DoG(Difference-of-Gaussians)能够较好地反映了图像的局部结构，且计算复杂度很低多。其计算公式如下，其中k为两个相邻尺度的比值：

D(x，y，σ)＝(G(x，y，kσ)-G(x，y，σ))*I(x，y)＝L(x，y，kσ)-L(x，y，σ)，

Lowe采用了DoG算子来建立尺度空间金字塔图像结构，如图2a、图3所示，输入图像通过高斯核函数进行连续平滑与下采样，图2a左边、图3a是连续平滑及下采样之后的示意图像，然后再对相邻的两个平滑图像相减得到DoG多尺度空间表示，如图2a右边及图3b所示。图2a中给出的是每组金字塔中建立2个离散尺度的情况(s＝2)。根据Lowe的实验结果，我们在选择了s＝3。若最后一组金字塔中的图像大小已经小于30X30像素，则停止继续建立。关键点的搜索则是在每组金字塔中对每个点与其26邻域中的点分别比较，如图2b所示。通过对DoG金字塔尺度空间每个点与相邻尺度和相邻位置的点逐个进行搜索比较，局部极值点即是关键点。

(2)关键点的精确定位

由于图像和尺度空间都是离散取值的，本节将在上一节的基础上进一步将关键点定位到子像素级精度，而尺度参数也定位到更精细的尺度。Lowe采用的方法是对关键点周围的样点进行三元二次函数拟合(这里的三个变量分别为图像坐标x，y和尺度变量σ)，如图4a图4b图4c图4d示出关键点定位结果。

(3)关键点的主方向计算

关键点的主方向计算是指对每个关键点赋予基于局部图像特性的主方向，主方向通过邻域内梯度方向直方图来确定。后续描述子的计算将以这个方向为基准，这样构造的描述子就具有了旋转不变特性。

下式为像素点的梯度幅值和方向计算公式，其中L为金字塔结构中与关键点尺度最近的高斯图像，

\{\begin{matrix} m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}} \\ θ (x, y) = \tan^{- 1} ((L (x, y + 1) - L (x, y - 1) / (L (x + 1, y) - L (x - 1, y))) \end{matrix},

在程序实现时，对于每个关键点，首先计算该关键点邻域内每个像素点的梯度幅度和方向，如图5a和图5d，再用一个以关键点为中心的高斯圆型窗口函数对梯度幅度进行加权的二维高斯核和加权的梯度幅度值，如图5b和图5c，高斯函数的σ取为1.5倍的关键点尺度值。然后对每个方向的梯度幅值进行统计，形成梯度方向直方图，如图5e。直方图的范围是0～360度，其中每10度一个计数器，总共36个计数器。直方图中对应于最大值和大于最大值80％的那个(或那些)方向作为该关键点的主方向。因此，在同一个图像位置和尺度上，可能产生具有多个不同主方向的关键点，这可以增强匹配的鲁棒性。Lowe通过比较大量方法的实验结果表明，这种主方向计算方法在这里是最为稳定的。

至此，图像的关键点已检测完毕，每个关键点有三个信息：位置、尺度、方向。由此可以确定一个SIFT特征区域。

(4)SIFT描述子的构造

在前面的步骤中，已经确定了关键点的位置、关键点所在的尺度空间参数，而且还为每个关键点确定了一个主方向，下一步将为该关键点的局部邻域设计描述子，用于后续的匹配。SIFT描述子的构造是通过建立一个三维直方图来实现的，这里，三维是指图像空间的坐标(x，y)和梯度方向θ，直方图的值则是梯度的幅值m。

如图6所示，假设该图像是某关键点所在的金字塔结构的某一层，图像中心是该关键点的位置，邻域大小取为16X16(图中只画了8X8大小)样点，图中小箭头方向代表邻域每点的梯度方向，其大小为梯度幅值经过圆形高斯窗加权后的大小(高斯加权函数的σ为邻域宽度的一半)，那么SIFT的构造如下：

将每点的位置和梯度方向重新表示为以关键点主方向为基准的新坐标系下的量(这样描述子就具有了旋转不变性，而且后续的计算和表示都以这个坐标系为基准)。将16X16的邻域划分为4X4大小的16个子区域，计算每个4X4子区域的梯度方向直方图，直方图分为8个方向(图6中只画了2X2个子区域方向直方图)，这样对每个关键点构成了一个4X4X8＝128维的向量，该向量的每一维分量代表对应子区域的直方图中对应方向的梯度幅值。该向量即是我们所称的SIFT描述子。

最后，为了去除线性光照变化的影响，将SIFT描述子进行归一化。另外，为了降低非线性光照变化的影响，将归一化后的描述子的128个元素值用0.2截断(即将所有大于0.2的元素值都赋值为0.2)，并再次归一化。

二、自相似性弱分类器的构造

Adaboost的核心思想是将弱分类器整合到一起，构造一个强分类器。而不同的弱分类器的分类能力不同，我们针对大麻树叶的特点构造出一种能够衡量图像内部结构自相似性的弱分类器。具体过程如下：定义d(·，·)为两个局部特征SIFT的欧式距离。自相似性弱分类器包含一个局部特征f_k，一个距离阈值θ_d和一个数量阈值θ_n。如果一个特征F_i，j满足方程d(F_i，j，f_k)＜θ_d，我们就说这个特征和此自相似性弱分类器相似。我们的自相似性弱分类器定义如下：

h (f_{k}, θ_{d}, θ_{n}) =

\{\begin{matrix} 1, Card ({F_{i, j} | d (F_{i, j}, f_{k}) < θ_{d}, j = 1, . . ., n_{i}}) &GreaterEqual; θ_{n} \\ - 1, otherwise \end{matrix}

其中Card({·})表示一个集合的势，即集合中元素的个数。Card({F_i，j|d(F_i，j，f_k)＜θ_d，j＝1，...，n_i})表示集合{F_i，j，j＝1，...，n_i}中满足方程d(F_i，j，f_k)＜θ_d的特征数目。这种设计表明我们不仅关心是否存在特征和自相似性弱分类器相似，还关心满足这样条件的特征数目。一个图像只有当其有足够多的特征和这个自相似性弱分类器相似，才可能被自相似性弱分类器接受。

由于θ_d是两个归一化的特征向量的欧式距离，因此0≤θ_d≤2。而θ_n为自然数，根据实验经验，我们规定θ_n的可以取的最大值为10，这样既可以保证数量阈值的有效性，同时也可以减少计算时间，提高计算效率。因此每个自相似性弱分类器的距离阈值θ_d和数量阈值θ_n可以通过穷举获得。具体方法是：对于θ_d，我们规定它的取值精确到0.01，也即θ_d的可能取值为{0，0.01，0.02，0.03，...，2}，而同理θ_n可能取值为{1，2，3，...，10}。对于每一对{θ_d，θ_n}可能的取值，我们可以在所有样本权重都相同的情况下计算其对所有样本的分类准确率，穷举所有的阈值，我们就可以找到最优的阈值作为此自相似性弱分类器的阈值。

三、基于Adaboost算法的强分类器构造

首先设定自相似性弱分类器集合为H＝{h_f}，其中h_f是构造的自相似性弱分类器，I(·)为示性函数，即判断函数I(·)括号中的逻辑式是否为真，如果为真，I(·)＝1，否则I(·)＝0；

利用给定带标记的训练样本集为：(x₁，y₁)，...，(x_n，y_n)，循环如述步骤：

步骤3.1.从自相似性弱分类器集合H＝{h_f}中选择一个自相似性弱分类器h^(t)，使得给定带标记的训练样本上的加权分类错误率最小，即：

初始化训练样本权值为：ω⁽¹⁾(i)＝1/n(i＝1，…，n)，t＝1，…，T；

步骤3.2.如果

则令T＝t-1，终止循环

步骤3.3.根据贪婪策略计算

α^{(t)} = \frac{1}{2} \log (\frac{1 - ϵ^{(t)}}{ϵ^{(t)}})

步骤3.4.根据加权分类错误率重新计算训练样本权值，即：

ω^{(t + 1)} = \frac{ω^{(t)} \exp (- α^{(t)} y_{i} h^{(t)} (x_{i}))}{Z^{(t)}}

其中Z^(t)是一个归一化因子，标记信息为y_i∈{+1，-1}；；当循环结束后，得到一个强分类器：

H (x) = sign (Σ_{t = 1}^{T} α^{(t)} h^{(t)} (x)),

其中sign是符号函数。

为了实施本发明的具体思想，我们从互联网上搜集了1197张大麻图像和1821张其它植物的图像，并在此数据库上做了大量的实验，准确率达到了87％。实验结果进一步验证了该方法的有效性和鲁棒性。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种对互联网大麻图像进行的过滤方法，其特征在于，包括步骤：

步骤1：利用尺度不变特征变换算法提取图像的局部特征；

2.按权利要求1所述的方法，其特征在于：所述自相似性弱分类器通过计算一幅测试图像中有多少个局部特征与此自相似性弱分类器的局部特征相似来度量测试图像内的自相似性；所述自相似性弱分类器通过计算一幅图像中是否存在局部特征与此自相似性弱分类器的局部特征相似来度量这两个局部特征所在图像的相似性；具体定义如下：定义d(·，·)为两个局部特征SIFT的欧式距离；定义集合{F_i，j，j＝1，...，n_i}是第I_i个测试图像的所有局部特征；自相似性弱分类器包含一个局部特征f_k，一个距离阈值θ_d和一个数量阈值θ_n；如果一个特征F_i，j满足方程d(F_i，j，f_k)＜θ_d，就说这个特征和此自相似性弱分类器相似。

3.按权利要求1所述的方法，其特征在于：所述自相似性弱分类器定义如下：