CN102129568A

CN102129568A - 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法

Info

Publication number: CN102129568A
Application number: CN 201110112414
Authority: CN
Inventors: 张卫丰; 王慕妮; 张迎周; 周国强; 许碧欢; 陆柳敏
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2011-04-29
Filing date: 2011-04-29
Publication date: 2011-07-20
Anticipated expiration: 2031-04-29
Also published as: CN102129568B

Abstract

利用改进的高斯混合模型分类器检测垃圾邮件的方法，利用健壮特征的加速提取算法来提取图片中垃圾信息的不变区域特征，对不变区域特征进行高斯混合模型拟合，使用期望最大化方法来进行权重、均值以及协方差矩阵的评估，具体为：对待检测数据集的图片进行标签，分为垃圾图片与正常图片；采用健壮特征的加速提取算法提取所有数据集的局部不变特征的向量；采用高斯混合模型对局部不变特征进行密度函数拟合，得到所有图片的均值与协方差矩阵；改进均值聚类算法，使其适用于对上一步骤中得出的特殊特征向量进行聚类，使用交叉熵作为分布之间相似度的衡量指标，实现基于高斯混合模型的均值聚类算法；利用基于高斯混合模型的均值聚类算法来构建分类器。

Description

利用改进的高斯混合模型分类器检测图像垃圾邮件的方法

技术领域

本发明是运用统计思想中的高斯混合模型，对图片的局部不变特征进行密度函数拟合。提出基于高斯混合模型的均值聚类算法以及分类模型，对图像型垃圾邮件进行检测。主要解决了当今的技术对图像型垃圾邮件的检测效率和召回率低等问题，属于数据挖掘和机器学习领域。

背景技术

电子邮件已成为人们进行网络交流沟通的重要途径，但是由于巨大的商业、经济及政治利益，导致垃圾邮件数量急剧膨胀。起初盛行的图像型垃圾邮件是将广告等垃圾信息以文字形式嵌入图像中，Hrishikesh等人在利用挖掘出来的文本以及颜色特征来对邮件进行分类[1]。Fumera等在2006年提出了一种OCR(光学字符识别)技术检测图像型垃圾邮件的文本信息，相对其他过滤系统来说，具有较好的检测效果[2]。同时垃圾邮件制造者们也在不断地增强垃圾邮件逃避检测系统的能力，他们对嵌有广告等垃圾信息的图像进行了模糊处理，这使得当时的OCR技术无法挖掘出嵌入这种图片中的文字。Dredze et al.提出了利用图片的高级特征来对图片进行分类，高级特征指的是文件格式，大小，颜色分布等[3]。这种方法的优点是检测速度很快，并且具有较好的扩展性，能够与对低级特征的图片过滤器进行有效的结合。

Fumera在2007年提出了一种通过计算图像周长复杂度的方法来判别一张图片是否经过了模糊技术的处理[4]。一张图片的模糊的程度可以由周长复杂度来衡量的，计算方法为文字区域周长的平方和文字区域面积的比值。通过文字周长复杂度可以标识断字符或者是噪音对象的出现。由于不能证实经过模糊处理的图像就是携带垃圾信息的图像，这种处理技术只能作为垃圾邮件过滤系统中预处理某个模块。Zhe Wang等人提出的图像型垃圾邮件过滤方法是通过比较图像之间的相似性方法[5]：分别使用结合三类图像型垃圾邮件过滤方法(颜色直方图过滤方法、哈尔小波过滤以及方向直方图特征)，实验的结果表明：每个过滤系统单独执行时，通过比较发现小波过滤获取了最好的检测率并且其误检率(将正常图片标识为垃圾图片)低于0.0009％，三类过滤器结合起来的精确率达到96％，该方法是通过结合已有的过滤系统来实现的，可以说它是对一个阶段的垃圾邮件过滤技术的一个总结，使用该方法提高了图像型垃圾邮件过滤系统的性能。

Mehta等在2008年针对使用模板而大量生成的垃圾邮件进行检测，利用重复相似性质，使用支持向量机分类器的精确度达到了98％，同时提出了利用高斯混合模型来对图片进行聚类的算法[6]：将每幅图片缩小到100×100像素点，提取每个像素的纹理形状和颜色特征，对每幅图片训练其高斯混合模型，并计算高斯混合模型之间的相近距离来聚类。通过计算阀值来分辨垃圾图片，虽然该方法采用统计学知识计算比较精确但是计算量太大，算法的时间复杂度较高，不利于在实际的应用中。随后由Zuo等提出了使用核函数为PMK的一类支持向量机分类器对电子邮件中图像的局部不变特征进行归类[7]。该方法主要是针对那些为了逃避基于图像模板相似性的过滤器，而改变图像的总体布局，保留图片中的某些局部不变特征的垃圾邮件。所以这种方法在一定程度上弥补了相似性检测的漏洞。

[1]Hrishikesh Aradhye，Gregory Myers，and James Herson.Image analysis forefficient categorization of image-based spam e-mail.In Proceedings of EighthInternational Conference on Document Analysis and Recognition，ICDAR 2005，volume 2，pages 914-918.IEEE Computer Society，2005.

[2]Giorgio Fumera，Ignazio Pillai，and Fabio Roli.Spam filtering based on theanalysis of text information embedded into images.Journal of Machine LearningResearch，(7)：2699-2720，2006.

[3]Mark Dredze，Reuven Gevaryahu，and Ari Elias-Bachrach.Learning fast classifiersfor image spam.In Proceedings of the Fourth Conference on Email and Anti-Spam，CEAS’2007，2007.

[4]Giorgio Fumera，Ignazio Pillai，Fabio Roli，and Battista Biggio.Image spamfiltering using textual and visual information，MIT Spam Conference2007，Cambridge，USA，March 2007

[5]Zhe Wang，William Josephson，Qin Lv，Moses Charikar，and Kai Li.Filteringimage spam with near-duplicate detection.In Proceedings of the FourthConference on Email and Anti-Spam，CEAS’2007，2007.

[6]Mehta，B.，Nangia，S.，Gupta，M.，and Nejdl，W.Detecting image spam usingvisual features and near duplicate detection.In Proceeding of the 17th internationalConference on World Wide Web(Beijing，China，April 21-25，2008).WWW′08.ACM，New York，NY，497-506.

[7]Haiqiang Zuo，Weiming Hu，Ou Wu，Yunfei Chen，Guan Luo.Detecting ImageSpam Using Local Invariant Features and Pyramid Match Kernel.Proceedings ofthe 18th international conference on World Wide Web Pages，2009，1187-1188.

发明内容

技术问题：本发明的目的是提供一种利用改进的高斯混合模型分类器检测图像垃圾邮件的方法。针对挖掘出的图片局部不变特征是大样本数据这个现象，从统计学角度，使用高斯混合模型对其进行密度函数拟合，作为一种特殊的特征向量。设计基于高斯混合模型的均值聚类算法，即设计聚类算法能够对这种特殊的特征向量进行聚类。并在此基础上构建分类器，用于对待检测图像进行分类以达到检测图像型垃圾邮件的目的。

技术方案：本发明提出的利用改进的高斯混合模型分类器检测图像垃圾邮件的方法，是一种基于尺度空间的不变量技术的特征检测方法，对图像平移、旋转、缩放、甚至仿射变换保持不变性的图像局部特征。用这种方法来提取图片中的不变区域特征，其维数较大，使用高斯混合模型对其进行密度函数拟合，以形成一种特殊的特征向量：是由拟合而成的局部不变特征密度函数的均值与协方差矩阵构成的。针对这种特殊的特征向量，准备设计一种新的聚类方法并且在此基础上构建分类器，对其进行分类评估，也就是基于高斯混合模型均值聚类的分类器。改进分布之间的距离计算方法，使用交叉熵作为计算分布之间的相似度的衡量指标。

整个方法包括图片不变特征的提取，密度函数均值与协方差矩阵的提取，基于高斯混合模型的均值聚类算法的实现，基于此聚类算法的分类模型的设计四大模块组成，系统的模块组成如图1所示。

利用改进的高斯混合模型分类器检测图像型垃圾邮件的实现方法需要以下步骤：

一、根据样本集进行训练

步骤1)对待训练的图片数据集进行标签，分为垃圾图片和正常图片；

步骤2)采用“健壮特征的加速提取算法”分别提取每个垃圾图片和正常图片的局部不变特征描述符；

步骤3)对每张图片的局部不变特征描述符进行高斯混合模型拟合，采用期望最大化方法评估其权重、均值以及协方差矩阵，作为高斯混合特征向量；

步骤4)对均值聚类算法进行改进，使其对这种特殊的高斯混合特征向量进行聚类，涉及到距离计算方法以及标准测度函数的确定；

步骤5)使用交叉熵作为高斯混合分布之间的距离计算方法；

步骤6)根据交叉熵计算公式，需要两个分布之间的样本是相同的，因此编写根据均值与协方差矩阵来获取样本的函数方法；

步骤7)以图片所属的聚类中心的索引值向量作为标准测度函数；

步骤8)在步骤4)～步骤7)确定了距离计算方法以及标准测度函数的基础上，再运用均值聚类算法构成基于高斯混合分布的均值聚类算法；

步骤9)根据步骤8)形成的聚类算法分别对垃圾图片与正常图片进行聚类；

步骤10)在基于高斯混合分布的均值聚类算法基础上再结合交叉熵的距离计算方法构建高斯混合模型的分类器；

二、使用训练好的高斯混合模型分类器对待检测图片进行分类阶段：

步骤1)采用“健壮特征的加速提取算法”提取待检测图片的局部不变特征描述符；

步骤2)对每张图片的局部不变特征描述符进行高斯混合分布的拟合，采用期望最大化方法评估其权重、均值以及协方差矩阵，作为高斯混合特征向量；

步骤3)使用由均值以及协方差矩阵确定的样本获取函数，获取待检测图片的样本值；

步骤4)计算每张待检测图片的高斯混合分布与垃圾图片以及正常图片的聚类中心的交叉熵值，选取两类的最小交叉熵值，作为待检测图片与两大类图片的相似程度；

步骤5)比较两个最小熵值的大小，由此对待检测图片进行垃圾图片与正常图片的归类。

有益效果：本发明方法针对局部不变特征的大样本特性，采用统计学中的高斯混合模型对其进行密度函数拟合，设计适用于该特征向量的均值聚类算法以及分类模型。通过本方法的使用，能够提高图像型垃圾邮件检测的精度和召回率，节省程序运算时间和空间。

附图说明

图1利用改进的高斯混合模型分类器进行图像型垃圾邮件检测的流程图

图2提出的基于高斯混合模型的均值聚类算法的原理图

图3提出的基于高斯混合分布的分类模型图

具体实施方式

该方法主要分为以下步骤：

一、根据样本集进行训练

步骤5)使用交叉熵作为高斯混合分布之间的距离计算方法；

其中详细的具体步骤如下：

利用改进的高斯混合模型分类器检测图像型垃圾邮件，采用MATLAB与Eclipse为开发工具，应用MATLAB与JAVA的混合编程。其中对图像特征的处理利用Opencv开源库。

一、训练阶段：获取垃圾图片与正常图片，构成训练集，训练形成一个基于高斯混合分布的分类器。

a)局部不变特征提取阶段：

步骤1)对图片数据集进行标记；

步骤2)采用健壮特征的加速提取算法提取垃圾图片数据集和正常图片数据集中每张图片的视觉特征也就是局部不变特征描述符，每张图片中的描述符数量不等；

步骤3)通过步骤2)得到了垃圾图片特征库和正常图片的特征库，特征库是由图片的局部不变特征描述符构成的，各张图片的描述符数量是不同的，但是每个描述符是由相同维数的数值构成的。将每张图片的特征描述符分别写入到各个文本文件中；

b)高斯混合模型参数估计阶段：

步骤4)以垃圾邮件数据集作为样本，利用期望最大化算法估计出样本集中每张垃圾图片的高斯混合模型参数：θ_spam＝(π₁，π₂，...，π_L；μ₁，μ₂，...，μ_L；∑₁，∑₂，...，∑_L)；

期望最大化算法：

E步：

w_{ij} = \frac{π_{j} f (p_{i} | μ_{j}, Σ_{j})}{Σ_{k = 1}^{k = L} π_{k} f (p_{i} | μ_{k}, Σ_{k})}

M步：

{\hat{π}}_{j} &LeftArrow; \frac{1}{n} Σ_{i = 1}^{i = n} w_{ij}

{\hat{μ}}_{j} &LeftArrow; \frac{Σ_{i = 1}^{i = n} w_{ij} p_{i}}{Σ_{i = 1}^{i = n} w_{ij}}

{\hat{Σ}}_{j} &LeftArrow; \frac{Σ_{i = 1}^{i = n} w_{ij} (p_{i} - {\hat{μ}}_{j}) {(p_{i} - {\hat{μ}}_{j})}^{T}}{Σ_{i = 1}^{i = n} w_{ij}}

其中，p_i为训练样本，π是高斯分布混合模型中对应的权值，μ表示的是均值，∑是方差，L是高斯分布的个数；

步骤5)得到垃圾图片样本中，拟合出来的每张垃圾图片的局部不变特征的高斯分布函数：

Classifer (θ_{spam}) = Σ_{k = 1}^{k = L} π_{k} f (p | μ_{k}, Σ_{k})

其中，p为样本向量，公式中固定的值是π、μ、∑，因此，用向量来表示这个函数：θ_spam＝(π₁，π₂，...，π_L；μ₁，μ₂，...，μ_L；∑₁，∑₂，...，∑_L)，并且添加是否为垃圾图片的标签，作为一种新的特征向量；

步骤6)将每张图片的特征向量θ分别写入到一个文本文件里，每个文本里存放的是(n+1)*n的一个矩阵，第一行表示n维的均值，余下n行表示n*n的协方差矩阵；

步骤7)编写程序实现：将每张图片的特征向量θ中的协方差矩阵展开成行，使每张图片的特征向量只由一行构成，以便于后续的使用；

步骤8)以特征库F_ham为样本，利用期望最大化算法估计正常图片的高斯混合模型的参数，原理同步骤(4)；

步骤9)得到正常图片的局部不变特征的分布函数，同步骤(5)，进而可以获取新的特征向量，此时向量的表示方法同步骤6)，采用步骤8中实现的方法对其进行形式转换。

c)对均值聚类算法的改进阶段：

步骤10)在样本特征库基础上建立混合高斯分布模型，利用每张图片中各个分布函数的权重以及高维高斯分布公式来在MATLAB中编写表示每张图片的混合高斯分布函数；

步骤11)对以往的高斯混合模型的聚类方法进行改进，编写基于高斯混合模型的均值聚类算法。首先是距离的计算：编写计算两个高斯混合分布之间相似度的交叉熵函数，其公式如下：

D_{CE} (P | | Q) = \underset{i}{Σ} P (i) \log \frac{1}{Q (i)}

公式中的P，Q分别表示两个概率分布，i指的是概率分布的样本，D_CE就可以用来表示两个概率分布之间的相似程度；

步骤12)从步骤10)给出的公式中可以发现，计算两个概率分布之间的距离，是在两个分布的样本相同的前提下进行的。编写根据高斯混合分布的均值与协方差矩阵来提取高维样本的函数；

步骤13)对特征库中的各个分布进行聚类时，首先随机确定初始聚类中心；

步骤14)再计算其他分布函数与聚类中心的距离，也就是交叉熵的值。根据步骤12)得到的高维样本函数，计算分布函数的样本。根据步骤10)的高斯混合分布函数以及步骤11)中的交叉熵计算公式来计算各个分布与聚类中心的距离；

步骤15)将各个分布函数分别归入到与其距离最小的聚类中心中，并且记录每个分布函数所归入的聚类中心的索引号。然后计算此聚类中各个分布函数的平均值，也就是权重、均值、协方差矩阵的平均，作为新的聚类中心；

步骤16)不断重复步骤14)与步骤15)，直到先后记录的索引号是一致的为止，表示标准测度已经达到收敛。如此，就完成了基于高斯混合模型的均值聚类的过程。

d)基于高斯混合分布的分类器的构建阶段：

步骤17)利用c)阶段中改进的聚类算法，分别对垃圾图片与正常图片的特征库进行聚类。两个特征库的大小将由原来的图片个数变为所选择的聚类中心个数，将达到提高分类器运行效率的作用，这里的聚类中心就是高斯混合模型的三类参数构成的特征向量；

步骤18)根据b)阶段的方法提取待分类图片的基于高斯混合模型的特征向量；

步骤19)根据步骤11)分别计算待分类图片的高斯混合分布与垃圾图片以及正常图片特征库中各个聚类中心的相似度；

步骤20)分别选取与垃圾图片以及正常图片特征库的聚类中心中最相近的距离值，比较两者大小，将待分类的图片归入到距离较小的那一类图片中，到此完成分类器的训练过程。

二、测试阶段：对待检测的图片数据集，使用训练好的基于高斯混合模型的分类器进行检测。

步骤1)采用健壮特征的加速提取算法提取待检测图片数据集中每张图片的局部不变特征描述符，每张图片中的描述符数量不等，分别写入到不同的文本文件中；

步骤2)对每个文本文件中的特征描述符进行高斯混合分布的拟合，同训练阶段中的步骤4)，得到拟合后每个待检测图片的权重、均值以及协方差矩阵构成的特征向量；

步骤3)采用训练阶段步骤12)的样本提取函数来提取每张待检测图片的高斯混合模型的样本；

步骤4)根据步骤3)得到的每张待检测图片的样本，采用训练阶段步骤11)提供的交叉熵计算方法，计算每张待测图片的高斯混合分布与训练好的垃圾图片以及正常图片特征库中的每一个聚类中心计算相似度；

步骤5)分别选取与垃圾图片以及正常图片的最小交叉熵值，比较两者的大小，将此待检测图片归入到与它的最小交叉熵值较小的那一类；

步骤6)对待检测图片中的每一张图片都进行步骤3)到步骤5)的检测过程。

Claims

1.一种利用改进的高斯混合模型分类器检测图像垃圾邮件的方法，其特征在于该方法主要分为以下步骤：

一、根据样本集进行训练

步骤5)使用交叉熵作为高斯混合分布之间的距离计算方法；

步骤21)采用“健壮特征的加速提取算法”提取待检测图片的局部不变特征描述符；

步骤22)对每张图片的局部不变特征描述符进行高斯混合分布的拟合，采用期望最大化方法评估其权重、均值以及协方差矩阵，作为高斯混合特征向量；

步骤23)使用由均值以及协方差矩阵确定的样本获取函数，获取待检测图片的样本值；

步骤24)计算每张待检测图片的高斯混合分布与垃圾图片以及正常图片的聚类中心的交叉熵值，选取两类的最小交叉熵值，作为待检测图片与两大类图片的相似程度；

步骤25)比较两个最小熵值的大小，由此对待检测图片进行垃圾图片与正常图片的归类。