CN101594314A

CN101594314A - 一种基于高阶自相关特征的垃圾邮件图像识别方法及装置

Info

Publication number: CN101594314A
Application number: CNA2008100444933A
Authority: CN
Inventors: 程红蓉; 刘峤; 陈佳; 万明成; 邓蔚; 刘伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2008-05-30
Filing date: 2008-05-30
Publication date: 2009-12-02
Anticipated expiration: 2028-05-30
Also published as: CN101594314B

Abstract

本发明涉及图像处理技术和模式识别领域的相关技术，公开了一种利用垃圾邮件图像自动识别的方法及装置。利用图像的高阶自相关特征并结合支持向量机实现对正常邮件图像和垃圾邮件图像的自动分类。首先，利用边缘检测算子提取出图像的二值化边缘；其次，根据高阶自相关函数设计出25个3×3高阶自相关特征提取模板，并利用这些模板获取图像的25维高阶自相关特征；再次，对获取到的25维高阶自相关特征作归一化处理，使得所有特征值位于0到1之间；最后，利用支持向量机分类器对图像进行自动识别。本发明中，由于高阶自相关特征具有平移、旋转不变性，使得该装置具有较好的抗干扰性能。

Description

一种基于高阶自相关特征的垃圾邮件图像识别方法及装置

技术领域

本发明涉及图像处理与模式识别技术，具体涉及一种垃圾邮件图像的特征提取、识别技术及装置。

背景技术

经过30多年的发展，电子邮件已成为互连网不可缺少的组成部分，越来越多的人使用电子邮件作为其交流和通信的工具。然而，垃圾邮件的泛滥使得这一便捷的通信手段受到巨大挑战。目前，我国已成为垃圾邮件的重灾区之一。据中国互联网协会反垃圾邮件中心于2008年1月发布的调查报告显示，我国用户收到的邮件中一半以上的邮件是垃圾邮件。垃圾邮件问题已经引起了社会各界的关注，并出现了大量的垃圾邮件检测算法，例如IP黑名单、基于行为的过滤方式、基于规则的垃圾邮件检测算法、基于文本内容的检测算法等。其中以基于文本内容的检测算法研究得最多，其性能也最好。

然而，垃圾邮件制造者自身技术也在不断提高。为逃避高效的基于文本内容的反垃圾邮件系统的检测，垃圾邮件制造者将文字信息嵌入到图像中，以图像为载体来传播垃圾信息。该类型的垃圾邮件被称为图像型垃圾邮件，由于其文本内容被嵌入在图像中，导致基于文本内容的反垃圾邮件系统全部失效。其体积是文本型垃圾邮件的10-20倍，它们一方面消耗大量的网络资源，导致网络堵塞；另一方面浪费大量的存储资源给社会造成重大经济损失。图像型垃圾邮件蔓延，已给社会带来极大的负面影响。

为遏制图像型垃圾邮件的传播，弥补基于文本内容的垃圾邮件检测系统的不足，许多学者对图像型垃圾邮件作了较深入的研究。有学者提出利用光学文字识别技术(OCR)来提取图像中嵌入的文字，然后利用传统的基于文本内容的垃圾邮件检测手段识别图像型垃圾邮件。但是垃圾邮件中所嵌入的图像通常含有大量人为干扰，使得文字识别正确率较低，效率也不高。另外一些学者则提出利用垃圾邮件中所含图像的属性作为特征来识别图像型垃圾邮件，例如大小、宽、高、面积等。该方法虽然识别速度较快，但仅能识别出较少的图像型垃圾邮件。还有一些学者主张利用图像的颜色、边缘、文本区域等特征识别图像型垃圾邮件。该类方法兼顾了识别效率和正确率，取得了令人鼓舞的成绩。图像型垃圾邮件已经爆发将近两年，如今，其在垃圾邮件中的比例依然相当高，约为8％。因此，反垃圾邮件领域仍在寻找一种快速高效的图像型垃圾邮件识别算法以彻底解决图像型垃圾邮件问题。

发明内容

本发明主要提出一种垃圾邮件图像识别方法及装置。通过提取邮件中所含图像的高阶自相关特征，结合支持向量机实现垃圾邮件图像的自动检测与识别。本发明的主要内容包括垃圾邮件图像的高阶自相关特征及其提取技术、特征的归一化方式、基于支持向量机的垃圾邮件图像自动识别装置。

1、垃圾邮件图像的高阶自相关特征及其提取技术

垃圾邮件制造者为逃避基于文本内容的反垃圾邮件工具的检测，将大量的文字嵌入到图像中，借助图像的表现能力来散布垃圾信息。为防止图像中的文字被光学文字识别工具提取出来，垃圾邮件制造者常常加入大量的人为干扰，使得垃圾邮件图像检测难度较大。然而，由于垃圾邮件中含有大量文字，因此图像之间存在相似性。高阶自相关函数能够很好的描述这些特征，并且具有旋转、平移、缩放不变性。N阶自相关函数定义如式(1)所示：

x_{f}^{N} (a_{1}, . . . a_{N}) = {&Integral;}_{P} f (r) (r + a_{1}) . . . f (r + a_{N}) dr - - - (1)

式(1)中f(r)代表点r处的值，a₁、…、a_N代表N个偏移。二值化边缘图像对颜色细微变化不敏感，且能很好的反映图像的形状信息。因此，本发明基于二值化边缘图像来提取图像的自相关特征。用P表示二值边缘图像的一个局部平面，f(r)为平面上的点，其取值为0或1。因为二值边缘图像取值为离散型，则可以将N阶自相关函数定义如式(2)：

x_{f}^{N} (a_{1}, a_{2}, . . ., a_{N}) = \underset{P}{Σ} f (r) f (r + a_{1}) f (r + a_{2}) . . . f (r + a_{N}) - - - (2)

式(2)中r∈P，由于N阶自相关函数较多，所以本发明将N限定在二阶，即N的取值为0，1，2。并且将平面P设定为一个3×3的窗口。由此，可以形成25个高阶自相关特征提取模板，并获得25维高阶自相关特征。

2、特征向量归一化

特征向量归一化是模式识别中很重要的一个步骤，对分类效果有很大的影响。对特征数据归一化处理后，可以使得所有特征数据均在一个取值范围之类，如0和1之间。特征数据归一化不仅可以加速训练中核函数的收敛，并且可以减少单个特征对分类效果的影响，提高分类精确度。特征数据归一化方式有很多种，本发明采用式(3)来实现特征数据归一化。

f_{i} = X_{i} / Σ_{j = 1}^{n} X_{j} - - - (3)

式(3)中X_i为归一化之前的特征数据，f_i为归一化之后的特征数据。即每一维特征向量归一化为该维特征在该向量中的比例，这样每一维特征向量都被归一化到0和1之间。

3、基于支持向量机的垃圾邮件图像自动识别装置

支持向量机(SVM，Support Vector Machine)是一种基于统计学习理论的机器学习方法。统计学习理论针对小样本统计问题建立了一套新的理论体系，最近10多年间发展迅速，成为各界研究的热点。支持向量机也随之发展，它通过构造最优分类平面来实现分类。在传统的基于文本内容的垃圾邮件过滤算法中，支持向量机就表现出了很好的性能。因此本发明利用支持向量机作为分类算法，对邮件图像进行分类以识别出垃圾邮件图像。

构建一个基于支持向量机的分类器，需要大量的邮件图像样本，包括正常邮件图像样本和垃圾邮件图像样本。提取这些图像的高阶自相关特征，并对特征进行归一化，然后利用网格法搜索支持向量机的最佳参数。找到最佳参数后便可以利用归一化后的特征数据及参数对支持向量机进行训练以生成一个基于高阶自相关特征和支持向量机的邮件图像分类器。当出现未知的邮件图像时，提取其高阶自相关特征并归一化，然后将归一化后的特征向量输入到该分类器即可判定该邮件图像是否是垃圾邮件图像。

最后，实施本发明具有以下有益效果：

从本发明提供的以上技术方案可以看出，本发明利用图像的高阶自相关特征，并结合支持向量机实现垃圾邮件图像的自动识别。其中，高阶自相关特征对平移、旋转、缩放有较好的鲁棒性，因此其抗干扰能力强，能应对绝大多数垃圾邮件图像中的人为干扰。另外，支持向量机的引入，使得整个装置更加智能化、自动化。并且通过利用新的样本邮件图像对分类器的训练，可以快速识别新类型的垃圾邮件图像。

附图说明

图1为本发明用于图像高阶自相关特征提取的模板示意图；

图2为本发明中图像高阶自相关特征提取的具体流程图；

图3为本发明中图像高阶自相关特征归一化算法的具体流程图；

图4为本发明构建基于支持向量机的分类器的具体流程图；

图5为本发明对邮件图像属性判定的具体流程图。

具体实施方式

为使本发明的目的、技术方案、及优点更加清楚明白，以下参照附图对本发明进一步详细说明。

图1为本发明为提取图像的高阶自相关特征，根据自相关函数而设计的模板。

在本发明中需要提取0阶、1阶和2阶自相关特征。由于一些特征可以通过旋转另一个特征得到，为此，对高阶自相关特征筛选后，获得25个3×3的模板。图1所示模板中，标志为“*”的点表示不用关注的点，标志为“1”的点表示需要关注的点。只要二值边缘图像中的一个3×3的局部区域内与某个模板中所有标志为“1”的对应位置均为边缘点，即像素值均为“1”则表示存在该特征。

图2为本发明提取图像高阶自相关特征的流程示意图，下面结合图2对高阶自相关特征的提取过程作详尽说明。

步骤201、读入图像

从网络上截获邮件后，对邮件进行分析，如果邮件中含有图像，则对图像格式分析并对其解码。另外，输入的图像逻辑大小必须大于3×3。

步骤202、边缘检测

边缘检测是图像处理领域中一种极为重要的手段，边缘可以很好的反映图像所含对象的形状信息。边缘检测算子众多，大致可以分成两类：基于灰度图像的边缘检测算子和基于彩色空间的边缘检测算子。大多数边缘检测算子均能很好的提取出图像的边缘，如sobel、roberts等。可以任意选取一种边缘检测算子作为本发明的边缘检测算子以提取邮件图像的边缘。如果提取出的边缘不是二值化的图像，则需要进行二值化处理以获得二值边缘图像。

步骤203、读入一个像素点

为提取出图像中的高阶自相关特征，需要遍历整幅图像。

步骤204、判断该像素点是否为边缘点

显然，仅需要对边缘点做处理。因为非边缘点肯定不满足25个高阶自相关特征提取模板中的任何一个。如果是边缘点，则继续执行步骤205，否则执行步骤207。

步骤205、获得该点周围3×3邻域的像素分布

本发明中，将自相关特征限定在一个3×3的局部区域内，所获得的自相关特征提取模板均为3×3的小窗口。当该点是边缘像素点时，应该获取其周围3×3邻域内的像素分布，以便于与模板比较并确定存在哪些特征。

步骤206、逐个匹配特征模板，并对匹配的模板进行统计

步骤205中已获得一个3×3区域的像素分布情况，与图1中的每一个模板比较，如果与第k个模板匹配，则第k维特征数值加1。图1中共25个模板，因此需要比较25次。

步骤207、是否遍历完图像所有像素点

当整幅图像遍历完成时，该幅图像的25个特征值就是这幅图像中包含的与图1中对应的25个模板相匹配的次数。如果还有未遍历的点则回到步骤203继续读取下一个像素点，直到遍历完整幅图像。

如图3为本发明中图像高阶自相关特征归一化算法的具体流程图：

步骤301、定义一个临时变量sum用于记录25维特征的总和，定义一个临时变量i用于循环控制，并均初始化为0；

步骤302、数组X中存放的是原始的特征数据，将第i个特征数据的值与sum相加并赋值给sum，并对循环控制变量加1；

步骤303、判断循环控制变量的值是否小于25，即判断是否所有的数据值均累加到sum中。如果已经计算完毕所有特征向量的和，则转入步骤204，否则回到步骤302继续求和；

步骤304、定义循环控制变量j和存放最终结果的特征向量数组Y；

步骤305、将第j维特征数据X(j)与所有特征数据之和sum之商作为最终的第j维特征Y(j)，循环控制变量j加1以便于求取下一个特征数据；

步骤306、判断循环控制变量j是否小于25，如果是则说明尚有数据未归一化，则回到步骤305继续归一化下一个特征。否则归一化过程结束，则数组Y中为最终的归一化特征数据。

图4描述了本发明构建基于支持向量机的分类器的具体过程：

步骤401、手工标记两类邮件图像样本

样本图像包括正常邮件图像和垃圾邮件图像。为构建一个较好的分类器，首先需要大量样本对分类器进行训练，其中正常邮件样本最好与垃圾邮件样本数量相当。

步骤402、提取样本集中各幅图像的高阶自相关特征

对每幅图像进行处理，每幅图像可获得一个25维的特征向量，采用图2所示方式提取这些特征。

步骤403、归一化特征

对步骤402所提取的特征进行归一化处理。特征归一化有助于提高分类器的性能，归一化步骤如图3所示。

步骤404、网格法搜索分类器的最佳参数

采用不同的参数，训练所获得的分类器性能差别非常大。为了寻找一组最佳的参数，采用网格法在一个2维平面中搜索最佳参数包括惩罚因子C和参数gama。

步骤405、训练支持向量机分类器

利用步骤403获得的大量训练样本的特征数据和步骤404获得的最佳参数，对支持向量机进行训练。训练后生成一模型文件，其中包含各种参数和选取的支撑矢量。这样便完成了一个分类器的构建。

图5描述了本发明未知邮件图像属性的典型判定过程

步骤501、读入邮件图像

如果成功载入图像则继续步骤502以提取图像的特征，否则执行步骤508返回判定失败消息。

步骤502、图像特征提取

采用图2所示的方式提取图像的高阶自相关特征。

步骤503、特征归一化

采用图3所示过程，对步骤502所提取的特征进行归一化处理。

步骤504、载入训练阶段所生成的模型文件

图4描述了支持向量机分类器的构建过程，其最终生成了一个模型文件。该文件中包含了支持向量机的参数和选择的支撑矢量。将这些信息读入，构建一个分类器；如果文件读入失败则执行步骤508以返回判定失败消息。

步骤505、判定邮件图像属性

将步骤503所获得的归一化特征作为步骤504所生成的分类器的输入，利用分类器判定图像的属性。如果为正常邮件图像则执行步骤506，返回图像为正常邮件图像消息；否则执行步骤507，返回该图像为垃圾邮件图像消息。

步骤506、返回图像为正常邮件图像消息

当系统将判断为正常邮件图像时，则返回正常邮件图像标志。

步骤507、返回图像为垃圾邮件图像消息

当系统将判断为垃圾邮件图像时，则返回垃圾邮件图像标志。

步骤508、返回判定失败消息

当系统出现异常时，如图像文件载入失败，则返回判定失败消息。

以上对本发明中利用图像高阶自相关特征，结合支持向量机对垃圾邮件图像的自动识别算法及装置进行了详细介绍，以上的说明只是用于帮助理解本发明的方法及其思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1一种利用图像高阶自相关特征，结合支持向量机自动识别垃圾邮件图像的方法及装置。首先提取出图像的边缘信息，获得图像的二值化边缘图像；其次利用从高阶自相关函数转化而来的25个用于提取高阶自相关特征的模板获取图像的高阶自相关特征；再次对所提取的特征进行规一化处理，获得特征值都在0和1之间的特征向量；最后利用支持向量机分类器对图像进行分类，以判定图像是垃圾邮件图像还是正常邮件图像。

2如权利要求1所述，首先需要提取图像的二值化边缘。图像的边缘特征可以很好的反映图像中所含对象的形状信息。垃圾邮件图像与正常邮件图像不同，它们通常含有大量的文字，这些文字形成了特殊的边缘特征。利用高阶自相关特征可以很好的表达这些特征并反映垃圾邮件图像之间的相似性。

3如权利要求1所述，通过对高阶自相关函数的转化和一些精简，设计出25个3×3的模板来提取图像的高阶自相关特征，由此，每一幅图像可以获得25维高阶自相关特征用以区分该图像的属性。

4如权利要求1所述，对所提取的25维图像特征做归一化处理，用每维特征与特征向量中所有特征值之和的商作为该维特征的值。这样，可以保证每个特征值处于0和1之间，并且消弱了个别特征对最后判定结果的影响。通过归一化处理可以大幅度改善分类的效果，提高分类精度。

5如权利要求1所述，利用权利要求4的归一化后的特征并结合所构造的支持向量机分类器对未知图像进行自动分类，返回结果为正常邮件图像或者垃圾邮件图像。

6权利要求5中的支持向量机分类器的构造方式如下：

首先，获取大量的垃圾邮件图像和正常邮件图像样本集，当正常图像样本数量与垃圾邮件图像样本数量相当时，效果最佳；

其次，提取以上样本集中各幅图像的高阶自相关特征，并对这些特征归一化处理。然后对每一个特征向量手工加上正常邮件图像或者垃圾邮件图像标签；

再次，将这些特征向量作为训练样本，利用网格法选取支持向量机的最佳参数；

最后，利用上一步选取的参数和所获得的训练样本作为支持向量机的输入，训练生成模型文件，其中包含最佳参数和所选取的支持向量。