CN101877066A

CN101877066A - 一种反图像型垃圾邮件的方法及装置

Info

Publication number: CN101877066A
Application number: CN 201010179967
Authority: CN
Inventors: 刘峤; 邓蔚; 罗绪成; 王超
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2010-05-21
Filing date: 2010-05-21
Publication date: 2010-11-03

Abstract

本发明涉及图像处理技术和模式识别领域的相关技术，公开了一种利用垃圾邮件图像自动识别的方法及装置。利用图像的元数据、颜色特征和纹理特征并结合支持向量机实现对正常邮件图像和垃圾邮件图像的自动分类。首先提取出图像的元数据；其次提取出图像的颜色特征；再次提取出图像的纹理特征和形状特征；最后，利用支持向量机分类器对图像进行自动识别。本发明中，由于提取的是图像的元数据特征，以及图像的颜色、纹理和形状特征，因此本发明速度较快、效率高。

Description

一种反图像型垃圾邮件的方法及装置

技术领域

本发明涉及图像处理与模式识别技术，具体涉及一种垃圾邮件图像的特征提取、识别技术及装置。

背景技术

经过30多年的发展，电子邮件已成为互连网非常重要的的组成部分，电子邮件在人们交流和通信中扮演越来越重要的角色。然而，垃圾邮件的泛滥使得电子邮件受到巨大挑战。目前，我国已成为垃圾邮件的受害者。据中国互联网信息中心(CNNIC)发布的《中国互联网发展状况统计报告》显示，2004年1月中国网民平均每周收到垃圾邮件7.9封，但是2009年1月中国网民平均每周收到的垃圾邮件数量达到17.55封，随着网民数量的增加垃圾邮件的数量也不断的在增加。普通用户收到的垃圾邮件主要有三种：纯文本格式，纯图片格式和图片加文本格式。其中只有30％是纯文本格式，这也说明图像垃圾邮件所占比例接近70％。垃圾邮件问题从出现之初就引起了社会各界的关注，并出现了大量的垃圾邮件检测算法，例如IP黑名单、基于规则的垃圾邮件检测算法、基于文本内容的检测算法等、基于行为的过滤方式。其中以基于文本内容的检测算法研究得最多，其性能也最好。

然而，就像在病毒与反病毒的斗争中一样，随着反垃圾邮件技术的不断发展，垃圾邮件制造者自身技术也在不断提高。由于基于文本内容的反垃圾邮件系统在检测文本信息方面已经具有很高的效率，为了逃避此种系统的检测，垃圾邮件制造者将文字信息嵌入到图像中，以图像为载体来传播垃圾信息。这种以图像为载体的垃圾邮件被称为图像型垃圾邮件，由于其文本内容被嵌入在图像中，使得基于文本内容的反垃圾邮件系统完全失效。并且图像型垃圾邮件的体积是文本型垃圾邮件的10-20倍，图片型垃圾邮件一方面消耗大量的网络资源，导致网络堵塞；另一方面浪费大量的存储资源，导致社会经济的重大损失。图像型垃圾邮件的蔓延，已给社会带来极大的负面影响。

为遏制图像型垃圾邮件的蔓延，弥补基于文本内容的垃圾邮件检测系统的不足，已经有许多学者对图像型垃圾邮件作了较深入的研究。当前主流的商业系统采用该技术利用光学文字识别技术(OCR)来提取图像中嵌入的文字，然后利用传统的基于文本内容的垃圾邮件检测手段识别图像型垃圾邮件。但是垃圾邮件中所嵌入的图像通常含有大量人为干扰，使得文字识别正确率较低，效率也不高。另外一些学者则提出利用垃圾邮件中所含图像的属性作为特征来识别图像型垃圾邮件，例如大小、宽、高、面积等。该方法虽然识别速度较快，但仅能识别出较少的图像型垃圾邮件。反垃圾邮件领域仍在寻找一种快速高效的图像型垃圾邮件识别算法以解决图像型垃圾邮件问题。

发明内容

本发明主要提出一种垃圾邮件图像识别方法及装置。通过提取邮件中所含图像的元数据、颜色特征、纹理特征和形状特征，结合支持向量机实现垃圾邮件图像的自动检测与识别。本发明的主要内容包括提取邮件图像的元数据特征、提取图像的颜色特征、提取图像的纹理特征和形状特征的技术，基于支持向量机的垃圾邮件图像自动识别装置。

为了实现上述目的，采取的技术方案是：

1.提取待测图像邮件中图像的元数据特征。

元数据特征包括：高度、宽度、高宽比、文件类型、文件大小、文件面积、压缩率、周长复杂度、文字区域占总区域的面积比率等。

2.提取待测图像邮件中图像的颜色特征。

颜色特征包括：灰度直方图、颜色直方图、平均色、颜色集、颜色聚合向量、平均亮度、颜色空间等。

3.提取待测图像邮件中图像的纹理特征。

纹理特征包括：共生矩阵、边缘频率、小波变换等。

4.提取待测图像邮件中图像的形状特征。

形状特征包括：几何矩、偏心率、骨架等。

5.基于支持向量机的垃圾邮件图像自动识别装置

支持向量机(SVM，Support Vector Machine)是一种基于统计学习理论的机器学习方法。统计学习理论针对小样本统计问题建立了一套新的理论体系，最近10多年间发展迅速，成为各界研究的热点。支持向量机也随之发展，它通过构造最优分类平面来实现分类。在传统的基于文本内容的垃圾邮件过滤算法中，支持向量机就表现出了很好的性能。因此本发明利用支持向量机作为分类算法，对邮件图像进行分类以识别出垃圾邮件图像。

构建一个基于支持向量机的分类器，需要大量的邮件图像样本，包括正常邮件图像样本和垃圾邮件图像样本。提取这些图像的元数据、颜色和纹理特征，并对特征进行归一化，然后利用网格法搜索支持向量机的最佳参数。找到最佳参数后便可以利用提取的图像特征数据及参数对支持向量机进行训练以生成一个基于元数据、颜色、纹理、形状特征和支持向量机的邮件图像分类器。当出现未知的邮件图像时，提取其元数据、颜色、纹理和形状特征，然后将特征向量输入到该分类器即可判定该邮件图像是否是垃圾邮件图像。

最后，实施本发明具有以下有益效果：

从本发明提供的以上技术方案可以看出，本发明提取邮件图像的元数据、颜色、纹理和形状特征，并结合支持向量机实现垃圾邮件图像的自动识别。其中，颜色和直方图的矩对平移、旋转、缩放有较好的鲁棒性，因此其抗干扰能力强，能应对绝大多数垃圾邮件图像中的人为干扰。由于提取的是图像的元数据特征，以及图像的颜色和纹理特征，而不是提取、分析和区别图像中文字特征，采用直接视觉特征的好处是仅需要对图像文件进行一次线性扫描，避免了文字识别所需的反复扫描，降低了计算复杂度。同时，采用直接视觉特征能够有效克服文字扭曲技术对OCR字符识别软件的影响，提高分类器的抗干扰能力。因此本发明速度较快、效率高。另外，支持向量机的引入，使得整个装置更加智能化、自动化。并且通过利用新的样本邮件图像对分类器的训练，可以快速识别新类型的垃圾邮件图像。

附图说明

图1为本发明构建基于支持向量机的分类器的具体流程图；

图2为本发明对未知邮件图像属性的典型判定流程图。

具体实施方式

为使本发明的目的、技术方案、及优点更加清楚明白，以下参照附图对本发明进一步详细说明。

图1描述了本发明构建基于支持向量机的分类器的具体过程：

步骤101、手工标记正常图像和垃圾图像

为构建一个较好的分类器，首先需要大量样本对分类器进行训练，其中正常邮件样本最好与垃圾邮件样本数量相当。

步骤102、提取样本集中各幅图像的元数据特征、颜色特征、纹理特征和形状特征

步骤103、寻找分类器的最佳参数

采用不同的参数，训练所获得的分类器性能差别非常大。为了寻找一组最佳的参数，可以采用的一种方法是用网格法在一个2维平面中搜索最佳参数包括惩罚因子C和参数gama。

步骤104、训练支持向量机分类器

利用步骤102获得的大量训练样本的特征数据和步骤103获得的最佳参数，对支持向量机进行训练。训练后生成一模型文件，其中包含各种参数和选取的支撑矢量。这样便完成了一个分类器的构建。

图2描述了本发明对未知邮件图像的典型判定过程

步骤201、读入邮件图像

如果成功载入图像则继续步骤202以提取图像的特征，否则执行步骤208返回判定失败消息。

步骤202、图像特征提取

提取未知图像的元数据特征、颜色特征、纹理特征和形状特征。

步骤203、载入训练阶段所生成的模型文件

图1描述了支持向量机分类器的构建过程，其最终生成了一个模型文件。该文件中包含了支持向量机的参数和选择的支撑矢量。将这些信息读入，构建一个分类器；如果文件读入失败则执行步骤208以返回判定失败消息。

步骤204、判定邮件图像属性

将步骤203所获得的邮件图像特征作为步骤203所生成的分类器的输入，利用分类器判定图像的属性。如果为正常邮件图像则执行步骤205，返回图像为正常邮件图像消息；否则执行步骤206，返回该图像为垃圾邮件图像消息。

步骤205、返回图像为正常邮件图像消息

当系统将判断为正常邮件图像时，则返回正常邮件图像标志。

步骤206、返回图像为垃圾邮件图像消息

当系统将判断为垃圾邮件图像时，则返回垃圾邮件图像标志。

步骤207、返回判定失败消息

当系统出现异常时，如图像文件载入失败，则返回判定失败消息。

以上对本发明中利用图像元数据、颜色特征、纹理特征和形状特征，结合支持向量机对垃圾邮件图像的自动识别算法及装置进行了详细介绍，以上的说明只是用于帮助理解本发明的方法及其思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种利用图像元数据、颜色特征、纹理特征和形状特征，结合支持向量机自动识别垃圾邮件图像的方法及装置；首先提取出图像的元数据；其次提取出图像的颜色特征；再次提取出图像的纹理特征和形状特征；最后利用支持向量机分类器对图像进行分类，以判定图像是垃圾邮件图像还是正常邮件图像。

2.如权利要求1所述，提取图像的元数据、颜色特征、纹理特征和形状特征，图像的这些特征可以很好的反映图像中所含对象的形状信息；垃圾邮件图像与正常邮件图像不同，通常它们的大小比较正常图片小，颜色较正常图片单一，纹理没有正常图片丰富；利用元数据、颜色特征、纹理特征和形状特征可以很好的表达这些特征并区分垃圾邮件图像和正常图像。

3.如权利要求1所述，利用权力要求2提取的特征并结合所构造的支持向量机分类器对未知图像进行自动分类，返回结果为正常邮件图像或者垃圾邮件图像。

4.权力要求3中的支持向量机分类器的构造方式如下：

首先，获取大量的垃圾邮件图像和正常邮件图像样本集，当正常图像样本数量与垃圾邮件图像样本数量相当时，效果最佳；

其次，提取以上图像集中各幅图像的元数据、颜色特征、纹理特征和形状特征，并对这些特征归一化处理。然后对每一个特征向量手工加上正常邮件图像或者垃圾邮件图像标签；

再次，将这些特征向量作为训练样本，利用网格法选取支持向量机的最佳参数；

最后，利用上一步选取的参数和所获得的训练样本作为支持向量机的输入，训练生成模型文件，其中包含最佳参数和所选取的支持向量。