CN101282310B

CN101282310B - 一种反图片垃圾邮件的方法及装置

Info

Publication number: CN101282310B
Application number: CN2008100379402A
Authority: CN
Inventors: 吕岳; 陈俊伟; 张丽春
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2008-05-23
Filing date: 2008-05-23
Publication date: 2011-06-29
Anticipated expiration: 2028-05-23
Also published as: CN101282310A

Abstract

本发明提供了一种反图片垃圾邮件的方法及装置。该方法及装置包括特征向量析取器、垃圾图像识别器、截图功能模块和邮件平台，尤其是通过对图片垃圾邮件所携带的图片提取所述图片垃圾邮件的图片的特征向量，将包括所述特征向量的特征信息以文本格式存档，将对图像的匹配转化为对包括特征向量的特征信息文本的匹配，极大提高了图像匹配的效率，节省了系统开销。本发明的技术方案在整体上对于解决图片垃圾邮件的认定和滤除提供了不同于以往反文字垃圾邮件技术路线，改进了反图片垃圾邮件技术方案的速度和准确度，提高了识别垃圾制造者对垃圾图片所作规避干扰的能力。

Description

一种反图片垃圾邮件的方法及装置

技术领域

本发明涉及电子邮件处理技术领域，尤其涉及一种反图片垃圾邮件的方法及装置。

背景技术

自电子邮件被发明之日起，垃圾邮件就随之蔓延并成为世界性难题。如果找不到有效的预防方法，垃圾邮件将严重威胁到网络资源的共享性、交互性和开放性。因此，垃圾邮件的检测与预防任务已经迫在眉睫。但是，实际情况却不容乐观。一个很明显的问题就是每个人对垃圾邮件的认定标准有不同的看法。一般来说，所谓的垃圾邮件指的是一些不受欢迎的邮件，为了和用户取得某种联系，它们未征得任何允许却强行发送到用户邮箱。最典型的例子就是铺天盖地的广告邮件，以及用来窃取用户帐号信息的钓鱼邮件。另一个同样普遍的问题是，垃圾邮件的形式与内容是随时变换的，没有一种过滤技术能够持久地对垃圾邮件有效。正如计算机病毒，由于病毒是一直更新换代的，任何杀毒软件都是被动地进行防御。

尽管存在以上诸多困难，近些年来研究人员一直致力于反垃圾邮件的技术开发并取得了一定的成果。针对垃圾邮件，较为典型的对策有只接受预先审定的发送方或者信件格式的邮件，或者基于某些关键字在邮件文字内容中嗅探是否存在垃圾信息。从本质上看基于关键字的邮件过滤器实际上就是一种文本分类器。这类“黑名单”式邮件过滤系统在目前的反垃圾邮件领域得到过不俗的表现并已经实现了商业化应用。与此同时，垃圾邮件制造者(spammer)也不断设计出新的手段对过滤器进行干扰。例如他们设法故意错误拼写某些字词，或者强行插一些毫不相干的文字进入邮件内容当中。所做的一切就是想降低过滤器的识别率，尽可能多地骗过过滤器而让用户接收到邮件。但随着文本分类技术的不断改进，这些小伎俩终究都是徒劳无益的。

为了绕过对垃圾邮件的文本过滤，垃圾邮件制造者会采用另外一种更加隐蔽的信息载体形式：图片。他们将文字嵌入到图片当中，让一些基于文本的过滤系统无法识别，但邮件接收者却能辨认这些信息。

图片垃圾邮件的泛滥程度惊人。仅2006年的数据就显示每天图片垃圾邮件的数量就高达150多亿封，图片垃圾邮件的平均大小是50KB，是常规垃圾邮件的10倍。随着垃圾邮件尺寸的不断增大以及数量的不断增多，许多企业薄弱的电子邮件基础设施已不堪重负。图片垃圾邮件能成功躲过过滤器的原因主要有两个：一是传统的过滤器对图片垃圾邮件不起作用；二是近来图片垃圾邮件发送者技术不断增强，提高了图片垃圾邮件发送的有效性。

对于图片垃圾邮件，反垃圾邮件工作者一般试图从其中的文字内容入手，先将文字信息与背景图片分离，再对提取出来的文字内容进行文本过滤；或者根据文字区域的一些表面特征(比如大小或者颜色)设计好一个分类器将垃圾邮件与正常邮件区分开来。这种做法并不能带来良好的分类效果，它们默许的前提是所有含有文字的图片都有可能是垃圾图片，但是实际上也存在一些垃圾图片，例如反动、色情图片，是不含有任何文字的，这样的话文本分析的方法就完全失效；其次因为上述的一些表面特征都是和图片的相关属性特征密不可分的，根据不同属性的图片需要制定不同的分类规则；并且由于采集正常邮件的典型特征本身是件棘手的事情，或者说所谓垃圾邮件的判定标准是不明确的，这就给分类器的训练带来困难。

所以过滤图片垃圾邮件，针对其中的文字内容开展工作是很难奏效的。因为垃圾邮件制造者可以很容易地做一些预处理而躲避过滤器的检测。举一个简单的例子，对于一幅加过噪声并且旋转过一定角度的广告图片，人眼可以很清楚地看出其广告内容，但是要让一个字符识别程序处理这类图片往往是费尽周折并且识别率很低，进一步讲，如果考虑文本的语言种类问题，垃圾邮件制造者可以添加多语言的文字信息，而这无疑又增加了文字识别的难度。从另一个角度来看，关于垃圾邮件的定义本身就是个难题，目前很难说有哪个算法或者规则可以准确断定某一封邮件是不是垃圾邮件，因为“垃圾邮件”这样一个概念是没有明确定义的。比如对于普通人来说，推销化工材料的广告邮件是标准的垃圾邮件，但对于某个化工厂的经理来说，这些邮件却能很好地帮助他了解市场上的价格信息，这些广告邮件就不再是垃圾邮件，而是非常有用的信息渠道。

在对于垃圾邮件图片过滤的技术方案中，图像匹配技术是很关键的环节。图像匹配是虚拟现实与计算机视觉等领域中的一个重要课题，其中基于特征的图像匹配一直是研究热点，目前已有众多的匹配算法，它们对于不同环境、不同要求下的图像工作各自具有不同的效果。在基于特征的匹配技术中，其首要任务是提取稳定的特征，并进行描述。常用的方法有基于空间关系的匹配算法、基于不变量描述子的匹配算法、金字塔、和小波算法等等。不同的算法所适用的对象不尽相同。因此，针对图片垃圾邮件，选择图像匹配算法要结合垃圾图片的特性。

为了躲避检测，垃圾邮件制造者往往会将图片做一些处理以起到干扰过滤器的效果。如在广告图片中添加噪声、旋转一定角度后可以很轻松地通过普通过滤器的检测，即使过滤器能够检测出来，往往时间上也要付出相当大的代价。图像匹配算法，要求能够对图像变形、旋转、加噪声等干扰具有特别强的鲁棒性。幸运的是，这个独特的算法在1999年就已经由David G.Lowe提出，这个简称为SIFT(Scale Invariant Feature Transform即尺度不变特征变换)的特征匹配算法是目前国内外特征匹配研究领域取得比较成功的一种算法，该算法匹配能力较强，能提取稳定的特征，可以处理两幅图像之间发生平移、旋转、仿射变换、视角变换、光照变换情况下的匹配问题，甚至在某种程度上对任意角度拍摄的图像也具备较为稳定的特征匹配能力，从而可以实现差异较大的两幅图像之间的特征的匹配。根据上述特点，SIFT匹配算法对于探测垃圾图片来说是相当合适的。

Lowe提出的特征匹配算法分两个阶段来实现：第1阶段是特征的生成，即从多幅待匹配图像中提取出对尺度缩放、旋转、亮度变化无关的特征向量；第2阶段是特征向量的匹配。该算法实现的具体细节可以从有关的文献中查阅到，这里不再赘述。

发明内容

本发明目的在于提供一种反图片垃圾邮件的方法和装置，结合计算机图像处理技术，分析垃圾图片特征信息，准确快速地过滤图片垃圾邮件。

为达到本发明的目的，采取的技术方案是：

一种反图片垃圾邮件的方法，至少包括：提取所述图片垃圾邮件的图片的特征向量；将包括所述特征向量的特征信息以文本格式存档；将对图像的匹配转化为对包括特征向量的特征信息文本的匹配。

可选的，还包括：截取所述图片垃圾邮件的图片中的子区域内容，注明垃圾邮件类型。

可选的，还包括：将所述特征信息文本导入一个数据区，建立所述图片垃圾邮件的图片的黑名单。

可选的，还包括：获得一个已接收邮件，若判定所述接收邮件包含图片，则以所述接收邮件的图片的特征向量在所述黑名单中查找匹配项；若查找到匹配项则将所述接收邮件判定为图片垃圾邮件，并滤除之。

可选的，还包括：对收件箱中的每一个已接收邮件逐一扫描判断。

可选的，所述提取所述图片垃圾邮件的图片的特征向量是尺度不变特征变换(SIFT)特征向量。

本发明提供一种反图片垃圾邮件的装置，至少包括：特征向量析取器，用于提取所述图片垃圾邮件的图片的特征向量，将包括所述特征向量的特征信息以文本格式存档，将对图像的匹配转化为对包括特征向量的特征信息文本的匹配。

可选的，还包括：垃圾图像识别器，用于以接收邮件的图片的特征向量在已建立的黑名单中查找匹配项；若查找到匹配项则将所述接收邮件判定为图片垃圾邮件，并滤除之。

可选的，还包括：截图功能模块，用于获取邮件的图片截图，并传给所述的特征向量析取器。

可选的，还包括：邮件平台，用于邮件的收发以及邮件的管理和维护。

采用上述技术方案，本发明的有益技术效果在于：

首先，与传统的方法不同，本发明提供的技术方案是让用户通过自己截图的形式捕获垃圾图片的代表性内容，也就是赋予了用户更多的自主权去定义与处理图片垃圾邮件，这在究竟哪些图片是属于垃圾图片这个问题上，给予了比较满意的解决方案，也使得过滤规则更加具有灵活性与多样性；其次，结合SIFT图像匹配算法的高效性与稳定性，在此基础上本系统设计了一个“特征向量析取器”功能模块，通过预先提取图片特征并存档，将匹配对象由复杂的图片格式简化为文本格式，方便后续的调用，也在很大程度上节省了图像匹配程序的运行时间；最后，本过滤系统直接针对垃圾图片的图像信息，而不可以区别图像与文字，将文字内容与背景图片内容视为一个整体图像来处理，这样不管图片中含有哪类文字，或者说是否含有文字，都不影响会最终识别效果，即确保了系统的语言文字无关性，这一点也是反垃圾邮件技术领域富有创造性的改进。

附图说明

图1本发明的方法流程图

图2本发明的装置组成框图

图3本发明实施例中广告垃圾邮件的截图内容图

图4本发明实施例中广告垃圾邮件的截图的SIFT特征图

图5本发明实施例中广告垃圾邮件的的图片匹配项查找过程图

图6本发明实施例中广告垃圾邮件的的图片匹配结果图

具体实施方式

下面结合附图，通过具体实施方式对本发明作进一步的说明。

如图1所示，用户发现某封邮件含有垃圾图片，进行以下步骤：

101，用户截取图片中的某块子区域内容(例如广告公司商标图案或者其它具有代表性标志图案)，注明垃圾邮件类型(例如“医药广告”)后提交给系统；

102，系统提取出截图的特征向量；

103，将新获取的特征向量存入到一个数据区中，这个数据区包含了从所有垃圾图片的截图中提取的特征信息，它扮演了“黑名单”的角色，任何含有“黑名单”中某个特征项的图片都将视为垃圾图片处理；

与上述步骤并行的，

104，收取一个新邮件，

105，系统先检测该邮件是否含有图片附件；

106，如果有图片存在，则提取出图片SIFT特征向量；

107，用这个特征向量去第二步所生成的“黑名单”中查找匹配项；

108，一旦找到了匹配项，则表示在该邮件识别出了垃圾图片；

109，立即将此垃圾邮件过滤之；

同样与上述步骤并行的有，

110，对收件箱中之前已收取的邮件进行垃圾邮件扫描，因为一旦用户修改了某条垃圾邮件判别规则，系统有必要对既有的邮件重新进行过滤操作，

111，判断是否有匹配的图片；；

112，若认定为垃圾邮件则滤除该垃圾邮件。

如图2所示，设计的图片垃圾邮件过滤系统主要由以下重要功能模块组成：

邮件平台201，这是本邮件系统赖以运行的框架性功能模块。该模块具备完善的邮件收发功能，以及日常的邮件管理与维护功能。它提供给用户一个友好的操作界面，最终的程序运行效果也都是通过该邮件平台来显示的；

截图功能模块204，用户使用这个模块来获取某张截图，并将之传给特征向量析取器。之所以将截图功能模块独立于邮件平台而设计，是因为截图操作是在客户端而非服务器运行，所谓的截图可以是来自于用户电脑中的任意图片，而不仅仅是局限于邮件平台里面某封邮件当中的图片；

邮件图片202，是在接收的邮件获得的图片；

特征向量析取器205，本模块对于获得的截图采用特征析取，属于对原SIFT算法应用上的一个创新性改进与补充。在SIFT算法的基础上完成一些预处理来协助后面的图像匹配工作。由于采用了一个图像特征析取器来预先提取图片的SIFT特征向量，并将每幅图片这些的特征信息以文本形式存档，这样一来，以后的图像匹配工作就避免了每次都要提取图片的特征向量，而仅仅是调用已生成特征向量文本文件。因此，图像匹配工作就由图像的匹配转换成了文本的匹配，这将大大减少时间开销；

特征向量析取器203，本模块对于获得的接收邮件的图片采用特征析取，与特征向量析取器205同样的，属于对原SIFT算法应用上的一个创新性改进与补充。在SIFT算法的基础上完成一些预处理，采用了一个图像特征析取器来预先提取图片的SIFT特征向量，并将每幅图片这些的特征信息以文本形式存档，将图像匹配工作由图像的匹配转换成文本的匹配。

垃圾图像识别器207，这个模块在整个系统的起到关键的图像识别作用。邮件图片与用户截图的特征向量经特征向量析取器处理过后送至垃圾图像识别器进行匹配，最终匹配结果将被反馈到邮件平台。

为了尽量确保系统的平台无关性，整个系统采用的是浏览器/服务器架构。所有复杂的图像运算操作都是在服务器上运行，浏览器端只负责显示最终的结果。只要有一台能够连接英特网的计算机，用户随时随地都可以使用本系统查看和管理自己的邮件。

下面以广告垃圾邮件为例，介绍本系统具体的检测垃圾邮件的运行过程。一般来说，广告图片中往往在显眼的位置上存在一个公司商标或者说某块标志性图像区域，而为起到广告宣传的目的，这些图像区域内容在正常情况下是不太容易改变的。如图3所示，当截取了广告图片中的一个子图，它显示有公司的网址信息，而一般情况下这个子图也同时存在于该公司发出的其它广告图片中。系统就认为凡是含有此子图的图片都是来自于同一家公司的垃圾图片。

接下来系统将截图的特征信息提取出来，如图4，并且保存至“黑名单”中。系统每读入一封内嵌有图片的电子邮件，都会先提取出内置图片的特征信息，并拿它去“黑名单”中与事先截取下的子图做图像特征匹配。一旦被系统发现该邮件图片与用户之前获取的截图有足够多的相似点，如图5，那么就有理由相信这张图片正是一张类似的广告图片，而这封邮件将据此被判为垃圾邮件，并打上垃圾邮件标志，比如“ad”(advertising)，如图6。最后邮件平台将根据用户的要求对此类垃圾邮件做出直接过滤或者暂时保留的决定。

如果用户将某个截图特征内容修改或者将其从“黑名单”中移除，那么相应的过滤规则随即会被更新。系统将根据新的过滤规则识别垃圾邮件。

综上所述，本发明提供的技术方案让用户通过自己截图的形式捕获垃圾图片的代表性内容，也就是赋予了用户更多的自主权去定义与处理图片垃圾邮件，这在究竟哪些图片是属于垃圾图片这个问题上，给予了比较满意的解决方案，也使得过滤规则更加具有灵活性与多样性；其次，结合SIFT图像匹配算法的高效性与稳定性，在此基础上本系统设计了一个“特征向量析取器”功能模块，通过预先提取图片特征并存档，将匹配对象由复杂的图片格式简化为文本格式，方便后续的调用，也在很大程度上节省了图像匹配程序的运行时间；最后，本过滤系统直接针对垃圾图片的图像信息，而不可以区别图像与文字，将文字内容与背景图片内容视为一个整体图像来处理，这样不管图片中含有哪类文字，或者说是否含有文字，都不影响会最终识别效果，即确保了系统的语言文字无关性，这一点也是反垃圾邮件技术领域富有创造性的改进。

Claims

1.一种反图片垃圾邮件的方法，其特征在于，包括步骤：

提取邮件垃圾图片的特征向量，将包括所述特征向量的特征信息以文本格式存档并导入一个数据区，建立邮件垃圾图片的黑名单；

获得一个已接收邮件，若判定所述接收邮件包含图片，则以所述接收邮件的图片的特征向量在所述黑名单中查找匹配项；若查找到匹配项则将所述接收邮件判定为图片垃圾邮件并滤除，同时，截取所述图片垃圾邮件的图片中的子区域内容，注明垃圾邮件类型；

对收件箱中的每一个已接收邮件逐一扫描判断；其中，

所述提取所述图片垃圾邮件的图片的特征向量是尺度不变特征变换特征向量。

2.一种反图片垃圾邮件的装置，其特征在于，至少包括：

特征向量析取器，用于提取所述图片垃圾邮件的图片的特征向量，将包括所述特征向量的特征信息以文本格式存档，将对图像的匹配转化为对包括特征向量的特征信息文本的匹配；

垃圾图像识别器，用于以接收邮件的图片的特征向量在已建立的邮件垃圾图片黑名单中查找匹配项；若查找到匹配项则将所述接收邮件判定为图片垃圾邮件，并滤除；

截图功能模块，用于获取邮件的图片截图，并传给所述的特征向量析取器；

邮件平台，用于邮件的收发以及邮件的管理和维护；

其中，邮件垃圾图片黑名单是通过提取邮件垃圾图片的特征向量，将包括所述特征向量的特征信息以文本格式存档并导入一个数据区的步骤建立。