CN101299729B

CN101299729B - 一种基于拓扑行为的垃圾邮件判定方法

Info

Publication number: CN101299729B
Application number: CN2008100648061A
Authority: CN
Inventors: 杨武; 张乐君; 王巍
Original assignee: Harbin Engineering University
Current assignee: Yang Hui
Priority date: 2008-06-25
Filing date: 2008-06-25
Publication date: 2011-05-11
Anticipated expiration: 2028-06-25
Also published as: CN101299729A

Abstract

本发明提供的是一种垃圾邮件的判定方法。根据电子邮件的通讯关系，建立一个通讯关系拓扑图；对通讯关系拓扑图中，具有双向通讯关系的用户归并为一个类，建立垃圾邮件的判定模型；通过待检测的邮件中提取from邮箱地址和to邮箱地址，并判断其是否为垃圾邮件；对垃圾邮件判定模型进行更新。本发明的优点在于：只需要获取邮件的少量信息就可以快速、准确的对垃圾邮件进行判定，并且可以根据不同的情况部署到不同的位置：如：邮件服务器、网关、骨干网出入口等等。由于其处理速度快，因此可以在源头上遏制垃圾邮件的传播。

Description

一种基于拓扑行为的垃圾邮件判定方法

(一)技术领域

本发明涉及的是一种垃圾邮件的判定方法。

(二)背景技术

电子邮件凭借低廉、简单、快捷的优势已经成为人们工作和生活中的重要通信方式，但人们在享受电子邮件提供诸多便捷之时，也在忍受着它的副产品所带来了的痛苦，即互联网上垃圾邮件泛滥成灾，并且近几年有愈演愈烈的趋势。

目前对垃圾邮件的治理还是集中在依靠垃圾邮件过滤技术。而以内容识别为主的邮件过滤系统，在使用过程中渐渐发现它们也存在着一些缺陷。内容过滤需要训练、分类、计算，过滤过程需要耗费大量系统资源，所以处理速度比较慢，CPU和内存占用较高，效率低。准确性依赖大量的历史数据，故生命周期短。对于经常变换内容的垃圾邮件，效果也不是很好。因为它始终没有逃离关键词匹配的思想，所以关键词库需要不断更新维护，是一种被动的处理过程。另外，该技术需要将邮件全部接收下来再进一步处理，虽然判断出垃圾邮件，但并没有节省网络流量开销。

对于拓扑行为的垃圾邮件判定还处于起步阶段，如Scale-free topology ofe-mail network[J]，2002，偏重于建立邮件网络模型，以用户为节点，以通信关系为边，从邮件服务器日志中截取一定信息来建立网络模型，并通过试验证明邮件世界同样有scale free和small world属性；Comparative graphTheoretical Characterization of Networks of Spam and RegularEmail[EB/OL].http://arxiv.Org/abs/cond-mat/0503725，通过邮件发送者和接收者产生的边界流图。作者通过用户图表和域图表在各个指标如网络聚合度、出入度差异等方面差异来分析垃圾邮件和正常邮件的特征，使用HIS算法来分析流量图的演化结构，并提出如何动态地调整图的关系结构的方法。上面典型的垃圾邮件判定方法还属于概念性的表述，如果没有大量后续工作的展开，是难以在垃圾邮件判定中得到应用。

(三)发明内容

本发明的目的在于提供一种通过分析邮件之间的通讯拓扑关系来对垃圾邮件进行快速判定的方法。

本发明的目的是这样实现的：

1)根据电子邮件的通讯关系，建立一个通讯关系拓扑图；

2)对通讯关系拓扑图中，具有双向通讯关系的用户归并为一个类，建立垃圾邮件的判定模型；

3)通过待检测的邮件中提取from邮箱地址和to邮箱地址，并判断其是否为垃圾邮件；

4)对垃圾邮件判定模型进行更新。

所述的建立邮件通讯关系拓扑图：1)从每一封电子邮件中抽取出from邮箱地址和to邮箱地址；2)建立一条从from邮箱地址到to邮箱地址有向图。

所述的建立垃圾邮件判定模型是：1)将网络中所有节点集合为U，from表里存放可直达该节点的节点，to表里存放该节点可直达的节点。2)在U中任取一个节点a，把a放进集合T1中；3)在from表中查找出a可到达的所有的节点ak，并加入到T1中；4)在from表中查找ak可达的所有节点，并加入到T1中(已有的不再加入)，重复这种查找直到T1不再发生变化；5)同样的方法在to表中进行查找，得到另一个集合T2，取T1和T2的交集T为节点a的类(当然也是T中任意一个元素的类)；6)在U中去掉T中元素，再选择一个节点，重复3、4、5过程得出新的类，如此下去直至U为空；7)对每一个分出来的类，若其内元素个数大于等于2则为正常类，给其分配一个奇素数类号，其它所有节点都归为一个奇异类，为其分配类号为1。

所述的垃圾邮件判定方法是：1)首先要提取出from邮箱地址和to邮箱地址，检查它们的类号，如果两个邮箱中至少有一个没有类号，说明是新邮箱之间通信或已有的类与新邮箱通信，这时暂判为正常邮件，把没有类号的邮箱的类号记为1(奇异类)并记录下通信关系。然后根据其以后的通信情况，再做相应判断和处理。否则，向下继续进行；2)检查两个邮箱所属类号的最大公约数，如果最大公约数大于1，则这封邮件被判为正常邮件。如果最大公约数为1，向下继续进行；3)看发送者是否在接受者已发送但并未回复的地址中，既判断这封邮件是否是一封回复邮件。如果是，则说明发送者和接收者在互相通信，则这封邮件被判为正常邮件。同时，还要更新类的信息。否则向下继续进行；4)统计这个发送者向这个接收者已发送但并没有得到回复的邮件数目，并将其与我们设定的阈值相比较。如果小于阈值，就判为正常邮件。如果大于等于阈值，则判为垃圾邮件。

所述的模型更新具体包括以下几种情形：1)新节点和所有类节点进行单向通信，把新节点加入到奇异类中；2)新节点与奇异类中节点进行双向通信，则它们生成新的正常类；3)新节点与正常类中节点进行双向通信，则把新节点加入该正常类。4)奇异类中的节点之间进行双向通信，则它们生成新的正常类；5)奇异类中的节点和某正常类中节点进行双向通信后，把奇异类的节点也归为与其进行通信的节点的类中；6)若两个不同的正常类节点进行双向通信，则这两个节点生成一个新的包含这两个类的聚类(原先的两个类称为该类的子类)，它们的类号均新设为原先两个类号的积，但这两个节点都可正常与以前所属类别中的节点通信；7)如果某个正常类里面已没有节点，则撤销该类，并把该类的聚类并入聚类的另一个子类中，撤销聚类。

针对以上情况，本发明从邮件的拓扑行为出发，提出了基于拓扑行为的垃圾邮件判定方法。经实验验证，这个技术能够很好地解决已有的垃圾邮件判定技术的不足。

本发明是基于如下问题而设计的：

由于基于邮件内容的垃圾邮件识别技术，具有识别速度慢的特点，并且无法从源头上有效遏制垃圾邮件的转播和蔓延，因此需要一种可以快速、有效的垃圾邮件判定方法。

为了能够快速判定垃圾邮件就必须要采用一种需要信息量小且有效的方法，首先获取邮件的消息头信息，将from邮箱地址和to邮箱地址提取出来；其次建立邮箱地址之间的通讯关系图，并建立识别模型；将待检测邮件的消息头部信息提取出来，并放入已有的判定模型中进行判断；最后对判定模型进行更新。

本发明的主要技术特征体现在：

1)需要少量邮件信息，处理速度快

判定邮件的属性往往需要获取邮件的内容，这样处理速度就比较慢，而且必须将邮件全部收下来以后才能进行，因此不能从源头上遏制邮件的传播。本发明之需要获取邮件的头部信息中的一部分，因此可以仅获取部分信息，就可以对邮件属性进行判断，可以从源头上对邮件进行判断。

具体技术路线是：1.根据不同的部署情况，从SMTP协议中获取邮件信头部信息：从Received字段开始，到连续两个回车换行结束；2.从获取数据中提取邮件地址信息，包括from字段和to字段；3.将邮件地址字段信息对输入到判定模型中进行邮件属性判定。

2)垃圾邮件判定模型可以自动实时更新

具体技术路线：1.根据待判定邮件的地址信息与已存在类节点之间通讯关系，更新识别模型；2.根据奇异类之间的通讯关系和奇异类与正常类之间的通讯关系更新识别模型。3.根据正常类之间的通讯关系更新识别模型。

本发明的优点在于：只需要获取邮件的少量信息就可以快速、准确的对垃圾邮件进行判定，并且可以根据不同的情况部署到不同的位置：如：邮件服务器、网关、骨干网出入口等等。由于其处理速度快，因此可以在源头上遏制垃圾邮件的传播。

(四)附图说明

图1基于拓扑行为的垃圾邮件判定步骤；

图2 A、B、C、D、E形成的拓扑网络集合1；

图3 A、B、C、D、E形成的拓扑网络集合2；

图4邮件网络拓扑图；

图5垃圾邮件子图；

图6合法邮件子图；

图7邮件拓扑示意图；

图8基于拓扑行为的垃圾邮件判定技术测试结果；

图9处理时间对比表1。

(五)具体实施方式

下面结合附图举例对本发明做更详细地描述：

1)拓扑行为识别模型原理

合法邮件是在发信人和收信人存在社会关系前提下，以相互交换信息为目的，双向通信的结果；而垃圾邮件是在发送者利益驱动下，以大范围扩散为目的，单向通信的产物。两者本质上的不同必然导致其行为的显著差异，因此垃圾邮件和合法邮件在单/双向行为特征上是可以区分的。

通过对大量合法邮件和垃圾邮件样本分析总结，发现合法邮件体现了通信双方之间一种亲戚、朋友、同事、上下级等社会关系，而且与合法的通信双方有“朋友”关系或“信任”关系的人之间也有很大概率通信的可能性。例如A认识B、C、D、E，那么B、C、D、E相互认识的可能性就很大，这是社会关系网络的一个自然属性。同样对于邮件系统，A给B、C、D、E都发过邮件，因为都是A的朋友，所以B、C、D、E之间通过A相互认识，他们之间也会相互通信，就会形成一个小的紧密联系的集合，如图2所示。

而垃圾邮件却是那些不请自来，希望能有更多的人获得发送者传递信息的邮件。接收与发送者之间并不认识，也没有任何社会关系。垃圾邮件属于滥发行为，发送者与接收者、多数接收者之间并不存在社会关系。比如A是垃圾邮件发送者，将邮件发给B、C、D、E，它们形成的疏松网络如图3所示。

用某大学校园邮件服务器上一周的日志信息，使用Graphviz绘图工具生成网络拓扑图验证上面分析的正确性。由日志信息建立的邮件网络拓扑图如图4所示。

图中每个节点是邮箱地址的散列值，从图中可以拆分出一个垃圾邮件子图和一个合法邮件子图，分别见图5和图6。

从垃圾邮件图5中，可以明显地看到散列值为33690和39900的两个垃圾邮件发送者在发送邮件。发送者只发不收，接收者之间没有任何通信关系，节点之间联结疏松。而在合法邮件图6中，节点之间存在着双向互通关系，并且节点间联结很紧密，形成联结紧密的关系网。这正是由于合法邮件之间存在合法的社会关系，使得他们之间有对应的通信关系的结果。

邮件发送者和接收者之间是否拥有社会关系，是区分垃圾邮件和合法邮件最本质的特征之一，这种特征在垃圾邮件和合法邮件拓扑图中表现出极大的不同。所以可以根据图形理论知识，选取合适的度量，构建邮件拓扑图，然后用图形理论分析的方法来区分垃圾邮件与合法邮件。

2)垃圾邮件判定模型

以用户邮箱地址为结点，用户之间通信关系作为边建立邮件拓扑图。分析图的拓扑特性，得到多个反映用户社会关系的用户类。同一个类内的用户相互通信的邮件为正常邮件，不同类之间用户单向通信的邮件为垃圾邮件。

用户类别划分是以用户间是否相互通信为依据，所有的用户划分为若干个正常类和一个奇异类。当且仅当两个用户相互发送过邮件，两者归为同一个正常类，们所有不能和其他用户归为同一类的用户形成奇异类。随着用户之间的相互通信，类可以自动进化以反映当前的用户关系。

图7是邮件拓扑关系的示意图，其中灰色圆圈围着的部分有相互通信关系，表示正常类。两个黑点没有相互通信关系，说明这两个黑点是垃圾邮件发送者，它们代表垃圾类。

在识别模型的建立过程中，本文采用MNTA(mail net topology arithmetic)算法，结合图1该方法具体描述如下：

设网络中所有节点集合为U，from表里存放可直达该节点的节点，to表里存放该节点可直达的节点。

(1)在U中任取一个节点a，把a放进集合T1中；

(2)在from表中查找出a可到达的所有的节点ak，并加入到T1中；

(3)在from表中查找ak可达的所有节点，并加入到T1中(已有的不再加入)，重复这种查找直到T1不再发生变化；

(4)同样的方法在to表中进行查找，得到另一个集合T2，取T1和T2的交集T为节点a的类(当然也是T中任意一个元素的类)；

(5)在U中去掉T中元素，再选择一个节点，重复2、3、4过程得出新的类，如此下去直至U为空；

(6)对每一个分出来的类，若其内元素个数大于等于2则为正常类，给其分配一个奇素数类号，其它所有节点都归为一个奇异类，为其分配类号为1；

按照这个算法，我们就把一个大的网络拓扑图分成若干个类。正常类里面包含的都是互相连通的、可以互达的、具有一定社会关系的节点。这些节点之间相互通信，认为是合法的，它们之间通信的邮件即为合法邮件。而奇异类中只有单向通信关系，节点之间不可以互达。由于节点之间不存在着确定的社会关系，因此，这里面的节点是可疑的。

最后，我们把网络中的每个节点，即邮箱地址，分配一个由上面算法获得的类号。这样，识别模型就建立了起来。

3)邮件属性判定

对于每新来的一封邮件，

(1)首先要提取出from邮箱地址和to邮箱地址，检查它们的类号。

如果两个邮箱中至少有一个没有类号，说明是新邮箱之间通信或已有的类与新邮箱通信，这时暂判为正常邮件，把没有类号的邮箱的类号记为1(奇异类)并记录下通信关系。然后根据其以后的通信情况，再做相应判断和处理。否则，向下继续进行。

(2)检查两个邮箱所属类号的最大公约数。

如果最大公约数大于1，则这封邮件被判为正常邮件。如果最大公约数为1，向下继续进行。

(3)看发送者是否在接受者已发送但并未回复的地址中，既判断这封邮件是否是一封回复邮件。如果是，则说明发送者和接收者在互相通信，则这封邮件被判为正常邮件。同时，还要更新类的信息。否则向下继续进行。

(4)统计这个发送者向这个接收者已发送但并没有得到回复的邮件数目，并将其与我们设定的阈值相比较。如果小于阈值，就判为正常邮件。如果大于等于阈值，则判为垃圾邮件。

4)判定模型更新

随着时间的推移，用户节点之间的关系会发生变化，而此时类也应能进化以表示新的用户关系，具体包括以下几种情形：

(1)新节点和所有类节点进行单向通信，把新节点加入到奇异类中。

(2)新节点与奇异类中节点进行双向通信，则它们生成新的正常类。

(3)新节点与正常类中节点进行双向通信，则把新节点加入该正常类。

(4)奇异类中的节点之间进行双向通信，则它们生成新的正常类。

(5)奇异类中的节点和某正常类中节点进行双向通信后，把奇异类的节点也归为与其进行通信的节点的类中。

(6)若两个不同的正常类节点进行双向通信，则这两个节点生成一个新的包含这两个类的聚类(原先的两个类称为该类的子类)，它们的类号均新设为原先两个类号的积，但这两个节点都可正常与以前所属类别中的节点通信。

(7)如果某个正常类里面已没有节点，则撤销该类，并把该类的聚类并入聚类的另一个子类中，撤销聚类。

4)实验及分析

收集某大学校园邮件服务器日志信息，共10586条。其中2000条用来建立邮件拓扑图，形成垃圾邮件识别模型，剩余8586条用来测试。

硬件环境：曙光服务器一台

软件环境：Red hat 9.0以上的linux操作系统

在不同阈值的情况下，本文提出的基于拓扑的行为识别技术的召回率、准确率、精确率如图8所示。从图中可以看出，召回率和精确率会随着阈值的变大而降低；准确率随着阈值的增大而升高。准确率达到100％时，以后一直保持这个水平，准确率很高，召回率稍低。

当阈值为1时，表示收发件人只有一次单向通信关系时，即判为垃圾邮件。这样，就会将没有来得及回信的邮件误判为垃圾邮件。所以图中当阈值为1时，准确率只有70％，召回率90％，有30％正常邮件被误判为垃圾邮件。阈值2时的情况，虽然准确率有所提高，但仍有20％的误判。然后准确率逐渐上升，当阈值为6时，准确率达到100％，召回率70％，精确率72％，这时总的性能达到最好。

另外，该技术平均处理每封邮件的时间仅为微秒级，而内容识别技术为毫秒级的，故其速度快、执行效率比较高。与内容识别技术在处理时间上的对比，如表1所示。

综上，实验数据进一步证明了基于拓扑行为的垃圾邮件识别技术不仅快，而且准的特点。

Claims

1.一种垃圾邮件的判定方法，其特征是：

1)根据电子邮件的通讯关系，建立一个通讯关系拓扑图；

3)通过待检测的邮件中提取from邮箱地址和to邮箱地址，并判断其是否为垃圾邮件；所述的判断其是否为垃圾邮件的方法是：(1)首先提取出from邮箱地址和to邮箱地址，检查它们的类号，如果两个邮箱中至少有一个没有类号，暂判为正常邮件，把没有类号的邮箱的类号记为1并记录下通信关系；然后根据其以后的通信情况，再做相应判断和处理；否则，向下继续进行；(2)检查两个邮箱所属类号的最大公约数，如果最大公约数大于1，则这封邮件被判为正常邮件；如果最大公约数为1，向下继续进行；(3)根据发送者是否在接收者已发送但并未回复的地址中，来判断这封邮件是否是一封回复邮件，如果是，则这封邮件被判为正常邮件，同时，还要更新类的信息，否则向下继续进行；(4)统计这个发送者向这个接收者已发送但并没有得到回复的邮件数目，并将其与设定的阈值相比较，如果小于阈值，就判为正常邮件，如果大于等于阈值，则判为垃圾邮件；

4)对垃圾邮件判定模型进行更新。

2.根据权利要求1所述的一种垃圾邮件的判定方法，其特征是：所述的建立通讯关系拓扑图的方法为：1)从每一封电子邮件中抽取出from邮箱地址和to邮箱地址；2)建立一条从from邮箱地址到to邮箱地址有向图。

3.根据权利要求2所述的一种垃圾邮件的判定方法，其特征是：所述的建立垃圾邮件判定模型的方法是：1)设网络中所有节点的集合为U，from表里存放可直达U中每一个节点的节点，to表里存放U中每一个节点可直达的节点；2)在U中任取一个节点a，把a放进集合T1中；3)在from表中查找出a可到达的所有的节点ak，并加入到T1中；4)在from表中查找ak可达的所有节点，并加入到T1中且已有的不再加入，重复这种查找直到T1不再发生变化； 5)采用3)、4)中from表查找节点的方法，在to表中进行查找，得到另一集合T2，取T1和T2的交集T为节点a的类；6)在U中去掉T中元素，再选择一个节点，重复3)、4)、5)过程得出新的类，如此下去直至U为空；7)对每一个分出来的类，若其内部的元素个数大于等于2则为正常类，给其分配一个奇素数类号，其它所有节点都归为一个奇异类，为其分配类号为1。

4.根据权利要求3所述的一种垃圾邮件的判定方法，其特征是：所述的对垃圾邮件判定模型进行更新是选择如下方法之一：1)新节点和所有类节点进行单向通信，把新节点加入到奇异类中；2)新节点与奇异类中节点进行双向通信，则它们生成新的正常类；3)新节点与正常类中节点进行双向通信，则把新节点加入该正常类；4)奇异类中的节点之间进行双向通信，则它们生成新的正常类；5)奇异类中的节点a和某正常类中节点进行双向通信后，把节点a也归为与a进行通信的节点的类中；6)若两个不同的正常类节点进行双向通信，则这两个节点生成一个新的包含这两个类的聚类，它们的类号均新设为原先两个类号的积，但这两个节点都可正常与以前所属类别中的节点通信；7)如果某个正常类里面已没有节点，则撤销该类，并把该类的聚类B并入B的另一个子类中，撤销B。