CN101674264B

CN101674264B - 基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法

Info

Publication number: CN101674264B
Application number: CN2009100730709A
Authority: CN
Inventors: 杨武; 王巍; 苘大鹏; 朱文龙; 玄世昌
Original assignee: Harbin Engineering University
Priority date: 2009-10-20
Filing date: 2009-10-20
Publication date: 2011-09-14
Anticipated expiration: 2029-10-20
Also published as: CN101674264A

Abstract

本发明提供的是一种基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法。所述的检测装置的构成包括用户关系建模装置、指纹收集装置、路径挖掘装置、邮件评价装置、邮件输出装置、用户评价装置、信誉更新装置。所述的方法为根据受控网内用户通信关系建立用户关系模型，然后依据用户关系模型挖掘特定路径集，最后通过该路径集上用户的历史评价建立邮件判定记录，识别邮件属性。本发明的优点在于：有很好的垃圾邮件识别能力，能较好的识别恶意用户并抵抗恶意用户的干扰，可部署在邮件服务器、网关、骨干网出入口处，可广泛应用于电子邮件过滤技术等应用领域。

Description

基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法

(一)技术领域

本发明涉及电子邮件处理技术领域，尤其涉及一种垃圾邮件过滤技术。

(二)背景技术

电子邮件自从产生以来，就给人们的工作生活带来了极大的方便，然而随之而来的垃圾邮件的问题也越来越严重。垃圾邮件不仅占用大量的网络资源，同时也严重危害着人们的利益。如何能够迅速、高效、准确的识别垃圾邮件也成为学者们研究的重点。

目前垃圾邮件的检测技术主要包括基于邮件内容的检测技术和基于邮件行为的检测技术。基于内容的检测技术通过发现垃圾邮件在内容特征上的相似性来识别垃圾邮件，如贝叶斯过滤方法。这种技术在训练、分类、计算的过程中会消耗大量的系统资源，处理效率很低。同时，检测的准确性依赖于样本数据，必须实时更新样本库，否则会造成很多的误判。另一方面，垃圾邮件制造者也不断采用新的技术来干扰内容过滤，比如在邮件正文中添加无关词，增加超文本代码，添加图片等等，以降低内容分析的识别率。

对于基于行为的垃圾邮件过滤技术可以分为基于邮件头的分析方法，以及基于发送方信誉的分析方法。

基于邮件头的分析方法，通过提取邮件头部信息的特征来识别垃圾邮件。如张耀龙等采用决策树方法识别垃圾邮件，其主要思路是通过在邮件头中提取发件人IP、域名、发件人地址长度、收件人地址长度等特征生成规则并建立决策树模型，判断邮件性质。但方法难于预测连续的数据，如何对决策树进行裁剪也对判断效果有很大的影响(行为识别技术在反垃圾邮件系统中的研究与应用.硕士论文，北京邮件大学，2006.3)。Barry等提出了一种SMTP路径分析方法，通过以标注过的邮件集(包括垃圾邮件和合法邮件)为输入，提取Received-line中所有邮件服务器对应的IP地址，根据收到的垃圾邮件和合法邮件来建立邮件服务器的信誉度，并由此来识别垃圾邮件。但由于垃圾邮件发送者可以伪造Received-line的信息，这种方法会造成很大的误判(SMTP Path Analysis.Proceedings of the Second Conference on E-mail and Anti-Spam，2005-ceas.cc)。张尼等提出的一种基于地理路径分析的垃圾邮件行为分析方法，通过分析邮件头中的Received-line字段来描绘邮件传输的路径，并通过地理拓扑来识别垃圾邮件。但这种方法只适用于骨干网络或者边界路由(基于邮件路径地理属性分析的垃圾邮件过滤算法.通信学报，2007.12)。

基于发送方的信誉的分析方法根据分析对象的不同又可以分为基于方送方IP的信誉、发送方域名的信誉，以及邮件指纹的信誉。对于基于IP或域名信誉的方法，垃圾邮件发送者可以伪造IP和域名，或者采用动态的IP来发送邮件，使得追踪真正的源头变得十分困难，很容易造成误判。相比之下，基于邮件指纹信誉的分析方法不用考虑相关的问题，而且对于垃圾邮件的群发识别具有非常好的效果，能够精确的计算出具有相似内容的邮件。Prakash等提出了一种基于信誉的垃圾邮件分析系统的设计思想，通过用户的评价和合作来识别垃圾邮件。文章中根据用户的信誉来区分可信用户和不可信用户，通过可信用户的评价来识别垃圾邮件，并根据用户的评价结果来提高和更新用户自身的信誉，但具体的细节并没有描述(A reputation-based approach for efficient filtration of spam.http://www.cloudmark.com/releases/docs/wp_reputation_filtration_10640406.pdf.)。ZHELEVA等设计了基于信誉评价的垃圾邮件系统，并做了详细的介绍。该方法根据用户的评价更新自身的信誉和邮件指纹的信誉，通过大量用户的评价综合判断邮件的属性。其缺点是恶意用户可以通过大量的正确评价获得很高的信誉，然后在发送垃圾邮件。由于并没有考虑用户之间的联系，这种系统对于含有大量恶意用户的环境下效果并不理想(Trusting spam reporters：A reporter-based reputationsystem for email filtering，ACM Transactions on Information Systems(TOIS)，v.27n.1，p.1-27，December 2008)。

以上的检测方法，或者从邮件本身的特征检测垃圾邮件的性质，或者根据用户对邮件的评价检测垃圾邮件的性质，但并没有考虑到邮件接收者之间的关系。某些邮件对于一些用户是垃圾邮件，对于另外一些用户来说却可能是正常邮件，由于用户不是独立存在的，用户与用户之间存在着一定的联系。因此可以利用用户之间的通信信息，并结合用户的评价，设计有效的过滤方法以及信誉更新策略，来识别垃圾邮件并提高系统的健壮性。

(三)发明内容

本发明的目的在于提供一种有很高的垃圾邮件识别准确率，能较好的识别恶意用户并抵抗恶意用户的干扰的基于用户关系挖掘及信誉评价的垃圾邮件检测装置。本发明的目的还在于提供一种基于用户关系挖掘及信誉评价的垃圾邮件检测装置的检测方法

本发明的目的是这样实现的：

所述的基于用户关系挖掘及信誉评价的垃圾邮件检测装置构成包括：用户关系建模装置、指纹收集装置、路径挖掘装置、邮件评价装置、邮件输出装置、用户评价装置、信誉更新装置；

用户关系建模装置：根据受控网内用户之间的通信关系建立用户关系模型，将受控网内用户通信关系转换为有向图，并用邻接矩阵表示，矩阵中的值代表用户间的通信次数；根据有向图的邻接矩阵，构造无向图的邻接矩阵，代表用户之间联系的紧密程度，矩阵中的值为定值M减去有向图邻接矩阵中对应顶点间通信次数的较小值；则用户之间相互通信的次数越多，有向图邻接矩阵中的对应值越大，无向图邻接矩阵中的对应值越小，用户之间的联系越紧密；反之，用户之间通信次数越少，有向图邻接矩阵中的对应值越小，无向图邻接矩阵中的对应值越大，用户之间联系越稀疏；特别地，如果出现单向通信或未通信过则有向图邻接矩阵中的值为零，无向图邻接矩阵中值为无穷大；当用户的通信关系发生变化时，更新有向图的邻接矩阵，同时触发无向图的邻接矩阵的更新；

指纹收集装置：接收邮件信息后，去除邮件的HTML标记及邮件头部分信息，将邮件正文解析为纯文本信息，采用I-Match方法，计算该邮件的指纹信息，若在指纹信誉库不存在该邮件指纹信息，将指纹信息存入指纹信誉库；

路径挖掘装置：如果收件人的信誉值低于阈值，即收件人为恶意用户，则根据用户评价库查找曾经收到相同邮件指纹的所有用户，根据用户关系模型，计算收件人到每个用户的前K短路径，形成路径集，对该路径集中的路径按权值递增进行排序，按一定比例取前N条路径，作为最终的路径集；如果收件人的信誉值高于阈值，即收件人为可信用户，则根据用户评价库查找曾经收到相同邮件指纹的可信用户，可信用户为用户的信誉值大于一定阈值的用户，得到可信用户集，计算收件人到可信路径集中的每个用户的前K短路径，排除路径上含有不可信用户结点的路径，形成最终可信路径集，对该路径集中的路径按权值递增进行排序，按一定比例取前N条路径，作为最终的路径集；

邮件评价装置：按照如下步骤进行评价：

1)分析路径挖掘装置所述的最终路径集中的每条路径；

2)统计每条路径上的结点用户，以及该结点出现的次数，得到结点用户集以及结点用户出现的总次数；

3)在用户评价库中查询每个结点用户对该邮件指纹的评价值；

4)去除未做出评价的结点用户；

5)如果剩余结点不存在，则邮件的综合评价值为可疑邮件，结束；

6)否则，建立邮件判定记录，将每个结点用户的评价与该结点在路径集中出现次数插入邮件判定记录；

7)将每个结点用户的评价值与该结点用户出现的次数乘积的总和，除以结点用户的出现次数总和，得到该邮件的最终的综合评价值；

8)将综合评价值和邮件判定记录插入邮件判定记录库；

9)将该综合评价值与设定的垃圾邮件阈值相比较；

10)如果综合评价值小于阈值，则判定为垃圾，结束；

11)否则，如果综合评价值大于阈值，则判定为正常，结束；

12)否则，则判定为可疑，结束；

邮件输出装置：按该邮件判定属性的不同进行的邮件输出处理；若判定为垃圾的邮件将投入用户隔离区；若判定为可疑邮件，则设置为监控，投入监控区域，并将邮件转发给用户；否则将邮件转发给用户；

用户评价装置：收集用户的报告信息，作为信誉更新装置的输入，并清除用户反馈界面的相关邮件记录信息；

信誉更新装置：采用如下步骤进行更新：

1)根据收件人对邮件的评价，在邮件判定记录库中查找对应的判定记录；

2)若未查找到，结束更新；

3)否则，若查找到，判断收件人的评价信息与历史评价结果是否相同；

4)若相同，则更新因子为1，否则更新因子为0.5，更新因子是控制用户信誉值和邮件指纹信誉值的更新的幅度；

5)根据收件人对邮件评价结果来升高或降低指纹信誉库中对应的指纹信誉值；

6)读取邮件判定记录库中历史判定记录，提取用户评价及其在记录中出现次数，若收件人与用户的评价相同，提高用户信誉库中的用户信誉值；若收件人与用户的评价不同，降低用户信誉库中的用户信誉值；

7)由于收件人对邮件进行评价，导致收件人用户对该邮件指纹的评价值的改变，更新用户评价库中收件人用户对该邮件指纹的评价。

基于用户关系挖掘及信誉评价的垃圾邮件检测装置的检测方法包括以下步骤：

1)去除邮件的HTML标记邮件头部分信息，将邮件正文解析为纯文本信息，采用I-Match方法，计算该邮件的指纹信息，若该邮件指纹不存在于邮件指纹库，则存入邮件指纹库，并赋信誉初值；若邮件指纹存在，则判断邮件指纹阈值是否小于垃圾邮件指纹阈值，若小于阈值，则邮件判为垃圾邮件，存入用户隔离区，结束邮件分析；再判断邮件指纹阈值是否大于正常邮件指纹阈值，若大于该阈值，则邮件为正常邮件；否则进入下一分析步骤；

2)判断邮件收件人是否为可信，若收件人为可信，则根据用户评价库查找曾经收到相同邮件指纹的可信用户，可信用户为用户的信誉值大于一定阈值，根据用户关系模型挖掘收件人与每个用户间的前K短路径，去除路径上出现不可信用户的路径，对剩余路径进行排序，提取前N短的可信路径，形成可信路径集，作为最终的路径集；若收件人不可信，则根据用户评价库查找曾经收到相同邮件指纹的所有用户，根据用户关系模型挖掘收件人与每个用户间的前K短路径，对所有路径排序，提取前N短的路径，作为最终的路径集；

3)建立邮件判定记录，根据用户评价库计算上述步骤所得的路径集中路径上的每个结点用户对该邮件指纹的评价，统计路径集中所有结点用户出现的次数，求每个结点用户的评价值与该结点用户出现的次数乘积的总和，除以结点用户的出现次数总和，得到该邮件的综合评价值；

4)将该邮件的综合评价值与设定的垃圾邮件阈值、正常邮件阈值比较，小于垃圾邮件阈值的判为垃圾邮件，大于正常邮件阈值的判为正常邮件，介于两者间的判为可疑邮件，同时邮件被设置为监控状态。

本发明的主要技术特征：1)利用用户的通信关系建立用户关系模型；2)采用邮件指纹的策略，将大量相似的邮件映射为相同指纹，且邮件指纹提取是后续步骤的基础；3)依据用户关系模型并采用K短路径挖掘方法，得到收件人到与其联系紧密的用户的路径，形成路径集；4)建立邮件判断记录，根据路径集中用户的历史评价来判断邮件属性；5)更新以收件人对邮件的评价结果为标准，通过比较邮件综合评价值和收件人的评价结果来更新邮件指纹和用户的信誉，信誉更新只发生在用户评价时，并且只更新判定记录中对该邮件评价正确或错误的用户的信誉。

经过大量实验，结果表明，本发明适合于实时、准确的垃圾邮件判定。

本发明的有益效果在于：有很高的垃圾邮件识别准确率，能较好的识别恶意用户并抵抗恶意用户的干扰；可部署在邮件服务器、网关服务器处；可广泛应用于电子邮件过滤技术等应用领域。

(四)附图说明

图1基于用户关系挖掘及信誉评价的垃圾邮件检测装置的结构图

图2实施本发明的典型环境；

图3本发明所述的检测装置的分析流程图；

图4本发明所述的信誉更新流程图；

图5用户信誉走势图；

图6两类邮件指纹信誉走势图；

图7受控网内用户对两类指纹的评价均值；

图8基于用户关系挖掘及信誉评价的垃圾邮件检测装置的判定垃圾邮件的性能图；

图9正常邮件发给两类用户的测试结果图；

图10垃圾邮件发给两类用户的测试结果图；

图11本发明的检测方法与未经过用户关系挖掘的判定结果比较图；

图12表1实施例的各具体技术参数取值；

图13表2参数K对本发明的判定性能的影响。

(五)具体实施方式

下面结合附图举例对本发明做更详细地描述：

图1所示为基于用户关系挖掘及信誉评价的垃圾邮件检测装置结构图，包括

用户关系建模装置：根据受控网内用户之间的通信关系建立用户关系模型，将受控网内用户通信关系转换为无向图，构造出用户关系模型的邻接矩阵，代表用户之间联系的紧密程度。例如受控网内用户通信关系用有向图表示，设U是可控网中用户的集合，E是U中用户边的集合，设G＝(U，E)是有向图，代表用户间的通信关系，则其邻接矩阵表示如下：

A [i, j] = \{\begin{matrix} w_{i, j} & < u_{i}, u_{j} > &Element; E (G) \\ 0 & < u_{i}, u_{j} > &NotElement; E (G) \end{matrix}\}

其中，w_i，j表示从u_i到u_j的通信次数，则w_i，j越大，表明u_i到u_j通信越频繁。如果u_i到u_j存在通信，则为0；

用无向图G₁代表用户之间联系的紧密程度。跟据有向图G的邻接矩阵可得G₁的邻接矩阵表示如下：

其中，M可以取为10000；

如果用户u_i和u_j相互通信的次数越多，其之间的联系越紧密，则B[i，j]越小。反之，用户u_i和u_j相互通信的次数越少，其之间的联系越稀疏。则B[i，j]越大。特别地，如果用户u_i和u_j单向通信或未通信过，则B[i，j]为∞；

指纹收集装置：用于接收邮件信息后，将邮件经过预处理，去除头信息及HTML标记，采用I-Match算法计算邮件的指纹，并将指纹信息存入指纹信誉库；

路径挖掘装置：根据用户评价库在曾经收到过该邮件指纹的用户集中依次提取每个用户，若收件人为可信用户，则在用户集中查找可信用户，形成用户集，否则直接形成用户集；根据用户关系模型，采用Yen算法，挖掘收件人到用户集中每个用户的前K短路径，加入路径集，若收件人为可信用户，则要排除路径集中含有不可信结点的路径；对该路径集中的路径按权值递增进行排序，按一定比例取前N条路径，作为最终的路径集；

邮件评价装置：通过路径集上用户的评价计算得到邮件的综合评价值，来判断邮件属性，并将综合评价值和判定记录存入邮件判定记录库；

邮件输出装置：按该邮件属性的不同进行的邮件输出处理，若识别为垃圾的邮件将投入用户隔离区；若识别为可疑邮件，则设置为监控，投入监控区域，并将邮件转发给用户；否则将邮件转发给用户；

用户评价装置：用于收集用户的报告信息；

信誉更新装置：根据收件人对邮件的评价及邮件判定记录库信息，更新指纹信誉库、用户信誉库、用户评价库；

指纹信誉库：存储邮件指纹信息以及每个邮件指纹的信誉值；

用户信誉库：存储受控网内所有用户的信息以及每个用户的信誉值；

用户评价库：存储受控网内每个用户对其接收到的邮件的指纹的评价值；

邮件判定记录库：存储本装置对每封邮件的综合评价值以及判定记录。

图2展现了本发明的典型应用环境，此时本发明所述基于用户关系挖掘及信誉评价的垃圾邮件检测装置处在网关服务器中。

图3给出了基于用户关系挖掘及信誉评价的垃圾邮件检测方法的原理流程图。

1.邮件指纹提取

去除邮件的HTML标记、邮件头信息，将邮件正文解析为纯文本信息，采用I-Match方法，计算该邮件的指纹信息，若该邮件指纹不存在于邮件指纹库，则存入邮件指纹库，并赋信誉初值，结束邮件分析；若邮件指纹存在，判断邮件指纹阈值是否小于垃圾邮件指纹阈值，若小于阈值，则邮件判为垃圾邮件，存入用户隔离区，结束邮件分析；再判断邮件指纹阈值是否大于正常邮件指纹阈值，若大于该阈值，则邮件为正常邮件，结束邮件分析；否则进入下一分析步骤；

2.挖掘路径集

判断邮件收件人是否为可信，若收件人为可信，则根据用户评价库中查找曾经收到该邮件指纹的可信用户，可信用户为用户的信誉值大于一定阈值，根据用户关系模型挖掘收件人与每个用户间的前K短路径，去除路径上出现不可信用户的路径，对剩余路径进行排序，提取前N短的可信路径，形成可信路径集，做为最终的路径集；

若收件人不可信，则根据根据用户评价库中查找曾经收到相同邮件指纹的所有用户，根据用户关系模型挖掘收件人与每个用户间的前K短路径，对所有路径按权重递增排序，提取前N短的路径，作为最终的路径集；

3.邮件属性判定

建立邮件判定记录，根据用户评价库计算上述步骤所得的路径集中路径上的每个结点用户对该邮件指纹的评价，统计路径集中所有结点用户出现的次数，将用户对指纹的评价和用户出现的次数插入判定记录，求每个结点用户的评价值与该结点用户出现的次数乘积的总和，除以结点用户的出现次数总和，得到该邮件的综合评价值，并将邮件判定记录和综合评价值插入邮件判定记录库；

4.邮件输出处理

将该邮件的综合评价值与设定的垃圾邮件阈值、正常邮件阈值比较，小于垃圾邮件阈值的判为垃圾邮件，大于正常邮件阈值的判为正常邮件，介于两者间的判为可疑邮件，同时设置为监控标志。

图4给出了信誉更新的原理流程图，包括：

1)根据收件人对邮件的评价，在邮件判定记录库中查找，对应的判定记录；2)若未查找到，结束更新；若查找到，判断收件人的评价信息与历史判定结果是否相同；3)若相同，则更新因子为1，否则更新因子为0.5，而更新因子是控制用户信誉值和邮件指纹信誉值的更新的幅度，即收件人的评价信息与历史判定结果相同时，更新相应的信誉值的幅度大些，反之更新信誉值幅度则小些，在一定程度上防止用户的误评价或者恶意用户的恶意行为，大幅度影响相应的用户和邮件指纹的信誉值；4)根据收件人对邮件评价结果来升高或降低邮件指纹库中对应的指纹信誉值；5)读取邮件判定记录库中历史判定记录，提取用户评价及其在记录中出现次数，收件人与用户的评价均一致，提高相应次数的用户信誉值；收件人与用户的评价不一致，则降低相应次数的用户信誉值；6)由于收件人对邮件进行评价，导致用户对该邮件指纹的评价值的改变，则更新用户对邮件指纹的评价。

下面详细描述了本发明的实验例场景，结合本发明的优点，对实施结果进行分析。

为了验证本发明的有效性，以某局域网为实验环境，并搭建了典型的应用环境，实验采用了曙光服务器，操作系统为2.6.18-92.el5的内核linux企业版。实验中采用The TREC 2006 Chinese Public Corpus语料库，其中正常邮件21766封，垃圾邮件42854封。提供了用户评价接口与隔离区管理接口，便于管理用户评价。

网内实际用户数量50个，这些用户都是正常用户，根据这些用户之间的历史通信关系建立用户关系模型，当用户进行评价时，0-47用户模拟正常用户的行为，48-49用户模拟恶意用户的行为，用TREC06C数据集进行训练，产生分词，去除IDF值最小的25％的分词，用于邮件指纹提取步骤。

表1给出了具体的技术参数取值。

首先，得到参数K对本发明判定性能的影响，在K取不同值时，对本发明的判断效果进行统计，实验过程取垃圾邮件样本150封和正常邮件样本150封，得到61个垃圾邮件指纹和150个正常邮件指纹，共循环发送980封垃圾邮件与1500封正常邮件，然后统计一段时间内用户对这些邮件的评价结果。在此基础上，不断的改变K的取值，再次发送相同的邮件集，统计本发明的判定结果及路径挖掘时间。

表2给出了参数K对本发明的判定性能的影响。

实验结果表明：当K越大时，所需要的计算时间越多，这是由于在进行K短路径挖掘时所需要的时间随着K的增大而越来越大。但判断的准确率并没有随着K的增大而逐渐提高，考虑到各种因素取K＝2较为合适。这是由于K越大，路径挖掘得到的路径越多，由于这50个用户之间已有了通信关系模型，恶意用户和正常用户也会有双向通信关系，路径上可能包含恶意用户，如果这些恶意用户的信誉值没有降低到判定用户可信的阈值以下，则这些恶意用户将参与评价该邮件的信誉，故会影响评价的结果，另外由于路径的增加，会导致大量的用户都参与评价该邮件，由于用户自身评价包含误判，会导致一些垃圾邮件的综合评价值不会低于垃圾邮件阈值，而是稍高于垃圾邮件阈值，这样只会被列为可疑邮件。

其次，模拟了现实环境下的邮件流量，来验证本发明的性能和检测结果。实验中发送垃圾邮件样本200封和正常邮件样本200封，得到87个垃圾邮件指纹和200个正常邮件指纹，共循环发送5次。然后用户对这些邮件进行第一次评价，然后在次发送相同数量的样本，发送完成后，进行第二次评价，如此进行，共进行了八次评价，共发送16000封邮件，图5显示了正常用户和恶意用户的信誉走势，图6显示了正常邮件指纹和垃圾邮件指纹的信誉走势，图7显示了所有评价结束后用户对正常邮件指纹和垃圾邮件指纹信誉评价的均值。图8显示了本发明的准确率、召回率。

正常用户的信誉值会不断变高，而恶意用户的信誉值会不断下降，但在达到判定用户是否可信的阈值后基本保持稳定。同时，正常邮件指纹的信誉值会不断升高，而垃圾邮件指纹的信誉值会不断下降，且变化的速度要比正常指纹的要快，这和理论的情况是相同的。从用户对指纹的评价中，也可以清楚的辨别出可信用户和恶意用户的判断行为。而且本发明识别垃圾邮件的准确率和召回率随着发送次数的增多而变化，准确率在不断提高，达到100％后，趋于稳定。召回率由于准确率的升高会略有降低趋势。在图8中并没有对第一次计算的结果记录进行记录，这由于第一次用户评价时不存在历史的评价信息。

再次，为了进一步验证本发明具有识别恶意用户及抵抗恶意用户干扰的功能，我们将内网用户分为两类，正常用户和恶意用户，用户数量各占50％，其中0-24为正常用户，25-49为恶意用户，恶意用户和正常用户的通信关系稀疏，而恶意用户之间组成几个小的用户群，群内部通信关系紧密，而群之间的通信关系稀疏。正常用户之间关系也是如此，并据此建立用户关系模型。共发送50封垃圾邮件和50封正常邮件5次，产生500条记录。在对这些记录进行评价时，正常用户对正常邮件指纹评价为正常，对垃圾邮件指纹评价为垃圾，恶意用户对正常邮件指纹评价为垃圾，垃圾邮件指纹评价为正常。将这50封邮件和50封垃圾邮件分别发送给正常用户和恶意用户。

图9、图10分别给出了正常邮件发给两类用户的测试结果图、垃圾邮件发给两类用户的测试结果图。

结果表明，对于发往正常用户的邮件，本发明有很高的准确率。恶意用户的评价并不会影响本发明对发往正常用户邮件的判断。当邮件发往正常用户时，路径挖掘不会挖掘到恶意用户，这样恶意用户对邮件的评价不会影响到本算法的判断。当邮件发往恶意用户时，路径挖掘只能挖掘到与该恶意用户联系紧密的其它恶意用户，这些恶意用户的评价，其结果可能导致算法对发往该恶意用户的邮件做出错误的判断，但无论判断结果如何，由于邮件是发往恶意用户的，对于正常用户来说并没有影响。当恶意用户评价时，只能提高或者降低与其联系紧密的用户的信誉，由于恶意用户在进行路径挖掘时，一般不会存在正常用户结点，所以恶意用户的评价不会对正常用户的信誉造成影响或者影响很小。

最后，我们比较了本发明与未使用用户关系路径挖掘的判定结果。

图11给出了本发明的检测方法与未经过用户关系挖掘的判定结果比较图。

使用用户关系挖掘对于判断结果的准确性具有很大的提高，在不使用路径挖掘的情况下的判断结果几乎是不正确的。

综上，本发明有很高的垃圾邮件识别准确率，能较好的识别恶意用户并抵抗恶意用户的干扰；可部署在邮件服务器、网关服务器处；可广泛应用于电子邮件过滤技术等应用领域。

Claims

1.一种基于用户关系挖掘及信誉评价的垃圾邮件检测装置，由用户关系建模装置、指纹收集装置、路径挖掘装置、邮件评价装置、邮件输出装置、用户评价装置和信誉更新装置构成，其特征在于：

用户关系建模装置：根据受控网内用户之间的通信关系建立用户关系模型，按照特定方法，构造无向图的邻接矩阵，代表用户之间联系的紧密程度；

指纹收集装置：接收邮件后，将邮件正文预处理，采用I-Match算法计算邮件的指纹，并将指纹信息存入指纹信誉库；

路径挖掘装置：挖掘特定条件的路径，获得最终的路径集；所述的特定条件的路径包括：若收件人为恶意用户，则从用户评价库中提取收到过该邮件指纹的每个用户，根据用户关系模型，挖掘收件人到每个用户的前K短路径，加入路径集；若收件人为可信用户，则从用户评价库中提取收到过该邮件指纹的可信用户，挖掘收件人到每个可信用户的前K短路径，排除路径中含有不可信结点的路径，加入路径集；对路径集中的路径按权值递增进行排序，按一定比例取前N条路径，作为最终的路径集；

邮件评价装置：根据路径挖掘装置获得的路径集，按照特定的策略，判断邮件属性；具体评价方法为：分析路径挖掘装置所述的最终路径集中的每条路径；统计每条路径上的结点用户及其出现次数；在用户评价库中查询每个结点用户对该邮件指纹的评价值，去除未做出评价的结点用户；建立邮件判定记录，根据邮件判定记录求得邮件的综合评价值；将综合评价值和判定记录插入邮件判定记录库，并根据综合评价值判定邮件的性质；

邮件输出装置：根据邮件属性的不同进行邮件的输出处理，若邮件被识别为垃圾的邮件，将该邮件投入用户隔离区；若邮件被识别为可疑邮件，则将该邮件设置为监控，存入监控区域，并将该邮件转发给用户；否则将该邮件转发给用户；

用户评价装置：收集收件人对邮件的评价信息；

信誉更新装置：根据收件人对邮件的评价及邮件判定记录库信息，按照更新策略，更新指纹信誉库、用户信誉库、用户评价库。

2.根据权利要求1所述的基于用户关系挖掘及信誉评价的垃圾邮件检测装置，其特征在于：所述的用户关系建模装置的特定方法为：

根据用户之间通信关系建立有向图，用邻接矩阵表示用户间通信次数，并根据有向图建立无向图的邻接矩阵，表示用户间的联系紧密程度；用户通信关系发生变化时，更新有向图邻接矩阵，同时触发无向图中邻接矩阵的更新。

3.根据权利要求2所述的基于用户关系挖掘及信誉评价的垃圾邮件检测装置，其特征在于：所述的信誉更新装置的更新策略为：

根据收件人对邮件的评价，在邮件判定记录库中查找对应的判定记录；若未查找到，结束更新；若查找到，设置更新因子，并根据收件人对邮件评价结果来升高或降低指纹信誉库中对应的指纹信誉值；读取邮件判定记录库中历史判定记录，比较邮件收件人评价和历史判定记录中用户的评价，更新用户信誉库中对应用户信誉值；更新用户评价库中邮件收件人对该邮件指纹的评价值。

4.基于用户关系挖掘及信誉评价的垃圾邮件检测方法，其特征在于：对于每封邮件的分析经过如下的步骤：

1)邮件预处理，采用I-Match方法，计算该邮件指纹，判断指纹信誉值是否超过邮件指纹阈值的范围，决定是否进行后续处理；

2)根据用户关系模型挖掘收件人与满足特定条件的用户间的特定路径集；具体步骤为：判断邮件收件人是否为可信，若收件人为可信，则根据用户评价库查找曾经收到相同邮件指纹的可信用户，可信用户为用户的信誉值大于一定阈值的用户，根据用户关系模型挖掘收件人与每个可信用户间的前K短路径，去除路径上出现不可信用户的路径，对剩余路径进行排序，提取前N短的可信路径，形成可信路径集，作为最终的路径集；若收件人不可信，则根据用户评价库查找曾经收到相同邮件指纹的所有用户，根据用户关系模型挖掘收件人与每个用户间的前K短路径，对所有路径排序，提取前N短的路径，作为最终的路径集；

3)建立邮件判定记录，根据路径集中用户的评价及用户的出现次数计算得到邮件综合评价值，将综合评价值和判定记录插入邮件判定记录库；

4)根据综合评价值判定邮件属性，并采取相应的处理措施。

5.根据权利要求4所述的基于用户关系挖掘及信誉评价的垃圾邮件检测方法，所述综合评价值和判定记录插入邮件判定记录库的具体步骤为：建立邮件判定记录，根据用户评价库计算上述步骤所得的路径集中路径上的每个结点用户对该邮件指纹的评价，统计路径集中所有结点用户出现的次数，求每个结点用户的评价值与该结点用户出现的次数乘积的总和，除以结点用户的出现次数总和，得到该邮件的综合评价值；

6.根据权利要求5所述的基于用户关系挖掘及信誉评价的垃圾邮件检测方法，其特征在于：所述根据综合评价值判定邮件属性，并采取相应的处理措施的具体方法为：将该邮件的综合评价值与设定的垃圾邮件阈值、正常邮件阈值比较，小于垃圾邮件阈值的判为垃圾邮件，大于正常邮件阈值的判为正常邮件，介于两者间的判为可疑邮件，同时邮件被设置为监控状态。