CN102158428A

CN102158428A - 快速高准确率的垃圾邮件过滤方法

Info

Publication number: CN102158428A
Application number: CN2011100967745A
Authority: CN
Inventors: 黄力; 李瑞娟; 孔轶艳; 韦彬贵; 张爱科; 李可长; 王慧; 张德平
Original assignee: Liuzhou Vocational and Technical College
Current assignee: Liuzhou Vocational and Technical College
Priority date: 2011-04-18
Filing date: 2011-04-18
Publication date: 2011-08-17
Anticipated expiration: 2031-04-18
Also published as: CN102158428B

Abstract

一种快速高准确率的垃圾邮件过滤方法，涉及一种电子邮件的处理方法，该方法是首先对接收到的所有邮件进行预处理，提取邮件的特征信息；然后将该邮件的特征信息与垃圾邮件过滤数据库进行对比，寻找数据库中是否存在与该邮件相同或小于某一阈值的特征相似邮件，若存在则判断该邮件为与现有数据库中邮件雷同的邮件，标记为垃圾邮件，并纪录该垃圾邮件的特征重复出现次数；否则，认为当前邮件为正常邮件，并将邮件的特征信息添加到垃圾邮件过滤信息数据库中；它包括邮件数据接入、邮件预处理、邮件特征的提取、导入权值、检测当前邮件是否为垃圾邮件等步骤。本发明可提高垃圾邮件的识别速度和过滤精度，具有过滤速度快、准确率高、应用场合广等特点。

Description

快速高准确率的垃圾邮件过滤方法

技术领域

本发明涉及一种电子邮件的处理方法，特别是一种快速高准确率的垃圾邮件过滤方法。

背景技术

随着网络电子邮件的日益普及，越来越多的人们利用电子邮件进行信息的传输。然而，大量带有广告性质、政治目的和恶意链接的垃圾邮件数量也在急剧增长。据统计，目前在整个互联网上传递的邮件信息，有超过一半是垃圾邮件。垃圾邮件的泛滥不仅给用户的正常网络应用带来极大的干扰，而且，大量的垃圾邮件也占用了巨大的网络带宽，浪费了网络运行商和网络终端用户大量带宽。目前，针对网络垃圾的过滤已经有不少相关研究，主要分为基于黑白名单的过滤方法、基于规则的过滤方法和基于内容的过滤方法。其中前两种的垃圾邮件过滤方法效率较高，在准确度上欠缺，而第三种垃圾邮件过滤方法引入了决策树方法、粗糙集方法、人工智能方法等等，通过这些方法的应用能够提高垃圾邮件的过滤准确度，但是与此同时，计算复杂度也较高，导致垃圾邮件过滤服务器负荷较重，正常邮件的传输延时大幅增加。而目前垃圾邮件大量存在的现状也说明了当前的垃圾邮件处理策略还需改进。

发明内容

本发明要解决的技术问题是：提供一种快速高准确率的垃圾邮件过滤方法，以解决现有技术中存在的准确度欠缺、垃圾邮件过滤服务器负荷较重、正常邮件的传输延时增加的不足之处。

解决上述技术问题的技术方案是：一种快速高准确率的垃圾邮件过滤方法，该方法是首先对接收到的所有邮件进行预处理，提取邮件的主要特征信息；然后将该邮件的主要特征信息与垃圾邮件过滤数据库进行对比，寻找垃圾邮件过滤数据库中是否存在与该邮件相同或小于某一阈值的特征相似邮件，若存在则判断该邮件为与现有数据库中邮件雷同的邮件，标记为垃圾邮件，并纪录该垃圾邮件的特征重复出现次数；否则，认为当前邮件为正常邮件，并将邮件的特征信息添加到垃圾邮件过滤信息数据库中.

本发明的进一步技术方案是：该方法包括以下主要步骤：

S1、邮件数据接入：接收全部的邮件数据流，从邮件数据流中分离出每一封邮件，记为

；

S2、邮件预处理：对邮件进行预处理；

S3、邮件特征的提取：

按设定好的邮件特征提取粒度，采用MD5算法计算该粒度下的文本信息特征生成，并将该文本信息特征存储在该邮件的特征信息表

中；所述MD5算法的计算公式为：

，其中MD5表示MD5的HASH运算， Mail_Text表示邮件中的一个特征提取粒度，Pad表示当邮件长度不是512的整数倍时，添加的填充值，以使邮件长度为512的整数倍；

S4、导入权值，修正各个特征值的最终数值：

对特征信息表

中的所有特征信息导入权值λ，进行加权处理，并修正各个特征值的最终数值，所述的权值λ取值范围一般为0～1；

S5、形成带权值的邮件特征信息表：

所述的特征信息表

形成带权值的邮件特征信息表；

S6、检测当前邮件是否为垃圾邮件：

将带权值的邮件特征信息表

逐条纪录与垃圾邮件过滤信息数据库对比，寻找当前邮件特征信息表中的特征与垃圾邮件过滤信息数据库中最相似的邮件，并按照邮件相似性决策函数的要求，计算这两封邮件的相似程度，其中Mail1和Mail2表示两封进行相似性对比的邮件文本，

和

分别表示两封邮件相同的特征数量和所有特征数量，λ表示导入的权值，i表示特征序号；如果计算结果小于预先用户设定的某一阈值

，则判断当前两封邮件是相似的，确定为垃圾邮件，并纪录该垃圾邮件的特征重复出现次数；否则，将当前的邮件作为正常邮件，并把该邮件的特征信息增加到垃圾邮件过滤信息数据库中，所述的

一般取0.2～0.8；

S7、判断邮件是否处理结束：

判断邮件是否处理结束，如果是，则处理结束；如果否，则转回步骤S3继续处理下一封电子邮件，直至所有的电子邮件都过滤完成。

本发明的再进一步技术方案是：所述的步骤S2、邮件预处理包括以下主要内容：

S2.1、邮件数据格式识别：

对每一个

的邮件数据格式进行分析识别；

S2.2、去除邮件头，形成邮件文本信息：

去除邮件头，将剩余的全部信息转换为文本格式的邮件信息；

S2.3、判断邮件文本信息是否大于30KB：

如果邮件文本信息即邮件粒度大于30KB，则按“段”粒度对邮件特征进行提取及处理，即转入步骤S2.4；如果邮件粒度小于或等于30KB，则按“句”粒度对邮件特征进行提取及处理，即转入步骤S2.5；

S2.4、识别邮件中的所有的回车符，将邮件文本信息划分为多个段，再以段为单位对邮件进行特征提取，转入步骤S2.7；

S2.5、排除邮件中易导致误分离的分隔符：

排除英文字符串中的点号，避免文本中字符串自带的点号导致误分离；

S2.6、以剩余的分隔符对邮件文本进行分句：

识别邮件中所有剩余的分隔符，并用该分隔符对邮件文本信息划分为多个完整的句子，再以句为单位对邮件进行特征提取，转入步骤S2.7；

S2.7、输出粒度划分后的邮件文本信息。

本发明的更进一步技术方案是：所述步骤S2.5、排除邮件中易导致误分离的分隔符中，其体的排除方法是：采用白名单加特定规则，所述的白名单是将常用的一些带有点号的字符串作为白名单加入在数据库中，对邮件文本扫描发现白名单中存在的纪录，则不予划分粒度，该白名单数据库可增加；所述的特定规则是：凡是一个大写字母后面跟随的点号，不予划分粒度，该特定规则可以避免对英文中的姓氏进行粒度划分。

由于采用上述技术方案，本发明之快速高准确率的垃圾邮件过滤方法与现有的垃圾邮件过滤方法相比，具有以下有益效果：

1、过滤速度快，准确率高：

由于本发明包括有邮件预处理、邮件特征的提取等主要步骤，其中，在步骤邮件预处理、邮件特征的提取中进行了特殊的技术处理，即是在邮件预处理中，先将邮件去除邮件头，然后按照邮件文本的大小进行粒度划分；在步骤邮件特征的提取中，采用MD5算法计算该粒度下的文本信息特征生成，因此，本发明与现有的垃圾邮件过滤方法相比，大大提高了垃圾邮件的识别速度和过滤精度，其过滤速度快，准确率比较高。

2、计算复杂度小：

本发明的计算复杂度较小，可避免垃圾邮件过滤服务器负荷较重、正常邮件的传输延时大幅增加的不足之处。

3、应用场合广泛：

本发明是针对网络上骨干节点海量信息传输过程中设计的垃圾邮件过滤方法，它的应用场合既可以是骨干路由器节点，也可以是邮件服务器的入口或者是邮件服务器的出口，其应用场合比较广泛。

4、过滤方法简单、便捷。

5、过滤特征值可人工调整，具有较好的灵活性。

下面，结合附图和实施例对本发明之快速高准确率的垃圾邮件过滤方法的技术特征作进一步的说明。

附图说明

图1：本发明之快速高准确率的垃圾邮件过滤方法的部署方案图；

图2：本发明之快速高准确率的垃圾邮件过滤方法的流程框图；

图3：实施例一所述本发明的邮件预处理的流程框图；

图4：实施例一所述本发明的垃圾邮件过滤数据库中邮件特征信息存储结构图。

具体实施方式

一种快速高准确率的垃圾邮件过滤方法，该方法是首先对接收到的所有邮件进行预处理，提取邮件的主要特征信息；然后将该邮件的主要特征信息与垃圾邮件过滤数据库进行对比，寻找垃圾邮件过滤数据库中是否存在与该邮件相同或小于某一阈值的特征相似邮件，若存在则判断该邮件为与现有数据库中邮件雷同的邮件，标记为垃圾邮件，并纪录该垃圾邮件的特征重复出现次数；否则，认为当前邮件为正常邮件，并将邮件的特征信息添加到垃圾邮件过滤信息数据库中。

本发明是针对网络上骨干节点海量信息传输过程中设计的垃圾邮件过滤方法，其部署方案图如图1所示，该方法应用场合既可以是骨干路由器节点，也可以是邮件服务器的入口或者出口；如果是应用在网络上通用的数据转发服务器上，首先需要邮件数据分离模块对流经该服务器的所有网络数据进行分类，按照邮件协议规范，将所有与邮件无关的数据进行滤除。由于目前垃圾邮件中的广告、恶意链接等信息都是明文传输，因此，本发明设计中不考虑邮件加密问题，也不对加密邮件中的垃圾邮件进行过滤。

本发明的垃圾邮件判断标准：两封电子邮件，分别从中提取能够完全代表该邮件特征的信息，假设用F1和F2分别代表邮件1和邮件2的特征值。如果两封邮件的特征信息完全相同或者，其中

代表用户设定的一个阈值。

所述的邮件预处理方法：邮件预处理过程中主要实现邮件特征提取粒度的分类。邮件粒度选取的大小直接关系到对垃圾邮件的识别精度。对于每一封邮件而言，一般由邮件头、邮件正文、邮件附件三部分组成。邮件头中包括了邮件的收发地址、邮件封装协议等信息，因此大部分邮件的邮件头具有很强的相似性。为了提高垃圾邮件过滤的精确性，邮件预处理过程首先将邮件头去处，只对邮件正文和附件进行特征提取。对于正文和附件的特征提取时，首先将正文与附件转换成二进制文本信息。然后按照文本的大小进行粒度划分，根据大量的统计实验分析，粒度大小设定为30KB垃圾邮件过滤效果最佳。当去除邮件头后的邮件文本尺寸小于或等于30KB时，邮件特征提取的粒度为完整的句子（以文本中的句号、问号、感叹号、点号为分隔符）。如果邮件文本尺寸大于30KB时，以文本中的分段号（以回车符为判断条件）进行粒度划分。粒度划分后，对每一个颗粒度的文本进行特征信息提取，并将提取后的信息作为垃圾邮件过滤的判别素材。

邮件预处理过程中，由于是以中英文标点符号作为分隔符，因此，需要排除一些英文字符串中的“.”号，避免文本中一些字符自带的“.”导致误分离。排除方法是白名单加特定规则。将“e.g.”、“NO.”等作为白名单加入在数据库中，对邮件文本扫描发现白名单中存在的纪录，则不予划分粒度，白名单数据库可增加。特定规则是：凡是一个大写字母后面跟随的点号，不予划分粒度。该规则可以避免对英文中的姓氏进行粒度划分。

邮件特征的提取：邮件特征采用MD5算法从邮件文本中提取信息摘要作为邮件的特征。计算公式为：

，其中Mail_Text表示邮件中的一个特征提取粒度，MD5表示MD5的HASH运算。

邮件特征权值赋值：对邮件中的每一种特征赋予初始权值，在实际的垃圾邮件过滤过程中，根据每一种特征代表的垃圾邮件可能性程度不同，调整其特征的权值。该特征权值在实际应用过程中可以动态调整，通过对该权值的调整，体现邮件不同特征在垃圾邮件过滤过程中的重要程度，邮件特征权值用

表示，该λ取值范围一般为0～1。

邮件相似性的决策函数：

，其中Mail1和Mail2表示两封进行相似性对比的邮件文本。其中的

和

分别表示两封邮件相同的特征数量和所有特征数量。

因此，本发明之快速高准确率的垃圾邮件过滤方法的具体步骤（参见图2）如下：

S1、邮件数据接入：

从网络骨干节点上接收全部的邮件数据流，按照数据流中的通信协议进行数据分类，将所有属于邮件传输协议的数据分流出来，并进一步分析邮件的传输协议，从邮件数据流中分离出每一封邮件，记为

；

S2、邮件预处理：对邮件进行预处理；

S3、邮件特征的提取：

中；所述MD5算法为公知的算法，其计算公式为：

S4、导入权值，修正各个特征值的最终数值：

对特征信息表

S5、形成带权值的邮件特征信息表：

所述的特征信息表

形成带权值的邮件特征信息表

；

S6、检测当前邮件是否为垃圾邮件：

将带权值的邮件特征信息表

和

一般取0.2～0.8；

S7、判断邮件是否处理结束：

上述的步骤S2、邮件预处理包括以下主要内容（流程框图参见图3）：

S2.1、邮件数据格式识别：

对每一个

的邮件数据格式进行分析识别；

S2.2、去除邮件头，形成邮件文本信息：

S2.3、判断邮件文本信息是否大于30KB：

S2.5、排除邮件中易导致误分离的分隔符：

排除一些英文字符串中的点号，避免文本中一些字符串自带的点号导致误分离，其体的排除方法是：采用白名单加特定规则，所述的白名单是将常用的一些带有点号的字符串如“e.g.”、“NO.”等作为白名单加入在数据库中，对邮件文本扫描发现白名单中存在的纪录，则不予划分粒度，该白名单数据库可增加；所述的特定规则是：凡是一个大写字母后面跟随的点号，不予划分粒度，该特定规则可以避免对英文中的姓氏进行粒度划分；

S2.6、以剩余的分隔符对邮件文本进行分句：

识别邮件中所有剩余的如句号、问号、感叹号、点号等分隔符，并用该分隔符对邮件文本信息划分为多个完整的句子，再以句为单位对邮件进行特征提取，转入步骤S2.7；

S2.7、输出粒度划分后的邮件文本信息。

Claims

1.一种快速高准确率的垃圾邮件过滤方法，其特征在于：该方法是首先对接收到的所有邮件进行预处理，提取邮件的主要特征信息；然后将该邮件的主要特征信息与垃圾邮件过滤数据库进行对比，寻找垃圾邮件过滤数据库中是否存在与该邮件相同或小于某一阈值的特征相似邮件，若存在则判断该邮件为与现有数据库中邮件雷同的邮件，标记为垃圾邮件，并纪录该垃圾邮件的特征重复出现次数；否则，认为当前邮件为正常邮件，并将邮件的特征信息添加到垃圾邮件过滤信息数据库中。

2.根据权利要求1所述的快速高准确率的垃圾邮件过滤方法，其特征在于：该方法包括以下主要步骤：

Figure 2011100967745100001DEST_PATH_IMAGE002

；

S2、邮件预处理：对邮件进行预处理；

S3、邮件特征的提取：

Figure 2011100967745100001DEST_PATH_IMAGE004

中；所述MD5算法的计算公式为：

Figure 2011100967745100001DEST_PATH_IMAGE006

S4、导入权值，修正各个特征值的最终数值：

对特征信息表

S5、形成带权值的邮件特征信息表：

所述的特征信息表

形成带权值的邮件特征信息表

Figure 2011100967745100001DEST_PATH_IMAGE008

；

S6、检测当前邮件是否为垃圾邮件：

将带权值的邮件特征信息表逐条纪录与垃圾邮件过滤信息数据库对比，寻找当前邮件特征信息表中的特征与垃圾邮件过滤信息数据库中最相似的邮件，并按照邮件相似性决策函数的要求，计算这两封邮件的相似程度，其中Mail1和Mail2表示两封进行相似性对比的邮件文本，

和

Figure 2011100967745100001DEST_PATH_IMAGE016

Figure 2011100967745100001DEST_PATH_IMAGE018

一般取0.2～0.8；

S7、判断邮件是否处理结束：

3.根据权利要求2所述的快速高准确率的垃圾邮件过滤方法，其特征在于：所述的步骤S2、邮件预处理包括以下主要内容：

S2.1、邮件数据格式识别：

对每一个的邮件数据格式进行分析识别；

S2.2、去除邮件头，形成邮件文本信息：

S2.3、判断邮件文本信息是否大于30KB：

S2.5、排除邮件中易导致误分离的分隔符：

S2.6、以剩余的分隔符对邮件文本进行分句：

S2.7、输出粒度划分后的邮件文本信息。

4.根据权利要求3所述的快速高准确率的垃圾邮件过滤方法，其特征在于：所述步骤S2.5、排除邮件中易导致误分离的分隔符中，其体的排除方法是：采用白名单加特定规则，所述的白名单是将常用的一些带有点号的字符串作为白名单加入在数据库中，对邮件文本扫描发现白名单中存在的纪录，则不予划分粒度，该白名单数据库可增加；所述的特定规则是：凡是一个大写字母后面跟随的点号，不予划分粒度，该特定规则可以避免对英文中的姓氏进行粒度划分。