CN103684991A

CN103684991A - 基于邮件特征和内容的垃圾邮件过滤方法

Info

Publication number: CN103684991A
Application number: CN201310683058.6A
Authority: CN
Inventors: 杨良志; 汪志新; 丁德平; 刘再元
Original assignee: SHENZHEN CITY RICHINFO TECHNOLOGY Co Ltd
Current assignee: SHENZHEN CITY RICHINFO TECHNOLOGY Co Ltd
Priority date: 2013-12-12
Filing date: 2013-12-12
Publication date: 2014-03-26

Abstract

本发明公开了一种基于特征和内容的垃圾邮件过滤方法，包括步骤：A)、初始化系统及运行前准备；B）、邮件解析，邮件解析方式包括邮件文件加载后解析或通过smtp协议命令方式接收到邮件数据后解析；C）、邮件预处理，主要是对解析后邮件文本先进行预处理，对邮件文本的字符进行转换成为标准字符格式；D)、邮件的特征和内容的token提取；E)、对提取的token进行处理，根据配置指定的贝叶斯计算公式进行计算，最终计算的概率超过阀值，就认为是垃圾邮件，否则是非垃圾。本发明的学习阶段时根据垃圾邮件和非垃圾邮件样本，能够自动智能调整邮件特性，减少了邮件的误判性。

Description

基于邮件特征和内容的垃圾邮件过滤方法

技术领域

本发明属于电子邮件技术领域，尤其是涉及一种基于邮件特征和内容的垃圾邮件过滤方法。

背景技术

随着网络的发展,电子邮件已经成为人们日常生活中不可或缺的通讯方式,电子邮件以其方便快捷的特点受到广大网民的青睐。电子邮件成为人们的主要通讯方式是一种必然的发展趋势,但是随着电子邮件的日益流行,一些不法分子利用这个机会趁机发送垃圾邮件,向人们传递广告、非法视频、垃圾图片、反动言论等信息,既浪费用户的时间,又浪费网络流量,其传播的不良信息也会给社会造成很大的危害,给用户的正常工作、生活、学习带来了极大的不便,因此寻找一种切实可行且高效的反垃圾邮件技术变得尤为重要。针对现有的垃圾邮件过滤器采取的主要技术有IP过滤技术、反向域名解析（SPF）、SMTP频率控制、用户黑白名单、关键字过滤、邮件内容过滤、实时黑名单（RBL）、规则评分等技术，由于这些技术都存有各自的优势和缺陷，无法百分之百的准确判断，因而一种新的拦截技术迫切需要。

发明内容

本发明的目的在于提供一种具有基于邮件特征与邮件内容的贝叶斯概率计算完成垃圾邮件判断，并拥有自动学习能力的基于特征和内容的贝叶斯垃圾邮件过滤方法，克服现有技术存在的缺陷。

本发明采用的技术方案为：

一种基于特征和内容的垃圾邮件过滤方法，包括步骤：

A)、初始化系统及运行前准备；

B）、邮件解析，邮件解析方式包括邮件文件加载后解析或通过smtp协议命令方式接收到邮件数据后解析；

C）、邮件预处理，主要是对解析后邮件文本先进行预处理，对邮件文本的字符进行转换成为标准字符格式；

D)、邮件的特征和内容的token提取；

E)、对提取的token进行处理，根据配置指定的贝叶斯计算公式进行计算，最终计算的概率超过阀值，就认为是垃圾邮件，否则是非垃圾。

初始化系统主要为加载配置文件、学习结果、干扰词等。

对于运行前准备：如果是在线智能学习和评分的可不做任何准备，如果是学习阶段和评分阶段分离开的：学习阶段时需要准备大量的垃圾邮件集和非垃圾邮件集；评分阶段得准备好学习阶段的学习成果。学习阶段的邮件特征和内容提取跟评分阶段的原理一样。

通过配置文件配置学习的概率信息存储方式，是直接开辟内存利用hash方式存储还是指定dbd等数据库方式存储。通过配置文件配置采用哪种贝叶斯计算公式，可配置的有三种：Robinson的简单贝叶斯计算公式、Paul Graham的全概率计算公式、Paul的概率n次方根计算公式。垃圾邮件判定的概率阀值配置，暂命名k。token提取的最大长度,暂命名m。加载干扰词，暂命名n。加载中文词典，暂命名o。加载学习阶段的学习成果-邮件token的概率统计信息，暂命名为t。加载某些邮件头中不需要提取token的字段，暂命名为h。加载限定token长度的字段，暂命名为l。

邮件预处理，主要是对解析后邮件文本先进行预处理，对邮件文本的字符进行转换成为标准字符格式：转换包括转化全角字符、转换WORD文档的特殊字符、大写中文数字转化成小写数字、大写字母转换成小写及类数字、字母符号转化为对应数字、字母,一些特殊的字符要消除，如发*****票这种中间加*做干扰的字符。

邮件的特征和内容的token提取,如邮件头的信息和邮件体中的邮件类型等信息为token，如邮件头中的各个字段对应的信息(A流程中加载的h除外)；如需对解析后的邮件体处理，针对邮件体类型有文本、html、gif、png、jpeg多种形式分别进行相应的处理如下：

（1）、如是文本，先经过C流程，然后对文本进行分词处理，由于英文和中文的差别化，对于英文以空格为分隔符直接截断提取为token,对于中文内容，在提取中文token时的最大难点在于它的效率和准确度之间如何权衡，为了提高效率和准确度，本发明采用了高效的逆向匹配的双数组字典查找。当然对于提取到的token并不是全部接纳，因为某些token是常见的，对于这类token采用的查找停用词典n,如果该token是停用词就丢弃，否则就接纳。

（2）、如是html格式，提取html信体的特征,标签里的内容(流程与本过程中的（1）中一样),以及url做token。

（3）、如是gif，png,jpeg图片，提取图片中的长度、宽度、左边距、顶高、像素、以及整个图片内容生成的md5串做token。

（4）、对邮件内容和邮件头中某些信息生成一个唯一的md5串，命名为p。

（5）、以上token的提取，统一会各自在token的前面加上某个前缀进行区分，这样做的好处，可以提高token概率的计算精度，且都会按照A流程加载的token的长度限制l进行筛选。

对提取的token进行处理，学习阶段根据垃圾和非垃圾类型进行分类统计其概率并按配置文件指定的存储方式存储，当然对于重复的邮件，会根据原先生成md5值p查询，会不记录其信息，同时根据其邮件性质会自动调整该邮件是垃圾类型还是非垃圾类型并修正记录。评分阶段根据分词提取出来的token查询配置文件加载的token概率信息t，优先选择15个最有可能的token，根据配置指定的贝叶斯计算公式进行计算，最终计算的概率超过阀值k,就认为是垃圾邮件，否则是非垃圾。

相比于以往的基于内容的垃圾邮件过滤方法，本发明的特性：

1.学习阶段时根据垃圾邮件和非垃圾邮件样本，能够自动智能调整邮件特性，减少了邮件的误判性。

2.在对中文类邮件分词时采用的是双数组词典查找算法，这个算法大大提升了邮件的处理能力。

3.token的提取不单单只针对邮件的文本内容，同时还对邮件的特征和图片（如png,gif,jpeg类图片）做token提取。

4.在各种token的概率计算时，分别加上预定好的前缀做区分，提高了token的概率计算的准确性。

5.系统实现了强大的帮助工具，能完美的实现在人工操作下的全自动化，同时也支持系统在线智能学习。以上特性很好地提高和解决垃圾邮件过滤的能力。

附图说明

图1为本发明的方法流程图。

具体实施方式

如图1所示，本发明涉及一种一种基于特征和内容的贝叶斯垃圾邮件过滤方法，它包括步骤：

A)、初始化系统,主要是加载配置文件、学习结果、干扰词等。

(1)、运行前准备，如果是在线智能学习和评分的可不做任何准备，如果是学习阶段和评分阶段分离开的得注意：学习阶段时需要准备大量的垃圾邮件集和非垃圾邮件集；评分阶段得准备好学习阶段的学习成果。

（2）、通过配置文件配置学习的概率信息存储方式，是直接开辟内存利用hash方式存储还是指定dbd等数据库方式存储。

（3）、通过配置文件配置采用哪种贝叶斯计算公式，可配置的有三种：Robinson的简单贝叶斯计算公式、Paul Graham的全概率计算公式、Paul的概率n次方根计算公式。

（4）、垃圾邮件判定的概率阀值配置，暂命名k。

（5）、token提取的最大长度,暂命名m。

（6）、加载干扰词，暂命名n。

（7）、加载中文词典，暂命名o。

（8）、加载学习阶段的学习成果-邮件token的概率统计信息，暂命名为t。

（9）、加载某些邮件头中不需要提取token的字段，暂命名为h。

（10）、加载限定token长度的字段，暂命名为l。

的，因而统一转向流程B说明。

B）、邮件解析，邮件解析方式包括：邮件文件加载后解析和通过smtp协议命令方式接收到邮件数据后解析,用户可根据实际情况选择接入方式。

C）、邮件预处理，主要是对解析后邮件文本先进行预处理，对邮件文本的字符进行转换成为标准字符格式：转换包括转化全角字符、转换WORD文档的特殊字符、大写中文数字转化成小写数字、大写字母转换成小写及类数字、字母符号转化为对应数字、字母,一些特殊的字符要消除，如发*****票这种中间加*做干扰的字符。

D)、邮件的特征和内容的token提取,如邮件头的信息和邮件体中的邮件类型等信息为token，如邮件头中的各个字段对应的信息(A流程中加载的h除外)；如需对解析后的邮件体处理，针对邮件体类型有文本、html、gif、png、jpeg多种形式分别进行相应的处理如下：

（5）、以上token的提取，统一会各自在token的前面加上某个前缀进行区分，

这样做的好处，可以提高token概率的计算精度，且都会按照A流程加载的token的长度限制l进行筛选。

E)、对提取的token进行处理，学习阶段根据垃圾和非垃圾类型进行分类统计其概率并按配置文件指定的存储方式存储，当然对于重复的邮件，会根据原先生成md5值p查询，会不记录其信息，同时根据其邮件性质会自动调整该邮件是垃圾类型还是非垃圾类型并修正记录。评分阶段根据分词提取出来的token查询配置文件加载的token概率信息t，优先选择15个最有可能的token，根据配置指定的贝叶斯计算公式进行计算，最终计算的概率超过阀值k,就认为是垃圾邮件，否则是非垃圾。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于特征和内容的垃圾邮件过滤方法，包括步骤：

A)、初始化系统及运行前准备；

D)、邮件的特征和内容的token提取；

2.如权利要求1所述的基于特征和内容的垃圾邮件过滤方法，其特征是：

所述初始化系统主要为加载配置文件、学习结果、干扰词；

所述运行前准备：如果是在线智能学习和评分的可不做任何准备，如果是学习阶段和评分阶段分离开的：学习阶段时需要准备大量的垃圾邮件集和非垃圾邮件集；评分阶段得准备好学习阶段的学习成果。

3.如权利要求2所述的基于特征和内容的垃圾邮件过滤方法，其特征是：所述学习阶段和评分阶段邮件特征和内容提取的方式为：运行前通过配置文件配置学习的概率信息存储方式，是直接开辟内存利用hash方式存储还是指定dbd等数据库方式存储；通过配置文件配置采用哪种贝叶斯计算公式，可配置的有三种：Robinson的简单贝叶斯计算公式、Paul Graham的全概率计算公式、Paul的概率n次方根计算公式；垃圾邮件判定的概率阀值配置，暂命名k；token提取的最大长度,暂命名m；加载干扰词，暂命名n；加载中文词典，暂命名o；加载学习阶段的学习成果-邮件token的概率统计信息，暂命名为t；加载某些邮件头中不需要提取token的字段，暂命名为h；加载限定token长度的字段，暂命名为l。

4.如权利要求1所述的基于特征和内容的垃圾邮件过滤方法，其特征是：对于邮件预处理步骤，主要是对解析后邮件文本先进行预处理，对邮件文本的字符进行转换成为标准字符格式：转换包括转化全角字符、转换WORD文档的特殊字符、大写中文数字转化成小写数字、大写字母转换成小写及类数字、字母符号转化为对应数字、字母，一些特殊的字符的消除。

5.如权利要求1所述的基于特征和内容的垃圾邮件过滤方法，其特征是：针对邮件体类型有文本、html、gif、png、jpeg多种形式分别进行相应的处理如下：

（1）、如是文本，先经过C流程，然后对文本进行分词处理，由于英文和中文的差别化，对于英文以空格为分隔符直接截断提取为token，对于中文内容，在提取中文token时的最大难点在于它的效率和准确度之间如何权衡，为了提高效率和准确度，本发明采用了高效的逆向匹配的双数组字典查找；对于提取到的token并不是全部接纳，因为某些token是常见的，对于这类token采用的查找停用词典n,如果该token是停用词就丢弃，否则就接纳；

（2）、如是html格式，提取html信体的特征,标签里的内容，以及url做token；

（3）、如是gif，png,jpeg图片，提取图片中的长度、宽度、左边距、顶高、像素、以及整个图片内容生成的md5串做token；

6.如权利要求5所述的基于特征和内容的垃圾邮件过滤方法，其特征是：对于token的提取，统一各自在token的前面加上某个前缀进行区分。

7.如权利要求1所述的基于特征和内容的垃圾邮件过滤方法，其特征是：对提取的token进行处理，学习阶段根据垃圾和非垃圾类型进行分类统计其概率并按配置文件指定的存储方式存储，当然对于重复的邮件，根据原先生成md5值p查询，会不记录其信息，同时根据其邮件性质会自动调整该邮件是垃圾类型还是非垃圾类型并修正记录；评分阶段根据分词提取出来的token查询配置文件加载的token概率信息t，选择最有可能的token，根据配置指定的贝叶斯计算公式进行计算，最终计算的概率超过阀值k，就认为是垃圾邮件，否则是非垃圾。