CN103684991A - 基于邮件特征和内容的垃圾邮件过滤方法 - Google Patents

基于邮件特征和内容的垃圾邮件过滤方法 Download PDF

Info

Publication number
CN103684991A
CN103684991A CN201310683058.6A CN201310683058A CN103684991A CN 103684991 A CN103684991 A CN 103684991A CN 201310683058 A CN201310683058 A CN 201310683058A CN 103684991 A CN103684991 A CN 103684991A
Authority
CN
China
Prior art keywords
mail
token
rubbish
content
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310683058.6A
Other languages
English (en)
Inventor
杨良志
汪志新
丁德平
刘再元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN CITY RICHINFO TECHNOLOGY Co Ltd
Original Assignee
SHENZHEN CITY RICHINFO TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN CITY RICHINFO TECHNOLOGY Co Ltd filed Critical SHENZHEN CITY RICHINFO TECHNOLOGY Co Ltd
Priority to CN201310683058.6A priority Critical patent/CN103684991A/zh
Publication of CN103684991A publication Critical patent/CN103684991A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于特征和内容的垃圾邮件过滤方法,包括步骤:A)、初始化系统及运行前准备;B)、邮件解析,邮件解析方式包括邮件文件加载后解析或通过smtp协议命令方式接收到邮件数据后解析;C)、邮件预处理,主要是对解析后邮件文本先进行预处理,对邮件文本的字符进行转换成为标准字符格式;D)、邮件的特征和内容的token提取;E)、对提取的token进行处理,根据配置指定的贝叶斯计算公式进行计算,最终计算的概率超过阀值,就认为是垃圾邮件,否则是非垃圾。本发明的学习阶段时根据垃圾邮件和非垃圾邮件样本,能够自动智能调整邮件特性,减少了邮件的误判性。

Description

基于邮件特征和内容的垃圾邮件过滤方法
技术领域
本发明属于电子邮件技术领域,尤其是涉及一种基于邮件特征和内容的垃圾邮件过滤方法。
背景技术
随着网络的发展,电子邮件已经成为人们日常生活中不可或缺的通讯方式,电子邮件以其方便快捷的特点受到广大网民的青睐。电子邮件成为人们的主要通讯方式是一种必然的发展趋势,但是随着电子邮件的日益流行,一些不法分子利用这个机会趁机发送垃圾邮件,向人们传递广告、非法视频、垃圾图片、反动言论等信息,既浪费用户的时间,又浪费网络流量,其传播的不良信息也会给社会造成很大的危害,给用户的正常工作、生活、学习带来了极大的不便,因此寻找一种切实可行且高效的反垃圾邮件技术变得尤为重要。针对现有的垃圾邮件过滤器采取的主要技术有IP过滤技术、反向域名解析(SPF)、SMTP频率控制、用户黑白名单、关键字过滤、邮件内容过滤、实时黑名单(RBL)、规则评分等技术,由于这些技术都存有各自的优势和缺陷,无法百分之百的准确判断,因而一种新的拦截技术迫切需要。
发明内容
本发明的目的在于提供一种具有基于邮件特征与邮件内容的贝叶斯概率计算完成垃圾邮件判断,并拥有自动学习能力的基于特征和内容的贝叶斯垃圾邮件过滤方法,克服现有技术存在的缺陷。
本发明采用的技术方案为:
一种基于特征和内容的垃圾邮件过滤方法,包括步骤:
A)、初始化系统及运行前准备;
B)、邮件解析,邮件解析方式包括邮件文件加载后解析或通过smtp协议命令方式接收到邮件数据后解析;
C)、邮件预处理,主要是对解析后邮件文本先进行预处理,对邮件文本的字符进行转换成为标准字符格式;
D)、邮件的特征和内容的token提取;
E)、对提取的token进行处理,根据配置指定的贝叶斯计算公式进行计算,最终计算的概率超过阀值,就认为是垃圾邮件,否则是非垃圾。
初始化系统主要为加载配置文件、学习结果、干扰词等。
对于运行前准备:如果是在线智能学习和评分的可不做任何准备,如果是学习阶段和评分阶段分离开的:学习阶段时需要准备大量的垃圾邮件集和非垃圾邮件集;评分阶段得准备好学习阶段的学习成果。学习阶段的邮件特征和内容提取跟评分阶段的原理一样。
通过配置文件配置学习的概率信息存储方式,是直接开辟内存利用hash方式存储还是指定dbd等数据库方式存储。通过配置文件配置采用哪种贝叶斯计算公式,可配置的有三种:Robinson的简单贝叶斯计算公式、Paul Graham的全概率计算公式、Paul的概率n次方根计算公式。垃圾邮件判定的概率阀值配置,暂命名k。token提取的最大长度,暂命名m。加载干扰词,暂命名n。加载中文词典,暂命名o。加载学习阶段的学习成果-邮件token的概率统计信息,暂命名为t。加载某些邮件头中不需要提取token的字段,暂命名为h。加载限定token长度的字段,暂命名为l。
邮件预处理,主要是对解析后邮件文本先进行预处理,对邮件文本的字符进行转换成为标准字符格式:转换包括转化全角字符、转换WORD文档的特殊字符、大写中文数字转化成小写数字、大写字母转换成小写及类数字、字母符号转化为对应数字、字母,一些特殊的字符要消除,如发*****票这种中间加*做干扰的字符。
邮件的特征和内容的token提取,如邮件头的信息和邮件体中的邮件类型等信息为token,如邮件头中的各个字段对应的信息(A流程中加载的h除外);如需对解析后的邮件体处理,针对邮件体类型有文本、html、gif、png、jpeg多种形式分别进行相应的处理如下:
(1)、如是文本,先经过C流程,然后对文本进行分词处理,由于英文和中文的差别化,对于英文以空格为分隔符直接截断提取为token,对于中文内容,在提取中文token时的最大难点在于它的效率和准确度之间如何权衡,为了提高效率和准确度,本发明采用了高效的逆向匹配的双数组字典查找。当然对于提取到的token并不是全部接纳,因为某些token是常见的,对于这类token采用的查找停用词典n,如果该token是停用词就丢弃,否则就接纳。
(2)、如是html格式,提取html信体的特征,标签里的内容(流程与本过程中的(1)中一样),以及url做token。
(3)、如是gif,png,jpeg图片,提取图片中的长度、宽度、左边距、顶高、像素、以及整个图片内容生成的md5串做token。
(4)、对邮件内容和邮件头中某些信息生成一个唯一的md5串,命名为p。
(5)、以上token的提取,统一会各自在token的前面加上某个前缀进行区分,这样做的好处,可以提高token概率的计算精度,且都会按照A流程加载的token的长度限制l进行筛选。
对提取的token进行处理,学习阶段根据垃圾和非垃圾类型进行分类统计其概率并按配置文件指定的存储方式存储,当然对于重复的邮件,会根据原先生成md5值p查询,会不记录其信息,同时根据其邮件性质会自动调整该邮件是垃圾类型还是非垃圾类型并修正记录。评分阶段根据分词提取出来的token查询配置文件加载的token概率信息t,优先选择15个最有可能的token,根据配置指定的贝叶斯计算公式进行计算,最终计算的概率超过阀值k,就认为是垃圾邮件,否则是非垃圾。
相比于以往的基于内容的垃圾邮件过滤方法,本发明的特性:
1.学习阶段时根据垃圾邮件和非垃圾邮件样本,能够自动智能调整邮件特性,减少了邮件的误判性。
2.在对中文类邮件分词时采用的是双数组词典查找算法,这个算法大大提升了邮件的处理能力。
3.token的提取不单单只针对邮件的文本内容,同时还对邮件的特征和图片(如png,gif,jpeg类图片)做token提取。
4.在各种token的概率计算时,分别加上预定好的前缀做区分,提高了token的概率计算的准确性。
5.系统实现了强大的帮助工具,能完美的实现在人工操作下的全自动化,同时也支持系统在线智能学习。以上特性很好地提高和解决垃圾邮件过滤的能力。
附图说明
图1为本发明的方法流程图。
具体实施方式
如图1所示,本发明涉及一种一种基于特征和内容的贝叶斯垃圾邮件过滤方法,它包括步骤:
A)、初始化系统,主要是加载配置文件、学习结果、干扰词等。
(1)、运行前准备,如果是在线智能学习和评分的可不做任何准备,如果是学习阶段和评分阶段分离开的得注意:学习阶段时需要准备大量的垃圾邮件集和非垃圾邮件集;评分阶段得准备好学习阶段的学习成果。
(2)、通过配置文件配置学习的概率信息存储方式,是直接开辟内存利用hash方式存储还是指定dbd等数据库方式存储。
(3)、通过配置文件配置采用哪种贝叶斯计算公式,可配置的有三种:Robinson的简单贝叶斯计算公式、Paul Graham的全概率计算公式、Paul的概率n次方根计算公式。
(4)、垃圾邮件判定的概率阀值配置,暂命名k。
(5)、token提取的最大长度,暂命名m。
(6)、加载干扰词,暂命名n。
(7)、加载中文词典,暂命名o。
(8)、加载学习阶段的学习成果-邮件token的概率统计信息,暂命名为t。
(9)、加载某些邮件头中不需要提取token的字段,暂命名为h。
(10)、加载限定token长度的字段,暂命名为l。
的,因而统一转向流程B说明。
B)、邮件解析,邮件解析方式包括:邮件文件加载后解析和通过smtp协议命令方式接收到邮件数据后解析,用户可根据实际情况选择接入方式。
C)、邮件预处理,主要是对解析后邮件文本先进行预处理,对邮件文本的字符进行转换成为标准字符格式:转换包括转化全角字符、转换WORD文档的特殊字符、大写中文数字转化成小写数字、大写字母转换成小写及类数字、字母符号转化为对应数字、字母,一些特殊的字符要消除,如发*****票这种中间加*做干扰的字符。
D)、邮件的特征和内容的token提取,如邮件头的信息和邮件体中的邮件类型等信息为token,如邮件头中的各个字段对应的信息(A流程中加载的h除外);如需对解析后的邮件体处理,针对邮件体类型有文本、html、gif、png、jpeg多种形式分别进行相应的处理如下:
(1)、如是文本,先经过C流程,然后对文本进行分词处理,由于英文和中文的差别化,对于英文以空格为分隔符直接截断提取为token,对于中文内容,在提取中文token时的最大难点在于它的效率和准确度之间如何权衡,为了提高效率和准确度,本发明采用了高效的逆向匹配的双数组字典查找。当然对于提取到的token并不是全部接纳,因为某些token是常见的,对于这类token采用的查找停用词典n,如果该token是停用词就丢弃,否则就接纳。
(2)、如是html格式,提取html信体的特征,标签里的内容(流程与本过程中的(1)中一样),以及url做token。
(3)、如是gif,png,jpeg图片,提取图片中的长度、宽度、左边距、顶高、像素、以及整个图片内容生成的md5串做token。
(4)、对邮件内容和邮件头中某些信息生成一个唯一的md5串,命名为p。
(5)、以上token的提取,统一会各自在token的前面加上某个前缀进行区分,
这样做的好处,可以提高token概率的计算精度,且都会按照A流程加载的token的长度限制l进行筛选。
E)、对提取的token进行处理,学习阶段根据垃圾和非垃圾类型进行分类统计其概率并按配置文件指定的存储方式存储,当然对于重复的邮件,会根据原先生成md5值p查询,会不记录其信息,同时根据其邮件性质会自动调整该邮件是垃圾类型还是非垃圾类型并修正记录。评分阶段根据分词提取出来的token查询配置文件加载的token概率信息t,优先选择15个最有可能的token,根据配置指定的贝叶斯计算公式进行计算,最终计算的概率超过阀值k,就认为是垃圾邮件,否则是非垃圾。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种基于特征和内容的垃圾邮件过滤方法,包括步骤: 
A)、初始化系统及运行前准备; 
B)、邮件解析,邮件解析方式包括邮件文件加载后解析或通过smtp协议命令方式接收到邮件数据后解析; 
C)、邮件预处理,主要是对解析后邮件文本先进行预处理,对邮件文本的字符进行转换成为标准字符格式; 
D)、邮件的特征和内容的token提取; 
E)、对提取的token进行处理,根据配置指定的贝叶斯计算公式进行计算,最终计算的概率超过阀值,就认为是垃圾邮件,否则是非垃圾。 
2.如权利要求1所述的基于特征和内容的垃圾邮件过滤方法,其特征是: 
所述初始化系统主要为加载配置文件、学习结果、干扰词; 
所述运行前准备:如果是在线智能学习和评分的可不做任何准备,如果是学习阶段和评分阶段分离开的:学习阶段时需要准备大量的垃圾邮件集和非垃圾邮件集;评分阶段得准备好学习阶段的学习成果。 
3.如权利要求2所述的基于特征和内容的垃圾邮件过滤方法,其特征是:所述学习阶段和评分阶段邮件特征和内容提取的方式为:运行前通过配置文件配置学习的概率信息存储方式,是直接开辟内存利用hash方式存储还是指定dbd等数据库方式存储;通过配置文件配置采用哪种贝叶斯计算公式,可配置的有三种:Robinson的简单贝叶斯计算公式、Paul Graham的全概率计算公式、Paul的概率n次方根计算公式;垃圾邮件判定的概率阀值配置,暂命名k;token提取的最大长度,暂命名m;加载干扰词,暂命名n;加载中文词典,暂命名o;加载学习阶段的学习成果-邮件token的概率统计信息,暂命名为t;加载某些邮件头中不需要提取token的字段,暂命名为h;加载限定token长度的字段,暂命 名为l。 
4.如权利要求1所述的基于特征和内容的垃圾邮件过滤方法,其特征是:对于邮件预处理步骤,主要是对解析后邮件文本先进行预处理,对邮件文本的字符进行转换成为标准字符格式:转换包括转化全角字符、转换WORD文档的特殊字符、大写中文数字转化成小写数字、大写字母转换成小写及类数字、字母符号转化为对应数字、字母,一些特殊的字符的消除。 
5.如权利要求1所述的基于特征和内容的垃圾邮件过滤方法,其特征是:针对邮件体类型有文本、html、gif、png、jpeg多种形式分别进行相应的处理如下: 
(1)、如是文本,先经过C流程,然后对文本进行分词处理,由于英文和中文的差别化,对于英文以空格为分隔符直接截断提取为token,对于中文内容,在提取中文token时的最大难点在于它的效率和准确度之间如何权衡,为了提高效率和准确度,本发明采用了高效的逆向匹配的双数组字典查找;对于提取到的token并不是全部接纳,因为某些token是常见的,对于这类token采用的查找停用词典n,如果该token是停用词就丢弃,否则就接纳; 
(2)、如是html格式,提取html信体的特征,标签里的内容,以及url做token; 
(3)、如是gif,png,jpeg图片,提取图片中的长度、宽度、左边距、顶高、像素、以及整个图片内容生成的md5串做token; 
(4)、对邮件内容和邮件头中某些信息生成一个唯一的md5串,命名为p。 
6.如权利要求5所述的基于特征和内容的垃圾邮件过滤方法,其特征是:对于token的提取,统一各自在token的前面加上某个前缀进行区分。 
7.如权利要求1所述的基于特征和内容的垃圾邮件过滤方法,其特征是:对提取的token进行处理,学习阶段根据垃圾和非垃圾类型进行分类统计其概率 并按配置文件指定的存储方式存储,当然对于重复的邮件,根据原先生成md5值p查询,会不记录其信息,同时根据其邮件性质会自动调整该邮件是垃圾类型还是非垃圾类型并修正记录;评分阶段根据分词提取出来的token查询配置文件加载的token概率信息t,选择最有可能的token,根据配置指定的贝叶斯计算公式进行计算,最终计算的概率超过阀值k,就认为是垃圾邮件,否则是非垃圾。 
CN201310683058.6A 2013-12-12 2013-12-12 基于邮件特征和内容的垃圾邮件过滤方法 Pending CN103684991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310683058.6A CN103684991A (zh) 2013-12-12 2013-12-12 基于邮件特征和内容的垃圾邮件过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310683058.6A CN103684991A (zh) 2013-12-12 2013-12-12 基于邮件特征和内容的垃圾邮件过滤方法

Publications (1)

Publication Number Publication Date
CN103684991A true CN103684991A (zh) 2014-03-26

Family

ID=50321357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310683058.6A Pending CN103684991A (zh) 2013-12-12 2013-12-12 基于邮件特征和内容的垃圾邮件过滤方法

Country Status (1)

Country Link
CN (1) CN103684991A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731772A (zh) * 2015-04-14 2015-06-24 辽宁大学 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法
CN106227808A (zh) * 2016-07-22 2016-12-14 无锡云商通科技有限公司 一种去除邮件干扰信息的方法以及垃圾邮件判定方法
CN109800852A (zh) * 2018-11-29 2019-05-24 电子科技大学 一种多模态的垃圾邮件识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136266A (zh) * 2011-12-01 2013-06-05 中兴通讯股份有限公司 邮件分类的方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136266A (zh) * 2011-12-01 2013-06-05 中兴通讯股份有限公司 邮件分类的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘徐等: "一种web 文本预处理方法", 《中国科技论文在线》 *
王维龙等: "基于语义的两岸物流信息翻译引擎研究与设计", 《信息与电脑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731772A (zh) * 2015-04-14 2015-06-24 辽宁大学 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法
CN104731772B (zh) * 2015-04-14 2017-05-24 辽宁大学 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法
CN106227808A (zh) * 2016-07-22 2016-12-14 无锡云商通科技有限公司 一种去除邮件干扰信息的方法以及垃圾邮件判定方法
CN106227808B (zh) * 2016-07-22 2019-04-05 厦门容能科技有限公司 一种去除邮件干扰信息的方法以及垃圾邮件判定方法
CN109800852A (zh) * 2018-11-29 2019-05-24 电子科技大学 一种多模态的垃圾邮件识别方法

Similar Documents

Publication Publication Date Title
CN111753099B (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
CN103441924B (zh) 一种基于短文本的垃圾邮件过滤方法及装置
Ning et al. Spam message classification based on the Naïve Bayes classification algorithm
JP5759228B2 (ja) 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
US8593673B2 (en) Systems and methods for routing a facsimile confirmation based on content
CN103136266A (zh) 邮件分类的方法及装置
CN102158428B (zh) 快速高准确率的垃圾邮件过滤方法
CN101784022A (zh) 短信过滤、分类方法及系统
CN101257671A (zh) 基于内容的大规模垃圾短信实时过滤方法
CN104216875A (zh) 基于非监督关键二元词串提取的微博文本自动摘要方法
CN101155182A (zh) 一种基于网络的垃圾信息过滤方法和装置
CN104462509A (zh) 垃圾评论检测方法及装置
WO2013097327A1 (zh) 一种垃圾邮件过滤方法
US9201965B1 (en) System and method for providing speech recognition using personal vocabulary in a network environment
MX2011005771A (es) Metodo y dispositivo para interceptar correo basura.
CN107294834A (zh) 一种识别垃圾邮件的方法和装置
CN103995904A (zh) 一种影像档案电子资料的识别系统
CN101794378B (zh) 基于图片编码的垃圾图片过滤方法
CN103684991A (zh) 基于邮件特征和内容的垃圾邮件过滤方法
CN106649338B (zh) 信息过滤策略生成方法及装置
CN115774805A (zh) 一种基于数字化处理的档案智能查询方法及系统
CN101877066A (zh) 一种反图像型垃圾邮件的方法及装置
CN104765784A (zh) 关键词列表维护方法及系统
WO2017094202A1 (ja) 画像処理を応用した文書構造解析装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 4, 01-11 building, 518000 / F, Changhong technology building, 18 South twelve Road, Nanshan District, Guangdong, Shenzhen

Applicant after: Polytron Technologies Inc

Address before: 4, 01-11 building, 518000 / F, Changhong technology building, 18 South twelve Road, Nanshan District, Guangdong, Shenzhen

Applicant before: Shenzhen City Richinfo Technology Co., Ltd.

COR Change of bibliographic data
RJ01 Rejection of invention patent application after publication

Application publication date: 20140326

RJ01 Rejection of invention patent application after publication