CN102158428A - 快速高准确率的垃圾邮件过滤方法 - Google Patents

快速高准确率的垃圾邮件过滤方法 Download PDF

Info

Publication number
CN102158428A
CN102158428A CN2011100967745A CN201110096774A CN102158428A CN 102158428 A CN102158428 A CN 102158428A CN 2011100967745 A CN2011100967745 A CN 2011100967745A CN 201110096774 A CN201110096774 A CN 201110096774A CN 102158428 A CN102158428 A CN 102158428A
Authority
CN
China
Prior art keywords
mail
granularity
spam
database
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100967745A
Other languages
English (en)
Other versions
CN102158428B (zh
Inventor
黄力
李瑞娟
孔轶艳
韦彬贵
张爱科
李可长
王慧
张德平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liuzhou Vocational and Technical College
Original Assignee
Liuzhou Vocational and Technical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liuzhou Vocational and Technical College filed Critical Liuzhou Vocational and Technical College
Priority to CN201110096774.5A priority Critical patent/CN102158428B/zh
Publication of CN102158428A publication Critical patent/CN102158428A/zh
Application granted granted Critical
Publication of CN102158428B publication Critical patent/CN102158428B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种快速高准确率的垃圾邮件过滤方法,涉及一种电子邮件的处理方法,该方法是首先对接收到的所有邮件进行预处理,提取邮件的特征信息;然后将该邮件的特征信息与垃圾邮件过滤数据库进行对比,寻找数据库中是否存在与该邮件相同或小于某一阈值的特征相似邮件,若存在则判断该邮件为与现有数据库中邮件雷同的邮件,标记为垃圾邮件,并纪录该垃圾邮件的特征重复出现次数;否则,认为当前邮件为正常邮件,并将邮件的特征信息添加到垃圾邮件过滤信息数据库中;它包括邮件数据接入、邮件预处理、邮件特征的提取、导入权值、检测当前邮件是否为垃圾邮件等步骤。本发明可提高垃圾邮件的识别速度和过滤精度,具有过滤速度快、准确率高、应用场合广等特点。

Description

快速高准确率的垃圾邮件过滤方法
技术领域
本发明涉及一种电子邮件的处理方法,特别是一种快速高准确率的垃圾邮件过滤方法。
背景技术
随着网络电子邮件的日益普及,越来越多的人们利用电子邮件进行信息的传输。然而,大量带有广告性质、政治目的和恶意链接的垃圾邮件数量也在急剧增长。据统计,目前在整个互联网上传递的邮件信息,有超过一半是垃圾邮件。垃圾邮件的泛滥不仅给用户的正常网络应用带来极大的干扰,而且,大量的垃圾邮件也占用了巨大的网络带宽,浪费了网络运行商和网络终端用户大量带宽。目前,针对网络垃圾的过滤已经有不少相关研究,主要分为基于黑白名单的过滤方法、基于规则的过滤方法和基于内容的过滤方法。其中前两种的垃圾邮件过滤方法效率较高,在准确度上欠缺,而第三种垃圾邮件过滤方法引入了决策树方法、粗糙集方法、人工智能方法等等,通过这些方法的应用能够提高垃圾邮件的过滤准确度,但是与此同时,计算复杂度也较高,导致垃圾邮件过滤服务器负荷较重,正常邮件的传输延时大幅增加。而目前垃圾邮件大量存在的现状也说明了当前的垃圾邮件处理策略还需改进。
发明内容
本发明要解决的技术问题是:提供一种快速高准确率的垃圾邮件过滤方法,以解决现有技术中存在的准确度欠缺、垃圾邮件过滤服务器负荷较重、正常邮件的传输延时增加的不足之处。
解决上述技术问题的技术方案是:一种快速高准确率的垃圾邮件过滤方法,该方法是首先对接收到的所有邮件进行预处理,提取邮件的主要特征信息;然后将该邮件的主要特征信息与垃圾邮件过滤数据库进行对比,寻找垃圾邮件过滤数据库中是否存在与该邮件相同或小于某一阈值的特征相似邮件,若存在则判断该邮件为与现有数据库中邮件雷同的邮件,标记为垃圾邮件,并纪录该垃圾邮件的特征重复出现次数;否则,认为当前邮件为正常邮件,并将邮件的特征信息添加到垃圾邮件过滤信息数据库中.
本发明的进一步技术方案是:该方法包括以下主要步骤:
S1、邮件数据接入:接收全部的邮件数据流,从邮件数据流中分离出每一封邮件,记为                                                
Figure 293023DEST_PATH_IMAGE001
S2、邮件预处理:对邮件进行预处理;
S3、邮件特征的提取:
按设定好的邮件特征提取粒度,采用MD5算法计算该粒度下的文本信息特征生成,并将该文本信息特征存储在该邮件的特征信息表
Figure 938768DEST_PATH_IMAGE002
中;所述MD5算法的计算公式为:
Figure 188484DEST_PATH_IMAGE003
,其中MD5表示MD5的HASH运算, Mail_Text表示邮件中的一个特征提取粒度,Pad表示当邮件长度不是512的整数倍时,添加的填充值,以使邮件长度为512的整数倍;
S4、导入权值,修正各个特征值的最终数值:
对特征信息表
Figure 986807DEST_PATH_IMAGE002
中的所有特征信息导入权值λ,进行加权处理,并修正各个特征值的最终数值,所述的权值λ取值范围一般为0~1;
S5、形成带权值的邮件特征信息表:
所述的特征信息表
Figure 358882DEST_PATH_IMAGE002
形成带权值的邮件特征信息表
S6、检测当前邮件是否为垃圾邮件:
将带权值的邮件特征信息表
Figure 358379DEST_PATH_IMAGE004
逐条纪录与垃圾邮件过滤信息数据库对比,寻找当前邮件特征信息表中的特征与垃圾邮件过滤信息数据库中最相似的邮件,并按照邮件相似性决策函数的要求,计算这两封邮件的相似程度,其中Mail1和Mail2表示两封进行相似性对比的邮件文本,
Figure 491868DEST_PATH_IMAGE006
Figure 846626DEST_PATH_IMAGE007
分别表示两封邮件相同的特征数量和所有特征数量,λ表示导入的权值,i表示特征序号;如果计算结果小于预先用户设定的某一阈值
Figure 703724DEST_PATH_IMAGE008
,则判断当前两封邮件是相似的,确定为垃圾邮件,并纪录该垃圾邮件的特征重复出现次数;否则,将当前的邮件作为正常邮件,并把该邮件的特征信息增加到垃圾邮件过滤信息数据库中,所述的
Figure 211060DEST_PATH_IMAGE008
一般取0.2~0.8;
S7、判断邮件是否处理结束:
判断邮件是否处理结束,如果是,则处理结束;如果否,则转回步骤S3继续处理下一封电子邮件,直至所有的电子邮件都过滤完成。
本发明的再进一步技术方案是:所述的步骤S2、邮件预处理包括以下主要内容:
S2.1、邮件数据格式识别:
对每一个
Figure 924938DEST_PATH_IMAGE001
的邮件数据格式进行分析识别;
S2.2、去除邮件头,形成邮件文本信息:
去除邮件头,将剩余的全部信息转换为文本格式的邮件信息;
S2.3、判断邮件文本信息是否大于30KB:
如果邮件文本信息即邮件粒度大于30KB,则按“段”粒度对邮件特征进行提取及处理,即转入步骤S2.4;如果邮件粒度小于或等于30KB,则按“句”粒度对邮件特征进行提取及处理,即转入步骤S2.5;
S2.4、识别邮件中的所有的回车符,将邮件文本信息划分为多个段,再以段为单位对邮件进行特征提取,转入步骤S2.7;
S2.5、排除邮件中易导致误分离的分隔符:
排除英文字符串中的点号,避免文本中字符串自带的点号导致误分离;
S2.6、以剩余的分隔符对邮件文本进行分句:
识别邮件中所有剩余的分隔符,并用该分隔符对邮件文本信息划分为多个完整的句子,再以句为单位对邮件进行特征提取,转入步骤S2.7;
S2.7、输出粒度划分后的邮件文本信息。
本发明的更进一步技术方案是:所述步骤S2.5、排除邮件中易导致误分离的分隔符中,其体的排除方法是:采用白名单加特定规则,所述的白名单是将常用的一些带有点号的字符串作为白名单加入在数据库中,对邮件文本扫描发现白名单中存在的纪录,则不予划分粒度,该白名单数据库可增加;所述的特定规则是:凡是一个大写字母后面跟随的点号,不予划分粒度,该特定规则可以避免对英文中的姓氏进行粒度划分。
由于采用上述技术方案,本发明之快速高准确率的垃圾邮件过滤方法与现有的垃圾邮件过滤方法相比,具有以下有益效果:
1、过滤速度快,准确率高:
由于本发明包括有邮件预处理、邮件特征的提取等主要步骤,其中,在步骤邮件预处理、邮件特征的提取中进行了特殊的技术处理,即是在邮件预处理中,先将邮件去除邮件头,然后按照邮件文本的大小进行粒度划分;在步骤邮件特征的提取中,采用MD5算法计算该粒度下的文本信息特征生成,因此,本发明与现有的垃圾邮件过滤方法相比,大大提高了垃圾邮件的识别速度和过滤精度,其过滤速度快,准确率比较高。
2、计算复杂度小:
本发明的计算复杂度较小,可避免垃圾邮件过滤服务器负荷较重、正常邮件的传输延时大幅增加的不足之处。
3、应用场合广泛:
本发明是针对网络上骨干节点海量信息传输过程中设计的垃圾邮件过滤方法,它的应用场合既可以是骨干路由器节点,也可以是邮件服务器的入口或者是邮件服务器的出口,其应用场合比较广泛。
4、过滤方法简单、便捷。
5、过滤特征值可人工调整,具有较好的灵活性。
下面,结合附图和实施例对本发明之快速高准确率的垃圾邮件过滤方法的技术特征作进一步的说明。
附图说明
图1: 本发明之快速高准确率的垃圾邮件过滤方法的部署方案图;
图2:本发明之快速高准确率的垃圾邮件过滤方法的流程框图;
图3:实施例一所述本发明的邮件预处理的流程框图;
图4:实施例一所述本发明的垃圾邮件过滤数据库中邮件特征信息存储结构图。
具体实施方式
一种快速高准确率的垃圾邮件过滤方法,该方法是首先对接收到的所有邮件进行预处理,提取邮件的主要特征信息;然后将该邮件的主要特征信息与垃圾邮件过滤数据库进行对比,寻找垃圾邮件过滤数据库中是否存在与该邮件相同或小于某一阈值的特征相似邮件,若存在则判断该邮件为与现有数据库中邮件雷同的邮件,标记为垃圾邮件,并纪录该垃圾邮件的特征重复出现次数;否则,认为当前邮件为正常邮件,并将邮件的特征信息添加到垃圾邮件过滤信息数据库中。
本发明是针对网络上骨干节点海量信息传输过程中设计的垃圾邮件过滤方法,其部署方案图如图1所示,该方法应用场合既可以是骨干路由器节点,也可以是邮件服务器的入口或者出口;如果是应用在网络上通用的数据转发服务器上,首先需要邮件数据分离模块对流经该服务器的所有网络数据进行分类,按照邮件协议规范,将所有与邮件无关的数据进行滤除。由于目前垃圾邮件中的广告、恶意链接等信息都是明文传输,因此,本发明设计中不考虑邮件加密问题,也不对加密邮件中的垃圾邮件进行过滤。
本发明的垃圾邮件判断标准:两封电子邮件,分别从中提取能够完全代表该邮件特征的信息,假设用F1和F2分别代表邮件1和邮件2的特征值。如果两封邮件的特征信息完全相同或者,其中
Figure 178513DEST_PATH_IMAGE008
代表用户设定的一个阈值。
所述的邮件预处理方法:邮件预处理过程中主要实现邮件特征提取粒度的分类。邮件粒度选取的大小直接关系到对垃圾邮件的识别精度。对于每一封邮件而言,一般由邮件头、邮件正文、邮件附件三部分组成。邮件头中包括了邮件的收发地址、邮件封装协议等信息,因此大部分邮件的邮件头具有很强的相似性。为了提高垃圾邮件过滤的精确性,邮件预处理过程首先将邮件头去处,只对邮件正文和附件进行特征提取。对于正文和附件的特征提取时,首先将正文与附件转换成二进制文本信息。然后按照文本的大小进行粒度划分,根据大量的统计实验分析,粒度大小设定为30KB垃圾邮件过滤效果最佳。当去除邮件头后的邮件文本尺寸小于或等于30KB时,邮件特征提取的粒度为完整的句子(以文本中的句号、问号、感叹号、点号为分隔符)。如果邮件文本尺寸大于30KB时,以文本中的分段号(以回车符为判断条件)进行粒度划分。粒度划分后,对每一个颗粒度的文本进行特征信息提取,并将提取后的信息作为垃圾邮件过滤的判别素材。
邮件预处理过程中,由于是以中英文标点符号作为分隔符,因此,需要排除一些英文字符串中的“.”号,避免文本中一些字符自带的“.”导致误分离。排除方法是白名单加特定规则。将“e.g.”、“NO.”等作为白名单加入在数据库中,对邮件文本扫描发现白名单中存在的纪录,则不予划分粒度,白名单数据库可增加。特定规则是:凡是一个大写字母后面跟随的点号,不予划分粒度。该规则可以避免对英文中的姓氏进行粒度划分。
邮件特征的提取:邮件特征采用MD5算法从邮件文本中提取信息摘要作为邮件的特征。计算公式为:
Figure 727306DEST_PATH_IMAGE003
,其中Mail_Text表示邮件中的一个特征提取粒度,MD5表示MD5的HASH运算。
邮件特征权值赋值:对邮件中的每一种特征赋予初始权值,在实际的垃圾邮件过滤过程中,根据每一种特征代表的垃圾邮件可能性程度不同,调整其特征的权值。该特征权值在实际应用过程中可以动态调整,通过对该权值的调整,体现邮件不同特征在垃圾邮件过滤过程中的重要程度,邮件特征权值用
Figure 877664DEST_PATH_IMAGE010
表示,该λ取值范围一般为0~1。
邮件相似性的决策函数:
Figure 957747DEST_PATH_IMAGE011
,其中Mail1和Mail2表示两封进行相似性对比的邮件文本。其中的
Figure 218964DEST_PATH_IMAGE006
Figure 622264DEST_PATH_IMAGE007
分别表示两封邮件相同的特征数量和所有特征数量。
因此,本发明之快速高准确率的垃圾邮件过滤方法的具体步骤(参见图2)如下:
S1、邮件数据接入:
从网络骨干节点上接收全部的邮件数据流,按照数据流中的通信协议进行数据分类,将所有属于邮件传输协议的数据分流出来,并进一步分析邮件的传输协议,从邮件数据流中分离出每一封邮件,记为
Figure 694256DEST_PATH_IMAGE001
S2、邮件预处理:对邮件进行预处理;
S3、邮件特征的提取:
按设定好的邮件特征提取粒度,采用MD5算法计算该粒度下的文本信息特征生成,并将该文本信息特征存储在该邮件的特征信息表
Figure 510902DEST_PATH_IMAGE002
中;所述MD5算法为公知的算法,其计算公式为:
Figure 247914DEST_PATH_IMAGE003
,其中MD5表示MD5的HASH运算, Mail_Text表示邮件中的一个特征提取粒度,Pad表示当邮件长度不是512的整数倍时,添加的填充值,以使邮件长度为512的整数倍;
S4、导入权值,修正各个特征值的最终数值:
对特征信息表
Figure 584349DEST_PATH_IMAGE002
中的所有特征信息导入权值λ,进行加权处理,并修正各个特征值的最终数值,所述的权值λ取值范围一般为0~1;
S5、形成带权值的邮件特征信息表:
所述的特征信息表
Figure 14193DEST_PATH_IMAGE002
形成带权值的邮件特征信息表
Figure 52556DEST_PATH_IMAGE004
S6、检测当前邮件是否为垃圾邮件:
将带权值的邮件特征信息表
Figure 406308DEST_PATH_IMAGE004
逐条纪录与垃圾邮件过滤信息数据库对比,寻找当前邮件特征信息表中的特征与垃圾邮件过滤信息数据库中最相似的邮件,并按照邮件相似性决策函数的要求,计算这两封邮件的相似程度,其中Mail1和Mail2表示两封进行相似性对比的邮件文本,
Figure 447262DEST_PATH_IMAGE006
Figure 989233DEST_PATH_IMAGE007
分别表示两封邮件相同的特征数量和所有特征数量,λ表示导入的权值,i表示特征序号;如果计算结果小于预先用户设定的某一阈值
Figure 68048DEST_PATH_IMAGE008
,则判断当前两封邮件是相似的,确定为垃圾邮件,并纪录该垃圾邮件的特征重复出现次数;否则,将当前的邮件作为正常邮件,并把该邮件的特征信息增加到垃圾邮件过滤信息数据库中,所述的
Figure 628342DEST_PATH_IMAGE008
一般取0.2~0.8;
S7、判断邮件是否处理结束:
判断邮件是否处理结束,如果是,则处理结束;如果否,则转回步骤S3继续处理下一封电子邮件,直至所有的电子邮件都过滤完成。
上述的步骤S2、邮件预处理包括以下主要内容(流程框图参见图3):
S2.1、邮件数据格式识别:
对每一个
Figure 935740DEST_PATH_IMAGE001
的邮件数据格式进行分析识别;
S2.2、去除邮件头,形成邮件文本信息:
去除邮件头,将剩余的全部信息转换为文本格式的邮件信息;
S2.3、判断邮件文本信息是否大于30KB:
如果邮件文本信息即邮件粒度大于30KB,则按“段”粒度对邮件特征进行提取及处理,即转入步骤S2.4;如果邮件粒度小于或等于30KB,则按“句”粒度对邮件特征进行提取及处理,即转入步骤S2.5;
S2.4、识别邮件中的所有的回车符,将邮件文本信息划分为多个段,再以段为单位对邮件进行特征提取,转入步骤S2.7;
S2.5、排除邮件中易导致误分离的分隔符:
排除一些英文字符串中的点号,避免文本中一些字符串自带的点号导致误分离,其体的排除方法是:采用白名单加特定规则,所述的白名单是将常用的一些带有点号的字符串如“e.g.”、“NO.”等作为白名单加入在数据库中,对邮件文本扫描发现白名单中存在的纪录,则不予划分粒度,该白名单数据库可增加;所述的特定规则是:凡是一个大写字母后面跟随的点号,不予划分粒度,该特定规则可以避免对英文中的姓氏进行粒度划分;
S2.6、以剩余的分隔符对邮件文本进行分句:
识别邮件中所有剩余的如句号、问号、感叹号、点号等分隔符,并用该分隔符对邮件文本信息划分为多个完整的句子,再以句为单位对邮件进行特征提取,转入步骤S2.7;
S2.7、输出粒度划分后的邮件文本信息。

Claims (4)

1.一种快速高准确率的垃圾邮件过滤方法,其特征在于:该方法是首先对接收到的所有邮件进行预处理,提取邮件的主要特征信息;然后将该邮件的主要特征信息与垃圾邮件过滤数据库进行对比,寻找垃圾邮件过滤数据库中是否存在与该邮件相同或小于某一阈值的特征相似邮件,若存在则判断该邮件为与现有数据库中邮件雷同的邮件,标记为垃圾邮件,并纪录该垃圾邮件的特征重复出现次数;否则,认为当前邮件为正常邮件,并将邮件的特征信息添加到垃圾邮件过滤信息数据库中。
2.根据权利要求1所述的快速高准确率的垃圾邮件过滤方法,其特征在于:该方法包括以下主要步骤:
S1、邮件数据接入:接收全部的邮件数据流,从邮件数据流中分离出每一封邮件,记为                                               
Figure 2011100967745100001DEST_PATH_IMAGE002
S2、邮件预处理:对邮件进行预处理;
S3、邮件特征的提取:
按设定好的邮件特征提取粒度,采用MD5算法计算该粒度下的文本信息特征生成,并将该文本信息特征存储在该邮件的特征信息表
Figure 2011100967745100001DEST_PATH_IMAGE004
中;所述MD5算法的计算公式为:
Figure 2011100967745100001DEST_PATH_IMAGE006
,其中MD5表示MD5的HASH运算, Mail_Text表示邮件中的一个特征提取粒度,Pad表示当邮件长度不是512的整数倍时,添加的填充值,以使邮件长度为512的整数倍; 
S4、导入权值,修正各个特征值的最终数值:
对特征信息表
Figure 887400DEST_PATH_IMAGE004
中的所有特征信息导入权值λ,进行加权处理,并修正各个特征值的最终数值,所述的权值λ取值范围一般为0~1;
S5、形成带权值的邮件特征信息表:
所述的特征信息表
Figure 360363DEST_PATH_IMAGE004
形成带权值的邮件特征信息表
Figure 2011100967745100001DEST_PATH_IMAGE008
S6、检测当前邮件是否为垃圾邮件:
将带权值的邮件特征信息表逐条纪录与垃圾邮件过滤信息数据库对比,寻找当前邮件特征信息表中的特征与垃圾邮件过滤信息数据库中最相似的邮件,并按照邮件相似性决策函数的要求,计算这两封邮件的相似程度,其中Mail1和Mail2表示两封进行相似性对比的邮件文本,
Figure 2011100967745100001DEST_PATH_IMAGE012
Figure 2011100967745100001DEST_PATH_IMAGE014
分别表示两封邮件相同的特征数量和所有特征数量,λ表示导入的权值,i表示特征序号;如果计算结果小于预先用户设定的某一阈值
Figure 2011100967745100001DEST_PATH_IMAGE016
,则判断当前两封邮件是相似的,确定为垃圾邮件,并纪录该垃圾邮件的特征重复出现次数;否则,将当前的邮件作为正常邮件,并把该邮件的特征信息增加到垃圾邮件过滤信息数据库中,所述的
Figure 2011100967745100001DEST_PATH_IMAGE018
一般取0.2~0.8;
S7、判断邮件是否处理结束:
判断邮件是否处理结束,如果是,则处理结束;如果否,则转回步骤S3继续处理下一封电子邮件,直至所有的电子邮件都过滤完成。
3.根据权利要求2所述的快速高准确率的垃圾邮件过滤方法,其特征在于:所述的步骤S2、邮件预处理包括以下主要内容:
S2.1、邮件数据格式识别:
对每一个的邮件数据格式进行分析识别;
S2.2、去除邮件头,形成邮件文本信息:
去除邮件头,将剩余的全部信息转换为文本格式的邮件信息;
S2.3、判断邮件文本信息是否大于30KB:
如果邮件文本信息即邮件粒度大于30KB,则按“段”粒度对邮件特征进行提取及处理,即转入步骤S2.4;如果邮件粒度小于或等于30KB,则按“句”粒度对邮件特征进行提取及处理,即转入步骤S2.5;
S2.4、识别邮件中的所有的回车符,将邮件文本信息划分为多个段,再以段为单位对邮件进行特征提取,转入步骤S2.7;
S2.5、排除邮件中易导致误分离的分隔符:
排除英文字符串中的点号,避免文本中字符串自带的点号导致误分离;
S2.6、以剩余的分隔符对邮件文本进行分句:
识别邮件中所有剩余的分隔符,并用该分隔符对邮件文本信息划分为多个完整的句子,再以句为单位对邮件进行特征提取,转入步骤S2.7;
S2.7、输出粒度划分后的邮件文本信息。
4.根据权利要求3所述的快速高准确率的垃圾邮件过滤方法,其特征在于:所述步骤S2.5、排除邮件中易导致误分离的分隔符中,其体的排除方法是:采用白名单加特定规则,所述的白名单是将常用的一些带有点号的字符串作为白名单加入在数据库中,对邮件文本扫描发现白名单中存在的纪录,则不予划分粒度,该白名单数据库可增加;所述的特定规则是:凡是一个大写字母后面跟随的点号,不予划分粒度,该特定规则可以避免对英文中的姓氏进行粒度划分。
CN201110096774.5A 2011-04-18 2011-04-18 快速高准确率的垃圾邮件过滤方法 Expired - Fee Related CN102158428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110096774.5A CN102158428B (zh) 2011-04-18 2011-04-18 快速高准确率的垃圾邮件过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110096774.5A CN102158428B (zh) 2011-04-18 2011-04-18 快速高准确率的垃圾邮件过滤方法

Publications (2)

Publication Number Publication Date
CN102158428A true CN102158428A (zh) 2011-08-17
CN102158428B CN102158428B (zh) 2014-07-30

Family

ID=44439621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110096774.5A Expired - Fee Related CN102158428B (zh) 2011-04-18 2011-04-18 快速高准确率的垃圾邮件过滤方法

Country Status (1)

Country Link
CN (1) CN102158428B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001849A (zh) * 2011-09-08 2013-03-27 中国电信股份有限公司 反垃圾邮件处理系统及方法
CN103309851A (zh) * 2013-05-10 2013-09-18 微梦创科网络科技(中国)有限公司 短文本的垃圾识别方法及系统
CN103324617A (zh) * 2012-03-20 2013-09-25 腾讯科技(深圳)有限公司 一种历史垃圾消息的识别方法及系统
CN103595583A (zh) * 2013-11-12 2014-02-19 国家电网公司 基于内网新邮件平台的嵌入式邮件安全监控方法
CN103873348A (zh) * 2014-02-14 2014-06-18 新浪网技术(中国)有限公司 电子邮件过滤方法和系统
CN103942282A (zh) * 2014-04-02 2014-07-23 新浪网技术(中国)有限公司 一种样本数据获取方法、装置及系统
CN104038391A (zh) * 2014-07-02 2014-09-10 网易(杭州)网络有限公司 一种垃圾邮件检测的方法和设备
CN105871705A (zh) * 2016-06-07 2016-08-17 北京赛思信安技术股份有限公司 海量电子邮件分析处理过程中的电子邮件内容重复判断的方法
CN106503045A (zh) * 2016-09-21 2017-03-15 联动优势科技有限公司 一种更新模板库的方法及装置
CN103944809B (zh) * 2014-05-06 2017-05-24 厦门大学 一种基于混淆模式识别的垃圾邮件识别方法
CN108199953A (zh) * 2018-01-31 2018-06-22 湖北工业大学 一种垃圾邮件识别方法及系统
CN114745348A (zh) * 2022-05-26 2022-07-12 北京中睿天下信息技术有限公司 一种邮件指纹提取方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1760901A (zh) * 2005-11-03 2006-04-19 上海交通大学 电子邮件过滤系统
CN101540741A (zh) * 2009-05-06 2009-09-23 北京邮电大学 一种基于阈值的图像垃圾邮件过滤方法
CN101795273A (zh) * 2010-01-26 2010-08-04 联想网御科技(北京)有限公司 一种垃圾邮件过滤方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1760901A (zh) * 2005-11-03 2006-04-19 上海交通大学 电子邮件过滤系统
CN101540741A (zh) * 2009-05-06 2009-09-23 北京邮电大学 一种基于阈值的图像垃圾邮件过滤方法
CN101795273A (zh) * 2010-01-26 2010-08-04 联想网御科技(北京)有限公司 一种垃圾邮件过滤方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001849B (zh) * 2011-09-08 2015-11-25 中国电信股份有限公司 反垃圾邮件处理系统及方法
CN103001849A (zh) * 2011-09-08 2013-03-27 中国电信股份有限公司 反垃圾邮件处理系统及方法
CN103324617A (zh) * 2012-03-20 2013-09-25 腾讯科技(深圳)有限公司 一种历史垃圾消息的识别方法及系统
CN103309851A (zh) * 2013-05-10 2013-09-18 微梦创科网络科技(中国)有限公司 短文本的垃圾识别方法及系统
CN103309851B (zh) * 2013-05-10 2016-01-27 微梦创科网络科技(中国)有限公司 短文本的垃圾识别方法及系统
CN103595583B (zh) * 2013-11-12 2017-07-28 国家电网公司 基于内网新邮件平台的嵌入式邮件安全监控方法
CN103595583A (zh) * 2013-11-12 2014-02-19 国家电网公司 基于内网新邮件平台的嵌入式邮件安全监控方法
CN103873348A (zh) * 2014-02-14 2014-06-18 新浪网技术(中国)有限公司 电子邮件过滤方法和系统
CN103942282A (zh) * 2014-04-02 2014-07-23 新浪网技术(中国)有限公司 一种样本数据获取方法、装置及系统
CN103942282B (zh) * 2014-04-02 2018-01-02 新浪网技术(中国)有限公司 一种样本数据获取方法、装置及系统
CN103944809B (zh) * 2014-05-06 2017-05-24 厦门大学 一种基于混淆模式识别的垃圾邮件识别方法
CN104038391B (zh) * 2014-07-02 2017-11-17 网易(杭州)网络有限公司 一种垃圾邮件检测的方法和设备
CN104038391A (zh) * 2014-07-02 2014-09-10 网易(杭州)网络有限公司 一种垃圾邮件检测的方法和设备
CN105871705A (zh) * 2016-06-07 2016-08-17 北京赛思信安技术股份有限公司 海量电子邮件分析处理过程中的电子邮件内容重复判断的方法
CN106503045A (zh) * 2016-09-21 2017-03-15 联动优势科技有限公司 一种更新模板库的方法及装置
CN106503045B (zh) * 2016-09-21 2019-06-18 联动优势科技有限公司 一种更新模板库的方法及装置
CN108199953A (zh) * 2018-01-31 2018-06-22 湖北工业大学 一种垃圾邮件识别方法及系统
CN108199953B (zh) * 2018-01-31 2020-09-29 湖北工业大学 一种垃圾邮件识别方法及系统
CN114745348A (zh) * 2022-05-26 2022-07-12 北京中睿天下信息技术有限公司 一种邮件指纹提取方法及系统

Also Published As

Publication number Publication date
CN102158428B (zh) 2014-07-30

Similar Documents

Publication Publication Date Title
CN102158428B (zh) 快速高准确率的垃圾邮件过滤方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN101408883B (zh) 一种网络舆情观点收集方法
CN110012029B (zh) 一种区分加密和非加密压缩流量的方法和系统
CN103441924B (zh) 一种基于短文本的垃圾邮件过滤方法及装置
US9171070B2 (en) Method for classifying unknown electronic documents based upon at least one classificaton
Mohamad et al. An evaluation on the efficiency of hybrid feature selection in spam email classification
CN103186845A (zh) 一种垃圾邮件过滤方法
CN101159704A (zh) 基于微内容相似度的反垃圾方法
CN101996241A (zh) 一种基于贝叶斯算法的内容过滤方法
CN103136266A (zh) 邮件分类的方法及装置
CN101784022A (zh) 短信过滤、分类方法及系统
CN101540017B (zh) 基于字节级n元文法的特征提取方法及垃圾邮件过滤器
CN113518063A (zh) 基于数据增强和BiLSTM的网络入侵检测方法及系统
CN107294834A (zh) 一种识别垃圾邮件的方法和装置
CN106874448B (zh) 一种从微博中挖掘地震主题词的方法和装置
CN106649338B (zh) 信息过滤策略生成方法及装置
CN102945246A (zh) 网络信息数据的处理方法及装置
Sah et al. An approach for malicious spam detection in email with comparison of different classifiers
CN105989033A (zh) 一种基于资讯指纹的资讯去重方法
CN101329668A (zh) 一种信息规则生成方法及装置、信息类型判断方法及系统
Luo et al. Design and implement a rule-based spam filtering system using neural network
Yin et al. An improved bayesian algorithm for filtering spam e-mail
CN102799666B (zh) 一种基于频繁词集的网络新闻自动文本分类的方法
US20180276459A1 (en) Document Structure Analysis Device with Image Processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Huang Li

Inventor after: Zhang Aike

Inventor after: Luo Haibo

Inventor after: Wei Bingui

Inventor after: Li Ruijuan

Inventor after: Kong Dieyan

Inventor after: Li Jianghong

Inventor after: Ge Xiangyou

Inventor before: Huang Li

Inventor before: Li Ruijuan

Inventor before: Kong Dieyan

Inventor before: Wei Bingui

Inventor before: Zhang Aike

Inventor before: Li Kechang

Inventor before: Wang Hui

Inventor before: Zhang Deping

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: HUANG LI LI RUIJUAN KONG YIYAN WEI BINGUI ZHANG AIKE LI KECHANG WANG HUI ZHANG DEPING TO: HUANG LI ZHANG AIKE LUO HAIBO WEI BINGUI LI RUIJUAN KONG YIYAN LI JIANGHONG GE XIANGYOU

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140730

Termination date: 20150418

EXPY Termination of patent right or utility model