CN101136874A - 基于综合决策的防垃圾邮件误过滤方法及系统 - Google Patents
基于综合决策的防垃圾邮件误过滤方法及系统 Download PDFInfo
- Publication number
- CN101136874A CN101136874A CNA2007100293695A CN200710029369A CN101136874A CN 101136874 A CN101136874 A CN 101136874A CN A2007100293695 A CNA2007100293695 A CN A2007100293695A CN 200710029369 A CN200710029369 A CN 200710029369A CN 101136874 A CN101136874 A CN 101136874A
- Authority
- CN
- China
- Prior art keywords
- spam
- rule
- filtering rule
- filtering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供基于综合决策的防垃圾邮件误过滤方法,步骤包括:建立过滤规则、规则评分定义库、垃圾邮件阈值库,建立垃圾邮件决策评判系统;邮件从本地客户端发出,进入第1个过滤规则进行匹配处理后得到一个评分,转入垃圾邮件决策评判系统,垃圾邮件决策评判系统对过滤规则的评分进行累计得到总评分,并和垃圾邮件阈值库中设定的垃圾邮件评分阈值进行比较,如果总评分高于垃圾邮件阈值判定为垃圾邮件,低于垃圾邮件阈值转到下一过滤规则继续进行匹配处理,如此反复直到n个过滤规则全部匹配完成,如果总评分仍低于垃圾邮件阈值则为正常邮件。本发明改变依赖单一规则直接评判垃圾邮件的弊端,最大程度避免误过滤。
Description
技术领域
本发明涉及互联网垃圾邮件过滤技术,具体是指基于综合决策的防垃圾邮件误过滤方法及系统。
背景技术
随着INTERNET国际互联网在全球的普及,网络应用已经进入人们的生活,并发挥着越来越大的作用。互联网络的迅速发展在给我们带来有利一面的同时,也为各种不法分子提供了新的犯罪技术手段和空间,一些不法分子利用互联网进行各种违法犯罪活动,网上各种反动、淫秽、色情、迷信、暴力等有害信息大量传播,境内外敌对势力也利用互联网进行渗透、煽动、破坏活动情况严重,已经危及国家安全和社会稳定,危害社会主义精神文明建设和互联网的健康发展。垃圾邮件,诸如反动、色情、商业等内容,已成为互联网的一大公害。垃圾邮件已经是中国互连网的一个毒瘤。中国已经稳居第二大垃圾邮件发送国的位置。垃圾邮件已经成为中国在互联网领域重点整治的对象。
过滤技术是反垃圾邮件用到的主要技术。针对不同类型的垃圾邮件,产生了几十种垃圾邮件过滤技术,他们从不同的角度对邮件进行严格检查,从而识别是否属于垃圾邮件。目前通常采用基于单一规则过滤的垃圾邮件过滤系统,如符合某一规则就判定为垃圾邮件,都不符合则为正常邮件。
关键字匹配过滤可以根据主题、正文、附件等是否含有设定的关键字加以过滤;黑名单过滤可以根据发件人的IP或地址是否在设定的黑名单中加以过滤。但如果仅仅依靠每个规则单独匹配过滤势必会产生较大的误过滤。如在所有的邮件过滤系统中均有关键字“法轮功”匹配过滤,但公安部门发送“打击法轮功”的通知及个人简历中含有“从未参加过法轮功等反动组织”等邮件均符合关键字过滤规则而被当作垃圾邮件。所以单一规则匹配过滤有较大的局限性,误过滤不可难免。为了有效解决这个问题,需要改变这种依靠单一规则进行过滤的策略,需要将邮件来匹配多个过滤规则,依据规则符合的多少和权重来裁决是否属于垃圾邮件。这样可以最大程度避免误过滤的发生。
发明内容
本发明的目的在于克服上述现有技术的缺点和不足,提供基于综合决策的防垃圾邮件误过滤方法,其可以改变依赖单一规则评判垃圾邮件的弊端,最大程度避免误过滤。
本发明的目的还在于提供实现上述基于综合决策的防垃圾邮件误过滤方法的系统。
本发明的目的通过下述技术方案实现:本基于综合决策的防垃圾邮件误过滤方法,包括以下步骤:
(1)建立过滤规则、规则评分定义库、垃圾邮件阈值库,所述规则评分定义库根据属于垃圾邮件的可能性对每一个过滤规则建立一个评分;垃圾邮件阈值库用于存放判定垃圾邮件的评分阈值;
(2)建立垃圾邮件决策评判系统,所述垃圾邮件决策评判系统用于由过滤规则匹配处理后邮件所得总评分与设定的垃圾邮件阈值之间的比较,并做出是否为垃圾邮件的判断;
(3)邮件从本地客户端发出,进入第1个过滤规则进行匹配处理后得到一个评分,转入垃圾邮件决策评判系统,垃圾邮件决策评判系统对过滤规则的评分进行累计得到总评分,并和垃圾邮件阈值库中设定的垃圾邮件评分阈值进行比较,如果总评分高于垃圾邮件阈值判定为垃圾邮件,低于垃圾邮件阈值转到下一过滤规则继续进行匹配处理,如此反复直到n个过滤规则全部匹配完成,如果总评分仍低于垃圾邮件阈值则为正常邮件。
为了更好地实现本发明,所述过滤规则包括全文匹配邮件数超过阈值过滤规则、特定关键字过滤规则、含有URL链接过滤规则、含有图片过滤规则、非中文邮件过滤规则;所述特定关键字包括“法轮功”、“推销”等。
所述各过滤规则的评分采用数据库进行存放,用户可以灵活添加、设置和调整规则的评分,这样可以动态适应垃圾邮件的变化。
所述各过滤规则按照0到10分来进行评分,分数越高表示是垃圾邮件的概率越大,分数越低表示是正常邮件的概率越大。
所述垃圾邮件阈值库的阈值可进行扩充,可以定义多个阈值,如可设定垃圾邮件阈值、可疑邮件的阈值,对超过垃圾邮件阈值的邮件判定为垃圾邮件,对超过可疑邮件阈值又小于垃圾邮件阈值的邮件判定为可疑邮件。
本基于综合决策的防垃圾邮件误过滤系统,其通过网络分别与本地客户端、本地邮件服务器连接,其特征在于:包括规则评分定义库、垃圾邮件阈值库、垃圾邮件决策评判系统及n个过滤规则模块,第1个过滤规则模块通过网络与本地客户端连接,第1个到第n个过滤规则模块依次连接,第n个过滤规则模块通过网络与本地邮件服务器连接,且各个过滤规则模块分别与规则评分定义库、垃圾邮件阈值库、垃圾邮件决策评判系统连接。
所述过滤规则模块包括全文匹配邮件数超过阈值过滤规则模块、特定关键字过滤规则模块、含有URL链接过滤规则模块、含有图片过滤规则模块、非中文邮件过滤规则模块;所述特定关键字过滤规则模块包括“法轮功”关键字过滤规则模块、“推销”关键字过滤规则模块等。
本发明与现有技术相比,具有如下优点和有益效果:改变单一规则直接评判垃圾邮件的策略,将邮件和多个过滤规则匹配,依据规则符合的多少和权重来综合评判是否属于垃圾邮件,这样可以最大程度避免误过滤的发生。操作灵活性强,用户可以灵活添加、设置和调整规则的评分,这样可以动态适应垃圾邮件的变化。
附图说明
图1是现有的基于单一规则过滤的垃圾邮件过滤系统结构示意图;
图2是本发明基于综合评分决策的垃圾邮件过滤系统结构示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例一
如图2所示,本基于综合决策的防垃圾邮件误过滤系统,其通过网络分别与本地客户端、本地邮件服务器连接,包括规则评分定义库、垃圾邮件阈值库、垃圾邮件决策评判系统及n个过滤规则模块,第1个过滤规则模块通过网络与本地客户端连接,第1个到第n个过滤规则模块依次连接,第n个过滤规则模块通过网与本地邮件服务器连接,且各个过滤规则模块分别与规则评分定义库、垃圾邮件阈值库、垃圾邮件决策评判系统连接。
所述过滤规则模块包括全文匹配邮件数超过阈值过滤规则模块、特定关键字过滤规则模块、含有URL链接过滤规则模块、含有图片过滤规则模块、非中文邮件过滤规则模块;所述特定关键字过滤规则模块包括“法轮功”关键字过滤规则模块、“推销”关键字过滤规则模块等。
如图2所示,本基于综合决策的防垃圾邮件误过滤系统的工作过程如下:
(1)建立过滤规则、规则评分定义库、垃圾邮件阈值库,所述规则评分定义库根据属于垃圾邮件的可能性对每一个过滤规则建立一个评分;垃圾邮件阈值库用于存放判定垃圾邮件的评分阈值;
(2)建立垃圾邮件决策评判系统,所述垃圾邮件决策评判系统用于由过滤规则匹配处理后邮件所得总评分与设定的垃圾邮件阈值之间的比较,并做出是否为垃圾邮件的判断;
(3)邮件从本地客户端发出,进入第1个过滤规则进行匹配处理后得到一个评分,转入垃圾邮件决策评判系统,垃圾邮件决策评判系统对过滤规则的评分进行累计得到总评分,并将总评分Y(Y=f1+f2+f3+……+fn,其中:fi为过滤规则i的评分)和垃圾邮件阈值库中设定的垃圾邮件评分阈值进行比较,如果总评分高于垃圾邮件阈值判定为垃圾邮件,低于垃圾邮件阈值转到下一过滤规则继续进行匹配处理,如此反复直到n个过滤规则全部匹配完成,如果总评分仍低于垃圾邮件阈值则为正常邮件。
如表1所示
表1
过滤规则编号 | 过滤规则名称 | 过滤规则评分(fi) |
1 | 全文匹配邮件数超过阈值 | 10 |
2 | 含有特定“法轮功”关键字 | 6 |
3 | 含有“推销”关键字 | 4 |
4 | 其他特定关键字 | 2 |
5 | 含有URL链接 | 2 |
6 | 含有图片 | 1 |
7 | 非中文邮件 | 1 |
所述过滤规则包括全文匹配邮件数超过阈值过滤规则、特定关键字过滤规则、含有URL链接过滤规则、含有图片过滤规则、非中文邮件过滤规则;所述特定关键字包括“法轮功”、“推销”等。
所述各过滤规则的评分采用数据库进行存放,用户可以灵活添加、设置和调整规则的评分,这样可以动态适应垃圾邮件的变化。
所述各过滤规则按照0到10分来进行评分,分数越高表示是垃圾邮件的概率越大,分数越低表示是正常邮件的概率越大。
所述垃圾邮件阈值库的阈值可进行扩充,可以定义多个阈值,如可设定垃圾邮件阈值、可疑邮件的阈值,对超过垃圾邮件阈值的邮件判定为垃圾邮件,对超过可疑邮件阈值又小于垃圾邮件阈值的邮件判定为可疑邮件。
如上所述,便可较好地实现本发明。
Claims (9)
1.基于综合决策的防垃圾邮件误过滤方法,其特征在于包括以下步骤:
(1)建立过滤规则、规则评分定义库、垃圾邮件阈值库,所述规则评分定义库根据属于垃圾邮件的可能性对每一个过滤规则建立一个评分;垃圾邮件阈值库用于存放判定垃圾邮件的评分阈值;
(2)建立垃圾邮件决策评判系统,所述垃圾邮件决策评判系统用于由过滤规则匹配处理后邮件所得总评分与设定的垃圾邮件阈值之间的比较,并做出是否为垃圾邮件的判断;
(3)邮件从本地客户端发出,进入第1个过滤规则进行匹配处理后得到一个评分,转入垃圾邮件决策评判系统,垃圾邮件决策评判系统对过滤规则的评分进行累计得到总评分,并和垃圾邮件阈值库中设定的垃圾邮件评分阈值进行比较,如果总评分高于垃圾邮件阈值判定为垃圾邮件,低于垃圾邮件阈值转到下一过滤规则继续进行匹配处理,如此反复直到n个过滤规则全部匹配完成,如果总评分仍低于垃圾邮件阈值则为正常邮件。
2.根据权利要求1所述基于综合决策的防垃圾邮件误过滤方法,其特征在于:所述过滤规则包括全文匹配邮件数超过阈值过滤规则、特定关键字过滤规则、含有URL链接过滤规则、含有图片过滤规则、非中文邮件过滤规则。
3.根据权利要求2所述基于综合决策的防垃圾邮件误过滤方法,其特征在于:所述特定关键字包括“法轮功”、“推销”。
4.根据权利要求1所述基于综合决策的防垃圾邮件误过滤方法,其特征在于:所述各过滤规则的评分采用数据库进行存放,用户能够通过添加、设置和调整规则的评分以动态适应垃圾邮件的变化。
5.根据权利要求4所述基于综合决策的防垃圾邮件误过滤方法,其特征在于:所述各过滤规则按照0到10分来进行评分,分数越高表示是垃圾邮件的概率越大,分数越低表示是正常邮件的概率越大。
6.根据权利要求1所述基于综合决策的防垃圾邮件误过滤方法,其特征在于:所述垃圾邮件阈值库的阈值为多个,包括垃圾邮件阈值、可疑邮件阈值,对超过垃圾邮件阈值的邮件判定为垃圾邮件,对超过可疑邮件阈值又小于垃圾邮件阈值的邮件判定为可疑邮件。
7.实现上述权利要求1~6任一项所述基于综合决策的防垃圾邮件误过滤方法的基于综合决策的防垃圾邮件误过滤系统,其通过网络分别与本地客户端、本地邮件服务器连接,其特征在于:包括规则评分定义库、垃圾邮件阈值库、垃圾邮件决策评判系统及n个过滤规则模块,第1个过滤规则模块通过网络与本地客户端连接,第1个到第n个过滤规则模块依次连接,第n个过滤规则模块通过网络与本地邮件服务器连接,且各个过滤规则模块分别与规则评分定义库、垃圾邮件阈值库、垃圾邮件决策评判系统连接。
8.根据权利要求7所述基于综合决策的防垃圾邮件误过滤系统,其特征在于:所述过滤规则模块包括全文匹配邮件数超过阈值过滤规则模块、特定关键字过滤规则模块、含有URL链接过滤规则模块、含有图片过滤规则模块、非中文邮件过滤规则模块。
9.根据权利要求8所述基于综合决策的防垃圾邮件误过滤系统,其特征在于:所述特定关键字过滤规则模块包括“法轮功”关键字过滤规则模块、“推销”关键字过滤规则模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007100293695A CN101136874A (zh) | 2007-07-25 | 2007-07-25 | 基于综合决策的防垃圾邮件误过滤方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007100293695A CN101136874A (zh) | 2007-07-25 | 2007-07-25 | 基于综合决策的防垃圾邮件误过滤方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101136874A true CN101136874A (zh) | 2008-03-05 |
Family
ID=39160711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007100293695A Pending CN101136874A (zh) | 2007-07-25 | 2007-07-25 | 基于综合决策的防垃圾邮件误过滤方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101136874A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010133063A1 (zh) * | 2009-05-20 | 2010-11-25 | 中兴通讯股份有限公司 | 一种短消息监控系统及方法 |
CN102377690A (zh) * | 2011-10-10 | 2012-03-14 | 网易(杭州)网络有限公司 | 反垃圾邮件网关系统及方法 |
CN101540773B (zh) * | 2009-04-22 | 2012-05-23 | 成都市华为赛门铁克科技有限公司 | 一种垃圾邮件检测方法及其装置 |
CN103795612A (zh) * | 2014-01-15 | 2014-05-14 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
CN104283855A (zh) * | 2013-07-08 | 2015-01-14 | 北京思普崚技术有限公司 | 一种垃圾邮件的截获方法 |
CN105323248A (zh) * | 2015-10-23 | 2016-02-10 | 绵阳师范学院 | 一种基于规则的交互式中文垃圾邮件过滤方法 |
CN105743876A (zh) * | 2015-08-28 | 2016-07-06 | 哈尔滨安天科技股份有限公司 | 一种基于邮件源数据发现针对性攻击的方法及系统 |
CN106341303A (zh) * | 2015-07-10 | 2017-01-18 | 彩讯科技股份有限公司 | 基于邮件用户行为的发件人信誉生成方法 |
CN106446032A (zh) * | 2016-08-30 | 2017-02-22 | 江苏博智软件科技有限公司 | 一种垃圾信息的处理方法和装置 |
CN106503075A (zh) * | 2016-09-30 | 2017-03-15 | 北京奇虎科技有限公司 | 一种过滤垃圾消息的方法及系统 |
CN107171948A (zh) * | 2017-07-04 | 2017-09-15 | 彩讯科技股份有限公司 | 一种过滤垃圾邮件的方法、装置及邮件服务器 |
CN107566242A (zh) * | 2016-09-14 | 2018-01-09 | 中国移动通信集团广东有限公司 | 基于组合规则的垃圾邮件过滤方法 |
CN108763449A (zh) * | 2018-05-28 | 2018-11-06 | 华南理工大学 | 一种垃圾邮件过滤的中文关键词规则生成方法 |
CN110401591A (zh) * | 2019-07-22 | 2019-11-01 | 北京计算机技术及应用研究所 | 一种基于透明代理的邮件全局审查过滤系统及方法 |
-
2007
- 2007-07-25 CN CNA2007100293695A patent/CN101136874A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540773B (zh) * | 2009-04-22 | 2012-05-23 | 成都市华为赛门铁克科技有限公司 | 一种垃圾邮件检测方法及其装置 |
CN101895828B (zh) * | 2009-05-20 | 2013-01-16 | 中兴通讯股份有限公司 | 一种短消息监控系统及方法 |
WO2010133063A1 (zh) * | 2009-05-20 | 2010-11-25 | 中兴通讯股份有限公司 | 一种短消息监控系统及方法 |
CN102377690A (zh) * | 2011-10-10 | 2012-03-14 | 网易(杭州)网络有限公司 | 反垃圾邮件网关系统及方法 |
CN102377690B (zh) * | 2011-10-10 | 2014-09-17 | 网易(杭州)网络有限公司 | 反垃圾邮件网关系统及方法 |
CN104283855A (zh) * | 2013-07-08 | 2015-01-14 | 北京思普崚技术有限公司 | 一种垃圾邮件的截获方法 |
CN103795612A (zh) * | 2014-01-15 | 2014-05-14 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
CN106341303A (zh) * | 2015-07-10 | 2017-01-18 | 彩讯科技股份有限公司 | 基于邮件用户行为的发件人信誉生成方法 |
CN106341303B (zh) * | 2015-07-10 | 2019-05-21 | 中移信息技术有限公司 | 基于邮件用户行为的发件人信誉生成方法 |
CN105743876A (zh) * | 2015-08-28 | 2016-07-06 | 哈尔滨安天科技股份有限公司 | 一种基于邮件源数据发现针对性攻击的方法及系统 |
CN105323248B (zh) * | 2015-10-23 | 2018-09-25 | 绵阳师范学院 | 一种基于规则的交互式中文垃圾邮件过滤方法 |
CN105323248A (zh) * | 2015-10-23 | 2016-02-10 | 绵阳师范学院 | 一种基于规则的交互式中文垃圾邮件过滤方法 |
CN106446032A (zh) * | 2016-08-30 | 2017-02-22 | 江苏博智软件科技有限公司 | 一种垃圾信息的处理方法和装置 |
CN107566242A (zh) * | 2016-09-14 | 2018-01-09 | 中国移动通信集团广东有限公司 | 基于组合规则的垃圾邮件过滤方法 |
CN106503075A (zh) * | 2016-09-30 | 2017-03-15 | 北京奇虎科技有限公司 | 一种过滤垃圾消息的方法及系统 |
CN106503075B (zh) * | 2016-09-30 | 2019-07-02 | 北京安云世纪科技有限公司 | 一种过滤垃圾消息的方法及系统 |
CN107171948A (zh) * | 2017-07-04 | 2017-09-15 | 彩讯科技股份有限公司 | 一种过滤垃圾邮件的方法、装置及邮件服务器 |
CN107171948B (zh) * | 2017-07-04 | 2020-08-25 | 彩讯科技股份有限公司 | 一种过滤垃圾邮件的方法、装置及邮件服务器 |
CN108763449A (zh) * | 2018-05-28 | 2018-11-06 | 华南理工大学 | 一种垃圾邮件过滤的中文关键词规则生成方法 |
CN110401591A (zh) * | 2019-07-22 | 2019-11-01 | 北京计算机技术及应用研究所 | 一种基于透明代理的邮件全局审查过滤系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101136874A (zh) | 基于综合决策的防垃圾邮件误过滤方法及系统 | |
Chirita et al. | MailRank: using ranking for spam detection | |
Lam et al. | A learning approach to spam detection based on social networks | |
US7783597B2 (en) | Email filtering using recipient reputation | |
EP1675333B1 (en) | Detection of unwanted messages (spam) | |
CN100539555C (zh) | 基于可扩展消息在线协议和信誉机制的电子邮件传送方法 | |
CN1977263A (zh) | 使用行业试探法过滤电子信息的系统和方法 | |
CA2452222A1 (en) | Apparatus and method for handling electronic mail | |
CN101860822A (zh) | 垃圾短信监控方法和系统 | |
CN101075980A (zh) | 对通讯系统中的通讯信息进行过滤的方法和过滤系统 | |
CN101888445A (zh) | 一种引进查询软件的综合性短信过滤方法 | |
CN101572606A (zh) | 一种社会化网络中认证请求消息发送方法及装置 | |
CN101159704A (zh) | 基于微内容相似度的反垃圾方法 | |
CN101389074B (zh) | 基于社交网络机理确认发送者身份的短信息监控方法 | |
CN103812826A (zh) | 垃圾邮件识别方法和识别系统、以及过滤系统 | |
CN101299729A (zh) | 一种基于拓扑行为的垃圾邮件判定方法 | |
CN103873348A (zh) | 电子邮件过滤方法和系统 | |
CN105635080A (zh) | 一种基于内容过滤的电子邮件安全管理系统和方法 | |
CN106656731A (zh) | 一种edm邮件发送方法和装置 | |
CN103139730B (zh) | 用于识别大量号码低频发送垃圾短信情况的方法 | |
Hurwitz | Telemarketing, Technology, and the Regulation of Private Speech: First Amendment Lessons from the FCC's TCPA Rules | |
CN101040279B (zh) | 面向连接的垃圾邮件过滤系统和方法 | |
CN100499599C (zh) | 基于邮件服务器的垃圾邮件过滤系统及方法 | |
CN102202037A (zh) | 一种信息发布系统 | |
US20080177846A1 (en) | Method for Providing E-Mail Spam Rejection Employing User Controlled and Service Provider Controlled Access Lists |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20080305 |