CN101136874A

CN101136874A - 基于综合决策的防垃圾邮件误过滤方法及系统

Info

Publication number: CN101136874A
Application number: CNA2007100293695A
Authority: CN
Inventors: 隆承志; 张凌; 董守斌; 许勇; 陈启愉; 黄永杰; 罗杏娥
Original assignee: Count Network Co Ltd Of Park In Guangzhou; South China University of Technology SCUT
Current assignee: Count Network Co Ltd Of Park In Guangzhou; South China University of Technology SCUT
Priority date: 2007-07-25
Filing date: 2007-07-25
Publication date: 2008-03-05

Abstract

本发明提供基于综合决策的防垃圾邮件误过滤方法，步骤包括：建立过滤规则、规则评分定义库、垃圾邮件阈值库，建立垃圾邮件决策评判系统；邮件从本地客户端发出，进入第1个过滤规则进行匹配处理后得到一个评分，转入垃圾邮件决策评判系统，垃圾邮件决策评判系统对过滤规则的评分进行累计得到总评分，并和垃圾邮件阈值库中设定的垃圾邮件评分阈值进行比较，如果总评分高于垃圾邮件阈值判定为垃圾邮件，低于垃圾邮件阈值转到下一过滤规则继续进行匹配处理，如此反复直到n个过滤规则全部匹配完成，如果总评分仍低于垃圾邮件阈值则为正常邮件。本发明改变依赖单一规则直接评判垃圾邮件的弊端，最大程度避免误过滤。

Description

基于综合决策的防垃圾邮件误过滤方法及系统

技术领域

本发明涉及互联网垃圾邮件过滤技术，具体是指基于综合决策的防垃圾邮件误过滤方法及系统。

背景技术

随着INTERNET国际互联网在全球的普及，网络应用已经进入人们的生活，并发挥着越来越大的作用。互联网络的迅速发展在给我们带来有利一面的同时，也为各种不法分子提供了新的犯罪技术手段和空间，一些不法分子利用互联网进行各种违法犯罪活动，网上各种反动、淫秽、色情、迷信、暴力等有害信息大量传播，境内外敌对势力也利用互联网进行渗透、煽动、破坏活动情况严重，已经危及国家安全和社会稳定，危害社会主义精神文明建设和互联网的健康发展。垃圾邮件，诸如反动、色情、商业等内容，已成为互联网的一大公害。垃圾邮件已经是中国互连网的一个毒瘤。中国已经稳居第二大垃圾邮件发送国的位置。垃圾邮件已经成为中国在互联网领域重点整治的对象。

过滤技术是反垃圾邮件用到的主要技术。针对不同类型的垃圾邮件，产生了几十种垃圾邮件过滤技术，他们从不同的角度对邮件进行严格检查，从而识别是否属于垃圾邮件。目前通常采用基于单一规则过滤的垃圾邮件过滤系统，如符合某一规则就判定为垃圾邮件，都不符合则为正常邮件。

关键字匹配过滤可以根据主题、正文、附件等是否含有设定的关键字加以过滤；黑名单过滤可以根据发件人的IP或地址是否在设定的黑名单中加以过滤。但如果仅仅依靠每个规则单独匹配过滤势必会产生较大的误过滤。如在所有的邮件过滤系统中均有关键字“法轮功”匹配过滤，但公安部门发送“打击法轮功”的通知及个人简历中含有“从未参加过法轮功等反动组织”等邮件均符合关键字过滤规则而被当作垃圾邮件。所以单一规则匹配过滤有较大的局限性，误过滤不可难免。为了有效解决这个问题，需要改变这种依靠单一规则进行过滤的策略，需要将邮件来匹配多个过滤规则，依据规则符合的多少和权重来裁决是否属于垃圾邮件。这样可以最大程度避免误过滤的发生。

发明内容

本发明的目的在于克服上述现有技术的缺点和不足，提供基于综合决策的防垃圾邮件误过滤方法，其可以改变依赖单一规则评判垃圾邮件的弊端，最大程度避免误过滤。

本发明的目的还在于提供实现上述基于综合决策的防垃圾邮件误过滤方法的系统。

本发明的目的通过下述技术方案实现：本基于综合决策的防垃圾邮件误过滤方法，包括以下步骤：

(1)建立过滤规则、规则评分定义库、垃圾邮件阈值库，所述规则评分定义库根据属于垃圾邮件的可能性对每一个过滤规则建立一个评分；垃圾邮件阈值库用于存放判定垃圾邮件的评分阈值；

(2)建立垃圾邮件决策评判系统，所述垃圾邮件决策评判系统用于由过滤规则匹配处理后邮件所得总评分与设定的垃圾邮件阈值之间的比较，并做出是否为垃圾邮件的判断；

(3)邮件从本地客户端发出，进入第1个过滤规则进行匹配处理后得到一个评分，转入垃圾邮件决策评判系统，垃圾邮件决策评判系统对过滤规则的评分进行累计得到总评分，并和垃圾邮件阈值库中设定的垃圾邮件评分阈值进行比较，如果总评分高于垃圾邮件阈值判定为垃圾邮件，低于垃圾邮件阈值转到下一过滤规则继续进行匹配处理，如此反复直到n个过滤规则全部匹配完成，如果总评分仍低于垃圾邮件阈值则为正常邮件。

为了更好地实现本发明，所述过滤规则包括全文匹配邮件数超过阈值过滤规则、特定关键字过滤规则、含有URL链接过滤规则、含有图片过滤规则、非中文邮件过滤规则；所述特定关键字包括“法轮功”、“推销”等。

所述各过滤规则的评分采用数据库进行存放，用户可以灵活添加、设置和调整规则的评分，这样可以动态适应垃圾邮件的变化。

所述各过滤规则按照0到10分来进行评分，分数越高表示是垃圾邮件的概率越大，分数越低表示是正常邮件的概率越大。

所述垃圾邮件阈值库的阈值可进行扩充，可以定义多个阈值，如可设定垃圾邮件阈值、可疑邮件的阈值，对超过垃圾邮件阈值的邮件判定为垃圾邮件，对超过可疑邮件阈值又小于垃圾邮件阈值的邮件判定为可疑邮件。

本基于综合决策的防垃圾邮件误过滤系统，其通过网络分别与本地客户端、本地邮件服务器连接，其特征在于：包括规则评分定义库、垃圾邮件阈值库、垃圾邮件决策评判系统及n个过滤规则模块，第1个过滤规则模块通过网络与本地客户端连接，第1个到第n个过滤规则模块依次连接，第n个过滤规则模块通过网络与本地邮件服务器连接，且各个过滤规则模块分别与规则评分定义库、垃圾邮件阈值库、垃圾邮件决策评判系统连接。

所述过滤规则模块包括全文匹配邮件数超过阈值过滤规则模块、特定关键字过滤规则模块、含有URL链接过滤规则模块、含有图片过滤规则模块、非中文邮件过滤规则模块；所述特定关键字过滤规则模块包括“法轮功”关键字过滤规则模块、“推销”关键字过滤规则模块等。

本发明与现有技术相比，具有如下优点和有益效果：改变单一规则直接评判垃圾邮件的策略，将邮件和多个过滤规则匹配，依据规则符合的多少和权重来综合评判是否属于垃圾邮件，这样可以最大程度避免误过滤的发生。操作灵活性强，用户可以灵活添加、设置和调整规则的评分，这样可以动态适应垃圾邮件的变化。

附图说明

图1是现有的基于单一规则过滤的垃圾邮件过滤系统结构示意图；

图2是本发明基于综合评分决策的垃圾邮件过滤系统结构示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例一

如图2所示，本基于综合决策的防垃圾邮件误过滤系统，其通过网络分别与本地客户端、本地邮件服务器连接，包括规则评分定义库、垃圾邮件阈值库、垃圾邮件决策评判系统及n个过滤规则模块，第1个过滤规则模块通过网络与本地客户端连接，第1个到第n个过滤规则模块依次连接，第n个过滤规则模块通过网与本地邮件服务器连接，且各个过滤规则模块分别与规则评分定义库、垃圾邮件阈值库、垃圾邮件决策评判系统连接。

如图2所示，本基于综合决策的防垃圾邮件误过滤系统的工作过程如下：

(3)邮件从本地客户端发出，进入第1个过滤规则进行匹配处理后得到一个评分，转入垃圾邮件决策评判系统，垃圾邮件决策评判系统对过滤规则的评分进行累计得到总评分，并将总评分Y(Y＝f1＋f2+f3＋……＋fn，其中：fi为过滤规则i的评分)和垃圾邮件阈值库中设定的垃圾邮件评分阈值进行比较，如果总评分高于垃圾邮件阈值判定为垃圾邮件，低于垃圾邮件阈值转到下一过滤规则继续进行匹配处理，如此反复直到n个过滤规则全部匹配完成，如果总评分仍低于垃圾邮件阈值则为正常邮件。

如表1所示

表1

过滤规则编号	过滤规则名称	过滤规则评分(fi)
过滤规则编号	过滤规则名称	过滤规则评分(fi)	1	全文匹配邮件数超过阈值	10
2	含有特定“法轮功”关键字	6	1	全文匹配邮件数超过阈值	10
2	含有特定“法轮功”关键字	6	3	含有“推销”关键字	4
4	其他特定关键字	2	3	含有“推销”关键字	4
4	其他特定关键字	2	5	含有URL链接	2
6	含有图片	1	5	含有URL链接	2
6	含有图片	1	7	非中文邮件	1
			7	非中文邮件	1

所述过滤规则包括全文匹配邮件数超过阈值过滤规则、特定关键字过滤规则、含有URL链接过滤规则、含有图片过滤规则、非中文邮件过滤规则；所述特定关键字包括“法轮功”、“推销”等。

如上所述，便可较好地实现本发明。

Claims

1.基于综合决策的防垃圾邮件误过滤方法，其特征在于包括以下步骤：

2.根据权利要求1所述基于综合决策的防垃圾邮件误过滤方法，其特征在于：所述过滤规则包括全文匹配邮件数超过阈值过滤规则、特定关键字过滤规则、含有URL链接过滤规则、含有图片过滤规则、非中文邮件过滤规则。

3.根据权利要求2所述基于综合决策的防垃圾邮件误过滤方法，其特征在于：所述特定关键字包括“法轮功”、“推销”。

4.根据权利要求1所述基于综合决策的防垃圾邮件误过滤方法，其特征在于：所述各过滤规则的评分采用数据库进行存放，用户能够通过添加、设置和调整规则的评分以动态适应垃圾邮件的变化。

5.根据权利要求4所述基于综合决策的防垃圾邮件误过滤方法，其特征在于：所述各过滤规则按照0到10分来进行评分，分数越高表示是垃圾邮件的概率越大，分数越低表示是正常邮件的概率越大。

6.根据权利要求1所述基于综合决策的防垃圾邮件误过滤方法，其特征在于：所述垃圾邮件阈值库的阈值为多个，包括垃圾邮件阈值、可疑邮件阈值，对超过垃圾邮件阈值的邮件判定为垃圾邮件，对超过可疑邮件阈值又小于垃圾邮件阈值的邮件判定为可疑邮件。

7.实现上述权利要求1～6任一项所述基于综合决策的防垃圾邮件误过滤方法的基于综合决策的防垃圾邮件误过滤系统，其通过网络分别与本地客户端、本地邮件服务器连接，其特征在于：包括规则评分定义库、垃圾邮件阈值库、垃圾邮件决策评判系统及n个过滤规则模块，第1个过滤规则模块通过网络与本地客户端连接，第1个到第n个过滤规则模块依次连接，第n个过滤规则模块通过网络与本地邮件服务器连接，且各个过滤规则模块分别与规则评分定义库、垃圾邮件阈值库、垃圾邮件决策评判系统连接。

8.根据权利要求7所述基于综合决策的防垃圾邮件误过滤系统，其特征在于：所述过滤规则模块包括全文匹配邮件数超过阈值过滤规则模块、特定关键字过滤规则模块、含有URL链接过滤规则模块、含有图片过滤规则模块、非中文邮件过滤规则模块。

9.根据权利要求8所述基于综合决策的防垃圾邮件误过滤系统，其特征在于：所述特定关键字过滤规则模块包括“法轮功”关键字过滤规则模块、“推销”关键字过滤规则模块。