CN1350246A

CN1350246A - 智能化的电子邮件内容过滤方法

Info

Publication number: CN1350246A
Application number: CN 01139009
Authority: CN
Inventors: 李建华; 施建俊; 王明政
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2001-12-03
Filing date: 2001-12-03
Publication date: 2002-05-22

Abstract

一种智能化的电子邮件内容过滤方法,系在电子邮件内容安全监管系统上建立内部模块,其过滤步骤包括:1)启动规则库,包括规则库中所有相应规则,2)按照过滤规则库生成过滤词库,3)用邮件内容匹配过滤词库中的词,4)统计各个关键词出现的次数,统计关键词之间的间隔距离,5)根据各个关键词出现的次数与关键词之间的间隔距离进行关键词的相关度分析。根据相关度的高低区分邮件的危险级别,6)将邮件的危险级别返回主程序模块。系统的过滤智能性良好,不会影响用户的正常邮件接受,也不会漏过可疑邮件。根据算法得到的邮件危险级别层次清晰,便于对邮件的进一步处理操作的执行。

Description

智能化的电子邮件内容过滤方法

技术领域

本发明涉及一种网络信息内容安全检测方法

背景技术

邮件安全问题包括两个方面：作为网络服务系统的安全问题和邮件内容的安全问题。因此邮件安全系统的开发也相应从两个方面来着手工作：邮件系统安全和邮件内容安全。邮件内容安全国内目前主要通过垃圾邮件检测、内容过滤等技术实现。

垃圾邮件(SPAM)一般包括UBE(非请求大宗电子邮件)以及UCE(非请求商业电子邮件)。此类邮件发件率高，数量大，且占用了网络资源，影响邮件服务器性能，妨碍了用户对正常电子邮件的接受。目前，垃圾邮件防护技术主要是检测邮件的各字段，及时发现并过滤垃圾邮件。一般按照关键字对邮件的发送者、接收者、抄送、标题等字段进行简单的过滤。

为了进一步对邮件做过滤，仅仅用简单的垃圾邮件防护技术是不充分的。还需要对邮件内容——即邮件正文及附件——进行文字检查，防止诸如色情、攻击性以及反动言论通过邮件进行大面积传播。基于邮件内容的检测防护技术还相对缺乏。目前主要是对邮件内容进行全文匹配，判断是否出现特点的关键字，过滤技术比较简单。

由于对图片等其它多媒体形式文件尚没有有效的检查过滤方式，所以内容过滤主要限于对邮件文字的过滤。

邮件的投递过程中主要使用SMTP协议和POP3协议。其中，客户端向邮件服务器发送邮件时使用SMTP协议，客户端从邮件服务器接收邮件使用POP3协议。从邮件服务器的角度来看，垃圾邮件与内容具有危害性的邮件都是外界通过SMTP协议投递到邮件服务器的用户邮箱。因而，对外部通过SMTP协议投递到本地邮件服务器的邮件进行过滤，就达到了保护本地邮件用户不受垃圾邮件、反动邮件等的危害的目的。

邮件过滤的依据是过滤规则。为了实现对邮件的有效过滤，需要制定多层次的邮件过滤规则。而系统根据过滤规则进行的过滤算法应该有一定的智能性。

目前邮件过滤算法普遍采用对邮件内容检查是否出现预定的关键字，这些关键字没有分类、优先级别和相关性分析。这样，邮件过滤的性能低下，不具有智能性，不能实现对邮件的有效过滤，容易影响用户的正常邮件接受，也容易漏过可疑邮件。举例来说，如果要对宣扬“法轮功”的反动邮件进行过滤，仅仅制定对“法轮功”关键字的检查，就不可避免的会把对“法轮功”作一般引用的正常邮件也拦截下来。

同时，目前普遍采用的搜索匹配算法是简单匹配算法，一般仅仅判断单个关键词以及数个关键词的逻辑组合是否出现。如果不出现，邮件就被标记为正常的；而一旦出现，邮件就标记为危险邮件。这样，邮件的分类只有两种：正常的与危险的，而不存在邮件的危险级别层次。这种对邮件的过滤方式是粗糙的。

发明内容

本发明目的在于克服现有技术的缺陷，提供一种智能化的电子邮件内容过滤方法，通过内容过滤的智能化技术，实现邮件过滤的准确判断和分析，然后确定邮件的危害级别。管理人员可以根据审计信息，实时调整改变过滤规则。

本发明的技术方案是根据过滤监管系统，其具有多种规则库，每种规则库对应不同特征的一类危险邮件。管理员可以添加、选择系统需要应用的规则库。一个规则库中又包含若干条规则。管理员可以添加、修改、选择所需要的规则。

每条规则中包含关键字、词及其逻辑组合，并且具有关键字、词间的相关性规定。

过滤方法是用已知的大量规则去过滤邮件，即先对规则进行处理生成词库，再拿邮件内容到词库中查找过滤。在过滤时，系统不仅仅统计关键词是否出现以及出现次数，并且根据算法作综合评定，统计关键字、词间的相关性，从而给出邮件的危险级别。提高了系统的智能，而邮件的危险程度也可以用危险级别来加以区分。

综上所述，本发明的步骤包括：

1.启动规则库，包括规则库中所有相应规则，

2.按照过滤规则库生成过滤词库，

3.用邮件内容匹配过滤词库中的词，

4.统计各个关键词出现的次数，统计关键词之间的间隔距离。

5.根据各个关键词出现的次数与关键词之间的间隔距离进行关键词的相

关度分析。根据相关度的高低区分邮件的危险级别。

6.将邮件的危险级别返回主程序。

本发明的效果是显著的，在中国上海东方网的中国信息安全示范工程S219的实施中，系统的过滤智能性良好，不会影响用户的正常邮件接收，也不会漏过可疑邮件。根据算法得到的邮件危险级别层次清晰，便于对邮件的进一步处理操作的执行。

附图说明

图1是本发明监管系统服务器内部模块结构示意图。

图2是本发明的智能匹配算法判断结果示意图。

图3是已有的一般匹配算法判断结果示意图。

具体实施方式

请参阅图1，在东方网邮件过滤系统的实施中，过滤规则位于过滤规则管理模块6。过滤算法位于主程序模块1中，与主程序模块1紧密结合。

为说明一般匹配算法与智能匹配算法的区别，举例说明如下：图1所示的是监管系统服务器的内部模块：

规则管理模块6：对监管系统使用的所有规则统一管理，供主程序模块调用。

主程序模块11：完成对防垃圾邮件、内容过滤功能、过滤规则的调用，完成相关邮件信息记录、管理员操作日志记录写入功能。

内容过滤功能模块1：根据过滤规则完成对邮件正文、附件的文字检查。

防垃圾邮件模块3：实现基于IP地址的邮件炸弹防护，包括发信频率和数量进行统计、判断与处理；邮件字段“发送者”、“接收者”、“抄送”、“标题”、“来源地址”以及发信人真实性判断的检查。

信息记录模块4：包括对删除邮件的摘要信息记录，拦截邮件的完整信息记录以及管理人员操作日志记录。

管理审计模块5：提供管理界面，使管理员可以对监管系统作实时控制；对拦截邮件作人工察看；对安全策略、过滤规则、系统参数作设置与动态调整。

箭头7、8、9、13表示主程序模块1对其它模块的统一调用控制。

箭头11、12、10表示管理审计模块5对其它模块的实时控制。其中箭头10是对信息记录模块4中的拦截邮件作人工察看处理；箭头11是对主程序模块1中的主程序的实时控制，设置系统基本参数；箭头12是对规则管理模块6中的过滤规则的维护。

监管系统的运行流程如下：

1.系统初始化设置。监管系统首先调入相关参数、安全策略和过滤规则库等，为过滤作初始化准备。

2.监听端口，等待邮件服务器送交的邮件信息。

3.对邮件服务器送交的邮件信息，启动主程序，进行过滤。

4.主程序按照过滤规则对邮件的信息进行综合检查，包括对邮件的字段“发送者”、“接收者”、“抄送”、“标题”、“来源地址”的检查；对邮件正文以及文本形式的附件的内容检查；发信人真实性判断，发信频率、数量的动态统计判断等。综合检查后，主程序给出邮件危险级别。

5.监管系统根据预定的安全策略，按照邮件危险级别来决定对该邮件的相应处理方式。系统对危险级别较高的邮件直接删除，同时在数据库中记录该邮件的摘要信息留作记录；对级别较低的邮件暂时拦截，将该邮件的完整信息记录在数据库中留待管理员人工处理；对普通级别的邮件直接放行。各个级别间的界限由安全策略决定，可以动态调整。其中，对邮件的删除、拦截、放行是在邮件服务器端实现的。这样，就完成了对邮件内容过滤的全过程。

6.在监管系统运行过程中，系统允许管理员通过管理界面对监管系统作实时控制，对安全策略、过滤规则、系统参数作动态调整。

7.监管系统可以随时启动、停止，在监管系统停止时原邮件服务器就恢复为不具有过滤功能的普通邮件服务器。监管系统在运行时，对原邮件服务器的邮件投递速度效率的影响可以忽略，因而不会对原邮件服务器的邮件投递造成不良影响。一般匹配算法判断见图3。箭头均表示状态的转移。文中出现“法轮功”这一关键词的邮件31，一般匹配算法对该邮件进行过滤32，过滤规则为关键词组合：“镇压 & 法轮功”、“迫害法轮功”。算法33发现文中出现“迫害法轮功”，或者“镇压”与“法轮功”同时出现。然后该邮件被标记为危险邮件，予以拦截。

智能匹配算法见图2。箭头均表示状态的转移。文中出现“法轮功”这一关键词的邮件21，用智能匹配算法22对该邮件进行过滤，过滤规则是“(镇压or迫害) & 法轮功”，邮件中“法轮功”、“迫害”、“镇压”出现不同方式，算法得出的不同的判断结果23-27，邮件也相应的具有不同的危险级别。

比如状态23，“法轮功”在文中出现了100次，而“镇压”出现了1次，“迫害”出现了2次，则算法认为这几个词是不匹配的，危险级别为0级。表示规则几乎完全不匹配。

状态24，“法轮功”在文中出现了100次，“镇压”出现了10次，“迫害”出现了8次，算法认为这几个词的匹配度很低，，危险级别高一点，比如为1级。

状态25，“法轮功”在文中出现了100次，而“镇压”、“迫害”各出现了50次，则算法认为这几个词是匹配的；但是算法通过词间距离发现，“法轮功”的每次出现位置与“镇压”、“迫害”的出现位置的距离间隔超过10个字，算法仍然判定这几个词是不匹配的，危险级别再高一点，比如为2级。

状态26，“法轮功”在文中出现了100次，而“镇压”出现了30次、“迫害”出现了70次，则算法认为这几个词是匹配的；然后算法通过词间距离发现，“法轮功”的每次出现位置与“镇压”、“迫害”的出现位置的距离间隔低于2个字，算法判定这几个词是匹配的，则危险级别非常高，定为10级，即认为与规则完全匹配。

类似的，状态27表示其它可能出现的危险级别。还可能有状态28、状态29等其它不同的危险级别出现。

这样，算法对邮件的过滤就具有了一定的智能性，而不是简单的判断有还是没有。邮件的危险程度也可以用危险级别来加以区分。

Claims

1、一种智能化的电子邮件内容过滤方法，系在电子邮件内容安全监管系统上建立内部模块，其过滤步骤包括：

1)启动规则库，包括规则库中所有相应规则，

2)按照过滤规则库生成过滤词库，

3)用邮件内容匹配过滤词库中的词，

4)统计各个关键词出现的次数和统计关键词之间的间隔距离。

5)根据各个关键词出现的次数与关键词之间的间隔距离进行关键词的相

关度分析，根据相关度的高低区分邮件的危险级别，

6)将邮件的危险级别返回主程序模块。