CN101040279B

CN101040279B - 面向连接的垃圾邮件过滤系统和方法

Info

Publication number: CN101040279B
Application number: CN2004800441850A
Authority: CN
Inventors: 程圣宇; 芦东昕; 李强; 白英杰; 罗志云; 朱佐亮
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2004-12-21
Filing date: 2004-12-21
Publication date: 2010-04-28
Anticipated expiration: 2024-12-21
Also published as: WO2006066444A1; CN101040279A

Abstract

本发明公开了一种面向连接的垃圾邮件过滤系统和方法，该系统至少包含：数据采集模块、过滤策略管理模块、过滤分析模块和数据处理模块，其中，数据采集模块用于从被监控网络上捕获数据包，提交给过滤分析模块，作为整个过滤系统的数据输入；过滤策略管理模块用于过滤策略的配置及管理；过滤分析模块用于根据配置的过滤策略，对输入的数据包进行分析，检查是否包含过滤策略所关注的信息；数据处理模块用于对过滤分析模块的分析结果数据进行各种不同的处理。本发明解决了包过滤的漏报警和误报警问题，其最大特点在于它不依赖于特定的邮件服务器，对邮件客户端和服务器都完全透明。与现有技术相比，本发明极大地提高了垃圾邮件过滤系统的可靠性，拓宽了系统的适用范围。

Description

面向连接的垃圾邮件过滤系统和方法

技术领域

本发明涉及一种网络内容安全监控方法，尤其涉及网络信息安全领域的垃圾邮件过滤系统和方法。

背景技术

电子邮件是因特网上的最重要应用之一，已逐渐成为人们生产生活中不可或缺的部分。垃圾邮件通常是指包含反动言论、色情或暴力等不良信息的电子邮件，也包括非请求大宗电子邮件和电子邮件形式的非请求商业广告。这些信息常常是大批量发送，不仅耗用大量的网络资源，降低生产率，而且可能扰乱社会稳定，危害青少年身心健康。据统计，垃圾邮件每年给全球经济带来的损失达数百亿美元。如何有效地防范垃圾邮件，已是十分迫切的问题。

现有的垃圾邮件过滤系统主要有以下两类：一是基于邮件客户端的过滤，通常是以邮件客户端程序的插件形式存在，这类系统仅监控单机，应用范围有限；二是基于邮件服务器的过滤，通常要求与邮件服务器建立双向连接并协同工作，这类系统的监控范围也仅限于直接相连的邮件服务器。以上两类垃圾邮件过滤系统，都需要对原邮件客户端或者邮件服务器程序做一定的改造，并与原系统协同工作，因此不透明。也有一些垃圾邮件过滤系统，不依赖邮件客户端和服务器，可以布置在被监控网络的出入口。大多数这类系统的工作原理与防火墙类似，一般是检查邮件数据包的IP地址，以及对邮件头(例如邮件发送者、邮件接收者和邮件标题等)进行过滤，由于采用的是简单包过滤技术，也不能避免分包过滤的漏报警，易受碎片攻击。

综上所述，现有的垃圾邮件过滤技术主要有两点不足：一是过于依赖邮件服务器或邮件客户端，要求对原邮件服务器或邮件客户端做一定的改造；二是不能对邮件内容进行过滤或者不能解决碎片攻击问题。

发明内容

本发明所解决的技术问题提出一种面向连接的垃圾邮件过滤系统，能够实现电子邮件内容的全文过滤，且不存在碎片攻击脆弱性问题，独立于特定的电子邮件服务器，既可布置于共享式局域网内部，也可布置于企业网络、省际或国际骨干网络的出入口处，该系统适用范围广、可靠性高。

本发明所解决的另一技术问题提出一种面向连接的垃圾邮件过滤方法，能够实现电子邮件内容的全文过滤，且不存在碎片攻击脆弱性问题，提高了垃圾邮件过滤系统的可靠性。

本发明所解决的另一技术问题提出一种面向连接的垃圾邮件过滤方法，能够避免产生漏报警和误报警等。

为了实现上述本发明的目的，本发明提供了一种面向连接的垃圾邮件过滤系统，该系统至少包含：数据采集模块、过滤策略管理模块、过滤分析模块和数据处理模块，其中，数据采集模块用于从被监控网络上捕获数据包，提交给过滤分析模块，作为整个过滤系统的数据输入；过滤策略管理模块用于过滤策略的配置及管理；过滤分析模块用于根据配置的过滤策略，对输入的数据包进行分析，检查是否包含过滤策略所关注的信息；数据处理模块用于对过滤分析模块的分析结果数据进行各种不同的处理；

其中，所述过滤分析模块包括TCP连接维护子模块、邮件协议解析子模块、MIME解码及内容扫描子模块，其中，TCP连接维护子模块用于维护一张TCP连接哈希表，邮件协议解析子模块用于完成邮件协议的解析，MIME解码及内容扫描子模块用于判断输入的数据包中的邮件数据的编码方式，并调用相应的编码转换函数进行编码转换，然后对邮件内容进行全文扫描。

所述的面向连接的垃圾邮件过滤系统，还包括操作维护模块和存储备份模块，其中，操作维护模块用于系统的维护，存储备份模块用于系统数据及数据包的存储备份。

所述过滤策略包含过滤条件和对应的处理方式，所述过滤条件可为多项条件的逻辑组合。

所述哈希表以数据包的源IP地址、目的IP地址、源端口、目的端口四元组作为计算哈希键值的输入，可用多种快速哈希算法计算哈希值，哈希冲突可采用链地址法解决。

所述TCP连接维护子模块维护的哈希表中的每个TCP连接节点至少包含：

(1)客户端和服务器端的IP地址和传输层端口号，这四个参数是用于确定数据包所属连接的唯一标识；

(2)协议类型：SMTP、POP3或者IMAP；

(3)本连接生命期：用来防止很久不活动的连接占用系统资源；

(4)数据包缓存队列：缓存本连接上的邮件数据包，如果判明了本连接上有不安全数据，以便恢复邮件数据并保存；

(5)本连接上的会话所处的状态：是命令交互状态还是数据传输状态；

(6)自动机临时状态：用以解决按数据包进行关键字过滤时的漏报警问题；

(7)本连接的安全标识：当判明了连接上有不安全信息，在该字段标记，并不再扫描连接上的后续数据。

为了更好地实现上述目的，本发明还提供了一种面向连接的垃圾邮件过滤方法，其中，该方法至少包括如下步骤：

(1)数据采集步骤，用于从被监控网络上捕获数据包，提交给过滤分析模块，作为整个过滤系统的数据输入；

(2)过滤策略管理步骤，用于过滤策略的配置及管理；

(3)过滤分析步骤，用于根据配置的过滤策略，对输入的数据包进行分析，检查是否包含过滤策略所关注的信息；

(4)数据处理步骤，用于对过滤分析模块的分析结果数据进行各种不同的处理；

其中，所述步骤(3)还包括如下步骤：

(111)TCP连接维护步骤，用于维护一张TCP连接哈希表；

(112)邮件协议解析步骤，用于完成邮件协议的解析；

(113)MIME解码及内容扫描步骤，用于判断输入的数据包中的邮件数据的编码方式，并调用相应的编码转换函数进行编码转换，然后对邮件内容进行全文扫描。

所述步骤(3)还包括：使用SMTP、POP3或IMAP传输电子邮件时，在命令交互状态下，提取输入数据包中的交互命令及其参数并进行分析；在数据传输状态下，从数据包中提取邮件数据，进行MIME解码和内容扫描，并将扫描结果提交给数据处理模块。

所述步骤(113)还包括：每扫描完一个包后，把当前状态暂存在连接所属连接节点的自动机临时状态字段中，扫描下一个包时，从所属连接节点的自动机临时状态所指的状态开始匹配，以避免产生漏报警。

所述步骤(113)还包括：对同一个TCP连接上的有乱序的数据包进行排序，并按照正确的顺序进行内容扫描，以避免产生误报警。

本发明所述的垃圾邮件过滤系统和方法，由于采用了“面向连接”的技术措施和合适的算法，解决了包过滤的漏报警和误报警问题，使其可不依赖于特定的邮件服务器，对邮件客户端和服务器都完全透明。与现有技术相比，本发明极大地提高了垃圾邮件过滤系统的可靠性，拓宽了适用范围。

附图说明

图1为本垃圾邮件过滤系统在共享式局域网中的布置示意图；

图2为本垃圾邮件过滤系统在网络出入口处的布置示意图；

图3为本发面所述的垃圾邮件过滤系统的结构示意图；

图4为本发明过滤分析模块结构示意图；

图5为TCP连接HASH表结构示意图；

图6为TCP连接查找HASH算法示意图；

图7A、7B为包过滤的漏报警问题示意图；

图8A、8B为包乱序的误报警问题示意图。

具体实施方式

下面结合附图，基本按照附图的顺序对技术方案的实施作进一步的详细描述：

本垃圾邮件过滤系统对使用SMTP(Simple Mail Transfer Protocol-简单邮件传输协议)、POP3(Post Office Protocol：Version3-邮局协议版本3)和IMAP(Internet Message Access Protocol-互联网消息存取协议)传输的电子邮件进行监控。

本发明所描述的垃圾邮件过滤系统，既可以布置在共享式局域网内部(参见图1)，也可以布置在企业网、省际或国际骨干网络的出入口处(参见图2)。

图1介绍了本发明所述的垃圾邮件过滤系统在共享式局域网内的布置方式。这种方式下，可通过把网卡设置为混杂模式来捕获网络数据包，但只能被动监听。

图2介绍了本发明所述的垃圾邮件过滤系统在网络出入口的布置方式。这种方式下，可以采用专有设备采集网络数据包，可以对网络数据包进行完全的监视和控制。

图3介绍了本发明所述的垃圾邮件过滤系统的基本结构。至少包含以下几个模块：数据采集模块31、过滤策略管理模块32、过滤分析模块33和数据处理模块34，基本体系结构参见图3。

数据采集模块31从被监控网络上捕获数据包，提交给过滤分析模块，作为整个过滤系统的数据输入。数据采集可以采用普通的捕包工具实现，也可以采用专有设备实现。

过滤策略模块32负责对过滤策略进行配置和管理。过滤策略是系统赖以工作的核心基础，它至少应当包含过滤条件和对应的处理方式，过滤条件可以是多项条件的逻辑组合。下面给出两条过滤策略的示例：

过滤策略示例1：过滤条件＝“目的IP地址是168.168.192.*，并且发件人是seqing@nopermit.com”，处理方式＝“保存邮件并报警”；

过滤策略示例2：过滤条件＝“发件人是xxx@fishy.net，并且收件人是fishy@xxx.com”，处理方式＝“切断用户连接并告警”。

过滤分析模块33根据配置的过滤策略，对输入的数据包进行分析，检查是否包含过滤策略所关注的信息。本模块的结构参见图4。

本模块包含TCP(Transmission Control Protocol-传输层控制协议)连接维护41、邮件协议解析42、MIME(Multipurpose Internet Mail Extensions-多用途因特网邮件扩展协议)解码及内容扫描43三个子模块。这里所说的TCP连接，是指被监控的邮件客户端和邮件服务器之间为传送电子邮件而建立的TCP连接，本过滤系统与该连接无关，只是监控它上面传输的数据。

TCP连接维护模块41维护一张TCP连接哈希表(参见图5)，该哈希表以数据包的(源IP地址、目的IP地址、源端口、目的端口)四元组作为计算哈希键值的输入(参见图6)，可用多种快速哈希算法计算哈希值，哈希冲突可采用链地址法解决。哈希表中的每个TCP连接节点至少包含连接双方的IP地址、传输层端口号及本连接当前的一些状态信息。也可以视具体情况，分别为SMTP、POP3和IMAP协议维护一张TCP连接哈希表。

对输入的每一个数据包，首先检查它是否属于已经建立的某个TCP连接。如果是，则根据它所属连接当前所处的状态进行处理；否则，为它新创建TCP连接节点。

协议解析子模块42完成邮件协议的解析：如果当前连接处于命令交互状态，则从输入的数据包中提取协议命令及参数并处理；如果当前连接处于数据传输状态，则从输入的数据包中提取邮件数据，并提交给MIME解码及内容扫描子模块。

图4介绍了过滤分析模块的基本结构。该模块对输入的每一个数据包，首先根据(源IP地址、目的IP地址、源端口、目的端口)四元组计算其哈希键值，判断它是否属于已经建立的某个TCP连接。如果是，则根据它所属连接当前所处的状态进行处理，例如，若已经确知该连接违反安全策略，就不必扫描输入数据包的内容，而直接缓存数据包，待整封邮件数据到齐后，再重组邮件数据并保存；若还不知道该连接上的数据是否违反安全策略，则扫描当前输入的数据包，并将扫描结果信息暂存在本连接节点中；如果输入的数据包不属于任何已经建立的连接，则为它创建TCP连接节点，然后扫描数据包内容，同样将扫描结果暂存在本连接节点中。

使用SMTP、POP3或IMAP传输电子邮件时，一次会话有两个基本状态：命令交互状态和数据传输状态。命令交互状态下，邮件客户端和服务器在进行一系列的命令交互，不传送邮件数据本身；数据传输状态下，邮件客户端和服务器在传输电子邮件数据。能够通过捕获到的命令来判断这两个状态的转换。例如，SMTP协议中，捕获到“DATA”命令后，进入数据传输状态，捕获到邮件结束符“·”时，又回到命令交互状态；而对于POP3协议，捕获到“RETR”命令进入数据传输状态，捕获到邮件结束符“·”时，又回到命令交互状态。因为可能漏捕包而不能正确判断命令交互状态和数据传输状态的转换，因此系统还要采取一定的保护措施。例如，如果漏抓了客户端发往服务器的“DATA”包，可以根据服务器返回给客户端的代号为“354”的相应包来判断邮件数据传输状态的开始。

图5介绍了TCP连接哈希表的结构，该表采用链地址法解决哈希冲突。哈希表中的每一个节点，就是一个TCP连接节点结构，代表一个当前正在进行的邮件协议会话。

图6介绍了TCP连接查找的哈希函数的实现。哈希函数以数据包的(源IP地址、目的IP地址、源端口、目的端口)四元组作为输入，计算出哈希值。此哈希值用于在图4所示的哈希表中，查找输入的四元组是否属于已经建立的某个连接。因为一个TCP连接上的会话数据包是双向的，因此，哈希算法的设计必须保证同一个连接上的双向数据映像到同一个哈希值。例如，下面两个四元组的哈希值应该相同：

四元组1：(168.168.192.1，10.198.60.2，1386，25)；

四元组2：(10.198.60.2，168.168.192.1，25，1386)。

此外，由于查找TCP连接的操作十分频繁(对每一个邮件数据包调用一次)，因此采用的哈希算法应该速度很快，并且产生的键值冲突少。

MIME解码及内容扫描子模块43首先判断输入的邮件数据的编码方式，并调用相应的编码转换函数进行编码转换，然后对邮件内容进行全文扫描。由于包过滤容易产生漏报警(参见图7A、7B)，因此，需要采用合适的算法实现内容扫描。如果包乱序，还可能产生误报警(参见图8A、8B)，因此，需要对同一个TCP连接上的数据包进行排序，并按照正确的顺序进行内容扫描。

本发明所指的内容扫描，主要针对邮件正文及附件的文本部分，但只要算法性能允许，同样适用于其它类型媒体信息(例如图片、声音等)的过滤。

图7A、7B介绍了包过滤的漏报警问题。假如邮件过滤系统要检查的关键字为“babb”。现有一包含该模式串的用户数据流如图7A所示，其中“*”表示任意不包含“babb”和“bab”子串的字符串。该用户数据在网络上传输时，被分成了两个数据包，如图7B所示。那么，包过滤的邮件过滤系统无论是过滤数据包1还是过滤数据包2，都不能发现用户数据流中所包含的“babb”串。显然出现了漏报警。因此，需要采用合适的算法实现内容扫描。如果每次扫描只检查一个关键字，可以(但不限于)采用改造的有限自动机单关键字匹配算法，每扫描完一个包后，把当前状态暂存在连接所属连接节点的“自动机临时状态”字段中，扫描下一个包时，从所属连接节点的“自动机临时状态”所指的状态开始匹配，而不是从自动机的初始状态开始匹配；如果每次扫描要检查多个关键字，可以(但不限于)采用改造的Aho-Corasick多关键字匹配算法，同样是每扫描完一个包后，把当前状态暂存在所属连接节点的“自动机临时状态”字段中，扫描下一个包时，也不从自动机的初始状态开始匹配，而是“自动机临时状态”所指的状态开始匹配。

图8A、8B介绍了包乱序引起的误报警问题。假设要过滤的关键字同前，用户数据流如图8A所示，在网络上传输时，它被分割为两个数据包，如图8B所示。图中，“*”表示不包含“babb”、“bab”和“abb”子串的任意字符串。那么关键字匹配的结果就不会识别到“babb”串。但是按照上述算法，假如数据包2先到达，然后数据包1到达，那么数据包2结尾处的“b”和数据包1开始的“abb”就构成了被过滤的关键字“babb”。显然出现了误报警。因此，对邮件正文的扫描需要按照正确的次序进行，如果接收到的数据包有乱序，过滤分析模块的TCP连接维护子模块首先对它们进行排序，然后才提交给后续子模块。

为了实现邮件协议的解析和内容过滤，在TCP连接节点中记录本连接当前所处的状态。节点结构至少包含以下信息：

1.客户端和服务器端的IP地址和传输层端口号：这四个参数是确定数据包所属连接的唯一标识；

2.协议类型：SMTP、POP3或者IMAP；

3.本连接生命期：用来防止很久不活动的连接占用系统资源；

4.数据包缓存队列：缓存本连接上的邮件数据包，如果判明了本连接上有不安全数据，以便恢复邮件数据并保存；

5.本连接上的会话所处的状态：是命令交互状态还是数据传输状态；

6.自动机临时状态：用以解决按数据包进行关键字过滤时的漏报警问题。一封邮件结束时，本字段需要复位，即指向自动机的初始状态；

7.本连接的安全标识：当判明了连接上有不安全信息，在该字段标记，并不再扫描连接上的后续数据。

在命令交互状态下，提取输入数据包中的交互命令及其参数并进行分析；在数据传输状态下，从数据数据包中提取邮件数据，进行MIME解码和内容扫描，并将扫描结果提交给数据处理模块。

数据处理模块34根据安全过滤策略规定的处理方式，对过滤分析模块的分析结果数据进行各种不同的处理。例如，转发数据包、丢弃数据包、切断用户连接、报警，或者把电子邮件数据包还原并重组成应用层数据流并保存到数据库等等。

根据实际需要，也可以增加操作维护模块36、存储备份模块35等。其中操作维护模块用于系统的维护，存储备份模块用于系统数据及数据包的存储备份。

工业应用性

本发明所述的垃圾邮件过滤系统，由于采用了“面向连接”的技术措施和合适的算法，解决了包过滤的漏报警和误报警问题，其最大特点在于它不依赖于特定的邮件服务器，对邮件客户端和服务器都完全透明。与现有技术相比，本发明极大地提高了垃圾邮件过滤系统的可靠性，拓宽了系统的适用范围。

Claims

1.一种面向连接的垃圾邮件过滤系统，其特征在于，至少包含：数据采集模块、过滤策略管理模块、过滤分析模块和数据处理模块，其中，数据采集模块用于从被监控网络上捕获数据包，提交给过滤分析模块，作为整个过滤系统的数据输入；过滤策略管理模块用于过滤策略的配置及管理；过滤分析模块用于根据配置的过滤策略，对输入的数据包进行分析，检查是否包含过滤策略所关注的信息；数据处理模块用于对过滤分析模块的分析结果数据进行各种不同的处理；

其中，所述过滤分析模块包括TCP连接维护子模块、邮件协议解析子模块、MIME解码及内容扫描子模块，其中，TCP连接维护子模块用于维护一张TCP连接哈希表；邮件协议解析子模块用于完成邮件协议的解析；MIME解码及内容扫描子模块用于判断输入的数据包中的邮件数据的编码方式，并调用相应的编码转换函数进行编码转换，然后对邮件内容进行全文扫描。

2.如权利要求1所述的面向连接的垃圾邮件过滤系统，其特征在于，该系统还包括操作维护模块和存储备份模块，其中，操作维护模块用于系统的维护，存储备份模块用于系统数据及数据包的存储备份。

3.如权利要求1所述的面向连接的垃圾邮件过滤系统，其特征在于，所述过滤策略包含过滤条件和对应的处理方式，所述过滤条件为多项条件的逻辑组合。

4.如权利要求1所述的面向连接的垃圾邮件过滤系统，其特征在于，所述哈希表以数据包的源IP地址、目的IP地址、源端口、目的端口四元组作为计算哈希键值的输入，采用多种快速哈希算法计算哈希值，哈希冲突采用链地址法解决。

5.如权利要求1所述的面向连接的垃圾邮件过滤系统，其特征在于，所述哈希表中的每个TCP连接节点至少包含连接双方的IP地址、传输层端口号及本连接当前的一些状态信息。

6.如权利要求1所述的面向连接的垃圾邮件过滤系统，其特征在于，所述TCP连接维护子模块的TCP连接节点中记录本连接当前所处的状态。

7.如权利要求6所述的面向连接的垃圾邮件过滤系统，其特征在于，所述连接节点的结构至少包含：

(2)协议类型：SMTP、POP3或者IMAP；

8.一种面向连接的垃圾邮件过滤方法，其特征在于，该方法至少包括如下步骤：

(2)过滤策略管理步骤，用于过滤策略的配置及管理；

其中，所述步骤(3)还包括如下步骤：

(111)TCP连接维护步骤，用于维护一张TCP连接哈希表；

(112)邮件协议解析步骤，用于完成邮件协议的解析；

9.如权利要求8所述的面向连接的垃圾邮件过滤方法，其特征在于，所述步骤(3)还包括：使用SMTP、POP3或IMAP传输电子邮件时，在命令交互状态下，提取输入数据包中的交互命令及其参数并进行分析；在数据传输状态下，从数据包中提取邮件数据，进行MIME解码和内容扫描，并将扫描结果提交给数据处理模块。

10.如权利要求9所述的面向连接的垃圾邮件过滤方法，其特征在于，所述步骤(113)还包括：每扫描完一个包后，把当前状态暂存在连接所属连接节点的自动机临时状态字段中，扫描下一个包时，从所属连接节点的自动机临时状态所指的状态开始匹配，以避免产生漏报警。

11.如权利要求9所述的面向连接的垃圾邮件过滤方法，其特征在于，所述步骤(113)还包括：对同一个TCP连接上的有乱序的数据包进行排序，并按照正确的顺序进行内容扫描，以避免产生误报警。