CN101415159B

CN101415159B - 对垃圾邮件进行拦截的方法和装置

Info

Publication number: CN101415159B
Application number: CN200810227762XA
Authority: CN
Inventors: 王晖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2008-12-02
Filing date: 2008-12-02
Publication date: 2010-06-02
Anticipated expiration: 2028-12-02
Also published as: BRPI0922719B1; CA2743273C; CN101415159A; RU2474970C1; WO2010063213A1; MX2011005771A; CA2743273A1; BRPI0922719A2; US20110202620A1

Abstract

本发明提供了一种对垃圾邮件进行拦截的方法和装置。该方法主要包括：获取需要进行过滤处理的邮件的文本数据，判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字，当所述文本数据中包含所述关键字时，再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串。根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果，和预定的判决策略确定所述邮件是否为垃圾邮件，并对垃圾邮件进行拦截。利用本发明，根据关键字对邮件的文本数据进行扫描，在关键字匹配后，才根据该关键字对应的字符串对邮件的文本数据进行扫描，从而可以提高扫描速度和效率，在字符串库规模较大的时候也能够实现对邮件进行实时过滤。

Description

对垃圾邮件进行拦截的方法和装置

技术领域

本发明涉及网络通信技术领域，尤其涉及一种对垃圾邮件进行拦截的方法和装置。

背景技术

在电子邮件领域内，垃圾邮件越来越泛滥，这不单增加了正常邮件使用者的处理时间，还会浪费邮件系统的宝贵资源，从而阻碍了用户获取有用信息的过程，因此垃圾邮件是一个必需要解决的问题。

目前，在邮件系统中普遍采用基于字符串的拦截技术来对抗垃圾邮件，该基于字符串的拦截技术需要预先建立一个字符串库，该字符串库中的字符串采用现有的单字或词语，字符串的长度比较固定。该字符串库需要具有一定的更新周期和规模，该字符串库中可供扫描的字符串规模往往达到百万级别。在实际应用中，利用上述字符串库中的字符串，采用全文顺序扫描或正则表达式匹配的处理方式对接收到的邮件进行过滤，判断接收到的邮件为垃圾邮件或正常邮件，并拦截垃圾邮件。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

使用现有的单字或词语来组成字符串会带来比较大的误判情况，因为这些现有的单字或词语并不只是出现在垃圾邮件中，有时在正常邮件中也出现，从而带来了误判。

上述全文顺序扫描或正则表达式匹配的处理形式由于采用字符串库中的完整字符串对邮件进行过滤，在字符串库的规模比较大时，效率低下，无法实现对接收到的邮件进行实时过滤，严重影响用户的使用效果。

发明内容

本发明的实施例提供了一种对垃圾邮件进行拦截的方法和装置，以降低垃圾邮件的误判率，并且提高邮件的过滤效率。

一种对垃圾邮件进行拦截的方法，包括：

获取需要进行过滤处理的邮件的文本数据；

判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字，当所述文本数据中包含所述关键字时，再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串；

获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后，而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息；

当所述邮件的扫描命中的次数大于设定的次数，则判定所述邮件为垃圾邮件；或者，当所述邮件的扫描命中的次数大于设定的次数，并且扫描命中的字符串的长度大于设定的长度，则判定所述邮件为垃圾邮件。

一种对垃圾邮件进行拦截的装置，包括：

文本数据获取模块，用于获取需要进行过滤处理的邮件的文本数据；

字符判定模块，用于判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字，当所述文本数据中包含所述关键字时，再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串；

邮件处理模块，用于根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果，和预定的判决策略确定所述邮件是否为垃圾邮件，并对垃圾邮件进行拦截；

所述的邮件处理模块具体包括：

扫描信息获取模块，用于获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后，而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息；

判定和拦截模块，用于当所述邮件的扫描命中的次数大于设定的次数，则判定所述邮件为垃圾邮件；或者，当所述邮件的扫描命中的次数大于设定的次数，并且扫描命中的字符串的长度大于设定的长度，则判定所述邮件为垃圾邮件，对判定的垃圾邮件进行拦截。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例根据关键字对邮件的文本数据进行扫描，在关键字匹配后，才根据该关键字对应的字符串对邮件的文本数据进行扫描，从而可以提高扫描速度和效率，在字符串库规模较大的时候也能够实现对邮件进行实时过滤。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的对垃圾邮件进行拦截的方法的处理流程图；

图2为实施例二提供的一种对垃圾邮件进行拦截的装置的具体实现结构图。

具体实施方式

在本发明实施例中，获取需要进行过滤处理的邮件的文本数据。判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字，当所述文本数据中包含所述关键字时，再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串。

根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果，和预定的判决策略确定所述邮件是否为垃圾邮件，并对垃圾邮件进行拦截。

进一步地，在接收到一个需要进行过滤处理的邮件后，对该邮件解码，获得该邮件的标题和正文字内容，将该标题和正文进行拼接后，得到所述邮件的待过滤的文本数据，并将该文本数据进行保存。

进一步地，所述的字符串资源库中的字符串由一个或多个字符单位来组成，该字符单位包括：一个英文单词、一个中文单字、单个英文字母、半个中文单字或一个全角半角的标点符号中的至少一项。

进一步地，建立所述字符串资源库的哈希总表和哈希链表，所述哈希总表中保存所述字符串资源库中的字符串中的关键字和该关键字对应的字符串的长度信息，所述哈希链表中保存所述关键字对应的字符串的完整的组成字符信息；

从所述文本数据的第一个字符单位开始，取出设定数量的字符出来，检测所述哈希总表中是否存在和所述设定数量的字符相同的关键字，如存在，则获取该关键字对应的长度值，根据该长度值从所述文本数据中截取相应的字符串，检测所述哈希链表中是否存在所述截取的字符串，如存在，则确定对所述文本数据一次扫描命中，并记录扫描命中的次数，以及相应的关键字和字符串信息；

如果所述哈希总表中不存在和所述设定数量的字符相同的关键字，或者，所述哈希链表中不存在所述截取的字符串，则后移一个字符单位后从所述文本数据中取出设定数量的字符出来，再执行和所述的从第一个字符开始取出的设定数量的字符相同的处理过程，直到所述文本数据的最后设定数量的字符串被检测完毕。

进一步地，所述的建立所述字符串资源库的哈希总表和哈希链表的过程具体包括：截取所述字符串资源库中的第一个字符串的头设定数量的字符作为关键字，判断所述字符串资源库中的除了第一个字符串的其它字符串的头设定数量的字符是不是和所述关键字相同，如果相同，则将所述关键字和其它字符串的长度信息记录在哈希总表中，将所述其它字符串的完整的组成字符信息记录在哈希链表中；

再截取所述字符串资源库中的除了所述哈希链表中记载的字符串之外的第二个字符串的头设定数量的字符作为关键字，执行和所述的第一个字符串的头设定数量的字符相同的处理过程，直到所述字符串资源库中的所有字符串的头设定数量的字符和长度信息都记录在哈希总表中，所有字符串的完整的组成字符信息都记录在哈希链表中。

进一步地，获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后，而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息；

根据所述扫描命中的次数信息、相应的关键字和字符串信息，基于预定的判决策略判定邮件是否为垃圾邮件，对判定的垃圾邮件进行拦截。

进一步地，所述的预定的判决策略包括：当所述邮件的扫描命中的次数大于设定的次数，则判定所述邮件为垃圾邮件；或者，当所述邮件的扫描命中的次数大于设定的次数，并且扫描命中的字符串的长度大于设定的长度，则判定所述邮件为垃圾邮件。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

哈希方案是一种存储结构，在哈希方案中，在数据的存储位置和该数据的关键字之间建立了一种对应关系，通过该对应关系将关键字的集合映射到地址集合上，该对应关系的设置很灵活，只要这个地址集合的大小不超出允许范围即可。哈希方案中通常包括：哈希总表和哈希链表。在实际应用中，哈希总表和哈希链表需要根据实际情况而构造。

实施例一

该实施例提供的对垃圾邮件进行拦截的方法的处理流程如图1所示，包括如下处理步骤：

步骤11、获取需要进行过滤处理的邮件的文本数据。

在接收到一个需要进行过滤处理的邮件后，对该邮件解码，获得该邮件的标题和正文字内容，将该标题和正文直接拼接后，得到一个待过滤的文本数据，将该文本数据进行保存。

步骤12、根据加载的字符串资源库，建立哈希方案中的哈希总表和哈希链表。

在获取了上述邮件的文本数据后，需要加载字符串资源库。该字符串资源库中的字符串由一个或多个字符单位来组成，该字符单位可以为：一个英文单词、一个中文单字、单个英文字母、半个中文单字或一个全角半角的标点符号中的至少一项。因此，上述字符串资源库中的字符串可以不是现有的单字或词语，而是一个结构灵活的字符串片段，该字符串片段可以是英文单词、中文单字或标点符号的任意组合。并且，该字符串片段应该只在垃圾邮件中出现，而不会在正常邮件中出现。上述字符串资源库可以基于现有的正常邮件的字符串资源库和垃圾邮件的字符串资源库而建立。

在该实施例中，引入上述哈希方案，根据上述加载的字符串资源库，建立哈希方案中的哈希总表和哈希链表，该哈希总表和哈希链表的建立过程如下：

依次从开头开始扫描上述字符串资源库中的字符串，首先取第一个字符串的头n(比如2)个字符作为第一级哈希索引，该第一级哈希索引相当于关键字，比如，该关键字为“三鹿”。然后，以该关键字作为索引，查找上述字符串资源库中的除了第一个字符串的其它字符串，判断该其它字符串的头2个字符是不是和该关键字相同。如果是相同，则获取该其它字符串的长度信息和完整的组成字符信息。

将所有以该关键字“三鹿”作为头2个字符的字符串的长度信息保存在哈希总表中，该哈希总表的结构如下述表1所示。将所有以该关键字“三鹿”作为头2个字符的字符串的完整的组成字符信息保存在哈希链表中，该哈希链表的结构如下述表2所示。因此，一个关键字对应一个哈希链表。在哈希方案中，哈希总表只有一个，其中保存所有的关键字和以各个关键字作为头n个字符的字符串的长度信息，哈希链表可以有多个，分别对应哈希总表中的各个关键字。

表1：哈希总表

表2：哈希链表

三鹿牛奶
三鹿牛奶	三鹿纯牛奶
三鹿婴幼儿牛奶	三鹿纯牛奶
三鹿婴幼儿牛奶	…

在上述对第一个字符串的取关键字、根据该关键字记录表1、表2等处理过程结束后，再依次对上述字符串资源库中的除了上述表2所示的哈希链表中记载的字符串之外的其它字符串，进行上述取关键字、根据该关键字记录表1、表2等处理过程，直到上述字符串资源库中的所有字符串的头n个字符和长度信息都记录在哈希总表中，所有字符串的完整的组成字符信息都保存在哈希链表中。

步骤13、利用哈希总表和哈希链表对邮件的文本数据进行扫描，根据扫描结果和预定的判决策略判定该邮件是否为垃圾邮件，并对垃圾邮件进行拦截。

在建立了上述哈希总表和哈希链表后，对于上述需要进行过滤处理的邮件的文本数据，从第一个字符开始，取出2个字符的字符串出来，检测在上述哈希总表的关键字中是否存在该取出的字符串，如存在，则获取该字符串对应的第一个长度值。然后，根据上述第一个长度值从该文本数据中截取相应的字符串，检测在上述哈希链表中是否存在该截取的字符串，如存在该截取的字符串，则确定对上述文本数据一次扫描命中，并记录下相应的关键字、扫描命中的字符串等信息；如不存在该截取的字符串，则不记录。检查下一个长度值，直到该字符串对应的所有长度值都被检测完毕。

如果在上述哈希总表的关键字中不存在上述取出的字符串，则不用检查哈希链表。再从第二个字符开始，取出2个字符的字符串出来，检测在上述哈希总表的关键字中是否存在该取出的字符串，重复进行上述针对从第一个字符开始取出的字符串的检测判断过程，直到上述文本数据的最后2个字符的字符串被检测完毕。

然后，根据记录的上述文本数据的扫描命中的次数信息，以及相应的关键字、扫描命中的字符串等信息，基于预定的判决策略判定该邮件是否为垃圾邮件。上述预定的判决策略根据实际情况而制定，该判决策略可以为：扫描命中的次数大于5次则判定为垃圾邮件；或者，扫描命中的次数大于4次并且扫描命中的字符串的长度大于4等。

上述预定的判决策略的制定的原则需保证下面几点：总体误判率需小于一个可接受的误判率指标，如0.1％；总体拦截率需大于一个可接受的拦截率指标，如70％。

最后，对判定的垃圾邮件进行拦截，对不是垃圾邮件的正常邮件进行放行。

在上述对邮件的扫描过程中，由于采用首先根据关键字对邮件的文本数据进行扫描，在关键字匹配后，才根据该关键字对应的字符串对邮件的文本数据进行扫描，从而可以提高扫描速度和效率。

实施例二

本发明实施例还提供了一种对垃圾邮件进行拦截的装置，其具体实现结构如图2所示，具体可以包括：

文本数据获取模块21，用于获取需要进行过滤处理的邮件的文本数据；

字符判定模块22，用于判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字，当所述文本数据中包含所述关键字时，再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串；

邮件处理模块23，用于根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果，和预定的判决策略确定所述邮件是否为垃圾邮件，并对垃圾邮件进行拦截。

所述字符判定模块22具体可以包括：

哈希表建立模块221，用于建立所述字符串资源库的哈希总表和哈希链表，所述哈希总表中保存所述字符串资源库中的字符串中的关键字和该关键字对应的字符串的长度信息，所述哈希链表中保存所述关键字对应的字符串的完整的组成字符信息；

扫描处理模块222，用于从所述文本数据的第一个字符单位开始，取出设定数量的字符，检测所述哈希总表中是否存在和所述设定数量的字符相同的关键字，如存在，则获取所述关键字对应的长度值，根据该长度值从所述文本数据中截取相应的字符串，检测所述哈希链表中是否存在所述截取的字符串，如存在，则确定对所述文本数据一次扫描命中，并记录扫描命中的次数，以及相应的关键字和字符串信息；

所述的邮件处理模块23具体包括：

扫描信息获取模块231，用于获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后，而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息；

判定和拦截模块232，用于根据所述扫描命中的次数信息、相应的关键字和字符串信息，基于预定的判决策略判定所述邮件是否为垃圾邮件，对判定的垃圾邮件进行拦截。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本发明实施例通过利用结构灵活的只在垃圾邮件中出现的字符串片段来代替现有的单字或词语，可以较好地解决现有技术的误判问题，具有比较低的误判率，比较高的拦截率。

本发明实施例通过利用哈希方案中的哈希总表和哈希链表，来对邮件的文本数据进行扫描，可以大大地提高扫描的效率，提高扫描速度，在字符串库规模较大的时候也能够实现对邮件进行实时过滤。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种对垃圾邮件进行拦截的方法，其特征在于，包括：

获取需要进行过滤处理的邮件的文本数据；

2.根据权利要求1所述的方法，其特征在于，所述的获取需要进行过滤处理的邮件的文本数据，具体包括：

在接收到一个需要进行过滤处理的邮件后，对该邮件解码，获得该邮件的标题和正文字内容，将该标题和正文进行拼接后，得到所述邮件的待过滤的文本数据，并将该文本数据进行保存。

3.根据权利要求1所述的方法，其特征在于，所述的字符串资源库中的字符串由一个或多个字符单位来组成，该字符单位包括：一个英文单词、一个中文单字、单个英文字母、半个中文单字或一个全角半角的标点符号中的至少一项。

4.根据权利要求1或2或3所述的方法，其特征在于，所述的判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字，当所述文本数据中包含所述关键字时，再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串，具体包括：

建立所述字符串资源库的哈希总表和哈希链表，所述哈希总表中保存所述字符串资源库中的字符串中的关键字和该关键字对应的字符串的长度信息，所述哈希链表中保存所述关键字对应的字符串的完整的组成字符信息；

5.根据权利要求4所述的方法，其特征在于，所述的建立所述字符串资源库的哈希总表和哈希链表，具体包括：

截取所述字符串资源库中的第一个字符串的头设定数量的字符作为关键字，判断所述字符串资源库中的除了第一个字符串的其它字符串的头设定数量的字符是不是和所述关键字相同，如果相同，则将所述关键字和其它字符串的长度信息记录在哈希总表中，将所述其它字符串的完整的组成字符信息记录在哈希链表中；

6.一种对垃圾邮件进行拦截的装置，其特征在于，包括：

所述的邮件处理模块具体包括：

7.根据权利要求6所述的对垃圾邮件进行拦截的装置，其特征在于，所述字符判定模块具体包括：

哈希表建立模块，用于建立所述字符串资源库的哈希总表和哈希链表，所述哈希总表中保存所述字符串资源库中的字符串中的关键字和该关键字对应的字符串的长度信息，所述哈希链表中保存所述关键字对应的字符串的完整的组成字符信息；

扫描处理模块，用于从所述文本数据的第一个字符单位开始，取出设定数量的字符，检测所述哈希总表中是否存在和所述设定数量的字符相同的关键字，如存在，则获取所述关键字对应的长度值，根据该长度值从所述文本数据中截取相应的字符串，检测所述哈希链表中是否存在所述截取的字符串，如存在，则确定对所述文本数据一次扫描命中，并记录扫描命中的次数，以及相应的关键字和字符串信息；