CN101415159B - 对垃圾邮件进行拦截的方法和装置 - Google Patents

对垃圾邮件进行拦截的方法和装置 Download PDF

Info

Publication number
CN101415159B
CN101415159B CN200810227762XA CN200810227762A CN101415159B CN 101415159 B CN101415159 B CN 101415159B CN 200810227762X A CN200810227762X A CN 200810227762XA CN 200810227762 A CN200810227762 A CN 200810227762A CN 101415159 B CN101415159 B CN 101415159B
Authority
CN
China
Prior art keywords
character
text data
mail
keyword
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200810227762XA
Other languages
English (en)
Other versions
CN101415159A (zh
Inventor
王晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN200810227762XA priority Critical patent/CN101415159B/zh
Publication of CN101415159A publication Critical patent/CN101415159A/zh
Priority to CA2743273A priority patent/CA2743273C/en
Priority to PCT/CN2009/074991 priority patent/WO2010063213A1/zh
Priority to MX2011005771A priority patent/MX2011005771A/es
Priority to RU2011121970/07A priority patent/RU2474970C1/ru
Priority to BRPI0922719-9A priority patent/BRPI0922719B1/pt
Application granted granted Critical
Publication of CN101415159B publication Critical patent/CN101415159B/zh
Priority to US13/097,379 priority patent/US20110202620A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种对垃圾邮件进行拦截的方法和装置。该方法主要包括:获取需要进行过滤处理的邮件的文本数据,判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串。根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对垃圾邮件进行拦截。利用本发明,根据关键字对邮件的文本数据进行扫描,在关键字匹配后,才根据该关键字对应的字符串对邮件的文本数据进行扫描,从而可以提高扫描速度和效率,在字符串库规模较大的时候也能够实现对邮件进行实时过滤。

Description

对垃圾邮件进行拦截的方法和装置
技术领域
本发明涉及网络通信技术领域,尤其涉及一种对垃圾邮件进行拦截的方法和装置。
背景技术
在电子邮件领域内,垃圾邮件越来越泛滥,这不单增加了正常邮件使用者的处理时间,还会浪费邮件系统的宝贵资源,从而阻碍了用户获取有用信息的过程,因此垃圾邮件是一个必需要解决的问题。
目前,在邮件系统中普遍采用基于字符串的拦截技术来对抗垃圾邮件,该基于字符串的拦截技术需要预先建立一个字符串库,该字符串库中的字符串采用现有的单字或词语,字符串的长度比较固定。该字符串库需要具有一定的更新周期和规模,该字符串库中可供扫描的字符串规模往往达到百万级别。在实际应用中,利用上述字符串库中的字符串,采用全文顺序扫描或正则表达式匹配的处理方式对接收到的邮件进行过滤,判断接收到的邮件为垃圾邮件或正常邮件,并拦截垃圾邮件。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
使用现有的单字或词语来组成字符串会带来比较大的误判情况,因为这些现有的单字或词语并不只是出现在垃圾邮件中,有时在正常邮件中也出现,从而带来了误判。
上述全文顺序扫描或正则表达式匹配的处理形式由于采用字符串库中的完整字符串对邮件进行过滤,在字符串库的规模比较大时,效率低下,无法实现对接收到的邮件进行实时过滤,严重影响用户的使用效果。
发明内容
本发明的实施例提供了一种对垃圾邮件进行拦截的方法和装置,以降低垃圾邮件的误判率,并且提高邮件的过滤效率。
一种对垃圾邮件进行拦截的方法,包括:
获取需要进行过滤处理的邮件的文本数据;
判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串;
获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后,而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息;
当所述邮件的扫描命中的次数大于设定的次数,则判定所述邮件为垃圾邮件;或者,当所述邮件的扫描命中的次数大于设定的次数,并且扫描命中的字符串的长度大于设定的长度,则判定所述邮件为垃圾邮件。
一种对垃圾邮件进行拦截的装置,包括:
文本数据获取模块,用于获取需要进行过滤处理的邮件的文本数据;
字符判定模块,用于判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串;
邮件处理模块,用于根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对垃圾邮件进行拦截;
所述的邮件处理模块具体包括:
扫描信息获取模块,用于获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后,而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息;
判定和拦截模块,用于当所述邮件的扫描命中的次数大于设定的次数,则判定所述邮件为垃圾邮件;或者,当所述邮件的扫描命中的次数大于设定的次数,并且扫描命中的字符串的长度大于设定的长度,则判定所述邮件为垃圾邮件,对判定的垃圾邮件进行拦截。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例根据关键字对邮件的文本数据进行扫描,在关键字匹配后,才根据该关键字对应的字符串对邮件的文本数据进行扫描,从而可以提高扫描速度和效率,在字符串库规模较大的时候也能够实现对邮件进行实时过滤。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的对垃圾邮件进行拦截的方法的处理流程图;
图2为实施例二提供的一种对垃圾邮件进行拦截的装置的具体实现结构图。
具体实施方式
在本发明实施例中,获取需要进行过滤处理的邮件的文本数据。判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串。
根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对垃圾邮件进行拦截。
进一步地,在接收到一个需要进行过滤处理的邮件后,对该邮件解码,获得该邮件的标题和正文字内容,将该标题和正文进行拼接后,得到所述邮件的待过滤的文本数据,并将该文本数据进行保存。
进一步地,所述的字符串资源库中的字符串由一个或多个字符单位来组成,该字符单位包括:一个英文单词、一个中文单字、单个英文字母、半个中文单字或一个全角半角的标点符号中的至少一项。
进一步地,建立所述字符串资源库的哈希总表和哈希链表,所述哈希总表中保存所述字符串资源库中的字符串中的关键字和该关键字对应的字符串的长度信息,所述哈希链表中保存所述关键字对应的字符串的完整的组成字符信息;
从所述文本数据的第一个字符单位开始,取出设定数量的字符出来,检测所述哈希总表中是否存在和所述设定数量的字符相同的关键字,如存在,则获取该关键字对应的长度值,根据该长度值从所述文本数据中截取相应的字符串,检测所述哈希链表中是否存在所述截取的字符串,如存在,则确定对所述文本数据一次扫描命中,并记录扫描命中的次数,以及相应的关键字和字符串信息;
如果所述哈希总表中不存在和所述设定数量的字符相同的关键字,或者,所述哈希链表中不存在所述截取的字符串,则后移一个字符单位后从所述文本数据中取出设定数量的字符出来,再执行和所述的从第一个字符开始取出的设定数量的字符相同的处理过程,直到所述文本数据的最后设定数量的字符串被检测完毕。
进一步地,所述的建立所述字符串资源库的哈希总表和哈希链表的过程具体包括:截取所述字符串资源库中的第一个字符串的头设定数量的字符作为关键字,判断所述字符串资源库中的除了第一个字符串的其它字符串的头设定数量的字符是不是和所述关键字相同,如果相同,则将所述关键字和其它字符串的长度信息记录在哈希总表中,将所述其它字符串的完整的组成字符信息记录在哈希链表中;
再截取所述字符串资源库中的除了所述哈希链表中记载的字符串之外的第二个字符串的头设定数量的字符作为关键字,执行和所述的第一个字符串的头设定数量的字符相同的处理过程,直到所述字符串资源库中的所有字符串的头设定数量的字符和长度信息都记录在哈希总表中,所有字符串的完整的组成字符信息都记录在哈希链表中。
进一步地,获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后,而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息;
根据所述扫描命中的次数信息、相应的关键字和字符串信息,基于预定的判决策略判定邮件是否为垃圾邮件,对判定的垃圾邮件进行拦截。
进一步地,所述的预定的判决策略包括:当所述邮件的扫描命中的次数大于设定的次数,则判定所述邮件为垃圾邮件;或者,当所述邮件的扫描命中的次数大于设定的次数,并且扫描命中的字符串的长度大于设定的长度,则判定所述邮件为垃圾邮件。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
哈希方案是一种存储结构,在哈希方案中,在数据的存储位置和该数据的关键字之间建立了一种对应关系,通过该对应关系将关键字的集合映射到地址集合上,该对应关系的设置很灵活,只要这个地址集合的大小不超出允许范围即可。哈希方案中通常包括:哈希总表和哈希链表。在实际应用中,哈希总表和哈希链表需要根据实际情况而构造。
实施例一
该实施例提供的对垃圾邮件进行拦截的方法的处理流程如图1所示,包括如下处理步骤:
步骤11、获取需要进行过滤处理的邮件的文本数据。
在接收到一个需要进行过滤处理的邮件后,对该邮件解码,获得该邮件的标题和正文字内容,将该标题和正文直接拼接后,得到一个待过滤的文本数据,将该文本数据进行保存。
步骤12、根据加载的字符串资源库,建立哈希方案中的哈希总表和哈希链表。
在获取了上述邮件的文本数据后,需要加载字符串资源库。该字符串资源库中的字符串由一个或多个字符单位来组成,该字符单位可以为:一个英文单词、一个中文单字、单个英文字母、半个中文单字或一个全角半角的标点符号中的至少一项。因此,上述字符串资源库中的字符串可以不是现有的单字或词语,而是一个结构灵活的字符串片段,该字符串片段可以是英文单词、中文单字或标点符号的任意组合。并且,该字符串片段应该只在垃圾邮件中出现,而不会在正常邮件中出现。上述字符串资源库可以基于现有的正常邮件的字符串资源库和垃圾邮件的字符串资源库而建立。
在该实施例中,引入上述哈希方案,根据上述加载的字符串资源库,建立哈希方案中的哈希总表和哈希链表,该哈希总表和哈希链表的建立过程如下:
依次从开头开始扫描上述字符串资源库中的字符串,首先取第一个字符串的头n(比如2)个字符作为第一级哈希索引,该第一级哈希索引相当于关键字,比如,该关键字为“三鹿”。然后,以该关键字作为索引,查找上述字符串资源库中的除了第一个字符串的其它字符串,判断该其它字符串的头2个字符是不是和该关键字相同。如果是相同,则获取该其它字符串的长度信息和完整的组成字符信息。
将所有以该关键字“三鹿”作为头2个字符的字符串的长度信息保存在哈希总表中,该哈希总表的结构如下述表1所示。将所有以该关键字“三鹿”作为头2个字符的字符串的完整的组成字符信息保存在哈希链表中,该哈希链表的结构如下述表2所示。因此,一个关键字对应一个哈希链表。在哈希方案中,哈希总表只有一个,其中保存所有的关键字和以各个关键字作为头n个字符的字符串的长度信息,哈希链表可以有多个,分别对应哈希总表中的各个关键字。
表1:哈希总表
Figure G200810227762XD00071
表2:哈希链表
 
三鹿牛奶
三鹿纯牛奶
三鹿婴幼儿牛奶
在上述对第一个字符串的取关键字、根据该关键字记录表1、表2等处理过程结束后,再依次对上述字符串资源库中的除了上述表2所示的哈希链表中记载的字符串之外的其它字符串,进行上述取关键字、根据该关键字记录表1、表2等处理过程,直到上述字符串资源库中的所有字符串的头n个字符和长度信息都记录在哈希总表中,所有字符串的完整的组成字符信息都保存在哈希链表中。
步骤13、利用哈希总表和哈希链表对邮件的文本数据进行扫描,根据扫描结果和预定的判决策略判定该邮件是否为垃圾邮件,并对垃圾邮件进行拦截。
在建立了上述哈希总表和哈希链表后,对于上述需要进行过滤处理的邮件的文本数据,从第一个字符开始,取出2个字符的字符串出来,检测在上述哈希总表的关键字中是否存在该取出的字符串,如存在,则获取该字符串对应的第一个长度值。然后,根据上述第一个长度值从该文本数据中截取相应的字符串,检测在上述哈希链表中是否存在该截取的字符串,如存在该截取的字符串,则确定对上述文本数据一次扫描命中,并记录下相应的关键字、扫描命中的字符串等信息;如不存在该截取的字符串,则不记录。检查下一个长度值,直到该字符串对应的所有长度值都被检测完毕。
如果在上述哈希总表的关键字中不存在上述取出的字符串,则不用检查哈希链表。再从第二个字符开始,取出2个字符的字符串出来,检测在上述哈希总表的关键字中是否存在该取出的字符串,重复进行上述针对从第一个字符开始取出的字符串的检测判断过程,直到上述文本数据的最后2个字符的字符串被检测完毕。
然后,根据记录的上述文本数据的扫描命中的次数信息,以及相应的关键字、扫描命中的字符串等信息,基于预定的判决策略判定该邮件是否为垃圾邮件。上述预定的判决策略根据实际情况而制定,该判决策略可以为:扫描命中的次数大于5次则判定为垃圾邮件;或者,扫描命中的次数大于4次并且扫描命中的字符串的长度大于4等。
上述预定的判决策略的制定的原则需保证下面几点:总体误判率需小于一个可接受的误判率指标,如0.1%;总体拦截率需大于一个可接受的拦截率指标,如70%。
最后,对判定的垃圾邮件进行拦截,对不是垃圾邮件的正常邮件进行放行。
在上述对邮件的扫描过程中,由于采用首先根据关键字对邮件的文本数据进行扫描,在关键字匹配后,才根据该关键字对应的字符串对邮件的文本数据进行扫描,从而可以提高扫描速度和效率。
实施例二
本发明实施例还提供了一种对垃圾邮件进行拦截的装置,其具体实现结构如图2所示,具体可以包括:
文本数据获取模块21,用于获取需要进行过滤处理的邮件的文本数据;
字符判定模块22,用于判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串;
邮件处理模块23,用于根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对垃圾邮件进行拦截。
所述字符判定模块22具体可以包括:
哈希表建立模块221,用于建立所述字符串资源库的哈希总表和哈希链表,所述哈希总表中保存所述字符串资源库中的字符串中的关键字和该关键字对应的字符串的长度信息,所述哈希链表中保存所述关键字对应的字符串的完整的组成字符信息;
扫描处理模块222,用于从所述文本数据的第一个字符单位开始,取出设定数量的字符,检测所述哈希总表中是否存在和所述设定数量的字符相同的关键字,如存在,则获取所述关键字对应的长度值,根据该长度值从所述文本数据中截取相应的字符串,检测所述哈希链表中是否存在所述截取的字符串,如存在,则确定对所述文本数据一次扫描命中,并记录扫描命中的次数,以及相应的关键字和字符串信息;
如果所述哈希总表中不存在和所述设定数量的字符相同的关键字,或者,所述哈希链表中不存在所述截取的字符串,则后移一个字符单位后从所述文本数据中取出设定数量的字符出来,再执行和所述的从第一个字符开始取出的设定数量的字符相同的处理过程,直到所述文本数据的最后设定数量的字符串被检测完毕。
所述的邮件处理模块23具体包括:
扫描信息获取模块231,用于获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后,而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息;
判定和拦截模块232,用于根据所述扫描命中的次数信息、相应的关键字和字符串信息,基于预定的判决策略判定所述邮件是否为垃圾邮件,对判定的垃圾邮件进行拦截。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本发明实施例通过利用结构灵活的只在垃圾邮件中出现的字符串片段来代替现有的单字或词语,可以较好地解决现有技术的误判问题,具有比较低的误判率,比较高的拦截率。
本发明实施例通过利用哈希方案中的哈希总表和哈希链表,来对邮件的文本数据进行扫描,可以大大地提高扫描的效率,提高扫描速度,在字符串库规模较大的时候也能够实现对邮件进行实时过滤。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种对垃圾邮件进行拦截的方法,其特征在于,包括:
获取需要进行过滤处理的邮件的文本数据;
判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串;
获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后,而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息;
当所述邮件的扫描命中的次数大于设定的次数,则判定所述邮件为垃圾邮件;或者,当所述邮件的扫描命中的次数大于设定的次数,并且扫描命中的字符串的长度大于设定的长度,则判定所述邮件为垃圾邮件。
2.根据权利要求1所述的方法,其特征在于,所述的获取需要进行过滤处理的邮件的文本数据,具体包括:
在接收到一个需要进行过滤处理的邮件后,对该邮件解码,获得该邮件的标题和正文字内容,将该标题和正文进行拼接后,得到所述邮件的待过滤的文本数据,并将该文本数据进行保存。
3.根据权利要求1所述的方法,其特征在于,所述的字符串资源库中的字符串由一个或多个字符单位来组成,该字符单位包括:一个英文单词、一个中文单字、单个英文字母、半个中文单字或一个全角半角的标点符号中的至少一项。
4.根据权利要求1或2或3所述的方法,其特征在于,所述的判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串,具体包括:
建立所述字符串资源库的哈希总表和哈希链表,所述哈希总表中保存所述字符串资源库中的字符串中的关键字和该关键字对应的字符串的长度信息,所述哈希链表中保存所述关键字对应的字符串的完整的组成字符信息;
从所述文本数据的第一个字符单位开始,取出设定数量的字符出来,检测所述哈希总表中是否存在和所述设定数量的字符相同的关键字,如存在,则获取该关键字对应的长度值,根据该长度值从所述文本数据中截取相应的字符串,检测所述哈希链表中是否存在所述截取的字符串,如存在,则确定对所述文本数据一次扫描命中,并记录扫描命中的次数,以及相应的关键字和字符串信息;
如果所述哈希总表中不存在和所述设定数量的字符相同的关键字,或者,所述哈希链表中不存在所述截取的字符串,则后移一个字符单位后从所述文本数据中取出设定数量的字符出来,再执行和所述的从第一个字符开始取出的设定数量的字符相同的处理过程,直到所述文本数据的最后设定数量的字符串被检测完毕。
5.根据权利要求4所述的方法,其特征在于,所述的建立所述字符串资源库的哈希总表和哈希链表,具体包括:
截取所述字符串资源库中的第一个字符串的头设定数量的字符作为关键字,判断所述字符串资源库中的除了第一个字符串的其它字符串的头设定数量的字符是不是和所述关键字相同,如果相同,则将所述关键字和其它字符串的长度信息记录在哈希总表中,将所述其它字符串的完整的组成字符信息记录在哈希链表中;
再截取所述字符串资源库中的除了所述哈希链表中记载的字符串之外的第二个字符串的头设定数量的字符作为关键字,执行和所述的第一个字符串的头设定数量的字符相同的处理过程,直到所述字符串资源库中的所有字符串的头设定数量的字符和长度信息都记录在哈希总表中,所有字符串的完整的组成字符信息都记录在哈希链表中。
6.一种对垃圾邮件进行拦截的装置,其特征在于,包括:
文本数据获取模块,用于获取需要进行过滤处理的邮件的文本数据;
字符判定模块,用于判定所述文本数据中是否包含用于邮件过滤的字符串资源库中的字符串中的关键字,当所述文本数据中包含所述关键字时,再判定所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串;
邮件处理模块,用于根据所述文本数据中是否包含所述关键字对应的所述字符串资源库中的字符串的判定结果,和预定的判决策略确定所述邮件是否为垃圾邮件,并对垃圾邮件进行拦截;
所述的邮件处理模块具体包括:
扫描信息获取模块,用于获取根据所述文本数据中包含所述关键字对应的所述字符串资源库中的字符串后,而记录的所述文本数据的扫描命中的次数信息、相应的关键字和字符串信息;
判定和拦截模块,用于当所述邮件的扫描命中的次数大于设定的次数,则判定所述邮件为垃圾邮件;或者,当所述邮件的扫描命中的次数大于设定的次数,并且扫描命中的字符串的长度大于设定的长度,则判定所述邮件为垃圾邮件,对判定的垃圾邮件进行拦截。
7.根据权利要求6所述的对垃圾邮件进行拦截的装置,其特征在于,所述字符判定模块具体包括:
哈希表建立模块,用于建立所述字符串资源库的哈希总表和哈希链表,所述哈希总表中保存所述字符串资源库中的字符串中的关键字和该关键字对应的字符串的长度信息,所述哈希链表中保存所述关键字对应的字符串的完整的组成字符信息;
扫描处理模块,用于从所述文本数据的第一个字符单位开始,取出设定数量的字符,检测所述哈希总表中是否存在和所述设定数量的字符相同的关键字,如存在,则获取所述关键字对应的长度值,根据该长度值从所述文本数据中截取相应的字符串,检测所述哈希链表中是否存在所述截取的字符串,如存在,则确定对所述文本数据一次扫描命中,并记录扫描命中的次数,以及相应的关键字和字符串信息;
如果所述哈希总表中不存在和所述设定数量的字符相同的关键字,或者,所述哈希链表中不存在所述截取的字符串,则后移一个字符单位后从所述文本数据中取出设定数量的字符出来,再执行和所述的从第一个字符开始取出的设定数量的字符相同的处理过程,直到所述文本数据的最后设定数量的字符串被检测完毕。
CN200810227762XA 2008-12-02 2008-12-02 对垃圾邮件进行拦截的方法和装置 Active CN101415159B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN200810227762XA CN101415159B (zh) 2008-12-02 2008-12-02 对垃圾邮件进行拦截的方法和装置
CA2743273A CA2743273C (en) 2008-12-02 2009-11-17 Method and device for intercepting junk mail
PCT/CN2009/074991 WO2010063213A1 (zh) 2008-12-02 2009-11-17 对垃圾邮件进行拦截的方法和装置
MX2011005771A MX2011005771A (es) 2008-12-02 2009-11-17 Metodo y dispositivo para interceptar correo basura.
RU2011121970/07A RU2474970C1 (ru) 2008-12-02 2009-11-17 Способ и устройство блокировки нежелательных сообщений электронной почты
BRPI0922719-9A BRPI0922719B1 (pt) 2008-12-02 2009-11-17 método e dispositivo para interceptar correio não solicitado
US13/097,379 US20110202620A1 (en) 2008-12-02 2011-04-29 Method and device for intercepting junk mail

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810227762XA CN101415159B (zh) 2008-12-02 2008-12-02 对垃圾邮件进行拦截的方法和装置

Publications (2)

Publication Number Publication Date
CN101415159A CN101415159A (zh) 2009-04-22
CN101415159B true CN101415159B (zh) 2010-06-02

Family

ID=40595414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810227762XA Active CN101415159B (zh) 2008-12-02 2008-12-02 对垃圾邮件进行拦截的方法和装置

Country Status (7)

Country Link
US (1) US20110202620A1 (zh)
CN (1) CN101415159B (zh)
BR (1) BRPI0922719B1 (zh)
CA (1) CA2743273C (zh)
MX (1) MX2011005771A (zh)
RU (1) RU2474970C1 (zh)
WO (1) WO2010063213A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101415159B (zh) * 2008-12-02 2010-06-02 腾讯科技(深圳)有限公司 对垃圾邮件进行拦截的方法和装置
CN101610251B (zh) * 2009-07-21 2012-12-05 山东竞星信息科技有限公司 一种预定义关键字的信息拦截方法和设备
CN102377690B (zh) * 2011-10-10 2014-09-17 网易(杭州)网络有限公司 反垃圾邮件网关系统及方法
US9130778B2 (en) 2012-01-25 2015-09-08 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
US8954519B2 (en) * 2012-01-25 2015-02-10 Bitdefender IPR Management Ltd. Systems and methods for spam detection using character histograms
CN102685151A (zh) * 2012-06-05 2012-09-19 陈云昊 语音过滤及转发的方法
US9420437B2 (en) * 2012-09-25 2016-08-16 Business Texter, Inc. Mobile device communication system
CN103793398B (zh) * 2012-10-30 2018-09-04 腾讯科技(深圳)有限公司 检测垃圾数据的方法和装置
EP3036871A4 (en) 2013-08-20 2017-05-10 Longsand Limited Private tokens in electronic messages
CN103441924B (zh) * 2013-09-03 2016-06-08 盈世信息科技(北京)有限公司 一种基于短文本的垃圾邮件过滤方法及装置
CN104038391B (zh) * 2014-07-02 2017-11-17 网易(杭州)网络有限公司 一种垃圾邮件检测的方法和设备
CN106156093A (zh) * 2015-04-01 2016-11-23 阿里巴巴集团控股有限公司 广告内容的识别方法和装置
CN105007218B (zh) * 2015-08-20 2018-07-31 世纪龙信息网络有限责任公司 反垃圾电子邮件方法和系统
CN106211165B (zh) * 2016-06-14 2020-04-21 北京奇虎科技有限公司 检测外文骚扰短信的方法、装置及相应的客户端
CN113067765B (zh) * 2020-01-02 2023-01-13 中国移动通信有限公司研究院 一种多媒体消息监控方法、装置及设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040073617A1 (en) * 2000-06-19 2004-04-15 Milliken Walter Clark Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail
US7321922B2 (en) * 2000-08-24 2008-01-22 Yahoo! Inc. Automated solicited message detection
US6769016B2 (en) * 2001-07-26 2004-07-27 Networks Associates Technology, Inc. Intelligent SPAM detection system using an updateable neural analysis engine
US8046832B2 (en) * 2002-06-26 2011-10-25 Microsoft Corporation Spam detector with challenges
US7500096B2 (en) * 2002-12-31 2009-03-03 Pitney Bowes Inc. System and method for message filtering by a trusted third party
US7219148B2 (en) * 2003-03-03 2007-05-15 Microsoft Corporation Feedback loop for spam prevention
US8533270B2 (en) * 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US20050216564A1 (en) * 2004-03-11 2005-09-29 Myers Gregory K Method and apparatus for analysis of electronic communications containing imagery
US7664819B2 (en) * 2004-06-29 2010-02-16 Microsoft Corporation Incremental anti-spam lookup and update service
US20060259551A1 (en) * 2005-05-12 2006-11-16 Idalis Software Detection of unsolicited electronic messages
US20070016641A1 (en) * 2005-07-12 2007-01-18 International Business Machines Corporation Identifying and blocking instant message spam
CN101087259A (zh) * 2006-06-07 2007-12-12 深圳市都护网络科技有限公司 一种过滤国际互联网络中垃圾电子邮件的系统及其实现方法
US20080059590A1 (en) * 2006-09-05 2008-03-06 Ecole Polytechnique Federale De Lausanne (Epfl) Method to filter electronic messages in a message processing system
CN101166159B (zh) * 2006-10-18 2010-07-28 阿里巴巴集团控股有限公司 一种确定垃圾信息的方法及系统
JPWO2008075426A1 (ja) * 2006-12-20 2010-04-02 デュアキシズ株式会社 通信制御装置及び通信制御方法
US8458262B2 (en) * 2006-12-22 2013-06-04 At&T Mobility Ii Llc Filtering spam messages across a communication network
US20090138565A1 (en) * 2007-11-26 2009-05-28 Gil Shiff Method and System for Facilitating Content Analysis and Insertion
CN101415159B (zh) * 2008-12-02 2010-06-02 腾讯科技(深圳)有限公司 对垃圾邮件进行拦截的方法和装置

Also Published As

Publication number Publication date
BRPI0922719B1 (pt) 2021-01-19
CA2743273C (en) 2016-01-12
CN101415159A (zh) 2009-04-22
RU2474970C1 (ru) 2013-02-10
WO2010063213A1 (zh) 2010-06-10
MX2011005771A (es) 2011-06-20
CA2743273A1 (en) 2010-06-10
BRPI0922719A2 (pt) 2016-01-05
US20110202620A1 (en) 2011-08-18

Similar Documents

Publication Publication Date Title
CN101415159B (zh) 对垃圾邮件进行拦截的方法和装置
Wittel et al. On Attacking Statistical Spam Filters.
Ntoulas et al. Detecting spam web pages through content analysis
CN103678405B (zh) 邮件索引建立方法及系统、邮件搜索方法及系统
US7809795B1 (en) Linguistic nonsense detection for undesirable message classification
CA2513851C (en) Phrase-based generation of document descriptions
O'Brien et al. Spam filters: Bayes vs. chi-squared; letters vs. words
US6980992B1 (en) Tree pattern system and method for multiple virus signature recognition
Egozi et al. Phishing email detection using robust nlp techniques
CN102012896B (zh) 一种实现文件内容批量修改的方法和装置
Joshi et al. Phishing attack detection using feature selection techniques
CN101944066A (zh) 固态硬盘的接口处理方法、固态硬盘以及存储系统
CN103699567B (zh) 一种基于标题指纹与正文指纹实现相同新闻聚类的方法
CN103106346A (zh) 一种基于离线手写图片分割与识别的性格预测系统
CN100485691C (zh) 一种目标文件的确定方法和装置
US8353035B1 (en) Systems and methods for creating text signatures for identifying spam messages
CN101030897B (zh) 一种入侵检测中模式匹配的方法
Stuart et al. A neural network classifier for junk e-mail
CN101599078A (zh) 一种文本检索的方法及装置
CN104077363B (zh) 邮件服务器及其进行邮件全文搜索的方法
CN106484691A (zh) 移动终端的数据存储方法和装置
CN102819595A (zh) 网页分类方法、装置及网络设备
US20040128536A1 (en) Method and system for detecting presence of malicious code in the e-mail messages of an organization
CN107273285A (zh) 测试项目的生成方法和装置
CN101552741A (zh) 一种电子邮箱系统及其系统邮件的输出方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant