CN101141416A - 一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统 - Google Patents

一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统 Download PDF

Info

Publication number
CN101141416A
CN101141416A CNA2007101754171A CN200710175417A CN101141416A CN 101141416 A CN101141416 A CN 101141416A CN A2007101754171 A CNA2007101754171 A CN A2007101754171A CN 200710175417 A CN200710175417 A CN 200710175417A CN 101141416 A CN101141416 A CN 101141416A
Authority
CN
China
Prior art keywords
mail
class
library
fingerprint
mails
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101754171A
Other languages
English (en)
Inventor
张尼
姜誉
方滨兴
郭莉
严立
马骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING QIMING XINGCHEN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING QIMING XINGCHEN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING QIMING XINGCHEN INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING QIMING XINGCHEN INFORMATION TECHNOLOGY Co Ltd
Priority to CNA2007101754171A priority Critical patent/CN101141416A/zh
Publication of CN101141416A publication Critical patent/CN101141416A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

实时垃圾邮件过滤方法和系统。首先提取邮件正文和邮件描述信息,采用高效的特征模式生成算法将邮件正文转化为若干指纹的集合,代表原始邮件。如果内存中没有邮件与当前邮件的内容相似,则在内存中新建一个邮件类,并保存当前邮件的指纹及描述等信息;仅更新邮件类中的描述信息,如果邮件类中包含的邮件数目超过预定义的垃圾阈值,则该邮件类被标注为垃圾邮件类,再次分入此类的邮件被过滤系统判定为垃圾邮件。本发明以较少数目的指纹有效识别垃圾邮件,维护开销小,不侵犯用户隐私;在执行效率和内存开销等方面具有较好的性能,用于大流量环境下过滤垃圾邮件,缓解垃圾邮件占用网络带宽问题,从而提高网络资源利用率,同时减轻用户端的过滤压力。

Description

一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统
技术领域
本发明涉及电子邮件收发领域,尤其涉及一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统。
背景技术
电子邮件系统是互联网应用的一个成功典范,它给人们的工作和生活等诸方面带来了深刻的变化。易用、开放和基于信任的设计理念使其成为当今最重要的通信方式之一,在某种程度上已经成为人们工作和生活中不可缺少的重要部分。电子邮件系统通过SMTP(Simple Mail Transfer Protocol)协议进行信息传输,在其内部中传递的信件一般称之为电子邮件(E-mail)。
根据SMTP协议,邮件的传输过程可分为发送,传输汇集和接收三个阶段,如图1所示。
发送阶段1:发送邮件客户端可能是合法用户也可能是垃圾发送者,他们将编辑好的邮件发送到发送邮件服务器。
传输汇集阶段2:发送邮件服务器根据接收到邮件的目的地址,依照SMTP协议将该邮件发送到接收邮件服务器,此阶段多个发送邮件服务器产生的邮件大量汇集于骨干网链路。
接收阶段3:接收邮件服务器接收目标地址为本网域的邮件。
在上述运用SMTP协议传输电子邮件的整个过程中,通过对发送阶段、传输阶段或接收阶段进行邮件流量的检测和过滤,有助于限制垃圾邮件的传输。
目前,在发送阶段和接收阶段使用的垃圾邮件过滤技术大致可分为接入过滤和内容过滤两种,但少有可用于传输汇集阶段的过滤技术。
接入过滤技术对邮件信头部分进行检查,可以提前发现或阻断非法信息,且不侵犯个人隐私。常见的方法有实时黑名单、域名反向查询、邮资策略等。
实时黑名单实际上是一组可供查询的IP地址列表。使用黑名单服务的软件向黑名单服务器发出查询请求,如果该地址被列入了黑名单,那么服务器会返回一个有效地址的答案;反之将得到一个否定答案。目前世界上大多数的主流邮件服务器都支持实时黑名单服务,因此该名单是可信任的。但这种方式最大弊端是容易发生“误判”,比如ISP提供的虚拟主机服务,一旦某个用户被认定发送垃圾邮件,就会导致该IP地址所在整个网域被列入黑名单,其它的用户也会受到牵连。
域名反向查询的原理是接收方查询发送者IP地址所对应的真实域名,如果查询结果和邮件宣称的域名不符,则认为该邮件为垃圾信息。该方法的缺点是无法区分发送者和中继者;同时,提供查询服务的站点易受到攻击;此外,不支持反向域名查询的合法网域也将被视为垃圾邮件源头。
邮资策略的原理是发送者要为每封信件付出一定的代价,即所谓的邮资,这个代价与发信规模成正比,对于合法的发送者来说是可以接受的,但对大规模垃圾发送者来说是难以承担的。反向图灵机测试就是每个发送者必须首先通过邮件服务器的一个简单的测试,例如准确描述图片中的数字等,从而证明发送者是人而不是机器。
内容过滤技术通过建立“垃圾邮件特征库”的方法来阻止垃圾邮件,通过对邮件的信封、信头、信体等内容进行对比检测,从而对垃圾邮件进行过滤。此外,人们还采用了散列技术、贝叶斯算法等。贝叶斯算法可以学习单词的频率和模式,这样可以将垃圾邮件和正常邮件关联起来进行判断。这是一种相对于关键字来说,更复杂和更智能化的内容过滤技术。内容过滤技术的缺点是速度慢、需要用户不断更新规则库或训练集等,随着垃圾邮件制造者技术水平的不断提高,这种方法很容易失效。
发明内容
为了克服现有技术结构的不足,本发明提供一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统。
本发明解决其技术问题所采用的技术方案是:一种可用于传输汇集阶段的实时垃圾邮件过滤方法,包括以下步骤;
有首先重组邮件会话,记录邮件的编号和收发件地址等描述信息;并提取邮件正文部分,使用高效的特征模式生成算法将邮件正文转化为若干指纹的集合,代表原始邮件的步骤;
有判断当前邮件的特征模式与内存中的特征模式的步骤;
有邮件库保留邮件类的描述信息,指纹库保留邮件的特征模式的步骤;
有使用内存管理算法淘汰最近没有访问的邮件类及其特征模式,保持模式库和邮件库的可用性的步骤。
如果当前邮件的特征模式与内存中的特征模式不匹配,则在内存中增加一个邮件类别,并在内存中保存邮件描述信息及特征模式;如果匹配,仅修改内存中邮件类别的描述信息(例如该类中相似邮件数目);如果邮件类中包含的邮件数目超过预定义的垃圾阈值,则该邮件类被标注为垃圾邮件类,再次分入此类的邮件被过滤系统判定为垃圾邮件。
本发明还提供了一种垃圾邮件过滤的系统,包括:
使用高效的散列算法将原始邮件转化为特征模式的指纹集合装置;
用于模式间相似性比较,将邮件流量进行分类的分类装置;
维护邮件类描述信息、特征模式信息以供系统统计分析的统计分析装置;
用于管理内存,维持模式库与邮件库的动态自稳的管理装置。
指纹集合装置连接分类装置,分类装置连接统计分析装置、邮件库和指纹库,管理装置和统计分析装置分别连接邮件库和指纹库。
本发明垃圾邮件过滤系统设计依据的主要原理如下:
本发明对传输汇集阶段的100万封邮件进行分析和统计,得出如下结论:
垃圾发送者通常在短时间内发送大量内容重复的邮件,而合法邮件很少具有这种特征。至少2%的垃圾邮件制造者产生了20%左右的垃圾邮件流量。在这种背景下,相同发送者一次发送的垃圾邮件内容之间必然存在某些共性特征。根据上述结论可知,在传输汇集阶段,邮件是可以根据内容重复性进行分类。进一步,垃圾邮件类中相似邮件数量较多,合法邮件类中相似邮件数量较小,通过定义合适的垃圾阈值可以将这两类邮件区分开。在此基础上,集成黑白名单和规则匹配技术可以在汇集阶段有效识别垃圾邮件。
当然,本发明中的垃圾邮件过滤系统和现有的垃圾过滤技术可以任意结合,从而使整个反垃圾邮件体系能够从全局的角度更大程度限制垃圾邮件的传输。
尽管从实际过滤效果来看,基于发送和接收阶段的解决方案使用户接收的垃圾邮件数量显著减少,但垃圾邮件占用网络带宽、浪费存储和运算资源的问题依然没有得到解决。认为解决垃圾邮件问题应该将“战线前移”,研究可应用于邮件传输汇集的实时过滤技术,这一方法可有效提高网络资源利用率,同时减轻用户端的过滤压力。同其它阶段相比,传输阶段是邮件流量汇集之处,需要一种有效的垃圾邮件过滤方法,该方法必须满足实时性、准确性,且不侵犯用户隐私。
本发明的有益效果,采用以上处理,可以对垃圾邮件进行实时过滤。首先采用高效的指纹算法,将邮件内容转化为特征模式;接着根据模式之间相似性对邮件流量进行分类,同时在内存数据结构中保存特征模式和邮件类描述信息;通过对邮件类描述信息进行统计分析自动发现垃圾邮件,并采用有效的内存管理策略淘汰无用的特征模式和邮件实例,保持模式库和邮件库的动态自稳。该方法的特点是:(1)采用无监督的学习机制,维护开销小,通过一次训练可获取算法中所需要的计算参数。(2)以较少数目的指纹有效地识别垃圾邮件,在分类性能、执行速度、内存开销等方面具有较好的性能,能够满足大流量环境下实时邮件过滤的需求。(3)对特征模式进行操作,因而不侵犯用户隐私。
附图说明
图1为邮件的传输过程示意图。
图2是本发明的垃圾邮件过滤系统的基本原理图。
图3为用指纹集合表示邮件正文的示意图。
图4内存数据结构示意图,包括邮件库和模式库两部分的设计。
图4中:
I:相似邮件数      II:第一封邮件标识
III:一封邮件标识  IV:指向散列桶入口地址的指针
V:指纹            VI:指向邮件类的指针
下面结合附图和实施例对发明进一步说明。
具体实施方式
实施例1:
图2是本发明的垃圾邮件过滤系统的基本原理图。如图2所示,本发明的系统包括一个指纹集合装置模块,使用高效的散列算法将原始邮件转化为特征模式(指纹集合),并以此唯一表征原始邮件;
一个分类装置模块,通过模式之间的相似性比较,将邮件流量进行分类;
一个统计分析装置模块,通过规则匹配和对类描述信息的统计分析,自动发现垃圾邮件;
一个管理装置模块,在模式库和邮件库中分别建立和维护每个邮件类描述信息及对应的指纹集合,并采用基于类平均距离的模式淘汰算法,维持模式库与邮件库的动态自稳;
上述装置连接关系如图2所示。指纹集合装置首先从完整的SMTP连接中解析出邮件正文,然后将邮件正文转化为特征模式,以此来近似的代表该邮件。分类装置根据模式之间相似性对邮件流量进行分类;统计分析装置通过规则匹配和对类描述信息的统计分析,自动发现垃圾邮件;管理装置在内存数据结构(包括邮件库和指纹库)中建立和维护邮件类描述信息及指纹信息,同时采用有效的内存管理策略淘汰无用的特征模式和邮件实例,保持模式库和邮件库的动态自稳。
各装置的详细操作将在下面分别详细描述。
指纹集合装置模块:首先,描述如何根据本发明构建邮件正文对应的特征模式,即指纹集合。
将一封邮件的正文部分(以下简称为邮件)看成是长度为x的字节序列M=b1b2...bx。M的长度记为length(M)。为判断给定的k封邮件是否存在内容相似性,从而可以聚成一类,将每封邮件看成是由连续n个长度为l字节(l一般取较大的值,例如100)的字节序列构成的集合,即可以将一封邮件表示为:M={B1,B2,...,Bn},其中Bi=bibi+1...bi+l-1,length(Bi)=l,n≤x-l+1,Bi和Bi+1(1≤i<n)有重叠,如图3所示。如果k封邮件的交集不空,则认为这些邮件内容相似,可以聚为一类。
为便于描述,先引入几个定义。
定义1(窗口).称原始邮件M中连续的字节子序列bibi+1...bi+l-1为长度等于l的窗口。
定义2(指纹).设M={B1,B2,...,Bn},F:Bi→fi是一个字节序列到正的长整数的投影,称fi为Bi的指纹。
定义3(特征模式).由M的若干指纹构成的集合Pl(M)称为M的特征模式。Pl(M)中包含的指纹的数目|Pl(M)|称为M的模式容量。
注意到,每个原始字节序列Bi一般较长,如果直接存储和比较Bi必将占用极大的内存空间和耗费时间。为提高效率,一方面采用带桶的散列表结构,散列的原始对象是Bi;另一方面在桶中不存储冲突的Bi而是存储其对应的指纹fi,如图3所示。
由前述可知,一封邮件由多个指纹来表示,指纹集合是该邮件的特征模式。为使特征模式具有代表性,要求指纹函数的值域足够大,并追求取值唯一。即,如果两个指纹信息不等,则它们代表的原始对象不同;如果两个指纹信息相同,则它们所代表的原始对象不同的概率极小。
因此,采用Rabin算法来生成指纹,它具有较好的分布性能,同时又是一种增量计算技术,即计算下一个指纹可以利用以前的运算结果,只需一次减法、乘法、加法及取模操作,效率较高。F(M,i,l)是对M中从第i个字节开始、窗口长度为l的数据采用指纹算法所产生的指纹信息,如式(1)、(2)所示,其中p和δ为常数。
F(M,i,l)=bipl-1+bi+1pl-2...+bi+l-2p+bi+l-1 mod δ  (1)
F(M,i+1,l)=(F(M,i,l)-bipl-1)×p+bi+l     mod δ  (2)
在具体实现中,采用如下的特征模式生成算法:
(1)如果length(M)<=2l,则令Pl(M)={F(M,1,l),F(M,2,l),...,F(M,m,l)}。算法结束。
(2)令Pl(M)=,s=0。
(3)s++,计算F(M,s,l),直到存在s使F(M,s,l)&(2r-1)==1或者s>length(M)-l。
(4)如果s≤length(M)-l,则令Pl(M)=Pl(M)Y{F(M,s,l)};如果|Pl(M)|==m,算法结束,否则重复步骤(3)。
(5)(此时s>length(M)-l,并且有|Pl(M)|<m)令s=0。
(6)s++,计算F(M,s,l),令Pl(M)=Pl(M)Y{F(M,s,l)},直到s≥m-|Pl(M)|。算法结束。
实验中r的参考取值为5。上述算法步骤(1)表示当邮件正文长度不是很大时,从邮件正文位置开始,选取前m个指纹组成特征模式(m-first方法)。步骤(2)至(4)表示当邮件正文较长时,根据r-one方法选取指纹组成特征模式,其目的是使该算法比只使用r-one方法确定指纹选取起始位置的算法的抗干扰性更强,既使垃圾发送者对邮件内容做填充和调整,仍可有效识别垃圾邮件。如果r_one方法未能选取足够的指纹,步骤(5)和(6)再从邮件正文开始处生成连续m-|Pl(M)|个指纹加入特征模式集合,这种情况下算法将混合使用r-one方法和m-first方法。
实验中,m的参考取值为60。
分类装置模块:
其次,描述如何根据本发明计算新到达的邮件与原始邮件库的近似度,判断其所属类别,即实现类别判断模块。
定义4(模式相似性).如果两个模式中至少有k个(1≤k≤m)指纹相等,则称这两个模式相似。如式(3)所示。
|Pl(M1)IPl(M2)|>=kPl(M1)∝Pl(M2)(3)
k的取值与窗口长度l密切相关。l取值较大,两个指纹相同的概率较小,较小的k值就可以确定两个模式是否相似。但这时窗口内数据的变化将使计算后形成的指纹不同,可能会降低相似识别的精度。l取值较小,算法抗干扰能力强,但两个指纹相同(冲突)的概率较大,需要比较模式中的大多数指纹信息,例如k>=0.8m,才能说明两个模式相似。实验中,根据内存消耗和检测准确率等因素,l的参考取值为70,k的参考取值为1。
定义5(邮件类).如果两个模式相似,称其代表的两封邮件相似且属于相同的邮件类Ci。如式(4)所示。Ci中的邮件数目称为类的容量,用Cap(Ci)表示。
Pl(M1)∝Pl(M2)M1∝M2(M1∈Ci,M2∈Ci)(4)由式(4)可知,通过模式间的相似性比较,可以对邮件流量进行分类。
统计分析装置模块:
一般来说,垃圾邮件的类容量较大,而合法邮件的类容量较小。因此,通过定义某个合理的阈值(实验中参考取值为50),并结合黑白名单和规则匹配技术可有效区分垃圾与合法邮件。
管理装置模块:
在本模块中,首先介绍内存数据结构的设计,然后描述内存管理策略。
处理邮件数据过程中,系统需要频繁对内存中存储的大量指纹信息进行检索、比较,并清除与被淘汰邮件类有关的指纹以保持模式有效性。为支持上述操作,设计了一套内存数据结构,它由邮件库和模式库两部分组成,如图4所示。
(1)模式库以散列表形式组织,负责指纹的保存、检索和组织工作。每个单元对应一个桶,桶内每个元素由一个指纹和该指纹对应的邮件类在邮件库中的入口地址组成。
(2)邮件库以链表形式组织,保存全部邮件类的描述信息,用于全局统计和邮件类更新。描述信息包括所属邮件类的容量、邮件类第一封邮件和最近一封邮件的ID(identification)、类中邮件指纹信息在模式库中的散列地址。
合理的散列算法应能够使键值均匀分布在散列表的各个桶中,保证查询效率;否则,在桶中查询或添加一个元素会带来较大开销,失去散列表优越性。经过试验,选用UNIX System V的Uvhash算法作为散列函数。为充分利用Uvhash函数针对较长字符序列具有很好的散列效果的优点,散列的原始对象是Bi而不是其对应的指纹fi,但是为节省空间,在桶中不存储Bi而是存储其对应的指纹fi。其中fi为Bi经Rabin算法生成的指纹。
也就是说,指纹fi在散列表中的入口地址(散列下标)由式(5)决定。如果两个指纹的位置相同,则在指纹桶中添加一个新元素而不是覆盖已有指纹。
hi=Uvhash(Bi)(5)
其次,引入邮件类平均距离的定义,并据此设计相应的内存管理策略,淘汰无用的邮件类。
定义6(邮件类平均距离).设Ci是第i个邮件类。算法按到达顺序为每封邮件分配唯一的ID(其值为正整数),称任意两个邮件ID之间的差为这两个邮件的距离。设If和Ie分别为Ci中已存在的第一封和最后一封邮件的ID,I为系统当前处理的邮件ID,If<Ie<I,D(Ci)为Ci的平均距离,则有
D ( C i ) = I e - I f Cap ( C i ) if Cap ( C i ) > 1 D ( C i ) = ∞ if Cap ( C i ) = 1 - - - ( 6 )
设di=I-Ie,算法根据如下规则淘汰邮件类:
(1)对于垃圾邮件类,di>βD(Ci);经验表明,β的参考取值为100较适宜,保证在垃圾邮件发送期内不删除对应的邮件类。(2)对于非垃圾邮件类,di>Dg,其中Dg为算法参数,实验中Dg的参考取值为10000。
实施例2:一种可用于传输汇集阶段的实时垃圾邮件过滤方法,包括以下步骤;
(1)过滤系统首先重组邮件会话,记录例如邮件的编号和收发件地址等描述信息;并提取邮件正文部分。为减少内存开销保证系统的可用性,使用高效的特征模式生成算法将邮件正文转化为若干指纹的集合(系统中称此集合为特征模式),以代表原始邮件。
(2)如果当前邮件的特征模式与内存中的特征模式不匹配,则在内存中增加一个邮件类别,并在内存中保存邮件描述信息及特征模式;如果匹配,仅修改内存中邮件类别的描述信息(例如该类中相似邮件数目);如果邮件类中包含的邮件数目超过预定义的垃圾阈值,则该邮件类被标注为垃圾邮件类,再次分入此类的邮件被过滤系统判定为垃圾邮件。
(3)设计邮件库保留邮件类的描述信息,指纹库保留邮件的特征模式,以支持高效查询和处理。
(4)使用内存管理算法淘汰最近没有访问的邮件类及其特征模式,保持模式库和邮件库的可用性。
有按邮件到达顺序分配其唯一的序号的步骤。
有将邮件正文视为连续的、长度为l字节的序列集合。如果正文长度不大于2l,则依次对正文字节序列进行指纹生成,组成特征模式,以此近似表示原始邮件内容的步骤。
有将邮件正文视为连续的、长度为l字节的序列集合。如果正文长度大于2l,从首字节开始,步长为一字节,每次对长度为l的字节序列进行指纹生成,作为原始字节序列的一个指纹。根据r-one方法和m-first方法选取若干指纹组成特征模式,以此近似表示原始邮件内容的步骤。
历史邮件特征模式中所有指纹保存在内存数据结构中,如果当前邮件特征模式与历史邮件的特征模式中相同的指纹数目超过预定义值,则两个特征模式代表的邮件内容是相似的,即,两封邮件属于相同邮件类。
有对邮件类中描述信息进行统计分析包括,通过查看相似邮件数量是否超过垃圾阈值,是否为错误通告邮件来识别垃圾邮件的步骤。
一种垃圾邮件过滤的系统,包括:
使用高效的散列算法将原始邮件转化为特征模式的指纹集合装置;
用于模式间相似性比较,将邮件流量进行分类的分类装置;
维护邮件类描述信息、特征模式信息以供系统统计分析的统计分析装置;
用于管理内存,维持模式库与邮件库的动态自稳的管理装置。
本过滤系统可安装于观测网络的接入点处,可对进入或流出网络的邮件流量进行实时过滤。
本过滤系统可对以tcpdump方式捕获的邮件流量进行离线处理。
内存数据结构包括:
(1)邮件库以链表形式组织,保存全部邮件类的描述信息,用于全局统计和邮件类更新。
(2)模式库以散列表形式组织,负责指纹的保存、检索和组织工作。
所述模式库中每个单元对应一个桶,桶内每个元素包含一个指纹和该指纹对应的邮件类在邮件库中的入口地址。
所述邮件库中每个元素记录的描述信息包含该邮件类中相似邮件数量、该邮件类中第一封和最后一封邮件的序号、该邮件类中指纹信息在模式库中的入口(桶)地址等。
定义每个邮件类中首、尾邮件序号之差与该邮件类中的邮件数量的比值为该邮件类平均距离。
以邮件平均距离为标准,如果垃圾邮件类在设定周期内无邮件更新,则淘汰此邮件类及模式库中相应的指纹信息。
以邮件平均距离为标准,如果合法邮件类在设定周期内无邮件更新,则淘汰此邮件类及模式库中相应的指纹信息。

Claims (16)

1.一种实时垃圾邮件过滤的方法,其特征在于包括以下步骤:
有首先重组邮件会话,记录邮件的编号和收发件地址等描述信息;并提取邮件正文部分,使用高效的特征模式生成算法将邮件正文转化为若干指纹的集合,代表原始邮件的步骤;
有判断当前邮件的特征模式与内存中的特征模式的步骤;
有邮件库保留邮件类的描述信息,指纹库保留邮件的特征模式的步骤;
有使用内存管理算法淘汰最近没有访问的邮件类及其特征模式,保持模式库和邮件库的可用性的步骤。
2.根据权利要求1所述的一种实时垃圾邮件过滤的方法,其特征在于,如果当前邮件的特征模式与内存中的特征模式不匹配,则在内存中增加一个邮件类别,并在内存中保存邮件描述信息及特征模式;如果匹配,仅修改内存中邮件类别的描述信息;如果邮件类中包含的邮件数目超过预定义的垃圾阈值,则该邮件类被标注为垃圾邮件类,再次分入此类的邮件被过滤系统判定为垃圾邮件。
3.根据权利要求1所述的一种实时垃圾邮件过滤的方法,其特征在于,有按邮件到达顺序分配其唯一的序号的步骤。
4.根据权利要求1所述的一种实时垃圾邮件过滤的方法,其特征在于,有将邮件正文视为连续的、长度为l字节的序列集合,如果正文长度不大于2l,则依次对正文字节序列进行指纹生成,组成特征模式,以此近似表示原始邮件内容的步骤。
5.根据权利要求1所述的一种实时垃圾邮件过滤的方法,其特征在于,有将邮件正文视为连续的、长度为l字节的序列集合,如果正文长度大于2l,从首字节开始,步长为一字节,每次对长度为l的字节序列进行指纹生成,作为原始字节序列的一个指纹。根据r-one方法和m-first方法选取若干指纹组成特征模式,以此近似表示原始邮件内容的步骤。
6.根据权利要求1所述的一种实时垃圾邮件过滤的方法,其特征在于,历史邮件特征模式中所有指纹保存在内存数据结构中,如果当前邮件特征模式与历史邮件的特征模式中相同的指纹数目超过预定义值,则两个特征模式代表的邮件内容是相似的,即,两封邮件属于相同邮件类。
7.根据权利要求1所述的一种实时垃圾邮件过滤的方法,其特征在于,对邮件类中描述信息进行统计分析包括,查看相似邮件数量是否超过垃圾阈值,是否为错误通告邮件来识别垃圾邮件。
8.一种垃圾邮件过滤的系统,其特征在于包括:
使用高效的散列算法将原始邮件转化为特征模式的指纹集合装置;
用于模式间相似性比较,将邮件流量进行分类的分类装置;
维护邮件类描述信息、特征模式信息以供系统统计分析的统计分析装置;
用于管理内存,维持模式库与邮件库的动态自稳的管理装置;
指纹集合装置连接分类装置,分类装置连接统计分析装置、邮件库和指纹库,管理装置和统计分析装置分别连接邮件库和指纹库。
9.根据权利要求8所述的垃圾邮件过滤系统,其特征在于,安装于观测网络的接入点处,对进入或流出网络的邮件流量进行实时过滤。
10.根据权利要求8所述的垃圾邮件过滤系统,其特征在于,以tcpdump方式捕获的邮件流量进行离线处理。
11.根据权利要求8所述的垃圾邮件过滤系统,其特征在于,
(1)邮件库以链表形式组织,保存全部邮件类的描述信息,用于全局统计和邮件类更新;
(2)模式库以散列表形式组织,负责指纹的保存、检索和组织工作。
12.根据权利要求8所述的垃圾邮件过滤系统,其特征在于,所述模式库中每个单元对应一个桶,桶内每个元素包含一个指纹和该指纹对应的邮件类在邮件库中的入口地址。
13.根据权利要求8所述的垃圾邮件过滤系统,其特征在于,所述邮件库中每个元素记录的描述信息包含该邮件类中相似邮件数量、该邮件类中第一封和最后一封邮件的序号、该邮件类中指纹信息在模式库中的入口地址。
14.根据权利要求8所述的垃圾邮件过滤系统,其特征在于,定义每个邮件类中首、尾邮件序号之差与该邮件类中的邮件数量的比值为该邮件类平均距离。
15.根据权利要求8所述的垃圾邮件过滤系统,其特征在于,以邮件平均距离为标准,如果垃圾邮件类在设定周期内无邮件更新,则淘汰此邮件类及模式库中相应的指纹信息。
16.根据权利要求8所述的垃圾邮件过滤系统,其特征在于,以邮件平均距离为标准,如果合法邮件类在设定周期内无邮件更新,则淘汰此邮件类及模式库中相应的指纹信息。
CNA2007101754171A 2007-09-29 2007-09-29 一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统 Pending CN101141416A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101754171A CN101141416A (zh) 2007-09-29 2007-09-29 一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101754171A CN101141416A (zh) 2007-09-29 2007-09-29 一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统

Publications (1)

Publication Number Publication Date
CN101141416A true CN101141416A (zh) 2008-03-12

Family

ID=39193165

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101754171A Pending CN101141416A (zh) 2007-09-29 2007-09-29 一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统

Country Status (1)

Country Link
CN (1) CN101141416A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316172B (zh) * 2008-05-12 2010-07-21 中国联合网络通信集团有限公司 一种异常邮件检测系统及方法
CN101877680A (zh) * 2010-05-21 2010-11-03 电子科技大学 一种垃圾邮件发送行为控制系统及方法
CN102323934A (zh) * 2011-08-31 2012-01-18 深圳市彩讯科技有限公司 基于滑动窗口的邮件指纹提取方法及邮件相似判断方法
CN102340455A (zh) * 2010-07-16 2012-02-01 汉达精密电子(昆山)有限公司 以指纹资料加密的电子邮件传送方法与接收方法
CN102598007A (zh) * 2009-05-26 2012-07-18 韦伯森斯公司 有效检测采指纹数据和信息的系统和方法
CN102685200A (zh) * 2011-02-17 2012-09-19 微软公司 使用模板生成和指纹比较特征管理不想要的通信
CN107294834A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种识别垃圾邮件的方法和装置
CN107819664A (zh) * 2016-09-12 2018-03-20 阿里巴巴集团控股有限公司 一种垃圾邮件的识别方法、装置及电子设备
CN108055195A (zh) * 2017-12-22 2018-05-18 广东睿江云计算股份有限公司 一种过滤垃圾电子邮件的方法
CN110417643A (zh) * 2019-07-29 2019-11-05 世纪龙信息网络有限责任公司 邮件处理方法和装置
CN112154422A (zh) * 2018-06-01 2020-12-29 三菱电机株式会社 可疑邮件检测装置、可疑邮件检测方法以及可疑邮件检测程序
US11258789B2 (en) 2018-12-04 2022-02-22 Forcepoint Llc System and method for fingerprint validation
EP4199471A1 (en) * 2021-12-17 2023-06-21 AO Kaspersky Lab System and method for restricting the reception of e-mails from a sender of bulk spam mail
US12028304B2 (en) 2021-12-17 2024-07-02 AO Kaspersky Lab System and method for restricting the reception of e-mails from a sender of bulk spam mail

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316172B (zh) * 2008-05-12 2010-07-21 中国联合网络通信集团有限公司 一种异常邮件检测系统及方法
CN102598007A (zh) * 2009-05-26 2012-07-18 韦伯森斯公司 有效检测采指纹数据和信息的系统和方法
CN102598007B (zh) * 2009-05-26 2017-03-01 韦伯森斯公司 有效检测采指纹数据和信息的系统和方法
CN101877680A (zh) * 2010-05-21 2010-11-03 电子科技大学 一种垃圾邮件发送行为控制系统及方法
CN102340455A (zh) * 2010-07-16 2012-02-01 汉达精密电子(昆山)有限公司 以指纹资料加密的电子邮件传送方法与接收方法
CN102685200A (zh) * 2011-02-17 2012-09-19 微软公司 使用模板生成和指纹比较特征管理不想要的通信
CN102323934A (zh) * 2011-08-31 2012-01-18 深圳市彩讯科技有限公司 基于滑动窗口的邮件指纹提取方法及邮件相似判断方法
CN107294834A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种识别垃圾邮件的方法和装置
CN107819664A (zh) * 2016-09-12 2018-03-20 阿里巴巴集团控股有限公司 一种垃圾邮件的识别方法、装置及电子设备
CN108055195A (zh) * 2017-12-22 2018-05-18 广东睿江云计算股份有限公司 一种过滤垃圾电子邮件的方法
CN112154422A (zh) * 2018-06-01 2020-12-29 三菱电机株式会社 可疑邮件检测装置、可疑邮件检测方法以及可疑邮件检测程序
US11258789B2 (en) 2018-12-04 2022-02-22 Forcepoint Llc System and method for fingerprint validation
CN110417643A (zh) * 2019-07-29 2019-11-05 世纪龙信息网络有限责任公司 邮件处理方法和装置
CN110417643B (zh) * 2019-07-29 2021-10-08 世纪龙信息网络有限责任公司 邮件处理方法和装置
EP4199471A1 (en) * 2021-12-17 2023-06-21 AO Kaspersky Lab System and method for restricting the reception of e-mails from a sender of bulk spam mail
US12028304B2 (en) 2021-12-17 2024-07-02 AO Kaspersky Lab System and method for restricting the reception of e-mails from a sender of bulk spam mail

Similar Documents

Publication Publication Date Title
CN101141416A (zh) 一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统
AU2004202268B2 (en) Origination/destination features and lists for spam prevention
US7660865B2 (en) Spam filtering with probabilistic secure hashes
US7475118B2 (en) Method for recognizing spam email
Qian et al. On Network-level Clusters for Spam Detection.
US20180219774A1 (en) Classifying a message based on likelihood of spoofing
AU2005304883B2 (en) Message profiling systems and methods
US8621638B2 (en) Systems and methods for classification of messaging entities
EP2446411B1 (en) Real-time spam look-up system
US7610344B2 (en) Sender reputations for spam prevention
EP1407377B1 (en) Apparatus and method for handling electronic mail
US7548544B2 (en) Method of determining network addresses of senders of electronic mail messages
US8782781B2 (en) System for reclassification of electronic messages in a spam filtering system
CN101729389B (zh) 基于流量预测和可信网络地址学习的流量控制装置和方法
US20050102366A1 (en) E-mail filter employing adaptive ruleset
EP1635524A1 (en) A method and system for identifying and blocking spam email messages at an inspecting point
CA2540571A1 (en) Dynamic message filtering
CN101299729B (zh) 一种基于拓扑行为的垃圾邮件判定方法
CN100556039C (zh) 消除垃圾邮件误判的方法及系统
US8819142B1 (en) Method for reclassifying a spam-filtered email message
JP2010191693A (ja) 電子メール送信ホスト分類システムおよび電子メール送信ホスト分類方法ならびにそのためのプログラム
KR100857124B1 (ko) 유해 메시지 여과 시스템과 그 여과 방법 및 이를 기록한기록매체
JP2008519532A (ja) メッセージプロファイリングシステムおよび方法
Coshkun et al. Use of Naive Bayes Classifier for Spam Filtering
Kumar et al. Consignor is a Spammer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080312