CN101188580A - 一种实时垃圾电子邮件过滤方法及系统 - Google Patents

一种实时垃圾电子邮件过滤方法及系统 Download PDF

Info

Publication number
CN101188580A
CN101188580A CNA2007101788356A CN200710178835A CN101188580A CN 101188580 A CN101188580 A CN 101188580A CN A2007101788356 A CNA2007101788356 A CN A2007101788356A CN 200710178835 A CN200710178835 A CN 200710178835A CN 101188580 A CN101188580 A CN 101188580A
Authority
CN
China
Prior art keywords
mail
correspondent
spam
real time
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101788356A
Other languages
English (en)
Other versions
CN101188580B (zh
Inventor
张尼
姜誉
方滨兴
张智江
张范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Communication Co Ltd
Original Assignee
China United Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Communication Co Ltd filed Critical China United Communication Co Ltd
Priority to CN2007101788356A priority Critical patent/CN101188580B/zh
Publication of CN101188580A publication Critical patent/CN101188580A/zh
Application granted granted Critical
Publication of CN101188580B publication Critical patent/CN101188580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种实时垃圾电子邮件过滤方法,用于在网络互联点处过滤垃圾邮件,包括:步骤1,依据邮件中的路由信息构建路径集合P,路径集合P为:{发送通信者,接收通信者}和/或{发送通信者,信宿};步骤2,按照IP地址映射或者域名映射将路径集合P中的元素的IP地址或者域名进行属性空间映射;步骤3,依据路径集合P中各元素的属性空间映射结果判断当前邮件是否为垃圾邮件,如果是,执行步骤4,否则不处理该当前邮件;步骤4,过滤该当前邮件。本发明仅对邮件命令和信头中的内容进行解析,处理速度快,能够提高网络资源利用率,同时减轻用户端的过滤压力。

Description

一种实时垃圾电子邮件过滤方法及系统
技术领域
本发明涉及电子邮件领域,尤其涉及一种实时垃圾电子邮件过滤方法及系统。
背景技术
电子邮件系统是互联网应用的一个成功典范,它给人们的工作和生活带来了极大的便利,使不同国家的人们可以方便、快捷的进行合作。电子邮件系统通过简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)进行信息传输,在其内部中传递的信件一般称之为电子邮件(E-mail)。
根据SMTP协议,邮件的传送过程可分为发送、传输和接收三个阶段,如图1所示。
发送邮件客户端向邮件服务器发送电子邮件为发送阶段:发送邮件客户端可能是合法用户也可能是垃圾邮件发送者,他们将编辑好的邮件发送到发送邮件服务器。
邮件在发送邮件服务器和接收邮件服务器之间传送为传输阶段:发送邮件服务器根据接收到邮件的目的地址,依照SMTP协议将该邮件发送到接收邮件服务器,此阶段多个发送邮件服务器产生的邮件大量汇集于骨干网链路。
接收邮件服务器接收目标地址为本网域的邮件为接收阶段。
在上述运用SMTP协议传输电子邮件的整个过程中,通过对发送阶段、传输阶段或接收阶段进行邮件流量的检测和过滤,有助于限制垃圾邮件的传输。
目前,在发送阶段和接收阶段使用的垃圾邮件过滤技术大致可分为内容过滤和接入过滤两种,但少有可用于传输阶段的过滤技术。
内容过滤技术通过建立“垃圾邮件特征库”的方法来阻止垃圾邮件,通过对邮件的信封、信头和信体等内容进行对比检测,从而对垃圾邮件进行过滤。此外,人们还采用了散列技术、贝叶斯算法等。贝叶斯算法可以学习单词的频率和模式,这样可以将垃圾邮件和正常邮件关联起来进行判断。这是一种相对于关键字来说,更复杂和更智能化的内容过滤技术。内容过滤技术的缺点是速度慢、需要用户不断更新规则库或训练集等,随着垃圾邮件制造者技术水平的不断提高,这种方法很容易失效。
接入过滤技术对邮件信头部分进行检查,可以提前发现或阻断非法信息,且不侵犯个人隐私。常见的方法有实时黑名单、邮资策略、基于DNS的验证技术、路径分析法等。
实时黑名单实际上是一组可供查询的IP地址列表。使用黑名单服务的软件向黑名单服务器发出查询请求,如果该地址被列入了黑名单,那么服务器会返回一个有效地址的答案;反之将得到一个否定答案。目前世界上大多数的主流邮件服务器都支持实时黑名单服务,因此该名单是可信任的。但这种方式最大弊端是容易发生“误判”,比如ISP提供的虚拟主机服务,一旦某个用户被认定发送垃圾邮件,就会导致该IP地址所在整个网域被列入黑名单,其它的用户也会受到牵连。
邮资策略的原理是发送者要为每封信件付出一定的代价,即所谓的邮资,这个代价与发信规模成正比,对于合法的发送者来说是可以接受的,但对大规模垃圾邮件发送者来说是难以承担的。反向图灵机测试就是每个发送者必须首先通过邮件服务器的一个简单的测试,例如准确描述图片中的数字等,从而证明发送者是人而不是机器。邮资策略处理速度较慢,无法应用于实时处理的环境。
基于DNS的验证技术的原理是,接收邮件服务器收到一封邮件时通过DNS解析和DNS反解析查询发送者IP地址或域名信息,如果查询结果与邮件宣称的内容不符,则认为该信件为垃圾邮件而拒收。基于DNS的验证技术对于使用虚假域名发送垃圾邮件的情况比较有效,但对于通过被控制的、具有真实域名的结点发送垃圾邮件的情况就无能为力了。同时,不支持反向DNS验证的合法网域也将被视为垃圾邮件源,易产生误报。此外,基于DNS的验证技术处理速度较慢,一般无法应用于实时处理的环境。
基于路径分析的垃圾邮件过滤其原理是,通过邮件信头中的接收行字段(Received line)中的路径信息来统计邮件服务器的历史行为,从而判断其以后是否会发送垃圾邮件。该方法以标注过的邮件集(分为垃圾邮件、合法邮件两类)为输入,提取接收行中所有邮件服务器对应的IP地址,统计这些地址在垃圾邮件与合法邮件中的出现频率,为其评分建立邮件服务器的信誉度。然后,对于收到的一封邮件,如果其来自于信誉度较高的邮件服务器,则被标注为合法邮件,否则将被标注为垃圾邮件。
由于垃圾邮件发送者可以伪造邮件的路径信息,可能使接收行信息的可用性较差,影响过滤算法的准确率;此外,这种方法需要完整的接收行及经过标注的样本数据,很难应用于传输阶段的邮件流量过滤。
尽管从实际过滤效果来看,基于发送和接收阶段的解决方案使用户接收的垃圾邮件数量显著减少,但垃圾邮件占用网络带宽、浪费存储和运算资源的问题依然没有得到解决,因此解决垃圾邮件问题应该将实现可应用于邮件传输阶段的实时过滤技术,以便有效提高网络资源利用率,同时减轻用户端的过滤压力。
发明内容
为了解决上述的技术问题,本发明提供了一种实时垃圾电子邮件过滤方法及系统,其目的在于,在传输阶段实时过滤垃圾电子邮件。
本发明提供了一种实时垃圾电子邮件过滤方法,用于在网络互联点处过滤垃圾邮件,包括:
步骤1,依据邮件中的路由信息构建路径集合P,路径集合P为:
{发送通信者,接收通信者}和/或{发送通信者,信宿};
步骤2,按照IP地址映射或者域名映射将路径集合P中的元素的IP地址或者域名进行属性空间映射;
步骤3,依据路径集合P中各元素的属性空间映射结果判断当前邮件是否为垃圾邮件,如果是,执行步骤4,否则不处理该当前邮件;
步骤4,过滤该当前邮件。
所述网络互联点处包括国际出入口、运营商网络接入点或省间网络出入口。
步骤3中,如果当前邮件的发送通信者和接收通信者的属性空间映射结果相同,则判断该邮件为垃圾邮件;如果当前邮件的发送通信者和信宿的属性空间映射结果相同,则判断该邮件为垃圾邮件。
步骤2中,属性空间映射包括地理信息映射、管理信息映射或行政区域信息映射。
步骤2中,按照IP地址映射将发送通信者和接收通信者的IP地址映射为地理信息、管理信息或行政区域信息;或者按照域名映射将发送通信者的域名映射为地理信息、管理信息或行政区域信息,按照IP映射将接收通信者的IP地址映射为地理信息、管理信息或行政区域信息。
步骤2中,按照域名映射将发送通信者和信宿的域名映射为地理信息、管理信息或行政区域信息。
发送通信者的IP地址或者域名为HELO命令中携带的发送通信者的域信息。
发送通信者的域名为HELO命令中携带的发送通信者的域信息。
还包括步骤91,如果当前邮件为垃圾邮件,则对该当前邮件进行监控。
路径集合P还包括{终端用户,发送通信者},用于判断当前邮件是否为可疑垃圾邮件。
步骤3还包括判断当前邮件是否为可疑垃圾邮件:如果终端用户和发送通信者不是同一节点,发送通信者提供的域信息应符合域名命名规则,否则该邮件为可疑垃圾邮件。
本发明提供了一种实时垃圾电子邮件过滤系统,用于在网络互联点处过滤垃圾邮件,其包括:
邮件路径分析模块,用于分析邮件路由信息,构建路径集合P,路径集合P为{发送通信者,接收通信者}和/或{发送通信者,信宿};
属性空间映射模块,用于对路径集合P中的元素的IP地址或者域名进行属性空间映射,并给出属性空间映射结果;
判断识别模块,用于依据路径集合P中各元素的属性空间映射结果判断当前邮件是否为垃圾邮件;
过滤模块,用于过滤垃圾邮件。
所述网络互联点处包括国际出入口、运营商网络接入点或省间网络出入口。
如果当前邮件的发送通信者和接收通信者的属性空间映射结果相同,则判断识别模块判断该邮件为垃圾邮件;如果当前邮件的发送通信者和信宿的属性空间映射结果相同,则判断识别模块判断该邮件为垃圾邮件。
属性空间映射包括地理信息映射、管理信息映射或行政区域信息映射。
属性空间映射模块按照IP地址映射将发送通信者和接收通信者的IP地址映射为地理信息、管理信息或行政区域信息;或者属性空间映射模块按照域名映射将发送通信者的域名映射为地理信息、管理信息或行政区域信息,按照IP映射将接收通信者的IP地址映射为地理信息、管理信息或行政区域信息。
属性空间映射模块按照域名映射将发送通信者和信宿的域名映射为地理信息、管理信息或行政区域信息。
发送通信者的IP地址或者域名为HELO命令中携带的发送通信者的域信息。
发送通信者的域名为HELO命令中携带的发送通信者的域信息。
还包括监控模块,用于监控垃圾邮件。
路径集合P还包括{终端用户,发送通信者},用于判断当前邮件是否为可疑垃圾邮件。
判断识别模块还用于依据终端用户、发送通信者以及路由信息中的接收行判断当前邮件是否为可疑垃圾邮件。
本发明仅对邮件命令和信头中的内容进行解析,处理速度快,可支持大流量环境下的实时处理操作,且不会侵犯用户的隐私,能够有效用于大流量环境下过滤垃圾邮件,缓解垃圾邮件占用网络带宽、浪费存储和运算资源等问题,从而提高网络资源利用率,同时减轻用户端的过滤压力。另外该方法在准确率和速度方面具有优势,且不需要在线学习,因此还可以为其它过滤技术提供垃圾邮件的模式或者特征实例,更好的协同解决垃圾邮件问题。
附图说明
图1为现有技术中电子邮件传输系统结构图;
图2为本发明提供的垃圾邮件过滤系统的结构图;
图3为按照SMTP协议的邮件存储转发流程;
图4为IP地址存储结构示意图。
具体实施方式
邮件在传输阶段可能经过多个路由器和邮件服务器,在发明中,将过滤系统部署在流量大规模汇集的网络互联点路由器处(包括国际出入口、运营商网络接入点或省间网络出入口等处)。这样部署的优点是,此处数据规模大,垃圾邮件的各种特征较为明显;过滤系统两侧的收发邮件服务器(是邮件路径中的两个节点)属性特征间存在逻辑关系。
本发明中:
首先,根据SMTP协议,一封邮件的命令和信头等部分以路径结点的形式记录了信件在传输过程中所经过的邮件服务器信息,这些邮件服务器按顺序排列形成一条邮件路径,路径中结点在不同的属性空间下均存在较强的逻辑关系。
其次,经过对传输阶段近百万封邮件进行统计,发现为了隐藏发信者的真正身份,垃圾邮件发送者会伪造路径信息;而为保证信件成功发送,垃圾邮件发送者又必须填写部分真实的内容,这样垃圾邮件路径中可能会携带相互矛盾的属性信息,而合法邮件的路径中一般不会存在相互矛盾的属性信息,利用这些相互矛盾的信息发现垃圾邮件。
图2是本发明提供的垃圾邮件过滤系统的结构图,垃圾邮件过滤系统20包括邮件路径分析模块21、属性空间映射模块22、判断识别模块23、过滤模块24以及监控模块25。属性空间映射模块22可进行域名映射和IP地址映射。下面对各模块进行详细说明。
A、邮件路径分析模块21,用于分析邮件的传输路径。
SMTP是一种存储转发协议,它允许邮件通过一系列的邮件服务器(简称为邮件传输代理或MTA)发送到最终的目的地。如图3所示,终端用户和这些MTA可组成一条邮件路径。通常情况下,一条邮件路径P中依次存在如下角色中的几种:(1)终端用户,又称为MUA(Mail User Agent,邮件用户代理)。该用户可能通过客户端发送邮件,也可能以Web方式登陆到邮件服务器上发送邮件。由于MUA不具备转发功能,如果存在则必为路径中的第一个结点。(2)信源,即邮件的真实发送网域,记为MTAsource。(3)中继者,邮件传输过程中的转发结点,记为MTArelay。(4)通信者,是指检测点两侧当前通信的两个MTA,分别称为发送通信者和接收通信者,分别记为MTAsend和MTArecv。(5)信宿,即邮件的真实接收网域,记为MTAdest。
需要注意的是,在路径P中,可能存在以下几种情况:发送通信者MTAsend与MUA相同、发送通信者MTAsend与信源MTAsource相同、接收通信者MTArecv与信宿MTAdest相同;一般地对一封邮件的路径来说,MUA、MTAsource、MTAsend、MTArecv、MTAdest分别对应路径上的一个结点,而MTArelay可能对应一个结点集合。
本发明中的垃圾邮件过滤系统安装在图3中的检测点上,用于实现过滤垃圾邮件。理论上,检测点可能观测到的一条邮件路径的结点集合为T={MUA,MTAsource,MTArelay,MTAsend,MTArecv,MTAdest}。但由于其所在位置的局限,实际构成的邮件路径不一定包括上述所有角色。
对检测点而言,发送通信者、接收通信者、信宿一定在路径中出现;发送通信者之前和接收通信者之后是否有中继者是无法判断的;由于垃圾邮件发送者可能伪造发件地址,因此信源对应的实际路径节点不一定会在在邮件路径中出现。本发明是通过寻找垃圾邮件过滤系统两侧节点属性矛盾来识别垃圾邮件,因此不一定需要构造完整的邮件路径,在具体实施中,本发明仅仅用到了路径中的MUA、MTAsend、MTArecv、MTAdest四个节点。
下面给出提取路由信息并构建邮件路径的方法。
对于一封邮件,首先从邮件命令报文中提取如下路由信息:
(1)发送通信者和接收通信者的IP地址,分别记为IPs与IPd。由于过滤系统两侧的收发邮件服务器属于不同的区域,因此,IPs和IPd具有不同的属性特征。
(2)HELO命令中携带的发送通信者的域信息,记为Hdomain,可以用IP地址或者域名表示。HELO命令的发起者也是MTAsend。
(3)RCPT TO命令中携带的邮件信封地址,记为EAd。值得注意的是,这条命令的发起者是MTAsend。EAd表示信宿在Internet属性空间中的网域信息,对应邮件路径上的尾结点,因此在有向传递路径中出现的位置不早于IPd所对应的结点位置,且两者在检测点同一侧。
(4)提取邮件中接收行字段,记为Rdomain。
需要说明的是,本发明并不分析邮件信头中的收方邮件地址,因为一封邮件信头中的接收地址为一个组地址或与信宿无关(考虑抄送、暗送等情况)等情况是合理的,因此信头中的收方地址可用性较差,不能采用。
在以上所提取的路由信息中,收、发通信者的IP地址难以伪造,因此是可信的;信宿EAd是邮件目的接收服务器地址,是可信的;由于垃圾邮件发送者可能伪造发件地址,因此信源MTAsource以及路由信息Hdomain是不可信的;同理,垃圾邮件发送者可以在邮件中插入多条接收行字段,因此Rdomain的可信程度较低。
下面讨论如何根据一封邮件的路由信息集合R={Rdomain,Hdomain,IPs,IPd,EAd}构建相应的邮件路径P。P为路径节点集合{MUA,MTAsource,MTArelay,MTAsend,MTArecv,MTAdest}的子集。
(1)确定路径中是否有MUA。根据SMTP协议,为便于跟踪邮件路由,在邮件从一个邮件服务器传递到另一个邮件服务器过程中,接收方必须在信头填写接收行字段,其中包括此封邮件的当前发送者和接收者的域名或IP地址,接收到邮件的时间等,而对MUA则无此要求。
在本发明中,通过判断接收行字段是否为空来识别MUA是否在路径中出现。因为垃圾邮件发送者可以利用控制的邮件路径中的节点发送垃圾邮件,但一般不能完全控制该节点上的每个动作(例如,垃圾邮件发送者可以伪造接收行信息,但不能删除历史的路由信息。),也不能改变其后节点的行为。因此有如下结论:如果Rdomain为空,则发送通信者MTAsend就是MUA,即路径中存在MUA;否则不能确定路径中是否有MUA。
(2)确定邮件路径中通信者。根据SMTP协议,路由信息Hdomain与IPs对应的节点为发送通信者MTAsend。在本发明中,判断识别模块23使用路由信息Hdomain完成IP地址映射或域名映射工作,过滤模块24及监控模块25在工作时会使用到路由信息IPs。路由信息IPd对应的节点为接收通信者MTArecv。
(3)确定路径中信宿。路由信息EAd对应的节点为信宿MTAdest。
(4)关于确定路径中其它节点。中继者MTArelay和MTAsource不需要确定。
通过上述步骤可以确定有关结点在路径中的角色,在此基础上可以确定邮件路径中结点属性信息。
B、属性空间映射模块22,用于进行IP地址映射或者域名映射。
本发明中提取的路由信息属于邮件路径中各结点在Internet地址空间中的属性信息,如果这些属性信息违背结点之间的逻辑关系,例如同一节点的IP地址与域名信息不一致,则说明邮件可能含有虚假信息。同理,路径中各结点的其他属性(如地理位置为其在地理空间下的地理属性信息,提供接入服务的运营商为其在管理域空间下的属性信息,所属省份为其在行政区域空间下的属性信息等等)信息违背结点之间的逻辑关系,则很可能为垃圾邮件。本发明采用属性空间映射方法,以路径中包含的结点的路由信息(Internet地址空间下的属性信息)为基础,经过映射得到节点在其它属性空间下的属性信息,进而分析路径结点在其它属性空间的逻辑关系背离情况。
在本模块中,以地理属性空间为例进行具体阐述,映射到其他属性空间下的操作与此类似。进一步地,本发明中的垃圾邮件过滤系统位于国际出入口路由器处,从Internet地址空间映射到地理属性空间时只需标注出该结点为“中国大陆”或“非中国大陆”即可。此外,地理属性映射应能满足大流量环境下的实时操作要求。因为路由信息有域名和IP地址两种表达方式,下面我们分别对其进行映射。
B1、映射域名。在本发明中依次应用如下启发式规则进行域名的地理属性映射:
(1)邮件地址中包含“yahoo.”、“msn.”、“hotmail.”、“AOL.”、“earthlink.”、“gmail.”等知名国外邮件服务商信息,该域名不属于中国大陆。
(2)邮件地址中包含“163.com”、“126.com”等知名国内邮件服务商信息,该域名属于中国大陆;
(3)如果邮件地址中的顶级域名长度为2字节且为“cn”,则该域名属于中国大陆;
(4)如果邮件地址中的顶级域名长度为2字节且不为“cn”,则该域名不属于中国大陆;
(5)如果邮件地址中的顶级域名长度为3字节且为“edu”,则该域名不属于中国大陆;
(6)其它情况,认为该域名地理属性未知。
B2、映射IP地址。一般地,IP地址存储结构应该保存系统两侧区域内所有IP地址信息,以备查询使用。如果将本发明用于国际出入口,则只需保存中国大陆的IP地址信息。
根据APNIC及CNNIC在2006年7月公布的IPv4地址分配情况,中国大陆目前拥有IPv4地址总数为8479万个,约合5A+13B+190C个类地址。我们将中国大陆拥有的IP地址信息保存在树形存储结构中。如果当前IP地址查询命中,则由该IP地址确定的结点属于中国大陆;否则,该结点不属于中国大陆。虽然IP地址分配机构提供的数据粒度较粗,但其国别信息足以满足本文的地理映射需要。
IP地址树形存储结构图4所示。树根(Root)为第0层,分别对应点分十进制IP地址的左侧第一个字节,构成树的第1层;就目前中国大陆拥有的IP地址来说,该层共有26个结点。第1层每个结点有256棵子树,分别对应点分十进制IP地址的左侧第二个字节,构成树的第2层。第2层每个结点引出一个记录IP地址前缀信息的链表,表中每个元素以子网/前缀的格式(例如58.14.0.0/16)保存IP地址的分段信息。在构建IP地址树时,网络前缀长度大于/16的IP地址段可直接加入相应链表,小于/16的要进行拆分处理,将处理后的多个/16的地址段加入相应结点的链表中。总体来说,分配给中国大陆的地址段较集中,统计发现,第2层结点的链表最大长度为8,因而IP地址树形存储结构具有较快的查询速度。
C、判断识别模块23。经过属性空间映射模块22处理之后,路径中各节点在某属性空间下的信息已经保存在系统中,本发明将在该属性空间下使用下面三个条件检测路径结点之间属性逻辑关系背离情况。
对于一封邮件,其路由信息集合为R={Rdomain,Hdomain,IPd,EAd},构建相应的邮件路径为路径节点集合{MUA,MTAsource,MTArelay,MTAsend,MTArecv,MTAdest}的一个子集,则有:
1)如果MUA、MTAsend不是同一节点,且Hdomain不是IP地址,则Hdomain应符合Internet上域名命名规则,否则该邮件为可疑垃圾邮件。
2)发送通信者MTAsend和接收通信者MTArecv的属性信息不能相同,否则该邮件为垃圾邮件。
3)如果HELO命令中携带的发送通信者的域信息(Hdomain)为域名,则发送通信者MTAsend与信宿MTAdest的属性信息不能相同,否则该邮件为垃圾邮件。
对传输阶段大规模邮件流量进行统计后发现,当Hdomain为IP地址,一些合法邮件的发送通信者和信宿属性信息相同;而当Hdomain为域名时,仅垃圾邮件的发送通信者和信宿属性信息相同。因此当Hdomain为IP地址,不能用条件3)判断该邮件是否为垃圾邮件。
以上三个条件的检测顺序为,首先判断2),如果满足条件,则当前邮件为垃圾邮件;否则判断是否满足3),如果满足3),则当前邮件为垃圾邮件;否则判断是否满足1),如果满足1),则当前邮件为可疑垃圾邮件;如果不满足条件1),则当前邮件为合法邮件,系统不采取任何动作。
D、过滤模块24,用于过滤垃圾邮件。如果判断识别模块23判断当前邮件为垃圾邮件,过滤模块24对其进行过滤。
在邮件路径分析模块21中,检测系统已经提取发送通信者、接收通信者的IP地址IPs和IPd,因此可以分别向发送通信者和接收通信者发送伪造的IP报文,提前中止该垃圾邮件的传输。对于满足条件2)、3)的垃圾邮件,通过向发送通信者发送含5xx命令的IP报文(根据SMTP协议,551命令表明接收邮件服务器上无此用户),对接收通信者发送Reset报文,切断此次连接。对于满足条件1)的垃圾邮件,同时向发送通信者和接收通信者发送Reset报文,切断此次连接。通常,为保证较高的吞吐率,垃圾邮件发送者对发送失败的邮件不会进行重传尝试,因此我们的方法可有效减少垃圾邮件流量。
E、监控模块25,用于对垃圾邮件进行监控。如果有对垃圾邮件监控的需求,可以不对垃圾邮件进行过滤,而对其进行监控。
如在判断识别模块23中已经识别当前邮件为垃圾邮件或可疑垃圾邮件,本系统可以通过保存该邮件正文内容,记录发送通信者IP地址(IPs)或域名变化规律等手段,为研究垃圾邮件多层次特征提供样本实例。
下面以在地理属性空间的应用为例,在其它属性空间的应用与此类似:
例如,邮件经过垃圾邮件过滤系统,系统提取路由信息如下:
R={Rdomain=(...),Hdomain=(pc27),IPs=(222.169.83.80),IPd=(219.110.2.152),EAd=(246.ne.jp)}
可确定路径中的节点(MTAsend,MTArecv,MTAdest)及它们的属性信息。因为Hdomain=(pc27),判断识别模块23无法完成映射,因此发送通信者的地理属性不能确定,无法使用条件2)和3)来进行判断。Rdomain不为空,则说明MUA与发送通信者MTAsend不是同一节点;发送通信者为邮件服务器,但有Homain=pc27,不是标准的域名格式,因此满足条件1),所以是可疑垃圾邮件。
又例如,邮件经过垃圾邮件过滤系统,系统提取路由信息如下:
R={Rdomain=(......),Hdomain=(210.8.168.129),IPs=(222.80.117.114),IPd=(210.8.168.154),EAd=(westlakes.enviro.com.au)}
可确定路径中的节点为(MTAsend,MTArecv,MTAdest)及它们的属性信息,下面进行过滤。根据Hdomain=(210.8.168.129),IPd=(210.8.168.154),可知,发送通信者和接收通信者均在国外,满足条件2)。因为IPs=(222.80.117.114)是可信的,这说明发送通信者真实位置在中国,它伪造了Hdomain信息,所以是垃圾邮件。
如果邮件经过垃圾邮件过滤系统,系统提取路由信息如下:
R={Rdomain={},Hdomain=(al.mmtr.or.jp),IPs=(219.147.232.86),IPd=(202.239.124.126),EAd=(bl.mmtr.or.jp)}
可确定路径中的节点为(MUA,MTAsend,MTArecv,MTAdest)及它们的属性信息,下面进行过滤。
根据Hdomain=(al.mmtr.or.jp),IPd=(202.239.124.126),可知发送通信者和接收通信者分别位于国外和国内,不满足条件2);Hdomain为域名,根据EAd=(bl.mmtr.or.jp)以及Hdomain=(al.mmtr.or.jp)可知,发送通信者和信宿具有相同的地理属性,满足条件3),所以是垃圾邮件。
如果当前邮件不满足上述3个条件中的任何一个,则对该邮件不采取任何动作。
垃圾邮件过滤需要全局协作,很难在某一个环节解决所有问题。本发明定位在传输阶段,主要用于过滤那些携带虚假属性信息的垃圾邮件流量。当然,本发明中的垃圾邮件过滤系统和现有的垃圾邮件过滤技术可以任意结合,从而使整个反垃圾邮件体系能够从全局的角度更大程度限制垃圾邮件的传输。
本发明提供的另外两个实施例为:
(1)过滤提供接入服务的运营商网间垃圾邮件,例如在电信运行商M和电信运营商N之间的网间出入口上设置检测点,将IP地址或者域名映射为管理信息(即属于哪个提供网络接入服务的运营商),利用本发明提供的方法和系统过滤电信运行商M和电信运营商之间N之间的垃圾邮件。
(2)过滤国内省级行政区域网间垃圾邮件,例如湖南和湖北之间的省网间出入口上设置检测点,将IP地址或者域名映射为所属行政区域信息(即属于哪个省级行政单位),利用本发明提供的方法和系统过滤省间的垃圾邮件。
本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下,还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明,而是由权利要求书的范围来确定的。

Claims (22)

1.一种实时垃圾电子邮件过滤方法,用于在网络互联点处过滤垃圾邮件,其特征在于,包括:
步骤1,依据邮件中的路由信息构建路径集合P,路径集合P为:
{发送通信者,接收通信者}和/或{发送通信者,信宿};
步骤2,按照IP地址映射或者域名映射将路径集合P中的元素的IP地址或者域名进行属性空间映射;
步骤3,依据路径集合P中各元素的属性空间映射结果判断当前邮件是否为垃圾邮件,如果是,执行步骤4,否则不处理该当前邮件;
步骤4,过滤该当前邮件。
2.如权利要求1所述的实时垃圾电子邮件过滤方法,其特征在于,所述网络互联点处包括国际出入口、运营商网络接入点或省间网络出入口。
3.如权利要求1所述的实时垃圾电子邮件过滤方法,其特征在于,步骤3中,如果当前邮件的发送通信者和接收通信者的属性空间映射结果相同,则判断该邮件为垃圾邮件;如果当前邮件的发送通信者和信宿的属性空间映射结果相同,则判断该邮件为垃圾邮件。
4.如权利要求1、2或3所述的实时垃圾电子邮件过滤方法,其特征在于,步骤2中,属性空间映射包括地理信息映射、管理信息映射或行政区域信息映射。
5.如权利要求4所述的实时垃圾电子邮件过滤方法,其特征在于,步骤2中,按照IP地址映射将发送通信者和接收通信者的IP地址映射为地理信息、管理信息或行政区域信息;或者按照域名映射将发送通信者的域名映射为地理信息、管理信息或行政区域信息,按照IP映射将接收通信者的IP地址映射为地理信息、管理信息或行政区域信息。
6.如权利要求4所述的实时垃圾电子邮件过滤方法,其特征在于,步骤2中,按照域名映射将发送通信者和信宿的域名映射为地理信息、管理信息或行政区域信息。
7.如权利要求5所述的实时垃圾电子邮件过滤方法,其特征在于,发送通信者的IP地址或者域名为HELO命令中携带的发送通信者的域信息。
8.如权利要求6所述的实时垃圾电子邮件过滤方法,其特征在于,发送通信者的域名为HELO命令中携带的发送通信者的域信息。
9.如权利要求1、2或3所述的实时垃圾电子邮件过滤方法,其特征在于,还包括步骤91,如果当前邮件为垃圾邮件,则对该当前邮件进行监控。
10.如权利要求1、2或3所述的实时垃圾电子邮件过滤方法,其特征在于,路径集合P还包括{终端用户,发送通信者},用于判断当前邮件是否为可疑垃圾邮件。
11.如权利要求10所述的实时垃圾电子邮件过滤方法,其特征在于,步骤3还包括判断当前邮件是否为可疑垃圾邮件:如果终端用户和发送通信者不是同一节点,发送通信者提供的域信息应符合域名命名规则,否则该邮件为可疑垃圾邮件。
12.一种实时垃圾电子邮件过滤系统,用于在网络互联点处过滤垃圾邮件,其特征在于,包括:
邮件路径分析模块,用于分析邮件路由信息,构建路径集合P,路径集合P为{发送通信者,接收通信者}和/或{发送通信者,信宿};
属性空间映射模块,用于对路径集合P中的元素的IP地址或者域名进行属性空间映射,并给出属性空间映射结果;
判断识别模块,用于依据路径集合P中各元素的属性空间映射结果判断当前邮件是否为垃圾邮件;
过滤模块,用于过滤垃圾邮件。
13.如权利要求12所述的实时垃圾电子邮件过滤系统,其特征在于,所述网络互联点处包括国际出入口、运营商网络接入点或省间网络出入口。
14.如权利要求12所述的实时垃圾电子邮件过滤系统,其特征在于,如果当前邮件的发送通信者和接收通信者的属性空间映射结果相同,则判断识别模块判断该邮件为垃圾邮件;如果当前邮件的发送通信者和信宿的属性空间映射结果相同,则判断识别模块判断该邮件为垃圾邮件。
15.如权利要求12、13或14所述的实时垃圾电子邮件过滤系统,其特征在于,属性空间映射包括地理信息映射、管理信息映射或行政区域信息映射。
16.如权利要求15所述的实时垃圾电子邮件过滤系统,其特征在于,属性空间映射模块按照IP地址映射将发送通信者和接收通信者的IP地址映射为地理信息、管理信息或行政区域信息;或者属性空间映射模块按照域名映射将发送通信者的域名映射为地理信息、管理信息或行政区域信息,按照IP映射将接收通信者的IP地址映射为地理信息、管理信息或行政区域信息。
17.如权利要求15所述的实时垃圾电子邮件过滤系统,其特征在于,属性空间映射模块按照域名映射将发送通信者和信宿的域名映射为地理信息、管理信息或行政区域信息。
18.如权利要求16所述的实时垃圾电子邮件过滤系统,其特征在于,发送通信者的IP地址或者域名为HELO命令中携带的发送通信者的域信息。
19.如权利要求17所述的实时垃圾电子邮件过滤系统,其特征在于,发送通信者的域名为HELO命令中携带的发送通信者的域信息。
20.如权利要求12、13或14所述的实时垃圾电子邮件过滤系统,其特征在于,还包括监控模块,用于监控垃圾邮件。
21.如权利要求12、13或14所述的实时垃圾电子邮件过滤系统,其特征在于,路径集合P还包括{终端用户,发送通信者},用于判断当前邮件是否为可疑垃圾邮件。
22.如权利要求21所述的实时垃圾电子邮件过滤系统,其特征在于,判断识别模块还用于依据终端用户、发送通信者以及路由信息中的接收行判断当前邮件是否为可疑垃圾邮件。
CN2007101788356A 2007-12-05 2007-12-05 一种实时垃圾电子邮件过滤方法及系统 Active CN101188580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101788356A CN101188580B (zh) 2007-12-05 2007-12-05 一种实时垃圾电子邮件过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101788356A CN101188580B (zh) 2007-12-05 2007-12-05 一种实时垃圾电子邮件过滤方法及系统

Publications (2)

Publication Number Publication Date
CN101188580A true CN101188580A (zh) 2008-05-28
CN101188580B CN101188580B (zh) 2010-12-15

Family

ID=39480775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101788356A Active CN101188580B (zh) 2007-12-05 2007-12-05 一种实时垃圾电子邮件过滤方法及系统

Country Status (1)

Country Link
CN (1) CN101188580B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101909261A (zh) * 2010-08-10 2010-12-08 中兴通讯股份有限公司 一种垃圾短信监控的方法和系统
CN103516596A (zh) * 2013-10-24 2014-01-15 深圳先进技术研究院 电子邮件处理方法和系统
CN104080078A (zh) * 2013-03-26 2014-10-01 百度在线网络技术(北京)有限公司 基站定位方法及设备
CN105721276A (zh) * 2014-11-17 2016-06-29 纬创资通股份有限公司 垃圾邮件判定方法及其邮件服务器
CN107959732A (zh) * 2011-11-11 2018-04-24 柏思科技有限公司 允许在推行网络策略过程中使用域名的方法和系统
CN108055195A (zh) * 2017-12-22 2018-05-18 广东睿江云计算股份有限公司 一种过滤垃圾电子邮件的方法
CN109474509A (zh) * 2017-09-07 2019-03-15 北京二六三企业通信有限公司 垃圾邮件的识别方法和装置
CN110061981A (zh) * 2018-12-13 2019-07-26 成都亚信网络安全产业技术研究院有限公司 一种攻击检测方法及装置
CN110519150A (zh) * 2018-05-22 2019-11-29 深信服科技股份有限公司 邮件检测方法、装置、设备、系统及计算机可读存储介质
EP4199471A1 (en) * 2021-12-17 2023-06-21 AO Kaspersky Lab System and method for restricting the reception of e-mails from a sender of bulk spam mail

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547143A (zh) * 2003-12-03 2004-11-17 勇 陈 防垃圾邮件的方法
CN1272947C (zh) * 2004-03-16 2006-08-30 北京启明星辰信息技术有限公司 防垃圾邮件的实现方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012019386A1 (zh) * 2010-08-10 2012-02-16 中兴通讯股份有限公司 一种垃圾短信监控的方法和系统
CN101909261A (zh) * 2010-08-10 2010-12-08 中兴通讯股份有限公司 一种垃圾短信监控的方法和系统
CN107959732B (zh) * 2011-11-11 2021-08-27 柏思科技有限公司 允许在推行网络策略过程中使用域名的方法和系统
CN107959732A (zh) * 2011-11-11 2018-04-24 柏思科技有限公司 允许在推行网络策略过程中使用域名的方法和系统
CN104080078A (zh) * 2013-03-26 2014-10-01 百度在线网络技术(北京)有限公司 基站定位方法及设备
CN103516596A (zh) * 2013-10-24 2014-01-15 深圳先进技术研究院 电子邮件处理方法和系统
CN105721276A (zh) * 2014-11-17 2016-06-29 纬创资通股份有限公司 垃圾邮件判定方法及其邮件服务器
CN105721276B (zh) * 2014-11-17 2018-12-25 纬创资通股份有限公司 垃圾邮件判定方法及其邮件服务器
CN109474509A (zh) * 2017-09-07 2019-03-15 北京二六三企业通信有限公司 垃圾邮件的识别方法和装置
CN108055195A (zh) * 2017-12-22 2018-05-18 广东睿江云计算股份有限公司 一种过滤垃圾电子邮件的方法
CN110519150A (zh) * 2018-05-22 2019-11-29 深信服科技股份有限公司 邮件检测方法、装置、设备、系统及计算机可读存储介质
CN110061981A (zh) * 2018-12-13 2019-07-26 成都亚信网络安全产业技术研究院有限公司 一种攻击检测方法及装置
EP4199471A1 (en) * 2021-12-17 2023-06-21 AO Kaspersky Lab System and method for restricting the reception of e-mails from a sender of bulk spam mail

Also Published As

Publication number Publication date
CN101188580B (zh) 2010-12-15

Similar Documents

Publication Publication Date Title
CN101188580B (zh) 一种实时垃圾电子邮件过滤方法及系统
US7475118B2 (en) Method for recognizing spam email
EP2446411B1 (en) Real-time spam look-up system
US7548544B2 (en) Method of determining network addresses of senders of electronic mail messages
CA2476349C (en) E-mail management services
US8621638B2 (en) Systems and methods for classification of messaging entities
US7930413B2 (en) System and method for controlling access to a network resource
US9281962B2 (en) System for determining email spam by delivery path
US9444647B2 (en) Method for predelivery verification of an intended recipient of an electronic message and dynamic generation of message content upon verification
CN100349421C (zh) 一种垃圾邮件服务器的检测与定位方法
US20060168017A1 (en) Dynamic spam trap accounts
CN101247406A (zh) 用全球情报进行本地信息分类的方法及垃圾邮件检测系统
CA2667688A1 (en) Reputation-based method and system for determining a likelihood that a message is undesired
Van Wanrooij et al. Filtering spam from bad neighborhoods
Leiba et al. SMTP Path Analysis.
US20080270544A1 (en) Greylisting optimizations for electronic mail filtering
CN101040279B (zh) 面向连接的垃圾邮件过滤系统和方法
Chiou et al. Blocking spam sessions with greylisting and block listing based on client behavior
CN102571463A (zh) 广域网中垃圾邮件主机检测的方法和系统
Roman et al. Protection against spam using pre-challenges
WO2018167755A2 (en) Method and system for creating and maintaining quality in email address list
Jiang et al. An email geographic Path-Based technique for spam filtering
CN101026619A (zh) 电子邮件异常特征处理系统和方法
Khanal et al. Improving the efficiency of spam filtering through cache architecture
Wang et al. Trusted behavior based spam filtering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant