CN100556041C - 电子邮件异常特征处理系统和方法 - Google Patents

电子邮件异常特征处理系统和方法 Download PDF

Info

Publication number
CN100556041C
CN100556041C CNB2006100339783A CN200610033978A CN100556041C CN 100556041 C CN100556041 C CN 100556041C CN B2006100339783 A CNB2006100339783 A CN B2006100339783A CN 200610033978 A CN200610033978 A CN 200610033978A CN 100556041 C CN100556041 C CN 100556041C
Authority
CN
China
Prior art keywords
mailbox
outside
connection
unit
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006100339783A
Other languages
English (en)
Other versions
CN101026619A (zh
Inventor
周颢
谢尚成
王晖
母天石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNB2006100339783A priority Critical patent/CN100556041C/zh
Publication of CN101026619A publication Critical patent/CN101026619A/zh
Application granted granted Critical
Publication of CN100556041C publication Critical patent/CN100556041C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种电子邮件异常特征处理系统,包括SMTP服务单元,该系统还包括:代理控制单元、邮箱验证单元、虚拟探针邮箱列表、SMTP仿真监控单元。本发明还公开了一种电子邮件异常特征处理方法,该方法包括:通过代理控制单元接收外部连接请求;通过邮箱验证单元验证所述外部连接所要访问的邮箱是否存在;如果外部连接请求所要访问的邮箱存在,则将所述外部连接转发到SMTP服务单元。如果外部连接所要访问的邮箱不存在,则根据对虚拟探针邮箱列表的查询结果,确定将外部连接转发到SMTP仿真监控单元或切断该外部连接。本发明可以进行垃圾邮件外部连接样本的收集,而且能够收集并且分析非法外部连接的特征信息。

Description

电子邮件异常特征处理系统和方法
技术领域
本发明涉及电子邮件处理领域,尤其涉及一种电子邮件异常特征处理系统和方法。
背景技术
垃圾邮件的发送者通常向大量的邮件地址发送邮件,探测存在的用户邮件地址并发送垃圾信息,由于这一发送的过程依赖于SMTP(简单邮件传输协议)服务,因此对来自外部的SMTP连接的监控就成为反垃圾邮件系统的重要任务。
在目前众多的反垃圾邮件系统中,以“探针邮箱”进行垃圾邮件收集的技术由于其能够主动收集垃圾邮件样本而逐渐成为反垃圾邮件技术的主流,探针邮箱就是在邮件系统中设置的一些非用户使用邮箱,由于这类邮箱并非正常账户,所以其收到的所有邮件都被视为垃圾邮件。
如图1所示,存在向邮件服务器(SMTP服务器)发出的外部连接请求,该请求为垃圾邮件的者发出,该非法连接企图将大量的垃圾邮件发送到邮件服务器,所述垃圾邮件的目标地址由发送方随机、大量地产生,例如,对于邮件服务器21cn.com,非法垃圾邮件发送者通过例如软件生成的方式产生大量的地址名作为垃圾邮件的目标地址,如:zha@21cn.com、zhan@21cn.com、zhang@21cn.com......等邮件地址中,其中有些是正常邮件地址,即用户通过合法注册取得的邮箱地址,而其他则是不存在的邮件地址。
在这些不存在的邮件地址中,系统可以设置多个探针邮箱(也称为“蜜罐”),还可以向外公布其探针邮箱地址,以增加其被垃圾发送的机率。当这些探针邮箱接收到邮件后,就认定这些接收到的邮件为垃圾邮件。系统定时向所有的探针邮箱收信就可以得到没有被该邮件系统反垃圾引擎过滤的垃圾邮件样本。之后可以通过对这些垃圾邮件内容的分析来判断垃圾邮件,进而可以通过内容过滤等方法过滤垃圾邮件。
但是,探针邮箱存在着一些不足之处,首先,探针邮箱只能用于垃圾邮件样本收集,而不能收集连接时的连接特征信息,所述连接特征信息包括:来源IP、中转次数、对话时间、对话数量、命令数、连接信息目志等等。
其次,每个探针邮箱都需要申请真实的邮箱,即每个探针邮箱都需要开销一定数量的服务器存储空间,当探针邮箱数量较多时,系统资源的消耗也很大。而且,由于是真实邮箱,一旦设置,就很不便于改动,因此监控的策略难于调整。
发明内容
针对现有技术中使用探针邮箱的反垃圾邮件系统和方法不能收集非法邮件的连接信息、系统资源开销大且监控策略难以调整的缺陷,本发明提供了一种能够收集非法邮件连接信息、占用系统资源小且调整方便的反垃圾邮件系统和方法。
为解决上述问题,本发明提供了一种电子邮件异常特征处理系统,包括SMTP服务单元,所述系统还包括:代理控制单元,根据外部连接要访问邮箱的存在性判断所述外部连接是正常连接还是非法连接,将所述正常连接转发到所述SMTP服务单元;将要访问的邮箱存在于虚拟探针邮箱列表中的外部连接转发到SMTP仿真监控单元;邮箱验证单元,验证外部连接要访问的邮箱的存在性,并根据邮箱的存在性向代理控制单元发出存在性验证结果;虚拟探针邮箱列表,包括多个虚拟探针邮箱地址信息;SMTP仿真监控单元,记录要访问虚拟探针邮箱的外部连接的连接信息,并对外部连接德连接信息进行应答。
在所述电子邮件异常特征处理系统中,所述代理控制单元用于切断要访问的邮箱不存在且所述邮箱不在虚拟探针邮箱列表中的外部连接。
其中,所述SMTP仿真监控单元还包括:连接信息存储模块,用于存储所接收到的外部连接信息;应答模块,用于根据对外部非法连接的连接信息进行响应。
所述电子邮件异常特征处理系统还包括样本采集单元,用于将SMTP仿真监控单元所监控的外部连接的信息收集为异常连接样本;异常样本存储单元,用于存储所述异常连接样本;数据挖掘单元,用于所述异常样本存储单元中的异常连接样本进行特征分析,以产生异常特征;异常特征存储单元,用于存储所述数据挖掘单元所产生的异常特征。
所述数据挖掘单元还包括:元素拆分模块,用于将从样本采集单元收集的异常样本中的连接信息进行分解;特征收集模块,将元素拆分模块所分解的元素组成特征向量,并将所述特征向量存储到特征向量存储模块中;特征向量存储模块,用于存储从外部连接的连接信息中提取的特征向量;相似向量提取模块,用于从特征向量存储模块中提取与所接收到的外部连接特征向量相似的所有向量;提纯模块,用于提取相似特征向量之间共有的元素。
所述邮箱验证单元包括注册用户列表,该注册用户列表存储有合法用户注册的邮件地址。
本发明还提供了一种电子邮件异常特征处理方法,所述方法包括:验证外部连接所要访问的邮箱是否存在;如果所述外部连接所要访问的邮箱存在,则将所述外部连接转发至SMTP服务单元;如果所述外部连接所要访问的邮箱不存在且所述外部连接所要访问的邮箱在虚拟探针邮箱列表中,则将所述外部连接转发到SMTP仿真监控单元,所述SMTP仿真监控单元记录所述外部连接的连接信息,并进行应答。
如果外部连接所要访问的邮箱不存在且不在虚拟探针邮箱列表中,则切断外部连接。
如果外部连接所要访问的邮箱在虚拟探针邮箱列表中,并且当该外部连接转发到SMTP仿真监控单元之后,还包括:利用样本采集单元对所述SMTP仿真监控单元所记录的连接信息收集为异常连接样本;将所述异常连接样本存储到所述异常样本存储单元;通过数据挖掘单元对异常样本存储单元中的异常连接样本进行特征分析,以产生异常特征;将所述异常特征存储到异常特征存储单元。
其中,对异常连接样本进行特征分析的步骤进一步包括:对异常连接样本进行元素拆分;在拆分后的元素中选取部分元素组成特征向量;将该特征向量存储到特征向量存储模块;从特征向量存储模块中提取与所接收的异常连接特征向量相似的向量;对所取出的相似向量进行提纯;将提纯后的特征向量存储到异常特征存储单元。
与现有技术相比,本发明不仅可以进行垃圾邮件样本的收集,而且能够通过SMTP仿真监控单元收集连接时的特征信息,进一步通过SMTP仿真监控单元向外部连接发送一些指令而诱使其继续动作从而获得更多的非法连接的连接信息。通过数据挖掘算法,还可以得到非法连接的异常特征信息。
由于虚拟探针邮箱列表并不真正开销探针邮箱的资源,因此不会加大系统负担。而且由于虚拟探针邮箱列表只存储了虚拟探针邮件的地址,对于监控方希望监控的方向、策略的调整、更改都很方便。
附图说明
图1是现有技术中具有探针邮箱的反垃圾邮件系统的示意图。
图2是本发明实施例的邮件异常特征处理系统结构示意图。
图3是本发明另一个实施例的邮件异常特征处理系统结构示意图。
图4是本发明实施例中基于相似度的数据挖掘单元的结构示意图。
图5是本发明实施例的邮件异常特征处理方法的流程图。
图6是本发明实施例的基于相似度的数据挖掘方法的流程图。
图7是本发明实施例的特征向量元素的相似度判定流程图。
具体实施方式
图2为根据本发明的一个实施例所述的邮件异常特征处理系统结构示意图。其中,所述系统包括代理控制单元、邮箱验证单元、虚拟探针邮箱列表、SMTP仿真控制单元和SMTP服务单元。所述邮件异常特征处理系统可以通过相应的软件或硬件(例如网关服务器等)来实现。
所述代理控制单元可以监听邮件服务器的端口(例如SMTP服务器的25端口),并且连接远程服务,特别是SMTP服务。当非法发送方要发送垃圾邮件时,它首先需要与邮件服务器(SMTP服务器)进行连接,即向SMTP服务器发出连接请求,代理控制单元监听到来自外部的向邮件服务器特定端口(例如25端口)发出的SMTP连接请求时,则将该连接请求转向到代理控制单元的输入端口,因此来自外部的SMTP连接请求不直接发送到邮件服务器,而是发送到代理控制单元,所述代理控制单元是完全对外开放的服务单元,对所有欲连接到邮件服务器的SMTP连接请求进行处理,每个连接产生一个单独的处理线程。因而所述代理控制单元对真实的SMTP服务进行了掩盖,从而起到对SMTP服务单元的保护作用。所述代理控制单元可以通过软件模块来实现,例如通过socket网络编程实现。
所述邮箱验证单元具有注册用户列表,所述注册用户列表具有在该邮件服务器上注册的所有合法用户的电子邮件地址。邮箱验证单元主要进行邮箱存在性验证,即当代理控制单元将外部连接所要访问的邮箱地址发送到邮件验证单元后,邮箱验证单元在其注册用户列表中进行查找,当发现在注册用户列表中找到与外部连接所要访问的邮箱地址一致的用户邮件地址的时候,邮箱验证单元向代理控制单元发送为“1”的验证结果,当在注册用户列表中找不到与外部连接所要访问的邮箱地址一致的用户邮件地址的时候,邮箱验证单元向代理控制单元发送为“0”的验证结果。
所述虚拟探针邮箱列表在本发明中可以实现为一组存储虚拟探针邮箱的存储单元,在存储单元中存放了所述邮件特征采集系统要进行监控的非法SMTP连接所要访问的邮箱地址。在虚拟探针邮箱列表中,列出了系统感兴趣的邮箱地址范围,所述邮箱地址可以使用通配符“*”、“?”等,例如:
当“?de@21cn.com”出现在虚拟探针邮箱列表中时,就表示系统要对希望访问三个字符并且后两个字符分别为“d、e”邮箱的外部连接进行监控。而当“*de@21cn.com”出现在虚拟探针邮箱列表中时,就表示系统要对希望访问后两个字符分别为“d、e”的邮箱的外部连接进行监控。
当在邮箱验证单元中找不到与外部连接所要访问的邮箱地址一致的用户邮件地址时,代理控制单元就要在虚拟探针邮箱列表中查找外部连接所要访问的邮箱地址。以便确定是否监控该外部连接。为了避免负荷太重,系统并不监控所有的探针邮箱地址。
所述SMTP仿真控制单元用于对上述虚拟探针邮箱列表所命中的邮箱所对应的外部连接进行监控。由于垃圾发送方通常不会只发一次垃圾邮件,而是多次频繁地发送,所以会被虚拟探针邮箱列表命中,从而可以监控收集到多个垃圾邮件连接信息样本。另外,某些垃圾邮件发送者会以某种方法(例如,先利用扫描手段找到邮件服务器,再利用穷举法探测用户邮件地址)来发送垃圾邮件,这种方法有一定的相似性,这些方法的特征也会被捕捉。SMTP仿真控制单元包括连接信息存储模块,用于对所监控的外部连接的连接信息(例如连接特征,连接信息日志和所接收到的邮件等)进行存储,以便进一步对非法连接的信息进行分析,所述连接信息存储模块可以是各种可能的存储介质,例如SDRM、DDR、Flash、硬盘等。
SMTP仿真控制单元还包括应答模块,可以对正在监控的非法外部连接所发出的指令进行响应。进一步地,所述应答模块还可以根据外部非法连接的响应信息向该连接继续发出指令以诱使该非法的外部连接继续其行为,或根据预定的逻辑产生应答(例如故意返回一些错误)以得到与非法外部连接有关的更多信息。
所述SMTP服务单元是针对正常的外部连接的处理单元,其执行正常的SMTP服务。
图3是根据本发明另一个实施例的邮件异常特征处理系统结构示意图。参考图2,在所述邮件异常特征处理系统中还包括了进行文本分析的部件,用于对所采集到的非法SMTP连接的连接信息进行分析,以获得非法连接的特征。该邮件异常特征处理系统还包括样本采集单元、异常样本存储单元、数据挖掘单元和异常特征存储单元。
所述样本采集单元用于将SMTP仿真监控单元所监控的外部连接的信息收集为异常连接样本。所述样本单元将连接信息中的特定字段或部分保存为一个异常连接特征向量。所述样本采集单元可以通过相应的数据库软件模块实现,每个异常连接样本作为一条记录存储在样本采集单元所建立的相应数据库中。
所述异常样本存储单元用于存储所述异常连接样本。异常样本存储单元可以实现为以记录组成的数据库,并且存储在各种可能的存储介质中,例如SDRM、DDR、Flash、硬盘等存储器。
所述数据挖掘单元用于异常样本存储单元中的异常连接样本进行特征分析,以产生异常特征。数据挖掘单元是通过数据挖掘软件模块或相应的硬件逻辑单元实现,所采用的数据挖掘算法是各种常用的数据分析算法,例如,决策树算法、支持向量机算法、贝叶斯算法等等。在本发明的实施例中,将基于相似度的数据分析算法应用于数据挖掘单元中。所述数据挖掘单元根据所采用数据分析算法而不同。在后面实施例中将根据具体算法将进一步描述数据挖掘单元。
所述异常特征存储单元用于存储数据挖掘单元所产生的异常特征。所述异常特征是根据所述数据挖掘单元对异常样本进行分析后产生的记录,优选地,如果利用基于相似度的数据挖掘单元,则将异常特征向量存储在异常特征存储单元中。所述异常特征存储单元可以是各种可能的存储介质,例如SDRM、DDR、Flash、硬盘等。
图4是基于相似度的数据挖掘单元的结构示意图。所述数据处理单元包括:元素拆分模块、特征收集模块、特征向量存储模块、相似向量提取模块和提纯模块。
所述元素拆分模块,用于将从样本采集单元收集的异常样本中的连接信息进行分解。所述连接信息通常为不同信息元素组成字符串,不同信息元素之间用特定的标志(例如特定字符、二进制码等等)分隔。元素拆分模块通过对特定标志的识别将连接信息进行拆分。所述元素拆分模块由软件模块或专门的硬件逻辑单元实现。
所述特征收集模块,将元素拆分模块所分解的元素组成特征向量,并将所述特征向量存储到特征向量存储模块中。根据通过元素拆分模块分解出的元素中的一部分作为特征的元素需要被重新组合,以形成特征向量。
所述特征向量存储模块,用于存储从外部连接的连接信息中提取的特征向量。特征向量存储模块可以通过数据库实现,记录在存储器介质中。
所述相似向量提取模块,用于从特征向量存储模块中提取与所接收到的外部连接特征向量相似的所有向量。相似向量提取模块需要对特征向量存储模块中的向量与外部连接特征向量进行相似度判定,当两者的相似度大于设定值或阈值时,判定两者相似,并从特征向量存储模块中提取该向量。
所述提纯模块,用于提取相似特征向量之间共有的元素。提纯模块检索所有特征向量间的所有相似的元素,提取出多数元素都具有的元素,作为最终提取的异常特征。
图5是本发明实施例的邮件异常特征处理方法的流程图。首先,在步骤401,通过代理控制单元接收外部连接请求,以获取外部连接请求中的目的地址。然后,在步骤403,代理控制单元将外部连接请求中的目的地址发送至邮箱验证单元。
在步骤405,将所述目的地址发送到邮箱验证单元是为了能够验证外部连接所要访问的邮箱是否存在,所述邮箱验证单元在其中的注册用户列表中进行搜索。如果在注册用户列表能够搜索到外部连接所要访问的邮箱地址,则确定该邮箱是存在的,即该外部连接为正常连接,于是在步骤413,代理控制单元将外部连接转发到SMTP服务单元;如果在注册用户列表不能搜索到外部连接所要访问的邮箱地址,则确定该邮箱是不存在的,即该外部连接为非法连接。
于是在步骤409,对该非法的外部连接进行进一步判断,即判断所述外部连接所要访问的邮箱地址是否在虚拟探针邮箱列表中。所述虚拟探针邮箱列表中列举了系统希望监控的探针邮箱地址,从而避免了对所有邮箱地址进行监控而带给系统的负荷,并且,这种监控方法还能够方便地调整监控策略。
如果所述外部连接所要访问的邮箱地址不在虚拟探针邮箱列表中,则不监控该外部非法连接,在步骤415,断开该非法连接。可替换地,还可以通过其他方式处理不监控的非法连接,例如,将所述连接发送的邮件接收到垃圾邮箱中,进而分析垃圾邮件的内容等。
如果所述外部连接所要访问的邮箱地址在虚拟探针邮箱列表中,则在步骤411,代理控制单元将外部连接转发到SMTP仿真监控单元,以便对该外部非法连接进行监控。
图6是本发明实施例的基于相似度的数据挖掘方法的流程图。首先,在步骤551,利用样本采集单元将SMTP仿真监控单元所记录的连接信息收集为异常连接样本,所述SMTP仿真监控单元所记录的连接信息可以包括:外部连接请求的来源IP、中转次数、对话时间、对话数量、命令数、有无向域名存在等等。
在步骤553,基于相应的传输协议和文本分析,元素拆分模块将连接信息中拆分为元素,所述连接信息通常可以是不同信息元素组成字符串,不同信息元素之间用特定的标志(例如特定字符、二进制码等等)分隔。元素拆分模块通过对特定标志的识别将连接信息进行拆分。上述各项为一个元素。在步骤555,通过特征收集模块将这些元素进行选择后,利用一部分元素组成特征向量。并且在步骤557,将所述特征向量存入特征向量存储模块,以形成数据量足够的特征向量数据库。
在步骤559,相似向量提取模块,从特征向量存储模块中提取与本向量相似的所有向量,相似是指特征向量之间元素的相似程度。下面,结合图7,对步骤559中的相似度判定过程进行说明:
两个向量是否相似,要看向量中元素相似度的总和,元素可以是数值、字符串或布尔值。其中,
向量的相似度=相似的元素总数/向量元素个数
通过相似向量提取模块对所采集的样本的特征向量进行相似度判定,从特征向量存储模块中提取相似的向量。特征向量的元素总是只有三种类型:字符串,数值,布尔值。相似度对不同的元素类型,有不同的要求。对字符串,对于两字符串相似,可以要求两字符串完全相同,也可以要求两字符串中的大部分字符相同。可以设定一个阈值,当两字符串中相同字符长度的百分比大于该阈值时,则认为两字符串中的大部分字符相同,即两字符串相似。数值相似,可以要求两个数完全相同,也可以要求两个数的差值近似。可以设定一个阈值,当两个数的差值与两数值平均值的比值小于该阈值时,则认为两数值近似,即两数值相似,例如,设阈值为5%,两数值为98与100,差值是2,平均值是99,则误差是2/99,所以认为98与100是相似的。布尔值相似,则要求两个布尔值必须完全相同。判定两个样本是否相似,就是判断其相似元素占总元素的百分比是否大于设定值。当相似元素占总元素的百分比是否大于设定值时,两样本相似,反之,两样本不相似。所述相似样本判定单元可以通过相应的软件程序模块来实现。
在步骤561,通过元素提纯模块对相似的特征向量进行提纯,以在一类相似的特征样本向量组中提取异常特征。向量组普遍都具有的元素才是真正的异常特征,而向量之间差异较大的元素,则作为干扰元素去除。在经过提纯而得到真正代表该类异常连接的异常特征后,在步骤563,将所述异常特征加入到异常特征存储单元保存。
下面将结合实例介绍本实施例的样本处理过程。
首先,为清楚地说明该样本处理过程,下面列举出了一些常用的SMTP指令。其中,客户端常用的SMTP指令为:
HELO hostname:与服务器握手,并告知服务器客户端所使用的机器名;
MAIL FROM:sender_id:告知服务器发信人的地址;
RCPT TO:receiver_id:告知服务器收信人的地址;
DATA:开始传输信件内容,且最后要以只含有.的特殊行结束;
RESET:取消刚才的指令,重新开始;
VERIFY userid:校验帐号是否存在;
QUIT:退出连接,结束。
服务器返回的响应信息为:
220服务就绪(在socket连接成功时,会返回此信息);
221正在处理;
250请求邮件动作正确,完成(HELO、MAIL FROM、RCPT TO、QUIT
指令执行成功会返回此信息);
354开始发送数据,结束以.(DATA指令执行成功会返回此信息,客户端应发送信息);
500语法错误,命令不能识别;
550命令不能执行,邮箱无效;
552中断处理:用户超出文件空间。
例如:邮件服务器从外部连接收集到的三个样本,经过元素拆分后得到A、B、C三个向量,其中:
A(30,abc.com.cn,否,12)
B(20,abc.com.cn,否,12)
C(100,abc.com.cn,否,12)
此处,为了便于说明,收集到的样本中的信息只包含四项:RESET指令出现次数、域名、对服务器返回的响应信息500(表示命令不能执行,邮箱无效)的响应结果是否重发、信件长度(KB),以向量A为例,即RESET指令出现次数为30次、域名为abc.com.cn、对服务器返回的响应信息500的响应结果不重发、信件长度为12KB。
在本实施例中,为了简化起见,要求字符串相似的充要条件是两字符串必须完全相同。对于数值相似,要求两数值之间的误差为5%。布尔值相似,则要求布尔值完全相同。对于两个向量,决定相似的条件为相似度大于等于60%。
对于向量A,判断两个向量A、B之间的相似度,对于第一项,两数值之间误差为40%,大于5%的阈值,认为该项不相似,对于另外三项元素,完全相同,则认为另外三项相似,则相似度为75%,大于60%的相似度设定值,由此认为样本A、B相似。同理,可以得出A、C相似。
因此,对于A,有B,C所对应的两个相似样本支持(这里只是三个样本的情况,通常一个特征连接都可以找到一定数量的相似样本来支持,反之,偶然、特殊的连接基本找不到相似样本来支持)。于是,我们得到了一个相似的特征向量集(A,B,C),并且这个特征向量集内的所有连接都很相似,代表了一种非法连接。
接下来是要对特征向量集中的元素提纯,以去掉干扰元素,得到异常特征。提纯过程遍历所有的样本的所有元素,把所有普遍具有的元素作为异常特征,去除其余的元素。比如上述三个样本的特征向量A,B,C,对于第一个元素(RESET指令出现次数),并不是大部分样本的该元素都相似,因此不是一个异常特征,而abc.com.cn、否、12,这三项元素是所有样本都具有的,因此这三项元素是特征元素,所以上述代表一种非法连接的样本集的异常特征是:(域名、对500的响应结果是否重发、信件长度)。
此向量组的值为(abc.com.cn、否、12)。(其中对于数值,在判断相似时,利用差值/数值的平均值求出数值相似度)
以上说明了基于相似度的非法连接特征分析过程,经过该过程,产生的结果是得到了一个异常特征库,异常特征库里每条记录都是一种非法连接的异常特征。
需要指出,对于本发明的实施并不局限于上述实施例,若有其他形式的修改,只要不脱离本发明的精神实质,也属于本发明的保护范围。

Claims (10)

1.一种电子邮件异常特征处理系统,包括SMTP服务单元,其特征在于,还包括:
代理控制单元,根据外部连接要访问邮箱的存在性判断所述外部连接是正常连接还是非法连接,将所述正常连接转发到所述SMTP服务单元;将要访问的邮箱存在于虚拟探针邮箱列表中的外部连接转发到SMTP仿真监控单元;
邮箱验证单元,验证外部连接要访问的邮箱的存在性,并根据邮箱的存在性向代理控制单元发出存在性验证结果;
虚拟探针邮箱列表,包括多个虚拟探针邮箱地址信息;
SMTP仿真监控单元,记录要访问虚拟探针邮箱的外部连接的连接信息,并对外部连接的连接信息进行应答。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括:
样本采集单元,用于将SMTP仿真监控单元所监控的外部连接的信息收集为异常连接样本;
异常样本存储单元,用于存储所述异常连接样本;
数据挖掘单元,用于所述异常样本存储单元中的异常连接样本进行特征分析,以产生异常特征;
异常特征存储单元,用于存储所述数据挖掘单元所产生的异常特征。
3.根据权利要求2所述的系统,其特征在于,所述数据挖掘单元还包括:
元素拆分模块,用于将从样本采集单元收集的异常样本中的连接信息进行分解;
特征收集模块,将元素拆分模块所分解的元素组成特征向量,并将所述特征向量存储到特征向量存储模块中;
特征向量存储模块,用于存储从外部连接的连接信息中提取的特征向量;
相似向量提取模块,用于从特征向量存储模块中提取与所接收到的外部连接特征向量相似的所有向量;
提纯模块,用于提取相似特征向量之间共有的元素。
4.根据权利要求1所述的系统,其特征在于,所述代理控制单元用于切断要访问的邮箱不存在且所述邮箱不在虚拟探针邮箱列表中的外部连接。
5.根据权利要求1所述的系统,其特征在于,所述邮箱验证单元包括注册用户列表,该注册用户列表存储有合法用户注册的邮件地址。
6.根据权利要求1所述的系统,其特征在于,所述SMTP仿真监控单元还包括:
连接信息存储模块,用于存储所接收到的外部连接信息;
应答模块,用于根据对外部非法连接的连接信息进行响应。
7.一种电子邮件异常特征处理方法,其特征在于,所述方法包括:
验证外部连接所要访问的邮箱是否存在;如果所述外部连接所要访问的邮箱存在,则将所述外部连接转发至SMTP服务单元;如果所述外部连接所要访问的邮箱不存在且所述外部连接所要访问的邮箱在虚拟探针邮箱列表中,则将所述外部连接转发到SMTP仿真监控单元,所述SMTP仿真监控单元记录所述外部连接的连接信息,并进行应答。
8.根据权利要求7所述的方法,其特征在于,如果外部连接所要访问的邮箱不存在且不在虚拟探针邮箱列表中,则切断外部连接。
9.根据权利要求7所述的方法,其特征在于,还包括:
a.对所述SMTP仿真监控单元所记录的连接信息收集为异常连接样本并存储;
b.对所述异常连接样本进行特征分析,获得异常特征;
c.将所述异常特征存储到异常特征存储单元。
10.根据权利要求9所述的方法,其特征在于,在步骤b,对异常连接样本进行特征分析的步骤进一步包括:
(1)对异常连接样本进行元素拆分;
(2)在拆分后的元素中选取部分元素组成特征向量;
(3)将该特征向量存储到特征向量存储模块;
(4)从特征向量存储模块中提取与所接收的异常连接特征向量相似的向量;
(5)对所取出的相似向量进行提纯;
(6)将提纯后的特征向量存储到异常特征存储单元。
CNB2006100339783A 2006-02-23 2006-02-23 电子邮件异常特征处理系统和方法 Active CN100556041C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100339783A CN100556041C (zh) 2006-02-23 2006-02-23 电子邮件异常特征处理系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100339783A CN100556041C (zh) 2006-02-23 2006-02-23 电子邮件异常特征处理系统和方法

Publications (2)

Publication Number Publication Date
CN101026619A CN101026619A (zh) 2007-08-29
CN100556041C true CN100556041C (zh) 2009-10-28

Family

ID=38744513

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100339783A Active CN100556041C (zh) 2006-02-23 2006-02-23 电子邮件异常特征处理系统和方法

Country Status (1)

Country Link
CN (1) CN100556041C (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316172B (zh) * 2008-05-12 2010-07-21 中国联合网络通信集团有限公司 一种异常邮件检测系统及方法
CN110535757A (zh) * 2019-09-10 2019-12-03 四川新网银行股份有限公司 电子邮箱地址扫描行为的判断方法

Also Published As

Publication number Publication date
CN101026619A (zh) 2007-08-29

Similar Documents

Publication Publication Date Title
US10581778B2 (en) Method and system for filtering communication
EP2446411B1 (en) Real-time spam look-up system
US7117358B2 (en) Method and system for filtering communication
US6941348B2 (en) Systems and methods for managing the transmission of electronic messages through active message date updating
US7603472B2 (en) Zero-minute virus and spam detection
KR100460322B1 (ko) 스팸메일 방지 시스템 및 방법
CN101247406A (zh) 用全球情报进行本地信息分类的方法及垃圾邮件检测系统
WO2006122055A2 (en) Method of determining network addresses of senders of electronic mail messages
JP2004500761A (ja) 分配された内容を識別するシステム
GB2458094A (en) URL interception and categorization in firewalls
US20060265459A1 (en) Systems and methods for managing the transmission of synchronous electronic messages
US8880611B1 (en) Methods and apparatus for detecting spam messages in an email system
CN100556041C (zh) 电子邮件异常特征处理系统和方法
US7958187B2 (en) Systems and methods for managing directory harvest attacks via electronic messages
Chiou et al. Blocking spam sessions with greylisting and block listing based on client behavior
CN102571463A (zh) 广域网中垃圾邮件主机检测的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Chen Yan

Document name: Notice of application for publication of patent for invention and entry into the substantive examination procedure

C14 Grant of patent or utility model
GR01 Patent grant