CN101005462A - 一种反垃圾邮件的处理装置和方法 - Google Patents

一种反垃圾邮件的处理装置和方法 Download PDF

Info

Publication number
CN101005462A
CN101005462A CN 200610001083 CN200610001083A CN101005462A CN 101005462 A CN101005462 A CN 101005462A CN 200610001083 CN200610001083 CN 200610001083 CN 200610001083 A CN200610001083 A CN 200610001083A CN 101005462 A CN101005462 A CN 101005462A
Authority
CN
China
Prior art keywords
mail
spam
template
legitimate
send
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610001083
Other languages
English (en)
Other versions
CN100589453C (zh
Inventor
王晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Lucent Technologies Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN200610001083A priority Critical patent/CN100589453C/zh
Publication of CN101005462A publication Critical patent/CN101005462A/zh
Application granted granted Critical
Publication of CN100589453C publication Critical patent/CN100589453C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种反垃圾邮件的处理装置和方法。其中,所述装置包括邮件接收/投递单元、通用邮件控制单元、反垃圾处理单元和邮件数据库,所述邮件数据库预先保存垃圾邮件模板和合法邮件模板;邮件接收/投递单元收到邮件接收/发送请求后,将待接收/发送的邮件送至反垃圾处理单元;反垃圾处理单元将所述邮件与垃圾邮件模板、合法邮件模板分别进行比较,再根据比较结果为所述邮件打上类型标识,送至通用邮件控制单元进行处理控制,或返回给邮件接收/投递单元。本发明的这种装置和方法在接收/发送邮件时,能够基于动态生成的邮件模板识别和过滤垃圾邮件,从而达到较佳的反垃圾效果。

Description

一种反垃圾邮件的处理装置和方法
技术领域
本发明涉及电子邮件(E-mail)处理技术,尤指一种反垃圾邮件的处理装置和方法。
背景技术
目前,垃圾邮件在互联网上横行肆虐,给许多网络用户造成极大困扰。为了解决上述问题,网络服务提供商正在研究反垃圾邮件的方法,以便更好地滤除网络上的垃圾邮件。
现有反垃圾邮件的方法主要有以下几种:1)基于规则的关键字符串过滤垃圾邮件;2)采用统计算法分类识别垃圾邮件,比如Bayesian算法等;3)设置发送者黑白名单等用于拦截垃圾邮件;4)对发送行为进行流量限制等控制方法。上述反垃圾邮件的处理方法可以单独或结合使用,并适于应用在邮件服务器和/或个人用户端的邮件处理装置上。图1为现有邮件处理装置的组成结构,包括邮件接收/投递单元11和通用邮件控制单元12。
所述通用邮件控制单元12用于对邮件进行编/解码和存储,并显示邮件内容给用户等。该控制单元又包括:合法邮件处理模块和垃圾邮件处理模块。合法邮件处理模块负责对携带有合法邮件标识的邮件进行后续处理,比如将该邮件存放到收件箱,或者发送出去等;垃圾邮件处理模块负责对携带有垃圾邮件标识的邮件进行后续处理,比如将该邮件放置在垃圾箱,不发送或限制发送该邮件等。
所述邮件接收/投递单元11接收通用邮件控制单元12的指令,并根据现有的邮件传送协议,在邮件服务器和/或个人用户端之间接收/发送新邮件。
通过实际应用发现,上述反垃圾邮件的方法只是被动地应对垃圾邮件,垃圾邮件发送者很容易采用相应的对策,对这些反垃圾邮件技术进行干扰。
比如,针对信息摘要算法(MD5,Message-Digest algorithm 5)等校验类方法,垃圾邮件发送者在发送垃圾邮件时,引入少量随机变化的内容,使得垃圾邮件之间非严格相同。
针对Bayesian等统计类方法,垃圾邮件发送者在邮件中插入大量扰乱字/字符,以此扰乱用于垃圾识别的特征比例。
针对黑白名单、发送地址过滤等技术,垃圾邮件发送者变换发件人/发送地址,以便通过不同的服务器IP发送雷同邮件。
针对语言相关性方法,垃圾邮件发送者改变邮件正文的语言、文字字符集等,使得汉语分词等技术无法有效地滤出垃圾邮件。
针对流量控制的方法,垃圾邮件发送者放慢自身发送垃圾邮件的频率,或者对同一个帐号发送的邮件数量进行控制,使得垃圾邮件无法被识别。
从上述描述看出,几乎所有常用的反垃圾邮件技术都已被垃圾邮件发送者破解,即反垃圾技术的更新频率远远滞后于垃圾邮件的发送技术,这使得网络始终无法提供令人满意的反垃圾效果。
发明内容
有鉴于此,本发明的主要目的在于提供一种反垃圾邮件的处理装置,使得邮件处理装置在接收/发送邮件时,能够基于邮件模板识别和过滤垃圾邮件,从而达到较佳的反垃圾效果。
本发明的又一目的在于提供一种反垃圾邮件的处理方法,利用邮件模板识别和过滤垃圾邮件,并进一步通过主动提取邮件特征生成和调整邮件模板。
为达到上述目的,本发明的技术方案具体是这样实现的:
一种反垃圾邮件的处理装置,包括邮件接收/投递单元和通用邮件控制单元;该邮件处理装置还包括:反垃圾处理单元和邮件数据库,所述邮件数据库预先保存垃圾邮件模板和合法邮件模板;
邮件接收/投递单元收到邮件接收/发送请求后,将待接收/发送的邮件送至反垃圾处理单元;
反垃圾处理单元将所述邮件与垃圾邮件模板、合法邮件模板分别进行比较,再根据比较结果为所述邮件打上类型标识,送至通用邮件控制单元进行处理控制,或返回给邮件接收/投递单元。
所述邮件数据库包括合法邮件列表库和垃圾邮件模板库,所述合法邮件列表库用于保存合法邮件模板,所述垃圾邮件模板库用于保存垃圾邮件模板;
反垃圾处理单元从合法邮件列表库获取合法邮件模板与待接收/发送的邮件进行比较,如果合法邮件模板中存在所述邮件的相似邮件,则为该邮件打上合法邮件标识;
否则,从垃圾邮件模板库获取垃圾邮件模板与该邮件进行比较,如果垃圾邮件模板中存在所述邮件的相似邮件,则为该邮件打上垃圾邮件标识;
否则,反垃圾处理单元根据预先设置的信息为所述待接收/发送的邮件打上垃圾邮件标识或合法邮件标识。
所述邮件数据库还包括全体邮件样本库;则邮件接收/投递单元进一步将所述待接收/发送的邮件保存在全体邮件样本库中;
反垃圾处理单元如果在垃圾邮件模板库中无法查找到所述邮件的相似邮件,则进一步在全体邮件样本库中查找所述邮件的相似邮件,并在相似邮件数量超过预定值时提取该邮件的邮件模板。
所述反垃圾处理单元包括:垃圾判定模块和邮件模板提取模块;
则垃圾判定模块接收到所述待接收/发送的邮件后,分别向合法邮件列表库和垃圾邮件模板库下发查询请求,以确定所述邮件的邮件类型,并向邮件模板提取模块发出模板提取指令;
邮件模板提取模块接收到上述指令后,利用Alignment比较算法提取出邮件模板,保存到对应类型的邮件数据库中。
该邮件处理装置还包括:全体邮件库维护模块、邮件列表库维护模块和垃圾模板库维护模块;
则所述对全体邮件样本库、合法邮件列表库和垃圾邮件模板库执行的操作分别通过全体邮件库维护模块、邮件列表库维护模块和垃圾模板库维护模块进行。
该邮件处理装置还包括:错误反馈处理模块,用于根据用户反馈信息向反垃圾处理模块发出修改请求;反垃圾处理模块接收到上述请求后,向邮件列表库维护模块和/或垃圾模板库维护模块发出修改通知,修改合法邮件列表库和/或垃圾邮件模板库中的对应数据记录;
或者,错误反馈处理模块直接向邮件列表库维护模块和/或垃圾模板库维护模块发出修改通知,修改合法邮件列表库和/或垃圾邮件模板库中的对应数据记录。
所述邮件处理装置设置在个人用户端,则通用邮件控制单元根据用户请求,向邮件列表库维护模块和/或垃圾模板库维护模块发出修改通知,修改合法邮件列表库和/或垃圾邮件模板库中的对应数据记录。
当邮件接收/投递单元接收到邮件时,所述反垃圾处理单元对该邮件进行类型判定,并添加上对应的类型标识送至通用邮件控制单元;
通用邮件控制单元根据所述类型标识,将该邮件保存在对应位置显示给用户,如果为合法邮件标识则保存在收件箱,如果为垃圾邮件标识则保存在垃圾箱。
所述邮件处理装置设置在邮件服务器。
一种反垃圾邮件的处理方法,应用于包含邮件接收/投递单元、通用邮件控制单元、反垃圾处理单元和邮件数据库的邮件处理装置中,预先在邮件数据库中保存垃圾邮件模板和合法邮件模板,该方法包括以下步骤:
a、邮件接收/投递单元在接收/发送邮件时,将待接收/发送的邮件送至反垃圾处理单元;
b、反垃圾处理单元将所述待接收/发送的邮件与垃圾邮件模板、合法邮件模板分别进行比较,并根据比较结果为所述待接收/发送邮件打上类型标识,再将其送至通用邮件控制单元进行处理控制,或返回给邮件接收/投递单元。
步骤b中,所述反垃圾处理单元根据Alignment比较算法获得比较结果。
所述邮件数据库包括合法邮件列表库和垃圾邮件模板库;则步骤b所述比较并为所述待接收/发送邮件打上类型标识的方法具体为:
b1、反垃圾处理单元根据比较策略将合法邮件列表库中的合法邮件模板与待接收/发送邮件逐一进行比较,并判断是否存在待接收/发送邮件的相似邮件,如果存在则为所述待接收/发送邮件打上合法邮件标识,否则执行步骤b2;
b2、反垃圾处理单元根据比较策略将垃圾邮件模板库中的垃圾邮件模板与待接收/发送邮件逐一进行比较,并判断是否存在待接收/发送邮件的相似邮件,如果存在则为所述待接收/发送邮件打上垃圾邮件标识,否则执行步骤b3;
b3、反垃圾处理单元根据预先设置信息确定所述待接收/发送邮件的类型,并打上对应的类型标识。
步骤b3中,反垃圾处理单元根据黑白名单确定邮件类型。
步骤b3所述的方法进一步包括:
反垃圾处理单元查找全体邮件样本库中保存的所述待接收/发送邮件的相似邮件,并判断相似邮件数量是否超过预定值,如果超过则根据Alignment比较算法提取待接收/发送邮件和其相似邮件的相同内容生成新的邮件模板,并根据步骤b3确定的邮件类型,将所述邮件模板保存到对应的邮件数据库中。
所述比较策略包括:比较邮件内容,或比较邮件格式,或比较发送邮件的通讯指令序列,或采用上述三种方式的任意组合。
所述判定待接收/发送邮件的相似邮件的方法具体为:预先设置相似度阈值,并判断所述比较结果是否超过对应的相似度阈值,如果超过则为待接收/发送邮件的相似邮件,否则不是。
由上述技术方案可见,本发明的这种反垃圾邮件的处理装置,在现有的邮件处理装置中增加反垃圾处理单元,将待接收/发送的邮件与预先保存在邮件数据库中的模板进行比较,根据已有信息区分垃圾邮件和合法邮件,并在确定邮件类型后提取所述邮件特征,保存在邮件数据库中,作为后续过程中用作比较的新邮件模板,使得邮件数据库能够得到动态更新,从而提高邮件处理装置识别垃圾邮件的可靠度,增强该装置反垃圾邮件的灵活性,达到较佳的反垃圾效果。其中,邮件处理装置可以指邮件服务器或个人用户端中设置的邮件程序。
此外,本发明反垃圾邮件的处理方法,通过提取大量邮件的发送行为、发送内容和结构等特征,分别生成垃圾邮件模板和合法邮件模板,并保持上述邮件模板的动态调整,然后利用Alignment比较算法将待接收/发送的邮件与上述邮件模板进行比较,通过判断所述邮件和邮件模板的相似度,区分和过滤出垃圾邮件,故该方法具有相当程度的可行性,能够提高垃圾邮件识别的准确度。
基于上述反垃圾技术,本发明能够更好地拦截垃圾信息,确保邮件系统用户的正常通信不受垃圾邮件的干扰。进一步地,邮件系统可以利用上述方法设置垃圾邮件预警、处理策略,比如对VIP收费用户和普通免费用户提供不同粒度的反垃圾服务等。
附图说明
图1为现有技术中邮件处理装置的组成结构;
图2为本发明一个较佳实施例中利用Alignment比较算法进行字符串比较的示意图;
图3为本发明中反垃圾邮件处理装置的组成结构;
图4为本发明中反垃圾处理的具体流程。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
本发明的反垃圾处理装置和方法能够主动寻找邮件在发送行为、发送内容和结构等方面的规律性,并在邮件系统中引入Alignment技术来提取垃圾邮件模板和/或合法邮件模板,作为判别垃圾邮件的标准。
所述Alignment技术是应用在生物信息领域的一种方法,被广泛地用于查找DNA序列中的相同字符串,以揭示DNA数据库中是否大量出现某段序列等问题。其中,DNA序列中的字符指的是ATCG等生物学字符,空格、换行、特殊符号、非英文字母等其它字符在生物信息领域都会被忽略。在利用Alignment技术比较两个输入字符串时,允许对输入字符串执行删除/插入等操作,以便将两个字符串对齐后再行比较,这样就能寻找出二者的最大可能匹配字符串。
为了使上述Alignment技术能够适用于邮件系统,本发明中将Alignment技术的处理对象进行了扩展,使之覆盖全部的ASCII字符、特殊字符(比如回车、换行和空白字符),以及汉字(字符127~256)等,从而使Alignment技术具备处理任意中英文字符串的能力。图2显示的是Alignment技术进行字符串比较的示意图,上下两行是需要对比的输入字符串,‘-’表示插入空格;中间行是比较结果,其中‘|’表示相符、‘.’表示不相符。在获得比较结果后,可以进一步根据设定的标准判断这两个输入字符串是否相似,比如共有25个字符的字符串,如果比较结果中的‘|’超过13个,则判定这两个输入字符串相似。
从图2看出,Alignment技术能够显示两个字符串中的相同内容,故在E-mail环境下,可以采用Fasta、Blast等具体的Alignment比较算法,提取出隐藏在大量邮件中的垃圾邮件模板和/或合法邮件模板,比如某种网页和结构的XML文本,或文章标题模板等,使得反垃圾技术具有更强的针对性,提高垃圾邮件的拦截准确率。仍以图2为例,由这两个输入字符串比较后,取其相同内容就能生成一个新的模板。
为获取垃圾邮件模板和/或合法邮件模板,需要设置邮件数据库用于保存大量E-mail作为比较对象,并通过一定时间形成大量比较结果作为参考。在该方法的实现初期,所设置的全体邮件样本库、合法邮件列表库和垃圾邮件模板库等邮件数据库都为空。此后,邮件处理装置一旦接收/发送邮件,就将该邮件作为样本保存在全体邮件样本库中。
当全体邮件样本库中的邮件样本达到一定数量时,邮件处理装置开始工作,采用Alignment比较算法将后续接收到的新邮件与全体邮件样本库中的邮件样本进行比较,并根据相似程度判定该邮件的类型。为了提高效率,可以仅选择与该邮件大小相近的邮件样本进行比较。
图3显示的是本发明中反垃圾邮件处理装置的组成结构,该邮件处理装置包括:邮件接收/投递单元31、通用邮件控制单元32、反垃圾处理单元33、全体邮件样本库34、合法邮件列表库35和垃圾邮件模板库36。
邮件接收/投递单元31和通用邮件控制单元32的工作原理与现有技术相同,此处不再赘述。
所述反垃圾处理单元33又包括:垃圾判定模块331和邮件模板提取模块332。
所述全体邮件样本库34中保存的是未经处理的邮件样本;合法邮件列表库35中保存的每条数据记录是一个合法邮件模板,每个合法邮件模板都是由一封以上合法邮件通过比较后提取出其中的相同内容生成的;垃圾邮件模板库36中保存的是垃圾邮件模板,该模板的生成方式与合法邮件模板类似,此处不再赘述。
为了避免对全体邮件样本库34、合法邮件列表库35和垃圾邮件模板库36等邮件数据库进行直接操作,可以为每个数据库设置对应的维护模块,分别是:全体邮件库维护模块341、邮件列表库维护模块351和垃圾模板库维护模块361。这样,对每个数据库的操作指令都可经由对应的维护模块下达,所述操作包括获取邮件数据库中的数据记录,或者对其中的数据记录添加、删除和修改等。
邮件接收/投递单元31收到邮件接收/发送请求后,将待接收/发送邮件送至垃圾判定模块331进行处理,同时通过全体邮件库维护模块341将所述待接收/发送邮件保存在全体邮件样本库34中。
垃圾判定模块331接收到上述新邮件后,通过全体邮件库维护模块341、邮件列表库维护模块351和垃圾模板库维护模块361,分别向全体邮件样本库34、合法邮件列表库35和垃圾邮件模板库36发出查询请求,并根据上述数据库中的数据记录判断所述新邮件的邮件类型。然后,垃圾判定模块331为该邮件打上合法/垃圾邮件标识,并将其送至通用邮件控制单元32进行处理控制,或返回给邮件接收/投递单元31。
此外,邮件模板提取模块332会根据垃圾判定模块331的判断结果,提取出新的邮件模板送入合法邮件列表库35或垃圾邮件模板库36,如果所述新邮件为合法邮件,则获得新的合法邮件模板,对于垃圾邮件的情况亦然,故本发明的反垃圾邮件装置能够动态地生成和调整自身的邮件模板,保证其提供的反垃圾技术不易被破解。
错误反馈处理模块37负责根据用户/管理员的反馈信息,比如邮件误判指示等,调整相应数据库的记录。其中,错误反馈处理模块37可以将调整记录请求送至垃圾判定模块331,再由垃圾判定模块331完成相应数据库的记录调整;或者,错误反馈处理模块37直接将调整记录请求发送至邮件列表库维护模块351和/或垃圾模板库维护模块361,以完成相应数据库的记录调整。
除此之外,如果本发明的邮件处理装置设置在个人用户端,所述通用邮件控制单元32也可以直接根据用户请求,向邮件列表库维护模块351和/或垃圾模板库维护模块361发出调整记录请求,对相应数据库的记录进行操作。
基于上述的反垃圾邮件处理装置,本发明反垃圾技术的处理流程见图4,具体包括以下步骤:
步骤401、邮件处理装置产生待接收/发送的新邮件后,将所述邮件保存在全体邮件样本库中,并将该邮件送至反垃圾处理单元进行类型判定。
步骤402、反垃圾处理单元中的垃圾判定模块接收到上述邮件后,向邮件列表库维护模块发出查询请求,通过合法邮件列表库的数据记录判断所述邮件是否为合法邮件,如果是则执行步骤409,否则执行步骤403。
所述合法邮件列表库中保存的每条数据记录都是一个合法邮件模板,这些合法邮件模板是通过Alignment比较算法对合法邮件进行比较后,提取出邮件中的相同内容生成的。垃圾判定模块根据Alignment比较算法,将所述待接收/发送邮件的原始内容与合法邮件模板逐一进行比较。其中,待接收/发送邮件的原始内容表现为字母文本格式,故Alignment比较算法能够将其作为字符串进行处理。
在具体进行比较时,可以针对E-mail的特点设置比较策略,比如:比较E-mail内容(包含邮件头)的相似度;比较E-mail格式的相似度;或者,在分析垃圾邮件的发送行为时,比较发送E-mail的通讯指令序列的相似度等。
如果要比较E-mail格式,就将其按照出现顺序转化为格式序列,再将格式序列作为字符串两两比较。一般情况下,仅将TAB(\t)、回车(\r)、换行(\n)这三个字符视为格式字符,那么一个可能的格式序列为“\t\r\n\r\n\r\n”。实际上,构成E-mail格式的格式字符可以根据需要进行设置,比如将标点符号也设置为格式字符等。同样地,Email内容和/或通讯指令序列也可以采用类似的方法得出比较结果。
对于不同的比较内容,邮件系统可以设定不同的相似度阈值,比如邮件头的相似度阈值为95%,邮件正文的相似度阈值为80%,图片等附件的相似度阈值为98%等。只有比较结果超过设定的相似度阈值,才能判定二者相似。上述的相似度阈值可以根据用户的反馈进行调整和修改,此处不再赘述。
此外,还可以将不同部分的比较结果按照指定规则计算出综合相似指标,作为识别合法/垃圾邮件的标准。比如,如果两个输入邮件的邮件头相似度>95%,邮件正文相似度>80%,并且都包含有相同的图片附件,则判定这两个输入邮件相似。
经过上述过程,垃圾判定模块能够很容易地获知该邮件是否合法。
步骤403、垃圾判定模块向垃圾模板库维护模块发出查询请求,根据垃圾邮件模板库的数据记录判断所述邮件是否为垃圾邮件,如果是则执行步骤404,否则执行步骤405。
该步骤中,垃圾邮件的判断过程与合法邮件类似,此处不再赘述。
步骤404、垃圾判定模块将所述邮件标为垃圾邮件、给出高危垃圾指标,并将其送至通用邮件控制单元,然后执行步骤410。
所述高危垃圾指标包括:垃圾邮件相似度、垃圾邮件模板的覆盖邮件数等。如果覆盖邮件数为一万封,表明该垃圾邮件模板是根据一万封垃圾邮件提取出来的。
步骤405、垃圾判定模块向全体邮件库维护模块发出查询请求,在全体邮件样本库保存的邮件样本中查找所述邮件的相似邮件,如果所述相似邮件数量超过预设门限值T则执行步骤406,否则直接执行步骤407。
步骤406、垃圾判定模块向邮件模板提取模块发出模板提取指令。邮件模板提取模块接收到上述指令后,从全体邮件样本库中选取至少一个与所述待接收/发送邮件相似的邮件样本,并用Alignment比较算法对该邮件与邮件样本进行比较,生成新邮件模板。
步骤407、垃圾判定模块根据自身设置的辅助信息判断所述邮件类型,如果为垃圾邮件则通知邮件模板提取模块将新邮件模板保存到垃圾邮件模板库中,并执行步骤408;如果为合法邮件,则将新邮件模板保存到合法邮件列表库中,并执行步骤409。
所述辅助信息指的是黑白名单等,比如某邮件是由可信任的地址投递的,就将其列在白名单上,垃圾判定模块在后续过程中接收到与该发送地址相同的邮件,就会判定其为合法邮件。垃圾邮件信息也可以采用同样的方法设定,此处不再赘述。
步骤408、垃圾判定模块将所述邮件标为垃圾邮件、给出中等垃圾指标,并将其送至通用邮件控制单元,然后执行步骤410。
步骤409、垃圾判定模块将所述邮件标为合法邮件、给出合法邮件指标,并将其送至通用邮件控制单元。
步骤410、通用邮件控制单元根据所述邮件的类型标识,对其执行后续处理,此处不再赘述。
对于携带有垃圾邮件标识的邮件,邮件处理装置将拒绝发送或限量发送,而对于判定为合法邮件的则保持正常发送。
上述反垃圾邮件的处理过程可以在接收/发送邮件时触发,从而加大邮件收发时的反垃圾处理力度。对于接收和发送邮件这两种情况,邮件处理装置在执行类型判定时可以区别对待。比如,对于接收到的邮件,需要查询全体邮件样本库;而发送邮件时则不必执行上述过程。又比如,当邮件处理装置设置在邮件服务器时,接收邮件使用规模较大的邮件数据库进行比较,而发送邮件仅需比较小范围的邮件模板等。
此外,邮件服务器和个人用户端可以同时设置上述邮件处理装置,使得整个邮件系统具有更强的反垃圾能力。当个人用户端向邮件服务器发出一封邮件时,会根据自身邮件数据库的数据记录,执行一次邮件扫描以判定该邮件的类型;邮件服务器在接收到该封邮件后,可以再执行一次类型判定,并根据情况提取新的邮件模板。实际应用中,邮件系统的反垃圾邮件处理过程不限于此,可以在所需的任意邮件处理装置上触发邮件扫描过程,此处不再赘述。
由上述的实施例可见,本发明的这种反垃圾邮件的处理装置和方法,将待接收/发送的邮件与预先保存在邮件数据库中的模板进行比较,根据已有信息区分垃圾邮件和合法邮件,并在确定邮件类型后提取所述邮件特征,作为后续过程中的新邮件模板,从而达到较佳的反垃圾效果。

Claims (16)

1、一种反垃圾邮件的处理装置,包括邮件接收/投递单元和通用邮件控制单元;其特征在于,该邮件处理装置还包括:反垃圾处理单元和邮件数据库,所述邮件数据库预先保存垃圾邮件模板和合法邮件模板;
邮件接收/投递单元收到邮件接收/发送请求后,将待接收/发送的邮件送至反垃圾处理单元;
反垃圾处理单元将所述邮件与垃圾邮件模板、合法邮件模板分别进行比较,再根据比较结果为所述邮件打上类型标识,送至通用邮件控制单元进行处理控制,或返回给邮件接收/投递单元。
2、根据权利要求1所述的装置,其特征在于,所述邮件数据库包括合法邮件列表库和垃圾邮件模板库,所述合法邮件列表库用于保存合法邮件模板,所述垃圾邮件模板库用于保存垃圾邮件模板;
反垃圾处理单元从合法邮件列表库获取合法邮件模板与待接收/发送的邮件进行比较,如果合法邮件模板中存在所述邮件的相似邮件,则为该邮件打上合法邮件标识;
否则,从垃圾邮件模板库获取垃圾邮件模板与该邮件进行比较,如果垃圾邮件模板中存在所述邮件的相似邮件,则为该邮件打上垃圾邮件标识;
否则,反垃圾处理单元根据预先设置的信息为所述待接收/发送的邮件打上垃圾邮件标识或合法邮件标识。
3、根据权利要求2所述的装置,其特征在于,所述邮件数据库还包括全体邮件样本库;则邮件接收/投递单元进一步将所述待接收/发送的邮件保存在全体邮件样本库中;
反垃圾处理单元如果在垃圾邮件模板库中无法查找到所述邮件的相似邮件,则进一步在全体邮件样本库中查找所述邮件的相似邮件,并在相似邮件数量超过预定值时提取该邮件的邮件模板。
4、根据权利要求3所述的装置,其特征在于,所述反垃圾处理单元包括:垃圾判定模块和邮件模板提取模块;
则垃圾判定模块接收到所述待接收/发送的邮件后,分别向合法邮件列表库和垃圾邮件模板库下发查询请求,以确定所述邮件的邮件类型,并向邮件模板提取模块发出模板提取指令;
邮件模板提取模块接收到上述指令后,利用Alignment比较算法提取出邮件模板,保存到对应类型的邮件数据库中。
5、根据权利要求1至4任一项所述的装置,其特征在于,该邮件处理装置还包括:全体邮件库维护模块、邮件列表库维护模块和垃圾模板库维护模块;
则所述对全体邮件样本库、合法邮件列表库和垃圾邮件模板库执行的操作分别通过全体邮件库维护模块、邮件列表库维护模块和垃圾模板库维护模块进行。
6、根据权利要求5所述的装置,其特征在于,该邮件处理装置还包括:错误反馈处理模块,用于根据用户反馈信息向反垃圾处理模块发出修改请求;反垃圾处理模块接收到上述请求后,向邮件列表库维护模块和/或垃圾模板库维护模块发出修改通知,修改合法邮件列表库和/或垃圾邮件模板库中的对应数据记录;
或者,错误反馈处理模块直接向邮件列表库维护模块和/或垃圾模板库维护模块发出修改通知,修改合法邮件列表库和/或垃圾邮件模板库中的对应数据记录。
7、根据权利要求5所述的装置,其特征在于,所述邮件处理装置设置在个人用户端,则通用邮件控制单元根据用户请求,向邮件列表库维护模块和/或垃圾模板库维护模块发出修改通知,修改合法邮件列表库和/或垃圾邮件模板库中的对应数据记录。
8、根据权利要求7所述的装置,其特征在于,当邮件接收/投递单元接收到邮件时,所述反垃圾处理单元对该邮件进行类型判定,并添加上对应的类型标识送至通用邮件控制单元;
通用邮件控制单元根据所述类型标识,将该邮件保存在对应位置显示给用户,如果为合法邮件标识则保存在收件箱,如果为垃圾邮件标识则保存在垃圾箱。
9、根据权利要求5所述的装置,其特征在于,所述邮件处理装置设置在邮件服务器。
10、一种反垃圾邮件的处理方法,应用于包含邮件接收/投递单元、通用邮件控制单元、反垃圾处理单元和邮件数据库的邮件处理装置中,其特征在于,预先在邮件数据库中保存垃圾邮件模板和合法邮件模板,该方法包括以下步骤:
a、邮件接收/投递单元在接收/发送邮件时,将待接收/发送的邮件送至反垃圾处理单元;
b、反垃圾处理单元将所述待接收/发送的邮件与垃圾邮件模板、合法邮件模板分别进行比较,并根据比较结果为所述待接收/发送邮件打上类型标识,再将其送至通用邮件控制单元进行处理控制,或返回给邮件接收/投递单元。
11、根据权利要求10所述的方法,其特征在于,步骤b中,所述反垃圾处理单元根据Alignment比较算法获得比较结果。
12、根据权利要求10或11所述的方法,其特征在于,所述邮件数据库包括合法邮件列表库和垃圾邮件模板库;则步骤b所述比较并为所述待接收/发送邮件打上类型标识的方法具体为:
b1、反垃圾处理单元根据比较策略将合法邮件列表库中的合法邮件模板与待接收/发送邮件逐一进行比较,并判断是否存在待接收/发送邮件的相似邮件,如果存在则为所述待接收/发送邮件打上合法邮件标识,否则执行步骤b2;
b2、反垃圾处理单元根据比较策略将垃圾邮件模板库中的垃圾邮件模板与待接收/发送邮件逐一进行比较,并判断是否存在待接收/发送邮件的相似邮件,如果存在则为所述待接收/发送邮件打上垃圾邮件标识,否则执行步骤b3;
b3、反垃圾处理单元根据预先设置信息确定所述待接收/发送邮件的类型,并打上对应的类型标识。
13、根据权利要求12所述的方法,其特征在于,步骤b3中,反垃圾处理单元根据黑白名单确定邮件类型。
14、根据权利要求12所述的方法,其特征在于,步骤b3所述的方法进一步包括:
反垃圾处理单元查找全体邮件样本库中保存的所述待接收/发送邮件的相似邮件,并判断相似邮件数量是否超过预定值,如果超过则根据Alignment比较算法提取待接收/发送邮件和其相似邮件的相同内容生成新的邮件模板,并根据步骤b3确定的邮件类型,将所述邮件模板保存到对应的邮件数据库中。
15、根据权利要求12所述的方法,其特征在于,所述比较策略包括:比较邮件内容,或比较邮件格式,或比较发送邮件的通讯指令序列,或采用上述三种方式的任意组合。
16、根据权利要求12所述的方法,其特征在于,所述判定待接收/发送邮件的相似邮件的方法具体为:预先设置相似度阈值,并判断所述比较结果是否超过对应的相似度阈值,如果超过则为待接收/发送邮件的相似邮件,否则不是。
CN200610001083A 2006-01-16 2006-01-16 一种反垃圾邮件的处理装置和方法 Active CN100589453C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610001083A CN100589453C (zh) 2006-01-16 2006-01-16 一种反垃圾邮件的处理装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610001083A CN100589453C (zh) 2006-01-16 2006-01-16 一种反垃圾邮件的处理装置和方法

Publications (2)

Publication Number Publication Date
CN101005462A true CN101005462A (zh) 2007-07-25
CN100589453C CN100589453C (zh) 2010-02-10

Family

ID=38704332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610001083A Active CN100589453C (zh) 2006-01-16 2006-01-16 一种反垃圾邮件的处理装置和方法

Country Status (1)

Country Link
CN (1) CN100589453C (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010135861A1 (zh) * 2009-05-25 2010-12-02 Chiao Hakfung 邮件系统、垃圾邮件处理器及标记垃圾邮件的方法
CN101330476B (zh) * 2008-07-02 2011-04-13 北京大学 一种垃圾邮件动态检测方法
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN101699818B (zh) * 2009-11-11 2012-07-04 海南电力试验研究所 一种反垃圾邮件管理系统和方法
CN103188136A (zh) * 2011-12-30 2013-07-03 盈世信息科技(北京)有限公司 一种邮件过滤信息保存方法、邮件服务器及电子邮件系统
CN103795612A (zh) * 2014-01-15 2014-05-14 五八同城信息技术有限公司 即时通讯中的垃圾和违法信息检测方法
CN105306342A (zh) * 2015-09-29 2016-02-03 武汉钢铁(集团)公司 一种非标准邮件系统信息错误的处理方法和系统
CN105871701A (zh) * 2016-05-30 2016-08-17 周奇 一种邮件处理方法和装置
CN106066884A (zh) * 2016-06-06 2016-11-02 珠海市小源科技有限公司 一种信息安全识别方法和装置
CN103841094B (zh) * 2012-11-27 2017-04-12 阿里巴巴集团控股有限公司 判断邮件类型的方法及设备
CN107171937A (zh) * 2017-05-11 2017-09-15 翼果(深圳)科技有限公司 反垃圾邮件的方法及系统
CN107171944A (zh) * 2017-06-27 2017-09-15 北京二六三企业通信有限公司 垃圾邮件的识别方法及装置
CN107819664A (zh) * 2016-09-12 2018-03-20 阿里巴巴集团控股有限公司 一种垃圾邮件的识别方法、装置及电子设备
CN108769140A (zh) * 2018-05-09 2018-11-06 国家计算机网络与信息安全管理中心 一种实时图像文字识别缓存加速系统
CN115567476A (zh) * 2022-09-28 2023-01-03 建信金融科技有限责任公司 垃圾邮件检测方法、装置、处理器及存储介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101330476B (zh) * 2008-07-02 2011-04-13 北京大学 一种垃圾邮件动态检测方法
WO2010135861A1 (zh) * 2009-05-25 2010-12-02 Chiao Hakfung 邮件系统、垃圾邮件处理器及标记垃圾邮件的方法
CN102067534B (zh) * 2009-05-25 2014-06-04 赵克锋 垃圾邮件处理器及标记垃圾邮件的方法
CN101699818B (zh) * 2009-11-11 2012-07-04 海南电力试验研究所 一种反垃圾邮件管理系统和方法
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN103188136B (zh) * 2011-12-30 2016-04-27 盈世信息科技(北京)有限公司 一种邮件过滤信息保存方法、邮件服务器及电子邮件系统
CN103188136A (zh) * 2011-12-30 2013-07-03 盈世信息科技(北京)有限公司 一种邮件过滤信息保存方法、邮件服务器及电子邮件系统
WO2013097329A1 (zh) * 2011-12-30 2013-07-04 盈世信息科技(北京)有限公司 一种邮件过滤信息保存方法、邮件服务器及电子邮件系统
CN103841094B (zh) * 2012-11-27 2017-04-12 阿里巴巴集团控股有限公司 判断邮件类型的方法及设备
CN103795612A (zh) * 2014-01-15 2014-05-14 五八同城信息技术有限公司 即时通讯中的垃圾和违法信息检测方法
CN105306342A (zh) * 2015-09-29 2016-02-03 武汉钢铁(集团)公司 一种非标准邮件系统信息错误的处理方法和系统
CN105871701A (zh) * 2016-05-30 2016-08-17 周奇 一种邮件处理方法和装置
CN106066884A (zh) * 2016-06-06 2016-11-02 珠海市小源科技有限公司 一种信息安全识别方法和装置
CN107819664A (zh) * 2016-09-12 2018-03-20 阿里巴巴集团控股有限公司 一种垃圾邮件的识别方法、装置及电子设备
CN107171937A (zh) * 2017-05-11 2017-09-15 翼果(深圳)科技有限公司 反垃圾邮件的方法及系统
CN107171944A (zh) * 2017-06-27 2017-09-15 北京二六三企业通信有限公司 垃圾邮件的识别方法及装置
CN108769140A (zh) * 2018-05-09 2018-11-06 国家计算机网络与信息安全管理中心 一种实时图像文字识别缓存加速系统
CN115567476A (zh) * 2022-09-28 2023-01-03 建信金融科技有限责任公司 垃圾邮件检测方法、装置、处理器及存储介质

Also Published As

Publication number Publication date
CN100589453C (zh) 2010-02-10

Similar Documents

Publication Publication Date Title
CN100589453C (zh) 一种反垃圾邮件的处理装置和方法
US8713014B1 (en) Simplifying lexicon creation in hybrid duplicate detection and inductive classifier systems
US8768940B2 (en) Duplicate document detection
US10042919B2 (en) Using distinguishing properties to classify messages
US7930351B2 (en) Identifying undesired email messages having attachments
US10027611B2 (en) Method and apparatus for classifying electronic messages
US7949718B2 (en) Phonetic filtering of undesired email messages
Fumera et al. Spam filtering based on the analysis of text information embedded into images.
Almeida et al. Towards sms spam filtering: Results under a new dataset
CN105490915B (zh) 用于填写电子消息的地址字段的方法、设备和软件产品
US8112484B1 (en) Apparatus and method for auxiliary classification for generating features for a spam filtering model
US20050132197A1 (en) Method and apparatus for a character-based comparison of documents
US20120131119A1 (en) Message classification using legitimate contact points
US20060259551A1 (en) Detection of unsolicited electronic messages
US7624274B1 (en) Decreasing the fragility of duplicate document detecting algorithms
CN103136266A (zh) 邮件分类的方法及装置
CN101159704A (zh) 基于微内容相似度的反垃圾方法
CN108475274A (zh) 生成和应用传出通信模板
JP4642903B2 (ja) 文脈認識が強化されたメッセージ変換システムおよび方法
US11036976B2 (en) Methods and systems of handwriting recognition in virtualized-mail services
US10163005B2 (en) Document structure analysis device with image processing
US20220050862A1 (en) Method for processing disappearing messages in an electronic messaging service and corresponding processing system
CN106713108A (zh) 一种结合用户关系与贝叶斯理论的邮件分类方法
Ma et al. Identifying Chinese e-mail documents’ authorship for the purpose of computer forensic
KR20120075519A (ko) 그룹코드와 인증코드를 이용한 이메일시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant