CN101026593A

CN101026593A - 一种反垃圾邮件的方法及系统

Info

Publication number: CN101026593A
Application number: CN 200610033980
Authority: CN
Inventors: 王晖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2006-02-23
Filing date: 2006-02-23
Publication date: 2007-08-29
Anticipated expiration: 2026-02-23
Also published as: CN100561988C

Abstract

本发明适用于计算机通信领域，提供了一种反垃圾邮件的方法及系统，所述方法包括以下步骤：A.通过第一处理级按照第一识别原则对原始邮件样本集进行识别处理，输出最终识别结果和第一邮件样本集；B.通过第二处理级按照第二识别原则对所述第一邮件样本集以及根据所述第一邮件样本集追加的追加邮件样本集进一步进行识别处理，输出最终识别结果和第二样本集；C.将所述第二样本集作为最终邮件识别结果输出，或者继续输出给下一处理级进行识别处理。本发明采取对邮件样本进行多级识别处理，将偏向性识别和针对性纠正相结合，并进一步通过反馈机制，提高了垃圾邮件的拦截率，降低了垃圾邮件的误判率。

Description

一种反垃圾邮件的方法及系统

技术领域

本发明属于计算机通信领域，尤其涉及一种反垃圾邮件的方法及系统。

背景技术

目前在电子邮件方面，垃圾邮件的泛滥已经是一个不容忽视、亟待解决的问题。大量的垃圾邮件不仅耗费用户的处理时间，而且浪费邮件系统的宝贵资源，阻碍了用户获取有用信息的过程。垃圾邮件发送技术与反垃圾邮件技术是在不断对抗中发展起来的，反垃圾邮件技术主要采用“学习＝>分类＝>反馈”相结合的框架结构，其中学习过程可以由人完成也可以由算法完成，采取的方法包括邮件内容过滤与发送行为过滤，并广泛采用机器学习的手段，从而具有不断自学和更正的能力。同时垃圾邮件发送者也在不断更新他们的发送手段，针对反垃圾邮件的系统的技术特点采取干扰措施，例如更改垃圾邮件的内容、刻意模糊垃圾邮件与正常邮件的界限等，使得传统的反垃圾邮件手段效果不明显或者失效。

用于反垃圾邮件的现有算法有多种，基于这些算法而有不同的反垃圾邮件手段，例如基于规则的关键字串过滤手段、基于统计的算法如Bayesian(贝叶斯)等分类识别手段、发送者黑白名单等拦截手段、流量限制等发送行为控制手段，这些方法可以单独使用也可以结合使用，结合使用时因为各处理环节中原始输入的邮件样本没有变化，通常可以将其综合看做一个垃圾邮件的处理器来对待。

上述常见的垃圾邮件识别过程具有以下共同特征：

1)单一数据，即都是单一的数据集作为公共输入

2)单级处理

3)对于新邮件，通过处理后得到相应的识别结果

采用上述方案，无论将垃圾邮件的内容作为输入还是将垃圾发送的行为作为输入都可以有效运作，比如日前广泛应用的基于Bayesian的反垃圾邮件技术。

通过上述现有技术对垃圾邮件进行处理时，垃圾邮件与正常邮件的比例远离平衡值，垃圾邮件往往远远多于好邮件，达到10∶1的比例，大型邮件系统上甚至更高。同时，相同或相似的邮件样本同时出现在好坏集合时，直接影响邮件的判别结果，导致垃圾邮件的拦截率下降与误判率上升。解决上述问题需要人工维持去平衡样本集，但不能真实代表自然的邮件样本分布情况，此时对重复、类似邮件的加权或减权的数值较难设定。

出现上述问题的根源来自于目前所采用的垃圾邮件识别方法对样本的平衡性有严格的要求。对于中小型邮件系统，由此带来的误判率上升问题尚可接受，但对于大型邮件系统，在用户数量达到一定级别后，垃圾邮件与正常邮件比例失调情况与相同、相似邮件同时属于垃圾邮件与正常邮件的情况更加严重，再加上不同人的判断标准不尽相同，此时仅仅考虑来自用户的反馈信息就足以将垃圾邮件的识别过程搅乱。

发明内容

本发明的目的在于提供一种垃圾邮件识别系统，旨在解决现有技术在对垃圾邮件进行识别处理时对样本的平衡性要求严格，造成垃圾邮件误判率上升的问题。

本发明的另一目的在于提供一种垃圾邮件识别方法。

本发明是这样实现的：

一种反垃圾邮件的方法，所述方法包括以下步骤：

A.通过第一处理级按照第一识别原则对原始邮件样本集进行识别处理，输出最终识别结果和第一邮件样本集；

B.通过第二处理级按照第二识别原则对所述第一邮件样本集以及根据所述第一邮件样本集追加的追加邮件样本集进一步进行识别处理，输出最终识别结果和第二样本集；

C.将所述第二样本集作为最终邮件识别结果输出，或者继续输出给下一处理级进行识别处理；

所述第一识别原则用于对输入的邮件样本进行偏向性识别，所述第二识别原则用于对所述第一处理级的识别错误进行纠正；

所述识别处理采用的算法为对输入数据的平衡性反应敏感的识别算法。

所述方法进一步包括：

D.将每一处理级的错误识别结构反馈回本处理级以及上一处理级，调整相应处理级的识别原则。

所述追加邮件样本集来源于所述原始邮件样本集或者上一处理级输出的邮件样本集。

所述第一邮件样本集或者第二邮件样本集中的邮件为垃圾邮件。

不同的处理级采用相同或者不同的识别算法。

各处理级均位于服务器端。

所述第一处理级位于服务器端，所述第二处理级位于客户端；

所述第二处理级包括多个子处理级，每个子处理级对应至少一个邮件账户。。

一种反垃圾邮件的系统，所述系统包括：

第一级处理器，用于按照第一识别原则对原始邮件样本集进行识别处理，输出最终识别结果和第一邮件样本集；

第二级处理器，用于按照第二识别原则对所述第一邮件样本集以及根据所述第一邮件样本集追加的追加邮件样本集进一步进行识别处理，输出最终识别结果和第二样本集，并将所述第二样本集作为最终邮件识别结果输出，或者继续输出给下一处理级进行识别处理；

所述第一级处理器进一步包括：

邮件样本库，用于接收原始邮件样本集；

邮件识别处理模块，用于按照第一识别原则对所述邮件样本库中的原始邮件样本集进行识别处理，输出最终识别结果和第一邮件样本集。

所述第二级处理器进一步包括：

邮件样本库，用于接收所述第一邮件样本集；

邮件样本追加模块，用于根据所述第一邮件样本集的邮件数量追加相应的邮件样本；

追加样本库，用于接收所述邮件样本追加模块追加的邮件样本集；

邮件识别处理模块，用于按照第二识别原则对所述第一邮件样本集以及所述追加邮件样本集进一步进行识别处理，输出最终识别结果和第二样本集，并将所述第二样本集作为最终邮件识别结果输出，或者继续输出给下一级进行识别处理。

所述追加邮件样本集来源于所述原始邮件样本集或者所述第一邮件样本集。

所述第一级处理器和第二级处理器采用同一识别算法或者不同的识别算法。

所述第一级处理器和第二级处理器均位于服务器端。

所述第一级处理器位于服务器端，所述第二级处理器位于客户端；

所述第二级处理器包括多个子处理器，每个子处理器对应至少一个邮件账户。。

本发明采取对邮件样本进行多级识别处理，将偏向性识别和针对性纠正相结合，并进一步通过反馈机制，提高了垃圾邮件的拦截率，降低了垃圾邮件的误判率。

附图说明

图1是本发明提供的垃圾邮件识别训练的实现方法原理图；

图2是本发明提供的反垃圾邮件的系统的结构图；

图3是本发明中将反垃圾邮件处理扩展到用户层面时的实现原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明对垃圾邮件的识别采取多级处理的方法，上一级处理进行偏向性的识别，下一级处理器则针对上一级处理的识别结果进行针对性的更正，同时，进一步将本级产生的错误反馈到本级及上一级处理，参与下一次的分类识别训练过程。本发明不局限于邮件样本的平衡性，能够灵活处理，提高了垃圾邮件的拦截率，降低了误判率。

需要说明的是，本发明中各级处理所采用的处理方法必须为由于核心计算公式的特点或技术限制所引起的对输入数据平衡性非常敏感的方法，如Bayesian类、决策树类、规则等分类方法，或K-means(K-均值)、KNN(k-nearestneighbors method，最邻近算法)等聚类方法，或原本对输入数据平衡性不敏感但经过简单修改就可以带来平衡性敏感的方法。当采用相同算法时，各级的输入数据集与垃圾邮件与正常邮件的比例需不同；采用不同算法时，极限情况下允许各级的输入数据集相同。在此基础上再增加错误反馈处理后，一个具有定向偏向错误与定向偏向更正的反垃圾邮件的系统便得以建立。

图1示出了本发明提供的垃圾邮件识别训练的实现原理，以两级为例，当然，本发明并不仅限于两级级，可以根据需要设置多个处理级别。

在本发明中，各级处理一般都采用同一种算法，通过有意改变每一级处理的输入邮件与训练方法的参数来改变其识别结果。每一级处理只处理其他某一级处理或某几级处理容易出错的情况，因此，任何一级的识别结果原则上都可以建立一个更正级。

在应用部署方面，本发明对各级处理的部署位置没有严格要求，根据不同应用需求可以都设置邮件服务器端，也可以部分设置在服务器端，部分设置在客户端，如Foxmail，Outlook等。

作为本发明的一个实施例，上一级处理的目标为获得良好的非垃圾邮件识别结果，具体可以通过放宽垃圾邮件的识别标准，提高垃圾邮件的拦截率来实现。当然，目标也可以是为获得良好的垃圾邮件识别结果，可以灵活选择。

上一级处理在训练时对输入邮件集合的处理方式是：

a.将全部可以获得的邮件，即原始邮件样本集合作为输入；

b.将其中所有被认为具有垃圾邮件倾向的邮件都作为垃圾邮件对待；

c.将其中同时出现在非垃圾邮件与垃圾邮件集合的邮件作为垃圾邮件对待。

经过上一级处理处理而输出的邮件分成了两部分：一部分是可信赖的非垃圾邮件，进入最终结果；另外一部分是垃圾邮件，而其中可能包含了被当作垃圾邮件对待的部分非垃圾邮件，这一部分邮件被发送到下一级处理进行进一步的识别和判定。

下一级处理对由上一级处理发送过来的高错误率的垃圾邮件识别结果进行针对性的更正，重新识别出其中的非垃圾邮件。

下一级处理在训练时输入的邮件集合由两部分组成：一部分是上一级处理发送过来的垃圾邮件；另一部分是下一级处理采用某种策略从原始邮件样本集或者上一级输入进行识别处理的邮件样本集中抽取部分邮件，作为追加样本库，例如如果现在需要进一步处理的样本集合理论上大部分都是被误判的垃圾邮件，则需要添加一定比例的真正垃圾邮件作对应，这个比例可以根据需要灵活调整(经验设定/递归测试设定)，调整的目标是最终的判定结果可以接受。两部分邮件合并在一起作为下一级处理的训练数据集合。

下一级处理的算法也可以灵活选择，但本发明在具体应用中一般采用跟上一级处理相同的算法。

在系统训练时，上述过程可能需要反复多次，在调整各级算法的参数与追加样本库的内容后，当综合拦截率、误判率降到一个指定区间后可以停止学习过程，将模型保存下来参与实际应用。

在具体应用时，还需要针对每一级处理的错误识别结果设置几个反馈流程，将错误结果分别返回到不同地方(本级及上一级)参与未来的训练。对于多级的垃圾邮件识别系统而言，两级以后的处理模块只需要处理上一级或上几级出现错误的情况，其输入样本的集合一般会逐级减少。

综上所述，本发明方案具有以下几个显著特点：

第一、各级的输入数据集合不同，这通过在各级识别过程中有意甚至刻意制造输入邮件样本的不平衡性来达到。

第二、对各级的相应输入数据，采用偏向某个最终识别目标的策略，或偏向于非垃圾邮件的识别准确率或偏向于垃圾邮件的识别准确率。

第三、各级处理中可以采用相同或不同的方法，对邮件进行识别。

这样，对所有处理的输出结果进行处理(串行或并行)后，则可以将输入样本的不平衡劣势变为优势。

图2示出了本发明提供的反垃圾邮件的系统的结构，为了便于理解，以两级处理为例。

第一级处理器100包括邮件样本库101和邮件识别处理模块102，第二级处理器200包括邮件样本库201、邮件样本追加模块202、追加样本库203以及邮件识别处理模块204。

输入邮件样本库101的邮件为原始邮件样本集合，邮件识别处理模块102通过上述的垃圾邮件识别算法对垃圾邮件进行识别，作为本发明的一个实施例，邮件识别处理模块102放松垃圾邮件识别标准，提高垃圾邮件的拦截率，从获得良好的非垃圾邮件识别结果。

经邮件识别处理模块102识别处理后输出的非垃圾邮件识别结果作为最终的邮件识别结果，输出的垃圾邮件识别结果继续输入到第二级处理器200进行纠正性识别处理。

邮件识别处理模块102识别处理后输出的垃圾邮件识别结果输入到邮件样本库201。邮件样本追加模块202用于根据第一级处理器100输出的垃圾邮件识别结果中的邮件数量从原始邮件样本或者其他邮件样本中追加相应比例的邮件样本输入到追加样本库203。邮件识别处理模块204按照对第一级处理器100输出的垃圾邮件识别结果进行纠正性识别的原则对邮件样本库201和追加样本库203的邮件进一步进行识别处理，进一步提高垃圾邮件的拦截率，分别输出非垃圾邮件识别结果和垃圾邮件识别结果作为最终的识别结果。当然，也可以采用更多级别的处理器，例如第三级处理器、第四级处理器......时，将第二级处理器200输出的垃圾邮件识别结果进行纠正性处理，以进一步提高垃圾邮件的识别效果。此时，第三级处理器、第四级处理器......的结构与第二级处理器200的结构相同。

图3示出了本发明将垃圾邮件识别处理扩展到用户层面时的实现原理，可以针对每个用户设置最符合其特性的末级反垃圾模块，以实现客户个性化服务的要求，能够有效针对不同用户对不同邮件的偏好实现更准确的反垃圾邮件效果。

在本发明中，任何一个级别的处理器都可以是一个逻辑上的处理器，允许封装多个高相关性的子处理器，每个子处理器对应至少一个邮件帐户。在本实施例中，就是将所有单个用户层面的整体看作第二级处理器。

如果继续使用传统的Bayesian算法作为反垃圾邮件技术，本实施例则基于一个两级Bayesian反垃圾邮件的系统。图中实细线表示每一个步骤中输出需要下一级继续处理的结果；虚线代表输出的结果可以充分信任，作为最终结果；实粗线表示对错误识别结果进行反馈。此实施例中对垃圾邮件的识别过程与上述过程一致，不再赘述。

需要补充说明的是，第二级处理器识别到的错误可以通过用户、邮件系统操作人员，或者垃圾邮件收集器/探针进行反馈。本实施例中第二级处理器中发现的错误被分别反馈到本级与上一级，参与下一次的分类识别模型训练过程。一般而言，错误样本按照对不同上级的重要程度决定返回的地方，而且错误只向上反馈。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1、一种反垃圾邮件的方法，其特征在于，所述方法包括以下步骤：

B.通过第二处理级按照第二识别原则对所述第一邮件样本集以及根据所述第一邮件样本集追加的追加邮件样本集进一步进行识别处理，输出最终识别结果和第二邮件样本集；

2、如权利要求1所述的反垃圾邮件的方法，其特征在于，所述方法进一步包括：

3、如权利要求1所述的反垃圾邮件的方法，其特征在于，所述追加邮件样本集来源于所述原始邮件样本集或者上一处理级输出的邮件样本集。

4、如权利要求1所述的反垃圾邮件的方法，其特征在于，所述第一邮件样本集或者第二邮件样本集中的邮件为垃圾邮件。

5、如权利要求1所述的反垃圾邮件的方法，其特征在于，不同的处理级采用相同或者不同的识别算法。

6、如权利要求1所述的反垃圾邮件的方法，其特征在于，各处理级均位于服务器端。

7、如权利要求1所述的反垃圾邮件的方法，其特征在于，所述第一处理级位于服务器端，所述第二处理级位于客户端；

所述第二处理级包括多个子处理级，每个子处理级对应至少一个邮件账户。

8、一种反垃圾邮件的系统，其特征在于，所述系统包括：

9、如权利要求8所述的反垃圾邮件的系统，其特征在于，所述第一级处理器进一步包括：

邮件样本库，用于接收原始邮件样本集；

10、如权利要求8所述的反垃圾邮件的系统，其特征在于，所述第二级处理器进一步包括：

邮件样本库，用于接收所述第一邮件样本集；

11、如权利要求8所述的反垃圾邮件的系统，其特征在于，所述追加邮件样本集来源于所述原始邮件样本集或者所述第一邮件样本集。

12、如权利要求8所述的反垃圾邮件的系统，其特征在于，所述第一邮件样本集或者第二邮件样本集中的邮件为垃圾邮件。

13、如权利要求8所述的反垃圾邮件的系统，其特征在于，所述第一级处理器和第二级处理器采用同一识别算法或者不同的识别算法。

14、如权利要求8所述的反垃圾邮件的系统，其特征在于，所述第一级处理器和第二级处理器均位于服务器端。

15、如权利要求8所述的反垃圾邮件的系统，其特征在于，所述第一级处理器位于服务器端，所述第二级处理器位于客户端；

所述第二级处理器包括多个子处理器，每个子处理器对应至少一个邮件账户。