CN102404249A

CN102404249A - 一种基于协同训练的垃圾邮件过滤方法和装置

Info

Publication number: CN102404249A
Application number: CN2011103696976A
Authority: CN
Inventors: 徐燕; 邱泳钦; 李丹; 周美林
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2011-11-18
Filing date: 2011-11-18
Publication date: 2012-04-04
Anticipated expiration: 2031-11-18
Also published as: CN102404249B

Abstract

本发明实施例提供了一种基于协同训练的垃圾邮件过滤方法和装置，方法包括：输入待过滤的邮件集合；根据邮件集合得到每个样本的特征向量，其中一个样本对应一封邮件；将每个样本的特征向量划分为第一特征向量子集和第二特征向量子集，第一特征向量子集中的特征来源于邮件头信息，第二特征向量子集中的特征来源于邮件内容信息；将第一特征向量子集和第二特征向量子集分别作为每个样本的第一视角和第二视角；利用第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器；根据第一分类器和第二分类器对垃圾邮件进行分类过滤。本发明实施例可以在样例较少的情况下更加有效地对大规模数据进行分类预测和过滤。

Description

一种基于协同训练的垃圾邮件过滤方法和装置

技术领域

本发明涉及垃圾邮件过滤领域，尤其是涉及一种基于协同训练的垃圾邮件过滤方法和装置。

背景技术

目前，垃圾邮件的泛滥已经成为社会的一个公害，中国互联网协会反垃圾邮件中心与12321举报中心联合发布的第二十次《中国反垃圾邮件状况调查报告》显示，2011年第一季度，中国网民每周平均收到垃圾邮件12.5封，垃圾邮件数量占总体邮件数量比例为38.3％。

反垃圾邮件技术中目前效果最好的是基于内容的垃圾邮件过滤技术。基于内容的垃圾邮件过滤技术包括两类：基于规则的方法和基于统计的方法。其中，基于规则的方法可以通过人工设置垃圾邮件关键词(关键词过滤)、元信息(如发件人、发件地址、IP地址等)等手段来达到过滤垃圾邮件的目的。目前，市场上的很多反垃圾邮件工具都使用了该基于规则的技术。然而，设置关键词过滤或者添加黑名单只能部分解决垃圾邮件的问题，并且武断的设置会造成大量正常邮件的丢失。对于基于统计的方法来说，从内容上看，垃圾邮件过滤可以看成一个二值分类问题，把邮件分为垃圾邮件类和合法邮件类。因此，各种文本分类方法都可以用于垃圾邮件的过滤，比如贝叶斯方法(Bayes)、支持向量机方法(Support Vector Machine，SVM)、粗糙集方法(Roughset)等。

但是，上述基于内容的的过滤方法仍然存在着如下缺陷：

1、训练数据严重缺乏，以网易邮箱为例，每日拦截的垃圾邮件就有上百万封，而愿意举报(进行标注)的还不到十万封，而现在通常所用的机器学习方法，普遍是有监督的方法，如朴素贝叶斯方法，这些都需要事先有尽可能大的数据集为支撑，这些方法利用这些数据集，对垃圾邮件建立模型用于预测，一个新的邮件到来时，就可以根据这样训练出来的模型进行判断。但是，一般情况下，很难有足够多的标注数据以供这样的算法来进行建模，并且当数据量很大时，时间的开销也是相当地大。

2、目前的反垃圾邮件技术普遍只考虑了垃圾邮件的内容信息，而忽略了一个垃圾邮件的邮件头信息。邮件头当中蕴含了极其丰富的邮件特征，邮件头比起邮件体中垃圾信息的特征容易进行伪装，并且邮件头里的垃圾信息特征则相对稳定。

因此，现有的反垃圾邮件技术还有待改进。

发明内容

本发明实施例提供了一种基于协同训练的垃圾邮件过滤方法和装置，用于在标注样例较少的情况下更加有效地对大规模数据进行分类预测和过滤。

一方面，本发明实施例提供了一种基于协同训练的垃圾邮件过滤方法，该方法包括：输入待过滤的邮件集合，所述邮件集合包括已标注邮件和未标注邮件；根据所述邮件集合得到每个样本的特征向量，其中一个样本对应一封邮件；将所述每个样本的特征向量划分为第一特征向量子集和第二特征向量子集，所述第一特征向量子集中的特征来源于邮件头信息，所述第二特征向量子集中的特征来源于邮件内容信息；将所述第一特征向量子集和第二特征向量子集分别作为所述每个样本的第一视角和第二视角；利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器；根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。

优选地，本发明实施例中根据所述邮件集合得到每个样本的特征向量包括：利用特征选择技术对已标注邮件的每个样本的邮件内容信息进行处理得到基于邮件内容的若干特征；根据已标注邮件的每个样本的邮件头信息得到基于邮件头的若干特征；根据所述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。

优选地，本发明实施例中根据每个样本的邮件头信息得到基于邮件头的若干特征包括：对邮件头中各个字段进行特征信息提取；根据提取的特征信息得到时区、时间、IP地址的特征，以及IP地址与计算机名及域名的匹配特征，以及发件人地址格式特征。

优选地，本发明实施例中利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器包括如下步骤：

步骤1、从所有未标注邮件中选取z个邮件构成协同训练所使用的未标注邮件样本集合U；

步骤2、从所述未标注邮件样本集合U中随机挑出n个未标注的样本，构成待标注样本集合V_i，余下的z-n个未标注邮件样本构成候选样本集合H_i，并将所有的已标注的样本组成已标注样本集合L_i，其中，i表示迭代的次数，初始化为i＝1；

步骤3、利用所述已标注样本集合L_i中每一个样本的第一视角，采用贝斯方法构造贝叶斯分类器h1_i；

步骤4、利用分类器h1_i对待标注的样本集合V_i中待标注样本的第一视角进行标注，得到所有的待标注样本的类别标记及其隶属于此类别的置信度，并从该类别标记中选出m个隶属于垃圾邮件和非垃圾邮件的置信度最大的类别标记，将该类置信度最大的类别标记连同其相对的m个待标注样本，加入到有标注样本集合L_i中，得到更新的已标注的样本集合L_i′，并将上述m个待标注的样本从待标注样本集合V_i中删除，得到更新的待标注样本集合V_i′；

步骤5、利用更新的已标注的样本L_i′中每个样本的第二视角，采用贝叶斯方法构造贝叶斯分类器h2_i；

步骤6、利用利用贝叶斯分类器h2_i对更新的待标注邮件样本集合V_i′中待标注样本的第二视角进行标注，得到所有的待标记样本的类别标记及其隶属于此类别的置信度，从该类别标记中选出m个隶属于每一个类别置信度最大的标记，将该每一个类置信度最大的类别标记连同其对应的m个待标注样本，加入到上述更新的已标记样本集合L_i′中，得到已标记样本集合L_i+1，并将上述m个待标注的样本从更新的待标注样本集合V_i′中删除，得到二次更新的待标注样本集合V_i″；

步骤7、从候选样本集合H_i中选取p个样本，加入到二次更新的待标注样本集合V_i″中，得到待标注样本集合V_i+1，并将这p个样本从候选样本集合H_i中删除，得到候选样本集合H_i+1，其中，p≥2m；

步骤8、更新变量，i＝i+1；

步骤9、判断候选样本集合H_i是否为空集，如果为空集则结束迭代，将此时的两个贝叶斯分类器分别记为最终的第一分类器h1_k和第二分类器h2_k，其中，k为迭代结束时i的值，如果H_i不为空集，则返回步骤3。

优选地，本发明实施例中根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤包括：利用最终的分类模型h1_k和h2_k，对邮件集合中每个未标注样本的第一视角和第二视角分别进行标注，得到其类别标记及其隶属于此类的置信度，并把隶属于此类别概率较大的类别标记作为该无标注样本的最终分类结果。

另一方面，本发明实施例还提供了一种基于协同训练的垃圾邮件过滤装置，其特征在于，该装置包括：输入单元，用于输入待过滤的邮件集合，所述邮件集合包括已标注邮件和未标注邮件；特征向量获取单元，用于根据所述邮件集合得到每个样本的特征向量，其中一个样本对应一封邮件；子向量获取单元，用于将所述每个样本的特征向量划分为第一特征向量子集和第二特征向量子集，所述第一特征向量子集中的特征来源于邮件头信息，所述第二特征向量子集中的特征来源于邮件内容信息；视角获取单元，用于将所述第一特征向量子集和第二特征向量子集分别作为所述每个样本的第一视角和第二视角；分类器获取单元，用于利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器；分类过滤单元，用于根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。

优选地，本发明实施例中特征向量获取单元包括：第一特征获取模块，用于利用特征选择技术对已标注邮件的每个样本的邮件内容信息进行处理得到基于邮件内容的若干特征；第二特征获取模块，用于根据已标注邮件的每个样本的邮件头信息得到基于邮件头的若干特征；向量化模块，用于根据所述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。

优选地，本发明实施例中第二特征模块包括：提取子模块，用于对邮件头中各个字段进行特征信息提取；特征获取子模块，用于根据提取的特征信息得到时区、时间、IP地址的特征，以及IP地址与计算机名及域名的匹配特征，以及发件人地址格式特征。

优选地，本发明实施例中分类器获取单元具体用于：从所有未标注邮件中选取z个邮件构成协同训练所使用的未标注邮件样本集合U；从所述未标注邮件样本集合U中随机挑出n个未标注的样本，构成待标注样本集合V_i，余下的z-n个未标注邮件样本构成候选样本集合H_i，并将所有的已标注的样本组成已标注样本集合L_i，其中，i表示迭代的次数，初始化为i＝1；利用所述已标注样本集合L_i中每一个样本的第一视角，采用贝斯方法构造贝叶斯分类器h1_i；利用分类器h1_i对待标注的样本集合V_i中待标注样本的第一视角进行标注，得到所有的待标注样本的类别标记及其隶属于此类别的置信度，并从该类别标记中选出m个隶属于垃圾邮件和非垃圾邮件的置信度最大的类别标记，将该类置信度最大的类别标记连同其相对的m个待标注样本，加入到有标注样本集合L_i中，得到更新的已标注的样本集合L_i′，并将上述m个待标注的样本从待标注样本集合V_i中删除，得到更新的待标注样本集合V_i′；利用更新的已标注的样本L_i′中每个样本的第二视角，采用贝叶斯方法构造贝叶斯分类器h2_i；利用利用贝叶斯分类器h2_i对更新的待标注邮件样本集合V_i′中待标注样本的第二视角进行标注，得到所有的待标记样本的类别标记及其隶属于此类别的置信度，从该类别标记中选出m个隶属于每一个类别置信度最大的标记，将该每一个类置信度最大的类别标记连同其对应的m个待标注样本，加入到上述更新的已标记样本集合L_i′中，得到已标记样本集合L_i+1，并将上述m个待标注的样本从更新的待标注样本集合V_i′中删除，得到二次更新的待标注样本集合V_i″；从候选样本集合H_i中选取p个样本，加入到二次更新的待标注样本集合V_i″中，得到待标注样本集合V_i+1，并将这p个样本从候选样本集合H_i中删除，得到候选样本集合H_i+1，其中，p≥2m；更新变量，i＝i+1；判断候选样本集合H_i是否为空集，如果为空集则结束迭代，将此时的两个贝叶斯分类器分别记为最终的第一分类器h1_k和第二分类器h2_k，其中，k为迭代结束时i的值，如果H_i不为空集，则继续利用所述已标注样本集合L_i中每一个样本的第一视角，采用贝斯方法构造贝叶斯分类器h1_i。

优选地，本发明实施例中分类过滤单元具体用于利用最终的分类模型h1_k和h2_k，对邮件集合中每个未标注样本的第一视角和第二视角分别进行标注，得到其类别标记及其隶属于此类的置信度，并把隶属于此类别概率较大的类别标记作为该无标注样本的最终分类结果。

本发明实施例把协同训练引入垃圾邮件过滤领域，克服了传统的只以垃圾邮件内容为过滤对象而忽略邮件头丰富信息的方法，把垃圾邮件划分为邮件头和邮件两个部分，并从两个视角来看待要分类的垃圾邮件。经过协同训练算法的处理，最后能使较少的标注数据自动生成较大的训练集，并对垃圾邮件进行新的判断和过滤，从而实现了在标注样例较少的情况下更加有效地对大规模数据进行分类预测和过滤。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于协同训练的垃圾邮件过滤方法的流程示意图；

图2为本发明实施例提供的一种基于协同训练的垃圾邮件过滤方法的简单流程示意图；

图3为本发明实施例提供的一种基于协同训练的垃圾邮件过滤装置的结构示意图；

图4为本发明实施例提供的一种特征向量获取单元的结构示意图；

图5为本发明实施例提供的一种第二特征获取模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明实施例提供的一种基于协同训练的垃圾邮件过滤方法的流程示意图，该方法包括如下步骤：

S101：输入待过滤的邮件集合，该邮件集合中包括已标注邮件和未标注邮件，其中已标注邮件是指用户举报的垃圾邮件，而未标注邮件则并不确定是否为垃圾邮件。

S102：根据上述邮件集合得到每个样本的特征向量，其中一个样本对应一封邮件。

在本实施例中，对于已经标注好的邮件，可以分别对其邮件头和邮件内容进行处理以得到所需的特征，进而得到每个样本的特征向量。

对于邮件内容部分，可以对其随机采样，经过去停用词、分词的处理之后，通过文本分类中的特征选择技术(信息增益IG)，挑选最具代表性的特征，建立向量空间模型。对于邮件内容部分的处理属于现有技术，在此不再赘述。

对于邮件头部分，首先可以对邮件头中各个字段进行特征信息提取以得到所需的特征信息。作为本发明的一个实施例，邮件头中特征信息提取可以通过如下操作实现：把邮件头中同时包含字母、数字以及“-”，“$”，“”等符号的词组看作字符序列，以空格作为分隔符，忽略那些纯数字的字符序列，网页标签以及所有自身的属性标识，同时也不将它们看作字符序列的分隔符。例如，邮件头中的“subject”，“content-type”等词汇就不纳入特征选择范围，分析邮件信头字段，利用构建的词汇分析器对所有邮件头中的中转信息字段进行特征提取，例如IP地址，邮件域名，时间信息等，按照YACC和lexer的方法，例如IP的提取格式为：UINT8：([01]？[0-9]？[0-9]？|2([0-4][0-9])|5[0-5])；或IPADDR：{UINT8}\.{UINT8}\.{UINT8}\.{UINT8}}。

然后，以上述提取的特征信息为依据，继续进行如下判断操作：

判断时区是否出错，比如对于中文邮件时区，如果CST在-0600，则该时区错误，其正确的CST应该是在+0800，若时区出错则记为1，否则记为0；

判断时间是否误差，在通常情况下，一个邮件传递过程不会太长，假如这个邮件传递经过了几天甚至更长时间，那么就可能是被伪造的(除非是传递过程中出错)，因此若时间误差则记为1，否则记为0；

判断IP地址是否出错，比如出现xxx.xxx.xxx.0这样的IP地址或者一些明显的保留地址，则IP地址发生错误，若IP地址出错则记为1，否则记为0；

除了上述获取上述特征外，在本实施例中还需要对Received字段标识中垃圾邮件者隐藏的发送行为特征进行提取。因为根据该字段的分析，可以得到真实的邮件发送服务器地址或者从最后一个MUA提供的Received字段开始追踪上一次中转服务器IP地址、邮件中转服务器收到的计算机名以及发送地址域名，直至电子邮件的整个发送过程。经过对垃圾邮件的大量分析得到，大量的垃圾邮件的发送IP源相同，但是邮件域名Domain却经常被篡改伪装，导致各不相同。一般来说，网络中一个IP通常对应一个计算机名，如果邮件服务器的名称和对应的IP地址不相符或者说不对应，显然是有可信度的问题。此外，一个邮件服务器一般只有一个域名，如果一个IP对应多个域名，这显然是不正常的，类似这种特征的还有一个计算名对应不同的发送地址域名等，这些特征都大量出现在垃圾邮件中。因此，在本实施例中，还需要进行如下判断：

判断发送IP和计算机名是否匹配，从邮件头中的Received字段可以获得邮件发送人的IP，在邮件的传输过程中，如果该封邮件没有被转发，那么该IP地址就是原始地址，否则该IP地址就会变成中转MTA的地址。按照电子邮件传输协议上所定义的，一封邮件经两个不同的MTA进行中转时候，发送方的MTA需要向接收方MTA声明自身的计算机名(发送方的邮件域名)。通常，正常邮件的发送方IP都会匹配其域名，并且这一匹配关系相对十分固定。如果发送IP和计算机名匹配则记为0，不匹配则记为1。

判断发送IP与其域名是否匹配，通常来说，正常的电子邮件地址域名(例如用户所使用电子邮箱“abcxyz.com”，则“xyz.com”则为其电子邮件域名)都是与其发送邮件服务器的域名保持一致的，但对垃圾邮件来说则大不一样，为了避免被封锁域名地址，垃圾邮件制造者总是通过动态IP地址获取、自架设MTA中转服务器等手段来伪造或隐藏原域名地址，这样更方便他们发送一大批的垃圾邮件而躲过邮件中转服务器对邮件源的追踪。所以在本实施例中把这一特征作为鉴别垃圾邮件的特征之一，如果发送IP与其域名匹配则记为0，不匹配则记为1。

判断发件人地址格式是否非法，根据电子邮件格式标准RFC822的规定，以及邮件服务商的标准，邮件地址应为usersenderDomain形式，即中间为符号，前面为用户名，后面为发送服务器域名，其中用户名中不能包含中文字符等非法字符。因此，对邮件头中的From字段标识进行判别，如果在用户名中出现非法字符则记为1，否则记为0。

根据上述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。具体来说，对于输入的邮件，分别表示在两个特征空间之下，假设输入的邮件集合有N个，其中有标注的邮件有1个，未标注的邮件有(N-1)个，而每一个邮件就是一个样本，则第k个样本的特征向量为

1≤k≤N，

表示特征向量x_k的第e维特征，1≤e≤d，d为特征向量的维数。

将l个已标注的样本组成的样本集合

而(N-l)个未标注样本所组成的集合为：

上述的N，l，d，均由具体垃圾邮件集合中各参数来决定。

S103：将每个样本的特征向量划分为第一特征向量子集和第二特征向量子集，所述第一特征向量子集中的特征来源于邮件头信息，所述第二特征向量子集中的特征来源于邮件内容信息。

如上所述每个样本的特征向量为

在本实施例中则将其两个特征向量子集，其中，第一特征向量子集由第a₁，...，a_h维特征组成，此h维特征来源于邮件头的信息；第二特征向量子集由剩余的第a_h+1，...，a_d维特征组成，此d-h维特征来源于邮件内容信息。

S104：将第一特征向量子集和第二特征向量子集分别作为每个样本的第一视角和第二视角。比如，对于第k个样本来说，将第一特征向量子集作为第一视角

而将第二特征向量子集作为第二视角

其中，a_g∈[1，...，d]，1≤g≤d，

S105：利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器。

作为本发明的一个实施例，该步骤具体可以包括如下步骤：

S1051：从未标注邮件集合Q中选取z个邮件构成协同训练所使用的未标注邮件样本集合U，记为：

S1052：从协同训练使用的无标注邮件样本集合U中随机挑选出n个无标注邮件，构成待标注邮件样本集合V_i，记为：

其中1≤n≤z，余下的(z-n)个无标注样本构成的候选样本集合H_i，记为：

协同训练所使用的已标注样本集合记为L_i；

S1053：利用所述已标注样本集合L_i中每一个样本的第一视角，采用贝斯方法构造贝叶斯分类器h1_i，具体来说，可以将已标注的邮件样本集合L_i中所有样本的第一视角组成的第一视角集合V_1i，记为：

其中n₁为已标注集合L_i中已标注样本的个数，然后将该第一视角集合V_1i作为输入送给贝叶斯分类器去学习，生成分类器h1_i；

S1054：利用贝叶斯分类器h1_i对待标注样本集合V_i中第h个待标注样本x_h的第一个视角x_1h进行标注，得到其类别标记c_1h及其在该类别上的置信度p_1h，1≤h≤n₂，n₂代表待标注样本集合V_i中待标注样本的个数。将上述得到的类别标签组成部分类别标签集合

该类标签集合C_1i中包含了垃圾和非垃圾的类别标签，其中垃圾邮件记为C_1spm，将该类别标记对应的置信度组成的概率集合P_1spm，从该概率集合P_1spm中选出数值最大的概率记为：

此最大概率对应的类别标记记为：

对应的待标记样本记为：

将它加入到已标注样本集合的L_i中，得到更新的已标注集合L_i′，并将从待标注样本集合V_i中删除，得到更新的待标注样本集合V_i′；

S1055：利用更新的已标注的样本L_i′中每个样本的第二视角，采用贝叶斯方法构造贝叶斯分类器h2_i，具体来说，可以将更新的已标注样本集合L_i中所有样本的第二视角集合V_2i，记为：其中，n₂为此时更新的已标注训练样本集合L_i′中已标注的训练样本个数，将该第二视角集合V_2i作为输入数据，构造贝叶斯分类器h_2i；

S1056：利用训练好的贝叶斯分类器h2_i对更新的待标注样本集合V_i′中第h个待标记样本x_h的第二视角x_2h进行标记，得到其类别标记c_2h及其隶属于该类的的概率p_2h，其中1≤h≤n₃，其中n₃为更新的待标记样本集合V_i′中待标注样本的个数，将上述得到的类别标记组成类别标记集合C_2i＝{c_2spm，c_2ham}，将C_2i中垃圾邮件和非垃圾邮件类别标记对应的置信度所组成的概率集合P_2spm和P_2ham，从中挑选出数值最大的记为

此时最大概率

对应的类别标记记为此类别标记

对应的待标注样本记为将其加入到刚刚更新的已标注样本集合L_i′中，得到有标注样本集合L_i+1，并将

和

从更新的待标注样本集合V_i′中删除，得到二次更新的样本集合V_i″；

S1057：从候选样本集合H_i中选取p个样本，加入到二次更新的待标注样本集合V_i″中，得到待标注样本集合V_i+1，并将这p个样本从候选样本集合H_i中删除，得到候选样本集合H_i+1，其中，p≥2m；

S1058：更新变量，i＝i+1；

S1059：判断候选样本集合H_i是否为空集，如果为空集则结束迭代，将此时的两个贝叶斯分类器分别记为最终的第一分类器h1_k和第二分类器h2_k，其中，k为迭代结束时i的值，如果H_i不为空集，则返回步骤S1053。

S106：根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。具体来说，可以无标注样本集合中无标记样本x_k的第一个视角记为x_1k，第二视角记为x_2k，将无标记样本x_k的第一视角x_1k输入最终的贝叶斯分类模型h1_d中，输出其类别标签c_1spm或c_1ham及其属于此类别的概率p_1spm和p_1ham，如果p_1spm≥p_1ham，则把它标注为垃圾邮件，否则标注为正常邮件。将无标记样本x_k的第二个视角x_2k输入最终的h2_k分类器中，输出其类别标签c_2spm或c_2ham及属于此类别的概率p_2spm和p_2ham，如果p_2spm≥p_2ham，则把该邮件标注为垃圾邮件，否则标注为正常邮件。

上述基于协同训练的垃圾邮件过滤方法可以基于图2予以清楚的描述：从未标注邮件集合Q中挑选z个邮件构成协同训练所使用的未标注邮件样本集合U；然后将训练的样例按邮件头信息和邮件内容信息分为两个视角，其中一个视角包含基于邮件头信息的特征向量，另一个视角包含基于邮件内容信息的特征向量；利用已经标注好的邮件集合L在两个特征维度上分别训练两个分类器；分别利用两个训练器对未标注邮件集合U中的邮件进行预测，从U中提取前k个置信度最高的预测结果，将该结果标注后已经标注邮件集合L中，而剩下的样例则放入未标注邮件集合Q中，如此循环往复直至所有样例都得到标注。

如图3所示为本发明实施例提供的一种基于协同训练的垃圾邮件过滤装置的结构示意图，该装置包括：输入单元310、特征向量获取单元320、子向量获取单元330、视角获取单元340、分类器获取单元350和分类过滤单元360，其中：

输入单元310，用于输入待过滤的邮件集合，所述邮件集合包括已标注邮件和未标注邮件。

特征向量获取单元320用于根据输入单元310输入的邮件集合得到每个样本的特征向量，其中一个样本对应一封邮件。

作为本发明的一个实施例，如图4所示，特征向量获取单元320可以包括：

第一特征获取模块321，用于利用特征选择技术对已标注邮件的每个样本的邮件内容信息进行处理得到基于邮件内容的若干特征。

第二特征获取模块322，用于根据已标注邮件的每个样本的邮件头信息得到基于邮件头的若干特征。

作为本发明的另一个实施例，如图5所示，第二特征获取模块322可以进一步包括：提取子模块3221和特征获取子模块3222，其中提取子模块3221用于对邮件头中各个字段进行特征信息提取，特征获取子模块3222用于根据提取的特征信息得到时区、时间、IP地址的特征，以及IP地址与计算机名及域名的匹配特征，以及发件人地址格式特征。对于提取子模块3221及特征获取子模块3222的具体功能可以参见前述实施例S102的描述，在此不再赘述。

向量化模块323，用于根据所述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。

子向量获取单元330用于将每个样本的特征向量划分为第一特征向量子集和第二特征向量子集，所述第一特征向量子集中的特征来源于邮件头信息，所述第二特征向量子集中的特征来源于邮件内容信息。

视角获取单元340用于将所述第一特征向量子集和第二特征向量子集分别作为所述每个样本的第一视角和第二视角。

分类器获取单元350用于利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器。

作为本发明的另一个实施例，分类获取单元350具体用于：

从所有未标注邮件中选取z个邮件构成协同训练所使用的未标注邮件样本集合U；

从所述未标注邮件样本集合U中随机挑出n个未标注的样本，构成待标注样本集合V_i，余下的z-n个未标注邮件样本构成候选样本集合H_i，并将所有的已标注的样本组成已标注样本集合L_i，其中，i表示迭代的次数，初始化为i＝1；

利用所述已标注样本集合L_i中每一个样本的第一视角，采用贝斯方法构造贝叶斯分类器h1_i；

利用分类器h1_i对待标注的样本集合V_i中待标注样本的第一视角进行标注，得到所有的待标注样本的类别标记及其隶属于此类别的置信度，并从该类别标记中选出m个隶属于垃圾邮件和非垃圾邮件的置信度最大的类别标记，将该类置信度最大的类别标记连同其相对的m个待标注样本，加入到有标注样本集合L_i中，得到更新的已标注的样本集合L_i′，并将上述m个待标注的样本从待标注样本集合V_i中删除，得到更新的待标注样本集合V_i′；

利用更新的已标注的样本L_i′中每个样本的第二视角，采用贝叶斯方法构造贝叶斯分类器h2_i；

利用利用贝叶斯分类器h2_i对更新的待标注邮件样本集合V_i′中待标注样本的第二视角进行标注，得到所有的待标记样本的类别标记及其隶属于此类别的置信度，从该类别标记中选出m个隶属于每一个类别置信度最大的标记，将该每一个类置信度最大的类别标记连同其对应的m个待标注样本，加入到上述更新的已标记样本集合L_i′中，得到已标记样本集合L_i+1，并将上述m个待标注的样本从更新的待标注样本集合V_i′中删除，得到二次更新的待标注样本集合V_i″；

从候选样本集合H_i中选取p个样本，加入到二次更新的待标注样本集合V_i″中，得到待标注样本集合V_i+1，并将这p个样本从候选样本集合H_i中删除，得到候选样本集合H_i+1，其中，p≥2m；

更新变量，i＝i+1；

判断候选样本集合H_i是否为空集，如果为空集则结束迭代，将此时的两个贝叶斯分类器分别记为最终的第一分类器h1_k和第二分类器h2_k，其中，k为迭代结束时i的值，如果H_i不为空集，则继续利用所述已标注样本集合L_i中每一个样本的第一视角，采用贝斯方法构造贝叶斯分类器h1_i。

分类过滤单元360用于根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。

作为本发明的另一个实施例，分类过滤单元360具体用于利用最终的分类模型h1_k和h2_k，对邮件集合中每个未标注样本的第一视角和第二视角分别进行标注，得到其类别标记及其隶属于此类的置信度，并把隶属于此类别概率较大的类别标记作为该无标注样本的最终分类结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于协同训练的垃圾邮件过滤方法，其特征在于，所述方法包括：

输入待过滤的邮件集合，所述邮件集合包括已标注邮件和未标注邮件；

根据所述邮件集合得到每个样本的特征向量，其中一个样本对应一封邮件；

将所述每个样本的特征向量划分为第一特征向量子集和第二特征向量子集，所述第一特征向量子集中的特征来源于邮件头信息，所述第二特征向量子集中的特征来源于邮件内容信息；

将所述第一特征向量子集和第二特征向量子集分别作为所述每个样本的第一视角和第二视角；

利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器；

根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。

2.如权利要求1所述的基于协同训练的垃圾邮件过滤方法，其特征在于，根据所述邮件集合得到每个样本的特征向量包括：

利用特征选择技术对已标注邮件的每个样本的邮件内容信息进行处理得到基于邮件内容的若干特征；

根据已标注邮件的每个样本的邮件头信息得到基于邮件头的若干特征；

根据所述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。

3.如权利要求2所述的基于协同训练的垃圾邮件过滤方法，其特征在于，所述根据每个样本的邮件头信息得到基于邮件头的若干特征包括：

对邮件头中各个字段进行特征信息提取；

根据提取的特征信息得到时区、时间、IP地址的特征，以及IP地址与计算机名及域名的匹配特征，以及发件人地址格式特征。

4.如权利要求1所述的基于协同训练的垃圾邮件过滤方法，其特征在于，所述利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器包括如下步骤：

步骤8、更新变量，i＝i+1；

5.如权利要求4所述的基于协同训练的垃圾邮件过滤方法，其特征在于，所述根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤包括：

利用最终的分类模型h1_k和h2_k，对邮件集合中每个未标注样本的第一视角和第二视角分别进行标注，得到其类别标记及其隶属于此类的置信度，并把隶属于此类别概率较大的类别标记作为该无标注样本的最终分类结果。

6.一种基于协同训练的垃圾邮件过滤装置，其特征在于，所述装置包括：

输入单元，用于输入待过滤的邮件集合，所述邮件集合包括已标注邮件和未标注邮件；

特征向量获取单元，用于根据所述邮件集合得到每个样本的特征向量，其中一个样本对应一封邮件；

子向量获取单元，用于将所述每个样本的特征向量划分为第一特征向量子集和第二特征向量子集，所述第一特征向量子集中的特征来源于邮件头信息，所述第二特征向量子集中的特征来源于邮件内容信息；

视角获取单元，用于将所述第一特征向量子集和第二特征向量子集分别作为所述每个样本的第一视角和第二视角；

分类器获取单元，用于利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器；

分类过滤单元，用于根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。

7.如权利要求6所述的基于协同训练的垃圾邮件过滤装置，其特征在于，所述特征向量获取单元包括：

第一特征获取模块，用于利用特征选择技术对已标注邮件的每个样本的邮件内容信息进行处理得到基于邮件内容的若干特征；

第二特征获取模块，用于根据已标注邮件的每个样本的邮件头信息得到基于邮件头的若干特征；

向量化模块，用于根据所述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。

8.如权利要求7所述的基于协同训练的垃圾邮件过滤装置，其特征在于，所述第二特征获取模块包括：

提取子模块，用于对邮件头中各个字段进行特征信息提取；

特征获取子模块，用于根据提取的特征信息得到时区、时间、IP地址的特征，以及IP地址与计算机名及域名的匹配特征，以及发件人地址格式特征。

9.如权利要求6所述的基于协同训练的垃圾邮件过滤装置，其特征在于，所述分类器获取单元具体用于：

更新变量，i＝i+1；

10.如权利要求9所述的基于协同训练的垃圾邮件过滤装置，其特征在于，所述分类过滤单元具体用于利用最终的分类模型h1_k和h2_k，对邮件集合中每个未标注样本的第一视角和第二视角分别进行标注，得到其类别标记及其隶属于此类的置信度，并把隶属于此类别概率较大的类别标记作为该无标注样本的最终分类结果。