CN103166830B

CN103166830B - 一种智能选择训练样本的垃圾邮件过滤系统和方法

Info

Publication number: CN103166830B
Application number: CN201110416429.5A
Authority: CN
Inventors: 吕娣
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2011-12-14
Filing date: 2011-12-14
Publication date: 2016-02-10
Anticipated expiration: 2031-12-14
Also published as: CN103166830A

Abstract

本发明提供了一种智能选择训练样本的垃圾邮件过滤系统和方法。对已标注类别的样本集和未标注类别的样本集进行初始化；用已标注样本集中的样本作为训练集训练出初始分类模型；对于未标注样本集中的每个未标注样本，用分类模型计算样本的不确定度，所述不确定度是样本属于类别的不确定程度；从未标注类别的样本中选取不确定度较大的P个样本，将未标注的P个样本进行类别标注；将标注后的样本作为已标注样本加入到最终的训练集，在最终的训练集上构建新的分类模型，所述分类模型用于过滤邮件，确定邮件是垃圾邮件还是合法邮件。本发明避免学习那些对分类帮助不大的样本，提高分类模型精度。

Description

一种智能选择训练样本的垃圾邮件过滤系统和方法

技术领域

本发明涉及反垃圾邮件技术领域，尤其涉及到在分类器模型构建过程中从未标注样本集智能挑选样本加入训练，并进行垃圾邮件过滤的系统和方法。

背景技术

垃圾邮件过滤是基于文本内容的分类和过滤问题，从本质上讲可归结为训练和分类两个过程，即：

过程一：对大量已标注(已知类别标注)的样本进行分词、特征选择、学习、构建分类器的训练过程；

过程二：利用分类器预测未知样本类别的分类过程。

所以，样本质量至关重要，直接影响分类精度。

传统的被动学习模式面临着的样本选择问题，例如，未标注样本人工标注复杂、不能对给定样本有选择的学习等。

发明内容

鉴于以上，本发明提出一种智能选择训练样本的垃圾邮件过滤系统和方法。

本发明提出的一种智能选择训练样本的垃圾邮件过滤方法，包括：

对已标注类别的样本集和未标注类别的样本集进行初始化；

用已标注样本集中的样本作为训练集训练出初始分类模型；

对于未标注样本集中的每个未标注样本，用分类模型计算样本的不确定度，所述不确定度是样本属于类别的不确定程度；

从未标注类别的样本中选取不确定度较大的P个样本，将未标注的P个样本进行类别标注；

将标注后的样本作为已标注样本加入到最终的训练集，在最终的训练集上构建新的分类模型，所述分类模型用于过滤邮件，确定邮件是垃圾邮件还是合法邮件。

本发明提出的一种智能选择训练样本的垃圾邮件过滤系统，包括：

样本主动选择模块，利用分类模型计算样本的不确定度，所述不确定度是样本属于类别的不确定程度，从未标注类别的样本中选取不确定度较大的P个样本作为训练集，输出到样本类别管理模块；

样本类别管理模块，对样本主动选择模块提交的P个样本进行类别标注；

训练集管理模块，对训练集的样本及其类别进行保存，将标注类别的样本作为已标注样本加入到最终的训练集，所述训练集只包含有类别标注的样本；

训练模块，在最终的训练集上构建新的分类模型，所述分类模型用于过滤邮件，确定邮件是垃圾邮件还是合法邮件。

本发明提出了一种智能选择训练样本的垃圾邮件过滤系统和方法。将主动学习引入到垃圾邮件过滤的样本选择中，并智能选取对分类模型性能提升帮助较大的样本加入训练，从而避免学习那些对分类帮助不大的样本，提高分类模型精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是示出本发明智能选择训练样本的垃圾邮件过滤系统结构示意图。

图2是示出本发明智能选择训练样本的垃圾邮件过滤方法流程图。

具体实施方式

邮件过滤系统中，过滤器(即分类模型)的准确率越高，邮件分类准确度越高。过滤器是通过对给定已知类别的样本集进行学习、训练构造而来的，所以样本的质量至关重要，直接影响邮件过滤器的精度(邮件过滤的准确率)。本发明的样本选择方法，能够提高邮件过滤的准确率，即提高分类器的精度。

在垃圾邮件过滤系统中，本发明提供了一种智能选择未标注样本加入分类模型训练的方法和系统。

本发明所涉及的垃圾邮件过滤系统，在传统的邮件预处理、分词、特征选择、训练模块、过滤模块的基础上加入了训练集管理模块、样本主动选择模块、样本类别管理模块以及反馈模块，对于给定的训练集样本，传统邮件过滤器训练时全盘接受学习，而本发明提出的样本选择算法(Uncertainty)，挑选高训练效用样本，丢弃降低训练器性能的噪声、冗余样本，从而提高过滤器精度，即过滤的准确率，改善传统邮件过滤系统在线学习时容易受噪声、冗余样本干扰、人工分类复杂等问题。

在样本主动选择模块，本发明提出了一种通过计算样本Uncertainty值选择样本的方法。该方法能够智能的选取uncertainty值大的样本进行学习和训练，从而避免标注和学习那些对分类器性能提升帮助不大的样本(如噪声、冗余样本)，提高训练效率和分类模型精度；并且Uncertainty是一种主动学习方法，相比被动学习，能学习未标注样本，缓解样本获取瓶颈问题，减小人工标注的复杂度。

智能选择样本的步骤可以简单描述为：1)用当前分类模型计算未标注样本的UC值；2)根据UC挑选样本并更新训练集和分类模型；3)输出最终分类模型。

下面将详细描述本发明涉及的智能选择样本加入分类模型训练的垃圾邮件过滤方法和系统。

图1是示出智能选择训练样本的垃圾邮件过滤系统结构示意图。

样本主动选择模块(ActiveSelect)101：通过最大不确定度算法利用初始分类模型计算样本X_i的uncertainty值UC(X_i)，选取不确定度较大的P个样本，输出到样本类别管理模块102。对于未选取的样本进行丢弃。样本主动选择模块101利用训练模块105输出的分类模型，对于一个训练周期而言，初始分类模型是固定的。在一个训练周期结束后，训练模块105形成新的分类模型，作为下一个训练周期的初始分类模型。

样本类别管理模块(LableMan)102：对样本主动选择模块101提交的样本进行类别标注，可以通过机器或者人工进行类别标注。

训练集管理模块(TrainSetM)103：对训练集的样本及其类别进行保存，将样本类别管理模块102标注后的样本作为已标注样本加入到最终的训练集，该训练集只包含有类别标注的样本。

邮件预处理模块、分词模块、特征选择特征表示模块104：根据训练集管理模块103输出的训练集进行邮件预处理、分词、特征选择，根据测试集、待过滤邮件模块107输入的测试集或待过滤邮件进行邮件预处理、分词、特征选择。本发明对选好样本后的邮件预处理、分词以及特征选择操作与现有技术相同。

训练模块(Train)105：可选朴素贝叶斯、贝叶斯网络、支撑向量机以及决策树等分类器训练方法，根据训练集，对邮件预处理模块、分词模块、特征选择特征表示模块104的输出训练出分类模型。即训练模块105用已标注样本集中的z个样本作为训练集训练出初始分类模型。

反馈模块(FeedBack)106：根据分类结果调整参数，输出到样本主动选择模块101。反馈模块针对在一段时间的过滤过程中错分的样本，在下次训练过滤器时，将分类错误的样本重新加入训练集进行学习，反馈模块仅是二次训练时起作用。其中，反馈频率与训练频率可能不一致，例如，训练经过三个周期之后，将这三个周期得到的分类错误样本重新加入训练集。此外，重新加入训练集的样本所占权重较大。

测试集、待过滤邮件模块107：将测试集以及待过滤邮件经过邮件预处理模块、分词模块、特征选择特征表示模块104，输出到过滤模块108。

过滤模块108(Filter)：对邮件预处理模块、分词模块、特征选择特征表示模块104输出的测试集进行测试以及对邮件进行过滤。其中，已知测试集的类别，对测试集过滤后得到新类别，比对已知类别与新类别是否一致，计算分类器性能指标，如精确度、召回率等，输出分类结果109。对于邮件，根据训练模块105生成的分类模型对其进行过滤，判断是垃圾邮件还是合法邮件，以进行邮件分类。过滤模块108输出的分类结果109可反馈到反馈模块106。

在步骤201：初始化。

已标注类别的样本集L(X_i，Y_i)，初始有z个样本。

未标注类别的样本集UL(X_i)，初始有n个样本。

大样本统计学中，目前能获取的样本如邮件，从互联网上大批量获取的时候，有些类别已知，有些类别未知，还有一些分界模糊，这正是目前样本获取的瓶颈。因为有明确类别标注的样本才能够拿来学习和训练，而人工标注是一件费时费力的事情。

本发明将有未标注和已标注样本的初始集合变成一个可供训练的、训练效用高的已标注样本集合。

在步骤202：用已标注样本集L中的z个样本作为训练集训练出初始分类模型C0。是现有技术。

在步骤203：对于未标注样本集UL中的每个未标注样本X_i，用在步骤202计算的分类模型C0计算样本X_i的不确定度UC(X_i)。计算方法将在下面进行说明。

在步骤204：从未标注类别的样本中选取不确定度UC(X_i)较大的P个样本，继续执行步骤206，P是一个给定值，不做调整。对于没有选中的样本，则转到步骤205：丢弃该样本。

在步骤206：将未标注的P个样本X_i进行机器标注或人工标注。人工标注就是指通过人工查看样本，给出该样本的类别值。

在步骤207：获得标注类别(X_i，Y_i)。例如邮件类别有垃圾邮件类(spam)、合法邮件类(ham)。

在步骤208：将标注后的样本(X_i，Y_i)作为已标注样本加入到最终的训练集。

在最后得到的训练集上构建新的分类模型，评价其性能参数，该分类模型用于邮件过滤系统过滤的流程如下：待过滤邮件经过邮件预处理，分词、特征表示之后，利用过滤器分类模型构建的分类规则进行智能分类，即确定邮件为spam类还是ham类。这是现有技术。分类模型的性能评价参数是：

评价垃圾邮件过滤器的效果通常借用文本分类和信息检索领域的相关指标。具体的，假设待测试邮件集合中共有N封邮件，一个垃圾邮件过滤系统的判定结果如下表1-1所示：

表1-1垃圾邮件过滤系统临接表

精确率(Accuracy)：

A = \frac{A + D}{N}

下面对计算不确定度Uncertainty的方法进行说明。

Uncertainty方法认为UC大的样本具有高训练效用，对这些样本进行标注和训练能最大程度地提高当前分类模型的性能。

从几何上理解不确定度的方法：给定一个训练集和一个分类器，存在一个超平面集划分这些数据。应当选择距离当前分割数据空间的超平面最近的那些样本训练分离器。这是因为，靠近分类边界的样本类别模糊，具有最不确定性，对分类器的分类能力影响教大，应优先选择。

不确定度UC(X_i)值的计算：样本X_i属于类别C的不确定程度定义为该样本的不确定度，用UC(X_i)表示。

智能挑选样本的方法主要有：基于置信度的方法、基于泛化误差的方法、基于专家委员会的方法。

本发明通过计算样本的信息熵以及专家委员会投票的方法确定样本的UC(X_i)值，该计算式的优点在于既考虑了所含信息量大(信息熵公式)的样本，又考虑了专家委员会投票“众望所归”的样本、保证分类模型迅速到达一定的精度，既避免了专家委员会中损失函数精度对性能的影响，也避免了信息熵方法中分类性能对先验经验的过度依赖。

从几何上可以这样理解：给定一个训练集和一个分类器，存在一个超平面集H划分这些数据。信息熵通过选择距离当前分割数据空间的超平面最近的那些样本训练分离器。这是因为信息熵方法认为，距离最近的样本对分类器的分类能力影响比较大。这种方法优先选择靠近分类边界的样例，这些样例类别模糊，具有最不确定性；但这种方法容易忽略远离超平面的样本，即那些“很确定的样本”，通过专家委会会方法可以避免该类样本的缺失，让分类模型精度迅速收敛到一定值。

如下面的式子所示，式子前两项通过样本X_i属于类别ham和spam的条件概率熵计算样本的信息熵，式子最后一项为委员会q位专家对样本X_i的投票，Q_j即为第j位专家对样本X_i的投票。

UC (X_{i}) = - [p (C_{spam} / X_{i}) \log p (C_{spam} / X_{i}) + p (C_{ham} / X_{i}) \log p (C_{ham} / X_{i})] + | \frac{Σ_{j = 1}^{j = q} Q_{j}}{q} - \frac{1}{2} |

式中，

样本X_i通过特征选择可以用k个特征向量表示：X_i＝(V1，V2...Vj...Vk)

√C——类别C包括两类：垃圾邮件类C_spam和合法邮件类C_ham；

√p(C_spam/X_i)——样本X_i属于C_spam类的概率为：

p (C_{spam} / X_{i}) = \frac{p (C_{spam}) * p (X_{i} / C_{spam})}{p (X_{i})} = \frac{C + D}{N} * N * p (X_{i} / C_{spam})

其中，p(X_i/C_spam)＝p[(V1，V2...Vj...Vk)/C_span]＝p(V1/C_spam)*...*p(Vk/C_spam)，C是实际为垃圾邮件判断为合法邮件的数量、D是实际为垃圾邮件判断为垃圾邮件的数量、N为训练集中邮件总数量。P(x_i)为样本出现的概率、p(C_spam)为训练集中垃圾类别邮件出现的概率、p(x_i/C_spam)为样本在垃圾邮件类出现的概率。

√p(C_ham/X_i)——样本X_i属于C_ham类的概率为：

√p(C_ham/X_i)＝1-p(C_spam/X_i)

√Q_j——第j个专家委员会对X_i所属类别的判断，j＝1...q

若第j个专家委员会判断X_i的类别为spam，则Q_j＝0

若第j个专家委员会判断X_i的类别为ham，则Q_j＝1

专家委员会对样本X_i类别的投票。

本发明应用于垃圾邮件过滤系统，在传统的训练模块、过滤模块的基础上加入了训练集管理模块、主动选择模块、类别管理模块以及反馈模块。在样本主动选择模块，本发明提出了一种通过计算样本Uncertainty值选择样本的方法。该方法能够智能的选取uncertainty值大的样本进行学习和训练，从而避免标注和学习那些对分类器性能提升帮助不大的样本(如噪声、冗余样本)，提高训练效率和分类模型精度。并且，Uncertainty是一种主动学习方法，相比被动学习，能学习未标注样本，缓解样本获取瓶颈问题，减小人工标注的复杂度。

该方法能学习未标注样本，能够克服大样本统计学的样本选择中面临的“已标注样本数量有限而未标注样本获取容易”、“语料库人工标注费时费力”等“样本获取瓶颈”问题。

作为对详细描述的结论，应该注意本领域的技术人员将会很清楚可对优选实施例做出许多变化和修改，而实质上不脱离本发明的原理。这种变化和修改包含在所附权利要求书所述的本发明的范围之内。

Claims

1.一种智能选择训练样本的垃圾邮件过滤方法，包括：

对已标注类别的样本集和未标注类别的样本集进行初始化；

用已标注样本集中的样本作为训练集训练出初始分类模型；

将标注后的样本作为已标注样本加入到最终的训练集，在最终的训练集上构建新的分类模型，所述分类模型用于过滤邮件，确定邮件是垃圾邮件还是合法邮件；

其中，用分类模型计算样本的不确定度，包括：

U C (X_{i}) = - [p (C_{s p a m} / X_{i}) \log p (C_{s p a m} / X_{i}) + p (C_{h a m} / X_{i}) \log p (C_{h a m} / X_{i})] + | \frac{Σ_{j = 1}^{j = q} Q_{j}}{q} - \frac{1}{2} |

式中，

C——类别C包括两类：垃圾邮件类C_spam和合法邮件类C_ham；

p(C_spam/X_i)——样本X_i属于C_spam类的概率；

p(C_ham/X_i)——样本X_i属于C_ham类的概率；

Q_j——第j个专家委员会对X_i所属类别的判断，j＝1…q；

若第j个专家委员会判断X_i的类别为spam，则Q_j＝0；

若第j个专家委员会判断X_i的类别为ham，则Q_j＝1；

专家委员会对样本X_i类别的投票。

2.根据权利要求1所述智能选择训练样本的垃圾邮件过滤方法，其中，对于一个训练周期而言，初始分类模型是固定的，在一个训练周期结束后，形成新的分类模型，作为下一个训练周期的初始分类模型。

3.根据权利要求1或2所述智能选择训练样本的垃圾邮件过滤方法，还包括：

对于一段时间内过滤过程中错分的样本，在下次训练时，将分类错误的样本重新加入训练集进行学习。

4.根据权利要求3所述智能选择训练样本的垃圾邮件过滤方法，其中，重新加入训练集的样本所占权重较大。

5.一种智能选择训练样本的垃圾邮件过滤系统，包括：

训练模块，在最终的训练集上构建新的分类模型，所述分类模型用于过滤邮件，确定邮件是垃圾邮件还是合法邮件；

其中，所述样本主动选择模块计算不确定度的公式为：

U C (X_{i}) = - [p (C_{s p a m} / X_{i}) \log p (C_{s p a m} / X_{i}) + p (C_{h a m} / X_{i}) \log p (C_{h a m} / X_{i})] + | \frac{Σ_{j = 1}^{j = q} Q_{j}}{q} - \frac{1}{2} |

式中，

C——类别C包括两类：垃圾邮件类C_spam和合法邮件类C_ham；

H[p(C/X_i)]——样本X_i属于类别C的概率熵；

p(C_spam/X_i)——样本X_i属于C_spam类的概率；

p(C_ham/X_i)——样本X_i属于C_ham类的概率；

Q_j——第j个专家委员会对X_i所属类别的判断，j＝1…q；

若第j个专家委员会判断X_i的类别为spam，则Q_j＝0；

若第j个专家委员会判断X_i的类别为ham，则Q_j＝1；

专家委员会对样本X_i类别的投票。

6.根据权利要求5所述智能选择训练样本的垃圾邮件过滤系统，其中，对于一个训练周期而言，初始分类模型是固定的，在一个训练周期结束后，训练模块形成新的分类模型，作为下一个训练周期的初始分类模型。

7.根据权利要求5或6所述智能选择训练样本的垃圾邮件过滤系统，还包括：

反馈模块，对在一段时间的过滤过程中错分的样本，在下次训练时，将分类错误的样本返回给样本主动选择模块，重新加入训练集进行学习。

8.根据权利要求7所述智能选择训练样本的垃圾邮件过滤系统，其中，重新加入训练集的样本所占权重较大。