CN111563721B

CN111563721B - 一种适用于不同标签分布场合的邮件分类方法

Info

Publication number: CN111563721B
Application number: CN202010316830.0A
Authority: CN
Inventors: 马祥祥
Original assignee: Shanghai Eisoo Information Technology Co Ltd
Current assignee: Shanghai Eisoo Information Technology Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2023-07-11
Anticipated expiration: 2040-04-21
Also published as: CN111563721A

Abstract

本发明涉及一种适用于不同标签分布场合的邮件分类方法，包括：根据训练集，训练得到分类模型；统计训练集中各个标签的频率，以初始化得到一个对应于所有标签的向量；将分类模型应用于实际邮件场景，结合归一化操作，以输出得到当前样本特征所属标签的概率；基于当前样本特征所属标签的概率，对向量进行调整；将调整后的向量作为实际邮件场景下各个标签的先验分布，以更新分类模型；将更新后的分类模型应用于不同的实际邮件场景，以实时在线更新分类模型；将实时在线更新后的分类模型应用于目标邮件，完成邮件分类。与现有技术相比，本发明能够让分类模型在实际应用中不断更新，从而提高邮件分类的准确度。

Description

一种适用于不同标签分布场合的邮件分类方法

技术领域

本发明涉及深度学习分类技术领域，尤其是涉及一种适用于不同标签分布场合的邮件分类方法。

背景技术

随着电子邮箱收到邮件的数量不断增加，这些邮件中会存在大量垃圾邮件，目前常通过机器学习训练得到分类模型，由分类模型对邮件进行分类，以筛选出垃圾邮件。然而在机器学习应用中，普遍存在这样一种现象：训练得到的模型在验证集和测试集上的表现十分好，一旦应用到实际场景中，则表现较差，尤其是在垃圾邮件中包含不同垃圾文本标签分布时，容易出现邮件分类结果不准确的问题，一般认为造成这种现象的主要原因是过拟合，然而如果在训练过程中实时通过一个较大的验证集来判断模型是否已经过拟合，并且在验证集表现最好的时刻停止训练，那么过拟合所造成得影响几乎可以忽略不计，因此并不能简单地把原因归咎于过拟合。

本发明通过贝叶斯定理对分类模型的误差进行分析，发现当训练集的标签分布与实际应用场景差异较大时，那么将训练好的模型应用于实际场景，其产生的结果并不令人满意，也就是说，实际场景下的真实标签分布与训练集的标签分布之间存在的差异，将导致分类模型无法很好地应用于实际场景，因此，本发明考虑构建一种能够自动适用于实际场景下不同标签分布的分类模型，以保证分类模型能够在实际场景中产生较好的效果，从而提高邮件分类的准确性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种适用于不同标签分布场合的邮件分类方法。

本发明的目的可以通过以下技术方案来实现：一种适用于不同标签分布场合的邮件分类方法，包括以下步骤：

S1、根据训练集，训练得到分类模型；

S2、统计训练集中各个标签的频率，以初始化得到一个对应于所有标签的向量；

S3、将分类模型应用于实际邮件场景，结合归一化操作，以输出得到当前样本特征所属标签的概率；

S4、基于步骤S3中当前样本特征所属标签的概率，对步骤S2中的向量进行调整；

S5、将调整后的向量作为实际邮件场景下各个标签的先验分布，得到更新后的分类模型；

S6、将该更新后的分类模型再次应用于不同的实际邮件场景，不断重复步骤S3～S5，以实时在线更新分类模型，即每应用一次，就重复步骤S3～S5，以实时在线更新一次分类模型；

S7、将实时在线更新后的分类模型应用于目标邮件，从目标邮件中分类筛选出包含垃圾文本的邮件，完成邮件分类。

进一步地，所述分类模型包括基于概率模型的二分类模型以及多分类模型。

进一步地，所述训练集中所有样本特征均来自于实际邮件场景，且各个标签下完全随机采样。

进一步地，所述步骤S1中分类模型具体为：

其中，P(Y|X)为样本特征X条件下标签Y的概率分布，P(X|Y)为标签取Y时样本特征为X的概率，P(Y)为标签Y的先验分布，P(X)为样本特征X的先验分布。

进一步地，所述步骤S2具体包括以下步骤：

S21、统计得到训练集中各个标签的频率；

S22、按标签顺序，将训练集中各个标签的频率组合构成向量。

进一步地，所述步骤S3中当前样本特征所属标签的概率具体为：

P_n(Y|X)＝normal(model(X)*V/P0(Y))

其中，V为对应于所有标签的向量，P0(Y)为训练集中标签Y的频率，normal表示归一化操作。

进一步地，所述步骤S4中调整后的向量具体为：

V_n＝(1-α)*V+α*P_n(Y|X)

α＝0.001

其中，V_n为调整后的向量，α为学习率。

进一步地，所述步骤S5和S6中更新后的分类模型具体为：

与现有技术相比，本发明采用在线学习的方式，分类模型每应用于实际邮件场景一次，就自主调整一次向量，并以调整后的向量作为实际邮件场景中各个标签的先验分布，替换掉原本分类模型中的先验分布，以更新分类模型，通过多次应用、不断更新，最终能够得到适用于不同标签分布场合的分类模型，将该分类模型应用于邮件分类，能够大大提高邮件分类准确率；

本发明提出的方法不需要对更新后的分类模型重新训练，只需让分类模型在实际应用中进行微调，最终接近于实际邮件场景中各个标签的真实分布，即使得分类模型能够在实际应用中进行自主修正更新，从而保证本发明提出的方法能够很好地适用于不同的实际邮件场景。

附图说明

图1为本发明的方法流程示意图；

图2为本发明的应用过程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种适用于不同标签分布场合的邮件分类方法，包括以下步骤：

S1、根据训练集，训练得到分类模型；

S6、将该更新后的分类模型再次应用于不同的实际邮件场景，不断重复步骤S3～S5，以实时在线更新分类模型；

为进一步对本发明提出的方法进行说明，本实施例首先通过贝叶斯定理对分类模型的误差进行分析，以找出造成分类模型在实际应用场景中表现不佳的原因，本实施例中，垃圾邮件分类训练集数据如表1所示，根据表1的统计信息，构建贝叶斯分类模型，该分类模型数据如表2所示。

表1

	垃圾邮件	正常邮件
			包含词汇“炒股”	90	10
不包含词汇“炒股”	10	90

表2

	垃圾邮件概率	正常邮件概率
			包含词汇“炒股”	0.9	0.1
不包含词汇“炒股”	0.1	0.9

利用贝叶斯分类模型对训练集中的邮件进行预测：包含“炒股”的都分为垃圾邮件，不包含“炒股”的当成正常邮件，得出如表3所示的数据。

表3

	真实垃圾邮件	真实正常邮件
			预测垃圾邮件	90	10
预测正常邮件	10	90
			召回率	90％	90％
精确率	90％	90％

由表3数据可知，该分类模型召回率与精确率都达到了90％，是一个不错的模型，此时训练集中垃圾邮件与正常邮件的比例也是1：1，样本相当均衡。

然而如果将表2的分类模型应用到实际场景，对1000封邮件进行分类，有140封邮件因为包含了“炒股”被分类为了垃圾邮件，分类结果如表4所示。

表4

垃圾邮件	正常邮件
		140	860

根据表1统计得到正常邮件与垃圾邮件包含“炒股”的概率分布如表5所示。

表5

	包含“炒股”的概率	不包含“炒股”的概率
			垃圾邮件	0.9	0.1
正常邮件	0.1	0.9

假如训练样本就是从当前的实际场景垃圾邮件与正常邮件中各随机采样100封得到的，那么表5不仅适用于训练集也适用于当前适用场景，此时可以分析得到表4中的数据究竟有多大的“水份”：如果真实场景中真的有860封正常邮件、140封垃圾邮件，根据表5，模型期望预测出86封包含“炒股”的正常邮件与126封包含“炒股”的垃圾邮件，共计212封垃圾邮件，这超出了模型所预测的垃圾邮件数量。为了找出真实的邮件分布，本实施例对860：140进行多次微调，最终定格在真实的正常邮件有950封，真实的垃圾邮件有50封时恰好能够满足模型预测出的结果，如表6所示。

表6

	正常邮件	垃圾邮件	合计
				包含“炒股”	950*0.1＝95	50*0.9＝45	140
不包含“炒股”	950*0.9＝855	50*0.1＝5	860

根据表6可知，模型预测出的140封垃圾邮件有95封竟然是合法的，误判率高达67.8％，在这种场合下不做垃圾邮件过滤的效果都比使用了模型要好，但是这样的实际应用场景与训练集到底存在什么差别呢？经过分析表6与表1，可知：在训练集中垃圾邮件与真实邮件的比例是1∶1，而在实际应用场景中该比例则变成了1∶19，也就是说真实场景下邮件真实标签分布相对于训练集发生了巨大的改变，也就表明标签先验分布的差别最终导致了分类模型在实际应用场景中表现得非常差。

那么有什么方法能让分类模型能适用于实际场景呢？如果训练集是从当前适用场合下完全随机采样的，也就是采样出的垃圾邮件与正常邮件比例为1:19，这样的训练集学习到的模型才是适应于该场景的最佳模型。那么最佳模型与旧模型相比有什么差别呢？根据贝叶斯定理分析可知：根据贝叶斯定理，样本特征向量X、分类标签为Y之间满足如下关系：

因此得出以下结论：

1、分类模型可以等价地认为学到了三种分布：P(X|Y)、P(Y)、P(X)。

2、因为P(Y|X)是一个概率分布，所以满足归一化约束，因此以上三种分布可以认为只有P(X|Y)与P(Y)是自由的，第三个分布P(X)可当作是P(X|Y)*P(Y)的归一化因子。

3、P(Y)表征了训练集上标签Y的先验分布，可以通过训练集直接统计各个标签的频率得到，因此模型可以看作只学到了一种分布：P(X|Y)。

即有argmax P(Y|X＝X₀)＝argmax P(X＝X₀|Y)*P(Y)，其中，P(Y)与分类模型无关，P(X＝X₀|Y)则表明模型学到的类别与特征之间相关性，该量只与模型有关，而与样本X来自哪一个数据集或应用场合无关，如果对于Y的所有取值可能，该值都相同，则说明特征X₀对于分类没有影响。

根据上面的推导，可知分类模型实际上是学会了P(X|Y)，如果再加上一个约束：P(X|Y)在实际应用场景与训练集上相同或差异极小(例如我们认为训练集上各类邮件是否包含“炒股”的概率分布与实际应用场景下的分布是相同的)，那么就可以得出一个结论：适应于真实场合的最优模型与旧模型只差了P(Y)。根据这个结论，可知只需通过修正现有分类模型的先验分布P(Y)得到一个适合实际场景的分类模型，要让分类模型适应于实际的应用场景，可以不需要对模型进行重新训练，只需要将实际应用场景下标签的分布替换掉在训练集上的先验分布即可。但是真正的实际场景也不可能提前给出各个类别的先验分布，因此本发明考虑让分类模型在实际的使用中进行微调，最终接近于应用场合下的各类别的真实分布，其具体应用过程如图2所示，主要分为：

1、训练分类模型model，model输入样本特征X，输出类别的概率分布：P(Y|X)＝model(X)。

2、统计训练集上标签Y的频率P0(Y)，用P0(Y)初始化一个向量V作为实际应用场景下各个标签的先验分布。

3、将模型应用于实际场景，用P(Y|X)＝normal(model(X)*V/P0(Y))来推断当前样本所属标签的概率，其中normal为归一化操作。

4、利用公式V＝(1-alpha)*V+alpha*P(Y|X)对V进行微调，其中alpha表示学习率一般取一个很小的数，本实施例中，alpha＝0.001，(1-alpha)*V表示保留旧的部分，alpha*P(Y|X)表示更新的部分。

5、重复3、4，当分类模型应用于实际场景的次数足够多时，向量V将微调到接近于真实场景下标签的真实分布，分类模型应用于实际的效果也会相应得到改善。

本发明只需要学习实际场景下的先验分布，而无需重新训练分类模型，因此学习量小；且适用于P(X|Y)具有相同分布的所有应用场景，部署后几乎不需要任何维护。本发明适应于基于概率模型的单标签、多标签的二分类、多分类模型，例如朴素贝叶斯、逻辑回归、sigmoid或softmax激活的MLP分类器，且适应于P(X|Y)与训练集上差异不大的应用场景。(例如：训练样本就采样自真实的应用场合，且各标签下完全随机采样。)

为验证本发明方法的有效性，本实施例采用sklearn分别构建基于高斯型特征分布的朴素贝叶斯分类器、逻辑回归分类器和多层感知机分类器。分类数据有两个特征维度：正类特征向量服从以(1,1)为中心方差为1的正态分布，负类特征向量服从以(-1，-1)为中心方差为1正态分布；

采用正负样本为1:1的训练集训练模型，输出模型测试集、应用数据集上的召回率与精确率，最后再使用本发明提出的方法对模型进行微调，找到模型的标签先验分布P0以及真实应用场景下的正负样本的分布V，然后根据P0、V对模型预测的概率进行调整，用调整后的概率作为模型预测类别的判断依据，分别测试朴素贝叶斯分类器、逻辑回归分类器和多层感知机分类器，得到如表7所示的对比数据：

表7

由表7的数据可知，三种分类模型经过微调后模型预测负样本的精确率都得到了大幅提高，从优化前的50％多提高到了优化后的85％以上。表明了本发明方法能够提高分类模型应用于不同标签分布场合后的应用效果，能够保证邮件分类的准确度。

Claims

1.一种适用于不同标签分布场合的邮件分类方法，其特征在于，包括以下步骤：

S1、根据训练集，训练得到分类模型；

S6、将该更新后的分类模型再次应用于不同的实际邮件场景，重复步骤S3～S5，以实时在线更新分类模型；

S7、将实时在线更新后的分类模型应用于目标邮件，从目标邮件中分类筛选出包含垃圾文本的邮件，完成邮件分类；

所述分类模型包括基于概率模型的二分类模型以及多分类模型，所述训练集中所有样本特征均来自于实际邮件场景，且各个标签下完全随机采样；

所述步骤S1中分类模型具体为：

其中，P(Y|X)为样本特征X条件下标签Y的概率分布，P(X|Y)为标签取Y时样本特征为X的概率，P(Y)为标签Y的先验分布，P(X)为样本特征X的先验分布；

所述步骤S3中当前样本特征所属标签的概率具体为：

P_n(Y|X)＝normal(model(X)*V/P0(Y))

其中，V为对应于所有标签的向量，P0(Y)为训练集中标签Y的频率，normal表示归一化操作；

所述步骤S4中调整后的向量具体为：

V_n＝(1-α)*V+α*P_n(Y|X)

其中，V_n为调整后的向量，α为学习率。

2.根据权利要求1所述的一种适用于不同标签分布场合的邮件分类方法，其特征在于，所述步骤S2具体包括以下步骤：

S21、统计得到训练集中各个标签的频率；

S22、将训练集中各个标签的频率依次排列组合，以构成一个向量。

3.根据权利要求2所述的一种适用于不同标签分布场合的邮件分类方法，其特征在于，所述步骤S22具体是按标签顺序将训练集中各个标签的频率依次排列组合。

4.根据权利要求1所述的一种适用于不同标签分布场合的邮件分类方法，其特征在于，所述学习率α＝0.001。

5.根据权利要求1所述的一种适用于不同标签分布场合的邮件分类方法，其特征在于，所述步骤S5和S6中更新后的分类模型具体为：