CN108665002A

CN108665002A - 一种二分类任务标签噪声容忍分类器学习方法

Info

Publication number: CN108665002A
Application number: CN201810450983.7A
Authority: CN
Inventors: 吴贺俊; 刘润坤
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2018-10-16

Abstract

本发明涉及一种二分类任务标签噪声容忍分类器学习方法，包括以下步骤：S1.输入模型调整参数，包括样本探测范围、样本权重因子、样本标签反转比例参数x%、循环次数；S2.输入带标签噪声训练集；S3.用带标签噪声训练集训练基础算法模型；S4.利用影响函数计算样本影响值，根据样本影响值排序将排序前x%的样本标签反转；S5.将部分标签反转的样本集作为之后的训练集训练基础算法模型；S6.判断是否达到最大循环次数，若是则根据模型的效果选取最佳模型作为输出模型；否则利用影响函数计算样本影响值，并更新探测范围和样本权重；更新样本权重时，适当降低探测范围内的训练样本的权重，同时相应提高探测范围外的训练样本的权重；S7.重复执行步骤S5~S6。

Description

一种二分类任务标签噪声容忍分类器学习方法

技术领域

本发明涉及机器学习与数据挖掘领域，更具体地，涉及一种二分类任务标签噪声容忍分类器学习方法。

背景技术

在机器学习与数据挖掘领域中，分类是一种常见的机器学习任务，监督学习是分类任务常用的学习方法。在监督学习中，训练数据所对应的标签质量对于学习效果至关重要。如果学习时使用的标签数据都是错误的，那么不可能训练出有效的预测模型。在很多场景下需要人工给数据标定标签，然而当需要海量、高质量的标签时，人工标定数据标签的方式费时费力，成本高。因此，在实际应用中不得不面对标签噪声带来的影响。若样本量大，人工逐个检查标签的准确性更是不可完成的任务。因此，需要一种能有效地解决标签噪声问题的方法来提升机器学习中分类任务的准确性。本发明针对二分类任务提出了一种标签噪声容忍方法。

与本发明最相近的是《Understanding Black-box Predictions via InfluenceFunctions》中的第五章第四节关于影响函数在探测错误标签上的应用，在本节中作者以垃圾邮件分类为例，先随机反转一部分训练样本的标签，再通过计算影响函数的变形I_up,loss(z_i,z_i)并根据该值来排序，检查前x％的训练样本，其中x需要人为给定，计算其中包含之前随机反转的样本的个数，将该部分样本标签恢复正常并更新训练集，再用更新后的训练集进行训练计算测试集准确率来说明影响函数在探测错误标签上的有效性。影响函数是该应用的关键，具体原理如下：

若想知道某个指定训练样本会令算法模型参数产生什么变化，可以通过两次训练对比来得到，一次是使用包含这个指定训练样本的训练集进行训练，另一次使用去除这个指定训练样本的训练集进行训练，再将两次训练得到的模型参数相减便可得到结果，该变化用公式表示为其中表示用去除指定训练样本z的训练集训练得到的模型参数，需要注意的是这个过程非常耗时。影响函数可以高效地近似参数变化，主要思想是用∈降低惩罚函数中样本z损失值的权重来达到去除训练样本z的效果，由此引入一个新参数表示用∈降低惩罚函数中样本z损失值的权重后训练得到的模型的参数集合。影响函数公式定义如下：

其中，是Hessian矩阵并且假设是正定的，表示样本z_i的损失函数关于参数θ的二阶导数。由于将∈设的效果等同于移除训练样本z，那么就可以计算得到来线性近似移除样本z带来的参数变化，这一过程无需重新训练模型。

训练样本z对测试样本z_test的影响可定义为：

在上述知识背景下，《Understanding Black-box Predictions viaInfluenceFunctions》第五章第四节中用I_up,loss(z_i,z_i)来近似将训练样本z_i从训练集中移除后训练出来的模型对z_i分类发生的错误，即用I_up,loss(z_i,z_i)来计算训练样本z_i对模型的影响，将所有I_up,loss(z_i,z_i)进行升序排序，越靠前的表示越有可能是标签噪声。

上述现有技术的缺点是1.只给出了探测标签噪声大概范围的方法，而未利用得到的范围来对模型进行修改。2.探测效果比较依赖部分参数。3.由于影响函数的计算量大，在实际应用中使用近似的方法来得到结果，因此影响函数的值会有一定的偏差，会导致一部分正常样本被探测为标签噪声。

发明内容

本发明在现有技术的基础上，引入修改模型的方法。通过计算得到标签噪声的大概探测范围后，本发明适度降低探测范围内的训练样本的权重，同时相应提高探测范围外训练样本的权重后再训练，并通过这样多次修改权重再训练等操作来逐渐缓慢减少标签噪声对模型的影响。

为实现以上发明目的，采用的技术方案是：

一种二分类任务标签噪声容忍分类器学习方法，包括以下步骤：

S1.输入模型调整参数，包括样本探测范围、样本权重因子、样本标签反转比例参数x％、循环次数；

S2.输入带标签噪声训练集；

S3.用带标签噪声训练集训练基础算法模型；

S4.利用影响函数计算样本影响值，根据样本影响值排序将排序前x％的样本标签反转；

S5.将部分标签反转的样本集作为之后的训练集训练基础算法模型；

S6.判断是否达到最大循环次数，若是则根据模型的效果选取最佳模型作为输出模型；否则利用影响函数计算样本影响值，并更新探测范围和样本权重；更新样本权重时，适当降低探测范围内的训练样本的权重，同时相应提高探测范围外的训练样本的权重；

S7.重复执行步骤S5～S6。

优选地，所述更新探测范围的具体过程如下：

其中D代表探测范围，初始时D＝FD；FD代表初次探测范围，需要人为给定，合理取值范围为0-1；C代表权重因子，其取值由人为给定，应满足C<FD；N代表循环次数。

优选地，所述更新样本权重的具体过程如下：

探测范围内样本权重更新：

W_内＝W_内*（C/D)

探测范围外样本权重更新：

W_外＝W_外*（1-C/1-D）

其中W_内代表本次探测范围内样本的权重，W_外代表本次探测范围外样本的权重。

与现有技术相比，本发明的有益效果是：

1.利用了探测标签噪声范围的方法对样本权重进行不断调整从而改进模型。

2.通过循环多次缓慢调整样本权重，减少了影响函数因近似计算带来的偏差。

附图说明

图1为方法的流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

本发明的整体流程如图1所示，初始输入为带标签噪声训练集、样本探测范围、样本权重因子、样本标签反转比例参数、循环次数。第一次训练模型时训练样本的权重是均匀的，用带标签噪声的数据集作为训练集训练得到基础算法模型，利用影响函数计算样本影响值，根据样本影响值排序，假设标签反转比例为x％，则将排序前x％的样本标签反转。将部分标签反转的样本集作为之后的训练集。进入循环操作部分：1.进行样本权重更新操作：将排在前面的划为一部分，排在后面的划为一部分，划分的界限由输入的探测范围确定，适当调整两部分样本的权重，降低前一部分样本的权重，同时相应地提高后一部分样本的权重。2.更新探测范围。3.用更新样本权重后的训练集训练模型，检验模型的效果。重复操作1、2、3步，重复次数由输入的循环次数决定。最后根据模型的效果选取最佳模型作为输出模型。

样本影响值计算：利用以下影响函数的衍生公式计算样本影响值：

标签反转比例：标签反转比例划分了标签噪声可能性高的样本的范围，该范围内的样本标签将被反转，因此得到更新的样本集将作为之后模型训练的训练集，在实际应用中由于不能确定样本集中的标签噪声的比例，所以标签反转比例的设定应适当小，以免正常样本被识别成噪声。

探测范围：需要输入探测范围的初始值，探测范围的初始值在5％-20％比较合适，探测范围太小会导致在规定循环次数内最佳模型表现不足，探测范围太大会导致模型效果不稳定。每循环一次，探测范围都会进行调整，探测范围调整方法：其中D代表探测范围，初始时D＝FD；FD代表初次探测范围，需要人为给定，合理取值范围为0-1；C代表权重因子为了构造式子而设定的，其取值由人为给定，应满足C＜FD；N代表循环次数。

样本权重使用方法：惩罚函数中的样本损失值累加前先分别乘以对应权重，并将此惩罚函数代替原惩罚函数。

样本权重更新方法：探测范围内样本权重

W_内＝W_内*（C/D)

探测范围外样本权重：

W_外＝W_外*（1-C/1-D)

其中W_内代表本次探测范围内样本的权重，W_外代表本次探测范围内样本的权重。

模型训练方法：根据不同的算法选择合适的训练方法。

选取模型方法：多次循环操作后会的到不同效果的算法模型，选取其中测试准确率最高的模型作为最终模型。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种二分类任务标签噪声容忍分类器学习方法，其特征在于：包括以下步骤：

S2.输入带标签噪声训练集；

S3.用带标签噪声训练集训练基础算法模型；

S7.重复执行步骤S5～S6。

2.根据权利要求1所述的二分类任务标签噪声容忍分类器学习方法，其特征在于：所述更新探测范围的具体过程如下：

3.根据权利要求1所述的二分类任务标签噪声容忍分类器学习方法，其特征在于：所述更新样本权重的具体过程如下：

探测范围内样本权重更新：

W_内＝W_内*(C/D)

探测范围外样本权重更新：

W_外＝W_外*(1-C/1-D)