CN113361201B

CN113361201B - 一种基于噪声标签学习的众包获取标签数据清洗方法

Info

Publication number: CN113361201B
Application number: CN202110645466.7A
Authority: CN
Inventors: 王崇骏; 陈明猜; 姜文玉; 商一帆; 张雷
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2023-08-25
Anticipated expiration: 2041-06-10
Also published as: CN113361201A

Abstract

本发明公开了一种基于噪声标签学习的众包获取标签数据清洗方法，在模型热启动阶段，使用带有噪声的标签数据初步训练深度模型；在噪声分离阶段，通过模型对训练数据进行预测，计算噪声标签与预测类别间的损失，采用高斯混合模型拟合损失的分布，得到各个数据在属于均值较小子分布的概率，依据该概率的大小将数据分为纯净数据和噪声数据两部分；在重新训练阶段，使用有更大概率为纯净数据的一部分重新训练模型；最后根据深度模型中数据损失的大小进行噪声清洗；本发明对众包获取的带噪声标签数据进行清洗，可大幅提高众包获取数据的质量；并且结合了深度学习模型的拟合能力，可以纠正特征与标签依赖关系复杂时的噪声标签。

Description

一种基于噪声标签学习的众包获取标签数据清洗方法

技术领域

本发明涉及众包数据清洗技术领域，主要涉及一种基于噪声标签学习的众包获取标签数据清洗方法。

背景技术

目前众包技术正在迅速发展。根据Eyeka公司在2014年进行的一项研究，在过去10年中，全球85％的顶级品牌在公司内部进行了众包工作。随着世界进一步进入数字时代，公司需要找到更快，更创新的方式来收集数据。通过众包进行数字交互是最快的方法。众包服务是各行各业中一项不断发展的服务。众包像一个蜂巢般的头脑，打开了更大的劳动力之门。平台上充满了各种技能，信息，背景和经验。

发明内容

发明目的：本发明针对众包获取的带噪声标签数据进行清洗问题，提供了一种基于噪声标签学习的众包获取标签数据清洗方法，可大幅提高众包获取数据的质量；并且，结合了深度学习模型的拟合能力，可以纠正特征与标签依赖关系复杂时的噪声标签。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于噪声标签学习的众包获取标签数据清洗方法，包括以下步骤：

步骤S1、模型热启动；使用带噪声的众包获取标签数据对深度模型进行初步训练；

步骤S2、噪声分离；通过初步训练后的深度模型对训练数据进行预测，计算噪声标签与预测值的交叉熵损失，并采用高斯混合模型拟合损失值的分布，获取各数据属于较小均值子分布的概率，根据所述概率将数据分为噪声数据和纯净数据两个部分；当所述概率低于0.5时，判定该数据为噪声数据，否则判定该数据为纯净数据；

步骤S3、重新训练；使用步骤S2中分离后的纯净数据中的若干部分重新训练深度模型；

步骤S4、最终噪声分离；最终噪声分离；使用训练完成的深度模型对训练数据进行预测，计算噪声标签与预测结果的交叉熵损失。设定阈值，如果损失值大于阈值则判定目标数据为噪声数据。

进一步地，所述步骤S1中初步训练步骤具体包括：

步骤S1.1、参数随机初始化；以正态分布初始化参数；

步骤S1.2、执行前向传播，对于任意的输入，计算出损失函数；具体地，对于带噪声数据集计算交叉熵损失函数/>其中H为样本预测与真实类别间的交叉熵；

步骤S1.3、执行反向传播算法，计算损失对于模型参数的偏导数；

步骤S1.4、使用随机梯度下降算法更新参数优化，使损失函数的值最小化。

进一步地，步骤S2中采用EM算法拟合高斯混合模型，拟合损失值的分布，具体如下：

步骤S2.1、选择参数θ的初始值θ₀，开始迭代；

步骤S2.2、基于模型参数θ计算隐变量的期望值：

其中Z为隐变量，即某个子分布；

步骤S2.3、求使得Q函数极大化的θ值，确定第i+1次迭代的参数的估计值θ_(i+1)如下：

其中θ⁽ⁱ⁾、θ⁽ⁱ⁺¹⁾为第i、i+1轮迭代的参数；

步骤S2.4、重复步骤S2.2-S2.3，直至达到预先设定期望值。有益效果：

本发明提供了一种基于噪声标签学习的众包获取标签数据清洗方法，模型热启动阶段，使用带有噪声的标签数据初步训练深度模型；噪声分离阶段，通过模型对训练数据进行预测，计算噪声标签与预测类别间的损失。采用高斯混合模型拟合损失的分布，得到各个数据在属于均值较小子分布的概率，依据该概率的大小将数据分为两部分；重新训练阶段，仅仅使用有更大概率为干净数据的一部分重新训练模型。最后使用训练完成的深度模型对训练数据进行预测，计算噪声标签与预测结果的交叉熵损失。设定阈值，如果损失值大于阈值则判定目标数据为噪声数据。本发明对众包获取的带噪声标签数据进行清洗，可大幅提高众包获取数据的质量；并且，结合了深度学习模型的拟合能力，可以纠正特征与标签依赖关系复杂时的噪声标签。

附图说明

图1为本发明提供的众包获取标签数据清洗方法流程图；

图2为本发明提供的众包获取标签数据清洗方法中噪声分离流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示的一种基于噪声标签学习的众包获取标签数据清洗方法，包括以下步骤：

步骤S1、模型热启动；使用带噪声的众包获取标签数据对深度模型进行初步训练。具体地，

步骤S1.1、参数随机初始化；以正态分布初始化参数；

步骤S1.2、执行前向传播，对于任意的输入，计算出损失函数；具体地，对于带噪声数据集计算交叉熵损失函数/>

步骤S2、噪声分离；通过初步训练后的深度模型对训练数据进行预测，计算噪声标签与预测值的交叉熵损失，并采用高斯混合模型拟合损失值的分布，获取各数据属于较小均值子分布的概率，根据所述概率将数据分为噪声数据和纯净数据两个部分；

对于损失L∈Rⁿ，采用一个包含两个子分布的一维高斯混合模型拟合整个数据集上的损失。对于任意数据，通过高斯混合模型拟合得出的结果，判断其属于某个子分布的概率。其中，有一个子分布的均值更小，即损失更小。当数据有更高概率属于该分布时，其更有可能为纯净数据样本。否则为噪声数据，如图2所示。

本实施例中，采用EM算法拟合高斯混合模型拟合损失的分布，具体如下：

步骤S2.1、选择参数θ的初始值θ₀，开始迭代；

步骤S2.2、基于当前求得的模型参数θ计算隐变量的期望值；

步骤S2.4、重复步骤S2.2-S2.3，直至收敛(期望值达到预设定目标)。

步骤S3、重新训练；使用步骤S2中分离后的纯净数据中的若干部分重新训练深度模型。

这里步骤S3中重新训练数据的步骤参照步骤S1中初步训练步骤即可。

综上所述，本发明对众包获取的带噪声标签数据进行清洗，可大幅提高众包获取数据的质量；并且，结合了深度学习模型的拟合能力，可以纠正特征与标签依赖关系复杂时的噪声标签。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于噪声标签学习的众包获取标签数据清洗方法，其特征在于，包括以下步骤：

步骤S2、噪声分离；通过初步训练后的深度模型对训练数据进行预测，计算噪声标签与预测结果的交叉熵损失，并采用EM算法以高斯混合模型拟合损失的分布，获取各数据属于较小均值子分布的概率，根据所述概率将数据分为噪声数据和纯净数据两个部分；当所述概率低于0.5时，判定该数据为噪声数据，否则判定该数据为纯净数据；

其中，所述采用EM算法以高斯混合模型拟合损失的分布，具体如下：

步骤S2.1、选择参数θ的初始值θ₀，开始迭代；

步骤S2.2、基于模型参数θ计算隐变量的期望值：

其中Z为隐变量，即某个子分布；

其中θ_(i)、θ_(i+1)为第i、i+1轮迭代的参数；

步骤S2.4、重复步骤S2.2-S2.3，直至达到预先设定期望值；

步骤S4、最终噪声分离；使用训练完成的深度模型对训练数据进行预测，计算噪声标签与预测结果的交叉熵损失；当损失值大于预设阈值时，判定目标数据为噪声数据，否则判定目标数据为纯净数据。

2.根据权利要求1所述的一种基于噪声标签学习的众包获取标签数据清洗方法，其特征在于，所述步骤S1中初步训练步骤具体包括：

步骤S1.1、参数随机初始化；以正态分布初始化参数；

步骤S1.4、使用随机梯度下降算法更新参数，使损失函数的值最小化。