CN113361201B - 一种基于噪声标签学习的众包获取标签数据清洗方法 - Google Patents

一种基于噪声标签学习的众包获取标签数据清洗方法 Download PDF

Info

Publication number
CN113361201B
CN113361201B CN202110645466.7A CN202110645466A CN113361201B CN 113361201 B CN113361201 B CN 113361201B CN 202110645466 A CN202110645466 A CN 202110645466A CN 113361201 B CN113361201 B CN 113361201B
Authority
CN
China
Prior art keywords
data
noise
model
loss
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110645466.7A
Other languages
English (en)
Other versions
CN113361201A (zh
Inventor
王崇骏
陈明猜
姜文玉
商一帆
张雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110645466.7A priority Critical patent/CN113361201B/zh
Publication of CN113361201A publication Critical patent/CN113361201A/zh
Application granted granted Critical
Publication of CN113361201B publication Critical patent/CN113361201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/10Noise analysis or noise optimisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于噪声标签学习的众包获取标签数据清洗方法,在模型热启动阶段,使用带有噪声的标签数据初步训练深度模型;在噪声分离阶段,通过模型对训练数据进行预测,计算噪声标签与预测类别间的损失,采用高斯混合模型拟合损失的分布,得到各个数据在属于均值较小子分布的概率,依据该概率的大小将数据分为纯净数据和噪声数据两部分;在重新训练阶段,使用有更大概率为纯净数据的一部分重新训练模型;最后根据深度模型中数据损失的大小进行噪声清洗;本发明对众包获取的带噪声标签数据进行清洗,可大幅提高众包获取数据的质量;并且结合了深度学习模型的拟合能力,可以纠正特征与标签依赖关系复杂时的噪声标签。

Description

一种基于噪声标签学习的众包获取标签数据清洗方法
技术领域
本发明涉及众包数据清洗技术领域,主要涉及一种基于噪声标签学习的众包获取标签数据清洗方法。
背景技术
目前众包技术正在迅速发展。根据Eyeka公司在2014年进行的一项研究,在过去10年中,全球85%的顶级品牌在公司内部进行了众包工作。随着世界进一步进入数字时代,公司需要找到更快,更创新的方式来收集数据。通过众包进行数字交互是最快的方法。众包服务是各行各业中一项不断发展的服务。众包像一个蜂巢般的头脑,打开了更大的劳动力之门。平台上充满了各种技能,信息,背景和经验。
发明内容
发明目的:本发明针对众包获取的带噪声标签数据进行清洗问题,提供了一种基于噪声标签学习的众包获取标签数据清洗方法,可大幅提高众包获取数据的质量;并且,结合了深度学习模型的拟合能力,可以纠正特征与标签依赖关系复杂时的噪声标签。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于噪声标签学习的众包获取标签数据清洗方法,包括以下步骤:
步骤S1、模型热启动;使用带噪声的众包获取标签数据对深度模型进行初步训练;
步骤S2、噪声分离;通过初步训练后的深度模型对训练数据进行预测,计算噪声标签与预测值的交叉熵损失,并采用高斯混合模型拟合损失值的分布,获取各数据属于较小均值子分布的概率,根据所述概率将数据分为噪声数据和纯净数据两个部分;当所述概率低于0.5时,判定该数据为噪声数据,否则判定该数据为纯净数据;
步骤S3、重新训练;使用步骤S2中分离后的纯净数据中的若干部分重新训练深度模型;
步骤S4、最终噪声分离;最终噪声分离;使用训练完成的深度模型对训练数据进行预测,计算噪声标签与预测结果的交叉熵损失。设定阈值,如果损失值大于阈值则判定目标数据为噪声数据。
进一步地,所述步骤S1中初步训练步骤具体包括:
步骤S1.1、参数随机初始化;以正态分布初始化参数;
步骤S1.2、执行前向传播,对于任意的输入,计算出损失函数;具体地,对于带噪声数据集计算交叉熵损失函数/>其中H为样本预测与真实类别间的交叉熵;
步骤S1.3、执行反向传播算法,计算损失对于模型参数的偏导数;
步骤S1.4、使用随机梯度下降算法更新参数优化,使损失函数的值最小化。
进一步地,步骤S2中采用EM算法拟合高斯混合模型,拟合损失值的分布,具体如下:
步骤S2.1、选择参数θ的初始值θ0,开始迭代;
步骤S2.2、基于模型参数θ计算隐变量的期望值:
其中Z为隐变量,即某个子分布;
步骤S2.3、求使得Q函数极大化的θ值,确定第i+1次迭代的参数的估计值θ(i+1)如下:
其中θ(i)、θ(i+1)为第i、i+1轮迭代的参数;
步骤S2.4、重复步骤S2.2-S2.3,直至达到预先设定期望值。有益效果:
本发明提供了一种基于噪声标签学习的众包获取标签数据清洗方法,模型热启动阶段,使用带有噪声的标签数据初步训练深度模型;噪声分离阶段,通过模型对训练数据进行预测,计算噪声标签与预测类别间的损失。采用高斯混合模型拟合损失的分布,得到各个数据在属于均值较小子分布的概率,依据该概率的大小将数据分为两部分;重新训练阶段,仅仅使用有更大概率为干净数据的一部分重新训练模型。最后使用训练完成的深度模型对训练数据进行预测,计算噪声标签与预测结果的交叉熵损失。设定阈值,如果损失值大于阈值则判定目标数据为噪声数据。本发明对众包获取的带噪声标签数据进行清洗,可大幅提高众包获取数据的质量;并且,结合了深度学习模型的拟合能力,可以纠正特征与标签依赖关系复杂时的噪声标签。
附图说明
图1为本发明提供的众包获取标签数据清洗方法流程图;
图2为本发明提供的众包获取标签数据清洗方法中噪声分离流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示的一种基于噪声标签学习的众包获取标签数据清洗方法,包括以下步骤:
步骤S1、模型热启动;使用带噪声的众包获取标签数据对深度模型进行初步训练。具体地,
步骤S1.1、参数随机初始化;以正态分布初始化参数;
步骤S1.2、执行前向传播,对于任意的输入,计算出损失函数;具体地,对于带噪声数据集计算交叉熵损失函数/>
步骤S1.3、执行反向传播算法,计算损失对于模型参数的偏导数;
步骤S1.4、使用随机梯度下降算法更新参数优化,使损失函数的值最小化。
步骤S2、噪声分离;通过初步训练后的深度模型对训练数据进行预测,计算噪声标签与预测值的交叉熵损失,并采用高斯混合模型拟合损失值的分布,获取各数据属于较小均值子分布的概率,根据所述概率将数据分为噪声数据和纯净数据两个部分;
对于损失L∈Rn,采用一个包含两个子分布的一维高斯混合模型拟合整个数据集上的损失。对于任意数据,通过高斯混合模型拟合得出的结果,判断其属于某个子分布的概率。其中,有一个子分布的均值更小,即损失更小。当数据有更高概率属于该分布时,其更有可能为纯净数据样本。否则为噪声数据,如图2所示。
本实施例中,采用EM算法拟合高斯混合模型拟合损失的分布,具体如下:
步骤S2.1、选择参数θ的初始值θ0,开始迭代;
步骤S2.2、基于当前求得的模型参数θ计算隐变量的期望值;
步骤S2.3、求使得Q函数极大化的θ值,确定第i+1次迭代的参数的估计值θ(i+1)如下:
步骤S2.4、重复步骤S2.2-S2.3,直至收敛(期望值达到预设定目标)。
步骤S3、重新训练;使用步骤S2中分离后的纯净数据中的若干部分重新训练深度模型。
这里步骤S3中重新训练数据的步骤参照步骤S1中初步训练步骤即可。
步骤S4、最终噪声分离;最终噪声分离;使用训练完成的深度模型对训练数据进行预测,计算噪声标签与预测结果的交叉熵损失。设定阈值,如果损失值大于阈值则判定目标数据为噪声数据。
综上所述,本发明对众包获取的带噪声标签数据进行清洗,可大幅提高众包获取数据的质量;并且,结合了深度学习模型的拟合能力,可以纠正特征与标签依赖关系复杂时的噪声标签。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (2)

1.一种基于噪声标签学习的众包获取标签数据清洗方法,其特征在于,包括以下步骤:
步骤S1、模型热启动;使用带噪声的众包获取标签数据对深度模型进行初步训练;
步骤S2、噪声分离;通过初步训练后的深度模型对训练数据进行预测,计算噪声标签与预测结果的交叉熵损失,并采用EM算法以高斯混合模型拟合损失的分布,获取各数据属于较小均值子分布的概率,根据所述概率将数据分为噪声数据和纯净数据两个部分;当所述概率低于0.5时,判定该数据为噪声数据,否则判定该数据为纯净数据;
其中,所述采用EM算法以高斯混合模型拟合损失的分布,具体如下:
步骤S2.1、选择参数θ的初始值θ0,开始迭代;
步骤S2.2、基于模型参数θ计算隐变量的期望值:
其中Z为隐变量,即某个子分布;
步骤S2.3、求使得Q函数极大化的θ值,确定第i+1次迭代的参数的估计值θ(i+1)如下:
其中θ(i)、θ(i+1)为第i、i+1轮迭代的参数;
步骤S2.4、重复步骤S2.2-S2.3,直至达到预先设定期望值;
步骤S3、重新训练;使用步骤S2中分离后的纯净数据中的若干部分重新训练深度模型;
步骤S4、最终噪声分离;使用训练完成的深度模型对训练数据进行预测,计算噪声标签与预测结果的交叉熵损失;当损失值大于预设阈值时,判定目标数据为噪声数据,否则判定目标数据为纯净数据。
2.根据权利要求1所述的一种基于噪声标签学习的众包获取标签数据清洗方法,其特征在于,所述步骤S1中初步训练步骤具体包括:
步骤S1.1、参数随机初始化;以正态分布初始化参数;
步骤S1.2、执行前向传播,对于任意的输入,计算出损失函数;具体地,对于带噪声数据集计算交叉熵损失函数/>其中H为样本预测与真实类别间的交叉熵;
步骤S1.3、执行反向传播算法,计算损失对于模型参数的偏导数;
步骤S1.4、使用随机梯度下降算法更新参数,使损失函数的值最小化。
CN202110645466.7A 2021-06-10 2021-06-10 一种基于噪声标签学习的众包获取标签数据清洗方法 Active CN113361201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110645466.7A CN113361201B (zh) 2021-06-10 2021-06-10 一种基于噪声标签学习的众包获取标签数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110645466.7A CN113361201B (zh) 2021-06-10 2021-06-10 一种基于噪声标签学习的众包获取标签数据清洗方法

Publications (2)

Publication Number Publication Date
CN113361201A CN113361201A (zh) 2021-09-07
CN113361201B true CN113361201B (zh) 2023-08-25

Family

ID=77533454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110645466.7A Active CN113361201B (zh) 2021-06-10 2021-06-10 一种基于噪声标签学习的众包获取标签数据清洗方法

Country Status (1)

Country Link
CN (1) CN113361201B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505120B (zh) * 2021-09-10 2021-12-21 西南交通大学 一种大规模人脸数据集的双阶段噪声清洗方法
CN113962999B (zh) * 2021-10-19 2024-06-25 浙江大学 基于高斯混合模型和标签矫正模型的噪声标签分割方法
CN114118449B (zh) * 2022-01-28 2022-10-04 深圳佑驾创新科技有限公司 基于偏标记学习模型的图片标签识别方法、介质及设备
CN114299349B (zh) * 2022-03-04 2022-05-13 南京航空航天大学 一种基于多专家系统和知识蒸馏的众包图像学习方法
CN114880314B (zh) * 2022-05-23 2023-03-24 北京正远达科技有限公司 应用人工智能策略的大数据清洗决策方法及ai处理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070183A (zh) * 2019-03-11 2019-07-30 中国科学院信息工程研究所 一种弱标注数据的神经网络模型训练方法及装置
CN110263157A (zh) * 2019-05-24 2019-09-20 阿里巴巴集团控股有限公司 一种数据风险预测方法、装置及设备
CN112101328A (zh) * 2020-11-19 2020-12-18 四川新网银行股份有限公司 一种深度学习中识别并处理标签噪声的方法
CN112632179A (zh) * 2019-09-24 2021-04-09 北京国双科技有限公司 模型构建方法、装置、存储介质及设备
WO2021098486A1 (zh) * 2019-11-22 2021-05-27 重庆海尔洗衣机有限公司 衣物颜色识别的处理方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070183A (zh) * 2019-03-11 2019-07-30 中国科学院信息工程研究所 一种弱标注数据的神经网络模型训练方法及装置
CN110263157A (zh) * 2019-05-24 2019-09-20 阿里巴巴集团控股有限公司 一种数据风险预测方法、装置及设备
CN112632179A (zh) * 2019-09-24 2021-04-09 北京国双科技有限公司 模型构建方法、装置、存储介质及设备
WO2021098486A1 (zh) * 2019-11-22 2021-05-27 重庆海尔洗衣机有限公司 衣物颜色识别的处理方法、装置、设备及存储介质
CN112101328A (zh) * 2020-11-19 2020-12-18 四川新网银行股份有限公司 一种深度学习中识别并处理标签噪声的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
海量实测过电压数据智能自清洗方法;陈钦柱;张涵;殷健;杨鸣;郑鹏程;袁涛;赵海龙;孙魄韬;司马文霞;;高压电器(第12期);233-239 *

Also Published As

Publication number Publication date
CN113361201A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113361201B (zh) 一种基于噪声标签学习的众包获取标签数据清洗方法
CN108388651B (zh) 一种基于图核和卷积神经网络的文本分类方法
CN109657945B (zh) 一种基于数据驱动的工业生产过程故障诊断方法
CN107180426B (zh) 基于可迁移的多模型集成的计算机辅助肺结节分类装置
CN110334580A (zh) 基于集成增量的动态权重组合的设备故障分类方法
CN110674865B (zh) 面向软件缺陷类分布不平衡的规则学习分类器集成方法
CN101540047A (zh) 基于独立高斯混合模型的纹理图像分割方法
CN107240100B (zh) 一种基于遗传算法的图像分割方法和系统
CN113204645B (zh) 一种基于知识引导的方面级情感分析模型训练方法
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
CN108596204B (zh) 一种基于改进型scdae的半监督调制方式分类模型的方法
CN113283590B (zh) 一种面向后门攻击的防御方法
CN112215423B (zh) 一种基于趋势引导与稀疏交互的行人轨迹预测方法及系统
CN112073345B (zh) 一种调制方式识别方法、装置、电子设备及存储介质
CN106528705A (zh) 一种基于rbf神经网络的重复记录检测方法和系统
CN114301719B (zh) 一种基于变分自编码器的恶意更新检测方法及系统
CN115983274A (zh) 一种基于两阶段标签校正的噪声事件抽取方法
CN102663681A (zh) 基于排序k-均值算法的灰度图像分割方法
CN117152606A (zh) 一种基于置信度动态学习的遥感图像跨域小样本分类方法
CN114254108B (zh) 一种中文文本对抗样本生成的方法、系统及介质
CN111341332A (zh) 基于深度神经网络的语音特征增强后置滤波方法
CN113033410B (zh) 基于自动数据增强的域泛化行人重识别方法、系统及介质
CN116774678B (zh) 一种基于迁移学习的列车控制系统入侵检测方法及系统
CN103578274B (zh) 一种交通流预测方法及装置
CN107071447B (zh) 一种dvc中基于二次边信息的相关噪声建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant