CN108665002A - 一种二分类任务标签噪声容忍分类器学习方法 - Google Patents

一种二分类任务标签噪声容忍分类器学习方法 Download PDF

Info

Publication number
CN108665002A
CN108665002A CN201810450983.7A CN201810450983A CN108665002A CN 108665002 A CN108665002 A CN 108665002A CN 201810450983 A CN201810450983 A CN 201810450983A CN 108665002 A CN108665002 A CN 108665002A
Authority
CN
China
Prior art keywords
sample
detection range
weight
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810450983.7A
Other languages
English (en)
Inventor
吴贺俊
刘润坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810450983.7A priority Critical patent/CN108665002A/zh
Publication of CN108665002A publication Critical patent/CN108665002A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种二分类任务标签噪声容忍分类器学习方法,包括以下步骤:S1.输入模型调整参数,包括样本探测范围、样本权重因子、样本标签反转比例参数x%、循环次数;S2.输入带标签噪声训练集;S3.用带标签噪声训练集训练基础算法模型;S4.利用影响函数计算样本影响值,根据样本影响值排序将排序前x%的样本标签反转;S5.将部分标签反转的样本集作为之后的训练集训练基础算法模型;S6.判断是否达到最大循环次数,若是则根据模型的效果选取最佳模型作为输出模型;否则利用影响函数计算样本影响值,并更新探测范围和样本权重;更新样本权重时,适当降低探测范围内的训练样本的权重,同时相应提高探测范围外的训练样本的权重;S7.重复执行步骤S5~S6。

Description

一种二分类任务标签噪声容忍分类器学习方法
技术领域
本发明涉及机器学习与数据挖掘领域,更具体地,涉及一种二分类任务标签噪声容忍分类器学习方法。
背景技术
在机器学习与数据挖掘领域中,分类是一种常见的机器学习任务,监督学习是分类任务常用的学习方法。在监督学习中,训练数据所对应的标签质量对于学习效果至关重要。如果学习时使用的标签数据都是错误的,那么不可能训练出有效的预测模型。在很多场景下需要人工给数据标定标签,然而当需要海量、高质量的标签时,人工标定数据标签的方式费时费力,成本高。因此,在实际应用中不得不面对标签噪声带来的影响。若样本量大,人工逐个检查标签的准确性更是不可完成的任务。因此,需要一种能有效地解决标签噪声问题的方法来提升机器学习中分类任务的准确性。本发明针对二分类任务提出了一种标签噪声容忍方法。
与本发明最相近的是《Understanding Black-box Predictions via InfluenceFunctions》中的第五章第四节关于影响函数在探测错误标签上的应用,在本节中作者以垃圾邮件分类为例,先随机反转一部分训练样本的标签,再通过计算影响函数的变形Iup,loss(zi,zi)并根据该值来排序,检查前x%的训练样本,其中x需要人为给定,计算其中包含之前随机反转的样本的个数,将该部分样本标签恢复正常并更新训练集,再用更新后的训练集进行训练计算测试集准确率来说明影响函数在探测错误标签上的有效性。影响函数是该应用的关键,具体原理如下:
若想知道某个指定训练样本会令算法模型参数产生什么变化,可以通过两次训练对比来得到,一次是使用包含这个指定训练样本的训练集进行训练,另一次使用去除这个指定训练样本的训练集进行训练,再将两次训练得到的模型参数相减便可得到结果,该变化用公式表示为其中表示用去除指定训练样本z的训练集训练得到的模型参数,需要注意的是这个过程非常耗时。影响函数可以高效地近似参数变化,主要思想是用∈降低惩罚函数中样本z损失值的权重来达到去除训练样本z的效果,由此引入一个新参数表示用∈降低惩罚函数中样本z损失值的权重后训练得到的模型的参数集合。影响函数公式定义如下:
其中,是Hessian矩阵并且假设是正定的,表示样本zi的损失函数关于参数θ的二阶导数。由于将∈设的效果等同于移除训练样本z,那么就可以计算得到来线性近似移除样本z带来的参数变化,这一过程无需重新训练模型。
训练样本z对测试样本ztest的影响可定义为:
在上述知识背景下,《Understanding Black-box Predictions viaInfluenceFunctions》第五章第四节中用Iup,loss(zi,zi)来近似将训练样本zi从训练集中移除后训练出来的模型对zi分类发生的错误,即用Iup,loss(zi,zi)来计算训练样本zi对模型的影响,将所有Iup,loss(zi,zi)进行升序排序,越靠前的表示越有可能是标签噪声。
上述现有技术的缺点是1.只给出了探测标签噪声大概范围的方法,而未利用得到的范围来对模型进行修改。2.探测效果比较依赖部分参数。3.由于影响函数的计算量大,在实际应用中使用近似的方法来得到结果,因此影响函数的值会有一定的偏差,会导致一部分正常样本被探测为标签噪声。
发明内容
本发明在现有技术的基础上,引入修改模型的方法。通过计算得到标签噪声的大概探测范围后,本发明适度降低探测范围内的训练样本的权重,同时相应提高探测范围外训练样本的权重后再训练,并通过这样多次修改权重再训练等操作来逐渐缓慢减少标签噪声对模型的影响。
为实现以上发明目的,采用的技术方案是:
一种二分类任务标签噪声容忍分类器学习方法,包括以下步骤:
S1.输入模型调整参数,包括样本探测范围、样本权重因子、样本标签反转比例参数x%、循环次数;
S2.输入带标签噪声训练集;
S3.用带标签噪声训练集训练基础算法模型;
S4.利用影响函数计算样本影响值,根据样本影响值排序将排序前x%的样本标签反转;
S5.将部分标签反转的样本集作为之后的训练集训练基础算法模型;
S6.判断是否达到最大循环次数,若是则根据模型的效果选取最佳模型作为输出模型;否则利用影响函数计算样本影响值,并更新探测范围和样本权重;更新样本权重时,适当降低探测范围内的训练样本的权重,同时相应提高探测范围外的训练样本的权重;
S7.重复执行步骤S5~S6。
优选地,所述更新探测范围的具体过程如下:
其中D代表探测范围,初始时D=FD;FD代表初次探测范围,需要人为给定,合理取值范围为0-1;C代表权重因子,其取值由人为给定,应满足C<FD;N代表循环次数。
优选地,所述更新样本权重的具体过程如下:
探测范围内样本权重更新:
W=W*(C/D)
探测范围外样本权重更新:
W=W*(1-C/1-D)
其中W代表本次探测范围内样本的权重,W代表本次探测范围外样本的权重。
与现有技术相比,本发明的有益效果是:
1.利用了探测标签噪声范围的方法对样本权重进行不断调整从而改进模型。
2.通过循环多次缓慢调整样本权重,减少了影响函数因近似计算带来的偏差。
附图说明
图1为方法的流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
本发明的整体流程如图1所示,初始输入为带标签噪声训练集、样本探测范围、样本权重因子、样本标签反转比例参数、循环次数。第一次训练模型时训练样本的权重是均匀的,用带标签噪声的数据集作为训练集训练得到基础算法模型,利用影响函数计算样本影响值,根据样本影响值排序,假设标签反转比例为x%,则将排序前x%的样本标签反转。将部分标签反转的样本集作为之后的训练集。进入循环操作部分:1.进行样本权重更新操作:将排在前面的划为一部分,排在后面的划为一部分,划分的界限由输入的探测范围确定,适当调整两部分样本的权重,降低前一部分样本的权重,同时相应地提高后一部分样本的权重。2.更新探测范围。3.用更新样本权重后的训练集训练模型,检验模型的效果。重复操作1、2、3步,重复次数由输入的循环次数决定。最后根据模型的效果选取最佳模型作为输出模型。
样本影响值计算:利用以下影响函数的衍生公式计算样本影响值:
标签反转比例:标签反转比例划分了标签噪声可能性高的样本的范围,该范围内的样本标签将被反转,因此得到更新的样本集将作为之后模型训练的训练集,在实际应用中由于不能确定样本集中的标签噪声的比例,所以标签反转比例的设定应适当小,以免正常样本被识别成噪声。
探测范围:需要输入探测范围的初始值,探测范围的初始值在5%-20%比较合适,探测范围太小会导致在规定循环次数内最佳模型表现不足,探测范围太大会导致模型效果不稳定。每循环一次,探测范围都会进行调整,探测范围调整方法:其中D代表探测范围,初始时D=FD;FD代表初次探测范围,需要人为给定,合理取值范围为0-1;C代表权重因子为了构造式子而设定的,其取值由人为给定,应满足C<FD;N代表循环次数。
样本权重使用方法:惩罚函数中的样本损失值累加前先分别乘以对应权重,并将此惩罚函数代替原惩罚函数。
样本权重更新方法:探测范围内样本权重
W=W*(C/D)
探测范围外样本权重:
W=W*(1-C/1-D)
其中W代表本次探测范围内样本的权重,W代表本次探测范围内样本的权重。
模型训练方法:根据不同的算法选择合适的训练方法。
选取模型方法:多次循环操作后会的到不同效果的算法模型,选取其中测试准确率最高的模型作为最终模型。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (3)

1.一种二分类任务标签噪声容忍分类器学习方法,其特征在于:包括以下步骤:
S1.输入模型调整参数,包括样本探测范围、样本权重因子、样本标签反转比例参数x%、循环次数;
S2.输入带标签噪声训练集;
S3.用带标签噪声训练集训练基础算法模型;
S4.利用影响函数计算样本影响值,根据样本影响值排序将排序前x%的样本标签反转;
S5.将部分标签反转的样本集作为之后的训练集训练基础算法模型;
S6.判断是否达到最大循环次数,若是则根据模型的效果选取最佳模型作为输出模型;否则利用影响函数计算样本影响值,并更新探测范围和样本权重;更新样本权重时,适当降低探测范围内的训练样本的权重,同时相应提高探测范围外的训练样本的权重;
S7.重复执行步骤S5~S6。
2.根据权利要求1所述的二分类任务标签噪声容忍分类器学习方法,其特征在于:所述更新探测范围的具体过程如下:
其中D代表探测范围,初始时D=FD;FD代表初次探测范围,需要人为给定,合理取值范围为0-1;C代表权重因子,其取值由人为给定,应满足C<FD;N代表循环次数。
3.根据权利要求1所述的二分类任务标签噪声容忍分类器学习方法,其特征在于:所述更新样本权重的具体过程如下:
探测范围内样本权重更新:
W=W*(C/D)
探测范围外样本权重更新:
W=W*(1-C/1-D)
其中W代表本次探测范围内样本的权重,W代表本次探测范围外样本的权重。
CN201810450983.7A 2018-05-11 2018-05-11 一种二分类任务标签噪声容忍分类器学习方法 Pending CN108665002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810450983.7A CN108665002A (zh) 2018-05-11 2018-05-11 一种二分类任务标签噪声容忍分类器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810450983.7A CN108665002A (zh) 2018-05-11 2018-05-11 一种二分类任务标签噪声容忍分类器学习方法

Publications (1)

Publication Number Publication Date
CN108665002A true CN108665002A (zh) 2018-10-16

Family

ID=63779171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810450983.7A Pending CN108665002A (zh) 2018-05-11 2018-05-11 一种二分类任务标签噪声容忍分类器学习方法

Country Status (1)

Country Link
CN (1) CN108665002A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919235A (zh) * 2019-03-13 2019-06-21 北京邮电大学 一种基于人工干预样本集权重的深度学习图像分类模型训练方法
CN111709488A (zh) * 2020-06-22 2020-09-25 电子科技大学 一种动态标签深度学习算法
CN111784595A (zh) * 2020-06-10 2020-10-16 北京科技大学 一种基于历史记录的动态标签平滑加权损失方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919235A (zh) * 2019-03-13 2019-06-21 北京邮电大学 一种基于人工干预样本集权重的深度学习图像分类模型训练方法
CN111784595A (zh) * 2020-06-10 2020-10-16 北京科技大学 一种基于历史记录的动态标签平滑加权损失方法及装置
CN111784595B (zh) * 2020-06-10 2023-08-29 北京科技大学 一种基于历史记录的动态标签平滑加权损失方法及装置
CN111709488A (zh) * 2020-06-22 2020-09-25 电子科技大学 一种动态标签深度学习算法

Similar Documents

Publication Publication Date Title
EP2879078B1 (en) Method and apparatus for generating strong classifier for face detection
CN109271876B (zh) 基于时间演化建模和多示例学习的视频动作检测方法
CN108665002A (zh) 一种二分类任务标签噪声容忍分类器学习方法
CN109800717B (zh) 基于强化学习的行为识别视频帧采样方法及系统
CN103927550B (zh) 一种手写体数字识别方法及系统
CN111834010A (zh) 一种基于属性约简和XGBoost的COVID-19检测假阴性识别方法
CN109033402A (zh) 安全领域专利文本的分类方法
CN111898129B (zh) 基于Two-Head异常检测模型的恶意代码样本筛选器及方法
EP3965020A1 (en) A model for a rapid continual anomaly detector
CN108764322A (zh) 一种基于概念漂移的流数据集成分类方法和装置
CN113179276A (zh) 基于显式和隐含特征学习的智能入侵检测方法和系统
CN111309975A (zh) 一种增强图模型抗攻击能力的方法和系统
CN112163064A (zh) 基于深度学习的文本分类方法
CN111488939A (zh) 模型训练方法、分类方法、装置及设备
US20160292590A1 (en) Streaming analytics
US11373285B2 (en) Image generation device, image generation method, and image generation program
CN117574262A (zh) 一种面向小样本问题的水声信号分类方法、系统及介质
Song et al. Toward robustness in multi-label classification: A data augmentation strategy against imbalance and noise
CN116912638A (zh) 一种多数据集的联合训练方法及终端
CN110020675A (zh) 一种双阈值AdaBoost分类方法
CN113962999B (zh) 基于高斯混合模型和标签矫正模型的噪声标签分割方法
CN115861625A (zh) 一种处理噪声标签的自标签修改方法
Mendonça et al. Adversarial training with informed data selection
CN110659266A (zh) 一种模型的数据处理方法
US20180365350A1 (en) Generating circuits

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181016