CN111814883A - 一种基于异质集成的标签噪声纠正方法 - Google Patents

一种基于异质集成的标签噪声纠正方法 Download PDF

Info

Publication number
CN111814883A
CN111814883A CN202010663993.6A CN202010663993A CN111814883A CN 111814883 A CN111814883 A CN 111814883A CN 202010663993 A CN202010663993 A CN 202010663993A CN 111814883 A CN111814883 A CN 111814883A
Authority
CN
China
Prior art keywords
data set
sample
label
heterogeneous
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010663993.6A
Other languages
English (en)
Inventor
熊庆宇
易华玲
杨正益
邹青宏
高旻
吴丹
文俊浩
胡瑶
张致远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010663993.6A priority Critical patent/CN111814883A/zh
Publication of CN111814883A publication Critical patent/CN111814883A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于异质集成的标签噪声纠正方法,在本发明的方法中,数据集D经过P轮K折分层交叉划分,M种异质分类器预测,两轮多数投票集成预测结果,对数据集D中的每个样本均进行了类别标签的更新,实现噪声标签纠正的更新。本发明适用于具有分布不平衡特点的数据集中的标签噪声处理,适用于各种类型的分类器,具有较好的通用性;可独立完成类别标签纠正过程;循环了P轮分层交叉划分,保证每个交叉划分子集具有和原始样本集相同的不平衡程度,且减少了数据集单次交叉划分的偶然性对分类器的影响;通过异质集成方式更新样本的类别标签,可以减轻某种分类器会受数据类型的负面影响。

Description

一种基于异质集成的标签噪声纠正方法
技术领域
本发明涉及数据处理领域,特别涉及一种基于异质集成的标签噪声纠正方法。
背景技术
在机器学习领域中,常见的一类工作是使用带标签数据训练神经网络实现分类、回归或其他目的,这种训练模型学习规律的方法一般称之为监督学习。在监督学习中,训练样本通常由一组特征和一个类别标签组成,样本的质量由特征的质量和标签的质量共同决定,当某个类别为A的样本被错误标记为类别B的标签时,则称该样本是一个标签噪声。
标签噪声产生的主要由专家主观标记失误、数据传输网络故障和硬件设备故障等造成的,其在航天航空、医疗、金融等各个应用领域都广泛存在,因此,在实际工程应用领域含标签噪声机器学习算法的研究具有重要的实际应用价值。如果学习时使用的标签数据都是错误的,那么不可能训练出有效的预测模型,同时,深度学习使用的神经网络往往结构复杂,为了得到良好的学习效果,对于带标签的训练数据通常为大数据或海量数据,标签噪声会增加分类模型学习的难度,模型学习过程受到标签噪声的干扰影响,增加了模型的复杂度。
常见的标签噪声的处理方法有三类:标签噪声鲁棒方法、标签噪声过滤方法以及标签噪声重标注方法。标签噪声鲁棒方法是指分类模型的学习过程开发对标签噪声具有鲁棒性的策略,改进分类算法的内部结构,以增强模型对标签噪声的适应能力。标签噪声过滤方法可划分为两个阶段:标签噪声检测和标签噪声移除,首先对样本集实施标签噪声检测算法,识别并标记样本集中的标签噪声,再对被标记为噪声的样本进行移除操作,移除完成后样本集中的标签噪声含量降低,从而减轻标签噪声对模型的干扰影响。标签噪声重标注方法是指通过识别样本集中的标签噪声并对标签噪声进行类别标签重新标记的过程,该方法分为两步操作完成:标签噪声检测和标签噪声更正,首先通过标签噪声检测算法识别样本集中的标签噪声,再使用机器学习方法对这些标签噪声进行类别标签更正。
当需要进行标签噪声处理操作的对象是类别分布不平衡的样本集(机器学习中的不平衡数据集是指样本集合中不同类别的样本数量差距大,其中某一类或某几类样本的数量远少于其他类别的样本数量,其中数量处于劣势的样本类别被称为少数类。)时,有监督学习的过程通常会受到数据分布不平衡的影响,对少数样本的识别能力较低,现有的标签噪声处理标签方法存在如下不足之处:
(1)在标签噪声鲁棒方法中,由于机器学习中大多数分类算法都是对标签噪声不耐受的,仅有少部分分类算法在训练集含有少量标签噪声时具有一定的抗标签噪声能力,在标签噪声含量较高时,训练所得的模型性能仍会受到干扰影响;由于标签噪声鲁棒方法是通过对算法的内部结构进行改进,从而增强模型对标签噪声的健壮性,这种内部改造方法仅适用于当前算法,对其他学习算法不具有通用性;由于算法本身的复杂性,对算法内部结构进行改造是一个难度较高、工作量很大的过程。
(2)在标签噪声过滤方法中,标签噪声过滤过程是通过噪声识别和噪声移除两步操作来完成的,对含标签噪声的样本集进行标签噪声过滤后可能产生以下几种情况:1)理想情况下,标签噪声被识别出来并被移除;2)正确样本被错误识别为噪声而被移除;3)标签噪声未被识别出来被保留在训练集中。将标签噪声过滤方法应用于分布不平衡数据集时,其采取的噪声移除操作会减少数据集的样本数量;尤其是对少数类样本来说,由于少数类样本的数量少,噪声识别算法对少数类样本的学习能力有限,少数类样本被误认为标签噪声的概率更大;如果对正确的少数类样本进行了移除,不仅减少了数据集的样本数量,而且将进一步加剧数据集的不平衡程度,增加数据分布不平衡的有监督学习过程的难度。
针对现有技术的缺陷,公开号为CN110363228A的专利提供了一种噪声标签标注方法,其利用基学习器对样本进行分类并估计噪声率以识别出标签噪声,再使用基分类器对标签噪声进行重新标注;公开号为CN105426826A专利提供了一种基于标签噪声纠正的众包标注数据质量提升方法,该方法通过众包标签集成、噪声识别、噪声纠正三个过程完成对标签噪声的类别纠正。与标签噪声过滤方法相比,这两种标签噪声纠正方法不会减少数据集的样本数量,但噪声识别过程仍不能避免将少数类样本误识别为标签噪声以及标签噪声未被识别出来的情况。
基于上述缺陷可知,现有技术由于算法本身的复杂性,对算法内部结构进行改造难度较高、工作量很大;噪声移除操作可能会减少数据集的样本数量,将进一步加剧数据集的不平衡程度,增加数据分布不平衡的有监督学习过程的难度。因而,本领域亟需提出一种基于异质集成的标签噪声纠正方法。
发明内容
本发明的目的是提出一种基于异质集成的标签噪声纠正方法,其适用于具有分布不平衡特点的数据集中的标签噪声处理,适用于各种类型的分类器,具有较好的通用性;可独立完成类别标签纠正过程;循环了P轮分层交叉划分,保证每个交叉划分子集具有和原始样本集相同的不平衡程度,且减少了数据集单次交叉划分的偶然性对分类器的影响;通过异质集成方式更新样本的类别标签,可以减轻某种分类器会受数据类型的负面影响。
本发明的技术方案是这样方式实现的:
一种基于异质集成的标签噪声纠正方法,包括以下步骤:
步骤S1:构建异质集成的标签噪声纠正算法;
步骤S2:输入算法所需的变量,包括待处理数据集D、K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M;
步骤S3:对所述数据集D进行P轮K折分层交叉划分;
步骤S4:对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成,得到第一轮基于预测结果多数投票后的P个更新数据集D1',D2',…,Dp',使得数据集D中的每个样本再次获得P个类别标签;
步骤S5:基于步骤S4的结果,为更新数据集D1',D2',…,Dp'中的每个样本获得的P个类别标签进行第二轮多数投票,纠正标签噪声,得到纠正类别标签后的训练样本集D";
步骤S6:将第二轮多数投票的结果确定为该样本的最终类别标签,得到标签噪声纠正的结果。
步骤S3至步骤S6还可以采用以下步骤:
步骤A3:对所述数据集D进行一轮K折分层交叉划分;
步骤A4:对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成,得到第一轮基于预测结果多数投票后的1个更新数据集D';
步骤A5:循环步骤A3至步骤A4过程P次,得到第一轮基于预测结果多数投票后的P个更新数据集D1',D2',…,Dp',使得数据集D中的每个样本再次获得P个类别标签;
步骤A6:基于步骤A5的结果,为更新数据集D1',D2',…,Dp'中的每个样本获得的P个类别标签进行第二轮多数投票,纠正标签噪声,得到纠正类别标签后的训练样本集D";
步骤A7:将第二轮多数投票的结果确定为该样本的最终类别标签,得到标签噪声纠正的结果。
解决本发明技术问题的技术原理为:数据集D经过P轮K折分层交叉划分,M种异质分类器预测,两轮多数投票集成预测结果,对数据集D中的每个样本均进行了类别标签的更新,噪声标签纠正的更新结果有两种:1)更新后样本的类别标签不发生改变,表明该样本不是标签噪声;2)更新后类别标签发生改变,表明该样本是潜在的标签噪声,类别标签得到纠正。
本发明的有益效果在于:
(1)本发明可以在不减少样本总量的前提下,对样本集中的潜在标签噪声进行纠正,以减少样本集中标签噪声的含量,因此适用于具有分布不平衡特点的数据集中的标签噪声处理;
(2)本发明的方法具有较好的通用性,对不同类别样本数量相差不大的数据集中的标签噪声处理也有很好的效果,而且适用于各种类型的分类器;
(3)本发明的方法利用了被标记样本本身的特征属性来纠正潜在的错误类别标签,勿需借助额外的标签噪声识别算法即可完成类别标签纠正过程;
(4)本发明的方法循环了P轮分层交叉划分,保证了每个交叉划分子集具有和原始样本集相同的不平衡程度,且减少了数据集单次交叉划分的偶然性对分类器的影响;
(5)本发明的方法通过异质集成(集成M种不同分类器的预测结果)方式更新样本的类别标签,可以减轻某种分类器会受数据类型的负面影响。
附图说明
图1为本发明方法的一种整体框架图;
图2为本发明的一种的流程图;
图3为本发明实施例3的一种实验结果图。
具体实施方式
下面结合附图和具体实施例对本发明进行说明,如无特殊说明,均为常规方法。
实施例1
如图1所示,一种基于异质集成的标签噪声纠正方法,包括以下步骤:
步骤S1:构建异质集成的标签噪声纠正算法;
步骤S2:输入算法所需的变量,包括待处理数据集D、K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M;
数据集D的来源包括机械设备上的各种传感器监测数据(如空气污染检测的传感器和水质检测传感器等)、运行状态数据和历史检验数据;
K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M为可调整的参数,在实际应用中可随场景和模型的不同发生变化。上述三种参数还可根据数据集D的数据量来确定,当数据量较大时,可通过减小K值,来降低模型在不同的数据块上进行重复拟合的性能评估的计算成本,在平均性能的基础上获得模型的准确评估。
步骤S3:对所述数据集D进行P轮K折分层交叉划分;
数据集进行分层划分,是为了保证每个交叉划分子集的各类别样本的比例与原始数据集中相同,因此该方法可以处理针对不平衡数据集中的标签噪声;
实行P轮循环,是为了降低数据集的单次划分存在的偶然性对分类器性能产生影响,而且P轮循环是第二轮多数投票集成的基础。
步骤S4:对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成,得到第一轮基于预测结果多数投票后的P个更新数据集D1',D2',…,Dp',使得数据集D中的每个样本再次获得P个类别标签;
选择M种不同的机器学习分类算法是为了减轻分类算法对不同数据类型可能存在的特异性而对标签噪声纠正的过程造成负面影响,使得本方法更具有通用性;如对文本数据可以选择朴素贝叶斯、K近邻等分类算法,而对图像数据可以选择神经网络算法等。
步骤S5:基于步骤S4的结果,为更新数据集D1',D2,…,Dp'中的每个样本获得的P个类别标签进行第二轮多数投票,纠正标签噪声,得到纠正类别标签后的训练样本集D";
步骤S6:将第二轮多数投票的结果确定为该样本的最终类别标签,得到标签噪声纠正的结果。标签噪声纠正有两种更新结果(1)更新后样本的类别标签不发生改变,表明该样本不是标签噪声;(2)更新后类别标签发生改变,表明该样本是潜在的标签噪声,类别标签得到纠正。
进一步地,步骤S2中算法所需的变量还具有如下特征:
待处理数据集D:数据集D中包含了L(L≥2)种不同的类别标签C1,C2,…,CL
K折分层交叉划分的折数K:K≥2,表示一轮分层交叉划分将数据集划为K等份;
K折分层交叉划分的循环轮数P:P为奇数且P>2,表示数据集D被实行了P次K折交叉划分;
异质分类器的种数M:M为奇数且M>2,表示本方法中使用了M种不同的机器学习分类算法。
进一步地,步骤S3具体包括以下步骤:
步骤S31:将数据集D按类别分为L个样本子集D1,D2,…,DL,类别标签相同的样本为一组,有D=D1∪D2∪…∪DL
Figure BDA0002579668220000051
步骤S32:将D1样本子集随机均分为K份,产生D11,D12,…,D1k;对D2,…,DL样本子集重复该过程;
步骤S33:令E1=D11∪D21∪…∪DL1,同理可得E2,…,Ek;得到一轮K折分层交叉划分的结果E1,E2……Ek,其中D=E1∪E2∪…∪EL
步骤S34:循环步骤S31和步骤S33过程P次,对数据集D进行P轮K折分层交叉划分。
进一步地,步骤S4具体包括以下步骤:
步骤S41:基于步骤S3中一轮K折分层交叉划分的结果E1,E2,…,Ek进行数据集D的标签更新,具体步骤为:
步骤S411:选择E1作为待预测对象,D\E1数据集合中的所有样本作训练数据,选择M种不同的机器学习分类算法,训练M个不同的分类器T1,T2,…,TM
步骤S412:使用这M个异质分类器预测E1样本子集中样本的类别标签,E1中每个样本获得M个类别标签;
步骤S413:对E1中每个样本获得的M个类别标签进行多数投票,将该样本的类别标签更新为数量统计最多的类别;
步骤S414:对E2,…,Ek循环过程步骤S411至步骤S413,数据集D中的每个样本均被更新一次类别标签(更新后类别标签可能不发生改变),获得一个数据集D的一个更新D1';
步骤S42:对P轮K折分层交叉划分的结果重复过程步骤S41,得到P个数据集D的更新数据集D1',D2,…,Dp',即数据集D中的每个样本再次获得P个类别标签。
进一步地,多数投票算法采用分布式Boyer-Moore算法。分布式Boyer-Moore算法可以使用并行算法实现,并且其可对原数组采用分治的方法,把数组划分成很多段,在每段中计算出candidate-count二元组,然后得到最终结果。
实施例2
如图2所示,一种基于异质集成的标签噪声纠正方法,包括以下步骤:
步骤A1:构建异质集成的标签噪声纠正算法;
步骤A2:输入算法所需的变量,包括待处理数据集D、K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M;
步骤A3:对所述数据集D进行了一轮K折分层交叉划分;
步骤A4:对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成,得到第一轮基于预测结果多数投票后的1个更新数据集D;
选择M种不同的机器学习分类算法是为了减轻分类算法对不同数据类型可能存在的特异性而对标签噪声纠正的过程造成负面影响,使得本方法更具有通用性;如对文本数据可以选择朴素贝叶斯、K近邻等分类算法,而对图像数据可以选择神经网络算法等。
步骤A5:循环步骤A3至步骤A4过程P次,得到第一轮基于预测结果多数投票后的P个更新数据集D1',D2',…,Dp'使得数据集D中的每个样本再次获得P个类别标签;
实行P轮循环,是为了降低数据集的单次划分存在的偶然性对分类器性能产生影响,而且P轮循环是第二轮多数投票集成的基础。
步骤A6:基于步骤A5的结果,为更新数据集D1',D2',…,Dp'中的每个样本获得的P个类别标签进行第二轮多数投票,纠正标签噪声,得到纠正类别标签后的训练样本集D";
步骤A7:将第二轮多数投票的结果确定为该样本的最终类别标签,得到标签噪声纠正的结果。标签噪声纠正有两种更新结果(1)更新后样本的类别标签不发生改变,表明该样本不是标签噪声;(2)更新后类别标签发生改变,表明该样本是潜在的标签噪声,类别标签得到纠正。
进一步地,步骤A2中算法所需的变量还具有如下特征:
待处理数据集D:数据集D中包含了L(L≥2)种不同的类别标签C1,C2,…,CL
K折分层交叉划分的折数K:K≥2,表示一轮分层交叉划分将数据集划为K等份;
K折分层交叉划分的循环轮数P:P为奇数且P>2,表示数据集D被实行了P次K折交叉划分;
异质分类器的种数M:M为奇数且M>2,表示本方法中使用了M种不同的机器学习分类算法。
进一步地,步骤A3的具体流程如下:
步骤A31:将数据集D按类别分为L个样本子集D1,D2,…,DL,类别标签相同的样本为一组,有D=D1∪D2∪…∪DL
Figure BDA0002579668220000071
步骤A32:初始化样分层交叉划分轮数计数器p和样本子集计数器l,令p=1,令l=1;初始化样本子集Ek,令
Figure BDA0002579668220000072
步骤A33:将Dl样本子集随机均分为K份,产生Dl1,Dl2,…,Dlk
步骤A34:令Ek=Ek∪Dlk,令l=l+1;
步骤A35:判断更新后的l是否大于L,若否,则执行步骤SA4,若是,则执行步骤A36;
步骤A36:令k=k+1,判断更新后的k是否大于K,若否,则执行步骤A33,若是,则执行步骤A37;
步骤A37:得到一轮K折分层交叉划分的结果E1,E2,…,Ek,进入下一步骤;
进一步地,步骤A4的具体流程如下:
步骤A41:初始化折数计数器k=1,基于步骤A3中一轮K折分层交叉划分的结果E1,E2,…,Ek进行数据集D的标签更新,具体步骤为:
步骤A411:挑选一个交叉划分的子集Ek作为待测对象;将样本子集D\Ek作为训练集,基于M种不同的机器学习算法,训练M个不同的分类器;使用这M个不同的异质分类器预测Ek中样本的类别标签;
步骤A412:令k=k+1,判断更新后的k是否大于K,若否,则执行步骤A411,若是,则执行步骤A413;
步骤A413:数据集D中每个样本获得M个类别标签;对Ek每个样本获得的M个类别标签进行多数投票,将该样本的类别标签更新为数量统计最多的类别,得到第一轮基于预测结果多数投票后的1个更新数据集D';
进一步地,步骤A5的具体流程如下:
步骤A51:令p=p+1;判断更新后的p是否大于P,若否,则执行步骤A3,对所述数据集D进行一轮K折分层交叉划分,若是,则执行步骤A52;
步骤A52:得到第一轮基于预测结果多数投票后的P个更新数据集D1',D2',…,Dp'进入下一步骤;
进一步地,多数投票算法采用分布式Boyer-Moore算法。分布式Boyer-Moore算法可以使用并行算法实现,并且其可对原数组采用分治的方法,把数组划分成很多段,在每段中计算出candidate-count二元组,然后得到最终结果。
实施例3
在本发明的一个实施例中,将本发明的方法与随机森林分类算法结合,详细说明本发明方法对数据集中标签噪声的有效性。
本实施例使用了公共数据仓库KEEL中的5个基准数据集,数据集的相关信息如表1所示,其中不平衡率的值越大,表示数据集中不同类别之间的数量差距越大,数据集越不平衡。由于基准数据集不包含标签噪声,本案例中使用了人为添加一定比例的标签噪声,考虑了标签噪声含量分别为0,10%,15%,20%,25%,30%,35%,40%共8种情况下本发明方法纠正标签噪声的有效性。
Figure BDA0002579668220000081
Figure BDA0002579668220000091
表1具有不同不平衡率的基准数据集
本实施例构建了两种不同的随机森林模型,一种为使用了本发明方法对标签噪声进行处理的随机森林分类模型MC-RF,一种为不采用任何标签噪声处理方法的随机森林分类模型RF。
本实施例使用分类准确率对模型的分类性能进行评估,实验结果如表2和图3所示。表2是两种模型在测试集上的分类准确率,图3是MC-RF模型相较于RF模型在样本集含不同标签噪声情况的性能提升程度,其中每个箱子的位置及长度包含了5个实验结果的分布情况,5个实验结果分别表示在当前标签噪声比例下MC-RF模型在yeast3、ecoli4、glas5、ionosphere、pima这五个样本集上的模型性能提升度,也就是MC-RF模型的准确率超过RF模型的准确率多少。
Figure BDA0002579668220000092
表2 MC-RF模型和RF模型在不同标签噪声比例下的分类准确率
根据本发明实施例3的结果可得出如下结论:(1)在本实施例中使用的5个数据集上基于不同的标签噪声含量,本发明的方法均能有效减轻数据集中标签噪声对模型的干扰,即本发明方法通过纠正数据集中潜在的错误类别标签,有效减少了标签噪声的含量。(2)在数据集含不同标签噪声的情况下,无论是在不平衡率较大的数据集上还是在不平衡较小的数据集上,本发明方法均能提升随机森林分类模型的分类性能,说明本发明方法可针对不平衡的数据集中的标签噪声纠正,也适用于比较平衡的数据集中的标签噪声纠正,具有较好的通用性。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步地的详细说明,所应理解的是,以上所述仅为本发明的具体实施方法而已,并不用于限制本发明,凡是在本发明的主旨之内,所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于异质集成的标签噪声纠正方法,其特征在于,包括以下步骤:
步骤S1:构建异质集成的标签噪声纠正算法;
步骤S2:输入算法所需的变量,包括待处理数据集D、K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M;
步骤S3:对所述数据集D进行P轮K折分层交叉划分;
步骤S4:对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成,得到第一轮基于预测结果多数投票后的P个更新数据集D1',D2',…,Dp',使得数据集D中的每个样本再次获得P个类别标签;
步骤S5:基于步骤S4的结果,为更新数据集D1',D2',…,Dp'中的每个样本获得的P个类别标签进行第二轮多数投票,纠正标签噪声,得到纠正类别标签后的训练样本集D";
步骤S6:将第二轮多数投票的结果确定为该样本的最终类别标签,得到标签噪声纠正的结果。
2.根据权利要求1所述的一种基于异质集成的标签噪声纠正方法,其特征在于,步骤S2中算法所需的变量还具有如下特征:
待处理数据集D:数据集D中包含了L种不同的类别标签C1,C2,…,CL
K折分层交叉划分的折数K:K≥2;
K折分层交叉划分的循环轮数P:P为奇数且P>2;
异质分类器的种数M:M为奇数且M>2。
3.根据权利要求1或2所述的一种基于异质集成的标签噪声纠正方法,其特征在于,步骤S3具体包括以下步骤:
步骤S31:将数据集D按类别分为L个样本子集D1,D2,…,DL,类别标签相同的样本为一组,有D=D1∪D2∪…∪DL
Figure FDA0002579668210000011
步骤S32:将D1样本子集随机均分为K份,产生D11,D12,…,D1k;对D2,…,DL样本子集重复该过程;
步骤S33:令E1=D11∪D21∪…∪DL1,同理可得E2,…,Ek;得到一轮K折分层交叉划分的结果E1,E2……Ek,其中D=E1∪E2∪…∪EL
步骤S34:循环步骤S31和步骤S33过程P次,对数据集D进行P轮K折分层交叉划分。
4.根据权利要求1或2所述的一种基于异质集成的标签噪声纠正方法,其特征在于,步骤S4具体包括以下步骤:
步骤S41:基于步骤S3中一轮K折分层交叉划分的结果E1,E2,…,Ek进行数据集D的标签更新,具体步骤为:
步骤S411:选择E1作为待预测对象,D\E1数据集合中的所有样本作训练数据,选择M种不同的机器学习分类算法,训练M个不同的分类器T1,T2,…,TM
步骤S412:使用这M个异质分类器预测E1样本子集中样本的类别标签,E1中每个样本获得M个类别标签;
步骤S413:对E1中每个样本获得的M个类别标签进行多数投票,将该样本的类别标签更新为数量统计最多的类别;
步骤S414:对E2,…,Ek循环过程步骤S411至步骤S413,数据集D中的每个样本均被更新一次类别标签,获得数据集D的一个更新D1';
步骤S42:对P轮K折分层交叉划分的结果重复过程步骤S41,得到P个数据集D的更新数据集D1',D2,…,Dp',即数据集D中的每个样本再次获得P个类别标签。
5.根据权利要求3所述的一种基于异质集成的标签噪声纠正方法,其特征在于,步骤S4具体包括以下步骤:
步骤S41:基于步骤S3中一轮K折分层交叉划分的结果E1,E2,…,Ek进行数据集D的标签更新,具体步骤为:
步骤S411:选择E1作为待预测对象,D\E1数据集合中的所有样本作训练数据,选择M种不同的机器学习分类算法,训练M个不同的分类器T1,T2,…,TM
步骤S412:使用这M个异质分类器预测E1样本子集中样本的类别标签,E1中每个样本获得M个类别标签;
步骤S413:对E1中每个样本获得的M个类别标签进行多数投票,将该样本的类别标签更新为数量统计最多的类别;
步骤S414:对E2,…,Ek循环过程步骤S411至步骤S413,数据集D中的每个样本均被更新一次类别标签,获得数据集D的一个更新D1';
步骤S42:对P轮K折分层交叉划分的结果重复过程步骤S41,得到P个数据集D的更新数据集D1',D2,…,Dp',即数据集D中的每个样本再次获得P个类别标签。
6.基于权利要求1至5任一权利要求所述的一种基于异质集成的标签噪声纠正方法,步骤S3至步骤S6还可以采用以下步骤:
步骤A3:对所述数据集D进行一轮K折分层交叉划分;
步骤A4:对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成,得到第一轮基于预测结果多数投票后的1个更新数据集D';
步骤A5:循环步骤A3至步骤A4过程P次,得到第一轮基于预测结果多数投票后的P个更新数据集D1',D2',…,Dp',使得数据集D中的每个样本再次获得P个类别标签;
步骤A6:基于步骤A5的结果,为更新数据集D1',D2',…,Dp'中的每个样本获得的P个类别标签进行第二轮多数投票,纠正标签噪声,得到纠正类别标签后的训练样本集D";
步骤A7:将第二轮多数投票的结果确定为该样本的最终类别标签,得到标签噪声纠正的结果。
CN202010663993.6A 2020-07-10 2020-07-10 一种基于异质集成的标签噪声纠正方法 Pending CN111814883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010663993.6A CN111814883A (zh) 2020-07-10 2020-07-10 一种基于异质集成的标签噪声纠正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010663993.6A CN111814883A (zh) 2020-07-10 2020-07-10 一种基于异质集成的标签噪声纠正方法

Publications (1)

Publication Number Publication Date
CN111814883A true CN111814883A (zh) 2020-10-23

Family

ID=72843346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010663993.6A Pending CN111814883A (zh) 2020-07-10 2020-07-10 一种基于异质集成的标签噪声纠正方法

Country Status (1)

Country Link
CN (1) CN111814883A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101328A (zh) * 2020-11-19 2020-12-18 四川新网银行股份有限公司 一种深度学习中识别并处理标签噪声的方法
CN114117056A (zh) * 2022-01-29 2022-03-01 腾讯科技(深圳)有限公司 一种训练数据的处理方法、装置以及存储介质
CN114298228A (zh) * 2021-12-30 2022-04-08 杭州电子科技大学 一种基于数据预处理的地址文本信息相关性学习方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN109543756A (zh) * 2018-11-26 2019-03-29 重庆邮电大学 一种基于主动学习的标签查询与更改方法
CN110363228A (zh) * 2019-06-26 2019-10-22 南京理工大学 噪声标签纠正方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN109543756A (zh) * 2018-11-26 2019-03-29 重庆邮电大学 一种基于主动学习的标签查询与更改方法
CN110363228A (zh) * 2019-06-26 2019-10-22 南京理工大学 噪声标签纠正方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BENOÎT FRÉNAY 等: "Classification in the Presence of Label Noise: A Survey", 《 IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》, pages 845 *
HUALING YI 等: "A Novel Random Forest and its Application on Classification of Air Quality", 《2019 8TH INTERNATIONAL CONGRESS ON ADVANCED APPLIED INFORMATICS》, pages 1 - 4 *
QINGYU XIONG等: "Study of Dynamic Group Evolution for Health Prediction of Mangrove Ecosystem", 《2019 8TH INTERNATIONAL CONGRESS ON ADVANCED APPLIED INFORMATICS 》, pages 79 - 84 *
易华玲: "基于改进随机森林的空气质量分类预测研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》, pages 027 - 515 *
袁龙: "基于主动学习的标签噪声处理技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 838 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101328A (zh) * 2020-11-19 2020-12-18 四川新网银行股份有限公司 一种深度学习中识别并处理标签噪声的方法
CN114298228A (zh) * 2021-12-30 2022-04-08 杭州电子科技大学 一种基于数据预处理的地址文本信息相关性学习方法
CN114298228B (zh) * 2021-12-30 2024-10-15 杭州电子科技大学 一种基于数据预处理的地址文本信息相关性学习方法
CN114117056A (zh) * 2022-01-29 2022-03-01 腾讯科技(深圳)有限公司 一种训练数据的处理方法、装置以及存储介质

Similar Documents

Publication Publication Date Title
CN109584221B (zh) 一种基于监督式生成对抗网络的异常图像检测方法
CN111967294B (zh) 一种无监督域自适应的行人重识别方法
CN111814883A (zh) 一种基于异质集成的标签噪声纠正方法
CN105224872B (zh) 一种基于神经网络聚类的用户异常行为检测方法
CN111353373A (zh) 一种相关对齐域适应故障诊断方法
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN110717554A (zh) 图像识别方法、电子设备及存储介质
CN110940523A (zh) 一种无监督域适应故障诊断方法
CN104899327A (zh) 一种无类别标签的时间序列异常检测方法
CN112036426A (zh) 利用高维传感器数据的多数表决进行无监督异常检测和责任的方法和系统
CN113870254B (zh) 目标对象的检测方法、装置、电子设备及存储介质
CN101256631A (zh) 一种字符识别的方法、装置、程序和可读存储介质
WO2021084623A1 (ja) 劣化抑制プログラム、劣化抑制方法および情報処理装置
CN116051479A (zh) 融合跨域迁移和异常检测的纺织品缺陷识别方法
CN114565594A (zh) 基于软掩膜对比损失的图像异常检测方法
CN113591948A (zh) 一种缺陷模式识别方法、装置、电子设备和存储介质
CN113179276A (zh) 基于显式和隐含特征学习的智能入侵检测方法和系统
CN110717602A (zh) 一种基于噪音数据的机器学习模型鲁棒性评估方法
CN115470834A (zh) 基于标签传播矫正标签置信度的不准确标记的多标签学习算法
CN113128518B (zh) 基于孪生卷积网络和特征混合的sift误匹配检测方法
CN114187272A (zh) 一种基于深度学习的工业零件表面缺陷检测方法
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN111767273B (zh) 基于改进som算法的数据智能检测方法及装置
CN115935187B (zh) 基于核敏感度对齐网络的变工况下机械故障诊断方法
CN115953584A (zh) 一种具有可学习稀疏性的端到端目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination