CN111814883A

CN111814883A - 一种基于异质集成的标签噪声纠正方法

Info

Publication number: CN111814883A
Application number: CN202010663993.6A
Authority: CN
Inventors: 熊庆宇; 易华玲; 杨正益; 邹青宏; 高旻; 吴丹; 文俊浩; 胡瑶; 张致远
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-23

Abstract

本发明提出了一种基于异质集成的标签噪声纠正方法，在本发明的方法中，数据集D经过P轮K折分层交叉划分，M种异质分类器预测，两轮多数投票集成预测结果，对数据集D中的每个样本均进行了类别标签的更新，实现噪声标签纠正的更新。本发明适用于具有分布不平衡特点的数据集中的标签噪声处理，适用于各种类型的分类器，具有较好的通用性；可独立完成类别标签纠正过程；循环了P轮分层交叉划分，保证每个交叉划分子集具有和原始样本集相同的不平衡程度，且减少了数据集单次交叉划分的偶然性对分类器的影响；通过异质集成方式更新样本的类别标签，可以减轻某种分类器会受数据类型的负面影响。

Description

一种基于异质集成的标签噪声纠正方法

技术领域

本发明涉及数据处理领域，特别涉及一种基于异质集成的标签噪声纠正方法。

背景技术

在机器学习领域中，常见的一类工作是使用带标签数据训练神经网络实现分类、回归或其他目的，这种训练模型学习规律的方法一般称之为监督学习。在监督学习中，训练样本通常由一组特征和一个类别标签组成，样本的质量由特征的质量和标签的质量共同决定，当某个类别为A的样本被错误标记为类别B的标签时，则称该样本是一个标签噪声。

标签噪声产生的主要由专家主观标记失误、数据传输网络故障和硬件设备故障等造成的，其在航天航空、医疗、金融等各个应用领域都广泛存在，因此，在实际工程应用领域含标签噪声机器学习算法的研究具有重要的实际应用价值。如果学习时使用的标签数据都是错误的，那么不可能训练出有效的预测模型，同时，深度学习使用的神经网络往往结构复杂，为了得到良好的学习效果，对于带标签的训练数据通常为大数据或海量数据，标签噪声会增加分类模型学习的难度，模型学习过程受到标签噪声的干扰影响，增加了模型的复杂度。

常见的标签噪声的处理方法有三类：标签噪声鲁棒方法、标签噪声过滤方法以及标签噪声重标注方法。标签噪声鲁棒方法是指分类模型的学习过程开发对标签噪声具有鲁棒性的策略，改进分类算法的内部结构，以增强模型对标签噪声的适应能力。标签噪声过滤方法可划分为两个阶段：标签噪声检测和标签噪声移除，首先对样本集实施标签噪声检测算法，识别并标记样本集中的标签噪声，再对被标记为噪声的样本进行移除操作，移除完成后样本集中的标签噪声含量降低，从而减轻标签噪声对模型的干扰影响。标签噪声重标注方法是指通过识别样本集中的标签噪声并对标签噪声进行类别标签重新标记的过程，该方法分为两步操作完成：标签噪声检测和标签噪声更正，首先通过标签噪声检测算法识别样本集中的标签噪声，再使用机器学习方法对这些标签噪声进行类别标签更正。

当需要进行标签噪声处理操作的对象是类别分布不平衡的样本集(机器学习中的不平衡数据集是指样本集合中不同类别的样本数量差距大，其中某一类或某几类样本的数量远少于其他类别的样本数量，其中数量处于劣势的样本类别被称为少数类。)时，有监督学习的过程通常会受到数据分布不平衡的影响，对少数样本的识别能力较低，现有的标签噪声处理标签方法存在如下不足之处：

(1)在标签噪声鲁棒方法中，由于机器学习中大多数分类算法都是对标签噪声不耐受的，仅有少部分分类算法在训练集含有少量标签噪声时具有一定的抗标签噪声能力，在标签噪声含量较高时，训练所得的模型性能仍会受到干扰影响；由于标签噪声鲁棒方法是通过对算法的内部结构进行改进，从而增强模型对标签噪声的健壮性，这种内部改造方法仅适用于当前算法，对其他学习算法不具有通用性；由于算法本身的复杂性，对算法内部结构进行改造是一个难度较高、工作量很大的过程。

(2)在标签噪声过滤方法中，标签噪声过滤过程是通过噪声识别和噪声移除两步操作来完成的，对含标签噪声的样本集进行标签噪声过滤后可能产生以下几种情况：1)理想情况下，标签噪声被识别出来并被移除；2)正确样本被错误识别为噪声而被移除；3)标签噪声未被识别出来被保留在训练集中。将标签噪声过滤方法应用于分布不平衡数据集时，其采取的噪声移除操作会减少数据集的样本数量；尤其是对少数类样本来说，由于少数类样本的数量少，噪声识别算法对少数类样本的学习能力有限，少数类样本被误认为标签噪声的概率更大；如果对正确的少数类样本进行了移除，不仅减少了数据集的样本数量，而且将进一步加剧数据集的不平衡程度，增加数据分布不平衡的有监督学习过程的难度。

针对现有技术的缺陷，公开号为CN110363228A的专利提供了一种噪声标签标注方法，其利用基学习器对样本进行分类并估计噪声率以识别出标签噪声，再使用基分类器对标签噪声进行重新标注；公开号为CN105426826A专利提供了一种基于标签噪声纠正的众包标注数据质量提升方法，该方法通过众包标签集成、噪声识别、噪声纠正三个过程完成对标签噪声的类别纠正。与标签噪声过滤方法相比，这两种标签噪声纠正方法不会减少数据集的样本数量，但噪声识别过程仍不能避免将少数类样本误识别为标签噪声以及标签噪声未被识别出来的情况。

基于上述缺陷可知，现有技术由于算法本身的复杂性，对算法内部结构进行改造难度较高、工作量很大；噪声移除操作可能会减少数据集的样本数量，将进一步加剧数据集的不平衡程度，增加数据分布不平衡的有监督学习过程的难度。因而，本领域亟需提出一种基于异质集成的标签噪声纠正方法。

发明内容

本发明的目的是提出一种基于异质集成的标签噪声纠正方法，其适用于具有分布不平衡特点的数据集中的标签噪声处理，适用于各种类型的分类器，具有较好的通用性；可独立完成类别标签纠正过程；循环了P轮分层交叉划分，保证每个交叉划分子集具有和原始样本集相同的不平衡程度，且减少了数据集单次交叉划分的偶然性对分类器的影响；通过异质集成方式更新样本的类别标签，可以减轻某种分类器会受数据类型的负面影响。

本发明的技术方案是这样方式实现的：

一种基于异质集成的标签噪声纠正方法，包括以下步骤：

步骤S1：构建异质集成的标签噪声纠正算法；

步骤S2：输入算法所需的变量，包括待处理数据集D、K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M；

步骤S3：对所述数据集D进行P轮K折分层交叉划分；

步骤S4：对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成，得到第一轮基于预测结果多数投票后的P个更新数据集D₁＇,D₂＇，…，D_p＇,使得数据集D中的每个样本再次获得P个类别标签；

步骤S5：基于步骤S4的结果，为更新数据集D₁＇,D₂＇，…，D_p＇中的每个样本获得的P个类别标签进行第二轮多数投票，纠正标签噪声,得到纠正类别标签后的训练样本集D"；

步骤S6：将第二轮多数投票的结果确定为该样本的最终类别标签，得到标签噪声纠正的结果。

步骤S3至步骤S6还可以采用以下步骤：

步骤A3：对所述数据集D进行一轮K折分层交叉划分；

步骤A4：对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成，得到第一轮基于预测结果多数投票后的1个更新数据集D＇；

步骤A5：循环步骤A3至步骤A4过程P次，得到第一轮基于预测结果多数投票后的P个更新数据集D₁＇,D₂＇，…，D_p＇，使得数据集D中的每个样本再次获得P个类别标签；

步骤A6：基于步骤A5的结果，为更新数据集D₁＇,D₂＇，…，D_p＇中的每个样本获得的P个类别标签进行第二轮多数投票，纠正标签噪声,得到纠正类别标签后的训练样本集D"；

步骤A7：将第二轮多数投票的结果确定为该样本的最终类别标签，得到标签噪声纠正的结果。

解决本发明技术问题的技术原理为：数据集D经过P轮K折分层交叉划分，M种异质分类器预测，两轮多数投票集成预测结果，对数据集D中的每个样本均进行了类别标签的更新，噪声标签纠正的更新结果有两种：1)更新后样本的类别标签不发生改变，表明该样本不是标签噪声；2)更新后类别标签发生改变，表明该样本是潜在的标签噪声，类别标签得到纠正。

本发明的有益效果在于：

(1)本发明可以在不减少样本总量的前提下，对样本集中的潜在标签噪声进行纠正，以减少样本集中标签噪声的含量，因此适用于具有分布不平衡特点的数据集中的标签噪声处理；

(2)本发明的方法具有较好的通用性，对不同类别样本数量相差不大的数据集中的标签噪声处理也有很好的效果，而且适用于各种类型的分类器；

(3)本发明的方法利用了被标记样本本身的特征属性来纠正潜在的错误类别标签，勿需借助额外的标签噪声识别算法即可完成类别标签纠正过程；

(4)本发明的方法循环了P轮分层交叉划分，保证了每个交叉划分子集具有和原始样本集相同的不平衡程度，且减少了数据集单次交叉划分的偶然性对分类器的影响；

(5)本发明的方法通过异质集成(集成M种不同分类器的预测结果)方式更新样本的类别标签，可以减轻某种分类器会受数据类型的负面影响。

附图说明

图1为本发明方法的一种整体框架图；

图2为本发明的一种的流程图；

图3为本发明实施例3的一种实验结果图。

具体实施方式

下面结合附图和具体实施例对本发明进行说明，如无特殊说明，均为常规方法。

实施例1

如图1所示，一种基于异质集成的标签噪声纠正方法，包括以下步骤：

步骤S1：构建异质集成的标签噪声纠正算法；

数据集D的来源包括机械设备上的各种传感器监测数据(如空气污染检测的传感器和水质检测传感器等)、运行状态数据和历史检验数据；

K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M为可调整的参数，在实际应用中可随场景和模型的不同发生变化。上述三种参数还可根据数据集D的数据量来确定，当数据量较大时，可通过减小K值，来降低模型在不同的数据块上进行重复拟合的性能评估的计算成本，在平均性能的基础上获得模型的准确评估。

步骤S3：对所述数据集D进行P轮K折分层交叉划分；

数据集进行分层划分，是为了保证每个交叉划分子集的各类别样本的比例与原始数据集中相同，因此该方法可以处理针对不平衡数据集中的标签噪声；

实行P轮循环，是为了降低数据集的单次划分存在的偶然性对分类器性能产生影响，而且P轮循环是第二轮多数投票集成的基础。

选择M种不同的机器学习分类算法是为了减轻分类算法对不同数据类型可能存在的特异性而对标签噪声纠正的过程造成负面影响，使得本方法更具有通用性；如对文本数据可以选择朴素贝叶斯、K近邻等分类算法，而对图像数据可以选择神经网络算法等。

步骤S5：基于步骤S4的结果，为更新数据集D₁＇,D₂，…，D_p＇中的每个样本获得的P个类别标签进行第二轮多数投票，纠正标签噪声,得到纠正类别标签后的训练样本集D"；

步骤S6：将第二轮多数投票的结果确定为该样本的最终类别标签，得到标签噪声纠正的结果。标签噪声纠正有两种更新结果(1)更新后样本的类别标签不发生改变，表明该样本不是标签噪声；(2)更新后类别标签发生改变，表明该样本是潜在的标签噪声，类别标签得到纠正。

进一步地，步骤S2中算法所需的变量还具有如下特征：

待处理数据集D：数据集D中包含了L(L≥2)种不同的类别标签C₁,C₂，…，C_L；

K折分层交叉划分的折数K：K≥2，表示一轮分层交叉划分将数据集划为K等份；

K折分层交叉划分的循环轮数P：P为奇数且P＞2，表示数据集D被实行了P次K折交叉划分；

异质分类器的种数M：M为奇数且M＞2，表示本方法中使用了M种不同的机器学习分类算法。

进一步地，步骤S3具体包括以下步骤：

步骤S31：将数据集D按类别分为L个样本子集D₁,D₂,…,D_L，类别标签相同的样本为一组，有D＝D₁∪D₂∪…∪D_L，

步骤S32：将D₁样本子集随机均分为K份，产生D₁₁，D₁₂，…，D_1k；对D₂,…,D_L样本子集重复该过程；

步骤S33：令E₁＝D₁₁∪D₂₁∪…∪D_L1，同理可得E₂,…,E_k；得到一轮K折分层交叉划分的结果E₁,E₂……E_k，其中D＝E₁∪E₂∪…∪E_L；

步骤S34：循环步骤S31和步骤S33过程P次，对数据集D进行P轮K折分层交叉划分。

进一步地，步骤S4具体包括以下步骤：

步骤S41：基于步骤S3中一轮K折分层交叉划分的结果E₁,E₂,…,E_k进行数据集D的标签更新，具体步骤为：

步骤S411：选择E₁作为待预测对象，D\E₁数据集合中的所有样本作训练数据，选择M种不同的机器学习分类算法，训练M个不同的分类器T₁,T₂,…,T_M；

步骤S412：使用这M个异质分类器预测E₁样本子集中样本的类别标签，E₁中每个样本获得M个类别标签；

步骤S413：对E₁中每个样本获得的M个类别标签进行多数投票，将该样本的类别标签更新为数量统计最多的类别；

步骤S414：对E₂，…，E_k循环过程步骤S411至步骤S413，数据集D中的每个样本均被更新一次类别标签(更新后类别标签可能不发生改变)，获得一个数据集D的一个更新D₁＇；

步骤S42：对P轮K折分层交叉划分的结果重复过程步骤S41，得到P个数据集D的更新数据集D₁＇,D₂，…，D_p＇，即数据集D中的每个样本再次获得P个类别标签。

进一步地，多数投票算法采用分布式Boyer-Moore算法。分布式Boyer-Moore算法可以使用并行算法实现，并且其可对原数组采用分治的方法，把数组划分成很多段，在每段中计算出candidate-count二元组，然后得到最终结果。

实施例2

如图2所示，一种基于异质集成的标签噪声纠正方法，包括以下步骤：

步骤A1：构建异质集成的标签噪声纠正算法；

步骤A2：输入算法所需的变量，包括待处理数据集D、K折分层交叉划分的折数K、K折分层交叉划分的循环轮数P和异质分类器的种数M；

步骤A3：对所述数据集D进行了一轮K折分层交叉划分；

步骤A4：对步骤S3的划分结果采用异质分类器进行M种异质分类算法预测结果集成，得到第一轮基于预测结果多数投票后的1个更新数据集D；

步骤A5：循环步骤A3至步骤A4过程P次，得到第一轮基于预测结果多数投票后的P个更新数据集D₁＇,D₂＇，…，D_p＇使得数据集D中的每个样本再次获得P个类别标签；

步骤A7：将第二轮多数投票的结果确定为该样本的最终类别标签，得到标签噪声纠正的结果。标签噪声纠正有两种更新结果(1)更新后样本的类别标签不发生改变，表明该样本不是标签噪声；(2)更新后类别标签发生改变，表明该样本是潜在的标签噪声，类别标签得到纠正。

进一步地，步骤A2中算法所需的变量还具有如下特征：

进一步地，步骤A3的具体流程如下：

步骤A31：将数据集D按类别分为L个样本子集D₁,D₂,…,D_L，类别标签相同的样本为一组，有D＝D₁∪D₂∪…∪D_L，

步骤A32：初始化样分层交叉划分轮数计数器p和样本子集计数器l，令p＝1，令l＝1；初始化样本子集E_k，令

步骤A33：将D_l样本子集随机均分为K份，产生D_l1，D_l2，…，D_lk；

步骤A34：令E_k＝E_k∪D_lk，令l＝l+1；

步骤A35：判断更新后的l是否大于L，若否，则执行步骤SA4，若是，则执行步骤A36；

步骤A36：令k＝k+1，判断更新后的k是否大于K，若否，则执行步骤A33，若是，则执行步骤A37；

步骤A37：得到一轮K折分层交叉划分的结果E₁,E₂,…,E_k，进入下一步骤；

进一步地，步骤A4的具体流程如下：

步骤A41：初始化折数计数器k＝1，基于步骤A3中一轮K折分层交叉划分的结果E₁,E₂,…,E_k进行数据集D的标签更新，具体步骤为：

步骤A411：挑选一个交叉划分的子集E_k作为待测对象；将样本子集D\E_k作为训练集，基于M种不同的机器学习算法，训练M个不同的分类器；使用这M个不同的异质分类器预测E_k中样本的类别标签；

步骤A412：令k＝k+1,判断更新后的k是否大于K，若否，则执行步骤A411，若是，则执行步骤A413；

步骤A413：数据集D中每个样本获得M个类别标签；对E_k每个样本获得的M个类别标签进行多数投票，将该样本的类别标签更新为数量统计最多的类别，得到第一轮基于预测结果多数投票后的1个更新数据集D＇；

进一步地，步骤A5的具体流程如下：

步骤A51：令p＝p+1；判断更新后的p是否大于P，若否，则执行步骤A3,对所述数据集D进行一轮K折分层交叉划分，若是，则执行步骤A52；

步骤A52：得到第一轮基于预测结果多数投票后的P个更新数据集D₁＇，D₂＇，…，D_p＇进入下一步骤；

实施例3

在本发明的一个实施例中，将本发明的方法与随机森林分类算法结合，详细说明本发明方法对数据集中标签噪声的有效性。

本实施例使用了公共数据仓库KEEL中的5个基准数据集，数据集的相关信息如表1所示，其中不平衡率的值越大，表示数据集中不同类别之间的数量差距越大，数据集越不平衡。由于基准数据集不包含标签噪声，本案例中使用了人为添加一定比例的标签噪声，考虑了标签噪声含量分别为0，10％，15％，20％，25％，30％，35％，40％共8种情况下本发明方法纠正标签噪声的有效性。

表1具有不同不平衡率的基准数据集

本实施例构建了两种不同的随机森林模型，一种为使用了本发明方法对标签噪声进行处理的随机森林分类模型MC-RF，一种为不采用任何标签噪声处理方法的随机森林分类模型RF。

本实施例使用分类准确率对模型的分类性能进行评估，实验结果如表2和图3所示。表2是两种模型在测试集上的分类准确率，图3是MC-RF模型相较于RF模型在样本集含不同标签噪声情况的性能提升程度，其中每个箱子的位置及长度包含了5个实验结果的分布情况，5个实验结果分别表示在当前标签噪声比例下MC-RF模型在yeast3、ecoli4、glas5、ionosphere、pima这五个样本集上的模型性能提升度，也就是MC-RF模型的准确率超过RF模型的准确率多少。

表2 MC-RF模型和RF模型在不同标签噪声比例下的分类准确率

根据本发明实施例3的结果可得出如下结论：(1)在本实施例中使用的5个数据集上基于不同的标签噪声含量，本发明的方法均能有效减轻数据集中标签噪声对模型的干扰，即本发明方法通过纠正数据集中潜在的错误类别标签，有效减少了标签噪声的含量。(2)在数据集含不同标签噪声的情况下，无论是在不平衡率较大的数据集上还是在不平衡较小的数据集上，本发明方法均能提升随机森林分类模型的分类性能，说明本发明方法可针对不平衡的数据集中的标签噪声纠正，也适用于比较平衡的数据集中的标签噪声纠正，具有较好的通用性。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步地的详细说明，所应理解的是，以上所述仅为本发明的具体实施方法而已，并不用于限制本发明，凡是在本发明的主旨之内，所做的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于异质集成的标签噪声纠正方法，其特征在于，包括以下步骤：

步骤S1：构建异质集成的标签噪声纠正算法；

步骤S3：对所述数据集D进行P轮K折分层交叉划分；

2.根据权利要求1所述的一种基于异质集成的标签噪声纠正方法，其特征在于，步骤S2中算法所需的变量还具有如下特征：

待处理数据集D：数据集D中包含了L种不同的类别标签C₁,C₂，…，C_L；

K折分层交叉划分的折数K：K≥2；

K折分层交叉划分的循环轮数P：P为奇数且P＞2；

异质分类器的种数M：M为奇数且M＞2。

3.根据权利要求1或2所述的一种基于异质集成的标签噪声纠正方法，其特征在于，步骤S3具体包括以下步骤：

4.根据权利要求1或2所述的一种基于异质集成的标签噪声纠正方法，其特征在于，步骤S4具体包括以下步骤：

步骤S414：对E₂，…，E_k循环过程步骤S411至步骤S413，数据集D中的每个样本均被更新一次类别标签，获得数据集D的一个更新D₁＇；

5.根据权利要求3所述的一种基于异质集成的标签噪声纠正方法，其特征在于，步骤S4具体包括以下步骤：

6.基于权利要求1至5任一权利要求所述的一种基于异质集成的标签噪声纠正方法，步骤S3至步骤S6还可以采用以下步骤：

步骤A3：对所述数据集D进行一轮K折分层交叉划分；