CN117197474B - 一种基于类别均衡及交叉合并策略的噪声标签学习方法 - Google Patents
一种基于类别均衡及交叉合并策略的噪声标签学习方法 Download PDFInfo
- Publication number
- CN117197474B CN117197474B CN202311277266.6A CN202311277266A CN117197474B CN 117197474 B CN117197474 B CN 117197474B CN 202311277266 A CN202311277266 A CN 202311277266A CN 117197474 B CN117197474 B CN 117197474B
- Authority
- CN
- China
- Prior art keywords
- noise
- cross
- dnn
- training
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000012216 screening Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 22
- 239000000203 mixture Substances 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005094 computer simulation Methods 0.000 abstract description 2
- 230000004931 aggregating effect Effects 0.000 abstract 1
- 238000012937 correction Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000004821 distillation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提出一种基于类别均衡及交叉合并策略的噪声标签学习方法,属于人工智能及计算机视觉领域,首先利用传统深度神经网络训练方法预训练两个DNN模型,随后基于两个模型,每个epoch t的第k轮次迭代开始时,首先计算每个样本的交叉熵损失值,利用提出的类别均衡标签筛选策略基于损失值筛选出类别较为均衡的有标签子集Xt,k和无标签子集Ut,k。随后基于得到的两个子集使用各类现有的半监督学习方法进行交叉训练。交叉训练共持续K轮次,在交叉训练结束后进行模型权重的聚合,并将聚合后的权重新分配给两个模型进行初始化。计算机仿真结果表明,该方法对噪声数据集的噪声类型和噪声比例不敏感,且在大部分场景下对可以使DNN得到较好的分类性能。
Description
技术领域
本发明属于人工智能及计算机视觉领域,具体涉及一种基于类别均衡及交叉合并策略的噪声标签学习方法。
背景技术
深度神经网络(Deep Neural Networks,DNN)在诸多计算机视觉领域如目标检测、图像分类和人脸识别等。尽管DNN成功的因素有很多,但其中最不可或缺的一个因素就是那些包含了大量被准确标注的图像数据的数据集的出现。尽管如购物网站、搜索引擎等存在大量带噪声标签的图像数据,然而对其进行人工标注需要耗费大量人力物力,且由于标注人员注意力分散和专业知识的限制,仍不可避免的引入噪声标签。当前研究表明,在此类含噪声标签的数据集上训练深度神经网络,模型的性能将由于过拟合噪声标签样本而快速降低,且泛化性较差。因此噪声标签学习(Learning with Noisy Labels,LNL)应运而生,其专注于研究如何帮助DNN增强对噪声标签的鲁棒性并提高模型测试精度。
目前关于LNL的研究主要分为四类,主要包括损失校正(Loss Correction)、噪声标签修正(Noisy Label Correction)、鲁棒性损失函数(Robust Loss Function)及样本筛选(Sample Selection)。在损失校正方法中,澳洲国立大学Patrini等人(“Making neuralnetworks robust to label noise:a loss correction approach”)通过估计数据集的噪声标签转移矩阵并乘上损失函数以增强模型的鲁棒性并提高模型的测试精度,然而该方法不适用于真实的噪声场景,且在高噪声率数据集下表现较差。悉尼大学的Xia等人(″Areanchor points really indispensable in label-noise learning″)提出利用具有高噪声类别后验概率的样本及松弛变量估计噪声转移矩阵,并基于估计的转移矩阵训练模型以提高性能,然而该方法同样在高噪声率数据集上表现较差。悉尼大学Wu等人(“Class2Simi:A noise reduction perspective on learning with noisy labels”)通过将噪声样本转换成样本对并构建相似度标签以估计噪声转移矩阵,然而该方法耗时较久且对模型性能提升不明显。在噪声标签修正方法中,东京大学Tanaka等人(“Joint optimizationframework for learning with noisy labels”)提出利用模型对所有样本的预测值替换原始标签以克服噪声标签的干扰并提高测试性能,然而面对高噪声数据集,由于模型将迅速过拟合噪声样本,导致预测出现较大偏差引起性能降低。南京大学Yi等人(“Probabilistic End-to-end Noise Correction for Learning with Noisy Labels”)为了克服模型预测值在迭代中波动较大引起偏差的问题,提出利用梯度变化更新样本标签,该方法虽然比Tanaka等人提出的方法在测试精度上有一定的提高,但在类别数较多的数据集上该方法将停止更新样本的标签。而上海理工大学Zhang等人(“An improved noiseloss correction algorithm for learning from noisy labels”)引入新的正则化项以克服利用梯度变化更新样本标签在类别数较多的数据集上不适用的问题,然而该方法仍然在高噪声率数据集上表现较差。黄贻望等人(“一种基于在线蒸馏的噪声标签鲁棒性学习方法”)利用教师模型生成伪标签,并通过学生模型基于伪标签进行更新,该方法引入了在线蒸馏技术进行数据集标签的更新,然而其在测试性能较差且训练中波动较大,不适用于实际场景。陈益强等人(“一种基于联邦学习的噪声标签修正方法”)针对联邦学习场景下的噪声标签学习问题提出了一类标签修正方法,其根据模型预测值和全局基准类生成伪标签帮助每个客服端训练后上传到服务器端进行整合,但是该方法仅适用于联邦学习问题中存在噪声标签的场景,属于噪声标签问题的下游应用。而鲁棒性损失函数方法如Zhang等人(“Mixup:Beyond empirical risk minimization”)提出了一类非线性插值方法,可以增强模型对噪声标签的鲁棒性;Wang等人(“Symmetric cross entropy for robust learningwith noisy labels”)提出了改进的交叉熵损失函数,其将交叉熵函数取反并与原始交叉熵函数结合,从理论角度证明该函数对噪声标签有一定的鲁棒性;然而单纯适用这类损失函数训练得到的模型精度不高。而第四类样本筛选方法如Han等人(“Co-teaching:Robusttraining of deepneural networks with extremely noisy labels”)提出了Co-teaching策略,其通过同时训练两个模型且基于两个模型计算的交叉损失为各自交替筛选样本,该方法由于使用固定的筛选比例,因此在大多数噪声数据集上精度不高;而徐智等人(“一种协同学习的带噪声标签图像分类方法”)对co-teaching进行改进,抛弃了交叉训练方法,同时引入对称交叉熵和正则化函数进行损失计算,虽然该方法比传统co-teaching方法对模型精度有一定的提高,但是在高噪声数据集中仍表现不太理想;最后Li等人(“DivideMix:Learning with Noisy Labels as Semi-supervised Learning”)将半监督学习方法MixMatch与Co-teaching结合,提出了模型精度更高,鲁棒性更强的带噪标签学习方法,但是该方法的性能仍有提高的空间。而本发明是首个提出从两个模型交叉训练不同DNN网络,到参数合并成同一模型再重新初始化进行交叉的噪声标签学习方法。
发明内容
本发明针对现有技术中的不足,提供一种基于类别均衡及交叉合并策略的噪声标签学习方法。
为实现上述目的,本发明采用以下技术方案:
一种基于类别均衡及交叉合并策略的噪声标签学习方法,包括以下步骤:
步骤1、将输入图片数据和噪声标签组成含噪声标签数据集;利用含噪声标签数据集和交叉损失函数预训练两个DNN,得到两个具有初步判别能力的DNN模型;
步骤2、对两个具有初步判别能力的DNN模型进行全局训练,所述全局训练的每个迭代轮次包括交叉训练和将两个DNN模型的权重求均值后重分配给两个DNN模型的过程,所述交叉训练包括用类别均衡标签筛选策略从含噪声标签数据集中筛选有标签子集和无标签子集以及用有标签子集和无标签子集使两个DNN模型进行半监督学习的过程;全局训练的迭代轮次达到设定的最大次数时,输出训练好的DNN模型和最终的有标签子集。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤1具体为:
采集输入图片数据和图片的噪声标签将输入图片数据和图片的噪声标签组成含噪声标签数据集其中,n是数据集样本个数,是p维的实数域向量,i是数据集样本的序数,p是输入图片数据的维度,c是图片的类别数;
利用含噪声标签数据集和交叉损失函数预训练两个DNN,得到两个具有初步判别能力的DNN模型。
进一步地,步骤2具体为:
步骤2.1初始化全局训练的迭代轮次的索引t=0和交叉训练轮次的索引k=0;设两个具有初步判别能力的DNN模型分别为第一DNN模型和第二DNN模型;
步骤2.2、第一DNN模型和第二DNN模型分别计算含噪声标签数据集中每个样本的交叉损失值;利用混合高斯模型根据每个样本的交叉损失值计算每个样本具有噪声标签的后验概率,根据后验概率从含噪声标签数据集中筛选出有标签子集;
步骤2.3、基于有标签子集的类别中位数,使用类别均衡标签筛选策略从含噪声标签数据集中筛选样本,得到类别均衡的有标签子集和无标签子集;
步骤2.4、第一DNN模型将筛选出的有标签子集和无标签子集送至第二DNN模型,第二DNN模型将筛选出的有标签子集和无标签子集送至第一DNN模型,使第一DNN模型和第二DNN模型进行半监督学习;若当前的交叉训练轮次的索引k达到最大次数K,则进入步骤2.5,否则,返回步骤2.2,进行下一轮的交叉训练,交叉训练轮次的索引k+1;
步骤2.5、将第一DNN模型的权重Θ1和第二DNN模型的权重Θ2求均值,得到全局模型权重ΘG:
将全局模型权重ΘG重新分配给第一DNN模型和第二DNN模型;
步骤2.6、判断全局训练的迭代轮次的索引t是否小于最大次数T,当全局训练的迭代轮次的索引t小于最大次数T,返回步骤2.2,全局训练的迭代轮次的索引t+1,交叉训练轮次的索引k置零;当全局训练的迭代轮次的索引t达到设定的最大次数T时,结束全局训练,输出训练好的DNN模型和最终的有标签子集XT,K。
进一步地,步骤2.2具体为:
第一DNN模型和第二DNN模型分别计算含噪声标签数据集中每个样本的交叉损失值;
利用两分量的混合高斯模型和每个样本的交叉损失值估计含噪声标签数据集中样本噪声标签分布;输出每个样本疑似噪声标签的后验概率其中m={1,2}是两个DNN模型的索引,j是混合高斯模型的分量索引;i是数据集样本的序数;
设置后验概率的门限值τ,第一DNN模型和第二DNN模型均根据门限值从含噪声标签数据集中筛选出有标签子集当样本的后验概率大于等于门限值时,将该样本放到有标签子集中,用公式表示如下:
式中,xi为第i个图片数据,为第i个图片的噪声标签,wi为第i个样本具有噪声标签的后验概率,为含噪声标签数据集,t是当前全局训练的迭代轮次的索引,k是当前全局训练的迭代轮次下的交叉训练轮次的索引,是所有样本具有噪声标签的后验概率组成的集合,m={1,2}是两个DNN模型的索引。
进一步地,步骤2.3具体为:
统计有标签子集中每个类别的样本数量,用公式表示为:
nj表示第j类的样本数量,j∈{1,…,c},c是图片的类别数,xi为第i个图片数据,为第i个图片的噪声标签,是指示函数,表示当第i个图片的噪声标签的第j个分量为1时,指示函数返回1,否则返回0;
根据每个类别的样本数量计算出整个有标签子集的类别中位数nmbs,依次遍历有标签子集中每个类别的样本数量,在当前类别的样本数量小于类别中位数nmbs时,从含噪声标签数据集中随机选取属于当前类别且不在有标签子集中的|nmbs-nj|个样本放入有标签子集中,直到有标签子集中所有类别遍历完,得到类别均衡的有标签子集,同时将从含噪声标签数据集中筛选后剩余的样本移除标签后放入无标签子集
进一步地,步骤2.4中,所述半监督学习使用的方法具体为MixMatch或FixMatch。
本发明的有益效果是:
提出一种基于类别均衡标签筛选策略和从交叉到合并训练策略的噪声标签学习方法。本发明可在数据集先验条件(噪声类型及噪声比例等)未知的情况下,训练出一对鲁棒性较强、分类性能较好的DNN模型,同时产出一个噪声率较低的有标签子集,该方法可以嵌入现有大多数半监督学习方法,简单有效,对于提高深度神经网络在噪声标签样本下的测试性能和鲁棒性具有一定的理论价值与实践意义。计算机仿真结果表明,该方法对噪声数据集的噪声类型和噪声比例不敏感,且在大部分场景下对可以使DNN得到较好的分类性能。
附图说明
图1为每个模型应用的类别均衡筛选策略流程图。
图2为嵌入现有SSL方法的从交叉到合并的训练策略流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
本发明提出一种基于类别均衡及交叉合并策略的噪声标签学习方法,方法的流程如图1~2所示,包括以下步骤:
步骤1、将输入图片数据和噪声标签组成含噪声标签数据集;利用含噪声标签数据集和交叉损失函数预训练两个DNN(Deep Neural Network),得到两个具有初步判别能力的DNN模型;具体为:
采集输入图片数据和图片的噪声标签将输入图片数据和图片的噪声标签组成含噪声标签数据集其中,n是数据集样本个数,是p维的实数域向量,i是数据集样本的序数,p是输入图片数据的维度,c是图片的类别数;
利用含噪声标签数据集和交叉损失函数预训练两个DNN,得到两个具有初步判别能力的DNN模型。
步骤2、对两个具有初步判别能力的DNN模型进行全局训练,所述全局训练的每个迭代轮次包括交叉训练和将两个DNN模型的权重求均值后重分配给两个DNN模型的过程,所述交叉训练包括用类别均衡标签筛选策略从含噪声标签数据集中筛选有标签子集和无标签子集以及用有标签子集和无标签子集使两个DNN模型进行半监督学习的过程;全局训练的迭代轮次达到设定的最大次数时,输出训练好的DNN模型和最终的有标签子集。具体为:
步骤2.1初始化全局训练的迭代轮次(epoch)的索引t=0和交叉训练轮次的索引k=0;设两个具有初步判别能力的DNN模型分别为第一DNN模型和第二DNN模型;
步骤2.2、第一DNN模型和第二DNN模型分别计算含噪声标签数据集中每个样本的交叉损失值;利用混合高斯模型(Gaussian Mixture Model,GMM)根据每个样本的交叉损失值计算每个样本具有噪声标签的后验概率,根据后验概率从含噪声标签数据集中筛选出有标签子集;步骤2.2具体为:
第一DNN模型和第二DNN模型分别计算含噪声标签数据集中每个样本的交叉损失值;
利用两分量的混合高斯模型和每个样本的交叉损失值估计含噪声标签数据集中样本噪声标签分布;输出每个样本疑似噪声标签的后验概率其中m={1,2}是两个DNN模型的索引,j是混合高斯模型的分量索引;i是数据集样本的序数;
设置后验概率的门限值τ,一般固定为0.5,第一DNN模型和第二DNN模型均根据门限值从含噪声标签数据集中筛选出有标签子集当样本的后验概率大于等于门限值时,将该样本放到有标签子集中,用公式表示如下:
式中,xi为第i个图片数据,为第i个图片的噪声标签,wi为第i个样本具有噪声标签的后验概率,为含噪声标签数据集,t是当前全局训练的迭代轮次的索引,k是当前全局训练的迭代轮次下的交叉训练轮次的索引,是所有样本具有噪声标签的后验概率组成的集合,m={1,2}是两个DNN模型的索引,m=1指第1个DNN模型,m=2指第2个DNN模型。
通过研究发现此时筛选出的子集存在严重的类别不均衡问题,因此我们再次引入一个中值均衡策略与GMM结合,我们称之为类别均衡标签筛选策略。
步骤2.3、基于有标签子集的类别中位数,使用类别均衡标签筛选策略从含噪声标签数据集中筛选样本,得到类别均衡的有标签子集和无标签子集;步骤2.3具体为:
统计有标签子集中每个类别的样本数量,用公式表示为:
nj表示第j类的样本数量,j∈{1,…,c},c是图片的类别数,xi为第i个图片数据,为第i个图片的噪声标签,是指示函数,表示当第i个图片的噪声标签的第j个分量为1时,指示函数返回1,否则返回0;
根据每个类别的样本数量计算出整个有标签子集的类别中位数nmbs,依次遍历有标签子集中每个类别的样本数量,在当前类别的样本数量小于类别中位数nmbs时,从含噪声标签数据集中随机选取属于当前类别且不在有标签子集中的|nmbs-nj|个样本放入有标签子集中,直到有标签子集中所有类别遍历完,得到类别均衡的有标签子集,同时将从含噪声标签数据集中筛选后剩余的样本移除标签后放入无标签子集
步骤2.4、第一DNN模型将筛选出的有标签子集和无标签子集送至第二DNN模型,第二DNN模型将筛选出的有标签子集和无标签子集送至第一DNN模型,使第一DNN模型和第二DNN模型进行半监督学习,得到学习能力更强的第一DNN模型和第二DNN模型;若当前的交叉训练轮次的索引k达到最大次数K,则进入步骤2.5,否则,返回步骤2.2,进行下一轮的交叉训练,交叉训练轮次的索引k+1;所述半监督学习使用的方法具体为MixMatch或FixMatch。
在交叉训练K轮次后,不同于现有的各类样本筛选方法直接结束训练,我们在步骤2.5中将两个DNN模型各自训练得到的权重进行聚合。
步骤2.5、将第一DNN模型的权重Θ1和第二DNN模型的权重Θ2求均值,得到全局模型权重ΘG:
将全局模型权重ΘG重新分配给第一DNN模型和第二DNN模型;
步骤2.6、判断全局训练的迭代轮次的索引t是否小于最大次数T,当全局训练的迭代轮次的索引t小于最大次数T,返回步骤2.2,全局训练的迭代轮次的索引t+1,交叉训练轮次的索引k置零;当全局训练的迭代轮次的索引t达到设定的最大次数T时,结束全局训练,输出训练好的DNN模型和最终的有标签子集XT,K。
本发明可以在交叉训练中引入各类半监督学习方法,如MixMatch、FixMatch等,从而得到了一个对噪声标签样本鲁棒性更强的新训练框架。通过研究发现,这类新框架相比现有的样本筛选方法,可以训练出精度更高的模型,且适用于绝大多数类型的噪声数据集。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (5)
1.一种基于类别均衡及交叉合并策略的噪声标签学习方法,其特征在于,包括:
步骤1、将输入图片数据和噪声标签组成含噪声标签数据集;利用含噪声标签数据集和交叉损失函数预训练两个DNN,得到两个具有初步判别能力的DNN模型;
步骤2、对两个具有初步判别能力的DNN模型进行全局训练,所述全局训练的每个迭代轮次包括交叉训练和将两个DNN模型的权重求均值后重分配给两个DNN模型的过程,所述交叉训练包括用类别均衡标签筛选策略从含噪声标签数据集中筛选有标签子集和无标签子集以及用有标签子集和无标签子集使两个DNN模型进行半监督学习的过程;全局训练的迭代轮次达到设定的最大次数时,输出训练好的DNN模型和最终的有标签子集,将训练好的DNN模型用于噪声数据集的分类;
步骤2具体为:
步骤2.1初始化全局训练的迭代轮次的索引t=0和交叉训练轮次的索引k=0;设两个具有初步判别能力的DNN模型分别为第一DNN模型和第二DNN模型;
步骤2.2、第一DNN模型和第二DNN模型分别计算含噪声标签数据集中每个样本的交叉损失值;利用混合高斯模型根据每个样本的交叉损失值计算每个样本具有噪声标签的后验概率,根据后验概率从含噪声标签数据集中筛选出有标签子集;
步骤2.3、基于有标签子集的类别中位数,使用类别均衡标签筛选策略从含噪声标签数据集中筛选样本,得到类别均衡的有标签子集和无标签子集;
步骤2.4、第一DNN模型将筛选出的有标签子集和无标签子集送至第二DNN模型,第二DNN模型将筛选出的有标签子集和无标签子集送至第一DNN模型,使第一DNN模型和第二DNN模型进行半监督学习;若当前的交叉训练轮次的索引k达到最大次数K,则进入步骤2.5,否则,返回步骤2.2,进行下一轮的交叉训练,交叉训练轮次的索引k+1;
步骤2.5、将第一DNN模型的权重Θ1和第二DNN模型的权重Θ2求均值,得到全局模型权重ΘG:
将全局模型权重ΘG重新分配给第一DNN模型和第二DNN模型;
步骤2.6、判断全局训练的迭代轮次的索引t是否小于最大次数T,当全局训练的迭代轮次的索引t小于最大次数T,返回步骤2.2,全局训练的迭代轮次的索引t+1,交叉训练轮次的索引k置零;当全局训练的迭代轮次的索引t达到设定的最大次数T时,结束全局训练,输出训练好的DNN模型和最终的有标签子集XT,K。
2.如权利要求1所述的基于类别均衡及交叉合并策略的噪声标签学习方法,其特征在于,步骤1具体为:
采集输入图片数据和图片的噪声标签将输入图片数据和图片的噪声标签组成含噪声标签数据集其中,n是数据集样本个数,是p维的实数域向量,i是数据集样本的序数,p是输入图片数据的维度,c是图片的类别数;
利用含噪声标签数据集和交叉损失函数预训练两个DNN,得到两个具有初步判别能力的DNN模型。
3.如权利要求1所述的基于类别均衡及交叉合并策略的噪声标签学习方法,其特征在于,步骤2.2具体为:
第一DNN模型和第二DNN模型分别计算含噪声标签数据集中每个样本的交叉损失值;
利用两分量的混合高斯模型和每个样本的交叉损失值估计含噪声标签数据集中样本噪声标签分布;输出每个样本疑似噪声标签的后验概率其中m={1,2}是两个DNN模型的索引,j是混合高斯模型的分量索引;i是数据集样本的序数;
设置后验概率的门限值τ,第一DNN模型和第二DNN模型均根据门限值从含噪声标签数据集中筛选出有标签子集当样本的后验概率大于等于门限值时,将该样本放到有标签子集中,用公式表示如下:
式中,xi为第i个图片数据,为第i个图片的噪声标签,wi为第i个样本具有噪声标签的后验概率,为含噪声标签数据集,t是当前全局训练的迭代轮次的索引,k是当前全局训练的迭代轮次下的交叉训练轮次的索引,是所有样本具有噪声标签的后验概率组成的集合,m={1,2}是两个DNN模型的索引。
4.如权利要求3所述的基于类别均衡及交叉合并策略的噪声标签学习方法,其特征在于,步骤2.3具体为:
统计有标签子集中每个类别的样本数量,用公式表示为:
nj表示第j类的样本数量,j∈{1,…,c},c是图片的类别数,xi为第i个图片数据,为第i个图片的噪声标签,是指示函数,表示当第i个图片的噪声标签的第j个分量为1时,指示函数返回1,否则返回0;
根据每个类别的样本数量计算出整个有标签子集的类别中位数nmbs,依次遍历有标签子集中每个类别的样本数量,在当前类别的样本数量小于类别中位数nmbs时,从含噪声标签数据集中随机选取属于当前类别且不在有标签子集中的|nmbs-nj|个样本放入有标签子集中,直到有标签子集中所有类别遍历完,得到类别均衡的有标签子集,同时将从含噪声标签数据集中筛选后剩余的样本移除标签后放入无标签子集
5.如权利要求1所述的基于类别均衡及交叉合并策略的噪声标签学习方法,其特征在于,步骤2.4中,所述半监督学习使用的方法具体为MixMatch或FixMatch。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311277266.6A CN117197474B (zh) | 2023-09-28 | 2023-09-28 | 一种基于类别均衡及交叉合并策略的噪声标签学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311277266.6A CN117197474B (zh) | 2023-09-28 | 2023-09-28 | 一种基于类别均衡及交叉合并策略的噪声标签学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117197474A CN117197474A (zh) | 2023-12-08 |
CN117197474B true CN117197474B (zh) | 2024-08-02 |
Family
ID=88992426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311277266.6A Active CN117197474B (zh) | 2023-09-28 | 2023-09-28 | 一种基于类别均衡及交叉合并策略的噪声标签学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117197474B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072101A (zh) * | 2024-03-13 | 2024-05-24 | 江苏开放大学(江苏城市职业学院) | 基于均衡选择及对比学习的含噪声标签图像学习方法与系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170461A (zh) * | 2021-12-02 | 2022-03-11 | 匀熵教育科技(无锡)有限公司 | 基于特征空间重整化的师生架构含噪声标签图像分类方法 |
CN115482418A (zh) * | 2022-10-09 | 2022-12-16 | 宁波大学 | 基于伪负标签的半监督模型训练方法、系统及应用 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230130619A1 (en) * | 2021-10-22 | 2023-04-27 | Insitro, Inc. | Machine learning pipeline using dna-encoded library selections |
CN116468938A (zh) * | 2023-04-03 | 2023-07-21 | 南京大学 | 一种在标签带噪数据上鲁棒的图像分类方法 |
-
2023
- 2023-09-28 CN CN202311277266.6A patent/CN117197474B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170461A (zh) * | 2021-12-02 | 2022-03-11 | 匀熵教育科技(无锡)有限公司 | 基于特征空间重整化的师生架构含噪声标签图像分类方法 |
CN115482418A (zh) * | 2022-10-09 | 2022-12-16 | 宁波大学 | 基于伪负标签的半监督模型训练方法、系统及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN117197474A (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112465111B (zh) | 一种基于知识蒸馏和对抗训练的三维体素图像分割方法 | |
CN111182292B (zh) | 无参考视频质量评估方法、系统、视频接收器、智能终端 | |
CN108921051B (zh) | 基于循环神经网络注意力模型的行人属性识别网络及技术 | |
CN108596902B (zh) | 基于选通卷积神经网络的多任务全参考图像质量评价方法 | |
CN106570464B (zh) | 一种快速处理人脸遮挡的人脸识别方法及装置 | |
CN112949828B (zh) | 一种基于图学习的图卷积神经网络交通预测方法及系统 | |
CN110675623A (zh) | 基于混合深度学习的短时交通流量预测方法、系统、装置 | |
CN110728656A (zh) | 基于元学习的无参考图像质量数据处理方法、智能终端 | |
CN109727246A (zh) | 一种基于孪生网络的对比学习图像质量评估方法 | |
CN117197474B (zh) | 一种基于类别均衡及交叉合并策略的噪声标签学习方法 | |
CN113947133B (zh) | 小样本图像识别的任务重要性感知元学习方法 | |
CN114913379B (zh) | 基于多任务动态对比学习的遥感图像小样本场景分类方法 | |
CN113037783A (zh) | 一种异常行为检测方法及系统 | |
CN112163106A (zh) | 二阶相似感知的图像哈希码提取模型建立方法及其应用 | |
CN116227624A (zh) | 面向异构模型的联邦知识蒸馏方法和系统 | |
CN116433909A (zh) | 基于相似度加权多教师网络模型的半监督图像语义分割方法 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 | |
CN116527346A (zh) | 基于深度学习图神经网络理论的威胁节点感知方法 | |
CN118337576A (zh) | 基于多通道融合的轻量级自动调制识别方法 | |
CN113284093A (zh) | 一种基于改进D-LinkNet的卫星影像云检测方法 | |
CN117274701A (zh) | 一种基于原型对比学习的跨域遥感图像分类方法 | |
CN116994320A (zh) | 一种列车司机在途疲劳驾驶检测方法、系统及设备 | |
CN116596915A (zh) | 基于多尺度特征和长距离依赖的盲图像质量评价方法 | |
CN116306969A (zh) | 基于自监督学习的联邦学习方法和系统 | |
CN115577797A (zh) | 一种基于本地噪声感知的联邦学习优化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |