CN115331065B - 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法 - Google Patents

基于解码器迭代筛选的鲁棒噪声多标签图像学习方法 Download PDF

Info

Publication number
CN115331065B
CN115331065B CN202211251614.8A CN202211251614A CN115331065B CN 115331065 B CN115331065 B CN 115331065B CN 202211251614 A CN202211251614 A CN 202211251614A CN 115331065 B CN115331065 B CN 115331065B
Authority
CN
China
Prior art keywords
label
mark
noise
sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211251614.8A
Other languages
English (en)
Other versions
CN115331065A (zh
Inventor
李绍园
陈佳瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202211251614.8A priority Critical patent/CN115331065B/zh
Publication of CN115331065A publication Critical patent/CN115331065A/zh
Application granted granted Critical
Publication of CN115331065B publication Critical patent/CN115331065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于图像学习技术领域,公开了一种基于解码器迭代筛选的鲁棒噪声多标签图像学习方法。该方法针对多标记图像分类存在多标、漏标和错标的问题,提出采用基于解码器的迭代筛选噪声机制,以恢复样本的错误标注,从而提升深度学习模型在噪声多标记上的准确率,具体包括如下步骤:获取训练图像集及多标签噪声标注;初始化各项参数;搭建深度学习模型、损失函数以及正则化项;将训练集图像及标注依次输入多标记分类器;每次迭代筛选时调整模型状态以检测噪声标记,为噪声样本重新预测伪标记,统计标记共现概率并输入标记模型进行微调;训练完成后,使用训练获得的分类器对图像进行类别预测任务。

Description

基于解码器迭代筛选的鲁棒噪声多标签图像学习方法
技术领域
本发明涉及一种基于解码器迭代筛选的鲁棒噪声多标签图像学习方法。
背景技术
多标记分类旨在预测与输入图像中给定的对象、属性或其他动作相对应的一组标记,这通常依赖于一个相当大的、干净的多标记数据集。在实践中,为每张图像标注完全正确的多标记数据需要极高的成本,因此,标注中会包含大量噪声。传统的多标记分类通过学习标记共现去刻画标记关系图,利用标记关系图训练模型。虽然传统的多标记分类解决了图像预测信息匮乏的问题,然而却忽视了获取完全干净的数据集需要极大的成本。
目前新兴的偏多标记学习,即每个图像都带有一个候选标记集,包含所有相关的和一些不相关的标记,通过评估置信度来确定标记。部分缺失的多标记学习,只包含所有相关标记的一个子集,利用标记关系去恢复所有标记。它们虽然都考虑了数据集标注不可能完全正确的情况,但无法处理更复杂的噪声情况,即同时包含多标、漏标和错标的标记情况。
发明内容
本发明的目的在于提出一种基于解码器迭代筛选的鲁棒噪声多标签图像学习方法,以进一步提升在多标记噪声,即同时包含多标、漏标和错标场景下的准确率。
本发明为了实现上述目的,采用如下技术方案:
基于解码器迭代筛选的鲁棒噪声多标签图像学习方法,包括如下步骤:
步骤1.获取数据集D={(xi,yi)},D表示由通过网络平台获取的图像xi及其对应的包含噪声的多标记向量yi组成的训练数据集,yi=[y1 i,y2 i,...,yl i],i∈{1,N};
ym i表示第i个样本对应于第m类的标记,m∈{1,l};
其中,N表示数据集D中的样本总数,l表示数据集D中的类别总数;
步骤2.初始化各项参数,包括:迭代轮数τ=0、筛选噪声率R、伪标记阈值μ、预训练参数twarm、筛选参数tc、学习率η以及类的高维语义嵌入{vi},i∈{1,l};
其中,vi表示第i类的高维语义嵌入,共l类;
步骤3.搭建深度学习模型即分类器C、二元交叉熵损失函数LBCE以及正则化项;其中,正则化项包括标记语义正则化项LLSR以及标记关系正则化项LLRR
步骤4.在Warm-up训练阶段,将数据集D中图像xi及其对应的多标记向量yi送入分类器C中训练twarm轮,优化二元交叉熵损失函数LBCE和标记语义正则化项LLSR来更新C;
步骤5.在迭代筛选阶段,调整模型状态,记录每个标记在调整过程中规范化损失以检测噪声;将规范化损失由大到小进行排序,并取排序的前R%的标记对应的样本为噪声样本集Dnoisy,剩余为干净样本集Dclean
步骤6.使用分类器C依次为噪声样本集Dnoisy中每个样本xi进行类别预测,并取预测类别概率值大于伪标记阈值μ的类别作样本xi的伪标记,构成伪标记集Dpseudo
步骤7.统计数据集{Dpseudo,Dclean}中标记的共现概率;
步骤8.将数据集{Dpseudo,Dclean}重新输入分类器C,优化二元交叉熵损失函数LBCE和标记关系正则化项LLRR来微调分类器C;
步骤9.判断当前迭代次数τ是否达到最大迭代次数T;若当前迭代次数τ未达到最大迭代次数T,则返回步骤5继续迭代训练,τ=τ+1;否则,转到步骤10;
步骤10.模型训练完成之后,得到能够在多标记数据集上完成可靠分类性能的分类器C;利用训练好的分类器C执行分类预测任务。
本发明具有如下优点:
如上所述,本发明述及了一种基于解码器迭代筛选的鲁棒噪声多标签图像学习方法,该方法每次迭代中,都会调整模型的状态以检测噪声标记,并通过模型预测对噪声标记作伪标记,经过多次调整模型状态能提供足够的标记信息,从而可靠地筛选出错误标记,做到有效过滤。此外,模型在训练早期学习多标记的语义关系,在训练后期拥有可信伪标记后,则学习多标记的共现关系,其中,依据多标记间的关系特性,在训练早期学习标记语义关系,使得模型能够初始化标记的分布,从而受到较少的噪声影响,而在模型训练后期学习标记共现关系,使得模型能够学习类分布情况,从而提升在噪声情况下多标记分类的鲁棒性。本发明方法专门为多标记噪声提供了一个基础框架,框架中的分类模型可以替换成任何多标记的常用模型,提高了多标记分类在噪声条件下方法的鲁棒性。本发明能够有效提升在多标记噪声,即同时包含多标、漏标和错标场景下的类别预测准确率。
附图说明
图1为本发明实施例中基于解码器迭代筛选的鲁棒噪声多标签图像学习方法的流程图;
图2为本发明实施例中基于解码器迭代筛选的鲁棒噪声多标签图像学习方法的模型图;
图3为本发明实施例中分类器的结构示意图;
图4为本发明实施例中多标记噪声的检测流程图。
具体实施方式
在多标记数据集的收集过程中,使用众包平台是一种典型的方法,但由于标注者缺乏理论知识、观察不准确或主观性臆断错误,完全正确地注释每个图像是耗时且困难的。为了应对多标记数据集中的标记噪声问题,本发明提出一种基于解码器迭代筛选的鲁棒噪声多标签图像学习方法,该方法利用噪声样本在训练后期进行记忆,并且在开始具有较大损失的特性,提出对每个标记的损失分析,认为干净样本是具有小损失的一类。同时,由于传统网络训练时,网络状态在整个训练过程中仅发生一次由欠拟合到过拟合的过程,这将缺乏足够且可信的数据来完整地过滤噪声标记。因此,本发明考虑了循环筛选,即在循环过程中让模型循环地处于欠拟合和和过拟合状态之间,并在此变化期间记录标记的损失,从而达到过滤噪声标记的目的。为了进一步使用噪声标记的信息,本发明通过为噪声标记生成伪标记来学习样本信息,具体的,利用模型预测的概率结果来确定该噪声标记的伪标记。此外,与单标记学习不同的是,多标记具有可以利用和探索的标记相关性。由于训练早期模型含有大量的噪声,此时的标记关系并不可靠,本发明考虑标记的语义关系,使用预训练的Glove提取每一类的语义表示,通过学习标记语义分布以编码标记相关性。在训练后期,模型过滤大部分的噪声标记,并为大部分噪声标记提供可信度高的伪标记,这时本发明考虑标记的共现性,分析数据集标记的共现关系,可以从正标记之间的相关性中学习更多的信息。这两种标签关系分别拟合标记语义分布和标记共现分布,从多标记中学习更多的标记信息。通过以上方法可以有效地解决在噪声条件下,多标记分类预测不准确的问题,提高多标记分类在噪声下的鲁棒性。
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1所示,基于解码器迭代筛选的鲁棒噪声多标签图像学习方法,包括如下步骤:
步骤1.获取数据集D={(xi,yi)},D表示由通过网络平台获取的图像xi及其对应的包含噪声的多标记向量yi组成的训练数据集,yi=[y1 i,y2 i,...,yl i],i∈{1,N}。
ym i表示第i个样本对应于第m类的标记,m∈{1,l}。
其中,N表示数据集D中的样本总数,l表示数据集D中的类别总数。
训练数据集能够很容易地通过网络公开标注平台获得,如众包标注平台,但是这种低成本的标记并不完全准确,因此,平台获得的标注含有噪声标记。
对于任何一个从网络平台获取的图像,其对应的多个标记中可能有部分错误的标记,在这种场景下,训练较准确的多标记分类器是极具挑战性的。
步骤2.初始化各项参数,包括:迭代轮数τ=0、筛选噪声率R、伪标记阈值μ、预训练参数twarm、筛选参数tc、学习率η以及类的高维语义嵌入{vm},m∈{1,l}。
其中,vm表示第m类的高维语义嵌入。
μ和R为人为设置的超参数,其中,μ代表每次噪声检测时,判定是否为干净样本的最低阈值,R表在每轮迭代训练中划分为噪声标记的比率上限。
为了更好的学习标记语义相关性,使用Glove对每一类引入了类的高维语义嵌入{vm}。
步骤3.如图2所示,搭建深度学习模型即分类器C、二元交叉熵损失函数LBCE以及正则化项;其中,正则化项包括标记语义正则化项LLSR以及标记关系正则化项LLRR
如图3所示,分类器C包括一个预训练过的残差网络构成的特征提取器和一个Transformer的解码器。本实施例中分类器C的改进之处在于:
为了更好的连接特征提取器和Transformer的解码器,本发明将残差网络最后的全连接层替换成解码器,同时,为了节省计算开销,解码器删除了自注意力模块。
残差网络用于提取图像特征,并将图像映射到高维特征空间。
Transformer解码器对映射后的特征进行预测概率,得到l维的预测结果向量
Figure GDA0003957884300000041
对于输入的图像xi,经过残差网络提取特征Fi后,输入Transformer解码器。解码器中首先经过交叉注意力模块,即对输入的键和查询作相似性计算,并以结果作值的权重。
这里的键和值都为图片特征Fi,查询为数据集类的语义嵌入。
因此,交叉注意力模块按如下公式进行:
Figure GDA0003957884300000042
/>
Hi=Si·FiWv
其中,Fi为图像xi提取的特征,与解码器的输入维度一致。WQ、Wk、Wv是查询、键和值可学习的权重参数,Si,j为查询j与键i的相似度值,d为特征维度。
Si代表类i的相似度值,此处作为提取特征的权重,Hi为这一层的输出。随后将依次经过前馈层和全连接层,其中,前馈层负责改变嵌入的维度,全连接层负责最后的分类。
H’i=ReLu(HiW1+b1)W2+b2
Figure GDA0003957884300000043
其中,W1和W2为变换矩阵,b1和b2为偏移向量,ReLu为激活函数,pool为全连接层。解码器中起主要作用的是交叉注意力模块,能更好的学习图片的特征和标记之间的关联性。
本实施例中分类器C的作用有如下两个:
在噪声检测阶段,分类器C对数据集D中的噪声标记进行过滤,将D划分为噪声样本集Dnoisy和干净样本集Dclean,并为检测出的噪声样本集Dnoisy预测伪标记,构成Dpseudo,参与模型微调。在训练阶段,对于分类器C,用{Dpseudo,Dclean}的混合数据来训练,对于输入的一张图片和对应的一组标记(xi,yi),分类器C会对xi进行预测,最终得到l维的预测结果。
步骤4.在Warm-up训练阶段,将数据集D中图像xi及其对应的多标记向量yi送入分类器C中训练twarm轮。Warm-up训练指正式自训练之前,利用原始数据集D来更新模型的简单预训练,根据深度模型优先拟合干净样本后拟合噪声样本的特性,使得模型通过初期训练,作为以下迭代训练(即下述步骤5~下述步骤10)的预训练,从而能够对干净标记进行拟合,而不会对噪声标记拟合,起到对整个模型参数进行初始化的作用。
在该步骤4中,优化二元交叉熵损失函数LBCE和标记语义正则化项LLSR来更新C。
二元交叉熵损失函数LBCE的具体形式为:
Figure GDA0003957884300000051
每次迭代通过把全部数据均送入模型,并计算全部数据的损失函数。
在训练早期,学习标记语义相关性,使用Glove对每一类引入了类的高维语义嵌入{vm},m∈{1,l},并得到标记的语义相似性Lc(m,n),如下公式所示:
Lc(m,n)=vT mvn
其中,vm和vn表示使用Glove获得的对应于m,n类的高维语义嵌入,m,n∈{1,l}。
标记语义正则化项LLSR的具体形式为:
Figure GDA0003957884300000052
其中,Pm表示对于第i个样本标记
Figure GDA0003957884300000053
的第m类预测,P为预测得到的正标记集合,NP是正标记集合的标记数量,ip∈P为正标记集合中的标记。
Lc(ip,m)表示标记语义相似度矩阵,即获得当前正标记ip与标记m之间的语义相似度值。
σ是一个固定边界,为一固定常数值,
Figure GDA0003957884300000054
表示欧氏距离。
标记语义正则化项LLSR目的是让模型的预测分布去拟合标记的语义关系分布,这有利于在训练早期学习正确的标记分布关系,减少噪声标记的干扰。
步骤5.在迭代筛选阶段,调整模型状态,记录每个标记在调整过程中的规范化损失以检测噪声;将规范化损失由大到小进行排序,并取排序的前R%的标记对应的样本为噪声样本集Dnoisy,剩余为干净样本集Dclean
如图4给出了分类器C如何对噪声样本进行过滤,这是一个循环步骤,具体过程如下:
步骤5.1.定义循环筛选轮数tc和最大循环轮数Tc,初始化tc=0。
步骤5.2.按照如下公式调整模型的学习率η,以改变模型的拟合状态:
η=ηmin+1/2(ηmax-ηmin)(1+cos((tc·π)/Tc))。
其中,ηmin和ηmax分别表示模型训练中最小学习率和最大学习率。
步骤5.3.将数据集D中每个样本(xi,yi)输入分类器C,得到类别预测结果
Figure GDA0003957884300000055
利用二元交叉熵损失函数LBCE,计算每个样本(xi,yi)的预测结果/>
Figure GDA0003957884300000056
的损失值Ii
Ii={I1 i,I 2 i,...,I l i}。
其中,I m i表示在当前轮时第i个图像对应于第m类的损失值,m∈{1,l}。
步骤5.4.记录当前tc轮每个样本的损失值Ii,计算当前tc轮全部样本的平均损失
Figure GDA0003957884300000061
步骤5.5.通过步骤5.4得到的Ii
Figure GDA0003957884300000062
计算当前tc轮每个样本的规范化损失值/>
Figure GDA0003957884300000063
Figure GDA0003957884300000064
在迭代筛选阶段,优化二元交叉熵损失函数LBCE来更新分类器C。
步骤5.6.判断当前循环筛选轮数tc是否达到最大循环轮数Tc;若tc未达到最大循环轮数Tc,则返回步骤5.2,继续循环训练,tc=tc+1;否则,转到步骤5.7。
步骤5.7.计算每个样本在所有循环中的平均损失
Figure GDA0003957884300000065
Figure GDA0003957884300000066
则样本xi对应的标记平均损失为
Figure GDA0003957884300000067
Figure GDA0003957884300000068
表示第i个图像对应于第m类的平均损失值,m∈{1,l}。
根据标记的平均损失由大到小排序,并取排序的前R%标记对应的样本作为噪声样本集Dnoisy,剩余为干净样本集Dclean
选取依据为在深度模型学习过程中,噪声标记往往具有较大的损失,而干净标记产生的二元交叉熵损失较小,模型具有优先拟合干净标记的特性。
因此,训练时损失较大的标记更有可能是噪声标记,同时,为了降低模型自身错误的不断累积,设置了循环的学习率不断调整模型状态,以达到更好的过滤结果。
步骤6.使用分类器C依次为噪声样本集Dnoisy中每个样本xi进行类别预测,并取预测类别概率值大于伪标记阈值μ的类别作xi的伪标记,构成伪标记集Dpseudo
伪标记集Dpseudo的计算过程如下:
对输入的图像xi,经过分类器C得到新的预测结果
Figure GDA0003957884300000069
其中,
Figure GDA00039578843000000610
Figure GDA00039578843000000611
表示第i个图像对应于第m类的预测结果。
按照如下公式生成伪标记:
Figure GDA00039578843000000612
其中,
Figure GDA00039578843000000613
为指示函数,如果条件成立,则伪标记为1,反之,伪标记为0。μ作为阈值,帮助排除潜在的负标记,对Dnoisy中所有样本重新预测后,可以得到伪标记集Dpseudo
步骤7.统计数据集{Dpseudo,Dclean}中标记的共现概率。
由于在经过步骤5的噪声检测后,大部分错误的标记在步骤6得到了恢复。因此,此处分析数据集{Dpseudo,Dclean}标记的共现模式,来更好的学习多标记之间的共现信息。
标记共现概率矩阵Lp(m,n)由以下公式计算:Lp(m,n)=Nm,n/Nsum
其中,Lp即为包含所统计标记之间共现概率的矩阵。Nm,n表示m类和n类标记的共现次数,Nsum为所有标记的全部共现次数,m,n∈{1,l}。
步骤8.经过步骤6得到的数据集D’={Dpseudo,Dclean}重新输入分类器C,优化二元交叉熵损失函数LBCE和标记关系正则化项LLRR来微调分类器C。
标记关系正则化项LLRR函数的具体形式为:
Figure GDA0003957884300000071
在训练后期大部分错误的标记得到了恢复,此时分析标记的共现模式,学习多标记之间的关系信息,LP(ip,m)为标记共现概率矩阵,即获得当前正标记ip与标记m之间的共现概率。
标记关系正则化LLRR目的是让模型的预测分布去拟合标记的共现关系分布,由于在训练的后期,大部分噪声标记已被纠正,从正标记的共现关系里能学习到更多的标记信息。
步骤9.判断当前迭代次数τ是否达到最大迭代次数T;若当前迭代次数τ未达到最大迭代次数T,则返回步骤5继续迭代训练,τ=τ+1;否则,转到步骤10;
步骤10.模型训练完成之后得到能够在多标记数据集上完成可靠分类的分类器C;执行分类预测任务,将预测图像输入分类器C进行类别预测。
执行最终分类预测任务,本发明方法对于输入图像,直接输入分类器C进行多类别预测。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。

Claims (5)

1.基于解码器迭代筛选的鲁棒噪声多标签图像学习方法,其特征在于,
包括如下步骤:
步骤1.获取数据集D={(xi,yi)},D表示由通过网络平台获取的图像xi及其对应的包含噪声的多标记向量yi组成的训练数据集,yi=[y1 i,y2 i,...,yl i],i∈{1,N};
ym i表示第i个样本对应于第m类的标记,m∈{1,l};
其中,N表示数据集D中的样本总数,l表示数据集D中的类别总数;
步骤2.初始化各项参数,包括:迭代轮数τ=0、筛选噪声率R、伪标记阈值μ、预训练参数twarm、筛选参数tc、学习率η以及类的高维语义嵌入{vm},m∈{1,l};
其中,vm表示第m类的高维语义嵌入;
步骤3.搭建深度学习模型即分类器C、二元交叉熵损失函数LBCE以及正则化项;其中,正则化项包括标记语义正则化项LLSR以及标记关系正则化项LLRR
步骤4.在Warm-up训练阶段,将数据集D中图像xi及其对应的多标记向量yi送入分类器C中训练twarm轮,优化二元交叉熵损失函数LBCE和标记语义正则化项LLSR来更新C;
步骤5.在迭代筛选阶段,调整模型状态,记录每个标记在调整过程中规范化损失以检测噪声;将规范化损失由大到小进行排序,并取排序的前R%的标记对应的样本为噪声样本集Dnoisy,剩余为干净样本集Dclean
所述步骤5具体为:
步骤5.1.定义循环筛选轮数tc和最大循环轮数Tc,初始化tc=0;
步骤5.2.按照如下公式调整模型的学习率η,以改变模型的拟合状态:
η=ηmin+1/2(ηmax-ηmin)(1+cos((tc·π)/Tc));
其中,ηmin和ηmax分别表示模型训练中最小学习率和最大学习率;
步骤5.3.将数据集D中每个样本(xi,yi)输入分类器C,得到类别预测结果
Figure FDA0003957884290000011
利用二元交叉熵损失函数LBCE,计算每个样本(xi,yi)的预测结果
Figure FDA0003957884290000012
的损失值Ii
Ii={I1 i,I 2 i,...,I l i};
其中,I m i表示在当前轮时第i个图像对应于第m类的损失值,m∈{1,l};
步骤5.4.记录当前tc轮每个样本的损失值Ii,计算当前tc轮全部样本的平均损失
Figure FDA0003957884290000013
步骤5.5.通过步骤5.4得到的Ii
Figure FDA0003957884290000014
计算当前tc轮每个样本的规范化损失值
Figure FDA0003957884290000015
Figure FDA0003957884290000016
在迭代筛选阶段,优化二元交叉熵损失函数LBCE来更新分类器C;
步骤5.6.判断当前循环筛选轮数tc是否达到最大循环轮数Tc;若tc未达到最大循环轮数Tc,则返回步骤5.2,继续循环训练,tc=tc+1;否则,转到步骤5.7;
步骤5.7.计算每个样本在所有循环中的平均损失
Figure FDA0003957884290000021
Figure FDA0003957884290000022
则样本xi对应的标记平均损失为
Figure FDA0003957884290000023
Figure FDA0003957884290000024
表示第i个图像对应于第m类的平均损失值,m∈{1,l};
根据标记的平均损失由大到小排序,并取排序的前R%标记对应的样本作为噪声样本集Dnoisy,剩余为干净样本集Dclean
步骤6.使用分类器C依次为噪声样本集Dnoisy中每个样本xi进行类别预测,并取预测类别概率值大于伪标记阈值μ的类别作样本xi的伪标记,构成伪标记集Dpseudo
步骤7.统计数据集{Dpseudo,Dclean}中标记的共现概率;
步骤8.将数据集{Dpseudo,Dclean}重新输入分类器C,优化二元交叉熵损失函数LBCE和标记关系正则化项LLRR来微调分类器C;
步骤9.判断当前迭代次数τ是否达到最大迭代次数T;若当前迭代次数τ未达到最大迭代次数T,则返回步骤5继续迭代训练,τ=τ+1;否则,转到步骤10;
步骤10.模型训练完成之后,得到能够在多标记数据集上完成可靠分类性能的分类器C;利用训练好的分类器C执行分类预测任务。
2.根据权利要求1所述的鲁棒噪声多标签图像学习方法,其特征在于,
所述分类器C由一个预训练的残差网络构成的特征提取器和一个Transformer解码器组成;其中,残差网络最后的全连接层替换为解码器,解码器中删除了自注意力模块;
残差网络用于提取图像特征,并将图像映射到高维特征空间;
Transformer解码器对映射后的特征进行预测概率,映射到l维的预测概率向量。
3.根据权利要求1所述的鲁棒噪声多标签图像学习方法,其特征在于,
所述步骤6中,伪标记集Dpseudo的计算过程如下:
对输入的图像xi,经过分类器C得到新的预测结果
Figure FDA0003957884290000025
其中,
Figure FDA0003957884290000026
Figure FDA0003957884290000027
表示第i个图像对应于第m类的预测结果;
按照如下公式生成伪标记:
Figure FDA0003957884290000028
其中,
Figure FDA0003957884290000029
为指示函数,如果条件成立,则伪标记为1,反之,伪标记为0;
对噪声样本集Dnoisy中所有样本运用上述方法,得到伪标记集Dpseudo
4.根据权利要求1所述的鲁棒噪声多标签图像学习方法,其特征在于,
所述步骤7中,标记共现概率矩阵Lp(m,n)由以下公式计算:
Lp(m,n)=Nm,n/Nsum
其中,Lp即为包含所统计标记之间共现概率的矩阵;
Nm,n表示m类和n类标记的共现次数,Nsum为所有标记的全部共现次数,m,n∈{1,l}。
5.根据权利要求4所述的鲁棒噪声多标签图像学习方法,其特征在于,
在训练阶段,优化二元交叉熵损失函数LBCE以及正则化项LLSR和LLRR来更新分类器C;
二元交叉熵损失函数LBCE的具体形式为:
Figure FDA0003957884290000031
标记语义正则化项LLSR的具体形式为:
Figure FDA0003957884290000032
其中,Pm表示对于第i个样本标记
Figure FDA0003957884290000033
的第m类预测,P为预测得到的正标记集合,NP是正标记集合的标记数量,ip∈P为正标记集合中的标记;
Lc(ip,m)表示标记语义相似度矩阵,即获得当前正标记ip与标记m之间的语义相似度值;
σ是一个固定边界,为一固定常数值,
Figure FDA0003957884290000034
表示欧氏距离;
在训练早期,学习标记语义相关性,使用Glove对每一类引入了类的高维语义嵌入{vm},m∈{1,l},并得到标记的语义相似性Lc(m,n),如下公式所示:
Lc(m,n)=vT mvn
其中,vm和vn表示使用Glove获得的对应于类m和n的高维语义嵌入,m,n∈{1,l};
标记关系正则化项LLRR函数的具体形式为:
Figure FDA0003957884290000035
在训练后期大部分错误的标记得到了恢复,此时分析标记的共现模式,学习多标记之间的关系信息,LP(ip,m)为标记共现概率矩阵,即获得当前正标记ip与标记m之间的共现概率。
CN202211251614.8A 2022-10-13 2022-10-13 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法 Active CN115331065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211251614.8A CN115331065B (zh) 2022-10-13 2022-10-13 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211251614.8A CN115331065B (zh) 2022-10-13 2022-10-13 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法

Publications (2)

Publication Number Publication Date
CN115331065A CN115331065A (zh) 2022-11-11
CN115331065B true CN115331065B (zh) 2023-03-24

Family

ID=83913842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211251614.8A Active CN115331065B (zh) 2022-10-13 2022-10-13 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法

Country Status (1)

Country Link
CN (1) CN115331065B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117523213B (zh) * 2024-01-04 2024-03-29 南京航空航天大学 一种基于元去噪和负学习的噪声标签识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299349A (zh) * 2022-03-04 2022-04-08 南京航空航天大学 一种基于多专家系统和知识蒸馏的众包图像学习方法
CN114842267A (zh) * 2022-05-23 2022-08-02 南京邮电大学 基于标签噪声域自适应的图像分类方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990385B (zh) * 2021-05-17 2021-09-21 南京航空航天大学 一种基于半监督变分自编码器的主动众包图像学习方法
CN113379037B (zh) * 2021-06-28 2023-11-10 东南大学 一种基于补标记协同训练的偏多标记学习方法
CN114190950B (zh) * 2021-11-18 2023-07-28 电子科技大学 一种针对含有噪声标签的心电图智能分析方法及心电仪
CN114283287B (zh) * 2022-03-09 2022-05-06 南京航空航天大学 基于自训练噪声标签纠正的鲁棒领域自适应图像学习方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299349A (zh) * 2022-03-04 2022-04-08 南京航空航天大学 一种基于多专家系统和知识蒸馏的众包图像学习方法
CN114842267A (zh) * 2022-05-23 2022-08-02 南京邮电大学 基于标签噪声域自适应的图像分类方法及系统

Also Published As

Publication number Publication date
CN115331065A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111611847B (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
JP2019521443A (ja) 適応型追加学習を用いた細胞のアノテーション法及びアノテーションシステム
CN107194418B (zh) 一种基于对抗特征学习的水稻蚜虫检测方法
CN113076994B (zh) 一种开集域自适应图像分类方法及系统
CN115331088B (zh) 基于带有噪声和不平衡的类标签的鲁棒学习方法
CN114283287B (zh) 基于自训练噪声标签纠正的鲁棒领域自适应图像学习方法
CN112766218B (zh) 基于非对称联合教学网络的跨域行人重识别方法和装置
CN109376796A (zh) 基于主动半监督学习的图像分类方法
CN112257441B (zh) 一种基于反事实生成的命名实体识别增强方法
CN115331065B (zh) 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法
CN115221947A (zh) 一种基于预训练语言模型的鲁棒的多模态主动学习方法
Irie et al. A bayesian approach to multimodal visual dictionary learning
CN115439685A (zh) 一种小样本图像数据集划分方法及计算机可读存储介质
CN112613474B (zh) 一种行人重识别的方法和装置
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN117521012A (zh) 基于多模态上下文分层分步对齐的虚假信息检测方法
CN112465016A (zh) 基于最优劣距的部分多标记学习方法
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN116306969A (zh) 基于自监督学习的联邦学习方法和系统
CN113792574B (zh) 一种基于度量学习和教师学生模型的跨数据集表情识别方法
CN115170813A (zh) 基于偏标签学习的网络监督细粒度图像识别方法
CN113408412A (zh) 网络直播主播的行为识别方法、系统、设备及存储介质
CN112784774A (zh) 一种基于数据增强的小样本高光谱分类方法
CN114220016B (zh) 面向开放场景下的无人机航拍图像的域自适应识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant