CN115331065B

CN115331065B - 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法

Info

Publication number: CN115331065B
Application number: CN202211251614.8A
Authority: CN
Inventors: 李绍园; 陈佳瑶
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-03-24
Anticipated expiration: 2042-10-13
Also published as: CN115331065A

Abstract

本发明属于图像学习技术领域，公开了一种基于解码器迭代筛选的鲁棒噪声多标签图像学习方法。该方法针对多标记图像分类存在多标、漏标和错标的问题，提出采用基于解码器的迭代筛选噪声机制，以恢复样本的错误标注，从而提升深度学习模型在噪声多标记上的准确率，具体包括如下步骤：获取训练图像集及多标签噪声标注；初始化各项参数；搭建深度学习模型、损失函数以及正则化项；将训练集图像及标注依次输入多标记分类器；每次迭代筛选时调整模型状态以检测噪声标记，为噪声样本重新预测伪标记，统计标记共现概率并输入标记模型进行微调；训练完成后，使用训练获得的分类器对图像进行类别预测任务。

Description

基于解码器迭代筛选的鲁棒噪声多标签图像学习方法

技术领域

本发明涉及一种基于解码器迭代筛选的鲁棒噪声多标签图像学习方法。

背景技术

多标记分类旨在预测与输入图像中给定的对象、属性或其他动作相对应的一组标记，这通常依赖于一个相当大的、干净的多标记数据集。在实践中，为每张图像标注完全正确的多标记数据需要极高的成本，因此，标注中会包含大量噪声。传统的多标记分类通过学习标记共现去刻画标记关系图，利用标记关系图训练模型。虽然传统的多标记分类解决了图像预测信息匮乏的问题，然而却忽视了获取完全干净的数据集需要极大的成本。

目前新兴的偏多标记学习，即每个图像都带有一个候选标记集，包含所有相关的和一些不相关的标记，通过评估置信度来确定标记。部分缺失的多标记学习，只包含所有相关标记的一个子集，利用标记关系去恢复所有标记。它们虽然都考虑了数据集标注不可能完全正确的情况，但无法处理更复杂的噪声情况，即同时包含多标、漏标和错标的标记情况。

发明内容

本发明的目的在于提出一种基于解码器迭代筛选的鲁棒噪声多标签图像学习方法，以进一步提升在多标记噪声，即同时包含多标、漏标和错标场景下的准确率。

本发明为了实现上述目的，采用如下技术方案：

基于解码器迭代筛选的鲁棒噪声多标签图像学习方法，包括如下步骤：

步骤1.获取数据集D＝{(x_i,y_i)}，D表示由通过网络平台获取的图像x_i及其对应的包含噪声的多标记向量y_i组成的训练数据集，y_i＝[y¹ _i,y² _i,...,y^l _i]，i∈{1,N}；

y^m _i表示第i个样本对应于第m类的标记，m∈{1,l}；

其中，N表示数据集D中的样本总数，l表示数据集D中的类别总数；

步骤2.初始化各项参数，包括：迭代轮数τ＝0、筛选噪声率R、伪标记阈值μ、预训练参数t_warm、筛选参数t_c、学习率η以及类的高维语义嵌入{v_i}，i∈{1,l}；

其中，v_i表示第i类的高维语义嵌入，共l类；

步骤3.搭建深度学习模型即分类器C、二元交叉熵损失函数L_BCE以及正则化项；其中，正则化项包括标记语义正则化项L_LSR以及标记关系正则化项L_LRR；

步骤4.在Warm-up训练阶段，将数据集D中图像x_i及其对应的多标记向量y_i送入分类器C中训练t_warm轮，优化二元交叉熵损失函数L_BCE和标记语义正则化项L_LSR来更新C；

步骤5.在迭代筛选阶段，调整模型状态，记录每个标记在调整过程中规范化损失以检测噪声；将规范化损失由大到小进行排序，并取排序的前R％的标记对应的样本为噪声样本集D_noisy，剩余为干净样本集D_clean；

步骤6.使用分类器C依次为噪声样本集D_noisy中每个样本x_i进行类别预测，并取预测类别概率值大于伪标记阈值μ的类别作样本x_i的伪标记，构成伪标记集D_pseudo；

步骤7.统计数据集{D_pseudo,D_clean}中标记的共现概率；

步骤8.将数据集{D_pseudo,D_clean}重新输入分类器C，优化二元交叉熵损失函数L_BCE和标记关系正则化项L_LRR来微调分类器C；

步骤9.判断当前迭代次数τ是否达到最大迭代次数T；若当前迭代次数τ未达到最大迭代次数T，则返回步骤5继续迭代训练，τ＝τ+1；否则，转到步骤10；

步骤10.模型训练完成之后，得到能够在多标记数据集上完成可靠分类性能的分类器C；利用训练好的分类器C执行分类预测任务。

本发明具有如下优点：

如上所述，本发明述及了一种基于解码器迭代筛选的鲁棒噪声多标签图像学习方法，该方法每次迭代中，都会调整模型的状态以检测噪声标记，并通过模型预测对噪声标记作伪标记，经过多次调整模型状态能提供足够的标记信息，从而可靠地筛选出错误标记，做到有效过滤。此外，模型在训练早期学习多标记的语义关系，在训练后期拥有可信伪标记后，则学习多标记的共现关系，其中，依据多标记间的关系特性，在训练早期学习标记语义关系，使得模型能够初始化标记的分布，从而受到较少的噪声影响，而在模型训练后期学习标记共现关系，使得模型能够学习类分布情况，从而提升在噪声情况下多标记分类的鲁棒性。本发明方法专门为多标记噪声提供了一个基础框架，框架中的分类模型可以替换成任何多标记的常用模型，提高了多标记分类在噪声条件下方法的鲁棒性。本发明能够有效提升在多标记噪声，即同时包含多标、漏标和错标场景下的类别预测准确率。

附图说明

图1为本发明实施例中基于解码器迭代筛选的鲁棒噪声多标签图像学习方法的流程图；

图2为本发明实施例中基于解码器迭代筛选的鲁棒噪声多标签图像学习方法的模型图；

图3为本发明实施例中分类器的结构示意图；

图4为本发明实施例中多标记噪声的检测流程图。

具体实施方式

在多标记数据集的收集过程中，使用众包平台是一种典型的方法，但由于标注者缺乏理论知识、观察不准确或主观性臆断错误，完全正确地注释每个图像是耗时且困难的。为了应对多标记数据集中的标记噪声问题，本发明提出一种基于解码器迭代筛选的鲁棒噪声多标签图像学习方法，该方法利用噪声样本在训练后期进行记忆，并且在开始具有较大损失的特性，提出对每个标记的损失分析，认为干净样本是具有小损失的一类。同时，由于传统网络训练时，网络状态在整个训练过程中仅发生一次由欠拟合到过拟合的过程，这将缺乏足够且可信的数据来完整地过滤噪声标记。因此，本发明考虑了循环筛选，即在循环过程中让模型循环地处于欠拟合和和过拟合状态之间，并在此变化期间记录标记的损失，从而达到过滤噪声标记的目的。为了进一步使用噪声标记的信息，本发明通过为噪声标记生成伪标记来学习样本信息，具体的，利用模型预测的概率结果来确定该噪声标记的伪标记。此外，与单标记学习不同的是，多标记具有可以利用和探索的标记相关性。由于训练早期模型含有大量的噪声，此时的标记关系并不可靠，本发明考虑标记的语义关系，使用预训练的Glove提取每一类的语义表示，通过学习标记语义分布以编码标记相关性。在训练后期，模型过滤大部分的噪声标记，并为大部分噪声标记提供可信度高的伪标记，这时本发明考虑标记的共现性，分析数据集标记的共现关系，可以从正标记之间的相关性中学习更多的信息。这两种标签关系分别拟合标记语义分布和标记共现分布，从多标记中学习更多的标记信息。通过以上方法可以有效地解决在噪声条件下，多标记分类预测不准确的问题，提高多标记分类在噪声下的鲁棒性。

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，基于解码器迭代筛选的鲁棒噪声多标签图像学习方法，包括如下步骤：

步骤1.获取数据集D＝{(x_i,y_i)}，D表示由通过网络平台获取的图像x_i及其对应的包含噪声的多标记向量y_i组成的训练数据集，y_i＝[y¹ _i,y² _i,...,y^l _i]，i∈{1,N}。

y^m _i表示第i个样本对应于第m类的标记，m∈{1,l}。

其中，N表示数据集D中的样本总数，l表示数据集D中的类别总数。

训练数据集能够很容易地通过网络公开标注平台获得，如众包标注平台，但是这种低成本的标记并不完全准确，因此，平台获得的标注含有噪声标记。

对于任何一个从网络平台获取的图像，其对应的多个标记中可能有部分错误的标记，在这种场景下，训练较准确的多标记分类器是极具挑战性的。

步骤2.初始化各项参数，包括：迭代轮数τ＝0、筛选噪声率R、伪标记阈值μ、预训练参数t_warm、筛选参数t_c、学习率η以及类的高维语义嵌入{v_m}，m∈{1,l}。

其中，v_m表示第m类的高维语义嵌入。

μ和R为人为设置的超参数，其中，μ代表每次噪声检测时，判定是否为干净样本的最低阈值，R表在每轮迭代训练中划分为噪声标记的比率上限。

为了更好的学习标记语义相关性，使用Glove对每一类引入了类的高维语义嵌入{v_m}。

步骤3.如图2所示，搭建深度学习模型即分类器C、二元交叉熵损失函数L_BCE以及正则化项；其中，正则化项包括标记语义正则化项L_LSR以及标记关系正则化项L_LRR。

如图3所示，分类器C包括一个预训练过的残差网络构成的特征提取器和一个Transformer的解码器。本实施例中分类器C的改进之处在于：

为了更好的连接特征提取器和Transformer的解码器，本发明将残差网络最后的全连接层替换成解码器，同时，为了节省计算开销，解码器删除了自注意力模块。

残差网络用于提取图像特征，并将图像映射到高维特征空间。

Transformer解码器对映射后的特征进行预测概率，得到l维的预测结果向量

对于输入的图像x_i，经过残差网络提取特征F_i后，输入Transformer解码器。解码器中首先经过交叉注意力模块，即对输入的键和查询作相似性计算，并以结果作值的权重。

这里的键和值都为图片特征F_i，查询为数据集类的语义嵌入。

因此，交叉注意力模块按如下公式进行：

/>

H_i＝S_i·F_iW_v；

其中，F_i为图像x_i提取的特征，与解码器的输入维度一致。W_Q、W_k、W_v是查询、键和值可学习的权重参数，S_i,j为查询j与键i的相似度值，d为特征维度。

S_i代表类i的相似度值，此处作为提取特征的权重，H_i为这一层的输出。随后将依次经过前馈层和全连接层，其中，前馈层负责改变嵌入的维度，全连接层负责最后的分类。

H’_i＝ReLu(H_iW₁+b₁)W₂+b₂；

其中，W₁和W₂为变换矩阵，b₁和b₂为偏移向量，ReLu为激活函数，pool为全连接层。解码器中起主要作用的是交叉注意力模块，能更好的学习图片的特征和标记之间的关联性。

本实施例中分类器C的作用有如下两个：

在噪声检测阶段，分类器C对数据集D中的噪声标记进行过滤，将D划分为噪声样本集D_noisy和干净样本集D_clean，并为检测出的噪声样本集D_noisy预测伪标记，构成D_pseudo，参与模型微调。在训练阶段，对于分类器C，用{D_pseudo,D_clean}的混合数据来训练，对于输入的一张图片和对应的一组标记(x_i,y_i)，分类器C会对x_i进行预测，最终得到l维的预测结果。

步骤4.在Warm-up训练阶段，将数据集D中图像x_i及其对应的多标记向量y_i送入分类器C中训练t_warm轮。Warm-up训练指正式自训练之前，利用原始数据集D来更新模型的简单预训练，根据深度模型优先拟合干净样本后拟合噪声样本的特性，使得模型通过初期训练，作为以下迭代训练(即下述步骤5～下述步骤10)的预训练，从而能够对干净标记进行拟合，而不会对噪声标记拟合，起到对整个模型参数进行初始化的作用。

在该步骤4中，优化二元交叉熵损失函数L_BCE和标记语义正则化项L_LSR来更新C。

二元交叉熵损失函数L_BCE的具体形式为：

每次迭代通过把全部数据均送入模型，并计算全部数据的损失函数。

在训练早期，学习标记语义相关性，使用Glove对每一类引入了类的高维语义嵌入{v_m}，m∈{1,l}，并得到标记的语义相似性L_c(m,n)，如下公式所示：

L_c(m,n)＝v^T _mv_n。

其中，v_m和v_n表示使用Glove获得的对应于m,n类的高维语义嵌入，m,n∈{1,l}。

标记语义正则化项L_LSR的具体形式为：

其中，P_m表示对于第i个样本标记

的第m类预测，P为预测得到的正标记集合，N_P是正标记集合的标记数量，i_p∈P为正标记集合中的标记。

L_c(i_p,m)表示标记语义相似度矩阵，即获得当前正标记i_p与标记m之间的语义相似度值。

σ是一个固定边界，为一固定常数值，

表示欧氏距离。

标记语义正则化项L_LSR目的是让模型的预测分布去拟合标记的语义关系分布，这有利于在训练早期学习正确的标记分布关系，减少噪声标记的干扰。

步骤5.在迭代筛选阶段，调整模型状态，记录每个标记在调整过程中的规范化损失以检测噪声；将规范化损失由大到小进行排序，并取排序的前R％的标记对应的样本为噪声样本集D_noisy，剩余为干净样本集D_clean。

如图4给出了分类器C如何对噪声样本进行过滤，这是一个循环步骤，具体过程如下：

步骤5.1.定义循环筛选轮数t_c和最大循环轮数T_c，初始化t_c＝0。

步骤5.2.按照如下公式调整模型的学习率η，以改变模型的拟合状态：

η＝η_min+1/2(η_max－η_min)(1+cos((t_c·π)/T_c))。

其中，η_min和η_max分别表示模型训练中最小学习率和最大学习率。

步骤5.3.将数据集D中每个样本(x_i,y_i)输入分类器C，得到类别预测结果

利用二元交叉熵损失函数L_BCE，计算每个样本(x_i,y_i)的预测结果/>

的损失值I_i。

I_i＝{I¹ _i,I ² _i,...,I ^l _i}。

其中，I ^m _i表示在当前轮时第i个图像对应于第m类的损失值，m∈{1,l}。

步骤5.4.记录当前t_c轮每个样本的损失值I_i，计算当前t_c轮全部样本的平均损失

步骤5.5.通过步骤5.4得到的I_i和

计算当前t_c轮每个样本的规范化损失值/>

在迭代筛选阶段，优化二元交叉熵损失函数L_BCE来更新分类器C。

步骤5.6.判断当前循环筛选轮数t_c是否达到最大循环轮数T_c；若t_c未达到最大循环轮数T_c，则返回步骤5.2，继续循环训练，t_c＝t_c+1；否则，转到步骤5.7。

步骤5.7.计算每个样本在所有循环中的平均损失

则样本x_i对应的标记平均损失为

表示第i个图像对应于第m类的平均损失值，m∈{1,l}。

根据标记的平均损失由大到小排序，并取排序的前R％标记对应的样本作为噪声样本集D_noisy，剩余为干净样本集D_clean。

选取依据为在深度模型学习过程中，噪声标记往往具有较大的损失，而干净标记产生的二元交叉熵损失较小，模型具有优先拟合干净标记的特性。

因此，训练时损失较大的标记更有可能是噪声标记，同时，为了降低模型自身错误的不断累积，设置了循环的学习率不断调整模型状态，以达到更好的过滤结果。

步骤6.使用分类器C依次为噪声样本集D_noisy中每个样本x_i进行类别预测，并取预测类别概率值大于伪标记阈值μ的类别作x_i的伪标记，构成伪标记集D_pseudo。

伪标记集D_pseudo的计算过程如下：

对输入的图像x_i，经过分类器C得到新的预测结果

其中，

表示第i个图像对应于第m类的预测结果。

按照如下公式生成伪标记：

其中，

为指示函数，如果条件成立，则伪标记为1，反之，伪标记为0。μ作为阈值，帮助排除潜在的负标记，对D_noisy中所有样本重新预测后，可以得到伪标记集D_pseudo。

步骤7.统计数据集{D_pseudo,D_clean}中标记的共现概率。

由于在经过步骤5的噪声检测后，大部分错误的标记在步骤6得到了恢复。因此，此处分析数据集{D_pseudo,D_clean}标记的共现模式，来更好的学习多标记之间的共现信息。

标记共现概率矩阵L_p(m,n)由以下公式计算：L_p(m,n)＝N_m,n/N_sum。

其中，L_p即为包含所统计标记之间共现概率的矩阵。N_m,n表示m类和n类标记的共现次数，N_sum为所有标记的全部共现次数，m,n∈{1,l}。

步骤8.经过步骤6得到的数据集D’＝{D_pseudo,D_clean}重新输入分类器C，优化二元交叉熵损失函数L_BCE和标记关系正则化项L_LRR来微调分类器C。

标记关系正则化项L_LRR函数的具体形式为：

在训练后期大部分错误的标记得到了恢复，此时分析标记的共现模式，学习多标记之间的关系信息，L_P(i_p,m)为标记共现概率矩阵，即获得当前正标记i_p与标记m之间的共现概率。

标记关系正则化L_LRR目的是让模型的预测分布去拟合标记的共现关系分布，由于在训练的后期，大部分噪声标记已被纠正，从正标记的共现关系里能学习到更多的标记信息。

步骤10.模型训练完成之后得到能够在多标记数据集上完成可靠分类的分类器C；执行分类预测任务，将预测图像输入分类器C进行类别预测。

执行最终分类预测任务，本发明方法对于输入图像，直接输入分类器C进行多类别预测。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.基于解码器迭代筛选的鲁棒噪声多标签图像学习方法，其特征在于，

包括如下步骤：

y^m _i表示第i个样本对应于第m类的标记，m∈{1,l}；

步骤2.初始化各项参数，包括：迭代轮数τ＝0、筛选噪声率R、伪标记阈值μ、预训练参数t_warm、筛选参数t_c、学习率η以及类的高维语义嵌入{v_m}，m∈{1,l}；

其中，v_m表示第m类的高维语义嵌入；

所述步骤5具体为：

步骤5.1.定义循环筛选轮数t_c和最大循环轮数T_c，初始化t_c＝0；

η＝η_min+1/2(η_max－η_min)(1+cos((t_c·π)/T_c))；

其中，η_min和η_max分别表示模型训练中最小学习率和最大学习率；

利用二元交叉熵损失函数L_BCE，计算每个样本(x_i,y_i)的预测结果

的损失值I_i；

I_i＝{I¹ _i,I ² _i,...,I ^l _i}；

其中，I ^m _i表示在当前轮时第i个图像对应于第m类的损失值，m∈{1,l}；

步骤5.5.通过步骤5.4得到的I_i和

计算当前t_c轮每个样本的规范化损失值

在迭代筛选阶段，优化二元交叉熵损失函数L_BCE来更新分类器C；

步骤5.6.判断当前循环筛选轮数t_c是否达到最大循环轮数T_c；若t_c未达到最大循环轮数T_c，则返回步骤5.2，继续循环训练，t_c＝t_c+1；否则，转到步骤5.7；

步骤5.7.计算每个样本在所有循环中的平均损失

则样本x_i对应的标记平均损失为

表示第i个图像对应于第m类的平均损失值，m∈{1,l}；

根据标记的平均损失由大到小排序，并取排序的前R％标记对应的样本作为噪声样本集D_noisy，剩余为干净样本集D_clean；

步骤7.统计数据集{D_pseudo,D_clean}中标记的共现概率；

2.根据权利要求1所述的鲁棒噪声多标签图像学习方法，其特征在于，

所述分类器C由一个预训练的残差网络构成的特征提取器和一个Transformer解码器组成；其中，残差网络最后的全连接层替换为解码器，解码器中删除了自注意力模块；

残差网络用于提取图像特征，并将图像映射到高维特征空间；

Transformer解码器对映射后的特征进行预测概率，映射到l维的预测概率向量。

3.根据权利要求1所述的鲁棒噪声多标签图像学习方法，其特征在于，

所述步骤6中，伪标记集D_pseudo的计算过程如下：

对输入的图像x_i，经过分类器C得到新的预测结果

其中，

表示第i个图像对应于第m类的预测结果；

按照如下公式生成伪标记：

其中，

为指示函数，如果条件成立，则伪标记为1，反之，伪标记为0；

对噪声样本集D_noisy中所有样本运用上述方法，得到伪标记集D_pseudo。

4.根据权利要求1所述的鲁棒噪声多标签图像学习方法，其特征在于，

所述步骤7中，标记共现概率矩阵L_p(m,n)由以下公式计算：

L_p(m,n)＝N_m,n/N_sum；

其中，L_p即为包含所统计标记之间共现概率的矩阵；

N_m,n表示m类和n类标记的共现次数，N_sum为所有标记的全部共现次数，m,n∈{1,l}。

5.根据权利要求4所述的鲁棒噪声多标签图像学习方法，其特征在于，

在训练阶段，优化二元交叉熵损失函数L_BCE以及正则化项L_LSR和L_LRR来更新分类器C；

二元交叉熵损失函数L_BCE的具体形式为：

标记语义正则化项L_LSR的具体形式为：

其中，P_m表示对于第i个样本标记

的第m类预测，P为预测得到的正标记集合，N_P是正标记集合的标记数量，i_p∈P为正标记集合中的标记；

L_c(i_p,m)表示标记语义相似度矩阵，即获得当前正标记i_p与标记m之间的语义相似度值；

σ是一个固定边界，为一固定常数值，

表示欧氏距离；

L_c(m,n)＝v^T _mv_n；

其中，v_m和v_n表示使用Glove获得的对应于类m和n的高维语义嵌入，m,n∈{1,l}；

标记关系正则化项L_LRR函数的具体形式为：