CN116912568A

CN116912568A - 基于自适应类别均衡的含噪声标签图像识别方法

Info

Publication number: CN116912568A
Application number: CN202310845587.5A
Authority: CN
Inventors: 王琼; 孙泽人; 姚亚洲; 盛猛猛
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-10-20

Abstract

本发明提出了一种基于自适应类别均衡的含噪声标签图像识别方法。具体来说，首先设计了一种新颖的样本选择策略，在识别干净和噪声数据时增强自适应性和类平衡性。然后采用均值‑教师模型对含噪样本的标签进行修正。随后，提出了一种自适应和类别平衡的样本重加权机制，为检测到的噪声样本分配不同的权重。最后，在选择的干净样本上额外使用一致性正则化来提高模型的泛化性能。

Description

基于自适应类别均衡的含噪声标签图像识别方法

技术领域

本发明属于图像识别技术，具体为一种基于自适应类别均衡的含噪声标签图像识别方法。

背景技术

深度神经网络(DNNs)在图像分类、目标检测、人脸识别、实例分割等计算机视觉任务中取得了令人瞩目的成就。DNNs的优越性能归功于大规模高质量的人工标注训练数据集上的监督训练。然而，收集具有精确注释的大规模数据集是昂贵且耗时的，特别是对于需要专家注释知识(例如，医学图像)的任务。为了缓解这一问题，研究人员开始寻求其他方法，如众包平台或网络图像搜索引擎，以获得更便宜的标签注释。遗憾的是，这些方法通常会产生不可避免的噪声标签，由于DNNs的强大学习能力，这些标签往往会导致较差的模型性能。因此，开发具有噪声标签的鲁棒学习模型具有重要意义。

近年来，越来越多的方法被提出用于解决标签噪声问题。标签校正和样本选择或重加权是处理噪声标签的两种主要策略。标签校正方法通常尝试使用噪声转移矩阵或模型预测对样本标签进行校正。例如，Jo-SRC使用时间平均模型(即均值-教师模型)生成可靠的伪标签分布来提供监督。然而，一方面，噪声转移矩阵在实际场景中很难估计。另一方面，网络在简单类别上往往比硬类别具有更好的识别能力。这种识别偏差通常会导致基于预测的标签校正方法中的不平衡标签校正(也就是说，样本更有可能被修正为简单类别)，从而影响最终的模型性能。

另一类研究集中在样本选择或重加权上。样本选择方法主要寻求将样本划分为两个子集：噪声子集和干净子集。以往的方法倾向于将损失较小的样本视为干净样本。例如，JoCoR利用联合损失来选择小损失样本，以鼓励模型之间的一致性。然而，这些方法往往需要适当的先验知识(例如,一个预定义的下降速率或阈值)才能实现有效的样本选择。而且，以往的文献在样本选择时通常忽略了类别平衡，导致模型性能有偏。样本重加权可以看作是样本选择的一种变体，将其0/1加权方案平滑为较软的加权方案。在样本重加权方法中，置信度较高的样本被赋予较大的权重，而置信度较低的样本被赋予较小的权重。例如，L2RW提出基于元学习来分配不同的样本权重。然而，现有的样本重加权方法也往往需要先验知识(例如,干净样本的一小部分子集)。

发明内容

本发明的目的在于提出了一种基于自适应类别均衡的含噪声标签图像识别方法。

实现本发明目的的技术方案为：一种基于自适应类别均衡的含噪声标签图像识别方法，包括：

步骤1、构造带有噪声标签的图像识别训练数据集，并对数据进行强数据增强变换和弱数据增强变换；

步骤2、将弱数据增强变换后的图像输入深度神经网络进行特征提取和分类预测，基于预测结果确定全局阈值和局部阈值，并基于每个样本的给定标签预测置信度与自适应的全局和局部阈值对训练集进行划分，划分为噪声子集和干净子集；

步骤3、根据干净子集中所有样本对应的进行弱数据增强变换后的图像输入到深度神经网络得到的相应的预测概率和给定标签确定干净损失函数；

步骤4、将噪声子集中所有样本对应的进行弱数据增强变换后的图像输入到教师模型进行特征提取和分类预测，获得每个图像属于所有类别相应的预测置信度，将置信度最大的类别作为预测的类别结果，并将类别结果作为校正标签对应替换训练集中给定的标签；

步骤5、根据获取的校正标签以及相应的预测概率，确定交叉熵损失函数；

步骤6、计算干净子集弱数据增强后的分类类别标签和强数据增强之后的类别预测分布之间的一致性正则化损失函数；

步骤7：将干净损失函数、噪声损失函数和一致性损失函数进行线性加权，得到损失函数，反向更新深度神经网络权值，同时用更新后的深度神经网络权值更新教师模型；返回步骤2，直至达到设定的迭代次数，获得训练好的深度神经网络；利用更新后的深度神经网络识别含噪声标签图像。

优选地，弱数据增强变换的具体方法为：随机裁剪、随机反转以及归一化；强数据增强的具体方法为：随机裁剪、随机反转、自动增强以及归一化。

优选地，深度神经网络第t个历元的全局阈值具体为：

式中，C表示训练数据集中的类别数目，表示深度神经网络对于图片x_i在给定类别标签y_i上的预测概率，θ表示深度神经网络模型权值，m表示用来平衡全局阈值更新程度的系数，N表示数据集中的样本数目。

优选地，局部阈值的确定方法为：

确定深度神经网络在第t个历元上对每个类c的预测结果的期望具体为：

式中，C表示训练数据集中的类别数目，m表示用来平衡局部阈值更新程度的系数，N表示数据集中的样本数目；

根据以及全局阈值T_t，得到每个类c的局部阈值/>具体为：

式中，C表示训练数据集中的类别数目，max表示求取最大值。

优选地，在每个历元中将训练集D_train进行划分，划分为噪声子集D_noise和干净子集D_clean的具体方法为：

式中，表示深度神经网络对于图片x_i在给定类别标签y_i上的预测概率，表示图片x_i在给定类别标签y_i上的局部阈值。

优选地，干净损失函数具体为：

式中，p(x,θ)表示深度神经网络对于图片x在给定类别标签y上的预测概率，D_clean代表步骤2中划分的干净子集。

优选地，教师模型和步骤2中的深度神经网络结构相同，教师模型的参数使用深度神经网络模型每个训练迭代过程中网络模型参数来更新，以此完成教师模型的更新迭代。

优选地，根据获取的校正标签以及相应的预测概率，确定交叉熵损失函数的具体方法为：

利用均值和方差采用动态截断的正态分布来拟合校正结果的分布；

根据正态分布结果对校正标签赋权重，计算所有样本在校正标签和深度神经网络模型预测概率之间的交叉熵损失，具体为：

式中λ(x)表示动态截断的正态分布，表示强数据增强后的训练图片，θ表示深度神经网络参数，y^corr表示步骤4中使用教师模型获取的校正标签。

优选地，拟合的校正结果的分布具体为：

式中，λ_m表示权重的上限，μ_t和σ_t表示均值和方差，y^corr表示步骤4中使用教师模型获取的校正标签，表示深度神经网络对于图片x_i在给定类别标签y_i上的预测概率，θ表示深度神经网络参数；

其中：

优选地，一致性正则化损失函数具体为：

式中，λ(x)表示动态截断的正态分布，表示强数据增强后的训练图片，θ表示深度神经网络参数，y^corr表示步骤4中使用教师模型获取的校正标签。

本发明与现有技术相比，其显著优点为：。

(1)本发明提出了一种简单而有效的方法来处理噪声样本。以自适应和类别平衡的方式对样本进行选择和重新加权，缓解了对数据集依赖的先验知识的需求和类别不平衡带来的负面影响。

(2)本发明根据以数据驱动的方式估计的类特定阈值来选择样本，在样本选择中鼓励自适应和类平衡。

(3)本发明提出了基于周期性更新的截断正态分布的二次加权样本，以缓解由于标签校正不平衡导致的性能下降。

(4)本发明在识别出的干净样本上增加一个正则化损失项，以进一步增强模型的性能和鲁棒性。

下面结合附图对本发明做进一步详细的描述。

附图说明

图1为一种基于自适应类别均衡的含噪声标签图像识别方法流程图。

具体实施方式

一种基于自适应类别均衡的含噪声标签图像识别方法，具体步骤为：

在传统图像分类数据集中，图像和类别标签一一对应，当存在噪声标签(即，图像和类别标签不是一一对应)时，就构成含有噪声标签图像训练数据集D_train。

数据增强是指对图像进行变换，例如旋转，随机裁剪，模糊等操作，使用数据增强的目的是为了提高模型的鲁棒性。

强数据增强相对于弱数据增强对图像进行的变换更多更复杂。每一个原始图像训练数据集中的图片进行强和弱两种数据增强之后相当于得到两个图片，这样做的目的是为了在步骤5中计算一致性正则化，因为强和弱两种变换后图片输入到模型进行预测的结果应该尽可能一致，因为他们对应的都是同一个类别标签。

进一步的实施例中，将带有噪声标签的图像识别训练数据集中的所有图片进行三种数据增强：随机裁剪、随机反转以及归一化，记作弱数据增强；

然后对初始图像数据集中的图片再进行多种数据增强：随机裁剪、随机反转，自动增强，以及归一化，记作强数据增强。

步骤2：将弱数据增强变换后的图像输入深度神经网络进行特征提取和分类预测，针对弱数据增强后的图像，用深度神经网络在给定标签上的预测结果，按照类别计算全局阈值和局部阈值，并基于每个样本的给定标签预测置信度与自适应的全局和局部阈值对训练集D_train进行划分，划分为噪声子集D_noise和干净子集D_clean；

本发明提出了一种自适应和类别平衡的样本选择策略来解决上述问题。以逐epoch和逐类的方式自适应地调整阈值，以实现有效的干净样本识别。具体来说，本发明使用一个全局阈值和一个局部阈值，这两个阈值都是自适应的，以区分每个类别中的干净和噪声样本。由于交叉熵损失是无界的，本发明提出依靠给定标签预测概率来判断样本是干净的还是有噪声的。具有较高/>的样本更有可能具有正确的标签。其中(x_i,y_i)代表训练集中的图像和对应类别标签，θ代表深度神经网络模型权值，/>也就是代表深度神经网络对于图片x_i在给定类别标签y_i上的预测概率。

本发明根据所有训练样本上给定标签的平均预测概率来估计全局选择阈值，以反映网络的整体学习状态。这种设计使得全局阈值数据驱动，从而消除了对预定义阈值的需求。此外，本发明采用指数移动平均(EMA)进一步优化全局阈值，缓解了平均预测概率的大扰动导致的不稳定训练。通过采用初始值其中C代表训练数据集中的类别数目，本发明在第t个历元的最终全局阈值被定义为：

如前所述，仅使用一个全局阈值对训练集进行划分，忽略了各类别之间的差异性，会导致样本选择(即选择较少的复杂类别的样本作为干净数据)不平衡。容易分类的样本往往具有更好的学习能力和更高的从而需要更大的阈值来区分干净和噪声数据。因此，本发明额外提出了一种局部阈值方案来进一步调整全局阈值。本发明首先估计深度神经网络在第t个历元上对每个类c的预测结果的期望/>以揭示类特定的学习状态：

相应地，本发明通过归一化并将其与全局阈值T_t进行积分，得到每个类c的局部阈值/>

最后，通过统一本发明提出的全局和局部阈值，本发明在每个epoch中将训练集D_train进行划分，划分为噪声子集D_noise和干净子集D_clean：

步骤3：根据干净子集中所有样本对应的进行弱数据增强变换后的图像输入到深度神经网络得到的相应的预测概率和给定标签计算干净损失函数；

对于划分为干净子集D_clean中的所有样本，采用步骤1中的弱数据增强在深度神经网络的预测结果和给定标签计算干净损失函数，具体公式为：

步骤4：将噪声子集中所有样本对应的进行弱数据增强变换后的图像输入到教师模型进行特征提取和分类预测，获得每个图像属于所有类别相应的预测置信度，将置信度最大的类别作为预测的类别结果，并将类别结果作为校正标签对应替换训练集中给定的标签；

本发明提出了一种自适应和类平衡的重加权机制，根据样本的置信度自适应地为其分配不同的权重。具体来说，使用时间平均模型(即均值-教师模型θ^*)为检测到的噪声样本生成可靠的伪标签。通过引入历史模型，利用θ^*得到校正后的标签y^corr，以提高标签校正的可靠性，缓解传播误差问题。平师模型θ^*在梯度反向传播中不更新。θ^*在每个训练步t^*中更新如下：

相应地，噪声样本被赋予如下伪标签：

步骤5、根据获取的校正标签以及相应的预测概率，确定交叉熵损失函数。

如前所述，由于网络的有偏能力，标签校正结果可能是不平衡的。因此，本发明提出了一种重新加权的方法来自适应地为具有更高的校正置信度的(噪声)样本分配更大的权重。

使用预测概率也就是校正标签来揭示校正置信度。将底层样本权重拟合为一个动态截断正态分布，其在第t个历元的均值和方差分别为μ_t和σ_t。因此，样本权重以自适应的方式导出为：

其中λ_m是样本权重的上界。假设样本权重服从动态截尾正态分布，相当于将修正置信度对μ_t的偏离作为标签修正正确性的代理度量。校正置信度较高的样本比置信度较低的样本更不容易发生错误的标签校正，从而被赋予更大的权重。

此外，为了实现类平衡重加权和提高训练稳定性，本发明提出基于EMA对每个类c的历史估计来估计μ_t(c)和σ_t ²(c)：

其中：

动态截尾正态分布的μ_t和σ_t可以从基于等式的修正置信度分布中自适应估计得到。随着训练过程中模型性能的提高，μ_t逐渐增大，σ_t逐渐减小。由于正态分布的尾部呈指数紧增长，因此对校正置信度较低的样本赋予较低的权重。此外，进一步估计了类特定的μ_t和σ_t。这有效缓解了由于模型能力有偏导致的标签修正过程中的类别不平衡问题。

基于此，在噪声子集上得到加权损失：

式中：表示样本x的强增广视图。

步骤6、计算弱数据增强后的分类类别标签和强数据增强之后的类别预测分布之间的一致性正则化损失函数；最后，本发明在干净样本上引入了额外的加权分类损失也就是校正标签(类似于L_noise)来进一步增强模型的鲁棒性。该损失项隐式地鼓励来自干净子集的样本的弱增强和强增强视图之间的预测一致性，正则化模型以获得更好的性能。因此，本发明将这种损失称为一致性正则化损失，并计算如下：

步骤7：将干净损失函数、噪声损失函数和一致性损失函数进行线性加权，得到损失函数，反向更新深度神经网络权值，同时用更新后的深度神经网络权值更新教师模型；返回步骤23，直至达到设定的迭代次数，获得训练好的深度神经网络；利用更新后的深度神经网络识别含噪声标签图像。

将分别获取的干净损失L_clean、噪声损失L_noise和一致性损失L_reg进行线性加权，并得到损失函数L，再反向更新网络权值，完成标签去噪作业：

实施例进行更详细的描述。

为了证明本发明及本发明的每个组成部分的有效性，首先在人工合成的含有标签噪声的图像训练数据集CIFAR100上对本发明的性能进行实验验证，数据集中噪声数据含量为50％，并且使用的噪声标签类型是对称噪声。传统基线方法使用交叉熵损失在这个训练集进行前向训练，并且在相应的干净的测试集上仅仅取得了34.10％的准确率，而本发明取得了62.65％的准确率，实现了28.55％的测试集准确率提升。并且相应的在传统基线方法上逐渐结合本发明提到的自适应类别均衡样本选择、自适应类别均衡样本重赋权、一致性正则化，分别取得了58.21％、60.43％和62.65％的测试集准确率。可以验证本发明的在处理含有标签噪声的图像分类任务上的有效性和优越性能。

Claims

1.一种基于自适应类别均衡的含噪声标签图像识别方法，其特征在于，包括：

2.根据权利要求1所述的基于自适应类别均衡的含噪声标签图像识别方法，其特征在于，弱数据增强变换的具体方法为：随机裁剪、随机反转以及归一化；强数据增强的具体方法为：随机裁剪、随机反转、自动增强以及归一化。

3.根据权利要求1所述的基于自适应类别均衡的含噪声标签图像识别方法，其特征在于，深度神经网络第t个历元的全局阈值具体为：

4.根据权利要求1所述的基于自适应类别均衡的含噪声标签图像识别方法，其特征在于，局部阈值的确定方法为：

根据以及全局阈值T_t，得到每个类c的局部阈值/>具体为：

式中，C表示训练数据集中的类别数目，max表示求取最大值。

5.根据权利要求1所述的基于自适应类别均衡的含噪声标签图像识别方法，其特征在于，在每个历元中将训练集D_train进行划分，划分为噪声子集D_noise和干净子集D_clean的具体方法为：

式中，表示深度神经网络对于图片x_i在给定类别标签y_i上的预测概率，/>表示图片x_i在给定类别标签y_i上的局部阈值。

6.根据权利要求1所述的基于自适应类别均衡的含噪声标签图像识别方法，其特征在于，干净损失函数具体为：

7.根据权利要求1所述的基于自适应类别均衡的含噪声标签图像识别方法，其特征在于，教师模型和步骤2中的深度神经网络结构相同，教师模型的参数使用深度神经网络模型每个训练迭代过程中网络模型参数来更新，以此完成教师模型的更新迭代。

8.根据权利要求1所述的基于自适应类别均衡的含噪声标签图像识别方法，其特征在于，根据获取的校正标签以及相应的预测概率，确定交叉熵损失函数的具体方法为：

9.根据权利要求8所述的基于自适应类别均衡的含噪声标签图像识别方法，其特征在于，拟合的校正结果的分布具体为：

其中：

10.根据权利要求1所述的基于自适应类别均衡的含噪声标签图像识别方法，其特征在于，一致性正则化损失函数具体为：