CN115578568A

CN115578568A - 一种小规模可靠数据集驱动的噪声修正算法

Info

Publication number: CN115578568A
Application number: CN202211420837.2A
Authority: CN
Inventors: 沈复民; 姚亚洲; 张传一; 孙泽人; 白泞玮
Original assignee: Nanjing Code Geek Technology Co ltd
Current assignee: Nanjing Code Geek Technology Co ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-01-06

Abstract

本发明公开一种小规模可靠数据集驱动的噪声修正算法，包括S1.采用骨干网络作为特征提取器，并为之搭配两个并行的全连接层作为预测头，输入图像特征，可输出相应的预测概率分布；S2.使用元预测头的预测概率作为伪标签，利用伪标签修正网络图像中错误的标签，联合使用伪标签和网络标签类训练模型对高比例噪声进行缓解；S3.依靠选择网络有效选择出分布内噪声样本，并通过重标注重新利用；本发明算法能有效地缓解标签噪声问题，并缓解了部分类别存在的高比例噪声问题。

Description

一种小规模可靠数据集驱动的噪声修正算法

技术领域

本发明涉及高比例噪声修正技术领域，具体为一种小规模可靠数据集驱动的噪声修正算法。

背景技术

噪声数据集的复杂性体现在噪声比例在各个类别之间是非均衡的，噪声类别（分布内、分布外）也是非均衡的，并且噪声比例可能异常地高，标签噪声甚至可能淹没干净样本。这些复杂的实际情况大大增加了处理标签噪声的难度。解决策略的复杂性体现在可以不局限于仅使用深度神经网络模型本身来解决复杂的标签噪声问题，可以设计更贴近于现实应用的算法。在此背景下，部分研究者尝试借助干净可靠的数据集来为模型提供先验知识，以此在含噪的数据集中实现高性能的噪声净化。

在发表于2018年Conference on Neural Information Processing Systems会议上的“Using trusted data to train deep networks on labels corrupted by severenoise”文章中，提出了一种基于小规模干净样本的标签修正算法，用来克服高比例的标签噪声。该算法借助干净样本提供的先验知识，有效地在高噪声环境下估计了噪声转换矩阵，并使用噪声转换矩阵来修正模型的训练损失。在发表于2017年IEEE InternationalConference on Computer Vision会议上的“Learning from noisy labels withdistillation”文章中，使用了一个规模相对略大的干净训练集，训练了一个教师模型。然后利用知识蒸馏策略，让教师模型对更大规模的网络图像生成伪标签。最后，在网络训练集上，同时使用网络标签和生成的伪标签来训练一个学生模型。Li 等人在研究中表明联合使用两种标签训练会比单独使用其中一个的风险更小。在发表于2018年 InternationalConference on Machine Learning会议上的“Learning to reweight examples forrobust deep learning”文章和发表于2019年Conference on Neural InformationProcessing Systems会议上的“Learning an explicit mapping for sample weighting”文章中，都采用了适合小样本学习的元学习策略，使用一个小规模的数据集来训练一个重加权模型，降低标签噪声的权重，其中，一种是在每个训练周期动态地计算各个样本的权重，而另一种则训练一个模型来表示“损失-权重”映射函数，即对于一个样本的训练损失产生一个相应的权重。该算法不仅可以用于缓解标签噪声问题，还可以用来解决长尾分布和难样本学习等问题；由于借助了可靠的先验知识，上述算法都能较为高效地处理标签噪声问题；

借助先验知识来估计噪声转移矩阵的策略得益于可靠数据的引导，能够缓解高比例噪声的问题，在高噪声环境中较为准确地估计出噪声转移矩阵。然而该方法只能处理人工环境下的噪声数据集，即数据集内所有的标签噪声都是分布内的。这个缺点源自于标签修正策略的局限性，导致此算法实用性较差，无法处理包含了分布外噪声样本的现实环境中的噪声数据集；

现有技术将知识蒸馏策略从模型压缩领域扩展到了标签噪声学习任务上，先使用人工标注的干净数据集来训练一个教师模型，再用教师模型对网络训练集中的样本生成软标签来训练学生模型；由于伪标签是由教师模型提供的，所以教师模型的性能对于整个算法来说至关重要，使用小规模数据集训练的教师模型容易遭受过拟合问题，导致其输出的标签可靠性降低；所以该方法往往需要一个规模相对较大（相较于本发明算法使用的小元集而言）的干净训练集来训练可靠的教师模型，其干净样本的数据量大约是网络数据集的四分之一；对于大量可靠标签的需求限制了该方法的实用性。此外，该方法总共包含训练教师模型和学生模型两个阶段，比较耗时；

重加权策略在可靠数据集上的要求与本发明算法一致，仅需要一个小规模的人工标注数据集；它们也同样使用了元学习策略来应对小样本的训练环境。虽然这类方法对数据集没有较高的要求，但其噪声处理策略太过简单，仅是通过学习一个加权系数来平衡干净样本和标签噪声之间的权重。这种简单的重加权操作难以处理复杂的网络图像噪声，也无法解决难样本与标签噪声相近的问题，同时也忽视了高噪声类别这种在实际应用中会出现的情况。此外，它们也没有充分利用人工数据集所包含的先验知识。

发明内容

本发明的目的在于提供一种小规模可靠数据集驱动的噪声修正算法，以解决上述背景技术提出的问题。

为实现上述目的，本发明提供如下技术方案：一种小规模可靠数据集驱动的噪声修正算法，包括如下步骤：

S1.对训练集D进行分类；

S2.采用一个骨干网络作为特征提取器，并为之搭配两个并行的全连接层作为预测头，两个预测头分别为网络预测头的元预测头，并且输入图像特征，可输出相应的预测概率分布；

S3.使用元预测头的预测概率作为伪标签，利用伪标签修正网络图像中错误的标签，联合使用伪标签和网络标签类训练模型对高比例噪声进行缓解；

S31.借助小损失准则在每个小批次中识别标签噪声；

S32.在干净样本和分部内燥样本声被识别后，可被用作模型训练；

S4.依靠选择网络有效选择出分布内噪声样本，并通过重标注重新利用。

进一步的，在S1中，训练集包括网络集和元集，其中含噪的网络训练集和小规模的元集分别表示为

和

，其中 M ≪ N，元集 Dm 的标签为人工标注，每个样本表示为 (xi, yi)，且包含了图像 xi 以及其对应的标签 yi。

进一步的，在S2中，预测头分别是网络预测头 hw 和元预测头 hm，骨干网络、网络预测头 hw 和元预测头 hm参数分别记为θf、θhw以及θhm；骨干网络 f 和网络预测头 hw可组成用于细粒度识别的分类网络 h，其参数记为θh = {θf , θhw}，此外，还涉及一个选择网络 Snet，其参数定义为θs；

(6.1)。

更进一步的，在S31中，模型在训练过程中会先学习干净的样本，然后再逐步拟合标签噪声，首先在模型预处理阶段T ≤ Ts，T 和 Ts 分别表示训练周期和预处理周期，直接利用整个数据集 D 来训练分类网络θh；在此阶段，对于每个迭代 t 中的小批次数据

，使用学习率为α的随机梯度下降优化器（SGD）来训练模型：

（6.2）

经过预处理阶段T ≥ Ts后，开始处理网络数据集 Dw 中的标签噪声，对于网络数据集 Dw 中的每个小批次

，首先选取 (1 −τ ) × 100% 比例的小损失样本作为干净样本，以此将该小批次划分为干净批

和噪声批

：

（6.3）

（6.4）

其中，τ表示为样本丢弃率，即噪声率。

更进一步的，干净批

中的训练样本直接被应用于模型优化；噪声批

中的图像被输入进选择网络 Snet 中来计算其属于分布内噪声的概率 Pin，进行进一步的样本筛选：

（6.5）

之后，有较高 Pin 的样本被识别为分布内噪声样本，并将经过重标注后再度应用于训练中，其他样本则被认为是分布外噪声并直接丢弃；分布内样本

的获取公式为：

（6.6）

其中，r 是基于小批次数据大小的重标注率。

更进一步的，在干净样本和分布内噪样本声被识别后，这两类训练数据可被应用于模型训练，分类网络参数θh 的更新方式如下：

（6.7）

其中，

是元预测头 hm 对于网络图像

的预测类别，预测置信度

被用作损失

的权重。

进一步的，元预测头 hm 和网络预测头 hw 是并行的两个预测头，它们都使用图像特征 f(xi) 作为输入，并输出相应的预测概率分布；在每个迭代 t中，从元集 Dm 中采样一个小批次数据

，并使用骨干网络f来对其中的每个样本

提取图像特征 f(

)；元预测头的参数θhm 可用如下方式更新：

（6.8）

对于两个预测头 hm 和 hw 采用了相同的学习率α，其原因是两个预测头都是结构相同的全连接层，其输入尺寸和输出尺寸均相同。

进一步的，在S4中，在每次迭代 t 中，从网络训练集 Dw 中采样一个小批量数据

，并通过如下方式构建分类器学习函数

：

（6.9）

从公式 (6.9)中可以观察到，选择网络

输出的概率被视为网络样本

在训练过程中的权重；在此公式中，分类网络的参数

为选择网络参数

的函数；下一步，使用元集Dm来优化选择网络参数

；在每次迭代 t 中，从元集Dm中采样一组小批量样本 Dm 并输入进参数为

的分类网络 h 中，然后根据网络输出计算元损失，则选择网络的参数

可用如下方式更新：

（6.10）

其中，

是选择网络

的学习率。

更进一步的，优化过程可以用如下方式来进行推导：优化过程可用如下方式来进行推导：

（6.11）根据上述计算推导过程，公式 (6.10)可被重写为如下形式：

（6.12）

在公式 (6.12) 中，系数

的影响至关重要；从公式 (6.11) 中可看出，

表示两种损失在分类网络 h 上计算出的梯度的相似程度；这两个损失分别为网络图像

的训练损失

以及干净图像

的元损失

，则系数

表示网络图像

的梯度与小批次元数据 Dm 的平均梯度的相似程度。

与现有技术相比，本发明的有益效果是：

1.本发明算法针对真实环境中的网络噪声数据集设计，通过结合样本选择和标签修正两大类算法，缓解了无法解决分布外噪声的缺点，能同时处理分布内和分布外两类噪声，更具实用性；此外，本发明算法还延续了使用干净样本提供的先验知识来缓解高比例噪声的研究思路，用来解决高噪声类别问题，本发明算法继承了其优点，弥补了其不足之处，更具实用性。

2.本发明算法仅需要一个小规模的干净数据集，相较于知识蒸馏策略限制更少；在算法设计方面，本发明算法吸取了知识蒸馏策略的思想，也是借助干净样本来提供可靠的先验知识，以实现高效的标签修正，为了适应小元集数据规模小的特点，对知识蒸馏策略进行了整合简化，使用了一个简单的元预测头 hm 来代替教师模型，避免了过拟合的问题，这种设计保留了为网络图像提供可靠伪标签的功能，并显著减少了模型参数量（从完整模型到一个简单的全连接层），同时整个算法可以实现端到端的训练，不再需要先后分别训练教师模型和学生模型，因此本发明提出的算法更具实用性，也更简单高效。

3.本发明算法通过训练元预测头 hm 和选择网络 Snet 来促进模型从可靠数据集中获得标签修正和样本选择的能力，尽最大可能地挖掘了人工标注图像的用途，在元预测头 hm 和选择网络 Snet 的帮助下，能够筛选出分布内噪声样本，并对其进行重标注来促进模型训练，对标签噪声的处理更加细致，此外还能够利用元预测头 hm 对网络图像生成可靠的伪标签，以此缓解了高噪声类别问题。如果难样本被误认为是标签噪声，其很可能会被选择网络 Snet 识别为分布内噪声图像，并经过重标注后应用到训练中。考虑到元预测头 hm 提供的伪标签是相对可靠的，那么本发明算法一定程度上也能缓解难样本与标签噪声难以区分的问题，相较于重加权策略，本发明算法充分利用了元集提供的先验知识，其能够实现在真实网络数据集上的鲁棒训练。

附图说明

图1为本发明算法流程图；

图2为本发明中元学习梯度反向传播计算图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1和图2所示，本发明为一种小规模可靠数据集驱动的噪声修正算法，本发明共使用了两种数据集，且对网络结构有所修改。为了便于论述和理解，先对算法中涉及的概念进行定义和解释；

在本实施例中对数据集进行分类：

将每个样本表示为 (xi, yi)，包含了图像 xi 以及其对应的标签 yi，含噪的网络训练集和小规模的元集分别表示为

和

，其中 M ≪ N，元集 Dm 的标签是人工标注的。整体的训练集 D = {Dw, Dm}包含了网络集和元集。

在本实施例中的网络结构和参数：

使用一个骨干网络 f 作为特征提取器，并为之搭配了两个并行的全连接层作为预测头；两个预测头分别是网络预测头 hw 和元预测头 hm，简称为网络头和元头，骨干网络和两个预测头的参数分别记为θf、θhw 以及θhm。骨干网络 f 和网络头 hw 可以组成用于细粒度识别的分类网络 h，其参数记为θh = {θf , θhw}。此外，还涉及一个选择网络Snet，其参数定义为θs。

在本实施例中的标签表示和损失函数：

独热标签的分布 q 可以表示为 q(c = yi|xi) = 1, q(c ̸≠ ̸yi|xi) = 0，其中 c 表示各个类别，为了提升模型的泛化性，采用了标签平滑策略，平滑后的标签分布表示为 q(c = yi|xi) = 1 −ϵ, q(c ≠yi|xi) =

，其中 C 表示类别总数。

（6.1）

由于交叉熵损失函数对标签噪声是敏感的，并且深度神经网络有足够的容量来记忆标签噪声，直接使用上述交叉熵公式在噪声数据集 Dw 上训练模型会导致较差的模型性能，目标是利用小元集 Dm 提供的先验知识，引导分类网络 h 在含噪网络数据集 Dw 上进行鲁棒的训练。

在本实施例中，如图1所示，关于深度神经网络记忆效应的研究表明，模型在训练过程中会先学习干净的样本，然后再逐步拟合标签噪声。考虑到该现象，首先在模型预处理（warm-up）阶段（T ≤ Ts，T 和 Ts 分别表示训练周期和预处理周期），直接利用整个数据集 D 来训练分类网络θh。在此阶段，对于每个迭代 t 中的小批次数据

，使用学习率为α 的随机梯度下降优化器（SGD）来训练模型：

（6.2）

经过预处理阶段后（T ≥ Ts），开始处理网络数据集 Dw 中的标签噪声。首先，借助广泛使用的小损失准则在每个小批次数据中识别标签噪声。其标准为选取小训练损失的样本作为干净样本，大损失的作为标签噪声。具体而言，对于网络数据集 Dw 中的每个小批次

和噪声批

：

（6.3）

（6.4）

其中，τ表示为样本丢弃率（噪声率）。然后，干净批

中的训练样本直接被应用于模型优化。噪声批

中的图像被输入进选择网络 Snet 中来计算其属于分布内噪声的概率 Pin，以便进行进一步的样本筛选：

（6.5）

之后，有较高 Pin 的样本被识别为分布内噪声样本，并将经过重标注后再度应用于训练中。其他样本则被认为是分布外噪声并直接丢弃。分布内样本

的获取公式为：

（6.6）

其中，r 是基于小批次数据大小的重标注率。

在干净样本和分布内噪样本声被识别后，这两类训练数据可以被应用于模型训练。具体来说，元预测头 hm 对这些样本预测的概率分布 pm(

) 会被用作伪标签。被识别为干净的训练图像会同时使用网络图像标签

和伪标签 pm(

) 进行训练。而分布内噪声则仅使用伪标签进行训练。分类网络参数θh 的更新方式如下：

（6.7）

其中，

是元预测头 hm 对于网络图像

的预测类别，预测置信度

被用作损失

的权重。

分类网络 hm 的训练方式如上所述。其中，元预测头 hm 和选择网络 Snet 都是利用可靠的元集 Dm 进行训练的。

在本实施例中，从图 1中可以看出，元预测头 hm 和网络预测头 hw 是并行的两个预测头，它们都使用图像特征 f(xi) 作为输入，并输出相应的预测概率分布。元头 hm 与网络头 hw 的不同之处在于它仅使用可靠的小元集 Dm 进行训练。具体而言，在每个迭代 t中，从元集 Dm 中采样一个小批次数据

，并使用骨干网络 f 来对其中的每个样本

提取图像特征 f(

)。然后，元头的参数θhm 可用如下方式更新：

（6.8）

从公式 (6.8)中可以发现，本发明对于两个预测头 hm 和 hw 采用了相同的学习率α，其原因是两个预测头都是结构相同的全连接层，其输入尺寸和输出尺寸都是一样的。在训练框架中，元预测头 hm 用于动态地对网络训练集 Dw 中的样本更新伪标签。

本发明直接使用在整个数据集上训练的特征提取器 f 来提取图像特征，并简单的使用一个全连接层作为元预测头 hm。这样的设计有两个优点：不仅可以防止过拟合，使训练出的 hm 更具泛化性；还能够节约训练资源和时间。具体而言，假设本发明中的算法使用一个完整的深度网络模型来代替元预测头，即在元集上训练一个包含特征提取的分类网络用于对网络图像产生伪标签。那么该网络在训练过程中很可能会过拟合数据集，因为元集的规模很小。过拟合的网络难以产生可靠的软标签来监督网络图像的训练。相反，算法中使用的特征提取器 f 是通过大量的图像进行训练的，因此其具有较强的泛化性和鲁棒性。在训练框架中，元预测头 hm 不需要学习特征提取，仅需要学习利用图像特征来产生类别预测。在这种情况下，它不容易产生过拟合问题。此外，与一个完整的深度神经网络模型相比较，一个简单的全连接层的参数是非常少的，它仅占用了少量的计算资源，这样的设计使本发明更具实用性。

从训练框架中可以发现，元预测头对识别为干净的样本和分布内噪声都提供了伪标签作为监督信息，在公式 (6.7) 中实现了标签修正。虽然所提的算法首先利用小损失准则对网络图像进行了样本选择，但其噪声识别结果不可能是完美的，部分噪声样本仍然有机会影响模型的训练，尤其是在噪声比例较高的类别中。为了降低噪声影响的风险，本发明中的算法使用元头的预测概pm(

) 作为伪标签，并且在公式 (6.7) 中联合使用伪标签和潜在含噪的网络标签作为被识别为干净样本的监督信息；该策略受知识蒸馏思想所启发。Li 等人在研究中表明，联合使用知识蒸馏得到的软标签和潜在含噪的标签会比单独使用其中的一种的风险更低。在干净样本的训练策略上，本发明中的算法延续了这一思路，而对于分布内噪声样本，直接使用元预测头的概率分布pm(

)作为监督信息来代替其错误的标签。

由于元头 hm 仅从一个小规模的数据集进行学习，故它仍有可能产生错误的预测结果（标签），尤其是在网络训练的初期阶段。为了解决该问题，公式 (6.7) 中使用了预测置信度

来对损失进行重加权。如果一个样本的预测结果是相对不可靠的（即较低的

，那么其损失会被相应地降低。在这种策略下，不可靠的伪标签会被抑制，训练过程会更加平滑。随着元头 hm 的训练逐渐收敛，其产生的伪标签也越来越可靠，损失的权重会上升。模型在此过程中逐步借助更可靠的伪标签进行训练，实现稳步的性能提升。

元预测头 hm 在整个算法框架中的作用为提供伪标签，以进行标签修正。通过这种方式，本发明中的算法能缓解高噪声类别问题。如果某些类别的噪声比率很高，那么标签噪声可能会淹没干净样本，使得模型无法利用网络头 hw 的训练损失来区分干净和噪声样本。即在这种情况下，常用的小损失准则很可能是失效的，会导致模型在这些高噪声类别上表现出极差的分类准确度，最终破坏模型的整体分类性能。然而，标签修正策略不受噪声比率的影响，因为网络图像的伪标签pm(

) 是从可靠的小元集中学习得出的，伪标签的产生过程与网络标签无关。在训练过程中，伪标签能够平滑地修正网络图像潜在的错误标签，进而减少模型被标签噪声误导的风险，提升高噪声类别的分类准确率。

在本实施例中，使用小元集 Dm 训练了一个选择网络 Snet 用于从噪声样本中识别出分布内噪声图片，其结构和训练机制已展示于图 1中。具体而言，选择网络 Snet 采用了一个多层感知机（Multilayer Perceptron，MLP）网络结构。它唯一的隐藏层包含了 256个神经元，并使用 ReLU 激活函数。该网络以图像特征为输入，并输出该样本属于分布内图像的概率。

由于其输出的是一个概率值，故使用了 Sigmoid 激活函数对其输出进行归一化，使其结果在 [0, 1] 范围内。由于元集 Dm 规模很小，导致常规的训练策略很容易产生过拟合问题，故采用了元学习策略。该训练方式常用于小样本学习（Few-shot）任务中，不需要大规模的数据集也能训练出较为鲁棒的模型；下面将详述具体的训练过程：

首先，在每次迭代 t 中，从网络训练集 Dw 中采样一个小批量数据

，并通过如下方式构建分类器学习函数

：

（6.9）

从公式 (6.9)中可以观察到，选择网络

输出的概率被视为网络样本

在训练过程中的权重；在此公式中，分类网络的参数

为选择网络参数

的函数；下一步，使用元集Dm来优化选择网络参数

可用如下方式更新

（6.10）

其中，

是选择网络

的学习率。

如图2所示，参数

通过公式 (6.10) 的优化过程可以通过元学习的形式，借助梯度的反向传播实现。

公式 (6.10)和图1所展示的优化过程可以用如下方式来进行推导：

（6.11）

根据上述计算推导过程，公式 (6.10)可以被重写为如下形式：

（6.12）

在公式 (6.12) 中，系数

的影响至关重要。从公式 (6.11) 中可看出，

表示了两种损失在分类网络 h 上计算出的梯度的相似程度。这两个损失分别为网络图像

的训练损失

以及干净图像

的元损失

。则系数

表示了网络图像

的梯度与小批次元数据 Dm 的平均梯度的相似程度。如果一个网络图像是分布内的，那么其在分类网络训练过程中产生的梯度往往与元集中的干净样本的梯度较为相近，系数

会增大，那么，根据公式 (6.12)，

会朝着增大选择网络

输出的方向进行优化相反，分布外噪声对网络训练产生的梯度往往与干净样本相异，

会朝着减少选择网络

输出的方向进行优化。在这个训练过程中，选择网络

会逐渐增加分布内图像的分数（预测概率），并降低分布外图像的分数，最终学习到如何利用图像特征来鉴别分布内和分布外图像。

由于使用的元学习算法是比较耗时，在实际应用中，它的训练时长几乎是普通训练策略的5倍，考虑到这个问题，在训练选择网络

时采用了提前停止（Early Stopping）策略用以节约训练时间；此外，提前停止技巧还可以防止模型过拟合，增强模型的鲁棒性。具体而言，选择网络

仅在预处理阶段（T ≤ Ts）进行训练，并记录每个网络样本

属于分布内图像的概率

。预处理阶段结束后，直接使用记录中的分布内概率

来筛选分布内噪声样本。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种小规模可靠数据集驱动的噪声修正算法，用于提升高噪声类别的识别准确率，其特征在于，包括如下步骤：

S1.对训练集D进行分类；

S2.采用一个骨干网络f作为特征提取器，并为之搭配两个并行的全连接层作为预测头，并且输入图像特征，可输出相应的预测概率分布；

S3.使用元预测头的预测概率作为伪标签，利用伪标签修正网络图像中错误的标签，联合使用伪标签和网络标签类训练模型对高比例噪声进行缓解，具体为：

S31.借助小损失准则在每个小批次中识别标签噪声；

2.根据权利要求1所述的一种小规模可靠数据集驱动的噪声修正算法，其特征在于，在 S1中，训练集包括网络集和元集，其中含噪的网络训练集和小规模的元集分别表示为

和

，其中 M ≪ N，元集 D^m 的标签为人工标注，每个样本表示为 (x_i, y_i)，且包含了图像 x_i 以及其对应的标签 y_i。

3.根据权利要求1所述的一种小规模可靠数据集驱动的噪声修正算法，其特征在于，在 S2中，预测头分别是网络预测头 hw 和元预测头 hm，骨干网络、网络预测头 hw 和元预测头 hm参数分别记为 θf、θhw以及 θhm；骨干网络 f 和网络预测头 hw 可组成用于细粒度识别的分类网络 h，其参数记为θh={θf,θhw}，此外，还涉及一个选择网络 Snet，其参数定义为 θs；独热标签的分布 q 表示为 q(c = yi|xi) = 1, q(c ≠yi|xi) = 0，其中 c 表示各个类别；为了提升模型的泛化性，采用标签平滑策略，平滑后的标签分布表示为q(c = yi|xi) = 1 − ϵ, q(c ≠yi|xi) =

，其中 C 表示类别总数；

(6.1)。

4.根据权利要求1所述的一种小规模可靠数据集驱动的噪声修正算法，其特征在于，在 S31中，模型在训练过程中会先学习干净的样本，然后再逐步拟合标签噪声，首先在模型预处理阶段T ≤ Ts，T 和 Ts 分别表示训练周期和预处理周期，直接利用整个数据集 D 来训练分类网络 θh；在此阶段，对于每个迭代 t 中的小批次数据

，使用学习率为α的随机梯度下降优化器来训练模型：