CN115618236A

CN115618236A - 一种自监督的分布内、外噪声识别算法

Info

Publication number: CN115618236A
Application number: CN202211436901.6A
Authority: CN
Inventors: 姚亚洲; 申恒涛; 沈复民; 孙泽人
Original assignee: Nanjing Code Geek Technology Co ltd
Current assignee: Nanjing Code Geek Technology Co ltd
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-01-17
Anticipated expiration: 2042-11-16
Also published as: CN115618236B

Abstract

本发明公开一种自监督的分布内、外噪声识别算法，包括如下步骤：S1.首先，训练一个具有噪声鲁棒性的子中心分类器，并利用训练样本与其类别中心的距离来从全局的角度区分干净和噪声样本；S2.利用识别出的干净样本训练一个自监督策略的旋转检测模型。并利用该模型在噪声样本中辨别分布内和分布外的噪声；S3.最后，通过重标分部内噪声以及丢弃分布外噪声，实现网络数据的净化，本发明可以有效地缓解标签噪声带来的危害，显著地提升模型性能。

Description

一种自监督的分布内、外噪声识别算法

技术领域

本发明涉及噪声识别技术领域，具体为一种自监督的分布内、外噪声识别算法。

背景技术

至今，已有大量的标签噪声处理相关研究被发表，其提出的解决方法可以大致分为两类：噪声净化策略和噪声鲁棒策略。噪声净化策略旨在丢弃或修正错误的标签以减少标签噪声的影响，根据其处理方式（丢弃或修正）可大致分为样本选择策略和标签修正策略。

样本选择是一种非常直观的策略，通过直接丢弃噪声样本，能够从源头上解决标签噪声问题。但这种简单的策略无法充分地利用数据集，大量可以重标注的分布内噪声被丢弃。同时，在丢弃噪声样本的过程中，干净样本也有一定的可能被丢弃，进一步降低了数据集的利用率。除此以外，主流的样本选择策略（例如 Decoupling、Co-teaching、Co-teaching+、Peer-Learning以及JoCoR）倾向于在小批次（Mini-batch）的数据中进行噪声识别和丢弃操作。然而在训练过程中，不同小批次的噪声比率是不同的，该现象被称为噪声比不平衡（NoiseRate Imbalance）问题。上述算法难以在噪声比不平衡的小批次数据中表现出一致且稳定的噪声识别结果。总的来说，这类策略缺乏了一个基于数据集的全局视角，即无法明确地在整个数据集中识别出标签噪声。

标签修正（又称损失修正）策略通过矫正错误的标签使噪声样本得以应用在模型训练过程中，尽可能地利用数据集以提升模型性能。此类方法倾向于建模噪声分布或估计噪声转换矩阵。例如，在发表于2017年International Conference on LearningRepresentations会议上的“Training deep neural-networks using a noiseadaptation layer”文章中，在有标签噪声的条件下，可以将正确的标签看作一个潜在的随机变量，并通过一个参数未知的通信信道来建模噪声过程，因此可以用 EM 算法来寻找网络和噪声模型的参数，并估计正确的标签。由此观点出发，他们为模型增加了一个额外的Softmax 层来模拟 EM 算法优化的似然函数，以此来建模噪声分布并估计训练样本的正确标签，目前存在两种利用噪声转换矩阵来修正标签的算法，分别是反向损失矫正（BackwardLossCorrection）和前向损失矫正（Forward Loss Correction）。

虽然标签修正策略能充分利用数据集，但这类方法往往假设数据集中不存在分布外噪声，即所有的标签噪声都可以被修正，此类假设制约了标签修正策略的实用性。

发明内容

本发明的目的在于提供一种自监督的分布内、外噪声识别算法，以解决上述背景技术提出的问题。

为实现上述目的，本发明提供如下技术方案：一种自监督的分布内、外噪声识别算法，包括如下步骤：

S1.首先，训练一个具有噪声鲁棒性的子中心分类器，并利用训练样本与其类别中心的距离来从全局的角度区分干净样本和噪声样本；

S2.利用识别出的干净样本训练一个自监督策略的旋转检测模型，并利用该模型在噪声样本中辨别分布内和分布外的噪声；

S3.最后，通过重标分部内噪声以及丢弃分布外噪声，实现网络数据的净化。

进一步的，在S1中，首先将每个类别的中心 Wj扩展为 K 个子中心 [Wj1, Wj2 ,... , Wjk ]；然后，使用最大池化（Maxpooling）操作从子类级的余弦相似性提取出类别级的余弦相似性，子中心损失函数如下：

其中，

，为几个子类中心中最接近特征 fi 的中心与 fi 之间的角度。

更进一步的，通过设定阈值 thr来将网络训练样本 D区分为一个干净样本Dclean和噪声样本 Dnoisy：

（6.2）

其中，θx,y是样本 x 与其相应的类别中心 y 之间的夹角。

更进一步的,在S2中，利用自监督策略训练一个旋转检测器 Nrot，它以被旋转过的干净样本为输入，输出一个旋转角度的预测概率分布，旋转损失函数为：

（6.3）

其中，Rr(x)是输入样本 x 旋转变换后的图像，旋转角度 r ∈ {0°, 90°, 180°,270°}，one_hot(r) 是旋转角度 r 对应的独热标签。

更进一步的，在使用公式训练过程中，模型会学习到基础类别的形状和特征；在训练结束后，该模型即可用来识别分布外噪声，定义出一个样本属于分布外噪声的预测分数：

（6.4）

其中，std, softmax 以及 Nrot(Rr(x)) 分别表示计算标准差，Softmax 函数，以及旋转检测器 Nrot 对于输入图像 Rr(x) 预测的旋转角度概率分布。

更进一步的，对于输入图像 Rr(x) 预测的旋转角度概率分布,将低标准差的样本视为分布外噪声样本，从噪声集 Dnoisy 中选择 ns 个具有较低分布外预测分数Scoreood(x)的样本，作为分布内噪声集 Din_noisy：

（6.5）；

在区分完分布内和分布外噪声后，下一步可以重标注分布内噪声，使它们能够应用于模型训练。

更进一步的，在S3中，首先，使用子中心损失函数，即公式（6.1）在干净集 Dclean上训练一个用于重标注的分类网络 Nrelabel，网络训练完毕后可直接利用其预测结果对分布内噪声集 Din_noisy 进行重标注：

（6.6）；

重标注完成后，通过组合干净集 Dclean 和重标注集 Drelabeled 能获取一个净化后的数据集 Dpurified：

（6.7）。

更进一步的，使用标签平滑策略（Label Smoothing）策略来进一步提升模型性能；标签平滑通过给非标签类别分配一定的权重，能有效防止模型过拟合，为标签和其他类分别赋予ω 和

的权重，其表达式为：

（6.8）。

与现有技术相比，本发明的有益效果是：本发明首先利用子中心分类器来区分干净和噪声样本，区分出干净和噪声样本后，利用干净样本遵循自监督学习策略训练一个分布外噪声和分布内噪声区分模型，同时利用干净样本训练一个细粒度分类网络，对分布内噪声进行重标注操作，最后，丢弃分布外噪声，并将干净样本和重标注后的分布内噪声样本组合成一个新的数据集，实现网络数据集的净化，本发明可以有效地缓解标签噪声带来的危害，显著地提升模型性能，并且还通过半监督的实验，表明了净化后的网络图像作为人工标注训练集的数据增强可以有效地提升细粒度识别模型的性能。

附图说明

图1为本发明样本与主要子中心的夹角分布直方图；

图2为本发明算法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1和图2所示，本发明为一种自监督的分布内、外噪声识别算法，包含两个模块：训练子中心分类器和自监督的数据净化模型；

子中心分类器

（1）子中心损失函数

首先将每个类别的中心 Wj扩展为 K 个子中心 [Wj1, Wj2 , ... , Wjk ]。然后，使用最大池化（Maxpooling）操作从子类级的余弦相似性提取出类别级的余弦相似性。子中心损失函数如下：

（6.1）

其中，

，为几个子类中心中最接近特征 fi 的中心与 fi 之间的角度,根据归一化相关算法的研究结果，超参s设置为 30,子类别数目K对子中心损失函数的影响，表明 K = 3 是一个相对平衡稳定的设置，本发明算法首先利用子中心损失函数训练一个子中心分类器。

单中心损失函数在一定程度是一个噪声鲁棒的函数，学习类别中心可以视为一种聚类过程，由于在训练过程中干净样本一般数量更大且特征相近，所以它们对于类别中心的学习往往比噪声样本有更大的影响，最终表现为干净样本的特征与类别中心的夹角更小，相反，噪声样本则与类别中心的夹角偏大，子中心损失函数通过增加子中心的方式进一步增强了函数的噪声鲁棒性，由于干净样本之间较为相似，故它们在训练过程中有较大的可能被归类于同一个子中心。相反，标签噪声（尤其是分布外噪声）与干净样本在特征上有一定的区分，故有较大可能被分类于其他的子中心，训练结束后，包含了最多的样本的子中心被称为主要子中心（DominantSub-center），其他子中心称为非主要子中心（Non-Dominant Sub-center）；大部分干净样本会被归类于主要子中心而噪声样本则倾向于被归类至非主要子中心。依据该现象，可以设计一种噪声鉴别算法。

（2）噪声识别

为便于理解，下面将主要子中心也称为类别中心，以 Web-Bird 数据集为例，图1展示了各个样本与类别中心之间的夹角分布，角度在直方图中呈现出双峰分布，两个峰值分别对应了主要子中心和非主要子中心。由于干净样本在网络数据集中占为主体，所以大部分样本都被归类至主要子中心，而大量被归类于非主要子中心的噪声样本则与类别中心有较大的角度距离。基于这一现象，可以通过设定阈值 thr（如图1中虚线）的方式来将网络训练集 D区分为一个干净集 Dclean 和噪声集 Dnoisy：

（6.2）

其中，θx,y是样本 x 与其相应的类别中心 y 之间的夹角。从图1中，可以观察到大部分属于非主要子中心的样本被划分为标签噪声，同时一部分属于主要子中心的样本也被认为是标签噪声。其原因是，一部分标签噪声也可能以一个较大的角度被归类至类别中心。

与主流的基于小批次的噪声净化算法不同，本发明采用了全局的噪声识别策略，克服了小批次样本中存在的噪声比不平衡问题，能明确地在整个网络数据集中识别出标签噪声。

经过噪声识别操作，本发明已获取了干净集 Dclean 和噪声集 Dnoisy。下一步需要去除噪声集 Dnoisy 中的分布外噪声，并且重标注分布内噪声，以实现噪声净化。

自监督的数据净化

（1）分布外噪声样本识别

首先利用自监督策略训练了一个旋转检测器 Nrot，它以被旋转过的干净样本为输入，输出一个旋转角度的预测概率分布，旋转损失函数为：

（6.3）

其中，Rr(x)是输入样本 x 旋转变换后的图像，旋转角度 r ∈ {0°, 90°, 180°,270°}，one_hot(r) 是旋转角度 r 对应的独热标签。上述公式是一个自监督损失函数，不需要训练标签 y 作为输入，由于旋转检测是一个非常简单的任务，模型仅需要短时间的训练即可收敛，故将其训练周期设为 10。

由于细粒度图像同属于一个基础类别，所用它们之间有很多的相似之处，表现出相近的特征，在使用公式的训练过程中，模型会学习到基础类别的形状和特征。在训练结束后，该模型即可被用来识别分布外噪声；分布内样本与干净样本同属一个基础类别，所以模型能正常预测其旋转角度，并输出置信度较高的预测结果，相反，分布外噪声与干净样本特征区分较大，模型的预测结果会比较混乱；根据此现象，可以定义出一个样本属于分布外噪声的预测分数：

（6.4）

其中，std, softmax 以及 Nrot(Rr(x)) 分别表示计算标准差，Softmax 函数，以及旋转检测器 Nrot 对于输入图像 Rr(x) 预测的旋转角度概率分布；标准差反应了预测结果的置信度，即低标准差表示较低的预测置信度，故可以将低标准差的样本视为分布外噪声样本；在具体操作上，从噪声集 Dnoisy 中选择 ns 个具有较低分布外预测分数Scoreood(x)的样本，作为分布内噪声集 Din_noisy：

（6.5）

（2）重标注

首先，使用子中心损失函数（公式 (6.1)），在干净集 Dclean 上训练一个用于重标注的分类网络 Nrelabel。由于噪声样本已被丢弃，分类网络 Nrelabel 会有更好的性能，网络训练完毕后可直接利用其预测结果对分布内噪声集 Din_noisy 进行重标注：

（6.6）

（6.7）

至此，本发明已完成了数据集净化，网络数据集中的分布外噪声已被丢弃，分布内噪声已被重标注，净化后的数据集 Dpurified 可以直接用于训练一个性能更佳的细粒度分类模型。

（3）重训练

在最后阶段，使用净化后的数据集 Dpurified 重训练一个更加鲁棒的模型，同时，使用被广泛使用的标签平滑策略（Label Smoothing）策略来进一步提升模型性能，标签平滑通过给非标签类别分配一定的权重，能有效防止模型过拟合；具体而言，其为标签和其他类分别赋予了ω和

的权重，其表达式为：

（6.8）。

标签平滑仅用在了最后的重训练步骤，因为其对图1中的角度分布有较大的影响，进而会影响噪声识别操作。

基于以上思想，本发明所提出的自监督的分布内、外噪声识别算法流程如下：

1）输入：含噪网络训练集D、角度阈值thr以及重标注数目ns。

初始化子中心分类器Nsub、旋转检测器Nrot、重标注网络 Nrelabel以及分类网络Nfinal。

2）训练子中心分类器

使用网络训练集D，根据公式(6.1)训练子中心分类器Nsub。

噪声识别

计算每个训练样本与类别中心的夹角。

根据公式(6.2)，将网络数据集D拆分为干净集Dclean和噪声集 Dnoisy。

4）自监督的数据净化

使用干净集Dclean，根据公式(6.3)训练旋转检测器Nrot。

对于噪声集Dnoisy中的每个样本，根据公式(6.4)计算分布外预测分数Scoreood。

根据公式(6.5)，构建分布内噪声集Din_noisy。

使用干净集Dclean，根据公式(6.1)训练重标注网络Nrelabel。

根据公式(6.6)，构建重标注集Drelabeled。

根据公式(6.7)，获得净化后的数据集Dpurified。

5）重训练

使用净化集Dpurified，根据公式(6.8)训练分类网络Nfinal。

6）输出: 净化后的数据集Dpruified 以及更新后的分类网络 Nfinal。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自监督的分布内、外噪声识别算法，其特征在于，包括如下步骤：

S3.通过重标分部内噪声以及丢弃分布外噪声，实现网络数据的净化。

2.根据权利要求1所述的一种自监督的分布内、外噪声识别算法，其特征在于，在S1中，首先将每个类别的中心 Wj扩展为 K 个子中心 [Wj1, Wj2 , ... , Wjk ]；然后，使用最大池化Maxpooling操作从子类级的余弦相似性提取出类别级的余弦相似性，子中心损失函数如下：

（6.1）

其中，

3.根据权利要求2所述的一种自监督的分布内、外噪声识别算法，其特征在于，训练样本D通过设定阈值 thr来讲训练样本D分为干净样本 Dclean 和噪声样本 Dnoisy：

（6.2）

其中，θx,y是样本 x 与其相应的类别中心 y 之间的夹角。

4.根据权利要求1所述的一种自监督的分布内、外噪声识别算法，其特征在于，在S2中，利用自监督策略训练一个旋转检测器 Nrot，且被旋转过的干净样本为输入，输出一个旋转角度的预测概率分布，旋转损失函数为：

（6.3）

5.根据权利要求4所述的一种自监督的分布内、外噪声识别算法，其特征在于，分布外噪声的预测分数为：

（6.4）

6.根据权利要求5所述的一种自监督的分布内、外噪声识别算法，其特征在于，对于输入图像 Rr(x) 预测的旋转角度概率分布,将低标准差的样本视为分布外噪声样本，从噪声样本 Dnoisy 中选择ns个具有低分布外预测分数Scoreood(x)的样本，作为分布内噪声集Din_noisy：

（6.5）。

7.根据权利要求6所述的一种自监督的分布内、外噪声识别算法，其特征在于，在S3中，首先，使用子中心损失函数，即公式（6.1）在干净样本 Dclean 上训练一个用于重标注的分类网络 Nrelabel，网络训练完毕后可直接利用其预测结果对分布内噪声集 Din_noisy进行重标注：

（6.6）

重标注完成后，通过组合干净集 Dclean 和重标注集 Drelabeled 来获取一个净化后的数据集 Dpurified：

（6.7）。

8. 根据权利要求7所述的一种自监督的分布内、外噪声识别算法，其特征在于，使用标签平滑策略LabelSmoothing策略来进一步提升模型性能；标签平滑通过给非标签类别分配权重，能有效防止模型过拟合，为标签和其他类分别赋予ω和

的权重，其表达式为：

（6.8）。