CN115588124A

CN115588124A - 一种基于软标签交叉熵追踪的细粒度分类去噪训练方法

Info

Publication number: CN115588124A
Application number: CN202211592566.9A
Authority: CN
Inventors: 刘华峰; 黄丹; 孙泽人; 姚亚洲
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-01-10
Anticipated expiration: 2042-12-13
Also published as: CN115588124B

Abstract

本发明提出了一个简单且有效的样本选择策略，使用基于软标签交叉熵追踪的噪声去除方法，使细粒度图像分类神经网络训练过程可以使用含噪的互联网图像数据集提高细粒度分类性能同时减少噪声的影响。本发明的核心思想是设法排除互联网数据集中的无关噪声并利用困难样本促进模型精度的提高。具体来说，本发明首先利用软标签交叉熵来筛选出数据集中的无关噪声并在训练阶段从含噪互联网数据集排除，然后利用归一化和标签平滑策略挖掘困难样本同时避免出现过拟合。通过一系列的实验证明，本发明方法领先于当前的性能最优细粒度图像分类算法。同时，本发明还是一个互联网图像数据集监督学习方法，可以避免较大标注成本并扩充训练集的多样性。

Description

一种基于软标签交叉熵追踪的细粒度分类去噪训练方法

技术领域

本发明涉及细粒度图像分类识别的技术领域，具体涉及一种基于软标签交叉熵追踪的细粒度分类去噪训练方法。

背景技术

基于深度学习的细粒度图像分类任务需要用大规模的数据来训练和测试模型性能，而网络爬虫获取的网络图像数据集由于略过人工检查和复核，数据集无可避免地含有大量噪声。

为了抑制数据集中的各种噪声导致的负面影响，近年来不少研究都在探索如何识别和处理数据中的噪声样本。

去噪训练方法的核心观点就是将何时更新与如何更新这两个问题分开来处理。分别训练两个模型分支，每个分支独立给出某个样本的预测结果，而预测结果不一样的数据会被选中作为更新各个分支网络参数的样本。这一研究可以为基于互联网监督的细粒度图像分类方法提供合理的噪声样本处理策略，并被后续大量方法采用。虽然当前噪声识别和处理方法研究取得了一些成效但并不完善，模型的主要性能损失还是来自对抗噪声这一环节。

发明内容

本发明提出了一种基于软标签交叉熵追踪的细粒度分类去噪方法。该方法的主要是通过追踪神经网络输出的软标签分布变化区分噪声样本。主流噪声样本判定方法是在训练过程中动态地提高噪声丢弃率，而通过软标签交叉熵能够更好地识别噪声样本。软标签交叉熵追踪策略在训练的早期倾向于保留更多的实例并在噪声样本被“记住”之前不断地排除噪声样本，防止噪声样本最终被拟合进模型。

为解决上述技术问题，本发明提供了一种基于软标签交叉熵追踪的细粒度分类去噪方法，包括如下步骤：

步骤（A）:归一化，从互联网获取图像样本，并针对每个输入的图像样本x _i，获得其在第t−1和t−2轮训练输出的软标签，分别记为p(x _i ) ^t-1和p(x _i ) ^t-2；

步骤（B）：软标签交叉熵去噪，通过步骤（A）中标记的p(x _i ) ^t-1和p(x _i ) ^t-2，计算在第t轮训练时，p(x _i ) ^t-2与p(x _i ) ^t-1之间的交叉熵C(x _i ) ^t；

步骤（C）：困难样本利用，将步骤（B）中计算所得的交叉熵C(x _i ) ^t在第t轮训练将图像样本集分成有效样本子集和无关噪声样本子集；

步骤（D）：交叉熵C(x _i ) ^t一部分的样本在本轮训练中被识别成为无关噪声样本，并被丢弃；

步骤（E）：而交叉熵C(x _i ) ^t另一部分的样本在本轮训练中则被识别成为有效样本，并用于更新网络模型p；其中，被识别成为有效样本的标签将会经过标签平滑处理，其图像标签权重是ω。

优选，从互联网获取的图像样本为鸟类图像样本。

优选，在步骤（A）中，对特征和权重上使用了归一化，

随AMSoftmax的设定，特征f和权重W在无偏softmax损失中归一化

，无偏归一化损失公式：

其中，

表示第i个样本，对应的标签表示为

，

是最后一个全连接层的输入特征图，W _j是最后一个全连接层的第j列，M表示分类的类别个数，从而获得未归一化的特征距离度量：

其中，

是

与

之间的夹角，用来度量两者之间的差异，在完成归一化操作之后，即

且

时，网络模型的输出就是

与

之间的余弦距离

；

引入超参数s作为余弦距离的缩放参数，归一化后的损失函数表最后示为：

。

优选，将图像样本x _i与对应标签y_i组成一对训练数据(x _i , y_i)，定义D = {(x _i ,y_i)|1 ≤ i ≤ N} 是含有开集噪声的互联网图像数据集，并定义神经网络h = (h ₁, h ₂, .. . , h _M) 是被训练以区分M类别的分类模型；在第 t 轮训练中，利用神经网络输出的logits 向量h(x _i )为数据集D的各个实例x _i生成 Softmax 概率向量，记为p(x _i ) ^t = [ p ₁ (x _i ) ^t , p ₂ (x _i ) ^t , . . . , p _M (x _i ) ^t ]，xi∈D，生成公式如式：

当训练循环计数t > 2 时，对于每个输入的样本x _i，计算其预测时的 Softmax 概率向量p(x _i ) ^t-2与p(x _i ) ^t-1之间的交叉熵C(x _i ) ^t，即软标签交叉熵，计算方法如公

式：

。

优选，步骤（D）具体包括：定义本轮训练有效样本表示为x，且由其组成的有效样本子数据集为

，本轮训练识别出的无关噪声样本为

，且属于无关噪声子数据集

，那么描述为公式：

。

优选，当第t轮训练完成后，对样本的交叉熵进行排序，将一部分交叉熵C(x _i ) ^t的样本组成有效样本子数据集

更新网络模型，而另一部分交叉熵C(x) ^t的样本归为无关噪声样本子集

。

优选，在处理无关噪声样本时，从整个训练集中选取一部分交叉熵C(x _i ) ^t组成有效的训练样本子集

，同时另一部分交叉熵C(x) ^t的样本被当作无关噪声样本滤除，有效的训练样本的数量由丢弃率控制，在训练过程中逐渐达到最大值，如公式所示：

；

其中，r(t) 为第t轮训练时的噪声样本丢弃率，参数τ为噪声样本丢弃率的上限，t _k用来控制噪声样本丢弃率达到 τ 的过程；在训练过程中的t ≤ t _k时，通过以下公式约束，使得神经网络获得本轮训练集合

：

。

优选，在步骤（E）中，具体步骤为：为样本的真实标签赋一个权值ω，同时为样本标签外的其他类别赋予权值 (1 − ω)/(M − 1)，达到标签平滑的目的，其中ω是一个手工调节的超参数，平滑后的损失值：

其中，M是数据集的类别数量，j表示除了

以外的其他类别，参数ω的取值范围是ω∈ (0, 1)，其作用是控制预测值的置信度；

在经过标签平滑后，最终的损失函数：

。

本发明的有益效果：

1.大多数现存的去噪方法直接利用了样本预测过程的损失值界定对应样本是否是噪声，而基于软标签交叉熵追踪的细粒度分类去噪方法利用相邻两轮训练计算出的Softmax概率分布向量的交叉熵来挖掘潜在噪声样本，即“软标签交叉熵”。软标签交叉熵能够有效地利用软标签中编码的分类信息，并度量网络输出预测的改变程度。噪声样本可以使用软标签交叉熵追踪机制识别和排除，使模型在训练过程能够自动地过滤无关样本的干扰从而优化训练结果。

2.按照固定噪声丢弃率处理噪声后，会出现含噪较少的批次中干净样本被意外丢弃，同时含噪较多的批次保留了噪声，最终导致训练结果达不到预想的结果。针对逐批次选择样本受困于互联网图像数据集中常见的噪声比例不平衡的问题，本发明提出了基于软标签交叉熵的全局样本选择方法，全局样本选择的主要工作原理就是避免在批次内过滤噪声样本，在训练过程中，决策哪些样本是噪声样本哪些样本是干净样本放在一个训练轮次结束后实现，这样可以更好地识别和滤除噪声数据。最后，本发明还利用归一化和标签平滑等技巧提升了细粒度图像分类效果。

3.本发明提出了一个简单且有效的样本选择策略，使用基于软标签交叉熵追踪的噪声去除方法，使细粒度图像分类神经网络训练过程可以使用含噪的互联网图像数据集提高细粒度分类性能同时减少噪声的影响。本发明的核心思想是设法排除互联网数据集中的无关噪声并利用困难样本促进模型精度的提高。具体来说，本发明首先利用软标签交叉熵来筛选出数据集中的无关噪声并在训练阶段从含噪互联网数据集排除，然后利用归一化和标签平滑策略挖掘困难样本同时避免出现过拟合。通过一系列的实验证明，本发明方法领先于当前的性能最优细粒度图像分类算法。同时，本发明还是一个互联网图像数据集监督学习方法，可以避免较大标注成本并扩充训练集的多样性。

4.该发明使细粒度图像分类神经网络训练过程可以使用含噪的互联网图像数据集提高细粒度分类性能的同时减少噪声影响。通过一系列的实验证明，本发明的方法领先于当前的性能最优细粒度图像分类算法，具体（技术效果）表现为以下几个方面：

（1）使用软标签交叉熵追踪分布外噪声样本，以提高去噪性能；

（2）用“全局采样”代替“逐批次采样”，以克服噪声样本分布不平衡问题；

（3）同时利用归一化和标签平滑等技巧使目标模型能够有效地利用困难样本提升学习效果，提升了细粒度图像分类效果。

附图说明

图1是本发明提供的基于软标签交叉熵追踪的细粒度分类去噪训练框架图；

图2是本发明提供的各类图像细粒度分类模型的性能对比图；

图3是本发明提供的软标签交叉熵和普通交叉熵无关噪声样本的对比图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本发明提供了一种基于软标签交叉熵追踪的细粒度分类去噪训练方法，包括如下步骤：

步骤（A）：归一化，从互联网获取图像样本，并针对每个输入的图像样本x _i，获得其在第t−1和t−2轮训练输出的软标签，分别记为p(x _i ) ^t-1和p(x _i ) ^t-2；

步骤（D）：交叉熵C(x _i ) ^t一部分的样本（即较大的样本）在本轮训练中被识别成为无关噪声样本，并被丢弃；

步骤（E）：而交叉熵C(x _i ) ^t另一部分的样本（即较小的样本）在本轮训练中则被识别成为有效样本，并用于更新网络模型p；其中，被识别成为有效样本的标签将会经过标签平滑处理，其图像标签权重是ω。

在本发明中，特征向量归一化经常出现在需要计算特征距离的场景中，而在神经网络中最后一层一般是将输出的神经网络激活体投影成为一个向量并通过 Softmax 层进行归一化。 Softmax 层将特征向量的所有维度值都归纳到 (0, 1) 之间，同时通过指数函数扩大特定区段的分布差异性。名为 AM-Softmax 的方法通过引入 Additive AngularMargin 提高类间可分性同时加强类内紧度，进一步提高了归一化的效果。AMSoftmax继承但是不同于 Softmax，其属于度量学习领域。AMSoftmax可以使得类内的特征分布更加凝聚而类间分布更加分散。在步骤（A）中，本发明的算法在特征和权重上使用了归一化，

随上述AMSoftmax的设定，特征f和权重W在无偏softmax损失中归一化

，无偏归一化损失公式：

其中，

表示第i个样本，对应的标签表示为

，

其中，

是

与

且

时，网络模型的输出就是

与

之间的余弦距离

；

。

具体的，在步骤（C）中，将图像样本x _i与对应标签y_i组成一对训练数据(x _i , y_i)，定义D = {(x _i , y_i)|1 ≤ i ≤ N} 是含有开集噪声的互联网图像数据集，并定义神经网络h = (h ₁, h ₂, . . . , h _M) 是被训练以区分M类别的分类模型；在第 t 轮训练中，利用神经网络输出的 logits 向量h(x _i )为数据集D的各个实例x _i生成 Softmax 概率向量，记为p(x _i ) ^t = [ p ₁ (x _i ) ^t , p ₂ (x _i ) ^t , . . . , p _M (x _i ) ^t ]，xi∈D，生成公式如式：

当训练循环计数t> 2 时，对于每个输入的样本x _i，计算其预测时的 Softmax 概率向量p(x _i ) ^t-2与p(x _i ) ^t-1之间的交叉熵C(x _i ) ^t，即软标签交叉熵，计算方法如公式：

。

基于上文对无关噪声的性质的分析，概率向量的交叉熵C(x _i ) ^t揭示在第t轮训练时预测结果的稳定性：无关噪声样本在预测时相比干净样本的变化更大，即C(x _i ) ^t的值会偏大。

步骤（D）具体包括：定义本轮训练有效样本表示为x，且由其组成的有效样本子数据集为

，本轮训练识别出的无关噪声样本为

，且属于无关噪声子数据集

，那么描述为公式：

。

当第t轮训练完成后，对样本的交叉熵进行排序，将一部分交叉熵C(x _i ) ^t（即C(x _i ) ^t值较低的样本）的样本组成有效样本子数据集

更新网络模型，而另一部分交叉熵C(x) ^t（即C(x _i ) ^t值较高的样本）的样本归为无关噪声样本子集

。常见的方法往往通过交叉熵本身估计样本是否为噪声，但本发明提出的方法主要利用网络输出的 Softmax 概率向量（即软标签）的交叉熵识别噪声样本。这种方法用于区分噪声样本和有效样本且较常规方法更有效。

在本发明中，处理噪声样本的识别问题时需要假定噪声占比以确定滤除多少噪声，即确定在整个训练集中丢弃噪声样本的“丢弃率”（Drop Rate）。显然，在训练过程中采用固定丢弃率是不合适的，训练初期丢弃率设置偏大不利于鉴别噪声样本；在处理无关噪声样本时，需要确定在整个训练集中丢弃无关噪声样本的“丢弃率”（Drop Rate），本申请提出的噪声滤除方法是从整个训练集中选取一部分交叉熵C(x _i ) ^t（即C(x _i ) ^t值较低的样本）的样本组成有效的训练样本子集

，同时另一部分交叉熵C(x) ^t（即C(x _i ) ^t值较高的样本）的样本被当作无关噪声样本滤除，有效的训练样本的数量由丢弃率控制，在训练过程中逐渐达到最大值，如公式所示：

；

其中，r(t) 为第t轮训练时的噪声样本丢弃率（即假定噪声样本的比率），参数τ为噪声样本丢弃率的上限，t _k用来控制噪声样本丢弃率达到 τ 的过程；通过公式能够获得随着训练轮数的增加噪声样本丢弃比率达到极大值的过程。在训练过程中的t ≤ t _k时，r(t)在到达极大噪声样本丢弃比率前平稳增地长。通过以下公式约束，使得神经网络获得本轮训练集合

：

。

由公式可知，本申请提出的方法在每个训练周期t通过从含有开集噪声的互联网图像数据集D中选择 (1 − r(t)) × 100%个C(x) ^t较小的样本构成新的有效的训练样本子集

，其中

才是实际用来更新神经网络h参数的子数据集。

本发明提出的方法在早期训练过程 (t ≤t _k) 中使用了一个线性增长的丢弃率r(t)，以达到在训练早期尽可能地保留多的实例而在噪声被记忆效应“记住”之前增加噪声样本的排除力度。

在本发明步骤（E）中，被识别成为有效样本的标签利用标签平滑算法处理困难样本与噪声样本易被混淆的矛盾，其主要原理是通过在训练时降低模型的确定性来抑制模型过拟合。神经网络存在一些固有的缺点，即神经网络在训练过程中会对预测变得越来越自信，因为指导训练过程的是一个硬目标（hard target）。在现有技术的研究中发现标签平滑可以强制对分类进行更紧密的分组同时强制在类别中心之间保持更均匀的间隔，标签平滑为最终的激活产生了更紧密的聚类和更大的类别分离。这种能力可以帮助在训练细粒度分类神经网络的同时加强困难样本的训练。

具体步骤为：为样本的真实标签赋一个权值ω，同时为样本标签外的其他类别赋予权值 (1 − ω)/(M − 1)，达到标签平滑的目的，其中ω是一个手工调节的超参数，平滑后的损失值：

其中，M是数据集的类别数量，j表示除了

以外的其他类别，参数ω的取值范围是ω∈ (0, 1)，其作用是控制预测值的置信度；当ω的取值偏大的时候，神经网络模型的泛化能力能够得到一定的强化，而当ω的取值偏低的时候，可能会导致网络模型欠拟合。通过实验，我们可以观察到合理设置ω的取值可以明显地提高网络模型最终性能。

在经过标签平滑后，最终的损失函数：

。

为了更好的阐述本发明的使用效果，下面介绍本发明的一具体实施例。本发明使用 CUB200-2011、FGVC-aircraft 和 Cars-196等三个经过精细标注的常用细粒度图像分类性能基线数据集作为对比实验的测试数据集。上述三个数据集中的每个样本都提供了一个矩形边界框标注的目标及其子类别标签。

实验采用的性能度量标准与本领域研究保持一致为平均分类精度（AverageClassification Accuracy，ACA），ACA 被广泛用于评价细粒度图像分类的性能。在实现细节方面，实验直接利用了公开数据集作为训练集，该数据集由互联网上爬取的图片组成。实验同时利用了 CUB200-2011、FGVC-aircraft和 Cars-196作为测试集的数据来源。需要说明的是，实验中主要使用 VGG-16 和 ResNet-18 两种网络模型作为骨干网络。在参数设置方面，选定的最大噪声样本丢弃率 τ 从集合 {0.15, 0.20, 0.25, 0.30} 里产生，训练轮数 t_k从集合 {5, 10, 15, 20} 里产生，标签权重 ω 的取值范围是 [0.10, 0.90]。

为了分析本发明提出方法的实际性能特性，后续实验中对比了当前多个重要方法。实验中具体采用的对比方法按照设计思路的不同归纳列举如下：（1）基于强监督的细粒度图像分类方法；（2）基于弱监督的细粒度图像分类方法；（3）基于半监督的细粒度图像分类方法（4）基于互联网图像监督类的细粒度图像分类方法。本发明所有实验利用了一张NVIDIA Tesla V100 系列的计算加速卡作为加速设备，实验环境是 Pytorch 深度学习框架。

图2列举了各类图像细粒度分类模型的性能对比情况。图2所示的数据可以观察到本发明提出的方法 (软标签交叉熵)较其他网络监督的方法获得了明显的进步。

本发明还对比了采用软标签交叉熵（Probability Cross-Entropy）和普通交叉熵（Cross-Entropy）在含噪鸟类细粒度分类数据集上识别噪声样本的区别。首先，每轮训练产生的神经网络模型被保存，然后这些模型被用于识别干净样本、闭集噪声图像和开集无关噪声图像。为此，实验前需创建一个小型数据集，小数据集中包含 10 个干净样本、10 个闭集噪声样本和 10 个开集无关噪声样本，共计 30 个样本。实验记录了它们的软标签交叉熵和普通交叉熵，结果见图3。其中，虚线显示的是各类样本的具体样本交叉熵结果，实线为各类样本的交叉熵平均值。

观察图3(b) 可以发现无关噪声样本的软标签交叉熵值相比闭集噪声样本和干净样本的明显偏大。相比于干净样本，闭集噪声样本和无关噪声样本的软标签交叉熵都偏大。同时对比图3(a) 和图3(b) 可以发现，仅仅使用普通交叉熵是很难区分闭集噪声样本和无关噪声样本的，滤除无关噪声样本必须使用软标签交叉熵辅助才具有可行性。图2中对比了分别利用软标签交叉熵（Probability CE）和普通交叉熵（Cross-Entropy）识别噪声得到的ACA 性能指标，其中采用软标签交叉熵的噪声识别的方法在三个数据集中都微弱领先。原因在于一些困难样本在训练过程中反映出了与无关噪声相似的大交叉熵特性，这些困难样本被错误地识别为了噪声。

通过与其他网络图像监督的基线性能模型对比发现，本发明提出的算法能够比其他方法更快达到性能的峰值，由此可以验证本发明的样本选择算法的有效性和样本选择能力较基准模型要更强。通过在鸟类数据集上开展使用普通交叉熵和软标签交叉熵的实验，证明了本发明提出的软标签交叉熵在区分分布外噪声上较普通交叉熵有明显的优势。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例测试方法或流程所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于软标签交叉熵追踪的细粒度分类去噪训练方法，其特诊在于；包括如下步骤：

步骤（A）：归一化，从互联网获取图像样本，并针对每个输入的图像样本x _i，获得其在第t −1和t −2轮训练输出的软标签，分别记为p(x _i ) ^t-1和p(x _i ) ^t-2；

2.如权利要求1所述的一种基于软标签交叉熵追踪的细粒度分类去噪训练方法，其特征在于，从互联网获取的图像样本为鸟类图像样本。

3.如权利要求1所述的一种基于软标签交叉熵追踪的细粒度分类去噪训练方法，其特征在于，在步骤（A）中，对特征和权重上使用了归一化，

随AMSoftmax的设定，特征f和权重W在无偏softmax损失中归一化

，无偏归一化损失公式：

其中，

表示第i个样本，对应的标签表示为

，

其中，

是

与

= 1 且

= 1 时，网络模型的输出就是

与

之间的余弦距离

；

引入超参数s作为余弦距离的缩放参数，归一化后的损失函数表最后表示为：

。

4.如权利要求1所述的一种基于软标签交叉熵追踪的细粒度分类去噪训练方法，其特征在于，在步骤（C）中，将图像样本x _i与对应标签y_i组成一对训练数据 (x _i , y_i)，定义D ={(x _i , y_i)|1 ≤ i ≤ N} 是含有开集噪声的互联网图像数据集，并定义神经网络h =(h ₁, h ₂, . . . , h _M) 是被训练以区分M类别的分类模型；在第 t 轮训练中，利用神经网络输出的 logits 向量h(x _i )为数据集D的各个实例x _i生成 Softmax 概率向量，记为p(x _i ) ^t= [ p ₁ (x _i ) ^t , p ₂ (x _i ) ^t , . . . , p _M (x _i ) ^t ]，xi∈D，生成公式如式：