CN114091665A

CN114091665A - 一种训练深度神经网络的方法及这种网络

Info

Publication number: CN114091665A
Application number: CN202011534004.XA
Authority: CN
Inventors: 伊莱厄·阿拉尼; 法赫德·萨尔夫拉兹; 巴赫拉姆·佐努兹
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2020-07-30
Filing date: 2020-12-21
Publication date: 2022-02-25
Also published as: US20220044116A1

Abstract

一种使用带有标注标签的数据集训练深度神经网络的方法，其中至少两个模型被协作地并发训练，并且其中每个模型用监督学习损失和模仿损失进行训练，其中监督学习损失涉及从环境提示中学习，且来自模仿损失的监督与跨模型学习(culture leaning)中的模仿(imitation)有关。

Description

一种训练深度神经网络的方法及这种网络

技术领域

本发明涉及一种利用带有标注标签的数据集训练深度神经网络的方法。

背景技术

深度神经网络(DNN)已被证明很容易适应(fit)随机标签^[2]，这使得有效训练模型变得具有挑战性。关于在标签有噪声下训练的现有技术方法，主要可大致分为两种方法：i)通过估计噪声过渡矩阵(noise transition matrix)纠正标签^[3，7]，ii)识别有噪声标签以滤除^[4，8]这些样本或降低其权重^[5，6]。然而，前一种方法依赖于准确地估计噪声过渡矩阵，但较为困难，尤其是类别较多时；后一种方法则需要用于识别有噪声标签和/或估计噪声样本的百分比的有效方法。在这些方法中，目前较多着重于分离噪声样本和干净样本，其中共同的标准是将低损失样本视为干净标签的代表^[1，4]。但是，较难的样本可能会被认为是有噪声的，因此该模型可能会偏向于简单实例。两种方法都认为标注质量是导致模型性能下降的主要原因，因此提出的解决方案都依赖于准确地重新标注、滤除带有不正确标签的样本或降低其权重。

发明内容

与先前的方法相反，本发明着重于使基础的训练框架对有噪声标签更具鲁棒性，而不是着重于标注。标准训练程序缺乏鲁棒性可以归因于许多因素。交叉熵损失使单热编码标签和学习的表示(learned representation)之间的共同信息(mutual information)边界最大化。接受训练的模型得不到到有关类别之间数据点相似性的信息，因而当提供的标签不正确时，将缺乏有关样本的有用信息的来源，或缺乏额外的监督(supervision)来减轻有噪声标签的不利影响。而且，还缺少阻止模型记忆训练标签的正则化手段。

为了至少部分地解决神经网络训练中的上述缺点，根据本发明的方法，至少两个模型同时进行协作训练，其中每个模型用监督学习损失和模仿损失来训练，其中监督学习损失涉及从大地实况标签(ground-truth label)学习，而来自模仿损失的监督涉及两个模型输出的对齐。

因此，除了监督学习损失之外，每个模型还以模仿损失进行训练，该模仿损失使两个模型的后验分布对齐，以建立关于次级类别概率和主要类别预测的共识。本发明的方法被称为有噪声并发训练(NCT)。

有利的是，两个模型被分别初始化。

具体来说，NCT涉及协同地训练模型，从而通过监督学习损失和模仿损失的组合来训练每个模型。尽管大地实况标签(环境因素)可能有噪声，但DNN倾向于在记忆有噪声标签之前先优先学习简单模式，因此在学习的初始阶段，模型训练的重点是使用监督学习损失，并逐渐增加两个模型(种群：population)的适应度(fitness)。

在学习的初始阶段之后是训练推进的阶段，模型训练的重点转向依赖模仿损失，其中监督学习损失的相对权重降低。随着训练的推进，信息质量阈值因此增加，从而模型可以更多地依赖于彼此模仿和建立共识。这是使用动态平衡方案模拟的，该方案逐渐增加模仿损失的权重，同时减少监督学习损失的权重。因此，当训练推进时，模型就其累积的知识建立共识，并对齐其后验概率分布。为了训练模型，模仿损失除了提供单热标签外，还提供额外的监督信号。这样，模型也可以从带有不正确标签的训练样本中学习有用的信息。

此外，为防止记忆，优选的是在训练的过程中，从数据集中批量抽取的随机样本的标签，被更改为随机类，该随机类由至少两个模型独立地从每个批次的总类别数的均匀分布中抽取。这种技术被称为目标可变性(target variability)，具有多种用途：向模型指示不要过多地依赖于有噪声标签，从而隐式地提高信息质量阈值，有力地抑制对训练标签的记忆，并且还保持两个模型有足够的差异化，以避免由于方法退化到自我训练而引起的确认偏差。

优选地，将目标可变性独立地应用于每个模型，以使得两个网络保持足够的差异化，使得可以共同过滤不同类型的误差。

有利地，目标可变率(target variability rate)初始为低，以允许模型有效地学习简单的模式，并且在训练过程中逐渐增加，以对抗该模型进行记忆的趋势。

本发明的方法得到了一种具有鲁棒性的学习框架，其允许在标签有噪声水平较高的条件下有效地训练深度神经网络。这显著提高了模型在标注质量通常不理想的实际情况下的实用性。

因此，本发明的方法使得能够使用大规模的自动标注的和众包的数据集来学习丰富的表示，其可用于后续的下游任务，例如分割(segmentation)、检测(detection)和深度估计(depth estimation)等。改进的表示可增进下游任务的性能，在自动驾驶汽车和/或高精度地图创建等各种行业中有着广泛应用。

根据本发明的深度神经网络优选用作从包括分割、检测和深度估计中选择的一个或多个后续图像或视频任务的框架。

此外，根据本发明的深度神经网络优选嵌入自动驾驶和/或高精度地图更新系统中。

在下文中，将参考根据本发明的方法的示例性实施例来进一步阐明本发明，本发明并不限于该示例性实施例，而是限于所附权利要求书。

附图说明

在附图中，以单个图1示意性地示出了两个模型同时进行协作训练。

具体实施方式

给定一个含有N个样本的数据集D＝{x(i)，y(i)}(i＝1到N)，其中x(i)是输入图像，而y(i)是在可能有噪声的C分类上的单热大地实况标签，本发明的方法NCT用公式表示为由θ₁和θ₂参数化的两个网络的队列之间的动态协作学习。每个网络都经过有监督损失(标准交叉熵L_CE)和模仿损失(Kullback-Leibler散度，D_KL)进行训练。每个模型的总损失如下：

其中σ是softmax函数，z_θ是输出对数几率(output logit)，τ是温度，通常设置为1。使用更高的τ值会在类别上产生更软(softer)的概率分布。调整参数α∈[0，1]可控制上述两个损失之间的相对权重。

为了进行推断，使用了两个模型的总集平均(average ensemble)，

动态平衡

给定一个干净标签和有噪声标签的混合，DNN倾向于在记住有噪声标签之前优先学习简单模式并拟合干净数据[2]。NCT采用动态平衡方案，因而初始的这两个网络从有监督损失中学习更多，即有较小的α_d值，并且随着训练的推进，这些网络更多地集中于建立共识和通过D_KL调整其后验分布，即α_d→1。为了模拟这种行为，下面使用了Sigmoid斜坡生长函数(sigmoid ramp-up function)[10]，

其中α_max是最大α值，e是当前纪元，e_r是斜坡生长的长度(即α_d达到最大值的纪元)，β控制函数的形状。图1显示了不同β值的动态平衡函数。

动态目标可变性

NCT使用目标可变性，从而针对训练批次中的每个样本，按概率r将单热标签更改为从类别C的均匀分布中采样的随机类。目标可变性作为正则器，防止模型记忆标签。目标可变性被独立地应用于每个模型，从而使两个网络保持足够的差异化，以便可以共同过滤不同类型的误差。由于网络倾向于在训练的后期阶段记住有噪声标签，因此NCT采用动态目标可变性，因此初始时期的目标可变率较低，并且在训练过程中逐渐增加(图1)。NCT使用对数斜坡生长函数，

其中r_min和r_max是最小和最大目标可变率，e是当前纪元，e_max是纪元总数，e_w是预热长度。算法1和2中总结了该方法的细节。

结果

接下来，将NCT与在相似实验设置下的多种基线方法进行比较。由于数据集的质量不是先验已知的，因此学习方法应该同时适用于有噪声数据集和干净的数据集。因此，我们比较了干净和不同级别标签噪声的方法。表1显示了针对较低噪声水平有一致的改进。在干净的CIFAR-100上，M-Correction和NCT之间的差距相当可观。然而，与M-Correction相比，本发明的方法对于很高水平的对称噪声(50％)而言并非最优。表2示出了本发明的方法的有效性在CIFAR数据集之外，推广到了复杂的Tiny-ImageNet分类任务。对于对称噪声，出现了与CIFAR数据集相似的模式。对于可能更好地模拟实际噪声的非对称噪声，NCT在泛化方面提供了重大改进。M-Correction对非对称噪声表现出不稳定的行为，显示为性能上的高标准偏差。

为了验证NCT的实际运用，本方法在两个真实的有噪声数据集上作了进一步比较。表3显示，与WebVision数据集上的现有技术方法相比，NCT提供了可观的性能提升(top1精度提高了约10％)。对于Clothing1M，表4提供了优于P型校正的边际增益。

基准数据集的干净版本和有噪声版本的经验结果以及对现实世界中的有噪声数据集的一致改进，证明了NCT作为一种通用的学习框架的有效性，本框架对标签噪声具有鲁棒性。

表1.与现有方法在具有对称噪声的CIFAR-10和CIFAR-100数据集上的比较。基线结果复制自Arazo等人[1]，与之相比，本发明的方法在所有纪元(最好)和最终纪元准确性(最差)中显示出最高的测试准确度(％)。对于本发明的方法，本文报告了三种不同种子值的平均值和1STD。

表2.与现有方法在具有对称和非对称对翻转噪声的Tiny-ImageNet数据集上的比较。基线结果复制自Yu等人[8]，与之相比，本发明的方法最后10个纪元上显示了最好(Best)和平均(Avg.)测试准确度(％)。为了进行公平的比较，M-Correction在中使用他们论文中提到的公开代码和超参数的噪声仿真上运行[8]。我们还在干净的数据集上运行了Standard和Co-teaching+。

对于执行的所有这些实验，我们报告了三种不同种子值的平均值和1STD。

表3.与先前方法在WebVision数据集上训练的比较。基线结果复制自Chen等人[14]，与之相比，我们报告了WebVision和ImageNet ILSVRC12验证集的最终准确性(％)。对于本发明的方法，我们报告了三种不同种子值的平均值和1STD。

表4.与现有方法在Clothing1M上的比较。基线结果复制自原始论文，与之相比，我们报告了最佳的测试准确度(％)。对于本发明的方法，我们报告了三种不同种子值的平均值和1STD。

表5.目标可变率参数r_max在CIFAR-10上的影响。我们报告了所有纪元的最高测试准确性(％)(最好)和最终时期的准确性(最差)。报告了三种不同种子值的平均值和1STD。

目标可变性的影响

为了分析本发明的方法对目标可变性参数的敏感性，使用了CIFAR-10数据集，实验设置与上述实验相同。实验显示了在保持所有其他参数不变的情况下更改r_max值的效果。表5显示，与无目标可变性(r_max＝0)的基线NCT方法相比，目标可变性提供了显著的性能提升。通常，对于0.3≤r_max≤0.7的宽目标可变性范围，NCT对r_max值的选择不是很敏感。与较低的噪声水平(20％)相比，对于较高的噪声水平(50％)，该方法对r_max值更敏感。

尽管以上已经参考本发明的方法的示例性实施例讨论了本发明，但是本发明不限于该特定实施例，该特定实施例可以以多种方式变化而不背离本发明。因此，不应严格地按照所讨论的示例性实施例来解释所附权利要求。相反，该实施例仅旨在解释所附权利要求的措词，而无意将权利要求限定于该示例性实施例。因此，本发明的保护范围应仅根据所附权利要求来解释，其中，使用该示例性实施例可以解决权利要求措辞中可能的歧义之处。

参考文献

[1]Eric Arazo,Diego Ortego,Paul Albert,Noel E O’Connor,and KevinMcGuinness.Unsupervised label noise modeling and loss correction.arXivpreprint arXiv:1904.11238,2019.

[2]Devansh Arpit,

ebski,Nicolas Ballas,David Krueger,Emmanuel Bengio,Maxinder S Kanwal,Tegan Maharaj,Asja Fischer,Aaron Courville,Yoshua Bengio,et al.A closer look at memorization in deep networks.InProceedings of the 34th International Conference on Machine Learning-Volume70,pages 233–242.JMLR.org,2017.

[3]Jacob Goldberger and Ehud Ben-Reuven.Training deep neural-networksusing a noise adaptation layer.2016.

[4]Bo Han,Quanming Yao,Xingrui Yu,Gang Niu,Miao Xu,Weihua Hu,IvorTsang,and Masashi Sugiyama.Coteaching:Robust training of deep neural networkswith extremely noisy labels.In Advances in neural information processingsystems,pages 8527–8537,2018.

[5]Lu Jiang,Zhengyuan Zhou,Thomas Leung,Li-Jia Li,and Li Fei-Fei.Mentornet:Learning data-driven curriculum for very deep neural networkson corrupted labels.arXiv preprint arXiv:1712.05055,2017.

[6]Eran Malach and Shai Shalev-Shwartz.Decoupling"when to update"from"how to update".In Advances in Neural Information Processing Systems,pages 960–970,2017.

[7]Giorgio Patrini,Alessandro Rozza,Aditya Menon,Richard Nock,andLizhen Qu.Making neural networks robust to label noise:a loss correctionapproach.stat,1050:13,2016.

[8]Xingrui Yu,Bo Han,Jiangchao Yao,Gang Niu,Ivor W Tsang,and MasashiSugiyama.How does disagreement help generalization against label corruption？arXiv preprint arXiv:1901.04215,2019.

[9]Robert Boyd,Peter J Richerson,and Joseph Henrich.The culturalniche:Why social learning is essential for human adaptation.Proceedings ofthe National Academy of Sciences,108(Supplement 2):10918–10925,2011

[10]Samuli Laine and Timo Aila.Temporal ensembling for semi-supervised learning.arXiv preprint arXiv:1610.02242,2016.

[11]Hongyi Zhang,Moustapha Cisse,Yann N Dauphin,and David Lopez-Paz.mixup:Beyond empirical risk minimization.arXiv preprint arXiv:1710.09412,2017.

[12]Scott Reed,Honglak Lee,Dragomir Anguelov,Christian Szegedy,Dumitru Erhan,and Andrew Rabinovich.Train-ing deep neural networks on noisylabels with bootstrapping.arXiv pre-print arXiv:1412.6596,2014.

[13]Xingjun Ma,Yisen Wang,Michael E Houle,Shuo Zhou,Sarah M Erfani,Shu-Tao Xia,Sudanthi Wijewickrema,and James Bai-ley.Dimensionality-drivenlearning with noisy la-bels.arXiv preprint arXiv:1806.02612,2018.

[14]Pengfei Chen,Benben Liao,Guangyong Chen,and ShengyuZhang.Understanding and utilizing deep neural networks trained with noisylabels.arXiv preprint arXiv:1905.05040,2019.

[15]Daiki Tanaka,Daiki Ikami,Toshihiko Yamasaki,and Kiy-oharuAizawa.Joint optimization framework for learning with noisy labels.InProceedings of the IEEE Conference on Comput-er Vision and PatternRecognition,pages 5552–5560,2018.

[16]Weihe Zhang,Yali Wang,and Yu Qiao.Metacleaner:Learn-ing tohallucinate clean representations for noisy-labeled visual recognition.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,pages 7373–7382,2019.

[17]Junnan Li,Yongkang Wong,Qi Zhao,and Mohan S Kankanha-li.Learningto learn from noisy labeled data.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recogni-tion,pages 5051–5059,2019.

[18]Kun Yi and Jianxin Wu.Probabilistic end-to-end noise correctionfor learning with noisy labels.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recogni-tion,pages 7017–7025,2019.

[20]Ying Zhang,Tao Xiang,Timothy M Hospedales,and Huchuan Lu.Deepmutual learning.In Proceedings of the IEEE Confer-ence on Computer Vision andPattern Recognition,pages 4320–4328,2018.

[21]Geoffrey Hinton,Oriol Vinyals,and Jeff Dean.Dis-tilling theknowledge in a neural network.arXiv preprint arXiv:1503.02531,2015.

Claims

1.一种使用标注有标签的数据集训练深度神经网络的方法，其中至少两个模型被协作地并发训练，其中每个模型都用监督学习损失和模仿损失进行训练，其中所述监督学习损失涉及从大地实况标签学习，并且来自模仿损失的监督涉及使所述两个模型的输出对齐。

2.根据权利要求1所述的方法，其中所述至少两个模型被分别初始化。

3.根据权利要求1或2所述的方法，其中利用所述监督学习损失和所述模仿损失的组合来训练每个模型。

4.根据权利要求1-3中任一项所述的方法，其中在学习的初始阶段中，所述至少两个模型的训练中的重点是使用所述监督学习损失，从而逐渐增加所述至少两个模型的适应度。

5.根据前述权利要求1-4中任一项所述的方法，其中在学习的初始阶段之后的阶段中，随着训练的推进，训练所述至少两个模型的重点转向依赖所述模仿损失，其中所述监督学习损失的相对权重百分比降低，同时所述模仿损失的相对权重增加。

6.根据前述权利要求1-5中任一项所述的方法，其中在训练推进的阶段中，所述至少两个模型在其累积的知识上建立共识，同时增加对所述模仿损失的依赖，并减少对通过所述监督损失来适应大地实况标签的依赖，并对齐所述至少两个模型的后验概率分布。

7.根据前述权利要求1-6中任一项所述的方法，其中使用了目标可变性，其中在训练过程中，从数据集中批量抽取的随机样本的标签，被更改为随机类，所述随机类由所述至少两个模型独立地从每个批次的总类别数的均匀分布中抽取，以抑制所述至少两个模型对有噪声训练标签的记忆，并与此同时保持所述至少两个模型的差异性。

8.根据权利要求7所述的方法，其中所述目标可变性被独立地应用于每个模型，以使得所述两个网络保持充分差异化，使得二者可以共同过滤不同类型的误差。

9.根据权利要求7或8所述的方法，其中所述目标可变性初始较低，以允许所述模型有效地学习简单模式，并且在训练期间逐渐增加，以对抗所述模型进行记忆的趋势。

10.一种深度神经网络，向其提供有标注有标签的数据集和至少两个协作地并发训练的模型，其中每个模型都用监督学习损失和模仿损失进行训练，其中所述监督学习损失涉及从大地实况标签学习，并且来自模仿损失的监督涉及使所述至少两个模型的输出对齐。

11.根据权利要求10所述的深度神经网络，被用作执行从包括分割、检测和深度估计的组中选择的一个或多个后续图片或视频任务的框架。

12.根据权利要求10或11所述的深度神经网络，被实施在用于自动驾驶和/或高精度地图制作和/或更新的系统中。