CN114091665A - 一种训练深度神经网络的方法及这种网络 - Google Patents
一种训练深度神经网络的方法及这种网络 Download PDFInfo
- Publication number
- CN114091665A CN114091665A CN202011534004.XA CN202011534004A CN114091665A CN 114091665 A CN114091665 A CN 114091665A CN 202011534004 A CN202011534004 A CN 202011534004A CN 114091665 A CN114091665 A CN 114091665A
- Authority
- CN
- China
- Prior art keywords
- models
- loss
- training
- learning
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 13
- 230000013016 learning Effects 0.000 claims abstract description 32
- 238000009826 distribution Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000007423 decrease Effects 0.000 claims 1
- 238000013507 mapping Methods 0.000 claims 1
- 238000004088 simulation Methods 0.000 abstract description 7
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000012937 correction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 1
- 241000197727 Euscorpius alpha Species 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种使用带有标注标签的数据集训练深度神经网络的方法,其中至少两个模型被协作地并发训练,并且其中每个模型用监督学习损失和模仿损失进行训练,其中监督学习损失涉及从环境提示中学习,且来自模仿损失的监督与跨模型学习(culture leaning)中的模仿(imitation)有关。
Description
技术领域
本发明涉及一种利用带有标注标签的数据集训练深度神经网络的方法。
背景技术
深度神经网络(DNN)已被证明很容易适应(fit)随机标签[2],这使得有效训练模型变得具有挑战性。关于在标签有噪声下训练的现有技术方法,主要可大致分为两种方法:i)通过估计噪声过渡矩阵(noise transition matrix)纠正标签[3,7],ii)识别有噪声标签以滤除[4,8]这些样本或降低其权重[5,6]。然而,前一种方法依赖于准确地估计噪声过渡矩阵,但较为困难,尤其是类别较多时;后一种方法则需要用于识别有噪声标签和/或估计噪声样本的百分比的有效方法。在这些方法中,目前较多着重于分离噪声样本和干净样本,其中共同的标准是将低损失样本视为干净标签的代表[1,4]。但是,较难的样本可能会被认为是有噪声的,因此该模型可能会偏向于简单实例。两种方法都认为标注质量是导致模型性能下降的主要原因,因此提出的解决方案都依赖于准确地重新标注、滤除带有不正确标签的样本或降低其权重。
发明内容
与先前的方法相反,本发明着重于使基础的训练框架对有噪声标签更具鲁棒性,而不是着重于标注。标准训练程序缺乏鲁棒性可以归因于许多因素。交叉熵损失使单热编码标签和学习的表示(learned representation)之间的共同信息(mutual information)边界最大化。接受训练的模型得不到到有关类别之间数据点相似性的信息,因而当提供的标签不正确时,将缺乏有关样本的有用信息的来源,或缺乏额外的监督(supervision)来减轻有噪声标签的不利影响。而且,还缺少阻止模型记忆训练标签的正则化手段。
为了至少部分地解决神经网络训练中的上述缺点,根据本发明的方法,至少两个模型同时进行协作训练,其中每个模型用监督学习损失和模仿损失来训练,其中监督学习损失涉及从大地实况标签(ground-truth label)学习,而来自模仿损失的监督涉及两个模型输出的对齐。
因此,除了监督学习损失之外,每个模型还以模仿损失进行训练,该模仿损失使两个模型的后验分布对齐,以建立关于次级类别概率和主要类别预测的共识。本发明的方法被称为有噪声并发训练(NCT)。
有利的是,两个模型被分别初始化。
具体来说,NCT涉及协同地训练模型,从而通过监督学习损失和模仿损失的组合来训练每个模型。尽管大地实况标签(环境因素)可能有噪声,但DNN倾向于在记忆有噪声标签之前先优先学习简单模式,因此在学习的初始阶段,模型训练的重点是使用监督学习损失,并逐渐增加两个模型(种群:population)的适应度(fitness)。
在学习的初始阶段之后是训练推进的阶段,模型训练的重点转向依赖模仿损失,其中监督学习损失的相对权重降低。随着训练的推进,信息质量阈值因此增加,从而模型可以更多地依赖于彼此模仿和建立共识。这是使用动态平衡方案模拟的,该方案逐渐增加模仿损失的权重,同时减少监督学习损失的权重。因此,当训练推进时,模型就其累积的知识建立共识,并对齐其后验概率分布。为了训练模型,模仿损失除了提供单热标签外,还提供额外的监督信号。这样,模型也可以从带有不正确标签的训练样本中学习有用的信息。
此外,为防止记忆,优选的是在训练的过程中,从数据集中批量抽取的随机样本的标签,被更改为随机类,该随机类由至少两个模型独立地从每个批次的总类别数的均匀分布中抽取。这种技术被称为目标可变性(target variability),具有多种用途:向模型指示不要过多地依赖于有噪声标签,从而隐式地提高信息质量阈值,有力地抑制对训练标签的记忆,并且还保持两个模型有足够的差异化,以避免由于方法退化到自我训练而引起的确认偏差。
优选地,将目标可变性独立地应用于每个模型,以使得两个网络保持足够的差异化,使得可以共同过滤不同类型的误差。
有利地,目标可变率(target variability rate)初始为低,以允许模型有效地学习简单的模式,并且在训练过程中逐渐增加,以对抗该模型进行记忆的趋势。
本发明的方法得到了一种具有鲁棒性的学习框架,其允许在标签有噪声水平较高的条件下有效地训练深度神经网络。这显著提高了模型在标注质量通常不理想的实际情况下的实用性。
因此,本发明的方法使得能够使用大规模的自动标注的和众包的数据集来学习丰富的表示,其可用于后续的下游任务,例如分割(segmentation)、检测(detection)和深度估计(depth estimation)等。改进的表示可增进下游任务的性能,在自动驾驶汽车和/或高精度地图创建等各种行业中有着广泛应用。
根据本发明的深度神经网络优选用作从包括分割、检测和深度估计中选择的一个或多个后续图像或视频任务的框架。
此外,根据本发明的深度神经网络优选嵌入自动驾驶和/或高精度地图更新系统中。
在下文中,将参考根据本发明的方法的示例性实施例来进一步阐明本发明,本发明并不限于该示例性实施例,而是限于所附权利要求书。
附图说明
在附图中,以单个图1示意性地示出了两个模型同时进行协作训练。
具体实施方式
给定一个含有N个样本的数据集D={x(i),y(i)}(i=1到N),其中x(i)是输入图像,而y(i)是在可能有噪声的C分类上的单热大地实况标签,本发明的方法NCT用公式表示为由θ1和θ2参数化的两个网络的队列之间的动态协作学习。每个网络都经过有监督损失(标准交叉熵LCE)和模仿损失(Kullback-Leibler散度,DKL)进行训练。每个模型的总损失如下:
其中σ是softmax函数,zθ是输出对数几率(output logit),τ是温度,通常设置为1。使用更高的τ值会在类别上产生更软(softer)的概率分布。调整参数α∈[0,1]可控制上述两个损失之间的相对权重。
为了进行推断,使用了两个模型的总集平均(average ensemble),
动态平衡
给定一个干净标签和有噪声标签的混合,DNN倾向于在记住有噪声标签之前优先学习简单模式并拟合干净数据[2]。NCT采用动态平衡方案,因而初始的这两个网络从有监督损失中学习更多,即有较小的αd值,并且随着训练的推进,这些网络更多地集中于建立共识和通过DKL调整其后验分布,即αd→1。为了模拟这种行为,下面使用了Sigmoid斜坡生长函数(sigmoid ramp-up function)[10],
其中αmax是最大α值,e是当前纪元,er是斜坡生长的长度(即αd达到最大值的纪元),β控制函数的形状。图1显示了不同β值的动态平衡函数。
动态目标可变性
NCT使用目标可变性,从而针对训练批次中的每个样本,按概率r将单热标签更改为从类别C的均匀分布中采样的随机类。目标可变性作为正则器,防止模型记忆标签。目标可变性被独立地应用于每个模型,从而使两个网络保持足够的差异化,以便可以共同过滤不同类型的误差。由于网络倾向于在训练的后期阶段记住有噪声标签,因此NCT采用动态目标可变性,因此初始时期的目标可变率较低,并且在训练过程中逐渐增加(图1)。NCT使用对数斜坡生长函数,
其中rmin和rmax是最小和最大目标可变率,e是当前纪元,emax是纪元总数,ew是预热长度。算法1和2中总结了该方法的细节。
结果
接下来,将NCT与在相似实验设置下的多种基线方法进行比较。由于数据集的质量不是先验已知的,因此学习方法应该同时适用于有噪声数据集和干净的数据集。因此,我们比较了干净和不同级别标签噪声的方法。表1显示了针对较低噪声水平有一致的改进。在干净的CIFAR-100上,M-Correction和NCT之间的差距相当可观。然而,与M-Correction相比,本发明的方法对于很高水平的对称噪声(50%)而言并非最优。表2示出了本发明的方法的有效性在CIFAR数据集之外,推广到了复杂的Tiny-ImageNet分类任务。对于对称噪声,出现了与CIFAR数据集相似的模式。对于可能更好地模拟实际噪声的非对称噪声,NCT在泛化方面提供了重大改进。M-Correction对非对称噪声表现出不稳定的行为,显示为性能上的高标准偏差。
为了验证NCT的实际运用,本方法在两个真实的有噪声数据集上作了进一步比较。表3显示,与WebVision数据集上的现有技术方法相比,NCT提供了可观的性能提升(top1精度提高了约10%)。对于Clothing1M,表4提供了优于P型校正的边际增益。
基准数据集的干净版本和有噪声版本的经验结果以及对现实世界中的有噪声数据集的一致改进,证明了NCT作为一种通用的学习框架的有效性,本框架对标签噪声具有鲁棒性。
表1.与现有方法在具有对称噪声的CIFAR-10和CIFAR-100数据集上的比较。基线结果复制自Arazo等人[1],与之相比,本发明的方法在所有纪元(最好)和最终纪元准确性(最差)中显示出最高的测试准确度(%)。对于本发明的方法,本文报告了三种不同种子值的平均值和1STD。
表2.与现有方法在具有对称和非对称对翻转噪声的Tiny-ImageNet数据集上的比较。基线结果复制自Yu等人[8],与之相比,本发明的方法最后10个纪元上显示了最好(Best)和平均(Avg.)测试准确度(%)。为了进行公平的比较,M-Correction在中使用他们论文中提到的公开代码和超参数的噪声仿真上运行[8]。我们还在干净的数据集上运行了Standard和Co-teaching+。
对于执行的所有这些实验,我们报告了三种不同种子值的平均值和1STD。
表3.与先前方法在WebVision数据集上训练的比较。基线结果复制自Chen等人[14],与之相比,我们报告了WebVision和ImageNet ILSVRC12验证集的最终准确性(%)。对于本发明的方法,我们报告了三种不同种子值的平均值和1STD。
表4.与现有方法在Clothing1M上的比较。基线结果复制自原始论文,与之相比,我们报告了最佳的测试准确度(%)。对于本发明的方法,我们报告了三种不同种子值的平均值和1STD。
表5.目标可变率参数rmax在CIFAR-10上的影响。我们报告了所有纪元的最高测试准确性(%)(最好)和最终时期的准确性(最差)。报告了三种不同种子值的平均值和1STD。
目标可变性的影响
为了分析本发明的方法对目标可变性参数的敏感性,使用了CIFAR-10数据集,实验设置与上述实验相同。实验显示了在保持所有其他参数不变的情况下更改rmax值的效果。表5显示,与无目标可变性(rmax=0)的基线NCT方法相比,目标可变性提供了显著的性能提升。通常,对于0.3≤rmax≤0.7的宽目标可变性范围,NCT对rmax值的选择不是很敏感。与较低的噪声水平(20%)相比,对于较高的噪声水平(50%),该方法对rmax值更敏感。
尽管以上已经参考本发明的方法的示例性实施例讨论了本发明,但是本发明不限于该特定实施例,该特定实施例可以以多种方式变化而不背离本发明。因此,不应严格地按照所讨论的示例性实施例来解释所附权利要求。相反,该实施例仅旨在解释所附权利要求的措词,而无意将权利要求限定于该示例性实施例。因此,本发明的保护范围应仅根据所附权利要求来解释,其中,使用该示例性实施例可以解决权利要求措辞中可能的歧义之处。
参考文献
[1]Eric Arazo,Diego Ortego,Paul Albert,Noel E O’Connor,and KevinMcGuinness.Unsupervised label noise modeling and loss correction.arXivpreprint arXiv:1904.11238,2019.
[2]Devansh Arpit,ebski,Nicolas Ballas,David Krueger,Emmanuel Bengio,Maxinder S Kanwal,Tegan Maharaj,Asja Fischer,Aaron Courville,Yoshua Bengio,et al.A closer look at memorization in deep networks.InProceedings of the 34th International Conference on Machine Learning-Volume70,pages 233–242.JMLR.org,2017.
[3]Jacob Goldberger and Ehud Ben-Reuven.Training deep neural-networksusing a noise adaptation layer.2016.
[4]Bo Han,Quanming Yao,Xingrui Yu,Gang Niu,Miao Xu,Weihua Hu,IvorTsang,and Masashi Sugiyama.Coteaching:Robust training of deep neural networkswith extremely noisy labels.In Advances in neural information processingsystems,pages 8527–8537,2018.
[5]Lu Jiang,Zhengyuan Zhou,Thomas Leung,Li-Jia Li,and Li Fei-Fei.Mentornet:Learning data-driven curriculum for very deep neural networkson corrupted labels.arXiv preprint arXiv:1712.05055,2017.
[6]Eran Malach and Shai Shalev-Shwartz.Decoupling"when to update"from"how to update".In Advances in Neural Information Processing Systems,pages 960–970,2017.
[7]Giorgio Patrini,Alessandro Rozza,Aditya Menon,Richard Nock,andLizhen Qu.Making neural networks robust to label noise:a loss correctionapproach.stat,1050:13,2016.
[8]Xingrui Yu,Bo Han,Jiangchao Yao,Gang Niu,Ivor W Tsang,and MasashiSugiyama.How does disagreement help generalization against label corruption?arXiv preprint arXiv:1901.04215,2019.
[9]Robert Boyd,Peter J Richerson,and Joseph Henrich.The culturalniche:Why social learning is essential for human adaptation.Proceedings ofthe National Academy of Sciences,108(Supplement 2):10918–10925,2011
[10]Samuli Laine and Timo Aila.Temporal ensembling for semi-supervised learning.arXiv preprint arXiv:1610.02242,2016.
[11]Hongyi Zhang,Moustapha Cisse,Yann N Dauphin,and David Lopez-Paz.mixup:Beyond empirical risk minimization.arXiv preprint arXiv:1710.09412,2017.
[12]Scott Reed,Honglak Lee,Dragomir Anguelov,Christian Szegedy,Dumitru Erhan,and Andrew Rabinovich.Train-ing deep neural networks on noisylabels with bootstrapping.arXiv pre-print arXiv:1412.6596,2014.
[13]Xingjun Ma,Yisen Wang,Michael E Houle,Shuo Zhou,Sarah M Erfani,Shu-Tao Xia,Sudanthi Wijewickrema,and James Bai-ley.Dimensionality-drivenlearning with noisy la-bels.arXiv preprint arXiv:1806.02612,2018.
[14]Pengfei Chen,Benben Liao,Guangyong Chen,and ShengyuZhang.Understanding and utilizing deep neural networks trained with noisylabels.arXiv preprint arXiv:1905.05040,2019.
[15]Daiki Tanaka,Daiki Ikami,Toshihiko Yamasaki,and Kiy-oharuAizawa.Joint optimization framework for learning with noisy labels.InProceedings of the IEEE Conference on Comput-er Vision and PatternRecognition,pages 5552–5560,2018.
[16]Weihe Zhang,Yali Wang,and Yu Qiao.Metacleaner:Learn-ing tohallucinate clean representations for noisy-labeled visual recognition.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,pages 7373–7382,2019.
[17]Junnan Li,Yongkang Wong,Qi Zhao,and Mohan S Kankanha-li.Learningto learn from noisy labeled data.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recogni-tion,pages 5051–5059,2019.
[18]Kun Yi and Jianxin Wu.Probabilistic end-to-end noise correctionfor learning with noisy labels.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recogni-tion,pages 7017–7025,2019.
[20]Ying Zhang,Tao Xiang,Timothy M Hospedales,and Huchuan Lu.Deepmutual learning.In Proceedings of the IEEE Confer-ence on Computer Vision andPattern Recognition,pages 4320–4328,2018.
[21]Geoffrey Hinton,Oriol Vinyals,and Jeff Dean.Dis-tilling theknowledge in a neural network.arXiv preprint arXiv:1503.02531,2015.
Claims (12)
1.一种使用标注有标签的数据集训练深度神经网络的方法,其中至少两个模型被协作地并发训练,其中每个模型都用监督学习损失和模仿损失进行训练,其中所述监督学习损失涉及从大地实况标签学习,并且来自模仿损失的监督涉及使所述两个模型的输出对齐。
2.根据权利要求1所述的方法,其中所述至少两个模型被分别初始化。
3.根据权利要求1或2所述的方法,其中利用所述监督学习损失和所述模仿损失的组合来训练每个模型。
4.根据权利要求1-3中任一项所述的方法,其中在学习的初始阶段中,所述至少两个模型的训练中的重点是使用所述监督学习损失,从而逐渐增加所述至少两个模型的适应度。
5.根据前述权利要求1-4中任一项所述的方法,其中在学习的初始阶段之后的阶段中,随着训练的推进,训练所述至少两个模型的重点转向依赖所述模仿损失,其中所述监督学习损失的相对权重百分比降低,同时所述模仿损失的相对权重增加。
6.根据前述权利要求1-5中任一项所述的方法,其中在训练推进的阶段中,所述至少两个模型在其累积的知识上建立共识,同时增加对所述模仿损失的依赖,并减少对通过所述监督损失来适应大地实况标签的依赖,并对齐所述至少两个模型的后验概率分布。
7.根据前述权利要求1-6中任一项所述的方法,其中使用了目标可变性,其中在训练过程中,从数据集中批量抽取的随机样本的标签,被更改为随机类,所述随机类由所述至少两个模型独立地从每个批次的总类别数的均匀分布中抽取,以抑制所述至少两个模型对有噪声训练标签的记忆,并与此同时保持所述至少两个模型的差异性。
8.根据权利要求7所述的方法,其中所述目标可变性被独立地应用于每个模型,以使得所述两个网络保持充分差异化,使得二者可以共同过滤不同类型的误差。
9.根据权利要求7或8所述的方法,其中所述目标可变性初始较低,以允许所述模型有效地学习简单模式,并且在训练期间逐渐增加,以对抗所述模型进行记忆的趋势。
10.一种深度神经网络,向其提供有标注有标签的数据集和至少两个协作地并发训练的模型,其中每个模型都用监督学习损失和模仿损失进行训练,其中所述监督学习损失涉及从大地实况标签学习,并且来自模仿损失的监督涉及使所述至少两个模型的输出对齐。
11.根据权利要求10所述的深度神经网络,被用作执行从包括分割、检测和深度估计的组中选择的一个或多个后续图片或视频任务的框架。
12.根据权利要求10或11所述的深度神经网络,被实施在用于自动驾驶和/或高精度地图制作和/或更新的系统中。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL2026178 | 2020-07-30 | ||
NL2026178 | 2020-07-30 | ||
NL2026491A NL2026491B1 (en) | 2020-07-30 | 2020-09-17 | A method of training a deep neural network and such a network |
NL2026491 | 2020-09-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114091665A true CN114091665A (zh) | 2022-02-25 |
Family
ID=80114582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011534004.XA Pending CN114091665A (zh) | 2020-07-30 | 2020-12-21 | 一种训练深度神经网络的方法及这种网络 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220044116A1 (zh) |
CN (1) | CN114091665A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115423031A (zh) * | 2022-09-20 | 2022-12-02 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法以及相关装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118429085B (zh) * | 2024-07-04 | 2024-10-01 | 盛业信息科技服务(深圳)有限公司 | 基于深度学习对医院采购发票的回款账期预测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578071A (zh) * | 2017-10-13 | 2018-01-12 | 北京工业大学 | 基于Epoch的解决数据不均衡方法 |
CN109598349A (zh) * | 2018-11-23 | 2019-04-09 | 华南理工大学 | 基于类别随机采样的架空输电线路缺陷检测数据样本批处理训练方法 |
CA3056098A1 (en) * | 2019-06-07 | 2019-11-22 | Tata Consultancy Services Limited | Sparsity constraints and knowledge distillation based learning of sparser and compressed neural networks |
US20200042596A1 (en) * | 2018-08-02 | 2020-02-06 | Google Llc | On-Device Neural Networks for Natural Language Understanding |
CN111325318A (zh) * | 2019-02-01 | 2020-06-23 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、神经网络的训练装置和电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10747224B2 (en) * | 2018-06-19 | 2020-08-18 | Toyota Research Institute, Inc. | Debugging an autonomous driving machine learning model |
DE102018216078A1 (de) * | 2018-09-20 | 2020-03-26 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Betreiben eines Steuerungssystems |
US10510002B1 (en) * | 2019-02-14 | 2019-12-17 | Capital One Services, Llc | Stochastic gradient boosting for deep neural networks |
US11599792B2 (en) * | 2019-09-24 | 2023-03-07 | Salesforce.Com, Inc. | System and method for learning with noisy labels as semi-supervised learning |
US11334766B2 (en) * | 2019-11-15 | 2022-05-17 | Salesforce.Com, Inc. | Noise-resistant object detection with noisy annotations |
US11816566B2 (en) * | 2020-05-18 | 2023-11-14 | Microsoft Technology Licensing, Llc | Joint learning from explicit and inferred labels |
US20230169332A1 (en) * | 2021-11-28 | 2023-06-01 | Naver Corporation | Method and system for machine learning from imbalanced data with noisy labels |
-
2020
- 2020-12-21 CN CN202011534004.XA patent/CN114091665A/zh active Pending
-
2021
- 2021-07-21 US US17/382,121 patent/US20220044116A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578071A (zh) * | 2017-10-13 | 2018-01-12 | 北京工业大学 | 基于Epoch的解决数据不均衡方法 |
US20200042596A1 (en) * | 2018-08-02 | 2020-02-06 | Google Llc | On-Device Neural Networks for Natural Language Understanding |
CN109598349A (zh) * | 2018-11-23 | 2019-04-09 | 华南理工大学 | 基于类别随机采样的架空输电线路缺陷检测数据样本批处理训练方法 |
CN111325318A (zh) * | 2019-02-01 | 2020-06-23 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、神经网络的训练装置和电子设备 |
CA3056098A1 (en) * | 2019-06-07 | 2019-11-22 | Tata Consultancy Services Limited | Sparsity constraints and knowledge distillation based learning of sparser and compressed neural networks |
Non-Patent Citations (2)
Title |
---|
FAHAD SARFRAZ 等: "noisy concurrent training for efficient learning under label noise", HTTPS://ARXIV.ORG/ABS/2009.08325, 17 September 2020 (2020-09-17), pages 1 - 10 * |
YING ZHANG 等: "deep mutual learning", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR), 23 July 2018 (2018-07-23), pages 4320 - 4328 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115423031A (zh) * | 2022-09-20 | 2022-12-02 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法以及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
US20220044116A1 (en) | 2022-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Symmetric cross entropy for robust learning with noisy labels | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
EP3690714A1 (en) | Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same | |
CN109389166A (zh) | 基于局部结构保存的深度迁移嵌入聚类机器学习方法 | |
CN111783551B (zh) | 基于贝叶斯卷积神经网络的对抗样本防御方法 | |
CN107945210B (zh) | 基于深度学习和环境自适应的目标跟踪方法 | |
CN111241924B (zh) | 基于尺度估计的人脸检测及对齐方法、装置、存储介质 | |
CN114170461B (zh) | 基于特征空间重整化的师生架构含噪声标签图像分类方法 | |
CN111126132A (zh) | 一种基于孪生网络的学习目标跟踪算法 | |
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN114818963B (zh) | 一种基于跨图像特征融合的小样本检测方法 | |
CN112434686A (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN116451145A (zh) | 用于干细胞运输的降温装置及方法 | |
CN114091665A (zh) | 一种训练深度神经网络的方法及这种网络 | |
CN116152554A (zh) | 基于知识引导的小样本图像识别系统 | |
CN116433909A (zh) | 基于相似度加权多教师网络模型的半监督图像语义分割方法 | |
Tan et al. | Wide Residual Network for Vision-based Static Hand Gesture Recognition. | |
CN117171762A (zh) | 一种基于数据增强和步长调整的单步对抗训练方法及系统 | |
CN116343825A (zh) | 一种基于样本映射的少样本水声目标识别方法 | |
CN114821184B (zh) | 一种基于均衡互补熵的长尾图像分类方法及系统 | |
CN114139655A (zh) | 一种蒸馏式竞争学习的目标分类系统和方法 | |
Siebel et al. | Learning defect classifiers for visual inspection images by neuro-evolution using weakly labelled training data | |
Deng et al. | Noise-Resistant Graph Neural Network for Node Classification | |
Ankalaki et al. | Leaf identification based on back propagation neural network and support vector machine | |
CN116312809B (zh) | 一种基于抗体偶联磁珠的细胞筛选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |