CN115578568A - 一种小规模可靠数据集驱动的噪声修正算法 - Google Patents

一种小规模可靠数据集驱动的噪声修正算法 Download PDF

Info

Publication number
CN115578568A
CN115578568A CN202211420837.2A CN202211420837A CN115578568A CN 115578568 A CN115578568 A CN 115578568A CN 202211420837 A CN202211420837 A CN 202211420837A CN 115578568 A CN115578568 A CN 115578568A
Authority
CN
China
Prior art keywords
network
noise
prediction
training
small
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211420837.2A
Other languages
English (en)
Inventor
沈复民
姚亚洲
张传一
孙泽人
白泞玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Code Geek Technology Co ltd
Original Assignee
Nanjing Code Geek Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Code Geek Technology Co ltd filed Critical Nanjing Code Geek Technology Co ltd
Priority to CN202211420837.2A priority Critical patent/CN115578568A/zh
Publication of CN115578568A publication Critical patent/CN115578568A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种小规模可靠数据集驱动的噪声修正算法,包括S1.采用骨干网络作为特征提取器,并为之搭配两个并行的全连接层作为预测头,输入图像特征,可输出相应的预测概率分布;S2.使用元预测头的预测概率作为伪标签,利用伪标签修正网络图像中错误的标签,联合使用伪标签和网络标签类训练模型对高比例噪声进行缓解;S3.依靠选择网络有效选择出分布内噪声样本,并通过重标注重新利用;本发明算法能有效地缓解标签噪声问题,并缓解了部分类别存在的高比例噪声问题。

Description

一种小规模可靠数据集驱动的噪声修正算法
技术领域
本发明涉及高比例噪声修正技术领域,具体为一种小规模可靠数据集驱动的噪声修正算法。
背景技术
噪声数据集的复杂性体现在噪声比例在各个类别之间是非均衡的,噪声类别(分布内、分布外)也是非均衡的,并且噪声比例可能异常地高,标签噪声甚至可能淹没干净样本。这些复杂的实际情况大大增加了处理标签噪声的难度。解决策略的复杂性体现在可以不局限于仅使用深度神经网络模型本身来解决复杂的标签噪声问题,可以设计更贴近于现实应用的算法。在此背景下,部分研究者尝试借助干净可靠的数据集来为模型提供先验知识,以此在含噪的数据集中实现高性能的噪声净化。
在发表于2018年Conference on Neural Information Processing Systems会议上的“Using trusted data to train deep networks on labels corrupted by severenoise”文章中,提出了一种基于小规模干净样本的标签修正算法,用来克服高比例的标签噪声。该算法借助干净样本提供的先验知识,有效地在高噪声环境下估计了噪声转换矩阵,并使用噪声转换矩阵来修正模型的训练损失。在发表于2017年IEEE InternationalConference on Computer Vision会议上的“Learning from noisy labels withdistillation”文章中,使用了一个规模相对略大的干净训练集,训练了一个教师模型。然后利用知识蒸馏策略,让教师模型对更大规模的网络图像生成伪标签。最后,在网络训练集上,同时使用网络标签和生成的伪标签来训练一个学生模型。Li 等人在研究中表明联合使用两种标签训练会比单独使用其中一个的风险更小。在发表于2018年 InternationalConference on Machine Learning会议上的“Learning to reweight examples forrobust deep learning”文章和发表于2019年Conference on Neural InformationProcessing Systems会议上的“Learning an explicit mapping for sample weighting”文章中,都采用了适合小样本学习的元学习策略,使用一个小规模的数据集来训练一个重加权模型,降低标签噪声的权重,其中,一种是在每个训练周期动态地计算各个样本的权重,而另一种则训练一个模型来表示“损失-权重”映射函数,即对于一个样本的训练损失产生一个相应的权重。该算法不仅可以用于缓解标签噪声问题,还可以用来解决长尾分布和难样本学习等问题;由于借助了可靠的先验知识,上述算法都能较为高效地处理标签噪声问题;
借助先验知识来估计噪声转移矩阵的策略得益于可靠数据的引导,能够缓解高比例噪声的问题,在高噪声环境中较为准确地估计出噪声转移矩阵。然而该方法只能处理人工环境下的噪声数据集,即数据集内所有的标签噪声都是分布内的。这个缺点源自于标签修正策略的局限性,导致此算法实用性较差,无法处理包含了分布外噪声样本的现实环境中的噪声数据集;
现有技术将知识蒸馏策略从模型压缩领域扩展到了标签噪声学习任务上,先使用人工标注的干净数据集来训练一个教师模型,再用教师模型对网络训练集中的样本生成软标签来训练学生模型;由于伪标签是由教师模型提供的,所以教师模型的性能对于整个算法来说至关重要,使用小规模数据集训练的教师模型容易遭受过拟合问题,导致其输出的标签可靠性降低;所以该方法往往需要一个规模相对较大(相较于本发明算法使用的小元集而言)的干净训练集来训练可靠的教师模型,其干净样本的数据量大约是网络数据集的四分之一;对于大量可靠标签的需求限制了该方法的实用性。此外,该方法总共包含训练教师模型和学生模型两个阶段,比较耗时;
重加权策略在可靠数据集上的要求与本发明算法一致,仅需要一个小规模的人工标注数据集;它们也同样使用了元学习策略来应对小样本的训练环境。虽然这类方法对数据集没有较高的要求,但其噪声处理策略太过简单,仅是通过学习一个加权系数来平衡干净样本和标签噪声之间的权重。这种简单的重加权操作难以处理复杂的网络图像噪声,也无法解决难样本与标签噪声相近的问题,同时也忽视了高噪声类别这种在实际应用中会出现的情况。此外,它们也没有充分利用人工数据集所包含的先验知识。
发明内容
本发明的目的在于提供一种小规模可靠数据集驱动的噪声修正算法,以解决上述背景技术提出的问题。
为实现上述目的,本发明提供如下技术方案:一种小规模可靠数据集驱动的噪声修正算法,包括如下步骤:
S1.对训练集D进行分类;
S2.采用一个骨干网络作为特征提取器,并为之搭配两个并行的全连接层作为预测头,两个预测头分别为网络预测头的元预测头,并且输入图像特征,可输出相应的预测概率分布;
S3.使用元预测头的预测概率作为伪标签,利用伪标签修正网络图像中错误的标签,联合使用伪标签和网络标签类训练模型对高比例噪声进行缓解;
S31.借助小损失准则在每个小批次中识别标签噪声;
S32.在干净样本和分部内燥样本声被识别后,可被用作模型训练;
S4.依靠选择网络有效选择出分布内噪声样本,并通过重标注重新利用。
进一步的,在S1中,训练集包括网络集和元集,其中含噪的网络训练集和小规模的 元集分别表示为
Figure 993904DEST_PATH_IMAGE001
Figure 178898DEST_PATH_IMAGE002
,其中 M ≪ N,元 集 Dm 的标签为人工标注,每个样本表示为 (xi, yi),且包含了图像 xi 以及其对应的标 签 yi。
进一步的,在S2中,预测头分别是网络预测头 hw 和元预测头 hm,骨干网络、网络预测头 hw 和元预测头 hm参数分别记为θf、θhw以及θhm;骨干网络 f 和网络预测头 hw可组成用于细粒度识别的分类网络 h,其参数记为θh = {θf , θhw},此外,还涉及一个选择网络 Snet,其参数定义为θs;
独热标签的分布 q 可表示为 q(c = yi|xi) = 1, q(c ≠yi|xi) = 0,其中 c 表示各个类别;为了提升模型的泛化性,采用标签平滑策略,平滑后的标签分布表示为q(c = yi|xi) = 1 −ϵ, q(c = yi|xi) = 1 −ϵ, q(c ≠yi|xi) =
Figure 342026DEST_PATH_IMAGE003
,其中 C 表示类别总 数;对于训练集 D 中的每组样本 (xi, yi),分类网络 h 和元预测头 hm 输出的概率分布 分别表示为 p(c|xi;θh) 和 p(c|xi;θhm);将 p(c|xi;θhm) 简记为 pm(c|xi);选用常用 的交叉熵损失函数来计算每个训练样本的预测概率分布 p(c|xi;θh) 和其标签分布 q(c| xi) 之间的损失,其公式为:
Figure 321483DEST_PATH_IMAGE004
(6.1)。
更进一步的,在S31中,模型在训练过程中会先学习干净的样本,然后再逐步拟合 标签噪声,首先在模型预处理阶段T ≤ Ts,T 和 Ts 分别表示训练周期和预处理周期,直 接利用整个数据集 D 来训练分类网络θh;在此阶段,对于每个迭代 t 中的小批次数据
Figure 835641DEST_PATH_IMAGE005
, 使用学习率为α的随机梯度下降优化器(SGD)来训练模型:
Figure 824326DEST_PATH_IMAGE006
(6.2)
经过预处理阶段T ≥ Ts后,开始处理网络数据集 Dw 中的标签噪声,对于网络数 据集 Dw 中的每个小批次
Figure 841960DEST_PATH_IMAGE007
,首先选取 (1 −τ ) × 100% 比例的小损失样本作为干净 样本,以此将该小批次划分为干净批
Figure 523477DEST_PATH_IMAGE008
和噪声批
Figure 118407DEST_PATH_IMAGE009
Figure 786149DEST_PATH_IMAGE010
(6.3)
Figure 517344DEST_PATH_IMAGE011
(6.4)
其中,τ表示为样本丢弃率,即噪声率。
更进一步的,干净批
Figure 245129DEST_PATH_IMAGE008
中的训练样本直接被应用于模型优化;噪声批
Figure 592933DEST_PATH_IMAGE009
中的图 像被输入进选择网络 Snet 中来计算其属于分布内噪声的概率 Pin,进行进一步的样本筛 选:
Figure 654912DEST_PATH_IMAGE012
(6.5)
之后,有较高 Pin 的样本被识别为分布内噪声样本,并将经过重标注后再度应用 于训练中,其他样本则被认为是分布外噪声并直接丢弃;分布内样本
Figure 381559DEST_PATH_IMAGE013
的获取公式为:
Figure 404879DEST_PATH_IMAGE014
(6.6)
其中,r 是基于小批次数据大小的重标注率。
更进一步的,在干净样本和分布内噪样本声被识别后,这两类训练数据可被应用于模型训练,分类网络参数θh 的更新方式如下:
Figure 708821DEST_PATH_IMAGE015
(6.7)
其中,
Figure 718366DEST_PATH_IMAGE016
是元预测头 hm 对于网络图像
Figure 955312DEST_PATH_IMAGE017
的预测类别,预测置信度
Figure 493741DEST_PATH_IMAGE018
被用作损失
Figure 816138DEST_PATH_IMAGE019
的权重。
进一步的,元预测头 hm 和网络预测头 hw 是并行的两个预测头,它们都使用图 像特征 f(xi) 作为输入,并输出相应的预测概率分布;在每个迭代 t中,从元集 Dm 中采 样一个小批次数据
Figure 363794DEST_PATH_IMAGE020
,并使用骨干网络f来对其中的每个样本
Figure 455246DEST_PATH_IMAGE021
提取图像特征 f(
Figure 430156DEST_PATH_IMAGE021
); 元预测头的参数θhm 可用如下方式更新:
Figure 974269DEST_PATH_IMAGE022
(6.8)
对于两个预测头 hm 和 hw 采用了相同的学习率α,其原因是两个预测头都是结构相同的全连接层,其输入尺寸和输出尺寸均相同。
进一步的,在S4中,在每次迭代 t 中,从网络训练集 Dw 中采样一个小批量数据
Figure 450250DEST_PATH_IMAGE023
,并通过如下方式构建分类器学习函数
Figure 5996DEST_PATH_IMAGE024
Figure 544950DEST_PATH_IMAGE025
(6.9)
从公式 (6.9)中可以观察到,选择网络
Figure 451726DEST_PATH_IMAGE026
输出的概率被视为网络样本
Figure 465818DEST_PATH_IMAGE027
在训 练过程中的权重;在此公式中,分类网络的参数
Figure 407229DEST_PATH_IMAGE024
为选择网络参数
Figure 582996DEST_PATH_IMAGE028
的函数;下 一步,使用元集Dm来优化选择网络参数
Figure 101702DEST_PATH_IMAGE028
;在每次迭代 t 中,从元集Dm中采样一组小批量 样本 Dm 并输入进参数为
Figure 529272DEST_PATH_IMAGE024
的分类网络 h 中,然后根据网络输出计算元损失, 则选择网络的参数
Figure 449824DEST_PATH_IMAGE028
可用如下方式更新:
Figure 203016DEST_PATH_IMAGE029
(6.10)
其中,
Figure 943439DEST_PATH_IMAGE030
是选择网络
Figure 299334DEST_PATH_IMAGE026
的学习率。
更进一步的,优化过程可以用如下方式来进行推导:优化过程可用如下方式来进行推导:
Figure 949758DEST_PATH_IMAGE031
(6.11)根据上 述计算推导过程,公式 (6.10)可被重写为如下形式:
Figure 998485DEST_PATH_IMAGE032
(6.12)
在公式 (6.12) 中,系数
Figure 367150DEST_PATH_IMAGE033
的影响至关重要;从公式 (6.11) 中可看 出,
Figure 258227DEST_PATH_IMAGE034
表示两种损失在分类网络 h 上计算出的梯度的相似程度;这两个损失分别为网络图 像
Figure 763158DEST_PATH_IMAGE035
的训练损失
Figure 982786DEST_PATH_IMAGE036
以及干净图像
Figure 838747DEST_PATH_IMAGE037
的元损失
Figure 536444DEST_PATH_IMAGE038
,则系数
Figure 20515DEST_PATH_IMAGE033
表示网络图像
Figure 551991DEST_PATH_IMAGE035
的梯度与小批次元数据 Dm 的平均梯度的相似程度。
与现有技术相比,本发明的有益效果是:
1.本发明算法针对真实环境中的网络噪声数据集设计,通过结合样本选择和标签修正两大类算法,缓解了无法解决分布外噪声的缺点,能同时处理分布内和分布外两类噪声,更具实用性;此外,本发明算法还延续了使用干净样本提供的先验知识来缓解高比例噪声的研究思路,用来解决高噪声类别问题,本发明算法继承了其优点,弥补了其不足之处,更具实用性。
2.本发明算法仅需要一个小规模的干净数据集,相较于知识蒸馏策略限制更少;在算法设计方面,本发明算法吸取了知识蒸馏策略的思想,也是借助干净样本来提供可靠的先验知识,以实现高效的标签修正,为了适应小元集数据规模小的特点,对知识蒸馏策略进行了整合简化,使用了一个简单的元预测头 hm 来代替教师模型,避免了过拟合的问题,这种设计保留了为网络图像提供可靠伪标签的功能,并显著减少了模型参数量(从完整模型到一个简单的全连接层),同时整个算法可以实现端到端的训练,不再需要先后分别训练教师模型和学生模型,因此本发明提出的算法更具实用性,也更简单高效。
3.本发明算法通过训练元预测头 hm 和选择网络 Snet 来促进模型从可靠数据集中获得标签修正和样本选择的能力,尽最大可能地挖掘了人工标注图像的用途,在元预测头 hm 和选择网络 Snet 的帮助下,能够筛选出分布内噪声样本,并对其进行重标注来促进模型训练,对标签噪声的处理更加细致,此外还能够利用元预测头 hm 对网络图像生成可靠的伪标签,以此缓解了高噪声类别问题。如果难样本被误认为是标签噪声,其很可能会被选择网络 Snet 识别为分布内噪声图像,并经过重标注后应用到训练中。考虑到元预测头 hm 提供的伪标签是相对可靠的,那么本发明算法一定程度上也能缓解难样本与标签噪声难以区分的问题,相较于重加权策略,本发明算法充分利用了元集提供的先验知识,其能够实现在真实网络数据集上的鲁棒训练。
附图说明
图1为本发明算法流程图;
图2为本发明中元学习梯度反向传播计算图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1和图2所示,本发明为一种小规模可靠数据集驱动的噪声修正算法,本发明共使用了两种数据集,且对网络结构有所修改。为了便于论述和理解,先对算法中涉及的概念进行定义和解释;
在本实施例中对数据集进行分类:
将每个样本表示为 (xi, yi),包含了图像 xi 以及其对应的标签 yi,含噪的网 络训练集和小规模的元集分别表示为
Figure 488723DEST_PATH_IMAGE001
Figure 131057DEST_PATH_IMAGE002
,其中 M ≪ N,元集 Dm 的标签是人工标注的。整体的训练集 D = {Dw, Dm}包含了网络集和元集。
在本实施例中的网络结构和参数:
使用一个骨干网络 f 作为特征提取器,并为之搭配了两个并行的全连接层作为预测头;两个预测头分别是网络预测头 hw 和元预测头 hm,简称为网络头和元头,骨干网络和两个预测头的参数分别记为θf、θhw 以及θhm。骨干网络 f 和网络头 hw 可以组成用于细粒度识别的分类网络 h,其参数记为θh = {θf , θhw}。此外,还涉及一个选择网络Snet,其参数定义为θs。
在本实施例中的标签表示和损失函数:
独热标签的分布 q 可以表示为 q(c = yi|xi) = 1, q(c ̸≠ ̸yi|xi) = 0,其中 c 表示各个类别,为了提升模型的泛化性,采用了标签平滑策略,平滑后的标签分布表示为 q(c = yi|xi) = 1 −ϵ, q(c ≠yi|xi) =
Figure 735213DEST_PATH_IMAGE003
,其中 C 表示类别总数。
对于训练集 D 中的每组样本 (xi, yi),分类网络 h 和元预测头 hm 输出的概率分布分别表示为 p(c|xi;θh) 和 p(c|xi;θhm)。将 p(c|xi;θhm) 简记为 pm(c|xi),可选用常用的交叉熵损失函数来计算每个训练样本的预测概率分布 p(c|xi;θh) 和其标签分布 q(c|xi) 之间的损失,其公式为:
Figure 906432DEST_PATH_IMAGE004
(6.1)
由于交叉熵损失函数对标签噪声是敏感的,并且深度神经网络有足够的容量来记忆标签噪声,直接使用上述交叉熵公式在噪声数据集 Dw 上训练模型会导致较差的模型性能,目标是利用小元集 Dm 提供的先验知识,引导分类网络 h 在含噪网络数据集 Dw 上进行鲁棒的训练。
在本实施例中,如图1所示,关于深度神经网络记忆效应的研究表明,模型在训练 过程中会先学习干净的样本,然后再逐步拟合标签噪声。考虑到该现象,首先在模型预处理 (warm-up)阶段(T ≤ Ts,T 和 Ts 分别表示训练周期和预处理周期),直接利用整个数据 集 D 来训练分类网络θh。在此阶段,对于每个迭代 t 中的小批次数据
Figure 596039DEST_PATH_IMAGE005
,使用学习率为α 的随机梯度下降优化器(SGD)来训练模型:
Figure 510906DEST_PATH_IMAGE039
(6.2)
经过预处理阶段后(T ≥ Ts),开始处理网络数据集 Dw 中的标签噪声。首先,借 助广泛使用的小损失准则在每个小批次数据中识别标签噪声。其标准为选取小训练损失的 样本作为干净样本,大损失的作为标签噪声。具体而言,对于网络数据集 Dw 中的每个小批 次
Figure 235148DEST_PATH_IMAGE040
,首先选取 (1 −τ ) × 100% 比例的小损失样本作为干净样本,以此将该小批次划 分为干净批
Figure 842847DEST_PATH_IMAGE041
和噪声批
Figure 757101DEST_PATH_IMAGE042
Figure 600292DEST_PATH_IMAGE010
(6.3)
Figure 788828DEST_PATH_IMAGE011
(6.4)
其中,τ表示为样本丢弃率(噪声率)。然后,干净批
Figure 692062DEST_PATH_IMAGE041
中的训练样本直接被应用 于模型优化。噪声批
Figure 231627DEST_PATH_IMAGE042
中的图像被输入进选择网络 Snet 中来计算其属于分布内噪声的 概率 Pin,以便进行进一步的样本筛选:
Figure 878509DEST_PATH_IMAGE012
(6.5)
之后,有较高 Pin 的样本被识别为分布内噪声样本,并将经过重标注后再度应用 于训练中。其他样本则被认为是分布外噪声并直接丢弃。分布内样本
Figure 46185DEST_PATH_IMAGE013
的获取公式为:
Figure 995687DEST_PATH_IMAGE043
(6.6)
其中,r 是基于小批次数据大小的重标注率。
在干净样本和分布内噪样本声被识别后,这两类训练数据可以被应用于模型训 练。具体来说,元预测头 hm 对这些样本预测的概率分布 pm(
Figure 22549DEST_PATH_IMAGE044
) 会被用作伪标签。被识 别为干净的训练图像会同时使用网络图像标签
Figure 207542DEST_PATH_IMAGE045
和伪标签 pm(
Figure 229725DEST_PATH_IMAGE044
) 进行训练。而分布 内噪声则仅使用伪标签进行训练。分类网络参数θh 的更新方式如下:
Figure 350128DEST_PATH_IMAGE015
(6.7)
其中,
Figure 988920DEST_PATH_IMAGE016
是元预测头 hm 对于网络图像
Figure 852970DEST_PATH_IMAGE017
的预测类别,预测置信度
Figure 992309DEST_PATH_IMAGE018
被用作损失
Figure 549192DEST_PATH_IMAGE019
的权重。
分类网络 hm 的训练方式如上所述。其中,元预测头 hm 和选择网络 Snet 都是利用可靠的元集 Dm 进行训练的。
在本实施例中,从图 1中可以看出,元预测头 hm 和网络预测头 hw 是并行的两 个预测头,它们都使用图像特征 f(xi) 作为输入,并输出相应的预测概率分布。元头 hm 与网络头 hw 的不同之处在于它仅使用可靠的小元集 Dm 进行训练。具体而言,在每个迭 代 t中,从元集 Dm 中采样一个小批次数据
Figure 144122DEST_PATH_IMAGE020
,并使用骨干网络 f 来对其中的每个样本
Figure 670918DEST_PATH_IMAGE021
提取图像特征 f(
Figure 808638DEST_PATH_IMAGE021
)。然后,元头的参数θhm 可用如下方式更新:
Figure 661057DEST_PATH_IMAGE046
(6.8)
从公式 (6.8)中可以发现,本发明对于两个预测头 hm 和 hw 采用了相同的学习率α,其原因是两个预测头都是结构相同的全连接层,其输入尺寸和输出尺寸都是一样的。在训练框架中,元预测头 hm 用于动态地对网络训练集 Dw 中的样本更新伪标签。
本发明直接使用在整个数据集上训练的特征提取器 f 来提取图像特征,并简单的使用一个全连接层作为元预测头 hm。这样的设计有两个优点:不仅可以防止过拟合,使训练出的 hm 更具泛化性;还能够节约训练资源和时间。具体而言,假设本发明中的算法使用一个完整的深度网络模型来代替元预测头,即在元集上训练一个包含特征提取的分类网络用于对网络图像产生伪标签。那么该网络在训练过程中很可能会过拟合数据集,因为元集的规模很小。过拟合的网络难以产生可靠的软标签来监督网络图像的训练。相反,算法中使用的特征提取器 f 是通过大量的图像进行训练的,因此其具有较强的泛化性和鲁棒性。在训练框架中,元预测头 hm 不需要学习特征提取,仅需要学习利用图像特征来产生类别预测。在这种情况下,它不容易产生过拟合问题。此外,与一个完整的深度神经网络模型相比较,一个简单的全连接层的参数是非常少的,它仅占用了少量的计算资源,这样的设计使本发明更具实用性。
从训练框架中可以发现,元预测头对识别为干净的样本和分布内噪声都提供了伪 标签作为监督信息,在公式 (6.7) 中实现了标签修正。虽然所提的算法首先利用小损失准 则对网络图像进行了样本选择,但其噪声识别结果不可能是完美的,部分噪声样本仍然有 机会影响模型的训练,尤其是在噪声比例较高的类别中。为了降低噪声影响的风险,本发明 中的算法使用元头的预测概pm(
Figure 353069DEST_PATH_IMAGE044
) 作为伪标签,并且在公式 (6.7) 中联合使用伪标签 和潜在含噪的网络标签作为被识别为干净样本的监督信息;该策略受知识蒸馏思想所启 发。Li 等人在研究中表明,联合使用知识蒸馏得到的软标签和潜在含噪的标签会比单独使 用其中的一种的风险更低。在干净样本的训练策略上,本发明中的算法延续了这一思路,而 对于分布内噪声样本,直接使用元预测头的概率分布pm(
Figure 949136DEST_PATH_IMAGE044
)作为监督信息来代替其错误 的标签。
由于元头 hm 仅从一个小规模的数据集进行学习,故它仍有可能产生错误的预测 结果(标签),尤其是在网络训练的初期阶段。为了解决该问题,公式 (6.7) 中使用了预测 置信度
Figure 941362DEST_PATH_IMAGE047
来对损失进行重加权。如果一个样本的预测结果是相对不可靠的(即 较低的
Figure 699103DEST_PATH_IMAGE047
,那么其损失会被相应地降低。在这种策略下,不可靠的伪标签会被抑 制,训练过程会更加平滑。随着元头 hm 的训练逐渐收敛,其产生的伪标签也越来越可靠, 损失的权重会上升。模型在此过程中逐步借助更可靠的伪标签进行训练,实现稳步的性能 提升。
元预测头 hm 在整个算法框架中的作用为提供伪标签,以进行标签修正。通过这 种方式,本发明中的算法能缓解高噪声类别问题。如果某些类别的噪声比率很高,那么标签 噪声可能会淹没干净样本,使得模型无法利用网络头 hw 的训练损失来区分干净和噪声样 本。即在这种情况下,常用的小损失准则很可能是失效的,会导致模型在这些高噪声类别上 表现出极差的分类准确度,最终破坏模型的整体分类性能。然而,标签修正策略不受噪声比 率的影响,因为网络图像的伪标签pm(
Figure 409570DEST_PATH_IMAGE044
) 是从可靠的小元集中学习得出的,伪标签的产 生过程与网络标签无关。在训练过程中,伪标签能够平滑地修正网络图像潜在的错误标签, 进而减少模型被标签噪声误导的风险,提升高噪声类别的分类准确率。
在本实施例中,使用小元集 Dm 训练了一个选择网络 Snet 用于从噪声样本中识别出分布内噪声图片,其结构和训练机制已展示于图 1中。具体而言,选择网络 Snet 采用了一个多层感知机(Multilayer Perceptron,MLP)网络结构。它唯一的隐藏层包含了 256个神经元,并使用 ReLU 激活函数。该网络以图像特征为输入,并输出该样本属于分布内图像的概率。
由于其输出的是一个概率值,故使用了 Sigmoid 激活函数对其输出进行归一化,使其结果在 [0, 1] 范围内。由于元集 Dm 规模很小,导致常规的训练策略很容易产生过拟合问题,故采用了元学习策略。该训练方式常用于小样本学习(Few-shot)任务中,不需要大规模的数据集也能训练出较为鲁棒的模型;下面将详述具体的训练过程:
首先,在每次迭代 t 中,从网络训练集 Dw 中采样一个小批量数据
Figure 543748DEST_PATH_IMAGE040
,并通过 如下方式构建分类器学习函数
Figure 390481DEST_PATH_IMAGE048
Figure 584702DEST_PATH_IMAGE049
(6.9)
从公式 (6.9)中可以观察到,选择网络
Figure 516886DEST_PATH_IMAGE026
输出的概率被视为网络样本
Figure 192106DEST_PATH_IMAGE027
在训 练过程中的权重;在此公式中,分类网络的参数
Figure 283558DEST_PATH_IMAGE024
为选择网络参数
Figure 992888DEST_PATH_IMAGE028
的函数;下 一步,使用元集Dm来优化选择网络参数
Figure 802581DEST_PATH_IMAGE028
;在每次迭代 t 中,从元集Dm中采样一组小批量 样本 Dm 并输入进参数为
Figure 153928DEST_PATH_IMAGE024
的分类网络 h 中,然后根据网络输出计算元损失, 则选择网络的参数
Figure 99888DEST_PATH_IMAGE028
可用如下方式更新
Figure 104753DEST_PATH_IMAGE050
(6.10)
其中,
Figure 11529DEST_PATH_IMAGE030
是选择网络
Figure 291200DEST_PATH_IMAGE026
的学习率。
如图2所示,参数
Figure 701453DEST_PATH_IMAGE051
通过公式 (6.10) 的优化过程可以通过元学习的形式,借助 梯度的反向传播实现。
公式 (6.10)和图1所展示的优化过程可以用如下方式来进行推导:
Figure 408378DEST_PATH_IMAGE031
(6.11)
根据上述计算推导过程,公式 (6.10)可以被重写为如下形式:
Figure 802450DEST_PATH_IMAGE032
(6.12)
在公式 (6.12) 中,系数
Figure 620234DEST_PATH_IMAGE052
的影响至关重要。从公式 (6.11) 中可看 出,
Figure 416151DEST_PATH_IMAGE053
表示了两种损失在分类网络 h 上计算出的梯度的相似程度。这两个损失分别为网络 图像
Figure 314485DEST_PATH_IMAGE054
的训练损失
Figure 930274DEST_PATH_IMAGE055
以及干净图像
Figure 551749DEST_PATH_IMAGE021
的元损失
Figure 202173DEST_PATH_IMAGE056
。则系数
Figure 985321DEST_PATH_IMAGE057
表示了网络图像
Figure 478619DEST_PATH_IMAGE054
的梯度与小批次元数据 Dm 的平均梯度的相似程度。如 果一个网络图像是分布内的,那么其在分类网络训练过程中产生的梯度往往与元集中的干 净样本的梯度较为相近,系数
Figure 513571DEST_PATH_IMAGE052
会增大,那么,根据公式 (6.12),
Figure 877557DEST_PATH_IMAGE051
会朝着增大 选择网络
Figure 972551DEST_PATH_IMAGE058
输出的方向进行优化相反,分布外噪声对网络训练产生的梯度往往与干净样 本相异,
Figure 687567DEST_PATH_IMAGE051
会朝着减少选择网络
Figure 526210DEST_PATH_IMAGE058
输出的方向进行优化。在这个训练过程中,选择网络
Figure 275860DEST_PATH_IMAGE058
会逐渐增加分布内图像的分数(预测概率),并降低分布外图像的分数,最终学习到如 何利用图像特征来鉴别分布内和分布外图像。
由于使用的元学习算法是比较耗时,在实际应用中,它的训练时长几乎是普通训 练策略的5倍,考虑到这个问题,在训练选择网络
Figure 400811DEST_PATH_IMAGE058
时采用了提前停止(Early Stopping) 策略用以节约训练时间;此外,提前停止技巧还可以防止模型过拟合,增强模型的鲁棒性。 具体而言,选择网络
Figure 478488DEST_PATH_IMAGE058
仅在预处理阶段(T ≤ Ts)进行训练,并记录每个网络样本
Figure 982806DEST_PATH_IMAGE044
属于 分布内图像的概率
Figure 462329DEST_PATH_IMAGE059
。预处理阶段结束后,直接使用记录中的分布内概率
Figure 23760DEST_PATH_IMAGE059
来 筛选分布内噪声样本。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种小规模可靠数据集驱动的噪声修正算法,用于提升高噪声类别的识别准确率,其特征在于,包括如下步骤:
S1.对训练集D进行分类;
S2.采用一个骨干网络f作为特征提取器,并为之搭配两个并行的全连接层作为预测头,并且输入图像特征,可输出相应的预测概率分布;
S3.使用元预测头的预测概率作为伪标签,利用伪标签修正网络图像中错误的标签,联合使用伪标签和网络标签类训练模型对高比例噪声进行缓解,具体为:
S31.借助小损失准则在每个小批次中识别标签噪声;
S32.在干净样本和分部内燥样本声被识别后,可被用作模型训练;
S4.依靠选择网络有效选择出分布内噪声样本,并通过重标注重新利用。
2.根据权利要求1所述的一种小规模可靠数据集驱动的噪声修正算法,其特征在于,在 S1中,训练集包括网络集和元集,其中含噪的网络训练集和小规模的元集分别表示为
Figure 954848DEST_PATH_IMAGE001
Figure 768083DEST_PATH_IMAGE002
,其中 M ≪ N,元集 Dm 的标签为 人工标注,每个样本表示为 (xi, yi),且包含了图像 xi 以及其对应的标签 yi
3.根据权利要求1所述的一种小规模可靠数据集驱动的噪声修正算法,其特征在于,在 S2中,预测头分别是网络预测头 hw 和元预测头 hm,骨干网络、网络预测头 hw 和元预测 头 hm参数分别记为 θf、θhw以及 θhm;骨干网络 f 和网络预测头 hw 可组成用于细粒度 识别的分类网络 h,其参数记为θh={θf,θhw},此外,还涉及一个选择网络 Snet,其参数定 义为 θs;独热标签的分布 q 表示为 q(c = yi|xi) = 1, q(c ≠yi|xi) = 0,其中 c 表 示各个类别;为了提升模型的泛化性,采用标签平滑策略,平滑后的标签分布表示为q(c = yi|xi) = 1 − ϵ, q(c ≠yi|xi) =
Figure 813530DEST_PATH_IMAGE003
,其中 C 表示类别总数;
对于训练集 D 中的每组样本 (xi, yi),分类网络 h 和元预测头 hm 输出的概率分布分别表示为 p(c|xi;θh) 和 p(c|xi;θhm);将 p(c|xi;θhm) 简记为 pm(c|xi);选用常用的交叉熵损失函数来计算每个训练样本的预测概率分布 p(c|xi;θh) 和其标签分布 q(c|xi) 之间的损失,其公式为:
Figure 178653DEST_PATH_IMAGE004
(6.1)。
4.根据权利要求1所述的一种小规模可靠数据集驱动的噪声修正算法,其特征在于,在 S31中,模型在训练过程中会先学习干净的样本,然后再逐步拟合标签噪声,首先在模型预 处理阶段T ≤ Ts,T 和 Ts 分别表示训练周期和预处理周期,直接利用整个数据集 D 来 训练分类网络 θh;在此阶段,对于每个迭代 t 中的小批次数据
Figure 676761DEST_PATH_IMAGE005
,使用学习率为α的随机 梯度下降优化器来训练模型:
Figure 293687DEST_PATH_IMAGE006
(6.2)
经过预处理阶段T ≥ Ts后,开始处理网络数据集 Dw 中的标签噪声,对于网络数据集 Dw 中的每个小批次
Figure 442909DEST_PATH_IMAGE007
,首先选取 (1 − τ ) × 100% 比例的小损失样本作为干净样本, 以此将该小批次划分为干净批
Figure 729665DEST_PATH_IMAGE008
和噪声批
Figure 902020DEST_PATH_IMAGE009
Figure 650533DEST_PATH_IMAGE010
(6.3)
Figure 404994DEST_PATH_IMAGE011
(6.4)
其中,τ 表示为样本丢弃率,即噪声率。
5.根据权利要求4所述的一种小规模可靠数据集驱动的噪声修正算法,其特征在于,干 净批
Figure 111919DEST_PATH_IMAGE008
中的训练样本直接被应用于模型优化;噪声批
Figure 771570DEST_PATH_IMAGE009
中的图像被输入进选择网络 Snet 中来计算其属于分布内噪声的概率 Pin,进行进一步的样本筛选:
Figure 543348DEST_PATH_IMAGE012
(6.5)
之后,有较高 Pin 的样本被识别为分布内噪声样本,并将经过重标注后再度应用于训 练中,其他样本则被认为是分布外噪声并直接丢弃;分布内样本
Figure 463900DEST_PATH_IMAGE013
的获取公式为:
Figure 217092DEST_PATH_IMAGE014
(6.6)
其中,r 是基于小批次数据大小的重标注率。
6.根据权利要求5所述的一种小规模可靠数据集驱动的噪声修正算法,其特征在于,在干净样本和分布内噪样本声被识别后,这两类训练数据应用于模型训练,分类网络参数 θh的更新方式如下:
Figure 973827DEST_PATH_IMAGE015
(6.7)
其中,
Figure 798563DEST_PATH_IMAGE016
是元预测头 hm 对于网络图像
Figure 714567DEST_PATH_IMAGE017
的预测类别,预测置信度
Figure 717289DEST_PATH_IMAGE018
被用 作损失
Figure 945008DEST_PATH_IMAGE019
的权重。
7.根据权利要求6所述的一种小规模可靠数据集驱动的噪声修正算法,其特征在于,元 预测头 hm 和网络预测头 hw 是并行的两个预测头,且皆使用图像特征 f(xi) 作为输入, 并输出相应的阿预测概率分布;在每个迭代 t中,从元集 Dm 中采样一个小批次数据
Figure 245539DEST_PATH_IMAGE020
, 并使用骨干网络f来对其中的每个样本
Figure 94678DEST_PATH_IMAGE021
提取图像特征 f(
Figure 314306DEST_PATH_IMAGE021
),元预测头的参数 θhm 可 用如下方式更新:
Figure 170267DEST_PATH_IMAGE022
(6.8)
对于两个预测头 hm 和 hw 采用了相同的学习率α。
8.根据权利要求1所述的一种小规模可靠数据集驱动的噪声修正算法,其特征在于,在 S4中,在每次迭代 t 中,从网络训练集 Dw 中采样一个小批量数据
Figure 341399DEST_PATH_IMAGE023
,并通过如下方式 构建分类器学习函数
Figure 91049DEST_PATH_IMAGE024
Figure 435574DEST_PATH_IMAGE025
(6.9)
从公式 (6.9)中可以观察到,选择网络
Figure 513251DEST_PATH_IMAGE026
输出的概率被视为网络样本
Figure 280219DEST_PATH_IMAGE027
在训练过程 中的权重;在此公式中,分类网络的参数
Figure 759742DEST_PATH_IMAGE024
为选择网络参数
Figure 275168DEST_PATH_IMAGE028
的函数;下一步,使 用元集Dm来优化选择网络参数
Figure 964775DEST_PATH_IMAGE028
;在每次迭代 t 中,从元集Dm中采样一组小批量样本 Dm 并输入进参数为
Figure 410800DEST_PATH_IMAGE024
的分类网络 h 中,然后根据网络输出计算元损失,则选择网络 的参数
Figure 823458DEST_PATH_IMAGE028
可用如下方式更新:
Figure 555791DEST_PATH_IMAGE029
(6.10)
其中,
Figure 873640DEST_PATH_IMAGE030
是选择网络
Figure 936405DEST_PATH_IMAGE026
的学习率。
9.根据权利要求8所述的一种小规模可靠数据集驱动的噪声修正算法,其特征在于,优化过程用如下方式来进行推导:
Figure 249574DEST_PATH_IMAGE031
(6.11)
根据上述计算推导过程,公式 (6.10)被重写为如下形式:
Figure 293754DEST_PATH_IMAGE032
(6.12)
在公式 (6.12) 中,
Figure 708686DEST_PATH_IMAGE033
表示两种损失在分类网络 h 上计算出的梯度的相似程度;这两 个损失分别为网络图像
Figure 558830DEST_PATH_IMAGE034
的训练损失
Figure 133031DEST_PATH_IMAGE035
以及干净图像
Figure 957898DEST_PATH_IMAGE021
的元损失
Figure 312656DEST_PATH_IMAGE036
,则系数
Figure 373016DEST_PATH_IMAGE037
表示网络图像
Figure 677090DEST_PATH_IMAGE034
的梯度与小批次元数据 Dm 的 平均梯度的相似程度。
CN202211420837.2A 2022-11-15 2022-11-15 一种小规模可靠数据集驱动的噪声修正算法 Pending CN115578568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211420837.2A CN115578568A (zh) 2022-11-15 2022-11-15 一种小规模可靠数据集驱动的噪声修正算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211420837.2A CN115578568A (zh) 2022-11-15 2022-11-15 一种小规模可靠数据集驱动的噪声修正算法

Publications (1)

Publication Number Publication Date
CN115578568A true CN115578568A (zh) 2023-01-06

Family

ID=84589133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211420837.2A Pending CN115578568A (zh) 2022-11-15 2022-11-15 一种小规模可靠数据集驱动的噪声修正算法

Country Status (1)

Country Link
CN (1) CN115578568A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079075A (zh) * 2023-08-18 2023-11-17 北京航空航天大学 一种基于伪标签生成与校正的小样本目标检测方法
CN117523295A (zh) * 2023-11-17 2024-02-06 电子科技大学 基于类引导元学习的无源域适应的图像分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079075A (zh) * 2023-08-18 2023-11-17 北京航空航天大学 一种基于伪标签生成与校正的小样本目标检测方法
CN117523295A (zh) * 2023-11-17 2024-02-06 电子科技大学 基于类引导元学习的无源域适应的图像分类方法
CN117523295B (zh) * 2023-11-17 2024-09-24 电子科技大学 基于类引导元学习的无源域适应的图像分类方法

Similar Documents

Publication Publication Date Title
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
Liu et al. Incdet: In defense of elastic weight consolidation for incremental object detection
EP3767536A1 (en) Latent code for unsupervised domain adaptation
CN110956185A (zh) 一种图像显著目标的检测方法
CN111931602B (zh) 基于注意力机制的多流分段网络人体动作识别方法及系统
CN115578568A (zh) 一种小规模可靠数据集驱动的噪声修正算法
CN113076994B (zh) 一种开集域自适应图像分类方法及系统
CN109993100B (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN111611847A (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
CN109522961B (zh) 一种基于字典深度学习的半监督图像分类方法
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
CN113034545A (zh) 一种基于CenterNet多目标跟踪算法的车辆跟踪方法
CN113657561A (zh) 一种基于多任务解耦学习的半监督夜间图像分类方法
Sanida et al. Tomato leaf disease identification via two–stage transfer learning approach
Li et al. Robust deep neural networks for road extraction from remote sensing images
CN117237733A (zh) 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法
CN115424177A (zh) 一种基于增量学习的孪生网络目标跟踪的方法
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN113344077A (zh) 一种基于卷积胶囊网络结构的抗噪茄科病害识别方法
CN114692732A (zh) 一种在线标签更新的方法、系统、装置及存储介质
CN114708637A (zh) 一种基于元学习的人脸动作单元检测方法
CN111259938B (zh) 基于流形学习和梯度提升模型的图片偏多标签分类方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN117557886A (zh) 融合偏标签和消极学习的含噪声标签图像识别方法及系统
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230106

RJ01 Rejection of invention patent application after publication