CN111832627B

CN111832627B - 抑制标签噪声的图像分类模型训练方法、分类方法及系统

Info

Publication number: CN111832627B
Application number: CN202010567241.XA
Authority: CN
Inventors: 王非; 李江腾
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2022-08-05
Anticipated expiration: 2040-06-19
Also published as: CN111832627A

Abstract

本发明公开了一种抑制标签噪声的图像分类模型训练方法、分类方法及系统，属于图像分类任务领域，包括：将图像数据集划分为训练集和验证集，利用训练集对图像分类模型进行有监督训练；遍历训练集，获得各样本的在模型输出层产生的梯度，并估计梯度模长分布，以计算训练集中样本被错误标定的概率，由此划分出错误标定样本子集和正确标定样本子集；若错误标定样本过少，则利用正确标定样本子集对模型进行有监督训练；否则，舍弃错误标定样本的类别标签后，利用两个样本子集结合半监督学习算法更新模型参数；重复遍历训练集至更新模型参数的步骤直至模型收敛。本发明能够从样本层面降低神经网络模型拟合错标定样本的风险，提高图像分类的准确率。

Description

抑制标签噪声的图像分类模型训练方法、分类方法及系统

技术领域

本发明属于图像分类任务领域，更具体地，涉及一种抑制标签噪声的图像分类模型训练方法、分类方法及系统。

背景技术

图像分类是机器学习图像领域需要解决的主要问题之一。近些年快速发展并且持续火热的深度学习在许多图像分类任务中都取得了超过传统方法的结果。深度学习的优异表现很大程度上得益于大量数据的积累。对于图像分类这一监督学习任务而言，深度学习还依赖充足且正确的数据标签。然而在许多应用场景中，由于图像标注人员素质参差不齐，标注任务对于标签质量的把控手段和要求不同等原因，通常实际任务数据集或多或少存在着错误的图像标签，这些错误地标签也被成为标签噪声。

深度神经网络通过数据驱动的方式进行参数更新，具有强大的数据表达和推理能力。在图像分类任务中，深度神经网络通过其多层结构和非线性映射将输入图片样本映射为其类别标签。而在数据集存在标签噪声的情况下，深度神经网络强大的表达能力反而让神经网络容易学习到错误的图像到标签的映射关系。此时神经网络展现出的行为更像是强行记忆下了包括错标定样本在内的所有数据，而在测试阶段面临新的数据时，通常表现不佳，这也称为神经网络对错标定样本产生了过拟合。具体而言，神经网络在图像分类任务中通常采用类别交叉熵作为目标函数，该函数本身不具有抗噪特性，数据集中的错标定样本会产生与最优解方向不一致的梯度从而导致神经网络无法再最优解处收敛。

目前，针对图像分类任务中的标签噪声问题，现有的解决方法基本都是从监督学习的角度出发，其中一类从损失的角度进行改进，这一类方法多着眼与降低疑似错标定样本在总损失中的权重，而由于交叉熵的一阶导特性，错标定样本往往会产生更大的梯度，因此忽视梯度特性仅仅从损失的角度进行改进是不足以抑制标签噪声对模型训练效果的影响的；还有一类方法通过过滤手段尽可能滤除错标定样本，这一类方法完全放弃了疑似错标定的样本，然而这些样本虽然可能存在错误标签，但其数据仍包含可以协助分类的信息，人为降低可用样本规模一定程度上限制了神经网络的进一步优化。总体而言，现有的方法并不能很好地抑制标签噪声，使得神经网络模型的学习效果较差，最终图像分类任务的分类准确率不高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种抑制标签噪声的图像分类模型训练方法、分类方法及系统，其目的在于，从样本层面降低神经网络模型拟合错标定样本的风险，以降低标签噪声对神经网络模型学习效果的影响，提高图像分类的准确率。

为实现上述目的，按照本发明的一个方面，提供了一种抑制标签噪声的图像分类模型训练方法，包括如下步骤：

(1)将图像数据集中已标注的图像样本及其对应的类别标签划分为训练集和验证集；

(2)利用训练集对基于神经网络的图像分类模型进行有监督训练；图像分类模型采用softmax函数或者其变体函数作为输出层激活函数，采用类别交叉熵作为目标函数；

(3)遍历训练集，获得各图像样本经过图像分类模型前向传播后，目标函数关于图像分类模型输出层未经激活的神经元输出的一阶导数，作为对应图像样本的在图像分类模型输出层产生的梯度，并估计梯度模长分布的概率密度函数；

(4)利用概率密度函数计算训练集中各图像样本被错误标定的概率，将概率大于预设阈值的图像样本划分到错误标定样本子集，将其余图像样本划分到正确标定样本子集；

(5)若错误标定样本子集不足以构成一个训练批次，则利用正确标定样本子集对图像分类模型进行有监督训练，以更新图像分类模型的参数；否则，舍弃错误标定样本子集中的类别标签后将其中的图像样本作为未标定样本，将正确标定样本子集中的图像样本作为已标定样本，结合半监督学习算法更新图像分类模型的参数；

(6)若图像分类模型还未在验证集上收敛，则转入步骤(3)；否则，训练结束。

进一步地，步骤(3)中，图像样本的在图像分类模型输出层产生的梯度的计算公式为：

其中，g表示图像样本的在图像分类模型输出层产生的梯度；L表示图像分类模型的类别交叉熵，x表示图像样本在图像分类模型的输出层产生的未经激活的神经元输出；y表示图像样本的类别标签，p表示神经元输出x经过激活之后的神经网络预测输出，*表示元素乘。

进一步地，步骤(3)中，梯度模长的计算公式为：

gradient_norm＝sum(y*(1-p))

其中，gradient_norm表示梯度模长，sum()表示对向量进行元素求和。

进一步地，步骤(3)中，估计梯度模长分布的概率密度函数时，采用包含两个成分的混合分布对该概率密度函数进行拟合，拟合得到的概率密度函数形式如下：

其中，g表示图像样本的在图像分类模型输出层产生的梯度，p(g)表示梯度模长分布的概率密度函数；两个成分分别为正确标定样本成分和错误标定样本成分，k表示成分序号，λ_k表示第k个成分的混合系数，p(g|k)表示关于梯度模长的第k个分布。

进一步地，两个成分的混合分布中，各成分分布采用Beta分布。

进一步地，步骤(4)中，利用概率密度函数计算训练集中各图像样本被错误标定的概率，计算公式为：

其中，j表示错误标定样本成分的序号；i表示训练集中图像样本的序号，g_i表示训练集中的第i个图像样本在图像分类模型输出层产生的梯度的模长，index表示训练集中的第i个图像样本被错误标定的概率。

进一步地，步骤(2)和步骤(5)中，在将图像样本输入图像分类模型之前，还包括：利用数据增强的手段对训练集或正确标定样本子集中的图像样本进行增强；

增强得到的图像样本仅作为训练样本，用于对神经网络参数进行更新；在估计梯度模长分布的概率密度函数时，不考虑增强得到的图像样本，由此既能够保证训练得到的模型具有较高的泛化性能，又能够避免在计算梯度时因引入随机性而影响梯度计算的准确性。

按照本发明的另一个方面，提供了一种图像分类方法，包括：以待分类图像为输入，利用已训练好的图像分类模型预测待分类图像的类别；

其中，已训练好的图像分类模型由本发明所提供的上述抑制标签噪声的图像分类模型训练方法训练得到。

按照本发明的又一个方面，提供了一种系统，包括：计算机可读存储介质和处理器；

计算机可读存储介质用于存储可执行指令；

处理器用于读取计算机可读存储介质中存储的可执行指令，执行本发明提供上述的抑制标签噪声的图像分类模型训练方法和/或本发明提供的上述图像分类方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明基于训练集中各样本在图像分类模型输出层产生的梯度的模长分布的概率密度函数，计算训练集中各图像样本被错误标定的概率，以此为依据，从训练集中分离出极有可能被错误标定的样本，将这些分离出的样本作为未标定样本使用，并结合半监督学习算法对基于神经网络的图像分类模型的参数进行更新，一方面，能够从样本层面保证图像分类模型进行参数更新时有较高的梯度信噪比，降低图像分类模型对错标定样本进行错误拟合的风险，另一方面，又能够从错标定样本中学习数据的结构化信息，提升图像分类模型的泛化性能。因此，本发明能够降低标签噪声对图像分类模型学习效果的影响，提高图像分类的准确率。

(2)本发明在对图像分类模型的参数进行迭代更新的过程中，在每一个训练轮次遍历训练样本后，都会重新基于训练集中各样本在图像分类模型输出层产生的梯度，划分出正确标定样本子集和错误标定样本子集，由此保证了两个子集的划分条件是结合图像分类模型的训练程度动态变化的，更加合理，进一步从样本层面保证了神经网络进行参数更新时具有较高的梯度信噪比。

(3)本发明结合半监督学习对基于神经网络的图像分类模型进行训练，在图像数据集标签有限、本身存在大量未标定样本的场景下，同样适用，因此，具有较好的泛化性能。

附图说明

图1为本发明实施例提供的抑制标签噪声的图像分类模型训练方法流程图；

图2为本发明实施例提供的抑制标签噪声的图像分类模型训练方法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例一：

一种抑制标签噪声的图像分类模型训练方法，如图1-图2所示，包括如下步骤：

在此可使用任意一种标准的图像数据集；在本实施例中，使用标准图像分类数据集CIFAR-10，该数据集内包含共十个类别的50000个训练样本和10000个测试样本，本实施例通过人为随机修改训练样本的类别标签，模拟数据集中存在标签噪声的场景；

(2)利用训练集对基于神经网络的图像分类模型进行有监督训练；图像分类模型采用softmax函数或者其变体函数(例如sigmoid函数等)作为输出层激活函数，采用类别交叉熵作为目标函数；

在此可使用任意一种满足上述关于输出层激活函数和目标函数设定的神经网络模型作为图像分类模型，在本实施例中，使用ResNet-18作为图像分类网络；在本发明其他的一些实施例中，也可以采用其他的神经网络模型作为图像分类模型，例如ResNet-34，Wide ResNet 28x10等；

在有监督训练过程中，会进行多个训练轮次，直至在连续几个训练轮次中神经网络有较高且较稳定的验证集准确率；

(3)遍历训练集，获得各样本图像经过图像分类模型前向传播后，目标函数关于图像分类模型输出层未经激活的神经元输出的一阶导数，作为对应图像样本的在图像分类模型输出层产生的梯度，并估计梯度模长分布的概率密度函数；

在本实施例中，图像样本的在图像分类模型输出层产生的梯度的计算公式为：

其中，g表示图像样本的在图像分类模型输出层产生的梯度；L表示图像分类模型的类别交叉熵；x表示图像样本在图像分类模型的输出层产生的未经激活的神经元输出，x是维度为类别数的一维向量；y表示图像样本的类别标签，是维度与x相同的独热码向量，只在指示类别的位上为1，其余位为0；p表示神经元输出x经过输出层的激活函数激活之后的神经网络预测输出；*表示元素乘；

梯度模长的计算公式为：

gradient_norm＝sum(y*(1-p))

其中，gradient_norm表示梯度模长，sum()表示对向量进行元素求和；

可选地，在本实施例中，估计梯度模长分布的概率密度函数时，根据神经网络训练过程中正确标定样本和错误标定样本产生的梯度模长在不同数值区域的聚集特性，采用包含两个成分的混合分布对该概率密度函数进行拟合，拟合得到的概率密度函数形式如下：

其中，g表示图像样本的在图像分类模型输出层产生的梯度，p(g)表示梯度模长分布的概率密度函数；两个成分分别为正确标定样本成分和错误标定样本成分，k表示成分序号，在本实施例中，k＝1表示正确标定样本成分，k＝2表示错误标定样本成分；λ_k表示第k个成分的混合系数，p(g|k)表示关于梯度模长的第k个分布；

在本实施例中，两个成分的混合分布中，各成分分布采用Beta分布，相应的表达式如下：

其中，Γ(·)为伽马函数，α_k和β_k为第k个成分分布所对应的Beta分布需要估计的参数；本实施例使用常规的EM算法估计Beta分布相关参数，在本发明其他的一些实施例中，也可以根据实际需要采用其他的估计方式；

本实施例在估计Beta分布相关参数时，第一个成分分布的α₁和β₁分别初始化为1和2,代表峰值在较小数值区域的来自正确标定样本的梯度分布；第二个成分分布的α₂和β₂分别初始化为2和1,代表峰值在较大数值区域的来自错误标定样本的梯度分布；混合系数初λ₁和λ₂分别始化为0.5和0.5；EM算法迭代次数为10次；

应当说明的是，本实施例所采用的Beta分布并不是本本发明可采用的唯一分布，在本发明其他的一些实施例中，各成分分布也可以采用正态分布等其他分布；

本实施例中，求得各图像样本在图像分类模型输出层产生的梯度的模长分布的概率密度函数p(g)之后，利用概率密度函数计算训练集中各图像样本被错误标定的概率，计算公式为：

其中，i表示训练集中图像样本的序号，g_i表示训练集中的第i个图像样本在图像分类模型输出层产生的梯度的模长，index表示训练集中的第i个图像样本被错误标定的概率；

当图像被错误标定的概率为0.5时，表示该样本来自第一个成分分布和来自第二个成分分布的概率相同，也就是该样本有50％的可能性属于错标定样本的成分分布；为了准确地划分出正确标定样本子集和错误标定样本子集，可以根据所选用的图像数据集本身的特性设定阈值，在本实施例中，该阈值设定为0.7；

在本实施例中，所采用的半监督学习算法是动量SGD(Stochastic GradientDescent)优化器，同时根据BP(Back Propagation)反向传播算法将损失进行后向传播，更新神经网络参数；

在本发明其他的一些实施例中，步骤(2)和步骤(5)中，在将图像样本输入图像分类模型之前，还包括：利用数据增强的手段对图像数据集中的图像样本进行增强；

增强得到的图像样本仅作为训练样本，用于对神经网络参数进行更新；在估计梯度模长分布的概率密度函数时，不考虑增强得到的图像样本，以保证训练得到的模型具有较高的泛化性能，同时避免在计算梯度时因引入随机性而影响梯度计算的准确性；

所采用的数据增强的手段可以是水平翻转、平移裁剪等图像增强手段以及mixup方法等，可以采用单一的增强手段，也可以是这些手段的组合；其中，mixup方法是一种同时从样本数据和样本标签的角度进行图像增强的手段，其具体方法为，产生一个数值范围在[0,1]之间的系数λ，选择两个样本x₁,x₂以及对应的标签y₁，y₂，通过线性组合获得增强后的图片样本

及对应的类别标签

分别为：

实施例二：

一种图像分类方法，包括：以待分类图像为输入，利用已训练好的图像分类模型预测待分类图像的类别；

其中，已训练好的图像分类模型由上述实施例提供的抑制标签噪声的图像分类模型训练方法训练得到。

实施例三：

一种系统，包括：计算机可读存储介质和处理器；

计算机可读存储介质用于存储可执行指令；

处理器用于读取计算机可读存储介质中存储的可执行指令，执行上述实施例提供的抑制标签噪声的图像分类模型训练方法和/或上述实施例提供的图像分类方法。

以下进一步结合一个模拟实验及相应的实验结果对本发明的技术方案及所能取得的有益效果做进一步的说明：

使用标准图像分类数据集CIFAR-10进行模拟实验，数据集内包含共十个类别的50000个训练样本和10000个测试样本。实验模拟数据集中存在20％标签噪声的情况，即从每一个类别中随机挑选20％的样本，修改样本标签使其与正确标签不同从而人为引入错误标签。验证集样本不变，并把神经网络在验证集上的分类准确率作为指标评估模型最终分类性能。

图像分类模型采用PreAct ResNet-18，分类损失采用多类别交叉熵(categorialcross entropy,CCE)；半监督算法选择MixMatch，其训练方式如下：

MixMatch是一种在mixup基础上，基于一致性损失的半监督学习方法，其引入一致性损失对数据集中的未标定数据进行约束，优化分类决策面。MixMatch总体目标函数可以表示为：

L＝L_x+W_uL_u

其中，L_x为类别交叉熵，L_u为一致性损失正则项，W_u为无监督正则系数，随着训练步数的增加，线性从0增长为1。但MixMatch中的交叉熵和一致性损失约束的并非原始的标定样本和未标定样本，而是经过改进的mixup增强后的标定样本和未标定样本。表示如下：

其中,H(·)为交叉熵函数，x表示标定样本，u表示未标定样本，θ表示神经网络参数，cnt为分类类别数，K和T为超参数；

表示训练集中标定样本集合，

表示训练集中未标定样本集合，

表示通过MixMatch方法得到的标定样本集合，

表示通过MixMatch方法得到的未标定样本集合，p_model表示图像分类模型，p表示图像分类模型的预测输出，q表示未标定样本的伪标签；MixMatch(·)即为改进的mixup增强,操作方法为不区分标定样本和未标定样本，统一进行线性组合。组合时系数λ来自分布Beta(α，α)，α设定为0.5，并将λ重新赋值为λ和1-λ的较大值从而保证λ大于0.5,如果乘以λ的是一个标定样本，则将增强后的样本作为标定样本，反之亦然。由于在进行mixup时也需要对标签进行线性组合，所以在mixup前需要获得未标定样本的伪标签。MixMatch中获得伪标签的方式为多次对同一未标定样本进行多次数据增强并将增强后的样本输入神经网络，得到多次的预测结果进行平均，最后将平均预测结果进行锐化作为该未标定样本标签，公式如下：

其中，考虑到简便性K选择2，T优选为0.5；p同样为维度为类别数的一维向量，幂操作为元素级计算，sum表示将向量所有元素求和；经过锐化，伪标签更接近一个独热编码的真实标签。

优选地，神经网络总训练轮次为120，其中预训练轮次，即首次有监督训练的训练轮次为40，半监督训练轮次为80；标签放弃策略与半监督学习相关参数选择与前面相同；优化器选择动量SGD,动量系数为0.9，初始学习率为0.1，并分别在第40,80,110个训练轮次将学习率乘以0.1。

训练完成后，利用验证集对训练好的图像分类模型进行验证，验证结果如表1所示。

表1验证集上准确率对比

根据表1所示的验证结果可知，在存在标签噪声时仅采用监督学习的方式进行训练，不仅神经网络最终分类效果明显下降，训练过程中取得最好结果的轮次与训练最后的轮次在准确率上也存在较大的差异，这表明神经网络出现了明显过拟合；采用本发明提供的基于样本在图像分类模型输出层产生的梯度的模长分布特性识别错误标定的样本，并舍弃其类别标签，同时结合半监督学习的神经网络训练方法不仅带来了明显的准确率提升，也缩小了最好轮次与最后轮次结果的差异，有效改善了过拟合，提升了图像分类模型的分类准确率和泛化性能。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种抑制标签噪声的图像分类模型训练方法，其特征在于，包括如下步骤：

(2)利用所述训练集对基于神经网络的图像分类模型进行有监督训练；所述图像分类模型采用softmax函数或者其变体函数作为输出层激活函数，采用类别交叉熵作为目标函数；

(3)遍历所述训练集，获得各图像样本经过所述图像分类模型前向传播后，目标函数关于所述图像分类模型输出层未经激活的神经元输出的一阶导数，作为对应图像样本的在所述图像分类模型输出层产生的梯度，并估计梯度模长分布的概率密度函数；

所述步骤(3)中，图像样本的在所述图像分类模型输出层产生的梯度的计算公式为：

所述步骤(3)中，梯度模长的计算公式为：

gradient_norm＝Sum(y*(1-P))

其中，g表示图像样本的在所述图像分类模型输出层产生的梯度；L表示所述图像分类模型的类别交叉熵，x表示图像样本在所述图像分类模型的输出层产生的未经激活的神经元输出；y表示图像样本的类别标签，p表示神经元输出x经过激活之后的神经网络预测输出，*表示元素乘；gradient_norm表示梯度模长，sum()表示将梯度进行元素求和；

(4)利用所述概率密度函数计算所述训练集中各图像样本被错误标定的概率，将概率大于预设阈值的图像样本划分到错误标定样本子集，将其余图像样本划分到正确标定样本子集；

(5)若所述错误标定样本子集不足以构成一个训练批次，则利用所述正确标定样本子集对所述图像分类模型进行有监督训练，以更新所述图像分类模型的参数；否则，舍弃所述错误标定样本子集中的类别标签后将其中的图像样本作为未标定样本使用，将所述正确标定样本子集中的图像样本作为已标定样本，结合半监督学习算法更新所述图像分类模型的参数；

(6)若所述图像分类模型还未在所述验证集上收敛，则转入步骤(3)；否则，训练结束。

2.如权利要求1所述的抑制标签噪声的图像分类模型训练方法，其特征在于，所述步骤(3)中，估计梯度模长分布的概率密度函数时，采用包含两个成分的混合分布对该概率密度函数进行拟合，拟合得到的概率密度函数形式如下：

其中，p(gradient_norm)表示梯度模长分布的概率密度函数；两个成分分别为正确标定样本成分和错误标定样本成分，k表示成分序号，λ_k表示第k个成分的混合系数，p(gradient_norm|k)表示关于梯度模长的第k个成分的分布。

3.如权利要求2所述的抑制标签噪声的图像分类模型训练方法，其特征在于，两个成分的混合分布中，各成分分布采用Beta分布。

4.如权利要求2所述的抑制标签噪声的图像分类模型训练方法，其特征在于，所述步骤(4)中，利用所述概率密度函数计算所述训练集中各图像样本被错误标定的概率，计算公式为：

其中，j表示错误标定样本成分的序号；i表示所述训练集中图像样本的序号，gradient_norm_i表示训练集中的第i个图像样本在图像分类模型输出层产生的梯度的模长，index表示训练集中的第i个图像样本被错误标定的概率。

5.如权利要求1所述的抑制标签噪声的图像分类模型训练方法，其特征在于，所述步骤(2)和步骤(5)中，在将图像样本输入所述图像分类模型之前，还包括：利用数据增强的手段对训练集或正确标定样本子集中的图像样本进行增强；

增强得到的图像样本仅作为训练样本，用于对神经网络参数进行更新；在估计梯度模长分布的概率密度函数时，不考虑增强得到的图像样本。

6.一种图像分类方法，其特征在于，包括：以待分类图像为输入，利用已训练好的图像分类模型预测所述待分类图像的类别；

其中，所述已训练好的图像分类模型由权利要求1-5任一项所述的抑制标签噪声的图像分类模型训练方法训练得到。

7.一种抑制标签噪声的图像分类模型训练系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1-5任一项所述的抑制标签噪声的图像分类模型训练方法。

8.一种图像分类系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求6所述的图像分类方法。