CN113283467B

CN113283467B - 一种基于平均损失和逐类选择的弱监督图片分类方法

Info

Publication number: CN113283467B
Application number: CN202110399477.1A
Authority: CN
Inventors: 王魏; 桂贤进
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2022-10-18
Anticipated expiration: 2041-04-14
Also published as: CN113283467A

Abstract

本发明公开一种基于平均损失和逐类选择的弱监督图片分类方法，基于图片样例的平均损失，从带噪标记图片数据中逐类选择出低风险的数据，并将剩下未被选中的高风险图片样例视为未标记数据，利用弱监督学习技术将选中的低风险数据和未标记数据进行混合生成更多的伪标记数据扩充训练集。在混合过程中，需要对选出的低风险图片样例根据损失值的大小设置权值，并基于加权重采样技术来进一步降低风险。利用生成的伪标记数据训练深度神经网络最终得到高性能的图片分类器。本方法可以应用于各种弱监督条件下基于带有噪声标记图片数据的学习，具有较好的效果。

Description

一种基于平均损失和逐类选择的弱监督图片分类方法

技术领域

本发明涉及一种基于平均损失和逐类选择的弱监督图片分类方法，该方法能够利用带有噪声标记的图片数据训练深度神经网络模型获得较好性能的图片分类器，属于计算机人工智能数据分析技术领域。

背景技术

近年来，深度学习在计算机视觉邻域(例如：图像分类，物体检测，实例分割等任务)取得了极大的成功。然而，深度神经网络的训练通常需要大规模具有精确标记的数据。雇佣领域专家来给未标记数据提供精确的标记需要耗费大量的时间，且标注成本高昂，因此近来出现了一些快速且廉价地获取数据标记的方法，例如：众包、网络爬虫和图片搜索引擎等。然而，这些方法提供的标记往往带有噪声，即标记信息很有可能出现错误。不加处理地直接利用带有噪声标记的数据学习会严重影响深度神经网络的性能。因此，发展有效的弱监督学习技术利用可快速且廉价获取的带有噪声标记数据至关重要。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提出了一种基于平均损失和逐类选择的弱监督图片分类方法，该方法基于样例的平均损失从带有噪声标记图片数据集中逐类选择出低风险图片数据，同时把剩下未被选中的样例视为未标记图片数据。接下来，基于MixMatch技术对低风险图片数据和未标记图片数据进行混合生成新的伪标记图片数据扩充训练集；在图片数据混合过程中，基于平均损失对标记图片数据设置权值并进行加权重采样，以进一步降低图片数据风险。本发明能充分地利用易获取的带有噪声标记图片数据进行学习，消除图片数据集中错误标记对深度神经网络模型的影响，获得具有较强性能的图片分类器，能够较为准确地对未见图片进行分类，具有很大的实用价值。

技术方案：一种基于平均损失和逐类选择的弱监督图片分类方法，包括如下内容：

首先，通过众包、网络爬虫或者图片搜索引擎等手段建立一个带有噪声标记图片数据库作为训练数据集。

接着，用户选定一种常用的深度神经网络模型(例如，深度残差网络等)作为图片分类器模型。使用该模型利用随机梯度下降算法在带有噪声标记训练数据集上训练预定的轮数，并记录每一轮结束时每个样例的损失值大小；然后计算出每个样例在训练过程中的平均损失值的大小，对每个类别的样例按照其平均损失值的大小进行排序；根据逐类选择技巧，从带噪标记图片数据集中为每个类挑选出预设数量的平均损失最小的样本，并把剩下未被选中的样本视为未标记图片数据，至此完成样本的筛选过程。

接下来，基于MixMatch技术对低风险带标记图片数据和未标记图片数据进行混合生成新的伪标记图片数据扩充训练集；在这一图片数据混合的过程中，基于样例的平均损失值对带标记图片数据设置权值并进行加权重采样，以进一步降低带标记图片数据的风险。

接下来，在新生成的伪标记图片数据集上，通过随机梯度下降算法重新进行深度神经网络模型的训练，直到网络收敛。最后在预测阶段，用户将待测图片输入给深度神经网络模型，模型返回该图片属于每个类别的概率并输出对应概率值最高的那个类别作为预测类别。

有益效果：与现有的技术相比，本发明提供的基于平均损失和逐类选择的弱监督图片分类方法，考虑到带噪标记图片数据对深度神经网络的影响，基于平均损失和逐类选择技术选择出低风险的标记图片数据，并把剩下未被选中的高风险图片数据视为未标记图片数据，同时在伪标记图片数据生成过程中对标记图片数据赋予权值以进一步降低风险。本发明能够很好地消除带有噪声标记图片数据集中错误的标记对深度神经网络的影响，最终取得良好的分类效果。本发明可以用于各种弱监督条件下基于带噪标记图片数据的学习，具有较好的效果。

附图说明

图1是本发明的原理图；

图2是本发明的总体流程图；

图3是本发明的各步骤流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于平均损失和逐类选择的弱监督图片分类方法：首先用户准备好一个带有噪声标记图片数据库作为训练数据集。然后，基于平均损失从带有噪声标记图片数据集中逐类选择出低风险图片数据，同时将剩下未被选中的高风险图片数据视为未标记图片数据。接下来，基于MixMatch技术对低风险图片数据和未标记图片数据进行混合生成新的伪标记图片数据来扩充训练集；在这一图片数据混合的过程中，基于平均损失对标记图片数据设置权值并进行加权重采样，以进一步降低图片数据风险。接下来，在新生成的伪标记图片数据集上，通过随机梯度下降算法训练深度神经网络模型直到网络收敛。最后在预测阶段，用户将待测图片输入给深度神经网络模型，模型返回该图片属于每个类别的概率并输出对应概率值最高的那个类别作为预测类别。

如图2-3所示，基于平均损失和逐类选择的弱监督图片分类方法流程为：

步骤100，通过众包、网络爬虫或者图片搜索引擎等手段采集带有噪声标记的图片数据集

步骤200，选定一个神经网络模型作为图片分类器，使用该模型利用随机梯度下降算法在训练集上训练一定的轮数T，并记录每一轮结束时每个样例的损失值的大小

步骤201，计算出每个样例在训练过程中的平均损失值大小

对每个类别的样本按照其平均损失值大小进行从小到大排序；

步骤202，根据逐类选择技术，从图片数据集

的第i个类别样本中挑选出num(i)个平均损失值最小的样本构成数据集D_sel,其中num(i)的计算方式如下，设η_i表示第i类样本的噪声率，n_i表示图片数据集

中

的样本数量，[p₁,…,p_c]表示真实的类别分布，β和γ是两个可由用户自行调节的超参数：

prop(i)＝max{1-(1+β)η_i,(1-β)(1-η_i)}

num(i)＝min{γ·p_i×m,prop(i)×n_i}

步骤203，对于上一步骤中未被选中的图片数据，舍弃其标记

并将其视为未标记图片数据

步骤300，对选择出来的图片数据

按照其平均损失值的大小赋予不同的权值

权值计算公式如下：

其中

代表数据集D_sel中标记为i的样本构成的集合，κ是一个可由用户自行调节的超参数；

步骤301，基于MixMatch技术利用步骤202-203处理所得的低风险数据集D_sel和未标记图片数据集D_u生成新的伪标记图片数据集(L,U)＝MixMatch(D_sel,D_u)。在生成伪标记图片数据的过程中，首先按照每个样例的权重

对D_sel中的样例进行加权重采样，然后把采样后的数据集输入到MixMatch算法；

步骤400，利用生成的伪标记图片数据集(L,U)通过随机梯度下降算法训练深度神经网络模型直到网络收敛；

步骤500，用户将待测图片输入给深度神经网络模型，模型返回该图片属于每个类别的概率并输出对应概率值最高的那个类别作为最终的预测类别。

Claims

1.一种基于平均损失和逐类选择的弱监督图片分类方法，其特征在于，包括如下内容：

首先，建立一个带有噪声标记图片数据库作为训练数据集；

接着，选定一种深度神经网络模型作为图片分类器模型，使用该模型利用随机梯度下降算法在训练数据集上训练预定的轮数，并记录每一轮结束时每个样例的损失值大小；基于依据样例的平均损失从带噪图片数据中逐类选择出低风险图片数据，同时把未被选中的图片数据视为未标记图片数据；

接下来，基于MixMatch技术对低风险图片数据和未标记图片数据进行混合生成新的伪标记图片数据扩充训练集；在图片数据混合的过程中，基于样例的平均损失值对低风险图片数据设置权值并进行加权重采样；

接下来，在新生成的伪标记图片数据集上，通过随机梯度下降算法重新进行深度神经网络模型的训练，直到网络收敛；最后在预测阶段，用户将待测图片输入给深度神经网络模型，模型返回该图片属于每个类别的概率并输出对应概率值最高的那个类别作为预测类别；

所述低风险图片数据和未标记图片数据选择的过程为：

步骤200，选定一个神经网络模型作为图片分类器，使用该模型利用随机梯度下降算法在训练集上训练预定的轮数T，并记录每一轮结束时每个样例的损失值的大小

步骤201，计算出每个样例在训练过程中的平均损失值大小

步骤202，根据逐类选择技术，从图片数据集

中

的样本数量，[p₁,…,p_c]表示真实的类别分布，β和γ是两个由用户自行调节的超参数：

prop(i)＝max{1-(1+β)η_i，(1-β)(1-η_i)}

num(i)＝min{γ·p_i×m，prop(i)×n_i}

步骤203，对于上一步骤中未被选中的图片数据，舍弃其标记

并将其视为未标记图片数据

所述伪标记图片数据生成步骤具体为：

步骤300，对选择出来的图片数据

按照其平均损失值的大小赋予不同的权值

权值计算公式如下：

其中

代表数据集D_sel中标记为i的样本构成的集合，κ是一个由用户自行调节的超参数；

步骤301，基于MixMatch技术利用步骤202-203处理所得的低风险数据集D_sel和未标记图片数据集D_u生成新的伪标记图片数据集(L，U)＝MixMatch(D_sel，D_u)；在生成伪标记图片数据的过程中，首先按照每个样例的权重

对D_sel中的样例进行加权重采样，然后把采样后的数据集输入到MixMatch算法。

2.根据权利要求1所述的基于平均损失和逐类选择的弱监督图片分类方法，其特征在于，选定一种深度神经网络模型作为图片分类器模型，使用该模型利用随机梯度下降算法在训练数据集上训练预定的轮数，并记录每一轮结束时每个样例的损失值大小，计算出每个样例在训练过程中的平均损失值的大小，对每个类别的样例按照其平均损失值的大小进行排序；根据逐类选择从训练数据集中为每个类挑选出预设数量的平均损失最小的样本，作为低风险图片数据，并把剩下未被选中的样本视为未标记图片数据。

3.根据权利要求1所述的基于平均损失和逐类选择的弱监督图片分类方法，其特征在于，通过众包、网络爬虫或者图片搜索引擎采集带有噪声标记的图片数据集

作为训练数据集。