CN114444687A

CN114444687A - 一种基于伪标签噪声过滤的小样本半监督学习方法和装置

Info

Publication number: CN114444687A
Application number: CN202210015285.0A
Authority: CN
Inventors: 尤鸣宇; 韩煊
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-05-06

Abstract

本发明涉及一种基于伪标签噪声过滤的小样本半监督学习方法和装置，其中方法在执行过程中，主模型与伪标签过滤模型交替优化，主模型使用半监督学习方法训练，伪标签过滤模型使用噪声标签学习方法训练。主模型与伪标签过滤模型的优化交替执行若干轮次，每一轮次后，部分无标签数据连同其当前伪标签将被划入带标签数据集，直至优化停滞，输出优化后的模型。与现有技术相比，本发明得到的模型具有在图像识别方面准确度更好等优点。

Description

一种基于伪标签噪声过滤的小样本半监督学习方法和装置

技术领域

本发明涉及数据挖掘与机器学习领域，尤其是涉及一种基于伪标签噪声过滤的小样本半监督学习方法和装置。

背景技术

数据是支撑人工智能技术的基础要素之一，特别是深度学习领域中，数据的数量与质量更是直接关系着模型最终的泛化性能。目前主流研究与应用大多依赖大数据的支持，标记样本动辄以百万计。然而随着深度学习技术在各垂直领域的不断渗透，目标任务的特殊性和专业性也在日渐增强。在实际场景中，考虑到专家标注的成本，能收集到的带标注数据可能极为有限。而半监督学习所面向的正是全体样本中仅部分样本带标注的场景，对于此类因标注成本所限而产生的小样本问题，半监督学习是很重要的解决手段。

半监督学习算法主要应用于计算机的图像识别领域，使用带有标签的图像数据训练神经网络，继而实现图像的识别分类。多数主流的半监督学习算法都直接使用主模型在无标签样本上的预测结果用作该样本的监督信息，考虑到初始带标签数据的采样偏置效应，当有监督数据采样有偏置或是数量过少时，预测结果的经验分布将不足以近似真实的潜在样本分布，这时主模型给出的预测识别结果中会包含大量伪标签噪声，如果伪标签噪声比例过高，会影响主模型最终的性能。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于伪标签噪声过滤的小样本半监督学习方法和装置。

本发明的目的可以通过以下技术方案来实现：

一种基于伪标签噪声过滤的小样本半监督学习方法，包括以下步骤：

S1、获取初始带标签数据集L_s和初始无标签数据集U_s，L_s＝{(x_i,y_i)}，U_s＝{x_j}；

S2、初始化主神经网络模型

和伪标签过滤神经网络模型

S3、将初始带标签数据集L_s和初始无标签数据集U_s输入主神经网络模型

结合半监督学习损失函数

优化主神经网络模型；

S4、将初始无标签数据集U_s输入优化后的主神经网络模型

将预测结果中置信度最高的类别定义为对应无标签数据样本的伪标签y′_j，得到伪标签数据集U′_s，U′_s＝{(x_j,y′_j)}；

S5、将初始带标签数据集L_s和伪标签数据集U′_s输入伪标签过滤神经网络模型

结合噪声标签学习损失函数

优化伪标签过滤神经网络模型；

S6、将初始带标签数据集L_s和伪标签数据集U′_s输入优化后的伪标签过滤神经网络模型

计算此时噪声标签学习损失函数

的平均值，并根据平均值判断训练是否停滞，若停滞则令停滞轮数s_stop加1；若未停滞则使停滞轮数s_stop归0；

S7、判断停滞轮数s_stop是否达到最大阈值，若是，则输出优化后的主神经网络模型

和优化后的伪标签过滤神经网络模型

若否，则执行步骤S8；

S8、根据增长函数LScale确定带标签数据集扩展量，将伪标签数据集U′_s中训练损失最小的样本及标签加入初始带标签数据集L_s，并从初始无标签数据集U_s中删除对应样本，重新执行步骤S3。

进一步地，重新执行步骤S3时，将主神经网络模型和伪标签过滤神经网络模型初始化。

进一步地，步骤S7中，将伪标签数据集U′_s每一类伪标签样本中选出等量低训练损失样本加入初始带标签数据集。

进一步地，判断训练停滞的方法为：

若本轮的平均值损失低于之前轮次平均值的最低值或本轮为第一轮训练，则训练未停滞；若本轮的平均值高于之前轮次平均值的最低值，则训练停滞。

进一步地，所述半监督学习损失函数

表达式如下：

式中，λ_u为无标签损失函数权重；CrossEntropy(*)为交叉熵损失，RelativeEntropy(*为相对熵损失，下标k为类别编号，K为当前任务类别总数，

与

分别为当前无标签样本x_j经弱随机增强与强随机增强后的增广样本。

进一步地，步骤S3中优化主神经网络模型时模型参数采用随机梯度下降法优化。

进一步地，所述噪声标签学习损失函数

表达式如下：

式中

项为反向交叉熵损失，λ_rce为对应权重，CrossEntropy(*)为交叉熵损失。

进一步地，所述增长函数LScale为对数型增长函数。

进一步地，执行步骤S3时，可使用样本和标签的凸组合进行数据增强。

进一步地，所述凸组合的两个源样本应全部来自初始带标签数据集L_s或初始无标签数据集U_s。

一种基于伪标签噪声过滤的小样本半监督学习装置，包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现如上所述的一种基于伪标签噪声过滤的小样本半监督学习方法。

与现有技术相比，本发明具有以下优点：

1、本发明通过半监督学习损失函数和噪声标签学习损失函数对主模型和伪标签过滤模型交替优化，并通过扩展带标签数据集的方式进行循环优化，与现有技术直接使用无标签样本的预测结果作为监督信息的方式对比，本发明对无标签样本的预测进行了噪声过滤，得到了伪标签噪声影响小的图像识别模型，通过本发明获取的主神经网络模型在应用于图像识别时，由于过滤了噪声，即使选取的图像数据集数量较少时也能精确对图像进行识别分类，泛用性强。

2、本发明在循环优化时会对主模型和伪标签过滤模型进行初始化，避免陷入局部最优解。

3、本发明在执行步骤S3中应用了凸组合类数据增强，使模型优化效率更高。

4、本发明使用对数型增长函数扩展数据集，更符合模型训练优化的变化趋势。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供了一种基于伪标签噪声过滤的小样本半监督学习方法，应用于计算机视觉领域的图像分类问题，流程如图1所示，具体包括以下步骤：

步骤S1、获取初始带标签数据集L_s和初始无标签数据集U_s，L_s＝{(x_i,y_i)}，U_s＝{x_j}。其中，这些数据集均来源于miniimagenet图像数据集，共选取100类共50000张训练图像作为初始带标签数据集L_s和初始无标签数据集U_s的总和，在本实施例中，采用随机抽取的方式模拟半监督学习的数据标注条件，具体地，从每个类别的训练图像中随机选取部分图像作为带标签样本，其余隐去标签作为无标签样本。确定主模型

每阶段优化步数T_m；伪标签过滤模型

每阶段优化步数T_a；带标签数据量随执行阶段增长函数LScale(s)，最大停滞轮数S_stop。增长函数LScale(s)应选取对数型，该类增长函数的特点是增长速率先快后慢，最终进入饱和区。这一设计充分考虑了模型性能增长随训练过程的变化趋势。

步骤S2、随机初始化主神经网络模型

和伪标签过滤神经网络模型

并初始化停滞轮数s_stop以及总轮数s＝1。

步骤S3、将初始带标签数据集L_s和初始无标签数据集U_s输入主神经网络模型

结合半监督学习损失函数

优化主神经网络模型。

其中，半监督学习损失函数

表达式如下：

式中，λ_u为无标签损失函数权重；CrossEntropy(*)为交叉熵损失，RelativeEntropy(*为相对熵损失，用于衡量一个分布到另一个分布的差异性。下标k为类别编号，K为当前任务类别总数，

与

分别为当前无标签样本x_j经弱随机增强与强随机增强后的增广样本，其中前者只参与前向运算，不参与反向传播。模型参数采用随机梯度下降法优化，共执行T_m步。

其中，可使用样本和标签的凸组合进行数据增强，凸组合的两个源样本应全部来自初始带标签数据集L_s或初始无标签数据集U_s，目的是防止U_s中的噪声伪标签传递至更多增强样本。

步骤S4、将初始无标签数据集U_s输入优化后的主神经网络模型

将预测结果中置信度最高的类别定义为对应无标签数据样本的伪标签y′_j，得到伪标签数据集U′_s，U′_s＝{(x_j,y′_j)}。

步骤S5、将初始带标签数据集L_s和伪标签数据集U′_s输入伪标签过滤神经网络模型

结合噪声标签学习损失函数

优化伪标签过滤神经网络模型，共执行T_a步。

其中，噪声标签学习损失函数

表达式如下：

式中

项为反向交叉熵损失，λ_rce为对应权重，CrossEntropy(*)为交叉熵损失。依据噪声标签学习的相关理论，当本类别的样本中正确的标签占比最大时(由于错误标签往往散布在其他多个类，所以此条件较容易满足)，上述损失函数将加快模型在正确标注样本上的收敛速度，并相应地减缓模型在错误标注样本上的收敛速度。因此，在后续步骤中，我们就可以将样本在此步的最终训练损失，用作衡量伪标签可信度的指标。

步骤S6、将初始带标签数据集L_s和伪标签数据集U′_s输入优化后的伪标签过滤神经网络模型

计算此时所有样本的噪声标签学习损失函数

的平均值，并根据平均值判断训练是否停滞，若停滞则令停滞轮数s_stop加1；若未停滞则使停滞轮数s_stop归0。其中判断训练停滞的标准为：

若本轮的平均值损失低于之前轮次平均值的最低值，或者本轮训练即为第一轮的训练，则训练未停滞；若本轮的平均值高于之前轮次平均值的最低值，说明该轮次的模型已经成熟，则训练停滞。

步骤S7、判断停滞轮数s_stop是否达到最大阈值S_stop，若是，则说明训练完成，输出优化后的主神经网络模型

和优化后的伪标签过滤神经网络模型

若否，则还需要循环优化，执行步骤S8；

步骤S8、根据增长函数LScale确定带标签数据集扩展量，将所有U′_s中样本依训练损失由小到大排列，依据增长函数LScale确定s+1轮带标签数据量|L_s+1|＝LScale(s+1)，从U′_s中提取噪声标签学习损失函数值最小的|L_s+1|-|L_s|个样本及对应伪标签作为可信数据，划入带标签数据集，s自增1，并从初始无标签数据集U_s中删除对应样本，重新执行步骤S3。

其中，将U′_s中样本依据伪标签所示类别分别排序，且从每一类中选出等量可信样本划入带标签数据集。防止模型过度偏向易学习类别。

增长函数LScale的表达式如下：

其中，α和β为(0,1]区间内的超参数，α控制带标签数据集增长速度，取值越大，增长速度越快，β为带标签数据集在全体数据中的占比上限，取值视当前任务性能基线而定，若基线较低，证明当前任务难度较高，伪标签中可能存在更多噪声，则β也应取较低值。

除此之外，在每一次返回重新执行步骤S3时，仅对数据集进行更新，即每一次训练前都要初始化主神经网络模型

和伪标签过滤神经网络模型

原因是模型经之前阶段的训练，可能有陷入局部最优值的风险。在每一阶段重新初始化，并适当延长优化步数T_m及T_a，可以降低训练停滞的风险，有利于模型更好地拟合至当前阶段数据集。

最终在得到优化后的主神经网络模型

和优化后的伪标签过滤神经网络模型

后，使用miniimagenet图像数据集中对应的10000张测试图像进行测试，验证本发明得到的主神经网络模型在图像识别分类上的精确性。与现有技术直接使用无标签样本的预测结果作为监督信息的方式对比，本发明对无标签样本的预测进行了噪声过滤，得到了伪标签噪声影响小的图像识别模型，通过本发明获取的图像识别模型在应用于图像识别时，由于过滤了噪声，即使选取的图像数据集数量较少时也能精确对图像进行识别，模型精确度高。

本实施例又提供了一种基于伪标签噪声过滤的小样本半监督学习装置，包括存储器和处理器；存储器，用于存储计算机程序；处理器执行上述实施例中提到的一种基于伪标签噪声过滤的小样本半监督学习方法。

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中提到的基于伪标签噪声过滤的小样本半监督学习方法，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。