CN114329124A

CN114329124A - 基于梯度重优化的半监督小样本分类方法

Info

Publication number: CN114329124A
Application number: CN202111547919.9A
Authority: CN
Inventors: 吴泽彬; 陈华生; 徐洋; 刘倩; 张毅
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-04-12

Abstract

本发明公开了一种基于梯度重优化的半监督小样本分类方法，包括：根据类别信息将数据集划分为元训练阶段和元测试阶段，每个阶段有若干个任务，每个任务分为支持集和查询集，支持集包括有标签数据和无标签数据，计算每个支持集中有标签训练样本的梯度信息，进行梯度优化得到粗分类器；利用粗分类器预测无标签数据的伪标签，得到支持集的全部标签；对支持集数据进行梯度重优化得到精分类器，再测试得到查询集的结果。本发明充分利用少量的有标签数据和无标签数据的梯度信息，提高算法的准确度，并且在计算样本梯度信息和梯度重优化过程中使用元任务的一阶近似值来代替二阶导信息，从而提升分类的速度。

Description

基于梯度重优化的半监督小样本分类方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于梯度重优化的半监督小样本分类方法。

背景技术

近年来，计算机视觉在各个领域得到了广泛的应用。而小样本学习已经成为计算机视觉领域中非常重要的前沿问题，在医疗图像等数据采集难度较大的领域具有十分广阔的应用前景。小样本学习问题存在两个难点：标记样本极少，多数类别少于10个；分类器需要适应新的类别，小样本学习问题的分类器必须调整以适应新的类，传统的方法是在新的数据上重新训练新的模型，但是由于样本太少，往往会导致过拟合。为了解决这些问题，有研究者提出了元学习的概念，它主要分成了元测试阶段和元训练阶段，元训练阶段使用的是有大量标签的基础数据，元测试阶段使用的是有少量标签的新类数据。在每个阶段将数据分成了很多个任务，每个任务上有支持集和查询集，分别对应传统深度学习的训练集和测试集。它的思路是寻找模型的参数和超参数，这样一来在不会让小样本过拟合的条件下可以很容易的适应新的任务，即在元测试阶段能够达到很好的效果。

目前，已有一些学者对小样本学习进行了研究，主要的方法可以分为三类：第一类是基于模型的方法，该方法主要通过设计模型的结构，使用少量样本来更新参数从而直接建立输入和预测值的映射函数。第二类是基于度量学习的方法，它的主要思想是将任务中的样本映射到一个特征空间内，通过最近邻的思想来完成分类。最后一类是基于梯度重优化的方法，通过梯度下降找到一组最优的参数，从而能够在新任务上经过少量的更新就能达到很好的效果。

然而上述这些方法都是基于监督学习的，在现实生活中还有大量的无标签数据可以利用，如果直接应用在小样本的算法中仍然存在如下的几个问题：1)元训练阶段只有包含很少的有标签数据，如何构建一个模型，以在元测试阶段获得更好的效果是有待解决的问题之一；2)虽然目前对无标签数据处理的方法在图像识别中取得了较高的识别率，但是这些都是基于一定量样本的情况下的，在元学习条件下依然没有一个较好的处理无标签数据的方法。

通过以上描述，如何在元学习的情况下充分利用无标签数据，并且进一步提高检测准确率是亟待解决的问题。

发明内容

本发明的目的在于提供一种基于梯度重优化的半监督小样本分类方法，充分利用无标签数据的信息，来进一步提高网络对当前任务的适应度，并且使用了一种新的可用于小样本学习的半监督方法，从而在查询集上能够获得更高的准确度，具有良好的应用前景。

为了达到上述目的，发明采用的技术方案是：一种基于梯度重优化的半监督小样本分类方法，包括以下步骤：

步骤(A)，对有标签数据的特征进行建模，得到一个初步模型，然后结合该模型以及伪标签生成算法得到无标签数据的伪标签，从而得到支持集的全部标签；

步骤(B)，将新的支持集输入梯度重优化模块中，对支持集数据的特征进行建模，得到最终模型，再测试得到查询集的结果。

进一步的，所述步骤(A)具体实现如下：

(A1)将有标签数据输入网络结构中，计算样本的梯度信息，再利用样本的梯度信息更新网络参数，得到一个初步模型；

(A2)利用初步模型以及伪标签生成算法得到无标签数据的伪标签。

进一步的，步骤(A1)中的样本梯度信息计算公式具体为：

其中，x^(j),y^(j)分别表示模块的输入数据以及其对应的标签，f_φ(x^(j))表示输入样本的预测值，

表示第i个任务，

表示对φ求梯度。

进一步的，步骤(A1)中的更新网络参数具体公式为：

其中，

表示粗分类器的网络参数，

表示有标签数据的损失函数，φ表示网络的初始参数。

进一步的，所述步骤(A2)中的伪标签生成算法，其步骤如下：

首先对无标签数据进行两次数据增强，然后利用得到的初步模型对增强后的数据进行预测，从而得到最终数据增强后的伪标签。

进一步的，所述步骤(B)具体实现如下，

(B1)将支持集输入到梯度重优化模块中，计算样本的梯度信息，利用梯度信息再次更新网络参数，得到最终模型；

(B2)利用最终模型计算查询集的分类结果；

(B3)如果当前处于元训练阶段，则需要更新初始化参数，直到当前处于元测试阶段，分类结果即所求结果。

进一步的，所述步骤(B1)中再次更新网络参数的公式具体为：

其中，θ^*i表示精分类器的网络参数，

表示支持集的损失函数，

表示粗略分类器的网络参数。

进一步的，所述步骤(B3)中更新初始化参数的公式具体为：

其中，φ表示网络的初始化参数；(η,ε)表示超参数；

分别表示第n个任务时，有标签数据以及支持集对应的训练损失函数；

θ^*n分别表示第n个任务时，粗略分类器以及精细分类器对应的网络参数。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于梯度重优化的半监督小样本分类方法。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于梯度重优化的半监督小样本分类方法。

本发明与现有技术相比，其显著优点在于：1)本发明提出了一种新的基于梯度重优化的半监督小样本分类框架，以少量有标签数据进行预训练，通过对梯度信息的合理使用，得到了一个粗略分类器，然后在此基础上利用支持集数据得到一个精细分类器，可以使得分类更加精准；2)该算法能够在只有少量样本的情况下帮助无标签数据生成伪标签，从而能够达到扩充训练样本的目的；3)整个框架在计算样本的梯度信息时，使用一阶导近似值替代了二阶导数，有效降低了算法的时间复杂度。

附图说明

图1是本发明的整体流程图。

具体实施方式

以下结合说明书附图，对本发明做详细说明。

如图1所示，一种基于梯度重优化的半监督小样本分类方法，具体步骤如下：

步骤(A)，对数据集进行处理，分成若干个任务，每个任务包括支持集和查询集，支持集中包括有标签数据和无标签数据，具体步骤如下：

(A1)在数据集中抽取一定的类别用于元训练阶段，剩余的类别用于元测试阶段；

(A2)对于M-way K-shot问题，分别在元训练数据集与元测试数据集中抽取M个种类；

(A3)每个种类抽取K张有标签样本，以及u张无标签样本作为支持集，最后抽取v张样本作为查询集；

(A4)将支持集和查询集合成为一个任务。

(A5)重复进行上述步骤(A2)～步骤(A4)，将用于元训练阶段与元测试阶段的数据集全都划分成任务形式；

步骤(B)，计算每个支持集中有标签训练样本的梯度信息，得到粗分类器，再利用粗分类器预测无标签数据的伪标签，得到支持集的全部标签，具体步骤如下：

(B1)将有标签数据输入到网络中，计算样本的梯度信息

其中

x^(j),y^(j)表示有标签数据以及其对应的标签；

(B2)利用样本的梯度信息更新网络参数，从而得到一个粗分类器，公式为：

表示粗分类器的网络参数，

表示有标签数据的损失函数，φ表示网络的初始参数，η表示超参数；

(B3)利用得到的粗分类器以及伪标签生成算法得到无标签数据的伪标签。伪标签生成算法是指：首先对无标签数据进行两次数据增强，然后利用得到的粗略分类器对增强后的数据进行预测，得到特征图，再经过softmax操作后取平均值，最后利用Sharpen锐化算法得到最终数据增强后的伪标签；

(B4)利用一致性正则化的原则，得到支持集的全部标签；

步骤(C)，对支持集进行梯度重优化，得到一个精分类器，再测试得到查询集的结果，具体步骤如下：

(C1)利用网络训练支持集，计算样本的梯度信息

其中

x^(j),y^(j)表示支持集数据以及其对应的标签；

(C2)利用样本的梯度信息再次更新网络，公式为：

θ^*i表示精分类器的网络参数，

表示支持集的损失函数，

表示粗略分类器的网络参数，ε表示超参数；

(C3)利用精分类器计算查询集的分类结果。

(C4)如果当前处于元训练阶段，则需要根据以下公式来更新初始化参数：

其中，φ表示网络的初始化参数；(η,ε)表示超参数；N表示一共有N个任务；

综上所述，本发明的基于梯度重优化的半监督小样本分类方法，充分利用无标签数据的梯度信息来使得网络对当前任务有更好的适应度，并且使用了一种新的可用于小样本学习的半监督方法，从而能够达到更高的精度。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。