CN113076437B

CN113076437B - 一种基于标签重分配的小样本图像分类方法及系统

Info

Publication number: CN113076437B
Application number: CN202110392522.0A
Authority: CN
Inventors: 陈琼; 朱戈仁
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2023-02-14
Anticipated expiration: 2041-04-13
Also published as: CN113076437A

Abstract

本发明公开了一种基于标签重分配的小样本图像分类方法及系统，包括将小样本数据集划分成基类数据集与新类数据集，在基类数据集上预训练网络模型，在新类数据集上构建包含支撑集样本和查询集样本的小样本任务；利用预训练网络为支撑集样本和查询集样本提取特征，然后对提取的查询集样本特征进行聚簇，最后使用标签重分配方法为簇里的查询集样本重新分配标签；输出查询集样本的标签。本方法能够提高小样本分类的准确率。

Description

一种基于标签重分配的小样本图像分类方法及系统

技术领域

本发明涉及机器学习领域，具体涉及一种基于标签重分配的小样本图像分类方法及系统。

背景技术

小样本学习是一种特殊的机器学习问题，它主要研究如何利用有限的标注数据进行学习。小样本学习通常包含两个阶段的学习过程，第一个阶段在基类数据集上对深度网络模型进行预训练，第二个阶段在新类数据集上构建小样本分类任务，利用预训练网络提取样本特征然后进行分类。一个小样本任务通常包含支撑集和查询集，支撑集的样本都有标签，但是每类的样本数量只有一个或者几个，查询集样本拥有相同的类别，但是每类通常有十五个无标签的样本。小样本分类的目标就是利用有标签的支撑集样本引导查询集样本分类。传统的分类方法包括参数化的方法以及非参数化的方法。参数化的方法先利用有标签的支撑集样本通过梯度更新的方式学习一个全连接层作为分类器，然后使用分类器为查询集样本预测标签，但是由于支撑集样本数量过少，而分类器的参数却有成百上千个，这种方法存在严重的过拟合问题。非参数方法先利用支撑集每类的样本估计出类原型，然后通过计算查询集样本与支撑集类原型的相似度为查询集样本预测标签，但是当支撑集采样到异常的样本时，使用这种方法通常会估计出错误的类中心，进而将错误的标签信息传递给查询集样本，影响小样本任务的分类性能。现有的小样本分类方法都存在局限性，不能很好的提升小样本任务的分类准确率。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于标签重分配的小样本图像分类方法及系统。

本发明将无监督学习方法应用到小样本学习来解决小样本分类问题，通过对无标签的查询集样本进行聚簇，同时利用簇信息以及有标签的支撑集样本的信息引导查询集样本重新分配标签，来提升小样本任务的分类准确率。

本发明采用如下技术方案：

一种基于标签重分配的小样本图像分类方法，包括：

获取小样本数据集，并将其划分为基类数据集与新类数据集，在基类数据集上预训练网络模型，在新类数据集上构建包含支撑集样本和查询集样本的小样本任务；

利用预训练网络模型提取支撑集样本和查询集样本的特征，对提取的查询集样本特征进行聚簇，使用标签重分配方法为簇里的查询集样本重新分配标签；

输出查询集样本的标签。

进一步，所述预训练网络模型包括特征提取器及分类器。

进一步，所述使用标签重新分配方法为簇里的查询样本重新分配标签，包括如下：

获得支撑集类中心；

获得簇信息矩阵；

获得余弦预测矩阵；

获取簇中心预测标签，并为查询集样本分类。

进一步，所述获取簇中心预测标签，并为查询集样本分类，具体为：

将簇信息矩阵和余弦预测矩阵对簇的预测标签的影响综合在一起得到矩阵H；

矩阵H的计算方式为：

H＝(1+D)⊙(1+P)

矩阵H中的每一个元素H_i,j表示的意义为簇i被预测为类别j的概率，⊙表示hadamard积，也就是两个矩阵对应元素直接相乘，为了让簇中心的预测标签与类中心的标签能够一一对应，可以将簇中心的预测问题转化成数学上的指派问题，对下式进行求解：

求得到的标签c即为簇中心v_r的预测标签，将簇r的所有样本的标签重新分配为类标签c即可。

进一步，所述支撑集类中心是该类所有样本特征的平均值，反映该类样本特征的平均分布位置。

进一步，簇信息矩阵D_N×N的每一个元素D_i,j表示簇中心v_i与类中心w_j之间的余弦相似度。

进一步，所述余弦预测矩阵的每一个元素P_i,j表示簇中心v_i的所有样本按余弦相似度分类，有P_i,j份的样本会被预测为第j个类别。

进一步，支撑集和查询集的类别相同但是样本不同。

一种基于标签重分配的小样本图像分类系统，包括

数据预处理模块，用于获取小样本数据集，将其划分为基类数据集与新类数据集，并在新类数据集上构建包含支撑集样本和查询集样本的小样本任务；

网络预训练模块，用于构建网络模型，在基类数据集上预训练网络模型，保存网络模型中特征提取器的参数；

特征提取模块，利用特征提取器提取支撑集样本和查询集样本的特征；

聚簇模块，用于对查询集的样本特征进行聚簇；

标签重分配模块，用于使用标签重分配方法为簇里的查询集样本分配标签；

输出模块，用于输出查询集样本的标签。

进一步，所述预训练网络模型为深度神经网络模型。

本发明的有益效果：

(1)本发明将无监督学习方法应用到了小样本学习中，能够充分的利用无标签的查询集样本之间的关系，辅助查询集样本进行分类。

(2)本发明利用了簇里的所有样本的余弦预测信息对直接使用余弦分类器预测的簇标签进行修正，使得簇中心的预测标签更加准确。

(3)本发明将簇中心的预测问题转化成了数学上的指派问题，让簇中心的预测标签与类中心标签一一对应，能够避免多个簇预测为同一个标签。

(4)本发明是一种简单通用的分类方法，可以与其他小样本学习方法学习到的预训练网络相结合。

附图说明

图1为本发明的基于标签重分配的小样本分类方法流程图。

图2(a)及图2(b)分别是本发明基类数据集和新类数据集的划分示意图。

图3为预训练网络模型结构示意图

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1

如图1及图2(a)及图2(b)所示，一种基于标签重分配的小样本图像分类方法，该方法适用于处理小样本图像分类任务，图像就是普通的任何图片，小样本是指有标签的样本很少，只有一个或者几个。

本实施例以小样本学习中的5-way-1-shot分类任务为例，使用mini-ImageNet数据集对本发明方法进行具体的说明。实验环境为深度学习服务器，其操作系统为Ubuntu18.04LTS，硬件配置包括一块Intel Xeon E5-2620的CPU，32G内存以及两块型号为GeForceGTX 1080Ti的显卡，深度学习框架为Pytorch。原始的mini-ImageNet数据集一共包含100个类别，每个类别有600张图片，每张图片的大小为84x84。5-way-1-shot分类任务的数据集由支撑集和查询集组成，支撑集包含5个类别，每个类别仅包含1个有标签的样本，查询集的类别与支撑集相同，但是每类含有15个无标签的样本，小样本任务的分类目标是预测查询集所有样本的标签。

包括如下步骤：

S1选择mini-ImageNet数据集中的前64个类别的所有样本作为基类数据集，选择后20个类别的所有样本作为新类数据集。在基类数据集上预训练网络模型，在新类数据集上构建包含支撑集样本和查询集样本的小样本任务；

进一步，如图3所示，预训练的网络模型包括特征提取器及分类器，本实施例中特征提取器f_θ为ResNet12残差网络，分类器f_φ为一层全连接层网络。所述网络模型一般采用深度学习模型。

在基类数据集上使用标签交叉熵损失训练模型，训练总回合数为100，优化器使用SGD优化器，学习率初始化为0.05。

进一步，构建小样本任务，具体为：在新类数据集上随机采样5个类别，每类随机采样16个样本，在采样的所有样本中选择前5个样本组成小样本任务的支撑集，剩下的75个样本组成了小样本任务的查询集，

支撑集和查询集的类别相同但是样本不同。支撑集的样本集合表示为

查询集的样本集合表示为

其中N表示类别数量，K和q表示每类样本数量，(x_i,y_i)分别表示图像数据和标签数据，y_i∈{0,1,…,N}。

S2使用预训练网络模型中的特征提取器f_θ对支撑集样本

和查询集样本

分别提取特征z_i＝f_θ(x_i)，然后使用Kmeans方法对查询集的样本特征进行聚簇，聚簇之后的簇中心表示为Vc＝{v₁,v₂,…,v_N}，由于聚簇得到的簇标签是伪标签，因此还需要将簇中心与正确的类标签建立配对关系。

本发明采用标签重新分配方法为簇里的查询集样本重新分配标签，具体包括如下步骤：

S2.1获得支撑集类中心；

支撑集的每类的类中心是该类所有样本特征的平均值，它可以反应出该类样本特征的平均分布位置，设S_c表示支撑集中类别c的所有样本的集合，那么类别c的类中心可以表示为：

S2.2计算簇信息矩阵

簇信息矩阵D_N×N的每一个元素D_i,j表示簇中心v_i与类中心w_j之间的余弦相似度，余弦相似度越大说明这个簇越有可能属于该类别，簇信息矩阵的计算方式为：

S2.3计算余弦预测矩阵

同一个簇的所有样本在单独计算它与支撑集类中心计算余弦相似度时，会得到不同的预测结果。比如，一个簇原本包含20个样本，按照余弦相似度进行分类时，有15个样本被预测到了第一个类别，剩下的5个样本都被预测为了第二个类别。那么从余弦分类的结果来看，该簇有3/4的概率属于第一个类别，1/4的概率属于第二个类别。

所有簇的所有样本进行余弦分类得到的预测结果构成了余弦预测矩阵P_N×N，该矩阵的元素P_i,j表示的意思为簇中心v_i的所有样本按余弦相似度分类，有P_i,j份的样本会被预测为第j个类别。

S2.4获取簇中心预测标签，并为查询集样本分类。

将簇信息矩阵和余弦预测矩阵对簇的预测标签的影响综合在一起得到矩阵H，矩阵H的计算方式为：

H＝(1+D)⊙(1+P)

矩阵H中的每一个元素H_i,j表示的意义为簇i被预测为类别j的概率，每一行中概率最大的元素的列坐标为该行对应的簇中心的预测标签。

为了避免多个簇预测到同一个标签，本发明将簇中心的预测问题转化成数学上的指派问题，使簇中心的预测标签与类的标签能够一一对应：

即在矩阵H中的每行都选择一个元素使它们的和能取最大值，同时这些元素的列各不相同。对上式求解得到的r，c是满足该约束条件的任一元素的行坐标与列坐标。行坐标r对应为簇中心v_r，而列坐标c表示簇中心v_r的预测标签为c。最后将给簇r的所有样本的标签重新分配为类标签c即可。

S3经过标签重分配方法处理后的标签即为查询集样本最终的预测标签。

下表1中展示了使用本发明提出的基于标签重匹配的小样本分类方法与其他小样本学习方法在mini-ImageNet数据集上5-way-1-shot任务中的平均准确率的对比结果。表1中选用的对比方法均为当前主流的具有代表性的小样本学习方法。为了公平比较，所有对比方法的特征提取器都使用ResNet12残差网络。从表1的结果可以观察到，使用本发明提出的基于标签重分配的小样本分类方法在mini-ImageNet数据集上的平均准确率达到了67.52％，该结果超过了所有对比方法的分类准确率。这主要是因为在5-way-1-shot分类任务里，支撑集每类只有一个有标签的样本，当支撑集碰巧采样到异常样本时，查询集样本与该异常样本计算相似度会得到错误的标签，从而导致分类准确率降低。与此相反，查询集样本足够多，本身能够形成比较优秀的簇结构，同一个簇里大多数样本的真实标签为同一个类别，由于本方法能够得到非常准确的簇中心的预测标签，并将簇中心的预测标签分配给簇里的样本，因此本方法能够取的较高的分类准确率。

表1 mini-ImageNet数据集上的对比试验结果

对比方法	特征提取器	平均准确率
			ProtoNets	ResNet12	60.37±0.83
DeepEMD	ResNet12	65.91±0.82
			DSN-MR	ResNet12	64.60±0.72
ConstellationNet	ResNet12	64.89±0.23
			标签重匹配(ours)	ResNet12	67.53±1.30

综上所述，将无监督学习方法应用于小样本学习中用于解决小样本分类问题，通过对无标签的查询集样本进行聚簇，同时利用簇信息以及有标签的支撑集样本的信息引导查询集样本重新分配标签，从而能够提升小样本分类的准确率。本发明是一种简单通用的分类方法，可以与其他小样本学习方法学习到的预训练网络相结合。

实施例2

如图1所示，一种基于标签重分配的小样本图像分类系统，包括依次连接的：

聚簇模块，用于对查询集的样本特征进行聚簇；

输出模块，用于输出查询集样本的标签。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于标签重分配的小样本图像分类方法，其特征在于，包括：

获取小样本数据集，并将其划分为基类数据集与新类数据集，在基类数据集上预训练网络模型，在新类数据集上构建包含支撑集样本和查询集样本的小样本任务，所述网络模型包括特征提取器及分类器；

小样本数据集采用mini-ImageNet数据集，支撑集包含5个类别，每个类别仅包含1个有标签的样本，查询集的类别与支撑集相同，每类含有15个无标签的样本；

输出查询集样本的标签；

所述使用标签重分配方法为簇里的查询集样本重新分配标签，包括如下：

获得支撑集类中心；

获得簇信息矩阵；

获得余弦预测矩阵；

获取簇中心预测标签，并为查询集样本分类；

所述获取簇中心预测标签，并为查询集样本分类，具体为：

将簇信息矩阵和余弦预测矩阵对簇的预测标签的影响进行相乘得到矩阵H；

簇信息矩阵的每一个元素D_i,j表示簇中心v_i与类中心w_j之间的余弦相似度；

所述余弦预测矩阵的每一个元素P_i,j表示簇中心v_i的所有样本按余弦相似度分类，有P_i,j份的样本会被预测为第j个类别；

矩阵H的计算方式为：

H＝(1+D)⊙(1+P)

矩阵H中的每一个元素H_ij表示的意义为簇i被预测为类别j的概率，为了让簇中心的预测标签与类中心的标签能够一一对应，将簇中心的预测问题转化成数学上的指派问题，对下式进行求解：

求得到的标签c即为簇中心v_r的预测标签，将给簇r的所有样本的标签重新分配为类标签c即可。

2.根据权利要求1所述的小样本图像分类方法，其特征在于，所述支撑集类中心是该类所有样本特征的平均值，反映该类样本特征的平均分布位置。

3.根据权利要求1所述的小样本图像分类方法，其特征在于，支撑集和查询集的类别相同但是样本不同。

4.一种实现权利要求1所述的小样本图像分类方法的系统，其特征在于，包括

聚簇模块，用于对查询集的样本特征进行聚簇；

输出模块，用于输出查询集样本的标签。

5.根据权利要求4所述的系统，其特征在于，所述预训练网络模型为深度神经网络模型。