CN114299495A

CN114299495A - 一种基于维度自适应的小样本图像分类方法

Info

Publication number: CN114299495A
Application number: CN202111566913.6A
Authority: CN
Inventors: 达飞鹏; 杨继明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-04-08

Abstract

本发明公开了一种基于维度自适应的小样本图像分类方法，并与Meta Learning相结合;步骤如下：首先，对输入的图像进行预处理，包括了图像的裁剪、归一化以及旋转，同时对旋转所得到的图片逐一进行数据增强，并将得到的图像按类别组合最终得到每一类输入图像的集合。然后，将图像集合输入网络中，先会对每一张图像进行特征提取，再通过SVD对得到的特征计算每一类图像的自适应维度以及对应的子空间。最后，将需要识别的图像输入到模型中，并计算需要识别的图像特征到每一类图像相应子空间的距离，与其距离最小的则视为分类结果。本发明识别效果好，并且针对解决缺少训练样本的情况有一定实际意义。

Description

一种基于维度自适应的小样本图像分类方法

技术领域

本发明涉及一种图像分类技术，适用于缺少大量标注数据的情况；尤其涉及一种基于维度自适应的小样本图像分类方法。

背景技术

当前图像识别系统已经大量的应用在了不同的领域中，可识别的类别越来越多，但是与此同时，标注大量数据集的成本以及难度却越来越大。通常训练一个图像识别网络需要大量的，且数量较为均衡的数据集。而在实际应用中，一方面数据的标注需要消耗大量的人力资源，另一方面一些场景下仅是采集大量的同类别样本就非常困难。因此，小样本问题近年来成为了学术研究的一个热点。

针对小样本识别问题，研究人员提出了各类算法，总结当前的算法大致可以分为两种类别：1)基于距离度量的方法。该方法一般遵循一个范式，即首先通过一个特征提取网络提取图片中的特征，然后通过一个分类器来计算不同的特征之间的距离，最后根据距离来判定图片的分类结果。2)基于参数优化的方法。该方法通过为网络寻找一个最佳的初始参数，以便能够在之后缺少大量样本的情况下即使通过若干次梯度下降也能使得网络找到最优的参数，从而达到识别的目的，但是此类方法往往会涉及到二次梯度下降的问题，提高了模型的复杂度。

发明内容

为解决上述问题，本发明提供一种基于维度自适应的小样本图像分类方法；网络以任务作为基本的输入，每个任务包含了支持集和测试集，利用卷积神经网络提取具有类别特点的图像特征并组合同一类别的特征得到具有类别代表性的类别特征。通过对类别特征进行奇异值分解得到对应的奇异值以及子空间，最后通过计算需要识别的样本特征到各类子空间的距离来判定样本所属的类别；该方法提高了准确度，同时在一定程度上降低了网络的计算量，提高了运行速度。

本发明公开了一种基于维度自适应的小样本图像分类方法，

步骤1：对训练集数据以及测试集数据中的图像进行预处理，包括了图像的裁剪、归一化以及旋转等。同时对预处理后的图像进行数据增强，在已有的小样本数据基础上扩充一定的样本数量。

步骤2：将预处理之后的图像按图像类别划分，以任务(task)为单位作为网络训练的基本输入单位。

步骤3：通过卷积神经网络对图像进行处理，分别提取同一类类别中每一张图像的特征，进而获得具有代表性和辨识度的类别特征。

步骤4：根据步骤2所获得的类别特征计算相应的自适应维度，并据此获得每一类图像所对应的自适应特征子空间。

步骤5：改进损失函数，在损失函数中加入对于高维和低维特征的约束，来为网络的训练提供更多的信息和引导。即对同一类别样本图像在三个不同的维度对网络中间层的特征计算距离并最小化。最后将三个维度的距离加权求和作为整体损失函数的一部分，并利用梯度下降的方法更新网络参数。

步骤6：将需要识别的图像输入到特征提取网络中，得到对应的图像特征，再计算该特征到各个特征子空间的距离，则识别结果判别为与图像特征距离最近的子空间所属类别。

本发明进一步改进在于：所述步骤1的具体方法为：

由于公共数据集ImageNet中的图像尺寸大小并不统一，因此本方法首先会对数据集中的图像进行预处理，首先将图片裁剪长宽统一裁剪为C*W*H，其中C为图像的通道数，W和H为图像的像素值，本方法中C为3，W和H都设置为84，然后将每一张图片进行归一化操作，以进一步提高训练的表现，在归一化中，所使用的各通道均值以及标准差为[0.485,0.456,0.406]，[0.229,0.224,0.225]；之后对图片进行不同角度的旋转操作。预处理之后的图片为标准图片。

本发明进一步改进在于：所述步骤2的具体方法为：

对于已经预处理过后的图片，本方法将数据集划分为训练集D_base和测试集D_novel，其中训练集和测试集包含的图像类别是不相关的。然后将D_base中的图像进一步划分为若干个支持集(support set)和查询集(query set)，其中支持集和查询集拥有相同的图像类别并且拥有的类别数量也相同。

令训练集中的每一个任务

则支持集

查询集

x和y分别表示图像以及图像对应的标签，其中支持集包含了N个类别，每个类别包含了K张图片。

令测试集中的每一个任务

则支持集

查询集

本发明进一步改进在于：所述步骤3的具体方法为：

将任务

输入到网络中，将支持集

中的每一张图像输入到特征提取网络

中，可以得到一组图像特征

然后计算特征的均值，并逐样本减去均值μ，可得

本发明进一步改进在于：所述步骤4的具体方法为：

步骤4.1：通过对

做奇异值分解SVD，可以得到这组样本的左奇异矩阵U^s，右奇异值矩阵V^s以及奇异值矩阵∑^s，其中奇异值矩阵的主对角线包含了全部的特征值，奇异值矩阵中的特征向量与奇异值矩阵∑^s中的奇异值存在一一对应的关系。奇异值分解过程如下式：

步骤4.2：对分解所得的奇异值按递减的顺序排列，选取前m个奇异值以及对应左奇异值矩阵的前m个向量作为投影到m维子空间的投影变换矩阵。

步骤4.3：通过一般交叉验证(GCV)的方法对m具体的数值进行确定，使得预测值均方差误差最小。令X＝{x₁,x₂,...,x_n}是一组具有n个样本的数据，每个样本含有c个维度(c≥m)对其使用奇异值分解并降至m维后再重构至c维，得到

则均方误差如下式：

进一步，通过公式(2)的一阶近似公式可以简化计算的复杂度，如下式：

通过最小化GCV即可得到最优化的维度m，使得网络在保留原始信息的同时拥有更好的泛化能力。

步骤4.4：根据每一类图像计算得到的相应维度m对支持集中的图像的特征进行降维操作。即对奇异值按降序排列，并取前m个奇异值在左奇异矩阵U^s所对应的向量作为降维后的子空间。

本发明进一步改进在于：所述步骤5的具体方法为：

在原始交叉熵损失函数的基础上，加入对于网络不同层次特征的约束，为网络的训练提供更多的信息和指导。令训练集中的支持集

查询集

则对于

中的每张图像，若

则可得相应的特征

以及

同时可以获得网络对于

和

在不同卷积层获得的不同层次的特征

则可以计算两张图像在同一层次特征之间的欧式距离，如下式：

进一步，通过加权求和的方式将三个不同层次之间的距离相加，则可以得到特征的整体损失，如下式：

L_feat＝αD_E0+βD_E1+γD_E2 (7)

则网络的总体损失如下式：

L＝L_{cross_entropy}+L_feat (8)

本发明进一步改进在于：所述步骤6的具体方法为：

对于

中的图像

通过特征提取网络可以得到其特征

由之前步骤4.4已得到每个类别对应的子空间，则进一步计算查询集中每张图像

到各子空间之间的距离。向量到子空间的距离可通过最小二乘法求得，设向量为β，则向量到子空间L(α₁,α₂,...,α_s)的距离可通过求解下式求得：

其中X即为向量到子空间的距离。

通过比较查询集中图像到每个类别的距离，取其中的最小距离即可判定

所属的类别。

本发明的有益效果：

1、通过将特征降维到子空间，减少了网络在训练和应用中的计算量。

2、使用一般交叉验证(GCV)来估算最优的降维维度m，使得网络具有自适应性，并同时提高了网络的准确度和泛化能力。

3、改进的损失函数提高了网络对于小样本情况下有限信息的利用能力，为网络的训练提供了更多的指导。

4、在使用一般交叉验证的过程中利用其一阶近似来大幅降低运算量，提高网络的计算效率。

附图说明

图1是本发明提供的基于维度自适应的小样本识别方法的整体流程图；

图2是本发明提供的基于维度自适应的小样本识别方法的具体流程图；

图3是本发明中所使用的数据增强技术示范图；

图4是本发明在Omniglot数据集上的实验结果；

图5是本发明在mini-ImageNet数据集上的实验结果。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

如图1-3所示，本实施例的步骤一种基于维度自适应的小样本图像分类方法，

步骤1:对训练集数据以及测试集数据中的图像进行预处理，包括了图像的裁剪、归一化以及旋转等。同时对预处理后的图像进行数据增强，在已有的小样本数据基础上扩充一定的样本数量；

所述步骤1的具体方法为：

由于公共数据集ImageNet中的图像尺寸大小并不统一，因此本方法首先会对数据集中的图像进行预处理，首先将图片裁剪长宽统一裁剪为C*W*H，其中C为图像的通道数，W和H为图像的像素值，本方法中C为3，W和H都设置为84，然后将每一张图片进行归一化操作，以进一步提高训练的表现，在归一化中，所使用的各通道均值以及标准差为[0.485,0.456,0.406]，[0.229,0.224,0.225]；之后对图片进行不同角度的旋转操作；预处理之后的图片为标准图片。

步骤2：将预处理之后的图像按图像类别划分，以任务(task)为单位作为网络训练的基本输入单位；

所述步骤2的具体方法为：

对于已经预处理过后的图片，本方法将数据集划分为训练集D_base和测试集D_novel，其中训练集和测试集包含的图像类别是不相关的。然后将D_base中的图像进一步划分为若干个支持集(support set)和查询集(query set)，其中支持集和查询集拥有相同的图像类别并且拥有的类别数量也相同；

令训练集中的每一个任务

则支持集

查询集

x和y分别表示图像以及图像对应的标签，其中支持集包含了N个类别，每个类别包含了K张图片；

令测试集中的每一个任务

则支持集

查询集

步骤3：通过卷积神经网络对图像进行处理，分别提取同一类类别中每一张图像的特征，进而获得具有代表性和辨识度的类别特征；

所述步骤3的具体方法为：

将任务

输入到网络中，将支持集

中的每一张图像输入到特征提取网络

中，可以得到一组图像特征

然后计算特征的均值，并逐样本减去均值μ，可得

步骤4：根据步骤2所获得的类别特征计算相应的自适应维度，并据此获得每一类图像所对应的自适应特征子空间；

所述步骤4的具体方法为：

步骤4.1：通过对

步骤4.2：对分解所得的奇异值按递减的顺序排列，选取前m个奇异值以及对应左奇异值矩阵的前m个向量作为投影到m维子空间的投影变换矩阵；

则均方误差如下式：

通过最小化GCV即可得到最优化的维度m，使得网络在保留原始信息的同时拥有更好的泛化能力；

步骤4.4：根据每一类图像计算得到的相应维度m对支持集中的图像的特征进行降维操作；对奇异值按降序排列，并取前m个奇异值在左奇异矩阵U^s所对应的向量作为降维后的子空间。

步骤5：改进损失函数，在损失函数中加入对于高维和低维特征的约束，来为网络的训练提供更多的信息和引导；即对同一类别样本图像在三个不同的维度对网络中间层的特征计算距离并最小化；最后将三个维度的距离加权求和作为整体损失函数的一部分，并利用梯度下降的方法更新网络参数；

所述步骤5的具体方法为：

查询集

则对于

中的每张图像，若

则可得相应的特征

以及

同时可以获得网络对于

和

在不同卷积层获得的不同层次的特征

L_feat＝αD_E0+βD_E1+γD_E2 (7)

则网络的总体损失如下式：

L＝L_{cross_entropy}+L_feat (8)。

所述步骤6的具体方法为：

对于

中的图像

通过特征提取网络可以得到其特征

到各子空间之间的距离；向量到子空间的距离可通过最小二乘法求得，设向量为β，则向量到子空间L(α₁,α₂,...,α_s)的距离可通过求解下式求得：

其中X即为向量到子空间的距离；

所属的类别。

基于维度自适应的小样本图像分类方法，基于残差网络框架来实现对于小样本图像的识别任务。实验选取ConvNet-4和ResNet-12框架作为图片第一步特征提取中的主干网络。在网络的训练中，使用了Omniglot和mini-ImageNet数据集对网络进行训练，其中Omniglot数据集包含了1623个手写文字类别，每个类别包含了20张图像；mini-ImageNet中的样本则选自ImageNet中的一部分，一共包含了100个类别，其中每一个类别包含了600张图片。本方法在训练集中使用了64个类别，验证集和测试集分别使用了另外的16和20个类别，类别之间的不相关模拟了小样本情况下没有大量数据集可供训练的情景。

实验：在基于ConvNet-4和ResNet-12模型的基础上，本方法加入了针对各层次维度约束的改进损失函数以及基于维度自适应子空间的分类器，并在Omniglot和mini-ImageNet数据集的实验中表现出了良好的性能，验证了本方法的有效性。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。