CN113221964A

CN113221964A - 单样本图像分类方法、系统、计算机设备及存储介质

Info

Publication number: CN113221964A
Application number: CN202110433829.0A
Authority: CN
Inventors: 刘亦书; 张利强; 韩政卓; 陈聪慧
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-08-06
Anticipated expiration: 2041-04-22
Also published as: CN113221964B

Abstract

本发明公开了一种单样本图像分类方法、系统、计算机设备及存储介质，方法包括：生成变体关系网络；训练T个变体关系网络，得到T个教师网络；利用教师网络提取所有训练图像的特征；为支撑图像列表创建参照相似度列表；构造排序损失函数和混合损失函数；用混合损失函数取代变体关系网络中的关系损失函数，用排序学习子网取代关系学习子网，生成排序网络；训练排序网络，得到训练好的排序网络；将查询图像和单样本支撑图像输入训练好的排序网络中进行分类，得到查询图像的分类结果。本发明公开的排序网络可根据相似度对支撑图像进行排序，弥补了现有模型只能判断“是或非”的不足，因而具有更强的泛化能力和更高的分类性能。

Description

单样本图像分类方法、系统、计算机设备及存储介质

技术领域

本发明涉及一种单样本图像分类方法、系统、计算机设备及存储介质，属于深度学习和图像分类领域。

背景技术

人类(甚至婴幼儿)只见过若干个(甚至一个)香蕉、橘子和西瓜，就能区分这几种水果。小样本学习旨在训练出具备这种类人能力的模型——只给模型提供极少量的新类别样本(这些类别不参与训练，叫“新类”；与之相对，参与训练的类别叫“基类”)，它就能执行图像分类。

单样本学习是小样本学习的特例，它指的是训练好的模型能够在每个新类只提供一个样本的情况下进行图像识别。

和其它很多领域一样，目前单样本学习领域的优秀方法大多是基于深度学习的。这些方法可以分成三种：网络微调法、循环神经网络记忆法和度量学习法。三者各有千秋，没有一种方法明显优于其它方法。其中，简单有效的度量学习法应用最为广泛。

小(单)样本度量学习模型的典型代表是加拿大多伦多大学提出的孪生网络、谷歌提出的匹配网络、多伦多大学提出的原型网络和伦敦玛丽女王大学提出的关系网络。其中，最晚出现的关系网络表现最为突出，其网络结构如图1所示(以“5类、单样本、单查询”为例)。

关系网络采用情景训练策略，每个训练情景(即小批)涉及一个支撑图像列表 x＝(x₁，x₂，…，x_C)和一个查询图像集Q。记x_i(i∈{1，2，…，C})和查询图像q∈Q的真实关系得分为：

并记关系网络对r_i的预测值为r′_i，则损失函数可定义为：

其中，ω和

分别表示特征学习子网和关系学习子网的参数(包括权重和偏置)。

由

的定义可看出，关系网络以二值预测为目标——如果支撑图像x_i与查询图像q来自同一类，则期望的关系得分预测值为1(“是”)；否则为0(“非”)。换言之，在关系网络“眼里”，支撑图像只有两种：“与查询图像同类”和“与查询图像异类”；它“一视同仁”地对待四幅异类图像，“看不出”宫殿比其余三者更像教堂(见图1)。可见这种预测过于宽泛和粗略了。如果设定更严格的训练目标，“强迫”模型给出更具体精细的预测(例如，预测C幅支撑图像的顺序，越像查询图像者越靠前)，那么，深度网络学习到的特征必定更富有表现力，更能刻画图像的本质，因而模型将具有更强的泛化能力，其分类结果也将更准确可靠。

发明内容

有鉴于此，本发明提供了一种单样本图像分类方法、系统、计算机设备及存储介质，该方法生成一种新的单样本学习模型——排序网络。借助知识蒸馏和排序学习等技术，排序网络可对图像相似度进行精细预测，进而根据相似度大小对支撑图像进行排序。较之仅能判断“是或非”的现有模型，具备精细辨识力的排序网络拥有更强的单样本分类能力。

本发明的第一个目的在于提供一种单样本图像分类方法。

本发明的第二个目的在于提供一种单样本图像分类系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种单样本图像分类方法，所述方法包括：

通过改变关系网络的特征融合方式和重新构造损失函数，生成变体关系网络；

依次将T个预训练卷积神经网络作为变体关系网络的特征学习子网，训练对应的变体关系网络，得到T个教师网络；

依次将T个教师网络作为特征生成器，提取所有训练图像的特征；

利用所有训练图像的特征，为支撑图像列表创建参照相似度列表；

利用排列概率模型构造排序损失函数，进而构造混合损失函数；

用混合损失函数取代变体关系网络中的关系损失函数，用排序学习子网取代关系学习子网，生成排序网络；

根据参照相似度列表，采用情景训练模式训练排序网络，得到训练好的排序网络；

将查询图像和单样本支撑图像输入训练好的排序网络中进行分类，得到查询图像的分类结果。

进一步的，所述改变关系网络的特征融合方式，具体为：

将特征学习子网看作一个向量函数f(ω；·)，集成支撑图像x_i与查询图像q的特征，得到集成特征，如下式：

α_i＝(f(ω；x_i)-f(ω；q)).*(f(ω；x_i)-f(ω；q))

其中，“.*”表示对应元素相乘，ω表示特征学习子网的参数。

进一步的，所述重新构造损失函数，具体为：

在关系网络的关系得分层运用softmax函数，令第i个激活值p_i表示第i个归属概率，同时记查询图像q的的类别标签为l^(q)，利用交叉熵构造关系损失函数，如下式：

其中，

表示关系损失函数，ω和

分别表示特征学习子网和排序学习子网的参数，x表示支撑图像x₁，x₂，…，x_C构成的支撑图像列表，Q表示任一训练情景的查询图像集。

进一步的，所述利用所有训练图像的特征，为支撑图像列表创建参照相似度列表，具体包括：

根据所有训练图像的特征，计算所有图像对的欧氏距离并规范化到[0，1]上；

假设第t个教师算出支撑图像x_i与查询图像q的规范化欧氏距离为d_ti，定义x_i与q的参照相似度，如下式：

其中，T表示教师网络的个数，s_i表示参照相似度且s_i∈[0，1)；若参照相似度s_i＝0，则舍弃对应的查询图像q；

根据参照相似度s₁，s₂，…，s_C，为支撑图像列表x＝(x₁，x₂，…，x_C)创建参照相似度列表s＝(s₁，s₂，…，s_C)。

进一步的，所述利用排列概率模型构造排序损失函数，具体为：

记π＝[π(1)，π(2)，…，π(C)]为C个自然数1，2，…，n的一个排列，且记所有排列构成的集合为Ω_n，给定正列表u，定义排列π的概率，如下式：

其中，π(i)表示排在第i位的自然数；

记支撑图像列表x的参照相似度列表为s，并记排序网络为x生成的预测相似度列表为s′，利用s的排列概率P(π|s)和s′的排列概率P(π|s′)，构造排序损失函数，如下式：

其中，ω和

分别表示特征学习子网和排序学习子网的参数，q表示查询图像，Q表示任一训练情景的查询图像集。

进一步的，所述构造混合损失函数，如下式：

其中，

表示混合损失函数，

表示排序损失函数，

表示关系损失函数，λ≥0表示一个正则化参数。

进一步的，所述将查询图像和单样本支撑图像输入训练好的排序网络中进行分类，得到查询图像的分类结果，具体为：

将查询图像

和单样本支撑图像

输入训练好的排序网络，得到

和

的相似度预测值

与

的归属概率

进而得到

所属类别

如下式：

本发明的第二个目的可以通过采取如下技术方案达到：

一种单样本图像分类系统，所述系统包括：

第一生成模块，用于通过改变关系网络的特征融合方式和重新构造损失函数，生成变体关系网络；

第一训练模块，用于依次将T个预训练卷积神经网络作为变体关系网络的特征学习子网，训练对应的变体关系网络，得到T个教师网络；

提取模块，用于依次将T个教师网络作为特征生成器，提取所有训练图像的特征；

创建模块，用于利用所有训练图像的特征，为支撑图像列表创建参照相似度列表；

构造模块，用于利用排列概率模型构造排序损失函数，进而构造混合损失函数；

第二生成模块，用于用混合损失函数取代变体关系网络中的关系损失函数，用排序学习子网取代关系学习子网，生成排序网络；

第二训练模块，用于根据参照相似度列表，采用情景训练模式训练排序网络，得到训练好的排序网络；

分类模块，用于将查询图像和单样本支撑图像输入训练好的排序网络中进行分类，得到查询图像的分类结果。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的单样本图像分类方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的单样本图像分类方法。

本发明相对于现有技术具有如下的有益效果：

现有单样本学习模型只能判断“是或非”，其预测过于宽泛和粗略。而本发明提供的排序网络模型具有精细辨识能力，它能根据相似度对支撑图像进行排序，因而具有更强的泛化能力和更高的分类精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为现有技术中关系网络的网络结构图。

图2为本发明实施例1的单样本图像分类方法的流程图。

图3为本发明实施例1的航拍遥感图像库样例图。

图4为本发明实施例1的排序网络的网络结构图。

图5为本发明实施例1的λ的取值和排序网络性能的关系图。

图6为本发明实施例2的单样本图像分类系统的结构框图。

图7为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例；基于本发明的实施例，以及本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本实施例提供一种单样本图像分类方法，该方法属于度量学习法，它包括四个部分：重训练教师网络、生成参照相似度、设计和训练排序网络以及单样本图像分类；其中，重训练教师网络通过步骤S201～S202实现，生成参照相似度通过步骤S203～S204 实现，设计和训练排序网络通过步骤S205～S207实现，单样本图像分类通过步骤S208 实现；流程图如图2所示。具体步骤如下：

S201、通过改变关系网络的特征融合方式和重新构造损失函数，生成变体关系网络。

关系网络是一种现有的小样本学习模型，它包括两个子网：特征学习子网和关系学习子网，其网络参数分别为ω和

关系网络采用情景训练策略，每个训练情景(即小批)涉及一个支撑图像列表x＝(x₁，x₂，…，x_C)和一个查询图像集Q。特征学习子网自动学习出支撑图像x_i(i∈{1，2，…，C})和查询图像q∈Q的特征，融合层通过特征图拼接方式执行特征融合，并将融合结果输入关系学习子网。关系网络的网络结构图如图1 所示。

为了减少神经元个数进而减少网络参数，本实施例改变关系网络的特征融合方式，用特征集成代替特征图拼接。具体地，将特征学习子网看作一个向量函数f(ω；·)，集成支撑图像x_i与查询图像q的特征，得到集成特征，如下式：

α_i＝(f(ω；x_i)-f(ω；q)).*(f(ω；x_i)-f(ω；q))

其中，“.*”表示对应元素相乘。

此外，本实施例还重新构造关系损失函数，具体为：在关系网络的关系得分层运用sofimax函数，令第i个激活值p_i表示第i个归属概率，同时记查询图像q的的类别标签为l^(q)，利用交叉熵构造关系损失函数，如下式：

经历上述改动的网络称为“变体关系网络”。

S202、依次将T个预训练卷积神经网络作为变体关系网络的特征学习子网，训练对应的变体关系网络，得到T个教师网络。

对于数据呈爆炸式增长态势而图像标签极其匮乏的遥感领域来说，单样本学习显得尤其重要，所以，本实施例以单样本遥感场景分类为应用目的，在航拍图像库 NWPU-RESISC45上执行实验。该图像库有45个类别，每类别有700幅图像。图像大小是256×256，空间分辨率在0.2～30米之间。图3给出一些图像样例。

本实施例采用如下数据增广方式：以50％的覆盖率截出图像左上、右上、左下、右下和中央5个部分，再以75％的覆盖率截出4个角落，接着，以0.5的概率对10幅 (子)图像(1+5+4＝10；其中“1”指原图像)进行水平或垂直方向的翻转。通过这种方式，NWPU-RESISC45被扩充至原来的20倍。

本实施例按28∶7∶10的比例随机划分增广后的图像库，因而训练集、验证集和测试集分别拥有28、7和10个类别；其中，验证集用于调整学习率。

本实施例采用情景训练模式训练变体关系网络。在每个训练情景中，每个被随机选中的类别提供30幅查询图像。计入C幅支撑图像，每个训练情景包括31C幅图像。训练情景的个数为500，000。测试时，利用测试图像随机构造1000个情景，并计算平均分类准确率和95％的置信区间。

本实施例使用随机梯度下降法作为优化算法。动量和权衰减分别设置为0.9和0.0005。至于学习率，在前面20,000个训练情景中，关系学习子网和特征学习子网的学习率分别为0.05和0.01；第20,001个训练情景的全局学习率为0.01；之后，每当损失在验证集上的平均值不再下降时，学习率就除以5。

在本实施例中，变体关系网络的关系学习子网包括4个全连接层，其维数分别为512、256、128和64；所有全连接层都执行ReLU操作。此外，T∈{1，2，…，5}，也就是说，预训练卷积神经网络个数为1～5。第1～5个预训练卷积神经网络依次为AlexNet、 VGG-VD-19、DenseNet-121、ResNet-50和NetVLAD，它们都是著名的深度学习模型。

最后，依次将T个预训练卷积神经网络作为骨干(即特征学习子网)，在 NWPU-RESISC45训练集上训练对应的变体关系网络，得到T个教师网络。表1给出 T＝5时所有教师网络的分类性能(表中的“T-AlexNe”表示以AlexNet为骨干的教师网络，余者依此类推)。

表1 教师网络的平均分类准确率(％)

S203、依次将T个教师网络作为特征生成器，提取所有训练图像的特征。

S204、利用所有训练图像的特征，为支撑图像列表创建参照相似度列表。

依次将T个教师网络作为特征生成器，提取所有训练图像的特征，然后，计算所有图像对的欧氏距离并规范化到[0，1]上。

显然，s_i∈[0，1)。在情景训练中，如果参照相似度s_i＝0，则舍弃对应的查询图像 q(这样的查询图像只是极少数)。所以，可以认为，对所有i∈{1，2，…，C}，均有0＜s_i＜1。

通过T个教师网络，可以得到参照相似度s₁，s₂，…，s_C，进而可为支撑图像列表 x＝(x₁，x₂，…，x_C)创建参照相似度列表s＝(s₁，s₂，…，s_C)。s在学生网络(即排序网络) 的训练过程中充当真实列表的角色，为优化算法提供了监督信息。

S205、利用排列概率模型构造排序损失函数，进而构造混合损失函数。

对于支撑图像列表x，设排序网络生成的预测相似度列表为s′＝(s′₁,s′₂,…,s′_C)(见图4；需要指出的是，输出层执行了Sigmoid操作，以确保对所有i∈{1,2,…,C}均有s′_i∈(0,1))。如何度量两个非负列表s与s′的差距，使之能体现对应的两个有序表在排列次序上的差异这个问题可以通过排列概率模型来解决。

记π＝[π(1)，π(2)，…，π(C)]为C个自然数1，2，…，n的一个排列，其中π(i)表示排在第i位的自然数；此外，记所有排列构成的集合为Ω_n。给定正列表u，定义排列π的概率，如下式：

可以证明，排列概率P(π|u)在Ω_n上构成一个概率分布；换言之，P(π|u)＞0(对任意π∈Ω_n)，且

对于相似度列表s和s′，分别记它们的排列概率P(π|s)和P(π|s′)在Ω_n上构成的概率分布为

和

利用

和

的Kullback-Leibler散度定义排序损失函数，如下式：

排序损失函数

反映了参照相似度列表s和预测相似度列表s′对应的两个降序列表在元素排列次序上的差别。从本质上说，s是T个教师在训练集上学习到的知识，以s为逼近对象的排序损失函数在训练过程中将这些知识植入学生网络(即排序网络)，从而实现了知识蒸馏。

最后，构造混合损失函数，如下式：

其中，λ≥0表示一个正则化参数。显然，排序损失函数是混合损失函数的特例。

S206、用混合损失函数取代变体关系网络中的关系损失函数，用排序学习子网取代关系学习子网，生成排序网络。

图4给出λ＝0时排序网络的网络结构。在本实施例中，排序网络的特征学习子网由预训练卷积神经网络GoogLeNet充当；排序学习子网包括4个全连接层，其维数分别为512、256、128和64，所有全连接层都执行了ReLU操作。

S207、根据参照相似度列表，采用情景训练模式训练排序网络，得到训练好的排序网络。

训练排序网络的实验配置与训练变体关系网络完全相同，见步骤S202。

通过变动λ的取值和教师网络的个数T，本实施例训练了多个排序网络并计算它们在验证集上的单样本分类平均准确率(随机构造600个情景)，结果如图5所示(图中“T＝2”涉及第1个教师T-AlexNet和第2个教师T-VGG-VD-19，余者依此类推)。

由图5可看出，随着λ值的增大，排序网络的性能先升后降。这说明，只要占比合适，关系损失就能为排序网络的性能贡献“正能量”。此外，还可看出，教师越多，排序网络的性能越好。这与人类的直观预想是一致的——越多老师能给予学生越多指导，因而学生网络的单样本分类能力越强。

根据实验结果，本实施例设定λ的最优值如下：

其中，

表示T位教师参与知识蒸馏时λ的最优值。

可以看出，T越大，

越小。这说明，教师越多，“他们”提供的监督信息就越充分可靠，因而只关乎“是”或“非”的二值关系信息的重要性就降低了。

S208、将查询图像和单样本支撑图像输入训练好的排序网络中进行分类，得到查询图像的分类结果。

将查询图像

和单样本支撑图像

输入训练好的排序网络，得到

和

的相似度预测值

与

的归属概率

进而得到

所属类别

如下式：

表2给出排序网络在NWPU-RESISC45测试集上的平均分类准确率；为方便对比，也给出4个最前沿的单样本度量学习模型的准确率。由表2可看出：除了“λ＝0，T＝1” 这种情况，排序网络的效果总是优于现有模型；当教师数量增至5个时，排序网络的平均分类准确率比现有的最好方法高达10个百分点。这些结果表明：排序网络的效果明显优于现有技术，所以本实施例的技术方案是行之有效的。

表2 排序网络的平均分类准确率(％)

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读取存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图6所示，本实施例提供了一种单样本图像分类系统，该系统包括第一生成模块601、第一训练模块602、提取模块603、创建模块604、构造模块605第二生成模块606、第二训练模块607和分类模块608，各个模块的具体功能如下：

第一生成模块601，用于通过改变关系网络的特征融合方式和重新构造损失函数，生成变体关系网络；

第一训练模块602，用于依次将T个预训练卷积神经网络作为变体关系网络的特征学习子网，训练对应的变体关系网络，得到T个教师网络；

提取模块603，用于依次将T个教师网络作为特征生成器，提取所有训练图像的特征；

创建模块604，用于利用所有训练图像的特征，为支撑图像列表创建参照相似度列表；

构造模块605，用于利用排列概率模型构造排序损失函数，进而构造混合损失函数；

第二生成模块606，用于用混合损失函数取代变体关系网络中的关系损失函数，用排序学习子网取代关系学习子网，生成排序网络；

第二训练模块607，用于根据参照相似度列表，采用情景训练模式训练排序网络，得到训练好的排序网络；

分类模块608，用于将查询图像和单样本支撑图像输入训练好的排序网络中进行分类，得到查询图像的分类结果。

本实施例中各个模块的具体实现可以参见上述实施例1，在此不再一一赘述。需要说明的是，本实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要将上述功能分配给不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

可以理解，上述系统所使用的术语“第一”、“第二”等可用于描述各种模块，但这些模块不受这些术语限制。这些术语仅用于将第一个模块与另一个模块区分。举例来说，在不脱离本发明的范围的情况下，可以将第一训练模块称为第二训练模块，且类似地，可将第二训练模块称为第一训练模块，第一训练模块和第二训练模块两者都是训练模块，但其不是同一训练模块。

实施例3：

如图7所示，本实施例提供了一种计算机设备，该计算机设备可以是服务器、计算机等，包括通过系统总线701连接的处理器702、存储器、输入装置703、显示器704 和网络接口705。其中，处理器702用于提供计算和控制能力，存储器包括非易失性存储介质706和内存储器707，该非易失性存储介质706存储有操作系统、计算机程序和数据库，该内存储器707为非易失性存储介质706中的操作系统和计算机程序的运行提供环境，计算机程序被处理器702执行时，实现上述实施例1的单样本图像分类方法，如下：

实施例4：

本实施例提供一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例1的单样本图像分类方法，如下：

需要说明的是，本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

综上所述，本发明通过知识蒸馏和逐列排序学习等技术，设计并训练出一个具有精细辨识能力的学生模型——排序网络，其训练目标是最小化学生网络生成的预测相似度列表和教师网络提供的参照相似度列表之间差距，而该差距可通过排列概率模型来定义和度量。排序网络具有逐列排序学习能力，弥补了现有单样本学习模型只能判断“是或非”的不足，因而具有更强的泛化能力和更高的分类性能。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。