CN110020682A

CN110020682A - 一种基于小样本学习的注意力机制关系对比网络模型方法

Info

Publication number: CN110020682A
Application number: CN201910251691.5A
Authority: CN
Inventors: 于重重; 马先钦; 冯文彬
Original assignee: Beijing Technology and Business University; CCTEG China Coal Technology and Engineering Group Corp
Current assignee: Beijing Technology and Business University; CCTEG China Coal Technology and Engineering Group Corp
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-16
Anticipated expiration: 2039-03-29
Also published as: CN110020682B

Abstract

本发明公布了一种注意力机制关系对比网络模型方法，构建在少量有标签样本数据下进行小样本学习的注意力关系对比网络模型。基于关系网络架构，将模型分为特征编码、特征组合和关系编码部分，特征编码模块的作用是进行图像特征信息提取，特征组合部分是将提取的查询图像特征信息分别与每组的训练图像特征信息进行重新组合，形成新的组合特征图。关系编码模块进行网络的非线性度量学习，通过在端到端的深度卷积神经网络模型中引入注意力机制和谱归一化的方法，实现模型在小样本学习情况下具有更高的分类准确率，并且提升模型最终训练结果的稳定性，提高现有模型在小样本学习中的图像分类准确率。

Description

一种基于小样本学习的注意力机制关系对比网络模型方法

技术领域

本发明属于图像处理、模式识别和机器视觉技术领域，涉及图像分类识别网络模型技术，尤其涉及一种基于小样本学习的注意力机制关系对比网络模型方法，构建在少量有标签样本数据下进行小样本学习的注意力关系对比网络模型，有效地提高了在小样本学习下的图像分类精确率。

背景技术

近年来，深度学习在各领域中所取得的前所未有的突破性进展很大程度上依赖于大量的可用有标签数据，这些数据需要耗费大量的成本进行收集和标注，这严重限制了在新类别中的扩展，更重要的是这些深度学习的模型很难解决少量标签数据的问题。因此利用机器学习的方法解决少量有标签数据进行图像分类的小样本学习问题，成为了近年来研究的热点内容。

小样本研究的目的是设计相关的学习模型，使得该模型可以仅在少量的有标签样本中实现快速学习并识别出新样本的类别。目前存在的适用于小样本问题的研究思想有迁移学习方法和半监督学习方法，这些方法在一定程度上可以缓解少量数据训练过程中出现的过拟合问题和数据稀缺问题，但不能从根本上解决小样本问题。而元学习则是将模型从原有的数据学习提升到任务学习为小样本学习问题的研究提供了新的方向。

目前针对小样本学习的元学习算法已经在分类，回归和强化学习中已经有了较多的应用，但是循环网络方法和优化器学习的方法通常需要复杂的推理机制或递归神经网络架构。而基于度量的学习方法旨在学习样本间的度量或距离函数为元学习提供了另一解决思路，例如2016年，Vinyals等人提出了匹配网络模型，该模型利用一张图片进行训练提取该图片的特征图，然后利用余弦距离判断特征图之间的距离。对于新图片，则根据该图片与已知图片的余弦距离来进行分类。(Vinyals O,Blundell C,Lillicrap T,et al.MatchingNetworks for One Shot Learning[J].2016.)

在2017年，Snell等人提出了原型网络模型，该模型利用神经网络将各样本映射到相同空间中，对每种类型的样本提取中心点作为原型。在训练过程中利用欧氏距离作为距离度量，使得测试样本到同类别原型的距离较近，到不同类别原型的距离较远，最后对每类原型的距离进行softmax分类。(Snell J,Swersky K,Zemel R S.Prototypical Networksfor Few-shot Learning[J].2017.)

2018年，Sung等人提出了关系网络模型，该网络通过训练嵌入模块提取图像的特征图，然后利用关系模块对两个特征图之间的距离进行学习，使得相同类别的图像距离接近1，不同类别的图像距离接近0，最后通过判断距离的得分实现对图像的分类。(Sung F,Yang Y,Zhang L,et al.Learning to Compare:Relation Network for Few-ShotLearning[J].2017.)

基于度量方式的元学习方法，为小样本学习的研究提供了较好的解决思路。使用确定的度量方式(例如余弦距离，欧氏距离等)要比通过网络训练对度量方式进行自动学习的小样本分类结果要低，主要原因是单一的确定的度量方式无法较全面的表达各个类别之间的度量关系，在模型的训练过程中对度量方式进行自动的学习可以灵活的适应所训练数据的特征得到相应的度量方式，从而一定程度上可以提升训练的分类结果。在小样本学习的过程中利用深度卷积网络提取图像的特征是较为关键的一步，而采用现有的元学习方法进行小样本学习任务，很难使得深度卷积网络提升模型的分类准确率，且可以稳定模型的最终训练结果。

发明内容

为了克服上述现有技术的不足，本发明提出了一种注意力机制关系对比网络模型方法，针对有标签样本数据较少的问题，构建在少量有标签样本数据下进行小样本学习的注意力关系对比网络模型，能够提高现有模型在小样本学习中的图像分类准确率，提升模型最终训练结果的稳定性。

本发明方法通过在端到端的深度卷积神经网络模型中引入注意力机制和谱归一化的方法，实现模型在小样本学习情况下具有更高的分类准确率，并且使得模型最终训练结果的稳定性得到提升。本发明基于关系网络架构，将模型分为特征编码、特征组合和关系编码三部分，第一部分特征编码模块的作用是进行图像特征信息提取，首先为了使得特征编码模块能够提取较为关键的特征信息，本发明在深度卷积网络中引入注意力机制；其次为了提升模型最终训练结果稳定性，在特征编码模块使用谱归一化对网络的权值参数进行归一化处理。第二部分是将提取的查询图像特征信息分别与每组的训练图像特征信息进行重新组合，形成新的组合特征图。第三部分关系编码模块进行网络的非线性度量学习，与使用余弦距离或欧氏距离的确定度量方式不同，本发明所采用的是元学习度量方式，通过对小样本分类任务的训练学习使得网络可以学习到适应相应训练任务的深度度量方式实现图像之间的比较，最后根据最终的度量比较得分确定图像的类别。本发明方法的模型结构图如图1所示。

本发明提供的技术方案如下：

一种基于小样本学习的注意力机制关系对比网络(Attention Relation CompareNetwork Based on Few-Shot Learning,ARCN)模型方法，利用深度卷积网络对少量的有标签训练样本集图像和训练查询集图像进行特征信息的提取，再将提取的训练样本集图像和训练查询集图像的特征信息进行重新组合，形成新的组合特征信息，最后通过深度卷积网络学习新的组合特征信息之间的深度度量关系，通过比较深度度量关系实现对图像的分类。本发明仅利用少量的标签图片进行训练，即可实现图像分类；具体包括如下步骤：

步骤1：数据的预处理

本发明主要是针对图像数据的分类，因此数据集在选用的时候可以使用灰度图像或者彩色图像。对于选好的数据集需要进行以下的预处理操作：

1.1将小样本(少量标签样本)的图像数据集分成三个数据集，分别是：训练集(占总数据集的60％左右)，测试集(占总数据集的20％左右)和验证集(占总数据集的20％左右)。

1.2为了更好的进行模型的训练，本发明进一步将已知类别的训练集图像分为训练样本集L和训练查询集Q。在训练的过程中，从训练集图像中随机选取C个不同类别，然后每类别中选取K张带标签的图像组成训练样本集L，将这C个不同类别中剩余的图像作为训练查询集Q，从C个类别选取K张带标签的图像对网络进行训练的过程称为C类K样本训练(Cway K shot)。

构建ARCN模型，ARCN模型包括：特征编码部分、特征组合部分和关系编码部分；

包括步骤2)～5)：

步骤2：建立特征编码部分，提取得到训练样本集图像和训练查询集图像的特征信息；

卷积神经网络具有较强的图像特征提取能力，因而被广泛的应用在深度学习网络中用于图像相关特征的提取任务。因此本发明建立的特征编码部分利用卷积神经网络实现对少量标签样本的图像特征进行提取。具体实施时，本发明所建立的特征编码部分包括四个卷积模块和一个注意力机制模块。特征编码模块的具体构建步骤如下：

2.1特征编码部分的卷积模块设计

特征编码部分的四个卷积模块中，一个卷积模块均包括一个卷积层。四个卷积模块均包括的操作有卷积层运算，谱归一化，批归一化，ReLU函数激活层，下面将在步骤2.1.1～2.1.4对上述的四种操作进行介绍：

2.1.1卷积层：

第一卷积模块中的卷积层输入是训练样本集图像C_ij(i＝1,…,c；j＝1,…,K)(其中i为样本图像的类别编号，j为某一类别中图像的编号)和训练查询集图像C_n(n∈i)(n为查询集图像的类别编号，与i的类别编号范围一致)，若训练集数据为彩色图像，则输入特征图通道为3；若训练集数据为灰度图像，则输入特征图通道为1；卷积核(kernel_size)大小设置为3X3，输出的特征图通道数为64，填充(padding)设置为0。第二卷积模块的卷积层输入为64通道特征图，卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为1。第三卷积模块的卷积层输入为64通道特征图，卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为0。第四卷积模块的卷积层输入为64通道特征图，卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为1。

2.1.2谱归一化处理：

四个卷积模块经过步骤2.1.1的卷积层运算后均得到64个特征图x^l(l＝1,2,3,4)(其中l为卷积模块编号)，为了使得得到的权值参数满足1-Lipschitz连续性条件，本发明引入谱归一化(Yoshida Y,Miyato T.Spectral Norm Regularization for Improvingthe Generalizability of Deep Learning.2017.)的思想对卷积操作的权值参数进行归一化处理。使用谱归一化的目的是可以在进行小样本学习时稳定训练的过程，提升最终训练结果的稳定性。

网络的前馈计算的输出特征图可以表示为其中网络的卷积模块经卷积层操作后输出特征图为f^l是非线性的激活函数，W^l和b^l分别是网络的权重矩阵和偏差向量；为上一卷积模块输入的特征图。在本发明中利用σ(W)表示矩阵W的谱范数，则可以表示为：

上式等同于计算权重矩阵W的最大奇异值，其中x为特征图。在线性层f(x)＝Wx是通过||f||_Lip＝σ(W)给出的，对于Lipschitz范数的激活函数||f_l||_Lip＝1^l，而对于偏差向量||b||_Lip＝0，则可以进一步表示为有：

本发明利用谱归一化对权重矩阵W的谱范数进行归一化，权重矩阵W应该满足Lipschitz常数即σ(W)＝1：

网络每层的随机初始化权重为W，通过足够的迭代次数更新以下过程：

上式中x_l为迭代更新后的权重，再利用近似的奇异值近似逼近权重矩阵W的谱范数，则有：

σ(W^l)≈(x^l)^TW^lv^l (式5)

σ(W_l)则是经过谱归一化后的权重参数。

2.1.3利用批归一化(batch normalization)对谱归一化后的权重参数进行处理。输出的特征图通道数在四个卷积模块中均为64，参数动量(momentum)的值设置为1。

2.1.4在1.1.3之后，对权重参数进行ReLU函数的激活，具体的ReLU函数为

f(y)＝max(0,y) (式6)

在式6中，参数y为特征图x中的数值。

2.1.5对于第一卷积模块和第三卷积模块，需要增加最大池化层，在此处将最大池化层Max-pooling设置为2。第二卷积模块和第四卷积模块不设置最大池化层。

2.2特征编码部分的注意力机制模块设计

在步骤2.1建立的卷积模块所进行的卷积操作处理得到的是局部临近的特征信息，提取出整张图像中的所有信息，无法针对性的提取图像中较为关键的特征信息。为了使得网络可以有针对性的提取图像中较为关键的特征信息，同时弱化无关背景的干扰。如图1所示，本发明在第二卷积模块和第三卷积模块之间引入注意力机制模块，具体的注意力机制模块的结构图如图2所示。

2.2.1注意力机制模块的输入特征图为x₁∈R^C×W×H，其中x₁表示的是第二卷积模块输出的特征图，C为特征图的通道数，W×H是特征图的大小。图2(a)是构建的注意力机制网络，conv1表示的是卷积层，该卷积层的卷积核大小为3x3，通道数量与输入的特征图通道数C相同，再利用激活函数ReLU进行处理，则可以表示为：

f₁(x₁)＝ReLU(Conv₁(x₁)),f₁(x₁)∈R^C×W×H (式7)

2.2.2在图2(a)中三个卷积层Conv_2，1，Conv_2,2和Conv_2，3，输入的特征图为x₂＝f₁(x₁)，卷积核的大小均为1x1，输出的通道数量与输入的特征图通道数C相同。接下来对得到的特征图进行softmax处理，得到网络的注意力机制特征图F_2,i∈R^C×W×H(i＝1,2,3)，该部分的表示公式为式8：

F_2,i＝f_2,i(x₂)＝Softmax(Conv_2,i(x₂)),i＝1,2,3 (式8)

2.2.2在图2(b)中输入的特征图为x₁∈R^C×W×H，Conv_3,i(i＝1,2,3)与图2(a)中的卷积层Conv_2,i操作不同的是该部分采用的是空洞卷积，目的是为了扩大卷积核的感受野，卷积核大小为3x3，卷积核膨胀值(dilation)设置为2，为保证输入与输出特征图的大小不变，设置填充为2，输出的特征图通道数量与输入的特征图通道数C相同，之后进行批归一化运算，输出得到特征图F_3,i∈R^C×W×H，则该过程可以表示为：

F_3,i＝g_i(x)＝BN(Conv_3,i(x)),i＝1,2,3 (式9)

2.2.3在图2(c)的表示特征图相乘，为使得上下两通道的特征图矩阵可以相乘，将F_3,i的特征图进行转置，由此得到的输出特征图为：

在上式中，β_i的初始值为0，引入此参数的目的是通过训练网络，可以自动加强对目标区域的关注，同时弱化背景的无关干扰信息。F_2,i为图2(a)中得到的注意力机制特征图，F₃′,_i为图2(b)中得到的特征图的转置。

步骤3：特征组合部分，执行的操作如下：

特征组合部分是将特征编码部分所提出的训练样本集L特征信息与查询集Q的特征信息进行重新组合，便于关系编码部分对组合特征信息的学习。

3.1将训练样本集L经过步骤2所提取图像C_ij(i＝1,…,c；j＝1,…,K)中同一类的特征图进行求和处理，得到同一类别的新特征图

3.2将步骤3.1所得到的同一类别的新特征图与步骤2所提取的查询集Q中图像C_n(n∈i)的特征图相加，得到训练特征图与查询特征图的组合特征图S，表示为式12。

步骤4：关系编码部分：进行网络的非线性度量学习，具体的操作如下：

本发明在关系编码部分所采用的是元学习度量方式，通过对小样本分类任务的训练学习使得网络可以学习到适应相应任务的较好深度度量方式实现图像之间的比较。本发明具体实施时，关系编码部分由两个卷积块层和两层全连接层组成，各层的设置如下：

4.1两个卷积块的输入特征图的数量为64，卷积核的大小为3x3，输出的特征通道数为64；之后依次对卷积操作后的特征图进行批归一化处理、ReLU的非线性激活、参数为2的最大池化处理。

4.2FC1层是关系模块的全连接层的第一层，该层的输入是64*p*p(p＝1or 3)，当输入为灰度图像时，p＝1；当输入为彩色图像时，p＝3。在FC1处采用ReLU激活函数进行处理。

4.3FC2层表示的是全连接层的第二层，该层采用Sigmoid激活函数目的是使得最终的分类得分O_i,n∈[0,1]。

步骤5：建立网络的损失函数

在本发明所提出的注意力机制关系对比网络模型中，利用均方误差损失函数loss对模型进行训练，使得训练的模型的分类得分O_i,n与实际分类结果相一致，表示为式14。

网络在训练的过程中，采用Adam学习策略，根据loss值的大小，反向更新步骤2)-步骤4)中各部分的网络权值参数，设置学习率为λ，网络需要训练迭代的次数为n，当网络迭代n次后结束训练。网络训练的过程中会不断优化各部分的网络权值参数，最终使得loss逐渐的变小最终趋于0。在调整关系编码模块的参数时对网络的深度度量方式进行不断的学习，最终使得网络对同一类别的度量对比得分为1或者趋近于1，不同类别的度量对比得分为0或者趋近于0，得分高的一类便是图像分类的结果。

与现有技术相比，本发明的有益效果是：

本文提出了一种基于小样本学习的注意力机制关系对比网络学习方法—ARCN方法。利用本发明提供的方案，通过特征编码部分提取少量的有标签图像与查询图像的特征信息，然后在特征组合部分将训练图像和查询图像的特征信息进行重新组合形成新特征信息，在关系编码部分采用元学习度量方式，对新特征信息进行适应训练任务的深度度量学习，通过深度度量方式实现图像之间的比较并给出相应比较的得分，得分高者作为最终的分类结果。该发明在小样本学习中可以提高网络的分类准确率并且在一定程度上可以提升分类结果的稳定性。

与现有技术相比，本发明具有以下技术优势：

(1)采用谱归一化对网络的权重参数进行归一化处理。网络受有标签样本数据量的限制，在训练过程中会随着迭代次数的增加，网络训练结果的稳定性逐渐变弱，为了提高网络训练过程的稳定性，使用谱归一化对网络权重进行归一化处理可以稳定关系对比网络的训练结果。

(2)在注意力机制关系对比网络的特征编码模块中引入注意力机制。注意力机制是对卷积操作的补充，有助于特征编码模块在提取特征信息时更多的关注图像目标区域，而弱化背景区域对特征信息提取的干扰。

附图说明

图1为本发明所提出的注意力机制关系对比网络在5类1样本情况下的结构框图；

其中，C₁-C₅表示的训练样本集中5个不同类别中的1个标签样本，C_n是查询集的样本。

图2为注意力机制模块的结构示意图；

其中，(a)是构建的注意力机制网络；(b)是空洞卷积网络层；(c)是特征融合部分；

x₁是第二卷积模块输出的特征图，F是注意力机制模块提取的特征图。图中的7个conv表示的是不同的卷积层，g(x₁)，f₁(x₁)和f_2i(x₂)表示的是经过卷积运算所得到的特征图，其中f_2i(x₂)＝F_2,i(i＝1,2,3)，F′₃表示的是特征图g(x₁)的转置。

图3为本发明的整体流程图。

图4为本发明在miniImagenet验证集的训练过程中准确率变化曲线；

其中，(a)为5类1样本的验证集测试准确率变化曲线；(b)为5类5样本的验证集测试准确率变化曲线。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本文提出了一种基于小样本学习的注意力机制关系对比网络学习方法—ARCN方法。网络实现了端到端的学习通过在卷积神经网络引入谱归一化和注意力机制对小样本图像的特征信息进行提取，并进一步将特征信息进行重新组合，最后通过关系编码模块实现对特征之间深度度量方式的学习，比较图像之间的关系从而实现对小样本图像的更高准确率和更稳定的训练。图3是本发明的实现整体流程图。

以下实施例针对小样本公开数据集miniImagenet数据集，进行本发明所提的注意力机制关系对比网络学习方法的分类；具体包括如下步骤：

步骤1：数据的预处理

1.1小样本的miniImagenet数据集有100类每类有600张图片，共计60,000张彩色图像，设置图片输入网络的大小均为84x84。并将该数据集分为：训练集64类，测试集20类和验证集16类。

1.2进一步将训练集分为样本集和查询集。在训练的过程中，从训练集中随机选取5类，每类有1张或者5张带标签的数据组成样本集，将这5类中剩余的99张或者95张数据作为查询集，则称该小样本学习过程进行了两种实验分别是：5类1样本和5类5样本。

构建ARCN模型，包括步骤2)～5)：

步骤2：建立特征编码部分，提出训练图像和查询图像的特征信息

2.1特征编码部分的卷积模块

2.1.1卷积模块1的输入为彩色图像，则输入特征图通道为3，卷积核(kernel_size)大小设置为3X3，输出的特征图通道数为64，填充(padding)设置为0。卷积模块2的输入为64通道特征图，卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为1。卷积模块3的输入为64通道特征图，卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为0。卷积模块4的输入为64通道特征图，卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为1。

2.1.2对每层卷积操作后的权值参数进行谱归一化处理

利用谱归一化对权重矩阵W的谱范数进行归一化，权重矩阵W应该满足Lipschitz常数即σ(W)＝1：

σ(W_l)≈(x_l)^TW_lv_l (式5)

σ(W_l)则是经过谱归一化后的权重参数。

2.1.3利用批归一化(batch normalization)对谱归一化后的权重参数进行处理。输入的特征图参数在四个卷积模块中均为64，momentum设置为1。

f(x)＝max(0,x) (式6)

2.1.5对于卷积模块1和3需要增加一步最大池化层，设置参数为2。卷积模块2和4不设置最大池化层。

2.2特征编码部分的注意力机制模块

如图1所示，本发明在卷积块2和卷积块3之间引入注意力机制模块，具体的注意力机制模块的结构图如图2所示。

2.2.1注意力机制模块的输入特征图为x₁∈R^C×W×H，其中C为特征图的通道数，WxH是特征图的大小。图2(a)是构建的注意力机制网络，conv1的卷积核大小为3x3，通道数量为输入的特征通道数，再利用激活函数ReLU进行处理，则可以表示为：

f₁(x₁)＝ReLU(Conv₁(x₁)),f₁(x₁)∈R^C×W×H (式7)

2.2.2在卷积Conv_2i中，输入的特征图为x₂＝f₁(x₁)，卷积核的大小均为1x1，通道数量为输入的特征通道数。接下来对得到的特征图进行softmax处理，得到网络的注意力特征图F_2,i∈R^C×W×H，则该部分的表示公式为：

F_2,i＝f_2,i(x₂)＝Softmax(Conv_2,i(x₂)),i＝1,…,3 (式8)

2.2.2在图2(b)中输入的特征图为x₁∈R^C×W×H，Conv_3,i采用空洞卷积，卷积核大小为3x3，dilation设置为2，设置参数填充为2，通道数量为输入的特征通道数，之后进行批归一化运算，输出的特征图F_3,i∈R^C×W×H，则该过程可以表示为：

F_3,i＝g_i(x)＝BN(Conv_3,i(x)),i＝1,…,3 (式9)

2.2.3在图2(c)中对特征图进行相乘首先将F_3,i的特征图进行转置，由此得到的输出特征图为：

在上式中，β_i的初始值为0。

步骤3：特征组合部分，执行的操作如下：

3.1将特征编码模块所提取的训练集C_ij(i＝1,…,c；j＝1,…,K)中同一类的特征图进行求和处理，得到同一类别的新特征图

3.2将同一类别的心特征图与所提取查询集C_n(n∈i)的特征图相加，得到训练特征图与查询特征图的组合特征图S。

步骤4：关系编码部分进行网络的非线性度量学习，具体的操作如下：

4.2FC1层的输入是64*p*p(p＝1or 3)，当输入为灰度图像时，p＝1；当输入为彩色图像时，p＝3。在FC1处采用ReLU激活函数进行处理。

4.3在FC2处采用Sigmoid激活函数目的是使得最终的分类得分O_i,n∈[0,1]。

步骤5：网络的损失函数

在本发明所提出的注意力机制关系对比网络中，利用均方误差损失函数loss对模型进行训练，使得训练的模型的分类得分O_i,n与实际分类结果相一致。

网络在训练的过程中，采用Adam学习策略，根据loss值得大小反向的更新步骤2)-步骤4)中各部分的网络权值参数，设置学习率为λ＝0.001，网络需要训练迭代的次数为n＝500000，当网络迭代5000000次后结束训练。网络训练的过程中会不断优化各部分的网络权值参数，最终使得loss逐渐的变小最终趋于0。在调整关系编码模块的参数时对网络的深度度量方式进行不断的学习，最终使得网络对同一类别的度量对比得分为1或者趋近于1，不同类别的度量对比得分为0或者趋近于0，得分高的一类便是分类的结果。

本发明在miniImagenet数据集对5类进行了1个样本和5个样本的实验，实验的结果与小样本研究领域最新的成果关系网络(Sung F,Yang Y,Zhang L,et al.Learning toCompare:Relation Network for Few-Shot Learning[J].2017.)进行对比，实验结果如下表1所示。

表1miniImagenet数据集小样本分类实验结果

方法	5类1样本	5类5样本
			关系网络	50.44+0.82％	65.32+0.70％
注意力机制关系对比网络	50.78±0.53％	65.82±0.64％

从实验结果可以看出，本发明所提方法的实验结果与现有的在小样本研究领域最新的成果相比，在一定程度上提高了在miniImagenet数据集上的分类精确率。

小样本学习的难点问题就是数据量少，在模型训练过程中较容易导致模型的分类准确率不稳定得情况。本发明所基于改进的关系网络(Relations Nets)在训练的过程中，模型的稳定性就比较明显。下图4的蓝色曲线是关系网络模型在miniImagenet数据集进行训练，每迭代5000次在验证集上测试的模型准确率。从图中可以看出模型在训练的后期，准确率呈现下降的趋势。其中样本量较少的，训练的稳定性较差，验证集的准确率波动较大。数据量较少的，准确率下降的幅度较大。

为了提升网络在训练过程中分类准确率的稳定性，本发明对关系网络进行了改进，在特征编码模块引入谱归一化对网络的权值参数进行归一化处理。上图4中的红色曲线是本发明所提方法在miniImagenet数据集进行训练时，每迭代5000次在验证集上测试的模型准确率。从图中可以看出本文所提出的模型在验证集上的准确率的稳定性与关系网络相比在一定程度上得到了提升，较好的证明了谱归一化在一定程度上可以克服数据量较少带来的模型不稳定问题。

Claims

1.一种图像分类方法，其特征是，包括：

建立基于小样本学习的注意力机制关系对比网络模型，称为ARCN模型；

利用深度卷积网络对少量有标签图像和查询图像进行特征信息的提取；

再利用提取的查询图像特征信息与有标签图像特征信息形成新的组合特征信息；

最后通过深度卷积网络学习新的组合特征信息之间的深度度量关系，通过比较深度度量关系实现对图像的分类，由此达到仅利用少量的标签图片进行训练即可实现图像分类的目的；

具体包括如下步骤：

步骤1：对图像数据集进行预处理，包括：

将小样本的图像数据集分成训练集、测试集和验证集；

再将训练集分为训练样本集L和训练查询集Q，用于进行C类K样本训练；具体从训练集图像中随机选取C个不同类别；从每类别中选取K张带标签的图像组成训练样本集L；将剩余的图像作为训练查询集Q；

构建ARCN模型；所述ARCN模型包括：特征编码部分、特征组合部分和关系编码部分；执行步骤2)～5)：

步骤2：建立特征编码部分，利用卷积神经网络提取小样本图像特征，得到训练样本集图像和训练查询集图像的特征信息；

特征编码部分包括四个卷积模块和一个注意力机制模块；

2.1 设计特征编码部分的卷积模块，四个卷积模块均包括操作有：卷积层运算、谱归一化、批归一化、ReLU函数激活层操作；

2.1.1 卷积层运算：

第一卷积模块中的卷积层输入是训练样本集图像C_ij(i＝1,…,c；j＝1,…,K)和训练查询集图像C_n(n∈i)，其中i为样本图像的类别编号；j为某一类别中图像的编号；n为查询集图像的类别编号，与i的类别编号范围一致；

分别设置四个卷积模块的卷积层输入特征图通道数、卷积核大小、输出特征图通道数、填充的取值；

卷积层运算后均得到64个特征图x^l(l＝1,2,3,4)，其中l为卷积模块编号；

2.1.2 谱归一化处理：

对卷积操作的权值参数进行归一化处理，使得得到的权值参数满足1-Lipschitz连续性条件，在进行小样本学习时提升训练结果的稳定性；

网络的前馈计算的输出特征图表示为其中网络的卷积模块经卷积层操作后输出特征图为f^l是非线性的激活函数，W^l和b^l分别是网络的权重矩阵和偏差向量；为上一卷积模块输入的特征图；

利用σ(W)表示矩阵W的谱范数，计算权重矩阵W的最大奇异值，表示为式1：

其中，x为特征图；在线性层f(x)＝Wx是通过||f||_Lip＝σ(W)给出的，对于Lipschitz范数的激活函数||f_l||_Lip＝1^l，而对于偏差向量||b||_Lip＝0，进一步表示为式2：

利用谱归一化对权重矩阵W的谱范数进行归一化，权重矩阵W满足Lipschitz常数即σ(W)＝1，得到式3：

网络每层的随机初始化权重为W，通过式4进行迭代更新：

式中，x_l为迭代更新后的权重；

再利用近似的奇异值近似逼近权重矩阵W的谱范数，表示为式5：

σ(W^l)≈(x^l)^TW^lv^l (式5)

σ(W_l)是经过谱归一化后的权重参数；

2.1.3 利用批归一化对谱归一化后的权重参数进行处理；

2.1.4 对权重参数进行ReLU函数的激活；

2.1.5 对于第一卷积模块和第三卷积模块，需要增加最大池化层；第二卷积模块和第四卷积模块不设置最大池化层；

2.2 设计特征编码部分的注意力机制模块

在第二卷积模块和第三卷积模块之间引入注意力机制模块，使得网络有针对性的提取图像中较为关键的特征信息，同时弱化无关背景的干扰；包括：

2.2.1 注意力机制模块的输入特征图为x₁∈R^C×W×H，其中x₁表示的是第二卷积模块输出的特征图，C为特征图的通道数，W×H是特征图的大小；

设置卷积层的卷积核大小；通道数量与输入的特征图通道数C相同；再利用激活函数ReLU进行处理，表示为式7：

f₁(x₁)＝ReLU(Conv₁(x₁)),f₁(x₁)∈R^C×W×H (式7)

2.2.2 三个卷积层为Conv_2，1，Conv_2,2和Conv_2，3，输入的特征图为x₂＝f₁(x₁)，设置卷积核的大小，输出的通道数量与输入的特征图通道数C相同；

对得到的特征图进行softmax处理，得到网络的注意力机制特征图F_2,i∈R^C×W×H(i＝1,2,3)，表示为式8：

F_2,i＝f_2,i(x₂)＝Softmax(Conv_2,i(x₂)),i＝1,2,3 (式8)

2.2.2 输入的特征图为x₁∈R^C×W×H，Conv_3,i(i＝1,2,3)与卷积层Conv_2,i操作不同，采用空洞卷积以扩大卷积核的感受野，设置卷积核大小、卷积核膨胀值使得输入与输出特征图的大小不变；设置填充取值，输出的特征图通道数量与输入的特征图通道数C相同；之后进行批归一化运算，输出得到特征图F_3,i∈R^C×W×H，表示为式9：

F_3,i＝g_i(x)＝BN(Conv_3,i(x)),i＝1,2,3 (式9)

2.2.3 将F_3,i的特征图进行转置，使得上下两通道的特征图矩阵可相乘，由此得到的输出特征图表示为式10：

式中，β_i的初始值为0，β_i的作用是通过训练网络，自动加强对目标区域的关注，同时弱化背景的无关干扰信息；F_2,i为得到的注意力机制特征图，F′_3,i为得到的特征图的转置；

步骤3：特征组合部分，包括如下操作：

特征组合部分是将特征编码部分所提出的训练样本集L特征信息与查询集Q的特征信息进行重新组合，便于关系编码部分对组合特征信息的学习；包括：

3.1 将训练样本集L经过图像C_ij(i＝1,…,c；j＝1,…,K)中同一类的特征图进行求和处理，得到同一类别的新特征图表示为式11：

3.2 将同一类别的新特征图与步骤2所提取的查询集Q中图像C_n(n∈i)的特征图相加，得到训练特征图与查询特征图的组合特征图S，表示为式12：

步骤4：关系编码部分：进行网络的非线性度量学习，操作如下：

采用元学习度量方式，通过对小样本分类任务的训练学习，使得网络学习到适应相应任务的较好深度度量方式，从而实现图像之间的比较；

关系编码部分包括两个卷积块层和两层全连接层，包括如下操作：

4.1 设置两个卷积块的输入特征图的数量、卷积核大小、输出特征通道数；之后依次对卷积操作后的特征图进行批归一化处理、ReLU的非线性激活、最大池化处理；

4.2 设置全连接层的第一层FC1的输入；在FC1处采用ReLU激活函数进行处理；

4.3 在FC2处采用Sigmoid激活函数，使得最终的分类得分O_i,n∈[0,1]，表示为式13：

步骤5：建立网络的损失函数，包括：

利用均方误差损失函数loss对模型进行训练，使得训练的模型的分类得分O_i,n与实际分类结果相一致，表示为式14：

网络在训练的过程中，采用Adam学习策略，根据loss值的大小，反向更新步骤2)～4)中各部分的网络权值参数，设置学习率为λ，网络需要训练迭代的次数为n，当网络迭代n次后结束训练；最终使得网络对同一类别的度量对比得分为1或者趋近于1，不同类别的度量对比得分为0或者趋近于0；得分高的类别即为图像分类的结果；

通过上述步骤，即通过建立基于小样本学习的注意力机制关系对比网络模型实现图像分类。

2.如权利要求1所述图像分类方法，其特征是，步骤1)中，将小样本的图像数据集分成训练集、测试集和验证集，具体为分成的训练集占总数据集的60％左右，测试集占总数据集的20％左右和验证集占总数据集的20％左右；图像数据集使用灰度图像或者彩色图像。

3.如权利要求2所述图像分类方法，其特征是，步骤2中的特征编码部分的卷积模块的卷积层操作中，分别设置四个卷积模块的卷积层输入特征图通道数、卷积核大小、输出特征图通道数、填充的取值，具体为：

第一卷积模块中，若训练集数据为彩色图像，则输入特征图通道为3；若训练集数据为灰度图像，则输入特征图通道为1；卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为0；

第二卷积模块的卷积层输入为64通道特征图，卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为1；

第三卷积模块的卷积层输入为64通道特征图，卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为0；

第四卷积模块的卷积层输入为64通道特征图，卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为1。

4.如权利要求3所述图像分类方法，其特征是，步骤2.1.3利用批归一化对谱归一化后的权重参数进行处理，具体地，输入的特征图参数在四个卷积模块中均为64，参数动量的值设置为1。

5.如权利要求3所述图像分类方法，其特征是，步骤4中，具体地，关系编码部分的两个卷积块的输入特征图的数量为64，卷积核的大小为3x3，输出的特征通道数为64；最大池化处理的参数为2。

6.如权利要求3所述图像分类方法，其特征是，步骤4.2中，FC1层的输入是64*p*p，，当输入为灰度图像时，p＝1；当输入为彩色图像时，p＝3。