CN111882000A

CN111882000A - 一种应用于小样本细粒度学习的网络结构及方法

Info

Publication number: CN111882000A
Application number: CN202010772955.4A
Authority: CN
Inventors: 翁仲铭; 胡佳源; 陶文源
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-03

Abstract

本发明公开一种应用于小样本细粒度学习的网络结构及方法，网络结构包括嵌入模块和关系模块；所述嵌入模块用于将输入的支持集和查询集图片提取一阶信息；并对提取到的一阶信息继续进行处理形成二阶并带有注意力机制的图像表示；最后对一阶信息和二阶带有注意力机制的图像表示信息进行级联形成最终的图像表示；所述关系模块通过对支持集和查询集的图像表示使用k‑NN算法进行分类，在支持集中找到跟查询集图片最相近的图片，最终完成小样本细粒度分类任务。所述关系模块将收集到的支持集和查询集通过嵌入模块形成的最终的图像表示进行分类，帮助嵌入模块形成代表性的图像表示的同时减少过拟合。

Description

一种应用于小样本细粒度学习的网络结构及方法

技术领域

本发明涉及图像处理、细粒度分类和小样本学习等领域特别是涉及一种应用于小样本细粒度学习的网络结构及方法。

背景技术

细粒度图像分类是计算机图像处理在近些年来遇见的新的挑战。不同于传统的图像识别仅仅可以区分出基本类别(像是猫和狗)，细粒度图像识别希望可以识别子类(像是吉娃娃和阿拉斯加)。为了做到子类的识别，需要找到物体细微且重要的局部特征。细粒度图像分类在工业界和学术界都有着广泛的研究需求和实际应用。比方说，在野外观察野生动物的时候，有别于传统的图像识别方法仅仅只能提供大体的类别，细粒度图像识别可以提供更加精确的类别信息而且不需要观察人员具备良好的生物学知识。对于学术界来说，细粒度图像分类意味着电脑可以处理更加复杂的任务。因为细粒度学习在生产生活和学术研究中起到日益重要的作用，使其逐渐成为近年来图像识别领域的热门话题。

传统的细粒度图像分类方法基本基于最近兴起的深度学习方法。常见的方法一般可以分成强监督和弱监督两种。强监督使用局部标注点和局部标注框辅助找到关键区域，通过对关键区域进行学习帮助电脑学习到细微但却关键的局部特征，通过对局部特征和全局特征的学习，完成细粒度图像分类任务。尽管强监督方法取得了巨大的成效，但是强监督需要人为标注局部区域，人力成本很高，而且需要绘制人员具有深厚的专业知识基础，因此在实际生产中很难实现。弱监督则仅仅使用物体类别作为标签，大大降低了人力成本。常见的弱监督方法有基于局部的方法、多粒度方法和双线性方法等等。Tianjun Xiao尝试使用显著性检测的方式先提取物体轮廓，再使用Selective Search找到关键局部，最后整合全局和局部的特征信息从而实现细粒度物体检测。Dequan Wang将图像分成多种粒度，分别训练不同的网络处理不同粒度的图片从而解决细粒度图像分类的问题。Tsung-YuLin提出了一种新的网络结构，通过提取图像的二阶信息来进行细粒度图像分类。尽管这些方法都在细粒度图像分类的领域取得了成功，但是他们都需要大量的训练样本。

但是在实际应用中，样本量的获取往往是很困难的，因此难以满足传统的深度学习所需要的样本数量，从而影响分类的准确度。近些年来，为了解决样本不足的问题，小样本学习的想法应运而生。小样本学习的本质就是通过对及其少量的图片样本(通常是1张或者是少于5张图片样本)进行学习，然后将学习到的模型应用在实际生产中。之前有人尝试将双线性方法应用到小样本学习中去，但是那种方法仅仅是将训练的样本减少，没有充分挖掘小样本学习的优势。另外，简单使用双线性网络提取得到的二阶信息，会损失图像的空间信息。不仅如此，之前的工作没有关注到重要的局部信息，通过使用注意力机制，电脑更容易自动找到关键的局部。

小样本学习(few shot learning)最初来源于阿兰图灵的猜想“机器是否可以思考”。小样本学习与传统的深度学习不同的地方是样本数量。传统的深度学习方案依赖于样本数量，通过对大量的样本进行训练，拟合出一种最优的映射关系。小样本学习为了缓解传统深度学习方法对样本数量的依赖，提出将训练集和测试集分成支持集(Support Set)和查询集(Query Set)。训练集、测试集、支持集和查询集的关系如式(1)所示。

y_k，y_l∈{1，C}x∈R^N S∩Q＝ΦA∩T＝Φ (1)

通过式(1)可以得出，训练集、测试集、支持集和查询集之间没有重复的图像，这样就保证了不会存在训练数据泄露的问题。而且，公式(1)也表明，支持集和查询集图片是来自相同类别的，并且查询集的图片远远多于支持集图片数量。这样做的目的是模拟一个小样本的环境。在训练阶段，通过对支持集图像进行训练，给出查询集类别的预测结果，缩小预测结果和实际的类别之间的差距完成训练。在测试阶段，使用训练好的模型，给出查询集类别的预测结果，计算出预测的准确度，通过这种方式检验提出方法的可行性。

细粒度图像识别技术是近些年来比较热门的一个话题。细粒度图像识别的主要目的是区分出不同的子类别。由于子类别之间的差异很小，通常只在某些局部上存在差异。而且，子类别内部因为姿态、背景等因素，存在比较大的类内差异，这也给细粒度图像识别增加了难度。

细粒度图像识别又可以大体分成以下几种方法：

1.使用深度神经网络(DCNN)：这种方法在物体识别领域被广泛使用，但是在捕获有区别性的局部信息的时候比较吃力。

2.基于定位-分类的方法：这种方法首先找到关键的局部，之后通过对关键局部进行特征学习，提取到局部信息，再通过对整体进行学习提取到全局信息，最后综合全局和局部信息对细粒度物体进行分类。

3.基于网络集成的方法：使用多个深度神经网络，分别对不同粒度的图像进行特征提取，最后综合不同粒度的图像特征进行细粒度分类。

4.基于卷积特征的高级编码方法：使用更加高阶的卷积特征，之前的研究证明，二阶信息相比于一阶信息更加关注于局部的细微差别。但是，仅仅使用二阶信息会导致空间结构的损失。

细粒度图像识别也可以被分成强监督方法和弱监督方法。强监督方法指的是需要通过局部标注点(part annotation)或者局部标注框(bounding box)人为指定关键区域。然而，因为人力成本太高，导致强监督方法在实际生产生活中实用性不强。相对而言，弱监督方法只需要提供类别标签，不需要人工标注，在工业和学术界实现起来更加容易。

然而上述的方法都是基于传统的深度学习方法，需要大量的训练样本。但是在实际的生产研究中，可能仅仅只能获得比较少量的样本。在这种情况下，就需要将小样本学习的想法融入到细粒度学习中去了。

随着深度神经网络的逐渐发展，像是ResNet、DenseNet等深度神经网络在图像识别、图像分割等领域大放异彩。但是这些深度神经网络通常在进行细粒度识别任务的时候表现不佳，因为这些深度神经网络获取到的是一阶信息。一阶信息指的是通过一阶导数获得的信息，虽然比较简单高效，但是在处理细粒度图像时，简单的一阶信息会忽略掉细微的局部。近年来，研究发现二阶信息往往可以比一阶信息更加注意细微的局部。Lin在2015年尝试将二阶信息应用在细粒度图像识别中并且取得了很大的成功。

二阶信息是通过二阶导数计算得出的。相比于一阶信息，二阶信息更加关注细微的局部。二阶信息通常是通过公式(2)获得的。具体来说，卷积网络A(τ₁)和卷积网络B(τ₂)产生的向量

经过矩阵外积和池化操作之后就能得到图像的二阶信息。但是，二阶信息往往会损失掉图像的空间信息。

H_Bilinear＝(τ₁，τ₂，f_b，C)

综上，目前还没有一种切实有效的、可以应用在小样本细粒度学习的网络结构和方法。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种应用于小样本细粒度学习的网络结构及方法，主要是使用了一个融合了一阶、二阶信息并且带有注意力机制的一个隐藏层结构。一阶信息表示了图像的局部信息，并且不会损失数据的空间结构，二阶信息表示了图像的全局信息并且可以找到关键的局部，注意力机制帮助模型定位到关键局部。

本发明的目的是通过以下技术方案实现的：

一种应用于小样本细粒度学习的网络结构，包括嵌入模块和关系模块；所述嵌入模块用于将输入的支持集和查询集图片提取一阶信息；并对提取到的一阶信息继续进行处理形成二阶并带有注意力机制的图像表示；最后对一阶信息和二阶带有注意力机制的图像表示信息进行级联形成最终的图像表示；所述关系模块通过对支持集和查询集的图像表示使用k-NN算法进行分类，在支持集中找到跟查询集图片最相近的图片，最终完成小样本细粒度分类任务。

进一步的，所述关系模块将收集到的支持集和查询集通过嵌入模块形成的最终的图像表示进行分类，帮助嵌入模块形成代表性的图像表示的同时减少过拟合。

本发明还提供另一种技术方案如下：

一种基于注意力机制的小样本细粒度学习方法，包括以下步骤：

(1)来自支持集和查询集的图片首先被送入到嵌入模块；经过嵌入模块获得输入图片的带有注意力机制的一阶二阶图像表示；嵌入模块分为一阶信息获取网络，带有注意力的二阶信息获取网络和一阶二阶信息融合部分；

(2)通过关系模块对带有注意力机制的一阶二阶图像表示进行分类，首先通过一个独热编码(One-hot)的分类器进行分类，使用独热编码可以找到图像的唯一类别，分类过程中产生的损失即用于优化嵌入模块的网络，同时作为一种正则化项帮助关系模块进行分类；其次对支持集和查询集的样本使用k-NN算法，将查询集样本的图像表示和k个各类别支持集样本的图像表示之间的余弦距离作为查询集样本到每个类别之间的距离；最后将距离最近的类别作为查询集样本的类别。

进一步的，步骤(1)具体如下：

(101)使用四个1*1的卷积作为一阶信息获取网络，建立起样本到一阶信息之间的映射关系；

假设投入的图片表示成S_ij，i和j分别表示输入图像的行和列；经过一阶信息获取网络得到的结果表示成

其中

表示图像的一阶信息，f1表示学习到的样本和一阶信息之间的映射关系，Φ表示经过学习得到的一阶信息获取网络的权重，S_ij表示输入的图像矩阵；通过上述的公式，获得图像的一阶信息表示；其中

的维度表示为h×w×d，分别对应着获得的图像一阶信息表示的高度、宽度和深度；

(102)引入了注意力机制，将获取到的图像一阶信息

表示成

或

其中的

表示一个h*w维度的行向量；

表示一个h*w维度的列向量；

中的每个列向量

都理解成是一个图像中的每个像素点在不同卷积核中的表示；若该像素点对最终的分类结果占比重要，将会在卷积核中获得较大的数值；因此采用Softmax的方法，找到对分类重要的局部像素点；

将注意力机制应用到卷积核中；

的行向量理解成输入图像在每个卷积核中的表示，同样采用Softmax方法，找到对分类结果重要的卷积核，之后更加关注对应卷积核中的数值；

图像的二阶信息相比于一阶信息更加关注于局部特征，通过对获取到的图像一阶特征信息

进行双线性映射，从而获得了更加关注局部特征的图像二阶信息

(103)融合一阶信息和二阶信息。图像的二阶信息更加关注局部特征，但是在双线性映射的过程中损失了空间信息，因此我们将图像一阶信息

和图像二阶信息

进行融合，从而获得了带有空间信息的带有局部特征的图像信息。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.传统的深度卷积网络在处理细粒度图像分类时没有办法取得很好的效果。本发明融入了图像的二阶信息，可以让网络注意到图像间细小且重要的局部信息。

2.相比于传统的双线性映射方法，本发明注意到了因双线性映射导致的图像空间信息缺失的问题，并且提出了一种简单有效的解决方案。

3.针对传统的小样本学习方法产生大量的冗余图像特征的问题，本发明使用了注意力机制，让网络关注对分类更加有益的图像特征，忽略对分类无用的图像特征。

4.为了更好地适应实际生产和科研的需求，本发明对负责人员的背景知识要求少，对设备的要求低，而且具有比较好的实时性，相较于其他的方法更加满足实际的生产和科研需求。

附图说明

图1是本发明网络结构的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提出了一种新的小样本细粒度学习的网络结构，可以应用在样本非常有限的情况下(1张或小于5张)的细粒度图像识别。该网络结构包含两个模块：嵌入模块(获取图像表示)和关系模块(图像分类)。嵌入模块提取带有注意力机制的一阶二阶混合图像表示。关系模块使用k-NN等方法进行具体分类。

具体的，嵌入模块主要是：

1.将输入的支持集和查询集图片提取一阶信息。

2.对提取到的一阶信息继续进行处理形成二阶并带有注意力机制的图像表示信息。

3.对一阶信息和二阶带有注意力机制的图像表示信息进行级联形成最终的图像表示。

关系模块主要是：

1.将收集到的支持集和查询集通过嵌入模块形成的图像表示进行分类，一方面帮助嵌入模块形成更加有代表性的图像表示，同时也可以帮助减少过拟合。

2.通过对支持集和查询集的图像表示使用k-NN算法进行分类，在支持集中找到跟查询集图片最相近的图片，从而完成小样本细粒度分类任务。

基于上述网络结构实现小样本细粒度学习方法的具体步骤如下：

步骤一、来自支持集和查询集的图片首先被送入到嵌入模块。经过嵌入模块，可以获得输入图片的带有注意力机制的一阶二阶图像表示。

具体来说，嵌入模块可以分成一阶信息获取网络，带有注意力的二阶信息获取网络和一阶二阶信息融合部分。

(101)一阶信息获取网络：

一阶信息是通过一阶导数获得的，一般的卷积网络实现方式就是使用一阶导数。卷积网络的本质是通过训练找到一个拟合度最高的从样本到标签的映射关系。所以为了获取一阶信息，本实施例使用四个1*1的卷积作为一阶信息的获取网络，通过这样的网络建立起样本到一阶信息之间的一种映射关系。

具体来说，假设投入的图片表示成S_ij，i和j分别表示输入图像的行和列。那么经过一阶信息获取网络得到的结果可以表示成

其中

表示图像的一阶信息，f1表示学习到的样本和一阶信息之间的映射关系，Φ表示经过学习得到的一阶信息获取网络的权重，S_ij表示输入的图像矩阵。通过上述的公式，可以获得图像的一阶信息表示。其中

的维度可以表示为h×w×d，分别对应着获得的图像一阶信息表示的高度、宽度和深度。

(102)带有注意力机制的二阶信息获取网络：

传统的二阶信息的获取方式，可以通过公式(3)表示。上一步获得的一阶信息

分别经过两个神经网络τ₁和τ₂获得了

和

的图像表示，之后将它们进行矩阵外积，就可以获得图像的二阶信息。

H_Bilinear＝(τ₁，τ₂，f_b，C)

然而传统的二阶信息获取的方法没有关注重点的区域，导致学习的效率不高。为了让网络更加关注于局部的信息，本实施例引入了注意力机制。之前获取到的一阶信息矩阵

可以表示成

其中的

表示一个h*w维度的行向量。一阶信息矩阵同时也可以表示成

其中的

表示一个h*w维度的列向量。而且在实际应用中，两个特征提取网络τ₁和τ₂可以具有相同的网络结构，所以上述的公式(3)也可以改写成公式(4)的形式。

中的每个列向量

都可以理解成是一个图像中的每个像素点在不同卷积核中的表示。如果这个像素点对最终的分类结果比较重要的话，就会在卷积核中获得比较大的数值。所以采用Softmax的方法，找到对分类比较重要的局部像素点。具体来说，

先经过一个1*1的卷积网络提取特征，这个过程可以表示成

之后将这个结果进行Softmax运算，得到的结果可以表示成

通过这样的方式，让对类别重要的像素点数值变大，对类别不重要的点数值减小，从而实现注意力机制，如公式(5)所示。

因为不同卷积核对同样的类别的重要程度也是不相同的，希望增加重要的卷积核对分类结果的影响，同样希望也可以将注意力机制应用到卷积核中。

的行向量可以理解成输入图像在每个卷积核中的表示，同样采用Softmax方法，找到对分类结果重要的卷积核，然后更加关注这个卷积核中的数值。具体来说，

先经过一个1*1的卷积网络提取特征，获得的结果可以表示成

这个结果之后经过一个Softmax函数将对分类结果重要的卷积核提取到的结果映射到[0，1]的空间，并且将重要的部分权重加大，这个过程可以表示成

之后这个卷积核的重要程度可以理解成对卷积核的置信程度，所以每个像素点最后的结果可以表示成公式(6)。

(103)一阶二阶信息融合部分：

因为一阶信息在处理细粒度问题的时候往往因为忽略了局部的细节从而没有办法处理细粒度问题，但是可以保存数据的空间信息。二阶信息可以专注于全局的细微信息，但是会损失数据的空间信息。所以本实施例融合了一阶信息和二阶信息，这样既能保存数据的空间信息，也能够获取到全局的细微信息。这个过程可以通过公式(7)表示。

步骤二、提取到的包含了一阶二阶信息的图像表示之后被用来投入到关系模块来获得具体的分类。

具体来说，首先通过一个独热编码的分类器进行分类，分类的结果一方面可以为嵌入模块提供分类依据，另外一方面这个分类产生的损失结果也可以作为一种正则化项帮助关系模块进行分类。

同时，为了更好地利用小样本学习的思想，本实施例对支持集和查询集的样本使用k-NN算法，具体确定查询集样本的类别。将查询集样本经过嵌入模块得到的图像表示和支持集样本经过嵌入模块得到的图像表示进行匹配，找到每个样本集中的最k个和查询集样本图像表示余弦距离最小的作为查询集样本和支持集样本类别之间的距离，如公式(8)所示。公式(8)中的s_m表示支持集样本的图像表示，q_n表示查询集样本的图像表示。

具体的训练过程是通过减少分类的损失和计算查询集和支持集样本类别之间的损失，如公式(9)显示。公式(9)中的loss_{classification}表示对一阶二阶信息的图像表示进行分类产生的loss，loss_similarity表示使用k-NN算法时查询集样本和支持集样本类别之间距离产生的损失，mse是欧几里得距离的缩写，F_ij表示输入图像的一阶二阶混合表示，y_i表示输入图像的类别。

loss＝loss_{classification}+loss_similarity＝mse(F_ij，y_i)+loss_similarity (9)

具体的，本发明方法的算法流程如下表所示：

具体的，本实施例中使用CUB-200-2011、Stanford Dogs和Stanford Cars数据集中的数据进行训练和测试。首先随机将图片分成训练集和测试集，如图1所示。接下来，在训练集中分出支持集和查询集。将支持集和查询集的样本修改成84*84的尺寸后一起投入到嵌入模块，从而可以获得带有注意力机制的一阶二阶图像表示。之后通过关系模块，一方面对支持集和查询集的图像表示进行分类，另一方面使用k-NN算法计算查询集样本到具体类别的距离，从而确定具体的类别。

在实际应用中，这些数据样本可以替换成自己的数据样本，只要保持框架结构相同即可。而且本实施例只需要通过使用pytorch(Python机器学习框架)即可，更加方面实际应用。

为了验证技术方案的可行性，在3个常见的细粒度数据集CUB-200-2011、StanfordCar和Stanford Dog中进行了实验。通过观察结果可以发现，本发明提出的方法，在5way-5shot(随机抽取五个类别，每个类别抽取五张图片作为支持集)实验中，本发明技术方案的结果基本上都优于现有的解决方案。尤其是在CUB-200-2011数据集中，提出的技术方案准确度达到了85.34％。在5way-1shot(随机抽取五个类别，每个类别抽取一张图片作为支持集)实验中，提出的技术方案大幅度提升了准确度，尤其是在CUB-200-2011数据集中，提出的技术方案的准确度比之前的最好结果提升了9.9％，见表1。

表1

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种应用于小样本细粒度学习的网络结构，其特征在于，包括嵌入模块和关系模块；所述嵌入模块用于将输入的支持集和查询集图片提取一阶信息；并对提取到的一阶信息继续进行处理形成二阶并带有注意力机制的图像表示；最后对一阶信息和二阶带有注意力机制的图像表示信息进行级联形成最终的图像表示；所述关系模块通过对支持集和查询集的图像表示使用k-NN算法进行分类，在支持集中找到跟查询集图片最相近的图片，最终完成小样本细粒度分类任务。

2.根据权利要求1所述一种应用于小样本细粒度学习的网络结构，其特征在于，所述关系模块将收集到的支持集和查询集通过嵌入模块形成的最终的图像表示进行分类，帮助嵌入模块形成代表性的图像表示的同时减少过拟合。

3.一种基于注意力机制的小样本细粒度学习方法，其特征在于，包括以下步骤：

4.根据权利要求3所述一种基于注意力机制的小样本细粒度学习方法，其特征在于，步骤(1)具体如下：