CN116824274A

CN116824274A - 小样本细粒度图像分类方法及系统

Info

Publication number: CN116824274A
Application number: CN202311083370.1A
Authority: CN
Inventors: 刘建明; 付超
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-09-29
Anticipated expiration: 2043-08-28
Also published as: CN116824274B

Abstract

本申请公开了小样本细粒度图像分类方法及系统，方法包括如下步骤：获取已识别的多个类别的支持集图像和待识别的查询集图像；构建小样本细粒度图像分类模型，输入构建的小样本细粒度图像分类模型进行处理，获取图像分类结果，其具体包括以下步骤：将支持集图像和查询集图像输入骨干网络中，获取支持集特征图和查询集特征图；将查询集特征图输入查询集自重构模块，获取重构后的查询集特征；将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中，获取语义关系特征映射；将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类，获取分类结果。本申请提供的小样本细粒度图像分类方法，分类更准确，图像识别速度更高。

Description

小样本细粒度图像分类方法及系统

技术领域

本申请涉及图像分类技术领域，具体是涉及小样本细粒度图像分类方法及系统。

背景技术

细粒度图像分类(FGVC)就是对属于相同类别的不同子类的图像进行分类，比如说对各种汽车、各种鸟类、各种狗类进行分类，区分一个子类和另一个子类的特征通常都是细微的和局部的，这就使得细粒度图像分类比传统的图像分类更加具有挑战性。大多数的细粒度图像分类方法都需要大量的训练数据来学习到非常有鲁棒性的分类器，但是在细粒度图像中需要标注各种鸟类或汽车类，这就可能需要专家来处理。此外很多细粒度方法要标注边界框，通过这样的形式会带来巨大的成本。针对一些濒危的和稀有的物种，人工去收集它们的数据集非常的困难，因此在数据集非常有限的情况下去识别细粒度图像是一个具有实际应用价值的问题。

针对小样本学习的问题，已经提出了很多的方法，这些方法大致可分为3大类：基于度量的方法、基于优化的方法以及基于增强的方法。受到元学习快速发展的启发，研究人员开始探索小样本学习模型在新的细粒度子类上的泛化能力。

目前的对于小样本细粒度图像分类的方法存在一些不足之处：

(1)基于单向重构的方法只能增加细粒度图像的类间的方差，而不能减小类内的方差；

(2)基于注意力机制对小样本细粒度图像分类的方法，如Few Shot-GAN及其改进方法等，在此任务上表现不佳。

发明内容

本申请的目的是为了克服上述背景技术的不足，提供一种小样本细粒度图像分类方法及系统。

第一方面，提供小样本细粒度图像分类方法，包括以下步骤：

获取已识别的多个类别的支持集图像和待识别的查询集图像；

构建小样本细粒度图像分类模型，将获取的已识别多个类别的支持集图像和待识别的查询集图像输入构建的小样本细粒度图像分类模型进行处理，获取图像分类结果，具体包括以下步骤：

将支持集图像和查询集图像输入骨干网络中，获取支持集特征图和查询集特征图；

将查询集特征图输入查询集自重构模块，获取重构后的查询集特征；

将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中，获取查询集和支持集的语义关系特征映射；

将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类，获取待识别的查询集图像的小样本细粒度图像分类结果。

根据第一方面，在第一方面的第一种实现方式中，所述将获取的已识别多个类别的支持集图像和待识别的查询集图像输入构建的小样本细粒度图像分类模型进行处理，获取图像分类结果步骤之前，还包括以下步骤：

将获取的已识别多个类别的支持集图像和待识别的查询集图像，划分为训练集、验证集和测试集；

使用训练集训练构建的小样本细粒度图像分类模型，并经验证集验证，获取训练优化后的小样本细粒度图像分类模型；

将测试集输入训练优化后的小样本细粒度图像分类模型进行测试，获取测试通过的小样本细粒度图像分类模型。

根据第一方面，在第一方面的第二种实现方式中，所述将支持集图像和查询集图像输入骨干网络中，获取支持集特征图和查询集特征图步骤，具体包括以下步骤：

将支持集图像和查询集图像输入骨干网络中，采用ResNet-12或Conv-4作为特征提取器获取支持集特征图和查询集特征图。

根据第一方面，在第一方面的第三种实现方式中，所述将查询集特征图输入查询集自重构模块，获取重构后的查询集特征步骤，具体包括以下步骤：

将获取的查询集特征图在空间维度上划分为多个局部特征，获取查询集特征图块；

将获取的查询集特征图块作为transformer的输入序列中并遵循vit（VisionTransformer视觉深度神经网络），Transformer是基于自注意力机制(self-attentionmechanism)的深度神经网络，提取查询集特征图的图块层面空间结构信息；

根据提取的查询集特征图的图块层面空间结构信息，获取注意力权重最高的图块作为查询集特征图的最具有区分性的图块；

将获取的查询集特征图的最具有区分性的图块通过两层图卷积获取重构后的查询集特征。

根据第一方面，在第一方面的第四种实现方式中，所述将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中，获取查询集语义关系特征映射步骤，具体包括以下步骤:

将支持集的特征图的Q向量和重构的查询集的k向量相乘，获取相乘的结果；

将相乘的结果与查询集的特征图的V向量通过softmax操作进行处理，获取查询集和支持集的语义关系特征映射。

根据第一方面，在第一方面的第五种实现方式中，所述将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类，获取待识别的查询集图像的小样本细粒度图像分类结果步骤，具体包括以下步骤：

将查询集的语义关系映射与最原始的支持集特征映射通过分类模块进行分类，计算获取查询集和支持集的相似度；

根据获取的相似度对待识别的查询集图像进行分类，获取待识别的查询集图像的小样本细粒度图像分类结果。

根据第一方面，在第一方面的第六种实现方式中，所述获取已识别的多个类别的支持集图像和待识别的查询集图像步骤，具体包括以下步骤：

获取多个基准细粒度数据集；

将获取的多个基准细粒度数据集中的图片进行大小重新统一设置，获取尺寸大小一致的已识别的多个类别的支持集图像和待识别的查询集图像。

第二方面，本申请提供了一种小样本细粒度图像分类系统，包括：

模型输入图像获取模块，用于获取已识别的多个类别的支持集图像和待识别的查询集图像；

图像特征获取模块，与所述模型输入图像获取模块通信连接，用于将支持集图像和查询集图像输入骨干网络中，获取支持集特征图和查询集特征图；

特征自重构模块，与所述图像特征获取模块通信连接，用于将查询集特征图输入查询集自重构模块，获取重构后的查询集特征；

关系特征映射获取模块，与所述特征自重构模块通信连接，用于将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中，获取查询集和支持集的语义关系特征映射；

分类结果获取模块，与所述关系特征映射获取模块通信连接，将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类，获取待识别的查询集图像的小样本细粒度图像分类结果。

根据第二方面，在第二方面的第一种实现方式中，本申请提供的一种小样本细粒度图像分类系统还包括：

划分模块，与所述模型输入图像获取模块通信连接，用于将获取的已识别多个类别的支持集图像和待识别的查询集图像，划分为训练集、验证集和测试集；

训练模块，与所述划分模块和模型构建模块通信连接，用于使用训练集训练构建的小样本细粒度图像分类模型，并经验证集验证，获取训练优化后的小样本细粒度图像分类模型；

测试模块，与所述训练模块和所述划分模块通信连接，用于将测试集输入训练优化后的小样本细粒度图像分类模型进行测试，获取测试通过的小样本细粒度图像分类模型。

根据第二方面，在第二方面的第二种实现方式中，所述图像特征获取模块采用ResNet-12或Conv-4作为特征提取器获取支持集特征图和查询集特征图。

与现有技术相比，本申请的优点如下：

本申请提供的小样本细粒度图像分类方法，在数据集有限的情况下实现对图像高效和准确分类。

附图说明

图1为本申请提供的小样本细粒度图像分类方法的方法流程图；

图2为本申请提供的小样本细粒度图像分类的结构流程图；

图 3 为本申请提供的包含查询集自重构的总体流程图；

图4为本申请提供的构建对象结构信息特征的流程图；

图5为本申请提供的交叉注意力模块的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，更清楚地了解本申请的目的、技术方案及其优点，以下结合具体实施例并参照附图对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。除此，本申请的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中，大多数的细粒度图像分类方法都需要大量的训练数据来学习到非常有鲁棒性的分类器，针对一些濒危的和稀有的物种，人工去收集它们的数据集非常的困难，现有的细粒度图像分类方法，在样本量有限的情况下，图像分类准确性不高。

如图1-图2所示，本申请实施例提供一种小样本细粒度图像分类方法，包括以下步骤：

步骤S1、获取已识别的多个类别的支持集图像和待识别的查询集图像；

步骤S2、构建小样本细粒度图像分类模型，将获取的已识别多个类别的支持集图像和待识别的查询集图像输入构建的小样本细粒度图像分类模型进行处理，获取图像分类结果，具体包括以下步骤：

步骤S21、将支持集图像和查询集图像输入骨干网络中，获取支持集特征图和查询集特征图；

步骤S22、将查询集特征图输入查询集自重构模块，获取重构后的查询集特征；

步骤S23、将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中，获取查询集和支持集的语义关系特征映射；

步骤S24、将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类，获取待识别的查询集图像的小样本细粒度图像分类结果。

本申请提供的小样本细粒度图像分类方法，通过构建小样本细粒度图像分类模型，实现对样本量有限的图像的分类识别，相比于传统的Few Shot-GCN及其改进，在小样本细粒度图像分类任务上准确度提升很大；

本申请提供的小样本细粒度图像分类的模型，容易理解，能够加快小样本细粒度图像识别的速度。

在一实施例中，所述步骤S1、获取已识别的多个类别的支持集图像和待识别的查询集图像步骤，具体包括以下步骤：

步骤S11、获取多个基准细粒度数据集，较具体地，为了评估模型的性能，选用3个基准的细粒度数据集，CUB-200-2011、Stanford Dogs、Stanford Cars数据集，CUB-200-2011数据集中包含200个不同鸟类共11788张鸟的图片,Stanford Dogs数据集包含120种不同狗类共20580张狗的图片，Stanford Cars数据集包含196种不同汽车类共16185张汽车的图片；较具体地，首先对数据进行预处理，比如对CUB-200-2011数据集，将该数据集划分为100类用于训练，50类用于验证，50类用于测试；

步骤S12、将获取的多个基准细粒度数据集中的图片进行大小重新统一设置，获取尺寸大小一致的已识别的多个类别的支持集图像和待识别的查询集图像，较具体地，把数据集中的所有图片都resize为84乘以84；

在一实施例中，所述将获取的已识别多个类别的支持集图像和待识别的查询集图像输入构建的小样本细粒度图像分类模型进行处理，获取图像分类结果步骤之前，还包括以下步骤：

步骤SA1、将获取的已识别多个类别的支持集图像和待识别的查询集图像，划分为训练集、验证集和测试集；

步骤SA2、使用训练集训练构建的小样本细粒度图像分类模型，并经验证集验证，获取训练优化后的小样本细粒度图像分类模型；

步骤SA3、将测试集输入训练优化后的小样本细粒度图像分类模型进行测试，获取测试通过的小样本细粒度图像分类模型。

本申请提供的小样本细粒度图像分类方法，通过构建、训练和测试，提升构建的小样本细粒度图像分类模型鲁棒性，有效提升该模型的分类准确性。

在一较具体实施例中，将选用的3个基准的细粒度数据集，CUB-200-2011、Stanford Dogs、Stanford Cars数据集分别划分训练集、验证集和测试集如表1所示：

表1 CUB-200-2011、Stanford Dogs、Stanford Cars数据集划分表

模型训练的参数设置如下：

a、选用restnet-12或conv-4作为骨干网络；

b、使用SGD训练选择restnet-12或Conv-4作为骨干网络的小样本细粒度图像分类模型；

c、epochs为1200，最开始时把学习率设置为0.1，权重参数设置为5e-4,每400个epoch后学习率降低到原来的十分之一。

d、当选择conv-4作为骨干网络，训练所提出的模型时使用30-way 5-shotepisodes,当选择resnet-12作为骨干网络，训练所提出的模型时使用15-way 5-shotepisodes;

e、在两种设置中待识别的查询集的图像都采样15张；

f、测试的时候选择5-way 1-shot和5-way 5-shot；

g、训练的时候使用标准的数据增强的方法为随机裁剪、水平翻转、颜色抖动；

h、训练使用的GPU为NVIDIA 3090Ti GPUs via Pytorch。

在一实施例中，所述步骤S21、将支持集图像和查询集图像输入骨干网络中，获取支持集特征图和查询集特征图步骤，具体包括以下步骤：

在一实施例中，如图3和图4所示，所述步骤S22、将查询集特征图输入查询集自重构模块，获取重构后的查询集特征步骤，具体包括以下步骤：

步骤S221、将获取的查询集特征图在空间维度上划分为r个局部特征，获取查询集特征图块；

步骤S222、将获取的查询集特征图块作为transformer的输入序列中并遵循vit，提取查询集特征图的图块层面空间结构信息；

步骤S223、根据提取的查询集特征图的图块层面空间结构信息，获取注意力权重最高的图块作为查询集特征图的最具有区分性的图块；

步骤S224、将获取的查询集特征图的最具有区分性的图块通过两层图卷积获取重构后的查询集特征。

在vision transformer中，通过自注意力机制可以很好地全局接受野，也就是全局的上下文信息，这种方法针对传统的分类任务可以获得较好的效果，但是对于细粒度图像的分类效果并不理想。由于细粒度图像间的差异往往只在局部的区域，visiontransformer忽略了patch（图块）之间的空间关系，因此在细粒度图像分类任务中找到最具有区分性的patch非常重要，本申请创造性地提出了查询集的特征自重构模块，将图像的空间结构信息结合到了transformer中，使用了图卷积神经网络来获得图像的空间结构信息。

在一实施例中，所述步骤S22、将查询集特征图输入查询集自重构模块，获取重构后的查询集特征步骤，具体包括以下步骤：

通过特征提取器得到查询集的feture maps（特征图），在空间维度上reshape为r个局部特征，把图像的patch作为transformer的输入序列，遵循vit。图卷积的核心思想就是提取图像的patch层面空间结构信息。本申请用的查询集的特征自重构模块就是基于结构信息和transformer相结合的方法，用到的公式可表示如下：

选择具有注意力权重最高的patch作为最具有区分性的patch，用来表示，，patch/>的极坐标公式如公式(1)和公式(2)所示，/>指的是/>与/>之间的相对距离，/>指的是/>相对于水平方向上的归一化极角。

公式(3)中的指的是基于节点/>上的边缘权重，采用图卷积法进一步提取结构信息，/>指的是通过两层图卷积得到的结构特征，如公式(4)所示。

公式(1)

公式(2)

公式(3)

公式(4)

式中，分别指的是输入图像使用滑动窗口划分后在垂直方向和水平方向上的斑块数，/>指的是/>与/>之间的相对距离，/>指的是/>相对于水平方向上的归一化极角，/>指的是基于节点/>上的边缘权重，/>指的是在图卷积神经网络中学习到的第一参数，/>指的是在图卷积神经网络中学习到的第二参数。

在一实施例中，人类在观察物体时，会注意到那些更重要的物体特征，设计模型时也应该让训练的网络模型注意到那些更重要的特征，注意力机制的核心思想就是让所设计的网络模型去关注图片更需要关注的地方，交叉注意力模块可以对类特征和查询集的特征之间的语义相关性进行建模，如图5所示，所述步骤S23、将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中，获取查询集语义关系特征映射步骤，具体包括以下步骤:

步骤S231、将支持集的特征图的Q向量和重构的查询集的k向量相乘，获取相乘的结果；

步骤S232、将相乘的结果与查询集的特征图的V向量通过softmax操作进行处理，获取查询集和支持集的语义关系特征映射，如公式(5)-公式(10)所示：

公式(5)

公式(6)

公式(7)

公式(8)

公式(9)

公式(10)

式中，指的是支持集特征图(Support feature maps)，/>指的是查询集特征图(Query feature maps)，/>,/>,/>分别指的是在支持集v、e、k分支上权重参数，/>,/>,指的是在查询集v、e、k分支上的权重参数，/>指的是支持集上的value向量,/>指的是支持集上的query向量，/>指的是支持集上的key向量,/>指的是查询集上的query向量，/>指的是查询集上的value向量,/>指的是查询集上的key向量，/>指的是查询集到支持集的注意力分数矩阵，/>指支持集到查询集的注意力分数矩阵。

在一实施例中，所述步骤S24、将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类，获取待识别的查询集图像的小样本细粒度图像分类结果步骤，具体包括以下步骤：

步骤S241、将查询集的语义关系映射与最原始的支持集特征映射通过分类模块进行分类，计算获取查询集和支持集的相似度；

步骤S242、根据获取的相似度对待识别的查询集图像进行分类，获取待识别的查询集图像的小样本细粒度图像分类结果。

基于同一发明构思，本申请还提供了小样本细粒度图像分类系统，包括模型输入图像获取模块、图像特征获取模块、特征自重构模块、关系特征映射获取模块和分类结果获取模块。模型输入图像获取模块用于获取已识别的多个类别的支持集图像和待识别的查询集图像；图像特征获取模块与所述模型输入图像获取模块通信连接，用于将支持集图像和查询集图像输入骨干网络中，获取支持集特征图和查询集特征图；特征自重构模块与所述图像特征获取模块通信连接，用于将查询集特征图输入查询集自重构模块，获取重构后的查询集特征；关系特征映射获取模块与所述特征自重构模块通信连接，用于将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中，获取查询集和支持集的语义关系特征映射；分类结果获取模块与所述关系特征映射获取模块通信连接，将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类，获取待识别的查询集图像的小样本细粒度图像分类结果。

在一实施例中，还包括：

在一实施例中，所述图像特征获取模块采用ResNet-12或Conv-4作为特征提取器获取支持集特征图和查询集特征图。

基于同一发明构思，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的所有方法步骤或部分方法步骤。

本申请实现上述方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

基于同一发明构思，本申请实施例还提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法中的所有方法步骤或部分方法步骤。

所称处理器可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（例如声音播放功能、图像播放功能等）；存储数据区可存储根据手机的使用所创建的数据（例如音频数据、视频数据等）。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、服务器或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、服务器和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种小样本细粒度图像分类方法，其特征在于，包括如下步骤：

构建小样本细粒度图像分类模型，将获取的已识别多个类别的支持集图像和待识别的查询集图像输入构建的小样本细粒度图像分类模型进行处理，获取图像分类结果，其具体包括以下步骤：

将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中，获取查询集语义关系特征映射；

2.如权利要求1所述的小样本细粒度图像分类方法，其特征在于，所述将获取的已识别多个类别的支持集图像和待识别的查询集图像输入构建的小样本细粒度图像分类模型进行处理，获取图像分类结果步骤之前，还包括以下步骤：

3.如权利要求1所述的小样本细粒度图像分类方法，其特征在于，所述将支持集图像和查询集图像输入骨干网络中，获取支持集特征图和查询集特征图步骤，具体包括以下步骤：

4.如权利要求1所述的小样本细粒度图像分类方法，其特征在于，所述将查询集特征图输入查询集自重构模块，获取重构后的查询集特征步骤，具体包括以下步骤：

将获取的查询集特征图块作为transformer的输入序列中并遵循视觉转换器里的操作，提取查询集特征图的图块层面空间结构信息；

将获取的查询集特征图的最具有区分性的图块通过两层图卷积神经网络获取重构后的查询集特征。

5.如权利要求1所述的小样本细粒度图像分类方法，其特征在于，所述将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中，获取查询集语义关系特征映射步骤，具体包括以下步骤:

将支持集的特征图的Query向量和重构的查询集的key向量相乘，获取相乘的结果；这里的Query向量和key向量分别指的是注意力机制里的查询向量和值向量；

将相乘的结果与查询集的特征图的Value向量通过softmax操作进行处理，获取查询集和支持集的语义关系特征映射。

6.如权利要求1所述的小样本细粒度图像分类方法，其特征在于，所述将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类，获取待识别的查询集图像的小样本细粒度图像分类结果步骤，具体包括以下步骤：

7.如权利要求1所述的小样本细粒度图像分类方法，其特征在于，所述获取已识别的多个类别的支持集图像和待识别的查询集图像步骤，具体包括以下步骤：

获取多个基准细粒度数据集；

8.一种小样本细粒度图像分类系统，其特征在于，包括：

9.如权利要求8所述的小样本细粒度图像分类系统，其特征在于，还包括：

10.如权利要求8所述的小样本细粒度图像分类系统，其特征在于，所述图像特征获取模块采用ResNet-12或Conv-4作为特征提取器获取支持集特征图和查询集特征图。