CN115019083A

CN115019083A - 基于少样本学习的词嵌入图神经网络的细粒度图分类方法

Info

Publication number: CN115019083A
Application number: CN202210513987.1A
Authority: CN
Inventors: 王玲; 朱超然; 韩成
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-09-06

Abstract

本发明公开了一种基于少样本学习的词嵌入图神经网络的细粒度图分类方法，其将类的语义信息嵌入到图神经网络(GNN)中，提出一个词嵌入分布传播图网络(WPGN)。本方法首先将注意力机制融合到主干网络中，然后使用马氏距离计算类间的相似度，再选择FReLU函数作为Transform层的激活函数，并更新点图和语义嵌入分布图。最后通过在FSL基准数据集上进行实验，实验结果表明本发明与原模型相比，在5‑way‑1/2/5shot任务上的精度分别提高了9.03、4.56和4.15％。

Description

基于少样本学习的词嵌入图神经网络的细粒度图分类方法

技术领域

本发明涉及图像分类技术领域，特别涉及一种基于少样本学习的词嵌入图神经网络的细粒度图分类方法。

背景技术

目前，大多数成功的深度学习架构都是基于大量的数据集。然而，在特殊的实际应用场景中，由于某些限制，可能只有少量的数据可以使用。因此，使用有限的数据来获取新类别的信息即少样本学习(FSL)，其使用少量标记样本来预测未标记样本。针对数据量不足的问题，FSL提出了多种方法。

元学习是FSL使用的主要方法之一。Model-Agnostic Meta-Learning (MAML)使用一个初始化参数，该参数只需要少数几个样本就能形成梯度下降，并在遇到新问题时获得良好的结果。但是由于MAML方法需要基于不同的任务调整参数，所以训练出来的模型容易产生过拟合；TAML是对MAML算法的改进，但该方法明确要求模型的参数在正则化过程中需要对不同的任务没有偏好；曼恩使用递归神经网络(RNN)来记忆先前任务的表示，虽然这种方法有助于学习新任务，但RNN权重的更新非常慢，这使得训练过程变得困难；R2-D2/LR-D2使用简单的可微回归方法来代替 k-最近邻(KNN)算法和卷积神经网络等方法；BeNet使用目标类的基本统计信息来计算均值和方差，从而提高训练集的性能；少样本数据集使用知识蒸馏进行正则化，通过增加蒸馏参数来提高模型的准确度。但是，如果测试集和训练集在分布上的差异很大时，模型的效果将会变差；TAFE-Net 使用元学习方法根据任务动态地选择权重，并使用权重分解方法进行计算。因为少样本数据集没有相应的类别描述信息，这使得元学习表示图像嵌入特征的能力受到影响，与其他算法相比，实验效果并不是很理想。

度量学习将图像映射到嵌入空间，在该空间，同类图像的距离较近，不同类图像的距离较远。Siamese神经网络限制了输入图像的结构，并且可以自动发现新样本的特征。但是该方法对两幅图像间的差异非常敏感，所以很容易导致分类错误；匹配网络构建一个端到端最近邻分类器，通过元学习训练模型，该分类器可以快速适应少样本的新任务。但是当标签分布具有明显的偏差时，模型会变得不可用；DeepEMD将一幅图像分割成多块，引入一种新的距离测量方法EMD，计算出查询集和支持集图像中每个图块之间的最佳匹配代价，来衡量两者间的相似度。通过引入多个类相关或任务相关信息的自适应边缘损失，利用不同类别之间的语义相似性生成自适应边缘，从而提高原算法的分类效果；CNAPS使用马氏距离来计算样本间的距离，这种方法很大程度上侧重于为现有样本划分最精确的类间间隔，而忽略了学习图像特征。

GNN是一个多层权重共享网络，由节点和边组成的图形模型。每个节点代表一个输入图像，每个边上的权重代表不同图像之间的关系，这种关系可以用来表示图像间的相似度。具有图神经网络的FSL算法将欧几里得空间的距离度量转移到非欧几里得空间，其核心思想与大多数神经网络的距离相同。它将标记图像的标签信息传送到查询集图像。EGNN在GNN方法的基础上，使用边标签预测代替节点标签预测，使用二维边缘特征来明确表达类别之间的相似性和差异，然而，样本的分布信息被忽略。

大多数基于元学习的GNN方法关注样本间的距离，分布传播图网络(DPGN)通过1对多的方式，显式地模拟从一个实例到所有其他实例的分布关系，进一步扩展了这一思想。DPGN提出了双图神经网络模型，该模型首先建立两个图之间的循环传播过程，然后将距离和分布情况的关系结合起来，为少样本分类创造一个更好的环境。但是 DPGN完全忽略了细粒度分类所需要的语义信息，因此，DPGN表现出较差的分类性能。

DAE提出了一种使用图神经网络去噪的自动编码器结构，利用节点之间的连接来执行重构和更新分类权重向量。但是，DAE完全忽略了图像的语义信息。TransMatch利用迁移学习和权重生成分类器权重，并使用MixUp方法进行半监督训练，证明了迁移学习在小样本场景下可以取得更好的效果。但是由于迁移学习的灵活性，准确率比FSL模型低。基于语义信息的分类方法使用目标标签信息作为先验知识来辅助目标分类。Multiple-Semantics利用多种语义信息丰富小样本学习的信息源，更接近人类学习新事物的情况；CADA-VAE提出了一种交叉和分布对齐的变分自动编码器，该编码器结合图像特征信息和语义信息来构建潜在特征，包含重要的多模型信息来推断不可见样本的分类。然而，获得准确语义信息的方法是限制这些方法应用的重要因素； Comp将图像表示分解成多个属性，并通过添加损失函数约束来提高特征提取网络的表示能力。

分类分级结构使用类别间的语义关系对特征提取网络进行附加监督，并引导其学习附加的可转移特征信息。这有助于KNN算法获得更准确的分类结果；少样本学习中的语义特征增强也使用语义信息来扩展数据，它编码特征数据映射到语义空间，然后通过解码增强信息来执行分类，结果优于图像级的数据增强；一种新的语义嵌入框架有效地使用分层分类结构来指导网络特征学习，编码分层类别之间的相关性，并在细粒度图像分类上获得更好的性能。然而，该框架需要手工标注数据集，由于手工标注繁琐耗时，影响了其实际应用性。

虽然通过自适应注意的少样本分类引入了通道注意力机制和空间注意机制来优化特征图。和其他方法相比该方法更简单有效，但它缺乏适应新任务的能力；

因此可以看出，现有的分类方法在对细粒度图像进行分类时存在分类准不准确，效率低的问题。比如说对图11中的特定珍稀鸟类进行分类的时候，图中共有7种珍稀鸟类，其中上半部分属于2种鹳类，下半部分属于5种鹤类，从图中可以看出，尽管这些鸟属于不同的类别，但它们之间的相似性非常高。如果不是专业的鸟类学家，普通人很难区分这7种鸟类。一般来说，与常见的图像分类问题相比，细粒度分类面临的图像具有更相似的外观特征。此外，细粒度图像数据集中存在姿态、光照、视角、遮挡、背景等干扰因素，导致类间差异小、类内差异大的特点，使用普通的分类方法很难对细粒度图像进行精准的分类。

发明内容

针对上述存在的问题，本发明提出了一种新的FSL模型，将语义嵌入分布图合并到GNN中，通过循环计算方法来完成细粒度少样本分类任务。

为了实现上述目的，本发明所采用的技术方案如下：

基于少样本学习的词嵌入图神经网络的细粒度图分类方法，其特征在于，包括以下步骤：

步骤1：获取待分类的细粒度图像数据集；

步骤2：构建词嵌入分布传播图网络，先通过ECAResNet-12网络提取待分类细粒度图像数据集中的图像特征并将该图像特征和图像类别名称输入词嵌入分布传播图网络；

步骤3：利用词嵌入分布传播图网络对待分类图像进行分类；

步骤4：输出分类结果。

进一步地，步骤2构建的词嵌入分布传播图网络分成多层，共有L层，每一层均包含一个基于GNN的点图和一个词嵌入分布图；

点图，基于ECAResNet-12提取的图像特征信息生成，点图中的节点用于表示每个图像样本实例在样本空间中的位置；

词嵌入分布图，基于语义信息生成，词嵌入分布图中的节点用于表示每个图像样本实例通过语义信息嵌入的实例。

进一步地，所述ECAResNet-12网络包括依次连接的一个卷积层、 ReLU激活函数、两个残差块、ECA注意力层、两个残差块、一个平均池化层、一个最大池化层的残差层和一个全连接层残差连接，所述ECA注意力层引入了ECA注意机制，其包括一个平均池化层、一个卷积层以及一个Sigmoid激活函数。

进一步地，步骤3所述通过词嵌入分布传播图网络进行分类的步骤包括：

步骤31：根据ECAResNet-12提取的图像特征作为第0层点图的初始化信息，点图中的节点i的表达式为：

其中，g_i表示每个图像样本实例，f_extract()表示用于图像提取的骨干网；

步骤32：根据输入的图像类别名称，利用Glove词嵌入模型嵌入每个类的词向量，初始化第0层词嵌入分布图，词嵌入分布图中节点i的初始值为：

其中，label_c表示类c的标签；

步骤33：更新点图和词嵌入分布图节点，并将点图和词嵌入分布图合并，循环计算生成每一层的点图和词嵌入分布图；

步骤34：根据最后一层的词嵌入分布图中待分类的图像与支持集中图像的距离远近来预测图像的分类，与支持集中图像中的距离越近则属于该分类。

进一步地，步骤33的具体操作步骤包括：

步骤331：计算第0层点图的边

和词嵌入分布图的边

步骤332：用

更新节点

依据更新后的

计算

的计算公式为：

其中，M表示马氏距离，

和

表示第l层点图中节点i和j；

其中，当l等于零，

等于1，f_w表示由WordNet模型计算出的相似度，且

步骤333：使用马氏距离计算点图中节点之间的距离，通过距离大小判断查询集的节点与未分类图像之间的相似度，并将该点图传播到一个词嵌入分布图中，马氏距离的计算公式为：

其中，τ表示特定的任务，

表示任务τ中图像和类之间协方差矩阵的估计值，且：

其中，N表示任务τ中类的数目，

表示任务τ和任务τ中的类c和图像之间协方差矩阵的真值，Q^τ表示任务τ中所有类和图像之间协方差矩阵的真值；

步骤334：根据

计算得出第一层的点图和词嵌入分布图，合并生成的点图和词嵌入分布图，从第2层开始重复执行步骤332-333直至达到第l 层，最终生成第2层到l层的点图和词嵌入分布图。

进一步地，步骤332的点图节点

更新是通过每一层中的Transform 层实现的，点图中的Transform层包括Conv层、BatchNorm层和FReLU 激活函数，且更新公式为：

其中，f_conv2d()表示卷积操作，f_BN()表示批规范化操作，

表示下一层的节点，f_FR表示FReLU激活函数。

进一步地，步骤333所述点图传播到词嵌入分布图的节点更新公式为：

其中，||是级联运算符，它用于标量

聚合成向量。

进一步地，通过FReLU将点图和词嵌入分布图进行合并，且FReLU 的计算公式为：

f_FR(x)＝Max(x,T(x)) (16)

其中，T(x)表示简单高效的空间上下文特征提取器；

T(x)的定义为：

T(x)＝f_BN(f_conv2d(x)) (17)。

进一步地，采用Softmax函数作为分类函数，结合点图损失和词嵌入分布图损失作为词嵌入分布传播图网络的损失值，总损失的计算公式为：

其中，λ为权重取值为0.9，

表示l层点图损失，

表示l层词嵌入分布图损失；

并且：

其中，L_CE为交叉熵损失函数，P(y_i|x_i)表示最可能的类，x_i表示给定的样本，y_i表示支持集中第i个样本；

其中，P_w(y_i|x_i)表示最可能的类，给定的样本x_i属于词嵌入分布图。

进一步地，所述ECA注意力层的通道数设置为128。

本发明的有益效果是：

第一，本发明提出词嵌入分布传播图网络(WPGN)，其使用Glove模型提取类别的标签信息作为词向量，并利用WordNet模型衡量类分布的相似性，将类语义信息嵌入到GNN中，即WPGN利用语义嵌入分布图，从而解决了细粒度图像特征相似性带来的分类准确率低的问题；

第二，本发明使用FReLU函数代替GNN的ReLU激活函数。 FReLU函数更适合处理视觉任务，能够进一步提高分类准确率。另外，本发明使用马氏距离代替欧氏距离来计算样本之间的距离，具有更好的分类性能；

第三，本发明将ECA通道注意力和主干网络ResNet-12进行结合得到ECAResNet-12，ECAResNet-12在不降低通道维数的情况下，可以更好地提取图的特征，进一步提高GNN的分类性能。

附图说明

图1为本发明所提词嵌入分布传播图网络WPGN的结构图；

图2为少样本任务和传统图像分类任务；

图3为ECAResNet-12网络的结构图；

图4为WPGN的循环计算过程；

图5为WPGN中W2P策略和P2W策略的过程图；

图6为6CUB-200-2011数据集中4种不同类别的鸟类图；

图7为不同层数对分类精度的影响；

图8为WPGN中不同层数对分类精度的影响；

图9为MiniImagenet和CIFAR-FS的实验结果；

图10a、图10b为WPGN和DPGN的损失收敛曲线以及测试精度曲线；

图11为特定珍稀鸟类细粒度图像。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

一、问题定义

FSL任务的目标是在只给出少量样本的情况下，训练出一个用于分类的模型，可以对未训练过类别的图像进行分类。少样本任务提供了一个支持集用S来表示，一个查询集用Q来表示和训练图像数据集用D_train表示。每个任务包含N个类，每个类有K个样本，这表

二、特征提取

图像包含前景和背景，特征提取的好坏将直接影响GNN的分类效果。现有的ResNet-12网络中，图像的不同区域特征被平等对待。但是在分类任务中，应该更关注前景而忽略背景。故而本发明在ResNet-12网络中增加了通道注意机制ECA-Net，形成ECAResNet-12网络，ECAResNet-12 网络能够突出前景，进一步提高特征提取的质量。其结构如附图3所示， ECAResNet-12网络结构从输入到输出的构成为：一个卷积层、ReLU激活函数、两个残差块(一个卷积层、一个归一化层、ReLU激活函数)、ECA 注意力层、两个残差块、一个平均池化层、一个最大池化层的残差层和一个全连接层残差连接，在ECA注意力层加入ECA注意机制。在 ECAResNet-12网络中，随着通道数的增加，特征图的分辨率会降低。在通道注意力学习过程中，如果分辨率或者通道数过低都会导致图像提取质量下降。因此，设置ECA注意力层的通道数为128。

三、词嵌入分布传播图网络(WPGN)

如附图1所示，WPGN由L层组成，每层包含一个基于GNN的点图和一个词嵌入分布图。其采用ECAResnet-12骨干网进行特征提取。

WPGN的工作原理为：首先使用骨干神经网络ECAResnet-12提取一幅图像特征作为点图的初始化信息。其次，根据图像对应的类名，利用 Glove模型嵌入每个类的词向量，提供词嵌入分布图的初始信息。再次，将点图和词嵌入分布图合并，更新节点在点图中的位置，循环计算生成每一层的点图和词嵌入分布图。最后，根据点图中节点之间的距离判断查询集与支持集之间的相似程度，从而对查询集的图像进行分类。

(1)点图

根据提取的图像特征信息生成点图。点图表示每个图像样本实例在样本空间中的位置，点图P中的第0层的节点i初始化公式为：

其中，g_i表示每个图像样本实例，f_extract()表示用于图像提取的骨干网。

利用点图中的

边特征表示图像特征相似度，其计算公式为：

其中，

和

表示第l层点图中节点i和j，

为节点i和j之间的边特征；当l等于零，

等于1时，M表示马氏距离。

马氏距离的计算公式为：

其中，i，j表示节点的编号，τ表示特定的任务，

表示任务τ中图像和类之间协方差矩阵的估计值，且：

其中，N表示任务τ中类的数目，

表示任务τ和任务τ中的类c和图像之间协方差矩阵的真值，Q^τ表示任务τ中所有类和图像之间协方差矩阵的真值，且

为：

其中，μ_c表示特征嵌入矩阵的均值，f_extract()表示任务τ中c类支持集图像的个数；

权重

为：

其中，K表示支持集中图像的个数。

在现有的GNN网络中，重点在于使用嵌入信息的方法以及度量的选择。现有的度量选择基于两个不切实际的假设：1、特征维度不相关；2、存在一致的协方差。但是马氏距离认为不同类型的图像可以有不同的协方差，而这些图像的分布，更接近真实的情况。马氏距离可以处理高维线性分布数据中各维度间的非独立同分布问题。由于FSL任务中数据量较小，因此考虑不同类别图像协方差的差异非常重要。

故而本发明采用马氏距离来计算样本间的距离。为了验证马氏距离的有效性，通过改变相似度计算的度量方法，对CUB200-2011数据集的分类结果进行比较。实验结果如表1所示。

表1实验结果

如表1所示，曼哈顿距离(Manhattan)精度最低。马氏距离 (Mahalanobis)与曼哈顿距离和欧氏距离(Euclidean)相比具有优势，适合用于计算WPGN中类的相似度。

(2)词嵌入分布图

与点图类似，词嵌入分布图是基于语义信息生成的。其采用Glove词嵌入模型对训练中的对象标签进行矢量化。并采用WordNet计算节点间的相似度。

Glove模型的词向量可以加减，例如：

f_g(King)-f_g(Man)+f_g(woman)＝f_g(Queen) (8)

其中，f_g()表示Glove模型训练的词向量。

词向量的加减便于词向量在全样本空间中创建和生成。有利于在全样本空间中扩大类之间的距离，从而提高分类性能。

词嵌入分布图中的节点

表示每个图像g_i通过语义信息嵌入的实例，初始值

如下：

其中，label_c表示类c的标签。

词嵌入分布图w中边特征

中的每条边代表不同样本的语义分布特征之间的相似性，计算公式为：

当l等于零，

等于1，当

等于1，E边特征最大值为1，随着层数迭代，第l-1层边特征如果降低例如接近0，第l层边特征也会接近0，因此为防止

多次迭代

后消失，将层数设置为5层，以避免

消失。

式(10)中的f_w表示由WordNet模型计算出的相似度，计算公式为：

其中，x_min，y_min，m_min表示WordNet中词语集合树中的最小深度数量，其计算公式为：

其中，x，y代表类别标签，参数m表示最低公共上位词集，计算公式为：

m＝Low_hy(x,y) (13)

(3)循环计算

点图的位置表示不同实例在样本空间的分布情况。在WPGN初始化后，该模型将进行循环计算并结合词嵌入学习图像特征并预测图像的分类。其循环计算流程如图4所示，具体为：

首先初始化经过特征提取后的第0层、点图

和词嵌入分布图的节点

然后计算点图的边

和词嵌入分布图的边

再次，用

更新节点

并计算

待

计算完成后，通过距离来判断查询集的节点与图4 中表示未分类图像的节点4相似的点图，并将该点图传播到一个词嵌入分布图中；最后根据

进行计算得出第1层的点图和词嵌入分布图，从第2 层重复如上所述的计算，直到达到第l层。

用

更新点图节点

的过程如附图5左图所示。点图在 Transform层中进行调整，该Transform层由Conv层、BatchNorm层和FReLU激活函数组成，它们反向传输信息。节点

调整策略W2P 如下：

其中，f_conv2d()表示卷积操作，f_BN()表示批规范化操作，

表示下一层的节点，f_FR表示FReLU激活函数。

词嵌入分布图的更新过程如图5右图所示。其也通过Transform 层进行调整，词嵌入分布图的Transform层包括全连接层和FReLU 激活函数，提供融合传递调整。本发明将无标签信息的查询集图像从点图传播到词嵌入分布图。节点调整策略P2W如下：

其中，||是级联运算符，它用于标量

聚合成向量。

本发明所用的FReLU是一种简单有效的激活函数，适合处理视觉任务。它通过增加可忽略的空间条件开销来改善ReLU。FReLU比ReLU更适合于GNN。因此本发明使用FReLU对W2P和P2W的特征进行合并，以同样的方式WPGN得到下一层的点图和词嵌入分布图。根据最后一层的词嵌入分布图中等待分类的图像和支持集中图像的距离大小作为分类根据，若一张图片假设在最后一层的词嵌入分布图中，距离蜂鸟类别的支持集图像最近，即被分为蜂鸟类。

FReLU的计算如下：

f_FR(x)＝Max(x,T(x)) (16)

其中，T(x)表示简单高效的空间上下文特征提取器。

T(x)的定义为：

T(x)＝f_BN(f_conv2d(x)) (17)

表2为使用FReLU作为激活函数的效果，可以看出，FReLU与 LeakyReLU相比，精度有一定程度的提高。从ReLU到最新FReLU，WPGN 的精度提高了1.83％。

表2

(4)损失函数

本发明采用Softmax函数作为函数作为分类函数，结合点图损失和词嵌入分布图损失作为WPGN的损失值。点图中每个节点的预测过程为：

其中，P(y_i|x_i)表示最可能的类；x_i表示给定的样本，其属于点图；标签y_i表示支持集中第i个样本。

损失函数的计算步骤包括：

1、计算点图损失：

其中，

表示L层点图的损失，L_CE为交叉熵损失函数。

2、计算词嵌入分布图的损失：

词嵌入分布图中每个节点的预测过程：

那么，l层词嵌入分布图的损失为：

3、计算模型损失：

引入权重λ计算总损失，计算公式为：

当λ取不同值时，分类精度如表3所示。

表3分类精度

从表3可以看出，可以看出，随着λ值的增大，分类精度逐渐提高。当λ为0.9时，可以得到最高的准确率，大于0.9时，分类准确率开始下降。WPGN在λ为0.9时得到最小损失值。因此，本发明将λ设置为0.9。

实施例

为了进一步说明本发明的效果，分别在三类标准数据集中进行对比实验。

1、实验环境

实验环境配置如表4所示，选取三类标准数据集：MiniImageNet、CUB -200-2011和CIFAR-FS。每个数据集的图像、类、训练/验证/测试集划分和图像分辨率的详细信息如表5所示。

表4软硬件环境

表5数据集详细信息

如附图6所示，CUB-200-2011数据集中4种不同类别鸟类的图像特征相似，更难区分。

2、实验设置

WPGN采用循环计算构建网络结构，包括点图和词嵌入分布图。对偶图之间的相互更新是WPGN的最大特点。因此，WPGN的总层数影响最终的分类结果。为了找到最适合网络结构的层数，在CUB-200-2011数据集上通过改变层数对WPGN进行训练，获得每个训练模型的分类精度。实验结果如图7所示。

从图7中可以看出，横坐标表示层数，0表示没有循环计算，1表示一个循环计算。当层数从0增加到5时，分类精度提高了近17％。不管怎样，当层数大于5时，分类精度的增长趋于平缓，略有振荡。因此，选择5作为WPGN的最终层号，即其包括0-5层，总共6层。

为了更直观地显示不同层数对WPGN分类精度的影响，实验选取了标记类[1,2,3,4,5]，用热力图(附图8)来显示分类精度随层数增加的变化。

颜色较浅的部分表示置信度较高。图8(a)没有使用循环进行计算；因此，分类精度较低，导致预测模糊，预测错误标签的可能性较大。图8(b) –(d)分别说明随着层数的增加，WPGN效果更好，误分类的情况更少。

图8(e)有5层，除地面真实位置外，其他部分颜色较深，意味着准确预测的概率远高于预测误差。在WPGN中得到的参数设置如表6所示。

表6参数设置

3、评价标准

本发明采用分类精度作为评价标准，精度越高，则WPGN的性能越好，随机选取n＝10000个任务，公布了平均准确率和95％置信区间。精度计算公式如下：

其中，Acc_i表示分类精度。

4、实验结果

本发明采用ConvNet、RestNet-12和ECAResNet-12作为特征牵引的骨干网进行对比，共3个任务：5-way-1shot/2shot/5shot。在。在CUB-200 -2011数据集上的实验结果如表7所示。

表7 CUB-200-2011数据集上的实验结果

从表7中可以看出，WPGN在3个骨干网和3个任务下的分类精度均高于其他方法。当特征提取骨干网为ECAResNet-12，任务为5-way-1shot、 5-way-2shot和5-way-5shot时，WPGN的准确率比DPGN分别提高了近 9.0、4.5和4.1％。在5-way-2shot任务下，WPGN的准确性比DPGN在 5-way-5shot下的准确性高约2％。实验结果证明，我们的WPGN在fi-ne 粒度分类中是稳健的。

在MiniImagenet和CIFAR-FS数据集上的实验结果如图9所示。其中 DPGN Conv表示特征提取骨干网为DPGN上的ConvNet，WPGN ResNet 表示特征提取骨干网为WPGN上的ResNet-12，WPGN ECARes表示特征提取骨干网WPGN上的ECAResNet-12。从图9可以看出，在MiniImagenet 数据集和CIFAR-FS数据集上，WPGN在三种任务上的分类准确率均高于DPGN。此外，当特征提取骨干网采用ECAResNet-12时，其分类效果优于ConvNet和ResNet-12。实验表明，WPGN在具有较少混淆特征的数据集上表现较好。CIFAR-FS数据集的精度低于MiniImagenet数据集，因为其背景对分类精度的影响要小得多。而且，与DPGN相比，由于精度的提高，本发明的计算开销更小。

表8训练时间比较结果

第二，与训练轮数相比，如图10a所示，WPGN的损失收敛速度明显快于DPGN，说明WPGN在总训练时间上更优。且从实验中可以看出 WPGN在12000轮次内收敛。因此，本发明降低了进一步优化的学习率。 DPGN需要至少15,000轮次才能收敛，降低了学习速度。本发明尝试在 12000轮次下降低DPGN的学习率，但实验结果表明DPGN的准确率仅降低了约2％。图10b显示，与DPGN相比，WPGN收敛速度更快，测试精度显著提高。

由于WPGN模型在计算开销和精度方面由于DPGN模型，验证了本发明在实际应用中具有推广前景。

5、消融实验

在CUB-200-2011数据集和CIFAR-FS数据集上进行5-way-1shot任务的消融实验结果如表9所示。

表9 CUB-200-2011和CIFAR–FS上的消融实验结果

从表9中可以看出，在WPGN中加入词嵌入分布图后，两个数据集的分类准确率分别提高了7.23和2.1％。在相似度计算方法中采用马氏距离，分类精度提高了0.4％。激活FReLU函数也提高了模型的分类精度，最后，通过将ECA注意模块集成到ResNet-12中，使得模型精度提高了 1.2％。从实验结果可以看出，对于这两个数据集，本发明能够有效提高模型的分类精度。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于少样本学习的词嵌入图神经网络的细粒度图分类方法，其特征在于，包括以下步骤：

步骤1：获取待分类的细粒度图像数据集；

步骤3：利用词嵌入分布传播图网络对待分类图像进行分类；

步骤4：输出分类结果。

2.如权利要求1所述的基于少样本学习的词嵌入图神经网络的细粒度图分类方法，其特征在于，步骤2构建的词嵌入分布传播图网络分成多层，共有L层，每一层均包含一个基于GNN的点图和一个词嵌入分布图；

3.如权利要求1所述的基于少样本学习的词嵌入图神经网络的细粒度图分类方法，其特征在于，所述ECAResNet-12网络包括依次连接的一个卷积层、ReLU激活函数、两个残差块、ECA注意力层、两个残差块、一个平均池化层、一个最大池化层的残差层和一个全连接层残差连接，所述ECA注意力层引入了ECA注意机制，其包括一个平均池化层、一个卷积层以及一个Sigmoid激活函数。

4.如权利要求2所述的基于少样本学习的词嵌入图神经网络的细粒度图分类方法，其特征在于，步骤3所述通过词嵌入分布传播图网络进行分类的步骤包括：