CN115019083A - 基于少样本学习的词嵌入图神经网络的细粒度图分类方法 - Google Patents

基于少样本学习的词嵌入图神经网络的细粒度图分类方法 Download PDF

Info

Publication number
CN115019083A
CN115019083A CN202210513987.1A CN202210513987A CN115019083A CN 115019083 A CN115019083 A CN 115019083A CN 202210513987 A CN202210513987 A CN 202210513987A CN 115019083 A CN115019083 A CN 115019083A
Authority
CN
China
Prior art keywords
layer
graph
word
diagram
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210513987.1A
Other languages
English (en)
Inventor
王玲
朱超然
韩成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN202210513987.1A priority Critical patent/CN115019083A/zh
Publication of CN115019083A publication Critical patent/CN115019083A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于少样本学习的词嵌入图神经网络的细粒度图分类方法,其将类的语义信息嵌入到图神经网络(GNN)中,提出一个词嵌入分布传播图网络(WPGN)。本方法首先将注意力机制融合到主干网络中,然后使用马氏距离计算类间的相似度,再选择FReLU函数作为Transform层的激活函数,并更新点图和语义嵌入分布图。最后通过在FSL基准数据集上进行实验,实验结果表明本发明与原模型相比,在5‑way‑1/2/5shot任务上的精度分别提高了9.03、4.56和4.15%。

Description

基于少样本学习的词嵌入图神经网络的细粒度图分类方法
技术领域
本发明涉及图像分类技术领域,特别涉及一种基于少样本学习的词嵌 入图神经网络的细粒度图分类方法。
背景技术
目前,大多数成功的深度学习架构都是基于大量的数据集。然而, 在特殊的实际应用场景中,由于某些限制,可能只有少量的数据可以使用。 因此,使用有限的数据来获取新类别的信息即少样本学习(FSL),其使用 少量标记样本来预测未标记样本。针对数据量不足的问题,FSL提出了多 种方法。
元学习是FSL使用的主要方法之一。Model-Agnostic Meta-Learning (MAML)使用一个初始化参数,该参数只需要少数几个样本就能形成梯度 下降,并在遇到新问题时获得良好的结果。但是由于MAML方法需要基 于不同的任务调整参数,所以训练出来的模型容易产生过拟合;TAML是 对MAML算法的改进,但该方法明确要求模型的参数在正则化过程中需要对不同的任务没有偏好;曼恩使用递归神经网络(RNN)来记忆先前任务 的表示,虽然这种方法有助于学习新任务,但RNN权重的更新非常慢, 这使得训练过程变得困难;R2-D2/LR-D2使用简单的可微回归方法来代替 k-最近邻(KNN)算法和卷积神经网络等方法;BeNet使用目标类的基本统 计信息来计算均值和方差,从而提高训练集的性能;少样本数据集使用知 识蒸馏进行正则化,通过增加蒸馏参数来提高模型的准确度。但是,如果 测试集和训练集在分布上的差异很大时,模型的效果将会变差;TAFE-Net 使用元学习方法根据任务动态地选择权重,并使用权重分解方法进行计 算。因为少样本数据集没有相应的类别描述信息,这使得元学习表示图像 嵌入特征的能力受到影响,与其他算法相比,实验效果并不是很理想。
度量学习将图像映射到嵌入空间,在该空间,同类图像的距离较近, 不同类图像的距离较远。Siamese神经网络限制了输入图像的结构,并且 可以自动发现新样本的特征。但是该方法对两幅图像间的差异非常敏感, 所以很容易导致分类错误;匹配网络构建一个端到端最近邻分类器,通过 元学习训练模型,该分类器可以快速适应少样本的新任务。但是当标签分 布具有明显的偏差时,模型会变得不可用;DeepEMD将一幅图像分割成 多块,引入一种新的距离测量方法EMD,计算出查询集和支持集图像中 每个图块之间的最佳匹配代价,来衡量两者间的相似度。通过引入多个类 相关或任务相关信息的自适应边缘损失,利用不同类别之间的语义相似性 生成自适应边缘,从而提高原算法的分类效果;CNAPS使用马氏距离来 计算样本间的距离,这种方法很大程度上侧重于为现有样本划分最精确的类间间隔,而忽略了学习图像特征。
GNN是一个多层权重共享网络,由节点和边组成的图形模型。每 个节点代表一个输入图像,每个边上的权重代表不同图像之间的关系, 这种关系可以用来表示图像间的相似度。具有图神经网络的FSL算法 将欧几里得空间的距离度量转移到非欧几里得空间,其核心思想与大 多数神经网络的距离相同。它将标记图像的标签信息传送到查询集图 像。EGNN在GNN方法的基础上,使用边标签预测代替节点标签预测, 使用二维边缘特征来明确表达类别之间的相似性和差异,然而,样本 的分布信息被忽略。
大多数基于元学习的GNN方法关注样本间的距离,分布传播图 网络(DPGN)通过1对多的方式,显式地模拟从一个实例到所有其他实 例的分布关系,进一步扩展了这一思想。DPGN提出了双图神经网络 模型,该模型首先建立两个图之间的循环传播过程,然后将距离和分 布情况的关系结合起来,为少样本分类创造一个更好的环境。但是 DPGN完全忽略了细粒度分类所需要的语义信息,因此,DPGN表现 出较差的分类性能。
DAE提出了一种使用图神经网络去噪的自动编码器结构,利用节 点之间的连接来执行重构和更新分类权重向量。但是,DAE完全忽略 了图像的语义信息。TransMatch利用迁移学习和权重生成分类器权重, 并使用MixUp方法进行半监督训练,证明了迁移学习在小样本场景下 可以取得更好的效果。但是由于迁移学习的灵活性,准确率比FSL模 型低。基于语义信息的分类方法使用目标标签信息作为先验知识来辅 助目标分类。Multiple-Semantics利用多种语义信息丰富小样本学习的 信息源,更接近人类学习新事物的情况;CADA-VAE提出了一种交叉 和分布对齐的变分自动编码器,该编码器结合图像特征信息和语义信 息来构建潜在特征,包含重要的多模型信息来推断不可见样本的分类。 然而,获得准确语义信息的方法是限制这些方法应用的重要因素; Comp将图像表示分解成多个属性,并通过添加损失函数约束来提高特 征提取网络的表示能力。
分类分级结构使用类别间的语义关系对特征提取网络进行附加监 督,并引导其学习附加的可转移特征信息。这有助于KNN算法获得 更准确的分类结果;少样本学习中的语义特征增强也使用语义信息来 扩展数据,它编码特征数据映射到语义空间,然后通过解码增强信息 来执行分类,结果优于图像级的数据增强;一种新的语义嵌入框架有 效地使用分层分类结构来指导网络特征学习,编码分层类别之间的相 关性,并在细粒度图像分类上获得更好的性能。然而,该框架需要手 工标注数据集,由于手工标注繁琐耗时,影响了其实际应用性。
虽然通过自适应注意的少样本分类引入了通道注意力机制和空间 注意机制来优化特征图。和其他方法相比该方法更简单有效,但它缺 乏适应新任务的能力;
因此可以看出,现有的分类方法在对细粒度图像进行分类时存在分 类准不准确,效率低的问题。比如说对图11中的特定珍稀鸟类进行分类 的时候,图中共有7种珍稀鸟类,其中上半部分属于2种鹳类,下半部分 属于5种鹤类,从图中可以看出,尽管这些鸟属于不同的类别,但它们之 间的相似性非常高。如果不是专业的鸟类学家,普通人很难区分这7种鸟 类。一般来说,与常见的图像分类问题相比,细粒度分类面临的图像具 有更相似的外观特征。此外,细粒度图像数据集中存在姿态、光照、视 角、遮挡、背景等干扰因素,导致类间差异小、类内差异大的特点,使 用普通的分类方法很难对细粒度图像进行精准的分类。
发明内容
针对上述存在的问题,本发明提出了一种新的FSL模型,将语义嵌入 分布图合并到GNN中,通过循环计算方法来完成细粒度少样本分类任务。
为了实现上述目的,本发明所采用的技术方案如下:
基于少样本学习的词嵌入图神经网络的细粒度图分类方法,其特征在 于,包括以下步骤:
步骤1:获取待分类的细粒度图像数据集;
步骤2:构建词嵌入分布传播图网络,先通过ECAResNet-12网络提 取待分类细粒度图像数据集中的图像特征并将该图像特征和图像类别名 称输入词嵌入分布传播图网络;
步骤3:利用词嵌入分布传播图网络对待分类图像进行分类;
步骤4:输出分类结果。
进一步地,步骤2构建的词嵌入分布传播图网络分成多层,共有L层, 每一层均包含一个基于GNN的点图和一个词嵌入分布图;
点图,基于ECAResNet-12提取的图像特征信息生成,点图中的节点 用于表示每个图像样本实例在样本空间中的位置;
词嵌入分布图,基于语义信息生成,词嵌入分布图中的节点用于表示 每个图像样本实例通过语义信息嵌入的实例。
进一步地,所述ECAResNet-12网络包括依次连接的一个卷积层、 ReLU激活函数、两个残差块、ECA注意力层、两个残差块、一个平均池 化层、一个最大池化层的残差层和一个全连接层残差连接,所述ECA注 意力层引入了ECA注意机制,其包括一个平均池化层、一个卷积层以及 一个Sigmoid激活函数。
进一步地,步骤3所述通过词嵌入分布传播图网络进行分类的步骤包 括:
步骤31:根据ECAResNet-12提取的图像特征作为第0层点图的初始 化信息,点图中的节点i的表达式为:
Figure BDA0003638863680000061
其中,gi表示每个图像样本实例,fextract()表示用于图像提取的骨干网;
步骤32:根据输入的图像类别名称,利用Glove词嵌入模型嵌入每 个类的词向量,初始化第0层词嵌入分布图,词嵌入分布图中节点i的初 始值为:
Figure BDA0003638863680000062
其中,labelc表示类c的标签;
步骤33:更新点图和词嵌入分布图节点,并将点图和词嵌入分布图合 并,循环计算生成每一层的点图和词嵌入分布图;
步骤34:根据最后一层的词嵌入分布图中待分类的图像与支持集中图 像的距离远近来预测图像的分类,与支持集中图像中的距离越近则属于该 分类。
进一步地,步骤33的具体操作步骤包括:
步骤331:计算第0层点图的边
Figure BDA0003638863680000063
和词嵌入分布图的边
Figure BDA0003638863680000064
步骤332:用
Figure BDA0003638863680000065
更新节点
Figure BDA0003638863680000066
依据更新后的
Figure BDA0003638863680000067
计算
Figure BDA0003638863680000068
的计算公 式为:
Figure BDA0003638863680000069
其中,M表示马氏距离,
Figure BDA00036388636800000610
Figure BDA00036388636800000611
表示第l层点图中节点i和j;
Figure BDA0003638863680000071
其中,当l等于零,
Figure BDA0003638863680000072
等于1,fw表示由WordNet模型计算出的相似 度,且
Figure BDA0003638863680000073
步骤333:使用马氏距离计算点图中节点之间的距离,通过距离大小 判断查询集的节点与未分类图像之间的相似度,并将该点图传播到一个词 嵌入分布图中,马氏距离的计算公式为:
Figure BDA0003638863680000074
其中,τ表示特定的任务,
Figure BDA0003638863680000075
表示任务τ中图像和类之间协方差矩阵 的估计值,且:
Figure BDA0003638863680000076
其中,N表示任务τ中类的数目,
Figure BDA0003638863680000077
表示任务τ和任务τ中的类c和 图像之间协方差矩阵的真值,Qτ表示任务τ中所有类和图像之间协方差矩 阵的真值;
步骤334:根据
Figure BDA0003638863680000078
计算得出第一层的点图和词嵌入分布图,合并生成 的点图和词嵌入分布图,从第2层开始重复执行步骤332-333直至达到第l 层,最终生成第2层到l层的点图和词嵌入分布图。
进一步地,步骤332的点图节点
Figure BDA0003638863680000079
更新是通过每一层中的Transform 层实现的,点图中的Transform层包括Conv层、BatchNorm层和FReLU 激活函数,且更新公式为:
Figure BDA00036388636800000710
其中,fconv2d()表示卷积操作,fBN()表示批规范化操作,
Figure BDA0003638863680000081
表示下一层的节 点,fFR表示FReLU激活函数。
进一步地,步骤333所述点图传播到词嵌入分布图的节点更新公式为:
Figure BDA0003638863680000082
其中,||是级联运算符,它用于标量
Figure BDA0003638863680000083
聚合成向量。
进一步地,通过FReLU将点图和词嵌入分布图进行合并,且FReLU 的计算公式为:
fFR(x)=Max(x,T(x)) (16)
其中,T(x)表示简单高效的空间上下文特征提取器;
T(x)的定义为:
T(x)=fBN(fconv2d(x)) (17)。
进一步地,采用Softmax函数作为分类函数,结合点图损失和词嵌入 分布图损失作为词嵌入分布传播图网络的损失值,总损失的计算公式为:
Figure BDA0003638863680000084
其中,λ为权重取值为0.9,
Figure BDA0003638863680000085
表示l层点图损失,
Figure BDA0003638863680000086
表示l层词嵌入分布 图损失;
并且:
Figure BDA0003638863680000087
Figure BDA0003638863680000088
其中,LCE为交叉熵损失函数,P(yi|xi)表示最可能的类,xi表示给定的 样本,yi表示支持集中第i个样本;
Figure BDA0003638863680000089
Figure BDA0003638863680000091
其中,Pw(yi|xi)表示最可能的类,给定的样本xi属于词嵌入分布图。
进一步地,所述ECA注意力层的通道数设置为128。
本发明的有益效果是:
第一,本发明提出词嵌入分布传播图网络(WPGN),其使用Glove模 型提取类别的标签信息作为词向量,并利用WordNet模型衡量类分布的 相似性,将类语义信息嵌入到GNN中,即WPGN利用语义嵌入分布图, 从而解决了细粒度图像特征相似性带来的分类准确率低的问题;
第二,本发明使用FReLU函数代替GNN的ReLU激活函数。 FReLU函数更适合处理视觉任务,能够进一步提高分类准确率。另外,本 发明使用马氏距离代替欧氏距离来计算样本之间的距离,具有更好的分类 性能;
第三,本发明将ECA通道注意力和主干网络ResNet-12进行结合得 到ECAResNet-12,ECAResNet-12在不降低通道维数的情况下,可以更好 地提取图的特征,进一步提高GNN的分类性能。
附图说明
图1为本发明所提词嵌入分布传播图网络WPGN的结构图;
图2为少样本任务和传统图像分类任务;
图3为ECAResNet-12网络的结构图;
图4为WPGN的循环计算过程;
图5为WPGN中W2P策略和P2W策略的过程图;
图6为6CUB-200-2011数据集中4种不同类别的鸟类图;
图7为不同层数对分类精度的影响;
图8为WPGN中不同层数对分类精度的影响;
图9为MiniImagenet和CIFAR-FS的实验结果;
图10a、图10b为WPGN和DPGN的损失收敛曲线以及测试精度曲 线;
图11为特定珍稀鸟类细粒度图像。
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面 结合附图和实施例对本发明的技术方案做进一步的描述。
一、问题定义
FSL任务的目标是在只给出少量样本的情况下,训练出一个用于 分类的模型,可以对未训练过类别的图像进行分类。少样本任务提供 了一个支持集用S来表示,一个查询集用Q来表示和训练图像数据 集用Dtrain表示。每个任务包含N个类,每个类有K个样本,这表
二、特征提取
图像包含前景和背景,特征提取的好坏将直接影响GNN的分类效 果。现有的ResNet-12网络中,图像的不同区域特征被平等对待。但是在 分类任务中,应该更关注前景而忽略背景。故而本发明在ResNet-12网络 中增加了通道注意机制ECA-Net,形成ECAResNet-12网络,ECAResNet-12 网络能够突出前景,进一步提高特征提取的质量。其结构如附图3所示, ECAResNet-12网络结构从输入到输出的构成为:一个卷积层、ReLU激活函数、两个残差块(一个卷积层、一个归一化层、ReLU激活函数)、ECA 注意力层、两个残差块、一个平均池化层、一个最大池化层的残差层和一 个全连接层残差连接,在ECA注意力层加入ECA注意机制。在 ECAResNet-12网络中,随着通道数的增加,特征图的分辨率会降低。在 通道注意力学习过程中,如果分辨率或者通道数过低都会导致图像提取质 量下降。因此,设置ECA注意力层的通道数为128。
三、词嵌入分布传播图网络(WPGN)
如附图1所示,WPGN由L层组成,每层包含一个基于GNN的点图 和一个词嵌入分布图。其采用ECAResnet-12骨干网进行特征提取。
WPGN的工作原理为:首先使用骨干神经网络ECAResnet-12提取一 幅图像特征作为点图的初始化信息。其次,根据图像对应的类名,利用 Glove模型嵌入每个类的词向量,提供词嵌入分布图的初始信息。再次, 将点图和词嵌入分布图合并,更新节点在点图中的位置,循环计算生成每 一层的点图和词嵌入分布图。最后,根据点图中节点之间的距离判断查询 集与支持集之间的相似程度,从而对查询集的图像进行分类。
(1)点图
根据提取的图像特征信息生成点图。点图表示每个图像样本实例在样 本空间中的位置,点图P中的第0层的节点i初始化公式为:
Figure BDA0003638863680000121
其中,gi表示每个图像样本实例,fextract()表示用于图像提取的骨干网。
利用点图中的
Figure BDA0003638863680000122
边特征表示图像特征相似度,其计算公式为:
Figure BDA0003638863680000123
其中,
Figure BDA0003638863680000124
Figure BDA0003638863680000125
表示第l层点图中节点i和j,
Figure BDA0003638863680000126
为节点i和j之间的 边特征;当l等于零,
Figure BDA0003638863680000127
等于1时,M表示马氏距离。
马氏距离的计算公式为:
Figure BDA0003638863680000128
其中,i,j表示节点的编号,τ表示特定的任务,
Figure BDA0003638863680000129
表示任务τ中图 像和类之间协方差矩阵的估计值,且:
Figure BDA00036388636800001210
其中,N表示任务τ中类的数目,
Figure BDA00036388636800001211
表示任务τ和任务τ中的类c和 图像之间协方差矩阵的真值,Qτ表示任务τ中所有类和图像之间协方差矩 阵的真值,且
Figure BDA00036388636800001212
为:
Figure BDA00036388636800001213
其中,μc表示特征嵌入矩阵的均值,fextract()表示任务τ中c类支持集图 像的个数;
Figure BDA00036388636800001214
权重
Figure BDA00036388636800001215
为:
Figure BDA00036388636800001216
其中,K表示支持集中图像的个数。
在现有的GNN网络中,重点在于使用嵌入信息的方法以及度量的选 择。现有的度量选择基于两个不切实际的假设:1、特征维度不相关;2、 存在一致的协方差。但是马氏距离认为不同类型的图像可以有不同的协方 差,而这些图像的分布,更接近真实的情况。马氏距离可以处理高维线性 分布数据中各维度间的非独立同分布问题。由于FSL任务中数据量较小, 因此考虑不同类别图像协方差的差异非常重要。
故而本发明采用马氏距离来计算样本间的距离。为了验证马氏距离的 有效性,通过改变相似度计算的度量方法,对CUB200-2011数据集的分 类结果进行比较。实验结果如表1所示。
表1实验结果
Figure BDA0003638863680000131
如表1所示,曼哈顿距离(Manhattan)精度最低。马氏距离 (Mahalanobis)与曼哈顿距离和欧氏距离(Euclidean)相比具有优势, 适合用于计算WPGN中类的相似度。
(2)词嵌入分布图
与点图类似,词嵌入分布图是基于语义信息生成的。其采用Glove词 嵌入模型对训练中的对象标签进行矢量化。并采用WordNet计算节点间的 相似度。
Glove模型的词向量可以加减,例如:
fg(King)-fg(Man)+fg(woman)=fg(Queen) (8)
其中,fg()表示Glove模型训练的词向量。
词向量的加减便于词向量在全样本空间中创建和生成。有利于在全样 本空间中扩大类之间的距离,从而提高分类性能。
词嵌入分布图中的节点
Figure BDA0003638863680000141
表示每个图像gi通过语义信息嵌入的实例, 初始值
Figure BDA0003638863680000142
如下:
Figure BDA0003638863680000143
其中,labelc表示类c的标签。
词嵌入分布图w中边特征
Figure BDA0003638863680000144
中的每条边代表不同样本的语义分布特征 之间的相似性,计算公式为:
Figure BDA0003638863680000145
当l等于零,
Figure BDA0003638863680000146
等于1,当
Figure BDA0003638863680000147
等于1,E边特征最大值为1,随着层 数迭代,第l-1层边特征如果降低例如接近0,第l层边特征也会接近0, 因此为防止
Figure BDA0003638863680000148
多次迭代
Figure BDA0003638863680000149
后消失,将层数设置为5层,以避免
Figure BDA00036388636800001410
消失。
式(10)中的fw表示由WordNet模型计算出的相似度,计算公式为:
Figure BDA00036388636800001411
其中,xmin,ymin,mmin表示WordNet中词语集合树中的最小深度数量, 其计算公式为:
Figure BDA00036388636800001412
其中,x,y代表类别标签,参数m表示最低公共上位词集,计算公 式为:
m=Lowhy(x,y) (13)
(3)循环计算
点图的位置表示不同实例在样本空间的分布情况。在WPGN初始化 后,该模型将进行循环计算并结合词嵌入学习图像特征并预测图像的分 类。其循环计算流程如图4所示,具体为:
首先初始化经过特征提取后的第0层、点图
Figure BDA0003638863680000151
和词嵌入分布图的节点
Figure BDA0003638863680000152
然后计算点图的边
Figure BDA0003638863680000153
和词嵌入分布图的边
Figure BDA0003638863680000154
再次,用
Figure BDA0003638863680000155
更新节点
Figure BDA0003638863680000156
并计算
Figure BDA0003638863680000157
Figure BDA0003638863680000158
计算完成后,通过距离来判断查询集的节点与图4 中表示未分类图像的节点4相似的点图,并将该点图传播到一个词嵌入分 布图中;最后根据
Figure BDA0003638863680000159
进行计算得出第1层的点图和词嵌入分布图,从第2 层重复如上所述的计算,直到达到第l层。
Figure RE-GDA0003774232660000162
更新点图节点
Figure RE-GDA0003774232660000163
的过程如附图5左图所示。点图在 Transform层中进行调整,该Transform层由Conv层、BatchNorm层 和FReLU激活函数组成,它们反向传输信息。节点
Figure RE-GDA0003774232660000164
调整策略W2P 如下:
Figure BDA00036388636800001513
其中,fconv2d()表示卷积操作,fBN()表示批规范化操作,
Figure BDA00036388636800001514
表示下一层 的节点,fFR表示FReLU激活函数。
词嵌入分布图的更新过程如图5右图所示。其也通过Transform 层进行调整,词嵌入分布图的Transform层包括全连接层和FReLU 激活函数,提供融合传递调整。本发明将无标签信息的查询集图像从 点图传播到词嵌入分布图。节点调整策略P2W如下:
Figure BDA00036388636800001515
其中,||是级联运算符,它用于标量
Figure BDA00036388636800001516
聚合成向量。
本发明所用的FReLU是一种简单有效的激活函数,适合处理视觉任 务。它通过增加可忽略的空间条件开销来改善ReLU。FReLU比ReLU更 适合于GNN。因此本发明使用FReLU对W2P和P2W的特征进行合并, 以同样的方式WPGN得到下一层的点图和词嵌入分布图。根据最后一层 的词嵌入分布图中等待分类的图像和支持集中图像的距离大小作为分类 根据,若一张图片假设在最后一层的词嵌入分布图中,距离蜂鸟类别的支 持集图像最近,即被分为蜂鸟类。
FReLU的计算如下:
fFR(x)=Max(x,T(x)) (16)
其中,T(x)表示简单高效的空间上下文特征提取器。
T(x)的定义为:
T(x)=fBN(fconv2d(x)) (17)
表2为使用FReLU作为激活函数的效果,可以看出,FReLU与 LeakyReLU相比,精度有一定程度的提高。从ReLU到最新FReLU,WPGN 的精度提高了1.83%。
表2
Figure BDA0003638863680000161
(4)损失函数
本发明采用Softmax函数作为函数作为分类函数,结合点图损失和词 嵌入分布图损失作为WPGN的损失值。点图中每个节点的预测过程为:
Figure BDA0003638863680000162
其中,P(yi|xi)表示最可能的类;xi表示给定的样本,其属于点图;标 签yi表示支持集中第i个样本。
损失函数的计算步骤包括:
1、计算点图损失:
Figure BDA0003638863680000171
其中,
Figure BDA0003638863680000172
表示L层点图的损失,LCE为交叉熵损失函数。
2、计算词嵌入分布图的损失:
词嵌入分布图中每个节点的预测过程:
Figure BDA0003638863680000173
其中,Pw(yi|xi)表示最可能的类,给定的样本xi属于词嵌入分布图。
那么,l层词嵌入分布图的损失为:
Figure BDA0003638863680000174
3、计算模型损失:
引入权重λ计算总损失,计算公式为:
Figure BDA0003638863680000175
当λ取不同值时,分类精度如表3所示。
表3分类精度
Figure BDA0003638863680000176
从表3可以看出,可以看出,随着λ值的增大,分类精度逐渐提高。 当λ为0.9时,可以得到最高的准确率,大于0.9时,分类准确率开始下 降。WPGN在λ为0.9时得到最小损失值。因此,本发明将λ设置为0.9。
实施例
为了进一步说明本发明的效果,分别在三类标准数据集中进行对比实 验。
1、实验环境
实验环境配置如表4所示,选取三类标准数据集:MiniImageNet、CUB -200-2011和CIFAR-FS。每个数据集的图像、类、训练/验证/测试集划 分和图像分辨率的详细信息如表5所示。
表4软硬件环境
Figure BDA0003638863680000181
表5数据集详细信息
Figure BDA0003638863680000182
如附图6所示,CUB-200-2011数据集中4种不同类别鸟类的图像特 征相似,更难区分。
2、实验设置
WPGN采用循环计算构建网络结构,包括点图和词嵌入分布图。对偶 图之间的相互更新是WPGN的最大特点。因此,WPGN的总层数影响最 终的分类结果。为了找到最适合网络结构的层数,在CUB-200-2011数据 集上通过改变层数对WPGN进行训练,获得每个训练模型的分类精度。 实验结果如图7所示。
从图7中可以看出,横坐标表示层数,0表示没有循环计算,1表示 一个循环计算。当层数从0增加到5时,分类精度提高了近17%。不管怎 样,当层数大于5时,分类精度的增长趋于平缓,略有振荡。因此,选择5作为WPGN的最终层号,即其包括0-5层,总共6层。
为了更直观地显示不同层数对WPGN分类精度的影响,实验选取了 标记类[1,2,3,4,5],用热力图(附图8)来显示分类精度随层数增加的变化。
颜色较浅的部分表示置信度较高。图8(a)没有使用循环进行计算; 因此,分类精度较低,导致预测模糊,预测错误标签的可能性较大。图8(b) –(d)分别说明随着层数的增加,WPGN效果更好,误分类的情况更少。
图8(e)有5层,除地面真实位置外,其他部分颜色较深,意味着准 确预测的概率远高于预测误差。在WPGN中得到的参数设置如表6所示。
表6参数设置
Figure BDA0003638863680000191
3、评价标准
本发明采用分类精度作为评价标准,精度越高,则WPGN的性能越 好,随机选取n=10000个任务,公布了平均准确率和95%置信区间。精度 计算公式如下:
Figure BDA0003638863680000192
其中,Acci表示分类精度。
4、实验结果
本发明采用ConvNet、RestNet-12和ECAResNet-12作为特征牵引的 骨干网进行对比,共3个任务:5-way-1shot/2shot/5shot。在。在CUB-200 -2011数据集上的实验结果如表7所示。
表7 CUB-200-2011数据集上的实验结果
Figure BDA0003638863680000201
从表7中可以看出,WPGN在3个骨干网和3个任务下的分类精度均 高于其他方法。当特征提取骨干网为ECAResNet-12,任务为5-way-1shot、 5-way-2shot和5-way-5shot时,WPGN的准确率比DPGN分别提高了近 9.0、4.5和4.1%。在5-way-2shot任务下,WPGN的准确性比DPGN在 5-way-5shot下的准确性高约2%。实验结果证明,我们的WPGN在fi-ne 粒度分类中是稳健的。
在MiniImagenet和CIFAR-FS数据集上的实验结果如图9所示。其中 DPGN Conv表示特征提取骨干网为DPGN上的ConvNet,WPGN ResNet 表示特征提取骨干网为WPGN上的ResNet-12,WPGN ECARes表示特征 提取骨干网WPGN上的ECAResNet-12。从图9可以看出,在MiniImagenet 数据集和CIFAR-FS数据集上,WPGN在三种任务上的分类准确率均高于DPGN。此外,当特征提取骨干网采用ECAResNet-12时,其分类效果优 于ConvNet和ResNet-12。实验表明,WPGN在具有较少混淆特征的数据 集上表现较好。CIFAR-FS数据集的精度低于MiniImagenet数据集,因为 其背景对分类精度的影响要小得多。而且,与DPGN相比,由于精度的提 高,本发明的计算开销更小。
表8训练时间比较结果
Figure BDA0003638863680000211
第二,与训练轮数相比,如图10a所示,WPGN的损失收敛速度明显 快于DPGN,说明WPGN在总训练时间上更优。且从实验中可以看出 WPGN在12000轮次内收敛。因此,本发明降低了进一步优化的学习率。 DPGN需要至少15,000轮次才能收敛,降低了学习速度。本发明尝试在 12000轮次下降低DPGN的学习率,但实验结果表明DPGN的准确率仅降 低了约2%。图10b显示,与DPGN相比,WPGN收敛速度更快,测试精 度显著提高。
由于WPGN模型在计算开销和精度方面由于DPGN模型,验证了本 发明在实际应用中具有推广前景。
5、消融实验
在CUB-200-2011数据集和CIFAR-FS数据集上进行5-way-1shot任 务的消融实验结果如表9所示。
表9 CUB-200-2011和CIFAR–FS上的消融实验结果
Figure BDA0003638863680000212
Figure BDA0003638863680000221
从表9中可以看出,在WPGN中加入词嵌入分布图后,两个数据集 的分类准确率分别提高了7.23和2.1%。在相似度计算方法中采用马氏距 离,分类精度提高了0.4%。激活FReLU函数也提高了模型的分类精度, 最后,通过将ECA注意模块集成到ResNet-12中,使得模型精度提高了 1.2%。从实验结果可以看出,对于这两个数据集,本发明能够有效提高模型的分类精度。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本 行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和 说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前 提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的 本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界 定。

Claims (10)

1.基于少样本学习的词嵌入图神经网络的细粒度图分类方法,其特征在于,包括以下步骤:
步骤1:获取待分类的细粒度图像数据集;
步骤2:构建词嵌入分布传播图网络,先通过ECAResNet-12网络提取待分类细粒度图像数据集中的图像特征并将该图像特征和图像类别名称输入词嵌入分布传播图网络;
步骤3:利用词嵌入分布传播图网络对待分类图像进行分类;
步骤4:输出分类结果。
2.如权利要求1所述的基于少样本学习的词嵌入图神经网络的细粒度图分类方法,其特征在于,步骤2构建的词嵌入分布传播图网络分成多层,共有L层,每一层均包含一个基于GNN的点图和一个词嵌入分布图;
点图,基于ECAResNet-12提取的图像特征信息生成,点图中的节点用于表示每个图像样本实例在样本空间中的位置;
词嵌入分布图,基于语义信息生成,词嵌入分布图中的节点用于表示每个图像样本实例通过语义信息嵌入的实例。
3.如权利要求1所述的基于少样本学习的词嵌入图神经网络的细粒度图分类方法,其特征在于,所述ECAResNet-12网络包括依次连接的一个卷积层、ReLU激活函数、两个残差块、ECA注意力层、两个残差块、一个平均池化层、一个最大池化层的残差层和一个全连接层残差连接,所述ECA注意力层引入了ECA注意机制,其包括一个平均池化层、一个卷积层以及一个Sigmoid激活函数。
4.如权利要求2所述的基于少样本学习的词嵌入图神经网络的细粒度图分类方法,其特征在于,步骤3所述通过词嵌入分布传播图网络进行分类的步骤包括:
步骤31:根据ECAResNet-12提取的图像特征作为第0层点图的初始化信息,点图中的节点i的表达式为:
Figure FDA0003638863670000021
其中,gi表示每个图像样本实例,fextract()表示用于图像提取的骨干网;
步骤32:根据输入的图像类别名称,利用Glove词嵌入模型嵌入每个类的词向量,初始化第0层词嵌入分布图,词嵌入分布图中节点i的初始值为:
Figure FDA0003638863670000022
其中,labelc表示类c的标签;
步骤33:更新点图和词嵌入分布图节点,并将点图和词嵌入分布图合并,循环计算生成每一层的点图和词嵌入分布图;
步骤34:根据最后一层的词嵌入分布图中待分类的图像与支持集中图像的距离远近来预测图像的分类,与支持集中图像中的距离越近则属于该分类。
5.如权利要求4所述的基于少样本学习的词嵌入图神经网络的细粒度图分类方法,其特征在于,步骤33的具体操作步骤包括:
步骤331:计算第0层点图的边
Figure FDA0003638863670000023
和词嵌入分布图的边
Figure FDA0003638863670000024
步骤332:用
Figure FDA0003638863670000025
更新节点
Figure FDA0003638863670000026
依据更新后的
Figure FDA0003638863670000027
计算
Figure FDA0003638863670000028
的计算公式为:
Figure FDA0003638863670000029
其中,M表示马氏距离,
Figure FDA0003638863670000031
Figure FDA0003638863670000032
表示第l层点图中节点i和j;
Figure FDA0003638863670000033
其中,当l等于零,
Figure FDA0003638863670000034
等于1,fw表示由WordNet模型计算出的相似度,且
Figure FDA0003638863670000035
步骤333:使用马氏距离计算点图中节点之间的距离,通过距离大小判断查询集的节点与未分类图像之间的相似度,并将该点图传播到一个词嵌入分布图中,马氏距离的计算公式为:
Figure FDA0003638863670000036
其中,τ表示特定的任务,
Figure FDA0003638863670000037
表示任务τ中图像和类之间协方差矩阵的估计值,且:
Figure FDA0003638863670000038
其中,N表示任务τ中类的数目,
Figure FDA0003638863670000039
表示任务τ和任务τ中的类c和图像之间协方差矩阵的真值,Qτ表示任务τ中所有类和图像之间协方差矩阵的真值;
步骤334:根据
Figure FDA00036388636700000310
计算得出第一层的点图和词嵌入分布图,合并生成的点图和词嵌入分布图,从第2层开始重复执行步骤332-333直至达到第l层,最终生成第2层到l层的点图和词嵌入分布图。
6.如权利要求5所述的基于少样本学习的词嵌入图神经网络的细粒度图分类方法,其特征在于,步骤332的点图节点
Figure FDA00036388636700000311
更新是通过每一层中的Transform层实现的,点图中的Transform层包括Conv层、BatchNorm层和FReLU激活函数,且更新公式为:
Figure FDA0003638863670000041
其中,fconv2d()表示卷积操作,fBN()表示批规范化操作,
Figure FDA0003638863670000042
表示下一层的节点,fFR表示FReLU激活函数。
7.如权利要求5所述的基于少样本学习的词嵌入图神经网络的细粒度图分类方法,其特征在于,步骤333所述点图传播到词嵌入分布图的节点更新公式为:
Figure FDA0003638863670000043
其中,||是级联运算符,它用于标量
Figure FDA0003638863670000044
聚合成向量。
8.如权利要求5所述的基于少样本学习的词嵌入图神经网络的细粒度图分类方法,其特征在于,通过FReLU将点图和词嵌入分布图进行合并,且FReLU的计算公式为:
fFR(x)=Max(x,T(x)) (16)
其中,T(x)表示简单高效的空间上下文特征提取器;
T(x)的定义为:
T(x)=fBN(fconv2d(x)) (17)。
9.如权利要求8所述的基于少样本学习的词嵌入图神经网络的细粒度图分类方法,其特征在于,采用Softmax函数作为分类函数,结合点图损失和词嵌入分布图损失作为词嵌入分布传播图网络的损失值,总损失的计算公式为:
Figure FDA0003638863670000045
其中,λ为权重取值为0.9,
Figure FDA0003638863670000046
表示l层点图损失,
Figure FDA0003638863670000047
表示l层词嵌入分布图损失;
并且:
Figure FDA0003638863670000051
Figure FDA0003638863670000052
其中,LCE为交叉熵损失函数,P(yi|xi)表示最可能的类,xi表示给定的样本,yi表示支持集中第i个样本;
Figure FDA0003638863670000053
Figure FDA0003638863670000054
其中,Pw(yi|xi)表示最可能的类,给定的样本xi属于词嵌入分布图。
10.如权利要求3所述的基于少样本学习的词嵌入图神经网络的细粒度图分类方法,其特征在于,所述ECA注意力层的通道数设置为128。
CN202210513987.1A 2022-05-11 2022-05-11 基于少样本学习的词嵌入图神经网络的细粒度图分类方法 Pending CN115019083A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210513987.1A CN115019083A (zh) 2022-05-11 2022-05-11 基于少样本学习的词嵌入图神经网络的细粒度图分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210513987.1A CN115019083A (zh) 2022-05-11 2022-05-11 基于少样本学习的词嵌入图神经网络的细粒度图分类方法

Publications (1)

Publication Number Publication Date
CN115019083A true CN115019083A (zh) 2022-09-06

Family

ID=83068190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210513987.1A Pending CN115019083A (zh) 2022-05-11 2022-05-11 基于少样本学习的词嵌入图神经网络的细粒度图分类方法

Country Status (1)

Country Link
CN (1) CN115019083A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503674A (zh) * 2023-06-27 2023-07-28 中国科学技术大学 一种基于语义指导的小样本图像分类方法、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503674A (zh) * 2023-06-27 2023-07-28 中国科学技术大学 一种基于语义指导的小样本图像分类方法、装置及介质
CN116503674B (zh) * 2023-06-27 2023-10-20 中国科学技术大学 一种基于语义指导的小样本图像分类方法、装置及介质

Similar Documents

Publication Publication Date Title
CN109858390B (zh) 基于端到端时空图学习神经网络的人体骨架行为识别方法
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN110503192A (zh) 资源有效的神经架构
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
CN111814897A (zh) 一种基于多层次shapelet的时间序列数据分类方法
WO2022252455A1 (en) Methods and systems for training graph neural network using supervised contrastive learning
Asadi et al. Creating discriminative models for time series classification and clustering by HMM ensembles
Ganguly et al. An introduction to variational inference
CN116681104B (zh) 分布式空间图神经网络的模型建立及实现方法
CN115019083A (zh) 基于少样本学习的词嵌入图神经网络的细粒度图分类方法
Cho et al. Genetic evolution processing of data structures for image classification
US20230281981A1 (en) Methods, devices, and computer readable media for training a keypoint estimation network using cgan-based data augmentation
CN116451859A (zh) 一种基于贝叶斯优化的生成对抗网络股票预测方法
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
WO2018203551A1 (ja) 信号検索装置、方法、及びプログラム
Zheng et al. Edge-labeling based modified gated graph network for few-shot learning
Dennis et al. Autoencoder-enhanced sum-product networks
CN116303839B (zh) 用于地球空间数据的索引计算方法
CN116015967B (zh) 基于改进鲸鱼算法优化delm的工业互联网入侵检测方法
CN117784615B (zh) 一种基于impa-rf的火控系统故障预测方法
KR20190129422A (ko) 뉴럴 네트워크를 이용한 변분 추론 방법 및 장치
Zhao et al. A hybrid method for incomplete data imputation
Alhanjouri et al. Integrating bat algorithm to inverse weighted k-means
CN116524598A (zh) 一种基于图神经网络的小样本动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination