CN115457345A

CN115457345A - 一种利用基于Graphormer的上下文推理网络进行图片预测分类的方法

Info

Publication number: CN115457345A
Application number: CN202210940698.XA
Authority: CN
Inventors: 陈佳; 李熙洋; 胡新荣; 熊明福
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2022-08-06
Filing date: 2022-08-06
Publication date: 2022-12-09

Abstract

本发明涉及一种利用基于Graphormer的上下文推理网络进行图片预测分类的方法，本发明提出了一种基于Graphormer的上下文推理模型，设计了一种度的中心性关系编码，该方法能够有针对性在区域间传播上下文信息，从而提高小目标检测的效率，利用Transformer对图结构中节点之间的语义和空间布局关系，以及节点本身的度中心性进行建模和推断，在提取小目标语义特征的同时尽可能保留其空间信息，有效解决了小目标的误检与漏检问题。

Description

一种利用基于Graphormer的上下文推理网络进行图片预测分类的方法

技术领域

本发明涉及图像分类方法领域，具体涉及的是一种利用基于Graphormer 的上下文推理网络进行图片预测分类的方法。

背景技术

作为航拍图像分析的重点技术，小目标检测已经成为计算机视觉领域的热门研究课题。然而，小目标检测的研究挑战依然存在，特别是在环境复杂的现实世界中检测小目标：(1)小目标的像素占比少，可利用特征少；(2)现有的上下文学习方法受限于感受野的大小，可能会导致重要信息的丢失。

现有的上下文学习方法在提取特征时，大多依赖于上下文窗口的设计或受限于感受野的大小，可能会导致重要上下文信息的丢失。所以为了更加充分地利用上下文信息，一些方法尝试将全局的上下文信息融入到目标检测模型中。但是在密集的小人物场景中，获取的全局上下文信息会有很多无用的特征信息，从而造成信息冗余，导致训练模型的成本增加。因此，如何从全局场景中找到有利用价值的上下文信息是当前的研究重点。

发明内容

本发明要解决的技术问题是针对以上问题和要求，提供一种利用基于Graphormer的上下文推理网络进行图片预测分类的方法。

为解决以上技术问题，本发明采用以下技术方案：

一种利用基于Graphormer的上下文推理网络进行图片预测分类的方法，包括以下步骤：

步骤1、利用Backbone网络对输入图片进行特征提取，将提取的特征输入到RPN网络生成区域建议；

步骤2、上下文关系建模模块利用生成的区域建议构造图结构模型，图结构模型中的每条边包含中心性编码、语义编码以及空间布局编码信息，其中，根据目标结点的度的多少构建中心性编码，基于初始区域特征的稀疏语义关系构建语义编码以及基于位置和形状信息的稀疏空间布局关系构建空间布局编码；

步骤3、上下文关系推理模块通过Transformer聚合节点之间的三种编码信息，并进一步与初始特征融合来更新节点信息，然后使用Softmax函数得到所有节点的输出概率分布，得到每个节点的属于各类别的概率，将概率最大的类别作为节点的标签，最后输出所有节点的标签作为输入图片的分类结果。

进一步的，所述步骤2中，中心性编码是根据每个节点的度为每个节点分配的可学习嵌入向量。

进一步的，所述步骤2中，通过计算每条边的语义相似度，将语义相似度输入多层感知器即可得到每条边的语义编码；边e_ij的语义相似度计算公式为：

其中δ(i，j)是指示器函数，如果边e_ij两端的节点i和节点j个彼此高度重叠则等于0，否则等于1， P^O∈R^n×d是给定的初始区域特征库，d是初始区域特征的维度，f(·，·)是定义的一个可学习的语义相关度函数，用来计算原始全连通图中每个成对初始节点特征

的语义相关度，φ(·)是将初始区域特征投影到潜在表示的投影函数。

进一步的，所述步骤2中，通过计算每条边的空间布局相似度，将空间布局相似度输入多层感知器即可得到每条边的空间布局编码；边e_ij的空间布局相似度s″_ij计算公式为：

其中

和

分别是边e_ij两端的节点i和节点j的区域坐标，

和

分别是节点i和节点j的空间相似度和空间距离权重：

其中λ为尺度参数，

是节点i和节点j中心之间的空间距离。

进一步的，所述步骤2具体包括以下步骤：

步骤2.1、对节点进行更新，对第1层第i个节点即节点i更新的步骤为：令节点i的初始节点特征V_i表示为x_i，并与中心节点特征

矩阵相加得到

表示节点i的隐藏特征h，其中d是隐藏维度，把节点特征

和图结构中其他节点特征

作为自注意力模块的输入，然后分别与三个权值矩阵

和

相乘得到向量Q、K和V；

将向量Q和向量K进行点积计算，得到节点i的相关性权重A，然后对节点i的相关性权重A进行归一化，将语义编码s′_ij和空间编码s″_ij作为权重A的偏置项进行矩阵相加计算，通过softmax函数将节点i的权重A转换成[0，1]之间的概率分布，再使每个节点的概率分布与向量V进行点积计算，最后，把点积计算的结果进行累加得到节点i更新后的节点特征

；

步骤2.2、对所有节点进行更新后，当前Graphormer层输出的所有节点更新后的特征序列H^(l+1)；

步骤2.3、将特征序列H^(l+1)输入到Decoder中进行自注意力权重的计算，得到更新后节点特征序列H^(l)；

步骤2.4、将更新后节点特征序列H^(l)输入到全连接层FC经过一次线性变换，其中每个节点都会接入一个全连接层，使用Softmax函数得到所有节点的输出的概率分布，得到每个节点的属于各类别的概率，将概率最大的类别作为节点的标签，得到输入图片中所有节点的预测输出结果。

进一步的，在测试阶段，所述上下文关系建模模块和上下文关系推理模块为经过了训练阶段的最终模块，在训练阶段，步骤1中输入的图片为训练集中的图片，步骤3中还包括以下步骤：进行损失函数计算，通过最小化损失函数对上下文关系建模模块和上下文关系推理模块的参数进行调整，训练完毕后得到最终模块。

本发明采用以上技术方案后，与现有技术相比，具有以下优点：

本发明在传统的特征提取方法上，利用Graphormer方法，创新的结合了两种方法的优势。由于图神经网络(GCN)采用局部感知区域、权值共享以及空间域上的降采样，能够很好的提取图像的空间特征。然而，正是由于 GCN的局部感受野，使其在计算的过程中仅限于邻居节点的特征信息。相反， Transformer可以将图中的每个节点都看成连通的来计算两两节点之间的 Attention Bias；本发明将Transformer用于组合特征聚集/传播和特征变换，以解决小目标检测领域中具有挑战性的尺度特征少的问题。

在表示图结构的方法上，传统的方法只考虑到了目标之间语义和空间相似性，而忽略了节点本身可能具有的特性。本发明考虑到每个节点的度越多，其权重可能越大的特点，构建了度中心性编码，并把中心性编码作为 attention的偏置项输入到Transformer中，这种度的中心性可以让模型更加关注一些特殊节点，从而增强图的表征能力，有效地提高小目标检测的准确率。

下面结合附图和实施例对本发明进行详细说明。

附图说明

图1为本发明的方法总体流程图；

图2为得到语义编码的流程图；

图3为得到空间布局编码的流程图；

图4为特征权重计算流程图；

图5为Graphormer层特征传递流程图；

图6为Graphormer中Encoder-Decoder结构示意图；

图7为Coni-GT在MS COCO上的定性检测结果示意图；

图8为Coni-GT在TinyPerson数据集上的定性检测结果图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

一、如图1所示，本项目的总体技术方案包括以下步骤：

1.首先输入的图片会经过Backbone网络进行特征提取，然后提取后的特征输入到RPN网络生成区域建议(region proposals)。我们利用生成的区域建议构造图结构模型。上下文建模模块用来提取图结构的节点特征，上下文推理模块用来聚合节点特征信息，并更新节点的特征信息。最后，利用全连接网络层(FC)对节点进行分类和回归。

2.上下文关系建模模块：提取图的节点特征信息。我们以Faster R-CNN 为基线，利用生成的区域建议(region proposals)来构建图结构模型G＝＜V， E>，其中V＝{v₁，v₂，...，v_n}，n＝|V|为region proposals节点数，每条边 e_ij＜E都包含中心性编码、语义编码以及空间布局编码信息。其中，根据目标结点的度的多少构建中心性编码，基于初始区域特征的稀疏语义关系构建语义编码以及基于位置和形状信息的稀疏空间布局关系构建空间布局编码。

上下文推理模块：聚合节点的上下文信息。通过Transformer聚合节点之间的三种编码信息，并进一步与初始特征融合来更新节点信息，然后使用 Softmax函数得到所有节点的输出的概率分布，得到每个节点的属于各类别的概率，将概率最大的类别作为节点的标签，得到输入图片中所有节点的预测输出结果。

二、实现方法

本文发明了一种新的名为Coni-GT算法，主要分为两个部分：1.上下文关系建模；2.上下文推理模块。

(1)上下文关系建模

1、构建中心性编码

在日常生活中，通常拥有大量粉丝的名人有着更大的影响力，这种现象是预测社交网络趋势的重要因素。同样的，我们可以联想到在图结构中，一个节点的邻居节点越多，那么它的影响因子就越大。这种度中心性特征对预测结果的影响很容易被忽略，但根据我们的研究它在目标预测中却是一个必不可少的因素。在Coni-GT中，我们构建度中心性编码作为神经网络的附加信号。

具体地说，我们提出了一种中心性编码，它根据节点的度为每个节点分配实值嵌入向量。由于对每个节点应用了中心性编码，因此我们只需要将其作为输入添加到节点特征中。

其中x_i为特征向量V_i，

代表在初始层的V_i的特征表示，z∈R^d是由节点的度deg(v_i)指定的可学习嵌入向量即中心性编码。对于有向图， deg(v_i)可以拆分表示为入度deg^-(v_i)和出度deg⁺(v_i)。通过在输入中使用中心性编码，Transformer中的Softmax注意力可以捕捉到Queries和 Keys中的节点重要性信号。因此，该模型就能捕捉到节点的重要性。

2、构建语义编码

人类的视觉系统可以根据物体之间的相似度判别物体类别，这一特性证明同一类物体之间具有相同的内在语义关系。我们可以利用这种语义相似性来识别场景中不易识别的物体。具体实例如图2所示，在同一场景中，利用易检测的人的语义信息来识别模糊的人。这种易于检测的对象的上下文信息往往有利于识别难以检测的对象。

在现实世界中，目标交互的大部分连接是无效的。所以当我们构建语义编码时需要计算全连通图G中节点之间的语义关联度，并保留高关联度的关系，剪除低关联度的关系。因此，语义相似度计算公式为：

其中δ(i，j)是指示器函数，如果第i和第j个区域彼此高度重叠则等于0，否则等于1。P^O∈R^n×d是给定的初始区域特征库，d是初始区域特征的维度。 f(·，·)是定义的一个可学习的语义相关度函数，用来计算原始全连通图中每个成对初始区域特征

的语义相关度。φ(·)是将初始区域特征投影到潜在表示的投影函数。由于不同区域是平行的，没有主客体划分，本文将其设置为多层感知器(MLP)对无向关系进行编码。

3、空间布局编码

Transformer的一个优点是拥有全局感受野。在每个Transformer层中，每个标记可以关注任何位置的信息，然后处理其表示。但这种操作有一个副作用，即模型必须明确地指定不同位置，或在各层中编码位置依赖性(如位置性)。对于顺序数据，可以给每个位置一个嵌入(即绝对位置编码)作为输入，或者在Transformer层编码任意两个位置的相对距离(即相对位置编码)。

然而，对于图来说，节点不是作为一个序列排列的。它们可以位于一个多维的空间中，并由边连接。为了在模型中对图的结构信息进行编码，我们根据同一场景中属于同一类的小目标往往具有相似的空间纵横比以及同类别的小物体在空间布局上都是聚集在一起的特性提出了一个新的空间编码，实例如图3所示。具体地说，对于全连通图G，我们定义一个空间布局相关度函数g(·，·)来计算原始全连通图中的相关度。空间布局相似度s″_ij计算公式为

其中

和

分别是对应于节点i和 j的节点坐标。

和

分别是空间相似度和空间距离权重。

其中λ作为尺度参数，本文经验设定为5e^-4。

是两个节点中心之间的空间距离。

(2)上下文关系推理

1、Transformer层

Transforme的注意力机制使得它具有全局的感受野，从而使模型可以关注到场景中全局上下文信息。Graphormer是把Transformer应用于图结构的模型，它证明了Transformer在非欧氏空间上拥有消息传递能力。受此启发，我们提出利用Graphormer执行特征聚集和特征变换操作，以解决现有的上下文学习方法感受野受限的问题，使模型能从场景全局出发丰富目标特征信息。

Graphormer的基础架构是由Graphormer层组成。每个Graphormer层由两部分组成：自注意力模块(MHA)和位置前馈网络(FFN)。在上下文推理模块中我们使用Graphormer网络来聚合中心性编码、语义编码以及空间编码。这三种编码将会作为Encoder中的多头注意力(MHA)的偏置项，使节点与节点之间进行消息传递，从而更新节点的特征信息。

图4是节点在Graphormer层中Encoder的特征权重的计算过程。具体来说，我们令初始节点特征V_i表示为x_i，并与中心节点特征

矩阵相加得到

表示第l层第i个节点的隐藏特征h，其中d 是隐藏维度。我们把节点特征

和图结构中其他节点特征

作为自注意力模块的输入，然后分别与三个权值矩阵

和

相乘，并投影到相应的表示Q、K、V。我们使用向量Q和向量K 进行点积计算，得到每个节点之间的相关性权重A，然后对每个节点之间的相关性权重A进行归一化，归一化的目的主要是为了训练时梯度能够稳定。与此同时，我们还将语义编码s′_ij和空间编码s″_ij作为权重A的偏置项进行矩阵相加计算。我们通过softmax函数将每个节点之间的权重A转换成[0，1] 之间的概率分布，再使每个单词之间的概率分布与对应的Values值进行点积计算。最后，把点积计算的结果进行累加就可以得到节点i更新后的节点特征

节点更新的整个计算过程可用公式表示为：

图中每个节点都会并行的经过以上计算流程，最后当前Graphormer层输出的是所有节点更新后的特征序列H^(l+1)。

2、实现细节

Graphormer是基于基础的Transformer网络实现的。图5是节点特征信息在Graphormer层的消息传递过程。首先，输入上一网络层的节点特征 H^(l-1)到应用网络层(Add&Normalize)，并进行LN归一化处理。然后，经过归一化后的数据输入到多头注意力模块(MHA)中与原始层特征H^(l-1)一起计算节点之间的注意力权重，以此得到l层节点表示矩阵H′^(l)。最后， l层节点特征信息H′^(l)会经过一次归一化(LN)处理再输入到前馈神经网络层(FFN)，并与当前层输入的特征信息H′^(l)一同更新当前层节点特征信息H^(l)。以上描述可用公式表示为：

H′^(l)＝MHA(LN(h^(l-1)))+H^l-1 (9)

H^(l)＝FFN(LN(h′^(l)))+H′^(l) (10)

Graphormer层中经过Encoder更新后的节点特征序列会输入到Decoder 中再进行自注意力权重的计算，最终得到更新后节点特征序列H^(l)。经过 Decoder更新的节点特征序列会输入到全连接层FC经过一次线性变换，其中每个节点都会接入一个全连接层，然后使用Softmax函数得到输出的概率分布，然后通过每个节点的标签，输出概率最大的对应的节点作为我们的预测输出。

训练阶段时，在对每个节点做线性变换的同时会进行损失计算L_G， L_G＝∑_v∈Vy_vlog(σ(H_vθ))+(1-y_v)log(1-σ(H_vθ)) (11) 其中V＝{v₁，v₂，...，v_n}是图G中节点的集合，y_v是节点类标签的集合， H_v是输出的节点特征嵌入的集合，θ是全连接层的权重，σ是设置的学习率。

训练阶段通过最小化损失函数对模型进行训练，并对模型的参数进行调整，预测阶段利用训练完毕的模型进行预测。

Graphormer层的Encoder-Decode结构如图6所示，Encoder和Decoder 的结构相似，都是多头自注意力机制和前馈神经网络的组合，他们进行消息传递的方嗯，如图5所示。Encoder输入的是初始节点特征和中心性节点特征矩阵相加后得到的节点特征，输出的是每个节点更新后的节点特征序列。 Decoder有两个输入，第一个输入是每个节点对应的分类标签，第二个输入是Encoder中最后一层的输出。Decoder有两个自注意力模块，第一个Masked Multi-Head Attention是为了得到之前已经预测输出的信息，相当于记录当前时刻的输入之间的信息的意思，第二个Multi-Head Attention是为了表示当前的输入与经过encoder提取过的特征向量之间的关系来预测输出。Decoder最后的输出和Encoder一样是每个节点的特征序列。我们把每个节点更新后的特征输入到全连接层，最后通过Softmax函数得到每个节点所属的类别和预测概率。

小目标检测实验结果

为了验证所提出的Coni-GT的有效性，我们在具有挑战性的MS COCO数据集和Tinyperson数据集上进行了广泛的实验，并提供了在这两个数据集上的定性结果。

图7是Coni-GT在MS COCO数据集上的定性结果。MS COCO是目标检测领域通用的公开数据集，该数据集包含140,000幅图像(8万幅用于训练，4万幅用于验证，2万幅用于测试)，并对91类对象进行了丰富的注释。

图8显示了Coni-GT与Mask R-CNN在MS COCO数据集上的一些可视检测结果。从图中我们可以观察到Mask R-CNN未能检测到一些小物体。然而，Coni-GT 通过使用外观和上下文信息在小目标上工作得很好。还可以发现，Coni-GT 比Mask R-CNN更健壮。Mask R-CNN饱受外观变化和背景干扰的困扰。如图4 第三行所示，Mask R-CNN将桥洞和建筑物检测为船。然而，Coni-GT可以通过利用周围场景中的上下文信息来很好地处理这些干扰。

TinyPerson数据集是远距离和大背景下进行人员检测的基准，为极小目标检测开辟了一个新的前景方向。图5是们提出的Coni-GT在TinyPerson数据集上的一些检测结果。其中，前两行表示海上人的场景，最后一行表示陆地上人的场景。从前两排可以观察到，冲浪板上的人的姿势变化很大，甚至有些人只在背光条件下露头，但我们的Coni-GT仍然可以准确地识别和定位他们。此外，最后一行包含比例变化、人群场景和杂乱的背景。即便如此，大多数人还是可以被识别和定位的。这证明了我们的检测器对小目标检测的有效性。

以上所述为本发明最佳实施方式的举例，其中未详细述及的部分均为本领域普通技术人员的公知常识。本发明的保护范围以权利要求的内容为准，任何基于本发明的技术启示而进行的等效变换，也在本发明的保护范围之内。

Claims

1.一种利用基于Graphormer的上下文推理网络进行图片预测分类的方法，其特征在于，包括以下步骤：

步骤1、对输入图片进行特征提取，将提取的特征输入到RPN网络生成区域建议；

2.根据权利要求1所述的利用基于Graphormer的上下文推理网络进行图片预测分类的方法，其特征在于，所述步骤2中，中心性编码是根据每个节点的度为每个节点分配的可学习嵌入向量。

3.根据权利要求1所述的利用基于Graphormer的上下文推理网络进行图片预测分类的方法，其特征在于，所述步骤2中，通过计算每条边的语义相似度，将语义相似度输入多层感知器即可得到每条边的语义编码；边e_ij的语义相似度计算公式为：

其中δ(i，j)是指示器函数，如果边e_ij两端的节点i和节点j个彼此高度重叠则等于0，否则等于1，P^O∈R^n×d是给定的初始区域特征库，d是初始区域特征的维度，f(·，·)是定义的一个可学习的语义相关度函数，用来计算原始全连通图中每个成对初始节点特征

4.根据权利要求1所述的利用基于Graphormer的上下文推理网络进行图片预测分类的方法，其特征在于，所述步骤2中，通过计算每条边的空间布局相似度，将空间布局相似度输入多层感知器即可得到每条边的空间布局编码；边e_ij的空间布局相似度s″_ij计算公式为：

其中

分别是边e_ij两端的节点i和节点j的区域坐标，

和

分别是节点i和节点j的空间相似度和空间距离权重：

其中λ为尺度参数，

是节点i和节点j中心之间的空间距离。

5.根据权利要求1所述的利用基于Graphormer的上下文推理网络进行图片预测分类的方法，其特征在于，所述步骤2具体包括以下步骤：

步骤2.1、对节点进行更新，对第l层第i个节点即节点i更新的步骤为：令节点i的初始节点特征V_i表示为x_i，并与中心节点特征

矩阵相加得到

表示节点i的隐藏特征h，其中d是隐藏维度，把节点特征

和图结构中其他节点特征

作为自注意力模块的输入，然后分别与三个权值矩阵

和

相乘得到向量Q、K和V；

将向量Q和向量K进行点积计算，得到节点i的相关性权重A，然后对节点i的相关性权重A进行归一化，将语义编码s′_ij和空间编码s″_ij作为权重A的偏置项进行矩阵相加计算，通过softmax函数将节点i的权重A转换成[0,1]之间的概率分布，再使每个节点的概率分布与向量V进行点积计算，最后，把点积计算的结果进行累加得到节点i更新后的节点特征

6.根据权利要求1所述的利用基于Graphormer的上下文推理网络进行图片预测分类的方法，其特征在于，在测试阶段，所述上下文关系建模模块和上下文关系推理模块为经过了训练阶段的最终模块，在训练阶段，步骤1中输入的图片为训练集中的图片，步骤3中还包括以下步骤：进行损失函数计算，通过最小化损失函数对上下文关系建模模块和上下文关系推理模块的参数进行调整，训练完毕后得到最终模块。