CN111325243B

CN111325243B - 一种基于区域注意力学习机制的视觉关系检测方法

Info

Publication number: CN111325243B
Application number: CN202010079031.6A
Authority: CN
Inventors: 刘安安; 田宏硕; 徐宁; 聂为之; 宋丹
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-02-03
Filing date: 2020-02-03
Publication date: 2023-06-16
Anticipated expiration: 2040-02-03
Also published as: US11301725B2; US20210264216A1; CN111325243A

Abstract

本发明公开了一种基于区域注意力学习机制的视觉关系检测方法，所述方法包括：获取三元组图结构，并将其聚合邻节点后的特征进行组合，作为第二图结构的节点，依据等概率边进行连接，构成第二图结构；将第二图结构节点特征与对应三元组实体对象节点的特征进行组合，组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征，将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征；在一定消息传播次数之后，输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合，以此综合推理对象组之间的谓词。本发明能够识别在不同视觉关系下实体对象所关注的内部区域，从而来提高视觉关系检测的精度。

Description

一种基于区域注意力学习机制的视觉关系检测方法

技术领域

本发明涉及视觉关系检测领域，尤其涉及一种基于区域注意力学习机制的视觉关系检测方法。

背景技术

随着深度学习技术的飞速发展，图像理解领域逐渐引起了许多关注，其中作为该领域的基础，视觉关系检测是一项十分具有挑战性的任务，因为其不仅仅需要预测图片中实体对象的语义和空间信息，而且还需要对实体对象之间的谓词关系进行分类。以图1中“人骑摩托”的图片为例，视觉关系检测不但要识别出主语“人”和宾语“摩托”以及他们的位置，而且还需要识别出两者存在动词“骑”这种关系。由于一般的视觉关系都可以用<主语–谓词–宾语>的这种结构化三元组关系描述的特点^[1]，视觉关系检测才能作为图像理解领域基础从而应用在更高层次的视觉任务之中，比如图像描述^[2][3]，视觉问答^[4][5]，图文检索^[6][7]，视觉对话^[8][9]和视觉推理^[10][11]等任务。

近些年来，在视觉关系检测任务上涌现出了许多优秀的工作。粗略的来说，这些工作的学习策略大致可以分为两个基本的方向：第一，分别训练实体对象的检测器和实体对象之间的关系检测器，并将它们的模型输出聚合起来得到视觉关系的三元组；第二，对于每个包含视觉关系的视觉短语学习一个单独的检测器。在面对多样性的视觉关系时，一些学者已经证明视觉短语的学习方法更加具有鲁棒性^[12]，但是针对目前已有的数据集，一些特定关系的训练样本十分少，所以该方法也具有一定的局限性。对于聚合模型输出的方法，虽然可以在结构化三元组之间将各自包含的知识进行很好的共享^[13]，但是针对不可见的关系时并不能很好的处理。

目前，为了能够提升通用检测器的特征表征能力，研究者们逐渐偏向于设计对具有统计关系依赖的模型，这种依赖关系可以是图模型^[14]，语料的知识蒸馏^[15]或者上下文的语义[16]

但是现有的方法仅仅是从粗粒度的角度上对检测到的实体对象整体直接进行特征提取，然后将其映射到同一特征空间进行关系识别，这些方法其实忽略了实体对象的内部一些细粒度的线索，来更深度挖掘对于不同视觉关系检测到的实体图像内部所关注的区域信息。

发明内容

本发明提供了一种基于区域注意力学习机制的视觉关系检测方法，本发明避免了在同一特征空间进行实体对象关系分析时，建立的模型缺少对实体对象内部区域的细粒度信息交互的问题，并且通过视觉注意力机制学习过程后，能够识别在不同视觉关系下实体对象所关注的内部区域，从而来提高视觉关系检测的精度，详见下文描述：

一种基于区域注意力学习机制的视觉关系检测方法，所述方法包括：

获取三元组图结构，并将其聚合邻节点后的特征进行组合，作为第二图结构的节点，依据等概率边进行连接，构成第二图结构；

将第二图结构节点特征与对应三元组实体对象节点的特征进行组合，组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征，将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征；

在一定消息传播次数之后，输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合，以此综合推理对象组之间的谓词。

其中，所述获取三元组图结构具体为：

将实体对象的区域视觉特征作为第一图结构中节点集特征，实体对象之间依据共现概率连接，通过消息传播机制汇聚邻节点的特征信息来强化当前节点的视觉表征；

每次消息传播后将输出的节点特征作为视觉注意力机制，并作为第一图结构中节点进行下一次消息传播时的视觉特征；

将提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点，依据视觉关系的统计概率连接，构成三元组图结构。

进一步地，所述第一图结构具体为：将共现矩阵作为第一图结构的边，将区域视觉特征作为第一图结构的顶点。

其中，所述每次消息传播后将输出的节点特征作为视觉注意力机制，并作为第一图结构中节点进行下一次消息传播时的视觉特征具体为：

将强化后的节点表征与每个区域视觉特征相结合，计算一个非正则化的相关性分数；

将非正则化的相关性分数进行正则化，获取视觉注意力机制的权重分布值；

利用得到的注意力机制的权重对每个实体对象M个区域特征进行加权求和，得到融合后的视觉表征；

获取融合后的视觉表征，将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征，再次进行消息传播。

进一步地，所述三元组图结构具体为：

将视觉关系分布作为三元组图结构的边；每个对象组特征以及对应的两个实体对象的区域视觉特征作为三元组图结构的顶点。

其中，所述第二图结构具体为：

获取输出的每个三元组图结构聚合邻节点后的特征，将其映射到相同维度的特征空间，然后在特征维度上进行连接，作为第二图结构中的节点；

将第二图结构的节点进行全连接，连接每个节点与其邻节点的边为等概率边。

进一步地，所述组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征具体为：

组合后的特征与输出的每个区域视觉特征计算一个非正则化的相关性分数；

将非正则化的相关性分数进行正则化，分别得到视觉注意力机制的权重分布值，对相应的实体对象区域特征进行加权求和，得到融合后的视觉表征。

其中，所述输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合具体为：

将经过T_k次消息传播后三元组图结构每个实体对象的节点输出，进行平均池化后与实体对象本身的视觉特征在特征维度上进行组合；

将经过T_k次消息传播后三元组图结构中对象组的节点输出，与初始化节点的对象组特征以及第二图结构每个节点的输出在特征维度上进行连接。

本发明提供的技术方案的有益效果是：

1、本发明在检测到的实体对象后，提取其内部区域的特征组，将其映射到同一特征空间，完成在不同视觉关系下实体对象内部区域特征间的信息交互；

2、本发明通过利用注意力机制学习过程，来完成在针对识别不同视觉关系时，实体对象所关注的内部区域，来提高视觉关系检测的精度。

附图说明

图1为一种基于区域注意力学习机制的视觉关系检测方法的流程图；

图2为视觉关系检测示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决目前方法在识别视觉关系时忽略实体对象内部区域的细粒度信息交互的问题，从而提高视觉关系识别的精度，常用的指标为召回率，参见图1，本发明实施例提供了一种基于区域注意力学习机制的视觉关系检测方法，该方法包括以下步骤：

101：针对所使用的数据库，统计其训练集样本中各个物体之间的共现概率以及在训练集中共现时，属于某种视觉关系的概率；

对于所使用的数据集，其中需要包含标注有视觉关系的图片数据，这里使用的是较为常用的VisualGenome视觉关系数据库，但本发明方法不只局限于该数据库，可以是包含所需标签的任意数据库。

首先，针对所使用的数据库，需要统计其划分出的训练集中不同类别对象之间的共现概率分布，该视觉关系数据集的训练样本中标注了实体对象的真实类别标签以及实体对象之间的视觉关系谓词真实类别标签。以训练样本中某张图片里的实体对象m和n为例，其中m和n为两个实体对象的真实类别标签，统计属于类别m的实体对象出现的条件下属于类别n的实体对象出现的概率。在本发明方法中，在完成统计所有实体对象的共现概率后，将相应的共现概率矩阵记为

矩阵中的元素ε_ij表示在一个实体对象属于第i类的同时与另一个实体对象属于第j类的共现概率，C表示训练集中实体对象的类别总数；/>

为实数集。

其次，需要统计训练集中的实体对象在共现时属于某种视觉关系的概率，具体来说，即统计属于类别m的实体对象和属于类别n的实体对象之间在所有训练样本中存在的关系分布概率。在本发明方法中，在完成统计所有实体对象组的关系分布概率后，将相应的视觉关系分布记为

其中k∈[1,K]且/>

这里，/>

表示第i类实体对象和第j类实体对象存在第k种视觉关系的概率，K表示训练集中视觉关系或者是谓词的类别总数，/>

为自然数集。

102：从输入的图像中检测其中所包含的实体对象与对象组，然后分别提取实体对象本身、对象组联合区域和实体对象内部的区域视觉特征；

对于给定的输入图像，首先利用常见的目标检测框架，如GoogLeNet，ResNet-101，VGG-16等进行实体对象与对象组的特征提取，本发明方法中采用的是使用VGG-16卷积网络的Faster R-CNN(快速的区域卷积神经网络)框架，其中卷积网络可以使用其他常见的目标检测网络进行替换；将给定的图像输入到上述的目标检测框架中，输出可以分别得到图像中实体对象候选区域的特征以及对象组候选区域的特征，其中候选区域指的是可以将实体对象或对象组完全覆盖的最小矩形区域。

输出的区域特征包括：候选区域内实体对象本身在VGG16网络全连接层输出的实体对象特征集

其中v_n表示第n个实体对象的视觉特征；候选区域矩形框的坐标特征集/>

其中b_n表示覆盖第n个实体对象的最小矩形框的坐标特征；对象组在VGG16网络全连接层输出的特征集F_u＝{f_ij|i,j＝1,2,...,|N|}，其中f_ij表示覆盖第i个实体对象和第j个实体对象的最小矩形框区域内的特征；实体对象的真实类别标签概率集

其中N为图像中实体对象的个数，o_n表示第n个实体对象的真实类别标签；实体对象在VGG16网络卷积层输出的区域视觉特征/>

其中m∈[1,M]且m∈Z，M表示实体对象内部区域的数量，f_m ⁽ⁿ⁾表示第n个实体对象内部的第m个区域。

103：对于步骤102输出的实体对象的区域视觉特征，将其作为第一图结构中节点集特征，实体对象之间依据共现概率连接，通过消息传播机制汇聚邻节点的特征信息来强化当前节点的视觉表征；

将步骤101输出的共现矩阵作为第一图结构的边：

E_obj＝{ε_ij|i＝1,2,...,|C|；j＝1,2,...,|C|}

其中，E_obj表示第一图结构的边集。

将步骤102输出的区域视觉特征f⁽ⁿ⁾作为第一图结构的顶点：

其中，V_obj表示第一图结构的节点集。

从而构造第一图结构G_obj＝{V_obj,E_obj}。

首先，在进行消息传播前，为了学习初始的视觉注意力权重来融合顶点的区域视觉特征，使用步骤102输出的实体对象特征集V，在t＝0时代替区域视觉特征作为初始化第一图结构各顶点表征h_n ^(t)，其中n表示第n个顶点：

其中，

是可学习的转换矩阵，v_n是步骤102输出的全连接层特征。

其次，获取第一图结构进行第一次消息传播t＝1时每个节点聚合邻节点后的特征a_n ^(t)：

其中，N为图像中检测出的实体对象的个数，

表示在特征维度上进行连接，h_m ^(t)表示当前节点在t时刻的第m个邻节点表征。

之后，将聚合后的特征a_n ^(t)与节点此时的特征h_n ^(t-1)作为门控循环单元(GRU)的输入，来进行节点表征的强化，计算方法如下：

z_n ^(t)＝σ(W_za_n ^(t)+U_zh_n ^(t-1)) (3)

r_n ^(t)＝σ(W_ra_n ^(t)+U_rh_n ^(t-1)) (4)

h_n ^(t)＝tanh(W_ha_n ^(t)+U_h(r_n ^(t)⊙h_n ^(t-1))) (5)

c_n ^(t)＝(1-z_n ^(t))⊙h_n ^(t-1)+z_n ^(t)⊙h_n ^(t) (6)

其中，z_n ^(t)与r_n ^(t)表示门控循环单元的重置门和更新门，h_n ^(t)表示当前的候选集，c_n ^(t)表示强化后的节点表征输出；W_z,U_z,W_r,U_r,W_h,U_h均为可学习的参数矩阵；⊙表示特征的对应元素乘积。

104：每次消息传播过程后，将输出的节点特征作为视觉注意力机制，来融合实体对象所提取的内部区域视觉特征，然后将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征；

首先，将步骤103输出的强化后的节点表征c_n ^(t)与步骤102输出的每个区域视觉特征f_m ⁽ⁿ⁾相结合，计算一个非正则化的相关性分数

计算方法如下：

其中，w,W_a,U_a,b_n均表示可学习的参数。

其次，将非正则化的相关性分数

进行正则化，获取视觉注意力机制的权重分布值/>

正则化计算方法如下：

之后，利用得到的注意力机制的权重对每个实体对象M个区域特征

进行加权求和，得到融合后的视觉表征f_n ⁽ⁿ⁾，计算方法如下：

最后，获取融合后的视觉表征f_n ⁽ⁿ⁾，将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征，再次通过公式(2)到公式(6)的计算过程进行消息传播，此时公式(1)可以整合为：

105：在一定的消息传播次数之后，其输出的节点特征与实体对象本身的视觉特征进行组合，以此推理出物体类别；

将经过T₀次消息传播后第一图结构每个节点的输出

与初始化的节点特征，即实体对象本身的视觉特征在特征维度上进行组合，然后输入到softmax函数中进行计算，输出的最大概率分布数值即为推理出的对应物体类别，公式表示如下：

其中，W₀表示可学习的参数矩阵，o_n表示预测的第n个实体对象的类别。

106：将步骤102提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点，依据视觉关系的统计概率连接，构成三元组图结构，同样通过消息传播机制来强化当前节点的视觉表征；

首先，将步骤101输出的视觉关系分布

作为三元组图结构的边；

其中，E_triplet表示三元组图结构的边集。

将步骤102输出的每个对象组特征F_u＝{f_ij|i,j＝1,2,...,|N|}以及对应的两个实体对象的区域视觉特征f⁽ⁿ⁾＝{f_m ⁽ⁿ⁾}作为三元组图结构的顶点：

其中，V_triplet表示三元组图结构的顶点集。

从而构造K个三元组图结构

每个三元组图结构均执行相同操作，下面以一个三元组图结构为例，说明消息传播过程：

首先，在进行消息传播前，为了学习初始的视觉注意力权重来融合三元组实体对象顶点的区域视觉特征，使用步骤102输出的实体对象特征集

在t＝0时代替三元组实体对象顶点的区域视觉特征来初始化表征/>

和/>

依次表示两个属于i,j类别的实体对象o_i和o_j的初始化表征和对象组的初始化表征，k表示两个实体对象存在第k种视觉关系：

其中，

是可学习的转换矩阵，/>

f_ij是步骤102输出的实体对象和对象组的全连接层特征。

其次，获取三元组图结构进行第一次消息传播t＝1时每个节点聚合邻节点后的特征

和/>

之后，分别将聚合后的特征

和/>

与各自节点此时的特征/>

和/>

作为门控循环单元(GRU)的输入，经过公式(3)到公式(6)的计算过程分别进行消息传播来强化各自的节点表征/>

和/>

107：将步骤106获得的每个三元组图结构聚合邻节点后的特征进行组合，作为第二图结构的节点，依据等概率边进行连接，构成第二图结构，然后进行第二图结构中的消息传播；

首先定义第二图结构G_rel＝{V_rel,E_rel}的节点与边：

获取步骤106输出的每个三元组图结构聚合邻节点后的特征

和/>

将其映射到相同维度的特征空间，然后在特征维度上进行连接，作为第二图结构中的节点，同时在t＝0时，以零向量初始化第二图结构中的节点，公式表示如下：

其中，W_g,W_i,W_j,W_k均表示可学习的参数矩阵，

表示第二图结构在t时刻的节点特征。

由于共有K个三元组图结构，所以第二图结构中节点数量为K，节点集表示为：

将第二图结构的节点进行全连接，连接每个节点与其邻节点的边为等概率边：

其中，ε″_uk表示连接第u个节点与第k个节点的边，ε″_uk的下角标uk表示第k个节点的第u个邻节点，其表征为

是第k个节点的邻节点集合。

之后，定义第二图结构消息传播的计算方法为：

其中，ReLu表示激活函数，W_e为可学习的参数矩阵。

108：每次消息传播过程后，将步骤107输出的第二图结构节点特征与对应三元组实体对象节点的特征进行组合，以此作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征，将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征；

将步骤107输出的第二图结构节点特征

与步骤106消息传递后输出三元组中对应的实体对象特征/>

和/>

分别在特征维度上进行连接，然后同时与步骤102输出的每个区域视觉特征f_m ⁽ⁿ⁾计算一个非正则化的相关性分数/>

和/>

计算方法如下：

其中，w,W_a,U_a,b_a均表示可学习的参数。

之后，利用公式(8)将非正则化的相关性分数

和/>

进行正则化，分别得到视觉注意力机制的权重分布值/>

和/>

然后对相应的实体对象区域特征f⁽ⁿ⁾＝{f_m ⁽ⁿ⁾}进行加权求和，得到融合后的视觉表征/>

和/>

最后，对于获取的融合后的视觉表征

和/>

将其分别作为三元组图结构中相应实体对象节点进行下一次消息传播时的视觉特征，再次通过公式(3)到公式(6)和公式(18)的计算过程对三元组图结构和第二图结构进行消息传播，此时公式(12)和公式(13)可以整合为：

109：在一定消息传播次数之后，其输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合，以此综合推理对象组之间的谓词。

将经过T_k次消息传播后三元组图结构每个实体对象的节点输出：

进行平均池化后与初始化的节点特征，即实体对象本身的视觉特征在特征维度上进行组合，公式表示如下：

其中，W_hs,W_ho表示可学习的参数矩阵，

表示实体对象o_i在T_k次消息传播后的表征组合，/>

表示实体对象o_j在T_k次消息传播后的表征组合。

将经过T_k次消息传播后三元组图结构中对象组的节点输出：

与初始化节点的对象组特征f_ij以及第二图结构每个节点的输出：/>

在特征维度上进行连接，公式表示如下：

其中，W_p表示可学习的参数矩阵，H_i,j,k表示在第k种视觉关系统计概率条件下，实体对象组的在T_k次消息传播后的表征组合。

之后，将公式(23)到(26)的输出在特征维度上进行组合，公式表示如下：

其中，W_r表示可学习的参数矩阵。

最后，将公式(28)的输出输入到softmax函数中进行计算，输出的最大概率分布数值即为推理出的类别为i和j的对象组之间对应的关系谓词。

综上所述，本发明实例避免了在识别视觉关系时忽略实体对象内部区域的细粒度信息交互的问题，提高了视觉关系识别的精度，即召回率，同时可以应用于任何视觉关系检测数据库。

参考文献：

[1]C.Lu,R.Krishna,M.S.Bernstein,and F.Li.Visual relationshipdetection with language priors.In ECCV,pages 852–869,2016.

[2]A.Karpathy and L.Fei-Fei.Deep visual-semantic alignments forgenerating image descriptions.In Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 3128–3137,2015.

[3]S.J.Rennie,E.Marcheret,Y.Mroueh,J.Ross,and V.Goel.Self-criticalsequence training for image captioning.In CVPR,volume 1,page 3,2017.

[4]W.Norcliffe-Brown,S.Vafeias,and S.Parisot.Learning conditionedgraph structures for interpretable visual question answering.In NIPS,pages8344–8353,2018.

[5]Peter Anderson,Xiaodong He,Chris Buehler,Damien Teney,MarkJohnson,Stephen Gould,and Lei Zhang.Bottom-up and top-down attention forimage captioning and visual question answering.Proc.CVPR,2017

[6]Kuang-Huei Lee,Xi Chen,Gang,Hua,Houdong Hu,and Xiaodong He.StackedCross Attention for Image-Text Matching.In ECCV,pages 212-218,2018.

[7]Ying Zhang,and Huchuan Lu.Deep Cross-Modal Projection Learning forImage-Text Matching.In ECCV,pages 707-723,2018.

[8]A.Das,S.Kottur,K.Gupta,A.Singh,D.Yadav,S.Lee,J.M.F.Moura,D.Parikh,and D.Batra.Visual dialog.IEEE Trans.Pattern Anal.Mach.Intell.,41(5):1242–1256,2019

[9]Z.Gan,Y.Cheng,A.E.Kholy,L.Li,J.Liu,and J.Gao.Multi-step reasoningvia recurrent dual attention for visual dialog.In ACL 2019,pages 6463–6474,2019.

[10]M.Haurilet,A.Roitberg,and R.Stiefelhagen.It’s not about thejourney；it’s about the destination:Following soft paths under question-guidance for visual reasoning.In CVPR 2019,pages 1930–1939,2019.

[11]T.Gokhale,S.Sampat,Z.Fang,Y.Yang,and C.Baral.Cooking with blocks:A recipe for visual reasoning on image-pairs.In CVPR Workshops 2019,pages 5–8,2019.

[12]Mohammad Amin Sadeghi and Ali Farhadi.Recognition using visualphrases.InCVPR,2011

[13]Chen Gao,YuliangZou,and Jia-Bin Huang.Ican:Instancecentricattention network for human-object interaction detection.In BMVC,2018

[14]Yikang Li,Wanli Ouyang,and Xiaogang Wang.Vip-cnn:A visual phrasereasoning convolutional neural network for visual relationship detection.InCVPR,2017.1,2

[15]Ruichi Yu,Ang Li,Vlad I.Morariu,and Larry S.Davis.Visualrelationship detection with internal and external linguistic knowledgedistillation.In ICCV,2017.2

[16]Bohan Zhuang,Lingqiao Liu,Chunhua Shen,and Ian Reid.Towardscontext-aware interaction recognition for visual relationship detection.InICCV,2017.

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于区域注意力学习机制的视觉关系检测方法，其特征在于，所述方法包括：

在一定消息传播次数之后，输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合，以此综合推理对象组之间的谓词；

所述获取三元组图结构具体为：

将提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点，依据视觉关系的统计概率连接，构成三元组图结构；

所述第一图结构具体为：将共现矩阵作为第一图结构的边，将区域视觉特征作为第一图结构的顶点；

所述三元组图结构具体为：

将输出的视觉关系分布{ε'_ij ^(k)}作为三元组图结构的边；

E_triplet＝{ε'_ij ^(k)|k＝1,2,...,|K|}

其中，E_triplet表示三元组图结构的边集；K表示训练集中视觉关系或者是谓词的类别总数；ε'_ij ^(k)表示第i类实体对象和第j类实体对象存在第k种视觉关系的概率；

将输出的每个对象组特征F_u＝{f_ij|i,j＝1,2,...,|N|}以及对应的两个实体对象的区域视觉特征f⁽ⁿ⁾＝{f_m ⁽ⁿ⁾}作为三元组图结构的顶点：

其中，V_triplet表示三元组图结构的顶点集；f_ij表示覆盖第i个实体对象和第j个实体对象的最小矩形框区域内的特征；f_m ⁽ⁿ⁾表示第n个实体对象内部的第m个区域；M表示实体对象内部区域的数量；N为图像中实体对象的个数；

从而构造K个三元组图结构

2.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法，其特征在于，所述每次消息传播后将输出的节点特征作为视觉注意力机制，并作为第一图结构中节点进行下一次消息传播时的视觉特征具体为：

3.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法，其特征在于，所述第二图结构具体为：

4.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法，其特征在于，所述组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征具体为：

5.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法，其特征在于，所述输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合具体为：