CN111626291A

CN111626291A - 一种图像视觉关系检测方法、系统及终端

Info

Publication number: CN111626291A
Application number: CN202010264805.2A
Authority: CN
Inventors: 张重阳; 周昊
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-09-04
Anticipated expiration: 2040-04-07
Also published as: CN111626291B

Abstract

本发明公开了一种图像视觉关系检测方法、系统及终端，其中在物体对生成阶段：将原始图像进行目标检测，得到物体检测框；将物体视觉信息和物体对的相对位置编码进行基于位置嵌入的打分；将物体检测框和物体对的打分值通过极大值抑制去除冗余物体对，筛选出最终的候选物体对；在关系谓词识别阶段：将物体对的共同区域、语义编码和相对位置编码进行多模态融合，得到关系谓词的初级分类概率；将初级分类概率送入到基于标签关联的图模块，得到关系谓词的分类修正概率；将初级分类概率和分类修正概率进行融合，得到关系谓词的最终分类概率。本发明可以有效去除冗余的物体对，提高多个语义相似谓词的置信率，从而提高在Top‑N指标上的召回率。

Description

一种图像视觉关系检测方法、系统及终端

技术领域

本发明涉及图像理解技术领域，具体地说，涉及的是一种图像视觉关系检测方法、系统及终端。

背景技术

随着人工智能及深度学习技术的发展，目前的深度学习模型已经在多个领域取得良好性能，例如图像检测和图像识别等。作为图像理解领域的一个分支，视觉关系检测存在着更大的挑战：不仅需要识别物体，而且需要理解图像中的深层语义信息。具体而言，视觉关系可以表示为三元组的形式<sub-pred-ob>，其中，sub、pred和ob分别表示主体、关系谓词和客体。在图像目标检测的基础上，视觉关系检测尝试识别物体对之间的交互关系。对于视觉关系检测任务的研究亦可为其他相关领域带来助益。

一般而言，视觉关系检测方法可以分成两个阶段，包括物体对生成阶段和关系谓词识别阶段。每一阶段都存在着亟待解决的问题。

在物体对生成阶段，目前的主流方法基本都遵循一种简单的机制：基于检测到的N个物体，两两组合产生N(N-1)个物体对。这使得方法的性能严重依赖保留的物体个数。为了能够覆盖更多可能性的关系对，大部分的方法都倾向于保留大量物体框。然而，这种机制会造成严重的计算资源浪费问题。因此，近年来一些优秀的方法在如何挑选物体对的方面做了一些工作，其中包括：2017年YikangLi等提出了triplet NMS算法，其中基于物体对中两物体分类概率的乘积来筛选物体对、2019年Yibing Zhan等提出了underminedrelationship的概念，其中将undermined confidence引入到最终的预测得分上，从而产生对于物体对的排序效果。这些工作虽然取得了一定的效果，但是仍然没有很好的解决筛选物体对的问题。Triplet NMS仅考虑了物体分类的置信率，忽略了物体对存在关系可能性的大小亦依赖于潜在的相对位置关联性；undermined confidence仅是在预测层面对物体对排序，并没有直接解决物体对冗余的问题，还是会存在计算资源浪费的问题，对于视觉关系检测的结果存在影响。

在关系谓词识别阶段，近年来有着很多优秀的研究工作，例如2016年Cewu Lu等在视觉特征的基础上引入语言先验，从而使得模型预测概率与人类的感知保持一致。除此之外，2017年Hanwang Zhang等提出VtransE(visual translation embedding)方法、2017年Ruichi Yu等提出LKD(linguistic knowledge distillation)方法以及2017年BohanZhuang等提出TCIR(towards contest-aware interaction recognition)方法。其分别验证了文本信息和位置信息对于关系谓词识别的重要性，然而对于关系谓词识别阶段标签的语义重叠问题则很少有深入研究。具体而言，关系谓词的标签具有模糊特性，对于特定的物体对，存在着多个合理的关系谓词类别，称之为存在一个合理类别集，该集合内的标签互相有着潜在的语义关联性，

发明内容

针对现有技术中基于深度模型的视觉关系检测方法存在的上述不足，本发明的目的是提出一种图像视觉关系检测方法、系统及终端，分别在物体对生成阶段挖掘位置关联性，在关系谓词识别阶段挖掘语义关联性，可以有效去除冗余的物体对，提高多个语义相似谓词的置信率，一方面减少计算量，一方面提高在Top-N指标上的召回率。

根据本发明的第一方面，提供一种图像视觉关系检测中物体对生成方法，包括：

将原始图像进行目标检测，得到物体检测框；

基于所述物体检测框提取物体视觉信息和所述物体检测框两两组合而成的物体对的相对位置编码，将所述物体视觉信息和所述物体对的相对位置编码进行基于位置嵌入的打分，得到所述物体对的打分值；

将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对，筛选出最终的候选物体对。

可选地，所述基于位置嵌入的打分，包括：

将目标检测网络得到的检测目标的物体视觉信息R_vis(sub)、R_vis(ob)和物体对相对位置编码信息R_loc(sub,ob)进行嵌入的打分，得到代表物体对的打分值s(sub,ob)：

其中，

表示前向传播网络，Θ_o为网络参数，h_lrm为位置嵌入打分模块的中间过程输出值；sub,ob用于区分组成物体对的两个检测目标；R_lrm为R_vis(sub)、R_vis(ob)和R_loc(sub,ob)的拼接。

进一步的，该位置嵌入打分模块的标签是根据原始图像数据集中的关系标注自动生成，给定任意检测物体对<b_sub,b_ob>，计算其与已存在标注之间的重叠比率

其中，

表示物体对<b_sub,b_ob>与第m个关系对标注的重叠比率IoU。

进一步的，根据每个物体对对应的

的大小，高于阈值thresh_high的二值化标签l设为1，低于阈值hresh_low的二值化标签l设为0，处于之间的物体对在训练过程中舍弃；最终位置嵌入的打分的损失函数

为：

其中：N为样本数量；l_n为第n个样本的二值化标签；s_n表示第n个样本的物体对的打分值s(sub,ob)。

可选地，将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对，包括：

联合考虑所述物体对的打分值s(sub,ob)和目标检测网络得到的物体置信率p_obn(sub)、p_obn(ob)，得到代表物体对<b_sub,b_ob>存在潜在关系可能性大小的参数

根据参数

对物体对进行排序，通过极大值抑制去除冗余物体对。

根据本发明的第二方面，提供一种图像视觉关系检测中关系谓词识别方法，包括：

将物体对的共同区域、语义编码和相对位置编码进行多模态融合，得到关系谓词的初级分类概率；

将所述初级分类概率送入到基于标签关联的图模块，得到关系谓词的分类修正概率；

将所述初级分类概率和所述分类修正概率进行融合，得到关系谓词的最终分类概率，即关系谓词识别结果。

可选地，将物体对的共同区域、语义编码和相对位置编码进行多模态融合，包括：

将物体对共同区域特征R′_vis(sub,ob)、物体对相对位置编码信息R_loc(sub,ob)以及物体对类别标签的语义编码R_lan(sub,ob)进行多模态融合，得到融合结果R_fusion，其中：

其中，⊙表示点乘操作；Θ₁、Θ₂和Θ₃表示网络参数，在训练过程中自动习得；

分别表示两层全连接网络；再经过线性操作以及softmax函数将R_fusion映射为关系谓词的初级分类概率p_fusion。

可选地，将所述初级分类概率送入到基于标签关联的图模块，包括：

将初级分类概率p_fusion送入基于标签关联的图模块中，该基于标签关联的图模块包括一个权重自适应的谓词图模型GGNN以及一个自动更新的相似矩阵G。

具体的，所述谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构，图中的每个节点代表一类谓词，关联性用连接矩阵A表示，A是自适应的，在训练过程中自动习得；在初始化阶段，

每一比特数据送入对应的每一个图节点，最终得到基于标签关联的图模块的输出为

p_graph＝softmax([o₁,…,o_|V|])

其中，O为一层的前向神经网络,|V|表示谓词类别数目，h^′ _v表示图中第v个节点的特征；

表示向量的维度为|V|维；

所述相似矩阵G用于对人工标注的独热标签y做离散化分布处理，得到离散分布标签

其中

用来当作谓词图模型GGNN的训练标签，G^′表示相似矩阵G的转置；相似矩阵G采用渐进式方式自动更新，G⁽⁰⁾＝I代表相似矩阵被初始化为单位矩阵；训练过程中，每训练一个轮次，统计并平均训练集中属于同一谓词类别的初级概率预测p_fusion，得到每个谓词类别v的统计分布

并对其进行平滑处理：

其中，T代表平滑程度值，|V|表示谓词类别数目；g_v表示平滑处理后的第v个谓词类别的统计分布；

每个迭代轮次t，相似矩阵更新为：

α为平衡参数，取值范围为[0.1，0.5]；

根据每一轮次更新后的相似矩阵G，自动生成基于标签关联的图模块的离散分布标签

基于标签关联的图模块的损失函数

为：

其中：N为样本数量；

为第n个样本的离散分布标签，根据每一轮次更新后的相似矩阵G自动生成，

是

的第j个元素；KL表示散度；p_graph,n表示第n个样本的图模块的输出p_graph，p_graph,j是p_graph的第j个元素。

可选地，将所述初级分类概率和所述分类修正概率进行融合，包括：

联合考虑关系谓词的初级分类概率p_fusion和关系谓词的分类修正概率p_graph，得到最终的分类概率p_pred：

p_pred＝μ_pfusion+(1-μ)p_graph

其中，μ是平衡参数，取值范围为[0.5，0.8]；；

该分类概率p_pred的损失函数

是：

其中，

表示交叉熵损失函数，N为样本数量，y_n表示第n个样本的独热标签；

最终，在测试阶段物体对<b_sub,b_ob>构成关系三元组“主体-关系谓词-客体”的概率值为：

其中，P(sub,ob|<b_sub,b_ob>)为物体对<b_sub,b_ob>；p_obn(sub)、p_obn(ob)为目标检测网络得到的物体置信率；p_pred为关系谓词的最终分类概率；

代表物体对<b_sub,b_ob>存在潜在关系可能性大小。

根据本发明的第三方面，提供一种图像视觉关系检测方法，包括物体对生成阶段和关系谓词识别阶段，其中：所述物体对生成阶段采用上述任一项物体对生成方法；所述关系谓词识别阶段采用上述任一项关系谓词识别方法；所述物体对生成阶段挖掘关系物体的位置关联性，有效去除冗余的物体对；所述关系谓词识别阶段挖掘关系谓词的语义关联性，提高多个语义相似谓词的置信率。

根据本发明的第四方面，提供一种图像视觉关系检测系统，包括物体对生成单元和关系谓词识别单元，其中：所述物体对生成单元采用上述任一项物体对生成方法；所述关系谓词识别单元采用上述任一项关系谓词识别方法；所述物体对生成单元挖掘关系物体的位置关联性，有效去除冗余的物体对；所述关系谓词识别单元挖掘关系谓词的语义关联性，提高多个语义相似谓词的置信率。

根据本发明的第五方面，提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一项物体对生成方法，或者，用于执行上述任一项所述关系谓词识别方法，或者上述的图像视觉关系检测方法。

与现有技术相比，本发明实施例至少具有以下一种有益效果：

本发明上述的物体对生成方法，通过挖掘关系物体的位置关联性，可以有效去除冗余的物体对，节约计算计算资源和提高合理物体对的召回率。

本发明上述的关系谓词识别方法，挖掘关系谓词的语义关联性，可以提高多个语义相似谓词的置信率，从而进一步提高模型在Top-N指标上的召回率。

本发明上述图像视觉关系检测方法、系统和终端，采用两阶段式的视觉关系检测框架，在物体对生成阶段挖掘位置关联性，在关系谓词识别阶段挖掘语义关联性，从而一方面减少计算量，一方面提高在Top-N指标上的召回率，能够输出合理类别集内的多个预测结果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中图像视觉关系检测中物体对生成方法流程图；

图2为本发明一实施例中图像视觉关系检测中关系谓词识别方法流程图；

图3为本发明一实施例中图像视觉关系检测方法的原理图；

图4为本发明图像视觉关系检测方法一应用实例的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

图1为本发明一实施例中图像视觉关系检测中物体对生成方法流程图。参照图1所示，图像视觉关系检测中物体对生成方法可以包括以下步骤：

S101，将原始图像进行目标检测，得到物体检测框；目标检测可以采用现有的目标检测网络实现；

S102，将物体视觉信息和物体对的相对位置编码进行基于位置嵌入的打分；此处的物体对是由检测网络得到的检测目标两两组合而成，即物体对包含两个检测目标；

S103，将物体检测框和物体对的打分值通过极大值抑制去除冗余物体对，筛选出最终的候选物体对，该候选物体对更为合理。

本发明上述实施例中的物体对生成方法，通过挖掘位置关联性，可以有效去除冗余的物体对，节约计算计算资源和提高合理物体对的召回率。

作为一优选实施例，S101中对原始图像进行目标检测可以采用目标检测网络Faster RCNN网络进行，检测结果为得到物体检测框、和物体置信率p_obn。在其他实施例中也可以采用其他检测网络，比如亦可选用其他如SSD，Fast RCNN等。优选采用Faster RCNN具有检测精度高且速度快好的效果。

作为另一优选实施例，S102中物体视觉信息，可以通过如下方法获取：根据得到的物体检测框，利用ROI-Align在其骨干网络的最后一层提取得到视觉特征。ROI-Align为现有网络。

相应的，物体区域特征R_vis(sub)、R_vis(ob)，可以通过以下方法获得：在利用ROI-Align在其骨干网络的最后一层提取得到视觉特征后，进一步通过两层全连接层得到最终的各自物体区域特征R_vis(sub)、R_vis(ob)。

作为另一优选实施例，S102中物体对相对位置编码信息R_loc(sub,ob)，可以通过以下方法获得：

根据目标检测网络(比如Faster RCNN网络)得到物体检测框，分别表示为：

b_sub＝(x_sub,y_sub,w_sub,h_sub)

b_ob＝(x_ob,y_ob,w_ob,h_ob)

其中，sub,ob用于区分组成物体对的两个检测目标；(x,y)表示每个目标检测框的左上角点坐标，(w,h)表示每个目标检测框的宽与高；给定两个目标检测框，W_u、H_u和S_u分别表示共同区域的宽、高和面积；R_loc(sub,ob)包括三部分：

R_loc(sub,ob)＝norm[in_sub,in_ob,mu]

其中，norm表示L2归一化，in_sub,in_ob分别表示两个目标检测框相对于原始图片的位置编码；mu表示两个目标检测框之间的位置编码。

作为另一优选实施例，S102中基于位置嵌入的打分，可以采用下述方式实现：将目标检测网络(比如Faster RCNN网络)得到的物体区域特征R_vis(sub)、R_vis(ob)和物体对相对位置编码信息R_loc(sub,ob)，进行位置嵌入的打分进行打分，得到代表物体对的打分值s(sub,ob)。具体的，该打分值s(sub,ob)为：

其中，

表示前向传播网络，Θ_o为网络参数，h_lrm为位置嵌入打分模块的中间过程输出值，R_lrm为R_vis(sub)、R_vis(ob)和R_loc(sub,ob)的拼接。该打分值s(sub,ob)与现有技术相比，考虑了位置关联性。

作为另一优选实施例，S103中，通过极大值抑制去除冗余物体对时，联合考虑物体对的打分值s(sub,ob)和Faster RCNN网络得到的物体置信率p_obn(sub)、p_obn(ob)，得到代表物体对<b_sub,b_ob>存在潜在关系可能性大小的参数

再进一步根据参数

对物体对进行排序，通过极大值抑制去除冗余物体对，筛选出更加合理的候选物体对，即生成的最终物体对。

在上述实施例的基础上，为了进一步提升图像视觉关系检测效果，在另一优选实施例中，图像视觉关系检测中物体对生成方法还可以包括训练过程：

位置嵌入打分模块的标签根据原始图像数据集中的人工标注的关系标注自动生成位置嵌入的打分的标签，给定任意检测物体对<b_sub,b_ob>，计算其与已存在标注之间的重叠比率

其中，

表示物体对<b_sub,b_ob>与第m个关系对标注的重叠比率(IoU)；

根据每个物体对对应的

为：

图2为本发明一实施例中图像视觉关系检测中关系谓词识别方法流程图。参照图2所示，该实施例中的图像视觉关系检测中关系谓词识别方法，可以包括如下步骤：

S201，将物体对的共同区域、语义编码和相对位置编码进行多模态融合，得到关系谓词的初级分类概率；

S202，将初级分类概率送入到基于标签关联的图模块(LGM模块)，得到关系谓词的分类修正概率；

S203，将初级分类概率和分类修正概率进行融合，得到关系谓词的最终分类概率，即关系谓词识别结果。

本发明上述实施例的关系谓词识别方法，通过挖掘关系谓词的语义关联性，可以提高多个语义相似谓词的置信率，从而进一步提高模型在Top-N指标上的召回率。基于标签关联的图模块会对初级分类概率中的每一个元素做图结构的连接，产生对应每个元素的修正值。

作为一优选实施例，上述S201中的物体对的共同区域，可以通过以下方法获取：采用目标检测网络(比如Faster RCNN网络)得到物体检测框，两两组合得到物体对共同区域的检测框；利用ROI-Align在其骨干网络的最后一层提取得到共同视觉特征，并通过两层全连接层得到共同区域特征R′_vis(sub,ob)。

作为一优选实施例，上述S201中，将物体对的共同区域、语义编码和相对位置编码进行多模态融合，包括：将共同区域特征R′_vis(sub,ob)、物体对相对位置编码信息R_loc(sub,ob)以及物体对类别标签的语义编码R_lan(sub,ob)进行多模态融合，得到融合结果R_fusion，其中：

作为一优选实施例，上述物体对类别标签的语义编码R_lan(sub,ob)，可以利用基于维基百科数据预训练得到的词向量，其中每个单词被映射为150～450维的向量，并经过L2归一化处理得到：

R_lan(sub,ob)＝[word2vec(sub),word2vec(ob)]；

其中：word2vec(sub)、word2vec(ob)为物体对<b_sub,b_ob>中的检测目标的词向量。

作为一优选实施例，S202中，将初级分类概率p_fusion送入基于标签关联的图模块中，该基于标签关联的图模块包括一个权重自适应的谓词图模型GGNN以及一个自动更新的相似矩阵G，所述谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构，对初级概率中的每一个元素做图结构的连接，得到对应每个元素的修正值；所述相似矩阵G用于对人工标注的独热标签y做离散化分布处理，得到离散分布标签

其中

用来当作谓词图模型GGNN的训练标签,G^′为相似矩阵G的转置；相似矩阵G在训练阶段使用，测试阶段舍弃。

对于权重自适应的谓词图模型GGNN，图中的每个节点代表一类谓词，在初始化阶段，

每一比特数据送入每一个对应图节点，其中|V|表示图中节点数目；连接矩阵A是自适应的，对于图中任两个节点特征h_i、h_j，利用系数c_ij表示其节点间关联性：

其中，

表示前向传播网络，Θ₄为网络参数，在训练过程中自动习得；

通过对每行节点系数c_ij做归一化处理，连接矩阵

被定义为：

基于标签关联的图模块的输出为

p_graph＝softmax([o₁,…,o_|V|])

其中，O为一层的前向神经网络,h^′ _v表示图中第v个节点特征。

表示向量的维度为|V|维。

对于自动更新的相似矩阵G，采用渐进式更新的方式，G⁽⁰⁾＝I代表相似矩阵被初始化为单位矩阵；

训练过程中，每训练一个轮次，统计并平均训练集中属于同一谓词类别的初级概率预测p_fusion，得到每个谓词类别的统计分布

并对其进行平滑处理:

其中，v、T分别代表谓词类别及平滑程度值，g_v为平滑处理后的第v个谓词类别的统计分布；

每个迭代轮次t，相似矩阵更新为：

α为平衡参数，取值范围为[0.1,0.5]；

其中y代表人工标注的独热标签，G^′为相似矩阵G的转置；基于标签关联的图模块的损失函数

为：

其中：N为样本数量；

是

在另一实施例中，S203中，将初级分类概率和分类修正概率进行融合，其中：联合考虑关系谓词的初级分类概率p_fusion和关系谓词的分类修正概率p_graph，得到最终的分类概率p_pred：

p_pred＝μp_fusion+(1-μ)p_graph

其中，μ是平衡参数，一般取值范围为[0.5，0.8]；

该分类概率p_pred的损失函数

是：

其中，

表示交叉熵损失函数(Cross Entropy Loss)，N为样本数量，y_n表示第n个样本的独热标签。

参照图3所示，在另一实施例中，本发明还提供一种图像视觉关系检测方法，该方法包括物体对生成阶段和关系谓词识别阶段，这两个阶段对应采用上述图1、2所示的物体对生成方法和关系谓词识别方法来实现。

在物体对生成阶段，将原始图像送入基础目标检测模型得到物体检测框；基于检测框，将物体视觉信息和物体对的相对位置编码送入位置嵌入打分模块(Location-embedded Rating Module,LRM)，得到物体对的打分值；将物体检测框和物体对的打分值送入极大值抑制(Non-Maximum Suppression,NMS)，筛选出更加合理的候选物体对。如图3左侧所示。

在关系谓词识别阶段，将物体对的共同区域、语义编码和相对位置编码送入到多模态融合模块，得到关系谓词的初级分类概率；将初级分类概率送入到标签关联图模块(Label-correlation Graph Module,LGM)，得到关系谓词的分类修正概率；将初级分类概率和分类修正概率进行融合，得到关系谓词的最终分类概率。如图3右侧所示。

本发明上述实施例的图像视觉关系检测方法，作为两阶段式的视觉关系检测框架，在第一阶段通过利用LRM模块挖掘关系物体的位置关联性，可以有效去除冗余的物体对，节约计算计算资源和提高合理物体对的召回率；在第二阶段通过利用LGM模块挖掘关系谓词的语义关联性，可以提高多个语义相似谓词的置信率，从而进一步提高模型在Top-N指标上的召回率。

具体的，针对图像关系检测等应用，提供一种基于挖掘两阶段潜在关联性的图像视觉关系检测方法的优选实施例，以下以Faster RCNN网络作为目标检测网络来进行说明。参照图4所示，包括物体对生成阶段和关系谓词识别阶段：

1、物体对生成阶段

第一步，构造物体对生成阶段网络。

本步骤中，基于Faster RCNN网络以及位置嵌入的打分模块(LRM)构造出视觉关系检测框架的物体对生成阶段网络。

将原始图像送入Faster RCNN网络得到物体检测框、物体置信率等；根据物体检测框从Faster RCNN网络提取区域特征R_vis(sub)、R_vis(ob)和物体对相对位置编码信息R_loc(sub,ob)送入LRM模块，得到代表物体对的打分值s(sub,ob)。参照图4左侧所示。

第二步，筛选合理物体对。

本步骤中，联合考虑LRM模块的输出s(sub,ob)和Faster RCNN网络得到物体置信率p_obn(sub)、p_obn(ob)，最终得到代表物体对<b_sub,b_ob>存在潜在关系可能性大小的

并根据

对物体对进行排序，通过极大值抑制(NMS)去除冗余物体对，筛选出更加合理的候选物体对。参照图4中间所示。

2、关系谓词识别阶段

第一步，构造关系谓词识别阶段网络。

本步骤中，基于多模态融合模块以及标签关联的图模块(LGM)构造出视觉关系检测框架的关系谓词识别阶段网络。

第二步，关系谓词识别。

将基于Faster RCNN网络得到的物体对共同区域特征R′_vis(sub,ob)、基于物体框编码的物体对相对位置编码信息R_loc(sub,ob)和物体对类别标签的语义编码R_lan(sub,o)送入多模态融合模块，得到关系谓词的初级分类概率p_fusion；将初级分类概率p_fusion送入LGM模块得到关系谓词的分类修正概率p_graph；融合初级分类概率p_fusion和分类修正概率p_graph得到最终的关系谓词分类概率p_pred。参照图4右侧所示。

物体对生成阶段采用与上述物体对生成方法对应的技术，具体如下：

将原始图片送入Faster RCNN网络中得到物体的检测框以及物体置信率，根据Faster RCNN网络得到的物体检测框，利用ROI-Align在其骨干网络的最后一层提取得到视觉特征，并通过两层全连接层得到最终的各自物体区域R_vis(sub)、R_vis(ob)；根据FasterRCNN网络得到物体检测框，分别表示为：

b_sub＝(x_sub,y_sub,w_sub,h_sub)

b_ob＝(x_ob,y_ob,w_ob,h_ob)

其中，sub,ob用于区分组成物体对的两个检测目标，(x,y)表示每个目标检测框的左上角点坐标，(w,h)表示每个目标检测框的宽与高。给定两个目标检测框，W_u、H_u和S_u分别表示共同区域的宽、高和面积。R_loc(sub,ob)包括三部分：

R_loc(sub,ob)＝norm[in_sub,in_ob,mu]

将Faster RCNN网络得到的物体视觉信息R_vis(sub)、R_vis(ob)和物体对相对位置编码信息R_loc(sub,ob)，进行位置嵌入的打分进行打分，得到代表物体对的打分值s(sub,ob)。具体的，该打分值s(sub,ob)为：

其中，

表示前向传播网络，Θ_o为网络参数，h_lrm为位置嵌入打分模块的中间过程输出值，R_lrm为R_vis(sub)、R_vis(ob)和R_loc(sub,ob)的拼接。

根据训练集中的关系标注自动生成LRM模块的标签，给定任意检测物体对<b_sub,b_ob>，计算其与已存在标注之间的重叠比率

其中，

表示物体对<b_sub,b_ob>与第m个关系对标注的重叠比率(IoU)。

根据每个物体对对应的

的大小，高于阈值thresh_high的二值化标签l设为1，低于阈值hresh_low的二值化标签l设为0，处于之间的物体对在训练过程中舍弃。最终LRM模块的损失函数为：

最终，代表物体对存在潜在关系可能性大小的

联合考虑LRM模块的输出s(sub,ob)和基础Faster RCNN网络得到物体置信率p_obn(sub)、p_obn(ob)，具体为：

根据

的大小排序，将物体对NMS筛选出合理的物体候选对。

参照图3右侧所示，多模态融合模块的输入包括共同物体区域R′_vis(sub,ob)、物体对相对位置编码信息R_loc(sub,ob)以及物体对类别标签的语义编码R_lan(sub,ob)，并得到输出R_fusion：

其中，⊙表示点乘操作，Θ₁、Θ₂和Θ₃表示网络参数，在训练过程中自动习得。

最终经过线性操作以及softmax函数将R_fusiion映射为关系谓词的初级分类概率p_fusion。物体对类别标签的语义编码R_lan(sub,ob)是利用基于维基百科数据预训练得到的词向量，其中每个单词被映射为150～450维的向量，并经过L2归一化处理得到：

R_lan(sub,ob)＝[word2vec(sub),word2vec(ob)]

将关系谓词的初级分类概率p_fusion送入LGM模块中，LGM模块包括了一个权重自适应的谓词图模型(GGNN)以及一个自动更新的相似矩阵G。谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构，对初级概率中的每一个元素做图结构的连接，得到对应每个元素的修正值；所述相似矩阵G用于对人工标注的独热标签y做离散化分布处理，得到离散分布标签

其中

用来当作谓词图模型GGNN的训练标签，G′为相似矩阵G的转置；相似矩阵G在训练阶段使用，测试阶段舍弃。

其中，

通过对每行节点系数做归一化处理，连接矩阵

被定义为：

LGM模块的输出为

p_graph＝softmax([o₁,…,o_|V|])

对于LGM模块中的自动更新的相似矩阵G，采用渐进式更新的方式，G⁽⁰⁾＝I代表相似矩阵被初始化为单位矩阵。训练过程中，每训练一个轮次，统计并平均训练集中属于同一谓词类别的初级概率预测p_fusion，得到每个谓词类别的统计分布

并对其进行平滑处理(soft):

其中，v、T分别代表谓词类别及平滑程度值，g_v为平滑处理后的第v个谓词类别的统计分布。

每个迭代轮次t，相似矩阵更新为：

α为平衡参数，取值范围为[0.1,0.5]；

根据每一轮次更新后的相似矩阵G，自动生成LGM模块的离散分布标签

其中y代表人工标注的独热标签(one-hot),G^′为相似矩阵G的转置。基于标签关联的图模块的损失函数

为：

其中：N为样本数量；

是

通过联合考虑关系谓词的初级分类概率p_fusion和关系谓词的分类修正概率p_graph，得到最终的分类概率p_pred：

p_pred＝μp_fusion+(1-μ)p_graph

其中，μ是平衡参数，一般取值范围为[0.5，0.8]。

该分类概率p_pred的损失函数

是：

其中，

在本发明上述实例中，采用的是各个模块损失之和。两阶段关系检测模型的训练分两次进行,首先优化物体对生成阶段：

其中，

代表基础Faster RCNN网络的损失函数，

为LRM模块的损失函数，λ₁为平衡参数，一般取1。特别值得注意，在训练过程，固定Faster RCNN网络的骨干网络部分。

然后优化关系谓词识别阶段：

其中，

代表分类概率p_pred的损失函数，

为于标签关联的图模块的损失函数，λ₂为平衡参数，一般取1。

两阶段所有模块共享Faster RCNN网络的骨干网络部分。

代表物体对<b_sub,b_ob>存在潜在关系可能性大小。

在本发明另一实施例中，对应于上述的图像视觉关系检测方法，还提供一种图像视觉关系检测系统，该系统用于实现上述的图像视觉关系检测方法。具体的，该系统包括物体对生成单元和关系谓词识别单元，其中：物体对生成单元采用上述任一项实施例中的物体对生成方法；关系谓词识别单元采用上述任一项实施例中关系谓词识别方法；物体对生成单元挖掘关系物体的位置关联性，有效去除冗余的物体对；关系谓词识别单元挖掘关系谓词的语义关联性，提高多个语义相似谓词的置信率。

在本发明另一实施例中，还提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时可用于执行上述任一实施例中的物体对生成方法，或者，用于执行上述任一实施例中的关系谓词识别方法，或者用于执行上述任一实施例中的图像视觉关系检测方法。

本发明上述实施例的图像视觉关系检测方法和系统，通过分别在物体对生成阶段利用位置关联性实现合理物体对的筛选、在关系谓词识别阶段利用语义关联性实现预测多个合理谓词，从而实现了在整体降低计算量的情况下，提高了模型在Top-N指标上的提高，大大提升模型在视觉关系检测任务上的检测能力。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个模块、装置、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。