CN114913546A

CN114913546A - 一种人物交互关系检测方法及系统

Info

Publication number: CN114913546A
Application number: CN202210457706.5A
Authority: CN
Inventors: 彭欢; 高常鑫; 桑农
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-08-16

Abstract

本发明公开了一种人物交互关系检测方法及系统，属于计算机视觉技术领域。现有的人物交互关系检测方法需要用一个共享的预测器同时检测人、物体和它们对应的交互关系，会造成实例级和交互关系级在注意力视野上的不一致。为此，本发明提出一种并行推理网络，其同时包含了两个分别针对实例级定位和交互关系级语义理解的独立预测器。前者通过感知实例的末端区域从而聚焦于实例级的定位；后者扩散视野到交互关系区域，从而更好地理解交互关系级语义。并且本发明的实例级预测器的实例级查询向量和关系级预测器的交互关系级查询向量是一一对应的关系，因此它们之间并不需要任何实例与关系的匹配程序，从而大大减轻了计算负担。

Description

一种人物交互关系检测方法及系统

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种人物交互关系检测方法及系统。

背景技术

现实世界中包含大量的复杂的以人为中心的活动，而这些以人为中心的活动主要由人物交互关系构成。为了让机器充分理解这些复杂人类活动，本发明便需要进行人物交互关系检测。具体来讲，人物交互关系检测任务由实例检测和关系识别两个子任务构成。只有同时完成好这两个子任务，才有可能构建出好的人物交互关系检测器。

以往的人物交互关系检测方法对这两个子任务的处理方式各有不同。早期传统的两阶段人物交互关系检测方法首先利用现成的(off-the-shelf)目标检测器去定位出所有物体并提取出对应物体的特征。之后再利用各种特征融合以及人物配对的方法，构建出人-物匹配对。此时可以认为这些人-物匹配对之间更可能存在交互关系。再以这些人-物匹配对作为输入，送入到关系理解网络中，分类输出人物交互关系，从而得到人-物位置和对应的交互关系类别。这些方法由于目标检测和关系理解两个任务分开学习，无法端到端训练，因此无法很好地检测出那些存在交互关系的实例。

后面出现的一阶段的人物交互关系检测器为了缓解这些问题，提出利用多任务学习方式同时完成两个子任务。这些方法并行处理两个子任务时仍然需要一个交互关系与人物匹配的过程，才能有效地区分开不同的人物交互关系实例。因此以往并行处理的方法效率并不高。另一些方法利用共享预测器同时预测人-物对和交互关系的方法虽然不需要匹配过程。但又由于实例(人和物体)定位任务与关系理解任务被捆绑在一起完成，而这两个任务所关注的重点区域聚焦并不一致，导致最终的人物交互关系检测效果不够好，无法有效地理解一些复杂的容易让人混淆的交互关系。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种人物交互关系检测方法及系统，旨在解决多任务注意力视野范围不一致的技术问题。

为实现上述目的，第一方面，本发明提供了一种人物交互关系检测方法，包括：

提取待识别图像的特征，并利用Transformer编码器对提取的特征进行全局上下文信息编码；

将编码后的特征同时输入并行的实例级预测器和交互关系级预测器，并将所述实例级预测器和交互关系级预测器的输出一一对应进行组合，得到至少一组人物交互关系；

其中：

所述实例级预测器包括第一Transformer解码器和三个前馈神经网络，所述第一Transformer解码器利用第一查询向量对编码后的特征进行解码，并将解码得到的特征向量分别输入所述三个前馈神经网络，分别得到人体边界框、物体边界框和物体类别；

所述交互关系级预测器包括第二Transformer解码器和两个前馈神经网络，所述第二Transformer解码器利用第二查询向量对编码后的特征进行解码，并将解码得到的特征向量分别输入所述两个前馈神经网络，分别得到交互关系边界框和交互关系类别；

所述第一查询向量和第二查询向量一一对应。

进一步地，获得至少一组人物交互关系之后，利用公式

计算第i组人物交互关系预测分数；滤除预测分数低于分数阈值的人物交互关系组；

其中，

代表第i组人物交互关系预测分数，

代表实例级预测器中第i个输出物体的最大类别概率的得分，

代表交互关系级预测器中第i个输出关系的多类别概率得分。

进一步地，对剩余人物交互关系组进行去重，获得不重复的人物交互关系。

进一步地，所述对剩余人物交互关系组进行去重，获得不重复的人物交互关系，包括：

计算剩余人物交互关系组中任意两组人物交互关系预测之间的三叉戟交并比，若所述三叉戟交并比高于重叠阈值，则滤除其中人物交互关系预测分数较低的人物交互关系组。

进一步地，所述第一Transformer解码器和第二Transformer解码器为三层Transformer解码器。

进一步地，根据损失函数更新所述人物交互关系检测系统的模型参数，所述损失函数包括人体边界框、物体边界框回归损失，人体边界框、物体边界框交并比损失，物体类别损失，交互关系边界框回归损失，交互关系交并比损失，交互关系类别损失，人体与物体的联合边界框与交互关系边界框的一致性约束损失。

第二方面，本发明提供了一种人物交互关系检测系统，包括：图像特征提取器，实例级预测器、交互关系级预测器以及后处理单元；其中，

所述图像特征提取器，用于提取待识别图像的特征，并利用Transformer编码器对提取的特征进行全局上下文信息编码；并将编码后的特征同时输入并行的实例级预测器和交互关系级预测器；

所述交互关系级预测器包括第二Transformer解码器和两个前馈神经网络，所述第二Transformer解码器利用第二查询向量对编码后的特征进行解码，并将解码得到的特征向量分别输入所述两个前馈神经网络，分别得到交互关系边界框和交互关系类别；且所述第二查询向量和第一查询向量一一对应；

所述后处理单元，用于将所述实例级预测器和交互关系级预测器的输出一一对应进行组合，得到至少一组人物交互关系。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明的实例级预测器的实例级查询向量和关系级预测器的交互关系级查询向量是一一对应的关系，因此他们之间并不需要任何实例与关系的匹配程序，从而在不增加额外的计算量的前提下更好地理解一些复杂的容易让人混淆的交互关系。

(2)本发明在训练过程中设计了一个人体与物体的联合边界框与交互关系边界框的一致性约束损失，从而使得人-物对定位框的联合区域与关系理解的整体关注区域尽可能一致，避免关系理解偏离了人-物对本身。

(3)在推理过程中，本发明设计了三叉戟型非极大值抑制后处理模块(Trident-NMS)，综合考虑人、物以及关系区域的重叠性，从而达到更好的后处理效果。

附图说明

图1是本发明提供的一种人物交互关系检测方法的流程示意图；

图2是本发明提供的一种人物交互关系检测系统的框图。

具体实施方式

为了使本发明的目的、系统组成、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限制本发明。此外，下面所述的本发明的各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互结合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

参阅图1，本发明提供了一种人物交互关系检测方法，该方法基于本发明提出的并行推理网络来解决多任务注意力视野范围并不一致的问题，目标是在不增加额外的计算量的前提下更好地理解一些复杂的容易让人混淆的交互关系。具体地，并行推理网络包含了两个并行的预测器，他们分别关注实例级定位和关系级理解。并且本发明的实例级预测器的实例级查询向量和关系级预测器的交互关系级查询向量是一一对应的关系，因此他们之间并不需要任何实例与关系的匹配程序，从而大大减轻了计算负担。除此以外，本发明在训练过程中设计了一个人-物框与关系框的一致性约束损失，从而使得人-物对定位框的联合区域与关系理解的整体关注区域尽可能一致，避免关系理解偏离了人-物对本身。在推理过程中，本发明设计了三叉戟型非极大值抑制后处理模块(Trident-NMS)，综合考虑人、物以及关系区域的重叠性，从而达到更好的后处理效果。

参阅图2，展示了并行推理网络的整体框架。并行推理网络在结构上主要包含图像全局特征提取及信息交互模块和两个平行预测器模块(实例级预测器和交互关系级预测器)。两个预测器分别用来解耦实例信息(比如人体边界框，物体边界框，物体类别)和交互关系信息(交互关系边界框，交互关系类别)。此后，分别利用分别针对实例级和交互关系级的损失函数来学习实例的位置和每一个人-物体对之间的交互关系。最后，引入三叉戟型非极大值抑制来有效地滤除重复的人物交互关系预测。图2中的整体框架包含四部分：图像特征提取模块，实例级预测器和交互关系级预测器，训练和后处理单元。本发明首先利用CNN和Transformer结合的结构提取序列化的视觉特征。再利用实例级预测器预测出人和物体的类别和边界框，利用交互关系级预测器预测出交互关系的类别和联合框。训练过程中采用多个损失函数联合组成的多任务训练联合方式，评估过程中本发明使用了三叉戟型非极大值抑制方法。

(1)图像特征提取模块

整个图像全局特征提取及信息交互模块包括一个标准的卷积神经网络主干(CNNBackbone)f_c和一个Transformer编码器f_e。前置的常规卷积神经网络主干将输入图像x∈R³ ^×H×W转变成全局上下文特征图z∈R^{c×H′×W′}，其中图像被下采样到通道维度为c且空间尺寸为(H′,W′)的形状。然后，全局上下文特征图被序列化为连续的标记序列，其中特征图的空间结构被折叠成一个维度为H′×W′的标记序列。之后，标记序列会被线性映射为T＝{t_i|t_i∈R^c′}，其中N_q＝H′×W′。最后，这些被映射完成的标记序列会被送入Transformer编码器。

对于Transformer编码器部分，每个编码器层都依照标准的Transformer架构，其中包括多头自注意力模块(Multi-head Self Attention,MSA)和前馈神经网络(FeedForward Network,FFN)。额外的位置嵌入q_e∈R^{c′×H′×W′}也会被添加到序列化的连续标记中从而补充位置信息。在自注意力交互层的基础上，编码器可以将前面CNN输出的全局上下文特征图映射成上下文信息更丰富的特征图。最后，这些编码好的图像特征集合{d_i|d_i∈R^c′}会被表征为视觉记忆E＝f_e(T,q_e)。这个视觉记忆E包括了图像中完整且丰富的上下文信息。

(2)实例级预测器

实例级预测器包括一个三层的标准Transformer解码器和三个小的前馈神经网络(Feed Forward Networks,FFNs)。Transformer解码器f_ip会对视觉记忆E依据一系列随机初始化可学习的实例级查询向量

进行解码，其中每个查询向量均会加上正弦型位置嵌入

实例级查询向量被用来训练学习出更精准的实例位置，其注意力更集中在那些有关于实例位置的局部信息。三个小的前馈神经网络(FFN)包括人体边界框FFNφ_hb，物体边界框FFNφ_ob，物体类别FFNφ_oc，它们分别是针对人体边界框

物体边界框

和物体类别

的特征变换。具体可由如下公式表示为：

可以理解的是，一个实例级查询向量对应一组人体边界框、物体边界框和物体类别。

(3)交互关系级预测器

本发明将交互关系理解问题从人物交互关系检测(HOI Detection)问题中解耦出来，并用一个交互关系级预测器从更大尺度范围的语义中推理出交互关系。本发明提出用一个交互关系边界框去指导交互关系级预测器感知人和物体之间的语义关系。交互关系级预测器包含一个三层的标准Transformer解码器f_rp和两个小的前馈神经网络FFNs。交互关系级查询向量

被随机初始化，交互关系级位置嵌入

被设定为正弦模式，两者相加之后一起送入Transformer解码器f_rp中，利用其对视觉记忆E进行交互关系级的解码，获取到图像中交互关系级的特征。再将从Transformer解码器f_rp输出的交互关系特征分别送入交互关系边界框FFNφ_rb和交互关系类别FFNφ_rc，它们分别可解耦出交互关系边界框

和交互关系类别

具体可由如下公式表示为：

可以理解的是，一个交互关系级查询向量对应一组交互关系边界框和交互关系类别。

归因于交互关系边界框的约束，交互关系级预测器中的Transformer解码器会被指导去扩大注意力视野(此现象可从图2中观察到)。交互关系级查询向量Q_r也会更多地关注人和物体发生交互关系的整个区域，而不是局限于交互关系中的某一个人或者物体。因此，相比于以往的交互关系预测方法，本发明的交互关系预测器可以更全面细致地理解关系语义，从而能更准确地识别出复杂的交互关系。

另外，为了将交互关系级预测器输出的交互关系类别

与实例级预测器输出的体边界框

物体边界框

和物体类别

相匹配，本发明采取了交互关系级查询向量Q_r与实例级查询向量Q_i一对一按顺序捆绑的方式进行预测。具体地，对于实例级预测器的第i个实例输出

和交互关系级预测器的第i个交互关系输出

其对应的人物交互关系标签会是同一个，

描述的是人体框

和物体框

之间的交互关系。这样的简单设计可以让不同级别的预测器聚焦于不同大小的注意力视野的同时，摒弃掉以往复杂的实例和交互关系匹配步骤比如HOTR中HOPointer，从而在更小的计算量下达到更好的人物交互关系检测性能。

(4)训练和后处理单元

并行推理网络的训练损失函数计算步骤包含两部分：交互关系预测和标签之间的二分图匹配和交互关系匹配对的损失计算。

对于二分图匹配部分，本发明依据DETR的匹配步骤使用匈牙利匹配算法。首先利用φ(无交互关系)将每张图像中的人物交互关系标签填充到长度为N_q的序列。然后利用匈牙利算法在N_q个元素的序列

的所有可能排列中找到最优的标签分配方案

具体可由如下公式表示为：

其中

代表第i个人物交互关系标签和第j个人物交互关系预测之间的匹配代价，ω(i)代表与第i个人物交互关系标签匹配上的人物交互关系预测，

代表序列长度为N_q的预测与标签之间所有可能的匹配排列。

匹配代价

包含六种类型的代价：实例边界框回归代价

交并比(IoU)代价

物体类别代价

交互关系类别代价

交互关系边界框回归代价

交互关系交并比代价

上述的这些代价可用公式表示为：

其中η_b、η_u、η_c、η_r、η_rb和η_ru是调整每类代价的权重值的超参数，Φ代表对应到φ(无交互关系预测)的标签索引集合，

在第i个人物交互关系标签不属于空标签时为1，否则为0，∈是一个避免出现除数为零的较小常量，GIoU(·,·)代表广义的交并比(Generalized IoU)，

和

代表第i个正则化到[0,1]⁴之间的人体边界框标签、物体边界框标签和交互关系边界框标签，

和

代表第j个正则化到[0,1]⁴之间的人体边界框预测、物体边界框预测和交互关系边界框预测，

代表第i个长度为N_obj的物体类别独热标签向量，

代表第i个长度为N_rel的交互关系多类别标签向量，

代表第j个长度为N_obj+1的物体类别预测概率向量，其中包含了背景类别概率预测，

代表第j个长度为N_rel的交互关系多类别预测概率向量，多个交互关系可同时存在。

上述匹配代价中的前两项边界框匹配代价

和交并比匹配代价

都是依据DETR设定的。在计算

和

时，并没有选择最小化人体和物体边界框的平均匹配代价，而是最小化两者中较大的匹配代价，从而避免出现由于其中一个匹配代价显著低于另一个时匹配出偏差甚远的预测结果。物体类别匹配代价

表征为物体标签类别的预测概率的负数，对应真值标签的预测概率越大，则物体类别匹配代价越小。交互关系类别匹配代价

表征为一对人和物体之间所有正负交互关系样本的预测概率加权和。交互关系类别匹配代价

同时考虑了正负交互关系样本，并且利用正样本数量的倒数作为交互关系类别匹配代价中正样本部分的权重，反之亦然。由于通常交互关系正样本的数量会比负样本的少很多，因此两者之间的平衡非常有必要。交互关系边界框回归代价

表征为交互关系预测边界框与人物联合边界框标签之间的

距离。交互关系交并比代价

表征为交互关系预测边界框与人物联合边界框标签之间的广义交并比的负数。

训练过程中需要优化的损失函数可依据交互关系匹配对的原则按照如下公式进行计算：

其中，

为人体边界框、物体边界框回归损失，

为人体边界框、物体边界框交并比损失，

为物体类别损失，

为交互关系类别损失，λ_rb为交互关系边界框回归损失，

为交互关系交并比损失，

为人体与物体的联合边界框与交互关系边界框的一致性约束损失。需要说明的是，人体与物体的联合边界框就是能同时包含住人体边界框和物体边界框的边界框。λ_b、λ_u、λ_c、λ_r、λ_rb、λ_ru和λ_consis是调整每个损失函数的权重值的超参数，N_q是预测序列长度，

是第i个交互关系标签匹配到的交互关系预测索引，

是对应到真实标签的索引集合，

是真实标签指示器，如果存在真实标签则为1，

是空标签指示器，如果存在空标签则为1，l_f(·,·)是以元素为单位的焦点损失函数(element-wise focalloss function)。对于focal loss的超参数，本发明使用focal loss中的默认设定，其余变量含义参照匹配代价

中公式的解释说明。

并行推理网络的测试过程可以被分为两部分：人物交互关系的预测结果计算和三叉戟型非极大值抑制后处理模块。

为了获取最终的人物交互关系检测结果，本发明需要利用实例级预测器输出人体边界框、物体边界框和物体类别，利用交互关系级预测器输出交互关系类别。基于上述的这种预测，本发明可以按如下公式计算最终的人物交互关系预测分数：

其中

代表实例级预测器中第i个输出物体的最大类别概率的得分，

代表交互关系级预测器中第i个输出关系的多类别概率得分。值得注意的是每个人-物体对仅包含一个确定类别的物体，但在这个人-物体对中却可能存在多个人物交互关系。

对于图像中预测的每类人物交互关系(HOI)，本发明都依据上述公式计算出的人物交互关系预测得分，通过本发明提出的三叉戟型非极大值抑制后处理模块进行重复预测滤除。具体地，如果第i个和第j个人物交互关系预测之间的三叉戟交并比TriIoU(i,j)高于重叠阈值Thres_nms，便会滤除其中人物交互关系预测得分较低的预测。TriIoU(i,j)的计算公式如下：

其中

和

分别代表第i个和j个人体边界框、物体边界框以及交互关系边界框之间的交并比。W_h、W_o和W_rel分别代表人体交并比、物体交并比以及交互关系交并比对应的权重。

为进一步验证本发明的实用性，本发明使用ResNet-50和ResNet-101作为并行推理网络的骨干特征提取器。并行推理网络中的Transformer编码器为6层，每层中的多头注意力模块(Multi-Head Self Attention Module)的头数设定为8个。实例级预测器和交互关系级预测器中的Transformer层数均设定为3层。并行推理网络中的视觉记忆(VisualMemory)的隐藏层维数设定为256。实例级查询向量和交互关系级查询向量的数量都设定为100个。针对人体边界框、物体边界框和交互关系边界框预测的前馈神经网络(Feed-Forward Networks,FFNs)均设定为三层配备ReLU非线性映射函数的全连接层，而针对物体类别和交互关系类别预测的前馈神经网络(Feed-Forward Networks,FFNs)分别设定为一层配备Softmax和Sigmoid非线性映射函数的全连接层。在训练过程中，本发明使用在MS-COCO数据集上训练过的DETR参数对并行推理网络进行网络权值初始化。本发明将边界框回归(包括人体、物体和交互关系)、边界框广义交并比(包括人体、物体和交互关系)、物体类别、交互关系类别和交互关系一致性的损失函数权重系数和匹配代价权重系数均分别设定为2.5、1、1、1和0.5。本发明通过AdamW优化器对整个并行推理网络进行优化，其中权值衰减(weight decay)设定为10^-4。本发明对模型进行了150个周期(epoch)的训练，其中骨干特征网络的学习率设定为10^-5，网络其余部分的学习率设定为10^-4，学习率会分别在第100和130个周期时下降10倍。整个训练过程中每一次迭代的批次大小(batch size)被设定为16。

本发明的并行推理网络选择得分最高的100个检测结果进行验证评估，并在其后使用本发明提出的三叉戟型非极大值抑制模块(Trident-NMS)对并行推理网络输出的人物交互关系检测结果进行更进一步的重叠过滤。试验表明，本发明的并行推理网络可以在人物交互关系检测的两个公开评测基准HICO-DET和V-COCO上分别实现32.86和62.9的平均精度。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人物交互关系检测方法，其特征在于，包括：

其中：

所述第一查询向量和第二查询向量一一对应。

2.根据权利要求1所述的人物交互关系检测方法，其特征在于，获得至少一组人物交互关系之后，利用公式

其中，

代表第i组人物交互关系预测分数，

代表实例级预测器中第i个输出物体的最大类别概率的得分，

代表交互关系级预测器中第i个输出关系的多类别概率得分。

3.根据权利要求2所述的人物交互关系检测方法，其特征在于，对剩余人物交互关系组进行去重，获得不重复的人物交互关系。

4.根据权利要求3所述的人物交互关系检测方法，其特征在于，所述对剩余人物交互关系组进行去重，获得不重复的人物交互关系，包括：

5.根据权利要求1至4任一项所述的人物交互关系检测方法，其特征在于，所述第一Transformer解码器和第二Transformer解码器为三层Transformer解码器。

6.根据权利要求1所述的人物交互关系检测方法，其特征在于，根据损失函数更新所述实例级预测器和交互关系级预测器的网络参数，所述损失函数包括人体边界框、物体边界框回归损失，人体边界框、物体边界框交并比损失，物体类别损失，交互关系边界框回归损失，交互关系交并比损失，交互关系类别损失，人体与物体的联合边界框与交互关系边界框的一致性约束损失。

7.一种人物交互关系检测系统，其特征在于，包括：图像特征提取器，实例级预测器、交互关系级预测器以及后处理单元；其中，

所述后处理单元，用于将所述实例级预测器和交互关系级预测器的输出一一对应进行组合，得到多组人物交互关系，并进行低分预测过滤和重复预测过滤。