CN116311518A

CN116311518A - 一种基于人体交互意图信息的层级人物交互检测方法

Info

Publication number: CN116311518A
Application number: CN202310266335.7A
Authority: CN
Inventors: 孔德慧; 王帅; 李敬华; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-06-23
Anticipated expiration: 2043-03-20
Also published as: CN116311518B

Abstract

本发明公开了一种基于人体交互意图信息的层级人物交互检测方法，分为1)目标检测：检测输入图像中的所有对象实例。2)人物交互检测：对图像中所有的<人‑物体>对实例进行人物交互检测。通过视觉特征的设计抽象出人体注视信息来建模交互参与者关注的上下文区域；提出面向人体交互意图的人体姿态图构建，优化身体运动对交互检测的差异信息；使用人和物体之间的距离‑特征作为引导视觉距离特征的优化，提升人物交互检测算法的性能。

Description

一种基于人体交互意图信息的层级人物交互检测方法

技术领域

本发明属于计算机视觉和人物交互检测领域，研究了一种新的人物交互检测方法。

背景技术

目标检测与识别是图像分析和图像理解的基础与前提，其目的是定位图像或视频序列中物体的位置、并识别出相应的物体类别。它是计算机视觉中重要的基础问题之一。然而，为了更好地理解视觉世界，计算机不仅应该准确地检测场景中的个体目标实例，还应该进一步理解场景中的人与物体之间的交互方式。人物交互检测(HOI Detection)就是进一步地在更高层次上对场景中人类的行为进行理解，它要求模型准确地定位出场景中人和物体的位置，同时正确预测出他们之间存在的各种交互行为。通过研究人物交互检测来更好地了解理解人与世界的互动方式，使机器具备像人类一样观察和理解周围环境并做出快速决断的机制，可以促进智能安防、智能服务型等机器人技术的发展。由此看来，人物交互检测技术不仅具有重要的理论研究意义和实用价值，还蕴含着广阔的发展潜力。

早期人物交互检测方法主要依靠视觉特征来捕捉人与物体之间的上下文关系，或是使用结构化的身体和物体的空间位置关系来训练人物交互模型。比如，Chao等人提出了网络HO-RCNN，首次将对象空间关系和人物的实例特征用于人物交互检测。Liao等人提出将人物交互检测作为关键点检测和组匹配问题，使用纯视觉特征来预测交互类别。但这些仅依靠粗糙的视觉信息和空间关系的检测方法精度有待提升。为进一步提高检测精度，以实例为中心的注意力网络iCAN在人流和对象流中添加了注意力机制，以自动提取重要的上下文特征。Shen等人提出了HOI分解模型，构建了由一组视觉特征提取层、动词分离和目标检测网络组成的高精度人物交互检测网络。但是，人物交互检测是检测以人为主体对物体发出的动作行为，上述方法仅提取粗糙的人和物体区域视觉特征和空间特征，缺乏对人体信息的提取和使用，从而导致这些算法的精度不高。为此，一些研究学者提出将人体姿态信息用于人物交互检测任务中。Li等人使用姿势估计网络和人类姿态分支来构建交互检测网络，并对网络的交互性进行了区分，使模型能够学习交互性知识。Liang等人规范了人体边界框的中心，构建了绝对空间姿态特征，并提出了基于人体姿态的模块化网络PMN。Kim等人发现交互动作之间存在自然相关性或相反性，提出了一种用于身体部位注意力的新型成对HOI识别框架。但是由于从不同方向角度、以不同焦距拍摄的同一人物交互行为在姿态上的差异会很大，并且随着场景中人物实例的增多，人体重叠遮挡现象出现的概率增加。由于缺乏检测网络各层之间粒度的互补性，仅在宏观角度上简单地融入粗粒度人体姿态信息训练的模型精度提升并不大并且模型鲁棒性不高，整体性能上仍面临着精度较低的问题。

为了解决上述这些问题，获取更高的人物交互检测精度，本发明提出了一种由人体交互意图信息增强的层级人物交互检测算法，即HII-Net(Hierarchical HOI DetectionFramework Augmented by Human Interactive Intention),实现基于多粒度互补的人体交互意图信息的人物交互检测。与人物交互检测算法PMFNet相比，HII-Net引入宏观的人体注视信息，微观的人体关节信息以及介于两者之间的中观的人体部位信息，它们共同为HOI检测提供了布局和外观之外的视觉交互线索，使模型预测更加准确。与Xu et.al等人提出的算法相比，HII-Net创新性地构建了层次化HOI检测网络，粒度由低到高分别为空间布局层、交互意图层以及空间布局层，采用Zoom In的方式逐层提取互补性强的交互信息对特征进行优化提升预测精度。

在现有的人物交互检测数据集HICO-DET和Microsoft COCO数据集的子集V-COCO(Verbs in COCO)上进行实验，验证了本方法的有效性。具体地，HII-Net在HICO-DET数据集上获得了23.24mAP的精度，并且在罕见类别上获得了19.45mAP的精度，与最新的人物交互检测算法PMFNet相比，其相对增益分别为7.56％和9.62％；在V-COCO数据集上获得了52.54mAP的精度。

发明内容

为了进一步提升基于传统多流架构的人物交互检测算法的性能，本发明提出了一种新的基于人体交互意图信息的层级人物交互检测算法，即HII-Net。HII-Net提出通过视觉特征的设计抽象出人体注视信息来建模交互参与者关注的上下文区域；并提出面向人体交互意图的人体姿态图的构建，来优化身体运动对交互检测的差异信息；同时，提出使用人和物体之间的距离-特征作为引导视觉距离特征的优化提升人物交互检测算法的性能。

为此，需要解决的关键技术问题包括：基于人体交互意图的人体注视信息的表示，以使不同视觉特征可以更好地表示交互参与者关注的上下文区域；面向人体关键点的人体姿态图的构建及其运算模式，以增强模型对人体信息的学习能力；基于人体部位信息的交互距离-特征网络的构建，以通过人体部位与物体间交互关系抽象出人物之间距离位置信息。

本发明所提出的基于传统多流架构的人物交互检测算法可以分解为两阶段。1)目标检测：检测输入图像中的所有对象实例。2)人物交互检测：对图像中所有的<人-物体>对实例进行人物交互检测。HII-Net网络结构设计如图1所示。

1)目标检测：该部分主要负责对RGB图像中的对象实例进行目标检测，以获取对象的目标框、对象类别和对象检测得分，并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测。在实验中，我们使用在COCO数据集上预训练的Faster R-CNN作为目标检测器。

2)人物交互检测：人物交互的场景复杂，人参与不同的交互时，都会有不同的动作姿态，对于实例“人吃苹果”和“人打电话”，两者的动作非常接近，只不过前者的物体更靠近人的嘴巴，后者的物体更靠近人的耳朵，所以简单地利用视觉和空间特征不能得到高性能预测。人物交互检测的本质是检测人体交互意图(即动作)，我们设计利用多粒度人体信息构建交互意图层以对原有的空间语义信息进行细节的补充。同时，考虑到人物交互检测数据实例尺寸大小的多样性，如果构建粒度互补的层级化交互检测网络，在整体三层框架上，可以实现宏观、中观和微观三种不同粒度的交互信息的互补，不仅可以提高整体性能，还可以兼顾复杂场景下的人物交互检测性能。基于这些动机，我们提出了基于RGB图像的人物交互检测算法HII-Net。

HII-Net的创新点主要包括以下三点。其一，考虑到人体的注视区域蕴含着HOI检测的关键区域信息，即人体注视信息会对人类交互意图提供重要线索，我们建模了交互参与者注视的区域信息，利用人体的注视线索来在复杂场景中引导人体关注的上下文区域。其二，考虑到对于大多数交互行为来说，使用关于人的姿态线索可以对结果产生积极的影响，我们提出面向人物交互检测的人体姿态图的构建，并将与空间布局支流融合，共同构成空间&姿态分支流，来优化身体运动对交互检测的差异信息。其三，由于不同交互类行为(例如：吃、骑、打开等)仅与人体的某些部位相关联，我们在网络中加入更细粒度的人体信息，构建人体部位的距离-特征图，使视觉特征关注与人物交互行为更相关的区域特征，过滤与人物交互行为无关的区域特征，使HII-Net在人物交互检测性能上获得进一步提升。

人物交互检测算法HII-Net的输入为RGB图像x_i、人的检测框信息

物体的检测框信息/>

输出为图像中所有的<人-物>对实例的交互行为得分/>

用公式描述如下：

其中，

为图像/>

中m个人的集合，/>

为图像/>

中n个物体的集合，函数/>

对应本文的HII-Net算法模型。因此，/>

表示m个人与n个物体交互所产生的mn个<人-物体>对实例的交互行为得分。

人物交互检测算法HII-Net采用层级化网络结构设计，由空间布局层、交互意图层和客观外表层构成。为清晰可见，我们按照层级化网络架构逐层介绍网络结构以及算法整体流程，然后以小节形式介绍各层涉及的人体注视特征和人体姿态特征等交互意图线索的构建及其运算模式等组件。

i.层级化网络结构

层级化网络结构由空间布局层、交互意图层和客观外表层构成。为了得到各分支的输入特征，我们使用残差网络ResNet50提取所需要的视觉特征。原始输入图像首先经过目标检测网络Faster R-CNN进行目标检测，获得原始输入图像的人、物体检测框信息后将标记有人、物体位置的图像输入ResNet50网络提取图像的全局特征图。我们采用两阶段HOI检测过程，给定输入图像x_i，该框架首先通过空间布局支流、人体注视支流和外观流获得交互判断阶段的结果S_j，判断结果高于阈值的人-对象对将进入交互分类阶段。进入第二阶段的候选人类对象对继续通过空间布局流、外观流、姿态流和身体部位流，以获得最终的HOI分类结果S_c。其中，通过从其他社交活动数据集的转移学习获得人体关节位置和注视信息。接下来，我们将逐一介绍网络HII-Net的每一层，HII-Net整体流程图如图2所示。

空间布局层：空间布局层的目的是在宏观交互层面上获得交互式空间布局信息。由于在HOI检测任务中需要实例之间的位置信息，因此可以借助空间位置关系来定位场景中实例的位置。由于我们关注人和对象的空间位置，因此该层的输入忽略像素值，仅使用边界框的位置信息。对于空间布局层的空间流分支，输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图M_sp。空间特征图M_sp的编码规则为：实例的边界框内的像素值设置为1，在两个通道中将实力边界框外的其他值设置为0。所以对于给定的一对人类对象边界框，其空间交互映射被定义为具有两个通道的二进制图像：第一个通道对应于人类的二进制模式，第二个通道对应对象。这种表示使神经网络能够学习二维滤波器，以响应二维人类空间交互模式。此外，二进制图需要缩放到固定大小m×m。。M_sp通过浅层卷积神经网络进行特征提取，利用两个最大池化卷积层(Max Pooling)和两个全连接层来提取空间布局流的特征f_sp，参与最终的交互类别分类，用公式描述如下：

f_sp＝W_sp1f_cnn(M_sp) (2)

S_sp＝Sigmoid(W_sp2f_sp) (3)

其中，

表示全连接层参数矩阵，并使用Sigmoid非线性激活函数对<人-物体>对空间特征进行人物交互分类,S_sp表示空间流特征在各交互类别上的概率得分。

客观外表层：客观外表层包含一个人流分支和一个物流分支，为网络提供微观交互级别的像素级外观预测信息。我们采用包含全局平均池化的残差模块从全局外观特征中提取人和物体的视觉特征f_h和f_o，然后我们将提取的F_h和F_o缩放到固定大小p×p。并通过两个全连接层进行特征增强后计算人流特征和物流特征在交互类别上的概率得分S_h和S_h,用公式描述如下：

S_h＝Sigmoid(W_hf_h) (4)

S_o＝sigmoid(W_of_o) (5)

其中，公式(4)和(5)分别表示两个全连接层运算,W_h和W_o表示全连接层参数矩阵。为方便起见，下文我们用

表示上述全连接操作。

交互意图层：尽管空间布局层和客观外表层分别从宏观和微观角度提供了交互预测信息，但仍然缺乏中观层面的交互意图信息。交互意图层可以挖掘中观视角的信息，减少从宏观和微观角度来看可能会出现某些不可预测的情况，从而可以挖掘更深层的交互意图信息。受上述原因的启发，我们构建了一个人类交互意图驱动的交互意图层，提供了一种新的计算视角来利用视觉上可观察到的三种形式的人类意图，它由以下三个支流组成：

(1)人体注视支流：人类的注视信息可以被认为是一种宏观层面的交互意图，人类注视的区域通常包含HOI检测的关键区域信息，明确传达了交互意图。当一个人想要拿起一个物体时，他通常会在伸手去拿它的同时注视着物体的方向。通过眼睛感知潜在目标，可以促进相互作用的推断。

我们使用预训练的双流模型获得人类注视区域。预训练的注视预测模型将输入图像I和由人类姿势估计网络计算的人眼中心的位置作为输入，输出固定区域的概率密度图G。语序网络由显著性路径和注视路径组成。凝视路径只能访问人的头部及其位置的特写图像，并获得大小为D×D的热图M(x_h,x_p)。显著性路径将完整图像作为输入，并获得另一个热图H(x_i)，它可以学习对象的重要性。将这两个结果与元素乘积相结合，得到以下等式：

其中，x_i是输入图像，x_h是裁剪的人体特征的特写图像，x_p是人体头部的量化空间位置。

对于图像中的每个人类实例，选择k个候选对象区域b＝(b¹,...,b^k)。对于每个候选区域b∈b、我们计算其注视权重g_b。其中g_b是通过将b中密度图G的值相加，然后将b的面积归一化为：

然后，我们从k个候选区域中选择具有最大g_b的区域R作为人类注视的区域。对于所选区域R，我们定义其对应的特征向量f_g＝{f_a，f_l，f_c}。其中，f_a是对象b的外观向量，f_l是包含l_x，l_y，l_w，l_h的四维向量，其中l_x，l_y指定边界框的坐标距离，l_w，l_h指定对数空间中的高度/宽度，f_c是目标分类器得分向量。

(2)人体关键点支流：作为一种微观层面的交互意图，人类的关节属性具有很强的交互表达能力。事实上，对于大多数交互，准确区分它们的能力还需要特定的姿势信息。由于二元空间模式以及人和对象实例的外观特征的弱约束力，我们利用人体关键点的位置来获取姿态位置信息，增强位置约束，以降低身体运动对交互检测的差异。

首先，我们利用人类姿态估计来估计人体的17个人类关键点。然后，我们将17个关键点与不同灰度值(0.15～0.95)的线连接起来，并将其他区域设置为0以构建姿势图。由于具有不同灰度值的线段表示不同的身体区域，因此该建模方法可以隐式编码姿势特征。我们使用两个最大池卷积层和两个FC层将姿态图与人和对象的布局图连接起来，以提取空间姿态流的特征f_sp，具体过程如图2所示。

为了使四个影响因素对交互判断过程产生影响，我们将f_g,f_sp,f_h和f_o连接起来，得到联合整体向量f_hol。然后我们将交互判断阶段的预测得分S_j设置为：

在该阶段输出的二维概率向量中，第一维度是交互作用存在的概率，第二维度是交互不存在的概率。我们使用阈值δ来定义交互作用是否存在。如果概率值高于δ，则存在相互作用，否则不存在相互作用。如前所述，对于给定的人类对象对(b_h,b_o)，我们首先要判断交互是否存在。只有被判断为具有交互作用的人-物体对才能进入以下分类阶段。

(3)身体部位支流：在实际场景中，一些交互行为仅与人体相对细微的局部部位和关节有关。例如，“握”和“切”的动作仅仅与我们的手部有关。例如，对于交互＜吃，汉堡＞，手和汉堡之间的距离以及手的微观局部特征至关重要。作为中观层面的意图线索，通过联合获得的人体部位与物体之间位置信息可以反映中观层面的交互意图线索。

首先，我们分别构建身体各部位与物体之间的2通道距离图如图3所示。具体的，我们将对象的全局特征中的中心点的位置坐标定义为<h_x,h_y>，将人类定义为<o_x,o_y>，其中x和y分别为x和y方向上的坐标。全局外观特征的长度和宽度设置为H和W。然后，我们定义两个位置向量a和b，向量a从<o_x,o_y>定义为<h_x,h_y>；向量b被定义为人类地图中的每个像素<h_x,h_y>。

接下来，构建一个维度为H×W的2通道距离图。首先，我们使用余弦距离来反映身体和物体之间方向的相对差异，这可以反映它们之间的位置关系。因此，第一通道中人体框的像素值是向量a和向量b之间的余弦距离。然而，余弦距离不能区分同一方向上向量之间的距离，我们引入欧氏距离来捕捉两个向量之间的绝对距离差。因此，第二个通道的人体框的像素值是向量a和向量b之间的欧氏距离。最后，我们将两个通道的人体框外部的像素值设置为0。这样，我们就可以使用2通道距离图来建模人体部分和对象之间的位置距离关系。

获得距离图后，我们将构建的距离图与通道维度中的全局外观特征图接起来，得到我们的距离-特征图如图3所示。

我们使用现有的姿势估计方法来获得关键点(人体关节)的位置，然后根据关键点确定相应的人体部位。具体来说，我们以各个人类关键点为中心的矩形，构造其大小为原始输入图像面积的1/10的17个矩形，获取的矩形区域就用作身体部位所在的区域。因此，获得了表示人体各部分的边界框之后，基于各个身体部位的边界框，我们使用ROI池化从距离-特征图中提取相应的区域，并缩放到q×q。为了结合每个身体部位对交互检测的影响，我们将获取到的所有人体部位的距离-特征图连接起来，并使用FC层将其转换为身体部位支流的特征向量f_part，具体过程如图3所示。

v.模型优化与交互得分融合

损失函数：由于我们方法的总体结构包括两个阶段，因此在计算损失时应单独考虑，考虑到分类损失通常使用交叉熵损失函数CE()计算：

其中，Y_ij是真实行动标签，S_ij是预测行动得分，

是M批样本的平均值。为了考虑每个流的影响并使损失函数更好地收敛，我们添加了每个流的损失和交互检测阶段的总体损失，这使得可以更有效地更新每个流的参数。

因此，交互判断阶段的损失可根据以下公式计算：

其中，Y_J和S_J是真实标签和交互判断模块的最终预测分数。为了考虑每个流的影响并使损失函数更好地收敛，我们添加了每个流的损失和交互检测阶段的总体损失，这使得可以更有效地更新每个流的参数。交互分类模块的总体损失函数如下：

其中，α和β是所有流的分支损失系数和总损失系数，Y_C是相互作用分类阶段的标签。当对网络进行联合训练时，使用两个阶段的总损失函数L来更新参数：

交互得分融合：由于身体部分流的特征向量f_part不仅包含人体的精细特征，还反映了人与物体之间的位置关系，因此我们将其视为一个独立的流。我们使用后期融合策略来融合四个流。首先，我们使用FC层将每个流的特征向量映射到交互预测分数S_h、S_o、S_p和S_part，然后我们融合每个流的预测分数。考虑到空间信息和人体信息是互补的，我们首先融合S_h、S_o和S_part，然后我们用它乘以S_p。因此，最终检测结果的最终交互预测得分向量S_c被设置为：

其中，操作

和/>

分别表示逐元素求和乘法。分层思想和两阶段策略的结合可以更好地利用每个像素级别的特征，进一步提高交互式检测的效果。

3)实验细节：在我们的实验中，为了检测对象和提取特征，我们使用Faster R-CNN和VGG16作为特征主干，在MS-COCO数据集预训练上执行。对象检测框架预测人和对象的边界框(b_h,b_o)和置信度(S_h,S_o)，并保持S_h>0.6人边界框，因此>0.6具有角色外观特征的对象边界框。当获取人的外观特征时，我们将提取的视觉特征缩放到7×7的固定大小(p＝7)；当获取人体部位的特征时，我们将提取的特征缩放到5×5(q＝5)。人与物体二元空间模式图和姿态图被缩放为64×64。

交互判断模块和交互分类模块的人和物体流由具有全局平均池的残差块和输出维度n＝1024的四个FC层组成。空间布局支流由具有最大池的两个卷积层和两个n＝1024FC层组成。在交互判断模块中，通过两个FC层连接并映射每个流的特征向量以预测得分。该算法使用Tensorflow实现，并部署在具有单个Nvidia 3090 GPU的机器上。随机梯度下降法(SGD)用于训练网络。我们将初始学习率设置为1×10-4、重量衰减至1×10-4.在测试模型时，交互判断模块的概率阈值δ设置为0.3，交互分类模块的损失系数α、β分别设置为1.3和0.7。

附图说明

图1 HII-Net整体流程图。

图2 HII-Net网络结构设计图。

图3 距离-特征图的获取过程图。

具体实施方式

以下结合附图和实施例进行详细说明。

为了验证HII-Net的实际效果，我们使用公开的人物交互检测数据集HICO-DET和V-COCO进行人物交互检测性能评估。我们跟随前人的评估方法，使用平均精度AP评估每一类人物交互行为的精度，然后对所有类别的AP再取平均值得到最终的平均精度mAP。

对于图像中的一个人-物体对实例，如果人的检测框和物体的检测框与各自的真实矩形框的交并比IoU(Intersection-over-Union)大于0.5，并且当前人-物体对的人物交互类别标签预测正确，那么当前人-物体对为一个正样本。

为了说明本发明的积极效果，我们将提出的HII-Net与最新的人物交互检测方法：iCAN、iHOI、Inteactiveness和PMFNet等进行了比较，通过表1和表2可以看出，我们方法取得了更高的精度。

表1不同方法在HICO-DET测试集上的性能

表2不同方法在V-COCO测试集上的性能

Paper	mAP(Sc.1)	mAP(Sc.2)
			InteractNet	40.0	47.98
GPNN	44.0	-
			iCAN	45.3	52.4
iHOI	48.3
			Xuet.al	45.9	-
Interactiveness	47.8	54.2
			PMFNet	52.0	-
HII-Net(Ours)	52.54	59.71

同时，为了验证本模型各部分的效果，我们在V-COCO数据集上对模型进行了对比试验，对比实验结果如表3所示。其中，我们将HII-Net的基线模型HII-Net[B]定义为由简单的人流分支(Human Stream)、物体流分支(Object Stream)、空间布局流分支(SpatialLayout Stream)构成的模型，此时人物交互检测在V-COCO数据集上的性能为49.82mAP。为表述方便，我们将HII-Net的Baseline、Gaze Stream、Joint-pose Stream和Body partStream分别用B、G、H和P进行表示。

表3在V-COCO数据集上的对比试验性能

Model	mAP(Sc.1)
		HII-Net[B]	49.76
HII-Net[BG]	50.83
		HII-Net[BGH]	51.37
HII-Net[BGHP](Ours)	52.54

HII-Net[BG]：为了验证人体注视信息对人类交互意图的影响，我们建模了交互参与者注视的区域，利用人类的注视信息来在复杂场景中引导人体关注的上下文区域。与HII-Net[B]模型相比，HII-Net[BG]模型性能从49.76mAP增加到50.83mAP，增益1.07mAP。

HII-Net[BGH]：为了验证人体关节信息对人物交互检测性能的影响，我们提出面向人物交互检测的人体姿态图的构建，并将与空间布局支流融合，共同构成空间&姿态分支流，来优化身体运动对交互检测的差异信息。与HII-Net[BG]模型相比，HII-Net[BGH]模型性能从50.83mAP增加到51.37mAP，增益0.54mAP。

HII-Net[BGHP]：为了使视觉特征关注不同人物交互行为更有辨别力的位置特征，忽视无关位置特征，我们提出使用人和物体之间的距离-特征作为引导视觉分支的特征优化，使视觉特征关注与人物交互行为更相关的区域特征，过滤与人物交互行为无关的区域特征。与HII-Net[BGH]模型相比，HII-Net[BGHP]模型性能从51.37mAP增加到52.54mAP，增益1.17mAP。

综上分析，本发明所提出的人物交互检测算法HII-Net通过在视觉特征中融入真实生活场景的交互意图信息，提出通过视觉特征的设计抽象出人体注视信息来建模交互参与者关注的上下文区域；并提出面向人物交互检测的人体姿态图的构建，来优化身体运动对交互检测的差异信息；同时，提出使用人和物体之间的距离-特征作为引导视觉特征的优化，共同完成了对人物交互检测性能的进一步提升。HII-Net在HICO-DET数据集及其罕见(Rare)类别上的检测性能都取得了当前最好效果。

附表1不同HOI算法在V-COCO数据集上结果对比

HOI Class	#pos	iCAN	InteractNet	HII-Net(Ours)
					hold-obj	3608	29.06	37.33	42.52
sit-instr	1916	26.04	31.62	43.26
					ride-instr	556	61.90	66.28	72.38
look-obj	3347	26.49	32.25	35.63
					hit-instr	349	74.11	74.40	76.87
hit-obj	349	46.13	52.59	53.45
					eat-obj	521	37.73	39.14	42.68
eat-instr	521	8.26	9.40	17.28
					jump-instr	635	51.45	53.83	52.64
lay-instr	387	22.40	29.57	34.41
					talk_on_phone	285	52.81	53.59	53.89
carry-obj	472	32.02	40.82	42.74
					throw-obj	244	40.62	43.27	44.67
catch-obj	246	47.61	48.38	48.69
					cut-instr	269	37.18	41.63	43.32
cut-obj	269	34.76	40.14	38.68
					work_on_comp	410	56.29	65.51	66.43
ski-instr	424	41.69	49.95	47.24
					surf-instr	486	77.15	79.70	78.75
HIIteboard-instr	417	79.35	83.39	87.95
					drink-instr	82	32.19	34.36	42.61
kick-obj	180	66.89	66.26	64.86
					read-obj	111	30.74	29.94	39.82
snowboard-instr	277	74.35	71.59	72.64
					Average mAP	682	45.30	48.96	52.54

Claims

1.一种基于人体交互意图信息的层级人物交互检测方法，其特征在于，该方法包括：1)目标检测：检测输入图像中的所有对象实例；2)人物交互检测：对图像中所有的<人-物体>对实例进行人物交互检测；

1)目标检测负责对RGB图像中的对象实例进行目标检测，以获取对象的目标框、对象类别和对象检测得分，并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测；

2)人物交互检测：利用多粒度人体信息构建交互意图层以对原有的空间语义信息进行细节补充；考虑到人物交互检测数据实例尺寸大小的多样性，如果构建粒度互补的层级化交互检测网络，在三层框架上，实现宏观、中观和微观三种不同粒度的交互信息的互补；

人物交互检测方法的输入为RGB图像x_i、人的检测框信息

物体的检测框信息/>

输出为图像中所有的<人-物>对实例的交互行为得分/>

用公式描述如下：

其中，

为图像/>

中m个人的集合，/>

为图像/>

中n个物体的集合；

2.根据权利要求1所述的一种基于人体交互意图信息的层级人物交互检测方法，其特征在于，层级化网络结构由空间布局层、交互意图层和客观外表层构成；为了得到各分支的输入特征，使用残差网络ResNet50提取所需要的视觉特征；原始输入图像首先经过目标检测网络Faster R-CNN进行目标检测，获得原始输入图像的人、物体检测框信息后将标记有人、物体位置的图像输入ResNet50网络提取图像的全局特征图；采用两阶段HOI检测过程，给定输入图像x_i，首先通过空间布局支流、人体注视支流和外观流获得交互判断阶段的结果S_J，判断结果高于阈值的人-对象对将进入交互分类阶段；进入候选人类对象对继续通过空间布局流、外观流、姿态流和身体部位流，以获得最终的HOI分类结果S_c。

3.根据权利要求1所述的一种基于人体交互意图信息的层级人物交互检测方法，其特征在于，空间布局层的目的是在宏观交互层面上获得交互式空间布局信息；借助空间位置关系来定位场景中实例的位置；对于空间布局层的空间流分支，输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图M_sp；空间特征图M_sp的编码规则为：实例的边界框内的像素值设置为1，在两个通道中将实力边界框外的其他值设置为0；对于给定的一对人类对象边界框，其空间交互映射被定义为具有两个通道的二进制图像：第一个通道对应于人类的二进制模式，第二个通道对应对象；使神经网络能够学习二维滤波器，以响应二维人类空间交互模式；利用两个最大池化卷积层和两个全连接层来提取空间布局流的特征f_sp，参与最终的交互类别分类，描述如下：

其中，

与/>

表示全连接层参数矩阵，f_cnn表示卷积操作；并使用Sigmoid非线性激活函数对<人-物体>对空间特征进行人物交互分类,f_sp表示空间特征向量，S_sp表示空间流特征在各交互类别上的概率得分。

4.根据权利要求1所述的一种基于人体交互意图信息的层级人物交互检测方法，其特征在于，客观外表层包含一个人流分支和一个物流分支，提供微观交互级别的像素级外观预测信息；采用包含全局平均池化的残差模块从全局外观特征中提取人和物体的视觉特征f_h和f_o，将提取的F_h和F_o缩放到固定大小p×p；并通过两个全连接层进行特征增强后计算人流特征和物流特征在交互类别上的概率得分S_h和S_o,用公式描述如下：

S_h＝Sigmoid(W_hf_h) (4)

S_o＝sigmoid(W_of_o) (5)

其中，公式(4)和(5)分别表示两个全连接层运算,W_h和W_o表示全连接层参数矩阵，f_h和f_o分别表示人和物体的视觉特征。

5.根据权利要求1所述的一种基于人体交互意图信息的层级人物交互检测方法，其特征在于，交互意图层挖掘中观视角的信息，构建一个人类交互意图驱动的交互意图层，提供计算视角来利用视觉上到的三种形式的人类意图，由以下三个支流组成：

(1)人体注视支流：使用预训练的双流模型获得人类注视区域；预训练的注视预测模型将输入图像I和由人类姿势估计网络计算的人眼中心的位置作为输入，输出固定区域的注视概率密度图G；语序网络由显著性路径和注视路径组成；凝视路径只能访问人的头部及其位置的特写图像，并获得大小为D×D的热图M(x_h,x_p)；显著性路径将完整图像x_i作为输入，并获得另一个热图h(x_i)；将这两个结果与元素乘积相结合，得到以下等式：

其中，x_i是输入图像，x_h是裁剪的人体特征的特写图像，x_p是人体头部的量化空间位置，G为输出的注视概率密度图；

对于图像中的每个人类实例，选择k个候选对象区域b＝(b¹,...,b^k)；对于每个候选区域b∈b、计算其注视权重g_b；其中g_b是通过将b中密度图G的值相加，然后将b的面积归一化为：

其中，area_b代表候选区域b，G_x,y该区域获取的注视概率密度图；

然后，从k个候选区域中选择具有最大g_b的区域R作为人类注视的区域；对于所选区域R，我们定义其对应的特征向量f_g＝{f_a，f_l，f_c}；其中，f_a是对象b的外观向量，f_l是包含l_x，l_y，l_w，l_h的四维向量，其中l_x，l_y指定物体边界框的横纵坐标距离，l_w，l_h为指定对数空间中的高度和宽度，f_c是目标分类器特征向量；

(2)人体姿态支流：利用人类姿态估计来估计人体的17个人类关键点，将17个关键点与不同灰度值的线连接起来，并将其他区域设置为0以构建姿势图；使用两个最大池卷积层和两个全连接层将姿态图与人和对象的布局图连接起来，以提取空间姿态流的特征f_sp；

将人体注视特征f_g,空间姿态特征f_sp,人体外表特征f_h和物体外表特征f_o连接起来，得到联合向量f_hol，然后将交互判断阶段的预测得分S_j设置为：

其中，

代表全连接操作；

在该阶段输出的二维概率向量中，第一维度是交互作用存在的概率，第二维度是交互不存在的概率；使用阈值δ来定义交互作用是否存在；如果概率值高于δ，则存在相互作用，否则不存在相互作用；对于给定的人类对象对(b_h,b_o)，首先要判断交互是否存在；只有被判断为具有交互作用的人-物体对才能进入以下分类阶段；

(3)身体关键部位支流：分别构建身体各部位与物体之间的2通道距离图，将对象的全局特征中的中心点的位置坐标定义为<h_x,h_y>，将人类定义为<o_x,o_y>，其中x和y分别为x和y方向上的坐标；全局外观特征的长度和宽度设置为H和W；然后，定义两个位置向量a和b，向量a从<o_x,o_y>定义为<h_x,h_y>；向量b被定义为人类地图中的每个像素<h_x,h_y>；

构建一个维度为H×W的2通道距离图；使用余弦距离来反映身体和物体之间方向的相对差异，第一通道中人体框的像素值是向量a和向量b之间的余弦距离；余弦距离不能区分同一方向上向量之间的距离，引入欧氏距离来捕捉两个向量之间的绝对距离差；第二个通道的人体框的像素值是向量a和向量b之间的欧氏距离；将两个通道的人体框外部的像素值设置为0；使用2通道距离图来建模人体部分和对象之间的位置距离关系；获得距离图后，将构建的距离图与通道维度中的全局外观特征图接起来，得到距离-特征图；

使用现有的姿势估计方法来获得关键点的位置，然后根据关键点确定相应的人体部位；以各个人类关键点为中心的矩形，构造其大小为原始输入图像面积的1/10的17个矩形，获取的矩形区域就用作身体部位所在的区域；获得表示人体各部分的区域的边界框之后，基于各个身体部位的边界框，使用感兴趣区域池化操作从距离-特征图中提取相应的区域，并缩放到q×q；为了结合每个身体部位对交互检测的影响，将获取到的所有人体部位的距离-特征图连接起来，并使用全连接层将其转换为人体关键部位支流的特征向量f_part。

6.根据权利要求5所述的一种基于人体交互意图信息的层级人物交互检测方法，其特征在于，在计算损失时应单独考虑，考虑到分类损失通常使用交叉熵损失函数

计算：

其中，Y_ij是真实行动标签，S_ij是预测行动得分，

是M批样本的平均值，i代表交互候选人，j代表交互候选物体；

因此，交互判断阶段的损失

根据以下公式计算：

其中，Y_J和S_J是真实标签和交互判断模块的最终预测分数，

为交叉熵损失；考虑每个流的影响并使损失函数更好地收敛，添加每个流的损失和交互检测阶段的总体损失，交互分类模块的总体损失函数/>

表示如下：

其中，α和β是所有支流的分支损失系数和总损失系数，Y_C是相互作用分类阶段的标签，S_h为人体外表分支概率得分，S_o为物体外表分支概率得分，S_p为人体姿态和空间联合分支概率得分，S_part为人体关键部位分支概率得分，S_c为交互分类阶段总概率得分；进行联合训练时，使用两个阶段的总损失函数

来更新参数：

7.根据权利要求6所述的一种基于人体交互意图信息的层级人物交互检测方法，其特征在于，交互得分融合：由于身体部分流的特征向量f_part不仅包含人体的精细特征，还反映了人与物体之间的位置关系，将其视为一个独立的流；使用后期融合策略来融合四个流；使用全连接层将每个流的特征向量映射到交互预测概率得分S_h、S_o、S_p和S_part，融合各个流的预测分数；首先融合人体外表分支概率得分S_h、物体外表分支概率得分S_o和人体关键部位分支概率得分S_part，然后我们用它乘以人体姿态和空间联合分支概率得分S_p；因此，最终检测结果的最终交互预测得分向量S_c被设置为：

其中，操作

和/>

分别表示逐元素求和乘法；分层思想和两阶段策略的结合可以更好地利用每个像素级别的特征，提高交互式检测的效果。