CN113468923B

CN113468923B - 基于细粒度多模态共同表征的人-物体交互行为检测方法

Info

Publication number: CN113468923B
Application number: CN202010243766.8A
Authority: CN
Inventors: 李永露; 刘欣鹏; 卢策吾
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2022-09-06
Anticipated expiration: 2040-03-31
Also published as: CN113468923A

Abstract

一种基于细粒度多模态共同表征的人‑物体交互行为检测方法。通过整理样本图像中的人‑物体对及人‑物体交互行为，并借助三维人体重建方法及三维人体‑物体空间布局生成方法提取标记后的样本图像中的三维信息作为训练集，通过训练集对细粒度多模态共同表征模型进行训练后用于检测测试数据，得到人‑物体交互行为的检测分数实现交互行为检测。本发明能够准确地实现人‑物体交互行为进行检测，并同时获取到交互中的人与物体的二维和三维几何表征。

Description

基于细粒度多模态共同表征的人-物体交互行为检测方法

技术领域

本发明涉及的是一种图像处理领域的技术，具体是一种基于细粒度多模态共同表征的人-物体交互行为检测方法。

背景技术

行为检测的核心就是人-物体交互行为检测，现有的行为检测越来越多倚重深度学习技术。比如，由C.Gao等在文献“ican:Instancecentric attention network forhuman-object interaction detection”(BMVC 2019)中记载的iCAN是此领域一个有效的模型。该方法以三通道RGB图像为输入，使用含有自注意力机制的人工神经网络检测图像中存在的人-物体交互行为。但该技术的缺陷在于：对于同样的人-物体交互行为，单纯的二维信息受视角影响严重，类内差异较大，从而带来严重的类内模糊性；三维人体姿态等信息对于视角变换有一定的鲁棒性，但是缺乏对人-物体交互行为检测必要的细节信息。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于细粒度多模态共同表征的人-物体交互行为检测方法。

本发明是通过以下技术方案实现的：

本发明涉及一种基于细粒度多模态共同表征的人-物体交互行为检测方法，通过整理样本图像中的人-物体对及人-物体交互行为，并借助三维人体重建方法及三维人体-物体空间布局生成方法提取标记后的样本图像中的三维信息作为训练集，通过训练集对细粒度多模态共同表征模型进行训练后用于检测测试数据，得到人-物体交互行为的检测分数实现交互行为检测。

所述的整理是指：从作为样本图像的已有图像库中获取不同场景下、不同种类的人与物体交互图像，并标记其对应的交互行为和物体种类的标签。

所述的细粒度多模态共同表征模型包括：由分别处理人和物体信息的iCAN模块和处理编码后的空间信息的二维空间信息处理模块组成的二维信息处理分支以及由处理空间布局的三维布局模块和处理细节人体信息的三维人体模块组成的三维信息处理分支。

所述的检测分数，通过设置阈值进一步判断测试数据中的人-物体交互行为存在。

本发明涉及一种实现上述方法的系统，包括：数据预处理单元、细粒度三维空间布局构造单元和共同表征单元，其中：数据预处理单元与细粒度三维空间布局构造单元和共同表征单元相连并传输图像、人体边界框、物体边界框信息，细粒度三维空间布局构造单元与二维-三维共同表征学习单元相连并传输细粒度三维空间布局信息，二维三维共同表征学习单元接受前两个单元传入的二维信息和三维信息，输出人-物体交互行为的检测结果。

技术效果

本发明整体解决了人-物体交互行为检测中由于视角受限而产生的模糊性问题。

与现有技术相比，本发明利用细粒度多模态共同表征对人-物体交互行为进行检测，可以准确地实现人-物体交互行为进行检测，并同时获取到交互中的人与物体的二维和三维几何表征，对于一些困难场景它使得仅基于单目图像的人-物体交互行为检测也能具有良好效果，在实际应用中可以减轻对不同角度图像的依赖性，使得本发明中的技术普适性更强的同时检测效果更佳。

附图说明

图1为本发明流程图；

图2为本发明效果示意图；

图中数字为检测分数(0-1)；

图3为图像中人-物体对的细粒度三维空间布局获取示意图；

图4为投影示意图；

图5为共同表征学习模型示意图。

具体实施方式

如图1所示，为本实施例涉及一种基于细粒度多模态共同表征的人-物体交互行为检测方法，包括以下步骤：

步骤1，图像预处理：从已有图像库中获取含有不同场景下、不同种类的人与物体交互行为的图像，并增加交互行为和物体种类的标签、图像中有交互行为的人-物体对中的图像及人体边界框b_h和物体的边界框b_o及其具体属于哪种人与物体交互行为，得到38118张带有人和物体交互行为标签的图像。

步骤2，如图3所示，获得图像中人-物体对的细粒度三维空间布局，具体步骤包括：

步骤2.1：以带有人和物体交互行为标签的图像及人体边界框b_h为输入，使用在GPavlakos等在文献“Expressive body capture:3d hands，face，and body from a singleimage”(CVPR 2019)中记载的三维人体SMPL-X模型重建得到；

所述的人-物体对中的三维人体SMPL-X模型包括：人体的最大深度

、人体的最小深度

人体的姿态参数θ^3D，人体的形状参数β和面部表情参数ψ。

优选地，本实施例对于每张图像，三维人体重建所需的相机参数沿用由GPavlakos等在文献“Expressive body capture:3d hands，face，and body from a singleimage”(CVPR 2019)中记载的设定，焦距f＝5000，设置相机光心为C(t₁，t₂，t₃)。在成像面(图像)坐标系上，物体的边界框b_o由其左上角点(x₁，y₁)和右下角点(x₂，y₂)表示。

步骤2.2：根据人体边界框b_h、物体边界框b_o、人体姿态参数θ^3D，构造表征物体的物体球，具体包括：

步骤2.2.1：如图4所示，初步定位物体位置：为了表征的鲁棒性和效率，将图像中物体在三维空间布局中简化为空心结构的物体球，球心为O(x_O，y_O，z_O)，设置O被投影到b_o上边界的中垂线上，即O位于平面

当物体球最上和最下的可见点分别被投影到b_o的上边沿和下边沿，即物体球的两个切平面分别为

和

这两个平面与P_ABC相交，围成的区域即为O所可能在的区域。

步骤2.2.2：确定物体球的大小并最终定位物体球位置：对于较小的物体，利用预设的基于物体种类的物体先验大小比例确定物体半径r，则物体球的中心结合图4为方程

的解，即估计出的物体球中心坐标为

步骤2.2.3：根据步骤2.1重建得到的三维人体SMPL-X模型中的最大、最小深度

对物体球中心坐标

进行规范化：对于每种物体通过预设的深度规范因子

作为阈值；对于估计出的物体球中心坐标

进一步判断：当

超出了

将被移动到

和

中距

较近的那一个。

步骤2.3，将步骤2.1重建得到的三维人体SMPL-X模型与步骤2.2构造得到的物体球组合成三维空间布局，并进行规范化处理：将坐标原点设为重建出的人体的骨盆点，并将人体旋转至其双肩连线与x轴平行；将重建出的三维人体降采样到916个点，并在重建出的物体球表面采样312个点，最终获得人-物体对细粒度三维空间布局。

步骤3：如图5所示，构建共同表征学习模型，该共同表征学习模型具体为双分支的多层神经网络，其包括由分别处理人和物体信息的iCAN模块和处理编码后的空间信息的二维空间信息处理模块组成的二维信息处理分支以及由处理空间布局的三维布局模块和处理细节人体信息的三维人体模块组成的三维信息处理分支，具体构建过程包括：

步骤3.1：采用C Gao等在文献“ican:Instance-centric attention network forhuman-object interaction detection”(BMVC 2018)中记载的方式实现iCAN模块，该模块输入为尺寸不限的RGB彩色图I_RGB、人体边界框b_h和物体边界框b_o，经过多个卷积层与兴趣区域池化后得到长为2048的二维人体特征、二维物体特征

并将其分别输入形状2048×600的两个全连接层

和

得到对600种人-物体交互的二维人体推断分数

和二维物体推断分数

步骤3.2：设置二维空间信息处理模块的输入为64×64×3的编码后的空间信息I_sp，其中前两个特征通道分别由人体边界框b_h和物体边界框b_o生成，处在边界框内的部分赋值为0，边界外赋值为1；第三个特征通道为人体的二维姿态骨架；编码后的空间信息依次输入第一卷积层C1、第一最大值池化层P1、第二卷积层C2和第二最大值池化层P2，输出为16×16×32的特征图

其中卷积层C1输入通道为3，卷积核为5×5，输出通道为64；最大值池化层P1池化核为2×2，步长为2×2；卷积层C2输入通道为64，卷积核为5×5，输出通道32；最大值池化层P2池化核为2×2，步长为2×2；

经过自注意力机制，根据特征图

获得大小为16×16的注意力图att^2D并通过

计算出对应人体17个部分的长为17的二维注意力向量

其中：(u，v)表示att^2D上的任意点，(u_i，v_i)表示第i个人体部分对应的人体关节点在注意力图att^2D上的坐标，d[·]表示两个点间的欧拉距离；将注意力图att^2D与二维空间特征

求基本积后输入卷积核为1×1，输出通道为256的第三卷积层C3，经全局池化，最终得到长为256的二维空间布局特征

最后将其输入大小为256×600的全连接层二维空间分类器

得到对600种人-物体交互行为的二维空间布局推断分数

步骤3.3：设置三维分支的三维布局模块的输入为将三维布局点云输入PointNet后得到的大小为1228×384的三维空间特征

该三维布局模块内置池化层和隐藏层均为768的多层感知机，从而得到大小为17的三维注意力向量A^3D，该三维注意力向量的每个值对应每个身体部分的重要程度。将三维注意力向量A^3D与根据G Pavlakos等在文献“Expressive body capture:3d hands，face，and body from a single image”(CVPR2019)中记载的三维人体SMPL-X模型中人体各部分和点云中点的对应关系获得的人体各部分和步骤2中获得的三维空间布局点云中点的大小为17×1228的映射矩阵M^3D作矩阵乘法，得到大小为1228的注意力向量att^3D；再将注意力向量att^3D与三维空间特征

逐个点对点相乘后输入全连接层，经全局池化，获得长为512的三维布局特征

最后将其输入大小为512×600的全连接层三维空间分类器

得到对600种人-物体交互行为的三维空间布局推断分数

步骤3.4：设置三维分支的三维人体模块的输入为{人体姿态参数θ^3D，人体形状参数β，人表情参数体ψ}，该三维分支的三维人体模块内置大小为85×1024和1024×1024的全连接层，得到长为1024的三维人体特征

再将其输入大小为1024×600的全连接层

得到对600种人-物体交互行为的三维人体推断分数

步骤3.5：将步骤3.1至步骤3.4得到的二维人体特征、二维物体特征

二维空间布局特征

三维布局特征

三维人体特征

拼接得到大小为5888的二维三维联合特征后输入大小为5888×600的全连接层，得到对600种人-物体交互行为的共同推断分数S^Joint。

步骤3.6：生成600种人-物体交互行为的综合推断分数

步骤4：训练步骤3构建得到的共同表征学习模型，具体步骤包括：

步骤4.1：用均值为0，标准差为0.01的高斯分布采样初始化模型中待训练参数。

步骤4.2：向模型中输入步骤1得到的38118个带有人-物体交互行为标签的图像作为训练样本进行训练，训练样本经过逐层变换，传送到输出层，得到二维人体推断分数

二维物体推断分数

二维空间布局推断分数

三维空间布局推断分数

三维人体推断分数

二维空间布局特征

三维空间布局特征

二维注意力向量A^2D以及三维注意力向量A^3D。

所述的训练样本包括：原始图像I_RGB，编码后的空间信息I_sp，人体边界框b_h，物体边界框b_o，三维布局特征

人体姿态参数θ^3D，人体形状参数β，人体表情参数ψ，人-物体交互标签l_HOI。

步骤4.3：使用交叉熵损失函数、一致性约束损失函数结合反向传播BP算法调整模型参数。

所述的一致性约束损失函数包括：对注意力一致性的约束损失函数

对二维、三维空间特征一致性的约束损失函数

以及对二维、三维推断语义一致性的约束损失函数

其中：二维注意力向量

三维注意力向量

三维空间布局特征为

二维空间布局特征为

人-物体交互行为标签l_HOI，d(·)为欧拉距离，α＝0.5，

为与

对应的l_HOI有重合的特征，

为与

对应的l_HOI没有重合的特征；S^2D，S^3D为二维、三维分支得到的检测分数。

所述的反向传播BP算法的目标函数为L＝λ₁L_tri+λ₂L_att+λ₃L_sem+λ₄L_cls，其中：λ₁＝0.001，λ₂＝0.01，λ₃＝0.01，λ₄＝1。

在本实施例中，反向传播BP算法的学习率为0.001，对整个训练数据集迭代100次。

步骤5：人-物体交互行为检测：采用9658张待检测图像，利用待检测图像及其中存在的人体边界框b_h、物体边界框b_o、生成相应的人-物体对及原始图像I_RGB、编码后的空间信息I_sp、人体边界框b_h、物体边界框b_o、三维空间布局特征

人体姿态参数θ^3D、人体形状参数β、人体表情参数ψ，输入到模型中，经过逐层变化、计算，获得600维输出向量，即推断分数S。

本方法使用Y Chao等在文献“Learning to Detect Human-ObjectInteractions”(WACV2018)中提出的平均精度均值(mAP)检验检测结果。在所有图像中，平均精度均值达到21.06％。

本方法通过对人-物体交互行为种类、二维分支网络结构、三维分支网络结构的调整和改进，可以进一步用于日常人-物体交互行为的检测与分类。在目前公开的大型人-物体交互数据集HICO-DET上，本方法识别精度达到21.06％，是目前得分最高的方法，如下表所示：

方法	平均检测精度均值
		HO-RCNN	6.46
InteractNet	7.81
		GPNN	1311
iCAN	1484
		nteractiveness	1703
No-Frills	1718
		PMFNet	1746
Analogy	1940
		本发明	2106

经过具体实际实验，在常见的公开数据集HICO-DET上，以均值为0，标准差为0.01的高斯分布采样初始化共同表征学习模型中待训练参数，以随机梯度下降作为优化算法，目标函数计算设置为步骤4.3中所述，学习率设定为0.001，迭代次数135启动以上方法，模型测试结果为人-物体交互行为检测平均精度均值21.06％。

与现有技术相比，本发明修改共同表征学习模型中二维分支的网络结构或三位分支的网络结构，加入自注意力等机制等，根据实际的图片，在检测人-物体交互行为时自动盛恒不同的注意力，使得模型针对不同输入可以动态地自我调节。在运行速度基本不变的情况下，与现有方法最佳相比，在HICO-DET上的平均精度均值上相对提升了8％。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于细粒度多模态共同表征的人-物体交互行为检测方法，其特征在于，通过整理样本图像中的人-物体对及人-物体交互行为得到带有人体物体交互行为标签的图像后，依次采用三维人体重建方法和三维人体-物体空间布局生成方法根据带有人体物体交互行为标签的图像构造出具有三维人体SMPL-X模型和物体球的人-物体对细粒度三维空间布局作为训练集，通过构建共同表征学习模型并采用训练集进行训练后用于检测测试数据，得到人-物体交互行为的检测分数实现交互行为检测；

所述的三维人体-物体空间布局生成方法，包括：

步骤2.1：以带有人和物体交互行为标签的图像及人体边界框b_h为输入，使用三维人体SMPL-X模型重建得到；

人体的最小深度

人体的姿态参数θ^3D，人体的形状参数β和面部表情参数ψ；对于每张图像，三维人体重建所需的相机参数包括：焦距f＝5000，设置相机光心为C(t₁，t₂，t₃)；在成像面，即图像坐标系上，物体的边界框b_o由其左上角点(x₁，y₁)和右下角点(x₂，y₂)表示；

步骤2.2.1：初步定位物体位置：为了表征的鲁棒性和效率，将图像中物体在三维空间布局中简化为空心结构的物体球，球心为O(x_O，y_O，z_O)，设置O被投影到b_o上边界的中垂线上，即O位于平面P_ABC：

当物体球最上和最下的可见点分别被投影到b_o的上边沿和下边沿，即物体球的两个切平面分别为P₁：

和P₂：

这两个平面与P_ABC相交，围成的区域即为O所可能在的区域；

步骤2.2.2：确定物体球的大小并最终定位物体球位置：对于较小的物体，利用预设的基于物体种类的物体先验大小比例确定物体半径r，则物体球的中心为方程

的解，即估计出的物体球中心坐标为

对物体球中心坐标

进行规范化：对于每种物体通过预设的深度规范因子

作为阈值；对于估计出的物体球中心坐标

进一步判断：当

超出了

将被移动到

和

中距

较近的那一个；

步骤2.3，将步骤2.1重建得到的三维人体SMPL-X模型与步骤2.2构造得到的物体球组合成三维空间布局，并进行规范化处理：将坐标原点设为重建出的人体的骨盆点，并将人体旋转至其双肩连线与x轴平行；将重建出的三维人体降采样到916个点，并在重建出的物体球表面采样312个点，最终获得人-物体对细粒度三维空间布局；

所述的共同表征学习模型包括：由分别处理人和物体信息的iCAN模块和处理编码后的空间信息的二维空间信息处理模块组成的二维信息处理分支以及由处理空间布局的三维布局模块和处理细节人体信息的三维人体模块组成的三维信息处理分支；

所述的构建，具体包括以下步骤：

步骤3.1：构建iCAN模块，该模块输入为尺寸不限的RGB彩色图I_RGB、人体边界框b_h和物体边界框b_o，经过多个卷积层与兴趣区域池化后得到长为2048的二维人体特征、二维物体特征