CN113468923B - 基于细粒度多模态共同表征的人-物体交互行为检测方法 - Google Patents

基于细粒度多模态共同表征的人-物体交互行为检测方法 Download PDF

Info

Publication number
CN113468923B
CN113468923B CN202010243766.8A CN202010243766A CN113468923B CN 113468923 B CN113468923 B CN 113468923B CN 202010243766 A CN202010243766 A CN 202010243766A CN 113468923 B CN113468923 B CN 113468923B
Authority
CN
China
Prior art keywords
dimensional
human
human body
layout
object interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010243766.8A
Other languages
English (en)
Other versions
CN113468923A (zh
Inventor
李永露
刘欣鹏
卢策吾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010243766.8A priority Critical patent/CN113468923B/zh
Publication of CN113468923A publication Critical patent/CN113468923A/zh
Application granted granted Critical
Publication of CN113468923B publication Critical patent/CN113468923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种基于细粒度多模态共同表征的人‑物体交互行为检测方法。通过整理样本图像中的人‑物体对及人‑物体交互行为,并借助三维人体重建方法及三维人体‑物体空间布局生成方法提取标记后的样本图像中的三维信息作为训练集,通过训练集对细粒度多模态共同表征模型进行训练后用于检测测试数据,得到人‑物体交互行为的检测分数实现交互行为检测。本发明能够准确地实现人‑物体交互行为进行检测,并同时获取到交互中的人与物体的二维和三维几何表征。

Description

基于细粒度多模态共同表征的人-物体交互行为检测方法
技术领域
本发明涉及的是一种图像处理领域的技术,具体是一种基于细粒度多模态共同表征的人-物体交互行为检测方法。
背景技术
行为检测的核心就是人-物体交互行为检测,现有的行为检测越来越多倚重深度学习技术。比如,由C.Gao等在文献“ican:Instancecentric attention network forhuman-object interaction detection”(BMVC 2019)中记载的iCAN是此领域一个有效的模型。该方法以三通道RGB图像为输入,使用含有自注意力机制的人工神经网络检测图像中存在的人-物体交互行为。但该技术的缺陷在于:对于同样的人-物体交互行为,单纯的二维信息受视角影响严重,类内差异较大,从而带来严重的类内模糊性;三维人体姿态等信息对于视角变换有一定的鲁棒性,但是缺乏对人-物体交互行为检测必要的细节信息。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于细粒度多模态共同表征的人-物体交互行为检测方法。
本发明是通过以下技术方案实现的:
本发明涉及一种基于细粒度多模态共同表征的人-物体交互行为检测方法,通过整理样本图像中的人-物体对及人-物体交互行为,并借助三维人体重建方法及三维人体-物体空间布局生成方法提取标记后的样本图像中的三维信息作为训练集,通过训练集对细粒度多模态共同表征模型进行训练后用于检测测试数据,得到人-物体交互行为的检测分数实现交互行为检测。
所述的整理是指:从作为样本图像的已有图像库中获取不同场景下、不同种类的人与物体交互图像,并标记其对应的交互行为和物体种类的标签。
所述的细粒度多模态共同表征模型包括:由分别处理人和物体信息的iCAN模块和处理编码后的空间信息的二维空间信息处理模块组成的二维信息处理分支以及由处理空间布局的三维布局模块和处理细节人体信息的三维人体模块组成的三维信息处理分支。
所述的检测分数,通过设置阈值进一步判断测试数据中的人-物体交互行为存在。
本发明涉及一种实现上述方法的系统,包括:数据预处理单元、细粒度三维空间布局构造单元和共同表征单元,其中:数据预处理单元与细粒度三维空间布局构造单元和共同表征单元相连并传输图像、人体边界框、物体边界框信息,细粒度三维空间布局构造单元与二维-三维共同表征学习单元相连并传输细粒度三维空间布局信息,二维三维共同表征学习单元接受前两个单元传入的二维信息和三维信息,输出人-物体交互行为的检测结果。
技术效果
本发明整体解决了人-物体交互行为检测中由于视角受限而产生的模糊性问题。
与现有技术相比,本发明利用细粒度多模态共同表征对人-物体交互行为进行检测,可以准确地实现人-物体交互行为进行检测,并同时获取到交互中的人与物体的二维和三维几何表征,对于一些困难场景它使得仅基于单目图像的人-物体交互行为检测也能具有良好效果,在实际应用中可以减轻对不同角度图像的依赖性,使得本发明中的技术普适性更强的同时检测效果更佳。
附图说明
图1为本发明流程图;
图2为本发明效果示意图;
图中数字为检测分数(0-1);
图3为图像中人-物体对的细粒度三维空间布局获取示意图;
图4为投影示意图;
图5为共同表征学习模型示意图。
具体实施方式
如图1所示,为本实施例涉及一种基于细粒度多模态共同表征的人-物体交互行为检测方法,包括以下步骤:
步骤1,图像预处理:从已有图像库中获取含有不同场景下、不同种类的人与物体交互行为的图像,并增加交互行为和物体种类的标签、图像中有交互行为的人-物体对中的图像及人体边界框bh和物体的边界框bo及其具体属于哪种人与物体交互行为,得到38118张带有人和物体交互行为标签的图像。
步骤2,如图3所示,获得图像中人-物体对的细粒度三维空间布局,具体步骤包括:
步骤2.1:以带有人和物体交互行为标签的图像及人体边界框bh为输入,使用在GPavlakos等在文献“Expressive body capture:3d hands,face,and body from a singleimage”(CVPR 2019)中记载的三维人体SMPL-X模型重建得到;
所述的人-物体对中的三维人体SMPL-X模型包括:人体的最大深度
Figure BDA0002433407980000021
、人体的最小深度
Figure BDA0002433407980000022
人体的姿态参数θ3D,人体的形状参数β和面部表情参数ψ。
优选地,本实施例对于每张图像,三维人体重建所需的相机参数沿用由GPavlakos等在文献“Expressive body capture:3d hands,face,and body from a singleimage”(CVPR 2019)中记载的设定,焦距f=5000,设置相机光心为C(t1,t2,t3)。在成像面(图像)坐标系上,物体的边界框bo由其左上角点(x1,y1)和右下角点(x2,y2)表示。
步骤2.2:根据人体边界框bh、物体边界框bo、人体姿态参数θ3D,构造表征物体的物体球,具体包括:
步骤2.2.1:如图4所示,初步定位物体位置:为了表征的鲁棒性和效率,将图像中物体在三维空间布局中简化为空心结构的物体球,球心为O(xO,yO,zO),设置O被投影到bo上边界的中垂线上,即O位于平面
Figure BDA0002433407980000031
当物体球最上和最下的可见点分别被投影到bo的上边沿和下边沿,即物体球的两个切平面分别为
Figure BDA0002433407980000032
Figure BDA0002433407980000033
这两个平面与PABC相交,围成的区域即为O所可能在的区域。
步骤2.2.2:确定物体球的大小并最终定位物体球位置:对于较小的物体,利用预设的基于物体种类的物体先验大小比例确定物体半径r,则物体球的中心结合图4为方程
Figure BDA0002433407980000034
的解,即估计出的物体球中心坐标为
Figure BDA0002433407980000035
步骤2.2.3:根据步骤2.1重建得到的三维人体SMPL-X模型中的最大、最小深度
Figure BDA0002433407980000036
Figure BDA0002433407980000037
对物体球中心坐标
Figure BDA0002433407980000038
进行规范化:对于每种物体通过预设的深度规范因子
Figure BDA0002433407980000039
作为阈值;对于估计出的物体球中心坐标
Figure BDA00024334079800000310
进一步判断:当
Figure BDA00024334079800000311
超出了
Figure BDA00024334079800000312
将被移动到
Figure BDA00024334079800000313
Figure BDA00024334079800000314
中距
Figure BDA00024334079800000315
较近的那一个。
步骤2.3,将步骤2.1重建得到的三维人体SMPL-X模型与步骤2.2构造得到的物体球组合成三维空间布局,并进行规范化处理:将坐标原点设为重建出的人体的骨盆点,并将人体旋转至其双肩连线与x轴平行;将重建出的三维人体降采样到916个点,并在重建出的物体球表面采样312个点,最终获得人-物体对细粒度三维空间布局。
步骤3:如图5所示,构建共同表征学习模型,该共同表征学习模型具体为双分支的多层神经网络,其包括由分别处理人和物体信息的iCAN模块和处理编码后的空间信息的二维空间信息处理模块组成的二维信息处理分支以及由处理空间布局的三维布局模块和处理细节人体信息的三维人体模块组成的三维信息处理分支,具体构建过程包括:
步骤3.1:采用C Gao等在文献“ican:Instance-centric attention network forhuman-object interaction detection”(BMVC 2018)中记载的方式实现iCAN模块,该模块输入为尺寸不限的RGB彩色图IRGB、人体边界框bh和物体边界框bo,经过多个卷积层与兴趣区域池化后得到长为2048的二维人体特征、二维物体特征
Figure BDA0002433407980000041
并将其分别输入形状2048×600的两个全连接层
Figure BDA0002433407980000042
Figure BDA0002433407980000043
得到对600种人-物体交互的二维人体推断分数
Figure BDA0002433407980000044
和二维物体推断分数
Figure BDA0002433407980000045
步骤3.2:设置二维空间信息处理模块的输入为64×64×3的编码后的空间信息Isp,其中前两个特征通道分别由人体边界框bh和物体边界框bo生成,处在边界框内的部分赋值为0,边界外赋值为1;第三个特征通道为人体的二维姿态骨架;编码后的空间信息依次输入第一卷积层C1、第一最大值池化层P1、第二卷积层C2和第二最大值池化层P2,输出为16×16×32的特征图
Figure BDA0002433407980000046
其中卷积层C1输入通道为3,卷积核为5×5,输出通道为64;最大值池化层P1池化核为2×2,步长为2×2;卷积层C2输入通道为64,卷积核为5×5,输出通道32;最大值池化层P2池化核为2×2,步长为2×2;
经过自注意力机制,根据特征图
Figure BDA0002433407980000047
获得大小为16×16的注意力图att2D并通过
Figure BDA0002433407980000048
计算出对应人体17个部分的长为17的二维注意力向量
Figure BDA0002433407980000049
其中:(u,v)表示att2D上的任意点,(ui,vi)表示第i个人体部分对应的人体关节点在注意力图att2D上的坐标,d[·]表示两个点间的欧拉距离;将注意力图att2D与二维空间特征
Figure BDA00024334079800000421
求基本积后输入卷积核为1×1,输出通道为256的第三卷积层C3,经全局池化,最终得到长为256的二维空间布局特征
Figure BDA00024334079800000410
最后将其输入大小为256×600的全连接层二维空间分类器
Figure BDA00024334079800000411
得到对600种人-物体交互行为的二维空间布局推断分数
Figure BDA00024334079800000412
步骤3.3:设置三维分支的三维布局模块的输入为将三维布局点云输入PointNet后得到的大小为1228×384的三维空间特征
Figure BDA00024334079800000413
该三维布局模块内置池化层和隐藏层均为768的多层感知机,从而得到大小为17的三维注意力向量A3D,该三维注意力向量的每个值对应每个身体部分的重要程度。将三维注意力向量A3D与根据G Pavlakos等在文献“Expressive body capture:3d hands,face,and body from a single image”(CVPR2019)中记载的三维人体SMPL-X模型中人体各部分和点云中点的对应关系获得的人体各部分和步骤2中获得的三维空间布局点云中点的大小为17×1228的映射矩阵M3D作矩阵乘法,得到大小为1228的注意力向量att3D;再将注意力向量att3D与三维空间特征
Figure BDA00024334079800000414
逐个点对点相乘后输入全连接层,经全局池化,获得长为512的三维布局特征
Figure BDA00024334079800000415
最后将其输入大小为512×600的全连接层三维空间分类器
Figure BDA00024334079800000416
得到对600种人-物体交互行为的三维空间布局推断分数
Figure BDA00024334079800000417
步骤3.4:设置三维分支的三维人体模块的输入为{人体姿态参数θ3D,人体形状参数β,人表情参数体ψ},该三维分支的三维人体模块内置大小为85×1024和1024×1024的全连接层,得到长为1024的三维人体特征
Figure BDA00024334079800000418
再将其输入大小为1024×600的全连接层
Figure BDA00024334079800000419
得到对600种人-物体交互行为的三维人体推断分数
Figure BDA00024334079800000420
步骤3.5:将步骤3.1至步骤3.4得到的二维人体特征、二维物体特征
Figure BDA0002433407980000051
二维空间布局特征
Figure BDA0002433407980000052
三维布局特征
Figure BDA0002433407980000053
三维人体特征
Figure BDA0002433407980000054
拼接得到大小为5888的二维三维联合特征后输入大小为5888×600的全连接层,得到对600种人-物体交互行为的共同推断分数SJoint
步骤3.6:生成600种人-物体交互行为的综合推断分数
Figure BDA0002433407980000055
Figure BDA0002433407980000056
步骤4:训练步骤3构建得到的共同表征学习模型,具体步骤包括:
步骤4.1:用均值为0,标准差为0.01的高斯分布采样初始化模型中待训练参数。
步骤4.2:向模型中输入步骤1得到的38118个带有人-物体交互行为标签的图像作为训练样本进行训练,训练样本经过逐层变换,传送到输出层,得到二维人体推断分数
Figure BDA0002433407980000057
二维物体推断分数
Figure BDA0002433407980000058
二维空间布局推断分数
Figure BDA0002433407980000059
三维空间布局推断分数
Figure BDA00024334079800000510
三维人体推断分数
Figure BDA00024334079800000511
二维空间布局特征
Figure BDA00024334079800000512
三维空间布局特征
Figure BDA00024334079800000513
二维注意力向量A2D以及三维注意力向量A3D
所述的训练样本包括:原始图像IRGB,编码后的空间信息Isp,人体边界框bh,物体边界框bo,三维布局特征
Figure BDA00024334079800000514
人体姿态参数θ3D,人体形状参数β,人体表情参数ψ,人-物体交互标签lHOI
步骤4.3:使用交叉熵损失函数、一致性约束损失函数结合反向传播BP算法调整模型参数。
所述的一致性约束损失函数包括:对注意力一致性的约束损失函数
Figure BDA00024334079800000515
对二维、三维空间特征一致性的约束损失函数
Figure BDA00024334079800000516
以及对二维、三维推断语义一致性的约束损失函数
Figure BDA00024334079800000517
其中:二维注意力向量
Figure BDA00024334079800000518
三维注意力向量
Figure BDA00024334079800000519
三维空间布局特征为
Figure BDA00024334079800000520
二维空间布局特征为
Figure BDA00024334079800000521
人-物体交互行为标签lHOI,d(·)为欧拉距离,α=0.5,
Figure BDA00024334079800000522
为与
Figure BDA00024334079800000523
对应的lHOI有重合的特征,
Figure BDA00024334079800000524
为与
Figure BDA00024334079800000525
对应的lHOI没有重合的特征;S2D,S3D为二维、三维分支得到的检测分数。
所述的反向传播BP算法的目标函数为L=λ1Ltri2Latt3Lsem4Lcls,其中:λ1=0.001,λ2=0.01,λ3=0.01,λ4=1。
在本实施例中,反向传播BP算法的学习率为0.001,对整个训练数据集迭代100次。
步骤5:人-物体交互行为检测:采用9658张待检测图像,利用待检测图像及其中存在的人体边界框bh、物体边界框bo、生成相应的人-物体对及原始图像IRGB、编码后的空间信息Isp、人体边界框bh、物体边界框bo、三维空间布局特征
Figure BDA0002433407980000061
人体姿态参数θ3D、人体形状参数β、人体表情参数ψ,输入到模型中,经过逐层变化、计算,获得600维输出向量,即推断分数S。
本方法使用Y Chao等在文献“Learning to Detect Human-ObjectInteractions”(WACV2018)中提出的平均精度均值(mAP)检验检测结果。在所有图像中,平均精度均值达到21.06%。
本方法通过对人-物体交互行为种类、二维分支网络结构、三维分支网络结构的调整和改进,可以进一步用于日常人-物体交互行为的检测与分类。在目前公开的大型人-物体交互数据集HICO-DET上,本方法识别精度达到21.06%,是目前得分最高的方法,如下表所示:
方法 平均检测精度均值
HO-RCNN 6.46
InteractNet 7.81
GPNN 1311
iCAN 1484
nteractiveness 1703
No-Frills 1718
PMFNet 1746
Analogy 1940
本发明 2106
经过具体实际实验,在常见的公开数据集HICO-DET上,以均值为0,标准差为0.01的高斯分布采样初始化共同表征学习模型中待训练参数,以随机梯度下降作为优化算法,目标函数计算设置为步骤4.3中所述,学习率设定为0.001,迭代次数135启动以上方法,模型测试结果为人-物体交互行为检测平均精度均值21.06%。
与现有技术相比,本发明修改共同表征学习模型中二维分支的网络结构或三位分支的网络结构,加入自注意力等机制等,根据实际的图片,在检测人-物体交互行为时自动盛恒不同的注意力,使得模型针对不同输入可以动态地自我调节。在运行速度基本不变的情况下,与现有方法最佳相比,在HICO-DET上的平均精度均值上相对提升了8%。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (6)

1.一种基于细粒度多模态共同表征的人-物体交互行为检测方法,其特征在于,通过整理样本图像中的人-物体对及人-物体交互行为得到带有人体物体交互行为标签的图像后,依次采用三维人体重建方法和三维人体-物体空间布局生成方法根据带有人体物体交互行为标签的图像构造出具有三维人体SMPL-X模型和物体球的人-物体对细粒度三维空间布局作为训练集,通过构建共同表征学习模型并采用训练集进行训练后用于检测测试数据,得到人-物体交互行为的检测分数实现交互行为检测;
所述的三维人体-物体空间布局生成方法,包括:
步骤2.1:以带有人和物体交互行为标签的图像及人体边界框bh为输入,使用三维人体SMPL-X模型重建得到;
所述的人-物体对中的三维人体SMPL-X模型包括:人体的最大深度
Figure FDA0003680785830000011
人体的最小深度
Figure FDA0003680785830000012
人体的姿态参数θ3D,人体的形状参数β和面部表情参数ψ;对于每张图像,三维人体重建所需的相机参数包括:焦距f=5000,设置相机光心为C(t1,t2,t3);在成像面,即图像坐标系上,物体的边界框bo由其左上角点(x1,y1)和右下角点(x2,y2)表示;
步骤2.2:根据人体边界框bh、物体边界框bo、人体姿态参数θ3D,构造表征物体的物体球,具体包括:
步骤2.2.1:初步定位物体位置:为了表征的鲁棒性和效率,将图像中物体在三维空间布局中简化为空心结构的物体球,球心为O(xO,yO,zO),设置O被投影到bo上边界的中垂线上,即O位于平面PABC
Figure FDA0003680785830000013
当物体球最上和最下的可见点分别被投影到bo的上边沿和下边沿,即物体球的两个切平面分别为P1
Figure FDA0003680785830000014
和P2
Figure FDA0003680785830000015
这两个平面与PABC相交,围成的区域即为O所可能在的区域;
步骤2.2.2:确定物体球的大小并最终定位物体球位置:对于较小的物体,利用预设的基于物体种类的物体先验大小比例确定物体半径r,则物体球的中心为方程
Figure FDA0003680785830000016
的解,即估计出的物体球中心坐标为
Figure FDA0003680785830000017
步骤2.2.3:根据步骤2.1重建得到的三维人体SMPL-X模型中的最大、最小深度
Figure FDA0003680785830000018
对物体球中心坐标
Figure FDA0003680785830000019
进行规范化:对于每种物体通过预设的深度规范因子
Figure FDA00036807858300000110
作为阈值;对于估计出的物体球中心坐标
Figure FDA00036807858300000111
进一步判断:当
Figure FDA0003680785830000021
超出了
Figure FDA0003680785830000022
Figure FDA0003680785830000023
将被移动到
Figure FDA0003680785830000024
Figure FDA0003680785830000025
中距
Figure FDA0003680785830000026
较近的那一个;
步骤2.3,将步骤2.1重建得到的三维人体SMPL-X模型与步骤2.2构造得到的物体球组合成三维空间布局,并进行规范化处理:将坐标原点设为重建出的人体的骨盆点,并将人体旋转至其双肩连线与x轴平行;将重建出的三维人体降采样到916个点,并在重建出的物体球表面采样312个点,最终获得人-物体对细粒度三维空间布局;
所述的共同表征学习模型包括:由分别处理人和物体信息的iCAN模块和处理编码后的空间信息的二维空间信息处理模块组成的二维信息处理分支以及由处理空间布局的三维布局模块和处理细节人体信息的三维人体模块组成的三维信息处理分支;
所述的构建,具体包括以下步骤:
步骤3.1:构建iCAN模块,该模块输入为尺寸不限的RGB彩色图IRGB、人体边界框bh和物体边界框bo,经过多个卷积层与兴趣区域池化后得到长为2048的二维人体特征、二维物体特征
Figure FDA0003680785830000027
并将其分别输入形状2048×600的两个全连接层
Figure FDA0003680785830000028
Figure FDA0003680785830000029
得到对600种人-物体交互的二维人体推断分数
Figure FDA00036807858300000210
和二维物体推断分数
Figure FDA00036807858300000211
步骤3.2:设置二维空间信息处理模块的输入为64×64×3的编码后的空间信息Isp,其中前两个特征通道分别由人体边界框bh和物体边界框bo生成,处在边界框内的部分赋值为0,边界外赋值为1;第三个特征通道为人体的二维姿态骨架;编码后的空间信息依次输入第一卷积层C1、第一最大值池化层P1、第二卷积层C2和第二最大值池化层P2,输出为16×16×32的特征图
Figure FDA00036807858300000212
经过自注意力机制,根据特征图
Figure FDA00036807858300000213
获得大小为16×16的注意力图att2D并通过
Figure FDA00036807858300000214
计算出对应人体17个部分的长为17的二维注意力向量
Figure FDA00036807858300000215
其中:(u,v)表示att2D上的任意点,(ui,vi)表示第i个人体部分对应的人体关节点在注意力图att2D上的坐标,d[·]表示两个点间的欧拉距离;将注意力图att2D
Figure FDA00036807858300000216
求基本积后输入卷积核为1×1,输出通道为256的第三卷积层C3,经全局池化,最终得到长为256的二维空间布局特征
Figure FDA00036807858300000217
最后将其输入大小为256×600的全连接层二维空间分类器
Figure FDA00036807858300000218
得到对600种人-物体交互行为的二维空间布局推断分数
Figure FDA00036807858300000219
步骤3.3:设置三维分支的三维布局模块的输入为将三维布局点云输入PointNet后得到的大小为1228×384的三维空间特征
Figure FDA00036807858300000220
得到对600种人-物体交互行为的三维空间布局推断分数
Figure FDA00036807858300000221
该三维布局模块内置池化层和隐藏层均为768的多层感知机,从而得到大小为17的三维注意力向量A3D,该三维注意力向量的每个值对应每个身体部分的重要程度;将三维注意力向量A3D与根据三维人体SMPL-X模型中人体各部分和点云中点的对应关系获得的人体各部分和步骤2中获得的三维空间布局点云中点的大小为17×1228的映射矩阵M3D作矩阵乘法,得到大小为1228的注意力向量att3D;再将注意力向量att3D与三维空间特征
Figure FDA0003680785830000031
逐个点对点相乘后输入全连接层,经全局池化,获得长为512的三维布局特征
Figure FDA0003680785830000032
最后将其输入大小为512×600的全连接层三维空间分类器
Figure FDA0003680785830000033
得到对600种人-物体交互行为的三维空间布局推断分数
Figure FDA0003680785830000034
步骤3.4:设置三维分支的三维人体模块的输入为{人体姿态参数θ3D,人体形状参数β,人表情参数体ψ},得到对600种人-物体交互行为的三维人体推断分数
Figure FDA0003680785830000035
该三维人体模块内置大小为85×1024和1024×1024的全连接层,得到长为1024的三维人体特征
Figure FDA0003680785830000036
再将其输入大小为1024×600的全连接层
Figure FDA0003680785830000037
得到对600种人-物体交互行为的三维人体推断分数
Figure FDA0003680785830000038
步骤3.5:将步骤3.1至步骤3.4得到的二维人体特征、二维物体特征
Figure FDA0003680785830000039
二维空间布局特征
Figure FDA00036807858300000310
三维布局特征
Figure FDA00036807858300000311
三维人体特征
Figure FDA00036807858300000312
拼接得到大小为5888的二维三维联合特征后输入大小为5888×600的全连接层,得到对600种人-物体交互行为的共同推断分数SJoint
步骤3.6:生成600种人-物体交互行为的综合推断分数
Figure FDA00036807858300000313
Figure FDA00036807858300000314
2.根据权利要求1所述的人-物体交互行为检测方法,其特征是,所述的检测分数,通过设置阈值进一步判断测试数据中的人-物体交互行为存在。
3.根据权利要求1所述的人-物体交互行为检测方法,其特征是,所述的整理是指:从已有图像库中获取含有不同场景下、不同种类的人与物体交互行为的图像,并增加交互行为和物体种类的标签、图像中有交互行为的人-物体对中人体边界框bh和物体的边界框bo及其具体属于哪种人与物体交互行为。
4.根据权利要求1所述的人-物体交互行为检测方法,其特征是,所述的训练,采用的样本包括:原始图像IRGB,编码后的空间信息Isp,人体边界框bh,物体边界框bo,三维布局特征
Figure FDA00036807858300000315
人体姿态参数θ3D,人体形状参数β,人体表情参数ψ,人-物体交互标签lHOI
5.根据权利要求1所述的人-物体交互行为检测方法,其特征是,所述的训练,进一步使用交叉熵损失函数、一致性约束损失函数结合反向传播BP算法调整模型参数。
6.根据权利要求5所述的人-物体交互行为检测方法,其特征是,所述的一致性约束损失函数包括:对注意力一致性的约束损失函数
Figure FDA0003680785830000041
对二维、三维空间特征一致性的约束损失函数
Figure FDA0003680785830000042
以及对二维、三维推断语义一致性的约束损失函数
Figure FDA0003680785830000043
其中:二维注意力向量
Figure FDA0003680785830000044
三维注意力向量
Figure FDA0003680785830000045
三维空间布局特征为
Figure FDA0003680785830000046
二维空间布局特征为
Figure FDA0003680785830000047
人-物体交互行为标签lHOI,d(·)为欧拉距离,α=0.5,
Figure FDA0003680785830000048
为与
Figure FDA0003680785830000049
对应的lHOI有重合的特征,
Figure FDA00036807858300000410
为与
Figure FDA00036807858300000411
对应的lHOI没有重合的特征;S2D,S3D为二维、三维分支得到的检测分数;
所述的反向传播BP算法的目标函数为L=λ1Ltri2Latt3Lsem4Lcls,其中:λ1=0.001,λ2=0.01,λ3=0.01,λ4=1。
CN202010243766.8A 2020-03-31 2020-03-31 基于细粒度多模态共同表征的人-物体交互行为检测方法 Active CN113468923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010243766.8A CN113468923B (zh) 2020-03-31 2020-03-31 基于细粒度多模态共同表征的人-物体交互行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010243766.8A CN113468923B (zh) 2020-03-31 2020-03-31 基于细粒度多模态共同表征的人-物体交互行为检测方法

Publications (2)

Publication Number Publication Date
CN113468923A CN113468923A (zh) 2021-10-01
CN113468923B true CN113468923B (zh) 2022-09-06

Family

ID=77866103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010243766.8A Active CN113468923B (zh) 2020-03-31 2020-03-31 基于细粒度多模态共同表征的人-物体交互行为检测方法

Country Status (1)

Country Link
CN (1) CN113468923B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937743B (zh) * 2022-12-09 2023-11-14 武汉星巡智能科技有限公司 基于图像融合的婴幼儿看护行为识别方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109285215A (zh) * 2018-08-28 2019-01-29 腾讯科技(深圳)有限公司 一种人体三维模型重建方法、装置和存储介质
CN109636831A (zh) * 2018-12-19 2019-04-16 安徽大学 一种估计三维人体姿态及手部信息的方法
CN110335343A (zh) * 2019-06-13 2019-10-15 清华大学 基于rgbd单视角图像人体三维重建方法及装置
CN110334607A (zh) * 2019-06-12 2019-10-15 武汉大学 一种视频人体交互行为识别方法及系统
CN110598590A (zh) * 2019-08-28 2019-12-20 清华大学 基于多视角相机的紧密交互人体姿态估计方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11127163B2 (en) * 2015-06-24 2021-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Skinned multi-infant linear body model
EP3579196A1 (en) * 2018-06-05 2019-12-11 Cristian Sminchisescu Human clothing transfer method, system and device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109285215A (zh) * 2018-08-28 2019-01-29 腾讯科技(深圳)有限公司 一种人体三维模型重建方法、装置和存储介质
CN109636831A (zh) * 2018-12-19 2019-04-16 安徽大学 一种估计三维人体姿态及手部信息的方法
CN110334607A (zh) * 2019-06-12 2019-10-15 武汉大学 一种视频人体交互行为识别方法及系统
CN110335343A (zh) * 2019-06-13 2019-10-15 清华大学 基于rgbd单视角图像人体三维重建方法及装置
CN110598590A (zh) * 2019-08-28 2019-12-20 清华大学 基于多视角相机的紧密交互人体姿态估计方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Expressive Body Capture: 3D Hands, Face, and Body From a Single Image";Georgios Pavlakos 等;《arXiv.org》;20190411;第1-11页 *
"iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection";Chen Gao 等;《arXiv.org》;20180830;第1-13页 *
"基于卷积神经网络的人体行为分析与步态识别研究";李超;《中国博士学位论文全文数据库 信息科技辑》;20190815(第08期);全文 *

Also Published As

Publication number Publication date
CN113468923A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN111339903B (zh) 一种多人人体姿态估计方法
Wang et al. A deep coarse-to-fine network for head pose estimation from synthetic data
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
CN109359526B (zh) 一种人脸姿态估计方法、装置和设备
CN101159015B (zh) 一种二维人脸图像的识别方法
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
CN110728209A (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN112288851B (zh) 一种基于双支流网络的三维人脸建模方法
US20140043329A1 (en) Method of augmented makeover with 3d face modeling and landmark alignment
CN112800903A (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
Ansari et al. Automatic facial feature extraction and 3D face modeling using two orthogonal views with application to 3D face recognition
Liu et al. Facial expression recognition using pose-guided face alignment and discriminative features based on deep learning
WO2022184133A1 (zh) 一种基于视觉的人脸表情识别方法
CN108846343B (zh) 基于三维视频的多任务协同分析方法
CN110135277A (zh) 一种基于卷积神经网络的人体行为识别方法
CN115018999A (zh) 一种多机器人协作的稠密点云地图构建方法及装置
CN112801945A (zh) 基于双重注意力机制特征提取的深度高斯混合模型颅骨配准方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
Wang et al. Digital twin: Acquiring high-fidelity 3D avatar from a single image
CN113468923B (zh) 基于细粒度多模态共同表征的人-物体交互行为检测方法
CN114283265A (zh) 一种基于3d旋转建模的无监督人脸转正方法
CN114494594A (zh) 基于深度学习的航天员操作设备状态识别方法
CN117689887A (zh) 基于点云分割的工件抓取方法、装置、设备及存储介质
Li et al. Rethinking scene representation: A saliency-driven hierarchical multi-scale resampling for RGB-D scene point cloud in robotic applications
Zhang et al. Perspective independent ground plane estimation by 2D and 3D data analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant