CN113468923B - 基于细粒度多模态共同表征的人-物体交互行为检测方法 - Google Patents
基于细粒度多模态共同表征的人-物体交互行为检测方法 Download PDFInfo
- Publication number
- CN113468923B CN113468923B CN202010243766.8A CN202010243766A CN113468923B CN 113468923 B CN113468923 B CN 113468923B CN 202010243766 A CN202010243766 A CN 202010243766A CN 113468923 B CN113468923 B CN 113468923B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- human
- human body
- layout
- object interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种基于细粒度多模态共同表征的人‑物体交互行为检测方法。通过整理样本图像中的人‑物体对及人‑物体交互行为,并借助三维人体重建方法及三维人体‑物体空间布局生成方法提取标记后的样本图像中的三维信息作为训练集,通过训练集对细粒度多模态共同表征模型进行训练后用于检测测试数据,得到人‑物体交互行为的检测分数实现交互行为检测。本发明能够准确地实现人‑物体交互行为进行检测,并同时获取到交互中的人与物体的二维和三维几何表征。
Description
技术领域
本发明涉及的是一种图像处理领域的技术,具体是一种基于细粒度多模态共同表征的人-物体交互行为检测方法。
背景技术
行为检测的核心就是人-物体交互行为检测,现有的行为检测越来越多倚重深度学习技术。比如,由C.Gao等在文献“ican:Instancecentric attention network forhuman-object interaction detection”(BMVC 2019)中记载的iCAN是此领域一个有效的模型。该方法以三通道RGB图像为输入,使用含有自注意力机制的人工神经网络检测图像中存在的人-物体交互行为。但该技术的缺陷在于:对于同样的人-物体交互行为,单纯的二维信息受视角影响严重,类内差异较大,从而带来严重的类内模糊性;三维人体姿态等信息对于视角变换有一定的鲁棒性,但是缺乏对人-物体交互行为检测必要的细节信息。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于细粒度多模态共同表征的人-物体交互行为检测方法。
本发明是通过以下技术方案实现的:
本发明涉及一种基于细粒度多模态共同表征的人-物体交互行为检测方法,通过整理样本图像中的人-物体对及人-物体交互行为,并借助三维人体重建方法及三维人体-物体空间布局生成方法提取标记后的样本图像中的三维信息作为训练集,通过训练集对细粒度多模态共同表征模型进行训练后用于检测测试数据,得到人-物体交互行为的检测分数实现交互行为检测。
所述的整理是指:从作为样本图像的已有图像库中获取不同场景下、不同种类的人与物体交互图像,并标记其对应的交互行为和物体种类的标签。
所述的细粒度多模态共同表征模型包括:由分别处理人和物体信息的iCAN模块和处理编码后的空间信息的二维空间信息处理模块组成的二维信息处理分支以及由处理空间布局的三维布局模块和处理细节人体信息的三维人体模块组成的三维信息处理分支。
所述的检测分数,通过设置阈值进一步判断测试数据中的人-物体交互行为存在。
本发明涉及一种实现上述方法的系统,包括:数据预处理单元、细粒度三维空间布局构造单元和共同表征单元,其中:数据预处理单元与细粒度三维空间布局构造单元和共同表征单元相连并传输图像、人体边界框、物体边界框信息,细粒度三维空间布局构造单元与二维-三维共同表征学习单元相连并传输细粒度三维空间布局信息,二维三维共同表征学习单元接受前两个单元传入的二维信息和三维信息,输出人-物体交互行为的检测结果。
技术效果
本发明整体解决了人-物体交互行为检测中由于视角受限而产生的模糊性问题。
与现有技术相比,本发明利用细粒度多模态共同表征对人-物体交互行为进行检测,可以准确地实现人-物体交互行为进行检测,并同时获取到交互中的人与物体的二维和三维几何表征,对于一些困难场景它使得仅基于单目图像的人-物体交互行为检测也能具有良好效果,在实际应用中可以减轻对不同角度图像的依赖性,使得本发明中的技术普适性更强的同时检测效果更佳。
附图说明
图1为本发明流程图;
图2为本发明效果示意图;
图中数字为检测分数(0-1);
图3为图像中人-物体对的细粒度三维空间布局获取示意图;
图4为投影示意图;
图5为共同表征学习模型示意图。
具体实施方式
如图1所示,为本实施例涉及一种基于细粒度多模态共同表征的人-物体交互行为检测方法,包括以下步骤:
步骤1,图像预处理:从已有图像库中获取含有不同场景下、不同种类的人与物体交互行为的图像,并增加交互行为和物体种类的标签、图像中有交互行为的人-物体对中的图像及人体边界框bh和物体的边界框bo及其具体属于哪种人与物体交互行为,得到38118张带有人和物体交互行为标签的图像。
步骤2,如图3所示,获得图像中人-物体对的细粒度三维空间布局,具体步骤包括:
步骤2.1:以带有人和物体交互行为标签的图像及人体边界框bh为输入,使用在GPavlakos等在文献“Expressive body capture:3d hands,face,and body from a singleimage”(CVPR 2019)中记载的三维人体SMPL-X模型重建得到;
优选地,本实施例对于每张图像,三维人体重建所需的相机参数沿用由GPavlakos等在文献“Expressive body capture:3d hands,face,and body from a singleimage”(CVPR 2019)中记载的设定,焦距f=5000,设置相机光心为C(t1,t2,t3)。在成像面(图像)坐标系上,物体的边界框bo由其左上角点(x1,y1)和右下角点(x2,y2)表示。
步骤2.2:根据人体边界框bh、物体边界框bo、人体姿态参数θ3D,构造表征物体的物体球,具体包括:
步骤2.2.1:如图4所示,初步定位物体位置:为了表征的鲁棒性和效率,将图像中物体在三维空间布局中简化为空心结构的物体球,球心为O(xO,yO,zO),设置O被投影到bo上边界的中垂线上,即O位于平面当物体球最上和最下的可见点分别被投影到bo的上边沿和下边沿,即物体球的两个切平面分别为和这两个平面与PABC相交,围成的区域即为O所可能在的区域。
步骤2.2.3:根据步骤2.1重建得到的三维人体SMPL-X模型中的最大、最小深度 对物体球中心坐标进行规范化:对于每种物体通过预设的深度规范因子作为阈值;对于估计出的物体球中心坐标进一步判断:当超出了将被移动到和中距较近的那一个。
步骤2.3,将步骤2.1重建得到的三维人体SMPL-X模型与步骤2.2构造得到的物体球组合成三维空间布局,并进行规范化处理:将坐标原点设为重建出的人体的骨盆点,并将人体旋转至其双肩连线与x轴平行;将重建出的三维人体降采样到916个点,并在重建出的物体球表面采样312个点,最终获得人-物体对细粒度三维空间布局。
步骤3:如图5所示,构建共同表征学习模型,该共同表征学习模型具体为双分支的多层神经网络,其包括由分别处理人和物体信息的iCAN模块和处理编码后的空间信息的二维空间信息处理模块组成的二维信息处理分支以及由处理空间布局的三维布局模块和处理细节人体信息的三维人体模块组成的三维信息处理分支,具体构建过程包括:
步骤3.1:采用C Gao等在文献“ican:Instance-centric attention network forhuman-object interaction detection”(BMVC 2018)中记载的方式实现iCAN模块,该模块输入为尺寸不限的RGB彩色图IRGB、人体边界框bh和物体边界框bo,经过多个卷积层与兴趣区域池化后得到长为2048的二维人体特征、二维物体特征并将其分别输入形状2048×600的两个全连接层和得到对600种人-物体交互的二维人体推断分数和二维物体推断分数
步骤3.2:设置二维空间信息处理模块的输入为64×64×3的编码后的空间信息Isp,其中前两个特征通道分别由人体边界框bh和物体边界框bo生成,处在边界框内的部分赋值为0,边界外赋值为1;第三个特征通道为人体的二维姿态骨架;编码后的空间信息依次输入第一卷积层C1、第一最大值池化层P1、第二卷积层C2和第二最大值池化层P2,输出为16×16×32的特征图其中卷积层C1输入通道为3,卷积核为5×5,输出通道为64;最大值池化层P1池化核为2×2,步长为2×2;卷积层C2输入通道为64,卷积核为5×5,输出通道32;最大值池化层P2池化核为2×2,步长为2×2;
经过自注意力机制,根据特征图获得大小为16×16的注意力图att2D并通过计算出对应人体17个部分的长为17的二维注意力向量其中:(u,v)表示att2D上的任意点,(ui,vi)表示第i个人体部分对应的人体关节点在注意力图att2D上的坐标,d[·]表示两个点间的欧拉距离;将注意力图att2D与二维空间特征求基本积后输入卷积核为1×1,输出通道为256的第三卷积层C3,经全局池化,最终得到长为256的二维空间布局特征最后将其输入大小为256×600的全连接层二维空间分类器得到对600种人-物体交互行为的二维空间布局推断分数
步骤3.3:设置三维分支的三维布局模块的输入为将三维布局点云输入PointNet后得到的大小为1228×384的三维空间特征该三维布局模块内置池化层和隐藏层均为768的多层感知机,从而得到大小为17的三维注意力向量A3D,该三维注意力向量的每个值对应每个身体部分的重要程度。将三维注意力向量A3D与根据G Pavlakos等在文献“Expressive body capture:3d hands,face,and body from a single image”(CVPR2019)中记载的三维人体SMPL-X模型中人体各部分和点云中点的对应关系获得的人体各部分和步骤2中获得的三维空间布局点云中点的大小为17×1228的映射矩阵M3D作矩阵乘法,得到大小为1228的注意力向量att3D;再将注意力向量att3D与三维空间特征逐个点对点相乘后输入全连接层,经全局池化,获得长为512的三维布局特征最后将其输入大小为512×600的全连接层三维空间分类器得到对600种人-物体交互行为的三维空间布局推断分数
步骤3.4:设置三维分支的三维人体模块的输入为{人体姿态参数θ3D,人体形状参数β,人表情参数体ψ},该三维分支的三维人体模块内置大小为85×1024和1024×1024的全连接层,得到长为1024的三维人体特征再将其输入大小为1024×600的全连接层得到对600种人-物体交互行为的三维人体推断分数
步骤3.5:将步骤3.1至步骤3.4得到的二维人体特征、二维物体特征二维空间布局特征三维布局特征三维人体特征拼接得到大小为5888的二维三维联合特征后输入大小为5888×600的全连接层,得到对600种人-物体交互行为的共同推断分数SJoint。
步骤4:训练步骤3构建得到的共同表征学习模型,具体步骤包括:
步骤4.1:用均值为0,标准差为0.01的高斯分布采样初始化模型中待训练参数。
步骤4.2:向模型中输入步骤1得到的38118个带有人-物体交互行为标签的图像作为训练样本进行训练,训练样本经过逐层变换,传送到输出层,得到二维人体推断分数二维物体推断分数二维空间布局推断分数三维空间布局推断分数三维人体推断分数二维空间布局特征三维空间布局特征二维注意力向量A2D以及三维注意力向量A3D。
步骤4.3:使用交叉熵损失函数、一致性约束损失函数结合反向传播BP算法调整模型参数。
所述的一致性约束损失函数包括:对注意力一致性的约束损失函数对二维、三维空间特征一致性的约束损失函数以及对二维、三维推断语义一致性的约束损失函数其中:二维注意力向量三维注意力向量三维空间布局特征为二维空间布局特征为人-物体交互行为标签lHOI,d(·)为欧拉距离,α=0.5,为与对应的lHOI有重合的特征,为与对应的lHOI没有重合的特征;S2D,S3D为二维、三维分支得到的检测分数。
所述的反向传播BP算法的目标函数为L=λ1Ltri+λ2Latt+λ3Lsem+λ4Lcls,其中:λ1=0.001,λ2=0.01,λ3=0.01,λ4=1。
在本实施例中,反向传播BP算法的学习率为0.001,对整个训练数据集迭代100次。
步骤5:人-物体交互行为检测:采用9658张待检测图像,利用待检测图像及其中存在的人体边界框bh、物体边界框bo、生成相应的人-物体对及原始图像IRGB、编码后的空间信息Isp、人体边界框bh、物体边界框bo、三维空间布局特征人体姿态参数θ3D、人体形状参数β、人体表情参数ψ,输入到模型中,经过逐层变化、计算,获得600维输出向量,即推断分数S。
本方法使用Y Chao等在文献“Learning to Detect Human-ObjectInteractions”(WACV2018)中提出的平均精度均值(mAP)检验检测结果。在所有图像中,平均精度均值达到21.06%。
本方法通过对人-物体交互行为种类、二维分支网络结构、三维分支网络结构的调整和改进,可以进一步用于日常人-物体交互行为的检测与分类。在目前公开的大型人-物体交互数据集HICO-DET上,本方法识别精度达到21.06%,是目前得分最高的方法,如下表所示:
方法 | 平均检测精度均值 |
HO-RCNN | 6.46 |
InteractNet | 7.81 |
GPNN | 1311 |
iCAN | 1484 |
nteractiveness | 1703 |
No-Frills | 1718 |
PMFNet | 1746 |
Analogy | 1940 |
本发明 | 2106 |
经过具体实际实验,在常见的公开数据集HICO-DET上,以均值为0,标准差为0.01的高斯分布采样初始化共同表征学习模型中待训练参数,以随机梯度下降作为优化算法,目标函数计算设置为步骤4.3中所述,学习率设定为0.001,迭代次数135启动以上方法,模型测试结果为人-物体交互行为检测平均精度均值21.06%。
与现有技术相比,本发明修改共同表征学习模型中二维分支的网络结构或三位分支的网络结构,加入自注意力等机制等,根据实际的图片,在检测人-物体交互行为时自动盛恒不同的注意力,使得模型针对不同输入可以动态地自我调节。在运行速度基本不变的情况下,与现有方法最佳相比,在HICO-DET上的平均精度均值上相对提升了8%。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (6)
1.一种基于细粒度多模态共同表征的人-物体交互行为检测方法,其特征在于,通过整理样本图像中的人-物体对及人-物体交互行为得到带有人体物体交互行为标签的图像后,依次采用三维人体重建方法和三维人体-物体空间布局生成方法根据带有人体物体交互行为标签的图像构造出具有三维人体SMPL-X模型和物体球的人-物体对细粒度三维空间布局作为训练集,通过构建共同表征学习模型并采用训练集进行训练后用于检测测试数据,得到人-物体交互行为的检测分数实现交互行为检测;
所述的三维人体-物体空间布局生成方法,包括:
步骤2.1:以带有人和物体交互行为标签的图像及人体边界框bh为输入,使用三维人体SMPL-X模型重建得到;
所述的人-物体对中的三维人体SMPL-X模型包括:人体的最大深度人体的最小深度人体的姿态参数θ3D,人体的形状参数β和面部表情参数ψ;对于每张图像,三维人体重建所需的相机参数包括:焦距f=5000,设置相机光心为C(t1,t2,t3);在成像面,即图像坐标系上,物体的边界框bo由其左上角点(x1,y1)和右下角点(x2,y2)表示;
步骤2.2:根据人体边界框bh、物体边界框bo、人体姿态参数θ3D,构造表征物体的物体球,具体包括:
步骤2.2.1:初步定位物体位置:为了表征的鲁棒性和效率,将图像中物体在三维空间布局中简化为空心结构的物体球,球心为O(xO,yO,zO),设置O被投影到bo上边界的中垂线上,即O位于平面PABC:当物体球最上和最下的可见点分别被投影到bo的上边沿和下边沿,即物体球的两个切平面分别为P1:和P2:这两个平面与PABC相交,围成的区域即为O所可能在的区域;
步骤2.2.3:根据步骤2.1重建得到的三维人体SMPL-X模型中的最大、最小深度对物体球中心坐标进行规范化:对于每种物体通过预设的深度规范因子作为阈值;对于估计出的物体球中心坐标进一步判断:当超出了 将被移动到和中距较近的那一个;
步骤2.3,将步骤2.1重建得到的三维人体SMPL-X模型与步骤2.2构造得到的物体球组合成三维空间布局,并进行规范化处理:将坐标原点设为重建出的人体的骨盆点,并将人体旋转至其双肩连线与x轴平行;将重建出的三维人体降采样到916个点,并在重建出的物体球表面采样312个点,最终获得人-物体对细粒度三维空间布局;
所述的共同表征学习模型包括:由分别处理人和物体信息的iCAN模块和处理编码后的空间信息的二维空间信息处理模块组成的二维信息处理分支以及由处理空间布局的三维布局模块和处理细节人体信息的三维人体模块组成的三维信息处理分支;
所述的构建,具体包括以下步骤:
步骤3.1:构建iCAN模块,该模块输入为尺寸不限的RGB彩色图IRGB、人体边界框bh和物体边界框bo,经过多个卷积层与兴趣区域池化后得到长为2048的二维人体特征、二维物体特征并将其分别输入形状2048×600的两个全连接层和得到对600种人-物体交互的二维人体推断分数和二维物体推断分数
步骤3.2:设置二维空间信息处理模块的输入为64×64×3的编码后的空间信息Isp,其中前两个特征通道分别由人体边界框bh和物体边界框bo生成,处在边界框内的部分赋值为0,边界外赋值为1;第三个特征通道为人体的二维姿态骨架;编码后的空间信息依次输入第一卷积层C1、第一最大值池化层P1、第二卷积层C2和第二最大值池化层P2,输出为16×16×32的特征图经过自注意力机制,根据特征图获得大小为16×16的注意力图att2D并通过计算出对应人体17个部分的长为17的二维注意力向量其中:(u,v)表示att2D上的任意点,(ui,vi)表示第i个人体部分对应的人体关节点在注意力图att2D上的坐标,d[·]表示两个点间的欧拉距离;将注意力图att2D与求基本积后输入卷积核为1×1,输出通道为256的第三卷积层C3,经全局池化,最终得到长为256的二维空间布局特征最后将其输入大小为256×600的全连接层二维空间分类器得到对600种人-物体交互行为的二维空间布局推断分数
步骤3.3:设置三维分支的三维布局模块的输入为将三维布局点云输入PointNet后得到的大小为1228×384的三维空间特征得到对600种人-物体交互行为的三维空间布局推断分数该三维布局模块内置池化层和隐藏层均为768的多层感知机,从而得到大小为17的三维注意力向量A3D,该三维注意力向量的每个值对应每个身体部分的重要程度;将三维注意力向量A3D与根据三维人体SMPL-X模型中人体各部分和点云中点的对应关系获得的人体各部分和步骤2中获得的三维空间布局点云中点的大小为17×1228的映射矩阵M3D作矩阵乘法,得到大小为1228的注意力向量att3D;再将注意力向量att3D与三维空间特征逐个点对点相乘后输入全连接层,经全局池化,获得长为512的三维布局特征最后将其输入大小为512×600的全连接层三维空间分类器得到对600种人-物体交互行为的三维空间布局推断分数
步骤3.4:设置三维分支的三维人体模块的输入为{人体姿态参数θ3D,人体形状参数β,人表情参数体ψ},得到对600种人-物体交互行为的三维人体推断分数该三维人体模块内置大小为85×1024和1024×1024的全连接层,得到长为1024的三维人体特征再将其输入大小为1024×600的全连接层得到对600种人-物体交互行为的三维人体推断分数
步骤3.5:将步骤3.1至步骤3.4得到的二维人体特征、二维物体特征二维空间布局特征三维布局特征三维人体特征拼接得到大小为5888的二维三维联合特征后输入大小为5888×600的全连接层,得到对600种人-物体交互行为的共同推断分数SJoint;
2.根据权利要求1所述的人-物体交互行为检测方法,其特征是,所述的检测分数,通过设置阈值进一步判断测试数据中的人-物体交互行为存在。
3.根据权利要求1所述的人-物体交互行为检测方法,其特征是,所述的整理是指:从已有图像库中获取含有不同场景下、不同种类的人与物体交互行为的图像,并增加交互行为和物体种类的标签、图像中有交互行为的人-物体对中人体边界框bh和物体的边界框bo及其具体属于哪种人与物体交互行为。
5.根据权利要求1所述的人-物体交互行为检测方法,其特征是,所述的训练,进一步使用交叉熵损失函数、一致性约束损失函数结合反向传播BP算法调整模型参数。
6.根据权利要求5所述的人-物体交互行为检测方法,其特征是,所述的一致性约束损失函数包括:对注意力一致性的约束损失函数对二维、三维空间特征一致性的约束损失函数以及对二维、三维推断语义一致性的约束损失函数其中:二维注意力向量三维注意力向量三维空间布局特征为二维空间布局特征为人-物体交互行为标签lHOI,d(·)为欧拉距离,α=0.5,为与对应的lHOI有重合的特征,为与对应的lHOI没有重合的特征;S2D,S3D为二维、三维分支得到的检测分数;
所述的反向传播BP算法的目标函数为L=λ1Ltri+λ2Latt+λ3Lsem+λ4Lcls,其中:λ1=0.001,λ2=0.01,λ3=0.01,λ4=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010243766.8A CN113468923B (zh) | 2020-03-31 | 2020-03-31 | 基于细粒度多模态共同表征的人-物体交互行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010243766.8A CN113468923B (zh) | 2020-03-31 | 2020-03-31 | 基于细粒度多模态共同表征的人-物体交互行为检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468923A CN113468923A (zh) | 2021-10-01 |
CN113468923B true CN113468923B (zh) | 2022-09-06 |
Family
ID=77866103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010243766.8A Active CN113468923B (zh) | 2020-03-31 | 2020-03-31 | 基于细粒度多模态共同表征的人-物体交互行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468923B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937743B (zh) * | 2022-12-09 | 2023-11-14 | 武汉星巡智能科技有限公司 | 基于图像融合的婴幼儿看护行为识别方法、装置及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109285215A (zh) * | 2018-08-28 | 2019-01-29 | 腾讯科技(深圳)有限公司 | 一种人体三维模型重建方法、装置和存储介质 |
CN109636831A (zh) * | 2018-12-19 | 2019-04-16 | 安徽大学 | 一种估计三维人体姿态及手部信息的方法 |
CN110335343A (zh) * | 2019-06-13 | 2019-10-15 | 清华大学 | 基于rgbd单视角图像人体三维重建方法及装置 |
CN110334607A (zh) * | 2019-06-12 | 2019-10-15 | 武汉大学 | 一种视频人体交互行为识别方法及系统 |
CN110598590A (zh) * | 2019-08-28 | 2019-12-20 | 清华大学 | 基于多视角相机的紧密交互人体姿态估计方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11127163B2 (en) * | 2015-06-24 | 2021-09-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Skinned multi-infant linear body model |
EP3579196A1 (en) * | 2018-06-05 | 2019-12-11 | Cristian Sminchisescu | Human clothing transfer method, system and device |
-
2020
- 2020-03-31 CN CN202010243766.8A patent/CN113468923B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109285215A (zh) * | 2018-08-28 | 2019-01-29 | 腾讯科技(深圳)有限公司 | 一种人体三维模型重建方法、装置和存储介质 |
CN109636831A (zh) * | 2018-12-19 | 2019-04-16 | 安徽大学 | 一种估计三维人体姿态及手部信息的方法 |
CN110334607A (zh) * | 2019-06-12 | 2019-10-15 | 武汉大学 | 一种视频人体交互行为识别方法及系统 |
CN110335343A (zh) * | 2019-06-13 | 2019-10-15 | 清华大学 | 基于rgbd单视角图像人体三维重建方法及装置 |
CN110598590A (zh) * | 2019-08-28 | 2019-12-20 | 清华大学 | 基于多视角相机的紧密交互人体姿态估计方法及装置 |
Non-Patent Citations (3)
Title |
---|
"Expressive Body Capture: 3D Hands, Face, and Body From a Single Image";Georgios Pavlakos 等;《arXiv.org》;20190411;第1-11页 * |
"iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection";Chen Gao 等;《arXiv.org》;20180830;第1-13页 * |
"基于卷积神经网络的人体行为分析与步态识别研究";李超;《中国博士学位论文全文数据库 信息科技辑》;20190815(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113468923A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339903B (zh) | 一种多人人体姿态估计方法 | |
Wang et al. | A deep coarse-to-fine network for head pose estimation from synthetic data | |
CN108491880B (zh) | 基于神经网络的物体分类和位姿估计方法 | |
CN109359526B (zh) | 一种人脸姿态估计方法、装置和设备 | |
CN101159015B (zh) | 一种二维人脸图像的识别方法 | |
CN112801015B (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
CN110728209A (zh) | 一种姿态识别方法、装置、电子设备及存储介质 | |
CN112288851B (zh) | 一种基于双支流网络的三维人脸建模方法 | |
US20140043329A1 (en) | Method of augmented makeover with 3d face modeling and landmark alignment | |
CN112800903A (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
Ansari et al. | Automatic facial feature extraction and 3D face modeling using two orthogonal views with application to 3D face recognition | |
Liu et al. | Facial expression recognition using pose-guided face alignment and discriminative features based on deep learning | |
WO2022184133A1 (zh) | 一种基于视觉的人脸表情识别方法 | |
CN108846343B (zh) | 基于三维视频的多任务协同分析方法 | |
CN110135277A (zh) | 一种基于卷积神经网络的人体行为识别方法 | |
CN115018999A (zh) | 一种多机器人协作的稠密点云地图构建方法及装置 | |
CN112801945A (zh) | 基于双重注意力机制特征提取的深度高斯混合模型颅骨配准方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Wang et al. | Digital twin: Acquiring high-fidelity 3D avatar from a single image | |
CN113468923B (zh) | 基于细粒度多模态共同表征的人-物体交互行为检测方法 | |
CN114283265A (zh) | 一种基于3d旋转建模的无监督人脸转正方法 | |
CN114494594A (zh) | 基于深度学习的航天员操作设备状态识别方法 | |
CN117689887A (zh) | 基于点云分割的工件抓取方法、装置、设备及存储介质 | |
Li et al. | Rethinking scene representation: A saliency-driven hierarchical multi-scale resampling for RGB-D scene point cloud in robotic applications | |
Zhang et al. | Perspective independent ground plane estimation by 2D and 3D data analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |