CN112232106A - 一种二维到三维人体姿态估计方法 - Google Patents

一种二维到三维人体姿态估计方法 Download PDF

Info

Publication number
CN112232106A
CN112232106A CN202010807901.7A CN202010807901A CN112232106A CN 112232106 A CN112232106 A CN 112232106A CN 202010807901 A CN202010807901 A CN 202010807901A CN 112232106 A CN112232106 A CN 112232106A
Authority
CN
China
Prior art keywords
dimensional
human body
layer
joint
trunk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010807901.7A
Other languages
English (en)
Inventor
孔德慧
吴永鹏
王少帆
李敬华
王立春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010807901.7A priority Critical patent/CN112232106A/zh
Publication of CN112232106A publication Critical patent/CN112232106A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

一种二维到三维人体姿态估计方法,其能够克服三维标注数据的不足以及背景、灯光、服装形状和纹理、肤色等条件的影响,并从多尺度中提取特征,促进不同姿态之间的相互学习,得到更加准确的三维姿态。该方法包括:(1)分层图卷积网络;(2)结合对角占优图卷积层和非局部层的特征提取网络块;(3)人体几何约束。

Description

一种二维到三维人体姿态估计方法
技术领域
本发明涉及计算机视觉和模式识别的技术领域,尤其涉及一种二维到三维人体姿态估计方法。
背景技术
基于计算机视觉技术的三维人体姿态估计在人类生活的众多领域得到广泛应用,如计算机动画、医学、人机交互,行为识别等领域。基于神经网络技术的快速发展,从RGB图像估计三维人体姿态,不仅消除了对RGB-D传感器(如Kinect)的依赖,并且获得了性能上的明显提升,成为当前研究热点。
目前存在的基于图像的三维人体姿态估计主要分为两类:1)从图像中直接估计三维人体姿态;2)从图像先估计二维姿态,再回归出三维姿态。前者受限于有限的实验标注数据,并受到背景场景、灯光、服装形状和纹理、肤色等条件的影响。后者将整个任务分解为二维关节点检测和从二维关节点回归出三维姿态两个子任务。二维姿态检测拥有大量的训练标注数据,已经取得很好的精度。从二维关节点回归三维关节,虽然避免了背景,纹理等因素的影响,但是一个二维姿态往往可以对应多个三维姿态,这使得很难推断出唯一有效的解决方案,特别是对于严重遮挡的情况。
近年来的研究表明,二维姿态中含有丰富的三维信息,仅使用二维姿态可以估计出较高精度的三维姿态。但是由于深度模糊和严重的自聚焦,从二维姿态中挖掘出有用的三维信息,从而得到更具鲁棒性和通用性的模型依旧是一项具有挑战性的任务。现有的方法试图从完整的二维姿态提取特征,并回归出三维姿态。但是,不同的动作对应的姿态之间存在着不同粒度下的相似性和区别。例如站立和挥手两个动作对应的二维姿态只有手臂存在不同。如果只提取全局姿态特征,会使得只存在人体部件级别不同的姿态很难区分,也不利于不同姿态之间的相互学习。因此,构建多尺度,多层次的特征提取模型更有利于模型的鲁棒性和通用性。另一方面,合理的姿态必须满足人体几何约束,例如关节长度以及方向约束。这促使我们探索更加合理,鲁棒,更具普适性的网络模型来有效的探索二维到二维的空间相关性。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种二维到三维人体姿态估计方法,其能够克服三维标注数据的不足以及背景、灯光、服装形状和纹理、肤色等条件的影响,并从多尺度中提取特征,促进不同姿态之间的相互学习,得到更加准确的三维姿态。
本发明的技术方案是:这种二维到三维人体姿态估计方法,该方法包括以下步骤:
(1)分层图卷积网络:包括特征增强模块和分层图卷积模块;特征增强模块由3层全连接层组成,其中后两层组成了一个残差块,通过网络从二维坐标中挖掘出关节坐标之间的潜在关系,以此来增强人体的特征表示;分层图卷积模块有6层,每层对应着当前粒度下的人体模型划分,通过统一的特征提取网络块提取人体不同粒度的特征,并通过层次化的融合,从而得到更好的特征;
(2)结合对角占优图卷积层和非局部层的特征提取网络块:在每一个粒度的人体骨架上利用对角占优图卷积层和非局部层进行特征提取;
(3)人体几何约束:在位置损失的基础上,加入人体几何约束,使得预测的三维姿态加合理;人体几何约束包括骨长比值约束以及骨方向夹角约束;预测的三维姿态应该满足人体各部位长度的比值固定,为了获得一个合理的人体骨架统一模型,利用训练数据集得到一个平均的人体骨架当作统一模板。
本发明以二维姿态作为输入,利用分层的图网络结构,从多粒度和多角度的层面探索二维到三维的空间映射,本发明提出的结合对角占优图卷积层和非局部层的特征提取模块,兼顾特征的局部性和全局性,在优化的目标函数结合了人体几何约束,最终实现了准确的三维姿态估计,因此能够克服三维标注数据的不足以及背景、灯光、服装形状和纹理、肤色等条件的影响,并从多尺度中提取特征,促进不同姿态之间的相互学习,得到更加准确的三维姿态。
附图说明
图1示出了根据本发明的整体网络框架图。
图2示出了根据本发明的分层图结构。
图3示出了非局部层的网络结构。
图4示出了huaman3.6M数据集主观结果。
图5示出了MPII数据集主观结果。
图6示出了根据本发明的二维到三维人体姿态估计方法的流程图。
具体实施方式
如图6所示,这种二维到三维人体姿态估计方法,该方法包括以下步骤:
(1)分层图卷积网络:包括特征增强模块和分层图卷积模块;特征增强模块由3层全连接层组成,其中后两层组成了一个残差块,通过网络从二维坐标中挖掘出关节坐标之间的潜在关系,以此来增强人体的特征表示;分层图卷积模块有6层,每层对应着当前粒度下的人体模型划分,通过统一的特征提取网络块提取人体不同粒度的特征,并通过层次化的融合,从而得到更好的特征;
(2)结合对角占优图卷积层和非局部层的特征提取网络块:在每一个粒度的人体骨架上利用对角占优图卷积层和非局部层进行特征提取;
(3)人体几何约束:在位置损失的基础上,加入人体几何约束,使得预测的三维姿态加合理;人体几何约束包括骨长比值约束以及骨方向夹角约束;预测的三维姿态应该满足人体各部位长度的比值固定,为了获得一个合理的人体骨架统一模型,利用训练数据集得到一个平均的人体骨架当作统一模板。
本发明以二维姿态作为输入,利用分层的图网络结构,从多粒度和多角度的层面探索二维到三维的空间映射,本发明提出的结合对角占优图卷积层和非局部层的特征提取模块,兼顾特征的局部性和全局性,在优化的目标函数结合了人体几何约束,最终实现了准确的三维姿态估计,因此能够克服三维标注数据的不足以及背景、灯光、服装形状和纹理、肤色等条件的影响,并从多尺度中提取特征,促进不同姿态之间的相互学习,得到更加准确的三维姿态。
优选地,所述步骤(1)中:
每个图结构表示为G=(V,E),其中V表示分层图结构中包含的K个关节点,E表示人体关节点之间的自然连接和扩展的连接的并集;分层图结构底层代表五个基元部位,分别表示躯干、左臂、右臂、左腿、右腿;由于四肢具有相似的自由度,可以独立运动,因此作为基元部位;躯干是四肢的父节点,决定着人体的主方向,因此作为另一个基元部位;把头部合并到躯干,因为头部包含的关节较少并且活动范围较小;不考虑小的关节点组合,因为少于三个关节点的组合不能构成平面信息,它们很难与特定的姿态联系起来;将四肢与躯干分别结合组成第二层,躯干补充四肢的主方向信息;因为人体具有左右对称性,所以考虑到对称和全局方向信息,上肢和下肢分别与躯干结合在一起组成第三层;最后,完整的人体作为最后一层,因为合理的人体姿态依赖于所有关节的协调,因此完整的骨骼信息提取至关重要。
优选地,所述步骤(1)中,输入16个二维关节点坐标,经过特征增强模块,将每个关节点的特征由二维升到128维;将16x128维的特征输入到分层图卷积模块,其中每行的128维特征表示一个特定的关节点特征;在分层图卷积模块中,第一层将16个关节点按照五个基元部位分解为五个子特征矩阵,每个子矩阵对应特定的邻接矩阵,然后分别通过特征提取网络块进行特征提取;第二层将四肢分别与躯干拼接,并添加躯干与四肢的连接边,组成新的关节图,再利用特征提取网络块提取特征;第三层将第二层的图融合为上躯干和下躯干,并加上对称性连接边,然后分别提取上躯干和下躯干的特征;第四,五层以整个人体骨架进行特征提取,提取姿态的整体特征;最后一层图卷积输出为预测的三维姿态。
优选地,所述步骤(2)中,
Figure BDA0002629835590000051
Figure BDA0002629835590000052
分别表示节点经过第l层卷积前后的特征,则图卷积的一般形式为公式(1):
Figure BDA0002629835590000053
其中
Figure BDA0002629835590000059
表示图G的邻接矩阵,如果有连接关系aij=1,否则aij=0
Figure BDA0002629835590000055
I是单位阵,
Figure BDA0002629835590000056
是对角矩阵,其中
Figure BDA0002629835590000057
表示每个节点的度,σ表示激活函数,
Figure BDA0002629835590000058
表示可学习的权重参数;
对角占优的图卷积为公式(2):
Figure BDA0002629835590000061
其中
Figure BDA00026298355900000610
表示需要学习的关于边的权重矩阵,⊙表示对应元素相乘;
图卷积主要聚合节点的邻居节点特征,提取的是关节点的局部特征,因此在对角占优的图卷积层后面加入非局部层,以此来平衡局部特征和全局特征;输入的特征矩阵经过三个全连接层将特征数量将为原来的一半,由前两个分支得到相关性矩阵,经过softmax进行标准化;第三个分支乘以相关性矩阵,则输出的每个节点特征都是其他节点特征的加权平均值;最后经过Wz恢复原始维度,并加上输出得到最终的输出,如公式(3):
y=Wz(softmax(HTWθ TWφH)WgH)+H。
优选地,所述步骤(3)中,平均的人体骨架为公式(4):
Figure BDA0002629835590000063
其中sn表示训练集的第n个人体骨架;
Figure BDA0002629835590000064
表示S中的骨长集合,其中
Figure BDA0002629835590000065
表示S中第i个骨长;对于预测的三维姿态,将其表示为骨长集合
Figure BDA0002629835590000066
和骨向量的集合
Figure BDA0002629835590000067
其中bi表示预测的姿态的第i个骨长,vi表示预测的姿态的第i个骨方向;对于三维groundtruth,获取其骨向量的集合
Figure BDA0002629835590000068
其中
Figure BDA0002629835590000069
表示预groundtruth的第i个骨方向;
人体不同的关节拥有不同的运动范围,为了约束网络生成的三维姿态具有合理的关节角度,加入了不同部位之间的角度约束;其中三维groundtruth的第i和第j个部位的夹角定义为公式(5):
Figure BDA0002629835590000071
同样地得到预测的姿态的第i和第j个部位之间的夹角θij
网络的整体目标函数为公式(6):
Figure BDA0002629835590000072
其中Jk表示第k个关节点,f(Jk)表示第k个关节点经过网络后的三维预测值,
Figure BDA0002629835590000073
表示第k个关节的三维groundtruth。
以下更详细地说明本发明。
本发明主要包括以下部分:
1.分层图卷积网络:
本发明的提出的分层图卷积网络框架如图1所示,主要包括特征增强模块和分层图卷积模块。
特征增强模块由3层全连接层组成,其中后两层组成了一个残差块。由于二维姿态含有低纬度的特征,很难充分的表示一个姿态。因此,本发明通过网络从二维坐标中挖掘出关节坐标之间的潜在关系,以此来增强人体的特征表示。
分层图卷积模块有6层,每层对应着当前粒度下的人体模型划分。通过统一的特征提取网络块提取人体不同粒度的特征,并通过层次化的融合,从而得到更好的特征。
如图2所示,本发明设计了人体的分层图结构。每个图结构表示为G=(V,E),其中V表示图结构中包含的K个关节点,E表示人体关节点之间的自然连接和扩展的连接的并集。分层图结构底层代表五个基元部位,分别表示躯干、左臂、右臂、左腿、右腿。由于四肢具有相似的自由度,可以独立运动,因此可以作为基元部位。躯干是四肢的父节点,决定着人体的主方向,因此可以作为另一个基元部位。本发明把头部合并到躯干,因为头部包含的关节较少并且活动范围较小。本发明不考虑小的关节点组合(如腕关节和肘关节),因为少于三个关节点的组合不能构成平面信息,它们很难与特定的姿态联系起来。本发明将四肢与躯干分别结合组成第二层,躯干可以补充四肢的主方向信息。因为人体具有左右对称性,所以考虑到对称和全局方向信息,上肢和下肢分别与躯干结合在一起组成第三层。最后,完整的人体作为最后一层,因为合理的人体姿态依赖于所有关节的协调,因此完整的骨骼信息提取至关重要。从分层图结构的纵向上来看,分层的结构提供了人体的不同尺度处理,以测量不同粒度的姿态;水平方向上,在每个粒度下聚焦于不同的人体部件,体现了多视角的姿态测量。在分层图结构的基础上,本发明设计了分层图卷积模块来实现特征的提取和融合,并使用统一的特征提取网络块进行特征提取。
具体来说,输入16个二维关节点坐标,经过特征提增强模块,将每个关节点的特征由二维升到128维。将16x128维的特征输入到分层图卷积模块,其中每行的128维特征表示一个特定的关节点特征。在分层图卷积模块中,第一层将16个关节点按照五个基元部位分解为五个子特征矩阵,每个子矩阵对应特定的邻接矩阵(如图1中GCN关节连接图所示),然后分别通过特征提取网络块进行特征提取;第二层将四肢分别与躯干拼接,并添加躯干与四肢的连接边,组成新的关节图,再利用特征提取网络块提取特征;第三层将第二层的图融合为上躯干和下躯干,并加上对称性连接边,然后分别提取上躯干和下躯干的特征;第四,五层以整个人体骨架进行特征提取,提取姿态的整体特征;最后一层图卷积输出为预测的三维姿态。本发明提出的分层图卷积网络结构,可以从多粒度和多视角的层面提取特征,不同粒度特征的逐层融合,体现了从局部到全局的特征学习过程,加强了模型的鲁棒性和泛化性。
2.结合对角占优图卷积层和非局部层的特征提取网络块
在每一个粒度的人体骨架上利用对角占优图卷积层和非局部层进行特征提取。令
Figure BDA0002629835590000091
Figure BDA0002629835590000092
分别表示节点经过第l层卷积前后的特征,则图卷积的一般形式为:
Figure BDA0002629835590000093
其中
Figure BDA0002629835590000094
表示图G的邻接矩阵,如果有连接关系aij=1,否则aij=0
Figure BDA0002629835590000095
I是单位阵。
Figure BDA0002629835590000096
是对角矩阵,其中
Figure BDA0002629835590000097
表示每个节点的度。σ表示激活函数。
Figure BDA0002629835590000098
表示可学习的权重参数。
考虑到二维姿态关节点和三维姿态关节点的一一对应关系,关节点自身的特征对最终预测的三维关节点发挥着重要作用。因此,本发明提出一种改进的对角占优的图卷积:
Figure BDA0002629835590000099
其中
Figure BDA00026298355900000910
表示需要学习的关于边的权重矩阵,⊙表示对应元素相乘。本发明提出的图卷积在特征更新中始终保持自身特征占有最大的比重,实验结果表明这有利于预测更加准确的三维姿态。
图卷积主要聚合节点的邻居节点特征,提取的是关节点的局部特征,因此在对角占优的图卷积层后面加入非局部层,以此来平衡局部特征和全局特征。非局部层结构如图3所示。输入的特征矩阵经过三个全连接层将特征数量将为原来的一半,由前两个分支得到相关性矩阵,经过softmax进行标准化。第三个分支乘以相关性矩阵,则输出的每个节点特征都是其他节点特征的加权平均值。最后经过Wz恢复原始维度,并加上输出得到最终的输出。
y=Wz(softmax(HTWθ TWφH)WgH)+H
结合对角占优的图卷积层和非局部层的特征提取网络块,能够平衡通过图卷积提取的局部特征以及通过非局部层提取的当前尺度下的全局特征,并且保持了节点自身在特征更新中的比重。
3.人体几何约束
在位置损失的基础上,加入了人体几何约束,使得预测的三维姿态加合理。人体几何约束主要由骨长比值约束以及骨方向夹角约束两部分组成。具体来说,预测的三维姿态应该满足人体各部位长度的比值固定,为了获得一个合理的人体骨架统一模型,本发明利用训练数据集得到一个平均的人体骨架当做统一模板。
Figure BDA0002629835590000101
其中sn表示训练集的第n个人体骨架。
Figure BDA0002629835590000102
表示S中的骨长集合,其中
Figure BDA0002629835590000103
表示S中第i个骨长。对于预测的三维姿态,将其表示为骨长集合
Figure BDA0002629835590000104
和骨向量的集合
Figure BDA0002629835590000105
其中bi表示预测的姿态的第i个骨长,vi表示预测的姿态的第i个骨方向。同样的,对于三维groundtruth,获取其骨向量的集合
Figure BDA0002629835590000106
其中
Figure BDA0002629835590000107
表示预groundtruth的第i个骨方向。
人体不同的关节拥有不同的运动范围,为了约束网络生成的三维姿态具有合理的关节角度,本发明加入了不同部位之间的角度约束。其中三维groundtruth的第i和第j个部位的夹角定义为:
Figure BDA0002629835590000108
同样的,可以得到预测的姿态的第i和第j个部位之间的夹角θij
网络的整体目标函数为:
Figure BDA0002629835590000109
其中Jk表示第k个关节点,f(Jk)表示第k个关节点经过网络后的三维预测值,
Figure BDA0002629835590000111
表示第k个关节的三维groundtruth。实验表明,加入人体几何约束,能有效地提高预测精度。
本发明已经在公开数据集Human3.6M和MPII上得到验证,取得很好的实验效果。表1展示本发明在Human3.6M数据集上的平均误差,可以看出,本方法已经超过同类目前最好方法的结果。图4展示了本发明在Human3.6M数据集上的主观效果,从图中可以看出,由二维的关节点,本方法可以估计出合理的三维姿态。图5展示了本发明在MPII上的主观结果,其中二维姿态是通过stacked hourglass network预测得到的,可以发现本方法对于一些复杂的野外的姿态,依旧能取得很好的预测结果。
表1
Figure BDA0002629835590000112
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (5)

1.一种二维到三维人体姿态估计方法,其特征在于:该方法包括以下步骤:
(1)分层图卷积网络:包括特征增强模块和分层图卷积模块;特征增强模块由3层全连接层组成,其中后两层组成了一个残差块,通过网络从二维坐标中挖掘出关节坐标之间的潜在关系,以此来增强人体的特征表示;分层图卷积模块有6层,每层对应着当前粒度下的人体模型划分,通过统一的特征提取网络块提取人体不同粒度的特征,并通过层次化的融合,从而得到更好的特征;
(2)结合对角占优图卷积层和非局部层的特征提取网络块:在每一个粒度的人体骨架上利用对角占优图卷积层和非局部层进行特征提取;
(3)人体几何约束:在位置损失的基础上,加入人体几何约束,使得预测的三维姿态加合理;人体几何约束包括骨长比值约束以及骨方向夹角约束;预测的三维姿态应该满足人体各部位长度的比值固定,为了获得一个合理的人体骨架统一模型,利用训练数据集得到一个平均的人体骨架当作统一模板。
2.根据权利要求1所述的二维到三维人体姿态估计方法,其特征在于:所述步骤(1)中:
每个图结构表示为G=(V,E),其中V表示分层图结构中包含的K个关节点,E表示人体关节点之间的自然连接和扩展的连接的并集;分层图结构底层代表五个基元部位,分别表示躯干、左臂、右臂、左腿、右腿;由于四肢具有相似的自由度,可以独立运动,因此作为基元部位;躯干是四肢的父节点,决定着人体的主方向,因此作为另一个基元部位;把头部合并到躯干,因为头部包含的关节较少并且活动范围较小;不考虑小的关节点组合,因为少于三个关节点的组合不能构成平面信息,它们很难与特定的姿态联系起来;将四肢与躯干分别结合组成第二层,躯干补充四肢的主方向信息;因为人体具有左右对称性,所以考虑到对称和全局方向信息,上肢和下肢分别与躯干结合在一起组成第三层;最后,完整的人体作为最后一层,因为合理的人体姿态依赖于所有关节的协调,因此完整的骨骼信息提取至关重要。
3.根据权利要求2所述的二维到三维人体姿态估计方法,其特征在于:所述步骤(1)中,输入16个二维关节点坐标,经过特征增强模块,将每个关节点的特征由二维升到128维;将16x128维的特征输入到分层图卷积模块,其中每行的128维特征表示一个特定的关节点特征;在分层图卷积模块中,第一层将16个关节点按照五个基元部位分解为五个子特征矩阵,每个子矩阵对应特定的邻接矩阵,然后分别通过特征提取网络块进行特征提取;第二层将四肢分别与躯干拼接,并添加躯干与四肢的连接边,组成新的关节图,再利用特征提取网络块提取特征;第三层将第二层的图融合为上躯干和下躯干,并加上对称性连接边,然后分别提取上躯干和下躯干的特征;第四,五层以整个人体骨架进行特征提取,提取姿态的整体特征;最后一层图卷积输出为预测的三维姿态。
4.根据权利要求3所述的二维到三维人体姿态估计方法,其特征在于:所述步骤(2)中,
Figure FDA0002629835580000021
Figure FDA0002629835580000022
分别表示节点经过第l层卷积前后的特征,则图卷积的一般形式为公式(1):
Figure FDA0002629835580000023
其中
Figure FDA0002629835580000031
表示图G的邻接矩阵,如果有连接关系aij=1,否则aij=0
Figure FDA0002629835580000032
I是单位阵,
Figure FDA0002629835580000033
是对角矩阵,其中
Figure FDA0002629835580000034
表示每个节点的度,σ表示激活函数,
Figure FDA0002629835580000035
表示可学习的权重参数;
对角占优的图卷积为公式(2):
Figure FDA0002629835580000036
其中
Figure FDA0002629835580000037
表示需要学习的关于边的权重矩阵,⊙表示对应元素相乘;
图卷积主要聚合节点的邻居节点特征,提取的是关节点的局部特征,因此在对角占优的图卷积层后面加入非局部层,以此来平衡局部特征和全局特征;输入的特征矩阵经过三个全连接层将特征数量将为原来的一半,由前两个分支得到相关性矩阵,经过softmax进行标准化;第三个分支乘以相关性矩阵,则输出的每个节点特征都是其他节点特征的加权平均值;最后经过Wz恢复原始维度,并加上输出得到最终的输出,如公式(3):
y=Wz(softmax(HTWθ TWφH)WgH)+H。
5.根据权利要求4所述的二维到三维人体姿态估计方法,其特征在于:
所述步骤(3)中,平均的人体骨架为公式(4):
Figure FDA0002629835580000038
其中sn表示训练集的第n个人体骨架;
Figure FDA0002629835580000039
表示S中的骨长集合,其中
Figure FDA00026298355800000310
表示S中第i个骨长;对于预测的三维姿态,将其表示为骨长集合
Figure FDA00026298355800000311
和骨向量的集合
Figure FDA00026298355800000312
其中bi表示预测的姿态的第i个骨长,vi表示预测的姿态的第i个骨方向;对于三维groundtruth,获取其骨向量的集合
Figure FDA00026298355800000313
其中
Figure FDA00026298355800000314
表示预groundtruth的第i个骨方向;
人体不同的关节拥有不同的运动范围,为了约束网络生成的三维姿态具有合理的关节角度,加入了不同部位之间的角度约束;其中三维groundtruth的第i和第j个部位的夹角定义为公式(5):
Figure FDA0002629835580000041
同样地得到预测的姿态的第i和第j个部位之间的夹角θij
网络的整体目标函数为公式(6):
Figure FDA0002629835580000042
其中Jk表示第k个关节点,f(Jk)表示第k个关节点经过网络后的三维预测值,
Figure FDA0002629835580000043
表示第k个关节的三维groundtruth。
CN202010807901.7A 2020-08-12 2020-08-12 一种二维到三维人体姿态估计方法 Pending CN112232106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010807901.7A CN112232106A (zh) 2020-08-12 2020-08-12 一种二维到三维人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010807901.7A CN112232106A (zh) 2020-08-12 2020-08-12 一种二维到三维人体姿态估计方法

Publications (1)

Publication Number Publication Date
CN112232106A true CN112232106A (zh) 2021-01-15

Family

ID=74115412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010807901.7A Pending CN112232106A (zh) 2020-08-12 2020-08-12 一种二维到三维人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN112232106A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801060A (zh) * 2021-04-07 2021-05-14 浙大城市学院 运动动作识别方法及装置、模型、电子设备、存储介质
CN113192186A (zh) * 2021-05-19 2021-07-30 华中科技大学 基于单帧图像的3d人体姿态估计模型建立方法及其应用
CN113221626A (zh) * 2021-03-04 2021-08-06 北京联合大学 一种基于Non-local高分辨率网络的人体姿态估计方法
CN113343979A (zh) * 2021-05-31 2021-09-03 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备、介质和程序产品
CN114333069A (zh) * 2022-03-03 2022-04-12 腾讯科技(深圳)有限公司 对象的姿态处理方法、装置、设备及存储介质
CN116030537A (zh) * 2023-03-28 2023-04-28 山东科技大学 基于多分支注意力图卷积的三维人体姿态估计方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014085933A (ja) * 2012-10-25 2014-05-12 Nippon Telegr & Teleph Corp <Ntt> 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
CN104715493A (zh) * 2015-03-23 2015-06-17 北京工业大学 一种运动人体姿态估计的方法
CN109377513A (zh) * 2018-09-20 2019-02-22 浙江大学 一种针对两视图的全局三维人体姿态可信估计方法
CN110097639A (zh) * 2019-03-18 2019-08-06 北京工业大学 一种三维人体姿态估计方法
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法
CN110647991A (zh) * 2019-09-19 2020-01-03 浙江大学 一种基于无监督领域自适应的三维人体姿态估计方法
CN111428586A (zh) * 2020-03-09 2020-07-17 同济大学 基于特征融合与样本增强的三维人体姿态估计方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014085933A (ja) * 2012-10-25 2014-05-12 Nippon Telegr & Teleph Corp <Ntt> 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
CN104715493A (zh) * 2015-03-23 2015-06-17 北京工业大学 一种运动人体姿态估计的方法
CN109377513A (zh) * 2018-09-20 2019-02-22 浙江大学 一种针对两视图的全局三维人体姿态可信估计方法
CN110097639A (zh) * 2019-03-18 2019-08-06 北京工业大学 一种三维人体姿态估计方法
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法
CN110647991A (zh) * 2019-09-19 2020-01-03 浙江大学 一种基于无监督领域自适应的三维人体姿态估计方法
CN111428586A (zh) * 2020-03-09 2020-07-17 同济大学 基于特征融合与样本增强的三维人体姿态估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
彭帅;黄宏博;陈伟骏;胡志颖;袁铭阳;: "基于卷积神经网络的人体姿态估计算法综述", 北京信息科技大学学报(自然科学版), no. 03, 15 June 2020 (2020-06-15) *
王伟楠;张荣;郭立君;: "结合稀疏表示和深度学习的视频中3D人体姿态估计", 中国图象图形学报, no. 03, 16 March 2020 (2020-03-16) *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221626A (zh) * 2021-03-04 2021-08-06 北京联合大学 一种基于Non-local高分辨率网络的人体姿态估计方法
CN113221626B (zh) * 2021-03-04 2023-10-20 北京联合大学 一种基于Non-local高分辨率网络的人体姿态估计方法
CN112801060A (zh) * 2021-04-07 2021-05-14 浙大城市学院 运动动作识别方法及装置、模型、电子设备、存储介质
CN113192186A (zh) * 2021-05-19 2021-07-30 华中科技大学 基于单帧图像的3d人体姿态估计模型建立方法及其应用
CN113192186B (zh) * 2021-05-19 2022-09-20 华中科技大学 基于单帧图像的3d人体姿态估计模型建立方法及其应用
CN113343979A (zh) * 2021-05-31 2021-09-03 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备、介质和程序产品
CN114333069A (zh) * 2022-03-03 2022-04-12 腾讯科技(深圳)有限公司 对象的姿态处理方法、装置、设备及存储介质
CN114333069B (zh) * 2022-03-03 2022-05-17 腾讯科技(深圳)有限公司 对象的姿态处理方法、装置、设备及存储介质
CN116030537A (zh) * 2023-03-28 2023-04-28 山东科技大学 基于多分支注意力图卷积的三维人体姿态估计方法
CN116030537B (zh) * 2023-03-28 2023-05-23 山东科技大学 基于多分支注意力图卷积的三维人体姿态估计方法

Similar Documents

Publication Publication Date Title
CN112232106A (zh) 一种二维到三维人体姿态估计方法
Cong et al. Going from RGB to RGBD saliency: A depth-guided transformation model
US10929654B2 (en) Three-dimensional (3D) pose estimation from a monocular camera
US11328173B2 (en) Switchable propagation neural network
CN111460928B (zh) 一种人体动作识别系统及方法
Zhang et al. Progressive hard-mining network for monocular depth estimation
CN111625667A (zh) 一种基于复杂背景图像的三维模型跨域检索方法及系统
Lei et al. Cadex: Learning canonical deformation coordinate space for dynamic surface representation via neural homeomorphism
WO2021227425A1 (zh) 一种基于样例的虚拟试衣方法
CN111797692B (zh) 一种基于半监督学习的深度图像手势估计方法
Liu et al. Facial expression recognition using pose-guided face alignment and discriminative features based on deep learning
Sung et al. Pose-Robust Facial Expression Recognition Using View-Based 2D $+ $ 3D AAM
CN115880724A (zh) 一种基于rgb图像的轻量化三维手部姿态估计方法
CN113239892A (zh) 一种基于数据增强架构的单目人体三维姿态估计方法
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
CN116030498A (zh) 面向虚拟服装走秀的三维人体姿态估计方法
CN115546888A (zh) 一种基于身体部位分组的对称语义图卷积姿态估计方法
CN116385660A (zh) 室内单视图场景语义重建方法及系统
US20220343639A1 (en) Object re-identification using pose part based models
Wu et al. Link-RGBD: Cross-guided feature fusion network for RGBD semantic segmentation
Maheshwari et al. Mugl: Large scale multi person conditional action generation with locomotion
Li et al. Topology constrained shape correspondence
Chang et al. Multi-view 3d human pose estimation with self-supervised learning
CN116079727A (zh) 基于3d人体姿态估计的人形机器人动作模仿方法及装置
Fang et al. Hand pose estimation on hybrid CNN-AE model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination