CN112232106A - 一种二维到三维人体姿态估计方法 - Google Patents
一种二维到三维人体姿态估计方法 Download PDFInfo
- Publication number
- CN112232106A CN112232106A CN202010807901.7A CN202010807901A CN112232106A CN 112232106 A CN112232106 A CN 112232106A CN 202010807901 A CN202010807901 A CN 202010807901A CN 112232106 A CN112232106 A CN 112232106A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- human body
- layer
- joint
- trunk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000036544 posture Effects 0.000 claims abstract description 55
- 239000000284 extract Substances 0.000 claims abstract description 9
- 210000000988 bone and bone Anatomy 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 26
- 210000003414 extremity Anatomy 0.000 claims description 21
- 235000019580 granularity Nutrition 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002146 bilateral effect Effects 0.000 claims description 3
- 210000003141 lower extremity Anatomy 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 210000001364 upper extremity Anatomy 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 5
- 238000002372 labelling Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 6
- 235000019587 texture Nutrition 0.000 description 5
- 101000742346 Crotalus durissus collilineatus Zinc metalloproteinase/disintegrin Proteins 0.000 description 3
- 101000872559 Hediste diversicolor Hemerythrin Proteins 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 210000002310 elbow joint Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000003857 wrist joint Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
一种二维到三维人体姿态估计方法,其能够克服三维标注数据的不足以及背景、灯光、服装形状和纹理、肤色等条件的影响,并从多尺度中提取特征,促进不同姿态之间的相互学习,得到更加准确的三维姿态。该方法包括:(1)分层图卷积网络;(2)结合对角占优图卷积层和非局部层的特征提取网络块;(3)人体几何约束。
Description
技术领域
本发明涉及计算机视觉和模式识别的技术领域,尤其涉及一种二维到三维人体姿态估计方法。
背景技术
基于计算机视觉技术的三维人体姿态估计在人类生活的众多领域得到广泛应用,如计算机动画、医学、人机交互,行为识别等领域。基于神经网络技术的快速发展,从RGB图像估计三维人体姿态,不仅消除了对RGB-D传感器(如Kinect)的依赖,并且获得了性能上的明显提升,成为当前研究热点。
目前存在的基于图像的三维人体姿态估计主要分为两类:1)从图像中直接估计三维人体姿态;2)从图像先估计二维姿态,再回归出三维姿态。前者受限于有限的实验标注数据,并受到背景场景、灯光、服装形状和纹理、肤色等条件的影响。后者将整个任务分解为二维关节点检测和从二维关节点回归出三维姿态两个子任务。二维姿态检测拥有大量的训练标注数据,已经取得很好的精度。从二维关节点回归三维关节,虽然避免了背景,纹理等因素的影响,但是一个二维姿态往往可以对应多个三维姿态,这使得很难推断出唯一有效的解决方案,特别是对于严重遮挡的情况。
近年来的研究表明,二维姿态中含有丰富的三维信息,仅使用二维姿态可以估计出较高精度的三维姿态。但是由于深度模糊和严重的自聚焦,从二维姿态中挖掘出有用的三维信息,从而得到更具鲁棒性和通用性的模型依旧是一项具有挑战性的任务。现有的方法试图从完整的二维姿态提取特征,并回归出三维姿态。但是,不同的动作对应的姿态之间存在着不同粒度下的相似性和区别。例如站立和挥手两个动作对应的二维姿态只有手臂存在不同。如果只提取全局姿态特征,会使得只存在人体部件级别不同的姿态很难区分,也不利于不同姿态之间的相互学习。因此,构建多尺度,多层次的特征提取模型更有利于模型的鲁棒性和通用性。另一方面,合理的姿态必须满足人体几何约束,例如关节长度以及方向约束。这促使我们探索更加合理,鲁棒,更具普适性的网络模型来有效的探索二维到二维的空间相关性。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种二维到三维人体姿态估计方法,其能够克服三维标注数据的不足以及背景、灯光、服装形状和纹理、肤色等条件的影响,并从多尺度中提取特征,促进不同姿态之间的相互学习,得到更加准确的三维姿态。
本发明的技术方案是:这种二维到三维人体姿态估计方法,该方法包括以下步骤:
(1)分层图卷积网络:包括特征增强模块和分层图卷积模块;特征增强模块由3层全连接层组成,其中后两层组成了一个残差块,通过网络从二维坐标中挖掘出关节坐标之间的潜在关系,以此来增强人体的特征表示;分层图卷积模块有6层,每层对应着当前粒度下的人体模型划分,通过统一的特征提取网络块提取人体不同粒度的特征,并通过层次化的融合,从而得到更好的特征;
(2)结合对角占优图卷积层和非局部层的特征提取网络块:在每一个粒度的人体骨架上利用对角占优图卷积层和非局部层进行特征提取;
(3)人体几何约束:在位置损失的基础上,加入人体几何约束,使得预测的三维姿态加合理;人体几何约束包括骨长比值约束以及骨方向夹角约束;预测的三维姿态应该满足人体各部位长度的比值固定,为了获得一个合理的人体骨架统一模型,利用训练数据集得到一个平均的人体骨架当作统一模板。
本发明以二维姿态作为输入,利用分层的图网络结构,从多粒度和多角度的层面探索二维到三维的空间映射,本发明提出的结合对角占优图卷积层和非局部层的特征提取模块,兼顾特征的局部性和全局性,在优化的目标函数结合了人体几何约束,最终实现了准确的三维姿态估计,因此能够克服三维标注数据的不足以及背景、灯光、服装形状和纹理、肤色等条件的影响,并从多尺度中提取特征,促进不同姿态之间的相互学习,得到更加准确的三维姿态。
附图说明
图1示出了根据本发明的整体网络框架图。
图2示出了根据本发明的分层图结构。
图3示出了非局部层的网络结构。
图4示出了huaman3.6M数据集主观结果。
图5示出了MPII数据集主观结果。
图6示出了根据本发明的二维到三维人体姿态估计方法的流程图。
具体实施方式
如图6所示,这种二维到三维人体姿态估计方法,该方法包括以下步骤:
(1)分层图卷积网络:包括特征增强模块和分层图卷积模块;特征增强模块由3层全连接层组成,其中后两层组成了一个残差块,通过网络从二维坐标中挖掘出关节坐标之间的潜在关系,以此来增强人体的特征表示;分层图卷积模块有6层,每层对应着当前粒度下的人体模型划分,通过统一的特征提取网络块提取人体不同粒度的特征,并通过层次化的融合,从而得到更好的特征;
(2)结合对角占优图卷积层和非局部层的特征提取网络块:在每一个粒度的人体骨架上利用对角占优图卷积层和非局部层进行特征提取;
(3)人体几何约束:在位置损失的基础上,加入人体几何约束,使得预测的三维姿态加合理;人体几何约束包括骨长比值约束以及骨方向夹角约束;预测的三维姿态应该满足人体各部位长度的比值固定,为了获得一个合理的人体骨架统一模型,利用训练数据集得到一个平均的人体骨架当作统一模板。
本发明以二维姿态作为输入,利用分层的图网络结构,从多粒度和多角度的层面探索二维到三维的空间映射,本发明提出的结合对角占优图卷积层和非局部层的特征提取模块,兼顾特征的局部性和全局性,在优化的目标函数结合了人体几何约束,最终实现了准确的三维姿态估计,因此能够克服三维标注数据的不足以及背景、灯光、服装形状和纹理、肤色等条件的影响,并从多尺度中提取特征,促进不同姿态之间的相互学习,得到更加准确的三维姿态。
优选地,所述步骤(1)中:
每个图结构表示为G=(V,E),其中V表示分层图结构中包含的K个关节点,E表示人体关节点之间的自然连接和扩展的连接的并集;分层图结构底层代表五个基元部位,分别表示躯干、左臂、右臂、左腿、右腿;由于四肢具有相似的自由度,可以独立运动,因此作为基元部位;躯干是四肢的父节点,决定着人体的主方向,因此作为另一个基元部位;把头部合并到躯干,因为头部包含的关节较少并且活动范围较小;不考虑小的关节点组合,因为少于三个关节点的组合不能构成平面信息,它们很难与特定的姿态联系起来;将四肢与躯干分别结合组成第二层,躯干补充四肢的主方向信息;因为人体具有左右对称性,所以考虑到对称和全局方向信息,上肢和下肢分别与躯干结合在一起组成第三层;最后,完整的人体作为最后一层,因为合理的人体姿态依赖于所有关节的协调,因此完整的骨骼信息提取至关重要。
优选地,所述步骤(1)中,输入16个二维关节点坐标,经过特征增强模块,将每个关节点的特征由二维升到128维;将16x128维的特征输入到分层图卷积模块,其中每行的128维特征表示一个特定的关节点特征;在分层图卷积模块中,第一层将16个关节点按照五个基元部位分解为五个子特征矩阵,每个子矩阵对应特定的邻接矩阵,然后分别通过特征提取网络块进行特征提取;第二层将四肢分别与躯干拼接,并添加躯干与四肢的连接边,组成新的关节图,再利用特征提取网络块提取特征;第三层将第二层的图融合为上躯干和下躯干,并加上对称性连接边,然后分别提取上躯干和下躯干的特征;第四,五层以整个人体骨架进行特征提取,提取姿态的整体特征;最后一层图卷积输出为预测的三维姿态。
优选地,所述步骤(2)中,
对角占优的图卷积为公式(2):
图卷积主要聚合节点的邻居节点特征,提取的是关节点的局部特征,因此在对角占优的图卷积层后面加入非局部层,以此来平衡局部特征和全局特征;输入的特征矩阵经过三个全连接层将特征数量将为原来的一半,由前两个分支得到相关性矩阵,经过softmax进行标准化;第三个分支乘以相关性矩阵,则输出的每个节点特征都是其他节点特征的加权平均值;最后经过Wz恢复原始维度,并加上输出得到最终的输出,如公式(3):
y=Wz(softmax(HTWθ TWφH)WgH)+H。
优选地,所述步骤(3)中,平均的人体骨架为公式(4):
其中sn表示训练集的第n个人体骨架;表示S中的骨长集合,其中表示S中第i个骨长;对于预测的三维姿态,将其表示为骨长集合和骨向量的集合其中bi表示预测的姿态的第i个骨长,vi表示预测的姿态的第i个骨方向;对于三维groundtruth,获取其骨向量的集合其中表示预groundtruth的第i个骨方向;
人体不同的关节拥有不同的运动范围,为了约束网络生成的三维姿态具有合理的关节角度,加入了不同部位之间的角度约束;其中三维groundtruth的第i和第j个部位的夹角定义为公式(5):
同样地得到预测的姿态的第i和第j个部位之间的夹角θij;
网络的整体目标函数为公式(6):
以下更详细地说明本发明。
本发明主要包括以下部分:
1.分层图卷积网络:
本发明的提出的分层图卷积网络框架如图1所示,主要包括特征增强模块和分层图卷积模块。
特征增强模块由3层全连接层组成,其中后两层组成了一个残差块。由于二维姿态含有低纬度的特征,很难充分的表示一个姿态。因此,本发明通过网络从二维坐标中挖掘出关节坐标之间的潜在关系,以此来增强人体的特征表示。
分层图卷积模块有6层,每层对应着当前粒度下的人体模型划分。通过统一的特征提取网络块提取人体不同粒度的特征,并通过层次化的融合,从而得到更好的特征。
如图2所示,本发明设计了人体的分层图结构。每个图结构表示为G=(V,E),其中V表示图结构中包含的K个关节点,E表示人体关节点之间的自然连接和扩展的连接的并集。分层图结构底层代表五个基元部位,分别表示躯干、左臂、右臂、左腿、右腿。由于四肢具有相似的自由度,可以独立运动,因此可以作为基元部位。躯干是四肢的父节点,决定着人体的主方向,因此可以作为另一个基元部位。本发明把头部合并到躯干,因为头部包含的关节较少并且活动范围较小。本发明不考虑小的关节点组合(如腕关节和肘关节),因为少于三个关节点的组合不能构成平面信息,它们很难与特定的姿态联系起来。本发明将四肢与躯干分别结合组成第二层,躯干可以补充四肢的主方向信息。因为人体具有左右对称性,所以考虑到对称和全局方向信息,上肢和下肢分别与躯干结合在一起组成第三层。最后,完整的人体作为最后一层,因为合理的人体姿态依赖于所有关节的协调,因此完整的骨骼信息提取至关重要。从分层图结构的纵向上来看,分层的结构提供了人体的不同尺度处理,以测量不同粒度的姿态;水平方向上,在每个粒度下聚焦于不同的人体部件,体现了多视角的姿态测量。在分层图结构的基础上,本发明设计了分层图卷积模块来实现特征的提取和融合,并使用统一的特征提取网络块进行特征提取。
具体来说,输入16个二维关节点坐标,经过特征提增强模块,将每个关节点的特征由二维升到128维。将16x128维的特征输入到分层图卷积模块,其中每行的128维特征表示一个特定的关节点特征。在分层图卷积模块中,第一层将16个关节点按照五个基元部位分解为五个子特征矩阵,每个子矩阵对应特定的邻接矩阵(如图1中GCN关节连接图所示),然后分别通过特征提取网络块进行特征提取;第二层将四肢分别与躯干拼接,并添加躯干与四肢的连接边,组成新的关节图,再利用特征提取网络块提取特征;第三层将第二层的图融合为上躯干和下躯干,并加上对称性连接边,然后分别提取上躯干和下躯干的特征;第四,五层以整个人体骨架进行特征提取,提取姿态的整体特征;最后一层图卷积输出为预测的三维姿态。本发明提出的分层图卷积网络结构,可以从多粒度和多视角的层面提取特征,不同粒度特征的逐层融合,体现了从局部到全局的特征学习过程,加强了模型的鲁棒性和泛化性。
2.结合对角占优图卷积层和非局部层的特征提取网络块
考虑到二维姿态关节点和三维姿态关节点的一一对应关系,关节点自身的特征对最终预测的三维关节点发挥着重要作用。因此,本发明提出一种改进的对角占优的图卷积:
图卷积主要聚合节点的邻居节点特征,提取的是关节点的局部特征,因此在对角占优的图卷积层后面加入非局部层,以此来平衡局部特征和全局特征。非局部层结构如图3所示。输入的特征矩阵经过三个全连接层将特征数量将为原来的一半,由前两个分支得到相关性矩阵,经过softmax进行标准化。第三个分支乘以相关性矩阵,则输出的每个节点特征都是其他节点特征的加权平均值。最后经过Wz恢复原始维度,并加上输出得到最终的输出。
y=Wz(softmax(HTWθ TWφH)WgH)+H
结合对角占优的图卷积层和非局部层的特征提取网络块,能够平衡通过图卷积提取的局部特征以及通过非局部层提取的当前尺度下的全局特征,并且保持了节点自身在特征更新中的比重。
3.人体几何约束
在位置损失的基础上,加入了人体几何约束,使得预测的三维姿态加合理。人体几何约束主要由骨长比值约束以及骨方向夹角约束两部分组成。具体来说,预测的三维姿态应该满足人体各部位长度的比值固定,为了获得一个合理的人体骨架统一模型,本发明利用训练数据集得到一个平均的人体骨架当做统一模板。
其中sn表示训练集的第n个人体骨架。表示S中的骨长集合,其中表示S中第i个骨长。对于预测的三维姿态,将其表示为骨长集合和骨向量的集合其中bi表示预测的姿态的第i个骨长,vi表示预测的姿态的第i个骨方向。同样的,对于三维groundtruth,获取其骨向量的集合其中表示预groundtruth的第i个骨方向。
人体不同的关节拥有不同的运动范围,为了约束网络生成的三维姿态具有合理的关节角度,本发明加入了不同部位之间的角度约束。其中三维groundtruth的第i和第j个部位的夹角定义为:
同样的,可以得到预测的姿态的第i和第j个部位之间的夹角θij。
网络的整体目标函数为:
本发明已经在公开数据集Human3.6M和MPII上得到验证,取得很好的实验效果。表1展示本发明在Human3.6M数据集上的平均误差,可以看出,本方法已经超过同类目前最好方法的结果。图4展示了本发明在Human3.6M数据集上的主观效果,从图中可以看出,由二维的关节点,本方法可以估计出合理的三维姿态。图5展示了本发明在MPII上的主观结果,其中二维姿态是通过stacked hourglass network预测得到的,可以发现本方法对于一些复杂的野外的姿态,依旧能取得很好的预测结果。
表1
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (5)
1.一种二维到三维人体姿态估计方法,其特征在于:该方法包括以下步骤:
(1)分层图卷积网络:包括特征增强模块和分层图卷积模块;特征增强模块由3层全连接层组成,其中后两层组成了一个残差块,通过网络从二维坐标中挖掘出关节坐标之间的潜在关系,以此来增强人体的特征表示;分层图卷积模块有6层,每层对应着当前粒度下的人体模型划分,通过统一的特征提取网络块提取人体不同粒度的特征,并通过层次化的融合,从而得到更好的特征;
(2)结合对角占优图卷积层和非局部层的特征提取网络块:在每一个粒度的人体骨架上利用对角占优图卷积层和非局部层进行特征提取;
(3)人体几何约束:在位置损失的基础上,加入人体几何约束,使得预测的三维姿态加合理;人体几何约束包括骨长比值约束以及骨方向夹角约束;预测的三维姿态应该满足人体各部位长度的比值固定,为了获得一个合理的人体骨架统一模型,利用训练数据集得到一个平均的人体骨架当作统一模板。
2.根据权利要求1所述的二维到三维人体姿态估计方法,其特征在于:所述步骤(1)中:
每个图结构表示为G=(V,E),其中V表示分层图结构中包含的K个关节点,E表示人体关节点之间的自然连接和扩展的连接的并集;分层图结构底层代表五个基元部位,分别表示躯干、左臂、右臂、左腿、右腿;由于四肢具有相似的自由度,可以独立运动,因此作为基元部位;躯干是四肢的父节点,决定着人体的主方向,因此作为另一个基元部位;把头部合并到躯干,因为头部包含的关节较少并且活动范围较小;不考虑小的关节点组合,因为少于三个关节点的组合不能构成平面信息,它们很难与特定的姿态联系起来;将四肢与躯干分别结合组成第二层,躯干补充四肢的主方向信息;因为人体具有左右对称性,所以考虑到对称和全局方向信息,上肢和下肢分别与躯干结合在一起组成第三层;最后,完整的人体作为最后一层,因为合理的人体姿态依赖于所有关节的协调,因此完整的骨骼信息提取至关重要。
3.根据权利要求2所述的二维到三维人体姿态估计方法,其特征在于:所述步骤(1)中,输入16个二维关节点坐标,经过特征增强模块,将每个关节点的特征由二维升到128维;将16x128维的特征输入到分层图卷积模块,其中每行的128维特征表示一个特定的关节点特征;在分层图卷积模块中,第一层将16个关节点按照五个基元部位分解为五个子特征矩阵,每个子矩阵对应特定的邻接矩阵,然后分别通过特征提取网络块进行特征提取;第二层将四肢分别与躯干拼接,并添加躯干与四肢的连接边,组成新的关节图,再利用特征提取网络块提取特征;第三层将第二层的图融合为上躯干和下躯干,并加上对称性连接边,然后分别提取上躯干和下躯干的特征;第四,五层以整个人体骨架进行特征提取,提取姿态的整体特征;最后一层图卷积输出为预测的三维姿态。
4.根据权利要求3所述的二维到三维人体姿态估计方法,其特征在于:所述步骤(2)中,
对角占优的图卷积为公式(2):
图卷积主要聚合节点的邻居节点特征,提取的是关节点的局部特征,因此在对角占优的图卷积层后面加入非局部层,以此来平衡局部特征和全局特征;输入的特征矩阵经过三个全连接层将特征数量将为原来的一半,由前两个分支得到相关性矩阵,经过softmax进行标准化;第三个分支乘以相关性矩阵,则输出的每个节点特征都是其他节点特征的加权平均值;最后经过Wz恢复原始维度,并加上输出得到最终的输出,如公式(3):
y=Wz(softmax(HTWθ TWφH)WgH)+H。
5.根据权利要求4所述的二维到三维人体姿态估计方法,其特征在于:
所述步骤(3)中,平均的人体骨架为公式(4):
其中sn表示训练集的第n个人体骨架;表示S中的骨长集合,其中表示S中第i个骨长;对于预测的三维姿态,将其表示为骨长集合和骨向量的集合其中bi表示预测的姿态的第i个骨长,vi表示预测的姿态的第i个骨方向;对于三维groundtruth,获取其骨向量的集合其中表示预groundtruth的第i个骨方向;
人体不同的关节拥有不同的运动范围,为了约束网络生成的三维姿态具有合理的关节角度,加入了不同部位之间的角度约束;其中三维groundtruth的第i和第j个部位的夹角定义为公式(5):
同样地得到预测的姿态的第i和第j个部位之间的夹角θij;
网络的整体目标函数为公式(6):
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010807901.7A CN112232106A (zh) | 2020-08-12 | 2020-08-12 | 一种二维到三维人体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010807901.7A CN112232106A (zh) | 2020-08-12 | 2020-08-12 | 一种二维到三维人体姿态估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112232106A true CN112232106A (zh) | 2021-01-15 |
Family
ID=74115412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010807901.7A Pending CN112232106A (zh) | 2020-08-12 | 2020-08-12 | 一种二维到三维人体姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232106A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801060A (zh) * | 2021-04-07 | 2021-05-14 | 浙大城市学院 | 运动动作识别方法及装置、模型、电子设备、存储介质 |
CN113192186A (zh) * | 2021-05-19 | 2021-07-30 | 华中科技大学 | 基于单帧图像的3d人体姿态估计模型建立方法及其应用 |
CN113221626A (zh) * | 2021-03-04 | 2021-08-06 | 北京联合大学 | 一种基于Non-local高分辨率网络的人体姿态估计方法 |
CN113343979A (zh) * | 2021-05-31 | 2021-09-03 | 北京百度网讯科技有限公司 | 用于训练模型的方法、装置、设备、介质和程序产品 |
CN114333069A (zh) * | 2022-03-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 对象的姿态处理方法、装置、设备及存储介质 |
CN116030537A (zh) * | 2023-03-28 | 2023-04-28 | 山东科技大学 | 基于多分支注意力图卷积的三维人体姿态估计方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014085933A (ja) * | 2012-10-25 | 2014-05-12 | Nippon Telegr & Teleph Corp <Ntt> | 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム |
CN104715493A (zh) * | 2015-03-23 | 2015-06-17 | 北京工业大学 | 一种运动人体姿态估计的方法 |
CN109377513A (zh) * | 2018-09-20 | 2019-02-22 | 浙江大学 | 一种针对两视图的全局三维人体姿态可信估计方法 |
CN110097639A (zh) * | 2019-03-18 | 2019-08-06 | 北京工业大学 | 一种三维人体姿态估计方法 |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
CN110647991A (zh) * | 2019-09-19 | 2020-01-03 | 浙江大学 | 一种基于无监督领域自适应的三维人体姿态估计方法 |
CN111428586A (zh) * | 2020-03-09 | 2020-07-17 | 同济大学 | 基于特征融合与样本增强的三维人体姿态估计方法 |
-
2020
- 2020-08-12 CN CN202010807901.7A patent/CN112232106A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014085933A (ja) * | 2012-10-25 | 2014-05-12 | Nippon Telegr & Teleph Corp <Ntt> | 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム |
CN104715493A (zh) * | 2015-03-23 | 2015-06-17 | 北京工业大学 | 一种运动人体姿态估计的方法 |
CN109377513A (zh) * | 2018-09-20 | 2019-02-22 | 浙江大学 | 一种针对两视图的全局三维人体姿态可信估计方法 |
CN110097639A (zh) * | 2019-03-18 | 2019-08-06 | 北京工业大学 | 一种三维人体姿态估计方法 |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
CN110647991A (zh) * | 2019-09-19 | 2020-01-03 | 浙江大学 | 一种基于无监督领域自适应的三维人体姿态估计方法 |
CN111428586A (zh) * | 2020-03-09 | 2020-07-17 | 同济大学 | 基于特征融合与样本增强的三维人体姿态估计方法 |
Non-Patent Citations (2)
Title |
---|
彭帅;黄宏博;陈伟骏;胡志颖;袁铭阳;: "基于卷积神经网络的人体姿态估计算法综述", 北京信息科技大学学报(自然科学版), no. 03, 15 June 2020 (2020-06-15) * |
王伟楠;张荣;郭立君;: "结合稀疏表示和深度学习的视频中3D人体姿态估计", 中国图象图形学报, no. 03, 16 March 2020 (2020-03-16) * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221626A (zh) * | 2021-03-04 | 2021-08-06 | 北京联合大学 | 一种基于Non-local高分辨率网络的人体姿态估计方法 |
CN113221626B (zh) * | 2021-03-04 | 2023-10-20 | 北京联合大学 | 一种基于Non-local高分辨率网络的人体姿态估计方法 |
CN112801060A (zh) * | 2021-04-07 | 2021-05-14 | 浙大城市学院 | 运动动作识别方法及装置、模型、电子设备、存储介质 |
CN113192186A (zh) * | 2021-05-19 | 2021-07-30 | 华中科技大学 | 基于单帧图像的3d人体姿态估计模型建立方法及其应用 |
CN113192186B (zh) * | 2021-05-19 | 2022-09-20 | 华中科技大学 | 基于单帧图像的3d人体姿态估计模型建立方法及其应用 |
CN113343979A (zh) * | 2021-05-31 | 2021-09-03 | 北京百度网讯科技有限公司 | 用于训练模型的方法、装置、设备、介质和程序产品 |
CN114333069A (zh) * | 2022-03-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 对象的姿态处理方法、装置、设备及存储介质 |
CN114333069B (zh) * | 2022-03-03 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 对象的姿态处理方法、装置、设备及存储介质 |
CN116030537A (zh) * | 2023-03-28 | 2023-04-28 | 山东科技大学 | 基于多分支注意力图卷积的三维人体姿态估计方法 |
CN116030537B (zh) * | 2023-03-28 | 2023-05-23 | 山东科技大学 | 基于多分支注意力图卷积的三维人体姿态估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232106A (zh) | 一种二维到三维人体姿态估计方法 | |
Cong et al. | Going from RGB to RGBD saliency: A depth-guided transformation model | |
US10929654B2 (en) | Three-dimensional (3D) pose estimation from a monocular camera | |
US11328173B2 (en) | Switchable propagation neural network | |
CN111460928B (zh) | 一种人体动作识别系统及方法 | |
Zhang et al. | Progressive hard-mining network for monocular depth estimation | |
CN111625667A (zh) | 一种基于复杂背景图像的三维模型跨域检索方法及系统 | |
Lei et al. | Cadex: Learning canonical deformation coordinate space for dynamic surface representation via neural homeomorphism | |
WO2021227425A1 (zh) | 一种基于样例的虚拟试衣方法 | |
CN111797692B (zh) | 一种基于半监督学习的深度图像手势估计方法 | |
Liu et al. | Facial expression recognition using pose-guided face alignment and discriminative features based on deep learning | |
Sung et al. | Pose-Robust Facial Expression Recognition Using View-Based 2D $+ $ 3D AAM | |
CN115880724A (zh) | 一种基于rgb图像的轻量化三维手部姿态估计方法 | |
CN113239892A (zh) | 一种基于数据增强架构的单目人体三维姿态估计方法 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN116030498A (zh) | 面向虚拟服装走秀的三维人体姿态估计方法 | |
CN115546888A (zh) | 一种基于身体部位分组的对称语义图卷积姿态估计方法 | |
CN116385660A (zh) | 室内单视图场景语义重建方法及系统 | |
US20220343639A1 (en) | Object re-identification using pose part based models | |
Wu et al. | Link-RGBD: Cross-guided feature fusion network for RGBD semantic segmentation | |
Maheshwari et al. | Mugl: Large scale multi person conditional action generation with locomotion | |
Li et al. | Topology constrained shape correspondence | |
Chang et al. | Multi-view 3d human pose estimation with self-supervised learning | |
CN116079727A (zh) | 基于3d人体姿态估计的人形机器人动作模仿方法及装置 | |
Fang et al. | Hand pose estimation on hybrid CNN-AE model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |