CN112232106A

CN112232106A - 一种二维到三维人体姿态估计方法

Info

Publication number: CN112232106A
Application number: CN202010807901.7A
Authority: CN
Inventors: 孔德慧; 吴永鹏; 王少帆; 李敬华; 王立春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2021-01-15

Abstract

一种二维到三维人体姿态估计方法，其能够克服三维标注数据的不足以及背景、灯光、服装形状和纹理、肤色等条件的影响，并从多尺度中提取特征，促进不同姿态之间的相互学习，得到更加准确的三维姿态。该方法包括：(1)分层图卷积网络；(2)结合对角占优图卷积层和非局部层的特征提取网络块；(3)人体几何约束。

Description

一种二维到三维人体姿态估计方法

技术领域

本发明涉及计算机视觉和模式识别的技术领域，尤其涉及一种二维到三维人体姿态估计方法。

背景技术

基于计算机视觉技术的三维人体姿态估计在人类生活的众多领域得到广泛应用，如计算机动画、医学、人机交互，行为识别等领域。基于神经网络技术的快速发展，从RGB图像估计三维人体姿态，不仅消除了对RGB-D传感器(如Kinect)的依赖，并且获得了性能上的明显提升，成为当前研究热点。

目前存在的基于图像的三维人体姿态估计主要分为两类：1)从图像中直接估计三维人体姿态；2)从图像先估计二维姿态，再回归出三维姿态。前者受限于有限的实验标注数据，并受到背景场景、灯光、服装形状和纹理、肤色等条件的影响。后者将整个任务分解为二维关节点检测和从二维关节点回归出三维姿态两个子任务。二维姿态检测拥有大量的训练标注数据，已经取得很好的精度。从二维关节点回归三维关节，虽然避免了背景，纹理等因素的影响，但是一个二维姿态往往可以对应多个三维姿态，这使得很难推断出唯一有效的解决方案，特别是对于严重遮挡的情况。

近年来的研究表明，二维姿态中含有丰富的三维信息，仅使用二维姿态可以估计出较高精度的三维姿态。但是由于深度模糊和严重的自聚焦，从二维姿态中挖掘出有用的三维信息，从而得到更具鲁棒性和通用性的模型依旧是一项具有挑战性的任务。现有的方法试图从完整的二维姿态提取特征，并回归出三维姿态。但是，不同的动作对应的姿态之间存在着不同粒度下的相似性和区别。例如站立和挥手两个动作对应的二维姿态只有手臂存在不同。如果只提取全局姿态特征，会使得只存在人体部件级别不同的姿态很难区分，也不利于不同姿态之间的相互学习。因此，构建多尺度，多层次的特征提取模型更有利于模型的鲁棒性和通用性。另一方面，合理的姿态必须满足人体几何约束，例如关节长度以及方向约束。这促使我们探索更加合理，鲁棒，更具普适性的网络模型来有效的探索二维到二维的空间相关性。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种二维到三维人体姿态估计方法，其能够克服三维标注数据的不足以及背景、灯光、服装形状和纹理、肤色等条件的影响，并从多尺度中提取特征，促进不同姿态之间的相互学习，得到更加准确的三维姿态。

本发明的技术方案是：这种二维到三维人体姿态估计方法，该方法包括以下步骤：

(1)分层图卷积网络：包括特征增强模块和分层图卷积模块；特征增强模块由3层全连接层组成，其中后两层组成了一个残差块，通过网络从二维坐标中挖掘出关节坐标之间的潜在关系，以此来增强人体的特征表示；分层图卷积模块有6层，每层对应着当前粒度下的人体模型划分，通过统一的特征提取网络块提取人体不同粒度的特征，并通过层次化的融合，从而得到更好的特征；

(2)结合对角占优图卷积层和非局部层的特征提取网络块：在每一个粒度的人体骨架上利用对角占优图卷积层和非局部层进行特征提取；

(3)人体几何约束：在位置损失的基础上，加入人体几何约束，使得预测的三维姿态加合理；人体几何约束包括骨长比值约束以及骨方向夹角约束；预测的三维姿态应该满足人体各部位长度的比值固定，为了获得一个合理的人体骨架统一模型，利用训练数据集得到一个平均的人体骨架当作统一模板。

本发明以二维姿态作为输入，利用分层的图网络结构，从多粒度和多角度的层面探索二维到三维的空间映射，本发明提出的结合对角占优图卷积层和非局部层的特征提取模块，兼顾特征的局部性和全局性，在优化的目标函数结合了人体几何约束，最终实现了准确的三维姿态估计，因此能够克服三维标注数据的不足以及背景、灯光、服装形状和纹理、肤色等条件的影响，并从多尺度中提取特征，促进不同姿态之间的相互学习，得到更加准确的三维姿态。

附图说明

图1示出了根据本发明的整体网络框架图。

图2示出了根据本发明的分层图结构。

图3示出了非局部层的网络结构。

图4示出了huaman3.6M数据集主观结果。

图5示出了MPII数据集主观结果。

图6示出了根据本发明的二维到三维人体姿态估计方法的流程图。

具体实施方式

如图6所示，这种二维到三维人体姿态估计方法，该方法包括以下步骤：

优选地，所述步骤(1)中：

每个图结构表示为G＝(V,E)，其中V表示分层图结构中包含的K个关节点，E表示人体关节点之间的自然连接和扩展的连接的并集；分层图结构底层代表五个基元部位，分别表示躯干、左臂、右臂、左腿、右腿；由于四肢具有相似的自由度，可以独立运动，因此作为基元部位；躯干是四肢的父节点，决定着人体的主方向，因此作为另一个基元部位；把头部合并到躯干，因为头部包含的关节较少并且活动范围较小；不考虑小的关节点组合，因为少于三个关节点的组合不能构成平面信息，它们很难与特定的姿态联系起来；将四肢与躯干分别结合组成第二层，躯干补充四肢的主方向信息；因为人体具有左右对称性，所以考虑到对称和全局方向信息，上肢和下肢分别与躯干结合在一起组成第三层；最后，完整的人体作为最后一层，因为合理的人体姿态依赖于所有关节的协调，因此完整的骨骼信息提取至关重要。

优选地，所述步骤(1)中，输入16个二维关节点坐标，经过特征增强模块，将每个关节点的特征由二维升到128维；将16x128维的特征输入到分层图卷积模块，其中每行的128维特征表示一个特定的关节点特征；在分层图卷积模块中，第一层将16个关节点按照五个基元部位分解为五个子特征矩阵，每个子矩阵对应特定的邻接矩阵，然后分别通过特征提取网络块进行特征提取；第二层将四肢分别与躯干拼接，并添加躯干与四肢的连接边，组成新的关节图，再利用特征提取网络块提取特征；第三层将第二层的图融合为上躯干和下躯干，并加上对称性连接边，然后分别提取上躯干和下躯干的特征；第四，五层以整个人体骨架进行特征提取，提取姿态的整体特征；最后一层图卷积输出为预测的三维姿态。

优选地，所述步骤(2)中，

令

和

分别表示节点经过第l层卷积前后的特征，则图卷积的一般形式为公式(1)：

其中

表示图G的邻接矩阵，如果有连接关系a_ij＝1，否则a_ij＝0；

I是单位阵，

是对角矩阵，其中

表示每个节点的度，σ表示激活函数，

表示可学习的权重参数；

对角占优的图卷积为公式(2)：

其中

表示需要学习的关于边的权重矩阵，⊙表示对应元素相乘；

图卷积主要聚合节点的邻居节点特征，提取的是关节点的局部特征，因此在对角占优的图卷积层后面加入非局部层，以此来平衡局部特征和全局特征；输入的特征矩阵经过三个全连接层将特征数量将为原来的一半，由前两个分支得到相关性矩阵，经过softmax进行标准化；第三个分支乘以相关性矩阵，则输出的每个节点特征都是其他节点特征的加权平均值；最后经过W_z恢复原始维度，并加上输出得到最终的输出，如公式(3)：

y＝W_z(softmax(H^TW_θ ^TW_φH)W_gH)+H。

优选地，所述步骤(3)中，平均的人体骨架为公式(4)：

其中s_n表示训练集的第n个人体骨架；

表示S中的骨长集合，其中

表示S中第i个骨长；对于预测的三维姿态，将其表示为骨长集合

和骨向量的集合

其中b_i表示预测的姿态的第i个骨长，v_i表示预测的姿态的第i个骨方向；对于三维groundtruth，获取其骨向量的集合

其中

表示预groundtruth的第i个骨方向；

人体不同的关节拥有不同的运动范围，为了约束网络生成的三维姿态具有合理的关节角度，加入了不同部位之间的角度约束；其中三维groundtruth的第i和第j个部位的夹角定义为公式(5)：

同样地得到预测的姿态的第i和第j个部位之间的夹角θ_ij；

网络的整体目标函数为公式(6)：

其中J_k表示第k个关节点，f(J_k)表示第k个关节点经过网络后的三维预测值，

表示第k个关节的三维groundtruth。

以下更详细地说明本发明。

本发明主要包括以下部分：

1.分层图卷积网络：

本发明的提出的分层图卷积网络框架如图1所示，主要包括特征增强模块和分层图卷积模块。

特征增强模块由3层全连接层组成，其中后两层组成了一个残差块。由于二维姿态含有低纬度的特征，很难充分的表示一个姿态。因此，本发明通过网络从二维坐标中挖掘出关节坐标之间的潜在关系，以此来增强人体的特征表示。

分层图卷积模块有6层，每层对应着当前粒度下的人体模型划分。通过统一的特征提取网络块提取人体不同粒度的特征，并通过层次化的融合，从而得到更好的特征。

如图2所示，本发明设计了人体的分层图结构。每个图结构表示为G＝(V,E)，其中V表示图结构中包含的K个关节点，E表示人体关节点之间的自然连接和扩展的连接的并集。分层图结构底层代表五个基元部位，分别表示躯干、左臂、右臂、左腿、右腿。由于四肢具有相似的自由度，可以独立运动，因此可以作为基元部位。躯干是四肢的父节点，决定着人体的主方向，因此可以作为另一个基元部位。本发明把头部合并到躯干，因为头部包含的关节较少并且活动范围较小。本发明不考虑小的关节点组合(如腕关节和肘关节)，因为少于三个关节点的组合不能构成平面信息，它们很难与特定的姿态联系起来。本发明将四肢与躯干分别结合组成第二层，躯干可以补充四肢的主方向信息。因为人体具有左右对称性，所以考虑到对称和全局方向信息，上肢和下肢分别与躯干结合在一起组成第三层。最后，完整的人体作为最后一层，因为合理的人体姿态依赖于所有关节的协调，因此完整的骨骼信息提取至关重要。从分层图结构的纵向上来看，分层的结构提供了人体的不同尺度处理，以测量不同粒度的姿态；水平方向上，在每个粒度下聚焦于不同的人体部件，体现了多视角的姿态测量。在分层图结构的基础上，本发明设计了分层图卷积模块来实现特征的提取和融合，并使用统一的特征提取网络块进行特征提取。

具体来说，输入16个二维关节点坐标，经过特征提增强模块，将每个关节点的特征由二维升到128维。将16x128维的特征输入到分层图卷积模块，其中每行的128维特征表示一个特定的关节点特征。在分层图卷积模块中，第一层将16个关节点按照五个基元部位分解为五个子特征矩阵，每个子矩阵对应特定的邻接矩阵(如图1中GCN关节连接图所示)，然后分别通过特征提取网络块进行特征提取；第二层将四肢分别与躯干拼接，并添加躯干与四肢的连接边，组成新的关节图，再利用特征提取网络块提取特征；第三层将第二层的图融合为上躯干和下躯干，并加上对称性连接边，然后分别提取上躯干和下躯干的特征；第四，五层以整个人体骨架进行特征提取，提取姿态的整体特征；最后一层图卷积输出为预测的三维姿态。本发明提出的分层图卷积网络结构，可以从多粒度和多视角的层面提取特征，不同粒度特征的逐层融合，体现了从局部到全局的特征学习过程，加强了模型的鲁棒性和泛化性。

2.结合对角占优图卷积层和非局部层的特征提取网络块

在每一个粒度的人体骨架上利用对角占优图卷积层和非局部层进行特征提取。令

和

分别表示节点经过第l层卷积前后的特征，则图卷积的一般形式为：

其中

表示图G的邻接矩阵，如果有连接关系a_ij＝1，否则a_ij＝0。

I是单位阵。

是对角矩阵，其中

表示每个节点的度。σ表示激活函数。

表示可学习的权重参数。

考虑到二维姿态关节点和三维姿态关节点的一一对应关系，关节点自身的特征对最终预测的三维关节点发挥着重要作用。因此，本发明提出一种改进的对角占优的图卷积：

其中

表示需要学习的关于边的权重矩阵，⊙表示对应元素相乘。本发明提出的图卷积在特征更新中始终保持自身特征占有最大的比重，实验结果表明这有利于预测更加准确的三维姿态。

图卷积主要聚合节点的邻居节点特征，提取的是关节点的局部特征，因此在对角占优的图卷积层后面加入非局部层，以此来平衡局部特征和全局特征。非局部层结构如图3所示。输入的特征矩阵经过三个全连接层将特征数量将为原来的一半，由前两个分支得到相关性矩阵，经过softmax进行标准化。第三个分支乘以相关性矩阵，则输出的每个节点特征都是其他节点特征的加权平均值。最后经过W_z恢复原始维度，并加上输出得到最终的输出。

y＝W_z(softmax(H^TW_θ ^TW_φH)W_gH)+H

结合对角占优的图卷积层和非局部层的特征提取网络块，能够平衡通过图卷积提取的局部特征以及通过非局部层提取的当前尺度下的全局特征，并且保持了节点自身在特征更新中的比重。

3.人体几何约束

在位置损失的基础上，加入了人体几何约束，使得预测的三维姿态加合理。人体几何约束主要由骨长比值约束以及骨方向夹角约束两部分组成。具体来说，预测的三维姿态应该满足人体各部位长度的比值固定，为了获得一个合理的人体骨架统一模型，本发明利用训练数据集得到一个平均的人体骨架当做统一模板。

其中s_n表示训练集的第n个人体骨架。

表示S中的骨长集合，其中

表示S中第i个骨长。对于预测的三维姿态，将其表示为骨长集合

和骨向量的集合

其中b_i表示预测的姿态的第i个骨长，v_i表示预测的姿态的第i个骨方向。同样的，对于三维groundtruth，获取其骨向量的集合

其中

表示预groundtruth的第i个骨方向。

人体不同的关节拥有不同的运动范围，为了约束网络生成的三维姿态具有合理的关节角度，本发明加入了不同部位之间的角度约束。其中三维groundtruth的第i和第j个部位的夹角定义为：

同样的，可以得到预测的姿态的第i和第j个部位之间的夹角θ_ij。

网络的整体目标函数为：

表示第k个关节的三维groundtruth。实验表明，加入人体几何约束，能有效地提高预测精度。

本发明已经在公开数据集Human3.6M和MPII上得到验证，取得很好的实验效果。表1展示本发明在Human3.6M数据集上的平均误差，可以看出，本方法已经超过同类目前最好方法的结果。图4展示了本发明在Human3.6M数据集上的主观效果，从图中可以看出，由二维的关节点，本方法可以估计出合理的三维姿态。图5展示了本发明在MPII上的主观结果，其中二维姿态是通过stacked hourglass network预测得到的，可以发现本方法对于一些复杂的野外的姿态，依旧能取得很好的预测结果。

表1

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种二维到三维人体姿态估计方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的二维到三维人体姿态估计方法，其特征在于：所述步骤(1)中：

3.根据权利要求2所述的二维到三维人体姿态估计方法，其特征在于：所述步骤(1)中，输入16个二维关节点坐标，经过特征增强模块，将每个关节点的特征由二维升到128维；将16x128维的特征输入到分层图卷积模块，其中每行的128维特征表示一个特定的关节点特征；在分层图卷积模块中，第一层将16个关节点按照五个基元部位分解为五个子特征矩阵，每个子矩阵对应特定的邻接矩阵，然后分别通过特征提取网络块进行特征提取；第二层将四肢分别与躯干拼接，并添加躯干与四肢的连接边，组成新的关节图，再利用特征提取网络块提取特征；第三层将第二层的图融合为上躯干和下躯干，并加上对称性连接边，然后分别提取上躯干和下躯干的特征；第四，五层以整个人体骨架进行特征提取，提取姿态的整体特征；最后一层图卷积输出为预测的三维姿态。

4.根据权利要求3所述的二维到三维人体姿态估计方法，其特征在于：所述步骤(2)中，

令