CN111046733B

CN111046733B - 一种基于稀疏和深度的3d人体姿态估计方法

Info

Publication number: CN111046733B
Application number: CN201911097725.6A
Authority: CN
Inventors: 王伟楠; 张�荣; 郭立君
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2023-04-18
Anticipated expiration: 2039-11-12
Also published as: CN111046733A

Abstract

本发明公开了一种基于稀疏和深度的3D人体姿态估计方法，在给定2D姿态数据的前提下，通过以下两个角度提高单目视频的3D人体姿态估计精度：一是，通过先验知识从给定的2D姿态得到较为合理的单帧3D姿态映射；二是，利用视频帧间的时间相关性约束估计优化的3D姿态；利用预学习的3D姿态字典得到最优的3D姿态表示，可以有效消除2D姿态到3D姿态求解结果的任意性，在2D关节点缺失时保证该模型仍然可靠；本发明提出的带有残差结构的MLSTM降噪编/解码器模型，能够保持连续帧的3D姿态在空间结构上和时间上的一致性，缓解每帧的独立误差造成的估计序列在时间上不连贯的问题，进一步提高3D姿态估计的精度。

Description

一种基于稀疏和深度的3D人体姿态估计方法

技术领域

本发明涉及一种3D人体姿态估计技术，尤其是涉及一种基于稀疏和深度的3D人体姿态估计方法。

背景技术

现实场景中绝大多数对于人类姿态的描述都是二维的，例如图像或视频。从单目图像或视频中估计其对应的3D人体姿态对于高级计算机视觉任务来说，如人机交互，视频监控，虚拟现实和人体行为分析等，有着重要且广泛的应用。然而，从单目图像或视频中估计3D人体姿态极具挑战性：首先，从单目图像或视频中重构3D人体姿态本身是一个病态问题。几何角度上讲，从单视角下估计人体3D的姿态存在着固有的任意性(Lee H J,ChenZ.Determination of 3D human body postures from a single view[J].ComputerVision,Graphics,and Image Processing,1985,30(2):148-168.)，也就是说，根据2D姿态能够得到的3D姿态并不是唯一的。此外，人体姿态的丰富性以及在3D姿态估计过程中存在类内可变性、非刚体形变等问题，使3D姿态估计问题变得极其复杂。并且，在姿态估计过程中含有大量的变化参数，比如光照、摄像机位置参数等，同时也存在场景遮挡以及人体自我遮挡等因素。

早期的3D人体姿态估计方法(Mori G,Malik J.Recovering 3d human bodyconfigurations using shape contexts[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2006；Bo L,Sminchisescu C,Kanaujia A,et al.Fastalgorithms for large scale conditional 3D prediction[C]//IEEE Conference onComputer Vision&Pattern Recognition.IEEE,2008.)主要是从图像中提取人物的不变性特征，如肤色，纹理，轮廓等，并将其映射成3D人体姿态。近几年的工作通常将3D估计解耦为两步进行处理(Martinez J,Hossain R,Romero J,et al.A simple yet effectivebaseline for 3d human pose estimation[J].2017.)：(1)利用2D姿态估计网络获取图像中人体的2D姿态特征；(2)将获取的2D特征表达向3D空间映射，获得对应3D空间下的人体姿态。将姿态估计分解为这两步，目的是通过现有的2D姿态估计网络，消除图像中光照，背景等因素对后续3D估计的影响。在深度学习的影响下，基于图像的2D姿态估计在近几年发展迅速，许多工作实现了利用卷积神经网络(CNN)来回归图像中2D关节位置的置信热图，得到2D人体姿态。这在一定程度上促进了3D姿态估计的发展，同时也提高了3D姿态估计的性能。

由于3D估计问题本身的复杂性，同时缺乏可靠的尤其是真实场景中3D人体姿态数据集，从给定的2D姿态重构3D姿态目前仍然是一个充满挑战的问题。Martinez等(2017)提出一种简单的深度网络用来学习从2D到3D姿态的映射关系，实验采用Human3.6M(IonescuC,Papava D,Olaru V,et al.Human3.6M:Large Scale Datasets and PredictiveMethods for 3D Human Sensing in Natural Environments[J].IEEE Transactions onPattern Analysis and Machine Intelligence,2014,36(7):1325-1339.)数据集中标注的2D坐标作为输入。他们的实验结果表明，使用现有最好的2D姿态估计网络获得最优的2D估计，能够提高3D估计准确率，但其得到的3D姿态与使用2D标注获得的结果相比仍然误差较大。由此，Martinez认为2D姿态估计的误差是导致3D姿态估计产生误差的主要原因。2D估计的误差主要是由于2D图像中一些视角或杂乱场景可能存在着大量噪声和遮挡，这导致2D关节点估计难免存在不准确甚至缺失。

基于以上原因，如何在2D误差或噪声干扰下从2D姿态映射到最优、最合理的3D姿态，是提高3D人体姿态估计性能的关键。

发明内容

本发明所要解决的技术问题是提供一种可以有效消除2D姿态到3D姿态求解结果的任意性，提高单目视频的3D人体姿态估计精度的基于稀疏和深度的3D人体姿态估计方法。

本发明解决上述技术问题所采用的技术方案为：一种基于稀疏和深度的3D人体姿态估计方法，包括以下步骤：

①假设人体的形状由p个关节点的坐标表示，对给定的2D人体关节点序列定义为：

其中，T为序列长度，W_t为第t帧2D人体姿态坐标，定义为

表示W_t是2行p列的矩阵，第一行为p个关节点的X轴坐标，第二行为p个关节点的Y轴坐标；

②运用非负稀疏编码，对Human3.6M数据集中的三个训练集S1,S5,S6的15个动作，每个动作分别学习出一个基础姿态字典B，大小表示为

k为基础姿态字典B的原子个数，

表示B是k×3行p列的矩阵，从第一行开始，每三行代表第k个原子的p个关节点的X，Y，Z轴坐标；

③根据稀疏表示(Sparse Representation，SR)原理，采用融合稀疏表示的3D可变形状模型来表示人体形状，将单帧2D人体姿态坐标W_t转化为对应3D空间下的姿态初始值，用第t帧3D人体姿态坐标表示为

记为

表示

是一个3行p列的矩阵；

④对于整个2D人体关节点序列W＝{W₁,...,W_t,...,W_T}，逐帧采用步骤③进行估计，得到其对应3D空间下的不考虑时间关系的3D姿态初始序列，记为

⑤对于步骤④获得的3D姿态初始序列

进行优化，修正时间不连贯的3D姿态初始化的序列

将优化的结果作为最终估计的3D姿态序列，记为：

具体步骤如下：

⑤-1将通过稀疏表示方法初始化后的3D初始序列

设定为MLSTM的降噪编/解码器模型输入，将对应的优化3D序列

设定为输出；

⑤-2设置两层带有Batch Normalization和Dropout的线性层：第一层用于编码输入数据，提取输入数据的高维特征，采用RELU激活函数；第二层用于解码数据，预测人体p个关键点的3D位置；将输入数据转化为X，Y，Z三个坐标轴方向的分量，分别对不同方向的关节点位置细化，对于每个方向的分量设置三层LSTM单元：用于学习对应分量上人物姿态的时间变化特征，在每一个方向上的LSTM单元上增加了一个残差连接用于融合输入数据与学习到的时间变化特征，然后通过第二层线性层解码，回归相应方向分量上p个关键点的3D姿态坐标序列，将三个方向分量上的子结果拼接得到最终的优化结果；

其中，MLSTM降噪编/解码器模型是通过以下方式得到：

1)设定损失函数：定义MLSTM降噪编/解码器模型的损失函数由以下两项组成：第一项为具有N个序列的训练集中，每个序列T帧的3D关节点位置的优化值与其对应的3D标注数据的均方误差；第二项为相邻帧之间的3D关节点位置的优化值的一阶平滑约束：

首先对于N个序列，将每个序列第t帧的3D关节点位置的优化值与对应帧的3D标注数据的均方误差定义为式(4)：

其中，

为优化后的第t帧3D关节点位置的优化值，

为对应帧的3D标注数据，Ψ(*)为Procrustes相似变换函数；

其次对于N个序列，将每个序列第t帧的相邻帧的3D关节点位置的优化值的一阶平滑约束定义为式(5)

其中，

为时间导数算子，最终的损失函数定义为式(6)：

其中，η＝1，μ＝3为超参数，用于调节损失函数中每一项的重要程度；

2)训练模型：首先对输入数据采用时间上的零均值标准化处理，然后采用一个长度为T，步长为1的滑窗来选取序列长度，对选取序列长度之后的输入数据进行200次迭代训练，每个迭代对整个输入数据进行一次完整的遍历，采用ADAM优化器训练网络，初始学习速率为0.0001，每50次迭代学习率衰减0.1，LSTM单元的神经元个数为1024个，权值由Xavier初始化器初始化，第一层线性层的神经元个数为1024个，第二层线性层神经元个数为p个，权值由Kaiming初始化器初始化，批处理大小为16个序列，每个序列长度T为5，将迭代训练后的模型作为MLSTM降噪编/解码器模型。

将单帧2D人体姿态坐标W_t转化为对应3D空间下的姿态初始值

的具体步骤如下：

③-1对于第t帧3D人体姿态

由一组基础姿态字典B线性表示为：

其中，c_it为第i个原子基础姿态字典B_i的系数；i∈[1,k]；

③-2在弱透视相机模型下，将第t帧2D姿态与3D姿态之间的关系表示为：

其中，

α为摄像机内部参数，

和

分别为摄像机旋转矩阵和平移向量，上标T表示矩阵的转置；

③-3在不考虑噪声的情况下，根据稀疏表示原理，对于给定的2D关节点W_t∈R^2×p，利用拉格朗日乘子法以能量泛函的形式将稀疏系数求解过程表示为求解最小化能量泛函：

通过上式(3)求解得到对应的3D姿态参数c_it，式中，

为旋转矩阵R_t的前两行组成的矩阵，C_t＝[c_1t,...,c_it,...,c_kt]为第t帧的稀疏系数向量，I为单位矩阵，式(3)中第一项为重构误差，第二项为对C_t施加L_1/2正则化约束，最终通过式(1)得到单帧人体姿态的3D初始值

与现有技术相比，本发明的优点在于在给定2D姿态数据的前提下，通过以下两个角度提高单目视频的3D人体姿态估计精度：一是，通过先验知识从给定的2D姿态得到较为合理(未必精确)的单帧3D姿态映射；二是，利用视频帧间的时间相关性约束估计优化的3D姿态；利用预学习的3D姿态字典得到最优的3D姿态表示，可以有效消除2D姿态到3D姿态求解结果的任意性，在2D关节点缺失时保证该模型仍然可靠；本发明提出的带有残差结构的MLSTM降噪编/解码器模型，能够保持连续帧的3D姿态在空间结构上和时间上的一致性，缓解每帧的独立误差造成的估计序列在时间上不连贯的问题，进一步提高3D姿态估计的精度。

附图说明

图1为本发明方法的整体流程框图；

图2为本发明MLSTM降噪编/解码器模型的结构示意图；

图3为基于数据集的单帧初始化效果对比图，图中：第一列为数据集给出的2D骨架，第二列为L₁正则化的初始化3D骨架，第三列为本发明的初始化3D骨架，第四列为数据集标注的第一列2D骨架对应的3D骨架；

图4为基于数据集的视频3D估计效果对比图，(a)为单独行走，(b)为一起行走，图中：第一列为数据集给出的2D骨架，第二列为现有技术方法的估计骨架，第三列为本发明方法的估计骨架，第四列为数据集标注的第一列2D骨架对应的3D骨架；

图5为基于CPM探测的视频3D估计效果对比图(CPM)，图中：第一列为CPM探测得到的2D骨架，第二列为现有技术方法的估计骨架，第三列为本发明方法的估计骨架，第四列为数据集标注的第一列2D骨架对应的3D骨架。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于稀疏与深度的3D人体姿态估计方法，流程框图如图1所示，其特征包括以下步骤：

其中，T为序列长度，W_t为第t帧2D人体姿态坐标，定义为

②稀疏表示模型中，稀疏字典的学习尤为重要，字典的好坏将直接3D估计的效果以及稀疏表示解的稀疏性。本发明采用矩阵分解与稀疏编码的在线学习方法(Mairal J,Bach F,Ponce J,et al.Online Learning for Matrix Factorization and SparseCoding[J].Journal of Machine Learning Research,2009,11(1):19-60.)学习基础姿态字典。运用非负稀疏编码，对Human3.6M数据集中的三个训练集S1,S5,S6的15个动作，每个动作分别学习出一个基础姿态字典B，大小表示为

k为基础姿态字典B的原子个数，

③根据稀疏表示(Sparse Representation，SR)原理，采用融合稀疏表示的3D可变形状模型(Zhou等，2015)来表示人体形状，将单帧2D人体姿态坐标W_t转化为对应3D空间下的姿态初始值，用第t帧3D人体姿态坐标表示为

记为

表示

是一个3行p列的矩阵；将单帧2D人体姿态坐标W_t转化为对应3D空间下的姿态初始值

的具体步骤如下：

③-1对于第t帧3D人体姿态

由一组基础姿态字典B线性表示为：

其中，c_it为第i个原子基础姿态字典B_i的系数；i∈[1,k]；

其中，

α为摄像机内部参数，

和

分别为摄像机旋转矩阵和平移向量，上标T表示矩阵的转置；

③-3在不考虑噪声的情况下，根据稀疏表示原理，为了用尽可能少的原子来线性表示待估计的3D姿态，本发明采用洪等(洪金华,张荣,郭立君.基于L(1/2)正则化的三维人体姿态重构[J].自动化学报,2018,44(6):1086-1095.)提出的L_1/2正则化凸松弛方法对C_t施加约束，保证求得更优的稀疏解。对于给定的2D关节点W_t∈R^2×p，利用拉格朗日乘子法以能量泛函的形式将稀疏系数求解过程表示为求解最小化能量泛函：

通过上式(3)求解得到对应的3D姿态参数c_it，式中，

为旋转矩阵R_t的前两行组成的矩阵，C_t＝[c_1t,...,c_it,...,c_kt]为第t帧的稀疏系数向量，I为单位矩阵，式(3)中第一项为重构误差，第二项为对C_t施加L_1/2正则化约束，式(3)表示将待估计的3D姿势向2D空间投影，最小化其与2D关节点位置的距离能够求解对应的3D姿态参数。式(3)是一个带有正交约束的非凸优化问题，对于此问题本发明采用了洪等(2018)提出的谱范数近端梯度算法及交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)进行求解。此方法能够将非凸问题转化为凸优化问题，并且能够保证解的正交性和稀疏性，最终通过式(1)得到单帧人体姿态的3D初始值

经过基于稀疏表示(SR)的空间模型，可得到不考虑时间关系的3D初始序列

⑤对于步骤④获得的3D姿态初始序列

进行优化，修正时间不连贯的3D姿态初始化的序列

将优化的结果作为最终估计的3D姿态序列，记为：

具体步骤如下：

⑤-1如图2所示，将通过稀疏表示方法初始化后的3D初始序列

设定为MLSTM的降噪编/解码器模型输入，将对应的优化3D序列

设定为输出；

⑤-2设置两层带有Batch Normalization和Dropout的线性层(Martinez J,Hossain R,Romero J,et al.Asimple yet effective baseline for 3d human poseestimation[J].2017.)：第一层用于编码输入数据，提取输入数据的高维特征，采用RELU激活函数；第二层用于解码数据，预测人体p个关键点的3D位置；将输入数据转化为X，Y，Z三个坐标轴方向的分量，分别对不同方向的关节点位置细化，对于每个方向的分量设置三层LSTM单元：用于学习对应分量上人物姿态的时间变化特征，在每一个方向上的LSTM单元上增加了一个残差连接用于融合输入数据与学习到的时间变化特征，然后通过第二层线性层解码，回归相应方向分量上p个关键点的3D姿态坐标序列，将三个方向分量上的子结果拼接得到最终的优化结果；

其中，MLSTM降噪编/解码器模型是通过以下方式得到：

1)设定损失函数：对于一些关节点，比如手肘，脚踝等，在大范围运动的情况下会被遮挡，导致这类关节点无法准确的估计。本发明在训练过程中对人物姿态施加了时间平滑约束，使相邻帧之间的人物姿态不会变化太大。定义MLSTM降噪编/解码器模型的损失函数由以下两项组成：第一项为具有N个序列的训练集中，每个序列T帧的3D关节点位置的优化值与其对应的3D标注数据的均方误差；第二项为相邻帧之间的3D关节点位置的优化值的一阶平滑约束：

其中，

为优化后的第t帧3D关节点位置的优化值，

为对应帧的3D标注数据，Ψ(*)为Procrustes相似变换函数；

其中，

为时间导数算子，最终的损失函数定义为式(6)：

为了更好地说明本发明方法的全局约束的显著作用，本发明在Human3.6M数据库上与现有的方法分别进行了定性与定量对比分析。

1)定性分析：图3展示了对S9中Direction动作在不考虑时间信息的情况下，采用L_1/2正则化与传统正则化求解稀疏模型，进行单帧初始化的估计对比效果，由左向右依次为(a)给定的人体2D骨架，(b)L₁正则化初始化的3D骨架，(c)本发明方法初始化的3D骨架，(d)对应的3D骨架标注数据。与传统L₁正则化相比，可以明显看到通过L_1/2正则化方法求解的单帧3D姿态更接近标注数据。图4为对S11序列上的Walking,WalkTogeter两个序列采用本发明提出的SR-MLSTM估计方法的估计效果图。由左向右依次为(a)给定的人体2D骨架，(b)文献(Zhou X,Zhu M,Pavlakos G,et al.MonoCap:Monocular Human Motion Capture usinga CNN Coupled with a Geometric Prior[J].IEEE Transactions on PatternAnalysis&Machine Intelligence,2018,PP(99):1-1.)方法估计的3D骨架，(c)本发明方法估计的3D骨架，(d)对应的3D骨架标注数据。相比于文献[Zhou等，2018]，本发明的SP-MLSTM方法一方面利用更优的稀疏求解算法提高单帧估计的精度，另一方面利用所提出的MLSTM降噪编/解码器能够结合相邻帧之间的时间依赖关系对单帧结果进一步优化，最终得到优于文献[Zhou等，2018]的优化结果，图4中可以看出尤其是对腿部动作的修正更为明显。图5为在2D关节点未知的情况下，对S11序列上的WalkTogeter序列采用SR-MLSTM方法的估计效果图。由左向右依次为(a)经过CPM网络探测的人体2D骨架，(b)文献[Zhou等，2018]方法估计的3D骨架，(c)本发明方法估计的3D骨架，(d)对应的3D骨架真实标签。并且在由于2D姿态估计网络由于人体遮挡等其他不确定性因素导致2D关节点估计不准确的情况下，本发明方法可以在很大程度上纠正这些错误。也能够得到一个更接近标注数据的结果。

2)定量分析：为了对本发明所提SR-LSTM方法性能做出评价，采用Human3.6M数据集中S11的15个动作视频用作测试做了比较性实验以及模型分析实验。评价指标采用：估计的3D姿势结果与其对应的3D标注数据进行相似变换对齐后，求所有关键点的平均距离。定量分析分为两种情况：一是将数据集中所给的2D标注数据(2D_gt，17个关节点)作为SR-MLSTM输入；二是利用2D姿态估计网络(Wei S E,Ramakrishna V,Kanade T,etal.Convolutional pose machines[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2016:4724-4732.)(CPM)从视频图像获取2D人体关节点置信热图，计算置信热图中概率最大值确定对应的2D关节点坐标(2D_cpm，14个关节点)作为SR-MLSTM的输入。

2-1)2D标注关节点(2D_gt)的3D姿态估计

在给定的2D标注关节点的情况下，与文献[Zhou等，2018]进行了对比实验，实验结果如表1所示。表1中，第一行为采用传统L₁正则化进行单帧估计的方法(L₁+s)，第二行为文献[Zhou等，2018]在单帧估计的基础上考虑融合几何先验约束后的估计方法，第三行为本发明采用L_1/2正则化进行单帧估计的结果，第四行为本发明在单帧初始化的基础上利用所提出的MLSTM降噪编/解码器对单帧进行优化后的结果。由第一行与第三行的对比结果可知，采用的L_1/2正则化方法能够比传统方法获得更优的解。在此基础上，本发明所提出的MLSTM降噪编/解码器对单帧结果进行优化，在测试的15个动作序列中均得到了优于文献[Zhou等，2018]的结果。

2-2)2D估计关节点(2D_cpm)的3D姿态估计

本发明对CPM模型进行了微调。利用Human3.6M数据集给定的边界框获取图像中人物的位置，然后将图像重新变换尺寸为368*368大小，送入CPM预测对应的2D关节点位置。通过计算置信热图中的概率最大值确定对应的2D关节点坐标。本发明采用的正则化方法能够比传统方法获得更优的解。与文献(Tome D,Russell C,Agapito L.Lifting from thedeep:Convolutional 3d pose estimation from a single image[C]//Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.2017:2500-2509.)和文献[Zhou等，2018]相比，同样对于S11中15个动作序列，本发明的SR-MLSTM方法能够达到较好的精度。