CN111046733B - 一种基于稀疏和深度的3d人体姿态估计方法 - Google Patents

一种基于稀疏和深度的3d人体姿态估计方法 Download PDF

Info

Publication number
CN111046733B
CN111046733B CN201911097725.6A CN201911097725A CN111046733B CN 111046733 B CN111046733 B CN 111046733B CN 201911097725 A CN201911097725 A CN 201911097725A CN 111046733 B CN111046733 B CN 111046733B
Authority
CN
China
Prior art keywords
sequence
frame
attitude
posture
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911097725.6A
Other languages
English (en)
Other versions
CN111046733A (zh
Inventor
王伟楠
张�荣
郭立君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201911097725.6A priority Critical patent/CN111046733B/zh
Publication of CN111046733A publication Critical patent/CN111046733A/zh
Application granted granted Critical
Publication of CN111046733B publication Critical patent/CN111046733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于稀疏和深度的3D人体姿态估计方法,在给定2D姿态数据的前提下,通过以下两个角度提高单目视频的3D人体姿态估计精度:一是,通过先验知识从给定的2D姿态得到较为合理的单帧3D姿态映射;二是,利用视频帧间的时间相关性约束估计优化的3D姿态;利用预学习的3D姿态字典得到最优的3D姿态表示,可以有效消除2D姿态到3D姿态求解结果的任意性,在2D关节点缺失时保证该模型仍然可靠;本发明提出的带有残差结构的MLSTM降噪编/解码器模型,能够保持连续帧的3D姿态在空间结构上和时间上的一致性,缓解每帧的独立误差造成的估计序列在时间上不连贯的问题,进一步提高3D姿态估计的精度。

Description

一种基于稀疏和深度的3D人体姿态估计方法
技术领域
本发明涉及一种3D人体姿态估计技术,尤其是涉及一种基于稀疏和深度的3D人体姿态估计方法。
背景技术
现实场景中绝大多数对于人类姿态的描述都是二维的,例如图像或视频。从单目图像或视频中估计其对应的3D人体姿态对于高级计算机视觉任务来说,如人机交互,视频监控,虚拟现实和人体行为分析等,有着重要且广泛的应用。然而,从单目图像或视频中估计3D人体姿态极具挑战性:首先,从单目图像或视频中重构3D人体姿态本身是一个病态问题。几何角度上讲,从单视角下估计人体3D的姿态存在着固有的任意性(Lee H J,ChenZ.Determination of 3D human body postures from a single view[J].ComputerVision,Graphics,and Image Processing,1985,30(2):148-168.),也就是说,根据2D姿态能够得到的3D姿态并不是唯一的。此外,人体姿态的丰富性以及在3D姿态估计过程中存在类内可变性、非刚体形变等问题,使3D姿态估计问题变得极其复杂。并且,在姿态估计过程中含有大量的变化参数,比如光照、摄像机位置参数等,同时也存在场景遮挡以及人体自我遮挡等因素。
早期的3D人体姿态估计方法(Mori G,Malik J.Recovering 3d human bodyconfigurations using shape contexts[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2006;Bo L,Sminchisescu C,Kanaujia A,et al.Fastalgorithms for large scale conditional 3D prediction[C]//IEEE Conference onComputer Vision&Pattern Recognition.IEEE,2008.)主要是从图像中提取人物的不变性特征,如肤色,纹理,轮廓等,并将其映射成3D人体姿态。近几年的工作通常将3D估计解耦为两步进行处理(Martinez J,Hossain R,Romero J,et al.A simple yet effectivebaseline for 3d human pose estimation[J].2017.):(1)利用2D姿态估计网络获取图像中人体的2D姿态特征;(2)将获取的2D特征表达向3D空间映射,获得对应3D空间下的人体姿态。将姿态估计分解为这两步,目的是通过现有的2D姿态估计网络,消除图像中光照,背景等因素对后续3D估计的影响。在深度学习的影响下,基于图像的2D姿态估计在近几年发展迅速,许多工作实现了利用卷积神经网络(CNN)来回归图像中2D关节位置的置信热图,得到2D人体姿态。这在一定程度上促进了3D姿态估计的发展,同时也提高了3D姿态估计的性能。
由于3D估计问题本身的复杂性,同时缺乏可靠的尤其是真实场景中3D人体姿态数据集,从给定的2D姿态重构3D姿态目前仍然是一个充满挑战的问题。Martinez等(2017)提出一种简单的深度网络用来学习从2D到3D姿态的映射关系,实验采用Human3.6M(IonescuC,Papava D,Olaru V,et al.Human3.6M:Large Scale Datasets and PredictiveMethods for 3D Human Sensing in Natural Environments[J].IEEE Transactions onPattern Analysis and Machine Intelligence,2014,36(7):1325-1339.)数据集中标注的2D坐标作为输入。他们的实验结果表明,使用现有最好的2D姿态估计网络获得最优的2D估计,能够提高3D估计准确率,但其得到的3D姿态与使用2D标注获得的结果相比仍然误差较大。由此,Martinez认为2D姿态估计的误差是导致3D姿态估计产生误差的主要原因。2D估计的误差主要是由于2D图像中一些视角或杂乱场景可能存在着大量噪声和遮挡,这导致2D关节点估计难免存在不准确甚至缺失。
基于以上原因,如何在2D误差或噪声干扰下从2D姿态映射到最优、最合理的3D姿态,是提高3D人体姿态估计性能的关键。
发明内容
本发明所要解决的技术问题是提供一种可以有效消除2D姿态到3D姿态求解结果的任意性,提高单目视频的3D人体姿态估计精度的基于稀疏和深度的3D人体姿态估计方法。
本发明解决上述技术问题所采用的技术方案为:一种基于稀疏和深度的3D人体姿态估计方法,包括以下步骤:
①假设人体的形状由p个关节点的坐标表示,对给定的2D人体关节点序列定义为:
Figure BDA0002268855500000031
其中,T为序列长度,Wt为第t帧2D人体姿态坐标,定义为
Figure BDA0002268855500000032
表示Wt是2行p列的矩阵,第一行为p个关节点的X轴坐标,第二行为p个关节点的Y轴坐标;
②运用非负稀疏编码,对Human3.6M数据集中的三个训练集S1,S5,S6的15个动作,每个动作分别学习出一个基础姿态字典B,大小表示为
Figure BDA0002268855500000033
k为基础姿态字典B的原子个数,
Figure BDA0002268855500000034
表示B是k×3行p列的矩阵,从第一行开始,每三行代表第k个原子的p个关节点的X,Y,Z轴坐标;
③根据稀疏表示(Sparse Representation,SR)原理,采用融合稀疏表示的3D可变形状模型来表示人体形状,将单帧2D人体姿态坐标Wt转化为对应3D空间下的姿态初始值,用第t帧3D人体姿态坐标表示为
Figure BDA0002268855500000035
记为
Figure BDA0002268855500000036
表示
Figure BDA0002268855500000037
是一个3行p列的矩阵;
④对于整个2D人体关节点序列W={W1,...,Wt,...,WT},逐帧采用步骤③进行估计,得到其对应3D空间下的不考虑时间关系的3D姿态初始序列,记为
Figure BDA0002268855500000038
⑤对于步骤④获得的3D姿态初始序列
Figure BDA0002268855500000039
进行优化,修正时间不连贯的3D姿态初始化的序列
Figure BDA00022688555000000310
将优化的结果作为最终估计的3D姿态序列,记为:
Figure BDA00022688555000000311
具体步骤如下:
⑤-1将通过稀疏表示方法初始化后的3D初始序列
Figure BDA00022688555000000312
设定为MLSTM的降噪编/解码器模型输入,将对应的优化3D序列
Figure BDA00022688555000000313
设定为输出;
⑤-2设置两层带有Batch Normalization和Dropout的线性层:第一层用于编码输入数据,提取输入数据的高维特征,采用RELU激活函数;第二层用于解码数据,预测人体p个关键点的3D位置;将输入数据转化为X,Y,Z三个坐标轴方向的分量,分别对不同方向的关节点位置细化,对于每个方向的分量设置三层LSTM单元:用于学习对应分量上人物姿态的时间变化特征,在每一个方向上的LSTM单元上增加了一个残差连接用于融合输入数据与学习到的时间变化特征,然后通过第二层线性层解码,回归相应方向分量上p个关键点的3D姿态坐标序列,将三个方向分量上的子结果拼接得到最终的优化结果;
其中,MLSTM降噪编/解码器模型是通过以下方式得到:
1)设定损失函数:定义MLSTM降噪编/解码器模型的损失函数由以下两项组成:第一项为具有N个序列的训练集中,每个序列T帧的3D关节点位置的优化值与其对应的3D标注数据的均方误差;第二项为相邻帧之间的3D关节点位置的优化值的一阶平滑约束:
首先对于N个序列,将每个序列第t帧的3D关节点位置的优化值与对应帧的3D标注数据的均方误差定义为式(4):
Figure BDA0002268855500000041
其中,
Figure BDA0002268855500000042
为优化后的第t帧3D关节点位置的优化值,
Figure BDA0002268855500000043
为对应帧的3D标注数据,Ψ(*)为Procrustes相似变换函数;
其次对于N个序列,将每个序列第t帧的相邻帧的3D关节点位置的优化值的一阶平滑约束定义为式(5)
Figure BDA0002268855500000044
其中,
Figure BDA0002268855500000045
为时间导数算子,最终的损失函数定义为式(6):
Figure BDA0002268855500000046
其中,η=1,μ=3为超参数,用于调节损失函数中每一项的重要程度;
2)训练模型:首先对输入数据采用时间上的零均值标准化处理,然后采用一个长度为T,步长为1的滑窗来选取序列长度,对选取序列长度之后的输入数据进行200次迭代训练,每个迭代对整个输入数据进行一次完整的遍历,采用ADAM优化器训练网络,初始学习速率为0.0001,每50次迭代学习率衰减0.1,LSTM单元的神经元个数为1024个,权值由Xavier初始化器初始化,第一层线性层的神经元个数为1024个,第二层线性层神经元个数为p个,权值由Kaiming初始化器初始化,批处理大小为16个序列,每个序列长度T为5,将迭代训练后的模型作为MLSTM降噪编/解码器模型。
将单帧2D人体姿态坐标Wt转化为对应3D空间下的姿态初始值
Figure BDA0002268855500000051
的具体步骤如下:
③-1对于第t帧3D人体姿态
Figure BDA0002268855500000052
由一组基础姿态字典B线性表示为:
Figure BDA0002268855500000053
其中,cit为第i个原子基础姿态字典Bi的系数;i∈[1,k];
③-2在弱透视相机模型下,将第t帧2D姿态与3D姿态之间的关系表示为:
Figure BDA0002268855500000054
其中,
Figure BDA0002268855500000055
α为摄像机内部参数,
Figure BDA0002268855500000056
Figure BDA0002268855500000057
分别为摄像机旋转矩阵和平移向量,上标T表示矩阵的转置;
③-3在不考虑噪声的情况下,根据稀疏表示原理,对于给定的2D关节点Wt∈R2×p,利用拉格朗日乘子法以能量泛函的形式将稀疏系数求解过程表示为求解最小化能量泛函:
Figure BDA0002268855500000058
通过上式(3)求解得到对应的3D姿态参数cit,式中,
Figure BDA0002268855500000059
为旋转矩阵Rt的前两行组成的矩阵,Ct=[c1t,...,cit,...,ckt]为第t帧的稀疏系数向量,I为单位矩阵,式(3)中第一项为重构误差,第二项为对Ct施加L1/2正则化约束,最终通过式(1)得到单帧人体姿态的3D初始值
Figure BDA00022688555000000510
与现有技术相比,本发明的优点在于在给定2D姿态数据的前提下,通过以下两个角度提高单目视频的3D人体姿态估计精度:一是,通过先验知识从给定的2D姿态得到较为合理(未必精确)的单帧3D姿态映射;二是,利用视频帧间的时间相关性约束估计优化的3D姿态;利用预学习的3D姿态字典得到最优的3D姿态表示,可以有效消除2D姿态到3D姿态求解结果的任意性,在2D关节点缺失时保证该模型仍然可靠;本发明提出的带有残差结构的MLSTM降噪编/解码器模型,能够保持连续帧的3D姿态在空间结构上和时间上的一致性,缓解每帧的独立误差造成的估计序列在时间上不连贯的问题,进一步提高3D姿态估计的精度。
附图说明
图1为本发明方法的整体流程框图;
图2为本发明MLSTM降噪编/解码器模型的结构示意图;
图3为基于数据集的单帧初始化效果对比图,图中:第一列为数据集给出的2D骨架,第二列为L1正则化的初始化3D骨架,第三列为本发明的初始化3D骨架,第四列为数据集标注的第一列2D骨架对应的3D骨架;
图4为基于数据集的视频3D估计效果对比图,(a)为单独行走,(b)为一起行走,图中:第一列为数据集给出的2D骨架,第二列为现有技术方法的估计骨架,第三列为本发明方法的估计骨架,第四列为数据集标注的第一列2D骨架对应的3D骨架;
图5为基于CPM探测的视频3D估计效果对比图(CPM),图中:第一列为CPM探测得到的2D骨架,第二列为现有技术方法的估计骨架,第三列为本发明方法的估计骨架,第四列为数据集标注的第一列2D骨架对应的3D骨架。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于稀疏与深度的3D人体姿态估计方法,流程框图如图1所示,其特征包括以下步骤:
①假设人体的形状由p个关节点的坐标表示,对给定的2D人体关节点序列定义为:
Figure BDA0002268855500000061
其中,T为序列长度,Wt为第t帧2D人体姿态坐标,定义为
Figure BDA0002268855500000062
表示Wt是2行p列的矩阵,第一行为p个关节点的X轴坐标,第二行为p个关节点的Y轴坐标;
②稀疏表示模型中,稀疏字典的学习尤为重要,字典的好坏将直接3D估计的效果以及稀疏表示解的稀疏性。本发明采用矩阵分解与稀疏编码的在线学习方法(Mairal J,Bach F,Ponce J,et al.Online Learning for Matrix Factorization and SparseCoding[J].Journal of Machine Learning Research,2009,11(1):19-60.)学习基础姿态字典。运用非负稀疏编码,对Human3.6M数据集中的三个训练集S1,S5,S6的15个动作,每个动作分别学习出一个基础姿态字典B,大小表示为
Figure BDA0002268855500000071
k为基础姿态字典B的原子个数,
Figure BDA0002268855500000072
表示B是k×3行p列的矩阵,从第一行开始,每三行代表第k个原子的p个关节点的X,Y,Z轴坐标;
③根据稀疏表示(Sparse Representation,SR)原理,采用融合稀疏表示的3D可变形状模型(Zhou等,2015)来表示人体形状,将单帧2D人体姿态坐标Wt转化为对应3D空间下的姿态初始值,用第t帧3D人体姿态坐标表示为
Figure BDA0002268855500000073
记为
Figure BDA0002268855500000074
表示
Figure BDA0002268855500000075
是一个3行p列的矩阵;将单帧2D人体姿态坐标Wt转化为对应3D空间下的姿态初始值
Figure BDA0002268855500000076
的具体步骤如下:
③-1对于第t帧3D人体姿态
Figure BDA0002268855500000077
由一组基础姿态字典B线性表示为:
Figure BDA0002268855500000078
其中,cit为第i个原子基础姿态字典Bi的系数;i∈[1,k];
③-2在弱透视相机模型下,将第t帧2D姿态与3D姿态之间的关系表示为:
Figure BDA0002268855500000079
其中,
Figure BDA00022688555000000710
α为摄像机内部参数,
Figure BDA00022688555000000711
Figure BDA00022688555000000712
分别为摄像机旋转矩阵和平移向量,上标T表示矩阵的转置;
③-3在不考虑噪声的情况下,根据稀疏表示原理,为了用尽可能少的原子来线性表示待估计的3D姿态,本发明采用洪等(洪金华,张荣,郭立君.基于L(1/2)正则化的三维人体姿态重构[J].自动化学报,2018,44(6):1086-1095.)提出的L1/2正则化凸松弛方法对Ct施加约束,保证求得更优的稀疏解。对于给定的2D关节点Wt∈R2×p,利用拉格朗日乘子法以能量泛函的形式将稀疏系数求解过程表示为求解最小化能量泛函:
Figure BDA00022688555000000713
通过上式(3)求解得到对应的3D姿态参数cit,式中,
Figure BDA00022688555000000714
为旋转矩阵Rt的前两行组成的矩阵,Ct=[c1t,...,cit,...,ckt]为第t帧的稀疏系数向量,I为单位矩阵,式(3)中第一项为重构误差,第二项为对Ct施加L1/2正则化约束,式(3)表示将待估计的3D姿势向2D空间投影,最小化其与2D关节点位置的距离能够求解对应的3D姿态参数。式(3)是一个带有正交约束的非凸优化问题,对于此问题本发明采用了洪等(2018)提出的谱范数近端梯度算法及交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)进行求解。此方法能够将非凸问题转化为凸优化问题,并且能够保证解的正交性和稀疏性,最终通过式(1)得到单帧人体姿态的3D初始值
Figure BDA0002268855500000081
经过基于稀疏表示(SR)的空间模型,可得到不考虑时间关系的3D初始序列
Figure BDA0002268855500000082
④对于整个2D人体关节点序列W={W1,...,Wt,...,WT},逐帧采用步骤③进行估计,得到其对应3D空间下的不考虑时间关系的3D姿态初始序列,记为
Figure BDA0002268855500000083
⑤对于步骤④获得的3D姿态初始序列
Figure BDA0002268855500000084
进行优化,修正时间不连贯的3D姿态初始化的序列
Figure BDA0002268855500000085
将优化的结果作为最终估计的3D姿态序列,记为:
Figure BDA0002268855500000086
具体步骤如下:
⑤-1如图2所示,将通过稀疏表示方法初始化后的3D初始序列
Figure BDA0002268855500000087
设定为MLSTM的降噪编/解码器模型输入,将对应的优化3D序列
Figure BDA0002268855500000088
设定为输出;
⑤-2设置两层带有Batch Normalization和Dropout的线性层(Martinez J,Hossain R,Romero J,et al.Asimple yet effective baseline for 3d human poseestimation[J].2017.):第一层用于编码输入数据,提取输入数据的高维特征,采用RELU激活函数;第二层用于解码数据,预测人体p个关键点的3D位置;将输入数据转化为X,Y,Z三个坐标轴方向的分量,分别对不同方向的关节点位置细化,对于每个方向的分量设置三层LSTM单元:用于学习对应分量上人物姿态的时间变化特征,在每一个方向上的LSTM单元上增加了一个残差连接用于融合输入数据与学习到的时间变化特征,然后通过第二层线性层解码,回归相应方向分量上p个关键点的3D姿态坐标序列,将三个方向分量上的子结果拼接得到最终的优化结果;
其中,MLSTM降噪编/解码器模型是通过以下方式得到:
1)设定损失函数:对于一些关节点,比如手肘,脚踝等,在大范围运动的情况下会被遮挡,导致这类关节点无法准确的估计。本发明在训练过程中对人物姿态施加了时间平滑约束,使相邻帧之间的人物姿态不会变化太大。定义MLSTM降噪编/解码器模型的损失函数由以下两项组成:第一项为具有N个序列的训练集中,每个序列T帧的3D关节点位置的优化值与其对应的3D标注数据的均方误差;第二项为相邻帧之间的3D关节点位置的优化值的一阶平滑约束:
首先对于N个序列,将每个序列第t帧的3D关节点位置的优化值与对应帧的3D标注数据的均方误差定义为式(4):
Figure BDA0002268855500000091
其中,
Figure BDA0002268855500000092
为优化后的第t帧3D关节点位置的优化值,
Figure BDA0002268855500000093
为对应帧的3D标注数据,Ψ(*)为Procrustes相似变换函数;
其次对于N个序列,将每个序列第t帧的相邻帧的3D关节点位置的优化值的一阶平滑约束定义为式(5)
Figure BDA0002268855500000094
其中,
Figure BDA0002268855500000095
为时间导数算子,最终的损失函数定义为式(6):
Figure BDA0002268855500000096
其中,η=1,μ=3为超参数,用于调节损失函数中每一项的重要程度;
2)训练模型:首先对输入数据采用时间上的零均值标准化处理,然后采用一个长度为T,步长为1的滑窗来选取序列长度,对选取序列长度之后的输入数据进行200次迭代训练,每个迭代对整个输入数据进行一次完整的遍历,采用ADAM优化器训练网络,初始学习速率为0.0001,每50次迭代学习率衰减0.1,LSTM单元的神经元个数为1024个,权值由Xavier初始化器初始化,第一层线性层的神经元个数为1024个,第二层线性层神经元个数为p个,权值由Kaiming初始化器初始化,批处理大小为16个序列,每个序列长度T为5,将迭代训练后的模型作为MLSTM降噪编/解码器模型。
为了更好地说明本发明方法的全局约束的显著作用,本发明在Human3.6M数据库上与现有的方法分别进行了定性与定量对比分析。
1)定性分析:图3展示了对S9中Direction动作在不考虑时间信息的情况下,采用L1/2正则化与传统正则化求解稀疏模型,进行单帧初始化的估计对比效果,由左向右依次为(a)给定的人体2D骨架,(b)L1正则化初始化的3D骨架,(c)本发明方法初始化的3D骨架,(d)对应的3D骨架标注数据。与传统L1正则化相比,可以明显看到通过L1/2正则化方法求解的单帧3D姿态更接近标注数据。图4为对S11序列上的Walking,WalkTogeter两个序列采用本发明提出的SR-MLSTM估计方法的估计效果图。由左向右依次为(a)给定的人体2D骨架,(b)文献(Zhou X,Zhu M,Pavlakos G,et al.MonoCap:Monocular Human Motion Capture usinga CNN Coupled with a Geometric Prior[J].IEEE Transactions on PatternAnalysis&Machine Intelligence,2018,PP(99):1-1.)方法估计的3D骨架,(c)本发明方法估计的3D骨架,(d)对应的3D骨架标注数据。相比于文献[Zhou等,2018],本发明的SP-MLSTM方法一方面利用更优的稀疏求解算法提高单帧估计的精度,另一方面利用所提出的MLSTM降噪编/解码器能够结合相邻帧之间的时间依赖关系对单帧结果进一步优化,最终得到优于文献[Zhou等,2018]的优化结果,图4中可以看出尤其是对腿部动作的修正更为明显。图5为在2D关节点未知的情况下,对S11序列上的WalkTogeter序列采用SR-MLSTM方法的估计效果图。由左向右依次为(a)经过CPM网络探测的人体2D骨架,(b)文献[Zhou等,2018]方法估计的3D骨架,(c)本发明方法估计的3D骨架,(d)对应的3D骨架真实标签。并且在由于2D姿态估计网络由于人体遮挡等其他不确定性因素导致2D关节点估计不准确的情况下,本发明方法可以在很大程度上纠正这些错误。也能够得到一个更接近标注数据的结果。
2)定量分析:为了对本发明所提SR-LSTM方法性能做出评价,采用Human3.6M数据集中S11的15个动作视频用作测试做了比较性实验以及模型分析实验。评价指标采用:估计的3D姿势结果与其对应的3D标注数据进行相似变换对齐后,求所有关键点的平均距离。定量分析分为两种情况:一是将数据集中所给的2D标注数据(2D_gt,17个关节点)作为SR-MLSTM输入;二是利用2D姿态估计网络(Wei S E,Ramakrishna V,Kanade T,etal.Convolutional pose machines[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2016:4724-4732.)(CPM)从视频图像获取2D人体关节点置信热图,计算置信热图中概率最大值确定对应的2D关节点坐标(2D_cpm,14个关节点)作为SR-MLSTM的输入。
2-1)2D标注关节点(2D_gt)的3D姿态估计
在给定的2D标注关节点的情况下,与文献[Zhou等,2018]进行了对比实验,实验结果如表1所示。表1中,第一行为采用传统L1正则化进行单帧估计的方法(L1+s),第二行为文献[Zhou等,2018]在单帧估计的基础上考虑融合几何先验约束后的估计方法,第三行为本发明采用L1/2正则化进行单帧估计的结果,第四行为本发明在单帧初始化的基础上利用所提出的MLSTM降噪编/解码器对单帧进行优化后的结果。由第一行与第三行的对比结果可知,采用的L1/2正则化方法能够比传统方法获得更优的解。在此基础上,本发明所提出的MLSTM降噪编/解码器对单帧结果进行优化,在测试的15个动作序列中均得到了优于文献[Zhou等,2018]的结果。
2-2)2D估计关节点(2D_cpm)的3D姿态估计
本发明对CPM模型进行了微调。利用Human3.6M数据集给定的边界框获取图像中人物的位置,然后将图像重新变换尺寸为368*368大小,送入CPM预测对应的2D关节点位置。通过计算置信热图中的概率最大值确定对应的2D关节点坐标。本发明采用的正则化方法能够比传统方法获得更优的解。与文献(Tome D,Russell C,Agapito L.Lifting from thedeep:Convolutional 3d pose estimation from a single image[C]//Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.2017:2500-2509.)和文献[Zhou等,2018]相比,同样对于S11中15个动作序列,本发明的SR-MLSTM方法能够达到较好的精度。

Claims (2)

1.一种基于稀疏和深度的3D人体姿态估计方法,其特征在于包括以下步骤:
①假设人体的形状由p个关节点的坐标表示,对给定的2D人体关节点序列定义为:W={W1,...,Wt,...,WT},
Figure FDA0002268855490000011
其中,T为序列长度,Wt为第t帧2D人体姿态坐标,定义为
Figure FDA0002268855490000012
表示Wt是2行p列的矩阵,第一行为p个关节点的X轴坐标,第二行为p个关节点的Y轴坐标;
②运用非负稀疏编码,对Human3.6M数据集中的三个训练集S1,S5,S6的15个动作,每个动作分别学习出一个基础姿态字典B,大小表示为
Figure FDA0002268855490000013
k为基础姿态字典B的原子个数,
Figure FDA0002268855490000014
表示B是k×3行p列的矩阵,从第一行开始,每三行代表第k个原子的p个关节点的X,Y,Z轴坐标;
③根据稀疏表示原理,采用融合稀疏表示的3D可变形状模型来表示人体形状,将单帧2D人体姿态坐标Wt转化为对应3D空间下的姿态初始值,用第t帧3D人体姿态坐标表示为
Figure FDA0002268855490000015
记为
Figure FDA0002268855490000016
表示
Figure FDA0002268855490000017
是一个3行p列的矩阵;
④对于整个2D人体关节点序列W={W1,...,Wt,...,WT},逐帧采用步骤③进行估计,得到其对应3D空间下的不考虑时间关系的3D姿态初始序列,记为
Figure FDA0002268855490000018
⑤对于步骤④获得的3D姿态初始序列
Figure FDA0002268855490000019
进行优化,修正时间不连贯的3D姿态初始化的序列
Figure FDA00022688554900000110
将优化的结果作为最终估计的3D姿态序列,记为:
Figure FDA00022688554900000111
具体步骤如下:
⑤-1将通过稀疏表示方法初始化后的3D初始序列
Figure FDA00022688554900000112
设定为MLSTM的降噪编/解码器模型输入,将对应的优化3D序列
Figure FDA00022688554900000113
设定为输出;
⑤-2设置两层带有Batch Normalization和Dropout的线性层:第一层用于编码输入数据,提取输入数据的高维特征,采用RELU激活函数;第二层用于解码数据,预测人体p个关键点的3D位置;将输入数据转化为X,Y,Z三个坐标轴方向的分量,分别对不同方向的关节点位置细化,对于每个方向的分量设置三层LSTM单元:用于学习对应分量上人物姿态的时间变化特征,在每一个方向上的LSTM单元上增加了一个残差连接用于融合输入数据与学习到的时间变化特征,然后通过第二层线性层解码,回归相应方向分量上p个关键点的3D姿态坐标序列,将三个方向分量上的子结果拼接得到最终的优化结果;
其中,MLSTM降噪编/解码器模型是通过以下方式得到:
1)设定损失函数:定义MLSTM降噪编/解码器模型的损失函数由以下两项组成:第一项为具有N个序列的训练集中,每个序列T帧的3D关节点位置的优化值与其对应的3D标注数据的均方误差;第二项为相邻帧之间的3D关节点位置的优化值的一阶平滑约束:
首先对于N个序列,将每个序列第t帧的3D关节点位置的优化值与对应帧的3D标注数据的均方误差定义为式(4):
Figure FDA0002268855490000021
其中,
Figure FDA0002268855490000022
为优化后的第t帧3D关节点位置的优化值,
Figure FDA0002268855490000023
为对应帧的3D标注数据,Ψ(*)为Procrustes相似变换函数;
其次对于N个序列,将每个序列第t帧的相邻帧的3D关节点位置的优化值的一阶平滑约束定义为式(5)
Figure FDA0002268855490000024
其中,
Figure FDA0002268855490000025
为时间导数算子,最终的损失函数定义为式(6):
Figure FDA0002268855490000026
其中,η=1,μ=3为超参数,用于调节损失函数中每一项的重要程度;
2)训练模型:首先对输入数据采用时间上的零均值标准化处理,然后采用一个长度为T,步长为1的滑窗来选取序列长度,对选取序列长度之后的输入数据进行200次迭代训练,每个迭代对整个输入数据进行一次完整的遍历,采用ADAM优化器训练网络,初始学习速率为0.0001,每50次迭代学习率衰减0.1,LSTM单元的神经元个数为1024个,权值由Xavier初始化器初始化,第一层线性层的神经元个数为1024个,第二层线性层神经元个数为p个,权值由Kaiming初始化器初始化,批处理大小为16个序列,每个序列长度T为5,将迭代训练后的模型作为MLSTM降噪编/解码器模型。
2.如权利要求1所述的一种基于稀疏和深度的3D人体姿态估计方法,其特征在于将单帧2D人体姿态坐标Wt转化为对应3D空间下的姿态初始值
Figure FDA0002268855490000031
的具体步骤如下:
③-1对于第t帧3D人体姿态
Figure FDA0002268855490000032
由一组基础姿态字典B线性表示为:
Figure FDA0002268855490000033
其中,cit为第i个原子基础姿态字典Bi的系数;i∈[1,k];
③-2在弱透视相机模型下,将第t帧2D姿态与3D姿态之间的关系表示为:
Figure FDA0002268855490000034
其中,
Figure FDA0002268855490000035
α为摄像机内部参数,
Figure FDA0002268855490000036
Figure FDA0002268855490000037
分别为摄像机旋转矩阵和平移向量,上标T表示矩阵的转置;
③-3在不考虑噪声的情况下,根据稀疏表示原理,对于给定的2D关节点Wt∈R2×p,利用拉格朗日乘子法以能量泛函的形式将稀疏系数求解过程表示为求解最小化能量泛函:
Figure FDA0002268855490000038
通过上式(3)求解得到对应的3D姿态参数cit,式中,
Figure FDA0002268855490000039
为旋转矩阵Rt的前两行组成的矩阵,Ct=[c1t,...,cit,...,ckt]为第t帧的稀疏系数向量,I为单位矩阵,式(3)中第一项为重构误差,第二项为对Ct施加L1/2正则化约束,最终通过式(1)得到单帧人体姿态的3D初始值
Figure FDA00022688554900000310
CN201911097725.6A 2019-11-12 2019-11-12 一种基于稀疏和深度的3d人体姿态估计方法 Active CN111046733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911097725.6A CN111046733B (zh) 2019-11-12 2019-11-12 一种基于稀疏和深度的3d人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911097725.6A CN111046733B (zh) 2019-11-12 2019-11-12 一种基于稀疏和深度的3d人体姿态估计方法

Publications (2)

Publication Number Publication Date
CN111046733A CN111046733A (zh) 2020-04-21
CN111046733B true CN111046733B (zh) 2023-04-18

Family

ID=70232360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911097725.6A Active CN111046733B (zh) 2019-11-12 2019-11-12 一种基于稀疏和深度的3d人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN111046733B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598995B (zh) * 2020-04-23 2023-04-28 浙江工商大学 一种基于原型分析的自监督多目三维人体姿态估计方法
CN111738092B (zh) * 2020-05-28 2024-03-29 华南理工大学 一种基于深度学习的恢复被遮挡人体姿态序列方法
CN111695457B (zh) * 2020-05-28 2023-05-09 浙江工商大学 一种基于弱监督机制的人体姿态估计方法
CN112257534B (zh) * 2020-10-15 2022-08-09 合肥工业大学 一种从视频中估计三维人体姿态的方法
CN113269047B (zh) * 2021-04-29 2024-03-22 江苏大学 一种基于卷积神经网络与sparse的三维人体姿态估计方法
CN113723163B (zh) * 2021-06-07 2024-04-16 东南大学 利用离散姿态学习物理约束的手部运动自监督重建方法
CN115661929B (zh) * 2022-10-28 2023-11-17 北京此刻启动科技有限公司 一种时序特征编码方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2004285183A1 (en) * 2003-10-30 2005-05-12 Nec Corporation Estimation system, estimation method, and estimation program for estimating object state
CN105184767A (zh) * 2015-07-22 2015-12-23 北京工业大学 一种运动人体姿态相似性度量方法
CN108154104A (zh) * 2017-12-21 2018-06-12 北京工业大学 一种基于深度图像超像素联合特征的人体姿态估计方法
CN108876837A (zh) * 2018-04-19 2018-11-23 宁波大学 一种基于l1/2正则化的三维人体姿态重构方法
CN109977757A (zh) * 2019-01-28 2019-07-05 电子科技大学 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN110188718A (zh) * 2019-06-04 2019-08-30 南京大学 一种基于关键帧和联合稀疏表示的无约束人脸识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2004285183A1 (en) * 2003-10-30 2005-05-12 Nec Corporation Estimation system, estimation method, and estimation program for estimating object state
CN105184767A (zh) * 2015-07-22 2015-12-23 北京工业大学 一种运动人体姿态相似性度量方法
CN108154104A (zh) * 2017-12-21 2018-06-12 北京工业大学 一种基于深度图像超像素联合特征的人体姿态估计方法
CN108876837A (zh) * 2018-04-19 2018-11-23 宁波大学 一种基于l1/2正则化的三维人体姿态重构方法
CN109977757A (zh) * 2019-01-28 2019-07-05 电子科技大学 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN110188718A (zh) * 2019-06-04 2019-08-30 南京大学 一种基于关键帧和联合稀疏表示的无约束人脸识别方法

Also Published As

Publication number Publication date
CN111046733A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046733B (zh) 一种基于稀疏和深度的3d人体姿态估计方法
Sun et al. Compositional human pose regression
Zhu et al. Robust facial landmark detection via occlusion-adaptive deep networks
Zhang et al. End-to-end hand mesh recovery from a monocular rgb image
Tewari et al. High-fidelity monocular face reconstruction based on an unsupervised model-based face autoencoder
Shao et al. An interactive approach to semantic modeling of indoor scenes with an rgbd camera
Xia et al. Nonlinear low-rank matrix completion for human motion recovery
Xia et al. Keyframe extraction for human motion capture data based on joint kernel sparse representation
CN105426872B (zh) 一种基于相关高斯过程回归的面部年龄估计方法
Ren et al. Spatial-aware stacked regression network for real-time 3d hand pose estimation
CN111460976A (zh) 一种数据驱动的基于rgb视频的实时手部动作评估方法
Xia et al. Nonconvex low-rank kernel sparse subspace learning for keyframe extraction and motion segmentation
Jin et al. Emotion information visualization through learning of 3D morphable face model
Xu et al. Asymmetric cross-modal activation network for RGB-T salient object detection
Zhou et al. Cross-domain image retrieval: methods and applications
Kong et al. Deep non-rigid structure from motion with missing data
Wang et al. Unsupervised monocular depth estimation with channel and spatial attention
Yang et al. AI-Generated Images as Data Source: The Dawn of Synthetic Era
CN116958958A (zh) 基于图卷积双流形状先验自适应类别级物体姿态估计方法
CN116909393A (zh) 基于手势识别的虚拟现实输入系统
Zhao et al. Semi-supervised hand appearance recovery via structure disentanglement and dual adversarial discrimination
Chen et al. Learning shape priors for single view reconstruction
Hosni et al. A geometric convnet on 3d shape manifold for gait recognition
Thalmann et al. First-person palm pose tracking and gesture recognition in augmented reality
Kim et al. Zero-Shot Learning for the Primitives of 3D Affordance in General Objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant