CN112560757B - 端到端多视角三维人体姿态估计方法、系统及存储介质 - Google Patents

端到端多视角三维人体姿态估计方法、系统及存储介质 Download PDF

Info

Publication number
CN112560757B
CN112560757B CN202011548666.2A CN202011548666A CN112560757B CN 112560757 B CN112560757 B CN 112560757B CN 202011548666 A CN202011548666 A CN 202011548666A CN 112560757 B CN112560757 B CN 112560757B
Authority
CN
China
Prior art keywords
thermodynamic diagram
network
human body
body posture
dimensional human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011548666.2A
Other languages
English (en)
Other versions
CN112560757A (zh
Inventor
薛健
牛泽海
吕科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Chinese Academy of Sciences
Original Assignee
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Chinese Academy of Sciences filed Critical University of Chinese Academy of Sciences
Priority to CN202011548666.2A priority Critical patent/CN112560757B/zh
Publication of CN112560757A publication Critical patent/CN112560757A/zh
Application granted granted Critical
Publication of CN112560757B publication Critical patent/CN112560757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种端到端多视角三维人体姿态估计方法、系统及存储介质,其包括:加载预训练后的二维人体姿态估计网络,将当前每个视角的图片作为该网络的输入;通过二维人体姿态估计网络生成热力图,将其作为LSTM热力图时序信息提取网络的输入;根据时间序列步长T的取值将热力图输入至LSTM初始化热力图时序信息提取网络及LSTM热力图时序信息提取网络,得到细胞态及隐藏态;将得到的隐藏态馈送到解码器网络中,得到解码后的热力图;将热力图与解码后的热力图进行融合,得到融合了时间与空间信息的热力图Ht(p);将热力图Ht(p)送入soft‑argmax线性代数三角化网络中得到2D点位置;求解齐次三维坐标向量
Figure DDA0002857089720000011
上的超定方程
Figure DDA0002857089720000012
采用可微分的DLT‑SII算法,得到最终的三维人体姿态估计点。

Description

端到端多视角三维人体姿态估计方法、系统及存储介质
技术领域
本发明涉及一种计算机视觉领域,特别是关于一种基于深度学习网络,结合时间特征及空间特征的端到端多视角三维人体姿态估计方法、系统及存储介质。
背景技术
人体姿态估计是计算机视觉的重要任务之一,其在人机交互、动画制作、行为识别领域有着广泛的应用。其中,现有的人体姿态估计的研究方向主要有二维人体姿态估计及三维人体姿态估计,尽管二维人体姿态估计有自遮挡、运动模糊、服饰带来的语义模糊、光照条件不一、人体姿态的部分缺失等挑战,但现有研究在二维人体姿态估计领域已经取得了较好的研究进展,可以在大部分情况较为准确的估计出人的二维人体姿态,比如自下而上的人体姿态估计方法与自上而下的人体姿态估计方法,以HRNet(Sun K,Xiao B,Liu D,et al.Deep high-resolution representation learning for human pose estimation[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2019:5693-5703.)为代表的自上而下的二维人体姿态估计算法和以HigherHRNet(Cheng B,Xiao B,Wang J,et al.HigherHRNet:Scale-AwareRepresentation Learning for Bottom-Up Human Pose Estimation[C]//2020 IEEE/CVFConference on Computer Vision and Pattern Recognition(CVPR).IEEE,2020.)为代表的自下而上的二维人体姿态估计方法取得了令人瞩目的效果。
而在三维人体姿态估计领域,得益于二维人体姿态估计领域的研究成果。一些方法尝试使用单目人体姿态估计方法去获得较好的三维人体骨架结构,以Simple3D(Martinez J,Hossain R,Romero J,et al.A simple yet effective baseline for 3dhuman pose estimation[C]//2017 IEEE International Conference on ComputerVision(ICCV),IEEE,2017.)为代表。但是基于单视角的三维人体姿态估计方法存在先天的语义模糊问题,这将不能保证基于单视角的三维人体姿态估计方法在求解的三维人体姿态上有很好的准确性。而现有的多视角三维人体姿态估计研究的处理方法通常依赖RPSM与三角化等后处理方法,以基于RPSM的后处理方法(Qiu H,Wang C,Wang J,et al.Cross ViewFusion for 3D Human Pose Estimation[C]//2019 IEEE International Conference onComputer Vision(ICCV),IEEE,2019.)与Epipolar Transformer的基于三角化的后处理方法(He Y,Yan R,Fragkiadaki K,et al.Epipolar Transformer for Multi-view HumanPose Estimation[C]//2020 IEEE/CVF Conference on Computer Vision and PatternRecognition Workshops(CVPRW).IEEE,2020.)为代表。这种处理方式将任务分解为了两个问题,即二维人体姿态估计问题与基于二维骨骼关键点在多视角三维人体姿态估计上的后处理算法。即先根据二维人体姿态估计生成的热力图求解的最大值作为二维人体关键点的位置,再通过后处理算法得到三维人体姿态点。
在当前的多视角三维人体姿态估计问题中,由于需要标定后的相机内外参,即相机位置是保持不变的,即基于多视角的三维人体姿态估计问题本身是一个在稳定视频上进行多视角三维人体姿态估计的问题,而现有的解决思路仅使用了单帧的人体姿态估计技术或尝试使用跨视角的信息融合去改善估计效果,未加入任务本身自有的时序特征。由于时序信息为在多个视角上连续大量的视频帧,这将导致算法的单次求解复杂度有成倍的提升,相应的求解速度也会成倍的变慢。而多视角三维人体姿态估计的应用领域多为实时无标记动捕,对算法的运行速度有较高的要求。根据任务本身的时序信息提升算法性能,且保证一定的算法运行速度,便为利用时序信息的多视角三维人体姿态估计任务的难点所在。
综合上述分析,研究能有效处理多视角输入、检测精度较高、检测速度较快的高性能多视角三维人体姿态估计方法,显得尤为重要。因此,亟需一种轻量级的基于时序信息的模型,在不损失大量运行速度的前提下,进一步提高多视角三维人体姿态估计的准确度。
发明内容
针对上述问题,本发明的目的是提供一种端到端多视角三维人体姿态估计方法、系统及存储介质,其能处理多视图输入的二维图像并输出相应的三维人体姿态,同时可以避免引入时序信息而带来的性能低下问题。
为实现上述目的,本发明采取以下技术方案:一种端到端多视角三维人体姿态估计方法,其包括:
步骤1、加载预训练后的二维人体姿态估计网络,同时将当前每个视角的图片作为该网络的输入;
步骤2、通过二维人体姿态估计网络生成热力图bt(p),将其作为LSTM热力图时序信息提取网络的输入;
步骤3、根据时间序列步长T的取值将热力图bt(p)输入至LSTM初始化热力图时序信息提取网络及LSTM热力图时序信息提取网络,得到细胞态及隐藏态;
步骤4、将得到的隐藏态馈送到解码器网络g(·)中,得到解码后的热力图dt(p);
步骤5、将热力图bt(p)与解码后的热力图dt(p)进行融合,得到融合了时间与空间信息的热力图Ht(p);
步骤6、将热力图Ht(p)送入soft-argmax线性代数三角化网络中得到2D点位置;
步骤7、求解齐次三维坐标向量
Figure BDA0002857089700000031
上的超定方程
Figure BDA0002857089700000032
采用可微分的DLT-SII算法,得到最终的三维人体姿态估计点。
进一步,所述步骤1中,二维人体姿态估计网络为Resnet-152网络。
进一步,所述步骤1中,二维人体姿态估计网络的损失函数L为:
Figure BDA0002857089700000033
其中
Figure BDA0002857089700000034
是二维人体姿态热力图提取网络Resnet的损失函数,
Figure BDA0002857089700000035
是LSTM热力图时序信息提取网络与的损失函数,
Figure BDA0002857089700000036
的定义与Lmse一致,α是权重系数。
进一步,所述步骤2中,设
Figure BDA0002857089700000037
是输入网络的多视角图片,V代表视角的个数,视频有t帧,即t∈{1,2,....,T},其中T为设置的时间序列步长,/F(·)是二维热力图提取网络Resnet,
Figure BDA0002857089700000038
为t时刻所有视角下P个关节点的热力图bt(p):
bt(p)=F(Xt)。
进一步,所述步骤3中,时间序列步长T=1时,由上一个阶段得到的热力图将被送入LSTM初始化网络中得到相应的初始细胞态及初始隐藏态;在时间序列步长T>1时,将上一个阶段的细胞态、隐藏态及当前阶段的热力图输入LSTM网络中,得到了当前阶段的细胞态、隐藏态,将当前阶段的隐藏态及细胞态以变量的形式进行保存作为下一个阶段的输入。
进一步,所述步骤4中,解码器网络g(·)由五个卷积层构成,分别以三个卷积核大小3,输出通道数为128的卷积、一个卷积核大小为1,通道数为128的卷积及一个卷积核大小为1,通道数以人体关键点数量为通道数量的卷积构成:
dt(p)=g(ht),
得到解码后的热力图
Figure BDA0002857089700000039
进一步,所述步骤5中,将热力图bt(p)与解码后的热力图dt(p)进行加权平均,得到热力图Ht(p):
Figure BDA00028570897000000310
进一步,所述步骤7中,最终的三维人体姿态估计点的求解方法包括:
步骤7.1、计算跨空间轴的softmax:
Figure BDA0002857089700000041
式中,H’t(p)表示归一化后的热力图;rx、ry、r、W分别表示分别表示x轴的像素索引、y轴的像素索引、单个像素、图像的长宽;
步骤7.2、计算二维热力图的质心,将其作为关节点的位置,
Figure BDA0002857089700000042
步骤7.3、采用线性代数三角化方法,将寻找三维点
Figure BDA0002857089700000043
简化为求解一个超定系统在齐次三维坐标向量
Figure BDA0002857089700000044
上的方程:
Figure BDA0002857089700000045
其中
Figure BDA0002857089700000046
是由投影矩阵及二维关节点xt(p)构成的矩阵;
步骤7.4、求解方程
Figure BDA0002857089700000047
求解得到的三维人体姿态坐标点y由非齐次坐标点转换为欧拉坐标点y获得。
一种端到端多视角三维人体姿态估计系统,其包括:加载模块、第一热力图生成模块、第一处理模块、第二热力图生成模块、融合模块、第二处理模块和求解模块;
所述加载模块用于加载预训练后的二维人体姿态估计网络,同时将当前每个视角的图片作为该网络的输入;
所述第一热力图生成模块通过二维人体姿态估计网络生成热力图bt(p),将其作为LSTM热力图时序信息提取网络的输入;
所述第一处理模块根据时间序列步长T的取值将热力图bt(p)输入至LSTM初始化热力图时序信息提取网络及LSTM热力图时序信息提取网络,得到细胞态及隐藏态;
所述第二热力图生成模块将得到的隐藏态馈送到解码器网络g(·)中,得到解码后的热力图dt(p);
所述融合模块将热力图bt(p)与解码后的热力图dt(p)进行融合,得到融合了时间与空间信息的热力图Ht(p);
所述第二处理模块将热力图Ht(p)送入soft-argmax线性代数三角化网络中得到2D点位置;
所述求解模块用于求解齐次三维坐标向量
Figure BDA0002857089700000051
上的超定方程
Figure BDA0002857089700000052
采用可微分的DLT-SII算法,得到最终的三维人体姿态估计点。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述方法中的任一方法。
本发明由于采取以上技术方案,其具有以下优点:1、本发明提升了对于多视角三维人体姿态估计的检测性能。本发明加入支持卷积的LSTM热力图时序信息提取网络,设计了一种用于三维人体姿态估计的融合空间信息及时域信息的多视角的端到端的三角化网络,通过将Resnet网络与LSTM网络的热力图融合使得所生成的二维热力图在时间信息与空间信息上进行了有效互补,从整体上提升了检测精度及生成骨架在视频中的连续性及抗抖动性。2、本发明通过引入一个可学习的关节点置信度模块去学习每个视角对最终的三角化过程的实际贡献值,从而在一定程度上避免了不准确的热力图对最终生成的三维骨架的不良影响,并通过DLT-SII算法快速求解出了最终的三维人体姿态关键点。3、本发明基于Resnet及可卷积的LSTM网络,在保持速度不降低太多的前提下,大大提升了检测精度。
综上,在实际的工业应用中,本发明能有效地利用时序信息,克服人体自遮挡,生成骨架抖动等问题,可广泛应用于可见动画生成、行为估计、三维人体重建等多种应用下。
附图说明
图1本发明实施例中的方法整体流程图;
图2是本发明实施例中的整体网络结构图;
图3是本发明实施例中检测结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出的LSTM热力图时序信息提取网络目的是在得到二维人体姿态热力图后,根据前一帧编码的热力图信息对当前帧的热力图信息进行时间信息上的增强。并将最终得到的热力图及Resnet网络与LSTM网络的高维信息进行融合,得到二维人体姿态点及每个视角对三角化过程贡献的权重,最终将其一并送入可微分的线性代数三角化网络中,得到最终的三维人体姿态点。本发明基于Resnet的二维人体姿态估计方法设置了一种融合了时间特征及空间特征的端到端的多视角三维人体姿态估计网络,能够很好的处理人体自遮挡、二维人体姿态热力图估计不准确、所生成的三维人体骨架抖动及关节点漂移等问题。下面结合附图和其中一种实施例对本发明进行详细描述。
在本发明的第一实施方式中,如图1所示,提供一种融合时空特征的端到端多视角三维人体姿态估计方法,其包括:
步骤1、加载预训练后的二维人体姿态估计网络,同时将当前每个视角的图片作为该网络的输入;
在本实施例中,二维人体姿态估计网络优选为Resnet-152网络;
步骤2、通过二维人体姿态估计网络生成热力图bt(p),将其作为LSTM热力图时序信息提取网络的输入;
在本实施例中,Resnet-152网络生成96×96的热力图bt(p);
Figure BDA0002857089700000061
是输入网络的多视角图片,V代表视角的个数,W和H分别代表每一帧图像的宽和高,P代表关节点个数,视频有t帧,即t∈{1,2,....,T},其中T为设置的时间序列步长,F(·)是二维热力图提取网络Resnet,
Figure BDA0002857089700000062
为t时刻所有视角下P个关节点的热力图bt(p):
bt(p)=F(Xt);
步骤3、根据时间序列步长T的取值将热力图bt(p)输入至LSTM初始化热力图时序信息提取网络及LSTM热力图时序信息提取网络,得到细胞态及隐藏态;
具体为:时间序列步长T=1时,由于LSTM网络缺乏上一个阶段的细胞态与隐藏态输入,由上一个阶段得到的96×96的热力图将被送入LSTM初始化网络中得到相应的初始细胞态及初始隐藏态。在时间序列步长T>1时,将上一个阶段的细胞态、隐藏态及当前阶段的96×96热力图输入LSTM网络中,得到了当前阶段的细胞态、隐藏态,将当前阶段的隐藏态及细胞态以变量的形式进行保存作为下一个阶段的输入。
LSTM初始化热力图时序信息提取网络的定义为:
Figure BDA0002857089700000063
i1=σ(Wxi*b1(p)+εi),
o1=σ(Wxo*b1(p)+εo),
Figure BDA0002857089700000071
h1=o1⊙C1
其中,b1(p)是F(·)生成的初始热力图,与经典LSTM网络不同的是,*在这里不代表矩阵相乘,而代表卷积操作,⊙代表矩阵相乘操作。所有在公式中的+号代表逐元素相加。其中εgεiεo分别代表生成器、输入门、输出门的偏置值。g0(·),i0(·),o0(·)分别是初始化LSTM网络的生成器、输入门、输出门,
Figure BDA0002857089700000072
分别代表tanh函数及sigmoid函数,得到的h1与C1将作为下一个阶段的输入被馈送到下一个阶段的LSTM网络中。g1表示生成器、i1表示输入门、o1表示输出门、C1表示细胞态、h1表示隐藏态、Wxg表示生成器的权重、Wxi表示输入门的权重、Wxo表示输出门的权重。
阶段t的LSTM热力图时序信息提取网络定义如下:
Figure BDA0002857089700000073
it=σ(Wxi*bt(p)+Whi*ht-1i),
ft=σ(Wxf*bt(p)+Whf*ht-1f),
ot=σ(Wxo*bt(p)+Who*ht-1o),
Ct=ft⊙Ct-1+it⊙gt
Figure BDA0002857089700000074
bt(p)是F(·)生成的热力图,与初始化LSTM网络的定义相似,ht-1是上一个阶段的隐藏态,Ct-1是上一个阶段的细胞态,*代表卷积操作,⊙代表矩阵相乘操作。+代表逐元素相加,ε代表偏置值。gt(·),it(·),ft(·),ot(·)分别是t时刻LSTM的生成器、输入门、遗忘门、输出门,
Figure BDA0002857089700000075
分别代表tanh函数及sigmoid函数。gt表示生成器、it表示输入门、ot表示输出门、Ct表示细胞态、ht表示隐藏态、Wxg表示生成器的权重、Wxi表示输入门的权重、Wxo表示输出门的权重、Whg表示上一阶段的隐藏态在生成器中的权重、Whi表示上一阶段的隐藏态在输入门中的权重、Whf表示上一阶段的隐藏态在遗忘门中的权重、Who表示上一阶段的隐藏态在输出门中的权重。
步骤4、将得到的隐藏态馈送到解码器网络g(·)中,得到解码后的热力图dt(p);
解码器网络g(·)由五个卷积层构成,分别以三个卷积核大小3,输出通道数为128的卷积、一个卷积核大小为1,通道数为128的卷积及一个卷积核大小为1,通道数以人体关键点数量为通道数量的卷积构成。
dt(p)=g(ht),
得到
Figure BDA0002857089700000081
即解码后的热力图dt(p)。
步骤5、将热力图bt(p)与解码后的热力图dt(p)进行融合,得到融合了时间与空间信息的热力图Ht(p);
将热力图bt(p)与解码后的热力图dt(p)进行加权平均,得到热力图Ht(p):
Figure BDA0002857089700000082
步骤6、将融合了时间与空间信息的热力图Ht(p)送入soft-argmax线性代数三角化网络中得到2D点位置;
步骤7、求解齐次三维坐标向量
Figure BDA0002857089700000083
上的超定方程
Figure BDA0002857089700000084
采用可微分的DLT-SII算法,得到最终的三维人体姿态估计点。
上述步骤1中,预处理多视角图片,根据二维人体姿态真值点生成相应的热力图,将不同时间码下的多视角图片以随机顺序作为二维人体姿态估计网络的输入,从而训练一个二维人体姿态估计网络。
在本实施例中,采用了现在最大的多视角三维人体姿态估计数据集Human3.6M数据集(Human3.6M:Large Scale Datasets and Predictive Methods for 3D HumanSensing in Natural Environments),其由四台在时间上同步的50Hz相机拍摄,使用了基于标记点的MoCap系统采集三维人体姿态数据,数据集共包含了360万张图片,由包含了5组女性数据及6组男性数据的11组数据构成,使用包含了150万张图片的第1,5,6,7,8组数据作为训练集,第9,11组数据作为测试集。
上述步骤1中,由于本申请的网络是可以由输入RGB图像Ic到输出预测值y进行端到端训练的,采用优化过的逐关节均方误差损失函数
Figure BDA0002857089700000085
可以提高网络在训练过程中对离群点的鲁棒性,该损失函数
Figure BDA0002857089700000086
为:
Figure BDA0002857089700000087
其中,ε是损失函数的阈值,在实验中被设置为(20cm)2。损失函数Lalg是所有关节点在
Figure BDA0002857089700000088
上的加权平均。
根据优化过的逐关节均方误差损失函数确定最终的损失函数L为:
Figure BDA0002857089700000089
其中
Figure BDA00028570897000000810
是二维人体姿态热力图提取网络Resnet的损失函数,
Figure BDA00028570897000000811
是LSTM热力图时序信息提取网络与的损失函数,
Figure BDA0002857089700000091
的定义与Lmse一致,α是权重系数。
Figure BDA0002857089700000092
Figure BDA0002857089700000093
与Lalg的监督位置如图2所示。
上述步骤2中,根据高斯分布生成输入图像的关节点热力图
Figure BDA0002857089700000094
其中
Figure BDA0002857089700000095
是图片中人体关键点的二维真实值,所生成
Figure BDA0002857089700000096
的像素点
Figure BDA0002857089700000097
定义为:
Figure BDA0002857089700000098
其中,σ为控制热力图峰值的扩散程度,j代表关节点类别。通过
Figure BDA00028570897000000910
用来监督ResNet网络及LSTM热力图时序信息提取网络更好地生成bt(p)及dt(p)。
在输入图片时使用均值为[0.485,0.456,0.406]方差为[0.229,0.224,0.225]的参数对输入的RGB图像进行正则化处理。
在本实施例中,以间隔4帧的方式抽取五分之一的完整训练集及二维人体姿态数据集COCO及MPII作为二维人体姿态估计网络Resnet-152的训练集,使得训练样本有着与完整训练数据相似的样本分布,且可以学习到较好的人体先验,使得模型本身可以泛化到其他应用场景下,又将二维人体姿态估计的网络训练时间大大缩短。将训练集图像统一调整为384x384的图像I,以随机抽样的方式,将每个批次设为16张图片输送到网络中,损失函数设为Lmse,使用Adam优化器,在epoch为1~20时将学习率设为0.001,在epoch为20~25时将学习率设为0.0001,在epoch为25~30时将学习率设为0.00001进行二维人体姿态估计网络Resnet-152的训练,并使用线性代数三角化的后处理方法对网络性能进行在MPJPE(MeanPer Joint Position Error)指标上的基准评估,并保存二维人体姿态估计网络Resnet-152的网络权重信息。
上述步骤7中,最终的三维人体姿态估计点的求解方法包括:
步骤7.1、计算跨空间轴的softmax:
Figure BDA0002857089700000099
式中,H’t(p)表示归一化后的热力图;rx、ry、r、W分别表示x轴的像素索引、y轴的像素索引、单个像素、图像的宽。
步骤7.2、计算二维热力图的质心,将其作为关节点的位置,即soft-argmax操作:
Figure BDA0002857089700000101
由于得到的Ht(p)是被归一化之后的热力图,所以设置参数α=100,以使得在训练开始时soft-argmax的输出可以给出一个接近最大值位置的输出。xt(p)表示单视角图像上人体姿态的二维坐标;
步骤7.3、为了从关节的二维位置推断出关节的三维位置,采用线性代数三角化方法,将寻找三维点
Figure BDA0002857089700000106
简化为求解一个超定系统在齐次三维坐标向量
Figure BDA0002857089700000107
上的方程:
Figure BDA0002857089700000102
其中
Figure BDA0002857089700000103
是由投影矩阵及二维关节点xt(p)构成的矩阵。
步骤7.4、求解方程
Figure BDA0002857089700000104
求解得到的三维人体姿态坐标点y由非齐次坐标点转换为欧拉坐标点y获得。
而方程
Figure BDA0002857089700000105
的求解采用了DLT-SII算法(Remelli E,Han S,Honari S,etal.Lightweight Multi-View 3D Pose Estimation through Camera-DisentangledRepresentation[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition.2020:6040-6049.),即基于移位逆迭代的直接线性变换方法,其比使用SVD分解对GPU更加友好。
最终求解的三维人体姿态坐标点y由上述非齐次坐标点转换为欧拉坐标点y获得。
在本发明的第二实施方式中,提供一种端到端多视角三维人体姿态估计系统,其包括:加载模块、第一热力图生成模块、第一处理模块、第二热力图生成模块、融合模块、第二处理模块和求解模块;
加载模块用于加载预训练后的二维人体姿态估计网络,同时将当前每个视角的图片作为该网络的输入;
第一热力图生成模块通过二维人体姿态估计网络生成热力图bt(p),将其作为LSTM热力图时序信息提取网络的输入;
第一处理模块根据时间序列步长T的取值将热力图bt(p)输入至LSTM初始化热力图时序信息提取网络及LSTM热力图时序信息提取网络,得到细胞态及隐藏态;
第二热力图生成模块将得到的隐藏态馈送到解码器网络g(·)中,得到解码后的热力图dt(p);
融合模块将热力图bt(p)与解码后的热力图dt(p)进行融合,得到融合了时间与空间信息的热力图Ht(p);
第二处理模块将热力图Ht(p)送入soft-argmax线性代数三角化网络中得到2D点位置;
求解模块用于求解齐次三维坐标向量
Figure BDA0002857089700000111
上的超定方程
Figure BDA0002857089700000112
采用可微分的DLT-SII算法,得到最终的三维人体姿态估计点。
在本发明的第三实施方式中,提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如第一实施方式中的任一方法。
在本发明的第四实施方式中,提供一种计算设备,其包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为一个或多个处理器执行,一个或多个程序包括用于执行第一实施方式中的任一方法的指令。
实施例:
在本实施例中,采用了现在最大的多视角三维人体姿态估计数据集Human3.6M数据集(Human3.6M:Large Scale Datasets and Predictive Methods for 3D HumanSensing in Natural Environments),其由四台在时间上同步的50Hz相机拍摄,使用了基于标记点的MoCap系统采集三维人体姿态数据,数据集共包含了360万张图片,由包含了5组女性数据及6组男性数据的11组数据构成,使用包含了150万张图片的第1,5,6,7,8组数据作为训练集,第9,11组数据作为测试集。以间隔4帧的方式抽取五分之一的完整训练集及二维人体姿态数据集COCO及MPII作为二维人体姿态估计网络Resnet-152的训练集,使得训练样本有着与完整训练数据相似的样本分布,且可以学习到较好的人体先验,使得模型本身可以泛化到其他应用场景下,又将二维人体姿态估计的网络训练时间大大缩短。将训练集图像统一调整为384×384的图像I,以随机抽样的方式,将每个批次设为16张图片输送到网络中,损失函数设为Lmse,使用Adam优化器,在epoch为1~20时将学习率设为0.001,在epoch为20~25时将学习率设为0.0001,在epoch为25~30时将学习率设为0.00001进行二维人体姿态估计网络Resnet-152的训练,并使用线性代数三角化的后处理方法对网络性能进行在MPJPE(Mean Per Joint Position Error)指标上的基准评估,并保存二维人体姿态估计网络Resnet-152的网络权重信息。加载二维人体姿态估计网络Resnet-152的预训练权重信息,将训练集图像统一调整为384×384的图像I,以在时间上顺序输入的方式输入同一时间下不同视角的图片信息,此处使用完整的150万张图片的第1,5,6,7,8组数据作为训练集,将时间序列T设置值为5,一个批次为同一时刻不同视角下的图片,由于Human3.6M为4个视角,设置2个批次,即8张图片输送到网络中,损失函数设为
Figure BDA0002857089700000121
α取0.0001,使用Adam优化器,学习率设为0.0001,训练5个epoch。
本发明通过上述步骤,即可实现对于基于多视角图像的三维人体姿态估计。为验证本发明所提方法的有效性和实用性,下面给出在Human3.6M数据集上的一个实例,表格1为在Human3.6M测试集上与方法M(Multi-View Martinez)、方法T(Tome D,Toso M,AgapitoL,et al.Rethinking pose in 3d:Multi-stage refinement and recovery formarkerless motion capture[C]//2018international conference on 3D vision(3DV).IEEE,2018:474-483.)、方法P(Pavlakos G,Zhou X,Derpanis K G,et al.Harvestingmultiple views for marker-less 3d human pose annotations[C]//Proceedings ofthe IEEE conference on computer vision and pattern recognition.2017:6988-6997.)以及方法K(Kadkhodamohammadi A,Padoy N.A generalizable approach formulti-view 3d human pose regression[J].Machine Vision and Applications,2020,32(1):1-14.)等方法的检测结果比较,各类衡量标准为MPJPE(Mean Per Joint PositionError)。
表1本发明方法和其他方法在Human3.6M数据集上的MPJPE对比结果(单位:mm)
Figure BDA0002857089700000122
Figure BDA0002857089700000131
由表1可以看出,与其他基于多视角的三维人体姿态估计方法相比,本发明提出的改进算法对于多三维人体姿态估计有更好的性能。使用本实施例对于绝大多数测试类别均有较大提升,证明了发明的有效性。此外,图3的可视化检测结果也可说明本发明的性能优越性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (8)

1.一种端到端多视角三维人体姿态估计方法,其特征在于,包括:
步骤1、加载预训练后的二维人体姿态估计网络,同时将当前每个视角的图片作为该网络的输入;
步骤2、通过二维人体姿态估计网络生成热力图bt(p),将其作为LSTM热力图时序信息提取网络的输入;
步骤3、根据时间序列步长T的取值将热力图bt(p)输入至LSTM初始化热力图时序信息提取网络及LSTM热力图时序信息提取网络,得到细胞态及隐藏态;
步骤4、将得到的隐藏态馈送到解码器网络g(·)中,得到解码后的热力图dt(p);
步骤5、将热力图bt(p)与解码后的热力图dt(p)进行融合,得到融合了时间与空间信息的热力图Ht(p);
步骤6、将热力图Ht(p)送入soft-argmax线性代数三角化网络中得到2D点位置;
步骤7、求解齐次三维坐标向量
Figure FDA0003631886420000011
上的超定方程
Figure FDA0003631886420000012
采用可微分的DLT-SII算法,得到最终的三维人体姿态估计点;
所述步骤3中,时间序列步长T=1时,由上一个阶段得到的热力图将被送入LSTM初始化网络中得到相应的初始细胞态及初始隐藏态;在时间序列步长T>1时,将上一个阶段的细胞态、隐藏态及当前阶段的热力图输入LSTM网络中,得到了当前阶段的细胞态、隐藏态,将当前阶段的隐藏态及细胞态以变量的形式进行保存作为下一个阶段的输入。
2.如权利要求1所述估计方法,其特征在于,所述步骤1中,二维人体姿态估计网络为Resnet-152网络。
3.如权利要求1所述估计方法,其特征在于,所述步骤2中,设
Figure FDA0003631886420000013
是输入网络的多视角图片,V代表视角的个数,视频有t帧,即t∈{1,2,....,T},其中T为设置的时间序列步长,F(·)是二维热力图提取网络Resnet,
Figure FDA0003631886420000014
为t时刻所有视角下P个关节点的热力图bt(p):
bt(p)=F(Xt);
式中,W和H分别代表每一帧图像的宽和高。
4.如权利要求1所述估计方法,其特征在于,所述步骤4中,解码器网络g(·)由五个卷积层构成,分别以三个卷积核大小3,输出通道数为128的卷积、一个卷积核大小为1,通道数为128的卷积及一个卷积核大小为1,通道数以人体关键点数量为通道数量的卷积构成:
dt(p)=g(ht),
得到解码后的热力图
Figure FDA0003631886420000021
W和H分别代表每一帧图像的宽和高,V代表视角的个数,P代表关节点个数。
5.如权利要求1所述估计方法,其特征在于,所述步骤5中,将热力图bt(p)与解码后的热力图dt(p)进行加权平均,得到热力图Ht(p):
Figure FDA0003631886420000022
6.如权利要求1所述估计方法,其特征在于,所述步骤7中,最终的三维人体姿态估计点的求解方法包括:
步骤7.1、计算跨空间轴的softmax:
Figure FDA0003631886420000023
式中,Ht'(p)表示归一化后的热力图;rx、ry、r、W分别表示x轴的像素索引、y轴的像素索引、单个像素、图像的宽;
步骤7.2、计算二维热力图的质心,将其作为关节点的位置,
Figure FDA0003631886420000024
步骤7.3、采用线性代数三角化方法,将寻找三维点
Figure FDA0003631886420000025
简化为求解一个超定系统在齐次三维坐标向量
Figure FDA0003631886420000026
上的方程:
Figure FDA0003631886420000027
其中
Figure FDA0003631886420000028
是由投影矩阵及二维关节点xt(p)构成的矩阵;V代表视角的个数;
步骤7.4、求解方程
Figure FDA0003631886420000029
求解得到的三维人体姿态坐标点由非齐次坐标点转换为欧拉坐标点获得。
7.一种端到端多视角三维人体姿态估计系统,其特征在于,包括:加载模块、第一热力图生成模块、第一处理模块、第二热力图生成模块、融合模块、第二处理模块和求解模块;
所述加载模块用于加载预训练后的二维人体姿态估计网络,同时将当前每个视角的图片作为该网络的输入;
所述第一热力图生成模块通过二维人体姿态估计网络生成热力图bt(p),将其作为LSTM热力图时序信息提取网络的输入;
所述第一处理模块根据时间序列步长T的取值将热力图bt(p)输入至LSTM初始化热力图时序信息提取网络及LSTM热力图时序信息提取网络,得到细胞态及隐藏态;
所述第二热力图生成模块将得到的隐藏态馈送到解码器网络g(·)中,得到解码后的热力图dt(p);
所述融合模块将热力图bt(p)与解码后的热力图dt(p)进行融合,得到融合了时间与空间信息的热力图Ht(p);
所述第二处理模块将热力图Ht(p)送入soft-argmax线性代数三角化网络中得到2D点位置;
所述求解模块用于求解齐次三维坐标向量
Figure FDA0003631886420000031
上的超定方程
Figure FDA0003631886420000032
采用可微分的DLT-SII算法,得到最终的三维人体姿态估计点;
所述第一处理模块中,时间序列步长T=1时,由上一个阶段得到的热力图将被送入LSTM初始化网络中得到相应的初始细胞态及初始隐藏态;在时间序列步长T>1时,将上一个阶段的细胞态、隐藏态及当前阶段的热力图输入LSTM网络中,得到了当前阶段的细胞态、隐藏态,将当前阶段的隐藏态及细胞态以变量的形式进行保存作为下一个阶段的输入。
8.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1至6所述方法中的任一方法。
CN202011548666.2A 2020-12-24 2020-12-24 端到端多视角三维人体姿态估计方法、系统及存储介质 Active CN112560757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011548666.2A CN112560757B (zh) 2020-12-24 2020-12-24 端到端多视角三维人体姿态估计方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011548666.2A CN112560757B (zh) 2020-12-24 2020-12-24 端到端多视角三维人体姿态估计方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN112560757A CN112560757A (zh) 2021-03-26
CN112560757B true CN112560757B (zh) 2022-08-09

Family

ID=75033193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011548666.2A Active CN112560757B (zh) 2020-12-24 2020-12-24 端到端多视角三维人体姿态估计方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112560757B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906675B (zh) * 2021-04-27 2024-03-22 南京大学 一种固定场景中的无监督人体关键点检测方法及系统
CN113210911B (zh) * 2021-06-03 2022-04-01 重庆大学 基于图卷积网络的白车身点焊变形预测模型构建方法
CN113627255B (zh) * 2021-07-07 2024-05-24 中国科学院自动化研究所 一种小鼠行为量化分析方法、装置、设备及可读存储介质
CN113643366B (zh) * 2021-07-12 2024-03-05 中国科学院自动化研究所 一种多视角三维对象姿态估计方法及装置
CN113947614A (zh) * 2021-10-25 2022-01-18 北京影谱科技股份有限公司 一种人体3d姿态估计方法、装置及系统
CN115661929B (zh) * 2022-10-28 2023-11-17 北京此刻启动科技有限公司 一种时序特征编码方法、装置、电子设备及存储介质
CN116824631B (zh) * 2023-06-14 2024-02-27 西南交通大学 一种姿态估计方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304208B1 (en) * 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
CN110969124A (zh) * 2019-12-02 2020-04-07 重庆邮电大学 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN111738220A (zh) * 2020-07-27 2020-10-02 腾讯科技(深圳)有限公司 三维人体姿态估计方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304208B1 (en) * 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
CN110969124A (zh) * 2019-12-02 2020-04-07 重庆邮电大学 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN111738220A (zh) * 2020-07-27 2020-10-02 腾讯科技(深圳)有限公司 三维人体姿态估计方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Occlusion-Aware Networks for 3D Human Pose Estimation in Video;Yu Cheng et al.;《IEEE Xplore》;20200227;全文 *
基于双向LSTM的复杂环境下实时人体姿势识别;周意乔等;《仪器仪表学报》;20200315(第03期);全文 *

Also Published As

Publication number Publication date
CN112560757A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112560757B (zh) 端到端多视角三维人体姿态估计方法、系统及存储介质
Akhter et al. Trajectory space: A dual representation for nonrigid structure from motion
Zhou et al. Sparseness meets deepness: 3d human pose estimation from monocular video
CN109166144B (zh) 一种基于生成对抗网络的图像深度估计方法
US9361723B2 (en) Method for real-time face animation based on single video camera
Dockstader et al. Multiple camera tracking of interacting and occluded human motion
CN112509115B (zh) 序列图像动态场景三维时变无约束重建方法及系统
CN113706699B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
Ranjan et al. Learning human optical flow
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
Martínez-González et al. Real-time convolutional networks for depth-based human pose estimation
Tu et al. Consistent 3d hand reconstruction in video via self-supervised learning
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
Hoang et al. 3-D human pose estimation using cascade of multiple neural networks
CN112597847A (zh) 人脸姿态估计方法、装置、电子设备和存储介质
Peng et al. Implicit neural representations with structured latent codes for human body modeling
Zhang et al. Deep learning-based real-time 3D human pose estimation
Fu et al. Deformer: Dynamic fusion transformer for robust hand pose estimation
Yin et al. Depth maps restoration for human using RealSense
Cha et al. Self-supervised monocular depth estimation with isometric-self-sample-based learning
Zimmer et al. Imposing temporal consistency on deep monocular body shape and pose estimation
Niu et al. Multi-view 3D Smooth Human Pose Estimation based on Heatmap Filtering and Spatio-temporal Information
Zhang et al. Bayesian body localization using mixture of nonlinear shape models
CN115965765A (zh) 一种基于神经变形的可变形场景中人体运动捕捉方法
CN115082537A (zh) 单目自监督水下图像深度估计方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant