CN112560757B

CN112560757B - 端到端多视角三维人体姿态估计方法、系统及存储介质

Info

Publication number: CN112560757B
Application number: CN202011548666.2A
Authority: CN
Inventors: 薛健; 牛泽海; 吕科
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-08-09
Anticipated expiration: 2040-12-24
Also published as: CN112560757A

Abstract

本发明涉及一种端到端多视角三维人体姿态估计方法、系统及存储介质，其包括：加载预训练后的二维人体姿态估计网络，将当前每个视角的图片作为该网络的输入；通过二维人体姿态估计网络生成热力图，将其作为LSTM热力图时序信息提取网络的输入；根据时间序列步长T的取值将热力图输入至LSTM初始化热力图时序信息提取网络及LSTM热力图时序信息提取网络，得到细胞态及隐藏态；将得到的隐藏态馈送到解码器网络中，得到解码后的热力图；将热力图与解码后的热力图进行融合，得到融合了时间与空间信息的热力图H_t(p)；将热力图H_t(p)送入soft‑argmax线性代数三角化网络中得到2D点位置；求解齐次三维坐标向量

上的超定方程

采用可微分的DLT‑SII算法，得到最终的三维人体姿态估计点。

Description

端到端多视角三维人体姿态估计方法、系统及存储介质

技术领域

本发明涉及一种计算机视觉领域，特别是关于一种基于深度学习网络，结合时间特征及空间特征的端到端多视角三维人体姿态估计方法、系统及存储介质。

背景技术

人体姿态估计是计算机视觉的重要任务之一，其在人机交互、动画制作、行为识别领域有着广泛的应用。其中，现有的人体姿态估计的研究方向主要有二维人体姿态估计及三维人体姿态估计，尽管二维人体姿态估计有自遮挡、运动模糊、服饰带来的语义模糊、光照条件不一、人体姿态的部分缺失等挑战，但现有研究在二维人体姿态估计领域已经取得了较好的研究进展，可以在大部分情况较为准确的估计出人的二维人体姿态，比如自下而上的人体姿态估计方法与自上而下的人体姿态估计方法，以HRNet(Sun K,Xiao B,Liu D,et al.Deep high-resolution representation learning for human pose estimation[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2019:5693-5703.)为代表的自上而下的二维人体姿态估计算法和以HigherHRNet(Cheng B,Xiao B,Wang J,et al.HigherHRNet:Scale-AwareRepresentation Learning for Bottom-Up Human Pose Estimation[C]//2020 IEEE/CVFConference on Computer Vision and Pattern Recognition(CVPR).IEEE,2020.)为代表的自下而上的二维人体姿态估计方法取得了令人瞩目的效果。

而在三维人体姿态估计领域，得益于二维人体姿态估计领域的研究成果。一些方法尝试使用单目人体姿态估计方法去获得较好的三维人体骨架结构，以Simple3D(Martinez J,Hossain R,Romero J,et al.A simple yet effective baseline for 3dhuman pose estimation[C]//2017 IEEE International Conference on ComputerVision(ICCV),IEEE,2017.)为代表。但是基于单视角的三维人体姿态估计方法存在先天的语义模糊问题，这将不能保证基于单视角的三维人体姿态估计方法在求解的三维人体姿态上有很好的准确性。而现有的多视角三维人体姿态估计研究的处理方法通常依赖RPSM与三角化等后处理方法，以基于RPSM的后处理方法(Qiu H,Wang C,Wang J,et al.Cross ViewFusion for 3D Human Pose Estimation[C]//2019 IEEE International Conference onComputer Vision(ICCV),IEEE,2019.)与Epipolar Transformer的基于三角化的后处理方法(He Y,Yan R,Fragkiadaki K,et al.Epipolar Transformer for Multi-view HumanPose Estimation[C]//2020 IEEE/CVF Conference on Computer Vision and PatternRecognition Workshops(CVPRW).IEEE,2020.)为代表。这种处理方式将任务分解为了两个问题，即二维人体姿态估计问题与基于二维骨骼关键点在多视角三维人体姿态估计上的后处理算法。即先根据二维人体姿态估计生成的热力图求解的最大值作为二维人体关键点的位置，再通过后处理算法得到三维人体姿态点。

在当前的多视角三维人体姿态估计问题中，由于需要标定后的相机内外参，即相机位置是保持不变的，即基于多视角的三维人体姿态估计问题本身是一个在稳定视频上进行多视角三维人体姿态估计的问题，而现有的解决思路仅使用了单帧的人体姿态估计技术或尝试使用跨视角的信息融合去改善估计效果，未加入任务本身自有的时序特征。由于时序信息为在多个视角上连续大量的视频帧，这将导致算法的单次求解复杂度有成倍的提升，相应的求解速度也会成倍的变慢。而多视角三维人体姿态估计的应用领域多为实时无标记动捕，对算法的运行速度有较高的要求。根据任务本身的时序信息提升算法性能，且保证一定的算法运行速度，便为利用时序信息的多视角三维人体姿态估计任务的难点所在。

综合上述分析，研究能有效处理多视角输入、检测精度较高、检测速度较快的高性能多视角三维人体姿态估计方法，显得尤为重要。因此，亟需一种轻量级的基于时序信息的模型，在不损失大量运行速度的前提下，进一步提高多视角三维人体姿态估计的准确度。

发明内容

针对上述问题，本发明的目的是提供一种端到端多视角三维人体姿态估计方法、系统及存储介质，其能处理多视图输入的二维图像并输出相应的三维人体姿态，同时可以避免引入时序信息而带来的性能低下问题。

为实现上述目的，本发明采取以下技术方案：一种端到端多视角三维人体姿态估计方法，其包括：

步骤1、加载预训练后的二维人体姿态估计网络，同时将当前每个视角的图片作为该网络的输入；

步骤2、通过二维人体姿态估计网络生成热力图b_t(p)，将其作为LSTM热力图时序信息提取网络的输入；

步骤3、根据时间序列步长T的取值将热力图b_t(p)输入至LSTM初始化热力图时序信息提取网络及LSTM热力图时序信息提取网络，得到细胞态及隐藏态；

步骤4、将得到的隐藏态馈送到解码器网络g(·)中，得到解码后的热力图d_t(p)；

步骤5、将热力图b_t(p)与解码后的热力图d_t(p)进行融合，得到融合了时间与空间信息的热力图H_t(p)；

步骤6、将热力图H_t(p)送入soft-argmax线性代数三角化网络中得到2D点位置；

步骤7、求解齐次三维坐标向量

上的超定方程

采用可微分的DLT-SII算法，得到最终的三维人体姿态估计点。

进一步，所述步骤1中，二维人体姿态估计网络为Resnet-152网络。

进一步，所述步骤1中，二维人体姿态估计网络的损失函数L为：

其中

是二维人体姿态热力图提取网络Resnet的损失函数，

是LSTM热力图时序信息提取网络与的损失函数，

的定义与L_mse一致，α是权重系数。

进一步，所述步骤2中，设

是输入网络的多视角图片，V代表视角的个数，视频有t帧，即t∈{1,2,....,T}，其中T为设置的时间序列步长，/F(·)是二维热力图提取网络Resnet，

为t时刻所有视角下P个关节点的热力图b_t(p)：

b_t(p)＝F(X_t)。

进一步，所述步骤3中，时间序列步长T＝1时，由上一个阶段得到的热力图将被送入LSTM初始化网络中得到相应的初始细胞态及初始隐藏态；在时间序列步长T>1时，将上一个阶段的细胞态、隐藏态及当前阶段的热力图输入LSTM网络中，得到了当前阶段的细胞态、隐藏态，将当前阶段的隐藏态及细胞态以变量的形式进行保存作为下一个阶段的输入。

进一步，所述步骤4中，解码器网络g(·)由五个卷积层构成，分别以三个卷积核大小3，输出通道数为128的卷积、一个卷积核大小为1，通道数为128的卷积及一个卷积核大小为1，通道数以人体关键点数量为通道数量的卷积构成：

d_t(p)＝g(h_t),

得到解码后的热力图

进一步，所述步骤5中，将热力图b_t(p)与解码后的热力图d_t(p)进行加权平均，得到热力图H_t(p)：

进一步，所述步骤7中，最终的三维人体姿态估计点的求解方法包括：

步骤7.1、计算跨空间轴的softmax：

式中，H’_t(p)表示归一化后的热力图；r_x、r_y、r、W分别表示分别表示x轴的像素索引、y轴的像素索引、单个像素、图像的长宽；

步骤7.2、计算二维热力图的质心，将其作为关节点的位置，

步骤7.3、采用线性代数三角化方法，将寻找三维点

简化为求解一个超定系统在齐次三维坐标向量

上的方程：

其中

是由投影矩阵及二维关节点x_t(p)构成的矩阵；

步骤7.4、求解方程

求解得到的三维人体姿态坐标点y由非齐次坐标点转换为欧拉坐标点y获得。

一种端到端多视角三维人体姿态估计系统，其包括：加载模块、第一热力图生成模块、第一处理模块、第二热力图生成模块、融合模块、第二处理模块和求解模块；

所述加载模块用于加载预训练后的二维人体姿态估计网络，同时将当前每个视角的图片作为该网络的输入；

所述第一热力图生成模块通过二维人体姿态估计网络生成热力图b_t(p)，将其作为LSTM热力图时序信息提取网络的输入；

所述第一处理模块根据时间序列步长T的取值将热力图b_t(p)输入至LSTM初始化热力图时序信息提取网络及LSTM热力图时序信息提取网络，得到细胞态及隐藏态；

所述第二热力图生成模块将得到的隐藏态馈送到解码器网络g(·)中，得到解码后的热力图d_t(p)；

所述融合模块将热力图b_t(p)与解码后的热力图d_t(p)进行融合，得到融合了时间与空间信息的热力图H_t(p)；

所述第二处理模块将热力图H_t(p)送入soft-argmax线性代数三角化网络中得到2D点位置；

所述求解模块用于求解齐次三维坐标向量

上的超定方程

采用可微分的DLT-SII算法，得到最终的三维人体姿态估计点。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

本发明由于采取以上技术方案，其具有以下优点：1、本发明提升了对于多视角三维人体姿态估计的检测性能。本发明加入支持卷积的LSTM热力图时序信息提取网络，设计了一种用于三维人体姿态估计的融合空间信息及时域信息的多视角的端到端的三角化网络，通过将Resnet网络与LSTM网络的热力图融合使得所生成的二维热力图在时间信息与空间信息上进行了有效互补，从整体上提升了检测精度及生成骨架在视频中的连续性及抗抖动性。2、本发明通过引入一个可学习的关节点置信度模块去学习每个视角对最终的三角化过程的实际贡献值，从而在一定程度上避免了不准确的热力图对最终生成的三维骨架的不良影响，并通过DLT-SII算法快速求解出了最终的三维人体姿态关键点。3、本发明基于Resnet及可卷积的LSTM网络，在保持速度不降低太多的前提下，大大提升了检测精度。

综上，在实际的工业应用中，本发明能有效地利用时序信息，克服人体自遮挡，生成骨架抖动等问题，可广泛应用于可见动画生成、行为估计、三维人体重建等多种应用下。

附图说明

图1本发明实施例中的方法整体流程图；

图2是本发明实施例中的整体网络结构图；

图3是本发明实施例中检测结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出的LSTM热力图时序信息提取网络目的是在得到二维人体姿态热力图后，根据前一帧编码的热力图信息对当前帧的热力图信息进行时间信息上的增强。并将最终得到的热力图及Resnet网络与LSTM网络的高维信息进行融合，得到二维人体姿态点及每个视角对三角化过程贡献的权重，最终将其一并送入可微分的线性代数三角化网络中，得到最终的三维人体姿态点。本发明基于Resnet的二维人体姿态估计方法设置了一种融合了时间特征及空间特征的端到端的多视角三维人体姿态估计网络，能够很好的处理人体自遮挡、二维人体姿态热力图估计不准确、所生成的三维人体骨架抖动及关节点漂移等问题。下面结合附图和其中一种实施例对本发明进行详细描述。

在本发明的第一实施方式中，如图1所示，提供一种融合时空特征的端到端多视角三维人体姿态估计方法，其包括：

在本实施例中，二维人体姿态估计网络优选为Resnet-152网络；

在本实施例中，Resnet-152网络生成96×96的热力图b_t(p)；

设

是输入网络的多视角图片，V代表视角的个数,W和H分别代表每一帧图像的宽和高，P代表关节点个数，视频有t帧，即t∈{1,2,....,T}，其中T为设置的时间序列步长，F(·)是二维热力图提取网络Resnet，

为t时刻所有视角下P个关节点的热力图b_t(p)：

b_t(p)＝F(X_t)；

具体为：时间序列步长T＝1时，由于LSTM网络缺乏上一个阶段的细胞态与隐藏态输入，由上一个阶段得到的96×96的热力图将被送入LSTM初始化网络中得到相应的初始细胞态及初始隐藏态。在时间序列步长T>1时，将上一个阶段的细胞态、隐藏态及当前阶段的96×96热力图输入LSTM网络中，得到了当前阶段的细胞态、隐藏态，将当前阶段的隐藏态及细胞态以变量的形式进行保存作为下一个阶段的输入。

LSTM初始化热力图时序信息提取网络的定义为：

i₁＝σ(W_xi*b₁(p)+ε_i),

o₁＝σ(W_xo*b₁(p)+ε_o),

h₁＝o₁⊙C₁，

其中，b₁(p)是F(·)生成的初始热力图，与经典LSTM网络不同的是，*在这里不代表矩阵相乘，而代表卷积操作，⊙代表矩阵相乘操作。所有在公式中的+号代表逐元素相加。其中ε_gε_iε_o分别代表生成器、输入门、输出门的偏置值。g₀(·),i₀(·),o₀(·)分别是初始化LSTM网络的生成器、输入门、输出门，

分别代表tanh函数及sigmoid函数，得到的h₁与C₁将作为下一个阶段的输入被馈送到下一个阶段的LSTM网络中。g₁表示生成器、i₁表示输入门、o₁表示输出门、C₁表示细胞态、h₁表示隐藏态、Wxg表示生成器的权重、Wxi表示输入门的权重、Wxo表示输出门的权重。

阶段t的LSTM热力图时序信息提取网络定义如下：

i_t＝σ(W_xi*b_t(p)+W_hi*h_t-1+ε_i),

f_t＝σ(W_xf*b_t(p)+W_hf*h_t-1+ε_f),

o_t＝σ(W_xo*b_t(p)+W_ho*h_t-1+ε_o),

C_t＝f_t⊙C_t-1+i_t⊙g_t，

b_t(p)是F(·)生成的热力图，与初始化LSTM网络的定义相似，h_t-1是上一个阶段的隐藏态，C_t-1是上一个阶段的细胞态，*代表卷积操作，⊙代表矩阵相乘操作。+代表逐元素相加，ε代表偏置值。g_t(·),i_t(·),f_t(·),o_t(·)分别是t时刻LSTM的生成器、输入门、遗忘门、输出门，

分别代表tanh函数及sigmoid函数。g_t表示生成器、i_t表示输入门、o_t表示输出门、C_t表示细胞态、h_t表示隐藏态、Wxg表示生成器的权重、Wxi表示输入门的权重、Wxo表示输出门的权重、Whg表示上一阶段的隐藏态在生成器中的权重、Whi表示上一阶段的隐藏态在输入门中的权重、Whf表示上一阶段的隐藏态在遗忘门中的权重、Who表示上一阶段的隐藏态在输出门中的权重。

解码器网络g(·)由五个卷积层构成，分别以三个卷积核大小3，输出通道数为128的卷积、一个卷积核大小为1，通道数为128的卷积及一个卷积核大小为1，通道数以人体关键点数量为通道数量的卷积构成。

d_t(p)＝g(h_t),

得到

即解码后的热力图d_t(p)。

将热力图b_t(p)与解码后的热力图d_t(p)进行加权平均，得到热力图H_t(p)：

步骤6、将融合了时间与空间信息的热力图H_t(p)送入soft-argmax线性代数三角化网络中得到2D点位置；

步骤7、求解齐次三维坐标向量

上的超定方程

采用可微分的DLT-SII算法，得到最终的三维人体姿态估计点。

上述步骤1中，预处理多视角图片，根据二维人体姿态真值点生成相应的热力图，将不同时间码下的多视角图片以随机顺序作为二维人体姿态估计网络的输入，从而训练一个二维人体姿态估计网络。

在本实施例中，采用了现在最大的多视角三维人体姿态估计数据集Human3.6M数据集(Human3.6M:Large Scale Datasets and Predictive Methods for 3D HumanSensing in Natural Environments)，其由四台在时间上同步的50Hz相机拍摄，使用了基于标记点的MoCap系统采集三维人体姿态数据，数据集共包含了360万张图片，由包含了5组女性数据及6组男性数据的11组数据构成，使用包含了150万张图片的第1，5，6，7，8组数据作为训练集，第9，11组数据作为测试集。

上述步骤1中，由于本申请的网络是可以由输入RGB图像I_c到输出预测值y进行端到端训练的，采用优化过的逐关节均方误差损失函数

可以提高网络在训练过程中对离群点的鲁棒性，该损失函数

为：

其中，ε是损失函数的阈值，在实验中被设置为(20cm)²。损失函数L^alg是所有关节点在

上的加权平均。

根据优化过的逐关节均方误差损失函数确定最终的损失函数L为：

其中

是二维人体姿态热力图提取网络Resnet的损失函数，

是LSTM热力图时序信息提取网络与的损失函数，

的定义与L_mse一致，α是权重系数。

与L^alg的监督位置如图2所示。

上述步骤2中，根据高斯分布生成输入图像的关节点热力图

其中

是图片中人体关键点的二维真实值，所生成

的像素点

定义为：

其中，σ为控制热力图峰值的扩散程度，j代表关节点类别。通过

用来监督ResNet网络及LSTM热力图时序信息提取网络更好地生成b_t(p)及d_t(p)。

在输入图片时使用均值为[0.485,0.456,0.406]方差为[0.229,0.224,0.225]的参数对输入的RGB图像进行正则化处理。

在本实施例中，以间隔4帧的方式抽取五分之一的完整训练集及二维人体姿态数据集COCO及MPII作为二维人体姿态估计网络Resnet-152的训练集，使得训练样本有着与完整训练数据相似的样本分布，且可以学习到较好的人体先验，使得模型本身可以泛化到其他应用场景下，又将二维人体姿态估计的网络训练时间大大缩短。将训练集图像统一调整为384x384的图像I，以随机抽样的方式，将每个批次设为16张图片输送到网络中，损失函数设为L_mse，使用Adam优化器，在epoch为1～20时将学习率设为0.001，在epoch为20～25时将学习率设为0.0001，在epoch为25～30时将学习率设为0.00001进行二维人体姿态估计网络Resnet-152的训练，并使用线性代数三角化的后处理方法对网络性能进行在MPJPE(MeanPer Joint Position Error)指标上的基准评估，并保存二维人体姿态估计网络Resnet-152的网络权重信息。

上述步骤7中，最终的三维人体姿态估计点的求解方法包括：

步骤7.1、计算跨空间轴的softmax：

式中，H’_t(p)表示归一化后的热力图；r_x、r_y、r、W分别表示x轴的像素索引、y轴的像素索引、单个像素、图像的宽。

步骤7.2、计算二维热力图的质心，将其作为关节点的位置，即soft-argmax操作：

由于得到的H_t(p)是被归一化之后的热力图，所以设置参数α＝100，以使得在训练开始时soft-argmax的输出可以给出一个接近最大值位置的输出。x_t(p)表示单视角图像上人体姿态的二维坐标；

步骤7.3、为了从关节的二维位置推断出关节的三维位置，采用线性代数三角化方法，将寻找三维点

简化为求解一个超定系统在齐次三维坐标向量

上的方程：

其中

是由投影矩阵及二维关节点x_t(p)构成的矩阵。

步骤7.4、求解方程

而方程

的求解采用了DLT-SII算法(Remelli E,Han S,Honari S,etal.Lightweight Multi-View 3D Pose Estimation through Camera-DisentangledRepresentation[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition.2020:6040-6049.)，即基于移位逆迭代的直接线性变换方法，其比使用SVD分解对GPU更加友好。

最终求解的三维人体姿态坐标点y由上述非齐次坐标点转换为欧拉坐标点y获得。

在本发明的第二实施方式中，提供一种端到端多视角三维人体姿态估计系统，其包括：加载模块、第一热力图生成模块、第一处理模块、第二热力图生成模块、融合模块、第二处理模块和求解模块；

加载模块用于加载预训练后的二维人体姿态估计网络，同时将当前每个视角的图片作为该网络的输入；

第一热力图生成模块通过二维人体姿态估计网络生成热力图b_t(p)，将其作为LSTM热力图时序信息提取网络的输入；

第一处理模块根据时间序列步长T的取值将热力图b_t(p)输入至LSTM初始化热力图时序信息提取网络及LSTM热力图时序信息提取网络，得到细胞态及隐藏态；

第二热力图生成模块将得到的隐藏态馈送到解码器网络g(·)中，得到解码后的热力图d_t(p)；

融合模块将热力图b_t(p)与解码后的热力图d_t(p)进行融合，得到融合了时间与空间信息的热力图H_t(p)；

第二处理模块将热力图H_t(p)送入soft-argmax线性代数三角化网络中得到2D点位置；

求解模块用于求解齐次三维坐标向量

上的超定方程

采用可微分的DLT-SII算法，得到最终的三维人体姿态估计点。

在本发明的第三实施方式中，提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如第一实施方式中的任一方法。

在本发明的第四实施方式中，提供一种计算设备，其包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为一个或多个处理器执行，一个或多个程序包括用于执行第一实施方式中的任一方法的指令。

实施例：

在本实施例中，采用了现在最大的多视角三维人体姿态估计数据集Human3.6M数据集(Human3.6M:Large Scale Datasets and Predictive Methods for 3D HumanSensing in Natural Environments)，其由四台在时间上同步的50Hz相机拍摄，使用了基于标记点的MoCap系统采集三维人体姿态数据，数据集共包含了360万张图片，由包含了5组女性数据及6组男性数据的11组数据构成，使用包含了150万张图片的第1，5，6，7，8组数据作为训练集，第9，11组数据作为测试集。以间隔4帧的方式抽取五分之一的完整训练集及二维人体姿态数据集COCO及MPII作为二维人体姿态估计网络Resnet-152的训练集，使得训练样本有着与完整训练数据相似的样本分布，且可以学习到较好的人体先验，使得模型本身可以泛化到其他应用场景下，又将二维人体姿态估计的网络训练时间大大缩短。将训练集图像统一调整为384×384的图像I，以随机抽样的方式，将每个批次设为16张图片输送到网络中，损失函数设为L_mse，使用Adam优化器，在epoch为1～20时将学习率设为0.001，在epoch为20～25时将学习率设为0.0001，在epoch为25～30时将学习率设为0.00001进行二维人体姿态估计网络Resnet-152的训练，并使用线性代数三角化的后处理方法对网络性能进行在MPJPE(Mean Per Joint Position Error)指标上的基准评估，并保存二维人体姿态估计网络Resnet-152的网络权重信息。加载二维人体姿态估计网络Resnet-152的预训练权重信息，将训练集图像统一调整为384×384的图像I，以在时间上顺序输入的方式输入同一时间下不同视角的图片信息，此处使用完整的150万张图片的第1，5，6，7，8组数据作为训练集，将时间序列T设置值为5，一个批次为同一时刻不同视角下的图片，由于Human3.6M为4个视角，设置2个批次，即8张图片输送到网络中，损失函数设为

α取0.0001，使用Adam优化器，学习率设为0.0001，训练5个epoch。

本发明通过上述步骤，即可实现对于基于多视角图像的三维人体姿态估计。为验证本发明所提方法的有效性和实用性，下面给出在Human3.6M数据集上的一个实例，表格1为在Human3.6M测试集上与方法M(Multi-View Martinez)、方法T(Tome D,Toso M,AgapitoL,et al.Rethinking pose in 3d:Multi-stage refinement and recovery formarkerless motion capture[C]//2018international conference on 3D vision(3DV).IEEE,2018:474-483.)、方法P(Pavlakos G,Zhou X,Derpanis K G,et al.Harvestingmultiple views for marker-less 3d human pose annotations[C]//Proceedings ofthe IEEE conference on computer vision and pattern recognition.2017:6988-6997.)以及方法K(Kadkhodamohammadi A,Padoy N.A generalizable approach formulti-view 3d human pose regression[J].Machine Vision and Applications,2020,32(1):1-14.)等方法的检测结果比较，各类衡量标准为MPJPE(Mean Per Joint PositionError)。

表1本发明方法和其他方法在Human3.6M数据集上的MPJPE对比结果(单位：mm)

由表1可以看出，与其他基于多视角的三维人体姿态估计方法相比，本发明提出的改进算法对于多三维人体姿态估计有更好的性能。使用本实施例对于绝大多数测试类别均有较大提升，证明了发明的有效性。此外，图3的可视化检测结果也可说明本发明的性能优越性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种端到端多视角三维人体姿态估计方法，其特征在于，包括：

步骤7、求解齐次三维坐标向量

上的超定方程

采用可微分的DLT-SII算法，得到最终的三维人体姿态估计点；

所述步骤3中，时间序列步长T＝1时，由上一个阶段得到的热力图将被送入LSTM初始化网络中得到相应的初始细胞态及初始隐藏态；在时间序列步长T>1时，将上一个阶段的细胞态、隐藏态及当前阶段的热力图输入LSTM网络中，得到了当前阶段的细胞态、隐藏态，将当前阶段的隐藏态及细胞态以变量的形式进行保存作为下一个阶段的输入。

2.如权利要求1所述估计方法，其特征在于，所述步骤1中，二维人体姿态估计网络为Resnet-152网络。

3.如权利要求1所述估计方法，其特征在于，所述步骤2中，设

是输入网络的多视角图片，V代表视角的个数，视频有t帧，即t∈{1,2,....,T}，其中T为设置的时间序列步长，F(·)是二维热力图提取网络Resnet，

为t时刻所有视角下P个关节点的热力图b_t(p)：

b_t(p)＝F(X_t)；

式中，W和H分别代表每一帧图像的宽和高。

4.如权利要求1所述估计方法，其特征在于，所述步骤4中，解码器网络g(·)由五个卷积层构成，分别以三个卷积核大小3，输出通道数为128的卷积、一个卷积核大小为1，通道数为128的卷积及一个卷积核大小为1，通道数以人体关键点数量为通道数量的卷积构成：

d_t(p)＝g(h_t),

得到解码后的热力图

W和H分别代表每一帧图像的宽和高，V代表视角的个数，P代表关节点个数。

5.如权利要求1所述估计方法，其特征在于，所述步骤5中，将热力图b_t(p)与解码后的热力图d_t(p)进行加权平均，得到热力图H_t(p)：

6.如权利要求1所述估计方法，其特征在于，所述步骤7中，最终的三维人体姿态估计点的求解方法包括：

步骤7.1、计算跨空间轴的softmax：

式中，H_t'(p)表示归一化后的热力图；r_x、r_y、r、W分别表示x轴的像素索引、y轴的像素索引、单个像素、图像的宽；

步骤7.2、计算二维热力图的质心，将其作为关节点的位置，

步骤7.3、采用线性代数三角化方法，将寻找三维点

简化为求解一个超定系统在齐次三维坐标向量

上的方程：

其中

是由投影矩阵及二维关节点x_t(p)构成的矩阵；V代表视角的个数；

步骤7.4、求解方程

求解得到的三维人体姿态坐标点由非齐次坐标点转换为欧拉坐标点获得。

7.一种端到端多视角三维人体姿态估计系统，其特征在于，包括：加载模块、第一热力图生成模块、第一处理模块、第二热力图生成模块、融合模块、第二处理模块和求解模块；

所述求解模块用于求解齐次三维坐标向量

上的超定方程

采用可微分的DLT-SII算法，得到最终的三维人体姿态估计点；

所述第一处理模块中，时间序列步长T＝1时，由上一个阶段得到的热力图将被送入LSTM初始化网络中得到相应的初始细胞态及初始隐藏态；在时间序列步长T>1时，将上一个阶段的细胞态、隐藏态及当前阶段的热力图输入LSTM网络中，得到了当前阶段的细胞态、隐藏态，将当前阶段的隐藏态及细胞态以变量的形式进行保存作为下一个阶段的输入。

8.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至6所述方法中的任一方法。