CN115151944A

CN115151944A - 从单目相机的全骨骼3d姿态恢复

Info

Publication number: CN115151944A
Application number: CN202180016890.3A
Authority: CN
Inventors: 儿嶋环
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-08-25
Filing date: 2021-08-18
Publication date: 2022-10-04
Anticipated expiration: 2041-08-18
Also published as: WO2022043834A1; JP2023536074A; CA3172140A1; KR20220149717A; US20220067357A1; US11380121B2; EP4176409A1

Abstract

神经网络的最新进展表明了在人体姿态估计任务方面取得的重大进展。姿态估计可以分为单目2D姿态估计、多视图3D姿态估计和单视图3D姿态估算，其中，3D姿态最近越来越受到重视，以被应用于AR/VR、游戏和人机交互应用。然而，关于人体3D姿态估计的当前学术基准仅考虑其相对姿态的性能。随时间的根定位，换言之，整个身体在3D空间中的“轨迹”考虑得不够好。诸如运动捕获之类的应用不仅需要身体的精确相对姿态，还需要整个身体在3D空间中的根位置。因此，本文描述了从2D姿态输入的有效单目全3D姿态恢复模型，该模型能够被应用于上述应用。

Description

从单目相机的全骨骼3D姿态恢复

技术领域

本发明涉及内容估计。更具体地说，本发明涉及3D姿态估计。

背景技术

在人体2D姿态估计取得巨大成功后，为了扩大其诸如在电影、监控和人机交互等方面中的应用，人体3D姿态估计吸引了广泛关注。提出了许多方法，包括多视图方法、时间方法、用于骨骼的单目3D姿态方法和具有3D网格的单目3D姿态方法。

发明内容

神经网络的最新进展表明了在人体姿态估计任务方面取得的重大进展。姿态估计可以分为单目2D姿态估计、多视图3D姿态估计和单视图3D姿态估算，其中，3D姿态最近越来越受到重视，以被应用于AR/VR、游戏和人机交互应用。然而，关于人体3D姿态估计的当前学术基准仅考虑其相对姿态的性能。随时间的根定位，换言之，整个身体在3D空间中的“轨迹”考虑得不够好。诸如运动捕获之类的应用不仅需要身体的精确相对姿态，还需要整个身体在3D空间中的根位置。因此，本文描述了从2D姿态输入的有效单目全3D姿态恢复模型，该模型能够被应用于上述应用。本文描述的是将时间1D卷积和长短期存储器(LSTM)结合用于根位置估计的网络架构、如何用公式表示输出、损失函数的设计以及与现有技术模型的比较，以表示本方法对于应用使用的有效性。如本文所述，执行对15个和17个关键点的3D姿态估计，但可以将其扩展到任意关键点定义。

在一个方面中，一种方法包括接收相机信息，其中，相机信息包括二维姿态和包括焦距的相机参数；对相机信息应用特征提取，包括利用一维卷积的残差确定；基于特征提取来估计骨长度；以骨长度为条件基于特征提取来估计骨单位向量；和从骨长度和骨单位向量估计相对姿态，并且以骨长度和骨单位向量为条件基于特征提取来导出根位置。该方法还包括接收一个或多个帧作为输入。假设每个骨长度不超过1米的长度。将长短期存储器用于估计根位置以使根位置稳定。该方法还包括对全局位置和旋转应用自动增强以模拟动态运动。该方法还包括随机改变相机对各批次样本的视场以利用不同的相机参数来估计任意视频。该方法还包括对二维姿态输入执行具有高斯噪声和随机关键点丢弃的二维姿态的扰动以模拟二维姿态预测的噪声和遮挡情况。

在另一方面中，一种装置包括：非暂态存储器，用于存储应用；和耦合到存储器的处理器，该处理器被配置为处理应用，所述应用用于：接收相机信息，其中，相机信息包括二维姿态和包括焦距的相机参数；对相机信息应用特征提取，包括利用一维卷积的残差确定；基于特征提取来估计骨长度；以骨长度为条件基于特征提取来估计骨单位向量；以及从骨长度和骨单位向量估计相对姿态，并且以骨长度和骨单位向量为条件基于特征提取来导出根位置。在该装置中，应用被配置为接收一个或多个帧作为输入。假设每个骨长度不超过1米的长度。将长短期存储器用于估计根位置以使根位置稳定。应用被配置为对全局位置和旋转应用自动增强以模拟动态运动。应用被配置为随机改变相机对各批次样本的视场以利用不同的相机参数来估计任意视频。应用被配置为对二维姿态输入执行具有高斯噪声和随机关键点丢弃的二维姿态的扰动以模拟二维姿态预测的噪声和遮挡情况。

在另一方面中，一种系统包括：相机，被配置为获取内容；和计算设备，被配置为：从相机接收相机信息，其中，相机信息包括二维姿态和包括焦距的相机参数；对相机信息应用特征提取，包括利用一维卷积的残差确定；基于特征提取来估计骨长度；以骨长度为条件基于特征提取来估计骨单位向量；和从骨长度和骨单位向量估计相对姿态，并且以骨长度和骨单位向量为条件基于特征提取来导出根位置。

第二设备还被配置为接收一个或多个帧作为输入。假设每个骨长度不超过1米的长度。将长短期存储器用于估计根位置以使根位置稳定。

第二设备还被配置为对全局位置和旋转应用自动增强以模拟动态运动。第二设备还被配置为随机改变相机对各批次样本的视场以利用不同的相机参数来估计任意视频。第二设备还被配置为对二维姿态输入执行具有高斯噪声和随机关键点丢弃的二维姿态的扰动以模拟二维姿态预测的噪声和遮挡情况。

附图说明

图1示出根据一些实施例的户外视频(例如，具有不受控变量/环境)的模型输出的可视化。

图2表示根据一些实施例本文描述的模型克服深度模糊。

图3表示根据一些实施例的用不同FOV重投影到UV的相同3D姿态。

图4表示根据一些实施例的关键点定义的变化。

图5表示根据一些实施例的本文描述的设计的3D相机坐标。

图6表示根据一些实施例如何在归一化空间中对值进行编码。

图7表示根据一些实施例的根位置在相机坐标的X-Z和Z-Y平面中的分布。

图8表示根据一些实施例的对输入的扰动和关键点丢弃。

图9表示根据一些实施例的如本文所述的网络的简化框图。

图10表示根据一些实施例的目标的根位置预测的可视化。

图11表示根据一些实施例的本文描述的Human3.6M加上数据增强方案的结果的表格。

图12表示根据一些实施例的LSTM和1D卷积根位置估计的比较的表格。

图13表示根据一些实施例的样本序列的Z轴根位置追踪的可视化以比较使用LSTM和1D卷积的模型。

图14A～B表示根据一些实施例的来自YouTube并应用AlphaPose作为2D姿态检测器的后空翻视频，该后空翻视频然后通过使用本文描述的方法被执行。

图15表示根据一些实施例的被配置为实施全骨骼3D姿态恢复方法的示例性计算设备的框图。

具体实施方式

单目人体3D姿态估计已经成为研究界的热门话题，因为它可以被应用于户外视频(例如，不受控制的环境)，这些户外视频作为消费者生成的视频可以通过因特网获得。此外，在单目设置中启用姿态估计可以消除对多个相机的安装和对它们的对准，使得能够解决三角测量。尽管最近关于单目人体3D姿态估计的工作显示出随着时间的推移有了显著的改进，但是，因为由于多个3D姿态能够映射到相同2D姿态导致的模糊性的本质，所以将全局轨迹和相对姿态结合起来是极其困难的问题。此外，由于如果结果仅叠加在输入图像平面上则深度的模糊性及其轨迹的漂移无法完全观察到，因此，从视频结果定性评估这些方法相当困难并且有时在性能上会产生误导。其次，在背景技术部分提到的方法仅评估其相对3D姿态，其中相对姿态被定义为处于固定(例如零)位置的根骨(root bone)，其中未充分研究运动中的轨迹的恢复。最后，在上述人体3D姿态估计评估中使用的主要数据集Human3.6M缺乏真实世界的设置，无法覆盖当被应用于户外视频时可能出现的情况。该数据集是具有几乎相同的相机参数的8个相机在3×4米区域内的实验室设置中捕获的。因此，通常以具有对抗性损失的半监督方式使用附加的2D姿态数据。

为了解决上述对于将单目人体3D姿态估计应用于运动捕获目的非常重要的问题，描述以下方面：与用于相对姿态的1D卷积和用于轨迹的LSTM结合的从2D姿态输入的统一人体3D相对姿态和轨迹恢复网络。与先前的现有技术方法相比，该模型在参数大小方面是有效的，并且在卷积基础上使用LSTM可以观察到更稳定的轨迹恢复。

如VP3D中的方法那样，该模型确实采用多个帧(如果可用)，但不限于按设计使用多个帧。VP3D代表VideoPose3D，并且来自https://github.com/facebookresearch/VideoPose3D.VP3D处的“3D Human Pose Estimation in Video with TemporalConvolutions and Semi-Supervised Training”。VP3D方法在输入243帧时达到其最佳性能，但本文描述的模型即使在输入1帧时也能工作。这在想要应用任意数量的帧输入到处理时尤为重要。更多的价值在于可用性，而不是使相对姿态的精度相差几毫米。

为了在统一网络中同时回归根位置和相对姿态，将运动链空间(KCS)用于正则化目的。作为使用正则化的替代，直接估计骨单位向量和骨长度，并分别应用各损失，以增强输入帧之间骨长度的一致性。假设每个骨长度在{0,1}范围内，在该范围内，假设人体骨长度不超过1米。此外，对根位置应用tanh(诸如编码/解码方案)，使得能够在相同的动态范围内生成网络参数。

由于Human3.6M数据集在3D空间和动作方面的覆盖范围较小，因此对全局位置和旋转应用自动增强，以模拟动态运动，诸如后空翻或侧手翻。随机改变对于各批次样本的相机视场，使得在给定相机参数以预测为条件的情况下，能够使用不同的相机参数来估计任意视频。对2D姿态输入执行具有高斯噪声和随机关键点丢弃的2D姿态的扰动，以模拟2D姿态预测的噪声和遮挡情况。这允许仅使用运动捕获数据，其中不会出现对抗性模块或损失，因此准备和训练时间更短。Human3.6M数据仅仅是与本文描述的方法和系统一起使用的示例性数据集，并不意味着以任何方式进行限制。能够与本文描述的方法和系统一起使用任何3D人体运动捕获的数据集。

图1示出根据一些实施例的户外视频(例如，具有不受控变量/环境)的模型输出的可视化。在图1中，列(a)表示具有2D姿态估计的视频帧，列(b)表示X-Y平面3D姿态，并且列(c)表示X-Z平面3D姿态。3D图上的红线(通常穿过人的背部和头部的线)指示全局轨迹。模型能够输出动态运动的具有稳定z位置的轨迹。有关相机坐标的详细定义，参见图5。

如图2所示，本文描述的模型克服深度模糊。图2的顶行表示人体3D姿态预测的相机平面投影。底行表示重建的侧视图。即使人只是平行于相机移动，整个身体，特别是在深度方向上，也没有被很好地估计。

单目人体3D姿态估计方法能够大致分为两类：基于网格的方法和2D提升方法。

基于网格的方法

基于网格的方法使用诸如人体网格之类的先验模型，以不仅恢复姿态而且恢复皮肤来适应图像平面。具体而言，如果在图像平面中重叠，则基于网格的方法会表现出较好的结果，但如果你从不同的角度来看(诸如图2的侧视图)，则不稳定的轨迹追踪是可见的。这源于单目方法所经受的高度模糊问题的本质。即使通过使用人体先验模型使问题空间变得更小，该问题仍有待于很好地解决。

2D提升方法

另一类型是单目人体3D骨骼姿态，其中，对模型的输入是由很好地建立的人体2D姿态检测器预测的2D姿态。为了随时间维度稳定，一些实施方式使用LSTM序列到序列方法。然而，它们的方法包括将所有帧编码为固定长度。VP3D通过在时间维度上执行1D卷积来利用时间信息。它们还将网络一分为二，其中，将相对姿态和轨迹估计网络分离并联合训练。然而，用于相对姿态和轨迹的网络各自使用16M参数，并且用于全姿态估计的网络为32M参数。它还使用243帧的输入以获得最佳性能，并且，由于Human3.6M的有限相机配置，它不能很好地处理具有与训练数据不同的相机参数的视频。

运动链空间

运动链空间(KCS)能够用于将姿态分解为骨向量及其长度。遵循了使用KCS而不是估计笛卡尔坐标中的相对姿态的想法。本文描述的模型在如何利用KCS进行优化方面有所不同。KCS已被用于映射KCS中的相对姿态，并使对抗性损失用作正则化项来以半监督方式训练模型。与上述不同，本文描述的方法直接回归位于归一化空间中的骨向量和骨长度。

本文描述的是输入和输出的定义、数据集以及如何执行增强、网络设计和损失公式。

输入

遵循与本文描述的2D姿态提升方法类似的方案，其中2D姿态能够从任意2D姿态检测器估计出。例如，能够使用AlphaPose。如图4所示，2D姿态检测器输出17～25个各种各样的关键点，例如，Human3.6M使用17个关键点(32个定义中的17个可移动)。为了使本文描述的模型在任意2D姿态检测器上工作，15个相交最多的关键点被定义，并能够使用Human3.6M数据(或其他数据)进行评估。作为输入，使用UV归一化的2D坐标，其中u∈{0,1}。此外，由于遮挡，2D姿态检测器通常无法检测到某些关键点，这是常见的情况。对此，将这些值设置为零。还使用相机焦距作为输入。单目人体3D姿态估计方法使用Human3.6M和Human-Eva，但这些数据集都没有各种各样的相机设置，并且尝试通过应用使用2D标注的半监督训练，将模型应用于户外视频和图像上的工作。能够估计相机参数以计算重投影误差，但相机参数仍然通过姿态生成器网络隐式建模的。相反，本文描述的网络是以2D姿态输入和相机焦距为条件建模的。焦距是支持任意相机的非常重要的队列。如图3所示，即使在3D空间中具有相同的相对姿态和根位置，不同的相机视场(FOV)也使2D姿态外观非常不同。否则，很难估计在3D中的正确姿态。如本文所述，假设具有主点的透视投影相机处于图像的中心，并且不考虑镜头失真。

图3表示用不同FOV重新投影到UV的相同3D姿态。图表(a)的FOV为60°；图表(b)的FOV为90°并且图表(c)的FOV为120°。在户外拍摄的每个剪辑中，相机参数可能不同。

图4表示关键点定义的变化。图像(a)是具有17个点的MSCOCO。图像(b)是具有18个点的OpenPose。图像(c)是具有25个点的OpenPose。图像(d)是具有17个点(32个中的17个可移动)的Human3.6。图像(e)是本文描述的具有15个点定义的方法。在各定义中，这些线是标准骨骼对。

输出和运动链空间

网络输出被定义为身体的根位置和相对姿态的组合。根位置通常定义在骨盆的关键点处。相对姿态被定义为其他骨相对于根位置的3D位置。图4的图像(e)描述了15个关键点定义，其中0是要用作根位置的骨盆，并且其他要估计为相对于根的相对位置。图5描述了如本文所述的3D空间的定义。图5表示根据一些实施例的本文描述的设计的3D相机坐标。图3表示该姿态在不同FOV下的2D投影。在相机坐标中估计相对姿态和根位置。此外，利用KCS以将相对姿态分解为骨向量及其长度。运动链的第i关节由包含该关节位置的x、y、z坐标的向量

定义。通过连接j关节矢量，能够建立表示运动链的相对姿态P_r的矩阵：

P_r＝(p₁,p₂,...,p_j) (1)

并且，整个身体姿态P表达为：

P＝(p₀,p₀,...,p_r) (2)

其中，p₀是根位置，并且通过减去根姿态导出相对姿态。第k骨b_k被定义为第r关节和第t关节之间的矢量，

bk＝p_r-p_t＝P_rj d_k, (3)

其中，

d＝(0,...,0,1,0,...,0,0,-1,...,0)^T, (4)

D＝(d₁,d₂,...,d_j),

在位置r处为1且在位置t处为-1。d是第r关节和第t关节的映射向量，并且，通过整个关节的连接，整个映射矩阵D表达为

与式1类似，矩阵

能够被定义为包含所有b骨的矩阵：

B＝(b₁,b₂,...,b_b)； (5)

其中，矩阵B通过下式从P_r计算：

B＝P_rD. (6)

与D类似，能够定义将b映射回P_r的矩阵

P_r＝BE. (7)

然后，网络能够学习映射函数：

其中，输入2D姿态u和相机参数c，并且，输出是要估计根位置

骨长

及其单位向量

θ包括网络参数。不直接估计骨向量b的原因是要使输出驻留在归一化空间中。在一些实施例中，假设各骨长度遵循||b_k||∈{0,1}，其从不超过1m。任何带帽的符号都是预测，而没有帽的符号是地面真值(例如标签)，以定义预测比真值损失了多少。

根位置

在归一化空间中使用tanh形式进行编码和解码。然后将其解码为实际值。编码公式为：

并且，解码返回将形成为：

其中，β和ε为常数值。使用β＝0.1e和ε＝1e^-8。图6表示如何在归一化空间中将值编码。图6表示对根位置进行编码和解码。它在相机附近的距离上提供了更大的粒度，并在20m处饱和。z轴值将为非负。

由于许多姿态回归模型没有很好地考虑输出空间和参数空间应如何建模，因此这种归一化非常重要。VP3D提出利用在根位置上具有加权损失的两个离散网络同时估计根位置和相对姿态，其中，远离的根位置的损失具有较小的权重。本文描述的方法包括在编码空间中形成粒度，并使参数空间在内。这对于传播梯度和更新参数非常重要，不仅是对于根位置，而且对于端到端训练方式中的骨向量也是如此。

数据集和扩充

本文描述的模型纯是从运动捕获数据中训练出来的，而不是以半监督的方式使用2D姿态标注(许多方法都采用这种方式以很好地一般化户外视频和图像)。Human3.6M用于纯学术方面的初始实验，并且，出于商业目的，使用索尼互动娱乐公司(SIE)提供的运动捕获数据。但是，运动捕获数据可能太小，无法覆盖真实世界场景。为了解决该问题，在训练数据中自动采用了若干增强和扰动。

算法1：姿态增强

输入：

FOV←随机FOV集∈{°40；°100}

L←位置范围(limit)

x∈{-10,10}，y∈{10,10}，z∈{0,10}

S←相机图像大小范围

τ←进行旋转运动的方差阈值

输出：

相机坐标中的增强姿态：p’

用于模型输入的2D投影姿态：u’

相机参数：c＝(f_x；f_y)

数据：姿态序列数据P

forall

do

设置随机FOV、对角焦距：

v←从FOV随机选择

fdiag←0.5/tan(v*0.5)

根据随机纵横比设置垂直和水平焦距：

f_x,f_y F_f(f_diag,U(0.5,2.0),S)

沿Y轴全局随机旋转姿态：

p’←RotateY(p-p,U(-π,π))

得到最大和最小位置：

p’_min,p’_max←min(p’),max(p’)

使用v确定视锥内Z轴上的随机相机位置q:

q_z←F_z(p’_maxx,p’_minx；L_z,v)

确定X轴上的随机相机位置q：

q_x←F_x(p’_maxx,p’_minx,q_z)

使用v确定视锥内Y轴上的随机相机位置q:

q_y←F_y(q_z,L_z,v)

用q偏移位置p’:p’←p’+q

计算轨迹方差：σ←p’

如果σ_z<τ，

则对于各p’_t∈p’，沿Z轴线性旋转：

p’←RotateZ_T(p’)

否则，如果xσ_x＜τ

则对于各p’_t∈p’，沿X轴线性旋转：

p’←RotateX_T(p’)

投影到2D:u’←ProjectLinear(p’,c)

算法1是用于增强的简化伪码。给定整个数据集P，各批次样本

包含长度为T的时间帧，即p_t∈p,t＝(0，1，…，T)。FOV是随机选择的，并且使姿态轨迹适合在视口内，使得从相机视图中不存在视线之外的姿态。此外，通过分析轨迹变化，在序列p上随机进行翻转运动，以模拟后空翻或侧手翻类型的运动。图7表示原始Human3.6M的根位置分布和如本文所述的数据增强后的分布，其中，本文描述的实施方式具有更广泛的位置分布，从而使数据集更适合真实世界场景。

图7表示根据一些实施例的根位置在相机坐标的X-Z和Z-Y平面中的分布。图像(a)是原始Human3.6M，图像(b)是本文描述的增强。

另外，在训练阶段，对输入采用2D关键点丢弃和扰动。在数据采样期间，通过使用透视投影将3D姿态投影到2D。然而，由于遮挡，2D姿态检测器往往具有噪声和漏失检测。诸如VP3D和其他的方法使用2D检测器结果作为包含噪声的2D输入，以将模型训练为防噪声的。相反，如本文所述，通过使用高斯噪声和随机丢弃关键点来扰动2D投影关键点，以模拟遮挡场景。高斯半径是自适应的，其取决于UV空间中的身体的大小。标记为“丢弃”的所有关键点被设置为零。图8表示对输入的扰动和关键点丢弃。图表(a)是原始干净2D姿态，而图表(b)～(d)是应用随机丢弃和扰动的噪声2D姿态。

网络细节

如式8所述，目标是学习给定输入2d姿态u和相机参数c的映射函数，以输出根位置

骨长

及其单位向量

为此，结合使用1D卷积和LSTM以实现对序列的稳定预测。图9表示根据一些实施例的如本文所述的网络的简化框图。将LSTM用于根位置的原因是，与KCS空间相对姿态估计类似，实验了内核大小为3的1D卷积。然而，其稳定性受到影响，尤其是在z轴上，这是单目3D姿态估计的常见问题。假设这是因为，无论是否应用时间损失函数，1D卷积都不能保证以先前时间t-1为条件估计出时间t处的输出。然而，LSTM能够将先前时间特征传递到当前特征中，这使整体根位置估计稳定。

在具有512和1024个特征映射的输入u上，有两个具有四个堆叠残差连接的特征提取块，这些残差连接使用内核大小为1的1D卷积。这里，内核大小为1的1D卷积包括以离散方式处理的所有时间帧，从而映射每个时间帧的特征空间。然后，各块的输出与内核大小为3的1D卷积级联，使得对卷积进行边缘填充。使用内核大小为3的1D卷积，从而聚合相邻帧。与只输出N帧中的一帧的VP3D(243帧对1帧的输出是VP3D的最佳模型)不同，边缘填充应用于内核大小为3的所有卷积，使输出帧数与输入帧相等。级联顺序被设计为首先预测骨长度，然后在此基础上预测骨单位向量，最后预测根位置。利用内核大小为1的卷积将各输出再次映射到特征空间中，然后与在早期阶段提取的特征连接，以估计接下来的预测。这源于人如何凭直觉估计被摄体的距离，是通过首先估计被摄体的整体大小及其周围环境。发现分离用于骨长度及骨单位向量的第一特征提取块和根位置取得了更好的精度。LSTM块有两个循环层，具有128个隐藏单元并且是单向的。在一些实施例中，所有激活函数使用参数ReLU。

损失公式

本文描述了损失公式。首先，L2损失主要应用于各输出，形式如下：

其中，B是骨长||B||及其单位向量

的组合。另外，添加可由式7导出的相对姿态P_r的项，这涉及对骨长度和向量添加更多权重。p₀项用于编码空间和解码空间两者上的根位置，使得在z轴上具有x2振幅的平滑L1损失。对根位置应用平滑L1的原因是解码空间上的损失将很大，并且可能因为具有较大误差而影响其他损失范围。仅在编码空间上应用损失执行得不如在编码空间和解码空间两者上执行损失。另外，在骨B和根位置p₀上添加时间项：

其中，由于骨长度不会随时间改变，因此上述第一项Δ||B||为零。这强制骨长度在时间帧上保持一致。对于根位置，不仅采用相邻帧的增量，还采用了高达三阶相邻阶和高达二阶时间导数的增量。由于时间差用于调整帧间的相对运动，因此即使根位置仍可能有偏移误差，也可以收敛到较小的损失。然而，这在轨迹追踪方面很重要，特别是对于运动捕获场景。应用2D重投影误差，

注意，该u不是上述扰动后的2D姿态输入，而是地面真值3D姿态的干净2D投影。从预测的3D姿态

导出预测

最后，总损失如下所示：

L＝L_3D+L_3DT+L_2D (14)

其中，各损失同样地相加。

实验评价

数据集和评估

Human3.6M包含用于11个被摄体的360万个视频帧，其中7个利用3D姿态标注。遵循与其他方法相同的规则，这些规则分为用于训练的5个被摄体(S1、S5、S6、S7、S8)和用于评估的2个被摄体(S9和S11)。各被摄体执行15个动作，这些动作通过使用四个同步相机以50Hz的频率记录。使用以毫米为单位的平均每关节位置误差(MPJPE)，即预测关节位置和地面真值关节位置之间的平均欧几里德距离。尽管如此，对于如何在所有动作都不是平均值的情况下聚合MPJPE进行了细微的改变，从而一次处理所有动作。对于根位置，评估平均位置误差(MPE)，这也是整个评估数据的平均欧几里德距离。通过利用本文描述的增强的15个关键点和17个关键点定义来评估Human3.6M。扰动仅应用于对训练数据添加噪声和关键点丢弃，并与相机和位置增强一起用于评估集。关键点的差异如图4所示。

图9示出根据一些实施例的本文描述的模型的简化框图。如本文所述，没有KC的消融模型变体将xB1和xB2的块组合成一个块，并直接估计欧几里德空间中的相对姿态，并且没有LSTM的模型将xP从LSTM替换为1D卷积。

在步骤900中，相机参数(例如，2D空间中具有x和y的焦距)被馈送到网络中，使得网络能够输出相机的状态。网络还接收2D姿态。2D姿态能够来自任何图像或视频。

在步骤902中，按帧应用如本文所述的特征提取。特征提取能够以任何方式实施。特征提取包括利用1D卷积的残差确定。另外，在一些实施例中，在级联后，实施填充的1D卷积。在步骤904中，如本文所述估计骨长度。在步骤906中，能够以骨长度为条件基于特征提取来估计骨单位向量。在步骤908中，从骨长度和骨单位向量估计相对姿态，并以骨长度和骨单位向量为条件基于特征提取导出根位置。在一些实施例中，相机参数用于对根姿态的估计。LSTM能够用于帮助估计根位置以使根位置稳定。

在一些实施例中，能够实施更少或附加的步骤。在一些实施例中，修改步骤的顺序。

网络变体

已经对具有和不具有KCS的模型以及具有和不具有LSTM的模型执行针对用于消融研究的根姿态的实验。没有KCS的模型通过使用后跟内核大小为1的内核大小为3的1D卷积块直接回归欧几里德空间中的相对姿态，使得输出维度为若干关键点x3。类似地，没有LSTM的模型通过使用1D卷积回归根姿态。在相同的训练过程下训练所有模型。为了与其他方法进行比较，将本文描述的方法与当前现有技术的方法VP3D进行比较。

训练

对于优化器，使用权重衰减设置为零的Adam，并将其训练100代。从1e^-3开始，每10代对学习率以因子0.5应用指数衰减，其中第1代为学习率预热。使用具有121帧输入的批大小为192的样本，在批量采样时，帧从Human3.6M的50Hz采样帧中的1(非跳过)随机跳到5。这是为了使模型对户外视频的帧速率变化具有鲁棒性。已使用与本文描述的模型相同的策略对VP3D进行了重新训练，除了VP3D仅接受243帧的输入，因此对VP3D使用243帧的输入，而不是121帧。与上述训练过程相比，无论是批量归一化衰减还是使用在VP3D中提出的衰减为0.95的Amsgrad，在所有模型上都没有表现出较差的性能。

图10表示根据一些实施例的对目标的根位置预测的可视化。Z轴与其他轴相比具有更大的误差，并且，对于距离很远的人具有更大误差。

评估和消融研究

图11表示本文描述的Human3.6M加上数据增强方案的结果的表格，其中，相机FOV变化，并且在根位置上具有广得多的分布。由于没有替代方法提供根位置估计，因此存在相对姿态MPJPE的精确比较。此外，VP3D使用243帧以估计1帧，而本文描述的模型使用121帧进行训练。虽然本文描述的模型能够采用任意帧大小，但为了在相同条件下进行比较，在243帧输入的条件下执行评估，并对中间帧(第121帧)进行评估。存在两种变体，一种应用了KCS，而另一种采用直接相对姿态估计。本文描述的具有KCS的模型比具有少得多的参数的MPJPE性能更好。这表明在其没有队列的情况下，可能无法隐式推断相机参数差异。此外，通过研究变体，KCS方法显示出对于直接估计相对姿态的显著优势。还值得注意的是，即使是根定位块在这两种方法上也是等效的。MPE性能显示出差异。通过研究训练曲线和验证误差，当前的假设是根定位性能仍存在波动。

MPE，根位置误差仍然似乎具有约20cm的大的误差。这表明从单目解决不确定深度仍然存在困难，尤其是仅从2D姿态输入。图10表示15个关键点姿态模型的整体投影误差。X和Y显示与目标相当好的适配，但Z在目标走远时显示出误差，在近距离也显示出一些大的误差。近距离大的误差主要来自由于被摄体离相机太近而导致整个身体不可见(例如，身体部分可见)，但这些情况在真实世界场景中会发生。虽然实验表明存在大量空间改善MPE，但将观察整体轨迹追踪，这对于运动捕获场景非常重要。

没有LSTM的模型显示出与LSTM模型相当或更好的MPE。为了比较运动追踪，执行另一评估，其中，使用所有输出帧，而不是使采取与VP3D对标的输入的一个中间帧。由此，如图12所示，通过观察定义为式12的第二项的平均轨迹误差，LSTM版本显示出更好的轨迹性能。当试图缩小模型参数时，差异可能变得更为显著。图13表示应用于本文描述的模型的精简版本的后空翻序列，精简版本模型使用LSTM与1D卷积进行根姿态估计。1D卷积估计巨大的漂移，特别是在Z轴上，这对于运动恢复非常重要。图13表示对样本序列的Z轴根位置追踪的可视化，以比较使用LSTM和1D卷积的模型。1D卷积往往具有巨大的追踪误差，尤其是在动态运动上。

图14A～B表示来自YouTube并应用AlphaPose作为2D姿态检测器的后空翻视频，该后空翻视频然后通过使用本文描述的方法被执行。如X-Z平面重投影所示，尽管运动本身是非常动态的并且在2D姿态检测器上有许多遮挡和误差，但Z轴上的整体根位置非常稳定。图14A～B表示本文描述的模型在户外视频上的输出的可视化，该可视化被放在2个分组列中，其中各组显示4帧。从左侧开始，为具有2D姿态估计、X-Y平面3D姿态、X-Z平面3D姿态的视频帧。3D图上的红线指示全局轨迹。本文描述的模型能够对动态运动输出具有稳定z位置的轨迹。上述第6帧对2D姿态检测结果具有大的误差。

结论

本文描述的方法使得能够从单目相机恢复全骨骼3D姿态，其中全骨骼包括3D中的根位置和相对姿态两者。该模型与学术界的当前现有技术相比具有显著优势，以覆盖各种FOV和动态运动，诸如仅使用运动捕获数据训练的后空翻。通过使模型基于人体感知而不是对大型网络进行蛮力建模并回归值，本文描述的利用KCS并在归一化空间中形成模型产生了更好的性能。

本文描述的方法仅将在UV空间中归一化的2D姿态输入和基本相机参数作为输入。骨长度估计是以非常小的分布进行训练的，并且，如果没有其他队列(诸如RGB图像(例如，外观特征))的支持，则很难估计真实骨长度。假设骨长度可以从2D骨长度的比例得出，其中，儿童往往躯干比手臂骨更长。能够基于周围环境粗略估计人的身高。游戏引擎(诸如虚幻引擎(Unreal Engine))能够用于渲染具有相关3D几何体的图像，并从图像执行人体3D姿态的端到端估计。已经构建了原始的对抗性模块，该模块使得能够使用2D标注进行半监督训练。

图15表示根据一些实施例的被配置为实施全骨骼3D姿态恢复方法的示例性计算设备的框图。计算设备1500能够用于获取、存储、计算、处理、传送和/或显示诸如图像和视频之类的信息。计算设备1500能够实施任何全骨骼3D姿态恢复方面。一般而言，适用于实施计算设备1500的硬件结构包括网络接口1502、存储器1504、处理器1506、(一个或多个)I/O设备1508、总线1510和储存装置1512。只要选择了具有足够速度的合适处理器，处理器的选择就不重要。存储器1504能够是本领域已知的任何常规计算机存储器。储存装置1512能够包括硬盘驱动器、CDROM、CDRW、DVD、DVDRW、高清光盘/驱动器、超高清驱动器、闪存卡或任何其他存储装置。计算设备1500能够包括一个或多个网络接口1502。网络接口的示例包括连接到以太网或其他类型LAN的网卡。(一个或多个)I/O设备1508能够包括以下项中的一个或多个：键盘、鼠标、监视器、屏幕、打印机、调制解调器、触摸屏、按钮接口和其他设备。用于实施全骨骼3D姿态恢复方法的(一个或多个)全骨骼3D姿态恢复应用1530可能存储在储存装置1512和存储器1504中，并且一般作为应用被处理。在计算设备1500中能够包括图15所示的更多或更少的组件。在一些实施例中，包括全骨骼3D姿态恢复硬件1520。尽管图15中的计算设备1500包括用于全骨骼3D姿态恢复方法的应用1530和硬件1520，但能够在计算设备上以硬件、固件、软件或其任何组合实施全骨骼3D姿态恢复方法。例如，在一些实施例中，全骨骼3D姿态恢复应用1530在存储器中被编程并通过使用处理器被执行。在另一示例中，在一些实施例中，全骨骼3D姿态恢复硬件1520是包括专门设计为用于实施全骨骼3D姿态恢复方法的门的编程硬件逻辑。

在一些实施例中，(一个或多个)全骨骼3D姿态恢复应用1530包括若干应用和/或模块。在一些实施例中，模块还包括一个或多个子模块。在一些实施例中，能够包括更少或更多的模块。

合适的计算设备的示例包括个人计算机、膝上型计算机、计算机工作站、服务器、主机计算机、手持式计算机、个人数字助理、蜂窝/移动电话、智能设备、游戏控制台、数字相机、数字摄像机、相机电话、智能电话、便携式音乐播放器、平板计算机、移动设备、视频播放器、视频光盘写入器/播放器(例如，DVD写入器/播放器、高清晰度光盘写入器/播放器、超高清晰度光盘写入器/播放器)、电视、家庭娱乐系统、增强现实设备、虚拟现实设备、智能珠宝(例如，智能手表)、车辆(例如，自动驾驶车辆)或任何其他合适的计算设备。

为了利用本文描述的全骨骼3D姿态恢复方法，使用诸如数字相机/录像机之类的设备以获取内容。全骨骼3D姿态恢复方法能够在用户帮助下实施，或者在没有用户参与的情况下自动实施以执行姿态估计。

在操作中，全骨骼3D姿态恢复方法提供更准确和有效的后估计实施方式。结果表明，与先前的实施方式相比，可以实现更好的姿态估计。

从单目相机的全骨骼3D姿态恢复的一些实施例

1.一种方法，包括：

接收相机信息，其中，所述相机信息包括二维姿态和包括焦距的相机参数；

对所述相机信息应用特征提取，包括利用一维卷积的残差确定；

基于特征提取来估计骨长度；

以所述骨长度为条件基于特征提取来估计骨单位向量；和

从所述骨长度和所述骨单位向量估计相对姿态，并且以所述骨长度和所述骨单位向量为条件基于特征提取来导出根位置。

2.根据条款1所述的方法，还包括接收一个或多个帧作为输入。

3.根据条款1所述的方法，其中，假设每个骨长度不超过1米的长度。

4.根据条款1所述的方法，其中，将长短期存储器用于估计所述根位置以使所述根位置稳定。

5.根据条款1所述的方法，还包括对全局位置和旋转应用自动增强以模拟动态运动。

6.根据条款1所述的方法，还包括随机改变相机对各批次样本的视场以利用不同的相机参数来估计任意视频。

7.根据条款1所述的方法，还包括对二维姿态输入执行具有高斯噪声和随机关键点丢弃的二维姿态的扰动以模拟二维姿态预测的噪声和遮挡情况。

8.一种装置，包括：

非暂态存储器，用于存储应用，所述应用用于：

基于特征提取来估计骨长度；

以所述骨长度为条件基于特征提取来估计骨单位向量；和

从所述骨长度和所述骨单位向量估计相对姿态，并且以所述骨长度和所述骨单位向量为条件基于特征提取来导出根位置；和

处理器，耦合到存储器，所述处理器被配置为处理所述应用。

9.根据条款8所述的装置，还包括接收一个或多个帧作为输入。

10.根据条款8所述的装置，其中，假设每个骨长度不超过1米的长度。

11.根据条款8所述的装置，其中，将长短期存储器用于估计所述根位置以使所述根位置稳定。

12.根据条款8所述的装置，还包括对全局位置和旋转应用自动增强以模拟动态运动。

13.根据条款8所述的装置，还包括随机改变相机对各批次样本的视场以利用不同的相机参数来估计任意视频。

14.根据条款8所述的装置，还包括对二维姿态输入执行具有高斯噪声和随机关键点丢弃的二维姿态的扰动以模拟二维姿态预测的噪声和遮挡情况。

15.一种系统，包括：

相机，被配置为获取内容；和

计算设备，被配置为：

从所述相机接收相机信息，其中，所述相机信息包括二维姿态和包括焦距的相机参数；

基于特征提取来估计骨长度；

以所述骨长度为条件基于特征提取来估计骨单位向量；和

16.根据条款15所述的系统，还包括接收一个或多个帧作为输入。

17.根据条款15所述的系统，其中，假设每个骨长度不超过1米的长度。

18.根据条款15所述的系统，其中，将长短期存储器用于估计所述根位置以使所述根位置稳定。

19.根据条款15所述的系统，还包括对全局位置和旋转应用自动增强以模拟动态运动。

20.根据条款15所述的系统，还包括随机改变相机对各批次样本的视场以利用不同的相机参数来估计任意视频。

21.根据条款15所述的系统，还包括对二维姿态输入执行具有高斯噪声和随机关键点丢弃的二维姿态的扰动以模拟二维姿态预测的噪声和遮挡情况。

已经根据结合细节的特定实施例描述了本发明，以便于理解本发明的构造和操作原理。本文对特定实施例及其细节的这种提及并不旨在限制本文所附权利要求书的范围。对于本领域技术人员来说清楚的是，在不脱离权利要求书所限定的本发明的精神和范围的情况下，可以在选择用于说明的实施例中进行其他各种修改。

Claims

1.一种方法，包括：

基于特征提取来估计骨长度；

以所述骨长度为条件基于特征提取来估计骨单位向量；和

2.根据权利要求1所述的方法，还包括接收一个或多个帧作为输入。

3.根据权利要求1所述的方法，其中，假设每个骨长度不超过1米的长度。

4.根据权利要求1所述的方法，其中，将长短期存储器用于估计所述根位置以使所述根位置稳定。

5.根据权利要求1所述的方法，还包括对全局位置和旋转应用自动增强以模拟动态运动。

6.根据权利要求1所述的方法，还包括随机改变相机对各批次样本的视场以利用不同的相机参数来估计任意视频。

7.根据权利要求1所述的方法，还包括对二维姿态输入执行具有高斯噪声和随机关键点丢弃的二维姿态的扰动以模拟二维姿态预测的噪声和遮挡情况。

8.一种装置，包括：

非暂态存储器，用于存储应用，所述应用用于：

基于特征提取来估计骨长度；

以所述骨长度为条件基于特征提取来估计骨单位向量；和

处理器，耦合到所述存储器，所述处理器被配置为处理所述应用。

9.根据权利要求8所述的装置，还包括接收一个或多个帧作为输入。

10.根据权利要求8所述的装置，其中，假设每个骨长度不超过1米的长度。

11.根据权利要求8所述的装置，其中，将长短期存储器用于估计所述根位置以使所述根位置稳定。

12.根据权利要求8所述的装置，还包括对全局位置和旋转应用自动增强以模拟动态运动。

13.根据权利要求8所述的装置，还包括随机改变相机对各批次样本的视场以利用不同的相机参数来估计任意视频。

14.根据权利要求8所述的装置，还包括对二维姿态输入执行具有高斯噪声和随机关键点丢弃的二维姿态的扰动以模拟二维姿态预测的噪声和遮挡情况。

15.一种系统，包括：

相机，被配置为获取内容；和

计算设备，被配置为：

基于特征提取来估计骨长度；

以所述骨长度为条件基于特征提取来估计骨单位向量；和

16.根据权利要求15所述的系统，还包括接收一个或多个帧作为输入。

17.根据权利要求15所述的系统，其中，假设每个骨长度不超过1米的长度。

18.根据权利要求15所述的系统，其中，将长短期存储器用于估计所述根位置以使所述根位置稳定。

19.根据权利要求15所述的系统，还包括对全局位置和旋转应用自动增强以模拟动态运动。

20.根据权利要求15所述的系统，还包括随机改变相机对各批次样本的视场以利用不同的相机参数来估计任意视频。

21.根据权利要求15所述的系统，还包括对二维姿态输入执行具有高斯噪声和随机关键点丢弃的二维姿态的扰动以模拟二维姿态预测的噪声和遮挡情况。