CN113095262A

CN113095262A - 一种基于多任务信息互补的三维体素手势姿态估计方法

Info

Publication number: CN113095262A
Application number: CN202110429625.XA
Authority: CN
Inventors: 蔡奕轩; 张强; 周东生; 侯亚庆
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-09

Abstract

一种基于多任务信息互补的三维体素手势姿态估计方法，步骤为：训练一个参考点精炼网络，获取准确的参考点；训练一个估计网络，使用中已获得的图像的准确参考点和手部关节位置真实值进行监督训练：对估计网络输出的三维热图执行概率估计，确定每个关节点最大的似然相应位置，然后将其转换到真实的坐标系中获得手部关节点的真实3D坐标。本发明使用三维体素化的方式来处理输入与输出，一方面改善了传统方法表示深度图像造成的透视失真，以及回归学习的高度非线性等问题。另一方面则是实现了模型参数压缩，使得模型的收敛更加的迅速，便于训练。同时引入多任务信息互补的策略，这种符合手势物理特性的网络结构在提升估计精度的同时也更具有鲁棒性。

Description

一种基于多任务信息互补的三维体素手势姿态估计方法

技术领域

本发明属于应用活动识别领域，具体涉及一种基于多任务信息互补的三维体素手势姿态估计方法。

背景技术

在应用活动识别的领域，如人机交互或增强现实，准确的三维手势姿态估计一直有着重要的需求。三维手势姿态估计在计算机视觉界已经研究了几十年，早期的手势姿态估计大多基于RGB图像，然而由于RGB图像缺乏深度信息，很难做到准确的估计。近年来，由于深度摄像机成本的大幅降低，基于深度图的手势姿态估计方法成为主流，早期的基于深度图的方法主要采用手工制作的特征，这种特征获取方法耗时费力，不利于大规模的推广使用。得益于大规模手势姿态数据集的出现和计算能力的提升，能够自动捕获特征的深度学习的方法在手势姿态估计方面展现出了巨大的优势。

这些基于深度学习的三维手势姿态估计方法大多基于一个共同的思想，即获取二维深度图像后直接回归手部关键点的三维坐标。然而，这类方法有三个缺点：第一个缺点是二维深度图像的透视失真问题。以前的大多数方法只是简单地将深度图作为二维图像形式。实际上，二维深度图的像素值代表对象点到深度摄像机的物理距离，深度图本质上是三维数据。第二个缺点是输入深度数据和输出三维坐标之间的非线性映射问题。这种非线性映射问题是由每个关键点只需要从输入中回归一个三维坐标所造成的。这种非线性的映射妨碍了端到端的学习过程，并且妨碍了关键点坐标的精确估计。第三个缺点是忽略了手指关节和手掌关节的自由度、灵活度的差异性问题。从物理直观上看手指关节相较于手掌关节具有更高的自由度和灵活性，而以前大多数的方法直接将手指关节和手掌关节看作一个手部整体，然后对手部所有关节进行整体回归，这必然会造成关键点估计的精度下降。所以手势姿态估计需要基于深度图像的本质特性的新的数据表示方法，以及结合手势的真实物理特性的新的算法。

Zhirong Wu等人在《3d shapenets:体积形状的深度表示》一文中首次提出了深度图像的体素表示方法，其主要的思想是将二维的深度图像数据转化为三维的体素数据。体素被定义为数字数据于三维空间分割上的最小单位，实现体素化首先需要将深度图的每个像素重新投影到三维空间，然后根据预先定义的体素大小离散化三维空间。这样转化后的输入数据能更大程度的呈现真实的物体外观，减轻透视失真问题。再然后将每个体素表示为一个二进制随机变量，并使用一个卷积深度置信网络来学习每个体素的概率分布。最后估算每个关键点的每体素可能性，这使得该方法比直接从输入数据中估计三维坐标的非线性映射的方法更容易实现端到端的学习。

在深度学习中，通过任务彼此之间的信息互补，多任务学习相比于单任务学习能够保留更多的内在信息。并且同时学习多个任务将使模型具有更好的泛化能力。然而，在基于深度学习的手部姿态估计中，多任务学习还没有得到足够的重视。从物理直观上看，手掌关节相比于手指关节有更加紧密的联系，但灵活度、自由度要弱于手指关节。手部的整体姿态主要由手掌关节的状态决定，而手部的局部姿态主要由手指关节的状态来反映。因而将多任务信息互补的思想引入手势姿态估计中能够契合手势的真实物理特性，提高大规模数据集下模型的鲁棒性和估计的精度。

发明内容

本发明提供一种基于多任务信息互补的三维体素手势姿态估计方法，目的在于构建一种高精度、高鲁棒性以及高可用性的手势姿态估计方法。本发明使用三维体素的方法来处理深度图像，它能够最大程度的呈现物体的外观，减轻透视失真的问题。同时采用体素化输出的方式来似然估计每个关键点的每体素可能性，相比于从输入中直接估计关键点的三维坐标的方式来说，上述方法更容易实现端到端的学习。另外，为了契合手掌和手指灵活度、自由度不同的物理特性引入了多任务信息互补的策略，将手势姿态估计划分为手掌回归和手指回归两个子任务，在子任务专注于本路回归的同时通过交叉连接的方式将该任务产生的噪声传递至另一任务，该噪声对于本任务来说是噪声但对于另一任务而言有助于细化该任务的特征，使得回归的结果更加的精确。三维体素化的输入与输出处理方法结合多任务信息互补的策略在改善端到端学习性能的同时能够提升手势估计的精度。

本发明方法包括两个模块：

(1)训练参考点精炼网络，获取准确的参考点，用于深度图像三维体素化时定位目标对象。参考点精炼网络分为两个子模块，第一个子模块为数据预处理部分，主要是对深度图像进行中心角度旋转以扩充样本，然后通过手部区域的深度阈值处理来获得计算参考点；第二个子模块为对参考点精炼网络进行监督训练，网络结构修改2DRefNet作为参考点精炼网络，深度阈值处理后的计算参考点到手部中指根部关节位置的三维偏移量作为标签，进行监督网络的训练。保存训练好的参考点精炼网络，然后将该网络应用于训练估计网络的手势深度数据集获得每个输入数据准确的参考点并保存，用于后续深度图像体素化时定位目标对象。

(2)训练估计网络，使用三维体素化的深度图像作为输入数据，真实值作为图像标签监督网络的训练。估计网络分为四个子模块，第一个子模块为深度图像的体素化部分，主要是将深度图像投影到三维空间，根据预先定义的体素大小离散化三维空间，并在参考点周围绘制立方体框提取目标对象；第二个子模块为特征提取与细化模块，基于手掌和手指自由度、灵活度不同的物理特性，采用修改自CrossInfoNet多任务层次模型，将其从处理二维图像扩展到处理三维体素，通过采用热图约束条件来辅助进行特征提取。该模型有两个分支，分别对应于手掌关节回归子任务和手指关节回归子任务并通过两个分支之间的交叉连接，一个分支的噪声成为另一个分支的补充信息。第三个子模块为特征增强模块，该模块修改自V2VPoseNet中的编解码器结构用以融合不同尺度下的特征图。第四个子模块为回归模块，主要是将手掌回归分支和手指回归分支提取的特征图进行融合，输出估计的三维热图。

为了达到上述目的，本发明采用的技术方案如下：

一种基于多任务信息互补的三维体素手势姿态估计方法，具体步骤如下：

步骤(1)训练一个参考点精炼网络，获取准确的参考点

(1.1)将手部原始深度图像进行中心的角度旋转，然后通过手部区域的深度阈值处理来获得计算参考点。

(1.2)对参考点精炼网络进行训练，使用修改后的2DRefNet网络结构，使用深度阈值处理后的计算参考点到手部中指根部关节位置的三维偏移量作为标签训练参考点精炼网络；2DRefNet网络结构主要依赖于二维的卷积操作，二维的平均池化操作以及全连接操作。2DRefNet网络的前端每次二维卷积操作之后都会连接一个二维的平均池化操作；这里不采用最大池化的原因是因为需要获取全局的手部区域参考点，而最大池化操作会丢失更多的局部特征。2DRefNet网络的后端每个全连接操作后都连接一个Dropout，避免因产生的数据过大，造成模型的过拟合。最后通过一个全连接操作输出三维偏移量；计算网络输出的三维偏移量和标签的均方误差作为损失函数对参考点精炼网络进行监督训练。然后使用训练好的模型对手势深度数据集所有的数据进行精炼操作获得每一幅深度图像对应的准确的参考点。

参考点精炼网络损失函数其形式如下：

L_r表示参考点精炼网络的损失，P_com表示网络输出的三维偏移量，

表示计算参考点到手部中指根部关节位置的三维偏移量。

步骤(2)训练一个估计网络，使用步骤(1)中已获得的图像的准确参考点和手部关节位置真实值进行监督训练：

(2.1)数据的预处理，首先要将原始的深度图像转化为三维体素的形式；将原始深度图像的每个像素重新投影到三维空间，根据预先定义的体素大小离散化三维空间，然后在步骤(1)中获得的图像的参考点周围绘制立方体框来提取目标对象，如果体素被任何投影后的深度点占据，则估计网络的输入V(i,j,k)的体素值为1，否则为0；然后对体素化的深度图像执行缩放和平移以扩充样本数。

(2.2)体素化的深度图像前向传播到特征提取与细化模块，完成对输入数据初步特征的提取与细化，为后续的特征增强做铺垫特征提取与细化。特征提取与细化模块修改自CrossInfoNet网络结构并采用模块化设计。它包含两个基本的单元，分别是体积残差块和体积基本块，其中体积基本块由体积卷积，体积批归一化，和激活函数构成。体积残差块是由二维的ResNet结构扩展而来的，同时也包含体积基本块的层级操作。这里采用体积批归一化的原因是深度图像被体素化后产生的数据量巨大，同时三维卷积运算相当耗费时间因而在每个基本单元之后加入批归一化可以加快模型收敛的速度，减少模型训练的时间。

体积批归一化的公式如下：

y_i＝γx^*+δ (3)

x_i表示批处理前的输入数据，μ_B,

分别代表批处理数据的均值和方差，∈是为防止除数为0的正数，γ,δ则分别表示网络学习到的尺度因子和平移因子。x^*是被规范化后的数据，y_i是归一化后的输出数据。为了得到更平滑的输出结果激活函数采用RELU函数，被体素化后的深度图像数据首先被送入该模块的前端，经历一个体积基本块和三个体积残差块完成对特征的初步提取得到特征图T。在模块的后端通过引入特征细化约束条件将路径一分为二，上分支专注于手指特征，下分支专注于手掌特征。

特征细化约束条件的公式如下：

L_p,L_f分别表示手掌和手指的特征细化约束损失，

分别表示手掌和手指的真实值关节位置的三维热图，

分别表示网络输出的手掌和手指的关节位置的三维热图，P,F分别表示手掌和手指关节点的个数。三维热图采用高斯函数，其均值固定在相应的真实值关节中心位置。特征图T在L_p的引导下生成手掌主导的特征P₀，然后通过跳跃连接的方式从特征图T中减去P₀得到手指特征F_-。同理可得在L_f的引导下生成的手指主导的特征F₀，以及手掌特征P_-，再然后透过交叉连接的方式将上路分支产生的噪声P₀与下路手掌特征P_-相加得到细化的手掌特征P₁，同理可得细化的手指特征F₁。

(2.3)前向传播到特征增强模块，为提高估计的精度和鲁棒性，将步骤(2.2)中获得的已细化的手指特征F₁和手掌特征P₁进行相应的增强，在步骤(2.2)生成的两路分支之后各自添加一个特征增强模块以融合不同尺度下特征图，将已细化的手指特征F₁和手掌特征P₁增强为手指特征F₂和手掌特征P₂。特征增强模块基于V2VPoseNet网络中的编解码器结构修改，该模块主要由体积下采样块、体积残差块以及体积上采样块等基本单元构成。其中体积残差块的组成和步骤(2.2)中的一致，体积下采样块在步骤(2.2)中的体积基本块的基础上携带了最大池化层以实现特征图的向下采样，体积上采样块则是由体积反卷积层、体积批归一化以及激活函数构成，其中体积批归一化以及激活函数与步骤(2.2)中一致，而体积反卷积则是通过最近邻插值的卷积操作来实现特征图的上采样。整个特征增强模块主要分为前端的编码器部分，以及后端的解码器部分。编码器通过两个体积下采样块将特征图尺寸降低到原来1/4，解码器则通过两个体积上采样块将特征图的尺寸恢复到原来的大小，同时分别通过两组跳跃连接的方式将编码器第一个体积下采样块的输入与解码器第二个体积上采样块的输出相加，编码器的第二个体积下采样块的输入与解码器的第一个上采样块的输出相加，通过这样的结构能够融合不同尺度下的特征图。采用这样结构的原因在于姿态估计是一种关联型任务，手部不同的关节点并不是在相同的特征图上具有最好的识别精度，如果只是用统一尺度下的特征图去做最后的估计势必会造成精度的损失。

(2.4)增强的手指特征和手掌特征前向传播到回归模块，融合手掌回归子分支和手指回归子分支并通过一个体积残差块加一个体积基本块输出估计的三维热图。从输出的三维热图中提取出三维坐标使用真实值关节位置的三维热图和网络输出的三维热图的均方误差作为体素回归损失，使用真实值关节位置和提取的三维坐标的均方误差作为关节回归损失。使用高斯函数来生成三维热图，其中高斯函数的均值固定在真实值关节中心位置。

三维热图的公式如下：

表示第n个关键点的真实值三维热图，i_n,j_n,k_n表示第n个关键点的真实值体素坐标。σ²表示高斯函数的方差。

体素回归损失公式如下：

L_t表示估计网络的体素回归损失，

表示第n个关键点的真实值三维热图，H_n(i,j,k)表示网络估计的第n个关节点的三维热图。N表示手部关节点的总个数。

关节回归损失公式如下：

L_g表示估计网络的关节回归损失，N表示手部关节点的总个数，

表示第n个关节点的真实值三维坐标，

表示网络估计的第n个关节点的三维坐标。

通过对步骤(2.2)中的特征细化约束损失，体素回归损失和关节回归损失进行加权融合可以得到估计网络总的损失函数其公式如下：

L＝α(L_p+L_f)+βL_t+γL_g (9)

L表示估计网络总损失，L_p,L_f分别表示手掌和手指的特征细化约束损失，L_t表示估计网络体素回归损失，L_g表示估计网络关节回归损失，α,β,γ是平衡特征细化损失，体素回归损失和关节回归损失的权重。

步骤(3)对步骤(2)中估计网络输出的三维热图执行概率估计，确定每个关节点最大的似然相应位置，然后将其转换到真实的坐标系中获得手部关节点的真实3D坐标。

本发明的有益效果：本发明使用三维体素化的方式来处理输入与输出，一方面改善了传统方法表示深度图像造成的透视失真，以及回归学习的高度非线性等问题。另一方面则是实现了模型参数压缩，使得模型的收敛更加的迅速，便于训练。同时引入多任务信息互补的策略，这种符合手势物理特性的网络结构在提升估计精度的同时也更具有鲁棒性。

附图说明

图1为本发明的整体框架示意图。

图2为本发明的参考点精炼网络结构示意图。

图3为本发明的特征提取与细化模块结构示意图。

图4为本发明的特征增强模块结构示意图。

图5为本发明的回归模块结构示意图。

图6为本发明的参考点精炼网络训练方法流程图。

图7为本发明的估计网络训练方法流程图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明可用于各种形式下的三维手势姿态估计，本发明的整体框架如图1所示，细分到每个网络模型中，参考点精炼网络结构如图2所示，特征提取与细化模块结构如图3所示，特征增强模块结构如图4所示，回归模块结构如图5所示。

本实施例应用到了基于微软kinect的体感游戏的三维手势姿态估计任务中，所论述的具体实施方案仅用于说明本发明的实现方式，而不限制本发明的范围。

下面主要针对基于微软kinect的体感游戏的三维手势姿态估计任务对本发明的实施方案进行详细说明，任务主要分为参考点精炼网络的训练(如图5所示)和估计网络的训练(如图6所示)：

(1)参考点精炼网络的训练：

按照发明内容中的预处理步骤对原始图像进行[-50,50]区间随机角度的中心旋转以扩充数据集样本数，对数据进行深度阈值处理获得手部区域的计算参考点，然后将数据输入参考点精炼网络。输入的图像尺寸为320×240×32，最后面的32代表网络的通道数。图像进行前向传播时，分别经过卷积，最大池化，全连接，以及Dropout正则化层得到输出的三维偏移量。以输出的三维偏移量和计算参考点到手部中指根部关节位置的三维偏移量的均方误差作为损失函数，使用RMSProp优化算法进行训练，从而实现端到端的训练，训练至模型收敛。之后使用训练好的模型处理数据集深度图像，获得计算参考点与手部中指根部关节位置的三维偏移量，最后将偏移量加到计算参考点上得到每一幅深度图像准确的参考点，并保存。

(2)估计网络的训练：

按照发明内容中的体素化步骤对原始深度图像进行三维体素化，将深度图的每个像素重新投影到三维空间，根据预先定义的体素大小离散化三维空间，然后在参考点精炼网络获取的参考点周围绘制立方体框来提取目标对象，对于那些被投影后的深度点占据的体素其网络输入值设为1，否则设为0。将已被体素化的数据执行[-6,6]区间范围内任意整数值的平移以扩充输入网络的数据样本数。再然后将已处理好的三维体素化数据送入估计网络，进行前向传播。输入的数据维度为96×96×96×64，最后面的64代表通道数。输入的数据首先前向传播至特征提取与细化模块，该模块的前端是一个体积基本块，和三个体积残差块，他们的核函数的尺寸是8×8×8×64，数据经过模块前端提取到初始的特征图T，然后T被分别送入两路分支。上路手指回归分支首先在手掌细化损失L_p的引导下经过一个体积基本块生成手掌特征P₀，通过跳跃连接从特征图T中减去P₀得到F_-。下路手掌回归分支在手指细化损失L_f的引导下经过一个体积基本块生成手指特征F₀，通过跳跃连接从特征图T中减去F₀得到P_-。分别将P₀和P_-、F₀和F_-相加得到细化后的手掌特征P₁、手指特征F₁。再然后，经过细化的特征前向传播至各自的特征增强模块，经过编解码器的上下采样融合了不同尺度下的特征得到增强后的手掌特征P₂及手指特征F₂。最后前向传播至回归模块，回归模块将P₂、F₂进行合并得到特征图M，并经过一个体积残差块和一个体积基本块得到输出热图，从热图中提取出估计的关节的三维坐标，计算真实值三维热图和网络估计三维热图之间的均方误差作为体素回归损失，计算真实值关节三维坐标和网络估计的关节的三维坐标作为关节回归损失，加权特征细化损失，体素回归损失和关节回归损失作为总损失，反向传播更新权重。权重的更新使用RMSProp优化算法，直到模型收敛。

(3)手势姿态的输出

按照手部关节点获取步骤获取手部的3D坐标，在估计网络输出的三维热图上执行概率估计，获得每个手部关节点的最大似然响应位置然后将其转换到真实的坐标系中得到手部每个关节点的真实3D坐标。

Claims

1.一种基于多任务信息互补的三维体素手势姿态估计方法，其特征在于，具体步骤如下：

步骤(1)训练一个参考点精炼网络，获取准确的参考点

(1.1)将手部原始深度图像进行中心的角度旋转，然后通过手部区域的深度阈值处理来获得计算参考点；

(1.2)对参考点精炼网络进行训练，使用修改后的2DRefNet网络结构，使用深度阈值处理后的计算参考点到手部中指根部关节位置的三维偏移量作为标签训练参考点精炼网络；2DRefNet网络的前端每次二维卷积操作之后都会连接一个二维的平均池化操作；2DRefNet网络的后端每个全连接操作后都连接一个Dropout，避免因产生的数据过大，造成模型的过拟合；最后通过一个全连接操作输出三维偏移量；计算网络输出的三维偏移量和标签的均方误差作为损失函数对参考点精炼网络进行监督训练；然后使用训练好的模型对手势深度数据集所有的数据进行精炼操作获得每一幅深度图像对应的准确的参考点；

参考点精炼网络损失函数其形式如下：

表示计算参考点到手部中指根部关节位置的三维偏移量；

(2.1)数据的预处理，首先要将原始的深度图像转化为三维体素的形式；将原始深度图像的每个像素重新投影到三维空间，根据预先定义的体素大小离散化三维空间，然后在步骤(1)中获得的图像的参考点周围绘制立方体框来提取目标对象，如果体素被任何投影后的深度点占据，则估计网络的输入V(i,j,k)的体素值为1，否则为0；然后对体素化的深度图像执行缩放和平移以扩充样本数；

(2.2)体素化的深度图像前向传播到特征提取与细化模块，完成对输入数据初步特征的提取与细化，为后续的特征增强做铺垫特征提取与细化；特征提取与细化模块修改自CrossInfoNet网络结构并采用模块化设计；它包含两个基本的单元，分别是体积残差块和体积基本块，其中体积基本块由体积卷积，体积批归一化，和激活函数构成；体积残差块是由二维的ResNet结构扩展而来的，同时也包含体积基本块的层级操作；

体积批归一化的公式如下：

y_i＝γx^*+δ (3)

x_i表示批处理前的输入数据，μ_B,

分别代表批处理数据的均值和方差，∈是为防止除数为0的正数，γ,δ则分别表示网络学习到的尺度因子和平移因子；x^*是被规范化后的数据，y_i是归一化后的输出数据；为了得到更平滑的输出结果激活函数采用RELU函数，被体素化后的深度图像数据首先被送入该模块的前端，经历一个体积基本块和三个体积残差块完成对特征的初步提取得到特征图T；在模块的后端通过引入特征细化约束条件将路径一分为二，上分支专注于手指特征，下分支专注于手掌特征；

特征细化约束条件的公式如下：

L_p,L_f分别表示手掌和手指的特征细化约束损失，

分别表示手掌和手指的真实值关节位置的三维热图，

分别表示网络输出的手掌和手指的关节位置的三维热图，P,F分别表示手掌和手指关节点的个数；三维热图采用高斯函数，其均值固定在相应的真实值关节中心位置；特征图T在L_p的引导下生成手掌主导的特征P₀，然后通过跳跃连接的方式从特征图T中减去P₀得到手指特征F_-；同理可得在L_f的引导下生成的手指主导的特征F₀，以及手掌特征P_-，再然后透过交叉连接的方式将上路分支产生的噪声P₀与下路手掌特征P_-相加得到细化的手掌特征P₁，同理可得细化的手指特征F₁；

(2.3)前向传播到特征增强模块，为提高估计的精度和鲁棒性，将步骤(2.2)中获得的已细化的手指特征F₁和手掌特征P₁进行相应的增强，在步骤(2.2)生成的两路分支之后各自添加一个特征增强模块以融合不同尺度下特征图，将已细化的手指特征F₁和手掌特征P₁增强为手指特征F₂和手掌特征P₂；特征增强模块基于V2VPoseNet网络中的编解码器结构修改，该模块主要由体积下采样块、体积残差块以及体积上采样块等基本单元构成；其中体积残差块的组成和步骤(2.2)中的一致，体积下采样块在步骤(2.2)中的体积基本块的基础上携带了最大池化层以实现特征图的向下采样，体积上采样块则是由体积反卷积层、体积批归一化以及激活函数构成，其中体积批归一化以及激活函数与步骤(2.2)中一致，而体积反卷积则是通过最近邻插值的卷积操作来实现特征图的上采样；整个特征增强模块主要分为前端的编码器部分，以及后端的解码器部分；编码器通过两个体积下采样块将特征图尺寸降低到原来1/4，解码器则通过两个体积上采样块将特征图的尺寸恢复到原来的大小，同时分别通过两组跳跃连接的方式将编码器第一个体积下采样块的输入与解码器第二个体积上采样块的输出相加，编码器的第二个体积下采样块的输入与解码器的第一个上采样块的输出相加，通过这样的结构能够融合不同尺度下的特征图；采用这样结构的原因在于姿态估计是一种关联型任务，手部不同的关节点并不是在相同的特征图上具有最好的识别精度，如果只是用统一尺度下的特征图去做最后的估计势必会造成精度的损失；

(2.4)增强的手指特征和手掌特征前向传播到回归模块，融合手掌回归子分支和手指回归子分支并通过一个体积残差块加一个体积基本块输出估计的三维热图；从输出的三维热图中提取出三维坐标使用真实值关节位置的三维热图和网络输出的三维热图的均方误差作为体素回归损失，使用真实值关节位置和提取的三维坐标的均方误差作为关节回归损失；使用高斯函数来生成三维热图，其中高斯函数的均值固定在真实值关节中心位置；

三维热图的公式如下：

表示第n个关键点的真实值三维热图，i_n,j_n,k_n表示第n个关键点的真实值体素坐标；σ²表示高斯函数的方差；

体素回归损失公式如下：

L_t表示估计网络的体素回归损失，

表示第n个关键点的真实值三维热图，H_n(i,j,k)表示网络估计的第n个关节点的三维热图；N表示手部关节点的总个数；

关节回归损失公式如下：

表示第n个关节点的真实值三维坐标，

表示网络估计的第n个关节点的三维坐标；

L＝α(L_p+L_f)+βL_t+γL_g (9)

L表示估计网络总损失，L_p,L_f分别表示手掌和手指的特征细化约束损失，L_t表示估计网络体素回归损失，L_g表示估计网络关节回归损失，α,β,γ是平衡特征细化损失，体素回归损失和关节回归损失的权重；