CN115880724A

CN115880724A - 一种基于rgb图像的轻量化三维手部姿态估计方法

Info

Publication number: CN115880724A
Application number: CN202211628762.7A
Authority: CN
Inventors: 佘青山; 陈炫琦; 马玉良; 席旭刚
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-12-17
Filing date: 2022-12-17
Publication date: 2023-03-31

Abstract

本发明涉及一种基于RGB图像的轻量化三维手部姿态估计方法，首先，使用多个sandglass残差块串联堆叠，用于进行局部的特征建模。其次，在部分sandglass残差块之后，对特征进行“展开”操作，并以Transformer块结构进行全局的特征建模，再对特征进行“折叠”，并进行特征融合。然后，在Transformer块中引入可分离自注意力机制，降低自注意力的计算复杂度。最后，将特征图通过卷积得到二维手部姿态热图，两者拼接后通过卷积得到关节向量图，再次拼接后再通过卷积得到三维手部姿态热图，最终实现三维手部姿态估计。本发明从RGB图像中直接估计三维手部姿态，并且能够在具有较高的估计精度的同时保持优良的计算效率，能够在人机交互、虚拟现实、手势识别等领域具有广阔的应用前景。

Description

一种基于RGB图像的轻量化三维手部姿态估计方法

技术领域

本发明涉及一种基于RGB图像的轻量化三维手部姿态估计方法，利用多层轻量的sandglass残差连接块提取图像局部特征，再结合视觉Transfomer块结构提取图像全局特征，最终再通过卷积将二维手部姿态热图提升为三维姿态热图，实现基于RGB图像的三维手部姿态估计，属于计算机视觉、深度学习技术领域。

背景技术

近年来，由于深度学习卷积神经网络的发展，手部姿态估计任务也有着飞速的发展，在过去的十几年里提出了很多效果不错的方法。根据获取手部姿态的信息表示方式，可以将手部姿态估计的任务划分为二维和三维两种情况。由于RGB图像的获取相较于具有深度信息RGB-D图像而言，所需的设备成本以及计算成本更低，所以基于RGB图像的手部姿态估计更具研究价值。而三维手部姿态估计能更精确地的表示手部关节点的位置，故在缺乏深度信息的RGB图像中，精确估计出手部关节点的三维信息具有挑战性。

在深度学习研究兴起之前，传统的机器学习算法通常用于手部姿态估计的研究。例如，Rehg和Wang等人开发了可视化的手部跟踪程序，并使用物理外设完成手部跟踪和交互任务。这些传统方法通常使用三维动态模型来拟合模型。后来由于人体姿态估计方法的突破，神经网络被广泛应用于姿态估计。人体姿态估计和手部姿态估计是两个密切相关的研究领域，受人体姿态估计的启发，提出了许多手部姿态估计方法。Spurr等人提出了一种使用生成模型同时应用于RGB和深度图像的方法。该方法采用半监督学习方法，利用交叉模态训练网络获取手部空间模型。Cai等人提出了一种弱监督方法，在训练中使用深度图像，在测试中使用RGB图像作为联合预测。该方法对预测的三维姿态进行深度图像回归，补充了三维姿态回归中的弱监督模式。

近年来，很多基于RGB图像的手部姿态估计方法都是基于手部的二维骨骼关键点检测，然后利用二维信息提升到三维。Franziska等提出了一种结合了神经网络和运动学约束的手位姿估计模型，用以解决单目RGB图像手的跟踪和位姿估计问题，他们认为这种组合对数据的泛化是有效的，并且对手部骨骼关键点的估计在运动中不同的相机视角下更具鲁棒性。同时，提出了一种基于几何一致性的图像转换方法，利用神经网络将合成数据“转换”为真实数据，从而更有利于得到鲁棒性更强的三维模型。Liuhao等人提出了一种使用RGB图像估计手姿并生成手形的方法，主要分为两个训练。在一阶段中，作者使用合成数据进行训练，通过沙漏网络模型与图卷积网络，最终线性回归生成手部姿态。然后在二阶段中对一阶段的模型进行微调，用于真实数据的训练，一定程度上提高了模型的泛化性，能够使其在真实场景中效果得到改善。Yuxiao等人提出了一种利用多模态数据的单目手部运动捕捉方法，从单张图像恢复手部的二维关键点表示，通过二维关键点恢复手部的三维关键点和形状。在二维关键点检测中，通过卷积网络得到手部关键点的热图，通过热图回归找到二维关键点的表示。在三维关键点检测部分，参考VNect的人体姿态估计网络，通过二维关键点热图和图像特征回归手部三维姿态。

由上述研究可知，理想情况下，能实现实时人机交互等应用的手部姿态捕获的方法应该在低成本的情况下直接反馈给用户，利用低成本的RGB相机可以降低图像获取成本和功耗，并且可以以较好的精度以及较低的计算复杂度，实现以高精度、低延迟的手部的三维手部姿态估计，以实现应用。而三维的手部姿态估计非常具有挑战性，特别是来自单目RGB图像，由于没有深度信息，导致手部三维姿态难以准确估计；二是因为单目RGB图像有着固有的单眼环境的深度模糊性，会导致手部姿态部分遮挡，姿态难以估计；最后由于三维的姿态估计精度较高的网络结构往往伴随更高的计算复杂度，在硬件算力不足时显著影响实际效果。因此建立一种基于RGB图像的轻量化网络模型来实现精确的三维手部姿态关键点估计并保持较低的计算复杂度是当前三维手部姿态关键点估计研究的研究重点。

发明内容

针对以上问题，本发明设计并实现了基于RGB图像的轻量化三维手部姿态估计方法，在保证估计精度的同时减少更多的计算成本。本发明首先设计了多个串联的sandglass残差卷积块，用于进行局部的特征建模。其次，在部分残差块之后，对特征进行“展开”操作，再以Transformer块结构进行全局的特征建模，再特征进行“折叠”，并进行特征融合。然后，在Transformer块中引入可分离自注意力机制，降低自注意力的计算复杂度。最后，将特征图通过卷积得到二维手部姿态热图，两者拼接后通过卷积得到关节向量图，再次拼接后再通过卷积得到三维手部姿态热图，最终实现三维手部姿态估计。

一种基于RGB图像的轻量化三维手部姿态估计方法的具体步骤如下：

步骤一：使用多个sandglass残差块串联堆叠，保证卷积所具有的归纳偏置特性，用于进行局部的特征建模。

步骤二：分别在第4、5、6个sandglass残差块之后，将特征图通过卷积核为1×1的卷积层调整特征通道数，对特征进行“展开”，再以Transformer块结构进行全局的特征建模，再通过一个卷积核大小为1×1的卷积层将通道数调整回原始大小，对特征进行“折叠”，并通过1×1的卷积层实现特征融合。

步骤三：在用于全局特征建模的Transformer块中引入可分离自注意力机制，降低自注意力的计算复杂度。

步骤四：将特征图通过卷积得到二维手部姿态热图，两者拼接后通过卷积得到关节向量图，再次拼接后再通过卷积得到三维手部姿态热图，最终实现三维手部姿态估计。

本发明与已有的基于RGB图像的三维手部姿态估计方法相比，具有如下特点：

1、设计了一种更为轻量的特征提取网络，用于从RGB图像中提取特征，回归二维、三维手部姿态热图，克服了已有方法计算速度慢的问题。采用多个轻量的sandglass卷积残差块进行堆叠，用于进行局部特征建模，既保留了逐点卷积、深度可分离卷积所带来的计算复杂度的降低，又将深度可分离卷积应用到更高维度的特征上，从而可以对更丰富的空间信息进行编码。

2、在主干网络中部分sandglass残差块之间，引入具有可分离自注意力的视觉Transformer，它对输入特征图具备捕捉全局感受野的能力，能在空间维度上建立全局依赖关系，从而学习到全局视觉表征信息。而其中的可分离自注意力降低了自注意力的计算复杂度，能够在手部姿态估计实际推理中降低延迟。所以本发明在保证了3D手部姿态估计的精度同时也提升了模型计算的速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于RGB图像的轻量化三维手部姿态估计方法的实施流程图；

图2为本发明sandglass结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一种基于RGB图像的轻量化三维手部姿态估计方法，图1为实施流程图。

如图1，本发明方法的实施主要包括四个步骤：步骤一：将多个sandglass残差块串联堆叠，用于局部的特征建模；步骤二：对特征进行“展开”操作，再以Transformer块结构进行全局的特征建模，再对特征进行“折叠”，并进行特征融合；步骤三：Transformer块中引入可分离自注意力机制，降低自注意力的计算复杂度，步骤四：将特征图通过卷积得到二维手部姿态热图，两者拼接后通过卷积得到关节向量图，再次拼接后再通过卷积得到三维手部姿态热图，最终实现三维手部姿态估计。

下面逐一对各步骤进行详细说明。

本发明方法引入了sandglass残差块结构，如图2所示为sandglass结构图。其中主分支中的第一个和最后一个卷积层是保留通道数不变的深度可分离卷积层。为了模拟经典的瓶颈块结构，在两个深度可分离卷积层之间使用两个连续的逐点卷积堆叠，来先减少再增加通道数。因为1×1的逐点卷积会导致空间信息的减弱，因此将两个3×3的卷积置于两个1×1的卷积之外，并适当地将两个深度可分离卷积应用到更高维度的特征上，从而可以对更丰富的空间信息进行编码，以生成更具表现力的空间信息。

假设

表示输入特征，

表示输出特征，该模块可以采用如下公式表示：

其中φ_i,p，φ_i,d分别表示第i个逐点卷积与深度卷积，确保了深度可分离卷积在高维空间处理并得到更丰富的特征表达。sandglass残差块基本信息如表1所示，其中t和s分别表示通道缩减率和步长。

表1sandglass残差块基本信息

步骤二：分别在第4、5、6个sandglass残差块之后，对特征进行“展开”操作，以Transformer块结构进行全局的特征建模，再对特征进行“折叠”，并进行特征融合。

将之前sandglass块输出作为d维的输入特征

首先应用一个n×n标准卷积层，再用1×1的点卷积层产生特征X_L。为了让模型具有空间归纳偏置的全局表示，将特征X_L展开为N个不重叠的patch，用

表示。这里，P＝wh，而

是patch的数量，h≤n和w≤n分别是patch的高度和宽度。根据式(3)，对于每个patch，即p∈{1,···,P}，通过Transformer对patch间的关系进行编码从而得到

X_G(p)＝ Transformer (X_U(p)),1≤p≤P (3)

因为这个操作并不会丢失patch的顺序，也不会丢失每个patch内像素的空间顺序，所以可以折叠

得到

接着，使用逐点卷积将XF投影到低维空间，并通过拼接操作与特征X组合，然后使用另一个n×n卷积层来融合这些特征。对特征X_U(p)使用卷积对n×n区域的局部信息进行编码，X_G(p)对第p个位置的patch的全局信息进行编码，X_G中的每个像素都可以编码来自X中所有像素的信息，所以总的有效感受野为H×W。

可分离自注意力的结构与Transformer中使用的多头自注意力类似，将Transformer的输入X_input分别使用输入I、键K和值V三个分支处理。输入分支I使用具有权重W_I的线性层将X_input中的每个d维token映射为标量。权重W_I用来表示潜在token与X_input间的距离，从而产生一个k维向量，然后使用softmax函数以产生上下文分数

与针对所有k个token计算每个token的注意力分数不同，可分离自注意力仅计算关于潜在token的注意力分数。这样可以使得计算注意力分数的时间复杂度从O(k²)下降到O(k)。

由式(4)，上下文向量C_v通过上下文分数C_s得到，其中

由具有权重

的键分支K将输入X_input线性投影到d维空间后得到。

C_v中编码的上下文信息与X_input中的所有token共享。为此，使用权重为W_V的值分支V将输入X_input线性投影到d维空间

然后使用ReLU激活函数后产生输出

最后将得到的输出馈送到具有权重

的另一个线性层后产生最终输出

先将主干网络的输出特征图F通过两层卷积网络得到包含21个手部关节点的关节预测置信图，即二维热图H。再将特征图F与二维热图H拼接后通过两层卷积得到关节向量图D。关节向量图D中的每一个像素分别编码了各个骨骼关节的方向，表示的是从父关节到子关节的3D向量。接下来，将二维热图H、特征图F与关节向量图D再次拼接，通过另一个两层卷积后得到最终的关节位置图L，分别从X、Y、Z坐标轴表示的图中选择置信度最大的点所对应的值为做坐标轴的数值，从而得到最终的3D手部姿态坐标。

损失函数L如下：

L＝L_H+L_D+L_L (5)

其中L_H确保回归的二维热图H接近真实标注的热图H’，如式(6)表示。

如式(7)、(8)所示，L_D、L_L分别测量真实标注的关节向量图D、关节位置图L与预测的关节向量图D、关节位置图L之间的差异。真实标注的关节位置图L'和关节向量图D'是通过将真实关节位置和骨骼方向的坐标平铺到热图的大小来构建的。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于RGB图像的轻量化三维手部姿态估计方法，其特征在于：包括以下步骤：

步骤一：将多个sandglass残差块串联堆叠，保证卷积所具有的归纳偏置特性，用于局部的特征建模；

步骤二：对特征进行“展开”操作，再以Transformer块结构进行全局的特征建模，再对特征进行“折叠”，并进行特征融合；

步骤三：在用于全局特征建模的Transformer块中引入可分离自注意力机制，降低自注意力的计算复杂度；

2.根据权利要求1所述的一种基于RGB图像的轻量化三维手部姿态估计方法，其特征在于：所述步骤一具体包括：

引入了sandglass残差块结构，其中主分支中的第一个和最后一个卷积层是保留通道数不变的深度可分离卷积层，模拟经典的瓶颈块结构，在两个深度可分离卷积之间使用两个连续的逐点卷积堆叠，来先减少再增加通道数，因为1×1的逐点卷积会导致空间信息的减弱，将两个3×3的卷积置于两个1×1的卷积之外，并适当地将两个深度可分离卷积应用到更高维度的特征上，从而可以对更丰富的空间信息进行编码，以生成更具表现力的空间信息，

假设

表示输入特征，

表示输出特征，该模块可以采用如下公式表示：

其中，φ_i,p，φ_i,d分别表示第i个逐点卷积与深度卷积，确保深度卷积在高维空间处理并得到更丰富的特征表达。

3.根据权利要求1所述的一种基于RGB图像的轻量化三维手部姿态估计方法，其特征在于：所述步骤二具体包括：

将sandglass块输出作为d维的输入特征

应用一个n×n标准卷

积层，再用1×1的点卷积层产生特征X_L，让模型具有空间归纳偏置的全局表示，将特征X_L展开为N个不重叠的patch，用

表示，P＝wh，而

是patch的数量，h≤n和w≤n分别是patch的高度和宽度，根据式(3)，对于每个patch，即p∈{1,···,P}，通过Transformer对patch间的关系进行编码从而得到

X_G(p)＝Transformer(X_U(p)),1≤p≤P(3)

可以折叠

得到

使用逐点卷积将X_F投影到低维空间，并通过级联操作与特征X组合，使用另一个n×n卷积层来融合这些连接的特征，对特征X_U(p)使用卷积对n×n区域的局部信息进行编码，X_G(p)对第p个位置的patch的全局信息进行编码，X_G中的每个像素都可以编码来自X中所有像素的信息，总的有效感受野为H×W。

4.根据权利要求1所述的一种基于RGB图像的轻量化三维手部姿态估计方法，其特征在于：所述步骤三具体包括：

可分离自注意力的结构与Transformer中使用的多头自注意力类似，将Transformer的输入X_input分别使用输入I、键K和值V三个分支处理，输入分支I使用具有权重W_I的线性层将X_input中的每个d维token映射为标量，权重W_I用来表示潜在token与X_input间的距离，从而产生一个k维向量，然后使用softmax函数以产生上下文分数

与针对所有k个token计算每个token的注意力分数不同，可分离自注意力仅计算关于潜在token的注意力分数，这样可以使得计算注意力分数的时间复杂度从O(k²)下降到O(k)；

由式(4)，上下文向量C_v通过上下文分数Cs得到，其中

由具有权重

的键分支K将输入X_input线性投影到d维空间后得到，

C_v中编码的上下文信息与X_input中的所有token共享，使用权重为W_V的值分支V将输入X_input线性投影到d维空间

然后使用ReLU激活函数后产生输出

将得到的输出馈送到具有权重

的另一个线性层后产生最终输出

5.根据权利要求1所述的一种基于RGB图像的轻量化三维手部姿态估计方法，其特征在于：所述步骤四具体包括：

先将主干网络的输出特征图F通过两层卷积网络得到包含21个手部关节点的关节预测置信图，即二维热图H，再将特征图F与二维热图H拼接后通过两层卷积得到关节向量图D，关节向量图D中的每一个像素分别编码了各个骨骼关节的方向，表示的是从父关节到子关节的3D向量，将二维热图H、特征图F与关节向量图D再次拼接，通过另一个两层卷积后得到最终的关节位置图L，分别从X、Y、Z坐标轴表示的图中选择置信度最大的点所对应的值为做坐标轴的数值，得到最终的3D手部姿态坐标：

损失函数L如下：

L＝L_H+L_D+L_L(5)

其中L_H确保回归的二维热图H接近真实标注的热图H’，如式(6)表示，如式(7)、(8)所示，L_D、L_L分别测量真实标注的关节向量图D、关节位置图L与预测的关节向量图D、关节位置图L之间的差异，真实标注的关节位置图L'和关节向量图D'是通过将真实关节位置和骨骼方向的坐标平铺到热图的大小来构建的，