CN113221726A

CN113221726A - 一种基于视觉与惯性信息融合的手部姿态估计方法及系统

Info

Publication number: CN113221726A
Application number: CN202110502039.3A
Authority: CN
Inventors: 金杰; 陈志华; 周梦伊; 白佳乐; 苏倩
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-08-06

Abstract

本发明公开一种基于视觉与惯性信息融合的手部姿态估计方法及系统，方法包括以下步骤：(1)构建手部姿态数据集；(2)特征提取；包括通过Resnet50残差网络对AR眼镜获取的彩色图像进行视觉信息特征提取最终得到图像特征向量；通过构建卷积神经网络进行惯性信息特征提取得到惯性信息特征向量；将图像特征向量和惯性特征向量连接后得到融合后的特征向量；(3)进行手部2D姿态估计；(4)进行手部3D姿态估计；(5)网络训练及测试；(6)将训练好的手部姿态估计网络模型部署到AR眼镜，通过调用彩色相机以及数据手套，进行实时手部姿态估计。

Description

一种基于视觉与惯性信息融合的手部姿态估计方法及系统

技术领域

本发明涉及人机交互、深度学习、计算机视觉领域，特别是涉及一种基于视觉与惯性信息融合的手部姿态估计方法及系统。

背景技术

随着智能时代的飞速发展，“以人为中心”的人机交互已引起广泛重视。相比于传统使用鼠标、键盘等的交互方式而言，新兴的利用人体自然属性进行人机交互的方式打破了对操作距离、方式单一以及规则设定等条件的限制，成为更加友好的人机交互研究方向。手势是人们日常生活中被广泛运用的一种辅助交流方式，人手结构灵活，动作多样，可以表达丰富的语义信息，而且手势表达自然直观，故基于手势的人机交互方式成为主流的交互方式之一，被广泛应用于增强现实、人机协作、医疗辅助、智能娱乐等多种领域。

根据手部姿态估计数据采集设备的不同可将研究大致分为两类：基于视觉的手部姿态估计和基于穿戴式设备的手部姿态估计。基于视觉的手部姿态估计主要是通过彩色相机、深度相机等捕捉手势运动数据从而进行姿态估计，这种方法输入信息的获取相对简单，对设备的依赖性较低，但此类方法受环境、光照、相机运动等的影响较大。基于穿戴式设备的手部姿态估计主要是通过加速度传感器、三轴陀螺仪、磁场传感器、肌电传感器等传感器采集运动数据，进一步处理重构手部姿态。这种方法能够克服空间距离和自然环境的限制，获取更加准确的数据，而且可以有效地避免视觉遮挡和高时间成本，灵敏度高、沉浸性强。

虽然传统单传感器可以实现特定场景下的手部姿态估计，但很难满足复杂的实际交互场景。为了推动对多模式手部姿态估计方法的研究和分析，越来越多的研究集中将视觉信息和穿戴式信息结合起来，基于视觉的设备可以提供手部姿态的绝对测量信息，基于可穿戴设备的系统可以在基于视觉的摄像机设备未捕捉到手部画面以及手部遮挡情况时进行数据补充，从而进行更加复杂的人机交互工作，现有技术中使用单传感器进行手部姿态估计虽然有不错的姿态估计结果，但是由于单传感器自身限制难以满足复杂应用场景中的人机交互工作，故基于多模态信息探索高精度、强沉浸感的实时手势姿态估计具有重要的理论研究意义与实际应用价值。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于视觉与惯性信息融合的手部姿态估计方法及系统。本发明结合了彩色相机设备以及可穿戴数据手套设备两种传感器进行手部姿态估计，通过视觉信息与惯性信息的融合进行手部姿态估计，利用模态之间的互补性，剔除模态间的冗余性，提高模型的泛化能力，从而提高手部姿态估计的准确率和实时性。

本发明的目的是通过以下技术方案实现的：

一种基于视觉与惯性信息融合的手部姿态估计方法，包括以下步骤：

(1)构建手部姿态数据集；包括采集数据、数据标注、数据对齐；采集的原始数据包括由AR眼镜彩色相机获取的手部动作彩色图像，ToF深度相机获取的手部动作深度图像以及由数据手套内置的惯性测量单元(Inertial measurement unit，IMU)获取的IMU数据，即手部实时惯性数据；

(2)特征提取；特征提取网络包括两部分，分别为Resnet50残差网络以及卷积神经网络(Convolutional Neural Networks,CNN)，用于对原始数据进行特征提取；通过Resnet50残差网络对彩色图像进行视觉信息特征提取得到图像特征向量；构建CNN网络对IMU数据进行惯性信息特征提取得到惯性特征向量；将图像特征向量和惯性特征向量连接后得到融合后的特征向量；

(3)进行手部2D姿态估计；构建手部2D姿态估计网络(Hand2DNet)；根据融合后的特征向量对手部21个关节点的2D坐标位置进行预测；

(4)进行手部3D姿态估计；构建手部3D姿态估计网络(Hand3DNet)；根据Hand2DNet输出的21个关节点的2D坐标，对3D坐标进行估计；

(5)网络训练及测试；手部姿态估计网络由特征提取网络、手部2D姿态估计网络、手部3D姿态估计网络三部分构成，将手部姿态数据集分为训练集以及测试集，对整个手部姿态估计网络进行训练和测试；

(6)将训练好的手部姿态估计网络模型部署到AR眼镜，通过调用彩色相机以及数据手套，进行实时手部姿态估计。

进一步的，步骤(1)中通过AR眼镜配备的彩色相机以及ToF深度相机完成第一人称视角下手部动作彩色图像和深度图像的采集；通过数据手套完成惯性信息的采集；数据标注利用手部动作每帧深度图像获取的手部21关节点的三维坐标作为手部姿态数据集的地面真值。

进一步的，数据手套内置6个惯性测量单元，每个惯性测量单元包含三轴加速度计和三轴陀螺仪，加速度计获取对应关节点的加速度信息，陀螺仪获取对应关节点的角速度信息，从而记录手部运动过程中的惯性信息；数据对齐指通过10帧惯性测量单元数据表征1张彩色图像手部运动时间段的惯性信息变化情况，对应21个关节点的三维空间坐标。

进一步的，步骤(2)的具体步骤如下：

(201)视觉信息特征提取；

使用Resnet50残差网络对AR眼镜获取的彩色图像进行视觉信息特征提取；Resnet50残差网络的输入为手部姿态数据集中的单张彩色图像，输出为2048维的图像特征向量；

残差网络内部的残差块使用跳跃连接，残差网络的表达式为：

H(x)＝F(x)+x

其中，x是输入，F(x)是卷积分支的输出，H(x)是残差网络的输出；

Resnet50残差网络包含49个卷积层和1个全连接层，最后生成2048个神经元；Resnet50残差网络能够从输入的单张彩色图像中提取得到2048维的图像特征向量；

(202)惯性信息特征提取；

构建CNN对惯性测量单元获取的数据进行惯性信息特征提取，CNN包括四层卷积层和一层池化层；卷积神经网络的第一层到第四层为卷积层，用于惯性信息特征提取，第五层为池化层，用于下采样；卷积神经网络的具体结构如下：

输入10帧IMU数据，尺寸为1*10*36；

第一个卷积层卷积核大小为1*3，16个滤波器，padding为0，步长为1*3，卷积后输出10*10*12；

第二个卷积层卷积核大小为2*1，16个滤波器，padding为0，步长为1*1，卷积后输出32*11*12；

第三个卷积层卷积核大小为1*2，32个滤波器，padding为0，步长为1*2，卷积后输出64*11*6；

第四个卷积层卷积核大小为1*6，64个滤波器，padding为0，步长为1*6，卷积后输出128*11*1；

池化层采用自适应平均池化函数，池化层用于下采样；

全连接层最终得到60维的惯性特征向量；

(203)特征连接；将Resnet50残差网络输出的2048维图像特征向量与CNN输出的60维惯性特征向量连接起来，得到2108维特征向量。

进一步的，步骤(3)中手部2D姿态估计是指估计手部21个关节点的二维坐标位置，21个关节点包括每根手指的三个指节和指尖4个点以及手腕处的一个关节点；基于图卷积网络(Graph Convolutional Network,GCN)构建手部2D姿态估计网络Hand2DNet，该网络包括两层图卷积层，具体结构为第一层图卷积输入特征矩阵21*2108，输出特征矩阵21*64；第二层图卷积输入特征矩阵21*64，输出特征矩阵21*2，即21个主要关节点的2D坐标位置。

进一步的，步骤(4)中手部3D姿态估计是指估计手部21个关节点的位置三维坐标位置；基于Graph u-nets构建手部3D姿态估计网络Hand3DNet，该网络采用编码器-解码器结构以及跳跃连接；编码器部分包含四个依次连接的子模块；每个子模块包含一个用于学习手部特征的图卷积层(gConv)，其后连接一个图池化层(gPool)，对图数据中的重要节点进行下采样操作，形成一个新的图进行高级特征编码，每个图池化层将节点数减少；解码器部分也包含四个依次连接的子模块，每个子模块包含一个图卷积层，其后连接一个图解池层(gUnpool)，依次添加图中节点数，将图恢复为原始结构；编码器部分和解码器部分的相应块之间使用跳跃连接，将空间信息传输到解码器以获得更好的性能；Hand3DNet能够简化图形，并获得手的全局特征，还能够通过跳跃连接获得手部的局部特征，实现二维坐标到三维坐标的估计过程；每个3D关键点包含x、y、z坐标，输出维度是21×3。

进一步的，步骤(5)中具体为：分别输入一张彩色图像和对应的IMU数据，由Resnet50残差网络提取彩色图像中的视觉信息特征，由CNN网络提取IMU数据中的惯性信息特征，将视觉特征向量与惯性特征向量连接后输入手部2D姿态估计网络，得到手部21个主要关节点的2D坐标，再将2D坐标输入手部3D姿态估计网络，得到手部21个主要关节点的3D坐标，完成手部姿态估计。

本发明还提供一种基于视觉与惯性信息融合的手部姿态估计系统，基于手部姿态估计方法，包括AR眼镜和数据手套，所述AR眼镜配备有彩色相机以及ToF深度相机；数据手套内置6个惯性测量单元，一个惯性测量单元包含三轴加速度计和三轴陀螺仪，加速度计用于获取对应关节点的加速度信息，陀螺仪用于获取对应关节点的角速度信息，从而记录手部运动过程中的惯性信息。

此外本发明还提供一种基于视觉与惯性信息融合的手部姿态估计系统的应用，基于手部姿态估计系统，所述手部姿态估计系统应用于各类手势姿态估计。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.手部姿态估计适用于复杂场景，应用范围更广。本方法同时采用彩色相机和数据手套进行手部姿态估计，可以结合两种设备的优点，彩色相机获取信息相对简单且自然直观，数据手套能够记录手势姿态的准确信息，克服空间距离和自然环境的限制，灵敏度高、实时性好、沉浸性强，特别是不存在自遮挡的问题。两种设备优点结合，使得该方法可以应用于更复杂场景下的手部姿态估计，满足人机交互实际应用的发展方向。

2.融合多模态特征提高模型泛化能力。本方法通过融合视觉信息和惯性信息，结合彩色图像信息具有更为丰富的视觉特征，以及惯性信息所具有的准确运动学特征，利用模态之间的互补性，剔除模态间的冗余性，提高手部姿态估计的准确率以及模型的泛化能力。

3.手部姿态估计的准确率增大。本方法通过使用图卷积结构对手部关节点进行定位，可以充分利用图结构化数据中节点和节点之间的特征联系，聚合邻居结点的信息，从而估计关节点的位置信息以及拓扑结构，恢复更符合人手结构的姿态信息。

4.本发明使用通过Resnet50残差网络对AR眼镜获取的彩色图像进行视觉信息特征提取最终得到图像特征向量；残差网络内部的残差块使用跳跃连接，能够从某一层网络层获取激活后反馈给同深度的另外一层网络层，或者神经网络的更深层，从而缓解深度神经网络增加深度而导致的梯度消失问题。

附图说明

图1是本发明方法的流程示意图。

图2是Hand3DNet网络结构图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本实施例基于视觉与惯性信息融合的手部姿态估计方法的具体实现步骤如下：

1.手部姿态数据集构建

(101)数据采集

手部姿态数据集的视觉彩色图像采集使用AR眼镜配备的彩色相机以及ToF深度相机完成，被使者佩戴AR眼镜可采集第一人称视角下手部动作彩色图像和深度图像。

惯性信息采集使用简易数据手套设备完成，数据手套内置6个惯性测量单元(Inertial measurement unit，IMU)，每个IMU包含三轴加速度计和三轴陀螺仪，加速度计获取对应关节点的加速度信息，陀螺仪获取对应关节点的角速度信息，从而记录手部运动过程中的惯性信息。

被使者同时佩戴AR眼镜以及数据手套，进行手部动作。单次采集时间为2秒，每隔3帧选取一张彩色图像作为数据样本，即2秒图像数据样本为20张，对应深度图像用于获取地面真实手部位姿。彩色图像大小为1280×720，深度图像大小为224×172×3；2秒可获取200帧IMU数据，一帧IMU数据共计79字节，包含5字节帧头，1字节帧号，72字节帧内容和1字节校验位，其中帧内容包含6个IMU的惯性数据，每个IMU数据包含加速度X轴数据、加速度Y轴数据、加速度Z轴数据、陀螺仪X轴数据、陀螺仪Y轴数据和陀螺仪Z轴数据各2字节，加速度和陀螺仪的各轴数据均是高位在前，低位在后。

(102)数据标注

地面真实手部位姿采用Fang L等人文献[1]中的方法进行注释，输入ToF深度相机捕获的深度图像，得到每帧图像对应的手部21关节点的三维坐标，并进行手动校准。由于AR眼镜ToF深度相机和彩色相机利用外参矩阵转换后坐标位于统一坐标系下，故经过手动校准的每帧深度图像获取的手部21关节点的三维坐标可作为数据集的地面真值。ToF深度相机只在数据采集过程中使用，用于数据地面真值的注释，训练手部姿态估计网络模型过程中，以及实时调用模型时不再需要深度图像。

(103)数据对齐

1张彩色图像对应10帧IMU数据，即用10帧IMU数据表征1张彩色图像手部运动时间段的惯性信息变化情况，对应21个关节点的三维空间坐标。

2.特征提取

(201)视觉信息特征提取

使用Resnet50残差网络对AR眼镜获取的彩色图像进行视觉信息特征提取。Resnet50残差网络的输入为手部姿态数据集中的单张彩色图像，输出为2048维的图像特征向量。

残差网络内部的残差块使用了跳跃连接，可以从某一层网络层获取激活，然后迅速反馈给同深度的另外一层网络层，或者神经网络的更深层，从而缓解深度神经网络增加深度而导致的梯度消失问题，残差网络的表达式为：

H(x)＝F(x)+x

其中，x是输入，F(x)是卷积分支的输出，H(x)是残差网络的输出。

Resnet50残差网络包含49个卷积层和1个全连接层(激活层和池化层不算在内)，最后生成2048个神经元。Resnet50残差网络可以从输入的单张彩色图像中提取得到2048维的图像特征向量。

(202)惯性信息特征提取

构建CNN对IMU获取的数据进行惯性信息特征提取。基于CNN的特征提取网络包括四层卷积层和一层池化层。网络的第一层到第四层为卷积层，用于惯性信息特征提取，第五层为池化层，主要用于下采样。具体结构如下：

输入10帧IMU数据，尺寸为1*10*36；

池化层采用自适应平均池化函数，池化层主要用于下采样。

全连接层，得到60维的特征向量。

(203)特征连接

将Resnet50残差网络输出的2048维图像特征向量与CNN输出的60维惯性特征向量连接起来，得到2108维特征向量。

3.手部2D姿态估计

基于图卷积网络(Graph Convolutional Network,GCN)构建Hand2DNet用于手部2D姿态估计^[2]，根据图像特征向量与惯性特征向量连接得到的2108维特征向量，对手部21个主要关节点的2D坐标位置进行预测。

图(Graph)是一种通过节点和连线线对系统建模进行描述的抽象数据类型，被广泛应用于姿态估计、行为识别等诸多领域。图结构中任意节点的状态更新均依赖于与其存在连接关的n个节点的状态。手部姿态估计主要估计为手部主要21个关节点的位置，包括每根手指的三个指节和指尖4个点以及手腕处的一个关节点。手部关节点的连接是图结构，可以由节点和连线进行表示，与图像不同，它是非欧空间数据。图卷积中的空域卷积的核心可以聚合邻居结点的信息，允许图卷积网络学习基于图的数据节点之间关系的高级表示，故使用图卷积进行姿态估计更具优势。

基于GCN的手部2D姿态估计框架包括两层图卷积层，具体结构如下：

第一层图卷积输入特征矩阵21*2108，输出特征矩阵21*64；

第二层图卷积输入特征矩阵21*64，输出特征矩阵21*2，即21个主要关节点的2D坐标位置。

4.手部3D姿态估计

基于Graph u-nets^[3]构建Hand3DNet用于手部3D姿态估计，根据21个关节点的2D坐标对3D坐标进行估计。

Hand3DNet结构如图2所示，采用编码器-解码器结构以及跳跃连接，根据手势21个关节点的二维坐标估计三维坐标。编码器部分包含四个子模块，四个子模块依次连接。每个子模块包含一个图卷积层(gConv)，学习手部特征，其后连接一个图池化层(gPool)，对图数据中的重要节点进行下采样操作，形成一个新的图进行高级特征编码，每个图池化层将节点数大致减少一半，原始图中共有21个手部关节点，经过四层图池化操作后得到的新图节点数分别为11,5,3,1。解码器部分也包含四个子模块，四个子模块依次连接。每个子模块包含一个图卷积层，其后连接一个图解池层(gUnpool)，依次添加图中节点数，将图恢复为原始结构。编码器部分和解码器部分的相应块之间使用跳跃连接，将空间信息传输到解码器以获得更好的性能。

Hand3DNet可以简化图形，并获得手的全局特征，还可以通过跳跃连接获得手部的局部特征，实现二维坐标到三维坐标的估计过程。每个3D关键点包含x、y、z坐标，输出维度是21×3。

编码器部分：

第一个子模块，图卷积层输入特征矩阵21*2，输出特征矩阵21*4；图池化层输入特征矩阵21*4，输出特征矩阵11*4；

第二个子模块，图卷积层输入特征矩阵11*4，输出特征矩阵11*8；图池化层输入特征矩阵11*8，输出特征矩阵5*8；

第三个子模块，图卷积层输入特征矩阵5*8，输出特征矩阵5*16；图池化层输入特征矩阵5*16，输出特征矩阵3*16；

第四个子模块，图卷积层输入特征矩阵3*16，输出特征矩阵3*32；图池化层输入特征矩阵3*32，输出特征矩阵1*32；

第一个全连接层，输入特征矩阵1*32，输出特征矩阵1*20；

第二个全连接层，输入特征矩阵1*20，输出特征矩阵1*32；

解码器部分：

第五个子模块，图解池化层输入特征矩阵1*32，输出特征矩阵3*32；图卷积层输入特征矩阵3*32，输出特征矩阵3*16；

第六个子模块，图解池化层输入特征矩阵3*16，输出特征矩阵5*16；图卷积层输入特征矩阵5*16，输出特征矩阵5*8；

第七个子模块，图解池化层输入特征矩阵5*8，输出特征矩阵11*8；图卷积层输入特征矩阵11*8，输出特征矩阵11*4；

第八个子模块，图解池化层输入特征矩阵11*4，输出特征矩阵21*4；图卷积层输入特征矩阵21*4，输出特征矩阵21*3，即21个主要关节点的3D坐标位置。

激活函数为线性整流函数(Rectified Linear Unit,ReLU)，ReLU函数的数学表达式为：

f(x)＝max(0,x)

在神经网络中，线性整流作为神经元的激活函数，定义了该神经元在线性变换之后的非线性输出结果。

5.网络训练及测试

将手部姿态数据集分为训练集以及测试集，对整个手部姿态估计网络进行训练和测试，具体过程如下：分别输入一张彩色图像和对应的IMU数据，由Resnet50残差网络对彩色图像进行视觉信息特征提取得到图像特征向量，由CNN网络对IMU数据进行惯性信息特征提取得到惯性特征向量，将图像特征向量和惯性特征向量连接后输入手部2D姿态估计网络Hand2DNet，得到手部21个主要关节点的2D坐标，再将其输入手部3D姿态估计网络Hand3DNet，得到手部21个主要关节点的3D坐标，完成手部姿态估计。

6.模型部署

将训练好的手部姿态估计网络模型部署到AR眼镜，通过调用彩色相机以及数据手套，进行实时手部姿态估计。

综上，本发明方法适用于当前各类手势姿态估计实际应用，尤其是在增强现实情境中，结合AR眼镜与数据手套设备，通过对手部姿态估计进行虚拟现实交互，可以增强沉浸感。克服了传统单相机设备输入只能对视线范围内的手部姿态进行估计的限制以及单相机存在的严重手部遮挡问题，也克服了数据手套无法与实际应用环境相结合的限制，能够更好地服务于各种现实环境中的人机交互工作。

参考文献：

[1]Fang L,Liu X,Liu L,et al.JGR-P2O:Joint Graph Reasoning basedPixel-to-Offset Prediction Network for 3D Hand Pose Estimation from a SingleDepth Image[C]//European Conference on Computer Vision.Springer,Cham,2020:120-137.

[2]Doosti B,Naha S,Mirbagheri M,et al.HOPE-Net:A Graph-based Modelfor Hand-Object Pose Estimation[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2020:6608-6617.

[3]Gao H,Ji S.Graph u-nets[J].arXiv preprint arXiv:1905.05178,2019.

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于视觉与惯性信息融合的手部姿态估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于视觉与惯性信息融合的手部姿态估计方法，其特征在于，步骤(1)中通过AR眼镜配备的彩色相机以及ToF深度相机完成第一人称视角下手部动作彩色图像和深度图像的采集；通过数据手套完成惯性信息的采集；数据标注利用手部动作每帧深度图像获取的手部21关节点的三维坐标作为手部姿态数据集的地面真值。

3.根据权利要求2所述一种基于视觉与惯性信息融合的手部姿态估计方法，其特征在于，数据手套内置6个惯性测量单元，每个惯性测量单元包含三轴加速度计和三轴陀螺仪，加速度计获取对应关节点的加速度信息，陀螺仪获取对应关节点的角速度信息，从而记录手部运动过程中的惯性信息；数据对齐指通过10帧惯性测量单元数据表征1张彩色图像手部运动时间段的惯性信息变化情况，对应21个关节点的三维空间坐标。

4.根据权利要求1所述一种基于视觉与惯性信息融合的手部姿态估计方法，其特征在于，步骤(2)的具体步骤如下：

(201)视觉信息特征提取；

H(x)＝F(x)+x

(202)惯性信息特征提取；

输入10帧IMU数据，尺寸为1*10*36；

池化层采用自适应平均池化函数，池化层用于下采样；

全连接层最终得到60维的惯性特征向量；

5.根据权利要求1所述一种基于视觉与惯性信息融合的手部姿态估计方法，其特征在于，步骤(3)中手部2D姿态估计是指估计手部21个关节点的二维坐标位置，21个关节点包括每根手指的三个指节和指尖4个点以及手腕处的一个关节点；基于图卷积网络(GraphConvolutional Network,GCN)构建手部2D姿态估计网络Hand2DNet，该网络包括两层图卷积层，具体结构为第一层图卷积输入特征矩阵21*2108，输出特征矩阵21*64；第二层图卷积输入特征矩阵21*64，输出特征矩阵21*2，即21个主要关节点的2D坐标位置。

6.根据权利要求1所述一种基于视觉与惯性信息融合的手部姿态估计方法，其特征在于，步骤(4)中手部3D姿态估计是指估计手部21个关节点的位置三维坐标位置；基于Graphu-nets构建手部3D姿态估计网络Hand3DNet，该网络采用编码器-解码器结构以及跳跃连接；编码器部分包含四个依次连接的子模块；每个子模块包含一个用于学习手部特征的图卷积层(gConv)，其后连接一个图池化层(gPool)，对图数据中的重要节点进行下采样操作，形成一个新的图进行高级特征编码，每个图池化层将节点数减少；解码器部分也包含四个依次连接的子模块，每个子模块包含一个图卷积层，其后连接一个图解池层(gUnpool)，依次添加图中节点数，将图恢复为原始结构；编码器部分和解码器部分的相应块之间使用跳跃连接，将空间信息传输到解码器以获得更好的性能；Hand3DNet能够简化图形，并获得手的全局特征，还能够通过跳跃连接获得手部的局部特征，实现二维坐标到三维坐标的估计过程；每个3D关键点包含x、y、z坐标，输出维度是21×3。

7.根据权利要求1所述一种基于视觉与惯性信息融合的手部姿态估计方法，其特征在于，步骤(5)中具体为：分别输入一张彩色图像和对应的IMU数据，由Resnet50残差网络提取彩色图像中的视觉信息特征，由CNN网络提取IMU数据中的惯性信息特征，将视觉特征向量与惯性特征向量连接后输入手部2D姿态估计网络，得到手部21个主要关节点的2D坐标，再将2D坐标输入手部3D姿态估计网络，得到手部21个主要关节点的3D坐标，完成手部姿态估计。

8.一种基于视觉与惯性信息融合的手部姿态估计系统，基于权利要求1所述手部姿态估计方法，其特征在于，包括AR眼镜和数据手套，所述AR眼镜配备有彩色相机以及ToF深度相机；数据手套内置6个惯性测量单元，一个惯性测量单元包含三轴加速度计和三轴陀螺仪，加速度计用于获取对应关节点的加速度信息，陀螺仪用于获取对应关节点的角速度信息，从而记录手部运动过程中的惯性信息。

9.一种基于视觉与惯性信息融合的手部姿态估计系统的应用，基于权利要求8所述手部姿态估计系统，其特征在于，所述手部姿态估计系统应用于各类手势姿态估计。