CN113627397A

CN113627397A - 一种手部姿态识别方法、系统、设备和存储介质

Info

Publication number: CN113627397A
Application number: CN202111180272.0A
Authority: CN
Inventors: 蒋杰; 刘阳; 王翔汉; 孙家豪; 杨君燕; 何亦湘; 白亮; 康来; 魏迎梅; 谢毓湘
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2021-11-09
Anticipated expiration: 2041-10-11
Also published as: CN113627397B; US11688098B2; US20230116029A1

Abstract

本申请涉及一种手部姿态识别方法、系统、设备和存储介质，该方法包括：从RGB摄像头捕获了手部的RGB图像，从主动深度摄像头捕获了手部的深度图像，根据所述立体声图像和所述深度图像获取手部姿态数据集；将所述手部姿态数据集进行处理，得到3D关节位置，将所述3D关节位置作为数据集标注用于软件模型的训练；通过基于深度神经网络的特征提取器提取所述RGB图像，得到手部姿态的特征图；根据注意力机制处理所述特征图，得到手部姿态的全局特征图，并利用所述全局特征图得到手部姿态的识别结果。该识别方法在提供识别精确度的同时，验证了坐标注意力机制模块和多光谱注意力机制模块在手部姿态估计网络特征提取器中的有效性。

Description

一种手部姿态识别方法、系统、设备和存储介质

技术领域

本申请涉及人工智能领域，特别是涉及一种手部姿态识别方法、系统、设备和存储介质。

背景技术

随着信息化时代的不断发展，各种搭载人工智能信息系统的电子设备融入我们的生活之中，人机交互的需求日益凸显。而作为手部交互的基础性工作，人体手部位置识别定位与姿态估计，也有着巨大的研究价值。利用深度学习进行手部姿态估计有许多方法。有基于图像加深度信息的方法，有直接基于RGB图像的方法，也有基于双目乃至多目视觉的方法。在此之中，基于单幅RGB图像的手部姿态估计方法由于其实现简单，对硬件要求较低，便于推广等诸多优点而更为受到人们的关注。

利用深度学习方法，基于单幅RGB图像进行手部姿态估计，其中一个令人瞩目的方法是InterNet， InterNet通过输入单幅标注后的RGB图像通过一个深度神经网络特征提取器和全连接网络的后续热图估计和位置拟合，精准估计手部姿态位置。作为作者提出数据集，该方法提升了手部姿态估计的性能，在STB数据集上实现了解决了交互式手部姿态估计的难题。但是，上述识别过程存在识别精度不高的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种手部姿态识别方法、系统、设备和存储介质。

第一方面，本发明实施例提供了一种手部姿态识别方法，包括以下步骤：

从RGB摄像头捕获了手部的RGB图像，从主动深度摄像头捕获了手部的深度图像，根据所述RGB图像和所述深度图像获取手部姿态数据集；

将所述手部姿态数据集进行处理，得到3D关节位置，将所述3D关节位置作为数据集标注用于深度神经网络模型的训练；

通过基于深度神经网络的特征提取器提取所述RGB图像，得到手部姿态的特征图；

根据注意力机制处理所述特征图，得到手部姿态的全局特征图，并利用所述全局特征图得到手部姿态的识别结果。

进一步的，所述通过基于深度神经网络的特征提取器提取所述RGB图像，得到手部姿态的特征图，包括：

在所述特征提取器中加入由输入层，瓶颈层和扩展层组成反转残差模块；

在所述反转残差模块前的可分离卷积末尾加入ACON激活函数；

通过设立超参数来学习在具体的网络位置，获取所述激活函数区域线性和非线性的程度。

进一步的，所述根据注意力机制处理所述特征图，得到手部姿态的全局特征图，并利用所述全局特征图得到手部姿态的识别结果，包括：

在所述特征提取器中引入坐标注意力机制模块，根据所述坐标注意力机制模块处理所述特征图，提高所述特征图的分辨率和信息完备度；

在所述特征提取器中引入多光谱注意力机制模块，根据所述多光谱注意力机制模块在手部姿态中估计网络特征提取的有效程度。

根据所述特征图的处理结果，得到手部三维姿态估计位置热图；

将所述特征图进行平均池化的外形调整后得到手掌根部节点的位置信息并判断左右手部种类。

另一方面，本发明实施例还提供了一种手部姿态识别系统，包括：

数据集模块，用于从RGB摄像头捕获了手部的RGB图像，从主动深度摄像头捕获了手部的深度图像，根据所述RGB图像和所述深度图像获取手部姿态数据集；

图像预处理模块，用于将所述手部姿态数据集进行处理，得到3D关节位置，将所述3D关节位置作为数据集标注用于深度神经网络模型的训练；

特征图提取模块，用于通过基于深度神经网络的特征提取器提取所述RGB图像，得到手部姿态的特征图；

特征图识别模块，用于根据注意力机制处理所述特征图，得到手部姿态的全局特征图，并利用所述全局特征图得到手部姿态的识别结果。

进一步的，所述特征图提取模块包括反转残差单元，所述反转残差单元用于：

在所述反转残差模块前的可分离卷积末尾加入ACON激活函数；

进一步的，所述特征图识别模块包括注意力机制单元，所述注意力机制单元用于：

进一步的，所述特征图识别模块包括结果识别单元，所述结果识别单元用于：

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本申请的有益效果是：本发明实施例公开了一种手部姿态识别方法、系统、设备和存储介质，该方法首先从RGB摄像头捕获了手部的RGB图像，从主动深度摄像头捕获了手部的深度图像，根据所述立体声图像和所述深度图像获取手部姿态数据集；将所述手部姿态数据集进行处理，得到3D关节位置，将所述3D关节位置作为数据集标注用于软件模型的训练；通过基于深度神经网络的特征提取器提取所述RGB图像，得到手部姿态的特征图；根据注意力机制处理所述特征图，得到手部姿态的全局特征图，并利用所述全局特征图得到手部姿态的识别结果。该识别方法在提供识别精确度的同时，验证了坐标注意力机制模块和多光谱注意力机制模块在手部姿态估计网络特征提取器中的有效性，相对于现有技术该坐标注意力机制对于网络性能的改进更为优秀。在手部姿态估计的数据获取等方面，通过该方法可以逐渐用自动或半自动方法取代人工标注，通过利用神经网络等学习模型进行较为精确的标注有助于降低人工标注带来的工作量负担。

附图说明

图1为一个实施例中手部姿态识别方法的流程示意图；

图2为一个实施例中反转残差模块处理特征图的流程示意图；

图3为一个实施例中注意力机制模块处理特征图的流程示意图；

图4为一个实施例中全局特征图识别结果的流程示意图；

图5为一个实施例中手部姿态识别系统的结构框图；

图6为一个实施例中设备的内部结构图。

具体实施方式

在一个实施例中，如图1所示，提供了一种手部姿态识别方法，该方法包括以下步骤：

步骤101，从RGB摄像头捕获了手部的RGB图像，从主动深度摄像头捕获了手部的深度图像，根据所述RGB图像和所述深度图像获取手部姿态数据集；

步骤102，将所述手部姿态数据集进行处理，得到3D关节位置，将所述3D关节位置作为数据集标注用于深度神经网络模型的训练；

步骤103，通过基于深度神经网络的特征提取器提取所述RGB图像，得到手部姿态的特征图；

步骤104，根据注意力机制处理所述特征图，得到手部姿态的全局特征图，并利用所述全局特征图得到手部姿态的识别结果。

具体地，从RGB图像进行手部姿态估计一直是一项伴随诸多困难的任务，由于深度信息的不完备性等。InterNet通过其独特的设计将手部姿态估计的精确度提升到了新的高度，但仍存在很大的潜力，我们基于MobileNet v3和MoGA网络的架构，重新设计了一个特征提取器，该特征提取器引入了计算机视觉领域最新的成果，诸如ACON激活函数和新的注意力机制模块等，将其有效地运用在网络架构中，能够对手部RGB图像更好地提取全局特征，相较于InterNet有较大的性能提升，并在多个数据集上取得了state of the art。我们通过引入了多光谱注意力机制FcaLayer在全连接网络前处理得到的特征图，以使得其保留更多频域信息以提升性能；我们改进了网络的整体训练方式，从可用数据中获取更多信息。该识别方法在提供识别精确度的同时，验证了坐标注意力机制模块和多光谱注意力机制模块在手部姿态估计网络特征提取器中的有效性，相对于现有技术该坐标注意力机制对于网络性能的改进更为优秀。在手部姿态估计的数据获取等方面，通过该方法可以逐渐用自动或半自动方法取代人工标注，通过利用神经网络等学习模型进行较为精确的标注有助于降低人工标注带来的工作量负担。

在一个实施例中，如图2所示，反转残差模块处理特征图的流程包括：

步骤201，在所述特征提取器中加入由输入层，瓶颈层和扩展层组成反转残差模块；

步骤202，在所述反转残差模块前的可分离卷积末尾加入ACON激活函数；

步骤203，通过设立超参数来学习在具体的网络位置，获取所述激活函数区域线性和非线性的程度。

具体地，本实施例采用了反转残差模块。这种模块也被应用到MobileNet v3和MoGA的系列网络中。反转残差模块与残差模块类似，由输入，瓶颈和扩展组成。在前人的研究中，已被证明瓶颈实际上包含所有必要的信息，而扩展层仅作为伴随张量非线性变换的实现细节。直接在瓶颈间插入类似于残差连接的shortcut连接。其设计与残差模块的设计差异。在实际的应用中，被证明相较于传统的残差模块能具有更高的内存效率和实验效果。本实施例提出了ACON激活函数。该从定义n个参数最大值的max函数出发，确定了其光滑可微的近似函数——smooth maximum。以此为基础推论，证明了swish函数为ReLU函数的平滑逼近。在此之上，本实施例仿照ReLU函数族建立了ACON函数族，并通过设立超参数来学习在具体的网络位置整个激活函数区域线性和非线性的程度门从而达到在激活和不激活的状态间切换。我们在特征提取器的反转残差模块前的可分离卷积末尾加入了此种激活函数，取得了较好的效果。

在一个实施例中，如图3所示，注意力机制模块处理特征图的流程包括：

步骤301，在所述特征提取器中引入坐标注意力机制模块，根据所述坐标注意力机制模块处理所述特征图，提高所述特征图的分辨率和信息完备度；

步骤302，在所述特征提取器中引入多光谱注意力机制模块，根据所述多光谱注意力机制模块在手部姿态中估计网络特征提取的有效程度。

具体地，在此前的手部姿态估计任务中，注意力机制模块很少被使用。其中的一个原因是注意力机制研究尚处于方兴未艾阶段，提出了许多诸如空间或是频域的注意力机制在手部姿态估计任务中并没有提升网络的性能；另一个原因是注意力机制对于部分数据集能起到较好的促进作用，而在另一些数据集上却效果不甚明显甚至起到相反的效果。通过对原理的解析和在网络结构中的正确应用的不断尝试，我们能够在一个网络整体中添加多个种类注意力机制模块共同作用，提升其在不同数据集上的性能，在后续试验中的消融分析可以证明我们方法的有效性。通过添加坐标注意力机制模块能够提升手部姿态估计精读，并且效果好于传统的空间注意力机制模块。由于手部目标相较于环境背景而言，往往所占像素比重较小，存在分辨率不足和信息不完备等多种问题。通过引入注意力机制理论上可以促进网络对于目标区域的专注认知和特征提取。在之前的工作中，注意力机制模块较少地被运用于手部姿态估计任务中。我们在网络设计中察觉到此类空缺。由于手部姿态估计任务的特殊性，我们尝试在网络中引入注意力机制以提升网络的性能。在基于坐标注意力机制的模块取得较好结果的基础上，我们尝试对于提取的特征图进行初步处理，以便于对此进行高阶操作，同时，也验证了多光谱注意力机制模块在手部姿态估计网络特征提取器中的有效性。

在一个实施例中，如图4所示，全局特征图识别结果过程包括：

步骤401，根据所述特征图的处理结果，得到手部三维姿态估计位置热图；

步骤402，将所述特征图进行平均池化的外形调整后得到手掌根部节点的位置信息并判断左右手部种类。

具体的，在通过特征提取器得到特征图后，我们没有直接将其送入后续的全连接层和线性结构去判断图像中存在手的左右以及个数或是拟合关键节点的位置热图。由于特征图是一个通道数远大于二维尺寸的三维张量（在我们的网络中，其尺寸是2048x8x8），我们利用新的注意力机制对其进行处理，以求在后续的处理前尽可能多的保留频域上的信息。最终根据全局特征图得到位置热图和手部位置信息，从而得到手部姿态识别的具体结果。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种手部姿态识别系统，包括：

数据集模块501，用于从RGB摄像头捕获了手部的RGB图像，从主动深度摄像头捕获了手部的深度图像，根据所述RGB图像和所述深度图像获取手部姿态数据集；

图像预处理模块502，用于将所述手部姿态数据集进行处理，得到3D关节位置，将所述3D关节位置作为数据集标注用于深度神经网络模型的训练；

特征图提取模块503，用于通过基于深度神经网络的特征提取器提取所述RGB图像，得到手部姿态的特征图；

特征图识别模块504，用于根据注意力机制处理所述特征图，得到手部姿态的全局特征图，并利用所述全局特征图得到手部姿态的识别结果。

在一个实施例中，如图5所示，所述特征图提取模块503包括反转残差单元5031，所述反转残差单元5031用于：

在所述反转残差模块前的可分离卷积末尾加入ACON激活函数；

在一个实施例中，如图5所示，所述特征图识别模块504包括注意力机制单元5041，所述注意力机制单元5041用于：

在一个实施例中，如图5所示，所述特征图识别模块504包括结果识别单元5042，所述结果识别单元5042用于：

关于手部姿态识别系统的具体限定可以参见上文中对于手部姿态识别方法的限定，在此不再赘述。上述手部姿态识别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于设备中的处理器中，也可以以软件形式存储于设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图6示出了一个实施例中设备的内部结构图。该设备包括该设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现权限异常检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行权限异常检测方法。设备的显示屏可以是液晶显示屏或者电子墨水显示屏，设备的输入装置可以是显示屏上覆盖的触摸层，也可以是设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图6所示，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

在所述反转残差模块前的可分离卷积末尾加入ACON激活函数；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在所述反转残差模块前的可分离卷积末尾加入ACON激活函数；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种手部姿态识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的手部姿态识别方法，其特征在于，所述通过基于深度神经网络的特征提取器提取所述RGB图像，得到手部姿态的特征图，包括：

在所述反转残差模块前的可分离卷积末尾加入ACON激活函数；

3.根据权利要求1所述的手部姿态识别方法，其特征在于，所述根据注意力机制处理所述特征图，得到手部姿态的全局特征图，并利用所述全局特征图得到手部姿态的识别结果，包括：

4.根据权利要求1所述的手部姿态识别方法，其特征在于，所述根据注意力机制处理所述特征图，得到手部姿态的全局特征图，并利用所述全局特征图得到手部姿态的识别结果，包括：

5.一种手部姿态识别系统，其特征在于，包括：

6.根据权利要求5所述的手部姿态识别系统，其特征在于，所述特征图提取模块包括反转残差单元，所述反转残差单元用于：

在所述反转残差模块前的可分离卷积末尾加入ACON激活函数；

7.根据权利要求5所述的手部姿态识别系统，其特征在于，所述特征图识别模块包括注意力机制单元，所述注意力机制单元用于：

8.根据权利要求5所述的手部姿态识别系统，其特征在于，所述特征图识别模块包括结果识别单元，所述结果识别单元用于：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。