CN115909406A

CN115909406A - 一种基于多类分类的手势识别方法

Info

Publication number: CN115909406A
Application number: CN202211521169.2A
Authority: CN
Inventors: 蔡鹏杰; 杨德荣; 廖梓淇; 邹永林; 饶水英; 秦坚轩; 刘鑫; 陈锐瀚; 李志�; 李升�; 戴铭
Original assignee: Guangdong Ocean University
Current assignee: Guangdong Ocean University
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-04-04

Abstract

本发明提供一种基于多类分类的手势识别方法，包括：基于手部Mask和手部热力图的实现三维手部mesh重建，预测3D关节点；将手部RGB图像输入2D阶段网络实现2D手部姿势估计：依次得到2D手部姿势初级特征、融合2D手部姿势中级特征以及2D手部姿势高级特征、2D手部关节热图以及手部分割初级特征、融合手部分割中级特征、手部分割高级特征、手部分割区域概率图；2D手部姿势估计实现3D手势估计：将2D手部姿势估计得到的特征及特征图进行融合，输入到3D手势估计网络中的特征编码网络，得到3D手部关节点热图；将预测3D关节点和得到的3D手部关节点热图进行比对校准。本发明采用两种不同的3D手势估计方法进行比对校准，能够明显提高关节点检测任务的精度。

Description

一种基于多类分类的手势识别方法

技术领域

本发明涉及手势识别领域，特别是指一种基于多类分类的手势识别方法。

背景技术

随着国家对人工智能、大数据、云计算等新兴技术提出更高的发展要求，人工智能正不断地在各个领域拓宽应用方式、为其他行业产品赋能。对于特殊人群以及在特定场景条件下，实现对不同类型的手势识别，从而形成有效的信息获取与沟通，是技术改善人们日常生活的具体体现。

手势估计与深度学习结合的发展历程，是逐渐由 2D 空间图像处理方法逐渐过渡到3D 空间的目标检测方法。2D 方法主要通过二维卷积神经网络处理图像的像素值，至今仍有这方面研究工作，例如革新了 2D 卷积神经网络，引入了长短期记忆网络处理多帧特征序列。但是，鉴于 2D 方法获取特征信息的全面性和准确性不及 3D 方法，同时随着现阶段对 3D 目标估计的更高需求，2D 方法已经逐渐淡出人们的视野，3D 空间的目标检测方法取而代之成为当今主流方法，但调研中发现经典的手势估计方法大多是单任务形式。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于多类分类的手势识别方法，采用两种不同的3D手势估计方法进行比对校准，能够明显提高关节点检测任务的精度。

本发明采用的技术方案，

一种基于多类分类的手势识别方法，包括：

基于RGB图进行三维手部mesh重建，预测3D关节点；

将手部RGB图像输入2D阶段网络实现2D手部姿势估计：依次得到2D手部姿势初级特征、融合2D手部姿势中级特征以及2D手部姿势高级特征、2D手部关节热图以及手部分割初级特征、融合手部分割中级特征、手部分割高级特征、手部分割区域概率图；

2D手部姿势估计实现3D手势估计：将2D手部姿势初级特征、融合2D手部姿势中级特征以及2D手部姿势高级特征、2D手部关节热图以及手部分割初级特征、融合手部分割中级特征、手部分割高级特征、手部分割区域概率图进行一系列再融合操作，得到手部分割任务下的手部关节点特征图，输入到3D 手势估计网络中的特征编码网络，得到3D 手部关节点热图；

将预测3D关节点和得到的3D 手部关节点热图进行比对校准。

具体地，基于RGB图进行三维手部mesh重建，预测3D关节点，具体包括三维重建网络，所述三维重建网络包括：2D手势估计模块、深度图预测模块、特征融合层以及3D手势估计模块。

具体地，将手部RGB图像输入2D阶段网络实现2D手部姿势估计，具体包括：

将手部RGB图像分别输入2D手部姿势估计网络和手部分割网络，通过2D手部姿势估计网络中编码器提取2D手部姿势初级特征，通过手部分割网络中的编码器提取手部分割初级特征，将2D手部姿势初级特征和手部分割初级特征输入信息共享模块，分别得到融合2D手部姿势中级特征和融合手部分割中级特征，将融合2D手部姿势中级特征返回2D手部姿势估计网络支路，与2D手部姿势初级特征进行残差融合得到2D手部姿势高级特征，将融合手部分割中级特征返回手部分割网络支路，与手部分割初级特征进行残差融合得到手部分割高级特征；再将2D手部姿势高级特征输入2D手部姿势估计网络中的解码分类器得到2D手部关节热图，将手部分割高级特征输入手部分割网络中的解码多分类器得到手部分割区域概率图。

具体地， 2D手部姿势估计网络中编码器提和手部分割网络中的编码器结构相同，均依次包括：卷积层，M=64、N=128的残差层，最大池化层，M=128、N=128的残差层以及M=128、N=256的残差层，其中M 和 N 分别指每一层操作中特征图的输入和输出通道数。

具体地，残差层中，残差主支路由 2 个 1×1 尺度卷积核和 1 个 3×3 尺度卷积组成，残差旁支路采用 1×1 尺度卷积将残差层的输入跳跃桥接至末端做残差加法。

具体地，信息共享模块，具体包括：

对2D手部关节热图保持完整图，对手部分割区域概率图由原有尺度浓缩成小尺度卷积核，由小尺度卷积核制作的滤波器对2D手部关节热图完整图扫描滤波，做卷积运算后得出融合2D手部姿势中级特征；

对手部分割区域概率图保持完整图，对2D手部关节热图由原有尺度浓缩成小尺度卷积核，由小尺度卷积核制作的滤波器对手部分割区域概率图完整图扫描滤波，做卷积运算后得出融合手部分割中级特征。

具体地，2D阶段网络的联合损失函数

具体为：

所述2D阶段网络包括：2D手部姿势估计网络和手部分割网络，

代表2D手部姿势估计网络的均方误差损失函数，计算方法是 2D 关节点估计热图与真实值热图在像素层级的距离均方误差，

代表手部区域分割任务的损失函数，计算方法是 2D 区域轮廓分割结果与真实值之间的交叉熵损失。

具体地，将2D手部姿势初级特征、融合2D手部姿势中级特征以及2D手部姿势高级特征、2D手部关节热图以及手部分割初级特征、融合手部分割中级特征、手部分割高级特征、手部分割区域概率图进行一系列再融合操作，具体为：

首先将2D手部姿势初级特征、融合2D手部姿势中级特征以及2D手部姿势高级特征进行融合，将融合后的结果再与2D手部关节热图进行融合得到2D手部姿势特征融合；

首先手部分割初级特征、融合手部分割中级特征、手部分割高级特征进行融合，将融合后的结果再与手部分割区域概率图进行融合得到手部分割特征融合；

最后将2D手部姿势特征融合和手部分割特征融合再进行融合操作得到手部分割任务下的手部关节点特征图。

具体地，3D 手势估计网络中的特征编码网络具体包括：

特征编码网络设计由 2 级级联的高分辨率网络组成，特征编码网络的输入是256×64×64 形式的手部关节点特征图，经过两阶网络学习，输出 64×64×64 形式的 3D估计热图。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

（1）本发明提供了一种基于多类分类的手势识别方法，包括：基于手部Mask和手部热力图的实现三维手部mesh重建，预测3D关节点；将手部RGB图像输入2D阶段网络实现2D手部姿势估计：依次得到2D手部姿势初级特征、融合2D手部姿势中级特征以及2D手部姿势高级特征、2D手部关节热图以及手部分割初级特征、融合手部分割中级特征、手部分割高级特征、手部分割区域概率图；2D手部姿势估计实现3D手势估计：将2D手部姿势估计得到的特征及特征图进行融合，输入到3D 手势估计网络中的特征编码网络，得到3D 手部关节点热图；将预测3D关节点和得到的3D 手部关节点热图进行比对校准；本发明采用两种不同的3D手势估计方法进行比对校准，能够明显提高关节点检测任务的精度。

（2）本发明提供的将手部RGB图像输入2D阶段网络实现2D手部姿势估计以及2D手部姿势估计实现3D手势估计，实现了可端到端检测的手势估计网络，且引入手部分割任务的语义指导信息，能够明显提高关节点检测任务的精度。

附图说明

图1本发明实施例提供的一种基于多类分类的手势识别方法流程图；

图2本发明实施例提供的2D阶段网络总结构图；

图3为本发明实施例提供2D阶段网络总结构图中编码器模块结构图；

图4为本发明实施例提供的2D阶段网络总结构图中编码器模块中的残差层结构图；

图5为本发明实施例提供2D阶段网络总结构图中信息共享模块结构图。

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

本发明提出本发明提供了一种基于多类分类的手势识别方法，本发明方法采用两种方法进行3D关节点估计，进行比对校准提高精度。

如图1，一种基于多类分类的手势识别方法流程图，包括：

S101: 基于RGB图进行三维手部mesh重建，预测3D关节点；

具体地，基于RGB图进行三维手部mesh重建，预测3D关节点，具体包括三维重建模块，所述三维重建网络包括：2D手势估计模块、深度图预测模块、特征融合层以及3D手势估计模块。

S102：将手部RGB图像输入2D阶段网络实现2D手部姿势估计：依次得到2D手部姿势初级特征、融合2D手部姿势中级特征以及2D手部姿势高级特征、2D手部关节热图以及手部分割初级特征、融合手部分割中级特征、手部分割高级特征、手部分割区域概率图；

具体地，将手部RGB图像输入2D阶段网络实现2D手部姿势估计，如图2，为2D阶段网络总结构图，具体包括：

网络初始输入单张 RGB 图像，其形式是经过数据预处理后的 4 维向量[B, C,H, W]，其中 B 指的是具体训练批次数（Batch）；C 指的是图像的深度通道数（Channel），RGB图像的通道数为 3；H 和 W 分别对应输入图像的高度和宽度，本实施例中初始尺寸为256×256 像素。初始输入的图像首先传送进入编码器模块进行编码，将特征图编码成为256×64×64 格式的特征图，以便网络后续处理。其中，256×64×64 指代通道数为 256，尺度为 64×64 像素的特征图，如图3，编码器模块对应两个任务（2D手部姿势估计任务和手部分割任务）的Conv_1 和 Conv_2 结构，是一系列卷积层、池化层和残差结构的组合。

如图4，残差结构中，残差主支路由 2 个 1×1 尺度卷积核和 1 个 3×3 尺度卷积组成，残差旁支路使用 1×1 尺度卷积将 Conv_Res 的输入跳跃桥接至末端做残差加法，P和 S 分别指代该层的填充量（ Padding ）和扫描步长（ Stride ）。图 3中的 Conv_1和Conv_2 结构在两条任务支路中工作原理相同，首先经过一个卷积核尺度（ Kernel ）值为 3，填充量（ Padding ）值为 3、扫描步长（ Stride ）值为 2 的卷积层，将尺度变为128×128 像素，通道数使用 1×1 卷积由 3 通道扩展到 64 通道。接着第一次经过图 4.3中的残差结构Conv_Res将通道数扩展成128通道，之后再使用一个 Kernel 值为2， Stride值为 2 的池化层以最大池化（Max Pooling）的方式向下采样，获得 128×64×64 形式（C×H×W）的特征图；

如图5为信息共享模块，具体包括：

该方法的优势在于产生卷积核大小是预先设置的，而参数是动态学习的，可以根据实时输入进行批量化、动态化的融合产出，所以这种共享方式完全不需要人工制作融合特征。

具体地，2D阶段网络的联合损失函数

具体为：

所述2D阶段网络包括：2D手部姿势估计网络和手部分割网络，

代表手部区域分割任务的损失函数，计算方法是 2D 区域轮廓分割结果与真实值之间的交叉熵损失；

和

是一对相关系数，目的是平衡两项损失函数的数量级单位，实验中它们分别被设置为 1.00 和 0.01；联合损失函数的设计体现了多任务学习的硬参数共享理念，训练过程中期望总体网络在两项任务的性能表现上达到综合最优解，得到基于两项任务综合评估标准的模型，使网络更加真实地还原数据的分布情况。

S103：2D手部姿势估计实现3D手势估计：将2D手部姿势初级特征、融合2D手部姿势中级特征以及2D手部姿势高级特征、2D手部关节热图以及手部分割初级特征、融合手部分割中级特征、手部分割高级特征、手部分割区域概率图进行一系列再融合操作，得到手部分割任务下的手部关节点特征图，输入到3D 手势估计网络中的特征编码网络，得到3D 手部关节点热图；

首先是2D-3D 衔接，将2D手部姿势初级特征、融合2D手部姿势中级特征以及2D手部姿势高级特征、2D手部关节热图以及手部分割初级特征、融合手部分割中级特征、手部分割高级特征、手部分割区域概率图进行一系列再融合操作，具体为：

本阶段编码器的工作任务是将 2D 综合特征热图提升到 3D 估计，具体地，3D 手势估计网络中的特征编码网络具体包括：

为更好地学习复杂映射关系，特征编码网络设计由 2 级级联的高分辨率网络组成，特征编码网络的输入是 256×64×64 形式的手部关节点特征图，经过两阶网络学习，输出 64×64×64 形式的 3D 估计热图。

S104：将预测3D关节点和得到的3D 手部关节点热图进行比对校准。

本发明提供了一种基于多类分类的手势识别方法，包括：基于手部Mask和手部热力图的实现三维手部mesh重建，预测3D关节点；将手部RGB图像输入2D阶段网络实现2D手部姿势估计：依次得到2D手部姿势初级特征、融合2D手部姿势中级特征以及2D手部姿势高级特征、2D手部关节热图以及手部分割初级特征、融合手部分割中级特征、手部分割高级特征、手部分割区域概率图；2D手部姿势估计实现3D手势估计：将2D手部姿势估计得到的特征及特征图进行融合，输入到3D 手势估计网络中的特征编码网络，得到3D 手部关节点热图；将预测3D关节点和得到的3D 手部关节点热图进行比对校准；本发明采用两种不同的3D手势估计方法进行比对校准，能够明显提高关节点检测任务的精度。

本发明提供的将手部RGB图像输入2D阶段网络实现2D手部姿势估计以及2D手部姿势估计实现3D手势估计，实现了可端到端检测的手势估计网络，且引入手部分割任务的语义指导信息，能够明显提高关节点检测任务的精度。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均属于侵犯本发明保护范围的行为。

Claims

1.一种基于多类分类的手势识别方法，其特征在于，包括：

基于RGB图进行三维手部mesh重建，预测3D关节点；

将预测3D关节点和得到的3D 手部关节点热图进行比对校准。

2.根据权利要求1所述的一种基于多类分类的手势识别方法，其特征在于，基于RGB图进行三维手部mesh重建，预测3D关节点，具体包括三维重建网络，所述三维重建网络包括：2D手势估计模块、深度图预测模块、特征融合层以及3D手势估计模块。

3.根据权利要求1所述的一种基于多类分类的手势识别方法，其特征在于，将手部RGB图像输入2D阶段网络实现2D手部姿势估计，具体包括：

4.根据权利要求3所述的一种基于多类分类的手势识别方法，其特征在于， 2D手部姿势估计网络中编码器提和手部分割网络中的编码器结构相同，均依次包括：卷积层，M=64、N=128的残差层，最大池化层，M=128、N=128的残差层以及M=128、N=256的残差层，其中M 和 N分别指每一层操作中特征图的输入和输出通道数。

5.根据权利要求4所述的一种基于多类分类的手势识别方法，其特征在于，残差层中，残差主支路由 2 个 1×1 尺度卷积核和 1 个 3×3 尺度卷积组成，残差旁支路采用 1×1 尺度卷积将残差层的输入跳跃桥接至末端做残差加法。

6.根据权利要求1所述的一种基于多类分类的手势识别方法，其特征在于，信息共享模块，具体包括：

7.根据权利要求1所述的一种基于多类分类的手势识别方法，其特征在于，2D阶段网络的联合损失函数

具体为：

所述2D阶段网络包括：2D手部姿势估计网络和手部分割网络，

代表手部区域分割任务的损失函数，计算方法是 2D 区域轮廓分割结果与真实值之间的交叉熵损失，

和

为相关系数。

8.根据权利要求1所述的一种基于多类分类的手势识别方法，其特征在于，将2D手部姿势初级特征、融合2D手部姿势中级特征以及2D手部姿势高级特征、2D手部关节热图以及手部分割初级特征、融合手部分割中级特征、手部分割高级特征、手部分割区域概率图进行一系列再融合操作，具体为：

9.根据权利要求1所述的一种基于多类分类的手势识别方法，其特征在于，3D 手势估计网络中的特征编码网络具体包括：

特征编码网络设计由 2 级级联的高分辨率网络组成，特征编码网络的输入是 256×64×64 形式的手部关节点特征图，经过两阶网络学习，输出 64×64×64 形式的 3D 估计热图。