CN109800676B

CN109800676B - 基于深度信息的手势识别方法及系统

Info

Publication number: CN109800676B
Application number: CN201811641349.8A
Authority: CN
Inventors: 朱志林; 方勇
Original assignee: Shanghai Evis Technology Co ltd
Current assignee: Shanghai Evis Technology Co ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2023-07-14
Anticipated expiration: 2038-12-29
Also published as: CN109800676A

Abstract

本发明揭示了一种基于深度信息的手势识别方法及系统，所述方法包括：训练人体部件响应的CNN模型，输入摄像头读取的图像，通过训练的模型预测，得到人体上半身部件响应图，从而判断手的位置，并分割手部位置图片；训练基于手部关节点的CNN模型，实现端到端的关节点定位；将上述分割的手部位置图片预处理并输入模型中进行关节点位置预测，并拟合成手势；计算手指关节点位置与手掌中心位置的距离，判断与位置关系相匹配的手势。本发明提出的基于深度信息的手势识别方法及系统，可在复杂场景下，读取深度信息，通过识别手势与显示器进行交互。

Description

基于深度信息的手势识别方法及系统

技术领域

本发明属于图像处理与智能交互技术领域，涉及一种基于深度信息的手势识别方法及系统。

背景技术

随着科学技术的发展，人机交互的研究与应用受到越来越多的学者关注。其中，手势识别作为人机交互的一个主要分支，是人机交互领域的重要研究课题之一。手势交互对于使用者而言具有便捷、交互性强、表达内容丰富等优点，一直是人机交互方式的首要选择。

在深度摄像头普及之前，手势识别多采用二维RGB图像输入，容易受到复杂背景的干扰，准确性不能达到理想的交互效果。

有鉴于此，如今迫切需要设计一种新的手势识别方式，以便克服现有手势识别方式存在的上述缺陷。

发明内容

本发明提供一种基于深度信息的手势识别方法及系统，可在复杂场景下，读取深度信息，通过识别手势与显示器进行交互。

为解决上述技术问题，根据本发明的一个方面，采用如下技术方案：

一种基于深度信息的手势识别方法，所述方法包括：

步骤S1、设置深度摄像头读取深度图像的深度空间范围,并读取图像；

步骤S2、训练人体部件响应的卷积神经网络CNN模型，输入摄像头读取的图像，通过训练的模型预测，得到人体上半身部件响应图，从而判断手的位置，并分割手部位置图片；

步骤S3、训练基于手部关节点的卷积神经网络CNN模型，实现端到端的关节点定位；

步骤S4、将步骤S2中分割的手部位置图片预处理并输入模型中进行关节点位置预测，并拟合成手势；

步骤S5、计算手指关节点位置与手掌中心位置的距离，判断与位置关系相匹配的手势。

作为本发明的一种实施方式，首先对手部关节点空间特征进行提取并对位置进行迭代优化，结合多尺度特征进行训练，对手部的关节点位置进行最终确定，并在全连接层中对关节点进行匹配连接，拟合完整的手部结构。

作为本发明的一种实施方式，所述步骤S3中的卷积神经网络CNN模型，采用多尺度图像输入，将上一个尺度提取出的关节点位置作为空间特征合并当前尺度提取出的图像特征，求出新的关节点位置向量，并作为新的空间特征合并下一尺度的特征图，通过回归函数得到关节点位置，并匹配连接成手势：

p^t＝R(p^t-1，F)

其中，p^t-1表示上一尺度的图像空间特征，F表示当前尺度的图像特征，p^t表示当前图像手部关节点位置。

作为本发明的一种实施方式，步骤S3中，通过6个5X5卷积层，3个池化层提取图像特征，卷积前填充2行边缘像素，使提取出的特征图宽高与输入图像宽高相同；对图像特征提取兴趣区域，对每个兴趣区域在全连接层中通过回归函数得到关节点位置，将关节点位置返回兴趣区域，形成空间特征图。

作为本发明的一种实施方式，兴趣区域按图像的4个边角位置为起点提取，分别截取特征图像的2/3大小的宽与高，能包含手部的全部图像信息；此处2/3将截取的图像与下一尺度图像尺寸匹配合并；

特征合并为在截取的四个区域图像上得到关节点位置空间特征与下一尺度的图像特征合并。

作为本发明的一种实施方式，步骤S5中，将步骤S3中得到的各个关节点位置坐标提取出来，计算5个手指的顶点位置与手掌关节点的距离d_j，j表示当前手指类别，并设置一个阈值σ，当d_j<σ认为手指为弯曲状态，否则为伸展状态。

作为本发明的一种实施方式，所述方法还包括步骤S6、在显示器屏幕中间初始化一个手的图标，通过手掌中心关节点控制图标的移动，通过手势实现图标对显示器的操作。

作为本发明的一种实施方式，步骤S6中，当步骤S2中分割到手部图像时，在显示器屏幕中心位置初始化一个图标，通过手掌中心点的坐标位置移动控制图标的移动；通过手势控制图标实现对屏幕中物体的拾取，移动操作。

作为本发明的一种实施方式，所述步骤S2包括：

步骤S21：先对原始深度图像进行卷积得到10个响应点(9个上半身部件以及1个背景)的空间信息响应图score1，并在下一步作为空间信息输入。

步骤S22：将人体关节点位置的空间特征与深度图像特征，以及中心约束响应图合并成一组特征图作为输入，卷积得到关节位置的score2响应图作为下一步的空间信息的输入。

步骤S23：输入的深度特征选用步骤S22中的中间层特征图，并与步骤S22的空间信息图以及中心约束合并，卷积层中计算得到空间部件响应图；以此类推，在下一步得到关于半身关节点的响应输出。

作为本发明的一种实施方式，所述步骤S3中，3D手部关节点定位包括：

步骤S31：将得到的手部位置裁剪出来，并做归一化处理；送入6个conv层，3个pool ing层的CNN模型中得到相应的Feature；

步骤S32：在最后一层卷积层中采用FastR-CNN的方法提取出ROI区域，将FeatureMaps以图像的4个边角位置为起点，截取图像2/3宽高比，将图像分成4个区域；

步骤S33：在每个区域上将回归函数得到的手的关节点的位置进行集成，最后将集成的各区域关节点在全连接层中进行连接，形成空间特征；

步骤S34：这种方法回归集成得到的手的关节点位置容易出现小范围误差偏移的情况，对提取出的关节点3D位置进行优化处理，得到更精确的关节点位置；

步骤S35：将得到的关节点位置信息作为关节的空间特征与96X96的图像的Feature Maps合并，形成新的特征，进行关节点位置的重新定位，对关节点位置重复步骤S33。

一种基于深度信息的手势识别系统，所述系统包括：

人体部件响应CNN模型训练模块，用以训练人体部件响应的卷积神经网络CNN模型，输入摄像头读取的图像，通过训练的模型预测，得到人体上半身部件响应图，从而判断手的位置，并分割手部位置图片；

手部关节点CNN模型训练模块，用以训练基于手部关节点的卷积神经网络CNN模型，实现端到端的关节点定位；

关节点位置预测模块，用以将所述人体部件响应CNN模型训练模块分割的手部位置图片预处理并输入基于手部关节点的CNN模型中进行关节点位置预测，并拟合成手势；

手势识别模块，用以计算手指关节点位置与手掌中心位置的距离，判断与位置关系相匹配的手势。

本发明的有益效果在于：本发明提出的基于深度信息的手势识别方法及系统，可在复杂场景下，读取深度信息，通过识别手势与显示器进行交互。

深度摄像头捕获深度图像可以提取物体的深度信息，同时可以避免光照、环境等因素的影响，提取深度上下文信息，结合卷积神经网络训练模型，使手势识别达到实际应用的要求。

附图说明

图1为本发明一实施例中基于深度信息的手势识别方法的流程图。

图2为本发明一实施例中基于深度信息的手势识别方法的流程图。

图3为本发明一实施例中手部特征提取ConvNet的流程图。

图4为本发明一实施例中CNN模型结构图。

图5为本发明一实施例中基于深度信息的手势识别系统的组成示意图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

该部分的描述只针对几个典型的实施例，本发明并不仅局限于实施例描述的范围。相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。

本发明揭示了一种基于深度信息的手势识别方法，图1为本发明一实施例中基于深度信息的手势识别方法的流程图；请参阅图1，在本发明的一实施例中，所述方法包括：

步骤S3、训练基于手部关节点的卷积神经网络CNN模型，实现端到端的关节点定位；在本发明的一实施例中，首先对手部关节点空间特征进行提取并对位置进行迭代优化，结合多尺度特征进行训练，对手部的关节点位置进行最终确定，并在全连接层中对关节点进行匹配连接，拟合完整的手部结构；

步骤S4、将步骤S2中分割的手部位置图片预处理并输入基于手部关节点的CNN模型中进行关节点位置预测，并拟合成手势；

在本发明的一实施例中，步骤S1中，对深度摄像头读取的图像信息，为了避免很多无用的背景信息的引入，对垂直摄像头的法向量方向设置空间范围[0.01,1500.01]。

在本发明的一实施例中，步骤S2中，对于手部区域的提取，先要确定人体的关节点的位置，只检测上半身的关节点位置，根据人体关节点与手的位置关系从而判断出手部的位置。手部位置检测步骤如下：

步骤S23：输入的深度特征选用步骤S22中的中间层特征图，并与步骤2的空间信息图以及中心约束合并，卷积层中计算得到空间部件响应图。以此类推，在下一步得到关于半身关节点的响应输出。

在本发明的一实施例中，对于网络层数过深，容易导致梯度消失的问题，采用中继监督进行优化，对每一步输出都计算损失，从而保证参数的更新。

在本发明的一实施例中，步骤S3中，定位3D手部关节点的方法步骤如下：

步骤S31：将得到的手部位置裁剪出来，并做归一化处理。送入6个conv层，3个pool ing层的CNN模型中得到相应的Feature。

步骤S32：在最后一层卷积层中采用FastR-CNN的方法提取出ROI区域，将FeatureMaps以图像的4个边角位置为起点，截取图像2/3宽高比，将图像分成4个区域。

步骤S33：在每个区域上将回归函数得到的手的关节点的位置进行集成，最后将集成的各区域关节点在全连接层中进行连接，形成空间特征。

步骤S34：这种方法回归集成得到的手的关节点位置容易出现小范围误差偏移的情况，对提取出的关节点3D位置进行优化处理，得到更精确的关节点位置。

在本发明的一实施例中，利用CNN模型确定关节点位置。图3为本发明一实施例中手部特征提取ConvNet的流程图，请参阅图3，在本发明的一实施例中，先输入144X144深度图像，有6个3x3的卷积层，每个卷积层后跟着一个ReLU激活，两个剩余连接采用池化层之间1x1的卷积fi lter尺寸增加。

对于回归函数，在本发明的一实施例中，使用两个2048维的fc层，回归因子的丢失率设为0.5；回归函数输出一个3xJ向量的3D世界坐标位置的手关节点，J是关节点的个数。将所有区域得到的关节点的位置在最后一个fc层集成起来，得到初始关节点位置，并对初始化的关节点输出计算Loss值L_c，更新参数。

初始关节点空间特征会对后面的训练产生影响，所以对初始关节点位置做优化处理，并将优化后的关节点位置特征与96X96深度图像训练得到的图像特征合并成新的特征，形成新的特征进行训练，回归新的关节点位置，并计算Loss值，更新参数。

之后与64X64的深度图像训练的特征进行结合得到新的特征，回归新的关节点位置，并在FC层中对关节点进行集成，形成手的姿势估计。图4为本发明一实施例中CNN模型结构图；请参阅图4，在本发明的一实施例中，CNN模型具体的结构如图4所示。

p^t＝R(p^t-1，F)

p^t为当前深度图中的回归得到的关节点位置，p^t-1为之前尺度回归得到的关节点位置，D表示当前深度图训练的特征。

关节点位置优化处理主要采用空间上下文的方法对手部关节点位置进行细化处理，同时可以避免手指之间的关节点位置的混淆。

通过使用重叠区域进行细化，首先在得到的关节点位置提取区域块，中心点位置在预测的关节位置。

在本发明的一实施例中，步骤S3中，将关节位置提取的区域块进行卷积运算，提取出图像特征，通过池化层进行区域特征图大小归一化处理，最小的区域块不用池化层，越大的区域块池化层size越大。

较大的区域块提供更多的上下文信息，最小的区域块不用池化处理，可以提供更准确的关节点位置信息。为了提高关节点位置的准确性，将进行迭代处理，直到获取最精确的关节位置。

在本发明的一实施例中，步骤S4中，通过深度摄像头读取实时的深度图像，并将读取的图像送入到训练好的手部关节点模型中，通过手部关节点模型训练的参数文件预测当前深度图像的手部关节点位置，并在全连接层中做端对端的连接，拟合当前深度图像中的手势。

在本发明的一实施例中，步骤S5中，根据得到的手部关节点的位置信息，求解手掌中心点与手指最外侧关节点的位置的3D距离，通过距离判断手势。

设手掌中心点的3D坐标为(x_1i,y_1i,z_1i)，各手指最外侧关节点坐标(x_ji,y_ji,z_ji)，j表示手指类别，i表示第几帧。距离公式如下：

设立阈值σ，当d_j>σ,认为手指为伸展状态，否则为收起状态。通过手掌中心点位置坐标引导图标移动，通过手势对显示屏进行操作。

在本发明的一实施例中，所述方法还包括步骤S36：将得到的关节点空间特征与64X64图像Feature Maps合并，重复步骤S32，在全连接层中通过回归函数得到关节点的位置，并集成为手势。

图2为本发明一实施例中基于深度信息的手势识别方法的流程图；请参阅图2，在本发明的一实施例中，所述方法还包括步骤S6、在显示器屏幕中间初始化一个手的图标，通过手掌中心关节点控制图标的移动，通过手势实现图标对显示器的操作。

在本发明的一实施例中，步骤S6中，根据手掌中心点的位置坐标移动映射到显示坐标系中，控制图标移动，根据之前得到的手势实现图标相应的操作。手掌状态控制图标移动，握拳表示拾取、点击等。

本发明还揭示一种基于深度信息的手势识别系统，图5为本发明一实施例中基于深度信息的手势识别系统的组成示意图；请参阅图5，在本发明的一实施例中，所述系统包括：人体部件响应CNN模型训练模块1、手部关节点CNN模型训练模块2、关节点位置预测模块3、手势识别模块4。

人体部件响应CNN模型训练模块1用以训练人体部件响应的卷积神经网络CNN模型，输入摄像头读取的图像，通过训练的模型预测，得到人体上半身部件响应图，从而判断手的位置，并分割手部位置图片。

手部关节点CNN模型训练模块2用以训练基于手部关节点的卷积神经网络CNN模型，实现端到端的关节点定位。在本发明的一实施例中，首先对手部关节点空间特征进行提取并对位置进行迭代优化，结合多尺度特征进行训练，对手部的关节点位置进行最终确定，并在全连接层中对关节点进行匹配连接，拟合完整的手部结构。

关节点位置预测模块3用以将所述人体部件响应CNN模型训练模块分割的手部位置图片预处理并输入基于手部关节点的CNN模型中进行关节点位置预测，并拟合成手势。

手势识别模块4用以计算手指关节点位置与手掌中心位置的距离，判断与位置关系相匹配的手势。

各模块的具体工作过程可以参考上述有关手势识别方法，其中，人体部件响应CNN模型训练模块1对应步骤S2，手部关节点CNN模型训练模块2对应步骤S3，关节点位置预测模块3对应步骤S4，手势识别模块4对应步骤S5，这里不做赘述。

综上所述，本发明提出的基于深度信息的手势识别方法及系统，可在复杂场景下，读取深度信息，通过识别手势与显示器进行交互。

这里本发明的描述和应用是说明性的，并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的，对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是，在不脱离本发明的精神或本质特征的情况下，本发明可以以其它形式、结构、布置、比例，以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下，可以对这里所披露的实施例进行其它变形和改变。

Claims

1.一种基于深度信息的手势识别方法，其特征在于，所述方法包括：

步骤S5、计算手指关节点位置与手掌中心位置的距离，判断与位置关系相匹配的手势；

所述步骤S3中，3D手部关节点定位包括：

步骤S31：将得到的手部位置裁剪出来，并做归一化处理；送入6个conv层，3个pooling层的CNN模型中得到相应的Feature；

步骤S35：将得到的关节点位置信息作为关节的空间特征与96X96的图像的FeatureMaps合并，形成新的特征，进行关节点位置的重新定位，对关节点位置重复步骤S33。

2.根据权利要求1所述的基于深度信息的手势识别方法，其特征在于：

所述步骤S3中，首先对手部关节点空间特征进行提取并对位置进行迭代优化，结合多尺度特征进行训练，对手部的关节点位置进行最终确定，并在全连接层中对关节点进行匹配连接，拟合完整的手部结构。

3.根据权利要求1所述的基于深度信息的手势识别方法，其特征在于：

所述步骤S3中的卷积神经网络CNN模型，采用多尺度图像输入，将上一个尺度提取出的关节点位置作为空间特征合并当前尺度提取出的图像特征，求出新的关节点位置向量，并作为新的空间特征合并下一尺度的特征图，通过回归函数得到关节点位置，并匹配连接成手势：

p^t＝R(p^t-1，F)

4.根据权利要求3所述的基于深度信息的手势识别方法，其特征在于：

步骤S3中，通过6个5X5卷积层，3个池化层提取图像特征，卷积前填充2行边缘像素，使提取出的特征图宽高与输入图像宽高相同；对图像特征提取兴趣区域，对每个兴趣区域在全连接层中通过回归函数得到关节点位置，将关节点位置返回兴趣区域，形成空间特征图。

5.根据权利要求4所述的基于深度信息的手势识别方法，其特征在于：

兴趣区域按图像的4个边角位置为起点提取，分别截取特征图像的2/3大小的宽与高，能包含手部的全部图像信息；此处将截取的图像与下一尺度图像尺寸匹配合并；

6.根据权利要求1所述的基于深度信息的手势识别方法，其特征在于：

步骤S5中，将步骤S3中得到的各个关节点位置坐标提取出来，计算5个手指的顶点位置与手掌关节点的距离d_j，j表示当前手指类别，并设置一个阈值σ，当d_j<σ认为手指为弯曲状态，否则为伸展状态。

7.根据权利要求1所述的基于深度信息的手势识别方法，其特征在于：

所述方法还包括步骤S6、在显示器屏幕中间初始化一个手的图标，通过手掌中心关节点控制图标的移动，通过手势实现图标对显示器的操作；

当步骤S2中分割到手部图像时，在显示器屏幕中心位置初始化一个图标，通过手掌中心点的坐标位置移动控制图标的移动；通过手势控制图标实现对屏幕中物体的拾取，移动操作。

8.根据权利要求1所述的基于深度信息的手势识别方法，其特征在于：

所述步骤S2包括：

步骤S21：先对原始深度图像进行卷积得到10个响应点的空间信息响应图score1，并在下一步作为空间信息输入；10个响应点包括9个上半身部件以及1个背景；

步骤S22：将人体关节点位置的空间特征与深度图像特征，以及中心约束响应图合并成一组特征图作为输入，卷积得到关节位置的score2响应图作为下一步的空间信息的输入；

步骤S23：输入的深度特征选用步骤S22中的中间层特征图，并与步骤S22的空间信息图以及中心约束合并，卷积层中计算得到空间部件响应图；以此类推，在下一步得到关于上半身关节点的响应输出。

9.一种基于深度信息的手势识别系统，其特征在于，所述系统包括：

手势识别模块，用以计算手指关节点位置与手掌中心位置的距离，判断与位置关系相匹配的手势；

所述手部关节点CNN模型训练模块的关节点定位流程包括：