CN110135237A

CN110135237A - 一种手势识别方法

Info

Publication number: CN110135237A
Application number: CN201910224820.1A
Authority: CN
Inventors: 曹政才; 李清林; 许潇文; 谢红玉
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2019-03-24
Filing date: 2019-03-24
Publication date: 2019-08-16
Anticipated expiration: 2039-03-24
Also published as: CN110135237B

Abstract

本发明公开了一种手势识别方法，首先，对手势图像做预处理，得到固定尺寸的手势图像。其次，分别使用针对全局和针对局部地特征提取网络获取手势图像的不同特征。其中用于提取局部特征的网络完全由卷积层组成，残差网络结构被用于融合低层与高层信息，输出大尺寸特征图；用于提取全局特征的网络由卷积和池化组成，其池化层输出与局部特征提取网络相应输出相融合作为下层卷积输入，最终输出小尺寸、大感受野的特征图。最终，检测网络1和2分别在大尺寸和小尺寸特征图上检测手势目标，二者检测结果经非极大值抑制处理后输出分类结果。本发明有效减轻了梯度消失和神经元死亡的程度。

Description

一种手势识别方法

技术领域

本发明涉及人机交互研究领域，具体是指一种手势识别方法。

背景技术

近年来随着科技水平的日益提高，人与机器人的交互场景更加丰富多样，传统基于鼠标和键盘的交互方式已经难以满足人与机器人交互的需求。基于手势的交互具有任务间切换时间短，交互方式自然友好的优点，可满足人们对人机交互的需求，而手势识别技术是其核心内容。

目前手势识方法主要分基于传感器和基于视觉两种，其中基于传感器的手势识别需要昂贵的辅助设备，交互方式不够友好自然，难以满足实际人机交互中的需求，而基于视觉的手势识别方法在复杂背景、不同光照下识别能力不稳定。中国专利201810542738.9公开了一种手势识别方法及装置，用以提高手势识别的准确率，减少误操作。所述方法包括：当检测到触摸操作时，检测触点的运动轨迹；触点的运动轨迹用于表示控制终端设备的手势；检测触点的当前移动速率；根据当前移动速率与运动轨迹识别手势。中国专利201510552869.1公开了一种3D手势识别方法，包括以下步骤：S1、物理硬件对用户手势的3D坐标数据进行实时采集；S2、物理硬件对采集到的3D坐标数据进行预处理，形成反馈数据；S3、数据处理软件对反馈数据进行识别处理；S4、系统输出数据识别处理结果。本发明可以有效解决视频手势识别需处理大量的数据，过程复杂，软件处理效率低的问题，直接根据三维空间坐标进行有效的动作判断过程，使处理更为高效。在手势动作产生时，首先在物理硬件中对其进行预判断，然后再把动作可能的结果交给软件进行处理，最后将软件处理的结果与硬件预判断的手势结果进行印证，进一步提高了手势动作的识别率。中国专利201510563293.9提供了一种手势识别方法，该手势识别方法包括：获取含有深度信息的使用者手部的待测图像序列；根据图像深度信息和图像颜色信息，在待测图像序列的每帧图像中检测出使用者的手部轮廓；针对使用者的每只手，利用预设的手部结构模板，在待测图像序列的每帧图像中确定该只手的待测特征点序列；针对使用者的每只手，在多个预设特征点序列中确定该只手的待测特征点序列的匹配序列，以根据匹配序列确定该只手的动作名称和位置；在预设手势表中选择与使用者双手的动作名称和位置相匹配的手势，作为待测图像序列的手势识别结果。

目前的技术研究多是应用于实际人机交互的手势识别方面，但实际的技术需求既需要具备识别速度快，又需要在不同场景下具备识别能力稳定。然而，经过相关技术检索发现，目前尚无充分满足以上要求的手势识别技术。

发明内容

针对以上问题，本发明的目的在于提供了一种可用于人机交互的手势识别方法，解决现有手势识别方法存在的缺陷。在本识别方法中，用户无需佩戴任何附加装置或标记物；将手势识别看作一个回归问题，避免重复计算；使用新型激活函数加速收敛；在不同尺度融合特征信息并在不同尺度识别手势类别。本方法在不同交互场景下具有很好的识别鲁棒性和实时性。

本发明提供一种手势识别方法，该方法主要包括：设计并制作针对人机交互场景的手势数据集；构建深度卷积网络并训练数据集以获取参数权重，摄像头将手势图像输入网络与参数权重做相应运算获得手势识别结果；同时，针对图1，将本发明详细的流程描述下。

本发明根据实际人机交互场景选择手势数据集的背景、手势与摄像头距离。

在选定背景下使用摄像机捕捉手势图像，剔除手势图像中过度模糊、存在歧义的手势。

使用LabelImage标注手势位置和手势类别，完成手势数据集的制作。

其后本发明设计一个深度卷积网络，其核心为：①针对局部特征提取的卷积网络；②针对全局特征提取的卷积网络；③激活函数Lrelu。

图2中所示“特征提取网络1”全部由卷积层组成以最大程度保留局部相关信息，直接融合低层特征图与高层特征图以使低层特征图具备参数更新能力，“特征提取网络1”实现了对较远距离手势特征的提取。

图2中所示“特征提取网络2”使用卷积层提取手势特征，使用池化操作降低特征图维度加速训练，借助参数复用的方法将“特征提取网络1”获取的部分细节特征信息作为输入，以较小的计算代价有效实现了远距离手势的特征提取。

对于每层卷积的输入做正则化处理，把上层非线性函数映射后趋向于极限饱和区的输入转换为正态分布，输出落入非线性激活函数的敏感区间。

每层卷积中加入所设计的新型激活函数，减小伴随深度加深，神经网络会出现神经元死亡、梯度消失或爆炸，导致其失去学习能力的问题。

本发明设计了激活函数Lrelu，如公式(1)：

其中x是非线性激活函数的输入；e是自然常数；

f(x)是输入经过非线性函数映射后的结果；Lrelu具有可微性、非线性、单调性，有效缓解了伴随深度加深出现的问题，提高了手势识别精度。

图2中两个“检测网络”分别以局部特征提取网络和全局特征提取网络的输出作为主要输入，使用卷积与池化操作进一步融合提取手势特征，使用logistic分类器对识别特征图上的每一个特征点判断手势类别。

使用非极大值抑制获取最终的手势识别结果。

以标定值与预测值的差作为损失函数，使用链式求导更新权重参数，反复迭代直至损失值降到设定值以下，保存权重参数。

将摄像机获取的实时手势图像与权重参数共同输入本发明所设计的深度卷积网络并做相应运算，使用与训练相同的方法识别目标手势，输出手势类别与位置。

附图说明

图1是本发明手势识别算法的流程图。

图2是本发明的双通道深度卷积神经网络示意图。

图3是本发明在公开数据集上手势识别示意图。

图4是本发明在真实场景下的实时手势识别示意图。

具体实施方式

一种手势识别新方法步骤如图1所示：

步骤1：手势数据集制作

手势样本获取：利用摄像机作为输入设备，在不同光照、背景下采集需要识别的手势图像，筛选所获取的手势数据。

将所获取的手势数据打上相应的标签，作为卷积网络反向传播更新参数的依据。

步骤2：训练深度卷积网络，获取权重参数

使用K-means聚类算法获取6个用于标定手势位置的候选框尺寸。

对手势数据集做数据增广处理以增强其多样性。

使用ImageNet上获取的权重初始化网络参数。

分别将手势数据集输入特征提取网络1和特征提取网络2，并以设定值分批进入训练网络。

特征提取网络使用当前参数提取手势图像的特征，并在不同尺寸融合特征图信息。

检测网络进一步提取输入特征信息，并预测手势位置与类别。

根据预测值与损失值得出Loss值，当Loss值小于设定值时根据链式求导反向更新参数，当Loss低于设定值或者达到指定训练代数时停止训练更新，保存权重参数。

步骤3：手势识别

深度卷积网络从权重读取参数，与输入图像做相应运算，提取手势特征信息，并对输入检测层的每个特征点在不同候选框上做手势类别判定，根据非极大值抑制原则选取最终输出结果。

在公开数据集上，本发明成功识别了全部397张手势图片，真实场景下识别结果如图4，识别速度31.2帧/秒，最远识别距离达到365cm。

本发明的优点在于可以自主学习手势特征，避开了复杂的特征设计过程，有效降低了添加新手势类别的难度；可实现不同场景、不同距离下手势的实时准确识别。

Claims

1.一种手势识别方法，其特征在于：该方法包括：设计并制作针对人机交互场景的手势数据集；构建深度卷积网络并训练数据集以获取参数权重，摄像头将手势图像输入网络与参数权重做相应运算获得手势识别结果；

根据实际人机交互场景选择手势数据集的背景、手势与摄像头距离；

在选定背景下使用摄像机捕捉手势图像，剔除手势图像中过度模糊、存在歧义的手势；

使用LabelImage标注手势位置和手势类别，完成手势数据集的制作；

一个深度卷积网络，其核心为：针对局部特征提取的卷积网络；针对全局特征提取的卷积网络；激活函数Lrelu。

2.根据权利要求1所述的一种手势识别方法，其特征在于：“特征提取网络1”全部由卷积层组成以最大程度保留局部相关信息，直接融合低层特征图与高层特征图以使低层特征图具备参数更新能力，“特征提取网络1”实现了对较远距离手势特征的提取；

“特征提取网络2”使用卷积层提取手势特征，使用池化操作降低特征图维度加速训练，借助参数复用的方法将“特征提取网络1”获取的部分细节特征信息作为输入，以较小的计算代价有效实现了远距离手势的特征提取。

3.根据权利要求1所述的一种手势识别方法，其特征在于：对于每层卷积的输入做正则化处理，把上层非线性函数映射后趋向于极限饱和区的输入转换为正态分布，输出落入非线性激活函数的敏感区间。

4.根据权利要求1所述的一种手势识别方法，其特征在于：每层卷积中加入所设计的新型激活函数。

5.根据权利要求1所述的一种手势识别方法，其特征在于：设计了激活函数Lrelu，如公式(1)：

其中x是非线性激活函数的输入；e是自然常数；

6.根据权利要求1所述的一种手势识别方法，其特征在于：两个“检测网络”分别以局部特征提取网络和全局特征提取网络的输出作为主要输入，使用卷积与池化操作进一步融合提取手势特征，使用logistic分类器对识别特征图上的每一个特征点判断手势类别。

7.根据权利要求1所述的一种手势识别方法，其特征在于：使用非极大值抑制获取最终的手势识别结果。

8.根据权利要求1所述的一种手势识别方法，其特征在于：以标定值与预测值的差作为损失函数，使用链式求导更新权重参数，反复迭代直至损失值降到设定值以下，保存权重参数。

9.根据权利要求1所述的一种手势识别方法，其特征在于：一种手势识别方法，步骤1：手势数据集制作

手势样本获取：利用摄像机作为输入设备，在不同光照、背景下采集需要识别的手势图像，筛选所获取的手势数据；

将所获取的手势数据打上相应的标签，作为卷积网络反向传播更新参数的依据；

步骤2：训练深度卷积网络，获取权重参数

使用K-means聚类算法获取6个用于标定手势位置的候选框尺寸；

对手势数据集做数据增广处理以增强其多样性；

使用ImageNet上获取的权重初始化网络参数；

分别将手势数据集输入特征提取网络1和特征提取网络2，并以设定值分批进入训练网络；

特征提取网络使用当前参数提取手势图像的特征，并在不同尺寸融合特征图信息；

检测网络进一步提取输入特征信息，并预测手势位置与类别；

根据预测值与损失值得出Loss值，当Loss值小于设定值时根据链式求导反向更新参数，当Loss低于设定值或者达到指定训练代数时停止训练更新，保存权重参数；

步骤3：手势识别