CN111444771A

CN111444771A - 一种基于循环神经网络的手势前置实时识别方法

Info

Publication number: CN111444771A
Application number: CN202010122397.7A
Authority: CN
Inventors: 张弛; 万华根; 韩晓霞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-07-24
Anticipated expiration: 2040-02-27
Also published as: CN111444771B

Abstract

本发明公开了一种基于循环神经网络的手势前置实时识别方法，包括以下步骤：A、离线建模阶段：leap motion采集手势数据，对采集到的数据进行预处理后提取手势特征，获得手势的特征序列，将手势特征序列和手势类型输入长短时记忆神经网络LSTM训练获得手势分类器。B、在线手势前置识别阶段：leap motion实时采集手势数据，处理手势数据，计算当前时间节点的手势特征，加入特征序列，将当前时间节点获得特征序列输入手势分类器，如果分类器输出预测概率大于95％，将此概率对应手势类型作为结果输出。利用本发明，可以做到与人的视觉类似的动态识别和提前预测能力，不需要等待手势全部完整表达完就可以实时识别出用户试图表达的手势类型，效果理想。

Description

一种基于循环神经网络的手势前置实时识别方法

技术领域

本发明属于人机交互技术领域，尤其是涉及一种基于循环神经网络的手势前置实时识别方法。

背景技术

手势是一种很自然且直观的交互手段，人类经常有意识或无意识地使用手势来表达和传递信息。在如今的信息时代，各种智能设备的出现和普及对人机交互技术提出了更高的要求，传统的键鼠交互很难适应越来越复杂的应用场景，手势交互正是在这样一种需求下为人们所重视。手势交互天生具有便捷、自然、表意丰富直接等优势，是人与机器交流的优秀接口。

在手势识别的实现上，手势识别系统可分为基于接触的系统和基于视觉的系统。基于接触的系统通常利用物理交互获取人体的运动特征，比如数据手套、加速度传感器、多点触摸屏等等。它的优势在于可以快速直接地获得用户数据，在很多领域也得到了广泛的应用，比如智能手机、平板等智能设备都普遍使用多点触摸屏来获取用户手势输入，特别是当下全面屏手机的推广，手机越来越依赖手势交互。基于视觉的系统通常使用一个或多个摄像头捕获人体运动信息并进行分析以获得手势。早期的视觉系统经常使用标记物来定位手部，现在基本摆脱物理外设，仅借助摄像头就可以检测分析手势，因此使用起来也更加便捷舒适。在商用领域，诸如kinect、leap motion等成熟的商业产品都已经投入市场。

目前大部分手势识别的工作都是针对完整手势，即等待手势完成后进行识别，虽然可以取得较高的识别率，但这样的流程不符合人的直觉。在人与人进行交流时，接受方并不需要施展方完全做完手势才开始识别，事实上施展方在表达手势到一定程度时就开始预识别手势，进行合理的预测，在对方完全做完手势前就已经理解了对方所要表达的意图。因此，手势识别系统并不需要等用户完整表达完手势才开始识别，完全可以提前开始识别，这样可以大大提高手势识别的速度，而且更符合用户的使用逻辑，减少用户不必要的等待。

发明内容

针对目前手势识别存在的延迟、滞后问题，本发明提供了一种基于循环神经网络的手势前置实时识别方法，可以在手势完成前实现识别，减少用户在表达完意图后等待系统做出反应的时间。

一种基于循环神经网络的手势前置实时识别方法，包括离线建模阶段和在线手势前置识别阶段，具体步骤如下：

A、离线建模阶段

(1)采集手势数据，并对采集到的数据进行预处理；

(2)选择B样条曲线拟合方程参数和角点信息作为手势特征进行提取，获得手势的特征序列；

(3)构建长短时记忆神经网络LSTM，将手势特征序列和对应的手势类型输入长短时记忆神经网络LSTM进行训练，获得神经网络模型作为手势分类器；

B、在线手势前置识别阶段

(4)实时采集待识别的手势数据；

(5)对待识别手势数据进行实时处理，计算当前时间节点的手势特征，得到当前时间节点的手势特征序列；

(6)将当前时间节点的手势特征序列输入至训练得到的手势分类器；若手势分类器输出预测概率大于95％，将此概率对应手势类型作为结果输出，完成手势的实时识别。

本发明选择B样条曲线拟合方程参数和角点信息作为手势特征；选择长短时记忆神经网络(LSTM:Long Short Term Memory)模型训练手势分类器，由此实现手势的前置实时识别，即在手势完成前实现识别，减少用户在表达完意图后等待系统做出反应的时间，甚至可以让系统在用户表达完意图前做出反应。

本发明针对的手势类型为轨迹型手势，步骤(1)中，所述的对采集的数据进行预处理是通过低通滤波消除由于徒手凌空手势容易因手臂疲劳造成的抖动，低通滤波是对手势坐标序列进行卷积核为[1 1 1]*1/3的一维卷积以消除一部分高频信息，即抖动。

步骤(2)中，B样条曲线拟合可以得到一段平滑连接的逼近控制点Pi的曲线，见图1所示。B样条曲线的方程为：

其中Pi是第i个曲线特征点，F_i,k(t)是k阶样条基函数。

选择二次B样条曲线，其中每段曲线的方程为：

转换成关于t的多项式就是：

由于常数项表达的是曲线的偏移，曲线形状由二次项和一次项系数决定，选取二次项和一次项系数作为手势特征之一，可以描述一段曲线的形状，也就是一段时间内手势的轨迹信息。计算方法如下：

t_i时刻手部位置为(x_i，y_i)，t_i+1时刻手部位置为(x_i+1，y_i+1)，t_i+2时刻手部位置为(x_i-+2，y_i+2)。记p₁＝x_i+1-x_i，q₁＝y_i+1-y_i，p₂＝x_i+2-x_i+1，q₂＝y_i+2-y_i+1，计算一次项系数a₁，b₁，二次项系数a₂，b₂：

a₁＝p₁

b₁＝q1

选取B样条曲线拟合得到的曲线方程的4个系数a1，a2，b1，b2为手势的其中四个特征值。由于B样条曲线拟合得到的曲线方程系数与点的相对距离有关，因此会受到手势大小的干扰，为了消除这一影响，另外引入g1和g2两个特征值。

角点是曲线上局部曲率最大的点，即曲线的拐角点。角点特征g3定义为当前点与相邻点的夹角余弦，见图2所示。计算方法如下：

角点特征反映了曲线的平滑程度，如果曲线平滑，则转角基本不变，其余弦值为一个较小的正值；曲线有转折时，转角很大，比如V型手势最低点处转角大于90°，其余弦值为负，由此可以区分U型手势和V型手势这类在走势上难以区分的手势。

针对t_i、t_i+1、t_i+2这三个时刻的手势轨迹数据(x_i，y_i)，(x_i+1，y_i+1)，(x_i+2，y_i+2)，可以计算得到一组手势特征值f_i，f_i＝(a1,a2,b1,b2,g1,g2,g3)。对应于一个完整的手势数据序列(x₀,y₀),(x₁,y₁)，……，(x_n,y_n)，其手势特征序列f＝(f₀，f₁，f₂，…，f_n-2)。

步骤(3)中，构建的长短时记忆神经网络LSTM的结构分为4层，如图3所示，分别为Masking层、LSTM层、Dropout层和Dense层，其中关键的LSTM层，共使用了60个LSTM细胞相连接。

如图4所示，在线手势前置识别阶段采用手势前置识别系统，包括unity前端、socket通信系统和Python神经网络后端三部分；

socket通信系统实现unity前端和Python神经网络后端间的通信，根据所记录的手部运动的距离，当移动距离累加高于阈值0.01m时，将其设为手势轨迹的B样条曲线拟合的特征点传输给Python神经网络后端进行处理。

与现有技术相比，本发明具有以下有益效果：

本发明通过对动态轨迹型手势特点的分析，采用了B样条曲线拟合参数和角点特征两种有效的手势特征对手势进行建模，利用长短时记忆神经网络LSTM长期记忆的优势，建立了用于手势前置实时识别的手势分类器，该分类器有效地利用手势整体特征进行学习，在手势中后期可以提前识别出手势类型，为更高效更智能的手势交互系统提供支持。

附图说明

图1为本发明中二次B样条曲线示意图；

图2为本发明中手势角点特征示意图；

图3为本发明中手势前置实时识别采用的LSTM神经网络结构示意图；

图4为本发明中手势前置实时识别系统架构图；

图5为本发明中手势前置实时识别系统界面示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本实施例在具体实施过程中，采用分辨率为1920px*1080px的ASUS MG248显示器作为显示设备，显示屏幕大小53cm*32cm，显示屏幕中心距地面105cm，用户正对显示屏幕中心，距离显示屏幕60cm。采用Leap Motion记录被试的右手运动轨迹数据，采集频率为60fps。

离线建模阶段：

共计10组实验，每组实验采集30个手势，每组实验将30种手势形成一个随机序列，按照序列顺序逐个采集手势，采集时在屏幕上显示需要画的手势，红点标注手势起始点。30个手势可以是字母(A,B,C,D,E,F,G,H,J,K,L,M,N,P,Q,R,U,V,W,Y)和数字(0,1,2,3,4,5,6,7,8,9),排除了一部分和数字难以区分的字母，如S(和5很像)、I(和1很像)。实际应用中，开发者在设计手势集时尽量避免使用容易混淆的手势。

如图5所示，用户按下空格开始做根据系统界面显示要求用户表达的手势，系统记录每帧的右手中指指尖位置作为手势数据，被试手势结束时停顿0.5秒，系统检测到后结束本次采集，将采集到的手势数据和手势类型记录下来。

为保证神经网络训练能得到高识别率的手势分类器需选取高质量的手势数据进行神经网络训练。通过读取手势数据获取手势信息，按照数据标记的时序把所有数据点逐一画在屏幕上，用线段连接，还原出用户绘制的手势，然后用人眼判断手势质量，若无法分辨手势类型则将此手势数据抛弃。

考虑到leap motion的精度问题和徒手凌空手势容易因为手臂疲劳造成抖动，需要对原始数据进行低通滤波的预处理，即进行卷积核为[1 1 1]*1/3的一维卷积以消除一部分高频信息，即抖动。

选取的手势特征应满足连续性、整体性和实时性要求，选取B样条曲线拟合的曲线方程一次项系数a1、b1，a1、b1的比值g1，二次项系数a2、b2，a2、b2的比值g2以及手势曲线的角点特征g3共7个特征值作为手势特征。

手势特征中的B样条曲线拟合的曲线方程一次项系数a1、b1和二次项系数a2、b2的具体计算公式为：

记t_i时刻手部位置为(x_i，y_i)，t_i+1时刻手部位置为(x_i+1，y_i+1)，t_i+2时刻手部位置为(x_i+2，y_i+2)；

a₁＝p₁

b₁＝q₁

其中，p₁＝x_i+1-x_i，q₁＝y_i+1-y_i，p₂＝x_i+2-x_i+1，q₂＝y_i+2-y_i+1；

手势特征中的g1和g2的具体计算公式为：

角点是曲线上局部曲率最大的点，即曲线的拐角点。角点特征g3定义为当前点与相邻点的夹角余弦，如图2所示，angle为夹角度数，计算方法如下

本发明中，循环神经网络(Recurrent Neural Network,RNN)选用了长短时记忆神经网络LSTM。在处理序列问题上循环神经网络是一个很好的工具，它通过循环网络记忆和学习序列数据。但RNN存在长期依赖问题，这一问题的主要原因是RNN的循环连接比较简单，通常是一个简单的线性关系，经过多次连接迭代后，系数相乘会越来越小逐渐消失，也就丢失了距离较远的数据信息。长短时记忆神经网络作为循环神经网络的一种改良网络，有效地解决了传统RNN的长期依赖问题，适合用于处理较长的时序数据。

LSTM与传统RNN最大的不同在于隐藏层，传统RNN的隐藏层通常使用一个简单的激活函数，如双曲函数tanh，而LSTM的隐藏层做了很多处理，它使用了三个门(遗忘门，输入门和输出门)来控制细胞状态。其中输入门控制从当前节点的输入层输入多少信息，遗忘门控制从上一节点的隐藏层接受多少信息，输出门控制从当前节点输出多少信息到下一时刻。这种做法很大程度上解决了梯度爆炸和梯度消失的问题，因此可以处理较长时间序列的问题，对序列整体的记忆性较好。将LSTM应用于手势前置实时识别正是利用了LSTM的长期记忆性，在学习时可以记忆手势早期的信息，学习到的模型对不同时间的信息权重较为平衡，因此可以在手势中期就可以计算得到和完整手势近似的特征，判断出手势的类型。

构建的LSTM神经网络结构分为4层，分别为Masking层，LSTM层，Dropout层和Dense层，结构图如图3所示。第一层Masking层的可以使神经网络拥有处理可变长序列的能力，第二层是关键的LSTM层，共使用了60(序列最大长度)个LSTM细胞相连接，作为核心部分，这一层用来记忆和学习输入的手势特征序列，学习处理序列的方法。第三层为Dropout层，加入这一层是为了避免过拟合，每次随机丢失一半的学习得到的参数以防止在训练集上表现太好而在测试集上表现不佳。最后一层Dense层是全连接层，使用softmax激活函数，按照学习到的权重输出分类结果。

对处理完毕的手势数据进行手势特征提取，将提取得到的手势特征和相应的手势类型输入至长短时记忆神经网络LSTM训练获得神经网络模型作为手势分类器。

训练时使用多种分类常用的交叉熵函数作为损失函数，最后训练得到的手势分类器就可以用来实现步骤(2)中的手势前置实时识别。

在线手势前置实时识别阶段：

如图4所示，用于实现线上手势前置实时识别的手势前置识别系统包括unity前端，socket通信系统和Python神经网络后端三部分。

(1)unity前端包含可视化界面、用户手势数据采集和手势数据预处理。可视化界面实时显示系统猜测用户表达的手势类型，并实时绘制用户使用leap motion绘制的手势图案，当用户意图与系统识别结果一致时便提前结束绘制，可视化界面示意图如图5所示。系统界面显示要求用户表达的手势且给予提示，红点标注手势起始点。用户按下空格开始做手势，利用leap motion的unity sdk检测右手中指的指尖设置，每帧采集记录右手指尖在unity程序的世界坐标系的坐标，将其投影到xoy平面，获得横纵坐标值作为手势原始数据。考虑到leap motion的精度问题和徒手凌空手势容易因为手臂疲劳造成抖动，需要对原始数据进行低通滤波的预处理，即进行卷积核为[1 1 1]*1/3的一维卷积以消除一部分高频信息，即抖动。

(2)socket通信系统是一种基于TCP协议的跨程序通信机制，可以在两个程序之间进行双向传输信息，实现unity前端和Python神经网络后端间的通信。为了提高手势前置识别系统的效率，unity前端并不是每帧都与后端通信，而是根据记录的手部运动的距离，当移动距离累加高于阈值0.01m时，将其设为手势轨迹的B样条曲线拟合的特征点，传输给Python神经网络后端进行处理，这样可以避免无效数据干扰，比如用户在手势绘制过程中短暂的停顿。

(3)Python神经网络后端在得到手势数据后，提取手势特征得到特征序列，利用训练得到的手势分类器识别出手势类型后，通过socket通信系统传输给可视化界面实时显示，当预测结果和用户意图一致时，用户可以提前终止，即停止手的移动，系统检测到停顿后，结束该手势的识别。

具体的，本实施例中，同线下神经网络训练建模阶段类似采集并处理完手势数据后，利用socket通信系统实现手势数据传输，socket设定为绑定到localhost的9000端口，发送缓冲区和接受缓冲区均设定为1024个字节。运行时unity前端向Python后端发送“000”表示开始一个新的手势识别，此后发送每次得到的手势B样条曲线拟合的特征点坐标，在每个手势结束时发送“111”表示本次手势输入结束。Python后端读取预先训练好的神经网络模型作为分类器，根据计算出的手势特征值序列得到识别出的手势类型，将识别结果的手势类型编号通过socket通信系统发送回unity前端，反馈输出至可视化界面进行实时显示。当预测结果和用户意图一致时，用户可以提前终止，即停止手的移动，系统检测到停顿后，结束该手势的识别。

本发明有效地利用手势整体特征进行学习，在手势中后期提前识别出手势类型，为更高效更智能的手势交互系统提供支持。本发明实现的系统可以做到与人的视觉类似的动态识别和提前预测能力，不需要等待手势全部完整表达完就可以实时识别出用户试图表达的手势类型，效果理想。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于循环神经网络的手势前置实时识别方法，其特征在于，包括离线建模阶段和在线手势前置识别阶段，具体步骤如下：

A、离线建模阶段

(1)采集手势数据，并对采集到的数据进行预处理；

B、在线手势前置识别阶段

(4)实时采集待识别的手势数据；

2.根据权利要求1所述的基于循环神经网络的手势前置实时识别方法，其特征在于，步骤(1)中，所述的预处理为：采用低通滤波对采集的手势坐标序列进行卷积核为[1 1 1]*1/3的一维卷积以消除一部分高频信息，从而消除徒手凌空手势因手臂疲劳造成的抖动。

3.根据权利要求1所述的基于循环神经网络的手势前置实时识别方法，其特征在于，步骤(2)中，选取的手势特征应满足连续性、整体性和实时性要求，选取B样条曲线拟合的曲线方程一次项系数a1、b1，a1、b1的比值g1，二次项系数a2、b2，a2、b2的比值g2以及手势曲线的角点特征g3共7个特征值作为手势特征。

4.根据权利要求3所述的基于循环神经网络的手势前置实时识别方法，其特征在于，手势特征中的B样条曲线拟合的曲线方程一次项系数a1、b1和二次项系数a2、b2的具体计算公式为：

a₁＝p₁

b₁＝q₁

手势特征中的g1和g2的具体计算公式为：

手势特征中的角点特征g3定义为当前点与相邻点的夹角余弦，计算公式为：

5.根据权利要求1所述的基于循环神经网络的手势前置实时识别方法，其特征在于，步骤(3)中，构建的长短时记忆神经网络LSTM的结构分为4层，分别为Masking层、LSTM层、Dropout层和Dense层，其中关键的LSTM层，共使用了60个LSTM细胞相连接。

6.根据权利要求1所述的基于循环神经网络的手势前置实时识别方法，其特征在于，在线手势前置识别阶段采用手势前置识别系统，包括unity前端、socket通信系统和Python神经网络后端三部分；