CN107766842A

CN107766842A - 一种手势识别方法及其应用

Info

Publication number: CN107766842A
Application number: CN201711101103.7A
Authority: CN
Inventors: 周晓燕; 冯志全; 陈乃阔; 赵永国; 谢玮; 马争光
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2018-03-06
Anticipated expiration: 2037-11-10
Also published as: CN107766842B

Abstract

本发明提供了一种手势识别方法及其应用，属于智能教学领域。该手势识别方法包括：(1)，输入Kinect捕捉的深度图，进行样本序列预处理，获得合成的动态手势训练样本；(2)将合成的动态手势训练样本输入到训练好的深度学习模型中进行识别：训练好的深度学习模型根据分类输出每种分类的识别概率，找到其中最高的识别概率，其对应的分类就是识别的结果。利用本发明方法提高了手势的识别率以及鲁棒性，让老师能够用平常讲课过程中用到的自然手势来给学生上课,而不必重点记忆交互的方法,将有限的精力完全用于教学当中。

Description

一种手势识别方法及其应用

技术领域

本发明属于智能教学领域，具体涉及一种手势识别方法及其应用。

背景技术

随着电子技术的发展,电子音像设备的产生,教室的形态经历了从传统教室,到电子教室,多媒体教室,以及到如今的智能教室.越来越多的电子设备在教室中的应用,使得教师在教学过程中需要不断的提高对这些多媒体设备的操控技能,即使目前最广泛也是比较先进的电子白板,也需要老师去进行接触式的交互,才能达操控的目的.这样就使得教师对于交互本身的关注过多,有限的精力不能完全用于教学。

基于交互手势的智能教学系统的核心是手势识别算法，目前比较常用的手势识别算法需要人工设计特征提取和分类器,识别结果的鲁棒性、推广性,以及对于多类型手势的识别率很难满足智能手势教学界面的要求。例如,Dardas等(请参考文献“Dardas N H,Georganas N D.Real-time hand gesture detection and recognition using bag-of-features and support vector machine techniques.Instrumentation andMeasurement,IEEE Transactions on,2011,60(11):3592-3607”)通过对图像进行尺度不变性特征变换和矢量化特征提取,然后用特征包和多类支持向量机(请参考文献“WESTONJ,WATKINS C.Support vector machines for multi-class pattern recognition:Proceedings of the seventh European symposium on artificial neural networks,1999[C].Bruges:[s.n.],1999,4(6):219-224”)对手势进行识别,该方法可以得到较好的手势识别效果.但是由于SIFT算法[7]的计算复杂度高导致识别速度较慢,实时性差,Kuremoto等(请参考文献“Kuremoto T,Kinoshita Y,Feng L,et al.A gesturerecognition system with retina-V1model and one-pass dynamicprogramming.Neurocomputing,2013,116:291-300”)提出了一种基于动态规划(DP)的手势识别方法.首先用hsv-rgb滤波器对肤色区域进行分割,然后用retina-v1模型在8邻域内对手势进行简单的运动估计,最后用DP算法进行手势识别.Haitham等(请参考文献“HaithamH,Abdul-Kareem S.Static hand gesture recognition using neuralnetworks.Artificial Intelligence Review,2012:1-35”)提出一种利用神经网络进行手势识别的方法,该方法通过边缘检测提取样本几何矩特征和轮廓特征,然后利用神经网络对手势进行识别,该方法对于动态手势识别率较好,卷积神经网络可以有效识别动态手势.Li等(请参考文献“Li Y T,Wachs J P.HEGM:A hierarchical elastic graph matchingfor hand gesture recognition.Pattern Recognition,2014,47(1):80-88”)提出了一种利用分层弹性图匹配(HEGM)的手势识别方法,用Boosting算法来确定一个给定的图形的层次结构,利用梯度方向直方图(HOG)提取视觉特征.Padam等(请参考文献“Padam Priyal S,Bora P K.A robust static hand gesture recognition system using geometry basednormalizations and Krawtchouk moments.Pattern Recognition,2013,46(8):2202-2219”)提出一种基于几何标准化和Krawtchouk矩特征的静态手势识别算法,根据手势测量方法把手从手和前臂区域中提取出来,再用Krawtchouk矩特征和最小距离分类器把手势轮廓进行归一化,该方法对小的训练样本集能够进行很好的识别。这些手势识别方法都有一个很明显的缺陷就是:学习能力不足、效率不高,且手势识别的正确率有一定的局限性,不具有一般性.

深度学习的概念(请参考Hinton,G.E.and Salakhutdinov,R.R.Reducing thedimensionality of data with neural networks[J].Science,2006,Pages:504-507；Hinton,G.E.,Osindero,S.and Teh,Y.A fast learning algorithm for deep beliefnets[C].Neural Computation,2006,Pages:1527-1554；Hinton,G.E.:Learning multiplelayers of representation[C].Trends in Cognitive Sciences.2007,Pages:428–434；Ackley,D.H.,Hinton,G.E.,Sejnowski,T.J.:A learning algorithm for Boltzmannmachines.Cognitive Science,1985.(9),Pages:147-169)是Geoffrey Hinton等人提出来的,主要通过多层(通常有6-9层)网络来模拟人的大脑的学习过程,将特征提取和分类合并到一个学习模型中,减少了人工/人为在设计特征中的工作,即可自动提取特征、如“自动编码”。

Caffe(Convolutiona Architecture for Fast Feature Embedding)(请参考文献“J.Donahue,Y.Jia,O.Vinyals,J.Hoffman,N.Zhang,E.Tzeng,and T.Darrell.Decaf:Adeep convolutional activation feature for generic visual recognition.ICML,2014”)是目前在图像领域应用最为广泛的深度学习平台。

发明内容

本发明的目的在于解决上述现有技术中存在的难题，提供一种手势识别方法及其应用，针对交互式教学界面中的6种动态手势,提高识别率以及鲁棒性,使整个交互式教学界面更好的为智能教学系统服务。

本发明是通过以下技术方案实现的：

一种手势识别方法，包括：

(1)，输入Kinect捕捉的深度图，进行样本序列预处理，获得合成的动态手势训练样本；

(2)将合成的动态手势训练样本输入到训练好的深度学习模型中进行识别：训练好的深度学习模型根据分类输出每种分类的识别概率，找到其中最高的识别概率，其对应的分类就是识别的结果。

所述步骤(1)是这样实现的：

(11)Kinect捕捉深度信息以及人体骨骼信息,并根据深度信息以及人手的质心点坐标生成人体深度图；

(12)Kinect捕捉手势序列，对手势序列的每一帧的人体深度图进行分割处理，生成人手深度图；

(13)获取所述人手深度图的包围盒,将每张图片按照包围盒进行分割得到图片序列；

(14)获取每组图片序列的序列长度M,采用首尾帧固定、中间帧遍历组合的方式合成动态手势训练样本。

所述步骤(11)中的人手的质心点坐标是这样得到的：

Kinect捕捉到的26个人体骨骼信息中包括有左、右手的质心点坐标信息，将这些质心点坐标信息提取出来即得到人手的质心点坐标。

所述步骤(12)是这样实现的：

根据深度信息以及人手的质心点坐标,将质心点前后3cm的距离确定为人手区域,将人手区域从人体深度图像中切割出来,生成人手深度图。

所述步骤(13)是这样实现的：

将所述人手深度图输入到MATLAB中,得到人手深度图的包围盒,再放缩到60*60ps的尺寸；

将人手深度图进行包围盒分割处理,得到图片序列X{x₁,x₂,...,x_m}。

所述步骤(14)中采用首尾帧固定、中间帧遍历组合的方式合成动态手势训练样本是利用下式实现的：

利用下式

其中,M是每组图片序列帧的长度；

所述动态手势训练样本能够直接输入到Caffe中进行训练。

所述深度学习模型采用CaffeNetModle模型。

利用所述手势识别方法实现的交互式教学方法，包括：

步骤1.进入交互式教学界面后,利用Kinect持续捕捉用户做出的手势序列；

步骤2.利用所述手势识别方法进行手势识别，得到识别的手势命令；

步骤3.根据识别的手势命令,交互式界面作出相应的回应。

所述交互式教学界面是利用OPENGL实现的一个交互场景，其能够通过识别的手势命令对OPENGL中的物体做出相应的变化。

与现有技术相比，本发明的有益效果是：利用本发明方法提高了手势的识别率以及鲁棒性，让老师能够用平常讲课过程中用到的自然手势来给学生上课,而不必重点记忆交互的方法,将有限的精力完全用于教学当中。

附图说明

图1本发明中的智能教学界面步骤框图

图2本发明中的从深度图中分割并处理出人手的图

图3本发明中的合成样本图

图4a训练过程正确率

图4b测试过程正确率

图4c训练过程损失值

图4d测试过程损失值

图5本发明中的6种动态手势样本图

图6用户体验评价统计。

具体实施方式

下面结合附图对本发明作进一步详细描述：

本发明将Caffe平台用于深度学习训练中，在深度学习平台Caffe的支持下,基于CaffeNet深度网络进行优化参数的改进,最后基于大数据库训练出面向智能教学界面的手势识别模型,并应用于智能教学界面当中。

基于交互式的智能教学界面：

本发明实现了智能手势教学,并将得到的深度学习模型CaffeNetModle应用于智能手势教学界面中,使老师能够用自然的手势上几何课，下面实施例中的智能手势交互界面是针对“棱锥的体积”教学设计的。

智能教学界面的总体框架如图1所示，包括：

输入：Kinect捕捉的动态图像序列

输出：教学界面执行命令.

步骤1.进入智能教学界面后,Kinect持续捕捉用户做出的手势序列；

步骤2.手势序列输入系统进行分割、归一化尺寸、合成等预处理,合成输入样本；

步骤3.将合成的图片输入到训练好的深度学习模型(即CaffeNetModle模型)中进行识别，训练出的深度学习模型根据分类输出每种分类的识别概率，找到其中最高的识别概率，其对应的分类就是识别的结果；

步骤4.根据识别的手势命令,交互式界面作出相应的回应。本申请中的交互界面是基于OPENGL设计并实现的一个交互场景，能够通过手势识别的结果对于OPENGL中的物体做出相应的变化，比如对于三棱柱可以进行放大缩小旋转或者切割变换。

本发明的手势识别方法是基于深度学习算法的动态手势识别方法，具体如下：

建立动态手势大数据库，数据库建好后也可以继续往里添加手势种类、手势数量，用数据库中的手势来训练深度学习模型，海量手势数据是深度学习应用于手势识别的基础。

在采集手势大数据库之前,调查了100人(50位老师,50位学生)关于给学生上一节立体几何课堂上,老师们可能以及常用的手势，确定手势之后,组织了2000人来采集需要的手势.这些人都是大一到大四的学生,男女比例均匀,年龄在20到24岁。

动态手势是指手的形状和位置随时间发生变化的手势,将动态手势延时间轴展开就是由一帧帧的静态手势序列帧组合而成.因此,本发明采用Kinect采集组成动态手势的序列帧用于动态手势的识别训练。采用Kinect 2.0来进行手势的采集，志愿者距离Kinect约1.5m,将手自然的伸出面对Kinect,做出需要采集的动态手势。

Kinect捕捉并保存手势从开始到结束的序列帧,然后自由变换一个角度做手势,这样Kinect就可以捕捉到不同角度的手势序列帧,保证手势库的多样性.对每个志愿者每种手势采集10组动态手势序列,5组正对Kinect,5组侧对Kinect,以此来建立动态手势大数据库。

样本预处理方法：

为了避免光照肤色等对手势图片的影响,也为了避免对于彩色RGB图像复杂的预处理工作，本发明选取深度图像来进行大数据库的建立.这样既能避免复杂背景的影响,也能避免光照对人手的影响.本发明中首先采用深度信息阈值分割方法对获取的手势序列帧进行初步分割处理。

动态手势序列帧从全身的深度图中分割出来后,是一组一组动态手势序列,不能直接输入到Caffe平台中训练所需要的模型,而且每张图片中人手所占的比例过小,不利于深度网络提取有效的学习特征,由此,将分割后的图片进行包围盒分割处理,得到图片序列X{x₁,x₂,...,x_m}.但是得到的动态图片序列不能直接输入到CNN网络(卷积神经网络，caffe是一个可以支撑CNN的平台)中进行训练,因此本发明提出一种首尾帧固定,中间帧遍历组合的方式(公式3.1)来预处理动态手势序列帧,合成能够直接输入到Caffe中训练的图片,且能够增加训练样本的多样性，如图3所示。

其中,M是每组图片序列帧的长度.

样本序列预处理方法的具体过程如下:

输入：Kinect捕捉的深度图.

输出：合成的动态手势训练样本.

步骤1.Kinect捕捉深度信息以及人体骨骼信息,并根据深度信息以及人手的质心点坐标(Kinect获取的26个骨骼信息中有左右手的质心点坐标信息，可以直接提取)生成人体的深度图；

步骤2.Kinect捕捉手势序列帧，对手势序列的每一帧深度图片进行分割处理,根据深度信息以及人手的质心点坐标,质心点前后3cm的距离为人手区域,大于这个阈值,就不是人手区域.按照这个标准,将人手从深度图像中切割出来,生成人手的深度图，如图2所示；

步骤3.将分割后的手势输入到MATLAB中,求出手势图片的包围盒,将每张图片按照包围盒进行分割,再放缩到60*60ps的尺寸，如图2所示；

步骤4.分割好的图片序列X(一帧是一张图片，序列X中包含多帧),获取每组图片序列的序列长度M,按照公式(3.1)的方法进行合成训练样本，如图3所示。

CaffeNet参数优化与训练：

本发明选取CaffeNet网络结构对于得到的手势数据库(即上述步骤4得到的合成训练样本)进行训练.CaffeNet是在AlexNet(请参考文献“Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems.CurranAssociates Inc.2012:1097-1105”)的基础上修改而来,该网络包括八个带权层,前五层是卷积层,剩下三层是全连接层.最后一个全连接层的输出被送到一个1000-way的softmax层,其产生一个覆盖1000类标签的分布.本发明中用了其中的6类标签。CaffeNet网络使得多分类的Logistic回归目标最大化,这相当于最大化了预测分布下训练样本中正确标签的对数概率平均值.第二、第四和第五个卷积层的核只连接到前一个卷积层也位于同一GPU中的那些核映射上.第三个卷积层的核被连接到第二个卷积层中的所有核映射上。全连接层中的神经元被连接到前一层中所有的神经元上。响应归一化层跟在第一、第二个卷积层后面.最大Pooling层,跟在响应归一化层以及第五个卷积层之后.ReLU非线性应用于每个卷积层及全连接层的输出。

在Caffe中,Solver通过协调Net的前向推断计算和反向梯度计算(ForwardInference And Backward Gradients)来对参数进行更新,从而达到减小loss的目的。Caffe模型的学习被分为两个部分:由Solver进行优化、更新参数,由Net计算出loss和gradient。本发明Net选择CaffeNet,在反复的训练总结中,优化了solver以及网络部分的参数配置.关键参数设置如下:base_lr:0.0001,lr_policy:”inv”,gamma:0.0001,为学习率设置.base_lr用于设置基础学习率,在迭代的过程中,可以对基础学习率进行调整.怎样进行调整,就是调整的策略,由lr_policy来设置.本发明中lr_policy设置为inv(倒数衰减Inverse Decay),迭代过程中逐步降低学习率通常可以加快算法的收敛速度.倒数衰减(1/t decay),其数学表达式可以表示为:α＝α₀/(1+kt),其中α₀和k是需要设置的超参数,t是迭代次数.momentum:0.9指上一次梯度更新的权重.display:50是每训练50次,在屏幕显示一次.如果设置为0,则不显示.max_iter:100000这是最大迭代次数.这个参数设置太小,会导致没有收敛,精确度很低.设置太大,会导致震荡,浪费时间.经过反复多次实验,我们发现200k是最合适的.weight_decay:0.0005是权重衰减项,防止过拟合的一个参数.而在网络初始数据输入上,除了在转化数据格式的时候加入shuffle功能,将原始数据打乱这样更能够增加手势数据的多样性。

在将CaffeNet参数做以上调整之后,训练了200个CaffeNet模型,最终挑选出识别率最高的模型CaffeNetModle(即训练好的深度学习模型)(识别率高达98％)应用于交互式教学界面中(在VS平台中调用caffe运行训练好的模型进行识别)。提取出训练过程中的每迭代50次测试一下正确率以及loss值变化,每200次用测试集测试一次模型的正确率以及loss值的变化.训练过程展示如图4a、图4b、图4c、图4d所示。

从训练和测试过程中loss和accuracy的变化图可知,训练(图4c)和测试(图4d)中的loss值是一直降低的,且随着训练的进行无限趋向0.训练(图4a)中的正确率刚开始比较低,随着训练次数的增多,accuracy逐渐趋于1,这说明,模型正在不断地进行优化,识别的结果与实际图片种类差别越来越小.测试(图4b)的accuracy从很低0.1,随着训练模型的优化,慢慢接近1.整个的训练过程中没有产生过拟合.这些数据都证明了所建立的数据集是足够大的,并且手势数据集的多样性是足够的。

利用本发明方法进行了以下实验：

实验环境及准备如下：

实验硬件环境：CPU：2xXeon E5-2620V3,GPU:双K40M,内存64G显存8G。

实验软件环境:Win10 64位Caffe for Windows+CUDA8.0+CUDNN7.5+VS2013.

实验外接设备:Kinect 2.0

训练图片:深度图，如图5所示。

训练集中6种手势的图片数量如表1所示：

表1

识别率对比实验如下：

采集了20人的6种动态手势各100组数据,用本发明方法采集以及处理之后的图片,每种各100张,这100张样本图不包含在训练模型过程中用到的测试集和训练集当中,测试模型优化前后的识别效果(识别正确的图片数量/样本总量),测试结果如表2所示。经统计,模型优化前,6种非轨迹手势平均识别率为95.67％,优化后,6种手势平均识别率达到98％,识别率提高了2.33％。且经测试，识别时间为19.98ms,速率非常快,人眼几乎察觉不到,用于交互式智能教学界面中,几乎没有延时,基本实现实时识别。

手势序号	00	01	02	03	04	05
							测试图片数量	100	100	100	100	100	100
模型优化前的识别率(％)	94	95	96	96	96	97
							模型优化后的识别率(％)	98	99	98	97	97	99

表2

在此基础上,将优化后的模型识别率同基于空间手势坐标点分布特征(HCDF)和类-Hausdorff距离(以下简称HCDF-H)的算法(请参考文献“杨学文,冯志全,黄忠柱,何娜娜.结合手势主方向和类-Hausdorff距离的手势识别[J].计算机辅助设计与图形学学报,2016,(01):75-81”)的识别率对比实验。召集了20个(包括大学生和研究生,男女比例均衡)参与对比实验。要求:每个人分别用两种手势识别算法(CaffeNetModle和HCDF-H)进行识别率测试,对于本文中6种动态手势,每种手势做10次识别测试,这样每种算法每种手势种类测试200次。试验结果如表3所示：

表3

通过表3的对比实验可以发现,CaffeNetModle模型的识别率较HCDF-H有着明显的优势,首先平均识别率较HCDF-H算法提高约3.59％.再者从操作的简便性上,CaffeNetModle模型测试的时候,实验者可直接进行测试,而HCDF-H算法在实验之前需要建立每个人对应的手势模型库才能进行测试实验,较之本文识别算法要复杂得多.由此可见CaffeNetModle无论从识别率的鲁棒性上还是从可操作性上都要优于HCDF-H算法。

智能教学界面如下：

本实施例中的智能教学界面是以“让老师能够徒手给学生上一节立体几何课”为目的展开的,由此,设计一堂“椎体体积是柱体体积三分之一”的几何课.让老师能够用手势去控制OPENGL场景中的物体,而不是像传统的ppt讲课,只能切换幻灯片,不能根据讲课的实际即兴操纵ppt中的几何物体。

在本发明的智能教学界面中,老师们可以利用平时生活中惯用的、潜意识的手势来切换场景,甚至是直接操作场景中的三棱柱,如切割三棱柱,即将三棱柱切割成三个三棱锥,对场景中的三棱柱或者切割后的三棱锥进行旋转,放大或者缩小,还原等操作。课堂上,老师们自然的挥挥手(从右向左挥手,模拟翻页动作)就可以切换场景,做切割动作(从右上方到左下方挥手,模拟劈的动作)就可以直接将场景中的棱柱切割,三指抓,二指抓或者五指抓可以缩小场景中的几何体,三指放,二指放或者五指放可以放大场景中的几何体(模拟在触摸屏上放缩物体)。本发明的智能教学界面就是让老师们以这样自然而然的方式来给学生上课,给学生直接的视觉冲击,让学生能够对于课堂中讲的内容有更深刻的印象。而老师也可以将精力完全集中与教学与学生身上,而不用分散过多的精力关注怎么操作各种教学设备。

用户体验评价如下：

设置疲劳程度、努力程度、愉悦度和可行性四个评价指标来评价这款界面.疲劳程度是在用户操作过程中用户的辛苦程度；努力程度是用户在操作过程中,用户需要付出多少努力；愉悦程度是在操作过程中,用户所感到的愉悦程度；可行性为对用户来说就是整个交互界面设计的可行程度。其中疲劳程度和努力程度分数越低表示用户体验越好，可行性和愉悦程度分数越高表示用户体验越好。分别用两种形式的课堂设计了一堂讲三棱锥体积是三棱柱体积的三分之一的立体几何课,请50名体验者分别体验两个版本的课堂。版本1(传统多媒体教室系统):传统教室中利用黑板,PPT等为学生上几何课，版本2(基于交互式教学界面的智能教学系统):运用基于交互式的智能教学界面给学生上几何课。实验完毕后请实验者按照上述四个评价指标对于两个版本的课堂操作进行评价打分,满分为100分。

由图6的结果可知,本发明的基于交互式教学界面在四个指标的评价中,疲劳程度降低42.6％,努力程度降低20.6％,愉悦程度提高了48.8％,而可行性分析中,体验者普遍认为,基于交互式教学界面完全可行,且几乎全部人都认为,这将是以后教学的一种趋势。本次的用户体验对本发明给予了很高的评价。操作的自然性,简便性以及趣味性都为交互式教学界面的研究提供了很好的发展前景。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

Claims

1.一种手势识别方法，其特征在于：所述手势识别方法包括：

(1)输入Kinect捕捉的深度图，进行样本序列预处理，获得合成的动态手势训练样本；

2.根据权利要求1所述的手势识别方法，其特征在于：所述步骤(1)是这样实现的：

3.根据权利要求2所述的手势识别方法，其特征在于：所述步骤(11)中的人手的质心点坐标是这样得到的：

4.根据权利要求3所述的手势识别方法，其特征在于：所述步骤(12)是这样实现的：根据深度信息以及人手的质心点坐标,将质心点前后3cm的距离确定为人手区域,将人手区域从人体深度图像中切割出来,生成人手深度图。

5.根据权利要求4所述的手势识别方法，其特征在于：所述步骤(13)是这样实现的：将所述人手深度图输入到MATLAB中,得到人手深度图的包围盒,再放缩到60*60ps的尺寸；

6.根据权利要求5所述的手势识别方法，其特征在于：所述步骤(14)中采用首尾帧固定、中间帧遍历组合的方式合成动态手势训练样本是利用下式实现的：

利用下式

其中,M是每组图片序列帧的长度；

所述动态手势训练样本能够直接输入到Caffe中进行训练。

7.根据权利要求6所述的手势识别方法，其特征在于：所述深度学习模型采用CaffeNetModle模型。

8.一种利用权利要求1-7任一所述的手势识别方法实现的交互式教学方法，其特征在于，所述方法包括：

步骤3.根据识别的手势命令,交互式界面作出相应的回应。

9.根据权利要求1所述的交互式教学方法，其特征在于：所述交互式教学界面是利用OPENGL实现的一个交互场景，其能够通过识别的手势命令对OPENGL中的物体做出相应的变化。