CN109086664A

CN109086664A - 一种动静态融合的多态手势识别方法

Info

Publication number: CN109086664A
Application number: CN201810681989.5A
Authority: CN
Inventors: 冯志全; 周晓燕
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-12-25
Anticipated expiration: 2038-06-27
Also published as: CN109086664B

Abstract

本发明提供了一种动静态融合的多态手势识别方法，属于交互式教学领域。该动静态融合的多态手势识别方法包括：(1)利用Kinect持续捕捉用户做出的手势序列；(2)对捕捉到的手势序列进行动静态融合处理，得到动静态融合的样本序列；(3)对所述动静态融合的样本序列进行归一化尺寸处理，得到训练样本；(4)将所述训练样本输入到训练好的深度学习模型中进行识别得到识别结果。利用本发明方法提高了多态手势的识别率以及鲁棒性,使整个交互式教学界面更好地为智能教学系统服务。

Description

一种动静态融合的多态手势识别方法

技术领域

本发明属于交互式教学领域，具体涉及一种动静态融合的多态手势识别方法。

背景技术

随着电子技术的发展,电子音像设备的产生,教室的形态经历了从传统教室,到电子教室,多媒体教室,以及到如今的智能教室.而越来越多的电子设备在教室中的应用,使得教师在教学过程中需要不断的提高对这些多媒体设备的操控技能,即使目前最广泛也是比较先进的电子白板(可参考文献“孔晶,赵建华,刘家亮.交互式电子白板支持探究性学习活动过程分析[J].电化教育研究,2014,(12):86-92+120”。),也需要老师去进行接触式的交互,才能达操控的目的.这样就使得教师对于交互本身的关注过多,有限的精力不能完全用于教学。由此,需要一种基于交互式教学应用的智能教学界面,让老师能够用平常讲课过程中用到的自然手势来给学生上课,而不必重点记忆交互的方法,能够将有限的精力完全用于教学当中.基于交互手势的智能教学系统的核心则为手势识别方法。

目前比较常用的手势识别方法有：Dardas等通过对图像进行尺度不变性特征变换和矢量化特征提取,然后用特征包和多类支持向量机对手势进行识别,该方法可以得到较好的手势识别效果.但是由于SIFT算法的计算复杂度高导致识别速度较慢,实时性差,Kuremoto等提出了一种基于动态规划(DP)的手势识别方法.首先用hsv-rgb滤波器对肤色区域进行分割,然后用retina-v1模型在8邻域内对手势进行简单的运动估计,最后用DP算法进行手势识别.Haitham等提出一种利用神经网络进行手势识别的方法,该方法通过边缘检测提取样本几何矩特征和轮廓特征,然后利用神经网络对手势进行识别,该方法对于动态手势识别率较好,也给了我们信心,卷积神经网络可以有效识别动态手势.Li等提出了一种利用分层弹性图匹配(HEGM)的手势识别方法,用Boosting算法来确定一个给定的图形的层次结构,利用梯度方向直方图(HOG)提取视觉特征.Padam等提出一种基于几何标准化和Krawtchouk矩特征的静态手势识别算法,根据手势测量方法把手从手和前臂区域中提取出来,再用Krawtchouk矩特征和最小距离分类器把手势轮廓进行归一化,该方法对小的训练样本集能够进行很好的识别.这些手势识别算法都有一个很明显的缺陷就是:学习能力不足、效率不高,且手势识别的正确率有一定的局限性,不具有一般性。

深度学习的概念是Geoffrey Hinton(可参考文献“Hinton,G.E.andSalakhutdinov,R.R.Reducing the dimensionality of data with neural networks[J].Science,2006,Pages:504-507”、“Hinton,G.E.,Osindero,S.and Teh,Y.A fastlearning algorithm for deep belief nets[C].Neural Computation,2006,Pages:1527-1554”、“Hinton,G.E.:Learning multiple layers of representation[C].Trendsin Cognitive Sciences.2007,Pages:428–434”、“Ackley,D.H.,Hinton,G.E.,Sejnowski,T.J.:A learning algorithm for Boltzmann machines.Cognitive Science,1985.(9),Pages:147-169”)等人提出来的,主要通过多层(通常有6-9层)网络来模拟人的大脑的学习过程,将特征提取和分类合并到一个学习模型中,减少了人工/人为在设计特征中的工作,即可自动提取特征、如“自动编码”。深度学习的发展有利于将深度学习用于手势识别算法的研究.吴杰提出一种CNN和RBM联合网络,融合这两类特征进行分类,最终结果表明联合的网络在识别背景简单的手势样本时有更好的表现.卓少伟等人采用一种新型的循环神经网络(CW-RNNs)对手势运动轨迹进行识别,根据跟踪部分提取的手指运动轨迹坐标,定义手势模板来对手势模板进行学习,形成手势识别模型,具有一定的优越性.吕翔宇使用双重深度信任网络模型来训练Kinect捕获的彩色图和深度图,实验证明深度学习算法比传统的方法优良.西安邮电大学陶美平等人针对静态手势图像的分类识别问题,提出了一种将无监督的特征学习和有监督的分类识别相结合的静态手势图像识别方法,通过无监督的稀疏自编码神经网络训练图像小块提取手势图像的边缘特征,并将此边缘特征作为训练分类器的输入,最后提出对训练好的分类器的参数进行调优从而提高准确率.上海海事大学操小文等人将卷积神经网络应用于手势识别,能直接把图像数据输入网络,且不用进行复杂的前期预处理.通过大量的仿真实验,证明了该识别方法具有很好的识别效果,相比现有方法有较大的优势。

但是，目前比较常用的手势识别方法需要人工设计特征提取和分类器,识别结果的鲁棒性和推广性,以及对于多类型手势的识别率很难满足智能手势教学界面的要求.

发明内容

本发明的目的在于解决上述现有技术中存在的难题，提供一种动静态融合的多态手势识别方法，针对交互式教学界面中的6种动态手势和17种静态手势,用更好的识别方法提高识别率以及鲁棒性,使整个交互式教学界面更好地为智能教学系统服务。

本发明是通过以下技术方案实现的：

一种动静态融合的多态手势识别方法

(1)利用Kinect持续捕捉用户做出的手势序列；

(2)对捕捉到的手势序列进行动静态融合处理，得到动静态融合的样本序列；

(3)对所述动静态融合的样本序列进行归一化尺寸处理，得到训练样本；

(4)将所述训练样本输入到训练好的深度学习模型中进行识别得到识别结果。

所述步骤(2)的操作包括：

对捕捉到的静态手势进行序列还原处理，对捕捉到的动态手势进行合成序列处理，得到动静态融合的样本序列。

所述对捕捉到的静态手势进行序列还原处理的操作包括：

S1：根据Kinect捕捉的深度信息生成深度图像；

S2：利用Kinect获取人体骨骼信息,锁定人手的质心点坐标,确定人手位置；

S3:根据所述深度信息以及人手的质心点坐标,将质心点前后3cm的距离作为人手区域,将人手从深度图像中切割出来,生成人手的深度图；

S4:求出人手的深度图的包围盒,将每张人手的深度图按照包围盒进行分割,再放缩到60*60ps的尺寸，然后将其复制3份，并将3份拼合到一起，形成尺寸为60*180ps的静态手势图。

所述对捕捉到的动态手势进行合成序列处理的操作包括：

T1：根据Kinect捕捉的深度信息生成深度图像；

T2：利用Kinect获取人体骨骼信息,锁定人手的质心点坐标,确定人手位置；

T3:根据所述深度信息以及人手的质心点坐标,将质心点前后3cm的距离作为人手区域,将人手从深度图像中切割出来,生成人手的深度图；

T4：:求出人手的深度图的包围盒,将每张人手的深度图按照包围盒进行分割,再放缩到60*60ps的尺寸；

T5：分割好的图片序列X,获取每组图片序列的序列长度M，然后利用下式对动态手势的序列帧进行处理得到尺寸为60*180ps的动态手势图：

其中,m是指动态序列中的第m帧，X1是第一帧，XM是末帧。

所述尺寸为60*180ps的静态手势图、60*180ps的动态手势图即为动静态融合的样本序列。

所述步骤(3)的操作包括：

将所述动静态融合的样本序列输入到MATLAB中进行归一化尺寸处理，得到200*200ps的训练样本。

所述训练好的深度学习模型是这样得到的：

将所述200*200ps的训练样本输入到GoogLeNet网络中进行训练优化，得到的识别效果最佳的GoogLeNet深度学习模型，即训练好的深度学习模型。

与现有技术相比，本发明的有益效果是：利用本发明方法提高了多态手势的识别率以及鲁棒性,使整个交互式教学界面更好地为智能教学系统服务。

附图说明

图1本发明方法的步骤框图

图2从深度图中分割出人手的示意图

图3静态手势的还原序列处理示意图

图4从动态手势深度序列图中分割并处理出人手示意图

图5动态手势序列合成图

图6动静态融合训练序列样本展示

图7归一化后图片样本示例图

图8(a)3*Inception类型。

图8(b)5*Inception类型。

图8(c)2*Inception类型

图9 CaffeNet网络结构

图10 CaffeNet网络base_lr优化过程展示

图11 GoogLeNet网络base_lr优化过程展示

图12两组对比实验平均识别率展示

图13用户体验评价统计。

具体实施方式

下面结合附图对本发明作进一步详细描述：

Caffe(Convolutiona Architecture for Fast Feature Embedding)是目前在图像领域应用最为广泛的深度学习平台。本发明在VS2013平台的基础上,联合Caffe平台融合深度学习的手势识别模型,创建交互式教学界面。本发明针对交互式教学界面中的手势进行识别算法研究,结合深度学习的手势识别算法提出动静态融合的多态手势识别算法.在基于两千人的大数据的基础上,对手势库中的静态手势图片,动态手势序列进行处理,生成动静态融合的手势数据集,然后输入到深度学习网络中进行训练,通过反复的训练发现训练参数对于深度学习模型识别率的影响规律,实现动静态融合的多态手势识别,且正确率高达97.09％.得到的手势识别模型GoogLeNet_model高准确率和识别过程中的高鲁棒性在智能教学界面的应用得到了很好的效果。

为解决在传统教室中,教师因与教学设备进行交互而分散过多精力的问题,提出基于交互式的智能教学界面,让老师能够用手势给学生上一节几何课.传统的手势识别方法主要是由特征提取和分类器组成,需要人工设计特征,且识别主要是针对静态手势或者动态手势单态的识别方法研究,识别的正确率鲁棒性不够且对于不同人的识别结果不具备普遍性与操作方便性。为解决这一问题,本发明结合手势大数据库以及深度学习算法,提出基于深度学习网络的动静态融合的多态手势识别算法。该方法的创新性为:针对静态手势图片，提出序列还原算法。针对动态手势序列,提出首尾帧固定,中间帧遍历组合的算法进行处理,以得到动静态融合的手势训练数据集,然后将动静态融合数据集输入到深度学习网络GoogLeNet网络中进行训练。经过反复训练，发现了深度学习网络训练的优化规律。根据优化规律，得到了能识别23种动静态融合手势的GoogLeNet_model,识别率达到97.09％.将此模型用于交互式教学界面,取得了很好的应用效果。

本发明中提出的面向交互式的智能教学界面主要是以“让老师能够徒手给学生上一节立体几何课”为目的展开的,由此,设计了一堂“证明椎体体积是柱体体积三分之一”的几何课.让老师能够用手势去控制OPENGL场景中的物体,而不是像传统的PPT讲课,只能切换幻灯片,不能根据讲课的实际即兴操纵ppt中的几何物体.老师们的操作手势是通过统计得到的老师们平时生活中惯用的、潜意识的手势,比如向左向右挥手可以来切换场景,甚至是直接操作场景中的三棱柱,如三指抓,二指抓或者五指抓可以缩小场景中的几何体,三指放,二指放或者五指放可以放大场景中的几何体(模拟在触摸屏上放缩物体).这样老师也可以将精力完全集中与教学与学生身上,而不用分散过多的精力关注怎么操作各种教学设备。

在交互式教学界面的基础上,融合了本发明的动静态融合的手势识别模型GoogLeNet_model,应用流程如图1所示。

交互式教学界面的总体框架如图1所示:

输入:Kinect捕捉的动态图像序列.

输出:教学界面执行命令.

第一步.进入智能教学界面后,Kinect持续捕捉用户做出的手势序列；

第二步.手势序列输入系统中，经过分割、归一化尺寸、动静态手势合成算法等预处理工作,合成输入样本：静态手势图做序列还原处理，将动态手势序列进行首尾帧固定，中间帧遍历组合的方法进行序列合成处理，得到动静态融合的样本序列；

第三步.将第二步得到的输入样本输入到训练好的深度学习模型GoogLeNet_model中进行识别；

第四步.根据识别的手势命令,交互式界面作出相应的回应。

基于两千人的数据库采集以及分割预处理如下：

针对交互式教学界面的应用目的,调查了50位老师和学生,统计了老师们上课时常用的自然手势,共计23种,包括17种静态手势、6种非轨迹动态手势.然后,组织了2000人进行手势数据库的采集工作,主要是大一到大四的学生,也有学校上课的老师,男女比例均匀.手势库在采集的时候,统一用Kinect2.0设备进行采集,动态、静态手势图片是分别进行采集的,为了避免光照肤色等对手势图片的影响,也为了避免对于彩色RGB图像复杂的预处理工作,本发明中选取深度图像来进行大数据库的建立.这样既能避免复杂背景的影响,也能避免光照对人手的影响.

对于静态手势,志愿者距离Kinect约1.5m,将手自然的伸出面对Kinect,做出需要采集的手势,然后自由的旋转手势,这样Kinect就可以捕捉到不同角度的手势,保证手势库的多样性.对每个志愿者采集50张图片,以此来建立静态手势大数据库.

动态手势是指手的形状和位置随时间发生变化的手势,将动态手势延时间轴展开就是由一帧帧的静态手势序列帧组合而成.因此,用Kinect采集组成动态手势的序列帧用于动态手势的识别训练.如图1所示,用Kinect 2.0来进行手势的采集，志愿者距离Kinect约1.5m,将手自然的伸出面对Kinect,做出需要采集的动态手势,Kinect捕捉并保存手势从开始到结束的序列帧,然后自由变换一个角度做手势,这样Kinect就可以捕捉到不同角度的手势序列帧,保证手势库的多样性.对每个志愿者每种手势采集10组动态手势序列,5组正对Kinect,5组侧对Kinect,以此来建立动态手势大数据库。

所述第二步包括：静态手势的还原序列处理方法，具体如下：

动态、静态手势,都可以看成是时间序列上的过程,区别在于动态手势在时间序列上是变化的,而静态手势在时间序列上是静止的.针对这个规律,我们提出静态手势集还原序列处理方法,具体过程如下：

输入.Kinect捕捉的深度图.

输出.合成的静态手势序列训练样本.

Step 1:Kinect捕捉深度信息,并根据深度信息生成深度图；

Step 2:Kinect获取人体骨骼信息,并锁定人手的质心点坐标,确定人手位置；

Step 3:根据深度信息以及人手的质心点位置,将质心点前后3cm的距离作为人手区域,大于这个阈值,就不是人手区域。按照这个标准,将人手从深度图像中切割出来,生成人手的深度图，如图2所示；

Step 4:将分割的静态手势图根据图中人手的包围盒将人手从图片中剪切出来,归一化为60*60的尺寸,再进行自我拼合处理,即将手势复制3份进行还原序列组合，如图3所示，将相同的三份拼合到一起的目的是将静态图片还原成动态序列，因为静态手势在时间序列中是不变的所以复制三份拼合到一起就可以模拟静态序列在时间上的变化过程。

所述第二步包括：动态序列手势的合成序列处理，具体如下：

动态手势序列帧从全身的深度图中分割出来后,是一组一组动态手势序列,不能直接输入到Caffe平台中训练需要的模型,而且每张图片中人手所占的比例过小,不利于深度网络提取有效的学习特征,由此,本发明将分割后的图片进行包围盒分割处理,得到图片序列.但是得到的动态图片序列不能直接输入到CNN网络中进行训练,因此本发明提出一种首尾帧固定,中间帧遍历组合的方式(公式1)来预处理动态手势序列帧。

其中，M是每组图片序列帧的长度，m是指动态序列中的第m帧，也就是Xm,X1是第一帧图，XM是末帧；

算法具体过程如下:

输入.：Kinect捕捉的深度图.

输出：合成的动态手势序列训练样本；

Step1.Kinect捕捉深度信息以及人体骨骼信息,并根据深度信息以及人手的质心点坐标生成人手的深度图；

Step2.Kinect捕捉手势序列帧,同时对手势序列的每一帧深度图片进行分割处理,根据深度信息以及人手的质心点位置,将质心点前后3cm的距离作为人手区域,大于这个阈值,就不是人手区域.按照这个标准,将人手从深度图像中切割出来,生成人手的深度图，如图4所示；

Step3.获得分割后的手势后,求出手势图片的包围盒,将每张图片按照包围盒进行分割,再放缩到60*60ps的尺寸；

Step4.分割好的图片序列X,获取每组图片序列的序列长度M,按照公式(1)进行合成训练样本，如图5所示，经过公式(1)的计算后就得到了合成的动态手势序列训练样本。

所述第二步包括：动静态图片统一归一化处理，具体如下：

经过上述处理后得到动静态手势归一化序列(即静态手势的三张图和动态手势的训练样本)，如图6所示,就可以将训练样本统一的进行训练以及识别了。但是由于本发明中所选网络对于图片尺寸的要求,需要对于图片进行统一的归一化处理。

上述处理过的手势尺寸为60*180ps(即3个60*60的尺寸合并起来得到的，每一张序列图都是由三张图合成的),统一输入到matlab中再进行统一的尺寸归一化为200*200ps(因为GoogLeNet_model需要该尺寸)，如图7所示,共计23种手势序列,每种手势序列集的训练数量和测试数量如表1,其中,训练集不包含测试集。

表1

所述第三步是基于GoogLeNet网络的多态融合模型的训练以及优化，具体如下：

GoogLeNet和CaffeNet：

经过上述处理后，手势数据库中的动静态图片都做了统一的处理,将静态图片还原成动态序列,这样就可以将动态、静态手势图片进行统一的训练了。本发明中基于GoogLeNet Inception V3(可参考文献“Szegedy C,Liu W,Jia Y,et al.Going deeperwith convolutions[C]//Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition.2015:1-9”)网络进行手势识别模型的训练。GoogLeNetIncepetion v3是一个有130多层的深度网络,在V1和V2基础上的一个最重要的改进是分解(Factorization),将7x7的卷积分解成两个一维的卷积(1x7,7x1),3x3的卷积也是一样(1x3,3x1),这样的好处是既可以加速计算(多余的计算能力可以用来加深网络),又可以将1个conv拆成2个conv,使得网络深度进一步增加,增加了网络的非线性.还有值得注意的地方是网络的输入从224x224变为了299x299,更加精细设计了35x35/17x17/8x8的模块；因为GoogLeNet网络比较复杂,因此用图表的形式展示其结构，如表2所示。

表2

除此之外,在训练以及测试过程中,用CaffeNet网络来做对比实验.CaffeNet是在AlexNet(可参考文献“Krizhevsky A,Sutskever I,Hinton G E.ImageNetclassification with deep convolutional neural networks[C]//InternationalConference on Neural Information Processing Systems.Curran AssociatesInc.2012:1097-1105”)的基础上修改而来,该网络包括八个带权层,前五层是卷积层,剩下三层是全连接层。最后一个全连接层的输出被送到一个1000-way的softmax层,其产生一个覆盖1000类标签的分布。本发明中用了其中的23类标签.CaffeNet网络使得多分类的Logistic回归目标最大化,这相当于最大化了预测分布下训练样本中正确标签的对数概率平均值.第二、第四和第五个卷积层的核只连接到前一个卷积层也位于同一GPU中的那些核映射上(如图9所示)。第三个卷积层的核被连接到第二个卷积层中的所有核映射上.全连接层中的神经元被连接到前一层中所有的神经元上.响应归一化层跟在第一、第二个卷积层后面.最大Pooling层,跟在响应归一化层以及第五个卷积层之后.ReLU非线性应用于每个卷积层及全连接层的输出。

GoogLeNet网络solver的训练参数优化如下：

在Caffe中,Solver通过协调Net的前向推断计算和反向梯度计算(ForwardInference And Backward Gradients)来对参数进行更新,从而达到减小loss的目的.Caffe模型的学习被分为两个部分:由Solver进行优化、更新参数,由Net计算出loss和gradient.经过大量的、反复的训练发现,深度网络训练模型过程中,solver文件中的训练参数的取值,对于深度学习网络模型的训练结果影响巨大。

使用本发明方法时需要对GoogLeNet_model进行修改，的参数都在下一段给出了，主要是solver文件中的参数，在caffe中一共迭代300K次，每500次会用测试集中的数据测试一次模型的正确率，然后输出这个模型，这样就可以根据测试的正确率和loss值，选择这300k次的训练中，效果最好的模型。

本发明针对solver中基础学习率base_lr的取值做了大量的实验,在base_lr的有效取值范围0.0001--0.9范围内,采用间隔抽样取值的方式,测试了CaffeNet和GoogLeNet网络,发现随着base_lr的取值变化,两种网络训练出的最高识别率模型的识别率呈现规律性变化,base_lr用于设置基础学习率,在迭代的过程中,可以对基础学习率进行调整来提高整个网络模型的识别效果.因此我们按照这个规律,找到solver文件中最佳参数配置,从而达到优化深度学习网络模型的目的.

除了base_lr取值采取抽样取值外,其他参数针对手势识别图片的训练情况,设置如下：

lr_policy:”poly”,gamma:0.96,power:1.0,这几个参数为学习率设置。lr_policy就是调整的策略,“poly”是学习率进行多项式误差,返回base_lr(1-iter/max_iter)^(power).momentum:0.9指上一次梯度更新的权重.display:50是每训练50次,在屏幕显示一次,如果设置为0,则不显示.max_iter:300000这是最大迭代次数。这个参数设置太小,会导致没有收敛,精确度很低.设置太大,会导致震荡,浪费时间.经过反复多次实验,发现300k是最合适的.weight_decay:0.0002是权重衰减项,防止过拟合的一个参数.而在网络初始数据输入上,除了在转化数据格式的时候加入shuffle功能,将原始数据打乱这样更能够保证每次输入的图片尽可能的具有多样性,提高模型训练的效率.除此之外在网络中将mirror设置为false,原因是每张图片的序列先后顺序代表了不同的手势类型.

GoogLeNet网络与CaffeNet网络优化过程对比如下：

优化的过程,除了上述的参数配置外,做了大量的实验,将GoogLeNet InceptionV3网络和CaffeNet网络的基础学习率base_lr在0.0001--0.9的范围内采取间隔取值的方式训练本文中的23种手势的数据集,发现,随着取值的变化,训练出的效果最好的模型识别率会呈现先上升后下降或者逐渐下降的规律性变化,也就是会存在一个base_lr使得训练出的模型效果最好，如图10所示。

图10所示,是CaffeNet网络优化base_lr的过程的示意图,可以明显看到随着base_lr取值的不同,模型正确率逐渐从80％左右升高到90％,但base_lr超过0.01,正确率直线下降.根据这个规律我们可以找到在本文数据库基础上,通过优化训练参数,CaffeNet网络所能训练出的效果最好的模型.

图11所示是GoogLeNet网络训练参数优化过程.从图中可以看出当base_lr取值为0.1时达到模型最高识别效果,识别率约为97.07％.从中我们提取出识别率为97.07％的模型就是优化好的模型GoogLeNet_model,将其用于交互式教学界面中。

实验与分析如下：

实验硬件环境：CPU:2xXeon E5-2620V3,GPU:双K40M,内存64G显存8G.

实验软件环境：Win1064位Caffe for Windows+CUDA8.0+CUDNN7.5+VS2013.

实验外接设备：Kinect 2.0.

实验手势库：本发明所整理的23种手势图片库，如表1所示。

图片类型：深度图，如图7所示。

实验所用模型：我们取GoogLeNet网络优化前网络模型Google_model,优化后的模型GoogLeNet_model,CaffeNet网络优化后的模型CaffeNet_model。

模型优化前后识别率对比实验如下：

采集了20人(包括大学生和研究生,男女比例均衡)的23种手势各100组数据(有彩色RGB图和深度图两种,彩色图用于5.2对比实验),用本发明方法采集以及处理之后的图片,每种各100张,这100张样本图不包含在训练模型过程中用到的测试集和训练集当中,测试模型优化前后的识别效果(识别正确的图片数量/样本总量),测试结果如表3所示。经统计,模型优化前,23种非轨迹手势平均识别率为92.48％,优化后,23种手势平均识别率达到97.07％,识别率提高了4.59％.且经测试.识别时间为18.98ms,速率非常快,人眼几乎察觉不到,用于交互式智能教学界面中,几乎没有延时,基本实现实时识别。

手势序号	00	01	02	03	04	05	06	07	08	09	10	11
													模型优化前的识别率(％)	94	92	91	94	91	93	94	90	91	94	92	95
模型优化后的识别率(％)	100	99	98	97	97	99	96	94	96	97	96	99
													手势序号	12	13	14	15	16	17	18	19	20	21	22
模型优化前的识别率(％)	95	92	93	94	92	90	91	93	94	89	93
													模型优化后的识别率(％)	97	95	98	97	96	98	99	95	97	95	96

表3

与传统方法HCDF和CaffeNet_model对比实验如下：

在此基础上,将优化后的模型识别率同基于空间手势坐标点分布特征(HCDF)和类-Hausdorff距离(以下简称HCDF-H)的算法(可参考文献“杨学文,冯志全,黄忠柱,何娜娜.结合手势主方向和类-Hausdorff距离的手势识别[J].计算机辅助设计与图形学学报,2016,(01):75-81”)的识别率对比实验.还是用上述收集到的20名学生的手势识别图片来进行,CaffeNet_model和GoogLeNet_model用的是这20名学生的深度图片,HCDF算法用的是RGB彩色图像.每种算法每种手势都测试100张图片识别.试验结果如表4所示。

手势序号	00	01	02	03	04	05	06	07	08	09	10	11
													CaffeNet_model(％)	90	81	88	87	88	85	86	86	82	84	85	82
HCDF(％)	95	91	93	88	89	93	92	92	89	91	91	93
													GoogLeNet_model(％)	100	99	98	97	97	99	96	94	96	97	96	99
手势序号	12	13	14	15	16	17	18	19	20	21	22
													CaffeNet_model(％)	81	86	88	87	82	84	88	80	86	81	83
HCDF(％)	95	93	91	92	89	89	92	94	92	93	91
													GoogLeNet_model(％)	97	95	98	97	96	98	99	95	97	95	96

表4

从表4中对于23种手势的识别率对比,计算出CaffeNet_model平均识别率为84.78％,HCDF算法的平均识别率为91.65％,而本发明优化后的GoogLeNet_model识别率为97.07％,对于相近手势的识别率和鲁棒性都明显优于CaffeNet-model和传统的HCDF算法.将两组对比实验总结于图12,再次证明了本发明优化模型的成功以及可用性,将GoogLeNet_model用于智能教学界面中,取得了很好的效果。

用户体验统计如下：

设置了疲劳程度、努力程度、愉悦度和可行性四个评价指标来评价这款游戏.疲劳程度是在用户操作过程中,用户的辛苦程度；努力程度是用户在操作过程中,用户需要付出多少努力；愉悦程度是在操作过程中,用户所感到的愉悦程度；可行性为对用户来说就是整个交互界面设计的可行程度.其中疲劳程度和努力程度分数越低表示用户体验越好,可行性和愉悦程度分数越高表示用户体验越好.分别用两种形式的课堂设计了一堂讲三棱锥体积是三棱柱体积的三分之一的立体几何课,请50名体验者分别体验两个版本的课堂.版本1(传统多媒体教室系统)：传统教室中利用黑板,PPT等为学生上几何课.版本2(基于交互式教学界面的智能教学系统)：运用基于交互式的智能教学界面给学生上几何课.实验完毕后请实验者按照上述四个评价指标对于两个版本的课堂操作进行评价打分,满分为100分。

由图13的结果可知,本发明的基于交互式教学界面在四个指标的评价中,疲劳程度降低46％,努力程度降低18.6％,愉悦程度提高了51.8％,而可行性分析中,体验者普遍认为,基于交互式教学界面完全可行,且几乎全部人都认为,这将是以后教学的一种趋势。本次的用户体验对本发明方法给予很高的评价.操作的自然性,简便性以及趣味性都为交互式教学界面的研究提供了很好的发展前景。

本发明解决了在传统教室中,教师因为与教学设备进行交互而分散过多精力的问题。本发明面向交互式的教学界面主要的识别方法是基于深度学习的手势识别算法，为支撑深度学习算法,建立了基于2000人的手势大数据库。基于手势大数据库，本发明针对静态手势、动态手势提出静态手势分割算法,建立国内最大的手势数据库，为深度学习用于手势识别研究提供了基础和保障。基于手势大数据库和深度学习网络GoogLeNet Inception V3网络,提出针对手势库中的静态图片的序列还原算法和动态序列图片的首尾帧固定,中间帧遍历组合的合成序列方法,在此基础上提出基于深度学习网络的动静态融合的手势识别算法,经过优化的深度学习模型能够统一识别动、静态手势共计23种，且识别率高达97.09％,并成功应用于交互式智能教学界面中.通过智能教学界面能够让老师仅用手势操作交互界面,为学生上一节立体几何课(本文中设计的是椎体体积是柱体体积的三分之一的立体几何课).老师能够用手势直接操作OPENGL场景以及场景中的物体给学生演示,给学生直接的视觉冲击力,也使得教师可以把主要精力用于教学内容本身而不是交互本身。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

Claims

1.一种动静态融合的多态手势识别方法，其特征在于：所述方法包括：

(1)利用Kinect持续捕捉用户做出的手势序列；

2.根据权利要求1所述的动静态融合的多态手势识别方法，其特征在于：所述步骤(2)的操作包括：

3.根据权利要求2所述的动静态融合的多态手势识别方法，其特征在于：所述对捕捉到的静态手势进行序列还原处理的操作包括：

S1：根据Kinect捕捉的深度信息生成深度图像；

4.根据权利要求2所述的动静态融合的多态手势识别方法，其特征在于：所述对捕捉到的动态手势进行合成序列处理的操作包括：

T1：根据Kinect捕捉的深度信息生成深度图像；

其中,m是指动态序列中的第m帧，X1是第一帧，XM是末帧。

5.根据权利要求4所述的动静态融合的多态手势识别方法，其特征在于：所述尺寸为60*180ps的静态手势图、60*180ps的动态手势图即为动静态融合的样本序列。

6.根据权利要求1所述的动静态融合的多态手势识别方法，其特征在于：所述步骤(3)的操作包括：

7.根据权利要求6所述的动静态融合的多态手势识别方法，其特征在于：所述训练好的深度学习模型是这样得到的：