CN109543644B

CN109543644B - 一种多模态手势的识别方法

Info

Publication number: CN109543644B
Application number: CN201811455224.6A
Authority: CN
Inventors: 冯志全; 郭小沛
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2018-06-28
Filing date: 2018-11-30
Publication date: 2022-10-04
Anticipated expiration: 2038-11-30
Also published as: CN109543644A

Abstract

本发明提供了一种多模态手势的识别方法，属于手势识别领域。该多模态手势的识别方法利用数据手套和Kinect采集手势的数据，然后对采集到的数据进行预处理得到手势的曲线，最后利用手势的曲线特征进行手势识别。本发明方法利用每一段曲线对整条曲线的贡献程度即其波动程度的大小，给予其分配不同的权重，有效提高了易混淆的相似手势或不规范手势的识别正确率，同时在鲁棒性和适用性方面较传统的距离方法有了重大提高。

Description

一种多模态手势的识别方法

技术领域

本发明属于手势识别领域，具体涉及一种多模态手势的识别方法。

背景技术

按照识别对象，可将手势识别分为静态手势识别和动态手势识别。静态手势识别主要是以手的姿势和形状作为识别对象。静态手势因为其局限性，只能表达少量的含义，只能用于比较简单的情景，对于复杂的应用则无能为力。动态手势识别则将一组连续的手势动作(包括手形的变化和手势运动的轨迹)作为研究对象。相对静态手势而言，它能表达的含义更加丰富和准确，也是人们日常生活中常用的一种交流方式。将两种手势结合进行识别，从而可以应对复杂的手势交互工作。

传统的手势识别技术主要包括基于佩带设备的手势识别和基于普通摄像头的RGB计算机视觉的手势识别。基于穿戴式设备的手势识别是指利用数据手套或者三维设备进行的手势识别方法，在一定程度上限制了自然的人机交互。传统基于视觉的手势识别技术易受到复杂背景和光照等的干扰，识别效果严重下降。

国外在手势识别领域的起步较早。1893年，Bell实验室的Grimes最先取得了“数据手套”的专利，因此，他也可以说是最早开始手势识别研究的科研人员。到20世纪90年代，手势识别技术得到了突飞猛进的发展。利用数据手套等典型传感设备的方法，卡耐基一梅隆大学的Christopher Lee和Xu在1995年完成了一个操纵机器人的手势控制系统，台湾大学的Liang等人利用单个VPL公司的数据手套作为手势输入设备，可识别台湾手势课本中的250个基本词条，识别率为90.5％。Kadous用Power Gloves作为手势输入设备，识别有95个孤立词构成的词汇集，正确率为80％。

在基于视觉的识别方法方面，姚远等人提出了一种基于RGB-D图像的手势识别方法，该方法利用3D手型轮廓特征降低手势匹配的复杂度，能够识别较为复杂的手势动作，且识别的准确率较高，但是其识别方法比较复杂并且需要使用深度摄像头作为输入设备。一些研究学者以提取人体的三维骨架数据为基础，关节点角度、位置等作为手势特征来进行手势的识别，这种识别方式比较适合于小幅度周期性变化或静态手势的识别。吴江琴、高文通过研究ANN-HMM源合方法，成功开发出有18个传感器的Cyber-Glover型号数据手套的中国手语识别系统。而在单目视觉下的手势识别方面，2000年，清华大学祝远新、徐光枯等对有关连续动态手势的识别进行了研究，通过融合手势运动信息和皮肤颜色信息，成功的进行了复杂背景下的手势分割。2008年9月，中国科学院计算技术研究所手语识别与合成课题组历时8年，开发出了先进的手语识别与合成技术：基于运动跟踪的原理，使用了2只数据手套和3个六自由度位置跟踪器，记录真实人体演示每个手语词的运动数据，以建立初始的手语词运动数据库。然后再对数据库里的每个手语词的运动数据进行编辑与微调，最后得到高质量的手语词运动数据库。

虽然手势识别在国内外己经有了很大量的研究，但是仍存在一些问题需要解决，主要包括实时性、光照、复杂运动下的跟踪、遮挡等问题。

发明内容

本发明的目的在于解决上述现有技术中存在的难题，提供一种多模态手势的识别方法，具有很好的识别率，能够应对复杂的手势交互。

本发明是通过以下技术方案实现的：

一种多模态手势的识别方法，利用数据手套和Kinect采集手势的数据，然后对采集到的数据进行预处理得到手势的曲线，最后利用手势的曲线特征进行手势识别。

所述利用数据手套和Kinect采集手势的数据的操作包括：

利用数据手套采集各个手指关节的角度变化数据，利用Kinect采集手部质心的坐标变化数据。

所述利用数据手套采集各个手指关节的角度变化数据的操作包括：

将动态手势转化为人手的15个关节的运动，其序号与关节的对应如下：

1号关节到3号关节对应大拇指从下至上三个关节；

4号关节到6号关节对应食指从下至上三个关节；

7号关节到9号关节对应中指从下至上三个关节；

10号关节到12号关节对应无名指从下至上三个关节；

13号关节到15号关节对应小指从下至上三个关节。

所述对采集到的数据进行预处理得到手势的曲线的操作包括：

将静态手势作为不同关节处于静止状态时的动态手势；

采用最小二乘法将每个手指关节的角度变化数据拟合为一条曲线；

将手部质心的坐标变化数据在三维坐标的X、Y、Z三个方向上分别拟合为一条曲线；

所述手势的曲线包括：针对静态手势和动态手势的曲线、针对轨迹手势的曲线；

将代表一种手势的15个关节的曲线按照从1号关节到15号关节的顺序依次连接形成所述针对静态手势和动态手势的曲线；

将代表一种手势的X、Y、Z三个方向上的曲线按照移动顺序连接形成所述针对轨迹手势的曲线。

所述利用手势的曲线特征进行手势识别的操作包括：

第一步：对于每一条手势的曲线，获得每段曲线的长度，即帧数；每段曲线是指一个关节或者一个方向的曲线；

第二步，计算该段曲线长度占整条曲线总长度的百分比ω₀，即每段曲线的帧数占总帧数的百分比，剩余曲线占整条曲线的百分比为ω₁；

第三步，获得曲线的多项式，利用多项式获得在每段曲线上的所有取值，并计算其数学平均值，记为μ₀；

第四步，计算剩余曲线的整体平均值，即将剩余曲线的帧数的和除以其帧数，记为μ₁；

第五步，针对每一个待识别手势，计算待识别手势与手势库中所有手势的改进后的皮尔逊相关系数，然后找到改进后的皮尔逊相关系数中的最大值，该最大值所对应的手势库中的手势即为该待识别手势的识别结果。

所述第五步的操作包括：

采用公式(12)计算待识别手势与手势库中所有手势的改进的皮尔逊相关系数为：

其中，N表示曲线长度；

I表示定义的变量，其最大值为N；

X表示变量X，代表待识别手势；

Y表示变量Y，代表手势库中的手势；

cov(X,Y)表示两个手势的曲线之间的协方差；

σ_Xσ_Y为两个手势的曲线之间的标准差；

ω_i表示权重：

W代表含有β的函数；

S_A为不同关节之间或者不同方向之间的类间方差：

S_A＝ω₀ω₁(μ₀-μ₁)² (10)

S_B为同一关节或同一方向的类内方差：

其中，L为在该段曲线上所有取值的数，x_i为该段曲线上的所有取值。

与现有技术相比，本发明的有益效果是：

(1)针对多模态手势识别问题，本发明提出了一种统一的识别模型和方法；

(2)首次对皮尔逊相关系数进行改进构建手势相似度算子，即利用每一段曲线对整条曲线的贡献程度即其波动程度的大小，给予其分配不同的权重，有效提高了易混淆的相似手势或不规范手势的识别正确率，同时在鲁棒性和适用性方面较传统的距离方法有了重大提高。

附图说明

图1手部质心坐标分布示意图

图2a数据手套的示意图

图2b手部关节分布示意图

图3本发明方法的步骤框图

图4(a)阶数2对应的拟合曲线

图4(b)阶数5对应的拟合曲线

图4(c)阶数8对应的拟合曲线

图4(d)阶数15对应的拟合曲线

图5(a)-1是三指抓手势曲线的00号曲线

图5(a)-2是三指抓手势曲线的01号曲线

图5(a)-3是三指抓手势曲线的14号曲线

图5(a)-4是将0号曲线到14号曲线连接起来的三指抓手势曲线

图5(b)-1是前推手势曲线的X方向的曲线

图5(b)-2是前推手势曲线的Y方向的曲线

图5(b)-3是前推手势曲线的Z方向的曲线

图5(b)-4是将X、Y、Z方向的曲线连接起来的前推手势曲线示意图

图6相关度从-1到+1的散布图

图7(a)二指张开的手势相关性

图7(b)三指抓的手势相关性

图7(c)画矩形的手势相关性

图8本发明方法中手势识别的步骤框图

图9 50种手势综合识别率对比图。

具体实施方式

下面结合附图对本发明作进一步详细描述：

近几年，越来越多的手势识别研究者开始利用深度信息和数据手套结合的方法来进行更准确的手势跟踪与检测。由于两者不受环境的光照变化影响，与目标物体周围的阴影无关，在目标检测和跟踪上具有很好的鲁棒性。为了提高基于穿戴式设备和多设备融合手势识别的识别率。

针对在手势识别中，静态手势、动态手势存在的问题，本发明提出了一种统一的识别方法。利用数据手套和Kinect分别获取手指关节的角度变化数据和手部质心的移动变化数据，通过对异源数据进行预处理，在解决手部抖动问题的同时将所有手势看做曲线进行识别，并建立统一的手势识别方法即计算手势之间的皮尔逊相关系数来进行手势识别。这样，复杂的手势识别便转化为简单的曲线相似度比较问题。

具体来说，本发明利用相同手势数据格式的相似性来进行手势识别。在预处理阶段，本发明将采集到的所有手势数据进行拟合，即把数据进行平滑以解决“抖动”问题，然后，根据手势曲线的形状特征将相同趋势的曲线划分为同一种手势。目前对于相似度的匹配有两大主流的方法，一是距离的计算，二是相关系数的计算。在本发明中，采取基于后者的皮尔逊相关系数来进行曲线的相似度比较。进而，手势识别问题转化为相似曲线的匹配问题。

为了更好地避免外界因素对手势识别的影响，本发明基于Kinect的深度摄像头获取手势轨迹(在三维坐标系下的坐标连线)，由数据手套获取手部关节的运动数据(静态手势看做不同关节的静止状态)，并进行预处理，然后利用手势曲线特征进行手势识别。

本发明主要针对不同设备融合所进行的多种类别的手势识别研究，因此输入设备包括Kinect 2.0和数据手套。

Kinect是微软公司为XBOX 360游戏机开发的体感外设，利用实时的人体骨架跟踪、动作识别、影像辨识、语音识别等技术让游戏玩家摆脱传统游戏手柄的束缚，通过自己的肢体、语言直接控制游戏，实现更自然的人机交互方式。Kinect传感器可以同时获取RGB和深度图像数据，支持实时的全身和骨骼跟踪，并可以识别一系列的动作。

Kinect中深度摄像头与RGB摄像头的分辨率均为640*480像素，深度摄像头获取的是11-bit的深度图像，Kinect产生的深度数据作用有限，要利用Kinect创建真正意义上交互，还需要除了深度数据之外的其他数据，即骨骼的追踪。骨骼追踪技术通过处理深度数据来建立人体各个关节的坐标，骨骼追踪能够确定人体手、头部及身体等各个部分及其所在的位置。

一般不断处于运动状态的手，在手势模型参数3空间中会表现为一条运动轨迹，本发明方法根据Kinect上述特性及功能实时获取用户右手质心的三维坐标，通过将该运动轨迹划分至与之相对应的子集当中即可对该种类轨迹手势进行检测识别(可参考文献“DangPeiguang,Li Junheng.Hand gesture detection and recognition technology basedon computer vision[J].PC Fan,2017(11):39(in Chinese)(党佩光,李军恒.基于计算机视觉的手势检测识别技术[J].电脑迷,2017(11):39)”)。本发明使用Kinect v2.0获取右手手部质心的移动轨迹数据，其三维坐标分布如图1所示。

数据手套是一种多模式的虚拟现实硬件，通过软件编程，可进行虚拟场景中物体的抓取、移动、旋转等动作，也可以利用它的多模式性，用作一种控制场景漫游的工具。数据手套的出现，为虚拟现实系统提供了一种全新的交互手段，目前的产品已经能够检测手指的弯曲，并利用磁定位传感器来精确地定位出手在三维空间中的位置。

本发明所用数据手套如图2a所示，通过多个传感器组成的传感器系统，可以将佩戴者的动作转变成量化的数据或信号，通过对数据进行处理从而实现手势识别。本发明通过数据手套获取的手势运动数据为BVH格式，针对所需的手指关节从中提取有用的数据，以便完成后续工作。本发明将动态手势看做人手十五个关节点的运动，其序号与关节相对应情况为,1-3：大拇指从下至上三个关节；4-6：食指从下至上三个关节；7-9：中指从下至上三个关节；10-12：无名指从下至上三个关节；13-15：小指从下至上三个关节。实际分布如图2b所示。

本发明方法的原理如图3所示。

本发明获得的是手指关节角度变化和手部质心的坐标变化，即可以将其当做坐标系中的点集，若使用这些数据即真实数据进行后续识别，则某些因手部抖动带来的异常数据变化会对识别结果有一定影响，因此为了解决此问题，本发明提出使用曲线拟合的方法将数据进行平滑。那么对于手指关节数据，每个关节的变化都被拟合为一条曲线，静态手势可被看做不同关节处于静止状态的动态手势，同样地，对于手部质心的轨迹数据，其在3个方向上的变化也分别被拟合为了一条曲线。因此为了表征一个完整的手势，本发明将代表一种手势的多条曲线按照一定顺序相连接，每一条复杂曲线都可以代表一个完整的动态或静态手势，表示该种手势从开始到结束的某种趋势。

最小二乘法曲线拟合的基本思想是：所拟合的曲线使所有数据点与估计点(或称拟合点)的误差(如果是二维图形误差为数据点与估计点的垂直距离)平方和最小(可参考文献“Jia Xiaoyong,Xu Chuansheng,Bai Xin.The invention and way of thinking inleast squares[J].Journal of Northwest University,2006,36(3):507-511(inChinese)(贾小勇,徐传胜,白欣.最小二乘法的创立及其思想方法[J].西北大学学报.2006,36(3):507-511)”)。

对给定数据(x_i,y_i)(i＝0,1,…,m)，在取定的函数类Φ_中,求p(x)∈Φ_,使误差r_i＝p(x_i)-y_i(i＝0,1,…,m)平方和最小。从几何意义上讲，即寻求与给定点(x_i,y_i)(i＝0,1,…,m)的距离平方和为最小的曲线y＝p(x)，函数p(x)称为拟合函数或最小二乘解。

那么，如果Φ为所有次数不超过n(n＜m)的多项式构成的函数类，现求一

使得

当拟合函数为多项式时，称为多项式拟合，满足(1)式的p_n(x)称为最小二乘拟合多项式。

本发明方法是基于最小二乘法的多项式曲线拟合，显然由(1)式可知，I是关于a₀,a₁,a₂…,a_n的多元函数，因此上述问题即转化为求极值的问题。由多元函数求极值的必要条件可得

即

由此可知，(3)式是关于a₀,a₁,a₂…,a_n的线性方程组，用矩阵表示为

式(3)或式(4)称为正规方程组或法方程组(可参考文献“Chen Liangbo,ZhengYaqing.Study on curve fitting based on least squaremethod[J].Journal of WuxiInstitute of Technology,2012,11(5):52-55(in Chinese)(陈良波,郑亚青.基于最小二乘法的曲线拟合研究[J].无锡职业技术学院学报,2012,(05):52-55)”)。

可以证明，方程组(4)的系数矩阵是一个对称正定矩阵，故存在唯一解。从其中解出a_k(k＝0,1,…,n)，从而可得多项式

此外，上述过程，也可以通过Matlab自带的函数polifit自动计算(可参考文献“Guo Lihui,Zhu Lihong,Gao Wei.System identification with least squares methodand emulation based on matlab[J].Journal of Xuchang University,2010,29(3):24-27(in Chinese)(郭利辉,朱励洪,高巍.基于MATLAB的最小二乘法系统辨识与仿真[J].许昌学院学报,2010,29(3):24-27)”)。

在本发明中，每一关节对应一组数据(数量即为所抓取帧数)，将其分布在直角坐标系中，可发现它们呈现某种“趋势”，根据这种“趋势”确定拟合多项式的次数，能够返回多项式系数。首先将某一次采集的所有手势所包含的全部运动数据进行曲线拟合，每一个关节数据是一条曲线，它表示从动作开始到结束对应关节的运动角度变化趋势。

使用最小二乘法进行多项式曲线拟合，随着多项式阶数的增加，拟合曲线越来越平滑，越接近真实数值，但是阶数超出所需的最大值时会出现过拟合现象。图4(a)到图4(d)为做“三指放开”手势第12号关节的曲线拟合时阶数分别为2、5、8、15时的拟合曲线示意图。

经实验本发明所用多项式阶数为8，此时拟合效果最好即曲线值与真实值的平方差和最小，且无过拟合现象。对于基于数据手套的手势识别，由于其获取的数据为右手15个关节的运动变化，因此为了表征整个手部运动的状态变化，需要将15个关节的运动变化看做一组连续的数据，即一种手势呈现从第1号关节到第14号关节的运动趋势，其数据长度为15组数据的长度总和；从而，对于基于Kinect的手势识别，由于其获取的数据为右手质心在三维坐标的变化，因此为了区分向不同方向变化的轨迹手势，将X，Y，Z三个方向的坐标变化数据相连接，其数据长度为3组数据的长度总和，如图5(a)-1到图5(a)-4和图5(b)-1到图5(b)-4所示。图5(a)-1到图5(a)-3是各个关节的拟合曲线，按顺序相连接得到图5(a)-4，即该手势的曲线(针对静态手势和动态手势)。图5(b)-1到图5(b)-3分别是在X、Y、Z三个方向上的拟合曲线，按移动顺序相连接得到图5(b)-4，即该手势的曲线(针对轨迹手势)。

因此，对于相同的手势，其每个关节的运动曲线是相似的，进而所有关节组合的复杂曲线也是近似的，那么该预处理方法可以用来简化识别过程并最终帮助实现手势识别。

上述步骤已经将手势识别问题转化为相似曲线的匹配问题，那么本发明方法的核心即为曲线的相似度比较。在统计学中，皮尔逊积矩相关系数(Pearson product-momentcorrelation coefficient，又称作PPMCC或PCCs，文章中常用r或Pearson’s r表示)用于度量两个变量X和Y之间的相关性，其值介于-1与1之间。皮尔逊相关系数法是一种准确度量两个变量之间的关系密切程度的统计学的方法(可参考文献“Jia Junping.Statistics[M].Beijing:Tsinghua University Press,2004(in Chinese)(贾俊平.统计学[M].北京:清华大学出版社，2004)”、“Nicewander W A.Thirteen ways to look at the correlationcoefficient[J].American Statistician,1988,42(1):59-66(in Chinese)”、“DongYongquan,Wang Zhanmin.Some notes about correiation coefficientρ[J].CollegeMathematics,2008,24(2):182-186(in Chinese)(董永权,王占民.关于相关系数ρ的几点注释[J].大学数学,2008,24(2):182-186)””)。

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商。对于两个变量x和y，通过试验可以得到若干组数据，记为(x_i,y_i)(i＝1,2,…,n)，则相关系数的数学表达式为

其中，

分别为n个试验值的均值。相关系数r的取值范围在-1和+1之间，即|r|≤1。|r|越接近1，则表明x与y线性相关程度越高。若r＝-1，表明x与y之间为完全负线性相关关系；若r＝+1，表明x与y之间为完全正线性相关关系；若r＝0，表明两者不存在线性相关关系(可参考文献：“Yang Fan,Feng Xiang,et al.Correlation study of water treeand VLF tanδbased on pearson correlation coefficient.High Voltage Apparatus,2014,50(6):21-31(in Chinese)(杨帆,冯翔,阮羚,等.基于皮尔逊相关系数法的水树枝与超低频介损的相关性研究[J].高压电器,2014,50(6):21-31)”)。上述式子也可简化为，

《数据挖掘导论》一书中给出了如下例子，x和y具有30个属性，这些属性的值随机地产生(服从正态分布)，使得x和y的相关度从-1到+1。图6中每个小圆圈代表30个属性中的一个，其x坐标是x的一个属性的值，其y坐标是y的相同属性的值(可参考文献“”Pang-NingTan,Michael Steinbach,Vipin Kumar.Introduction to Data Mining[M].Post&TelecomPress,2011:38-47(in Chinese)(Pang-Ning Tan,Michael Steinbach,Vipin Kumar.数据挖掘导论[M].人民邮电出版社,2011:38-47))。

对于由Kinect获取的手势轨迹和由数据手套获取的手指关节运动数据经过预处理后，对于相同手势其拟合曲线是相似的，进而将两组数据(样本手势数据和待识别手势数据)分别看做数据对象x和y，若两者为相同手势，其皮尔逊相关系数应无限趋近于1。

图7(a)到图7(c)所示的分别为如“二指张开”的静态手势，如“三指抓”的动态手势和如“画矩形”的轨迹手势的各两组随机曲线数据，对于x和y两组数据来说，显然它们呈现一种正相关关系，即验证为同一种手势。

定义50种手势，包括静态手势、非轨迹动态手势和轨迹动态手势，针对目前已有方法进行了大量实验，实验结果如下表所示。

表1

由于不同算法的差异性，其时间复杂度和识别率也有一定的差别。由此可见，目前大部分方法对静态手势的识别效果较好，而由于手势与模板存在一定差别，因此对动态手势尤其是轨迹动态手势识别效果不佳。对于相近手势或不标准的手势，其曲线是非常容易被混淆的。考虑到识别过程中的误判问题，本发明提出改进方法，根据关节点或某个方向上手势的波动剧烈程度进行权值的分配，即根据其运动方差S_i来进行权值的分配，那么对于比较相似的手势便可以区分开，并称之为基于权重的皮尔逊相关系数算法(PearsonCorrelation Coefficient based on Weight)，简称WPCCs。权值公式分配如下：

且

W代表含有β的函数；

公式(8)表示通过计算含有β的函数W(一段曲线)与函数W总和(整条曲线)的比值得到最佳权重ω。

arg(max(f(x)))的含义是只有一个x的取值使f(x)取最大值，则arg为该值。其中S_A为类间方差(关节间或不同方向间)，由在图像中常用的类间方差可知，

S_A＝ω₀ω₁(μ₀-μ₁)² (10)

其中，ω₀为该段曲线长度占整条曲线的比例，ω₁为其余曲线占整条曲线的比例，μ₀为该段曲线取值的均值，同样地，μ₁为剩余曲线部分取值的均值。

S_B为类内方差(同一关节或同一方向)，由方差的一般定理可知，

其中，L为在该段曲线上所有取值的数(在本方法中采用间隔取值的方法避免所有数据参与计算)，x_i为该段曲线上的所有取值，μ₀为该段曲线上所有取值的均值。那么，两手势之间的改进的皮尔逊相关系数为：

N：曲线长度；i：定义的变量，其最大值为N；X：变量X，在本文中代表一种手势；Y：变量Y，在本文中同样代表一种手势，cov(X,Y)两手势曲线之间的协方差；σ_Xσ_Y：两手势曲线之间的标准差，图8用比较清晰简单的方式描述了该方法(WPCCs)的步骤。

概括地说，本方法是利用每一段曲线对整条曲线的贡献程度即其波动程度的大小，给予其分配不同的权重，这样也就变相加大了手势之间的差异程度，提高了易混淆的相似手势或不规范手势的识别正确率。

本发明基于原有的皮尔逊相关系数，针对多模态的手势识别，提出了基于改进的权重分配皮尔逊相关系数算法(WPCCs)，在保证一定的时间复杂度上提高了算法的性能，即对50种手势的识别正确率。目前大部分手势识别主要将重点放在手势检测、手势分割等基于图像的工作上，这样无疑加大了环境对手势识别结果的影响。本发明的处理对象为真实获取的数据，不仅避免掉了光照、遮挡等因素的干扰，而且相比较于通过计算距离进行匹配的方法，WPCCs在一定程度上提高了识别速度；同时相比较于目前原有的相关系数匹配方法，该方法对多模态的手势有较好的识别效果。以下实验将从多个角度对本算法的性能进行评价。在采集的50种静态手势、动态手势和轨迹手势的数据集上来验证改进的皮尔逊相似度算法的有效性，并且将本发明方法的结果与传统算法的结果进行比较，说明本发明方法的优越性。

本发明进行实验所使用的数据集由实验室自行对3名实验对象进行采集得到，包括20种静态手势，14种动态手势和16种轨迹手势，要求每种手势采集5次，即总共包含750个样本，数据的采样频率差别较大，数据长度不等，符合对比实验对差异性数据的要求，在该种情况下传统方法或多或少会存在一定缺陷。在手势识别率的统计中，由于每种手势都有15个样本，随机挑选两组数据分别作为样本数据和测试数据，那么每种手势实验的总次数为210次，此时验证成功的次数除以210即为该种手势的识别率，结果保留为整数。

本发明针对50种手势进行了统计性的识别实验，下面两表分别显示了使用原皮尔逊相关系数的算法和使用本算法计算的每种测试集中的手势进行识别时与样本集中手势的改进的皮尔逊相关系数(因篇幅限制只显示一部分测试数据)，其他数据来源及其预处理工作均相同。由于数据格式不同，基于数据手套的手势识别和基于Kinect的手势识别是在阈值范围的控制之下分别进行的，因此在统计实验阶段静态手势和动态手势与轨迹手势之间的皮尔逊相关系数不做对比。

表2

表3

分析可知，在表2和表3中，每种手势与其相同的皮尔逊相关系数接近于1，而与其他手势的相似度则随机分布在-1至1之间，但是其中会出现误判的现象，例如表1中的“擦除”手势，与样本库中的相同手势之间的皮尔逊相关系数为0.9582，同时与“从左至右画波浪线”手势之间的相似度为0.9518，且由于篇幅限制未展示其他误判的实验结果，因此此方法的识别的正确性和鲁棒性是比较低下的。基于改进的本发明算法在这两方面都有了一定提升，由表2可知，相同手势之间的皮尔逊相关系数有所增大，更加接近于1，而对于不同手势，尤其是相似手势或不标准手势，其之间的相似度在一定范围内有所减小，进而说明该算法在一定程度上降低了误判的概率，增强了鲁棒性，提高了识别率。

在手势数据集中随机抽取10种手势，同样包含静态手势、动态手势和轨迹手势，将本发明方法与目前存在的传统算法对此10种手势的识别结果进行比较，结果如表4所示：

表4

手势数据集中存在一些手势，其变化曲线是极为相似的，将其称为相似手势，将本发明方法与目前存在的传统算法对以下相似手势的识别结果进行比较，结果如表5所示。

表5

目前大部分算法对模板的依赖度较高，一旦手势与模板中的相同手势有所差异或所做手势与标准手势相似度不高，就存在一定的误判概率，将本算法与目前存在的传统算法对以下不规范手势的识别结果进行比较，结果如表6所示。

表6

为了证明所提方法的有效性，将所提方法与Hausdorff距离方法、Frechet方法、DTW算法和传统的皮尔逊相关系数方法进行比较。实验中，所有的方法均使用采集的手势库，识别结果如图9所示。

以上实验结果首先证明了改进的皮尔逊相似度算法在真实数据集上的数据性，算法可作用于其他同种类型的数据集，从而对其进行分类决策。其次对比实验证明了相较于传统的皮尔逊相关系数算法，改进的算法相较于传统方法在随机挑选的10种手势识别中提高识别率2到3个百分点，在10种相似手势识别中提高识别率3到5个百分点，在10种不规范手势识别中提高识别率4到5个百分点，本发明方法既能够很好地区别易于混淆的相似手势和不规范手势，同时在鲁棒性和适用性方面较传统的距离方法有了重大提高。

本发明提出一种新的基于多设备融合的手势识别，包括基于数据手套的静态手势、动态手势的识别和基于Kinect的轨迹手势识别。分别通过数据手套和Kinect获取手指关节的运动数据和手部质心的轨迹数据，采取同样的预处理方法对所有数据进行曲线拟合和离散化(目的是取得相同的数据长度)，并计算曲线之间的相似度，即手势间的皮尔逊相关系数，对于相同手势，其相关系数必定近似于1，而对于极易混淆的相反手势，例如“五指抓”和“五指放”，“左挥手”和“右挥手”，由于其曲线大致呈对称趋势，因此相反手势的相关系数为负或接近于-1。实验证明该算法能够轻易分开相反手势及相似手势。对于来自数据手套和Kinect的异源数据，设计了同样的预处理方法和识别算法，即将其进行实时且并行地处理和识别，且能够达到97.7％的识别率和一定程度的鲁棒性。本发明所提出的方法具有很好的识别率，能够应对复杂的手势交互。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

Claims

1.一种多模态手势的识别方法，其特征在于：所述方法利用数据手套和Kinect采集手势的数据，然后对采集到的数据进行预处理得到手势的曲线，最后利用手势的曲线特征进行手势识别；

所述利用手势的曲线特征进行手势识别的操作包括：

第五步，针对每一个待识别手势，计算待识别手势与手势库中所有手势的改进后的皮尔逊相关系数，然后找到改进后的皮尔逊相关系数中的最大值，该最大值所对应的手势库中的手势即为该待识别手势的识别结果；

所述第五步的操作包括：

其中，N表示曲线长度；

I表示定义的变量，其最大值为N；

X表示变量X，代表待识别手势；

Y表示变量Y，代表手势库中的手势；

cov(X,Y)表示两个手势的曲线之间的协方差；

σ_Xσ_Y为两个手势的曲线之间的标准差；

ω_i表示权重：

W代表含有β的函数；

S_A为不同关节之间或者不同方向之间的类间方差：

S_A＝ω₀ω₁(μ₀-μ₁)² (10)

S_B为同一关节或同一方向的类内方差：

2.根据权利要求1所述的多模态手势的识别方法，其特征在于：所述利用数据手套和Kinect采集手势的数据的操作包括：

3.根据权利要求2所述的多模态手势的识别方法，其特征在于：所述利用数据手套采集各个手指关节的角度变化数据的操作包括：

1号关节到3号关节对应大拇指从下至上三个关节；

4号关节到6号关节对应食指从下至上三个关节；

7号关节到9号关节对应中指从下至上三个关节；

10号关节到12号关节对应无名指从下至上三个关节；

13号关节到15号关节对应小指从下至上三个关节。

4.根据权利要求3所述的多模态手势的识别方法，其特征在于：所述对采集到的数据进行预处理得到手势的曲线的操作包括：

将静态手势作为不同关节处于静止状态时的动态手势；