CN103246891B

CN103246891B - 一种基于Kinect的中国手语识别方法

Info

Publication number: CN103246891B
Application number: CN201310204961.XA
Authority: CN
Inventors: 杨勇; 叶梅树
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2013-05-28
Filing date: 2013-05-28
Publication date: 2016-07-06
Anticipated expiration: 2033-05-28
Also published as: CN103246891A

Abstract

本发明请求保护一种基于Kinect的中国手语识别方法。通过Kinect获取手的深度信息和人体主要部位的骨骼关节点3D坐标信息；对获取的信息进行特征处理分别获得手型特征信息、位置特征信息和方向特征信息；对获得的手型、位置和方向特征信息分别采用不同的聚类算法获取手型基元、位置基元和方向基元，采用近邻法和欧氏距离作为相似性度量准则的模板匹配方法进行基元匹配，确定手语含义。所述方法有效的实现识别中大词汇量中国手语的目标，并且各类基元获取是相对独立的并行执行，可以实时识别中国手语。实施本发明能够对不同手语进行实时识别，方便中国聋哑人士利用该设备与他人进行有效的通信。

Description

一种基于Kinect的中国手语识别方法

技术领域

本发明涉及人工智能的领域，特别涉及一种基于Kinect的中国手语识别方法。

背景技术

手语是聋人与正常人、聋人与聋人之间进行正常的信息交流和交际的主要方法，它是通过手型、手的位置、手的方向并加上手臂运动、面部表情、唇动以及其它姿势来表达意思的人体可视化语言。中国手语作为手语的一个重要分支，主要分为手指语和手势语。手指语通过手指的轨迹描述一个汉语拼音字母。一共有30个基本单位，中国汉语词中任意一个字词都可以用这30个手指语构成。手势语是通过模拟事物的形象特征、动作等并加上人体姿势和面部表情来表达的。目前大约有5500个常规手势，每个手势代表着一个中国汉语字词。目前中国聋人交往中以手势语为主，配合使用手指语。

目前国内外的手语识别根据输入方式不同，主要分为基于穿戴式设备（数据手套、位置跟踪器、加速器等）和基于传统视觉。基于穿戴式的识别系统，是利用数据手套、位置跟踪器等测量手的各关节角度信息和手在空间运动的轨迹以及时序信息来进行手语识别，该方法的优点在于能方便的获取精确的手形、方向、位置和运动轨迹信息，适合大词汇量手语识别，且识别率高。但基于穿戴式设备的手语识别的缺点是系统需要使用者穿戴复杂的数据手套和位置跟踪器等，直接影响了人机交互的自然性，且这些输入设备昂贵，不利于大量推广应用。基于传统视觉识别的方法利用普通摄像头采集手势视频或者图像信息，再进行识别处理。该方式虽然给使用者带来了很好的人机交互性，但为了提高系统的鲁棒性和有效的进行手部位置、手形、方向等二维特征的提取，识别人需要戴有颜色的手套、穿有要求的服装，并且识别人的背景需要统一的颜色。因此基于视觉识别的方法容易受到背景、灯光、摄像头的位置等环境因素的影响。

手语识别随着词汇量识别的增加，识别搜索空间随着变大，要区别的类别也增多，潜在的词间相似性增加，分辨就越困难；同时随着词条数增加，系统的搜索运算开销及存储开销增加，这将导致系统识别速度的降低和识别率的下降。在中国手语中，大约有5500个常用手语手势，如果为每一个手语都训练一个识别模型的方法是不可能实现的。研究中大词汇量的手语识别的一个行之有效的方法是使用手语的最小构词单位---基元。本方法采用的是将手语分成手型、位置和方向三个方面，通过获取手型基元、位置基元和方向基元识别中国手语。通常采用聚类方法获取手语基元，其中包括K-means聚类算法、DBSCAN聚类算法和CLTree聚类算法。

因此，有必要提供一种基于Kinect（基元）的中国手语识别方法来弥补上述缺陷。

发明内容

本发明的目的在于有效的利用Kinect的优势，提供一种不借助其它任何穿戴式传感设备，人机交互性较好，系统复杂度低，识别率较高的中国手语识别方法，该方法通过将中国手语就手型、位置和方向三个方面分别采用不同的聚类算法获取手型基元、位置基元和方向基元，再通过组合这三类基元进行手语识别。

为实现上述目的，本发明的技术方案是这样实现的：一种基于Kinect的中国手语识别方法，包括以下步骤：步骤1：利用Kinect获取特定手语的手深度信息和人体主要部位的骨骼关节点3D坐标信息；步骤2：根据手深度信息和关节点3D坐标信息计算特征值，分别获取手型特征信息、位置特征信息和方向特征信息；步骤3：根据上述特征信息分别计算手型基元、位置基元和方向基元；步骤4：通过组合特定的手型基元、位置基元和方向基元，与数据库中存储的标准基元比较，实时识别出待识别手语的含义。

进一步包括：利用Kinect的手心获取函数获取手心3D坐标，并以手心为中心，提取出100*100大小的深度信息构成手的深度信息；利用骨骼提取函数获得人体上半身包括左手、左肘、左肩、右手、右肘、右肩、颈部7个主要关节点的3D坐标信息。从获取的手的深度信息中交替获取2500个像素点，并将其中的任一个像素点x与掌心的距离除以所有像素点到手心的最大距离，确保每个像素点的特征值在[0,1]之间，获得2500维手型特征信息。

根据获取的人体上半身7个主要关节点的3D坐标计算它们之间的坐标关系，具体包括：计算左手与左肘、左肩的三维坐标关系，右手与右肘、右肩的三维坐标关系，左右手的三维坐标关系与距离，手、肩和颈部的三角关系，以及双手与颈部的三角关系，将上述关系构成21维的双手位置坐标关系信息，再对21维双手位置关系信息值进行PCA降维处理，取降维后的四个主成分值作为手语的位置特征信息。对获取的手深度信息进行处理，首先通过cvThreshold()函数将手深度信息进行二值化处理，然后利用cvFindContours()、cvConvexHull2()和cvConvexityDefects()函数分别获取手型的轮廓、凸包和缺陷图像信息，最后结合原始的3D深度坐标信息确定手的指尖坐标；计算手心坐标到指尖坐标的单位向量（x₁,y₁,z₁），得到手型方向信息；利用双手手肘坐标和手腕坐标，计算手肘到手腕的单位向量（x₂,y₂,z₂），得到手肘方向信息；结合手掌方向和手肘方向根据公式：k(x₁,y₁,z₁)+(1-k)(x₂,y₂,z₂)确定手语的方向特征信息，其中，k为距离参数。采用ABCLTree聚类集成算法，对型特征信息进行聚类，聚类结果作为手语的手型基元；采用DBSCAN聚类算法，对位置特征信息进行聚类，聚类结果作为手语的位置基元；采用K-means聚类算法，对方向特征信息进行聚类，聚类结果作为手语的方向基元。根据手型基元、位置基元和方向基元，采用近邻法和欧氏距离作为相似性度量准则的模板匹配方法，进行基元匹配，确定手语含义。

与现有技术相比，本发明所提供的一种基于Kinect的中国手语识别方法的不同之处体现在以下几点：1.基于Kinect提取的深度信息进行手语识别，与基于传统穿戴式设备的相比，提高了人机交互的自然性；与基于传统摄像头进行手语识别相比，不仅定位准确，而且还能够获取人体骨骼位置特征信息，丰富了手语特性信息，提高手语识别效果。2.根据中国手语的手型、手的位置和方向的特征，分别采用不同的聚类算法获取手语基元。传统的按照图像或者视频中帧与帧的信息关系获取基元的方法，很难将手语特征信息按照手型、位置和方向分开获取。本发明所述的方法利用Kinect技术能够很好的实现这一目标，能够同时获取手型特征信息、通过双手与其它人体部位的关节点坐标之间的关系获取双手的位置特征信息以及双手的方向特征信息，进一步提高手语识别效果。3.通过这三类基元的组合以实现识别中大词汇量中国手语的目标。因此，本发明所述的基于基元Kinect的中国手语识别方法能够有效的改善手语识别效果和人机交互效果，方便中国聋哑人士利用该设备与他人进行有效的通信。

说明书附图

图1是本发明的基于Kinect的中国手语识别方法流程图；

图2是图1中步骤M3的子流程图。

具体实施方式

下面结合附图对本发明的具体实施作进一步的详细阐明。

如上所述，本发明提供一种基于Kinect的中国手语识别方法，通过Kinect获取的手语特征信息和手语基元相结合的方法，可以有效的改善手语识别效果。所谓的基元，就是聚合手语特征中相同的或者相似性高的成分，构成手语的最小的单元，并且可以用来区分不同的手语。本发明所述的基于Kinect的中国手语识别方法充分利用Kinect能够同时获取手型特征、双手与人体其它部位的关节点坐标关系获取双手的位置特征信息以及双手方向特征信息的优势，从而将手语按照手型、位置和方向三个构造成分进一步细分，分别获取手型的最小构成单元（即手型基元）、位置的最小构成单元（位置基元）和方向的最小构成单元（即方向基元）。

进一步为了获得手型基元、位置基元和方向基元，本发明所述的基于Kinect的中国手语识别方法采用聚类分析的方法。聚类分析是一个无监督的学习过程，聚类的目标是在没有任何先验知识的前提下，利用某种相似性度量的方法，将数据聚集成不同的簇，使得相同簇中的元素尽可能相似，即“人以类聚，物以群分”。通过聚类，可以将相同的元素基元归于一类，这样同类型的基元或包含同类型基元的元素就能被识别出来了。该方法具体包括步骤：

步骤1：利用Kinect获取手的深度信息和人体骨骼主要关节点的3D坐标信息；

步骤2：对获取的信息执行步骤（2a）到步骤（2c）：步骤（2a）从步骤1中获取的手的3D信息中交替获取2500个像素点，并对每个像素点x进行处理（将像素点x与掌心的距离除以所有像素点到手心的最大距离，确保每个像素点x的特征值在[0,1]之间），从而获得2500维手的特征信息。其中对获取的深度信息不在有效手型轮廓深度信息范围内的，进行归0处理；步骤（2b）将从步骤1中获取的人体上半身7个主要关节点的3D坐标计算它们之间的坐标关系，具体计算左手与左肘、左肩的三维坐标关系；右手与右肘、右肩的三维坐标关系；左右手的三维坐标关系与距离；手、肩和颈部的三角关系，以及双手与颈部的三角关系等信息，从而构成21维的双手位置坐标关系信息，再对获取的21维双手位置关系信息值进行PCA降维处理，取降维后的四个主成分值作为手语的位置特征信息；步骤（2c）基于OPENCV开发环境对从步骤1中获取的人体双手3D坐标信息进行处理，首先通过cvThreshold()等函数将手掌信息进行二值化处理，然后利用cvFindContours()、cvConvexHull2()和cvConvexityDefects()等函数分别获取手掌轮廓、凸包和缺陷等图像信息，最后结合原始的3D坐标信息进一步确定手的指尖坐标。通过计算手心坐标到指尖坐标的单位向量（x₁,y₁,z₁），得到手型方向信息；利用Kinect获得的双手手肘坐标和手腕坐标，计算手肘到手腕的单位向量（x₂,y₂,z₂），得到手肘方向信息。最后根据距离参数k，结合手掌方向和手肘方向确定手语的方向特征信息k(x₁,y₁,z₁)+(1-k)(x₂,y₂,z₂)，其中人体与Kinect设备的距离在（0,0.8）米时，k为0.75；距离在[0.8,1.2）米时，k为0.5；在[1.2,+∞]米时，k为0.25。

步骤3：对获取的信息执行步骤（3a）到步骤（3c）：步骤（3a）采用ABCLTree聚类算法，对在步骤（2a）获取的手型特征信息进行聚类，获得的聚类结果代表了该手型的特征信息，同时该聚类结果作为手语的手型基元。步骤（3b）采用Density-BasedSpatialClusteringofApplicationswithNoise(DBSCAN)聚类算法，对在步骤（2b）获取的位置特征信息进行聚类，获得的聚类结果代表了该位置的特征信息，同时该聚类结果作为手语的位置基元。步骤（3c）采用K-means聚类算法，对在步骤（2c）获取的方向特征信息进行聚类，获得的聚类结果代表了该方向的特征信息，同时将该聚类结果作为手语的方向基元。

步骤4：通过获取手语的手型基元、位置基元和方向基元，采用近邻法和欧氏距离作为相似性度量的准则，进行基元匹配，确定手语含义。

参考图1所示为本发明所述的基于Kinect的中国手语识别方法的流程图。该方法包括以下步骤：步骤M1：获取待识别手语的手的深度信息和人体骨骼信息；步骤M2：对获取的信息执行步骤M2a到步骤M2c：步骤M2a获取手型特征信息；步骤M2b获取位置特征信息；步骤M2c获取方向特征信息；步骤M3：通过手型、位置和方向特征信息，分别获取手型基元、位置基元和方向基元；步骤M4：通过步骤M3获取手语的手型基元、位置基元和方向基元，采用近邻法和欧氏距离作为相似性度量的准则，进行基元匹配，确定手语含义。

具体地，步骤M1利用Kinect的红外投影仪和红外摄像头可以采集到640*480大小的每秒30帧的人体深度图像信息，通过PrimeSense提供的NaturalInteractionTechnologyforEnd-user(NITE)中间件的手跟踪函数获取手心3D坐标，以手心为中心，提取出100*100的手的3D轮廓信息；通过PrimeSense提供的NITE中间件的人体骨骼跟踪函数获取人体上半身7个主要关节点的3D坐标，包括左手、左肘、左肩、右手、右肘、右肩、颈部等。通过计算左手与左肘、左肩的三维坐标关系；右手与右肘、右肩的三维坐标关系；左右手的三维坐标关系与距离；手、肩和颈部的三角关系，以及双手与颈部的三角关系等信息构成了21维度的双手位置特征信息。

步骤M2a，从步骤M1获取的手掌3D轮廓信息中交替获取2500个像素作为该手型轮廓的特征向量，并对该特征向量中的每个像素点x特征进行如下公式(1)进行处理：

F_{u, v} (I, x) = \{\begin{matrix} \frac{\sqrt{{(u - x)}^{2} + {(v - y)}^{2} + {(I - I_{palm})}^{2}}}{L_{hand}} & x &Element; hand \\ 0 & others \end{matrix} - - - (1)

其中，F_u,v(I,x)表示在相对坐标(u,v)下像素点x的特征值，I表示像素点x的深度值，(x,y)表示手心坐标，以及I_palm表示手心点的深度值，通过计算像素点到手心的欧氏距离，再除以手型的最大长度L_hand，这样做可以将手型特征值归一化，从而保证3D特征值的移动不变性。由于通过Kinect获取的深度信息很容易将背景移除，以及可以轻易获取手心的有效深度信息，所以在进行特征处理归一化过程中，对获取的深度信息不在有效手型轮廓深度信息范围内的，本方法将进行归0处理。

步骤M2b，从步骤M1中获取的21维双手位置关系信息反映了人体相关部位的相对位置，势必存在着信息的冗余。因此对这21维特征我们有必要进行降维，这样同时也能减少系统的运算量和提高系统的实时性。本发明所述的基于Kinect的中国手语识别方法采用PCA对这21维特征进行降维，获取累计贡献率达到90%的前四个主成分作为手语的位置特征信息。

步骤M2c，基于OPENCV开发环境对步骤M1获取的人体手心3D坐标信息进行处理，首先通过cvThreshold()等函数将手掌信息进行二值化处理，然后利用cvFindContours()、cvConvexHull2()和cvConvexityDefects()等函数分别获取手掌轮廓、凸包和缺陷等图像信息，最后结合原始的3D坐标信息进一步确定手的指尖坐标。通过计算手心坐标到指尖坐标的单位向量（x₁,y₁,z₁），得到手型方向信息；利用Kinect获得的双手手肘坐标和手腕坐标，计算手肘到手腕的单位向量（x₂,y₂,z₂），得到手肘方向信息。在实际应用中，人可能会运动，从而人体与Kinect的距离会发生变化，从而Kinect获取的手的大小也随着变化。如果人体离Kinect越远，手肘的方向就越能代表手的方向；而离Kinect越近，手型的方向就越能代表手的方向。因此本发明所述的基于Kinect的中国手语识别方法引入距离参数k，结合手型方向和手肘方向确定手语的方向特征信息k(x₁,y₁,z₁)+(1-k)(x₂,y₂,z₂)，其中人体与Kinect设备的距离在（0,0.8）米时，k为0.75；距离在[0.8,1.2）米时，k为0.5；在[1.2,+∞]米时，k为0.25。

步骤M3，通过手型、位置和方向特征信息，分别获取手型基元、位置基元和方向基元。具体方法参照图2所示。

参考图2，所述基元获取方法的具体操作流程，包括：手型基元获取、位置基元获取和方向基元获取。

手型基元获取。利用传统的聚类算法获取由步骤M1所得到的2500个属性构成的手型特征的聚类结果，存在着以下几个问题：1.该手型特征集中存在较多的无关的属性，所以不可能找到并获得拥有所有属性的簇；2.该手型特征空间中数据分布稀疏，传统的基于欧式距离进行聚类的方法基本行不通；3.由于该手型特征空间中无关属性较多且数据分布稀疏，获得的手型特征聚类的结果（即手型基元）在高维空间中呈现出一种分散的多矩形特征，传统的聚类方法无法获得这种类型的聚类结果。因此为了解决传统的聚类算法无法实现获取手型基元的问题，本发明所述的基于Kinect的中国手语识别方法采用结合ClusteringbasedonDecisionTree(CLTree)子空间聚类算法与Attributebagging算法聚类集成算法（ABCLTree算法）进行手型基元的获取。

CLTree子空间聚类算法通过改进的决策方法构造判定树来区分子空间中的密集空间和稀疏空间。判定树是在数据分类中普遍使用的方法，它采用了信息增益的判定方法将数据空间划分为不同类别的数据的区间。由于聚类是无监督学习，不像分类那样事先确定了类标号(classlabel)，无法直接使用该方法。因此该算法将数据集中的每个数据点的类型设为Y，并假设整个空间中平均分布着另一种类型的点（叫做不存在点），其类型为N。这样就将聚类问题变成区分类型为Y和N的数据的分类问题了。

在CLTree算法树生成阶段，首先对数据集中的每一个属性的每个值x计算信息增益，选择取得最好的信息增益值的x作为分割值，计算信息增益公式(2)如下表示：

gain (x) = info (D) - (- Σ_{i = 1}^{m} \frac{| D_{i} |}{| D |} \times info (D_{i})) - - - (2)

其中，|D|表示数据集的大小，|D_i|表示x作为分割值，将数据集分割成不同的子数据集的大小，m表示子数据集的个数，本方法用到的值为2。

然后通过反复利用分割值将数据集中的每一维都分割成密度不同的几个区域，找出其中相对密度最小的区域的边界作为最佳的分割线（分割值），对数据进行划分，最终形成完整的“聚类”树。

随后通过引入两个参数：min_y表示成为密集区间的最小点数；min_rd表示区域间是否相似的阈值，对生成的“聚类”树进行剪枝操作，删去相对密度较小的箱，合并密度相似的邻近单元以形成最终的簇集。为了寻找最大的聚类，本发明所述的基于Kinect的中国手语识别方法在训练阶段设置参数min_y的值为1%和参数min_rd的值为10%。

通过对实验研究发现，直接利用CLTree算法进行聚类过程中，为了提取出聚类效果最好的簇集，对完整的属性集特征数据生成的“聚类”树进行剪枝操作，将相对密度较少的剪去，但在这些密度较少的箱中存在着手型的局部信息，而这局部信息更能分辨出不同手型。因此该方法存在较大的信息损失，没有能够反映出手型的局部信息，没有能够完全反映出聚类结果对手型的分辨能力。

为了获取能够更好的分辨不同手型的手型基元（聚类结果），本发明所述的基于Kinect的中国手语识别方法提出结合CLTree算法和Atributebagging(AB算法)聚类集成的方法进行手型基元的提取。在聚类集成方法中，属性分解的方法在获取集成结果上优于传统的数据样本分解的方法，并且AB算法还存在三个主要的优点：1)降低聚类算法中数据的维数，避免“维灾难”的出现。2)降低聚类结果的属性之间相关性。3)提高聚类结果。

ABCLTree算法主要分成三个阶段：属性分解阶段、CLTree聚类阶段和聚类结果合并阶段。在属性分解阶段，采用随机获取25个的属性量大小为1000的子属性集，为了保证每个属性至少在子属性集中出现一次，划分之后的子属性集｛A1,A2,…,A25｝与样本属性集A，必须满足如下公式(3)的要求。

A=A₁∪A₂∪…∪A₂₅(3)

将原始数据集按照子属性划分后，对每个子属性数据集用CLTree子空间聚类算法进行聚类，假设得到的25个聚类集为M₁、M₁……M₂₅，其中每个聚类集Mi为如下式子(4)所示：

M_{i} = {C_{1}^{i}, C_{2}^{i}, . . ., C_{k}^{i}} - - - (4)

其中，C_i ^k表示第i个子属性数据集聚类结果的第k个簇。因此合并聚类结果如式子(5)所示：

D = {{{C_{1}^{1}, C_{2}^{1}, . . ., C_{k}^{1}}} \cup {{C_{1}^{2}, C_{2}^{2}, . . ., C_{k}^{2}}} \cup \cdot \cdot \cdot \cup {{C_{1}^{25}, C_{2}^{25}, . . ., C_{k}^{25}}}} - - - (5)

D为该训练样本数据集所有数据对象的集合，综合以上可以看出25个聚类结果的并集可以代表原始数据集D。

为了提高聚类结果的准确率，需要对上式(5)进行处理，对每个聚类结果的簇添加投票权值，本方法的做法是将每个簇的权值设置为每个簇对训练样本的进行识别的识别率，对25个聚类结果中的每个聚类结果获取其中权值最大的簇代表该子属性集的数据特征。变化后的结果为如下式子(6)所示：

D = {C_{\max}^{1} \cup C_{\max}^{2} \cup \cdot \cdot \cdot \cup C_{\max}^{25}} - - - (6)

在得到最新的聚类集之后，由于获取的簇是由属性随机生成的子属性集产生的，所以在不同的簇之间必然存在着相同的属性。对于不同的簇、相同的属性，本方法将在簇中排除聚类区间相对密度高的，保留簇中聚类区间相对密度最小的属性。进一步改善聚类效果。

位置基元获取。根据研究发现位置基元的特点在于双手在空间的分布密度情况进行聚类。在传统的聚类算法中，其中DBSCAN算法就是一种基于密度的聚类算法。该算法将具有一定密度的区域划分为簇，可以在含有“噪声”的空间数据集中发现任意形状的簇集。因此本发明所述的基于Kinect的中国手语识别方法采用基于密度的DBSCAN聚类算法获取手语位置基元。

DBSCAN算法利用簇的高密度连通性，采用迭代查找的方法查找所有直接密度可达的对象（即对于一个簇中的每一个对象，在其给定半径eps的范围内包含的对象数目不能少于已知给定的最小值minPts），从而构成任意形状的簇。为了发现一个簇，首先从位置特征数据库中找到任意一个对象p，并查找数据库中关于对象p为中心、半径eps的区域范围内的所有对象。然后如果查找到的数量不少于minPts值，则找到一个以对象p为中心，半径为eps的簇，并标记为已访问；反之，对象p被暂时标记为噪声点。通过不断的对簇中其它对象进行区域查找来扩展它们所在的簇，直至找到一个完整的簇。最后用同样的算法去处理未被访问的点。

方向基元获取。中国手语中手型和位置特征占据主要作用，方向信息起到补充作用。根据研究发现，在方向特点上我们可以凭经验直观的确定为东、南、西、北、东南、西南、东北、西北和其它等9个方向，因此在可以确定簇类别数和人为的选取有代表性的坐标点作为这9个簇的初始化簇中心的情况下，本发明所述的基于Kinect的中国手语识别方法采用K-means聚类算法获取方向基元，因为K-means聚类算法以k作为唯一的参数，把要聚类的对象分为k个簇，以使簇内具有较高的相似度，而簇间的相似度较低，并且聚类的结果由k个簇中心来表达，该簇中心就是方向基元。因此利用K-means聚类算法能达到很好的获取方向基元的目标。具体算法描述如下所示：

a.设定9个方向的单位向量作为初始化簇中心，如(1,0,0)作为方向向北的初始化簇中心；

b.分别计算每个方向特征对象到各个簇中心的欧式距离，把对象分配到距离最近的簇中；

c.待到数据库中所有的方向特征对象分配完毕，计算簇中所有对象的平均值；

d.并与上一次所得的簇中心进行比较，如果簇中心发生变化，转到步骤b，否则，输出簇中心结果。

获得的聚类结果代表了该方向的特征信息，同时将该聚类结果作为手语的方向基元。

步骤M4，通过获取手语的手型基元、位置基元和方向基元，采用近邻法和欧氏距离作为相似性度量准则的模板匹配的方法，进行基元匹配，确定手语含义。

首先通过训练，获得43个手型基元、10个位置基元和9个方向基元，并对获取的每个基元命名，如本发明所述的基于Kinect的中国手语识别方法通过DBSCAN聚类算法获取的位置基元，人为的设定基元的含义如“双手举起”、“右手靠近嘴唇”等。

然后通过识别对象的手型、手的位置和方向分别与手型基元、位置基元和方向基元对应计算相似度，确定识别对象的手型、手的位置和方向所属类别，其中采用欧式距离作为相似性度量准则。

最后根据手型、手的位置和方向所属类别与已知的手语的手型类别、位置类别和方向类别进行一一匹配识别出手语含义。

如实验者做出“向上伸食指”的手型姿势，通过获取此手型基元，并和手型基元库进行近邻法比对，获取此手型的基元名称（本发明的方法用字符串“11”代表这一手型的基元名称）；做出一只手靠近嘴唇的位置姿势，通过和位置基元库进行欧氏距离计算比对，获取此位置的基元名称（本发明的方法用字符串“NearMouth”代表这一位置的基元名称）；和做出手的方向向上的姿势，通过和方向基元库进行近邻法和欧氏距离比对，获取此方向的基元名称（本发明的方法用字符串“North”代表手的方向向上的基元名称）。通过获取手型特征对应的手型基元名称“11”、位置特征信息对应的位置基元名称“NearMouth”和方向特征信息对应的方向基元名称“North”，与手语库中进行比对匹配获取此手语的含义“母亲”，然后利用文本信息的形式显示出来。

以上对本发明所提供的一种基于Kinect的中国手语识别方法进行了详细介绍，文本中应用了具体个例对本发明的原理及方法进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于Kinect的中国手语识别方法，其特征在于，包括以下步骤：步骤1：利用Kinect获取特定手语的手深度信息和人体主要部位的骨骼关节点3D坐标信息；步骤2：根据手深度信息和关节点3D坐标信息计算特征值，分别获取手型特征信息、位置特征信息和方向特征信息；步骤3：根据上述特征信息分别计算手型基元、位置基元和方向基元；步骤4：通过组合特定的手型基元、位置基元和方向基元，与数据库中存储的标准基元比较，实时识别出待识别手语的含义；

所述步骤1进一步包括：利用Kinect的手心获取函数获取手心3D坐标，并以手心为中心，提取出100*100大小的深度信息构成手的深度信息；利用骨骼提取函数获得人体上半身包括左手、左肘、左肩、右手、右肘、右肩、颈部7个主要关节点的3D坐标信息；

步骤2进一步包括：从获取的手的深度信息中交替获取2500个像素点，并将其中的任一个像素点x与掌心的距离除以所有像素点到手心的最大距离，确保每个像素点的特征值在[0,1]之间，获得2500维手型特征信息。

2.如权利要求1所述的方法，其特征在于：根据获取的人体上半身7个主要关节点的3D坐标计算它们之间的坐标关系，具体包括：计算左手与左肘、左肩的三维坐标关系，右手与右肘、右肩的三维坐标关系，左右手的三维坐标关系与距离，手、肩和颈部的三角关系，以及双手与颈部的三角关系，将上述关系构成21维的双手位置坐标关系信息，再对21维双手位置关系信息值进行PCA降维处理，取降维后的四个主成分值作为手语的位置特征信息。

3.如权利要求2所述的方法，其特征在于：对获取的手深度信息进行处理，首先通过cvThreshold()函数将手深度信息进行二值化处理，然后利用cvFindContours()、cvConvexHull2()和cvConvexityDefects()函数分别获取手型的轮廓、凸包和缺陷图像信息，最后结合原始的3D深度坐标信息确定手的指尖坐标；计算手心坐标到指尖坐标的单位向量(x₁,y₁,z₁)，得到手型方向信息；利用双手手肘坐标和手腕坐标，计算手肘到手腕的单位向量(x₂,y₂,z₂)，得到手肘方向信息；结合手掌方向和手肘方向根据公式：k(x₁,y₁,z₁)+(1-k)(x₂,y₂,z₂)确定手语的方向特征信息，其中，k为距离参数。

4.如权利要求2所述的方法，其特征在于：采用ABCLTree聚类集成算法，对型特征信息进行聚类，聚类结果作为手语的手型基元；采用DBSCAN聚类算法，对位置特征信息进行聚类，聚类结果作为手语的位置基元；采用K-means聚类算法，对方向特征信息进行聚类，聚类结果作为手语的方向基元。

5.如权利要求4所述的方法，其特征在于：根据手型基元、位置基元和方向基元，采用近邻法和欧氏距离作为相似性度量准则的模板匹配方法，进行基元匹配，确定手语含义。