CN104636725A

CN104636725A - 一种基于深度图像的手势识别方法与系统

Info

Publication number: CN104636725A
Application number: CN201510058032.1A
Authority: CN
Inventors: 刘文予; 冯镔; 贺芳姿; 王兴刚
Original assignee: Huazhong University of Science and Technology
Current assignee: Wuhan Zhongzhi Digital Technology Co.,Ltd.
Priority date: 2015-02-04
Filing date: 2015-02-04
Publication date: 2015-05-20
Anticipated expiration: 2035-02-04
Also published as: CN104636725B

Abstract

本发明公开了一种基于深度图像的手势识别方法，训练数据集和测试数据集中的深度图像通过深度传感器采集得到，首先计算图像中人体区域的最小深度值，再利用深度阈值，结合人手是离传感器最近物体的预设条件，分割出深度图像中的手势；然后获取手势在三个正交平面上的投影图，分别称为正视投影图、侧视投影图和顶视投影图；接着提取三个投影图的轮廓片段包特征，并级联成原始深度手势的特征向量；最后训练分类器，对从待识别深度图像中获取的手势特征向量进行分类，得到待识别手势的识别结果。本发明还提供了相应的手势识别系统。本发明方法手势识别简单易行，推广能力强，识别准确率高，能有效克服杂乱背景、光照、噪声及自遮挡等不利因素的影响。

Description

一种基于深度图像的手势识别方法与系统

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于深度图像的手势识别方法与系统。

背景技术

手势识别由于其广泛应用于虚拟现实，手语识别和电脑游戏等人机交互(HCI，human-computer interaction)中而受到重视。尽管有大量的前期工作，传统基于视觉的手势识别方法在现实生活中的应用仍然远远不能令人满意。基于光学传感器的方法因为光学感测的性质，所捕获图像的质量是敏感于光线条件和杂乱背景，因而通常无法鲁棒地检测和跟踪手，这在很大程度上影响了手势识别的性能。为了提供更稳健的手势识别，有效途径之一是使用其他传感器捕获手势和运动，例如通过数据手套。不同于光学传感器，这种传感器通常更可靠且不受照明条件或杂乱背景影响。然而，因为它需要用户佩戴数据手套，使用不方便，并且通常比光学传感器更昂贵。因此，它也不是一个非常受欢迎的手势识别方法。

由于深度相机的最新发展，如Kinect传感器，手势识别出现了新的机会。由于Kinect可以利用它的景深摄像头提供深度图像，其中的像素记录了场景中各点的校准深度，可以很好的消除背景噪音，提取出人的信息。Kinect已被用来实现实时人体跟踪，这引发了基于自然界面应用的新时代。J.Shotton、A.Fitzgibbon、M.Cook、A.Blake所著，2011年发表在会议“InProceedings of IEEE conference on Computer Vision and Pattern Recognition”的文章“Real-time human pose recognition in parts from single depth images”使用了基于对象识别的方法找到适合人体的骨架。这个想法也适用于手姿势估计问题，但人体和手之间也有一些明显的差异：(1)一只手的投影深度图像比人体小得多；(2)人体可以被假定为是直立的，但用手可以是任意方向；(3)在手的情况下，可能有意义的结构数目要大得多，而且自遮挡问题是严重的。也就是说，相对于人体来说，需要更充分地利用Kinect传感器捕获到的深度信息来检测和识别手势。Z.Ren、J.Yuan、Z.Zhang所著，2011年发表在会议“In Proceedings of ACM International Conference onMultimedia”的文章“Robust hand gesture recognition based on finger-earthmover’s distance with a commodity depth camera”最先提出了一个完整的基于Kinect的手势识别系统，采用基于手指-陆地移动器的距离(FEMD，Finger-Earth Mover’s Distance)的模板匹配方法来识别手势。它使用近凸分解检测出匹配过程中所需要的手指特征，在稳定性和精度上的表现都不错。然而，该方法的高计算复杂度对识别的效率有一定的影响，且对于复杂手势的识别存在很大程度的限制，例如手语识别。

如上所述，大多数早期的基于深度信息的手势识别方法只考虑单个视图的二维轮廓，并没有充分利用由深度图所传送的三维形状和拓扑信息。考虑到手的高度灵活性和现实场景中待识别手势类型的复杂性，一些研究人员已经意识到，有必要去探索使用Kinect传感器的基于三维信息视觉手势识别。为了从深度图中捕捉和编码3D(3Demission)形状信息，C.Zhang、X.Yang、Y.Tian所著，2011年发表在会议“IEEE International Conference andWorkshops on Automatic Face and Gesture Recognition”的文章“Histogram of3D facets:a characteristic descriptor for hand gesture recognition”提出一种名为3D小平面直方图(H3DF，Histogram of 3D Facets)的新的特征描述符。在3D深度图中定义了一个三维点云的局部支持表面，用以捕捉每一个点云的局部表面特性。然而，有效地获取局部支持表面是非常具有难度的。此外，基于H3DF的手势识别方法在复杂的大手势数据集上的分类准确率也有待进一步的提高。

发明内容

本发明的目的在于提供一种基于深度图像的手势识别方法，该方法可以有效地捕捉和描述深度图像传达的丰富三维形状和拓扑信息，并且识别准确率高。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度图像的手势识别方法，包括下述步骤：

(1)分割出训练图像中的手势区域：

(1.1)对每张训练图像，找到人体区域离传感器的最短距离，亦即训练图像中人体区域离传感器最近的点到传感器的距离；其中所述训练图像携带有人体区域的深度信息；

(1.2)设置深度阈值，根据所述深度阈值和步骤(1.1)中得到的最短距离，并结合人手是离传感器最近物体的预设条件，确定深度图像中的感兴趣范围，选取落在该感兴趣范围内的点的集合，即为手势区域；

(2)获取手势在三个正交平面上的投影：

(2.1)确定深度手势投影的坐标系统，即确定三个正交平面；

(2.2)获取手势深度图中的任意点在三个正交平面上的正视投影、侧视投影和顶视投影，其中手势深度图为与原始训练图像相同大小的图像，手势深度图中包括原始训练图像中的手势区域，而其他非感兴趣范围全部被剔除；

具体地，对手势深度图D中任意点A(x,y,z)∈D，它的正视(front view)投影、侧视(side view)投影和顶视(top view)投影分别为

\begin{matrix} F_{f} (A) = F_{f} ((x, y, z)) = (x, y) |_{z = 0} \\ F_{s} (A) = F_{s} ((x, y, z)) = (z, y) |_{x = 0} \\ F_{t} (A) = F_{t} ((x, y, z)) = (x, z) |_{y = 0} \end{matrix};

(2.3)对手势深度图的正视投影图、侧视投影图和顶视投影图进行初始化；

具体地，对三个投影图进行初始化，即map_f∈{0}^M×N,和分别为初始正视投影图、侧视投影图和顶视投影图，其中Z_max是手势的最大深度值，训练图像的分辨率为M×N；

(2.4)在初始化投影图的基础上，按照预设判定规则获取二值的正视投影图、侧视投影图和顶视投影图；

具体地，对于任意的点b(x_f,y_f)∈map_f，若有F_f((x,y,z))＝(x_f,y_f)且z≠0，那么b(x_f,y_f)＝1，从而得到二值的正视投影图map_f∈{0,1}^M×N，同理可以得到二值的侧视投影图和顶视投影图，即和

(2.5)从步骤(2.4)获取的三个投影图中切割出包含手势的区域；

(2.6)移除每个投影图中的内部空隙和噪声，获取最终的三个手势深度投影图；

(3)计算三个手势深度投影图的轮廓片段包特征：

(3.1)获取每个手势深度投影图外轮廓的简化多边形，并将其分解成有意义的轮廓片段；

具体地，首先将手势的三个二值深度投影图(DPM，Depth ProjectionMap)记为DPM_v，其中v∈{f,s,t}为投影视图，然后使用离散轮廓演化方法将每个手势深度投影图的外轮廓分解成有意义的轮廓片段，关于轮廓片段相关定义如下：

①cDPM_v(t)＝(x(t),y(t))为一个手势投影图的外轮廓，其中t∈[0,1]；

②DPM_v的简化多边形的顶点表示为其中T表示关键点的个数；

③对于每一个手势投影图的外轮廓cDPM_v，它的轮廓片段集合表示为C(cDPM_v)＝{c_ij＝(u_i,u_j),i≠j,i,j∈[1,…,T]，}其中c_ij为关键点u_i和u_j之间的轮廓片段，且观察到cDPM_v＝c_ij∪c_ji；

(3.2)使用形状上下文描述符来表述每一个轮廓片段，获取轮廓片段特征，从而得到手势深度投影图的基本描述子作为特征向量；

具体地，使用形状上下文描述符来表述每一个轮廓片段，对于同一个轮廓片段，采用多个形状上下文特征拼接成为一个向量x_ij∈R^d×1，它是手势深度投影图DPM_v的基本描述子，其中d是多个形状上下文特征的总维度，即c_ij的特征维度；

(3.3)将轮廓片段的特征向量映射到一个高维空间中，在这个高维空间中将轮廓片段特征描述为形状码；

具体地，将轮廓片段特征x_ij编码成形状码，将轮廓片段的特征向量映射到一个高维空间B中，这个映射过程是通过一个形状码本B＝[b₁,…,b_M]∈R^d×M实现的，其中M是码本大小，在这个高维空间中，使用局部约束线性编码方法将轮廓片段描述为形状码，得到x_ij的编码结果为w_ij∈R^d×1；

(3.4)在形状码的基础上，融合轮廓片段特征之间的空间关系，建立一个紧凑的形状表达，得到各个投影图轮廓片段包特征向量；

具体地，在形状码的基础上，利用了空间金字塔匹配融合特征之间的空间关系，建立一个紧凑的形状表达：

(3.4.1)将手势深度投影图按照1×1,2×2和4×4的方式被分成总数为21个区域；

(3.4.2)对每个区域Region_r,r∈[1,…,21]进行最大化汇聚，即对特征的每一维选取区域中所有特征的最大值；

具体为，定义w^p为在形状位置p上的编码后的轮廓片段，轮廓的位置由其轮廓中间点的位置决定，最大汇聚用公式表达如下：

f(cDPM_v,r)＝max(w^p|p∈Region_r)，

其中最大函数返回一个区域Region_r的特征向量f(cDPM_v,r)，特征向量的长度与w_ij是一致的；

(3.4.3)连接所有区域的特征向量，获取手势深度投影图DPM_v的表示，即得到了三个手势深度投影图的轮廓片段包特征向量；

具体为，手势深度投影图DPM_v的表示f(DPM_v)是所有区域的特征向量的连接：f(DPM_v)＝[f(cDPM_v,1)^T,…,f(cDPM_v,21)^T]^T，即得到了三个手势深度投影图的轮廓片段包特征向量，记为BCF_v,v∈{f,s,t}；

(4)训练手势分类器：

(4.1)将步骤(3)中获取的正视投影图、侧视投影图和顶视投影图的轮廓片段包特征向量级联成原始深度手势的特征向量；

具体地，将步骤(3.4.3)中获取的正视投影图、侧视投影图和顶视投影图的轮廓片段包特征向量BCF_v,v∈{f,s,t}级联成原始深度手势的特征向量，记为DPM-BCF，用公式表达如下：

\begin{matrix} DPM - BCF = {[{BCF}_{f}^{T}, {BCF}_{s}^{T}, {BCF}_{t}^{T}]}^{T} \\ = {[f {({DPM}_{f})}^{T}, f {({DPM}_{s})}^{T}, f {({DPM}_{t})}^{T}]}^{T} \end{matrix};

(4.2)利用所有训练图像的深度手势的特征向量训练支持向量机分类器；

(5)识别待识别的手势图像：

(5.1)按照步骤(1)检测出待识别深度图像中的手势区域；

(5.2)按照步骤(2)获取待识别手势在三个正交平面上的投影；

(5.3)利用步骤(3)和(4.1)获取待识别手势的特征向量；

(5.4)利用步骤(4)中训练好的支持向量机分类器，对待识别手势的特征向量进行分类，并得到手势图像的识别结果。

按照本发明的另一方面，还提供了一种基于深度图像的手势识别系统，所述系统包括手势分割模块、手势深度投影图生成模块、手势深度投影图的特征获取模块、手势分类器训练模块以及待识别手势识别模块，其中：

所述手势分割模块，用于分割出训练图像中的手势区域，具体包括人体区域-传感器最短距离获取子模块和感兴趣范围获取子模块，其中：

所述人体区域-传感器最短距离获取子模块，用于对每张训练图像，找到人体区域离传感器的最短距离，其中所述训练图像携带有人体区域的深度信息，所述训练图像中人手是离传感器最近的物体，且在传感器与人手之间没有任何的障碍物；

所述感兴趣范围获取子模块，用于设置深度阈值，根据所述深度阈值和所述最短距离，确定深度图像中的感兴趣范围，获取落在该感兴趣范围内的点的集合即为手势区域；

所述手势深度投影图生成模块，用于获取深度手势在三个正交平面上的正视投影、侧视投影和顶视投影，具体包括深度手势投影的坐标系统确定子模块、任意点投影获取子模块、初始化投影图子模块、二值投影图获取子模块、投影图中手势区域切割子模块以及内部空隙和噪声移除子模块，其中：

所述深度手势投影的坐标系统确定子模块，用于确定深度手势投影的坐标系统，即获取三个正交平面；

所述任意点投影获取子模块，用于获取手势深度图中的任意点在三个正交平面上的正视投影、侧视投影和顶视投影，其中手势深度图为与原始训练图像相同大小的图像，手势深度图中包括原始训练图像中的手势区域，也就是所述感兴趣范围，而其他非感兴趣范围全部被剔除；

所述初始化投影图子模块，用于对手势深度图的正视投影图、侧视投影图和顶视投影图进行初始化；

所述二值投影图获取子模块，用于在初始化投影图的基础上，按照预设判定规则获取二值的正视投影图、侧视投影图和顶视投影图；

所述投影图中手势区域切割子模块，用于从二值投影图获取子模块获得的三个投影图中切割出包含手势的区域；

所述内部空隙和噪声移除子模块，用于通过形态学操作移除每个投影图中的内部空隙和噪声，获取最终的三个手势深度投影图，其中所述形态学操作包括膨胀和腐蚀；

所述手势深度投影图的特征获取模块，用于计算深度投影图的轮廓片段包特征，具体包括轮廓片段获取子模块、轮廓片段特征描述子模块、轮廓片段特征编码子模块以及特征空间关系融合子模块，其中：

所述轮廓片段获取子模块，用于通过离散轮廓演化方法获取每个手势深度投影图外轮廓的简化多边形，并将其分解成有意义的轮廓片段；

所述轮廓片段特征描述子模块，用于采用形状上下文描述符来表述每一个轮廓片段，获取轮廓片段特征，从而得到手势深度投影图的基本描述子；

所述轮廓片段特征编码子模块，用于将轮廓片段的特征向量映射到高维空间中，并在这个高维空间中使用局部约束线性编码方法将轮廓片段特征描述为形状码；

所述特征空间关系融合子模块，用于在形状码的基础上，利用空间金字塔匹配融合特征之间的空间关系，从而建立一个紧凑的形状表达，得到各个投影图轮廓片段包特征向量；

所述手势分类器训练模块，用于训练手势分类器，具体包括深度手势特征向量计算子模块和支持向量机分类器生成子模块，其中：

所述深度手势特征向量计算子模块，用于级联正视投影图、侧视投影图和顶视投影图的轮廓片段包特征向量为深度手势的特征向量；

所述支持向量机分类器生成子模块，用于利用所有训练图像的深度手势的特征向量训练支持向量机分类器；

所述待识别手势识别模块，用于识别待识别的手势图像，具体包括待识别深度图像手势分割子模块、深度手势特征向量计算子模块以及待识别手势识别子模块，其中：

所述待识别深度图像手势分割子模块，用于检测出待识别深度图像中的手势区域；

所述深度手势特征向量计算子模块，用于获取待识别深度图像中手势的特征向量；

所述待识别手势识别子模块，用于利用手势分类器训练模块训练好的支持向量机分类器，对待识别手势的特征向量进行分类，并得到手势图像的识别结果。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

1.本发明方法采用一种新的形状描述符——基于深度投影图的轮廓片段包特征来表述手势特征，该形状描述符是非常简洁和直观的，采用一个单一的向量，而非许多特征向量的集合，来描述一个深度手势图像。它与现有形状描述子比较所具有的主要优势在于：在使用三个平面的投影充分描述手势的基础上，它可以提取手势更全面的信息，并适应更复杂的旋转和遮挡的情况。

2.本发明方法在提取手势深度投影图的轮廓片段包特征的过程中，充分考虑到深度投影图和轮廓片段包各自的特性，使其达到一个互补的状态，从而最大程度地提升基于深度图像的手势识别系统的性能，具体表现为以下四个方面：

(1)深度投影图直接捕获每个投影视图的手的形状信息，而轮廓片段包可以通过局部约束线性编码方法精确地保留手形的轮廓信息，并通过空间金字塔匹配精确地保留轮廓片段的空间布局信息。因此，本发明方法可以有效地捕捉和描述深度图像所传达的丰富形状信息。

(2)手势在方向，大小和关节上有很多变化，投影后的手形状存在着巨大差异。另外，通过深度投影图获取的形状信息是局部的。因此，对深度投影图的特征描述应该具有局部特性，且是多尺度的。由于每个深度投影图的手形轮廓在进行轮廓片段包特征提取时，都被分成在若干轮廓片段，因此轮廓片段含有局部形状信息。与此同时，提取所有配对关键点之间的轮廓片段是多尺度，并且轮廓片段的集合包含深度投影图中丰富的信息。编码后，可以使用一个判别分类器，例如支持向量机，来选择每个手形类别的有代表性和富含信息的轮廓部分。对于形状分类，轮廓片段包可以避免局部形状描述符之间的两两配对。这样，本发明中的基于深度投影图的轮廓片段包特征很好地满足了局部特性和多尺度特性，提高了待识别的手势图像的识别准确率。因此，本发明方法对深度图像中手势的识别准确率很高。

(3)手包含许多有意义的结构和拓扑信息，但是其自遮挡情况是非常严重的。在将深度手势图像投影到三个正交的平面后，很有可能产生变形和部分缺失。由于轮廓片段包是一个基于部分的模型，它本质上可以处理上述各自情况。因此，本发明方法可以有效克服遮挡，变形和部分缺失等因素的影响。

(4)由于通过深度传感器采集到的深度图像的分辨率较小，并且手是具有复杂关节的一个非常小的物体，所以在手分割和检测过程中难免存在一定的噪声。因此，在深度投影图中也会引入噪声。然而，轮廓片段包具有较强的抗噪声能力，其主要原因是离散轮廓演化方法和形状上下文描述符对噪声是鲁棒的。这样，本发明的手势识别方法对噪声是鲁棒的。

附图说明

图1是本发明基于深度图像的手势识别方法流程图；

图2是本发明基于深度图像的手势识别方法的具体实现框架示意图；

图3是本发明实施例中采用的Kinect传感器的坐标系统示意图；

图4是本发明实施例中通过深度投影图获取手势更全面信息的示意图；

图5是本发明新建数据集中手势的方向多样化示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明基于深度图像的手势识别方法包括以下步骤：

(1)分割出训练图像中的手势区域：

具体地，本方法中的训练图像中人手是离传感器最近的物体，且在传感器与人手之间没有任何的障碍物，找出训练图像中人体区域离传感器最近的点，并根据该点的深度信息求出该点离传感器的距离d_near；

其中所述训练图像可以由Kinect传感器或者其他可以获得深度信息的传感器来采集，Kinect传感器采集到的图像是分辨率为640×480的深度图像；

具体地，结合人手是离传感器最近物体的预设条件，考虑到手势区域中各个点的深度值的相邻关系，定义[d_near,d_near+τ]为感兴趣范围，其中τ为深度阈值，为经验值，例如取值为100mm，手势区域即为落在该感兴趣范围内的点的集合；如图2(1)-(2)所示，为本发明一实施例中分割出训练图像中手势区域示意图；

(2)获取手势在三个正交平面上的投影：

(2.1)确定深度手势投影的坐标系统，即确定三个正交平面；

具体地，为了利用深度图所携带的丰富的形状和拓扑信息，每个深度手势将被投影到三个正交笛卡尔平面。如果训练图像是用Kinect传感器获取得到，三个正交笛卡尔平面则正好对应于Kinect坐标系，如图3示，为本发明实施例中采用的Kinect传感器的坐标系统示意图，图中，Kinect传感器在原点，Z轴方向与传感器的感应方向一致，Y轴的正半轴向上延伸，X轴的正半轴向左延伸(从传感器的视角看去)，X坐标和Y坐标代表的是像素值，而Z坐标代表深度值；

于是，深度手势在三个正交平面的投影图可以根据Kinect坐标系的三个不同视角：正视(front view)、侧视(side view)和顶视(top view)而得到；

具体地，对手势深度图D中任意点A(x,y,z)∈D，它的正视投影、侧视投影和顶视投影分别为

\begin{matrix} F_{f} (A) = F_{f} ((x, y, z)) = (x, y) |_{z = 0} \\ F_{s} (A) = F_{s} ((x, y, z)) = (z, y) |_{x = 0} \\ F_{t} (A) = F_{t} ((x, y, z)) = (x, z) |_{y = 0} \end{matrix};

(2.5)从步骤(2.4)获取的三个投影图中切割出包含手势的区域；

由于考虑到人手为一个非常小的物体，且其深度变化并不是很大，所以本步骤可以用较小的尺寸切割出包含手势的区域，尺寸的大小以切割出的区域包括手势为准；

具体地，通过形态学操作(膨胀和腐蚀)来移除每个投影图中的内部空隙和噪声，最终获取深度手势的三个二值深度投影图(DPM，DepthProjection Map)，记为DPM_v，其中v∈{f,s,t}为投影视图；如图2(3)所示，为本发明一实施例中获取手势的深度投影图的示意图，图中共得到三个深度投影图；

可以从三个深度投影图中获取手势更全面的信息，如图4所示，为本发明一实施例中通过深度投影图获取手势更全面信息的示意图，图中以手势数字“4”为例：通常情况下，正视投影图包含最丰富的形状信息，然而图4中的正视投影图仅显示了手势的轮廓，而并不能突出手势的手指使用数，从而不能很好地区分出它是否代表数字“4”；相反，侧视投影图清楚地显示了该手势有四只直立的手指，这样就增强了手势的区分能力；

(3)计算三个手势深度投影图的轮廓片段包特征：

具体地，使用离散轮廓演化方法将每个手势深度投影图DPM_v的外轮廓分解成有意义的轮廓片段，DCE中最大曲率值阈值根据经验值设置为0.5，关于轮廓片段相关定义如下：

②DPM_v的简化多边形的顶点表示为其中T表示的是关键点的个数；

如图2(4)(a)-(c)所示，为本发明一实施例中获取手势深度投影图外轮廓的关键点及轮廓片段示意图；

具体地，使用形状上下文描述符来表述每一个轮廓片段，对于同一个轮廓片段，可以采用多个形状上下文特征拼接成为一个向量x_ij∈R^d×1，它是手势深度投影图DPM_v的基本描述子，其中d是多个形状上下文特征的总维度，即c_ij的特征维度；在计算轮廓片段的形状上下文时，设有5个参考点，且将形状上下文中的扇形区域数设为60个(角度空间分为10份，半径空间分为6份)，这样轮廓片段的形状上下文描述符的维度为300；如图2(4)(d)所示，为本发明一实施例中轮廓片段的形状上下文描述示意图；

具体地，轮廓片段特征x_ij被编码成形状码，将轮廓片段的特征向量映射到一个高维空间B中，这个映射过程是通过一个形状码本B＝[b₁,…,b_M]∈R^d×M实现的(M是码本大小)，其中M是码本大小，在这个高维空间中，使用局部约束线性编码方法将轮廓片段描述为形状码，得到x_ij的编码结果为w_ij∈R^d×1；采样标准的k-means距离方法进行码本的训练，考虑到数据集中提取的轮廓片段总数目非常大，进行码本训练时会产生很大的时间和空间复杂度，实际中通过采样方法来降低这个复杂度，通常情况下，聚类中心的数量为3000；如图2(4)(e)所示，为本发明一实施例中轮廓片段的形状编码示意图；

f(cDPM_v,r)＝max(w^p|p∈Region_r)，

如图2(4)(f)所示，为本发明一实施例中使用空间金字塔进行特征最大化汇聚的示意图；

具体为，手势深度投影图DPM_v的表示f(DPM_v)是所有区域的特征向量的连接：f(DPM_v)＝[f(cDPM_v,1)^T,…,f(cDPM_v,21)^T]^T，即得到了三个手势深度投影图的轮廓片段包特征向量，记为BCF_v,v∈{f,s,t}；如图2(5)所示，为本发明一实施例中获取深度投影图的轮廓片段包特征向量示意图；

(4)训练手势分类器：

\begin{matrix} DPM - BCF = {[{BCF}_{f}^{T}, {BCF}_{s}^{T}, {BCF}_{t}^{T}]}^{T} \\ = {[f {({DPM}_{f})}^{T}, f {({DPM}_{s})}^{T}, f {({DPM}_{t})}^{T}]}^{T} \end{matrix};

如图2(6)所示，为本发明一实施例中获取原始深度手势的特征向量示意图；

(5)识别待识别的手势图像：

(5.1)按照步骤(1)检测出待识别深度图像中的手势区域；

(5.2)按照步骤(2)获取待识别手势在三个正交平面上的投影；

(5.3)利用步骤(3)和(4.1)获取待识别手势的特征向量；

进一步地，本发明还提供了一种基于深度图像的手势识别系统，其特征在于，所述系统包括手势分割模块、手势深度投影图生成模块、手势深度投影图的特征获取模块、手势分类器训练模块以及待识别手势识别模块，其中：

具体地，所述人体区域-传感器最短距离获取子模块用于找到训练图像中的人体区域离传感器最近的点，并根据该点的深度信息求出该点离传感器的距离，即为人体区域-传感器最短距离，假设人手是离传感器最近的物体，且在传感器与人手之间没有任何的障碍物，则求得的人体区域-传感器最短距离即为手势区域-传感器最短距离。

具体地，所述感兴趣范围获取子模块用于确定深度图像中的手势区域，结合手势区域中各个点的深度值的相邻关系定义图像中的感兴趣范围，并设置深度阈值，结合人手是离传感器最近物体的预设条件，选取落在该感兴趣范围内的点的集合，即为手势区域。

具体地，所述深度手势投影的坐标系统确定子模块用于确定深度手势投影的坐标系统，即确定三个正交平面；为了利用深度图所携带的丰富的形状和拓扑信息，每个深度手势将被投影到三个正交笛卡尔平面；如果训练图像是用Kinect传感器获取得到，三个正交笛卡尔平面则正好对应于Kinect坐标系；于是，深度手势在三个正交平面的投影图可以根据Kinect坐标系的三个不同视角：正视(front view)、侧视(side view)和顶视(topview)而得到；

具体地，所述任意点投影获取子模块用于获取手势深度图中任意点的正视投影、侧视投影和顶视投影；定义手势的深度点云图为D，对于该深度点云图中的任意点A(x,y,z)∈D，它的正视投影、侧视投影和顶视投影分别为F_f(A)，F_s(A)和F_t(A)。

具体地，所述初始化投影图子模块用于对手势深度图的正视投影图、侧视投影图和顶视投影图进行初始化；初始化的正视投影图、侧视投影图和顶视投影图分别为和其中Z_max是手势的最大深度值，训练图像的分辨率为M×N。

具体地，所述二值投影图获取子模块用于按照预设判定规则获取二值投影图；对于任意的点b(x_f,y_f)∈map_f，若有)且z≠0，那么b(x_f,y_f)＝1，从而得到二值的正视投影图map_f∈{0,1}^M×N，同理可以得到二值的侧视投影图和顶视投影图

具体地，所述内部空隙和噪声移除子模块用于通过形态学操作(膨胀和腐蚀)来移除每个投影图中的内部空隙和噪声，最终获取深度手势的三个二值深度投影图(DPM，Depth Projection Map)，记为DPM_v，其中v∈{f,s,t}为投影视图。

具体地，所述轮廓片段获取子模块用于获取每个手势深度投影图外轮廓的简化多边形，使用离散轮廓演化方法将每个手势深度投影图DPM_v的外轮廓分解成有意义的轮廓片段，且定义cDPM_v(t)＝(x(t),y(t))为一个手势投影图的外轮廓，其中t∈[0,1]；DPM_v的简化多边形的顶点表示为其中T表示的是关键点的个数；对于每一个手势投影图的外轮廓cDPM_v，它的轮廓片段集合表示为C(cDPM_v)＝{c_ij＝(u_i,u_j),i≠j,i,j∈[1,…,T]}，其中c_ij为关键点u_i和u_j之间的轮廓片段，观察到cDPM_v＝c_ij∪c_ji。

具体地，所述轮廓片段特征描述子模块用于表述每一个轮廓片段，获取轮廓片段特征，从而得到手势深度投影图的基本描述子作为特征向量；对于同一个轮廓片段，可以采用多个形状上下文特征拼接成为一个向量x_ij∈R^d×1，它是手势深度投影图DPM_v的基本描述子，其中d是多个形状上下文特征的总维度。

具体地，所述轮廓片段特征编码子模块用于将轮廓片段的特征向量映射到一个高维空间中，并在这个高维空间中将轮廓片段特征描述为形状码；在高维空间中，使用局部约束线性编码方法将轮廓片段描述为形状码，得到x_ij的编码结果为w_ij∈R^d×1。

具体地，所述特征空间关系融合子模块用于执行以下步骤，以利用空间金字塔匹配融合特征之间的空间关系，得到各个投影图轮廓片段包特征向量：

(3.4.2)对每个区域Region_r,r∈[1,…,21]进行最大化汇聚，即对特征的每一维选取区域中所有特征的最大值；定义w^p为在形状位置p上的编码后的轮廓片段，轮廓的位置由其轮廓中间点的位置决定，最大汇聚用公式表达为f(cDPM_v,r)＝max(w^p|p∈Region_r)，其中最大函数返回一个区域Region_r的特征向量f(cDPM_v,r)，特征向量的长度与w_ij是一致的；

(3.4.3)连接所有区域的特征向量得到手势深度投影图DPM_v的表示：f(DPM_v)＝[f(cDPM_v,1)^T,…,f(cDPM_v,21)^T]^T，获取三个手势深度投影图的轮廓片段包特征向量，记为BCF_v＝f(DPM_v),v∈{f,s,t}。

具体地，所述深度手势特征向量计算子模块用于级联正视投影图、侧视投影图和顶视投影图的轮廓片段包特征向量BCF_v,v∈{f,s,t}为原始深度手势的特征向量:

\begin{matrix} DPM - BCF = {[{BCF}_{f}^{T}, {BCF}_{s}^{T}, {BCF}_{t}^{T}]}^{T} \\ = {[f {({DPM}_{f})}^{T}, f {({DPM}_{s})}^{T}, f {({DPM}_{t})}^{T}]}^{T} \end{matrix} .

以下通过实验实例来证明本发明的有效性，实验结果证明本发明能够提高手势识别的识别准确率。

本发明选择两个基准的手势数据集作为测试数据，并且采用三种不同的测试方法：①留一测试法(leave-one-subject-out test)，对于具有N个对象的数据集，使用N-1个对象的数据进行训练，剩余一个对象的数据进行测试；②依赖对象测试法(subject-dependent test)，所有对象的数据既用来做训练，又用来做测试；③交叉验证测试法(cross validation test)，随机选取一半的数据做训练，剩下一半数据做测试。同时，本发明实验中建立了一个新的更具挑战性的数据集以进一步证明本发明方法的有效性。两个基准数据集：①NTU Hand Digits dataset(NTU-HD)，包含10类手势(数字“1”到“10”)，采集于10个不同的对象，且每个对象针对相同的手势执行10次，共有1000张手势图(彩色图像及其对应的深度图像)；②ASL FingerSpelling dataset(ASL-FS)，包含24类手势(字母“a”到“z”，动态字母手势“j”和“z”除外)，采集于5个不同的对象，共有60000张手势图。新建的数据集为HUST American Sign Language dataset(HUST-ASL)，包含更多的手势在方向、大小和形状变形等方面的变化，并在考虑到实际应用中用户需要更多自由的基础上，放松了基准数据集对于手势必须正对着Kinect传感器的假设条件。它包含34类手势(数字“1”到“10”和字母“a”到“z”，动态字母手势“j”和“z”除外)，采集于10个不同的对象，且每个对象针对相同的手势执行16种不同的姿势，每种姿势都携带着手势在不同方向上不同程度的偏转情况，因此，数据集共有5440张手势图(彩色图像及其对应的深度图像)，同时，数据集是在变化的光照条件和杂乱背景的情况下采集得到的。如图5所示，为本发明新建数据集中手势的方向多样化示意图，图中每列显示了每类手势每个方向上的姿势。

本发明在数据集NTU Hand Digits dataset上，与4种已有的具有代表性手势识别方法进行了对比，表1是本发明方法和用于比较的4种对比方法在该数据集上的平均识别准确率，结果的数值越大表示识别手势越准确，从表中可以看到，本发明方法(即表1中注明的Our Method)在三种不同的测试方法下都达到了最高的识别准确率。

表1不同方法在数据集NTU Hand Digits dataset上的平均识别准确率

本发明在数据集ASL Finger Spelling dataset上，与4种已有的具有代表性手势识别方法进行了对比，表2是本发明方法和用于比较的4种对比方法在该数据集上的平均识别准确率，结果的数值越大表示识别手势越准确，从表中可以看到，本发明方法(即表2中注明的Our Method)在三种不同的测试方法下都达到了最高的识别准确率。

表2不同方法在数据集ASL Finger Spelling dataset上的平均识别准确率

本发明在数据集HUST American Sign Language dataset上，与3种已有的具有代表性手势识别方法进行了对比，表3是本发明方法和用于比较的4种对比方法在该数据集上的平均识别准确率，结果的数值越大表示识别手势越准确，从表中可以看到，本发明方法(即表3中注明的Our Method)在三种不同的测试方法下都达到了最高的识别准确率。

表3不同方法在数据集HUST American Sign Language dataset上的平均识别准确率

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度图像的手势识别方法，其特征在于，所述方法包括下述步骤：

(1)分割出训练图像中的手势区域：

(2)获取手势在三个正交平面上的投影：

(2.1)确定深度手势投影的坐标系统，即确定三个正交平面；

(2.5)从步骤(2.4)获取的三个投影图中切割出包含手势的区域；

(3)计算三个手势深度投影图的轮廓片段包特征：

(4)训练手势分类器：

(5)识别待识别的手势图像：

(5.1)按照步骤(1)检测出待识别深度图像中的手势区域；

(5.2)按照步骤(2)获取待识别手势在三个正交平面上的投影；

(5.3)利用步骤(3)和(4.1)获取待识别手势的特征向量；

2.根据权利要求1所述的基于深度图像的手势识别方法，其特征在于，所述步骤(2.2)具体为：对手势深度图D中任意点A(x,y,z)∈D，它的正视(front view)投影、侧视(side view)投影和顶视(top view)投影分别为

F_f(A)＝F_f((x,y,z))＝(x,y)|_z＝0

F_s(A)＝F_s((x,y,z))＝(z,y)|_x＝0。

F_t(A)＝F_t((x,y,z))＝(x,z)|_y＝0

3.根据权利要求1或2所述的基于深度图像的手势识别方法，其特征在于，所述步骤(2.3)具体为：对三个投影图进行初始化，即map_f∈{0}^M×N,和分别为初始正视投影图、侧视投影图和顶视投影图，其中Z_max是手势的最大深度值，训练图像的分辨率为M×N。

4.根据权利要求3所述的基于深度图像的手势识别方法，其特征在于，所述步骤(2.4)具体为：对于任意的点b(x_f,y_f)∈map_f，若有F_f((x,y,z))＝(x_f,y_f)且z≠0，那么b(x_f,y_f)＝1，从而得到二值的正视投影图map_f∈{0,1}^M×N，同理可以得到二值的侧视投影图和顶视投影图，即和

5.根据权利要求1或2所述的基于深度图像的手势识别方法，其特征在于，所述步骤(3.1)具体为：首先将手势的三个二值深度投影图(DPM，Depth Projection Map)记为DPM_v，其中v∈{f,s,t}为投影视图，然后使用离散轮廓演化方法将每个手势深度投影图的外轮廓分解成有意义的轮廓片段，关于轮廓片段相关定义如下：

②DPM_v的简化多边形的顶点表示为其中T表示关键点的个数；

③对于每一个手势投影图的外轮廓cDPM_v，它的轮廓片段集合表示为C(cDPM_v)＝{c_ij＝(u_i,u_j),i≠j,i,j∈[1,…,T]，}其中c_ij为关键点u_i和u_j之间的轮廓片段，且观察到cDPM_v＝c_ij∪c_ji。

6.根据权利要求5所述的基于深度图像的手势识别方法，其特征在于，所述步骤(3.2)具体为：使用形状上下文描述符来表述每一个轮廓片段，对于同一个轮廓片段，采用多个形状上下文特征拼接成为一个向量x_ij∈R^d×1，它是手势深度投影图DPM_v的基本描述子，其中d是多个形状上下文特征的总维度，即c_ij的特征维度。

7.根据权利要求6所述的基于深度图像的手势识别方法，其特征在于，所述步骤(3.3)具体为：将轮廓片段特征x_ij编码成形状码，将轮廓片段的特征向量映射到一个高维空间B中，这个映射过程是通过一个形状码本B＝[b₁,…,b_M]∈R^d×M实现的，其中M是码本大小，在这个高维空间中，使用局部约束线性编码方法将轮廓片段描述为形状码，得到x_ij的编码结果为w_ij∈R^d×1。

8.根据权利要求5至7任一项所述的基于深度图像的手势识别方法，其特征在于，所述步骤(3.4)具体为：

(3.4.2)对每个区域Region_r,r∈[1,…,21]进行最大化汇聚，即对特征的每一维选取区域中所有特征的最大值，具体地：

定义w^p为在形状位置p上的编码后的轮廓片段，轮廓的位置由其轮廓中间点的位置决定，最大汇聚用公式表达如下：

f(cDPM_v,r)＝max(w^p|p∈Region_r)，

(3.4.3)连接所有区域的特征向量，获取手势深度投影图DPM_v的表示，即得到了三个手势深度投影图的轮廓片段包特征向量，具体地：

手势深度投影图DPM_v的表示f(DPM_v)是所有区域的特征向量的连接：f(DPM_v)＝[f(cDPM_v,1)^T,…,f(cDPM_v,21)^T]^T，即得到了三个手势深度投影图的轮廓片段包特征向量，记为BCF_v,v∈{f,s,t}。

9.根据权利要求1或2所述的基于深度图像的手势识别方法，其特征在于，所述步骤(4.1)具体为：将步骤(3.4.3)中获取的正视投影图、侧视投影图和顶视投影图的轮廓片段包特征向量BCF_v,v∈{f,s,t}级联成原始深度手势的特征向量，记为DPM-BCF，用公式表达如下：

\begin{matrix} DPM - BCF = {[{BCF}_{f}^{T}, {BCF}_{s}^{T}, {BCF}_{t}^{T}]}^{T} \\ = {[f {({DPM}_{f})}^{T}, f {({DPM}_{s})}^{T}, f {({DPM}_{t})}^{T}]}^{T} \end{matrix} .

10.一种基于深度图像的手势识别系统，其特征在于，所述系统包括手势分割模块、手势深度投影图生成模块、手势深度投影图的特征获取模块、手势分类器训练模块以及待识别手势识别模块，其中：