CN103679154A

CN103679154A - 基于深度图像的三维手势动作的识别方法

Info

Publication number: CN103679154A
Application number: CN201310730690.1A
Authority: CN
Inventors: 蒋永实; 秦树鑫
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2014-03-26

Abstract

本发明提供一种基于深度图像的三维手势动作的识别方法，包括：采集含有手势动作的深度图像；通过基于快速模板跟踪和斜面匹配的跟踪定位将手势动作所对应的人体区域从图像中分割出来，得到背景剔除后深度图像序列；针对背景剔除后深度图像，提取各手势动作的有用帧；根据所提取的有用帧，计算手势动作在正视、顶视、侧视三个投影方向上的三视图运动历史图像；提取三视图运动历史图像所对应的方向梯度直方图特征；对所得到的手势动作的组合特征与预先定义的手势动作库中所保存的手势动作模板进行相关性计算，将相关性最大的模板作为当前手势动作的识别结果。由此，本发明能够实现三维手势动作的识别，并且能够应用于简单物体运动过程的识别。

Description

基于深度图像的三维手势动作的识别方法

技术领域

本发明涉及计算机视觉与数字图像处理领域，尤其涉及一种基于深度图像的三维手势动作的识别方法。

背景技术

目前，手势动作的识别技术是近些年来计算机视觉及模式识别领域里的热点研究方向之一，也是该领域中应用广泛的研究点之一。特别是对于三维的手势动作的识别，由于其能够广泛地应用于生产及生活中而受到了世界许多重要研究机构的高度重视，这充分体现了它的研究价值和意义。三维手势动作的识别包括了动态手势和人体动作的识别，并且是在三维空间中的识别。动态手势动作不仅表达了某一时刻身体某个部分的状态，而且包含了整个动作从开始到结束的时序过程，即，包含了时间信息。而三维的手势动作的识别对识别的维度提出了新的要求，要识别出某个动作在三维空间中的状态信息，再加上时间轴，便形成了一个四维的信息。通常，手势动作的识别可以分为两类。一类是将手作为一个点来处理，进而通过手的位置移动轨迹来进行识别；另一类是将手势动作当作传统的动作来识别，即，提取出动作所能引起的全部变化信息来进行识别，而不仅仅是手的位置点。第一类手势动作的识别方法适用于简单的动态手势类型，因为其考虑的仅仅是手的位置信息，所以，无法区分开一些手的位置变化比较接近而手臂变化比较大的手势类型。第二类手势动作的识别方法通常更具有通用性，因为这种类型的识别方法不仅适用于手势动作，而且可以应用于身体的其他动作类型。

关于传统的基于RGB彩色相机的手势动作识别方法，通常采用基于皮肤颜色来确定手的位置，然后根据手的位置变化来进行手势动作的识别，或者是通过背景分割的方法来寻找每一时刻的区域，并通过区域的变化来进行手势动作的识别。这种基于RGB图像的方法一方面容易受光照、复杂背景等因素的影响，另一方面无法区分具有歧义的手势动作类型，比如对称的向前及向后挥手的两个手势对于彩色图像而言，将无法进行区分。因此，为了克服上述缺陷，基于深度图像的手势动作识别方法相继产生。目前的基于深度的手势动作识别方法要么是将手作为一个点来处理，要么需要预先确定身体的骨骼信息，并没有一个快速并且完整的针对手势动作的手势动作识别方法。

此外，现有的识别方法更多的依赖对大量的训练数据进行处理，提取手势动作的特征，采用机器学习和模式分类的方法来进行模板的定义。这种方法往往需要采集大量的样本数据，并且需要人工进行标记，而且识别的精确性很大程度上依赖于样本的数量。这就导致手势动作的识别应用变得复杂，不利于动作模板的扩展等应用。

发明内容

为了解决现有技术存在的问题，本发明提出一种能够快速并且完整的针对三维手势动作的识别方法。

为了实现上述目的，本发明提出一种基于深度图像的三维手势动作的识别方法，深入地探究了三维手势动作的特征提取方法，并且实现了一种基于组合特征相关性的识别方法。

本发明的基于深度图像的三维手势动作的识别方法，包括：

步骤1，采集含有手势动作的深度图像的深度图像序列；

步骤2，运用快速模板跟踪和斜面匹配的跟踪定位，分别对所述深度图像序列的各深度图像进行背景剔除，得到背景被剔除后的背景剔除后深度图像序列；

步骤3，对步骤2中所得到的背景剔除后深度图像序列是否是含有多个手势动作的序列进行判断，在判断为所述背景剔除后深度图像序列是不含有多个手势动作的序列的情况下，对该背景剔除后深度图像序列，提取该手势动作的有用帧，在判断为所述背景剔除后深度图像序列是含有多个手势动作的序列的情况下，对含有多个手势动作的该序列进行分割，对分割得到的仅含有单个手势动作的每一背景剔除后深度图像序列，分别提取各手势动作的有用帧，形成各手势动作序列的有用帧；

步骤4，根据步骤3中所提取的有用帧，计算手势动作在顶视、正视、侧视三个投影方向上的并经过了归一化处理后的三视图运动历史图像；

步骤5：根据步骤4中所得到的所述三视图运动历史图像，计算与该三视图运动历史图像相应的三视图金字塔方向梯度直方图向量，并将该三视图金字塔方向梯度直方图向量与所述三视图运动历史图像共同组成手势动作的组合特征；和

步骤6：对步骤5中所得到的手势动作的组合特征与预先定义的手势动作库中所保存的手势动作模板进行相关性计算，将相关性最大的模板作为当前手势动作的识别结果。

发明效果

1）本发明通过采用深度图像来进行三维手势动作的识别，利用图像深度信息来定义动作的特征，并结合方向梯度直方图，相比于传统的识别法能够很好的消除歧义，并且能够实现更好的识别率。

2）另外，本发明采用了基于图像相似性及连续图像相关性的方法进行动作的分割和有用帧的提取，使得整个识别过程更加精确。

3）而且，本发明不仅适用于简单手势动作的识别，同时可以应用于简单三维物体运动的识别。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

附图说明

图1是表示依照本发明实施例的基于深度图像的三维手势动作的识别方法的流程图。

图2是表示对本发明实施例的深度图像进行背景剔除来得到背景剔除后深度图像的示意图。

图3是依照本发明实施例的深度图像向三个正交方向投影得到的二值图像示意图。

图4是表示依照本发明实施例的基于深度图像的三视图运动历史图像的展示图。

具体实施方式

本发明提出了一种基于深度图像的三维手势动作的识别方法。以下，参照附图对本发明进行说明。

图1为表示依照本发明实施例的基于深度图像的三维手势动作的识别方法的流程图。

如图1所示，基于深度图像的三维手势动作的识别方法包括进行以下的步骤。

步骤1：采集含有手势动作的深度图像的深度图像序列。

即，通过摄像机获得含有手势动作的深度图像的深度图像序列。本发明并不限于从摄像机中获得深度图像，也可以是存储器中已保存的深度图像。

步骤2：背景剔除。

在该步骤中，运用快速模板跟踪和斜面匹配的跟踪定位，分别对深度图像序列的各深度图像进行背景剔除，得到背景被剔除后的背景剔除后深度图像序列。

如图2所示，针对包含手势动作的深度图像序列，对深度图像序列的每一帧进行背景剔除，使得该深度图像中仅留下表示某一时刻手势动作的人体区域。

具体而言，采用快速模板跟踪和斜面匹配的跟踪定位方法。首先，定义头部跟踪模板，该头部跟踪模板定义的头部尺寸大小能够随着深度图像中待匹配区域的深度的变化而进行动态变化，使得模板大小能够真实反应出某一深度条件下的人体头部尺寸。

然后，进行斜面匹配，分别对头部跟踪模板和搜索图像做边缘检测，这里采用Canny算法进行边缘检测，最后通过滑动窗口的方法计算与头部跟踪模板之间的斜面距离，并将斜面距离为最小值的滑动窗口选择为头部区域的检测结果。

在此，为了提高匹配的速度，在前一次跟踪的基础上，通过对头部矩形在四个方向上进行放大，形成新的搜索区域，这样便能在很大程度上提高跟踪的效率。并且，由于进行了搜索区域的限制，因此，能够提高跟踪的稳定性。接下来，采用传统的区域增长的方法，确定人体区域，从而将人体区域以外的深度图像的部分作为背景进行背景剔除。

步骤3：有用帧（有用信息）提取。

一个手势动作序列中，往往含有一些帧序列几乎没有提供任何与动作表达相关的信息，在此，将提供了与手势动作表达相关的信息的帧称为“有用帧”，将没有提供任何与手势动作表达相关的信息的帧称为“无用帧”。

这些无用帧的存在有两个负面影响，即：第一，影响该动作的运动历史图像，使得其运动历史图像的部分区域灰度值变小；第二，由于多余的无用帧将使得整个动作序列的长度变大，从而影响识别的性能。

在此，通过计算连续帧的对应图像的差异来获得无用帧。将大小为m×n的深度图像序列中的第t帧深度图像定义为D(t)，将表示动作序列的深度图像序列（设其总长度为T）的第t帧深度图像与其前一帧（第t-1帧）的深度图像之间的差异大小定义为Q(t)，其可通过如下公式计算得到：

Q (t) = Σ_{i = 0}^{m} Σ_{j = 0}^{n} {(D_{i, j} (t) - D_{i, j} (t - 1))}^{2}, 1 \leq t \leq T - 1

将Q(t)归一化为Q_n(t)，域值定义为0.1，即当Q_n(t)的值小于0.1时，将该帧判定是没有提供与手势动作表达相关信息的无用帧，剔除这些无用帧，使其不被包含在该动作序列中。

步骤4：提取三视图运动历史图像的特征。

图3是将本发明实施例的深度图像向三个正交的投影方向进行投影所得到的二值图像示意图。

如图3所示那样，针对包含手势动作的深度图像序列中的所有的有用帧，分别进行三个投影方向上的正交投影，形成三个向视图（即，顶视图、正视图、侧视图）的二值图像，得到二值轮廓区域图像。针对每个投影方向上的多个二值图像，制作其相应的运动历史图像，并将时间信息添加到深度图像中。

具体而言，将一个动作的所有的有用帧的二值轮廓区域图像按照时间顺序依次映射到同一幅图像中，来生成运动历史图像，所以，运动历史图像同时捕获了一个动作序列的时间及空间信息。对于三个投影方向上的投影视图，分别计算得到其运动历史图像。

在此，定义I=(I₁,I₂,...,I_n′)为其中一个投影方向上投影的二值图像的序列，n′为总的帧数，并定义B为另外一个投影方向上投影的二值图像的序列，用来表示运动的区域，其中，B_t通过下述公式的对连续的两个帧的二值图像所进行比较而求得，该公式为：

B_{t} = \{\begin{matrix} 1 & if I_{t} > I_{t - 1}, \\ 0 & otherwise . \end{matrix}

在此，t表示当前帧的帧数，并且满足0<t<n′，

由此，该公式求得的B_t表示了某一时刻的动作区域相对于上一时刻的动作区域新增的区域，用来表示动作移动的区域变化。

接下来，通过下述式给不同时刻的运动区域赋予不同的灰度值的方法来计算得到的运动历史图像H(t,τ)。其计算方法如下：

H (t, τ) = \{\begin{matrix} τ & if B_{t} = 1, \\ \max (0, H (t - 1, τ)) - δ & otherwise . \end{matrix}

其中，τ是灰度值相关的参数，用来决定整个动作序列中的动作变化区域的最大灰度值，δ是衰减因子，用来表示前一帧的动作变化区域与当前帧的区域相比减少的灰度值。τ=255和δ=5是一组比较合理的参数设置。但本发明并不限于此，也可以为其他的值。

图4是表示依照本发明实施例的基于深度图像的三视图运动历史图像的展示图。图4示出了通过上述方法生成的三视图运动历史图像。

另外，为了使得该方法满足平移和缩放不变性，采用归一化的方法将生成的三视图运动历史图像分别进行归一化处理。具体的归一化方法为，针对第一个视图的运动历史图像，选择一个ROI（Region ofInterest），该区域包含深度图像中所有的非零点，是运动历史图像中包含全部人体区域的最小矩形，然后，对该区域进行缩放，使得该区域覆盖整个原始图像，生成归一化的运动历史图像。

步骤5：计算金字塔方向梯度直方图的特征。

根据步骤4中所得到的三视图运动历史图像，计算与该三视图运动历史图像相应的三视图金字塔方向梯度直方图向量，并将该三视图金字塔方向梯度直方图向量与所述三视图运动历史图像共同组成手势动作的组合特征，

具体而言，采用传统的金字塔方向梯度直方图计算方法。采用8个直方图通道来进行向量统计，针对不同金字塔层次，计算对应的方向梯度直方图向量，最终，将多个层次的向量连接成一个新的向量作为金字塔方向梯度直方图的特征。这里，取层数为3，生成的向量长度为680的向量，计算三个视图的直方图特征，形成三个等长度的向量。

接下来，将三视图运动历史图像特征与方向梯度直方图特征相结合，形成该手势动作的组合特征空间。

关于手势动作库中所保存的预先定义的手势动作模板，可基于上述步骤1至4来获得。

另外，在手势识别过程中，针对上述步骤3，也可以包括对多个手势动作进行分割的步骤。

在识别过程中，经常出现多个动作连续发生的情况，这就要求对动作进行分割。在此，对已经进行了背景剔除后的深度图像序列进行分割处理。

具体而言，针对连续多个手势动作在时间序列上的分割，采用基于表征的方法。通常情况下，两个相邻的手势动作之间都会存在一个间歇时间点。将这个时间点叫做连续动作之间的切换帧，接下来要考虑的是如何寻找这些切换帧。通常情况下，手势动作的开始前与结束后都会有一个准备状态，而这些准备状态具有相似的特征，利用这个特征，可以寻找两个动作之间的准备状态，进而寻找出对应的切换帧。

具体而言，假定图像序列的第一帧是准备状态帧，将大小为m×n的图像序列中的第t帧深度图像定义为D_x,y(t)，针对每一个深度图像，计算出切换值S(t)，该切换值S(t)用来定量分析该帧与准备状态帧之间的差距。具体的计算方法为：

S (t) = Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} {(D_{i, j} (t) - D_{i, j} (0))}^{2}, 1 \leq t \leq T - 1,

其中，m和n分别为运动历史图像的总行数和总列数，i和j分别表示像素点的坐标，T为图像序列的总长度。然后将S(t)归一化为S_n(t)，分析连续的手势动作的帧序列的S_n(t)值相对于t的变化曲线，选择每个波谷位置的一个点作为切换帧。通过该方法能够将多个手势动作区分开，之后分别进行各手势动作的识别。

步骤6：手势动作的识别。

在步骤6中，对步骤5中所得到的手势动作的组合特征与预先定义的手势动作库中所保存的手势动作模板进行相关性计算，将相关性最大的模板作为当前手势动作的识别结果。

即，通过步骤5，获取当前动作的组合特征信息。该组合特征信息包括三视图运动历史图像和三视图方向梯度直方图向量。最后将该组合特征分别与手势动作的模板进行相关性计算，选择相关性最高的模板作为识别的结果。

具体来说，分别计算运动历史图像之间的相关性和直方图向量之间的相关性。

首先，将运动历史图像之间的相关系数作为判断两个运动历史图像相似度的依据。定义两个运动历史图像A和B，并将它们的相关系数r定义为：

r = \frac{Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} (A_{i, j} - \overset{&OverBar;}{A}) (B_{i, j} - \overset{&OverBar;}{B})}{\sqrt{Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} {(A_{i, j} - \overset{&OverBar;}{A})}^{2}} \sqrt{Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} {(B_{i, j} - \overset{&OverBar;}{B})}^{2}}},

其中，m和n分别为运动历史图像的行数和列数，A_i,j和B_i,j分别为运动历史图像A和运动历史图像B在坐标(i,j)处的像素点的值，和

分别为运动历史图像A和运动历史图像B的所有像素点的平均值。这样当r越大时，运动历史图像A和运动历史图像B的相似度就越高。通过两个运动历史图像的相似度计算方法之后，两个三视图运动历史图像特征之间的相似度由如下公式计算：

r_3VMHI=α×r_front+β×r_top+γ×r_side,

其中，r_front、r_top和r_side分别为两个对应的运动历史图像之间的在正视、顶视、侧视三个投影方向上的相似度，α、β和γ是权重因子，并且满足α+β+γ=1。这里，作为示例，设置α=0.4、β=0.3和γ=0.3。

另外，采用向量相关系数来衡量两个向量的相似度。定义两个方向梯度直方图向量U和两个方向梯度直方图向量V，则它们之间的相关系数c定义如下：

c = \frac{Σ_{k = 0}^{l} (U_{k} - \overset{&OverBar;}{U}) (V_{k} - \overset{&OverBar;}{V})}{\sqrt{Σ_{k = 0}^{l} {(U_{k} - \overset{&OverBar;}{U})}^{2}} \sqrt{Σ_{k = 0}^{l} {(V_{k} - \overset{&OverBar;}{V})}^{2}}},

其中，l是方向梯度直方图向量的长度，U_k和V_k分别表示方向梯度直方图向量U和两个方向梯度直方图向量V在位置k处的值，

和

分别表示方向梯度直方图向量U和两个方向梯度直方图向量V的平均值。同样的，两个手势动作的方向梯度直方图向量的相似度c_PHOG由三个相似度的加权和来表示，c_PHOG由如下公式计算：

c_PHOG=α×c_front+β×c_top+γ×c_side,

其中，c_front、c_top和c_side为分别为手势动作的方向梯度直方图的在正视、顶视、侧视三个投影方向上的相似度，并且采用与运动历史图像特征相似度计算中相同的权重因子α、β和γ。最后，将手势动作的两个特征相似度求加权和，得到最终的两个手势动作的相似度y：

y=ε×r_3VMHI+δ×c_PHOG,

这里，ε和δ分别为权重因子，实验中，我们设置ε=0.5和δ=0.5。通过采用上述动作相似度测量方法，分别与手势动作模板依次进行比较，选择相似度最高的动作模板作为识别结果。

根据本发明的方法，本发明通过采用深度图像来进行三维手势动作的识别，利用图像深度信息来定义动作的特征，并结合方向梯度直方图，相比于传统的识别法能够很好的消除歧义，并且能够实现更好的识别率。

另外，本发明采用了基于图像相似性及连续图像相关性的方法进行动作的分割和有用帧的提取，使得整个识别过程更加精确。

而且，本发明不仅适用于简单手势动作的识别，同时可以应用于简单三维物体运动的识别。

上面描述是用于实现本发明及其实施例，本发明的范围不应由该描述来限定，本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1.一种基于深度图像的三维手势动作的识别方法，包括：

步骤1，采集含有手势动作的深度图像的深度图像序列；

步骤3，对所述步骤2中所得到的背景剔除后深度图像序列是否是含有多个手势动作的序列进行判断，在判断为所述背景剔除后深度图像序列是不含有多个手势动作的序列的情况下，对背景剔除后的深度图像序列，提取该手势动作的有用帧，在判断为所述背景剔除后深度图像序列是含有多个手势动作的序列的情况下，对含有多个手势动作的该序列进行分割，对分割得到的仅含有单个手势动作的每一背景剔除后深度图像序列，分别提取各手势动作的有用帧，形成各手势动作序列的有用帧；

步骤4，根据步骤3中所提取的各手势动作序列的有用帧，计算手势动作在正视、顶视、侧视三个投影方向上的并经过了归一化处理后的三视图运动历史图像；

步骤6：对步骤5中所得到的手势动作的组合特征与手势动作库中所保存的预先定义的手势动作模板进行相关性计算，将相关性最大的模板作为当前手势动作的识别结果。

2.如权利要求1所述的基于深度图像的三维手势动作的识别方法，其特征在于，

所述步骤2包括：

步骤2-1，定义尺寸大小随深度图像中的待匹配区域的深度变化而变化的人体头部跟踪模板，使得人体头部跟踪模板大小能够真实反应某一深度条件下的人体头部尺寸；

步骤2-2，根据斜面匹配，通过利用滑动窗口，计算该滑动窗口与人体头部跟踪模板之间的斜面距离，并将斜面距离为最小值的滑动窗口选择为头部区域的检测结果；和

步骤2-3，通过区域增长方法来确定人体区域，进而将人体区域以外的部分作为背景进行背景剔除。

3.如权利要求1或2所述的基于深度图像的三维手势动作的识别方法，其特征在于，

所述步骤3的进行对含有多个手势动作的该背景剔除后深度图像序列进行分割的动作分割处理中，将所述背景剔除后深度图像序列的第一帧设为准备状态帧，将大小为m×n的所述背景剔除后深度图像序列中的第t帧背景剔除后深度图像定义为D(t)，针对每一帧的所述背景剔除后深度图像，分别计算切换值S(t)，该切换值S(t)用来定量分析该帧与准备状态帧之间的差距，其中，该切换值S(t)的计算通过下述公式来获得，即，

S (t) = Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} {(D_{i, j} (t) - D_{i, j} (0))}^{2}, 1 \leq t \leq T - 1,

其中，m和n分别为运动历史图像的总行数和总列数，i和j分别表示像素点的坐标，T为所述背景剔除后深度图像序列的总长度，将S(t)归一化为S_n(t)，分析多个连续的手势动作的背景剔除后深度图像序列所对应的帧序列的S_n(t)值相对于t的变化曲线，将每个波谷位置所对应的帧作为切换帧，

从而将多个手势动作分割开，接下来，对所述多个手势动作分别进行手势动作的识别。

4.如权利要求1或2所述的基于深度图像的三维手势动作的识别方法，其特征在于，

步骤3的进行提取各手势动作的有用帧的手势动作有用帧提取处理中，将大小为m×n的所述背景剔除后深度图像序列中的第t帧深度图像定义为D(t)，将该背景剔除后深度图像序列的第t帧背景剔除后图像与其前一帧即第t-1帧的背景剔除后图像之间的差异大小定义为Q(t)，并通过如下公式计算出Q(t)，即，

Q (t) = Σ_{i = 0}^{m} Σ_{j = 0}^{n} {(D_{i, j} (t) - D_{i, j} (t - 1))}^{2}, 1 \leq t \leq T - 1

其中，m和n分别为运动历史图像的总行数和总列数，i和j分别表示像素点的坐标，T为所述背景剔除后深度图像序列的总长度，将Q(t)归一化为Q_n(t)，当Q_n(t)的值小于规定的域值时，将所述第t帧背景剔除后图像设为无用帧的信息，并使所述第t帧背景剔除后图像的帧不被包含在作为该手势动作序列的背景剔除后图像序列中。

5.如权利要求1或2所述的基于深度图像的三维手势动作的识别方法，其特征在于，

所述步骤4包括：

步骤4-1，针对手势动作的背景剔除后深度图像序列的所有的有用帧，进行三个正交的投影方向上的正交投影，分别形成二值图像的三个视图；和

步骤4-2：针对每个投影方向上的二值图像，采用下述方法来分别计算出各个投影方向的动作历史图像，

该方法包括：

步骤4-2-1，定义I=(I₁,I₂,...,I_n′)为其中一个投影方向上投影的二值图像的序列，I_t表示第t帧的二值图像，n′为总的帧数，并定义B=(B₁,B₂...,B_n′)为另外一个在该投影方向上投影的二值图像的序列，用来表示运动的区域，

其中，B_t通过下述公式对连续的两个帧的二值图像进行比较而求得，该公式为：

B_{t} = \{\begin{matrix} 1 & if I_{t} > I_{t - 1}, \\ 0 & otherwise . \end{matrix}

其中，t表示当前帧的帧数，并且满足0<t<n′，

由此，该公式求得的B_t表示了某一时刻的动作区域相对于上一时刻的动作区域新增的区域，用来表示动作移动的区域变化；和

步骤4-2-2，通过下述式给不同时刻的运动区域赋予不同的灰度值来计算得到的运动历史图像H(t,τ)，该式为：

H (t, τ) = \{\begin{matrix} τ & if B_{t} = 1, \\ \max (0, H (t - 1, τ)) - δ & otherwise . \end{matrix}

其中，τ是灰度值相关的参数，用来决定整个动作序列中的动作变化区域的最大灰度值，δ是衰减因子，用来表示前一帧的动作变化区域与当前帧的区域相比减少的灰度值。

6.如权利要求1或2所述的基于深度图像的三维手势动作的识别方法，其特征在于，

所述步骤5中，通过对三个投影方向上的每一个运动历史图像，计算与该运动历史图像对应的金字塔方向梯度直方图向量，形成三个投影方向的三视图金字塔方向梯度直方图向量，来进行方向梯度直方图向量的计算。

7.如权利要求1或2所述的基于深度图像的三维手势动作的识别方法，其特征在于，

所述步骤6中，根据当前的手势动作的组合特征和预定义的手势动作模板的组合特征之间的相关性来确定与当前的手势动作最为接近的手势动作模板，将与当前的手势动作最为接近的手势动作模板所对应的手势动作作为最终的识别结果。

8.如权利要求7所述的基于深度图像的三维手势动作的识别方法，其特征在于，

所述步骤6包括：

步骤6-1，计算运动历史图像之间的相关性，将运动历史图像之间的相关系数作为判断两个运动历史图像相似度的依据，定义两个运动历史图像A和B，它们的相关系数r定义为：

r = \frac{Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} (A_{i, j} - \overset{&OverBar;}{A}) (B_{i, j} - \overset{&OverBar;}{B})}{\sqrt{Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} {(A_{i, j} - \overset{&OverBar;}{A})}^{2}} \sqrt{Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} {(B_{i, j} - \overset{&OverBar;}{B})}^{2}}},

其中，m和n分别为运动历史图像的行数和列数，A_i,j和B_i,j分别为运动历史图像A和运动历史图像B在坐标(i,j)处的像素点的值，

和

分别为运动历史图像A和B的所有像素点的平均值，当r越大时，运动历史图像A和B的相似度越高，

并且，在进行了两个运动历史图像的相似度计算之后，通过如下公式计算两个三视图运动历史图像的特征之间的相似度：

r_3VMHI=α×r_front+β×r_top+γ×r_side,

其中，r_front、r_top和r_side分别为两个对应的运动历史图像之间的在正视、顶视、侧视三个投影方向上的运动历史图像特征的相似度，α、β和γ分别是权重因子，并且满足α+β+γ=1；和

步骤6-2，计算方向梯度直方图向量之间的相关性，采用向量相关系数来衡量两个方向梯度直方图向量的相似度，定义两个方向梯度直方图向量U和V，则它们之间的相关系数c定义如下：

c = \frac{Σ_{k = 0}^{l} (U_{k} - \overset{&OverBar;}{U}) (V_{k} - \overset{&OverBar;}{V})}{\sqrt{Σ_{k = 0}^{l} {(U_{k} - \overset{&OverBar;}{U})}^{2}} \sqrt{Σ_{k = 0}^{l} {(V_{k} - \overset{&OverBar;}{V})}^{2}}},

其中，l是向量的长度，U_k和V_k分别表示方向梯度直方图向量U和V在位置k处的值，

和

分别表示方向梯度直方图向量U和V的平均值，

同样的，两个手势动作的方向梯度直方图向量特征的相似度c_PHOG由三个相似度的加权和来表示，c_PHOG由如下公式计算：

c_PHOG=α×c_front+β×c_top+γ×c_side,

其中，c_front、c_top和c_side分别为手势动作的方向梯度直方图的在正视、顶视、侧视三个投影方向上的三个向量的相似度，并且采用与运动历史图像特征的相似度计算中相同的权重因子α、β和γ；和

步骤6-3：将所述步骤6-1所得到的运动历史图像特征的相似度以及所述步骤6-2所得到的方向梯度直方图向量特征的相似度进行求加权和，得到两个手势动作的相似度y：

y=ε×r_3VMHI+δ×c_PHOG,

其中，ε和δ为两个权重因子。