CN104182772B

CN104182772B - 一种基于深度学习的手势识别方法

Info

Publication number: CN104182772B
Application number: CN201410409005.XA
Authority: CN
Inventors: 陈喆; 殷福亮; 刘奇琴
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2014-08-19
Filing date: 2014-08-19
Publication date: 2017-10-24
Anticipated expiration: 2034-08-19
Also published as: CN104182772A

Abstract

本发明公开了一种基于深度学习的手势识别方法，包括以下步骤：对采集到的手势图像进行降噪处理、消除手势图像中的色彩偏移现象；采用帧间差分方法和颜色特征检测方法锁定手势在图像中的所在区域，采用CamShift算法对手势进行跟踪，获取手势目标；对手势目标图像进行深度学习；将获取的待识别手势图像输入训练后的深度信念网络模型中，完成手势的识别分类。

Description

一种基于深度学习的手势识别方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于深度学习的手势识别方法。

背景技术

手势是一种自然、直观、简洁的人机交互方式。手势识别是根据计算机摄取的视频图像，用图像处理、模式识别等技术，识别与理解图像中的特定手势及其含义，完成计算机、家用电器等的操作与控制。手势识别技术在人机交互、移动终端、信息家电、娱乐游戏等领域具有广泛应用。在通常的手势识别系统中，在进行识别分类前，要经过手势特征提取这个环节，由于手势特征的提取要满足旋转、平移和尺度不变性的特点，因此所选用的特征非常有限，这也限制了手势识别系统的识别准确率。同时由于传统手势识别中所用的分类器，例如支持向量机(SVM)、Boosting、Logistic回归等，这些模型的结构基本上可以看成只含有一个隐含层，或者是没有隐含层，这些模型属于浅层学习模型，对数据的学习能力和认知能力都有限。

董立峰在文献《基于Hu矩和支持向量机的静态手势识别及应用》中提出了选用Hu矩作为待识别手势的特征，Hu矩具有不随图像旋转、平移和尺度变化而改变的特性；然后在手势识别阶段，使用支持向量机对手势进行分类，对10种不同的静态手势进行识别，识别正确率可达93％，但是该方法具有以下缺陷：1、需要提取手势特征做为分类器的输入，在选择特征时有较大的局限性；2、选取的特征比较单一，影响手势分类识别效果；3、支持向量机属于浅层的学习机，相比深度学习这种深层次的分类器，其分类效果相对较差；4、针对10种不同的手势，其识别率还不高，有待提升。

张中甫在文献《基于深度信息的手势识别研究及应用》中通过使用微软公司的3D体感摄像Kinect设备来获取图像的深度信息，根据手势深度信息来分割图像中的手势，然后用粒子滤波算法对手势进行跟踪与识别。该方法具有以下缺陷：1、用特殊的视频输入设备来获取手势图像及其深度信息，此种设备价格相对较贵，成本较高；2、计算手势深度信息的算法比较复杂，计算复杂度较高，耗时较长。

发明内容

根据现有技术存在的问题，本发明公开了一种基于深度学习的手势识别方法，具体包括以下步骤：

S1：对采集到的手势图像采用中值滤波方法对图像进行降噪处理，采用灰度世界色彩均衡方法消除手势图像中的色彩偏移现象；

S2：采用帧间差分方法和颜色特征检测法锁定手势在图像中的所在区域，采用CamShift算法对手势进行跟踪；

S3：对手势图像进行基于YCgCr色彩空间的二维高斯建模和手势图像的二值化处理：对手势图像进行灰度直方图统计，从统计的图像灰度直方图中，根据某灰度值出现的概率密度获取手势目标；

S4：对S3中手势目标图像进行深度学习：将手势目标图像的数据信息构造成数据立方体的形式，建立深度信念网络模型，将含有手势信息的数据立方体形式的目标图像数据，输入深度信念网络模型，进行逐层训练和微调，获取整个深度信念网络连接权值和偏置参数；

S5：将获取的待识别手势图像按照步骤S1、S2和S3处理后，构造成数据立方体的形式，并输入S4中训练完成的深度信念网络模型，完成手势的识别分类。

由于采用了上述技术方案，本发明提供的基于深度学习的手势识别方法不需要传统手势识别系统的手势特征提取模块，可解决手势特征选取的难题；将手势的二值图像作为深度学习网络的输入，这比输入灰度图像的算法显著地降低了计算量，大幅度节省了图像训练时间；通过在YCgCr色彩空间内对手势进行高斯建模，可使手势图像分割效果好，获得良好的手势二值图像，能提高系统识别准确率；采用肤色与帧间差分相结合的方法进行手势检测，能快速准确地获取手势所在位置，提高手势检测效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明手势识别方法的流程图；

图2为本发明中采用CamShift跟踪算法对手势进行跟踪的流程图；

图3为本发明中手势图像数据整合为二维矩阵的示意图；

图4为本发明中手势图像数据立方体的示意图；

图5为本发明中深度信念网络模型的结构示意图；

图6为本发明中训练深度信念网络模型的流程图；

图7为本发明中三层深度信念网络模型的结构示意图；

图8为本发明中Gibbs采样过程的示意图；

图9为本发明中实施例中15种手势的示意图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示，一种基于深度学习的手势识别方法，具体包括以下步骤：

采用中值滤波方法对手势图像进行降噪处理时，采用中值滤波器对图像进行滤波，设图像中点(i,j)处像素的红、绿、蓝分量分别为R(i,j)、G(i,j)、B(i,j)，中值滤波器的窗口大小为W₁×W₁，该区域像素共W₁×W₁个，将这W₁×W₁个像素按照由小到大排序，则中值滤波的结果为排序后序列中第(W₁×W₁-1)/2像素数据。

W₁＝3,5,7,9，…，以红色分量R(i,j)为例，其中值滤波过程为

选取W₁×W₁个邻域像素，即

R(i-(W₁-1)/2,j-(W₁-1)/2),R(i-(W₁-1)/2+1,j-(W₁-1)/2),…,R(i+(W₁-1)/2,j-(W₁-1)/2),

R(i-(W₁-1)/2,j-(W₁-1)/2+1),R(i-(W₁-1)/2+1,j-(W₁-1)/2+1),…,R(i+(W₁-1)/2,j-(W₁-1)/2+1),

……,

R(i-(W₁-1)/2,j+(W₁-1)/2),R(i-(W₁-1)/2+1,j+(W₁-1)/2),…,R(i+(W₁-1)/2,j+(W₁-1)/2)

用同样的方式，对绿分量、蓝分量进行中值滤波。本发明中，W₁取值为3。

进一步地，采用灰度世界色彩均衡方法消除手势图像中的色彩偏移现象，具体采用如下方式：分别计算中值滤波后图像的红、绿、蓝分量的和R_s、G_s、B_s：

R_s＝∑全部像素的红色分量 (1)

G_s＝∑全部像素的绿色分量 (2)

B_s＝∑全部像素的蓝色分量 (3)

计算红、绿、蓝各颜色分量的均衡调整参数α_R,、α_G、α_B和归一化参数norm：

α_R＝G_s/R_s (4)

α_G＝1 (5)

α_B＝G_s/B_s (6)

norm＝max(α_R,1,α_B) (7)

其中，max(x,y,z)表示计算x、y、z三个数中最大值，通过所得的彩色均衡调整参数来调整各个像素的颜色分量：

调整后红色分量值＝调整前红色分量值×α_R/norm (8)

调整前绿色分量值＝调整前绿色分量值/norm (9)

调整后蓝色分量值＝调整前蓝色分量值×α_B/norm (10)

再将各个颜色分量值按照同一比例，调整到0-255之间。

灰度世界色彩均衡方法基于“灰度世界假设”。该假设认为，对于一幅有着大量色彩变化的图像，R、G、B三个分量各自的平均值趋于同一个灰度值。在客观世界中,一般来说，物体及其周围环境的色彩变化是随机且独立无关的,因此这一假设是合理的。该方法的基本思想是:首先通过图像R、G、B三个分量各自的平均值R_avg，G_avg和B_avg，计算出图像的平均灰度值Gray_avg,然后调整每个像素的R、G、B值,使得调整后图像的R、G、B三个分量各自的平均值都趋于平均灰度值Gray_avg。

S2：采用帧间差分方法和颜色特征检测方法，锁定手势在图像中的所在区域，采用CamShift算法对手势进行跟踪。

采用帧间差分方法锁定手势在图像中的所在区域，具体采用如下方式：利用视频序列中相邻帧的差来获取运动手势目标的所在区域，设I_k(x,y)表示第k帧的图像，用D_k(x,y)表示帧差，T₀表示二值化阈值，则差分图像F_k(x,y)采用下式计算：

D_k(x,y)＝|I_k(x,y)-I_k-1(x,y)| (11)

所述颜色特征检测方法是采用肤色信息来检测手势：将手势图像由RGB彩色空间转换到HSI彩色空间，采用如下转换方法：

其中：H为色调分量，S为饱和度分量，I为亮度分量。

如图2所示：采用CamShift算法对手势的颜色进行跟踪：首先将手势目标的颜色直方图转换为颜色概率分布图，初始化搜索窗的大小和位置，并根据上一帧得到的结果自适应地调整搜索窗口的位置和大小，从而定位出当前图像中手势目标的中心位置，具体采用如下步骤：

S21：将图像从RGB空间转换到HSI空间后，根据图像的色调分量H计算颜色直方图Hist(k)；

Hist(k)＝n_k/N，k＝0,1,…,M-1 (17)

其中：k表示颜色灰度特征范围取值，M为颜色可取值个数，n_k为图像中具有特征值k的像素个数，N为图像像素总数。将图像中的像素值用其颜色出现的概率替换，获得颜色概率分布图；

S22采用MeanShift算法通过迭代寻优方式，找到概率分布的极值来定位手势目标，具体算法过程：a、在上述颜色概率分布图中，获取色调H范围的搜索窗口W；b、计算搜索框内的零阶矩M₀₀、一阶矩M₀₁和M₁₀，从而得到窗口的质心x_c,y_c，即：

x_c＝M₁₀/M₀₀ (21)

y_c＝M₀₁/M₀₀ (22)

c、调整搜索框大小，其宽度为长度为1.2s；d、将搜索框中心移到质心处，如果移动的距离大于设定的阈值，则重复上述步骤b和c，直到搜索窗的中心与质心间的移动距离小于设定的阈值，或者循环次数达到最大值，此时停止运算，不再移动窗口。

S23：将MeanShift算法扩展到连续图像序列，就是camshift算法。它将视频的所有帧做MeanShift运算，并将上一帧的结果，即搜索窗的大小和中心，作为下一帧MeanShift算法搜索窗的初始值。如此迭代下去，就可以实现对目标的跟踪。a、根据手势检测结果，初始化搜索窗口W；b、根据颜色直方图进行反向投影，获取搜索框的颜色概率分布；c、使用MeanShift算法，更新搜索框的中心位置和大小，对下一帧图像序列，使用上一帧的搜索框位置和大小；d、重复步骤b和c。

S3：对手势图像进行基于YCgCr空间的二维高斯建模和手势图像的二值化处理：对手势图像进行灰度直方图统计，从统计的图像灰度直方图中，根据某灰度值出现的概率密度获取手势目标。

所述对手势图像进行基于YCgCr空间的二维高斯建模，具体采用如下方式：

YCgCr空间中模型参数的计算方法：

颜色空间分量C_g、C_r为x：

x＝[C_g,C_r]^T (23)

其均值为M：

M＝E(x) (24)

协方差C为：

C＝E[(x-M)(x-M)^T] (25)

基于YCgCr空间的高斯建模具体采用如下方式：将手势图像从RGB空间转换到YCgCr空间：

利用二维高斯分布对手势图像进行建模：首先利用式(26)计算手势图像的肤色概率：

其中，M和C分别表示均值和协方差，其值分别为：

M＝(156.5599,117.4361)^T (28)

其中：P(C_g,C_r)表示该像素点属于肤色的概率，P(C_g,C_r)越大，说明此像素点为肤色的概率越大，反之则越小；将所得的图像概率进行均值滤波，将像素值调整到0～255，从而获得肤色似然图像，分割出手势区域。

所述手势图像的二值化处理具体采用以下方式：

通过上述分割出手势区域，得到肤色灰度图像{gray_ij,(i,j)∈I²}，用{binary_ij,(i,j)∈I²}表示输出二值图像，则自适应阈值二值化的过程为：

a、统计图像中灰度值的个数{count(m),m∈[0,255]}，

b、通过式(30)计算每个灰度值的比例{ratio(m),m∈[0,255]}：

Pro(m)＝Count(m)/num m∈[0,255] (30)

其中：num为图像像素的总个数；

C、分别通过式(31)～(34)计算每个灰度级的背景部分概率和W_bk(m)、前景部分概率和W_fr(m)、背景部分一阶矩M_bk(m)和前景部分一阶矩M_fr(m)：

用式(35)计算前景图像与背景图像之间的差异函数：

通过差异函数最大化来确定图像二值化的阈值T；

d、根据步骤c所得的结果，对手势图像进行二值化，即

S4：对S3中手势目标图像进行深度学习：将手势目标图像的数据构造成数据立方体的形式，建立深度信念网络模型，将含有手势信息的数据立方体形式的目标图像数据输入深度信念网络模型进行逐层训练和微调，得到整个深度信念网络连接权值和偏置参数。

经过上面的三个步骤，得到手势的二值图像，下面需要将这些二值图像进行整合。将获取的手势二值图像全都划分成大小为n×n的图像，然后将其变为(n×n)×1大小，这样就将一张图像的像素看作是个一维的特征向量，将所有的手势图像整合成二维矩阵的形式，如图3所示。将手势图像整合为二维矩阵之后，在输入到深度信念网络模型之前，为了方便系统对大批量数据的处理，还需要构造数据立方体，图4为构建的数据立方体示意图。

深度信念网络是个由多层的受限玻尔兹曼机组成的概率生成模型。深度信念网络含有多个隐含层h，每层的输入都是前一层的输出，因此各层之间都有高度的关联性。深度信念网络的结构图如图5所示。

如图6、图7所示：受限玻尔兹曼机是个基于能量的生成形模型，它由一个输入层和一个隐含层构成，层内无连接，层间全连接，其中v为可见层，h为隐含层。对于给定可见层单元v和隐含层单元h，给定一个能量函数，联合概率分布可以表示为：

其中

用概率分布函数和能量函数来描述深度信念网络。实际上，将这两个函数结合起来，概率分布函数可以表示为能量函数的泛函，因此深度信念网络的联合分布函数如下：

其中θ＝{a_i,b_j,w_ij}为深度信念网络的参数，其中a_i为可见层节点i的偏置，b_j为隐含层节点j的偏置，w_ij为可见层节点i与隐含层节点j连接的权重。当给定输入节点时，隐含层第j个节点被激活的概率为：

式中σ(·)是sigmoid激活函数，其表达式为：

在获得隐含层节点之后，根据式(42)，反过来计算可见层第i个节点的激活概率：

深度信念网络模型对数据进行训练主要是用逐层贪心算法，也就是在同一时间内，只对其中一层数据进行训练。这种逐层训练的方法能够有效地降低计算量，同时能够解决神经网络模型中的梯度扩散问题。

数据训练过程是个无监督的训练过程，输入数据不需要带标签进行训练。其具体训练的过程如下：

从上面的伪代码可看出，将图像数据作为输入，利用激活函数(47)来激活隐藏层中各个节点，当到达第i层训练时，对第i层数据做对比散度(Contrastive Divergence，CD)。对比散度在2006年由Hinton提出，是用于训练深度信念网络的一种快速算法。这样逐层训练，就完成网络模型中每个层的训练。

Gibbs采样(Gibbs Sampling))是一种典型的采样方法。图8为Gibbs采样过程示意图：Gibbs采样的过程是在已知输入节点v的情况下，通过sigmoid激活函数来激活隐藏层节点h；在得到h参数之后，也是通过激活函数，重新得到可见层节点；然后通过实际数据与模型得到的数据，对网络的权值进行更新，即：

Δw_ij＝ε(<v_ih_j>_data-<v_ih_j>_model) (43)

式中，<v_ih_j>_data是给定样本的数学期望，<v_ih_j>_model是模型产生的数学期望。

对比散度算法

对比散度学习是一种快速计算算法。此算法通过k次迭代，获取模型参数估计，通常，k的值为1。对比散度算法通过计算可见层数据的条件分布来得到隐含层数据，然后反过来，再用计算所得隐含层数据的条件分布计算可见层，这样就相当于重构了可见层的数据。利用梯度下降法，对训练数据进行参数调整和更新，即：

Δw_ij＝ε(<v_ih_j>_data-<v_ih_j>_recon) (44)

Δa_i＝ε(<v_i>_data-<v_i>_recon) (45)

Δb_j＝ε(<h_j>_data-<h_j>_recon) (46)

式中，<·>_recon为重构后的模型输出，ε为学习率((Learning rate，LR)。深度信念网络模型数据微调部分是有监督的数据训练过程，通过带标签的数据，进一步调整网络参数。其具体步骤如下：

深度信念网络模型数据微调的过程，也就是图5中最顶层的softmax回归层，最后一层相当于Logistic回归层，是有监督的学习过程。经过上面数据训练，得到深度信念网络模型网络结构中最后一层隐含层的输出，将最后一层的输出作为Logistic回归层的输入，利用Logistic回归softmax函数(47)，得到数据输出；然后，用模型输出与带标签的数据之差来调整Logistic回归层的权值。

数据训练和微调完成之后，就可以得到整个网络层的连接权值和偏置参数。利用这些参数，就可以对数据进行分类。

S5：将获取的待识别手势图像按照步骤S1、S2和S3处理后，构造成数据立方体的形式，并输入S4中训练好的深度信念网络模型，根据模型的输出，完成手势的识别分类，具体分类结果是：网络输出中概率值较高节点所对应的手势，即判决为输入图像所包含的手势。

输入需要测试的手势图像数据，通过激活函数和每层深度信念网络的权值和偏置，得到最上层隐含层的输出后，最后一层便是对数据进行分类。深度信念网络模型网络中采用softmax分类器对数据进行分类。softmax分类器的基础是Logistic回归(LogisticRegression，LR)分类器。Logistic回归分类器只能实现非线性的两类分类，因此softmax分类器对Logistic回归分类器进行了扩展，使其能够对多个类别进行分类。

softmax分类器的计算公式如下：

式中，g_θ(x)＝wX+b，其中θ＝{w,b}是DBM(DataBasedMechanistic)模型(一种基于数据的黑箱模型)模型的参数，X表示隐含层节点的状态。

实施例及有益效果：

为了验证本发明的有效性，本发明设计了15种静态手势，并用深度学习方法对这些手势进行分类识别。图8为所设计的静态手势示意图，包括数字1、2、3、4、5、6、7、8、9、上、下、左、右、确认和取消，如图9所示。

本发明拍摄了以上15种静态手势共140组，其中100组用来训练，40组用来测试。为了使深度信念网络获得更好的训练效果，必须针对不同的输入，相应地调整其中的参数，例如：隐含层的层数、隐含层对应的节点个数、学习率和初始值的设定方式等。本文使用如下规则来设定不同参数：

(1)隐含层的层数

实验发现，隐含层层数的增加，会使分类的准确性提高，但当层数增加到一定数量后，准确性的提高就不明显了，而此时每增加一层，数据运算量都会相应地剧增。通过测试，本发明设定5个隐含层。

(2)隐含层节点个数

本发明将第一隐含层的节点数设定为1000，第二层和第三层均为500，第四层和第五层均为200。当训练学习的样本数很大时，也可以相应减少节点个数。

(3)学习率

由于输入数据为二值数据，因此学习率可以相应地偏大，在本发明中，学习率设定为0.1。

(4)参数初始值

输入为0和1的二值数据，网络连接权值的初值为随机值，而偏置通常赋值为0。

(5)数据训练次数

输入数据量比较大，因此在训练数据时，其训练次数为1000。

(6)数据微调次数

数据微调次数为500次。

本发明方法的手势识别率如表1所示：

表1 基于深度学习的手势识别系统识别率统计表

手势代表信息	测试数	正确数	识别率
				1	40	39	97.5％
2	40	39	97.5％
				3	40	40	100％
4	40	38	95.0％
				5	40	40	100％
6	40	38	95.0％
				7	40	40	100％
8	40	38	95.0％
				9	40	39	97.5％
上	40	40	100％
				下	40	39	97.5％
左	40	40	100％
				右	40	39	97.5％
确认	40	38	95.0％
				取消	40	40	100％
总数	600	587	97.8％

由表1可看出，用深度学习方法识别手势时，尽管没有手势特征提取模块，但手势的识别率仍然达到了97.8％。这是因为深度学习方法，通过学习深层的非线性网络结构，能逼近复杂的非线性函数，可从少数样本集中，学习数据集的本质特征，因此，基于深度学习的手势识别方法具有很高的识别率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习的手势识别方法，其特征在于包括以下步骤：

S2：采用帧间差分方法和颜色特征检测方法锁定手势在图像中的所在区域，采用CamShift算法对手势进行跟踪；

S4：对S3中手势目标图像进行深度学习：将手势目标图像的数据信息构造成数据立方体的形式，建立深度信念网络模型，将含有手势信息的数据立方体形式的目标图像数据输入深度信念网络模型中，进行逐层训练和微调，得到整个深度信念网络的连接权值和偏置参数；

S4中所述建立深度信念网络模型时的联合分布函数为：

<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>,</mo> <mi>h</mi> <mo>|</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <mi>v</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>b</mi> <mi>l</mi> <mi>e</mi> </mrow> </munder> <msub> <mi>a</mi> <mi>i</mi> </msub> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <mi>h</mi> <mi>i</mi> <mi>d</mi> <mi>d</mi> <mi>e</mi> <mi>n</mi> </mrow> </munder> <msub> <mi>b</mi> <mi>j</mi> </msub> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </munder> <msub> <mi>v</mi> <mi>i</mi> </msub> <msub> <mi>h</mi> <mi>j</mi> </msub> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>39</mn> <mo>)</mo> </mrow> </mrow>

其中θ＝{a_i,b_j,w_ij}为深度信念网络的参数，其中a_i为可见层节点i的偏置，b_j为隐含层节点j的偏置，w_ij为可见层节点i与隐含层节点j连接的权重；

采用逐层贪心算法逐层对深度信念网络模型进行训练，具体采用如下方式：当给定已知输入节点时，采用联合分布函数(39)激励隐含层的所有节点后，再进行下一隐含层节点的激励，从而重新获得可见层节点，通过实际输入数据与模型得到的数据，对网络模型权值进行更新；

Δw_ij＝ε(<v_ih_j>_data-<v_ih_j>_model) (43)

其中，<v_ih_j>_data是给定样本的数学期望，<v_ih_j>_model是网络模型产生的数学期望；采用对比散度算法计算可见层数据的条件分布，得到隐含层数据，再用计算所得隐含层数据的条件分布，计算可见层，即实现了重构可见层的数据，利用梯度下降法采用下列方式，对训练数据进行参数调整和更新，即

Δw_ij＝ε(<v_ih_j>_data-<v_ih_j>_recon) (44)

Δa_i＝ε(<v_i>_data-<v_i>_recon) (45)

Δb_j＝ε(<h_j>_data-<h_j>_recon) (46)

式中，<v_ih_j>_recon为重构后网络模型的输出，ε为学习率，经过上述数据训练得到网络模型最后一层隐含层的输出，将最后一层的输出作为Logistic回归层的输入，利用Logistic回归softmax函数(47)得到数据输出；用模型输出与训练输入数据之差来调整Logistic回归层的权值，通过数据训练和微调，得到整个网络层的连接权值和偏置参数；

S5：将获取的待识别手势图像按照步骤S1、S2和S3处理后构造成数据立方体的形式，并输入S4中训练完成的深度信念网络模型，完成手势的识别分类；

S5中手势的识别分类具体采用如下方式：

<mrow> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi> </mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <msub> <mi>g</mi> <mi>i</mi> </msub> </msup> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msup> <mi>e</mi> <msub> <mi>g</mi> <mi>i</mi> </msub> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>47</mn> <mo>)</mo> </mrow> </mrow> 1

式中，g_i(x)＝wX+b，其中，w是深度信念网络模型的权值参数和b是偏置参数，X表示隐含层节点的状态。

2.根据权利要求1所述的一种基于深度学习的手势识别方法，其特征还在于：采用中值滤波方法对手势图像进行降噪处理时，采用中值滤波器对图像进行滤波，设图像中点(i,j)处像素的红、绿、蓝分量分别为R(i,j)、G(i,j)、B(i,j)，中值滤波器的窗口大小为W₁×W₁，该区域像素共W₁×W₁个，将这W₁×W₁个像素按照由小到大排序，则中值滤波的结果为排序后的序列中第(W₁×W₁-1)/2像素数据。

3.根据权利要求1所述的一种基于深度学习的手势识别方法，其特征还在于：采用灰度世界色彩均衡方法消除手势图像中的色彩偏移现象，具体采用如下方式：分别计算中值滤波后图像红、绿、蓝分量的和R_s、G_s、B_s，计算红、绿、蓝各颜色分量的均衡调整参数α_R,、α_G、α_B和归一化参数norm：通过所得的色彩均衡调整参数来调整各个像素的颜色分量，再将各个颜色分量值按照同一比例，调整到0～255之间。

4.根据权利要求1所述的一种基于深度学习的手势识别方法，其特征还在于：采用帧间差分方法锁定手势在图像中的所在区域，具体采用如下方式：利用视频序列中相邻帧的差来获取运动手势目标的所在区域，设I_k(x,y)表示第k帧的图像，用D_k(x,y)表示帧差，T₀表示二值化阈值，则差分图像F_k(x,y)采用下式计算：

D_k(x,y)＝|I_k(x,y)-I_k-1(x,y)| (11)

所述颜色特征检测法是采用肤色信息来检测手势：将手势图像由RGB彩色空间转换到HSI彩色空间。

5.根据权利要求1或4所述的一种基于深度学习的手势识别方法，其特征还在于：采用CamShift算法对手势进行跟踪，具体方式为：

S21：将图像从RGB彩色空间转到HSI彩色空间后，根据图像的色调分量H的值计算颜色直方图，将图像中的像素值用其颜色出现的概率替换，获得颜色概率分布图；

S22采用MeanShift算法通过迭代寻优方式，找到概率分布的极值来定位手势目标，具体步骤是：a、在上述颜色概率分布图中，获取色调H范围的搜索窗口W；b、计算搜索框内的零阶矩M₀₀、一阶矩M₀₁和M₁₀，从而得到窗口的质心(x_c,y_c)；c、调整搜索框大小，其宽度s为长度为s的1.2倍；d、将搜索框中心移到质心处，如果移动的距离大于设定的阈值，则重新上述步骤b和c，直到搜索窗的中心与质心间的移动距离小于设定的阈值或者循环次数达到设置的最大值，此时停止运算，不再移动窗口；

S23：将视频图像的所有帧做MeanShift运算，并将上一帧的结果即搜索窗的大小和中心作为下一帧MeanShift算法搜索窗的初始值，如此迭代下去，实现对目标的跟踪，具体包括以下步骤：a、根据手势检测结果，初始化搜索窗口W；b、根据颜色直方图进行反向投影，获取搜索框的颜色概率分布；c、使用MeanShift算法，更新搜索框的中心位置和大小，对下一帧图像序列使用上一帧的搜索框位置和大小进行处理；d、重复步骤b和c，从而定位出手势目标的中心位置。

6.根据权利要求1所述的一种基于深度学习的手势识别方法，其特征还在于：所述对手势图像进行基于YCgCr色彩空间的二维高斯建模，具体采用如下方式：计算颜色空间分量C_g、C_r,由这两个值构成二维列向量x,再计算x的均值M和协方差C：基于YCgCr空间的高斯建模具体采用如下方式：将手势图像从RGB空间转换到YCgCr空间，利用二维高斯分布对手势图像进行建模：首先计算手势图像的肤色概率，将所得的图像概率进行均值滤波，将像素值调整到0～255，从而获得肤色似然图像，分割出手势区域。

7.根据权利要求6所述的一种基于深度学习的手势识别方法，其特征还在于：所述手势图像的二值化处理，具体采用以下方式：

通过上述分割出手势区域，得到肤色灰度图像{gray_ij,(i,j)∈I²}，用{binary_ij,(i,j)∈I²}表示输出的二值图像，则自适应阈值二值化的过程为：

a、统计图像中每个灰度值的个数{count(m),m∈[0,255]}，

b、计算每个灰度值的比例{ratio(m),m∈[0,255]}：

c、分别计算每个灰度值的背景部分概率和背景部分一阶矩M_bk(m)、前景部分概率和前景部分一阶矩M_fr(m)，计算前景图像与背景图像之间的差异函数，通过差异函数最大化确定图像二值化的阈值T；

d、根据步骤c所得的结果，对手势图像进行二值化处理，即

<mrow> <mi>B</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>g</mi> <mi>r</mi> <mi>a</mi> <mi>y</mi> <mo>&lsqb;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&rsqb;</mo> <mo><</mo> <mi>T</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>g</mi> <mi>r</mi> <mi>a</mi> <mi>y</mi> <mo>&lsqb;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&rsqb;</mo> <mo>&GreaterEqual;</mo> <mi>T</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>36</mn> <mo>)</mo> </mrow> </mrow> 3