CN105205449B

CN105205449B - 基于深度学习的手语识别方法

Info

Publication number: CN105205449B
Application number: CN201510523173.6A
Authority: CN
Inventors: 韩红; 焦李成; 王伟; 洪汉梯; 张鼎; 李阳阳; 马文萍; 王爽
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-08-24
Filing date: 2015-08-24
Publication date: 2019-01-29
Anticipated expiration: 2035-08-24
Also published as: CN105205449A

Abstract

本发明公开了基于深度学习的手语识别方法。其步骤为：(1)划分数据库样本集；(2)采集图像块，(3)白化数据；(4)训练稀疏自编码网络；(5)获得卷积特征图；(6)获得池化特征图；(7)训练分类器；(8)测试分类结果。本发明用反向传导算法，训练稀疏自编码网络，使得本发明在处理复杂背景数据时提高了识别率，本发明选取稀疏自编码网络的权值作为卷积核，通过卷积，获得卷积特征图，将有监督学习和无监督学习结合起来，减少了手工标注标签的人力和物力，本发明采用最大池化方法，获得池化特征图，减小特征维度，减小了手语识别任务的复杂性。

Description

基于深度学习的手语识别方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种模式识别技术领域中的一种基于深度学习的手语识别方法。本发明可用于根据手势的变化模拟音节构成的人体手语识别和人与计算机之间的手语信息交换。

背景技术

人机交互技术的研究是计算机技术研究领域的重要组成部分。当人与人进行面对面的通讯时,包括口语及书面语等自然语言，也包括手语、表情、体势及口型等人体语言传递信息，因而研究人体语言的感知模型及其与自然语言的信息融合,对于提高计算机自然语言理解水平和加强人机信息交换的可实用性有重要意义。手语识别作为人体语言理解的一部分,有着非常重要的作用。一方面,它是虚拟现实人机交互的主要手段；另一方面它又是聋哑人利用计算机与正常人交流的辅助工具。每个手语是由一个手势序列组成,而每个手势是由手形变化序列组成。手语识别的主要任务是根据提取的待识别手语的特征，然后用分类器做分类，确定待识别手语的类别。根据手语输入介质的不同,手语识别系统可分为两种:基于摄象机(视觉)的手语识别系统和基于设备输入(如数据手套、铁笔、鼠标、位置跟踪器等)的手语识别系统。

目前，手语识别方法主要有基于模板匹配，神经网络，HMM，DTW等方法。由上述方法提取的特征可以用支持向量机等分类器进行识别，但这些方法的不足之处是提取的特征比较低级，提取特征受到复杂背景的影响很大，实现复杂，从而导致该方法在处理大量复杂背景数据时，因鲁棒性不强降低了手语识别的精度。

Van Den Berg等人在文献“Combining RGB and ToF Cameras for Real-time 3DHand Gesture Interaction”(in:Applications of Computer Vision(WACV),2011IEEEWorkshop on,IEEE,2011,pp.66-72.)中提出了一种利用彩色图和深度图进行手语识别的方法。该方法首先将手语图片的彩色图片和深度图片进行归一化和分割处理，然后用平均邻域边界最大化方法对数据进行降维，最后采用最近邻分类算法实现手语分类。该方法存在的不足之处是，图片数据背景要求比较单一，手语类别之间的差异性比较大，在处理复杂数据背景和复杂手语识别任务时精度比较低，在分类过程中单独采用有监督的方式，增加了手工标注标签的人力和物力。

广东中大讯通软件科技有限公司申请的专利“一种基于中值滤波和Hu矩向量的手语识别方法”(专利申请号：201110259106，公开号：CN102289666A)公开了一种基于中值滤波和Hu矩向量的手语识别方法。该方法首先对获取到的彩色图像进行归一化处理和中值滤波处理，然后提取处理后的手语图像的矩不变量得到匹配图像的特征向量，最后计算待匹配图像与手语标准图像的特征向量之间的欧氏距离从而识别手语，提高了手语识别的正确率。该方法存在的不足之处是，计算待测图像与标准图像特征向量之间的欧式距离实现分类的过程运算量太大，计算效率太低，不适用于大规模数据的处理。

发明内容

本发明的目的在于克服上述已有技术的不足，提出了一种基于深度学习的手语识别方法。本发明可以在处理复杂数据背景和复杂手语识别任务的情况下，实现手语识别，同时，本发明的计算效率高，可以用于大规模数据处理。

本发明实现的具体步骤如下：

(1)划分数据库样本集；

(1a)提取手语图像数据集中的手语图像，将所提取的手语图像调整成32×32像素的手语图像；

(1b)将调整后的所有手语图像均分为两部分，分别作为手语图像的训练样本和测试样本；

(2)采集图像块：

对训练样本的每一张手语图像随机采集10张图像块；

(3)白化数据：

对每一张采集的图像块进行白化处理，得到白化后的图像块；

(4)训练稀疏自编码网络：

(4a)将白化后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵；

(4b)采用正态分布函数，随机初始化稀疏自编码网络的权值和偏置；

(4c)采用反向传导算法，更新稀疏自编码网络权值和偏置，得到稀疏自编码网络的权值；

(5)获得卷积特征图；

(5a)将训练样本和测试样本作为卷积的输入矩阵；

(5b)按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核；

(5c)采用卷积公式，对输入矩阵进行卷积，得到输入样本和测试样本的卷积特征图；

(6)获得池化特征图；

采用最大池化方法，对训练样本和测试样本的卷积特征图进行池化处理，得到训练样本和测试样本的池化特征图；

(7)训练分类器；

用训练样本的池化特征图训练线性支持向量机分类器得到分类模型；

(8)测试分类效果；

用分类模型对测试样本的池化特征图进行分类，得到测试样本的分类结果。

与现有技术相比本发明具有以下优点：

第一，由于本发明采用反向传导算法，更新稀疏自编码网络权值和偏置，得到稀疏自编码网络的权值，充分利用了稀疏自编码网络的自我学习能力，得到抽象的分类特征，克服了现有技术在处理复杂数据背景和复杂手语识别任务时精度比较低的问题，使得本发明在处理手语类别之间差异性比较大的数据时提高了识别率。

第二，由于本发明按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核，通过卷积公式，获得训练样本和测试样本的卷积特征图，将有监督学习和无监督学习结合起来，克服了现有技术在分类过程中单独采用有监督的方式，增加了手工标注标签的人力和物力的问题，使得本发明处理数据的范围更广，节省人力物力。

第三，由于本发明采用最大池化方法，获得训练样本和测试样本池化特征图，克服了现有技术运算量大，计算效率低，不适用于大规模数据的处理的问题，使得本发明在处理大数据手语分类任务时，增加了特征的平移不变性，减小特征维度，减小了手语识别任务的复杂性。

附图说明

图1是本发明实现的流程图；

图2是本发明手语识别结果的混淆矩阵图。

具体实施方式

参照图1，对本发明做进一步的详细描述：

步骤1，划分数据库样本集；；

提取手语图像数据集中的手语图像，将所提取的手语图像调整成32×32像素的手语图像，将调整后的所有手语图像均分为两部分，分别作为训练样本和测试样本；

步骤2，采集图像块：

对训练样本的每一张手语图像随机采集10个图像块；

步骤3，白化数据；

对每一张采集的图像块进行白化处理，得到白化后的图像块，具体步骤如下：

第1步，按照下式，分别计算每个图像块中每一个像素的均值：

其中，表示每个图像块中每一个像素的均值，m表示图像块的数目,此处m＝600000，x_o ⁱ表示第i个图像块，i∈[1,m]，∈表示属于符号；

第2步，用每个图像块减去均值，得到去均值化图像块；

第3步，按照下式，计算图像块的奇异矩阵；

其中，U表示图像块左奇异向量组成的矩阵，S表示图像块的奇异值元素组成的对角矩阵，V表示图像块的右奇异向量组成的矩阵，svd(·)表示奇异值分解函数，m表示输入图像块的数目，此处m＝600000，x^g表示第g张去均值化图像块，g∈[1,m]，∈表示属于符号；

第4步，按照下式，对去均值化图像块进行去相关处理；

其中，y表示去相关处理后的图像块，U表示图像块左奇异向量组成的矩阵，S表示图像块的奇异值元素组成的对角矩阵，ε表示规则化参数，ε初始化为0.01，T表示转置操作，x表示去均值化图像块；

步骤4，训练稀疏自编码网络：

(4a)将白化后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵，稀疏自编码网络共3层，第一层为输入层，第二层为隐藏层，隐藏层的神经元数目为400个，第三层为输出层；

(4b)采用正态分布函数，随机初始化稀疏自编码网络的权值和偏置，正态分布函数均值初始化为0，方差初始化为0.01；

(4c)采用反向传导算法，更新稀疏自编码网络权值和偏置，具体步骤如下：

第1步，按照下式，计算稀疏自编码网络的惩罚因子：

其中，η表示稀疏自编码网络的惩罚因子，β表示随机选取的惩罚因子权重，β初始化为0.1，ρ表示随机选取的稀疏性参数，ρ初始化为0.01，log表示以10为底的对数操作，ρ_j表示隐藏层第j个神经元的平均活跃度，j∈[1,s]，∈表示属于符号，s表示稀疏自编码网络隐藏层神经元的数目，s＝400；

第2步，计算每层稀疏自编码网络的输出矩阵：

按照下式，计算稀疏自编码网络输出层的输出矩阵：

其中，aⁿ表示稀疏自编码网络输出层的输出矩阵，n表示稀疏自编码网络的输出层，w表示第t层稀疏自编码网络的权值，t∈[1,N]，∈表示属于符号，N表示稀疏自编码网络的层数，N＝3，X表示稀疏自编码网络的输入矩阵，b表示稀疏自编码网络第t层的偏置,e^(·)表示以自然数为底的指数操作；

按照下式，计算稀疏自编码网络隐藏层的输出矩阵：

其中，a^l表示稀疏自编码网络隐藏层的输出矩阵，l表示稀疏自编码网络隐藏层，W表示稀疏自编码网络隐藏层的权值，x表示稀疏自编码网络的输入矩阵，B表示稀疏自编码网络隐藏层的偏置,e^(·)表示以自然数为底的指数操作；

第3步，按照下式，计算稀疏自编码网络的代价函数：

其中，J表示稀疏自编码网络的代价函数，aⁿ表示稀疏自编码网络输出层的输出矩阵，n表示稀疏自编码网络的输出层，y_d表示稀疏自编码网络第d个目标矩阵，i∈[1,m]，∈表示属于符号，m表示白化后的图像块数目，m＝600000，λ表示权重衰减参数，λ初始化为0.01，w^p表示稀疏自编码网络第p个权值，p∈[1,k]，∈表示属于符号，k表示权值的数目，k＝80000，η表示稀疏自编码网络的惩罚因子；

第4步，计算每层稀疏自编码网络神经元的残差：

按照下式，计算稀疏自编码网络输出层神经元的残差：

δⁿ＝-(y-aⁿ)aⁿ(1-aⁿ)

其中，δⁿ表示稀疏自编码网络输出层神经元的残差，n表示稀疏自编码网络的输出层，y表示稀疏自编码网络的目标矩阵，aⁿ表示稀疏自编码网络输出层的输出矩阵；

按照下式，计算稀疏自编码网络隐藏层神经元的残差：

其中，δ^l表示稀疏自编码网络隐藏层神经元的残差，l表示稀疏自编码网络隐藏层，w^l表示稀疏自编码网络隐藏层的权值，T表示转置操作，δⁿ表示稀疏自编码网络输出层神经元的残差，n表示稀疏自编码网络输出层，β表示随即选取的惩罚因子权重，β初始化为0.1，ρ表示稀疏性参数，ρ初始化为0.01，ρ_j表示第j个稀疏自编码网络隐藏层神经元的平均活跃度，j∈[1,s]，∈表示属于符号，s表示稀疏自编码网络隐藏层神经元的数目，s＝400，a^l表示稀疏自编码网络隐藏层的输出矩阵；

第5步，计算稀疏自编码网络每层神经元的权值和偏置的偏导数：

按照下式，计算稀疏自编码网络每一层权值的偏导数：

其中，表示偏导数操作，J表示稀疏自编码网络的代价函数，w^h表示稀疏自编码网络第h层的权值，h∈[1,N]，∈表示属于符号，N表示稀疏自编码网络的层数，N＝3，a^h表示第h层稀疏自编码网络的输出矩阵，δ^h+1表示第h+1层稀疏自编码网络神经元残差；

按照下式，计算稀疏自编码网络每层偏置的偏导数：

其中，表示偏导数操作，J表示稀疏自编码网络代价函数，b^h表示第h层神经元的偏置，h∈[1,N]，∈表示属于符号，N表示稀疏自编码网络的层数，N＝3，δ^h+1表示第h+1层稀疏自编码网络神经元的残差；

第6步，按照下式，更新疏自编码网络的权值：

其中，w^h表示稀疏自编码网络第h层神经元的权值，α表示稀疏自编码网络的学习率，α初始化为0.001，表示偏导数操作，J表示稀疏自编码网络的代价函数；

第7步，按照下式，更新疏自编码网络的偏置：

其中，b^h表示稀疏自编码网络第h层神经元的偏置，α表示稀疏自编码网络的学习率，α初始化为0.001，表示偏导数操作，J表示稀疏自编码网络的代价函数；

第8步，判断稀疏自编码网络的代价函数是否小于0.2，若是，得到训练好的稀疏自编码网络，否则，执行第1步；

得到稀疏自编码网络的权值；

步骤5，获得卷积特征图；

将将训练样本和测试样本作为卷积的输入矩阵,按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核,采用卷积公式，对输入矩阵进行卷积，得到训练样本和测试样本的卷积特征图，卷积公式如下：

Y＝X*K

其中，Y表示卷积特征图，X表示输入矩阵，*表示卷积操作，K表示卷积核；

步骤6，获得池化特征图；

采用最大池化方法，对训练样本和测试样本的卷积特征图进行池化处理，得到训练样本和测试样本的池化特征图，具体步骤如下：

第1步，以步长为2个像素大小，将输入样本和测试样本的卷积特征图划分成多个池化区域；

第2步，从每个池化区域中各选取一个最大像素点；

第3步，按照池化区域在输入样本和测试样本的卷积特征图中的位置分布，将所有的最大像素点组成输入样本和测试样本的池化特征图。

步骤7，训练分类器；

步骤8，测试分类效果；

用分类模型对测试样本的池化特征图进行分类，得到测试样本的分类结果。本发明的效果可以通过以下仿真实验进一步说明。

1.实验条件：

硬件平台为：Intel Core2 Duo CPU E6550@2.33GHZ、2GB RAM

软件平台：vs2008MATLAB R2009a

实验数据：本实验采用ASL手语图像数据库，包括24个手语，5个志愿者，每个志愿者每个手语图片样本数目为500张，实验样本图像背景复杂，不同志愿者的手语图像场景不同，光照影像不同。

2.实验内容与结果：

本发明首先将手语图像数据集每张图像调整成32×32像素大小，并均分为两部分，一部分作为训练样本，一部分作为测试样本，各30000张。对训练样本进行随机采样，每张图像采集10张10×10大小的图像块，并对图像小块进行一个白化处理，去图像之间的冗余和相关性。再利用这些图像小块去训练一个无监督的稀疏自编码神经网络，网络共3层，隐藏层神经元数目为400，用均值为0，方差为0,01的正态分布函数，随机初始化网络的权值，训练完成后的稀疏自编码神经网络的权值就是学习得到的手势图像不同结构特征。这些特征相当于一些边缘滤波器，这个特征是所有手势的结构特征，所以要利用这些特征对原始的手势图像进行一个滤波过程，提取出每一种手势所具有的相应的特征，于是把这些权值当做卷积核来对训练样本和测试样本进行一个卷积过程，这样就可以将手势的边缘特征提取出来。卷积之后的特征可以拿来做分类识别。但是特征维数太大，面临巨大的计算量的挑战。所以通过池化对这些特征进行一个聚合统计的过程，池化后的特征不仅具有很低的维度，而且还会改善结果，不容易过拟合。用训练样本的池化特征来训练支持向量机分类器分类模型，然后里用训练好的分类模型对待识别的测试样本进行分类识别。实验的结果表明，即使在手势种类繁多，光照不同，手势之间具有很大的相似性的情况下，本模型也能获得很高的准确率。由图2的最终分类结果混淆矩阵所示，本发明对于手语识别的分类结果可达到87％。

Claims

1.一种基于深度学习的手语识别方法，其特征在于，随机从数据中抽取10张有标签的图像，使用线性支持向量机来作为分类器；该方法的步骤包括如下：

(1)划分数据库样本集；

(2)采集图像块：

对训练样本的每一张手语图像随机采集10张图像块；

(3)白化数据：

所述的对每一张采集的图像块进行白化处理是按照如下步骤进行的：

第1步，按照下式，分别计算每一张采集的图像块中每一个像素的均值：

其中，表示每一张采集的图像块中每一个像素的均值，m表示图像块的数目，x_o ⁱ表示第i个图像块，i∈[1,m]，∈表示属于符号；

第2步，用每个图像块减去均值，得到去均值化图像块；

第3步，按照下式，计算图像块的奇异矩阵；

其中，U表示图像块的左奇异向量组成的矩阵，S表示图像块的奇异值元素组成的对角矩阵，V表示图像块的右奇异向量组成的矩阵，svd(·)表示奇异值分解操作，m表示输入图像块的数目，x^g表示第g张去均值化图像块，g∈[1,m]，∈表示属于符号；

第4步，按照下式，对去均值化图像块进行去相关处理；

其中，y表示去相关处理后的图像块，U表示图像块左奇异向量组成的矩阵，S表示图像块的奇异值元素组成的对角矩阵，ε表示规则化参数，ε的取值范围为0.01～0.1，T表示转置操作，x表示去均值化图像块；

(4)训练稀疏自编码网络：

所述的正态分布函数的均值为0，方差的随机取值范围为0.01～0.1；

(5)获得卷积特征图；

(5a)将训练样本和测试样本作为卷积的输入矩阵；

(6)获得池化特征图；

(7)训练分类器；

(8)测试分类效果；

2.根据权利要求1所述的基于深度学习的手语识别方法，其特征在于：步骤(2)中所述从训练样本的每一张手语图像中随机采集的图像块的大小为10×10像素。

3.根据权利要求1所述的基于深度学习的手语识别方法，其特征在于：步骤(4a)中所述的稀疏自编码网络共3层，第一层为输入层，第二层为隐藏层，隐藏层的神经元数目为400个，第三层为输出层。

4.根据权利要求1所述的基于深度学习的手语识别方法，其特征在于：步骤(4c)中反向传导算法的具体步骤如下：

第1步，按照下式，计算稀疏自编码网络的惩罚因子：

其中，η表示稀疏自编码网络的惩罚因子，β表示随机选取的惩罚因子权重，β的取值范围为0.1～0.5，ρ表示随机选取的稀疏性参数，ρ的取值范围为0.01～0.05，log表示以10为底的对数操作，ρ_j表示稀疏自编码网络隐藏层第j个神经元的平均活跃度，j∈[1,s]，∈表示属于符号，s表示稀疏自编码网络隐藏层神经元的数目；

第2步，计算每层稀疏自编码网络的输出矩阵：

按照下式，计算稀疏自编码网络输出层的输出矩阵：

其中，aⁿ表示稀疏自编码网络输出层的输出矩阵，n表示稀疏自编码网络的输出层，w表示第t层稀疏自编码网络的权值，t∈[1,N]，∈表示属于符号，N表示稀疏自编码网络的层数，X表示稀疏自编码网络的输入矩阵，b表示稀疏自编码网络第t层的偏置，e^(·)表示以自然数为底的指数操作；

按照下式，计算稀疏自编码网络隐藏层的输出矩阵：

其中，a^l表示稀疏自编码网络隐藏层的输出矩阵，l表示稀疏自编码网络隐藏层，W表示稀疏自编码网络隐藏层的权值，X表示稀疏自编码网络的输入矩阵，B表示稀疏自编码网络隐藏层的偏置，e^(·)表示以自然数为底的指数操作；

第3步，按照下式，计算稀疏自编码网络的代价函数：

其中，J表示稀疏自编码网络的代价函数，m表示白化后的图像块数目，aⁿ表示稀疏自编码网络输出层的输出矩阵，n表示稀疏自编码网络的输出层，y_d表示稀疏自编码网络第d个目标矩阵，d∈[1,m]，∈表示属于符号，λ表示随机选取的权重衰减参数，λ的取值范围为0.01～0.05，w^p表示稀疏自编码网络第p个权值，p∈[1,k]，∈表示属于符号，k表示权值的数目，η表示稀疏自编码网络的惩罚因子；

第4步，计算每层稀疏自编码网络神经元的残差：

按照下式，计算稀疏自编码网络输出层神经元的残差：

δⁿ＝-(y-aⁿ)aⁿ(1-aⁿ)

按照下式，计算稀疏自编码网络隐藏层神经元的残差：

其中，δ^l表示稀疏自编码网络隐藏层神经元的残差，l表示稀疏自编码网络隐藏层，w^l表示稀疏自编码网络隐藏层的权值，T表示转置操作，δⁿ表示稀疏自编码网络输出层神经元的残差，n表示稀疏自编码网络输出层，β表示随机选取的惩罚因子权重，β的取值范围为0.1～0.5，ρ表示随机选取的稀疏性参数，ρ的取值范围为0.01～0.05，ρ_j表示稀疏自编码网络隐藏层第j个神经元的平均活跃度，j∈[1,s]，∈表示属于符号，s表示稀疏自编码网络隐藏层神经元的数目，a^l表示稀疏自编码网络隐藏层的输出矩阵；

按照下式，计算稀疏自编码网络每一层权值的偏导数：

其中，表示偏导数操作，J表示稀疏自编码网络的代价函数，w^h表示稀疏自编码网络第h层的权值，h∈[1,N]，∈表示属于符号，N表示稀疏自编码网络的层数，a^h表示第h层稀疏自编码网络的输出矩阵，δ^h+1表示第h+1层稀疏自编码网络神经元残差；

按照下式，计算稀疏自编码网络每层偏置的偏导数：

其中，表示偏导数操作，J表示稀疏自编码网络代价函数，b^h表示第h层神经元的偏置，h∈[1,N]，∈表示属于符号，N表示稀疏自编码网络的层数，δ^h+1表示第h+1层稀疏自编码网络神经元的残差；

第6步，按照下式，更新稀疏自编码网络的权值：

其中，w^h表示稀疏自编码网络第h层神经元的权值，α表示随机选取的稀疏自编码网络的学习率，α的取值范围为0.001～0.01，表示偏导数操作，J表示稀疏自编码网络的代价函数；

第7步，按照下式，更新稀疏自编码网络的偏置：

其中，b^h表示稀疏自编码网络第h层神经元的偏置，α表示随机选取的稀疏自编码网络的学习率，α的取值范围为0.001～0.01，表示偏导数操作，J表示稀疏自编码网络的代价函数；

第8步，判断稀疏自编码网络的代价函数是否小于0.2，若是，得到训练好的稀疏自编码网络，否则，执行第1步。

5.根据权利要求1所述的基于深度学习的手语识别方法，其特征在于：步骤(5c)中所述对输入矩阵进行卷积的卷积公式如下：

Y＝R*K

其中，Y表示输入样本和测试样本的卷积特征图，R表示输入矩阵，*表示卷积操作，K表示卷积核。

6.根据权利要求1所述的基于深度学习的手语识别方法，其特征在于：步骤(6)中所述最大池化方法的具体步骤如下：

第2步，从每个池化区域中各选取一个最大像素点；