CN110399850B

CN110399850B - 一种基于深度神经网络的连续手语识别方法

Info

Publication number: CN110399850B
Application number: CN201910695227.5A
Authority: CN
Inventors: 肖秦琨; 秦敏莹
Original assignee: Xian Technological University
Current assignee: Yulin Zhituhui Technology Co.,Ltd.
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2021-10-15
Anticipated expiration: 2039-07-30
Also published as: CN110399850A

Abstract

本发明公开了一种基于深度神经网络的连续手语识别方法，具体为：首先，建立孤立词手语数据库及连续手语数据库，完成对手型图像预处理，再构建两个结构相同的改进AlexNet神经网络模型，并对预处理后的孤立词手语数据库的训练样本进行训练；之后固定双路AlexNet神经网络模型权重，将全连接层和softmax层丢弃；选取出预处理后的连续手语数据库中RCB‑D视频分帧图像文件的关键片段并进行测试，最后将输出的关键帧嵌入注意力机制的分层LSTM编解码网络模型，输出连续手语的识别结果。本发明的方法克服了由连续手语语句运动轨迹复杂、手型变化快且形变大等问题引起的设计区分性的手语表征存在困难的问题。

Description

一种基于深度神经网络的连续手语识别方法

技术领域

本发明属于手语识别技术领域，具体涉及一种基于深度神经网络的连续手语识别方法。

背景技术

目前，基于视觉的手语识别方法是人工智能领域中一个富有挑战性的研究方向。手语手势识别作为一种更加和谐自然的新型人机交互模式，能够给现代人的智能生活带来更为便捷灵活的体验感。另外，构建一个完备可应用的手语识别系统，能够缓解听障人群与其他人群之间交流不便的现象。

手语识别可分为孤立手语词识别和连续手语语句识别两大类，主要涉及表征设计以及分类识别两个步骤。孤立手语词识别相较连续手语语句识别，难度较小。连续手语语句识别的难点涉及对手语时间序列的分割以及孤立词的识别，手语执行过程中无明显过渡标志，因此，难以实现对时间序列的精确分割。此外，标注手语时间序列中的每个孤立手语词需要消耗高昂的人工成本，因此，严重耗时限制了训练数据的获取。传统描述手语表征的算法主要包括有Hu矩、梯度方向直方图(HOG)和光流方向直方图(HOF)，用于分类识别的传统时序建模方法主要有隐马尔科夫模型(HMM)、动态时间规整(DTW)和条件随机场(CRF)等。迄今为止，对这两个问题进行了大量的研究工作，但由于连续手语运动轨迹复杂且手语手型存在变化快，形变大，存在遮挡的特点，使得设计具有区分性的连续手语表征存在困难。并且连续手语时间序列具有很强的冗余性，冗余信息存在干扰，使得分类识别问题变得复杂。囿于目前模式识别和计算机内存资源有限等方面的技术现状，使得构建面对大词汇集且连续的手语识别系统，成为一个亟待解决的问题。因此，既能够满足速度要求、又能够满足准确性要求的连续手语识别仍然具有挑战性。

发明内容

本发明的目的是提供一种基于深度神经网络的连续手语识别方法，避免了连续手语语句识别过程中手语时间序列分割以及标注孤立词成本高的问题。

本发明所采用的技术方案是，一种基于深度神经网络的连续手语识别方法，具体按照以下步骤实施：

步骤1：利用Kinect2.0采集孤立手语词及连续手语语句动作的彩色视频文件、深度视频文件以及25个骨骼点空间位置坐标，分别建立孤立词手语数据库及由此孤立词所组成的连续手语数据库，之后将孤立词手语数据库及连续手语数据库都分为两部分，一部分作为训练样本，另一部分作为测试样本；

步骤2：基于区域的卷积神经网络R-CNN算法实现对步骤1中所构建孤立词手语数据库及连续手语数据库中的彩色图像手部区域的自动检测，完成对手型图像预处理，分别形成预处理后的孤立词手语数据库和预处理后的连续手语数据库；

步骤3：构建两个结构相同的改进AlexNet神经网络模型，将全局骨骼点坐标数据、预处理后的孤立词手语数据库中的手型数据分别作为单独输入并行处理；

步骤4：用步骤3构建的改进AlexNet神经网络模型对步骤2中预处理后的孤立词手语数据库的训练样本进行训练；

步骤5：固定双路AlexNet神经网络模型权重，将最后的全连接层和softmax层丢弃；

步骤6：基于K-means聚类算法，选取出步骤2中预处理后的连续手语数据库中RCB-D视频分帧图像文件的关键片段；

步骤7：采用步骤5中的网络模型，将步骤6中选取关键片段作为连续手语数据库进行测试，双路AlexNet神经网络输出向量即为连续语句所需表征；

步骤8：将步骤7中输出的关键帧嵌入注意力机制的分层LSTM编解码网络模型，输出连续手语的识别结果。

本发明的特点还在于，

步骤2中，对手型图像进行图像预处理，具体步骤如下：

步骤2.1：构建共包含11层的卷积神经网络模型，依次为输入层、卷积层1、ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、归一化层3、全连接层4、softmax层和输出层；其中每一层的输出即为下一层的输入；其中参数设置为：

卷积层1中，输入图像大小为28×28×3，设置卷积核大小为3×3，步长为1，填补为0，滤波器数量为8，输出图像大小为26×26×8；

池化层1中，设置池化窗口为2×2，步长为2，滤波器数量为8，输出图像大小为13×13×8；

卷积层2中，设置卷积核为3×3，步长为1，填补为0，滤波器数量为16，输出图像大小为11×11×16；

池化层2中，设置池化窗口为2×2，步长为2，滤波器数量为16，输出图像大小为6×6×16；

步骤2.2：用步骤2.1构建的卷积神经网络模型对步骤1中的孤立词手语数据库和连续数据库中的彩色训练数据样本进行训练；

步骤2.3：用已经训练好的网络模型，对步骤1中的孤立词手语数据库和连续数据库中测试数据库中目标手部区域进行自动检测；

步骤2.4：结合Kinect获得孤立词手语库及连续手语数据库中与彩色图像对应的深度图像，对深度图进行伽马变换，分割出仅包含用于手语的双手的前景区域，并使用形态学闭运算和高斯滤波去除存在的噪声轮廓；

步骤2.5：将完成测试的彩色图与伽马变换后的二值图叠加，完成手部分割，分别形成预处理后的孤立词手语数据库和预处理后的连续手语数据库。

步骤3中，改进AlexNet神经网络模型为18层卷积神经网络模型，包括1个输入层、5个卷积层、5个ReLU层、3个池化层、2个全连接层、1个softmax层和1个输出层。

步骤4中，具体步骤如下：

步骤4.1：随机初始化所有滤波器以及其他参数和权重值；

步骤4.2：将训练样本作为输入，经过前向传播步骤，即卷积层，ReLU和池化运算，最后达到全连接层进行分类，得到分类结果，输出一个包含每个类预测的概率值的向量；

步骤4.3：计算输出层的总误差Error，如式(2)所示；

步骤4.4：使用反向传播计算网络中所有权重的误差梯度；并使用梯度下降更新所有滤波器值、权重和参数值；

步骤4.5：对训练集中的所有图像重复步骤4.2-4.4，直到训练次数达到设定的epoch值。

步骤6中，具体步骤如下：

步骤6.1：设置聚类中心个数k；

步骤6.2：在整个集合中选择k个数据元素作为初始聚类中心，经过一次迭代将剩余元素划分到距离自己最近的聚类中心所在范围；

步骤6.3：对划分结果进行调整，重新计算中心点，对比新的中心点与上一次计算出的中心点，若不同则更新中心点直到中心点稳定不再变化，则停止计算；

步骤6.4：对于所有的k个类，完成步骤6.2和6.3后，聚类结束，生成k个簇；聚类终止的条件是最小化所有数据到其簇中心距离的平方和，如式(3)所示：

式中，C_i表示的第i个簇，c_i为该簇的所有值的平均值，s为该簇中的数据对象。

步骤8中，分层LSTM编解码网络模型分为两个模块，前半部分构成编码模块，后半部分为解码模块；编码模块扩展为两层结构，第一层是片段编码器，由一个BLSTM糅合注意力层构成；第二层是词编码器，由一个BLSTM糅合注意力层构成，之后基于词级向量执行解码。

本发明的有益效果是，

本发明的方法，克服了由连续手语语句运动轨迹复杂、手型变化快且形变大等问题引起的设计区分性的手语表征存在困难的问题，以及连续手语时序建模过程中时间序列的分割不精确及标注孤立手语词耗时的难题。同时，解决了传统手型分割时的人为主观性因素的影响及耗费高昂人工成本的缺陷。

附图说明

图1是本发明一种基于深度神经网络的连续手语识别方法的流程图；

图2是本发明一种基于深度神经网络的连续手语识别方法中kinect 2.0采集数据示意图；

图3是本发明一种基于深度神经网络的连续手语识别方法中手型分割流程示意图；

图4是本发明一种基于深度神经网络的连续手语识别方法中基于R-CNN的彩色图像手型区域目标检测网络结构模型示意图；

图5是本发明一种基于深度神经网络的连续手语识别方法中基于双路改进的AlexNet网络特征提取算法示意图；

图6是本发明一种基于深度神经网络的连续手语识别方法中改进的AlexNet网络模型结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于深度神经网络的连续手语识别方法，如图1所示，具体按照以下步骤实施：

步骤1，利用Kinect2.0采集孤立手语词及连续手语语句动作的彩色视频文件、深度视频文件以及25个骨骼点空间位置坐标，分别建立孤立词手语数据库及由此孤立词所组成的连续手语数据库，之后将孤立词手语数据库及连续手语数据库都分为两部分，一部分作为训练样本，另一部分作为测试样本；

如图2所示，数据采集时，背景选择比较整洁的白色墙面，Kinect2.0与实验者的距离大约为0.8～1米，与地面的距离约为1.2～1.5米，具体根据实验者的身高不同进行调整。采集孤立手语词时，规定孤立词动作的起点为开始，孤立词动作的终点为结束；采集连续手语语句时，规定两臂自然下垂为开始，而后当两臂再次自然下垂为结束；

数据存储时，彩色图像的分辨率为1920×1080，深度图像的分辨率为512×424；

步骤2，基于区域的卷积神经网络R-CNN算法实现对步骤1中所构建孤立词手语数据库及连续手语数据库中的彩色图像手部区域的自动检测，结合与彩色图像相对应的深度图像进行伽马变换，完成对手型图像预处理，即手部区域分割，分别形成预处理后的孤立词手语数据库和预处理后的连续手语数据库；

对手型图像进行图像预处理，如图3所示，具体步骤如下：

步骤2.1：构建共包含11层的卷积神经网络模型，依次为输入层、卷积层1、ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、归一化层3、全连接层4、softmax层和输出层；其中每一层的输出即为下一层的输入；如图4所示，其中参数设置为：

步骤2.3：用已经训练好的网络模型，对步骤1中的孤立词手语数据库和连续数据库中测试数据库中目标手部区域进行自动检测(图3(c))；

步骤2.4：结合Kinect获得孤立词手语库及连续手语数据库中与彩色图像(图3(a))对应的深度图像(图3(d))，对深度图进行伽马变换，分割出仅包含用于手语的双手的前景区域(图3(e))，并使用形态学闭运算和高斯滤波去除存在的噪声轮廓(图3(f))；

步骤2.5：将完成测试的彩色图与伽马变换后的二值图叠加，完成手部分割(图3(g))，分别形成预处理后的孤立词手语数据库和预处理后的连续手语数据库；

步骤3：构建两个结构相同的改进AlexNet神经网络模型，将全局骨骼点坐标数据、预处理后的孤立词手语数据库分别作为单独输入并行处理；

其中，步骤3中对于背景干净、数据量不大的孤立词手语数据库和连续手语数据库，若使用过于复杂的AlexNet，网络较容易过拟合，并且训练时长也成倍数增加。综合考虑模型的容纳能力和数据集的复杂程度后，如图5所示，对AlexNet主要做了如下调整：用3×3的小尺寸卷积核替代原来的5×5和11×11的大尺寸卷积核；在激活函数与池化层之间放弃使用局部响应归一化操作；减少一个全连接层，保留两个全连接层。假设

提取局部手型特征，得到特征矩阵

由于fc6中的单位数是4096，

是4096×1向量，F^C是4096×n矩阵，通过均值池化聚合成得到一个4096×1向量

作为手型序列的特征；同样，对于轨迹得到特征矩阵

并将其压缩为

作为轨迹序列的特征。然后在fc7层拼接两种模态数据的特征连接产生特征向量；

其中，改进AlexNet神经网络模型为18层卷积神经网络模型，如图6所示，包括1个输入层(ImageInputLayer)、5个卷积层(ConvolutionLayer)、5个ReLU层(ReLULayer)、3个池化层(MaxPoolingLayer)、2个全连接层(FullyConnectedLayer)、1个softmax层和1个输出层。按照信息处理顺序依次为：输入层、卷积层1、ReLU层1、池化层1、卷积层2、ReLU层2、池化层2、卷积层3、ReLU层3、卷积层4、ReLU层4、卷积层5、ReLU层5、归一化层5、全连接层6、全连接层7、softmax层和输出层。

卷积层：对输入图像采用卷积模板在三个通道上，对图像进行卷积操作。得到特征图向量。假定卷积层有L个输出通道和K个输入通道，于是需要K×L个卷积核实现通道数目的转换，则卷积运算公式如式(1)所示；

其中，X^*表示第k个输入通道的二维特征图，Y_l表示第l个输出通道的二维特征图，H_kl表示第k行、第l列二维卷积核。假定卷积核大小是I×J，每个输出通道的特征图大小是M×N，则该层每个样本做一次前向传播时卷积层的计算量是：Calculations(MAC)＝I×J×M×N×K×L。

ReLU层：在ReLU层中采用线性整流函数(Rectified Linear Unit,ReLU)对得到的特征图进行运算，线性整流函数为：Ф(x)＝max(0，x)。其中，x为ReLU层的输入向量，f(x)为输出向量，作为下一层的输入。ReLU层能更加有效率的梯度下降以及反向传播，避免了梯度爆炸和梯度消失问题。同时ReLU层简化了计算过程，没有了其他复杂激活函数中诸如指数函数的影响；同时活跃度的分散性使得神经网络整体计算成本下降。在每个卷积操作之后，都有ReLU的附加操作，其目的是在CNN中加入非线性，因为使用CNN来解决的现实世界的问题都是非线性的，而卷积运算是线性运算，所以必须使用一个如ReLU的激活函数来加入非线性的性质。

池化层：对输入的特征图进行压缩，一方面使特征图变小，简化网络计算复杂度；一方面进行特征压缩，提取主要特征。池化层可以在保持最重要的信息的同时降低特征图的维度。如果对矩阵A进行不重叠分块，每块大小为λ×τ，则其中第ij个块可以表示为：

用大小为λ×τ的块对矩阵A进行不重叠下采样，结果定义为：

全连接层：全连接层是一个传统的多层感知器，它起到将学到的“分布式特征表示”映射到样本标记空间的作用。全连接层的目的是根据训练数据集将输入的图像特征分为不同的全连接层的主要计算类型是矩阵-向量乘(GEMV)。假设输入节点组成的向量是x，维度是D，输出节点组成的向量是y，维度是V，则全连接层计算可以表示为y＝Wx。其中W是V×D的权值矩阵。全连接层的参数量为params＝V×D，其单个样本前向传播的计算量也是Calculations(MAC)＝V×DC；也就是CPR＝Calculations/params＝1，其权值利用率很低。可以将一批大小为B的样本x_i逐列拼接成矩阵X，一次性通过全连接层，得到一批输出向量构成的矩阵Y，相应地前面的矩阵—向量乘运算升为矩阵-矩阵乘计算(GEMM)：Y＝WX。这样全连接层前向计算量提高了B倍，CPR相应提高了B倍，权重矩阵在多个样本之间实现了共享，可提高计算速度。

步骤4：用步骤3构建的改进AlexNet神经网络模型对步骤2中预处理后的孤立词手语数据库的训练样本进行训练；具体步骤如下：

步骤4.1：随机初始化所有滤波器以及其他参数和权重值；

步骤4.2：将训练样本作为输入，经过前向传播步骤，即卷积层，ReLU和池化运算，最后达到全连接层进行分类，得到分类结果，也就是输出一个包含每个类预测的概率值的向量。由于权重是随机分配给第一个训练样例的，因此输出概率也是随机的；

步骤4.3：计算输出层的总误差Error(对所有类进行求和)，如式(2)所示，即代价函数，采用平方和函数，即总误差。

步骤4.4：使用反向传播计算网络中所有权重的误差梯度。并使用梯度下降更新所有滤波器值、权重和参数值，以最大限度地减少输出误差，也就是代价函数的值尽量下。权重根据它们对总误差的贡献进行调整。当再次输入相同的图像时，输出概率可能更接近目标矢量。这意味着网络已经学会了通过调整其权重和滤波器来正确分类该特定图像，从而减少输出误差。滤波器数量，滤波器大小，网络结构等参数在步骤4.1之前都已经固定，并且在训练过程中不会改变，只更新滤波器矩阵和连接权值。

步骤4.5：对训练集中的所有图像重复步骤4.2-4.4，直到训练次数达到设定的epoch值。完成上述步骤对训练集数据通过构建的卷积神经网络进行训练学习，这实际上意味着CNN的所有权重和参数都已经过优化，可正确分类孤立词手语数据库中训练集的手语样本。

步骤6：采用K-means将集合S划分为k个类，选取出步骤2中预处理后的连续手语数据库中RCB-D视频分帧图像文件的关键片段，具体步骤如下：

步骤6.1：设置聚类中心个数k；

步骤6.4：对于所有的k个类，完成步骤6.2和6.3后，聚类结束，生成k个簇。聚类终止的条件是最小化所有数据到其簇中心距离的平方和，如式(3)所示：

式中，C_i表示的第i个簇，c_i为该簇的所有值的平均值，s为该簇中的数据对象。通过取最小值，可以使得聚类结果尽可能的收敛与独立。K-means算法对于大量数据划分具有很高的效率，且伸缩性较好，其时间复杂度记为O(nkt)表示数据集合中数据个数，k表示划分的类的个数，t表示迭代更新次数，时间复杂度与样本大小呈线性相关。

步骤7：采用步骤5中的网络模型，对将步骤6中选取关键片段作为连续手语数据库进行测试，双路AlexNet神经网络输出向量即为连续语句所需表征；

如果我们的训练集数据足够大，网络将能够很好的对测试集图像进行正确分类。对于l个样本，标准卷积神经网络从输入到输出的计算过程，如式(4)所示：

其中，W^k和b^k分别表示权值矩阵和偏置；

表示外卷积，

表示内卷积；h_k,a和W^k,a表示H_k的第ɑ个卷积面和第ɑ个卷积核；g(·)一般取为恒等线函数g(x)＝x；down_λ，τ(·)示用大小为λ×τ的块对矩阵进行不重叠下采样；权值β₂和β₄一般取值为1；偏置γ₂和γ₄一般取值为0矩阵；ω＝(ɑ₁,ɑ₂，…，ɑ_γ)；σ表示均方差；H_k表示第k个隐含层(包含卷积层和下采样层)，其中H₅-H_R表示全连接层的各层。

该模型主要分为两个模块，前半部分构成编码(encoder)模块，后半部分为解码(decoder)模块。编码模块扩展为两层结构，第一层是片段编码器，由一个BLSTM糅合注意力层构成；第二层是词编码器，同样是一个BLSTM糅合注意力层构成，之后基于词级向量执行解码；

将提取好的关键帧样本AlexNet特征一帧一帧输入到由LSTM构成的编码模块中，记关键帧手语样本特征为x＝(x₁,x₂,…,x_T)，T表示样本帧数。通过LSTM编码，可以看出当前t时刻的输出不仅与当前时刻的输入x_t有关，还与前一时刻的隐藏层h_t有关，通过二者的共同作用从而建立了前后帧之间的时序关系，每一个编码时刻t可计算出隐层状态h_t，h_t是具有时序信息的编码向量，T个时刻共组成了编码向量组h＝(h₁,h₂,…,h_T)。

在解码端利用LSTM构建序列元素的上下文联系，目的是学习出手语词内的联系。具体解码过程为：根据编码向量传递的时序信息c进行初始化后，在解码时刻t，记解码端的隐层向量为s_t，输出向量为y_t，每个解码时刻根据前一时刻的输出y_t-1来判断当前时刻的最优输出，最后构成表达序列y＝(y₁,y₂,…,y_N)。其中，y_t表示的是解码的词汇元素，N表示的是该样本解码包含的词汇元素个数。每个解码时刻通过最大化输出概率P(y_t|y_t-1,…,y₁,c)来得到解码的输出，一般通过softmax来计算当前时刻的最优输出，公式如式(5)所示：

其中，P(y_t＝w|y_t-1,…,y₁,c)表示当前解码输出判断为词典元素w的概率值，w表示词典元素，V表示整个词典，s_t表示的是解码端隐层向量，W_y表示计算的权重，b_y表示偏置。整个编码解码过程公式如式(6)所示：

为方便计算，将公式(6)转换成对数形式，如式(7)所示；

嵌入编解码网络中的注意力机制可以描述为：首先，选择一个向量作为注意力信号；其次，对输入的序列进行编码；然后，计算注意力信号和编码后序列各个时刻信号的相似度，根据相似度转换成注意力权重；最后，根据权重对输入的序列进行加权融合得到的向量作为输入序列的聚合特征。

在每个解码时刻，目标如式(8)所示；

p(y_t|y_t-1,,y₁,c)＝g(y_t|y_t-1,s_t,c) (8)；

其中，P(y_t＝w|y_t-1,…,y₁,c)表示解码t时刻的输出概率，c表示传送到解码端的编码向量，s_t表示解码LSTM的隐层向量，s表示解码的计算函数。c作为固定的编码向量用于对解码的初始化。

在LSTM编解码网络中，对于编码向量组h＝(h₁,h₂,…,h_T)，认为最后时刻的编码向量包含了所有时刻的时序信息，并设置c＝h_T，h_T表示T时刻的编码向量。然而对于手语来说，每个时刻的编码向量包含的信息不同，对不同解码时刻的作用也是不一样的，因此，为了对编码向量进行有效地利用，更好地探寻手语视频中不同帧在不同解码时刻的作用，将公式(8)进行修改，将c改为c_t，即表示在不同的解码时刻，会有不同的编码信息c_t输入，公式如式(9)所示；

p(y_t|y_t-1,,y₁,c_t)＝g(y_t|y_t-1,s_t,c_t) (9)；

其中，c_t称为上下文向量，为了得到c_t可根据一定准则对编码向量组h＝(h₁,h₂,…,h_T)进行加权，如式(10)所示，其基本准则是与当前解码输出关联越大的编码向量，分配的权重越大：

为了得到每个解码时刻各个编码向量的权重，应用了一个对齐模型，可记为e_tj＝a(s_t-1,h_j)。根据与当前解码t时刻关联越大的编码向量分配的权重越大为基本准则，计算当前解码时刻t的不同元素输出对每帧的编码特征的权重分布，利用t-1时刻的解码LSTM隐层向量s_t-1与编码向量h_j进行对比，即通过对齐模型a(s_t-1,h_j)来获得目标输出和每个输入的编码向量对齐的可能性，然后通过softmax进行归一化得到每个编码向量的权重。记x₁、x₂、x₃为图片特输入，h₁、h₂、h₃为经过LSTM得到的各个时刻的编码向量，s_t-1、s_t为解码端的隐层向量，y_t-2、y_t-1、y_t为输出，最终，可计算得到上下文向量c_t用于t时刻的解码，如式(11)所示；

其中，

表示模型待学习参数。通过计算，即可得到解码t时刻编码向量h_j的关联性大小e_tj，再通过softmax归一化，公式如式(12)所示：

a_tj表示h_j在解码t时刻所占的权值，且∑_ja_tj＝1。在得到权值后，即可根据公式计算出当前解码时刻输入的向量c_t。并根据LSTM的计算过程，解码过程的计算公式如式(13)、(14)、(15)、(16)、(17)、(18)及(19)所示；

f_t＝σ(W_yfEy_t-1+W_sfs_t-1+W_cfc_t+b_f) (13)；

i_t＝σ(W_yiEy_t-1+W_sis_t-1+W_cic_t+b_i) (14)；

o_t＝σ(W_yoEy_t-1+W_sos_t-1+W_coc_t+b_o) (15)；

s_t＝o_ttanh(g_t) (18)；

y_t＝W_hys_t+b_y (19)；

其中，f_t，i_t，o_t分别表示遗忘门，输入门和输出门，g_t表示LSTM的cell单元，s_t表示隐层节点，c_t表示上下文向量，y_t表示输出，这里的输出即为词典元素。

为了验证本发明基于深度神经网络的连续手语识别方法的有效性，通过采集中国连续手语数据库上进行相关实验，将关键帧的AlexNet序列作为输入。编码的LSTM和解码的LSTM单元节点数均设置成1000。将训练得到的模型，在测试集上进行测试，测试时，输入图片CNN特征X＝(x₁,x₂,…,x_T)，通过前向传播，可计算每个解码时刻t的概率输出p(w)验证算法的有效性，其优劣是通过对视频序列手势识别的准确率来进行评估的。

为了更好地说明关键帧的筛选和注意力机制的引入对连续手语识别性能的提升作用，通过在20个连续语句上进行测试，测试结果如表1所示。其中，model-image是指对关键帧片段训练得到的识别模型，该模型相较没有进行关键帧提取的model模型准确率提升了5.3％，说明了关键片段的提取有利于去掉了大部分过渡帧，静止帧等冗余信息，提升识别的整体性能；

表1各个方法的识别率

model-tra指的是针对轨迹信息，训练得到的识别模型，由于连续手语运动轨迹复杂，因此对单独的骨骼流的识别率相对较低。model-attention指的是针对手型序列信息，在原先编码解码网络的基础上引入了注意力机制，训练得到的识别模型，该模型的测试结果相较于model-image模型识别率提升了0.9％，达到87.8％，充分证明了注意力机制的嵌入能够使得编码解码网络具备在不同解码时刻，能够关注与之联系更紧密的信息的能力，这种能力使得手语视频帧在解码端得到了更有效的利用，最终提升了识别性能；model-attentionfusion指的是在注意力基础上，结合特征融合得到的模型，其最后的测试结果达到了88.2％，相比model-featurefusion的结果提升了0.7％，相比于model-attention提升了0.4％，相较于原先的model-image模型性能提升了1.3％。可以看出，利用全局轨迹和局部手型融合丰富了信息的输入，有利于识别模型的泛化性能，利用注意力机制使得信息利用更为有效，通过二者的结合使得识别效果达到最佳。

本发明提出的一种连续手语识别方法克服了由连续手语语句运动轨迹复杂、手型变化快且形变大等问题引起的设计区分性的手语表征存在困难的问题；绕开了连续手语时序建模过程中时间序列的分割不精确及标注孤立手语词耗时的难题；同时，解决了传统手型分割时的人为主观性因素的影响及耗费高昂人工成本的缺陷。

Claims

1.一种基于深度神经网络的连续手语识别方法，其特征在于，具体按照以下步骤实施：

步骤3：构建两个结构相同的改进AlexNet神经网络模型，将全局骨骼点坐标数据、预处理后的孤立词手语数据库分别作为单独输入并行处理；改进AlexNet神经网络模型为18层卷积神经网络模型，包括1个输入层、5个卷积层、5个ReLU层、3个池化层、2个全连接层、1个softmax层和1个输出层；

步骤4.1：随机初始化所有滤波器以及其他参数和权重值；

步骤4.3：计算输出层的总误差Error，如式(2)所示；

步骤4.5：对训练集中的所有图像重复步骤4.2-4.4，直到训练次数达到设定的epoch值；

步骤6：基于K-means聚类算法，选取出步骤2中预处理后的连续手语数据库中RCB-D视频分帧图像文件的关键片段；具体步骤如下：

步骤6.1：设置聚类中心个数k；

式中，C_i表示的第i个簇，c_i为该簇的所有值的平均值，s为该簇中的数据对象；

2.根据权利要求1所述的一种基于深度神经网络的连续手语识别方法，其特征在于，所述步骤2中，对手型图像进行图像预处理，具体步骤如下：

3.根据权利要求1所述的一种基于深度神经网络的连续手语识别方法，其特征在于，所述步骤8中，分层LSTM编解码网络模型分为两个模块，前半部分构成编码模块，后半部分为解码模块；编码模块扩展为两层结构，第一层是片段编码器，由一个BLSTM糅合注意力层构成；第二层是词编码器，由一个BLSTM糅合注意力层构成，之后基于词级向量执行解码。