CN112329690A

CN112329690A - 基于时空残差网络和时序卷积网络的连续手语识别方法

Info

Publication number: CN112329690A
Application number: CN202011281122.4A
Authority: CN
Inventors: 于明; 高阳; 薛翠红; 贾静丽; 王书韵; 刘月豪; 阎刚
Original assignee: Hebei University of Technology; Tianjin University of Technology
Current assignee: Hebei University of Technology; Tianjin University of Technology
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-05
Anticipated expiration: 2040-11-16
Also published as: CN112329690B

Abstract

本发明为基于时空残差网络和时序卷积网络的连续手语识别方法，该方法采用时空残差网络克服了完全使用三维卷积神经网络计算量大的缺点以及完全使用二维卷积神经网络短期时空特征提取不充分的缺陷；时序卷积网络增强块级特征之间的时间关联，可以在一定程度上解决RNN网络中存在的长期依赖的问题，进而在一定程度上解决CTC固有的条件独立性假设带来输出词之间的相关性缺失问题。

Description

基于时空残差网络和时序卷积网络的连续手语识别方法

技术领域

本发明的技术方案涉及深度学习图像处理和模式识别领域，具体地说是基于时空残差网络和时序卷积网络的连续手语识别方法。

背景技术

连续手语识别旨在识别出连续的手语视频中的每一个孤立词手语。具体的说就是利用计算机使用深度学习相关的方法提取连续手语视频中的手语特征，然后进行端到端的识别。手语识别涉及视频采集和处理、计算机视觉、人机交互、模式识别、自然语言处理等多个研究领域。

聋哑人使用的手语由大量手势、肢体动作、面部表情构成，连续手语识别一个难题是：连续手语中富含大量手语词汇，存在手势遮挡，传统的连续手语识别方法使用手工特征来描述手语动作，并基于这些特征使用一些传统的算法建立分类模型，很难设计出可靠的特性来适应手势之间的巨大复杂变化。针对连续手语识别中手势遮挡、手势变化大等问题以及传统手语识别的一些缺点，采用基于深度学习的方式来进行连续的手语识别，Koller等人在“Re-Sign:Re-Aligned End-to-End Sequence Modelling with Deep RecurrentCNN-HMMs”一文中使用CNN提取每一帧的特征，然后将提取的帧级特征输入到双向双层的LSTM网络中，建立帧与帧之间的时间联系，提取视频帧中手势变化的时间信息，该方法的缺点是：由于CNN只是独立的提取每一帧的特征，忽略了相邻帧之间的手势变化信息，并且手语视频中帧数较多，表达一个手语词的连续帧序列数目通常大于10，使用双向双层的LSTM网络建立手语词汇间的时间联系较为困难，不同手语词汇的帧级特征可能会存在相似或者相同，这样会对识别带来一定的误差。CN110096991A公开了一种基于卷积神经网络的手语识别方法，该方法首先采集手语视频的深度图像，然后通过预处理将手型部分分割出来，然后输入到CNN中进行识别，该方法的缺点是：忽略了手部关节的运动信息。CN111325099A公开一种基于双流时空图卷积神经网络的手语识别方法及系统，该方法提取手语动作视频片段中人物上半身和手部骨架点，并构建全局和局部图数据，利用双流时空图卷网络分别提取相邻视频帧全局和局部的短期时空特征，该方法的缺点是：需要复杂的预处理过程，没有对提取出来的短期时空特征建立长期的时间关联，会丢失一些时间信息。

基于深度学习的连续手语识别的另一个难题是：现存的中国手语数据集中，一个连续的手语视频包含的孤立词手语和其对应的标签并没有一一对齐，该标签具有弱监督性，需要通过深度学习的方法从大量的数据中学习这种对齐关系。基于CTC(ConnectionistTemporal Classification)的算法可以解决视频标签的弱监督问题。Camgoz等人在“SubUNets:End-to-End Hand Shape and Continuous Sign Language Recognition”使用CTC进行序列学习，建立手语视频帧和手语词汇之间的映射关系。CTC算法可以自动完成输入输出序列之间的对齐任务，解决了输入手语视频和对应标签对齐位置未知的情况下的序列到序列的分类问题。但CTC存在的缺点是条件独立性假设，即CTC的每一个输出分类都与别的输出分类独立，而连续手语识别前后是相关的。

发明内容

本发明所要解决的技术问题是：提供了一种基于时空残差网络和时序卷积网络的连续手语识别方法，该方法中利用时空残差网络克服了完全使用三维卷积神经网络计算量大的缺点以及完全使用二维卷积神经网络短期时空特征提取不充分的缺陷；时序卷积网络增强块级特征之间的时间关联，可以在一定程度上解决RNN网络中存在的长期依赖的问题，进而在一定程度上解决CTC固有的条件独立性假设带来输出词之间的相关性缺失问题。

本发明解决该技术问题所采用的技术方案是：一种基于时空残差网络和时序卷积网络的连续手语识别方法，该方法包括以下内容：

获取连续手语视频，对其进行预处理后将相邻的多帧图像串联起来形成超图，多个超图构成超图序列，具有多个超图序列；

构建时空残差网络：时空残差网络由Resnet50网络模型和三维残差连接块TCB构成，具体结构为：Conv1，Conv2_x，TCB，Conv3_x，TCB，Conv4_x，Conv5_x，Conv1为Resnet50网络模型中的卷积块，Conv2_x，Conv3_x，Conv4_x，Conv5_x为Resnet50网络模型中的残差连接块，其中三维残差连接块TCB具体操作为，首先将特征输入到一个三维卷积神经网络中，然后将三维卷积神经网络输出的特征进行批标准化，最后将三维残差连接块TCB中的原始输入特征与经过批标准化的特征相加得到的特征进行输出；

利用时空残差网络提取超图序列I中的短期时空特征，再经全局平均池化，获得最终的短期时空特征F；

利用时序卷积网络，增强短期时空特征F之间的时间关联，获得增强时间联系的块级特征F′；

将上述获取的增强时间联系的块级特征F′输入到串联的三层BGRU中，提取长期时间联系的块级特征E；

以长期时间联系的块级特征E作为输入，获得归一化的分类概率矩阵Y；

基于CTC算法训练整个端到端的神经网络参数，然后使用训练好的模型将上述获得的分类概率矩阵Y进行解码，预测输出手语标签G。

该方法的具体步骤是：

第一步，输入视频V，进行预处理，获取超图序列I：

输入视频V＝(v₁，…，v_i，…v_T)，其中，T为输入视频V的帧序数，其分别为原始手语图像序列的第一帧、…、第i帧、…、第T帧，将输入视频V的每帧大小都缩放到224×224像素，并将输入视频V的每个像素值都归一化到(0，1)之间，然后将连续手语视频相邻的5帧串联起来，将如此进行预处理之后的视频序列记为超图序列

其中N＝T/5，t＝1，…，N，t为第t个5帧为一组的串联后的超图序数，超图序列I的维度为(N，15，224，225)；

第二步，提取超图序列I中的短期时空特征F：

将第一步预处理得到的超图序列I输入到时空残差网络中，提取超图序列I中的短期时空特征F，其中时空残差网络由Resnet50网络模型和三维残差连接块TCB构成，具体结构为：Conv1，Conv2_x，TCB，Conv3_x，TCB，Conv4_x，Conv5_x，Conv1为Resnet50网络模型中的卷积块，Conv2_x，Conv3_x，Conv4_x，Conv5_x为Resnet50网络模型中的残差连接块，其中三维残差连接块TCB具体操作为，首先将特征输入到一个三维卷积神经网络中，然后将三维卷积神经网络输出的特征进行批标准化，最后将三维残差连接块TCB中的原始输入特征与经过批标准化的特征相加得到的特征进行输出；提取超图序列I中的短期时空特征F的具体操作为，

将第一步预处理得到的超图序列I输入到Resnet50网络模型中，经过Resnet50网络模型中的卷积块Conv1和残差连接块Conv2_x后得到空间特征I′，提取出的I′的特征维度为(N，64，112，112)，

将空间特征I′输入到第一个三维残差连接块TCB提取短期时空特征，TCB(·)内部流程：首先将I′的形状转换成(1，N，64，112，112)，其次将转换后的特征输入到三维卷积网络中，设置卷积核的个数为64，卷积核大小为(3，1，1)，步长为(1，1，1)，然后将三维卷积网络的输出输入到一个批标准化层中，接着将批标准化层的输出的形状转换为(N，64，112，112)，最后将批标准化的输出与I′相加得到最终的输出；然后将经第一个三维残差连接块TCB输出的短期时空特征输入到残差连接块Conv3_x中提取空间特征I″，

将空间特征I″输入到第二个三维残差连接块TCB中进一步提取短期时空特征，然后将第二个三维残差连接块TCB输出的短期时空特征输入到Conv4_x提取空间特征，最后将Conv4_x提取到的特征输入到Conv5_x获得最终的特征I_final；

将时空残差网络提取的最终的特征I_final进行全局平均池化，获得最终的短期时空特征

F此时的维度为(N，2048，1，1)；

第三步，利用时序卷积网络，增强短期时空特征F之间的时间关联，获得增强时间联系的块级特征F′：

首先，将上述第二步获取的短期时空特征F的维度通过reshape函数转换成(1，N，2048，1)，然后使用深度学习框架中的一个函数transpose将时间这个维度转换到第三维，转换后的特征维度为(1，2048，N，1)，将转换维度后的短期时空特征输入到一个批标准化层中，将该批标准化层的输出输入到第一个二维卷积神经网络中，得到输出att_{1_1}，

其次，将att_{1_1}输入到第二个二维卷积神经网络中，将该二维卷积神经网络的输出输入到一个批标准化层中，设置激活函数为relu，得到输出att_{1_2}，

然后，将att_{1_2}输入到第三个二维卷积神经网络中，将该二维卷积神经网络的输出输入到第四个二维卷积神经网络中，得到输出att_{1_3}，实现在时间维度上的卷积，

接着，将上述第二步获取的短期时空特征F的维度通过reshape函数转换成(1，N，2048，1)，然后使用深度学习框架中的一个函数transpose将时间这个维度转换到第三维，转换后的特征维度为(1，2048，N，1)，将其输入到一个批标准化层中，将该批标准化层的输出输入到第五个二维卷积神经网络中，得到输出att₂，第五个二维卷积神经网络与第四个二维卷积神经网络的卷积核数量相同；

最后，将att₂与att_{1_3}相加，将相加的结果输入到一个批标准化层中，设置激活函数为relu，得到最终增强时间联系的块级特征

F′的维度为(N，1024)；

第四步，提取增强时间联系的块级特征F′的长期时间联系的块级特征E：

将上述第三步获取的增强时间联系的块级特征F′输入到串联的三层BGRU中，提取长期时间联系的块级特征

提取长期时间联系的块级特征E的表达为如下公式(11)所示，

公式(11)中RNNGroup(·)是为提取F′具有长期时间联系的块级特征的函数，RNNGroup(·)由串联的三层双向双层的门控循环单元组成；

第五步，获得归一化的分类概率矩阵Y：

将第四步获取的长期时间联系的块级特征E输入到一个softmax激活函数中，E中的每一个向量中的数值都被转换为概率值，并且这些概率值的加和为1，通过softmax激活函数获得分类概率矩阵

的表达为公式(12)，

公式(12)中W_fc为全连接层的参数矩阵，b_fc为偏置值，全连接层的输出大小为数据集的词汇量大小，即Y的维度大小为(N，1232)，通过softmax函数将输出转变成归一化的分类概率，

第六步，训练神经网络，预测输出手语标签G：

该步骤包含两方面的内容，训练和预测；首先使用训练集训练整个端到端的神经网络的参数，然后使用训练好的模型将上述第五步获得的分类概率矩阵Y进行解码，预测输出手语标签G，具体操作如下，

第6.1步，构建链接时序分类网络损失函数L_ctc，训练神经网络：

将上述第五步获得归一化的分类概率矩阵Y以及对应的训练集标签序列S输入到链接时序分类网络中，加和所有可能路径的条件概率获得最终的条件概率P(S|Y)的表达为公式(13)，

公式(13)中，∏＝(π₁，…，π_i，…π_s)，在链接时序分类网络中引入一个空白标签(＊)作为辅助标记，π_i∈Ω∪{*}，Ω是手语词汇表，∏是Y解码后的一个可能的序列，定义一个多对一的映射B，B用来移除∏中的重复标签和空格，p(∏|Y)为通过Y解码出的某个序列的条件概率，P(S|Y)为所有可能路径的条件概率之和，使用P(S|Y)构建链接时序分类网络损失函数L_ctc的表达为公式(14)，

L_ctc＝-lnP(S|Y) (14)，

公式(14)中-ln(·)为求解一个数自然对数的相反数的函数，

第6.2步，根据训练好的模型参数对Y进行解码，预测输出测试集手语标签G：

将第五步获得归一化的分类概率矩阵Y，采用贪婪解码策略进行解码，预测输出手语标签G的表达为公式(15)，

G＝CGD(Y) (15)，

公式(15)中CGD(·)是使用贪婪解码策略对Y进行解码的解码函数，

至此完成预测输出手语标签G；

至此完成基于时空残差网络网络以及时序卷积网络的连续手语识别。

与现有技术相比，本发明的有益效果是：

本发明突出的实质性特点如下：

(1)本发明中时空残差网络为2D与3D相结合的网络，既降低了网络的参数量，计算量，又提升了网络的深度，避免完全使用3D残差连接而导致网络的参数量巨大、时间成本和算力成本增加、只能有效的提取短期时空特征而不能有效获得长时时空特征的问题。本申请中的连续手语视频手语词汇较长时，借助时序卷积网络，该时序卷积网络在时间维度上对视频特征进行卷积，可以增强第二步中提取的短期时空特征F之间的时间关联，即手语词汇的长时时空特征，能有效的获取手语词汇的长时时空特征。本申请将连续手语视频相邻的5帧串联起来，形成块级特征，不需要对每一个帧级特征单独提取去形成块级特征，不存在相邻的块级特征之间的重叠，不会造成特征冗余。

(2)本申请将手语视频从初始阶段就分割成一个个的块级特征，所以一个孤立词手语所对应的特征一定是由这一个个块级特征组成，后续使用本申请提出时空残差网络和时序卷积网络分别提取短期时空特征和增强这些短期时空特征之间的长期时间关联，最后再使用3层串联BGRU+CTC的这种结构将这些块级特征映射为最终的手语词，能够精准识别需要每一个孤立词手语的开始结束的监督信息，实现连续手语的识别。

本发明的显著进步是：

(1)本发明方法与CN110096991A相比，本发明方法所具有的优点是可以有效提取短期时空特征，并且对特征块之间的时间特征也进行建模，提高了识别效果。

(2)本发明方法使用改进的Resnet50，在原Resnet50的第一个和第二个残差块的下面分别添加了一个三维残差连接块TCB，使Resnet50具有提取短期时空特征的能力，而且比完全使用三维卷积神经网络大大降低了参数数量，降低计算量。相比AlexNet具有更强的特征提取能力，而且不需要使用计算量较大的k-means聚类，直接使用CTC就可以进行端到端的预测。

(3)本发明方法与CN111325099A相比，本发明方法所具有的优点是本实验不需要对图片数据进行额外的预处理，直接使用原始的帧作为输入，利用时空残差网络可以充分的提取特征。在时空卷积的基础上添加了特征块之间的时间卷积，加强了前后手势的时间关联，提高了识别效果。

(4)本发明方法提出了一种时空残差网络，先将视频帧序列中连续的多帧进行通道堆叠，形成一个包含短期时空特征的超图序列，然后用时空残差网络提取每个超图序列中短期的时空特征形成块级特征，这样不仅降低了计算量，还充分提取连续视频帧中短期的时空特征。

(5)本发明方法提出了一个时序卷积网络，通过将提取的块级特征输入到时序卷积网络增强块级特征之间的时间关联，在一定程度上解决了RNN网络中存在的长期依赖的问题，进而在一定程度上解决了CTC固有的条件独立性假设带来输出词之间的相关性缺失问题。

(6)本发明方法使用了RNNGroup，多层堆叠的BGRU更有利于块级特征之间时间联系的建立，使CTC和时序卷积网络一起使用，解决了CTC固有的条件独立性假设带来输出词之间的相关性缺失问题，提高了网络的时序建模能力，CTC的识别效果好，本申请中使用的块级特征以及时序卷积网络也在一定程度上解决RNN长期依赖的问题。

(7)本发明方法不仅可以识别单个的手语，而且可以识别连续的手语，相当于一连串的动作识别，最后的标签是一个句子，具有更强的可扩展性和应用型。本发明方法考虑到了短期的手势变化的信息，即短期的时空特征，能够提取手势特征以及短期的时空特征，使得整个网络对手势以及手形的变化更加敏感，提高了识别精度；对时空信息的提取更加细致全面，降低了计算量，增加了网络深度，增强了鲁棒性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明基于时空残差网络和时序卷积网络的连续手语识别方法流程示意框图。

图2是时序卷积网络提取特征的流程示意图。

具体实施方式

图1所示实施例表明，本发明基于时空残差网络和时序卷积网络的连续手语识别方法的流程如下：

输入视频V，进行预处理，获取超图序列I→提取超图序列I中的短期时空特征F→利用时序卷积网络，增强短期时空特征F之间的时间关联，获得增强时间联系的块级特征F′→提取增强时间联系的块级特征F′的长期时间联系的块级特征E→获得归一化的分类概率矩阵Y→预测输出手语标签S→完成连续的手语识别。

图2所示实施例表明，本发明基于时序卷积网络增强短期时空特征F之间的时间关联，获得增强时间联系的块级特征F′的流程如下：

首先，将F的维度转换成(1，2048，N，1)，将其输入到一个批标准化层中，将该批标准化层的输出输入到一个二维卷积神经网络中，得到输出att_{1_1}→其次，将att_{1_1}输入到一个二维卷积神经网络中，将该二维卷积神经网络的输出输入到一个批标准化层中，设置激活函数为relu，得到输出att_{1_2}→然后，将att_{1_2}输入到一个二维卷积神经网络中，将该二维卷积神经网络的输出输入到下一个二维卷积神经网络中，得到输出att_{1_3}→接着，将上述F的维度转换成(1，2048，N，1)，将其输入到一个批标准化层中，将该批标准化层的输出输入到一个二维卷积神经网络中，得到输出att₂→最后，将att₂与att_{1_3}相加，将相加的结果输入到一个批标准化层中，设置激活函数为relu，得到最终增强时间联系的块级特征F′。

本申请中时序卷积网络具有多个二维卷积神经网络(conv2d)，多个二维卷积神经网络(conv2d)中卷积核的大小，数目以及卷积步长，分组数不太相同。

第一个二维卷积神经网络设置卷积核的个数为2048，分组数为2048，卷积核大小为[3，1]，步长为[1，1]；

第二个二维卷积神经网络设置卷积核的个数为1024，分组数为1，卷积核大小为[1，1]，步长为[1，1]；

第三个二维卷积神经网络设置卷积核的个数为1024，分组数也为1024，卷积核大小为[3，1]，步长为[1，1]；

第四个二维卷积神经网络设置卷积核的个数为1024，分组数为1，卷积核大小为[3，1]，步长为[1，1]；

第五个二维卷积神经网络设置卷积核的个数为1024，分组数为1，卷积核大小为[1，1]，步长为[1，1]。

一般一个孤立词手语包含的手语视频帧数大致为15帧，本申请中将一个孤立词对应的手语视频帧数分成三份，每份5帧，以连续的5帧图像作为一个超图输入到时空残差网络中，可以获得该超图的块级特征，一个连续的手语视频远大于15帧，将连续的手语视频都按照超图形式进行处理，每个超图中可能不能完全包含一个完整的孤立词手语，但由于超图构成的超图序列与时序卷积网络的联合使用可以对这些块级特征建立长期的时间关联，而不用考虑该块级特征是否包含一个完整的孤立词手语，也不会造成特征冗余。

三维残差连接块TCB的具体结构是：包括reshape层、三维卷积层conv3d、批标准化层、reshape层、元素相加层(element-add)，reshape函数用于重新调整矩阵的形状，输入特征的维度为(N，C，H，W)，首先经一个reshape层调整为适合conv3d输入的形状，此处是将输入特征的形状调整为(1，N，C，H，W)，接着将调整后的特征输入到批标准化层中，然后将批标准化层的输出输入到下一个reshape层将形状再调整为(N，C，H，W)，最后将reshape的输出与三维残差连接块TCB的初始输入相加得到最终的输出。C，H，W分别为输入图的长、高、宽。

实施例1

本实施例的基于时空残差网络和时序卷积网络，具体步骤如下：

第一步，输入视频V，进行预处理，获取超图序列I：

输入视频V＝(v₁，…，v_i，…v_T)，其中，T为输入视频V的帧序数，其分别为原始手语图像序列的第一帧、…、第i帧、…、第T帧，将输入视频V的每帧大小都缩放到224×224像素，并将视频V的每个像素值都归一化到(0，1)之间，然后将连续手语视频相邻的5帧串联起来，将如此进行预处理之后的视频序列记为超图序列

其中N＝T/5，t＝1，…，N，t为第t个5帧为一组的串联后的超图序数，超图序列I的维度为(N，15，224，225)，超图序列I表达为如下公式(1)所示，

公式(1)中，Resize(·)表示调整视频维度大小的函数，Normalize(·)为归一化函数，可以将图片的像素值归一化到(0，1)之间，

第二步，提取超图序列I中的短期时空特征F：

将第一步预处理得到的超图序列I输入到时空残差网络中，提取超图序列I中的短期时空特征F，其中时空残差网络由Resnet50网络模型和三维残差连接块TCB构成，具体结构为：Conv1，Conv2_x，TCB，Conv3_x，TCB，Conv4_x，Conv5_x，Conv1为Resnet50网络模型中的卷积块，Conv2_x，Conv3_x，Conv4_x，Conv5_x为Resnet50网络模型中的残差连接块，其中三维残差连接块TCB具体操作为，首先将特征输入到一个三维卷积神经网络中，然后将三维卷积神经网络输出的特征进行批标准化，最后将三维残差连接块TCB中的原始输入特征与经过批标准化的特征相加得到的特征进行输出，提取超图序列I中的短期时空特征F的具体操作为，

将第一步预处理得到的超图序列I输入到Resnet50网络模型中，经过Resnet50网络模型中的卷积块Conv1和残差连接块Conv2_x后得到空间特征I′表达为如下公式(2)所示，

I′＝f_{Conv2_x}(f_Conv1(I)) (2)，公式(2)中，f_Conv1(·)和f_{Conv2_x}(·)为提取空间特征的函数，提取出的I′的特征维度为(N，64，112，112)；

将公式(2)获取的空间特征I′输入到第一个三维残差连接块TCB提取短期时空特征，TCB(·)内部流程：首先将I′的形状转换成(1，N，64，112，112)，其次将转换后的特征输入到三维卷积网络中，设置卷积核的个数为64，卷积核大小为(3，1，1)，步长为(1，1，1)，然后将三维卷积网络的输出输入到一个批标准化层中，接着将批标准化层的输出的形状转换为(N，64，112，112)，最后将批标准化的输出与I′相加得到最终的输出；

然后将该短期时空特征输入到残差连接块Conv3_x中提取空间特征I″表达为如下公式(3)所示，

I″＝f_{Conv3_x}(TCB(I′)) (3)，

公式(3)中，TCB(·)为提取短期时空特征的函数，f_{Conv3_x}(·)为提取空间特征的函数，

将公式(3)获取的特征I″输入到第二个三维残差连接块TCB中进一步提取短期时空特征，然后将该短期时空特征输入到Conv4_x提取空间特征，最后将Conv4_x提取到的特征输入到Conv5_x获得最终的特征I_final表达为如下公式(4)所示，

I_final＝f_{Conv5_x}(f_{Conv4_x}(TCB(I″))) (4)，

公式(4)中，f_{Conv4_x}(·)和f_{Conv5_x}(·)为提取空间特征的函数，

F此时的维度为(N，2048，1，1)，通过I_final提取短期时空特征F的表达为如下公式(5)所示，

公式(5)中，meanpooling为全局平均池化，

首先，将上述第二步获取的短期时空特征F的维度通过reshape函数转换成(1，N，2048，1)，然后使用深度学习框架中的一个函数transpose将时间这个维度转换到第三维，目的是可以在时间这个维度上进行卷积，转换后的特征维度为(1，2048，N，1)，将其输入到一个批标准化层中，将该批标准化层的输出输入到一个二维卷积神经网络中，设置卷积核的个数为2048，分组数为2048，卷积核大小为[3，1]，步长为[1，1]，得到输出att_{1_1}，提取特征att_{1_1}的表达如下公式(6)所示，

att_{1_1}＝conv2d(BN(transpose(reshape(F)))) (6)，

公式(6)中，transpose(·)为转换F维度的函数，BN(·)为批标准化函数，conv2d(·)为二维卷积函数，

其次，将att_{1_1}输入到二维卷积神经网络中，设置卷积核的个数为1024，分组数为1，卷积核大小为[1，1]，步长为[1，1]，将该二维卷积神经网络的输出输入到一个批标准化层中，设置激活函数为relu，得到输出att_{1_2}，提取特征att_{1_2}的表达式下公式(7)所示，

att_{1_2}＝relu(BN(conv2d(att_{1_1}))) (7)，

公式(7)中，conv2d(·)为二维卷积函数，BN(·)为批标准化函数，relu(·)为一种非线性激活函数，

然后，将att_{1_2}输入到一个二维卷积神经网络中，设置卷积核的个数为1024，分组数也为1024，卷积核大小为[3，1]，步长为[1，1]，将该二维卷积神经网络的输出输入到下一个二维卷积神经网络中，设置卷积核的个数为1024，分组数为1，卷积核大小为[3，1]，步长为[1，1]，得到输出att_{1_3}，提取特征att_{1_3}的公式如(8)所示，

att_{1_3}＝conv2d(conv2d(att_{1_2})) (8)，

公式(8)中，conv2d(·)为二维卷积函数，

接着，将上述第二步获取的短期时空特征F的维度通过reshape函数转换成(1，N，2048，1)，然后使用深度学习框架中的一个函数transpose将时间这个维度转换到第三维，目的是可以在时间这个维度上进行卷积，转换后的特征维度为(1，2048，N，1)，将其输入到一个批标准化层中，将该批标准化层的输出输入到一个二维卷积神经网络中，设置卷积核的个数为1024，分组数为1，卷积核大小为[1，1]，步长为[1，1]，得到输出att₂，提取特征att₂的表达如下公式(9)所示，

att₂＝conv2d(BN(transpose(reshape(F)))) (9)，

公式(9)中，transpose(·)为转换F维度的函数，BN(·)为批标准化函数，conv2d(·)为二维卷积函数，

F′的维度为(N，1024)，提取增强时间联系的块级特征F′表达为如下公式(10)所示，

公式(10)中，BN(·)为批标准化函数，relu(·)为一种非线性激活函数，

提取长期时间联系的块级特征E的表达为如下公式(11)所示，

公式(11)中RNNGroup(·)是为提取F′具有长期时间联系的块级特征的函数，RNNGroup(·)由串联的三层双向双层的门控循环单元组成，双向双层的门控循环单元组成英文缩写BGRU，全称为Bi-directional Gated Recurrent Unit，为公知的算法，三层双向双层的门控循环单元(简称为RNNGroup)是将三个BGRU串联形成。

第五步，获得归一化的分类概率矩阵Y：

的表达为如下公式(12)所示，

第六步，训练神经网络，预测输出手语标签G：

该步骤包含两方面的内容，训练和预测；首先使用训练集整个端到端的神经网络的参数，然后使用训练好的模型将上述第五步获得的分类概率矩阵Y进行解码，预测输出手语标签G，具体操作如下，

第6.1步，构建链接时序分类(CTC)网络损失函数L_ctc，训练神经网络：

将上述第五步获得归一化的分类概率矩阵Y以及对应的训练集标签序列S输入到链接时序分类网络中，加和所有可能路径的条件概率获得最终的条件概率P(S|Y)的表达为如下公式(13)所示，

公式(13)中，∏＝(π₁，…，π_i，…π_s)，在链接时序分类网络中引入一个空白标签(＊)作为辅助标记，π_i∈Ω∪{*}，Ω是手语词汇表，∏是Y解码后的一个可能的序列，定义一个多对一的映射B，B用来移除∏中的重复标签和空格，p(∏|Y)为通过Y解码出的某个序列的条件概率，P(S|Y)为所有可能路径的条件概率之和，使用P(S|Y)构建链接时序分类网络损失函数L_ctc的表达为如下公式(14)所示，

L_ctc＝-lnP(S|Y) (14)，

公式(14)中-ln(·)为求解一个数自然对数的相反数的函数，

将第五步获得归一化的分类概率矩阵Y，采用贪婪解码策略进行解码，预测输出手语标签G的表达为如下公式(15)所示，

G＝CGD(Y) (15)，

公式(15)中CGD(·)是使用贪婪策略对Y进行解码的解码函数，

至此完成预测输出手语标签G；

至此完成基于时空残差网络网络和时序卷积网络的连续手语识别。

本发明中所述的神经网络包括时空残差、时序卷积、RNNGrooup和CTC所构成的一个端到端的整个网络。

上述一种基于时空残差网络网络以及时序卷积网络的连续手语识别方法，其中的双向双层的门控循环单元英文缩写BGRU，全称为Bi-directional Gated Recurrent Unit，链接时序分类网络英文缩写为CTC，全称为Connectionist Temporal Classification，贪婪解码策略英文缩写为CGD，全称为CTC Greedy Decoder，50层残差网络英文简写为Resnet50，全称为Residual Network 50，为本技术领域公知的算法。

本发明未述及之处适用于现有技术。