CN111339837B

CN111339837B - 一种连续手语识别方法

Info

Publication number: CN111339837B
Application number: CN202010083258.8A
Authority: CN
Inventors: 于明; 秦梦现; 薛翠红; 郝小可; 郭迎春; 阎刚; 于洋; 师硕; 刘依
Original assignee: Hebei University of Technology; Tianjin University of Technology
Current assignee: Hebei University of Technology; Tianjin University of Technology
Priority date: 2020-02-08
Filing date: 2020-02-08
Publication date: 2022-05-03
Anticipated expiration: 2040-02-08
Also published as: CN111339837A

Abstract

本发明一种连续手语识别方法，涉及用于识别图形的记录载体的处理，是基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法，首先获得光流图像序列，通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合，和手语句子标签的文本特征序列的提取，将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出，克服了现有技术存在的特征单一、视频需要分割的缺陷。

Description

一种连续手语识别方法

技术领域

本发明的技术方案涉及用于识别图形的记录载体的处理，具体地说是一种连续手语识别方法。

背景技术

听障人士由于语言障碍在日常生活中存在诸多不便。手语识别技术可以帮助听障人士与健听人士进行沟通交流。手语识别的关键技术是设计视觉描述器，该描述器能可靠的捕捉手势、姿态和面部表情特征，进行手语识别。国内外对手语识别技术的研究方向有两个，一个是在基于传感器的数据手套手语识别，另一个是基于视觉特征的手语识别。由于基于传感器的数据手套手语识别设备不灵活，无法在日常生活中使用，近年来国内外对手语识别技术的研究主要是基于视觉特征的手语识别，其中关键问题则是通过视觉特征提取对连续手语进行识别。

基于视觉特征的手语识别的方法分为两类：一类是基于单模态特征的手语识别方法，另一类是基于多模态特征的手语识别方法。

基于单模态特征的手语识别方法一般是采用原始视频帧进行手语识别。Koller等人于2016年在“Deep sign:hybrid CNN-HMM for continuous sign languagerecognition”一文中将卷积神经网络中提取到的原始视频帧的空间信息输入到隐马尔科夫中提取隐藏序列信息，再以贝叶斯方法进行分类，输出识别结果。Ye等人于2018年在“Recognizing American Sign Language Gestures from within Continuous Videos”一文中提出将3D卷积神经网络的全连接层和循环神经网络进行融合，极大降低了帧序列之间的时间信息丢失率。CN110188732A公开了一种静态手语识别方法，该方法通过神经网络对静态图像进行手语识别，缺少对动态连续手语进行训练，特征较为单一。CN110110602A公开了一种基于三维残差网络和视频序列的动态手语方法，该方法首先使用Faster R-CNN检测手部位置并分割出手部，利用三维残差卷积神经网络进行时空特征提取和视频序列分析，该方法只对手部位置进行识别，缺少全局信息，提取到的特征仅为局部特征。CN109656358A公开了一种多维手语识别方法，该方法利用速度传输器和肌电传感器采集数据，该方法所需时间较长，且需要较多的人力物力，只能采集到极少的手语。CN110472548A公开了一种基于语法分类器的视频连续手语识别方法及系统，该方法将获取到的原始手语视频分割成多个视频段，再利用三维卷积神经网络对各个视频段进行时空特征提取，该方法在分割视频段时要保证每个视频段仅包含一个手语单词，需对视频帧序列与句子中的单词进行对齐，比较耗时。上述方法存在的缺陷是：输入模态单一，仅包含原始手语图像视频序列，提供了外观等特征，缺少对手部和肢体的描述，忽略了几何、运动等精细特征的描述，手语识别结果较差，识别精度不高。为了克服上述基于单模态特征的手语识别方法存在的缺陷，之后的研究逐渐转向基于多模态特征的手语识别方法。

基于多模态特征的手语识别方法是指通过神经网络对手势、姿态、面部表情、口型几种特征进行提取，通过不同的特征增强手语识别的鲁棒性。Chai等人于2016年在“Twostreams recurrent neural networks for large-scale continuous gesturerecognition”一文中介绍了利用双流Faster R-CNN进行了原始手语图像和深度图中的手部检测，并通过设置阈值的方式提取关键帧，该方法中，为了更好地得到手部的运动特征，对视频帧序列进行关键帧提取，通过图像预处理将视频帧中的手部位置提取出来，其存在的缺陷是：只提取关键的手部动作，丢失了视频帧之间手部动作的连续性，只关注局部特征忽略了全局特征，丢失了全局特征信息。Koller等人于2019年在“Weakly SupervisedLearning with Multi-Stream CNN-GRU-HMMs to Discover Sequential Parallelism inSign Language Videos”一文中介绍了利用原始手语图像视频序列、右手序列和口型序列分别输入到CNN网络中将每一视频帧对应于一个单词标签，得到每一个单词标签对应的一组手语帧序列，在HMM进行特征融合后进行句子标签的输出，该方法存在前期需要大量的时间进行帧对齐工作，不能真正实现端到端的手语识别的缺陷。CN110175551A公开了一种手语识别方法，该方法将视频序列图像相位信息和原始手语图像送入神经网络进行加权融合，该方法存在缺少序列之间的时间建模，不支持真正端到端的特征学习的缺陷。CN110399850A公开了一种基于深度神经网络的连续手语识别方法，该方法使用Kinect相机获取深度、彩色和骨架点图像，将其进行手型信息预处理和轨迹信息预处理，再通过双路进行关键片段特征提取，该方法存在只提取关键片段，忽略了连续手语视频帧之间的动作相关性的缺陷。CN107103311A公开了一种连续手语的识别方法及其装置，该方法将获取到的原始手语图像和深度图通过深度阈值分割和肤色分割获取手部区域，再通过特征提取和整合进行相似度匹配进行手语识别，该方法虽然采用了两种模态，但是存在仅为了得到手部区域，只提取了局部特征，忽略了其他部位对于手语识别的作用的缺陷。CN107679491A公开了一种融合多模态特征的3D卷积神经网络手语识别方法，该方法采用手势红外图像和轮廓图像特征，利用三维卷积神经网络进行特征提取并融合，该方法存在使用体感设备进行数据采集时，只能采集到较少的手语数据，无法应用于其他手语数据库，不具有普遍性的缺陷。

总之，连续手语识别方法的现有技术还存在特征单一、视频需要分割的缺陷。

发明内容

本发明所要解决的技术问题是：提供一种连续手语识别的方法，是基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法，首先获得光流图像序列，通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合，和手语句子标签的文本特征序列的提取，将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出，克服了现有技术存在的特征单一、视频需要分割的缺陷。

本发明解决该技术问题所采用的技术方案是：一种连续手语识别的方法，是基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法，首先获得光流图像序列，通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合，和手语句子标签的文本特征序列的提取，将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出，具体步骤如下：

第一步，由原始手语图像序列通过FlowNet网络提取获得光流图像序列：

对输入的含有n帧图像的原始手语图像序列X＝(x₁,x₂,...,x_n)，其中，n为图像序列的帧序数(下同)，x₁、x₂、…、x_n分别为原始手语图像序列的第一帧、第二帧、…、第n帧，通过FlowNet网络提取相邻图像间的光流场，每个手语图像序列间的光流场组成光流图像序列，得到的含有n帧图像的光流图像序列为X'＝(x'₁,x'₂,...,x'_n)，其中x'₁、x'₂、…、x'_n分别为光流图像序列的第一帧、第二帧、…、第n帧；

第二步，原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合：

通过三维卷积残差网络对上述第一步所述的原始手语图像序列和光流图像序列进行时空特征提取和多模态图像序列时空特征融合，具体操作如下，

第(2.1)步，原始手语图像序列和光流图像序列的时空特征的提取：

第(2.1.1)步，原始手语图像序列的时空特征的提取：

将上述第一步中输入的含有n帧图像的原始手语图像序列输入到第一个三维卷积残差网络进行提取原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征，操作如下：

将上述第一步中的输入的含有n帧图像的原始手语图像序列X＝(x₁,x₂,...,x_n)以16帧为一个原始手语图像序列组输入到第一个三维卷积残差网络前两层卷积层和池化层，输入的图像序列重新定义为

其中T＝n/16，t＝1,...,T，t为第t个16帧为一组的融合后的多模态图像序列组(下同)，该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的原始手语图像序列时空特征

的表达为如下公式(1)所示，

公式(1)中，maxpooling为最大池化函数(下同)，f为激活函数ReLU(下同)，f(F(v_t,W₁ ^a))为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层输出的原始手语图像序列时空特征，F(v_t,W₁ ^a)为将原始手语图像序列

输入到第一个三维卷积残差网络的第一层卷积层后的非线性映射的结果，W₁ ^a为原始手语图像在第一个三维卷积残差网络的第一层卷积层中的权重，

该输入的原始手语图像序列在第一个三维卷积残差网络中的第二层卷积层之后的第二层池化层输出的原始手语图像序列时空特征

的表达为如下公式(2)所示，

公式(2)中，

为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第二层卷积层输出的原始手语图像序列时空特征，

为将上述第一层池化层输出的原始手语图像序列时空特征

输入到第一个三维卷积残差网络的第二层卷积层后的非线性映射的结果，

为原始手语图像在第一个三维卷积残差网络的第二层卷积层中的权重，由此完成原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征的提取；

第(2.1.2)步，光流图像序列的时空特征的提取：

将上述第一步中输入的含有n帧图像的光流图像序列输入到第二个三维卷积残差网络进行提取光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征，操作如下：

上述第一步中得到的含有n帧图像的光流图像序列X'＝(x'₁,x'₂,...,x'_n)以16帧为一个光流图像序列组输入到第二个三维卷积残差网络的前两层卷积层和池化层，输入的光流图像序列为

其中T＝n/16，t＝1,...,T，该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的光流图像序列时空特征

的表达为如下公式(3)所示，

公式(3)中，maxpooling为最大池化函数(下同)，f(F(v'_t,W₁ ^m))为该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层输出的光流图像序列时空特征，F(v'_t,W₁ ^m)为将光流图像序列

输入到第二个三维卷积残差网络的第一层卷积层后的非线性映射的结果，W₁ ^m为光流图像序列在第二个三维卷积残差网络的第一层卷积层中的权重；

该输入的光流图像序列在第二个三维卷积残差网络中的第二层卷积层之后的第二层池化层输出的光流图像序列时空特征

的表达为如下公式(4)所示，

公式(4)中，

为该输入的光流图像序列在该第二个三维卷积残差网络中的第二层卷积层输出的光流图像序列时空特征，

为将上述第一层池化层输出的光流图像序列时空特征

输入到第二层卷积层后的非线性映射的结果，

为光流图像序列在第二个三维卷积残差网络中的第二层卷积层中的权重，由此完成光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征的提取；

至此完成原始手语图像序列和光流图像序列的时空特征的提取；

第(2.2)步，多模态图像序列时空特征融合：

将上述第(2.1.1)步提取的原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征和上述第(2.1.2)步提取的光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征在三维卷积残差网络后三个层卷积层和池化层进行多模态图像序列时空特征融合，操作如下：

上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第一个卷积层输出的原始手语图像序列时空特征

的表达为如下公式(5)所示，

公式(5)中，

为将上述第一个三维卷积残差网络中的第二层池化层输出的原始手语图像序列时空特征

输入到第一个三维卷积残差网络的第三层卷积层中的第一个卷积层后的非线性映射的结果，

为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第一个卷积层中的权重；

上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第k个卷积层输出的原始手语图像序列时空特征

的表达为如下公式(6)所示，

公式(6)中，

为将上述第一个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的原始手语图像序列时空特征

输入到第一个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果，

为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重；

上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征

与上述的原始手语图像序列时空特征

相加，得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征

的表达为如下公式(7)所示，

上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中的第一个卷积层输出的光流图像序列时空特征

的表达为如下公式(8)所示，

公式(8)中，

为将上述的光流图像序列时空特征

输入到第二个三维卷积残差网络的第三层卷积层中第一个卷积层后的非线性映射的结果，

为光流图像在第二个三维卷积残差网络的第三层卷积层中的中第一个卷积层中的权重；

上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中第k个卷积层输出的光流图像序列时空特征

的表达为如下公式(9)所示，

公式(9)中，

为将上述第二个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的光流图像序列时空特征

输入到第二个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果，

为光流图像在第二个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重；

上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的光流图像序列时空特征

与上述的光流图像序列时空特征

相加，得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中第三个卷积层输出的光流图像序列时空特征

的表达为如下公式(10)所示，

上述的光流图像序列时空特征

与上述的原始手语图像序列时空特征

进行多模态图像序列时空特征融合，然后输入到上述输入的原始手语图像序列所在的第一个三维卷积残差网络中的第三层池化层，表达为如下公式(11)所示，

公式(11)中，

为上述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层池化层输出的融合后的多模态图像序列特征，⊙为对应元素相乘(下同)；

上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第一个卷积层输出的融合后的多模态图像序列特征

的表达为如下公式(12)所示，

公式(12)中，

为将上述融合后的多模态图像序列特征

输入到第一个三维卷积残差网络的第四层卷积层中的第一个卷积层后的非线性映射的结果，

为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重；

上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第k个卷积层输出的融合后的多模态图像序列特征

的表达为如下公式(13)所示，

公式(13)中，

为将上述第一个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征

输入到第一个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果，

为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重；

上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征

与上述融合后的多模态图像序列特征

相加得到的新的输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中第三个卷积层输出的融合后的多模态图像序列特征

的表达为如下公式(14)所示，

上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第一层卷积层输出的光流图像序列时空特征

的表达为如下公式(15)所示，

公式(15)中，

为将上述第二个三维卷积残差网络中的第三层池化层输出的光流图像序列时空特征

输入到第二个三维卷积残差网络的第四层卷积层中第一个卷积层后的非线性映射的结果，

为光流图像在第二个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重；

上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第k个卷积层公式为输出的光流图像序列时空特征

的表达为如下公式(16)所示，

公式(16)中，

为将上述第二个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的光流图像序列时空特征

输入到第二个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果，

为光流图像在第二个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重；

上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征

与上述光流图像序列时空特征

相加，得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征

的表达为如下公式(17)所示，

将上述光流图像序列时空特征

与上述融合后的多模态图像序列特征

进行多模态图像序列特征融合，并输入到上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层池化层，表达为如下公式(18)所示，

公式(18)中，

为上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层池化层输出的融合后的多模态图像序列特征；

上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第一个卷积层输出的融合后的多模态图像序列特征

的表达为如下公式(19)所示，

公式(19)中，

为将上述融合后的多模态图像序列特征

输入到第一个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果，

为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重；

上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第k个卷积层输出的融合后的多模态图像序列特征

的表达为如下公式(20)所示，

公式(20)中，

为将上述第一个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征

输入到第一个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果，

为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重；

上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征

与上述融合后的多模态图像序列特征

相加，得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征

的表达为如下公式(21)所示，

上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第一个层卷积层输出的光流图像序列时空特征

的表达为如下公式(22)所示，

公式(22)中，

为将上述第二个三维卷积残差网络中的第四层池化层输出的光流图像序列时空特征

输入到第二个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果，

为光流图像在第二个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重；

上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第k个卷积层输出的光流图像序列时空特征

的表达为如下公式(23)所示，

公式(23)中，

为将上述第二个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的光流图像序列时空特征

输入到第二个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果，

为光流图像在第二个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重；

上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征

与上述的光流图像序列时空特征

相加，得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征

的表达为如下公式(24)所示，

上述光流图像序列时空特征

与上述融合后的多模态图像序列特征

进行多模态图像序列特征的融合，并输入到该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层池化层，表达为如下公式(25)所示，

公式(25)中，

为该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层池化层输出的融合后的多模态图像序列特征，α为自适应参数值，初始化为0，并逐渐的学习分配到更大的权重，

将上述融合后的多模态图像序列特征

通过两个全连接层，得到融合后的多模态图像序列时空特征

其中T＝n/16，t＝1,...,T，

由此完成多模态图像序列时空特征融合；

至此完成原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合；

第三步，手语句子标签的文本特征序列的提取：

对与上述第一步所述的原始手语图像序列对应的有U个单词的手语标签Y＝(y₁,y₂,...,y_U)，其中U为原始手语图像序列所对应的单词数量(下同)，通过使用词嵌入方法进行手语句子标签的文本特征序列提取，具体方法是，使用一个三维卷积残差网络完全连接层，从一个手势单词标签的热向量中学习线性映射到一个如下公式(26)所示的更密集的空间，即通过词嵌入方法提取的手语句子标签的文本特征序列

公式(26)中，

为输入与上述第一步所述的原始手语图像序列时空特征对应的手语句子标签，f_{wordembedding}为用词嵌入方法将输入的手语句子标签的文本序列进行文本特征表示；

第四步，基于自注意力机制的编码解码网络的手语标签预测输出：

对于上述第二步获取的融合后的多模态图像序列时空特征

和上述第三步获取的文本特征序列

采用基于自注意力机制的编码解码网络的建模方法进行手语标签预测输出，该网络由编码器和解码器两部分构成，在编码阶段，上述第二步获取的融合后的多模态图像序列时空特征

以一个大小为512维的向量通过双向门控单元和基于自注意力机制的编码网络，编码成视频特征序列，然后在解码阶段，通过双向门控单元、位置嵌入和基于自注意力机制的解码网络将上述第二步获取的融合后的多模态图像序列时空特征

和上述第三步获取的文本特征序列

解码生成预测手语标签，具体操作如下：

第(4.1)步，在编码阶段获得多模态图像序列特征FFN(A)：

将第二步获取的融合后的多模态图像序列时空特征

输入到上述编码解码网络的编码器，该编码器对该融合后的多模态图像序列时空特征

的进行建模，过程如下，

编码器的双向门控单元分别从t＝1到T和从t＝T到1，其中T＝n/16，所用编码器的双向门控单元为如下公式(27)和公式(28)所示，

公式(27)中，

o_t分别为门控单元模型f_GRU-frw在编码器的前馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征，

分别为门控单元模型f_GRU-frw在编码器的前馈神经网络第t-1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元，

公式(28)中，

o_t分别为门控单元模型f_GRU-_bck在编码器的反馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征，

分别为门控单元模型f_GRU-_bck在编码器的反馈神经网络第t+1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元，

将编码器的前馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态

和编码器的反馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态

的输入级联作为该编码器的双向门控单元的输出z_t，如下公式(29)所示，

公式(29)中，Concat为将第t个16帧为一组的融合后的多模态图像序列组的编码器的前馈神经网络的隐藏状态

和反馈神经的网络隐藏状态

进行级联，

由该编码器的双向门控单元的输出z_t得到新的多模态图像序列特征

进一步用如下公式(30)通过自注意力机制学习该新的多模态图像序列特征

的内部关系，

公式(30)中，d_Z为新的多模态图像序列特征

的维度，softmax函数为将结果进行归一化，

利用公式(30)对输入的新的多模态图像序列特征

加入权重进行自注意力机制学习，得到输出结果head，如下公式(31)所示，

head＝Attention(ZW^Q,ZW^K,ZW^V) (31)，

公式(31)中，head为自注意力机制计算的结果，Attention为计算方式，与公式(30)相同，W^Q、W^K、W^V分别为与Attention内新的多模态图像序列特征

对应的三个权重矩阵，

将输入的新的多模态图像序列特征

进行6次自注意力机制学习，如下公式(32)所示，

MultiHead(Z,Z,Z)＝Concat(head₁,...,head₆)W^O (32)，

公式(32)中，head₁、…、head₆的计算方式与上述公式(31)相同，均为自注意力机制计算的结果，Concat为将6个自注意力机制计算的结果进行级联，MultiHead为级联与权重矩阵W^O相乘后的特征序列，

由上述公式(32)得到新的多模态图像序列特征

进行6次自注意力机制学习的结果为A＝(a₁,a₂,...,a_T)，其中T＝n/16，t＝1,...,T，将A＝(a₁,a₂,...,a_T)放入编码器前向神经网络FFN中，表达式如下公式(33)所示，

FFN(A)＝max(0,AW₁+b₁)W₂+b₂ (33)，

公式(33)中，W₁和W₂为权重矩阵，b₁和b₂为偏置值，max为求0和AW₁+b₁的最大值，

由此完成在编码阶段获得多模态图像序列特征FFN(A)；

第(4.2)步，在解码阶段获得手语标签预测输出：

将上述第三步获取的文本特征序列

输入到上述编码解码网络的解码器中，该解码器对文本特征进行时间建模，过程如下,

所用解码器的双向门控单元为如下公式(34)和公式(35)所示，

公式(34)中

s_u分别为门控单元模型f_GRU-frw在解码器的前馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列，

分别为门控单元模型f_GRU-frw在前馈神经网络第u-1个单词的隐藏状态和记忆单元，

公式(35)中，

s_u分别为门控单元模型f_GRU-bck在解码器的反馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列，

分别为门控单元模型f_GRU-bck在反馈神经网络第u+1个单词的隐藏状态和记忆单元，

将解码器的前馈神经网络第u个单词的隐藏状态

和解码器的反馈神经网络第u个单词的隐藏状态

级联作为该解码器的双向门控单元的第u个单词的输出q_u，如下公式(36)所示，

公式(36)中，Concat为将第u个单词的编码器的前馈神经网络的隐藏状态

和反馈神经的网络隐藏状态

进行级联，

将该解码器的双向门控单元的输出q_u得到新的文本特征序列

利用如下公式(37)和公式(38)分别所示的不同频率的正弦函数和余弦函数进行位置编码嵌入关于手语句子标签中每个单词的位置信息，得到位置编码的位置序列结果为

其中P_u为第u个单词的位置编码嵌入输出，

P_(u,2i)＝sin(u/10000^2i/d) (37)，

P_(u,2i+1)＝cos(u/10000^2i/d) (38)，

公式(37)和公式(38)中，u表示为句子标签中第u个单词的位置，u＝1,...,U，d为所有句子标签中单词的总个数，i＝1,...,d，

将该解码器的双向门控单元的输出得到新的文本特征序列

和位置编码嵌入得到的位置编码嵌入输出的结果

相加，得到最终的手语句子标签的文本特征序列如下公式(39)所示，

公式(39)中，

为手语句子标签的文本特征序列，q_u为第u个单词的门控单元输出，P_u为第u个单词的位置编码嵌入输出，

将得到的手语句子标签的文本特征序列

首先通过自注意力机制学习文本序列的内部关系，如下公式(40)所示，

公式(40)中，d_G为手语句子标签的文本特征序列

的维度，softmax函数为将结果进行归一化，

利用公式(40)对输入的手语句子标签的文本特征序列

加入权重进行自注意力机制学习，得到输出结果head'，如下公式(41)所示，

head'＝Attention(GW'^Q,GW'^K,GW'^V) (41)，

公式(41)中，Attention计算方式与公式(40)中相同，W'^Q、W'^K、W'^V分别为与Attention内手语句子标签的文本特征序列

对应的三个权重矩阵，

将输入的手语句子标签的文本特征序列

进行6次自注意力机制学习，如下公式(42)所示，

MultiHead(G,G,G)＝Concat(head'₁,...,head'₆)W'^O (42)，

公式(42)中，head'₁、…、head'₆的计算方式与上述公式(41)相同，均为自注意力机制计算的结果，Concat为将6个自注意力机制计算的结果进行级联，MultiHead为级联与权重矩阵W'^O相乘后的特征序列，

由上述公式(42)得到手语句子标签的文本特征序列的结果表示为B＝(b₁,b₂,...,b_U)，将上述第(4.1)步中在编码阶段获得的多模态图像序列特征FFN(A)表示为D＝(d₁,d₂,...,d_T)，其中T＝n/16，

将B＝(b₁,b₂,...,b_U)和D＝(d₁,d₂,...,d_T)均输入到该解码器的最后一个自注意力机制中，如下公式(43)所示，

公式(43)中，d_B为手语句子标签的文本特征序列的结果B的维度，softmax函数为将结果进行归一化，

利用公式(43)对上述的B＝(b₁,b₂,...,b_U)和上述的D＝(d₁,d₂,...,d_T)加入权重进行自注意力机制学习，得到输出结果为head”，如下公式(44)所示，

head”＝Attention(BW”^Q,DW”^K,DW”^V) (44)，

公式(44)中，Attention计算方式与上述公式(43)中相同，W”^Q为与Attention内的上述的B＝(b₁,b₂,...,b_U)所对应的权重矩阵，W”^K、W”^V分别为与Attention内的上述的D＝(d₁,d₂,...,d_T)所对应的两个权重矩阵，

将上述的B＝(b₁,b₂,...,b_U)和上述的D＝(d₁,d₂,...,d_T)进行6次自注意力机制学习，如下公式(45)所示，

MultiHead(B,D,D)＝Concat(head″₁,...,head”₆)W”^O (45)，

公式(45)中，head″₁、…、head”₆的计算方式与上述公式(44)相同，均为自注意力机制计算的结果，Concat为将6个自注意力机制计算的结果进行级联，MultiHead为级联与权重矩阵W”^O相乘后的特征序列，

由上述公式(45)得到手语句子标签的文本特征序列结果为E＝(e₁,e₂,...,e_U')，其中U'为预测的手语句子中单词的总个数(下同)，将E＝(e₁,e₂,...,e_U')放入编码器前向神经网络FFN中，表达式如下公式(46)所示，

FFN(E)＝max(0,EW′₁+b′₁)W′₂+b′₂ (46)，

公式(46)中，W′₁和W′₂为权重矩阵，b′₁和b′₂为偏置值，max为求0和EW′₁+b′₁的最大值，

通过编码器前向神经网络FFN和softmax层得到最终手语标签预测输出结果为Y'＝(y'₁,y'₂，...，y'_U')，

由此完成在解码阶段获得手语标签预测输出；

至此完成基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别。

上述一种连续手语识别的方法，所述“FlowNet网络”、“三维卷积残差网络”、“词嵌入方法”、“解码器对文本信息进行时间建模”、“自注意力机制的编码解码网络的建模方法”、“编码解码网络的编码器”、“编码解码网络的解码器”均为本技术领域的公知技术。

本发明的有益效果是：与现有技术相比，本发明的突出的实质性特点和显著进步如下：

(1)本发明采用了三维卷积残差网络进行视频特征提取。现有技术中CNN等2d网络仅仅对图像进行空间特征的提取，无法采集到视频中帧与帧之间的时间信息。三维卷积残差网络中增加了时间维度，以连续的一组帧作为输入，通过卷积层和池化层进行时间和空间上的特征提取，使得特征维度增加。

(2)本发明采用特征融合的方式进行特征提取。最初特征融合只在最后的池化层之后进行融合，只关注到高级语义信息，忽略了低级语义信息，本发明在最初就将运动特征与外观特征进行融合，在最后池化层再进行自适应融合，使得卷积神经网络输出的特征更为丰富。

(3)本发明采用了自注意力机制，解决了输入视频帧序列长度与手语标签序列长度之间不匹配的问题，并且通过对自身注意力机制提取，分别增加了编码器和解码器中特征序列的多样性，通过不同权重的分配，突出了特征序列中的重点特征，使得最后得到的预测序列更加准确。

(4)本发明方法与CN110188732A相比，CN110188732A利用静态手语图片数据，只利用了一种数据，对于动态连续手语并没有进行网络训练，训练特征较为单一。本发明方法利用动态手语视频数据库，除了对空间上的手语特征进行提取之外，还增加了时间维度上的提取，可以增加特征的多样性。

(5)本发明方法与CN110110602A相比，CN110110602A利用Faster R-CNN检测手的位置并从背景中分割出手，利用三维残差网络进行时空特征提取和视频序列分析，其方法只对手部位置进行识别，缺少了打手语者其他部分特征检测，提取到的只能作为局部特征。本发明方法通过神经网络对视频序列直接进行特征提取，得到了全局信息。又以光流信息作为特征的补充，使特征更加富有层次。

(6)本发明方法与CN109656358A相比，CN109656358A对手语识别进行数据采集，利用采集速度传输和肌电传感器采集数据，这种方法所需时间较长，且需要较多的人力物力，只能采取到极少的手语。本发明方法所利用的数据为公开的数据库，数据量充足，所得出的实验结果具有普适性。

(7)本发明方法与CN110175551A相比，CN110175551A对光流特征和原始手语图像特征送入神经网络进行加权融合，这种方法仅在神经网络特征提取的后期融合进行交互，不支持真正的特征学习。本发明方法所采取的网络结构在处理过程中对外观和运动路径进行更早的交互，这种交互作用对于区分具有相似动作或外观的动作很重要，只有将这两种动作结合起来才能分辨。

(8)本发明方法与CN110472548A相比，CN110472548A将获取到的原始手语视频分割成多个视频段，再利用三维卷积神经网络对各个视频段进行时空特征提取，该方法在分割视频段时要保证每个视频段仅包含一个手语单词，需对视频帧序列与句子中的单词进行对齐，比较耗时。本发明方法通过自注意力机制解码输出序列标签，无需前期视频与句子进行对齐处理，节省时间。

(9)本发明方法与CN110399850A相比，CN110399850A使用Kinect相机获取深度、彩色和骨架点图像，将其进行手型信息预处理和轨迹信息预处理，再通过双路进行关键片段特征提取，该方法只提取关键片段，忽略了连续手语视频帧之间的动作相关性。本发明方法利用三维卷积残差网络进行手语视频短期时空特征提取，再利用双向门控单元进行长期时间序列建模，得到了手语视频各个动作空间信息和运动轨迹信息，更加强调了手语间的连续性。

(10)本发明方法与CN107103311A相比，CN107103311A将获取到的原始手语图像和深度图通过深度阈值分割和肤色分割获取手部区域，再通过特征提取和整合进行相似度匹配进行手语识别，该方法仅得到手部区域，只提取了局部特征，忽略了其他部位对于手语识别的作用。本发明方法将原始手语图像视频帧序列的外观信息和光流视频帧序列的运动信息进行多模态融合，极大的补充了手语特征，更有利用手语识别。

(11)本发明方法与CN107679491A相比，CN107679491A采用手势红外图像和轮廓图像特征，利用三维卷积神经网络进行特征提取并融合，该方法使用体感数据采集对所需的两种图像进行获取，只能采集到较少的手语数据，无法应用于其他手语数据库，不具有普遍性。本发明方法利用公开的数据库进行原始手语图像特征和光流特征的多模态特征输入并融合，使用的手语视频易获取，且利用双向门控单元学习视频序列间的长期依赖关系，模型具有较好的鲁棒性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明一种连续手语识别的方法的流程示意框图。

具体实施方式

图1所示实施例表明，本发明一种连续手语识别的方法的流程是：由原始手语图像序列通过FlowNet网络提取获得光流图像序列→原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合；手语句子标签的文本特征序列的提取→基于自注意力机制的编码解码网络的手语标签预测输出。

实施例

读入由n＝228个镜头组成的视频P01_s1_00_0_color.avi，视频尺寸为112×112像素，对该输入的含有228帧图像的原始手语图像序列X＝(x₁,x₂,...,x_n)，其中，n＝228为图像序列的帧序数(下同)，x₁、x₂、…、x_n分别为原始手语图像序列的第一帧、第二帧、…、第n帧，通过FlowNet网络提取相邻图像间的光流场，每个手语图像序列间的光流场组成光流图像序列，得到的含有n帧图像的光流图像序列为X'＝(x'₁,x'₂,...,x'_n)，其中x'₁、x'₂、…、x'_n分别为光流图像序列的第一帧、第二帧、…、第n帧；

第(2.1.1)步，原始手语图像序列的时空特征的提取：

的表达为如下公式(1)所示，

的表达为如下公式(2)所示，

公式(2)中，

为将上述第一层池化层输出的原始手语图像序列时空特征

第(2.1.2)步，光流图像序列的时空特征的提取：

的表达为如下公式(3)所示，

的表达为如下公式(4)所示，

公式(4)中，

为将上述第一层池化层输出的光流图像序列时空特征

输入到第二层卷积层后的非线性映射的结果，

第(2.2)步，多模态图像序列时空特征融合：

的表达为如下公式(5)所示，

公式(5)中，

的表达为如下公式(6)所示，

公式(6)中，

与上述的原始手语图像序列时空特征

的表达为如下公式(7)所示，

的表达为如下公式(8)所示，

公式(8)中，

为将上述的光流图像序列时空特征

的表达为如下公式(9)所示，

公式(9)中，

与上述的光流图像序列时空特征

的表达为如下公式(10)所示，

上述的光流图像序列时空特征

与上述的原始手语图像序列时空特征

公式(11)中，

的表达为如下公式(12)所示，

公式(12)中，

为将上述融合后的多模态图像序列特征

的表达为如下公式(13)所示，

公式(13)中，

与上述融合后的多模态图像序列特征

的表达为如下公式(14)所示，

的表达为如下公式(15)所示，

公式(15)中，

的表达为如下公式(16)所示，

公式(16)中，

与上述光流图像序列时空特征

的表达为如下公式(17)所示，

将上述光流图像序列时空特征

与上述融合后的多模态图像序列特征

公式(18)中，

的表达为如下公式(19)所示，

公式(19)中，

为将上述融合后的多模态图像序列特征

的表达为如下公式(20)所示，

公式(20)中，

与上述融合后的多模态图像序列特征

的表达为如下公式(21)所示，

的表达为如下公式(22)所示，

公式(22)中，

的表达为如下公式(23)所示，

公式(23)中，

与上述的光流图像序列时空特征

的表达为如下公式(24)所示，

上述光流图像序列时空特征

与上述融合后的多模态图像序列特征

公式(25)中，

将上述融合后的多模态图像序列特征

通过两个全连接层，得到融合后的多模态图像序列时空特征

其中T＝n/16，t＝1,...,T，

由此完成多模态图像序列时空特征融合；

第三步，手语句子标签的文本特征序列的提取：

公式(26)中，

对于上述第二步获取的融合后的多模态图像序列时空特征

和上述第三步获取的文本特征序列

和上述第三步获取的文本特征序列

解码生成预测手语标签，具体操作如下：

第(4.1)步，在编码阶段获得多模态图像序列特征FFN(A)：

将第二步获取的融合后的多模态图像序列时空特征

的进行建模，过程如下，

公式(27)中，

公式(28)中，

o_t分别为门控单元模型f_GRU-bck在编码器的反馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征，

分别为门控单元模型f_GRU-bck在编码器的反馈神经网络第t+1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元，

和反馈神经的网络隐藏状态

进行级联，

的内部关系，

公式(30)中，d_Z为新的多模态图像序列特征

的维度，softmax函数为将结果进行归一化，

利用公式(30)对输入的新的多模态图像序列特征

head＝Attention(ZW^Q,ZW^K,ZW^V) (31)，

对应的三个权重矩阵，

将输入的新的多模态图像序列特征

进行6次自注意力机制学习，如下公式(32)所示，

MultiHead(Z,Z,Z)＝Concat(head₁,...,head₆)W^O (32)，

由上述公式(32)得到新的多模态图像序列特征

FFN(A)＝max(0,AW₁+b₁)W₂+b₂ (33)，

由此完成在编码阶段获得多模态图像序列特征FFN(A)；

第(4.2)步，在解码阶段获得手语标签预测输出：

将上述第三步获取的文本特征序列

所用解码器的双向门控单元为如下公式(34)和公式(35)所示，

公式(34)中

公式(35)中，

将解码器的前馈神经网络第u个单词的隐藏状态

和解码器的反馈神经网络第u个单词的隐藏状态

和反馈神经的网络隐藏状态

进行级联，

将该解码器的双向门控单元的输出q_u得到新的文本特征序列

其中P_u为第u个单词的位置编码嵌入输出，

P_(u,2i)＝sin(u/10000^2i/d) (37)，

P_(u,2i+1)＝cos(u/10000^2i/d) (38)，

将该解码器的双向门控单元的输出得到新的文本特征序列

和位置编码嵌入得到的位置编码嵌入输出的结果

公式(39)中，

将得到的手语句子标签的文本特征序列

公式(40)中，d_G为手语句子标签的文本特征序列

的维度，softmax函数为将结果进行归一化，

利用公式(40)对输入的手语句子标签的文本特征序列

head'＝Attention(GW'^Q,GW'^K,GW'^V) (41)，

对应的三个权重矩阵，

将输入的手语句子标签的文本特征序列

进行6次自注意力机制学习，如下公式(42)所示，

MultiHead(G,G,G)＝Concat(head'₁,...,head'₆)W'^o (42)，

head”＝Attention(BW”^Q,DW”^K,DW”^V) (44)，

MultiHead(B,D,D)＝Concat(head″₁,...,head”₆)W”^O (45)，

FFN(E)＝max(0,EW′₁+b′₁)W′₂+b′₂ (46)，

由此完成在解码阶段获得手语标签预测输出；

上述实施例中，所述“FlowNet网络”、“三维卷积残差网络”、“词嵌入方法”、“解码器对文本信息进行时间建模”、“自注意力机制的编码解码网络的建模方法”、“编码解码网络的编码器”、“编码解码网络的解码器”均为本技术领域的公知技术。

Claims

1.一种连续手语识别的方法，其特征在于：是基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法，首先获得光流图像序列，通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合，和手语句子标签的文本特征序列的提取，将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出，具体步骤如下：

对输入的含有n帧图像的原始手语图像序列X＝(x₁,x₂,...,x_n)，其中，n为图像序列的帧序数，x₁、x₂、…、x_n分别为原始手语图像序列的第一帧、第二帧、…、第n帧，通过FlowNet网络提取相邻图像间的光流场，每个手语图像序列间的光流场组成光流图像序列，得到的含有n帧图像的光流图像序列为X'＝(x'₁,x'₂,...,x'_n)，其中x'₁、x'₂、…、x'_n分别为光流图像序列的第一帧、第二帧、…、第n帧；

第(2.1.1)步，原始手语图像序列的时空特征的提取：

其中T＝n/16，t＝1,...,T，t为第t个16帧为一组的融合后的多模态图像序列组，该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的原始手语图像序列时空特征

的表达为如下公式(1)所示，

公式(1)中，maxpooling为最大池化函数，f为激活函数ReLU，f(F(v_t,W₁ ^a))为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层输出的原始手语图像序列时空特征，F(v_t,W₁ ^a)为将原始手语图像序列

的表达为如下公式(2)所示，

公式(2)中，

为将上述第一层池化层输出的原始手语图像序列时空特征

第(2.1.2)步，光流图像序列的时空特征的提取：

的表达为如下公式(3)所示，

公式(3)中，maxpooling为最大池化函数，f(F(v'_t,W₁ ^m))为该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层输出的光流图像序列时空特征，F(v'_t,W₁ ^m)为将光流图像序列

的表达为如下公式(4)所示，

公式(4)中，

为将上述第一层池化层输出的光流图像序列时空特征

输入到第二层卷积层后的非线性映射的结果，

第(2.2)步，多模态图像序列时空特征融合：

的表达为如下公式(5)所示，

公式(5)中，

的表达为如下公式(6)所示，

公式(6)中，

与上述的原始手语图像序列时空特征

的表达为如下公式(7)所示，

的表达为如下公式(8)所示，

公式(8)中，

为将上述的光流图像序列时空特征

的表达为如下公式(9)所示，

公式(9)中，

与上述的光流图像序列时空特征

的表达为如下公式(10)所示，

上述的光流图像序列时空特征

与上述的原始手语图像序列时空特征

公式(11)中，

为上述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层池化层输出的融合后的多模态图像序列特征，⊙为对应元素相乘；

的表达为如下公式(12)所示，

公式(12)中，

为将上述融合后的多模态图像序列特征

的表达为如下公式(13)所示，

公式(13)中，

与上述融合后的多模态图像序列特征

的表达为如下公式(14)所示，

的表达为如下公式(15)所示，

公式(15)中，

的表达为如下公式(16)所示，

公式(16)中，

与上述光流图像序列时空特征

的表达为如下公式(17)所示，

将上述光流图像序列时空特征

与上述融合后的多模态图像序列特征

公式(18)中，

的表达为如下公式(19)所示，

公式(19)中，

为将上述融合后的多模态图像序列特征

的表达为如下公式(20)所示，

公式(20)中，

与上述融合后的多模态图像序列特征

的表达为如下公式(21)所示，

的表达为如下公式(22)所示，

公式(22)中，

的表达为如下公式(23)所示，

公式(23)中，

与上述的光流图像序列时空特征

的表达为如下公式(24)所示，

上述光流图像序列时空特征

与上述融合后的多模态图像序列特征

公式(25)中，

将上述融合后的多模态图像序列特征

通过两个全连接层，得到融合后的多模态图像序列时空特征

其中T＝n/16，t＝1,...,T，

由此完成多模态图像序列时空特征融合；

第三步，手语句子标签的文本特征序列的提取：

对与上述第一步所述的原始手语图像序列对应的有U个单词的手语标签Y＝(y₁,y₂,...,y_U)，其中U为原始手语图像序列所对应的单词数量，通过使用词嵌入方法进行手语句子标签的文本特征序列提取，具体方法是，使用一个三维卷积残差网络完全连接层，从一个手势单词标签的热向量中学习线性映射到一个如下公式(26)所示的更密集的空间，即通过词嵌入方法提取的手语句子标签的文本特征序列