CN111339837B - 一种连续手语识别方法 - Google Patents

一种连续手语识别方法 Download PDF

Info

Publication number
CN111339837B
CN111339837B CN202010083258.8A CN202010083258A CN111339837B CN 111339837 B CN111339837 B CN 111339837B CN 202010083258 A CN202010083258 A CN 202010083258A CN 111339837 B CN111339837 B CN 111339837B
Authority
CN
China
Prior art keywords
image sequence
layer
sign language
convolutional
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010083258.8A
Other languages
English (en)
Other versions
CN111339837A (zh
Inventor
于明
秦梦现
薛翠红
郝小可
郭迎春
阎刚
于洋
师硕
刘依
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Tianjin University of Technology
Original Assignee
Hebei University of Technology
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology, Tianjin University of Technology filed Critical Hebei University of Technology
Priority to CN202010083258.8A priority Critical patent/CN111339837B/zh
Publication of CN111339837A publication Critical patent/CN111339837A/zh
Application granted granted Critical
Publication of CN111339837B publication Critical patent/CN111339837B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种连续手语识别方法,涉及用于识别图形的记录载体的处理,是基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法,首先获得光流图像序列,通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合,和手语句子标签的文本特征序列的提取,将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出,克服了现有技术存在的特征单一、视频需要分割的缺陷。

Description

一种连续手语识别方法
技术领域
本发明的技术方案涉及用于识别图形的记录载体的处理,具体地说是一种连续手语识别方法。
背景技术
听障人士由于语言障碍在日常生活中存在诸多不便。手语识别技术可以帮助听障人士与健听人士进行沟通交流。手语识别的关键技术是设计视觉描述器,该描述器能可靠的捕捉手势、姿态和面部表情特征,进行手语识别。国内外对手语识别技术的研究方向有两个,一个是在基于传感器的数据手套手语识别,另一个是基于视觉特征的手语识别。由于基于传感器的数据手套手语识别设备不灵活,无法在日常生活中使用,近年来国内外对手语识别技术的研究主要是基于视觉特征的手语识别,其中关键问题则是通过视觉特征提取对连续手语进行识别。
基于视觉特征的手语识别的方法分为两类:一类是基于单模态特征的手语识别方法,另一类是基于多模态特征的手语识别方法。
基于单模态特征的手语识别方法一般是采用原始视频帧进行手语识别。Koller等人于2016年在“Deep sign:hybrid CNN-HMM for continuous sign languagerecognition”一文中将卷积神经网络中提取到的原始视频帧的空间信息输入到隐马尔科夫中提取隐藏序列信息,再以贝叶斯方法进行分类,输出识别结果。Ye等人于2018年在“Recognizing American Sign Language Gestures from within Continuous Videos”一文中提出将3D卷积神经网络的全连接层和循环神经网络进行融合,极大降低了帧序列之间的时间信息丢失率。CN110188732A公开了一种静态手语识别方法,该方法通过神经网络对静态图像进行手语识别,缺少对动态连续手语进行训练,特征较为单一。CN110110602A公开了一种基于三维残差网络和视频序列的动态手语方法,该方法首先使用Faster R-CNN检测手部位置并分割出手部,利用三维残差卷积神经网络进行时空特征提取和视频序列分析,该方法只对手部位置进行识别,缺少全局信息,提取到的特征仅为局部特征。CN109656358A公开了一种多维手语识别方法,该方法利用速度传输器和肌电传感器采集数据,该方法所需时间较长,且需要较多的人力物力,只能采集到极少的手语。CN110472548A公开了一种基于语法分类器的视频连续手语识别方法及系统,该方法将获取到的原始手语视频分割成多个视频段,再利用三维卷积神经网络对各个视频段进行时空特征提取,该方法在分割视频段时要保证每个视频段仅包含一个手语单词,需对视频帧序列与句子中的单词进行对齐,比较耗时。上述方法存在的缺陷是:输入模态单一,仅包含原始手语图像视频序列,提供了外观等特征,缺少对手部和肢体的描述,忽略了几何、运动等精细特征的描述,手语识别结果较差,识别精度不高。为了克服上述基于单模态特征的手语识别方法存在的缺陷,之后的研究逐渐转向基于多模态特征的手语识别方法。
基于多模态特征的手语识别方法是指通过神经网络对手势、姿态、面部表情、口型几种特征进行提取,通过不同的特征增强手语识别的鲁棒性。Chai等人于2016年在“Twostreams recurrent neural networks for large-scale continuous gesturerecognition”一文中介绍了利用双流Faster R-CNN进行了原始手语图像和深度图中的手部检测,并通过设置阈值的方式提取关键帧,该方法中,为了更好地得到手部的运动特征,对视频帧序列进行关键帧提取,通过图像预处理将视频帧中的手部位置提取出来,其存在的缺陷是:只提取关键的手部动作,丢失了视频帧之间手部动作的连续性,只关注局部特征忽略了全局特征,丢失了全局特征信息。Koller等人于2019年在“Weakly SupervisedLearning with Multi-Stream CNN-GRU-HMMs to Discover Sequential Parallelism inSign Language Videos”一文中介绍了利用原始手语图像视频序列、右手序列和口型序列分别输入到CNN网络中将每一视频帧对应于一个单词标签,得到每一个单词标签对应的一组手语帧序列,在HMM进行特征融合后进行句子标签的输出,该方法存在前期需要大量的时间进行帧对齐工作,不能真正实现端到端的手语识别的缺陷。CN110175551A公开了一种手语识别方法,该方法将视频序列图像相位信息和原始手语图像送入神经网络进行加权融合,该方法存在缺少序列之间的时间建模,不支持真正端到端的特征学习的缺陷。CN110399850A公开了一种基于深度神经网络的连续手语识别方法,该方法使用Kinect相机获取深度、彩色和骨架点图像,将其进行手型信息预处理和轨迹信息预处理,再通过双路进行关键片段特征提取,该方法存在只提取关键片段,忽略了连续手语视频帧之间的动作相关性的缺陷。CN107103311A公开了一种连续手语的识别方法及其装置,该方法将获取到的原始手语图像和深度图通过深度阈值分割和肤色分割获取手部区域,再通过特征提取和整合进行相似度匹配进行手语识别,该方法虽然采用了两种模态,但是存在仅为了得到手部区域,只提取了局部特征,忽略了其他部位对于手语识别的作用的缺陷。CN107679491A公开了一种融合多模态特征的3D卷积神经网络手语识别方法,该方法采用手势红外图像和轮廓图像特征,利用三维卷积神经网络进行特征提取并融合,该方法存在使用体感设备进行数据采集时,只能采集到较少的手语数据,无法应用于其他手语数据库,不具有普遍性的缺陷。
总之,连续手语识别方法的现有技术还存在特征单一、视频需要分割的缺陷。
发明内容
本发明所要解决的技术问题是:提供一种连续手语识别的方法,是基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法,首先获得光流图像序列,通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合,和手语句子标签的文本特征序列的提取,将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出,克服了现有技术存在的特征单一、视频需要分割的缺陷。
本发明解决该技术问题所采用的技术方案是:一种连续手语识别的方法,是基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法,首先获得光流图像序列,通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合,和手语句子标签的文本特征序列的提取,将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出,具体步骤如下:
第一步,由原始手语图像序列通过FlowNet网络提取获得光流图像序列:
对输入的含有n帧图像的原始手语图像序列X=(x1,x2,...,xn),其中,n为图像序列的帧序数(下同),x1、x2、…、xn分别为原始手语图像序列的第一帧、第二帧、…、第n帧,通过FlowNet网络提取相邻图像间的光流场,每个手语图像序列间的光流场组成光流图像序列,得到的含有n帧图像的光流图像序列为X'=(x'1,x'2,...,x'n),其中x'1、x'2、…、x'n分别为光流图像序列的第一帧、第二帧、…、第n帧;
第二步,原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合:
通过三维卷积残差网络对上述第一步所述的原始手语图像序列和光流图像序列进行时空特征提取和多模态图像序列时空特征融合,具体操作如下,
第(2.1)步,原始手语图像序列和光流图像序列的时空特征的提取:
第(2.1.1)步,原始手语图像序列的时空特征的提取:
将上述第一步中输入的含有n帧图像的原始手语图像序列输入到第一个三维卷积残差网络进行提取原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征,操作如下:
将上述第一步中的输入的含有n帧图像的原始手语图像序列X=(x1,x2,...,xn)以16帧为一个原始手语图像序列组输入到第一个三维卷积残差网络前两层卷积层和池化层,输入的图像序列重新定义为
Figure BDA0002381083550000031
其中T=n/16,t=1,...,T,t为第t个16帧为一组的融合后的多模态图像序列组(下同),该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的原始手语图像序列时空特征
Figure BDA0002381083550000032
的表达为如下公式(1)所示,
Figure BDA0002381083550000033
公式(1)中,maxpooling为最大池化函数(下同),f为激活函数ReLU(下同),f(F(vt,W1 a))为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层输出的原始手语图像序列时空特征,F(vt,W1 a)为将原始手语图像序列
Figure BDA0002381083550000034
输入到第一个三维卷积残差网络的第一层卷积层后的非线性映射的结果,W1 a为原始手语图像在第一个三维卷积残差网络的第一层卷积层中的权重,
该输入的原始手语图像序列在第一个三维卷积残差网络中的第二层卷积层之后的第二层池化层输出的原始手语图像序列时空特征
Figure BDA0002381083550000041
的表达为如下公式(2)所示,
Figure BDA0002381083550000042
公式(2)中,
Figure BDA0002381083550000043
为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第二层卷积层输出的原始手语图像序列时空特征,
Figure BDA0002381083550000044
为将上述第一层池化层输出的原始手语图像序列时空特征
Figure BDA0002381083550000045
输入到第一个三维卷积残差网络的第二层卷积层后的非线性映射的结果,
Figure BDA0002381083550000046
为原始手语图像在第一个三维卷积残差网络的第二层卷积层中的权重,由此完成原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征的提取;
第(2.1.2)步,光流图像序列的时空特征的提取:
将上述第一步中输入的含有n帧图像的光流图像序列输入到第二个三维卷积残差网络进行提取光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征,操作如下:
上述第一步中得到的含有n帧图像的光流图像序列X'=(x'1,x'2,...,x'n)以16帧为一个光流图像序列组输入到第二个三维卷积残差网络的前两层卷积层和池化层,输入的光流图像序列为
Figure BDA0002381083550000047
其中T=n/16,t=1,...,T,该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的光流图像序列时空特征
Figure BDA0002381083550000048
的表达为如下公式(3)所示,
Figure BDA0002381083550000049
公式(3)中,maxpooling为最大池化函数(下同),f(F(v't,W1 m))为该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层输出的光流图像序列时空特征,F(v't,W1 m)为将光流图像序列
Figure BDA00023810835500000410
输入到第二个三维卷积残差网络的第一层卷积层后的非线性映射的结果,W1 m为光流图像序列在第二个三维卷积残差网络的第一层卷积层中的权重;
该输入的光流图像序列在第二个三维卷积残差网络中的第二层卷积层之后的第二层池化层输出的光流图像序列时空特征
Figure BDA00023810835500000411
的表达为如下公式(4)所示,
Figure BDA00023810835500000412
公式(4)中,
Figure BDA00023810835500000413
为该输入的光流图像序列在该第二个三维卷积残差网络中的第二层卷积层输出的光流图像序列时空特征,
Figure BDA00023810835500000414
为将上述第一层池化层输出的光流图像序列时空特征
Figure BDA00023810835500000415
输入到第二层卷积层后的非线性映射的结果,
Figure BDA00023810835500000416
为光流图像序列在第二个三维卷积残差网络中的第二层卷积层中的权重,由此完成光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征的提取;
至此完成原始手语图像序列和光流图像序列的时空特征的提取;
第(2.2)步,多模态图像序列时空特征融合:
将上述第(2.1.1)步提取的原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征和上述第(2.1.2)步提取的光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征在三维卷积残差网络后三个层卷积层和池化层进行多模态图像序列时空特征融合,操作如下:
上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第一个卷积层输出的原始手语图像序列时空特征
Figure BDA0002381083550000051
的表达为如下公式(5)所示,
Figure BDA0002381083550000052
公式(5)中,
Figure BDA0002381083550000053
为将上述第一个三维卷积残差网络中的第二层池化层输出的原始手语图像序列时空特征
Figure BDA0002381083550000054
输入到第一个三维卷积残差网络的第三层卷积层中的第一个卷积层后的非线性映射的结果,
Figure BDA0002381083550000055
为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第一个卷积层中的权重;
上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第k个卷积层输出的原始手语图像序列时空特征
Figure BDA0002381083550000056
的表达为如下公式(6)所示,
Figure BDA0002381083550000057
公式(6)中,
Figure BDA0002381083550000058
为将上述第一个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的原始手语图像序列时空特征
Figure BDA0002381083550000059
输入到第一个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果,
Figure BDA00023810835500000510
为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重;
上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征
Figure BDA00023810835500000511
与上述的原始手语图像序列时空特征
Figure BDA00023810835500000512
相加,得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征
Figure BDA00023810835500000513
的表达为如下公式(7)所示,
Figure BDA00023810835500000514
上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中的第一个卷积层输出的光流图像序列时空特征
Figure BDA00023810835500000515
的表达为如下公式(8)所示,
Figure BDA00023810835500000516
公式(8)中,
Figure BDA00023810835500000517
为将上述的光流图像序列时空特征
Figure BDA00023810835500000518
输入到第二个三维卷积残差网络的第三层卷积层中第一个卷积层后的非线性映射的结果,
Figure BDA00023810835500000519
为光流图像在第二个三维卷积残差网络的第三层卷积层中的中第一个卷积层中的权重;
上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中第k个卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000061
的表达为如下公式(9)所示,
Figure BDA0002381083550000062
公式(9)中,
Figure BDA0002381083550000063
为将上述第二个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000064
输入到第二个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果,
Figure BDA0002381083550000065
为光流图像在第二个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重;
上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000066
与上述的光流图像序列时空特征
Figure BDA0002381083550000067
相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中第三个卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000068
的表达为如下公式(10)所示,
Figure BDA0002381083550000069
上述的光流图像序列时空特征
Figure BDA00023810835500000610
与上述的原始手语图像序列时空特征
Figure BDA00023810835500000611
进行多模态图像序列时空特征融合,然后输入到上述输入的原始手语图像序列所在的第一个三维卷积残差网络中的第三层池化层,表达为如下公式(11)所示,
Figure BDA00023810835500000612
公式(11)中,
Figure BDA00023810835500000613
为上述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层池化层输出的融合后的多模态图像序列特征,⊙为对应元素相乘(下同);
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第一个卷积层输出的融合后的多模态图像序列特征
Figure BDA00023810835500000614
的表达为如下公式(12)所示,
Figure BDA00023810835500000615
公式(12)中,
Figure BDA00023810835500000616
为将上述融合后的多模态图像序列特征
Figure BDA00023810835500000617
输入到第一个三维卷积残差网络的第四层卷积层中的第一个卷积层后的非线性映射的结果,
Figure BDA00023810835500000618
为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第k个卷积层输出的融合后的多模态图像序列特征
Figure BDA00023810835500000619
的表达为如下公式(13)所示,
Figure BDA00023810835500000620
公式(13)中,
Figure BDA00023810835500000621
为将上述第一个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征
Figure BDA00023810835500000622
输入到第一个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果,
Figure BDA00023810835500000623
为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征
Figure BDA0002381083550000071
与上述融合后的多模态图像序列特征
Figure BDA0002381083550000072
相加得到的新的输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中第三个卷积层输出的融合后的多模态图像序列特征
Figure BDA0002381083550000073
的表达为如下公式(14)所示,
Figure BDA0002381083550000074
上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第一层卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000075
的表达为如下公式(15)所示,
Figure BDA0002381083550000076
公式(15)中,
Figure BDA0002381083550000077
为将上述第二个三维卷积残差网络中的第三层池化层输出的光流图像序列时空特征
Figure BDA0002381083550000078
输入到第二个三维卷积残差网络的第四层卷积层中第一个卷积层后的非线性映射的结果,
Figure BDA0002381083550000079
为光流图像在第二个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第k个卷积层公式为输出的光流图像序列时空特征
Figure BDA00023810835500000710
的表达为如下公式(16)所示,
Figure BDA00023810835500000711
公式(16)中,
Figure BDA00023810835500000712
为将上述第二个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的光流图像序列时空特征
Figure BDA00023810835500000713
输入到第二个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果,
Figure BDA00023810835500000714
为光流图像在第二个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure BDA00023810835500000715
与上述光流图像序列时空特征
Figure BDA00023810835500000716
相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure BDA00023810835500000717
的表达为如下公式(17)所示,
Figure BDA00023810835500000718
将上述光流图像序列时空特征
Figure BDA00023810835500000719
与上述融合后的多模态图像序列特征
Figure BDA00023810835500000720
进行多模态图像序列特征融合,并输入到上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层池化层,表达为如下公式(18)所示,
Figure BDA00023810835500000721
公式(18)中,
Figure BDA00023810835500000722
为上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层池化层输出的融合后的多模态图像序列特征;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第一个卷积层输出的融合后的多模态图像序列特征
Figure BDA00023810835500000723
的表达为如下公式(19)所示,
Figure BDA0002381083550000081
公式(19)中,
Figure BDA0002381083550000082
为将上述融合后的多模态图像序列特征
Figure BDA0002381083550000083
输入到第一个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果,
Figure BDA0002381083550000084
为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第k个卷积层输出的融合后的多模态图像序列特征
Figure BDA0002381083550000085
的表达为如下公式(20)所示,
Figure BDA0002381083550000086
公式(20)中,
Figure BDA0002381083550000087
为将上述第一个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征
Figure BDA0002381083550000088
输入到第一个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果,
Figure BDA0002381083550000089
为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征
Figure BDA00023810835500000810
与上述融合后的多模态图像序列特征
Figure BDA00023810835500000811
相加,得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征
Figure BDA00023810835500000812
的表达为如下公式(21)所示,
Figure BDA00023810835500000813
上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第一个层卷积层输出的光流图像序列时空特征
Figure BDA00023810835500000814
的表达为如下公式(22)所示,
Figure BDA00023810835500000815
公式(22)中,
Figure BDA00023810835500000816
为将上述第二个三维卷积残差网络中的第四层池化层输出的光流图像序列时空特征
Figure BDA00023810835500000817
输入到第二个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果,
Figure BDA00023810835500000818
为光流图像在第二个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第k个卷积层输出的光流图像序列时空特征
Figure BDA00023810835500000819
的表达为如下公式(23)所示,
Figure BDA00023810835500000820
公式(23)中,
Figure BDA00023810835500000821
为将上述第二个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的光流图像序列时空特征
Figure BDA00023810835500000822
输入到第二个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果,
Figure BDA00023810835500000823
为光流图像在第二个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000091
与上述的光流图像序列时空特征
Figure BDA0002381083550000092
相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000093
的表达为如下公式(24)所示,
Figure BDA0002381083550000094
上述光流图像序列时空特征
Figure BDA0002381083550000095
与上述融合后的多模态图像序列特征
Figure BDA0002381083550000096
进行多模态图像序列特征的融合,并输入到该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层池化层,表达为如下公式(25)所示,
Figure BDA0002381083550000097
公式(25)中,
Figure BDA0002381083550000098
为该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层池化层输出的融合后的多模态图像序列特征,α为自适应参数值,初始化为0,并逐渐的学习分配到更大的权重,
将上述融合后的多模态图像序列特征
Figure BDA0002381083550000099
通过两个全连接层,得到融合后的多模态图像序列时空特征
Figure BDA00023810835500000910
其中T=n/16,t=1,...,T,
由此完成多模态图像序列时空特征融合;
至此完成原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合;
第三步,手语句子标签的文本特征序列的提取:
对与上述第一步所述的原始手语图像序列对应的有U个单词的手语标签Y=(y1,y2,...,yU),其中U为原始手语图像序列所对应的单词数量(下同),通过使用词嵌入方法进行手语句子标签的文本特征序列提取,具体方法是,使用一个三维卷积残差网络完全连接层,从一个手势单词标签的热向量中学习线性映射到一个如下公式(26)所示的更密集的空间,即通过词嵌入方法提取的手语句子标签的文本特征序列
Figure BDA00023810835500000911
Figure BDA00023810835500000912
公式(26)中,
Figure BDA00023810835500000913
为输入与上述第一步所述的原始手语图像序列时空特征对应的手语句子标签,fwordembedding为用词嵌入方法将输入的手语句子标签的文本序列进行文本特征表示;
第四步,基于自注意力机制的编码解码网络的手语标签预测输出:
对于上述第二步获取的融合后的多模态图像序列时空特征
Figure BDA00023810835500000914
和上述第三步获取的文本特征序列
Figure BDA00023810835500000915
采用基于自注意力机制的编码解码网络的建模方法进行手语标签预测输出,该网络由编码器和解码器两部分构成,在编码阶段,上述第二步获取的融合后的多模态图像序列时空特征
Figure BDA00023810835500000916
以一个大小为512维的向量通过双向门控单元和基于自注意力机制的编码网络,编码成视频特征序列,然后在解码阶段,通过双向门控单元、位置嵌入和基于自注意力机制的解码网络将上述第二步获取的融合后的多模态图像序列时空特征
Figure BDA0002381083550000101
和上述第三步获取的文本特征序列
Figure BDA0002381083550000102
解码生成预测手语标签,具体操作如下:
第(4.1)步,在编码阶段获得多模态图像序列特征FFN(A):
将第二步获取的融合后的多模态图像序列时空特征
Figure BDA0002381083550000103
输入到上述编码解码网络的编码器,该编码器对该融合后的多模态图像序列时空特征
Figure BDA0002381083550000104
的进行建模,过程如下,
编码器的双向门控单元分别从t=1到T和从t=T到1,其中T=n/16,所用编码器的双向门控单元为如下公式(27)和公式(28)所示,
Figure BDA0002381083550000105
Figure BDA0002381083550000106
公式(27)中,
Figure BDA0002381083550000107
ot分别为门控单元模型fGRU-frw在编码器的前馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征,
Figure BDA0002381083550000108
分别为门控单元模型fGRU-frw在编码器的前馈神经网络第t-1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元,
公式(28)中,
Figure BDA0002381083550000109
ot分别为门控单元模型fGRU-bck在编码器的反馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征,
Figure BDA00023810835500001010
分别为门控单元模型fGRU-bck在编码器的反馈神经网络第t+1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元,
将编码器的前馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态
Figure BDA00023810835500001011
和编码器的反馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态
Figure BDA00023810835500001012
的输入级联作为该编码器的双向门控单元的输出zt,如下公式(29)所示,
Figure BDA00023810835500001013
公式(29)中,Concat为将第t个16帧为一组的融合后的多模态图像序列组的编码器的前馈神经网络的隐藏状态
Figure BDA00023810835500001014
和反馈神经的网络隐藏状态
Figure BDA00023810835500001015
进行级联,
由该编码器的双向门控单元的输出zt得到新的多模态图像序列特征
Figure BDA00023810835500001016
进一步用如下公式(30)通过自注意力机制学习该新的多模态图像序列特征
Figure BDA00023810835500001017
的内部关系,
Figure BDA00023810835500001018
公式(30)中,dZ为新的多模态图像序列特征
Figure BDA0002381083550000111
的维度,softmax函数为将结果进行归一化,
利用公式(30)对输入的新的多模态图像序列特征
Figure BDA0002381083550000112
加入权重进行自注意力机制学习,得到输出结果head,如下公式(31)所示,
head=Attention(ZWQ,ZWK,ZWV) (31),
公式(31)中,head为自注意力机制计算的结果,Attention为计算方式,与公式(30)相同,WQ、WK、WV分别为与Attention内新的多模态图像序列特征
Figure BDA0002381083550000113
对应的三个权重矩阵,
将输入的新的多模态图像序列特征
Figure BDA0002381083550000114
进行6次自注意力机制学习,如下公式(32)所示,
MultiHead(Z,Z,Z)=Concat(head1,...,head6)WO (32),
公式(32)中,head1、…、head6的计算方式与上述公式(31)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵WO相乘后的特征序列,
由上述公式(32)得到新的多模态图像序列特征
Figure BDA0002381083550000115
进行6次自注意力机制学习的结果为A=(a1,a2,...,aT),其中T=n/16,t=1,...,T,将A=(a1,a2,...,aT)放入编码器前向神经网络FFN中,表达式如下公式(33)所示,
FFN(A)=max(0,AW1+b1)W2+b2 (33),
公式(33)中,W1和W2为权重矩阵,b1和b2为偏置值,max为求0和AW1+b1的最大值,
由此完成在编码阶段获得多模态图像序列特征FFN(A);
第(4.2)步,在解码阶段获得手语标签预测输出:
将上述第三步获取的文本特征序列
Figure BDA0002381083550000116
输入到上述编码解码网络的解码器中,该解码器对文本特征进行时间建模,过程如下,
所用解码器的双向门控单元为如下公式(34)和公式(35)所示,
Figure BDA0002381083550000117
Figure BDA0002381083550000118
公式(34)中
Figure BDA0002381083550000119
su分别为门控单元模型fGRU-frw在解码器的前馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列,
Figure BDA00023810835500001110
分别为门控单元模型fGRU-frw在前馈神经网络第u-1个单词的隐藏状态和记忆单元,
公式(35)中,
Figure BDA00023810835500001111
su分别为门控单元模型fGRU-bck在解码器的反馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列,
Figure BDA0002381083550000121
分别为门控单元模型fGRU-bck在反馈神经网络第u+1个单词的隐藏状态和记忆单元,
将解码器的前馈神经网络第u个单词的隐藏状态
Figure BDA0002381083550000122
和解码器的反馈神经网络第u个单词的隐藏状态
Figure BDA0002381083550000123
级联作为该解码器的双向门控单元的第u个单词的输出qu,如下公式(36)所示,
Figure BDA0002381083550000124
公式(36)中,Concat为将第u个单词的编码器的前馈神经网络的隐藏状态
Figure BDA0002381083550000125
和反馈神经的网络隐藏状态
Figure BDA0002381083550000126
进行级联,
将该解码器的双向门控单元的输出qu得到新的文本特征序列
Figure BDA0002381083550000127
利用如下公式(37)和公式(38)分别所示的不同频率的正弦函数和余弦函数进行位置编码嵌入关于手语句子标签中每个单词的位置信息,得到位置编码的位置序列结果为
Figure BDA0002381083550000128
其中Pu为第u个单词的位置编码嵌入输出,
P(u,2i)=sin(u/100002i/d) (37),
P(u,2i+1)=cos(u/100002i/d) (38),
公式(37)和公式(38)中,u表示为句子标签中第u个单词的位置,u=1,...,U,d为所有句子标签中单词的总个数,i=1,...,d,
将该解码器的双向门控单元的输出得到新的文本特征序列
Figure BDA0002381083550000129
和位置编码嵌入得到的位置编码嵌入输出的结果
Figure BDA00023810835500001210
相加,得到最终的手语句子标签的文本特征序列如下公式(39)所示,
Figure BDA00023810835500001211
公式(39)中,
Figure BDA00023810835500001212
为手语句子标签的文本特征序列,qu为第u个单词的门控单元输出,Pu为第u个单词的位置编码嵌入输出,
将得到的手语句子标签的文本特征序列
Figure BDA00023810835500001213
首先通过自注意力机制学习文本序列的内部关系,如下公式(40)所示,
Figure BDA00023810835500001214
公式(40)中,dG为手语句子标签的文本特征序列
Figure BDA00023810835500001215
的维度,softmax函数为将结果进行归一化,
利用公式(40)对输入的手语句子标签的文本特征序列
Figure BDA00023810835500001216
加入权重进行自注意力机制学习,得到输出结果head',如下公式(41)所示,
head'=Attention(GW'Q,GW'K,GW'V) (41),
公式(41)中,Attention计算方式与公式(40)中相同,W'Q、W'K、W'V分别为与Attention内手语句子标签的文本特征序列
Figure BDA0002381083550000131
对应的三个权重矩阵,
将输入的手语句子标签的文本特征序列
Figure BDA0002381083550000132
进行6次自注意力机制学习,如下公式(42)所示,
MultiHead(G,G,G)=Concat(head'1,...,head'6)W'O (42),
公式(42)中,head'1、…、head'6的计算方式与上述公式(41)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵W'O相乘后的特征序列,
由上述公式(42)得到手语句子标签的文本特征序列的结果表示为B=(b1,b2,...,bU),将上述第(4.1)步中在编码阶段获得的多模态图像序列特征FFN(A)表示为D=(d1,d2,...,dT),其中T=n/16,
将B=(b1,b2,...,bU)和D=(d1,d2,...,dT)均输入到该解码器的最后一个自注意力机制中,如下公式(43)所示,
Figure BDA0002381083550000133
公式(43)中,dB为手语句子标签的文本特征序列的结果B的维度,softmax函数为将结果进行归一化,
利用公式(43)对上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)加入权重进行自注意力机制学习,得到输出结果为head”,如下公式(44)所示,
head”=Attention(BW”Q,DW”K,DW”V) (44),
公式(44)中,Attention计算方式与上述公式(43)中相同,W”Q为与Attention内的上述的B=(b1,b2,...,bU)所对应的权重矩阵,W”K、W”V分别为与Attention内的上述的D=(d1,d2,...,dT)所对应的两个权重矩阵,
将上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)进行6次自注意力机制学习,如下公式(45)所示,
MultiHead(B,D,D)=Concat(head″1,...,head”6)W”O (45),
公式(45)中,head″1、…、head”6的计算方式与上述公式(44)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵W”O相乘后的特征序列,
由上述公式(45)得到手语句子标签的文本特征序列结果为E=(e1,e2,...,eU'),其中U'为预测的手语句子中单词的总个数(下同),将E=(e1,e2,...,eU')放入编码器前向神经网络FFN中,表达式如下公式(46)所示,
FFN(E)=max(0,EW′1+b′1)W′2+b′2 (46),
公式(46)中,W′1和W′2为权重矩阵,b′1和b′2为偏置值,max为求0和EW′1+b′1的最大值,
通过编码器前向神经网络FFN和softmax层得到最终手语标签预测输出结果为Y'=(y'1,y'2,...,y'U'),
由此完成在解码阶段获得手语标签预测输出;
至此完成基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别。
上述一种连续手语识别的方法,所述“FlowNet网络”、“三维卷积残差网络”、“词嵌入方法”、“解码器对文本信息进行时间建模”、“自注意力机制的编码解码网络的建模方法”、“编码解码网络的编码器”、“编码解码网络的解码器”均为本技术领域的公知技术。
本发明的有益效果是:与现有技术相比,本发明的突出的实质性特点和显著进步如下:
(1)本发明采用了三维卷积残差网络进行视频特征提取。现有技术中CNN等2d网络仅仅对图像进行空间特征的提取,无法采集到视频中帧与帧之间的时间信息。三维卷积残差网络中增加了时间维度,以连续的一组帧作为输入,通过卷积层和池化层进行时间和空间上的特征提取,使得特征维度增加。
(2)本发明采用特征融合的方式进行特征提取。最初特征融合只在最后的池化层之后进行融合,只关注到高级语义信息,忽略了低级语义信息,本发明在最初就将运动特征与外观特征进行融合,在最后池化层再进行自适应融合,使得卷积神经网络输出的特征更为丰富。
(3)本发明采用了自注意力机制,解决了输入视频帧序列长度与手语标签序列长度之间不匹配的问题,并且通过对自身注意力机制提取,分别增加了编码器和解码器中特征序列的多样性,通过不同权重的分配,突出了特征序列中的重点特征,使得最后得到的预测序列更加准确。
(4)本发明方法与CN110188732A相比,CN110188732A利用静态手语图片数据,只利用了一种数据,对于动态连续手语并没有进行网络训练,训练特征较为单一。本发明方法利用动态手语视频数据库,除了对空间上的手语特征进行提取之外,还增加了时间维度上的提取,可以增加特征的多样性。
(5)本发明方法与CN110110602A相比,CN110110602A利用Faster R-CNN检测手的位置并从背景中分割出手,利用三维残差网络进行时空特征提取和视频序列分析,其方法只对手部位置进行识别,缺少了打手语者其他部分特征检测,提取到的只能作为局部特征。本发明方法通过神经网络对视频序列直接进行特征提取,得到了全局信息。又以光流信息作为特征的补充,使特征更加富有层次。
(6)本发明方法与CN109656358A相比,CN109656358A对手语识别进行数据采集,利用采集速度传输和肌电传感器采集数据,这种方法所需时间较长,且需要较多的人力物力,只能采取到极少的手语。本发明方法所利用的数据为公开的数据库,数据量充足,所得出的实验结果具有普适性。
(7)本发明方法与CN110175551A相比,CN110175551A对光流特征和原始手语图像特征送入神经网络进行加权融合,这种方法仅在神经网络特征提取的后期融合进行交互,不支持真正的特征学习。本发明方法所采取的网络结构在处理过程中对外观和运动路径进行更早的交互,这种交互作用对于区分具有相似动作或外观的动作很重要,只有将这两种动作结合起来才能分辨。
(8)本发明方法与CN110472548A相比,CN110472548A将获取到的原始手语视频分割成多个视频段,再利用三维卷积神经网络对各个视频段进行时空特征提取,该方法在分割视频段时要保证每个视频段仅包含一个手语单词,需对视频帧序列与句子中的单词进行对齐,比较耗时。本发明方法通过自注意力机制解码输出序列标签,无需前期视频与句子进行对齐处理,节省时间。
(9)本发明方法与CN110399850A相比,CN110399850A使用Kinect相机获取深度、彩色和骨架点图像,将其进行手型信息预处理和轨迹信息预处理,再通过双路进行关键片段特征提取,该方法只提取关键片段,忽略了连续手语视频帧之间的动作相关性。本发明方法利用三维卷积残差网络进行手语视频短期时空特征提取,再利用双向门控单元进行长期时间序列建模,得到了手语视频各个动作空间信息和运动轨迹信息,更加强调了手语间的连续性。
(10)本发明方法与CN107103311A相比,CN107103311A将获取到的原始手语图像和深度图通过深度阈值分割和肤色分割获取手部区域,再通过特征提取和整合进行相似度匹配进行手语识别,该方法仅得到手部区域,只提取了局部特征,忽略了其他部位对于手语识别的作用。本发明方法将原始手语图像视频帧序列的外观信息和光流视频帧序列的运动信息进行多模态融合,极大的补充了手语特征,更有利用手语识别。
(11)本发明方法与CN107679491A相比,CN107679491A采用手势红外图像和轮廓图像特征,利用三维卷积神经网络进行特征提取并融合,该方法使用体感数据采集对所需的两种图像进行获取,只能采集到较少的手语数据,无法应用于其他手语数据库,不具有普遍性。本发明方法利用公开的数据库进行原始手语图像特征和光流特征的多模态特征输入并融合,使用的手语视频易获取,且利用双向门控单元学习视频序列间的长期依赖关系,模型具有较好的鲁棒性。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明一种连续手语识别的方法的流程示意框图。
具体实施方式
图1所示实施例表明,本发明一种连续手语识别的方法的流程是:由原始手语图像序列通过FlowNet网络提取获得光流图像序列→原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合;手语句子标签的文本特征序列的提取→基于自注意力机制的编码解码网络的手语标签预测输出。
实施例
第一步,由原始手语图像序列通过FlowNet网络提取获得光流图像序列:
读入由n=228个镜头组成的视频P01_s1_00_0_color.avi,视频尺寸为112×112像素,对该输入的含有228帧图像的原始手语图像序列X=(x1,x2,...,xn),其中,n=228为图像序列的帧序数(下同),x1、x2、…、xn分别为原始手语图像序列的第一帧、第二帧、…、第n帧,通过FlowNet网络提取相邻图像间的光流场,每个手语图像序列间的光流场组成光流图像序列,得到的含有n帧图像的光流图像序列为X'=(x'1,x'2,...,x'n),其中x'1、x'2、…、x'n分别为光流图像序列的第一帧、第二帧、…、第n帧;
第二步,原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合:
通过三维卷积残差网络对上述第一步所述的原始手语图像序列和光流图像序列进行时空特征提取和多模态图像序列时空特征融合,具体操作如下,
第(2.1)步,原始手语图像序列和光流图像序列的时空特征的提取:
第(2.1.1)步,原始手语图像序列的时空特征的提取:
将上述第一步中输入的含有n帧图像的原始手语图像序列输入到第一个三维卷积残差网络进行提取原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征,操作如下:
将上述第一步中的输入的含有n帧图像的原始手语图像序列X=(x1,x2,...,xn)以16帧为一个原始手语图像序列组输入到第一个三维卷积残差网络前两层卷积层和池化层,输入的图像序列重新定义为
Figure BDA0002381083550000161
其中T=n/16,t=1,...,T,t为第t个16帧为一组的融合后的多模态图像序列组(下同),该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的原始手语图像序列时空特征
Figure BDA0002381083550000162
的表达为如下公式(1)所示,
Figure BDA0002381083550000163
公式(1)中,maxpooling为最大池化函数(下同),f为激活函数ReLU(下同),f(F(vt,W1 a))为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层输出的原始手语图像序列时空特征,F(vt,W1 a)为将原始手语图像序列
Figure BDA0002381083550000164
输入到第一个三维卷积残差网络的第一层卷积层后的非线性映射的结果,W1 a为原始手语图像在第一个三维卷积残差网络的第一层卷积层中的权重,
该输入的原始手语图像序列在第一个三维卷积残差网络中的第二层卷积层之后的第二层池化层输出的原始手语图像序列时空特征
Figure BDA0002381083550000171
的表达为如下公式(2)所示,
Figure BDA0002381083550000172
公式(2)中,
Figure BDA0002381083550000173
为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第二层卷积层输出的原始手语图像序列时空特征,
Figure BDA0002381083550000174
为将上述第一层池化层输出的原始手语图像序列时空特征
Figure BDA0002381083550000175
输入到第一个三维卷积残差网络的第二层卷积层后的非线性映射的结果,
Figure BDA0002381083550000176
为原始手语图像在第一个三维卷积残差网络的第二层卷积层中的权重,由此完成原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征的提取;
第(2.1.2)步,光流图像序列的时空特征的提取:
将上述第一步中输入的含有n帧图像的光流图像序列输入到第二个三维卷积残差网络进行提取光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征,操作如下:
上述第一步中得到的含有n帧图像的光流图像序列X'=(x'1,x'2,...,x'n)以16帧为一个光流图像序列组输入到第二个三维卷积残差网络的前两层卷积层和池化层,输入的光流图像序列为
Figure BDA0002381083550000177
其中T=n/16,t=1,...,T,该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的光流图像序列时空特征
Figure BDA0002381083550000178
的表达为如下公式(3)所示,
Figure BDA0002381083550000179
公式(3)中,maxpooling为最大池化函数(下同),f(F(v't,W1 m))为该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层输出的光流图像序列时空特征,F(v't,W1 m)为将光流图像序列
Figure BDA00023810835500001710
输入到第二个三维卷积残差网络的第一层卷积层后的非线性映射的结果,W1 m为光流图像序列在第二个三维卷积残差网络的第一层卷积层中的权重;
该输入的光流图像序列在第二个三维卷积残差网络中的第二层卷积层之后的第二层池化层输出的光流图像序列时空特征
Figure BDA00023810835500001711
的表达为如下公式(4)所示,
Figure BDA00023810835500001712
公式(4)中,
Figure BDA00023810835500001713
为该输入的光流图像序列在该第二个三维卷积残差网络中的第二层卷积层输出的光流图像序列时空特征,
Figure BDA00023810835500001714
为将上述第一层池化层输出的光流图像序列时空特征
Figure BDA00023810835500001715
输入到第二层卷积层后的非线性映射的结果,
Figure BDA00023810835500001716
为光流图像序列在第二个三维卷积残差网络中的第二层卷积层中的权重,由此完成光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征的提取;
至此完成原始手语图像序列和光流图像序列的时空特征的提取;
第(2.2)步,多模态图像序列时空特征融合:
将上述第(2.1.1)步提取的原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征和上述第(2.1.2)步提取的光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征在三维卷积残差网络后三个层卷积层和池化层进行多模态图像序列时空特征融合,操作如下:
上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第一个卷积层输出的原始手语图像序列时空特征
Figure BDA0002381083550000181
的表达为如下公式(5)所示,
Figure BDA0002381083550000182
公式(5)中,
Figure BDA0002381083550000183
为将上述第一个三维卷积残差网络中的第二层池化层输出的原始手语图像序列时空特征
Figure BDA0002381083550000184
输入到第一个三维卷积残差网络的第三层卷积层中的第一个卷积层后的非线性映射的结果,
Figure BDA0002381083550000185
为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第一个卷积层中的权重;
上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第k个卷积层输出的原始手语图像序列时空特征
Figure BDA0002381083550000186
的表达为如下公式(6)所示,
Figure BDA0002381083550000187
公式(6)中,
Figure BDA0002381083550000188
为将上述第一个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的原始手语图像序列时空特征
Figure BDA0002381083550000189
输入到第一个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果,
Figure BDA00023810835500001810
为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重;
上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征
Figure BDA00023810835500001811
与上述的原始手语图像序列时空特征
Figure BDA00023810835500001812
相加,得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征
Figure BDA00023810835500001813
的表达为如下公式(7)所示,
Figure BDA00023810835500001814
上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中的第一个卷积层输出的光流图像序列时空特征
Figure BDA00023810835500001815
的表达为如下公式(8)所示,
Figure BDA00023810835500001816
公式(8)中,
Figure BDA00023810835500001817
为将上述的光流图像序列时空特征
Figure BDA00023810835500001818
输入到第二个三维卷积残差网络的第三层卷积层中第一个卷积层后的非线性映射的结果,
Figure BDA0002381083550000191
为光流图像在第二个三维卷积残差网络的第三层卷积层中的中第一个卷积层中的权重;
上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中第k个卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000192
的表达为如下公式(9)所示,
Figure BDA0002381083550000193
公式(9)中,
Figure BDA0002381083550000194
为将上述第二个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000195
输入到第二个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果,
Figure BDA0002381083550000196
为光流图像在第二个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重;
上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000197
与上述的光流图像序列时空特征
Figure BDA0002381083550000198
相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中第三个卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000199
的表达为如下公式(10)所示,
Figure BDA00023810835500001910
上述的光流图像序列时空特征
Figure BDA00023810835500001911
与上述的原始手语图像序列时空特征
Figure BDA00023810835500001912
进行多模态图像序列时空特征融合,然后输入到上述输入的原始手语图像序列所在的第一个三维卷积残差网络中的第三层池化层,表达为如下公式(11)所示,
Figure BDA00023810835500001913
公式(11)中,
Figure BDA00023810835500001914
为上述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层池化层输出的融合后的多模态图像序列特征,⊙为对应元素相乘(下同);
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第一个卷积层输出的融合后的多模态图像序列特征
Figure BDA00023810835500001915
的表达为如下公式(12)所示,
Figure BDA00023810835500001916
公式(12)中,
Figure BDA00023810835500001917
为将上述融合后的多模态图像序列特征
Figure BDA00023810835500001918
输入到第一个三维卷积残差网络的第四层卷积层中的第一个卷积层后的非线性映射的结果,
Figure BDA00023810835500001919
为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第k个卷积层输出的融合后的多模态图像序列特征
Figure BDA00023810835500001920
的表达为如下公式(13)所示,
Figure BDA00023810835500001921
公式(13)中,
Figure BDA00023810835500001922
为将上述第一个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征
Figure BDA00023810835500001923
输入到第一个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果,
Figure BDA00023810835500001924
为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征
Figure BDA0002381083550000201
与上述融合后的多模态图像序列特征
Figure BDA0002381083550000202
相加得到的新的输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中第三个卷积层输出的融合后的多模态图像序列特征
Figure BDA0002381083550000203
的表达为如下公式(14)所示,
Figure BDA0002381083550000204
上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第一层卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000205
的表达为如下公式(15)所示,
Figure BDA0002381083550000206
公式(15)中,
Figure BDA0002381083550000207
为将上述第二个三维卷积残差网络中的第三层池化层输出的光流图像序列时空特征
Figure BDA0002381083550000208
输入到第二个三维卷积残差网络的第四层卷积层中第一个卷积层后的非线性映射的结果,
Figure BDA0002381083550000209
为光流图像在第二个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第k个卷积层公式为输出的光流图像序列时空特征
Figure BDA00023810835500002010
的表达为如下公式(16)所示,
Figure BDA00023810835500002011
公式(16)中,
Figure BDA00023810835500002012
为将上述第二个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的光流图像序列时空特征
Figure BDA00023810835500002013
输入到第二个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果,
Figure BDA00023810835500002014
为光流图像在第二个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure BDA00023810835500002015
与上述光流图像序列时空特征
Figure BDA00023810835500002016
相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure BDA00023810835500002017
的表达为如下公式(17)所示,
Figure BDA00023810835500002018
将上述光流图像序列时空特征
Figure BDA00023810835500002019
与上述融合后的多模态图像序列特征
Figure BDA00023810835500002020
进行多模态图像序列特征融合,并输入到上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层池化层,表达为如下公式(18)所示,
Figure BDA00023810835500002021
公式(18)中,
Figure BDA00023810835500002022
为上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层池化层输出的融合后的多模态图像序列特征;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第一个卷积层输出的融合后的多模态图像序列特征
Figure BDA0002381083550000211
的表达为如下公式(19)所示,
Figure BDA0002381083550000212
公式(19)中,
Figure BDA0002381083550000213
为将上述融合后的多模态图像序列特征
Figure BDA0002381083550000214
输入到第一个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果,
Figure BDA0002381083550000215
为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第k个卷积层输出的融合后的多模态图像序列特征
Figure BDA0002381083550000216
的表达为如下公式(20)所示,
Figure BDA0002381083550000217
公式(20)中,
Figure BDA0002381083550000218
为将上述第一个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征
Figure BDA0002381083550000219
输入到第一个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果,
Figure BDA00023810835500002110
为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征
Figure BDA00023810835500002111
与上述融合后的多模态图像序列特征
Figure BDA00023810835500002112
相加,得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征
Figure BDA00023810835500002113
的表达为如下公式(21)所示,
Figure BDA00023810835500002114
上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第一个层卷积层输出的光流图像序列时空特征
Figure BDA00023810835500002115
的表达为如下公式(22)所示,
Figure BDA00023810835500002116
公式(22)中,
Figure BDA00023810835500002117
为将上述第二个三维卷积残差网络中的第四层池化层输出的光流图像序列时空特征
Figure BDA00023810835500002118
输入到第二个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果,
Figure BDA00023810835500002119
为光流图像在第二个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第k个卷积层输出的光流图像序列时空特征
Figure BDA00023810835500002120
的表达为如下公式(23)所示,
Figure BDA00023810835500002121
公式(23)中,
Figure BDA00023810835500002122
为将上述第二个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的光流图像序列时空特征
Figure BDA00023810835500002123
输入到第二个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果,
Figure BDA00023810835500002124
为光流图像在第二个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000221
与上述的光流图像序列时空特征
Figure BDA0002381083550000222
相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure BDA0002381083550000223
的表达为如下公式(24)所示,
Figure BDA0002381083550000224
上述光流图像序列时空特征
Figure BDA0002381083550000225
与上述融合后的多模态图像序列特征
Figure BDA0002381083550000226
进行多模态图像序列特征的融合,并输入到该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层池化层,表达为如下公式(25)所示,
Figure BDA0002381083550000227
公式(25)中,
Figure BDA0002381083550000228
为该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层池化层输出的融合后的多模态图像序列特征,α为自适应参数值,初始化为0,并逐渐的学习分配到更大的权重,
将上述融合后的多模态图像序列特征
Figure BDA0002381083550000229
通过两个全连接层,得到融合后的多模态图像序列时空特征
Figure BDA00023810835500002210
其中T=n/16,t=1,...,T,
由此完成多模态图像序列时空特征融合;
至此完成原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合;
第三步,手语句子标签的文本特征序列的提取:
对与上述第一步所述的原始手语图像序列对应的有U个单词的手语标签Y=(y1,y2,...,yU),其中U为原始手语图像序列所对应的单词数量(下同),通过使用词嵌入方法进行手语句子标签的文本特征序列提取,具体方法是,使用一个三维卷积残差网络完全连接层,从一个手势单词标签的热向量中学习线性映射到一个如下公式(26)所示的更密集的空间,即通过词嵌入方法提取的手语句子标签的文本特征序列
Figure BDA00023810835500002211
Figure BDA00023810835500002212
公式(26)中,
Figure BDA00023810835500002213
为输入与上述第一步所述的原始手语图像序列时空特征对应的手语句子标签,fwordembedding为用词嵌入方法将输入的手语句子标签的文本序列进行文本特征表示;
第四步,基于自注意力机制的编码解码网络的手语标签预测输出:
对于上述第二步获取的融合后的多模态图像序列时空特征
Figure BDA00023810835500002214
和上述第三步获取的文本特征序列
Figure BDA00023810835500002215
采用基于自注意力机制的编码解码网络的建模方法进行手语标签预测输出,该网络由编码器和解码器两部分构成,在编码阶段,上述第二步获取的融合后的多模态图像序列时空特征
Figure BDA0002381083550000231
以一个大小为512维的向量通过双向门控单元和基于自注意力机制的编码网络,编码成视频特征序列,然后在解码阶段,通过双向门控单元、位置嵌入和基于自注意力机制的解码网络将上述第二步获取的融合后的多模态图像序列时空特征
Figure BDA0002381083550000232
和上述第三步获取的文本特征序列
Figure BDA0002381083550000233
解码生成预测手语标签,具体操作如下:
第(4.1)步,在编码阶段获得多模态图像序列特征FFN(A):
将第二步获取的融合后的多模态图像序列时空特征
Figure BDA0002381083550000234
输入到上述编码解码网络的编码器,该编码器对该融合后的多模态图像序列时空特征
Figure BDA0002381083550000235
的进行建模,过程如下,
编码器的双向门控单元分别从t=1到T和从t=T到1,其中T=n/16,所用编码器的双向门控单元为如下公式(27)和公式(28)所示,
Figure BDA0002381083550000236
Figure BDA0002381083550000237
公式(27)中,
Figure BDA0002381083550000238
ot分别为门控单元模型fGRU-frw在编码器的前馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征,
Figure BDA0002381083550000239
分别为门控单元模型fGRU-frw在编码器的前馈神经网络第t-1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元,
公式(28)中,
Figure BDA00023810835500002310
ot分别为门控单元模型fGRU-bck在编码器的反馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征,
Figure BDA00023810835500002311
分别为门控单元模型fGRU-bck在编码器的反馈神经网络第t+1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元,
将编码器的前馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态
Figure BDA00023810835500002312
和编码器的反馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态
Figure BDA00023810835500002313
的输入级联作为该编码器的双向门控单元的输出zt,如下公式(29)所示,
Figure BDA00023810835500002314
公式(29)中,Concat为将第t个16帧为一组的融合后的多模态图像序列组的编码器的前馈神经网络的隐藏状态
Figure BDA00023810835500002315
和反馈神经的网络隐藏状态
Figure BDA00023810835500002316
进行级联,
由该编码器的双向门控单元的输出zt得到新的多模态图像序列特征
Figure BDA00023810835500002317
进一步用如下公式(30)通过自注意力机制学习该新的多模态图像序列特征
Figure BDA00023810835500002318
的内部关系,
Figure BDA00023810835500002319
公式(30)中,dZ为新的多模态图像序列特征
Figure BDA0002381083550000241
的维度,softmax函数为将结果进行归一化,
利用公式(30)对输入的新的多模态图像序列特征
Figure BDA0002381083550000242
加入权重进行自注意力机制学习,得到输出结果head,如下公式(31)所示,
head=Attention(ZWQ,ZWK,ZWV) (31),
公式(31)中,head为自注意力机制计算的结果,Attention为计算方式,与公式(30)相同,WQ、WK、WV分别为与Attention内新的多模态图像序列特征
Figure BDA0002381083550000243
对应的三个权重矩阵,
将输入的新的多模态图像序列特征
Figure BDA0002381083550000244
进行6次自注意力机制学习,如下公式(32)所示,
MultiHead(Z,Z,Z)=Concat(head1,...,head6)WO (32),
公式(32)中,head1、…、head6的计算方式与上述公式(31)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵WO相乘后的特征序列,
由上述公式(32)得到新的多模态图像序列特征
Figure BDA0002381083550000245
进行6次自注意力机制学习的结果为A=(a1,a2,...,aT),其中T=n/16,t=1,...,T,将A=(a1,a2,...,aT)放入编码器前向神经网络FFN中,表达式如下公式(33)所示,
FFN(A)=max(0,AW1+b1)W2+b2 (33),
公式(33)中,W1和W2为权重矩阵,b1和b2为偏置值,max为求0和AW1+b1的最大值,
由此完成在编码阶段获得多模态图像序列特征FFN(A);
第(4.2)步,在解码阶段获得手语标签预测输出:
将上述第三步获取的文本特征序列
Figure BDA0002381083550000246
输入到上述编码解码网络的解码器中,该解码器对文本特征进行时间建模,过程如下,
所用解码器的双向门控单元为如下公式(34)和公式(35)所示,
Figure BDA0002381083550000247
Figure BDA0002381083550000248
公式(34)中
Figure BDA0002381083550000249
su分别为门控单元模型fGRU-frw在解码器的前馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列,
Figure BDA00023810835500002410
分别为门控单元模型fGRU-frw在前馈神经网络第u-1个单词的隐藏状态和记忆单元,
公式(35)中,
Figure BDA00023810835500002411
su分别为门控单元模型fGRU-bck在解码器的反馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列,
Figure BDA0002381083550000251
分别为门控单元模型fGRU-bck在反馈神经网络第u+1个单词的隐藏状态和记忆单元,
将解码器的前馈神经网络第u个单词的隐藏状态
Figure BDA0002381083550000252
和解码器的反馈神经网络第u个单词的隐藏状态
Figure BDA0002381083550000253
级联作为该解码器的双向门控单元的第u个单词的输出qu,如下公式(36)所示,
Figure BDA0002381083550000254
公式(36)中,Concat为将第u个单词的编码器的前馈神经网络的隐藏状态
Figure BDA0002381083550000255
和反馈神经的网络隐藏状态
Figure BDA0002381083550000256
进行级联,
将该解码器的双向门控单元的输出qu得到新的文本特征序列
Figure BDA0002381083550000257
利用如下公式(37)和公式(38)分别所示的不同频率的正弦函数和余弦函数进行位置编码嵌入关于手语句子标签中每个单词的位置信息,得到位置编码的位置序列结果为
Figure BDA0002381083550000258
其中Pu为第u个单词的位置编码嵌入输出,
P(u,2i)=sin(u/100002i/d) (37),
P(u,2i+1)=cos(u/100002i/d) (38),
公式(37)和公式(38)中,u表示为句子标签中第u个单词的位置,u=1,...,U,d为所有句子标签中单词的总个数,i=1,...,d,
将该解码器的双向门控单元的输出得到新的文本特征序列
Figure BDA0002381083550000259
和位置编码嵌入得到的位置编码嵌入输出的结果
Figure BDA00023810835500002510
相加,得到最终的手语句子标签的文本特征序列如下公式(39)所示,
Figure BDA00023810835500002511
公式(39)中,
Figure BDA00023810835500002512
为手语句子标签的文本特征序列,qu为第u个单词的门控单元输出,Pu为第u个单词的位置编码嵌入输出,
将得到的手语句子标签的文本特征序列
Figure BDA00023810835500002513
首先通过自注意力机制学习文本序列的内部关系,如下公式(40)所示,
Figure BDA00023810835500002514
公式(40)中,dG为手语句子标签的文本特征序列
Figure BDA00023810835500002515
的维度,softmax函数为将结果进行归一化,
利用公式(40)对输入的手语句子标签的文本特征序列
Figure BDA00023810835500002516
加入权重进行自注意力机制学习,得到输出结果head',如下公式(41)所示,
head'=Attention(GW'Q,GW'K,GW'V) (41),
公式(41)中,Attention计算方式与公式(40)中相同,W'Q、W'K、W'V分别为与Attention内手语句子标签的文本特征序列
Figure BDA0002381083550000261
对应的三个权重矩阵,
将输入的手语句子标签的文本特征序列
Figure BDA0002381083550000262
进行6次自注意力机制学习,如下公式(42)所示,
MultiHead(G,G,G)=Concat(head'1,...,head'6)W'o (42),
公式(42)中,head'1、…、head'6的计算方式与上述公式(41)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵W'o相乘后的特征序列,
由上述公式(42)得到手语句子标签的文本特征序列的结果表示为B=(b1,b2,...,bU),将上述第(4.1)步中在编码阶段获得的多模态图像序列特征FFN(A)表示为D=(d1,d2,...,dT),其中T=n/16,
将B=(b1,b2,...,bU)和D=(d1,d2,...,dT)均输入到该解码器的最后一个自注意力机制中,如下公式(43)所示,
Figure BDA0002381083550000263
公式(43)中,dB为手语句子标签的文本特征序列的结果B的维度,softmax函数为将结果进行归一化,
利用公式(43)对上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)加入权重进行自注意力机制学习,得到输出结果为head”,如下公式(44)所示,
head”=Attention(BW”Q,DW”K,DW”V) (44),
公式(44)中,Attention计算方式与上述公式(43)中相同,W”Q为与Attention内的上述的B=(b1,b2,...,bU)所对应的权重矩阵,W”K、W”V分别为与Attention内的上述的D=(d1,d2,...,dT)所对应的两个权重矩阵,
将上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)进行6次自注意力机制学习,如下公式(45)所示,
MultiHead(B,D,D)=Concat(head″1,...,head”6)W”O (45),
公式(45)中,head″1、…、head”6的计算方式与上述公式(44)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵W”O相乘后的特征序列,
由上述公式(45)得到手语句子标签的文本特征序列结果为E=(e1,e2,...,eU'),其中U'为预测的手语句子中单词的总个数(下同),将E=(e1,e2,...,eU')放入编码器前向神经网络FFN中,表达式如下公式(46)所示,
FFN(E)=max(0,EW′1+b′1)W′2+b′2 (46),
公式(46)中,W′1和W′2为权重矩阵,b′1和b′2为偏置值,max为求0和EW′1+b′1的最大值,
通过编码器前向神经网络FFN和softmax层得到最终手语标签预测输出结果为Y'=(y'1,y'2,...,y'U'),
由此完成在解码阶段获得手语标签预测输出;
至此完成基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别。
上述实施例中,所述“FlowNet网络”、“三维卷积残差网络”、“词嵌入方法”、“解码器对文本信息进行时间建模”、“自注意力机制的编码解码网络的建模方法”、“编码解码网络的编码器”、“编码解码网络的解码器”均为本技术领域的公知技术。

Claims (1)

1.一种连续手语识别的方法,其特征在于:是基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法,首先获得光流图像序列,通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合,和手语句子标签的文本特征序列的提取,将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出,具体步骤如下:
第一步,由原始手语图像序列通过FlowNet网络提取获得光流图像序列:
对输入的含有n帧图像的原始手语图像序列X=(x1,x2,...,xn),其中,n为图像序列的帧序数,x1、x2、…、xn分别为原始手语图像序列的第一帧、第二帧、…、第n帧,通过FlowNet网络提取相邻图像间的光流场,每个手语图像序列间的光流场组成光流图像序列,得到的含有n帧图像的光流图像序列为X'=(x'1,x'2,...,x'n),其中x'1、x'2、…、x'n分别为光流图像序列的第一帧、第二帧、…、第n帧;
第二步,原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合:
通过三维卷积残差网络对上述第一步所述的原始手语图像序列和光流图像序列进行时空特征提取和多模态图像序列时空特征融合,具体操作如下,
第(2.1)步,原始手语图像序列和光流图像序列的时空特征的提取:
第(2.1.1)步,原始手语图像序列的时空特征的提取:
将上述第一步中输入的含有n帧图像的原始手语图像序列输入到第一个三维卷积残差网络进行提取原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征,操作如下:
将上述第一步中的输入的含有n帧图像的原始手语图像序列X=(x1,x2,...,xn)以16帧为一个原始手语图像序列组输入到第一个三维卷积残差网络前两层卷积层和池化层,输入的图像序列重新定义为
Figure FDA0003550882870000011
其中T=n/16,t=1,...,T,t为第t个16帧为一组的融合后的多模态图像序列组,该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的原始手语图像序列时空特征
Figure FDA0003550882870000012
的表达为如下公式(1)所示,
Figure FDA0003550882870000013
公式(1)中,maxpooling为最大池化函数,f为激活函数ReLU,f(F(vt,W1 a))为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层输出的原始手语图像序列时空特征,F(vt,W1 a)为将原始手语图像序列
Figure FDA0003550882870000014
输入到第一个三维卷积残差网络的第一层卷积层后的非线性映射的结果,W1 a为原始手语图像在第一个三维卷积残差网络的第一层卷积层中的权重,
该输入的原始手语图像序列在第一个三维卷积残差网络中的第二层卷积层之后的第二层池化层输出的原始手语图像序列时空特征
Figure FDA0003550882870000021
的表达为如下公式(2)所示,
Figure FDA0003550882870000022
公式(2)中,
Figure FDA0003550882870000023
为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第二层卷积层输出的原始手语图像序列时空特征,
Figure FDA0003550882870000024
为将上述第一层池化层输出的原始手语图像序列时空特征
Figure FDA0003550882870000025
输入到第一个三维卷积残差网络的第二层卷积层后的非线性映射的结果,
Figure FDA0003550882870000026
为原始手语图像在第一个三维卷积残差网络的第二层卷积层中的权重,由此完成原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征的提取;
第(2.1.2)步,光流图像序列的时空特征的提取:
将上述第一步中输入的含有n帧图像的光流图像序列输入到第二个三维卷积残差网络进行提取光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征,操作如下:
上述第一步中得到的含有n帧图像的光流图像序列X'=(x'1,x'2,...,x'n)以16帧为一个光流图像序列组输入到第二个三维卷积残差网络的前两层卷积层和池化层,输入的光流图像序列为
Figure FDA0003550882870000027
其中T=n/16,t=1,...,T,该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的光流图像序列时空特征
Figure FDA0003550882870000028
的表达为如下公式(3)所示,
Figure FDA0003550882870000029
公式(3)中,maxpooling为最大池化函数,f(F(v't,W1 m))为该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层输出的光流图像序列时空特征,F(v't,W1 m)为将光流图像序列
Figure FDA00035508828700000210
输入到第二个三维卷积残差网络的第一层卷积层后的非线性映射的结果,W1 m为光流图像序列在第二个三维卷积残差网络的第一层卷积层中的权重;
该输入的光流图像序列在第二个三维卷积残差网络中的第二层卷积层之后的第二层池化层输出的光流图像序列时空特征
Figure FDA00035508828700000211
的表达为如下公式(4)所示,
Figure FDA00035508828700000212
公式(4)中,
Figure FDA00035508828700000213
为该输入的光流图像序列在该第二个三维卷积残差网络中的第二层卷积层输出的光流图像序列时空特征,
Figure FDA00035508828700000214
为将上述第一层池化层输出的光流图像序列时空特征
Figure FDA00035508828700000215
输入到第二层卷积层后的非线性映射的结果,
Figure FDA00035508828700000216
为光流图像序列在第二个三维卷积残差网络中的第二层卷积层中的权重,由此完成光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征的提取;
至此完成原始手语图像序列和光流图像序列的时空特征的提取;
第(2.2)步,多模态图像序列时空特征融合:
将上述第(2.1.1)步提取的原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征和上述第(2.1.2)步提取的光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征在三维卷积残差网络后三个层卷积层和池化层进行多模态图像序列时空特征融合,操作如下:
上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第一个卷积层输出的原始手语图像序列时空特征
Figure FDA0003550882870000031
的表达为如下公式(5)所示,
Figure FDA0003550882870000032
公式(5)中,
Figure FDA0003550882870000033
为将上述第一个三维卷积残差网络中的第二层池化层输出的原始手语图像序列时空特征
Figure FDA0003550882870000034
输入到第一个三维卷积残差网络的第三层卷积层中的第一个卷积层后的非线性映射的结果,
Figure FDA0003550882870000035
为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第一个卷积层中的权重;
上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第k个卷积层输出的原始手语图像序列时空特征
Figure FDA0003550882870000036
的表达为如下公式(6)所示,
Figure FDA0003550882870000037
公式(6)中,
Figure FDA0003550882870000038
为将上述第一个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的原始手语图像序列时空特征
Figure FDA0003550882870000039
输入到第一个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果,
Figure FDA00035508828700000310
为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重;
上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征
Figure FDA00035508828700000311
与上述的原始手语图像序列时空特征
Figure FDA00035508828700000312
相加,得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征
Figure FDA00035508828700000313
的表达为如下公式(7)所示,
Figure FDA00035508828700000314
上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中的第一个卷积层输出的光流图像序列时空特征
Figure FDA00035508828700000315
的表达为如下公式(8)所示,
Figure FDA00035508828700000316
公式(8)中,
Figure FDA00035508828700000317
为将上述的光流图像序列时空特征
Figure FDA00035508828700000318
输入到第二个三维卷积残差网络的第三层卷积层中第一个卷积层后的非线性映射的结果,
Figure FDA00035508828700000319
为光流图像在第二个三维卷积残差网络的第三层卷积层中的中第一个卷积层中的权重;
上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中第k个卷积层输出的光流图像序列时空特征
Figure FDA0003550882870000041
的表达为如下公式(9)所示,
Figure FDA0003550882870000042
公式(9)中,
Figure FDA0003550882870000043
为将上述第二个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的光流图像序列时空特征
Figure FDA0003550882870000044
输入到第二个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果,
Figure FDA0003550882870000045
为光流图像在第二个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重;
上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure FDA0003550882870000046
与上述的光流图像序列时空特征
Figure FDA0003550882870000047
相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中第三个卷积层输出的光流图像序列时空特征
Figure FDA0003550882870000048
的表达为如下公式(10)所示,
Figure FDA0003550882870000049
上述的光流图像序列时空特征
Figure FDA00035508828700000410
与上述的原始手语图像序列时空特征
Figure FDA00035508828700000411
进行多模态图像序列时空特征融合,然后输入到上述输入的原始手语图像序列所在的第一个三维卷积残差网络中的第三层池化层,表达为如下公式(11)所示,
Figure FDA00035508828700000412
公式(11)中,
Figure FDA00035508828700000413
为上述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层池化层输出的融合后的多模态图像序列特征,⊙为对应元素相乘;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第一个卷积层输出的融合后的多模态图像序列特征
Figure FDA00035508828700000414
的表达为如下公式(12)所示,
Figure FDA00035508828700000415
公式(12)中,
Figure FDA00035508828700000416
为将上述融合后的多模态图像序列特征
Figure FDA00035508828700000417
输入到第一个三维卷积残差网络的第四层卷积层中的第一个卷积层后的非线性映射的结果,
Figure FDA00035508828700000418
为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第k个卷积层输出的融合后的多模态图像序列特征
Figure FDA00035508828700000419
的表达为如下公式(13)所示,
Figure FDA00035508828700000420
公式(13)中,
Figure FDA00035508828700000421
为将上述第一个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征
Figure FDA00035508828700000422
输入到第一个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果,
Figure FDA00035508828700000423
为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征
Figure FDA0003550882870000051
与上述融合后的多模态图像序列特征
Figure FDA0003550882870000052
相加得到的新的输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中第三个卷积层输出的融合后的多模态图像序列特征
Figure FDA0003550882870000053
的表达为如下公式(14)所示,
Figure FDA0003550882870000054
上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第一层卷积层输出的光流图像序列时空特征
Figure FDA0003550882870000055
的表达为如下公式(15)所示,
Figure FDA0003550882870000056
公式(15)中,
Figure FDA0003550882870000057
为将上述第二个三维卷积残差网络中的第三层池化层输出的光流图像序列时空特征
Figure FDA0003550882870000058
输入到第二个三维卷积残差网络的第四层卷积层中第一个卷积层后的非线性映射的结果,
Figure FDA0003550882870000059
为光流图像在第二个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第k个卷积层公式为输出的光流图像序列时空特征
Figure FDA00035508828700000510
的表达为如下公式(16)所示,
Figure FDA00035508828700000511
公式(16)中,
Figure FDA00035508828700000512
为将上述第二个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的光流图像序列时空特征
Figure FDA00035508828700000513
输入到第二个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果,
Figure FDA00035508828700000514
为光流图像在第二个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure FDA00035508828700000515
与上述光流图像序列时空特征
Figure FDA00035508828700000516
相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure FDA00035508828700000517
的表达为如下公式(17)所示,
Figure FDA00035508828700000518
将上述光流图像序列时空特征
Figure FDA00035508828700000519
与上述融合后的多模态图像序列特征
Figure FDA00035508828700000520
进行多模态图像序列特征融合,并输入到上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层池化层,表达为如下公式(18)所示,
Figure FDA00035508828700000521
公式(18)中,
Figure FDA00035508828700000522
为上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层池化层输出的融合后的多模态图像序列特征;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第一个卷积层输出的融合后的多模态图像序列特征
Figure FDA00035508828700000523
的表达为如下公式(19)所示,
Figure FDA0003550882870000061
公式(19)中,
Figure FDA0003550882870000062
为将上述融合后的多模态图像序列特征
Figure FDA0003550882870000063
输入到第一个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果,
Figure FDA0003550882870000064
为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第k个卷积层输出的融合后的多模态图像序列特征
Figure FDA0003550882870000065
的表达为如下公式(20)所示,
Figure FDA0003550882870000066
公式(20)中,
Figure FDA0003550882870000067
为将上述第一个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征
Figure FDA0003550882870000068
输入到第一个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果,
Figure FDA0003550882870000069
为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征
Figure FDA00035508828700000610
与上述融合后的多模态图像序列特征
Figure FDA00035508828700000611
相加,得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征
Figure FDA00035508828700000612
的表达为如下公式(21)所示,
Figure FDA00035508828700000613
上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第一个层卷积层输出的光流图像序列时空特征
Figure FDA00035508828700000614
的表达为如下公式(22)所示,
Figure FDA00035508828700000615
公式(22)中,
Figure FDA00035508828700000616
为将上述第二个三维卷积残差网络中的第四层池化层输出的光流图像序列时空特征
Figure FDA00035508828700000617
输入到第二个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果,
Figure FDA00035508828700000618
为光流图像在第二个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第k个卷积层输出的光流图像序列时空特征
Figure FDA00035508828700000619
的表达为如下公式(23)所示,
Figure FDA00035508828700000620
公式(23)中,
Figure FDA00035508828700000621
为将上述第二个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的光流图像序列时空特征
Figure FDA00035508828700000622
输入到第二个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果,
Figure FDA00035508828700000623
为光流图像在第二个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure FDA0003550882870000071
与上述的光流图像序列时空特征
Figure FDA0003550882870000072
相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征
Figure FDA0003550882870000073
的表达为如下公式(24)所示,
Figure FDA0003550882870000074
上述光流图像序列时空特征
Figure FDA0003550882870000075
与上述融合后的多模态图像序列特征
Figure FDA0003550882870000076
进行多模态图像序列特征的融合,并输入到该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层池化层,表达为如下公式(25)所示,
Figure FDA0003550882870000077
公式(25)中,
Figure FDA0003550882870000078
为该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层池化层输出的融合后的多模态图像序列特征,α为自适应参数值,初始化为0,并逐渐的学习分配到更大的权重,
将上述融合后的多模态图像序列特征
Figure FDA0003550882870000079
通过两个全连接层,得到融合后的多模态图像序列时空特征
Figure FDA00035508828700000710
其中T=n/16,t=1,...,T,
由此完成多模态图像序列时空特征融合;
至此完成原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合;
第三步,手语句子标签的文本特征序列的提取:
对与上述第一步所述的原始手语图像序列对应的有U个单词的手语标签Y=(y1,y2,...,yU),其中U为原始手语图像序列所对应的单词数量,通过使用词嵌入方法进行手语句子标签的文本特征序列提取,具体方法是,使用一个三维卷积残差网络完全连接层,从一个手势单词标签的热向量中学习线性映射到一个如下公式(26)所示的更密集的空间,即通过词嵌入方法提取的手语句子标签的文本特征序列
Figure FDA00035508828700000711
u=1,...,U,
Figure FDA00035508828700000712
公式(26)中,
Figure FDA00035508828700000713
为输入与上述第一步所述的原始手语图像序列时空特征对应的手语句子标签,fwordembedding为用词嵌入方法将输入的手语句子标签的文本序列进行文本特征表示;
第四步,基于自注意力机制的编码解码网络的手语标签预测输出:
对于上述第二步获取的融合后的多模态图像序列时空特征
Figure FDA00035508828700000714
和上述第三步获取的文本特征序列
Figure FDA00035508828700000715
采用基于自注意力机制的编码解码网络的建模方法进行手语标签预测输出,该网络由编码器和解码器两部分构成,在编码阶段,上述第二步获取的融合后的多模态图像序列时空特征
Figure FDA00035508828700000716
以一个大小为512维的向量通过双向门控单元和基于自注意力机制的编码网络,编码成视频特征序列,然后在解码阶段,通过双向门控单元、位置嵌入和基于自注意力机制的解码网络将上述第二步获取的融合后的多模态图像序列时空特征
Figure FDA0003550882870000081
和上述第三步获取的文本特征序列
Figure FDA0003550882870000082
解码生成预测手语标签,具体操作如下:
第(4.1)步,在编码阶段获得多模态图像序列特征FFN(A):
将第二步获取的融合后的多模态图像序列时空特征
Figure FDA0003550882870000083
输入到上述编码解码网络的编码器,该编码器对该融合后的多模态图像序列时空特征
Figure FDA0003550882870000084
的进行建模,过程如下,
编码器的双向门控单元分别从t=1到T和从t=T到1,其中T=n/16,所用编码器的双向门控单元为如下公式(27)和公式(28)所示,
Figure FDA0003550882870000085
Figure FDA0003550882870000086
公式(27)中,
Figure FDA0003550882870000087
ot分别为门控单元模型fGRU-frw在编码器的前馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征,
Figure FDA0003550882870000088
分别为门控单元模型fGRU-frw在编码器的前馈神经网络第t-1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元,
公式(28)中,
Figure FDA0003550882870000089
ot分别为门控单元模型fGRU-bck在编码器的反馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征,
Figure FDA00035508828700000810
分别为门控单元模型fGRU-bck在编码器的反馈神经网络第t+1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元,
将编码器的前馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态
Figure FDA00035508828700000811
和编码器的反馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态
Figure FDA00035508828700000812
的输入级联作为该编码器的双向门控单元的输出zt,如下公式(29)所示,
Figure FDA00035508828700000813
公式(29)中,Concat为将第t个16帧为一组的融合后的多模态图像序列组的编码器的前馈神经网络的隐藏状态
Figure FDA00035508828700000814
和反馈神经的网络隐藏状态
Figure FDA00035508828700000815
进行级联,
由该编码器的双向门控单元的输出zt得到新的多模态图像序列特征
Figure FDA00035508828700000816
进一步用如下公式(30)通过自注意力机制学习该新的多模态图像序列特征
Figure FDA00035508828700000817
的内部关系,
Figure FDA00035508828700000818
公式(30)中,dZ为新的多模态图像序列特征
Figure FDA0003550882870000091
的维度,softmax函数为将结果进行归一化,
利用公式(30)对输入的新的多模态图像序列特征
Figure FDA0003550882870000092
加入权重进行自注意力机制学习,得到输出结果head,如下公式(31)所示,
head=Attention(ZWQ,ZWK,ZWV) (31),
公式(31)中,head为自注意力机制计算的结果,Attention为计算方式,与公式(30)相同,WQ、WK、WV分别为与Attention内新的多模态图像序列特征
Figure FDA0003550882870000093
对应的三个权重矩阵,
将输入的新的多模态图像序列特征
Figure FDA0003550882870000094
进行6次自注意力机制学习,如下公式(32)所示,
MultiHead(Z,Z,Z)=Concat(head1,...,head6)WO (32),
公式(32)中,head1、…、head6的计算方式与上述公式(31)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵WO相乘后的特征序列,
由上述公式(32)得到新的多模态图像序列特征
Figure FDA0003550882870000095
进行6次自注意力机制学习的结果为A=(a1,a2,...,aT),其中T=n/16,t=1,...,T,将A=(a1,a2,...,aT)放入编码器前向神经网络FFN中,表达式如下公式(33)所示,
FFN(A)=max(0,AW1+b1)W2+b2 (33),
公式(33)中,W1和W2为权重矩阵,b1和b2为偏置值,max为求0和AW1+b1的最大值,
由此完成在编码阶段获得多模态图像序列特征FFN(A);
第(4.2)步,在解码阶段获得手语标签预测输出:
将上述第三步获取的文本特征序列
Figure FDA0003550882870000096
输入到上述编码解码网络的解码器中,该解码器对文本特征进行时间建模,过程如下,
所用解码器的双向门控单元为如下公式(34)和公式(35)所示,
Figure FDA0003550882870000097
Figure FDA0003550882870000098
公式(34)中
Figure FDA0003550882870000099
su分别为门控单元模型fGRU-frw在解码器的前馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列,
Figure FDA00035508828700000910
分别为门控单元模型fGRU-frw在前馈神经网络第u-1个单词的隐藏状态和记忆单元,
公式(35)中,
Figure FDA00035508828700000911
su分别为门控单元模型fGRU-bck在解码器的反馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列,
Figure FDA0003550882870000101
分别为门控单元模型fGRU-bck在反馈神经网络第u+1个单词的隐藏状态和记忆单元,
将解码器的前馈神经网络第u个单词的隐藏状态
Figure FDA0003550882870000102
和解码器的反馈神经网络第u个单词的隐藏状态
Figure FDA0003550882870000103
级联作为该解码器的双向门控单元的第u个单词的输出qu,如下公式(36)所示,
Figure FDA0003550882870000104
公式(36)中,Concat为将第u个单词的编码器的前馈神经网络的隐藏状态
Figure FDA0003550882870000105
和反馈神经的网络隐藏状态
Figure FDA0003550882870000106
进行级联,
将该解码器的双向门控单元的输出qu得到新的文本特征序列
Figure FDA0003550882870000107
利用如下公式(37)和公式(38)分别所示的不同频率的正弦函数和余弦函数进行位置编码嵌入关于手语句子标签中每个单词的位置信息,得到位置编码的位置序列结果为
Figure FDA0003550882870000108
其中Pu为第u个单词的位置编码嵌入输出,
P(u,2i)=sin(u/100002i/d) (37),
P(u,2i+1)=cos(u/100002i/d) (38),
公式(37)和公式(38)中,u表示为句子标签中第u个单词的位置,u=1,...,U,d为所有句子标签中单词的总个数,i=1,...,d,
将该解码器的双向门控单元的输出得到新的文本特征序列
Figure FDA0003550882870000109
和位置编码嵌入得到的位置编码嵌入输出的结果
Figure FDA00035508828700001010
相加,得到最终的手语句子标签的文本特征序列如下公式(39)所示,
Figure FDA00035508828700001011
公式(39)中,
Figure FDA00035508828700001012
为手语句子标签的文本特征序列,qu为第u个单词的门控单元输出,Pu为第u个单词的位置编码嵌入输出,
将得到的手语句子标签的文本特征序列
Figure FDA00035508828700001013
首先通过自注意力机制学习文本序列的内部关系,如下公式(40)所示,
Figure FDA00035508828700001014
公式(40)中,dG为手语句子标签的文本特征序列
Figure FDA00035508828700001015
的维度,softmax函数为将结果进行归一化,
利用公式(40)对输入的手语句子标签的文本特征序列
Figure FDA00035508828700001016
加入权重进行自注意力机制学习,得到输出结果head',如下公式(41)所示,
head'=Attention(GW'Q,GW'K,GW'V) (41),
公式(41)中,Attention计算方式与公式(40)中相同,W'Q、W'K、W'V分别为与Attention内手语句子标签的文本特征序列
Figure FDA0003550882870000111
对应的三个权重矩阵,
将输入的手语句子标签的文本特征序列
Figure FDA0003550882870000112
进行6次自注意力机制学习,如下公式(42)所示,
MultiHead(G,G,G)=Concat(head'1,...,head'6)W'O (42),
公式(42)中,head'1、…、head'6的计算方式与上述公式(41)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵W'O相乘后的特征序列,
由上述公式(42)得到手语句子标签的文本特征序列的结果表示为B=(b1,b2,...,bU),
将上述第(4.1)步中在编码阶段获得的多模态图像序列特征FFN(A)表示为D=(d1,d2,...,dT),其中T=n/16,
将B=(b1,b2,...,bU)和D=(d1,d2,...,dT)均输入到该解码器的最后一个自注意力机制中,如下公式(43)所示,
Figure FDA0003550882870000113
公式(43)中,dB为手语句子标签的文本特征序列的结果B的维度,softmax函数为将结果进行归一化,
利用公式(43)对上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)加入权重进行自注意力机制学习,得到输出结果为head″,如下公式(44)所示,
head″=Attention(BW″Q,DW″K,DW″V) (44),
公式(44)中,Attention计算方式与上述公式(43)中相同,W″Q为与Attention内的上述的B=(b1,b2,...,bU)所对应的权重矩阵,W″K、W″V分别为与Attention内的上述的D=(d1,d2,...,dT)所对应的两个权重矩阵,
将上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)进行6次自注意力机制学习,如下公式(45)所示,
MultiHead(B,D,D)=Concat(head″1,...,head″6)W″O (45),
公式(45)中,head″1、…、head″6的计算方式与上述公式(44)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵W″O相乘后的特征序列,
由上述公式(45)得到手语句子标签的文本特征序列结果为E=(e1,e2,...,eU'),其中U'为预测的手语句子中单词的总个数,将E=(e1,e2,...,eU')放入编码器前向神经网络FFN中,表达式如下公式(46)所示,
FFN(E)=max(0,EW′1+b′1)W′2+b′2 (46),
公式(46)中,W′1和W′2为权重矩阵,b′1和b′2为偏置值,max为求0和EW′1+b′1的最大值,
通过编码器前向神经网络FFN和softmax层得到最终手语标签预测输出结果为Y'=(y′1,y′2,...,y′U),
由此完成在解码阶段获得手语标签预测输出;
至此完成基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别。
CN202010083258.8A 2020-02-08 2020-02-08 一种连续手语识别方法 Expired - Fee Related CN111339837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010083258.8A CN111339837B (zh) 2020-02-08 2020-02-08 一种连续手语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010083258.8A CN111339837B (zh) 2020-02-08 2020-02-08 一种连续手语识别方法

Publications (2)

Publication Number Publication Date
CN111339837A CN111339837A (zh) 2020-06-26
CN111339837B true CN111339837B (zh) 2022-05-03

Family

ID=71181430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010083258.8A Expired - Fee Related CN111339837B (zh) 2020-02-08 2020-02-08 一种连续手语识别方法

Country Status (1)

Country Link
CN (1) CN111339837B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797777B (zh) * 2020-07-07 2023-10-17 南京大学 基于时空语义特征的手语识别系统及方法
CN112508853B (zh) * 2020-11-13 2022-03-25 电子科技大学 一种时空特征提取的红外热图像缺陷检测及量化方法
CN112633100B (zh) * 2020-12-14 2023-08-08 深兰人工智能应用研究院(山东)有限公司 行为识别方法、装置、电子设备和存储介质
CN113221879A (zh) * 2021-04-30 2021-08-06 北京爱咔咔信息技术有限公司 文本识别及模型训练方法、装置、设备及存储介质
CN113297955B (zh) * 2021-05-21 2022-03-18 中国矿业大学 一种基于多模态分层级信息融合的手语词识别方法
CN113466852B (zh) * 2021-06-08 2023-11-24 江苏科技大学 应用于随机干扰场景下的毫米波雷达动态手势识别方法
CN113537024B (zh) * 2021-07-08 2022-06-21 天津理工大学 多层时序注意力融合机制的弱监督神经网络手语识别方法
CN113657127B (zh) * 2021-08-16 2023-08-18 浙江大学 手语生成方法和系统
CN114781439B (zh) * 2022-03-29 2023-05-30 深圳市应和脑科学有限公司 模型获取系统、手势识别方法、装置、设备及存储介质
CN117893528B (zh) * 2024-03-13 2024-05-17 云南迪安医学检验所有限公司 一种心脑血管疾病分类模型的构建方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096991A (zh) * 2019-04-25 2019-08-06 西安工业大学 一种基于卷积神经网络的手语识别方法
CN110110602A (zh) * 2019-04-09 2019-08-09 南昌大学 一种基于三维残差神经网络和视频序列的动态手语识别方法
CN110175551A (zh) * 2019-05-21 2019-08-27 青岛科技大学 一种手语识别方法
CN110399850A (zh) * 2019-07-30 2019-11-01 西安工业大学 一种基于深度神经网络的连续手语识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102104670B (zh) * 2009-12-17 2014-03-05 深圳富泰宏精密工业有限公司 手语识别系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110602A (zh) * 2019-04-09 2019-08-09 南昌大学 一种基于三维残差神经网络和视频序列的动态手语识别方法
CN110096991A (zh) * 2019-04-25 2019-08-06 西安工业大学 一种基于卷积神经网络的手语识别方法
CN110175551A (zh) * 2019-05-21 2019-08-27 青岛科技大学 一种手语识别方法
CN110399850A (zh) * 2019-07-30 2019-11-01 西安工业大学 一种基于深度神经网络的连续手语识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Continuous Gesture Recognition with Hand-Oriented Spatiotemporal Feature》;Zhipeng Liu等;《2017 IEEE International Conference on Computer Vision Workshops (ICCVW)》;20180123;全文 *
《Improved Optical Flow for Gesture-based Human-robot Interaction》;Jen-Yen Chang等;《arXiv:1905.08685v1》;20190521;全文 *
《基于关键帧的连续手语语句识别算法研究》;郭鑫鹏等;《计算机科学》;20121130;全文 *

Also Published As

Publication number Publication date
CN111339837A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111339837B (zh) 一种连续手语识别方法
CN109524006B (zh) 一种基于深度学习的汉语普通话唇语识别方法
Zheng et al. Deep learning for surface material classification using haptic and visual information
CN111859912B (zh) 基于pcnn模型的带有实体感知的远程监督关系抽取方法
CN113378806B (zh) 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN113642604A (zh) 一种基于云边协同的音视频辅助触觉信号重建方法
CN112860888A (zh) 一种基于注意力机制的双模态情感分析方法
CN113609922B (zh) 基于模态匹配的连续手语语句识别方法
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN111104884A (zh) 一种基于两阶段神经网络模型的汉语唇语识别方法
CN111178157A (zh) 一种基于音调的级联序列到序列模型的中文唇语识别方法
CN113780003A (zh) 时空数据变分编解码跨模态增强方法
CN113223509A (zh) 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN111354246A (zh) 一种用于帮助聋哑人交流的系统及方法
CN116306652A (zh) 一种基于注意力机制和BiLSTM的中文命名实体识别模型
CN111028319A (zh) 一种基于面部运动单元的三维非真实感表情生成方法
CN116682144B (zh) 一种基于多层次跨模态差异调和的多模态行人重识别方法
CN113449801A (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN115393948A (zh) 基于改进Transformer模型的手语视频生成方法
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
Xu et al. Application of tensor train decomposition in S2VT model for sign language recognition
Hazourli et al. Deep multi-facial patches aggregation network for facial expression recognition
Pu et al. Review on research progress of machine lip reading
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN117994622A (zh) 多模态感知融合的情感识别方法和机器人情感交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220503