CN111339837B - 一种连续手语识别方法 - Google Patents
一种连续手语识别方法 Download PDFInfo
- Publication number
- CN111339837B CN111339837B CN202010083258.8A CN202010083258A CN111339837B CN 111339837 B CN111339837 B CN 111339837B CN 202010083258 A CN202010083258 A CN 202010083258A CN 111339837 B CN111339837 B CN 111339837B
- Authority
- CN
- China
- Prior art keywords
- image sequence
- layer
- sign language
- convolutional
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000007246 mechanism Effects 0.000 claims abstract description 75
- 230000003287 optical effect Effects 0.000 claims description 197
- 238000011176 pooling Methods 0.000 claims description 76
- 238000013528 artificial neural network Methods 0.000 claims description 65
- 238000013507 mapping Methods 0.000 claims description 48
- 230000004927 fusion Effects 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 28
- 230000002457 bidirectional effect Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 18
- 239000011541 reaction mixture Substances 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 125000000524 functional group Chemical group 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000007547 defect Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 208000032041 Hearing impaired Diseases 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 230000003238 somatosensory effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 208000027697 autoimmune lymphoproliferative syndrome due to CTLA4 haploinsuffiency Diseases 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 208000011977 language disease Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003183 myoelectrical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明一种连续手语识别方法,涉及用于识别图形的记录载体的处理,是基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法,首先获得光流图像序列,通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合,和手语句子标签的文本特征序列的提取,将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出,克服了现有技术存在的特征单一、视频需要分割的缺陷。
Description
技术领域
本发明的技术方案涉及用于识别图形的记录载体的处理,具体地说是一种连续手语识别方法。
背景技术
听障人士由于语言障碍在日常生活中存在诸多不便。手语识别技术可以帮助听障人士与健听人士进行沟通交流。手语识别的关键技术是设计视觉描述器,该描述器能可靠的捕捉手势、姿态和面部表情特征,进行手语识别。国内外对手语识别技术的研究方向有两个,一个是在基于传感器的数据手套手语识别,另一个是基于视觉特征的手语识别。由于基于传感器的数据手套手语识别设备不灵活,无法在日常生活中使用,近年来国内外对手语识别技术的研究主要是基于视觉特征的手语识别,其中关键问题则是通过视觉特征提取对连续手语进行识别。
基于视觉特征的手语识别的方法分为两类:一类是基于单模态特征的手语识别方法,另一类是基于多模态特征的手语识别方法。
基于单模态特征的手语识别方法一般是采用原始视频帧进行手语识别。Koller等人于2016年在“Deep sign:hybrid CNN-HMM for continuous sign languagerecognition”一文中将卷积神经网络中提取到的原始视频帧的空间信息输入到隐马尔科夫中提取隐藏序列信息,再以贝叶斯方法进行分类,输出识别结果。Ye等人于2018年在“Recognizing American Sign Language Gestures from within Continuous Videos”一文中提出将3D卷积神经网络的全连接层和循环神经网络进行融合,极大降低了帧序列之间的时间信息丢失率。CN110188732A公开了一种静态手语识别方法,该方法通过神经网络对静态图像进行手语识别,缺少对动态连续手语进行训练,特征较为单一。CN110110602A公开了一种基于三维残差网络和视频序列的动态手语方法,该方法首先使用Faster R-CNN检测手部位置并分割出手部,利用三维残差卷积神经网络进行时空特征提取和视频序列分析,该方法只对手部位置进行识别,缺少全局信息,提取到的特征仅为局部特征。CN109656358A公开了一种多维手语识别方法,该方法利用速度传输器和肌电传感器采集数据,该方法所需时间较长,且需要较多的人力物力,只能采集到极少的手语。CN110472548A公开了一种基于语法分类器的视频连续手语识别方法及系统,该方法将获取到的原始手语视频分割成多个视频段,再利用三维卷积神经网络对各个视频段进行时空特征提取,该方法在分割视频段时要保证每个视频段仅包含一个手语单词,需对视频帧序列与句子中的单词进行对齐,比较耗时。上述方法存在的缺陷是:输入模态单一,仅包含原始手语图像视频序列,提供了外观等特征,缺少对手部和肢体的描述,忽略了几何、运动等精细特征的描述,手语识别结果较差,识别精度不高。为了克服上述基于单模态特征的手语识别方法存在的缺陷,之后的研究逐渐转向基于多模态特征的手语识别方法。
基于多模态特征的手语识别方法是指通过神经网络对手势、姿态、面部表情、口型几种特征进行提取,通过不同的特征增强手语识别的鲁棒性。Chai等人于2016年在“Twostreams recurrent neural networks for large-scale continuous gesturerecognition”一文中介绍了利用双流Faster R-CNN进行了原始手语图像和深度图中的手部检测,并通过设置阈值的方式提取关键帧,该方法中,为了更好地得到手部的运动特征,对视频帧序列进行关键帧提取,通过图像预处理将视频帧中的手部位置提取出来,其存在的缺陷是:只提取关键的手部动作,丢失了视频帧之间手部动作的连续性,只关注局部特征忽略了全局特征,丢失了全局特征信息。Koller等人于2019年在“Weakly SupervisedLearning with Multi-Stream CNN-GRU-HMMs to Discover Sequential Parallelism inSign Language Videos”一文中介绍了利用原始手语图像视频序列、右手序列和口型序列分别输入到CNN网络中将每一视频帧对应于一个单词标签,得到每一个单词标签对应的一组手语帧序列,在HMM进行特征融合后进行句子标签的输出,该方法存在前期需要大量的时间进行帧对齐工作,不能真正实现端到端的手语识别的缺陷。CN110175551A公开了一种手语识别方法,该方法将视频序列图像相位信息和原始手语图像送入神经网络进行加权融合,该方法存在缺少序列之间的时间建模,不支持真正端到端的特征学习的缺陷。CN110399850A公开了一种基于深度神经网络的连续手语识别方法,该方法使用Kinect相机获取深度、彩色和骨架点图像,将其进行手型信息预处理和轨迹信息预处理,再通过双路进行关键片段特征提取,该方法存在只提取关键片段,忽略了连续手语视频帧之间的动作相关性的缺陷。CN107103311A公开了一种连续手语的识别方法及其装置,该方法将获取到的原始手语图像和深度图通过深度阈值分割和肤色分割获取手部区域,再通过特征提取和整合进行相似度匹配进行手语识别,该方法虽然采用了两种模态,但是存在仅为了得到手部区域,只提取了局部特征,忽略了其他部位对于手语识别的作用的缺陷。CN107679491A公开了一种融合多模态特征的3D卷积神经网络手语识别方法,该方法采用手势红外图像和轮廓图像特征,利用三维卷积神经网络进行特征提取并融合,该方法存在使用体感设备进行数据采集时,只能采集到较少的手语数据,无法应用于其他手语数据库,不具有普遍性的缺陷。
总之,连续手语识别方法的现有技术还存在特征单一、视频需要分割的缺陷。
发明内容
本发明所要解决的技术问题是:提供一种连续手语识别的方法,是基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法,首先获得光流图像序列,通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合,和手语句子标签的文本特征序列的提取,将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出,克服了现有技术存在的特征单一、视频需要分割的缺陷。
本发明解决该技术问题所采用的技术方案是:一种连续手语识别的方法,是基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法,首先获得光流图像序列,通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合,和手语句子标签的文本特征序列的提取,将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出,具体步骤如下:
第一步,由原始手语图像序列通过FlowNet网络提取获得光流图像序列:
对输入的含有n帧图像的原始手语图像序列X=(x1,x2,...,xn),其中,n为图像序列的帧序数(下同),x1、x2、…、xn分别为原始手语图像序列的第一帧、第二帧、…、第n帧,通过FlowNet网络提取相邻图像间的光流场,每个手语图像序列间的光流场组成光流图像序列,得到的含有n帧图像的光流图像序列为X'=(x'1,x'2,...,x'n),其中x'1、x'2、…、x'n分别为光流图像序列的第一帧、第二帧、…、第n帧;
第二步,原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合:
通过三维卷积残差网络对上述第一步所述的原始手语图像序列和光流图像序列进行时空特征提取和多模态图像序列时空特征融合,具体操作如下,
第(2.1)步,原始手语图像序列和光流图像序列的时空特征的提取:
第(2.1.1)步,原始手语图像序列的时空特征的提取:
将上述第一步中输入的含有n帧图像的原始手语图像序列输入到第一个三维卷积残差网络进行提取原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征,操作如下:
将上述第一步中的输入的含有n帧图像的原始手语图像序列X=(x1,x2,...,xn)以16帧为一个原始手语图像序列组输入到第一个三维卷积残差网络前两层卷积层和池化层,输入的图像序列重新定义为其中T=n/16,t=1,...,T,t为第t个16帧为一组的融合后的多模态图像序列组(下同),该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的原始手语图像序列时空特征的表达为如下公式(1)所示,
公式(1)中,maxpooling为最大池化函数(下同),f为激活函数ReLU(下同),f(F(vt,W1 a))为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层输出的原始手语图像序列时空特征,F(vt,W1 a)为将原始手语图像序列输入到第一个三维卷积残差网络的第一层卷积层后的非线性映射的结果,W1 a为原始手语图像在第一个三维卷积残差网络的第一层卷积层中的权重,
公式(2)中,为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第二层卷积层输出的原始手语图像序列时空特征,为将上述第一层池化层输出的原始手语图像序列时空特征输入到第一个三维卷积残差网络的第二层卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第二层卷积层中的权重,由此完成原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征的提取;
第(2.1.2)步,光流图像序列的时空特征的提取:
将上述第一步中输入的含有n帧图像的光流图像序列输入到第二个三维卷积残差网络进行提取光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征,操作如下:
上述第一步中得到的含有n帧图像的光流图像序列X'=(x'1,x'2,...,x'n)以16帧为一个光流图像序列组输入到第二个三维卷积残差网络的前两层卷积层和池化层,输入的光流图像序列为其中T=n/16,t=1,...,T,该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的光流图像序列时空特征的表达为如下公式(3)所示,
公式(3)中,maxpooling为最大池化函数(下同),f(F(v't,W1 m))为该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层输出的光流图像序列时空特征,F(v't,W1 m)为将光流图像序列输入到第二个三维卷积残差网络的第一层卷积层后的非线性映射的结果,W1 m为光流图像序列在第二个三维卷积残差网络的第一层卷积层中的权重;
公式(4)中,为该输入的光流图像序列在该第二个三维卷积残差网络中的第二层卷积层输出的光流图像序列时空特征,为将上述第一层池化层输出的光流图像序列时空特征输入到第二层卷积层后的非线性映射的结果,为光流图像序列在第二个三维卷积残差网络中的第二层卷积层中的权重,由此完成光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征的提取;
至此完成原始手语图像序列和光流图像序列的时空特征的提取;
第(2.2)步,多模态图像序列时空特征融合:
将上述第(2.1.1)步提取的原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征和上述第(2.1.2)步提取的光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征在三维卷积残差网络后三个层卷积层和池化层进行多模态图像序列时空特征融合,操作如下:
公式(5)中,为将上述第一个三维卷积残差网络中的第二层池化层输出的原始手语图像序列时空特征输入到第一个三维卷积残差网络的第三层卷积层中的第一个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第一个卷积层中的权重;
公式(6)中,为将上述第一个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的原始手语图像序列时空特征输入到第一个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重;
上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征与上述的原始手语图像序列时空特征相加,得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征的表达为如下公式(7)所示,
公式(9)中,为将上述第二个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重;
上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的光流图像序列时空特征与上述的光流图像序列时空特征相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中第三个卷积层输出的光流图像序列时空特征的表达为如下公式(10)所示,
上述的光流图像序列时空特征与上述的原始手语图像序列时空特征进行多模态图像序列时空特征融合,然后输入到上述输入的原始手语图像序列所在的第一个三维卷积残差网络中的第三层池化层,表达为如下公式(11)所示,
公式(12)中,为将上述融合后的多模态图像序列特征输入到第一个三维卷积残差网络的第四层卷积层中的第一个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重;
公式(13)中,为将上述第一个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征输入到第一个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征与上述融合后的多模态图像序列特征相加得到的新的输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中第三个卷积层输出的融合后的多模态图像序列特征的表达为如下公式(14)所示,
公式(15)中,为将上述第二个三维卷积残差网络中的第三层池化层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第四层卷积层中第一个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重;
公式(16)中,为将上述第二个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征与上述光流图像序列时空特征相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征的表达为如下公式(17)所示,
公式(19)中,为将上述融合后的多模态图像序列特征输入到第一个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重;
公式(20)中,为将上述第一个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征输入到第一个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征与上述融合后的多模态图像序列特征相加,得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征的表达为如下公式(21)所示,
公式(22)中,为将上述第二个三维卷积残差网络中的第四层池化层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重;
公式(23)中,为将上述第二个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征与上述的光流图像序列时空特征相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征的表达为如下公式(24)所示,
由此完成多模态图像序列时空特征融合;
至此完成原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合;
第三步,手语句子标签的文本特征序列的提取:
对与上述第一步所述的原始手语图像序列对应的有U个单词的手语标签Y=(y1,y2,...,yU),其中U为原始手语图像序列所对应的单词数量(下同),通过使用词嵌入方法进行手语句子标签的文本特征序列提取,具体方法是,使用一个三维卷积残差网络完全连接层,从一个手势单词标签的热向量中学习线性映射到一个如下公式(26)所示的更密集的空间,即通过词嵌入方法提取的手语句子标签的文本特征序列
第四步,基于自注意力机制的编码解码网络的手语标签预测输出:
对于上述第二步获取的融合后的多模态图像序列时空特征和上述第三步获取的文本特征序列采用基于自注意力机制的编码解码网络的建模方法进行手语标签预测输出,该网络由编码器和解码器两部分构成,在编码阶段,上述第二步获取的融合后的多模态图像序列时空特征以一个大小为512维的向量通过双向门控单元和基于自注意力机制的编码网络,编码成视频特征序列,然后在解码阶段,通过双向门控单元、位置嵌入和基于自注意力机制的解码网络将上述第二步获取的融合后的多模态图像序列时空特征和上述第三步获取的文本特征序列解码生成预测手语标签,具体操作如下:
第(4.1)步,在编码阶段获得多模态图像序列特征FFN(A):
编码器的双向门控单元分别从t=1到T和从t=T到1,其中T=n/16,所用编码器的双向门控单元为如下公式(27)和公式(28)所示,
公式(27)中,ot分别为门控单元模型fGRU-frw在编码器的前馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征,分别为门控单元模型fGRU-frw在编码器的前馈神经网络第t-1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元,
公式(28)中,ot分别为门控单元模型fGRU-bck在编码器的反馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征,分别为门控单元模型fGRU-bck在编码器的反馈神经网络第t+1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元,
将编码器的前馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态和编码器的反馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态的输入级联作为该编码器的双向门控单元的输出zt,如下公式(29)所示,
head=Attention(ZWQ,ZWK,ZWV) (31),
MultiHead(Z,Z,Z)=Concat(head1,...,head6)WO (32),
公式(32)中,head1、…、head6的计算方式与上述公式(31)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵WO相乘后的特征序列,
由上述公式(32)得到新的多模态图像序列特征进行6次自注意力机制学习的结果为A=(a1,a2,...,aT),其中T=n/16,t=1,...,T,将A=(a1,a2,...,aT)放入编码器前向神经网络FFN中,表达式如下公式(33)所示,
FFN(A)=max(0,AW1+b1)W2+b2 (33),
公式(33)中,W1和W2为权重矩阵,b1和b2为偏置值,max为求0和AW1+b1的最大值,
由此完成在编码阶段获得多模态图像序列特征FFN(A);
第(4.2)步,在解码阶段获得手语标签预测输出:
所用解码器的双向门控单元为如下公式(34)和公式(35)所示,
公式(34)中su分别为门控单元模型fGRU-frw在解码器的前馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列,分别为门控单元模型fGRU-frw在前馈神经网络第u-1个单词的隐藏状态和记忆单元,
公式(35)中,su分别为门控单元模型fGRU-bck在解码器的反馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列,分别为门控单元模型fGRU-bck在反馈神经网络第u+1个单词的隐藏状态和记忆单元,
将该解码器的双向门控单元的输出qu得到新的文本特征序列利用如下公式(37)和公式(38)分别所示的不同频率的正弦函数和余弦函数进行位置编码嵌入关于手语句子标签中每个单词的位置信息,得到位置编码的位置序列结果为其中Pu为第u个单词的位置编码嵌入输出,
P(u,2i)=sin(u/100002i/d) (37),
P(u,2i+1)=cos(u/100002i/d) (38),
公式(37)和公式(38)中,u表示为句子标签中第u个单词的位置,u=1,...,U,d为所有句子标签中单词的总个数,i=1,...,d,
head'=Attention(GW'Q,GW'K,GW'V) (41),
MultiHead(G,G,G)=Concat(head'1,...,head'6)W'O (42),
公式(42)中,head'1、…、head'6的计算方式与上述公式(41)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵W'O相乘后的特征序列,
由上述公式(42)得到手语句子标签的文本特征序列的结果表示为B=(b1,b2,...,bU),将上述第(4.1)步中在编码阶段获得的多模态图像序列特征FFN(A)表示为D=(d1,d2,...,dT),其中T=n/16,
将B=(b1,b2,...,bU)和D=(d1,d2,...,dT)均输入到该解码器的最后一个自注意力机制中,如下公式(43)所示,
公式(43)中,dB为手语句子标签的文本特征序列的结果B的维度,softmax函数为将结果进行归一化,
利用公式(43)对上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)加入权重进行自注意力机制学习,得到输出结果为head”,如下公式(44)所示,
head”=Attention(BW”Q,DW”K,DW”V) (44),
公式(44)中,Attention计算方式与上述公式(43)中相同,W”Q为与Attention内的上述的B=(b1,b2,...,bU)所对应的权重矩阵,W”K、W”V分别为与Attention内的上述的D=(d1,d2,...,dT)所对应的两个权重矩阵,
将上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)进行6次自注意力机制学习,如下公式(45)所示,
MultiHead(B,D,D)=Concat(head″1,...,head”6)W”O (45),
公式(45)中,head″1、…、head”6的计算方式与上述公式(44)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵W”O相乘后的特征序列,
由上述公式(45)得到手语句子标签的文本特征序列结果为E=(e1,e2,...,eU'),其中U'为预测的手语句子中单词的总个数(下同),将E=(e1,e2,...,eU')放入编码器前向神经网络FFN中,表达式如下公式(46)所示,
FFN(E)=max(0,EW′1+b′1)W′2+b′2 (46),
公式(46)中,W′1和W′2为权重矩阵,b′1和b′2为偏置值,max为求0和EW′1+b′1的最大值,
通过编码器前向神经网络FFN和softmax层得到最终手语标签预测输出结果为Y'=(y'1,y'2,...,y'U'),
由此完成在解码阶段获得手语标签预测输出;
至此完成基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别。
上述一种连续手语识别的方法,所述“FlowNet网络”、“三维卷积残差网络”、“词嵌入方法”、“解码器对文本信息进行时间建模”、“自注意力机制的编码解码网络的建模方法”、“编码解码网络的编码器”、“编码解码网络的解码器”均为本技术领域的公知技术。
本发明的有益效果是:与现有技术相比,本发明的突出的实质性特点和显著进步如下:
(1)本发明采用了三维卷积残差网络进行视频特征提取。现有技术中CNN等2d网络仅仅对图像进行空间特征的提取,无法采集到视频中帧与帧之间的时间信息。三维卷积残差网络中增加了时间维度,以连续的一组帧作为输入,通过卷积层和池化层进行时间和空间上的特征提取,使得特征维度增加。
(2)本发明采用特征融合的方式进行特征提取。最初特征融合只在最后的池化层之后进行融合,只关注到高级语义信息,忽略了低级语义信息,本发明在最初就将运动特征与外观特征进行融合,在最后池化层再进行自适应融合,使得卷积神经网络输出的特征更为丰富。
(3)本发明采用了自注意力机制,解决了输入视频帧序列长度与手语标签序列长度之间不匹配的问题,并且通过对自身注意力机制提取,分别增加了编码器和解码器中特征序列的多样性,通过不同权重的分配,突出了特征序列中的重点特征,使得最后得到的预测序列更加准确。
(4)本发明方法与CN110188732A相比,CN110188732A利用静态手语图片数据,只利用了一种数据,对于动态连续手语并没有进行网络训练,训练特征较为单一。本发明方法利用动态手语视频数据库,除了对空间上的手语特征进行提取之外,还增加了时间维度上的提取,可以增加特征的多样性。
(5)本发明方法与CN110110602A相比,CN110110602A利用Faster R-CNN检测手的位置并从背景中分割出手,利用三维残差网络进行时空特征提取和视频序列分析,其方法只对手部位置进行识别,缺少了打手语者其他部分特征检测,提取到的只能作为局部特征。本发明方法通过神经网络对视频序列直接进行特征提取,得到了全局信息。又以光流信息作为特征的补充,使特征更加富有层次。
(6)本发明方法与CN109656358A相比,CN109656358A对手语识别进行数据采集,利用采集速度传输和肌电传感器采集数据,这种方法所需时间较长,且需要较多的人力物力,只能采取到极少的手语。本发明方法所利用的数据为公开的数据库,数据量充足,所得出的实验结果具有普适性。
(7)本发明方法与CN110175551A相比,CN110175551A对光流特征和原始手语图像特征送入神经网络进行加权融合,这种方法仅在神经网络特征提取的后期融合进行交互,不支持真正的特征学习。本发明方法所采取的网络结构在处理过程中对外观和运动路径进行更早的交互,这种交互作用对于区分具有相似动作或外观的动作很重要,只有将这两种动作结合起来才能分辨。
(8)本发明方法与CN110472548A相比,CN110472548A将获取到的原始手语视频分割成多个视频段,再利用三维卷积神经网络对各个视频段进行时空特征提取,该方法在分割视频段时要保证每个视频段仅包含一个手语单词,需对视频帧序列与句子中的单词进行对齐,比较耗时。本发明方法通过自注意力机制解码输出序列标签,无需前期视频与句子进行对齐处理,节省时间。
(9)本发明方法与CN110399850A相比,CN110399850A使用Kinect相机获取深度、彩色和骨架点图像,将其进行手型信息预处理和轨迹信息预处理,再通过双路进行关键片段特征提取,该方法只提取关键片段,忽略了连续手语视频帧之间的动作相关性。本发明方法利用三维卷积残差网络进行手语视频短期时空特征提取,再利用双向门控单元进行长期时间序列建模,得到了手语视频各个动作空间信息和运动轨迹信息,更加强调了手语间的连续性。
(10)本发明方法与CN107103311A相比,CN107103311A将获取到的原始手语图像和深度图通过深度阈值分割和肤色分割获取手部区域,再通过特征提取和整合进行相似度匹配进行手语识别,该方法仅得到手部区域,只提取了局部特征,忽略了其他部位对于手语识别的作用。本发明方法将原始手语图像视频帧序列的外观信息和光流视频帧序列的运动信息进行多模态融合,极大的补充了手语特征,更有利用手语识别。
(11)本发明方法与CN107679491A相比,CN107679491A采用手势红外图像和轮廓图像特征,利用三维卷积神经网络进行特征提取并融合,该方法使用体感数据采集对所需的两种图像进行获取,只能采集到较少的手语数据,无法应用于其他手语数据库,不具有普遍性。本发明方法利用公开的数据库进行原始手语图像特征和光流特征的多模态特征输入并融合,使用的手语视频易获取,且利用双向门控单元学习视频序列间的长期依赖关系,模型具有较好的鲁棒性。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明一种连续手语识别的方法的流程示意框图。
具体实施方式
图1所示实施例表明,本发明一种连续手语识别的方法的流程是:由原始手语图像序列通过FlowNet网络提取获得光流图像序列→原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合;手语句子标签的文本特征序列的提取→基于自注意力机制的编码解码网络的手语标签预测输出。
实施例
第一步,由原始手语图像序列通过FlowNet网络提取获得光流图像序列:
读入由n=228个镜头组成的视频P01_s1_00_0_color.avi,视频尺寸为112×112像素,对该输入的含有228帧图像的原始手语图像序列X=(x1,x2,...,xn),其中,n=228为图像序列的帧序数(下同),x1、x2、…、xn分别为原始手语图像序列的第一帧、第二帧、…、第n帧,通过FlowNet网络提取相邻图像间的光流场,每个手语图像序列间的光流场组成光流图像序列,得到的含有n帧图像的光流图像序列为X'=(x'1,x'2,...,x'n),其中x'1、x'2、…、x'n分别为光流图像序列的第一帧、第二帧、…、第n帧;
第二步,原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合:
通过三维卷积残差网络对上述第一步所述的原始手语图像序列和光流图像序列进行时空特征提取和多模态图像序列时空特征融合,具体操作如下,
第(2.1)步,原始手语图像序列和光流图像序列的时空特征的提取:
第(2.1.1)步,原始手语图像序列的时空特征的提取:
将上述第一步中输入的含有n帧图像的原始手语图像序列输入到第一个三维卷积残差网络进行提取原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征,操作如下:
将上述第一步中的输入的含有n帧图像的原始手语图像序列X=(x1,x2,...,xn)以16帧为一个原始手语图像序列组输入到第一个三维卷积残差网络前两层卷积层和池化层,输入的图像序列重新定义为其中T=n/16,t=1,...,T,t为第t个16帧为一组的融合后的多模态图像序列组(下同),该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的原始手语图像序列时空特征的表达为如下公式(1)所示,
公式(1)中,maxpooling为最大池化函数(下同),f为激活函数ReLU(下同),f(F(vt,W1 a))为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层输出的原始手语图像序列时空特征,F(vt,W1 a)为将原始手语图像序列输入到第一个三维卷积残差网络的第一层卷积层后的非线性映射的结果,W1 a为原始手语图像在第一个三维卷积残差网络的第一层卷积层中的权重,
公式(2)中,为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第二层卷积层输出的原始手语图像序列时空特征,为将上述第一层池化层输出的原始手语图像序列时空特征输入到第一个三维卷积残差网络的第二层卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第二层卷积层中的权重,由此完成原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征的提取;
第(2.1.2)步,光流图像序列的时空特征的提取:
将上述第一步中输入的含有n帧图像的光流图像序列输入到第二个三维卷积残差网络进行提取光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征,操作如下:
上述第一步中得到的含有n帧图像的光流图像序列X'=(x'1,x'2,...,x'n)以16帧为一个光流图像序列组输入到第二个三维卷积残差网络的前两层卷积层和池化层,输入的光流图像序列为其中T=n/16,t=1,...,T,该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的光流图像序列时空特征的表达为如下公式(3)所示,
公式(3)中,maxpooling为最大池化函数(下同),f(F(v't,W1 m))为该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层输出的光流图像序列时空特征,F(v't,W1 m)为将光流图像序列输入到第二个三维卷积残差网络的第一层卷积层后的非线性映射的结果,W1 m为光流图像序列在第二个三维卷积残差网络的第一层卷积层中的权重;
公式(4)中,为该输入的光流图像序列在该第二个三维卷积残差网络中的第二层卷积层输出的光流图像序列时空特征,为将上述第一层池化层输出的光流图像序列时空特征输入到第二层卷积层后的非线性映射的结果,为光流图像序列在第二个三维卷积残差网络中的第二层卷积层中的权重,由此完成光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征的提取;
至此完成原始手语图像序列和光流图像序列的时空特征的提取;
第(2.2)步,多模态图像序列时空特征融合:
将上述第(2.1.1)步提取的原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征和上述第(2.1.2)步提取的光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征在三维卷积残差网络后三个层卷积层和池化层进行多模态图像序列时空特征融合,操作如下:
公式(5)中,为将上述第一个三维卷积残差网络中的第二层池化层输出的原始手语图像序列时空特征输入到第一个三维卷积残差网络的第三层卷积层中的第一个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第一个卷积层中的权重;
公式(6)中,为将上述第一个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的原始手语图像序列时空特征输入到第一个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重;
上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征与上述的原始手语图像序列时空特征相加,得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征的表达为如下公式(7)所示,
公式(9)中,为将上述第二个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重;
上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的光流图像序列时空特征与上述的光流图像序列时空特征相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中第三个卷积层输出的光流图像序列时空特征的表达为如下公式(10)所示,
上述的光流图像序列时空特征与上述的原始手语图像序列时空特征进行多模态图像序列时空特征融合,然后输入到上述输入的原始手语图像序列所在的第一个三维卷积残差网络中的第三层池化层,表达为如下公式(11)所示,
公式(12)中,为将上述融合后的多模态图像序列特征输入到第一个三维卷积残差网络的第四层卷积层中的第一个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重;
公式(13)中,为将上述第一个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征输入到第一个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征与上述融合后的多模态图像序列特征相加得到的新的输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中第三个卷积层输出的融合后的多模态图像序列特征的表达为如下公式(14)所示,
公式(15)中,为将上述第二个三维卷积残差网络中的第三层池化层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第四层卷积层中第一个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重;
公式(16)中,为将上述第二个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征与上述光流图像序列时空特征相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征的表达为如下公式(17)所示,
公式(19)中,为将上述融合后的多模态图像序列特征输入到第一个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重;
公式(20)中,为将上述第一个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征输入到第一个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征与上述融合后的多模态图像序列特征相加,得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征的表达为如下公式(21)所示,
公式(22)中,为将上述第二个三维卷积残差网络中的第四层池化层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重;
公式(23)中,为将上述第二个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征与上述的光流图像序列时空特征相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征的表达为如下公式(24)所示,
由此完成多模态图像序列时空特征融合;
至此完成原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合;
第三步,手语句子标签的文本特征序列的提取:
对与上述第一步所述的原始手语图像序列对应的有U个单词的手语标签Y=(y1,y2,...,yU),其中U为原始手语图像序列所对应的单词数量(下同),通过使用词嵌入方法进行手语句子标签的文本特征序列提取,具体方法是,使用一个三维卷积残差网络完全连接层,从一个手势单词标签的热向量中学习线性映射到一个如下公式(26)所示的更密集的空间,即通过词嵌入方法提取的手语句子标签的文本特征序列
第四步,基于自注意力机制的编码解码网络的手语标签预测输出:
对于上述第二步获取的融合后的多模态图像序列时空特征和上述第三步获取的文本特征序列采用基于自注意力机制的编码解码网络的建模方法进行手语标签预测输出,该网络由编码器和解码器两部分构成,在编码阶段,上述第二步获取的融合后的多模态图像序列时空特征以一个大小为512维的向量通过双向门控单元和基于自注意力机制的编码网络,编码成视频特征序列,然后在解码阶段,通过双向门控单元、位置嵌入和基于自注意力机制的解码网络将上述第二步获取的融合后的多模态图像序列时空特征和上述第三步获取的文本特征序列解码生成预测手语标签,具体操作如下:
第(4.1)步,在编码阶段获得多模态图像序列特征FFN(A):
编码器的双向门控单元分别从t=1到T和从t=T到1,其中T=n/16,所用编码器的双向门控单元为如下公式(27)和公式(28)所示,
公式(27)中,ot分别为门控单元模型fGRU-frw在编码器的前馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征,分别为门控单元模型fGRU-frw在编码器的前馈神经网络第t-1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元,
公式(28)中,ot分别为门控单元模型fGRU-bck在编码器的反馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征,分别为门控单元模型fGRU-bck在编码器的反馈神经网络第t+1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元,
将编码器的前馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态和编码器的反馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态的输入级联作为该编码器的双向门控单元的输出zt,如下公式(29)所示,
head=Attention(ZWQ,ZWK,ZWV) (31),
MultiHead(Z,Z,Z)=Concat(head1,...,head6)WO (32),
公式(32)中,head1、…、head6的计算方式与上述公式(31)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵WO相乘后的特征序列,
由上述公式(32)得到新的多模态图像序列特征进行6次自注意力机制学习的结果为A=(a1,a2,...,aT),其中T=n/16,t=1,...,T,将A=(a1,a2,...,aT)放入编码器前向神经网络FFN中,表达式如下公式(33)所示,
FFN(A)=max(0,AW1+b1)W2+b2 (33),
公式(33)中,W1和W2为权重矩阵,b1和b2为偏置值,max为求0和AW1+b1的最大值,
由此完成在编码阶段获得多模态图像序列特征FFN(A);
第(4.2)步,在解码阶段获得手语标签预测输出:
所用解码器的双向门控单元为如下公式(34)和公式(35)所示,
公式(34)中su分别为门控单元模型fGRU-frw在解码器的前馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列,分别为门控单元模型fGRU-frw在前馈神经网络第u-1个单词的隐藏状态和记忆单元,
公式(35)中,su分别为门控单元模型fGRU-bck在解码器的反馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列,分别为门控单元模型fGRU-bck在反馈神经网络第u+1个单词的隐藏状态和记忆单元,
将该解码器的双向门控单元的输出qu得到新的文本特征序列利用如下公式(37)和公式(38)分别所示的不同频率的正弦函数和余弦函数进行位置编码嵌入关于手语句子标签中每个单词的位置信息,得到位置编码的位置序列结果为其中Pu为第u个单词的位置编码嵌入输出,
P(u,2i)=sin(u/100002i/d) (37),
P(u,2i+1)=cos(u/100002i/d) (38),
公式(37)和公式(38)中,u表示为句子标签中第u个单词的位置,u=1,...,U,d为所有句子标签中单词的总个数,i=1,...,d,
head'=Attention(GW'Q,GW'K,GW'V) (41),
MultiHead(G,G,G)=Concat(head'1,...,head'6)W'o (42),
公式(42)中,head'1、…、head'6的计算方式与上述公式(41)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵W'o相乘后的特征序列,
由上述公式(42)得到手语句子标签的文本特征序列的结果表示为B=(b1,b2,...,bU),将上述第(4.1)步中在编码阶段获得的多模态图像序列特征FFN(A)表示为D=(d1,d2,...,dT),其中T=n/16,
将B=(b1,b2,...,bU)和D=(d1,d2,...,dT)均输入到该解码器的最后一个自注意力机制中,如下公式(43)所示,
公式(43)中,dB为手语句子标签的文本特征序列的结果B的维度,softmax函数为将结果进行归一化,
利用公式(43)对上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)加入权重进行自注意力机制学习,得到输出结果为head”,如下公式(44)所示,
head”=Attention(BW”Q,DW”K,DW”V) (44),
公式(44)中,Attention计算方式与上述公式(43)中相同,W”Q为与Attention内的上述的B=(b1,b2,...,bU)所对应的权重矩阵,W”K、W”V分别为与Attention内的上述的D=(d1,d2,...,dT)所对应的两个权重矩阵,
将上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)进行6次自注意力机制学习,如下公式(45)所示,
MultiHead(B,D,D)=Concat(head″1,...,head”6)W”O (45),
公式(45)中,head″1、…、head”6的计算方式与上述公式(44)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵W”O相乘后的特征序列,
由上述公式(45)得到手语句子标签的文本特征序列结果为E=(e1,e2,...,eU'),其中U'为预测的手语句子中单词的总个数(下同),将E=(e1,e2,...,eU')放入编码器前向神经网络FFN中,表达式如下公式(46)所示,
FFN(E)=max(0,EW′1+b′1)W′2+b′2 (46),
公式(46)中,W′1和W′2为权重矩阵,b′1和b′2为偏置值,max为求0和EW′1+b′1的最大值,
通过编码器前向神经网络FFN和softmax层得到最终手语标签预测输出结果为Y'=(y'1,y'2,...,y'U'),
由此完成在解码阶段获得手语标签预测输出;
至此完成基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别。
上述实施例中,所述“FlowNet网络”、“三维卷积残差网络”、“词嵌入方法”、“解码器对文本信息进行时间建模”、“自注意力机制的编码解码网络的建模方法”、“编码解码网络的编码器”、“编码解码网络的解码器”均为本技术领域的公知技术。
Claims (1)
1.一种连续手语识别的方法,其特征在于:是基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别的方法,首先获得光流图像序列,通过原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合,和手语句子标签的文本特征序列的提取,将融合后的多模态图像序列时空特征和提取的手语句子标签的文本特征序列输入到基于自注意力机制的编码解码网络中进行手语标签预测输出,具体步骤如下:
第一步,由原始手语图像序列通过FlowNet网络提取获得光流图像序列:
对输入的含有n帧图像的原始手语图像序列X=(x1,x2,...,xn),其中,n为图像序列的帧序数,x1、x2、…、xn分别为原始手语图像序列的第一帧、第二帧、…、第n帧,通过FlowNet网络提取相邻图像间的光流场,每个手语图像序列间的光流场组成光流图像序列,得到的含有n帧图像的光流图像序列为X'=(x'1,x'2,...,x'n),其中x'1、x'2、…、x'n分别为光流图像序列的第一帧、第二帧、…、第n帧;
第二步,原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合:
通过三维卷积残差网络对上述第一步所述的原始手语图像序列和光流图像序列进行时空特征提取和多模态图像序列时空特征融合,具体操作如下,
第(2.1)步,原始手语图像序列和光流图像序列的时空特征的提取:
第(2.1.1)步,原始手语图像序列的时空特征的提取:
将上述第一步中输入的含有n帧图像的原始手语图像序列输入到第一个三维卷积残差网络进行提取原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征,操作如下:
将上述第一步中的输入的含有n帧图像的原始手语图像序列X=(x1,x2,...,xn)以16帧为一个原始手语图像序列组输入到第一个三维卷积残差网络前两层卷积层和池化层,输入的图像序列重新定义为其中T=n/16,t=1,...,T,t为第t个16帧为一组的融合后的多模态图像序列组,该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的原始手语图像序列时空特征的表达为如下公式(1)所示,
公式(1)中,maxpooling为最大池化函数,f为激活函数ReLU,f(F(vt,W1 a))为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第一层卷积层输出的原始手语图像序列时空特征,F(vt,W1 a)为将原始手语图像序列输入到第一个三维卷积残差网络的第一层卷积层后的非线性映射的结果,W1 a为原始手语图像在第一个三维卷积残差网络的第一层卷积层中的权重,
公式(2)中,为该输入的原始手语图像序列在该第一个三维卷积残差网络中的第二层卷积层输出的原始手语图像序列时空特征,为将上述第一层池化层输出的原始手语图像序列时空特征输入到第一个三维卷积残差网络的第二层卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第二层卷积层中的权重,由此完成原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征的提取;
第(2.1.2)步,光流图像序列的时空特征的提取:
将上述第一步中输入的含有n帧图像的光流图像序列输入到第二个三维卷积残差网络进行提取光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征,操作如下:
上述第一步中得到的含有n帧图像的光流图像序列X'=(x'1,x'2,...,x'n)以16帧为一个光流图像序列组输入到第二个三维卷积残差网络的前两层卷积层和池化层,输入的光流图像序列为其中T=n/16,t=1,...,T,该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层之后的第一层池化层输出的光流图像序列时空特征的表达为如下公式(3)所示,
公式(3)中,maxpooling为最大池化函数,f(F(v't,W1 m))为该输入的光流图像序列在该第二个三维卷积残差网络中的第一层卷积层输出的光流图像序列时空特征,F(v't,W1 m)为将光流图像序列输入到第二个三维卷积残差网络的第一层卷积层后的非线性映射的结果,W1 m为光流图像序列在第二个三维卷积残差网络的第一层卷积层中的权重;
公式(4)中,为该输入的光流图像序列在该第二个三维卷积残差网络中的第二层卷积层输出的光流图像序列时空特征,为将上述第一层池化层输出的光流图像序列时空特征输入到第二层卷积层后的非线性映射的结果,为光流图像序列在第二个三维卷积残差网络中的第二层卷积层中的权重,由此完成光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征的提取;
至此完成原始手语图像序列和光流图像序列的时空特征的提取;
第(2.2)步,多模态图像序列时空特征融合:
将上述第(2.1.1)步提取的原始手语图像序列在第一个三维卷积残差网络前两层卷积层和池化层的时空特征和上述第(2.1.2)步提取的光流图像序列在第二个三维卷积残差网络前两层卷积层和池化层的时空特征在三维卷积残差网络后三个层卷积层和池化层进行多模态图像序列时空特征融合,操作如下:
公式(5)中,为将上述第一个三维卷积残差网络中的第二层池化层输出的原始手语图像序列时空特征输入到第一个三维卷积残差网络的第三层卷积层中的第一个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第一个卷积层中的权重;
公式(6)中,为将上述第一个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的原始手语图像序列时空特征输入到第一个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重;
上述第(2.1.1)步所述输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征与上述的原始手语图像序列时空特征相加,得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的原始手语图像序列时空特征的表达为如下公式(7)所示,
公式(9)中,为将上述第二个三维卷积残差网络中的第三层卷积层中的第k-1个卷积层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第三层卷积层中的第k个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第三层卷积层中的第k个卷积层中的权重;
上述第(2.1.2)步所述输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中的第三个卷积层输出的光流图像序列时空特征与上述的光流图像序列时空特征相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第三层卷积层中第三个卷积层输出的光流图像序列时空特征的表达为如下公式(10)所示,
上述的光流图像序列时空特征与上述的原始手语图像序列时空特征进行多模态图像序列时空特征融合,然后输入到上述输入的原始手语图像序列所在的第一个三维卷积残差网络中的第三层池化层,表达为如下公式(11)所示,
公式(12)中,为将上述融合后的多模态图像序列特征输入到第一个三维卷积残差网络的第四层卷积层中的第一个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重;
公式(13)中,为将上述第一个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征输入到第一个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征与上述融合后的多模态图像序列特征相加得到的新的输入的原始手语图像序列在第一个三维卷积残差网络中的第四层卷积层中第三个卷积层输出的融合后的多模态图像序列特征的表达为如下公式(14)所示,
公式(15)中,为将上述第二个三维卷积残差网络中的第三层池化层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第四层卷积层中第一个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第四层卷积层中的第一个卷积层中的权重;
公式(16)中,为将上述第二个三维卷积残差网络中的第四层卷积层中的第k-1个卷积层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第四层卷积层中的第k个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第四层卷积层中的第k个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征与上述光流图像序列时空特征相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第四层卷积层中的第三个卷积层输出的光流图像序列时空特征的表达为如下公式(17)所示,
公式(19)中,为将上述融合后的多模态图像序列特征输入到第一个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重;
公式(20)中,为将上述第一个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的融合后的多模态图像序列特征输入到第一个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果,为原始手语图像在第一个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重;
上述输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征与上述融合后的多模态图像序列特征相加,得到的新的该输入的原始手语图像序列在第一个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的融合后的多模态图像序列特征的表达为如下公式(21)所示,
公式(22)中,为将上述第二个三维卷积残差网络中的第四层池化层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第五层卷积层中的第一个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第五层卷积层中的第一个卷积层中的权重;
公式(23)中,为将上述第二个三维卷积残差网络中的第五层卷积层中的第k-1个卷积层输出的光流图像序列时空特征输入到第二个三维卷积残差网络的第五层卷积层中的第k个卷积层后的非线性映射的结果,为光流图像在第二个三维卷积残差网络的第五层卷积层中的第k个卷积层中的权重;
上述输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征与上述的光流图像序列时空特征相加,得到的新的该输入的光流图像序列在第二个三维卷积残差网络中的第五层卷积层中的第三个卷积层输出的光流图像序列时空特征的表达为如下公式(24)所示,
由此完成多模态图像序列时空特征融合;
至此完成原始手语图像序列和光流图像序列时空特征的提取和多模态图像序列时空特征融合;
第三步,手语句子标签的文本特征序列的提取:
对与上述第一步所述的原始手语图像序列对应的有U个单词的手语标签Y=(y1,y2,...,yU),其中U为原始手语图像序列所对应的单词数量,通过使用词嵌入方法进行手语句子标签的文本特征序列提取,具体方法是,使用一个三维卷积残差网络完全连接层,从一个手势单词标签的热向量中学习线性映射到一个如下公式(26)所示的更密集的空间,即通过词嵌入方法提取的手语句子标签的文本特征序列u=1,...,U,
第四步,基于自注意力机制的编码解码网络的手语标签预测输出:
对于上述第二步获取的融合后的多模态图像序列时空特征和上述第三步获取的文本特征序列采用基于自注意力机制的编码解码网络的建模方法进行手语标签预测输出,该网络由编码器和解码器两部分构成,在编码阶段,上述第二步获取的融合后的多模态图像序列时空特征以一个大小为512维的向量通过双向门控单元和基于自注意力机制的编码网络,编码成视频特征序列,然后在解码阶段,通过双向门控单元、位置嵌入和基于自注意力机制的解码网络将上述第二步获取的融合后的多模态图像序列时空特征和上述第三步获取的文本特征序列解码生成预测手语标签,具体操作如下:
第(4.1)步,在编码阶段获得多模态图像序列特征FFN(A):
编码器的双向门控单元分别从t=1到T和从t=T到1,其中T=n/16,所用编码器的双向门控单元为如下公式(27)和公式(28)所示,
公式(27)中,ot分别为门控单元模型fGRU-frw在编码器的前馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征,分别为门控单元模型fGRU-frw在编码器的前馈神经网络第t-1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元,
公式(28)中,ot分别为门控单元模型fGRU-bck在编码器的反馈神经网络第t个16帧为一组的融合后的多模态图像序列组的隐藏状态、记忆单元和融合后的多模态图像序列时空特征,分别为门控单元模型fGRU-bck在编码器的反馈神经网络第t+1个16帧为一组的融合后的多模态图像序列组的隐藏状态和记忆单元,
将编码器的前馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态和编码器的反馈神经网络的第t个16帧为一组的融合后的多模态图像序列组的隐藏状态的输入级联作为该编码器的双向门控单元的输出zt,如下公式(29)所示,
head=Attention(ZWQ,ZWK,ZWV) (31),
MultiHead(Z,Z,Z)=Concat(head1,...,head6)WO (32),
公式(32)中,head1、…、head6的计算方式与上述公式(31)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵WO相乘后的特征序列,
由上述公式(32)得到新的多模态图像序列特征进行6次自注意力机制学习的结果为A=(a1,a2,...,aT),其中T=n/16,t=1,...,T,将A=(a1,a2,...,aT)放入编码器前向神经网络FFN中,表达式如下公式(33)所示,
FFN(A)=max(0,AW1+b1)W2+b2 (33),
公式(33)中,W1和W2为权重矩阵,b1和b2为偏置值,max为求0和AW1+b1的最大值,
由此完成在编码阶段获得多模态图像序列特征FFN(A);
第(4.2)步,在解码阶段获得手语标签预测输出:
所用解码器的双向门控单元为如下公式(34)和公式(35)所示,
公式(34)中su分别为门控单元模型fGRU-frw在解码器的前馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列,分别为门控单元模型fGRU-frw在前馈神经网络第u-1个单词的隐藏状态和记忆单元,
公式(35)中,su分别为门控单元模型fGRU-bck在解码器的反馈神经网络第u个单词的隐藏状态、记忆单元和文本特征序列,分别为门控单元模型fGRU-bck在反馈神经网络第u+1个单词的隐藏状态和记忆单元,
将该解码器的双向门控单元的输出qu得到新的文本特征序列利用如下公式(37)和公式(38)分别所示的不同频率的正弦函数和余弦函数进行位置编码嵌入关于手语句子标签中每个单词的位置信息,得到位置编码的位置序列结果为其中Pu为第u个单词的位置编码嵌入输出,
P(u,2i)=sin(u/100002i/d) (37),
P(u,2i+1)=cos(u/100002i/d) (38),
公式(37)和公式(38)中,u表示为句子标签中第u个单词的位置,u=1,...,U,d为所有句子标签中单词的总个数,i=1,...,d,
head'=Attention(GW'Q,GW'K,GW'V) (41),
MultiHead(G,G,G)=Concat(head'1,...,head'6)W'O (42),
公式(42)中,head'1、…、head'6的计算方式与上述公式(41)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵W'O相乘后的特征序列,
由上述公式(42)得到手语句子标签的文本特征序列的结果表示为B=(b1,b2,...,bU),
将上述第(4.1)步中在编码阶段获得的多模态图像序列特征FFN(A)表示为D=(d1,d2,...,dT),其中T=n/16,
将B=(b1,b2,...,bU)和D=(d1,d2,...,dT)均输入到该解码器的最后一个自注意力机制中,如下公式(43)所示,
公式(43)中,dB为手语句子标签的文本特征序列的结果B的维度,softmax函数为将结果进行归一化,
利用公式(43)对上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)加入权重进行自注意力机制学习,得到输出结果为head″,如下公式(44)所示,
head″=Attention(BW″Q,DW″K,DW″V) (44),
公式(44)中,Attention计算方式与上述公式(43)中相同,W″Q为与Attention内的上述的B=(b1,b2,...,bU)所对应的权重矩阵,W″K、W″V分别为与Attention内的上述的D=(d1,d2,...,dT)所对应的两个权重矩阵,
将上述的B=(b1,b2,...,bU)和上述的D=(d1,d2,...,dT)进行6次自注意力机制学习,如下公式(45)所示,
MultiHead(B,D,D)=Concat(head″1,...,head″6)W″O (45),
公式(45)中,head″1、…、head″6的计算方式与上述公式(44)相同,均为自注意力机制计算的结果,Concat为将6个自注意力机制计算的结果进行级联,MultiHead为级联与权重矩阵W″O相乘后的特征序列,
由上述公式(45)得到手语句子标签的文本特征序列结果为E=(e1,e2,...,eU'),其中U'为预测的手语句子中单词的总个数,将E=(e1,e2,...,eU')放入编码器前向神经网络FFN中,表达式如下公式(46)所示,
FFN(E)=max(0,EW′1+b′1)W′2+b′2 (46),
公式(46)中,W′1和W′2为权重矩阵,b′1和b′2为偏置值,max为求0和EW′1+b′1的最大值,
通过编码器前向神经网络FFN和softmax层得到最终手语标签预测输出结果为Y'=(y′1,y′2,...,y′U),
由此完成在解码阶段获得手语标签预测输出;
至此完成基于对多模态图像序列特征融合和自注意力机制的编码解码网络的连续手语识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010083258.8A CN111339837B (zh) | 2020-02-08 | 2020-02-08 | 一种连续手语识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010083258.8A CN111339837B (zh) | 2020-02-08 | 2020-02-08 | 一种连续手语识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339837A CN111339837A (zh) | 2020-06-26 |
CN111339837B true CN111339837B (zh) | 2022-05-03 |
Family
ID=71181430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010083258.8A Expired - Fee Related CN111339837B (zh) | 2020-02-08 | 2020-02-08 | 一种连续手语识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339837B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797777B (zh) * | 2020-07-07 | 2023-10-17 | 南京大学 | 基于时空语义特征的手语识别系统及方法 |
CN112508853B (zh) * | 2020-11-13 | 2022-03-25 | 电子科技大学 | 一种时空特征提取的红外热图像缺陷检测及量化方法 |
CN112633100B (zh) * | 2020-12-14 | 2023-08-08 | 深兰人工智能应用研究院(山东)有限公司 | 行为识别方法、装置、电子设备和存储介质 |
CN113221879A (zh) * | 2021-04-30 | 2021-08-06 | 北京爱咔咔信息技术有限公司 | 文本识别及模型训练方法、装置、设备及存储介质 |
CN113297955B (zh) * | 2021-05-21 | 2022-03-18 | 中国矿业大学 | 一种基于多模态分层级信息融合的手语词识别方法 |
CN113466852B (zh) * | 2021-06-08 | 2023-11-24 | 江苏科技大学 | 应用于随机干扰场景下的毫米波雷达动态手势识别方法 |
CN113537024B (zh) * | 2021-07-08 | 2022-06-21 | 天津理工大学 | 多层时序注意力融合机制的弱监督神经网络手语识别方法 |
CN113657127B (zh) * | 2021-08-16 | 2023-08-18 | 浙江大学 | 手语生成方法和系统 |
CN114781439B (zh) * | 2022-03-29 | 2023-05-30 | 深圳市应和脑科学有限公司 | 模型获取系统、手势识别方法、装置、设备及存储介质 |
CN117893528B (zh) * | 2024-03-13 | 2024-05-17 | 云南迪安医学检验所有限公司 | 一种心脑血管疾病分类模型的构建方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096991A (zh) * | 2019-04-25 | 2019-08-06 | 西安工业大学 | 一种基于卷积神经网络的手语识别方法 |
CN110110602A (zh) * | 2019-04-09 | 2019-08-09 | 南昌大学 | 一种基于三维残差神经网络和视频序列的动态手语识别方法 |
CN110175551A (zh) * | 2019-05-21 | 2019-08-27 | 青岛科技大学 | 一种手语识别方法 |
CN110399850A (zh) * | 2019-07-30 | 2019-11-01 | 西安工业大学 | 一种基于深度神经网络的连续手语识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102104670B (zh) * | 2009-12-17 | 2014-03-05 | 深圳富泰宏精密工业有限公司 | 手语识别系统及方法 |
-
2020
- 2020-02-08 CN CN202010083258.8A patent/CN111339837B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110602A (zh) * | 2019-04-09 | 2019-08-09 | 南昌大学 | 一种基于三维残差神经网络和视频序列的动态手语识别方法 |
CN110096991A (zh) * | 2019-04-25 | 2019-08-06 | 西安工业大学 | 一种基于卷积神经网络的手语识别方法 |
CN110175551A (zh) * | 2019-05-21 | 2019-08-27 | 青岛科技大学 | 一种手语识别方法 |
CN110399850A (zh) * | 2019-07-30 | 2019-11-01 | 西安工业大学 | 一种基于深度神经网络的连续手语识别方法 |
Non-Patent Citations (3)
Title |
---|
《Continuous Gesture Recognition with Hand-Oriented Spatiotemporal Feature》;Zhipeng Liu等;《2017 IEEE International Conference on Computer Vision Workshops (ICCVW)》;20180123;全文 * |
《Improved Optical Flow for Gesture-based Human-robot Interaction》;Jen-Yen Chang等;《arXiv:1905.08685v1》;20190521;全文 * |
《基于关键帧的连续手语语句识别算法研究》;郭鑫鹏等;《计算机科学》;20121130;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111339837A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339837B (zh) | 一种连续手语识别方法 | |
CN109524006B (zh) | 一种基于深度学习的汉语普通话唇语识别方法 | |
Zheng et al. | Deep learning for surface material classification using haptic and visual information | |
CN111859912B (zh) | 基于pcnn模型的带有实体感知的远程监督关系抽取方法 | |
CN112860888B (zh) | 一种基于注意力机制的双模态情感分析方法 | |
CN110188343A (zh) | 基于融合注意力网络的多模态情感识别方法 | |
CN113378806B (zh) | 一种融合情感编码的音频驱动人脸动画生成方法及系统 | |
CN113642604A (zh) | 一种基于云边协同的音视频辅助触觉信号重建方法 | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN113609922B (zh) | 基于模态匹配的连续手语语句识别方法 | |
CN111104884A (zh) | 一种基于两阶段神经网络模型的汉语唇语识别方法 | |
CN111178157A (zh) | 一种基于音调的级联序列到序列模型的中文唇语识别方法 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
CN113780003A (zh) | 时空数据变分编解码跨模态增强方法 | |
CN116682144B (zh) | 一种基于多层次跨模态差异调和的多模态行人重识别方法 | |
CN111028319A (zh) | 一种基于面部运动单元的三维非真实感表情生成方法 | |
CN113223509A (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及系统 | |
CN111354246A (zh) | 一种用于帮助聋哑人交流的系统及方法 | |
CN116306652A (zh) | 一种基于注意力机制和BiLSTM的中文命名实体识别模型 | |
CN113449801A (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN115393948A (zh) | 基于改进Transformer模型的手语视频生成方法 | |
CN116524593A (zh) | 一种动态手势识别方法、系统、设备及介质 | |
Xu et al. | Application of tensor train decomposition in S2VT model for sign language recognition | |
Pu et al. | Review on research progress of machine lip reading | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220503 |