CN113609923B - 基于注意力的连续手语语句识别方法 - Google Patents

基于注意力的连续手语语句识别方法 Download PDF

Info

Publication number
CN113609923B
CN113609923B CN202110800098.9A CN202110800098A CN113609923B CN 113609923 B CN113609923 B CN 113609923B CN 202110800098 A CN202110800098 A CN 202110800098A CN 113609923 B CN113609923 B CN 113609923B
Authority
CN
China
Prior art keywords
sequence
attention
sign language
network
key frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110800098.9A
Other languages
English (en)
Other versions
CN113609923A (zh
Inventor
王军
袁静波
李玉莲
潘在宇
申政文
鹿姝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202110800098.9A priority Critical patent/CN113609923B/zh
Publication of CN113609923A publication Critical patent/CN113609923A/zh
Application granted granted Critical
Publication of CN113609923B publication Critical patent/CN113609923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于注意力的连续手语语句识别方法,首先,分别提取彩色视频和光流视频模态的关键帧手语视频的关键帧序列的时空特征,将提取到的时空特征输入构建的基于注意力的连续手语语句识别模型,该模型本质上是一个序列到序列模型:通过基于注意力的双模态编码网络得到两个模态的融合特征序列,并输入基于连接时序分类的解码网络,得到最终的语义序列。本发明通过利用序列到序列模型将手语序列转换到另一个语言序列,解决输出长度不确定的问题,改善输入与输出序列的不规则对齐问题。同时,在完成具有冗余信息的复杂任务时,使用注意力模型将注意力聚焦于视频特征的重要区域,对连续手语语句识别效果有显著的提升。

Description

基于注意力的连续手语语句识别方法
技术领域
本发明属于手语识别技术领域,尤其涉及一种基于注意力的连续手语语句识别方法。
背景技术
手语识别使用计算机技术对人类所使用的手语进行语义分析,使计算机可以理解手语,将手语这一肢体语言转换为易于理解的文本、语音等表现形式。
随着人工智能的快速普及,人机交互技术让人类感受到了前所未有的便捷,在手语识别中应用人机交互也成为当前的研究热点。手语识别的应用不仅可以给聋哑人群体带来便利,还可以让他们无障碍的表达自己内心的诉求与想法,在促进人类社会和谐发展方面有着重要的意义.。首次提出基于注意力的连续手语语句识别方法,将连续手语语句视频中包含的单词按照语法关系转换为一个口语化的句子,其中涉及到时间分割问题与标签对齐的问题,需要构建一个较为复杂的语义对齐网络,并使用了彩色视频和其对应的光流视频关键帧序列作为输入,增强数据表征能力。
基于可穿戴设备的手语识别一般使用数据手套、传感器或一些运动捕捉设备收集手部运动的数据,将这些数据中的有效信息提取出来后,对手部姿态进行建模分类,基于可穿戴设备的手语识别方法确实可以精确定位手部,准确度都较高,然而数据手套造价昂贵,手语者在演示时必须佩戴笨重的手套,常常让手语演示者感到束缚;基于传统机器学习的手语识别通常分为三个步骤,数据预处理、特征提取和建模识别,通常采用尺度不变特征变换和梯度方向直方图等算法人工设计特征,然后使用传统机器学习分类器进行建模与识别,例如SVM、HMM等传统分类器,基于传统机器学习的手语识别需要人工设计特征提取方法,无法自动获取图像特征,依赖于人工经验,耗时耗力。
发明内容
本发明的目的在于提供一种基于注意力的连续手语语句识别方法,解决了时间分割问题与标签对齐的问题,改进连续手语语句识别的效果。
实现本发明目的的技术解决方案为:一种基于注意力的连续手语语句识别方法,包括以下步骤:
步骤1、采集M个彩色视频模态的手语视频,100<M<10000,使用TV-L1算法对彩色视频模态的手语视频的光流信息进行提取,并形成帧数相同的光流图像序列,提供光流视频模态的手语视频;采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频,10<N<100,在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集,100<m<M,两种模态的关键帧手语视频中剩余的视频构成测试集。
步骤2、使用两个相同结构的I3D网络分别提取两种模态的关键帧手语视频中的关键帧序列的时空特征,对应得到测试集对应的关键帧序列的时空特征和训练集对应的关键帧序列的时空特征。
步骤3、构建基于注意力的连续手语语句识别模型:
基于注意力的连续手语语句识别模型包括基于注意力的双模态编码网络和基于CTC的解码网络;基于注意力的双模态编码网络分为两路且结构相同,每路均包括BLSTM与注意力网络相结合的模型;基于CTC的解码网络包括LSTM、内在映射层和CTC损失层。
步骤4、将训练集对应的关键帧序列的时空特征送入基于注意力的双模态编码网络,通过BLSTM提取高层时空特征,并利用注意力网络为其分配注意力,得到分配过注意力权重的融合特征序列;基于CTC的解码网络使用LSTM对基于注意力的双模态解码网络输出的融合特征序列进行时序建模,再通过内在映射层生成每个视频关键帧的概率分布,最后使用CTC损失层根据概率分布计算得到实际语义的后验概率,得到最终的语义序列,即获得训练好的连续手语语句识别模型。
步骤5、将测试集对应的关键帧序列的时空特征序列,输入在训练好的基于注意力的连续手语语句识别模型,输出识别出的连续手语语句,测试模型准确率。
本发明与现有技术相比,其显著优点在于:
(1)首次将序列到序列模型网络框架用于手语识别,将手语识别中的特征提取与建模步骤合二为一,通过网络自学习的方法获取图像特征,还可以直接对手语进行时序建模,得到最终的语义序列,使手语识别摆脱了对人工经验的依赖。
(2)采用了基于连接时序分类(Connectionist Temporal Classification,CTC)的网络将视频与标签对齐,有效地提取了彩色视频和光流图像序列两种模态数据的关键时空信息,并且避免了传统时序分割问题,实现手语视频与语义的对齐。
(3)将BLSTM与注意力网络相结合,利用注意力机制具有的强大的泛化能力,将注意力放在BLSTM提取高层视频特征的重要区域,有效提取关键信息,丢弃冗余信息,大大提高模型的数据利用率。
(4)用双模态数据作为互补输入,可以充分对手语视频的空间表征和时间关系进行提取和建模,大大提高模型的准确率,改进识别效果。
附图说明
图1为基于注意力的连续手语语句识别模型图。
图2为注意力网络结构图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
本发明主要采用序列到序列(Sequence to Sequence,seq2seq)模型和注意力模型。首先,分别提取彩色视频和光流视频模态的关键帧手语视频的关键帧序列的时空特征,将提取到的时空特征输入构建的基于注意力的连续手语语句识别模型,该模型本质上是一个序列到序列模型:通过基于注意力的双模态编码网络得到两个模态的融合特征序列,并输入基于连接时序分类(Connectionist Temporal Classification,CTC)的解码网络,得到最终的语义序列。本发明公开的基于注意力的连续手语语句识别方法,通过利用序列到序列模型将手语序列转换到另一个语言序列,解决输出长度不确定的问题,改善输入与输出序列的不规则对齐问题。同时,在完成具有冗余信息的复杂任务时,使用注意力模型将注意力聚焦于视频特征的重要区域,对连续手语语句识别效果有显著的提升。
结合图1,本发明所述的一种基于注意力的连续手语语句识别方法,步骤如下:
步骤1、采集M个彩色视频模态的手语视频,100<M<10000,使用TV-L1算法对彩色视频模态的手语视频的光流信息进行提取,并形成帧数相同的光流图像序列,提供光流视频模态的手语视频;采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频,10<N<100,在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集,100<m<M,两种模态的关键帧手语视频中剩余的视频构成测试集。
步骤2、使用两个相同结构的I3D网络分别提取两种模态的关键帧手语视频中的关键帧序列的时空特征,整个I3D网络共22层三维卷积层、4个最大池化层、1个全局平均池化层和一个SoftMax层,网络的每一个三维卷积层后都引入了一个批量化归一层(BN)层和Relu激活函数层。I3D网络的输入连续手语语句彩色视频模态的关键帧手语视频序列
Figure BDA0003161365070000041
和对应光流视频模态的关键帧手语视频序列
Figure BDA0003161365070000042
T为每个关键帧手语视频序列的帧数。在利用I3D对视频中的每一个关键帧提取时空特征时,选取具有全局感受野的全局平均池化层的输出特征作为每一帧对应的时空特征,通过两路I3D网络分别提取到的连续手语语句彩色视频模态的关键帧手语视频中的关键帧序列的时空特征
Figure BDA0003161365070000043
与光流视频模态的关键帧手语视频中的关键帧序列的时空特征
Figure BDA0003161365070000044
步骤3、构建基于注意力的连续手语语句识别模型:基于注意力的连续手语语句识别模型包括基于注意力的双模态编码网络和基于CTC的解码网络。
在基于注意力的连续手语语句识别模型中,基于注意力的双模态编码网络由两路结构相同的BLSTM与注意力网络构成,BLSTM由一组双向的LSTM神经单元组成,分为前向网络和后向网络,同时传递t时刻之前时刻与之后时刻的信息。
在t时刻,基于注意力的双模态编码网络中前向LSTM和后向LSTM的隐藏层状态分别为
Figure BDA0003161365070000045
Figure BDA0003161365070000046
它们的隐含层单元传递信息的方向是相反的,
Figure BDA0003161365070000047
对应的传递函数为:
Figure BDA0003161365070000048
Figure BDA0003161365070000049
对应的传递函数为:
Figure BDA00031613650700000410
其中,ht-1为前一时刻特征向量,ht+1为后一时刻特征向量,ft为训练集对应的关键帧序列的时空特征,U1和W1为前向网络的共享权重,U2和W2为后向网络的共享权重,b1和b2为偏置;前向LSTM和后向LSTM都通过各自的传递函数进行隐藏单元之间的特征传递,通过拼接前向LSTM层和后向LSTM层的隐藏状态,得到经过LSTM网络后在t时刻关键帧序列的高层特征:
Figure BDA0003161365070000051
彩色视频模态和光流模态的关键帧手语视频对应的输出高层特征序列,分别用
Figure BDA0003161365070000052
Figure BDA0003161365070000053
表示;
在使用注意力机制时,对于每个时刻,特征为hi,其中i∈[t-1,t+1],则根据输入特征与上一时刻输出加权向量计算hi对t时刻输出的相似度分数
Figure BDA0003161365070000054
计算方式如下:
Figure BDA0003161365070000055
其中,Wa、Wb、w为权重矩阵,σ为tanh函数,ba为偏置向量,ht为t时刻输入特征,at-1为t-1时刻多层感知机输出特征。
对三个特征向量ht,ht-1,ht+1的相似度进行指数归一化,归一化后的序列位置t处的注意力系数为:
Figure BDA0003161365070000056
其中,αt为注意力系数,0≤αt≤1,
Figure BDA0003161365070000057
Figure BDA0003161365070000058
将注意力系数αt作为权重,通过加权求和的方式计算at,表示为:
Figure BDA0003161365070000059
通过双模态编码网络分别得到彩色视频模态和光流模态的关键帧手语视频的加权特征序列,分别表示为
Figure BDA00031613650700000510
将其进行特征拼接后得到分配过注意力权重的融合特征序列a=(a1,a2,…,aT)。
在基于注意力的连续手语语句识别模型中,使用LSTM和CTC损失层组成基于CTC的解码网络;将融合特征序列a作为LSTM的输入,对两个模态的特征序列进一步整合,并与时间关系建模,通过LSTM得到新的特征序列gt表示为:
gt=LSTM(at-1,at)
其中,at为t时刻多层感知机输出特征。
采用CTC损失层进行训练:首先使用一个由SoftMax函数组成的内在映射层,将解码器的LSTM层每个时刻的输出特征gt映射为分布概率
Figure BDA0003161365070000061
其中,K为手语词典元素表所含元素个数;再通过CTC损失层,根据每个视频关键帧的分布概率计算得到实际语义的后验概率。
采用通用损失函数训练L个标签的目标词典时,将产生|L|个输出;在基于CTC的解码网络中引入空白标签<blank>并创建拓展词典序列L′=L∪{<blank>},并定义一个拓展词典序列π和目标标签序列1之间的映射函数,映射函数B表示为:
B:L′T→LU,(U≤T)
其中,π∈LT,l∈LU;L′T为包含空白标签<blank>的拓展词典序列,其长度为T,LU为将L′T中去除重复标签与空白标签后的语义标签序列,U为折叠后语句中语义标签数量。
当CTC损失层的输入序列为解码器中LSTM输出的特征序列g=(g1,g2,...,gT),定义一个逆映射函数B-1,它生成所有可能与目标标签序列l相对应的拓展词典序列π,那么给定输入特征序列a对应于标签序列l的概率为:
Figure BDA0003161365070000062
根据输出序列的概率分布P(l|K),调整模型参数使得P(l|K)最大;根据前后向算法计算得到CTC损失函数:
LCTC=-ln(P(l|a))
使用梯度下降法对网络进行训练,并计算CTC损失函数的梯度;获得CTC的损失函数与梯度之后,然后对其解码,用公式表示为:
y(a)=argmaxP(l|a)
找到输出序列的概率分布中概率最大的路径后,输出对应序列找到最佳输出序列W=(w1,w2,...,wU),其中U为每个连续手语语句视频包含的词语数量。
步骤4、将训练集对应的关键帧序列的时空特征送入基于注意力的双模态编码网络,通过BLSTM提取高层时空特征,并利用注意力网络为其分配注意力,得到分配过注意力权重的融合特征序列;基于CTC的解码网络使用LSTM对基于注意力的双模态解码网络输出的融合特征序列进行时序建模,再通过内在映射层生成每个视频关键帧的概率分布,最后使用CTC损失层根据概率分布计算得到实际语义的后验概率,得到最终的语义序列,即获得训练好的连续手语语句识别模型。
步骤5、将测试集对应的关键帧序列的时空特征序列,输入在训练好的基于注意力的连续手语语句识别模型,输出识别出的连续手语语句,测试模型准确率。
实施例1
本发明所述的基于注意力的连续手语语句识别方法,步骤如下:
步骤1、采集1000个彩色视频模态的手语视频,使用TV-L1算法对彩色视频模态的手语视频的光流信息进行提取,并形成帧数相同的光流图像序列,提供光流视频模态的手语视频;采用CNN对两种模态的手语视频的关键帧进行提取,得到像素大小为224×224、关键帧均匀采样至8帧的手语视频,在得到的两种模态的手语视频中各选取800个相对应的视频作为训练集。
步骤2、使用两个相同结构的I3D网络分别提取两种模态的关键帧手语视频中的关键帧序列的时空特征,直接采用预训练过的双流I3D作为手语语句特征提取网络,并在手语视频上对其微调。I3D网络学习率初始值设置为0.01。
步骤3、构建基于注意力的连续手语语句识别模型:
基于注意力的连续手语语句识别模型包括基于注意力的双模态编码网络和基于CTC的解码网络;基于注意力的双模态编码网络分为两路且结构相同,每路均包括BLSTM与注意力网络相结合的模型;基于CTC的解码网络包括LSTM、内在映射层和CTC损失层。
基于注意力的双模态编码网络中的注意力自网络以及解码器中的CTC损失层则需要重新计算。参数设置如表1所示:
表1基于注意力的连续手语语句识别模型训练参数
Figure BDA0003161365070000071
Figure BDA0003161365070000081
在编解码网络中,编码网络与解码网络的LSTM隐藏层状态单元数为512,注意力网络中多层感知机的网络通道数设为10,基于CTC的解码器采用SGD算法对目标函数和梯度进行训练。在编码器最后的分类层中,SoftMax层的单元数量根据手语词典数量设为61。
步骤4、将训练集对应的关键帧序列的时空特征送入基于注意力的双模态编码网络,通过BLSTM提取高层时空特征,并利用注意力网络为其分配注意力,注意力网格结构如图2所示,得到分配过注意力权重的融合特征序列;基于CTC的解码网络使用LSTM对基于注意力的双模态解码网络输出的融合特征序列进行时序建模,再通过内在映射层生成每个视频关键帧的概率分布,最后使用CTC损失层根据概率分布计算得到实际语义的后验概率,得到最终的语义序列,即获得训练好的连续手语语句识别模型;
步骤5、将测试集对应的关键帧序列的时空特征序列,输入在训练好的基于注意力的连续手语语句识别模型,输出识别出的连续手语语句,测试模型准确率。
根据识别正确的视频数量与视频总数的比可以评判出一个模型的好坏。在连续手语语句识别中,输入与输出的句子长度可能与句子真实语义长度不一致,输出句子中可能存在删除错误,插入错误和替换错误。为使连续手语语句识别的准确率考虑到各种误差,采用下式所述衡量标准。
Figure BDA0003161365070000082
其中,#del、#ins和#sub分别表示句子中的删除、插入和替换错误,#N表示真实语句含义中的手语词数量。
采用了不同模态数据作为输入对模型进行实验,还通过去除编码网络中的注意力网络后对网络模型进行评估。所提出的算法由TS En_decoder(Two Stream Encoder_decoder)表示,结果如表2所示。
表2不同模态识别结果对比
Figure BDA0003161365070000083
Figure BDA0003161365070000091
表2中,SS en_decoder表示使用单层基于注意力的编码网络分别对彩色视频、深度视频和光流图像数列进行编码,然后使用基于CTC的解码网络进行解码。可以看出彩色数据仍然具备较高的准确率,然而在连续手语语句识别任务中,光流信息比深度数据的表现更为优秀,因此,光流信息强大的运动信息表征能力,在连续手语语句识别这种依赖长期时间关系的任务中可以取得较好的识别效果。除此之外,将编码网络中的注意力机制移除,仅使用两层结构相同的BLSTM网络对彩色和光流两种模态的浅层时空特征进行编码,将其输出的高层时空特征作为解码网络的输入进行解码。由此看出,无论是在训练集还是测试集上都取得了较高的准确率,可以表明注意力机制对时序建模的长期依赖问题有明显的改善,有效地提高了模型准确率。

Claims (2)

1.一种基于注意力的连续手语语句识别方法,其特征在于,步骤如下:
步骤1、采集M个彩色视频模态的手语视频,100<M<10000,使用TV-L1算法对彩色视频模态的手语视频的光流信息进行提取,并形成帧数相同的光流图像序列,提供光流视频模态的手语视频;采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频,10<N<100,在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集,100<m<M,两种模态的关键帧手语视频中剩余的视频构成测试集;
步骤2、使用两个相同结构的I3D网络分别提取两种模态的关键帧手语视频的关键帧序列的时空特征,对应得到测试集对应的关键帧序列的时空特征和训练集对应的关键帧序列的时空特征;
步骤3、构建基于注意力的连续手语语句识别模型:
基于注意力的连续手语语句识别模型包括基于注意力的双模态编码网络和基于CTC的解码网络;基于注意力的双模态编码网络分为两路且结构相同,每路均包括BLSTM与注意力网络相结合的模型;基于CTC的解码网络包括LSTM、内在映射层和CTC损失层;
在基于注意力的连续手语语句识别模型中,基于注意力的双模态编码网络由两路结构相同的BLSTM与注意力网络构成,BLSTM由一组双向的LSTM神经单元组成,分为前向网络和后向网络,同时传递t时刻之前时刻与之后时刻的信息;
在t时刻,基于注意力的双模态编码网络中前向LSTM和后向LSTM的隐藏层状态分别为
Figure FDA0003526419190000011
Figure FDA0003526419190000012
它们的隐含层单元传递信息的方向是相反的,
Figure FDA0003526419190000016
对应的传递函数为:
Figure FDA0003526419190000013
Figure FDA0003526419190000014
对应的传递函数为:
Figure FDA0003526419190000015
其中,ht-1为前一时刻特征向量,ht+1为后一时刻特征向量,ft为训练集对应的关键帧序列的时空特征,U1和W1为前向网络的共享权重,U2和W2为后向网络的共享权重,b1和b2为偏置;前向LSTM和后向LSTM都通过各自的传递函数进行隐藏单元之间的特征传递,通过拼接前向LSTM层和后向LSTM层的隐藏状态,得到经过LSTM网络后在t时刻关键帧序列的高层特征:
Figure FDA0003526419190000021
彩色视频模态和光流模态的关键帧手语视频对应的输出高层特征序列,分别用
Figure FDA0003526419190000022
Figure FDA0003526419190000023
表示;
在使用注意力机制时,对于每个时刻,特征为hi,其中i∈[t-1,t+1],则根据输入特征与上一时刻输出加权向量计算hi对t时刻输出的相似度分数
Figure FDA0003526419190000024
计算方式如下:
Figure FDA0003526419190000025
其中,Wa、Wb、w为权重矩阵,σ为tanh函数,ba为偏置向量,ht为t时刻输入特征,at-1为t-1时刻多层感知机输出特征;
对三个特征向量ht,ht-1,ht+1的相似度进行指数归一化,归一化后的序列位置t处的注意力系数为:
Figure FDA0003526419190000026
其中,αt为注意力系数,0≤αt≤1,
Figure FDA0003526419190000027
Figure FDA0003526419190000028
将注意力系数αt作为权重,通过加权求和的方式计算at,表示为:
Figure FDA0003526419190000029
通过双模态编码网络分别得到彩色视频模态和光流模态的关键帧手语视频的加权特征序列,分别表示为
Figure FDA00035264191900000210
将其进行特征拼接后得到分配过注意力权重的融合特征序列a=(a1,a2,...,aT);
步骤4、将训练集对应的关键帧序列的时空特征送入基于注意力的双模态编码网络,通过BLSTM提取高层时空特征,并利用注意力网络为其分配注意力,得到分配过注意力权重的融合特征序列;基于CTC的解码网络使用LSTM对基于注意力的双模态解码网络输出的融合特征序列进行时序建模,再通过内在映射层生成每个视频关键帧的概率分布,最后使用CTC损失层根据概率分布计算得到实际语义的后验概率,得到最终的语义序列,即获得训练好的连续手语语句识别模型;
步骤5、将测试集对应的关键帧序列的时空特征序列,输入在训练好的基于注意力的连续手语语句识别模型,输出识别出的连续手语语句,测试模型准确率。
2.根据权利要求1所述的一种基于注意力的连续手语语句识别方法,其特征在于,步骤3中,在基于注意力的连续手语语句识别模型中,使用LSTM和CTC损失层组成基于CTC的解码网络;将融合特征序列a作为LSTM的输入,对两个模态的特征序列进一步整合,并与时间关系建模,通过LSTM得到新的特征序列gt表示为:
gt=LSTM(at-1,at)
其中,at为t时刻多层感知机输出特征;
采用CTC损失层进行训练:首先使用一个由SoftMax函数组成的内在映射层,将解码器的LSTM层每个时刻的输出特征gt映射为分布概率
Figure FDA0003526419190000031
其中,K为手语词典元素表所含元素个数;再通过CTC损失层,根据每个视频关键帧的分布概率计算得到实际语义的后验概率;
采用通用损失函数训练L个标签的目标词典时,将产生|L|个输出;在基于CTC的解码网络中引入空白标签<blank>并创建拓展词典序列L′=L∪{<blank>},并定义一个拓展词典序列π和目标标签序列l之间的映射函数,映射函数B表示为:
B:L′T→LU,(U≤T)
其中,π∈L′T,l∈LU;L′T为包含空白标签<blank>的拓展词典序列,其长度为T,LU为将L′T中去除重复标签与空白标签后的语义标签序列,U为折叠后语句中语义标签数量;
当CTC损失层的输入序列为解码器中LSTM输出的特征序列g=(g1,g2,...,gT),定义一个逆映射函数B-1,它生成所有可能与目标标签序列l相对应的拓展词典序列π,那么给定输入特征序列a对应于标签序列l的概率为:
Figure FDA0003526419190000041
根据输出序列的概率分布P(l|K),调整模型参数使得P(l|K)最大;根据前后向算法计算得到CTC损失函数:
LCTC=-ln(P(l|a))
使用梯度下降法对网络进行训练,并计算CTC损失函数的梯度;获得CTC的损失函数与梯度之后,然后对其解码,用公式表示为:
y(a)=arg max P(l|a)
找到输出序列的概率分布中概率最大的路径后,输出对应序列找到最佳输出序列W=(w1,w2,...,wU),其中U为每个连续手语语句视频包含的词语数量。
CN202110800098.9A 2021-07-13 2021-07-13 基于注意力的连续手语语句识别方法 Active CN113609923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110800098.9A CN113609923B (zh) 2021-07-13 2021-07-13 基于注意力的连续手语语句识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110800098.9A CN113609923B (zh) 2021-07-13 2021-07-13 基于注意力的连续手语语句识别方法

Publications (2)

Publication Number Publication Date
CN113609923A CN113609923A (zh) 2021-11-05
CN113609923B true CN113609923B (zh) 2022-05-13

Family

ID=78304677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110800098.9A Active CN113609923B (zh) 2021-07-13 2021-07-13 基于注意力的连续手语语句识别方法

Country Status (1)

Country Link
CN (1) CN113609923B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114115531B (zh) * 2021-11-11 2022-09-30 合肥工业大学 一种基于注意力机制的端到端手语识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013242700A (ja) * 2012-05-21 2013-12-05 Internatl Business Mach Corp <Ibm> コード最適化方法、プログラム及びシステム
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
US11263409B2 (en) * 2017-11-03 2022-03-01 Board Of Trustees Of Michigan State University System and apparatus for non-intrusive word and sentence level sign language translation
US10289903B1 (en) * 2018-02-12 2019-05-14 Avodah Labs, Inc. Visual sign language translation training device and method
CN108388348B (zh) * 2018-03-19 2020-11-24 浙江大学 一种基于深度学习和注意力机制的肌电信号手势识别方法
US20190346929A1 (en) * 2018-05-11 2019-11-14 Piccolo Labs Inc. Attention Levels in a Gesture Control System
CN109740419B (zh) * 2018-11-22 2021-03-02 东南大学 一种基于Attention-LSTM网络的视频行为识别方法
CN110163181B (zh) * 2019-05-29 2021-07-06 中国科学技术大学 手语识别方法及装置
CN112507898B (zh) * 2020-12-14 2022-07-01 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法

Also Published As

Publication number Publication date
CN113609923A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN111339837B (zh) 一种连续手语识别方法
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
CN108829677A (zh) 一种基于多模态注意力的图像标题自动生成方法
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN111753704B (zh) 一种基于视频人物唇读识别的时序集中预测方法
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
CN113609922B (zh) 基于模态匹配的连续手语语句识别方法
Ji et al. Sign language learning system with image sampling and convolutional neural network
CN113516152B (zh) 一种基于复合图像语义的图像描述方法
CN115329779A (zh) 一种多人对话情感识别方法
CN113297955B (zh) 一种基于多模态分层级信息融合的手语词识别方法
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN111340005A (zh) 一种手语识别方法和系统
CN113822340A (zh) 一种基于注意力机制的图文情感识别方法
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN113221571A (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN113609923B (zh) 基于注意力的连续手语语句识别方法
CN114283482A (zh) 基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN116701996A (zh) 基于多元损失函数的多模态情感分析方法、系统、设备及介质
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN115719510A (zh) 基于多模态融合及隐式交互关系学习的群组行为识别方法
CN113269068B (zh) 一种基于多模态特征调节与嵌入表示增强的手势识别方法
CN115392232A (zh) 一种融合主题和多模态的突发事件情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant