CN113609922A - 基于模态匹配的连续手语语句识别方法 - Google Patents

基于模态匹配的连续手语语句识别方法 Download PDF

Info

Publication number
CN113609922A
CN113609922A CN202110792080.9A CN202110792080A CN113609922A CN 113609922 A CN113609922 A CN 113609922A CN 202110792080 A CN202110792080 A CN 202110792080A CN 113609922 A CN113609922 A CN 113609922A
Authority
CN
China
Prior art keywords
sign language
time
network
space
key frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110792080.9A
Other languages
English (en)
Other versions
CN113609922B (zh
Inventor
王军
袁静波
申政文
潘在宇
李玉莲
鹿姝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202110792080.9A priority Critical patent/CN113609922B/zh
Publication of CN113609922A publication Critical patent/CN113609922A/zh
Application granted granted Critical
Publication of CN113609922B publication Critical patent/CN113609922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模态匹配的连续手语语句识别方法,将手语语句的彩色视频和光流图像序列的关键帧和目标词语片段序列作为输入,通过基于模态匹配的连续手语语句识别模型,将手语语句的彩色视频和光流图像序列的关键帧片段序列与语义匹配对齐,得到最终的语义序列。本发明公开了一种基于模态匹配的连续手语语句识别模型,用轻量的特征提取网络,减少其参数量,针对手语数据集进行任务特定性训练,在数据集中样本的标注较少的情况下对连续手语语句进行识别,减少了在传统手语识别方法中对人体姿势信息高度依赖的问题。

Description

基于模态匹配的连续手语语句识别方法
技术领域
本发明属于手语识别技术,尤其涉及一种基于模态匹配的连续手语语句识别方法。
背景技术
手语识别使用计算机技术对人类所使用的手语进行语义分析,使计算机可以理解手语,将手语这一肢体语言转换为易于理解的文本、语音等表现形式。
随着人工智能的快速普及,人机交互技术让人类感受到了前所未有的便捷,在促进人类社会和谐发展方面有着重要的意义。首次提出基于模态匹配的连续手语语句识别方法将视频和语义的对齐,使用了彩色视频和其对应的光流视频关键帧序列作为输入,增强数据表征能力,采用更加轻量的特征提取网络,减少其参数量,针对手语数据集进行任务特定性训练,便于部署连续手语语句识别模型。
基于可穿戴设备的手语识别一般使用数据手套、传感器或一些运动捕捉设备收集手部运动的数据,将这些数据中的有效信息提取出来后,对手部姿态进行建模分类,基于可穿戴设备的手语识别方法确实可以精确定位手部,准确度都较高,然而数据手套造价昂贵,手语者在演示时必须佩戴笨重的手套,常常让手语演示者感到束缚;基于传统机器学习的手语识别通常分为三个步骤,数据预处理、特征提取和建模识别,通常采用尺度不变特征变换和梯度方向直方图等算法人工设计特征,然后使用传统机器学习分类器进行建模与识别,例如SVM、HMM等传统分类器,基于传统机器学习的手语识别需要人工设计特征提取方法,无法自动获取图像特征,依赖于人工经验,耗时耗力。
特征提取网络结构较为复杂,在大规模手语数据集上训练会有较大的参数量并且非常耗时,这样无法针对性的完成连续手语语句识别的任务。除此之外,手语语句识别的输出语句在句式结构较为复杂的情况下,存在无法符合日常语法关系的问题,并难以在缺乏标注的数据集上训练编解码网络,实用性不甚理想。
发明内容
本发明的目的在于提供一种基于模态匹配的连续手语语句识别方法,解决了视频序列与词语序列的对齐问题,将手语关键帧片段与语义对齐,生成口语语句。
实现本发明目的的技术解决方案为:一种基于模态匹配的连续手语语句识别方法,步骤如下:
步骤S1、采集M个彩色视频模态的手语视频,100<M<10000,使用TV-L1算法对彩色视频模态的手语视频的光流信息进行提取,并形成帧数相同的光流图像序列,提供光流视频模态的手语视频;采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频,10<N<100,在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集,100<m<M,两种模态的关键帧手语视频中剩余的视频构成测试集。
步骤S2、构建基于模态匹配的连续手语语句识别模型:
所述基于模态匹配的连续手语语句识别模型包括手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络:
采用基于时间自适应的CNN,即TANet,作为手语关键帧片段时空特征提取网络:首先经过一个标准卷积操作,再通过13个TAM-DW Conv卷积模块,最后输入到全连接层之后进行平均池化汇总。
多模态潜在语义空间映射网络使用了One-Hot编码并利用了线性投影函数构成潜在语义空间。
编解码网络包括双层LSTM和注意力网络。
步骤S3、在训练集中抽取V组两种模态的关键帧手语视频分别对手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络训练得到初始权重,再输入全部训练集对基于模态匹配的连续手语语句识别模型进行训练;其中,手语关键帧片段时空特征提取网络将用于有效提取彩色视频和光流视频模态的关键帧手语视频片段的时空特征;多模态潜在语义空间映射网络将提取到的两种模态的关键帧手语视频片段的时空特征和利用One-Hot编码得到的词语序列向量映射到相同的潜在语义空间中;编码网络用于学习两种模态的关键帧手语视频片段的长期时空特征并输入解码网络,解码网络将潜在语义空间中的时空特征与词语序列向量匹配对齐;即获得训练好的连续手语语句识别模型。
步骤S4、利用测试集对训练好的基于模态匹配的连续手语语句识别模型进行测试,得到连续手语语句识别准确性。
本发明与现有技术相比,其显著优点在于:
(1)采用更加轻量的特征提取网络对视频的空间特征进行提取,解决CNN的计算效率与参数量过多等问题,便于部署连续手语语句识别模型,提高基于模态匹配的连续手语语句识别方法的实际应用能力。
(2)引入词嵌入的思想,在数据集中样本的标注较少的情况下对连续手语语句进行识别,降低对数据标注的严格要求,减少了在传统手语识别方法中对人体姿势信息高度依赖的问题。
(3)在手语关键帧片段时空特征提取模块中加入时间自适应模块,不仅解决了参数量过多难以训练的问题,还能自适应的聚合时间信息,有效提取彩色和光流手语关键帧片段序列的时空特征。
(4)在编解码网络中加入了注意力机制,使其在解码时可以有重点的学习,在将手语视频与词语向量匹配对齐时,有效减少了数据冗余信息对模型的影响和训练模型的参数量。
附图说明
图1为基于模态匹配的连续手语语句识别模型图。
图2为深度可分离卷积模块图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
结合图1和图2,本发明所述的一种基于模态匹配的连续手语语句识别方法,步骤如下:
步骤S1、采集M个彩色视频模态的手语视频,100<M<10000,使用TV-L1算法对彩色视频模态的手语视频的光流信息进行提取,并形成帧数相同的光流图像序列,提供光流视频模态的手语视频。采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频,10<N<100,在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集,100<m<M,两种模态的关键帧手语视频中剩余的视频构成测试集。
步骤S2、构建基于模态匹配的连续手语语句识别模型:
所述基于模态匹配的连续手语语句识别模型包括手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络:
在构建手语关键帧片段时空特征提取网络时,将手语视频的关键帧序列划分为若干个片段作为输入,采用基于时间自适应的CNN作为手语关键帧片段时空特征提取网络。
采用轻量化的CNN模型MobileNet作为基础网络,并以时间自适应模块TAM为研究基础,手语关键帧片段时空特征提取网络,即TANet包含了嵌入MobileNet的时间特征提取模块TAM。MobileNet的基本单元为深度可分离卷积,分解为深度级卷积和点级卷积。TAM包括局部和全局两个分支,局部分支使用时间卷积操作捕获输入特征的短期时间信息,全局分支结合长期时间关系,利用局部分支的短期时间信息和全连接层自适应地聚合时间信息。将MobileNet基本单元中大小为3x3的深度级卷积层的输出作为TAM的输入特征,采用全局平均池化操作压缩输入特征图Xc,t的空间信息,计算方式如下式所示:
Figure BDA0003161363830000041
其中,c,t,j,i分别是通道、时间、高度、宽度维度的索引,
Figure BDA0003161363830000042
表示输入特征的空间聚合信息,C、T、H、W分别为输入特征图的通道数、时间、高度和宽度。TAM使用时间卷积层和Relu非线性函数构建局部分支,如下式所示:
Figure BDA0003161363830000043
其中,A是学习到的位置敏感的重要度图,C为输入特征的通道数,δ为Relu激活函数,Conv1D为时间卷积操作,包含的参数为输入特征
Figure BDA0003161363830000044
卷积核大小B、输入特征的通道数C。其中首个Conv1D后紧跟一个BN层,将通道数量降低为C/β,β表示通道的缩放倍数,第二个Conv1D后面跟着一个Sigmoid函数,其输出为位置重要度权重,将重要度图和空间聚合特征在时域上逐元素相乘,得到激活后的特征图Z:
Figure BDA0003161363830000045
通过复制空间维度,将Z的大小缩放为
Figure BDA0003161363830000046
所得到的
Figure BDA0003161363830000047
即短期时间特征图。
全局分支中则结合长期时间信息,为每个视频片段产生一个动态卷积核,并通过卷积操作聚合时间信息,逐通道学习自适应卷积核与输入特征图进行卷积。在第c个通道,所学习自适应卷积核表示为:
Figure BDA0003161363830000051
其中,θc∈RK是学习到的第c个通道的自适应卷积核,K为自适应卷积核大小,W1、W2为权重,σ表示tanh函数,自适应卷积核根据压缩特征图
Figure BDA0003161363830000052
学习而来,通过全连接层对长期时间关系进行学习。全局分支堆叠两个全连接层,增强对长期时间关系的建模能力,最后使用SoftMax函数对自适应卷积核进行归一化操作,生成聚合权重Θ=(Θ1,Θ2,...,ΘC,)。将产生的聚合权重以卷积的形式对时间信息进行卷积操作,得到特征在时域上的关系,具体过程如下式所示:
Figure BDA0003161363830000053
则Y∈RC×T×H×W则为时间卷积后的特征图,
Figure BDA0003161363830000054
即短期时间特征图,将Y作为TAM模块输出特征,通过BN层和Relu层之后,输入到1x1卷积层中。
对关键帧片段提取时空特征时,使用的网络结构与MobileNet一样,首先使用一个标准卷积,然后嵌入TAM后形成深度可分离卷积模块。在使用TAM时,根据手语视频的特点将关键帧平均划分为D个片段作为输入,每个片段输入到TANet中,首先经过一个标准卷积操作,再通过TAM-DW Conv卷积模块得到时空特征图,输入到全连接层之后对N帧的分数进行平均池化汇总,得到片段级别的分数。
假设视频输入的彩色视频模态的手语视频关键帧片段表示为
Figure BDA0003161363830000055
与光流视频模态的手语视频关键帧片段
Figure BDA0003161363830000056
构建两路结构相同的手语关键帧片段时空特征提取网络,学习输入关键帧片段中的非线性片段时空特征:
fd=TANet(kd)
其中,kd表示第d个手语视频关键帧片段,fd为第d个手语视频关键帧片段的时空特征。每个片段输入到TANet中,首先经过一个标准卷积操作,再通过13个TAM-DW Conv卷积模块得到同一维度大小的时空特征图,输入到全连接层之后对N帧的分数进行平均池化汇总,得到片段级别的分数,最终提取到的彩色视频和光流视频模态的手语视频关键帧片段特征序列分别表示为
Figure BDA0003161363830000061
利用特征融合的方式将两种模态的手语视频关键帧片段特征序列按照时间顺序进行融合,得到融合特征F=(f1,f2,...,fD)。
在基于模态匹配的连续手语语句识别模型中,采用基于多模态潜在语义空间的映射网络,引入词嵌入的思想到时空特征表示中,将每个词语之间等距的稀疏One-Hot向量表征转换成为更密集的表征。
在语义级别的线性表示中,先使用One-Hot编码,将与视频序列对应的词语进行编码,则用W=(w1,w2,...,wU)表示,采用一个全连接层从词语的One-Hot向量wu学习一个线性投影函数,将其投影到与时空特征相同的密集空间,称其为潜在语义空间:
w′u=wordembedding(wu)
两种模态的手语视频关键帧片段特征序列的融合特征在潜在语义空间中的特征用S=(s1,s2,…,sD)表示,词语在潜在语义空间中的特征则用W′=(w′1,w′2,...,w′U)表示,U为与视频序列对应的语句中所含词语数量。
在基于模态匹配的连续手语语句识别模型中,使用编解码网络将手语关键帧片段与语义对齐,生成口语语句。
在编码阶段采用一个具有相同方向的双层LSTM作为时序建模网络,给定彩色视频和光流视频模态的手语视频关键帧片段融合特征的潜在空间语义表示S=(s1,s2,...,sD),将其时间顺序反转后以S=(sD,sD-1,...,s1)输入到编码器中,使用双向LSTM对关键帧序列中的时间关系进行建模,第一层LSTM得到其第d个隐藏状态hd为:
hd=LSTM(sd,hd+1)
其中,sd表示第d个彩色视频和光流视频模态的手语视频关键帧片段融合特征的潜在空间语义,hd+1表示第d+1个隐藏状态。
第二层LSTM每个时刻的隐藏状态则由最终的输出与上一层的隐藏状态计算而来,也就是解码网络的输出od如下:
od=LSTM(hd,od+1)
由于融合特征序列S在编码网络中为倒序输入,hd+1则为上一片段的输出状态,设hD+1为零向量,双层LSTM在第一个片段的输出作为最终的LSTM单元隐藏状态,将其输入到解码器中的LSTM单元,作为最终的潜在语义片段时空特征向量,记为hs
在解码阶段,仍然构建一个双层LSTM作为将片段时空特征向量与词语特征向量匹配的对齐网络模型,将编码器中输出的特征向量作为输入,对解码器网络的LSTM的最终隐藏单元状态hs进行初始化作为h′0。通过将第u-1个潜在语义特征的隐藏层状态h′u-1以及与先前预测的单词yu-1对应的潜在语义特征向量w′u-1作为输入,解码生成预测单词序列yu,并更新每个LSTM单元的隐藏状态h′u,表示为:
yu,h′u=Decoder(w′u-1,h′u-1)
通过双层LSTM输出隐藏状态向量H′=(h′1,h′2,...,h′U),在解码器中yU为句子开头的标记用SOS表示,解码器根据特征序列不断进行预测,直到预测到句子的另一个结束标记,用EOS表示,逐词生成句子,解码器将条件概率分解为有序的条件概率P(y|k):
Figure BDA0003161363830000071
由于编码与解码网络之间的信息是互通的,则对每个单词都应用交叉熵损失函数计算误差,传播误差到编码网络中,从而更新编码网络中的网络参数。
在解码网络中加入注意力网络,使解码网络在对时空特征向量与词语序列向量进行解码时有重点的学习。
对于解码器中的每个时刻,将加权求和操作应用于编码器中的输出O=(o1,o2,...,oD),从而计算出新的上下文向量gu
Figure BDA0003161363830000072
Figure BDA0003161363830000073
为第d个片段的时空特征相对于解码网络中第u个词语的注意力权重,是根据编码器的每个单元的输出状态od和解码器的隐藏状态h′u的相似度得出的,计算方式如下:
Figure BDA0003161363830000074
其中,score为评分函数,d′表示第d′个片段的时空特征,au代表第u个词语的注意力向量,通过将上下文向量gu和隐藏状态h′u结合求出:
Figure BDA0003161363830000081
其中,Wsc为已学习到的权重,然后将注意力特征向量Att=(a1,a2,...,aU)输入到全连接层中,对有序条件概率进行建模,再将其au输入到解码步中,得到最终的输出序列:
yu,h′u=Decoder(w′u-1,h′u-1,au-1)
为避免参数量过多,采用Dropout和L2正则化联合对注意力模型进行训练,则注意力模型需要训练的损失函数J(θ)即如下式所示:
Figure BDA0003161363830000082
其中,λ是L2正则化的超参数,θ是注意力模型中的偏置向量;解码器最终根据注意力层的输出概率,使用BeamSearch对其解码,选取概率值最高的语句序列作为最终语义,用L=(l1,l2,...,lU)表示。
步骤S3、在训练集中抽取V组两种模态的关键帧手语视频分别对手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络训练得到初始权重,再输入全部训练集对基于模态匹配的连续手语语句识别模型进行训练。其中,手语关键帧片段时空特征提取网络将用于有效提取彩色视频和光流视频模态的关键帧手语视频片段的时空特征,多模态潜在语义空间映射网络将提取到的两种模态的关键帧手语视频片段的时空特征和利用One-Hot编码得到的词语序列向量映射到相同的潜在语义空间中,编码网络用于学习两种模态的关键帧手语视频片段的长期时空特征并输入解码网络,解码网络将潜在语义空间中的时空特征与词语序列向量匹配对齐;即获得训练好的连续手语语句识别模型。
步骤S4、利用测试集对训练好的基于模态匹配的连续手语语句识别模型进行测试,得到连续手语语句识别准确性。
实施例1
本发明所述的基于模态匹配的连续手语语句识别方法,步骤如下:
步骤S1、采集1000个彩色视频模态的手语视频,使用TV-L1算法对彩色视频模态的手语视频的光流信息进行提取,并形成帧数相同的光流图像序列,提供光流视频模态的手语视频;采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应得到像素大小为224×224、关键帧均匀采样至8帧的两种模态的关键帧手语视频,在得到的两种模态的关键帧手语视频中各选取800个相对应的视频构成训练集,两种模态的关键帧手语视频中剩余的视频构成测试集。手语语句关键帧片段个数D设为10。
步骤S2、构建基于模态匹配的连续手语语句识别模型:
所述基于模态匹配的连续手语语句识别模型包括手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络:
采用基于时间自适应的CNN,即TANet,作为手语关键帧片段时空特征提取网络:首先经过一个标准卷积操作,再通过13个TAM-DW Conv卷积模块,最后输入到全连接层之后进行平均池化汇总。
多模态潜在语义空间映射网络使用了One-Hot编码并利用了线性投影函数构成潜在语义空间。
编解码网络包括双层LSTM和注意力网络。
步骤S3、在训练集中抽取8组两种模态的关键帧手语视频分别对手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络训练得到初始权重,再输入全部训练集对基于模态匹配的连续手语语句识别模型进行训练。
首先采用SGD对训练手语关键帧片段时空特征提取网络进行预训练,预训练参数如表1所示。在训练集上对网络微调时,采用预训练的参数对网络进行初始化,将学习率设置为0.01,Epoch调整为20。
表1预训练参数
Figure BDA0003161363830000091
在对编解码网络的训练过程中,采用Dropout和L2正则化联合对注意力模型进行训练。训练过程分为两个阶段,第一阶段将batch_size设为8,第二阶段将batch_size设为1,并将学习率降低至0.0001。
在基于编解码器的seq2seq模型中,使用含有序列终止符的BeamSearch算法对其解码,从候选结果中选出最好的BeamWidth个序列保留在集合中,按照此规则循环查找。分别训练好整体连续手语语句识别模型的各个模块后,再整体对其训练。
步骤S4、利用测试集对训练好的基于模态匹配的连续手语语句识别模型进行测试,得到连续手语语句识别准确性为0.8256,证明了所提算法在对于连续手语语句的识别效果有一定的提升,不仅解决了语义对齐的问题,也更加符合口语习惯,减少了插入、删除等错误的出现。

Claims (4)

1.一种基于模态匹配的连续手语语句识别方法,其特征在于,步骤如下:
步骤S1、采集M个彩色视频模态的手语视频,100<M<10000,使用TV-L1算法对彩色视频模态的手语视频的光流信息进行提取,并形成帧数相同的光流图像序列,提供光流视频模态的手语视频;采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频,10<N<100,在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集,100<m<M,两种模态的关键帧手语视频中剩余的视频构成测试集;
步骤S2、构建基于模态匹配的连续手语语句识别模型:
所述基于模态匹配的连续手语语句识别模型包括手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络:
采用基于时间自适应的CNN,即TANet,作为手语关键帧片段时空特征提取网络:首先经过一个标准卷积操作,再通过13个TAM-DW Conv卷积模块,最后输入到全连接层之后进行平均池化汇总;
多模态潜在语义空间映射网络使用了One-Hot编码并利用了线性投影函数构成潜在语义空间;
编解码网络包括双层LSTM和注意力网络;
步骤S3、在训练集中抽取V组两种模态的关键帧手语视频分别对手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络训练得到初始权重,再输入全部训练集对基于模态匹配的连续手语语句识别模型进行训练;其中,手语关键帧片段时空特征提取网络将用于有效提取彩色视频和光流视频模态的关键帧手语视频片段的时空特征;多模态潜在语义空间映射网络将提取到的两种模态的关键帧手语视频片段的时空特征和利用One-Hot编码得到的词语序列向量映射到相同的潜在语义空间中;编码网络用于学习两种模态的关键帧手语视频片段的长期时空特征并输入解码网络,解码网络将潜在语义空间中的时空特征与词语序列向量匹配对齐;即获得训练好的连续手语语句识别模型;
步骤S4、利用测试集对训练好的基于模态匹配的连续手语语句识别模型进行测试,得到连续手语语句识别准确性。
2.根据权利要求1所述的基于模态匹配的连续手语语句识别方法,其特征在于,步骤S2中,在构建手语关键帧片段时空特征提取网络时,将手语视频的关键帧序列划分为若干个片段作为输入,采用基于时间自适应的CNN作为手语关键帧片段时空特征提取网络;
采用轻量化的CNN模型MobileNet作为基础网络,并以时间自适应模块TAM为研究基础,手语关键帧片段时空特征提取网络,即TANet包含了嵌入MobileNet的时间特征提取模块TAM;MobileNet的基本单元为深度可分离卷积,分解为深度级卷积和点级卷积;TAM包括局部和全局两个分支,局部分支使用时间卷积操作捕获输入特征的短期时间信息,全局分支结合长期时间关系,利用局部分支的短期时间信息和全连接层自适应地聚合时间信息;将MobileNet基本单元中大小为3x3的深度级卷积层的输出作为TAM的输入特征,采用全局平均池化操作压缩输入特征图Xc,t的空间信息,计算方式如下式所示:
Figure FDA0003161363820000021
其中,c,t,j,i分别是通道、时间、高度、宽度维度的索引,
Figure FDA0003161363820000022
表示输入特征的空间聚合信息,C、T、H、W分别为输入特征图的通道数、时间、高度和宽度;TAM使用时间卷积层和Relu非线性函数构建局部分支,如下式所示:
Figure FDA0003161363820000023
其中,A是学习到的位置敏感的重要度图,C为输入特征的通道数,δ为Relu激活函数,Conv1D为时间卷积操作,包含的参数为输入特征
Figure FDA0003161363820000024
卷积核大小B、输入特征的通道数C;其中首个Conv1D后紧跟一个BN层,将通道数量降低为C/β,β表示通道的缩放倍数,第二个Conv1D后面跟着一个Sigmoid函数,其输出为位置重要度权重;将重要度图和空间聚合特征在时域上逐元素相乘,得到激活后的特征图Z:
Figure FDA0003161363820000025
通过复制空间维度,将Z的大小缩放为
Figure FDA0003161363820000026
所得到的
Figure FDA0003161363820000027
即短期时间特征图;
全局分支中则结合长期时间信息,为每个视频片段产生一个动态卷积核,并通过卷积操作聚合时间信息,逐通道学习自适应卷积核与输入特征图进行卷积;在第c个通道,所学习自适应卷积核表示为:
Figure FDA0003161363820000031
其中,Θc∈RK是学习到的第c个通道的自适应卷积核,K为自适应卷积核大小,W1、W2为权重,σ表示tanh函数;自适应卷积核根据压缩特征图
Figure FDA0003161363820000032
学习而来,通过全连接层对长期时间关系进行学习;全局分支堆叠两个全连接层,增强对长期时间关系的建模能力,最后使用SoftMax函数对自适应卷积核进行归一化操作,生成聚合权重Θ=(Θ1,Θ2,...,ΘC,);将产生的聚合权重以卷积的形式对时间信息进行卷积操作,得到特征在时域上的关系,具体过程如下式所示:
Figure FDA0003161363820000033
则Y∈RC×T×H×W则为时间卷积后的特征图,
Figure FDA0003161363820000034
即短期时间特征图,将Y作为TAM模块输出特征,通过BN层和Relu层之后,输入到1x1卷积层中;
对关键帧片段提取时空特征时,使用的网络结构与MobileNet一样,首先使用一个标准卷积,然后嵌入TAM后形成深度可分离卷积模块;在使用TAM时,根据手语视频的特点将关键帧平均划分为D个片段作为输入;每个片段输入到TANet中,首先经过一个标准卷积操作,再通过TAM-DW Conv卷积模块得到时空特征图;输入到全连接层之后对N帧的分数进行平均池化汇总,得到片段级别的分数;
假设视频输入的彩色视频模态的手语视频关键帧片段表示为
Figure FDA0003161363820000035
与光流视频模态的手语视频关键帧片段
Figure FDA0003161363820000036
构建两路结构相同的手语关键帧片段时空特征提取网络,学习输入关键帧片段中的非线性片段时空特征:
fd=TANet(kd)
其中,kd表示第d个手语视频关键帧片段,fd为第d个手语视频关键帧片段的时空特征;每个片段输入到TANet中,首先经过一个标准卷积操作,再通过13个TAM-DW Conv卷积模块得到同一维度大小的时空特征图;输入到全连接层之后对N帧的分数进行平均池化汇总,得到片段级别的分数;最终提取到的彩色视频和光流视频模态的手语视频关键帧片段特征序列分别表示为
Figure FDA0003161363820000041
利用特征融合的方式将两种模态的手语视频关键帧片段特征序列按照时间顺序进行融合,得到融合特征F=(f1,f2,...,fD)。
3.根据权利要求1所述的基于模态匹配的连续手语语句识别方法,其特征在于,步骤S2中,在基于模态匹配的连续手语语句识别模型中,采用基于多模态潜在语义空间的映射网络,引入词嵌入的思想到时空特征表示中,将每个词语之间等距的稀疏One-Hot向量表征转换成为更密集的表征;
在语义级别的线性表示中,先使用One-Hot编码,将与视频序列对应的词语进行编码,则用W=(w1,w2,...,wU)表示;采用一个全连接层从词语的One-Hot向量wu学习一个线性投影函数,将其投影到与时空特征相同的密集空间,称其为潜在语义空间:
w′u=wordembedding(wu)
两种模态的手语视频关键帧片段特征序列的融合特征在潜在语义空间中的特征用S=(s1,s2,...,sD)表示,词语在潜在语义空间中的特征则用W′=(w′1,w′2,...,w′U)表示,U为与视频序列对应的语句中所含词语数量。
4.根据权利要求1所述的基于模态匹配的连续手语语句识别方法,其特征在于,步骤S2中,在基于模态匹配的连续手语语句识别模型中,使用编解码网络将手语关键帧片段与语义对齐,生成口语语句;
在编码阶段采用一个具有相同方向的双层LSTM作为时序建模网络,给定彩色视频和光流视频模态的手语视频关键帧片段融合特征的潜在空间语义表示S=(s1,s2,...,sD),将其时间顺序反转后以S=(sD,sD-1,...,s1)输入到编码器中,使用双向LSTM对关键帧序列中的时间关系进行建模,第一层LSTM得到其第d个隐藏状态hd为:
hd=LSTM(sd,hd+1)
其中,sd表示第d个彩色视频和光流视频模态的手语视频关键帧片段融合特征的潜在空间语义;hd+1表示第d+1个隐藏状态;
第二层LSTM每个时刻的隐藏状态则由最终的输出与上一层的隐藏状态计算而来,也就是解码网络的输出od如下:
od=LSTM(hd,od+1)
由于融合特征序列S在编码网络中为倒序输入,hd+1则为上一片段的输出状态;设hD+1为零向量,双层LSTM在第一个片段的输出作为最终的LSTM单元隐藏状态,将其输入到解码器中的LSTM单元,作为最终的潜在语义片段时空特征向量,记为hs
在解码阶段,仍然构建一个双层LSTM作为将片段时空特征向量与词语特征向量匹配的对齐网络模型;将编码器中输出的特征向量作为输入,对解码器网络的LSTM的最终隐藏单元状态hs进行初始化作为h′0;通过将第u-1个潜在语义特征的隐藏层状态h′u-1以及与先前预测的单词yu-1对应的潜在语义特征向量w′u-1作为输入,解码生成预测单词序列yu,并更新每个LSTM单元的隐藏状态h′u,表示为:
yu,h′u=Decoder(w′u-1,h′u-1)
通过双层LSTM输出隐藏状态向量H′=(h′1,h′2,...,h′U),在解码器中yU为句子开头的标记用SOS表示,解码器根据特征序列不断进行预测,直到预测到句子的另一个结束标记,用EOS表示,逐词生成句子,解码器将条件概率分解为有序的条件概率P(y|k):
Figure FDA0003161363820000051
由于编码与解码网络之间的信息是互通的,则对每个单词都应用交叉熵损失函数计算误差,传播误差到编码网络中,从而更新编码网络中的网络参数;
在解码网络中加入注意力网络,使解码网络在对时空特征向量与词语序列向量进行解码时有重点的学习;
对于解码器中的每个时刻,将加权求和操作应用于编码器中的输出O=(o1,o2,...,oD),从而计算出新的上下文向量gu
Figure FDA0003161363820000052
Figure FDA0003161363820000053
为第d个片段的时空特征相对于解码网络中第u个词语的注意力权重,是根据编码器的每个单元的输出状态od和解码器的隐藏状态h′u的相似度得出的,计算方式如下:
Figure FDA0003161363820000061
其中,score为评分函数,d′表示第d′个片段的时空特征,au代表第u个词语的注意力向量,通过将上下文向量gu和隐藏状态h′u结合求出:
Figure FDA0003161363820000062
其中,Wsc为已学习到的权重,然后将注意力特征向量Att=(a1,a2,...,aU)输入到全连接层中,对有序条件概率进行建模,再将其au输入到解码步中,得到最终的输出序列:
yu,h′u=Decoder(w′u-1,h′u-1,au-1)
为避免参数量过多,采用Dropout和L2正则化联合对注意力模型进行训练,则注意力模型需要训练的损失函数J(θ)即如下式所示:
Figure FDA0003161363820000063
其中,λ是L2正则化的超参数,θ是注意力模型中的偏置向量;解码器最终根据注意力层的输出概率,使用BeamSearch对其解码,选取概率值最高的语句序列作为最终语义,用L=(l1,l2,...,lU)表示。
CN202110792080.9A 2021-07-13 2021-07-13 基于模态匹配的连续手语语句识别方法 Active CN113609922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110792080.9A CN113609922B (zh) 2021-07-13 2021-07-13 基于模态匹配的连续手语语句识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110792080.9A CN113609922B (zh) 2021-07-13 2021-07-13 基于模态匹配的连续手语语句识别方法

Publications (2)

Publication Number Publication Date
CN113609922A true CN113609922A (zh) 2021-11-05
CN113609922B CN113609922B (zh) 2022-05-13

Family

ID=78304587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110792080.9A Active CN113609922B (zh) 2021-07-13 2021-07-13 基于模态匹配的连续手语语句识别方法

Country Status (1)

Country Link
CN (1) CN113609922B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151226A (zh) * 2022-12-19 2023-05-23 四川师范大学 一种基于机器学习的聋哑人手语纠错方法、设备和介质
CN116311005A (zh) * 2023-05-25 2023-06-23 成都睿瞳科技有限责任公司 一种用于运动图像处理装置、方法及存储介质
CN117827886A (zh) * 2024-03-06 2024-04-05 北京长河数智科技有限责任公司 一种基于大语言模型的自然语句转sql语句的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647603A (zh) * 2018-04-28 2018-10-12 清华大学 基于注意力机制的半监督连续手语翻译方法及装置
US10289903B1 (en) * 2018-02-12 2019-05-14 Avodah Labs, Inc. Visual sign language translation training device and method
CN110008839A (zh) * 2019-03-08 2019-07-12 西安研硕信息技术有限公司 一种自适应手势识别的智能手语交互系统及方法
CN110399850A (zh) * 2019-07-30 2019-11-01 西安工业大学 一种基于深度神经网络的连续手语识别方法
CN111091045A (zh) * 2019-10-25 2020-05-01 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111160308A (zh) * 2019-12-30 2020-05-15 深圳泺息科技有限公司 手势动作识别方法、装置、设备及可读存储介质
US20200380793A1 (en) * 2016-09-13 2020-12-03 Magic Leap, Inc. Systems and methods for sign language recognition
CN112149603A (zh) * 2020-09-30 2020-12-29 中国科学技术大学 一种基于跨模态数据增广的连续手语识别方法
CN112686111A (zh) * 2020-12-23 2021-04-20 中国矿业大学(北京) 基于注意力机制多视角自适应网络的交警手势识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200380793A1 (en) * 2016-09-13 2020-12-03 Magic Leap, Inc. Systems and methods for sign language recognition
US10289903B1 (en) * 2018-02-12 2019-05-14 Avodah Labs, Inc. Visual sign language translation training device and method
CN108647603A (zh) * 2018-04-28 2018-10-12 清华大学 基于注意力机制的半监督连续手语翻译方法及装置
CN110008839A (zh) * 2019-03-08 2019-07-12 西安研硕信息技术有限公司 一种自适应手势识别的智能手语交互系统及方法
CN110399850A (zh) * 2019-07-30 2019-11-01 西安工业大学 一种基于深度神经网络的连续手语识别方法
CN111091045A (zh) * 2019-10-25 2020-05-01 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111160308A (zh) * 2019-12-30 2020-05-15 深圳泺息科技有限公司 手势动作识别方法、装置、设备及可读存储介质
CN112149603A (zh) * 2020-09-30 2020-12-29 中国科学技术大学 一种基于跨模态数据增广的连续手语识别方法
CN112686111A (zh) * 2020-12-23 2021-04-20 中国矿业大学(北京) 基于注意力机制多视角自适应网络的交警手势识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHENSI MAO等: "Chinese Sign Language Recognition with Sequence to Sequence Learning", 《CCCV2017:COMPUTER VISION》 *
JIHAI ZHANG等: "Chinese sign language recognition with adaptive HMM", 《2016 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 *
毛晨思: "基于卷积网络和长短时记忆网络的中国手语词识别方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
王军等: "融合注意力机制和连接时序分类的多模态手语识别", 《信号处理》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151226A (zh) * 2022-12-19 2023-05-23 四川师范大学 一种基于机器学习的聋哑人手语纠错方法、设备和介质
CN116151226B (zh) * 2022-12-19 2024-02-23 四川师范大学 一种基于机器学习的聋哑人手语纠错方法、设备和介质
CN116311005A (zh) * 2023-05-25 2023-06-23 成都睿瞳科技有限责任公司 一种用于运动图像处理装置、方法及存储介质
CN117827886A (zh) * 2024-03-06 2024-04-05 北京长河数智科技有限责任公司 一种基于大语言模型的自然语句转sql语句的方法
CN117827886B (zh) * 2024-03-06 2024-04-30 北京长河数智科技有限责任公司 一种基于大语言模型的自然语句转sql语句的方法

Also Published As

Publication number Publication date
CN113609922B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN111783462B (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
Zhang et al. Learning affective features with a hybrid deep model for audio–visual emotion recognition
CN113609922B (zh) 基于模态匹配的连续手语语句识别方法
CN111339837B (zh) 一种连续手语识别方法
CN112241468A (zh) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
Tang et al. Graph-based multimodal sequential embedding for sign language translation
CN112633364A (zh) 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法
CN111985520B (zh) 一种基于图卷积神经网络的多模态分类方法
CN113836992B (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
Elakkiya et al. Subunit sign modeling framework for continuous sign language recognition
CN113423004B (zh) 基于解耦译码的视频字幕生成方法和系统
Borg et al. Phonologically-meaningful subunits for deep learning-based sign language recognition
CN114386417A (zh) 一种融入词边界信息的中文嵌套命名实体识别方法
Song et al. Parallel temporal encoder for sign language translation
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN115512195A (zh) 一种基于多交互信息融合的图像描述方法
Dafnis Bidirectional Skeleton-Based Isolated Sign Recognition using Graph Convolution Networks.
Zhu et al. Multiscale temporal network for continuous sign language recognition
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
Boukdir et al. Character-level arabic text generation from sign language video using encoder–decoder model
CN113609923B (zh) 基于注意力的连续手语语句识别方法
WO2023168818A1 (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质
CN115080699A (zh) 基于模态特异自适应缩放与注意力网络的跨模态检索方法
Zhang et al. Recognition of emotions in user-generated videos through frame-level adaptation and emotion intensity learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant