CN108171198A - 基于非对称多层lstm的连续手语视频自动翻译方法 - Google Patents

基于非对称多层lstm的连续手语视频自动翻译方法 Download PDF

Info

Publication number
CN108171198A
CN108171198A CN201810027551.5A CN201810027551A CN108171198A CN 108171198 A CN108171198 A CN 108171198A CN 201810027551 A CN201810027551 A CN 201810027551A CN 108171198 A CN108171198 A CN 108171198A
Authority
CN
China
Prior art keywords
sign language
feature
word
video
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810027551.5A
Other languages
English (en)
Other versions
CN108171198B (zh
Inventor
郭丹
汪萌
周文罡
李厚强
李传青
李安阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201810027551.5A priority Critical patent/CN108171198B/zh
Publication of CN108171198A publication Critical patent/CN108171198A/zh
Application granted granted Critical
Publication of CN108171198B publication Critical patent/CN108171198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明公开了一种基于非对称多层LSTM的连续手语视频自动翻译方法,包括:建立三层LSTM网络结构,网络结构分为编码和解码两个阶段;提取手语视频特征并构建单词表;对视频特征进行关键帧挖掘,并分为关键块与非关键块;将视频特征输入第一层LSTM,对非关键块输出进行pooling池化操作,并与关键块输出组成视素特征;将视素特征输入第二层LSTM得到视素特征编码,并输入第三层LSTM得到视觉表达;在解码阶段,利用解码部分对视觉表达进行解码,得到单词序列,组成句子。本发明能够有效克服手语者的形体、手语习惯不同的复杂情况的影响,以实现对于手语句子的翻译,并提高手语翻译的精确性,增强手语翻译的鲁棒性。

Description

基于非对称多层LSTM的连续手语视频自动翻译方法
技术领域
本发明属于计算机视觉技术领域,涉及到模式识别、自然语言处理、人工智能等技术,具体地说是一种基于非对称多层LSTM的连续手语视频自动翻译方法。
背景技术
当聋哑人在和未学习过手语的正常人进行交流时,会存在沟通障碍,而手语翻译系统可以将聋哑人的手语转变为文字,方便正常人理解,从而实现双方的无障碍交流,因此手语翻译系统具有广泛的应用场景,且需求十分迫切,是计算机视觉和模式识别的重要研究课题。但目前手语翻译仍然是计算机视觉领域的一个难题,原因是手语者的身材、手语速度、手语习惯等千差万别,识别的情况复杂,因此识别正确率有待提高。而且对于连续的手语句子来说,需要学习词与词之间的语义关系,才能在识别之后生成正确的文字序列,这也提高了手语翻译的难度。
在手语翻译过程中,特征提取是一个基本步骤,同时也是一个重要步骤,选择一个合适的特征提取方法能够有效改善手语识别效果,提高手语识别精度。目前比较流行的特征包括point cloud、视觉深度词袋、Haar-like特征、HOG特征等传统特征,以及使用卷积神经网络模型如VGGNet提取深度网络特征或。其缺点是在提取视频特征时,对于视频帧序列,无法同时保留帧与帧之间的时序信息和每一帧的空间特征信息,进而影响后续的识别效果。
另外在手语翻译模型方面,常用的有支持向量机(SVM)、动态时间规整算法(DTW)以及隐马尔可夫模型(HMM)等传统模型,其缺点是更适用于识别和翻译单个手语单词,而对于一个包含多个手语单词的连续手语句子,并不能学习单词之间的语义关系,因而无法有效地对连续的手语句子进行翻译。传统的编码解码结构的翻译系统通常用来解决文字到文字的翻译,而无法有效地处理从视频到文字的跨模态问题。
发明内容
本发明是为了克服现有技术存在的不足之处,提供一种基于非对称多层LSTM的连续手语视频自动翻译方法,以期能够有效克服手语者的外观形体以及手语习惯各异的复杂情况的影响,并且学得句子中手语单词之间语义关系,从而实现对于手语句子的翻译,并提高手语翻译的精确性,增强手语翻译的鲁棒性。
本发明为解决技术问题采用如下技术方案:
本发明一种基于非对称多层LSTM的连续手语视频自动翻译方法的特点是按如下步骤进行:
步骤1、搭建非对称三层LSTM网络结构:
令所述非对称三层LSTM网络结构共包含三层的LSTM模块,第一层LSTM1模块为循环递归特征抽取层LSTM1,第二层LSTM2模块为视觉特征学习编码层LSTM2,第三层LSTM3模块为语义学习解码层LSTM3
将所述非对称三层LSTM网络结构分为两个部分:视频编码阶段和语义解码阶段;所述视频编码阶段包含:第一层LSTM1模块、第二层LSTM2模块和第三层LSTM3模块;所述语义解码阶段包含:第二层LSTM2模块和第三层LSTM3模块;
步骤2、数据准备:
获取手语视频数据库,所述手语视频数据库中包含若干个手语视频及其所对应的翻译句子标签;将所述手语视频数据库分为训练数据集Data_train和测试数据集Data_test;
创建单词表Voc,并为所述单词表Voc中各个单词建立索引,得到单词索引,同时为单词表Voc建立嵌入式词矩阵Wemb,所述嵌入式词矩阵Wemb中第l行向量即为单词表Voc中第l个单词的向量表达,l表示词向量索引;1≤l≤|Voc|,其中,|Voc|为单词量大小;
步骤3、所述视频编码阶段:
步骤3.1、对所述手语视频数据库中的任意一段手语视频S进行特征提取,得到所述手语视频S的特征集合,记为其中,表示所述手语视频S中第k个特征向量,k=1,2,…,KS,KS为视频S的总帧数,dimf为特征向量的维度;
步骤3.2、采用RSS残差平方和计算方法获取所述手语视频S的特征集合F的残差序列εk表示第k个特征向量fk的残差平方和;
步骤3.3、将所述手语视频S的特征集合F输入到所述循环递归特征抽取层LSTM1,得到所述手语视频S的循环递归特征集合其中,hk表示第k个循环递归特征,为所述第一层LSTM1模块的隐状态个数;
步骤3.4、根据所述残差序列ε的曲线划分得到P个递增曲线段,获取任意一个递增曲线段中包括局部最低点和局部最高点之间的所有残差平方和所对应的下标,并与所述循环递归特征集合H中循环递归特征的下标相对应,从而将所述循环递归特征集合H中相应下标的循环递归特征划分为P个关键块{A1,A2,…,Ap,…,AP};Ap表示第p个关键块,并有:表示第p个关键块Ap中第n个循环递归特征;1≤n≤|Ap|,|Ap|为所述第p个关键块Ap中循环递归特征总个数;1≤p≤P;
则所述循环递归特征集合H中其余下标对应的循环递归特征作为Q个非关键块{R1,R2,…,Rq,…,RQ};Rq表示第q个非关键块,并有:表示第q个关键块Rq中第m个循环递归特征;1≤m≤|Rq|,|Rq|为所述第q个关键块Rq中循环递归特征总个数;1≤q≤Q;Q=P或者Q=P-1;
步骤3.5、计算得到视素特征集合代表第x个视素特征,1≤x≤X,并有
步骤3.5.1、初始化p=1;并将所述关键块Ap中所有循环递归特征作为视素特征输出;
步骤3.5.2、令p+1赋值给p后,判断p>P是否成立,若成立,执行步骤3.6;否则初始化n=1;
步骤3.5.3、判断n=1是否成立;
若成立,则将所述关键块Ap中第n个循环递归特征与其前一个非关键块中的循环递归特征合并为待pooling池化的特征块其中,q=p-1;选择一个策略对所述待pooling池化的特征块执行池化操作,并将池化结果作为所述第n个循环递归特征的视素特征输出;
否则,直接将所述第n个循环递归特征作为视其素特征输出;
步骤3.5.4、令n+1赋值给n后,判断n>|Ap|是否成立,若成立,执行步骤3.5.2;否则,返回步骤3.5.3;
步骤3.6、获得所述视素特征集合并利用式(1)得到注意力权重调优后的视素特征集合
式(1)中,watt,x为第x个注意力权重向量;
步骤3.7、设置参数U为所述视觉特征学习编码层LSTM2的编码长度;将所述注意力权重调优后的视素特征集合映射到集合元素个数为U的校正视素特征集合其中表示第u个校正视素特征,1≤u≤U:
若X>U,采用等距取样将中的元素抽取到中;
若X=U,则令
否则,则对添加U-X个向量构成
步骤3.8、将所述校正视素特征集合输入所述视觉特征学习编码层LSTM2,得到视素特征编码集合H″={h″1,h″2,…,h″u,…,h″U},其中h″u表示第u个视素特征编码,为所述第二层LSTM2模块的隐状态个数;
步骤3.9、将所述视素特征编码H″={h″1,h″2,…,h″u,…,h″U}输入所述语义学习解码层LSTM3,得到所述手语视频S的视觉表达V={v1,v2,…,vu,…,vU},vu表示第u个视觉表达; 为所述第三层LSTM3模块的隐状态个数;
步骤4、所述语义视频解码阶段:
步骤4.1、定义解码阶段中第t个视素特征编码为h″U+t;记解码阶段中第t个词向量为wt
步骤4.2、初始化t=1,令解码阶段中第t-1个视素特征编码h″U+t-1=h″U和第t-1个词向量wt-1=vU
步骤4.3、将零向量作为视素特征,与解码阶段中第t-1个视素特征编码为h″U+t-1一起输入到所述视觉特征学习编码层LSTM2;得到解码阶段中第t个视素特征编码h″U+t
步骤4.4、利用所述语义学习解码层LSTM3得到解码阶段中第t个语义表达yt,第t个词向量wt,当前第t个单词wordt及第t个条件概率向量probt
步骤4.4.1、将解码阶段中第t-1个词向量wt-1,与解码阶段中第t个视素特征编码h″U+t一起输入所述语义学习解码层LSTM3,得到解码阶段中第t个语义表达yt
步骤4.4.2、在所述视频解码阶段的语义学习解码层LSTM3下建立Softmax层,输入所述第t个语义表达yt得到所述第t个条件概率向量probt,所述第t个条件概率向量probt中包含单词表Voc中各个单词的概率;
步骤4.4.3、从所述第t个条件概率向量probt中选取条件概率最大值所对应的索引作为解码阶段中生成的第t个单词索引idt
步骤4.4.4、根据第t个单词索引idt查找单词表Voc中所对应识别的单词,作为所述第t个识别单词wordt;判断wordt是否为结束符,若是,执行步骤4.6;否则,继续执行步骤4.4.5;
步骤4.4.5、判断所述手语视频S∈Data_train是否成立,
如果成立,则将t赋值给识别序号ind,并从所述手语视频S所对应的翻译句子标签中取出第ind个单词,在单词表Voc中检索第ind个单词的索引序号作为第t个词向量索引IDt
否则,将第t个单词索引idt赋值给第t个词向量索引IDt
步骤4.4.6、从所述嵌入式词矩阵Wemb中取出第IDt行向量作为第t个词向量wt
步骤4.5、将t+1赋给t,并执行步骤4.3;
步骤4.6、从而得到所述手语视频S的识别单词集合
及条件概率集合t=1,2,…,TS,TS表示所述手语视频S中单词总数;
步骤5、所述非对称三层LSTM网络结构的模型参数优化:
步骤5.1、将所述训练数据集Data_train中所有手语视频均按照步骤3至步骤4进行处理,从而得到所述手语视频训练集Data_train中所有手语视频的识别单词集合以及条件概率集合;
记所述手语视频训练集Data_train中任意一个手语视频E的识别单词集合为以及条件概率集合为
1≤g≤GE,GE为所述手语视频E中单词总数;
步骤5.2、利用式(2)得到所述手语视频训练集Data_train的翻译句子信息叉熵之和EntropyData_train
步骤5.3、利用随机梯度下降法对所述翻译句子信息叉熵EntropyData_train进行优化求解,使得EntropyData_train最小化,从而得到所述非对称三层LSTM网络结构的最优模型参数;
步骤6、获得所述测试视频的翻译句子:
从所述测试数据集Data_test中获取任意一个手语视频作为测试视频,并利用所述非对称三层LSTM网络结构的最优模型参数获得所述测试视频的识别单词集合,从而实现手语视频自动翻译。
本发明所述的连续手语视频自动翻译方法的特点也在于,所述pooling池化操作所选择的策略包括:
Key pooling策略:直接将第n个循环递归特征作为当前pooling的输出;
Mean pooling策略:利用式(3)所示的平均值量化法对所述待pooling池化的特征块在各维度上取均值,并作为当前pooling操作输出:
式(3)中,mean(·)为平均值量化函数;分别为在第j维上的特征值;
Max pooling策略:利用式(4)所示的最大值量化法对所述待pooling池化的特征块在各维度上取最大值,并作为当前pooling操作输出:
式(4)中,max(·)为最大值量化函数;
Linearpooling策略:利用式(5)对所述非关键帧特征集合Rq中的最后一个循环递归特征和第p个关键块Ap中第n个循环递归特征在各维度上取均值,并作为当前pooling操作输出:
与已有技术相比,本发明的有益效果体现在:
1、本发明提出了一种基于分层LSTM的手语翻译模型,模型结构为非对称的编码解码结构,编码部分由三层LSTM组成,而解码部分由两层LSTM组成,该结构实现了紧凑且高效的视觉表示和语义编码,可以充分适用于视频这一类时序特征的学习以及对包含多个手语单词的句子的翻译。
2、本发明提出了基于残差平方和(RSS)的关键特征块挖掘方法,根据RSS曲线的单调递增和单调递减部分将特征序列分为关键块和非关键块,关键块对应手语视频中辨识度较大的动作,是在手语识别过程中真正起到作用的代表性动作。关键特征块挖掘方法不同于固定帧数的特征采样方法,可以有所侧重地获取关键块特征的连续变化和区分干扰学习的非关键块特征。
4、本发明提出了四种pooling池化策略,即Key pooling、Mean pooling、Maxpooling和Linear pooling,通过四种pooling池化策略对非关键特征片段进行处理,避免了模型对于非关键特征的过度学习,防止学习过程受到无用信息的干扰。
5、本发明提出了一种基于时间注意力权重调优机制,权值初始化为任意值,通过模型自主学习优化,用于平衡编码部分特征片段的之间的权重,优化对于视频特征的学习过程。
附图说明
图1为本发明的结构示意图;
图2为本发明的流程图;
图3a为本发明pooling池化操作示意图;
图3b为第一个关键块示意图;
图3c为非第一个关键块示意图。
具体实施方式
本实施例中,如图1和图2所示,一种基于非对称多层LSTM的连续手语视频自动翻译方法能充分提取手语视频中的空间特征与时序特征,对识别度高的关键动作的特征进行有效地学习,并有效避免模型学习过程中受到手语者体形、手语速度、手语习惯等影响因素的干扰。首先对原始手语视频进行预处理,提取手语视频特征;再利用基于RSS残差平方和的关键特征挖掘技术,将视频特征分为关键特征和非关键特征。利用由三层LSTM模块组成的非对称编码解码结构的网络模型,在编码部分,对于第一层LSTM输出,进行pooling池化操作,再乘以注意力权重组成视素特征;将视素特征输入到编码部分,得到视频语义表示,再利用解码部分计算文字的条件概率,得到完整的文字序列,组成句子;具体地说,包括如下步骤:
步骤1、搭建非对称三层LSTM网络结构:
如图1所示,令非对称三层LSTM网络结构共包含三层的LSTM模块,第一层LSTM1模块为循环递归特征抽取层LSTM1,第二层LSTM2模块为视觉特征学习编码层LSTM2,第三层LSTM3模块为语义学习解码层LSTM3
将非对称三层LSTM网络结构分为两个部分:视频编码阶段和语义解码阶段;视频编码阶段包含:第一层LSTM1模块、第二层LSTM2模块和第三层LSTM3模块;语义解码阶段包含:第二层LSTM2模块和第三层LSTM3模块;
步骤2、数据准备:
获取手语视频数据库,手语视频数据库中包含若干个手语视频及其所对应的翻译句子标签;将手语视频数据库分为训练数据集Data_train和测试数据集Data_test;
创建单词表Voc,并为单词表Voc中各个单词建立索引,得到单词索引,同时为单词表Voc建立嵌入式词矩阵Wemb,嵌入式词矩阵Wemb中第l行向量即为单词表Voc中第l个单词的向量表达,l表示词向量索引;1≤l≤|Voc|,其中,|Voc|为单词量大小;
创建单词表Voc的方法:单词表可以包含单词、标点符号和结束符,通常可以选择使用句号“.”或“。”作为结束符;单词表可以由翻译句子标签中所有出现的单词组成,或直接使用包含翻译句子标签中出现的单词的现有单词语料库,例如互联网上公布的。
矩阵Wemb的初始化及其训练学习:在非对称三层LSTM网络结构训练学习之前,Wemb可以被任意初始化;如果在非对称三层LSTM网络结构训练学习过程中,Wemb参与训练学习并更新其状态值,训练学习完成后,将随网络结构参数一起保留在模型中;否则,加载已训练学习完成的Wemb且不再变更其值,而直接进行使用;
步骤3、视频编码阶段:
步骤3.1、对手语视频数据库中的任意一段手语视频S进行特征提取,得到手语视频S的特征集合,记为其中,表示手语视频S中第k个特征向量,k=1,2,…,KS,KS为视频S的总帧数,dimf为特征向量的维度;
手语视频特征,例如可以采用、HOG特征、骨架节点特征、二维卷积特征、三维卷积特征等;本实施例中,可以采用三维卷积神经网络模型C3D三维卷积神经网络对视频特征进行特征提取;相比二维卷积网络,C3D模型增加了时间维度的卷积,因此该模型不仅能够提取视频中每一帧的特征,还可以有效地提取视频中帧与帧之间的时序信息,在较长的视频帧序列中保留他们的关联关系;
步骤3.2、利用RSS残差平方和计算方法获取手语视频S的特征集合F的残差序列εk表示第k个特征向量fk的残差平方和;
步骤3.2.1、初始化k=1;
步骤3.2.2、令k+1赋值给k后,判断k>KS是否成立,若成立,执行步骤3.3;否则执行步骤3.2.3;
步骤3.2.3、根据式(1)计算第k个相关系数βk
其中,令Fk-1=[f1,f2,…,fk-1];
步骤3.2.4、根据式(2)计算第k个残差平方和εk
εk=||fk-Fk-1βk|| (2)
步骤3.2.4、根据式(3)计算第k个相关矩阵Mk,并返回执行步骤3.2.3:
步骤3.3、将手语视频S的特征集合F输入到循环递归特征抽取层LSTM1,利用式(4)得到手语视频S的循环递归特征集合其中,hk表示第k个循环递归特征,为第一层LSTM1模块的隐状态个数;
式(4)中,σ为sigmoid函数,tanh(·)为正切函数,⊙为按元素相乘,ck表示LSTM1模块的第k个记忆单元状态,当k=1时,hk-1为维度为的零向量,ck-1为维度为的零向量;Wτ、Wδ、Wι、Wζ、bδ、bι、bτ、bζ为第一层LSTM1模块自带的参数;
步骤3.4、根据残差序列ε的曲线划分得到P个递增曲线段,获取任意一个递增曲线段中包括局部最低点和局部最高点之间的所有残差平方和所对应的下标,并与循环递归特征集合H中循环递归特征的下标相对应,从而将循环递归特征集合H中相应下标的循环递归特征划分为P个关键块{A1,A2,…,Ap,…,AP};Ap表示第p个关键块,并有:
表示第p个关键块Ap中第n个循环递归特征;1≤n≤|Ap|,|Ap|为第p个关键块Ap中循环递归特征总个数;1≤p≤P;
则循环递归特征集合H中其余下标对应的循环递归特征作为Q个非关键块{R1,R2,…,Rq,…,RQ};Rq表示第q个非关键块,并有:表示第q个关键块Rq中第m个循环递归特征;1≤m≤|Rq|,|Rq|为第q个关键块Rq中循环递归特征总个数;1≤q≤Q;Q=P或者Q=P-1;
如图3a所示一个残差序列ε的实例,实线代表关键块,虚线代表非关键块;
步骤3.5、计算得到视素特征集合代表第x个视素特征,1≤x≤X,并有
步骤3.5.1、初始化p=1;如图3b所示,并将关键块Ap中所有循环递归特征作为视素特征输出;
步骤3.5.2、令p+1赋值给p后,判断p>P是否成立,若成立,执行步骤3.6;否则初始化n=1;
步骤3.5.3、判断n=1是否成立;如图3c所示,
若成立,则将关键块Ap中第n个循环递归特征与其前一个非关键块中的循环递归特征合并为待pooling池化的特征块其中,q=p-1;选择一个策略对待pooling池化的特征块执行池化操作,并将池化结果作为第n个循环递归特征的视素特征输出;
执行pooling池化操作,可以选择的策略包括:
Key pooling策略:直接将第n个循环递归特征作为当前pooling的输出;此种策略直接忽略非关键块Rq的循环递归特征,只保留其传递到当前循环递归特征的作用;该策略是一种基本pooling策略,性能上较为稳定,适合于各种手语视频翻译的应用场景;
Mean pooling策略:利用式(5)所示的平均值量化法对待pooling池化的特征块在各维度上取均值,并作为当前pooling操作输出:
式(5)中,mean(·)为平均值量化函数;分别为在第j维上的特征值;此种策略保留了非关键块Rq在循环递归传递过程中的平均性能,较为适合对已见过句子的手语视频翻译的应用场景:
Max pooling策略:利用式(6)所示的最大值量化法对待pooling池化的特征块在各维度上取最大值,并作为当前pooling操作输出;此种策略保留非关键块Rq在循环递归传递过程中的各维度上的最大响应,较为适合对未见过句子的手语视频翻译的应用场景:
式(6)中,max(·)为最大值量化函数;
Linearpooling策略:利用式(7)对非关键帧特征集合Rq中的最后一个循环递归特征和第p个关键块Ap中第n个循环递归特征在各维度上取均值,并作为当前pooling操作输出;此种策略采用近似线性插帧的思想,对非关键块Rq和关键块Ap的衔接处取均值,适合将视频中个骨架点的坐标值作为特征输入的手语视频翻译的应用场景:
否则,直接将第n个循环递归特征作为视其素特征输出;
步骤3.5.4、令n+1赋值给n后,判断n>|Ap|是否成立,若成立,执行步骤3.5.2;否则,返回步骤3.5.3;
步骤3.6、获得视素特征集合并利用式(1)得到注意力权重调优后的视素特征集合
式(8)中,watt,x为第x个注意力权重向量;
步骤3.7、设置参数U为视觉特征学习编码层LSTM2的编码长度;将注意力权重调优后的视素特征集合映射到集合元素个数为U的校正视素特征集合其中表示第u个校正视素特征,1≤u≤U:
若X>U,采用等距取样将中的元素抽取到中;
若X=U,则令
否则,则对添加U-X个向量构成
步骤3.8、将校正视素特征集合输入视觉特征学习编码层LSTM2,利用公式(9),得到视素特征编码集合H″={h″1,h″2,…,h″u,…,h″U},其中h″u表示第u个视素特征编码, 为第二层LSTM2模块的隐状态个数;
式(9)中,c″u表示LSTM2模块的第u个记忆单元状态,当u=1时,h″u-1为维度为的零向量,c″u-1为维度为的零向量;Wτ″、Wδ″、Wι″、Wζ″、bδ″、bι″、bτ″、bζ″为特征学习编码层LSTM2自带模块参数;
步骤3.9、将视素特征编码H″={h″1,h″2,…,h″u,…,h″U}输入语义学习解码层LSTM3,利用公式(10),得到手语视频S的视觉表达V={v1,v2,…,vu,…,vU},vu表示第u个视觉表达; 为第三层LSTM3模块的隐状态个数;
式(10)中,c″′u表示LSTM3模块的第u个记忆单元状态,当u=1时,vu-1为维度为的零向量,c″′u-1为维度为的零向量;Wδ″′、Wι″′、Wτ″′、Wζ″′、bδ″′、bι″′、bτ″′、bζ″′为语义学习解码层LSTM3自带模块参数;
步骤4、语义视频解码阶段:
步骤4.1、定义解码阶段中第t个视素特征编码为h″U+t;记解码阶段中第t个词向量为wt
步骤4.2、初始化t=1,令解码阶段中第t-1个视素特征编码h″U+t-1=h″U和第t-1个词向量wt-1=vU;即继续传递视频编码阶段的特征编码h″U和视觉表达vU到语义解码阶段;
步骤4.3、将零向量作为视素特征,与解码阶段中第t-1个视素特征编码为h″U+t-1一起输入到视觉特征学习编码层LSTM2;利用公式(11),得到解码阶段中第t个视素特征编码h″U+t
步骤4.4、利用语义学习解码层LSTM3得到解码阶段中第t个语义表达yt,第t个词向量wt,当前第t个单词wordt及第t个条件概率向量probt
步骤4.4.1、将解码阶段中第t-1个词向量wt-1,与解码阶段中第t个视素特征编码h″U+t一起输入语义学习解码层LSTM3,利用公式(12),得到解码阶段中第t个语义表达yt
步骤4.4.2、在视频解码阶段的语义学习解码层LSTM3下建立Softmax层,输入第t个语义表达yt得到第t个条件概率向量probt,第t个条件概率向量probt中包含单词表Voc中各个单词的概率;
步骤4.4.3、从第t个条件概率向量probt中选取条件概率最大值所对应的索引作为解码阶段中生成的第t个单词索引idt
步骤4.4.4、根据第t个单词索引idt查找单词表Voc中所对应识别的单词,作为第t个识别单词wordt;判断wordt是否为结束符,若是,执行步骤4.6;否则,继续执行步骤4.4.5;
步骤4.4.5、判断手语视频S∈Data_train是否成立,
如果成立,则将t赋值给识别序号ind,并从手语视频S所对应的翻译句子标签中取出第ind个单词,在单词表Voc中检索第ind个单词的索引序号作为第t个词向量索引IDt
否则,将第t个单词索引idt赋值给第t个词向量索引IDt
步骤4.4.6、从嵌入式词矩阵Wemb中取出第IDt行向量作为第t个词向量wt
步骤4.5、将t+1赋给t,并执行步骤4.3;
步骤4.5、将t+1的值赋给t,并执行步骤4.3;
步骤4.6、从而得到手语视频S的识别单词集合及条件概率集合t=1,2,…,TS,TS表示手语视频S中单词总数;
步骤5、非对称三层LSTM网络结构的模型参数优化:
步骤5.1、将训练数据集Data_train中所有手语视频均按照步骤3至步骤4进行处理,从而得到手语视频训练集Data_train中所有手语视频的识别单词集合以及条件概率集合;
记手语视频训练集Data_train中任意一个手语视频E的识别单词集合为以及条件概率集合为
1≤g≤GE,GE为手语视频E中单词总数;
步骤5.2、利用式(13)得到手语视频训练集Data_train的翻译句子信息叉熵之和EntropyData_train
步骤5.3、利用随机梯度下降法对翻译句子信息叉熵EntropyData_train进行优化求解,使得EntropyData_train最小化,从而得到非对称三层LSTM网络结构的最优模型参数;
步骤6、获得测试视频的翻译句子:
从测试数据集Data_test中获取任意一个手语视频作为测试视频,并利用非对称三层LSTM网络结构的最优模型参数获得测试视频的识别单词集合,从而实现手语视频自动翻译。
综上所述,本发明的意义在于:1本发明提出的非对称连续手语翻译模型结构可以实现对于连续手语序列的翻译,编码过程对视频特征进行学习,得到视觉表达,并在解码过程利用语义生成单词序列,从而实现连续手语序列翻译;2编码过程中第一层LSTM融入了循环递归学习的时序性优势;3提出的可边长关键特征块挖掘方法和pooling池化策略有效地提高了模型对于手语变化模式的学习效率,提高了特征学习的针对性,避免了对于无用特征的过度学习,有效提高了手语翻译的正确率;4提出的基于注意力的加权机制平衡了特征学习过程中的语义关系。

Claims (2)

1.一种基于非对称多层LSTM的连续手语视频自动翻译方法,其特征是按如下步骤进行:
步骤1、搭建非对称三层LSTM网络结构:
令所述非对称三层LSTM网络结构共包含三层的LSTM模块,第一层LSTM1模块为循环递归特征抽取层LSTM1,第二层LSTM2模块为视觉特征学习编码层LSTM2,第三层LSTM3模块为语义学习解码层LSTM3
将所述非对称三层LSTM网络结构分为两个部分:视频编码阶段和语义解码阶段;所述视频编码阶段包含:第一层LSTM1模块、第二层LSTM2模块和第三层LSTM3模块;所述语义解码阶段包含:第二层LSTM2模块和第三层LSTM3模块;
步骤2、数据准备:
获取手语视频数据库,所述手语视频数据库中包含若干个手语视频及其所对应的翻译句子标签;将所述手语视频数据库分为训练数据集Data_train和测试数据集Data_test;
创建单词表Voc,并为所述单词表Voc中各个单词建立索引,得到单词索引,同时为单词表Voc建立嵌入式词矩阵Wemb,所述嵌入式词矩阵Wemb中第l行向量即为单词表Voc中第l个单词的向量表达,l表示词向量索引;1≤l≤|Voc|,其中,|Voc|为单词量大小;
步骤3、所述视频编码阶段:
步骤3.1、对所述手语视频数据库中的任意一段手语视频S进行特征提取,得到所述手语视频S的特征集合,记为其中,表示所述手语视频S中第k个特征向量,k=1,2,…,KS,KS为视频S的总帧数,dimf为特征向量的维度;
步骤3.2、采用RSS残差平方和计算方法获取所述手语视频S的特征集合F的残差序列εk表示第k个特征向量fk的残差平方和;
步骤3.3、将所述手语视频S的特征集合F输入到所述循环递归特征抽取层LSTM1,得到所述手语视频S的循环递归特征集合其中,hk表示第k个循环递归特征,为所述第一层LSTM1模块的隐状态个数;
步骤3.4、根据所述残差序列ε的曲线划分得到P个递增曲线段,获取任意一个递增曲线段中包括局部最低点和局部最高点之间的所有残差平方和所对应的下标,并与所述循环递归特征集合H中循环递归特征的下标相对应,从而将所述循环递归特征集合H中相应下标的循环递归特征划分为P个关键块{A1,A2,…,Ap,…,AP};Ap表示第p个关键块,并有: 表示第p个关键块Ap中第n个循环递归特征;1≤n≤|Ap|,|Ap|为所述第p个关键块Ap中循环递归特征总个数;1≤p≤P;
则所述循环递归特征集合H中其余下标对应的循环递归特征作为Q个非关键块{R1,R2,…,Rq,…,RQ};Rq表示第q个非关键块,并有: 表示第q个关键块Rq中第m个循环递归特征;1≤m≤|Rq|,|Rq|为所述第q个关键块Rq中循环递归特征总个数;1≤q≤Q;Q=P或者Q=P-1;
步骤3.5、计算得到视素特征集合 代表第x个视素特征,1≤x≤X,并有
步骤3.5.1、初始化p=1;并将所述关键块Ap中所有循环递归特征作为视素特征输出;
步骤3.5.2、令p+1赋值给p后,判断p>P是否成立,若成立,执行步骤3.6;否则初始化n=1;
步骤3.5.3、判断n=1是否成立;
若成立,则将所述关键块Ap中第n个循环递归特征与其前一个非关键块中的循环递归特征合并为待pooling池化的特征块其中,q=p-1;选择一个策略对所述待pooling池化的特征块执行池化操作,并将池化结果作为所述第n个循环递归特征的视素特征输出;
否则,直接将所述第n个循环递归特征作为视其素特征输出;
步骤3.5.4、令n+1赋值给n后,判断n>|Ap|是否成立,若成立,执行步骤3.5.2;否则,返回步骤3.5.3;
步骤3.6、获得所述视素特征集合并利用式(1)得到注意力权重调优后的视素特征集合
式(1)中,watt,x为第x个注意力权重向量;
步骤3.7、设置参数U为所述视觉特征学习编码层LSTM2的编码长度;将所述注意力权重调优后的视素特征集合映射到集合元素个数为U的校正视素特征集合其中表示第u个校正视素特征,1≤u≤U:
若X>U,采用等距取样将中的元素抽取到中;
若X=U,则令
否则,则对添加U-X个向量构成
步骤3.8、将所述校正视素特征集合输入所述视觉特征学习编码层LSTM2,得到视素特征编码集合H″={h″1,h″2,…,h″u,…,h″U},其中h″u表示第u个视素特征编码, 为所述第二层LSTM2模块的隐状态个数;
步骤3.9、将所述视素特征编码H″={h″1,h″2,…,h″u,…,h″U}输入所述语义学习解码层LSTM3,得到所述手语视频S的视觉表达V={v1,v2,…,vu,…,vU},vu表示第u个视觉表达; 为所述第三层LSTM3模块的隐状态个数;
步骤4、所述语义视频解码阶段:
步骤4.1、定义解码阶段中第t个视素特征编码为h″U+t;记解码阶段中第t个词向量为wt
步骤4.2、初始化t=1,令解码阶段中第t-1个视素特征编码h″U+t-1=h″U和第t-1个词向量wt-1=vU
步骤4.3、将零向量作为视素特征,与解码阶段中第t-1个视素特征编码为h″U+t-1一起输入到所述视觉特征学习编码层LSTM2;得到解码阶段中第t个视素特征编码h″U+t
步骤4.4、利用所述语义学习解码层LSTM3得到解码阶段中第t个语义表达yt,第t个词向量wt,当前第t个单词wordt及第t个条件概率向量probt
步骤4.4.1、将解码阶段中第t-1个词向量wt-1,与解码阶段中第t个视素特征编码h″U+t一起输入所述语义学习解码层LSTM3,得到解码阶段中第t个语义表达yt
步骤4.4.2、在所述视频解码阶段的语义学习解码层LSTM3下建立Softmax层,输入所述第t个语义表达yt得到所述第t个条件概率向量probt,所述第t个条件概率向量probt中包含单词表Voc中各个单词的概率;
步骤4.4.3、从所述第t个条件概率向量probt中选取条件概率最大值所对应的索引作为解码阶段中生成的第t个单词索引idt
步骤4.4.4、根据第t个单词索引idt查找单词表Voc中所对应识别的单词,作为所述第t个识别单词wordt;判断wordt是否为结束符,若是,执行步骤4.6;否则,继续执行步骤4.4.5;
步骤4.4.5、判断所述手语视频S∈Data_train是否成立,
如果成立,则将t赋值给识别序号ind,并从所述手语视频S所对应的翻译句子标签中取出第ind个单词,在单词表Voc中检索第ind个单词的索引序号作为第t个词向量索引IDt
否则,将第t个单词索引idt赋值给第t个词向量索引IDt
步骤4.4.6、从所述嵌入式词矩阵Wemb中取出第IDt行向量作为第t个词向量wt
步骤4.5、将t+1赋给t,并执行步骤4.3;
步骤4.6、从而得到所述手语视频S的识别单词集合
及条件概率集合t=1,2,…,TS,TS表示所述手语视频S中单词总数;
步骤5、所述非对称三层LSTM网络结构的模型参数优化:
步骤5.1、将所述训练数据集Data_train中所有手语视频均按照步骤3至步骤4进行处理,从而得到所述手语视频训练集Data_train中所有手语视频的识别单词集合以及条件概率集合;
记所述手语视频训练集Data_train中任意一个手语视频E的识别单词集合为以及条件概率集合为
1≤g≤GE,GE为所述手语视频E中单词总数;
步骤5.2、利用式(2)得到所述手语视频训练集Data_train的翻译句子信息叉熵之和EntropyData_train
步骤5.3、利用随机梯度下降法对所述翻译句子信息叉熵EntropyData_train进行优化求解,使得EntropyData_train最小化,从而得到所述非对称三层LSTM网络结构的最优模型参数;
步骤6、获得所述测试视频的翻译句子:
从所述测试数据集Data_test中获取任意一个手语视频作为测试视频,并利用所述非对称三层LSTM网络结构的最优模型参数获得所述测试视频的识别单词集合,从而实现手语视频自动翻译。
2.根据权利要求1所述的连续手语视频自动翻译方法,其特征是所述pooling池化操作所选择的策略包括:
Key pooling策略:直接将第n个循环递归特征作为当前pooling的输出;
Mean pooling策略:利用式(3)所示的平均值量化法对所述待pooling池化的特征块在各维度上取均值,并作为当前pooling操作输出:
式(3)中,mean(·)为平均值量化函数;分别为在第j维上的特征值;
Max pooling策略:利用式(4)所示的最大值量化法对所述待pooling池化的特征块在各维度上取最大值,并作为当前pooling操作输出:
式(4)中,max(·)为最大值量化函数;
Linear pooling策略:利用式(5)对所述非关键帧特征集合Rq中的最后一个循环递归特征和第p个关键块Ap中第n个循环递归特征在各维度上取均值,并作为当前pooling操作输出:
CN201810027551.5A 2018-01-11 2018-01-11 基于非对称多层lstm的连续手语视频自动翻译方法 Active CN108171198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810027551.5A CN108171198B (zh) 2018-01-11 2018-01-11 基于非对称多层lstm的连续手语视频自动翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810027551.5A CN108171198B (zh) 2018-01-11 2018-01-11 基于非对称多层lstm的连续手语视频自动翻译方法

Publications (2)

Publication Number Publication Date
CN108171198A true CN108171198A (zh) 2018-06-15
CN108171198B CN108171198B (zh) 2020-02-11

Family

ID=62518205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810027551.5A Active CN108171198B (zh) 2018-01-11 2018-01-11 基于非对称多层lstm的连续手语视频自动翻译方法

Country Status (1)

Country Link
CN (1) CN108171198B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063615A (zh) * 2018-07-20 2018-12-21 中国科学技术大学 一种手语识别方法及系统
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法
CN109902554A (zh) * 2019-01-09 2019-06-18 天津大学 一种基于商用Wi-Fi的手语的识别方法
CN110163181A (zh) * 2019-05-29 2019-08-23 中国科学技术大学 手语识别方法及装置
CN110348420A (zh) * 2019-07-18 2019-10-18 腾讯科技(深圳)有限公司 手语识别方法、装置、计算机可读存储介质和计算机设备
CN110472726A (zh) * 2019-07-25 2019-11-19 南京信息工程大学 基于输出变化微分的灵敏长短期记忆方法
CN110569823A (zh) * 2019-09-18 2019-12-13 西安工业大学 一种基于rnn的手语识别与骨架生成方法
CN110633688A (zh) * 2019-09-23 2019-12-31 中国科学技术大学 翻译模型的训练方法及装置和手语视频翻译方法及装置
CN110913229A (zh) * 2018-09-18 2020-03-24 腾讯科技(深圳)有限公司 基于rnn的解码器隐状态确定方法、设备和存储介质
CN111104960A (zh) * 2019-10-30 2020-05-05 武汉大学 一种基于毫米波雷达和机器视觉的手语识别方法
CN111160047A (zh) * 2018-11-08 2020-05-15 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111310701A (zh) * 2020-02-27 2020-06-19 腾讯科技(深圳)有限公司 手势识别方法、装置、设备及存储介质
CN111339782A (zh) * 2020-02-20 2020-06-26 合肥工业大学 一种基于多层次语义解析的手语翻译系统及方法
CN111797777A (zh) * 2020-07-07 2020-10-20 南京大学 基于时空语义特征的手语识别系统及方法
CN112037768A (zh) * 2019-05-14 2020-12-04 北京三星通信技术研究有限公司 语音翻译方法、装置、电子设备及计算机可读存储介质
CN112528891A (zh) * 2020-12-16 2021-03-19 重庆邮电大学 一种基于骨架信息的双向lstm-cnn的视频行为识别方法
CN113255371A (zh) * 2021-07-14 2021-08-13 华东交通大学 一种半监督的中英文隐式篇章关系识别方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107092349A (zh) * 2017-03-20 2017-08-25 重庆邮电大学 一种基于RealSense的手语识别系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN107092349A (zh) * 2017-03-20 2017-08-25 重庆邮电大学 一种基于RealSense的手语识别系统及方法
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SONIAYOUSFI等: "Contribution of recurrent connectionist language models in improving LSTM-based Arabic text recognition in videos", 《PATTERN RECOGNITION》 *
SU YANG等: "Continuous Chinese sign language recognition with CNN-LSTM", 《PROCEEDINGS VOLUME 10420, NINTH INTERNATIONAL CONFERENCE ON DIGITAL IMAGE PROCESSING (ICDIP 2017)》 *
沈娟等: "基于Kinect3D节点的连续HMM手语识别", 《合肥工业大学学报(自然科学版)》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063615A (zh) * 2018-07-20 2018-12-21 中国科学技术大学 一种手语识别方法及系统
CN109063615B (zh) * 2018-07-20 2021-03-09 中国科学技术大学 一种手语识别方法及系统
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法
CN110913229B (zh) * 2018-09-18 2021-10-15 腾讯科技(深圳)有限公司 基于rnn的解码器隐状态确定方法、设备和存储介质
CN110913229A (zh) * 2018-09-18 2020-03-24 腾讯科技(深圳)有限公司 基于rnn的解码器隐状态确定方法、设备和存储介质
CN111160047A (zh) * 2018-11-08 2020-05-15 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN109902554A (zh) * 2019-01-09 2019-06-18 天津大学 一种基于商用Wi-Fi的手语的识别方法
CN109902554B (zh) * 2019-01-09 2023-03-10 天津大学 一种基于商用Wi-Fi的手语的识别方法
CN112037768A (zh) * 2019-05-14 2020-12-04 北京三星通信技术研究有限公司 语音翻译方法、装置、电子设备及计算机可读存储介质
CN110163181A (zh) * 2019-05-29 2019-08-23 中国科学技术大学 手语识别方法及装置
CN110163181B (zh) * 2019-05-29 2021-07-06 中国科学技术大学 手语识别方法及装置
CN110348420B (zh) * 2019-07-18 2022-03-18 腾讯科技(深圳)有限公司 手语识别方法、装置、计算机可读存储介质和计算机设备
US11749029B2 (en) 2019-07-18 2023-09-05 Tencent Technology (Shenzhen) Company Limited Gesture language recognition method and apparatus, computer-readable storage medium, and computer device
CN110348420A (zh) * 2019-07-18 2019-10-18 腾讯科技(深圳)有限公司 手语识别方法、装置、计算机可读存储介质和计算机设备
CN110472726B (zh) * 2019-07-25 2022-08-02 南京信息工程大学 基于输出变化微分的灵敏长短期记忆方法
CN110472726A (zh) * 2019-07-25 2019-11-19 南京信息工程大学 基于输出变化微分的灵敏长短期记忆方法
CN110569823A (zh) * 2019-09-18 2019-12-13 西安工业大学 一种基于rnn的手语识别与骨架生成方法
CN110633688A (zh) * 2019-09-23 2019-12-31 中国科学技术大学 翻译模型的训练方法及装置和手语视频翻译方法及装置
CN111104960B (zh) * 2019-10-30 2022-06-14 武汉大学 一种基于毫米波雷达和机器视觉的手语识别方法
CN111104960A (zh) * 2019-10-30 2020-05-05 武汉大学 一种基于毫米波雷达和机器视觉的手语识别方法
CN111339782B (zh) * 2020-02-20 2023-03-28 合肥工业大学 一种基于多层次语义解析的手语翻译系统及方法
CN111339782A (zh) * 2020-02-20 2020-06-26 合肥工业大学 一种基于多层次语义解析的手语翻译系统及方法
CN111310701B (zh) * 2020-02-27 2023-02-10 腾讯科技(深圳)有限公司 手势识别方法、装置、设备及存储介质
CN111310701A (zh) * 2020-02-27 2020-06-19 腾讯科技(深圳)有限公司 手势识别方法、装置、设备及存储介质
CN111797777A (zh) * 2020-07-07 2020-10-20 南京大学 基于时空语义特征的手语识别系统及方法
CN111797777B (zh) * 2020-07-07 2023-10-17 南京大学 基于时空语义特征的手语识别系统及方法
CN112528891A (zh) * 2020-12-16 2021-03-19 重庆邮电大学 一种基于骨架信息的双向lstm-cnn的视频行为识别方法
CN113255371B (zh) * 2021-07-14 2021-09-24 华东交通大学 一种半监督的中英文隐式篇章关系识别方法与系统
CN113255371A (zh) * 2021-07-14 2021-08-13 华东交通大学 一种半监督的中英文隐式篇章关系识别方法与系统

Also Published As

Publication number Publication date
CN108171198B (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN108171198A (zh) 基于非对称多层lstm的连续手语视频自动翻译方法
CN111325099B (zh) 一种基于双流时空图卷积神经网络的手语识别方法及系统
Saleh et al. Arabic sign language recognition through deep neural networks fine-tuning
CN106126507B (zh) 一种基于字符编码的深度神经翻译方法及系统
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN105095833B (zh) 用于人脸识别的网络构建方法、识别方法及系统
CN105938485B (zh) 一种基于卷积循环混合模型的图像描述方法
CN108875807A (zh) 一种基于多注意力多尺度的图像描述方法
CN108304826A (zh) 基于卷积神经网络的人脸表情识别方法
Tóth Combining time-and frequency-domain convolution in convolutional neural network-based phone recognition
CN107644014A (zh) 一种基于双向lstm和crf的命名实体识别方法
CN106682220A (zh) 一种基于深度学习的在线中医文本命名实体识别方法
CN108415977A (zh) 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN107766894A (zh) 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN108921123A (zh) 一种基于双重数据增强的人脸识别方法
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN109389091A (zh) 基于神经网络和注意力机制结合的文字识别系统及方法
CN109919174A (zh) 一种基于门控级联注意力机制的文字识别方法
CN110826338B (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN107463609A (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN107729311B (zh) 一种融合文本语气的中文文本特征提取方法
CN109034034A (zh) 一种基于强化学习算法优化卷积神经网络的静脉识别方法
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
WO2021238333A1 (zh) 一种文本处理网络、神经网络训练的方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant