CN109190578A - 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 - Google Patents
基于时域卷积网络与循环神经网络融合的手语视频翻译方法 Download PDFInfo
- Publication number
- CN109190578A CN109190578A CN201811070290.1A CN201811070290A CN109190578A CN 109190578 A CN109190578 A CN 109190578A CN 201811070290 A CN201811070290 A CN 201811070290A CN 109190578 A CN109190578 A CN 109190578A
- Authority
- CN
- China
- Prior art keywords
- network
- word
- sign language
- convolution
- slice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Abstract
本发明公开了一种基于时域卷积网络与循环神经网络融合的连续手语视频翻译方法,包括以下步骤:手语视频的特征提取和单词表的构建;时域卷积网络TCN的处理;双向循环神经网络BGRU的处理;特征的单词映射过程;融合网络FL的处理;基于时域卷积网络TCN与双向循环神经网络BGRU融合的网络模型参数优化;单词编码向量的融合与解码。本发明是能够利用不同视角的网络结构来有效的克服手语翻译因为解释的不准确而带来的沟通障碍,利用不同网络对数据的不同表现形式进行学习与分析,进一步的提高手语翻译的准确性,增加手语翻译的鲁棒性。
Description
技术领域
本发明属于计算机视觉技术领域,涉及到模式识别、自然语言处理、人工智能等技术,具体地说是一种基于时域卷积网络与循环神经网络融合的连续手语视频翻译方法。
背景技术
手语是正常人与聋哑人交流沟通的一种方式,其通常由手语使用者的肢体动作,关节动作及面部表情组成的一系列具有实际意义的动作。但是,未学过手语的正常人与手语使用者之间往往存在着沟通障碍。因此,如何捕捉手语使用者的姿态等信息并转为正常人可以理解的信息逐渐被人们重视起来。一个好的手语翻译系统可以捕捉手语使用者的姿态等信息并将其转换成文字,方便人们理解手语使用者表达的意思。手语翻译成为了人们之间无障碍交流的桥梁,因此手语翻译有着广泛的应用前景,同时也是计算机视觉与模式识别的重要研究课题之一。
目前,手语翻译仍然是计算机领域中的难题之一。首先是手语使用者自身因为身材,手语速度,手语习惯等不同,导致手语展现的情况也错综复杂,这也增加了识别的难度。因此,正确识别手势动作所表达的意思任然有很大的提升空间。进一步的,多手势的手语视频在现实生活中更有意义,它的特点是在一整段连续的手语手势中翻译出一整句有意义的句子,其中连续的手语手势序列与所需要翻译出的句子并没有一一对应的关系,且手语使用的时候也没有明显的手势切换的边界,这也为手语识别带来了难度。因此,手语翻译不仅仅是要学习手语手势单词与语言的单词之间的关系,还要学习正确的文本序列,使得手语翻译更具有挑战性。
手语翻译主要含有两个过程,一个是手语视频特征的提取,另一个是序列模型的学习。其中手语视频特征的提取是最基本的过程,一个合适的特征提取方法可以有效地改善手语识别的效果,进一步的提高手语翻译的准确性。目前常见的特征有身体骨架特征,视觉词袋特征,梯度直方图特征等传统特征以及使用卷积神经网络模型的特征。这些特征的缺点是在提取特征时候,只关注每一个视频帧的信息,而忽略了连续视频中帧与帧之间的关联信息和变化信息,进而影响后续识别的效果。
在序列模型的学习过程中,常用的模型有支持向量机,动态时间规整算法以及隐马尔可夫模型,等传统模型,这些模型更适合于识别与翻译单个手语单词,对连续的并包含多个手势动作的视频难以学习,也难以学习到动作与单词之间的的语义对应关系,因而无法有效地对连续的手语句子进行翻译。
发明内容
本发明是为了克服现有技术存在的不足之处,提出一种基于时域卷积网络与循环神经网络融合的连续手语视频翻译方法,以期实现对于手语句子的快速翻译,从而提高手语翻译的精确性,增强手语翻译的鲁棒性。
本发明为解决技术问题采用如下技术方案:
本发明一种基于时域卷积网络与循环神经网络融合的手语视频翻译方法的特点是按如下步骤进行:
步骤1、手语视频的特征提取和单词表的构建
从手语视频数据库中获取任意一个带有翻译句子标签的手语视频V,对所述手语视频V进行帧级别的分割,得到所述手语视频V的切片集合其中ck表示视频V中第k个切片,Kv为所述手语视频V的总切片数,k=1,2,...,Kv;
使用3D卷积神经网络提取第k个切片ck的特征,得到第k个切片的卷积特征fk,且fk∈dimf,dimf表示所述第k个切片的卷积特征fk的维度,从而得到所述手语视频V的卷积特征集合
利用所述手语视频数据库中所有手语视频各自的翻译句子标签构造单词表,并对所述单词表中所有的单词按照出现次数从高到低进行编号,从而构建单词索引表Voc;
步骤2、时域卷积网络TCN的处理;
步骤2.1、将所述手语视频V的卷积特征集合FV转换为Kv×dimf维视频特征矩阵MV;
步骤2.2、对所述视频特征矩阵MV进行切片维度的补零处理,得到处理后的(1+Kv+1)×dimf维输入特征矩阵M′V,
步骤2.3、定义时域卷积网络TCN中第一层卷积核为Conv1=[n1,2,dimf],其中n1为第一层卷积核的个数,并设置第一次卷积的步幅长为1;
步骤2.4、对所述处理后的输入特征矩阵M′V进行一次卷积操作之后得到中间层(1+Kv)×n1维过渡特征矩阵OT1;
步骤2.5、定义时域卷积网络TCN中第二层卷积核为Conv2=[n2,2,n1];其中n2为第二层卷积核的个数,n2为处理后的渡特征矩阵OT1的特征长度,并设置第二次卷积的步幅长为1;
步骤2.4、对所述中间层(1+Kv)×n1维渡特征矩阵OT1进行二次卷积操作之后得到Kv×n2维时域卷积操作的输出特征矩阵OT2;
步骤2.5、将所述Kv×n2维时域卷积操作的输出特征矩阵OT2转换为时域卷积网络TCN输出特征序列其中表示所述手语视频V中时域卷积网络TCN输出的第k个切片特征;
步骤3、双向循环神经网络BGRU的处理;
步骤3.1将所述手语视频V的卷积特征集合FV转换为Kv个dimf维视频特征序列
步骤3.2使用双向循环网络BGRU计算视频特征序列F′V中从第1个切片f1′到第Kv个切片的切片隐状态前向表达特征序列以及第Kv个切片到第1个切片f1′的隐状态后向表达特征序列其中hk与hk分别表示所述手语视频V中双向循环神经网络BGRU输出的第k个切片前向切片特征与第k个后向切片特征;
步骤3.3将第k个前向切片特征hk与对应的第k个后向切片特征hk进行拼接操作,得到所述手语视频V中双向循环神经网络BGRU输出的第k个切片的特征从而得到双向循环神经网络BGRU输出特征序列
步骤4、特征的单词映射过程
步骤4.1、利用全连接操作将所述时域卷积网络TCN输出特征序列OVT映射到与所述单词索引表Voc同一维度的空间中,得到时域卷积网络TCN输出的单词编码集合其中表示所述手语视频V中时域卷积网络TCN输出的第k个切片的单词编码向量,且向量长度与单词个数相同;
步骤4.2、利用全连接操作将所述双向循环神经网络BGRU输出特征序列OVB映射到与所述单词索引表Voc同一维度的空间中,得到双向循环神经网络BGRU输出的单词编码集合其中表示所述手语视频V中双向循环神经网络BGRU输出的第k个切片的单词编码向量,且向量长度与单词个数相同;
步骤5、融合网络FL的处理
步骤5.1、将所述手语视频V中时域卷积网络TCN输出的第k个切片特征与双向循环神经网络BGRU输出的第k个切片特征进行拼接,得到融合网络FL的第k个输入从而得到融合网络FL的输入特征序列
步骤5.2、利用两层全连接操作将所述融合网络FL的输入特征序列IV映射到与所述单词索引表Voc同一维度的空间中,得到融合网络FL输出的单词编码集合其中表示所述手语视频V中融合网络FL输出的第k个切片的单词编码向量,且向量长度与单词个数相同;
步骤6、基于时域卷积网络TCN与双向循环神经网络BGRU融合的网络模型参数优化
步骤6.1、筛选出所述手语视频V中时域卷积网络TCN输出的第k个切片的单词编码向量中最大值所对应的位置,根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为所述时域卷积网络TCN输出的第k个切片解码的单词从而得到时域卷积网络TCN对所述手语视频V解码得到的单词序列为
步骤6.2、筛选出所述手语视频V中双向循环神经网络BGRU输出的第k个切片的单词编码向量中最大值所对应的位置,根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为所述双向循环神经网络BGRU输出的第k个切片解码的单词从而得到双向循环神经网络BGRU对所述手语视频V解码得到的单词序列
步骤6.3、筛选出所述手语视频V中融合网络FL输出的第k个切片的单词编码向量中最大值所对应的位置,根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为所述融合网络FL输出的第k个切片解码的单词从而得到融合网络FL对所述手语视频V解码得到的单词序列
步骤6.4、利用式(1)计算联结主义时态分类CTC的损失熵E:
式(1)中,PV表所示所述手语视频V的所有翻译句子标签;
步骤6.5、利用随机梯度下降法所述联结主义时态分类CTC的损失熵E进行优化求解,使损失熵E达到最小,从而得到最优参数的基于时域卷积网络TCN与双向循环神经网络BGRU融合的网络模型;
步骤7、单词编码向量的融合与解码
步骤7.1、对所述时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL生成的第k个切片的单词编码向量与分别进行归一化处理,得到归一化后的时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL的第k个向量与
步骤7.2、将所述归一化后的时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL的第k个向量与进行加权平均处理,得到网络输出的第k个单词编码向量
步骤7.3、筛选出所述手语视频V的网络输出第k个单词编码向量中最大值所对应的位置,根据最大值所对应的位置在单词索引表Voc中查找相应位置单词作为最终的第k个切片ck解码的单词进而得到所述手语视频V的最终单词解码序列
步骤7.4、对最终单词解码序列WS使用贪心解码算法生成所述手语视频V的翻译句子。与已有技术相比,本发明的有益效果体现在:
1、本发明利用不同的网络对不同形式的特征进行学习,同时利用融合网络对两个子网络进行进一步的优化;在优化的同时,各网络的输出可以被解码成独立的单词并组合成有意义的句子,从而能够有效克服手语使用者的外观形体以及手语习惯各异的复杂情况的影响,并且学得句子中手语单词之间语义关系,并学习手势动作与单词的对应关系,最终学习连续手语所表达的意思。该模型较现有的只用一种网络方法的模型有了更准确的翻译效果。
2、本发明提出了一种基于时域卷积网络与循环神经网络融合的连续手语视频翻译模型,该模型的时域卷积可以捕捉手语序列中短时序的变化信息,循环网络可以同步整个时序上序列的信息,两种信息互相补充,从不同的时域角度获取手语表达的信息。因此,循环网络在时域卷积的帮助下,较原先的循环网络有着更精确的翻译结果;时域卷积网络在循环网络发辅助下,也对视频切片识别的更加准确。
3、本发明提出了一种网络融合结构,该结构可以同时捕捉时域卷积网络与循环卷积网络的各自获取的信息,并进行学习与融合,进一步的,时域卷积网络与循环卷积网络可以通过融合网络互相产生影响,并辅助优化网络的参数。融合网络同时获取了时域卷积网络与循环卷积网络的信息之后,翻译的结果较两个子网络有着很大的提升,翻译结果也更精确。
4、本发明进一步的提出了一种解码融合方法,对三种网络结构的翻译结果进行融合,并提升了整个翻译过程的准确性。
附图说明
图1为本发明的流程图;
图2a为本发明TCN示意图;
图2b为本发明BGRU示意图。
具体实施方式
本实施例中,如图1所示,一种基于时域卷积网络与循环神经网络融合的手语视频翻译方法是充分提取手语视频中的空间特征与时序特征,对识别度高的关键动作的特征进行有效地学习,并有效避免模型学习过程中受到手语者体形、手语速度、手语习惯等影响因素的干扰。其步骤包括:
首先对原始手语视频进行预处理,提取手语视频特征;再同步使用两种不同的网络结构(时域卷积网络TCN和双向循环神经网络BGRU)对连续手语视频特征进行编码并输出每一切片单词生成的概率;接着对子网络的中间层的输出进行拼接送至融合网络(FL)进行学习并生成单词序列;最后对三种网路生成的单词特征向量进行融合得到最终的解码向量,再对这些解码向量进行解码和重组得到完整的文字序列,组成句子;具体地说,包括如下步骤:
步骤1、手语视频的特征提取和单词表的构建
从手语视频数据库中获取任意一个带有翻译句子标签的手语视频V,对手语视频V进行帧级别的分割,得到手语视频V的切片集合其中ck表示视频V中第k个切片,Kv为手语视频V的总切片数,k=1,2,...,Kv;
使用3D卷积神经网络提取第k个切片ck的特征,得到第k个切片的卷积特征fk,且fk∈dimf,dimf表示第k个切片的卷积特征fk的维度,从而得到手语视频V的卷积特征集合
手语视频特征,例如可以采用、HOG特征、骨架节点特征、二维卷积特征、三维卷积特征等;本实施例中,可以采用三维卷积神经网络模型ResNet3D三维卷积神经网络对视频特征进行特征提取;相比二维卷积网络,3D卷积神经网络既可以捕捉视频每一帧的空间信息还可以利用时序上的计算捕获每一帧之间的变化信息。3D-ResNet是一种3D卷积神经网络,它被证明了有很强的视觉信息表达能力,因此我们将3D-ResNet作为实验的特征提取器。我们将手语视频进行切片处理,每一个被切的块含有8帧数据,并且相邻的两个块之间有重叠50%;接着使用3D-ResNet对每一块进行特征提取。
利用手语视频数据库中所有手语视频各自的翻译句子标签构造单词表,并对单词表中所有的单词按照出现次数从高到低进行编号,从而构建单词索引表Voc;
创建单词表Voc的方法:单词表可以包含单词、标点符号;统计单词的个数并对单词进行排序,其中为了满足优化的训练过程,添加了一个空白符。对所有单词按照顺序构建单词与序号的对应表。
步骤2、时域卷积网络TCN的处理;
步骤2.1、将手语视频V的卷积特征集合FV转换为Kv×dimf维视频特征矩阵MV;
卷积操作只能对矩阵类型的特征进行计算,因此将特征转换成矩阵形式是有必要的。
步骤2.2、对视频特征矩阵MV进行切片维度的补零处理,得到处理后的(1+Kv+1)×dimf维输入特征矩阵M′V,
卷积的性质会导致卷积后的大小会小于输入的特征的大小,为了保持大小的一致性,我们采用补零操作来保持后续计算结果与输入大小保持一致。
步骤2.3、定义时域卷积网络TCN中第一层卷积核为Conv1=[n1,2,dimf],其中n1为第一层卷积核的个数,并设置第一次卷积的步幅长为1;
步骤2.4、对处理后的输入特征矩阵M′V进行一次卷积操作之后得到中间层(1+Kv)×n1维过渡特征矩阵OT1;
步骤2.5、定义时域卷积网络TCN中第二层卷积核为Conv2=[n2,2,n1];其中n2为第二层卷积核的个数,n2为处理后的渡特征矩阵OT1的特征长度,并设置第二次卷积的步幅长为1;
步骤2.4、对中间层(1+Kv)×n1维渡特征矩阵OT1进行二次卷积操作之后得到Kv×n2维时域卷积操作的输出特征矩阵OT2;
为了适合后续的单词映射与融合操作,我们需要将输出结果转成与后面一致的形式。
步骤2.5、将Kv×n2维时域卷积操作的输出特征矩阵OT2转换为时域卷积网络TCN输出特征序列其中表示手语视频V中时域卷积网络TCN输出的第k个切片特征;
如图2a时域卷积网络TCN每一次卷积都针对相邻两个切片进行操作,因而,根据卷积网络的特性,两次卷积后的特征向量同时计算了原始特征的相邻三个切片的数据,该数据可以很好的描述局部动作的变化信息。
步骤3、双向循环神经网络BGRU的处理;
步骤3.1将手语视频V的卷积特征集合FV转换为Kv个dimf维视频特征序列
步骤3.2使用双向循环网络BGRU计算视频特征序列F′V中从第1个切片f1′到第Kv个切片的切片隐状态前向表达特征序列以及第Kv个切片到第1个切片f1′的隐状态后向表达特征序列其中hk与hk分别表示手语视频V中双向循环神经网络BGRU输出的第k个切片前向切片特征与第k个后向切片特征;
步骤3.3将第k个前向切片特征hk与对应的第k个后向切片特征hk进行拼接操作,得到手语视频V中双向循环神经网络BGRU输出的第k个切片的特征从而得到双向循环神经网络BGRU输出特征序列
如图2b循环神经网络BGRU的每一帧输出都与前后所有切片有关,即观测了整个视频的表达,该输出可以描述当前切片在整个视频中所表达的意思。
步骤4、特征的单词映射过程
为了将网络学习的特征进行合理的优化,需要将网络输出的得分与真实的单词进行比较。
步骤4.1、利用全连接操作将时域卷积网络TCN输出特征序列OVT映射到与单词索引表Voc同一维度的空间中,得到时域卷积网络TCN输出的单词编码集合其中表示手语视频V中时域卷积网络TCN输出的第k个切片的单词编码向量,且向量长度与单词个数相同;
步骤4.2、利用全连接操作将双向循环神经网络BGRU输出特征序列OVB映射到与单词索引表Voc同一维度的空间中,得到双向循环神经网络BGRU输出的单词编码集合其中表示手语视频V中双向循环神经网络BGRU输出的第k个切片的单词编码向量,且向量长度与单词个数相同;
步骤5、融合网络FL的处理
步骤5.1、将手语视频V中时域卷积网络TCN输出的第k个切片特征与双向循环神经网络BGRU输出的第k个切片特征进行拼接,得到融合网络FL的第k个输入从而得到融合网络FL的输入特征序列
步骤5.2、利用两层全连接操作将融合网络FL的输入特征序列IV映射到与单词索引表Voc同一维度的空间中,得到融合网络FL输出的单词编码集合其中表示手语视频V中融合网络FL输出的第k个切片的单词编码向量,且向量长度与单词个数相同;
融合网络FL同时捕捉了时域卷积网络TCN与双向循环神经网络BGRU的特征表达,即在考虑到长时序信息的同时同步的计算短时序的信息;相应的,该网络也通过将特征映射到词空间中进行优化;此外,通过融合网络的优化过程,两个前端网络也可以互相对对方产生影响,即时域卷积网络在计算局部特征的时候会考虑到长时序的信息,循环网络在计算全局动作信息的时候会结合局部时序信息对当前计算产生影响。
步骤6、基于时域卷积网络TCN与双向循环神经网络BGRU融合的网络模型参数优化
网络的优化是基于单词的基础之上的,因此需要先将网络的输出解码成独立的单词再计算损失熵。
步骤6.1、筛选出手语视频V中时域卷积网络TCN输出的第k个切片的单词编码向量中最大值所对应的位置,根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为时域卷积网络TCN输出的第k个切片解码的单词从而得到时域卷积网络TCN对手语视频V解码得到的单词序列为
步骤6.2、筛选出手语视频V中双向循环神经网络BGRU输出的第k个切片的单词编码向量中最大值所对应的位置,根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为双向循环神经网络BGRU输出的第k个切片解码的单词从而得到双向循环神经网络BGRU对手语视频V解码得到的单词序列
步骤6.3、筛选出手语视频V中融合网络FL输出的第k个切片的单词编码向量中最大值所对应的位置,根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为融合网络FL输出的第k个切片解码的单词从而得到融合网络FL对手语视频V解码得到的单词序列
步骤6.4、利用式(1)计算联结主义时态分类CTC的损失熵E:
式(1)中,PV表所示手语视频V的所有翻译句子标签;
步骤6.5、利用随机梯度下降法联结主义时态分类CTC的损失熵E进行优化求解,使损失熵E达到最小,从而得到最优参数的基于时域卷积网络TCN与双向循环神经网络BGRU融合的网络模型;
联结主义时态分类CTC是自适应对齐算法,它允许我们的神经网络在任意一个时间段预测label,只需要是输出的序列顺序保持正确。该过程同步的对三种网络进行优化,三种网络可以在优化的过程中互相影响,并同步生成一系列单词;时域卷积网络TCN与双向循环神经网络BGRU会直接影响融合网络FL的表达,同步的,融合网络的参数会影响并优化时域卷积网络TCN与双向循环神经网络BGRU,在融合网络FL的指导下,时域卷积网络TCN与双向循环神经网络BGRU也互相产生了影响,此外,各自网络均由联结主义时态分类CTC进行优化,也就是说,在互相影响的同时,自身网络也在向生成更准确的单词进行优化。
步骤7、单词编码向量的融合与解码
步骤7.1、对时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL生成的第k个切片的单词编码向量与分别进行归一化处理,得到归一化后的时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL的第k个向量与
步骤7.2、将归一化后的时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL的第k个向量与进行加权平均处理,得到网络输出的第k个单词编码向量
步骤7.3、筛选出手语视频V的网络输出第k个单词编码向量中最大值所对应的位置,根据最大值所对应的位置在单词索引表Voc中查找相应位置单词作为最终的第k个切片ck解码的单词进而得到手语视频V的最终单词解码序列
步骤7.4、对最终单词解码序列WS使用贪心解码算法生成手语视频V的翻译句子。
本方法中对视频的每一个切片都进行了单词的翻译,利用贪心解码算法可以将连续的相同的单词进行剔除,如:“我有有一本书书”,翻译成“我有一本书”。
综上,本发明的意义在于:1本发明提出的基于时域卷积网络与循环神经网络融合的方法可以实现对于连续手语序列的翻译,编码过程对视频特征进行学习,得到视频表达,并在解码过程利用语义生成文字序列,从而实现连续手语序列翻译;2编码过程中既用时域卷积网络捕捉短时序的动作表达还融入了循环网络对时序性进行了学习,3设计了融合网络同时对两种不同的网络进行优化,并且,在网络学习的过程中,两个子网络可以通过融合网络互相产生影响,从而相互获取另一种网络的不同信息,4在生成句子的过程中提出了融合方式用于生成更准确的句子。
Claims (1)
1.一种基于时域卷积网络与循环神经网络融合的手语视频翻译方法,其特征是按如下步骤进行:
步骤1、手语视频的特征提取和单词表的构建
从手语视频数据库中获取任意一个带有翻译句子标签的手语视频V,对所述手语视频V进行帧级别的分割,得到所述手语视频V的切片集合其中ck表示视频V中第k个切片,Kv为所述手语视频V的总切片数,k=1,2,...,Kv;
使用3D卷积神经网络提取第k个切片ck的特征,得到第k个切片的卷积特征fk,且fk∈dimf,dimf表示所述第k个切片的卷积特征fk的维度,从而得到所述手语视频V的卷积特征集合
利用所述手语视频数据库中所有手语视频各自的翻译句子标签构造单词表,并对所述单词表中所有的单词按照出现次数从高到低进行编号,从而构建单词索引表Voc;
步骤2、时域卷积网络TCN的处理;
步骤2.1、将所述手语视频V的卷积特征集合FV转换为Kv×dimf维视频特征矩阵MV;
步骤2.2、对所述视频特征矩阵MV进行切片维度的补零处理,得到处理后的(1+Kv+1)×dimf维输入特征矩阵M′V,
步骤2.3、定义时域卷积网络TCN中第一层卷积核为Conv1=[n1,2,dimf],其中n1为第一层卷积核的个数,并设置第一次卷积的步幅长为1;
步骤2.4、对所述处理后的输入特征矩阵M′V进行一次卷积操作之后得到中间层(1+Kv)×n1维过渡特征矩阵OT1;
步骤2.5、定义时域卷积网络TCN中第二层卷积核为Conv2=[n2,2,n1];其中n2为第二层卷积核的个数,n2为处理后的渡特征矩阵OT1的特征长度,并设置第二次卷积的步幅长为1;
步骤2.4、对所述中间层(1+Kv)×n1维渡特征矩阵OT1进行二次卷积操作之后得到Kv×n2维时域卷积操作的输出特征矩阵OT2;
步骤2.5、将所述Kv×n2维时域卷积操作的输出特征矩阵OT2转换为时域卷积网络TCN输出特征序列其中表示所述手语视频V中时域卷积网络TCN输出的第k个切片特征;
步骤3、双向循环神经网络BGRU的处理;
步骤3.1将所述手语视频V的卷积特征集合FV转换为Kv个dimf维视频特征序列
步骤3.2使用双向循环网络BGRU计算视频特征序列F′V中从第1个切片f1′到第Kv个切片的切片隐状态前向表达特征序列以及第Kv个切片到第1个切片f1′的隐状态后向表达特征序列其中hk与hk分别表示所述手语视频V中双向循环神经网络BGRU输出的第k个切片前向切片特征与第k个后向切片特征;
步骤3.3将第k个前向切片特征hk与对应的第k个后向切片特征hk进行拼接操作,得到所述手语视频V中双向循环神经网络BGRU输出的第k个切片的特征从而得到双向循环神经网络BGRU输出特征序列
步骤4、特征的单词映射过程
步骤4.1、利用全连接操作将所述时域卷积网络TCN输出特征序列OVT映射到与所述单词索引表Voc同一维度的空间中,得到时域卷积网络TCN输出的单词编码集合其中表示所述手语视频V中时域卷积网络TCN输出的第k个切片的单词编码向量,且向量长度与单词个数相同;
步骤4.2、利用全连接操作将所述双向循环神经网络BGRU输出特征序列OVB映射到与所述单词索引表Voc同一维度的空间中,得到双向循环神经网络BGRU输出的单词编码集合其中表示所述手语视频V中双向循环神经网络BGRU输出的第k个切片的单词编码向量,且向量长度与单词个数相同;
步骤5、融合网络FL的处理
步骤5.1、将所述手语视频V中时域卷积网络TCN输出的第k个切片特征与双向循环神经网络BGRU输出的第k个切片特征进行拼接,得到融合网络FL的第k个输入从而得到融合网络FL的输入特征序列
步骤5.2、利用两层全连接操作将所述融合网络FL的输入特征序列IV映射到与所述单词索引表Voc同一维度的空间中,得到融合网络FL输出的单词编码集合其中表示所述手语视频V中融合网络FL输出的第k个切片的单词编码向量,且向量长度与单词个数相同;
步骤6、基于时域卷积网络TCN与双向循环神经网络BGRU融合的网络模型参数优化
步骤6.1、筛选出所述手语视频V中时域卷积网络TCN输出的第k个切片的单词编码向量中最大值所对应的位置,根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为所述时域卷积网络TCN输出的第k个切片解码的单词从而得到时域卷积网络TCN对所述手语视频V解码得到的单词序列为
步骤6.2、筛选出所述手语视频V中双向循环神经网络BGRU输出的第k个切片的单词编码向量中最大值所对应的位置,根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为所述双向循环神经网络BGRU输出的第k个切片解码的单词从而得到双向循环神经网络BGRU对所述手语视频V解码得到的单词序列
步骤6.3、筛选出所述手语视频V中融合网络FL输出的第k个切片的单词编码向量中最大值所对应的位置,根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为所述融合网络FL输出的第k个切片解码的单词从而得到融合网络FL对所述手语视频V解码得到的单词序列
步骤6.4、利用式(1)计算联结主义时态分类CTC的损失熵E:
式(1)中,PV表所示所述手语视频V的所有翻译句子标签;
步骤6.5、利用随机梯度下降法所述联结主义时态分类CTC的损失熵E进行优化求解,使损失熵E达到最小,从而得到最优参数的基于时域卷积网络TCN与双向循环神经网络BGRU融合的网络模型;
步骤7、单词编码向量的融合与解码
步骤7.1、对所述时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL生成的第k个切片的单词编码向量与分别进行归一化处理,得到归一化后的时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL的第k个向量与
步骤7.2、将所述归一化后的时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL的第k个向量与进行加权平均处理,得到网络输出的第k个单词编码向量
步骤7.3、筛选出所述手语视频V的网络输出第k个单词编码向量中最大值所对应的位置,根据最大值所对应的位置在单词索引表Voc中查找相应位置单词作为最终的第k个切片ck解码的单词进而得到所述手语视频V的最终单词解码序列步骤7.4、对最终单词解码序列WS使用贪心解码算法生成所述手语视频V的翻译句子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811070290.1A CN109190578B (zh) | 2018-09-13 | 2018-09-13 | 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811070290.1A CN109190578B (zh) | 2018-09-13 | 2018-09-13 | 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190578A true CN109190578A (zh) | 2019-01-11 |
CN109190578B CN109190578B (zh) | 2019-10-18 |
Family
ID=64911087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811070290.1A Active CN109190578B (zh) | 2018-09-13 | 2018-09-13 | 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190578B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163181A (zh) * | 2019-05-29 | 2019-08-23 | 中国科学技术大学 | 手语识别方法及装置 |
CN110210416A (zh) * | 2019-06-05 | 2019-09-06 | 中国科学技术大学 | 基于动态伪标签解码的手语识别系统优化方法及装置 |
CN110348420A (zh) * | 2019-07-18 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 手语识别方法、装置、计算机可读存储介质和计算机设备 |
CN110442860A (zh) * | 2019-07-05 | 2019-11-12 | 大连大学 | 基于时间卷积网络的命名实体识别方法 |
CN110457673A (zh) * | 2019-06-25 | 2019-11-15 | 北京奇艺世纪科技有限公司 | 一种自然语言转换为手语的方法及装置 |
CN111259860A (zh) * | 2020-02-17 | 2020-06-09 | 合肥工业大学 | 基于数据自驱动的多阶特征动态融合手语翻译方法 |
CN111259804A (zh) * | 2020-01-16 | 2020-06-09 | 合肥工业大学 | 一种基于图卷积的多模态融合手语识别系统及方法 |
CN111310701A (zh) * | 2020-02-27 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 手势识别方法、装置、设备及存储介质 |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN111339782A (zh) * | 2020-02-20 | 2020-06-26 | 合肥工业大学 | 一种基于多层次语义解析的手语翻译系统及方法 |
CN111401267A (zh) * | 2020-03-19 | 2020-07-10 | 山东大学 | 基于自学习局部特征表征的视频行人再识别方法及系统 |
CN111458769A (zh) * | 2020-05-26 | 2020-07-28 | 南京大学 | 用于输电线路环境气象数据预测的方法及系统 |
CN112347826A (zh) * | 2019-08-09 | 2021-02-09 | 中国科学技术大学 | 一种基于强化学习的视频连续手语识别方法及系统 |
CN113537024A (zh) * | 2021-07-08 | 2021-10-22 | 天津理工大学 | 多层时序注意力融合机制的弱监督神经网络手语识别方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105681719A (zh) * | 2016-02-17 | 2016-06-15 | 北京金迈捷科技有限公司 | 一种利用时域数据融合技术获取图像和视频的方法 |
CN105919591A (zh) * | 2016-04-12 | 2016-09-07 | 东北大学 | 一种基于表面肌电信号的手语识别发声系统及方法 |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN107506823A (zh) * | 2017-08-22 | 2017-12-22 | 南京大学 | 一种用于对话生成的混合神经网络模型的构建方法 |
CN107729987A (zh) * | 2017-09-19 | 2018-02-23 | 东华大学 | 基于深度卷积‑循环神经网络的夜视图像的自动描述方法 |
CN108171198A (zh) * | 2018-01-11 | 2018-06-15 | 合肥工业大学 | 基于非对称多层lstm的连续手语视频自动翻译方法 |
CN108227565A (zh) * | 2017-12-12 | 2018-06-29 | 深圳和而泰数据资源与云技术有限公司 | 一种信息处理方法、终端及计算机可读介质 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
CN108388561A (zh) * | 2017-02-03 | 2018-08-10 | 百度在线网络技术(北京)有限公司 | 神经网络机器翻译方法和装置 |
CN108388348A (zh) * | 2018-03-19 | 2018-08-10 | 浙江大学 | 一种基于深度学习和注意力机制的肌电信号手势识别方法 |
CN108427910A (zh) * | 2018-01-30 | 2018-08-21 | 浙江凡聚科技有限公司 | 深层神经网络ar手语翻译学习方法、客户端及服务器 |
CN108520205A (zh) * | 2018-03-21 | 2018-09-11 | 安徽大学 | 一种基于Citation-KNN的人体动作识别方法 |
-
2018
- 2018-09-13 CN CN201811070290.1A patent/CN109190578B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105681719A (zh) * | 2016-02-17 | 2016-06-15 | 北京金迈捷科技有限公司 | 一种利用时域数据融合技术获取图像和视频的方法 |
CN105919591A (zh) * | 2016-04-12 | 2016-09-07 | 东北大学 | 一种基于表面肌电信号的手语识别发声系统及方法 |
CN108388561A (zh) * | 2017-02-03 | 2018-08-10 | 百度在线网络技术(北京)有限公司 | 神经网络机器翻译方法和装置 |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN107506823A (zh) * | 2017-08-22 | 2017-12-22 | 南京大学 | 一种用于对话生成的混合神经网络模型的构建方法 |
CN107729987A (zh) * | 2017-09-19 | 2018-02-23 | 东华大学 | 基于深度卷积‑循环神经网络的夜视图像的自动描述方法 |
CN108227565A (zh) * | 2017-12-12 | 2018-06-29 | 深圳和而泰数据资源与云技术有限公司 | 一种信息处理方法、终端及计算机可读介质 |
CN108171198A (zh) * | 2018-01-11 | 2018-06-15 | 合肥工业大学 | 基于非对称多层lstm的连续手语视频自动翻译方法 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
CN108427910A (zh) * | 2018-01-30 | 2018-08-21 | 浙江凡聚科技有限公司 | 深层神经网络ar手语翻译学习方法、客户端及服务器 |
CN108388348A (zh) * | 2018-03-19 | 2018-08-10 | 浙江大学 | 一种基于深度学习和注意力机制的肌电信号手势识别方法 |
CN108520205A (zh) * | 2018-03-21 | 2018-09-11 | 安徽大学 | 一种基于Citation-KNN的人体动作识别方法 |
Non-Patent Citations (5)
Title |
---|
RINI AKMELIAWATI 等: "Real-Time Malaysian Sign Language Translation using Colour Segmentation and Neural Network", 《INSTRUMENTATION AND MEASUREMENT》 * |
SHILIANG HUANG 等: "A Novel Chinese Sign Language Recognition Method Based on Keyframe-Centered Clips", 《IEEE SIGNAL PROCESSING LETTERS》 * |
冯冲 等: "融合对抗学习的因果关系抽取", 《自动化学报》 * |
张荣峰: "智能视频监控中目标的实时跟踪和视频理解的研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
李晓旭: "基于神经网络的中小词量中国手语识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163181A (zh) * | 2019-05-29 | 2019-08-23 | 中国科学技术大学 | 手语识别方法及装置 |
CN110163181B (zh) * | 2019-05-29 | 2021-07-06 | 中国科学技术大学 | 手语识别方法及装置 |
CN110210416A (zh) * | 2019-06-05 | 2019-09-06 | 中国科学技术大学 | 基于动态伪标签解码的手语识别系统优化方法及装置 |
CN110210416B (zh) * | 2019-06-05 | 2021-10-01 | 中国科学技术大学 | 基于动态伪标签解码的手语识别系统优化方法及装置 |
CN110457673A (zh) * | 2019-06-25 | 2019-11-15 | 北京奇艺世纪科技有限公司 | 一种自然语言转换为手语的方法及装置 |
CN110457673B (zh) * | 2019-06-25 | 2023-12-19 | 北京奇艺世纪科技有限公司 | 一种自然语言转换为手语的方法及装置 |
CN110442860A (zh) * | 2019-07-05 | 2019-11-12 | 大连大学 | 基于时间卷积网络的命名实体识别方法 |
CN110348420A (zh) * | 2019-07-18 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 手语识别方法、装置、计算机可读存储介质和计算机设备 |
US11749029B2 (en) | 2019-07-18 | 2023-09-05 | Tencent Technology (Shenzhen) Company Limited | Gesture language recognition method and apparatus, computer-readable storage medium, and computer device |
CN110348420B (zh) * | 2019-07-18 | 2022-03-18 | 腾讯科技(深圳)有限公司 | 手语识别方法、装置、计算机可读存储介质和计算机设备 |
CN112347826A (zh) * | 2019-08-09 | 2021-02-09 | 中国科学技术大学 | 一种基于强化学习的视频连续手语识别方法及系统 |
CN112347826B (zh) * | 2019-08-09 | 2024-02-27 | 中国科学技术大学 | 一种基于强化学习的视频连续手语识别方法及系统 |
CN111259804A (zh) * | 2020-01-16 | 2020-06-09 | 合肥工业大学 | 一种基于图卷积的多模态融合手语识别系统及方法 |
CN111259804B (zh) * | 2020-01-16 | 2023-03-14 | 合肥工业大学 | 一种基于图卷积的多模态融合手语识别系统及方法 |
CN111259860A (zh) * | 2020-02-17 | 2020-06-09 | 合肥工业大学 | 基于数据自驱动的多阶特征动态融合手语翻译方法 |
CN111339782A (zh) * | 2020-02-20 | 2020-06-26 | 合肥工业大学 | 一种基于多层次语义解析的手语翻译系统及方法 |
CN111339782B (zh) * | 2020-02-20 | 2023-03-28 | 合肥工业大学 | 一种基于多层次语义解析的手语翻译系统及方法 |
CN111310701B (zh) * | 2020-02-27 | 2023-02-10 | 腾讯科技(深圳)有限公司 | 手势识别方法、装置、设备及存储介质 |
CN111310701A (zh) * | 2020-02-27 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 手势识别方法、装置、设备及存储介质 |
CN111401267A (zh) * | 2020-03-19 | 2020-07-10 | 山东大学 | 基于自学习局部特征表征的视频行人再识别方法及系统 |
CN111401267B (zh) * | 2020-03-19 | 2023-06-13 | 山东大学 | 基于自学习局部特征表征的视频行人再识别方法及系统 |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN111458769A (zh) * | 2020-05-26 | 2020-07-28 | 南京大学 | 用于输电线路环境气象数据预测的方法及系统 |
CN113537024A (zh) * | 2021-07-08 | 2021-10-22 | 天津理工大学 | 多层时序注意力融合机制的弱监督神经网络手语识别方法 |
CN113537024B (zh) * | 2021-07-08 | 2022-06-21 | 天津理工大学 | 多层时序注意力融合机制的弱监督神经网络手语识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109190578B (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190578B (zh) | 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 | |
He | Research of a sign language translation system based on deep learning | |
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
CN108932500B (zh) | 一种基于深度神经网络的动态手势识别方法及系统 | |
Saleh et al. | Arabic sign language recognition through deep neural networks fine-tuning | |
Rastgoo et al. | Sign language production: A review | |
CN108921123A (zh) | 一种基于双重数据增强的人脸识别方法 | |
CN108829677A (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
CN111259804B (zh) | 一种基于图卷积的多模态融合手语识别系统及方法 | |
CN109508669A (zh) | 一种基于生成式对抗网络的人脸表情识别方法 | |
CN107066973A (zh) | 一种利用时空注意力模型的视频内容描述方法 | |
CN107391709A (zh) | 一种基于新型注意模型进行图像字幕生成的方法 | |
CN109447242A (zh) | 基于迭代学习的图像描述重生成系统及方法 | |
CN108416065A (zh) | 基于层级神经网络的图像-句子描述生成系统及方法 | |
CN101187990A (zh) | 一种会话机器人系统 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN105139004A (zh) | 基于视频序列的人脸表情识别方法 | |
CN109858407A (zh) | 一种基于多种信息流特征和异步融合的视频行为识别方法 | |
CN108921047A (zh) | 一种基于跨层融合的多模型投票均值动作识别方法 | |
CN110175248A (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN109376250A (zh) | 基于强化学习的实体关系联合抽取方法 | |
CN107748798A (zh) | 一种基于多层视觉表达和深度网络的手绘图像检索方法 | |
CN115359394A (zh) | 一种基于多模态融合的识别方法及其应用 | |
Qin et al. | Sign language recognition and translation method based on VTN | |
Rao et al. | Selfie sign language recognition with multiple features on adaboost multilabel multiclass classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |