CN109190578A

CN109190578A - 基于时域卷积网络与循环神经网络融合的手语视频翻译方法

Info

Publication number: CN109190578A
Application number: CN201811070290.1A
Authority: CN
Inventors: 郭丹; 王硕; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2019-01-11
Anticipated expiration: 2038-09-13
Also published as: CN109190578B

Abstract

本发明公开了一种基于时域卷积网络与循环神经网络融合的连续手语视频翻译方法，包括以下步骤：手语视频的特征提取和单词表的构建；时域卷积网络TCN的处理；双向循环神经网络BGRU的处理；特征的单词映射过程；融合网络FL的处理；基于时域卷积网络TCN与双向循环神经网络BGRU融合的网络模型参数优化；单词编码向量的融合与解码。本发明是能够利用不同视角的网络结构来有效的克服手语翻译因为解释的不准确而带来的沟通障碍，利用不同网络对数据的不同表现形式进行学习与分析，进一步的提高手语翻译的准确性，增加手语翻译的鲁棒性。

Description

基于时域卷积网络与循环神经网络融合的手语视频翻译方法

技术领域

本发明属于计算机视觉技术领域，涉及到模式识别、自然语言处理、人工智能等技术，具体地说是一种基于时域卷积网络与循环神经网络融合的连续手语视频翻译方法。

背景技术

手语是正常人与聋哑人交流沟通的一种方式，其通常由手语使用者的肢体动作，关节动作及面部表情组成的一系列具有实际意义的动作。但是，未学过手语的正常人与手语使用者之间往往存在着沟通障碍。因此，如何捕捉手语使用者的姿态等信息并转为正常人可以理解的信息逐渐被人们重视起来。一个好的手语翻译系统可以捕捉手语使用者的姿态等信息并将其转换成文字，方便人们理解手语使用者表达的意思。手语翻译成为了人们之间无障碍交流的桥梁，因此手语翻译有着广泛的应用前景，同时也是计算机视觉与模式识别的重要研究课题之一。

目前，手语翻译仍然是计算机领域中的难题之一。首先是手语使用者自身因为身材，手语速度，手语习惯等不同，导致手语展现的情况也错综复杂，这也增加了识别的难度。因此，正确识别手势动作所表达的意思任然有很大的提升空间。进一步的，多手势的手语视频在现实生活中更有意义，它的特点是在一整段连续的手语手势中翻译出一整句有意义的句子，其中连续的手语手势序列与所需要翻译出的句子并没有一一对应的关系，且手语使用的时候也没有明显的手势切换的边界，这也为手语识别带来了难度。因此，手语翻译不仅仅是要学习手语手势单词与语言的单词之间的关系，还要学习正确的文本序列，使得手语翻译更具有挑战性。

手语翻译主要含有两个过程，一个是手语视频特征的提取，另一个是序列模型的学习。其中手语视频特征的提取是最基本的过程，一个合适的特征提取方法可以有效地改善手语识别的效果，进一步的提高手语翻译的准确性。目前常见的特征有身体骨架特征，视觉词袋特征，梯度直方图特征等传统特征以及使用卷积神经网络模型的特征。这些特征的缺点是在提取特征时候，只关注每一个视频帧的信息，而忽略了连续视频中帧与帧之间的关联信息和变化信息，进而影响后续识别的效果。

在序列模型的学习过程中，常用的模型有支持向量机，动态时间规整算法以及隐马尔可夫模型，等传统模型，这些模型更适合于识别与翻译单个手语单词，对连续的并包含多个手势动作的视频难以学习，也难以学习到动作与单词之间的的语义对应关系，因而无法有效地对连续的手语句子进行翻译。

发明内容

本发明是为了克服现有技术存在的不足之处，提出一种基于时域卷积网络与循环神经网络融合的连续手语视频翻译方法，以期实现对于手语句子的快速翻译，从而提高手语翻译的精确性，增强手语翻译的鲁棒性。

本发明为解决技术问题采用如下技术方案：

本发明一种基于时域卷积网络与循环神经网络融合的手语视频翻译方法的特点是按如下步骤进行：

步骤1、手语视频的特征提取和单词表的构建

从手语视频数据库中获取任意一个带有翻译句子标签的手语视频V，对所述手语视频V进行帧级别的分割，得到所述手语视频V的切片集合其中c_k表示视频V中第k个切片，K_v为所述手语视频V的总切片数，k＝1,2,...,K_v；

使用3D卷积神经网络提取第k个切片c_k的特征，得到第k个切片的卷积特征f_k，且f_k∈dim_f，dim_f表示所述第k个切片的卷积特征f_k的维度，从而得到所述手语视频V的卷积特征集合

利用所述手语视频数据库中所有手语视频各自的翻译句子标签构造单词表，并对所述单词表中所有的单词按照出现次数从高到低进行编号，从而构建单词索引表Voc；

步骤2、时域卷积网络TCN的处理；

步骤2.1、将所述手语视频V的卷积特征集合F_V转换为K_v×dim_f维视频特征矩阵M_V；

步骤2.2、对所述视频特征矩阵M_V进行切片维度的补零处理，得到处理后的(1+K_v+1)×dim_f维输入特征矩阵M′_V，

步骤2.3、定义时域卷积网络TCN中第一层卷积核为Conv₁＝[n₁,2,dim_f]，其中n₁为第一层卷积核的个数，并设置第一次卷积的步幅长为1；

步骤2.4、对所述处理后的输入特征矩阵M′_V进行一次卷积操作之后得到中间层(1+K_v)×n₁维过渡特征矩阵O_T1；

步骤2.5、定义时域卷积网络TCN中第二层卷积核为Conv₂＝[n₂,2,n₁]；其中n₂为第二层卷积核的个数，n₂为处理后的渡特征矩阵O_T1的特征长度，并设置第二次卷积的步幅长为1；

步骤2.4、对所述中间层(1+K_v)×n₁维渡特征矩阵O_T1进行二次卷积操作之后得到K_v×n₂维时域卷积操作的输出特征矩阵O_T2；

步骤2.5、将所述K_v×n₂维时域卷积操作的输出特征矩阵O_T2转换为时域卷积网络TCN输出特征序列其中表示所述手语视频V中时域卷积网络TCN输出的第k个切片特征；

步骤3、双向循环神经网络BGRU的处理；

步骤3.1将所述手语视频V的卷积特征集合F_V转换为K_v个dim_f维视频特征序列

步骤3.2使用双向循环网络BGRU计算视频特征序列F′_V中从第1个切片f₁′到第K_v个切片的切片隐状态前向表达特征序列以及第K_v个切片到第1个切片f₁′的隐状态后向表达特征序列其中h_k与h_k分别表示所述手语视频V中双向循环神经网络BGRU输出的第k个切片前向切片特征与第k个后向切片特征；

步骤3.3将第k个前向切片特征h_k与对应的第k个后向切片特征h_k进行拼接操作，得到所述手语视频V中双向循环神经网络BGRU输出的第k个切片的特征从而得到双向循环神经网络BGRU输出特征序列

步骤4、特征的单词映射过程

步骤4.1、利用全连接操作将所述时域卷积网络TCN输出特征序列O_VT映射到与所述单词索引表Voc同一维度的空间中，得到时域卷积网络TCN输出的单词编码集合其中表示所述手语视频V中时域卷积网络TCN输出的第k个切片的单词编码向量，且向量长度与单词个数相同；

步骤4.2、利用全连接操作将所述双向循环神经网络BGRU输出特征序列O_VB映射到与所述单词索引表Voc同一维度的空间中，得到双向循环神经网络BGRU输出的单词编码集合其中表示所述手语视频V中双向循环神经网络BGRU输出的第k个切片的单词编码向量，且向量长度与单词个数相同；

步骤5、融合网络FL的处理

步骤5.1、将所述手语视频V中时域卷积网络TCN输出的第k个切片特征与双向循环神经网络BGRU输出的第k个切片特征进行拼接，得到融合网络FL的第k个输入从而得到融合网络FL的输入特征序列

步骤5.2、利用两层全连接操作将所述融合网络FL的输入特征序列I_V映射到与所述单词索引表Voc同一维度的空间中，得到融合网络FL输出的单词编码集合其中表示所述手语视频V中融合网络FL输出的第k个切片的单词编码向量，且向量长度与单词个数相同；

步骤6、基于时域卷积网络TCN与双向循环神经网络BGRU融合的网络模型参数优化

步骤6.1、筛选出所述手语视频V中时域卷积网络TCN输出的第k个切片的单词编码向量中最大值所对应的位置，根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为所述时域卷积网络TCN输出的第k个切片解码的单词从而得到时域卷积网络TCN对所述手语视频V解码得到的单词序列为

步骤6.2、筛选出所述手语视频V中双向循环神经网络BGRU输出的第k个切片的单词编码向量中最大值所对应的位置，根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为所述双向循环神经网络BGRU输出的第k个切片解码的单词从而得到双向循环神经网络BGRU对所述手语视频V解码得到的单词序列

步骤6.3、筛选出所述手语视频V中融合网络FL输出的第k个切片的单词编码向量中最大值所对应的位置，根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为所述融合网络FL输出的第k个切片解码的单词从而得到融合网络FL对所述手语视频V解码得到的单词序列

步骤6.4、利用式(1)计算联结主义时态分类CTC的损失熵E：

式(1)中，P_V表所示所述手语视频V的所有翻译句子标签；

步骤6.5、利用随机梯度下降法所述联结主义时态分类CTC的损失熵E进行优化求解，使损失熵E达到最小，从而得到最优参数的基于时域卷积网络TCN与双向循环神经网络BGRU融合的网络模型；

步骤7、单词编码向量的融合与解码

步骤7.1、对所述时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL生成的第k个切片的单词编码向量与分别进行归一化处理，得到归一化后的时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL的第k个向量与

步骤7.2、将所述归一化后的时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL的第k个向量与进行加权平均处理，得到网络输出的第k个单词编码向量

步骤7.3、筛选出所述手语视频V的网络输出第k个单词编码向量中最大值所对应的位置，根据最大值所对应的位置在单词索引表Voc中查找相应位置单词作为最终的第k个切片c_k解码的单词进而得到所述手语视频V的最终单词解码序列

步骤7.4、对最终单词解码序列W_S使用贪心解码算法生成所述手语视频V的翻译句子。与已有技术相比，本发明的有益效果体现在：

1、本发明利用不同的网络对不同形式的特征进行学习，同时利用融合网络对两个子网络进行进一步的优化；在优化的同时，各网络的输出可以被解码成独立的单词并组合成有意义的句子，从而能够有效克服手语使用者的外观形体以及手语习惯各异的复杂情况的影响，并且学得句子中手语单词之间语义关系，并学习手势动作与单词的对应关系，最终学习连续手语所表达的意思。该模型较现有的只用一种网络方法的模型有了更准确的翻译效果。

2、本发明提出了一种基于时域卷积网络与循环神经网络融合的连续手语视频翻译模型，该模型的时域卷积可以捕捉手语序列中短时序的变化信息，循环网络可以同步整个时序上序列的信息，两种信息互相补充，从不同的时域角度获取手语表达的信息。因此，循环网络在时域卷积的帮助下，较原先的循环网络有着更精确的翻译结果；时域卷积网络在循环网络发辅助下，也对视频切片识别的更加准确。

3、本发明提出了一种网络融合结构，该结构可以同时捕捉时域卷积网络与循环卷积网络的各自获取的信息，并进行学习与融合，进一步的，时域卷积网络与循环卷积网络可以通过融合网络互相产生影响，并辅助优化网络的参数。融合网络同时获取了时域卷积网络与循环卷积网络的信息之后，翻译的结果较两个子网络有着很大的提升，翻译结果也更精确。

4、本发明进一步的提出了一种解码融合方法，对三种网络结构的翻译结果进行融合，并提升了整个翻译过程的准确性。

附图说明

图1为本发明的流程图；

图2a为本发明TCN示意图；

图2b为本发明BGRU示意图。

具体实施方式

本实施例中，如图1所示，一种基于时域卷积网络与循环神经网络融合的手语视频翻译方法是充分提取手语视频中的空间特征与时序特征，对识别度高的关键动作的特征进行有效地学习，并有效避免模型学习过程中受到手语者体形、手语速度、手语习惯等影响因素的干扰。其步骤包括：

首先对原始手语视频进行预处理，提取手语视频特征；再同步使用两种不同的网络结构(时域卷积网络TCN和双向循环神经网络BGRU)对连续手语视频特征进行编码并输出每一切片单词生成的概率；接着对子网络的中间层的输出进行拼接送至融合网络(FL)进行学习并生成单词序列；最后对三种网路生成的单词特征向量进行融合得到最终的解码向量，再对这些解码向量进行解码和重组得到完整的文字序列，组成句子；具体地说，包括如下步骤：

步骤1、手语视频的特征提取和单词表的构建

从手语视频数据库中获取任意一个带有翻译句子标签的手语视频V，对手语视频V进行帧级别的分割，得到手语视频V的切片集合其中c_k表示视频V中第k个切片，K_v为手语视频V的总切片数，k＝1,2,...,K_v；

使用3D卷积神经网络提取第k个切片c_k的特征，得到第k个切片的卷积特征f_k，且f_k∈dim_f，dim_f表示第k个切片的卷积特征f_k的维度，从而得到手语视频V的卷积特征集合

手语视频特征，例如可以采用、HOG特征、骨架节点特征、二维卷积特征、三维卷积特征等；本实施例中，可以采用三维卷积神经网络模型ResNet3D三维卷积神经网络对视频特征进行特征提取；相比二维卷积网络，3D卷积神经网络既可以捕捉视频每一帧的空间信息还可以利用时序上的计算捕获每一帧之间的变化信息。3D-ResNet是一种3D卷积神经网络，它被证明了有很强的视觉信息表达能力，因此我们将3D-ResNet作为实验的特征提取器。我们将手语视频进行切片处理，每一个被切的块含有8帧数据，并且相邻的两个块之间有重叠50％；接着使用3D-ResNet对每一块进行特征提取。

利用手语视频数据库中所有手语视频各自的翻译句子标签构造单词表，并对单词表中所有的单词按照出现次数从高到低进行编号，从而构建单词索引表Voc；

创建单词表Voc的方法：单词表可以包含单词、标点符号；统计单词的个数并对单词进行排序，其中为了满足优化的训练过程，添加了一个空白符。对所有单词按照顺序构建单词与序号的对应表。

步骤2、时域卷积网络TCN的处理；

步骤2.1、将手语视频V的卷积特征集合F_V转换为K_v×dim_f维视频特征矩阵M_V；

卷积操作只能对矩阵类型的特征进行计算，因此将特征转换成矩阵形式是有必要的。

步骤2.2、对视频特征矩阵M_V进行切片维度的补零处理，得到处理后的(1+K_v+1)×dim_f维输入特征矩阵M′_V，

卷积的性质会导致卷积后的大小会小于输入的特征的大小，为了保持大小的一致性，我们采用补零操作来保持后续计算结果与输入大小保持一致。

步骤2.4、对处理后的输入特征矩阵M′_V进行一次卷积操作之后得到中间层(1+K_v)×n₁维过渡特征矩阵O_T1；

步骤2.4、对中间层(1+K_v)×n₁维渡特征矩阵O_T1进行二次卷积操作之后得到K_v×n₂维时域卷积操作的输出特征矩阵O_T2；

为了适合后续的单词映射与融合操作，我们需要将输出结果转成与后面一致的形式。

步骤2.5、将K_v×n₂维时域卷积操作的输出特征矩阵O_T2转换为时域卷积网络TCN输出特征序列其中表示手语视频V中时域卷积网络TCN输出的第k个切片特征；

如图2a时域卷积网络TCN每一次卷积都针对相邻两个切片进行操作，因而，根据卷积网络的特性，两次卷积后的特征向量同时计算了原始特征的相邻三个切片的数据，该数据可以很好的描述局部动作的变化信息。

步骤3、双向循环神经网络BGRU的处理；

步骤3.1将手语视频V的卷积特征集合F_V转换为K_v个dim_f维视频特征序列

步骤3.2使用双向循环网络BGRU计算视频特征序列F′_V中从第1个切片f₁′到第K_v个切片的切片隐状态前向表达特征序列以及第K_v个切片到第1个切片f₁′的隐状态后向表达特征序列其中h_k与h_k分别表示手语视频V中双向循环神经网络BGRU输出的第k个切片前向切片特征与第k个后向切片特征；

步骤3.3将第k个前向切片特征h_k与对应的第k个后向切片特征h_k进行拼接操作，得到手语视频V中双向循环神经网络BGRU输出的第k个切片的特征从而得到双向循环神经网络BGRU输出特征序列

如图2b循环神经网络BGRU的每一帧输出都与前后所有切片有关，即观测了整个视频的表达，该输出可以描述当前切片在整个视频中所表达的意思。

步骤4、特征的单词映射过程

为了将网络学习的特征进行合理的优化，需要将网络输出的得分与真实的单词进行比较。

步骤4.1、利用全连接操作将时域卷积网络TCN输出特征序列O_VT映射到与单词索引表Voc同一维度的空间中，得到时域卷积网络TCN输出的单词编码集合其中表示手语视频V中时域卷积网络TCN输出的第k个切片的单词编码向量，且向量长度与单词个数相同；

步骤4.2、利用全连接操作将双向循环神经网络BGRU输出特征序列O_VB映射到与单词索引表Voc同一维度的空间中，得到双向循环神经网络BGRU输出的单词编码集合其中表示手语视频V中双向循环神经网络BGRU输出的第k个切片的单词编码向量，且向量长度与单词个数相同；

步骤5、融合网络FL的处理

步骤5.1、将手语视频V中时域卷积网络TCN输出的第k个切片特征与双向循环神经网络BGRU输出的第k个切片特征进行拼接，得到融合网络FL的第k个输入从而得到融合网络FL的输入特征序列

步骤5.2、利用两层全连接操作将融合网络FL的输入特征序列I_V映射到与单词索引表Voc同一维度的空间中，得到融合网络FL输出的单词编码集合其中表示手语视频V中融合网络FL输出的第k个切片的单词编码向量，且向量长度与单词个数相同；

融合网络FL同时捕捉了时域卷积网络TCN与双向循环神经网络BGRU的特征表达，即在考虑到长时序信息的同时同步的计算短时序的信息；相应的，该网络也通过将特征映射到词空间中进行优化；此外，通过融合网络的优化过程，两个前端网络也可以互相对对方产生影响，即时域卷积网络在计算局部特征的时候会考虑到长时序的信息，循环网络在计算全局动作信息的时候会结合局部时序信息对当前计算产生影响。

网络的优化是基于单词的基础之上的，因此需要先将网络的输出解码成独立的单词再计算损失熵。

步骤6.1、筛选出手语视频V中时域卷积网络TCN输出的第k个切片的单词编码向量中最大值所对应的位置，根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为时域卷积网络TCN输出的第k个切片解码的单词从而得到时域卷积网络TCN对手语视频V解码得到的单词序列为

步骤6.2、筛选出手语视频V中双向循环神经网络BGRU输出的第k个切片的单词编码向量中最大值所对应的位置，根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为双向循环神经网络BGRU输出的第k个切片解码的单词从而得到双向循环神经网络BGRU对手语视频V解码得到的单词序列

步骤6.3、筛选出手语视频V中融合网络FL输出的第k个切片的单词编码向量中最大值所对应的位置，根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为融合网络FL输出的第k个切片解码的单词从而得到融合网络FL对手语视频V解码得到的单词序列

步骤6.4、利用式(1)计算联结主义时态分类CTC的损失熵E：

式(1)中，P_V表所示手语视频V的所有翻译句子标签；

步骤6.5、利用随机梯度下降法联结主义时态分类CTC的损失熵E进行优化求解，使损失熵E达到最小，从而得到最优参数的基于时域卷积网络TCN与双向循环神经网络BGRU融合的网络模型；

联结主义时态分类CTC是自适应对齐算法，它允许我们的神经网络在任意一个时间段预测label，只需要是输出的序列顺序保持正确。该过程同步的对三种网络进行优化，三种网络可以在优化的过程中互相影响，并同步生成一系列单词；时域卷积网络TCN与双向循环神经网络BGRU会直接影响融合网络FL的表达，同步的，融合网络的参数会影响并优化时域卷积网络TCN与双向循环神经网络BGRU，在融合网络FL的指导下，时域卷积网络TCN与双向循环神经网络BGRU也互相产生了影响，此外，各自网络均由联结主义时态分类CTC进行优化，也就是说，在互相影响的同时，自身网络也在向生成更准确的单词进行优化。

步骤7、单词编码向量的融合与解码

步骤7.1、对时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL生成的第k个切片的单词编码向量与分别进行归一化处理，得到归一化后的时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL的第k个向量与

步骤7.2、将归一化后的时域卷积网络TCN、双向循环神经网络BGRU与融合网络FL的第k个向量与进行加权平均处理，得到网络输出的第k个单词编码向量

步骤7.3、筛选出手语视频V的网络输出第k个单词编码向量中最大值所对应的位置，根据最大值所对应的位置在单词索引表Voc中查找相应位置单词作为最终的第k个切片c_k解码的单词进而得到手语视频V的最终单词解码序列

步骤7.4、对最终单词解码序列W_S使用贪心解码算法生成手语视频V的翻译句子。

本方法中对视频的每一个切片都进行了单词的翻译，利用贪心解码算法可以将连续的相同的单词进行剔除，如：“我有有一本书书”，翻译成“我有一本书”。

综上，本发明的意义在于：1本发明提出的基于时域卷积网络与循环神经网络融合的方法可以实现对于连续手语序列的翻译，编码过程对视频特征进行学习，得到视频表达，并在解码过程利用语义生成文字序列，从而实现连续手语序列翻译；2编码过程中既用时域卷积网络捕捉短时序的动作表达还融入了循环网络对时序性进行了学习，3设计了融合网络同时对两种不同的网络进行优化，并且，在网络学习的过程中，两个子网络可以通过融合网络互相产生影响，从而相互获取另一种网络的不同信息，4在生成句子的过程中提出了融合方式用于生成更准确的句子。

Claims

1.一种基于时域卷积网络与循环神经网络融合的手语视频翻译方法，其特征是按如下步骤进行：

步骤1、手语视频的特征提取和单词表的构建

步骤2、时域卷积网络TCN的处理；

步骤3、双向循环神经网络BGRU的处理；

步骤4、特征的单词映射过程

步骤5、融合网络FL的处理

步骤6.4、利用式(1)计算联结主义时态分类CTC的损失熵E：

式(1)中，P_V表所示所述手语视频V的所有翻译句子标签；

步骤7、单词编码向量的融合与解码

步骤7.3、筛选出所述手语视频V的网络输出第k个单词编码向量中最大值所对应的位置，根据最大值所对应的位置在单词索引表Voc中查找相应位置单词作为最终的第k个切片c_k解码的单词进而得到所述手语视频V的最终单词解码序列步骤7.4、对最终单词解码序列W_S使用贪心解码算法生成所述手语视频V的翻译句子。