CN111339782A

CN111339782A - 一种基于多层次语义解析的手语翻译系统及方法

Info

Publication number: CN111339782A
Application number: CN202010103960.6A
Authority: CN
Inventors: 郭丹; 唐申庚; 刘祥龙; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-06-26
Anticipated expiration: 2040-02-20
Also published as: CN111339782B

Abstract

本发明公开了一种基于多层次语义解析的手语翻译系统及方法，该方法包括：1、使用卷积神经网络提取手语视频数据的视频帧特征；2、串联相邻的视频帧特征，并构建全连接网络学习串联后的视频帧特征，得到连续的视素单元；3、串联相邻的视素单元，并使用池化方法对串联后的视素单元进行降维压缩，得到视觉子动作特征；4、将视觉子动作特征聚类成多个动作块，并分别对每个动作块进行采样，输出一连串的动作块特征；5、构建循环神经网络，将连续的动作块特征转换成单词序列；6、使用联结主义时序分类模型将单词序列翻译成手语句子。本发明能从长时手语视频中翻译出自然语句，并提高连续手语翻译的准确性和连贯性。

Description

一种基于多层次语义解析的手语翻译系统及方法

技术领域

本发明属于多媒体信息处理领域，涉及到计算机视觉、自然语言处理、机器学习等技术，具体地说是一种基于多层次语义解析的手语翻译系统及方法。

背景技术

手语是聋哑人与外界沟通的一种重要方式，基于视觉的手语识别与翻译为健全人和失聪失声人群的交流和互动提供了便利。早期的手语识别任务主要关注于离散手语单词的识别，而现实生活中的手语基本都以句子的形式出现，因此这类技术很难用于手语应用的实际情况。

随着计算存储设备和数字化设备的使用以及多媒体技术的发展，手语视频数据体量不断增大，数据形式也越来越复杂。如何高效学习和理解这些视频数据成为了手语翻译任务中一个亟待解决的问题。现有手语翻译方式包括直接对视频的每一帧进行分析，以获取描述语句，但是这种方式会产生大量的冗余信息，而且效率比较低。现有技术中，也有通过采用3D卷积神经网络的方式来理解手语视频，但是这种方式往往会不可避免的造成局部信息的丢失，从而导致了长时连续手语翻译的结果准确度较低。

发明内容

本发明针对现有技术中存在的不足之处，提供一种基于多层次语义解析的手语翻译系统及方法，以期能实现对基于视觉的连续手语句子的翻译，并提高手语翻译的准确性。

本发明为解决技术问题采用如下的方法方案：

本发明一种基于多层次语义解析的手语翻译系统的特点包括：特征提取模块，精细层语义解析模块，粗略层语义对齐模块；

所述特征提取模块，是采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型，并使用所述特征提取模型从数据库的长时手语视频中提取视频帧特征；

所述精细层语义解析模块，是对所述视频帧特征中的多个特征进行串联和学习，得到多个视素单元，并对所视素单元进行串联和池化操作，获得多个等长的视觉子动作；再通过聚类操作，将所述视觉子动作转换成一连串的动作块，并从所述动作块中采样出相同维度尺寸的动作块特征；

所述粗略层语义对齐模块，是采用深度学习的方法搭建并训练基于循环神经网络的序列转换模型，用于对所述动作块特征所构成的序列进行转换，得到一连串解码的单词序列，并使用联结主义时序分类模型对所述单词序列进行翻译，从而输出完整的手语自然语句。

本发明一种基于多层次语义解析的手语翻译方法的特点是按如下步骤进行：

步骤1、提取视频帧特征：

采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型，并使用所述特征提取模型从数据库的长时手语视频中提取视频帧特征

其中，T表示所述长时手语视频的总帧数，f_t代表第t帧的视频帧特征；

步骤2、学习视素单元：

利用式(1)得到第n个的视素单元g_n，从而得到视素单元集合

N表示视素单元的数量：

式(1)中，f_2n-1表示第2n-1帧的视频帧特征，f_2n表示第2n帧的视频帧特征，

表示串联操作，FC(·)表示使用全连接网络进行计算；若视频帧特征总数T为奇数，则第T帧的视频帧特征；

步骤3、获取视觉子动作：

利用式(2)得到视觉子动作集合

S表示视觉子动作的数量，h_s代表第s个的视觉子动作：

H＝MaxPool([[g₁,…,g_n,…,g_N]]) (2)

式(2)中，[[…]]表示串联操作，MaxPool(·)表示最大化池化；

步骤4、聚合动作块特征：

步骤4.1：在[0,1]范围内随机设定一个相关系数阈值λ；

步骤4.2：初始化s＝1；

步骤4.3：根据式(3)计算所述视觉子动作集合H中的第s个视觉子动作h_s与其相邻视觉子动作h_s+1的相关系数Q_s：

式(3)中，hⁱ _s表示第s个视觉子动作h_s所表示的向量中第i个位置的值，hⁱ _s+1表示第s+1个视觉子动作h_s+1所表示的向量中第i个位置的值，I为视觉子动作所表示的向量的总长度；

步骤4.4：若Q_s≤λ，则将对应的相邻视觉子动作h_s和h_s+1划分为一类后，执行步骤4.5；否则，直接执行步骤4.5；

步骤4.5：将s+1赋值给s后，判断s＞S是否成立，若成立，则表示获得所述视觉子动作集合H中的所有相邻的视觉子动作之间的相关系数和分类结果；否则，返回步骤4.3执行；

步骤4.6：将连续多个被划分为一类的视觉子动作作为一个动作块，进而得到动作块序列

其中，M表示动作块的数量，k_m表示第m个动作块；

步骤4.7：对第m个动作块k_m进行固定维度的采样并得到采样后的动作块特征k′_m，从而得到动作块特征序列

步骤5、转换单词序列：

步骤5.1：采用深度学习的方法构建基于循环神经网络的序列转换模型RNN，将动作块特征序列K′输入序列转换模型RNN，从而根据式(4)得到转换后的动作块特征序列K″：

式(4)中，RNN(·)表示序列转换模型，k″_m表示转换后的第m个动作块特征；

步骤5.2：将转换后的动作块特征序列K″输入全连接网络FC(·)，从而根据式(3)计算概率得分矩阵P：

式(5)中，p_m表示转换后的第m个动作块特征k″_m对应的概率向量，根据概率向量p_m中最大值的位置得到第m个解码单词w_m，从而解码出单词序列

步骤6、翻译手语句子：

将所述单词序列W中连续重复出现的单词进行合并，再删除所有表示过渡动作的单词，从而得到处理后的单词序列并作为最终翻译输出的手语自然语句。

与现有技术相比，本发明的有益效果体现在：

1、本发明利用多种深度学习技术，提出了一种基于多层次语义解析的手语翻译系统，该系统由特征提取模块、精细层语义解析模块和粗略层语义对齐模块组成，可以充分适用于长时连续手语视频的理解与翻译，并提高了手语识别的准确性。

2、本发明提出的精细层语义解析模块中，使用卷积神经网络、池化、聚类等多种方法对提取到的视频特征逐步求精、不断化简，得到的动作块特征对手语动作具有更强的表征能力，并且易于组合得到整个视频的语义表达。

3、本发明提出的粗略层语义对齐模块中，使用循环神经网络学习动作块之间的语义相关性，并采用联结主义时序分类方法翻译经过循环神经网络解码的单词序列，输出的手语自然语句具有更好连贯性和更高的准确度。

4、本发明提出一种基于多层次语义解析的手语翻译方法，该方法中从不同层次分析组合手语视频语义的方式可以学习到不同粒度的视觉信息，先理解分析再组合对齐翻译的方式充分发掘了视频数据的空间时序关联和上下文语义连贯性，提高了连续手语翻译的整体效果。

附图说明

图1为本发明实施例中多层次语义解析手语翻译系统的模块框图；

图2为本发明实施例中多层次语义解析手语翻译系统的精细层语义解析模块的结构图；

图3为本发明实施例中多层次语义解析手语翻译系统的粗略层语义对齐模块的结构图；

图4为本发明实施例中多层次语义解析手语翻译方法的操作流程图。

具体实施方式

下面将结合附图，对本发明的具体实施技术方案进行详细说明。

本实施例中，一种基于多层次语义解析的手语翻译系统，如图1所示，包括：特征提取模块，精细层语义解析模块，粗略层语义对齐模块；

其中，特征提取模块，是采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型，并使用特征提取模型从数据库的长时手语视频中提取视频帧特征；

在本实施例中，手语视频数据库包含100个常见句子的手语视频数据，由50个人对每个句子对应的手语进行演示，共有5000个视频。

具体实施中，是将手语视频按照30帧每秒的帧率切割成连续视频帧，使用VGG网络分别提取视频帧中的每一帧提取二维的图像卷积特征，作为视频帧特征

其中T表示视频的总帧数，f_t代表第t帧的视频帧特征。

精细层语义解析模块的结构图如图2所示，是对视频帧特征中的多个特征进行串联和学习，得到多个视素单元，并对所视素单元进行串联和池化操作，获得多个等长的视觉子动作；再通过聚类操作，将视觉子动作转换成一连串的动作块，并从动作块中采样出相同维度尺寸的动作块特征；

粗略层语义对齐模块的结构图如图3所示，是采用深度学习的方法搭建并训练基于循环神经网络的序列转换模型RNN，用于对动作块特征所构成的序列进行转换，从而根据式(1)的映射关系得到一连串解码的单词序列W；再使用联结主义时序分类模型对单词序列W进行翻译，具体的说，是先将单词序列中连续重复出现的单词进行合并，再删除所有表示过渡动作的单词，从而得到处理后的单词序列并作为最终翻译输出的手语自然语句；

本实施例中，一种基于多层次语义解析的手语翻译方法，首先使用卷积神经网络提取手语视频数据的视频帧特征；接着串联相邻的视频帧特征，并构建全连接网络学习串联后的视频帧特征，得到连续的视素单元；然后串联相邻的视素单元，并使用池化方法对串联后的视素单元进行降维压缩，得到视觉子动作特征；接下来将视觉子动作特征聚类成多个动作块，并分别对每个动作块进行采样，输出一连串的动作块特征；再构建循环神经网络，将连续的动作块特征转换成单词序列；最后使用联结主义时序分类模型将单词序列翻译成手语句子。如图4所示，具体的说，包括如下步骤：

步骤1、提取视频帧特征：

获取连续手语视频数据库，并将数据库中的视频数据划分为训练数据集和测试数据集两部分。划分的训练数据集包含4000个视频，测试数据集包含1000个视频。每条数据同时RGB视频数据和对应的手语自然语句。

将手语视频按照30帧每秒的帧率切割成连续视频帧序列，采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型，并使用特征提取模型对切割后的连续视频帧序列提取视频帧特征

其中T表示长时手语视频的总帧数，f_t代表第t帧的视频帧特征；

步骤2、学习视素单元：

将视频帧特征F中所有相邻特征两两作为一组，并根据式(2)进行串联和学习，得到多个视素单元

其中N表示视素单元的数量，g_n代表第n个的视素单元：

式(1)中，

表示串联操作，FC(·)表示使用全连接网络进行计算。若视频帧特征总数为奇数，则舍弃F中最后一个的特征；

步骤3、获取视觉子动作：

将视素单元G中的所有单元依次进行堆叠，并使用最大化方法对堆叠后的视素单元进行池化，得到多个视觉子动作

其中S表示视觉子动作的数量，h_s代表第s个的视觉子动作，计算过程如式(3)所示：

式(2)中，[[…]]表示串联操作，MaxPool(·)表示最大化池化；

步骤4、聚合动作块特征：

步骤4.1：在[0,1]范围内随机设定一个相关系数阈值λ；

步骤4.2：初始化s＝1；

步骤4.3：根据式(4)计算视觉子动集合作H中的第s个视觉子动作h_s与其相邻视觉子动作h_s+1的相关系数Q_s：

式(3)中，D(a,b)表示计算向量a和向量b的相关系数，hⁱ _s表示第s个视觉子动作h_s所表示的向量中第i个位置的值，hⁱ _s+1表示第s+1个视觉子动作h_s+1所表示的向量中第i个位置的值，I为视觉子动作所表示的向量的总长度；

步骤4.4：比较相关系数Q_s和相关系数阈值λ的大小，若相关系数小于等于预设系数阈值时，则将对应的相邻视觉子动作h_s和h_s+1划分为一类后，执行步骤4.5；否则，直接执行步骤4.5；

步骤4.5：将s+1赋值给s后，判断s＞S是否成立，若成立，则表示获得视觉子动作H中的所有相邻的子动作之间的相关系数和分类结果；否则，返回步骤4.3执行；

其中，M表示动作块的数量，k_m表示第m个动作块；

步骤4.,7：从第m个动作块k_m进行固定维度的采样并得到采样后的动作块特征k′_m，从而得到动作块特征序列

步骤5、转换单词序列：

步骤5.1：采用深度学习的方法构建基于循环神经网络的序列转换模型RNN，将动作块特征序列K′输入序列转换模型RNN，从而计算得到转换后的动作块特征序列K″；

在本实施例中，使用LSTM循环神经网络作为序列转换模型，先根据式(5)计算得到转换更新后的动作块特征序列K″：

式(5)中，LSTM(·)表示LSTM循环神经网络，k″_m表示转换更新后的第m个动作块特征。

步骤5.2：将转换后的动作块特征序列K″输入全连接网络FC(·)，并根据式(6)计算概率得分矩阵P：

式(6)中，p_m表示转换后的第m个动作块特征

对应的概率向量，根据概率向量p_m中最大值的位置得到其解码单词w_m，从而解码出整个单词序列

步骤6、翻译手语句子：

先将单词序列W中连续重复出现的单词进行合并，再删除所有表示过渡动作的单词，从而得到处理后的单词序列并作为最终翻译输出的手语自然语句。

综上所述，本发明提出的一种基于多层次语义解析的手语翻译系统及方法，解决了连续手语翻译过程中视频数据语义理解的问题，通过多层次的精细语义解析使得手语视频的空间时序表示更加准确；采用的粗略层语义对齐模块避开了连续手语建模中时序动作分割的难题；该连续手语翻译系统及方法有效提升了长时手语视频翻译的性能。