CN111259804B

CN111259804B - 一种基于图卷积的多模态融合手语识别系统及方法

Info

Publication number: CN111259804B
Application number: CN202010049714.7A
Authority: CN
Inventors: 郭丹; 唐申庚; 刘祥龙; 洪日昌; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2023-03-14
Anticipated expiration: 2040-01-16
Also published as: CN111259804A

Abstract

本发明公开了一种基于图卷积的多模态融合手语识别系统及方法，该系统包括：特征提取模块，特征融合模块，序列学习模块和对齐翻译模块；该方法包括：1使用卷积神经网络和图神经网络分别对手语视频数据库提取视频帧的颜色、深度和骨架特征；2组合多模态特征，并通过多模态序列融合网络融合特征；3构建双向循环神经网络对融合后的一连串片段级别特征进行序列学习；4、过联结主义时序分类模型对齐特征序列，并翻译出完整的手语句子。本发明能实现对连续手语句子的翻译，并提高连续手语翻译的准确性。

Description

一种基于图卷积的多模态融合手语识别系统及方法

技术领域

本发明属于多媒体信息处理领域，涉及到计算机视觉、自然语言处理、深度学习等技术，具体地说是一种基于图卷积的多模态融合手语识别系统及方法。

背景技术

健全人可以使用口头语言便捷交流，而失聪者或失声者则需要通过手语传达自己的想法。由于大部分健全人缺少手语教育的基础，推广手语用于正常社会沟通存在障碍。科技向善，手语识别技术在一定程度上为失聪失声人群融入社会提供了便利。

早期的手语识别研究关注于离散性手语识别，其本质上是一种特殊的视频分类问题。随着视频理解技术的发展，连续性手语翻译吸引越来越多的关注。

由于视频数据复杂繁多，现有的手语识别存在很多弊端，尤其是在多模态数据的表征和融合方面。现有手语识别方法在使用多种模态源的数据时，常常忽略了不同模态之间的互补关联，而对其进行暴力融合，融合特征的鲁棒性较差；另一方面，在特征学习过程中对视频数据流中的时间和空间特性发掘较少，没有充分利用手语特征的时间变化特性，从而导致了手语翻译的结果连贯性差、精确度较低。

发明内容

本发明针对现有技术中存在的不足之处，提供一种基于图卷积的多模态融合手语识别系统及方法，以期能实现对连续手语句子的翻译，并提高手语识别的准确性。

本发明为解决技术问题采用如下的方法方案：

本发明一种基于图卷积的多模态融合手语识别系统的特点包括：特征提取模块，特征融合模块，序列学习模块和对齐翻译模块；

所述特征提取模块，是从手语视频数据库中提取视频帧的颜色特征、深度特征和骨架特征，并对提取到的所有特征进行维度对齐，得到多模态特征；

所述特征融合模块，是采用深度学习的方法搭建并训练基于3D卷积神经网络和图卷积网络的多模态序列特征融合模型，并使用所述多模态特征融合模型对所述多模态特征进行融合，得到片段融合特征；

所述序列学习模块，是采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型，用于对多个片段融合特征所构成的序列进行转换，得到一连串解码的单词序列；

所述对齐翻译模块，是使用联结主义时序分类方法对所述单词序列进行解码翻译，最终输出完整的手语句子。

本发明所述的多模态融合手语识别系统的特点也在于，所述特征提取模块使用ResNet-18网络提取颜色特征和深度特征；并以人体关节的自然连接为边、以关节点为节点建立空间图结构，从而使用空间图神经网络对所述空间图结构进行学习，并得到所述骨架特征；

将所述颜色特征、深度特征和骨架特征处理成相同的尺寸，从而得到多模态特征，所述多模态特征包括空间、时间和模态三个维度。

所述特征融合模块包括以下步骤：

步骤a：采用深度学习方法搭建两个并行的3D卷积神经网络分别对多模态特征的空间维度和时间维度进行卷积操作，得到两路特征并相加后输出组合特征；

步骤b：在相邻帧和间隔帧之间分别建立时序边，并在所述时间维度中同一时刻下的不同模态帧之间建立模态边，以所述时间维度中不同时刻下的不同模态帧的特征为图结构的节点、以时序边和模态边为图结构的边，从而构建多模态序列的图卷积网络；

步骤c：将所述组合特征输入所述多模态序列的图卷积网络中进行训练并融合，从而得到更新后的组合特征；

步骤d：以所述更新后的组合特征作为所述多模态特征后，返回步骤a-步骤c，得到再次更新后的组合特征作为片段融合特征。

所述对齐翻译模块是先将所述单词序列中连续重复出现的单词合并在一起，再移除所有表示过渡动作的单词，从而得到处理后的单词序列并作为最终翻译输出的手语句子。

本发明一种基于图卷积的多模态融合手语识别方法的特点是按如下步骤进行：

步骤1、使用ResNet-18网络从手语视频数据库中提取视频帧的颜色特征和深度特征；以人体关节的自然连接为边、以关节点为节点建立空间图结构，从而使用空间图神经网络对所述空间图结构进行学习，并得到所述骨架特征；

步骤2、将所述颜色特征、深度特征和骨架特征处理成相同的尺寸，从而得到多模态特征，所述多模态特征包括空间、时间和模态三个维度；

步骤3、采用深度学习方法搭建两个并行的3D卷积神经网络分别对多模态特征的空间维度和时间维度进行卷积操作，得到两路特征并相加后输出组合特征；

步骤4、在相邻帧和间隔帧之间分别建立时序边，并在所述时间维度中同一时刻下的不同模态帧之间建立模态边，以所述时间维度中不同时刻下的不同模态帧的特征为图结构的节点、以时序边和模态边为图结构的边，从而构建多模态序列的图卷积网络；

步骤5、将所述组合特征输入所述多模态序列的图卷积网络中进行训练并融合，从而得到更新后的组合特征；

步骤6、以所述更新后的组合特征作为所述多模态特征后，返回步骤3-步骤5，得到再次更新后的组合特征作为片段融合特征；

步骤7、采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型，用于对多个片段融合特征所构成的序列进行转换，得到一连串解码的单词序列；

步骤8、使用联结主义时序分类方法对所述单词序列中连续重复出现的单词合并在一起，再移除所有表示过渡动作的单词，从而得到处理后的单词序列并作为最终翻译输出的手语句子。

与现有技术相比，本发明的有益效果体现在：

1、本发明利用多种深度学习技术，提出了基于图卷积的多模态融合手语识别系统，该系统由特征提取模块、特征融合模块、序列学习模块和对齐翻译模块组成，可以充分适用于翻译包含多种模态数据的连续手语视频，并提高了手语识别的准确性。

2、本发明提出的特征提取模块中，使用ResNet-18网络和空间图神经网络分别提取颜色特征、深度特征和骨架特征，得到的多模态特征具有更强的表征能力。

3、本发明提出的对齐翻译模块中，使用联结主义时序分类方法将解码的单词序列翻译并输出手语句子，增强了连续手语翻译的连贯性和准确度。

4、本发明提出一种基于图卷积的多模态融合手语识别方法，该方法中的并行的3D卷积神经网络和多模态序列的图卷积网络可以进行空间时序信息学习和多模态特征融合，从而充分发掘多模态序列中的时序关联和模态互补性，提高了融合特征的鲁棒性。

附图说明

图1为本发明实施例中多模态融合手语识别系统的结构示意图；

图2为本发明实施例中多模态融合手语识别系统的特征融合模块的结构框图；

图3为本发明实施例中多模态融合手语识别方法的操作流程图。

具体实施方式

下面将结合附图，对本发明的具体实施技术方案进行详细说明。

本实施例中，一种基于图卷积的多模态融合手语识别系统，如图1所示，包括：特征提取模块，特征融合模块，序列学习模块和对齐翻译模块。

其中，特征提取模块，是从手语视频数据库中提取视频帧的颜色特征u^c、深度特征u^d和骨架特征u^s，并对提取到的所有特征进行维度对齐，得到多模态特征f；

在本实施例中，手语视频数据库包含100个常见句子的手语视频数据，由50个人对每个句子对应的手语进行演示，共有5000个视频。

具体实施中，是使用ResNet-18网络提取颜色特征和深度特征；并以人体关节的自然连接为边、以关节点为节点建立空间图结构，从而使用空间图神经网络对空间图结构进行学习，并得到骨架特征；

将颜色特征、深度特征和骨架特征处理成相同的尺寸，从而得到多模态特征f，多模态特征包括空间、时间和模态三个维度。在本实施例中，处理后的颜色特征、深度特征和骨架特征的尺寸均为N×512，其中N表示视频的总帧数。每个多模态特征的维度大小为M×T×S，其中模态维度的值M为3，时间维度的值T为8，空间维度的值S为512。

特征融合模块的结构框图如图2所示，是采用深度学习的方法搭建并训练基于3D卷积神经网络和图卷积网络的多模态序列特征融合模型，并使用多模态特征融合模型对多模态特征f进行融合，得到片段融合特征

具体来说，包括以下步骤：

步骤b：在相邻帧和间隔帧之间分别建立时序边E^T，并在时间维度中同一时刻下的不同模态帧之间建立模态边E^M，以时间维度中不同时刻下的不同模态帧的特征为图结构的节点V、以时序边和模态边为图结构的边E，从而构建多模态序列的图卷积网络G；

步骤c：将组合特征输入多模态序列的图卷积网络中进行训练并融合，从而得到更新后的组合特征f_g；

步骤d：以更新后的组合特征f_g作为多模态特征后，返回步骤a-步骤c，得到再次更新后的组合特征

作为片段融合特征。

序列学习模块，是采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型，用于对多个片段融合特征所构成的序列进行转换，得到一连串解码的单词序列W；

对齐翻译模块，是使用联结主义时序分类方法对单词序列进行解码翻译，最终输出完整的手语句子。具体的说，是先将单词序列W中连续重复出现的单词合并在一起，再移除所有表示过渡动作的单词，从而得到处理后的单词序列并作为最终翻译输出的手语句子

本实施例中，一种基于图卷积的多模态融合手语识别方法是先使用ResNet-18网络和空间图卷积网络分别对手语视频数据库提取视频帧的颜色特征、深度特征和骨架特征；接下来，组合三种特征得到，并将多模态特征输入3D卷积神经网络和多模态序列的图卷积网络进行融合并得到组合特征；然后，构建双向循环神经网络对融合后的片段融合特征进行序列学习；最后，通过联结主义时序分类模型对齐的片段融合特征序列，并翻译出手语句子。如图3所示，具体的说，包括如下步骤：

步骤1、获取多模态手语视频数据库，并将数据库中的视频数据划分为训练数据集和测试数据集两部分。划分的训练数据集包含4000个视频，测试数据集包含1000个视频。每条数据同时包含颜色视频video_c、深度视频video_d、全部时刻的骨架点坐标video_k和对应的手语句子。

将颜色视频和深度视频分别切割成帧序列，使用ResNet-18网络从手语视频数据库的颜色帧序列和深度帧序列中提取视频帧的颜色特征

和深度特征

其中

和

分别代表第n帧的颜色特征和深度特征；以人体关节的自然连接为边、以关节点为节点建立空间图结构，从而使用空间图神经网络对空间图结构进行学习，并得到骨架特征

其中

代表第n帧的骨架特征；

步骤2、将颜色特征、深度特征和骨架特征处理成相同的尺寸，从而得到多模态特征f，多模态特征包括空间、时间和模态三个维度；

在本实施例中，拼接颜色特征、深度特征和骨架特征得到多模态特征

其中f_k表示第k个片段的多模态特征。

步骤3、采用深度学习方法搭建两个并行的3D卷积神经网络，即空间卷积网络SCN(·)和时序卷积网络TCN(·)，分别对多模态特征的空间维度和时间维度进行卷积操作，得到空间组合特征f_s＝SCN(f_k)和时序组合特征f_t＝TCN(f_k)，并相加后输出组合特征；

步骤4、在相邻帧和间隔帧之间分别建立时序边E^T，并在时间维度中同一时刻下的不同模态帧之间建立模态边E^M，以时间维度中不同时刻下的不同模态帧的特征为图结构的节点V、以时序边和模态边为图结构的边E，从而构建多模态序列的图卷积网络G；

步骤5、将组合特征输入多模态序列的图卷积网络中，并根据式(1)进行训练并融合，从而得到更新后的组合特征f_g：

式(1)中，GCN(·)表示图卷积网络的计算过程，

表示点加运算，

表示更新后的组合特征f^g的维度大小；

步骤6、以更新后的组合特征f_g作为多模态特征后，返回步骤3-步骤5，从而根据式(2)计算得到再次更新后的组合特征

作为片段融合特征：

在本实施例中，使用双向GRU循环神经网络作为转换模型，先根据式(3)计算得到特征序列h：

式(3)中，BGRU(·)表示双向GRU循环神经网络，

表示

中第k个片段融合特征，h_k表示转换后的第k个片段融合特征。

使用全连接层网络FC(·)进行特征映射，并根据式(4)计算概率得分矩阵P：

式(3)中，p_k表示第k个片段融合特征对应的概率向量，根据p_k中最大值的位置得到其解码单词w_k，解码的单词序列可以表示为

步骤8、使用联结主义时序分类方法对单词序列W中连续重复出现的单词合并在一起，再移除所有表示过渡动作的单词，从而得到处理后的单词序列并作为最终翻译输出的手语句子

综上所述，本发明提出的一种基于图卷积的多模态融合手语识别系统及方法，解决了连续手语翻译过程中多源数据互补性融合的问题，同时多次序列学习使得手语视频特征中的时序关联学习得更充分；采用的对齐翻译模块避开了连续手语建模中时序动作分割的难题；该手语识别系统及方法有效提升了连续手语翻译的性能。