CN113297955A

CN113297955A - 一种基于多模态分层级信息融合的手语词识别方法

Info

Publication number: CN113297955A
Application number: CN202110559367.7A
Authority: CN
Inventors: 王军; 吕智成; 申政文; 李玉莲; 潘在宇; 鹿姝
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-08-24
Anticipated expiration: 2041-05-21
Also published as: CN113297955B

Abstract

本发明公开了一种基于多模态分层级信息融合的手语词识别方法，该方法包括：以彩色视频、深度视频和骨骼节点视频三种模态的关键帧序列作为网络输入，构建一个双流I3D网络提取彩色视频和深度视频特征，通过特征拼接融合双模态语义特征，再使用LSTM构建长期时空特征，使用SoftMax进行分类评分；同时使用DST‑GCN网络提取骨骼节点视频的时空特征，再使用SoftMax进行分类评分；最终通过决策级融合方式将两个SoftMax层的预测分数进行融合，得到手语词识别结果。本发明所提出的基于多模态分层级信息融合的手语词识别方法，通过构建分层级融合策略，充分利用了多模态数据互补信息；通过构建DST‑GCN网络，增强了时空图卷积网络时间特征提取能力，进而提高了手语词识别的准确率。

Description

一种基于多模态分层级信息融合的手语词识别方法

技术领域

本发明属于手语识别技术领域，具体指代一种基于多模态分层级信息融合的手语词识别方法。

背景技术

根据数据显示，我国的聋哑人数量已经超过2080万，约占我国人口总数的1.69％，此外还有大量患有听力障碍的人口。对于他们而言，手语就是他们沟通的媒介，然而只有少数人掌握了手语并能与之交流，这使得聋哑人士在生活中有着许多沟通障碍。

目前主要的解决方法有：基于人工进行翻译和让使用手语者手部佩戴特定设备进行翻译。但是人工翻译需要大量的人力成本，只能在正式场合使用，普通人无法承担；佩戴设备的方式又会给手语者带来设备负担，而设备的限制又会影响正常的手语交流。

随着人工智能的快速普及，人机交互的便捷性大大提升。深度学习在计算机视觉上的应用使得计算机可以完成一些特定的工作。

发明内容

本发明的目的在于提供一种基于多模态分层级信息融合的手语词识别方法，以提高手语识别的准确率，能够利用多种模态信息，准确地识别所做的手语词汇，从而提升目前的手语识别性能，为广大聋哑人士的交流带来便利。

实现本发明目的的技术解决方案为：一种基于多模态分层级信息融合的手语词识别方法，步骤如下：

步骤S1，使用Kinect V2深度摄像机同时采集彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据，构建多模态中文日常手语词数据集，包括训练集和测试集两部分；

步骤S2，对三种模态的视频数据集分别进行关键帧提取，并均匀采样至相同的帧数，作为后续识别网络的输入；

步骤S3，使用I3D网络分别提取彩色视频数据和深度视频数据的短期时空特征，将两种模态数据特征进行拼接，得到融合特征，并将其输入LSTM网络得到长期时空特征，再输入到SoftMax层得到第一分类评分。

步骤S4，使用DST-GCN网络提取骨骼节点视频数据的时空特征，经过全连接层输入到SoftMax层得到第二分类评分；

步骤S5，将第一分类评分和第二分类评分进行融合，得到最终的手语词识别结果；

进一步地，步骤S2中将视频逐帧统一中心裁剪为网络输入尺寸图的大小，使用CNN网络对关键帧进行提取。得到关键帧的定位之后，将关键帧逐帧统一中心裁剪为网络输入尺寸图的大小，然后将图片数据归一化处理。

进一步地，步骤S3中色彩、深度视频特征提取方法为使用一个双流I3D特征提取网络，I3D网络的核心部分是多个结构相同的Inception扩张模块，包括三维卷积层，批归一化层和ReLu激活函数层。在Inception扩张模块之间还有最大池化层对特征进行降采样以提高计算速度。用两个I3D特征提取网络分别对彩色视频关键帧和深度视频关键帧进行特征提取，关键帧数据分别经过I3D网络处理过后会得到各自对应的特征图，将两种模态信息提取到的特征图进行特征级融合的方式即拼接处理，本质上就是将特征图进行串联，拼接后的特征可以表示为：

其中，f_t为t时刻拼接后的特征图，

为t时刻彩色流I3D网络的输出特征图，

为t时刻深度流I3D网络的输出特征图。在到融合后的特征之后，将其输入到LSTM网络中进行时序建模，以达到将这两种模态的特征映射到相同的表征空间中的目的。

将包含T张视频帧的融合特征序列输入到LSTM网络中，计算出每帧对应的最后一个隐藏层状态来作为这段视频帧所代表的高层时序特征h_t，可表示为：

h_t＝f(Uf_t+Wh_t-1+b)

其中，W和U为权重值，b为偏置，f表示抽象函数，LSTM中每个神经元的W、U、b都是共享的，且输出层神经元的数量为手语数据集中手语词类别数量，最终输出高层时序特征H＝(h₁，h₂，…，h_T)。再输入到SoftMax层得到第一分类评分，假设类别标y∈{1，2，…，A}，对于输入的特征h_t，SoftMax对其预测的属于类别c的条件概率为：

其中

为第c类的权重值。

进一步地，步骤S4中使用采集到的上半身N个骨骼点的空间坐标构建出一个无向人体骨骼节点图G＝(V，E)，其中为V表示节点，E表示连接骨骼节点的边集，在手语演示中，演示者仅通过上肢运动表达语义，可忽略下半身(在手语数据中也仅采集上半身骨骼节点数据)。因此，将骨骼节点图划分为上身中心躯干与两条手臂三个局部身体部位，其中每个子图中的节点表示为：

Q_O＝{q_o|o＝1，2，3}表示三个局部身体部位的重心，r_tj∈q_o。q_oi表示从根节点到局部重心的距离，每帧内骨骼节点连接用E_S＝{r_tir_tj|(i，j)∈H}表示。root表示根节点，centripetal表示向心节点，centrifugal表示离心节点。将骨骼节点视频的关键帧序列输入网络，通过批归一化层和卷积层学习点特征和图特征，将骨骼节点图的点特征与图特征共同输入到DST-GCN单元中进行时空特征提取。为了加强DST-GCN对时间关系的学习能力，本发明设置一个用于图特征提取的图卷积层(GCN)和两个用于学习时序关系的时间卷积层(TCN)作为DST-GCN的基本单元，并且GCN位于两个TCN中间，充分从不同层级加强骨骼节点图序列的时间表征。最后通过全局平均池化层输出每个骨骼节点图序列的特征向量，通过SoftMax层得到第二类别评分。

进一步地，步骤S5对I3D-LSTM网络和DST-GCN网络输出的第一分类评分和第二分类评分使用最大值融合进行决策融合。假设双流I3D-LSTM网络输出的结果对于种类1预测的概率为p₁，种类2预测的概率为p₂，种类N预测的概率为p′_n；DST-GCN网络输出的结果对种类1预测的概率为p′₁，种类2预测的概率为p′₂，种类N预测的概率为p′_n，则最终融合分数为：

P_i＝max(p_i，p′_i)，i∈[1，N]

本发明与现有技术相比，其显著优点在于：本发明基于多模态分层级信息融合，首先在特征层对彩色视频数据和深度视频数据进行融合，再在决策层将彩色和深度视频数据融合后的决策与骨骼节点视频数据的决策进行融合，充分利用了多模态数据的互补信息。本发明能够准确地识别手语词，从而改进现有的手语识别方法。

附图说明

图1为本发明基于多模态分层级信息融合的手语词识别方法流程图。

图2为本发明I3D网络结构图。

图3为本发明LSTM网络结构图。

图4为本发明DST-GCN网络结构图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

随着人工智能的快速普及，人机交互的便捷性大大提升。深度学习在计算机视觉上的应用使得计算机可以完成一些特定的工作。由此我们想到可以基于视觉的方式对手语词进行识别，本发明仅使用几种模态的视觉信息，可以快速准确的识别大量手语词汇，搭配后续的手语语句识别和自然语言处理等模块可以构建一套完整的手语识别体系，为聋哑人士的交流带来便利。

结合图1～图4，本发明所述的一种基于多模态分层级信息融合的手语词识别方法，步骤如下：

步骤S1，使用Kinect V2深度摄像机同时采集彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据，构建多模态中文日常手语词数据集，所述多模态中文日常手语词数据集包括训练集和测试集，训练集和测试集中均包括彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据三种模态的视频数据。

步骤S2，对三种模态的视频数据集分别进行关键帧提取，并均匀采样至相同的帧数，作为双流I3D网络和DST-GCN网络的输入。

步骤S3，使用I3D网络分别提取彩色视频数据和深度视频数据的短期时空特征，将两种模态数据的短期时空特征进行拼接，得到融合特征，并将其输入LSTM网络得到长期时空特征，再输入到SoftMax层得到第一分类评分，具体如下：

步骤S2中提取的关键帧的图像序列经过I3D网络中的卷积层、最大池化层和全局池化层处理后，得到一个具有固定通道的特征图，选取I3D的全局平均池化层的输出特征作为对应视频帧的特征图，将彩色流I3D网络和深度流I3D网络对应时刻的特征图进行拼接，表示为：

其中，ft_t为t时刻拼接后的特征图，

为t时刻彩色流I3D网络的输出特征图，

为t时刻深度流I3D网络的输出特征图；

通过这种方式对两种模态的特征信息进行拼接处理，得到融合特征，再将得到融合特征输入到LSTM网络中构建长期时空特征，将这两种模态的特征映射到相同的表征空间，增强了特征的表征能力，通过SoftMax层得到第一分类评分。

步骤S4，使用DST-GCN网络提取骨骼节点视频数据的时空特征，经过全连接层输入到SoftMax层得到第二分类评分，具体如下：

使用Kinect V2采集人体骨骼节点视频，得到上半身N个骨骼点的空间坐标，进而构建出一个无向人体骨骼节点图G＝(V，E)，其中为V表示节点，E表示连接骨骼节点的边集，在手语演示中，演示者仅通过上肢运动表达语义，可忽略下半身(在手语数据中也仅采集上半身骨骼节点数据)，将骨骼节点图划分为上身中心躯干与两条手臂三个局部身体部位，其中每个子图中的节点表示为：

Q_O＝{q_o|o＝1，2，3}表示三个局部身体部位的重心，r_tj∈q_o，r_tj表示第t帧中的第j个关节点，第q_oi表示从根节点到局部重心的距离；每帧内骨骼节点连接用E_S＝{r_tir_tj|(i，j)∈H}表示，root表示根节点，centripetal表示向心节点，centrifugal表示离心节点，i和j表示节点的索引序号；

将骨骼节点视频的关键帧序列输入网络，通过批归一化层和卷积层学习点特征和图特征，将骨骼节点图的点特征与图特征共同输入到DST-GCN网络中进行时空特征提取；为了加强DST-GCN对时间关系的学习能力，设置一个用于图特征提取的图卷积层GCN和两个用于学习时序关系的时间卷积层TCN作为DST-GCN的基本单元，并且GCN位于两个TCN中间，充分从不同层级加强骨骼节点图序列的时间表征；

最后通过全局平均池化层输出每个骨骼节点图序列的特征向量，通过SoftMax层得到第二分类评分。

步骤S5，将第一分类评分和第二分类评分进行融合，得到最终的手语词识别结果。

由于骨骼节点视频数据的特征提取方法不同于彩色和深度视频数据，难以在特征层进行融合。故先将彩色和深度视频数据在特征层融合，然后与骨骼节点视频数据在决策层进行融合，即将双流I3D-LSTM和DST-GCN网络的分类评分分数进行融合，得到最终的手语词识别结果，从而能够在不降低网络性能的前提下进一步提高手语词识别的准确率。故将第一分类评分分数和第二分类评分分数进行决策级融合，对于每个种类均取两个分类分数中得分最高的分数作为分类分数，得到最终的手语词识别结果。

实施例1

结合图1所示，本发明是一种新型的基于多模态分层级信息融合的手语词识别方法，步骤如下：

步骤S1：使用Kinect V2深度摄像机同时采集常用的60种手语词的彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据，构建多模态中文日常手语词数据集。其中彩色视频图像分辨率为1920*1080，深度视频图像分辨率为512*424，骨骼节点视频图像分辨率为1920*1080。

步骤S2：使用CNN网络提取采集视频序列中的关键帧，得到关键帧后将T帧关键帧数据统一中心裁剪为网络输入尺寸图N*N大小(N＝224)，然后将图片数据归一化处理。

步骤S3：将经过预处理的T帧彩色视频关键帧数据和T帧深度视频关键帧分别逐帧输入到双流I3D特征提取网络，网络具体结构如图2所示。经过22层三维卷积层处理，分别得到一个具有1024通道的1*1*1特征图。然后使用特征级融合的方式，将两个特征图进行拼接处理，完成拼接后得到一个2048通道的1*1*1特征图。将双流I3D网络输出的特征序列完成拼接后输入到LSTM网络中，网络具体结构如图3所示。经过网络计算，最终输出为对应每个类别的得分。因为预先设定的手语词类别为60个，所以最终的输出结果就是一个1*60的二维向量，每一列对应每一个预设的手语词类别得分，得到第一分类评分。

步骤S4：将采集的人体骨骼节点视频构建出一个无向人体骨骼节点图，将15个骨骼节点分为上身中心躯干与两条手臂3个子图，然后将视频帧序列输入DST-GCN网络，经过批归一化层对其进行规范化处理，使输入数据的大小在不同骨骼点上保持一致。然后使用一个大小为1x1和nx3的卷积层Conv1与Conv2，其中Conv1用于从骨骼节点的坐标中学习点特征，Conv2学习图特征，同时将BN层的输出与其融合，输入到多个ST-GCN单元，具体网络结构参照图4所示。共设置9个ST-GCN单元，前三个单元输出通道数为64，中间三个单元为128，最后三个单元为256，在每个单元上都应用残差机制，并在第3、6、9个单元上以0.5的随机概率对特征进行Dropout，在第4、7个单元中最后一个时间卷积层的步幅设置为2，起到池化作用。经过网络计算后，最终得到对应60个手语词类别的1*60的二维特征向量，得到第二分类评分。

步骤S5：将第一分类评分和第二分类评分进行融合。使用最大值融合的方式，将彩色、深度视频特征提取网络的1*60得分向量和骨骼特征提取网络的1*60得分向量进行最大值融合计算，选取两个得分向量中得分最高的的手语词作预测结果为最终的输出结果。

Claims

1.一种基于多模态分层级信息融合的手语词识别方法，其特征在于，按如下步骤进行：

步骤S1，使用Kinect V2深度摄像机同时采集彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据，构建多模态中文日常手语词数据集，所述多模态中文日常手语词数据集包括训练集和测试集，训练集和测试集中均包括彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据三种模态的视频数据，转入步骤S2；

步骤S2，对三种模态的视频数据集分别进行关键帧提取，并均匀采样至相同的帧数，作为双流I3D网络和DST-GCN网络的输入，同时转入步骤S3和步骤S4；

步骤S3，使用I3D网络分别提取彩色视频数据和深度视频数据的短期时空特征，将两种模态数据的短期时空特征进行拼接，得到融合特征，并将其输入LSTM网络得到长期时空特征，将长期时空特征输入到SoftMax层得到第一分类评分，转入步骤S5；

步骤S4，使用DST-GCN网络提取骨骼节点视频数据的时空特征，经过全连接层输入到SoftMax层得到第二分类评分，转入步骤S5；

2.根据权利要求1所述的基于多模态分层级信息融合的手语词识别方法，其特征在于，步骤S3中，鉴于彩色和深度视频数据的特征提取方法类似，故采用在特征层进行融合的方式，使用I3D网络分别提取彩色和深度视频数据的特征，将两种模态数据特征进行拼接，得到融合特征，并将其输入LSTM网络得到第一分类评分，具体如下：

其中，f_t为t时刻拼接后的特征图，

为t时刻彩色流I3D网络的输出特征图，

为t时刻深度流I3D网络的输出特征图；

3.根据权利要求1所述的基于多模态分层级信息融合的手语词识别方法，其特征在于，步骤S4中，使用DST-GCN网络提取骨骼节点视频数据的时空特征，经过全连接层输入到SoftMax层得到第二分类评分，具体如下：

使用Kinect V2采集人体骨骼节点视频，得到上半身N个骨骼点的空间坐标，进而构建出一个无向人体骨骼节点图G＝(V，E)，其中为V表示节点，E表示连接骨骼节点的边集，在手语演示中，演示者仅通过上肢运动表达语义，将骨骼节点图划分为上身中心躯干与两条手臂三个局部身体部位，其中每个子图中的节点表示为：

4.根据权利要求1所述的基于多模态分层级信息融合的手语词识别方法，其特征在于，步骤S5中，将第一分类评分和第二分类评分进行融合，得到最终的手语词识别结果，具体如下：

将第一分类评分分数和第二分类评分分数进行决策级融合，对于每个种类均取两个分类分数中得分最高的分数作为分类分数，得到最终的手语词识别结果。