CN111666845B

CN111666845B - 基于关键帧采样的小样本深度学习多模态手语识别方法

Info

Publication number: CN111666845B
Application number: CN202010458536.3A
Authority: CN
Inventors: 王剑羽; 陈建新
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2022-09-06
Anticipated expiration: 2040-05-26
Also published as: CN111666845A

Abstract

基于关键帧采样的小样本深度学习多模态手语识别方法，该方法实现步骤是：多模态数据输入，选择RGB彩色视频数据，深度数据以及光流数据作为多模态数据源；手部分割，基于多个彩色空间RGB，YCrCb和HSV的肤色检测提取出人脸和手，再根据深度数据和人体骨骼坐标剔除人脸像素的影响；提出并采用一种新的基于手部骨骼数据和光流的关键帧采样方法；数据增强；基于均匀采样数据的数据的残差神经网络R(2+1)D训练；提出并利用跨模态模型数据对关键帧采样的数据R(2+1)D微调网络训练；多模态融合。本发明成功在小样本中国手语数据库DEVISIGN‑D上首次使用深度学习的方法，并且针对该手语词库进行较为准确的识别，其精确度超过了以往的传统方法，取得了目前最优的效果。

Description

基于关键帧采样的小样本深度学习多模态手语识别方法

技术领域

本发明属于人机交互识别技术领域，具体涉及基于关键帧采样的小样本深度学习多模态手语识别方法。

背景技术

目前，听力能力的损失严重影响了听力障碍者的生活质量。听力障碍者很难与普通人交流，因为普通人很少掌握手语知识。希望手语自动识别能够弥合交流的鸿沟。

现有技术通过部署数据手套、彩色手套或深度相机来捕获高维数据，然后提取相关的手工艺特征，如关节轨迹、面部表情和手形特征，以便后续的识别过程。近年来，人们已经证明，由于深度特征可以同时聚焦于空间和时间维度，因此借助深度神经网络提取的特征比起一般的手工特征更具有表述能力。

然而，手语识别存在一些限制。由于词汇量大，大规模的正式手语数据集不能作为常规手势数据集使用，如Chalearn-LAP-IsoGD数据库和Sheffield-Kinect手势数据集。因此，在以往的中文手语识别设计工作中，由于样本量小，很少有人考虑采用深度学习的方法，因此许多研究者未能捕捉到时间信息。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供基于关键帧采样的小样本深度学习多模态手语识别方法，实现在小样本大词汇的孤立词手语识别数据集上进行深度学习，进一步提高最后识别精度。

本发明提供基于关键帧采样的小样本深度学习多模态手语识别方法，包括如下步骤，

步骤S1、采集手语人员的人体骨骼信息，RGB数据以及相应的深度数据，利用光流算法将RGB彩色视频转换为流光视频，并选定RGB彩色视频、Depth深度视频和光流视频作为多模态输入；

步骤S2、对RGB彩色视频的每一帧图像进行肤色检测保留手部以及脸部，再基于三维骨骼坐标和深度信息剔除脸部像素的影响，获取手部分割的掩膜，并在Depth深度视频上利用该掩膜分割出对应帧的手部；

步骤S3、对每个模态的视频进行关键帧采样以及均匀采样来归一化视频帧数，作为后续深度神经网络的输入；

步骤S4、对已有小样本数据进行数据增强；

步骤S5、用均匀采样的视频来从头开始训练网络模型；

步骤S6、将通过关键帧采样获取的同种模态的数据进行融合，再利用均匀采样的网络模型对融合的数据微调训练；

步骤S7、将三个模态数据源训练的结果进行特征融合和分数融合，选出最优方案。

作为本发明的进一步技术方案，步骤S1中,采集数据时，手语人员与采集摄像头之间保持相对静止，只露出脸部和手部皮肤，只进行手语运动；完整的手语运动包括手部的抬起，手语词运动的关键部分及手部的放下。

进一步的，步骤S1中,光流算法采用Brox光流算法。

进一步的，步骤S2中，肤色检测采用多个颜色空间RGB、YCrCb、HSV的常阈值掩膜加权平均，然后用Otsu最大类间方差法阈值分割获取肤色掩膜；再通过头部骨骼坐标定位到头部周围区域，利用周围的深度信息进行阈值分割，获取一个粗略的剔除头部相关像素的掩膜。

进一步的，步骤S3中，根据手部运动的剧烈程度提出两种关键帧采样策略，具体如下，

一是基于相邻帧手部骨骼坐标变化的关键帧采样策略，通过相邻帧手部骨骼坐标之差表征相邻帧运动变化剧烈程度，将视频分为若干片段，计算每个片段的相邻帧运动变化剧烈程度之和，加权确定每个片段应该采样的帧数，再在相应片段通过均匀采样采集一定的帧数。最后，检验最后视频帧数是否正好达到采样帧数的要求，若是则表示该项算法完成；反之，若视频帧数大于所要求的采样帧数，则去掉末尾几帧，若小于所要求帧数，则在所采样视频片头按顺序添加原视频开头几帧；

二是基于光流的关键帧采样策略，通过光流表征相邻帧运动变化剧烈程度，将视频分为若干片段，计算每个片段的相邻帧运动变化剧烈程度之和，加权确定每个片段应该采样的帧数，再在相应片段通过均匀采样采集一定的帧数。最后，检验最后视频帧数是否正好达到采样帧数的要求，若是则表示该项算法完成；反之，若视频帧数大于所要求的采样帧数，则去掉末尾几帧，若小于所要求帧数，则在所采样视频片头按顺序添加原视频开头几帧。

进一步的，步骤S3中，关键帧采样选择的基准采样帧数一般小于等于数据集最少帧数的视频的帧数。

进一步的，步骤S4中，数据增强包括图像翻转，随即裁剪以及时间抖动。

进一步的，步骤S5中，网络模型采用R(2+1)D结构，R(2+1)D结构是基于常用的R3D，改进为

R(2+1)D将Ni个3D卷积核，核大小为N_i-1×t×d×d,t表示滤波器的时序维度并且d表示滤波器的空间维度)，分成Mi个2D空间卷积核，核大小为N_i-1×1×d×d，和Ni个时序卷积核，核大小为M_i×t×1×1，其中，Ni为i-th残差块的滤波器的数量，Mi为转化后的2D空间卷积核的数量。

本发明基于跨采样微调，可以在小样本手语数据集上训练深度神经网络，与现有方法相比，有效提高了手语动作识别的精确度。该方法提出的基于相邻帧手部骨骼坐标变化的关键帧采样策略以及基于光流的关键帧采样策略均能很好地观察并分析手语识别的运动特性，为孤立词手语识别提出了新的思路。

附图说明

图1为本发明的方法流程图；

图2为本发明对每一类验证精度的结果分析示意图。

具体实施方式

请参阅图1，本实施例提供一种基于关键帧采样的小样本深度学习多模态手语识别方法，可以在小样本的条件下，在孤立词手语识别数据集上成功训练神经网络，最后在DEVISIGN数据集上取得了现有最优的效果，且便于工程实现。

具体包括如下步骤，

步骤S1、通过深度摄像头，如Kinect，采集手语人员的人体骨骼信息，RGB数据以及相应的深度数据，利用光流算法将RGB彩色视频转换为流光视频，并选定RGB彩色视频、Depth深度视频和光流视频作为多模态输入；

步骤S4、对已有小样本数据进行数据增强；

步骤S5、用均匀采样的视频来从头开始训练网络模型；

步骤S1中,采集数据时，手语人员与采集摄像头之间保持相对静止，只露出脸部和手部皮肤，只进行手语运动；完整的手语运动包括手部的抬起，手语词运动的关键部分及手部的放下。

步骤S1中,光流算法采用Brox光流算法。

步骤S2中，肤色检测采用多个颜色空间RGB、YCrCb、HSV的常阈值掩膜加权平均得到初步的肤色掩膜，然后用Otsu最大类间方差法阈值分割得到相应的掩膜，并将其和之前的肤色掩膜做平均，得到最后的肤色掩膜；再通过头部骨骼坐标定位到头部周围区域，利用周围的深度信息进行阈值分割，获取一个粗略的剔除头部相关像素的掩膜。

将深度掩膜和肤色掩膜做逻辑或操作，得到了最终的掩膜，并将其应用在RGB图像上，又因为深度图像与RGB图像是对齐的，将其掩膜对应地应用在深度图像上，得到了预处理后的深度数据和RGB视频数据。

步骤S3中，对每一个模态的视频数据进行均匀采样，归一化至一定帧数，得到各个模态的均匀采样数据U根据手部运动的剧烈程度提出两种关键帧采样策略，再针对每一个模态的视频数据进行基于光流的关键帧采样，归一化到同样的帧数，得到归一化的各个模态的采样数据OF，基于光流的关键帧采样策略如下：

通过相邻帧手部骨骼坐标之差表征相邻帧运动变化剧烈程度，将视频分为若干片段，计算每个片段的相邻帧运动变化剧烈程度之和，加权确定每个片段应该采样的帧数，再在相应片段通过均匀采样采集一定的帧数。最后，检验最后视频帧数是否正好达到采样帧数的要求，若是则表示该项算法完成；反之，若视频帧数大于所要求的采样帧数，则去掉末尾几帧，若小于所要求帧数，则在所采样视频片头按顺序添加原视频开头几帧；

再针对每一个模态的视频数据进行基于相邻帧手部骨骼坐标变化的关键帧采样，归一化到同样的帧数，得到归一化的各个模态的采样数据S，基于相邻帧手部骨骼坐标变化的关键帧采样策略如下：

通过光流表征相邻帧运动变化剧烈程度，将视频分为若干片段，计算每个片段的相邻帧运动变化剧烈程度之和，加权确定每个片段应该采样的帧数，再在相应片段通过均匀采样采集一定的帧数。最后，检验最后视频帧数是否正好达到采样帧数的要求，若是则表示该项算法完成；反之，若视频帧数大于所要求的采样帧数，则去掉末尾几帧，若小于所要求帧数，则在所采样视频片头按顺序添加原视频开头几帧。

步骤S3中，关键帧采样选择的基准采样帧数一般小于等于数据集最少帧数的视频的帧数。

步骤S4中，数据增强包括图像翻转，随即裁剪以及时间抖动。

步骤S5中，网络模型采用R(2+1)D结构，R(2+1)D结构是基于常用的R3D，改进为

将三个模态数据训练的模型进行多模态融合，通过比较测试不同的多模态融合方法，选择效果最好的作为最后的融合策略，融合方式包括：

Maximum score fusion(最大值分数融合)：针对各个模态的softmax层输出进行最大值融合，得到最后的分数向量。

Average score fusion(平均值分数融合)：针对各个模态的softmax层输出进行平均值融合，得到最后的分数向量。

Concatenation+线性支持向量机(特征向量拼接)：提取各个模态的softmax层前一层全连接层的输出，得到属于各个模态的1024维度的特征向量，按顺序将它们拼接成一个3072维度的特征向量，并将其输入一个C＝1的线形支持向量机，得到最后的识别精度结果。

本实施例的效果可以通过以下计算机仿真进一步说明：

一、实验条件

硬件平台为：Intel Core i5-6200 CPU@2.30GHZ×8,16GB RAM、NVIDIA TeslaM40 GPU

软件要求：Tensorflow,Keras,python,OpenCV

实验数据：本实验采用DEVISIGN-D多模态孤立词手语数据库，包括500个日常中国手语词，每个手语词只有12个样本，由8个志愿者参与录制，四个志愿者在不同时间不同亮度下穿着不同颜色的衣服进行录制了两次手语词，另外四个人针对每个手语词仅录制了一次。

二、实验内容

输入视频被采样成32帧，并且每一帧都被调整为128×171。然后，每个视频片段被随机裁剪至112×112。使用Adam优化器在两个GPU上并行训练模型参数，初始学习率被设置为0.0001并且训练过程在12个epoch(时期)之后就停止了。Weight decay(权重衰减)被设置成0.00005.除此以外，在每一个卷积层后面都加上Batch Normalization(批归一化)层进行进一步优化。同时，使用pyflow来生成所需要的光流视频。

针对关键帧采样策略，对单个手语词进行分析，如图2所示-手语词“弱者”研究发现，相邻帧手部骨骼坐标点之差和光流变化趋势大体符合同一趋势，在开始，高潮，结尾三个阶段中，高潮阶段明显包含更多的关键帧信息，证明关键帧采样策略的有效性。

进行几种多模态识别的分类精度比较，选择特征拼接的方法的话，本发明的结果可以达到61.51％，该效果超过该数据集上以往设计的手工特征的最优效果。

同时，针对数据集分类情况进行验证分析，双手手语词分类结果可以达到71.3％，而单手手语词识别精度可能只有47.8％。深入数据集观察，发现52.8％的单手手语词识别精度为0，这些视频主要是包括字母词”A”～”Z”以及数字词”0”～”9”，这些词汇的关键动作可能只有几帧，属于静态手语词，不太适合时空特征提取。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解，本发明不受上述具体实施例的限制，上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理，在不脱离本发明精神范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

Claims

1.基于关键帧采样的小样本深度学习多模态手语识别方法，其特征在于，包括如下步骤，

步骤S1、采集手语人员的人体骨骼信息，RGB数据以及相应的深度数据，利用光流算法将RGB彩色视频转换为光流视频，并选定RGB彩色视频、Depth深度视频和光流视频作为多模态输入；

步骤S4、对已有小样本数据进行数据增强；

步骤S5、用均匀采样的视频来从头开始训练网络模型；

步骤S7、将三个模态数据源训练的结果进行特征融合和分数融合，选出最优方案；

R(2+1)D将Ni个3D卷积核，核大小为N_i-1×t×d×d,t表示滤波器的时序维度并且d表示滤波器的空间维度，分成Mi个2D空间卷积核，核大小为N_i-1×1×d×d，和Ni个时序卷积核，核大小为M_i×t×1×1，其中，Ni为i-th残差块的滤波器的数量，Mi为转化后的2D空间卷积核的数量；

所述步骤S7中，选出最优方案具体为，

Maximum score fusion，即最大值分数融合：针对各个模态的softmax层输出进行最大值融合，得到最后的分数向量；

Average score fusion，即平均值分数融合：针对各个模态的softmax层输出进行平均值融合，得到最后的分数向量；

Concatenation+线性支持向量机，即特征向量拼接：提取各个模态的softmax层前一层全连接层的输出，得到属于各个模态的1024维度的特征向量，按顺序将它们拼接成一个3072维度的特征向量，并将其输入一个C＝1的线形支持向量机，得到最后的识别精度结果。

2.根据权利要求1所述的基于关键帧采样的小样本深度学习多模态手语识别方法，其特征在于，所述步骤S1中,采集数据时，手语人员与采集摄像头之间保持相对静止，只露出脸部和手部皮肤，只进行手语运动；完整的手语运动包括手部的抬起，手语词运动的关键部分及手部的放下。

3.根据权利要求1所述的基于关键帧采样的小样本深度学习多模态手语识别方法，其特征在于，所述步骤S1中,光流算法采用Brox光流算法。

4.根据权利要求1所述的基于关键帧采样的小样本深度学习多模态手语识别方法，其特征在于，所述步骤S2中，肤色检测采用多个颜色空间RGB、YCrCb、HSV的常阈值掩膜加权平均，然后用Otsu最大类间方差法阈值分割获取肤色掩膜；再通过头部骨骼坐标定位到头部周围区域，利用周围的深度信息进行阈值分割，获取一个粗略的剔除头部相关像素的掩膜。

5.根据权利要求1所述的基于关键帧采样的小样本深度学习多模态手语识别方法，其特征在于，所述步骤S3中，根据手部运动的剧烈程度提出两种关键帧采样策略，具体如下，

一是基于相邻帧手部骨骼坐标变化的关键帧采样策略，通过相邻帧手部骨骼坐标之差表征相邻帧运动变化剧烈程度，将视频分为若干片段，计算每个片段的相邻帧运动变化剧烈程度之和，加权确定每个片段应该采样的帧数，再在相应片段通过均匀采样采集一定的帧数；最后，检验最后视频帧数是否正好达到采样帧数的要求，若是则表示该项算法完成；反之，若视频帧数大于所要求的采样帧数，则去掉末尾几帧，若小于所要求帧数，则在所采样视频片头按顺序添加原视频开头几帧；

二是基于光流的关键帧采样策略，通过光流表征相邻帧运动变化剧烈程度，将视频分为若干片段，计算每个片段的相邻帧运动变化剧烈程度之和，加权确定每个片段应该采样的帧数，再在相应片段通过均匀采样采集一定的帧数；最后，检验最后视频帧数是否正好达到采样帧数的要求，若是则表示该项算法完成；反之，若视频帧数大于所要求的采样帧数，则去掉末尾几帧，若小于所要求帧数，则在所采样视频片头按顺序添加原视频开头几帧。

6.根据权利要求1所述的基于关键帧采样的小样本深度学习多模态手语识别方法，其特征在于，所述步骤S3中，关键帧采样选择的基准采样帧数一般小于等于数据集最少帧数的视频的帧数。

7.根据权利要求1所述的基于关键帧采样的小样本深度学习多模态手语识别方法，其特征在于，所述步骤S4中，数据增强包括图像翻转，随即裁剪以及时间抖动。