CN108388882B

CN108388882B - 基于全局-局部rgb-d多模态的手势识别方法

Info

Publication number: CN108388882B
Application number: CN201810216977.5A
Authority: CN
Inventors: 郑伟诗; 李伟宏; 李本超
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2021-09-21
Anticipated expiration: 2038-03-16
Also published as: CN108388882A

Abstract

本发明公开了一种基于全局‑局部RGB‑D多模态的手势识别方法，本发明主要通过包括骨骼位置、RGB图像、深度图像和光流图像等数据模态对输入的手势视频进行表示，得到多模态的手势数据表示后，利用卷积神经网络和递归神经网络的方法把不同模态的手势数据分别进行特征表达，并且利用不同模态下得到的特征进行手势的分类。最终将不同模态下得到的不同类别的手势得分进行融合，得到最终基于多模态的手势分类结果。本发明可以应用于客户端或云端对用户输入的手势视频进行识别，通过手势的输入使计算机或手机软硬件做出对应的响应。

Description

基于全局-局部RGB-D多模态的手势识别方法

技术领域

本发明涉及手势识别的技术领域，尤其是涉及一种基于全局-局部RGB-D多模态的手势识别方法。

背景技术

随着科技的发展，手势识别技术被运用得越来越广泛，现有的技术发明主要是通过RGB摄像头或RGB-D摄像头获得手势视频，根据RGB的单个模态或者RGB-D两个模态进行手势识别。但是现有技术也存在着诸多的缺点，主要缺点是单靠RGB和RGB-D的输入数据对手势视频进行全局的描述。然而基于全局描述的方法在手势识别问题上准确率远远没达到要求，并且目前没有很好的针对手势进行RGB-D特征提取的方法。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于全局-局部RGB-D多模态的手势识别方法，本发明通过多模态特征全局描述和局部描述的结合，有效地提升了手势识别的准确率，使之能够在现实生活场景中进行一定程度的应用。

为了达到上述目的，本发明采用以下技术发明：

本发明基于全局-局部RGB-D多模态的手势识别方法，包括下述步骤：

S1、骨骼序列生成及基于骨骼数据的全局-局部手势识别：

给定输入的RGB-D视频图片，利用多人姿态估计方法估计出每帧图片中人体骨骼的坐标位置，并根据整个视频获得的上半身的骨骼点，利用长短时记忆网络对上半身的骨骼点进行特征进行时序建模和分类，得到基于全局骨骼的手势分类得分S_s-g；

S2、基于全局-局部的RGB-D模态手势识别：

对于RGB数据和深度数据的全局手势表示，首先分别将T帧的RGB和T帧深度图在通道沿时间进行堆叠，分别得到堆叠后的RGB图I_RGB和T帧深度图I_Depth，并且对VGG16卷积神经网络的输入通道进行改进，使其能够接受对应通道数目的数据输入；通过卷积神经网络的特征提取处理，分别在堆叠的RGB数据和堆叠的深度图获得对应的全局RGB特征x_RGB-g和全局深度特征和x_Depth-g；最后，利用神经网络的非线性分类方法分别获得基于全局的RGB手势分类得分S_RGB-g和全局的深度手势分类得分S_Depth-g；

S3、基于全局-局部的RGB光流和深度光流模态手势识别；

分别在RGB视频数据和深度视频数据中提取光流信号，从而分别获得RGB光流和深度光流图片数据，光流是一种记录像素运动的方式，其主要记录了每个像素沿时间帧之间的运动方向和强度；

S4、多模态的手势分类得分融合；

在获得骨骼、RGB图、深度图、RGB光流图和深度光流图5种不同的数据模态的全局和局部手势分类得分S_s-g，S_s-l，S_RGB-g，S_RGB-l，S_Depth-g，S_Depth-l，S_RGB-f-g，S_RGB-f-l，S_Depth-f-g和S_depth-f-l后；基于以上的手势分类得分进行平均，并且利用归一化函数进行类别得分的归一化，最终获得不同手势类别的概率。

作为优选的技术方案，步骤S1中，还包括下述对手势做进一步的描述的步骤，具体为：

获取手部、肘部和肩部的骨骼点对骨骼数据进行局部描述，同样利用长短时记忆网络对获得的局部骨骼数据进行时序建模和分类，得到基于局部骨骼的手势分类得分S_s-l。

作为优选的技术方案，步骤S2中，局部RGB特征x_RGB-l和局部深度特征和x_Depth-l的提取采用下述方法：

首先，通过将左右手、左右肘部和左右肩部对应的RGB图和深度图区域裁剪；

其次，将裁剪后的图片拼合成新的图片数据；

最后，根据拼接后得到的RGB图和深度图，同样先通过时间堆叠成多通道图片，再利用VGG16卷积神经网络进行特征提取和分类，最终获得基于局部RGB图和局部深度图的手势分类得分S_RGB-l和S_Depth-l。

作为优选的技术方案，步骤S3中，利用TV-L1光流算法对光流图片进行计算，通过对RGB光流和深度光流的提取，分别获得全局和局部的RGB光流图片和全局和局部的深度光流图片，并且利用VGG16卷积神经网络对其进行分类，最终获得基于全局和局部的RGB光流的手势分类得分S_RGB-f-g和S_RGB-f-l，和基于全局和局部的深度光流的手势分类得分S_Depth-f-g和S_depth-f-l。

作为优选的技术方案，步骤S4中，所述归一化函数采用softmax归一化函数。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明所提出的基于全局-局部RGB-D多模态的手势识别方法，是一种新的局部多模态手势数据的提取方式，并且通过与全局多模态手势数据的结合，得到全局-局部RGB-D多模态的手势识别模型，从而带来手势识别性能上的提升。

2、在目前通用的ChaLearn LAP大规模手势识别数据上，本发明提出的方法的手势识别准确率为67.02％，因此，本技术发明提出了一种通用的可靠的手势识别方法，能够在如家庭环境、公共环境下对智能设备进行手势操控，或者在体感游戏上进行手势操作等，具有广泛的应用背景和应用场景。

附图说明

图1是本发明基于多模态手势识别方法总体框架图；

图2是本发明全局-局部多模态数据表示方法；

图3是本发明基于骨骼坐标的局部图片数据裁剪与拼接方法。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

术语定义：

RGB-D：RGB是常用的图片颜色表示方法。D指的是Depth Image，即深度图片的表示，其格式为图片，数据内容是摄像头拍摄到的物体距离摄像头距离的数值，先以毫米的形式表达在通过线性变换到图片能表示的数值范围[0,255]。

如图1所示，本发明基于全局-局部RGB-D多模态的手势识别方法，主要针对RGB-D输入的手势视频，通过基于RGB-D的人体骨骼提取技术对视频中的人体及手的骨骼进行估计，通过估计得到的骨骼分别构造5种不同数据模态(骨骼、RGB图、深度图、RGB光流图和深度光流图)的局部数据表达。并且通过与上述模态的全局数据表达进行结合，得到每个模态的全局-局部数据进行手势类别得分计算，最终进行多模态手势类别得分融合或者对输入手势类别的分类结果。

本发明的具体技术发明如下：

(1)骨骼序列生成及基于骨骼数据的全局-局部手势识别

给定输入的RGB-D视频图片，本发明首先利用多人姿态估计方法(multi-personpose estimation,RMPE)估计出每帧图片中人体骨骼的坐标位置，并且只取上半身的骨骼点。如图2左所表示的骨骼点，根据整个视频获得的上半身的骨骼点，利用长短时记忆网络(Long-Short Term Memory network,LSTM)，对其进行特征进行时序建模，并且进行分类，得到基于全局骨骼的手势分类得分S_s-g。

作为对手势细节的补充，本发明获取手部、肘部和肩部的骨骼点对骨骼数据进行局部描述。同样利用长短时记忆网络对获得的局部骨骼数据进行时序建模及分类，得到基于局部骨骼的手势分类得分S_s-l。

(2)基于全局-局部的RGB-D模态手势识别

本发明中主要使用的是基于RGB-D的摄像头进行手势视频数据的采集，因此RGB图和深度图是本技术的基础数据源。对于RGB数据和深度数据的全局手势表示，本发明首先分别将T帧的RGB(数据维度为3*图像高度*图像长度)和T帧深度图(数据维度为1*图像高度*图像长度)在通道沿时间进行堆叠，分别得到堆叠后的RGB图I_RGB(数据维度为3T*图像高度*图像长度)和T帧深度图I_Depth(数据维度为T*图像高度*图像长度)，并且对VGG16卷积神经网络的输入通道进行改进，使其能够接受对应通道数目(3T和T)的数据输入。通过卷积神经网络的特征提取处理，分别在堆叠的RGB数据和堆叠的深度图获得对应的全局RGB特征x_RGB-g和全局深度特征和x_Depth-g。然后，利用神经网络的非线性分类方法分别获得基于全局的RGB手势分类得分S_RGB-g和全局的深度手势分类得分S_Depth-g。

进一步的，局部RGB特征x_RGB-l和局部深度特征和x_Depth-l的提取，首先通过将左右手、左右肘部和左右肩部对应的RGB图和深度图区域裁剪，裁剪大小分别为66*66像素、33*33像素和33*33像素，如图3所示。再将其拼合成新的图片数据，如图2右所示。根据拼接后得到的RGB图和深度图，同样先通过时间堆叠成多通道图片，再利用VGG16卷积神经网络进行特征提取和分类，最终获得基于局部RGB图和局部深度图的手势分类得分S_RGB-l和S_Depth-1。

(3)基于全局-局部的RGB光流和深度光流模态手势识别

为了进一步描述摄像头捕捉到的运动信息，本发明分别在RGB视频数据和深度视频数据中提取光流信号，从而分别获得RGB光流和深度光流图片数据。光流是一种记录像素运动的方式，其主要记录了每个像素沿时间帧之间的运动方向和强度。本发明利用TV-L1光流算法对光流图片进行计算。通过对RGB光流和深度光流的提取，与第(2)部分中的方法相似，同样可以分别获得全局和局部的RGB光流图片和全局和局部的深度光流图片，并且利用VGG16卷积神经网络对其进行分类，最终获得基于全局和局部的RGB光流的手势分类得分S_RGB-f-g和S_RGB-f-l，和基于全局和局部的深度光流的手势分类得分S_Depth-f-g和S_depth-f-l。

(4)多模态的手势分类得分融合

在获得5种不同的数据模态(骨骼、RGB图、深度图、RGB光流图和深度光流图)的全局和局部手势分类得分S_s-g，S_s-l，S_RGB-g，S_RGB-l，S_Depth-g，S_Depth-l，S_RGB-f-g，S_RGB-f-l，S_Depth-f-g和S_depth-f-l。基于以上的手势分类得分进行平均，并且利用softmax归一化函数进行类别得分的归一化，最终获得不同手势类别的概率。

综上，本技术方案利用RGB-D的图片数据对手势及人体的骨骼进行估计，获得骨骼数据的特征表示。并且根据估计的骨骼位置，在RGB，Depth和光流的数据中提取相应的目标区域，如手、肘和肩等区域，构造局部的RGB，Depth和光流的数据表达。最后根据每个模态的全局和局部的表达对手势计算类别得分，最终将多个模态类别得分进行综合从而得到基于多模态的手势分类方法。通过多模态特征全局描述和局部描述的结合，本技术方案有效地提升了手势识别的准确率，使之能够在现实生活场景中进行一定程度的应用。

同时，本发明可以提供基于摄像头输入手势识别服务。用户可以在摄像头捕捉到的范围内进行与计算机系统的手势交互行为，以完成如智能家居的手势控制操作，或者是计算机的手势交互等，具有广泛的应用场景。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，除了上述说明的全局-局部多模态手势方式，其他的利用本文提出的基于骨骼点对RGB图、深度图和光流图的局部数据表达的构造也在本专利保护范围之内；同时，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。