CN112861808B

CN112861808B - 动态手势识别方法、装置、计算机设备及可读存储介质

Info

Publication number: CN112861808B
Application number: CN202110294180.9A
Authority: CN
Inventors: 邓玥琳; 刘岩; 李驰; 贾晨; 杨颜如
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2024-01-23
Anticipated expiration: 2041-03-19
Also published as: CN112861808A

Abstract

本发明实施例提供了一种动态手势识别方法、装置、计算机设备及可读存储介质，其中，该方法包括：从视频流中提取人体骨骼序列和手部骨骼序列，人体骨骼序列包括多组人体骨骼组合，手部骨骼序列包括多组手部骨骼组合；针对每组人体骨骼组合和每组手部骨骼组合分别提取骨骼变化特征；将每组人体骨骼组合对应的骨骼变化特征标注在人体骨骼序列中，将标注后的人体骨骼序列输入双流网络预测模型的一个卷积神经网络中，将每组手部骨骼组合对应的骨骼变化特征标注在手部骨骼序列中，将标注后的手部骨骼序列输入双流网络预测模型的另一个卷积神经网络中，双流网络预测模型输出手势识别结果，双流网络预测模型是训练双流卷积神经网络得到的。

Description

动态手势识别方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及动态识别技术领域，特别涉及一种动态手势识别方法、装置、计算机设备及可读存储介质。

背景技术

手势识别这个术语指的是识别人类手势和转换为语义上有意义的命令的整个过程。一般而言，从手势交互信息采集的途径是接触式还是非接触式的，可将手势交互系统划分为基于接触式的传感器和基于非接触类的传感器的两类。基于非接触式传感器的手势识别通常基于使用光学传感、深度传感、雷达探测、红外探测等技术。

基于接触式传感器的手势识别通常基于使用多个传感器的数据手套、加速度计、多点触摸屏等技术。此类技术虽然准确率较高，但是，仍需要特殊的硬件支持，应用方面受到极大的限制。

非接触式传感手势识别中，基于光学摄像头或深度摄像头的方法最为普及与常见，其中：

基于手势和特点，分为静态手势识别和动态手势识别；

基于数据信息的维度，分为2D和3D的手势识别(3D比2D多了深度信息)；

基于数据采集形式，分为基于RGB(RGBD)和基于骨骼点的手势识别。

本申请涉及的是基于骨骼点的动态手势识别(不限于2D或3D数据)。

在这一类方法里面，近几年比较有代表性的方法包括但不限于：骨骼点+卷积神经网络、骨骼点+循环神经网络和骨骼点+时空图卷积网络等方法。由于手势识别对于实时性以及轻量化的要求，基于骨骼点+卷积神经网络(Double-feature Double-motionNetwork，简称为DD-Net)的方法在众多方法中因为模型十分轻量化，运行速度很快，同时保证较好的精确度，可以用于边缘设备上的姿态识别和手势识别，而具备较强的的实用性。

但是DD-Net在进行手势识别的过程中，仅仅使用手部骨骼的特征，限制了DD-Net在实践中准确率的进一步提升。

发明内容

本发明实施例提供了一种动态手势识别方法，以解决现有技术中基于手部骨骼的特征进行手势识别存在的准确率低的技术问题。该方法包括：

从视频流中提取人体骨骼序列和手部骨骼序列，其中，所述人体骨骼序列包括多组人体骨骼组合，所述手部骨骼序列包括多组手部骨骼组合；

针对每组人体骨骼组合提取骨骼变化特征，针对每组手部骨骼组合提取骨骼变化特征；

将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中，将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中，将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中，将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中，所述双流网络预测模型输出手势识别结果，其中，所述双流网络预测模型是训练双流卷积神经网络得到的。

本发明实施例还提供了一种动态手势识别装置，以解决现有技术中基于手部骨骼的特征进行手势识别存在的准确率低的技术问题。该装置包括：

骨骼序列提取模块，用于从视频流中提取人体骨骼序列和手部骨骼序列，其中，所述人体骨骼序列包括多组人体骨骼组合，所述手部骨骼序列包括多组手部骨骼组合；

特征提取模块，用于针对每组人体骨骼组合提取骨骼变化特征，针对每组手部骨骼组合提取骨骼变化特征；

识别手势模块，用于将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中，将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中，将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中，将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中，所述双流网络预测模型输出手势识别结果，其中，所述双流网络预测模型是训练双流卷积神经网络得到的。

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意的动态手势识别方法，以解决现有技术中基于手部骨骼的特征进行手势识别存在的准确率低的技术问题。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述任意的动态手势识别方法的计算机程序，以解决现有技术中基于手部骨骼的特征进行手势识别存在的准确率低的技术问题。

在本发明实施例中，提出了提取人体骨骼序列和手部骨骼序列，进而基于人体骨骼序列提取每组人体骨骼组合对应的骨骼变化特征，基于手部骨骼序列提取每组手部骨骼组合的骨骼变化特征，最后，将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中，将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中，将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中，将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中，所述双流网络预测模型即可输出手势识别结果。即提出了结合人体骨骼序列和手部骨骼序列来实现动态手势识别，由于人体骨骼序列包括手腕、前臂、肩部等人体的多部位或多关节，同时提取每组人体骨骼组合提取骨骼变化特征，使得标注后的人体骨骼序列可以从宏观、整体上体现手部运动变化，由于手部骨骼序列包括了手部的多关节，同时提取每组手部骨骼组合提取骨骼变化特征，使得标注后的手部骨骼序列可以从手部的局部、细节上体现手部运动变化，进而实现了综合手部的宏观变化和细节变化来识别动态手势，与现有技术中仅基于手部骨骼特征识别手势的技术方案相比，可以增强和补充更多的手部运动信息，有利于提高动态手势识别的准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1是本发明实施例提供的一种动态手势识别方法的流程图；

图2是本发明实施例提供的一种双流网络预测模型的训练和预测的流程图；

图3是本发明实施例提供的一种人体骨骼组合的示意图；

图4是本发明实施例提供的一种手部骨骼组合的示意图；

图5是本发明实施例提供的一种关节点联合收集距离特征的示意图；

图6是本发明实施例提供的一种双流网络预测模型的网络结构示意图；

图7是本发明实施例提供的一种计算机设备的结构框图；

图8是本发明实施例提供的一种动态手势识别装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

本申请发明人发现，在实际的手势操作过程种，除了手部骨骼点有变化以外，人体的手腕、前臂、肩部等部位或关节也贡献了很强的位置以及运动变化的特征，尤其是在向左向右滑动等幅度稍大的动作中；且在拍摄条件以及硬件设备受限制导致手部骨骼点提取缺失的情况下，引入人体骨骼特征还能够对手部骨骼点缺陷提供很好的互补，即人体骨骼特征的使用，既可以增强和补充手部骨骼点的相关信息，又可以综合人体骨骼特征体现的运动变化信息和手部骨骼特征体现的运动变化信息来提高识别准确率，因此，提出了基于人体骨骼序列和手部骨骼序列进行动态手势识别的上述动态手势识别方法。

在本发明实施例中，提供了一种动态手势识别方法，如图1所示，该方法包括：

步骤102：从视频流中提取人体骨骼序列和手部骨骼序列，其中，所述人体骨骼序列包括多组人体骨骼组合，所述手部骨骼序列包括多组手部骨骼组合；

步骤104：针对每组人体骨骼组合提取骨骼变化特征，针对每组手部骨骼组合提取骨骼变化特征；

步骤106：将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中，将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中，将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中，将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中，所述双流网络预测模型输出手势识别结果，其中，所述双流网络预测模型是训练双流卷积神经网络得到的。

由图1所示的流程可知，在本发明实施例中，提出了提取人体骨骼序列和手部骨骼序列，进而基于人体骨骼序列提取每组人体骨骼组合对应的骨骼变化特征，基于手部骨骼序列提取每组手部骨骼组合的骨骼变化特征，最后，将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中，将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中，将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中，将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中，所述双流网络预测模型即可输出手势识别结果。即提出了结合人体骨骼序列和手部骨骼序列来实现动态手势识别，由于人体骨骼序列包括手腕、前臂、肩部等人体的多部位或多关节，同时提取每组人体骨骼组合提取骨骼变化特征，使得标注后的人体骨骼序列可以从宏观、整体上体现手部运动变化，由于手部骨骼序列包括了手部的多关节，同时提取每组手部骨骼组合提取骨骼变化特征，使得标注后的手部骨骼序列可以从手部的局部、细节上体现手部运动变化，进而实现了综合手部的宏观变化和细节变化来识别动态手势，与现有技术中仅基于手部骨骼特征识别手势的技术方案相比，可以增强和补充更多的手部运动信息，有利于提高动态手势识别的准确率。

具体实施时，如图2所示，在训练双流网络预测模型的过程中，基于自采视频数据进行视频解码和分段，视频数据标注，进而对每段视频提取人体和手部骨骼坐标得到人体骨骼序列和手部骨骼序列，对人体骨骼序列和手部骨骼序列数据增强后分别进行骨骼变化特征提取，最后，将骨骼变化特征分别标注在人体骨骼序列和手部骨骼序列中，再将标注后的人体骨骼序列和手部骨骼序列并行输入双流卷积神经网络进行训练，得到双流网络预测模型，之后可以采用双流网络预测模型进行预测，预测的过程与双流网络预测模型的训练过程大致相似，基于实时视频流进行视频解码和分段，进而对每段视频提取人体和手部骨骼坐标得到人体骨骼序列和手部骨骼序列，再对人体骨骼序列和手部骨骼序列分别提取骨骼变化特征，最后，将骨骼变化特征分别标注在人体骨骼序列和手部骨骼序列中，再将标注后的人体骨骼序列和手部骨骼序列并行输入双流网络预测模型，双流网络预测模型即可输出手势识别结果。

具体实施时，在提取人体骨骼序列和手部骨骼序列的过程中，可以通过以下步骤实现：

将视频流按照帧转换为多个连续的图像序列，每个所述图像序列包括多帧图像；具体的，可以对视频流按照指定的帧率FPS进行解码抽帧，再按照T帧为一个分段，将视频流转换为连续的分段的图像序列，即每个图像序列中包含T帧图像。

针对每个图像序列的每帧图像，计算骨骼点的坐标，提取一个人体骨骼组合和一个手部骨骼组合，按照帧的顺序各帧图像对应的人体骨骼组合组成所述人体骨骼序列，按照帧的顺序各帧图像对应的手部骨骼组合组成所述人体骨骼序列。

具体的，可以针对图像序列的每帧图像提取骨骼点的坐标，例如，可以采用OpenPose方法提取每一帧图像中骨骼点的笛卡尔坐标，如图3所示，每帧图像中目标人体(当图像中存在多个人，可按照位置中心或置信度筛选最合适的一个人为目标人体)的骨骼点组成一组人体骨骼组合，一组人体骨骼组合可以体现出整个人体的骨骼架构，一组人体骨骼组合可以包含18个骨骼点，骨骼点可以为人体关节点，图像序列中各帧图像对应的人体骨骼组合组成人体骨骼序列，如果用j_bti表示分段图像序列中第t帧第i个身体骨骼节点，则该图像序列(可视为一个视频分段)对应的人体骨骼序列可以表示为J_b＝{j_bti|t＝1,...,T,i＝1,...,N}，其中，N＝18。

具体的，针对图像序列的每帧图像提取骨骼点的坐标后，每帧图像中目标人体的手部的骨骼点组成一组手部骨骼组合，对于手部骨骼点，每个人体骨骼中提取不超过两只手的手部骨骼，即一组手部骨骼组合最多包括两只手的手部骨骼点(具体的，每个目标人体一般可以对应提取两只手的手部骨骼点，由于拍摄角度等原因可能只能拍摄到一只手或拍不到手部)，一组手部骨骼组合最多可以体现出两只手的骨骼架构，如图4所示，一组手部骨骼组合中每只手可以包含21个骨骼点，骨骼点可以为手部关节点，图像序列中各帧图像对应的手部骨骼组合组成手部骨骼序列，如果用j_rti表示分段图像序列中第t帧第i个右手部的骨骼点，则该图像序列(可视为一个视频分段)对应的一个右手的手部骨骼序列可以表示为J_r＝{j_rti|t＝1,...,T,i＝1,...,M}，其中，M＝21；同理，该图像序列(可视为一个视频分段)对应的一个左手的手部骨骼序列与右手的手部骨骼序列相似，可以表示为J_l＝{j_lti|t＝1,...,T,i＝1,...,M}。

具体实施时，每帧图像中，如果存在手部骨骼被遮挡或因拍摄角度等问题无法提取时，则可以用人体骨骼中与缺失的手部骨骼最邻近的关节或对应手腕的坐标代替所有缺失的手部骨骼点数据。

具体实施时，提取出人体骨骼序列和手部骨骼序列之后，则可以对人体骨骼组合和手部骨骼组合分别提取骨骼变化特征，为了体现出更多、更准确的动态手势中手部的变化信息，在本实施例中，提取骨骼变化特征的过程为提取关节点联合收集距离特征和/或多尺度运动特征。

具体实施时，笛卡尔坐标特征随位置和视点的变化而变化，当骨骼旋转或移动时，笛卡尔坐标特征会发生显著变化；另一方面，几何特征(例如角度/距离)是位置-视点不变的，它可被用于基于骨架的动作识别，因此，引入了关节点联合收集距离特征。针对每组所述人体骨骼组合提取关节点联合收集距离(Joint Collection Distances，JCD)特征的过程与对每组所述手部骨骼组合提取关节点联合收集距离特征的过程相似，在此统一介绍提取关节点联合收集距离特征的过程，例如，针对每组所述人体骨骼组合或所述手部骨骼组合，计算每两个骨骼点之间的欧几里得距离，各欧几里得距离组成一个对称矩阵，为了减少冗余，将所述对称矩阵的无对角部分的下三角矩阵作为关节点联合收集距离特征，如图5所示，该关节点联合收集距离特征可以显示出帧图像中每两个骨骼点之间的位置关系，综合图像序列中各帧图像的骨骼组合(人体骨骼组合或手部骨骼组合)对应的关节点联合收集距离特征，则可以显示出每两个骨骼点之间位置的动态变化情况。

具体的，针对每组所述人体骨骼组合提取关节点联合收集距离(JointCollection Distances，JCD)特征的过程与对每组所述手部骨骼组合提取关节点联合收集距离特征的过程存在的细微区别是，针对每组所述人体骨骼组合提取一个关节点联合收集距离特征，针对每组所述手部骨骼组合，则是针对每组所述手部骨骼组合中的每只手的骨骼组合对应提取一个关节点联合收集距离特征。

具体实施时，在提取关节点联合收集距离特征的过程中，以人体骨骼组合提取一个关节点联合收集距离特征为例(同理，对手部骨骼组合提取一个关节点联合收集距离特征时将公式中的N替换为M即可)，可以通过以下公式计算关节点联合收集距离特征：

具体实施时，利用笛卡尔坐标特征在时间上的差异信息可以获得全局运动，并且具有位置不变性。然而，对于同样的运动，运动的规模可能并不完全相同，有些可能更快，有些可能更慢，要学习鲁棒的运动特征，需要同时考虑慢运动和快运动，因此，提出提取多尺度运动特征，针对每组所述人体骨骼组合提取多尺度运动特征的过程与对每组所述手部骨骼组合提取多尺度运动特征的过程相似，在此统一介绍提取多尺度运动特征的过程，例如，针对每组所述人体骨骼组合或所述手部骨骼组合中的每个骨骼点，计算该骨骼点在不同时间窗口下的运动幅度，各时间窗口下的运动幅度组成该骨骼点的多尺度运动特征，该多尺度运动特征可以表示出单个骨骼点在时间上的空间变化，即针对骨骼组合(人体骨骼组合或手部骨骼组合)的单个骨骼点，综合图像序列中各帧图像中该骨骼点对应的多尺度运动特征，则可以表示出该骨骼点的空间变化随着时间变价而动态变化的情况。

具体实施时，该多尺度运动特征是单个骨骼点在多个时间窗口下的运动幅度，例如，这里以单个骨骼点在两个时间窗口(一个表示缓慢运动(Slow Motion)的时间窗口，另一个表示快速运动(Fast Motion)的时间窗口)下的运动幅度为例，则多尺度运动特征简化为双尺度运动特征，则可以通过以下公式计算双尺度运动特征：

其中，代表缓慢运动的特征，/>代表快速运动的特征，J_t代表t时刻的骨骼点集合的坐标，J_t+1代表t+1时刻的骨骼点集合的坐标，J_t+2代表t+2时刻的骨骼点集合的坐标。具体的，在计算多尺度运动特征时，对应通过多个公式2所示的方程式计算不同时间窗口下的运动幅度即可。

具体实施时，得到每组人体骨骼组合对应的关节点联合收集距离特征和多尺度运动特征、每组手部骨骼组合对应的关节点联合收集距离特征和多尺度运动特征，即可将每组人体骨骼组合对应的关节点联合收集距离特征和多尺度运动特征标注在人体骨骼序列中，进而将所述人体骨骼序列中批注的每组人体骨骼组合对应的关节点联合收集距离特征和多尺度运动特征，并行分路输入双流网络预测模型的一个卷积神经网络嵌入到每帧的潜向量中，如图6所示，多尺度运动特征以双尺度运动特征为例，多尺度运动特征为两路数据，加上关节点联合收集距离特征，则三路数据并行输入双流网络预测模型的一个卷积神经网络中，同理，将每组手部骨骼组合对应的关节点联合收集距离特征和多尺度运动特征标注在手部骨骼序列中，进而将所述手部骨骼序列中批注的每组手部骨骼组合对应的关节点联合收集距离特征和多尺度运动特征，并行分路输入双流网络预测模型的另一个卷积神经网络嵌入到每帧的潜向量中，如图6所示，多尺度运动特征以双尺度运动特征为例，多尺度运动特征为两路数据，加上关节点联合收集距离特征，则三路数据并行输入双流网络预测模型的另一个卷积神经网络中，最后两个卷积神经网络的输出通过加权平均后经过一个Softmax层输出，从而得到最终的行为识别预测结果，如下公式(3)所示：

z_bh＝softmax(w_bz_b+w_hz_h) 3)

其中，z_bh代表识别预测结果；w_b代表人体骨骼序列的权重；z_b代表以人体骨骼为输入的网络输出；w_h代表手部骨骼序列的权重；z_h代表以手部骨骼为输入的网络输出。

可见，双流网络预测模型中对标注后的所述人体骨骼序列和标注后的所述手部骨骼序列是采用两个并行的卷积神经网络分别进行处理运算的，这样可以分别基于标注后的所述人体骨骼序列从宏观骨骼特征上识别动态手势的有关运动信息，基于标注后的所述手部骨骼序列从手部的细节、局部骨骼特征上识别动态手势的有关运动信息，最后，两个卷积神经网络的输出进行融合形成双流架构，可以增强和补充单流架构的识别能力，综合基于标注后的所述人体骨骼序列得到的宏观的动态手势的有关运动信息和基于标注后的所述手部骨骼序列得到的细节、局部的动态手势的有关运动信息，使得可以提高双流网络预测模型的识别能力，进一步提高动态手势识别的准确率。

以下结合示例来描述实施上述动态手势识别方法的过程，以该方法应用于大屏手势识别为例。

首先，以智能大屏采集的视频流作为数据，获取视频流，并对视频流按照指定的帧率(如FPS＝20)进行解码抽帧，按照32帧(即1.6秒)为一个分段，将视频流转换为连续的分段图像序列，每个图像序列中包含32帧图像。

在每一个分段图像序列中，用OpenPose方法提取每一帧图像中的人体和手部的骨骼点坐标，每一个分段提取1个人体骨骼序列，每一帧图像中一个目标人体包含18个骨骼点，该18个骨骼点组成一组人体骨骼组合，图像序列中每一帧图像对应的人体骨骼组合按照帧的顺序组成一个人体骨骼序列；每一帧图像每个目标人提取不超过2个手部的骨骼点，一个手部包括21个骨骼点，该21个骨骼点组成一只手的手部骨骼，一组手部骨骼组合包括最多两只手的手部骨骼。如果存在手部骨骼被遮挡或因拍摄角度等问题无法提取时，则用人体骨骼中与缺少手部骨骼最邻近的关节或对应手腕的坐标代替所有缺失的手部骨骼数据。

对每组所述人体骨骼组合或所述手部骨骼组合分别完成关节点联合收集距离特征和多尺度运动特征特征的抽取之后，将标注后的人体骨骼序列和标注后的手部骨骼序列并行分别输入所述双流网络预测模型的一个DD-Net网络中，两个DD-Net网络的输出通过加权平均后经过一个Softmax层，得到最终的行为识别预测结果，类别为向右。

具体实施时，收集1000+训练样例，200+评估测试集合，用手势类别的识别准确率(Accuracy)作为技术评估指标，如下表1所示，卷积神经网络仅基于手部骨骼识别手势的准确率为91.07％，卷积神经网络仅基于人体骨骼识别手势的准确率为93.93％，而本申请提出的动态手势识别方法通过双流卷积神经网络基于人体和手部骨骼识别手势的准确率为94.64％，可见，本申请的动态手势识别方法可有效提高识别准确率。

表1

具体实施时，上述动态手势识别方法可以应用于任何需要手势识别的人机交互的应用场景，例如，智能大屏、智能平板、机器人等与人的交互场景。

在本实施例中，提供了一种计算机设备，如图7所示，包括存储器702、处理器704及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意的动态手势识别方法。

具体的，该计算机设备可以是计算机终端、服务器或者类似的运算装置。

在本实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述任意的动态手势识别方法的计算机程序。

具体的，计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

基于同一发明构思，本发明实施例中还提供了一种动态手势识别装置，如下面的实施例所述。由于动态手势识别装置解决问题的原理与动态手势识别方法相似，因此动态手势识别装置的实施可以参见动态手势识别方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是本发明实施例的动态手势识别装置的一种结构框图，如图8所示，包括：

骨骼序列提取模块802，用于从视频流中提取人体骨骼序列和手部骨骼序列，其中，所述人体骨骼序列包括多组人体骨骼组合，所述手部骨骼序列包括多组手部骨骼组合；

特征提取模块804，用于针对每组人体骨骼组合提取骨骼变化特征，针对每组手部骨骼组合提取骨骼变化特征；

识别手势模块806，用于将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中，将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中，将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中，将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中，所述双流网络预测模型输出手势识别结果，其中，所述双流网络预测模型是训练双流卷积神经网络得到的。

在一个实施例中，骨骼序列提取模块，具体用于将视频流按照帧转换为多个连续的图像序列，每个所述图像序列包括多帧图像；针对每个图像序列的每帧图像，计算骨骼点的坐标，提取一组人体骨骼组合和一组手部骨骼组合，按照帧的顺序各帧图像对应的人体骨骼组合组成所述人体骨骼序列，按照帧的顺序各帧图像对应的手部骨骼组合组成所述人体骨骼序列。

在一个实施例中，每组人体骨骼组合包括18个骨骼点，每组手部骨骼组合最多包括两只手的手部骨骼，每只手的手部骨骼包括21个骨骼点。

在一个实施例中，特征提取模块，具体用于提取关节点联合收集距离特征和/或多尺度运动特征。

在一个实施例中，特征提取模块，包括：

关节点联合收集距离特征提取单元，用于针对每组所述人体骨骼组合或所述手部骨骼组合，计算每两个骨骼点之间的欧几里得距离，各欧几里得距离组成一个对称矩阵，将所述对称矩阵的无对角部分的下三角矩阵作为关节点联合收集距离特征。

在一个实施例中，特征提取模块，包括：

多尺度运动特征提取单元，用于针对每组所述人体骨骼组合或所述手部骨骼组合中的每个骨骼点，计算该骨骼点在不同时间窗口下的运动幅度，各时间窗口下的运动幅度组成该骨骼点的多尺度运动特征。

在一个实施例中，识别手势模块，包括：

数据输入单元，用于将所述人体骨骼序列中批注的每组人体骨骼组合对应的关节点联合收集距离特征和多尺度运动特征，并行分路输入双流网络预测模型的一个卷积神经网络嵌入到每帧的潜向量中，将所述手部骨骼序列中批注的每组手部骨骼组合对应的关节点联合收集距离特征和多尺度运动特征，并行分路输入双流网络预测模型的另一个卷积神经网络嵌入到每帧的潜向量中。

本发明实施例实现了如下技术效果：提出了提取人体骨骼序列和手部骨骼序列，进而基于人体骨骼序列提取每组人体骨骼组合对应的骨骼变化特征，基于手部骨骼序列提取每组手部骨骼组合的骨骼变化特征，最后，将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中，将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中，将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中，将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中，所述双流网络预测模型即可输出手势识别结果。即提出了结合人体骨骼序列和手部骨骼序列来实现动态手势识别，由于人体骨骼序列包括手腕、前臂、肩部等人体的多部位或多关节，同时提取每组人体骨骼组合提取骨骼变化特征，使得标注后的人体骨骼序列可以从宏观、整体上体现手部运动变化，由于手部骨骼序列包括了手部的多关节，同时提取每组手部骨骼组合提取骨骼变化特征，使得标注后的手部骨骼序列可以从手部的局部、细节上体现手部运动变化，进而实现了综合手部的宏观变化和细节变化来识别动态手势，与现有技术中仅基于手部骨骼特征识别手势的技术方案相比，可以增强和补充更多的手部运动信息，有利于提高动态手势识别的准确率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动态手势识别方法，其特征在于，包括：

将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中，将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中，将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中，将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中，所述双流网络预测模型输出手势识别结果，其中，所述双流网络预测模型是训练双流卷积神经网络得到的；所述卷积神经网络为DD-Net网络；

提取所述骨骼变化特征，包括：

提取关节点联合收集距离特征和/或多尺度运动特征；

将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中，将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中，包括：

将所述人体骨骼序列中批注的每组人体骨骼组合对应的关节点联合收集距离特征和多尺度运动特征，并行分路输入双流网络预测模型的一个卷积神经网络嵌入到每帧的潜向量中，将所述手部骨骼序列中批注的每组手部骨骼组合对应的关节点联合收集距离特征和多尺度运动特征，并行分路输入双流网络预测模型的另一个卷积神经网络嵌入到每帧的潜向量中；

其中，从视频流中提取人体骨骼序列和手部骨骼序列，包括：

将视频流按照帧转换为多个连续的图像序列，每个所述图像序列包括多帧图像；

针对每个图像序列的每帧图像，计算骨骼点的坐标，提取一组人体骨骼组合和一组手部骨骼组合，按照帧的顺序各帧图像对应的人体骨骼组合组成所述人体骨骼序列，按照帧的顺序各帧图像对应的手部骨骼组合组成所述人体骨骼序列；

提取关节点联合收集距离特征，包括：

针对每组所述人体骨骼组合或所述手部骨骼组合，计算每两个骨骼点之间的欧几里得距离，各欧几里得距离组成一个对称矩阵，将所述对称矩阵的无对角部分的下三角矩阵作为关节点联合收集距离特征；

提取多尺度运动特征，包括：

针对每组所述人体骨骼组合或所述手部骨骼组合中的每个骨骼点，计算该骨骼点在不同时间窗口下的运动幅度，各时间窗口下的运动幅度组成该骨骼点的多尺度运动特征。

2.如权利要求1所述的动态手势识别方法，其特征在于，每组人体骨骼组合包括18个骨骼点，每组手部骨骼组合最多包括两只手的手部骨骼，每只手的手部骨骼包括21个骨骼点。

3.一种动态手势识别装置，其特征在于，包括：

识别手势模块，用于将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中，将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中，将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中，将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中，所述双流网络预测模型输出手势识别结果，其中，所述双流网络预测模型是训练双流卷积神经网络得到的；所述卷积神经网络为DD-Net网络；

特征提取模块，具体用于提取关节点联合收集距离特征和/或多尺度运动特征；

识别手势模块，包括：

数据输入单元，用于将所述人体骨骼序列中批注的每组人体骨骼组合对应的关节点联合收集距离特征和多尺度运动特征，并行分路输入双流网络预测模型的一个卷积神经网络嵌入到每帧的潜向量中，将所述手部骨骼序列中批注的每组手部骨骼组合对应的关节点联合收集距离特征和多尺度运动特征，并行分路输入双流网络预测模型的另一个卷积神经网络嵌入到每帧的潜向量中；

其中，骨骼序列提取模块，具体用于将视频流按照帧转换为多个连续的图像序列，每个所述图像序列包括多帧图像；针对每个图像序列的每帧图像，计算骨骼点的坐标，提取一组人体骨骼组合和一组手部骨骼组合，按照帧的顺序各帧图像对应的人体骨骼组合组成所述人体骨骼序列，按照帧的顺序各帧图像对应的手部骨骼组合组成所述人体骨骼序列；

特征提取模块，包括：

关节点联合收集距离特征提取单元，用于针对每组所述人体骨骼组合或所述手部骨骼组合，计算每两个骨骼点之间的欧几里得距离，各欧几里得距离组成一个对称矩阵，将所述对称矩阵的无对角部分的下三角矩阵作为关节点联合收集距离特征；

4.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述的动态手势识别方法。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的动态手势识别方法。