CN111291713A

CN111291713A - 一种基于骨架的手势识别方法及系统

Info

Publication number: CN111291713A
Application number: CN202010124934.1A
Authority: CN
Inventors: 周元峰; 李扬科
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-06-16
Anticipated expiration: 2040-02-27
Also published as: CN111291713B

Abstract

本发明公开了一种基于骨架的手势识别方法及系统，包括：对获取的待识别的原始手势骨架序列进行数据增强；分别提取每一帧内骨架节点之间的运动特征，以及不同尺度的空间运动特征，利用空间感知网络得到第一动态手势预测标签；分别提取相邻帧间骨架节点之间的运动特征，以及不同尺度的时间运动特征，利用短期时间感知网络得到第二动态手势预测标签；分别提取不相邻帧间骨架节点之间的运动特征，以及不同尺度的时间运动特征，利用长期时间感知网络得到第三动态手势预测标签；根据得到的动态手势预测标签，利用时空多尺度链式网络模型输出最终的手势预测标签。本发明能够通过有针对性的优化单独的分支来实现整体识别效率以及识别精度的提升。

Description

一种基于骨架的手势识别方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于骨架的动态手势识别方法及系统。

背景技术

本部分仅仅阐述了与本发明相关的背景技术信息，不必然构成在先技术。

随着虚拟现实技术的飞速发展以及人们对人机交互性能要求的不断提高，传统的人机交互模式已经无法满足人们的需求，人们迫切地需要更加自然的、更符合人们生活习惯的交互方式，例如：语音、手势等。目前手势凭借着便捷、直观等特点在人机交互领域得到了广泛的应用，其被广泛地应用于交互式游戏、机器人控制、聋哑人辅助交流等各个领域。与接触式人机交互相比手势交互提供了一种更加便捷的交互方式，其不需要特殊的硬件便可完成相关的任务。因而，越来越多的相关学者开始投身于手势识别技术的研究工作。

目前基于手势的人机交互可以分为两种：基于数据手套的人机交互以及基于计算机视觉的人机交互。

基于数据手套的人机交互方式往往需要特殊的硬件设备，而且无法应用于特殊的环境中。用户想要进行交互时需要穿戴数据手套，而数据手套便利用内嵌的磁定位传感器、弯曲传感器以及三轴加速度传感器等来获取用户的手势空间位置、手指弯曲程度以及手势的运动状态。该方法虽然识别精度高、识别速度快，但是其往往会极大地影响用户的使用体验而且数据手套的价格也相对较为昂贵。

近年来，随着计算机硬件设备以及机器学习技术地迅猛发展，基于机器视觉的手势识别逐渐成为相关学者的研究热点。基于图像的手势识别往往需要涉及三个方面：手势的检测、手势的分割和手势的识别。

由于图像中包含大量的噪声，这将会严重地影响手势的检测以及分割的效果，从而增加了手势识别的难度。而且图像往往包含较多的冗余信息，这将占据大量的计算资源与存储资源，很难将其应用于资源有限的嵌入式设备中。Leap Motion作为一种新型传感器，能够有效地检测手部细微的动作变化，提取详细的手部信息，提供精确的手势骨架。Leap Motion主要由2个摄像头和3个红外LED构成，使用红外检测目标手势不易受外界条件的干扰，能够有效地采集到超低噪声的帧图像，从而便于进行手势骨架的估计。LeapMotion对手部运动的追踪频率可达到每秒200帧，能够实现精度高达0.01mm的追踪，其范围大约在设备前方25-600mm，并且拥有150°的圆形空间视场。与此同时，针对手部关节点估计的算法也得到了迅速地发展。利用手势骨节点来实现手势识别一方面可以极大地减少所需要处理的信息；另一方面可以在尽可能地减少原始数据带来的噪声影响。无论是直接利用Leap Motion提供的骨架数据，还是利用其提供的红外图像估计出来的骨架数据，均可以有效地提高在光照变化环境下的识别性能，从而有效地应用于实际场景中。

手势识别技术有静态手势识别和动态手势识别之分。静态手势识别仅需要处理单一的骨架数据。其实现较为简单，目前已经可以达到较高的识别精度。但是对于动态手势识别而言，不仅需要处理一系列的骨架数据，还需要有效地提取手势伴随时间和空间的改变而产生的形态和运动轨迹的变化特征。因而这就需要一定的计算资源与存储资源；而且还应当保证其能够实现实时的处理。动态手势识别的处理过程一般分为3个部分：手势特征提取、手势模型训练、手势分类识别。近些年来，动态手势识别的应用变得越来越广泛，因此，我们的研究方向便是基于骨架的动态手势识别。

发明人发现，目前相关学者提出了众多基于骨架的动态手势研究方式。有些学者利用豪斯多夫距离模板匹配的思想实现手势识别，但是该方法无法有效的解决时间可变性问题，识别精度较低。有些学者利用SVM算法构造多分类器的手势识别，但是该方法对大规模样本训练集的训练时间较长，难以运用在实际问题中。有些学者利用动态时间规整(DTW)的方法将不对齐的两个序列在某一时刻点进行压缩，从而实现动态手势的识别，但是该方法引入了一定的误差，降低了手势的识别精度。还有些学者利用BP算法来训练多层前馈神经网络来实现手势识别，但是采用传统的人工神经网络结构需要手动对参数进行调整。

归结起来可以得出：目前手势识别常用的方法主要面临着处理速度慢、识别率不高，无法有效地提取特征等问题，因此，越来越多的学者开始转向利用深度学习来实现动态手势识别。但是现有的网络模型都存在着各自的一些弊端，有些方式可以在精度上达到一个较高的水平，但是却需要占据较大的存储空间。有些方式采用一种轻量级的模型来实现手势的识别，但是识别精度却不尽人意。

通过大量的调研，发明人发现从手势骨架序列数据中提取的运动特征将会对手势识别的结果产生重要的影响。目前针对手势运动特征提取的技术得到了快速的发展，其可以分为手工特征提取方法和深度学习方法。手工特征提取的运动特征以不同的形式来描述手势的不同关节之间的关系，但是手工特征具有有限的泛化能力，现有的各种深度学习方式也依然无法很好地提取丰富的手势运动特征。

发明内容

有鉴于此，本发明提出了一种基于骨架的手势识别方法及系统，设计了时空多尺度链式多流网络模型，通过时间感知网络来获取骨架序列的帧与帧之间的全局运动特征，通过空间感知网络来获取同一帧内各个骨架节点之间的空间运动特征；能够有效避免常规的多流网络模型因后期聚合所带来的缺点，通过有针对性的优化单独的分支来实现整体识别率的提升。

在一些实施方式中，采用如下技术方案：

一种基于骨架的手势识别方法，包括：

对获取的待识别的原始手势骨架序列进行数据增强；

分别提取每一帧内骨架节点之间的运动特征，以及不同尺度的空间运动特征，利用空间感知网络得到第一动态手势预测标签；

分别提取相邻帧间骨架节点之间的运动特征，以及不同尺度的时间运动特征，利用短期时间感知网络得到第二动态手势预测标签；

分别提取不相邻帧间骨架节点之间的运动特征，以及不同尺度的时间运动特征，利用长期时间感知网络得到第三动态手势预测标签；

根据得到的第一动态手势预测标签、第二动态手势预测标签和第三动态手势预测标签，利用时空多尺度链式网络模型输出最终的手势预测标签。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的基于骨架的手势识别方法。

与现有技术相比，本发明的有益效果是：

(1)本发明提出的链式网络模型架构，能够有效避免常规的多流网络模型因后期聚合所带来的缺点，通过有针对性的优化单独的分支来实现整体识别效率以及识别精度的提升。

(2)与目前现有的方法相比，本发明所提出方法的识别精度在公开的动态手势数据集SHREC’17 Track(14个手势)上可以达到96.55％，在SHREC’17 Track(28个手势)上可以达到91.07％，训练后的模型大小仅有2.8M；解决了现有手势运动特征提取不充分、手势分类精度低、识别模型所占存储空间较大等问题。

(3)本发明提出长短期结合的时间运动特征编码器，可以有效地提取帧与帧之间的运动特征；

本发明设计空间多尺度感知模块和时间多尺度感知模块，能够有效地感知不同尺度的运动特征，为后续的手势识别提供了更加丰富的信息；

本发明提出基于滑动窗口的改进的特征平滑算法，可以在节省空间的情况下有效地滤除毛刺噪声，获得较好的平滑效果。

附图说明

图1为本发明实施例中基于骨架的手势识别方法流程图；

图2为本发明实施例中网络模型框架图；

图3为本发明实施例中手部骨架节点分布示意图；

图4为本发明实施例中空间多尺度卷积模块示意图；

图5为本发明实施例中特征提取模块示意图；

图6为本发明实施例中手势分类模块示意图；

图7为本发明实施例中短期时间特征编码器示意图；

图8为本发明实施例中时间多尺度卷积模块示意图；

图9为本发明实施例中长期时间特征编码器示意图；

图10为本发明实施例中运动特征平滑算法示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

在一个或多个实施方式中，公开了一种基于骨架动态手势的识别方法，如图1所示，包含以下步骤：

步骤1：获取手势的骨架数据；

步骤1具体包括：

步骤1.1：读取存储骨架数据的TXT文件，文件中每一行表示一帧的骨架数据。每一帧骨架数据由22个骨节点表示，其按照<x,y,z>的格式进行存储。

步骤1.2：将骨架数据转化为适合网络输入的格式。网络的输入数据是一个矩阵的形式，每一行表示的是每一帧的骨架数据，我们需要将其存储为下面的格式：

<(x₁,y₁,z₁),(x₂,y₂,z₂),…,(x₂₁,y₂₁,z₂₁),(x₂₂,y₂₂,z₂₂)>

具体地，本实施例一方面可以通过利用Leap motion来实现实时的手势骨架数据获取，另一方面可以通过加载预先采集好的骨架序列数据来实现手势的识别。

Leap Motion为开发人员提供了获取手部骨架节点的相关API，因此我们可以通过直接调用相关API(调用接口)获取数据。但是，其仅仅提供了5个指尖、掌心以及腕关节的三维空间坐标，并没有提供所有的手部关节点的坐标值。所以，我们就需要根据其提供的其他相关信息(法线、方向等)来估计其他的关节点。

当然，也可以直接利用官方提供的SDK(软件开发工具包)来直接获取估计的骨架节点，从而便于后续的操作。

本实施例也可以直接加载别人采集好的骨架数据文件来实现手势的识别，这就不需要再对手势骨架关节点进行估计。目前，公开的动态手势骨架数据集SHREC’17 Track便为我们提供了现成的数据。

每个骨架节点具有三维空间笛卡尔坐标(x,y,z)表示。我们为了能够将手势骨架序列转化为一个矩阵的形式，从而便于输入到网络模型中。我们需要对其进行一定的处理，其中每一行存储的为每一帧的骨架数据，每一帧包含22个骨架节点，按照每次记录一个关节点坐标的方式来进行存储，其具体的存储格式如下所示：

需要注意的是，该数据集针对每一个手势都有两个标签：一个标签为粗粒度标签,另一个标签为细粒度标签。该数据集一共划分为14个粗粒度标签，28个细粒度标签。在载入每个手势标签的时候需要利用One-Hot编码的方式来实现标签的记录。图3具体展示了手部骨节点的示意图以及每一行骨节点的排列顺序。每一行骨节点的排列顺序按照从节点1至节点22的顺序排列，其处理的顺序为腕关节点、掌心关节点、拇指关节点(从下至上)、食指关节点(从下至上)、中指关节点(从下至上)、无名指关节点(从下至上)、小拇指关节点(从下至上)。

步骤2：对原始的骨架数据依次进行下面的增强处理操作；

步骤2具体包括：

步骤2.1：对输入的骨架数据进行随机缩放操作。遍历每一帧的骨架数据并将每一帧内每个骨架节点的数据乘以随机缩放因子即可。

具体地，首先设置一个缩放幅值因子，其大小为0.2。然后根据设置的这个缩放幅值来定义缩放的比例范围为[0.8,1.2]。利用numpy库提供的随机生成数，从上述提供的比例范围内选择一个缩放比例因子。遍历每一帧的骨架数据并将每一帧内每个骨架节点的数据乘以上述缩放比例因子即可获得随机缩放后的骨架数据。

步骤2.2：对输入的骨架数据进行随机平移操作。遍历每一帧的骨架数据，将每一帧内每个骨架节点的数据加上平移因子即可。

具体地，首先设置随机平移的最低偏移阈值为-0.1，最高偏移阈值为0.1。利用numpy库提供的随机生成数，从[-0.1,0.1]之间随机选择一个平移因子。遍历每一帧的骨架数据，将每一帧内每个骨架节点的数据加上平移因子即可获得随机平移后的骨架数据。

步骤2.3：对输入的骨架数据进行随机噪声操作。遍历一帧的骨架数据并从中选择4个骨架节点，我们需要在选择出的4个骨架节点数据的基础上加上偏移数值即可。

具体地，对于每一帧内22个骨架节点数据，首先随机地选择5个骨架节点。定义每个骨架节点的偏移范围[-0.1,0.1]，并利用numpy库提供的随机生成数，从上述范围中随机选择一个偏移数值。每次遍历一帧的骨架数据并从中选择5个骨架节点，在选择出的5个骨架节点数据的基础上加上偏移数值便可以计算出添加完随机噪声的数据。

步骤2.4：对输入的骨架数据进行随机采样操作。遍历骨架序列中的每一帧，利用后一帧减前一帧来获取相邻骨架帧之间的变化量。将该运动变化量与随机选择的比例因子相乘，从而获得下一帧与当前帧的插值偏移量。此时，利用当前骨架帧加上插值偏移量来获取下一帧的骨架数据。

如果新生成的骨架帧数没有达到预先设定的帧数，可以直接利用最后生成的一帧数据，在最后不断填补到指定的帧数即可。

通过这种方式我们便可以轻而易举地生成用户指定地骨架数据帧数。

步骤3：利用空间感知网络分支实现手势识别。

步骤3具体包括：

步骤3.1：利用空间特征编码器来提取同一帧内关节点之间的运动特征，从而网络模型可以提供有助于手势识别的信息。

对于空间特征编码器，目前现有的提取手势的特征主要可以分为两种类型：几何特征和笛卡尔坐标系特征。

笛卡尔坐标系特征无法保证局部视图不变性，当我们进行旋转或平移操作时，往往会发现其笛卡尔坐标系特征完全不一样。对于同一个骨架手势而言，不同的人针对同一个手势而言往往会有不同的表现形式。这在一定程度上增加了手势识别的难度。几何特征往往具有局部视图不变性，对于同一帧内的各个关节点之间的关系，其能够保证在经过旋转、平移等数据增强操作后依然保证特征不变。然而，现有的提取几何特征的方式往往较为繁琐，不仅需要进行复杂的计算，而且其提取的特征往往包含过多冗余的信息。

本实施例提出了一种简单有效的空间特征编码模块，利用该模块可以有效地提取帧内关节点之间的特征。下面将具体阐述其实现的细节。

对于同一帧内的所有关节点，利用标准化欧式距离来计算任意手势关节点之间的距离，并利用此来构造一个22*23的矩阵。该矩阵的每个元素表示任意两点之间的标准欧式距离，假设手部骨架数据的任意一点的表现形式为(x_i,y_i,z_i)，那么便可以利用下面的公式来计算两点之间的距离：

对于求解出来的22*23的矩阵，发现这个对称矩阵中包含太多的冗余元素，可以仅取矩阵的上三角即可减少一半的参数量。利用

来表示第k帧内骨架节点i与骨架节点j之间的距离。利用下面的公式来计算同一帧内的空间特征：

将上述公式按行展开将其展平为一维向量。这样便可以将每一帧的空间特征都转换为一行空间特征，并通过每一帧的堆叠构成一个矩阵，一般情况下一个手势通常可以由32帧表示，因此，组成的矩阵大小往往为32*231，该矩阵便作为空间感知网络分支输入数据。

步骤3.2：利用空间多尺度感知模块来获取每一帧内关节点不同尺度的空间运动特征，其可以有效地获取同一帧内更加丰富的运动特征。

空间多尺度感知模块的主要思想是找出卷积神经网络中一个最优的局部稀疏结构，利用不同的尺度来获得更多有用的信息。本实施例基于Inception模块和BottleNeck模块的思想，设计了空间多尺度感知模块。分别使用的卷积核大小为1和3。同时，为了在不丢失特征的情况下提高模型的非线性表达能力，获得合适的分类特征，在空间多尺度感知模块中加入了瓶颈模块，使得该网络模型具有对输入特征进行非线性压缩和对这些压缩特征进行分类的能力。瓶颈层是由卷积核大小为1与3的卷积层组成的，其按照卷积核的大小为1、3、1的顺序排列，其中一个内部层相对于其他层的大小具有少量的隐藏单元。空间多尺度感知模块的具体实现细节如图4所示，其具体可以分为三个支流：其中一个支流采用卷积核大小为1的1维卷积，其主要是用来增加模型的非线性表达能力以及改变输出的特征通道数。其中一个支流采用瓶颈模块主要是用来对特征进行非线性压缩。除此之外，本实施例还设计了一个支流通过利用卷积核大小为3的1维卷积对输入特征进行特征提取，从而获得不同尺度的感受野。为了能够较好地融合不同分支提取出的空间运动特征，并没有采用相加的方式来处理不同分支的特征，而是利用堆叠的方式，将不同分支提取出的特征进行组合，从而可以在保持原始特征不变的情况下，获取更加丰富的空间运动特征。

步骤3.3：利用特征提取模块提取局部运动特征，利用一维卷积实现特征的提取。

为了能够更好地提取更加丰富的特征，增强网络的非线性表达能力，本实施例在多尺度感知模块的后面添加了C1D模块，如图5所示。

该模块主要由三部分组成：1维卷积、归一化操作、激活函数。首先利用1维卷积操作提取更加深层的特征信息，使用的卷积核的大小为3。然后利用Batch Normalization(BN)来对特征进行归一化操作。BN的基本思想其实相当直观：因为神经网络在做非线性变换前的激活输入值随着网络深度的加深其分布逐渐发生偏移或者变动。之所以网络训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近，所以这导致反向传播时底层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因，而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，其实就是把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，意思是这样让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。在这里使用的激活函数为LeakyReLU。ReLU是将所有的负值都设为零，相反，LeakyReLU是给所有负值赋予一个非零斜率。其具体的计算公式如下所示：

其中，a_i是(1,+∞)区间内的固定参数。

步骤3.4：利用手势分类模块输出最终的手势预测结果。

参见图6，使用手势分类模块来增强网络的识别能力。手势分类模块主要由三个部分组成：全连接层、Batch Normalization、激活函数。之所以使用全连层而不是卷积层，是因为卷积层往获取的是局部特征信息，而全连接层获取的是全局特征信息。对于最后的手势分类需要关注的是最终的识别结果，因此并没有采用全卷积网络。这里同样在全连接层的后添加了Batch Normalization层以及利用LeakyReLU来作为激活函数。考虑到如果仅使用一层全连接层无法解决非线性问题，同时也无法保证手势分类的准确性。为此，本实施例采用多层全连接堆叠的方式来实现提高模型的学习能力，此时网络模型的复杂性得到提升，模型的非线性表达能力也得到提高。但是，如果过大地增加网络的深度或者扩宽网络的宽度反而会造成过度拟合的现象，网络模型的运算时间也会大幅度地增加，这将会使得网络模型的效率变低。因此，本实施例仅使用了两个堆叠的D1D模块。在网络模型的最后，又增加了一层全连接层其输出个数为手势标签的类别个数，并使用softmax作为该全连接层的激活函数。使用categorical_crossentropy作为空间感知网络分支的损失函数。

步骤4：利用短期时间感知网络分支实现手势识别。

步骤4具体包括：

步骤4.1：利用短期特征编码器来提取相邻帧之间关节点的运动特征，为网络模型提供有效的全局运动信息。

假设S^k表示第k帧的骨架手势数据，每个手势序列的总长度为M，因此，可以根据下面的公式来实现短期时间运动特征的提取。

为了能够转化为适合网络模型输入的数据格式，将

转化为一个行向量，其中每一个元素表示对应骨架节点之间的运动变换特征。为保证每一行的元素个数为22个，利用线性插值的方式将

的大小调整为

短期特征编码模块主要用来提取相邻帧之间的运动特征，其可以获取更细微的变换。该模块的具体实现方式的示意图如图7所示。

步骤4.2：利用时间多尺度感知模块来获取数据帧之间关节点不同尺度的时间运动特征，其可以有效地获取数据帧之间更加丰富的运动特征。

动态手势识别的工作不仅需要能够有效地提取每一帧的手势空间特征，还需要能够提取帧与帧之间的手势时间运动特征，这就需要进行时间建模。目前相关学者提出了众多方式来进行时间建模，包括统计池和向量聚合。但是，统计池和向量聚合的方式缺点确实完全忽视了时间模式。对于动态手势的识别，需要解决的关键性问题便是不同尺度的时间运动特征提取。为了能够更好地解决这个问题，本实施例设计了一个时间多尺度感知模块，参见图8。由于卷积核需要具有多尺度感受野的特性，因此，将卷积核的大小分别设计为1、3、5、7。与空间多尺度卷积核不同的是，首先使用多尺度卷积核进行卷积，然后使用卷积核大小为1的卷积操作进行特征通道的融合以及输出维数的调整。因为使用一维卷积操作进行多尺度感知，所以更关注于帧之间的运动信息，而不是帧内骨架点之间的运动特征。本实施例采用叠加聚合的方式，这样可以有效地避免信息的丢失。最后，利用平均池化操作来处理聚合后的特征，这样做一方面减少了参数量，有助于提取更加细节的特征，另一方面可以有效地避免由于邻域规模有限而导致估计值方差增大的问题。

步骤4.3：利用特征提取模块提取手势局部运动特征，利用一维卷积实现特征的提取。

本步骤特征提取模块的具体实现方式与空间感知分支的特征提取模块基本一致，不再赘述。

步骤4.4：利用手势分类模块输出最终的手势预测结果。

本步骤手势分类模块的具体实现方式与空间感知分支的手势分类模块基本一致，不再赘述。

步骤5：利用长期时间感知网络分支实现手势识别。

步骤5具体包括：

步骤5.1：利用长期特征编码器来提取不相邻帧之间关节点的运动特征，并利用特征平滑算法来去除特征中的噪声。

假设S^k表示第k帧的骨架手势数据，每个手势序列的总长度为M，因此，根据下面的公式来实现长期时间运动特征的提取。

为了能够转化为适合网络模型输入的数据格式，将

的大小调整为

长期特征编码模块是用来提取手势的长期运动变换的过程，其更关注宏观上的运动变换特征的提取。该模块的具体实现方式的示意图如图9所示。

将长期运动特征编码模块提取的运动特征绘制在二维平面上时，发现整个特征曲线中含有较多的毛刺，这种毛刺噪声会在一定程度上影响最终识别，因此，需要有效地去除噪声。传统的平滑处理算法往往会通过开辟一个数组来计算其平均值，其会占用一定的存储空间，而且计算周期较长，需要等待存储空间填满后才能够进行计算。因此，本实施例提出了一种基于滑动窗口的改进的平滑处理算法。该算法通过结合滑动窗口技术与求取平均值的思想，既解决了占用额外空间的问题，又解决了实时处理新数据的问题。下面将具体阐述其实现的主要思想。

假设滑动窗口的长度为N，滑动窗口每次移动的步长为M，当前滑动窗口内所有数据的总和为S_now，当前滑动窗口内数据的平均值Ave_now，滑动窗口移动M后窗口内的数据的总和为S_next，滑动窗口移动M后窗口内的数据的平均值为Ave_next，下一次移入滑动窗口的M个数据和为S_M，对新进入滑动窗口的数据赋予的权重为α。其模型的示意图如图10所示：

该算法的基本思想阐述如下：

(1)根据滑动窗口的概念，如果想要计算平均值则需要利用如下公式：

(2)当有新的运动特征数据到达时，滑动窗口将会移动M步，移动后的滑动窗口内平均值的计算方式不再是利用当前在滑动窗口内的所有数据进行求和，而是利用如下公式进行计算：

S_next＝S_now-M×Ave_now+S_M

(3)考虑到新来的数据更具有时效性，因此，可以对其赋予一定的权重。二次改进后的公式如下所示：

S_next＝S_now-M×Ave_now+S_M×α

其中，S_now表示当前滑动窗口内所有数据的总和，S_next滑动窗口移动M后窗口内的数据的总和，M表示滑动窗口每次移动的步长，Ave_now表示当前滑动窗口内所有数据的平均值，S_M表示下一次移入滑动窗口的M个数据和，α表示对新进入滑动窗口的数据赋予的权重，N表示滑动窗口的长度。

(4)下面具体讲述一下权重α的计算公式：

这里的t表示第几次进行滑动操作。利用原始的骨架数据帧求取完长期运动特征后，可以利用上述滑动窗口的技术来实现提取特征的平滑处理，从而有效地实现噪声的去除。

步骤5.2：利用时间多尺度感知模块来获取不相邻帧之间关节点不同尺度的时间运动特征，其可以有效地获取不相邻帧之间更加丰富的运动特征。

本步骤中时间多尺度感知模块的实现方式与短期时间感知分支的时间多尺度感知模块基本一致，不再赘述。

步骤5.3：利用特征提取模块提取手势局部运动特征，利用一维卷积实现特征的提取。

本步骤中特征提取模块的实现方式与空间感知分支的特征提取模块基本一致，不再赘述。

步骤5.4：利用手势分类模块输出最终的手势预测结果。

本步骤中手势分类模块的实现方式与空间感知分支的特征提取模块基本一致，不再赘述。

步骤6：利用时空多尺度链式网络模型输出最终的手势预测标签。

步骤6具体包括：

步骤6.1：利用本实施例设计的网络模型框架来分别获取空间网络感知分支、短期时间网络感知分支、长期时间网络感知分支的手势预测结果。

参见图2，本实施例设计的网络模型架构由两个部分组成：时间感知网络、空间感知网络。其中时间感知网络中又包含短期时间感知网络与长期时间感知网络。下面将分别介绍它们各自的流程。

空间感知分支主要是用空间运动特征编码模块来提取同一帧内关节点之间的运动特征，并利用设计的空间多尺度感知模块来实现帧内不同尺度运动特征的提取，这将有助于后期手势的识别提供更加丰富的特征。然后使用堆叠的卷积层与全连接层来实现最终预测标签的输出。

短期感知分支主要是用短期运动特征编码模块来提取相邻骨架数据帧之间的运动特征，并利用时间多尺度感知模块来获取不同尺度的全局运动特征，然后通过堆叠的卷积层与全连接层来实现最终的手势预测结果的输出。

长期感知分支主要是用长期运动特征编码模块来提取长期骨架数据帧之间的运动特征。经过实验我们发现获得运动变换特征中包含大量的噪声，为此，本实施例提出了一种新颖的特征平滑处理算法来对提取的长期手势运动特征进行去噪处理，从而避免其对手势识别的预测结果产生影响。接下来利用时间多尺度感知模块来获取不同尺度的全局运动特征，然后通过堆叠的卷积层与全连接层来实现最终的手势预测结果的输出。

本实施例一个新颖的多流的手势识别框架。通过不断优化每个网络支流对应的损失函数，来不断提高其所在分支的手势识别精度。通过合并三个分支的输出预测结果来获取最终的预测标签。

步骤6.2：利用提出的分支结果合并算法来处理各个分支的结果，从而获取最终的手势识别结果。

(6-2)分支结果合并算法：经过大量的实验，发现不同网络分支的识别结果往往大不相同，空间感知分支由于只关注帧内关节点之间的运动特征，而忽视了帧与帧之间的全局运动特征，因此，该分支的整体识别精度相对较低。短期时间运动特征感知主要关注相邻帧之间的运动变换，与空间感知分支相比其可以获得更加丰富的感受野，因此其识别准确度有了大幅度的提升。长期时间运动特征感知分支主要关注手势的一个长期的运动变化过程，与短期感知分支相比其拥有更加宽广的感受野，可以有效地提取不同尺度的特征，因而其识别精度在这三个分支中最高。

之所以设计三个独立的分支，而没有采用常规的聚合的方式，主要是因为这样做可以单独优化每一个分支网络，有效地避免各个网络分支之间的影响，从而可以尽快地获取单个分支的最优解。如果此时仅仅是简单地利用各个分支相加的方式来求取最终的输出结果，这显然忽视了各个不同分支之间的差异，而且这种做法并不能够有效地求解出该网络模型的全局最优解。因此，本实施例设计了如下算法来实现最终网络模型的预测结果的输出。

(1)首先需要假定待分类的手势标签数为N，那么空间感知网络、短期时间感知网络、长期时间感知网络的输出预测结果分别如下所示：

(2)对于每一个分支输出的预测结果，需要分别进行阈值操作处理：如果某个标签的预测结果概率值小于指定的预测阈值0.2，那么我们将其设置为0，从而避免其对最终识别结果产生影响。

(3)此时，可以轻松地获取这三个网络分支之间的概率比值并将其记为v_space:v_short:v_long。在计算最终结果的时候，我们利用v_space*y_space+v_short*y_short+v_long*y_long来获取最终的手势预测结果。

(4)对于每一个分支内的预测结果，考虑到不同的标签预测值应当赋予不同的权重。如果说在空间分支中某个标签的预测结果为

(其预测概率值为0.2)，而另一个标签的预测结果为

(其预测概率值为0.6)，那么很显然不能将两者赋予同样的权重。这是因为如果再加上另外两个分支的结果，就很可能会出现这样一种情况,假定标签1的最终预测结果与标签5的最终预测结果如下所示：

此时，标签1与标签5的预测结果之间满足下面的公式：

0<(y¹)-(y⁵)<0.05

那么就会认为该序列的手势标签为标签1，但实际上却是标签5。分析该问题出现的原因：这主要是由于在短期感知分支中与长期感知分支中虽然标签1的预测概率值要比标签5的预测概率值要高，但是在那两个分支中两个标签的预测概率值的差异却是相对较小，无法从那两个分支中轻易地判断出到底是哪一个标签。因此，需要对每个分支内经过阈值处理后的预测概率赋予一定的权重，对于那些预测概率差距较大的值，应当努力增加他们之间的差距，从而有效地避免因其他分支的识别结果对其造成的干扰。假设每个分支中，各个标签的权重为

其中i表示指定的标签序号。因此，最终预测结果的计算公式如下所示：

本发明实施例通过设计的时空多尺度链式网络模型方法，能够在保证模型轻量级的前提下达到目前最先进的基于骨架的动态手势识别精度。结果表明，本实施例提出的方法的识别精度在公开的动态手势数据集SHREC’17 Track(14个手势)上可以达到96.55％，在SHREC’17 Track(28个手势)上可以达到91.07％，训练后的模型大小仅有2.8M。

实施例二

在一个或多个实施方式中，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的基于骨架的动态手势识别方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的基于骨架的动态手势识别方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于骨架的手势识别方法，其特征在于，包括：

对获取的待识别的原始手势骨架序列进行数据增强；

2.如权利要求1所述的一种基于骨架的手势识别方法，其特征在于，利用空间特征编码器提取每一帧内骨架节点之间的运动特征，使用空间多尺度感知模块获取不同尺度的空间运动特征。

3.如权利要求2所述的一种基于骨架的手势识别方法，其特征在于，所述的利用空间特征编码器提取每一帧内骨架节点之间的运动特征，具体为：

对于同一帧内的所有关节点，计算任意手势关节点之间的距离，得到同一帧内的空间特征；

将每一帧的空间特征都转换为一行空间特征，并通过每一帧的堆叠构成一个矩阵，进而得到整个手势执行过程的空间特征。

4.如权利要求2所述的一种基于骨架的手势识别方法，其特征在于，所述空间多尺度感知模块包括：

并行连接的第一卷积单元、瓶颈单元以及第二卷积单元；

所述第一卷积单元用于增加模型的非线性表达能力以及改变输出的特征通道数；所述瓶颈单元用于对特征进行非线性压缩；所述第二卷积单元用于对输入特征进行特征提取，获得不同尺度的感受野；

所述第一卷积单元、瓶颈单元以及第二卷积单元的输出进行堆叠，得到不同尺度的空间运动特征。

5.如权利要求1所述的一种基于骨架的手势识别方法，其特征在于，所述空间感知网络包括：特征提取模块和手势分类模块；

所述特征提取模块包括依次连接的卷积层、归一化层和激活函数层；

所述手势分类模块包括依次连接的全连接层、归一化层和激活函数层。

6.如权利要求1所述的一种基于骨架的手势识别方法，其特征在于，利用短期时间特征编码器提取相邻帧间骨架节点之间的运动特征；使用时间多尺度感知模块获取不同尺度的时间运动特征。

7.如权利要求1所述的一种基于骨架的手势识别方法，其特征在于，利用长期时间特征编码器提取不相邻帧间骨架节点之间的运动特征，使用时间多尺度感知模块获取不同尺度的时间运动特征。

8.如权利要求7所述的一种基于骨架的手势识别方法，其特征在于，采用基于滑动窗口的改进的平滑处理算法，对长期时间特征编码器提取的运动特征进行去噪；具体过程为：

S_next＝S_now-M×Ave_now+S_M×α

9.如权利要求1所述的一种基于骨架的手势识别方法，其特征在于，所述的利用时空多尺度链式网络模型输出最终的手势预测标签，具体为：

对第一动态手势预测标签、第二动态手势预测标签和第三动态手势预测标签内的N个预测结果分别进行阈值操作处理；

分别为每一个动态手势预测标签内的N个预测结果赋予设定的权重；

分别为每一个动态手势预测标签赋予设定的权重；

最终的手势预测标签的第i个预测结果为：每一个动态手势预测标签的权重与该动态手势预测标签内的第i个预测结果的权重以及该动态手势预测标签内第i个预测结果的乘积的累加和。

10.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求1-9任一项所述的基于骨架的手势识别方法。