CN112148128A

CN112148128A - 一种实时手势识别方法、装置及人机交互系统

Info

Publication number: CN112148128A
Application number: CN202011109960.3A
Authority: CN
Inventors: 张展; 左德承; 冯懿; 封威; 刘宏伟; 舒燕君; 董剑; 罗丹彦; 吴桐; 张园博; 尚江卫; 陈思远; 陈新昊
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2020-12-29
Anticipated expiration: 2040-10-16
Also published as: CN112148128B

Abstract

本发明提供了一种实时手势识别方法、装置、移动终端及人机交互系统，涉及手势识别技术领域，包括：获取手势数据，所述手势数据包括数据手套采集的传感器数据；对所述手势数据进行预处理，并对预处理后的手势数据进行特征提取；将所述特征提取的结果输入预训练好的分层手势识别模型进行多级手势识别，确定手势类型信息。本发明通过数据手套实时采集用户的手势数据，并对手势数据进行有效的手势分割等预处理操作，再通过构造有价值的特征信息集进行特征提取，并将提取后的特征信息输入轻量级的分层手势识别模型进行手势识别，可在保证手势识别准确度的基础上，占用更少的系统资源，适用于面向移动终端的应用场景。

Description

一种实时手势识别方法、装置及人机交互系统

技术领域

本发明涉及手势识别技术领域，具体而言，涉及一种实时手势识别方法、装置及人机交互系统。

背景技术

近年来，计算机的大面积普及以及相关学科的迅速发展使得人机交互(Human-Computer Interaction，HCI)技术逐渐成为研究的热门方向。在诸多人机交互方式中，与传统的键盘鼠标等机械装置相比，手势交互是一种更自然、更符合人类习惯的人机交互方式。用手势取代键盘、鼠标作为输入控制计算机，能够使人与机器间的交互更自然、更灵活，可将人们在日常生活中所获得的经验，直接运用到交互活动中。因此，手势识别技术作为人机交互领域的重要分支，在为人类提供智能化生活方面具有重大意义。

现有的基于视觉的手势识别方法，通过摄像头采集手势图像并加以处理进而对手势进行识别，是一种比较直观的手段。该方法输入方式为非接触式，并且随着图像处理技术的发展，基于视觉的手势识别是目前热点较集中的研究领域。

但基于视觉的手势识别目前还存在不少问题，例如由于手为多关节非刚性物体，在不同视角和不同动作下形变较大，二维投影时易产生遮挡，由此造成信息丢失；且由于受到目前计算机视觉技术的限制，在复杂背景下的手势提取一直是难点，从而限制了基于视觉的手势识别的大范围应用。现有的基于视觉的手势识别方法还会受到天气恶劣、传感器佩戴不规范等因素的影响，使手势识别的准确度下降，影响手势检测的效果。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题，为达上述目的，第一方面，本发明提供了一种实时手势识别方法，其包括：

获取手势数据，所述手势数据包括数据手套采集的传感器数据；

对所述手势数据进行预处理，并对预处理后的手势数据进行特征提取；

将所述特征提取的结果输入预训练好的分层手势识别模型进行多级手势识别，确定手势类型信息，其中，所述分层手势识别模型包括聚类模型、支持向量机模型和卷积神经网络模型。

进一步地，所述对所述手势数据进行预处理包括：对所述手势数据进行手势分割、滑动窗口平均滤波和标准化处理。

进一步地，所述对所述手势数据进行手势分割包括：

确定当前时刻的所述手势数据与前一时刻的所述手势数据的差分值；

当所述差分值小于预设手势波动阈值时，将所述手势数据加入滑动窗口；

当所述差分值大于所述预设手势波动阈值时，将所述手势数据计入波动数据；

对所述波动数据进行计数，当所述波动数据的计数值大于预设数据波动阈值时，将所述滑动窗口内的所述手势数据确定为当前手势，进行所述手势分割。

进一步地，所述对预处理后的手势数据进行特征提取包括：

对预处理后的手势数据进行主成分分析，以提取所述预处理后的手势数据的主要特征。

进一步地，所述将所述特征提取的结果输入预训练好的分层手势识别模型进行多级手势识别，确定手势类型信息包括：

将所述特征提取的结果输入预训练好的分层手势识别模型，确定分类置信度和对应的预分类结果；

根据所述分类置信度、所述预分类结果和预设手势库，确定所述手势类型信息。

进一步地，所述将所述特征提取的结果输入预训练好的分层手势识别模型，确定分类置信度和对应的预分类结果包括：

将所述特征提取的结果输入所述预训练好的分层手势识别模型中的所述聚类模型，确定聚类分类置信度，并根据所述聚类分类置信度确定所述预分类结果；

当所述聚类分类置信度小于第一预设阈值时，将所述特征提取的结果输入所述预训练好的分层手势识别模型中的所述支持向量机模型，确定SVM分类置信度，并根据所述SVM分类置信度确定所述预分类结果；

当所述SVM分类置信度小于第二预设阈值时，将所述特征提取的结果输入所述预训练好的分层手势识别模型中的所述卷积神经网络模型，确定卷积神经网络分类置信度，并根据所述卷积神经网络分类置信度确定所述预分类结果。

进一步地，所述根据所述分类置信度、所述预分类结果和预设手势库，确定所述手势类型信息包括：

当所述分类置信度大于预设分类阈值时，将对应的所述预分类结果确定为基本手势；

当所述基本手势是所述预设手势库中的连续手势起始手势标识时，确定连续手势起始点，将所述连续手势起始点之内的基本手势拼接成连续手势序列；

根据所述连续手势序列进行约翰逊编码；

将所述约翰逊编码与所述预设手势库中的标注手势模板序列进行相似度匹配；

当所述相似度大于预设阈值时，确定具有最大相似度的手势作为所述手势类型信息。

进一步地，所述根据所述分类置信度、所述预分类结果和预设手势库，确定所述手势类型信息还包括：

当所述基本手势不是所述预设手势库中的连续手势起始手势标识时，将所述基本手势与所述预设手势库中进行匹配，确定对应的所述手势类型信息。

进一步地，所述传感器数据包括用户的手指弯曲数据和手掌运动姿态数据，根据所述手指弯曲数据和所述手掌运动姿态数据判断所述用户的手势为静态手势或动态手势，其中，所述静态手势为手指静止、手掌静止的手势，所述动态手势为手指静止、手掌运动的手势。

进一步地，所述根据所述手指弯曲数据和所述手掌运动姿态数据判断所述用户的手势为静态手势或动态手势包括：

确定所述手指弯曲数据的差分能量值；

当所述手指弯曲数据的差分能量值小于预设拉伸阈值并且持续时间超过第一预设时长时，确定所述手掌运动姿态数据的差分能量值；

当所述手掌运动姿态数据的差分能量值大于预设加速阈值并且持续时间超过第二预设时长时，判断所述用户的手势为动态手势；

当所述手掌运动姿态数据的差分能量值大于所述预设加速阈值并且持续时间小于所述第二预设时长时，判断所述用户的手势为静态手势。

进一步地，还包括：根据所述手势类型信息与移动终端进行人机交互操作。

进一步地，在对所述分层手势识别模型进行预训练阶段，在多帧图像中随机挑选预设比例的帧作为训练样本。

为达上述目的，第二方面，本发明提供了一种实时手势识别装置，其包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现如上所述的实时手势识别方法。

使用本发明的实时手势识别方法或装置，通过数据手套实时采集用户的手势数据，并对手势数据进行有效的手势分割等预处理操作，再通过构造有价值的特征信息集进行特征提取，并将提取后的特征信息输入轻量级的分层手势识别模型进行手势识别，可在保证手势识别准确度的基础上，占用更少的系统资源，适用于面向移动终端的应用场景。

为达上述目的，本发明第三方面的实施例提供了一种移动终端，其包括如上所述的实时手势识别装置。

使用本发明的移动终端，通过对手势数据进行快速有效的预处理和特征提取，基于轻量级的分层手势识别模型对手势数据进行手势识别，在保证手势识别准确性和实时性的同时，可占用较少的资源，并实现高效的人机交互操作。

为达上述目的，本发明第四方面的实施例提供了一种人机交互系统，其包括：数据手套和如上所述的移动终端，其中：

所述数据手套采集用户的手势数据，并将所述手势数据发送至所述移动终端；

所述移动终端用于接收所述手势数据，并根据所述手势数据确定手势类型信息；还用于根据所述手势类型信息与所述用户进行人机交互操作。

使用本发明的人机交互系统，通过数据手套高效采集用户的手势数据，并将手势数据通过无线通信的方式传送至移动终端。再由移动终端对手势数据进行识别，快速准确地识别出用户的手势信息，并根据所述手势进行人机交互，具有高效性和便携性，适用于更多应用场景。

为达上述目的，第五方面，本发明提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现根据本发明第一方面所述的实时手势识别方法。

根据本发明的非临时性计算机可读存储介质，具有与根据本发明第一方面的实时手势识别方法具有类似的有益效果，在此不再赘述。

附图说明

图1为根据本发明实施例的实时手势识别方法的流程示意图；

图2为根据本发明实施例的对手势数据进行手势分割的流程示意图；

图3为根据本发明实施例的基于分层手势识别模型进行手势识别的流程示意图；

图4为根据本发明实施例的对路网进行初步划分的示意图；

图5为根据本发明实施例的卷积神经网络模型的示意图；

图6为根据本发明实施例的长短时记忆网络单元结构的示意图；

图7为根据本发明实施例的确定手势类型信息的流程示意图一；

图8为根据本发明实施例的判断用户的手势为静态手势或动态手势的流程示意图；

图9为根据本发明实施例的实时手势识别装置的结构示意图；

图10为根据本发明实施例的移动终端的结构示意图；

图11为根据本发明实施例的人机交互系统的结构示意图。

具体实施方式

下面将参照附图详细描述根据本发明的实施例，描述涉及附图时，除非另有表示，不同附图中的相同附图标记表示相同或相似的要素。要说明的是，以下示例性实施例中所描述的实施方式并不代表本发明的所有实施方式。它们仅是与如权利要求书中所详述的、本发明公开的一些方面相一致的装置和方法的例子，本发明的范围并不局限于此。在不矛盾的前提下，本发明各个实施例中的特征可以相互组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

通过手势识别实现交互是近年来人机交互领域的研究热点，与传统人机交互模式相比，基于手势的交互更自然便捷。目前主流的手势识别方法是运用探像设备捕获人的手势动作图片，通过提取手形轮廓进行动作识别。基于计算机视觉的手势识别系统的输入数据为摄像头采集到的图像或者视频，因此高质量的图像数据是实现高精度手势识别的必要条件。然而，在现实生活中想要获取高质量的图像数据并非一件易事。色差、亮度、饱和度、阴影、光照、图像分辨率和图像大小等一系列因素都会极大地降低输入图像质量，从而对手势识别精度造成影响。

现有的微型化、低功耗电子器件技术的飞速发展极大地推动了可穿戴设备的研究，基于加速度传感器的惯性测量单元能嵌入到几乎任何界面或设备中直接测量手势动作信息，同时，移动计算技术的发展和普及也为实时手势识别提供了支撑环境。此类方法的特点是能较好的获取稳定的手势信号，且不受背景影响，抗干扰能力较强，能够克服基于计算机视觉技术的弱点。例如，采用加速计可以稳定的获取手势轨迹，而不受光照、背景等因素的影响。使用数据手套，由于其集成了多种传感器，可以克服遮挡问题，并且可以对复杂的手势做出精确的记录。因此，基于可穿戴设备(例如数据手套)的手势交互正逐步引起重视，尤其是面向移动终端的人机交互。但由于移动终端的资源有限，如何实时准确地识别数据手套使用者的手势类型并进行相应的人机交互操作，也是亟待解决的问题。

本发明通过数据手套实时采集用户的手势数据，并经过一系列有效的预处理和特征提取后，采用适合移动终端的轻量级手势识别框架进行多层次的手势识别，通过多层次的手势识别模型进行对不同复杂程度手势的识别，对于较简单的手势采用计算速度较快的模型进行识别，保证识别的速度；对于较为复杂的手势采用识别准确度较高的模型进行识别，保证识别的准确度，再通过识别结果得出基本手势或连续手势语义，并通过手势语义在移动终端设备上进行预定义的相应人机交互操作，具有可操作性好、实时性强和性能稳定的优点。

图1所示为根据本发明实施例的实时手势识别方法的流程示意图，包括步骤S1至S3。

在步骤S1中，获取手势数据，所述手势数据包括数据手套采集的传感器数据。在本发明实施例中，所述传感器数据包括用户的手指弯曲数据和手掌运动姿态数据。可以理解的是，所述数据手套上配备有柔性拉伸传感器和陀螺仪加速度计等传感器，分别用于获取手指弯曲数据和手掌运动姿态数据。其中，柔性拉伸传感器是融合应变测量材料和柔性基底材料制作的适用于贴身环境下的一种传感器，在五个手指上各装备了一个柔性拉伸传感器，在获取有效数据的同时保证了使用者的安全和舒适。

在本发明实施例中，数据手套在某一时刻采集的数据格式为X＝{X_strain,X_acceleration,X_gyroscope}，其中，X_strain表示5维拉伸传感器数据，X_acceleration表示3维加速度传感器数据，X_gyroscope表示3维陀螺仪数据。可以理解的是，上述数据格式可根据实际需求进行调整，本发明并不以此为限。

在步骤S2中，对所述手势数据进行预处理，并对预处理后的手势数据进行特征提取。在本发明实施例中，所述预处理操作包括对所述手势数据进行差分能量阈值手势分割、滑动窗口平均滤波和标准差标准化处理。图2所示为根据本发明实施例的对手势数据进行手势分割的流程示意图，包括步骤S21至S24。

在步骤S21中，确定当前时刻的所述手势数据与前一时刻的所述手势数据的差分值。在本发明实施例中，先将滑动窗口的宽度设置为0，实时采集每一时刻的手势数据。根据当前时刻与前一时刻的手势数据确定其差分值，所述差分值为每个相邻手势数据的差分绝对值之和。

在步骤S22中，当所述差分值小于预设手势波动阈值时，将所述当前时刻的手势数据加入滑动窗口。在本发明实施例中，当相邻时刻的手势数据差分值不太大时，可能因为用户在做同一个手势，手型没有发生变化，则将该时刻的手势数据加入滑动窗口，作为同一个手势进行后续处理。

在步骤S23中，当所述差分值大于所述预设手势波动阈值时，将所述当前时刻的手势数据计入波动数据。在本发明实施例中，当相邻时刻的手势数据差分值较大时，可能由于用户改变了手势，也可能由于正常手势内的随机波动。此时将该时刻的手势数据计入波动数据，再进行后续判断。

在步骤S24中，对所述波动数据进行计数，当所述波动数据的计数值大于预设数据波动阈值时，将所述滑动窗口内的所述手势数据确定为当前手势，进行所述手势分割。在本发明实施例中，当波动数据的计数值达到预设数值后，可认为该时刻的手势类型与上个滑动窗口内的手势类型不同，此时判断用户改变了手势，则将当前滑动窗口内的手势数据确定为一个当前手势，进行手势分割。

在本发明实施例中，对经过手势分割后的手势数据进行滑动窗口去极值平均滤波和标准差标准化处理，对手势数据进行进一步的去噪和标准化处理，便于后续对数据进行特征提取，提高整体手势识别的准确性和可靠性。

在本发明实施例中，对经过上述预处理后的手势数据进行特征提取，构造有价值的特征信息集。可以理解的是，特征提取是指选取具有代表性的特征，例如均值、方差、极峰值、峰度、过零点率、中位数、均方根、能量以及近似信息熵等。对原始数据进行预设特征的计算提取，然后根据对各特征分配的关注度权重，进行加权组合得到加权特征，从而构造更有价值的特征信息集。

在本发明实施例中，对预处理后的手势数据进行主成分分析(PCA，PrincipalComponent Analysis)，以提取所述预处理后的手势数据的主要特征。可以理解的是，采用主成分分析方法对获取的一系列手势特征向量进行简化，找到数据中最主要的方面，用数据里最主要的方面来代替原始数据。PCA仅以方差衡量信息量，不受数据集以外因素的影响，各主成分之间正交，可消除原始数据成分间相互影响的因素，主要运算是特征值分解，易于实现。依次去除一定数量(从小到大依次尝试)维度的特征，然后完成训练到测试的所有过程，选取测试结果最好的情况去除相应特征。可以在保证足够高的识别准确率的情况下减少训练、存储模型的资源占用。

在步骤S3中，将所述特征提取的结果输入预训练好的分层手势识别模型进行多级手势识别，确定手势类型信息，其中，所述分层手势识别模型包括聚类模型、支持向量机模型和卷积神经网络模型。图3所示为根据本发明实施例的基于分层手势识别模型进行手势识别的流程示意图，包括步骤S31至S32。

在步骤S31中，将所述特征提取的结果输入预训练好的分层手势识别模型，确定分类置信度和对应的预分类结果。在本发明实施例中，手势识别阶段由经过预训练得到的轻量级多层次分类器协作进行，更适应于面向计算资源有限的移动终端。首先根据特征提取的结果通过聚类模型进行预分类判断，如果分类置信度比较低，则由支持向量机分类器进行手势识别，如果支持向量机分类器的分类置信度仍然比较低，则由卷积神经网络(CableNews Network，CNN)+长短期记忆网络(Long Short-Term Memory，LSTM)模型分类器进行分类。可以理解的是，若手势数据由于传感器翻转、偏移等情况造成分类困难，同样可将手势数据交由CNN+LSTM分类器进行分类。图4所示为根据本发明实施例的基于分层手势识别模型进行手势识别的流程示意图，包括步骤S311至S313。

在步骤S311中，将所述特征提取的结果输入所述预训练好的分层手势识别模型中的所述聚类模型，确定聚类分类置信度，并根据所述聚类分类置信度确定所述预分类结果。在本发明实施例中，所述聚类模型的手势预分类采用了K-Means聚类的思想，由于K-Means聚类的优点是运算速度非常快，所以更适合对实时性要求较高的手势识别应用场景。

为了解决K-Means聚类硬划分所带来的问题，引入了在K-Means聚类优化函数上增加模糊隶属度的模糊c均值聚类算法对手势进行预分类。首先将数据样本送入至模糊c均值聚类算法模型中，并指定样本类别数k，迭代更新聚类中心。当测试样本输入到模型中时，模糊c均值聚类算法可以计算每个点到每个簇的关联度。如果样本越接近某向量簇中心，在其隶属度数组中该位置就会得到更高的权重。可以理解的是，其他优化的聚类算法也适用于作为本发明的聚类模型，本发明并不以此为限。

在本发明实施例中，聚类模型对输入的数据(即上述特征提取的结果)进行预分类，得到聚类分类置信度。由此，当用户做出较为简单的手势时，可由计算速度较快、耗用资源较少的聚类模型进行手势识别，提高了对手势识别的实时性，同时也能保证识别的准确率。

在步骤S312中，当所述聚类分类置信度小于第一预设阈值时，将所述特征提取的结果输入所述预训练好的分层手势识别模型中的所述支持向量机模型，确定SVM分类置信度，并根据所述SVM分类置信度确定所述预分类结果。在本发明实施例中，由于分层手势识别模型中的聚类模型使用的模糊c均值聚类算法只根据样本与聚类中心点的欧式距离来判别分类，导致很难识别复杂手势。因此对于较难的复杂手势，其得到的聚类分类置信度会较低。由此，对于聚类算法的分类置信度较低的样本，会送入到支持向量机模型中进行分类。

在本发明实施例中，当上述聚类模型的聚类分类置信度小于第一预设阈值时，则认为聚类模型未识别出手势信息，将特征提取的结果输入预训练好的支持向量机(SVM)模型中进行手势预分类，得到支持向量机模型输出的SVM分类置信度。由此，当用户做出了较为复杂的手势时，基于聚类模型可能无法准确识别出正确的手势，为保证识别的准确度，采用能识别较为复杂手势的支持向量机模型进行手势识别，且所述支持向量机模型相较于下一层级的卷积神经网络模型而言，其计算速度和所需计算资源仍然较小，在保证识别准确度的同时，仍可兼顾计算速度。

在步骤S313中，当所述SVM分类置信度小于第二预设阈值时，将所述特征提取的结果输入所述预训练好的分层手势识别模型中的所述卷积神经网络模型，确定卷积神经网络分类置信度，并根据所述卷积神经网络分类置信度确定所述预分类结果。在本发明实施例中，当所述SVM分类置信度小于第二预设阈值时，则认为此时支持向量机模型未识别出手势信息，将特征提取的结果输入预训练好的卷积神经网络模型中进行手势预分类，得到卷积神经网络模型输出的卷积神经网络分类置信度。由此，当用户做出较为复杂的手势时，前两个层级的手势识别模型(即聚类模型和支持向量机模型)已无法准确识别出正确的手势信息，此时调用卷积神经网络模型进行识别，则可保证手势识别的准确性，提高整体手势识别的可靠性，避免错误的识别用户手势引起不正确的操作，影响用户体验。

图5所示为根据本发明实施例的卷积神经网络模型的示意图，在本发明实施例中，所述卷积神经网络模型由基于CNN与LSTM的手势识别模型构成。图5中V表示选取的传感器个数，所述卷积神经网络模型包含2个卷积层、2个池化层、2个LSTM网络、1个全连接层以及1个softMax层，其中LSTM共有两层，每个卷积层之后都连接了ReLU非线性单元和批归一化(Batch Normalization，BN)层。激活函数ReLU可以增加网络的非线性，而且相比其他激活函数，ReLU准确度和计算效率均较高，归一化层可以降低网络初始化参数对网络训练的影响，且在神经网络层中间进行预处理的操作，每次从上一层输出后进行归一化，再进入到网络下一层，能够防止梯度消失，也能加快网络收敛速度。池化层使用最大池化采样，其作用是在时间轴上，增大后续卷积层和LSTM上的感受范围。如图6所示为根据本发明实施例的长短时记忆网络单元结构的示意图，主要包括遗忘门(forget gate)、输入门(input gate)、输出门(output gate)和tanh层。可以理解的是，采用LSTM可解决“长依赖”问题，使得对连续手势的识别更加准确，本发明并不限制LSTM所采用的具体结构形式。

在本发明实施例中，卷积的作用是同时兼顾空间和时间的特征提取，在手势数据经过卷积后，时间轴长度和点的个数可能会发生改变，经过卷积之后每个通道特征矩阵的高和宽也就是时间轴的长度

和点的个数

在网络中通过添加padding的方式使得T和V不变，设置

其中，kernel_size表示卷积内核的大小；stride表示卷积的步幅，默认值为1；padding表示在输入的两侧添加零填充；dilation表示内核元素之间的间距，默认值为1。

在本发明实施例中，手势数据集合中1个传感单元包括了9轴传感器，传感器所采集的数据通过滑动窗口进行预处理后切分成了125个采样点的数据文件。为了实现数据后续数据的扭曲化处理，在本发明实施例中只提取三轴加速度数据作为输入，因此特征提取的输入数据是多个3×125×1的矩阵。经过全连接层和softmax层运算得到了每个类别的概率分布作为分类置信度，该概率分布为一个向量，其长度类别数目，类别数目取决于数据集的定义。

在本发明实施例中，在对所述分层手势识别模型进行预训练阶段，在多帧图像中随机挑选预设比例的帧作为训练样本。为缓解小数据集中噪声对于分类精度的影响，使用在每125帧随机挑选100帧作为训练样本。这样同样一个传感器时间序列数据在不同的epoch数据中被挑选出来训练网络时，两次被拿出的数据不完全相同，起始和终点的帧不同，且帧与帧之间的间隔不同，此时，经过此种数据增广的数据能够反映出更多不同的人的运动习惯，有效扩充了训练集大小，采样更加完整，更能够逼近完整数据的分布，能够更加有效地对网络进行训练，且增加网络泛化能力，减缓过拟合的同时扩充训练集样本数量。

在本发明实施例中，在所述CNN+LSTM模型训练阶段，对手势样本集进行旋转矩阵扭曲化处理，使用交叉熵损失函数计算网络输出的各类概率分布与标签之间的差距，其中，交叉熵损失函数定义为：

其中，M表示类别的数量；y_c表示指示变量，如果类别和样本相同为1，反之为0；p_c表示观测样本属于类别C的预测概率。使用最大池化层计算出各手势标签的概率，然后通过softmax层选出最终的分类。

在本发明实施例中，为了限制参数过多或者过大，避免模型更复杂，在损失函数中添加正则项，同时通过正则化，可以防止过拟合，尽可能的减小数据偏移对于预分类结果造成的影响，增加模型的“抗扰动能力”。在本发明实施例中，使用L2正则项作为损失函数的惩罚项防止过拟合，L2正则化是指权值向量中各个元素的平方和然后再求平方根。可以理解的是，训练模型时，准确率随着迭代次数增加而呈上升趋势，损失值随着迭代次数增加而呈现下降趋势，当准确率和损失值收敛时完成训练，得到预训练好的模型。

在本发明实施例中，第一预设阈值和第二预设阈值可根据实际需求进行设置。当使用0.9分位数时，在满足准确率高的同时，可较少的调用支持向量机-卷积神经网络模型，更加适用于面向移动终端的实时手势识别。

在步骤S32中，根据所述分类置信度、所述预分类结果和预设手势库，确定所述手势类型信息。图7所示为根据本发明实施例的确定手势类型信息的流程示意图一，包括步骤S321至S325。

在步骤S321中，当所述分类置信度大于预设分类阈值时，将对应的所述预分类结果确定为基本手势。在本发明实施例中，当上述分层手势识别模型得到的分类置信度大于预设分类阈值时，则认为已经识别出较为准确的结果，则将对应的预分类结果确定为基本手势。

在步骤S322中，当所述基本手势是所述预设手势库中的连续手势起始手势标识时，确定连续手势起始点，将所述连续手势起始点之内的基本手势拼接成连续手势序列。在本发明实施例中，在预设手势库中，预存了连续手势的标识符，如果识别到这个手势则表明为连续手势的开始或结束，也可有效避免了用户在无意识的情况下进行手部动作导致误输入，提高了系统的鲁棒性。当识别出基本手势是预设手势库中的连续手势起始手势标识时，表明用户正在有意进行一个连续手势的操作，则确定连续手势起始点后，将连续手势起始点之内的基本手势拼接成连续手势序列。

在步骤S323中，根据所述连续手势序列进行约翰逊编码。在本发明实施例中，连续手势序列确定之后，需将其进行约翰逊编码以计算手势间的相似度。所述约翰逊编码的规则可迭代地表示为：

其中，B₅、B₄、，B₃、B₂、B₁、B₀表示二进制bit，C_n+1、C_n是两个相邻的编码，C₀＝000000，横杠表示取反。可以理解的是，上述编码中任意两个相邻的编码之间有且仅有1bit不同；第一个编码与最后一个编码之间有且仅有1bit不同。两个手势编码间的汉明距离可表示为不相同的二进制比特的个数。给定任意两个基本手势C_x＝X₅X₄X₃X₂X₁X₀和C_y＝Y₅Y₄Y₃Y₂Y₁Y₀，则C_x和C_y间的汉明距离可表示为：

即汉明距离d(Cx,Cy)等于

且其中取值0-6。在本发明实施例中，利用两个基本手势编码间的汉明距离来度量手势间的相异性，将其转化为归一化的相似度：

其中，相似度s的取值范围为0-1，s的值越接近1表示相似度越高，s＝1时表示两个基本手势间的汉明距离为0，即两个手势的编码完全相同。可以理解的是，两个基本手势编码不同的位数越少(即汉明距离越小)，表示手势越相似。

在步骤S324中，将所述约翰逊编码与所述预设手势库中的标注手势模板序列进行相似度匹配。在本发明实施例中，用户做出的连续手势通过手势分割变为手势序列，经特征提取及分类器分类之后得到一个已识别的基本手势序列(可能存在误识别)。将每个识别出的基本手势进行约翰逊编码，再与标准模板序列进行相似度匹配，即可识别出连续手势。假设输入的连续手势已识别为序列A1’-A2’-A3’，将其与预设手势库中的标准手势模板序列进行相似度匹配。具体地，计算

其中，S_i表示已识别序列与第i个模板序列的总相似度，

表示手势库中第n个标准手势模板序列的第j个手势，

表示已识别序列i中的第j个手势，

表示已识别序列与第n个标准手势模板序列的总相似度。

可以理解的是，在本发明实施例中，预设手势库中的连续手势样本可以支持扩展。当有扩展预设手势库的需求时，可在移动终端任意指定若干定义好的基本手势指令，进行组合，组成一个新的连续手势指令，输入连续手势指令的含义，则可将新扩展的手势添加入预设手势库中。与此同时，将对预设手势库中的手势指令重新进行约翰逊编码，从而扩展预设手势库的词汇量。

在步骤S325中，当所述相似度大于预设阈值时，确定具有最大相似度的手势作为所述手势类型信息。在本发明实施例中，上述预测结果为argmaxS_i，当相似度大于预设阈值时，即将最相似的手势确定为手势类型信息作为输出结果。可以理解的是，由于有效手势设计为有限个数，如果相似度大于预设阈值，则认为手势数据跟预先设定的某个手势匹配上了，输出识别结果作为有效手势，否则就认为是无效手势，不进行相应操作。

在本发明实施例中，所述步骤S32还包括：当所述基本手势不是所述预设手势库中的连续手势起始手势标识时，将所述基本手势与所述预设手势库中进行匹配，确定对应的所述手势类型信息。可以理解的是，当基本手势不是连续手势的起始标识时，认为其是单独的手势，直接根据预分类结果与预设手势库中的手势进行匹配即可，根据匹配结果判断是否为有效手势，并确定对应的手势类型信息。

在本发明实施例中，所述传感器数据包括用户的手指弯曲数据和手掌运动姿态数据，根据所述手指弯曲数据和所述手掌运动姿态数据判断所述用户的手势为静态手势或动态手势，其中，所述静态手势为手指静止、手掌静止的手势，所述动态手势为手指静止、手掌运动的手势。图8所示为根据本发明实施例的判断用户的手势为静态手势或动态手势的流程示意图，包括步骤S01至S04。

在步骤S01中，确定所述手指弯曲数据的差分能量值。在本发明实施例中，根据数据手套采集的手指拉伸传感器的数据流作为手指弯曲数据，计算得到差分能量值，即两个相邻数据差分绝对值之和。

在步骤S02中，当所述手指弯曲数据的差分能量值小于预设拉伸阈值并且持续时间超过第一预设时长时，确定所述手掌运动姿态数据的差分能量值。在本发明实施例中，若根据手指的拉伸传感器的数据流中计算得到的差分值小于预设拉伸阈值，并且持续时间超过第一预设时长(例如1秒)，则认为是一个静态或多个动态手势，由于手指能做的动作数量有限，所以动态手势的手指手势可能与静态手势或手势集中的其他动态手势的手指手势重合。因此手在传统的单步手势切割的基础上，需再根据手掌运动情况再次进行一次分割。当手指弯曲数据的差分能量值小于预设拉伸阈值并且持续时间超过第一预设时长时，根据数据手套的运动传感器采集的数据确定所述手掌运动姿态数据的差分能量值。可以理解的是，所述手掌运动姿态数据的差分能量值为两个相邻数据差分绝对值之和。

在步骤S03中，当所述手掌运动姿态数据的差分能量值大于预设加速阈值并且持续时间超过第二预设时长时，判断所述用户的手势为动态手势。在本发明实施例中，初步切割的手势段，其手指动作都是一致的，但是手掌可能发生运动。所以，再以运动传感器的数据进行第二次切割，对于第一次切割好的每段数据，再根据其加速度的预设加速阈值继续判断，若数据流中计算得到的差分能量值大于阈值且持续时间超过1秒，则认为是一个动态手势。

在步骤S04中，当所述手掌运动姿态数据的差分能量值大于所述预设加速阈值并且持续时间小于所述第二预设时长时，判断所述用户的手势为静态手势。在本发明实施例中，若所述差分能量值小于所述预设加速阈值，且持续时间小于1秒，则认为是一个静态手势。由此，可通过手势能量来准确判断当前时间用户是否正在有意地做一个静态手势。可以理解的是，在本发明实施例中，在对静态手势设计时，可避开用户的常用手部动作，例如握枪、攀爬等等，且可设计一个静态手势作为连续手势的起始标识，有效避免误输入，提高整体运行的可靠性。

可以理解的是，可由用户提供的手势样本数据对分层手势识别模型进行预训练，从而得到上述对静态手势或动态手势的判断结果。

在本发明实施例中，在所述步骤S3之后，还可包括：根据所述手势类型信息与移动终端进行人机交互操作，例如识别好的连续手势或基本手势会触发移动终端系统功能，例如拍照、定位、与小组发送文字信息或语音信息。调用的具体过程为：根据手势语义匹配功能，在手势识别服务中发出系统广播，相应功能一直开启接收广播功能，当相应功能所在的活动接收到了广播，根据广播传送的数据，调用本活动所负责的系统功能。当识别出与预设手势库中匹配的手势后，调用相应的系统功能执行相应的具体操作，实现稳定可靠的人机交互。

采用本发明实施例的实时手势识别方法，通过数据手套实时采集用户的手势数据，并对手势数据进行有效的手势分割等预处理操作，再通过构造有价值的特征信息集进行特征提取，并将提取后的特征信息输入轻量级的分层手势识别模型进行手势识别，针对不同复杂程度的用户手势，调用不同量级的模型进行识别，当上一层级的模型识别的分类置信度小于预设阈值时，则由下一层级的模型进行识别，可在保证手势识别准确度的基础上，占用更少的系统资源，适用于面向移动终端的应用场景。且根据预先定义的起始手势能有效避免误触发和误识别，提高整体识别的可靠性，提高用户体验。

本发明第二方面的实施例还提供了一种实时手势识别装置。图9所示为根据本发明实施例的实时手势识别装置900的结构示意图，包括存储器901和处理器902。

存储器901用于存储计算机程序。

处理器902用于当执行所述计算机程序时，实现如上所述的实时手势识别方法。

所述实时手势识别装置900的各个模块的更具体实现方式可以参见对于本发明的实时手势识别方法的描述，且具有与之相似的有益效果，在此不再赘述。

本发明第三方面的实施例还提出了一种移动终端。图10所示为根据本发明实施例的移动终端1000的结构示意图，包括如上所述的实时手势识别装置900。在本发明实施例中，当所述移动终端1000接收到数据手套实时采集的用户手势数据后，采用如上所述的实时手势识别方法对所述手势数据进行处理，实时准确地识别出用户的手势信息，并可根据所述手势信息进行人机交互，实现用户手势指定的操作。

采用本发明实施例的移动终端，通过对手势数据进行快速有效的预处理和特征提取，基于轻量级的分层手势识别模型对手势数据进行手势识别，在保证手势识别准确性和实时性的同时，可占用较少的资源，并实现高效的人机交互操作。

本发明第四方面的实施例还提出了一种人机交互系统。图11所示为根据本发明实施例的人机交互系统1100的结构示意图，包括数据手套1101以及如上所述的移动终端1000。

数据手套1101用于采集用户的手势数据，并将所述手势数据发送至所述移动终端1000。

移动终端1000用于接收所述手势数据，并根据所述手势数据确定手势类型信息；还用于根据所述手势类型信息与所述用户进行人机交互操作。

在本发明实施例中，以数据手套使用者为一名单兵、移动终端为一部智能手机为例进行说明。当单兵佩戴上数据手套后，智能手机通过蓝牙与数据手套建立通讯连接，数据手套实时捕获单兵的手指弯曲信息和手掌运动姿态数据，智能手机通过安装特定的应用程序手机收集手势数据，当单兵做出某一手势时，手势数据在智能手机上进行数据预处理后送入分层手势识别模型中进行识别，智能手机通过手势识别结果做出对应的人机交互操作。

在本发明实施例中，所述数据手套1101配备有拉伸传感器、加速度传感器、陀螺仪和蓝牙发送接收模块等，用于手势数据的采集和传输。具体地，手套本体的手指背部位置设置有拉伸采集模块，由拉伸传感器及相应电路组成，手套本体的手背位置设置有姿态采集模块，由加速度传感器和陀螺仪及相应电路组成，所述手套本体的手腕位置设置有主控模块、通信模块；所述主控模块分别与所述拉伸采集模块、所述姿态采集模块、所述通信模块连接；其中所述拉伸采集模块，用于将采集的手指弯曲角度传输至所述主控模块；所述姿态采集模块，用于将采集的手掌运动姿态传输至所述主控模块；所述主控模块，用于将所述手指弯曲角度和所述手掌运动姿态传输至所述通信模块；所述通信模块，用于将所述手掌弯曲角度和所述手掌运动姿态传输至外部设备。

在本发明实施例中，所述移动终端1000可以实现通过手势类型调用语音、拍照、信息接收发送功能；所述移动终端还用于将手势识别结果转为文字或语音。可以理解的是，上述人机交互可实现的功能只是示例性的给出，本发明并不以此为限。可以理解的是，针对不同的数据手套使用者，系统具备个性化可调节参数以提高手势识别准确率。

采用本发明实施例的人机交互系统，通过数据手套高效采集用户的手势数据，并将手势数据通过无线通信的方式传送至移动终端。再由移动终端对手势数据进行识别，快速准确地识别出用户的手势信息，并根据所述手势进行人机交互，具有高效性和便携性，适用于更多应用场景。

本发明第五方面的实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现根据本发明第一方面所述的实时手势识别方法。

一般来说，用于实现本发明方法的计算机指令的可以采用一个或多个计算机可读的存储介质的任意组合来承载。非临时性计算机可读存储介质可以包括任何计算机可读介质，除了临时性地传播中的信号本身。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言，特别是可以使用适于神经网络计算的Python语言和基于TensorFlow、PyTorch等平台框架。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

根据本发明第五方面的非临时性计算机可读存储介质，可以参照根据本发明第一方面实施例具体描述的内容实现，并具有与根据本发明第一方面实施例的实时手势识别方法具有类似的有益效果，在此不再赘述。

尽管上面已经示出和描述了本发明的实施例，应当理解的是，上述实施例是示例性的，不能解释为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种实时手势识别方法，其特征在于，包括：

2.根据权利要求1所述的实时手势识别方法，其特征在于，所述对所述手势数据进行预处理包括：对所述手势数据进行手势分割、滑动窗口平均滤波和标准化处理。

3.根据权利要求2所述的实时手势识别方法，其特征在于，所述对所述手势数据进行手势分割包括：

当所述差分值小于预设手势波动阈值时，将所述当前时刻的手势数据加入滑动窗口；

当所述差分值大于所述预设手势波动阈值时，将所述当前时刻的手势数据计入波动数据；

4.根据权利要求1所述的实时手势识别方法，其特征在于，所述对预处理后的手势数据进行特征提取包括：

5.根据权利要求1所述的实时手势识别方法，其特征在于，所述将所述特征提取的结果输入预训练好的分层手势识别模型进行多级手势识别，确定手势类型信息包括：

6.根据权利要求5所述的实时手势识别方法，其特征在于，所述将所述特征提取的结果输入预训练好的分层手势识别模型，确定分类置信度和对应的预分类结果包括：

7.根据权利要求5所述的实时手势识别方法，其特征在于，所述根据所述分类置信度、所述预分类结果和预设手势库，确定所述手势类型信息包括：

根据所述连续手势序列进行约翰逊编码；

8.根据权利要求7所述的实时手势识别方法，其特征在于，所述根据所述分类置信度、所述预分类结果和预设手势库，确定所述手势类型信息还包括：

9.根据权利要求1所述的实时手势识别方法，其特征在于，所述传感器数据包括用户的手指弯曲数据和手掌运动姿态数据，根据所述手指弯曲数据和所述手掌运动姿态数据判断所述用户的手势为静态手势或动态手势，其中，所述静态手势为手指静止、手掌静止的手势，所述动态手势为手指静止、手掌运动的手势。

10.根据权利要求9所述的实时手势识别方法，其特征在于，所述根据所述手指弯曲数据和所述手掌运动姿态数据判断所述用户的手势为静态手势或动态手势包括：

确定所述手指弯曲数据的差分能量值；

11.根据权利要求1-10中任一项所述的实时手势识别方法，其特征在于，还包括：

根据所述手势类型信息与移动终端进行人机交互操作。

12.根据权利要求1-10中任一项所述的实时手势识别方法，其特征在于，在对所述分层手势识别模型进行预训练阶段，在多帧图像中随机挑选预设比例的帧作为训练样本。

13.一种实时手势识别装置，其特征在于，包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现如权利要求1至12中任一项所述的实时手势识别方法。

14.一种移动终端，其特征在于，包括如权利要求12所述的实时手势识别装置。

15.一种人机交互系统，其特征在于，包括数据手套和如权利要求13所述的移动终端，其中：

16.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现根据权利要求1-12中任一项所述的实时手势识别方法。