CN110007764B

CN110007764B - 一种手势骨架识别方法、装置、系统及存储介质

Info

Publication number: CN110007764B
Application number: CN201910287980.0A
Authority: CN
Inventors: 毛守迪; 王行; 李骊; 周晓军; 盛赞; 李朔; 杨淼
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2022-06-10
Anticipated expiration: 2039-04-11
Also published as: CN110007764A

Abstract

本发明公开一种手势骨架识别方法、装置、系统及存储介质，属于手势识别技术领域，该方法包括：对获取的点云数据进行抽稀处理后输入至训练好的点云分类模型，得到点云是否属于手的一部分的分类结果，对分类结果进行聚类定位手的中心，将手的中心一定距离内的点云进行抽稀处理后输入到训练好的手势骨架识别模型，得到手势骨架坐标，最后经由骨架后处理得到最终的手势骨架坐标。本发明相比现有技术，具有适配面广，计算效率高，开发简单等优点。

Description

一种手势骨架识别方法、装置、系统及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种手势骨架识别方法、装置、系统及存储介质。

背景技术

在人机交互领域，随着AR与VR的兴起，手势识别已经是一个很重要的研究方向。手势识别技术是利用彩色或深度摄像头捕捉用户手部姿态和位置，识别特定手势并完成相应功能的技术，手势识别技术因其能够识别用户手部的姿态以及动作，目前已广泛用于人机交互、虚拟物体交互等实际应用。

目前已有的手势识别技术是利用摄像头采集图像作为输入，通常包括彩色图、深度图、双红外图等，然后通过某种图像识别的方法，识别图像中手的位置，最后利用图像处理算法识别手势骨架。对于以彩色图作为输入的方案来说，由于彩色图缺乏深度信息，识别到的手势骨架通常是平面的，无法给出空间信息，不能应用于复杂的人机交互。以深度图为输入的方案比较依赖深度图质量。不同原理的深度摄像头拍摄到的深度图有着各自的优缺点，深度图质量不一，会影响手的定位和手势骨架识别。

发明内容

为克服现有技术存在的不足，本发明提供了一种基于点云数据作为输入，深度学习模型为主要特征提取器进行手势骨架识别的方案。

本发明提供的一种手势骨架识别方法，包括以下步骤：

获取点云数据；

从获取的所述点云数据中选取第一预设数量的点云数据，输入至训练好的点云分类模型，得到分类结果；

依据所述分类结果定位到手的中心；

从距离所述手的中心预设距离内的点云数据中选取第二预设数量的点云数据，输入至训练好的手势骨架识别模型，得到手势骨架坐标。

进一步的，还包括：对所述手势骨架坐标进行骨架后处理，得到最终的手势骨架坐标数据。

优选的，上述从获取的所述点云数据中选取第一预设数量的点云数据具体为：对获取的所述点云数据进行抽稀处理得到第一预设数量的点云数据；上述从距离所述手的中心预设距离内的点云数据中选取第二预设数量的点云数据具体为：对距离所述手的中心预设距离内的点云数据进行抽稀处理得到第二预设数量的点云数据。

优选的，上述点云分类模型和所述手势骨架识别模型，是以PEL为基础结构构建的深度学习模型。

优选的，上述依据所述分类结果定位到手的中心具体为：对分类结果为属于手的点云进行聚类，去除异常点，计算聚类点集的质心作为手的位置，统计以手的位置为球心、预设距离为半径的范围内属于手的点云的个数占该范围内总点云个数的比例，如果比例达到预设值时，则判定为定位到手的中心；否则判定为点云数据中不包含手。

本发明还提供了一种手势骨架识别装置，包括：

获取模块，用于获取点云数据；

分类模块，用于从所述获取模块获取的点云数据中选取第一预设数量的点云数据输入至训练好的点云分类模型，得到分类结果；

手部定位模块，用于依据所述分类结果进行聚类，定位到手的中心；

手势骨架识别模块，用于从距离所述手的中心预设距离内的点云数据中选取第二预设数量的点云数据输入至训练好的手势骨架识别模型，得到手势骨架坐标。

进一步的，该装置还包括：骨架后处理模块，用于对所述手势骨架识别模块得到的手势骨架坐标进行骨架后处理，得到最终的手势骨架坐标数据。

本发明还提供了一种手势骨架识别系统，包括上述的手势骨架识别装置和用于采集点云数据的采集设备。优选的，所述采集设备可以是三维激光扫描仪或深度摄像头。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的手势骨架识别方法。

本发明具有如下有益效果：本发明基于点云输入，利用深度学习识别手势骨架，能够给出用户手部的三维骨架坐标。本方案可以适配多种点云测量设备的数据，如三维激光扫描得到的点云，深度摄像头拍摄的深度图转换的点云等。此外，使用本发明提供的方法其数据计算量是可控的，可以通过点云抽稀，深度学习模型裁剪等方式提高计算效率，且不需要设计复杂的模型。综上，本方案具有适配面广，计算效率高，开发简单等优点。

附图说明

图1是本发明提供的一种手势骨架识别方法的流程图；

图2是本发明提供的一种手势骨架识别系统的组成框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

为了方便理解，下面对本申请实施例中涉及的名词进行解释。

深度学习：一种通过组合多个简单的特征提取、特征映射等方法来完成复杂特征表达的机器学习方法。

深度图：深度摄像头所采集的，以距离值(深度值)作为像素值的图像。

点云：通过特定测量仪器测得的被测物体表面的点的空间坐标集合。

本实施例提出的一种手势骨架识别系统，包括采集设备和手势骨架识别装置，利用采集设备采集点云数据并输出给手势骨架识别装置，手势骨架识别装置基于点云输入，利用深度学习识别手势骨架，能够给出用户手部的三维骨架坐标。该手势骨架识别装置可以适配多种点云采集设备的数据，如三维激光扫描得到的点云，深度摄像头拍摄的深度图转换的点云等。

如图1所示，本实施例提供的手势骨架识别方法包括以下步骤：

步骤S1、获取点云数据；

本实施例中，利用深度摄像头采集到的原始数据是深度图，依据摄像头内参对深度图进行转换得到点云数据。

步骤S2、对点云数据进行抽稀处理，将抽稀处理后得到的点云数据输入至训练好的点云分类模型，得到分类结果；

其中，对点云数据进行抽稀处理具体为：去除数据中重复度较高的点，让点云在空间中不同位置的密度趋于接近，并保留固定数量的点云数据作为点云分类模型的输入。例如，保留第一预设数量(1024个)的点云数据输入至训练好的点云分类模型。

本申请以PEL(Permutation Equivariant Layer，排列不变层)为基础结构构建深度学习模型，作为点云数据的特征提取器，将点云数据和对应的标定好的点云分类标签数据作为输入训练得到所述点云分类模型。以PEL为基础结构的点云分类模型，不依赖输入数据的排列方式，对于相同数据的不同排列经由PEL会得到相同的结果。

利用训练好的点云分类模型对输入的每个点云数据进行分类，判断该点云是否属于手的一部分，并得到分类结果，该点云分类模型的工作原理说明如下：

本实施例中，点云分类模型将点云分成两类：属于手的点云和不属于手的点云。在模型训练过程中，模型通过以PEL为基础构建的深度学习网络对点云数据进行特征提取，最终给出每个点云属于不同分类的概率。通过比较点云分类的概率与标定的分类标签，计算模型的损失函数，然后通过反向传播算法修正模型，使得模型对点云的分类预测接近标定的分类结果。在模型应用时，模型以点云数据为输入，直接得到每个点云的分类概率。本实施例中，当该点云属于手的概率大于50％时，将该点云分类为属于手的点云。

步骤S3、依据所述分类结果进行聚类，定位到手的中心；

具体的，依据分类结果，对分类结果为属于手的点云进行聚类，去除异常点，可用常用的聚类算法如K均值等实现这一过程，计算聚类点集的质心作为手的位置。然后以该位置为球心，预设距离(例如15cm)为半径，统计该范围内属于手的点云的个数占该范围内总点云个数的比例。如果该比例达到预设值，则判定为该位置为手的中心；否则，判定为输入的点云数据中并不包含手，返回步骤S1等待下一次点云数据输入。优选的，预设值选为50％。

步骤S4、对距离手的中心预设距离内的点云数据进行抽稀处理，将抽稀处理后得到的点云数据输入至训练好的手势骨架识别模型，得到手势骨架坐标；

优选的，所述预设距离为15cm，抽稀处理后得到第二预设数量(例如，1024个)的点云数据输入至所述手势骨架识别模型。本申请以PEL(Permutation Equivariant Layer，排列不变层)为基础结构构建深度学习模型，并将点云数据和对应的标定好的手势骨架坐标数据作为输入训练得到手势骨架识别模型。

利用训练好的手势骨架识别模型对输入的每个点云数据进行识别，得到手势骨架坐标，该手势骨架识别模型的工作原理说明如下：

手势骨架识别模型以所有点云的坐标作为输入，输出手势骨架关节点坐标的预测。本实施例中，手势骨架包含21个关节点，每个关节点包含空间3个维度的坐标。在模型训练过程中，模型通过以PEL为基础构建的深度学习网络对点云数据进行特征提取，最后输出63个特征。将这63个特征与标定给出的21*3个骨架坐标数据进行比较，计算模型的损失函数，然后通过反向传播算法修正模型，使得模型的输出逐渐接近标定值。在模型应用时，模型以点云数据为输入，直接得到63个特征数据，每3个数据分别对应一个手势骨架关节点的坐标。

步骤S5、对所述手势骨架坐标进行骨架后处理，得到最终的手势骨架坐标数据。

其中，骨架后处理可以是骨架坐标修正、骨架平滑处理、骨架关键点约束等。

本实施例公开的手势骨架识别方法，基于点云作为输入，可以适配多种点云测量设备，并且计算量是可控的，即可以通过点云抽稀、深度学习模型裁剪等方式提高计算效率，且不需要设计复杂的模型。综上，本方案具有适配面广，计算效率高，开发简单等优点。

基于上述手势骨架识别方法，本实施例还提供的一种手势骨架识别系统，如图2所示，包括手势骨架识别装置100和采集装置200，其中：

所述采集装置200，用于采集点云数据并输出给所述手势骨架识别装置100。

优选的，采集装置200可以是三维激光扫描仪，或者是深度摄像头等。

手势骨架识别装置100，具体包括获取模块101、分类模块102、手部定位模块103、手势骨架识别模块104和骨架后处理模块105。

其中，获取模块101，用于获取点云数据；

分类模块102，用于对所述获取模块101获取到的点云数据进行抽稀处理，将抽稀处理后得到的点云数据输入至训练好的点云分类模型，得到分类结果；

手部定位模块103，用于依据所述分类结果进行聚类，定位到手的中心；

手势骨架识别模块104，用于对距离手的中心预设距离内的点云数据进行抽稀处理，将抽稀处理后得到的点云数据输入至训练好的手势骨架识别模型，得到手势骨架坐标；

骨架后处理模块105，用于对所述手势骨架坐标进行骨架后处理，得到最终的手势骨架坐标数据。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述实施例提供的手势骨架识别方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,ResistanceRandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.一种手势骨架识别方法，其特征在于，包括：

获取点云数据；

对获取的所述点云数据进行抽稀处理得到第一预设数量的点云数据，输入至训练好的点云分类模型，得到分类结果；

依据所述分类结果定位到手的中心，具体为：对分类结果为属于手的点云进行聚类，去除异常点，计算聚类点集的质心作为手的位置，统计以手的位置为球心、预设距离为半径的范围内属于手的点云的个数占该范围内总点云个数的比例，如果比例达到预设值时，则判定为定位到手的中心；否则判定为点云数据中不包含手；

对距离所述手的中心预设距离内的点云数据进行抽稀处理得到第二预设数量的点云数据，输入至训练好的手势骨架识别模型，得到手势骨架坐标；

所述点云分类模型和所述手势骨架识别模型，是以PEL为基础结构构建的深度学习模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：对所述手势骨架坐标进行骨架后处理，得到最终的手势骨架坐标数据。

3.一种手势骨架识别装置，其特征在于，包括：

获取模块，用于获取点云数据；

分类模块，用于对获取的所述点云数据进行抽稀处理得到第一预设数量的点云数据，并输入至训练好的点云分类模型，得到分类结果；

手部定位模块，用于依据所述分类结果进行聚类，定位到手的中心，具体为：对分类结果为属于手的点云进行聚类，去除异常点，计算聚类点集的质心作为手的位置，统计以手的位置为球心、预设距离为半径的范围内属于手的点云的个数占该范围内总点云个数的比例，如果比例达到预设值时，则判定为定位到手的中心；否则判定为点云数据中不包含手；

手势骨架识别模块，用于对距离所述手的中心预设距离内的点云数据进行抽稀处理得到第二预设数量的点云数据，并输入至训练好的手势骨架识别模型，得到手势骨架坐标；

4.根据权利要求3所述的装置，其特征在于，还包括：

骨架后处理模块，用于对所述手势骨架识别模块得到的手势骨架坐标进行骨架后处理，得到最终的手势骨架坐标数据。

5.一种手势骨架识别系统，其特征在于：包括如权利要求3-4中任一所述的手势骨架识别装置和用于采集点云数据的采集设备。

6.根据权利要求5所述的系统，其特征在于，所述采集设备具体为三维激光扫描仪或深度摄像头。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-2中任一所述的方法。