CN113238650B

CN113238650B - 手势识别和控制的方法、装置及虚拟现实设备

Info

Publication number: CN113238650B
Application number: CN202110405475.9A
Authority: CN
Inventors: 吴涛
Original assignee: Qingdao Xiaoniao Kankan Technology Co Ltd
Current assignee: Qingdao Xiaoniao Kankan Technology Co Ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2023-04-07
Anticipated expiration: 2041-04-15
Also published as: US11947729B2; US20220382386A1; WO2022217828A1; CN113238650A

Abstract

本公开提供了一种手势识别和控制的方法、装置及虚拟现实设备，其中，手势识别方法包括：获取所述双目摄像头中每一摄像头采集到的用户的手部图像；通过预先构建的识别模型识别获取到的所述手部图像中的第一组手部骨骼点，得到在所述手部图像的手部区域上标记出识别到的第一组手部骨骼点的手部骨骼点图像；根据得到的所述手部骨骼点图像，获得第二组手部骨骼点中各骨骼点间的二维位置关系及三维位置关系作为所述用户的手部姿态数据；根据所述手部姿态数据进行所述用户的手势识别。

Description

手势识别和控制的方法、装置及虚拟现实设备

技术领域

本发明涉及虚拟现实设备技术领域，更具体地，涉及一种手势识别和控制的方法、装置及虚拟现实设备。

背景技术

虚拟现实头戴式一体机设备可用于通过向用户呈现虚拟图像来提供虚拟现实体验。这种设备通常被实现为头戴式显示设备(HMD：Head Mount Display)。虚拟图像可以采取一个或多个虚拟形状、对象或其他视觉现象的形式，这些虚拟形状、对象或视觉现象的呈现方式使它们看起来好像存在于虚拟世界中，种种的虚拟内容通过虚拟现实头戴式一体机设备的显示屏幕呈现给用户，把现实存在的形状，对象或视觉现象都融合在虚拟场景中，达到虚拟和现实的完美融合。

其中，虚拟控件在虚拟场景交互中扮演着重要的角色，比如在一些虚拟场景下，通过虚拟控件可以自由调整场景的显示亮度；比如在一些虚拟场景下，通过虚拟控件可以自由调整场景中的一些音量；比如还在一些虚拟场景下，通过虚拟控件可以自由调整视觉属性等一些功能。

目前，在虚拟现实系统中，通过手柄控制追踪器控制虚拟控件，这种交互方式不够自然，特别是在一些特殊的场景下，无法通过手柄控制追踪器完成对虚拟控件的控制和交互，或者在一些场景下，使用手柄控制追踪器比较繁琐，用户使用虚拟现实设备的沉浸体验较差。

因此，发明人认为，需要针对现有技术中存在的至少一个技术问题进行改进。

发明内容

本说明书的一个目的是提供一种用于虚拟现实设备的手势识别和控制的新技术方案。

根据本说明书的第一方面，提供了一种用于虚拟现实设备的手势识别方法，所述虚拟现实设备包括双目摄像头，所述手势识别方法包括：

获取所述双目摄像头中每一摄像头采集到的用户的手部图像；

通过预先构建的识别模型识别获取到的所述手部图像中的第一组手部骨骼点，得到在所述手部图像的手部区域上标记出识别到的第一组手部骨骼点的手部骨骼点图像；其中，所述第一组手部骨骼点包括手指关节骨骼点和掌心骨骼点；

根据得到的所述手部骨骼点图像，获得第二组手部骨骼点中各骨骼点间的二维位置关系及三维位置关系作为所述用户的手部姿态数据，其中，所述第一组手部骨骼点包括所述第二组手部骨骼点；

根据所述手部姿态数据进行所述用户的手势识别。

优选地，所述第二组手部骨骼点包括大拇指指尖骨骼点和食指指尖骨骼点；

所述根据得到的所述手部骨骼点图像，获得第二组手部骨骼点中各骨骼点间的二维位置关系及三维位置关系，包括：

根据得到的所述手部骨骼点图像中所述大拇指指尖骨骼点和所述食指指尖骨骼点的二维坐标，获得所述大拇指指尖骨骼点和所述食指指尖骨骼点的三维坐标；

根据所述三维坐标，获得所述大拇指指尖骨骼点和所述食指指尖骨骼点的三维欧式距离，并根据所述三维欧式距离确定所述大拇指指尖骨骼点和所述食指指尖骨骼点的三维位置关系；

根据得到的所述手部骨骼点图像中所述大拇指指尖骨骼点到所述食指指尖骨骼点之间的轮廓以及所述二维坐标，获得所述大拇指指尖骨骼点和所述食指指尖骨骼点之间的二维欧式距离及所述轮廓的距离，并根据所述二维欧式距离以及所述轮廓的距离确定所述大拇指指尖骨骼点和所述食指指尖骨骼点的二维位置关系。

优选地，所述根据所述手部姿态数据进行所述用户的手势识别，包括：

当所述二维位置关系为所述轮廓的距离大于所述二维欧式距离且所述三维位置关系为所述三维欧式距离小于设定阈值时，用户的手势识别结果为大拇指与食指捏合。

优选地，所述获取所述双目摄像头中每一摄像头采集到的用户的手部图像，包括：

获取每一摄像头分别在设定的多个时间点采集到的多帧手部图像；

根据同一时间点上得到的所述手部骨骼点图像，获得所述时间点对应的第二组手部骨骼点中各骨骼点间的二维位置关系及三维位置关系；

所述根据所述手部姿态数据进行所述用户的手势识别，包括：

当所述时间点对应的所述二维位置关系为所述轮廓的距离大于所述二维欧式距离且所述三维位置关系为所述三维欧式距离小于设定阈值时，判定在所述时间点，用户的手势识别结果为大拇指与食指捏合；

遍历所述时间点；

遍历结束时，当所有时间点，用户的手势识别结果均为大拇指与食指捏合时，判定用户的手势识别结果为大拇指与食指捏合。

优选地，所述第一组手部骨骼点包括20个所述手指关节骨骼点和1个所述掌心骨骼点；其中，

每根手指设有4个所述手指关节骨骼点，1个设置于手指指尖，其他3个分别设置于每根手指的3个关节上。

优选地，所述识别模型包括手检测模型和手骨骼点标记模型，所述手检测模型用于识别所述手部图像中的所述手部区域，所述手骨骼点标记模型用于识别并标记所述手部区域存在的所述第一组手部骨骼点；其中，

构建所述识别模型的步骤包括：

通过手姿势图像库以及所述手姿势图像库对应的手部区域标签库构建第一训练样本集；

通过所述手姿势图像库对应的所述手部区域标签库以及所述手部区域标签库对应的手部骨骼点标签库构建第二训练样本集；

通过所述第一训练样本集训练对应于所述手检测模型的第一基本模型的模型参数，得到所述手检测模型；

通过所述第二训练样本集训练对应于所述手骨骼点标记模型的第二基本模型的模型参数，得到所述手部骨骼点标记模型；

顺次连接所述手检测模型和所述手骨骼点标记模型，得到所述识别模型。

根据本说明书的第二方面，提供了一种用于虚拟现实设备的手势控制方法，包括：

获取用户的手势识别结果，所述手势识别结果是基于前述任意一项手势识别方法得到的；

根据所述手势识别结果对虚拟现实设备虚拟控件的开启、关闭及参数调整进行手势控制。

根据本说明书的第三方面，提供了一种用于虚拟现实设备的手势识别装置，所述虚拟现实设备包括双目摄像头，所述手势识别装置包括：

图像采集模块，用于获取所述双目摄像头中每一摄像头采集到的用户的手部图像；

手部骨骼点识别模块，用于通过预先构建的识别模型识别获取到的所述手部图像中的第一组手部骨骼点，得到在所述手部图像的手部区域上标记出识别到的第一组手部骨骼点的手部骨骼点图像；其中，所述第一组手部骨骼点包括手指关节骨骼点和掌心骨骼点；

手部姿态数据构建模块，用于根据得到的所述手部骨骼点图像，获得第二组手部骨骼点中各骨骼点间的二维位置关系及三维位置关系，将所述二维位置关系及三维位置关系作为所述用户的手部姿态数据，其中，所述第一组手部骨骼点包括所述第二组手部骨骼点；

手势识别模块，用于根据所述手部姿态数据进行所述用户的手势识别。

根据本说明书的第四方面，提供了一种虚拟设备的手势控制装置，包括：

手势识别装置，所述手势识别装置为前述的手势识别装置；

控制模块，用于根据所述手势识别装置提供的手势识别结果对虚拟现实设备虚拟控件的开启、关闭及参数调整进行手势控制。

根据本说明书的第五方面，提供了一种虚拟现实设备，包括处理器和存储器，所述存储器用于存储指令，所述指令用于控制所述处理器执行前述任一项所述的方法。

本公开实施例的一个有益效果在于，本实施例根据得到的所述手部骨骼点图像，获得第二组手部骨骼点中各骨骼点间的二维位置关系及三维位置关系作为所述用户的手部姿态数据，进而综合两个维度的手部姿态数据特征对用户的手势进行识别，大大提高了对用户手势识别的准确性。

本公开实施例的另一个有益效果在于，本实施例获取前述任意一项手势识别方法得到的手势识别结果，根据所述手势识别结果对虚拟现实设备虚拟控件的开启、关闭及参数调整进行手势控制，使用户与虚拟现实设备的交互方式更加自然、简单，提升用户使用虚拟现实设备的沉浸体验。

通过以下参照附图对本说明书的示例性实施例的详细描述，本说明书的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1示出了根据本公开实施例的一种用于虚拟现实设备的手势识别方法的示意性流程图；

图2示出了根据本公开实施例的一种用于虚拟现实设备的手势识别方法的示例的示意性流程图；

图3示出了本公开实施例的一种用于虚拟现实设备的手势控制方法的示意性流程图；

图4示出了根据本公开实施例的一种用于虚拟现实设备的手势识别装置的示意性框图；

图5示出了根据本公开实施例的一种用于虚拟现实设备的手势控制装置的示意性框图；

图6示出了本公开实施例的一种虚拟现实设备的示意性框图；

图7示出了本公开实施例的一种大拇指与食指捏合的手势示意图；

图8示出了本公开实施例的一种大拇指指尖骨骼点到食指指尖骨骼点之间的轮廓示意图；

图9示出了本公开实施例的一种手部骨骼点图像的示意图。

具体实施方式

现在将参照附图来详细描述本说明书的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本说明书的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本说明书及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

下面，参照附图描述根据本公开的各个实施例和例子。

<方法实施例1>

图1为根据本公开实施例的一种用于虚拟现实设备的手势识别方法的示意性流程图。

根据图1所示，该手势识别方法包括以下步骤：

步骤S1100，获取所述双目摄像头中每一摄像头采集到的用户的手部图像。

具体地，双目摄像头模拟人眼的结构设计，用于拍摄同一场景下用户手部的左右两幅图像。基于获取到的左右两幅图像，采用立体匹配算法可以获得二维图像像素点的第三维深度信息，进而基于获取到的两幅图像可从二维和三维两个维度构建用户的手部姿态数据，提高用户手姿势识别的准确性。

在本公开的一个实施例中，双目摄像头包括两个鱼眼摄像头，鱼眼摄像头的参数如下：

①场视角(FOV)：143°*107°*163°(H*V*D)，即鱼眼摄像头水平方向的场视角为143°，垂直方向的场视角为107°，对角线方向的场视角为163°；

②分辨率：640*480；

③帧率：30Hz；

④曝光方式：Global shutter(全局曝光)；

⑤颜色通道：单色。

具体地，双目摄像头含有两个摄像头，在同一时间点上，两个摄像头分别从左右两个方向上分别采集1帧用户的手部图像，得到2帧用户的手部图像。

在本公开的一个实施例中，可以是获取所述双目摄像头在一个时间点上采集的2帧用户的手部图像。

在本公开的另一个实施例中，可以是获取所述双目摄像头分别在设定的多个时间点上采集到的多帧用户的手部图像。其中，设定的多个时间点可以是N(N＞1)个连续的时间点，N为经验阈值，N值的设置不能过大，否则会影响手势识别时间，进而影响到用户的使用体验，例如，N可以是5，即获取所述双目摄像头分别在5个连续的时间点上采集到的多帧用户的手部图像。

步骤S1200，通过预先构建的识别模型识别获取到的所述手部图像中的第一组手部骨骼点，得到在所述手部图像的手部区域上标记出识别到的第一组手部骨骼点的手部骨骼点图像；其中，所述第一组手部骨骼点包括手指关节骨骼点和掌心骨骼点。

具体地，由于手部姿势与手部关节点之间的位置关系密切相关，因此，在进行手势识别之前，能否快速准确的识别手部关节点，将直接决定手势识别的准确性。

在本公开的一个实施例中，选取了与手部姿势关系最密切的21个手部关节点作为要识别的第一组手部骨骼点。第一组手部骨骼点包括20个手指关节骨骼点和1个掌心骨骼点，20个手指关节骨骼点位于5根手指上，每根手指上有4个手指关节骨骼点，其中，手指尖端上1个，3个关节上各1个；1个掌心骨骼点位于掌心处。基于对手部图像中21个骨骼点的识别，不仅可以实现对各种手部姿势的判断，还可以通过21个手部骨骼点之间的位置关系约束，提高各个骨骼点识别的精度，进而提高手势识别的准确性。

具体地，识别模型包括手检测模型和手骨骼点标记模型，其中，手检测模型用于识别手部图像中的手部区域，手骨骼点标记模型用于识别并标记所述手部区域存在的所述第一组手部骨骼点。

在本公开的一个实施例中，识别模型的构建步骤，包括：

步骤S1211，通过手姿势图像库以及所述手姿势图像库对应的手部区域标签库构建第一训练样本集。

在本公开的一个实施例中，采用双目摄像头对150个用户的手部动作行为案例进行采集，得到200万张手部姿势图像，基于得到的200万张手部姿势图像构建手姿势图像库，其中，手部姿势图像即用户的手部图像。

进一步地，对手姿势图像库中图像的手部区域进行标记，得到手姿势图像库对应的手部区域标签库，基于手姿势图像库以及对应的手部区域标签库，得到用于构建手检测模型的第一训练样本集。第一训练样本集中每条训练样本包括一张手姿势图像以及对应的手部区域标签图像。

步骤S1212，通过所述手姿势图像库对应的所述手部区域标签库以及所述手部区域标签库对应的手部骨骼点标签库构建第二训练样本集。

在本公开的一个实施例中，对步骤S1211中手部区域标签库中图像的手部骨骼点进行标记，得到手部区域标签库对应的手部骨骼点标签库，基于手部区域标签库以及对应的手部骨骼点标签库，得到用于构建手骨骼点标记模型的第二训练样本集。第二训练集中的每条训练样本包括一张手部区域标签图像以及对应的手部骨骼点标签图像。

步骤S1213，通过所述第一训练样本集训练对应于所述手检测模型的第一基本模型的模型参数，得到所述手检测模型。

具体地，第一基本模型可以是神经网络模型、支持向量机模型或者随机森林模型等，这里不做具体限定。

在本公开的一个实施例中，第一基本模型为神经网络模型，以第一训练样本集中每条训练样本中的手姿势图像为输入，以手姿势图像对应的手部区域标签图像为输出，对第一基本模型的参数进行训练，得到手检测模型。

步骤S1214，通过所述第二训练样本集训练对应于所述手骨骼点标记模型的第二基本模型的模型参数，得到所述手部骨骼点标记模型；

具体地，第二基本模型可以是神经网络模型、支持向量机模型或者随机森林模型等，这里不做具体限定。

在本公开的一个实施例中，第二基本模型为神经网络模型，以第二训练样本集中每条训练样本中的手部区域标签图像为输入，以手部标签图像对应的手部骨骼点标签图像为输出，对第二基本模型的参数进行训练，得到手部骨骼点标记模型。

步骤S1215，顺次连接所述手检测模型和所述手骨骼点标记模型，得到所述识别模型。

在本实施例中，在对用户的手部图像中的第一组手部骨骼点进行识别时，将用户的手部图像输入至识别模型中的手检测模型，得到与用户的手部图像对应的手部区域图像；然后将得到的手部区域图像输入至识别模型中的手骨骼点标记模型，得到在手部图像的手部区域上标记出识别到的第一组手部骨骼点的手部骨骼点图像。

在本实施例中，可以采用识别模型对双目摄像头在第一时间点上采集的2帧用户的手部图像进行识别，得到与2帧用户的手部图像对应的2帧手部骨骼点图像。

在本实施例中，也可以采用识别模型对双目摄像头分别在5个连续时间点上采集到的10帧用户的手部图像进行识别，得到与10帧用户的手部图像对应的10帧手部骨骼点图像。

在本公开的另一个实施例中，识别模型的构建步骤，包括：

步骤S1221，通过步骤S1211构建第一训练样本集。

步骤S1222，将步骤S1211中手部区域标签库中的图像输入至二值化处理模型对图像进行二值化处理，得到二值化的手部区域标签库；对二值化的手部区域标签库中图像的手部骨骼点进行标记，得到二值化的手部区域标签库对应的手部骨骼点标签库；基于二值化的手部区域标签库以及对应的手部骨骼点标签库，得到用于构建手骨骼点标记模型的第二训练样本集。第二训练集中的每条训练样本包括一张二值化的手部区域标签图像以及对应的手部骨骼点标签图像，其中，对应的手部骨骼点标签图像为二值化的图像。

步骤S1223，通过S1213得到手检测模型。

步骤S1224，基于步骤S1222得到的第二训练样本集训练对应于所述手骨骼点标记模型的第二基本模型的模型参数，得到手部骨骼点标记模型；

在本公开的一个实施例中，第二基本模型为神经网络模型，以第二训练样本集中每条训练样本中的二值化的手部区域标签图像为输入，以二值化的手部标签图像对应的手部骨骼点标签图像为输出，对第二基本模型的参数进行训练，得到手部骨骼点标记模型。

步骤S1225，顺次连接手检测模型、二值化处理模型和手骨骼点标记模型，得到所述识别模型。

在本实施例中，在对用户的手部图像中的第一组手部骨骼点进行识别时，将用户的手部图像输入至识别模型中的手检测模型，得到与用户的手部图像对应的手部区域图像；然后，将手部区域图像输入至识别模型中的二值化处理模型，得到二值化的手部区域图像；最后，将二值化的手部区域图像输入至识别模型中的手骨骼点标记模型，得到在二值化的手部区域图像上标记出识别到的第一组手部骨骼点的手部骨骼点图像，其中，得到的手部骨骼点图像为二值化的图像。

步骤S1300，根据得到的所述手部骨骼点图像，获得第二组手部骨骼点中各骨骼点间的二维位置关系及三维位置关系作为所述用户的手部姿态数据，其中，所述第一组手部骨骼点包括所述第二组手部骨骼点。

具体地，不同手部骨骼点的位置变化，形成不同的手势，因此，在进行不同的手势识别时，可以在第一组手部骨骼点中选取与手势形成相关的骨骼点作为第二组骨骼点，基于第二组骨骼点之间的位置关系进行对应的手势识别。

在本公开的一个实施例中，为了对大拇指与食指捏合的手势进行识别，选取的第二组手部骨骼点包括大拇指指尖骨骼点和食指指尖骨骼点，其中，大拇指与食指捏合的手势示意图如图7所示。

在本公开的一个实施例中，得到的手部骨骼点图像为2帧，2帧手部骨骼点图像分别与双目摄像头在第一时间点上采集的2帧用户的手部图像相对应。基于第一时间点上的2帧用户的手部图像，确定在第一时间点上用户的手势是否为大拇指与食指捏合。

在本实施例中，根据得到的所述手部骨骼点图像，获得第二组手部骨骼点中各骨骼点间的二维位置关系及三维位置关系的步骤，包括：

步骤S1310，根据得到的所述手部骨骼点图像中所述大拇指指尖骨骼点和所述食指指尖骨骼点的二维坐标，获得所述大拇指指尖骨骼点和所述食指指尖骨骼点的三维坐标。

具体地，获取2帧手部骨骼点图像中大拇指指尖骨骼点和食指指尖骨骼点的二维坐标，通过双目测距原理，分别计算第一时间点上大拇指指尖骨骼点和食指指尖骨骼点的三维坐标。双目测距原理即目标点在左右两幅视图中成像的横坐标之间存在的差异(视差Disparity)，该视差与目标点到成像平面的距离成反比例的关系，基于该反比例关系，可以得到目标点到成像平面的距离。目标点到成像平面的距离结合图像中目标点的二维位置坐标，即可以得到目标点的三维坐标。

步骤S1320，根据所述三维坐标，获得所述大拇指指尖骨骼点和所述食指指尖骨骼点的三维欧式距离，并根据所述三维欧式距离确定所述大拇指指尖骨骼点和所述食指指尖骨骼点的三维位置关系。

在本实施例中，根据第一时间点上大拇指指尖骨骼点和食指指尖骨骼点的三维坐标，计算第一时间点上大拇指指尖骨骼点和食指指尖骨骼点的三维欧式距离。具体地，三维欧式距离的计算方法是本领域技术人员的公知常识，在此不在赘述。

在本实施例中，大拇指指尖骨骼点和食指指尖骨骼点之间的三维位置关系可以是大拇指指尖骨骼点和食指指尖骨骼点之间的三维欧氏距离与设定的第一阈值之间的大小关系。其中，第一阈值的设定与三维坐标的计算精度相关，第一阈值的设置可以等于三维坐标的计算精度，例如，当三维坐标的计算精度为2mm时，第一阈值可以是2mm；第一阈值的设置也可以略大于三维坐标的计算精度，例如，当三维坐标的计算精度为2mm时，第一阈值可以是大于2mm且小于等于5mm的任意一个数值。

步骤S1330，根据得到的所述手部骨骼点图像中所述大拇指指尖骨骼点到所述食指指尖骨骼点之间的轮廓以及所述二维坐标，获得所述大拇指指尖骨骼点和所述食指指尖骨骼点的二维欧式距离及所述轮廓的距离，并根据所述二维欧式距离以及所述轮廓的距离确定所述大拇指指尖骨骼点和所述食指指尖骨骼点的二维位置关系。

具体地，如何得到图像中目标点的二维坐标，如何得到两个目标点之间的轮廓，以及如何计算目标点之间的轮廓距离和二维欧式距离，是本领域技术人员的公知常识，在此不在赘述。例如，得到的手部骨骼点图像为二值化的手部骨骼点图像；将二值化的手部骨骼点图像进行图像处理，可以提取出大拇指指尖骨骼点和食指指尖骨骼点，并得到大拇指指尖骨骼点到食指指尖骨骼点之间的轮廓，具体如图8所示。

在本实施例中，可以是在得到的2帧手部骨骼点图像中，任意选出1帧手部骨骼点图像；获取选出的手部骨骼点图像中大拇指指尖骨骼点到食指指尖骨骼点之间的轮廓以及大拇指指尖骨骼点和食指指尖骨骼点的二维坐标；计算选出的手部骨骼点图像中大拇指指尖骨骼点到食指指尖骨骼点之间的轮廓距离以及大拇指指尖骨骼点和食指指尖骨骼点之间的二维欧式距离；基于选出的手部骨骼点图像中大拇指指尖骨骼点和食指指尖骨骼点之间的轮廓距离和二维欧式距离，确定第一时间点上大拇指指尖骨骼点和所述食指指尖骨骼点的二维位置关系。

在本实施例中，可以是依次计算2帧手部骨骼点图像中大拇指指尖骨骼点到食指指尖骨骼点之间的轮廓距离以及大拇指指尖骨骼点和食指指尖骨骼点之间的二维欧式距离；对2帧手部骨骼点图像中大拇指指尖骨骼点到食指指尖骨骼点之间的轮廓距离加权平均，得到第一时间点上大拇指指尖骨骼点到食指指尖骨骼点之间的轮廓距离；对2帧手部骨骼点图像中大拇指指尖骨骼点和食指指尖骨骼点之间的二维欧式距离加权平均，得到第一时间点上大拇指指尖骨骼点到食指指尖骨骼点之间的二维欧式距离；基于第一时间点上手部骨骼点图像中大拇指指尖骨骼点和食指指尖骨骼点之间的轮廓距离和二维欧式距离确定第一时间点上大拇指指尖骨骼点和所述食指指尖骨骼点之间的二维位置关系。

在本实施例中，大拇指指尖骨骼点和食指指尖骨骼点之间的二维位置关系可以是大拇指指尖骨骼点和食指指尖骨骼点之间的轮廓距离与两者之间的二维欧式距离之间的大小关系。

进一步地，将第一时间点上大拇指指尖骨骼点和食指指尖骨骼点间的二维位置关系及三维位置关系作为第一时间点上用户的手部姿态数据。

在本公开的另一个实施例中，得到的手部图像为双目摄像头分别在5个连续的时间点上采集到的10帧用户的手部图像。每个时间点上，两个摄像头分别从左右两个方向上分别采集1帧用户的手部图像，得到2帧用户的手部图像。基于连续5个时间点上采集的10帧用户的手部图像，确定用户的手势是否为大拇指与食指捏合。

根据步骤S1310-步骤S1330，得到每个时间点上大拇指指尖骨骼点和食指指尖骨骼点间的二维位置关系及三维位置关系；

本实施例中，基于每个时间点上的大拇指指尖骨骼点和食指指尖骨骼点间的二维位置关系及三维位置关系，生成每个时间点上的用户的手部姿态数据。

步骤S1400，根据所述手部姿态数据进行所述用户的手势识别。

在得到的手部骨骼点图像为2帧图像的实施例中，根据所述手部姿态数据进行所述用户的手势识别，包括：

当第一时间点上大拇指指尖骨骼点和食指指尖骨骼点间的二维位置关系为大拇指指尖骨骼点和食指指尖骨骼点之间的轮廓距离大于两者之间的二维欧式距离，且大拇指指尖骨骼点和食指指尖骨骼点之间的三维位置关系为大拇指指尖骨骼点和食指指尖骨骼点之间的三维欧式距离小于设定的第一阈值时，在第一时间点上，用户的手势识别结果为大拇指与食指捏合。

在得到的手部骨骼点图像为每一摄像头分别在设定的多个时间点采集到的多帧手部图像的实施例中，根据所述手部姿态数据进行所述用户的手势识别，包括：

遍历所述时间点；

遍历结束时，当所有时间点用户的手势识别结果均为大拇指与食指捏合时，判定用户的手势识别结果为大拇指与食指捏合。

基于同样的构思，可以根据不同手势的特征，从第一组手部骨骼点中选取不同的骨骼点作为第二组手部骨骼点；并基于不同手势的特征，选取不同二维位置关系和三维位置关系的确定方法，从而最终实现其他手势的识别，其他手势的识别步骤在此不再赘述。

在本公开的实施例中，根据得到的所述手部骨骼点图像，获得第二组手部骨骼点中各骨骼点间的二维位置关系及三维位置关系作为所述用户的手部姿态数据，进而综合两个维度的手部姿态数据特征对用户的手势进行识别，大大提高了用户手势识别的准确性。

<例子>

图2是一种用于虚拟现实设备的手势识别方法的示例的示意性流程图。

根据图2所示，在该例子中，手势识别方法可以包括如下步骤：

步骤S2001，获取所述双目摄像头分别在5个连续的时间点上采集到的10帧用户的手部图像。

具体地，5个连续的时间中第一个出现的时间点为第一时间点。

步骤S2002，通过预先构建的识别模型对双目摄像头采集到的10帧用户手部图像中的21个手部骨骼点进行识别，得到在10帧手部图像的手部区域上标记出识别到的21个手部骨骼点的10帧手部骨骼点图像。

具体地，手部骨骼点图像如图9所示，手部骨骼点图像中共计21个手部骨骼点，包括20个手指关节骨骼点和1个掌心骨骼点，20个手指关节骨骼点位于5根手指上，每根手指上有4个手指关节骨骼点，其中，手指尖端上1个，3个关节上各1个；1个掌心骨骼点位于掌心处。

步骤S2003，遍历5个时间点。

步骤S2004，基于第一时间点对应的2帧手部骨骼点图像，计算第一时间点上大拇指指尖骨骼点和食指指尖骨骼点的三维坐标。

具体地，获取第一时间点对应的2帧手部骨骼点图像中大拇指指尖骨骼点和食指指尖骨骼点的二维坐标，通过双目测距原理，计算第一时间点上大拇指指尖骨骼点和食指指尖骨骼点的三维坐标。

步骤S2005，基于第一时间点上大拇指指尖骨骼点和食指指尖骨骼点的三维坐标，确定第一时间点上大拇指指尖骨骼点和所述食指指尖骨骼点的三维位置关系。

具体地，根据第一时间点上大拇指指尖骨骼点和食指指尖骨骼点的三维坐标，获得第一时间点上大拇指指尖骨骼点和食指指尖骨骼点间的三维欧式距离，并根据所述三维欧式距离确定第一时间点上大拇指指尖骨骼点和所述食指指尖骨骼点的三维位置关系。

具体地，大拇指指尖骨骼点和食指指尖骨骼点之间的三维位置关系为大拇指指尖骨骼点和食指指尖骨骼点之间的三维欧氏距离与设定的第一阈值之间的大小关系，其中，第一阈值可以是2mm。

步骤S2006，基于第一时间点对应的2帧手部骨骼点图像，确定第一时间点上大拇指指尖骨骼点和食指指尖骨骼点的二维位置关系。

具体地，在第一时间点对应的2帧手部骨骼点图像中，任意选出1帧手部骨骼点图像；根据选出的手部骨骼点图像中大拇指指尖骨骼点到食指指尖骨骼点之间的轮廓以及二维坐标，获得大拇指指尖骨骼点和食指指尖骨骼点之间的二维欧式距离及轮廓的距离，并根据二维欧式距离以及轮廓的距离确定第一时间点上大拇指指尖骨骼点和食指指尖骨骼点的二维位置关系。

具体地，大拇指指尖骨骼点和食指指尖骨骼点的二维位置关系为大拇指指尖骨骼点和食指指尖骨骼点之间的轮廓距离与两者之间的二维欧式距离之间的大小关系。

步骤S2007，将第一时间点上大拇指指尖骨骼点和食指指尖骨骼点间的二维位置关系及三维位置关系作为第一时间点上用户的手部姿态数据。

步骤S2008，在遍历结束时，得到每个时间点上用户的手部姿态数据。

步骤S2009，遍历每个时间点上用户的手部姿态数据。

步骤S2010，基于第一时间点上的手部姿态数据，对第一时间点上用户的手势进行识别。

具体地，当第一时间点的手部姿态数据中大拇指指尖骨骼点和食指指尖骨骼点间的二维位置关系为大拇指指尖骨骼点和食指指尖骨骼点之间的轮廓距离大于两者之间的二维欧式距离，且大拇指指尖骨骼点和食指指尖骨骼点之间的三维位置关系为大拇指指尖骨骼点和食指指尖骨骼点之间的三维欧式距离小于2mm时，在第一时间点上，用户的手势识别结果为大拇指与食指捏合。

步骤S2011，每个时间点上用户的手部姿态数据遍历结束时，当所有时间点，用户的手势识别结果均为大拇指与食指捏合时，判定用户的手势识别结果为大拇指与食指捏合。

<方法实施例2>

图3为根据本公开实施例的一种用于虚拟现实设备的手势控制方法的示意性流程图。

根据图3所示，该手势控制方法包括以下步骤：

步骤S3100，获取用户的手势识别结果，所述手势识别结果是基于前述任意一个手势识别方法得到的。

步骤S3200，根据所述手势识别结果对虚拟现实设备虚拟控件的开启、关闭及参数调整进行手势控制。

具体地，虚拟现实设备的虚拟控件在用户与虚拟场景进行交互时扮演着很重要的角色，比如在一些虚拟内容场景下，通过虚拟控件可以自由调整场景的显示亮度；比如在一些虚拟内容场景下，通过虚拟控件可以自由调整场景中的一些音量；比如还在一些虚拟内容场景下，通过虚拟控件可以自由调整视觉属性等一些功能。

虚拟控件可以是任何合适的形状，包括圆形、椭圆形、圆柱形等，在此不做具体限定。此外，在虚拟现实系统中，虚拟控件可以有任何合适的方向，包括垂直方向、水平方向(即旋转轴向上/向下延伸)或倾斜方向，在此不做具体限定。

在本公开的一个实施例中，虚拟现实设备虚拟控件为虚拟旋转表盘。

具体地，通过对用户进行手势交互时的手指使用习惯进行研究发现大拇指和食指是用户进行交互时用最为习惯和最舒服的两个手指。因此，本实施例中，选用大拇指和食指的自然捏合手势以及大拇指自然闭合，食指自然伸开手势对虚拟旋转表盘进行控制。

本实施例中，虚拟旋转表盘控件的控制主要分为三个过程，第一，通过大拇指和食指的自然捏合手势触发虚拟表盘旋转开始；第二，通过大拇指自然闭合，食指自然伸开手势触控虚拟表盘旋转；第三，通过大拇指和食指的自然捏合手势结束虚拟旋转表盘的控制。每一次对虚拟旋转表盘的控制都是需要以上三个过程事件。

本实施例中，当获取到用户的第一手势识别结果为大拇指和食指捏合时，向虚拟现实系统发出需要控制虚拟旋转表盘的指令，然后虚拟现实系统使其虚拟旋转表盘发出设定的音乐或者声音等声觉变化，或者使其虚拟旋转表盘在颜色，大小等视觉上发生变化，用户通过虚拟现实头戴式一体机的显示屏幕看到虚拟旋转表盘开启成功。

本实施例中，虚拟旋转表盘开启成功后，用户通过大拇指自然闭合，食指自然伸开的手势，在一个比较自然的三维空间中按照一定的方向和运动范围滑动食指，对虚拟旋转表盘的旋转角度进行控制，通过虚拟旋转表盘的旋转角度对其相应的参数进行调整。

具体地，当获取到用户的第二手势识别结果为大拇指自然闭合，食指自然伸开时，通过至少两帧手部骨骼点图像中食指指尖骨骼点的二维坐标，确定至少两帧手部骨骼点图像中食指指尖骨骼点的二维坐标变化量；按照一定的比例关系将手部骨骼点图像中食指指尖骨骼点的二维坐标变化量与虚拟旋转表盘的转动变化量进行对应，从而使食指在三维空间中运动一定的范围，虚拟旋转表盘在虚拟空间中变化一定的量，进而实现对虚拟旋转表盘中参数的调整。

本实施例中，也可以根据其他伸开的手指对虚拟旋转表盘的旋转进行控制，在此不做限定。

本实施例中，当用户通过手势交互控制虚拟旋转表盘旋转到目标值之后，用户通过大拇指和食指捏合的手势结束虚拟旋转表盘的控制。

具体地，当第二手势识别结果为大拇指自然闭合，食指自然张开后，获取到用户的第三手势识别结果为大拇指和食指捏合时，向虚拟现实系统发出需要结束控制虚拟旋转表盘的指令，结束虚拟旋转表盘控制事件。

通过手势控制对虚拟现实设备的虚拟旋转表盘进行控制，使得用户与虚拟现实设备的交互方法更加自然、简单，大大提升了用户使用虚拟现实设备的沉浸体验。

<装置实施例1>

图4为根据本公开实施例的一种用于虚拟现实设备的手势识别装置示意性框图。其中，虚拟现实设备包括双目摄像头。

根据图4所示，该手势识别装置4000包括：

图像采集模块4100，用于获取所述双目摄像头中每一摄像头采集到的用户的手部图像。

手部骨骼点识别模块4200，用于通过预先构建的识别模型识别获取到的所述手部图像中的第一组手部骨骼点，得到在所述手部图像的手部区域上标记出识别到的第一组手部骨骼点的手部骨骼点图像；其中，所述第一组手部骨骼点包括手指关节骨骼点和掌心骨骼点。

手部姿态数据构建模块4300，用于根据得到的所述手部骨骼点图像，获得第二组手部骨骼点中各骨骼点间的二维位置关系及三维位置关系，将所述二维位置关系及三维位置关系作为所述用户的手部姿态数据，其中，所述第一组手部骨骼点包括所述第二组手部骨骼点。

手势识别模块4400，用于根据所述手部姿态数据进行所述用户的手势识别。

<装置实施例2>

图5为根据本公开实施例的一种用于虚拟现实设备的手势控制装置示意性框图。

根据图5所示，该手势控制装置5000包括：

手势识别装置5100，所述手势识别装置为前述的手势识别装置4000；

控制模块5200，用于根据所述手势识别装置提供的手势识别结果对虚拟现实设备虚拟控件的开启、关闭及参数调整进行手势控制。

<设备实施例>

图6为根据本公开实施例的一种虚拟现实设备的示意性框图。

根据图6所示，该虚拟现实设备6000包括存储器6001和处理器6002，该存储器6001用于存储指令，该指令用于控制处理器6002进行操作以执行上述任意一项所述的方法。

除此之外，根据图6所示，该虚拟现实设备6000还包括接口装置6003、输入装置6004、显示装置6005、通信装置6006、扬声器6007、麦克风6008等等。尽管在图6中示出了多个装置，但是，本发明可以仅涉及其中的部分装置，例如，处理器6001、存储器6002、接口装置6003等。

上述通信装置6006例如能够进行有有线或无线通信。

上述接口装置6003例如包括耳机插孔、USB接口等。

上述输入装置6004例如可以包括触摸屏、按键等。

上述显示装置6005例如是液晶显示屏、触摸显示屏等。

该虚拟现实设备可以是虚拟现实头戴一体机，也可以包括虚拟现实头戴机和服务器，其中，虚拟现实头戴机与服务器通过通讯装置通讯，具体地，服务器用于执行前述任意一项所述的方法。

上述各实施例主要重点描述与其他实施例的不同之处，但本领域技术人员应当清楚的是，上述各实施例可以根据需要单独使用或者相互结合使用。

本说明书可以是设备、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本说明书的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本说明书操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本说明书的各个方面。

这里参照根据本说明书实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本说明书的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本说明书的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本说明书的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本说明书的范围由所附权利要求来限定。

Claims

1.一种用于虚拟现实设备的手势识别方法，所述虚拟现实设备包括双目摄像头，其特征在于，所述手势识别方法包括：

根据所述手部姿态数据进行所述用户的手势识别。

2.根据权利要求1所述的方法，其特征在于，所述第二组手部骨骼点包括大拇指指尖骨骼点和食指指尖骨骼点；

3.根据权利要求2所述的方法，其特征在于，所述根据所述手部姿态数据进行所述用户的手势识别，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述双目摄像头中每一摄像头采集到的用户的手部图像，包括：

遍历所述时间点；

5.根据权利要求1所述的方法，其特征在于，所述第一组手部骨骼点包括20个所述手指关节骨骼点和1个所述掌心骨骼点；其中，

6.根据权利要求1所述的方法，其特征在于，所述识别模型包括手检测模型和手骨骼点标记模型，所述手检测模型用于识别所述手部图像中的所述手部区域，所述手骨骼点标记模型用于识别并标记所述手部区域存在的所述第一组手部骨骼点；其中，

构建所述识别模型的步骤包括：

7.一种用于虚拟现实设备的手势控制方法，其特征在于，所述手势控制方法包括：

获取用户的手势识别结果，所述手势识别结果是基于权利要求1-6中任意一个手势识别方法得到的；

8.一种用于虚拟现实设备的手势识别装置，所述虚拟现实设备包括双目摄像头，其特征在于，所述手势识别装置包括：

9.一种用于虚拟现实设备的手势控制装置，其特征在于，包括：

手势识别装置，所述手势识别装置为权利要求8所述的手势识别装置；

10.一种虚拟现实设备，其特征在于，包括处理器和存储器，所述存储器用于存储指令，所述指令用于控制所述处理器执行所述权利要求1-7任一项所述的方法。