CN117809380A

CN117809380A - 手势追踪方法、装置、设备、可读存储介质及程序产品

Info

Publication number: CN117809380A
Application number: CN202410224082.1A
Authority: CN
Inventors: 葛振华; 李立俊
Original assignee: Universal Gravitation Ningbo Electronic Technology Co ltd
Current assignee: Universal Gravitation Ningbo Electronic Technology Co ltd
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-04-02
Anticipated expiration: 2044-02-29
Also published as: CN117809380B

Abstract

本申请提供一种手势追踪方法、装置、设备、可读存储介质及程序产品，该方法包括：采集当前用户对应的当前帧手部图片；查找是否存储有当前所述用户对应的手骨骼信息；若查找到存储有当前所述用户对应的手骨骼信息，则根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿。本申请的方法，能够解决现有技术导致有较大的计算资源的浪费的问题。

Description

手势追踪方法、装置、设备、可读存储介质及程序产品

技术领域

本申请涉及虚拟现实领域，尤其涉及一种手势追踪方法、装置、设备、可读存储介质及程序产品。

背景技术

虚拟现实是多种技术的综合，包括实时三维计算机图形技术，广角（宽视野）立体显示技术，对观察者头、眼和手的跟踪技术，以及触觉/力觉反馈、立体声、网络传输、语音输入输出技术等。

以手的跟踪技术为例，目前手的尺寸估计的执行会在手出现在多目图像中的时候启动，在手势追踪启动时会实时的计算手的尺寸，进而导致有较大的计算资源的浪费。

发明内容

本申请提供一种手势追踪方法、装置、设备、可读存储介质及程序产品，用以解决现有技术导致有较大的计算资源的浪费的问题。

第一方面，本申请实施例提供一种手势追踪方法，所述方法包括：

采集当前用户对应的当前帧手部图片；

查找是否存储有当前所述用户对应的手骨骼信息；

若查找到存储有当前所述用户对应的手骨骼信息，则根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿。

在一种可能的设计中，所述查找是否存储有当前所述用户对应的手骨骼信息，包括：

确定当前所述用户的ID；

根据当前所述用户的ID，从存储单元中查找是否存在与当前所述用户的ID匹配的手骨骼信息；

其中，所述存储单元配置在所述头戴设备或所述电子设备中，或者，所述存储单元与所述头戴设备或所述电子设备通信连接，支持所述头戴设备或所述电子设备访问。

在一种可能的设计中，所述确定当前所述用户的ID，包括：

通过虹膜识别或人脸识别，确定当前所述用户的ID。

在一种可能的设计中，所述确定当前所述用户的ID，包括：

针对所述当前帧手部图片，若在当前时刻之前的预设时间段内，采集的历史帧图片中均检测到当前所述用户的手部，则读取历史帧图片对应的用户的ID，将历史帧图片对应的用户的ID作为当前所述用户的ID；或者，

针对所述当前帧手部图片，若当前的时刻未达到下一次执行身份识别操作的时刻，则读取上一次执行ID识别操作对应的用户的ID，将上一次执行身份识别操作对应的用户的ID作为当前所述用户的ID。

在一种可能的设计中，所述方法还包括：

若确定未存储有当前所述用户对应的手骨骼信息，则提示当前所述用户将手部放置在多目相机视野共视区域内或深度相机的视场角内；

若检测到手部在所述多目相机视野共视区域内或所述深度相机的视场角内，则通过所述多目相机或所述深度相机对当前所述用户的手部进行识别，得到手骨骼信息；所述手骨骼信息包括手的尺寸；

将当前所述用户的手骨骼信息与识别到的当前所述用户的ID进行绑定，并存储。

在一种可能的设计中，所述根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿，包括：

根据当前帧手部图片，通过目标检测模型，得到手部区域的检测框；

根据所述手部区域的检测框，通过关键点检测模型，得到手部的关键点信息；

根据所述手部的关键点信息和对应的所述手骨骼信息，确定手位姿。

在一种可能的设计中，在所述根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿之前，所述方法还包括：

检测当前所述用户的ID是否更改；

若确定ID已更改，则根据更改后的ID，查找是否存储有所述更改后的ID对应的手骨骼信息；

若确定ID未更改，则执行确定手位姿的操作。

在一种可能的设计中，所述方法还包括：

根据相机的投影矩阵和手部的关键点信息，确定重投影误差函数，所述手部的关键点信息包括3D点的位置、模型推理得到的各相机下的2D点的第一位置、由3D点投影得到的2D点的第二位置；

根据所述3D点的位置、查表得到的手骨骼信息、模型推理得到的任意骨骼点到手腕点的第一相对距离、通过3D点计算得到的任意骨骼点到手腕点的第二相对距离，确定相对距离误差函数；

根据上一时刻的手位姿与当前时刻的手位姿，确定手指运动平滑误差函数；

根据重投影误差函数、相对距离误差函数以及手指运动平滑误差，通过预设的权重，确定手位姿模型的目标函数；

根据所述第一位置、所述手骨骼信息、所述第一相对距离、所述上一时刻的手位姿，通过最小化所述第一位置和所述第二位置之间的距离、最小化所述第一相对距离和所述第二相对距离之间的差值、最小化所述上一时刻的手位姿与当前时刻的手位姿之间的差值，用以求解所述目标函数的最小值，确定手位姿；其中，所述手骨骼信息是基于与用户的ID的映射关系，通过查表得到的。

第二方面，本申请实施例提供一种手势追踪装置，应用于头戴设备或电子设备，所述头戴设备或电子设备用于支持对新的用户对应的手骨骼信息进行存储；所述装置包括：

采集模块，用于采集当前用户对应的当前帧手部图片；

查找模块，用于查找是否存储有当前所述用户对应的手骨骼信息；

手位姿确定模块，用于在查找到存储有当前所述用户对应的手骨骼信息时，根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿。

第三方面，本申请实施例提供一种头戴设备，所述头戴设备包括相机、存储单元、处理单元；

其中，所述相机用于采集用户对应的图片；

所述存储单元，用于存储用户ID、用户的手部骨骼信息以及用户ID和相应用户的手部骨骼信息的映射关系；

所述处理单元，用于执行第一方面任一项所述的方法。

第四方面，本申请实施例提供一种电子设备，包括：处理器和存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如第一方面任一项所述的方法。

第五方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面任一项所述的方法。

本实施例提供的手势追踪方法、装置、设备、可读存储介质及程序产品，首先采集当前用户对应的当前帧手部图片；然后查找是否存储有当前所述用户对应的手骨骼信息；若查找到存储有当前所述用户对应的手骨骼信息，则根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿。因此，本申请基于采集的每一帧图片，针对每一个用户只需要对手骨骼信息识别一次即可，执行后续手势追踪流程进行手势估计，可以不用再次对手骨骼信息进行识别与校准，从而节省计算量，提升了算法的效率；同时，由于提前拥有了手骨骼信息，不强制手一定要出现在双目视野overlap区域做手部估计，可长时间运行单目手势跟踪，进而使得算法使能范围变大，提升用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的手势追踪方法的场景示意图；

图2为本申请实施例提供的手势追踪方法的流程示意图；

图3为本申请另一实施例提供的手势追踪方法的流程示意图；

图4为本申请又一实施例提供的手势追踪方法的流程示意图；

图5为本申请再一实施例提供的手势追踪方法的流程示意图；

图6为本申请实施例提供的手势追踪装置的结构示意图；

图7为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

目前，以手的跟踪技术为例，申请人发现，在单目图像中，用户手的大小与其与相机的距离之间存在固有的歧义性（ambiguity）（比如，手距离相机很远，则拍摄的图片中手的尺寸就会很小；反之，手距离相机很近，则拍摄的图片中手的尺寸就会很大），所以目前手的尺寸估计的执行会在手出现在多目图像中的时候启动。然而，现有方法在手势追踪启动时会实时的计算手的尺寸，进而导致有较大的计算资源的浪费。

因此，针对上述问题，本申请的技术构思是将识别出的新用户的手骨骼信息进行存储，在用户下次使用头戴设备，对其进行识别时，可以直接从存储中获取相应的手骨骼信息，无需再次识别，结合采集的每一帧图片，进行手部估计，进而实现手势追踪，这样节省了算力资源，进而提高手势识别效率。

在实际应用中，该手势追踪方法可以应用于虚拟现实（Virtual Reality，VR）等领域，在此不做具体限定。示例性的，参见图1所示，图1为本申请实施例提供的手势追踪方法的场景示意图，该场景中包括手势追踪设备，该手势追踪设备可以为头戴设备，包括相机（比如，单目相机、多目相机等，下述以单目相机101为例，不再赘述）、存储单元102、处理单元103。其中，单目相机101用于采集用户对应的图片；存储单元102用于存储用户ID、用户的手部骨骼信息以及用户ID和相应用户的手部骨骼信息的映射关系；处理单元103，用于基于单目相机采集的图片和存储单元中存储的用户相关信息，执行手势追踪的操作。即：可以根据单目相机采集的图片，通过从存储单元中查找是否存储有当前所述用户对应的手骨骼信息，若查找到存储有当前所述用户对应的手骨骼信息，则根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿。其中，单目相机采集的图片也可以存储到存储单元中，用于后续的处理，比如：对追踪效果的检验或检测等，在此对后续处理的应用场景不做具体限定。

结合图2所示，图2为本申请实施例提供的手势追踪方法的流程示意图。用户开启头戴设备或开启手势追踪功能（这里指手势追踪算法开始执行，即hand tracking开始），开始执行手势追踪操作：

step1：算法开始后，对每一帧图片，首先读取用户ID；

step2：然后根据该ID判断设备存储（这里指存储单元102）中是否已经存在该用户对应的手骨骼信息，如果有，执行step4；否则执行step3；

step3：如果没有该用户的手骨骼信息，则需要对用户的手骨骼初始化识别，得到手骨骼信息，该手骨骼信息可以包括手的尺寸以及骨骼尺寸。然后将手骨骼信息与用户的ID（或用户ID）（比如，虹膜ID）进行绑定，然后执行step4；

step4：查看用户ID是否更改，如果更改，执行step5；如果没有更改，执行step6；

step5：根据用户ID更换手骨骼信息，执行step6；

step6：进行手检测，关键点检测和手姿态估计。

上述步骤，可以将识别出的新用户的手骨骼信息进行存储，在用户下次使用头戴设备，对其进行识别时，可以直接从存储中获取相应的手骨骼信息，无需再次识别。能够解决在手势追踪启动时去实时的计算手的尺寸会有较大的计算资源的浪费问题的同时，可以处理手一直不出现在双目视野overlap区域的情况，如果手不出现在overlap区域，则无法解算手的尺寸的问题。

因此，本申请中，基于采集的每一帧图片，针对每一个用户只需要对手骨骼信息识别一次即可，执行后续手势追踪流程进行手势估计，可以不用再次对手骨骼信息进行识别与校准，从而节省计算量，提升了算法的效率；同时，由于提前拥有了手骨骼信息，不强制手一定要出现在双目视野overlap区域做手部估计，可长时间运行单目手势跟踪，进而使得算法使能范围变大，提升用户体验。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本申请另一实施例提供的手势追踪方法的流程示意图，该手势追踪方法，可以包括：

S301、采集当前用户对应的当前帧手部图片。

本实施例中，执行主体可以是手势追踪装置，该手势追踪装置安装在手势追踪设备中，该手势追踪设备可以是电子设备或头戴设备，该头戴设备或电子设备用于支持对新的用户对应的手骨骼信息进行存储。可选地，该手势追踪装置还可以配置在服务器中，该服务器可以分别与数据采集装置和存储单元通信连接，其中，数据采集装置可以包括单目相机或多目相机。

示例性地，以头戴设备为例，该头戴设备可以预先识别新的用户对应的手骨骼信息，并存储该用户的ID、用户对应的手骨骼信息以及用户的ID与对应的手骨骼信息的映射关系等。以头戴设备中的单目相机为例，当用户的手部放置在单目相机的视野范围内，通过单目相机可以采集当前用户对应的当前帧手部图片，这里的当前帧手部图片为当前用户的手部（可以是完整的手部，也可以是部分手部，在此不做具体限定）的图片。

在一种可能的设计中，所述方法还包括：

本实施例中，如果是用户首次使用，可以通过触发手骨骼初始化流程，识别该用户的手骨骼信息，结合图4所示，图4示出了新用户的手骨骼信息注册流程。该注册流程的应用场景包括相机、计算单元、存储空间（这里可以指存储单元）；其中，相机采集用户的手部图像（这里指照片，即image），并将采集的照片发送至计算单元，该计算单元识别该用户的手骨骼信息（即hand skeleton或Hand skeleton），并将该用户的ID（这里指虹膜ID，即lrisID）和对应的手骨骼信息进行绑定，存储至存储单元。后续用户在ID（比如，虹膜ID、face ID（即面部ID或人脸ID）等）识别后，可以快速检索得到该用户的手骨骼信息。

具体地，在手骨骼初始化流程中，需要用户将手（这里指手部）放在指定位置（双目视野的overlap处或者深度相机的fov内），然后通过双目相机或者深度相机对用户的手进行建模，得到用户的手骨骼信息，其中包含手的尺寸，手骨骼的尺寸等。然后通过虹膜识别方式等生成或确定该用户的ID，并将该用户的ID和对应的手骨骼信息进行绑定，并将用户的ID与该用户的手骨骼信息以及两者绑定后的结果存储至存储单元。为后续手势追踪时，如果用户的手骨骼信息已经存储，则可以直接通过该用户的ID获取该用户的手骨骼信息，用以进行手部估计。无需重新识别计算该用户的手骨骼信息，节约了算力资源和时间，进而提高了设备的响应速度。

其中，将当前用户的手骨骼信息与识别到的当前用户的ID进行绑定（结合图4示出的注册流程），可以形成用户的ID与该用户的手骨骼信息的映射关系，比如，根据用户的ID和对应的手骨骼信息生成映射表，可以通过存储单元中的映射表（参见表1所示，使用Key表示用户的ID（这里用户的ID 可以指用户的虹膜ID，如表1中的lris_ID_1、lris_ID_2、…）和Value表示用户的手骨骼信息（或手骨骼信息的标识，可以通过手骨骼信息的标识，从存储中获取相应的手骨骼信息）（如表1中的Hand_skeleton_1、Hand_skeleton_2、…）），查找是否存在某一用户的手骨骼信息。在此不对两者的绑定方式和绑定结果进行具体限定。

表1

S302、查找是否存储有当前所述用户对应的手骨骼信息。

S303、若查找到存储有当前所述用户对应的手骨骼信息，则根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿。

本实施例中，通过查询存储单元，确定存储单元中是否存储有与当前用户匹配的手骨骼信息。比如，通过查找表1，确定表1中是否存在与当前用户对应的手骨骼信息。如果查找到当前用户对应的手骨骼信息，可以结合当前帧手部图片以及手骨骼信息，确定当前用户的手位姿，进而基于每一帧确定的手位姿实现手势追踪。

具体地，结合图5所示，图5示出了追踪流程。首先，相机1采集当前用户的手部图像（这里包括当前用户对应的当前帧手部图片，该当前帧手部图片中包含完整手部或部分手部），相机将采集的图片发送至计算单元，相机2拍摄当前用户眼部的虹膜图像，并将该虹膜图像发送至计算单元，该计算单元基于当前用户的ID（比如，lris ID），从存储空间中查找是否存在与当前用户的ID对应的手骨骼信息（即hand skeleton），如果查找到与该lris ID对应的hand skeleton，可以通过识别当前帧手部图片，进行手检测，基于检测到的手部区域的检测框（比如，矩形框），执行关键点检测操作，得到手部的关键点信息。根据该手部的关键点信息以及相应的手骨骼信息，确定手位姿，进而实现手势追踪。

本申请实施例提供的手势追踪方法，首先采集当前用户对应的当前帧手部图片；然后查找是否存储有当前所述用户对应的手骨骼信息；若查找到存储有当前所述用户对应的手骨骼信息，则根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿。因此，本申请基于采集的每一帧图片，针对每一个用户只需要对手骨骼信息识别一次即可，执行后续手势追踪流程进行手势估计，可以不用再次对手骨骼信息进行识别与校准，从而节省计算量，提升了算法的效率；同时，由于提前拥有了手骨骼信息，不强制手一定要出现在双目视野overlap区域做手部估计，可长时间运行单目手势跟踪，进而使得算法使能范围变大，提升用户体验。

确定当前所述用户的ID；

本实施例中，以头戴设备为例，查找是否存储有当前用户的手骨骼信息的过程：首先确定待追踪手势的用户（这里指当前用户，佩戴该头戴设备的用户）的ID，然后从存储单元中查找是否存在与该ID对应的手骨骼信息，如果存在，则获取与该ID绑定的手骨骼信息。由于一个人的手的尺寸成年后不会有较大的变化，因此，如果存储有用户的手骨骼信息，直接使用手骨骼信息即可，解决了现有技术手势追踪启动时去实时的计算手的尺寸会有较大的计算资源的浪费的问题。同时，由于提前拥有了手骨骼信息，不强制手一定要出现在双目视野overlap区域做手部估计，可长时间运行单目手势跟踪，可以使得算法（这里指手势追踪的算法或方法）使能范围变大，提升用户体验。

在一种可能的设计中，在查找手骨骼信息之前，需要确定当前用户的ID，其中，确定当前用户的ID可以采用至少两种方式实现：

方式1：通过虹膜识别或人脸识别，确定当前所述用户的ID。

本实施例中，对采集的每一帧图片，首先均要读取用户的ID，保证获取到的相应的手骨骼信息都是准确的，进而提高手势追踪的准确度。其中，识别或读取用户的ID可以采用虹膜识别技术或人脸识别技术，识别用户的虹膜ID或面部ID。

以虹膜识别为例，该用户ID可以通过虹膜识别获得：虹膜识别技术是基于眼睛中的虹膜纹理信息对进行人身份识别的一种技术，属于人工智能中的生物识别技术。通常步骤包含眼睛检测、虹膜检测、归一化、虹膜特征提取与编码等步骤。

需要说明的是，本实施例中所用的虹膜ID仅是ID认证的其中一种方法，也可以换成face ID等，在此对识别或确定用户的ID的方式以及ID的具体形式不做具体限定。

方式2：针对所述当前帧手部图片，若在当前时刻之前的预设时间段内，采集的历史帧图片中均检测到当前所述用户的手部，则读取历史帧图片对应的用户的ID，将历史帧图片对应的用户的ID作为当前所述用户的ID；或者，

本实施例中，为了节约资源，考虑到用户在使用过程中在一定时间上，不会频繁的切换用户，可以基于某些条件进行判断是否需要实时识别ID，比如，如果这个用户的手在预设时间段内一直出现在视野内，说明没有切换用户，只需要沿用之前图片对应的用户的ID即可。或者，没有达到识别的时间间隔，则直接使用上一次识别的ID即可。

本实施例中，通过目标检测模型+关键点检测模型，结合非线性优化的方式，实现手势的估计：将单目/双目camera得到图片输入目标检测模型，得到手部区域的boundingbox（这里指检测框，比如：矩形框）；其中，该camera不限于使用RGB camera还是monochromcamera或者是深度相机。将手部区域的图像送入关键点检测网络（这里指关键点检测模型），得到手的关键点信息。这里的手的关键点信息至少包括手部关键点（比如，21个joints），和相邻两个关键点之间的连接线等，并利用非线性优化的方法，恢复出手的21个joints在世界坐标系下的3d位姿。

检测当前所述用户的ID是否更改；

若确定ID未更改，则执行确定手位姿的操作。

本实施例中，结合图2所示，为了进一步地确保使用的手骨骼信息是准确地，可以在根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿之前，再一次通过实时识别用户的ID，与确定的用户的ID进行比对，查看是否更改。以虹膜识别为例，如果通过虹膜进行ID识别会在后台低频运行，那么如果发现用户ID发生了变化，则相应的需要切换hand skeleton信息即切换成当前识别出的用户的ID对应的手骨骼信息。

在一种可能的设计中，所述方法还包括：

根据所述3D点的位置、查表得到的手骨骼信息、模型推理得到的任意骨骼点到手腕点的第一相对距离、通过3D点换算得到的任意骨骼点到手腕点的第二相对距离，确定相对距离误差函数；

其中，所述第一位置、所述手骨骼信息、所述第一相对距离、所述上一时刻的手位姿为已知量，3D点的位置、第二位置、第二相对距离、当前时刻的手位姿均为待求解量。

本实施例中，通过非线性优化方法，求解3D手模的参数（包括手部的3D点的位置），进一步确定手的位姿。该非线性优化方法的目标函数包含重投影误差、相对距离误差和运动平滑误差。这里的相机可以是单目相机、多目相机或深度相机，在此不做具体限定。

其中，重投影误差是3D手模投影得到的2D关键点（这里指由3D点投影得到的2D点）与深度学习模型得到的2D关键点（这里指模型推理得到的各相机下的2D点）之间的距离。如果存在多目相机，则会将3D手模分别投影至多目，得到多目的2D关键点。

其中，相对距离误差是通过3D手模计算得到的相对距离（通过3D点计算得到的任意骨骼点到手腕点的第二相对距离）与深度学习模型得到的相对距离（这里指模型推理得到的任意骨骼点到手腕点的第一相对距离）之间的误差。其中所需的手尺寸信息（这里指手骨骼信息）是基于与用户的ID的映射关系，通过查表得到的。如果存在多目相机，则会计算多目下的相对距离误差函数。

其中，运动平滑误差是根据上一时刻的手位姿与当前时刻的手位姿计算得到。具体地，利用非线性优化方法解算：手模型可以用θ表示（即hand pose），其包含26个自由度。我们通过优化的方法求解该问题，目标函数（这里指θ）由三部分组成，分别是重投影误差，相对距离误差/>，和手指运动平滑误差/>。其中，θ的公式如下：

其中，和/>为权重。

的公式如下：

其中，是第j个相机的投影矩阵，/>是第i个3d joint（这里指3D点的位置），它是关于θ的函数。是第j个相机下的第i个2d joint（这里指2D点的位置）。

的公式如下：

其中，是关于/>的函数，是/>到j相机的距离；id是用户的身份ID号（这里的身份ID是指虹膜ID或face ID等）， />是手的scale（即手的尺寸）关于id的函数，可通过查找表（即look up table）实现，无需使用原方法中通过非线性优化求解得到。节约了一定的算力资源，并且能够快速得到用户的手骨骼信息，进而提高了手势追踪的效率。/>是第j个相机下，第i个2d joint的距离值，由深度学习模型推理获得（这里指由模型推理得到的任意骨骼点到手腕点的第一相对距离）。

的公式如下：

其中，是t-1时刻的hand pose。

本申请中，用户在首次佩戴完头显设备（这里指头戴设备）后，可以获得手骨骼信息，在后续使用hand tracking（这里指手追踪或手势追踪）功能时，如果用户不发生变化，就可以不用再实时计算校准手的尺寸、手骨骼尺寸等信息，从而节省计算量，提升了算法的效率。同时，由于事先已经拥有用户的手骨骼与尺寸信息，因此可以不强制需求手一定要出现在双目视野overlap区域，解决了现有技术方案无法处理手一直不出现在双目视野overlap区域的情况。此外，由于已知手的尺寸，本申请提供的手势追踪方法可以在长时间运行单目 hand tracking，可以使得算法使能范围变大，提升用户体验。

为了实现所述手势追踪方法，本实施例提供了一种手势追踪装置，参见图6，图6为本申请实施例提供的手势追踪装置的结构示意图；所述手势追踪装置，包括：采集模块601、查找模块602和手位姿确定模块603。

其中，采集模块601，用于采集当前用户对应的当前帧手部图片；

查找模块602，用于查找是否存储有当前所述用户对应的手骨骼信息；

手位姿确定模块603，用于在查找到存储有当前所述用户对应的手骨骼信息时，根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿。

本实施例中，通过采集模块601、查找模块602和手位姿确定模块603，用于采集当前用户对应的当前帧手部图片；然后查找是否存储有当前所述用户对应的手骨骼信息；若查找到存储有当前所述用户对应的手骨骼信息，则根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿。因此，本申请基于采集的每一帧图片，针对每一个用户只需要对手骨骼信息识别一次即可，执行后续手势追踪流程进行手势估计，可以不用再次对手骨骼信息进行识别与校准，从而节省计算量，提升了算法的效率；同时，由于提前拥有了手骨骼信息，不强制手一定要出现在双目视野overlap区域做手部估计，可长时间运行单目手势跟踪，进而使得算法使能范围变大，提升用户体验。

本实施例提供的手势追踪装置，可用于执行上述手势追踪方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

在一种可能的设计中，所述查找模块，包括：ID确定单元和查找单元；

ID确定单元，用于确定当前所述用户的ID；

查找单元，用于根据当前所述用户的ID，从存储单元中查找是否存在与当前所述用户的ID匹配的手骨骼信息；

在一种可能的设计中，所述ID确定单元，具体用于：

通过虹膜识别或人脸识别，确定当前所述用户的ID。

在一种可能的设计中，所述ID确定单元，具体用于：

在一种可能的设计中，所述装置还包括：处理模块；处理模块，用于：

在一种可能的设计中，所述手位姿确定模块，具体用于：

在一种可能的设计中，所述处理模块，还用于：

在所述根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿之前，检测当前所述用户的ID是否更改；

在确定ID已更改时，则根据更改后的ID，查找是否存储有所述更改后的ID对应的手骨骼信息；

在确定ID未更改时，执行确定手位姿的操作。

在一种可能的设计中，所述手位姿确定模块，还用于：

根据所述第一位置、所述手骨骼信息、所述第一相对距离、所述上一时刻的手位姿，通过最小化所述第一位置和所述第二位置之间的距离、最小化所述第一相对距离和所述第二相对距离之间的差值、最小化所述上一时刻的手位姿与当前时刻的手位姿之间的差值，用以求解所述目标函数的最小值，确定手位姿；其中，所述手骨骼信息是基于与用户的ID的映射关系，通过查表得到的。为了实现上述手势追踪方法，本实施例提供了一种头戴设备，结合图1所示，所述头戴设备包括相机（比如，单目相机101或多目相机）、存储单元102、处理单元103；

其中，所述相机用于采集用户对应的图片；

所述处理单元，用于执行第一方面任一项所述的方法。

本实施例提供的头戴设备，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

为了实现上述实施例的方法，本实施例提供了一种电子设备。图7为本申请实施例提供的电子设备的结构示意图。如图7所示，本实施例的电子设备包括：处理器701以及存储器702；其中，存储器702，用于存储计算机执行指令；处理器701，用于执行存储器存储的计算机执行指令，以实现上述实施例中所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上的方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（英文：processor）执行本申请各个实施例方法的部分步骤。应理解，上述处理器可以是中央处理单元（英文：CentralProcessing Unit，简称：CPU），还可以是其他通用处理器、数字信号处理器（英文：DigitalSignal Processor，简称：DSP）、专用集成电路（英文：Application Specific IntegratedCircuit，简称：ASIC）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponent，PCI）总线或扩展工业标准体系结构（Extended Industry StandardArchitecture，EISA）总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种手势追踪方法，其特征在于，应用于头戴设备或电子设备，所述头戴设备或电子设备用于支持对新的用户对应的手骨骼信息进行存储；所述方法包括：

采集当前用户对应的当前帧手部图片；

查找是否存储有当前所述用户对应的手骨骼信息；

2.根据权利要求1所述的方法，其特征在于，所述查找是否存储有当前所述用户对应的手骨骼信息，包括：

确定当前所述用户的ID；

3.根据权利要求2所述的方法，其特征在于，所述确定当前所述用户的ID，包括：

通过虹膜识别或人脸识别，确定当前所述用户的ID。

4.根据权利要求2所述的方法，其特征在于，所述确定当前所述用户的ID，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿，包括：

7.根据权利要求1-4任一项所述的方法，其特征在于，在所述根据所述当前帧手部图片和对应的所述手骨骼信息，确定手位姿之前，所述方法还包括：

检测当前所述用户的ID是否更改；

若确定ID未更改，则执行确定手位姿的操作。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种手势追踪装置，其特征在于，应用于头戴设备或电子设备，所述头戴设备或电子设备用于支持对新的用户对应的手骨骼信息进行存储；所述装置包括：

采集模块，用于采集当前用户对应的当前帧手部图片；

10.一种头戴设备，其特征在于，所述头戴设备包括相机、存储单元、处理单元；

其中，所述相机用于采集用户对应的图片；

所述处理单元，用于执行权利要求1至8任一项所述的方法。

11.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至8任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。