CN113536931A

CN113536931A - 一种手部姿态估计方法及装置

Info

Publication number: CN113536931A
Application number: CN202110665272.3A
Authority: CN
Inventors: 郝冬宁
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-10-22

Abstract

本申请涉及增强现实技术领域，提供一种手部姿态估计方法及装置，获取左摄像头采集的第一手部图像、右摄像头采集的第二手部图像，以及惯性传感器采集的AR设备的运动数据；根据第一手部图像、第二手部图像和运动数据，确定AR设备的位姿信息；从第一手部图像和第二手部图像中分别提取的手部关节点的2D坐标，得到第一2D坐标集合和第二2D坐标集合，结合AR设备的位姿信息，估计手部关节点的3D坐标，该方法节省了3D坐标的计算量，降低了对AR设备处理性能依赖，并且提高了3D坐标估计的准确性。

Description

一种手部姿态估计方法及装置

技术领域

本申请涉及增强现实(Augmented Reality，AR)技术领域，尤其涉及一种手部姿态估计方法及装置。

背景技术

随着人工智能技术的发展，增强现实(Augmented Reality，AR)、虚拟现实(Virtual Reality，VR)等技术得到广泛应用，人们可以沉浸在虚拟信息和真实环境相互融合的环境。增强现实等产品(例如AR眼镜)的出现可以给人们提供现实世界无法快速得到的信息，辅助人们提高工作效率，提供了许多有趣的生活体验。

手部关节点姿态估计是人机交互的重要技术，可以摆脱传统的通过鼠标或键盘输入信息的方式。通过准确估计手部关节点的3D空间姿态，从而实现利用简单手势给机器提供指令来快速传递信息，提高人机交互的效率和体验。

目前，手部关节点的3D空间姿态估计方法包括：一是基于单目手部图像，采用深度学习模型直接估计手部关节点的3D坐标信息，但计算复杂，严重依赖AR设备中GPU、APU、NPU、TPU等硬件的处理性能，实时性和准确性差；二是基于单目手部图像，采用深度学习模型先估计手部关节点的2D坐标信息，同时配合深度摄像头采集的手部深度图像，计算出手部关节点的3D坐标信息，但使用深度摄像头不仅增加了AR设备的功耗，缩短了待机时间，还受深度摄像头的视域范围(视场角小于等于55°)限制，交互范围较窄；三是借助第三方设备检测手部3D坐标信息，例如为用户手部戴上特制的手套，影响了用户手部活动的灵活性，降低了用户体验。

发明内容

本申请实施例提供了一种手部姿态估计方法及装置用以降低AR设备估计手部关节点3D坐标的硬件负荷，提高3D坐标估计的准确性。

第一方面，本申请实施例提供一种手部姿态估计方法，应用于AR设备，包括：

获取左摄像头采集的第一手部图像和右摄像头采集的第二手部图像，以及惯性传感器采集的运动数据；

根据所述第一手部图像、所述第二手部图像和所述运动数据，确定所述AR设备的位姿信息；

从所述第一手部图像中提取手部关节点的第一2D坐标集合，以及从所述第二手部图像中提取手部关节点的第二2D坐标集合；

根据所述第一2D坐标集合、所述第二2D坐标集合以及所述AR设备的位姿信息，估计所述手部关节点的3D坐标。

第二方面，本申请实施例一种增强现实AR设备，包括左摄像头、右摄像头、惯性传感器、存储器以及处理器；

所述左摄像头，与所述处理器连接，被配置为采集第一手部图像；

所述右摄像头，与所述处理器连接，被配置为采集第一手部图像；

所述惯性传感器，与所述处理器连接，被配置为采集所述AR设备的运动数据；

所述存储器，与所述处理器连接，被配置为存储计算机程序指令；

所述处理器，配置为根据所述计算机程序指令执行以下操作：

获取所述左摄像头采集的第一手部图像和所述右摄像头采集的第二手部图像，以及所述惯性传感器采集的运动数据；

第三方面，本申请提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行本申请实施例提供的手部姿态估计方法。

本申请的上述实施例中，通过左右摄像头分别采集手部图像，结合惯性传感器采集的运动数据，确定AR设备的位姿信息，基于手部图像中提取的手部关节点的2D坐标和AR设备的位姿信息，估计手部关节点的3D坐标，一方面，在手部关节点2D坐标的基础上结合AR设备的位姿信息估计3D坐标，节省了计算量，减少了硬件的处理负荷，降低了对AR设备处理性能依赖；另一方面，利用惯性传感器采集的运动数据和左右摄像头采集的手部图像来估计手部关节点的3D坐标，相对于利用单目手部图像估计手部关节点的3D坐标，提高了估计的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了本申请的实施例提供AR设备结构图；

图2示例性示出了本申请的实施例提供手部姿态估计方法流程图；

图3示例性示出了本申请实施例提供的手部关节点示意图；

图4示例性示出了本申请实施例提供的左右摄像头采集手部图像中关节点的匹配示意图；

图5示例性示出了本申请实施例提供的确定左右摄像头位姿示意图；

图6示例性示出了本申请实施例提供的手部姿态3D坐标估算原理示意图；

图7示例性示出了本申请实施例提供的完整的手部姿态估计方法流程图；

图8示例性示出了本申请实施例提供的AR设备的功能结构图。

图9示例性示出了本申请实施例提供的AR设备的硬件结构图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请实施例提供一种手部姿态估计方法及装置。所述装置可以是AR、VR等具有交互功能的设备。

以AR眼镜为例，图1示例性示出了本申请实施例提供的AR设备的结构图。如图1所示，AR设备包含左显示镜片101、右显示镜片102，用户佩戴AR眼镜时，人眼可以通过左右显示镜片观看视频图像。其中，左显示镜片101上设置有左摄像头103，右显示镜片102上设置有右摄像头104，左右摄像头可分别才交互过程中的手部图像。

可选的，为提高左右摄像头的视场角区域以提高用户手部的活动范围，左右摄像头为鱼眼镜头。

如图1未示出的，AR设备还包括惯性传感器(Inertial Measurement Unit，IMU)，一般的，一个IMU包含了三个单轴的加速度计和三个单轴的陀螺仪，加速度计用于测量AR设备的加速度，陀螺仪用于测量AR设备的角速度，通过测量AR设备在三维空间中的角速度和加速度，在结合左右摄像头采集的视觉图像可以解算出AR设备的位姿信息。一般而言，IMU要安装在被测物体的重心上，即AR眼镜的重心位置。

需要说明的是，图1中的AR设备中间的摄像头105为普通的RGB摄像头，本申请提供的方案中并未使用，因此不做详细介绍。

基于图1所示的AR设备，本申请实施提供一种手部姿态估计方法。如图2所示，该方法可由具有交互功能的AR设备实现，主要包括以下几步：

S201：获取左摄像头采集的第一手部图像和右摄像头采集的第二手部图像，以及惯性传感器采集的AR设备的运动数据。

该步骤中，AR设备获取左右摄像头同时采集第一手部图像和第二手部图像，并对获取的第一手部图像和第二手部图像进行灰度化处理。并获取IMU采集的AR设备的运动数据，由于IMU是测量物体三轴(X、Y、Z轴)姿态角(角速度)以及加速度的装置，因此，获取的运动数据包括AR设备的加速度和角速度，并结合第一手部图像和第二手部图像，以此解算出AR设备的位姿信息。

S202：根据第一手部图像、第二手部图像和运动数据，确定AR设备的位姿信息。

在S202中，由于IMU测量的AR设备的角速度和加速度存在明显的漂移，对获取的运动数据进行多次积分时，位姿估算的误差较大，而左右摄像头采集的视觉数据不存在漂移，且纹理信息丰富，这样，可通过IMU采集的运动数据和左右摄像头采集的手部图像融合确定AR设备的位姿信息，利用视觉数据优化IMU估算的位姿误差，从而提高估算精度。

具体实施时，从第一手部图像和第二手部图像中提取特征点，将提取的特征点和IMU采集的运动数据(角速度和加速度)输入至卡尔曼滤波器中，从而估算出AR设备的位姿信息。可选的，滤波器包括扩展卡尔曼滤波器(Extended Kalman Filter，EKF)、多状态下的卡尔曼滤波器(Multi-State Constraint Kalman Filter，MSCKF)等。具体估算过程现有技术中的已有介绍，由于此部分不作为本申请的重点，在此不再详细描述。

本申请的实施例中，位姿信息包括位置信息和旋转角度信息，由于IMU一般设置于AR设备的重心，因此，S202中估算的位姿信息为AR设备的整体位姿信息。

假设AR设备的位置信息记为P0(x，y，z)，其中，x、y、z分别表示AR设备在头部坐标系X、Y、Z轴的坐标值，旋转角度信息记为R0，表示AR设备在头部坐标系中的偏转角度。

S203：从第一手部图像中提取手部关节点的第一2D坐标集合，以及从第二手部图像中提取手部关节点的第二2D坐标集合。

该步骤中，将第一手部图像输入至已训练的深度学习模型，得到手部关节点的第一2D坐标集合，将第二手部图像输入至已训练的深度学习模型，得到手部关节点的第二2D坐标集合，其中，第一2D坐标集合和第二2D坐标集合中手部关节点的2D坐标个数相同，手部关节点的个数由选择深度学习模型确定的。例如，当深度学习模型为interHand2.6m模型时，模型会按手部关节点的索引顺序输出21个关节点的2D坐标，如图3所示。

本申请实施例对深度学习模型使用的网络结构不做限制性要求，包括但不限于卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent NeuralNetwork，RNN)。

在一种可选的实施方式中，深度学习模型输出的第一2D坐标集合和第二2D坐标集合中，手部关节点的2D坐标可能存在错误数据，影响3D坐标的估算精度。因此，可将第一2D坐标集合和第二2D坐标集合中相应手部关节点的2D坐标进行特征点匹配，剔除第一2D坐标集合和第二2D坐标集合中不匹配的手部关节点的2D坐标。

本申请的实施例中，手部关节点中的每一个子关节点，在第一2D坐标集合和第二2D坐标集合中都存在相应的2D坐标，为区别描述，将子关节点在第一2D坐标集合中的坐标记为第一2D子坐标，将子关节点在第二2D坐标集合中的坐标记为第二2D子坐标。以第一2D子坐标在第一图像中对应的像素点为第一中心像素点，并选取第一中心像素点相邻位置的N个像素点，以第二2D子坐标在第二图像中对应的像素点为第二中心像素点，并选取第二中心像素点相邻位置的N个像素点，N为大于等于1的整数。可选的，N＝256。

具体实施时，将第一中心像素点，与第一中心像素点相邻的N个像素点的像素值进行比较，生成第一描述子，将第二中心像素点，与第二中心像素点相邻的N个像素点的像素值进行比较，生成第二描述子。

以生成第一描述子为例将第一中心像素点和相邻的256个像素点的像素值进行比较，若第一中心像素点的像素值小于相邻像素点的像素值，则设置为1，否则设置为0，从而得到256比特的0/1序列，该序列作为第一描述子。

生成第一描述子和第二描述子后，确定第一描述子和第二描述子之间的汉明距离，汉明距离越大，匹配程度越低，若汉明距离大于预设距离阈值，表明第一2D子坐标和第二2D子坐标不匹配，则剔除第一描述子对应的第一2D子坐标和第二描述子对应第二子2D坐标。

例如，以索引(标号)为12的子关节点为例，如图4所示，(a)为左摄像头采集的第一手部图像，(b)为右摄像头采集的第二手部图像，计算子关节点12在第一手部图像中生成的第一描述，和子关节点12在第二手部图像中生成的第二描述子的汉明距离，当汉明距离大于预设阈值时，将子关节点12的2D坐标从第一2D坐标集中剔除，将子关节点12的2D坐标从第二2D坐标集合中剔除。

S204：根据第一2D坐标集合、第二2D坐标集合以及AR设备的位姿信息，估计手部关节点的3D坐标。

该步骤中，S202中确定的是AR设备的位姿信息，而第一2D在坐标集合是从左摄像头采集的第一手部图像中提取的手部关节点的2D坐标，第二2D坐标集合是从右摄像头采集的第二手部图像中提取的手部关节点的2D坐标，为估计手部关节点的3D坐标，需根据AR设备的位姿信息，确定左、右摄像头的位姿信息。

本申请的实施例中，左右摄像头的位姿信息相对于AR设备的位姿信息的偏差是可测量的，结合确定的AR设备的位姿信息，可分别确定左、右摄像头的位姿信息。

具体实施时，AR设备的位姿信息包含AR设备的位置信息P0和旋转角度信息R0。如图5所示，根据AR设备的位置信息P0以及左摄像头相对于AR设备的位置偏差L1，确定左摄像头的位置信息P1(P1＝P0-L1)，并根据AR设备的旋转角度信息R0以及左摄像头相对于AR设备的角度偏差R01，确定左摄像头的旋转角度信息R1(R1＝R0*R01)，得到左摄像头的位姿信息(P1，R1)；根据AR设备的位置信息P0以及右摄像头相对于AR设备的位置偏差L2，确定右摄像头的位置信息P2(P2＝P0+L2)，并根据AR设备的旋转角度信息R0以及右摄像头相对于AR设备的角度偏差R02，确定右摄像头的旋转角度信息R2(R2＝R0*R02)，得到右摄像头的位姿信息(P2，R2)。

在S204中，得到左、右摄像头的位姿信息后，根据第一2D坐标集合、第二2D坐标集合以及左摄像头的位姿信息、右摄像头的位姿信息，估计手部关节点的3D坐标。

估计手部关节点的3D坐标时，可采用三角形测量法。如图6所示，O1为左摄像头的光心，O2为右摄像头的光心，I1为第一手部图像，I2为第二手部图像，p1为第一手部图像上的关节点，p2为第二手部图像中的关节点，t为第二手部图像相对于第一手部图像的变换矩阵(或者第一手部图像相对于第二手部图像的变换矩阵)。理论上，O1p1和O2p2会相交与一点P，P点为关节点在三维空间中的位置，但是由于噪声的影响，O1p1和O2p2往往无法相交，可通过最小二乘法来求解出与P点距离最近的点P’，从而得到关节点的3D坐标。

具体计算过程已封装在OpenCV函数中，可通过函数调用直接获得关节点的3D坐标，具体函数如下：

cv：：triangulatePoints(PoseL，PoseR，Point2DL，Point2DR，Point3D)

其中，PoseL表示左摄像头的位姿信息，PoseR表示右摄像头的位姿信息，Point2DL表示关节点在第一手部图像中的2D坐标，Point2DR表示关节点在第二手部图像中的2D坐标，Point3D为求解后的3D坐标。

本申请的上述实施例中，通过AR设备的左摄像头采集第一手部图像，右摄像头采集第二手部图像，结合IMU采集的角速度和加速度，采用卡尔曼滤波算法估计AR设备的位姿信息，充分利用了摄像头和IMU的优势，提高了AR设备位姿估算的精度；并且通过AR设备的位姿信息，分别确定左、右摄像头的位姿信息，进一步地，根据左、右摄像头的位姿信息，以及从第一手部图像中提取的手部关节点的2D坐标和从第二手部图像中提取的手部关节点的2D坐标，直接调用triangulatePoints函数，从而得到手部关节点的3D坐标。一方面，相对于基于深度学习模型直接根据手部图像估算手部关节点的3D坐标，降低了计算复杂度，节省了计算量，从而减少了AR设备内硬件的处理负荷，降低了对AR设备处理性能依赖；另一方面，相对于2D坐标结合深度摄像头估算关节点的3D坐标，克服了交互范围的局限性，降低了设备功耗；再一方面，无需借助第三方设备，提升了用户体验。此外，通过剔除不匹配的2D坐标，提高了3D坐标估算的准确性。

需要说明的是，图2仅以AR设备为例，对于其他具有交互功能的设备(比如VR设备)同样适用。

图7示例性示出了本申请实施例提供的完整的手部姿态估计方法流程图，如图7所示，该流程主要包括以下几步：

S701：获取左摄像头采集的第一手部图像、右摄像头采集的第二手部图像，以及IMU采集的AR设备的运动数据。

该步骤的详细描述参见S201，在此不再重复。

S702：从第一手部图像和第二手部图像中提取特征点，结合运动数据，采用卡尔曼滤波算法融合计算AR设备的位姿信息。

该步骤中，根据AR设备的处理性能，可采用松耦合或紧耦合融合计算AR设备的位姿信息。具体过程参见S202，在此不再重复。

S703：根据AR设备的位姿信息，分别确定左摄像头的位姿信息以及右摄像头的位姿信息。

该步骤中，位姿信息包含位置信息以及旋转角度信息。根据AR设备的位姿信息以及左、右摄像头分别相对于AR设备的位姿信息的偏差，确定左、右摄像头的位姿信息。具体过程参见S204，在此不再重复。

S704：从第一手部图像中提取手部关节点的第一2D坐标集合，以及从第二手部图像中提取手部关节点的第二2D坐标集合。

该步骤中，采用深度学习模型分别提取第一手部图像中关节点的2D坐标和第二手部图像中关节点的2D坐标。深度学习模型的描述参见S203，在此不再重复。

S705：针对手部关节点中的每一个子关节点，根据第一手部图像生成第一描述子，根据第二手部图像生成第二描述子。

该步骤中，利用子关节点在第一手部图像中对应的像素点与该像素点相邻的N个像素点的像素值进行比较，若子关节点对应的像素点的像素值小于相邻像素点的像素值，则设置为1，否则设置为0，从而得到N比特的0/1序列，该序列作为第一描述子。同理，生成第二描述子。具体过程参见S203，在此不再重复。

S706：确定第一描述子和第二描述子之间的汉明距离是否大于预设阈值，若是，执行S707，否则执行S708。

该步骤中，第一描述子和第二描述子之间的汉明距离越大，表明第一描述子和第二描述子对应的关节点的2D坐标的匹配程度越低，为不影响后续3D坐标估算的准确性，需要将相应的2D坐标从第一2D坐标集合和第二2D坐标集合中剔除。具体过程参见S203，在此不再重复。

S707：从第一2D坐标集合中剔除第一描述子对应的子关节点的2D坐标，从第二2D坐标集合中剔除第二描述子对应的子关节点的2D坐标。

该步骤的详细描述参见S203，在此不再重复。

S708：根据第一2D坐标集合、第二2D坐标集合以及左摄像头的位姿信息、右摄像头的位姿信息，估计手部关节点的3D坐标。

该步骤中，可采用三角测量法估算手部关节点的3D坐标，由于计算过程已封装在OpenCV中的triangulatePoints函数中，因此，可通过函数调用直接估算手部关节点的3D坐标。具体过程参见S204，在此不再重复。

基于相同的技术构思，本申请实施例提供一种AR设备，可执本申请实施例AR设备执行的手部姿态估计方法流程，并能达到同样的技术效果，在此不再重复。

参见图8，该AR设备包括获取模块801、确定模块802、提取模型803、估算模块804：

获取模块801，用于获取左摄像头采集的第一手部图像和右摄像头采集的第二手部图像，以及惯性传感器采集的AR设备的运动数据；

确定模块802，用于根据第一手部图像、第二手部图像和运动数据，确定AR设备的位姿信息；

提取模块803，用于从第一手部图像中提取手部关节点的第一2D坐标集合，以及从第二手部图像中提取手部关节点的第二2D坐标集合；

估算模块804，用于根据第一2D坐标集合、第二2D坐标集合以及AR设备的位姿信息，估计手部关节点的3D坐标。

可选的，估算模块804具体用于：

根据AR设备的位姿信息，分别确定左摄像头的位姿信息和右摄像头的位姿信息；

根据第一2D坐标集合、第二2D坐标集合以及左摄像头的位姿信息、右摄像头的位姿信息，估计手部关节点的3D坐标。

可选的，估算模块804具体用于：

根据AR设备的位置信息以及左摄像头相对于AR设备的位置偏差，确定左摄像头的位置信息，并根据AR设备的旋转角度信息以及左摄像头相对于AR设备的角度偏差，确定左摄像头的旋转角度信息，得到左摄像头的位姿信息；

根据AR设备的位置信息以及右摄像头相对于AR设备的位置偏差，确定右摄像头的位置信息，并根据AR设备的旋转角度信息以及右摄像头相对于AR设备的角度偏差，确定右摄像头的旋转角度信息，得到右摄像头的位姿信息。

可选的，该装置还包括剔除模块805，用于将第一2D坐标集合和第二2D坐标集合中相应手部关节点的2D坐标进行特征点匹配，剔除第一2D坐标集合和第二2D坐标集合中不匹配的手部关节点的2D坐标。

可选的，剔除模块805具体用于：

针对手部关节点中的每一个子关节点的第一2D子坐标和第二2D子坐标，执行以下操作：

将第一2D子坐标在第一图像中对应的像素点，与相邻的N个像素点的像素值进行比较，生成第一描述子，N为大于等于1的整数；

将第二2D子坐标在第二图像中对应的像素点与相邻的N个像素点的像素值进行比较，生成第二描述子；

确定第一描述子和第二描述子之间的汉明距离，若汉明距离大于预设距离阈值，则剔除第一描述子对应的第一2D子坐标和第二描述子对应第二子2D坐标；

其中，第一2D子坐标为子关节点在第一2D坐标集合中的2D坐标，第二2D子坐标是子关节点在第二2D坐标集合中的2D坐标。

参见图9，该AR包括左摄像头901、右摄像头902、IMU903、存储器904、处理器905，其中，左摄像头901、右摄像头902、IMU903、存储器904与处理器903通过总线(在图9中用粗实线表示)连接。左摄像头901被配置为采集第一手部图像，右摄像头902被配置为采集第二手部图像，IMU903被配置为采集AR设备的运动数据，存储器904被配置为存储计算机程序指令，处理器905被配置为根据计算机程序指令执行本申请实施例图2所示的方法流程。

本申请实施例还提供一种计算机可读存储介质，用于存储一些指令，这些指令被执行时，可以完成前述实施例的方法。

本申请实施例还提供一种计算机程序产品，用于存储计算机程序，该计算机程序用于执行前述实施例的方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种手部姿态估计方法，其特征在于，应用于增强现实AR设备，包括：

获取左摄像头采集的第一手部图像和右摄像头采集的第二手部图像，以及惯性传感器采集的所述AR设备的运动数据；

2.如权利要求1所述的方法，其特征在于，所述根据所述第一2D坐标集合、所述第二2D坐标集合以及所述AR设备的位姿信息，估计所述手部关节点的3D坐标，包括：

根据所述AR设备的位姿信息，分别确定所述左摄像头的位姿信息和所述右摄像头的位姿信息；

根据所述第一2D坐标集合、所述第二2D坐标集合以及所述左摄像头的位姿信息、所述右摄像头的位姿信息，估计所述手部关节点的3D坐标。

3.如权利要求2所述的方法，其特征在于，所述位姿信息包括位置信息和旋转角度信息；

所述根据所述AR设备的位姿信息，分别确定所述左摄像头的位姿信息和所述右摄像头的位姿信息，包括：

根据所述AR设备的位置信息以及所述左摄像头相对于所述AR设备的位置偏差，确定所述左摄像头的位置信息，并根据所述AR设备的旋转角度信息以及所述左摄像头相对于所述AR设备的角度偏差，确定所述左摄像头的旋转角度信息，得到所述左摄像头的位姿信息；

根据所述AR设备的位置信息以及所述右摄像头相对于所述AR设备的位置偏差，确定所述右摄像头的位置信息，并根据所述AR设备的旋转角度信息以及所述右摄像头相对于所述AR设备的角度偏差，确定所述右摄像头的旋转角度信息得到所述右摄像头的位姿信息。

4.如权利要求1所述的方法，其特征在于，从所述第一手部图像中提取手部关节点的第一2D坐标集合，以及从所述第二手部图像中提取手部关节点的第二2D坐标集合后，估计所述手部关节点的3D坐标前，还包括：

将所述第一2D坐标集合和所述第二2D坐标集合中相应手部关节点的2D坐标进行特征点匹配剔除所述第一2D坐标集合和所述第二2D坐标集合中不匹配的手部关节点的2D坐标。

5.如权利要求4所述的方法，其特征在于，将所述第一2D坐标和所述第二2D坐标进行特征点匹配，剔除不匹配的第一2D坐标和第二2D坐标，包括：

针对所述手部关节点中的每一个子关节点的第一2D子坐标和第二2D子坐标，执行以下操作：

将所述第一2D子坐标在所述第一图像中对应的像素点，与相邻的N个像素点的像素值进行比较，生成第一描述子，N为大于等于1的整数；

将所述第二2D子坐标在所述第二图像中对应的像素点与相邻的N个像素点的像素值进行比较，生成第二描述子；

确定所述第一描述子和所述第二描述子之间的汉明距离，若所述汉明距离大于预设距离阈值，则剔除所述第一描述子对应的第一2D子坐标和所述第二描述子对应第二子2D坐标；

其中，所述第一2D子坐标为所述子关节点在所述第一2D坐标集合中的2D坐标，所述第二2D子坐标是所述子关节点在所述第二2D坐标集合中的2D坐标。

6.一种增强现实AR设备，其特征在于，包括左摄像头、右摄像头、惯性传感器、存储器以及处理器；

获取所述左摄像头采集的第一手部图像和所述右摄像头采集的第二手部图像，以及所述惯性传感器采集的所述AR设备的运动数据；

7.如权利要求6所述的AR设备，其特征在于，所述处理器根据所述第一2D坐标集合、所述第二2D坐标集合以及所述AR设备的位姿信息，估计所述手部关节点的3D坐标，具体被配置为：

8.如权利要求7所述的AR设备，其特征在于，所述位姿信息包括位置信息和旋转角度信息；

所述处理器根据所述AR设备的位姿信息，分别确定所述左摄像头的位姿信息和所述右摄像头的位姿信息，具体被配置为：

根据所述AR设备的位置信息以及所述左摄像头相对于所述AR设备的位置偏差，确定所述左摄像头的位置信息，并根据所述AR设备的旋转角度信息以及所述左摄像头相对于所述AR设备的角度偏差，确定所述左摄像头的旋转角度信息得到所述左摄像头的位姿信息；

根据所述AR设备的位置信息以及所述右摄像头相对于所述AR设备的位置偏差，确定所述右摄像头的位置信息，并根据所述AR设备的旋转角度信息以及所述右摄像头相对于所述AR设备的角度偏差，确定所述右摄像头的旋转角度信息，得到所述右摄像头的位姿信息。

9.如权利要求6所述的AR设备，其特征在于，所述处理器从所述第一手部图像中提取手部关节点的第一2D坐标集合，以及从所述第二手部图像中提取手部关节点的第二2D坐标集合后，估计所述手部关节点的3D坐标前，还被配置为：

10.如权利要求9所述的AR设备，其特征在于，所述处理器将所述第一2D坐标和所述第二2D坐标进行特征点匹配，剔除不匹配的第一2D坐标和第二2D坐标，具体被配置为：

将所述第二2D子坐标在所述第二图像中对应的像素点，与相邻的N个像素点的像素值进行比较，生成第二描述子；