CN111492367B

CN111492367B - 用于生成手的三维姿势的方法和装置

Info

Publication number: CN111492367B
Application number: CN201880033400.9A
Authority: CN
Inventors: 奥努尔·居莱尔于兹
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-12-13
Filing date: 2018-10-15
Publication date: 2024-03-05
Anticipated expiration: 2038-10-15
Also published as: WO2019118058A1; US20230108253A1; US20190180473A1; CN118071923A; CN111492367A; EP3724810A1; US11544871B2; KR20200011425A; KR102329781B1

Abstract

处理器在由相机[215]捕获的二维图像[100]中识别手上的关键点[115、120、125、130]。使用关键点的位置以访问查找表(LUT)[230]来确定手的三维姿势，该查找表[230]将手的潜在姿势表示为关键点的位置的函数。在一些实施例中，关键点包括手指和拇指的尖端的位置、连接手指和拇指的指骨的关节、表示手指和拇指与手掌的附着点的指节以及指示手与前臂的附着点的腕部位置。LUT的一些实施例表示在对应的手指姿势平面[405]中的手指和拇指的2D坐标。

Description

用于生成手的三维姿势的方法和装置

背景技术

人体部分，尤其是人的手，在三维(3D)空间中的位置是许多应用的有用驱动。虚拟现实(VR)、增强现实(AR)或混合现实(MR)应用使用用户的手的表示来促进与虚拟对象的交互、从虚拟存储器中选择项目、将对象放置在用户的虚拟手中、通过在一只手上绘制菜单并用另一只手选择菜单的元素来提供用户界面等等。手势互动为与诸如Google Home或Nest的自动化家庭助理的互动添加了额外的方式。安全或监视系统使用人的手或其他身体部分的3D表示来检测和发信号通知异常情况。通常，人手或其他身体部分的位置的3D表示提供了交互或检测的其他方式，该方式代替或补充了诸如语音通信、触摸屏、键盘和计算机鼠标等的现有方式。但是，计算机系统并不总是实现3D成像设备。例如，诸如智能电话、平板计算机和头戴式设备(HMD)之类的设备通常实现诸如二维(2D)相机之类的轻型成像设备。

附图说明

通过参考附图，可以更好地理解本公开，并且使得其许多特征和优点对于本领域技术人员而言显而易见。在不同附图中使用相同的附图标记表示相似或相同的项目。

图1是根据一些实施例的手的二维(2D)图像。

图2是根据一些实施例的被配置为获取手的2D图像并基于2D图像生成手的3D姿势的处理系统的框图。

图3图示了根据一些实施例的表示手的骨架模型的一部分的手掌三角形和拇指三角形。

图4图示了根据一些实施例的在对应的手指姿势平面中的手指姿势。

图5图示了根据一些实施例的在手指姿势平面中的手指的骨架模型。

图6是根据一些实施例的查找表(LUT)的表示，该查找表用于基于手指的尖端和手掌指关节的相对位置在手指姿势平面中查找手指的2D坐标。

图7图示了根据一些实施例的具有由图6所示的圆圈表示的指尖和手掌指关节的相对位置的手指的2D坐标。

图8是根据一些实施例的配置LUT的方法的流程图，该LUT将手指的尖端和手掌指关节的相对位置映射到手指的2D坐标。

图9是根据一些实施例的抬起来自手的2D图像的手的3D姿势的方法的流程图。

图10是根据一些实施例的对从手的2D图像列出的3D关键点进行迭代去去噪的图示。

图11是根据一些实施例的对从手的2D图像提取的关键点进行去噪的方法的流程图。

具体实施方式

通过在2D图像中识别手上的关键点，并使用关键点的位置访问查找表来确定3D姿势和手的位置，该查找表将手的潜在3D姿势表示为关键点位置的函数，来从手的2D图像实时生成手的3D表示(在此称为骨架模型)。在一些实施例中，关键点包括：手指和拇指的尖端的位置、连接手指和拇指的指骨的关节、表示每个手指和拇指与手掌的附着点的手掌指关节以及指示手与用户前臂的附着点的腕部位置。查找表包括手指姿势查找表，该手指姿势查找表表示对应的手指姿势平面中每个手指(或拇指)的2D坐标，该二维坐标是手指(或拇指)的尖端相对于手指或拇指的对应手掌指关节的位置的函数。手指和拇指的指骨长度是从手的训练图像的集合中确定的。手指姿势查找表是基于连接指骨的关节的长度和对其运动范围的解剖学约束而生成的。手掌表示为手掌三角形和拇指三角形，它们由对应的顶点集合定义。手掌三角形在腕部位置具有顶点，该顶点与包括手指的手掌指关节的三角形侧面相对。拇指三角形在腕部位置具有顶点，在拇指的手掌指关节处具有顶点，在食指的手掌指关节处具有顶点。定义手掌三角形和拇指三角形的参数也从训练图像的集合中确定。

在操作中，使用从手指姿势查找表以及手掌三角形和拇指三角形的方向确定的2D坐标，从手的2D图像确定手的骨架模型。手指和拇指在解剖上受到约束以在对应的姿势平面内移动，该姿势平面分别相对于手掌三角形和拇指三角形具有固定的方向。例如，将2D图像中的食指约束为位于将食指的手掌指关节与食指的指尖连接的手指姿势平面中。通过使用指尖和手掌指关节的相对位置访问对应的手指姿势查找表，确定手指在其手指姿势平面中的2D坐标。然后，通过基于手掌三角形的方向旋转2D坐标来确定手指的3D姿势。通过根据拇指三角形的方向旋转拇指的2D姿势(由手指姿势查找表确定)来确定拇指的3D姿势。在一些实施例中，如上所述，通过基于关键点的初始估计从2D图像确定手的3D骨架模型，使用2D图像中的关键点的噪声值来确定手的3D姿势。基于关键点的3D位置沿着将原始2D关键点连接到与2D图像相关联的消失点的线向图像平面中的投影来修改由骨架模型指示的关键点的3D位置。如上所述，然后使用关键点的修改后的3D位置以修改骨架模型。该过程反复进行以达到收敛。

本文公开的技术的一些实施例已经在不同的数据集合上得到了验证，并当结果在进行比较之前未与基础真实数据(ground truth data)对齐时，实现了大于80％的正确识别的关键点(在某些情况下高达98％)。在比较之前将结果与基础真实数据对齐提高正确关键点的百分比。

图1是根据一些实施例的手105的二维(2D)图像100。手105由骨架模型110表示，该骨架模型110将手105的手指、拇指和手掌建模为互连的关键点的集合。在所示的实施例中，关键点包括手指和拇指的尖端115(为了清楚仅由一个参考数字表示)、连接手指和拇指的指骨125(为了清楚起见仅由参考数字表示的一个)的关节120(为了清楚仅由一个参考数字表示)、表示每个手指和拇指与手掌的附着点的手掌指关节130(为了清楚起见仅由参考数字表示的一个)以及指示手与用户前臂的附着点的腕部位置135。

图2是根据一些实施例的被配置为获取手205的2D图像并基于该2D图像生成手的3D姿势的处理系统200的框图。从2D图像生成手205的3D姿势被称为从2D图像“抬起”手205的3D姿势。在所示的实施例中，手205的3D姿势由诸如图1所示的骨架模型110之类的骨架模型210表示。为了清楚起见，以下讨论使用手205作为身体部分的示例。但是，本文讨论的技术的一些实施例同样适用于从对应的2D图像抬起其他身体部分的3D姿势。例如，处理系统200能够从对应身体部分的2D图像中抬起脚、臂、腿、头、其他身体部分或其组合的3D姿势。

处理系统200包括诸如相机215之类的图像获取设备。用于实现相机215的图像获取设备的示例包括：诸如在移动电话或平板计算机中实现以执行虚拟现实或增强现实应用的相机之类的红绿蓝(RGB)相机；使用一个或多个深度传感器进行深度估计的RGB相机；诸如使用立体声鱼眼相机提供6度自由度的多合一虚拟现实设备的灰度相机(；以及，诸如夜间成像仪或深度传感器上的成像仪的红外相机；等等。在一些实施例中，相机215是以小形状因子实现并且消耗少量的电力的轻巧的RGB相机。因此，轻巧的RGB相机对在增强现实眼镜中的实现有用。相机215的一些实施例被实现为捕获图像序列以表示在场景内的运动的摄像机。

相机215获取手205的2D图像，并将表示该2D图像的信息存储在存储器220中。处理器225能够从存储器220访问表示2D图像的信息，并执行包括学习、抬起和去噪2D图像的操作。学习阶段包括使用手205的训练图像来生成一个或多个查找表(LUT)230。例如，从手205的训练图像的集合来确定手指和拇指的指骨的长度。LUT 230基于连接指骨的关节的长度和对运动范围的解剖学约束而生成，然后将其存储在存储器220中。还从训练图像的集合中确定诸如定义手掌三角形和拇指三角形的顶点之类的参数，并将其存储在存储器220中。

在抬起阶段，处理器225通过识别2D图像中的手205上的关键点来从手的2D图像实时地生成骨架模型210。处理器使用关键点的位置来确定手205的3D姿势和位置，以从LUT230访问手指和拇指的2D坐标，这些LUT将每个手指和拇指的2D坐标存储为指尖和手掌关节的相对位置的函数。处理器225通过基于手掌三角形的方向旋转2D坐标来确定手指的3D姿势。处理器225基于拇指三角形的方向旋转拇指的2D姿势(由手指姿势查找表确定)来确定拇指的3D姿势。

处理器225的一些实施例被配置为执行对从手205的2D图像提取的关键点的噪声值的进行去噪。去噪阶段是迭代过程。最初，处理器225通过基于噪声关键点的初始估计从2D图像确定手的3D骨架模型来从2D图像确定手的3D姿势。然后，处理器225基于关键点的3D位置沿着将原始噪声关键点连接到与2D图像相关联的消失点的线向图像平面中的投影来修改由骨架模型指示的关键点的3D位置。消失点是基于表征相机215的参数确定的。处理器225基于由骨架模型指示的关键点的修改的3D位置来更新噪声关键点的值，然后迭代该过程，直到噪声关键点满足对应的收敛标准为止。

图3图示了根据一些实施例的表示手的骨架模型的一部分的手掌三角形300和拇指三角形305。手掌三角形300和拇指三角形305表示在图1中所示的骨架模型110和图2中所示的骨架模型210的部分。

手掌三角形300由腕部位置310处的顶点和手的手掌指关节311、312、313、314(在本文中统称为“手掌指关节311-314”)定义。包括手掌三角形300的平面由单位向量315、316定义，单位向量315、316分别由参数u_I、u_L表示。从腕部位置310到食指的手掌指关节311的距离320由参数I表示，从腕部位置310到小指的手掌指关节314的距离325由参数L表示。因此，通过具有方向u_I和大小I的向量来给出手掌指关节311相对于腕部位置310的位置。通过具有方向u_L和大小L的向量来给出手掌指关节314相对于腕部位置310的位置。中指的手掌指关节312的位置被定义为：

λ_mIu_I+(1-λ_m)Lu_L

其中，λ_m是与中指相关的参数。无名指的手掌指关节313的位置被定义为：

(1-λ_r)Iu_I+λ_rLu_L

其中，λ_r是与无名指关联的参数。当将手保持在训练姿势的集合中时，使用手的2D图像来学习定义手掌三角形300的参数的值。

拇指三角形305由腕部位置310处的顶点、食指的手掌指关节311和拇指的手掌指关节330来定义。包括拇指三角形305的平面由单位向量315、335定义，单位向量315、335分别由参数u_I、u_T表示。如本文所讨论的，从腕部位置310到食指的手掌指关节311的距离320由参数I表示。从腕部位置310到拇指的手掌指关节330的距离340由参数T表示。因此，手掌指关节330相对于腕部位置310的位置由具有方向u_T和大小为T的向量给出。拇指三角形305与手掌三角形300的不同之处在于拇指三角形305是可压缩的，并且可以具有零面积。当手保持在训练姿势的集合中时，使用手的2D图像来学习定义拇指三角形305的参数的值。

图4图示了根据一些实施例的在对应的手指姿势平面405中的手指姿势400。手指姿势平面405在解剖学上被约束为相对于平面410保持大致固定的方向。因此，手指的运动被约束为大致位于对应的手指姿势平面405内。图4中所示的手指姿势平面405表示食指、中指、无名指、小指或拇指的运动平面的一些实施例。如果手指姿势平面405表示食指、中指、无名指或小指的运动平面，则平面410是包括诸如在图3中所示的手掌三角形300的手的手掌三角形的平面。如果手指姿势平面405表示拇指的运动平面，则平面410是包括诸如图3所示的拇指三角形305的手的拇指三角形的平面。

手的手指由手指的骨架模型415表示。骨架模型415的特征在于指尖420相对于手指的手掌指关节425的位置。如下所讨论的，指尖420相对于手掌指关节425的相对位置确定了定义手指的骨架模型415在手指姿势平面405中的位置的2D坐标。

平面410的方向由向量430确定，向量430被定义为垂直于平面410的向量。通过比较手的2D图像中的手掌三角形(或拇指三角形)的尺寸与诸如上面参考图3讨论的尺寸的手掌三角形(或拇指三角形)的训练表示的尺寸来确定向量430定义的方向。手指姿势平面405的方向由向量435确定，向量435被定义为垂直于向量430并且在手指姿势平面405中的向量。通过基于由向量430、435所确定的方向来旋转手指的骨架模型415生成在2D图像中的手指的3D姿势。

图5图示了根据一些实施例的在手指姿势平面中的手指的骨架模型500。骨架模型500表示图4所示的骨架模型415的一些实施例。骨架模型500还表示图1所示的骨架模型110和图2所示的骨架面向210的一些实施例的部分。骨架模型500包括手掌指关节501、第一关节指关节502、第二关节指关节503、和指尖504。骨架模型500的特征在于在手掌指关节501和第一关节指关节之间的指骨510的长度、在第一关节指关节502和第二关节指关节503之间的指骨515的长度以及第二关节指关节503和指尖504之间的指骨520的链接。

从保持在训练姿势的集合中的手的训练图像的集合中学习指骨510、515、520的长度的值。在一些实施例中，通过从训练图像的集合中提取与手掌指关节、关节指关节和指尖相对应的关键点来学习指骨510、515、520的长度的值。使用诸如中位数或中位数绝对偏差之类的技术为异常过滤关键点，以找到并拒绝这些异常关键点。然后使用包括二次编程的技术来将长度的值拟合到训练图像的集合中的关键点的位移。

指尖504相对于手掌指关节501的位置由在手掌指关节501、第一关节指关节502和第二关节指关节503处的角度的集合来确定。第一角度525表示指骨510和掌状三角形(或拇指三角形)的平面之间的角度，如虚线530所指示的。第二角度535表示指骨510和指骨515之间的角度。第三角度540表示指骨515和指骨515之间的角度。角度520、525、535、540的范围在解剖学上被约束为有限的值的集合，该值的集合在不同手的微小变化下基本相同。例如，角度525、535、540的范围被约束在0°至90°之间。

图6是根据一些实施例的LUT 600的表示，该LUT 600用于基于手掌指关节和手指的尖端的相对位置在手指姿势平面中查找手指的2D坐标。LUT 600的垂直轴表示在垂直方向上手指的尖端相对于掌指的位移。LUT的水平轴表示在水平方向上手指的尖端相对于手掌指关节的位移。闭合曲线605表示手指的尖端相对于手掌指关节的可能位置的外边界。因此，基于手指的指骨的长度和由于对应关节的运动范围的限制而对指骨之间的相对角度的解剖学约束来确定闭合曲线605。闭合曲线605内的位置表示手指的尖端和手掌指关节的可能的相对位置。

使用预定姿势的集合中的手的训练图像的集合来确定用于特定手的LUT 600。为了解决不同手中指骨的不同长度，该训练图像的集合被定义为包括靠近由闭合曲线605定义的边界的位置。闭合曲线605内的大部分位置唯一地确定手指的2D坐标。然而，闭合曲线605内的一些实施例包括退化情况的小集合，其将闭合曲线605内的单个点映射到手指的2D坐标的多于一个集合。可以使用诸如手指的先前位置、深度信息以及阴影或照明信息等的其他信息来打破不同2D坐标集合之间的退化。

在一些实施例中，LUT 600中的信息用于确定两个或更多个不相似姿势何时导致相同或相似的手指的投影的2D坐标集合，例如，从用于一个3D姿势的LUT 600导出的一个或多个关键点与从用于另一个3D姿势的LUT 600导出的一个或多个关键点相同或类似。然后可以生成信号以识别具有相同或相似的投影的2D坐标的相异姿势。LUT 600还可以用于将2D标签转换为例如手的3D姿势，而无需收集新数据。在一些实施例中，针对可以由相同或相似的投影的2D坐标集合生成的相异姿势导出置信度分数。例如，从当前姿势到具有相同或相似2D坐标的最远姿势的距离用于生成置信度分数，诸如，如果该距离为零(或小于阈值距离)，则为高置信度分数，并且如果该距离大于阈值距离，则为低置信度分数。在一些实施例中，基于生成相异姿势的关键点或2D坐标的置信度分数来消除相异姿势的歧义。例如，在某些情况下，使用人类的图像来检查或确认从2D标签对3D姿势的3D抬起是正确的。通过在不同的可能的解决方案中进行挑选，该图像还可用于生成更准确的数据。

图7图示了根据一些实施例的具有由图6中的圆圈1、2、3、4和5表示的指尖和手掌指关节的相对位置的手指的2D坐标。如骨架模型705中所示，圆圈1指示手指的尖端与对应于伸出的手指的手掌关节之间的相对位置。如骨架模型710中所示，圆圈2指示在尖端和与相对于手指的第二关节弯曲90°的手指的尖端对应的手掌关节之间的相对位置。如骨架模型715中所示，圆圈3指示尖端与对应于连接手掌指关节和第一关节的在水平方向上延伸的指骨下面弯曲的尖端的手掌指关节之间的相对位置。如骨架模型中720所示，圆圈4指示尖端和对应于连接手掌指关节和第一关节的在垂直延伸的指骨附近卷曲的尖端的手掌指关节之间的相对位置。如骨架模型725中所示，圆圈5指示尖端和对应于垂直向下延伸的手指的手掌指关节之间的相对位置。

图8是根据一些实施例的配置LUT的方法800的流程图，该LUT将手指的尖端和手掌指关节的相对位置映射到手指的2D坐标。方法800用于训练图2所示的LUT 230和图6中所示的LUT 600的一些实施例。因此，由图2所示的处理器225的一些实施例执行方法800。

在框805处，捕获位于姿势的训练集合中的手的2D图像。例如，可以由图2所示的相机215捕获2D图像。将2D图像存储在诸如图2所示的存储器220之类的存储器中。

在框810处，处理器识别手的2D图像中的关键点。如本文所讨论的，关键点包括手指和拇指的尖端的位置、连接手指和拇指的指骨的关节、表示每个手指和拇指与手掌的附着点的手掌指关节以及指示手与用户前臂的附着点的腕部位置。用于识别2D图像中的关键点的技术在本领域中是已知的，并且出于清楚的目的在此不进一步讨论。

在框815处，处理器例如使用本文所讨论的二次编程，基于关键点来确定手的手指和拇指中的指骨的长度。

在框820处，处理器基于指骨的长度和对于指尖和手掌指关节的相对位置的其他解剖学约束来配置LUT。处理器将LUT存储在诸如图2所示的存储器220之类的存储器中。

图9是根据一些实施例的从手的2D图像抬起手的3D姿势的方法900的流程图。在图2所示的处理系统200的一些实施例中实现方法900。在所示的实施例中，例如根据图8所示的方法800的一些实施例，已经为手生成了将手指和拇指的尖端的相对位置映射到对应的手掌指关节的LUT。因此，还已经确定了表示手的骨架模型的其他参数，诸如指骨的长度、为手定义手掌三角形的参数以及为手定义拇指三角形的参数。

在框905处，处理器识别手的2D图像中的关键点。然后，处理器基于关键点来估计手在3D空间中的转化。处理器的一些实施例通过将定义手的骨架模型的参数与2D图像中对应参数的相对值进行比较来估计转化。例如，处理器可以将骨架模型中的手指和拇指的指骨的长度与2D图像中的对应指骨的长度进行比较，以说明手的透视投影和反投影2D图像。

在框915处，处理器学习手掌三角形和拇指三角形的方向。处理器的一些实施例通过将定义手掌和拇指三角形的参数与2D图像的部分进行比较来学习手掌三角形和拇指三角形的方向。手掌三角形和拇指三角形的方向由对应的向量表征，该对应的向量被定义为位于垂直于手掌三角形和拇指三角形的平面的方向上。

在框920处，处理器学习手指和拇指的手指姿势平面的方向。手指姿势平面的方向由对应的向量表征，该对应的向量垂直于定义对应的手掌三角形或拇指三角形的向量并且位于对应的手指姿势平面中。

在框925处，处理器基于LUT以及手指的尖端和对应的手掌指关节的相对位置来确定手指和拇指的2D手指坐标。

在框930处，处理器生成表示手的3D姿势的3D骨架模型。为了生成3D骨架模型，处理器分别基于手掌三角形和拇指三角形的方向旋转手指和拇指的2D坐标。通过组合手掌三角形、手掌三角形的方向、拇指三角形、拇指三角形的方向以及手指和拇指的旋转的2D手指坐标来确定3D骨架模型。

图10是根据一些实施例的对从手的2D图像列出的3D关键点进行迭代去去噪的图示1000。在图2中示出的处理系统200的一些实施例中实现了图示1000中描绘的迭代过程。图示1000示出了诸如图2所示的相机215之类的相机的图像平面1005。由相机捕获的图像被投影到图像平面1005上。相机的特性还确定消失点1010，该消失点是在其处3D空间中的平行线的2D投影会收敛的图像平面1005上的抽象点。

最初，从2D图像中提取关键点1015。在所示的实施例中，2D图像是噪声图像，并且关键点1015的初始估计不一定在手的图像中的正确位置。基于噪声关键点1015以及从2D图像提取的其他潜在噪声关键点(图10中未示出)，从2D图像抬起手的3D骨架模型。例如，根据图8中所示的方法800和图9中所示的方法900的一些实施例，抬起手的3D骨架模型。手的3D骨架模型用于确定对应于手中与关键点1015相同的位置的3D关键点1020。

3D关键点1020，其在此称为符合骨架的关键点，不一定与初始关键点1015的透视投影一致，因为符合骨架的关键点1020不一定位于初始关键点1015与消失点1010之间的线1025上。因此，通过将符合骨架的关键点1020投影到线1025上，可以确定修改的3D关键点1030。然后，通过将初始关键点1015的值设置为等于在此称为相机兼容的关键点的修改的3D关键点1030来更新初始关键点1015的值，来迭代该过程。迭代该过程，直到满足关键点(以及2D图像中任何其他噪声关键点)的收敛标准为止。

图11是根据一些实施例的对从手的2D图像提取的关键点进行去噪的方法1100的流程图。在图2中所示的处理系统200的一些实施例中执行方法1100。

在框1105处，处理器基于从2D图像提取的噪声关键点来生成手的3D骨架模型。在一些实施例中，根据图8所示的方法800和图9中所示的方法900的实施例生成3D骨架模型。

在框1110处，处理器识别与手的3D骨架模型符合的3D关键点的第一集合。例如，3D关键点的第一集合表示与手指和拇指的尖端、手指和拇指的关节、手指和拇指的手掌指关节以及手的3D骨架模型定义的腕部位置相对应的关键点。在一些实施例中，3D关键点的第一集合包括图10中所示的符合骨架的关键点1020。

在框1115处，处理器基于第一3D关键点和与图像相关联的消失点来识别第二3D关键点。如本文中所讨论的，消失点是基于获取2D图像的相机的特性来确定的。在一些实施例中，3D关键点的第二集合包括图10中所示的相机符合关键点1030。

在框1120处，处理器基于3D关键点的第二集合来修改从2D图像提取的噪声关键点。例如，噪声关键点的值被更新为等于3D关键点的第二集合中的对应值。

在决策框1125处，处理器例如基于用于噪声关键点的收敛标准来确定噪声关键点的值已经收敛。如果否，则方法1100进行到框1105，并且基于噪声关键点的修改值来生成更新的3D骨架模型。如果处理器确定值已经收敛，则该方法进行到终止框1130并结束。

在一些实施例中，由执行软件的处理系统的一个或多个处理器来实现上述技术的某些方面。该软件包括在非暂时性计算机可读存储介质上存储或否则有形地体现的一个或多个可执行指令的集合。该软件可以包括指令和某些数据，这些指令和某些数据在由一个或多个处理器执行时操纵一个或多个处理器以执行上述技术的一个或多个方面。非易失性计算机可读存储介质可以包括例如磁盘或光盘存储设备、诸如闪存的固态存储设备、高速缓存、随机存取存储器(RAM)或其他一个或多个非易失性存储设备等等。存储在非暂时性计算机可读存储介质上的可执行指令可以使用源代码、汇编语言代码、目标代码或由一个或多个处理器解释或否则可执行的其他指令格式。

计算机可读存储介质可以包括在使用期间由计算机系统可访问以向计算机系统提供指令和/或数据的任何存储介质或存储介质的组合。这样的存储介质可以包括但不限于光学介质(例如，光盘(CD)、数字通用光盘(DVD)、蓝光光盘)、磁介质(例如，软盘、磁带或磁硬盘驱动器)、易失性存储器(例如，随机存取存储器(RAM)或高速缓存)、非易失性存储器(例如，只读存储器(ROM)或闪存)或基于微机电系统(MEMS)的存储介质。计算机可读存储介质可以嵌入在计算系统(例如，系统RAM或ROM)中，固定地附接到计算系统(例如，磁硬盘驱动器)，可移除地附接到计算系统(例如，光盘或基于通用串行总线(USB)的闪存)，或经由有线或无线网络(例如，网络可访问存储(NAS))耦合到计算机系统。

注意，并非在一般描述中上述的所有活动或元素都是必需的，特定活动或设备的一部分可能不是必需的，并且除了描述的那些之外，可以执行一个或多个其他活动或包括元素。更进一步，列出活动的顺序不一定是执行活动的顺序。而且，已经参考特定实施例描述了概念。然而，本领域的普通技术人员将理解，在不脱离如所附权利要求书中阐述的本公开的范围的情况下可以进行各种修改和改变。因此，应被在说明性的而不是限制性的意义上看待说明书和附图，并且所有这样的修改旨在被包括在本公开的范围内。

上面已经关于特定实施例描述了益处、其他优点和对于问题的解决方案。但是，益处、其他优点和对于问题的解决方案以及可能导致任何益处、其他优点和使解决方案出现或变得更加明显的任何特征都不应解释为任何或全部权利要求的关键、必需或必要特征。此外，上面公开的特定实施例仅是说明性的，因为可以以对于受益于本文的教导的本领域技术人员显而易见的不同但等效的方式来修改和实践所公开的主题。除了在所附的权利要求书中描述的以外，没有意图限于本文所示的构造或设计的细节。因此，显而易见的是，以上公开的特定实施例可以被改变或修改，并且所有这样的变化都被认为在所公开的主题的范围内。因此，本文所寻求的保护如以下权利要求书所述。

Claims

1.一种用于生成手的三维姿势的方法，包括：

在处理器处，在由相机捕获的二维2D图像中识别手上的关键点；

在所述处理器处，使用所述关键点的位置以访问多个查找表LUT来确定所述手的三维3D姿势，所述多个LUT将所述手的潜在3D姿势表示为所述关键点的所述位置的函数，其中，每个LUT是使用姿势集合中的所述手的训练图像的集合来确定的，其中，所述手的手掌被表示为由相应的顶点集合定义的手掌三角形和拇指三角形，其中：

所述拇指三角形在腕部位置、所述手的拇指的手掌指关节和所述手的食指的手掌指关节处具有顶点；和

所述手掌三角形在所述腕部位置处具有顶点，其中，所述顶点与包括所述手的除去拇指之外的手指的手掌指关节的所述手掌三角形的一侧相对。

2.根据权利要求1所述的方法，其中，所述关键点包括所述手的手指和所述拇指的尖端的位置、连接所述手指和所述拇指的指骨的关节、表示所述手指和所述拇指与所述手的手掌的附着点的手掌指关节、和指示所述手与前臂的附着点的所述腕部位置。

3.根据权利要求2所述的方法，其中，所述LUT包括手指姿势LUT，所述手指姿势LUT将在对应的手指姿势平面中的所述手指和所述拇指的2D坐标表示为相对于所述手指或拇指的对应手掌指关节的所述手指或拇指的所述尖端的所述位置的函数。

4.根据权利要求3所述的方法，还包括：

基于在多个3D训练姿势中的所述手的训练图像的所述集合来生成所述手指姿势LUT。

5.根据权利要求4所述的方法，其中，生成所述手指姿势LUT包括从所述训练图像的集合中确定所述手指和所述拇指的所述指骨的长度。

6.根据权利要求5所述的方法，其中，生成所述手指姿势LUT包括基于所述指骨的所述长度和对连接所述指骨的所述关节的运动范围的解剖学约束来生成所述手指姿势LUT。

7.根据权利要求6所述的方法，还包括：

识别具有基于所述手指姿势LUT确定的相似关键点的两个或更多个潜在3D姿势。

8.根据权利要求6所述的方法，还包括：

基于训练图像的所述集合，确定定义在所述腕部位置处具有所述顶点的所述手掌三角形的参数，其中，所述顶点与包括所述手的除去拇指之外的手指的所述手掌指关节的所述手掌三角形的所述一侧相对。

9.根据权利要求1所述的方法，其中，识别所述关键点包括识别所述手的所述2D图像中的噪声关键点的3D位置，并且其中，识别所述手的所述3D姿势包括基于所述噪声关键点生成表示所述手的所述3D姿势的骨架模型。

10.根据权利要求9所述的方法，还包括：

基于所述骨架模型生成符合骨架的关键点；

基于连接对应的噪声关键点和与所述2D图像相关联的消失点的线来修改所述符合骨架的关键点；

将所述噪声关键点设置为等于所修改的符合骨架的关键点；以及

迭代直到所述噪声关键点满足收敛标准。

11.一种用于生成手的三维姿势的方法，包括：

在处理器处基于多个3D训练姿势的手的训练图像的集合，确定定义在腕部位置、拇指的手掌指关节和食指的手掌指关节处具有顶点的拇指三角形的手特征三角形参数以及定义具有在所述腕部位置处的顶点和手掌三角形的一侧的所述手掌三角形的手特征三角形参数，所述手掌三角形的所述一侧包括与在所述腕部位置处的所述顶点相对的所述手的除去拇指之外的手指的手掌指关节；

在由相机捕获的二维2D图像中识别手上的关键点，其中，所述关键点是基于所述手特征三角形参数；以及

使用所述关键点的位置以访问一个或多个查找表LUT来确定所述手在所述2D图像中的三维3D姿势，所述一个或多个LUT将所述手的潜在3D姿势表示为所述关键点的所述位置的函数。

12.根据权利要求11所述的方法，其中，确定所述手的所述3D姿势包括基于所述手指和所述拇指的对应的指尖和手掌指关节的相对位置，从所述手指姿势LUT确定所述手指和所述拇指的2D坐标。

13.根据权利要求12所述的方法，其中，确定所述手的所述3D姿势包括从所述2D图像确定所述手掌三角形和所述拇指三角形的方向。

14.根据权利要求13所述的方法，其中，确定所述手的所述3D姿势包括分别基于所述手掌三角形和所述拇指三角形的所述方向来旋转所述手指和所述拇指的所述2D坐标。

15.一种用于生成手的三维姿势的装置，包括：

相机，所述相机被配置为获取手的二维2D图像；以及

处理器，所述处理器被配置为：

识别2D图像中手上的关键点；

使用所述关键点的位置以访问多个查找表LUT来确定所述手的三维3D姿势，所述多个查找表LUT将所述手的潜在3D姿势表示为所述关键点的所述位置的函数，其中，确定所述手的所述3D姿势包括：

其中，每个LUT是使用姿势集合中的所述手的训练图像的集合来确定的，其中，所述手的手掌被表示为由相应的顶点集合定义的手掌三角形和拇指三角形，其中：

16.根据权利要求15所述的装置，其中，所述关键点包括：所述手的手指和所述拇指的尖端的位置、连接所述手指和所述拇指的指骨的关节、表示所述手指和所述拇指与所述手的手掌的附着点的所述手掌指关节、以及指示所述手与前臂的附着点的所述腕部位置。

17.根据权利要求16所述的装置，其中，所述LUT包括手指姿势LUT，所述手指姿势LUT将对应的手指姿势平面中的所述手指和所述拇指的2D坐标表示为相对于所述手指或所述拇指的对应手掌指关节的所述手指或拇指的所述尖端的位置的函数。

18.根据权利要求17所述的装置，其中，所述处理器进一步被配置为：

基于在多个3D训练姿势中的所述手的训练图像的所述集合来生成所述手指姿势LUT；以及

将所述手指姿势LUT存储在存储器中。

19.根据权利要求17所述的装置，其中，所述处理器进一步被配置为识别具有基于所述手指姿势LUT确定的相似关键点的两个或更多个潜在3D姿势。

20.根据权利要求17所述的装置，其中，所述处理器进一步被配置为从所述训练图像的集合中确定所述手指和所述拇指的所述指骨的长度。

21.根据权利要求20所述的装置，其中，所述处理器进一步被配置为基于所述指骨的所述长度和对连接所述指骨的所述关节的运动范围的解剖学约束来生成所述手指姿势LUT。

22.根据权利要求21所述的装置，其中，所述处理器进一步被配置为基于训练图像的所述集合，确定定义了在所述腕部位置处具有所述顶点的所述手掌三角形的参数，其中，所述顶点与包括所述手的除去拇指之外的手指的所述手掌指关节的所述手掌三角形的所述一侧相对。

23.根据权利要求15所述的装置，其中，所述处理器进一步被配置为基于所述训练图像，确定定义了在所述腕部位置、所述拇指的所述手掌指关节和食指的所述手掌指关节处具有顶点的拇指三角形的参数。

24.根据权利要求15所述的装置，其中，所述处理器进一步被配置为基于所述手指和所述拇指的对应指尖和手掌指关节的相对位置，从所述手指姿势LUT确定所述手指和所述拇指的2D坐标。

25.根据权利要求24所述的装置，其中，所述处理器进一步被配置为从所述2D图像确定所述手掌三角形和所述拇指三角形的方向。

26.根据权利要求25所述的装置，其中，所述处理器进一步被配置为分别基于所述手掌三角形和所述拇指三角形的所述方向来旋转所述手指和所述拇指的所述2D坐标。

27.根据权利要求15所述的装置，其中，所述处理器进一步被配置为识别所述手的所述2D图像中的噪声关键点的3D位置，并且基于所述噪声关键点生成表示所述手的所述3D姿势的骨架模型。