CN114693779A

CN114693779A - 用于确定手部三维关键点的方法及装置

Info

Publication number: CN114693779A
Application number: CN202210341630.XA
Authority: CN
Inventors: 马明明; 危财克
Original assignee: Weilai Automobile Technology Anhui Co Ltd
Current assignee: Weilai Automobile Technology Anhui Co Ltd
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-07-01
Anticipated expiration: 2042-04-02
Also published as: CN114693779B

Abstract

本发明涉及用于确定手部三维关键点的方法、用于确定手部三维关键点的装置、计算机存储介质及计算机设备。按照本发明的一个方面提出一种用于确定手部三维关键点的方法，其包括下列步骤：获取手部的RGB图像和与所述手部的RGB图像对齐的手部的深度图像；根据获取的手部的RGB图像确定手部二维关键点的数据；至少基于确定的手部二维关键点的数据构建手部2.5D模型；以及至少基于所述手部的深度图像和构建的手部2.5D模型确定手部三维关键点的三维信息。

Description

用于确定手部三维关键点的方法及装置

技术领域

本发明涉及计算机视觉领域，并且更具体地涉及一种用于确定手部三维关键点的方法、用于确定手部三维关键点的装置、计算机存储介质及计算机设备。

背景技术

近些年来，由于增强现实(Augmented Reality，AR)、虚拟现实(Virtual Reality，VR)、游戏和动画等三维应用场景的快速发展，使三维视觉的应用逐渐普及。手部三维关键点的确定在AR、VR、游戏和动画等领域中的三维重建过程中非常重要。

在目前的确定手部三维关键点的方法中，通常利用深度图像与RGB图像的对应关系将RGB图像中的二维关键点对应到深度图像，从而利用深度图像中的信息来计算三维关键点。然而，由于深度图像只能表示物体表面的深度，因此在深度图像中对于遮挡的手部关键点可能无法被标注或被标注错误。此外，还可以通过在手部绑定多自由度的传感器来进行三维定位。然而，该方法操作复杂且需要花费大量的硬件和人力资源，并且由于不同操作者多次操作传感器的固定位置难以保持一致，导致获取的三维关键点不准确。

发明内容

为了解决或至少缓解以上问题中的一个或多个，提供了以下技术方案。

按照本发明的第一方面，提供一种用于确定手部三维关键点的方法，所述方法包括下列步骤：获取手部的RGB图像和与所述手部的RGB图像对齐的手部的深度图像；根据获取的手部的RGB图像确定手部二维关键点的数据；至少基于确定的手部二维关键点的数据构建手部2.5D模型；以及至少基于所述手部的深度图像和构建的手部2.5D模型确定手部三维关键点的三维信息。

根据本发明一实施例所述的用于确定手部三维关键点的方法，其中获取手部的RGB图像和与所述手部的RGB图像对齐的手部的深度图像包括：利用RGB相机获取手部的RGB图像；利用深度相机获取手部的深度图像；以及根据所述RGB相机和所述深度相机的内参和外参，将所述手部的RGB图像与所述手部的深度图像对齐。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的方法，其中根据获取的手部的RGB图像确定手部二维关键点的数据包括：基于预先标注的手部二维关键点的数据训练第一卷积神经网络模型；使用训练的第一卷积神经网络模型处理所述获取的手部的RGB图像；以及基于所述训练的第一卷积神经网络模型的处理结果来确定手部二维关键点的数据，其中所述手部二维关键点的数据包括手部二维关键点的二维坐标信息、手部二维关键点的遮挡信息和手部二维关键点的热力图信息中的一个或多个。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的方法，其中至少基于确定的手部二维关键点的数据构建手部2.5D模型包括：基于所述手部二维关键点的数据中的手部二维关键点的热力图信息和所述手部的RGB图像确定手部的形状参数和手势参数；以及利用所述手部的形状参数和手势参数构建手部2.5D模型。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的方法，其中基于所述手部二维关键点的数据中的手部二维关键点的热力图信息和所述手部的RGB图像确定手部的形状参数和手势参数包括：将所述手部二维关键点的数据中的手部二维关键点的热力图信息和所述手部的RGB图像输入到多层感知神经网络模型；以及基于所述多层感知神经网络模型的输出结果确定手部的形状参数和手势参数。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的方法，其中利用所述手部的形状参数和手势参数构建手部2.5D模型包括：基于预先标注的手部2.5D关键点数据训练第二卷积神经网络模型；使用训练的第二卷积神经网络模型处理所述手部的形状参数和手势参数；以及基于所述训练的第二卷积神经网络模型的处理结果来构建对应于所述手部二维关键点的手部2.5D模型。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的方法，其中至少基于所述手部的深度图像和构建的手部2.5D模型确定手部三维关键点的三维信息包括：基于手部二维关键点的数据确定所述手部二维关键点中的可见关键点；确定所述手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点的深度信息；以及基于所述对应关键点的深度信息更新所述构建的手部2.5D模型中的所述手部二维关键点的深度信息，以确定手部三维关键点的三维信息。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的方法，其中所述方法进一步包括：抛弃所述手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点中的异常点；确定剩余的对应关键点的深度信息的均值；以及将所述构建的手部2.5D模型中的手部二维关键点的深度信息更新为所述构建的手部2.5D模型中的手部二维关键点的深度信息与所述剩余的对应关键点的深度信息的均值之和。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的方法，其中通过以下方式确定所述手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点中的异常点：确定所述手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点的均值；确定每个对应关键点与所述对应关键点的均值的偏差值；以及响应于确定对应关键点与所述对应关键点的均值的偏差值大于预设值而确定所述对应关键点为异常点。

按照本发明的第二方面，提供一种用于确定手部三维关键点的装置，所述装置包括：获取单元，其配置成获取手部的RGB图像和与所述手部的RGB图像对齐的手部的深度图像；确定单元，其配置成根据获取的手部的RGB图像确定手部二维关键点的数据；构建单元，其配置成至少基于确定的手部二维关键点的数据构建手部2.5D模型；以及处理单元，其配置成至少基于所述手部的深度图像和构建的手部2.5D模型确定手部三维关键点的三维信息。

根据本发明一实施例所述的用于确定手部三维关键点的装置，其中所述获取单元包括RGB相机和深度相机，所述获取单元进一步配置成：利用RGB相机获取手部的RGB图像；利用深度相机获取手部的深度图像；以及根据所述RGB相机和所述深度相机的内参和外参，将所述手部的RGB图像与所述手部的深度图像对齐。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的装置，其中确定单元进一步配置成：基于预先标注的手部二维关键点的数据训练第一卷积神经网络模型；使用训练的第一卷积神经网络模型处理所述获取的手部的RGB图像；以及基于所述训练的第一卷积神经网络模型的处理结果来确定手部二维关键点的数据，其中所述手部二维关键点的数据包括手部二维关键点的二维坐标信息、手部二维关键点的遮挡信息和手部二维关键点的热力图信息中的一个或多个。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的装置，其中所述构建单元进一步配置成：基于所述手部二维关键点的数据中的手部二维关键点的热力图信息和所述手部的RGB图像确定手部的形状参数和手势参数；以及利用所述手部的形状参数和手势参数构建手部2.5D模型。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的装置，其中所述构建单元进一步配置成：将所述手部二维关键点的数据中的手部二维关键点的热力图信息和所述手部的RGB图像输入到多层感知神经网络模型；以及基于所述多层感知神经网络模型的输出结果确定手部的形状参数和手势参数。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的装置，其中所述构建单元进一步配置成：基于预先标注的手部2.5D关键点数据训练第二卷积神经网络模型；使用训练的第二卷积神经网络模型处理所述手部的形状参数和手势参数；以及基于所述训练的第二卷积神经网络模型的处理结果来构建对应于所述手部二维关键点的手部2.5D模型。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的装置，其中处理单元进一步配置成：基于手部二维关键点的数据确定所述手部二维关键点中的可见关键点；确定所述手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点的深度信息；以及基于所述对应关键点的深度信息更新所述构建的手部2.5D模型中的所述手部二维关键点的深度信息，以确定手部三维关键点的三维信息。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的装置，其中处理单元进一步配置成：抛弃所述手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点中的异常点；确定剩余的对应关键点的深度信息的均值；以及将所述构建的手部2.5D模型中的手部二维关键点的深度信息更新为所述构建的手部2.5D模型中的手部二维关键点的深度信息与所述剩余的对应关键点的深度信息的均值之和。

根据本发明一实施例或以上任一实施例的所述的用于确定手部三维关键点的装置，其中所述处理单元配置成通过以下方式确定所述手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点中的异常点：确定所述手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点的均值；确定每个对应关键点与所述对应关键点的均值的偏差值；以及响应于确定对应关键点与所述对应关键点的均值的偏差值大于预设值而确定所述对应关键点为异常点。

根据本发明的第三方面，提供一种计算机存储介质，所述计算机存储介质包括指令，所述指令在运行时执行根据本发明第一方面所述的用于确定手部三维关键点的方法的步骤。

根据本发明的第四方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现根据本发明第一方面所述的用于确定手部三维关键点的方法的步骤。

根据本发明的一个或多个实施例的用于确定手部三维关键点的方案通过利用RGB相机和深度相机分别获取手部的RGB图像和深度图像，并且借助于训练的卷积神经网络模型和多层感知神经网络模型处理手部的RGB图像以构建手部2.5D模型，从而基于手部的深度图像中的深度信息能够快速准确地确定手部的三维关键点。由此，能够提高手部三维关键点的三维信息的准确性的，同时提高计算速度并减少硬件成本和人力成本。

附图说明

本发明的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解，附图中相同或相似的单元采用相同的标号表示。在所述附图中：

图1为按照本发明的一个或多个实施例的用于确定手部三维关键点的方法的流程图。

图2为按照本发明的一个或多个实施例的用于确定手部三维关键点的装置的框图。

图3A和图3B示出了按照本发明的一个或多个实施例的手部关键点示意图。

图4按照本发明的一个实施例的计算机设备的框图。

具体实施方式

以下具体实施方式的描述本质上仅仅是示例性的，并且不旨在限制所公开的技术或所公开的技术的应用和用途。此外，不意图受在前述技术领域、背景技术或以下具体实施方式中呈现的任何明示或暗示的理论的约束。

在实施例的以下详细描述中，阐述了许多具体细节以便提供对所公开技术的更透彻理解。然而，对于本领域普通技术人员显而易见的是，可以在没有这些具体细节的情况下实践所公开的技术。在其他实例中，没有详细描述公知的特征，以避免不必要地使描述复杂化。

诸如“包含”和“包括”之类的用语表示除了具有在说明书中有直接和明确表述的单元和步骤以外，本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。诸如“第一”和“第二”之类的用语并不表示单元在时间、空间、大小等方面的顺序而仅仅是作区分各单元之用。

需要说明的是，在本发明的上下文中，术语“RGB图像”是指由格式为M×N×3的三维数组构成的图像，其中的“3”可以理解为拍摄同样内容的三幅M×N二维图像(灰度值图像)。这三幅图像分别代表R、G、B分量，每个分量的像素点取值范围是[0,255]，其中R代表红色，G代表绿色，B代表蓝色。术语“深度图像”是指将从深度相机到物体上各点的距离(深度)作为像素值的图像，其直接反映了物体可见表面的几何形状。术语“手部2.5D模型”是指能够准确表示手部关键点的位置信息x和y而部分表示手部关键点的深度信息z的模型，在该模型中手部关键点的深度信息z为手部关键点相对于手腕的某一固定位置的差值。

在下文中，将参考附图详细地描述根据本发明的各示例性实施例。

如图1中所示，在步骤101中，获取手部的RGB图像和与手部的RGB图像对齐的手部的深度图像。

可选地，在步骤101中，可以利用RGB相机获取手部的RGB图像并且利用深度相机获取手部的深度图像，以及根据RGB相机和深度相机的内参和外参，将手部的RGB图像与手部的深度图像对齐。示例性地，RGB相机和深度相机的内参和外参可以在同一世界坐标系中标定。通过分别利用RGB相机获取手部的RGB图像以及利用深度相机获取手部的深度图像，为在步骤107中确定高精度的手部三维关键点的三维信息提供了有力的图像数据支持。

相机的内参指示从三维空间到二维图像的投影关系，相机的外参指示相机坐标系与世界坐标系之间的相对位置关系，例如指示从世界坐标系转换到相机坐标系的参数，包括旋转矩阵R和平移向量T。需要说明的是，世界坐标系为三维直角坐标系，以其为基准可以描述相机和待测物体的三维位置，是客观三维世界的绝对坐标系，通常用Pw(Xw,Yw,Zw)表示其坐标值。相机坐标系为三维直角坐标系，以相机的光心为坐标原点，Z轴为相机光轴，X轴、Y轴分别平行于图像坐标系中的X轴、Y轴，通常用Pc(Xc,Yc,Zc)表示其坐标值。示例性地，以针孔成像为例，相机外参、世界坐标和相机坐标满足以下关系式Pc＝RPw+T。在本发明的一个或多个实施例中，手部三维关键点的三维信息可以在相机坐标系或世界坐标系中来表示。

在步骤103中，根据获取的手部的RGB图像确定手部二维关键点的数据。

在一个或多个实施例中，手部的关键点可以包括手指的骨节点、手指指尖、手指与手掌的连接点、手部与手臂连接处的腕部关节点等。根据不同的应用场景，可以设置不同的手部关键点的位置和数量。示例性的，可以将手部关键点的数量设置为从掌心到指尖的21个关键点。例如，如图3A所示，其示出了针对手心区域预先定义的21个手部关键点的示意图。例如，如图3B所示，其示出了针对手背区域预先定义的21个手部关键点的示意图。

在一个或多个实施例中，手部二维关键点的数据可以包括手部二维关键点的二维坐标信息、手部二维关键点的遮挡信息和手部二维关键点的热力图信息等。其中，遮挡信息用于指示相应手部二维关键点是否被遮挡，未被遮挡的手部二维关键点即为可见的手部二维关键点。热力图信息用于指示相应手部二维关键点的置信度。

可选地，在步骤103中，可以基于预先标注的手部二维关键点的数据训练第一卷积神经网络模型，使用训练的第一卷积神经网络模型处理获取的手部的RGB图像，以及基于训练的第一卷积神经网络模型的处理结果来确定手部二维关键点的数据。示例性地，可以利用神经网络的梯督回传loss方法训练第一卷积神经网络模型，以提高第一卷积神经网络模型的处理结果的准确性。可替代地，在步骤103中，还可以通过各种其他机器学习的方式确定RGB图像中的手部二维关键点的数据。

在步骤105中，至少基于确定的手部二维关键点的数据构建手部2.5D模型。

可选地，在步骤105中，可以基于手部二维关键点的数据中的手部二维关键点的热力图信息和手部的RGB图像确定手部的形状参数和手势参数，以及利用手部的形状参数和手势参数构建手部2.5D模型。示例性地，手部的形状参数可以指示手部的形状属性，例如手指的粗细、长度和手掌的厚度等，手部的手势参数可以指示手部的姿态属性，例如手部通过关节的变形。

在一个实施例中，可以将手部二维关键点的数据中的手部二维关键点的热力图信息和手部的RGB图像输入到多层感知神经网络模型，以及基于多层感知神经网络模型的输出结果确定手部的形状参数和手势参数。作为示例，手部的形状参数和手势参数可以包括10个形状系数和16*3个手势系数，其中形状系数可以由10个数值来表示，以及手势系数可以由16组三维向量来表示。

在一个实施例中，可以基于预先标注的手部2.5D关键点数据训练第二卷积神经网络模型，使用训练的第二卷积神经网络模型处理手部的形状参数和手势参数，以及基于训练的第二卷积神经网络模型的处理结果来构建对应于手部二维关键点的数据的手部2.5D模型。示例性地，可以利用神经网络的梯督回传loss方法训练第二卷积神经网络模型，以提高第二卷积神经网络模型的处理结果的准确性。

在一个实施例中，手部2.5D模型可以实现为铰链式非刚性变形人手模型(HandModel with Articulated and Non-rigiddeformations，MANO模型)，其是一种先验的参数化人手模型，能够将手部网格分解为形状和姿势两部分，形状部分主要建模手部的形状属性，例如手指的粗细、长度和手掌的厚度等，姿势部分主要建模手部的姿态属性。

通过由手部二维关键点的热力图信息和手部的RGB图像得到的手部的形状参数和手势参数来构建对应于手部二维关键点的手部2.5D模型，使得手部2.5D模型与RGB图像中的手部相匹配，保证了构建的手部2.5D模型的准确性，从而提高了后续确定的手部三维关键点的三维信息的准确性。

在步骤107中，至少基于所述手部的深度图像和构建的手部2.5D模型确定手部三维关键点的三维信息。

可选地，在步骤107中，可以基于手部二维关键点的数据确定手部二维关键点中的可见关键点，确定手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点的深度信息，以及基于对应关键点的深度信息更新构建的手部2.5D模型中的手部二维关键点的深度信息，以确定手部三维关键点的三维信息。

在一个实施例中，可以遍历在步骤103中确定的手部二维关键点中的可见关键点，以分别在构建的手部2.5D模型中和手部的深度图像中确定与手部二维关键点中的可见关键点对应的关键点，并抛弃手部二维关键点中的可见关键点在手部的深度图像中的对应关键点中的异常点。

在一个实施例中，可以确定手部二维关键点中的可见关键点在手部的深度图像中的对应关键点的均值，确定每个对应关键点与对应关键点的均值的偏差值，以及响应于确定对应关键点与对应关键点的均值的偏差值大于预设值而确定该对应关键点为异常点。示例性地，如果某个对应关键点与对应关键点的均值的偏差值大于预设值（例如，30cm），则将该对应关键点丢弃并重新计算剩余对应关键点的均值，确定每个剩余对应关键点与重新计算的剩余对应关键点的均值的偏差值，并且丢弃与重新计算的剩余对应关键点的均值的偏差值大于预设值（例如，30cm）的对应关键点，以此类推，直到不存在异常点为止。

可选地，在步骤107中，可以在抛弃手部二维关键点中的可见关键点在手部的深度图像中的对应关键点中的异常点后，确定剩余的对应关键点的深度信息的均值，以及将构建的手部2.5D模型中的手部二维关键点的深度信息更新为构建的手部2.5D模型中的手部二维关键点的深度信息与剩余的对应关键点的深度信息的均值之和。示例性地，可以通过公式Znew=Zold+Zwris来更新构建的手部2.5D模型中的手部二维关键点的数据的深度信息，其中Znew表示更新后的手部2.5D模型中的手部二维关键点的数据的深度信息，Zold表示原始的手部2.5D模型中的手部二维关键点的数据的深度信息，以及Zwris表示手部二维关键点中的可见关键点在手部的深度图像中的非异常的对应关键点的深度信息的均值。

需要说明的是，如上文所述，在构建的手部2.5D模型中，手部关键点的位置信息x和y是准确的，而手部关键点的深度信息z为手部关键点相对于手腕的某一固定位置的差值。因此，通过公式Znew=Zold+Zwris来更新构建的手部2.5D模型中的手部二维关键点的深度信息，可以确定手部三维关键点的三维信息。

根据本发明的一个方面提出的用于确定手部三维关键点的方法能够通过利用RGB相机和深度相机分别获取手部的RGB图像和深度图像，并且借助于训练的卷积神经网络模型和多层感知神经网络模型处理手部的RGB图像以构建手部2.5D模型，从而基于手部的深度图像中的深度信息能够快速准确地确定手部的三维关键点。由此，能够提高手部三维关键点的三维信息的准确性的，同时提高计算速度并减少硬件成本和人力成本。

图2为按照本发明的一个实施例的用于确定手部三维关键点的装置框图。

如图2中所示，用于确定手部三维关键点的装置200包括获取单元201、确定单元203、构建单元205和处理单元207。

获取单元201配置成获取手部的RGB图像和与所述手部的RGB图像对齐的手部的深度图像。

可选地，获取单元201可以包括RGB相机和深度相机，其可以配置成利用RGB相机获取手部的RGB图像并且利用深度相机获取手部的深度图像，以及根据RGB相机和深度相机的内参和外参，将手部的RGB图像与手部的深度图像对齐。示例性地，RGB相机和深度相机的内参和外参可以在同一世界坐标系中标定。通过分别利用RGB相机获取手部的RGB图像以及利用深度相机获取手部的深度图像，为处理单元207确定高精度的手部三维关键点的三维信息提供了有力的图像数据支持。

确定单元203配置成根据获取的手部的RGB图像确定手部二维关键点的数据。

可选地，确定单元203可以配置成基于预先标注的手部二维关键点的数据训练第一卷积神经网络模型，使用训练的第一卷积神经网络模型处理获取的手部的RGB图像，以及基于训练的第一卷积神经网络模型的处理结果来确定手部二维关键点的数据。示例性地，可以利用神经网络的梯督回传loss方法训练第一卷积神经网络模型，以提高第一卷积神经网络模型的处理结果的准确性。

构建单元205配置成至少基于确定的手部二维关键点的数据构建手部2.5D模型。

可选地，构建单元205可以配置成基于手部二维关键点的数据中的手部二维关键点的热力图信息和手部的RGB图像确定手部的形状参数和手势参数，以及利用手部的形状参数和手势参数构建手部2.5D模型。示例性地，手部的形状参数可以指示手部的形状属性，例如手指的粗细、长度和手掌的厚度等，手部的手势参数可以指示手部的姿态属性，例如手部通过关节的变形。

在一个实施例中，构建单元205可以配置成将手部二维关键点的数据中的手部二维关键点的热力图信息和手部的RGB图像输入到多层感知神经网络模型，以及基于多层感知神经网络模型的输出结果确定手部的形状参数和手势参数。作为示例，手部的形状参数和手势参数可以包括10个形状系数和16*3个手势系数，其中形状系数可以由10个数值来表示，以及手势系数可以由16组三维向量来表示。

处理单元207配置成至少基于手部的深度图像和构建的手部2.5D模型确定手部三维关键点的三维信息。

可选地，处理单元207可以配置成基于手部二维关键点的数据确定手部二维关键点中的可见关键点，确定手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点的深度信息，以及基于对应关键点的深度信息更新构建的手部2.5D模型中的手部二维关键点的深度信息，以确定手部三维关键点的三维信息。

在一个实施例中，处理单元207可以配置成遍历确定单元203确定的手部二维关键点中的可见关键点，以分别在构建的手部2.5D模型中和手部的深度图像中确定与手部二维关键点中的可见关键点对应的关键点，并抛弃手部二维关键点中的可见关键点在手部的深度图像中的对应关键点中的异常点。

在一个实施例中，处理单元207可以配置成确定手部二维关键点中的可见关键点在手部的深度图像中的对应关键点的均值，确定每个对应关键点与对应关键点的均值的偏差值，以及响应于确定对应关键点与对应关键点的均值的偏差值大于预设值而确定该对应关键点为异常点。示例性地，如果某个对应关键点与对应关键点的均值的偏差值大于预设值（例如，30cm），则将该对应关键点丢弃并重新计算剩余对应关键点的均值，确定每个剩余对应关键点与重新计算的剩余对应关键点的均值的偏差值，并且丢弃与重新计算的剩余对应关键点的均值的偏差值大于预设值（例如，30cm）的对应关键点，以此类推，直到不存在异常点为止。

可选地，处理单元207可以配置成在抛弃手部二维关键点中的可见关键点在手部的深度图像中的对应关键点中的异常点后，确定剩余的对应关键点的深度信息的均值，以及将构建的手部2.5D模型中的手部二维关键点的深度信息更新为构建的手部2.5D模型中的手部二维关键点的深度信息与剩余的对应关键点的深度信息的均值之和。示例性地，可以通过公式Znew=Zold+Zwris来更新构建的手部2.5D模型中的手部二维关键点的数据的深度信息，其中Znew表示更新后的手部2.5D模型中的手部二维关键点的数据的深度信息，Zold表示原始的手部2.5D模型中的手部二维关键点的数据的深度信息，以及Zwris表示手部二维关键点中的可见关键点在手部的深度图像中的非异常的对应关键点的深度信息的均值。

根据本发明的一个方面提出的用于确定手部三维关键点的装置能够通过利用RGB相机和深度相机分别获取手部的RGB图像和深度图像，并且借助于训练的卷积神经网络模型和多层感知神经网络模型处理手部的RGB图像以构建手部2.5D模型，从而基于手部的深度图像中的深度信息能够快速准确地确定手部的三维关键点。由此，能够提高手部三维关键点的三维信息的准确性的，同时提高计算速度并减少硬件成本和人力成本。

图4为按照本发明的一个实施例的计算机设备的框图。如图4中所示，计算机设备400包括存储器410、处理器420和存储在存储器410上并可在处理器420上运行的计算机程序430。处理器420执行所述计算机程序430时实现按照本发明的一个实施例的用于确定手部三维关键点的方法的各个步骤。

另外，如上所述，本发明也可以被实施为一种计算机存储介质，在其中存储有用于使计算机执行按照本发明的一个方面的用于确定手部三维关键点的方法的程序。

在此，作为计算机存储介质，能采用盘类（例如，磁盘、光盘等）、卡类（例如，存储卡、光卡等）、半导体存储器类（例如，ROM、非易失性存储器等）、带类（例如，磁带、盒式磁带等）等各种方式的计算机存储介质。

在可适用的情况下，可以使用硬件、软件或硬件和软件的组合来实现由本发明提供的各种实施例。而且，在可适用的情况下，在不脱离本发明的范围的情况下，本文中阐述的各种硬件部件和/或软件部件可以被组合成包括软件、硬件和/或两者的复合部件。在可适用的情况下，在不脱离本发明的范围的情况下，本文中阐述的各种硬件部件和/或软件部件可以被分成包括软件、硬件或两者的子部件。另外，在可适用的情况下，预期的是，软件部件可以被实现为硬件部件，以及反之亦然。

根据本发明的软件（诸如程序代码和/或数据）可以被存储在一个或多个计算机存储介质上。还预期的是，可以使用联网的和/或以其他方式的一个或多个通用或专用计算机和/或计算机系统来实现本文中标识的软件。在可适用的情况下，本文中描述的各个步骤的顺序可以被改变、被组合成复合步骤和/或被分成子步骤以提供本文中描述的特征。

提供本文中提出的实施例和示例，以便最好地说明按照本发明及其特定应用的实施例，并且由此使本领域的技术人员能够实施和使用本发明。但是，本领域的技术人员将会知道，仅为了便于说明和举例而提供以上描述和示例。所提出的描述不是意在涵盖本发明的各个方面或者将本发明局限于所公开的精确形式。

Claims

1.一种用于确定手部三维关键点的方法，其特征在于，所述方法包括下列步骤：

获取手部的RGB图像和与所述手部的RGB图像对齐的手部的深度图像；

根据获取的手部的RGB图像确定手部二维关键点的数据；

至少基于确定的手部二维关键点的数据构建手部2.5D模型；以及

至少基于所述手部的深度图像和构建的手部2.5D模型确定手部三维关键点的三维信息。

2.根据权利要求1所述的方法，其中获取手部的RGB图像和与所述手部的RGB图像对齐的手部的深度图像包括：

利用RGB相机获取手部的RGB图像；

利用深度相机获取手部的深度图像；以及

根据所述RGB相机和所述深度相机的内参和外参，将所述手部的RGB图像与所述手部的深度图像对齐。

3.根据权利要求1所述的方法，其中根据获取的手部的RGB图像确定手部二维关键点的数据包括：

基于预先标注的手部二维关键点的数据训练第一卷积神经网络模型；

使用训练的第一卷积神经网络模型处理所述获取的手部的RGB图像；以及

基于所述训练的第一卷积神经网络模型的处理结果来确定手部二维关键点的数据，其中所述手部二维关键点的数据包括手部二维关键点的二维坐标信息、手部二维关键点的遮挡信息和手部二维关键点的热力图信息中的一个或多个。

4.根据权利要求1所述的方法，其中至少基于确定的手部二维关键点的数据构建手部2.5D模型包括：

基于所述手部二维关键点的数据中的手部二维关键点的热力图信息和所述手部的RGB图像确定手部的形状参数和手势参数；以及

利用所述手部的形状参数和手势参数构建手部2.5D模型。

5.根据权利要求4所述的方法，其中基于所述手部二维关键点的数据中的手部二维关键点的热力图信息和所述手部的RGB图像确定手部的形状参数和手势参数包括：

将所述手部二维关键点的数据中的手部二维关键点的热力图信息和所述手部的RGB图像输入到多层感知神经网络模型；以及

基于所述多层感知神经网络模型的输出结果确定手部的形状参数和手势参数。

6.根据权利要求4所述的方法，其中利用所述手部的形状参数和手势参数构建手部2.5D模型包括：

基于预先标注的手部2.5D关键点数据训练第二卷积神经网络模型；

使用训练的第二卷积神经网络模型处理所述手部的形状参数和手势参数；以及

基于所述训练的第二卷积神经网络模型的处理结果来构建对应于所述手部二维关键点的手部2.5D模型。

7.根据权利要求1所述的方法，其中至少基于所述手部的深度图像和构建的手部2.5D模型确定手部三维关键点的三维信息包括：

基于手部二维关键点的数据确定所述手部二维关键点中的可见关键点；

确定所述手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点的深度信息；以及

基于所述对应关键点的深度信息更新所述构建的手部2.5D模型中的所述手部二维关键点的深度信息，以确定手部三维关键点的三维信息,

其中所述方法进一步包括：

抛弃所述手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点中的异常点；

确定剩余的对应关键点的深度信息的均值；以及

将所述构建的手部2.5D模型中的手部二维关键点的深度信息更新为所述构建的手部2.5D模型中的手部二维关键点的深度信息与所述剩余的对应关键点的深度信息的均值之和,

其中通过以下方式确定所述手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点中的异常点：

确定所述手部二维关键点中的可见关键点在所述手部的深度图像中的对应关键点的均值；

确定每个对应关键点与所述对应关键点的均值的偏差值；以及

响应于确定对应关键点与所述对应关键点的均值的偏差值大于预设值而确定所述对应关键点为异常点。

8.一种用于确定手部三维关键点的装置，其特征在于，所述装置包括：

获取单元，其配置成获取手部的RGB图像和与所述手部的RGB图像对齐的手部的深度图像；

确定单元，其配置成根据获取的手部的RGB图像确定手部二维关键点的数据；

构建单元，其配置成至少基于确定的手部二维关键点的数据构建手部2.5D模型；以及

处理单元，其配置成至少基于所述手部的深度图像和构建的手部2.5D模型确定手部三维关键点的三维信息。

9.一种计算机存储介质，其特征在于，所述计算机存储介质包括指令，所述指令在运行时执行根据权利要求1至7中任一项所述的方法。

10.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法。