CN113421182A

CN113421182A - 三维重建方法、装置、电子设备及存储介质

Info

Publication number: CN113421182A
Application number: CN202110551893.9A
Authority: CN
Inventors: 陈星宇; 郑文
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-09-21
Anticipated expiration: 2041-05-20
Also published as: CN113421182B

Abstract

本公开关于一种三维重建方法、装置、电子设备及存储介质，该方法包括：获取包含目标对象的目标图像；将目标图像输入第一网络进行第一位置信息提取，得到第一图像特征和关键点热力图；将第一图像特征和语义聚合后的热力图输入第二网络分别进行网格信息提取和剪影信息提取，得到三维网格图像和二维剪影图像；将三维网格图像和二维剪影图像分别投影至预设维度空间，基于投影结果确定预设关键点在三维空间中的预测位置信息；基于三维网络图像和预测位置信息，确定目标对象在目标空间中的三维位置信息。利用本公开实施例提供的技术方案能够提高目标对象在目标空间中的三维位置信息的预测精度和预测效率。

Description

三维重建方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种三维重建方法、装置、电子设备及存储介质。

背景技术

三维重建(3D Reconstruction)是指对三维物体建立适合计算机表示和处理的数学模型，是在计算机环境下对其进行处理、操作和分析其性质的基础，也是在计算机中建立表达客观世界的虚拟现实的关键技术。三维重建计算机视觉领域的重要研究方向，而基于单目RGB(一种颜色标准，红、绿、蓝三色)数据实现三维重建则是领域内受到广泛关注的难题之一。

基于单目RGB数据的三维重建可以应用于人体部位的三维重建，例如，人脸、手部等。以手部为例，手部三维重建(Hand Mesh Recovery)要求算法预测图像中手部区域的三维坐标，利用778个三维点表示手部区域。相关技术中，手部三维重建通常通过卷积神经网络提取图像特征；通过Mano模型将图像特征回归模型参数和相机外参数，从而得到手部在三维空间中的绝对坐标。但是，由于现有模型的表达能力有限，难以重建复杂的手型，且利用RGB数据预测相机外参数易引起网络过拟合等问题，难以准确获取人体部位在目标空间(即采集图像的图像采集装置所对应的空间，比如，相机空间)中的真实三维坐标。

发明内容

本公开提供一种三维重建方法、装置、电子设备及存储介质，以至少解决相关技术中难以准确获取人体部位在相机空间中的真实三维坐标的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种三维重建方法，包括：

获取包含目标对象的目标图像；

将所述目标图像输入第一网络进行第一位置信息提取，得到所述目标图像的第一图像特征和所述目标对象的关键点热力图，所述关键点热力图表征所述目标对象的二维关键点初始位置信息；

对所述关键点热力图进行语义聚合处理，得到语义聚合后的热力图；

将所述第一图像特征和所述语义聚合后的热力图输入第二网络进行网格信息提取，得到所述目标对象的三维网格图像，以及将所述第一图像特征和所述语义聚合后的热力图输入所述第二网络进行剪影信息提取，得到所述目标对象的二维剪影图像；

将所述三维网格图像和二维剪影图像分别投影至预设维度空间，基于投影结果确定预设关键点在三维空间中的预测位置信息，所述预设关键点为所述三维网格图像的坐标原点，所述预设维度空间包括二维空间和一维空间；

基于所述三维网络图像和所述预测位置信息，确定所述目标对象在目标空间中的三维位置信息，所述目标空间表征采集所述目标图像的图像采集装置所对应的空间。

在一示例性的实施方式中，所述将所述三维网格图像和二维剪影图像分别投影至预设维度空间，基于投影结果确定预设关键点在三维空间中的预测位置信息，包括：

基于所述图像采集装置的内参数，将所述三维网格图像对应的三维关键点投影至所述二维空间，得到第一投影结果；

基于所述第一投影结果和对应的二维关键点预测位置信息，确定所述预设关键点的第一候选位置信息，所述对应的二维关键点预测位置信息由所述第二网络对所述第一图像特征和所述语义聚合后的热力图进行第二位置信息提取得到；

基于所述内参数将所述三维网格图像中的顶点投影至所述二维空间，并基于所述一维空间中的预设轴的方向向量，将顶点投影结果投影至所述一维空间，得到第二投影结果；

基于所述预设轴的方向向量，将所述二维剪影图像投影至所述一维空间，得到第三投影结果；

基于所述第二投影结果和所述第三投影结果，确定所述预设关键点的第二候选位置信息；

对所述第一候选位置信息和所述第二候选位置信息进行融合，得到所述预测位置信息。

在一示例性的实施方式中，在所述基于所述图像采集装置的内参数，将所述三维网格图像对应的三维关键点投影至所述二维空间，得到第一投影结果之前，所述方法还包括：

基于预设转化矩阵将所述三维网格图像转换为所述三维关键点；

所述基于所述图像采集装置的内参数，将所述三维网格图像对应的三维关键点投影至所述二维空间，得到第一投影结果，包括：

基于所述内参数将所述三维关键点投影至所述二维空间，得到投影后的二维关键点；

将所述投影后的二维关键点作为所述第一投影结果；

所述基于所述第一投影结果和对应的二维关键点预测位置信息，确定所述预设关键点的第一候选位置信息，包括：

基于所述投影后的二维关键点的位置信息和所述对应的二维关键点预测位置信息构建第一优化函数；

在所述第一优化函数满足第一约束条件时，将所述第一优化函数对应的优化结果作为所述第一候选位置信息。

在一示例性的实施方式中，所述基于所述内参数将所述三维网格图像中的顶点投影至所述二维空间，并基于所述一维空间中的预设轴的方向向量，将顶点投影结果投影至所述一维空间，得到第二投影结果，包括：

基于所述内参数将所述顶点投影至所述二维空间，得到二维网格图像，并将所述二维网格图像作为所述顶点投影结果；

基于所述预设轴的方向向量，将所述二维网格图像的顶点投影至所述一维空间，得到所述目标对象在所述预设轴上的第一投影数据；

将所述第一投影数据作为所述第二投影结果。

在一示例性的实施方式中，所述基于所述预设轴的方向向量，将所述二维剪影图像投影至所述一维空间，得到第三投影结果，包括：

基于边缘检测方法，将所述二维剪影图像转化为二维对象轮廓；

基于所述预设轴的方向向量，将所述二维对象轮廓投影至所述一维空间，得到所述目标对象在所述预设轴上的第二投影数据；

将所述第二投影数据作为所述第三投影结果。

在一示例性的实施方式中，所述基于所述第二投影结果和所述第三投影结果，确定所述预设关键点的第二候选位置信息，包括：

基于所述第一投影数据和所述第二投影数据构建第二优化函数；

在所述第二优化函数满足第二约束条件时，将所述第二优化函数所对应的优化结果作为所述第二候选位置信息。

在一示例性的实施方式中，所述对所述第一候选位置信息和所述第二候选位置信息进行融合，得到所述预测位置信息，包括：

确定所述第一候选位置信息和所述第二候选位置信息之间的距离；

在所述距离大于第一预设距离阈值时，将所述第二候选位置信息作为所述预测位置信息；

在所述距离小于第二预设距离阈值时，将所述第一候选位置信息作为所述预测位置信息；

在所述距离大于且等于所述第二预设距离阈值，以及小于且等于所述第一预设距离阈值时，基于所述距离、所述第一候选位置信息、所述第二候选位置信息、所述第一预设距离阈值和所述第二预设距离阈值，确定所述预测位置信息；其中，所述第一预设距离阈值大于所述第二预设距离阈值。

在一示例性的实施方式中，所述目标对象为手部，所述目标对象包括多个手指、多个运动链和多个手指尖部，则所述对所述关键点热力图进行语义聚合处理，得到语义聚合后的热力图，包括：

从所述目标对象的二维关键点中，确定所述多个手指各自对应的二维关键点、所述多个运动链各自对应的二维关键点以及所述多个手指尖部各自对应的二维关键点；

将所述多个手指各自对应的二维关键点的关键点热力图进行语义聚合，得到所述多个手指各自对应的关键点热力图；

将所述多个运动链各自对应的二维关键点的关键点热力图进行语义聚合，得到所述多个运动链各自对应的关键点热力图；

将所述多个手指尖部对应的二维关键点的关键点热力图进行语义聚合，得到所述多个手指尖部对应的关键点热力图；

将所述多个手指各自对应的关键点热力图、所述多个运动链各自对应的关键点热力图和所述多个手指尖部对应的关键点热力图，作为所述语义聚合后的热力图。

在一示例性的实施方式中，所述获取包含目标对象的目标图像，包括：

获取包含所述目标对象的原始图像；

在所述原始图像中对所述目标对象进行检测，得到所述目标对象的对象检测区域；

以所述对象检测区域的中心为扩充中心，将所述原始图像向外部进行扩充，得到所述目标图像。

根据本公开实施例的第二方面，提供一种三维重建装置，包括：

目标图像获取模块，被配置为执行获取包含目标对象的目标图像；

第一位置信息提取模块，被配置为执行将所述目标图像输入第一网络进行第一位置信息提取，得到所述目标图像的第一图像特征和所述目标对象的关键点热力图，所述关键点热力图表征所述目标对象的二维关键点初始位置信息；

语义聚合模块，被配置为执行对所述关键点热力图进行语义聚合处理，得到语义聚合后的热力图；

网格剪影信息提取模块，被配置为执行将所述第一图像特征和所述语义聚合后的热力图输入第二网络进行网格信息提取，得到所述目标对象的三维网格图像，以及将所述第一图像特征和所述语义聚合后的热力图输入所述第二网络进行剪影信息提取，得到所述目标对象的二维剪影图像；

投影模块，被配置为执行将所述三维网格图像和二维剪影图像分别投影至预设维度空间，基于投影结果确定预设关键点在三维空间中的预测位置信息，所述预设关键点为所述三维网格图像的坐标原点，所述预设维度空间包括二维空间和一维空间；

三维位置信息确定模块，被配置为执行基于所述三维网络图像和所述预测位置信息，确定所述目标对象在目标空间中的三维位置信息，所述目标空间表征采集所述目标图像的图像采集装置所对应的空间。

在一示例性的实施方式中，所述投影模块，包括：

三维关键点投影单元，被配置为执行基于所述图像采集装置的内参数，将所述三维网格图像对应的三维关键点投影至所述二维空间，得到第一投影结果；

第一候选位置信息确定单元，被配置为执行基于所述第一投影结果和对应的二维关键点预测位置信息，确定所述预设关键点的第一候选位置信息，所述对应的二维关键点预测位置信息由所述第二网络对所述第一图像特征和所述语义聚合后的热力图进行第二位置信息提取得到；

顶点投影单元，被配置为执行基于所述内参数将所述三维网格图像中的顶点投影至所述二维空间，并基于所述一维空间中的预设轴的方向向量，将顶点投影结果投影至所述一维空间，得到第二投影结果；

剪影投影单元，被配置为执行基于所述预设轴的方向向量，将所述二维剪影图像投影至所述一维空间，得到第三投影结果；

第二候选位置信息确定单元，被配置为执行基于所述第二投影结果和所述第三投影结果，确定所述预设关键点的第二候选位置信息；

融合单元，被配置为执行对所述第一候选位置信息和所述第二候选位置信息进行融合，得到所述预测位置信息。

在一示例性的实施方式中，所述装置还包括：

网格转换模块，被配置为执行基于预设转化矩阵将所述三维网格图像转换为所述三维关键点；

所述三维关键点投影单元，包括：

投影后的二维关键点确定子单元，被配置为执行基于所述内参数将所述三维关键点投影至所述二维空间，得到投影后的二维关键点；

第一投影结果确定子单元，被配置为执行将所述投影后的二维关键点作为所述第一投影结果；

所述第一候选位置信息确定单元，包括：

第一优化函数构建子单元，被配置为执行基于所述投影后的二维关键点的位置信息和所述对应的二维关键点预测位置信息构建第一优化函数；

第一优化结果确定子单元，被配置为执行在所述第一优化函数满足第一约束条件时，将所述第一优化函数对应的优化结果作为所述第一候选位置信息。

在一示例性的实施方式中，所述顶点投影单元，包括：

二维网格图像确定子单元，被配置为执行基于所述内参数将所述顶点投影至所述二维空间，得到二维网格图像，并将所述二维网格图像作为所述顶点投影结果；

第一投影数据确定子单元，被配置为执行基于所述预设轴的方向向量，将所述二维网格图像的顶点投影至所述一维空间，得到所述目标对象在所述预设轴上的第一投影数据；

第二投影结果确定子单元，被配置为执行将所述第一投影数据作为所述第二投影结果。

在一示例性的实施方式中，所述剪影投影单元，包括：

剪影转换子单元，被配置为执行基于边缘检测方法，将所述二维剪影图像转化为二维对象轮廓；

第二投影数据确定子单元，被配置为执行基于所述预设轴的方向向量，将所述二维对象轮廓投影至所述一维空间，得到所述目标对象在所述预设轴上的第二投影数据；

第三投影结果确定子单元，被配置为执行将所述第二投影数据作为所述第三投影结果。

在一示例性的实施方式中，所述第二候选位置信息确定单元，包括：

第二优化函数构建子单元，被配置为执行基于所述第一投影数据和所述第二投影数据构建第二优化函数；

第二优化结果确定子单元，被配置为执行在所述第二优化函数满足第二约束条件时，将所述第二优化函数所对应的优化结果作为所述第二候选位置信息。

在一示例性的实施方式中，所述融合单元，包括：

距离确定子单元，被配置为执行确定所述第一候选位置信息和所述第二候选位置信息之间的距离；

第一预测位置信息确定子单元，被配置为执行在所述距离大于第一预设距离阈值时，将所述第二候选位置信息作为所述预测位置信息；

第二预测位置信息确定子单元，被配置为执行在所述距离小于第二预设距离阈值时，将所述第一候选位置信息作为所述预测位置信息；

第三预测位置信息确定子单元，被配置为执行在所述距离大于且等于所述第二预设距离阈值，以及小于且等于所述第一预设距离阈值时，基于所述距离、所述第一候选位置信息、所述第二候选位置信息、所述第一预设距离阈值和所述第二预设距离阈值，确定所述预测位置信息；其中，所述第一预设距离阈值大于所述第二预设距离阈值。

在一示例性的实施方式中，所述目标对象为手部，所述目标对象包括多个手指、多个运动链和多个手指尖部，则所述语义聚合模块，包括：

二维关键点确定单元，被配置为执行从所述目标对象的二维关键点中，确定所述多个手指各自对应的二维关键点、所述多个运动链各自对应的二维关键点以及所述多个手指尖部各自对应的二维关键点；

手指热力图确定单元，被配置为执行将所述多个手指各自对应的二维关键点的关键点热力图进行语义聚合，得到所述多个手指各自对应的关键点热力图；

运动链热力图确定单元，被配置为执行将所述多个运动链各自对应的二维关键点的关键点热力图进行语义聚合，得到所述多个运动链各自对应的关键点热力图；

手指尖部热力图确定单元，被配置为执行将所述多个手指尖部对应的二维关键点的关键点热力图进行语义聚合，得到所述多个手指尖部对应的关键点热力图；

语义聚合后的热力图确定单元，被配置为执行将所述多个手指各自对应的关键点热力图、所述多个运动链各自对应的关键点热力图和所述多个手指尖部对应的关键点热力图，作为所述语义聚合后的热力图。

在一示例性的实施方式中，所述目标图像获取模块，包括：

原始图像获取单元，被配置为执行获取包含所述目标对象的原始图像；

检测单元，被配置为执行在所述原始图像中对所述目标对象进行检测，得到所述目标对象的对象检测区域；

扩充单元，被配置为执行以所述对象检测区域的中心为扩充中心，将所述原始图像向外部进行扩充，得到所述目标图像。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述任一实施方式所述的三维重建方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备执行如上述任一实施方式所述的三维重建方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一实施方式所述的三维重建方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例通过第一网络进行第一位置信息提取，得到第一图像特征和目标对象的关键点热力图，并对关键点热力图进行语义聚合，得到语义聚合后的热力图。接着将第一图像特征和所述语义聚合后的热力图联合作为第二网络模型的输入，得到目标对象的三维网格图像和二维剪影图像，然后将三维网格图像和二维剪影图像分别投影至预设维度空间，并根据投影结果确定预设关键点在三维空间中的预测位置信息，最后根据三维网络图像和所述预测位置信息，确定目标对象在目标空间(采集所述目标图像的图像采集装置所对应的空间，比如，相机空间)中的三维位置信息。本公开实施例对第一网络输出的关键点热力图进行语义聚合处理，并通过语义聚合后的热力图的先验知识指导第二网络生成三维网格图像和二维剪影图像，然后通过自适应的配准方法将三维网格图像和二维剪影图像分别投影至预设维度空间，提高了预设关键点在三维空间中的预测位置信息的预测精度和预测效率，进而以该高精度的预测位置信息为基础进行三维位置信息的预测，有效提高了目标对象在目标空间中的三维位置信息的预测精度和预测效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种三维重建方法的应用环境图。

图2是根据一示例性实施例示出的一种三维重建方法的流程图。

图3是根据一示例性实施例示出的一种获取包含目标对象的目标图像的流程图

图4是根据一示例性实施例示出的一种获取第一图像特征和上述目标对象的关键点热力图的流程图。

图5是根据一示例性实施例示出的一种三维重建的原理示意图。

图6是根据一示例性实施例示出的一种对关键点热力图进行语义聚合处理的流程图。

图7是根据一示例性实施例示出的手部二维关键点示意图。

图8是根据一示例性实施例示出的一种语义聚合后的热力图的示意图。

图9是根据一示例性实施例示出的获取三维网格图像和二维剪影图像的流程图。

图10是根据一示例性实施例示出的确定预设关键点在三维空间中的预测位置信息的流程图。

图11所示是根据一示例性实施例示出的一种获取第一投影结果的流程图。

图12所示是根据一示例性实施例示出的一种确定上述预设关键点的第一候选位置信息的流程图。

图13是根据一示例性实施例示出的2D-1D全局配准的原理示意图。

图14是根据一示例性实施例示出的一种获取第二投影结果的流程图。

图15是根据一示例性实施例示出的一种1D投影的原理示意图。

图16是根据一示例性实施例示出的一种获取第三投影结果的流程图。

图17是根据一示例性实施例示出的一种确定上述预设关键点的第二候选位置信息的流程图。

图18所示是据一示例性实施例示出的一种对上述第一候选位置信息和上述第二候选位置信息进行融合，得到上述预测位置信息的流程图。

图19是根据一示例性实施例示出的一种三维重建装置框图。

图20是根据一示例性实施例示出的一种用于三维重建的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，图1所示为根据一示例性实施例示出的一种三维重建方法的应用环境图，该应用环境可以包括客户端01和服务器02。客户端01可以通过有线或无线的方式与服务器02进行通信，本公开对此不做限定。

其中，客户端01中可以设置有采集目标图像的图像采集装置，客户端01通过该图像采集装置采集该目标图像，并将该目标图像发送至服务器02。可选地，该客户端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等终端设备。

其中，服务器02中可以预先部署有已训练的第一网络和第二网络，服务器02可以用于获取客户端01采集的目标图像，并对该目标图像进行处理，得到目标对象在目标空间中的三维位置信息。可选地，该服务器02可以是包括独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在另一个示例性的实施例中，本公开实施例提供的三维重建方法还可以应用于仅包含客户端的应用环境中。其中，客户端可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等终端设备。客户端中部署有已训练的第一网络和第二网络。第一网络和第二网络可以内嵌于应用程序中。应用程序不限于是社交类应用程序、即时通信类应用程序、短视频类应用程序等。客户端在获取目标图像后，对目标图像进行处理，得到目标对象在目标空间中的三维位置信息。

图2是根据一示例性实施例示出的一种三维重建方法的流程图，如图2所示，该方法用于图1所示的包括客户端和服务器的系统中，可以包括以下步骤。

在步骤S11中，获取包含目标对象的目标图像。

示例性地，目标图像是指包含待进行三维重建的目标对象的图像，其可以是保存在本地数据库或者服务器中预先拍摄的静态图像；也可以是实时拍摄的图像，或者从实时录制的视频数据中获取的图像帧。目标对象位可以是人体中的任意部位，例如，人脸部、四肢部等；也可以为其他种类，例如动物等的任意部位。

在一个可选的实施例中，图3是根据一示例性实施例示出的一种获取包含目标对象的目标图像的流程图。如图3所示，在上述步骤S11中，上述获取包含目标对象的目标图像，可以包括：

在步骤S1101中，获取包含上述目标对象的原始图像。

在步骤S1103中，在上述原始图像中对上述目标对象进行检测，得到上述目标对象的对象检测区域。

在步骤S1105中，以上述对象检测区域的中心为扩充中心，将上述原始图像向外部进行扩充，得到上述目标图像。

具体地，上述原始图像可以为未经任何处理的图像。原始图像可以是保存在本地数据库或者服务器中预先拍摄的静态图像；也可以是实时拍摄的图像，或者从实时录制的视频数据中获取的图像帧。在客户端获取上述原始图像之后，可以对原始图像进行检测，得到对象检测区域。以上述对象检测区域的中心为扩充中心，按照预设比例将原始图像向外部进行扩充，将扩充后得到的图像作为上述目标图像。

示例性地，在目标对象为手部时，客户端可以通过预先部署的目标检测模型、手部跟踪算法等深度学习模型(比如，CenterNet)，对原始图像进行检测，得到手部区域图像。以手部区域图像为中心，按照预设比例(例如1.3倍)向外部扩充。客户端获取扩充后得到的图像作为上述目标图像。

本公开实施例中，以对象检测区域的中心为扩充中心，对原始图像向外部进行扩充，得到上述目标图像，提高了图像特征提取的范围，在后续网络特征提取过程中，能够提取到更准确的图像特征，通过该更准确的图像特征作为先验进行后续预测，可以有效提高预设关键点在三维空间中的预测位置信息以及目标对象在目标空间中的三维位置信息的预测精度。

在步骤S13中，将上述目标图像输入第一网络进行第一位置信息提取，得到上述目标图像的第一图像特征和上述目标对象的关键点热力图，上述关键点热力图表征上述目标对象的二维关键点初始位置信息。

本公开实施例中，可以通过位置预测网络对目标图像进行处理，该位置预测网络可以包括第一网络和第二网络。第一网络和第二网络可以是任一种能够进行前向检测的深度学习网络。深度学习网络可以是卷积神经网络、循环神经网络等。

其中，目标对象的二维关键点可以是预先定义好的，数量包括至少一个。在位置预测网络的训练过程中，可以按照预先定义的二维关键点相关信息(例如二维关键点排序和二维关键点位置等信息)对每张样本图像进行标注。采用标注后的样本图像对位置预测网络进行训练，得到能够检测目标对象的二维关键点的位置预测网络。

其中，第一图像特征可以看作是一种低级特征，而初始关键点热力图可以看作是一种高级特征。具体地，关键点热力图表征目标对象的二维关键点初始位置。二维关键点初始位置可以是指经过第一网络初次预测得到的二维关键点坐标。

具体地，关键点热力图的数量与二维关键点的数量相等，即每个二维关键点均对应一个关键点热力图。例如，在目标对象为手部时，手部对应有21个二维关键点，则针对每一个二维关键点，均会生成一个关键点热力图。

在一个可选的实施例中，图4所示是根据一示例性实施例示出的一种获取第一图像特征和上述目标对象的关键点热力图的流程图。如图4所示，上述第一网络包括第一编码器和第一解码器，则在上述步骤S13中，上述将上述目标图像输入第一网络进行第一位置信息提取，得到上述目标图像的第一图像特征和上述目标对象的关键点热力图，上述关键点热力图表征上述目标对象的二维关键点初始位置信息，可以包括：

在步骤S1301中，将上述目标图像输入上述第一编码器进行编码处理，得到上述第一图像特征。

在步骤S1303中，将上述第一图像特征输入上述第一解码器进行上述第一位置信息提取，得到上述关键点热力图。

图5是根据一示例性实施例示出的一种三维重建的原理示意图。如图5所示，第一网络采用第一编码器-第一解码器结构。第一编码器用于对输入的目标图像进行降采样以提供较小维度的潜在表示。第一编码器可以包括依次连接的多层卷积层。每层卷积层的输入可以为上一层卷积层的输出，也可以为多层卷积层的输出。或者，第一编码器可以采用已有的特征提取网络，例如VGGNet(Visual Geometry GroupNetworks，一种深度卷积神经网络)、GoogLeNet(一种神经网络)、ResNet(Resid ualNetworks，一种深度残差网络)等。

第一解码器用于对第一编码器输出的潜在表征进行解码处理，生成高分辨率数据。第一解码器中可以包括与第一编码器相对称的多层卷积层。每层卷积层的输入可以为上一层卷积层的输出，也可以为多层卷积层的输出。第一解码器具体可以用于通过双线性采样对第一编码器输出的第一图像特征进行上采样、回归、归一化等处理。而上采样可以采用卷积算子与最邻近插值的方式，或者卷积算子与双线性采样插值等方式。

可选地，为了提高模型的检测精度，可以使关键点热力图的尺寸与目标图像的尺寸相同。

本公开实施例中，通过第一网络对目标图像进行先验学习，得到第一图像特征和关键点热力图，进而使第二网络能够基于第一图像特征和语义聚合后的热力图继续进行预测，以准确得预设关键点在三维空间中的预测位置信息，从而通过该预测位置信息预测目标对象在目标空间中的三维位置信息，提高了目标对象在目标空间中的三维位置信息的预测精度。

在步骤S15中，对上述关键点热力图进行语义聚合处理，得到语义聚合后的热力图。

在一个可选的实施例中，在目标对象的二维关键点的数量为多个，上述关键点热力图的数量为多个，多个二维关键点与多个关键点热力图一一对应时，由于每个二维关键点均会对应一个关键点热力图，为了构建更准确可信的先验知识，从而提高后续预设关键点在三维空间中的预测位置信息的预测精度以及目标对象在目标空间中的三维位置信息的预测精度，可以对第一网络输出的关键点热力图进行语义聚合处理。

图6是根据一示例性实施例示出的一种对关键点热力图进行语义聚合处理的流程图。如图6所示，以目标对象为手部为例，则上述目标对象可以包括多个手指、多个运动链和多个手指尖部，则上述对上述关键点热力图进行语义聚合处理，得到语义聚合后的热力图，可以包括：

在步骤S1501中，从上述目标对象的二维关键点中，确定上述多个手指各自对应的二维关键点、上述多个运动链各自对应的二维关键点以及上述多个手指尖部各自对应的二维关键点。

在步骤S1503中，将上述多个手指各自对应的二维关键点的关键点热力图进行语义聚合，得到上述多个手指各自对应的关键点热力图。

在步骤S1505中，将上述多个运动链各自对应的二维关键点的关键点热力图进行语义聚合，得到上述多个运动链各自对应的关键点热力图。

在步骤S1507中，将上述多个手指尖部对应的二维关键点的关键点热力图进行语义聚合，得到上述多个手指尖部对应的关键点热力图。

在步骤S1509中，将上述多个手指各自对应的关键点热力图、上述多个运动链各自对应的关键点热力图和上述多个手指尖部对应的关键点热力图，作为上述语义聚合后的热力图。

具体地，在目标对象为手部时，上述手指可以指的是拇指、食指、中指、无名指、小指，上述运动链可以包括手掌和手指之间的关节所组成的关节链、指指之间的关节所组成的关节链、指尖之间的关节所在组成的关节链。上述手指尖部可以为手指的指尖。

具体地，在上述步骤S1509中，可以对上述多个手指各自对应的关键点热力图、上述多个运动链各自对应的关键点热力图和上述多个手指尖部对应的关键点热力图进行汇总，从而得到上述语义聚合后的热力图。

图7是根据一示例性实施例示出的手部二维关键点示意图。图8是根据一示例性实施例示出的一种语义聚合后的热力图的示意图。上述实施例可以从图7所示的多个二维关键点中，确定多个手指各自对应的多个二维关键点、多个运动链各自对应的多个二维关键点以及多个手指尖部各自对应的二维关键点。接着对多个手指各自对应的多个二维关键点的热力图进行语义聚合，得到多个手指各自对应的关键点热力图，对多个运动链各自对应的多个二维关键点的关键点热力图进行语义聚合，得到多个运动链各自对应的关键点热力图。由于每个手指尖部只有一个关键点，在语义聚合的时候，可以对多个手指尖部对应的二维关键点的关键点热力图进行语义聚合，得到多个手指尖部对应的关键点热力图。最后将多个手指各自对应的关键点热力图、多个运动链各自对应的关键点热力图和多个手指尖部对应的关键点热力图进行汇总，作为图8所示的语义聚合后的热力图。

本公开实施例通过上述方式对第一网络输出的关键点热力图进行语义聚合处理，得到语义聚合后的热力图，从而得到了更加准确、可信的先验知识。通过该语义聚合后的热力图作为先验知识以指导后续位置信息的预测，可以有效提高后续预设关键点在三维空间中的预测位置信息的预测精度以及目标对象在目标空间中的三维位置信息的预测精度。

在步骤S17中，将上述第一图像特征和上述语义聚合后的热力图输入第二网络进行网格信息提取，得到上述目标对象的三维网格图像，以及将上述第一图像特征和上述语义聚合后的热力图输入上述第二网络进行剪影信息提取，得到上述目标对象的二维剪影图像。

本公开实施例中，在得到第一图像特征和上述语义聚合后的热力图之后，可以将第一图像特征和上述语义聚合后的热力图联合作为第二网络的输入，从而预测得到三维网格图像(3D mesh)和改良后的二维属性。

具体地，上述改良后的二维属性可以包括二维剪影图像和二维关键点预测位置信息。其中，二维关键点预测位置信息是指经过二次预测得到的准确的二维关键点坐标，二维剪影图像表征目标对象的影子、形象。

继续如图5所示，上述第二网络可以包括第二编码器、螺旋解码器和卷积解码器。图9是根据一示例性实施例示出的获取三维网格图像和二维剪影图像的流程图。如图9所示，上述将上述第一图像特征和上述语义聚合后的热力图输入第二网络进行网格信息提取，得到上述目标对象的三维网格图像，以及将上述第一图像特征和上述语义聚合后的热力图输入上述第二网络进行剪影信息提取，得到上述目标对象的二维剪影图像，可以包括：

在步骤S1701中，将上述第一图像特征和上述语义聚合后的热力图输入上述第二编码器进行编码处理，得到第二图像特征。

在步骤S1703中，将上述第二图像特征输入上述螺旋解码器进行上述网格信息提取，得到上述三维网格图像。

在步骤S1705中，将上述第二图像特征输入上述卷积解码器进行上述剪影信息提取，得到上述二维剪影图像。

在一个具体的实施例中，上述方法还可以包括：

将上述第二图像特征输入上述卷积解码器进行第二位置信息提取，得到上述目标对象的二维关键点预测位置信息。

其中，关于第二编码器的实现方式可以参照第一编码器的说明，在此不再赘述。

具体地，为了充分利用高级特征的信息(即语义聚合后的热力图)，可以通过至少一层卷积层对第一图像特征和语义聚合后的热力图进行融合处理，得到中间特征。将该中间特征输入至第二网络中的第二编码器。通过第二编码器对中间特征进行编码处理，得到第二图像特征。继续通过第二网络中的螺旋解码器对第二图像特征进行网格信息提取，得到三维网格图像，并通过第二网络中的卷积解码器对第二图像特征进行剪影信息提取，得到二维剪影图像，以及通过第二网络中的卷积解码器对第二图像特征进行第二位置信息提取，得到上述二维关键点预测位置信息。

本公开实施例中，通过第二网络同时预测得到三维网格图像(3D mesh)和改良后的二维属性(包括二维剪影图像和二维关键点预测位置信息)，简化了三维重建的操作过程。且通过在第一网络先验学习以及对第一网络输出的关键点热力图进行语义聚合的基础上，预测得到三维网格图像(3D mesh)和改良后的二维属性，提高了三维网格图像(3Dmesh)和改良后的二维属性的预测精度和预测效率，从而提高了后续预设关键点在三维空间中的预测位置信息以及目标对象在目标空间中的三维位置信息的预测精度和预测效率；此外，通过端到端的位置预测网络(包括第一网络和第二网络)无需额外引入图像采集装置的外参数，还可以解决网络过拟合的问题。

在步骤S19中，将上述三维网格图像和二维剪影图像分别投影至预设维度空间，基于投影结果确定预设关键点在三维空间中的预测位置信息，上述预设关键点为上述三维网格图像的坐标原点，上述预设维度空间包括二维空间和一维空间。

本公开实施例中，可以通过自适应的2D-1D全局配准方法，将三维网格图像和二维剪影图像分别投影至预设维度空间，并根据投影结果确定预设关键点在三维空间中的预测位置信息。

具体地，上述三位网格图像以该预设关键点为原点。该预测位置信息可以为该预设关键点在三维空间中的绝对坐标。

示例性地，在目标对象为手部时，继续如图7所示，预设关键点可以为图7中的关键点0。该关键点具体可以值得是手腕关节点。相应地，该预测位置信息可以为该关键点0在三维空间中的绝对坐标。

在一个可选的实施例中，图10是根据一示例性实施例示出的确定预设关键点在三维空间中的预测位置信息的流程图。如图10所示，在上述步骤S19中，上述将上述三维网格图像和二维剪影图像分别投影至预设维度空间，基于投影结果确定预设关键点在三维空间中的预测位置信息，可以包括：

在步骤S1901中，基于上述图像采集装置的内参数，将上述三维网格图像对应的三维关键点投影至上述二维空间，得到第一投影结果。

在步骤S1903中，基于上述第一投影结果和对应的二维关键点预测位置信息，确定上述预设关键点的第一候选位置信息，上述对应的二维关键点预测位置信息由上述第二网络对上述第一图像特征和上述语义聚合后的热力图进行第二位置信息提取得到。

在步骤S1905中，基于上述内参数将上述三维网格图像中的顶点投影至上述二维空间，并基于上述一维空间中的预设轴的方向向量，将顶点投影结果投影至上述一维空间，得到第二投影结果。

在步骤S1907中，基于上述预设轴的方向向量，将上述二维剪影图像投影至上述一维空间，得到第三投影结果。

在步骤S1909中，基于上述第二投影结果和上述第三投影结果，确定上述预设关键点的第二候选位置信息。

在步骤S19011中，对上述第一候选位置信息和上述第二候选位置信息进行融合，得到上述预测位置信息。

其中，图像采集装置可以为采集目标图像的设备，比如，相机。

具体地，图像采集装置的内参数可以为与图像采集装置自身特性相关的参数，比如焦距、像素大小等。

示例性地，上述预设轴为1D轴，预设轴的数量可以为多个(比如，预先定义了12个预设轴)。

示例性地，2D配准方法可以如下：如步骤S191所示，由于三维关键点(3D关键点)与二维关键点(2D关键点)之间存在一一对应的关系，服务器可以直接根据客户端采集的图像采集装置的内参数，将上述三维网格图像对应的三维关键点投影至上述二维空间，得到第一投影结果，并采用二次规划算法，以第一投影结果和对应的二维关键点预测位置信息为基础，确定预设关键点的第一候选位置信息。其中，二次规划算法是一种典型的优化问题，包括凸二次规划和非凸二次规划，是指带有二次型目标函数和约束条件的最优化问题。

1D配准方法可以如下：如步骤S195所示，由于三维网格图像中的顶点(mesh顶点)与二维剪影之间没有明确的点对点的对应关系，可以根据上述内参数将三维网格图像中的顶点先投影至二维空间，接着再投影至一维空间(比如，包括12个预设轴的一维空间)，得到第二投影结果。类似地，可以用边缘检测将二维剪影图像转化为二维对象轮廓，再投影到一维空间，得到第三投影结果。接着采用二次规划算法，对齐第二投影结果和第三投影结果，得到第二候选位置信息，以实现对三维网格图像和二维剪影图像的配准。

具体地，在得到第一候选位置信息和上述第二候选位置信息之后，可以自适应地对二者进行融合，得到上述预测位置信息。

本公开实施例中，通过自适应的2D-1D全局配准方法，不仅能够精准配准三维关键点和二维关键点，还能够精准配准三维网格图像和二维剪影图像，从而提高了预测位置信息的预测精度以及目标对象在目标空间中的三维位置信息的预测精度。

在一个具体的实施例中，在上述基于上述图像采集装置的内参数，将上述三维网格图像对应的三维关键点投影至上述二维空间，得到第一投影结果之前，上述方法还可以包括：

基于预设转化矩阵将上述三维网格图像转换为上述三维关键点。

具体地，可以通过MANO模型预定义一个预设转化矩阵，通过该转化矩阵，将该三维网格图像转换为上述三维关键点。

在一个具体的实施例中，图11所示是根据一示例性实施例示出的一种获取第一投影结果的流程图。如图11所示，在上述步骤S1901中，上述基于上述图像采集装置的内参数，将上述三维网格图像对应的三维关键点投影至上述二维空间，得到第一投影结果，可以包括：

在步骤S190101中，基于上述内参数将上述三维关键点投影至上述二维空间，得到投影后的二维关键点。

在步骤S190103中，将上述投影后的二维关键点作为上述第一投影结果。

在一个具体的实施例中，图12所示是根据一示例性实施例示出的一种确定上述预设关键点的第一候选位置信息的流程图。如图12所示，在上述步骤S1903中，上述基于上述第一投影结果和对应的二维关键点预测位置信息，确定上述预设关键点的第一候选位置信息，可以包括：

在步骤S19031中，基于上述投影后的二维关键点的位置信息和上述对应的二维关键点预测位置信息构建第一优化函数。

在步骤S19033中，在上述第一优化函数满足第一约束条件时，将上述第一优化函数对应的优化结果作为上述第一候选位置信息。

图13是根据一示例性实施例示出的2D-1D全局配准的原理示意图。如图13所示，对于2D配准方法，服务器可以将客户端采集的内参数与上述三维关键点相乘，以将上述三位关键点投影至上述二维空间，得到投影后的二维关键点。并根据该投影后的二维关键点和对应的二维关键点预测位置信息构建如下第一优化函数：

其中，E_2D为第一优化函数，p为二维关键点预测位置信息，q为投影后的二维关键点的位置信息。

在该第一优化函数满足第一约束条件时，将第一优化函数对应的优化结果(即E_2D的解)作为第一候选位置信息(t^2D)。

从上述第一优化函数的公式可以看出，基于上述投影后的二维关键点的位置信息和对应的二维关键点预测位置信息构建第一优化函数具体可以为：计算每个三维关键点的位置信息和对应的二维关键点预测位置信息之间的距离，得到每个关键点对应的距离，计算每个关键点对应的距离的和，将该距离的和作为第一优化函数，第一约束条件可以为使第一优化函数达到最小距离。

本公开实施例中，由于三维关键点和二维关键点之间存在一一对应的关系，因此，基于上述内部参数在2D空间中将二者直接对齐，可以精准配准三维关键点和二维关键点，提高投影后的二维关键点的预测精度和预测效率。通过预测精度和预测效率均较高的投影后的二维关键点构建上述第一优化函数，以对第一候选位置信息进行优化，能够提高第一候选位置信息的预测精度和预测效率。

在一个可选的实施例中，图14是根据一示例性实施例示出的一种获取第二投影结果的流程图。如图14所示，在上述步骤S1905中，上述基于上述内参数将上述三维网格图像中的顶点投影至上述二维空间，并基于上述一维空间中的预设轴的方向向量，将顶点投影结果投影至上述一维空间，得到第二投影结果，可以包括：

在步骤S19051中，基于上述内参数将上述顶点投影至上述二维空间，得到二维网格图像，并将上述二维网格图像作为上述顶点投影结果。

在步骤S19053中，基于上述预设轴的方向向量，将上述二维网格图像的顶点投影至上述一维空间，得到上述目标对象在上述预设轴上的第一投影数据。

在步骤S19055中，将上述第一投影数据作为上述第二投影结果。

继续如图13所示，由于三维网格图像和二维剪影图像之间没有明确的点对点的对应关系，可以采用1D配准方法，具体可以为：服务器预先在一维空间中定义预设数量个预设抽(比如，12个1D轴)。服务器将客户端采集的上述内参数与三维网格图像中的顶点(3Dmesh顶点)相乘，得到二维网格图像(2Dmesh)。服务器可以将二维网格图像(2Dmesh)的顶点与该预设轴的方向向量进行相乘，得到目标对象在该预设轴上的第一投影数据。由于顶点可以有多个，二维网格图像(2Dmesh)的顶点在该预设轴上的投影数据也应该有多个，则可以将最大投影数据和最小投影数据作为该第一投影数据。该第一投影数据可以作为该预设轴在一维空间的表达。

以目标对象为手部为例，图15所示是根据一示例性实施例示出的一种1D投影的原理示意图。如图15所示，对于某一预设轴而言，投影点与相应的投影数据之间的直线与该预设轴垂直。且由于预设轴的数量可以有多个，则均可以采用上述方式将三维网格图像中的顶点投影至每个预设轴，得到目标对象在每个预设轴上的第一投影数据。假设，预先定义了12个预设轴，则可以得到12个第一投影数据。

本公开实施例中，通过1D配准方法，即根据图像采集设备的内参数将三维网格图像中的顶点头投影到二维空间，再根据预设轴的方向向量投影至一维空间，三维网格图像投影的精度较高，且由于通过预设轴的方向向量即可实现投影，三维网格图像投影的效率较高。此外，将三维网格图像投影到一维空间，能够解决三维网格图像和二维剪影图像之间没有明确的点对点的对应关系的问题，便于三维网格图像和二维剪影图像的精准配准。

在一个可选的实施例中，图16所示是根据一示例性实施例示出的一种获取第三投影结果的流程图。如图16所示，在上述步骤S1907中，上述基于上述预设轴的方向向量，将上述二维剪影图像投影至上述一维空间，得到第三投影结果，可以包括：

上述步骤S19071中，基于边缘检测方法，将上述二维剪影图像转化为二维对象轮廓。

上述步骤S19073中，基于上述预设轴的方向向量，将上述二维对象轮廓投影至上述一维空间，得到上述目标对象在上述预设轴上的第二投影数据。

上述步骤S19075中，将上述第二投影数据作为上述第三投影结果。

示例性地，边缘检测算法可以包括但不限于：Sobel算子，Laplacian算子，Canny算子。

具体地，步骤S19073中的1D配准方法与上述步骤S19053类似，具体可以为：服务器将二维对象轮廓中的点与该预设轴的方向向量进行相乘，得到目标对象在该预设轴上的第二投影数据。由于二维对象轮廓中的点可以有多个，二维对象轮廓在该预设轴上的投影数据也应该有多个，则可以将最大投影数据和最小投影数据作为该第二投影数据。该第二投影数据可以作为该预设轴在一维空间的表达。

以目标对象为手部为例，继续如图15所示，对于某一预设轴而言，投影点与相应的投影数据之间的直线与该预设轴垂直。且由于预设轴的数量可以有多个，则均可以采用上述方式将二维对象轮廓投影至每个预设轴，得到目标对象在每个预设轴上的第二投影数据。假设，预先定义了12个预设轴，则可以得到12个第二投影数据。

本公开实施例中，通过1D配准方法，即根据预设轴的方向向量将二维剪影图像投影至一维空间，二维剪影图像投影的精度较高，且由于通过预设轴的方向向量即可实现投影，二维剪影图像投影的效率较高。此外，将二维剪影图像投影到一维空间，能够进一步解决三维网格图像和二维剪影图像之间没有明确的点对点的对应关系的问题，便于三维网格图像和二维剪影图像的精准配准。

在一个可选的实施例中，图17所示是根据一示例性实施例示出的一种确定上述预设关键点的第二候选位置信息的流程图。如图17所示，在上述步骤S1909中，上述基于上述第二投影结果和上述第三投影结果，确定上述预设关键点的第二候选位置信息，可以包括：

在步骤S19091中，基于上述第一投影数据和上述第二投影数据构建第二优化函数。

在步骤S19093中，在上述第二优化函数满足第二约束条件时，将上述第二优化函数所对应的优化结果作为上述第二候选位置信息。

示例性地，对于1D配准方法，服务器可以根据上述第一投影数据和第二投影数据构建如下第二优化函数：

其中，E_1D为第二优化函数，m为第一投影数据，n为第二投影数据。

在该第二优化函数满足第二约束条件时，将第二优化函数对应的优化结果(即E_1D的解)作为第二候选位置信息(t^1D)。

从上述第二优化函数的公式可以看出，构建第二优化函数具体可以为：计算每个预设轴上的第一投影数据和第二投影数据之间的相似程度，得到每个预设轴对应的相似程度，计算每个预设轴对应的相似程度的和，将该相似程度的和作为第二优化函数，第二约束条件可以为使第二优化函数达到最大相似程度(即相似程序大于预设阈值)。

本公开实施例中，通过1D配准方法，解决了三维网格图像和二维剪影图像之间没有明确的点对点的对应关系的问题，由于通过预设轴的方向向量即可实现投影，提高了三维网格图像和二维剪影图像配准的效率和准确率，通过预测精度和预测效率均较高的第一投影数据和第二投影数据构建上述第二优化函数，以对第二候选位置信息进行优化，从而提高了第二候选位置信息的预测精度和预测效率。

在一个可选的实施例中，图18是根据一示例性实施例示出的一种对上述第一候选位置信息和上述第二候选位置信息进行融合，得到上述预测位置信息的流程图。如图18所示，在上述步骤S19011中，上述对上述第一候选位置信息和上述第二候选位置信息进行融合，得到上述预测位置信息，可以包括：

在步骤S190111中，确定上述第一候选位置信息和上述第二候选位置信息之间的距离。

在步骤S190113中，在上述距离大于第一预设距离阈值时，将上述第二候选位置信息作为上述预测位置信息。

在步骤S190115中，在上述距离小于第二预设距离阈值时，将上述第一候选位置信息作为上述预测位置信息。

在步骤S190117中，在上述距离大于且等于上述第二预设距离阈值，以及小于且等于上述第一预设距离阈值时，基于上述距离、上述第一候选位置信息、上述第二候选位置信息、上述第一预设距离阈值和上述第二预设距离阈值，确定上述预测位置信息；其中，上述第一预设距离阈值大于上述第二预设距离阈值。

本公开实施例中，为了自适应地融合第一候选位置信息和上述第二候选位置信息，可以计算二者之间的距离d，并预定义两个预设距离阈值：第一预设距离阈值h1>第二预设距离阈值h2。当d>h1，预测位置信息为t＝t^1D，当d<h2，预测位置信息为t＝t^2D。否则按照如下公式计算预测位置信息：

本公开实施例中，通过第一候选位置信息和上述第二候选位置信息之间的距离，以及两个预设距离阈值，确定预测位置信息，能够提高预测位置信息确定的精度和效率。

在步骤S111中，基于上述三维网络图像和上述预测位置信息，确定上述目标对象在目标空间中的三维位置信息，上述目标空间表征采集上述目标图像的图像采集装置所对应的空间。

其中，目标对象在目标空间中的三维位置信息可以为目标对象在三维空间中的真实三维坐标。由于通过上述关键点热力图、第一网络和第二网络的预测，已经可以确定其他关键点相对于该预设关键点的相对位置坐标，则根据预设关键点的预测位置信息(即绝对位置坐标)，即可确定各个其他关键点的绝对位置坐标。通过该预设关键点和其他关键点的绝对位置坐标，即可确定目标对象在目标空间中的三维位置信息。

在一个可选的实施例中，可以将三维网格图像对应的三维关键点的位置信息与上述预测位置信息进行相加，得到目标对象在目标空间中的三维位置信息。

本公开实施例通过上述语义聚合和2D-1D的配准方式，提高了预设关键点在三维空间中的预测位置信息的预测精度和预测效率，进而以该高精度的预测位置信息为基础进行三维位置信息的预测，有效提高了目标对象在目标空间中的三维位置信息的预测精度和预测效率。经验证，采用本公开实施例中的方法可以使预设关键点(比如，关键点0)的预测位置信息的精度提高了10％，目标对象在目标空间中的三维位置信息的预测精度提高了20％。

图19是根据一示例性实施例示出的一种三维重建装置框图。参照图19，该装置可以包括目标图像获取模块21，第一位置信息提取模块23、语义聚合模块25、网格剪影信息提取模块27、投影模块29和三维位置信息确定模块211。

目标图像获取模块21，被配置为执行获取包含目标对象的目标图像。

第一位置信息提取模块23，被配置为执行将上述目标图像输入第一网络进行第一位置信息提取，得到上述目标图像的第一图像特征和上述目标对象的关键点热力图，上述关键点热力图表征上述目标对象的二维关键点初始位置信息。

语义聚合模块25，被配置为执行对上述关键点热力图进行语义聚合处理，得到语义聚合后的热力图。

网格剪影信息提取模块27，被配置为执行将上述第一图像特征和上述语义聚合后的热力图输入第二网络进行网格信息提取，得到上述目标对象的三维网格图像，以及将上述第一图像特征和上述语义聚合后的热力图输入上述第二网络进行剪影信息提取，得到上述目标对象的二维剪影图像。

投影模块29，被配置为执行将上述三维网格图像和二维剪影图像分别投影至预设维度空间，基于投影结果确定预设关键点在三维空间中的预测位置信息，上述预设关键点为上述三维网格图像的坐标原点，上述预设维度空间包括二维空间和一维空间。

三维位置信息确定模块211，被配置为执行基于上述三维网络图像和上述预测位置信息，确定上述目标对象在目标空间中的三维位置信息，上述目标空间表征采集上述目标图像的图像采集装置所对应的空间。

在一示例性的实施方式中，上述投影模块29，可以包括：

三维关键点投影单元，被配置为执行基于上述图像采集装置的内参数，将上述三维网格图像对应的三维关键点投影至上述二维空间，得到第一投影结果。

第一候选位置信息确定单元，被配置为执行基于上述第一投影结果和对应的二维关键点预测位置信息，确定上述预设关键点的第一候选位置信息，上述对应的二维关键点预测位置信息由上述第二网络对上述第一图像特征和上述语义聚合后的热力图进行第二位置信息提取得到。

顶点投影单元，被配置为执行基于上述内参数将上述三维网格图像中的顶点投影至上述二维空间，并基于上述一维空间中的预设轴的方向向量，将顶点投影结果投影至上述一维空间，得到第二投影结果。

剪影投影单元，被配置为执行基于上述预设轴的方向向量，将上述二维剪影图像投影至上述一维空间，得到第三投影结果。

第二候选位置信息确定单元，被配置为执行基于上述第二投影结果和上述第三投影结果，确定上述预设关键点的第二候选位置信息。

融合单元，被配置为执行对上述第一候选位置信息和上述第二候选位置信息进行融合，得到上述预测位置信息。

在一示例性的实施方式中，上述装置还可以包括：

网格转换模块，被配置为执行基于预设转化矩阵将上述三维网格图像转换为上述三维关键点。

相应地，上述三维关键点投影单元，可以包括：

投影后的二维关键点确定子单元，被配置为执行基于上述内参数将上述三维关键点投影至上述二维空间，得到投影后的二维关键点。

第一投影结果确定子单元，被配置为执行将上述投影后的二维关键点作为上述第一投影结果。

相应地，上述第一候选位置信息确定单元，可以包括：

第一优化函数构建子单元，被配置为执行基于上述投影后的二维关键点的位置信息和上述对应的二维关键点预测位置信息构建第一优化函数。

第一优化结果确定子单元，被配置为执行在上述第一优化函数满足第一约束条件时，将上述第一优化函数对应的优化结果作为上述第一候选位置信息。

在一示例性的实施方式中，上述顶点投影单元，可以包括：

二维网格图像确定子单元，被配置为执行基于上述内参数将上述顶点投影至上述二维空间，得到二维网格图像，并将上述二维网格图像作为上述顶点投影结果。

第一投影数据确定子单元，被配置为执行基于上述预设轴的方向向量，将上述二维网格图像的顶点投影至上述一维空间，得到上述目标对象在上述预设轴上的第一投影数据。

第二投影结果确定子单元，被配置为执行将上述第一投影数据作为上述第二投影结果。

在一示例性的实施方式中，上述剪影投影单元，可以包括：

剪影转换子单元，被配置为执行基于边缘检测方法，将上述二维剪影图像转化为二维对象轮廓。

第二投影数据确定子单元，被配置为执行基于上述预设轴的方向向量，将上述二维对象轮廓投影至上述一维空间，得到上述目标对象在上述预设轴上的第二投影数据。

第三投影结果确定子单元，被配置为执行将上述第二投影数据作为上述第三投影结果。

在一示例性的实施方式中，上述第二候选位置信息确定单元，可以包括：

第二优化函数构建子单元，被配置为执行基于上述第一投影数据和上述第二投影数据构建第二优化函数。

第二优化结果确定子单元，被配置为执行在上述第二优化函数满足第二约束条件时，将上述第二优化函数所对应的优化结果作为上述第二候选位置信息。

在一示例性的实施方式中，上述融合单元，可以包括：

距离确定子单元，被配置为执行确定上述第一候选位置信息和上述第二候选位置信息之间的距离。

第一预测位置信息确定子单元，被配置为执行在上述距离大于第一预设距离阈值时，将上述第二候选位置信息作为上述预测位置信息。

第二预测位置信息确定子单元，被配置为执行在上述距离小于第二预设距离阈值时，将上述第一候选位置信息作为上述预测位置信息。

第三预测位置信息确定子单元，被配置为执行在上述距离大于且等于上述第二预设距离阈值，以及小于且等于上述第一预设距离阈值时，基于上述距离、上述第一候选位置信息、上述第二候选位置信息、上述第一预设距离阈值和上述第二预设距离阈值，确定上述预测位置信息；其中，上述第一预设距离阈值大于上述第二预设距离阈值。

在一示例性的实施方式中，上述目标对象为手部，上述目标对象包括多个手指、多个运动链和多个手指尖部，则上述语义聚合模块25，可以包括：

二维关键点确定单元，被配置为执行从目标对象的二维关键点中，确定上述多个手指各自对应的二维关键点、上述多个运动链各自对应的二维关键点以及上述多个手指尖部各自对应的二维关键点。

手指热力图确定单元，被配置为执行将上述多个手指各自对应的二维关键点的关键点热力图进行语义聚合，得到上述多个手指各自对应的关键点热力图。

运动链热力图热确定单元，被配置为执行将上述多个运动链各自对应的二维关键点的关键点热力图进行语义聚合，得到上述多个运动链各自对应的关键点热力图。

手指尖部热力图热确定单元，被配置为执行将上述多个手指尖部对应的二维关键点的关键点热力图进行语义聚合，得到上述多个手指尖部对应的关键点热力图。

语义聚合后的热力图确定单元，被配置为执行将上述多个手指各自对应的关键点热力图、上述多个运动链各自对应的关键点热力图和上述多个手指尖部对应的关键点热力图，作为上述语义聚合后的热力图。

在一示例性的实施方式中，上述第一网络包括第一编码器和第一解码器，则上述第一位置信息提取模块23，可以包括：

第一图像特征获取单元，被配置为执行将上述目标图像输入上述第一编码器进行编码处理，得到上述第一图像特征。

关键点热力图获取单元，被配置为执行将上述第一图像特征输入上述第一解码器进行上述第一位置信息提取，得到上述关键点热力图。

在一示例性的实施方式中，上述第二网络包括第二编码器、螺旋解码器和卷积解码器，则上述网格剪影信息提取模块27，可以包括：

第二图像特征获取单元，被配置为执行将上述第一图像特征和上述语义聚合后的热力图输入上述第二编码器进行编码处理，得到第二图像特征。

三维网格图像获取单元，被配置为执行将上述第二图像特征输入上述螺旋解码器进行上述网格信息提取，得到上述三维网格图像。

二维剪影图像获取单元，被配置为执行将上述第二图像特征输入上述卷积解码器进行上述剪影信息提取，得到上述二维剪影图像。

在一示例性的实施方式中，上述装置还可以包括：

第二位置信息提取模块，被配置为执行将上述第二图像特征输入上述卷积解码器进行第二位置信息提取，得到上述目标对象的二维关键点预测位置信息。

在一示例性的实施方式中，上述目标图像获取模块21，可以包括：

原始图像获取单元，被配置为执行获取包含上述目标对象的原始图像。

检测单元，被配置为执行在上述原始图像中对上述目标对象进行检测，得到上述目标对象的对象检测区域。

扩充单元，被配置为执行以上述对象检测区域的中心为扩充中心，将上述原始图像向外部进行扩充，得到上述目标图像。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现上述实施例中任一三维重建方法的步骤。

该电子设备可以是终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图20是根据一示例性实施例示出的一种用于三维重建的电子设备的框图，该电子设备30可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)31(中央处理器31可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器33，一个或一个以上存储应用程序323或数据322的存储介质32(例如一个或一个以上海量存储设备)。其中，存储器33和存储介质32可以是短暂存储或持久存储。存储在存储介质32的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器31可以设置为与存储介质32通信，在电子设备30上执行存储介质32中的一系列指令操作。电子设备80还可以包括一个或一个以上电源36，一个或一个以上有线或无线网络接口35，一个或一个以上输入输出接口34，和/或，一个或一个以上操作系统321，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口34可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备30的通信供应商提供的无线网络。在一个实例中，输入输出接口34包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中，输入输出接口34可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图20所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备30还可包括比图20中所示更多或者更少的组件，或者具有与图20所示不同的配置。

在示例性实施例中，还提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例中任一三维重建方法的步骤。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一种实施方式中提供的三维重建方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种三维重建方法，其特征在于，包括：

获取包含目标对象的目标图像；

2.根据权利要求1所述的三维重建方法，其特征在于，所述将所述三维网格图像和二维剪影图像分别投影至预设维度空间，基于投影结果确定预设关键点在三维空间中的预测位置信息，包括：

3.根据权利要求2所述的三维重建方法，其特征在于，在所述基于所述图像采集装置的内参数，将所述三维网格图像对应的三维关键点投影至所述二维空间，得到第一投影结果之前，所述方法还包括：

将所述投影后的二维关键点作为所述第一投影结果；

4.根据权利要求2所述的三维重建方法，其特征在于，所述基于所述内参数将所述三维网格图像中的顶点投影至所述二维空间，并基于所述一维空间中的预设轴的方向向量，将顶点投影结果投影至所述一维空间，得到第二投影结果，包括：

将所述第一投影数据作为所述第二投影结果。

5.根据权利要求2所述的三维重建方法，其特征在于，所述对所述第一候选位置信息和所述第二候选位置信息进行融合，得到所述预测位置信息，包括：

6.根据权利要求1至5中任一项所述的三维重建方法，其特征在于，所述目标对象为手部，所述目标对象包括多个手指、多个运动链和多个手指尖部，则所述对所述关键点热力图进行语义聚合处理，得到语义聚合后的热力图，包括：

7.一种三维重建装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的三维重建方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备执行如权利要求1至6中任一项所述的三维重建方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的三维重建方法。