CN114219890A

CN114219890A - 一种三维重建方法、装置、设备及计算机存储介质

Info

Publication number: CN114219890A
Application number: CN202111336174.1A
Authority: CN
Inventors: 王磊; 刘薰裕; 马晓亮; 程俊
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-03-22

Abstract

本申请适用于三维重建领域，提供了一种三维重建方法、装置、设备及计算机存储介质，该方法包括：获取目标对象的2D姿态信息，2D姿态信息包括目标对象上多个关键点的位置坐标；将2D姿态信息输入到已训练的三维重建模型中进行处理，得到目标对象的三维模型；三维重建模型包括3D姿态回归网络和顶点回归网络；3D姿态回归网络用于从2D姿态信息中提取3D姿态信息；顶点回归网络用于将2D姿态信息和3D姿态信息的拼接信息进行处理得到目标对象的三维模型。该方法充分利用不同维度的姿态信息，使得到的三维模型对应的顶点坐标信息更加准确，从而提高了三维模型结构的准确性。

Description

一种三维重建方法、装置、设备及计算机存储介质

技术领域

本申请属于三维重建领域，尤其涉及一种三维重建方法、装置、设备及计算机存储介质。

背景技术

早期的三维模型的构建一般依赖于例如三位扫描仪或者多视角相机等设备通过扫描目标表面信息来建立对应的三维模型，这种方法需要使用价格昂贵、操作复杂设备才能够建立三维模型，建模成本高且效率低。

随着深度学习技术的不断发展，基于模型参数的三维重建方法成为了研究热点。基于模型参数的三维重建方法是通过训练优化姿势参数和形状参数来得到对应的三维模型，这种方法依赖于姿势参数和形状参数的优化程度，常常会导致预测结果不准确，使得生成的三维模型结构不准确。

发明内容

本申请实施例的目的在于提供一种三维重建方法、装置、设备及计算机存储介质，能够提高三维模型构建任务中三维模型结构的准确性。

本申请实施例是这样实现的，第一方面，本申请实施例提供了一种三维重建方法，上述方法包括：获取目标对象的2D姿态信息，2D姿态信息包括目标对象上多个关键点的位置坐标；将2D姿态信息输入到已训练的三维重建模型中进行处理，得到目标对象的三维模型；三维重建模型包括3D姿态回归网络和顶点回归网络；3D姿态回归网络用于从2D姿态信息中提取3D姿态信息；顶点回归网络用于将2D姿态信息和3D姿态信息的拼接信息进行处理得到目标对象的三维模型。

在其中一个实施例中，3D姿态回归网络包括依次连接的第一变形层、第一全连接层、多个第一残差块、第二全连接层和第二变形层；第一变形层用于将多个关键点的位置坐标转换为预设格式的特征向量；第二变形层用于将第二全连接层输出的特征信息转换为3D姿态信息。

在其中一个实施例中，多个第一残差块包括依次连接的归一化层、激活函数层和第三全连接层。

在其中一个实施例中，顶点回归网络包括依次连接的多个第一图卷积层、第三变形层、第四全连接层、第四变形层、中间层和多个第二图卷积层，中间层包括多个交替设置的第二残差块和上采样层；第三变形层、第四全连接层和第四变形层用于将多个第一图卷积层输出的特征图映射输入至中间层中。

在其中一个实施例中，第二残差块包括依次连接的多个图卷积层。

在其中一个实施例中，获取三维重建模型的过程包括：利用第一损失函数和第一训练集对3D姿态回归初始网络进行训练，得到更新后的3D姿态回归网络；利用第二损失函数和第二训练集对更新后的3D姿态回归网络和顶点回归初始网络进行训练，得到三维重建模型。

在其中一个实施例中，第二损失函数包括网格损失、3D损失、网格表面法向损失和网格表面边缘损失。

第二方面，本申请实施例提供了一种三维重建装置，该装置包括：获取单元，用于获取目标对象的2D姿态信息，2D姿态信息包括目标对象上多个关键点的位置坐标；

处理单元，用于将2D姿态信息输入到已训练的三维重建模型中进行处理，得到目标对象的三维模型；

三维重建模型包括3D姿态回归网络和顶点回归网络；3D姿态回归网络用于从2D姿态信息中提取3D姿态信息；顶点回归网络用于将2D姿态信息和3D姿态信息的拼接信息进行处理得到目标对象的三维模型。

第三方面，本申请实施例提供了一种终端设备，所述设备包括：处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序，使得所述设备执行第一方面中任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储了计算机程序，当所述计算机程序被处理器执行时，使得处理器执行第一方面中任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被计算机运行时，使得该计算机执行第一方面中任一项所述的方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请所提供的三维重建方法、装置、设备及计算机存储介质，利用3D姿态回归网络从目标对象的2D姿态信息中提取3D姿态信息，将提取的3D姿态信息和2D姿态信息进行拼接形成5D姿态信息，然后将5D姿态信息输入至顶点回归网络中进行处理，得到与所述目标对象三维模型对应的顶点坐标信息，从而构建与目标对象对应的三维模型。该方法可以基于顶点回归网络对拼接后的5D位置坐标进行处理，以充分利用不同维度的姿态信息，使得到的三维模型对应的顶点坐标信息更加准确，从而提高了三维模型结构的准确性。

附图说明

图1是本申请实施例提供的一种三维重建模型的网络框架图；

图2是本申请实施例提供的一种人体关节树的对比示意图；

图3是本申请实施例提供的一种三维重建方法的人体网格效果图；

图4是本申请实施例提供的一种基于人体三维重建模型的重建效果图；

图5是本申请实施例提供的一种三维重建装置的结构示意图；

图6是本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

针对三维模型构建任务，本申请提供一种三维重建方法，在获取到目标对象的2D姿态信息后，利用3D姿态回归网络从目标对象的2D姿态信息中提取3D姿态信息，将提取的3D姿态信息和2D姿态信息进行拼接形成5D姿态信息，然后将5D姿态信息输入至顶点回归网络中进行处理，得到与所述目标对象三维模型对应的顶点坐标信息，从而构建与目标对象对应的三维模型。该方法可以基于顶点回归网络对拼接后的5D位置坐标进行处理，以充分利用不同维度的姿态信息，使得到的三维模型对应的顶点坐标信息更加准确，从而提高了三维模型结构的准确性。

下面以具体地实施例对本申请的技术方案进行详细说明。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

首先，结合图1对本申请提供的一种三维重建模型进行示例性的介绍。该三维重建模型可以部署在三维重建处理设备中，该三维重建处理设备可以是智能手机、平板电脑、摄像机等移动终端，还可以是台式电脑、机器人、服务器等能够进行三维模型重建的设备。

本申请提供的三维重建模型包括3D姿态回归网络和顶点回归网络。其中，3D姿态回归网络包括依次连接的第一变形层、第一全连接层、多个第一残差块、第二全连接层和第二变形层，第一变形层用于将输入的2D姿态信息转换为预设格式的特征向量，例如，针对人体三维重建模型，转换过程可以是R^m×n→R^m·n的转换，其中，m可以表示人体关节树中关键点的数量，n可以表示人体2D姿态信息的维数；第一全连接层用于将第一变形层转换后的特征向量映射成更高维度的特征向量；多个第一残差块用于从不同2D姿态信息中提取更高维度的特征；第二全连接层用于将更高维度的特征向量逆映射成与3D姿态信息对应维度的特征向量，第二变形层用于将第二全连接层输出的特征向量对应转换为3D姿态信息，例如，针对人体三维重建模型，转换过程可以是R^m·n→R^m×n的转换，其中，m可以表示人体关节树中关键点的数量，n可以表示人体3D姿态信息的维数。

在一个示例中，如图1所示多个第一残差块均包括依次连接的归一化层、激活函数层和第三全连接层，上述多个第一残差块用于从不同2D姿态信息中提取更高维度的特征。参见图1，多个第一残差块可以包括两个第一残差块，第一残差块的数量可以根据第二变形层输出的与2D姿态信息对应的3D姿态信息的准确性进行设计。

该3D姿态回归网络在执行三维模型重建任务时，首先将2D姿态信息映射成更高维度的特征向量，然后利用多个第一残差块从不同2D姿态信息中提取更高维度的特征，再对更高维度特征进行逆映射，得到与上述2D姿态信息对应的3D姿态信息。不难理解的，当上述2D姿态信息包括与目标对象对应的多个关键点的二维位置坐标时，3D姿态信息则对应的包括与目标对象对应的多个关键点的三维位置坐标。

在本申请实施例中，顶点回归网络包括如图1所示的依次连接的多个第一图卷积层、第三变形层、第四全连接层、第四变形层、中间层和多个第二图卷积层。多个第一图卷积层用于从2D姿态信息和3D姿态信息拼接后的信息中提取与图结构对应的特征图；第三变形层、第四全连接层和第四变形层用于实现图结构的特征图与三维模型对应的特征图之间的映射，其中三维模型包括多个图结构。

为便于表示，图1中用一条粗线划分了中间层部分，中间层包括多个交替设置的第二残差块和上采样层，其中，第二残差块包括依次连接的多个第三图卷积层。中间层用于提取三维模型对应的不同分辨率的特征图。在执行三维模型重建任务时，第二残差块用于提取对应分辨率的特征图，上采样层用于连接相邻分辨率的特征图，经中间层输出的特征图是具有较高维度的特征图。

多个第二图卷积层用于输出降维后的特征图。即中间层输出的具有较高维度的特征图经多个第二图卷积层降维处理后，可以得到与目标对象2D姿态信息对应的三维模型的特征图。示例性的，当2D姿态信息包括与目标对象对应的多个关键点的二维位置坐标，3D姿态信息包括与目标对象对应的多个关键点的三维位置坐标时，则由多个第二图卷积层输出的特征图即是与目标对象的三维模型对应的多个图结构的顶点位置坐标，从而完成目标对象的三维模型重建任务。

需要说明的是，多个第一图卷积层、多个第二图卷积层以及第二残差块中依次连接的多个第三图卷积层均包括图卷积层、归一化层和激活函数层。

为了降低计算的复杂度，在本申请实施例中各个图卷积层均采用切比雪夫图卷积，也就是说使用切比雪夫多项式来构建图卷积算法。其中，切比雪夫多项式包括以下公式：

T₀(x)＝1；T₁(x)＝x；

T_n+1(x)＝2xT_n(x)-T_n-1(x) (1)

示例性的，构建图拓扑结构为G＝(V,A,F)，其中V表示顶点，A表示边，F表示顶点的特征，该图拓扑结构G的归一化拉普拉斯算子可以表示为：

L＝I-D^-1/2AD^-1/2 (2)

其中，D表示对角矩阵中图拓扑结构G中各个顶点的度数，I为单位矩阵，A表示图拓扑结构G中的边，该图G对应的标度拉普拉斯算子表示为：

将该图拓扑结构G进行图卷积的操作定义为：

上述公式中

表示输入特征，

表示输出特征，N表示图拓扑结构G中顶点的数量，K表示使用K阶切比雪夫多项式，

表示特征变化矩阵，R表示实数。因此，将上述公式(1)、公式(2)和公式(3)带入公式(4)中，即可实现提取图拓扑结构G对应的特征图。

示例性的，本申请实施例提供一种中间层搭建上采样层的方法，中间层搭建上采样层的过程包括构建基本的三维模型网格和对上述三维模型网格进行特征提取的上采样过程。

首先，构建基本的三维模型网格。构建基本的三维模型网格的过程包括：由于三维模型网格为一组顶点、边以及顶点特征的集合，即一组图结构。因此，将图拓扑结构定义为G＝(V,A,F)，其中，V∈R^n×3表示三维模型网格中顶点集，n表示三维模型网格顶点的数量，R为实数；F∈R^n×f表示三维模型网格顶点对应的特征，f表示特征的维度；A∈{0,1}^n×n是一个邻接矩阵，例如，假设顶点i和顶点j是构成邻接矩阵中的两个顶点，若顶点i和顶点j相连，则A_i,j＝1，反之若顶点i和顶点j不相连，则A_i,j＝0。

然后，构建与上述基本的三维模型网格对应的采样过程。示例性的，该采样过程可以通过改进现有的表面简化算法而得到的，即在表面简化算法基础上，设置以下条件：①(v_i，v_j)是有效顶点对当且仅当(v_i，v_j)是一条边；②顶点对收缩条件为

的取值为v_i或v_j。同时每次选取收缩代价最小的顶点对进行收缩，迭代循环进行顶点对收缩，得到采样后的目标网格。其中，顶点对的收缩代价如公式(5)所示：

上述公式(5)中，

表示顶点对(v_i，v_j)收缩结果对应的坐标向量，Q_i和Q_j分别是顶点v_i和v_j所对应的4×4对称矩阵。

在采样过程中，顶点对的收缩会丢失和/或重组原始网格(即基本的三维模型网格)上一些点、边和网格面，这是通过改变图拓扑结构G中的邻接矩阵A实现的。因此，可以基于上述采样过程建立对应的下采样矩阵D∈{0,1}^n×m且m>n。

示例性的，若顶点v_p在下采样过程中保留，则该顶点v_p对应的下采样矩阵D(q,p)＝1；若顶点v_p在下采样过程中被丢弃，则该顶点v_p对应的下采样矩阵D(q,p)＝0，其中p和q分别表示顶点对应的索引。

其中，建立对应的下采样过程包括：将与三维模型对应的图拓扑结构定义为：

对应的下采样矩阵定义为：

其中

表示向下取整，

表示顶点的数量，C表示采样频率。

根据上述步骤，将下采样过程中顶点的特征定义为：

或者

其中，

根据V_c＝D_cV_c+1可得

最后，构建了与基本的三维模型网格对应的下采样过程后，通过对上述下采样过程进行逆映射，可以得到与基本的三维模型网格对应的上采样过程。上采样过程的构建包括：

设置上采样过程对应的条件：①对于下采样过程中保留的顶点在上采样过程中也保留，即D(q,p)＝1则对应的U(p,q)＝1；②对于下采样过程中被丢弃的顶点v_p，即D(q,p)＝0，则对应的上采样过程中将该顶点v_p对应投影到距离下采样过程中三维模型网格M_c+1最近的网格(i,j,k)的重心坐标

上，其中，重心坐标可以通过

得到，w_i+w_j+w_k＝1，且v_i,v_j,v_k∈V_c+1，因此，U(p,i)＝w_i，U(p,j)＝w_j，U(p,k)＝w_k。这样就可以建立上采样矩阵

对应与上采样过程的三维模型网格顶点特征即可定义为

综上，基于上述基本的三维模型网格与对应的上采样过程即可构建如图1所示的中间层中的一个上采样层，通过与第二残差块的结合可以实现提取一种分辨率的特征图。为了实现不同分辨率三维模型网格的特征提取，可以设置与分辨率种类对应的第二残差块和上采样层即可。

示例性的，参见图1，本申请实施例构建了中间层包括的交替设置的五个第二残差块和四个上采样层，即建立了可以提取五种不同分辨率特征图的中间层。这种搭建模式可以有效户缓减网络模型的学习压力。

值得说明的是，中间层包括的交替设置的第二残差块和上采样层的数量可以根据实际应用需求进行设计，本申请对此不作任何限定。

应该理解的，根据实际实验可得，通过第三图卷积层和上采样层的结合搭建中间层，能够有效降低三维重建模型的计算复杂度，并减低了与三维重建模型对应的硬件设备的内存消耗。

需要说明的是，本申请提供的网络模型具备泛用性。可以应用于任何三维模型重建任务或者以三维模型重建效果为评价指标的任务中。例如，人体三维模型重建、三维文物模型重建等多种模型重建任务中。

可以理解的是，针对不同的三维模型重建任务，可以通过设计对应的训练集和损失函数来训练初始三维重建模型，从而得到能够适用于不同三维模型重建任务的三维重建模型。

根据实际应用需求，训练该三维重建模型的执行主体与使用该三维重建模型进行三维模型重建任务的执行主体可以是相同的，也可以是不同的。

下面以人体三维模型重建任务，对本申请提供的三维模型模型的训练过程和效果进行示例性的说明。

第一步，针对人体三维模型重建任务获取对应的训练集。训练集可以直接利用现有人体姿态数据集中的人体图像样本，例如，Human 3.6M数据集、上下文中的常见对象(Common Objects in Context，COCO)数据集和/或多人合成3D人体姿态(MultipersonComposited 3D Human Pose，MuCo-3DHP)数据集中的人体图像样本等。训练集也可以是通过手机、相机等采集的人体图像样本。训练集还可以是从公开的视频网站中获取的人体图像样本。

在获取到用于人体三维模型重建任务的图像样本之后，对获取的图像样本中人体2D关键点的进行检测，得到人体的2D姿态信息样本，其中，人体的2D姿态信息样本包括与该人体对应的多个关键点的位置坐标。应该理解的，获取人体的2D姿态信息样本的方式可以是通过采用开源的人体姿态识别项目实现人体2D关键点的检测，从而得到人体的2D姿态信息样本。示例性的，开源的人体姿态识别项目如OpenPose、AlphPose、高分辨率网络(High--Resolution Network，HRNet)等。

根据实际应用，获取2D姿态信息样本的方式还可以是直接从数据集中获取2D姿态信息样本。示例性的，利用Archive of Motion Capture as Surface Shapes(AMASS)数据集中的数据生成2D姿态信息样本。其获取2D姿态信息样本的过程包括：首先利用AMASS数据集中的数据得到对应的人体网格，从获取的人体网格中提取人体3D姿态信息样本；然后根据预定义的相机参数对上述提取到的人体3D姿态信息样本作投影，得到2D姿态信息样本。

在一个示例中，本申请利用开源的人体姿态识别项目HRNet预测对应预设的人体关节树中每个关键点在图像样本中的位置坐标，来获取到人体的2D姿态信息。应该理解的，由于使用开源的人体姿态识别项目HRNet获取人体的2D姿态信息，可以避免使用其他开源项目后从预测的较多的人体关键点中挑选适用于后续三维重建模型的关键点，进一步缩短搭建人体三维重建模型的时间。

在一种可能的实施方式中，人体关节树可以使用不同格式(例如COCO格式、humam3.6M格式或者MPII格式等)构成的人体关键点，人体关节树也可以是用户根据实际应用需求自定义设计的，本申请对此不作任何限定。

为了提高应用的广泛性，扩展数据的复用性，满足实际应用需求，参见图2中的(a)为本申请使用COCO格式的人体关节树，本申请在其基础上增加了两个新的关键点，增加的两个新的关键点如图2中的(b)17号关键点和18号关键点所示，17号关键点是取11号和12号关键点的平均值而确定，同理，18号关键点是取5号和6号关键点的平均值而确定的。因此，本申请根据共19个关键点(即0,1,……,17,18)的人体关节树和人体姿态识别项目HRNet获取人体的2D姿态信息。

应该理解的，根据不同的实际应用需求，可以采用不同的人体关节树和/或不同的人体姿态识别项目(例如，自定义的人体姿态识别方法)来获取人体的2D姿态信息。当三维模型构建的任务不同时，则可以通过不同的方法来获取不同目标对象的2D姿态信息，本申请对此不作任何限定。

第二步，利用从训练集中获取的人体2D姿态信息样本和预设的损失函数对三维重建初始模型进行迭代训练，得到三维重建模型。预设的损失函数用于描述预测的人体三维模型和真实的人体三维模型样本之间的损失。

在三维重建初始模型搭建完成后，将获取的人体2D姿态信息样本输入到三维重建初始模型中，三维重建初始模型对人体2D姿态信息样本进行处理，得到预测的人体三维模型。

针对人体三维模型重建任务，示例性的，分别采用以下损失函数对三维重建初始模型中的3D姿态初始回归网络和顶点初始回归网络进行训练。

首先，根据实际应用可得，本申请使用开源的人体姿态识别项目HRNet获取人体的2D姿态信息通常包含有误差，因此，为了提高3D姿态回归网络对人体2D姿态信息处理的鲁棒性，在对3D姿态初始回归网络进行训练时，输入的人体2D姿态信息包括人体2D姿态信息样本和误差。

然后，本申请基于Human 3.6M数据集和COCO数据集首先对3D姿态初始回归网络进行训练，可以得到训练后的3D姿态更新回归网络，使用的损失函数如下：

L_pose＝||P^3D-P^3D*||₁ (6)

上述公式(6)中，P^3D表示3D姿态初始回归网络预测得到的人体3D姿态信息，P^3D*表示人体的2D姿态信息样本中的人体3D姿态信息。基于上述数据集和公式(6)中的损失函数，对3D姿态初始回归网络进行迭代训练，直到网络收敛，即可得到训练后的3D姿态更新回归网络。

根据实际实验数据，本申请对3D姿态初始回归网络迭代训练了60次后，得到训练后的3D姿态更新回归网络。

最后，基于Human 3.6M数据集、COCO数据集和AMASS数据集对训练后的3D姿态更新回归网络和顶点初始回归网络进行训练，得到已训练的3D姿态回归网络和已训练的顶点回归网络，即人体三维重建模型。上述训练过程中使用的损失函数参见公式(7)包括网格损失、3D损失、网格表面法向损失和网格表面边缘损失。

loss＝λ_aL_v+λ_bL_j+λ_cL_n+λ_dL_e (7)

其中，λ_a、λ_b、λ_c和λ_d为常数；L_v＝||M-M^*||₁表示人体网格损失值，M^*表示人体网格的真实值，M表示人体网格的预测值；L_j＝||JM-J^3D*||₁表示人体3D关节损失值，J^3D*表示人体3D关节的真实值，JM表示人体3D关节的预测值，J∈R^v×N是从人体网格中提取的人体3D关节的矩阵；

表示所述人体网格表面法向损失，f表示人体网格的三角形面，

表示f的单位法向量，m_i和m_j分别表示f中的两个顶点坐标；

表示人体网格表面边缘损失。

基于上述训练集和公式(7)中的损失函数，可以对训练后的3D姿态更新回归网络和顶点初始回归网络进行迭代训练，当网络收敛时即可得到训练完成的三维重建模型。

同样地，根据实际实验数据，本申请对对训练后的3D姿态更新回归网络和顶点初始回归网络迭代训练了15次后，网络收敛，最终得到了训练完成的三维重建模型。

在一个示例中，针对人体三维模型重建任务，本申请在获取人体的2D姿态信息后，将获取的人体2D姿态信息输入至已训练的三维重建模型进行处理，得到人体三维重建模型。其中，已训练的三维重建模型对人体2D姿态信息进行处理的过程还包括：

①对获取的人体2D姿态信息进行标准归一化处理，即对获取的人体2D姿态信息减去平均值，然后除以标准差。

②将进行标准归一化处理后的人体2D姿态信息输入至3D姿态回归网络中进行处理，得到3D姿态信息。3D姿态回归网络包括如图1所示的依次连接的第一变形层、第一全连接层、两个第一残差块、第二全连接层和第二变形层。其中，两个第一残差块均包括依次连接的归一化层、激活函数层和第三全连接层。

本申请将人体2D姿态信息定义为P^2D∈R^J×2，R为实数，J表示人体关节树中的关键点的数量，由于本申请使用的人体关节树中包括19个关键点，因此，J＝19。

第一变形层将人体2D姿态信息对应的展开成特征向量，即R^19×2→R³⁸。第一全连接层用于将38维的特征向量映射成4096维的特征向量，即R³⁸→R⁴⁰⁹⁶。两个第一残差块用于根据不同的2D姿态信息学习4096维特征。第二全连接层用于将4096维的特征向量映射成57维的特征向量，即R⁵⁷。第二变形层与第一变形层对应，用于将57维的特征向量转换成对应的3D姿态信息，即通过R⁵⁷→R^19×3获取到P^3D∈R^J×3。

③将第二步得到的3D姿态信息和2D姿态信息进行拼接，再输入至已训练的顶点回归网络中处理，得到与人体对应的三维模型。已训练的顶点回归网络包括如图1所示的依次连接的三个第一图卷积层、第三变形层、第四全连接层、第四变形层、中间层和两个第二图卷积层，其中，中间层包括五个第二残差块和四个上采样层，且上述五个第二残差块和四个上采样层交替设置。

示例性的，针对人体三维模型重建任务，本申请实施例可以根据多人线性皮肤(Skinned Multi-Person Linear，SMPL)模板生成与人体三维模型对应的人体网格拓扑结构，该人体网格拓扑结构定义为：

对应的下采样矩阵定义为：

其中

表示向下取整，

表示顶点的数量，且设置下采样过程中采样频率C为4，由于SMPL模板的人体网格的顶点数为6890，当设置下采样的采样频率为4(即D₀、D₁、D₂和D₃)时，则可以生成如图3所示的人体网格效果，

表示顶点数为6890的人体网格拓扑结构，

表示在第一次下采样后获取到的顶点数为1723的人体网格拓扑结构，

表示在第二次下采样后获取到的顶点数为431的人体网格拓扑结构，

表示在第三次下采样后获取到的顶点数为108的人体网格拓扑结构，

表示在第四次下采样后获取到的顶点数为27的人体网格拓扑结构。

本申请中，将3D姿态信息和2D姿态信息拼接后，得到拼接后的5D姿态信息，即P∈R^J×5；三个第一图卷积层用于从拼接后的5D姿态信息获取对应图结构G＝(V,A,F)的特征图F_P，其中，将F_P初始化为P，即F_P＝P∈R^J×5，经三个第一图卷积处理输出F_P∈R^J×64，也就是说，经三个第一图卷积处理后得到的每个顶点的特征为64维。

将F_P∈R^J×64输入第三变形层、第四全连接层以及第四变形层中进行处理，即可完成图结构中顶点特征图的映射，也就是将图结构G＝(V,A,F)中的G_P对应的特征图F_P∈R^J×64映射至人体网格拓扑结构

中对应的特征图

上，其中|V₄|表示人体网格拓扑结构

中的顶点数量。

基于下采样过程经过逆映射来构建应用于本申请中的中间层的上采样层，得到上采样矩阵组为

相邻两个第二残差块之间由上采样层连接。这样根据预定义的拓扑结构

依次经过

进行卷积操作，从而基于不同顶点数的人体网格拓扑结构

提取对应的特征图F_c，即F_c＝U_cF_c+1，c＝[3,2,1,0]，经中间层的五个第二残差块处理，最后得到与人体网格拓扑结构

对应的特征图F₀∈R^6890×128，其中，6890为人体网格拓扑结构

对应的顶点的数量，且每个顶点的特征维度是128维。

顶点回归网络中的两个第二图卷积层用于降低将中间层输出的特征图中每个顶点的特征的维度，即将人体网格拓扑结构

对应的特征图F₀∈R^6890×128中每个顶点的特征维度从128维降低到3维。经两个第二图卷积层的处理输出的特征图是人体网格拓扑结构

中对应的V₀∈R^N×3，即人体网格拓扑结构中网格顶点的位置信息，获取到V₀∈R^N×3后即可以完成重建人体三维模型。

下面以图1所示的三维重建模型为例，对本申请提供的三维重建模型的性能进行说明。

表1

如表1所示是本申请提供的三维重建模型与其他方法采用相同训练集进行训练的对比结果，本申请提供的三维重建模型与其他方法均使用相同的数据集进行训练，训练的数据集为COCO数据集和Human3.6M数据集，测试集采用Human3.6M数据集和3DPW数据集。表1中，其他方法包括：Human Mesh Recovery(HMR)、通过循环模型拟合来学习重建3D人的姿势和形状的SPIN方法、图卷积网格回归(Convolutional Mesh Regression，GraphCMR)以及用于3D人体姿势和网格从2D人体姿势恢复的图形卷积网络的Pose2Mesh方法。平均关节位置误差(Mean Per Joint Position Error，MPJPE)表示人体姿态估计精度，即预测的3D关节位置与真实值之间的误差，MPJPE的取值越低说明预测的越精准；PA MPJPE表示在做对其变换之后关节的平均误差；MPVPE表示预测的三维人体网格与真实三维人体网格各个顶点位置的平均误差。

从表1可以看出，在相同的测试集下，本申请提供的三维重建模型具备非常好的实验效果。

如表2所示是本申请提供的三维重建模型与其他方法采用各自对应的训练集进行训练后，在Human 3.6M数据集和3D Poses in the Wild(3DPW)数据集上的对比结果，本申请利用Human 3.6M数据集、COCO数据集和AMASS数据集对三维重建模型进行训练。

表2

由于3DPW是室外环境下采集的数据集，Human3.6M是实验室环境下采集的数据，从表2可以看出，在不同方法采用各自对应的训练集训练后，说明本申请提供的三维重建模型在非实验室环境下数据集下具备较好的实验效果。

如表3所示是本申请提供的三维重建模型与其他方法在其他方面性能的对比结果，其中，GPU mem反映的是训练过程当每批处理的训练集的样本的个数为64时，显存的使用情况；No.param表示网络模型的参数量；Avg.time表示模型推理的平均时间。

表3

methods	GPU mem	No.Param	Avg.time	MPJPE	PA MPJPE
						Pose2mesh	6G	8.8M	132ms	64.9mm	48.7mm
三维重建模型	0.9G	2.5M	34ms	64.6mm	47.4mm

从表3可以看出，本申请提供的三维重建模型具备较好的实验效果。

如图4为利用本申请提供的人体三维重建模型对不同图片进行处理后，得到的人体三维模型的示例。从图4列举的四个示例可以看出，本申请提供三维重建模型对待处理图像中的目标对象的2D姿态信息进行处理的方法，能够充分利用不同维度的姿态信息，使得到的三维模型对应的顶点坐标信息更加准确，相比与现有技术，明显能够提高三维模型的精度。

基于同一发明构思，本申请实施例还提供了一种三维重建装置。如图5所示，本申请实施例还提供了一种三维重建装置，该三维重建装置100包括：

获取单元101，用于获取目标对象的2D姿态信息，2D姿态信息包括与目标对象对应的多个关键点的位置坐标；

处理单元102，用于将目标对象的2D姿态信息输入到已训练的三维重建模型中进行处理，得到目标对象的三维模型；三维重建模型包括3D姿态回归网络和顶点回归网络；3D姿态回归网络用于从2D姿态信息中提取3D姿态信息；将2D姿态信息和3D姿态信息进行拼接后输入至顶点回归网络中进行处理得到目标对象的三维模型。

在其中一个实施例中，3D姿态回归网络包括依次连接的第一变形层、第一全连接层、多个第一残差块、第二全连接层和第二变形层；第一变形层用于将多个关键点的位置坐标转换为预设格式的特征向量；第二变形层用于将第二全连接层输出的数据转换为3D姿态信息。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

基于同一发明构思，本申请实施例还提供了一种终端设备，该终端设备200如图6所示。

如图6所示，该实施例的终端设备200包括：处理器201、存储器202以及存储在存储器202中并可在处理器201上运行的计算机程序203。计算机程序203可被处理器201运行，生成指令，处理器201可根据指令实现上述各个权限认证方法实施例中的步骤。或者，处理器201执行计算机程序203时实现上述各装置实施例中各模块/单元的功能。

示例性的，计算机程序203可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器202中，并由处理器201执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序203在终端设备200中的执行过程。

本领域技术人员可以理解，图6仅仅是终端设备200的示例，并不构成对终端设备200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备200还可以包括输入输出设备、网络接入设备、总线等。

处理器201可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器202可以是终端设备200的内部存储单元，例如终端设备200的硬盘或内存。存储器202也可以是终端设备200的外部存储设备，例如终端设备200上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(FlashCard)等。进一步地，存储器202还可以既包括终端设备200的内部存储单元也包括外部存储设备。存储器202用于存储计算机程序以及终端设备200所需的其它程序和数据。存储器202还可以用于暂时地存储已经输出或者将要输出的数据。

本实施例提供的终端设备可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的方法。

本申请实施例还提供一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现上述方法实施例的方法。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

在本申请中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

此外，在本申请中，除非另有明确的规定和限定，术语“连接”、“相连”等应做广义理解，例如可以是机械连接，也可以是电连接；可以是直接连接，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定、对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种三维重建方法，其特征在于，所述方法包括：

获取目标对象的2D姿态信息，所述2D姿态信息包括所述目标对象上多个关键点的位置坐标；

将所述2D姿态信息输入到已训练的三维重建模型中进行处理，得到所述目标对象的三维模型；

所述三维重建模型包括3D姿态回归网络和顶点回归网络；所述3D姿态回归网络用于从所述2D姿态信息中提取3D姿态信息；所述顶点回归网络用于将所述2D姿态信息和所述3D姿态信息的拼接信息进行处理得到所述目标对象的三维模型。

2.根据权利要求1所述的方法，其特征在于，所述3D姿态回归网络包括依次连接的第一变形层、第一全连接层、多个第一残差块、第二全连接层和第二变形层；所述第一变形层用于将所述多个关键点的位置坐标转换为预设格式的特征向量；所述第二变形层用于将所述第二全连接层输出的特征信息转换为所述3D姿态信息。

3.根据权利要求2所述的方法，其特征在于，多个所述第一残差块包括依次连接的归一化层、激活函数层和第三全连接层。

4.根据权利要求1所述的方法，其特征在于，所述顶点回归网络包括依次连接的多个第一图卷积层、第三变形层、第四全连接层、第四变形层、中间层和多个第二图卷积层，所述中间层包括多个交替设置的第二残差块和上采样层；

所述第三变形层、所述第四全连接层和所述第四变形层用于将所述多个第一图卷积层输出的特征图映射输入至所述中间层中。

5.根据权利要求4所述的方法，其特征在于，所述第二残差块包括依次连接的多个图卷积层。

6.根据权利要求1所述的方法，其特征在于，获取所述三维重建模型的过程包括：

利用第一损失函数和第一训练集对3D姿态回归初始网络进行训练，得到更新后的3D姿态回归网络；

利用第二损失函数和第二训练集对所述更新后的3D姿态回归网络和顶点回归初始网络进行训练，得到所述三维重建模型。

7.根据权利要求6所述的方法，其特征在于，所述第二损失函数包括网格损失、3D损失、网格表面法向损失和网格表面边缘损失。

8.一种三维重建装置，其特征在于，所述装置包括：

获取单元，用于获取目标对象的2D姿态信息，2D姿态信息包括目标对象上多个关键点的位置坐标；

处理单元，用于将所述2D姿态信息输入到已训练的三维重建模型中进行处理，得到目标对象的三维模型；

三维重建模型包括3D姿态回归网络和顶点回归网络；所述3D姿态回归网络用于从所述2D姿态信息中提取3D姿态信息；所述顶点回归网络用于将所述2D姿态信息和所述3D姿态信息的拼接信息进行处理得到所述目标对象的三维模型。

9.一种终端设备，其特征在于，所述设备包括：处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序，使得所述设备执行权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储了计算机程序，当所述计算机程序被处理器执行时，使得处理器执行权利要求1至7中任一项所述的方法。