CN115115780A

CN115115780A - 基于多视角rgbd相机的三维重建方法及系统

Info

Publication number: CN115115780A
Application number: CN202210757699.0A
Authority: CN
Inventors: 刘彭鹏; 刘烨斌; 陈春朋; 刘元伟; 王宝云; 于芝涛; 吴连朋
Original assignee: Tsinghua University; Hisense Visual Technology Co Ltd; Juhaokan Technology Co Ltd
Current assignee: Tsinghua University; Hisense Visual Technology Co Ltd; Juhaokan Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-27
Anticipated expiration: 2042-06-29
Also published as: CN115115780B

Abstract

本申请涉及三维重建技术领域，提供一种基于多视角RGBD相机的三维重建方法及系统，通过基于隐式表达的三维重建和可微渲染技术，构建一个端到端的自监督优化网格，用于提高多个RGBD相机间相对位姿的准确性。在该网络中，根据多个RGBD相机采集的图像对，采用基于隐式表达的三维重建方法重建几何模型，从而充分挖掘和利用不可见区域的几何先验信息，即便图像对之间重叠区域较小甚至没有重叠区域时，利用几何模型中的采样点对依然能够确定出相对位姿，并根据几何模型可微渲染的结果，对初始相对位姿进行全局优化，得到准确的目标相对位姿，这样，在根据目标相对位姿进行三维重建时，能够提高三维模型的重建质量。

Description

基于多视角RGBD相机的三维重建方法及系统

技术领域

本申请涉及三维重建技术领域，提供一种基于多视角RGBD相机的三维重建方法及系统。

背景技术

三维重建技术是移动机器人自主导航、位置环境模型重构、大规模数字化监控等的重要组成部分，也是虚拟现实(Virtual Reality，VR))、增强现实(Augmented Reality，AR)技术的基础，经过重建后的三维模型可以直接应用到VR或AR的场景中。

随着成像技术的不断发展，基于RGB相机的视觉三维重建技术逐渐成为研究热点。随后，RGBD相机的出现，进一步提高了基于视觉进行三维重建的质量和效率。

在三维重建领域中，主要包括基于单视角图像的三维重建，以及基于多视角图像的三维重建。其中，基于多视角图像进行三维重建时，需要确定RGBD相机间的相对位姿。

目前，利用RGBD相机采集的图像估计相机间的相对位姿时，大多数方法要求不同视角的RGBD相机采集的图像之间有较大的重叠区域，通过对重叠区域内提取的特征点进行破匹配，从而确定出RGBD相机间的相对位姿，这样，便对多视角RGBD相机的布局产生了严格的限制，并且，如果不同视角的RGBD相机采集的图像的重叠区域较小或没有重叠，将严重降低相对位姿计算的准确性，进而降低的三维重建的质量。

发明内容

本申请提供了一种基于多视角RGBD相机的三维重建方法及系统，用于提高相机间相对位姿的准确性，进而提高三维重建的质量。

一方面，本申请提供一种基于多视角RGBD相机的三维重建方法，包括：

根据至少两个RGBD相机各自采集的图像对，采用基于隐式表达的三维重建方法，分别重建单视角几何模型，所述图像对包括一张深度图像和一张RGB图像；

对所述至少两个RGBD中每两个RGBD相机各自对应的单视角几何模型进行采样，得到多组采样点对；

根据所述多组采样点对，确定所述两个RGBD相机间的初始相对位姿；

根据所述至少两个RGBD相机采集的多个图像对，对每两个RGBD相机间的初始相对位姿进行全局优化，得到目标相对位姿；

根据每两个RGBD相机间的目标相对位姿，对所述至少两个RGBD相机采集的目标图像对进行三维重建。

另一方面，本申请提供一种三维重建系统，包括至少两个RGBD相机和一个电子设备，每个RGBD相机位于不同的视角：

所述至少两个RGBD相机用于采集图像对，所述图像对包括一张深度图像和一张RGB图像；

所述电子设备包括处理器、存储器、显示屏和通信接口，所述通信接口、所述显示屏、所述存储器和所述处理器通过总线连接，所述存储器包括数据存储单元和程序存储单元，所述处理器根据所述程序存储单元存储的计算机程序，执行以下操作：

通过所述通信接口，接收所述至少两个RGBD相机发送的图像对，并存储于所述数据存储单元；

根据每个RGBD相机发送的图像对，采用基于隐式表达的三维重建方法，分别重建单视角几何模型；

对每两个RGBD相机各自对应的单视角几何模型进行采样，得到多组采样点对；根据所述多组采样点对，确定所述两个RGBD相机间的初始相对位姿；

根据所述数据存储单元存储的多个图像对，对每两个RGBD相机间的初始相对位姿进行全局优化，得到目标相对位姿；

通过所述通信接口，接收所述至少两个RGBD相机发送的目标图像对，根据每两个RGBD相机间的目标相对位姿和至少两个目标图像对进行三维重建，并将重建的三维模型通过所述显示屏进行显示。

另一方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机设备执行本申请实施例提供的基于多视角RGBD相机的三维重建方法。

本申请提供的一种基于多视角RGBD相机的三维重建方法及系统中，每个RGBD相机采集的图像对包含一张RGB图像和一张深度图像，针对每个RGBD相机各自采集图像对以及多个图像对，采用基于隐式表达的三维重建方法，分别重建多个单视角几何模型和一个多视角几何模型，从而得到包含完整数据的表面几何，从每两个RGBD相机对应的单视角几何模型中获得的采样点对，确定每两个RGBD相机间的初始相对位姿，由于单视角几何模型中包含完整重建对象的完整数据，从而可以充分挖掘和利用不可见区域的几何先验信息，即便图像对之间的重叠区域较小甚至没有重叠区域时，利用采样点对依然能够确定出每两个RGBD相机间的初始相对位姿。进一步地，对多视角几何模型和单视角几何模型进行可微渲染，可微渲染结果对初始相对位姿进行全局优化，得到准确的目标相对位姿，这样，在根据目标相对位姿对至少两个RGBD相机采集的目标图像对进行三维重建时，提高三维模型的重建质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于多视角RGBD相机进行三维重建的整体架构图；

图2为本申请实施例提供的相对位姿的确定过程示意图；

图3为本申请实施例提供的基于多视角RGBD相机的三维重建方法流程图；

图4为本申请实施例提供的单视角重建过程示意图；

图5为本申请实施例提供的初始相对位姿的确定过程示意图；

图6为本申请实施例提供的迭代优化架构示意图；

图7为本申请实施例提供的初始相对位姿的迭代优化方法流程图；

图8为本申请实施例提供的迭代优化过程中损失值的确定方法流程图；

图9为本申请实施例提供的多个RGBD相机间相对位姿的循环迭代优化过程示意图；

图10为本申请实施提供的确定两视角的RGBD相机间相对位姿的逻辑图；

图11为本申请实施提供的确定两个以上视角的RGBD相机间相对位姿的逻辑图；

图12为本申请实施提供的两视角的RGBD相机间相对外参数的标定方法逻辑图；

图13为本申请实施提供的两个以上视角的RGBD相机间相对外参数的标定方法逻辑图；

图14为本申请实施提供的三维重建系统的结构图。

具体实施方式

为清楚描述本申请的实施例，下面对本申请的名词给出解释说明。

RGBD相机：包含一个RGB传感器和深度传感器，二者同步曝光，可以同步采集一张RGB图像和一张深度图像。本申请实施例中，将一个RGBD相机采集的一张RGB图像和深度图像作为一个图像对，记为RGB-D。

相对位姿：包含旋转矩阵和平移向量，可作为相机的外参数，用于实现各RGBD相机坐标系的对齐统一。

移动立方体算法：英文全称为Marching Cubes，是一种用三维标量场表示的等值面来创建多面体表面的算法，因此，也称为等值面提取算法。

基于隐式表达的三维重建：三维几何表面的表达方式主要分为点云表示、体素表示、网格表示以及隐式表达。其中，隐式表达通过学习一个连续的隐式函数集合，来判断空间点是在几何表面的内部还是外部，最终通过移动立方体(Marching Cubes，MC)算法得到物体表面。相比于其它几种表示方式，隐式表达的三维重建方式，不受输入体分辨率的影响，无需显式存储，可重建高清的三维模型，具有更好的细节表达能力。

可微渲染：是一项较为新型的研究技术，通常和深度学习框架相结合使用。相比传统的渲染技术，可微渲染能够使整个渲染过程可微分，从而可使梯度能反向传递，从而不断更新深度学习网络参数，有助于构建端到端的网络模型；同时，对于给定视角的输入图像，通过对立体三维几何进行可微渲染得到的二维语义信息，与该视角对应的输入图像可构成一个自循环监督网络，无需额外昂贵的监督。目前，开源的可微渲染库(比如Pytorch3D，OpenDR等)已经提供了三维几何的可微渲染的接口，使用方便。

下面对本申请实施例的设计思想进行概述。

在三维重建领域中，相关技术在估计多视角RGBD相机间的相对位姿时，主要存在以下缺陷：

(1)行业内大多数方法主要关注的是物体的三维重建，如室内或室外场景中的物体，由于为物体设计的特征不适用于人体，因此，大多数方法不适用于人体的三维重建，泛化性较差。即便少数方法能够泛化到人体的三维重建，也会由于未能充分挖掘和利用人体结构的先验信息，存在诸多限制和改进的空间，尤其是对于极端相对位姿(如：输入的图像对之间重叠区域较小，甚至没有重叠)的估计，效果很欠佳。

(2)目前，主流的估计相机间相对位姿的方法对于输入图像有严格要求，需要图像之间有较大的重叠区域。这是因为主流的估计方法仍延续传统的优化方法，主要分为两类。一类是基于全局校准的方法，这类方法通常遵循三步走的范式：图像对的特征提取、特征点的匹配、以及根据特征匹配点拟合得到相对位姿，该方法依赖于大量且精确的特征匹配点对，因此要求输入图像间有较大的重叠区域。另一类是基于局部校准的方法，该方法需要给定一个初始相对位姿，然后通过几何约束，最小化点对之间的距离来优化相机间的相对位姿，然而，该方法对初始相对位姿比较敏感，且也需要图像之间有较大的重叠区域。

(3)随着深度学习技术的发展，基于深度学习估计相对位姿的方法取得研究。深度学习是一种基于数据驱动的学习方法，基于深度学习估计相机相对位姿的方法采用自监督的方式，因此，为了确保较好的效果和泛化性能，需要大量带有标签的数据集，且通常也要求输入图像之间有较大的重叠区域。目前，此类方法主要分为两类：一类是用深度学习方法替代传统方法的各个模块，虽然不需要人为设计特征，但本质上仍旧等同于三步骤范式，仍需要图像之间有较大的重叠区域；另一类是精心设计端到端网络，直接回归相机间的相对位姿，但由于相对位姿中的旋转矩阵的不连续表达方式，回归效果通常不理想。

鉴于此，本申请实施例提供了一种基于多视角RGBD相机的三维重建方法及系统，基于隐式表达的三维重建方法和可微渲染技术，利用每个RGBD相机采集的图像对进行单视角的三维重建，并对单视角重建得到的几何模型进行采样，基于每两个RGBD相机对应的采样点对间的匹配，确定每两个RGBD相机间的初始相对位姿；通过单视角的三维重建，可以充分挖掘和利用不可见区域的几何先验信息，既能在输入图像之间有较大重叠区域的情况准确地确定相对位姿，还能较好的解决输入图像之间重叠区域较小，甚至没有重叠区域情况下相对位姿的估计。同时，基于隐式表达的三维重建方法和可微渲染技术，利用多个RGBD相机采集的图像对进行多视角的三维重建，并基于多视角的重建结果，构建了一个自监督的循环优化网络，不断迭代优化每两个RGBD相机间的初始相对位姿，进一步提高相对位姿的准确性，这样，基于优化后多个RGBD相机间的准确的相对位姿进行三维重建时，能够有效的提高三维重建的质量。

值得说明的是，本申请实施例在确定相对位姿(即RGBD相机的外参数)时，各个RGBD相机的内参数是已知的。

参见图1，为本申请实施例提供的基于多视角RGBD相机进行三维重建的整体架构图，本申请实施例基于隐式表达的三维重建和可微渲染技术，构建了一个新颖的端到端优化框架，能自监督地优化相机间的相对位姿。该框架主要包括基于隐式表达的三维重建模块、可微渲染模块、初始化估计模块、循环优化模块和目标重建模块。其中，基于隐式表达的三维重建模块是基础，分别为初始化估计模块和循环优化模块提供人体几何先验信息；初始化估计模块是前提，为后续相对位姿的优化提供稳定的输入；循环优化模块是根本，利用几何重建和可微渲染，构建一个自监督的循环优化网络，不断迭代优化相机间的相对位姿；目标重建模块是保障，提高三维重建模型在虚拟场景中的质量。

具体的，基于隐式表达的三维重建模块主要是根据多个RGBD相机采集的图像对RGB-D(包括一张RGB图像和一张深度图像)，分别进行单视角的三维重建和多视角的三维重建，提供重建对象的几何信息，挖掘和利用不可见的区域的几何先验，贯穿后续的初始化估计模块和循环优化模块。初始化估计模块利用单视角的三维重建结果，提供每两个RGBD相机间较为稳定和准确的初始相对位姿。循环优化模块基于隐式表达的三维重建模块和可微渲染模块，形成一个自监督的优化循环过程，不断迭代优化初始化估计模块确定的初始相对位姿，得到目标相对位姿。目标重建模块利用多个RGBD相机间准确的目标相对位姿，对多个RGBD相机实时采集的目标图像对进行三维重建。

一般的，相机间的相对位姿的估计，默认为两个视角下相机间的相对位姿估计。基于图1所示的架构图，图2示例性示出了本申请实施例提供的相对位姿的确定过程示意图。如图2示出的，在初始化估计流程中，将每个RGBD相机采集的RGBD图像对输入至基于隐式表达的三维重建模块，基于隐式表达的三维重建模块针对每个图像对进行单视角的三维重建，得到每个图像对对应的单视角几何模型，针对每个单视角几何模型进行可微渲染(DV)，得到人体的三维模型；初始化估计模块对两个单视角几何模型进行采样，得到多组采样点，然后基于传统估计相对位姿的方法(如：最近点迭代(Iterated Closest Points，ICP)算法)，确定两个RGBD相机间的初始相对位姿。在迭代优化流程中，将每个RGBD相机采集的RGBD图像对输入至基于隐式表达的三维重建模块，基于隐式表达的三维重建模块对两个图像对进行多视角的三维重建，得到一个多视角几何模型，然后利用每个RGBD图像对分别对多视角几何模型进行可微渲染(DV)结合基于单视角几何模型的可微渲染结果，构建一个自监督的循环优化网络，通过计算损失值不断迭代优化两个RGBD相机间的相对位姿，得到最终优化后的目标相对位姿。

值得说明的是，图2仅是以人体场景为例，除利用人体的几何先验信息外，还可以利用物体的几何先验信息确定相机间的相对位姿，也就是说，本申请实施例中确定相对位姿的标定对象可以是人体，也可以是物体，即本申请实施例提供的基于多视角RGBD相机的三维重建方法，即使用于人体的重建场景，也适用于物体的重建场景。

下面以人体为例，基于图1所示的三维重建框架，图3为本申请实施例提供的基于多视角RGBD相机的三维重建方法流程图，该流程主要包括以下几步：

S301：根据至少两个RGBD相机各自采集的图像对，采用基于隐式表达的三维重建方法，分别重建单视角几何模型。

根据RGBD相机包含的传感器可知，每个RGBD可以同步采集一张RGB图像和一张深度图像将一张RGB图像和一张深度图像作为一个RGBD相机采集的图像对，记为RGBD图像对。

其中，基于隐式表达的三维重建方法，不同于全局形状编码的方式，采用二维局部特征编码的形式，对三维形状进行隐式表达，该方法对于给定的单视点RGBD图像对或多视点RGBD图像对进行动态重建(如：Function4D)，能够重建具有高清细节的人体几何表面，且能够达到实时重建的效果。

在基于隐式表达的三维重建方法中，为了隐式表达人体表面几何，引入了一种高效的三维空间对齐表示方法--像素对齐隐式函数，这种表达方式无需显式存储，可重建任意分辨率的三维人体模型。该方法通过监督学习隐式函数f，判断三维空间中的一个查询点q是在人体表面的内部还是外部，来隐式表达三维人体表面，最终通过Marching Cubes算法得到最终的人体表面几何，人体表面几何通过隐式函数f(X)＝0来隐式表示，从而将人体表面几何定义为关于f的函数集合。

隐式函数如下：

f(F(Π(q))，q.z，T(q))＝s，s∈R 公式1

T(q)＝trunc(-D(Π(q))+q.z) 公式2

在公式1和公式2中，f表示连续的隐式函数，由多层感知机(Multi-Layerperceptron，MLP)组成，对于三维空间的一个查询点q，符号值s表示该查询点在人体表面的内部还是外部，q.z表示查询点q在三维空间中的z坐标值，Π(·)表示透视投影，F(·)表示特征编码器，用于提取图像特征，D(·)表示双线性插值函数，-D(Π(q))+q.z表示查询点q的PSDF值。通过引入截断PSDF值，能够在隐式表达时，能够充分利用深度观测量，并且，将PSDF值限制在[-σ，σ]内，能够消除全局深度值带来的奇异性问题。

如图4所示，在S301中，针对至少两个RGBD相机中每个RGBD相机采集的图像对，采用基于隐式表达的三维重建方法，重建单视角几何模型，从而得到完整的人体几何数据，这样，可以从完整的几何模型中，获得图像对中不可见区域的人体数据，丰富计算相对位姿时使用的数据，提高相对位姿计算的准确性。单视角三维重建的公式表达如下：

其中，SV_Implici_Reconst表示基于隐式表达的单视角三维重建，rgbd_i表示第i个RGBD相机(即第i个视角)对应的图像对，

表示重建时此视角对应的参考空间场，通过对

进行插值，可以得到此视角重建的单视角几何模型。

值得说明的是，基于隐式表达的单视角三维重建，对于单视角下可见区域内人体的重建效果是很逼真的，而对于不可见区域内人体，也能通过隐式函数进行补全，得到完整的人体表面几何结构，通过对重建的每个单视角几何模型进行可微渲染，可以得到单视角几何模型的参考法向图

和参考掩码图

用于构建相对位姿优化时的能量损失函数。

S302：对至少两个RGBD相机中每两个RGBD相机各自对应的单视角几何模型进行采样，得到多组采样点对。

一般的，相对位姿是针对两个视角下的RGBD图像，因此，在S302中，针对至少两个RGBD相机中每两个RGBD相机各自对应的完整的单视角几何模型进行均匀采样，得到多组采样点对，相比于从深度图像中直接提取的点云对，采样点对蕴合了更丰富的人体先验几何信息。

S303：根据多组采样点对，确定两个RGBD相机间的初始相对位姿。

目前，大多数的相对位姿确定方法(如：全局校准方法和ICP算法等)，当不同视角RGBD相机采集的图像对之间有较大的重叠区域，通常会得到较为准确的初始化结果，但对于重叠区域较小的图像对，现有方法的估计效果很差。为了解决这个问题，在S303中，利用基于隐式表达的单视角三维重建的完整人体几何模型中提取的采样点对，采用传统的相对位姿估计方法(如：ICP算法)，得到每两个RGBD相机间的初始相对位姿，两个RGBD相机间初始相对位姿的确定公式如下：

T_init＝Tra_Optim(mesh₁ ^sample，mesh₂ ^sample) 公式4

其中，T_init表示两个RGBD相机间的初始相对位姿，Tra_Optim表述传统的相对位姿估计方法，mesh₁ ^sample表示从基于一个RGBD相机采集的图像对重建的单视角几何模型中获得的采样点，mesh₂ ^sample表示从基于另一个RGBD相机采集的图像对重建的单视角几何模型中获得的采样点。

由于完整的人体几何模型中提取的采样点对，能够提供单视角下输入的RGBD图像对中不可见区域的人体几何数据，相比于从深度图像中直接提取的点云对，采样点对蕴合了更丰富的人体先验几何信息，因此，确定的初始相对位姿也更加稳定。

初始化过程主要是为了获得一个稳定且准确的初始化相对位姿，初始化位姿确定过程如图5所示，针对每个RGBD相机采集的图像对，为了补全单视角下看不见的人体区域，采用基于隐式表达的单视角三维重建方法，生成补全后的完整人体几何模型，然后在重建的几何模型上分别进行均匀采样，最后对采样点对，采用传统的位姿估计方法，确定两个相机间的初始相对位姿。虽然基于单视角的图像对重建的三维几何模型，不可见区域的重建效果不完美，但对于重叠区域较小或者没有重叠区域的图像对的情况下，从重建的几何模型上进行均匀采样得到采样点对，相比于从深度图像中直接提取的点云对来说，采样点对蕴合了更丰富的人体先验几何信息，基于采样对确定的初始相对位姿也更加稳定。而一个好的初始化结果，既能加速后续相对位姿优化过程的收敛速度，又能促进获得更好的性能结果，因此，初始化位姿的确定过程具有重要意义。

S304：根据至少两个RGBD相机采集的多个图像对，对每两个RGBD相机间的初始相对位姿进行全局优化，得到目标相对位姿。

在三维重建领域中，多视角的三维重建效果依赖于准确的相对位姿，同时，不准确的相对位姿会导致重建效果出现伪影、丢失、甚至坍塌等异常，因此，可利用三维重建和相对位姿之间的依赖性，基于隐式表达的三维重建和可微渲染技术，构建一个循环迭代优化的自监督网格，通过监督三维重建的过程来不断优化多个RGBD相机间的相对位姿。

参见图6，为本申请实施例提供的迭代优化架构示意图，如图6示出的，针对多个RGBD相机采集的图像对，根据每两个RGBD相机间的初始相对位姿，采用基于隐式表达的三维重建方法进行多视角三维重建，得到多视角几何模型；对多视角几何模型以及利用每个RGBD相机采集的图像对进行单视角三维重建得到的单视角几何模型进行可微渲染；根据可微渲染的结果确定损失值，通过至少一轮迭代调整减小损失值，优化上一轮的相对位姿，直到满足收敛条件结束优化。

具体优化过程参见图7，主要包括以下几步：

S3041：根据至少两个RGBD相机采集的多个图像对，以及每两个RGBD相机间的初始相对位姿，采用基于隐式表达的三维重建方法，重建多视角几何模型。

在S3041中，利用每两个RGBD相机间的初始相对位姿，可以将至少两个RGBD相机的坐标系对齐统一到同一个RGBD相机(记为参考RGBD相机)坐标系下，这样，可以根据至少两个RGBD相机采集的图像对，采用基于隐式表达的三维重建方法进行多视角三维重建，获得多视角几何模型。多视角重建过程公式描述如下：

mesh′，sdf＝MV_Implici_Reconst(rgbd^I，T^N) 公式5

其中，MV_Implici_Reconst表示基于隐式表达的多视角三维重建，rgbd^I表示I个视角的RGBD相机采集的图像对集合，I为大于等于2的整数，T^N表示N个相对位姿的集合，

表示I个RGBD图像对中每两个RGBD相机的组合对数，sdf表示多视角几何模型的空间场，通过对sdf插值，得到多视角几何模型mesh′。基于隐式表达的三维重建的具体描述参见前述实施例，在此不再重复。

S3042：对多视角几何模型和每个单视角几何模型进行可微渲染，确定多视角几何模型的损失值。

在S3042中，针对多视角重建得到的三维几何模型mesh′以及每个单视角几何模型，通过可微渲染得到二维语义信息(如：法向图和分割图等)，最后利用几何模型的空间场和二维语义信息等先验知识，构建能量损失函数，从而确定多视角几何模型的损失值。其中，多视角几何模型的损失值包括二维语义子损失值、三维空间场子损失值和正交约束项。损失值的确定过程参见图8，主要包括以下几步：

S3042_1：针对每个图像对重建的单视角几何模型进行可微渲染，确定单视角几何模型的参考法向图和参考掩码图，以及，针对多视角几何模型进行可微渲染，确定多视角几何模型的法向图和掩码图。

每个单视角几何模型的可微渲染过程公式表示如下：

在公式6中，DV(·)表示可微渲染，mesh_i表示利用第i个RGBD相机采集的图像对重建的单视角几何模型，

表示对第i个单视角几何模型进行可微渲染得到的参考掩码图，

表示对第i个单视角几何模型进行可微渲染得到参考法向图。

多视角几何模型的可微渲染过程公式表示如下：

n，m＝DV(mesh，T^N) 公式7

在公式7中，mesh表示利用I个图像对重建的多视角几何模型，T^N表示N个相对位姿的集合，m表示对多视角几何模型进行可微渲染得到的掩码图，n表示对多视角几何模型进行可微渲染得到法向图。

S30422：根据多视角几何模型对应的法向图和掩码图，以及每个单视角几何模型对应的参考法向图和参考掩码图，分别确定二维语义子损失值。

在本申请的实施例中，二维语义信息主要包括法向图和分割的掩码图。在S30422中，二维语义子损失值用来确保可微渲染得到的二维语义信息和输入的相应图像对之间的一致性，计算公式如下：

其中，L_2D(·)表示二维语义子损失值，作为循环迭代优化的自监督网格中的一个二维监督项，b₁、b₂表示权重，

表示法向图损失，n表示多视角几何模型的法向图，

表示利用第i个图像对重建的单视角几何模型的参考法向图，

表示掩码图损失，m表示多视角几何模型的掩码图，

表示利用第i个图像对重建的单视角几何模型的参考掩码图，||·||₂表示2范式，dist表示距离变换，由于掩码图是二进制，采用距离变换后求均方差损失效果更佳。

S3042_3：根据重建过程中多视角几何模型的空间场，以及每个单视角几何模型的参考空间场，分别确定三维空间场子损失值。

考虑到如果仅仅单纯的引入一个二维监督项，由于输入视角的稀疏性，可能会导致多视角重建的几何模型畸形化，因此，在S3042_3中，增加了三维空间场子损失值作为循环迭代优化的自监督网格中的一个三维监督项，以确保多视角重建的几何模型与单视角重建的几何模型的三维空间场保持一致性，从而防止重建的几何模型畸形化。三维空间场子损失值的计算公式如下：

其中，L_sdf(·)表示三维空间场子损失值，sdf表示多视角几何模型的三维空间场，

表示利用第i个图像对重建的单视角几何模型的三维参考空间场，||·||₂表示2范式。

S3042_4：根据各个二维语义子损失值、各个三维空间场子损失值和各个正交约束项，确定多视角几何模型的损失值。

在S3042_4中，基于每个单视角几何模型与多视角几何模型的二维语义子损失值、三维空间场子损失值和各个正交约束项，构建能量损失函数，通过能量损失函数，确定多视角几何模型的损失值。其中，正交约束项用于确保相对位姿中旋转矩阵的正交性，用于计算多视角几何模型损失值的能量函数如下：

其中，I表示RGBD个数(即视角个数)，T_i表示优化前两个RGBD相机间的相对位姿，相对位姿的初始值为T_init，L_2D(·)表示二维语义子损失值，L_sdf(·)表示三维空间场子损失值，L_orth(·)表示正交约束项，Loss表示能量损失函数，α_n1、α_n2、α_n3表示二维语义子损失值、三维空间场子损失值和正交约束项各自对应的权重。

S3043：通过至少一轮迭代减小损失值以优化每两个RGBD相机间的初始相对位姿，直到损失值满足阈值要求，得到优化后的目标相对位姿。

在执行S3043时，在第一轮迭代优化过程中，确定基于至少两个RGBD相机中每两个RGBD相机间的初始相对位姿重建的多视角几何模型的初始损失值，将初始损失值与设定的损失阈值进行比较，若初始损失值大于损失阈值，则用初始损失值调整自监督循环迭代优化网络的参数，进入第二轮迭代优化过程，重新计算多视角几何模型的损失值，直至损失值小于损失阈值或者迭代优化次数达到设定上限，此时，将最小损失值对应的相对位姿作为优化后的目标相对位姿。

在基于隐式表达的三维重建和可微渲染构建的自监督迭代优化网络对至少两个RGBD相机间的相对位姿的优化过程中，通过给定的至少两个RGBD相机中每两个RGBD相机间的初始相对位姿T_init，以及每个RGBD相机各自采集的RGBD图像对，首先采用多视角重建方法，重建出多视角几何模型mesh，然后对多视角几何模型和利用每个图像对重建的单视角几何模型进行可微渲染，得到二维语义信息(包括但不限于法向图和掩码图)，最后利用二维语义信息结合几何模型等先验知识，构建能量损失函数，通过能量损失函数计算多视角几何模型的损失值，通过损失值调整重建的几何模型，从而反向传递更新相机间的相对位姿，形成一个循环、自监督的优化机制，不断迭代优化相机间的相对位姿。由于可微渲染和三维重建的过程都是可微分的，因此整个优化过程可端到端地进行，且无需人为干扰。

现有相对位姿估计方法，在对多个视角的RGBD相机间的相对位姿进行优化的过程中，一般是两两成对优化，未能充分利用多个视角的RGBD相机之间的相互制约关系，因此，不能得到一个鲁棒的估计结果。而本申请实施例在对多个视角的RGBD相机间的相对位姿进行优化的过程中，采用分层优化的递进策略，先两两优化，再全局优化。

具体的，针对多个视角的RGBD相机，首先两两组合进行优化，得到相机间较为粗糙的相对位姿，然后以此作为多视角联合优化的初始值。例如，当对I个视角的RGBD相机联合优化时，基于I-1个视角的两两优化的相对位姿作为联合优化的初始值。相对于现有技术中两视角的成对优化，由于基于多视角RGBD相机采集的图像对重建的人物模型更加逼真，几何模型的细节更丰富，可以提供完整、真实的人体数据，有助于相对位姿确定的准确性，且基于可微渲染技术，利用输入的多个视角的图像对，建立起的几何约束力更强，能够进一步校准相机间的相对位姿。

以3个RGBD相机为例，参见图9，为本申请实施例提供的多个RGBD相机间相对位姿的循环迭代优化过程示意图，如图9示出的，3个RGBD相机分别位于人体的3个不同视角，记为视角1、2、3，首先，基于视角1和视角2的RGBD相机采集的图像对、视角1和视角3的RGBD相机采集的图像对、以及视角2和视角3的RGBD相机采集的图像对，分别优化视角1和视角2、视角1和视角3、视角2和视角3RGBD相机之间的相对位姿，然后基于视角1、视角2和视角3的RGBD相机采集的图像对，以2视角RGBD相机之间的相对位姿作为初始值，进行多视角RGBD相机之间相对位姿的全局优化。

下面以2视角的RGBD相机间相对位姿的确定过程为例，参见图10所示的逻辑图，假设迭代优化上限为t_max，最小损失阈值为τ，将2个视角的RGBD相机采集的图像对分别rgbd₁和rgbd₂作为输入，输出2视角RGBD相机间的相对位姿T＝[R，t]，其中，R表示旋转矩阵，t表示平移矩阵。

如图10示出的，相对位姿的确定过程主要分为两步：步骤一、确定两个RGBD相机间的初始相对位姿，步骤二、循环迭代优化两个RGBD相机间的初始相对位姿。在步骤一中，采用基于隐式表达的单视角三维重建方法，重建2个单视角几何模型，通过对两个单视角几何模型进行均匀采样，确定两个RGBD相机间的初始相对位姿T_init，对每个单视角几何模型进行可微渲染，得到参考法向图

和参考掩码图

在步骤二中，采用基于隐式表达的多视角三维重建方法，重建多视角几何模型，并对多视角几何模型进行可微渲染，得到法向图n和掩码图m，结合每个单视角几何模型的参考法向图

和参考掩码图

以及几何先验知识

确定多视角几何模型的损失值loss，基于损失值进行多轮迭代优化，得到优化后的目标相对位姿。

从2视角扩展到多视角，如图11所示，假设多视角RGBD相机的个数为I，迭代优化上限为t_max，最小损失阈值为τ，则本申请实施例的输入为多视角RGBD相机采集的图像对序列rgbd_i，i＝1，2，...I，输出为相对位姿T＝[R，t]。其中，R表示旋转矩阵，t表示平移矩阵。

如图11示出的，在确定至少两个RGBD相机中每两个RGBD相机间的相对位姿时，选定视角1的RGBD相机为参考相机，分别计算其他相机相对于参考相机的相对位姿。相对位姿确定过程分为两步，步骤一：确定每两个RGBD相机间的初始相对位姿，步骤二：循环迭代优化每两个RGBD相机间的初始相对位姿。在步骤一中，采用基于隐式表达的单视角三维重建方法，重建单视角几何模型，以第一个视角的RGBD相机作为参考相机，利用参考相机对应的单视角几何模型与其他视角的几何模型，分别计算其他视角的RGBD相机与参考相机之间的相对位姿

并对单视角几何模型进行可微渲染，得到参考法向图

和参考掩码图

在步骤二中，采用基于隐式表达的多视角三维重建方法，重建多视角几何模型，并对多视角几何模型进行可微渲染，得到法向图n和掩码图m，结合每个单视角集合模型的参考法向图和参考掩码图，以及几何先验知识sdf，确定多视角几何模型的损失值loss，基于损失值进行多轮迭代优化，得到优化后的目标相对位姿。

需要说明的是，在图10中，J的大小可根据实际情况进行设定，J越大，相对位姿越准确，但占用的功耗越大。

S305：根据每两个RGBD相机间的目标相对位姿，对至少两个RGBD相机采集的目标图像对进行三维重建。

在S305中，获取较为准确的两个RGBD相机间的相对位姿后，针对至少两个RGBD相机从不同视角实时采集的人体的目标图像对，重建真实、高精度的人体三维模型，从而将人体三维模型应用在虚拟场景中时，提升用户的沉浸式体验。

本申请实施例提供的基于多视角RGBD相机的三维重建方法，能够适用于人体场景中相对位姿的估计，该方法采用了可微的基于隐式表达的三维重建方法和可微渲染方法，提出了一个新颖的端到端优化框架，能自监督地优化相机间的相对位姿；在相对位姿的估计过程中，是根据重建的几何模型中的采样点对来确定相对位姿的，由于几何模型包含完整的人体数据，相对于直接从深度图像中提取的点云对确定的相对位姿，能够进行精确的匹配，解决了不同视角RGBD相机采集的图像对之间重叠区域的限制，且逃离了传统估计方法中″三步走范式″(特征提取，特征匹配和位姿拟合)，无需手动设计图像特征。通过优化后精确的相对位姿实时进行三维重建时，能够提高三维模型的精度，进而提升用户的沉浸式体验。

目前，很多动态人体三维重建系统(如：人体动作捕捉系统，人体行为捕捉系统等)依赖于深度相机(即RGBD相机，如Kinect相机)这些系统重建时需要精确的相机外参数，然而，深度相机自带的相机外参数标定方法可能得到的相对外参数并不准确，严重影响重建质量；并且，在人体三维重建过程中，如果RGBD相机发生微小扰动，就需中断系统，对所有的RGBD相机的外参数进行重新标定，非常不方便。因此，可将本申请实施例提供的基于多视角RGBD相机的三维重建方法中相对位姿的确定方法，迁移到多视角相机的外参数自动标定的场景中。

具体实施时，首先需要预训练好基于隐式表达的人体三维重建网络，此过程是一个深度学习的过程，需要带有三维人标签的数据集；然后利用预训练好的网络，采用上述相对位姿的确定方法，得到优化后的多个视角RGBD相机之间的相对外参数，由于此过程是一个端到端的优化过程，优化网络可选择深度学习中常用的优化器，比如：Adam优化器，SGD优化器等。

在实际多视角相机外参数的自动标定场景中，根据输入的图像对数量不同，可分为两种标定场景。

场景一

输入为两个视角的RGBD相机采集的图像对，准确标定两个视角RGBD相机间的相对外参数。

其中，相对外参数包括两个RGBD相机之间的旋转矩阵R和平移矩阵t，相对外参数标定过程如图12所示，给定两个视角的RGBD相机采集的图像对和初始相对外参数，通过深度学习中的优化器，优化初始相对外参数。

场景二

输入为两个以上视角的RGBD相机采集的图像对，当一个视角或者多个视角的RGBD相机的外参数被扰动的情况下，准确标定出被扰动RGBD相机的相对外参数。

当输入为两个以上视角的RGBD相机采集的图像对，对于微小的RGBD相机扰动或者部分相对外参数不准确的情况，将人体三维重建和相机外参数的优化统筹在一起，在不断优化相对外参数的同时实现自标定过程，且能够不断提升重建的人体三维模型的效果。

在一种可选的实施方式中，如果RGBD相机发生的扰动较大，对多个RGBD相机重新进行布局，并直接采用上述基于多视角图像对估计相对位姿。

在另一种可选的实施方式中，当RGBD相机发生的扰动较小或者需要进一步校准不准确的相对外参数时，此时可用待校准的相对外参数作为初始相对参数，无需相对外参数的初始化估计流程。

如图13所示，当N个视角的RGBD相机中，由K个视角的RGBD相机被扰动，通过未扰动的N-K个视角的RGBD相机采集图像对集合rgbd^N-K和准确的相对外参数集合T^N-K，对待校准的相对外参数进行优化。

基于相同的技术构思，本申请实施例提供一种三维重建系统，该系统包括至少两个RGBD相机141(包括但不限于1411和1412)和一个电子设备142。其中，每个RGBD相机141位于不同的视角，所述至少两个RGBD相机141用于采集图像对，所述图像对包括一张深度图像和一张RGB图像。电子设备142可以是笔记本电脑、台式计算机、微型服务器、AR眼镜、VR头戴式显示设备等。电子设备142包括处理器1421、存储器1422、显示屏1423和通信接口1424，所述通信接口1424、所述显示屏1423、所述存储器1422和所述处理器1421通过总线1425连接，所述存储器1422包括数据存储单元和程序存储单元，所述处理器1421根据所述程序存储单元存储的计算机程序，执行以下操作：

通过所述通信接口1424，接收所述至少两个RGBD相机发送的图像对，并存储于所述数据存储单元；

根据每个RGBD相机141发送的图像对，采用基于隐式表达的三维重建方法，分别重建单视角几何模型；

对每两个RGBD相机141各自对应的单视角几何模型进行采样，得到多组采样点对；根据所述多组采样点对，确定所述两个RGBD相机141间的初始相对位姿；

根据所述数据存储单元存储的多个图像对，对每两个RGBD相机141间的初始相对位姿进行全局优化，得到目标相对位姿；

通过所述通信接口1424，接收所述至少两个RGBD相机141发送的目标图像对，根据每两个RGBD相机141间的目标相对位姿和至少两个目标图像对进行三维重建，并将重建的三维模型通过所述显示屏1423进行显示。

可选的，所述处电子设备142根据所述数据存储单元存储的多个图像对，对每两个RGBD相机141间的初始相对位姿进行全局优化，得到目标相对位姿，具体操作为：

根据所述多个图像对以及每两个RGBD相机141间的初始相对位姿，采用基于隐式表达的三维重建方法，重建多视角几何模型；

对所述多视角几何模型和每个单视角几何模型进行可微渲染，确定所述多视角几何模型的损失值；

通过至少一轮迭代减小所述损失值以优化每两个RGBD相机141间的初始相对位姿，直到所述损失值满足阈值要求，得到优化后的目标相对位姿。

可选的，所述电子设备142对所述多视角几何模型和每个单视角几何模型进行可微渲染，确定所述多视角几何模型的损失值，具体操作为：

针对每个图像对重建的单视角几何模型进行可微渲染，确定所述单视角几何模型的参考法向图和参考掩码图，以及，针对所述多视角几何模型进行可微渲染，确定所述多视角几何模型的法向图和掩码图；

根据所述多视角几何模型对应的法向图和掩码图，以及每个单视角几何模型对应的参考法向图和参考掩码图，分别确定二维语义子损失值；

根据重建过程中所述多视角几何模型的空间场，以及每个单视角几何模型的参考空间场，分别确定三维空间场子损失值；

根据各个二维语义子损失值、各个三维空间场子损失值和各个正交约束项，确定所述多视角几何模型的损失值。

可选的，用于计算所述多视角几何模型的损失值的能量损失函数为：

其中，N表示所述至少两个RGBD相机141中每两个RGBD相机组合的总个数，T_n表示优化前两个RGBD相机141间的相对位姿，Loss表示所述多视角几何模型的损失值，L_2D(·)表示二维语义子损失值，L_sdf(·)表示三维空间场子损失值，L_orth(·)表示正交约束项，α_i1、α_i2、α_i3表示权重。

可选的，所述二维语义子损失值L_2D(T_i)的计算公式为：

所述三维空间场子损失值L_sdf(T_i)的计算公式为：

所述正交约束项L_orth(T_i)的计算公式为：

其中，b₁和b₂表示权重，n表示所述多视角几何模型对应的法向图，

表示利用第i个图像对重建的单视角几何模型对应的参考法向图，m表示所述多视角几何模型对应的掩码图，

表示利用第i个图像对重建的单视角几何模型对应的参考掩码图，dist表示距离变换，sdf表示所述多视角几何模型对应的空间场，

表示利用第i个图像对重建的单视角几何模型对应的参考空间场，R_n表示相对位姿T_i中的旋转矩阵，I表示单位矩阵。

需要说明的是，图14仅是一种示例，给出三维重建系统实现本申请实施例提供的基于多视角RGBD相机的三维重建方法步骤所必要的电子设备的硬件，未示出的，该电子设备还包含扬声器、电源、音频处理器等交互设备的常用器件。

本申请实施例图14中电子设备涉及的处理器可以是中央处理器(CentralProcessing Unit，CPU)，通用处理器，图形处理器(Graphics Processing Unit，GPU)数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-specificIntegrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

本申请实施例还提供一种计算机可读存储介质，用于存储一些指令，这些指令被执行时，可以完成前述实施例的方法。

本申请实施例还提供一种计算机程序产品，用于存储计算机程序，该计算机程序用于执行前述实施例的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于多视角RGBD相机的三维重建方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述至少两个RGBD相机采集的多个图像对，对每两个RGBD相机间的初始相对位姿进行全局优化，得到目标相对位姿，包括：

根据所述至少两个RGBD相机采集的多个图像对，以及每两个RGBD相机间的初始相对位姿，采用基于隐式表达的三维重建方法，重建多视角几何模型；

通过至少一轮迭代减小所述损失值以优化每两个RGBD相机间的初始相对位姿，直到所述损失值满足阈值要求，得到优化后的目标相对位姿。

3.如权利要求2所述的方法，其特征在于，所述对所述多视角几何模型和每个单视角几何模型进行可微渲染，确定所述多视角几何模型的损失值，包括：

4.如权利要求3所述的方法，其特征在于，用于计算所述多视角几何模型的损失值的能量损失函数为：

其中，N表示所述至少两个RGBD相机中每两个RGBD相机组合的总个数，T_n表示优化前两个RGBD相机间的相对位姿，Loss表示所述多视角几何模型的损失值，L_2D(·)表示二维语义子损失值，L_sdf(·)表示三维空间场子损失值，L_orth(·)表示正交约束项，α_i1、α_i2、α_i3表示权重。

5.如权利要求4所述的方法，其特征在于，所述二维语义子损失值L_2D(T_i)的计算公式为：