CN116342817A

CN116342817A - 一种室外大规模三维场景重建方法、系统、设备和介质

Info

Publication number: CN116342817A
Application number: CN202310622513.5A
Authority: CN
Inventors: 吴庆耀; 霍东健; 胡灏; 李利; 张木树; 谭明奎; 杜卿
Original assignee: Guangdong Guangwu Internet Technology Co ltd; South China University of Technology SCUT
Current assignee: Guangdong Guangwu Internet Technology Co ltd; South China University of Technology SCUT
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-06-27
Anticipated expiration: 2043-05-30
Also published as: CN116342817B

Abstract

本发明公开了一种室外大规模三维场景重建方法、系统、设备和介质，属于三维场景重建的技术领域。该方法包括：获取室外场景数据集，根据室外场景数据集获取场景重建数据集；构建三维场景重建模型，在场景重建数据集上迭代训练三维场景重建模型；将待处理的相机轨迹输入训练后的三维场景重建模型，输出场景重建的结果；其中，三维场景重建模型包括外观编码模块、颜色预测模块、图卷积模块和距离场表示模块。本发明的三维场景重建模型，通过图卷积模块对采样点位置、距离场和预测颜色向量进行信息的传递，改进预测质量，有效解决了室外大规模场景重建表面不精确和训练效率低下的问题，提升训练三维重建模型的效率的同时，提高了场景重建表面精度。

Description

一种室外大规模三维场景重建方法、系统、设备和介质

技术领域

本发明涉及三维场景重建的技术领域，尤其涉及一种室外大规模三维场景重建方法、系统、设备和介质。

背景技术

在三维重建领域，基于神经辐射场的方法已经取得了很多突破性的进展。然而，对于大规模的室外场景，当前的方法都存在生成表面不精确和训练时间长的问题。许多研究通过基于符号距离函数的方法来解决表面不精确问题；一些研究通过混合采样策略提高了三维重建模型的渲染速度。上述方法虽然一定程度上缓解了表面精度和训练速度问题，但仍没有一个兼顾精度和速度的模型能泛化到更大规模的室外场景。因此，如何在室外大规模场景数据上训练出一个场景表面生成精确且训练效率高的模型是一个亟待解决的难题。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种室外大规模三维场景重建方法、系统、设备和介质。

本发明所采用的技术方案是：

一种室外大规模三维场景重建方法，包括以下步骤：

获取室外场景数据集，根据所述室外场景数据集获取场景重建数据集；

构建三维场景重建模型，在所述场景重建数据集上迭代训练所述三维场景重建模型；

将待处理的相机轨迹输入训练后的三维场景重建模型，输出场景重建的结果；

其中，所述三维场景重建模型包括外观编码模块、颜色预测模块、图卷积模块和距离场表示模块；对所述三维场景重建模型进行训练的步骤，包括：

在所述场景重建数据集的图像光线中，使用多层次采样策略在光线上采样若干个点，将采样得到的点输入距离场表示模块，获得SDF预测向量；

将光线所属图像输入外观编码模块进行编码，得到外观编码；

将光线采样点位置、光线视角方向以及相对应图片的外观编码输入颜色预测模块，得到该光线在其所属图像中的颜色预测向量；

将光线采样点位置、SDF预测向量和颜色预测向量输入图卷积模块，以更新SDF预测向量和颜色预测向量；

将SDF预测向量和颜色预测向量输入图卷积模块的预测头得到预测值；

训练外观编码模块、距离场表示模块、颜色预测模块和图卷积模块，更新外观编码模块、距离场表示模块、颜色预测模块和图卷积模块的参数直至收敛，得到训练后的三维场景重建模型。

进一步地，所述室外场景数据集包括多张室外场景的RGB图像，且不同时间段或角度采样的图像具有较大的外观差异；

所述根据所述室外场景数据集获取场景重建数据集，包括：

基于所述室外场景数据集，通过运动恢复结构技术生成场景重建数据集；其中所述场景重建数据集包括室外场景数据集图像、相机参数、室外场景数据集图像中每个像素对应的光线、场景的稀疏点云和关键点的深度信息。

进一步地，所述多层次采样策略的工作方式为：

根据所述场景重建数据集中的稀疏点云生成粗略体素

，将光线与粗略体素

的两个交点形成的线段作为采样区域；

将训练模型的距离场预测值缓存至稀疏体素

，并从稀疏体素/>

查询表面位置，以生成新样本；其中稀疏体素/>

由粗略体素/>

建立深度为/>

的八叉树得到，且周期性更新。

进一步地，所述将采样得到的点输入距离场表示模块，获得SDF预测向量，包括：

将光线上的采样点

输入距离场表示模块，得到SDF预测向量/>

，通过图卷积模块和多层感知机最后一层得到SDF预测值/>

，并通过零水平集提取场景表面/>

，计算公式为：

其中，

表示SDF预测向量，/>

表示用于预测SDF但不包含最后一层的多层感知机；/>

表示采样点/>

的维度为3。

进一步地，所述颜色预测向量

的表达式为：

式中，

为采样点，/>

为光线视角方向，/>

为外观编码，/>

表示用于预测颜色值的多层感知机（不包含最后一层）；

将所述颜色预测向量

经过图卷积模块得到颜色预测值/>

，得到该光线对应像素点的颜色/>

；对于图像上的像素点，记该像素发射光线为/>

，则像素点的颜色/>

的表达式为：

其中，

是权重函数。

进一步地，所述将SDF预测向量和颜色预测向量输入图卷积模块的预测头得到预测值，包括：

将SDF预测向量

和颜色预测向量/>

输入双层图卷积网络以及各自图卷积网络的预测头，得到预测值/>

，表达式如下：

其中，

为第一层图卷积层，/>

为第二层图卷积层，/>

表示用于预测SDF的多层感知机的最后一层，/>

表示用于预测颜色值的多层感知机的最后一层。

进一步地，所述训练外观编码模块、距离场表示模块、颜色预测模块和图卷积模块，包括：

使用多任务损失函数在场景重建数据集上训练外观编码模块、距离场表示模块、颜色预测模块和图卷积模块；

所述多任务损失函数的表达式如下：

式中，

是超参数，颜色损失/>

的计算公式为：

深度损失函数

的计算公式为：

掩码损失函数

的计算公式为：

其中，

表示多任务损失函数，/>

表示L1损失函数，/>

表示KL散度函数，/>

表示二元交叉熵函数；/>

表示像素点的渲染颜色和真实颜色，/>

表示高斯分布，/>

表示关键点的SFM深度、重投影误差和渲染光线终止距离；/>

表示掩码值和沿相机光线的权重加和。

本发明所采用的另一技术方案是：

一种室外大规模三维场景重建系统，包括：

数据获取模块，用于获取室外场景数据集，根据所述室外场景数据集获取场景重建数据集；

模型构建模块，用于构建三维场景重建模型，在所述场景重建数据集上迭代训练所述三维场景重建模型；

结果输出模块，用于将待处理的相机轨迹输入训练后的三维场景重建模型，输出场景重建的结果；

本发明所采用的另一技术方案是：

一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明的三维场景重建模型，通过图卷积模块对采样点位置、距离场和预测颜色向量进行信息的传递，改进预测质量，有效解决了室外大规模场景重建表面不精确和训练效率低下的问题，提升训练三维重建模型的效率的同时，提高了场景重建表面精度。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种基于图卷积网络的室外大规模三维场景重建方法的流程示意图；

图2是本发明实施例中三维场景重建模型迭代训练的流程图；

图3是本发明实施例中一种室外大规模三维场景重建系统的结构示意图；

图4是本发明实施例中一种电子设备的硬件结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

术语解释：

SDF：有向距离场。

现实中的室外大规模场景数据集通常包含数百张多时间段多角度的高清RGB图像，通过这些RGB图像快速地重建出其高质量三维模型是有一个有挑战性的问题；基于此，如图1所示，本实施例提出一种基于图卷积网络的室外大规模三维场景重建方法，包括下述步骤：

S1、获取室外场景数据集，所述场景数据集包含多张该场景的RGB图像，不同时间段或角度采样的图像具有较大的外观差异；处理室外场景数据，得到处理后的场景重建数据集。

作为一种可选的实施方式，场景重建数据集通过运动恢复结构技术生成，其内容包括室外场景数据集图像、相机参数、图像中每个像素对应的光线、场景的稀疏点云和关键点的深度信息。

S2、构建三维场景重建模型，所述三维场景重建模型包括潜在外观编码模块、距离场表示模块、颜色预测模块和图卷积模块。

S3、使用深度损失函数、颜色损失函数和掩码损失函数在处理后的场景重建数据集上迭代训练三维场景重建模型，具体训练步骤如图2所示：

S31、多层次采样训练数据；使用场景重建数据集中的稀疏点云生成粗略体素

，并将光线与/>

的两个交点形成的线段作为采样区域；将训练模型的距离场预测值缓存至稀疏体素/>

，并从/>

查询表面位置，利用该信息生成新样本；/>

由/>

建立深度为/>

的八叉树得到，且周期性更新。

S32、图像

的潜在外观变化编码为/>

。

S33、光线上的采样点

，输入到距离场表示模块，得到SDF预测向量/>

，通过图卷积模块和多层感知机最后一层得到SDF预测值/>

，并通过零水平集提取其场景表面/>

，计算公式为：

其中，

表示SDF预测向量，/>

表示用于预测SDF但不包含最后一层的多层感知机；/>

表示采样点/>

的维度为3。

S34、光线采样点

、光线视角方向/>

和图像/>

的潜在外观编码/>

输入颜色预测模块，得到该空间点的颜色预测向量/>

，经过图卷积模块得到颜色预测值/>

，进而得到该光线对应像素点的颜色/>

，具体为：

式中，

为采样点，/>

为光线视角方向，/>

为外观编码，/>

表示用于预测颜色值的多层感知机。

对于图像上的像素点，记该像素发射光线为

，其颜色可以由以下公式计算得到：

其中

是一个无偏且能够感知遮挡的权重函数。

S35、SDF预测向量

和颜色预测向量/>

输入双层图卷积网络以及各自的预测头得到预测值/>

，具体为：

其中，

为第一层图卷积层，/>

为第二层图卷积层，/>

表示用于预测SDF的多层感知机的最后一层，/>

表示用于预测颜色值的多层感知机的最后一层。

S36、使用多任务损失函数在场景重建数据集上训练外观编码模块、距离场表示模块、颜色预测模块和图卷积模块，具体为：

其中

是超参数，颜色损失/>

的计算公式为：

深度损失函数

的计算公式为：

掩码损失函数

的计算公式为：

其中，

表示多任务损失函数，/>

表示L1损失函数，/>

表示KL散度函数，/>

表示二元交叉熵函数；/>

表示像素点的渲染颜色和真实颜色，/>

表示高斯分布，/>

表示关键点的SFM深度、重投影误差和渲染光线终止距离；/>

表示掩码值和沿相机光线的权重加和。

作为一种可选的实施方式，在训练过程中还包括采用梯度下降法进行迭代优化。

S4、用于将预先设置好的相机轨迹输入训练好的三维场景重建模型，得到场景重建的结果。

综上所述，本申请的方法相对于现有技术相比，至少具有如下优点和有益效果：

（1）本申请针对现有三维重建模型在室外场景数据集中表面重建精度低的问题，提出了一种基于图卷积网络的室外大规模三维场景重建方法，通过双层图卷积网络对采样点位置、距离场和预测颜色向量进行信息的传递，有效地改进预测质量。

（2）本申请针对现有三维重建模型在室外场景数据集中效率低的问题，提出了一种基于深度信息监督的室外大规模三维场景重建方法，通过深度损失函数，保持重建精度的同时提高了训练的速度。

参见图3，本实施例还提供一种室外大规模三维场景重建系统，可以实现上述一种基于图卷积网络的室外大规模三维场景重建方法，包括：

该一种室外大规模三维场景重建系统的具体实施方式与上述一种基于图卷积网络的室外大规模三维场景重建方法的具体实施例基本相同，在此不再赘述。另外，该系统具备该方法相应的功能和有益效果。

本申请实施例还提供了一种电子设备，电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述一种基于图卷积网络的室外大规模三维场景重建方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图4，图4示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器401，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器402，可以采用只读存储器（ReadOnlyMemory，ROM）、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器402可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器402中，并由处理器401来调用执行本申请实施例的一种基于图卷积网络的室外大规模三维场景重建方法；

输入/输出接口403，用于实现信息输入及输出；

通信接口404，用于实现本设备与其他设备的通信交互，可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信；

总线405，在设备的各个组件（例如处理器401、存储器402、输入/输出接口403和通信接口404）之间传输信息；

其中处理器401、存储器402、输入/输出接口403和通信接口404通过总线405实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述一种基于图卷积网络的室外大规模三维场景重建方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于图卷积网络的室外大规模三维场景重建方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例提供的一种基于图卷积网络的室外大规模三维场景重建方法、一种基于图卷积网络的室外大规模三维场景重建系统、电子设备及存储介质，其通过图卷积模块对采样点位置、距离场和预测颜色向量进行信息的传递，改进预测质量，有效解决了室外大规模场景重建表面不精确和训练效率低下的问题，提升训练三维重建模型的效率的同时，提高了场景重建表面精度。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。