CN116342804A

CN116342804A - 一种室外场景三维重建方法、装置、电子设备及存储介质

Info

Publication number: CN116342804A
Application number: CN202310249105.XA
Authority: CN
Inventors: 陈壹华; 侯立培; 梁英其
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-27

Abstract

本发明涉及一种室外场景三维重建方法、装置、电子设备及存储介质。本发明所述的室外场景三维重建方法包括：获取室外场景图像，并计算所述室外场景图像对应的相机位姿；将所述室外场景图像中的每一个像素点分别生成一条视线光线，作为神经辐射场的输入；对每一条所述视线光线进行编码后，加入外观嵌入向量和瞬态嵌入向量，输入到训练好的神经辐射场进行神经渲染；基于所述神经辐射场的输出结果，对于每一条所述视线光线，使用体渲染的方式进行建模，得到所述室外场景图像在新的观察方向上的图像。本发明所述的室外场景三维重建方法，使用环绕地标性建筑拍摄的多张图片，快速、高质量地对室外地标性建筑进行三维重建。

Description

一种室外场景三维重建方法、装置、电子设备及存储介质

技术领域

本发明涉及三维重建技术领域，特别是涉及一种室外场景三维重建方法、装置、电子设备及存储介质。

背景技术

近几年越来越多的旅游产业开始寻求线上的发展，“云游故宫”就是其中比较成功的典范。但现阶段较为普及的线上旅游多采用网页的形式，交互性不强。

随着虚拟现实技术的快速发展，将虚拟现实和旅游结合的产品也逐渐进入大众的视野。首先，VR线上旅游足不出户就可以给人身临其境的沉浸感体验，其次，VR线上旅游可以在一定程度下缓解人流，避免诸如黄金周的人流拥挤，最后，在游览体验上，VR线上旅游可以模拟出线下旅游没有的场景，不受时空的限制，比如可以随意选择不同季节的场景甚至是古代的场景。

VR线上旅游的关键技术是三维重建和三维渲染，如何重建出一个和真实场景别无二致的场景是VR线上旅游的关键性问题。从技术的分类上说，这是一个场景新视角生成的问题，通过围绕场景的一系列图片，构建场景模型，并通过这个场景模型预测拍摄图片中不存在的视角的问题，现阶段主流的方式是通过显式三维重建进行建模，即先通过点云和体素对场景建模，再通过渲染技术重建场景，现在商用的产品以及开源的软件多采用这种技术，例如COLMAP。但是，该方法存在诸多尚未解决的问题，比如，需要使用大量存储空间用于存储点云信息、不能很好地处理反射、透射的平面，虽然使用光线追踪技术可以较好地解决，但是对硬件的开销很大。

发明内容

基于此，本发明的目的在于，提供一种室外场景三维重建方法、装置、电子设备及存储介质，使用环绕地标性建筑拍摄的多张图片，快速、高质量地对室外地标性建筑进行三维重建。

第一方面，本发明提供一种室外场景三维重建方法，包括以下步骤：

获取室外场景图像，并计算所述室外场景图像对应的相机位姿；

将所述室外场景图像中的每一个像素点分别生成一条视线光线，作为神经辐射场的输入；

对每一条所述视线光线进行编码后，加入外观嵌入向量和瞬态嵌入向量，输入到训练好的神经辐射场进行神经渲染，得到所述视线光线上每一个坐标点的颜色、体密度和不确定度；

基于所述神经辐射场的输出结果，对于每一条所述视线光线，使用体渲染的方式进行建模，得到每一条所述视线光线对应的颜色；

根据每一条所述视线光线对应的颜色，得到所述室外场景图像在新的观察方向上的图像。

进一步地，所述神经辐射场的输入为场景体素坐标、光源方向和观察方向；

其中所述场景体素坐标和所述观察方向由感知光线表示，所述光源方向由光照光线表示；

所述感知光线和所述光照光线由所述视线光线通过所述相机位姿计算得到。

进一步地，对每一条所述视线光线进行编码后，加入外观嵌入向量和瞬态嵌入向量，输入到训练好的神经辐射场进行神经渲染，包括以下步骤：

将所述外观嵌入向量与编码后的所述视线光线拼接后，输入静态神经辐射场中进行神经渲染，得到所述视线光线对应的静态体密度和静态颜色；

将所述瞬态嵌入向量与编码后的所述视线光线拼接后，输入瞬态神经辐射场中进行神经旋绕，得到所述视线光线对应的瞬态体密度、瞬态颜色和不确定度。

进一步地，对每一条所述视线光线进行编码，包括以下步骤：

采用多分辨率哈希编码，将输入的所述视线光线按不同采样率进行采样，其中，采样率N由Nmin、Nmax和L这三个超参数控制，Nmax为N取值的最大值，Nmin为N取值的最小值，N为Nmin和Nmax之间取的L个值；

训练前，在不同采样率下设置随机的特征值；

训练过程中，使用哈希表存储特征值，将不同采样率下的特征值串联起来，得到多分辨率哈希编码的结果。

进一步地，使用以下公式，基于所述神经辐射场的输出结果，对于每一条所述视线光线，使用体渲染的方式进行建模，得到每一条所述视线光线对应的颜色：

其中，对于每条视线光线r(t)，最终渲染出的颜色可以表示为C(r)，T(t)表示光线从tn到t所累积的透明度，σ为神经渲染计算得出的静态体密度，c为神经渲染计算得出的静态颜色，σ(τ)为神经渲染计算得出的瞬态体密度，c(τ)为神经渲染计算得出的瞬态颜色。

进一步地，所述神经辐射场的损失函数为：

其中，

是加入不确定度的均方误差，/>

是排除不确定度在无穷远处达到极小值，/>

是为了防止模型使用瞬态密度来解释静态现象；β为神经渲染计算得出的不确定度，/>

为瞬态颜色和静态颜色之和，C为输入图像的颜色，σ(τ)为神经渲染计算得出的瞬态体密度，λ为超参数。

第二方面，本发明还提供一种室外场景三维重建装置，包括：

室外场景图像获取模块，用于获取室外场景图像，并计算所述室外场景图像对应的相机位姿；

光线生成模块，用于将所述室外场景图像中的每一个像素点分别生成一条视线光线，作为神经辐射场的输入；

神经渲染模块，用于对每一条所述视线光线进行编码后，加入外观嵌入向量和瞬态嵌入向量，输入到训练好的神经辐射场进行神经渲染，得到所述视线光线上每一个坐标点的颜色、体密度和不确定度；

体渲染模块，用于基于所述神经辐射场的输出结果，对于每一条所述视线光线，使用体渲染的方式进行建模，得到每一条所述视线光线对应的颜色；

结果生成模块，用于根据每一条所述视线光线对应的颜色，得到所述室外场景图像在新的观察方向上的图像。

第三方面，本发明还提供一种电子设备，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如本发明第一方面任一所述的一种室外场景三维重建方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面任一所述的一种室外场景三维重建方法的步骤。

本发明提供的一种室外场景三维重建方法、装置、电子设备及存储介质，通过采用多分辨率哈希编码这一高效的编码方式进行编码，从而达到快速建模的目的。针对室外环境中的不可控因素主要体现在两点，一是光照色差这一不可控因素，解决的方案是采用外观嵌入，二是行人车辆等暂时性遮挡这一问题，解决的方案是采取瞬态嵌入。总的训练思路是将生成的光线通过多分辨率哈希编码输入到神经辐射场中，将输出通过体渲染，得到生成的图片，继而将生成的图片与原始图片计算损失函数，通过不断训练，使损失函数最小化。实验证明，在存在遮挡的情况下，原始神经辐射场的重建结果会存在残影，而使用本申请的方法重建的结果有效地消除了残影。另外，对比现有模型，本申请提供的室外场景三维重建方法的重建时间大大缩短，而重建质量得到提高。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明提供的一种室外场景三维重建方法的步骤示意图；

图2为一个优选实施例中使用的模型结构示意图；

图3为一个实施例中对模型进行训练优化的流程示意图；

图4为一个实施例中对室外场景三维重建方法进行实验和调整的实验流程图；

图5为一个实施例中对一个室外场景进行三维重建的结果对比图，其中左图是原始神经辐射场重建的结果，右图是本申请提供的方法重建的结果；

图6为一个对比实验中，3种模型所得重建结果的PSNR随训练时间变化的折线图；

图7为本发明提供的一种室外场景三维重建装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

针对背景技术中的问题，本申请实施例提供一种室外场景三维重建方法，如图1和图2所示，该方法包括以下步骤：

S01：获取室外场景图像，并计算所述室外场景图像对应的相机位姿。

位姿即位置和姿态，是物体在空间中的位置和它自身的姿态，相机的位姿即相机在空间中的位置和相机的朝向。相机的位姿可以看做相机从原始位置到当前位置的变换，包含一个平移变换和一个旋转变换，先旋转再平移。这一变换可以分开描述也可以一起描述，分开描述即将旋转和平移分离开看成两个过程，一起描述即将旋转和平移看成一个完整的过程。

通过输入的图片估算出相机的位姿，这是一个相机位姿估计的问题，即通过几个已知坐标的特征点，以及他们在相机照片中的成像，求解出相机位于坐标系内的坐标与旋转角度。这个算法在COLMAP开源软件中有实现，可以直接进行调用，输出为自然坐标到相机坐标的转换矩阵。转换的矩阵计算的准确性是影响最后输出质量的关键因素。

S02：将所述室外场景图像中的每一个像素点分别生成一条视线光线，作为神经辐射场的输入。

一条光线通常可以表示为一条射线，在计算机图形学中，光线可表示为o+td，其中o表示光源的坐标，d表示光线传播方向的方向向量，t代表时间。神经辐射场的输入需要坐标、光源方向和观察方向，这三个输入就是通过光线进行表示的。图像中的每一个像素点分别生成一条水平光线，并通过自然坐标到相机坐标的转换矩阵得到感知光线和光照光线，转换矩阵由数据预处理阶段COLMAP中的位姿估计算法获得。

S03：对每一条所述视线光线进行编码后，加入外观嵌入向量和瞬态嵌入向量，输入到训练好的神经辐射场进行神经渲染，得到所述视线光线上每一个坐标点的颜色、体密度和不确定度。

对于光线的编码，本申请在前期实验中对比了频率编码和多分辨率哈希编码，在一个优选的实施例中，选用测试时间更短的多分辨率哈希编码。

具体的，多分别率哈希编码首先将输入的光线按不同采样率进行采样，采样率N由Nmin、Nmax和L这三个超参数控制，Nmax为N取值的最大值，Nmin为N取值的最小值，N为Nmin和Nmax之间取的L个值。在训练前，在不同采样率下设置随机的特征值，这个特征值是可训练的参数，将在训练过程中不断拟合场景，特征值使用哈希表进行存储，将不同采样率下的特征值串联起来，得到多分辨率哈希编码的结果。使用多分辨率哈希编码可以在不降低重建结果的情况下缩小网络模型，加快训练速度。

神经渲染就是把生成的光线通过编码输入到神经辐射场中进行计算。神经辐射场由一个多层感知机构成，输入为场景体素坐标x,y,z(该坐标为光线上均匀采点得到)、光源方向θ、观察方向φ、其中输入坐标和观察方向由感知光线表示，光源方向由光照光线表示。输出包括光线上坐标点的颜色R,G,B、体密度σ和不确定度β。

针对室外场景的光照条件不确定和室外场景存在行人、车辆等瞬态遮挡的问题，本申请在神经渲染中引入外观嵌入向量和瞬态嵌入向量，以解决光照变化和瞬态遮挡物使神经辐射场的场景重建质量下降的问题。

外观嵌入和瞬态嵌入将图像表示为一个向量，具体计算方式与词嵌入相同。具体的结构是将经过编码的感知光线和外观嵌入输入到用于计算体密度的多层感知机中，多层感知机包含未训练参数，未训练参数在训练过程中不断优化，使损失函数的值减小为训练目标，多层感知机的输出设置为体密度和特征向量，特征向量为多层感知机的计算结果，将特征向量和光照光线以及瞬态嵌入输入到用于计算颜色的带训练参数的多层感知机中，未训练参数在训练过程中不断优化，使损失函数的值减小为训练目标，多层感知机的输出设置为坐标点的颜色和不确定度。

优选的，损失函数如下所示：

其中，

是加入不确定度的均方误差，/>

是排除不确定度在无穷远处达到极小值，/>

S04：基于所述神经辐射场的输出结果，对于每一条所述视线光线，使用体渲染的方式进行建模，得到每一条所述视线光线对应的颜色。

体渲染利用了经典的立体渲染原理，在观察方向的每一条射线上进行渲染，就一条光线的渲染而言，体渲染将这条光线上的点的颜色和透明度相乘并累加，具体操作如公式所示，

其中，

对于每条相机光线r(t)，最终渲染出的颜色可以表示为C(r)，T(t)表示光线从tn到t所累积的透明度，可以理解为光线从tn到t，能够穿过的概率。σ为神经渲染计算得出的体密度，c为神经渲染计算得出的颜色。

在本申请的方法中，由于神经渲染的输出增加了瞬态颜色和瞬态体密度，因此，本申请使用的体渲染采用NeRF-W模型中使用的形式，使用如下公式，得到根据每一条所述视线光线对应的颜色：

其中，

对于每条相机光线r(t)，最终渲染出的颜色可以表示为C(r)，T(t)表示光线从tn到t所累积的透明度，σ为神经渲染计算得出的静态体密度，c为神经渲染计算得出的静态颜色，σ(τ)为神经渲染计算得出的瞬态体密度，c(τ)为神经渲染计算得出的瞬态颜色。

S05：根据每一条所述视线光线对应的颜色，得到所述室外场景图像在新的观察方向上的图像。

如图3和图4所示，本申请使用的三维重建模型主要分为训练阶段和测试阶段，继而对模型做一系列对比和消融实验。所要解决的问题主要有两方面，一方面是要做到快速，另一方面是要消除室外环境中的不可控因素对重建质量的影响。计划采用多分辨率哈希编码这一高效的编码方式进行编码，从而达到快速建模的目的。另外，针对室外环境中的不可控因素主要体现在两点，一是光照色差这一不可控因素，解决的方案是采用外观嵌入，二是行人车辆等暂时性遮挡这一问题，解决的方案是采取瞬态嵌入。总的训练思路是将生成的光线通过多分辨率哈希编码输入到神经辐射场中，将输出通过体渲染，得到生成的图片，继而将生成的图片与原始图片计算损失函数，通过不断训练，使损失函数最小化。

具体的，首先将数据集划分为训练集和测试集。在训练阶段，首先利用COLMAP生成的转换矩阵生成光线，将生成的光线进行编码后输入到神经辐射场模型中，计算将会得到这条光线的颜色、体密度、不确定度等信息，将输出量进行体渲染，得到输出的图片。在测试阶段，将生成光线输入到训练阶段训练好参数的神经辐射场中，预测测试图片，查看测试图片的生成质量。

在搭建完模型后做一系列的对比和消融实验，做这一系列实验的目的是调整网络参数使其达到最优，另一个目的是验证搭建的模型较以往模型有改进之处，在各个性能指标上有所提升。在这些实验中，分别在训练测试时间和重建质量两个维度上衡量模型的优劣，其中训练测试时间的衡量指标为时间，重建质量的衡量指标分为定量和定性两种，定量指标包括PSNR、SSIM、PSINS，定性指标包括重建的图像和重建图像的深度图信息。

其中，第一个是编码的对比实验，将选取不同的编码方式，如频率编码和多分辨率哈希编码，因为编码主要影响训练测试时间，故将采取时间为衡量指标。第二个实验是针对不可控因素优化的消融实验，不可控因素优化的方法主要采用外观嵌入和瞬态嵌入，衡量指标主要为重建质量的衡量指标。第三个实验主要为网络结构优化的对比实验，将修改多层感知机的深度和宽度，在时间和重建质量两个维度上进行衡量。第四个实验是和以往模型的对比实验，通过重建质量和时间的对比，验证本专利提出的网络在改善模型方面是有效的。

由于本申请在神经辐射场的基础上加入外观嵌入和瞬态嵌入，将每张图像光照与三维特征解耦，并将遮挡严重的图像对最后的影响结果降低，在一个具体的重建结果中，如图5所示，左图是原始神经辐射场重建的结果，在存在遮挡的情况下会出现遮挡物的残影，右图是本专利方法重建的结果，有效地消除了残影。

在重建所需要的时间上，用于室外场景的神经辐射场变体NeRF-W需要重建长达10小时，针对自己拍摄图像所构建的数据集，本专利重建时间以及重建的质量如下表所示，该表对比了NeRF、Instant-ngp以及我们模型的重建时间和重建质量

	PSNR(dB)	时间(s)
			NeRF	16.40	7200
Instant-ngp	20.78	240
			Ours	24.10	240

其中，PSNR为峰值信噪比(英语：Peak signal-to-noise ratio，常缩写为PSNR)，是一个表示信号最大可能功率和影响它的表示精度的破坏性噪声功率的比值的工程术语。由于许多信号都有非常宽的动态范围，峰值信噪比常用对数分贝单位来表示。

计算PSNR要先知道MSE(均方误差)的计算。两个m×n单色图像I和K，如果一个为另外一个的噪声近似，那么它们的的均方误差定义为：

PSNR就是通过MSE得出来的，公式如下：

其中，MAXI是表示图像点颜色的最大数值，如果每个采样点用8位表示，那么就是255。

所以MSE越小，则PSNR越大；所以PSNR越大，代表着图像质量越好。

如图6所示，PSNR的值取自趋于平稳时的值，时间为PSNR趋于平稳时的值，NeRF和Instant-ngp的实验数据为自己构建的数据集在NeRF和Instant-ngp在JNeRF上的实现。

本申请实施例还提供一种室外场景三维重建装置，如图5所示，该室外场景三维重建装置400包括：

室外场景图像获取模块401，用于获取室外场景图像，并计算所述室外场景图像对应的相机位姿；

光线生成模块402，用于将所述室外场景图像中的每一个像素点分别生成一条视线光线，作为神经辐射场的输入；

神经渲染模块403，用于对每一条所述视线光线进行编码后，加入外观嵌入向量和瞬态嵌入向量，输入到训练好的神经辐射场进行神经渲染，得到所述视线光线上每一个坐标点的颜色、体密度和不确定度；

体渲染模块404，用于基于所述神经辐射场的输出结果，对于每一条所述视线光线，使用体渲染的方式进行建模，得到每一条所述视线光线对应的颜色；

结果生成模块405，用于根据每一条所述视线光线对应的颜色，得到所述室外场景图像在新的观察方向上的图像。

优选的，所述神经辐射场的输入为场景体素坐标、光源方向和观察方向；

优选的，神经渲染模块包括：

外观嵌入单元，用于将所述外观嵌入向量与编码后的所述视线光线拼接后，输入静态神经辐射场中进行神经渲染，得到所述视线光线对应的静态体密度和静态颜色；

瞬态嵌入单元，用于将所述瞬态嵌入向量与编码后的所述视线光线拼接后，输入瞬态神经辐射场中进行神经旋绕，得到所述视线光线对应的瞬态体密度、瞬态颜色和不确定度。

优选的，神经渲染模块包括：

采样单元，用于采用多分辨率哈希编码，将输入的所述视线光线按不同采样率进行采样，其中，采样率N由Nmin、Nmax和L这三个超参数控制，Nmax为N取值的最大值，Nmin为N取值的最小值，N为Nmin和Nmax之间取的L个值；

特征值设置单元，用于训练前，在不同采样率下设置随机的特征值；

编码结果生成单元，用于训练过程中，使用哈希表存储特征值，将不同采样率下的特征值串联起来，得到多分辨率哈希编码的结果。

优选的，使用以下公式，基于所述神经辐射场的输出结果，对于每一条所述视线光线，使用体渲染的方式进行建模，得到每一条所述视线光线对应的颜色：

优选的，所述神经辐射场的损失函数为：

其中，

是加入不确定度的均方误差，/>

是排除不确定度在无穷远处达到极小值，/>

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种电子设备，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如前所述的一种室外场景三维重建方法的步骤。

对于设备实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的，其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的一种室外场景三维重建方法的步骤。

计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(R A M)、只读存储器(RO M)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。