CN117710583A

CN117710583A - 基于神经辐射场的空地影像三维重建方法、系统及设备

Info

Publication number: CN117710583A
Application number: CN202311745421.2A
Authority: CN
Inventors: 张斌; 曹成度; 费亮; 夏旺; 马龙; 李昭熹; 童思奇; 许诗旋; 王波
Original assignee: China Railway Siyuan Survey and Design Group Co Ltd
Current assignee: China Railway Siyuan Survey and Design Group Co Ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-03-15

Abstract

本发明提供一种基于神经辐射场的空地影像三维重建方法、系统及设备，该方法包括：获取目标场景的多视角空地影像数据和稀疏三维点云；基于所述多视角空地影像数据中的影像位置信息将所述目标场景划分为多个子区域；其中，相邻的子区域之间有部分区域重叠；基于所述稀疏三维点云，对一个子区域中所包括的多张空地影像同时进行神经辐射场模型的训练，得到一个子模型；则多个子区域对应得到多个子模型；将多个所述子模型进行渲染融合后，得到所述目标场景的三维模型。本发明改进了基于神经辐射场的三维重建和渲染技术，实现了对目标场景空地影像联合的三维重建，不仅提高了计算效率，而且保持了渲染的精度和质量。

Description

基于神经辐射场的空地影像三维重建方法、系统及设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于神经辐射场的空地影像三维重建方法、系统及设备。

背景技术

随着图像传感器的普及，获取模型的三维数据和纹理信息也越来越容易。只要通过相机获取目标的多视角图像信息，构建图像序列并进行分析处理，便能基于所获取的图像信息实现三维模型的建立。

目前，三维模型的建立方法主要分为三种：一是运用传统的几何建模技术构建三维模型；二是利用多角度的相机拍摄图像，通过计算机视觉技术建立三维数学模型，也称为基于图像的三维重建；三是基于点云的三维重建方法，通过对物体进行扫描，生成该物体点云视角下的三维模型。

然而，这些三维模型的重建方法虽然已经广泛地应用于生产生活中，但由于学习方式、学习设备等条件的制约，仍然存在很多难以避免的缺点：

一方面，对场景以及场景拍摄的视角和位置都有一定要求；不仅需要场景中有足够多的纹理和明显的特征点，而且当同时使用无人机影像和地面捕获的影像时，由于视角差异太大难以准确正确的目标三维模型。另一方面，需要耗费大量的计算时间和内存资源，处理速度慢。此外，现有的三维重建方法通常使用局部优化或表面重建的方式生成三维模型，因此，在复杂地物区域模型的表面平滑度、几何形状和纹理等方面难以达到高精度的效果。

发明内容

本发明提供一种基于神经辐射场的空地影像三维重建方法、系统及设备，用以解决现有三维重建方法所构建的三维模型准确率差、处理速度慢以及精度低的问题。

第一方面，本发明提供一种基于神经辐射场的空地影像三维重建方法，该方法包括：

获取目标场景的多视角空地影像数据和稀疏三维点云；

基于所述多视角空地影像数据中的影像位置信息将所述目标场景划分为多个子区域；其中，相邻的子区域之间有部分区域重叠；

基于所述稀疏三维点云，对一个子区域中所包括的多张空地影像同时进行神经辐射场模型的训练，得到一个子模型；则多个子区域对应得到多个子模型；

将多个所述子模型进行渲染融合，得到所述目标场景的三维模型。

进一步的，将所述目标场景划分为多个子区域包括：

根据所有空地影像的位置信息，计算目标场景的包围区域A为：

A＝[x_min,x_max]×[y_min,y_max]×[z_min,z_max]；

其中，x_min、x_max、y_min、y_max、z_min和z_max分别表示包围区域的框沿x，y和z轴的最小坐标值和最大坐标值；

对所述包围区域进行划分，得到多个子区域。

进一步的，所述划分包括：对所述包围区域的长和/或宽分别进行均等划分，得到多个子区域，每个子区域的空间形状一样。

进一步的，多个子模型同时进行训练或相继进行训练。

进一步的，所述神经辐射场模型的训练包括：

利用颜色监督损失和深度监督损失优化所述神经辐射场模型的参数，实现所述神经辐射场模型的训练；

其中，基于体渲染得到给定视角下的相机光线的渲染颜色值和空地影像的真实颜色值计算得到所述颜色监督损失；基于神经辐射场模型预测的深度值和所述稀疏三维点云的关键点深度值计算得到所述深度监督损失。

进一步的，所述渲染颜色值的获取包括：

将所述光线平分成N个区间，在每个区间随机采样一个样本点，对该样本点的预测颜色值进行加权求和；

所述渲染颜色值的计算公式为：/>其中，N表示区间，i表示样本点，w_i表示权重，w_i＝T_i(1-exp(-σ_iδ_i))；T_i表示样本点沿着视角相机光线的累积透明度，/>σ_i表示样本点的体积密度；δ_i表示相邻样本点的距离，δ_i＝t_i+1-t_i，t表示样本点沿着光线距离光线原点的距离；c_i表示预测颜色值。

进一步的，在渲染时，基于划分的子区域范围限制渲染场景；基于渲染区域的光线与子区域范围之间的交点，得到渲染场景所需的子区域数量。

进一步的，多个子区域对应的多个子模型同时进行渲染；

当渲染区域边界具有m次重叠的区域时，利用涉及所述子区域所训练的m个神经辐射场同时渲染并进行平均；其中，m为正整数。

第二方面，本发明提供一种基于神经辐射场的空地影像三维重建系统，该系统至少包括数据获取模块、区域划分模块、模型训练模块以及模型渲染模块，用于执行上述任一项方法的步骤。

第三方面，本发明提供一种基于神经辐射场的空地影像三维重建设备，该设备包括至少一个处理单元、以及至少一个存储单元；其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行上述任一项方法的步骤。

总体而言，通过本发明所构思的技术方案，与现有技术相比能够取得下列有益效果：

(1)本发明提供一种基于神经辐射场的空地影像三维重建方法、系统及设备，利用多视角影像的位置信息将目标场景划分为多个子区域，多个子区域并行训练神经辐射场模型，提高了目标场景下神经辐射场模型的训练速度，缩短了训练时间。

(2)本发明提供一种基于神经辐射场的空地影像三维重建方法、系统及设备，利用颜色监督损失和深度监督损失优化神经辐射场模型的参数，提高了渲染影像的质量和几何位置的精度。

(3)本发明提供一种基于神经辐射场的空地影像三维重建方法、系统及设备，利用多个子区域的自适应融合方法，得到完整的场景隐式三维模型，优化了渲染过程，提高了计算效率，同时保持了渲染的精度和质量。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于神经辐射场的空地影像三维重建方法、系统及设备的方法示意图；

图2是本发明提供的一种基于神经辐射场的空地影像三维重建方法、系统及设备的子区域划分的俯视图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图以及实施例，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

需要说明的是，在本发明实施例的描述中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法或系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或系统中还存在另外的相同要素。

随着人工智能技术的快速发展，深度学习快速席卷各大工业领域。基于深度学习的三维重建算法发展迅速，并以其高效、快速的优势逐步获得研究人员青睐。因此，本发明旨在利用深度学习的非线性建模能力，通过神经辐射场技术联合空地影像建模场景信息。

第一方面，本发明提出一种基于神经辐射场的空地影像三维重建方法，如图1所示，该方法包括：

步骤101：获取目标场景的多视角空地影像数据和稀疏三维点云。

需要说明的是，多视角空地影像数据是利用多种角度的空中视角和多种角度的地面视角所拍摄得到的影像，每张影像数据均包括相机的位置信息和姿态信息。

稀疏三维点云是影像的连接点通过共线方程利用前方交会得到的三维点。

作为本发明的一个实施例，在获取无人机和地面相机所拍摄的多视角影像数据后，首先通过空地影像数据联合空中三角测量，对每个相机的姿态信息进行矫正，得到每个相机的矫正后的姿态信息，具体包括：空地影像的特征提取、特征匹配以及几何平差等姿态矫正；其中，矫正方式为现有技术所有，此处不再赘述。然后基于矫正后的姿态信息，利用摄影测量学的共线方程，通过空间前方交会计算得到目标场景的稀疏三维点云。

为保证三维重建的精度，设置无人机和地面相机的参数。优选的，无人机的影像重叠度航向重叠率不低于80％，旁向重叠率不低于70％；地面相机的影像重叠率不低于50％。

步骤102：基于多视角空地影像数据中的影像位置信息将目标场景划分为多个子区域。其中，相邻的子区域之间有部分区域重叠。

具体的，将目标场景划分为多个子区域包括：根据所有空地影像的位置信息，计算目标场景的包围区域；并对包围区域进行划分，得到多个子区域。

也即是，A＝A_j|j＝1,…,n；其中，A表示目标场景的包围区域；A_j表示子区域；j表示子区域的索引。

作为本发明的一个实施例，目标场景的包围区域A为：

A＝[x_min,x_max]×[y_min,y_max]×[z_min,z_max]；

其中，x_min、x_max、y_min、y_max、z_min和z_max分别表示包围区域的框沿x，y和z轴的最小坐标值和最大坐标值。

需要说明的是，划分的子区域可以是等间距的，也可以是不等间距的；子区域的空间形状可以是一致的，也可以是不一致的。

优选的，划分包括：对包围区域的长和/或宽分别进行均等划分，得到多个子区域，每个子区域的空间形状一样。

当前子区域与相邻的所有子区域均有部分重叠区域。例如，如图2所示，将包围区域划分为多个统一的长度、宽度的有重叠的子区域。正中间的子区域，与相邻的8个子区域均有部分重叠区域；其中，与正对的4个子区域相互重叠，也即是该范围有2次重叠；与相邻的4个子区域相互重叠，也即是该范围有4次重叠。也即是，图中的数字“1”代表只有1个子区域，该范围无重叠；数字“2”代表该范围有2次重叠；数字“4”代表4个该范围有4次重叠。

需要说明的是，还可以对高度进行划分，得到多个更小的子区域，例如，每个子区域范围都是一个正方体，相邻的正方体之间均有部分区域重叠；或每个子区域范围都是一个球，相邻的球之间均有部分区域重叠。

步骤103：基于稀疏三维点云，对一个子区域中所包括的多张空地影像同时进行神经辐射场模型的训练，得到一个子模型；则多个子区域对应得到多个子模型。

神经辐射场是是一种有隐式场景表示的新视角合成方法，通过多层感知机使用带有隐式神经场景表示的体渲染。

基于一个子区域中的多视角空地影像数据的影像位置信息和矫正后的姿态信息生成光线。也即是，基于稀疏三维点云，确定光线上采样点的位置分布，得到采样点的三维位置和光线视角；以三维位置和光线视角为神经辐射场模型的输入数据，得到预测光线上的预测颜色值和体积密度。从而通过神经辐射场模型描述了场景中每个点和每个观察方向的颜色和体积密度。

其中，神经辐射场模型F_Θ表示为：F_Θ:(x,d)→(c,σ)；优选采用多层感知器网络。其中，x＝(x,y,z)，表示光线上采样点的三维位置；d＝(θ,φ)表示光线上采样点的光线视角，θ表示方位角，φ表示极角；c＝(r,g,b)表示预测颜色值；σ表示体积密度。

基于预测颜色值、体积密度、相机位置o和光线视角d即可以通过体渲染获取任何相机光线r(t)＝o+td。

作为本发明的一个实施例，神经辐射场模型的训练包括：利用颜色监督损失和深度监督损失优化神经辐射场模型的参数，实现神经辐射场模型的训练。其中，基于体渲染得到给定视角下的相机光线的渲染颜色值和空地影像的真实颜色值计算得到颜色监督损失；基于神经辐射场模型预测的深度值和稀疏三维点云的关键点深度值计算得到深度监督损失。

具体而言，通过体渲染得到给定视角下的相机光线的渲染颜色值；也即是从近端到远端的采样点的累积透明度、体素密度和颜色的积分，渲染颜色值的计算公式为：

其中，t表示样本点沿着光线距离光线原点的距离，取值范围为从最近点t_n到最远点t_f；T(t)表示样本点沿着相机光线的累积透明度；σ(·)表示体积密度函数；σ(r(t))表示光线在点t的体积密度值，由模型的预测结果得到；c(r(t),d)表示光线在点t的预测颜色值，由模型的预测结果得到。

需要说明的是，由于模型只能在固定的离散位置采样，因此，作为本发明的另一个实施例，渲染颜色值的获取包括：将光线平分成N个区间，在每个区间随机采样一个样本点，对该样本点的预测颜色值进行加权求和。例如，使用分层抽样的方法，将区间[t_n,t_f]划分为N个间隔均匀的样本库，然后从每个样本库中随机抽取一个样本点，则渲染颜色值的计算公式为：

其中，N表示区间，i表示样本点，w_i表示权重，w_i＝T_i(1-exp(-σ_iδ_i))；T_i表示样本点沿着视角相机光线的累积透明度，σ_i表示样本点的体积密度；δ_i表示相邻样本点的距离，δ_i＝t_i+1-t_i，t表示样本点沿着光线距离光线原点的距离；c_i表示预测颜色值。

基于体渲染得到给定视角下的相机光线的渲染颜色值和空地影像的真实颜色值计算得到颜色监督损失具体计算公式为：

其中，为渲染颜色值，C_g.t.为真实颜色值。

基于神经辐射场模型预测的深度值和稀疏三维点云的关键点深度值计算得到深度监督损失具体计算公式为：

其中，为预测的深度值，/>N表示区间，i表示样本点，w_i表示权重，t表示样本点；D_g.t.为关键点深度值。

需要说明的是，多个子模型同时进行训练或相继进行训练。也即是，在划分子区域之后，每个子区域内，各自进行子模型的训练，多个子区域可以同时进行训练，也可以依次相继进行训练。优选为同时训练，以进一步提高训练效率。

反复重复步骤103，通过梯度下降方法不断优化神经辐射场模型的参数，在损失值趋于平缓时停止训练，即得到多个子模型。

步骤104：将多个子模型进行渲染融合，得到目标场景的三维模型。

需要说明的是，由于有可能所得到的子模型中有些没有物体，并不需要渲染，因此需要对子区域数量进行筛选。因此，作为本发明的一个实施例，在渲染时，基于划分的子区域范围限制渲染场景；基于渲染区域的光线与子区域范围之间的交点，得到渲染场景所需的子区域数量；以此限制渲染的场景和筛选需要渲染的子区域数量。

通过限制渲染的场景可有效消除非子区域范围外的噪声；通过筛选需要渲染的子区域数量，只对必要的子区域进行渲染，使得渲染的计算量也会相应减少，进一步提升渲染速度。

同时，多个子区域对应的多个子模型同时进行渲染，进一步提升渲染速度；最后将渲染后的子模型进行融合，得到最终的目标场景的三维模型。

当渲染区域仅限于一个子区域的情况下，将仅利用该子区域进行渲染。当渲染区域边界具有m次重叠的区域时，利用涉及所述子区域所训练的m个神经辐射场同时渲染并进行平均；其中，m为正整数。例如，如图2所示，在2次重叠区域使用2个神经辐射场渲染，在4次重叠区域使用4个神经辐射场渲染。也即是，当渲染区域位于边界重叠部分时，同时使用多个子区域模型同时渲染并进行平均。

通过相同重叠区域的平均，在合并步骤后显示出更强的连续性和一致性，提高了合并渲染的整体质量。这种自适应的过程优化了渲染过程，提高了计算效率，同时保持了渲染的精度和质量。

第三方面，本发明提供一种基于神经辐射场的空地影像三维重建设备，包括至少一个处理单元、以及至少一个存储单元；其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行上述任一项方法的步骤。

该系统或设备与上述方法的技术特征一致，此处不再一一赘述。

总之，本发明改进了基于神经辐射场的三维重建和渲染技术，实现了对目标场景空地影像联合的三维重建。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经辐射场的空地影像三维重建方法，其特征在于，该方法包括：

获取目标场景的多视角空地影像数据和稀疏三维点云；

2.如权利要求1所述的一种基于神经辐射场的空地影像三维重建方法，其特征在于，将所述目标场景划分为多个子区域包括：

A＝[x_min,x_max]×[y_min,y_max]×[z_min,z_max]；

其中，x_min、x_max、y_min、y_mac、z_min和z_max分别表示包围区域的框沿x，y和z轴的最小坐标值和最大坐标值；

对所述包围区域进行划分，得到多个子区域。

3.如权利要求2所述的一种基于神经辐射场的空地影像三维重建方法，其特征在于，所述划分包括：对所述包围区域的长和/或宽分别进行均等划分，得到多个子区域，每个子区域的空间形状一样。

4.如权利要求1所述的一种基于神经辐射场的空地影像三维重建方法，其特征在于，多个子模型同时进行训练或相继进行训练。

5.如权利要求1所述的一种基于神经辐射场的空地影像三维重建方法，其特征在于，所述神经辐射场模型的训练包括：

6.如权利要求5所述的一种基于神经辐射场的空地影像三维重建方法，其特征在于，所述渲染颜色值的获取包括：

所述渲染颜色值的计算公式为：/>其中，N表示区间，i表示样本点，w_i表示权重，w_i＝T_i(1-exp(-σ_iδ_i))；T_i表示样本点沿着视角相机光线的累积透明度，σ_i表示样本点的体积密度；δ_i表示相邻样本点的距离，δ_i＝t_i+1-t_i，t表示样本点沿着光线距离光线原点的距离；c_i表示预测颜色值。

7.如权利要求1所述的一种基于神经辐射场的空地影像三维重建方法，其特征在于，在渲染时，基于划分的子区域范围限制渲染场景；基于渲染区域的光线与子区域范围之间的交点，得到渲染场景所需的子区域数量。

8.如权利要求7所述的一种基于神经辐射场的空地影像三维重建方法，其特征在于，多个子区域对应的多个子模型同时进行渲染；

9.一种基于神经辐射场的空地影像三维重建系统，其特征在于，该系统至少包括数据获取模块、区域划分模块、模型训练模块以及模型渲染模块，用于执行权利要求1～8中任一项所述方法的步骤。

10.一种基于神经辐射场的空地影像三维重建设备，其特征在于，该设备包括至少一个处理单元、以及至少一个存储单元；其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行权利要求1～8任一项所述方法的步骤。