CN115690324A

CN115690324A - 一种基于点云的神经辐射场重建优化方法及装置

Info

Publication number: CN115690324A
Application number: CN202211427754.6A
Authority: CN
Inventors: 梁凌宇; 邹朝军
Original assignee: Guangzhou Zhongsi Artificial Intelligence Technology Co ltd
Current assignee: Guangzhou Zhongsi Artificial Intelligence Technology Co ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-02-03

Abstract

本发明公开了一种基于点云的神经辐射场重建优化方法及装置，包括以下步骤：通过图像采集设备获取场景的多视角的RGB图像数据集I＝{I_i|i＝1,2,...,N}；依次对所有图像提取N_f个特征点，包括关键点x与描述子f，表示为

获取特征点后，采用基于注意力的图卷积神经网络，在两张图像{I_a,I_b}上的对应特征点集

和

上实现特征点的匹配，获取匹配特征点对

采用增量式运动恢复结构算法实现稀疏点云P_sparse重建以及相机的参数Φ(K,R,t)估计；重建场景的稠密点云模型P_dense；基于上述获得的点云P_sparse或P_dense信息来辅助重建并优化场景的神经辐射场隐式模型P_implicit，通过体积渲染进行模型P_implicit的可视化；本发明实现了显式和隐式两种三维模型形式的生成，并且可以实现任一种模型的单独输出，实现不同场景的模型需求。

Description

一种基于点云的神经辐射场重建优化方法及装置

技术领域

本发明涉及三维重建技术领域，特别涉及一种基于点云的神经辐射场重建优化方法及装置。

背景技术

三维重建的目的是使用相机等采集设备获取的图像来还原场景的三维几何信息，以生成一个可以精确表达场景结构的三维数据模型。目前的基于图像的三维重建技术主要是先采用运动恢复结构(Structure from Motion,SfM)技术恢复各图像的相机参数，获得稀疏点云，然后采用多视角立体几何视觉(Multi-View Stereo,MVS)技术利用图像及对应相机参数信息来进行稠密点云重建。最后获得的点云模型是一种三维模型形式，可以转化为网格等其他模型形式，应用于游戏建模等各种领域。由于MVS过程依赖于图像间特征匹配的置信度，但是在一些低纹理以及非朗伯表面区域，很难提取到有效特征，因此目前大部分方法会导致重建模型的精度和完整性较差。

三维重建的另一个技术路径是采用神经辐射场(Neural Radiance Fields,NeRF)进行隐式模型重建。在SfM过程之后，通过一种深度神经网络——多层感知机(Multi-LayerPerceptron,MLP)通过不断训练来拟合场景的结构和纹理信息，最后利用体渲染技术合成不同角度的场景图像来进行可视化，达到三维重建的目的。该方案直接输出图像，因此重建的可视化效果较好。神经辐射场模型的表示形式为一个神经网络，并且在网络训练过程中计算复杂度较高，因此需要较长时间，而现有技术中缺乏一种合理且高效的训练加速优化方法，导致三维重建效率很低。

同时，三维重建方法需要大量的计算，对设备性能具有严苛的要求，一般用户很难使用个人设备进行三维重建。

发明内容

本发明的目的在于克服现有技术中的上述缺陷，提供一种基于点云的神经辐射场重建优化方法及装置，实现了显式和隐式两种三维模型形式的生成，并且可以实现任一种模型的单独输出，实现不同场景的模型需求，提升了三维重建效率；还可以降低了对终端通用计算机的计算要求，增强了广泛应用的可能性。

为实现上述目的，本发明提供了一种基于点云的神经辐射场重建优化方法，包括以下步骤：

步骤S101：通过图像采集设备获取场景的多视角的RGB图像数据集I＝{I_i|i＝1,2,...,N}；

步骤S102：依次对所有图像提取N_f个特征点，包括关键点x与描述子f，表示为

和

上实现特征点的匹配，获取匹配特征点对

步骤S103：基于S102获取的经过特征点匹配的图像，采用增量式运动恢复结构算法实现稀疏点云P_sparse重建以及相机的参数Φ(K,R,t)估计；

步骤S104：基于图像集I＝{I_i|i＝1,2,...,N}以及由S103得到的对应相机参数Q＝{Φ_i＝(K_i,R_i,t_i)|i＝1,2,...,N}，重建场景的稠密点云模型P_dense；

步骤S105：基于图像集I＝{I_i|i＝1,2,...,N}、由S103得到的对应相机参数Q＝{Φ_i＝(K_i,R_i,t_i)|i＝1,2,...,N}以及由S104得到的稠密点云模型P_dense，重建场景的神经辐射场隐式模型P_implicit，通过体积渲染进行模型可视化。

作为优选的，所述步骤S101中，通过图像采集设备采集到的图像中应包含待重建场景的全部可视部分，图像质量清晰可靠，且图像之间需要保证一定内容的重叠。

作为优选的，所述步骤S102中，依靠编码器-解码器的神经网络结构，，通过编码器提取高维信息；然后通过两个并联的解码器对编码结果进行降维解码，分别输出图像中的关键点x与描述子f。

作为优选的，所述步骤S102中，通过将特征点视为图结构中的节点，并构建两种边，分别用来表征图像内特征点的关联和图像间特征点的关联，以构建自注意力(self-attention)与交叉注意力(cross-attention)机制；使用多层图卷积神经网络(GNN)的消息传递机制来聚合特征点在图像内与图像间的特征点信息，得到更利于匹配的特征；最后构建分配矩阵，并使用Sinkhorn算法求解最优分配矩阵，完成在两张图像{I_a,I_b}上的匹配；重复以上过程，直至完成所有图像的特征点匹配任务。

作为优选的，所述步骤S103中，基于开源项目Colmap实现增量式运动恢复结构算法；具体如下：

步骤S1031：初始化；根据匹配特征点

在图像中的分布特点选择初始匹配图像对C_init＝[I_i,I_j]，原则是匹配特征点最多、分布最均匀；使用对极几何约束计算位姿，包括旋转矩阵R以及平移向量t；

步骤S1032：三角化；计算经过匹配的特征点在空间的位置：

其中，

分别为图像对C_init＝[I_i,I_j]中经过匹配的特征点坐标，R、t为相机的外部参数，具体指两张图像对应相机的相对位姿；解上述方程获得该点在图像I_i对应相机参考系的深度Z_i，即得到其在三维空间中的位置；通过初始化以及三角化，可以获得仅含两张图像C_init＝[I_i,I_j]的初始点云模型P_init；

步骤S1033：图像注册；通过PnP算法将剩余所有图像注册到初始点云模型P_init中；利用空间中的相似三角关系求出三维点在相机坐标系下的坐标，通过n个三维点在空间坐标系的坐标{P_k|k＝1,2,..,n}以及相机坐标系下的坐标{P_k'|k＝1,2,..,n}，利用迭代最近点算法(ICP)求解相机参数Φ；

步骤S1034：光束平差优化(BA)；通过最小化重投影误差，优化相机参数Φ以及稀疏点云；即优化以下的代价函数：

其中，Φ为相机参数，P为空间中三维点的世界坐标，h(·)为投影函数，将空间中三维点投影到各相机的对应图像上，p为空间中三维点对应在图像中的真实像素坐标；通过调整Φ和P，最小化以上重投影误差；最终获得精度较高的相机位姿Φ以及由所有三维点P构成的稀疏点云P_sparse。

作为优选的，所述步骤S104中，所述稠密点云重建方法是基于深度学习的MVS网络，包括以下步骤：

步骤S1041：特征提取；

输入图像为1张参考图像I₀以及N_s张源图像{I_i|i＝1,2,...,N_s}；N_s张源图像的选取原则是拍摄时相机在空间中的位置和视角与参考图像I_ref相邻，由S103获得的相机位姿(R,t)可以获得该相邻关系；

使用特征金字塔网络(FPN)以三个粗到细的分辨率提取多尺度图像特征；同时，在这个过程中，加入自适应感受野模块，具体是通过可变形卷积(DCN)来实现的；该模块有助于在低纹理区域增大感受野，以提升在该区域提取特征的有效性，进而提升最终的重建完整度；对于高为H、宽为W的原始图像，将得到多尺度特征图F^H×W＝{F_i ^H×W|i＝0,1,...,N_s}、

基于Transformer的注意力机制来提取全局上下文信息并进行图像间的特征交互；其中，将FPN提取的特征分组为查询(Q)、键(K)和值(V)，Q和K进行点积获得注意力权重，代表特征关联度，根据该关联度对V进行加权，从而达到获取V中相关信息的作用；表示为如下公式：

与S102的特征匹配过程类似，同样通过自注意力聚合图像内全局上下文信息，通过交叉注意力进行图像间的特征交互；当Q和K为同一图像的特征时，注意力层会在该图像中检索相关信息，即为自注意力，可以看作是图像内远程全局上下文聚合；而当Q和K来自不同图像，注意力层会获取这两个视图之间的交叉相似关系，即为交叉注意力，完成图像之间的特征交互；

对最小尺度特征图

中每张参考图像和源图像执行自注意力，而交叉注意力的两张特征图则分别来自参考图像和某张源图像；为了获取多尺度特征图，将在以上特征图的基础进行上采样，并添加到对应尺度的原始特征图上；

步骤S1042：代价体构建；

应用可微分的扭曲变换将所有源图像与参考图像对齐；在深度假设值为d的情况下，参考视图上的像素p与其对应在源视图上的像素

之间的扭曲变换定义为：

其中，R_0→i与t_0→i分别为从参考图像到第i张源图像的旋转与平移变换参数，K为相机的内部参数，对参考图像的所有像素进行如上变换获得扭曲特征图F_0→i(d)，采用内积获得位置p处的成对特征相关性,即为源图像F₀在深度假设d下的对于第i张参考图像代价体C_i(d):

C_i(d)＝<F₀,F_0→i(d)>

步骤S1043：深度回归；

采用自适应权重w(C_i(d))将不同源视图的N_s个代价体聚合：

w(·)是根据不同视图的代价体自适应产生的权重；通过这种方式，具有关键上下文信息的像素将被分配更大的权重，以改善遮挡和非朗伯曲面的不同光照条件导致的问题；

然后对代价体进行Softmax运算，生成概率体P，最后对概率体进行加权平均处理，获得最终深度图：

步骤S1044：深度图融合；

对所有图像依次作为参考图像执行上述步骤，估计深度图；

对于每一张深度图D的像素点p，根据相机参数Φ可以还原其在真实三维空间中的位置z：

z＝D(p)Τ^-1K^-1p

其中，Τ、K为相机外部参数和内部参数，均为相机参数Φ的一部分，由S103得到；

最后，融合所有深度图构建的三维点完成场景的稠密点云P_dense的构建；

通过以上过程，实现了三维场景的显式模型重建。

作为优选的，所述步骤S105中，

所述神经辐射场由多个多层感知深度神经网络MLP构成，与现有相关技术的显著区别是，为了提升训练(重建)效率，考虑由S104获得的稠密点云P_dense中的几何信息；给定任何3D位置x和观察方向

以及x周围的K个三维点{p_i,f_i,γ_i|i＝1,...,K}，经过多个MLP，最终回归体积密度σ和与视角相关的辐射r：

其中，邻居个数K是一个可学习参数，它可以根据x周围的点云密度而变化，随着点云密度的降低将增大K以提供更多引导信息，进一步提升重建精度和效率；

该MLP_NeRF(·)映射即为场景的隐式模型，重建过程就是通过反向传播算法训练深度神经网络MLP的过程。

作为优选的，所述训练深度神经网络MLP的过程包括：

(1)构建神经点云；

由S104深度回归过程获得的深度概率体可以代表每个点位于场景表面的置信度α，与得到的点云中的三维点p一一对应；同时，通过由S104中特征提取过程获取的特征图F^H ^×W＝{F_i ^H×W|i＝0,1,...,N_s}中的每个像素特征f，与得到的点云中的三维点p同样一一对应；

最终对于每一个三维点，都对应空间位置p、置信度α、特征f三种信息，该三种信息合称为神经点；通过以上方式，将普通点云转化为神经点云，生成神经点云P：

P_neural＝{(p_i,f_i,α_i)|i＝1,...,N}

(2)神经点特征聚合；

首先对每个三维点进行单独处理：通过一个多层感知机M₁来计算点p对于采样点x的特征向量：

f_i(x)＝M ₁(f_i,x-p_i)

这里使用相对位置x-p可以保证计算过程对点平移保持不变，以实现更好的泛化性能；

对x周围K个邻居点的加权来获得场景点x处的特征：

其中，以逆距离

作为权重，可以使得特征聚合时更关注距离x近的神经点；

(3)回归辐射场；

通过一个多层感知机M ₂回归任意视角方向

的辐射值r：

通过一个多层感知机M ₃来获得x周围K个邻居的体密度σ，再通过加权求和获得x处的体密度σ：

σ_i(x)＝M ₃(f_i(x))

同样采用逆距离

进行加权求和，获得x处的最终体密度σ：

通过上述若干个MLP可获得每个采样点的辐射值r和体密度σ，完成了隐式重建过程；

(4)体积渲染；

基于体渲染公式和神经辐射场输出的辐射值r和体密度σ，可获得可视化图像上每一个像素点对应的颜色；假设从某像素点发射的一条光射线

o为相机光心，

为相机视角方向，t为光线在方向

上的某一位置坐标；对于某个观察方向

计算出一幅图像中所需的所有像素点的颜色即完成渲染，该图像即为该隐式模型的可视化表达；渲染公式如下，输出某条光线经过场景后最终在图像上呈现的颜色C：

其中，l_i为相机光线上采样的某一个空间位置，δ为采样间隔，c为神经辐射场输出的颜色值，T表示沿光线的累积透射率，即在光线传播过程中未被任何其他粒子阻挡的概率，表示为：

计算图像上所有像素对应光线的渲染颜色，得到渲染图像；

进行模型可视化时，即创建对应观察方向的虚拟相机，根据隐式模型和相机方向渲染出该视角的图像。

本发明还提供了一种基于点云的神经辐射场重建优化装置，包括：

终端采集设备，用于获取和保存场景的RGB图像；所述终端采集设备包括图像采集模块、第一存储器和第一通信接口；所述图像采集模块用于采集场景图像，所述第一存储器用于保存图像数据，所述第一通信接口用于向云端设备上传图像数据；

终端通用计算机，用于保存、编辑和浏览生成的三维重建模型；所述终端通用计算机包括第二处理器、第二存储器和第二通信接口；所述第二存储器用于保存三维模型和相关程序指令；所述第二处理器用于处理模型编辑和可视化命令；所述第二通信接口用于接受云端设备发送的重建模型；

云端设备，用于根据场景的图像数据重建三维模型，所述云端设备包括第三处理器、第三存储器和第三通信接口；所述第三存储器存储有上述所述的一种基于点云的神经辐射场重建优化方法的计算机程序、图像数据以及运行过程的中间数据；所述第三处理器用于调用第三存储器中的计算机程序和数据；所述第三处理器包含性能强大的图形处理器GPU与中央处理器CPU；所述第三通信接口用于接收终端采集设备传输的图像数据以及向终端通用计算机发送生成的三维重建模型。

与现有技术相比，本发明的有益效果在于：

1、对相机参数进行更准确的估计，在注意力的图卷积神经网络的作用下，在特征点提取与匹配过程中，相较于目前主流的SIFT特征点提取和最近邻特征点匹配方法，可以提供更多有效匹配，以提升后续相机参数估计的精度，为后续的三维重建奠定基础；利用Transformer结构改进了MVS算法，在深度神经网络中加入自注意力提取全局上下文信息，加入交叉注意力聚合不同视图特征，从而有效提升了重建的完整性和精度，通过显式三维点云模型的几何信息来大幅提升收敛速度和模型精度，从而快速得到更高质量隐式模型；并且实现了显式和隐式两种三维模型形式的生成，可以实现任一种模型的单独输出，满足不同场景的模型需求；相较于同时输出，单模型输出可以在保证质量的前提下进一步提升重建效率。

2、本发明还提供了一种基于点云的神经辐射场重建优化装置，以实现上述重建优化方法；所述装置首先通过终端采集设备进行获取、采集和保存场景的RGB图像；其次通过云端设备对场景的图像数据进行处理，重建三维模型；最后通过终端通用计算机将生成的三维重建模型进行保存、编辑和浏览；实现了采集、处理重建和浏览的分离，提升了三维重建效率；还可以降低了对终端通用计算机的计算要求，增加了广泛应用的可能性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于点云的神经辐射场重建优化方法同时生成两种模型的流程框图；

图2是本发明提供的仅生成显式稠密点云模型的流程框图；

图3是本发明提供的仅生成隐式神经辐射场模型的流程框图；

图4是本发明提供的一种基于点云的神经辐射场重建优化装置的示意图。

具体实施方式

下面将结合本发明本实施方式中的附图，对本发明本实施方式中的技术方案进行清楚、完整地描述，显然，所描述的本实施方式是本发明的一种实施方式，而不是全部的本实施方式。基于本发明中的本实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他本实施方式，都属于本发明保护的范围。

本发明可以实现显式和隐式两种三维模型的重建，并且过程可以实现分离，因此对于仅需要显式模型、隐式模型或者对两者均有需求的任务都能分别实现。下面将在实施例中详细说明。

实施例一

参见图1，展示了本发明实施例一提供的一种基于点云的神经辐射场重建优化方法，可以实现显式和隐式两种三维模型的重建，具体步骤如下所示：

步骤S101：通过图像采集设备获取场景的多视角的RGB图像数据集I＝{I_i|i＝1,2,...,N}。

所述图像采集设备包括但不限于能够用于获取和保存场景的RGB图像的数码相机、智能手机等等。

进一步的，为了保证重建质量，需要遵循以下注意事项：

首先，采集图像中应包含待重建场景的全部可视部分，图像质量清晰可靠，且图像之间需要保证一定内容的重叠，使得后续可获得可信的特征匹配结果。此外，尽量避免相机在拍摄过程中仅通过原地旋转转换拍摄视角，增加平移可以有效提升相机参数估计的准确性。

所述步骤S102中，依靠编码器-解码器的神经网络结构，通过编码器提取高维信息；然后通过两个并联的解码器对编码结果进行降维解码，分别输出图像中的关键点x与描述子f。

和

上实现特征点的匹配，获取匹配特征点对

所述步骤S102中，通过将特征点视为图结构中的节点，并构建两种边，分别用来表征图像内特征点的关联和图像间特征点的关联，以构建自注意力(self-attention)与交叉注意力(cross-attention)机制；使用多层GNN的消息传递机制来聚合特征点在图像内与图像间的特征点信息，得到更利于匹配的特征；最后构建分配矩阵，并使用Sinkhorn算法求解最优分配矩阵，完成在两张图像{I_a,I_b}上的匹配；重复以上过程，直至完成所有图像的特征点匹配任务。

所述步骤S103中，基于开源项目Colmap实现增量式运动恢复结构算法。具体如下：

(1)初始化。根据匹配特征点

在图像中的分布特点选择初始匹配图像对C_init＝[I_i,I_j]，原则是匹配特征点最多、分布最均匀。使用对极几何约束计算位姿，包括旋转矩阵R以及平移向量t。

(2)三角化。计算经过匹配的特征点在空间的位置：

其中，

分别为图像对C_init＝[I_i,I_j]中经过匹配的特征点坐标，R、t为图像I_i对应相机的外部参数，具体指两张图像对应相机的相对位姿。解上述方程获得该点在图像I_i对应相机参考系的深度Z_i，即得到其在三维空间中的位置。通过初始化以及三角化，可以获得仅含两张图像C_init＝[I_i,I_j]的初始点云模型P_init。

(3)图像注册。通过PnP算法将剩余所有图像注册到初始点云模型P_init中。利用空间中的相似三角关系求出三维点在相机坐标系下的坐标，通过n个三维点在空间坐标系的坐标{P_k|k＝1,2,..,n}以及相机坐标系下的坐标{P_k'|k＝1,2,..,n}，利用迭代最近点算法(ICP)求解相机参数Φ。

(4)光束平差优化(BA)。通过最小化重投影误差，优化相机参数Φ以及稀疏点云。即优化以下的代价函数：

其中，Φ为相机参数，P为空间中三维点的世界坐标，h(·)为投影函数，将空间中三维点投影到各相机的对应图像上，p为空间中三维点对应在图像中的真实像素坐标。通过调整Φ和P，最小化以上重投影误差。最终获得精度较高的相机位姿Φ以及由所有三维点P构成的稀疏点云P_sparse。

具体的，所述步骤S104中，所述稠密点云重建方法是基于深度学习的MVS网络，包括以下步骤：

步骤S1041：特征提取；

使用特征金字塔网络(FPN)以三个从粗到细的分辨率提取多尺度图像特征；同时，在这个过程中，加入自适应感受野模块，具体是通过可变形卷积(DCN)来实现的；该模块有助于在低纹理区域增大感受野，以提升在该区域提取特征的有效性，进而提升最终的重建完整度；对于高为H、宽为W的原始图像，将得到多尺度特征图F^H×W＝{F_i ^H×W|i＝0,1,...,N_s}、

对最小尺度特征图

步骤S1042：代价体构建；

之间的扭曲变换定义为：

C_i(d)＝<F₀,F_0→i(d)>

步骤S1043：深度回归；

采用自适应权重w(C_i(d))将不同源视图的N_s个代价体聚合：

然后对代价体进行Softmax运算，生成概率体P，最后对概率体进行加权平均，获得最终深度图：

步骤S1044：深度图融合；

对所有图像依次作为参考图像执行上述步骤，估计深度图；

对于每一张深度图D的像素点p，根据相机参数Φ可以还原其在真实空间中的位置z：

z＝D(p)Τ^-1K^-1p

通过以上过程，实现了三维场景的显式模型重建。

具体的，所述步骤S105中，所述神经辐射场由多个多层感知深度神经网络MLP构成，与现有相关技术的显著区别是，为了提升训练(重建)效率，考虑由S104获得的稠密点云P_dense中的几何信息；给定任何3D位置x和观察方向

其中，邻居个数K是一个可学习参数，它可以根据x周围的点云密度而变化，随着点云密度的降低将增大K以提供更多引导信息，进一步提升重建精度和效率。

进一步的，所述训练深度神经网络MLP的过程包括：

(1)构建神经点云；

由S104深度回归过程获得的深度概率体可以代表每个点位于场景表面的置信度α，与得到的点云中的三维点p一一对应同时；通过由S104中特征提取过程获取的特征图F^H×W＝{F_i ^H×W|i＝0,1,...,N_s}中的每个像素特征f，与得到的点云中的三维点p同样一一对应；

P_neural＝{(p_i,f_i,α_i)|i＝1,...,N}

(2)神经点特征聚合；

首先对每个三维点单独处理：通过一个多层感知机M₁来计算点p对于采样点x的特征向量：

f_i(x)＝M ₁(f_i,x-p_i)

对x周围K个邻居点的加权来获得场景点x处的特征：

其中，以逆距离

作为权重，可以使得特征聚合时更关注距离x近的神经点；

(3)回归辐射场；

通过一个多层感知机M ₂回归任意视角方向

的辐射值r：

σ_i(x)＝M ₃(f_i(x))

同样采用逆距离

进行加权求和，获得x处的最终体密度σ：

通过上述若干个MLP可获得每个采样点的辐射值r和体密度σ，完成了隐式重建过程。

(4)体积渲染；

基于体渲染公式和神经辐射场输出的辐射值r和体密度σ，可获得可视化图像上每一个像素点对应的颜色。假设从某像素点发射的一条光射线

o为相机光心，

为相机视角方向，t为光线在方向

上的某一位置坐标。对于某个观察方向

计算图像上所有像素对应光线的渲染颜色，得到渲染图像。

实施例二：

参见图2，公开了本发明实施例二提供的一种基于点云的神经辐射场重建优化方法，可以实现显式三维点云模型的重建，具体步骤如下所示：

步骤S201：通过图像采集设备获取场景的多视角的RGB图像数据集I＝{I_i|i＝1,2,...,N}；与实施例一中的步骤S101一样，其他具体的步骤也一样。

步骤S202：依次对所有图像提取N_f个特征点，包括关键点x与描述子f，表示为

和

上实现特征点的匹配，获取匹配特征点对

与实施例一中的步骤S102一样，其他具体的步骤也一样。

步骤S203：基于S202获取的经过特征点匹配的图像，采用增量式运动恢复结构算法实现稀疏点云P_sparse重建以及相机的参数Φ(K,R,t)估计；与实施例一中的步骤S103一样，其他具体的步骤也一样。

步骤S204：基于图像集I＝{I_i|i＝1,2,...,N}以及由S203得到的对应相机参数Q＝{Φ_i＝(K_i,R_i,t_i)|i＝1,2,...,N}，重建场景的稠密点云模型P_dense；与实施例一中的步骤S104一样，其他具体的步骤也一样。

实施例三：

参见图3，公开了本发明实施例三提供的一种基于点云的神经辐射场重建优化方法，可以实现隐式神经辐射场三维模型的重建，具体步骤如下：

步骤S301：通过图像采集设备获取场景的多视角的RGB图像数据集I＝{I_i|i＝1,2,...,N}；与实施例一中的步骤S101一样，其他具体的步骤也一样。

步骤S302：依次对所有图像提取N_f个特征点，包括关键点x与描述子f，表示为

和

上实现特征点的匹配，获取匹配特征点对

与实施例一中的步骤S102一样，其他具体的步骤也一样。

步骤S303：基于S302获取的经过特征点匹配的图像，采用增量式运动恢复结构算法实现稀疏点云P_sparse重建以及相机的参数Φ(K,R,t)估计；与实施例一中的步骤S103一样，其他具体的步骤也一样。

步骤S304：基于图像集I＝{I_i|i＝1,2,...,N}选取具有代表性N_t>2张图像构成子图像集

其中I_t中的图像在内容上应具备一定的重叠性，从而保证可信的匹配；由图像集I_t以及S303得到的对应相机参数Q＝{Φ_i＝(K_i,R_i,t_i)|i＝1,2,...,N_t}，重建场景的点云模型P_t；尽管P_t的点云完整性和质量不及S104获得的稠密点云P_dense，但是可以大幅降低该过程所需时间，并且仍能够为后续的隐式模型重建S305提供信息，加速重建效率。

步骤S305：基于图像集I＝{I_i|i＝1,2,...,N}、由S303得到的对应相机参数Q＝{Φ_i＝(K_i,R_i,t_i)|i＝1,2,...,N}以及由S304得到的点云模型P_t，重建场景的神经辐射场隐式模型P_implicit，基于体积渲染技术，由神经辐射场隐式模型P_implicit可以获得不同相机视角下的可视化图像。

实施例四：

参见图4，公开了本发明实施例四提供的一种基于点云的神经辐射场重建优化装置，可以实现三维模型的重建，包括：

终端采集设备401，用于获取和保存场景的RGB图像；所述终端采集设备401包括但不限于能够用于获取和保存场景的RGB图像的数码相机、智能手机等，所述终端采集设备401包括图像采集模块4011、第一存储器4012和第一通信接口4013；所述图像采集模块4011用于采集场景图像，所述第一存储器4012用于保存图像数据，所述第一通信接口4013用于向云端设备403上传图像数据；

终端通用计算机402，用于保存、编辑和浏览生成的三维重建模型；所述终端通用计算机402包括第二处理器4021、第二存储器4022和第二通信接口4023；所述第二存储器4022用于保存三维模型和相关程序指令；所述第二处理器4021用于处理模型编辑和可视化命令；所述第二通信接口4023用于接受云端设备403发送的重建模型；

云端设备403，用于根据场景的图像数据重建三维模型，所述云端设备403包括第三处理器4031、第三存储器4032和第三通信接口4033；所述第三存储器4032存储有权利要求1至8任意一项所述的一种基于点云的神经辐射场重建优化方法的计算机程序、图像数据以及运行过程的中间数据；所述第三处理器4031用于调用第三存储器4032中的计算机程序和数据；所述第三处理器4031包含性能强大的图形处理器GPU与中央处理器CPU；以支持快速实现本申请提供的三维重建方法；所述第三通信接口4033用于接收终端采集设备401传输的图像数据以及向终端通用计算机402发送生成的三维重建模型。

本发明具有以下有益效果：

1、首先实现了更准确的相机参数估计；得益于深度神经网络的作用，在特征点提取与匹配过程中，相较于目前主流的SIFT特征点提取和最近邻特征点匹配方法，可以提供更多有效匹配，以提升后续相机参数估计的精度，为后续的三维重建奠定基础；

2、针对传统显式三维模型重建过程中，在低纹理、遮挡、非朗伯等情境下模型质量较差的问题，进行了改进。具体如下：

利用Transformer结构改进了MVS算法，在深度神经网络中加入自注意力提取全局上下文信息，加入交叉注意力聚合不同视图特征，从而有效提升了重建的完整性和精度。

3、针对传统隐式神经辐射场模型重建(训练)速度慢的问题进行了改进。具体而言，通过显式三维点云模型的几何信息来大幅提升收敛速度和模型精度，从而快速得到更高质量隐式模型。

4、实现了显式和隐式两种模型形式的输出，并且由于本发明方法的分离特性，可以实现任一种模型的单独输出，实现不同场景的模型需求；且相较于同时输出，单模型输出可以在保证质量的前提下进一步提升重建效率。

5、本发明还提供了一种基于点云的神经辐射场重建优化装置，以实现上述重建优化方法；所述装置首先通过终端采集设备401进行获取、采集和保存场景的RGB图像；其次通过云端设备403对场景的图像数据进行处理，重建三维模型；最后通过终端通用计算机402将生成的三维重建模型进行保存、编辑和浏览；实现了采集、处理重建和浏览的分离，提升了三维重建效率；还可以降低了对终端通用计算机402的计算要求，增强了广泛应用的可能性。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于点云的神经辐射场重建优化方法，其特征在于：包括以下步骤：

步骤S102：依次对所有图像提取N_f个特征点，包括关键点x与描述子f，表示为F＝＝{f_j＝(x_j,f_j)|j＝1,2,...,N_f}；获取特征点后，采用基于注意力的图卷积神经网络，在两张图像{I_a,I_b}上的对应特征点集F_a＝和F_b＝上实现特征点的匹配，获取匹配特征点对M_ab＝{(f_a,f_b)|f_a∈F_a＝,f_b∈F_b＝}；

步骤S105：基于图像集I＝{I_i|i＝1,2,...,N}、由S103得到的对应相机参数Q＝{Φ_i＝(K_i,R_i,t_i)|i＝1,2,...,N}以及由S104得到的稠密点云模型P_dense，重建场景的神经辐射场隐式模型P_implicit，通过体积渲染进行模型P_dense可视化。

2.根据权利要求1所述的一种基于点云的神经辐射场重建优化方法，其特征在于：所述步骤S101中，通过图像采集设备采集到的图像中应包含待重建场景的全部可视部分，图像质量清晰可靠，且图像之间需要保证一定内容的重叠。

3.根据权利要求1所述的一种基于点云的神经辐射场重建优化方法，其特征在于：所述步骤S102中，依靠编码器-解码器的神经网络结构，通过编码器提取高维信息；然后通过两个并联的解码器对编码结果进行降维解码，分别输出图像中的关键点x与描述子f。

4.根据权利要求3所述的一种基于点云的神经辐射场重建优化方法，其特征在于：所述步骤S102中，将特征点视为图结构中的节点，并构建两种边，分别用来表征图像内特征点的关联和图像间特征点的关联，以实现自注意力(self-attention)与交叉注意力(cross-attention)机制；使用多层图神经网络(GNN)的消息传递机制来聚合特征点在图像内与图像间的信息，得到更利于匹配的特征；最后构建分配矩阵，并使用Sinkhorn算法求解最优分配矩阵，完成在两张图像{I_a,I_b}上的匹配；重复以上过程，直至完成所有图像的特征点匹配任务。

5.根据权利要求1所述的一种基于点云的神经辐射场重建优化方法，其特征在于：所述步骤S103中，基于开源项目Colmap实现增量式运动恢复结构算法；具体如下：

步骤S1031：初始化；根据匹配特征点F＝＝{(x_j,d_j)|j＝1,2,...,N_f}在图像中的分布特点选择初始匹配图像对C_init＝[I_i,I_j]，原则是匹配特征点最多、分布最均匀；使用对极几何约束计算位姿，包括旋转矩阵R以及平移向量t；

步骤S1032：三角化；计算经过匹配的特征点在空间的位置：

其中，

分别为图像对C_init＝[I_i,I_j]中经过匹配的特征点坐标，R、t为图像I_i对应相机的外部参数，具体指两张图像对应相机的相对位姿；解上述方程获得该点在图像I_i对应相机参考系的深度Z_i，即得到其在三维空间中的位置；通过初始化以及三角化，可以获得仅含两张图像C_init＝[I_i,I_j]的初始点云模型P_init；

6.根据权利要求1所述的一种基于点云的神经辐射场重建优化方法，其特征在于：所述步骤S104中，所述稠密点云重建方法是基于深度学习的MVS网络，包括以下步骤：

步骤S1041：特征提取；

步骤S1042：代价体构建；

之间的扭曲变换定义为：

C_i(d)＝<F₀,F_0→i(d)>

步骤S1043：深度回归；

采用自适应权重w(C_i(d))将不同源视图的N_s个代价体聚合：

步骤S1044：深度图融合；

对所有图像依次作为参考图像执行上述步骤，估计深度图；

z＝D(p)Τ^-1K^-1p

通过以上过程，实现了三维场景的显式模型重建。

7.根据权利要求1所述的一种基于点云的神经辐射场重建优化方法，其特征在于：

所述S105中神经辐射场由多个多层感知深度神经网络MLP构成；考虑由S104获得的稠密点云P_dense中的几何信息，给定任何3D位置x和观察方向

以及x周围的K个三维点{p_i,f_i,γ_i|i＝1,...,K}；经过多个MLP，最终回归体积密度σ和与视角相关的辐射r：

其中，邻居个数K是一个可学习参数，它可以根据x周围的点云密度而变化，随着点云密度的降低将增大K以提供更多引导信息；

8.根据权利要求7所述的一种基于点云的神经辐射场重建优化方法，其特征在于：所述训练深度神经网络MLP的过程包括：

(1)构建神经点云；

由S104深度回归过程获得的深度概率体可以代表每个点位于场景表面的置信度α，与得到的点云中的三维点p一一对应同时，通过由S104中特征提取过程获取的特征图F^H×W＝{F_i ^H×W|i＝0,1,...,N_s}中的每个像素特征f，与得到的点云中的三维点p同样一一对应；

最终对于每一个三维点，都对应空间位置p、置信度α和特征f三种信息，该三种信息合称为神经点；通过以上方式，将普通点云转化为神经点云，生成神经点云P：

P_neural＝{(p_i,f_i,α_i)|i＝1,...,N}

(2)神经点特征聚合；

首先对每个神经点单独处理：通过一个多层感知机M₁来计算位置p处的点对于采样位置点x的特征向量：

f_i(x)＝M₁(f_i,x-p_i)

对x周围K个邻居点进行加权来获得场景点x处的特征：

其中，以逆距离

作为权重，可以使得特征聚合时更关注距离x近的神经点；

(3)回归辐射场；

通过一个多层感知机M₂回归任意视角方向

的辐射值r：

通过一个多层感知机M₃来获得x周围K个邻居的体密度σ，再通过加权求和获得x处的体密度σ：

σ_i(x)＝M₃(f_i(x))

同样采用逆距离

进行加权求和，获得x处的最终体密度σ：

(4)体积渲染；

o为相机光心，

为相机视角方向，t为光线在方向

上的某一位置坐标；对于某个观察方向

计算图像上所有像素对应光线的渲染颜色，得到渲染图像；

9.一种基于点云的神经辐射场重建优化装置，其特征在于：包括：

终端采集设备(401)，用于获取和保存场景的RGB图像；所述终端采集设备(401)包括图像采集模块(4011)、第一存储器(4012)和第一通信接口(4013)；所述图像采集模块(4011)用于采集场景图像，所述第一存储器(4012)用于保存图像数据，所述第一通信接口(4013)用于向云端设备(403)上传图像数据；

终端通用计算机(402)，用于保存、编辑和浏览生成的三维重建模型；所述终端通用计算机(402)包括第二处理器(4021)、第二存储器(4022)和第二通信接口(4023)；所述第二存储器(4022)用于保存三维模型和相关程序指令；所述第二处理器(4021)用于处理模型编辑和可视化命令；所述第二通信接口(4023)用于接受云端设备(403)发送的重建模型；

云端设备(403)，用于根据场景的图像数据重建三维模型，所述云端设备(403)包括第三处理器(4031)、第三存储器(4032)和第三通信接口(4033)；所述第三存储器(4032)存储有权利要求1至8任意一项所述的一种基于点云的神经辐射场重建优化方法的计算机程序、图像数据以及运行过程的中间数据；所述第三处理器(4031)用于调用第三存储器(4032)中的计算机程序和数据；所述第三处理器(4031)包含性能强大的图形处理器GPU与中央处理器CPU；所述第三通信接口(4033)用于接收终端采集设备(401)传输的图像数据以及向终端通用计算机(402)发送生成的三维重建模型。