CN116612256A

CN116612256A - 一种基于NeRF的实时远程三维实景模型浏览方法

Info

Publication number: CN116612256A
Application number: CN202310468673.9A
Authority: CN
Inventors: 刘坚
Original assignee: Shenzhen Lanstar Technology Co ltd
Current assignee: Shenzhen Lanstar Technology Co ltd
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-08-18
Anticipated expiration: 2043-04-19
Also published as: CN116612256B

Abstract

本发明公开了一种基于NeRF的实时远程三维实景模型浏览方法，包括数据采集和模型训练，所述数据采集和模型训练包括如下步骤：确定园区范围，规划采集航线，使用倾斜摄影的测绘方式，根据实际场景要求对部分有遗漏区域和重点展示区域进行补拍；图片采集完之后，根据拍摄的图片先进行SFM重建，获得每张图像的位姿，结合NeRF技术进行深度学习的模型训练，得到可实时查询的模型，可实时查询渲染视角显示；本发明提供的一种基于NeRF的实时远程三维实景模型浏览方法具备远程与现场的连接只需非常低的网路带宽等优点，因为只需要传输一个具体的位姿信息即可，不需要传输高清的视频或图片。

Description

一种基于NeRF的实时远程三维实景模型浏览方法

技术领域

本发明涉及图像处理领域，尤其涉及一种基于NeRF的实时远程三维实景模型浏览方法。

背景技术

现有的实景三维模型浏览一般只能通过鼠标在网页上对园区模型进行放大缩小旋转平移操作，受限于网络速度以及电脑配置，浏览体验效果很差，存在较大的失真。此外网上的三维模型需要前期大量的精细修模，才能基本接近实际场景中的几何分布。总结来说就是两点：三维模型效果差，浏览体验差；传输高清视频效果好，但是需要非常高且稳定的带宽。

发明内容

本发明提供了一种基于NeRF的实时远程三维实景模型浏览方法，通过提前采取园区图片，进行三维实景模型的重建并使用NeRF进行训练和实时渲染。具备用户可以更加真实的感受到实景园区的样貌、远程与现场的连接只需要非常低的网路带宽即可的优点。

根据本申请实施例提供的一种基于NeRF的实时远程三维实景模型浏览方法，数据采集和模型训练，所述数据采集和模型训练包括如下步骤：

确定园区范围，规划采集航线，使用倾斜摄影的测绘方式，根据实际场景要求对部分有遗漏区域和重点展示区域进行补拍；

图片采集完之后生成三维模型，结合NeRF技术进行深度学习的模型训练，得到可实时查询的模型，根据拍摄的图片先进行SFM重建，获得每张图像的位姿，实时查询渲染视角显示；

SFM包括图像特征提取、相机运动估计和三维重建，特征提取为从每张输入图像中提取关键点和描述子，关键点和描述子可被用来匹配不同图像之间的对应点；相机运动估计为使用特征匹配来估计相机的运动，使用基于三角测量或基础矩阵的方法来求解相机之间的运动关系；三维重建为将估计的相机运动和场景中特征点的位置结合起来，重建场景的三维结构；

还包括根据位姿进行实景渲染，模拟现场人设视角浏览园区，包括如下步骤：

需要估计现场参考人设的观察方向，包括具体的坐标位置和三个朝向，即[x,y,z,roll,pitch,yaw]，通过预存储并提取地图中的关键点，检测图像中的特征点，将其与地图中的特征点进行匹配，得到二维图像中每个特征点对应的三维点，从匹配点中选取足够多的点对，利用RANSAC算法来过滤误匹配的点，得到一个可靠的点对集合；根据这些点对之间的三维到二维对应关系，构建一个线性方程组；通过对线性方程组求解，得到相机的位姿；

在获得位姿后，发送到远端，结合已有的NeRF模型，查看相同视角下的场景。

优选地，如果后续通过手机辅助现场人设位姿计算，计算定位地图，定位地图包含一系列的三维点以及其对应的特征描述子，使用sift特征和描述子，基于保存三维点和其对应特征描述子的定位地图技术，包括如下步骤：

在进行定位地图构建前，需要通过SFM技术获得场景的三维点云数据；

利用点云配准算法，将不同时间、位置采集到的点云地图进行配准，形成一个完整的三维地图；

对于每个三维点，需要提取其对应的特征描述子，用于后续的定位匹配；特征描述子包括SIFT、SURF以及ORB；

构建完整的地图后，当机器人需要进行定位时，利用传感器获取当前位置的三维点云数据，并提取其特征描述子，在已经构建好的三维地图中进行匹配，寻找与当前点最相似的点，进而确定机器人的位置。

优选地，NeRF技术进行深度学习的模型训练包括如下步骤：

空间采样，需要在场景中采样大量的3D点，通过随机均匀采样或者采用无偏采样方法进行空间采样；

数据采集，对于每个采样点，需要拍摄多个视角下的图片，以便训练神经网络；

训练网络，使用拍摄的数据，训练神经网络来预测每个采样点的辐射度以及与之相关的光学参数；

优化，对生成的图像进行评估，通过优化来提高神经网络的性能；

可视化，通过渲染场景并展示生成的3D重建结果，帮助深入理解场景的几何结构和光学性质，同时也可用于做场景的可视化。

本申请实施例提供的技术方案可以包括以下有益效果：

本发明提出一种基于NeRF的实时远程三维实景模型浏览方法，通过提前采取园区图片，进行三维实景模型的重建并使用NeRF进行训练和实时渲染。可以达到在远程浏览三维实景园区的效果跟现场一致，极大丰富了三维场景的使用范围，可惠及更多人达到“身临其境”的园区浏览体验。本专利只需要将现场浏览的视角实时同步到远程观看者上面即可，传输数据量极小，而不是有些现有方案中的实时传输高清视频。通过NeRF技术提前重建逼真的三维实景模型，可远程模拟现场浏览，只需要提供一个位姿就行，远程与现场的连接只需要非常低的网路带宽即可。通过NeRF渲染的视频比传统三维建模的渲染视频效果更真实，并且可以更好地还原现场光照、材质等特征，用户可以更加真实的感受到实景园区的样貌。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于NeRF的实时远程三维实景模型浏览方法的示意图；

图2为本发明一种基于NeRF的实时远程三维实景模型浏览方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，本发明提供一种基于NeRF的实时远程三维实景模型浏览方法，包括主要包括两大部分，第一，进行园区图片采集和使用NeRF技术进行模型训练和渲染；第二，将现场浏览中的实时位姿通过一定的计算方式获得，并传输到远程，只需要传输6个浮点数即可。下面具体讲解两部分。

第一部分又分为数据采集和模型训练两部分。先确定园区范围，然后规划采集航线，一般使用测绘中倾斜摄影方式。然后可根据实际场景要求对部分有遗漏区域和重点展示区域进行补拍。图片采集完之后就是三维模型的生成阶段，为了达到较好的渲染效果，本文结合最新的NeRF技术进行深度学习的模型训练，而不是使用传统的测绘方法进行几何三维模型重建再着色进行渲染。根据拍摄的图片先进行SFM重建，主要是为了获得每张图像的位姿。SFM(Structure from Motion从运动中结构)是一种计算机视觉技术，用于从一系列图像中估计相机的位置、姿态和场景的三维结构。基本的SFM方法包括图像特征提取、相机运动估计和三维重建，具体流程如下：

1.特征提取：从每张输入图像中提取关键点和描述子，如SIFT或ORB等。这些特征点可以被用来匹配不同图像之间的对应点。

2.相机运动估计：使用特征匹配来估计相机的运动，通常使用基于三角测量或基础矩阵的方法来求解相机之间的运动关系。

3.三维重建：将估计的相机运动和场景中特征点的位置结合起来，重建场景的三维结构。这通常涉及到基于三角测量的方法，以将2D图像信息映射到3D空间。

如果后续通过手机辅助现场人设位姿计算，还可以计算定位地图。定位地图包含一系列的三维点以及其对应的特征描述子，本发明使用sift特征和描述子。基于保存三维点和其对应特征描述子的定位地图技术，主要包括以下几个步骤：首先，在进行定位地图构建前，需要通过SFM技术获得场景的三维点云数据。接下来，利用点云配准算法，将不同时间、位置采集到的点云地图进行配准，形成一个完整的三维地图。

对于每个三维点，需要提取其对应的特征描述子，用于后续的定位匹配。常用的特征描述子包括SIFT、SURF以及ORB等，其中ORB具有计算速度快和内存占用小等优点。

构建完整的地图后，当机器人需要进行定位时，利用传感器获取当前位置的三维点云数据，并提取其特征描述子，然后在已经构建好的三维地图中进行匹配，寻找与当前点最相似的点，进而确定机器人的位置。此外，为了保证匹配的准确性，可以通过滤波算法对点云数据进行预处理，去除噪声和外部干扰。

下面在介绍一下NeRF技术。NeRF(Neural Radiance Fields)是一种新型的3D图像重建方法。它使用深度神经网络对场景中每个空间点的辐射度进行建模，然后通过该模型生成高质量的几何形状和视角一致的图片。

NeRF的训练步骤可以分为以下几个部分：

1.空间采样：首先，需要在场景中采样大量的3D点。一般情况下，可以通过随机均匀采样或者采用更高效的无偏采样方法进行空间采样。

2.数据采集：对于每个采样点，需要拍摄多个视角下的图片，以便训练神经网络。在这一步骤中，需要注意拍摄的图片需要覆盖场景中的不同区域，且不同视角之间应有较大差异性。

3.训练网络：使用拍摄的数据，训练神经网络来预测每个采样点的辐射度以及与之相关的光学参数。在训练过程中，需要考虑到光学效应的不确定性，比如深度不确定性和反射率的变化等。

4.优化：对生成的图像进行评估，通过优化来提高神经网络的性能。常用的优化方法包括渲染图像，计算图像的损失函数，以及使用梯度下降算法来更新网络参数。

5.可视化：通过渲染场景并展示生成的3D重建结果，以帮助深入理解场景的几何结构和光学性质，同时也可用于做场景的可视化。

第二部分是根据位姿进行实景渲染，模拟现场人设视角浏览园区。首先，需要估计现场参考人设的观察方向，主要包括具体的坐标位置和三个朝向，即[x,y,z,roll,pitch,yaw]。获取这六个参数有几中方式：

1.如果有可以定位的VR相关设备，则可以直接通过这些设备输出。

VR设备一般包括头戴式显示器和控制器。通过VR设备中的头戴式显示器，用户可以获得与真实世界类似的视觉体验。而通过控制器，用户可以交互式地操控虚拟世界中的物体。

在VR设备中获取当前位姿主要是通过头戴式显示器和传感器实现的。头戴式显示器中内置有加速度计、陀螺仪和磁场传感器等，可以检测用户头部的运动，进而确定用户的视线方向和头部姿态。一些VR设备还会使用外置的传感器，例如基站或红外线摄像头，来进一步提高位姿检测的精度。

当用户穿戴好VR设备并进入虚拟世界时，VR设备会记录下用户当前的位姿信息，并即时进行数据处理和更新。通过这些姿态数据和空间位置信息，VR设备可以准确地模拟用户在虚拟世界的位置和姿态，并向用户实时呈现虚拟现实画面。

2.如果没有VR设备，则可以使用手机或运动相机等可以拍照的设备进行拍摄，拍摄的方式是保持与现场观察者眼睛等高平行。然后根据拍摄的图片现场计算出一个位姿，前提是需要将根据之前的采集图片进行的定位地图存于手机上或通过网络获得也可。

本方法实现了一个基于三维点和特征描述子的定位地图的位姿估计，即通过预存储并提取地图中的关键点，检测图像中的特征点，然后将其与地图中的特征点进行匹配，得到二维图像中每个特征点对应的三维点。通过对这些对应点的匹配关系，可以得到相机的位姿。

具体实现步骤如下：首先提取图像中的特征点，并匹配它们。然后从匹配点中选取足够多的点对(通常需要至少6个点对)，利用RANSAC算法来过滤误匹配的点，得到一个可靠的点对集合。接下来，根据这些点对之间的三维-二维对应关系，可以构建一个线性方程组。通过对线性方程组求解，得到相机的位姿。

在获得位姿后，即可发送到远端，结合已有的NeRF模型，即可查看相同视角下的场景。本发明中还可以模拟生成浏览视角进行漫游查看，由于采用NeRF渲染方式，渲染效果也比传统的基于几何三维模型的渲染效果好很多。

本发明使用NeRF进行实时渲染，在远程浏览三维实景园区的效果跟现场一致，达到了更好的浏览体验效果，而且提前重建逼真的三维实景模型，可远程模拟现场浏览，只需要提供一个位姿就行，传输数据量小。

本申请实施例提供的技术方案可以包括以下有益效果：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于NeRF的实时远程三维实景模型浏览方法，其特征在于，包括数据采集和模型训练，所述数据采集和模型训练包括如下步骤：

2.根据权利要求1所述的一种基于NeRF的实时远程三维实景模型浏览方法，其特征在于，如果后续通过手机辅助现场人设位姿计算，计算定位地图，定位地图包含一系列的三维点以及其对应的特征描述子，使用sift特征和描述子，基于保存三维点和其对应特征描述子的定位地图技术，包括如下步骤：

3.根据权利要求1所述的一种基于NeRF的实时远程三维实景模型浏览方法，其特征在于，NeRF技术进行深度学习的模型训练包括如下步骤：