CN114004941A

CN114004941A - 一种基于神经辐射场的室内场景三维重建系统及方法

Info

Publication number: CN114004941A
Application number: CN202210000461.3A
Authority: CN
Inventors: 牛胜仁; 魏辉; 李茹杨; 卢丽华; 徐哲; 赵雅倩; 李仁刚
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-02-01
Anticipated expiration: 2042-01-04
Also published as: CN114004941B

Abstract

本申请提供一种基于神经辐射场的室内场景三维重建系统及方法，该系统包括：端设备、边缘设备和云设备；端设备用于采集当前室内场景的视觉信息，并将视觉信息传输到云设备；云设备接收到视觉信息后，将视觉信息输入到预设的初始化神经辐射场模型，以利用视觉信息，对初始化神经辐射场模型进行模型训练，得到当前室内场景的隐式三维模型，并将隐式三维模型发送到边缘设备；边缘设备接收隐式三维模型，将隐式三维模型转换为显式三维模型，并将显式三维模型发送到端设备。将原本受限于计算、内存资源和渲染速度等因素限制而仅能用于小型物体重建的神经辐射场用于大规模的室内场景三维重建，提高了室内场景的三维重建精度。

Description

一种基于神经辐射场的室内场景三维重建系统及方法

技术领域

本申请涉及三维建模技术领域，尤其涉及一种基于神经辐射场的室内场景三维重建系统及方法。

背景技术

室内场景三维重建的目的是使用相机等设备对室内场景进行扫描，生成一个精确完整的三维模型。三维重建是一个集场景扫描、数据处理、场景建模等过程于一体的复杂系统。

在现有技术中，通常是利用运动恢复结构算法（Structure from Motion，简称：SfM）和多视角立体视觉算法（Multi-View Stereo，简称：MVS），对一组输入的二维图像进行稀疏重建，通过多视角立体匹配等原理确定每幅图像的深度、相机位姿和环境的空间几何关系，再将深度融合成截断带符号距离函数（Truncated Signed Distance Function，简称：TSDF）等模型，从而恢复出该场景3D形状。

但是，由于SfM重建的三维点来源于特征匹配，这个特性使其只能生成稀疏点云结果，基于特征点扩散的MVS算法在特征点稀少的位置会出现孔洞，所以现有技术最终得到的三维重建模型存在精度低等缺陷。

发明内容

本申请提供一种基于神经辐射场的室内场景三维重建系统及方法，以解决现有技术对室内场景的三维重建精度低等缺陷。

本申请第一个方面提供一种基于神经辐射场的室内场景三维重建系统，包括：端设备、边缘设备和云设备；

所述端设备用于采集当前室内场景的视觉信息，并将所述视觉信息传输到所述云设备；

所述云设备接收到所述视觉信息后，将所述视觉信息输入到预设的初始化神经辐射场模型，以利用所述视觉信息，对所述初始化神经辐射场模型进行模型训练，得到所述当前室内场景的隐式三维模型，并将所述隐式三维模型发送到所述边缘设备；

所述边缘设备接收所述隐式三维模型，将所述隐式三维模型转换为显式三维模型，并将所述显式三维模型发送到所述端设备，以供所述端设备对所述显式三维模型进行显示和交互。

可选的，所述视觉信息包括场景图像和各所述场景图像对应的相机位姿信息，所述相机位姿信息包括相机位置和观测角度，所述云设备具体用于：

根据所述相机位姿信息，随机采样相机在不同相机位置下发出的多条射线；

根据每条射线上的空间点的坐标和对应的观测角度，构建各所述空间点对应的模型训练向量；

将所述模型训练向量转换为高维模型训练向量；

基于各所述空间点对应的高维模型训练向量，对所述初始化神经辐射场模型进行模型训练，得到所述当前室内场景的隐式三维模型。

可选的，所述云设备具体用于：

将各所述空间点对应的高维模型训练向量输入到所述初始化神经辐射场模型，以得到各所述空间点的颜色和体密度；

根据一条射线上的所有空间点的颜色和体密度，估计该射线在所述场景图像上的像素颜色；

利用预设的损失函数，根据所述像素颜色的估计结果和所述场景图像所表征的像素颜色的真值，计算当前神经辐射场模型的输出损失；

以减小所述输出损失为目标，按照反向传播梯度调整所述当前神经辐射场模型的模型参数，以得到所述当前室内场景的隐式三维模型。

可选的，所述云设备具体用于：

基于如下公式估计任一射线在所述场景图像上的像素颜色：

其中，

表示该射线上的第

个空间点的颜色，

表示所述第

个空间点的体密度，

表示第

个空间点的体密度，

表示空间点的采样间隔。

可选的，所述边缘设备具体用于：

从所述当前室内场景中选取多个采样点；

根据各所述采样点在所述隐式三维模型中的特征信息，对所有所述采样点进行聚类，以得到所述当前室内场景中的多个物体的包围盒；

剔除各所述包围盒中体密度小于1的空间点，以得到各所述物体对应的目标包围盒；

按照预设的区块划分精度，对各所述目标包围盒进行区块划分，以得到各所述目标包围盒对应的空间八叉树；其中，所述空间八叉树的叶子节点存储有该叶子节点对应的空间点在不同观测方向下的颜色；

基于各所述物体对应的空间八叉树，生成所述当前室内场景的显式三维模型。

可选的，所述边缘设备具体用于：

对所述当前室内场景中的空间点进行粗采样，以得到多个粗采样点；

将体密度不小于1的粗采样点，确定为所述采样点。

可选的，所述边缘设备具体用于：

对各所述包围盒中的空间点进行细采样，以得到多个细采样点；其中，所述细采样的采样间隔小于所述粗采样的采样间隔；

剔除各所述包围盒中体密度小于1的细采样点，以得到各所述物体对应的目标包围盒。

可选的，所述端设备至少包括相机和IMU传感器，所述端设备具体用于：

利用所述相机采集当前室内场景的场景图像；

利用所述IMU传感器采集所述相机的运动数据和观测角度数据；

根据各所述场景图像的采集时间、所述相机的运动数据和观测角度数据，确定各所述场景图像与相机位姿信息之间的对应关系。

可选的，所述端设备具体用于：

将所述视觉信息发送到所述边缘设备，以利用所述边缘设备将所述视觉信息转发到所述云设备。

本申请第二个方面提供一种基于神经辐射场的室内场景三维重建方法，包括：

采集当前室内场景的视觉信息；

将所述视觉信息输入到预设的初始化神经辐射场模型，以利用所述视觉信息，对所述初始化神经辐射场模型进行模型训练，得到所述当前室内场景的隐式三维模型；

将所述隐式三维模型转换为显式三维模型，对所述显式三维模型进行显示和交互。

可选的，所述视觉信息包括场景图像和各所述场景图像对应的相机位姿信息，所述相机位姿信息包括相机位置和观测角度，所述将所述视觉信息输入到预设的初始化神经辐射场模型，以利用所述视觉信息，对所述初始化神经辐射场模型进行模型训练，得到所述当前室内场景的隐式三维模型，包括：

将所述模型训练向量转换为高维模型训练向量；

可选的，所述基于各所述空间点对应的高维模型训练向量，对所述初始化神经辐射场模型进行模型训练，得到所述当前室内场景的隐式三维模型，包括：

可选的，所述根据一条射线上的所有空间点的颜色和体密度，估计该射线在所述场景图像上的像素颜色，包括：

基于如下公式估计任一射线在所述场景图像上的像素颜色：

其中，

表示该射线上的第

个空间点的颜色，

表示所述第

个空间点的体密度，

表示第

个空间点的体密度，

表示空间点的采样间隔。

可选的，所述将所述隐式三维模型转换为显式三维模型，包括：

从所述当前室内场景中选取多个采样点；

可选的，所述从所述当前室内场景中选取多个采样点，包括：

将体密度不小于1的粗采样点，确定为所述采样点。

可选的，所述剔除各所述包围盒中体密度小于1的空间点，以得到各所述物体对应的目标包围盒，包括：

可选的，所述采集当前室内场景的视觉信息，包括：

利用相机采集当前室内场景的场景图像；

利用IMU传感器采集所述相机的运动数据和观测角度数据；

本申请第三个方面提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第二个方面以及第二个方面各种可能的设计所述的方法。

本申请第四个方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第二个方面以及第二个方面各种可能的设计所述的方法。

本申请技术方案，具有如下优点：

本申请提供一种基于神经辐射场的室内场景三维重建系统及方法，该系统包括：端设备、边缘设备和云设备；端设备用于采集当前室内场景的视觉信息，并将视觉信息传输到云设备；云设备接收到视觉信息后，将视觉信息输入到预设的初始化神经辐射场模型，以利用视觉信息，对初始化神经辐射场模型进行模型训练，得到当前室内场景的隐式三维模型，并将隐式三维模型发送到边缘设备；边缘设备接收隐式三维模型，将隐式三维模型转换为显式三维模型，并将显式三维模型发送到端设备，以供端设备对显式三维模型进行显示和交互。上述方案提供的系统，通过在云设备训练神经辐射场模型，在边缘设备进行隐式三维模型和显式三维模型的转换，将原本受限于计算、内存资源和渲染速度等因素限制而仅能用于小型物体重建的神经辐射场用于大规模的室内场景三维重建，提高了室内场景的三维重建精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于神经辐射场的室内场景三维重建系统的交互流程示意图；

图2为本申请实施例提供的神经辐射场模型的训练流程示意图；

图3为本申请实施例提供的示例性的场景图像采集场景示意图；

图4为本申请实施例提供的基于神经辐射场的室内场景三维重建系统的示例性的数据交互场景图；

图5为本申请实施例提供的基于神经辐射场的室内场景三维重建方法的流程示意图；

图6为本申请实施例提供的示例性的基于神经辐射场的室内场景三维重建方法的流程示意图；

图7为本申请实施例提供的电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

在现有技术中，被动式的三维重建通常是利用运动恢复结构算法（Structurefrom Motion，简称：SfM）和多视角立体视觉算法（Multi-View Stereo，简称：MVS），对一组输入的二维图像进行稀疏重建，通过多视角立体匹配等原理确定每幅图像的深度、相机位姿和环境的空间几何关系，再将深度融合成截断带符号距离函数（Truncated SignedDistance Function，简称：TSDF）等模型，从而恢复出该场景3D形状。但是，由于SfM重建的三维点来源于特征匹配，这个特性使其只能生成稀疏点云结果，基于体素的MVS算法内存复杂度较高，无法应对大场景；基于特征点扩散的MVS算法在特征点稀少的位置会出现孔洞；基于深度图融合方式的MVS算法三维重建的准确性依赖于生成的深度图像的精度，这类方法重建出的模型的几何精度以及完整度较低。

另外，主动式的三维重建通常使用深度传感器来获取目标场景(或物体)的深度图，并对其处理后完成目标场景的重建。其需要额外的深度传感器设备。高精度的工业级传感器造价昂贵，动辄几千到几十万，由于硬件成本偏高，且多传感器之间容易互相干扰等缺点，通常只在有特定需求的场景下应用，很少用于室内场景重建。消费级的RGB-D相机在视角变化大、光照变化大、纹理变化大的情况下存在精度不足、鲁棒性差的问题，导致所获取到的深度信息存在不同程度的缺失、错误以及过于平滑的问题，使最终生成的模型的几何精度不高。

针对上述问题，本申请实施例提供的基于神经辐射场的室内场景三维重建系统及方法，包括：端设备、边缘设备和云设备；端设备用于采集当前室内场景的视觉信息，并将视觉信息传输到云设备；云设备接收到视觉信息后，将视觉信息输入到预设的初始化神经辐射场模型，以利用视觉信息，对初始化神经辐射场模型进行模型训练，得到当前室内场景的隐式三维模型，并将隐式三维模型发送到边缘设备；边缘设备接收隐式三维模型，将隐式三维模型转换为显式三维模型，并将显式三维模型发送到端设备，以供端设备对显式三维模型进行显示和交互。上述方案提供的系统，通过在云设备训练神经辐射场模型，在边缘设备进行隐式三维模型和显式三维模型的转换，将原本受限于计算、内存资源和渲染速度等因素限制而仅能用于小型物体重建的神经辐射场用于大规模的室内场景三维重建，提高了室内场景的三维重建精度。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明实施例进行描述。

本申请实施例提供了一种基于神经辐射场的室内场景三维重建系统，用于对任意范围大小的室内场景进行三维模型的重建。

如图1所示，为本申请实施例提供的基于神经辐射场的室内场景三维重建系统的交互流程示意图，该系统包括：端设备、边缘设备和云设备。

其中，端设备用于采集当前室内场景的视觉信息，并将视觉信息传输到云设备；云设备接收到视觉信息后，将视觉信息输入到预设的初始化神经辐射场模型，以利用视觉信息，对初始化神经辐射场模型进行模型训练，得到当前室内场景的隐式三维模型，并将隐式三维模型发送到边缘设备；边缘设备接收隐式三维模型，将隐式三维模型转换为显式三维模型，并将显式三维模型发送到端设备，以供端设备对显式三维模型进行显示和交互

具体地，在需要对当前室内场景进行三维模型重建时，现场操作人员可以手持端设备进行当前室内场景的视觉信息的采集，然后将采集到的视觉信息发送到云设备，云设备具体指计算资源和内存资源充足的云端服务器，用于构建初始的神经辐射场网络，并进一步训练初始神经辐射场模型，以得到储存有当前室内场景的隐式三维模型的目标神经辐射场模型。由于隐式三维模型的渲染算法的计算复杂度和空间复杂度很高，无法直接在端设备进行模型渲染操作，所以本申请实施例选择利用边缘设备对当前室内场景的隐式三维模型进行渲染，即将该隐式三维模型转换为对应的显式三维模型，最后将显式三维模型发送到端设备供进一步显示和交互。

本申请实施例提供的基于神经辐射场的室内场景三维重建系统可以用于室内场景的自由视点漫游及视频渲染。将端数据处理模块（端设备的数据处理模块）输出的移动端设备的相机位姿信息传输至存储有室内场显式三维模型的边缘服务器，再由边缘服务器渲染场景在采集视角下的场景图像并传输至移动端设备实时显示。还可以用于多个室内场景的三维重建，例如一整层建筑的三维重建。在边缘模型转化模块（边缘设备的数据处理模块）将单个室内场景的神经辐射场隐式三维模型转化为显式三维模型后，按照各个场景的相对位置将各个房间的显式三维模型置至于对应的空间位置并根据场景边缘位置的空间特征进行匹配拼接，即可构成一整层建筑的精细三维模型。

具体地，在一实施例中，视觉信息包括场景图像和各场景图像对应的相机位姿信息，相机位姿信息包括相机位置和观测角度。

相应的，云设备具体可以根据相机位姿信息，随机采样相机在不同相机位置下发出的多条射线；根据每条射线上的空间点的坐标和对应的观测角度，构建各空间点对应的模型训练向量；将模型训练向量转换为高维模型训练向量；基于各空间点对应的高维模型训练向量，对初始化神经辐射场模型进行模型训练，得到当前室内场景的隐式三维模型。

需要说明的是，一条射线可以对应相机在某位置坐标下的观测角度。具体可以用蒙特卡洛采样算法，根据相机位姿数据，随机采样相机在多个位置坐标（相机位置）下发出的多条射线，即可以在同一相机位置下，采样不同观测角度对应的射线。

具体地，由于一条射线在一定的室内场景下穿过多个空间点，即一条射线包括多个空间点，所以可以根据每条射线上的空间点的坐标

和对应的观测角度

，构建各空间点对应的模型训练向量

，其中，

表示观测俯仰角度，

表示观测水平角度。为了进一步提高三维重建模型的精度，可以将当前五维的模型训练向量转换为高维模型训练向量，以基于各空间点对应的高维模型训练向量进行后续的初始化神经辐射场模型训练操作。

示例性的，可以基于如下公式，对当前的模型训练向量每维元素进行位置编码，以将其升维映射至高维空间：

其中，

表示上述五维的模型训练向量的任意一维元素，

为上述谐函数的维度，经上述公式升维后，模型训练向量中的每一维元素将升至(2L+1)维。

进一步地，在一实施例中，针对后续的模型训练过程，云设备具体可以将各空间点对应的高维模型训练向量输入到初始化神经辐射场模型，以得到各空间点的颜色和体密度；根据一条射线上的所有空间点的颜色和体密度，估计该射线在场景图像上的像素颜色；利用预设的损失函数，根据像素颜色的估计结果和场景图像所表征的像素颜色的真值，计算当前神经辐射场模型的输出损失；以减小输出损失为目标，按照反向传播梯度调整当前神经辐射场模型的模型参数，以得到当前室内场景的隐式三维模型。

需要说明的是，神经辐射场模型（函数）输入为五维度向量

，输出为输入空间点的体密度

和此空间点在当前观测方向的RGB颜色，具体可以表示为

。

其中，神经辐射场

由一个总体10层的全连接神经网络构成。其前8层的输入为场景空间（当前室内场景）中空间点的坐标

，输出为此空间点的体密度

和一个256维的中间特征向量。此256维的中间特征向量与观测方向

拼接后输入最后2层的全连接神经网络，并由此网络输出此空间点在该观测方向的颜色

。网络的前8层和最后两层均采用ReLU函数作为激活函数，前9层全连接层每层的神经元数目为256，最后一层第10层的神经元数目为128。

具体地，在一实施例，云设备可以基于如下公式估计任一射线在场景图像上的像素颜色：

其中，下标

表示第

个采样点，

表示该射线上的第

个空间点的颜色，

表示第

个空间点的体密度，

表示第

个空间点的体密度，

表示空间点的采样间隔。

需要说明的是，上述空间点具体指射线上的采样点，通常按照预设的采样步长（采样间隔）进行空间点的均匀采样，因此

。在实际应用中，若对空间点的采样规则进行调整，则

表示第i个空间点与第i-1个空间点之间的间隔，

表示第j个空间点与第j-1个空间点之间的间隔。

具体地，在一实施例中，用于训练神经辐射场模型

的损失函数为：

其中，

表示当前神经辐射场模型

的输出损失，

为第

幅场景图像

中像素对应的射线

从当前神经辐射场模型

中查询到空间点的RGB颜色和体密度

后，基于上述实施例提供的体渲染方式得到的该射线在该场景图像上的像素颜色的估计结果，

为端设备采集的此像素的像素颜色的真值，

为采样射线集。

进一步地，使用后向传播算法计算当前神经辐射场模型

每个模型参数的梯度，然后使用梯度下降法更新调整神经辐射场模型

的模型参数，以减小神经辐射场模型的输出损失。

其中，图2为本申请实施例提供的神经辐射场模型的训练流程示意图，图2中的三维点和采样点即为空间点，体渲染公式即为用于估计任一射线在场景图像上的像素颜色的公式，当模型参数的调整次数达到预设次数阈值，或神经辐射场模型的输出损失小于预设的损失阈值时，结束模型训练流程，并输出当前室内场景的隐式三维模型，反之，则返回到根据相机位姿信息，随机采样相机在不同相机位置下发出的多条射线的步骤，以继续对该神经辐射场模型进行训练。

在上述实施例的基础上，将神经辐射场应用于室内场景三维重建存在的一个难点是神经辐射场是一个隐式三维模型，由于渲染此模型的计算复杂度和空间复杂度很高，导致其渲染速度十分缓慢，且无法直接在终端设备渲染，因此，本申请实施例提出在边缘设备进行隐式三维模型的渲染工作。

作为一种可实施的方式，在上述实施例的基础上，在一实施例中，边缘设备具体可以从当前室内场景中选取多个采样点；根据各采样点在隐式三维模型中的特征信息，对所有采样点进行聚类，以得到当前室内场景中的多个物体的包围盒；剔除各包围盒中体密度小于1的空间点，以得到各物体对应的目标包围盒；按照预设的区块划分精度，对各目标包围盒进行区块划分，以得到各目标包围盒对应的空间八叉树；其中，空间八叉树的叶子节点存储有该叶子节点对应的空间点在不同观测方向下的颜色；基于各物体对应的空间八叉树，生成当前室内场景的显式三维模型。

其中，显示三维模型可以是体素三维模型或网格三维模型等。

需要说明的是，采样点在隐式三维模型中的特征信息至少包括空间位置坐标、观测角度及对应的颜色，空间点体密度小于1则表征该空间点为空，不属于任何实体物体。其中，包围盒具体指物体的识别区域，也就是该物体在当前室内场景下所占用的空间区域。

具体地，在得到当前室内场景下多个物体（如多个局部家具及墙面）对应的目标包围盒后，对该目标包围盒进行区块划分，以构建空间八叉树为例，可以先将一目标包围盒划分为八个区块，如将一个大小为2*2的目标包围盒，划分为八个大小为1*1的区块，然后再分别对这八个区块进行子区块划分，每个区块划分为八个子区块，以此类推，直至区块划分精度达到预设最小划分单位为止，其中最小划分单位可以对应一个预设最小像素的空间点，在得到这样一个多层八叉树之后，为了支持场景视点相关渲染，在所有叶子节点存储该叶子节点对应的空间点在不同观测方向下的颜色，用于在渲染任意观测方向颜色时插值使用。

具体地，边缘设备在对隐式三维模型进行渲染时，可以基于构建的空间八叉树，遍历该目标包围盒内场景空间，并将遍历到的场景信息（在不同观测方向下的颜色）存储到空间八叉树中。

具体地，在一实施例中，边缘设备可以对当前室内场景中的空间点进行粗采样，以得到多个粗采样点；将体密度不小于1的粗采样点，确定为采样点。

相应地，在一实施例中，边缘设备可以对各包围盒中的空间点进行细采样，以得到多个细采样点；其中，细采样的采样间隔小于粗采样的采样间隔；剔除各包围盒中体密度小于1的细采样点，以得到各物体对应的目标包围盒。

具体地，可以将体密度小于1的细采样点的体素标记为空，以达到剔除该细采样点的效果。

在上述实施例的基础上，作为一种可实施的方式，在上述实施例的基础上，在一实施例中，端设备至少包括相机和IMU传感器，端设备具体可以利用相机采集当前室内场景的场景图像；利用IMU传感器采集相机的运动数据和观测角度数据；根据各场景图像的采集时间、相机的运动数据和观测角度数据，确定各场景图像与相机位姿信息之间的对应关系。

其中，该相机可以采用RGB图像相机，IMU传感器可以包括加速度计、陀螺仪和磁力计等。

具体地，端设备上的端数据处理模块接收RGB相机传感器采集的室内场景的RGB图像，记作

，其中

为场景图像的数目，

表示第

张场景图像。同时接收拍摄场景图像时的时间戳

和IMU测量的相机运动数据、相机姿态角度数据。这些数据经过计算处理可得相机的运动轨迹，再与接收的时间戳

对齐处理后获取采集图像时相机的位置

和观测角度

。按照时间戳来组织接收的数据，使得场景图像、相机采集图像时的空间位置和相机姿态角度一一对应，即得到室内场景图像-相机位置-相机姿态角度（观测角度）构成的数据集

。

其中，将神经辐射场应用于室内场景三维重建存在的另一个难点是采集室内场景完备的、足以构建NeRF使用的数据集。如图3所示，为本申请实施例提供的示例性的场景图像采集场景示意图，相机在场景中的运动轨迹及朝向俯视图如图3所示。点O为室内场景中心附近一点，相机采集轨迹为围绕点O、半径为1米的一个圆周。相机朝向为从圆弧上指向点O。圆周半径及相机采样间隔视室内场景大小而定，场景越大所需圆周半径越大，采样间隔越密集。也可采用直接录制视频再抽取视频帧的方式进行采集。此采样方案能够使场景中除点O以外的所有点均被相机在多个角度和距离下拍摄，例如在图3中相机于劣弧

上以不同的角度和距离拍摄点A。进行完一周采集后，在O点所在垂直方向2米范围内（上下各1米），间隔20厘米作为O点再次进行采集。

需要说明的是，上述场景图像采集方案中的含相机运动轨迹、相机朝向、图像拍摄间隔仅为一种明确地具体实施方式，用于说明采集完备的、满足神经辐射场场景重建需求数据集的一种方式，在实际应用场景下，数据采集包括但不限于此方案。

示例性的，如图4所示，为本申请实施例提供的基于神经辐射场的室内场景三维重建系统的示例性的数据交互场景图，为了支撑构建室内场景NeRF构建中云边端设备间的数据协同与传输，本申请实施例提供了边缘数据协同模块，将端数据处理模块采集的室内场景数据组织后传输至云NeRF训练模块，将云NeRF训练模块输出的当前室内场景的隐式三维模型传输至边缘模型转化模块，以及将边缘模型转化模块输出的场景显式三维模型或场景渲染结果快速回传至端设备进行进一步的交互及显示。

具体地，在一实施例中，如图4所示，端设备可以将视觉信息发送到边缘设备，以利用边缘设备将视觉信息转发到云设备。

具体地，布置在移动端设备上的采集模块采集的室内场景数据（室内场景图像、相机位置及观测角度）经过压缩后传输至具备高带宽的边缘设备，然后再由边缘设备快速传输至布置在云设备的云NeRF训练模块，进行神经辐射场的并行加速训练以获得场景的隐式三维模型。训练神经辐射场需要大量的计算资源和内存资源。因为神经辐射场是一个紧致模型，其数据量很小，而场景的显式模型数据量很大，所以为了节省带宽，加快传输效率，在云NeRF训练模块完成室内场景NeRF隐式三维模型的重建后，将存储有场景隐式三维模型的目标神经辐射场模型传输至边缘设备，再由布置在其上的边缘模型转化模块转化为显式三维模型。最后由边缘数据协同模块将端设备所需的不同分辨率的渲染结果或场景模型传输至端设备供进一步显示和交互。

本申请实施例提供的基于神经辐射场的室内场景三维重建系统，包括：端设备、边缘设备和云设备；端设备用于采集当前室内场景的视觉信息，并将视觉信息传输到云设备；云设备接收到视觉信息后，将视觉信息输入到预设的初始化神经辐射场模型，以利用视觉信息，对初始化神经辐射场模型进行模型训练，得到当前室内场景的隐式三维模型，并将隐式三维模型发送到边缘设备；边缘设备接收隐式三维模型，将隐式三维模型转换为显式三维模型，并将显式三维模型发送到端设备，以供端设备对显式三维模型进行显示和交互。上述方案提供的系统，通过在云设备训练神经辐射场模型，在边缘设备进行隐式三维模型和显式三维模型的转换，将原本受限于计算、内存资源和渲染速度等因素限制而仅能用于小型物体重建的神经辐射场用于大规模的室内场景三维重建，提高了室内场景的三维重建精度。并且，通过在边缘设备将NeRF中当前室内场景的隐式三维模型转化为显式三维模型，实现了场景模型的交互性实时渲染。最终，实现了将NeRF模型应用于室内场景高质量三维重建任务，进而实现了仅采集场景RGB图像和图像的相机位姿来构建出室内场景的高质量三维模型。在降低了室内场景重建任务对端采集设备需求的同时，提高了模型质量，在影视娱乐、全息通信、增强现实和虚拟现实等领域有着很高的应用价值。

本申请实施例提供了一种基于神经辐射场的室内场景三维重建方法，为上述实施例提供的基于神经辐射场的室内场景三维重建系统的应用方法，执行主体为上述实施例提供的基于神经辐射场的室内场景三维重建系统。

如图5所示，为本申请实施例提供的基于神经辐射场的室内场景三维重建方法的流程示意图。该方法包括：

步骤501，采集当前室内场景的视觉信息；

步骤502，将视觉信息输入到预设的初始化神经辐射场模型，以利用视觉信息，对初始化神经辐射场模型进行模型训练，得到当前室内场景的隐式三维模型；

步骤503，将隐式三维模型转换为显式三维模型，对显式三维模型进行显示和交互。

具体地，在一实施例中，视觉信息包括场景图像和各场景图像对应的相机位姿信息，相机位姿信息包括相机位置和观测角度，将视觉信息输入到预设的初始化神经辐射场模型，以利用视觉信息，对初始化神经辐射场模型进行模型训练，得到当前室内场景的隐式三维模型，包括：

根据相机位姿信息，随机采样相机在不同相机位置下发出的多条射线；

根据每条射线上的空间点的坐标和对应的观测角度，构建各空间点对应的模型训练向量；

将模型训练向量转换为高维模型训练向量；

基于各空间点对应的高维模型训练向量，对初始化神经辐射场模型进行模型训练，得到当前室内场景的隐式三维模型。

具体地，在一实施例中，基于各空间点对应的高维模型训练向量，对初始化神经辐射场模型进行模型训练，得到当前室内场景的隐式三维模型，包括：

将各空间点对应的高维模型训练向量输入到初始化神经辐射场模型，以得到各空间点的颜色和体密度；

根据一条射线上的所有空间点的颜色和体密度，估计该射线在场景图像上的像素颜色；

利用预设的损失函数，根据像素颜色的估计结果和场景图像所表征的像素颜色的真值，计算当前神经辐射场模型的输出损失；

以减小输出损失为目标，按照反向传播梯度调整当前神经辐射场模型的模型参数，以得到当前室内场景的隐式三维模型。

具体地，在一实施例中，根据一条射线上的所有空间点的颜色和体密度，估计该射线在场景图像上的像素颜色，包括：

基于如下公式估计任一射线在场景图像上的像素颜色：

其中，

表示该射线上的第

个空间点的颜色，

表示第

个空间点的体密度，

表示第

个空间点的体密度，

表示空间点的采样间隔。

具体地，在一实施例中，将隐式三维模型转换为显式三维模型，包括：

从当前室内场景中选取多个采样点；

根据各采样点在隐式三维模型中的特征信息，对所有采样点进行聚类，以得到当前室内场景中的多个物体的包围盒；

剔除各包围盒中体密度小于1的空间点，以得到各物体对应的目标包围盒；

按照预设的区块划分精度，对各目标包围盒进行区块划分，以得到各目标包围盒对应的空间八叉树；其中，空间八叉树的叶子节点存储有该叶子节点对应的空间点在不同观测方向下的颜色；

基于各物体对应的空间八叉树，生成当前室内场景的显式三维模型。

具体地，在一实施例中，从当前室内场景中选取多个采样点，包括：

对当前室内场景中的空间点进行粗采样，以得到多个粗采样点；

将体密度不小于1的粗采样点，确定为采样点。

具体地，在一实施例中，剔除各包围盒中体密度小于1的空间点，以得到各物体对应的目标包围盒，包括：

对各包围盒中的空间点进行细采样，以得到多个细采样点；其中，细采样的采样间隔小于粗采样的采样间隔；

剔除各包围盒中体密度小于1的细采样点，以得到各物体对应的目标包围盒。

具体地，在一实施例中，采集当前室内场景的视觉信息，包括：

利用相机采集当前室内场景的场景图像；

利用IMU传感器采集相机的运动数据和观测角度数据；

根据各场景图像的采集时间、相机的运动数据和观测角度数据，确定各场景图像与相机位姿信息之间的对应关系。

示例性的，如图6所示，为本申请实施例提供的示例性的基于神经辐射场的室内场景三维重建方法的流程示意图，如图6所示的方法为如图5所示的方法的是一种示例性的实现方式，二者实现原理相同，不再赘述。

关于本实施例中的基于神经辐射场的室内场景三维重建方法，其中各个步骤的具体方式已经在有关该系统的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例提供的基于神经辐射场的室内场景三维重建方法，为上述实施例提供的基于神经辐射场的室内场景三维重建系统的应用方法，其实现方式与原理相同，不再赘述。

本申请实施例提供了一种电子设备，用于执行上述实施例提供的基于神经辐射场的室内场景三维重建方法。

如图7所示，为本申请实施例提供的电子设备的结构示意图。该电子设备70包括：至少一个处理器71和存储器72；

所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上实施例提供的基于神经辐射场的室内场景三维重建方法。

本申请实施例提供的一种电子设备，用于执行上述实施例提供的基于神经辐射场的室内场景三维重建方法，其实现方式与原理相同，不再赘述。

本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上任一实施例提供的基于神经辐射场的室内场景三维重建方法。

本申请实施例的包含计算机可执行指令的存储介质，可用于存储前述实施例中提供的基于神经辐射场的室内场景三维重建方法的计算机执行指令，其实现方式与原理相同，不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。