CN116580161B

CN116580161B - 基于图像及NeRF模型的建筑三维模型构建方法及系统

Info

Publication number: CN116580161B
Application number: CN202310854148.0A
Authority: CN
Inventors: 何益斌; 夏心红; 袁峥嵘
Original assignee: Hunan Architectural Design Institute Group Co ltd
Current assignee: Hunan Architectural Design Institute Group Co ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-09-22
Anticipated expiration: 2043-07-13
Also published as: CN116580161A

Abstract

本发明公开了一种基于图像及NeRF模型的建筑三维模型构建方法及系统，本发明方法包括取无人机围绕目标建筑飞行拍摄的时空图像集，利用卷积神经网络CNN进行多尺度的空间特征学习以实现空间特征感知；将得到的特征对齐融合为特征图时序拼接序列，利用LSTM层以实现时间特征感知；将LSTM层的输出结果利用全连接层进行相机参数预测；基于相机参数预测得到的相机参数，将时空图像集利用时变NeRF模型生成所需的预测视图以作为目标建筑时变的三维模型重建结果。本发明旨在实现快速准确地获取测量数据，针对包括复杂的几何建筑和大规模的场景范围在内的建筑实现精细化、快速的三维模型构建。

Description

基于图像及NeRF模型的建筑三维模型构建方法及系统

技术领域

本发明涉及建筑的三维模型构建技术领域，具体涉及一种基于图像及NeRF模型的建筑三维模型构建方法及系统。

背景技术

面向城市大规模增量建设转为存量提质改造和增量建筑调整并重发展的阶段，以数字化技术为基础，开展智能监测与智慧运维基础共性技术和关键核心技术研发与转化应用，促进建筑业与信息产业等业态融合，显著提高建筑数字化、智能化水平，支撑完整社区、城镇老旧街区（小区）改造、历史文化街区更新保护、既有建筑和工业园区再利用等新时期城市更新工作，提升城市运维效率。传统测绘需要进行大量的野外工作与后续处理，这极大降低了工作效率，难以满足快速获取数据的需求。同时需要投入大量人力物力，每次测绘的成本较高，限制了测绘工作的频次与覆盖面。传统测绘依靠人工测量，测量精度难以达到高标准，且易产生累积误差，影响结果的准确性。

传统测绘能获得二维信息，但无法直接获取目标的三维形态数据，限制测绘结果的应用价值。传统测绘危险性高，野外工作存在较高安全隐患，尤其在复杂地形与不稳定建筑下，容易发生意外与伤害。人工测绘对于高空、小空间以及危险处的测绘工作难度大，有些目标难以直接进行人工测绘。测绘结果的判读与分析存在较高主观性，精度与准确性难以保证，影响结果的可靠性。由于测绘成本高，信息更新周期长，传统测绘难以及时获取目标的最新数据，限制其在监测与管理中的应用。不同时期的传统测绘采用不同的设备与方法，获得的数据难以遥调与融合，无法形成数据的连续性。目前城市三维重建主要从两个途径获取图像信息，一个是机载或车载的LIDAR数据，一个是无人机航拍图像数据。面向城市大规模增量建设转为存量提质改造和增量建筑调整并重发展的阶段，数字城市建设转型迫在眉睫。城市建筑3D模型构建现有的方法存在以下问题：1、传统测绘需要进行大量的野外工作与后续处理，难以快速获取数据；依靠人工测量，难以保证测量精度；成本高，信息更新周期长。2、基于点云重建、网格重建以及纹理材质贴图的点云生成与优化3D建模方法无法精细化渲染场景。3、筑物通常具有复杂的几何建筑和大规模的场景范围。NeRF模型（神经辐射场模型）模拟光成像的物理原理来实现图像渲染，可用于需要3D/2D渲染的任何场景，包括游戏、AR/VR和SLAM等。例如，利用NeRF模型输出的结果，可以输出一个对3维场景的拍照，从任意角度拍摄的拍摄的照片。神经辐射场(NeRF)将这种单场景优化设置与神经场景表示相结合，能够比离散的3D体素网格更有效地表示复杂场景；然而，它的渲染模型需要处理大量的输入数据和复杂的计算，这可能导致计算成本和时间的显著增加。而且现有NeRF模型存在下述问题：1、NeRF模型需要人工标定相机参数，费时费力。2、原始的NeRF模型不具备时空感知能力，即不能感受时间变化对场景带来的影响。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于图像及NeRF模型的建筑三维模型构建方法及系统，本发明旨在实现快速准确地获取测量数据，针对包括复杂的几何建筑和大规模的场景范围在内的建筑实现精细化、快速的三维模型构建。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于图像及NeRF模型的建筑三维模型构建方法，包括：

S101，获取无人机围绕目标建筑飞行拍摄的时空图像集，所述时空图像集包括不同采集时间所获得的图像时间序列；

S102，将时空图像集利用卷积神经网络CNN进行多尺度的空间特征学习以实现空间特征感知；

S103，将多尺度的空间特征学习得到的特征对齐融合为特征图时序拼接序列；

S104，将特征图时序拼接序列利用LSTM层以实现时间特征感知；

S105，将LSTM层的输出结果利用全连接层进行相机参数预测；

S106，基于相机参数预测得到的相机参数，将时空图像集利用时变NeRF模型生成所需的预测视图以作为目标建筑时变的三维模型重建结果。

可选地，步骤S102中将时空图像集利用卷积神经网络CNN进行多尺度的空间特征学习以实现空间特征感知时，包括利用高分辨率处理分支和低分辨率处理分支两个网络分支的卷积神经网络CNN分别对时空图像集进行空间特征学习以实现空间特征感知。

可选地，所述高分辨率处理分支的卷积神经网络CNN包括级联的多个用于空间特征学习的空间特征感知单元，所述低分辨率处理分支的卷积神经网络CNN包括单个用于空间特征学习的空间特征感知单元。

可选地，所述空间特征感知单元包括依次相连的卷积层、卷积层、池化层和软注意力机制层。

可选地，步骤S103中将多尺度的空间特征学习得到的特征对齐融合为综合时序特征向量包括：首先将多尺度的空间特征学习得到的特征进行时序对齐，以确保它们具有相同的时间步长t；对于每个时间步，将多尺度的空间特征学习得到的特征按照通道维度进行拼接形成一个综合时序特征向量，并将不同时间步的综合时序特征向量拼接得到特征图时序拼接序列。

可选地，步骤S105中将LSTM层的输出结果利用全连接层进行相机参数预测时，相机参数预测得到的相机参数包括相机成像参数、时间标记以及光照信息，所述相机成像参数包括用于表示相机朝向的旋转矩阵和用于表示相机位置的多维向量。

可选地，步骤S106中的时变NeRF模型描述了三维场景的隐函数，其函数表达式为：

，

上式中，表示描述三维场景的隐函数，/>为三维坐标，/>为二维光线视角方向，/>为水平方向角度，/>为垂直方向角度，/>为第i个时间标记，/>为第i个光照信息，/>为颜色，/>、/>和/>分别表示红、绿和蓝三个颜色分量，/>表示体密度；所述三维场景的隐函数为机器学习模型，用于根据时空图像集里的n个视角获取的一系列图像，相机参数预测得到的n个相机成像参数/>、n个时间标记以及n个光照信息/>从不可见的新视角生成合成视图，其函数表达式为：

，

上式中，表示像素/>的值，/>表示生成位置/>的图像映射函数，/>为第i个相机成像参数，/>为第i个时间标记，/>为第i个光照信息，/>表示网络参数，/>和/>为由相机位置/>发出的一条穿过像素/>的射线的到达位置，/>表示沿射线到达位置/>累积的透过率，该透过率为射线从/>移动到位置/>而未击中任何其他粒子的概率，且有：

，

上式中，为光线颜色，/>为体密度，/>为光线微分算子；/>表示从摄像机原点o出发经过像素/>的摄像机光线，由摄像机参数/>控制，有近界/>和远界/>；所述时变NeRF模型在每次迭代训练时随机从训练图像中选择一个像素子集，并为每个像素生成3D射线，然后沿着每条3D射线采样一组采样点，对每个采样点根据隐函数/>预测出该位置的体密度/>和颜色值/>，再根据下式计算出最终的颜色值/>：

，

上式中，为训练的样本数量，/>为透射率，/>为第i个样本通过隐函数/>预测出的体密度，/>为第i个样本的样本点/>和/>之间的距离，/>为第i个像素点，/>为第i+1个像素点，/>为第i个样本的通过隐函数/>预测出的颜色值，且有：

，

上式中，为第j个样本通过隐函数/>预测出的体密度，/>为第j个样本的样本点/>和/>之间的距离；且所述时变NeRF模型训练时采用的损失函数为：

，

上式中，为损失函数，/>为训练的样本数量，/>为时变NeRF模型生成的预测视图，为原始图像。

可选地，所述三维场景的隐函数为多层感知机。

此外，本发明还提供一种基于图像及NeRF模型的建筑三维模型构建系统，包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行所述基于图像及NeRF模型的建筑三维模型构建方法。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理器编程或配置以执行所述基于图像及NeRF模型的建筑三维模型构建方法。

和现有技术相比，本发明主要具有下述优点：传统NeRF技术需要人工相机参数检定费时、精度低；属于静态建模，模型结果不能反映场景随时间动态光线变化。本发明方法包括取无人机围绕目标建筑飞行拍摄的时空图像集，利用卷积神经网络CNN进行多尺度的空间特征学习以实现空间特征感知；将得到的特征对齐融合为特征图时序拼接序列，利用LSTM层以实现时间特征感知；将LSTM层的输出结果利用全连接层进行相机参数预测；基于相机参数预测得到的相机参数，将时空图像集利用时变NeRF模型生成所需的预测视图以作为目标建筑时变的三维模型重建结果，从而能够实现快速准确地获取测量数据，针对包括复杂的几何建筑和大规模的场景范围在内的建筑实现精细化、快速的三维模型动态的构建，能够准确反映场景随时间动态光线变化。

附图说明

图1为本发明实施例方法的原理示意图。

具体实施方式

如图1所示，本实施例基于图像及NeRF模型的建筑三维模型构建方法包括：

S105，将LSTM层的输出结果利用全连接层进行相机参数预测；

本实施例中包括利用无人机围绕目标建筑飞行拍摄图像，无人机是一种有动力、可控制、能携带多种任务设备、可重复可使用，并能完成多种任务的无人驾驶航空器。将无人机测绘技术引入到三维场地重现、建筑三维重现、室内三维空间重建等测绘活动中，不仅可以加快测绘活动的开展效率，而且能够降低所得测绘数据的容错率，提高测绘结果的准确性。本实施例中通过无人机不同时段的飞行任务和数据传送，进行数据处理，可对管网监测、建筑外墙质量预警监测、古建筑监测等提供便利。本实施例中的具体做法是设定好无人机飞行路径，在同一天中的三个时间点进行图像采集，以得到不同光线下的序列图像。其次，对所采集图像进行批量裁剪得到相同尺寸的图像，如800*600。然后，对所图像的相机参数进行标定。最后，得到目标建筑的时空图像集。

CNN是一种具有局部连接、权值共享等特点的深层前馈神经网络，是深度学习的代表算法之一，擅长处理图像特别是图像识别等相关机器学习问题，比如图像分类、目标检测、图像分割等各种视觉任务中都有显著的提升效果，是目前应用最广泛的模型之一。

参见图1，本实施例步骤S102中将时空图像集利用卷积神经网络CNN进行多尺度的空间特征学习以实现空间特征感知时，包括利用高分辨率处理分支和低分辨率处理分支两个网络分支的卷积神经网络CNN分别对时空图像集进行空间特征学习以实现空间特征感知。此外，也可以根据需要采用更多不同分辨率的分支来增强不同分辨率下的空间特征感知。

参见图1，本实施例中高分辨率处理分支的卷积神经网络CNN包括级联的多个用于空间特征学习的空间特征感知单元，低分辨率处理分支的卷积神经网络CNN包括单个用于空间特征学习的空间特征感知单元。对于高分辨率处理分支（简称HR）和低分辨率处理分支（简称LR）而言，输入图像序列，其中N为图像序列的长度；每个图像/>的尺寸为。最终，通过高分辨率处理分支的卷积神经网络CNN得到高分辨率图像特征/>，通过低分辨率处理分支得到低分辨率图像特征/>。

本实施例中，空间特征感知单元包括依次相连的卷积层、卷积层、池化层和软注意力机制层，因此高分辨率处理分支的卷积神经网络CNN的函数表达式为：

，（1）

上式中，为输入图像，/>和/>为中间特征，/>为卷积层，/>为转置卷积层，/>表示池化层，/>表示软注意力机制层，由于软注意力机制层为现有卷积神经网络CNN的结构，故其实现细节在此不再详述。

低分辨率处理分支的卷积神经网络CNN的函数表达式为：

，（2）

上式中，为输入图像，/>和/>为中间特征。

本实施例中，步骤S103中将多尺度的空间特征学习得到的特征对齐融合为综合时序特征向量包括：首先将多尺度的空间特征学习得到的特征进行时序对齐，以确保它们具有相同的时间步长t；对于每个时间步，将多尺度的空间特征学习得到的特征按照通道维度进行拼接形成一个综合时序特征向量，并将不同时间步的综合时序特征向量拼接得到特征图时序拼接序列。本实施例步骤S102中将时空图像集利用卷积神经网络CNN进行多尺度的空间特征学习以实现空间特征感知时，包括利用高分辨率处理分支和低分辨率处理分支两个网络分支的卷积神经网络CNN，因此具体为爱将高分辨率图像特征和低分辨率图像特征/>进行时序对齐，对于每个时间步，按照通道维度将高分辨率图像特征/>和低分辨率图像特征/>进行拼接，形成一个综合时序特征向量，如下式所示：

，（3）

上式中，表示t时刻的高分辨率图像特征/>，/>表示t时刻的低分辨率图像特征/>，/>表示t时刻的综合时序特征向量。

由此得到包含高分辨率和低分辨率特征图的信息的特征图时序拼接序列，作为LSTM层的输入。LSTM（Long Short-Term Memory）是一种循环神经网络（RNN）的变种，旨在解决传统RNN中的长期依赖问题。LSTM具有记忆单元和门控机制，使其能够有效地处理和记忆长期依赖关系。其工作原理包括：首先初始化LSTM的隐藏状态/>和细胞状态/>，然后对于每个时间步t，输入当前时间步（t时刻）的特征图/>和上一个时间步（t-1时刻）的隐藏状态/>和细胞状态/>，根据下式计算当前时间步的门控信息和更新信息：

，（4）

其中，i _t为输入门t时刻的状态，F _t为t时刻输入的特征图，为t-1时刻的隐藏状态，f _t为遗忘门t时刻的状态，o _t为输出门t时刻的状态，g _t为中间变量，/>为t时刻的细胞状态，/>为t时刻的隐藏状态，/>,/>,/>,/>,/>,/>,/>,/>是LSTM的权重矩阵，偏置向量，/>为sigmoid激活函数，/>为双曲正切激活函数，/>表示逐元素相乘。

本实施例中，步骤S105中将LSTM层的输出结果利用全连接层进行相机参数预测时，相机参数预测得到的相机参数包括相机成像参数、时间标记以及光照信息，所述相机成像参数包括用于表示相机朝向的旋转矩阵和用于表示相机位置的多维向量。假定维度是H。将LSTM层的输出结果隐藏状态作为全连接层的输入，进行线性变换和非线性激活：

，（5）

，（6）

上式中，为线性变换的权重矩阵，/>为线性变换的偏置向量，/>为线性变换得到的结果，/>激活函数，选用ReLU，/>为非线性激活得到的结果；再将非线性激活得到的结果进行线性变换得到最终的参数输出，即图像的相机参数向量/>、时间标记和光照信息：

，（7）

上式中，为输出的相机参数，/>为线性变换的权重矩阵，/>为线性变换的偏置向量。本实施例中，输出的相机参数/>包括：相机成像参数/>（其中，/>是一个3x3的旋转矩阵，表示相机的朝向，/>是一个3维向量，表示相机的位置）、时间标记/>和光照信息/>。

视角合成方法通常使用一个中间3D场景表征作为中介来生成高质量的虚拟视角。根据表示形式，3D场景表征可以分为“显式”和“隐式”表示。显式表示（explicitrepresentation），包括Mesh，Point Cloud，Voxel，Volume等。显式表示的优点是能够对场景进行显式建模，从而合成照片级的虚拟视角。缺点是这种离散表示因为不够精细化会造成重叠等伪影，而且最重要的，它们对内存的消耗限制了高分辨率场景的应用。NeRF模型是一种深度渲染方法，其主要特点是场景隐式表达和图像的容积渲染。不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达，NeRF模型将场景建模成一个连续的5D辐射场隐式存储在神经网络中，输入稀疏的多角度的图像训练得到一个神经辐射场模型，根据这个模型可以渲染出任意视角下的清晰的照片。通俗来讲，就是构造一个隐式的渲染流程，其输入是某个视角下发射的光线的位置o，方向d以及对应的坐标(x,y,z)，送入神经辐射场得到体积密度和颜色，最后再通过体渲染得到最终的图像。

本实施例步骤S106中的时变NeRF模型描述了三维场景的隐函数，其函数表达式为：

，（8）

上式中，表示描述三维场景的隐函数（即神经辐射场），/>为三维坐标，为二维光线视角方向，/>为水平方向角度，/>为垂直方向角度，/>为第i个时间标记，为第i个光照信息，/>为颜色，/>、/>和/>分别表示红、绿和蓝三个颜色分量，/>表示体密度；

本实施例步骤S106中的时变NeRF模型为对NeRF模型（Martin-Brualla R, RadwanN, Sajjadi M S M, et al. Nerf in the wild: Neural radiance fields forunconstrained photo collections[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition. 2021: 7210-7219.）的改进，将NeRF模型的输入由()拓展为/>。

本实施例中，三维场景的隐函数为机器学习模型，用于根据时空图像集里的n个视角获取的一系列图像，相机参数预测得到的n个相机成像参数、n个时间标记/>以及n个光照信息/>从不可见的新视角生成合成视图，其函数表达式为：

，（9）

，（10）

上式中，为光线颜色，/>为体密度，/>为光线微分算子；/>表示从摄像机原点o出发经过像素/>的摄像机光线，由摄像机参数/>控制，有近界/>和远界/>。根据机器学习模型从不可见的新视角生成合成视图的函数表达式，该模型提出图像呈现是由相机位置/>发出的一条穿过像素p的射线进入目标物体进而渲染出所拍摄图像平面上的每个像素/>的颜色和明暗。因此，给定输入从建筑场景里n个视角获取的一系列图像，以及与图像通过多尺度时空感知CNN预测出的相机成像参数、时间标记/>、光照信息/>。模型能从不可见的新视角生成逼真且时变的图像。

本实施例中，时变NeRF模型在每次迭代训练时随机从训练图像中选择一个像素子集，并为每个像素生成3D射线，然后沿着每条3D射线采样一组采样点，对每个采样点根据隐函数预测出该位置的体密度/>和颜色值/>，再根据下式计算出最终的颜色值/>：

，（11）

，（12）

，（13）

上式中，为第j个样本通过隐函数/>预测出的体密度，/>为第j个样本的样本点/>和/>之间的距离。计算出最终的颜色值/>的函数表达式（11）实际上是通过沿射线累积一组采样点的亮度和密度来近似式（10）的积分。最为关键的是，如在已知相机成像参数/>的情况下，，通过最小化观测视图/>和合成视图/>之间的光度误差来训练模型，可表示为：

，（14）

，（15）

上式中，为损失函数，/>为训练的样本数量，/>为机器学习模型最优的网络参数，为损失函数的映射关系表达，/>为合成图像，/>为相机成像参数，/>为时间标记，/>为光照信息。对此，完成建筑三维重建的时变NeRF模型需要一组建筑表面场景图像以及图像对应的相机的内外参数。其中，图像来自无人机拍摄；相机参数来自CNN和LSTM层。在每次训练迭代中，随机从训练图像中选择一个像素子集，并为每个像素生成3D射线。然后，沿着每条射线采样一组采样点，对每个采样点根据/>计算出该位置的体密度/>和颜色值rgb。再计算出最终的颜色值/>。目标函数是使估计与实际图像之间的差异最小。因此，本实施例中时变NeRF模型训练时采用的损失函数为：

，（16）

上式中，为损失函数，/>为训练的样本数量，/>为时变NeRF模型生成的预测视图，为原始图像。作为一种可选的实施方式，本实施例中所述三维场景的隐函数为多层感知机。此外也可以根据需要采用其他机器学习模型。

综上所述，本实施例基于图像及NeRF模型的建筑三维模型构建方法包括通过无人机搭载高清相机完成建筑表面图像采集，并将高清图像实时无线传输至地面处理系统。地面处理系统对图像进行标注，并进行CNN特征提取与预测。然后，基于图像及其相机成像参数、时间标记和光照信息输入NeRF模型。最后，得到目标建筑时变的三维模型，渲染出不同时间下光线动态变化的建筑三维重建结果。

此外，本实施例还提供一种基于图像及NeRF模型的建筑三维模型构建系统，包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行所述基于图像及NeRF模型的建筑三维模型构建方法。

此外，本实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理器编程或配置以执行所述基于图像及NeRF模型的建筑三维模型构建方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于图像及NeRF模型的建筑三维模型构建方法，其特征在于，包括：

S105，将LSTM层的输出结果利用全连接层进行相机参数预测；

S106，基于相机参数预测得到的相机参数，将时空图像集利用时变NeRF模型生成所需的预测视图以作为目标建筑时变的三维模型重建结果；所述时变NeRF模型描述了三维场景的隐函数，其函数表达式为：

，

上式中，表示描述三维场景的隐函数，/>为三维坐标，/>为二维光线视角方向，/>为水平方向角度，/>为垂直方向角度，/>为第i个时间标记，/>为第i个光照信息，为颜色，/>、/>和/>分别表示红、绿和蓝三个颜色分量，/>表示体密度；所述三维场景的隐函数为机器学习模型，用于根据时空图像集里的n个视角获取的一系列图像，相机参数预测得到的n个相机成像参数/>、n个时间标记以及n个光照信息/>从不可见的新视角生成合成视图，其函数表达式为：

，

上式中，为光线颜色，/>为体密度，/>为光线微分算子；/>表示从摄像机原点o出发经过像素/>的摄像机光线，由摄像机参数/>控制，有近界/>和远界/>；所述时变NeRF模型在每次迭代训练时随机从训练图像中选择一个像素子集，并为每个像素生成3D射线，然后沿着每条3D射线采样一组采样点，对每个采样点根据隐函数/>预测出该位置的体密度和颜色值/>，再根据下式计算出最终的颜色值/>：

，

上式中，为训练的样本数量，/>为透射率，/>为第i个样本通过隐函数/>预测出的体密度，/>为第i个样本的像素点/>和/>之间的距离，/>为第i个像素点，/>为第i+1个像素点，为第i个样本的通过隐函数/>预测出的颜色值，且有：

，

上式中，为第j个样本通过隐函数/>预测出的体密度，/>为第j个样本的样本点/>和之间的距离；且所述时变NeRF模型训练时采用的损失函数为：

，

上式中，为损失函数，/>为训练的样本数量，/>为时变NeRF模型生成的预测视图，/>为原始图像。

2.根据权利要求1所述的基于图像及NeRF模型的建筑三维模型构建方法，其特征在于，步骤S102中将时空图像集利用卷积神经网络CNN进行多尺度的空间特征学习以实现空间特征感知时，包括利用高分辨率处理分支和低分辨率处理分支两个网络分支的卷积神经网络CNN分别对时空图像集进行空间特征学习以实现空间特征感知。

3.根据权利要求2所述的基于图像及NeRF模型的建筑三维模型构建方法，其特征在于，所述高分辨率处理分支的卷积神经网络CNN包括级联的多个用于空间特征学习的空间特征感知单元，所述低分辨率处理分支的卷积神经网络CNN包括单个用于空间特征学习的空间特征感知单元。

4.根据权利要求3所述的基于图像及NeRF模型的建筑三维模型构建方法，其特征在于，所述空间特征感知单元包括依次相连的卷积层、卷积层、池化层和软注意力机制层。

5.根据权利要求1所述的基于图像及NeRF模型的建筑三维模型构建方法，其特征在于，步骤S103中将多尺度的空间特征学习得到的特征对齐融合为综合时序特征向量包括：首先将多尺度的空间特征学习得到的特征进行时序对齐，以确保它们具有相同的时间步长t；对于每个时间步，将多尺度的空间特征学习得到的特征按照通道维度进行拼接形成一个综合时序特征向量，并将不同时间步的综合时序特征向量拼接得到特征图时序拼接序列。

6.根据权利要求1所述的基于图像及NeRF模型的建筑三维模型构建方法，其特征在于，步骤S105中将LSTM层的输出结果利用全连接层进行相机参数预测时，相机参数预测得到的相机参数包括相机成像参数、时间标记以及光照信息，所述相机成像参数包括用于表示相机朝向的旋转矩阵和用于表示相机位置的多维向量。

7.根据权利要求1所述的基于图像及NeRF模型的建筑三维模型构建方法，其特征在于，所述三维场景的隐函数为多层感知机。

8.一种基于图像及NeRF模型的建筑三维模型构建系统，包括相互连接的微处理器和存储器，其特征在于，所述微处理器被编程或配置以执行权利要求1～7中任意一项所述基于图像及NeRF模型的建筑三维模型构建方法。

9.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其特征在于，所述计算机程序用于被微处理器编程或配置以执行权利要求1～7中任意一项所述基于图像及NeRF模型的建筑三维模型构建方法。