CN117332840B

CN117332840B - 神经辐射场的训练方法、获取目标场景图像的方法及装置

Info

Publication number: CN117332840B
Application number: CN202311637236.1A
Authority: CN
Inventors: 赵开勇; 颜青松
Original assignee: Shenzhen Qiyu Innovation Technology Co ltd
Current assignee: Shenzhen Qiyu Innovation Technology Co ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-03-19
Anticipated expiration: 2043-12-01
Also published as: CN117332840A

Abstract

本申请涉及图像处理技术领域，公开了一种神经辐射场的训练方法，该方法包括：获取N张全景影像，其中，N张全景影像为对同一目标场景进行N个视角拍摄得到，N≥3；确定M个样本点，其中，M个样本点中第i个样本点的坐标为，，M、i均为正整数，M≥2，i≤M；确定M个样本点与N张全景影像中的每张全景影像对应的M条样本射线；根据M个样本点的坐标，确定每张全景影像中，M条样本射线中每条样本射线对应的真实颜色值；将标注有真实颜色值的N张全景影像作为训练数据对初始神经辐射场进行训练，得到训练好的神经辐射场。通过上述方式，本申请提高了对神经辐射场的训练效率。

Description

神经辐射场的训练方法、获取目标场景图像的方法及装置

技术领域

本申请实施例涉及图像处理技术领域，具体涉及一种神经辐射场的训练方法、获取目标场景图像的方法、神经辐射场的训练装置、电子设备及存储介质。

背景技术

随着神经辐射场(Neural Radiance Fields，NeRF)近两年在计算视觉方向的快速崛起，出现了基于神经辐射场的新视角图像生成方法。其中，神经辐射场是一种新兴的场景表达、图像渲染的方法，神经辐射场通过隐式表达的方式将场景表达记录在深度神经网络中，使用深度神经网络隐式地学习三维场景的信息，完成三维场景的三维重建、新视角图像生成等任务。

通过对神经辐射场进行训练后，即可利用训练好的神经辐射场获得新视角图像。目前，如何提高对神经辐射场的训练效率，是亟需解决的问题。

发明内容

鉴于上述问题，本申请实施例提供了一种神经辐射场的训练方法、获取目标场景图像的方法、神经辐射场的训练装置、电子设备及存储介质，用于解决现有技术中存在的对神经辐射场的训练效率较低的问题。

根据本申请实施例的一个方面，提供了一种神经辐射场的训练方法，所述方法包括：获取N张全景影像，其中，所述N张全景影像为对同一目标场景进行N个视角拍摄得到的，N为正整数，N≥3；确定M个样本点，其中，所述M个样本点中第i个样本点的坐标为，且满足/>，M、i均为正整数，M≥2，i≤M；确定所述M个样本点与所述N张全景影像中的每张全景影像对应的M条样本射线；根据所述M个样本点的坐标，确定所述每张全景影像中，所述M条样本射线中每条样本射线对应的真实颜色值；将标注有真实颜色值的N张全景影像作为训练数据对初始神经辐射场进行训练，得到训练好的神经辐射场。

在一种可选的方式中，所述确定M个样本点，包括：在单位球表面进行均匀采样，以确定所述M个样本点。

在一种可选的方式中，所述确定所述M个样本点与所述N张全景影像中的每张全景影像对应的M条样本射线，包括：获取所述N张全景影像中第j张全景影像的位姿，其中，/>为旋转矩阵，/>为平移向量，j为正整数，j≤N；确定所述M个样本点中第i个样本点与第j张全景影像对应的样本射线的方向/>，起点/>。

在一种可选的方式中，所述根据所述M个样本点的坐标，确定所述每张全景影像中，所述M条样本射线中每条样本射线对应的真实颜色值，包括：针对所述N张全景影像中第j张全景影像，所述M个样本点中：若第i个样本点的坐标中包括小数，则通过双线性插值方式，确定该第j张全景影像中该第i个样本点对应的像素点的真实颜色值，其中，j为正整数，j≤N；若该第i个样本点的坐标均为整数，则获取在该第j张全景影像中该第i个样本点对应的像素点的真实颜色值；将在该第j张全景影像中该第i个样本点对应的像素点的真实颜色值，作为在该第j张全景影像中该第i个样本点对应的样本射线对应的真实颜色值。

在一种可选的方式中，所述将标注有真实颜色值的N张全景影像作为训练数据对初始神经辐射场进行训练，得到训练好的神经辐射场，包括：从标注有真实颜色的N张全景影像中选择n张全景影像作为训练数据，对上一次训练后的神经辐射场进行训练，得到本次训练后的神经辐射场，其中，若第一次对神经辐射场进行训练，则所述上一次训练后的神经辐射场为所述初始神经辐射场，n为正整数，1≤n＜N；重复执行上述步骤，直至对所述初始神经辐射场进行多次迭代训练，以获得所述训练好的神经辐射场。

在一种可选的方式中，所述从标注有真实颜色的N张全景影像中选择n张全景影像作为训练数据，对上一次训练后的神经辐射场进行训练，得到本次训练后的神经辐射场，包括：从标注有真实颜色的N张全景影像中选择n张全景影像作为训练数据；将所述训练数据输入所述上一次训练后的神经辐射场，获得预测颜色值，其中，所述预测颜色值/>与所述训练数据中的真实颜色值C对应；根据所述训练数据中的真实颜色值C和对应的预测颜色值，计算损失值，其中，所述损失值与/>成正相关；根据所述损失值优化所述上一次训练后的神经辐射场的权重参数和偏置参数，得到所述本次训练后的神经辐射场。

根据本申请实施例的另一方面，提供了一种获取目标场景图像的方法，该方法包括：获取观看目标场景的目标视角，其中，所述目标视角对应有多个样本点，所述多个样本点为在所述目标视角对应的多条光线射线上进行采样得到；将所述目标视角输入训练好的神经辐射场，获取所述多个样本点中各个样本点对应的颜色信息和透明度信息，其中，所述训练好的神经辐射场通过如上述的神经辐射场的训练方法对初始神经辐射场进行训练获得；根据所述各个样本点对应的所述颜色信息和所述透明度信息进行体积渲染，获取所述目标视角对应的目标场景图像。

根据本申请实施例的又一方面，提供了一种神经辐射场的训练装置，所述装置包括：获取模块，用于获取N张全景影像，其中，所述N张全景影像为对同一目标场景进行N个视角拍摄得到的，N为正整数，N≥3；第一确定模块，用于确定M个样本点，其中，所述M个样本点中第i个样本点的坐标为，且满足/>，M、i均为正整数，M≥1，i≤M；第二确定模块，用于确定所述M个样本点与所述N张全景影像中的每张全景影像对应的M条样本射线；第三确定模块，用于根据所述M个样本点的坐标，确定所述每张全景影像中，所述M条样本射线中每条样本射线对应的真实颜色值；训练模块，用于将标注有真实颜色值的N张全景影像作为训练数据对初始神经辐射场进行训练，得到训练好的神经辐射场。

根据本申请实施例的又一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上述的神经辐射场的训练方法的操作和/或如上述的获取目标场景图像的方法的操作。

根据本申请实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有可执行指令，所述可执行指令使电子设备执行如上述的神经辐射场的训练方法的操作和/或如上述的获取目标场景图像的方法的操作。

本申请实施例中，通过利用全景影像作为神经辐射场的训练数据，由于全景影像具有360°环视视野，属于同时对多个视角进行拍摄成像，相较于普通的透视影像，利用数量更少的全景影像即可覆盖整个目标场景，从而有效地减少了神经辐射场的训练数据的数据量，也就提升了神经辐射场的训练效率。

上述说明仅是本申请实施例技术方案的概述，为了能够更清楚了解本申请实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本申请实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

附图仅用于示出实施方式，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的神经辐射场的训练方法的流程示意图；

图2示出了本申请实施例提供的球面全景影像与等矩形全景影像间的关系示意图；

图3示出了本申请实施例提供的在全景影像的等矩形投影平面均匀采样和在球面均匀采样的结果示意图；

图4示出了图1中步骤140的子步骤流程示意图；

图5示出了本申请实施例提供的获取目标场景图像的方法的流程示意图；

图6示出了本申请实施例提供的神经辐射场的训练装置的结构示意图；

图7示出了本申请实施例提供的获取目标场景图像装置的结构示意图；

图8示出了本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。

首先，对本申请实施例中涉及的名词术语进行解释。

辐射场(Radiance Field)，描述了光的传播行为。在三维空间中，对于任意一条光线(即起点和方向)，场景中的每个点都可以计算出该光线在该点的辐射度。对于每个点，辐射场可以用一个颜色值和一个辐射度值来表示。颜色值指的是该点的表面颜色，而辐射度值指的是该点在光照下的明暗程度。通过在整个三维场景中计算光线的辐射度，可以生成高质量的渲染图像。

神经辐射场，是一种计算机视觉技术，用于生成高质量的三维重建模型。它利用深度学习技术从多个视角的图像中提取出对象的几何形状和纹理信息，然后使用这些信息生成一个连续的三维辐射场，从而可以在任意角度和距离下呈现出高度逼真的三维模型。NeRF技术在计算机图形学、虚拟现实、增强现实等领域有着广泛的应用前景。

辐射场的概念被扩展为在三维空间中对于任意一条光线，计算场景中的每个点在该光线方向上的颜色和密度。因此，NeRF的辐射场可以用来表示三维场景中的物体表面颜色和密度信息。利用这些信息，可以在任意角度和距离下呈现出高度逼真的三维模型。

体积渲染(Volume Rendering)，或称为体渲染，是一种将3D数据转换成可视化图像的技术。在3D数据中，每个像素不仅包含颜色信息，还包含了各种物理量信息，如密度、温度、速度等。体积渲染技术可以将这些物理量信息可视化出来，使得人们可以更好地理解和分析3D数据。

神经辐射场预测三维空间中每个点在不同视角下的颜色和不透明度，然后通过体渲染融合可见点的颜色和不透明度，以获取对应视点的像素颜色值，从而对三维场景进行隐式重建。神经辐射场通常由多个线性层和激活函数串联组成，每个线性层的参数包括权重参数和偏置参数，在训练优化神经辐射场之前，各线性层的权重参数和偏置参数通常使用随机数值进行初始化。神经辐射场F的输入包括三维点坐标和观测视角三维单位向量/>，其中，/>表示该观测视角三维单位向量在x轴的数值，/>表示该观测视角三维单位向量在y轴的数值，/>表示该观测视角三维单位向量在z轴的数值，输出为该三维点的颜色/>和透明度/>，此过程记为/>。

本申请发明人在研究中发现，目前对神经辐射场进行训练的方法，主要是利用可视角度较低的透视影像作为训练数据，这种训练方法需要拍摄大量透视影像才能覆盖整个待重建场景，即训练的数据量较大，也就导致对神经辐射场的训练效率较低。

基于以上考虑，为了提高对神经辐射场的训练效率，本申请提出了一种神经辐射场的训练方法，该方法通过获取多张全景影像，在单位球面上采样并获得多个三维点的坐标，进而确定这些三维点的坐标在全景影像中对应的真实颜色值，并利用这些三维点对应的真实颜色值作为训练数据，对初始神经辐射场进行迭代训练，从而得到训练好的神经辐射场。其中，全景影像相比于普通的透视影像，全景影像具有360°环视视野，属于同时对多个视角进行拍摄成像，从而可以利用数量更少的全景影像即可覆盖整个三维场景。因此，通过利用全景影像作为训练数据，相较于普通的透视影像，在不影响训练效果的前提下，有效地减少了全景影像的数量，也即减少了训练的数据量，从而提高了训练效率。

图1示出了本申请实施例提供的神经辐射场的训练方法的流程示意图，该方法由终端设备执行，该终端设备可以是包括一个或多个处理器的终端设备，该处理器可能是中央处理器CPU，或者是特定集成电路（Application Specific Integrated Circuit，ASIC），或者是被配置成实施本发明实施例的一个或多个集成电路，在此不做限定。终端设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC，在此不做限定。如图1所示，该方法包括以下步骤：

步骤110：获取N张全景影像，其中，N张全景影像为对同一目标场景进行N个视角拍摄得到的，N为正整数，N≥3。

其中，相比于普通的透视影像，全景影像具有360°环视视野，属于同时对多个视角进行拍摄成像，从而可以利用数量更少的全景影像即可覆盖整个目标场景。目标场景是指目标三维场景，例如，目标雕像等。由于目标场景是三维场景，若只通过一个视角观测目标场景，则只能获得该目标场景的局部信息，无法获取该目标场景的全部信息，即无法覆盖整个目标场景，也就无法对该目标场景进行三维重建。

因此，本步骤中，通过获取N张全景影像，且N张全景影像是对目标场景进行N个视角拍摄得到的，也即通过N个不同视角对同一目标场景进行观测，则可以获得该目标场景的更多信息，进而利用N张全景影像对神经辐射场进行训练后，即可完成对该目标场景的隐式三维重建，从而可以利用训练后的神经辐射场获得该目标场景的新视角的图像。其中，N可以根据需要设置，例如，N为3、100、200等，N越大，则样本数量越多，获得的训练好的神经辐射场的准确度越高。

全景影像最理想的投影方式为球面，但是由于球面无法直接保存。因此，本步骤中获得的全景影像是使用等矩形投影保存的，即将球面投影到二维平面。此处为了更好地介绍球面全景影像与等矩形全景影像间的关系，图2示出了本申请实施例提供的球面全景影像与等矩形全景影像间的关系示意图。如图2所示，为一个三维坐标系，全景影像/>对应的球面上一点/>的经纬度坐标为/>，从而能够通过等距形投影转换为平面影像/>的像素点/>的像素坐标为：

，（1）

其中，W和H分别为平面影像的宽度和高度，π为圆周率。

步骤120：确定M个样本点，其中，M个样本点中第i个样本点的坐标为，且满足/>，M、i均为正整数，M≥2，i≤M。

其中，M个样本点为在单位球面上采样得到的，M可以根据需要设置，例如，2、4、1024等，M越大，则样本数量越多，获得的训练好的神经辐射场的准确度越高。为了对初始神经辐射场进行训练，本申请实施例中需要确定全景影像中对应的光线射线的颜色值，以确定神经辐射场的训练数据。然而，由于步骤110获得的全景影像是通过等矩形投影保存的，因此，通过在球面上采样样本点，进而将球面上的样本点坐标转换为经纬度坐标，即可根据（1）式获得全景影像中该样本点对应的颜色值。

具体地，为了能确保采样到的样本点是单位球面上的点，由于单位球面上任意一点的三维坐标，均满足/>，因此，可以先在[-1，1]的范围内确定样本点的坐标值/>和/>，且满足/>，进而通过，即可确定坐标/>，从而也就确保了确定的样本点属于单位球面上的点。

步骤130：确定M个样本点与N张全景影像中的每张全景影像对应的M条样本射线。

具体地，对于N张全景影像中的第一张全景影像，分别确定M个样本点与该第一张全景影像对应的样本射线，获得M条对应的样本射线；对于N张全景影像中的第二张全景影像，确定M个样本点与该第二张全景影像对应的样本射线，获得M条对应的样本射线，以此类推……，直至确定M个样本点与所有的全景影像对应的样本射线。

其中，由于M个样本点中各个样本点的坐标不同，因此，可以根据样本点的坐标和全景影像的位姿，确定样本点与全景影像对应的样本射线的方向和起点，确定样本射线的方向和起点后，也就确定了样本射线。

步骤140：根据M个样本点的坐标，确定每张全景影像中，M条样本射线中每条样本射线对应的真实颜色值。

其中，通过步骤130确定每张全景影像对应的M条样本射线后，本步骤中，根据样本点的坐标，确定在全景影像中样本射线对应的真实颜色值，从而作为神经辐射场的训练数据。

步骤150：将标注有真实颜色值的N张全景影像作为训练数据对初始神经辐射场进行训练，得到训练好的神经辐射场。

其中，由于步骤140中确定了每张全景影像中每条样本射线对应的真实颜色值，也就获得了标注有真实颜色值的全景影像。初始设神经辐射场是指预先构建的未训练过的神经辐射场，其由多个线性层和激活函数串联组成。本申请实施例中，优选地，初始神经辐射场的网络结构由8个宽度为256的线性层连接构成，其中，每个线性层的参数包括权重参数w和偏置参数b，在训练神经辐射场前，权重参数w和偏置参数b可以使用随机数值进行初始化。

神经辐射场F的输入包括三维点坐标和观测视角三维单位向量，其中，/>表示该观测视角三维单位向量在x轴的数值，/>表示该观测视角三维单位向量在y轴的数值，/>表示该观测视角三维单位向量在z轴的数值，输出为该三维点的颜色/>和透明度/>，此过程记为/>。

具体地，神经辐射场的第一层的计算公式为：

，（2）

其中，h₁为第一层的输出，w₁和b₁分别为第一层的待训练并优化的权重参数和偏置参数。

神经辐射场网络的中间第j层的输入输出计算公式为

，（3）

其中，h_j-1为第j-1层的输出，w_j和b_j分别为第j层的待训练并优化的权重参数和偏置参数。

神经辐射场网络的最后一层，即第八层的计算公式为：

，（4）

其中，w₈和b₈分别均为第八层的待训练并优化的权重参数和偏置参数。

在神经辐射场F中，通过体渲染获取一个像素点的颜色值。具体地，对于给定的一条光线射线，其中，/>为光线射线上距离起点t的三维点，为光线射线的起点，/>是光线射线方向的单位向量，其中，/>表示该单位向量在x轴的数值，/>表示该单位向量在y轴的数值，/>表示该单位向量在z轴的数值，t是光线射线穿过的范围。在实际应用中，光线射线r的起点和方向由渲染位置和朝向决定，t则根据重建场景的大小决定，包括最近距离/>和最远距离/>。神经辐射场F预测r对应的像素点的颜色值的公式为：

，（5）

其中，为便于下文介绍，将上述（5）式简记为，，/>表示射线上一点/>的透明度。如前文介绍，向神经辐射场F输入三维点p的坐标和观测视角单位单位向量d，神经辐射场F输出该三维点的颜色/>和透明度/>，此过程记为/>，因此，（5）式中的/>的含义和/>的含义相同。

在对初始神经辐射场进行迭代训练时，每次训练中通过将训练数据输入至神经辐射场后，神经辐射场会输出相应的预测颜色值，其中，该预测颜色值与训练数据中真实颜色值对应，也即对于每个真实颜色值，通过神经辐射场都会获得相应的预测颜色值，从而可以通过预测颜色值和真实颜色值的差值计算损失值，进而根据损失值优化神经辐射场的权重参数和偏置参数，以完成本次对神经辐射场的训练，通过对神经辐射场进行迭代训练，最终获得训练好的神经辐射场。

对于步骤140中获得的每张全景影像中每条样本射线对应的真实颜色值，由于每个样本点的坐标不同、每张全景影像的位姿不同，那么每条射线具有不同的方向，因此步骤140也就获得了从多个不同视角观看目标场景时，不同视角对应的目标场景的颜色信息。因此，本步骤中，利用标注有真实颜色值的N张全景影像作为训练数据对初始神经辐射场进行训练，也就是对目标场景进行隐式三维重建，进而即可利用获得的训练好的神经辐射场，获取该目标场景的新视角图像。

值得说明的是，对神经辐射场进行训练以获得训练好的神经辐射场，可以是预先设定训练次数，比如预先设定200000次，对初始神经辐射场进行迭代训练200000次，并将最后一次训练获得的神经辐射场作为训练好的神经辐射场；也可以是对初始神经辐射场进行迭代训练200000次，每次训练均根据真实颜色值和对应的预测颜色值计算损失值，即200000次迭代训练后共获得200000个损失值，从200000个损失值中确定最小值，并将该最小值对应的那次训练获得的神经辐射场作为训练好的神经辐射场。

为了提高对初始神经辐射场的训练效果，本申请实施例提供了一种确定M个样本点的方式。在图1提供的实施例的基础上，本申请实施例中，步骤120包括：在单位球表面进行均匀采样，以确定M个样本点。

由于全景影像使用等矩形投影保存，会存在几何畸变，因此若直接在二维平面上进行采样并获得样本射线，会导致获得的样本射线在三维空间中分布不均匀，而通过在球面均匀采样，即可抵抗由于几何畸变产生的干扰。

具体地，若确定的M个样本点不是均匀分布在单位球表面，也即在球面的某些区域会出现样本点聚集的情况，而基于不均匀采样得到的样本点确定训练数据并对神经辐射场进行训练时，由于聚集区域的样本点密度更大，相应地基于聚集区域确定的训练数据多于其他区域的训练数据，则会出现神经辐射场更容易受到聚集区域的样本点的影响，导致神经辐射场的训练效果下降。而正常情况下，应是所有区域的样本点对神经辐射场产生同等的影响。

此处为了更好地介绍直接在全景影像的等矩形投影平面采样和在球面均匀采样的效果，图3示出了本申请实施例提供的在全景影像的等矩形投影平面均匀采样和在球面均匀采样的结果示意图。如图3中（a）所示，若直接在全景影像的等矩形投影平面均匀采样，则会出现采样获得的样本点在球面的极点区域（即图中的上下两端区域）和中间区域分布不均匀的情况，即采样获得的样本点在极点区域出现聚集的情况，若根据这些分布不均匀的样本点确定神经辐射场的训练数据，并对神经辐射场进行训练，则会出现神经辐射场受到极点区域的样本点的影响更大的情况，从而降低了获得的训练好的神经辐射场的准确度。

本申请实施例中，如图3中（b）所示，通过在单位球表面均匀采样，则获得的样本点在球面上是均匀分布的，不会出现在获得的样本点在极点区域出现聚集的现象。也就是说，通过利用本申请实施提供的采样方式获得的样本点来确定训练数据，利用训练数据对神经辐射场进行训练时，不同区域的样本点对神经辐射场的影响程度是相同的，不会出现神经辐射场受到某个区域的样本点的影响程度更大的情况，从而提高了神经辐射场的训练效果，获得的训练好的神经辐射场的准确度更高。

本申请实施例提供了一种如何确定M条样本射线的方式。在图1提供的实施例的基础上，本申请实施例中，步骤130包括：

步骤a1：获取N张全景影像中第j张全景影像的位姿，其中，/>为旋转矩阵，/>为平移向量，j为正整数，j≤N。

其中，对于由于N张全景影像是对同一个目标场景进行N个视角拍摄得到的，因此，这N张全景影像的位姿是不同的。

步骤a2：确定M个样本点中第i个样本点与第j张全景影像对应的样本射线的方向，起点/>。

由于确定射线的方向和起点后，即可确定一条射线，因此，本申请实施例中，通过根据样本点的坐标和全景影像的位姿，确定样本射线的方向和起点后，也就确定了样本射线。由于M个样本点的坐标是不同的，因此，本申请实施例中，获取全景影像的位姿后，即可根据M个样本点的坐标确定每张全景影像中对应的不同的M条样本射线。总的来说，由于M个样本点的坐标不同、N张全景影像的位姿不同，因此，即可根据M个样本点和N张全景影像确定条不同的样本射线。

并且，由于通常是通过运动推断结构(structure from motion，SFM)技术来获取全景影像的位姿的，然而通过该技术获得的全景影像的位姿往往会具有噪声，因此，本申请实施例中，由于是根据全景影像的位姿来确定样本射线的，则利用（5）式获得的神经辐射场输出的预测颜色值与全景影像的位姿相关，因此，在利用真实颜色值和对应的预测颜色值优化神经辐射场的参数时，也优化了全景影像的位姿，从而进一步提高了获得的训练好的神经辐射场的准确度。

为了提高获得M条样本射线对应的真实颜色的准确度，本申请实施例提供了一种确定M条样本射线对应的真实颜色值的方式。图4示出了图1中步骤140的子步骤流程图。如图4所示，步骤140进一步包括：

步骤141：针对N张全景影像中第j张全景影像，M个样本点中，判断第i个样本点的坐标中是否包括小数，其中，j为正整数，j≤N。若是，则转至步骤142；若否，则转至步骤143。

其中，正如前文介绍，由于本申请实施例中的N张全景影像是用等矩形投影保存的，对于单位球面上点，/>、/>、/>分别为该三维点u的x轴坐标、y轴坐标、z轴坐标，能够通过下列的（6）式和（7）式转换为对应的经纬度坐标/>：

，（6）

，（7）

若全景影像对应的球面上一点u的经纬度坐标为，则能够通过等矩形投影转换为平面影像的像素点坐标/>，其中，W和H分别为平面影像的宽度和高度。因此，对于步骤120中确定的单位球面上的样本点，可以根据各个样本点的坐标，确定每张全景影像中各个样本点对应的像素点的颜色值。

但是，对于步骤120确定的样本点，有可能出现确定的样本点的坐标包括小数的情况，而由于像素点的坐标是整数的，若样本点的坐标包括小数，则无法直接从全景影像中获取该样本点对应的像素点颜色值，因此，本步骤中需要先判断M个样本点中各个样本点的坐标是否包括小数，对于坐标包括小数的样本点，则需通过其他方式获取全景影像中该样本点对应的像素点的颜色值。

步骤142：通过双线性插值方式，确定该第j张全景影像中该第i个样本点对应的像素点的真实颜色值。

本步骤中，对于坐标包括小数的样本点，通过双线性插值方式确定该样本点在各张全景影像中对应的像素点的真实颜色值。

步骤143：获取在该第j张全景影像中该第i个样本点对应的像素点的真实颜色值。

本步骤中，对于坐标为整数的样本点，根据（6）式和（7）式则将样本点的三维坐标转换为经纬度坐标，进而即可根据（1）式将经纬度坐标转换为对应的全景影像中的像素点的坐标，从而也就可以直接从全景影像中获取该像素点的真实颜色值。

步骤144：将在该第j张全景影像中该第i个样本点对应的像素点的真实颜色值，作为在该第j张全景影像中该第i个样本点对应的样本射线对应的真实颜色值。

其中，根据步骤142和步骤143，确定M个样本点中的每个样本点，在N张全景影像中的每张全景影像对应的像素点的颜色值后，由于该样本点属于对应的样本射线上的点，因此，本步骤中将确定的样本点对应的像素点的真实颜色，作为对应的样本射线的真实颜色。

本申请实施例中，充分考虑到确定的样本点的坐标可能出现小数的情况，因此，通过先判断步骤120确定的样本点的坐标是否包括小数，进而根据判断结果确定全景影像中各个样本点对应的真实颜色值，而不是任意地确定全景影像中样本点对应的真实颜色值，从而提高了获得的样本点对应的真实颜色值的准确度。并且，由于样本点属于对应的样本射线上的点，因此，本申请实施例中，通过将样本点对应的真实颜色值，作为该样本点对应的样本射线的真实颜色值，而不是将样本射线对应的真实颜色值确定为任意的一个数值，从而提高了确定的样本射线对应的真实颜色值的准确度。

为了提高获得的训练好的神经辐射场的准确度，在图1提供的实施例的基础上，本申请实施例中，将标注有真实颜色值的N张全景影像作为训练数据对初始神经辐射场进行训练，包括：将标注有真实颜色值的N张全景影像作为每次训练的数据，对初始神经辐射场进行迭代训练。

本申请实施例中，由于每次训练时都将标注有真实颜色值的所有的全景影像作为训练数据，对初始神经辐射场进行迭代训练，因此每次对神经辐射场进行训练时，训练的数据量较多，从而提高了获得的训练好的神经辐射场的准确度。

为了进一步提高对初始神经辐射场的训练效率，本申请实施例提供了一种如何利用标注有真实颜色值的N张全景影像作为训练数据，对初始神经辐射场进行训练的方式。在图1提供的实施例的基础上，本申请实施例中，步骤150包括：

步骤b1：从标注有真实颜色的N张全景影像中选择n张全景影像作为训练数据，对上一次训练后的神经辐射场进行训练，得到本次训练后的神经辐射场，其中，若第一次对神经辐射场进行训练，则上一次训练后的神经辐射场为初始神经辐射场，n为正整数，1≤n＜N。

其中，本步骤中，每次对神经辐射场进行训练前，先从标注有真实颜色的N张全景影像中随机选择n张全景影像作为训练数据，并对上一次训练后的神经辐射场进行训练。其中，n可以根据需要设置。例如，n为1、2、3等，n越大，则样本数量越多，获得的训练好的神经辐射场的准确度越高。为了进一步提升神经辐射场的训练效率，本申请实施例中，优选地，n为1。

步骤b2：重复执行上述步骤，直至对初始神经辐射场进行多次迭代训练，以获得训练好的神经辐射场。

其中，可以预先设定迭代训练的次数，例如，1000次、2000次等。为了提高获得的训练好的神经辐射场的准确度，本申请实施例中，优选地，训练次数设置为200000次，重复执行上述步骤200000次，即对初始神经辐射场完成200000次的迭代训练。

本申请实施例中，通过设置对初始辐射场进行多次迭代训练，而每次训练的训练数据为从标注有真实颜色的N张全景影像中选择n张全景影像，而不是选择全部的标注有真实颜色的N张全景影像作为每次训练的训练数据，有效地减少了每次训练的训练数据，也就提高了神经辐射场的训练效率。并且，由于本申请实施例中，是通过对初始神经辐射场进行多次迭代训练，以获得训练好的神经辐射场的，而不是只对初始神经辐射场进行一次训练，因此，即使每次训练的训练数据只是n张标注有真实颜色的全景影像，也不会严重影响初始神经辐射场的训练效果，也即不会大幅降低获得的训练好的神经辐射场的准确度。

为了提高获得的训练好的神经辐射场的准确度，本申请实施例提供了一种如何优化神经辐射场的参数的方式。在前述实施例的基础上，本申请实施例中，步骤b1包括：

步骤b11：从标注有真实颜色的N张全景影像中选择n张全景影像作为训练数据。

步骤b12：将训练数据输入上一次训练后的神经辐射场，获得预测颜色值，其中，预测颜色值/>与训练数据中的真实颜色值C对应。

其中，步骤b11~步骤b12与步骤b1类似，因此，步骤b11~步骤b12的具体实现方式可参考步骤b1。

本步骤中，由于在每张全景影像中，M个样本点对应有M条样本射线，也就有M条样本射线的真实颜色值，因此，对于作为训练数据的每张标注有真实颜色值的全景影像，将其输入至神经辐射场后，会相应获得神经辐射场输出的M个预测颜色值，其中，M个预测颜色值与M条样本射线的真实颜色值一一对应。例如，若n为2，则将两张标注有真实颜色值的全景影像作为训练数据，输入至神经辐射场后，训练数据包括条样本射线对应的真实颜色值，因此相应获得神经辐射场输出的这/>条样本射线对应的预测颜色值。

步骤b13：根据训练数据中的真实颜色值C和对应的预测颜色值，计算损失值，其中，损失值与/>成正相关。

其中，神经辐射场输出的预测颜色值与对应的真实颜色值的差距越小，则说明神经辐射场的准确度越高。因此，本步骤中，通过根据预测颜色值和对应的真实颜色的差值计算损失值，即可利用该损失值表示神经辐射场的准确度。具体地，在计算损失值时，可以计算全部的预测颜色值和对应的真实颜色值的差值的绝对值后，再将所有的绝对值相加，即可得到损失值；或者计算全部的预测颜色值和对应的真实颜色值的差值，并计算各个差值的平方值，再将所有的平方值相加，即可得到损失值。

步骤b14：根据损失值优化上一次训练后的神经辐射场的权重参数和偏置参数，得到本次训练后的神经辐射场。

其中，由于损失值表示神经辐射场的准确度，对初始神经辐射场进行迭代训练的目的是最小化损失值，从而完成隐式重建目标场景，因此，本步骤中通过根据损失值优化神经辐射场的权重参数和偏置参数，以使损失值逐渐减小。

本申请实施例中，通过根据神经辐射场输出的预测颜色值与对应的真实颜色值的差值计算损失值，进而根据损失值优化上一次训练后的神经辐射场的参数，以获得本次训练后的神经辐射场，相较于每次训练时随机调整神经辐射场的参数的方式，可以更准确地优化神经辐射场的参数，从而提高获得的训练好的神经辐射场的准确度。

为了进一步提高获得的训练好的神经辐射场的准确度，本申请实施例中，每次对神经辐射场进行训练时，均利用标注有真实颜色值的N张全景影像作为训练数据，对神经辐射场进行迭代训练。具体地，本申请实施例中，表示全景影像/>上随机射线/>对应的真实颜色值，/>为对应神经辐射场输出的预测颜色值，则损失值loss为：

，（8）

其中，j、k均为正整数，根据前述的神经辐射场的体渲染（5）式，（8）式可以进一步展开为：

，（9）

其中，由于（5）式简记为，（9）式中/>含义与/>含义相同。

再根据前述的M个样本点中第k个样本点与第j张全景影像对应的样本射线的方向，起点/>，（9）式可以进一步展开为：

，（10）

其中，（10）式中，含义与/>含义相同，/>为，/>为该射线对应的样本点在单位球面上的三维坐标。

因此，即可通过对神经辐射场F最小化loss来隐式重建目标场景。如下式所示：

，（11）

由此可知，在最小化loss时，待学习参数包括全景相机的外参数和/>，以及神经辐射场F的待优化参数，其中，该全景相机为对目标场景进行拍摄以获得全景影像的相机。因此，在最小化loss以完成对神经辐射场的训练时，同时对全景影像的位姿进行了优化。正如前文介绍，通过SFM技术来获取全景影像的位姿的，然而通过该技术获得的全景影像的位姿往往会具有噪声，因此，而（11）式中包括全景影像的位姿/>，因此最小化loss时，也同步优化了全景影像的位姿，从而进一步提高了获得的训练好的神经辐射场的准确度。

需要说明的是，上述（8）式~（11）式为本申请实例利用标注用真实颜色值的N张全景影像作为训练数据，对神经辐射场进行一次训练所确定的损失值loss，通过对初始神经辐射场进行多次迭代训练，即可实现损失值loss最小化。

然而随着全景影像数量和样本点数量的提高，（8）式~（11）式的计算复杂度会指数级提升，难以直接进行优化，因此，在一些实施例中，通常通过迭代优化方式进行求解，即在每次迭代过程中，从标注有真实颜色值的N张全景影像中随机选择一张全景影像，并确定m个样本点，然后参照前述实施例对全景影像/>的位姿/>，以及神经辐射场F的参数进行优化，最小化loss的公式如下：

，（12）

其中，本申请实施例中，为了确保获得的训练好的神经辐射场的准确度，对神经辐射场进行迭代训练的次数为200000次，m为1024，且迭代优化使用适应性矩估计算法。

图5示出了本申请实施例提供的获取目标场景图像的方法的流程图，该方法由终端设备执行，该终端设备可以是包括一个或多个处理器的终端设备，该处理器可能是中央处理器CPU，或者是特定集成电路（Application Specific Integrated Circuit，ASIC），或者是被配置成实施本发明实施例的一个或多个集成电路，在此不做限定。终端设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC，在此不做限定。如图5所示，该方法包括以下步骤：

步骤210：获取观看目标场景的目标视角，其中，目标视角对应有多个样本点，多个样本点为在目标视角对应的多条光线射线上进行采样得到。

其中，本步骤中目标场景与图1提供的实施例中的目标场景为同一个三维场景。目标视角对应有多条不同方向的光线射线，每条光线射线对应有多个样本点。

步骤220：将目标视角输入训练好的神经辐射场，获取多个样本点中各个样本点对应的颜色信息和透明度信息，其中，训练好的神经辐射场通过神经辐射场的训练方法对初始神经辐射场进行训练获得。

其中，本步骤中训练好的神经辐射场，是指图1提供的实施例中获得的训练好的神经辐射场。

步骤230：根据各个样本点对应的颜色信息和透明度信息进行体积渲染，获取目标视角对应的目标场景图像。

其中，正如前文介绍，利用目标场景的真实颜色值对初始神经辐射场进行训练后，即可通过训练好的神经辐射场获得目标场景的新视角图像。

图6示出了本申请实施例提供的神经辐射场的训练装置的结构示意图。如图6所示，该神经辐射场的训练装置300包括获取模块301、第一确定模块302、第二确定模块303、第三确定模块304和训练模块305。其中，获取模块301用于获取N张全景影像，其中，N张全景影像为对同一目标场景进行N个视角拍摄得到的，N为正整数，N≥3。第一确定模块302用于确定M个样本点，其中，M个样本点中第i个样本点的坐标为，且满足，M、i均为正整数，M≥2，i≤M。第二确定模块303用于确定M个样本点与N张全景影像中的每张全景影像对应的M条样本射线。第三确定模块304用于根据M个样本点的坐标，确定每张全景影像中，M条样本射线中每条样本射线对应的真实颜色值。训练模块305用于将标注有真实颜色值的N张全景影像作为训练数据对初始神经辐射场进行训练，得到训练好的神经辐射场。

本实施例提供的神经辐射场的训练装置，用于执行前述方法实施例中的神经辐射场的训练方法的技术方案，其实现原理和技术效果类似，在此不再赘述。

值得说明的是，本实施例提供的神经辐射场的训练装置，还可以执行上述用于神经辐射场的训练方法任一实施例中的相关步骤。

图7示出了本申请实施例提供的获取目标场景图像装置的结构示意图。如图7所示，该获取目标场景图像装置400包括第一获取模块401、第二获取模块402和第三获取模块403。其中，第一获取模块401用于获取观看目标场景的目标视角，其中，目标视角对应有多个样本点，多个样本点为在目标视角对应的多条光线射线上进行采样得到。第二获取模块402用于将目标视角输入训练好的神经辐射场，获取多个样本点中各个样本点对应的颜色信息和透明度信息，其中，训练好的神经辐射场通过前述方法实施例中的神经辐射场的训练方法的技术方案，对初始神经辐射场进行训练获得。第三获取模块403用于根据各个样本点对应的颜色信息和透明度信息进行体积渲染，获取目标视角对应的目标场景图像。

本实施例提供的获取目标场景图像装置，用于执行前述方法实施例中的获取目标场景图像的方法的技术方案，其实现原理和技术效果类似，在此不再赘述。

图8示出了本申请实施例提供的电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。如图8所示，该电子设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。处理器502，用于执行程序510，具体可以执行上述神经辐射场的训练方法实施例中的相关步骤，和/或上述获取目标场景图像的方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机可执行指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存储程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

本申请实施例提供了一种计算机可读存储介质，该存储介质存储有可执行指令，该可执行指令在电子设备上运行时，使得电子设备执行上述任意方法实施例中的神经辐射场的训练方法和/或上述方法实施例中的获取目标场景图像的方法。

Claims

1.一种神经辐射场的训练方法，其特征在于，所述方法包括：

获取N张全景影像，其中，所述N张全景影像为对同一目标场景进行N个视角拍摄得到的，N为正整数，N≥3；

确定M个样本点，其中，所述M个样本点中第i个样本点的坐标为，且满足，M、i均为正整数，M≥2，i≤M；

确定所述M个样本点与所述N张全景影像中的每张全景影像对应的M条样本射线；

根据所述M个样本点的坐标，确定所述每张全景影像中，所述M条样本射线中每条样本射线对应的真实颜色值；

将标注有真实颜色值的N张全景影像作为训练数据对初始神经辐射场进行训练，得到训练好的神经辐射场；

其中，所述确定M个样本点，包括：

在单位球表面进行均匀采样，以确定所述M个样本点。

2.根据权利要求1所述的方法，其特征在于，所述确定所述M个样本点与所述N张全景影像中的每张全景影像对应的M条样本射线，包括：

获取所述N张全景影像中第j张全景影像的位姿，其中，/>为旋转矩阵，/>为平移向量，j为正整数，j≤N；

确定所述M个样本点中第i个样本点与第j张全景影像对应的样本射线的方向，起点/>。

3.根据权利要求1所述的方法，其特征在于，所述根据所述M个样本点的坐标，确定所述每张全景影像中，所述M条样本射线中每条样本射线对应的真实颜色值，包括：

针对所述N张全景影像中第j张全景影像，所述M个样本点中：

若第i个样本点的坐标中包括小数，则通过双线性插值方式，确定该第j张全景影像中该第i个样本点对应的像素点的真实颜色值，其中，j为正整数，j≤N；

若该第i个样本点的坐标均为整数，则获取在该第j张全景影像中该第i个样本点对应的像素点的真实颜色值；

将在该第j张全景影像中该第i个样本点对应的像素点的真实颜色值，作为在该第j张全景影像中该第i个样本点对应的样本射线对应的真实颜色值。

4.根据权利要求1所述的方法，其特征在于，所述将标注有真实颜色值的N张全景影像作为训练数据对初始神经辐射场进行训练，得到训练好的神经辐射场，包括：

从标注有真实颜色的N张全景影像中选择n张全景影像作为训练数据，对上一次训练后的神经辐射场进行训练，得到本次训练后的神经辐射场，其中，若第一次对神经辐射场进行训练，则所述上一次训练后的神经辐射场为所述初始神经辐射场，n为正整数，1≤n＜N；

重复执行上述步骤，直至对所述初始神经辐射场进行多次迭代训练，以获得所述训练好的神经辐射场。

5.根据权利要求4所述的方法，其特征在于，所述从标注有真实颜色的N张全景影像中选择n张全景影像作为训练数据，对上一次训练后的神经辐射场进行训练，得到本次训练后的神经辐射场，包括：

从标注有真实颜色的N张全景影像中选择n张全景影像作为训练数据；

将所述训练数据输入所述上一次训练后的神经辐射场，获得预测颜色值，其中，所述预测颜色值/>与所述训练数据中的真实颜色值C对应；

根据所述训练数据中的真实颜色值C和对应的预测颜色值，计算损失值，其中，所述损失值与/>成正相关；

根据所述损失值优化所述上一次训练后的神经辐射场的权重参数和偏置参数，得到所述本次训练后的神经辐射场。

6.一种获取目标场景图像的方法，其特征在于，所述方法包括：

获取观看目标场景的目标视角，其中，所述目标视角对应有多个样本点，所述多个样本点为在所述目标视角对应的多条光线射线上进行采样得到；

将所述目标视角输入训练好的神经辐射场，获取所述多个样本点中各个样本点对应的颜色信息和透明度信息，其中，所述训练好的神经辐射场通过权利要求1-5中任一项所述的方法对初始神经辐射场进行训练获得；

根据所述各个样本点对应的所述颜色信息和所述透明度信息进行体积渲染，获取所述目标视角对应的目标场景图像。

7.一种神经辐射场的训练装置，其特征在于，所述装置包括：

获取模块，用于获取N张全景影像，其中，所述N张全景影像为对同一目标场景进行N个视角拍摄得到的，N为正整数，N≥3；

第一确定模块，用于确定M个样本点，其中，所述M个样本点中第i个样本点的坐标为，且满足/>，M、i均为正整数，M≥1，i≤M，还用于在单位球表面进行均匀采样，以确定所述M个样本点；

第二确定模块，用于确定所述M个样本点与所述N张全景影像中的每张全景影像对应的M条样本射线；

第三确定模块，用于根据所述M个样本点的坐标，确定所述每张全景影像中，所述M条样本射线中每条样本射线对应的真实颜色值；

训练模块，用于将标注有真实颜色值的N张全景影像作为训练数据对初始神经辐射场进行训练，得到训练好的神经辐射场。

8.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存储可执行指令，所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的神经辐射场的训练方法的操作和/或权利要求6所述的获取目标场景图像的方法的操作。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有可执行指令，所述可执行指令在神经辐射场的训练设备上运行时，使得神经辐射场的训练设备执行如权利要求1-5中任一项所述的神经辐射场的训练方法和/或权利要求6所述的获取目标场景图像的方法。