CN116452758B

CN116452758B - 一种神经辐射场模型加速训练方法、装置、设备及介质

Info

Publication number: CN116452758B
Application number: CN202310728864.4A
Authority: CN
Inventors: 蒋敏超
Original assignee: Qingyi Shanghai Intelligent Technology Co ltd
Current assignee: Qingyi Shanghai Intelligent Technology Co ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-10-20
Anticipated expiration: 2043-06-20
Also published as: CN116452758A

Abstract

本发明提供一种神经辐射场模型加速训练方法、装置、设备及介质，涉及计算机视觉技术领域。方法包括：通过相机对待渲染场景进行多视角的图像采集；根据采集到的图像获得相机位姿参数，并得到相对坐标系下图像的特征点云；计算特征点云中每个特征点与相机之间的距离，将该距离作为该特征点对应像素的伪深度值；采用体渲染的方法，分别得到预测的深度值和预测的像素颜色，根据预测的深度值与伪深度值计算深度损失，根据预测的像素颜色与图像的真实颜色计算颜色损失；将深度损失和颜色损失输入神经网络，反向传播，更新神经网络参数。本发明可提高神经辐射场模型的渲染速度，减少甚至消除神经辐射场建模中的漂浮物，提升场景重建的效果。

Description

一种神经辐射场模型加速训练方法、装置、设备及介质

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种神经辐射场模型加速训练方法、装置、设备及介质。

背景技术

神经辐射场(NeRF)是一种开创性的三维重建方法，不同于传统的通过点云、网格或者体素等显式重建方法，神经辐射场是一种使用神经网络隐函数隐态建模实现三维场景的方法，在已知一组相机位姿和拍摄图像的情况下，通过神经网络的训练来拟合在已知角度上的拍摄图像，使用体渲染得到像素的颜色，隐态进行三维场景的建模。

与常规建模方法相比，神经辐射场的优势如下：1.神经辐射场建模耗时与图像数目关系小；2.神经辐射场建模真实度高，和常规建模方法相比，神经辐射场可以对植被、半透明物体、反光物体、水面等进行真实的还原；3.神经辐射场建模不依赖于图像中的特征点，因此在特征点稀疏的局部场景中，常规建模方法可能会缺失物体的一些部分和形成毛刺边缘。

但是，原始的NeRF需要一周时间才能完成训练，而且渲染的速度也十分缓慢，重建的场景中部分质量也很差。英伟达(instant-NGP)将NeRF加速成可以实时渲染，并且训练时间缩短到只需要几分钟，但仍存在渲染开销大和重建场景中存在漂浮物的问题。

发明内容

鉴于神经辐射场收敛慢、存在漂浮物的问题，本申请实施例提供一种神经辐射场模型加速训练方法、装置、设备及介质，以达到提高神经辐射场模型的渲染速度，并且减少甚至消除神经辐射场建模中的漂浮物的目的。

本申请实施例提供以下技术方案：一种神经辐射场模型加速训练方法，包括：

通过相机对待渲染场景进行多视角的图像采集；

根据采集到的图像获得相机位姿参数，并得到相对坐标系下所述图像的特征点云；

在该相对坐标系下计算所述特征点云中每个特征点与相机之间的距离，将该距离作为该特征点对应像素的伪深度值；

采用体渲染的方法，分别得到预测的深度值和预测的像素颜色，根据所述预测的深度值与所述伪深度值计算深度损失，根据预测的像素颜色与所述图像的真实颜色计算颜色损失；

将所述深度损失和所述颜色损失构成损失函数后输入神经网络，通过反向传播，更新所述神经网络的参数，得到神经辐射场模型。

根据本申请一种实施例，还包括：

通过高斯分布对图像的像素点进行采样，控制采样率占整个图像的4-10%，并计算每个特征点覆盖下的像素深度的权重；

根据所述权重，对每个像素的所述伪深度值进行加权计算，得到每个像素的最终的伪深度值。

根据本申请一种实施例，计算每个特征点覆盖下的像素深度的权重，包括：

采用如下公式计算每个特征点覆盖下的像素深度的权重：

其中，为特征点的像素坐标，/>为采样像素点坐标中除特征点的像素坐标之外的剩余像素坐标，/>是一个特征点覆盖下的像素深度的权重；/>是缩放因子，用于确保所有特征点覆盖区域内的像素在整个图像中占据设定值，/>。

根据本申请一种实施例，对每个像素的所述伪深度值进行加权计算，得到每个像素的最终的伪深度值，包括：

采用如下公式，对每个像素的所述伪深度值进行加权计算，得到每个像素的最终的伪深度值：

其中，为覆盖像素的特征点的伪深度值，/>是像素的最终的伪深度值，/>是每个特征点覆盖下的像素深度的权重之和。

根据本申请一种实施例，采用体渲染的方法，分别得到预测的深度值和预测的像素颜色，包括：

根据相机位姿参数，在给定的像素点对应视角的相机射线上采样，获得采样点的位置坐标和视角方向；其中，将相机射线标记为r(t)= o+ td ，o为射线原点，d为视角方向，t为相机射线的长度；

将采样点的位置坐标向量和视角方向的坐标向量输入所述神经网络，输出预测的采样点的颜色和体密度/>，采用体渲染的方式，累计每个采样点的颜色和体密度，得到所述预测的像素颜色和所述预测的深度值。

根据本申请一种实施例，累计每个采样点的颜色和体密度，得到所述预测的像素颜色和所述预测的深度值，包括：

通过以下积分公式得到所述预测的像素颜色：

通过以下积分公式得到所述预测的深度值：

其中，

其中，i=(1,2,3...N)，表示第i个采样点j=(1,2,3...(i－1))，表示第j个采样点/>、分别表示两个采样点间的距离，/>，/>，/>表示相机到第i个采样点的距离，/>表示相机到第j个采样点的距离，/>表示相机到第i+1个采样点的距离，/>表示相机到第j+1个采样点的距离，/>表示第i个采样点的体密度，/>表示颜色，/>表示采样点i剩余的体密度，/>表示第j个采样点的体密度。

根据本申请一种实施例，根据所述预测的深度值与所述伪深度值/>计算深度损失，包括：

通过以下公式计算所述深度损失：

根据预测的像素颜色与真实图像的颜色/>计算颜色损失，包括：

通过以下公式计算所述颜色损失：

其中，G和R均表示光线集合；

将所述深度损失和所述颜色损失构成的所述损失函数为：

。

本申请还提供一种神经辐射场模型加速训练装置，包括：

图像采集模块，用于通过相机对待渲染场景进行多视角的图像采集；

特征提取模块，用于根据采集到的图像获得相机位姿参数，并得到相对坐标系下所述图像的特征点云；

伪深度值计算模块，用于在该相对坐标系下计算所述特征点云中每个特征点与相机之间的距离，将该距离作为该特征点对应像素的伪深度值；

损失计算模块，用于采用体渲染的方法，分别得到预测的深度值和预测的像素颜色，根据所述预测的深度值与所述伪深度值计算深度损失，根据预测的像素颜色与所述图像的真实颜色计算颜色损失；

模型更新模块，用于将所述深度损失和所述颜色损失构成损失函数后输入神经网络，通过反向传播，更新所述神经网络的参数，得到神经辐射场模型。

本申请还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的神经辐射场模型加速训练方法。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述的神经辐射场模型加速训练方法的计算机程序。

与现有技术相比，本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括：本发明针对神经辐射场训练收敛慢、渲染开销大和重建场景中存在漂浮物的问题，设计了从特征点云中计算伪深度的方法，将点云与相机之间的距离作为深度值，将深度值加入到损失函数中神经辐射场模型的训练。使用伪深度监督神经辐射场模型的训练缩短了收敛时间，大大提高了神经辐射场模型渲染的速度，降低了渲染成本，并且可以解决神经辐射场模型重建场景中存在漂浮物的问题，提升了场景重建的效果。

本发明的方法可以在神经辐射场建模方法本身具有的建模和渲染高真实性的能力下，进一步实用化基于神经辐射场的实景建模应用。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的神经辐射场模型加速训练方法流程示意图；

图2是本发明实施例的神经辐射场模型加速训练装置结构框图；

图3是本发明实施例提供的一种计算机设备的结构框图。

具体实施方式

下面结合附图对本申请实施例进行详细描述。

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本发明实施例提供了一种神经辐射场模型加速训练方法，包括：

S101.通过相机对待渲染场景进行多视角的图像采集；

S102.根据采集到的图像获得相机位姿参数，并得到相对坐标系下所述图像的特征点云；

该步骤中，在采用传统的神经辐射场(NeRF)进行建模时，采用运动结构法则（SFM），从采集到的图像中提取特征点进行匹配的方式计算相机位姿的同时，可以得到部分特征点的相对三维坐标，这部分特征点的集合为本发明实施例中所述的特征点云。

S103.在该相对坐标系下计算所述特征点云中每个特征点与相机之间的距离，将该距离作为该特征点对应像素的伪深度值；

由于特征点与像素所对应，此伪深度值就作为该像素的深度标签。

在该步骤的进一步方案中，由于使用SFM得到的是稀疏点云而非稠密的点云，特征点对应的像素的数量约占据整张图片像素的1/3000，数量过于少，对最终的监督并不会很强烈，所以该方法中还使用高斯分布对图像的像素点进行采样，控制最终的采样率占整张图片的4%~10%，并计算每个特征点覆盖下的像素深度的权重；其中，所述采样率为采样像素的数量占整张图片像素数量的百分数，采样率占据这些数量不会消耗太多额外的计算开销并且监督效果也不差，优选的采样率为6%。

其中，采用如下公式计算每个特征点覆盖下的像素深度的权重：

式中，为特征点的像素坐标，/>为采样像素点坐标中除特征点的像素坐标之外的剩余像素坐标，/>是一个特征点覆盖下的像素深度的权重，/>；/>是缩放因子，用于确保所有特征点覆盖区域内的像素在整个图像中占据设定值，即上述的4%~10%，在具体实施时，当图像像素为1600*1600时，控制f = 1。

另外，由于一个像素会存在被多个特征点覆盖的情况，每个特征点都会产生一个深度的权重，因此控制所有特征点深度的权重之和≤1，如下式：

的阈值是 0.01。当覆盖像素的某个特征点产生的深度的权重过于小的时候，即小于0.01时，本实施例将权重直接设置为0，即：当/>≤0.01时，/>= 0。

由于采样点的伪深度值与覆盖该采样点的特征点的伪深度值一致，因此会存在一个像素点被多个特征点覆盖的情况，本实施例使用如下公式加权各个特征点的深度，得到最终用来监督的像素的伪深度值。

其中，为覆盖像素的特征点的伪深度值，/>是用来监督像素的最终的所述伪深度值；在进行采样时，特征点对应的像素会覆盖其余像素进行采样，因此所述的覆盖像素的特征点的伪深度值/>，即通过该特征点与相机的距离获得，/>是每个特征点覆盖下的像素深度的权重之和。

S104.采用体渲染的方法，分别得到预测的深度值和预测的像素颜色，根据所述预测的深度值与所述伪深度值计算深度损失，根据预测的像素颜色与真实图像的颜色计算颜色损失；

该步骤中，采用体渲染的方法，分别得到预测的深度值和预测的像素颜色，具体包括：

将采样点的位置坐标向量和视角方向的坐标向量输入神经网络，输出预测的采样点的颜色和体密度/>，采用体渲染的方式，累计每个采样点的颜色和体密度，得到所述预测的像素颜色和所述预测的深度值。

将所述预测的像素颜色的积分公式简化为：

将所述预测的深度值的积分公式简化为：

其中，

再根据所述预测的深度值与所述伪深度值/>计算深度损失，所述深度损失为：

根据预测的像素颜色与真实图像的颜色/>计算颜色损失，所述颜色损失为：

其中，上式中的G和R均表示光线集合。

S105.将所述深度损失和所述颜色损失构成损失函数后输入神经网络，通过反向传播，更新所述神经网络的参数，得到神经辐射场模型。

具体地，将所述深度损失和所述颜色损失构成损失函数输入神经网络，所述损失函数为：

。

本发明实施例鉴于神经辐射场收敛慢、存在漂浮物的问题，定义了一种伪深度，可以加入到损失函数中用来监督神经辐射场的训练，本质上就是使用伪深度对体密度进行监督，可以加大物体表面的采样点的体密度值，从而加速模型训练，加快收敛，使射线渲染提前终止，从而大大加快NeRF渲染的速度，并且减少乃至消除神经辐射场建模中的漂浮物。

本发明实的上述神经辐射场模型加速训练方法的一种运行过程实施例如下：

1.运行python run_colmap2nerf.py得到transform.json，包含相机位姿（相机内外参数）；

2.运行python colmap2point_cloud.py得到特征点云数据，将得到的point_cloud.json路径放入1的json文件中；

3.运行编译好的软件，输入以下参数：

其中--scene即为transform.json的路径，--config为模型的种类，一共有3种大小的网络，适应不同大小的场景。

如图2所示，本方面另一方面还提供一种神经辐射场模型加速训练装置200，包括：

图像采集模块201，用于通过相机对待渲染场景进行多视角的图像采集；

特征提取模块202，用于根据采集到的图像获得相机位姿参数，并得到相对坐标系下所述图像的特征点云；

伪深度值计算模块203，用于在该相对坐标系下计算所述特征点云中每个特征点与相机之间的距离，将该距离作为该特征点对应像素的伪深度值；

损失计算模块204，用于采用体渲染的方法，分别得到预测的深度值和预测的像素颜色，根据所述预测的深度值与所述伪深度值计算深度损失，根据预测的像素颜色与所述图像的真实颜色计算颜色损失；

模型更新模块205，用于将所述深度损失和所述颜色损失构成损失函数后输入神经网络，通过反向传播，更新所述神经网络的参数，得到神经辐射场模型。

在一种实施例中，提供了一种计算机设备，如图3所示，包括存储器301、处理器302及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意的神经辐射场模型加速训练方法。

具体的，该计算机设备可以是计算机终端、服务器或者类似的运算装置。

在本实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述任意的神经辐射场模型加速训练方法的计算机程序。

具体的，计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种神经辐射场模型加速训练方法，其特征在于，包括：

通过相机对待渲染场景进行多视角的图像采集；

将所述深度损失和所述颜色损失构成损失函数后输入神经网络，通过反向传播，更新所述神经网络的参数，得到神经辐射场模型；

还包括：

根据所述权重，对每个像素的所述伪深度值进行加权计算，得到每个像素的最终的伪深度值；

计算每个特征点覆盖下的像素深度的权重，包括：

采用如下公式计算每个特征点覆盖下的像素深度的权重：

其中，为特征点的像素坐标，/>为采样像素点坐标中除特征点的像素坐标之外的剩余像素坐标，/>是一个特征点覆盖下的像素深度的权重；/>是缩放因子，用于确保所有特征点覆盖区域内的像素在整个图像中占据设定值，/>；

对每个像素的所述伪深度值进行加权计算，得到每个像素的最终的伪深度值，包括：

2.根据权利要求1所述的神经辐射场模型加速训练方法，其特征在于，采用体渲染的方法，分别得到预测的深度值和预测的像素颜色，包括：

3.根据权利要求2所述的神经辐射场模型加速训练方法，其特征在于，累计每个采样点的颜色和体密度，得到所述预测的像素颜色和所述预测的深度值，包括：

通过以下积分公式得到所述预测的像素颜色：

通过以下积分公式得到所述预测的深度值：

其中，

4.根据权利要求3所述的神经辐射场模型加速训练方法，其特征在于，根据所述预测的深度值与所述伪深度值/>计算深度损失，包括：

通过以下公式计算所述深度损失：

通过以下公式计算所述颜色损失：

其中，G和R均表示光线集合；

将所述深度损失和所述颜色损失构成的所述损失函数为：

。

5.一种应用权利要求1至4任一项所述的方法的神经辐射场模型加速训练装置，其特征在于，包括：

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的神经辐射场模型加速训练方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至4中任一项所述的神经辐射场模型加速训练方法的计算机程序。