CN117197323A

CN117197323A - 一种基于神经网络的大场景自由视点插值方法及装置

Info

Publication number: CN117197323A
Application number: CN202311114443.9A
Authority: CN
Inventors: 许威威; 吴秀超; 张鑫; 鲍虎军
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-08

Abstract

本发明公开了一种基于神经网络的大场景自由视点插值方法及装置，包括以下四个步骤，1、对场景进行拍摄，并把图片作为输入计算全局网格模型和相机参数；2、把步骤1计算得到的全局网格模型剖分成块，并为每个块创建哈希网格以及两个解码器，解码器分别用于解码漫反射和反射；3、为步骤2建立的块分配训练的光线，然后进行并行训练，训练过程中同时优化哈希网格特征，解码器参数以及相机位姿，训练使用交替方向乘子法来保证块间相机位姿的一致性；4、利用步骤3训练完成的模型，进行基于点混合的多块渲染。通过本发明提出的方法，可同时适用于室内和室外大场景，实现照片级别真实的高质量渲染。可用于虚拟现实场景构建等相关领域。

Description

一种基于神经网络的大场景自由视点插值方法及装置

技术领域

本发明涉及计算机视觉及图形学领域，特别是涉及一种基于神经网络的大场景自由视点插值方法及装置。

背景技术

近年来基于神经网络的视点插值算法发展迅速，其基本理论是编码一个基于坐标点的三维空间光照场，并利用体渲染技术(参见Mildenhall B,Srinivasan P P,Tancik M,et al.Nerf:Representing scenes as neural radiance fields for view synthesis[C]//European conference on computer vision.Springer,Cham,2020:405-421.)完成对光照场的渲染。神经光照场的优势在于可以较好地重建出反射，压缩场景存储消耗。

当前基于神经网络来编码光场仍然存在许多问题，尤其是应用到大规模场景上。首先，相机位姿在大规模场景重建中的精准度不高，导致最终渲染质量低，存在模糊区域；其次，大场景的训练速度慢，细节重建难度大，单卡训练大场景容易存在显存溢出等问题；最后，如何实现高质量大场景渲染仍具有挑战。

发明内容

本发明目的在于针对现有技术的不足，提供了一种基于神经网络的大场景自由视点插值方法及装置。可以分布式优化大场景的同时优化相机位姿，实现高质量渲染。

为了达到上述目的，本发明采用以下技术方案：第一方面，本发明提供了一种基于神经网络的大场景自由视点插值方法，包括以下步骤：

(1)对某个视角下的场景进行拍摄，基于图片计算全局网格模型和相机参数；

(2)把步骤(1)计算得到的全局网格模型剖分成块，并为每个块创建哈希网格、漫反射解码器和反射解码器，基于哈希网格得到哈希特征，并通过漫反射解码器和反射解码器得到三维点颜色，并通过体渲染积分得到一条光线的颜色；

(3)为步骤(2)建立的块分配训练的光线，然后进行并行训练，训练过程中同时优化哈希网格特征、解码器参数以及相机位姿，训练使用交替方向乘子法来保证块间相机位姿的一致性；

(4)利用步骤(3)训练完成的模型，在光线上进行采样点，基于点混合的多块渲染分别渲染光线的前景颜色和背景颜色。

进一步地，步骤(1)中，将拍摄的图片输入三维重建软件CapturingReality，得到拍摄场景的全局网格模型以及图片对应的相机内参和外参。

进一步地，步骤(2)中，设定块的尺寸，从全局网格模型的最小角点开始剖分块，块与块之间存在20％的重叠区域，并丢弃内部不包含相机的块。

进一步地，步骤(2)中，哈希网格的输入是世界坐标系下的三维点x，输出是多层级哈希特征f_x：

f_x＝φ_θ(x)

其中，φ_θ表示哈希网格，θ表示优化参数；

漫反射解码器输入多层级哈希特征f_x，输出为64维度的特征，基于前32维度的特征得到体密度、漫反射颜色以及反射系数：

D_θ(f_x)＝(σ_x,c_d,s,h_x)

其中，D_θ表示漫反射解码器，σ_x表示体密度，c_d表示漫反射颜色，s表示反射系数，h_x表示后32维度的特征；

反射解码器输入为球谐基函数sh对光线方向ω的编码以及漫反射解码器输出的后32维特征h_x，输出是反射颜色c_s：

S_θ(sh(ω),h_x)＝c_s

其中，S_θ表示反射解码器，因此，三维点颜色被表示为：

c＝c_d+s·c_s

其中，c为三维点x的颜色，利用体渲染公式积分得到一条光线的颜色。

进一步地，步骤(3)中，利用相机位姿和全局网格模型为每个块分配光线，如果光线发射位置位于块内，则直接被选为该块的训练光线；如果光线发射位置位于块外，满足光线与块相交且没有被遮挡，则被选为该块的训练光线；每个块独立编码块内前景以及块外背景颜色，块内空间三维点用于表达前景，块外三维点用于表达背景；前景与背景共享哈希网格特征以及两个解码器参数。

进一步地，步骤(3)中，训练过程中为每个块存储一份几何网格，通过哈希网格和解码器获得几何网格内三维点的体密度，若1-exp(-σ_x)<λ，则对几何网格进行剪枝，λ为剪枝的阈值；

通过两条导数链优化相机位姿：1.损失对哈希网格特征的梯度通过空间三维点传递到相机位姿；2.扭曲损失对相机变换矩阵的梯度传递到相机位姿；

扭曲损失帮助优化几何以及相机位姿，优化后参数回传，优化哈希网格特征，解码器参数。

进一步地，渲染光线的前景颜色具体过程为：若一个采样点只被某个块单独占有，则使用该块对应的哈希网格和解码器推理该点的颜色与体密度；若该采样点在块间重叠区域，则使用点混合方式推理该点的前景颜色c_f与体密度：

其中，S(x_n)表示包含点x_n的块集合，表示块k对于点x_n的混合权重；该权重与点和块边界的距离有关，在两个块的重叠区域；N表示为光线上采样点的数量，n为采样点编号，/>表示第n个采样点在块k内的体密度；/>表示前景采样点的可见性；δ_n表示第n个采样点到第n+1个采样点的距离；/>第n个采样点在块k内的颜色。

进一步地，渲染光线的背景颜色具体过程为：利用光线穿出最后一个块的哈希网格和解码器推理该光线的背景颜色，若同时穿出多个块，即穿出点x_N被多个块包含，则加权混合背景颜色c_b：

其中，S′(x_N)表示包含出射点x_N的块集合，是积分完成的背景颜色，T_n表示背景采样点的可见性；最后光线的颜色表示为

第二方面，本发明还提供了一种基于神经网络的大场景自由视点插值装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现所述的一种基于神经网络的大场景自由视点插值方法。

第三方面，本发明还提供了一种计算机可读存储介质，其上存储有程序，所述程序被处理器执行时，实现所述的一种基于神经网络的大场景自由视点插值方法。

本发明的有益效果在于：

1、统一室内室外场景的表达。把远景和反射物体同时编码在背景，同时利用反射解码器拟合高光和其他视角相关效果。

2、分块表达大场景，利用交替方向乘子法分布式训练块相关哈希网格特征和网络，同时优化相机位姿。加快了训练速度，提升了可扩展性，避免了单卡编码大场景存在的显存问题。

3、实现高质量渲染，渲染指标PSNR在测试的2个室内场景和4个室外场景中平均提升5％-10％。渲染清晰的近景、远景、反射以及实现块间颜色的平滑过度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明方法的流程图；

图2为本发明对于场景表达的示意图；

图3为背景点采样的示意图；

图4为本发明体素化训练的示意图；

图5为本发明一种基于神经网络的大场景自由视点插值装置的结构图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

如图1所示，本发明提供了一种基于神经网络的大场景自由视点插值方法，大场景的重建可以理解为对光场信号的重建。其输入是拍摄的照片，相当于对光场信号的采样。对光场信号的自由视点插值，即可以不受拍摄采样视点的约束，可以在未拍摄过的视点实现对于大场景的渲染。该方法具体包括以下四个步骤：

1.对某个视角下的场景进行拍摄，基于图片计算全局网格模型和相机参数；

2.把步骤1计算得到的全局网格模型剖分成块，并为每个块创建哈希网格、漫反射解码器和反射解码器，基于哈希网格得到哈希特征，并通过漫反射解码器和反射解码器得到三维点颜色，并通过体渲染积分得到一条光线的颜色；

3.为步骤2建立的块分配训练的光线，然后进行并行训练，训练过程中同时优化哈希网格特征、解码器参数以及相机位姿，训练使用交替方向乘子法来保证块间相机位姿的一致性；

4.利用步骤3训练完成的模型，在光线上进行采样点，基于点混合的多块渲染分别渲染光线的前景颜色和背景颜色。

下面结合图2-图4对本发明详细说明。

现具体介绍本发明的四个步骤：

(1)对某个视角下的场景进行拍摄，并把图片作为输入计算全局网格模型和相机参数，具体为：利用三维重建软件CapturingReality(参见CapturingReality.2016.Reality capture,http://capturingreality.com.)，把拍摄图片作为输入，得到拍摄场景的全局网格模型以及图片对应的相机内参和外参。

(2)把步骤1计算得到的全局网格模型剖分成块，并为每个块创建哈希网格以及两个解码器，解码器分别用于解码漫反射和反射，具体位：给定一个块的尺寸，从全局网格模型的最小角点开始剖分块，块与块之间存在20％的重叠区域，丢弃内部不包含相机的块，为保留下来的块创建哈希网格φ_θ(θ表示优化参数)，漫反射解码器D_θ和反射解码器S_θ。

哈希网格φ_θ共有16个层级，分辨率从最低32，上升到最高的4096(室内场景)/8192(室外场景)，每个层级l的分辨率的计算方式如下：

N_max,N_min分别表示最大和最小分辨率。

哈希特征的尺寸为每个层级2²⁴，哈希特征的维度是2。哈希网格的输入是世界坐标系下的三维点x，输出是多层级的特征f_x：

f_x＝φ_θ(x)

漫反射解码器D_θ包含一个深度为2，宽度为64的多层感知机和3个深度为1，宽度为32的多层感知机，其中，深度为2的多层感知机输入是多层级哈希特征f_x，输出是64维度的特征，该特征的前32维分别输入到3个深度为1的多层感知机得到体密度σ_x，漫反射颜色c_d以及反射系数s，后32维特征记为h_x：

D_θ(f_x)＝(σ_x,c_d,s,h_x)

反射解码器S_θ是一个深度为3，宽度为64的深度感知机，其输入是球谐基函数sh对光线方向ω的编码以及漫反射解码器输出的后32维特征h_x，输出是反射颜色c_s：

S_θ(sh(ω),h_x)＝c_s

每个世界坐标系下的三维点颜色被表示为：c＝c_d+s·c_s。利用体渲染公式(参见Max N.Optical models for direct volume rendering[J].IEEE Transactions onVisualization and Computer Graphics,1995,1(2):99-108.)积分得到一条光线的颜色。

(3)为步骤2建立的块分配训练的光线，然后进行并行训练，训练过程中同时优化哈希网格特征，解码器参数以及相机位姿，训练使用交替方向乘子法来保证块间共享相机位姿的一致性，具体为：如图3所示，利用相机位姿和全局网格模型为每个块分配光线，如果光线发射位置(即对应的相机位置)位于块内，则直接被选为该块的训练光线；如果光线发射位置位于块外，满足光线与块相交且没有被遮挡，则被选为该块的训练光线。如果一个相机发射的光线被多个块选为训练光线，那么定义该类相机为共享相机。

每个块独立编码块内前景以及块外背景颜色，具体为：定义哈希网格的空间范围为[-2,2]³，空间三维点通过函数contract(·)被映射到哈希网格空间(参见Nerfstudiohttps://docs.nerf.studio/en/latest/)。块内空间三维点被归一化到[-1,1]用于表达前景，块外三维点被压缩到[-2,-1]或者[1,2]之间用于表达背景：

‖·‖_∞是无穷范数，x_j为三维点x的其中一个维度。前景与背景共享哈希网格特征以及解码器参数。

训练过程中为每个块存储一份几何网格，用来表达一个区域内是否存在几何。这个几何网格在训练过程中会被剪枝和细分。每训练1000个迭代，会对几何网格进行剪枝，即通过哈希网格和解码器获得几何网格内三维点的体密度，若1-exp(-σ_x)<λ，则这个网格会被剪枝。几何网格的分辨率和剪枝的阈值λ每2000个迭代改变一次，分辨率从16³最高细分到分辨率512³，λ从0.1增加到0.4。

每个块独立优化与其相关的相机位姿，利用交替方向乘子法保证块间共享相机位姿一致性，具体为：通过两条导数链优化相机位姿，1.损失对哈希网格特征的梯度通过空间三维点传递到相机位姿；2.扭曲损失对相机变换矩阵的梯度传递到相机位姿。每迭代100次训练，进行块间共享相机位姿同步，同步方式为取共享相机位姿的平均值。

反射感知的扭曲损失帮助优化几何以及相机位姿，优化后参数回传，优化哈希网格特征，解码器参数，具体为：获得模型对像素p预测的颜色c_p，通过模型预测的深度d_p得到表面点，深度d_p是对一条光线上的三维点的σ_x进行积分得到，并利用相机参数把表面点投影到邻居图片像素p′得到邻居颜色c_p′，则邻居深度为d_p′，加权求和计算预测颜色c_p和邻居像素颜色c_p′的损失：

B为一个迭代的所有像素。w_pp′是像素p扭曲到像素p′对应的损失权重：

和/>分别是像素p和像素p′的反射权重：/> 是表面点在邻居像素p′的可见性：/>

(4)利用步骤3训练完成的模型，进行基于点混合的多块渲染(如图4所示)，具体为：基于训练完成的一定数量的块集合，定义在渲染流程中，光线在块集合内积分累加的颜色为前景颜色c_f，块集合外积分累加的颜色为背景颜色c_b。

渲染光线的前景颜色，具体为：从需要渲染的像素投影一条光线，使用Fast VoxelTraversal算法(参见Amanatides,John,and Andrew Woo."Afast voxel traversalalgorithm for ray tracing."Eurographics.Vol.87.No.3.1987.)获得光线顺序穿过所有的块，借助每个块内存有的几何网格，在光线上进行采样点。若一个采样点只被某个块单独占有，则使用该块对应的哈希网格和解码器推理该点的颜色与体密度；若该采样点在块间重叠区域，则使用点混合方式推理该点的前景颜色c_f与体密度：

S(x_n)表示包含点x_n的块集合，表示块k对于点x_n的混合权重。该权重与点和块边界的距离有关，在两个块的重叠区域；N表示为光线上采样点的数量，n为采样点编号，/>表示第n个采样点在块k内的体密度；/>表示前景采样点的可见性；δ_n表示第n个采样点到第n+1个采样点的距离；/>第n个采样点在块k内的颜色。

渲染光线的背景颜色，具体为：利用光线穿出最后一个块的哈希网格和解码器推理该光线的背景颜色，若同时穿出多个块，即穿出点x_N被多个块包含，则加权混合背景颜色c_b：

S′(x_N)表示包含出射点x_N的块集合，是积分完成的背景颜色， T_n表示背景采样点的可见性。最后光线的颜色表示为实现照片级别真实感渲染。

与前述一种基于神经网络的大场景自由视点插值方法的实施例相对应，本发明还提供了一种基于神经网络的大场景自由视点插值装置的实施例。

参见图5，本发明实施例提供的一种基于神经网络的大场景自由视点插值装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述实施例中的一种基于神经网络的大场景自由视点插值方法。

本发明提供的一种基于神经网络的大场景自由视点插值装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明提供的一种基于神经网络的大场景自由视点插值装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于神经网络的大场景自由视点插值方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于神经网络的大场景自由视点插值方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法，其特征在于，步骤(1)中，将拍摄的图片输入三维重建软件CapturingReality，得到拍摄场景的全局网格模型以及图片对应的相机内参和外参。

3.根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法，其特征在于，步骤(2)中，设定块的尺寸，从全局网格模型的最小角点开始剖分块，块与块之间存在20％的重叠区域，并丢弃内部不包含相机的块。

4.根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法，其特征在于，步骤(2)中，哈希网格的输入是世界坐标系下的三维点x，输出是多层级哈希特征f_x：

f_x＝φ_θ(x)

其中，φ_θ表示哈希网格，θ表示优化参数；

D_θ(f_x)＝(σ_x,c_d,s,h_x)

S_θ(sh(ω),h_x)＝c_s

其中，S_θ表示反射解码器，因此，三维点颜色被表示为：

c＝c_d+s·c_s

5.根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法，其特征在于，步骤(3)中，利用相机位姿和全局网格模型为每个块分配光线，如果光线发射位置位于块内，则直接被选为该块的训练光线；如果光线发射位置位于块外，满足光线与块相交且没有被遮挡，则被选为该块的训练光线；每个块独立编码块内前景以及块外背景颜色，块内空间三维点用于表达前景，块外三维点用于表达背景；前景与背景共享哈希网格特征以及两个解码器参数。

6.根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法，其特征在于，步骤(3)中，训练过程中为每个块存储一份几何网格，通过哈希网格和解码器获得几何网格内三维点的体密度，若1-exp(-σ_x)＜λ，则对几何网格进行剪枝，λ为剪枝的阈值；

7.根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法，其特征在于，渲染光线的前景颜色具体过程为：若一个采样点只被某个块单独占有，则使用该块对应的哈希网格和解码器推理该点的颜色与体密度；若该采样点在块间重叠区域，则使用点混合方式推理该点的前景颜色c_f与体密度：

8.根据权利要求7所述的一种基于神经网络的大场景自由视点插值方法，其特征在于，渲染光线的背景颜色具体过程为：利用光线穿出最后一个块的哈希网格和解码器推理该光线的背景颜色，若同时穿出多个块，即穿出点x_N被多个块包含，则加权混合背景颜色c_b：

9.一种基于神经网络的大场景自由视点插值装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，实现如权利要求1-8中任一项所述的一种基于神经网络的大场景自由视点插值方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时，实现如权利要求1-8中任一项所述的一种基于神经网络的大场景自由视点插值方法。