CN114241113A

CN114241113A - 一种基于深度引导采样的高效神经辐射场渲染方法

Info

Publication number: CN114241113A
Application number: CN202111421781.8A
Authority: CN
Inventors: 周晓巍; 林浩通; 彭思达
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-25

Abstract

本发明公开了一种基于深度引导采样的高效神经辐射场渲染方法，首先获取目标视图，并获取目标视图的图像特征；在目标视图前，采样若干深度平面，利用提取到的图片特征在每个深度平面上构建以方差为代价的代价体；利用基于3D卷积的神经网络处理代价体获取概率体，并得到每一个像素上的深度；对每个像素点，在深度可能所处的区间采样少量点，同时利用神经网络计算神经辐射场；利用体渲染公式计算每个像素点的颜色，得到最终渲染出来的图片。本发明能够支持高速的基于神经辐射场的渲染。高速的基于神经辐射场的渲染能够支持大场景和动态场景下新视角合成的相关应用，包括自由视点视频直播等应用。

Description

一种基于深度引导采样的高效神经辐射场渲染方法

技术领域

本发明属于计算机技术领域，尤其涉及一种基于深度引导采样的高效神经辐射场渲染方法。

背景技术

近期一些基于神经辐射场的渲染技术在新视角合成上取得了极佳的效果，但是这种技术需要数小时的训练过程和漫长的渲染过程。为了避免数小时的训练，一些方法利用图像特征重建神经辐射场，这使得此技术能够在新的场景泛化，从而避免训练，但它仍然需要漫长的渲染过程。为了解决这个问题，一些方法利用高效的数据结构将场景的神经辐射场预计算并缓存下来，从而实现加速。但是，预计算需要较长的时间，缓存需要大量的存储空间，这些缺点阻止了基于神经辐射应用的新视角合成技术在大场景和动态场景下。

发明内容

本发明目的在于针对现有技术的不足，提出一种基于深度引导采样的高效神经辐射场渲染方法。

本发明的目的是通过以下技术方案来实现的：一种基于深度引导采样的高效神经辐射场渲染方法，该方法具体的步骤如下：

(1)获取M张待渲染视角附近的图片，通过深度神经网络提取得到M张图片特征{F_i|i＝1,…,N}，其中F_i为第i张图片的特征；记待渲染视角的图片为目标视图，获取的待渲染视角附近的图片为给定视图。

(2)利用给定视图计算目标视图的深度图像D，用D(u,v)表示目标视图上像素点(u,v)的深度值。

(3)对于目标视图上的一个像素点(u,v)，在其深度可能所处的区间[D(u,v)-ΔD(u,v), D(u,v)+ΔD(u,v)]，采样N_k个点{x_k|k＝1,…,N_k}，其中ΔD(u,v)为真实深度值与步骤(2) 计算得到的深度值的最大误差,x_k为目标视图标准化设备坐标空间的坐标；

(4)对于步骤(3)采样的点x_k,利用神经网络Φ计算采样点的神经辐射场(c,σ)＝Φ(d,f)。其中，c和σ分别是点x_k的辐射和体密度，d是相机中心穿过像素点(u,v)的射线在3D空间中的方向；f是x_k投影在步骤(1)深度神经网络输入图片上的对应的图像特征的聚合；

(5)利用体渲染的公式聚合每一个像素点上所有采样点的神经辐射场(c,σ)，得到最终渲染出来的图片。

进一步地，利用均方误差损失函数实现对步骤(1)的深度神经网络、步骤(3)中的神经网络Φ进行监督。

进一步地，步骤(2)中计算目标视图深度图像D的过程为先后构建两个代价体；第二个代价体的分辨率比第一个代价体的分辨率更高；构建过程如下：在目标视图前，给定包含场景物体的范围，在此范围内均匀采样M′个平面{L_j′|j＝1,…,M′},L′_j为第j个平面的深度；利用步骤(1)提取到的图片特征在每个深度平面上构建的以方差为代价的代价体；具体为，由第 i张给定视图I_i的相机参数[K_i,R_i,t_i]和目标视图的相机参数[K,R,t]定义一个单应变换：

其中n表示目标视图的相机中心轴，此单应变换 H_i(z)将目标视图上一个像素点(u,v)在深度为z的情况下转换到第i张给定视图I_i上，插值求出转换后的像素点对应的特征F′_i,z(u,v)＝F_i(H_i(z)[u,v,1]^T)，其中，F_i(H_i(z)[u,v,1]^T))为从图像特征F_i取出H_i(z)[u,v,1]^T对应像素点的特征；基于转换好的特征，代价体中每个元素的值定义为给定视图上特征{F′_i,z(u,v}|i＝1,…,N}的方差；将此代价体输入到基于3D卷积的神经网络中处理，得到一个深度的概率体P′，概率体P′的第j个平面P′_j在像素点(u,v)的概率代表了对应像素点上的深度落在此平面上的概率；像素点(u,v)的深度定义为M′个深度平面上概率分布的期望

根据上述步骤计算得到的深度D′,在深度范围 [D′(u,v)-ΔD′(u,v),D′(u,v)+ΔD′(u,v)]，采样M个深度平面{L_j|j＝1,…,M},L_j(u,v)为像素点(u,v)在第j个平面的深度；利用步骤(1)提取到的图片特征在每个深度平面上构建以方差为代价的代价体；将此代价体输入到基于3D卷积的神经网络中处理，得到一个深度的概率体P，概率体P的第j个平面P_j在像素点(u,v)的概率代表了对应像素点上的深度落在此平面上的概率；像素点(u,v)的深度定义为M个深度平面上概率分布的期望

进一步地，步骤(3)中计算ΔD(u,v)的过程为，

进一步地，步骤(4)计算f的过程为，使用平均池化操作φ聚合N张图片的特征,得到N张图片的上的平均特征f＝φ(F₁,…,F_N)。

本发明的有益效果：本发明能够无额外开销的支持高速的基于神经辐射场的渲染。高速的基于神经辐射场的渲染能够支持大场景和动态场景下新视角合成的相关应用，包括自由视点视频直播等应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的基于深度指导采样的高效神经辐射场渲染的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1所示，本发明提供一种基于深度引导采样的高效神经辐射场渲染方法，基于多视点方法估计深度，以此深度指导神经辐射场的采样。具体的步骤为：

1.获取N张渲染视角附近的图片，使用一个现存的深度神经网络，如2D的U-Net，提取得到N图片特征{F_i|i＝1,…,N}，利用均方误差损失函数对深度神经网络进行监督。其中F_i为第i张图片的特征；记待渲染视角的图片为目标视图，获取的待渲染视角附近的图片为给定视图。

2.利用给定视图计算目标视图的深度图像D，用D(u,v)表示目标视图上像素点(u,v)的深度值。计算目标视图深度图像D的过程如下：

先后构建两个代价体；第二个代价体的分辨率比第一个代价体的分辨率更高；构建过程如下：在目标视图前，给定包含场景物体的范围，在此范围内均匀采样M′个平面{L_j′|j＝ 1,…,M′},L′_j为第j个平面的深度；利用步骤(1)提取到的图片特征在每个深度平面上构建的以方差为代价的代价体；具体为，由第i张给定视图I_i的相机参数[K_i,R_i,t_i]和目标视图的相机参数[K,R,t]定义一个单应变换：

其中n表示目标视图的相机中心轴，此单应变换H_i(z)将目标视图上一个像素点(u,v)在深度为z的情况下转换到第i张给定视图I_i上，插值求出转换后的像素点对应的特征F′_i,z(u,v)＝F_i(H_i(z)[u,v,1]^T)，其中，F_i(H_i(z)[u,v,1]^T))为从图像特征F_i取出H_i(z)[u,v,1]^T对应像素点的特征；基于转换好的特征，代价体中每个元素的值定义为给定视图上特征{F′_i,z(u,v}|i＝1,…,N}的方差；将此代价体输入到基于3D卷积的神经网络中处理，得到一个深度的概率体P′，概率体P′的第j个平面P′_j在像素点(u,v)的概率代表了对应像素点上的深度落在此平面上的概率；像素点(u,v)的深度定义为M′个深度平面上概率分布的期望

根据上述步骤计算得到的深度D′,在深度范围[D′(u,v)-ΔD′(u,v),D′(u,v)+ΔD′(u,v)]，采样M个深度平面 {L_j|j＝1,…,M},L_j(u,v)为像素点(u,v)在第j个平面的深度；利用步骤(1)提取到的图片特征在每个深度平面上构建以方差为代价的代价体；将此代价体输入到基于3D卷积的神经网络中处理，得到一个深度的概率体P，概率体P的第j个平面P_j在像素点(u,v)的概率代表了对应像素点上的深度落在此平面上的概率；像素点(u,v)的深度定义为M个深度平面上概率分布的期望

3.对于目标视图上的一个像素点(u,v)，计算真实深度值与步骤2计算得到的深度值的最大误差ΔD(u,v)，具体过程为：

在其深度可能所处的区间[D(u,v)-ΔD(u,v),D(u,v)+ΔD(u,v)]，采样N_k个点{x_k|k＝1,…,N_k}，K取值为 2～8，其中x_k为目标视图标准化设备坐标空间的坐标；对于采样点，利用神经网络Φ,如一个深度为8宽度为256的多层感知机，计算神经辐射场(c,σ)＝Φ(d,f)，利用均方误差损失函数对神经网络Φ进行监督。其中，d是x_k在目标视图标准化设备坐标空间中的方向。f是x_k在步骤1深度神经网络输入图片上的对应的图像特征的聚合。具体而言，使用平均池化操作φ聚合N张图片的特征,得到N张图片的上的平均特征f＝φ(F₁,…,F_N)。

4.利用体渲染的公式聚合每一个像素点上所有采样点的神经辐射场(c,σ)，得到最终渲染出来的图片。

具体实施例：

在DTU数据集上，给定目标视图，获取3个邻近视图为给定视图。利用一个2D的U-Net 获取3张图像特征；在目标视图前，结合步骤(2)所述过程估计深度D；利用步骤(3)所述过程，对每个像素点采样2个点，同时利用一个深度为8宽度为256的多层感知机计算每个点颜色和体密度；利用体渲染公式计算每个像素点的颜色，利用均方差损失函数完成对2D U-Net以及多层感知机的监督。传统方法没有采用本发明步骤(2)的具体过程，本发明创新的采用概率体P处理预测像素点的深度，以及计算神经辐射场，传统方法在本发明步骤(3) 的过程中需要从步骤(1)包含物体的范围内采样多个点(128到256个点)才能达到和本方法在步骤(3)获取的深度附近采样少量点(2个点)同水平的渲染质量。因此本发明能够无额外开销的支持高速的基于神经辐射场的渲染。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于深度引导采样的高效神经辐射场渲染方法，其特征在于，该方法具体的步骤如下：

(1)获取N张待渲染视角附近的图片，通过深度神经网络提取得到N张图片特征{F_i|i＝1，...，N}，其中F_i为第i张图片的特征；记待渲染视角的图片为目标视图，获取的待渲染视角附近的图片为给定视图；

(2)利用给定视图计算目标视图的深度图像D，用D(u，v)表示目标视图上像素点(u，v)的深度值；

(3)对于目标视图上的一个像素点(u，v)，在其深度可能所处的区间[D(u，v)-ΔD(u，v)，D(u，v)+ΔD(u，v)]，采样N_k个点{x_k|k＝1，...，N_k}，其中ΔD(u，v)为真实深度值与步骤(2)计算得到的深度值的最大误差，x_k为从相机中心穿过像素点(u，v)的射线在上述深度区间上均匀采样的点；

(4)对于步骤(3)采样的点x_k，利用神经网络Φ计算采样点的神经辐射场(c，σ)＝Φ(d，f)；其中，c和σ分别是点x_k的辐射和体密度，d是相机中心穿过像素点(u，v)的射线在3D空间中的方向；f是x_k投影在步骤(1)深度神经网络输入图片上的对应的图像特征的聚合；

(5)利用体渲染的公式聚合每一个像素点上所有采样点的神经辐射场(c，σ)，得到最终渲染出来的图片。

2.根据权利要求1所述的一种基于深度引导采样的高效神经辐射场渲染方法，其特征在于，利用均方误差损失函数实现对步骤(1)的深度神经网络、步骤(4)中的神经网络Φ进行监督。

3.根据权利要求1所述的一种基于深度引导采样的高效神经辐射场渲染方法，其特征在于，步骤(2)中计算目标视图深度图像D的过程为先后构建两个代价体；第二个代价体的分辨率比第一个代价体的分辨率更高；构建过程如下：

在目标视图前，给定包含场景物体的范围，在此范围内均匀采样M′个平面{L_j′|j＝1，...，M′}，L′_j为第j个平面的深度；利用步骤(1)提取到的图片特征在每个深度平面上构建的以方差为代价的代价体；具体为，由第i张给定视图I_i的相机参数[K_i，R_i，t_i]和目标视图的相机参数[K，R，t]定义一个单应变换：

其中n表示目标视图的相机中心轴，此单应变换H_i(z)将目标视图上一个像素点(u，v)在深度为z的情况下转换到第i张给定视图I_i上，插值求出转换后的像素点对应的特征F′_i，z(u，v)＝F_i(H_i(z)[u，v，1]^T)，其中F_i(H_i(z)[u，v，1]^T))为从图像特征F_i取出H_i(z)[u，v，1]^T对应像素点的特征；基于转换好的特征，代价体中每个元素的值定义为给定视图上特征{F′_i，z(u，v}|i＝1，...，N}的方差；将此代价体输入到基于3D卷积的神经网络中处理，得到一个深度的概率体P′，概率体P′的第j个平面P′_j在像素点(u，v)的概率代表了对应像素点上的深度落在此平面上的概率；像素点(u，v)的深度定义为M′个深度平面上概率分布的期望

根据上述步骤计算得到的深度D′，在深度范围[D′(u，v)-ΔD′(u，v)，D′(u，v)+ΔD′(u，v)]，采样M个深度平面{L_j|j＝1，...，M}，L_j(u，v)为像素点(u，v)在第j个平面的深度；利用步骤(1)提取到的图片特征在每个深度平面上构建以方差为代价的代价体；将此代价体输入到基于3D卷积的神经网络中处理，得到一个深度的概率体P，概率体P的第j个平面P_j在像素点(u，v)的概率代表了对应像素点上的深度落在此平面上的概率；像素点(u，v)的深度定义为M个深度平面上概率分布的期望

4.根据权利要求1所述的一种基于深度引导采样的高效神经辐射场渲染方法，其特征在于，步骤(3)中计算ΔD(u，v)的过程为，

5.根据权利要求1所述的一种基于深度引导采样的高效神经辐射场渲染方法，其特征在于，步骤(4)计算f的过程为，使用平均池化操作φ聚合N张图片的特征，得到N张图片的上的平均特征f＝φ(F₁，...，F_N)。