CN117911604A

CN117911604A - 基于采样优化的神经辐射场训练与渲染加速方法

Info

Publication number: CN117911604A
Application number: CN202311673388.7A
Authority: CN
Inventors: 陶文许; 谢亚光; 万俊青; 陈豪
Original assignee: Hangzhou Arcvideo Technology Co ltd
Current assignee: Hangzhou Arcvideo Technology Co ltd
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-04-19

Abstract

本发明公开了一种基于采样优化的神经辐射场训练与渲染加速方法，包括训练阶段和渲染阶段，其中渲染阶段包括：给定用户观察的视点，根据设定分辨率得到需要渲染的光线，然后在每一条光线上使用采样数动态调整模块采用分段采样器进行采样；每一阶段的采样点数根据所设定的渲染分辨率进行调整，分辨率越高则采样点数越少；使用自适应分辨率控制模块，在用户观察过程中，若观察视角处于移动过程中，则自动降低渲染视图的分辨率；当观察视角从移动状态变为静止状态时，恢复渲染视图的分辨率到设定的分辨率；将所有采样点输入训练完成的神经辐射场中，映射得到对应的颜色与体密度；根据体渲染规则得到每条光线对应像素的颜色，即得到最终渲染视图。

Description

基于采样优化的神经辐射场训练与渲染加速方法

技术领域

本发明属于视频处理技术领域，具体涉及一种基于采样优化的神经辐射场训练与渲染加速方法。

背景技术

自由视点三维体积视频在数字博物馆、增强现实、电影制作等领域有着长远的应用前景。网格和点云作为三维体积视频的表现形式之一，由于采集和制作成本昂贵而没有得到广泛的应用。相比之下，神经辐射场以从场景中拍摄的多张视图作为输入，能够渲染出富有真实感的新视图。神经辐射场基于多层感知机来参数化从空间坐标到体密度和颜色的映射，实现高度逼真的新视图生成。

然而，实现高质量的新视图生成需要复杂的神经辐射场网络，对于每一个新场景通常需要很长的训练过程。例如Barron等人提出的Mip-NeRF360，需要长达48小时的训练时间来实现高质量的视觉观感。同时，传统的神经辐射场方法需要在场景中进行随机射线采样，即便是在空白空间中也采样了大量的点，导致神经辐射场处理的数据量极为庞大。这不仅进一步增加了训练时长，同时也大大减缓了渲染速度，无法支持实时交互式应用。

近年来，也有一些关于神经辐射场的加速技术被提出。Garbin等人提出将缓存到高效的数据结构中，显著提高了渲染的速度。但是，这类方法仍需要漫长的训练过程，因此无法根据新数据快速制作三维体积视频。Wang等人通过二维卷积神经网络将输入视图编码为多视角特征，解码后得到目标神经辐射场。该类方法通过对预训练网络微调能快速生产三维体积视频，但是需要通过神经网络多次正向传递才能渲染像素，因此渲染速度很慢。

发明内容

鉴于以上存在的问题，本发明提供一种基于采样优化的神经辐射场训练与渲染加速方法，用于解决传统神经辐射场因为网络结构复杂和随机射线采样导致的训练与渲染速度慢，导致三维体积视频制作时间久、用户观感滞后的问题。

为解决上述技术问题，本发明采用如下的技术方案：

一种基于采样优化的神经辐射场训练与渲染加速方法，包括训练阶段和渲染阶段，其中，

训练阶段进一步包括：

对于指定场景，拍摄多张不同视角的视图作为输入；对于每一张视图，首先输入背景检测模块，区分视图中的主体与背景区域；对每张视图中的主体部分，输入纹理划分模块，进行纹理复杂度计算，并根据其最大值和最小值确定划分阈值，划分出主体部分的纹理复杂区域和纹理平滑区域；采样模块在输入视图中采样光线，对于主体部分，根据纹理复杂度计算所区分的纹理复杂区域和纹理平滑区域采用不同比例进行采样，其中纹理复杂区域所采样的光线数量更多；对于所有采样光线，根据相机的近平面和远平面在光线上均匀采样若干个点，将其三维坐标与视角方向输入后续模块；

神经辐射场训练模块将采样模块输出的三维点坐标及其视角方向作为输入，使用连续5D函数将其映射到颜色与体密度，训练过程通过最小化根据颜色与体密度进行体渲染得到的像素与输入视图上的像素之间的误差来优化网络参数，最终使用该连续5D函数来表示三维体积视频场景；

渲染阶段进一步包括：

给定用户观察的视点，首先根据设定分辨率得到需要渲染的光线，然后在每一条光线上使用采样数动态调整模块采用分段采样器进行采样；每一阶段的采样点数根据所设定的渲染分辨率进行调整，分辨率越高则采样点数越少；使用自适应分辨率控制模块，在用户观察过程中，若观察视角处于移动过程中，则自动降低渲染视图的分辨率；当观察视角从移动状态变为静止状态时，恢复渲染视图的分辨率到设定的分辨率；将所有采样点输入训练完成的神经辐射场中，映射得到对应的颜色与体密度；根据体渲染规则得到每条光线对应像素的颜色，即得到最终渲染视图。

一种可能的实施方式中，背景检测模块中，采用开源的rembg工具包对输入视图进行背景检测；通过将输入视图批量输入rembg工具包中的remove()函数，分别得到对应的背景掩膜图，用来区分视图的主体与背景；背景掩膜图中值为0的像素即为背景区域，其余为主体区域，该过程的公式表达为：

M_i＝remove(I_i)

其中，I_i代表第i张输入视图，M_i代表其对应的背景掩膜图。

一种可能的实施方式中，纹理划分模块中，首先，将输入视图从RGB色彩空间转换到LAB色彩空间：

其中，X、Y和Z是RGB通道的值，X_n、Y_n和Z_n是参考白点的值，f(t)是非线性变换函数；

接下来，计算LAB色彩空间中的颜色梯度，以便将其分为纹理复杂区域和纹理平滑区域，应用Sobel滤波器计算每个LAB通道的梯度：

其中，SobelX(L)和SobelY(L)分别表示L通道的水平和垂直Sobel滤波器的响应；SobelX(a)和SobelY(a)分别表示a通道的水平和垂直Sobel滤波器的响应；SobelX(b)和SobelY(b)分别表示L通道的水平和垂直Sobel滤波器的响应；为通道L的梯度，/>为通道a的梯度，/>为通道b的梯度；

然后，计算每个通道的颜色梯度幅度：

同时，计算主体部分的平均颜色梯度作为划分阈值：

其中，∑C(x,y)·M(x,y)代表对主体部分的颜色梯度进行加权求和，∑M(x,y)表示主体部分的像素数量；

最后，根据平均颜色梯度对主体部分进行划分，得到纹理掩膜图：

一种可能的实施方式中，采样模块中，主体区域采样的光线数量占总光线数量的75％，背景区域采样25％的光线。

一种可能的实施方式中，神经辐射场训练模块将采样模块输出的三维点坐标及其视角方向作为输入，使用连续5D函数将其映射到颜色与体密度具体包括：

在每条射线上采样5D点，其中/>表示来自第i个训练视图的第k条光线，光线集合R_i由/>生成，i＝1,2,…,N；其中N是训练视图的数量，/>是所有训练视图的集合；5D点(x,d)包括三维坐标(x,y,z)以及光线方向(θ,φ)；神经辐射场/>将5D点映射到颜色c＝(r,g,b)以及体密度σ用来渲染每个像素的颜色，损失函数用于最小化所有光线产生的体渲染损失：

其中，代表对应像素的真实颜色，R代表每张视图所采样的光线数量。

一种可能的实施方式中，采样数动态调整模块中，渲染视图的每一个像素都需要由单独的光线进行渲染，因此渲染光线数量可由设定分辨率的高和宽相乘得到：

R＝H×W

分段采样器三次采样点数的公式如下:

其中，S₁、S₂、S₃表示根据分辨率动态调整后的采样数，S_b是基准采样数，H×W是当前使用的分辨率，H_b×W_b是用于确定基准采样数的基准分辨率。

采用本发明具有如下的有益效果：

(1)解决了传统方法中训练和渲染速度较慢的问题；

(2)在训练阶段，采用前景与背景划分与纹理复杂度划分，在保持渲染质量的同时进一步优化采样数量；

(3)在渲染阶段分辨率自适应策略，根据设定的渲染分辨率动态调整每条光线上的采样点数，加速渲染以并防止用户观感滞后。

附图说明

图1为本发明实施例的基于采样优化的神经辐射场训练与渲染加速方法的步骤流程图；

图2为一具体应用实例中使用现有技术进行神经辐射场训练与渲染的结果示意图；

图3为一具体应用实例中使用本发明实施例的方法进行神经辐射场训练与渲染的结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，所示为本发明实施例的一种基于采样优化的神经辐射场训练与渲染加速方法的步骤流程图，

训练阶段进一步包括：对于指定场景，拍摄多张不同视角的视图作为输入；对于每一张视图，首先输入背景检测模块，区分视图中的主体与背景区域；对每张视图中的主体部分，输入纹理划分模块，进行纹理复杂度计算，并根据其最大值和最小值确定划分阈值，划分出主体部分的纹理复杂区域和纹理平滑区域；采样模块在输入视图中采样光线，对于主体部分，根据纹理复杂度计算所区分的纹理复杂区域和纹理平滑区域采用不同比例进行采样，其中纹理复杂区域所采样的光线数量更多；对于所有采样光线，根据相机的近平面和远平面在光线上均匀采样若干个点，将其三维坐标与视角方向输入后续模块；

渲染阶段进一步包括：

本发明一实施例的基于采样优化的神经辐射场训练与渲染加速方法，背景检测模块中，在现有的神经辐射场工作中，大多数方法都是随机从整幅视图中随机若干像素，然后沿着视角方向从所选择的像素发射光线。由于数据量庞大，这类方法往往会带来极大的训练负担。本发明实施例中考虑到用户在观看过程中会更加关注视图中主体的细节，而对背景部分的关注程度不高，采用开源的rembg工具包对输入视图进行背景检测。通过将输入视图批量输入rembg工具包中的remove()函数，分别得到对应的背景掩膜图，用来区分视图的主体与背景。背景掩膜图中值为0的像素即为背景区域，其余为主体区域。该过程的公式表达为：

M_i＝remove(I_i)

其中，I_i代表第i张输入视图，M_i代表其对应的背景掩膜图。

这种背景掩膜图的生成方法有助于准确地标记出每张视图中的前景和背景部分，为接下来的主体背景分割提供了有力支持。同时，采用rembg工具包的优势在于其基于U-2-Net框架，该框架在图像分割领域表现出色，能够高效地识别和提取视图中的前景对象，以满足人眼对前景的强烈关注。

本发明一实施例的基于采样优化的神经辐射场训练与渲染加速方法，现有的大多神经辐射场方法在整幅输入视图上均匀采样光线。实际上有许多具有颜色相似区域，我们称之为纹理平滑区域，例如天空、墙壁等。由于与邻域像素的语义一致性，纹理平滑区域中的像素通常包含较少的信息，该区域的渲染误差可以快速收敛，因为沿着光线的大多数采样点的密度接近0。因此，只需要在纹理平滑区域采样较少的光线即可感知辐射场。颜色变化很大的纹理复杂区域中的像素包含更多的信息，因此需要更多的光线来捕捉细节信息。故在纹理划分模块中，应用颜色梯度计算方法以划分出纹理复杂区域和纹理平滑区域，并只保留主体部分的纹理复杂度差异。

首先，将输入视图从RGB色彩空间转换到LAB色彩空间：

其中，X、Y和Z是RGB通道的值，X_n、Y_n和Z_n是参考白点的值，f(t)是非线性变换函数。

接下来，计算LAB色彩空间中的颜色梯度，以便将其分为纹理复杂区域和纹理平滑区域。本发明通过应用Sobel滤波器计算每个LAB通道的梯度：

其中，SobelX(L)和SobelY(L)分别表示L通道的水平和垂直Sobel滤波器的响应；SobelX(a)和SobelY(a)分别表示a通道的水平和垂直Sobel滤波器的响应；SobelX(b)和SobelY(b)分别表示L通道的水平和垂直Sobel滤波器的响应；为通道L的梯度，/>为通道a的梯度，/>为通道b的梯度。

然后，计算每个通道的颜色梯度幅度：

同时，计算主体部分的平均颜色梯度作为划分阈值：

其中，∑C(x,y)·M(x,y)代表对主体部分的颜色梯度进行加权求和，表示主体部分的像素数量。

本发明一实施例的基于采样优化的神经辐射场训练与渲染加速方法中，采样模块负责在不同的视图中采样光线以进行光线追踪。由于用户的视觉感知主要聚焦在视图中的主体，故本发明实施例中设计了一种采样策略，使得主体部分和纹理复杂区域采样更多的光线，而在背景区域和纹理平滑区域的光线数量较少，以更好地匹配用户的视觉兴趣。

具体地，采用3:1的比例，其中主体区域采样的光线数量占总光线数量的75％，而背景区域采样25％的光线。这样可以在减少计算负担的同时，确保主体部分和背景部分都能够得到适当的采样，以获得合理的图像质量。

在主体区域中，本发明采用7:3的比例，其中纹理复杂区域采样的光线数量占总光线数量的70％，而纹理平滑区域采样的光线数量占30％。这种策略允许更密集地采样主体部分中的具有丰富纹理的区域，以更好地捕捉细节。

在对每一条光线进行点的采样时，本发明实施例采用Nerfacto方法中采用的分段采样器，首先从分段采样器生成256个点，在建议采样器的第一次迭代中，分段采样器被重新采样为96个点，然后在第二次迭代中被重新采样48个点。

本发明一实施例的基于采样优化的神经辐射场训练与渲染加速方法，训练阶段中，神经辐射场训练模块将采样模块输出的三维点坐标及其视角方向作为输入，使用连续5D函数将其映射到颜色与体密度具体包括：

本发明一实施例的基于采样优化的神经辐射场训练与渲染加速方法，采样数动态调整模块中，在开始渲染过程之前，首先确定需要渲染的光线数量，这是根据用户设置的渲染分辨率来完成的。分辨率越高，需要渲染的光线数量就越多，以捕获更多的细节。在渲染阶段，渲染视图的每一个像素都需要由单独的光线进行渲染，因此渲染光线数量可由设定分辨率的高和宽相乘得到：

R＝H×W

对于每一条光线，本发明实施例在渲染阶段采用于训练阶段相同的点采样策略。两者的区别在于，训练阶段的采样点数是固定的，而渲染阶段的采样点数会根据设定的渲染分辨率动态调整。分段采样器三次采样点数的公式如下:

采样得到的点将被输入到预先训练完成的神经辐射场中。神经辐射场是一个经过深度学习训练的模型，能够映射光线到对应的颜色和体密度值。这个映射过程可以理解为在三维空间中插值和估算颜色和体密度。最后，根据体渲染规则，将每条光线对应的颜色和体密度合并，以生成最终的渲染视图。

本发明一实施例的基于采样优化的神经辐射场训练与渲染加速方法，渲染阶段的自适应分辨率控制模块中，在用户观察过程中，特别是当观察视角处于移动状态时，实施了一种智能的视图分辨率自适应策略，以提高渲染效率和用户体验。这一策略的核心思想是根据观察视角的状态自动降低或恢复渲染视图的分辨率。当用户的观察视角处于移动状态时，我们会自动降低渲染视图的分辨率至1024，以降低计算负担，同时保持足够的实时性。

图2为一具体应用实例中使用现有技术进行神经辐射场训练与渲染的结果示意图；图3为一具体应用实例中使用本发明实施例的方法进行神经辐射场训练与渲染的结果示意图。使用现有技术得到图2，训练时间为510秒，渲染时间为1.93秒/帧；使用本发明实施例的方法得到图3，训练时间为450秒，渲染时间为1.45秒/帧。

通过以上设置的基于采样优化的神经辐射场训练与渲染加速方法，基于采样优化的思想，通过在保证质量没有明显下降的前提下，减少采样射线数和采样点数，分别对训练和渲染过程进行加速。在训练阶段，首先根据前景与背景划分减少背景区域的采样数量，再根据前景的纹理复杂度进一步做采样数量区分；在渲染阶段，首先根据设定的渲染分辨率调整每条射线上的采样点数，再根据视角移动速度调整移动过程中的分辨率。使得可以根据前后景和纹理复杂度对输入视图进行区域划分，减少背景和纹理平滑等不重要区域的采样数量，从而加速训练。同时，还可以在渲染阶段根据分辨率和视角移动速度进行动态调整，为用户带来实时观感体验。

应当理解，本文所述的示例性实施例是说明性的而非限制性的。尽管结合附图描述了本发明的一个或多个实施例，本领域普通技术人员应当理解，在不脱离通过所附权利要求所限定的本发明的精神和范围的情况下，可以做出各种形式和细节的改变。

Claims

1.一种基于采样优化的神经辐射场训练与渲染加速方法，其特征在于，包括训练阶段和渲染阶段，其中，

训练阶段进一步包括：

渲染阶段进一步包括：

2.如权利要求1所述的基于采样优化的神经辐射场训练与渲染加速方法，其特征在于，

背景检测模块中，采用开源的rembg工具包对输入视图进行背景检测；通过将输入视图批量输入rembg工具包中的remove()函数，分别得到对应的背景掩膜图，用来区分视图的主体与背景；背景掩膜图中值为0的像素即为背景区域，其余为主体区域，该过程的公式表达为：

M_i＝remove(I_i)

其中，I_i代表第i张输入视图，M_i代表其对应的背景掩膜图。

3.如权利要求1所述的基于采样优化的神经辐射场训练与渲染加速方法，其特征在于，

纹理划分模块中，首先，将输入视图从RGB色彩空间转换到LAB色彩空间：

然后，计算每个通道的颜色梯度幅度：

同时，计算主体部分的平均颜色梯度作为划分阈值：

4.如权利要求1所述的基于采样优化的神经辐射场训练与渲染加速方法，其特征在于，采样模块中，主体区域采样的光线数量占总光线数量的75％，背景区域采样25％的光线。

5.如权利要求1所述的基于采样优化的神经辐射场训练与渲染加速方法，其特征在于，神经辐射场训练模块将采样模块输出的三维点坐标及其视角方向作为输入，使用连续5D函数将其映射到颜色与体密度具体包括：

在每条射线上采样5D点，其中/>表示来自第i个训练视图的第k条光线，光线集合R_i由/>生成，I＝1,2,…,N。其中N是训练视图的数量，/>是所有训练视图的集合。5D点(x,d)包括三维坐标(x,y,z)以及光线方向(θ,φ)。神经辐射场/>将5D点映射到颜色c＝(r,g,b)以及体密度σ用来渲染每个像素的颜色，损失函数用于最小化所有光线产生的体渲染损失:

6.如权利要求1所述的基于采样优化的神经辐射场训练与渲染加速方法，其特征在于，采样数动态调整模块中，渲染视图的每一个像素都需要由单独的光线进行渲染，因此渲染光线数量可由设定分辨率的高和宽相乘得到：

R＝H×W

分段采样器三次采样点数的公式如下: