CN117058293A

CN117058293A - 一种场景自适应的注视点神经辐射场渲染方法及系统

Info

Publication number: CN117058293A
Application number: CN202311024441.0A
Authority: CN
Inventors: 王莉莉; 石雪怀; 吴健; 樊润泽
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-11-14

Abstract

本发明涉及一种场景自适应的注视点神经辐射场渲染方法及系统，其方法包括：S1：基于当前场景的训练集中所有图像的视点位置、方向以及所述图像像素的显著值和深度值构建场景视觉感知敏感度体；根据场景视觉感知敏感度体对椭球半径进行采样，构建多分辨率椭球神经辐射场表示结构；S2：构建基于矩形映射的注视点神经辐射场渲染网络，用于生成当前视点下的注视点渲染图像；S3：构建损失函数用于优化基于矩形映射的注视点神经辐射场渲染网络的参数，在保持注视点渲染图像的周边图像结构信息完整的同时，放宽对周边图像质量的约束。本发明提供的方法可基于少量场景拍摄图像，以高帧率为近眼显示设备合成该场景任意视角下的高质量注视点渲染结果。

Description

一种场景自适应的注视点神经辐射场渲染方法及系统

技术领域

本发明涉及计算机图形学领域，具体涉及一种场景自适应的注视点神经辐射场渲染方法及系统。

背景技术

随着计算机图形学以及深度学习技术的发展，研究人员提出一系列神经渲染技术，将传统的渲染技术与基于学习的三维场景表示技术相结合，取得了远超传统渲染技术的效果，其中最具代表性的是神经辐射场技术。2021年Mildenhall等人提出神经辐射场NeRF用于生成复杂场景在新视角下的渲染图像。NeRF使用一个全连接深度网络来表示场景，在训练时以一组多视角的物体图像为数据，通过优化该神经网络实现三维场景的重建。在新视角图像渲染时，NeRF以视角三维位置以及二维方向为输入，输出场景中每个体素位置的颜色以及体密度，而后通过体渲染方法渲染得到新视角下场景图像。实验结果表明相较于传统的神经渲染方法NeRF在渲染质量方面提升18％-27％。针对NeRF处理不同分辨率训练/测试图像时易模糊、失真的问题，2021年Barron等人提出Mip-NeRF。Mip-NeRF对NeRF进行了拓展，以连续值表示场景，并将NeRF中体素渲染步骤中的光线追踪(ray tracing)替换为锥跟踪(cone tracing)。实验结果表明，相较于NeRF，Mip-NeRF在数据集上的错误率降低了17％。2021年Park等人针对NeRF只能处理静态场景不能处理动态场景的问题提出Nerfies。Nerfies通过引入额外的多层感知机(MLP)，将输入的帧坐标映射到变形的规范坐标，并通过自适应掩蔽位置编码添加弹性正则化、背景正则化和粗到细变形正则化，从而实现动态场景重建以及新视角渲染。针对NeRF渲染时间较长的问题，2022年虞等人提出一个专门为NeRF渲染定制的加速器架构-ICARUS,ICARUS使用全光核(PLCore)执行完整的NeRF管道，同时将全连接操作转换为近似的可重构多重常数乘法(MCMs)，以提高计算效率。

为了进一步提升基于神经辐射场的渲染方法的合成性能以达到实时帧率，2022年邓等人提出了一种基于注视点的神经辐射场表示和图像合成方法(FovNeRF)，利用注视点渲染对神经辐射场渲染技术进行加速。具体而言，该方法构建了一种以用户为中心、由内向外的同心球三维神经辐射场表示结构，然后基于该神经辐射场表示结构结合人眼视敏度实时合成当前视点的注视点渲染结果。然后，FovNeRF的同心球三维神经辐射场表示结构难以很好地对复杂场景的辐射度进行表示，且该方法需要两个图像生成网络合成注视点渲染结果，难以达到近眼显示设备的帧率要求。因此，如何在不降低注视点图像合成质量的情况下，提升注视点图像的合成性能，从而满足近眼显示设备的帧率要求，成为一个亟待解决的问题。

发明内容

为了解决上述技术问题，本发明提供一种场景自适应的注视点神经辐射场渲染方法及系统。

本发明技术解决方案为：一种场景自适应的注视点神经辐射场渲染方法，包括：

步骤S1：预估当前场景的训练集中所有图像像素的显著值和深度值；基于所有图像的视点位置、方向以及所述图像像素的显著值和深度值构建场景视觉感知敏感度体；根据所述场景视觉感知敏感度体对椭球半径进行采样，根据采样的椭球半径构建多分辨率椭球神经辐射场表示结构；

步骤S2：构建基于矩形映射的注视点神经辐射场渲染网络，包括：矩形映射编码网络模块、推理网络模块以及逆矩形映射解码网络模块；给定当前视点位置和方向，获取训练集中所述当前视点位置和方向所对应的场景图像，将所述当前视点位置和方向、输出图像的宽高以及所述多分辨率椭球神经辐射场表示结构输入所述基于矩形映射的注视点神经辐射场渲染网络，生成当前视点下的注视点渲染图像；

步骤S3：构建损失函数用于优化所述基于矩形映射的注视点神经辐射场渲染网络的参数，使得在保持所述注视点渲染图像在周边区域结构信息完整的情况下，放宽对周边区域图像质量的约束，提升注所述注视点渲染图像的质量。

本发明与现有技术相比，具有以下优点：

1、本发明公开了一种场景自适应的注视点神经辐射场渲染方法，实现了一种多分辨率椭球神经辐射场表示结构，根据复杂场景内容自适应调整椭球半径提升场景高视觉感知敏感区域的球体密度，提升复杂场景的辐射场表示能力。在相同球层数的情况下，与现有的FovNeRF方法的同心球结构相比，本发明提升了复杂场景的辐射场表示能力。

2、本发明设计并实现了一种基于矩形映射的注视点神经辐射场渲染网络，将矩形映射集成到注视点神经辐射场渲染网络中，使用单个端到端的网络结构高效合成注视点渲染图像，在合成质量相似的情况下，与FovNeRF方法相比，本发明能够在近眼显示设备中以高帧率(≥60FPS)为复杂场景合成高质量注视点渲染图像，并且合成性能提升了1.3-1.8倍。

3、本发明针对基于矩形映射的注视点神经辐射场渲染网络，构建了损失函数对其进行参数优化，实现了参数量满足网络以高帧率合成注视点图像的前提下保持了注视点区域的高质量合成结果，并且本发明所需训练数据与传统神经辐射场渲染方法一致，无需针对目标场景重新构建注视点图像进行训练。

附图说明

图1为本发明实施例中一种场景自适应的注视点神经辐射场渲染方法的流程图；

图2为本发明实施例的场景自适应的注视点神经辐射场渲染方法的总体流程图；

图3为本发明与FovNeRF方法合成的注视点图像相对于基准的对比示意；

图4为本发明实施例中一种场景自适应的注视点神经辐射场渲染系统的结构框图。

具体实施方式

本发明提供了一种场景自适应的注视点神经辐射场渲染方法，可基于少量场景拍摄图像，以高帧率为近眼显示设备合成该场景任意视角下的高质量注视点渲染结果。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

为了更好地理解本发明实施例，首先阐述本发明的原理在于：

(1)通过降低周边区域的图像合成质量来降低神经辐射场渲染网络的参数量从而提升图像合成性能以满足近眼显示设备的帧率要求；

(2)通过训练集图像内容预估场景高视觉感知敏感区域，并提升神经辐射场表示结构在高视觉感知敏感区域的辐射场表示能力来提升新视点下的图像合成质量；

(3)通过将矩形映射集成到注视点神经辐射场渲染网络达到使用单个端到端的网络结构高效合成注视点渲染图像的目的，从而提升注视点图像的合成性能。

实施例一

如图1所示，本发明实施例提供的一种场景自适应的注视点神经辐射场渲染方法，包括下述步骤：

步骤S1：预估当前场景的训练集中所有图像像素的显著值和深度值；基于所有图像的视点位置、方向以及图像像素的显著值和深度值构建场景视觉感知敏感度体；根据场景视觉感知敏感度体对椭球半径进行采样，根据采样的椭球半径构建多分辨率椭球神经辐射场表示结构；

步骤S2：构建基于矩形映射的注视点神经辐射场渲染网络，包括：矩形映射编码网络模块、推理网络模块以及逆矩形映射解码网络模块；给定当前视点位置和方向，获取训练集中当前视点位置和方向所对应的场景图像，将当前视点位置和方向、输出图像的宽高以及多分辨率椭球神经辐射场表示结构输入基于矩形映射的注视点神经辐射场渲染网络，生成当前视点下的注视点渲染图像；

步骤S3：构建损失函数用于优化基于矩形映射的注视点神经辐射场渲染网络的参数，使得在保持注视点渲染图像在周边区域结构信息完整的情况下，放宽对周边区域图像质量的约束，提升注注视点渲染图像的质量。

在现实场景中，高视觉感知敏感区域通常集中在场景的某几个有限范围区域内而不是遍布整个场景。在神经辐射场渲染方法中，提升这些有限范围内的辐射场表示能力可以提升注视点渲染图像的合成质量。FovNeRF使用同心球结构对场景辐射度进行表示，该结构在场景的所有区域的辐射度表示能力一致。由于实时性要求，FovNeRF的同心球结构在虚拟现实应用中只能使用有限的球层数对场景辐射度进行表示，缺乏对于高视觉感知敏感区域辐射度的精准表示能力。因此，需要在在有限的球层数的情况下提升高视觉感知敏感区域的辐射度表示能力。本发明采用基于多分辨率椭球结构的辐射度表示算法以解决上述问题。

首先估计整个场景视觉感知敏感度，构建场景视觉感知敏感度体，然后基于场景视觉感知敏感度体利用高斯核密度估计方法采样多分辨率椭球结构中所有椭球半径。由于场景视觉感知敏感度体在高视觉感知敏感区域具有更高的视觉感知敏感度，因此采样的椭球半径也会更集中于高视觉感知敏感区域，从而提升这些区域的球层密度，更高的球层密度拥有更精准的辐射度表示能力。

下述为本发明基于多分辨率椭球结构的辐射度表示算法的伪代码，其中：

算法输入：训练集视点数据集合rays，训练集图像集合imgs，球层数N，训练集图像的宽高(W,H)，相机视域FOV，辐射度场的最近距离和最远距离(d_min,d_max)；

算法输出：多分辨率椭球辐射度表示结构Ω；

//初始化场景感知敏感度体Vol；

1 Vol←initVolume(N,d_min,d_max)

//计算Vol中每个体素的视觉感知敏感度值

2 for[img,ray]∈[imgs,rays]do

3 salImg←saliency(img)

4 depthImg←depth(img)

5 for px∈img do

6 px.o,px.dir←pxPosDir(px,W,H,FOV,ray)

7 px.depth←normDepth(depthImg[px],d_min,d_max)

8 pos←rayCast(px.o,px.dir,px.depth)

9

10

11 end for

12 end for

//基于高斯核密度估计方法估计整个场景视觉感知敏感度的概率密度函数并采样N个点生成采样点集合points

13 points←GaussianKernelSampling(Vol,N)

//对points中所有点在x、y、z的值进行排序，得到多分辨率椭球结构中所有椭球在x、y、z轴上的半径sortedRadius_x,y,z

14 sortedRadius_x,y,z←sort(points)

//根据sortedRadius_x,y,z中在x、y、z轴上的半径构建多分辨率椭球结构Ω

15 Ω←construct(sortedRadius_x,y,z)

16 returnΩ

在一个实施例中，上述步骤S1：预估当前场景的训练集中所有图像像素的显著值和深度值；基于所有图像的视点位置、方向以及图像像素的显著值和深度值构建场景视觉感知敏感度体；根据场景视觉感知敏感度体对椭球半径进行采样，根据采样的椭球半径构建多分辨率椭球神经辐射场表示结构，具体包括：

步骤S11：用最小障碍物显著物体检测方法得到训练集中图像像素的显著值；将显著值高于阈值的图像像素在场景对应的区域定义为高视觉感知敏感区域作为后续输出的注视点渲染图像；

给定训练集视点数据集合rays，rays中每个视点数据ray包括视点位置ray.o和视线方向ray.dir，训练集图像集合imgs，用于定义多分辨率椭球结构复杂度的球层数N，训练集图像的宽高(W,H)，辐射度场的最近距离和最远距离(d_min,d_max)；

首先初始化场景视觉感知敏感度体Vol，(上述伪代码第1行所示)。根据最近距离和最远距离(d_min,d_max)构建一个包含N×N×N个体素的体素结构Ω用于表示整个场景的视觉感知敏感度，即Ω中距离(d_min,d_min,d_min)最近的体素的位置为距离(d_min,d_min,d_min)最远的体素的位置为/> 每个体素的值表示场景中该区域的视觉感知敏感度；

然后，对于训练集图像中的每张图像img，使用最小障碍物显著物体检测方法获取img对应的显著性图像salImg(上述伪代码第3行所示)；

步骤S12：用单目图像深度估计方法得到训练集中图像像素的相对深度值，相对深度值的值域区域为[0,1]，将所有图像像素的相对深度值与预定义的神经辐射场表示结构的最近距离d_min和最远距离d_max进行映射，得到训练集中所有图像像素的深度值；

使用单目图像深度估计方法获取img对应的深度图像depthImg(上述伪代码第4行所示)；

步骤S13：根据训练集所有图像的视点位置、方向，以及所有图像像素对应的显著值和深度值，利用光线投射方法基于训练集所有图像的视点位置和方向，向当前场景内投射光线，光线从视点位置出发，经过深度值的步长获取光线在当前场景内所有碰撞点，根据碰撞点的位置、碰撞点对应像素的显著值计算场景视觉感知敏感度体Vol；

对于img中每个像素px，首先计算px在世界空间下的射线位置px.o和方向px.dir，由于每个像素的射线位置与视点位置一致，因此令px.o＝ray.o，使用像素射线方向计算方法得到px.dir，其计算公式1如下所示：

px.dir＝(Vec(Px,Py,-1)-ray.o)·cameraToWorldMatrix (1)

其中，cameraToWorldMatrix为相机空间到世界空间的坐标转移矩阵，(Px,Py)为px在相机空间下的坐标，计算公式如公式2所示：

其中，(px.x,px.y)为像素在屏幕空间的坐标，FOV为相机视域；

然后基于场景范围[d_min,d_max]对px在深度图像depthImg上的深度值规则化得到Px在场景中的深度估计值PxDepth(上述伪代码第6行所示)，计算公式如公式3所示：

其中，depthImg[Px]为Px在深度图像depthImg上的深度值。基于px在世界空间下的射线位置px.o和方向px.dir、深度估计值pxDepth，使用基于深度估计的光线投射方法得到px在场景中的位置pos(上述伪代码第8行所示)。

由于pos是一个三维场景中的位置点，本发明使用round函数将根据pos计算其在场景视觉感知敏感度体中对应的体素索引(上述伪代码第9行所示)，计算公式如公式4所示：

其中，是向上取整运算，/>是一个范围为从(0,0,0)至(N,N,N)的体素索引。将px在显著性图像salImg中的显著性值累加到/>中，得到Vol在索引为/>处的视觉感知敏感度值(上述伪代码第10行所示)。

当遍历完img中每个像素px，得到场景视觉感知敏感度体Vol。

步骤S14：使用高斯核密度估计方法分别在xyz三个轴分别对场景视觉感知敏感度体Vol进行采样，以采样结果为半径构建多分辨率椭球神经辐射场表示结构Ω。

在构建完场景视觉感知敏感度体后，使用基于高斯核密度估计方法估计整个场景视觉感知敏感度的概率密度函数，并根据视觉感知敏感度概率密度函数采样N个值，得到所有采样点集合points(上述伪代码第13行所示)。统计points在x、y、z轴上的值，并分别对x、y、z的值集合进行排序，得到多分辨率椭球结构中所有椭球在x、y、z轴上的半径sortedRadius_x,y,z(上述伪代码第14行所示)，并根据sortedRadius_x,y,z构建多分辨率椭球结构Ω并返回(上述伪代码第15-16行所示)。

在一个实施例中，上述步骤S2：构建基于矩形映射的注视点神经辐射场渲染网络，包括：矩形映射编码网络模块、推理网络模块以及逆矩形映射解码网络模块；给定当前视点位置和方向，获取训练集中当前视点位置和方向所对应的场景图像，将当前视点位置和方向、输出图像的宽高以及多分辨率椭球神经辐射场表示结构输入基于矩形映射的注视点神经辐射场渲染网络，生成当前视点下的注视点渲染图像，具体包括：

步骤S21：构建基于矩形映射的注视点神经辐射场渲染网络，包括：矩形映射编码网络模块、推理网络模块以及逆矩形映射解码网络模块；矩形映射编码网络模块、推理网络模块以及逆矩形映射解码网络模块均基于全连接网络构建而成；

下述为本发明基于矩形映射的注视点渲染图像合成算法的伪代码，其中，

输入：输出图像宽高(W,H)，相机视域FOV，矩形变换压缩系数σ，注视点位置(x_g,y_g)，多分辨率椭球辐射度表示结构Ω，视点数据ray；

输出：当前视点ray下的注视点渲染结果COL；

//根据输出图像的宽高、相机视域和视点数据构建屏幕空间像素位向集合P_sceen

1 P_sceen←pxPosDir(W,H,FOV,ray)

//将P_sceen中的像素的位置和方向数据传递到矩阵映射空间像素位向集合P_rec

2 P_rec←recMapping(P_sceen,ray,σ,x_g,y_g)

//基于P_rec中所有像素对应的射线位置和方向与多分辨率椭球辐射度表示结构Ω求交得到辐射度采样点p，所有像素在Ω上的采样点p构建集合P

3 P←ellipsoidSampling(Ω,P_rec)

//将采样点集合P编码成高频特征

4

//利用体素渲染方法得到所有像素在矩形映射空间下的辐射度估计值集合RAD_rec

5

//将RAD_rec中所有像素的辐射度估计值逆变换到屏幕空间得到屏幕空间下的辐射度估计值集合RAD

6 RAD←invRecMapping(RAD_rec,σ,W,H,x_g,y_g)

//将RAD送入全连接网络中进行解码并输出注视点渲染图像的合成结果

7 COL←decodeNN(RAD)

return COL

上述算法首先利用矩形映射编码网络模块进行逐像素编码(第1-4行)；然后将像素编码特征传入推理网络模块，得到当前视点下像素在矩形映射空间下的辐射度估计结果(第5行)；然后利用逆矩形映射解码网络模块对矩形映射空间下的辐射度估计结果进行特征解码，得到当前视点下像素在屏幕空间上的注视点渲染结果并输出(第6-8行)。

步骤S22：给定当前视点位置和方向，获取训练集中当前视点位置和方向所对应的场景图像，将当前视点位置、方向和输出图像的宽高的宽高以及多分辨率椭球神经辐射场表示结构输入矩形映射编码网络模块，输出场景图像的逐像素特征，具体包括：

步骤S221：根据输出图像的宽高[W,H]和视点数据ray构建屏幕空间像素位向集合P_sceen，其中，视点数据ray包括：视点位置ray.o和方向ray.dir；

在矩形映射编码网络模块中，首先根据输出图像的宽高[W,H]和视点数据ray构建屏幕空间像素位向集合P_sceen(第1行)。P_sceen是一个二维列表，存储屏幕空间上每个像素的射线位置和射线方向数据，即对于任意一个像素px，其在屏幕空间中的坐标为(x,y)，由于每个像素的射线位置与视点位置一致，因此有像素px的射线位置px.pos＝ray.o,像素px的射线方向px.dir利用上述公式(1)计算得到，并将[px.pos,px.dir]赋值给P_sceen[x,y]。

步骤S222：将屏幕空间像素位向集合P_sceen中的像素的位置和方向数据传递到矩阵映射空间像素位向集合P_rec；

为了减少注视点渲染图像合成网络的参数量，基于矩形变换将屏幕空间中的像素压缩到低分辨率的矩形映射空间中，并根据映射结果将屏幕空间像素位向集合P_sceen中的像素的位置和方向数据传递到矩阵映射空间像素位向集合P_rec(第2行)。具体地，对于任意一个像素px，其在屏幕空间中的坐标为(x,y)，矩形变换利用公式(5)将其到矩阵映射空间坐标(u,v)，并将该位置的像素位向数据传入矩形映射空间像素位向集合P_rec中，即px.dirP_rec[u,v]＝P_rec[u,v]∪P_sceen[x,y]。

其中，x范围在[0,W]中，y范围在[0,H]中，u范围在中，v范围在/>中，矩形映射空间的像素量为输出图像像素量的/>f为着色率下降控制参数，设置为0.35[138]；函数N_X(·)和N_Y(·)如公式(6)所示。

由于矩形映射变换将屏幕空间中的像素压缩到了低分辨率的矩形映射空间中，因此矩形映射空间中的单个像素可能会对应多个屏幕空间中的像素，即存在矩形映射空间坐标(u,v)，P_rec[u,v]包含多个位置数据和方向数据，对其进行均值处理，使得矩形映射空间像素位向集合P_rec中每个坐标位置只包含一个位置数据和方向数据。

步骤S223：基于P_rec中所有像素对应的位置和方向与多分辨率椭球辐射度表示结构Ω求交得到辐射度采样点p，所有像素在Ω上的采样点p构建集合P；

使用公式(7)基于矩阵映射空间像素位向集合P_rec中所有像素px对应的射线位置px.o、方向px.dir与多分辨率椭球辐射度表示结构Ω求交得到辐射度采样点p，基于所有像素在Ω上的采样点p构建集合P(第3行)。

其中，Δ＝B²-4·A·C，A、B、C的计算公式如公式(8)所示。

其中，radius为Ω中每个椭球在xyz轴上的半径；然后使用Mildenhall等人提出的高频转换方法将采样点集合P换成高频特征，如公式(9)所示，并将转换后的高频特征送入全连接网络编码得到编码特征(第4行)。

步骤S224：将采样点集合P编码成逐像素特征

γ(p)＝(sin(2⁰·π·p),cos(2⁰·π·p),...,sin(2⁴·π·p),cos(2⁴·π·p))(9)

其中，p为P中的采样点。

步骤S23：将逐像素特征输入推理网络模块，基于逐像素特征从多分辨率椭球神经辐射场表示结构进行采样并计算得到逐像素辐射度，得到矩形映射空间下的视图合成结果，具体包括：

将逐像素特征输入推理网络模块，利用体素渲染方法得到所有像素在矩形映射空间下的辐射度估计值集合RAD_rec作为视图合成结果；

本发明的辐射度推理与渲染算法与FovNeRF中的辐射度推理与渲染算法一致，将编码特征分别传入推理网络模块，再利用体素渲染方法得到所有像素在矩形映射空间下的辐射度估计值集合RAD_rec(第5行)。

步骤S24：将视图合成结果输入逆矩形映射解码网络模块进行解码，生成当前视点下的注视点渲染图像，具体包括：

将视图合成结果RAD_rec输入逆矩形映射解码网络模块进行解码，将RAD_rec逆变换到屏幕空间下的辐射度估计值集合RAD，并将RAD由全连接网络进行解码，生成当前视点下的注视点渲染图像COL。

在逆矩形映射解码网络模块中，利用公式(10)将RAD_rec中所有像素的辐射度估计值逆变换到屏幕空间(第6行)，并将转换后的辐射度特征送入全连接网络中进行解码并输出注视点渲染图像的合成结果(第7-8行)。

其中，(u,v)为RAD_rec中任意像素的坐标，函数N_U(·)和N_V(·)如公式(11)所示：

在传统的基于注视点的神经辐射场渲染方法FovNeRF中，合成注视点渲染图像需要构建多个视图合成网络分别合成注视点渲染图像中的注视点区域图像以及周边区域图像，然后对注视点区域图像和周边区域图像进行混合得到最终的注视点渲染图像。这要求神经辐射场渲染方法训练多个视图合成网络来生成注视点渲染图像，降低了神经辐射场渲染方法的注视点图像合成性能。且FovNeRF中多个网络的生成结果需要基于当前视点进行精准对齐，否则会造成注视点区域和周边区域图像断裂，影响最终混合的注视点渲染图像的质量，这增加了基于注视点的神经辐射场渲染方法的训练成本。因此，本本发明设计了基于矩形映射的注视点神经辐射场渲染网络，使用单个端到端的网络结构合成注视点渲染图像。相比于FovNeRF，本发明可以在减少网络结构中的参数量的情况下进行注视点渲染图像的合成，提升神经辐射场渲染方法在虚拟现实应用中的注视点图像的合成性能。

在一个实施例中，上述步骤S3：构建损失函数用于优化基于矩形映射的注视点神经辐射场渲染网络的参数，使得在保持注视点渲染图像在周边区域结构信息完整的情况下，放宽对周边区域图像质量的约束，提升注注视点渲染图像的质量，具体包括：

构建损失函数loss：

其中，COL为生成的当前视点下的注视点渲染图像，GT为当前视点下的真实图像，σ为基于矩形变换压缩系数，为基于σ对COL、GT进行均值压缩后的图像；px∈Fovea表示在注视点区域内的所有像素，MSE为均方误差函数，SSIM为结构相似性函数；/>中坐标为(x,y)的像素其计算公式(13)如下所示：

其中，W,H分别为COL和GT的宽和高；分别为/>和/>的宽和高。

由于在注视点渲染中，周边区域的图像渲染质量可以在一定程度上有所下降而不会降低感知渲染质量，因此本发明的场景自适应的注视点神经辐射场渲染方法提出了基于矩形映射的注视点神经辐射场渲染网络的损失函数对其进行优化，在保证合成的注视点渲染图像在注视点区域拥有较高质量且整体结构性信息不丢失的情况下，自适应地降低了对周边区域的图像合成质量的限制，且所需训练数据与传统神经辐射场渲染方法一致，无需针对目标场景重新构建注视点图像进行训练。

图2展示了为本发明场景自适应的注视点神经辐射场渲染方法的总体流程图。

图3为本发明与FovNeRF方法合成的注视点图像相对于基准的对比图，可以看出采用本发明方法相较于FovNeRF方法，生成的注视点渲染图像的质量更高，更接近基准图像。

本发明实施例使用的硬件配置是Intel i7-10700KF处理器，Nvidia Geforce3080Ti显卡，64G内存。运行在Windows 1064位系统上。所有涉及到效率测试的程序是都使用O2级优化进行编译的64位程序。

本发明公开了一种场景自适应的注视点神经辐射场渲染方法，实现了一种多分辨率椭球神经辐射场表示结构，根据复杂场景内容自适应调整椭球半径提升场景高视觉感知敏感区域的球体密度，提升复杂场景的辐射场表示能力。在相同球层数的情况下，与现有的FovNeRF方法的同心球结构相比，本发明提升了复杂场景的辐射场表示能力。

本发明设计并实现了一种基于矩形映射的注视点神经辐射场渲染网络，将矩形映射集成到注视点神经辐射场渲染网络中，使用单个端到端的网络结构高效合成注视点渲染图像，在合成质量相似的情况下，与FovNeRF方法相比，本发明能够在近眼显示设备中以高帧率(≥60FPS)为复杂场景合成高质量注视点渲染图像，并且合成性能提升了1.3-1.8倍。

本发明针对基于矩形映射的注视点神经辐射场渲染网络，构建了损失函数对其进行参数优化，实现了参数量满足网络以高帧率合成注视点图像的前提下保持了注视点区域的高质量合成结果，并且本发明所需训练数据与传统神经辐射场渲染方法一致，无需针对目标场景重新构建注视点图像进行训练。

实施例二

如图4所示，本发明实施例提供了一种场景自适应的注视点神经辐射场渲染系统，包括下述模块：

构建多分辨率椭球神经辐射场表示结构模块41，用于预估当前场景的训练集中所有图像像素的显著值和深度值；基于所有图像的视点位置、方向以及图像像素的显著值和深度值构建场景视觉感知敏感度体；根据场景视觉感知敏感度体对椭球半径进行采样，根据采样的椭球半径构建多分辨率椭球神经辐射场表示结构；

生成注视点渲染图像模块42，用于构建基于矩形映射的注视点神经辐射场渲染网络，包括：矩形映射编码网络模块、推理网络模块以及逆矩形映射解码网络模块；给定当前视点位置和方向，获取训练集中当前视点位置和方向所对应的场景图像，将当前视点位置和方向、输出图像的宽高以及多分辨率椭球神经辐射场表示结构输入基于矩形映射的注视点神经辐射场渲染网络，生成当前视点下的注视点渲染图像；

构建损失函数模块43，用于构建损失函数用于优化基于矩形映射的注视点神经辐射场渲染网络的参数，使得在保持注视点渲染图像在周边区域结构信息完整的情况下，放宽对周边区域图像质量的约束，提升注注视点渲染图像的质量。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种场景自适应的注视点神经辐射场渲染方法，其特征在于，包括：

2.根据权利要求1所述的场景自适应的注视点神经辐射场渲染方法，其特征在于，所述步骤S1：预估当前场景的训练集中所有图像像素的显著值和深度值；基于所有图像的视点位置、方向以及所述图像像素的显著值和深度值构建场景视觉感知敏感度体；根据所述场景视觉感知敏感度体对椭球半径进行采样，根据采样的椭球半径构建多分辨率椭球神经辐射场表示结构，具体包括：

步骤S11：用最小障碍物显著物体检测方法得到所述训练集中图像像素的显著值；将显著值高于阈值的图像像素在场景对应的区域定义为高视觉感知敏感区域；

步骤S12：用单目图像深度估计方法得到所述训练集中图像像素的相对深度值，所述相对深度值的值域区域为[0,1]，将所有图像像素的相对深度值与预定义的神经辐射场表示结构的最近距离d_min和最远距离d_max进行映射，得到所述训练集中所有图像像素的深度值；

步骤S13：根据所述训练集所有图像的视点位置、方向，以及所述所有图像像素对应的显著值和深度值，利用光线投射方法基于所述训练集所有图像的视点位置和方向，向当前场景内投射光线，所述光线从所述视点位置出发，经过所述深度值的步长获取所述光线在当前场景内所有碰撞点，根据所述碰撞点的位置、所述碰撞点对应像素的显著值计算场景视觉感知敏感度体Vol；

步骤S14：使用高斯核密度估计方法分别在xyz三个轴分别对所述场景视觉感知敏感度体Vol进行采样，以采样结果为半径构建多分辨率椭球神经辐射场表示结构Ω。

3.根据权利要求2所述的场景自适应的注视点神经辐射场渲染方法，其特征在于，所述步骤S2：构建基于矩形映射的注视点神经辐射场渲染网络，包括：矩形映射编码网络模块、推理网络模块以及逆矩形映射解码网络模块；给定当前视点位置和方向，获取训练集中所述当前视点位置和方向所对应的场景图像，将所述当前视点位置和方向、输出图像的宽高以及所述多分辨率椭球神经辐射场表示结构输入所述基于矩形映射的注视点神经辐射场渲染网络，生成当前视点下的注视点渲染图像，具体包括：

步骤S21：构建基于矩形映射的注视点神经辐射场渲染网络，包括：矩形映射编码网络模块、推理网络模块以及逆矩形映射解码网络模块；所述矩形映射编码网络模块、推理网络模块以及逆矩形映射解码网络模块均基于全连接网络构建而成；

步骤S22：给定当前视点位置和方向，获取训练集中所述当前视点位置和方向所对应的场景图像，将所述当前视点位置、方向和输出图像的宽高的宽高以及所述多分辨率椭球神经辐射场表示结构输入所述矩形映射编码网络模块，输出所述场景图像的逐像素特征；

步骤S23：将所述逐像素特征输入所述推理网络模块，基于所述逐像素特征从所述多分辨率椭球神经辐射场表示结构进行采样并计算得到逐像素辐射度，得到矩形映射空间下的视图合成结果；

步骤S24：将所述视图合成结果输入逆矩形映射解码网络模块进行解码，生成当前视点下的注视点渲染图像。

4.根据权利要求3所述的场景自适应的注视点神经辐射场渲染方法，其特征在于，所述步骤S22：给定当前视点位置和方向，获取训练集中所述当前视点位置和方向所对应的场景图像，将所述当前视点位置、方向和输出图像的宽高的宽高以及所述多分辨率椭球神经辐射场表示结构输入所述矩形映射编码网络模块，输出所述场景图像的逐像素特征，具体包括：

步骤S222：将所述屏幕空间像素位向集合P_sceen中的像素的位置和方向数据传递到矩阵映射空间像素位向集合P_rec；

步骤S223：基于P_rec中所有像素对应的位置和方向与所述多分辨率椭球辐射度表示结构Ω求交得到辐射度采样点p，所有像素在Ω上的采样点p构建集合P；

步骤S224：将采样点集合P编码成逐像素特征

5.根据权利要求4所述的场景自适应的注视点神经辐射场渲染方法，其特征在于，所述步骤S23：将所述逐像素特征输入所述推理网络模块，基于所述逐像素特征从所述多分辨率椭球神经辐射场表示结构进行采样并计算得到逐像素辐射度，得到矩形映射空间下的视图合成结果，具体包括：

将所述逐像素特征输入所述推理网络模块，利用体素渲染方法得到所有像素在矩形映射空间下的辐射度估计值集合RAD_rec作为视图合成结果。

6.根据权利要求5所述的场景自适应的注视点神经辐射场渲染方法，其特征在于，所述步骤S24：将所述视图合成结果输入逆矩形映射解码网络模块进行解码，生成当前视点下的注视点渲染图像，具体包括：

将所述视图合成结果RAD_rec输入逆矩形映射解码网络模块进行解码，将RAD_rec逆变换到屏幕空间下的辐射度估计值集合RAD，并将RAD由全连接网络进行解码，生成当前视点下的注视点渲染图像COL。

7.根据权利要求6所述的场景自适应的注视点神经辐射场渲染方法，其特征在于，所述步骤S3：构建损失函数用于优化所述基于矩形映射的注视点神经辐射场渲染网络的参数，使得在保持所述注视点渲染图像在周边区域结构信息完整的情况下，放宽对周边区域图像质量的约束，提升注所述注视点渲染图像的质量，具体包括：

构建损失函数：

其中，COL为生成的当前视点下的注视点渲染图像，GT为当前视点下的真实图像，σ为基于矩形变换压缩系数，为基于σ对COL、GT进行均值压缩后的图像；px∈Fovea表示在注视点区域内的所有像素，MSE为均方误差函数，SSIM为结构相似性函数；/>中坐标为(x,y)的像素其计算公式如下所示：

其中，W,H分别为COL和GT的宽和高；分别为/>和/>的宽和高。

8.一种场景自适应的注视点神经辐射场渲染系统，其特征在于，包括下述模块：

构建多分辨率椭球神经辐射场表示结构模块，用于预估当前场景的训练集中所有图像像素的显著值和深度值；基于所有图像的视点位置、方向以及所述图像像素的显著值和深度值构建场景视觉感知敏感度体；根据所述场景视觉感知敏感度体对椭球半径进行采样，根据采样的椭球半径构建多分辨率椭球神经辐射场表示结构；

生成注视点渲染图像模块，用于构建基于矩形映射的注视点神经辐射场渲染网络，包括：矩形映射编码网络模块、推理网络模块以及逆矩形映射解码网络模块；给定当前视点位置和方向，获取训练集中所述当前视点位置和方向所对应的场景图像，将所述当前视点位置和方向、输出图像的宽高以及所述多分辨率椭球神经辐射场表示结构输入所述基于矩形映射的注视点神经辐射场渲染网络，生成当前视点下的注视点渲染图像；

构建损失函数模块，用于构建损失函数用于优化所述基于矩形映射的注视点神经辐射场渲染网络的参数，使得在保持所述注视点渲染图像在周边区域结构信息完整的情况下，放宽对周边区域图像质量的约束，提升注所述注视点渲染图像的质量。