CN116070687A

CN116070687A - 一种基于全局光线空间仿射变换的神经网络光场表示方法

Info

Publication number: CN116070687A
Application number: CN202310199947.9A
Authority: CN
Inventors: 李宁; 居法银; 张志磊
Original assignee: Zhejiang Unisom New Material Technology Co ltd
Current assignee: Zhejiang Unisom New Material Technology Co ltd
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-05-05
Anticipated expiration: 2043-03-06
Also published as: CN116070687B

Abstract

本发明属于视图合成技术领域，提供了一种基于全局光线空间仿射变换的神经网络光场表示方法，利用光线信息生成三维场景中的新视图，包括：获取光线坐标，并基于所述光线坐标通过神经网络提取坐标特征；对得到的特征集通过定位网络进行全局空间仿射变换以得到具有位置编码的4D射线坐标；基于所述4D射线坐标的输入，并沿每条射线输出辐射以生成对应的光场网络。本发明的优点在于提出一种新的神经光场表示，它采用光线空间嵌入网络，在没有任何几何约束的情况下实现了小基线视图合成的最先进质量。

Description

一种基于全局光线空间仿射变换的神经网络光场表示方法

技术领域

本发明涉及视图合成技术领域，尤其涉及一种基于全局光线空间仿射变换的神经网络光场表示方法。

背景技术

视图合成是计算机视觉和图形学中的一个重要问题。它的目标是在给定一些姿势输入图像的情况下，从未观察到的相机姿势中逼真地渲染场景。现有方法通过优化场景外观和几何形状的一些底层表示，然后从新视图渲染该表示来解决这个问题。

神经辐射场（NeRF）可能是这些神经表示中最受欢迎的，这方法在视图合成的渲染质量方面设定了最先进的水平。辐射场是一个5D函数，它将 3D点x和3D方向~ω（只有2个自由度）映射到离开x方向~ω的辐射，以及点x处的体积密度。

光场是辐射场的积分，它将射线参数直接映射到沿该射线的综合辐射度。对于光场，一个常见的假设是，无论光线来源如何，这个积分都保持不变(即，辐射度沿射线是恒定的)，当场景几何的凸包不包含任何用于渲染的视点时，这个假设成立。在这个假设下，光场是射线在4D射线空间中的函数。

由于基于坐标的神经表示已成功用于从一组地面实况图像中学习辐射场，人们可能会认为它们也可用于表示和学习光场。然而，学习光场比学习辐射场更具挑战性。使用与NeRF相同的神经网络架构来参数化光场会导致视图合成的插值质量较差。另一方面，面临着只从部分观测中学习定义在4D射线空间上的函数的问题——输入的训练图像只覆盖了整个4D空间的几个2D切片。此外，光场不需要任何形式的场景几何，这使得它们能够捕捉复杂的视图依赖性，但在以几何有意义的方式插入看不见的光线方面提出了重大挑战。

发明内容

本发明的目的在于提供一种基于全局光线空间仿射变换的神经网络光场表示方法，用以解决上述问题。

为了实现上述目的，本发明采用的技术方案为：

一种基于全局光线空间仿射变换的神经网络光场表示方法，利用光线信息生成三维场景中的新视图，包括：

获取光线坐标r，并基于所述光线坐标通过神经网络提取坐标特征；

对得到的特征集通过定位网络进行全局空间仿射变换以得到具有位置编码的4D射线坐标；

基于所述4D射线坐标的输入，并沿每条射线的颜色输出以表示所生成的光场网络；

所述光场网络被表示为：；其中，A，b为提取的坐标特征。

进一步的，所述神经网络被表示为：

；

所述神经网络的输出为一个N×4矩阵A，以及一个表示偏置的N维向量b。

进一步的，所述定位网络包括定位网络处理和网络生成过程，将所述两个过程处理得到的数据与光线坐标卷积得到具有位置编码的4D射线坐标。

进一步的，定位网络处理过程被表示为以特征图为输入，输出应用于所述特征图的变换参数。

进一步的，所述定位网络包括但不限于选择全连接网络或卷积网络，但应至少包括一最终回归层以产生变换参数。

进一步的，所述网络生成过程被表示为以输入特征图中特定位置为中心的采样内核来计算得到输出像素，所述各输出像素被放置于一个规则网络上以形成输出特征图。

进一步的，对特征集进行全局空间仿射变换被表示为：

；

其中，是输出特征图中规则网格的目标坐标，是输入特征图中定义样本点的源坐标，是仿射变换矩阵，为规则网络，为全局空间仿射变换。

进一步的，变换允许对输入特征图应用裁剪、平移、旋转、缩放及倾斜中的一种或组合。

本发明与现有技术相比，至少包含以下有益效果：

（1）提出一种新的神经光场表示，它采用光线空间嵌入网络，在没有任何几何约束的情况下实现了小基线视图合成的最先进质量；

（2）引入了一个新的可学习模块，即全局空间仿射变换模块，它明确允许对网络内的数据进行空间操作；

（3）在稀疏和密集区域（例如，复杂的反射和折射），对于现有的基于体积的方法难以表示的问题，本方法改进了对视图相关外观的捕获；

（4）本方法中的光场表示可以实现与现有模型相当的性能，并实现更好的质量、速度和内存之间的权衡。

附图说明

图1是本发明实施例中的神经光场表示方法的步骤流程图；

图2是本发明实施例中的算法模型总体框架示意图。

具体实施方式

需要说明，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

以下是本发明的具体实施例，并结合附图对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

如图1至图2所示，本发明所提供的一种基于全局光线空间仿射变换的神经网络光场表示方法，其利用光线信息生成三维场景中的新视图，包括：

S1、获取光线坐标r，并基于所述光线坐标通过神经网络提取坐标特征；

S2、对得到的特征集通过定位网络进行全局空间仿射变换以得到具有位置编码的4D射线坐标；

S3、基于所述4D射线坐标的输入，并沿每条射线的颜色输出以表示所生成的光场网络；

所述光场网络被表示为：；其中，A，b为提取的坐标特征。

具体的，在提取特征阶段，我们采用了一个人工神经网络：

。

其中，神经网络的输出为一个N×4矩阵A，以及一个表示偏置的N维向量b，它们共同构成一个4D→ND的仿射变换. 该仿射变换在被位置编码并传递到光场网络之前应用于输入光线坐标r。

需要注意的是，使网络学习仿射变换，而不是对每条射线使用单一的z深度，以允许网络更好地捕获光场中的角频率（由于物体深度）以及空间频率（由于物体纹理）。

定位网络包括定位网络处理和网络生成过程，将所述两个过程处理得到的数据与光线坐标卷积就能得到具有位置编码的4D射线坐标。

定位网络处理过程被表示为以特征图为输入，输出应用于所述特征图的变换参数θ.

定位网络采用输入特征图，其中宽度为W、高度为H、通道数为C，输出为应用于特征图的仿射变换的参数：。

其中，θ的大小可以根据参数化的变换类型而变化，定位网络函数可以采用任何形式，例如全连接网络或卷积网络，但应包括最终回归层以产生转换参数θ。

关于网络生成过程：

为了执行输入特征图的仿射变换，每个输出像素是通过应用以输入特征图中特定位置为中心的采样内核来计算的。

通常，输出像素被定义为位于像素的规则网格上，形成输出特征图，其中H₀和 W₀是网格的高度和宽度，C为通道数。

此外通过像素，我们指的是通用特征图的元素，不一定是图像。

为了清楚说明，暂时假设是2D仿射变换。在这种仿射情况下，逐点变换是：

；

其中，是输出特征图中规则网格的目标坐标，是输入特征图中定义样本点的源坐标，是仿射变换矩阵。我们使用高度和宽度归一化坐标，这样在输出的空间范围内时，就会在输入的空间范围内（对于y坐标也是如此）。源/目标变换和采样等价于标准图形中使用的纹理映射和坐标。

本方法中定义的变换允许对输入特征图应用裁剪、平移、旋转、缩放和倾斜中的一种或组合，并且只需要定位网络产生6个参数（的6个元素）。

也可以更一般，例如具有8个参数的平面投影变换、分段仿射或薄板样条。实际上，转换可以具有任何参数化形式，只要它在参数方面是可微的——这至关重要地允许梯度从样本点反向传播到定位网络输出θ。

如果变换以结构化的低维方式进行参数化，则可以降低分配给定位网络的任务的复杂性。例如，结构化和可微分变换的通用类，它是注意力、仿射、投影和薄板样条变换的超集，是。其中，B是目标网格表示，是由θ参数化的矩阵。在这种情况下，不仅可以学习如何预测样本的θ，还可以学习手头任务的B。

本发明提出了一种新的光线空间嵌入方法来学习神经光场，它在小基线数据集上达到了最先进的质量。为了更好地处理稀疏输入，利用局部光场的体素网格进行空间细分，以增加渲染时间为代价提高了质量。我们的细分表示可以实现与现有模型相当的性能，并在质量、速度和内存之间实现更好的平衡。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于全局光线空间仿射变换的神经网络光场表示方法，利用光线信息生成三维场景中的新视图，其特征在于，包括：

所述光场网络被表示为：；其中，A，b为提取的坐标特征。

2.根据权利要求1所述的一种基于全局光线空间仿射变换的神经网络光场表示方法，其特征在于，所述神经网络被表示为：

；

3.根据权利要求1所述的一种基于全局光线空间仿射变换的神经网络光场表示方法，其特征在于，所述定位网络包括定位网络处理和网络生成过程，将两个过程处理得到的数据与光线坐标卷积得到具有位置编码的4D射线坐标。

4.根据权利要求3所述的一种基于全局光线空间仿射变换的神经网络光场表示方法，其特征在于，定位网络处理过程被表示为以特征图为输入，输出应用于所述特征图的变换参数。

5.根据权利要求4所述的一种基于全局光线空间仿射变换的神经网络光场表示方法，其特征在于，所述定位网络包括但不限于选择全连接网络或卷积网络，但应至少包括一最终回归层以产生变换参数。

6.根据权利要求4所述的一种基于全局光线空间仿射变换的神经网络光场表示方法，其特征在于，所述网络生成过程被表示为以输入特征图中特定位置为中心的采样内核来计算得到输出像素，所述各输出像素被放置于一个规则网络上以形成输出特征图。

7.根据权利要求6所述的一种基于全局光线空间仿射变换的神经网络光场表示方法，其特征在于，对特征集进行全局空间仿射变换被表示为：

；

8.根据权利要求7所述的一种基于全局光线空间仿射变换的神经网络光场表示方法，其特征在于，变换允许对输入特征图应用裁剪、平移、旋转、缩放及倾斜中的一种或组合。