CN117015806A

CN117015806A - 高分辨率神经渲染

Info

Publication number: CN117015806A
Application number: CN202280021761.8A
Authority: CN
Inventors: S·J·加尔宾; M·A·科瓦尔斯基; M·A·约翰逊
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2021-03-17
Filing date: 2022-03-01
Publication date: 2023-11-07
Also published as: US11640690B2; EP4309132A1; CA3211009A1; KR20230156105A; BR112023016296A2; IL305340A; JP2024510265A; US20220301257A1; MX2023010904A; AU2022237329A1

Abstract

提供了用于训练机器学习模型，以基于位置数据以及基于方向数据的与特定视图方向相关联的加权方案来生成密度值和辐射分量，从而计算沿着多个相机光线的每个点的最终RGB值的方法和系统。位置数据和方向数据是从特定静态场景的一组训练图像中提取的。辐射分量、密度值和加权方案被缓存，以实现高效的图像数据处理，从而对采样的每个点执行体积渲染。基于采样的每个点的体积渲染生成静态场景的新颖视点。

Description

高分辨率神经渲染

背景技术

存在许多正在研究的用于渲染包括不同材料和具有复杂几何形状的对象的三维(3D)场景的连续3D视点的方法。此类研究的目标是能够从有限数量的(二维)2D训练图像中渲染场景的新颖视角。此类静态场景能够由连续的5D或6D函数表示，该函数将位置和方向作为输入并输出在该位置处在该方向上的辐射率。替代地，此类函数的余域是空间中每个方向和点的辐射率。一些研究涉及将对象和场景编码到如多层感知器(MLP)的神经网络中。

神经辐射场(NeRF)是最近发现的一种方法，其训练神经网络以基于该场景的多个图像来捕获该场景。一旦网络经过训练，它就可以用于从任何视点以及利用任何相机参数生成场景的图像。然而，虽然NeRF方法能够准确地渲染场景的精细细节，但渲染新颖视点的过程非常缓慢，并且在计算上非常昂贵。NeRF低效率的主要原因是对于渲染的每个像素都必须调用神经网络多达200次。对于1MPix图像，这会导致对神经网络进行2亿次调用来渲染单个图像。因此，为了渲染单个图像，计算系统需要延长的时间段来处理数据才能获得这些详细的结果。

鉴于前述，存在对用于生成训练数据和训练模型的改进的系统和方法的持续需要，其包括部署这样的模型，以用于改进的图像渲染。

本文要求保护的主题不限于解决任何缺点或仅在诸如上述那些环境中操作的实施例。相反，该背景仅被提供来说明可以实践本文描述的一些实施例的一个示例性技术领域。

发明内容

所公开的实施例涉及用于训练机器学习模型以生成静态场景的颜色输出的实施例。识别三维(3D)静态场景。在获得包括3D静态场景的多个视点的一组训练图像之后，识别与该组训练图像相对应的多个相机光线。对沿着多个相机光线的一组点进行采样以获得该组点中包括的每个点的位置数据和方向数据。然后，根据位置数据训练第一神经网络，并且由第一神经网络处理位置数据以生成密度值和多个辐射分量。多个辐射分量和密度值被缓存。

还根据方向数据训练第二神经网络。方向数据由第二神经网络处理以生成用于多个视图方向的加权方案。加权方案包括要应用于多个辐射分量的多个权重值。针对多个视图方向中包括的每个视图方向缓存加权方案，并且通过根据与特定视图方向相关联的缓存的加权方案来组合缓存的多个辐射分量，生成最终颜色值。

一些实施例还涉及用于基于针对静态场景获得的缓存的方向数据和位置数据来生成静态场景的新颖视点的系统和方法。在这样的实施例中，计算系统识别三维静态场景和从其渲染三维静态场景的二维图像的新颖视点。访问包括在三维静态场景的体积表示中的多个点的辐射分量的缓存的数据库，以及多个视图方向的加权方案的缓存的数据库。对于在多个点中包括的每个点，通过根据与多个视图方向中的一个或多个新颖视图方向相对应的加权方案的缓存的数据库中包括的加权方案来组合每个点的一组辐射分量，从而生成最终颜色值。

提供本发明内容是为了以简化的形式介绍概念的选择，这些概念将在下面的具体实施方式中进一步描述。本发明内容无意于识别所要求保护的主题的关键特征或基本特征，也无意于用作确定所要求保护的主题的范围的帮助。

附加的特征和优点将在下面的描述中阐述，并且部分地从描述中将是显而易见的，或者可以通过本文的教导的实践而了解到。本发明的特征和优点可以通过所附权利要求中特别指出的手段和组合来实现和获得。本发明的特征将从下面的描述和所附权利要求中变得更加明显，或者可以通过如下文阐述的本发明的实践来了解。

附图说明

为了描述获得上述和其他优点和特征的方式，将参考附图中示出的具体实施例对上面简要描述的主题进行更具体的描述。要理解的是，这些附图仅描绘了典型的实施例并且因此不应被认为是对范围的限制，将通过使用附图以额外的特性和细节来描述和解释实施例，其中：

图1示出了其中计算系统并入和/或用于执行所公开的实施例的所公开的方面的计算环境。

图2A和图2B示出了用于基于训练图像生成静态场景的新颖视点的示例实施例。

图3示出了用于训练机器学习模型以生成静态场景的体积表示中所包括的点的颜色值的过程流程图的传统实施例。

图4示出了用于训练机器学习模型以基于解纠缠的位置和方向数据生成静态场景的体积表示中所包括的点的颜色值的过程流程图的新颖实施例。

图5示出了用于通过访问缓存的辐射分量和缓存的加权方案来生成静态场景的新颖视点的过程流程图的一个实施例。

图6示出了流程图的一个实施例，该流程图具有用于训练机器学习模型以生成静态场景的体积表示中所包括的点的颜色值的多个动作。

图7示出了流程图的一个实施例，该流程图具有用于生成静态场景的体积表示中所包括的点的颜色值以生成静态场景的新颖视点图像的多个动作。

具体实施方式

所公开的实施例涉及用于生成三维场景的新颖视点以及用于训练和缓存被配置为生成三维场景的新颖视点的神经网络的实施例。

现在将注意力转向图1，其示出了可以包括和/或用于实现所公开的发明的各方面的计算系统110的组件。如图所示，计算系统包括多个机器学习(ML)引擎、模型、神经网络以及与机器学习引擎和模型的输入和输出相关联的数据类型。

首先将注意力转向图1，其示出了作为计算环境100的一部分的计算系统110，计算环境100还包括与计算系统110通信(经由网络130)的远程/第三方系统120。计算系统110被配置为训练用于体积渲染、图像渲染、图像数据处理的多个机器学习模型，并且更具体地，训练机器学习模型以基于缓存的基于位置和基于方向的神经网络生成静态三维场景的体积表示中的每个点的光值。计算系统110还被配置为生成被配置用于训练机器学习模型的训练数据。

计算系统110例如包括一个或多个处理器112(诸如一个或多个硬件处理器)和存储计算机可执行指令118的存储装置(即，硬件存储设备140)，其中硬件存储设备140中的一个或多个能够容纳任意数量的数据类型和任意数量的计算机可执行指令118，计算系统110被配置为，当计算机可执行指令118由一个或多个处理器112执行时，通过指令118实现所公开实施例的一个或多个方面。还示出计算系统110包括用户接口114和输入/输出(I/O)设备116。

如图1所示，硬件存储设备140被示为单个存储单元。然而，应当理解，硬件存储设备140可配置为分布式存储装置，其分布到若干单独的并且有时是远程的和/或第三方系统120。计算系统110还可以包括分布式系统，其中计算系统110的一个或多个组件由彼此远离且各自执行不同任务的不同离散系统维护/运行。在一些情况下，多个分布式系统执行类似和/或共享的任务以实现所公开的功能，例如在分布式云环境中。

硬件存储设备140被配置为存储不同的数据类型，包括本文描述的图像数据141、相机数据142、位置数据143、方向数据144、辐射分量数据145、最终RGB数据146、加权方案数据147、计算机可执行指令118、体积密度数据148和缓存的MLP模型。

存储装置(例如，硬件存储设备140)包括用于实例化或执行计算系统110中所示的模型和/或引擎中的一个或多个的计算机可执行指令118。模型被配置为机器学习模型或经机器学习的模型，例如深度学习模型和/或算法和/或神经网络。在一些情况下，一个或多个模型被配置为引擎或处理系统(例如，集成在计算系统110内的计算系统)，其中每个引擎(即，模型)包括一个或多个处理器(例如，硬件处理器112)以及对应于计算系统110的计算机可执行指令118。

图像数据141包括以各种视角或视图方向捕获的多个图像。另外或替代地，图像数据141包括与从其收集数据的特定源相对应的元数据(即，属性、信息、对象或场景标识符等)。元数据包括与对象或静态场景的类型相关联的属性、图像数据141的特性和/或关于在何处、何时和/或如何获得图像数据141的信息。与特定场景或对象相对应的多个图像被用作训练图像来训练神经网络以渲染包括在多个图像中的特定静态场景或对象的新颖视点。

相机数据142包括关于所使用的相机的类型的数据，无论其是模拟的(或虚拟的)相机还是真实的相机、与静态场景的体积表示相关的相机光线的方向、相机镜头信息、相机型号标识符、相机捕获角度的高度、距静态场景内的一个或多个对象的距离以及与相机和捕获图像相关的其他属性。

位置数据143被配置为数据集，其中每个数据点包括沿着相机光线(由真实相机或虚拟相机模拟)采样的点的位置标识符。位置标识符被配置为指定静态场景的有界体积表示内的特定点的三维坐标(例如，笛卡尔坐标)。因此，位置数据143还包括体积表示的边界数据以及体积表示内的一个或多个对象的位置。

针对沿着体积表示内模拟的每个相机光线而采样的每个点而存储位置数据143。为了提高存储效率，在缓存经训练的神经网络时，生成稀疏体积以用于保存辐射分量和权重。权重保存在稀疏体积中，因为已知输入位于球体的表面上(因此表面之外的任何地方都是空的空间)。辐射分量也保存在稀疏体积中，因为由于了解网络输出的密度值，因此我们已知场景中的空部分。为了进一步提高存储效率，仅针对占用空间(例如，静态场景中的对象或材料占用的体积空间)而存储位置数据143，其中体积数据集中不包括空白空间(也称为稀疏体积空间)。

方向数据144被配置为数据集，其中每个数据点包括沿着相机光线(由真实相机或虚拟相机模拟)采样的点的视图方向标识符。视图方向是在其上对点进行采样的光线的方向。此外，方向数据是光线方向，其对于沿单个光线的所有点来说都是相同的。方向标识符被配置为指定点的特定视角的三维向量。针对沿着体积表示内模拟的每个相机光线采样的每个点而存储方向数据144。在一些情况下，方向数据144也从包括相机的图像捕获角度的相机数据142导出，然后该数据对应于特定点的观看方向。位置数据143和方向数据144包括在静态场景的体积表示内采样的对应点的数据。换句话说，采样的每个点都具有位置数据143和方向数据144。

辐射分量数据145包括针对静态场景的体积表示中包括的每个点的彩色图、深辐射图、RGB分量和/或辐射分量的集合。换句话说，针对静态场景内3D栅格上采样的一组点生成辐射分量或RGB值。这些栅格具有各种大小，例如256^3和/或512^3点。该组辐射分量被配置为根据加权方案(例如，加权方案数据147)进行组合。包括在加权方案数据147中的每个加权方案对应于静态场景的特定观看方向。每个加权方案包括多个权重值，这些权重值确定要被组合以形成最终RGB值(例如，最终RGB数据146)的一组辐射分量中的每个辐射分量的百分比。权重值以百分比形式存储。可替代地，权重值不限于总和为一。

硬件存储设备140还存储体积密度数据148，其包括多个密度值，这些密度值被配置为表示静态场景的体积表示中所包括的点的不透明度。密度值对应于静态场景中包括的材料或对象的不透明度并且等于或大于零。密度的零值表示低不透明度或透明点。密度的较高值表示高不透明度或更实心的点。密度值与RGB值一起可以表示静态场景的体积表示中包含的材料和对象的不同点的辐射率、透明度、反射率或其他属性。

硬件存储设备140还被配置为存储对应于机器学习模型的缓存网络(例如，缓存的MLP模型149)，该机器学习模型被配置为基于静态场景的一组训练图像来生成静态场景的新颖视点。缓存的MLP模型149包括由位置数据143参数化以生成体积密度数据148和辐射分量数据145的第一多层感知器(MLP)网络。辐射分量数据145和体积密度数据148被缓存，其中计算系统(例如，计算系统110)可以访问缓存的数据以对静态场景执行高效的体积渲染。缓存的MLP模型149还包括由方向数据144参数化以生成加权方案数据147的第二MLP网络。根据各种视图方向缓存由第二MLP网络生成的加权方案，其中计算系统可以在以下情况下访问加权方案：执行体积渲染和其他图像处理任务。

用于存储机器学习(ML)引擎150的附加存储单元当前在图1中被示出为存储多个机器学习模型和/或引擎。例如，计算系统110包括以下一项或多项：数据检索引擎151、采样引擎152、特征提取引擎153、训练引擎154、组合引擎155、实现引擎156、渲染引擎157，它们被单独地和/或共同地配置为实现本文描述的不同功能。

例如，数据检索引擎151被配置为定位和访问包括一种或多种数据类型的数据源、数据库和/或存储设备，数据检索引擎151可以从这些数据源、数据库和/或存储设备中提取要用作为训练数据的数据集或子集。数据检索引擎151从数据库和/或硬件存储设备接收数据，其中数据检索引擎151被配置为重新格式化或以其他方式扩充接收到的、要用作训练数据的数据。另外或替代地，数据检索引擎151与包括远程/第三方数据集和/或数据源的一个或多个远程/第三方系统(例如，远程/第三方系统120)通信。在一些情况下，这些数据源包括记录文本、图像和/或视频的视觉服务。

数据检索引擎151访问包括以下的电子内容：图像数据141、相机数据142、位置数据143、方向数据144、辐射分量数据145、最终RGB数据146、加权方案数据147、体积密度数据148和/或其他类型的视听数据，包括视频数据、图像数据、全息数据、3-D图像数据等。数据检索引擎151是智能引擎，其能够学习最佳数据集提取过程，从而以及时地方式提供足够量的数据以及检索最适用于机器学习模型/引擎将针对其被训练的期望应用的数据。例如，数据检索引擎151可以学习哪些数据库和/或数据集将生成训练数据，该训练数据将训练模型(例如，针对特定查询或特定任务)以提高期望的图像处理技术中该模型的准确性、效率和功效。

数据检索引擎151定位、选择和/或存储原始记录的源数据(例如图像数据141)，其中数据检索引擎151与包括在计算系统110中的一个或多个其他ML引擎和/或模型通信。在这种情况下，与数据检索引擎151通信的其他引擎能够接收已经从一个或多个数据源检索(即，提取、拉取等)的数据，使得接收到的数据被进一步增强和/或应用于下游过程。例如，数据检索引擎151与训练引擎154和/或实现引擎156通信。

采样引擎152被配置为识别静态场景的体积表示内的模拟的相机光线。采样引擎152然后识别沿特定相机光线的一组点(即，采样一组点)。基于采样的一组点，特征提取引擎153访问每个点的位置数据143和方向数据144。特征提取引擎153被配置用于从电子内容、图像数据141和相机数据142中提取位置数据143和/或方向数据144信息。

训练引擎154与数据检索引擎151、采样引擎152、特征提取引擎153或实现引擎156中的一个或多个通信。在这样的实施例中，训练引擎154被配置为接收来自数据检索引擎151的一组或多组训练数据。在接收到与特定应用或任务相关的训练数据之后，训练引擎154根据训练数据来训练一个或多个模型。训练引擎154被配置为经由无监督训练或有监督训练来训练模型。

训练引擎154被配置为根据包括静态场景的一组训练图像而训练一个或多个机器学习模型(例如，MLP神经网络)以生成静态场景的新颖视点。更具体地，训练引擎154被配置为根据位置数据而训练第一MLP网络以生成体积密度数据148和辐射分量数据145。训练引擎154还被配置为根据方向数据144而训练第二MLP网络以生成加权方案数据147。训练引擎154被配置为训练机器学习模型以最小化静态场景的渲染图像与静态场景的对应训练图像之间的误差。对两个神经网络(例如，方向神经网络和位置神经网络)的训练作为两个单独的步骤串联执行。可替代地，对由位置数据参数化的第一MLP网络的训练和对由方向数据参数化的第二MLP网络的训练并行或同时发生。在此类实施例中，训练损失(通过训练过程优化的函数)将渲染的像素与地面真实(ground truth)像素进行比较并渲染单个像素，因此需要来自两个神经网络的输出以最小化渲染的像素与地面真实像素之间的损失。

计算系统110包括组合引擎155，其被配置为基于与特定观看方向相关联的加权方案来组合与特定点相对应的一组辐射分量数据，以生成该特定点的最终RGB值。

计算系统110还包括实现引擎156，其与计算系统110中包括的模型和/或ML引擎150中的任一个(或所有模型/引擎)通信，使得实现引擎156被配置为实现、启动或运行多个ML引擎150的一个或多个功能。在一个示例中，实现引擎156被配置为操作数据检索引擎151，使得数据检索引擎151在适当的时间检索数据以便能够为训练引擎154生成训练数据。

实现引擎156促进一个或多个ML引擎150之间的过程通信和通信定时，并且被配置为实现和操作机器学习模型(或者一个或多个ML引擎)150)，该机器学习模型被配置为访问缓存的MLP模型以生成每点的光值(例如，辐射值)、颜色值、执行体积渲染、以及基于先前未被包括在一组训练图像中的图像捕获的视图方向而生成新颖的图像。

渲染引擎157被配置为基于最终RGB值和密度值对沿特定相机光线采样的每个点执行体积渲染，对静态场景的体积表示中包括的每个点执行体积渲染，以及渲染包含静态场景的新颖视点的新2D图像。渲染引擎157还被配置为基于静态场景的多个新颖视点和/或一组捕获的图像来生成静态场景的连续3D视图。更具体地，通过以下方式来渲染图像：组合该组辐射分量数据以生成最终颜色值并且然后使用最终颜色值和特定点的密度值来执行体积渲染。

渲染引擎157支持多种渲染模式，例如体积查找和光线追踪的体积查找。在体积查找中，对神经网络的调用被缓存查找取代。在光线追踪的体积查找中，实现硬件加速光线追踪以跳过三维静态场景的体积表示中包含的空白空间。碰撞网格是根据从密度体积导出的符号-距离函数计算得出的。在一些实例中，对于大于512^3点的体积，体积会缩小两倍以降低网格复杂性。仅在由碰撞网格识别出第一命中之后，渲染引擎157才对沿着光线的点进行整合。网格生成参数跨所有数据集而保持不变，并且与栅格缓存相比，碰撞网格的存储复杂性可以忽略不计。通过利用碰撞网格，计算系统使用光线追踪的体积查找来显著减少对缓存的调用，并比使用体积查找模式相比提供改进的计算速度。

计算系统与远程/第三方系统120通信，远程/第三方系统120包括一个或多个处理器122和一个或多个计算机可执行指令124。可以预见，在一些实例中，远程/第三方系统120还包括容纳可用作训练数据的数据的数据库，例如未包括在本地存储中的静态场景数据。另外或替代地，远程/第三方系统120包括计算系统110外部的机器学习系统。远程/第三方系统120是软件程序或应用。

神经辐射场(NeRF)是一种用于训练神经网络以基于该场景的一定数量的图像来渲染3D场景的方法。一旦网络经过训练，网络就被配置为从任何视点且利用任何相机参数生成场景的图像。然而，传统的NeRF网络非常慢。传统NeRF网络效率低下的主要原因是，对于渲染的每个像素，神经网络必须被调用多达200次。对于1MPix图像，这会导致对神经网络进行2亿次调用来渲染单个图像。

为了克服这种低效率，本发明涉及用于将NeRF神经网络分成两个单独的网络的系统和方法，这两个网络可以被缓存以进行高效的推理。通过缓存用于广泛选择的输入的神经网络输出，然后用缓存查找替换神经网络执行，这显著减少了处理时间、存储和计算。应当理解，所公开的用于分离和缓存神经网络的位置分量和方向分量的实施例适用于被配置为接收方向和位置数据作为输入参数并输出每点的光值(例如，辐射率)的任何神经网络。

静态场景被表示为连续的6D函数，其输出(1)空间中的每个点处的每个方向上发射的辐射率和(2)每个点处的密度。密度被配置为可变的不透明度值，其确定穿过每个点的光线中存在的辐射量。单独缓存的多层感知器(MLP)(例如，没有卷积层的深度全连接神经网络)用于将特定点的6D坐标(方向向量和位置)转换为单个体积密度和与视图相关的RGB颜色。为了渲染静态场景的新颖视图(例如，先前未包含在一组先前捕获的图像中的视图)，为静态场景的体积表示中的每个点生成体积密度和与视图相关的RGB颜色。基于所期望的新颖视点，系统对与新颖视点的渲染相对应的所有点的体积密度和视点相关的RGB颜色进行采样。

现在参考图2A和图2B，由多个相机(例如，相机210)或由不同位置的单个相机捕获特定静态场景的多个图像。相机的参数，包括相机的图像捕获方向和位置，是已知的并且可由系统访问。生成静态场景240的体积表示230，其中在整个体积表示中模拟基于多个图像中包括的每个图像的图像捕获方向的相机光线(例如，模拟相机光线220)。

系统沿着每条相机光线采样多个坐标。多个坐标或点(例如，点222、224、226、228)各自具有基于图像捕获方向的2D观看方向。模拟的相机光线220中的每个点的位置和与每个点相关联的方向被应用作为神经网络的输入以产生颜色和密度的输出集。然后采用经典体积渲染技术将这些颜色和密度聚合成2D图像(例如，图像260)，其中现在由颜色和密度的相应集定义的、与特定模拟的相机光线相关联的多个坐标(例如，点222、224、226、228)被采样并折叠成像素(例如，像素270)以包括在静态场景240的新渲染的新颖视点中。

然后从对应于静态场景的不同角度渲染多个新颖视点。可以基于捕获的图像集(例如，训练图像)从任何角度渲染新颖视点。然后，处理(例如，通过基于梯度的优化)多个新颖视点以及初始捕获的图像集，以产生静态场景的连续三维视图。

所公开的实施例有利地从体积表示的属性中得到，其包括表示复杂的现实世界几何形状和外观的能力。其他益处包括通过使用被参数化为部分缓存的多层感知器(MLP)网络的机器学习模型，将具有复杂几何和材料的连续场景(或生成新颖的视点)表示为神经辐射场，从而降低存储和计算成本。缓存的部分对应于位置和方向编码，这些编码已从对应于静态场景的体积表示的6D函数数据中解纠缠(disentangled)。

体积渲染技术也用于优化使用标准RGB图像的表示。优化的采样策略用于识别体积表示中与可见场景内容相对应的点(例如，在渲染过程期间省略空白空间点以将计算工作集中在可见场景内容上)。

静态场景的连续视图由6D向量值函数表示。该函数的输入包括位置(例如，由3D笛卡尔坐标表示)和观看方向(例如，由3D单位向量表示)。输出包括发射颜色(例如，RGB数据或辐射数据)和体积密度。连续视图由双MLP网络渲染，该双MLP网络包括基于方向和基于位置的参数的缓存部分，其中位置编码和方向编码输入从6D向量值函数中解纠缠。

所公开的实施例有利地基于位置编码数据产生密度和一组辐射分量。辐射度分量是深层辐射度图和/或基于RGB的颜色数据。计算系统生成预设数量的辐射图。基于方向编码数据，生成一组加权值或加权方案并将其配置为应用于该组辐射分量。加权方案确定要包括在沿光线采样的特定点的最终色彩渲染中的每个辐射分量的值。然后沿着特定光线对多个点进行采样，并且使用经典体积渲染技术来生成像素的颜色和密度渲染。体积密度对应于在特定点位置处结束的光线(例如，模拟的相机光线)的微分概率。

产生位置编码包括在将位置输入应用到被配置为生成辐射分量和密度数据的神经网络之前，使用高频函数将位置输入映射到更高维空间。此编码过程允许更准确的数据拟合，其中还包括高频变化。将附加函数应用于每个位置坐标值(例如，“x”、“y”、“z”)，然后将其标准化。这些函数用于将连续输入坐标映射到更高维度的空间，以允许MLP网络更好地逼近更高频率的函数，进而实现对详细静态场景的更高质量渲染。通过对视图的采样，可以渲染逼真的新颖视图(或基于一组训练图像的新视图)。基于捕获的一组图像来渲染新颖视图时的错误被最小化。

如图3所示，用于NeRF神经网络的传统系统包括大型MLP 314，其被配置为接收位置数据310(例如，沿着相机光线的每个点的位置坐标)，该位置数据310通过位置编码操作312进行处理以用于更高频的应用。大型MLP 314然后基于对应于密度值316的位置数据310生成每个点的密度值316。大型MLP 314还输出与由第二、小型MLP 324接收的方向数据320(以及后续的方向编码数据322)耦合的特征向量318。该小型MLP 324然后被配置为生成每个点的最终RGB值326。因此，由于这些限制，其中位置数据310和方向数据320在两个神经网络之间纠缠(entangled)，根据所公开的实施例缓存单独的神经网络是不可行的。传统的神经网络接受6维输入(3维用于位置，3维用于方向)，这占用非常大量的存储器进行缓存。例如，如果系统要对每个输入参数采样512个值并存储输出(例如，以float16形式)，则缓存将占用144PB。

因此，如图4所示，新颖的神经网络被示出提高效率并减少缓存神经网络所需的存储器。神经网络300被示出为包括位置MLP 414和方向MLP 424。位置MLP 414将位置数据410(例如，沿着相机光线采样的点的位置的3维坐标)作为输入。处理位置数据以生成位置编码412，位置编码412随后由位置MLP 414接收。位置MLP 414处理采样的每个点的位置编码412并输出(1)密度值416和(2)多个辐射分量418(例如，向量0、1、2、3、4、5、6、7)，也称为颜色分量图。图3示出了至少8个辐射分量(例如，RGB向量或颜色图)，但是应当理解，可以由位置MLP 414生成任何数量的辐射分量418。

第二神经网络(例如，方向MLP 424)被示出并且被配置为接收被处理成方向编码422的方向数据420作为输入参数。方向编码422是根据方向数据420来处理的(例如，与沿着相机光线的采样的点相对应的三维向量数据)。方向MLP 424被配置为生成针对与采样的点相关联的每个方向的加权方案(例如，权重426)或权重值。加权方案确定将包含在最终RGB渲染中的每个辐射分量的值或数量。权重通过点积与分量相乘。辐射分量418(即，颜色分量图)可基于加权方案(例如，权重426)以多种方式组合以产生最终颜色数据(例如，最终RGB数据430)。然后使用密度值416和最终RGB数据430来渲染新颖视点中的每个像素。

如图5所示，由于位置和视图方向被解纠缠，所以可以高效地缓存模型。例如，如果系统要对每个输入参数采样512个值并存储输出(例如，以float16形式)，则缓存将占用8.86GB。这比标准NeRF模型的对应缓存小16,000,000倍以上。此外，这种类型的密集缓存可以转换为稀疏表示，从而显著减少存储网络所需的存储器的存储量。因此，一旦计算出缓存，体积渲染过程就依赖于高效的查找，而不是针对每个新颖视点而对神经网络的昂贵的调用。

具体地，与采样的点相对应的每个方向的加权方案被存储为权重索引510，使得当选择新的视点进行渲染时，系统在权重索引中查找适用的加权方案。辐射分量518(例如，向量0-向量7)也被缓存，使得辐射分量518被组合以基于每点的辐射分量的某个组合来形成最终RGB值530。最终RGB值530和密度数据516(先前由位置MLP输出)被用在对特定点的体积渲染540中。针对沿一个或多个相机光线采样的每个点调用该系统。

取决于体积表示的大小，缓存数据的生成需要几秒到几分钟。一旦计算出缓存(只需在训练神经网络后计算一次)，值和数据就被配置为在缓存中直接访问，而无需额外的网络计算。

现在将注意力转向图6，其示出了包括与可由计算系统110实现的用于获取训练数据并训练机器学习模型以生成静态场景的每个点的光和颜色值的示例性方法相关联的各种动作(动作605、动作610、动作615、动作620、动作625、动作630、动作635、动作640、动作645、动作650、动作655和动作660)。

所示的第一动作包括识别三维(3D)静态场景的动作(动作605)。然后，计算系统获得包括3D静态场景的多个视点的一组训练图像(动作610)并且识别与该组训练图像相对应的多个相机光线(动作615)。对沿着多个相机光线的一组点进行采样以获得该组点中包括的每个点的位置数据和方向数据(动作620)。

计算系统根据位置数据训练第一神经网络(动作625)并利用第一神经网络处理位置数据以生成密度值和多个辐射分量(动作630)。在生成输出之后，计算系统缓存多个辐射分量(动作635)。在一些实施例中，这里描述的多个辐射分量不同于通过处理数据集中的所有点获得的多个辐射分量。缓存是通过在静态场景的栅格或体积表示上采样的3D点来计算的。在一些实例中，采样的这些点与训练集中的点一致。在一些实例中，两组点并不重合。

计算系统还根据方向数据训练第二神经网络(动作640)并利用第二神经网络处理方向数据以生成用于多个视图方向的加权方案，该加权方案包括要应用于多个辐射分量的多个权重值(动作645)。第一神经网络和第二神经网络被配置为多层感知器。

在生成输出之后，缓存针对多个视图方向中包括的每个视图方向的加权方案(动作650)。当存储视图方向时，在球体的表面上对视图方向进行采样，其密度取决于所期望的缓存大小。一些视图方向可以与训练数据中包括的方向重合。

最后，通过根据与特定视图方向相关联的缓存的加权方案组合缓存的多个辐射分量来生成最终颜色值(动作655)。

计算系统还基于密度值和最终颜色值，沿着多个相机光线中包括的相机光线对点的子集中包括的每个点执行体积渲染(动作660)。沿相机光线的点的子集可折叠为渲染的像素，以包含在静态场景的二维(2D)图像中。然后，计算系统可以将静态场景的二维图像应用到增强虚拟现实应用中。

可替代地，为了执行如上所述的体积渲染，计算系统还通过基于沿着相机光线采样的多个点的体积密度计算符号-距离函数，从体积表示导出碰撞网格。识别包括在多个点中的第一点，第一点对应于由碰撞网格计算的第一命中。然后，通过整合包括在多个点中的点的子集来执行体积渲染，该点的子集对应于在第一命中之后由碰撞网格识别的非空空间。

在通过基于沿着相机光线采样的多个点的体积密度计算符号-距离函数以从三维静态场景的体积表示导出碰撞网格之前，计算系统将三维静态场景的体积表示缩小基于体积表示的原始体积的预定因子。

将渲染的像素与该组训练图像中包括的训练图像中的对应像素进行比较，以最小化渲染的像素与训练图像中的对应像素之间的误差。

该方法还涉及生成位置数据的位置编码以及生成方向数据的方向编码。

该组训练图像是静态场景的2D和RGB图像，该组训练图像还包括元数据，该元数据包括相机参数和静态场景边界，并且将辐射分量和最终颜色值配置为辐射分量。静态场景边界定义了边界框，神经网络的输入将从该边界框进行采样。如果近似网格或点云对场景可用，则其极值点定义边界框。可替代地，针对训练集中的每个相机指定的近光线边界和远光线边界用于定义边界框，或者由用户手动定义边界框。

除了该组训练图像之外，计算系统还获得与多个相机光线相对应的一组相机参数，并基于该组相机参数对多个相机光线中包括的每个相机光线的最大边界进行采样，并沿多条相机光线从最小边界到最大边界对该组点进行采样。

现在将注意力转向图7，其示出了流程图700，流程图700包括与可以由计算系统110来实现来用于生成静态场景的新颖视点的示例性方法相关联的各种动作(动作705、动作710、动作715、动作720、动作725、动作730和动作735)。

所示的第一动作包括识别3D静态场景的动作(动作705)，并且所示的第二动作包括识别从其渲染3D静态场景的2D图像的新颖视点的动作(动作710)。然后，计算系统访问3D静态场景的体积表示中包括的多个点的辐射分量的缓存的数据库(动作715)，并且访问针对多个视图方向的加权方案的缓存的数据库(动作720)。体积表示可配置为神经辐射场。该多个点是位于沿着穿过要从一个或多个新颖视点渲染的图像的光线的点。对于多个点中包括的每个点，通过根据与多个视图方向中包括的一个或多个新颖视图方向相对应的加权方案对每个点的一组辐射分量进行组合，从而生成最终颜色值(动作725)。

计算系统生成多个光线，沿着该多个光线生成多个点，然后对其进行采样。这些点的颜色将在动作725计算，并且光线对应的像素的颜色将在动作730计算。

计算系统基于最终颜色值和对应的密度值来对每个点执行体积渲染(动作730)。计算系统还基于针对每个点的体积渲染来生成静态场景的新颖视点，其中多个点被折叠成多个像素以包括在静态场景的新颖视点中(动作735)。

鉴于前述内容，应当理解，所公开的实施例提供了优于用于生成被配置为训练机器学习模型以基于解纠缠的位置和方向数据生成静态场景的点的RGB颜色值的机器学习训练数据的传统系统和方法的许多技术益处。所公开的实施例有益地改进了用于生成静态场景的新颖视点和/或连续视点的传统技术。

具体地，与传统技术相比，所公开的实施例促进了多视图一致性的改进并且减少了伪影。另外，本发明通过使用可以在任何点查询的隐式函数很好地集成到光线追踪和路径追踪范例中，并且该系统和方法不必在训练时指定精确的边界体积或几何形状。

本发明的实施例可以包括或利用包括计算机硬件的专用或通用计算机(例如，计算系统110)，如下文更详细讨论的。本发明范围内的实施例还包括用于承载或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这样的计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令(例如，图1的计算机可执行指令118)的计算机可读介质(例如，图1的硬件存储设备140)是排除传输介质的物理硬件存储介质/设备。在一个或多个载波或信号中携带计算机可执行指令或计算机可读指令(例如，计算机可执行指令118)的计算机可读介质是传输介质。因此，作为示例而非限制，本发明的实施例可以包括至少两种截然不同的计算机可读介质：物理计算机可读存储介质/设备和传输计算机可读介质。

物理计算机可读存储介质/设备是硬件并且包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储(例如CD、DVD等)、磁盘存储或其他磁存储设备，或者可以用于以计算机可执行指令或数据结构的形式存储期望的程序代码装置并且可以由通用或专用计算机访问的任何其他硬件。

“网络”(例如，图1的网络130)被定义为能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当信息通过网络或其他通信连接(硬连线、无线或硬连线或无线的组合)传输或提供给计算机时，计算机正确地将连接视为传输介质。传输介质可包括网络和/或数据链路，其可用于承载计算机可执行指令或数据结构形式的期望程序代码装置，并且其可由通用或专用计算机访问。上述的组合也包括在计算机可读介质的范围内。

此外，在到达各种计算机系统组件时，计算机可执行指令或数据结构形式的程序代码装置可以自动地从传输计算机可读介质传送到物理计算机可读存储介质(或反之亦然)。例如，通过网络或数据链路接收的计算机可执行指令或数据结构可以缓冲在网络接口模块(例如，“NIC”)内的RAM中，然后最终传输到计算机系统RAM和/或计算机系统中的不易失性计算机可读物理存储介质。因此，计算机可读物理存储介质可以被包括在也(或者甚至主要)利用传输介质的计算机系统组件中。

计算机可执行指令包括例如使得通用计算机、专用计算机或专用处理设备执行特定功能或功能组的指令和数据。计算机可执行指令可以是例如二进制、诸如汇编语言的中间格式指令、或者甚至是源代码。尽管已经以特定于结构特征和/或方法动作的语言描述了本主题，但是应当理解，所附权利要求中定义的主题不一定限于上述特征或动作。相反，所描述的特征和动作被公开为实现权利要求的示例形式。

本领域技术人员将理解，本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践，包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器的或可编程的消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等。本发明还可以在分布式系统环境中实践，其中通过网络(或者通过硬连线数据链路、无线数据链路或者通过硬连线和无线数据链路的组合)链接的本地和远程计算机系统都执行任务。在分布式系统环境中，程序模块可以位于本地和远程存储器存储设备中。

可替代地或附加地，本文描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可以使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用集成电路(ASIC)、程序专用标准产品(ASSP)、片上系统级系统(SOC)、复杂可编程逻辑器件(CPLD)等。

本发明可以以其他具体形式来实施而不脱离其基本特征。所描述的实施例在所有方面都应被视为仅是说明性的而非限制性的。因此，本发明的范围由所附权利要求而不是前述描述来指示。落入权利要求的等同物的含义和范围内的所有改变均被包含在其范围内。

Claims

1.一种由计算系统实现的用于训练机器学习模型以生成静态场景的颜色输出的方法，所述方法包括：

识别三维静态场景；

获取包括所述三维静态场景的多个视点的一组训练图像；

识别对应于所述一组训练图像的多个相机光线；

对沿所述多个相机光线的一组点进行采样以获得在所述一组点中包括的每个点的位置数据和方向数据；

根据获得的每个点的位置数据训练第一神经网络；

利用所述第一神经网络处理所述位置数据以生成密度值和多个辐射分量；

将所述多个辐射分量存储为缓存的辐射分量；

根据所述方向数据训练第二神经网络；

利用所述第二神经网络处理所述方向数据以生成针对多个视图方向的加权方案，所述加权方案包括要应用于所述多个辐射分量的多个权重值；

将针对所述多个视图方向中包括的每个视图方向的加权方案存储为缓存的加权方案数据；以及

通过根据与特定视图方向相关联的缓存的加权方案数据来组合所述缓存的辐射分量，以生成最终颜色值。

2.根据权利要求1所述的方法，还包括：

基于在缓存的数据库中包括的密度值和最终颜色值，沿着在所述多个相机光线中包括的相机光线对在点的子集中包括的每个点执行体积渲染；以及

将沿所述相机光线的所述点的子集折叠为渲染的像素，以包括在所述静态场景的二维图像中。

3.根据权利要求2所述的方法，还包括：

将所述渲染的像素与在所述一组训练图像中包括的训练图像中的对应像素进行比较；以及

最小化所述渲染的像素与所述训练图像中的对应像素之间的误差。

4.根据权利要求1所述的方法，还包括：

通过基于沿相机光线采样的多个点的体积密度计算符号-距离函数，从所述三维静态场景的体积表示导出碰撞网格；

识别在所述多个点中包括的与由所述碰撞网格计算的第一命中相对应的第一点；以及

通过整合在所述多个点中包括的点的子集来执行体积渲染，所述点的子集对应于在所述第一命中之后由所述碰撞网格识别的非空空间。

5.根据权利要求1所述的方法，还包括：

在通过基于沿相机光线采样的多个点的体积密度计算符号-距离函数从所述三维静态场景的体积表示导出碰撞网格之前，将所述三维静态场景的体积表示缩小基于所述体积表示的原始体积的预定因子。

6.根据权利要求1所述的方法，还包括：

生成所述位置数据的位置编码；以及

生成所述方向数据的方向编码。

7.根据权利要求1所述的方法，其中，所述一组训练图像是所述静态场景的2D图像和RGB图像。

8.根据权利要求1所述的方法，其中，所述一组训练图像还包括元数据，所述元数据包括相机参数和静态场景边界。

9.根据权利要求1所述的方法，其中，所述多个辐射分量和最终颜色值被配置为RGB分量。

10.根据权利要求1所述的方法，其中，所述第一神经网络和所述第二神经网络是并行训练的。

11.根据权利要求1所述的方法，其中，所述密度值等于或大于零并且表示所述静态场景中的特定点的不透明度。

12.一种由计算系统实现的方法，所述方法用于基于针对静态场景获得的缓存的方向数据和位置数据来生成所述静态场景的新颖视点，所述方法包括：

识别三维静态场景；

确定从其渲染所述三维静态场景的二维图像的新颖视点；

访问在所述三维静态场景的体积表示中包括的多个点的辐射分量的缓存的数据库；

访问针对多个视图方向的加权方案的缓存的数据库；以及

对于在所述多个点中包括的每个点，通过根据在所述加权方案的缓存的数据库中包括的与在所述多个视图方向中包括的一个或多个新颖视图方向相对应的加权方案来组合每个点的一组辐射分量，以生成最终颜色值。

13.根据权利要求12所述的方法，还包括：

生成多个光线以及沿着所述多条光线的对应于所述新颖视点的多个点。

14.根据权利要求12所述的方法，还包括：

基于所述最终颜色值和对应的密度值对每个点执行体积渲染。

15.根据权利要求14所述的方法，还包括：

基于每个点的体积渲染生成所述三维静态场景的新颖图像，其中，多个点被折叠为多个像素以包括在所述三维静态场景的所述新颖图像中。