CN116228962A

CN116228962A - 大场景神经视图合成

Info

Publication number: CN116228962A
Application number: CN202211552177.3A
Authority: CN
Inventors: V.M.卡瑟; H.克雷茨施马尔; M.J.坦西克; S.M.普拉丹; B.J.米尔登霍尔; P.P.斯里尼瓦桑; J.T.巴隆
Original assignee: Waymo LLC
Current assignee: Waymo LLC
Priority date: 2021-12-03
Filing date: 2022-12-05
Publication date: 2023-06-06
Also published as: EP4191538A1; US20230177822A1

Abstract

用于渲染新图像的方法、系统和装置，包括编码在计算机存储介质上的计算机程序，该新图像以新相机视点从相机的视角描绘场景。

Description

大场景神经视图合成

对相关申请的交叉引用

本申请要求2021年12月3日提交的美国临时专利申请序列号63/285,980的申请日的权益，并且其全部内容通过引用并入本文。

技术领域

本说明书涉及使用神经网络合成图像。

背景技术

神经网络是采用一层或多层学习操作来预测接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层，即下一隐藏层或输出层，的输入。网络的每个层根据相应参数集的当前值输入从接收到的输入生成输出。

发明内容

本说明书描述了一种在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统，该系统合成环境中的场景的图像。

在整个说明书中，“场景”可以指例如真实世界环境或模拟环境(例如，真实世界环境的模拟，例如，使得模拟环境是真实世界场景的合成表示)。

实体的“嵌入”可以指将实体的作为数值的有序集合的表示，例如向量、矩阵或数值的其他张量。

本说明书中描述的主题可以在特定实施例中实现，以便实现以下优点中的一个或多个。

一些现有的神经图像渲染技术可以在给定场景的一组相机图像的情况下执行照片般真实的重建和新颖的视图合成。然而，这些现有技术通常仅适用于小规模或以对象为中心的重建，例如，至多单个房间或建筑物的大小。由于有限的模型容量，将这些技术应用于大型环境通常导致显著的伪影和低视觉保真度。

然而，重建大规模环境在诸如自主驾驶和航空勘测的领域中实现了若干重要的用例。一个示例是映射，其中创建整个操作域的高保真地图以充当包括机器人定位、导航和碰撞避免的各种问题的强大先验。此外，大规模场景重建可以用于闭环机器人模拟，和/或生成用于感知算法的合成训练数据。

自动驾驶系统通常通过重新模拟先前遇到的场景来评估；然而，与记录的相遇的任何偏差都可能改变车辆的轨迹，从而需要沿着改变的路径的高保真新视图渲染。除了基本视图合成之外，如果视图合成模型也能够改变诸如相机曝光、天气或一天中的时间之类的环境照明条件，则可以增加这些任务的鲁棒性，这可以用于进一步增强模拟场景。

重建这样的大规模环境引入了额外的挑战，包括瞬态对象(汽车和行人)的存在、模型容量的限制以及存储器和计算约束。此外，这种大型环境的训练数据极不可能在一致条件下在单次捕获中收集。相反，环境的不同部分的数据可能需要源自不同的数据收集工作，从而引入场景几何形状(例如，建筑工作和停放的汽车)以及外观(例如，天气条件和一天中的时间)二者的变化。

所描述的技术解决了在大规模环境中生成准确的重建并合成新视图的这些挑战，例如，像在城市驾驶场景中遇到的大规模场景。

特别地，所描述的技术将大型环境划分为单独训练的视图合成模型，每个视图合成模型对应于给定场景的子区域。然后在推理时动态地渲染和组合这些视图合成模型。独立地对这些模型进行建模允许最大的灵活性，扩展到任意大的环境，并且提供以逐段方式更新或引入新区域而无需重新训练整个环境的能力。为了计算目标相机视点，仅渲染视图合成模型的子集，然后基于它们与目标视图的相机相比的地理位置来合成。因此，尽管能够处理大场景内的任何视点，但是针对任何给定视图的图像合成过程在计算上仍然是高效的。

在一些实施方式中，该技术包含外观嵌入以解决如上所述的训练图像之间的环境变化。

在一些实施方式中，该技术包含学习的姿态细化以考虑用于视图合成模型的训练数据中的姿态误差。

在一些实施方式中，这些技术结合曝光调节以提供在推理期间修改曝光的能力，即，提供看起来好像它们是由具有指定曝光水平的相机拍摄的合成图像。

在一些实施方式中，为了允许更无缝地合成来自多个不同模型的多个合成图像，该技术包括外观匹配技术，该外观匹配技术通过优化不同模型的外观嵌入来使不同模型视觉对准。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，主题的其他特征、方面和优点将变得显而易见。

附图说明

图1是示例图像渲染系统的框图。

图2示出场景的图像的渲染的示例。

图3示出示例视图合成模型。

图4是用于使用图像渲染系统渲染新图像的示例过程的流程图。

各附图中相同的附图标记和名称指示相同的元件。

具体实施方式

图1是能够渲染(“合成”)以新相机视点126从相机的视角描绘场景125的新图像108的示例图像渲染系统100的框图。图像渲染系统100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统的示例，其中实现了下面描述的系统、组件和技术。

“图像”通常可以被表示为例如“像素”阵列，其中每个像素与图像中的相应点(即，与相机的图像平面中的相应点)相关联，并且对应于表示该点处的图像数据的一个或多个数值的相应矢量。例如，二维(2D)RGB图像可以由2D像素阵列表示，其中每个像素与表示对应于图像中的像素的点处的红色、绿色和蓝色的强度的值的相应三维(3D)向量相关联。

在整个说明书中，“场景”可以指例如真实世界环境或模拟环境。例如，如图1所示，场景125可以包括模拟环境中的各种几何对象。

通常，通过利用改进的视图合成技术，系统100可以准确地渲染大规模场景的新图像。例如，系统100可以渲染跨越多个城市街区的城市驾驶场景的新图像，例如，密集的城镇城市中的整个多街区邻域。

相机“视点”可以指例如相机在场景125内的位置和/或取向。相机的位置可以被表示为例如指示相机在场景125内的空间位置的三维矢量。相机的方位可以被表示为例如定义相机朝向的方向的三维矢量，例如相机的偏航、俯仰和滚转。

例如，系统100可以合成新图像，作为生成由模拟自主车辆和其他代理导航通过的真实世界环境的计算机模拟的一部分。例如，合成图像可以确保模拟包括与在现实世界环境中遇到的图像类似的图像，但是捕获在现实世界环境的图像中不可用的场景的新颖视图。更一般地，仿真可以是在软件被部署在自主车辆上之前测试现实世界自主车辆的控制软件的一部分，训练稍后将被部署在自主车辆上的一个或多个机器学习模型的一部分，或两者。作为特定示例，合成的新图像可用于构建整个操作域的高保真地图，以充当针对各种问题的测试软件的先验，包括机器人定位、导航和碰撞避免。

作为另一示例，合成图像可以被用于增强训练数据集，该训练数据集用于训练稍后将部署在自主车辆上的一个或多个机器学习模型。也就是说，系统可以从新颖的视点生成合成图像，并使用合成图像来提高用于训练一个或多个机器学习模型例如计算机视觉模型的训练数据集的鲁棒性。计算机视觉模型的示例包括图像分类模型、对象检测模型等。

作为又一示例，可以在用户界面中生成并向用户显示合成图像，以允许用户从不同的视角位置和相机视点查看环境。在一个示例中，图像渲染系统100可以用作软件应用(例如，为了方便起见被称为“街景”应用)的一部分，该软件应用向用户提供对交互式全景的访问，该交互式全景示出物理环境，例如街道附近的环境。响应于以新相机视点从相机的视角查看物理环境的用户请求，街景应用可以向用户提供由图像渲染系统100生成的环境的渲染图像。如下面将描述的，图像渲染系统可以基于例如先前由安装在穿过环境的车辆上的相机捕获的环境的现有图像的集合来渲染环境的新图像。

在另一示例中，图像渲染系统100可以被用于渲染虚拟现实环境的图像，例如，在虚拟现实耳机或头盔中实现。例如，响应于从用户接收到从不同的视角观看虚拟现实环境的请求，图像渲染系统可以从期望的视角渲染虚拟现实环境的新图像并将其提供给用户。

图像渲染系统100可以使用多个视图合成模型140来渲染场景125的新图像108。

每个视图合成模型140对应于环境中的场景125的相应子区域，并且被配置为接收指定对应子区域中的相机视点的输入，并且从相机视点生成场景的合成图像作为输出。通常，每个视图合成模型140包括具有相同架构的相同神经网络，但是神经网络由于模型的训练而具有不同的参数。

更具体地，每个视图合成模型140已经被训练，即，由系统100或不同的训练系统在训练图像102的集合的不同子集上训练。特别地，每个视图合成模型140已经在来自从对应子区域内的相机视点拍摄的一组训练图像120的训练图像上被训练。因为每个视图合成模型140对应于不同的、可能重叠的子区域，所以训练系统可以独立地训练模型140，并且可以通过添加或移除新模型140来修改哪些模型在多个模型140中，而无需重新训练所维护的多个模型中的任何其他模型。

下面参考图3描述用于训练视图合成模型140的示例技术。

在高级别，一旦模型140被训练，系统100就能够通过基于新相机视点126选择多个视图合成模型140的子集来生成新图像108。

然后，系统100使用子集中的每个模型140处理指定新相机视点126的相应输入，以从新相机视点126生成场景的合成图像作为输出。因此，系统100为子集中的每个模型140生成相应的合成图像。

然后，系统100组合由子集中的视图合成模型140生成的合成图像，以从新相机视点126生成场景的最终合成图像。

图2中示出了生成新图像的示例。

图2示出了系统100的操作的示例。

在图2的示例中，系统100维护三个模型140。每个模型140具有由相应的原点位置202和半径204定义的对应子区域，即，使得每个模型140的子区域包括在原始位置202的对应半径204内的所有点。

更一般地，假定到场景中的每个点在用于模型140中的至少一个的子区域中，系统100可以以任何适当的方式将场景划分为子区域。

例如，对于城市驾驶场景，系统100可以在每个交叉路口处放置一个模型140，其具有覆盖交叉路口本身和75％的任何连接街道的子区域，直到它收敛到下一个交叉路口。这导致连接街道段上的任何两个相邻街区之间的50％重叠，如下所述，这可以使外观对准更容易。遵循该过程意味着块大小是可变的；必要时，可以引入额外的块作为交叉路口之间的连接器。

作为另一示例，即，在图2所示的示例中，系统100替代地将模型140沿着单个街道段以均匀的距离放置，并且将每个子区域大小定义为围绕对应原点202的球体。

在图2所示的示例中，系统接收新相机视点210。如图2所示，新相机视点210指定场景中相机的位置和方位(“姿态”)。

从图2可以看出，新相机视点210在三个模型140中的每一个的对应子区域内。因此，系统100最初选择所有三个模型140在子集中。然而，在图2的示例中，基于由系统100针对模型140中的每一个生成的相应可见性估计222，系统100从子集中丢弃220模型140中的一个。通常，给定模型的可见性估计估计沿着从新视点投射的光线的点在用于训练视图合成模型140的训练图像中可见的程度。在图2的示例中，可见性估计222包括对于从目标视点210拍摄的图像中的每个像素的范围从零到一的相应可见性分数。因为丢弃的模型220具有低可见性估计(如图2中丢弃的模型220的可见性222全部为黑色，即全部为零所证明的)，所以系统100从子集中丢弃模型220。

下面参考图3和图4更详细地描述生成可见性估计并确定是否丢弃模型140。

对于未被丢弃的两个模型140中的每一个，系统100然后从新视点生成场景的相应图像230。虽然图2也示出了由丢弃的模型220生成的图像230，但是这不是必需的，并且可以被省略以便提高视图合成过程的计算效率。从图2可以看出，由丢弃的模型220生成的图像230是模糊的，并且可能不会向由其他模型140生成的图像添加任何有价值的信息。

下面参考图3描述用于使用视图合成模型从新视点生成场景的图像的一个示例技术。

然后，系统100组合两个新图像230以从新视点生成场景的最终图像240。

下面参考图4更详细地描述组合来自多个模型140的图像。

因此，系统100可以通过组合由模型140中的不同模型生成的场景的不同图像来从任何给定视点准确地生成场景的新图像。

图3示出视图合成模型140中的一个的操作的示例。如上所述，每个模型140通常将具有相同的架构并且将以相同的方式生成合成图像。然而，因为每个模型140对应于场景的不同子区域并且在与对应子区域相关联的图像上被训练，所以每个模型140在训练之后通常将具有不同的参数，并且因此给定相同的相机视点，不同的模型140将生成不同的图像。

如图3所示，模型140包括第一神经网络300和第二神经网络350。

第一神经网络300(f_σ)被配置为接收包括表示场景中的点x的坐标的数据的第一输入，并且处理第一输入以生成包括(i)点x的体密度σ和(ii)特征向量的输出。例如，第一神经网络300可以是处理坐标x以生成输出的多层感知器(MLP)。

作为特定示例，场景中的点可以被表示为例如空间坐标x的三维矢量。

通常，场景中的点处的体密度可以表征该点处的场景的任何适当方面。在一个示例中，场景中的一点处的体密度可以表征行进通过场景的光线将在场景中的该点x处终止的可能性。

特别地，模型140可以被配置为使得体密度σ独立于观看方向d而生成，并且因此仅作为场景中的点的函数而变化。这可以促进跨同一场景的不同观看视角的体一致性。

在一些情况下，体密度可以具有例如σ≥0的值，其中零值可以表示例如光线将在特定点处终止的可忽略的可能性，例如，可能指示在该点处场景中没有对象。另一方面，体密度的大的正值可能指示场景中在该点处存在对象，并且因此存在光线将在该位置处终止的高可能性。

第二神经网络350(f_c)被配置为接收包括特征向量(由神经网络300生成)和表示观看方向d的数据的输入，并且处理第二输入以生成颜色作为输出。例如，第二神经网络350也可以是处理特征向量d以生成颜色作为输出的MLP。

由第二神经网络350针对给定观看方向d和点x生成作为输出的颜色是在场景中的该点处在该观看方向上发射的辐射，例如，RGB，其中R是发射的红色，G是发射的绿色，并且B是发射的蓝色。

可选地，到第二神经网络350的“第二”输入也可以包括附加信息。

作为一个示例，输入也可以包括表征合成图像的目标外观的外观嵌入。包括外观嵌入可以允许模型140考虑外观改变因素，即，可以使从相同点和相同观看方向拍摄的两个图像具有不同外观的因素。这些因素的两个示例是变化的天气条件和变化的照明条件，例如一天中的时间。特别地，在训练期间，训练系统可以被训练以通过使用生成潜在优化来合并外观嵌入，以优化每个训练图像的相应的每图像外观嵌入。在训练之后，系统100可以使用这些外观嵌入来在训练期间观察到的不同外观变化因子之间进行插值。

作为另一示例，第二输入可以包括合成图像的目标相机曝光信息。也就是说，可以在宽范围的曝光水平上捕获模型140的训练图像，如果不考虑，这可能影响训练。通过在训练期间包括相机曝光信息，模型140可以补偿由不同曝光水平引起的视觉差异。因此，在训练之后，模型140可以通过包括目标曝光水平作为第二输入的一部分来生成看起来好像是由具有目标曝光水平的相机拍摄的图像。作为一个示例，曝光信息可以被表示为γ_PE(shutter speed x analog gain/t，其中，γ_PE是具有固定数量的级别的正弦位置编码，例如，2、4或6，并且t是缩放因子，例如，等于250、700、1000或1500。

在一些实施方式中，模型140还可以使用正弦位置编码γ_PE来表示输入x和d。

通常，γ_PE可以将给定输入的每个分量z表示为向量：

γ_PE＝[sin(2⁰z),cos(2⁰z)…,sin(2^L-1z),cos(2^L-1z)，

其中L是编码的级别数。

使用该编码方案可以允许神经网络300和350表示更高的频率细节。

在一些其他实施方式中，模型140使用正弦位置编码来表示d，同时使用集成位置编码来表示x。

特别地，系统可以使用投影像素足迹来对沿着光线的圆锥台而不是点进行采样(如下所述)。为了将这些平截头体馈送到MLP中，模型140将它们中的每一个近似为具有参数μ_i、Σ_i的高斯分布，并用其在具有参数μ_i、Σ_i的输入高斯上的期望值来替换位置编码γ_PE，即，使得给定平截头体的集成位置编码是从具有参数μ_i、Σ_i的高斯分布中采样的点的编码γ_PE的期望值。因此，在这些实现方式中，沿着光线采样的每个点x(如下所述)表示从已经从光线采样的圆锥平截头体采样的期望值。

在给定相机视点作为输入的情况下，模型140能够使用神经网络300和350来生成合成图像。

更具体地，合成图像(即，将由相机在新相机视点126处捕获的合成图像)中的每个像素能够与在新相机视点126处从相机的图像平面投射到场景中的光线相关联。在给定相机视点的情况下，与新图像中的像素对应的光线的方向和位置可以被计算为相机参数的预定义函数，例如，相机的位置和方位、相机的焦距等。在一些实施方式中，考虑提供给系统的相机的参数，即相机的位姿中的潜在不准确性。特别地，系统可以与神经网络300和350联合地学习定义学习的姿态细化的姿态偏移参数，并且然后在确定与像素对应的光线的方向和位置时使用姿态偏移参数来调整所提供的姿态。例如，姿态偏移参数可以包括位置偏移和3×3残差旋转矩阵。

给定像素的光线r(t)可以被表示为：

r(t)＝o+td,，其中，t是沿着光线的距离，o是光线的原点，例如，如由新相机视点指定的，并且d是对应于像素的观察方向。

为了生成图像中的给定像素的颜色，模型140能够沿着来自新相机视点的光线并且沿着与像素对应的观看方向对多个点进行采样。例如，模型140可以沿着光线随机采样距离t，以针对每个采样距离t产生采样点r(t)。

对于每个采样点，模型140可以生成包括表示采样点的坐标的数据的第一输入，并且使用视图合成模型中的第一神经网络处理第一输入以生成包括采样点的体密度和特征向量的输出。然后，模型140可以生成包括特征向量和表示与像素相对应的观看方向的数据(以及可选地，目标外观嵌入和目标曝光水平信息)的第二输入，并且使用视图合成模型中的第二神经网络来处理第二输入，以生成采样点的颜色作为输出。

因此，模型140针对每个采样点获得相应颜色和相应体密度。

然后，模型140使用采样点的颜色和体密度来生成像素的最终颜色。例如，系统可以使用基于采样点的对应体密度计算的权重来累积采样点的颜色。作为特定示例，当存在N个采样点时，给定像素的最终输出颜色c_out可以等于：

其中c_i是针对点i计算的颜色，/>

T_i＝exp(-∑_j<iΔ_jσ_j),，并且Δ_i＝t_i-t_i-1.。

在一些实施方式中，模型140可以通过将权重w_i视为概率分布来迭代地对点重新采样，以更好地将样本集中在高密度区域中，而不是直接使用随机采样的距离t来生成用于计算输出颜色的最终点集。

系统100或不同的训练系统训练每个模型140，即，在从模型140的对应子区域中的视点拍摄的训练图像上训练第一神经网络300和第二神经网络350。特别地，训练系统可以训练神经网络以最小化可区分渲染损失，该可区分渲染损失测量针对给定视点的由如上所述的模型140生成的来自给定视点的场景的合成图像与从给定视点拍摄的场景的训练图像之间的误差。在Jonathan T Barron、Ben Mildenhall、Matthew Tancik、Peter Hedman、Ricardo Martin-Brualla和Pratul P Srinivasan中描述了这种损失函数的一个示例。Mip-NeRF：A multiscale representation for anti-aliasing neural radiance fields(用于抗混叠神经辐射场的多尺度表示)，ICCV，2021。在Ricardo Martin-Brualla、NohaRadwan、Mehdi SM Sajjadi、Jonathan T Barron、Alexey Dosovitskiy和DanielDuckworth中描述了这种损失函数的另一示例。野外的Nerf：Neural radiance fields forunconstrained photo collections(用于无约束照片收集的神经辐射场)，CVPR，2021。

在一些实施方式中，模型140也包括第三神经网络370，系统100使用该第三神经网络来计算新相机视点的模型140的可见性估计。可见性估计估计沿着从新视点投射的光线的点在用于训练视图合成模型140的训练图像中可见的程度。

更具体地，第三神经网络370被配置为接收包括表示场景中的点x的坐标的数据和表示观看方向d的数据的第三输入，并且处理第三输入以输出来自观看方向的点的估计透射率。例如，第三神经网络370可以是MLP。

透射率表示点从特定输入相机视点的可见程度：自由空间中或第一相交对象到该点的表面上的点，即与从相机视点投射到该点的光线相交的第一对象的表面上的点，将具有接近1的透射率，并且第一可见对象内部或后面的点将具有接近0的透射率。如果从一些视点看到点但从其他视点看不到该点，则回归透射率值将是所有训练相机上的平均值，并且位于零和一之间，指示该点被部分地观察到。为了训练第三神经网络370，系统可以训练神经网络370以回归与上面从由第一神经网络生成的体密度计算的T_i值匹配的透射率值，即，通过使用由第一神经网络生成的输出作为用于训练第三神经网络370的监督。

为了针对给定的新视点计算模型140的可见性估计，系统可以对多个点-观看方向对进行采样，例如，对应于将使用模型140从给定的新视点生成的图像中的不同像素。例如，采样对可以是上述用于生成图像的采样对的全部或子集。

然后，对于每个采样对，系统可以使用视图合成模型140中的第三神经网络370处理包括表示该对中的点的坐标的数据和表示该对中的观看方向的数据的第三输入，以生成采样对的估计透射率，并从多个点的估计透射率来确定可见性估计。例如，系统可以将可见性估计计算为多个点的估计透射率的平均值。

第三神经网络370能够独立于第一神经网络350和第二神经网络370运行，因此系统能够使用利用第三神经网络370计算的可见性估计来确定当从给定的新相机视点生成新图像时是否使用对应的模型140。

下面参考图4更详细地描述使用可见性估计。

图4是用于渲染新图像的示例过程400的流程图。为了方便起见，过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书被适当编程的图像渲染系统，例如图1中的系统100，可以执行过程400。

如上所述，系统维护多个视图合成模型。每个视图合成模型与环境的场景的相应子区域对应，并且被配置为接收指定对应子区域中的相机视点的输入并从相机视点生成场景的合成图像作为输出。

系统获得指定新相机视点的输入(步骤402)。

系统基于新相机视点选择多个视图合成模型的子集(步骤404)。

通常，系统选择具有包括新相机视点的对应子区域的每个视图合成模型以包括在子集中。

可选地，系统然后可以确定是否应当从子集中移除所选择的视图合成模型中的任何一个。

例如，系统可以针对每个所选择的模型，即，针对具有包括新相机视点的对应子区域的每个视图合成模型，计算相应的可见性估计，该可见性估计估计沿着从新视点投射的光线的点在用于训练视图合成模型的训练图像中可见的程度。以上参考图3描述了用于生成可见性估计的一个示例技术。

然后，系统从子集中移除具有低于可见性阈值的相应可见性估计的任何视图合成模型。这样，系统避免使用不太可能从新相机视点产生有意义的输出的任何视图合成模型。

对于子集中的每个视图合成模型，系统处理指定新相机视点的相应输入，以生成来自新相机视点的场景的合成图像作为输出(步骤406)。

也就是说，系统使用视图合成模型来处理指定新相机视点的相应输入，以从新相机视点生成场景的合成图像作为输出。

如上所述，在一些实施方式中，每个视图合成模型包括第一神经网络和第二神经网络，并且在给定视图合成模型的相应输入的情况下使用第一和第二神经网络来生成合成图像。

以上参考图3描述了使用第一神经网络和第二神经网络生成合成图像。

如上所述，在一些实施方式中，每个模型中的第二神经网络也接收目标相机曝光信息、目标外观嵌入或两者作为输入。也就是说，每个模型的相应输入也包括目标相机曝光信息、目标外观嵌入或两者。

当第二神经网络也接收目标相机曝光信息作为输入时，系统可以向每个模型提供相同的目标曝光信息，使得所生成的图像彼此一致。例如，系统可以接收目标相机曝光水平作为输入，或者可以从一组可能的相机曝光水平中随机选择相机曝光水平。因此，通过调整目标相机曝光信息，系统可以生成看起来好像是由具有不同曝光水平的相机拍摄的图像。

当第二神经网络也接收目标外观嵌入作为输入时，在一些实施方式中，系统可以向每个模型提供相同的目标外观嵌入，使得所生成的图像彼此一致。例如，系统可以接收目标外观嵌入作为输入，或者可以从一组可能的外观嵌入中随机选择外观嵌入。

然而，这些嵌入(“代码”)在每个视图合成模型的训练期间被随机初始化，并且因此当被馈送到不同的视图合成模型中时，相同的代码通常导致不同的外观。这在合成图像时可能是不期望的，因为它可能导致视图之间的不一致。

因此，在一些其他实施方式中，系统接收子集中的第一视图合成模型的目标外观嵌入，并且基于第一视图合成模型的目标外观嵌入来生成子集中的其他视图合成模型的相应外观嵌入。

例如，用户可以提供与来自用于训练第一视图合成模型的训练图像中的一个的外观嵌入匹配的目标外观嵌入，以使系统生成在相同条件下拍摄的图像。作为另一示例，用户可以提供以下目标外观嵌入，该目标外观嵌入是来自用于训练第一视图合成模型的训练图像中的多个训练图像的外观嵌入的加权和，以使系统生成在作为来自多个训练图像的条件的组合的条件下拍摄的图像。作为另一示例，用户可以通过使第一模型渲染具有不同外观嵌入的多个不同图像并且然后选择使得生成具有期望质量的图像的外观嵌入来“搜索”具有用户感兴趣的质量的目标外观嵌入。

然后，系统使用针对该模型生成的外观嵌入来生成针对每个其他视图合成模型的图像。因此，通过调整模型的外观嵌入，系统可以生成看起来好像它们是在一天中的不同时间、在不同天气条件下或在可能影响相机图像的外观的其他外部条件下拍摄的图像。

为了生成给定模型的目标外观嵌入，系统首先选择给定模型与已经为其生成外观嵌入的相邻模型之间的3D匹配位置。例如，系统可以选择具有超过两个模型的阈值的可见性预测的匹配位置。

给定匹配位置，系统冻结模型权重并且仅优化给定模型的外观嵌入，以便减少匹配位置中的相应区域渲染之间的l₂损失。因为模型权重被冻结，所以系统可以快速地并且以计算有效的方式执行该优化，例如，需要少于100次迭代来收敛。然后，系统使用优化的外观嵌入作为给定模型的目标外观嵌入。该过程在两个模型之间对准场景的大多数全局和低频属性，诸如一天中的时间、色彩平衡和天气，从而允许成功合成从两个模型生成的图像。

优化的外观从第一视图合成模型(“根”模型)开始迭代地传播通过场景。如果围绕给定模型的多个模型已经被优化，则系统在计算损失时考虑它们中的每一个，即，通过在优化中包括多个模型中的每一个的相应l₂损失。

系统组合由子集中的视图合成模型生成的合成图像，以从新相机视点生成场景的最终合成图像(步骤408)。

例如，系统可以确定子集中的每个视图合成模型的相应权重，并且然后通过根据子集中的视图合成模型的相应权重在由子集中的视图合成模型生成的合成图像之间进行插值来生成最终合成图像。也就是说，对于每个像素，系统根据对应视图合成模型的相应权重在合成图像中的像素的颜色输出之间进行插值。

作为一个示例，系统能够基于新相机视点与场景的对应子区域的中心(“原点”)之间的距离来确定每个模型的相应权重。作为特定示例，系统可以将第i个模型的权重w_i计算w_i∝distance(c,x_i)^-p，其中c是新相机视点位置，x_i是第i个模型的对应子区域的中心的位置，并且p是影响图像之间的混合速率的恒定值。

在一些实施方式中，系统仅在视点位于被包括在视图合成模型中的多个视图合成模型的对应子区域中的环境的区域中时执行上述过程400。也就是说，当视点位于仅具有单个对应模型的环境的区域中时，系统使用单视图合成模型来生成合成图像，例如，不检查可见性并且不如上所述组合输出图像。

本说明书结合系统和计算机程序组件使用术语“配置”。对于要被配置为执行特定操作或动作的一个或多个计算机的系统，意味着系统已经在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在操作中使系统执行操作或动作。对于要被配置为执行特定操作或动作的一个或多个计算机程序，意味着一个或多个程序包括当由数据处理装置执行时使装置执行操作或动作的指令。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路中、在有形体现的计算机软件或固件中、在计算机硬件中实现，包括本说明书中公开的结构及其结构等同物，或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即，在有形非暂时性存储介质上编码的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。可替代地或另外地，程序指令可以被编码在人工生成的传播信号上，例如，机器生成的电、光或电磁信号，其被生成以对信息进行编码以便传输到合适的接收器装置以供数据处理装置执行。

术语“数据处理装置”是指数据处理硬件，并且涵盖用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。该装置还可以是或进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

也可以被称为或描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码的计算机程序可以用任何形式的编程语言编写，包括编译或解释语言，或者声明性或过程性语言；并且它可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中，例如，存储在标记语言文档中的一个或多个脚本，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调文件中，例如，存储一个或多个模块、子程序或代码部分的文件。计算机程序可以被部署为在一个计算机上或在位于一个站点或跨多个站点分布并通过数据通信网络互连的多个计算机上执行。

在本说明书中，术语“引擎”广泛地用于指代被编程为执行一个或多个特定功能的基于软件的系统、子系统或过程。通常，引擎将被实现为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定引擎；在其他情况下，可以在相同的一个或多个计算机上安装和运行多个引擎。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路执行，例如FPGA或ASIC，或者由专用逻辑电路和一个或多个编程计算机的组合执行。

适合于执行计算机程序的计算机可以基于通用或专用微处理器或两者，或任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或者可操作地耦合以从其接收数据或向其传送数据或两者。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备，例如通用串行总线(USB)闪存驱动器，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实现，该计算机具有用于向用户显示信息的显示设备，例如CRT(阴极射线管)或LCD(液晶显示器)监视器，以及用户可以通过其向计算机提供输入的键盘和指示设备，例如鼠标或轨迹球。也可以使用其他种类的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声学、语音或触觉输入。此外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收的请求而将网页发送到用户设备上的web浏览器。此外，计算机可以通过向运行消息传送应用的例如智能电话的个人设备发送文本消息或其他形式的消息并且作为回报从用户接收响应消息来与用户交互。

用于实现机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元，用于处理机器学习训练或生产的公共和计算密集型部分，即推断、工作负载。

机器学习模型可以使用机器学习框架来实现和部署，例如TensorFlow框架或Jax框架。

本说明书中描述的主题的实施例可以在计算系统中实现，该计算系统包括后端组件，例如作为数据服务器，或者包括中间件组件，例如应用服务器，或者包括前端组件，例如具有用户可以通过其与本说明书中描述的主题的实现交互的图形用户界面、web浏览器或app的客户端计算机，或者一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信互连，例如通信网络。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器向用户设备发送数据，例如HTML页面，例如用于向与设备交互的用户显示数据和从其接收用户输入的目的，该设备充当客户端。可以在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为对任何发明的范围或可以要求保护的范围的限制，而是作为可以特定于特定发明的特定实施例的特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实现。此外，尽管上面可以将特征描述为以某些组合起作用并且甚至最初如此要求保护，但是在一些情况下可以从组合中切除来自所要求保护的组合的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图中描绘了操作并且在权利要求中以特定顺序叙述了操作，但是这不应被理解为要求以所示的特定顺序或按顺序执行这些操作，或者执行所有示出的操作，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或封装到多个软件产品中。

已经描述了主题的特定实施例。其它实施例在所附权利要求书的范围内。例如，权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在一些情况下，多任务和并行处理可能是有利的。

Claims

1.一种由一个或多个计算机执行的方法，所述方法包括：

维持多个视图合成模型，其中，每个视图合成模型与环境的场景的相应子区域对应，并且被配置为接收指定对应子区域中的相机视点的输入并生成来自所述相机视点的场景的合成图像作为输出；

获得指定新相机视点的输入；

基于新相机视点，选择所述多个视图合成模型的子集；

对于所述子集中的每个视图合成模型，处理指定新相机视点的相应输入，以生成来自新相机视点的场景的合成图像作为输出；以及

组合由所述子集中的视图合成模型生成的合成图像，以生成来自新相机视点的场景的最终合成图像。

2.根据权利要求1所述的方法，其中，每个视图合成模型已经在相应的一组训练数据上被训练，所述相应的一组训练数据包括从所述场景的对应子区域内的视点捕获的图像。

3.根据权利要求2所述的方法，其中，所述视图合成模型已经在所述相应的训练数据集上被独立地训练。

4.根据任一前述权利要求所述的方法，其中，基于新相机视点选择多个视图合成模型的子集包括：

选择具有包括所述新相机视点的对应子区域的每个视图合成模型以包括在所述子集中。

5.根据权利要求4所述的方法，还包括：

针对具有包括新相机视点的对应子区域的每个视图合成模型，确定相应的可见性估计，所述可见性估计估计沿着从新视点投射的光线的点在用于训练视图合成模型的训练图像中可见的程度；以及

从所述子集中移除具有低于可见性阈值的相应可见性估计的任何视图合成模型。

6.根据任一前述权利要求所述的方法，其中，组合由所述子集中的视图合成模型生成的合成图像以生成来自相机视点的场景的最终合成图像包括：

确定所述子集中的每个视图合成模型的相应权重；以及

通过根据针对所述子集中的视图合成模型的相应权重在由所述子集中的视图合成模型生成的合成图像之间进行插值来生成最终合成图像。

7.根据权利要求6所述的方法，其中，确定所述子集中的每个视图合成模型的相应权重包括，对于每个视图合成模型：

基于新相机视点与所述场景的对应子区域的中心之间的距离来确定相应权重。

8.根据任一前述权利要求所述的方法，其中，每个视图合成模型包括：

第一神经网络，被配置为接收包括表示所述场景中的点的坐标的数据的第一输入，并且处理第一输入以生成包括该点的体密度和特征向量的输出；以及

第二神经网络，被配置为接收包括特征向量和表示观看方向的数据的第二输入，并且处理第二输入以生成颜色作为输出。

9.根据权利要求8所述的方法，其中，处理指定新相机视点的相应输入以生成来自新相机视点的场景的合成图像作为输出包括，对于所述图像中的每个像素：

沿着来自新相机视点的光线并且沿着对应于所述像素的观看方向对多个点进行采样；

对于每个采样点：

生成第一输入，第一输入包括表示所述采样点的坐标的数据；

使用视图合成模型中的第一神经网络来处理第一输入以生成包括采样点的体密度和特征向量的输出；

生成第二输入，第二输入包括所述特征向量和表示与所述像素相对应的观看方向的数据；和

使用视图合成模型中的第二神经网络来处理第二输入，以生成采样点的颜色作为输出；以及

使用所述采样点的颜色和体密度来生成所述像素的颜色。

10.根据权利要求9所述的方法，其中，对于每个视图合成模型，第二输入包括表征合成图像的目标外观的相应外观嵌入。

11.根据权利要求10所述的方法，还包括：

接收关于所述子集中的第一视图合成模型的目标外观嵌入；以及

基于关于第一视图合成模型的目标外观嵌入来生成关于所述子集中的其他视图合成模型的所述相应外观嵌入。

12.根据权利要求10所述的方法，还包括：

接收目标外观嵌入；以及

将所述子集中的视图合成模型的相应外观嵌入设置为目标外观嵌入。

13.根据权利要求9-12中的任一项所述的方法，其中，对于每个视图合成模型，第二输入包括表示关于合成图像的目标相机曝光信息的数据。

14.根据权利要求8-13中的任一项所述的方法，当从属于权利要求5时，其中，每个视图合成模型包括第三神经网络，第三神经网络被配置为接收第三输入，第三输入包括表示场景中的所述点的坐标的数据和表示观看方向的数据，并且处理第三输入以输出所述点从观看方向的估计的透射率，并且其中，对于具有包括所述新视点的对应子区域的每个视图合成模型，确定相应的可见性估计包括：

对于多个点-观看方向对中的每个点-观看方向对，使用视图合成模型中的第三神经网络来处理包括表示该对中的点的坐标的数据和表示该对中的观看方向的数据的第三输入，以生成估计的透射率；以及

从所述多个点的估计透射率确定所述可见性估计。

15.根据权利要求14所述的方法，其中，所述可见性估计是估计的透射率的平均值。

16.一种系统，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-15中的任一项所述的相应方法的操作。

17.一个或多个计算机存储介质，存储指令，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-15中的任一项所述的相应方法的操作。