CN115735227A

CN115735227A - 反转用于姿态估计的神经辐射场

Info

Publication number: CN115735227A
Application number: CN202180046060.5A
Authority: CN
Inventors: 林宗毅; P.R.弗洛伦斯; Y-C.林; J.T.巴隆
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-11-16
Filing date: 2021-11-15
Publication date: 2023-03-03
Also published as: EP4150581A1; US20230230275A1; WO2022104178A1

Abstract

所提供的是反转训练后的NeRF模型的系统和方法，其中，NeRF模型存储场景或对象的结构，以从以新视角拍摄的图像估计6D姿态。6D姿态估计具有广泛的应用，包括用于机器人操纵的视觉定位和对象姿态估计。

Description

反转用于姿态估计的神经辐射场

相关申请的交叉引用

本申请要求于2020年11月16日提交的第63/114,399号美国临时专利申请的优先权。上述每个申请通过引用整体并入本文。

技术领域

本公开一般涉及用于姿态估计的系统和方法。更具体地，本公开涉及反转用于姿态估计的神经辐射场。

背景技术

神经辐射场(Neural Radiance Field，NeRF)通过用神经网络模型捕捉场景或对象的3D几何和外观，来展示其在新视角图像合成(novel view image synthesis)方面的优势。可微神经模型(differentiable neural model)设计使其能够通过用具有已知相机姿态的一组2D图像来训练，使用梯度下降法来优化3D空间中的占位和颜色外观。

发明内容

本公开的实施例的各方面和优点将在以下描述中部分阐述，或者可以从描述中了解，或者可以通过实施例的实践了解。

本公开的一个示例方面涉及用于确定相机姿态的计算系统。计算系统包括一个或多个处理器和一个或多个非暂时性计算机可读介质，其共同存储：机器学习的神经辐射场模型，其先前被训练为对场景建模；和指令，其在由一个或多个处理器执行时，使计算系统执行操作。该操作包括：获得由相机捕捉的主体图像。该操作包括：对于一个或多个姿态更新迭代中的每一个：获得相机的当前估计姿态；用机器学习的神经辐射场来处理描述当前估计姿态的数据，以从当前估计姿态生成场景的合成图像的一个或多个合成像素；评估将一个或多个合成像素与包括在由相机捕捉的主体图像中的一个或多个观察像素进行比较的损失函数；以及，至少部分基于损失函数的梯度，更新相机的当前估计姿态。

本公开的其他方面涉及各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。

参考以下描述和所附的权利要求，将更好理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书并构成其一部分的附图示出本公开的示例实施例，并且与描述一起用于解释相关原理。

附图说明

参考附图的说明书阐述了涉及本领域普通技术人员的实施例的详细讨论，其中：

图1描绘根据本公开的示例实施例的用于训练机器学习的神经辐射场模型的示例过程的框图。

图2描绘根据本公开的示例实施例的使用机器学习的神经辐射场模型来估计相机姿态的示例过程的框图。

图3A描绘根据本公开的示例实施例的示例计算系统的框图。

图3B描绘根据本公开的示例实施例的示例计算设备的框图。

图3C描绘根据本公开的示例实施例的示例计算设备的框图。

在多个附图之间重复的附图标记旨在标识不同实施方式中的相同特征。

具体实施方式

概述

一般地，本公开涉及反转存储场景或对象的结构的训练后的神经辐射场(NeRF)模型以从以新视角拍摄的图像估计姿态(例如，用六维(6D)表示)的系统和方法。姿态估计具有广泛的应用，包括机器人操纵/导航的视觉定位和对象姿态估计。

最近，新视角合成(novel view synthesis)的进展引发了对通过分析合成方法解决挑战的兴趣。然而，获得场景的高质量3D模型通常需要特殊的传感器，这通常只可以在实验室环境下进行。NeRF提供了用一组图像捕捉3D结构的方法，并且为将合成分析的方法应用于现实世界场景提供了机会。

此外，对于对象姿态估计，特定系统通常采用RGB-D相机来进行准确预测。然而，这引入许多问题，包括分辨率、帧率、视场和深度范围。本公开表明NeRF只用RGB训练和测试图像就可以执行准确的姿态估计。

具体地，本公开提供通过″反转″训练后的神经辐射场(NeRF)来执行姿态估计的框架(其示例实现可以被称为″iNeRF″)。NeRF已被证明对视角合成的任务(合成真实世界的场景或对象的逼真的新视角)非常有效。本公开表明NeRF可以用于完成3D姿态估计的任务(将3D模型拟合到该模型的图像)的相同质量改进。作为一个示例，给定初始姿态估计，示例系统可以使用梯度下降法来最小化从已经训练好的NeRF渲染的像素和观察到的图像中的像素之间的残差。

第63/114,399号美国临时专利申请中包含的示例实验彻底研究了：1)如何在iNeRF的姿态细化期间对射线采样以收集信息梯度，以及2)不同的损失函数在NeRF提出的合成数据集上如何影响iNeRF。iNeRF可以在复杂的真实世界场景中执行视觉定位(例如，相对于LLFF数据集所示)。此外，可包括基于特征的初始化和iNeRF细化的所提出的姿态估计管道在没有提供真实姿态标签的情况下，在LINEMOD上优于全部其他基于RGB的方法。

本公开的系统和方法提供许多技术效果和优点。作为一个示例，本公开能够比现有技术更高效地执行姿态估计。具体地，许多现有技术需要在每个候选姿态下渲染整个图像，以确定哪个姿态最好。渲染然后分析整个图像在计算上是昂贵的。相比之下，本文描述的示例系统和方法可以选择性地只渲染少量的合成像素，而不是整个图像。这导致明显节省计算量，从而节约计算资源，诸如处理器、存储器和/或网络带宽。

作为另一示例技术效果和优点，本文描述的技术可以用于确定自主机器人的姿态或定位自主机器人。通过提供机器人的改进的姿态估计，机器人的性能可以被提高(例如，自主车辆更高效和更安全地行驶)。

现在参考附图，将进一步详细讨论本公开的示例实施例。

示例NeRF模型

参考图1，训练数据集12可以包括描绘场景的现有训练图像。在一些实施方式中，训练图像可以不受约束，并且可以表现出彼此之间的各种不一致。如14所示，计算系统可以对训练数据集12执行模型优化或训练过程，以生成机器学习的神经辐射场模型16。在训练后，可以向模型16提供期望的合成图像的位置。作为响应，模型16可以生成从该位置描绘场景的合成图像。

在Mildenhall等人发布于arXiv：2003.08934[cs.CV]的″NeRF：RepresentingScenes as Neural Radiance Fields for View Synthesis″和Martin-Brualla等人发布于arXiv：2008.02268[cs.CV]的″NeRF in the Wild：Neural RadianceFields for Unconstrained Photo Collections″中描述了示例神经辐射场模型和用于训练神经辐射场模型的示例技术。在一些情况下，这些文章中描述的模型和技术可以被用作模型16和训练14。

具体地，给定N个RGB图像的集合

和已知的相机姿态

NeRF可以学习合成与未见过的相机姿态关联的新视角。NeRF通过将场景表示为″辐射场″来做到这一点：对场景形状建模的体积密度，以及对场景的被占领区域的外观建模的依赖于视角的颜色，两者都位于有界的3D体积内。每个点的密度σ和RGB颜色c由多层感知器(MLP)F的权重Θ参数化，MLP F将该点的3D位置x＝(x，y，z)和该点的单位范数观看方向d＝(d_x，d_y，d_z)作为输入，其中，(σ，c)←F_Θ(x，d)。

为了渲染像素，NeRF可以从相机的投影的中心通过图像平面上的该像素发射相机射线。沿着射线，可以对一组点采样，以作为MLP的输入，MLP输出一组密度和颜色。然后，这些值可以用于使用数字正交来近似估计体积渲染背后的图像形成，从而产生对该像素的颜色的估计。NeRF可以使用射线的某个采样集合

训练来最小化光度损失

其中，C(r)是某个图像中与射线r对应的像素的观察RGB值，并且

是从神经体积渲染产生的预测。为了提高渲染效率，可以训练两个MLP：一个″粗″，并且一个″细″，其中，粗模型用来偏置用于细模型的样本。

NeRF模型的示例反转

示例构想

本公开提供通过″反转″训练后的NeRF来执行姿态估计的框架(其示例实现可以被称为″iNeRF″)。假设由Θ参数化的场景或对象的NeRF已经被恢复，并且相机本征是已知的，但是图像观察I的相机姿态T尚未确定。与使用一组给定的相机姿态和图像观察来优化Θ的NeRF不同，给定权重Θ和图像I作为输入，示例实施方式可以解决恢复相机姿态T的反转问题：

为了解决该优化问题，示例实施方式使用来自NeRF的能力，以在来自NeRF模型的坐标框中取某个估计的相机姿态T∈SE(3)，并且渲染对应的图像观察。然后，示例实施方式可以使用与NeRF中使用的相同的光度损失函数

(见以上描述)，但是不是反向传播来更新MLP的权重Θ，计算系统替代地可以更新姿态T来最小化

下面将更详细讨论的图2示出整体过程。

虽然反转NeRF来执行姿态估计的概念可以被简要地说明，但是一开始看不出这种问题可以在有用的程度上被实际地解决。损失函数

在SE(3)的6DoF空间上是非凸的，并且全图像NeRF渲染在计算上是昂贵的，特别是如果在优化过程的循环中使用。本文描述的示例公式和实验旨在解决这些挑战。接下来的部分将讨论(i)基于梯度的SE(3)优化过程，(ii)射线采样策略，以及(iii)如何使用iNeRF的预测姿态来改进NeRF。

基于梯度的SE(3)优化

使Θ作为训练好且固定的NeRF的参数，

作为当前优化步骤i的估计相机姿态，I作为观察图像，并且

作为用于训练NeRF中的细模型的损失。示例实施方式可以采用基于梯度的优化来解决等式1中定义的

为了确保在基于梯度的优化期间估计的姿态

继续处于SE(3)流形，示例实施方式可以用指数坐标来参数化

给定从相机框到模型框的初始姿态估计

示例实施方式可以将

表示为：

其中，

其中，

表示螺旋轴，θ表示幅度，[w]表示w的斜对称3×3矩阵，

通过该参数化，我们的目标是解决从初始估计姿态T₀开始的最优相对变换：

示例实施方式可以通过MLP对损失函数进行迭代微分，以获得用于更新估计的相对变换的梯度

示例实施方式可以使用具有指数衰减学习率的Adam优化器。

对于每个观察图像，示例实施方式可以将

初始化到0附近，其中，每个元素被从零均值正态分布

中随机抽取。在实践中，用

而不是

来参数化导致旋转中心位于初始估计的中心，而不是位于相机框的中心。这减轻在优化期间旋转和平移之间的耦合。

对射线采样的示例技术

在典型的可微分的渲染和比较管道中，人们希望利用由渲染图像中的全部输出像素贡献的梯度。然而，由于NeRF，每个输出像素的值通过在射线行进期间对沿每个射线

的n个采样点的值进行权衡来计算，因此，给定批

中的采样射线的量，那么底层NeRF MLP的

个前向/后向传递将被查询到。因此，计算和反向传播图像中的全部像素的损失(即，b＝HW，其中，H和W表示高分辨率图像的高度和宽度)需要比任何商业GPU上的存储器明显更多的存储器。

虽然本公开的一些示例实施方式可以执行多个前向和后向传递来积累这些梯度，但是这对于执行已经迭代的优化过程的每个步骤来说变得非常缓慢。在下文中，提供了用于在每个优化步骤中选择用于评估损失函数

的采样射线集

的策略。示例实验指示在每个梯度步骤只对b＝2048个射线采样时，示例实施方式能够恢复准确姿态，这对应于适合GPU存储器的单次前向/后向传递，并且在640×480的图像上提供150×的更快速梯度步骤。

随机采样

直观策略是在图像平面上采样M个像素位置

并且计算其对应的射线。事实上，NeRF本身在优化Θ时使用该策略(假设不使用图像批处理)。然而，当射线b的批大小是小的时，该随机采样策略的性能可能是低效的。对于特定类型的场景，大多数随机采样的像素对应于图像中平坦的、无纹理的区域，这很少提供关于姿态的信息(这与公知的光圈问题一致)。

兴趣点取样

另一采样方法是兴趣点采样。在兴趣点采样中，计算系统首先采用兴趣点检测器来定位观察图像中的一组候选像素位置。然后，计算系统可以从检测到的兴趣点中采样M个点，并且如果没有检测到足够的兴趣点，则退回到随机采样。虽然该策略由于引入较少的随机性而使优化收敛得更快，但是它可能容易出现局部最小值，因为它只考虑观察图像上的兴趣点，而不是来自观察图像和渲染图像的兴趣点。然而，获得渲染图像中的兴趣点需要

个前向MLP传递，因此在优化中使用可能是昂贵的。

兴趣区域采样

为了防止仅从兴趣点采样造成的局部最小值，本公开的一些示例实施方式可以执行″兴趣区域″采样，这是放宽兴趣点采样并从以兴趣点为中心或以其他方式邻近于兴趣点的局部区域(例如，膨胀掩码(dilated mask))中采样的策略。作为一个示例，在兴趣点检测器定位兴趣点后，计算系统可以应用5×5的形态学膨胀进行I次迭代，以扩大采样区域。在实践中，当射线的批大小是小的时，基于区域的采样可以加快优化的速度。要注意的是，如果I被设置为过大的数字，则兴趣区域采样退回到随机采样。

数据流的示例可视化

图2描绘根据本公开的示例实施例的使用机器学习的神经辐射场模型16估计相机姿态的示例过程的框图。

更具体地，在训练14之后或期间，模型16可以用来估计捕捉主体图像18的相机的姿态。该过程可以迭代执行，以确定相机姿态。作为一个示例，当前估计姿态被表示为六个自由度的指数坐标。

如图2所示，在一个或多个更新迭代中的每一个中，计算系统可以获得捕捉主体图像18的相机的当前估计姿态20。计算系统可以用机器学习的神经辐射场16来处理描述当前估计姿态20的数据，以从当前估计姿态20生成场景的合成图像的一个或多个合成像素22。

作为一个示例，用机器学习的神经辐射场16来处理描述当前估计姿态20的数据以生成一个或多个合成像素22可以包括：确定从多个可能像素中标识一个或多个采样像素的子采样图像平面；确定一个或多个采样像素中的每一个的射线和方向；以及处理描述射线和方向的数据，以生成每个采样像素的合成像素之一。

作为一个示例，用机器学习的神经辐射场16来处理描述当前估计姿态20的数据以生成一个或多个合成像素22可以包括：识别一个或多个兴趣点；识别一个或多个兴趣点中的每一个周围的兴趣区域；从兴趣区域对点采样；生成采样点的合成像素。

在生成合成像素22之后，计算系统可以评估将一个或多个合成像素22与包括在由相机捕捉的主体图像18中的一个或多个观察像素进行比较的损失函数24。

作为一个示例，损失函数可以将一个或多个合成像素的相应强度与包括在由相机捕捉的主体图像中的一个或多个观察像素的相应强度进行比较。

作为另一示例，其中，损失函数可以附加或可替换地将一个或多个合成像素的相应色度与包括在由相机捕捉的主体图像中的一个或多个观察像素的相应色度进行比较。

作为又一示例，损失函数可以是L1损失函数、L2损失函数和/或Huber损失函数。

计算系统可以至少部分基于损失函数24的梯度，更新相机的当前估计姿态20。例如，损失函数24可以通过模型16反向传播以更新估计姿态20。

在一个或多个迭代完成之后，当前估计姿态20可以被输出作为主体图像18的最终估计姿态。

在一些实施方式中，相机与基于相机的估计姿态在场景中导航的自主机器人(例如，自主车辆)关联。

在一些实施方式中，主体图像18描绘与训练数据集12相同的场景。在其他实施方式中，主体图像18描绘与训练数据集12不同但类似的场景。

用iNeRF来自我监督NeRF

除了给定训练后的NeRF使用iNeRF来执行姿态估计之外，本公开还提供使用估计姿态来反馈到训练NeRF表示的技术。具体地，一些示例实施方式可以首先(1)给定具有已知相机姿态

的一组训练RGB图像来训练NeRF，产生NeRF参数Θ_train。然后，示例实施方式可以(2)使用iNeRF取得额外的未知姿态的观察图像

并且求解估计姿态

给定这些估计姿态，那么，示例实施方式可以(3)使用自我监督的姿态标签将

添加到训练集。该过程允许NeRF在半监督环境下训练。

示例设备和系统

图3A描述根据本公开的示例实施例的示例计算系统100的框图。系统100包括在网络180上可通信耦合的用户计算设备102、服务器计算系统130和训练计算系统150。

用户计算设备102可以是任何类型的计算设备，诸如例如，个人计算设备(例如，笔记本计算机或台式计算机)、移动计算设备(例如，智能手机或平板计算机)、游戏机或控制器、可穿戴计算设备、嵌入式计算设备、或任何其他类型的计算设备。

用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何适当的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作连接的多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存存储器设备、磁盘等、以及其组合。存储器114可以存储数据116和指令118，其中，指令118由处理器112执行，以使用户计算设备102执行操作。

在一些实施方式中，用户计算设备102可以存储或包括一个或多个机器学习模型120。例如，机器学习模型120可以是或可以以其他方式包括各种机器学习模型，诸如神经网络(例如，深度神经网络)或其他类型的机器学习模型(包括非线性模型和/或线性模型)。神经网络可以包括前馈神经网络、递归神经网络(例如，长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。示例机器学习模型120已参考图1和图2来讨论。

在一些实施方式中，一个或多个机器学习模型120可以在网络180上从服务器计算系统130被接收，被存储在用户计算设备的存储器114中，然后由一个或多个处理器112使用或以其他方式实现。在一些实施方式中，用户计算设备102可以实现单个机器学习模型120的多个并行实例(例如，在相同或不同的场景的多个实例之间执行并行视角合成)。

附加或可替换地，一个或多个机器学习模型140可以被包括在根据客户端服务器关系与用户计算设备102通信的服务器计算系统130中，或以其他方式被存储在服务器计算系统130中并由其实现。例如，机器学习模型140可以由服务器计算系统140实现为网络服务(例如，视角合成服务)的部分。因此，一个或多个模型120可以在用户计算设备102处存储和实现，和/或一个或多个模型140可以在服务器计算系统130处存储和实现。

用户计算设备102还可以包括接收用户输入的一个或多个用户输入组件122。例如，用户输入组件122可以是对用户输入对象(例如，手指或手写笔)的触摸敏感的组件(例如，触摸敏感的显示屏幕或触摸板)。触摸敏感的组件可以用来实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘、或其他用户可通过其提供用户输入的方式。

服务器计算系统130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何适当的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存存储器设备、磁盘等、以及其组合。存储器134可以存储数据136和指令138，其中，指令138由处理器132执行，以使服务器计算系统130执行操作。

在一些实施方式中，服务器计算系统130包括一个或多个服务器计算设备或以其他方式由其实现。在服务器计算系统130包括多个服务器计算设备的情况下，这种服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合来操作。

如上所述，服务器计算系统130可以存储或以其他方式包括一个或多个机器学习模型140。例如，模型140可以是或可以以其他方式包括各种机器学习模型。示例机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、循环神经网络和卷积神经网络。示例模型140已参考图1和2来讨论。

用户计算设备102和/或服务器计算系统130可以经由与在网络180上可通信耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150可以与服务器计算系统130分开，或可以是服务器计算系统130的部分。

训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何适当的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作连接的多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存存储器设备、磁盘等、以及其组合。存储器154可以存储数据156和指令158，其中，指令158由处理器152执行，以使训练计算系统150执行操作。在一些实施方式中，训练计算系统150包括一个或多个服务器计算设备或以其他方式由其实现。

训练计算系统150可以包括模型训练器160，其使用各种训练或学习技术(诸如例如错误的反向传播)训练存储在用户计算设备102和/或服务器计算系统130处的机器学习模型120和/或140。例如，损失函数可以通过模型反向传播，以(例如，基于损失函数的梯度)更新模型的一个或多个参数。可以使用各种损失函数，诸如平均平方误差、似然损失、交叉熵损失、铰链损失和/或各种其他损失函数。梯度下降技术可以用于在若干个训练地迭代上迭代更新参数。

在一些实施方式中，执行误差的反向传播可以包括通过时间执行截断的反向传播。模型训练器160可以执行若干个泛化(generalization)技术(例如，权重衰减、丢弃(dropout)等)以提高被训练的模型的泛化能力。

具体地，模型训练器160可以基于一组训练数据162，训练机器学习模型120和/或140。训练数据162可以包括，例如，无约束的图像数据，诸如″野外(in the wild)″照片。

在一些实施方式中，如果用户已同意，则训练示例可以由用户计算设备102提供。因此，在这种实施方式中，提供给用户计算设备102的模型120可以由训练计算系统150在从用户计算设备102接收到的用户特定的数据上训练。在一些情况下，该过程可以被称为使模型个性化。

模型训练器160包括用于提供期望功能的计算机逻辑。模型训练器160可以用控制通用处理器的硬件、固件和/或软件来实现。例如，在一些实施方式中，模型训练器160包括存储在存储设备上的程序文件，其被加载到存储器中并由一个或多个处理器执行。在其他实施方式中，模型训练器160包括一组或多组计算机可执行指令，其被存储在有形的计算机可读存储介质中，诸如RAM硬盘或者光学或磁性介质。

网络180可以是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，互联网)、或其某种组合，并且可以包括任何数量的有线或无线链路。一般来说，在网络180上通信可以使用各种各样的通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTP、SSL)经由任何类型的有线和/或无线连接进行。

图3A示出可用于实现本公开的一个示例计算系统。其他计算系统也可以被使用。例如，在一些实施方式中，用户计算设备102可以包括模型训练器160和训练数据集162。在这种实施方式中，模型120可以在用户计算设备102处在本地训练和使用。在一些这种实施方式中，用户计算设备102可以实现模型训练器160，以基于用户特定的数据使模型120个性化。

图3B描绘根据本公开的示例实施例来执行的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。

计算设备10包括若干个应用(例如，应用1至N)。每个应用包含其自己的机器学习库和机器学习模型。例如，每个应用可以包括机器学习模型。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图3B所示，每个应用可以与计算设备的若干个其他组件通信，诸如例如，一个或多个传感器、上下文管理器、设备状态组件和/或额外组件。在一些实施方式中，每个应用可以使用API(例如，公共API)与每个设备组件通信。在一些实施方式中，由每个应用使用的API特定于该应用。

图3C描绘根据本公开的示例实施例来执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。

计算设备50包括若干个应用(例如，应用1至N)。每个应用与中央智能层通信。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中，每个应用可以使用API(例如，全部应用之间公共API)与中央智能层(和存储在其中的模型)通信。

中央智能层包括若干个机器学习模型。例如，如图3C所示，相应的机器学习模型(例如，模型)可以被提供用于每个应用，并且由中央智能层管理。在其他实施方式中，两个或更多个应用可以共享单个机器学习模型。例如，在一些实施方式中，中央智能层可以提供用于全部应用的单个模型(例如，单一模型)。在一些实施方式中，中央智能层被包括在计算设备50的操作系统中或以其他方式由其实现。

中央智能层可以与中央设备数据层通信。中央设备数据层可以是计算设备50的集中的数据存储库。如图3C所示，中央设备数据层可以与计算设备的若干个其他组件通信，诸如例如，一个或多个传感器、上下文管理器、设备状态组件和/或额外组件。在一些实施方式中，中央设备数据层可以使用API(例如，私有API)与每个设备组件通信。

额外公开

本文讨论的技术参考了服务器、数据库、软件应用和其他基于计算机的系统、以及向这种系统采取的动作和发送的信息、以及由这种系统采取的动作和发送的信息。基于计算机的系统固有的灵活性允许在组件之间有大量可能的配置、组合、以及任务和功能的划分。例如，本文讨论的过程可以使用单个设备或组件或者结合工作的多个设备或组件来实现。数据库和应用可以在单个系统上实现，或分布在多个系统上。分布式组件可以依次或并行操作。

虽然已经针对本主题的各种具体示例实施例来详细描述本主题，但是每个示例是以解释的方式提供，而不是对本公开的限制。本领域技术人员在理解上述内容后，可以容易地对这些实施例进行更改、变化和等同替换。因此，本主题的公开内容不排除本领域普通技术人员容易看到的对本主题的修改、变化和/或补充。例如，示出或描述为一个实施例的部分的特征可以与另一实施例一起使用，以产生进一步的实施例。因此，本公开旨在涵盖这种更改、变化和等同替换。

Claims

1.一种用于确定相机姿态的计算系统，包括：

一个或多个处理器；和

一个或多个非暂时性计算机可读介质，其共同存储：

机器学习的神经辐射场模型，其先前被训练为对场景建模；和

指令，其在由一个或多个处理器执行时，使计算系统执行操作，所述操作包括：

获得由相机捕捉的主体图像；以及

对于一个或多个姿态更新迭代中的每一个：

获得相机的当前估计姿态；

用机器学习的神经辐射场来处理描述当前估计姿态的数据，以从当前估计姿态生成场景的合成图像的一个或多个合成像素；

评估将一个或多个合成像素与包括在由相机捕捉的主体图像中的一个或多个观察像素进行比较的损失函数；以及

至少部分基于损失函数的梯度，更新相机的当前估计姿态。

2.根据前述权利要求中任一项所述的计算系统，其中，当前估计姿态被表示为六个自由度的指数坐标。

3.根据前述权利要求中任一项所述的计算系统，其中，损失函数将一个或多个合成像素的相应强度与包括在由相机捕捉的主体图像中的一个或多个观察像素的相应强度进行比较。

4.根据前述权利要求中任一项所述的计算系统，其中，损失函数将一个或多个合成像素的相应色度与包括在由相机捕捉的主体图像中的一个或多个观察像素的相应色度进行比较。

5.根据前述权利要求中任一项所述的计算系统，其中，损失函数包括Huber损失函数。

6.根据前述权利要求中任一项所述的计算系统，其中，损失函数包括L1或L2损失函数。

7.根据前述权利要求中任一项所述的计算系统，其中，相机与基于相机的估计姿态来在场景中导航的自主机器人关联。

8.根据前述权利要求中任一项所述的计算系统，其中，用机器学习的神经辐射场来处理描述当前估计姿态的数据以生成一个或多个合成像素包括：

确定从多个可能像素中标识一个或多个采样像素的子采样图像平面；

确定一个或多个采样像素中的每一个的射线和方向；以及

处理描述射线和方向的数据，以生成每个采样像素的合成像素之一。

9.根据前述权利要求中任一项所述的计算系统，其中，主体图像描绘场景。

10.根据权利要求1至8中任一项所述的计算系统，其中，主体图像描绘不同但类似的场景。

11.一种用于确定相机姿态的计算机实现的方法，包括：

由包括一个或多个计算设备的计算系统获得由相机捕捉的主体图像；

由计算系统访问先前被训练为对场景建模的机器学习的神经辐射场模型；以及

对于一个或多个姿态更新迭代中的每一个：

由计算系统获得相机的当前估计姿态；

由计算系统用机器学习的神经辐射场来处理描述当前估计姿态的数据，以从当前估计姿态生成场景的合成图像的一个或多个合成像素；

由计算系统评估将一个或多个合成像素与包括在由相机捕捉的主体图像中的一个或多个观察像素进行比较的损失函数；以及

由计算系统至少部分基于损失函数的梯度，更新相机的当前估计姿态。

12.根据权利要求11所述的计算机实现的方法，其中，当前估计姿态被表示为六个自由度的指数坐标。

13.根据权利要求11或12所述的计算机实现的方法，其中，损失函数将一个或多个合成像素的相应强度与包括在由相机捕捉的主体图像中的一个或多个观察像素的相应强度进行比较。

14.根据权利要求11、12或13所述的计算机实现的方法，其中，损失函数将一个或多个合成像素的相应色度与包括在由相机捕捉的主体图像中的一个或多个观察像素的相应色度进行比较。

15.根据权利要求11至14中任一项所述的计算机实现的方法，其中，损失函数包括Huber损失函数。

16.根据权利要求11至15中任一项所述的计算机实现的方法，其中，损失函数包括L1或L2损失函数。

17.根据权利要求11至16中任一项所述的计算机实现的方法，其中，相机与基于相机的估计姿态来在场景中导航的自主机器人关联。

18.根据权利要求11至17中任一项所述的计算机实现的方法，其中，用机器学习的神经辐射场来处理描述当前估计姿态的数据以生成一个或多个合成像素包括：

确定一个或多个采样像素中的每一个的射线和方向；以及

19.根据权利要求11至18中任一项所述的计算机实现的方法，其中，主体图像描绘场景。

20.一个或多个非暂时性计算机可读介质，共同存储指令，所述指令在被执行时，使计算系统执行操作，所述操作包括：

由计算系统获得由相机捕捉的主体图像；

对于一个或多个姿态更新迭代中的每一个：

由计算系统获得相机的当前估计姿态；