CN116745813A

CN116745813A - 室内环境的自监督式深度估计框架

Info

Publication number: CN116745813A
Application number: CN202280011051.7A
Authority: CN
Inventors: 嵇盼; 徐毅
Original assignee: Innopeak Technology Inc
Current assignee: Innopeak Technology Inc
Priority date: 2021-03-18
Filing date: 2022-03-16
Publication date: 2023-09-12
Also published as: WO2022174198A1

Abstract

多个系统和多个方法被提供用于以一自监督方式从一个或多个图像估计一深度图。本文公开的所述多个系统和多个方法可以执行所述深度分解模块，所述深度分解模块包括一深度网络及一尺度网络，所述深度网络被配置为从一目标图像确定一深度图，所述尺度网络被配置为从所述目标图像确定一全局尺度因子及以所述全局尺度因子更新所述深度图，以确定一相对深度图。本文的系统和方法还可以执行一残差姿态估计模块，所述残差姿态估计模块被配置为迭代地预测在多个被重建的合成图像与所述目标图像之间的多个残差相机姿态，并且基于所述相对深度图、全局尺度因子和所述多个迭代预测的残差相机姿态以训练一深度估计模型。

Description

室内环境的自监督式深度估计框架

相关申请的交叉引用

本申请要求2021年3月18日提交且标题为“室内环境的自监督式深度估计框架”的美国临时申请第63/162,940号的权益，所述申请的全部内容通过引用并入本文。

技术领域

本公开通常涉及用于从一个或多个图像进行深度估计的系统和方法，并且具体地涉及用于室内环境的深度估计的自监督式方法。

背景技术

深度估计在各种3D感知任务中发挥着重要作用，例如自动驾驶、虚拟现实(VR)和增强现实(AR)。深度估计可以利用一深度图(a depth map)，所述深度图可以用一被监督方式和/或一自监督方式从单个图像被估计。与诸多被监督式方法相比，自监督使所述方法不必使用诸多深度传感器(譬如激光雷达)来捕获一地面真值深度(ground-truth depth)，因此，在无法获得地面真值的情况下可能更有吸引力。

最近，诸多自监督式方法成功产生的深度预测与诸多被监督式方法产生的深度预测相当。例如，在卡尔斯鲁厄理工学院和丰田理工学院(KITTI)数据集上，Monodepth2(一种自监督式方法)实现10.6％的绝对相对深度误差(AbsRel)，与通过被监督式DORN(一种被监督式方法)的7.2％的AbsRel相差不远。然而，现有的自监督式深度预测方法仅在KITTI等室外数据集上进行评估，使其在室内环境中的性能不透明。

一些方法考虑室内自监督式深度预测，但它们的性能仍然远远落后在室外数据集上评估的方法或在室内数据集上的被监督式对应方案。例如，在室内NYUv2数据集上，一种示例方法的AbsRel达到18.9％，这远高于Monodepth2在KITTI上可以达到的水平。

发明内容

根据被公开的技术的各种实施例，提供用于以一自监督方式从一个或多个图像估计一深度图的系统和方法。

根据一些实施例，提供用于从诸多单目图像进行深度估计的方法和系统。所述方法包括获得多个图像帧，所述多个图像帧包括至少第一图像帧和一第二图像帧，其中所述多个图像帧由至少一个图像传感器捕获；基于一深度模型导出所述第一图像帧的一深度图；将所述深度图分解为所述第一图像的一全局尺度因子；通过使用所述全局尺度因子更新所述深度图以确定所述第一图像的一相对深度图；及训练一深度估计模型以基于所述相对深度图和全局尺度因子从所述第二图像帧预测所述第一图像帧。

在另一方面，提供一种非暂时性计算机可读存储介质，存储用于从诸多单目图像进行深度估计的多个指令。所述指令可由一个或多个处理器执行，并且当由所述一个或多个处理器执行时，使得所述一个或多个处理器执行一种方法，所述方法包括获得多个图像帧，所述多个图像帧包括至少第一图像帧和一第二图像帧，其中所述多个图像帧由至少一个图像传感器捕获；基于一个或多个合成图像帧确定所述图像传感器在所述第一图像帧与所述第二图像帧之间的一相对姿态，所述一个或多个合成图像帧从所述第二图像帧导出；及基于所述被确定的相对姿态训练所述深度估计模型。

在另一方面，提供一种用于深度估计的系统。所述系统包括被配置为存储指令的一存储器及可通信地耦合到所述存储器的一个或多个处理器。所述一个或多个处理器被配置为执行所述指令以执行一深度分解模块和一残差姿态估计模块。所述深度分解模块包括：一深度网络，被配置为从作为一输入的一目标图像以确定一深度图；及一尺度网络，被配置为从作为一输入的所述目标图像确定一全局尺度因子，并且基于以所述全局尺度因子更新所述深度图以确定一相对深度图。所述残差姿态估计模块被配置为迭代地预测在多个迭代重建的合成图像和所述多个目标图像之间的多个残差相机姿态，其中一第一迭代重建的合成图像基于所述目标图像与一来源图像之间的一相对相机姿态，其中所述第一迭代重建的合成图像随后的每个迭代重建的合成图像是基于一先前迭代重建的合成图像与所述目标图像之间的一残差相机姿态被生成。所述一个或多个处理器被配置为执行所述指令，基于所述相对深度图、全局尺度因子和迭代预测的残差相机姿态以训练一深度估计模型。

根据如下结合附图的详细描述，被公开的技术的其他特征和方面将变得显而易见，附图通过示例以图例说明根据被公开的技术的实施例的特征。所述概述并不旨在限制本文描述的任何发明的范围，这些发明仅由所附权利要求书限定。

附图说明

本公开参照附图详细描述根据一个或多个不同实施例。附图仅出于说明的目的被提供并且仅描绘典型或示例实施例。

图1以图例说明根据本文公开的诸多实施例的自监督式深度估计系统的一示例架构的一图。

图2以图例说明根据本文公开的诸多实施例的用于学习在多个图像之间的所述相对相机姿态的一示例残差姿态估计。

图3以图例说明在EuRoC MAV数据集上使用图1的所述深度估计系统进行的深度预测的定性比较。

图4以图例说明对NYUv2深度数据集使用图1的所述深度估计系统进行的深度预测的定性比较。

图5是可被用于实现本公开中描述的诸多实施例的各种特征的一示例计算组件。

提及这些说明性实施例并非为了限制或定义本公开，而是为了提供诸多示例以帮助理解本公开。另外的实施例在具体实施方式中被讨论，并且在那里提供进一步的描述。

具体实施方式

本文公开的诸多系统和诸多方法的诸多实施例可以提供以一自监督方式从一个或多个图像估计一深度图。例如，本公开的诸多实施例提供使用一深度分解模块和一残差姿态估计模块中的至少一者的自监督式深度估计。根据各种实施例，所述深度分解模块可以被配置为通过被添加到一深度网络的一分支以学习一全局尺度因子和/或一相对深度图。所述残差姿态估计模块可以被配置为估计用于视图合成的多个准确相机姿态，这进而改进所述深度模型。各种实施例包括所述深度分解模块和所述残差姿态估计模块两者。

如上所述，现有的室内自监督式深度预测方法的性能远远落后于室外自监督式方法或被监督式对应方案。这种差异可能部分是因为室内环境的序列场景的深度范围比室外的序列场景的深度范围的变化更大。这可能会导致一深度网络难以跨多个图像引入一致的深度线索。性能差异也可能是因为自监督式方法中常用的姿态网络在旋转预测方面往往存在大的误差。即使在使用一循环姿态网络(a recurrent pose network)后，诸多预测姿态也可能具有比几何同时定位与地图构建(SLAM)高得多的旋转误差(譬如大10倍)。这个问题对室外数据集来说可能并不突出，因为其中的运动大多是平移的。然而，由于室内数据集通常由手持相机或微型飞行器(MAV)捕获，不可避免地会经历频繁的旋转，因此不准确的旋转预测不利于室内环境的一深度模型的自监督训练。

给定上述考虑因素，本文公开的诸多实施例提供对于室内环境量身定制的单目自监督式深度估计系统和方法。本文公开的实施例包括多个模块，例如一深度分解模块和一残差姿态估计模块。所述深度分解模块被配置为将所述深度图分解为一全局深度比例(对于一当前图像)和一相对深度图。所述深度比例因子可以由所述深度网络中的一附加分支单独预测。因此，所述深度网络改进模型的可塑性，以适应训练期间对深度比例的变化。所述残差姿态估计模块被配置为减轻不准确的旋转预测的问题。例如，在各种实施例中，所述残差姿态估计模块除了一初始大姿态预测之外还执行所述残差姿态估计。所述残差姿态估计可能导致更准确地计算光度测定损失，这可能导致对于所述深度网络更好的模型训练。

本文公开的实施例提供优于现有技术的许多非限制性优点。例如但不限于，本文实施例提供一深度分解模块，帮助所述深度网络适应快速的比例变化；一残差姿态估计模块，可以缓解所述姿态网络中不准确的旋转预测问题，进而改进深度预测；改进对室内数据集的自监督式深度预测的性能，例如公开可用的室内数据集，诸如但不限于：EuRoC和NYUv2。

应当注意的是，在本文被使用的术语“优化(optimize)”、“最佳的(optimal)”、“改进的(improved)”和“改善(improvement)”等可用于表示使得或实现尽可能有效或完美的性能。然而，正如阅读此文档的本领域普通技术人员将认识到的那样，并非总是能够实现完美。因此，这些术语还可以涵盖在诸多给定情况下使得或实现尽可能好或有效或实用的性能，或者使得或实现的性能比用其他设置或参数可实现的性能更好。

1.监督式单目深度估计(Supervised Monocular Depth Estimation)

早期的深度估计方法大多是被监督式的。例如，一种被监督式方法以多个超像素特征和一马尔可夫随机场(MRF)从单个图像回归所述深度。另一种被监督式方法提出首次基于深度学习的方法，用以使用一多尺度卷积神经网络(CNN)进行单目深度估计。后来的方法通过更好的网络架构或经由更复杂的训练损失来提高深度预测的性能。有一些方法依赖于两个网络，一个用于深度预测，另一个用于运动，在一被监督式框架(a supervisedframework)中模仿几何运动结构(SfM)或SLAM。训练这些方法需要地面真值深度数据，而捕获这些数据的成本通常很高。如此，其他一些方法诉诸于以传统3D重建方法诸如SfM和SLAM或3D电影以生成多个伪地面真值深度标签。此类方法可以在不同数据集之间提供更好的泛化能力，但可能无法实现对于室内数据集的最佳性能。

1.2.自监督式单目深度估计(Self-Supervised Monocular Depth Estimation)

自监督式深度不需要以所述地面真值进行训练。举例来说，现有方法提出使用在多个立体图像之间的色彩一致性损失(color consistency loss)来训练一单目深度模型(a monocular depth model)。另一种方法使用两个网络(譬如，一个深度网络和一个姿态网络)来构建跨多个时间帧的光度测定损失(photometric loss)。许多后续方法然后尝试通过新的损失项来改进所述自我监督。例如，一种方法结合对于立体训练的一左右深度一致性损失(aleft-right depth consistency loss)，而另一种方法提出一时间深度一致性损失(a temporal depth consistency loss)以激励诸多相邻帧具有一致的深度预测(consistent depth predictions)。第三种方法观察在训练期间的所述深度模型的减弱问题，并且提出一种简单的归一化方法以抵消这种影响。一些方法使用三个网络(譬如，一个深度网络、一个姿态网络和一个额外的流网络)以施行在光流与密集深度之间的跨任务一致性(cross-task consistency between optical flow and dense depth)。一些方法利用多个循环神经网络(例如长短期记忆(LSTMs))以对所述姿态网络和/或所述深度网络中的长期依赖性进行建模。一种方法(被称为Monodepth2)经由一组技术改进诸多先前方法的性能，诸如用以处理遮挡的一每个像素最小光度损失(a per-pixel minimum photometricloss)、用以屏蔽静态像素的一自动屏蔽方法以及用以减轻在深度方面的纹理复制问题的一多尺度深度估计策略(a multi-scale depth estimation strategy)。由于被改进的性能，本文公开的一些实施例基于Monodepth2，但对所述深度和所述姿态网络两者进行改变。

上述大多数方法仅在诸如KITTI的户外数据集上进行评估。其他一些最近的方法侧重于室内自监督式深度估计。例如，对方法提出一种基于光流的训练范例，并且通过一预处理步骤处理大的旋转运动，所述预处理步骤去除具备“纯旋转(pure rotation)”的图像对。一种方法采用一几何增强策略(a geometry-augmented strategy)，经由两视图三角测量求解所述深度，然后使用所述三角测量的深度作为监督。另一种方法认为，所述旋转在训练过程中表现为噪声，并且提出一校正步骤以去除在诸多连续帧之间的旋转。

虽然诸多大的旋转可能给所述网络带来困难，但是本文公开的实施例采用不同的方法。本文所公开的实施例不是从训练数据中去除旋转，而是经由所公开的残差姿态模块逐步估计旋转，这又改进了深度预测。

2.示例实施例深度估计系统

图1以图例说明根据本文公开的诸多实施例的用于自监督式深度估计系统(self-supervised depth estimation system)100的一示例架构的一图。所述深度估计系统100可以被配置为教导和执行一深度估计模型。所述系统可以使用例如一个或多个处理器和存储器元件(例如图5的计算机系统500)而被实现。根据一些实现方案，所述深度估计系统100也可以被称为单式室内(MonoIndoor)。

本文公开的实施例进行自监督式深度估计系统，包括一深度分解模块(a depthfactorization module)和一残差姿态估计模块(a residual pose estimation module)中的至少一者。深度分解模块101可以包括一基于编码器与解码器的深度网络架构(anencoder-decoder based depth network architecture)，所述基于编码器与解码器的深度网络架构被配置为预测一相对深度图(a relative depth map)和一非局部尺度网络(anon-local scale network)以估计一全局尺度因子(a global scale factor)。所述残差姿态估计模块102可以包括被配置为从一对图像帧(譬如一对单目图像)预测一初始相机姿态的一姿态网络和被配置为基于所述被预测的初始姿态迭代地预测诸多残差相机姿态的残差姿态网络。虽然参考包括两个模块的实施例进行以下描述，但是应当理解，本文公开的实施例可以包括所述深度分解模块101、所述残差姿态估计模块102或两者的一组合。

本文公开的实施例利用从被配置为将视频捕获为一个环境的诸多图像帧和/或静态图像的相机(譬如可见光相机、IR相机、热感相机、超声相机和其他相机)或其他图像传感器捕获的诸多图像或诸多图像帧。在各种实施例中，诸多图像可以由被配置为将诸多单目视频捕捉为多个图像帧的诸多单目图像传感器来捕捉，每个图像帧包括以诸多单目图像为形式的所述环境的一不同场景。如本文所述的，一“单目图像(monocular image)”是来自单个(譬如单目的)相机的一图像，并且涵盖周围环境的一部分(譬如所述周围环境的一子区域)的一视场(FOV)或一场景。例如，当所述图像传感器前进通过一环境时，在所述环境中的诸多对象和诸多特征的诸多观点改变，并且所述被描绘的诸多对象/诸多特征本身也改变，从而描绘所述环境的单独场景(譬如诸多对象/诸多特征的诸多特定组合)。一单目图像可以不包括指示深度的任何明确的附加模态，也不包括来自可以导出深度的另一相机的任何明确的对应图像(譬如没有立体图像的传感器对)。与可以集成来自并排(side-by-side)安装的诸多分离相机的左图像和右图像以提供一额外的深度通道的一立体图像相比，一单目图像不包括明确的深度信息，诸如从逐个像素比较所述诸多立体图像得出的诸多视差图。取而代之的是，一单目图像可以隐含地提供其中被描绘的诸多元件的透视和尺寸关系中的深度信息。所述单目图像可以是一前向的(譬如行进方向)、60度的FOV、90度的FOV、120度的FOV、后/侧向的FOV或基于定位和图像传感器的特性的一些其他子区域。

在一些实施例中，由所述深度估计系统100处理的所述诸多图像或诸多图像帧可以直接或间接从所述相机获取。例如，来自一相机的诸多图像可以经由一有线或无线连接被馈送到所述系统100并且实时处理。在另一示例中，诸多图像可以被存储在一存储器中并且被检索以进行处理。在一些示例中，可以实时处理由所述相机捕获的一个图像，同时可以从存储中检索一第二图像。

2.1.自监督式深度估计(Self-Supervised Depth Estimation)

本文公开的诸多实施例通过训练一模型以从诸多来源图像的诸多不同场景视点(譬如，诸多不同的相机姿态)预测一目标图像，将自监督式深度估计视为一视图合成问题。所述图像合成过程可以通过使用所述深度图作为桥接变量(bridging variable)而被训练和被约束。如此，所述图像合成过程可能需要一目标图像的一预测深度图和在所述目标与一来源图像(譬如一目标和来源图像对)之间的一估计相对姿态。

例如，给定一目标图像I_t和与所述目标图像I_t从一视图上不同(譬如，不同的姿态)的一来源图像I_t'，本文的实施例可以被联合训练以预测所述目标图像I_t的一密集深度图D_t和从所述目标图像I_t到所述来源图像I_t'的一相对相机位姿T_t->t'。光度测定重投影损失(photometric reprojection loss)可以被构建如下：

其中ρ表示一光度测定重建误差。所述光度测定重建误差是所述的一加权组合(譬如，所述目标帧I_i及一合成帧I_j→i中的每个值的绝对值的一总和)和结构化相似性(SSIM)损失被定义为

其中I_t’->t是基于所述目标图像的一深度被扭曲到所述目标图像坐标系的所述来源图像。proj()是一个变换函数，用于映射所述图像坐标p_t从所述目标图像到它的p_t’在如下的所述来源图像上

p_t′～KT_t→t′D_t(p_t)K^-1p_t

方程(4)

并且，<·>是局部可微分的双线性采样算子。假设所有图像的相机内在函数K相同，并且一边缘平滑项(an edge-ware smoothness term)被采用为

其中，是平均归一化逆深度，d_t表示来自一相应深度图D_t的一深度值,/>及表示偏导数，其中x和y是所述相应深度图D_t内的坐标。在训练期间，使用本领域已知的一自动掩蔽方案以处理诸多静态像素。

本文的各种实施例使用一附加的深度一致性损失(an additional depthconsistency loss)以强制跨诸多相邻帧的一致的深度预测(consistent depthprediction)。例如，首先通过方程(2)对所述来源图像的所述深度图像D_t′进行变形以生成D_t′→_t，其是所述来源图像的坐标系中的一对应的深度图。然后，吾人经由方程(4)将D_t′→_t变换到所述目标图像的坐标系，以生成一合成的目标深度图所述深度一致性损失可以被写为

训练所述模型的总体目标是

其中，τ和γ分别是用于边缘感知平滑度损失(edge-aware smoothness loss)和深度一致性损失的权重。

尽管现有的单目自监督式方法能够在室外环境中生成有竞争力的深度图，但这些方法在室内环境中的性能仍然较差，特别是与完全监督的方法相比。如上所述，室内环境中的主要挑战来自于室内序列的深度范围变化很大，并且室内序列包括难以预测的规则旋转运动。

为了处理这些问题，本文的实施例提供一单目自监督式深度估计架构，如图1所示，提供被改进的室内环境中的预测深度质量。所述系统100的架构采用一单色图像作为输入，并且基于执行一深度分解模块101和一残差姿态估计模块102以输出一深度图。

2.2.深度分解(Depth Factorization)的示例实施例

本文公开的实施例使用具有一编码器108/解码器110架构的一深度网络106来预测一深度模型，所述深度网络106输入一图像104(It)并且输出用于所述输入图像的一相对深度图112(D_t)。一示例深度网络106采用一自动编码器结构(an auto-encoderstructure)，所述自动编码器结构具备在所述编码器与所述解码器之间的诸多跳跃连接(skip connections)。在各种实施例中，输入图像104是一彩色图像。一说明性的深度网络106可以是用于深度预测的Monodepth2模型。

作为一说明性示例，所述深度网络106可以包括一组神经网络层，所述的一组神经网络层包括流入多个解码器层(譬如具备形成一解码器110的多个上采样算子的多个2D卷积层)的多个卷积组件(譬如形成一编码器108的多个2D卷积层)。所述编码器108接受一图像104(譬如一单目彩色图像)作为一输入，并且处理所述图像以从中提取诸多特征(譬如诸多特征表述(feature representations))。所述诸多特征可以是所述图像指示的所述图像固有编码的空间信息的诸多方面。如此，形成所述编码器功能的诸多编码层例如将诸多被编码的特征折叠(即，调整一特征图的尺寸以保留所述特征图中包含的所述诸多特征表述)到诸多单独的通道中，迭代地降低所述图像的空间尺寸，同时将有关所述诸多特征的诸多嵌入状态的信息打包到诸多附加通道中。因此，所述诸多额外的通道的添加避免所述编码过程的有损性质，并且有利于保存关于原始单目图像的更多信息(譬如诸多特征细节)。

如图1以图例说明，所述编码器108包括由诸多二维(2D)卷积层、诸多打包块和诸多残差块的一组合形成的多个编码层。此外，所述诸多单独的编码层生成以诸多被编码的特征图(也称为诸多张量(tensors))为形式的诸多输出，所述诸多编码层将其提供给所述深度网络106中的诸多后续的层。这样，所述编码器108可以包括对所述图像104进行操作并且随后对被导出/中间特征图进行操作的各种单独的层，所述诸多特征图将所述图像104的视觉信息转换成以诸多不同通道的诸多被编码特征为形式的嵌入状态信息。

所述解码器110可以展开(譬如调整所述张量的维度以提取所述诸多特征)所述先前编码的空间信息，以便根据与所述诸多被编码的特征相关联的诸多学习的相关性以导出用于所述图像的一深度图112。例如，所述诸多解码层可以用于通过诸多子像素卷积和其他机制将先前编码的特征上采样到所述深度图112中，所述深度图112可以用不同的分辨率提供。在一些实施例中，所述诸多解码层包括多个拆解包块、多个二维卷积层和多个逆深度层，所述多个逆深度层用作对于所述特征/深度图的不同尺度的多个输出层。所述深度图可以是与所述输入图像相对应的一数据结构，其指示其中被表示的诸多对象/诸多特征的诸多距离/诸多深度。另外，在各种实施例中，所述深度图112可以是具备诸多单独的数据值的一张量，所述诸多单独的数据值指示所述图像中基于每个像素的诸多对应位置的诸多深度。

所述深度网络106还可以包括用于所述编码器108与所述解码器110之间提供残差信息的诸多跳跃连接，以促进多个单独组件之间的多个更高级别特征的记忆。虽然讨论一特定的深度网络106，但如前所述，所述深度网络106在各种方法中可以采取不同的形式并且通常用于处理多个单目图像并提供多个深度图，所述多个深度图是关于诸多对象/诸多特征的诸多距离的多个每像素估计图像中被描绘。

注意的是，所得到的图像深度预测(譬如，相对深度图112)可能不是直接来自所述编码器108的所述多个卷积层，而是在如下的一sigmoid激活函数和一线性缩放函数后：

d＝1/(aσ+b)

方程(8)

其中，σ为在所述sigmoid函数后的值，将输出约束在(0,1)之间，a和b被指定以将所述深度图D约束在一定的深度范围内，从而提供一相对深度图。实际上，a和b分别被设置为在一已知环境下可以获得的一最小深度值和一最大深度值。例如，在KITTI数据集上，a选择为0.1，b选择为100。将a和b设置为固定值的原因是，当所述相机始终看到远处的天空时，整个视频序列的深度范围是一致的。但是，此设置可能不适用于大多数室内环境。当一相机穿过一环境时，所述相机捕获的每个图像的深度范围会发生变化。例如，一浴室的深度范围(例如0.1米(m)至3米)可能与一大厅的深度范围(例如0.1米至10米)有很大不同。预设深度范围可能会起到不准确的指导作用，这可能不利于所述模型捕获准确的深度尺度。当尺度发生快速变化时尤其如此，这种情况在室内环境中很常见。因此，为了克服这个问题，所述深度分解模块101被配置为学习以一相对深度图D_t(譬如，如上所述)和一全局尺度因子为形式的一解缠结表征(a disentangled representation)。如本文所使用的，一相对深度图指的是包含位于[0,1]之间的诸多条目(例如，诸多深度值)的一矩阵，而一绝对深度图包含处于公制尺度(譬如以米为单位)的诸多深度值。系统100的架构采用所述深度网络106以预测相对深度，并且添加一自注意力引导的尺度回归网络(a self-attention-guided scaleregression network)114以预测当前视图的所述全局尺度因子。

在各种实施例中，所述尺度网络114可以是来自所述深度网络106的一分支116，其将一图像(譬如各种实施例中的彩色图像)作为输入并且输出所述图像的一全局尺度因子。例如，所述输入可以是所述图像104或另一图像。由于所述全局尺度因子可以由所述图像中的某些区域(譬如，一远方的点，其代表所述图像中最远的点)被告知，因此一些实施例使用一自注意力块，使得所述网络可以被引导而更加关注到所述图像的某个区域。此方法可以提供信息以得出一环境中的当前视图(譬如当前场景)的所述深度比例因子。给定从所述输入图像(譬如图像104)学习到的一特征表述一自注意力块使用特征表述/>作为一输入，通过以下方式形成一查询/>一键/>和一值输出/>

其中，W_ψ、W_φ和W_h是本文的实施例要学习的多个参数。W_ψ、W_φ和W_h是以与其他网络参数类似的方式学习的多个卷积层，并且分别被标示为多个层118、120和122。诸多特征表述可以使用已知的图像处理技术从所述图像中被学习或被提取。然后将所述查询和诸多键值组合在/>中，作为被学习到的诸多自注意力，其中T表示一矩阵转置运算符。诸多自注意力/>以图例说明如图1中所示为层124(譬如一卷积层)。紧接着，所述自注意力/>和特征表述/>通过使用以下内容共同贡献于所述输出/>

其中，是本文实施例要学习的一参数并且是按照与其他网络参数类似的方式学习的一卷积层。

在多个层126，在获得所述诸多注意力表示如后，应用两个残差块，每个残差块包括两个卷积层(two convolutional layers)，然后是三个全连接层(three fully-connected layers)，其间有多个丢失层(dropout layers)，以输出表示当前图像(例如所述输入图像)的深度范围的所述全局尺度因子。

在多个层126，为了预测一全局尺度，一高维度特征图(a high-dimensionalfeature map)可能需要被映射成单个正数(a single positive number)。一种方法是让所述尺度网络114直接对尺度数进行回归。然而，这可能会提供不稳定的训练。为了缓解这个问题，本文的实施例可以使用一概率尺度回归头(a probabilistic scale regressionhead)来估计此连续值。给定所述全局尺度因子所在的一最大界限，每个尺度s的概率是经由一softmax运算softmax(·)从所述尺度网络的输出被计算。每个尺度s都是0、1、...、D_max的一枚举(an enumeration)，其中D_max是所有深度图的最大值。Dmax可以被预先设置以约束所述全局尺度因子的最大界限(譬如基于来自所有深度图的最大值被设置，诸如10、20等)。所述被预测的全局尺度/>被计算为每个尺度s按它的概率被加权的总和：

其中，表示将多个全连接层应用于所述多个注意力表征/>后的一特征向量。通过这样做，所述回归问题可以通过一基于概率分类的策略顺利解决(参见下面描述的消融结果)。所述被预测的全局尺度/>可被用于与所述相对深度图相乘以训练所述深度估计模型。

2.3.残差姿态估计(Residual Pose Estimation)的示例实施例

如上所述，所述自监督式深度估计系统的实施例建立在新颖的视图合成之上，其使用精确的深度图和相机姿态。估计准确的相对姿态可能是光度测定重投影损失的关键，因为不准确的姿态可能会导致在目标像素与来源像素之间的错误对应，从而导致预测所述深度时出现问题。现有方法通常采用独立的姿态网络来估计两个图像之间的6个自由度(DoF)姿态。在室外环境中(譬如KITTI数据集中提供的驾驶环境)，相对相机姿态相当简单，因为汽车大多向前移动，平移姿态变化较大，但旋转姿态变化较小。这意味着姿态估计通常不那么具有挑战性。相比之下，在室内环境中，诸多序列通常使用手持装置(例如智能手机、手持记录装置等)被记录，因此涉及更复杂的自我运动以及更大的旋转运动。因此，所述姿态网络更难学习准确的相机姿态。

与集中于数据预处理期间“去除(removing)”或“减少(reducing)”姿态变化的旋转分量的现有方法不同，本文的实施例包括所述残差姿态估计模块102以一迭代方式学习一目标图像与一来源图像之间的所述相对相机姿态。

在一第一阶段，一姿态网络132(本文也称为姿态网(PoseNet)132)将一目标图像(I_t)和一来源图像作为输入(例如，经由一衔接(concat)函数合并所述图像对)并预测一初始相对相机姿态(an initial relative camera pose)/>其中在t′₀中的下标0表示尚未应用任何变换。一示例姿态网132接受两个单目图像(例如I_t和/>)，每个单目图像对应于一环境的不同相机姿态和不同视图(例如，诸多对象/诸多特征的不同组合和/或诸多对象/诸多特征的不同视点)。所述姿态网132处理所述多个单目图像(例如I_t和/>)以产生一组6-DOF变换(称为[R|t])134的一估量，所述的一组6-DOF变换应用于两个图像之间以表示从一个姿态到另一个姿态的过渡(譬如/>)。所述姿态网132可以被实现为例如卷积神经网络(CNN)或可微分并且进行所述诸多输入图像的维度降低以产生变换的另一学习模型。在一示例中，所述姿态网132可以包括7个stride-2卷积、具备对应于所述多个图像中的一者的3个欧拉角和一3D平移的6*(N-1)个输出通道的一1×1卷积，以及全局平均池化以聚合所有空间位置的预测。在一些实施例中，所述6-DOF变换134可以是属于特殊欧几里得群SE(3)的6-DOF刚体变换，其表示作为所述姿态网132的输入而被提供的所述图像对之间的姿态变化。所述姿态网132进行所述单目图像的一维度降低以从中导出多个图像之间的多个变换134。

紧接着，如下的方程(12)被应用于从所述来源图像进行双线性采样(譬如用于进行逆扭曲(an inverse warp)136的一技术)、重建或生成一虚拟视图/>(也被称为一合成图像)。如果所述对应关系准确匹配，则所述合成图像/>被预计与所述目标图像I_t相同。然而，由于姿态预测不准确，情况可能并非如此。注意所述扭曲136可以定义为

紧接着，应用一残差姿态网络(a residual pose network)140，其将所述目标图像(I_t)和所述合成图像作为输入(例如，经由一衔接(concat)函数合并所述图像对)。所述残差姿态网络140输出一残差相机姿态/>(在图1中示出为[R|t]_res 142)，所述残差相机姿态表示所述合成图像/>相对于所述目标图像(I_t)的所述相机姿态。所述残差姿态网络140可以类似于姿态网132，除了所述残差姿态网络140将所述合成图像/>作为一输入，而不是所述来源图像/>

紧接着，对所述合成图像进行双线性采样(例如，逆扭曲144)：

应用方程13重建一新的合成图像其可被用于对于下一个视图合成估计下一个残差姿态。为了简化方程(13)中的符号，下标t′₀→t被替换为t₁以表示一个扭曲变换，并且类似地将所述顺序地i^th变换应用于每个顺序合成图像。因此，方程(13)的一般形式可以被定义为

在估计多个残差姿态后(例如，如迭代省略号142所示)，所述来源图像相对于所述目标图像(I_t)的相机姿态可以被写为/>其中

通过迭代估计多个残差姿态，可以获得比从单级姿态网络(a single-stage posenetwork)预测的姿态更准确的多个相机姿态。改进相机姿态的估计精度可以提供更准确的光度测定重投影损失，所述光度测定重投影损失可以被建立用于更好的深度预测。

图2以图例说明根据本文公开的实施例的用于学习多个图像之间的相对相机姿态的一示例残差姿态估计。例如，图2描绘如何通过虚拟视图合成，例如通过应用残差姿态模块估计模块，将一单阶段姿态(a single-stage pose)分解为一初始姿态和一残差姿态。例如，图2示出一目标图像(I_t)和一来源图像一单阶段姿态网络可以从所述目标图像(I_t)和所述来源图像/>估计相对相机姿态。同时，如上所述，所述残差姿态估计模块102使用一逆扭曲函数迭代地重建多个虚拟视图/>(例如多个合成图像)。与单阶段方法相比，基于所述多个虚拟视图/>一改进的相机姿态估计可以通过应用方程15被确定。

尽管图1所示的示例架构提供关于包括所述深度分解模块101和所述残余姿态估计模块102的所述深度估计系统100，但本文提供的诸多实现方案不限于此实现方案。所述深度估计系统100可以包括所述深度分解模块101或所述残差姿态估计模块102，在此的实施例不限于包括两者。例如，在所述系统100不包括所述残差姿态估计模块102的情况下，可以使用本领域已知的一姿态网络来执行姿态估计。然后可以使用由所述深度分解模块101估计的所述深度图来执行所述深度估计，如应用于已知的姿态网络。类似地，在所述系统100不包括所述深度分解模块101的情况下，可以使用本领域已知的方法来估计所述深度图，然后可以用与上述方式类似的方式将其应用于所述残差姿态估计模块102。

3.实验结果

根据本文公开的实施例的自监督式深度估计系统在两个室内数据集上进行评估：EuRoC MAV数据集和NYUv2深度数据集。为了评估结果，平均绝对相对误差(AbsRel)、均方根误差(RMS)和在阈值(δ_i>1.25ⁱ,i＝1,2,3)情况下的准确度被使用于两个数据集。

为了实现图1中所描述的架构，使用PyTorch。对于所述深度分解模块101，使用所述Monodepth2深度网络，并且对于所述尺度网络114，使用两个基本残差块，后面跟随三个全连接层，其间具有一个丢失层。丢失率被设置为0.5。在所述残差姿态模块102中，诸多残差姿态网络使用类似于Monodepth2的一通用架构，其由一共享姿态编码器(a shared poseencoder)和一独立姿态回归器(an independent pose regressor)组成。每个实验都使用亚当(Adam)优化器进行40个期(epoch)的训练，前20个epoch的学习率被设置为10^-4，其余epoch的学习率则降至10^-5。平滑项τ和一致性项γ分别被设置为0.001和0.05。

3.1.EuRoC MAV数据集

EuRoC MAV数据集包含在两个主要环境中，一机器大厅和一vicon房间，被捕获的诸多场景的一集合的11个视频序列。根据不同的照明和相机运动，诸多序列分为简单、中等和困难。在训练中，使用三个“机器大厅(Machine hal l)”序列(MH_01、MH_02、MH_04)和两个“Vicon房间(Vicon room)”序列(V1_01和V1_02)。诸多图像以诸多被提供的相机内部函数被整顿以去除图像失真。在训练期间，诸多图像被调整大小为512×256。所述Vicon房间序列V2_01被用于测试，其中通过将Vicon 3D扫描投影到诸多图像平面以生成诸多地面真值深度。

如下的表1示出诸多设计选择的诸多消融结果以及所述深度分解模块101中的组件对EuRoC MAV数据集的有效性。概率回归(Prob Reg.)指的是概率尺度回归块(probabilistic scale regression block)。注意，在此，当对所述深度分解模块101的不同网络设计进行实验时，使用所述残差姿态估计模块102。

表1

3.1.1消融研究(Ablation Study)

在EuRoC MAV数据集上对深度分解模块101进行消融研究。首先，以下设计被认为是尺度网络114的主干：一)后接一组Conv-BN-ReLU层的一预训练ResNet-18(a pre-trained ResNet-18followed by a group of Conv-BN-ReLU layers)；二)后接两个残差块的一预训练ResNet-18(a pretrained ResNet-18followed by two residual blocks)；三)具备两个残差块的轻量级网络(a lightweight network with two residualblocks)，其共享来自深度编码器的特征图作为输入。这三种选择在表1中分别称为尺度卷积神经网络(Scale-CNN)、尺度网(Scale-Net)和尺度回归器(Scale-Regressor)。紧接着，在主干设计中添加新组件的有效性被验证。如上面第2.2节所述，集成两个子模块：一)一自注意力模块(a self-attention block)和二)一概率尺度回归模块(a probabilisticscale regression block)。

如表1所示，使用自注意力和概率尺度回归的尺度回归器实现最佳性能。这证明与深度编码器共享特征有利于尺度估计。比较三个尺度回归器变体的结果，随着我们添加更多组件(譬如注意力和概率尺度回归块)，性能逐渐提高。例如，添加自注意力块可以提高基线主干的整体性能，添加概率回归块可以带来进一步的改善，这验证吾人提出的子模块的有效性。

3.1.2定量结果

由于对EuRoC MAV数据集报告的公开结果并不多，因此图1的深度估计系统100与一基线模型Monodepth2进行比较，并且每个模块101和102的有效性被验证。如下的表2示出所述深度估计系统100(在表2中称为MonoIndoor)的诸多消融结果以及与EuRoC MAV数据集的测试序列V2_01上的基线的定量比较。最佳结果以粗体显示。如下表2所示，添加所述深度分解模块101将AbsRel从15.7％降低至14.9％，以及所述残差姿态模块102将AbsRel降低至14.1％，验证各模块的有用性。整个系统在所有评估指标上都达到了最佳性能。具体地，与Monodepth2相比，本文公开的所述深度估计系统的AbsRel从15.7％显着降低到12.5％，并且δ₁改进大约6％，从78.6％到84.0％。

表2

3.1.3定性结果

图3以图例说明对EuRoC MAV数据集使用图1的所述深度估计系统100进行的深度预测的一定性比较。诸多输入图像被显示在最左方的列中，由单体深度2(Monodepth2)针对每个输入图像输出的深度图被显示在中间列中，以及由所述深度估计系统100输出的所述深度图被显示在右方列中。

从图3可以清楚地看出，本文所公开的实施例生成的深度图比Monodepth2生成的深度图好得多(例如，更准确和更清晰/更高分辨率)。例如，对于具有一孔区域302的第一输入图像301，所述深度估计系统100能够预测所述孔区域303的精确深度，而在Monodepth2的深度图中的这样的一孔结构304是缺失的或者明显不太清晰并且不太准确。对于具有一阶梯306的第二输入图像305，所述深度估计系统100在右上区域处预测所述阶梯306的更清晰的深度图，而Monodepth2则不能。对于输入图像308和309，可以看到相对于Monodepth2深度图的类似改善。这些观察结果也与上表2中提供的更好的定量结果一致，证明本文公开的实施例的优越性。

3.2.NYUv2深度数据集

在本节中，所述深度估计系统100对所述NYUv2深度数据集进行评估，所述NYUv2深度数据集包含由一手持式微软体感(a hand-held Microsoft Kinect)RGBD相机捕获的464个室内视频序列，所述手持式微软体感RGBD相机具备一分辨率为640×480。官方训练和验证分割被使用，分别包括302和33个序列。所述诸多图像以诸多被提供的相机参数被整顿以消除失真。首先将原始数据集沿时间维度下采样10倍以去除冗余帧，得到大约20K的图像用于训练。在训练期间，诸多图像被调整大小为320×256。使用带有密集标记深度图的654个图像进行测试。

3.2.1消融研究

首先，所述深度分解模块101对NYUv2深度数据集进行另一次消融研究。下面的表3示出所述深度估计系统100(在表3中称为MonoIndoor)的每个模块对NYUv2深度数据集的有效性的消融结果。“残差姿态块编号(No.Residual Pose Block)”是指在所述残差姿态估计模块102中被估计的诸多残差姿态的数量。在如下的表3中，与在没有任何全局尺度指导的情况下预测深度的Monodepth2相比，使用具有单独尺度网络114的深度分解模块101可以提高性能，将AbsRel从16％降低到15.2％，并将δ1增加到79.2％。紧接着，进行实验以验证所述残差姿态估计模块102的有效性。比较表3中的诸多行，通过添加具有一个残差姿态块的残差姿态估计模块102，被观察到的性能改进对于AbsRel从16.0％下降到14.2％以及对于δ1从76.7％上升到81.3％。此外，通过应用所述深度分解模块101和所述残差姿态估计模块102两者，可以在所有评估度量上实现显着的改善。例如，AbsRel减少至13.4％，δ1增加至82.3％。这些消融结果清楚地证明被提出的所述深度分解模块101和所述残差姿态估计模块102的有效性。然而，参考最后两行，当添加更多残差姿态块并使用/不使用深度分解模块进行训练时，性能并没有显着提高。因此，在一些实施例中，两个姿态头(一个用于大运动，另一个用于残差运动)可能足以表示全局运动。这导致第三个姿态头预测非常小的运动，类似于静态相机场景，这是单目自监督式深度估计的一退化情况。

表3

3.2.2定量结果

如下的表4示出所述深度估计系统100以及最先进的(SOTA)被监督式和自监督式方法对NYUv2深度数据的定量结果。表4提供所述深度估计系统100(在表4中称为MonoIndoor)与现有被监督式和自监督式方法的比较，其中最佳结果以粗体示出。表4描绘所述深度估计系统100优于先前的自监督式SOTA方法，在所有指标上达到最佳结果。具体地，使用所述深度估计系统100实现对于AbsRel的13.4％和对于δ₁的82.3％。另外，所述深度估计系统100表现优于一组被监督式方法并且缩小所述自监督式方法与所述完全监督式方法之间的性能差距。

表4

3.2.3定性结果(Qualitative Results)

图4以图例说明对NYUv2深度数据集使用图1的所述深度估计系统100进行的深度预测的定性比较。最左边的列中示出诸多输入图像，第二列中示出由Monodepth2为每个输入图像输出的深度图，第三列中示出由所述深度估计系统100输出的深度图，及地面真值显示在最右边的列中。

图4可视化所述Monodepth2、所述深度估计系统100和地面真值(GT)中的每一者对于一给定输入图像的诸多预测深度图。与所述Monodepth2的结果相比，所述深度估计系统100预测的深度图更加精确并且更接近地面真值情形。例如，对于具有诸多椅子的区域302的输入图像401，从深度估计系统100预测的椅子的区域303中的深度比Monodepth2估计的区域304更加清晰和干净，产生更接近所述地面真值305的一深度图。在最右边的区域306上，其中存在一架子，所述深度估计系统100可以从Monodepth2对区域307产生比区域308更好的深度预测。这些观察结果与表4中的定量结果一致。

本文的实施例提供被配置为预测室内环境中的诸多深度图的一单目自监督式深度估计系统(a monocular self-supervised depth estimation system)。本文的实施例提供被配置为联合学习一全局尺度因子和一相对深度图的一深度分解模块。此外，本文的实施例经由一残差姿态估计模块估计用于新颖视图合成的精确相机姿态，这又改进所述深度模型。本文的实施例对如上所述的室内数据集实现诸多自监督式方法中的最先进性能。

4.示例计算系统

图5描绘一示例计算机系统500的一框图，其中可以实现本文描述的所述自监督式深度估计系统100的各种实施例。所述计算机系统500包括一总线502或用于交流信息的其他通信机制、与总线502耦合用于处理信息的一个或多个硬件处理器504。(诸多)硬件处理器504可以是例如一个或多个通用微处理器。

所述计算机系统500还包括被耦合到总线502的一主存储器506，诸如一随机存取存储器(RAM)、高速缓存和/或其他动态存储装置，用于存储信息和由处理器504执行的指令，例如用于执行图1的架构。主存储器506还可以用于由处理器504执行指令的执行期间存储临时变量或其他中间信息。当这些指令被存储在处理器504可访问的存储介质中时，将计算机系统500呈现为被定制为进行所述诸多指令中指定的操作的一专用机器。

所述计算机系统500还包括被耦合到总线502的一只读存储器(ROM)508或其他静态存储设备，用于存储处理器504的静态信息和指令。提供一存储装置510，诸如一磁盘、光盘或USB拇指驱动器(闪存驱动器)等，并且耦合到总线502，用于存储信息和指令。

所述计算机系统500可以经由总线502被耦合到一显示器512，例如液晶显示器(LCD)(或触摸屏)，用于向一计算机用户显示信息。包括字母数字键和其他键的一输入装置514被耦合到总线502，用于将信息和命令选择交流到处理器504。另一种类型的用户输入装置是光标控件516，例如鼠标、轨迹球或光标方向键，用于将方向信息和命令选择交流到处理器504及用于控制显示器512上的光标移动。在一些实施例中，可以通过在没有光标的情况下接收一触摸屏上的触摸，以实现与光标控制相同的方向信息和命令选择。

一个或多个图像传感器518可被耦合到总线502，用于捕捉视频作为一环境的多个图像帧和/或静态图像。诸多图像传感器包括任何类型的相机(譬如，诸多可见光相机、诸多IR相机、诸多热感相机、诸多超声相机和其他相机)或被配置为用于捕获的其他图像传感器。例如，诸多图像传感器518可以捕获根据本文公开的实施例(例如，在图1和图2中)被处理的诸多图像。1and 2)。在一些实施例中，诸多图像传感器518将信息交流到主存储器506、ROM 508和/或存储器510，以用于实时处理和/或用于存储，以待稍后处理。根据一些实施例，不需要包括诸多图像传感器518并且可以从存储器检索用于处理的诸多图像。

所述计算系统500可以包括用于实现一GUI的一用户界面模块，所述GUI可以由所述(诸多)计算设备执行的诸多可执行软件代码存储在一大容量存储设备中。举例来说，此模块和其他模块可以包括诸多组件，例如诸多软件组件、诸多面向对象的软件组件、诸多类组件和诸多任务组件、诸多进程、诸多功能、诸多属性、诸多过程、诸多子例程、诸多程序代码段、诸多驱动程序、固件、微代码、电路、数据、诸多数据库、诸多数据结构、诸多表、诸多数组和诸多变量。

一般而言，本文所使用的词语“组件(component)”、“引擎(engine)”、“模块(module)”、“系统(system)”、“数据库(database)”、“数据存储器(data store)”等可以指代被体现在硬件或固件中的逻辑，或者指代软件指令的集合，可能具有入口点和出口点，以诸如Java、C或C++的编程语言编写。一软件组件可以被编译并链接成一可执行程序，安装在一动态链接库中，或者可以用一解释型编程语言(例如BASIC、Perl或Python)来编写。应当理解，诸多软件组件可以从其他组件或从它们自身调用，和/或可以响应于诸多检测的事件或中断而被调用。被配置为在诸多计算装置上执行的诸多软件组件可以在一计算机可读介质上被提供，例如一光盘、数字视频盘、闪存驱动器、磁盘或任何其他有形介质，或者作为一数字下载(并且可以被最初存储处于一压缩或可安装格式，需要在执行之前安装、解压缩或解密)。这样的软件代码可以部分或全部存储在所述执行计算装置的一存储器装置上，以供所述计算装置执行。诸多软件指令可以被嵌入固件中，诸如一EPROM。还应当被理解，诸多硬件组件可以包含被连接的逻辑单元(诸如诸多门和诸多触发器)，和/或可以包含诸多可编程单元(诸如可编程门阵列或诸多处理器)。

所述计算机系统500可以使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑以实现本文描述的技术，其与所述计算机系统相结合，使得所述计算机系统500成为一专用机器。根据一个实施例，本文的技术由计算机系统500响应于(诸多)处理器504进行在主存储器506中包含的一个或多个指令的一个或多个序列而被进行。这样的指令可以从诸如存储器装置510之类的另一存储介质读入主存储器506。主存储器506中包含的指令序列的执行使得处理器504进行本文描述的处理步骤。在诸多替代实施例中，可以使用硬连线电路来代替软件指令或与软件指令组合。

如本文所使用的术语“非暂时性介质(non-transitory media)”和类似术语指的是存储使机器以一特定方式操作的数据和/或指令的任何介质。这样的非暂时性介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘，例如存储器装置510。易失性介质包括动态存储器，例如主存储器506。非暂时性介质的常见形式包括例如一软盘、一软盘、硬盘、固态驱动器、磁带或任何其他磁性数据存储介质、一CD-ROM、任何其他光学数据存储介质、任何具有孔图案的物理介质、一RAM、一PROM和一EPROM、一FLASH-EPROM、NVRAM、任何其他存储芯片或盒以及其网络版本。

非暂时性介质不同于传输介质，但可以与传输介质结合使用。传输介质参与非暂时性介质之间的信息传输。例如，传输介质包括诸多同轴电缆、铜线和光纤，包括诸多线，所述诸多线包括总线502。传输介质还可以采用声波或光波的形式，诸如无线电波和红外数据通信期间产生的那些。

所述计算机系统500还包括被耦合到总线502的一通信接口518。通信接口518提供一双向数据通信，所述双向数据通信耦合到一个或多个网络链路，所述一个或多个网络链路被连接到一个或多个本地网络。例如，通信接口518可以是综合业务数字网络(ISDN)卡、电缆调制解调器、卫星调制解调器、或者向相应类型的电话线提供数据通信连接的调制解调器。作为另一个示例，通信接口518可以是一局域网(LAN)卡，以提供到一兼容LAN(或与WAN通信的WAN组件)的数据通信连接。还可以实现无线链路。在任何这样的实现中，通信接口518发送和接收携带表示各种类型信息的数字数据流的电、电磁或光信号。

一网络链路通常通过一个或多个网络向其他数据设备提供数据通信。例如，一网络链路可以提供通过本地网络到一主机计算机或到由一互联网服务提供商(ISP)操作的数据设备的连接。所述ISP又通过现在通常称为“互联网(Internet)”的全球分组数据通信网络(world wide packet data communication network)提供数据通信服务。本地网络和互联网都使用携带数字数据流的电、电磁或光信号。通过各种网络的信号以及网络链路上和通过通信接口518的信号是传输介质的示例形式，其将数字数据传送到计算机系统500和从计算机系统500传送数字数据。

所述计算机系统500可以通过网络、网络链路和通信接口518发送消息并接收数据，包括程序代码。在互联网示例中，一服务器可以通过互联网、ISP、本地网络和所述通信接口518传输应用程序的一请求代码。

所述被接收到的代码可以在它被接收时由处理器504执行，和/或存储在存储器装置510或其它非易失性存储装置中以待稍后执行。

前述部分中描述的每个过程、方法和算法可以被体现在由一个或多个计算机系统或包括计算机硬件的诸多计算机处理器执行的代码组件中，并且由代码组件完全或部分自动化。一个或多个计算机系统或计算机处理器还可以操作以支持一“云计算(cloudcomputing)”环境中或作为一“软件即服务(software as a service)”(SaaS)的相关操作的性能。这些过程和算法可以部分或全部在专用电路中实现。上述各种特征和过程可以彼此独立地使用，或者可以以各种方式组合。不同的组合和子组合旨在落入本公开的范围内，并且在一些实施方式中可以省略某些方法或过程框。本文描述的方法和过程也不限于任何特定顺序，并且与其相关的框或状态可以以其他适当的顺序执行，或者可以并行地或以某种其他方式执行。可以将块或状态添加到所公开的示例实施例或从所公开的示例实施例中删除。某些操作或过程的性能可以分布在计算机系统或计算机处理器之间，不仅驻留在单个机器内，而且部署在多个机器上。

如本文所使用的，一电路可以利用任何形式的硬件、软件或其组合被实现。例如，可以实现一个或多个处理器、控制器、ASIC、PLA、PAL、CPLD、FPGA、逻辑组件、软件例程或其他机制，以组成一电路。在实现方案中，本文描述的各种电路可以被实现为诸多分立电路，或者所描述的功能和特征可以在一个或多个电路之间部分或全部共享。尽管各种特征或功能元件可以被单独地描述或要求为单独的电路，但是这些特征和功能可以在一个或多个公共电路之间共享，并且这样的描述不应要求或暗示需要单独的电路来实现这样的特征或功能。在电路整体或部分使用软件实现的情况下，这样的软件可以被实现为与能够执行关于其描述的功能的计算或处理系统(例如计算机系统500)一起操作。

如本文所使用的，术语“或(or)”可以被解释为包括性或排他性的含义。此外，单数的资源、操作或结构的描述不应被理解为排除复数。条件语言，例如“可以(can)”、“可以(could)”、“可以(might)”或“可以(may)”，除非另外具体说明，或者在所使用的上下文中以其他方式理解，通常旨在传达某些实施例包括，而其他实施例不包括某些特征、元件和/或步骤。

除非另有明确说明，本文档中使用的术语和短语及其变体应被解释为开放式而非限制性的。诸如“常规的(conventional)”、“传统的(traditional)”、“正常的(normal)”、“标准的(standard)”、“已知的(known)”之类的形容词以及类似含义的术语不应被解释为将所描述的项目限制为给定的时间段或限制为在特定时间段内可用的项目。给定时间，但应理解为涵盖现在或将来任何时间可能可用或已知的常规、传统、正常或标准技术。在某些情况下，诸如“一个或多个(one or more)”、“至少(at least)”、“但不限于(but notlimited to)”或其他类似短语的宽泛单词和短语的存在，不应被理解为在可能不存在此类宽泛短语的情况下，意图或需要使用较窄的情况。

如本文所使用的，术语电路(circuit)和组件(component)可以描述可以根据本申请的一个或诸多实施例进行的一给定功能单元。如本文所使用的，一组件可以利用任何形式的硬件、软件或其组合被实现。例如，可以实现一个或多个处理器、控制器、ASIC、PLA、PAL、CPLD、FPGA、逻辑组件、软件例程或其他机制以组成一组件。本文描述的各种组件可以被实现为诸多分立组件，或者所描述的功能和特征可以在一个或多个组件之间被部分或全部共享。换言之，如本领域普通技术人员在阅读本描述后将显而易见的，本文描述的各种特征和功能可以在任何给定应用中被实现。它们可以用各种组合和排列在一个或多个单独或共享的组件中被实现。尽管各种特征或功能元件可以被单独地描述或要求保护为单独的组件，但是应当理解，这些特征/功能可以在一个或多个公共软件和硬件元件之间共享。这样的描述不应要求或暗示使用单独的硬件或软件组件来实现这样的特征或功能。

在组件全部或部分使用软件实现的情况下，这些软件元件可以被实现为与能够执行关于其描述的功能的一计算或处理组件一起操作。

在本文档中，术语“计算机程序介质(computer program medium)”和“计算机可用介质(computer usable medium)”通常用来指暂时性或非暂时性介质。这些和其他各种形式的计算机程序介质或计算机可用介质可以涉及将一个或多个指令的一个或多个序列传送到处理装置以供执行。在介质上体现的此类指令通常被称为“计算机程序代码(computerprogram code)”或一“计算机程序产品(computer program product)”(其可以用计算机程序或其他分组的形式被分组)。当这样的指令被执行时可以使得一计算组件能够执行如本文所讨论的本申请的特征或功能。

应当理解，在一个或多个单独实施例中描述的各种特征、方面和功能并不限于它们对所描述的特定实施例的适用性。作为替代，它们可以单独或以各种组合应用于一个或多个其他实施例，无论这些实施例是否被描述以及无论这些特征是否被呈现为所描述的实施例的一部分。因此，本申请的广度和范围不应受到任何上述示例性实施例的限制。

除非另有明确说明，本文档中使用的术语和短语及其变体应被解释为开放式而非限制性的。作为前述的示例，术语“包括(including)”应当被理解为“包括但不限于(including,without limitation)”等含义。术语“示例(example)”用于提供所讨论的项目的示例性实例，而不是其详尽的或限制性的列表。术语“一(a)”或“一(an)”应理解为“至少一个(at least one)”、“一个或多个(one or more)”等含义；以及诸如“常规的”、“传统的”、“正常的”、“标准的”、“已知的”等形容词。类似含义的术语不应被解释为将所描述的项目限制为一给定时间段或一给定时间可用的一项目。作为替代，它们应该被理解为涵盖现在或将来任何时候可能可用或已知的常规的、传统的、正常的或标准的技术。当本文涉及本领域普通技术人员显而易见或已知的技术时，此类技术涵盖本领域技术人员现在或将来任何时间显而易见或已知的那些技术。

在某些情况下，诸如“一个或多个(one or more)”、“至少(at least)”、“但不限于(but not limited to)”或其他类似短语的宽泛单词和短语的存在，不应被理解为在可能不存在此类扩展短语的情况下，意图或需要使用较窄的情况。术语“组件(component)”的使用并不意味着作为组件的一部分描述或要求保护的方面或功能全部配置在一公共包中。事实上，一组件的任何或所有各个方面，无论是控制逻辑还是其他组件，都可以被组合在单个包中或单独维护，并且可以进一步分布在诸多分组或诸多包中或跨诸多位置。

Claims

1.一种单目图像深度估计的方法，其特征在于：包括：

获取多个图像帧，所述多个图像帧至少包括一第一图像帧和一第二图像帧，其中，所述多个图像帧由至少一个图像传感器捕获；

基于一深度模型导出所述第一图像帧的一深度图；

将所述深度图分解为用于所述第一图像的一全局尺度因子；

通过使用所述全局尺度因子更新所述深度图以确定所述第一图像的一相对深度图；和

训练一深度估计模型以基于所述相对深度图和全局尺度因子从所述第二图像帧预测所述第一图像帧。

2.如权利要求1所述的方法，其特征在于：所述深度模型包括一深度网络，所述深度网络具有一编码器和一解码器，其中所述第一图像帧是所述编码器的一输入并且所述深度图由所述解码器输出。

3.如权利要求2所述的方法，其特征在于：所述深度模型包括在所述编码器与解码器之间的多个跳跃连接。

4.如权利要求1至3中的任一项所述的方法，其特征在于：将所述深度图分解为一全局尺度因子是基于从所述第一图像帧提取的多个特征表述学习的自注意力。

5.如权利要求4所述的方法，其特征在于：还包括：从基于学习的自注意力的一概率尺度回归头预测所述全局尺度因子。

6.如权利要求1至5中所述的任一项的方法，其特征在于：还包括：

基于一个或多个合成图像帧确定所述图像传感器在所述第一图像帧与所述第二图像帧之间的一相对姿态，所述一个或多个合成图像帧从所述第二图像帧导出；基于所述被确定的相对位姿训练所述深度估计模型。

7.如权利要求6所述的方法，其特征在于：还包括：

对所述第二图像帧应用一逆扭曲以生成一第一合成图像帧；和

确定一第一残差相机姿态指示所述图像传感器在所述第一图像帧与所述第一合成图像帧之间的一相对姿态，其中，所述被确定的相对姿态基于所述第一残差相机姿态。

8.如权利要求6和7中的一项所述的方法，其特征在于：还包括：

通过迭代地将一逆扭曲应用于每个先前的合成图像帧以生成多个顺序的合成图像帧；和

确定多个残差相机姿态指示所述图像传感器在所述第一图像帧与每个顺序的合成图像帧之间的一相对姿态，其中，所述被确定的相对姿态基于所述多个顺序的残差相机姿态。

9.如权利要求1至8中的任一项所述的方法，其特征在于：每个图像包括一室内环境的一场景。

10.一种非暂时性计算机可读存储介质，存储可由一个或多个处理器执行的多个指令，其特征在于：所述多个指令由一个或多个处理器执行时致使所述一个或多个处理器进行一方法，所述方法包括：

获取多个图像帧，所述多个图像帧至少包括一第一图像帧和一第二图像帧，其中所述多个图像帧由至少一个图像传感器捕获；

基于一个或多个合成图像帧确定所述图像传感器在所述第一图像帧与所述第二图像帧之间的一相对姿态，所述一个或多个合成图像帧从所述第二图像帧导出；和

基于所述被确定的相对姿态训练所述深度估计模型。

11.如权利要求10所述的非暂时性计算机可读存储介质，其特征在于：所述方法还包括：

12.如权利要求10和11中的一项所述的非暂时性计算机可读存储介质，其特征在于：所述方法还包括：

13.如权利要求10所述的非暂时性计算机可读存储介质，其特征在于：所述方法还包括：

基于一深度模型导出所述第一图像帧的一深度图；

将所述深度图分解为用于所述第一图像的一全局尺度因子；

14.如权利要求13所述的非暂时性计算机可读存储介质，其特征在于：所述深度模型包括一深度网络，所述深度网络具有一编码器和一解码器，其中所述第一图像帧是所述编码器的一输入并且所述深度图由所述解码器输出。

15.如权利要求14所述的非暂时性计算机可读存储介质，其特征在于：所述深度模型包括在所述编码器与解码器之间的多个跳跃连接。

16.如权利要求13至15中的任一项所述的非暂时性计算机可读存储介质，其特征在于：将所述深度图分解为一全局尺度因子是基于从所述第一图像帧提取的多个特征表述学习的自注意力。

17.如权利要求16所述的非暂时性计算机可读存储介质，其特征在于：所述方法还包括：从基于学习的自注意力的一概率尺度回归头预测所述全局尺度因子。

18.如权利要求10至17中的任一项所述的非暂时性计算机可读存储介质，其特征在于：每个图像包括一室内环境的一场景。

19.一种用于深度估计的系统，其特征在于：所述系统包括：

一存储器，被配置为存储多个指令；及

一个或多个处理器，可通信地耦合到所述存储器并且被配置为执行所述指令，以：

执行一深度分解模块，包括：

一深度网络，被配置为从作为一输入的一目标图像确定一深度图，以及

一尺度网络，被配置为从作为一输入的所述目标图像确定一全局尺度因子，并且基于以所述全局尺度因子更新所述深度图确定一相对深度图；

执行一残差姿态估计模块，所述残差姿态估计模块被配置为迭代地预测在多个迭代重建的合成图像与所述目标图像之间的多个残差相机姿态，其中一第一迭代重建的合成图像基于所述目标图像与一来源图像之间的一相对相机姿态，其中所述第一迭代重建的合成图像随后的每个迭代重建的合成图像是基于一先前迭代重建的合成图像与所述目标图像之间的一残差相机姿态被生成；和

基于所述相对深度图、全局尺度因子和所述多个迭代预测的残差相机姿态以训练一深度估计模型。

20.如权利要求19的一项所述的系统，其特征在于：所述目标图像和所述来源图像包括一室内环境的不同场景。