CN114445265A

CN114445265A - 等矩形投影立体匹配的两阶段深度估计机器学习算法和球面扭曲层

Info

Publication number: CN114445265A
Application number: CN202111281505.6A
Authority: CN
Inventors: 闫志鑫; 任骝; 李语嫣; 段叶
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-10-31
Filing date: 2021-11-01
Publication date: 2022-05-06
Also published as: EP3992908A1; US20220138977A1; US11810311B2

Abstract

公开了一种具有端到端两阶段深度估计深度学习框架的系统和方法，该框架取得一个球面彩色图像并估计稠密球面深度图。设想的框架可以包括视图合成（阶段1）和多视图立体匹配（阶段2）。两阶段过程的组合可以提供来自立体匹配的几何约束的优势，以提高深度图质量，而不需要附加的输入数据。还设想，对于多视图球面立体匹配阶段，球面扭曲层可以用于将多个球面特征体积集成到具有均匀采样的逆深度的一个成本体积中。两阶段球面深度估计系统和方法可以用在包括虚拟现实、自主驾驶和机器人的各种应用中。

Description

等矩形投影立体匹配的两阶段深度估计机器学习算法和球面扭曲层

技术领域

本公开涉及一种系统和方法，其具有用于等矩形投影立体匹配的端到端两阶段深度估计机器学习框架和球面扭曲层。

背景技术

三维（3D）场景理解可能与像虚拟现实（VR）、增强现实（AR）、自主驾驶或机器人的应用相关。例如，全向3D数据的快速且可靠采集被认为是此类应用的有用构建块，以使得能够实现用户与数字环境的交互。

发明内容

公开了一种用于采用两阶段深度估计深度机器学习算法的系统和方法，该两阶段深度估计深度机器学习算法包括第一阶段，该第一阶段向可操作来估计粗略深度图的粗略单目深度估计机器学习算法提供等矩形投影（ERP）图像。第一阶段还包括基于可微分深度图像的渲染（DIBR）算法，该算法接收粗略深度图并生成一个或多个合成图像。

第二阶段可以将ERP图像和所述一个或多个合成图像提供给多视图立体匹配机器学习算法，该多视图立体匹配机器学习算法包括两个级联阶段，用于在从粗略到精细的领地中进行视差预测。多视图立体匹配机器学习算法也可以是可操作用于生成最终的球面深度图的。

第二阶段可以包括球面特征提取机器学习算法，该球面特征提取机器学习算法将所述一个或多个合成图像与ERP图像配对，并生成一个或多个特征图。第二阶段还可以包括成本体积构建算法，其聚合从ERP图像和所述一个或多个合成图像中提取的球面特征。成本体积构建算法还可以使用均匀采样的深度假设来生成成本体积。设想，成本体积构建算法可以使用一个或多个特征图来生成成本体积。还设想，可以使用新的间隔以指定的级别均匀采样深度假设。

第二阶段可以进一步包括成本聚合机器学习算法，该成本聚合机器学习算法可操作来使用一个或多个3维卷积神经网络来聚合成本体积。成本聚合机器学习算法可以使用沙漏编码和解码过程来实现。第二阶段可以包括回归算法，该回归算法针对每个指定级别逐像素地回归视差值。设想，可以使用基准真值深度图来监督粗略深度图和最终的球面深度图。

还设想，粗略单目深度估计机器学习算法可以被实现为利用坐标卷积来实施360度感知的轻量级机器学习网络。DIBR算法还可以可操作来以完全可微分的方式将来自ERP图像的第一像素集变换成目标图像上的第二像素集。最后，DIBR算法可以可操作来将第一像素集散布（splat）在目标图像上，DIBR算法还包括软z缓存（z buffering）算法来处置遮挡，并且DIBR算法可以生成最终预测，该最终预测是散布到来自第二像素集的单个像素的点的加权平均。

附图说明

图1描绘了可以由公开的实施例使用的示例性计算系统。

图2图示了端到端两阶段深度估计深度学习框架的示例性实施例。

图3图示了多视图全向立体匹配网络的示例性实施例。

图4图示了示例性的机器学习卷积神经网络（CNN）。

图5是其中计算机系统可以用来控制自动化个人助理的实施例。

图6图示了控制至少部分自主的机器人的计算系统。

图7是其中计算系统可以用于控制监督系统的实施例。

具体实施方式

本文中描述了本公开的实施例。然而，应当理解，所公开的实施例仅仅是示例，并且其他实施例可以采取各种形式和替代形式。各图不一定是按比例的；一些特征可以被放大或最小化以示出特定组件的细节。因此，本文中公开的具体结构和功能细节不应被解释为限制性的，而仅仅是作为用于教导本领域技术人员以各种方式采用实施例的代表性基础。如本领域普通技术人员应当理解的，参考任一图所图示和描述的各种特征可以与一个或多个其他图中图示的特征相组合，以产生未被明确图示或描述的实施例。图示的特征的组合提供了典型应用的代表性实施例。然而，对于特定的应用或实现，可能期望与本公开的教导一致的特征的各种组合和修改。

在球面图像上采用的机器学习算法（例如，CNN或DNN）正变得被越来越广泛地使用。例如，机器学习算法正在出现在与360度图像上的深度学习相关的应用中。同样，等矩形投影图像（其可以是包括轻微到重度失真的连续上下文表示）是全向图像的一种已知表示。

为了提高机器学习算法所采用的卷积核的有效性，可以使用全向深度来引入一系列不同核大小的矩形滤波器组，以计及等矩形失真。还设想，也可以采用从传统卷积核导出的失真感知球面核。这样的核可以被设计用于与作为特殊层的CNN一起操作，这通常用在立体匹配网络的特征提取阶段中。然而，设想另一种方法可以包括应用在成本体积构建中的球面扭曲层。

应当理解，也可以采用机器学习算法以通过对单目图像和深度图之间的映射进行建模来解决深度估计。也可以采用多任务机器学习算法来同时联合预测语义标签、法线和深度。例如，可以采用已知的“全景弹出（pano-popup）”算法来从单个等矩形图像同时预测稠密深度、表面法线、平面边界。

用于单目深度估计的无监督深度学习方法也可以在没有直接深度监督的情况下使用自约束。可以使用基于视图合成的已知框架和当从附近视图扭曲到目标时计算的损失，但是这样的方法可能在图像构建中输出重建损失，该重建损失可能在视觉上看起来很好但是具有低质量的深度。为了克服已知的问题，可以采用几何约束。例如，可以采用左右一致性和极线约束。此外，对于球面图像，来自360度视频的立方体图可以与光度和姿态一致性一起用作监督信号。无监督方法也被理解为减少对基准真值数据的需求，但是这些现有技术可能无法产生令人满意的高质量深度图。

此外，全向深度和映射卷积可以利用为球面图像设计的特殊核来提高几何学习准确度。然而，使用机器学习算法直接学习深度可能需要大量的训练数据来从2D图像空间t深度学习隐式映射。即使可以以合理的成本访问360度相机，但构建具有基准真值深度和标签的全面的360度数据集并不总是可行或具成本效益的。

虽然先前的立体匹配方法可能在透视立体图像上表现良好，但是由于球面几何的性质，它们可能并不总是直接适用于360度立体图像。例如，一种称为“360SD-Net”的已知算法在360度立体图像上利用基于CNN的技术。该已知算法的缺点是，它采用可学习的移位层进行成本体积假设平面采样，这往往需要额外的训练资源。设想本申请公开的球面扭曲层可以是不需要可训练参数的封闭形式机器学习解决方案。所公开的球面扭曲层也可以是可微分的，使得它可以用在端到端立体匹配网络中。

此外，现有的已知系统可以采用可学习的移位层来用于成本体积假设平面采样。相比之下，所公开的两阶段系统和方法可以提供自我细化机制，以实现360度立体图像的更好和更准确的视差结果。此外，RGB-D球面数据以及球面立体对可能是采集的昂贵资源，但是所公开的两阶段机器学习算法由于它可以使用更小的数据集来训练的事实而可以克服这样的开销。

三维（3D）场景理解也可能与像虚拟现实（VR）、增强现实（AR）、自主驾驶或机器人的应用相关。例如，全向3D数据的快速且可靠采集被认为是这样的应用的有用构建块，以使得能够实现用户与数字环境的交互。

因此，设想，为了获得高质量的全向3D信息，诸如全向LiDAR之类的设备可以用于像自主驾驶车辆或室内3D扫描的应用。然而，LiDAR可能很昂贵，或者可能产生稀疏的3D扫描。与LiDAR相比，更传统的相机可能成本方面更便宜，并且更常用于捕获场景的视觉外观。因此，设想，通过使用常规相机图像生成高质量全向3D扫描可以实现显著的成本节约。

为了实现使用常规相机图像的技术效益和成本节约，可以使用由两个阶段构成的端到端两阶段深度估计深度学习框架（即全景深度（PanoDepth）框架）。第一阶段可以是视图合成，并且立体匹配第二阶段用于单目全向深度估计。全景深度框架被设想为在第一阶段中将一个等矩形投影（ERP）图像取作输入来产生合成视图。然后，第一阶段可以将原始图像和一个或多个合成视图传递到随后的立体匹配阶段，以生成更精细的深度图。在立体匹配第二阶段中，可以使用全向多视图立体匹配网络来处置全向立体对。

图1描绘了可以用于实现全景深度框架的示例性系统100。系统100可以包括至少一个计算设备102。计算系统102可以包括可操作地连接到存储器单元108的至少一个处理器104。处理器104可以是实现中央处理单元（CPU）106的功能的一个或多个集成电路。应当理解，CPU 106也可以是实现通用处理单元或专用处理单元（例如，图形处理单元、ASIC、FPGA）功能的一个或多个集成电路。

CPU 106可以是商业上可获得的处理单元，其实现诸如x86、ARM、Power或MIPS指令集家族之一的指令集。在操作期间，CPU 106可以执行从存储器单元108检索的所存储的程序指令。所存储的程序指令可以包括控制CPU 106的操作以执行本文描述的操作的软件。在一些示例中，处理器104可以是将CPU 106、存储器单元108、网络接口和输入/输出接口的功能集成到单个集成设备中的片上系统（SoC）。计算系统102可以实现用于管理操作的各个方面的操作系统。

存储器单元108可以包括用于存储指令和数据的易失性存储器和非易失性存储器。非易失性存储器可以包括固态存储器，诸如NAND闪速存储器、磁和光存储介质，或者当计算系统102被去激活或者断电时保留数据的任何其他合适的数据存储设备。易失性存储器可以包括存储程序指令和数据的静态和动态随机存取存储器（RAM）。例如，存储器单元108可以存储机器学习模型110或算法、机器学习模型110的训练数据集112和/或原始源数据115。

计算系统102可以包括网络接口设备122，其被配置为提供与外部系统和设备的通信。例如，网络接口设备122可以包括如由电气和电子工程师协会（IEEE）802.11标准家族定义的有线和/或无线以太网接口。网络接口设备122可以包括用于与蜂窝网络（例如，3G、4G、5G）通信的蜂窝通信接口。网络接口设备122可以进一步被配置为提供到外部网络124或云的通信接口。

外部网络124可以被称为万维网或互联网。外部网络124可以在计算设备之间建立标准通信协议。外部网络124可以允许信息和数据在计算设备和网络之间容易地交换。一个或多个服务器130可以与外部网络124通信。

计算系统102可以包括输入/输出（I/O）接口120，其可以被配置为提供数字和/或模拟输入和输出。I/O接口120可以包括用于与外部设备通信的附加串行接口（例如，通用串行总线（USB）接口）。

计算系统102可以包括人机接口（HMI）设备118，人机接口（HMI）设备118可以包括使得系统100能够接收控制输入的任何设备。输入设备的示例可以包括诸如键盘、鼠标、触摸屏、语音输入设备和其他类似设备的人机接口输入。计算系统102可以包括显示设备132。计算系统102可以包括用于向显示设备132输出图形和文本信息的硬件和软件。显示设备132可以包括电子显示屏、投影仪、打印机或用于向用户或操作者显示信息的其他合适的设备。计算系统102可以进一步被配置为允许经由网络接口设备122与远程HMI和远程显示设备进行交互。

系统100可以使用一个或多个计算系统来实现。虽然该示例描绘了实现所有所描述的特征的单个计算系统102，但是旨在使各种特征和功能可以由彼此通信的多个计算单元来分离和实现。所选择的系统架构可能取决于多种因素。

系统100可以实现被配置为分析原始源数据115的机器学习算法110。原始源数据115可以包括原始的或未处理的传感器数据，其可以代表机器学习系统的输入数据集。原始源数据115可以包括视频、视频片段、图像和原始或部分处理的传感器数据（例如，从可以包括数码相机或LiDAR的相机114接收的图像数据）。在一些示例中，机器学习算法110可以是被设计成执行预定功能的神经网络算法。例如，神经网络算法可以被配置在汽车应用中，以从数字相机提供的图像和/或来自LiDAR传感器的深度图中标识对象（例如，行人）。

系统100可以存储机器学习算法110的训练数据集112。训练数据集112可以表示用于训练机器学习算法110的先前构建的数据集。机器学习算法110可以使用训练数据集112来学习与神经网络算法相关联的加权因子。训练数据集112可以包括具有机器学习算法110试图经由学习过程复制的对应后果或结果的源数据集。在一个示例中，训练数据集112可以包括来自可以标识对象（例如，行人）的各种场景的源图像和深度图。

机器学习算法110可以使用训练数据集112作为输入在学习模式下操作。机器学习算法110可以使用来自训练数据集112的数据在多次迭代中执行。随着每次迭代，机器学习算法110可以基于获得的结果更新内部加权因子。例如，机器学习算法110可以将输出结果与训练数据集112中包括的结果进行比较。由于训练数据集112包括预期结果，因此机器学习算法110可以确定何时性能是可接受的。在机器学习算法110达到预定性能水平（例如，与训练数据集112相关联的结果100%一致）之后，可以使用不在训练数据集112中的数据来执行机器学习算法110。所训练的机器学习算法110可以应用于新的数据集，以生成带注释的数据。

机器学习算法110还可以被配置为标识原始源数据115中的特征。原始源数据115可以包括针对其期望注释结果的多个实例或输入数据集。例如，机器学习算法110可以被配置为标识图像中行人的存在并注释出现事件。机器学习算法110可以被编程为处理原始源数据115以标识特征的存在。机器学习算法110可以被配置为将原始源数据115中的特征标识为预定特征。原始源数据115可以从多种源导出。例如，原始源数据115可以是由机器学习系统收集的实际输入数据。原始源数据115可以是机器生成的，用于测试系统。作为示例，原始源数据115可以包括来自相机的原始数字图像。

在该示例中，机器学习算法110可以处理原始源数据115并生成输出。机器学习算法110可以为每个生成的输出生成置信水平或因子。例如，超过预定高置信度阈值的置信度值可以指示机器学习算法110确信所标识的特征对应于所述特定特征。小于低置信度阈值的置信度值可以指示机器学习算法110具有特定特征存在的某些不确定性。

图2图示了框图200，其图示了可以接收单个ERP图像作为输入并产生一个或多个高质量全向深度图的两阶段框架架构（即全景深度）的实施例。如图示的那样，框图200可以包括粗略深度估计网络202（即，第一阶段）和多视图立体匹配网络204（即，第二阶段）。

在框206，网络202可以从相机114接收单个ERP图像。例如，ERP图像可以是给定场景的单个360度图像。ERP图像然后可以被提供给粗略深度估计网络208，粗略深度估计网络208可操作来估计初始深度图，该初始深度图被提供给基于可微分深度图像的渲染（DIBR）模块210。模块210然后可以使用所提供的深度图来合成具有预定义基线的新颖视图。

设想，在模块208，可以采用轻量级网络来生成合成的高质量新颖视图、中等质量的深度图，或者甚至粗略的多平面深度图。例如，模块208可以采用称为“CoordNet”的已知轻量级网络来进行粗略深度估计。CoordNet可以用于利用坐标卷积来实施ERP图像的360度感知。然而，可以采用其他已知网络来用于粗略深度估计。然后，可以将估计的粗略深度图和ERP图像提供给DIBR模块210，该DIBR模块210渲染预定义基线的多个合成视图。设想，可以选择竖向基线并将其用于水平基线之上。

通过采用CoordNet，单个视图360度图像可以通过模块208传递以生成粗略深度估计。所生成的粗略深度图可以支持使用DIBR模块210来渲染输入360度图像，DIBR模块210以完全可微分的方式将来自源图像的像素变换成目标图像上的像素。设想，可以使用分层结构的三维场景推断来采用由DIBR模块采用的变换操作。然后，可以将来自源图像的像素散布在空的目标图像上。然后可以通过软z缓存来处置遮挡，并且最终预测可以是散布到同一像素的点的加权平均。

然后，可以采用多视图立体匹配网络204（即，第二阶段）来生成准确且鲁棒的全向深度估计。首先，由DIPR模块210提供的一个或多个合成图像212a-212b连同输入的ERP图像206可以被传递到立体匹配网络214以生成最终深度图216。设想，立体匹配网络可以包括两个级联阶段，用于粗略到精细领地（manor）中的视差预测。

来自基准真值深度218的监督也可以施加于从粗略单目深度估计网络208产生的深度和从立体匹配网络214生成的视差。例如，基准真值深度图像218也可以用于以端到端的方式监督和训练由粗略深度估计网络208生成的粗略深度预测220和由立体匹配网络204生成的最终深度预测216。

简而言之，框图200图示了两阶段网络，其包括：（1）粗略深度估计网络208，其后是用于新颖视图合成的可微分DIBR模块210，以及（2）具有可微分球面扭曲层和用于高效和高质量深度估计的级联机制的多视图立体匹配网络204。ERP图像206可以最初被传递到粗略深度估计网络208中，以估计初始深度图，以供DIBR模块210合成具有预定义基线的新颖视图。然后，原始ERP图像206和合成图像212a-212b可以被馈送到多视图立体匹配网络204中，以生成最终深度图216。这两个网络可以以端到端的方式被训练，并且两者都使用基准真值深度218被监督。

图3图示了多视图立体匹配网络204的实施例（即，第二阶段）。如图示的那样，网络204可以包括一个或多个输入级308a-308b。然而，设想仅可以使用一个输入级（例如308a）。输入级308a-308b中的每一个可以进一步包括球面特征提取网络310a-310b、球面扭曲层（SWL）312a-312b、成本体积构建模块314a-314b、成本聚合模块316a-316b和深度预测模块318a-318b。

如图示的，一个或多个生成的合成视图（即，212a-212b）可以与输入ERP图像206配对，并通过权重共享特征提取网络304传递。设想，网络304可以使用具有堆叠在一起的多个层的一个或多个已知的卷积神经网络来构建。

例如，图4图示了示例性CNN 400，其可以被实现为网络204的一部分（或者被实现为在网络202或网络204内采用的其他网络的一部分）。如图示的，CNN 400可以包括一个或多个卷积层440-440；一个或多个池化层450-470；一个或多个全连接层460；和softmax层470。设想，取决于给定的应用，CNN 400可以可替代地使用已知的DNN或决策树来实现。

CNN 400可以接收数据410（例如，输入204和/或合成视图212a-212b）。设想，数据410可以在被提供给CNN 400之前被轻微处理。卷积层440-440可以被设计成从数据410提取特征。例如，卷积层440-440可以在将结果传递给CNN 400的下一层之前采用过滤操作（例如，核）。过滤操作可以包括当接收的数据410是图像时应用的图像标识、图像的边缘检测和图像锐化。

CNN 400还可以包括一个或多个池化层450-470，其从相应的卷积层440-440接收卷积数据。池化层450-470可以包括一个或多个池化层单元，所述一个或多个池化层单元将池化函数应用于使用池化函数在不同频带处计算的一个或多个卷积层输出。例如，池化层450可以对从卷积层440接收的核输出应用池化函数。由池化层450-470实现的池化函数可以是平均值或最大值函数或者将多个值聚合成单个值的任何其他函数。

接下来，一个或多个全连接层480可以尝试学习从卷积层440-440和池化层450-470接收的输出数据中的高级特征的非线性组合。最后，CNN 400可以包括softmax层490，其使用softmax函数将全连接层480的输出进行组合。CNN 400可以采用批归一化层、最大池化层和dropout层。设想，CNN 400可以采用空间金字塔池化层来提取多尺度上下文信息。还设想CNN 400可以包括具有不同大小的一个或多个池化层。

回到图3，多尺度上下文信息然后可以被输入到球面特征网络310a-310b。设想对于具有3×Z×𝑊分辨率的立体对中的每个输入，特征提取网络310a-310b可以输出具有

分辨率的特征图。还设想，对于网络310a-310b，每个级联级（第l个）其中l >1，输出特征图可以具有

的分辨率。然而，设想特征图可以具有大于或小于32的分辨率。

同样，在过去的几年里，VR和AR市场中存在显著的增长。由于该增长，越来越多的360度相机被开发，并被用作VR和AR应用的内容生成源。通过对两个相邻的360度图像进行配对，设想可以利用立体匹配技术来生成3D信息。然而，由于等矩形投影（ERP）在图像（例如，图像206）中引入了失真，因此先前的立体匹配方法（例如，常规的和深度学习机器算法）可能不适用于ERP立体对。

还设想，对于透视立体图像，视差也可以与逆深度成比例。离散视差假设平面可以被均匀采样，并且稍后基于估计的概率被合并在一起。然而，对于球面立体，视差可能与图像上的逆深度和纬度值有关。由于球面几何结构引入的不规则失真，因此均匀假设平面采样对于等矩形立体对来说不理想。如上面讨论的，已知的算法试图采用可训练的移位滤波器来选择最佳假设步骤，但是这些方法需要大的计算处理开销，并且以不可接受的缓慢速率收敛。

因此，网络204可以包括一个或多个球面扭曲层（SWL）312a-312b，其在球面成本体积构建期间可操作地将均匀采样的视差或逆深度变换成球面坐标。设想，SWL 312a-312b可以是可微分的，并且可以在网络204内用于（例如，作为插件）端到端深度立体匹配网络。SWL312a-312b可以为适用于ERP立体对的透视投影图像提供立体匹配方法。设想，SWL 312a-312b可以确定性地将均匀采样的逆深度或差异变换为球面位移，以减少处理需求或存储器使用。因此，可以使用SWL 312a-312b代替可学习层来构建成本体积。

例如，SWL 312a-312b可以用作被均匀采样以覆盖整个深度范围的逆深度的一部分，如下面的等式1所表示：

等式（1）

其中D是假设平面的总数，d _j是第j个深度平面，d _min和d _max是深度的最小值和最大值，并且v是平面间隔。设想SWL 312a-312b可以将深度假设d _j变换成球面域C _j中的位移，以将像素从合成视图映射到原始视图。位移C _j然后可以使用下面的等式2来定义：

等式（2）

其中

指代跨图像的纬度值，b表示基线，并且H _f是特征图的高度。与已知的可学习移位滤波器相反，SWL 312a-312b被设计成不需要额外训练的封闭形式解决方案。

设想，利用来自SWL 312a-312b的位移𝐶𝑗，可以聚合从𝑀视图提取的球面特征，以构建具有均匀采样深度假设的成本体积。还可以应用包括基于方差的成本体积形成方法或级联设计的已知融合实现来提高准确度。设想，SWL 312a-312b可以被设计成与这样的已知级联设计无缝工作。此外，在每个级别l，可以使用基于级别 l + 1中的预测计算的新的间隔来均匀采样深度假设。然后可以使用相同的球面坐标映射过程来计算对应的位移。

网络204可以进一步包括成本体积构建模块314a-314b，其可以使用提取的特征图来构建成本体积。当实现时，可以从球面特征提取模块310a-310b或者从球面扭曲层312a-312b提供特征图。

在由模块316a-316b采用的成本体积的构建之后，可以采用成本聚合模块316a-316b来使用沙漏形编码和解码过程聚合不同级别的空间上下文信息。模块316ba-316b可以使用一个或多个多尺度3D CNN机器学习算法来设计。还设想，模块316a-316b可以帮助正则化由遮挡或无纹理表面引起的模糊区域中的噪声，以帮助提高最终预测质量。模块316a-316b然后可以对每个阶段l逐像素地回归视差值，如下面等式3所示：

等式（3）

其中𝑘是每个平面级别l通过其归一化概率加权的总和，如下面等式4所示：

等式（4）

其中

表示softmax函数，并且𝑝_𝑗标示第𝑗个平面值的概率。𝑣_𝑗,l是级别l的间隔。

设想，网络200可以以端到端的方式被训练，其中监督可以应用于两个子过程（即阶段202和阶段204）上。整个网络的最终损失函数可以定义为损失 =

𝐿_粗略 +

𝐿_立体，其中

和

分别是粗略深度估计损失和立体匹配损失的权重。还设想了平滑L₁损失和平滑项的组合，用于对标示为𝑝的非空像素进行深度估计，深度在下面的等式5中标示为D：

L _粗略

等式（5）

其中𝑀(𝑝)是用于屏蔽缺失区域的二进制掩码，𝛼和𝛽是L₁损失和平滑项的权重。还设想，网络200可以计算来自每个级别的所有输出上的berHu损失，并且然后计算加权总和。相同的二进制掩码𝑀可以应用于整个网络200，并且立体匹配损失可以使用下面的等式6来定义：

L _立体=

等式（6）

其中

是第l个级别的损失权重。

图5-7图示了可以用于实现两阶段网络（即网络202和204）的各种应用。例如，图5图示了一个实施例，其中计算系统540可以用于控制至少部分自主的机器人，例如至少部分自主的车辆500。计算系统540可以类似于图1中描述的系统100。传感器530可以包括一个或多个视频/相机传感器和/或一个或多个雷达传感器和/或一个或多个超声波传感器和/或一个或多个LiDAR传感器和/或一个或多个定位传感器（例如像GPS）。一些或所有这些传感器是优选的，但不一定集成在车辆500中。

可替代地，传感器530可以包括用于确定致动器系统状态的信息系统。传感器530可以收集传感器数据或要由计算系统540使用的其他信息。这样的信息系统的一个示例是确定环境中天气的当前或未来状态的天气信息系统。例如，使用输入信号x，分类器可以例如检测至少部分自主的机器人附近的对象。输出信号y可以包括表征对象位于至少部分自主的机器人附近的信息。然后可以根据该信息确定控制命令A，例如以避免与所述检测到的对象碰撞。

可以集成在车辆500中的致动器510可以由车辆500的制动器、推进系统、引擎、动力传动系统或转向提供。可以确定致动器控制命令，使得致动器（或多个致动器）510被控制，使得车辆400避免与所述检测到的对象碰撞。检测到的对象也可以根据分类器认为它们最有可能是什么（例如行人或树木）来分类，并且可以取决于分类来确定致动器控制命令A。

图6中示出了一个实施例，其中计算机系统640用于控制自动化个人助理650。传感器630可以是光学传感器，例如用于接收用户649的手势的视频图像。可替代地，传感器630也可以是音频传感器，例如用于接收用户649的语音命令。

控制系统640然后确定用于控制自动化个人助理650的致动器控制命令A。致动器控制命令A根据传感器630的传感器信号S确定。传感器信号S被传输到控制系统640。例如，分类器可以被配置为例如实行手势识别算法来标识用户649做出的手势。控制系统640然后可以确定用以传输到自动化个人助理650的致动器控制命令A。然后，它将所述致动器控制命令A传输到自动化个人助理650。

例如，可以根据由分类器识别的所标识的用户手势来确定致动器控制命令A。然后，它可以包括使得自动化个人助理650从数据库检索信息并以适合用户649接收的形式输出该检索信息的信息。

在另外的实施例中，可以设想，代替自动化个人助理650，控制系统640控制根据所标识的用户手势控制的家用电器（未示出）。家用电器可以是洗衣机、炉子、烤箱、微波炉或洗碗机。

图6中示出了计算系统控制访问控制系统600的实施例。访问控制系统可以设计成物理地控制访问。例如，它可以包括门601。传感器630被配置为检测与决定是否授权访问相关的场景。传感器630可以收集与场景相关的图像数据或视频数据。例如，它可以是用于提供图像或视频数据的光学传感器，用于检测人的面部。分类器可以被配置为例如通过将身份与存储在数据库中的已知人员进行匹配来解释该图像或视频数据，从而确定该人员的身份。然后，取决于分类器的解释，例如根据所确定的身份，可以确定致动器控制信号A。致动器610可以是锁，该锁取决于致动器控制信号A授权或不授权访问。非物理的、逻辑的访问控制也是可能的。

图7中示出了其中计算系统740控制监督系统700的实施例。该实施例在很大程度上与图5中所示的实施例相同。因此，将仅详细描述不同的方面。传感器730被配置为检测被监督的场景。传感器730可以收集与场景相关的图像数据或视频数据。计算系统不一定控制致动器710，而是控制显示器710a。例如，机器学习系统可以确定场景的分类，例如由光学传感器730检测到的场景是否可疑。传输到显示器710a的致动器控制信号A然后可以例如被配置为使得显示器710a取决于所确定的分类来调整显示的内容，例如以突出显示被机器学习系统认为可疑的对象。

本文公开的过程、方法或算法可以可递送到处理设备、控制器或计算机/由处理设备、控制器或计算机实现，所述处理设备、控制器或计算机可以包括任何现有的可编程电子控制单元或专用电子控制单元。类似地，过程、方法或算法可以以多种形式存储为由控制器或计算机可执行的数据和指令，包括但不限于永久存储在诸如ROM设备的不可写存储介质上的信息和可变更地存储在诸如软盘、磁带、CD、RAM设备以及其他磁性和光学介质的可写存储介质上的信息。所述过程、方法或算法也可以在软件可执行对象中实现。可替代地，可以使用诸如专用集成电路（ASIC）、现场可编程门阵列（FPGA）、状态机、控制器之类的合适的硬件组件，或其他硬件组件或设备，或者硬件、软件和固件组件的组合，来整体或部分地体现过程、方法或算法。

虽然上面描述了示例性实施例，但是不旨在使这些实施例描述权利要求所涵盖的所有可能的形式。说明书中使用的词语是描述的词语，而不是限制的词语，并且应当理解，可以在不脱离本公开的精神和范围的情况下做出各种改变。如先前描述的，各种实施例的特征可以被组合以形成可能未被明确描述或图示的本发明的另外的实施例。虽然各种实施例可能已经被描述为在一个或多个期望的特性方面提供了优于其他实施例或现有技术实现的优点或者比其他实施例或现有技术实现优选，但是本领域的普通技术人员认识到，一个或多个特征或特性可以取决于具体的应用和实现被折衷以实现期望的总体系统属性。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、适销性、外观、包装、大小、适用性、重量、可制造性、组装容易性等。照此，在任何实施例都被描述为在一个或多个特性方面与其他实施例或现有技术实现相比不太合期望的程度上，这些实施例不在本公开的范围之外，并且对于特定应用可以是合期望的。

Claims

1.一种用于采用深度估计深度机器学习算法的方法，包括：

从传感器接收等矩形投影（ERP）图像；

使用粗略单目深度估计机器学习算法从ERP图像估计粗略深度图；

使用基于可微分深度图像的渲染（DIBR）算法生成一个或多个合成图像；和

使用所述ERP图像和所述一个或多个合成图像，使用多视图立体匹配机器学习算法生成最终球面深度图。

2.根据权利要求1所述的方法，进一步包括：使用球面特征提取机器学习算法将所述一个或多个合成图像与所述ERP图像配对。

3.根据权利要求2所述的方法，其中所述球面特征提取机器学习算法生成一个或多个特征图。

4.根据权利要求3所述的方法，其中所述一个或多个特征图具有32乘以所述ERP图像的宽度的四分之一和所述ERP图像的高度的四分之一的分辨率。

5.根据权利要求3所述的方法，使用成本体积构建算法聚合从所述ERP图像和所述一个或多个合成图像提取的一个或多个球面特征。

6.根据权利要求5所述的方法，进一步包括：使用均匀采样的深度假设生成成本体积。

7.根据权利要求6所述的方法，进一步包括：使用所述一个或多个特征图生成所述成本体积。

8.根据权利要求6所述的方法，其中使用新的间隔在指定的级别上均匀地采样深度假设。

9.根据权利要求7所述的方法，使用成本聚合机器学习算法聚合成本体积。

10.根据权利要求9所述的方法，其中，使用包括沙漏编码和解码过程的一个或多个3维卷积神经网络来实现所述成本聚合机器学习算法。

11.根据权利要求9所述的方法，进一步包括：针对每个指定级别逐像素地回归视差值。

12.根据权利要求1所述的方法，其中所述粗略单目深度估计机器学习算法被实现为利用坐标卷积来实施360度感知的轻量级机器学习网络。

13.根据权利要求12所述的方法，其中，所述DIBR算法以完全可微分的方式将来自所述ERP图像的第一像素集变换成目标图像上的第二像素集。

14.根据权利要求13所述的方法，其中所述DIBR算法可操作来将所述第一像素集散布在所述目标图像上，所述DIBR算法还包括软z缓存算法来处置遮挡，并且所述DIBR算法生成最终预测，所述最终预测是散布到来自所述第二像素集的单个像素的点的加权平均。

15.一种采用深度估计深度机器学习算法的系统，包括：

传感器，捕获一个或多个等矩形投影（ERP）图像；

控制器，可操作用于：

接收所述一个或多个ERP图像；

使用粗略单目深度估计机器学习算法从一个或多个ERP图像估计粗略深度图；

使用一个或多个ERP图像和所述一个或多个合成图像，使用多视图立体匹配机器学习算法生成最终球面深度图。

16.根据权利要求15所述的系统，其中所述控制器进一步可操作用于：使用球面特征提取机器学习算法将所述一个或多个合成图像与所述ERP图像配对。

17.根据权利要求16所述的系统，其中所述球面特征提取机器学习算法生成一个或多个特征图。

18.根据权利要求16所述的系统，其中所述控制器进一步可操作用于：

使用成本体积构建算法聚合从所述ERP图像和所述一个或多个合成图像提取的一个或多个球面特征；

使用均匀采样的深度假设生成成本体积；和

针对每个指定级别逐像素回归视差值。

19.一种可操作来采用两阶段深度估计深度机器学习算法的非暂时性计算机可读介质，所述非暂时性计算机可读介质具有存储在其上的计算机可读指令，所述指令可操作来被执行以执行以下操作：

接收所述一个或多个ERP图像；

使用所述一个或多个ERP图像和所述一个或多个合成图像，使用多视图立体匹配机器学习算法生成最终球面深度图。

20.根据权利要求1所述的方法，进一步包括：使用基准真值深度图来监督所述粗略深度图和所述最终球面深度图。