CN112889071B

CN112889071B - 用于确定二维图像中深度信息的系统和方法

Info

Publication number: CN112889071B
Application number: CN201880098070.1A
Authority: CN
Inventors: 扎法尔·塔吉罗夫; 江韵
Original assignee: Beijing Voyager Technology Co Ltd
Current assignee: Beijing Voyager Technology Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-27
Publication date: 2024-04-16
Anticipated expiration: 2038-12-27
Also published as: WO2020131134A1; US11017542B2; CN112889071A; US20200202542A1

Abstract

本公开的实施例提供了用于确定二维(2D)图像中的深度信息的系统和方法。示例性系统可以包括处理器和存储指令的非暂时性存储器，所述指令在由所述处理器执行时使所述系统执行各种操作。所述操作可以包括基于所述二维图像接收第一特征图，以及将具有卷积操作和池化操作的提取网络应用于第一特征图以获得第二特征图。所述操作还可以包括将具有去卷积操作的重建网络应用于所述第二特征图以获得深度图。

Description

用于确定二维图像中深度信息的系统和方法

相关申请

本申请要求于2018年12月21日提交的美国专利申请第16/229,808号的优先权，其全部内容通过引用明确并入本文。

技术领域

本公开涉及用于图像识别的系统和方法，并且更具体地，涉及用于使用卷积神经网络确定二维图像的深度信息的系统和方法。

背景技术

近年来，图像识别技术在现实世界中从手写字符识别到面部识别且尤其最近在自动驾驶行业中的应用中得到了快速增长。对于传统的计算机处理，这些应用中的图像通常非常复杂。类似于生物的视觉感知的人工神经网络已被用于分析视觉图像。然而，由于大量数据正在被由输入与输出层之间的多层组成的完全连接的神经网络处理，因此对于计算能力有限的当代计算机，对超过一定像素数，例如32×32像素，的图像执行这种识别是不可行的。

因此，提出了一种称为卷积神经网络(“CNN”，Convolutional Neural Networks)的方法作为解决方案。卷积神经网络使用多层感知器的变体来获得图像的代表性特征。多层感知器由三层或更多层节点组成，包含一个输入层、一个或多个隐藏层以及一个输出层。除输入层外，其它层上的每个节点与动物视皮质中对视野受限区域中的刺激做出响应的神经元类似。当卷积神经网络中的隐藏层将卷积操作应用于从输入层接收的输入时，所述隐藏层还称为卷积层，就像各个神经元对刺激的响应一样。卷积操作能够减少由人工智能神经网络处理的数据量，并允许由现有的计算机完成图像识别。

对于视觉识别中的一些应用，如识别车牌上的手写字符或数字，二维(2D)图像中对象的深度信息不太重要，因为只要能够获得这些字符的值或数字，不必知道这种图像中字符或数字的距离。另外，图像中的字符或数字本身通常不是三维(3D)的。然而，在要检测三维对象的其它应用中，如自动驾驶，深度信息起着更重要的作用。例如，当自动驾驶车辆检测到位于其前方的车辆时，两者之间的相对位置对于车辆控制行驶速度或方向或施加制动至关重要。尽管某些自动驾驶汽车使用光探测和测距(LiDAR)扫描仪来测量对象的距离和空间关系，但这不可避免地导致仅专用于特定功能的组件的更高的成本和繁琐的安装。

为了解决上述问题，需要更具成本效益的基于二维图像确定深度信息的系统和方法。

发明内容

一方面，本公开的实施例提供了一种用于确定二维(2D)图像中的深度信息的系统。所述系统可以包括至少一个处理器和至少一个存储指令的非暂时性存储器，所述指令在由所述处理器执行时使得所述系统执行以下操作：基于所述二维图像接收第一特征图；将包括至少一个卷积操作和至少一个池化操作的提取网络应用于所述第一特征图以获得第二特征图；以及将包括至少一个去卷积操作的重建网络应用于所述第二特征图以获得深度图。

另一方面，本公开的实施例提供了一种用于确定二维(2D)图像中的深度信息的方法。所述方法可以包括基于所述二维图像接收第一特征图。所述方法可以进一步包括将包括至少一个卷积操作和至少一个池化操作的提取网络应用于所述第一特征图以获得第二特征图，以及将包括至少一个去卷积操作的重建网络应用于所述第二特征图以获得深度图。

再一方面，本公开的实施例提供了一种其上存储有指令的非暂时性计算机可读介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行操作。所述操作可以包括基于所述二维图像接收第一特征图。所述操作可以进一步包括将包括至少一个卷积操作和至少一个池化操作的提取网络应用于所述第一特征图以获得第二特征图，以及将包括至少一个去卷积操作的重建网络应用于所述第二特征图以获得深度图。

应理解，如所要求地，前述一般描述和以下具体实施方式两者仅是示例性和说明性的，并不限制本发明。

附图简要说明

图1示出了与一些公开的实施例相一致的在道路上行驶的周围有车辆的配备有深度信息确定系统的示例性车辆的示意图。

图2示出了与一些公开的实施例相一致的用于确定二维图像中的一个或多个对象的深度信息的示例性系统的框图。

图3示出了与一些公开的实施例相一致的用于确定二维图像中的一个或多个对象的深度信息、类别、边界框和三维参数的示例性系统的框图。

图4示出了用于使用卷积神经网络(CNN)基于二维图像确定深度信息的示例性方法的流程图。

具体实施方式

现在将详细参考示例性实施例说明，其实例在附图中示出。将在所有附图中尽可能使用相同的附图标记指代相同或相似的部件。

图1示出了在道路上行驶的周围有车辆的配备有深度信息确定系统的示例性车辆100的示意图。尽管以下描述将自动驾驶用作本公开的实施方式，但是本领域的普通技术人员将知道，本公开能够在期望二维图像的深度信息的其它场景——例如面部识别——上实施。与一些实施例相一致地，车辆100可以是具有自动驾驶功能的汽车。可以设想，车辆100可以是电动车辆、燃料电池车辆、混合动力车辆或常规的内燃机车辆。车辆100可以具有车身和至少一个车轮。车身可以是任何车身样式，如玩具车、摩托车、运动型车、轿跑车、敞篷车、轿车、皮卡车、旅行车、运动型多用途车(SUV)、小型货车、改装车、多功能车(MPV)或半挂卡车。在一些实施例中，车辆100可以包含一对前轮和一对后轮。然而，可以设想，车辆100可以具有使其自己能够四处移动的或更多或更少的车轮或等效结构。车辆100可以被配置为全轮驱动(AWD)、前轮驱动(FWR)或后轮驱动(RWD)。在一些实施例中，车辆100可以被配置为由占用车辆的操作者进行操作、远程控制和/或自动化的。

如图1所示，车辆100可以配备有图像捕获组件120。在一些实施例中，图像捕获组件120可以是能够捕获静止图像(例如照片)或运动图像(例如视频)的图像传感器或其它类型的传感器。图像捕获组件120可以集成到安装在车辆100中或上的照相机中。可替代地，图像捕获组件120还可以是放置在车辆100内或上的数字设备的一部分，如移动电话、笔记本电脑、掌上电脑(PDA)、导航设备等。可以将捕获的图像进行传输，以供本申请所公开的系统进一步处理，这将在下面进一步讨论。

当在道路上行驶时，如图1所示，车辆100的图像捕获组件120可以捕获视场(“FOV”，field of view)内的图像，视场由照相机内部的图像捕获组件120的焦距和图像传感器的尺寸来定义。对于二维图像捕获组件120，视场可以由水平和垂直视角表示。这些视角α(水平)和β(垂直)可以是0到360度之间的任何值。当车辆100沿着轨迹移动时，可以由图像捕获组件120获取相对于场景(例如，包括车辆100周围的对象)的数字图像。每个图像可以包含由像素表示的所捕获的图像中的对象的文本信息。每个像素可以是数字图像中与图像中颜色信息和坐标相关联的最小的单个分量。

对于自动驾驶，车辆100通常需要不仅从像素簇中识别图像中有哪些对象，而且还需要识别图像中的这些对象的深度信息。本公开提供了确定深度信息的技术方案。

图2示出了用于确定二维图像中的一个或多个对象的深度信息的示例性系统200的框图。系统200可以包括存储器202，存储器202被配置为存储一个或多个计算机指令，当所述计算机指令在由至少一个处理器执行时，能够使系统200执行本申请公开的各种操作。存储器202可以是任何非暂时性类型的大容量存储器，如易失性或非易失性的、磁性的、基于半导体的、基于磁带的、光学的、可移动的、不可移动的或其它类型的存储设备或有形的计算机可读介质，包含但不限于只读存储器(ROM)、闪存、动态随机存取存储器(dynamicRAM)和静态随机存取存储器(static RAM)。

系统200可以进一步包括能够根据存储在存储器202中的指令执行操作的处理器204。处理器204可以包括任何适当类型的通用或专用微处理器、数字信号处理器或微控制器。处理器204可以被配置为专用于执行一个或多个特定操作的单独的处理器模块。可替代地，处理器204可以被配置为用于执行与本文公开的一个或多个特定操作无关的其它操作的共享处理器模块。如图2所示，处理器204可以包含多个模块，如用于提取网络的模块206，用于重建网络的模块208等。这些模块(以及任何对应的子模块或子单元)可以是被设计用于与其它组件共同使用或执行程序的一部分的处理器204的硬件单元(例如，集成电路的部分)。尽管图2示出了模块206和208在一个处理器204内的情况，但是可以设想，这些单元可以分布在彼此靠近或远离的多个处理器之间。

在一些实施例中，系统200可以进一步包括图像捕获组件120，图像捕获组件120的结构和功能已经在上面进行了描述。图像捕获组件120输出二维图像。图像可以是静止图像(照片)的单张照片，也可以是由多个帧组成的运动图像流(视频流)。由于本申请公开的操作可以在每个图像/帧以及其输入到系统200的特征图上执行，所以本公开适用于静止图像和运动图像两者。

在一些实施例中，系统200可以进一步包括特征提取器212。如图2所示，特征提取器212可以提取二维图像(例如，从图像捕获组件120接收的)的至少一个特征，并且形成要发送到处理器204的特征图。提取和形成可以通过卷积神经网络架构来实现。特别地，卷积神经网络架构由多层组成，包括一个输入层、一个或多个隐藏层和一个输出层。一个或多个隐藏层可以将卷积操作应用于二维图像以提取特征，如线、边、曲线、圆、正方形、角或纹理。这种卷积层包含至少一个在整个视场上重复的可训练滤波器(还称为内核)。滤波器中的参数包含权重向量和偏差。因此，通过将滤波器应用于图像，能够获得表示由滤波器提取的表征一个或多个特定特征的特征图的输出。而且，由于卷积神经网络架构在特定层的所有视野中使用相同的滤波器，因此与完全连接的神经网络相比，内存占用空间，即程序在运行时使用或引用的主内存量，显著减少。卷积方程式，例如，可以由以下等式1表示：

在等式1中，b是偏差，Z^l和Z^l+1分别表示第(l+1)个卷积层的输入和输出，即特征图。假设特征图是正方形的，L_l+1是Z^l+1的体积大小(volume size)。Z(i，j)对应于特征图的每个像素，i和j各自规定像素的行和列的位置。K是特征图的通道数，而f、s₀和p分别表示应用于卷积层的内核字段大小、步长和零填充量。等式1的这些参数可以按顺序调整，以使卷积神经网络架构提取给定图像的不同特征，并且可以通过使用训练数据集训练卷积神经网络架构来优化调整。

与本公开的一些实施例相一致地，特征提取器212可以采用由牛津视觉几何组开发的卷积神经网络VGGNet(Visual Geometry Group Network)。VGGNet使用具有非常小的卷积滤波器(3×3)的架构，具有两个不同的深度模型，具体为一个16层模型和一个19层模型。VGGNet作为图像分类器和开发新的卷积神经网络模型的基础都非常有用，并且可以很好地推广并应用于不同的数据集。在其它的实施例中，特征提取器212还可以使用其它类型的卷积神经网络，如ZFNet、GoogleNet、ResNet等。

当接收到基于二维图像的第一特征图(例如，由特征提取器212提供的特征图)时，根据本公开的系统调用存储在存储器202中的一个或多个指令，并使处理器204将提取网络应用于第一特征图以获得第二特征图。如图2所示以及如上所述，处理器204可以包含用于提取网络的模块206。在一些实施例中，模块206进一步具有卷积模块222和池化模块224。

卷积模块222可以将一个或多个卷积滤波器应用于第一特征图，使得在这种卷积的每次处理之后，提取输入的二维图像的更多特征，并且输出新的特征图。多个特征图可以各自专注于二维图像中的不同特定特征。例如，因为第一卷积滤波器被训练为检测线条，所以第一特征图可能仅响应于二维图像中的线。第二特征图可能出于类似原因仅对圆形做出响应。本领域普通技术人员应理解，可以使用领域内最先进的卷积神经网络架构提取其它特征。可替代地，人们还可以使用将在实施系统的情况下常用的数据来自训练卷积神经网络滤波器的权重和其它参数。这可能需要大量的训练数据，以避免过度拟合，这意味着训练的结果可能过度依赖于特定的数据集，因此可能缺乏基于不同数据集来预测未来观察结果的可靠性。

将池化模块224设计为减少在层的级联中传输和处理的数据量。池化操作将一层中节点群集的输出组合到下一层中的单个节点中。也即是说，池化沿卷积神经网络的输出路径对数据进行下采样。例如，对于第l层中以2×2配置的四个节点，可以被组合且映射到第l+1层中的一个节点。有两种不同的池化方法。一种称为最大池化，在最大池化下，四个节点中的最大值将被保留给下一层的节点，而其它三个则被丢弃。最大池化擅长保留图像的背景信息。另一种称为均值池化或平均池化，在所述池化下，四个节点的平均值被用作下一层的节点的值。均值池化倾向于保留图像的纹理信息。

根据本公开，随着将更多层的卷积滤波器应用于输入图像，特征图的尺寸变小并且特征图的深度增加。在卷积神经网络的每一层之后，处理器204获得卷积和池化操作的中间结果，中间结果同样为特征图的形式并且将用于重建，例如，深度信息。因此，提取网络的模块206的中间特征图和输出特征图小于其接收的原始特征图，例如，从特征提取器212接收的。

如图2所示以及如上所述，处理器204还可以包含用于重建网络的模块208。在一些实施例中，模块208进一步包括去卷积模块226。去卷积模块226被设计为将去卷积操作应用于中间结果以获得深度信息。去卷积，顾名思义，是卷积的逆操作。与卷积操作类似，去卷积还可以使用最先进的卷积神经网络，或者可以用训练数据集进行训练。去卷积通过将层l’的一个节点链接到层l’+1的多个节点(例如，3×3节点)来增加输入的规模。结果，能够提高中间特征图的角分辨率(也称为空间分辨率)。角分辨率描述了图像捕获组件区分对象的小细节的能力，并且是图像分辨率的主要决定因素。在一个或多个去卷积操作结束时，重建网络的模块208将输出接收到的二维图像的深度图。

在一些实施例中，模块208可以可选地包含非池化模块228。非池化是池化的逆操作。非池化对输入数据进行上采样以得到与输入图大小相同的预测图。例如，非池化操作可以通过将一个前一层的下采样节点的值分配给被非池化的层的四个节点中的一个节点、并将其它节点填充为零，将该下采样节点扩展为该被非池化的层的节点的2×2群集。

图3示出了用于确定如二维图像中的一个或多个对象的深度信息、类别、边界框和三维参数等信息的示例性系统300的框图。系统300具有若干独特的模块，包含图像特征提取器312，具有多个层的提取网络306、其中每一层包括卷积操作和池化操作，以及具有多个层的重建网络308、其中每一层包括去卷积操作和可选的非池化操作。这些层可以在一个处理器内或分布在彼此靠近或彼此远离的多个处理器之间，其中每个处理器都能够根据存储在存储器(例如，存储器202)中的指令来执行操作。

在系统300内执行的卷积操作、池化操作、去卷积操作和非池化操作可以采用与系统200结合的所公开的那些操作相同的底层算法，其细节在此不再赘述。

在一些实施例中，图像特征提取器312可以被配置为从输入的二维图像提取特征以生成特征图。由图像特征提取器312执行的用于提取特征并生成特征图的操作可以与特征提取器212的那些操作类似，其细节在此不再赘述。

如图3所示，与系统200类似，系统300还能够使用在提取网络306的多个层内执行的卷积和池化操作的中间结果来获取接收到的二维图像的深度图314。在输入到图像特征提取器312旁边的第一层之后，从图像特征提取器312输出的特征图通过网络306的多层依次经历一系列的卷积神经网络操作，图3中的箭头指示操作顺序。在一些实施例中，每一层可以对来自其紧邻的前一层的接收到的特征图执行至少一个卷积操作和池化操作，以获得二维图像的另一个特征图，即，卷积神经网络操作的中间结果。在一些实施例中，可以在层内执行多个卷积操作，然后进行池化操作。在两个相邻层之间的结合处，系统300可以进一步执行将单个数据路径Z分成两个不同的路径X和Y的分离操作。如图3所示，通过这种分离操作，可以将从每一层输出的中间结果转移到两个目的地——提取网络306中的下一层和重建网络308中的对应层。

重建网络308从提取网络306的最后一层接收提取网络306的最终输出，最终输出也是二维图像的特征图。如图3示意性地示出，特征图的大小(由框306的高度指示)在这一阶段显著减小，而特征图的深度(由框306的宽度指示)显著增大。也即是说，提取网络306将重型像素的二维图像(其中嵌入了特征)转换成特征丰富的集合，其中，原始二维图像的基本信息由一系列特征表示，这一特征系列中的每个特征相对地浓缩。随后，网络308中的多个层依次对接收到的特征图执行去卷积操作，箭头指示操作顺序。如图3所示，从网络308紧跟输入层之后的第二层开始，每一层执行两个不同输入的串联操作，一个是来自紧邻的上一层的中间结果，另一个是从提取网络306中分离的对应层的中间结果。串联是两个数据路径X和Y成为一个数据路径Z的组合。此后，对串联的数据执行去卷积操作，以便为下一层输出另一个中间结果。在重建网络308的末端，获得深度图314。

在其它实施例中，重建网络308的一层或多层可以可选地包含非池化操作。如上所述，非池化是对池化的逆操作。非池化对输入数据进行上采样以得到与输入图大小相同的预测图。非池化操作可以通过将一个前一层的下采样节点的值分配给被非池化的层的四个节点中的一个节点、并将其它节点填充为零，将该下采样节点扩展为该被非池化的层的节点的2×2群集。注意，这仅是非池化的一个具体实例，并且本领域普通技术人员可以在实现与本公开的相同目的的同时利用其它方式对节点进行上采样。

与本公开的一些实施例相一致地，系统300可以进一步被配置为产生类别预测和二维边界框估计。与传统的计算机视觉方法相比，对象分类是卷积神经网络的主要优势，允许计算机将图像分类为不同的类别集。例如，在自动驾驶领域，训练有素的卷积神经网络架构应该能够确定二维图像中的对象最有可能所属的类别，如汽车、公共汽车、卡车、自行车、行人、猫、狗、树或其它东西，从而使自动驾驶车辆能够更准确、更直观地响应于周围环境。因此，对象分类的准确性已成为选择卷积神经网络架构的重要因素。

根据本公开，系统300可以进一步被配置为对对象的分类本地化，例如通过将图像划分成单元格并分别对每个单元进行预测。在二维边界框进一步的促进下，系统300可以被配置为对单个单元中的多个对象进行分类。例如，如图1所示，配备有根据本公开的系统300的车辆100可以将汽车140与卡车160区分开，并且还可以沿着行驶轨迹识别树木180。

为了实现这一点，如图3所示，系统300提供将卷积操作应用于从提取网络306和重建网络308分离的中间结果的一个或多个卷积模块309。可以将每个模块309设计为仅对通过其的特征图的一个单元进行响应，因此将其预测集中在二维图像的该特定单元上。每个模块309的输出可以称为“预处理器”。预处理器的数量N_p对应于模块309的数量。预处理器的数量越多，模块309可以从提取网络和重建网络的中间结果中获取的图像的细节就越多。然而，更多数量的预处理器可能加重计算负担并减慢系统300的速度。设计系统300的N_p和单元大小S_c的另一个考虑是，N_p和S_c的乘积优选地不小于二维图像S_i的总大小，如下等式2所示：

N_p×S_c≥S_i 等式2

以此方式，在二维图像中将不存在无法说明其分类的像素。在获得预处理器之后，系统300可以对预处理器的部分或全部执行串联操作，以产生针对二维图像的一个或多个单元中的多个对象的类别的预测。

与本公开的实施例相一致地，系统300可以进一步设置为具有一个或多个卷积锚定框318，以促进对单元中的多个对象的预测。卷积锚定框是具有预定义形状的框，如矩形、正方形等。通过将多个锚定框应用于预处理器，系统300能够获得与在二维图像的单元格中被识别的对象大小类似的二维边界框。在串联的预处理器上使用的锚定框越多，则可以对二维边界框的位置和大小进行更好的估计，边界框可用于二维图像的一个或多个单元中的对象的后续确定。

在预测阶段，可以将串联的预处理器进一步与由深度特征提取器316生成的深度特征图进行串联，以获得更好的对象分类、二维边界框和三维预测结果。与从二维图像中提取特征的图像特征提取器312不同，深度特征提取器316从深度图314提取特征。因此，在图像上训练的卷积神经网络架构，如VGGNet，相较于在深度图上训练的那些架构是较为不可取的。这种基于深度图的卷积神经网络架构可以通过反向传播来开发，反向传播是一种通常用于计算对卷积神经网络滤波器的权重的计算必不可少的梯度的方法。可替代地，基于深度图的卷积神经网络架构还可以用光探测和测距(LiDAR)的数据进行训练。例如，由于LiDAR是一种众所周知的通过用脉冲激光测量到目标的距离来获取成像场的深度信息的设备，因此可以从LiDAR数据插入深度图。

根据本公开的一些实施例，系统300可以进一步被配置为估计二维图像中的对象的三维参数。三维参数可以包含x、y和z，指示点在三维坐标系中的位置。此外，对象的三维大小由w(宽度)、h(高度)和l(长度)表示。可以使用另一个卷积神经网络架构来进一步估算二维图像中对象的这些参数，所述另一个架构是来自提取网络306的中间特征图、来自重建网络308的中间特征图，以及从先前的预测阶段获得一个或多个类别的预测和对象的一个或多个二维边界框的卷积。

有时，一个基于卷积神经网络的系统可能多次检测二维图像中的单个对象，因此导致数据输出冗余或有时信息不准确。为了减少这种情况的发生，可以向根据本公开的系统300进一步提供非最大抑制操作，以滤除对象的冗余或不准确的检测。例如，所述操作首先识别对象概率最大的边界框。然后，将搜索和抑制被识别为与先前识别的边界框重叠的同一物体的周围边界框。因此，将对象概率最大的边界框保留，并且成为二维图像中对该对象的唯一预测。

图4示出了用于使用卷积神经网络确定二维图像的深度信息的示例性方法400的流程图。在一些实施例中，方法400可以由系统200来实施，系统除其它之外包括存储器202和在提取网络的模块206和重建网络的模块208下执行各种操作的处理器204。例如，方法400的步骤S402可以由卷积模块222和池化模块224执行，并且步骤S403可以由去卷积模块226执行。在其它实施例中，方法400可以由系统300来实施，系统除其它之外包括选自图像特征提取器312、深度特征提取器316、具有多层的提取网络306、具有多层的重建网络308、一个或多个卷积模块309和一个或多个卷积锚定框318中的一个或多个模块。应理解，步骤中的一些步骤对于执行本申请提供的公开是可选的，并且一些步骤可以插入到方法400的流程图中，这些步骤与根据当前公开的其它实施方式相一致。进一步地，步骤中的一些步骤可以同时执行，或以与图4所示顺序不同的顺序执行。

在步骤S401中，如系统200的深度信息确定系统可以基于二维图像接收第一特征图。二维图像可以由是或不是系统200的一部分的图像捕获组件120捕获。所捕获的图像可以通过是或不是系统200的一部分的特征提取器212。特征提取器212可以提取二维图像的至少一个特征并使用卷积神经网络架构来形成特征图。

在步骤S402中，在基于二维图像接收第一特征图时，系统200调用存储在存储器202中的一个或多个指令，并使处理器204将提取网络应用于第一特征图以获得第二特征图。处理器204包含用于提取网络的模块206，模块进一步具有卷积模块222和池化模块224。如上所述，两个模块分别将至少一个卷积操作和至少一个池化操作应用于第一特征图。

在步骤S403中，系统200进一步调用存储在存储器202中的一个或多个指令，并使处理器204将重建网络应用于第二特征图以获得深度图。处理器204包含用于重建网络的模块208，模块进一步包括去卷积模块226。如上所述，去卷积模块将至少一个去卷积操作应用于第二特征图。

在步骤S404中，如先前结合系统300所解释的，当提取网络和重建网络各自包含多个层(例如，网络306和308)时，在卷积/池化/去卷积操作时该层的输出，视情况而定，以特征图的形式变成中间结果，将所述特征图进一步提供给一个或多个卷积模块309。可以将每个模块309设计为仅对通过其的特征图的一个单元进行响应，因此将其预测集中在二维图像的那个特定单元上。每个模块309的输出称为“预处理器”。卷积模块309将卷积操作应用于对应的中间结果以获得预处理器。

在步骤S405中，可以将预处理器进行串联以由系统300进一步处理。

在步骤S406中，基于预处理器的串联，系统300可以进一步执行对二维图像的一个或多个单元中的对象进行分类的操作。

在步骤S407中，基于预处理器的串联，系统300可以进一步估计二维图像的一个或多个单元中的对象的边界框。

在步骤S408中，系统300可以将进一步的卷积应用于预处理器，预处理器对来自提取网络306的中间特征图、来自重建网络308的中间特征图，以及从先前的步骤中获得的对象的一个或多个类别和一个或多个二维边界框的预测进行卷积。由此，可以基于进一步的已卷积的预处理器来估计二维图像中的对象的三维参数。

本公开的另一方面针对一种存储指令的非暂时性计算机可读介质，所述指令在被执行时，使一个或多个处理器执行如上讨论的方法。计算机可读介质可以包含易失性或非易失性的、磁性的、半导体的、磁带的、光学的、可移动的、不可移动或其它类型的计算机可读介质或计算机可读存储设备。例如，如所公开的，计算机可读介质可以是其上存储有计算机指令的存储设备或存储模块。在一些实施例中，计算机可读介质可以是其上存储有计算机指令的光盘、闪存驱动器或固态驱动器。

根据本公开的系统和方法具有使用卷积神经网络基于二维图像确定深度信息的优点，无需如LiDAR等距离测量设备。此外，所述系统和方法可以在二维图像上同时执行以下操作中的两个或多个——确定图像的深度信息，对图像中的对象进行分类，估计图像的细分单元中对象的边界框，以及估计图像中对象的三维参数——这在业界是未知的。取决于特定的应用，可以在系统中选择性地实施这些操作中的一个或多个。

对于本领域技术人员将显而易见的是，可以对所公开的系统和相关方法进行各种修改和变化。通过考虑所公开的系统和相关方法的说明书以及实践，其它实施例对于本领域技术人员将是显而易见的。

说明书和实例旨在仅被认为是示例性的，真正的范围由所附权利要求及其等同物指示。

Claims

1.一种用于确定二维(2D)图像中的深度信息的系统，包括：

至少一个处理器；以及

至少一个存储指令的非暂时性存储器，所述指令在由所述至少一个处理器执行时使得所述系统执行操作，所述操作包括：

基于所述二维图像接收第一特征图；

将包括至少一个卷积操作和至少一个池化操作的提取网络应用于所述第一特征图以获得第二特征图；以及

将包括至少一个去卷积操作的重建网络应用于所述第二特征图以获得深度图；

其中，所述将包括至少一个卷积操作和至少一个池化操作的提取网络应用于所述第一特征图以获得第二特征图，包括：

将所述提取网络的多个层依次应用于所述第一特征图，获取至少一个第二特征图，所述至少一个第二特征图包括所述提取网络的中间层输出的中间结果和最后一层输出的结果；

所述将包括至少一个去卷积操作的重建网络应用于所述第二特征图以获得深度图，包括：

将所述重建网络的多个层依次应用于来自所述提取网络对应层的第二特征图，以获取所述深度图。

2.根据权利要求1所述的系统，所述系统包括被配置为捕获所述二维图像的图像捕获组件。

3.根据权利要求1所述的系统，所述系统包括被配置为从所述二维图像提取至少一个特征以生成所述第一特征图的特征提取器。

4.根据权利要求1所述的系统，其中，所述第一特征图或所述第二特征图的特征包含线、边、曲线、圆、正方形、角或纹理中的至少一个。

5.根据权利要求1所述的系统，其中：

所述提取网络包括多个层，每一层包括至少一个卷积操作和一个池化操作。

6.根据权利要求5所述的系统，其中：

所述重建网络包括多个层，每一层包括至少一个去卷积操作。

7.根据权利要求6所述的系统，其中，所述操作包括：

将卷积操作应用于由所述提取网络和所述重建网络获得的对应的所述中间结果，以获得预处理器；以及将多个所述预处理器进行串联。

8.根据权利要求7所述的系统，其中，所述操作包括：

基于所述串联的预处理器对所述二维图像的一个或多个单元中的对象进行分类。

9.根据权利要求7所述的系统，其中，所述操作包括：

基于所述串联的预处理器估计所述二维图像的一个或多个单元中的对象的边界框。

10.根据权利要求7所述的系统，其中，所述操作包括：

将进一步的卷积操作应用于所述预处理器；以及基于所述进一步卷积的预处理器，估计所述二维图像中对象的三维参数。

11.根据权利要求1所述的系统，其中，所述操作包括：

使用训练数据集训练所述提取网络和所述重建网络。

12.根据权利要求1所述的系统，其中，所述第二特征图的尺寸小于所述第一特征图的尺寸。

13.根据权利要求1所述的系统，其中，所述重建网络包括非池化操作。

14.一种用于确定二维(2D)图像中的深度信息的方法，包括：

基于所述二维图像从特征提取器接收第一特征图；

由处理器将包括至少一个卷积操作和至少一个池化操作的提取网络应用于所述第一特征图以获得第二特征图；以及

由所述处理器将包括至少一个去卷积操作的重建网络应用于所述第二特征图以获得深度图；

15.根据权利要求14所述的方法，其中：

所述提取网络包括多个层，每一层包括至少一个卷积操作和一个池化操作；

所述重建网络包括多个层，每一层包括至少一个去卷积操作；以及

所述方法进一步包括：

由所述处理器将卷积操作应用于由所述提取网络和所述重建网络获得的对应的中间结果，以获得预处理器；以及

由所述处理器对多个所述预处理器进行串联。

16.根据权利要求15所述的方法，所述方法进一步包括：

由所述处理器基于所述串联的预处理器，对所述二维图像的一个或多个单元中的对象进行分类。

17.根据权利要求15所述的方法，所述方法进一步包括：

由所述处理器基于所述串联的预处理器估计所述二维图像的一个或多个单元中的对象的边界框。

18.根据权利要求15所述的方法，所述方法进一步包括：

由所述处理器将进一步的卷积操作应用于所述预处理器；以及

由所述处理器基于所述进一步卷积的预处理器，估计所述二维图像中对象的三维参数。

19.根据权利要求14所述的方法，所述方法进一步包括：

使用训练数据集训练所述提取网络和所述重建网络。

20.一种其上存储有指令的非暂时性计算机可读介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行用于确定二维(2D)图像中的深度信息的方法，所述方法包括：

基于所述二维图像从特征提取器接收第一特征图；

由所述一个或多个处理器将包括至少一个卷积操作和至少一个池化操作的提取网络应用于所述第一特征图以获得第二特征图；以及

由所述一个或多个处理器将包括至少一个去卷积操作的重建网络应用于所述第二特征图以获得深度图；