CN107798699A

CN107798699A - 用立体图像进行深度图估计

Info

Publication number: CN107798699A
Application number: CN201710776968.7A
Authority: CN
Inventors: 瓦希德·泰穆里; 米歇尔·科登尼尔; 李京敏; 布莱恩·罗杰·古德曼; 吉恩特·普什科留斯
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2016-09-01
Filing date: 2017-09-01
Publication date: 2018-03-13
Anticipated expiration: 2037-09-01
Also published as: GB201713798D0; DE102017120112A1; US10466714B2; US20180059679A1; MX2017011200A; GB2555214A; CN107798699B; RU2017130319A

Abstract

一种车辆可以配置为在自主驾驶和乘员驾驶两种模式下操作。当在任一模式下操作时，可使用包括立体摄像机和3D传感器的传感器阵列来驾驶车辆。立体摄像机和3D传感器也可用于在乘员驾驶车辆时辅助乘员。深度卷积神经网络可以用于在自主和乘员驾驶模式下从车辆实时视景的立体图像确定估计的深度图。

Description

用立体图像进行深度图估计

技术领域

本发明大体上涉及车辆安全驾驶领域，以及更具体地涉及一种用立体图像进行深度图估计的方法和装置。

背景技术

车辆可以配置为在自主驾驶和乘员驾驶两种模式下操作。当在自主模式下操作时，可以使用包括可产生3D距离或深度图的传感器的传感器阵列来驾驶车辆。深度图也可以用于乘员驾驶模式，以协助乘员驾驶车辆。例如，可以通过处理成对的立体图像来获取深度图。

发明内容

根据本发明，提供一种方法，其包含：

用一个或多个深度神经网络最大池化层处理第一和第二立体图像；

用一个或多个深度神经网络上采样层处理立体图像；

确定一个或多个深度图；和

基于一个或多个深度图来驾驶车辆。

根据本发明的一个实施例，该方法中深度神经网络最大池化层是卷积神经网络层。

根据本发明的一个实施例，该方法中深度神经网络上采样层是去卷积神经网络层。

根据本发明的一个实施例，该方法中深度神经网络最大池化层和深度神经网络上采样层是用训练立体图像和相关联的地面实况输出深度图来进行训练。

根据本发明的一个实施例，该方法中训练立体图像是在多个基线距离和立体摄像机调准上获取的。

根据本发明的一个实施例，该方法中深度神经网络最大池化层和深度神经网络上采样层是用LIDAR数据来进行训练。

根据本发明的一个实施例，该方法中深度神经网络最大池化层和深度神经网络上采样层基于互相关。

根据本发明的一个实施例，该方法中一个或多个深度神经网络最大池化层包括至少四个深度神经网络最大池化层。

根据本发明的一个实施例，该方法中一个或多个深度神经网络上采样层包括至少四个深度神经网络上采样层。

根据本发明的一个实施例，该方法还包含：

其中车辆在乘员驾驶模式下操作；和

基于一个或多个深度图驾驶车辆包括用增强现实显示辅助乘员驾驶员。

根据本发明，提供一种装置，其包含：

处理器，和

存储器，存储器包括要由处理器执行的指令，该指令用于：

用一个或多个深度神经网络上采样层处理立体图像；

确定一个或多个深度图；和

基于一个或多个深度图来驾驶车辆。

根据本发明的一个实施例，该装置中深度神经网络最大池化层是卷积神经网络层。

根据本发明的一个实施例，该装置中深度神经网络上采样层是去卷积神经网络层。

根据本发明的一个实施例，该装置中深度神经网络最大池化层和深度神经网络上采样层是用训练立体图像和相关联的地面实况输出深度图来进行训练。

根据本发明的一个实施例，该装置中训练立体图像是在多个基线距离和立体摄像机调准上获取的。

根据本发明的一个实施例，该装置中深度神经网络最大池化层和深度神经网络上采样层是用LIDAR数据来进行训练。

根据本发明的一个实施例，该装置中深度神经网络最大池化层和深度神经网络上采样层基于互相关。

根据本发明的一个实施例，该装置中一个或多个深度神经网络最大池化层包括至少四个深度神经网络最大池化层。

根据本发明的一个实施例，该装置中一个或多个深度神经网络上采样层包括至少四个深度神经网络上采样层。

根据本发明的一个实施例，该装置还包括：

其中车辆在乘员驾驶模式下操作；和

附图说明

图1是根据所公开的实施方式的车辆的示意图；

图2是使用立体匹配的现有技术的深度图估计的示意图；

图3是立体图像中的极线306、308上的立体匹配过程的示意图；

图4是不同窗口大小的传统立体匹配算法的敏感性示意图；

图5是由人脑执行的深度图估计的示意图，示出了用于深度图估计的深度神经网络能力；

图6是根据所公开的实施方式的方面的用于深度图估计的卷积深度神经网络(CDNN)系统的示意图；

图7是根据所公开的实施方式的方面的用于深度图估计的CDNN系统的示意图；

图8是根据所公开的实施方式的方面通过CDNN确定用于驾驶车辆的深度图的过程的流程图；和

图9是根据所公开的实施方式的方面的训练CDNN以确定用于驾驶车辆的深度图的过程的流程图。

具体实施方式

最先进的深度图估计算法，例如，立体匹配，依靠立体图像来计算到视景中周围物体的距离。立体匹配算法提取一对立体图像中的特征，检测该对图像中的相应特征，并且最后通过计算特征的立体视差来估计特征的深度或距离。

图2是使用立体视差200的现有技术深度图估计的示意图。立体视差是诸如点X202的物体在两个立体图像210、212上的投影点214、220之间的水平距离量。图2包括由一对立体摄像机——摄像机1 206和摄像机2 208——所拍摄的视景204中的点X202。点X202被投射在摄像机1 206的成像器(image detector)210上以形成左侧点214和被投射在摄像机2208的成像器212上以形成右侧点220。摄像机1 206还具有距成像器210焦距f处的光学中心C216，而摄像机2 208具有距成像器212焦距f处的光学中心C'222。

光学中心C和C'形成基线B。光学中心C216在成像器210上的投影形成左侧中心点218，并且光学中心C'222在成像器212上的投影形成右侧中心点224。距离u和u'可以根据左侧点214距左侧中心点218的位移和右侧点220距右侧中心点224的位移来确定。立体视差SD，定义为SD＝u-u'，可以通过等式(1)与点X202距光学中心C、C'的距离Z相关：

例如，可以匹配以计算立体视差，并且从而计算距离或深度的特征可以包括立体图像对中的视觉边缘。可以检测多个特征，并且为每个特征对计算立体视差以及进行插值以确定深度。用于从立体图像估计深度的其他技术，例如块匹配算法，包括将每个立体图像对划分成块或窗口对，并且匹配每对窗口以确定立体视差。

图3示出了使用一对立体图像302、304的用于深度图估计300的现有技术。可以在逐像素基础上沿着通过两个立体图像302、304的极线(epipolar line)306、308来计算立体视差。极线306、308是在分别通过光学中心C216、C'222和要估计的点X202之间的线的在每个立体图像302、304上的投影。要估计的每个像素将具有在其他立体图像302、304中的极线306、308。

可以通过比较来自第一立体图像302的每个像素和来自第二立体图像304的极线308上的像素来确定立体视差，以确定匹配，并且反之亦然。确定匹配可以包括最小化像素之间的损失或差异函数。确定立体图像302、304中的沿极线306、308的像素的位移可以确定像素的立体视差。

用于使用一对立体图像302、304的深度图估计300的另一种已知技术使用窗口310、312。可以在立体图像302、304之间匹配相似的窗口310、312，并且匹配的窗口310、312之间的位移用于确定立体视差。例如，匹配窗口可以提供比匹配像素更准确的立体视差测量，这是由于匹配多个像素而不是单个像素改进了统计特性。匹配算法可以使用基于相关性的技术或平方差的和来确定立体视差。

匹配一对立体图像302、304之间的窗口310、312可以包括确定窗口310、312之间的相似性。确定相似性可以包括使用不同的相似性测量值的块匹配，例如，根据方程(2)求平方差的和，

E(x，y；d)＝∑_{(x′，y′)∈N(x，y)}[I_L(x′+d，y′)-I_R(x′，y′)]², (2)

其中相似性测量值E是以点(x，y)为中心的窗口N和两个立体图像302、304中的两个窗口之间的距离d的函数。等式(2)中的相似性测量值是来自左侧立体图像302和右侧立体图像304的两个窗口310、312中的像素的强度值I_L和I_R之间的平方差之和。两个窗口中心具有等于与估计的立体视差成比例的d的量的在这种情况下沿平行于X轴的极线的偏移。

与确定立体视差和由此确定深度相关联的参数是窗口310、312的大小。图4是由等式(2)确定的现有技术深度图402、404的示意图，图4中的深度图402是用3个像素的窗口大小确定的，并且深度图404是用10个像素的窗口大小确定的。使用等式2确定深度图非常取决于窗口大小的选择，并且不能用图1中的计算装置115实时确定。

图1是根据所公开的实施方式的包括可以自主驾驶和乘员驾驶模式操作的车辆110的车辆信息系统100的示意图。车辆110还包括用于在自主操作期间执行计算以驾驶车辆110的一个或多个计算装置115。计算装置115可以从传感器116接收关于车辆运行的信息。增强现实显示在车辆117上。

计算装置115包括诸如已知的处理器和存储器。另外，存储器包括一种或多种形式的计算机可读介质，并且储存可由用于执行包括如本发明所公开的各种操作的处理器执行的指令。例如，计算装置115可以包括编制程序以操作车辆的制动、推进(例如，通过控制内燃机、电动机、混合发动机等中的一个或多个进行车辆110中的加速控制)、转向、气候控制、室内和/或室外灯等中的一个或多个，以及以确定是否和何时是由计算装置115而不是人类操作者来控制这些操作。

计算装置115可以包括多于一个的计算装置或例如通过下面进一步描述的车辆通信总线通信地耦合多于一个的计算装置，例如包括在车辆110中用于监视和/或控制各种车辆部件的控制器等，例如动力传动系统控制器112、制动器控制器113、转向器控制器114等。计算装置115大体上被设置用于在车辆通信网络上通信，诸如车辆110中的总线，例如控制器区域网络(CAN)等；车辆110网络可以包括诸如已知的有线或无线通信机制，例如以太网或其他通信协议。

通过车辆网络，计算装置115可以向车辆中的包括传感器116的各种设备传输消息和/或从包括传感器116的各种设备(例如，控制器、致动器、传感器等)接收消息。可选地，或另外地，在计算装置115实际上包含多个装置的情况下，车辆通信网络可以用于在本公开中表示为计算装置115的装置之间的通信。另外，如下所述，各种控制器或感测元件可以通过车辆通信网络向计算装置115提供数据。

此外，计算装置115可以被配置用于通过网络130与远程服务器计算机120(例如，云服务器)通过车辆与基础设施(V-I)接口111进行通信，如下所述，网络130可以使用各种有线和/或无线联网技术，例如蜂窝、(蓝牙)和有线和/或无线分组网络。计算装置115还包括诸如已知的非易失性存储器。计算装置可以通过将信息存储在非易失性存储器中来记录信息，用于随后检索，并且用于通过车辆通信网络和V-I接口111传输至服务器计算机120或用户移动设备160。

如已经提到的，大体上包括在储存在存储器中并且由计算装置115的处理器执行的指令中的是用于在没有人类操作者的干预下操作一个或多个车辆110部件(例如，制动器、转向器、推进器等)的编制程序。使用在计算装置115中接收的数据，例如来自传感器116、服务器计算机120等的传感器数据，计算装置115可以在无驾驶员操作车辆110的情况下进行各种确定和/或控制各种车辆110部件和/或操作。例如，计算装置115可以包括用于调节车辆110的操作行为(例如速度、加速度、减速度、转向等)，以及诸如车辆之间的距离和/或车辆之间的时间量、车辆之间车道变换的最小间隙、最小的车道左转路径、到达特定位置的时间和到达以穿过十字路口(无信号)的最短时间的战术行为的编制程序。

如本发明使用的术语，控制器包括通常被编程用于控制特定车辆子系统的计算装置。示例包括动力传动系统控制器112、制动器控制器113和转向器控制器114。控制器可以是诸如已知的电子控制单元(ECU)，可能包括如本发明所述的附加的编制程序。控制器可以通信地连接至计算装置115并且从计算装置115接收指令，以根据该指令驱动子系统。例如，制动器控制器113可以接收来自计算装置115的指令以操作车辆110的制动器。

用于车辆110的一个或多个控制器112、113、114可以包括已知的电子控制单元(ECU)等，其包括作为非限制性示例的一个或多个动力传动系统控制器112、一个或多个制动器控制器113和一个或多个转向器控制器114。控制器112、113、114中的每个可以包括相应的处理器和存储器以及一个或多个致动器。控制器112、113、114可以被编程并且连接至诸如控制器局域网(CAN)总线或本地互连网络(LIN)总线的车辆110通信总线，以从计算机115接收指令，并基于该指令控制致动器。

传感器116可以包括通过车辆通信总线提供数据的已知的各种装置。例如，固定到车辆110的前保险杠(未示出)的雷达可以提供从车辆110到车辆110前方的下一车辆的距离，或者设置在车辆110中的全球定位系统(GPS)传感器110可以提供车辆110的地理坐标。由雷达提供的距离或由GPS传感器提供的地理坐标可以由计算装置115使用以自主地或半自主地操作车辆110。

车辆110通常是具有三个或更多个车轮的陆用自主车辆110，例如客车、轻型卡车等。车辆110包括一个或多个传感器116、V-I接口111、计算装置115和一个或多个控制器112、113、114。

传感器116可以被编程用于收集与车辆110和车辆110正在运行的环境相关的数据。作为示例而非限制，传感器116可以包括例如高度计、摄像机、LiDAR(激光雷达)、雷达、超声波传感器、红外传感器、压力传感器、加速度计、陀螺仪、温度传感器、霍尔传感器、光学传感器、电压传感器、电流传感器、诸如开关等的机械传感器。传感器116可用于感测车辆110正在运行的环境，例如天气条件、道路等级、道路位置或相邻车辆110。

传感器116还可以用于收集与车辆110的运行相关的动态车辆110数据，例如速度、偏航率、转向角、发动机转速、制动压力、油压、应用到车辆110中的控制器112、113、114的功率级、部件之间连通性以及车辆110的电气和逻辑运行状况。来自传感器116的信息可被输入至计算装置115以检测和分类诸如行人、车辆、骑自行车者、动物、交通标志和交通信号灯、施工标志和车道标识。车辆110还可以包括可操作地连接至计算装置115的用于显示深度图和其他信息的显示器117，以协助乘员在乘员驾驶模式下驾驶车辆110。

可以参考图5描述的所公开的实施方式的方面。图5是人眼506、508观看一对立体图像502、504并且分程传递512、524观看到的信息至大脑510，大脑510从立体图像502、504合成内部深度图516的示意图。人类大脑连续地执行这种活动而没有深思熟虑。如本发明所公开的，一类可以执行简单视觉任务的卷积深度神经网络(CDNN)可以被编程用于学习如何从立体图像502、504确定深度图。

图6是用于使用包括左侧立体摄像机602和右侧立体摄像机604的立体图像来确定深度图的系统600。左侧和右侧立体摄像机602、604发送左侧和右侧立体图像至CDNN606，CDNN606处理左侧和右侧立体图像以估计深度图。然后，在步骤608处将估计的深度图输出至计算装置115以驾驶车辆110。系统600可以用任何深度学习框架来实施，例如，Caffe(Convolutional Architecture for Fast Feature Embedding，卷积神经网络框架)、Tensorflow(谷歌张量流图)或CNTK(Computational Network Toolkit，微软认知工具包)。系统600在本申请中由Caffe来实施，在http://caffe.berkeleyvision.org/处所述的Caffe是由柏克利视觉和学习中心(Berkeley Vision and Learning Center)以及由社区贡献者创建的已知神经网络框架。

使用Caffe框架来实施系统600可以产生图7的深度卷积神经网络700，该深度卷积神经网络700包括多个层706、708、710、712、714、718、722，其中多个层中的一个或多个可以使用诸如互相关的各种相似性测量从输入数据中确定立体视差，并且从而确定深度图。深度卷积神经网络700可以通过比较深度图与地面实况来被训练以确定立体视差，并且从而确定深度图。例如，训练可以包括基于将深度图与地面实况进行比较来选择包括互相关内核(kernel)的参数，并且将结果反向传播以选择使错误最小化的参数。

例如，使用互相关进行立体视差确定可以包括使用来自预定大小并且位于立体图像702、704中的一个内的窗口的像素来形成互相关内核，并且将如此形成的内核与立体图像702、704中的另一个互相关。例如，沿着极线的相关系数的最大值点的位置可以形成立体视差的基础。

训练可以包括选择诸如窗口大小和窗口位置参数，以及关于互相关其和最大值位置的参数。立体视差确定的结果可以解释为深度图，并以适当的分辨率与地面实况进行比较。可以基于与地面实况的比较产生的错误对参数组进行排名。可以基于排名保留或丢弃参数。

图7是更加详细的卷积深度神经网络(CDNN)606的示意图。CDNN 700包括将一对立体图像702、704输入至第一CDNN层C1 706。第一CDNN层C1 706可以由图9的过程900进行训练，以确定来自与立体图像702、704表示的视景相似的视景的立体训练图像的立体视差。例如，第一CDNN层C1 706可以包括通过用最大值表示窗口来池化整个窗口的值的最大池化CDNN层。

最大池化可以降低立体图像702、704的分辨率，从而根据分辨率的降低量来有效地增加窗口大小。例如，最大池化是一种用于降低分辨率的技术，该技术可以选择窗口大小，并且将窗口内所有像素的值设置为窗口最大像素值的值。以这种方式，立体图像702、704可以以较低的分辨率重新采样，同时仍然保留最大值信息。

例如，第一CDNN层C1 706可以通过最大池化来降低立体图像702、704的分辨率，并且通过从立体图像702、704中的一个形成内核并将其与立体图像702、704中的另一个互相关来确定立体视差结果。互相关可以确定立体视差以正向传播到第二CDNN层C2 708上。

以与第一CDNN层C1 706类似的方式，可以通过图9的过程900对第二CDNN层C2 708进行训练，以从与使用最大池化降低分辨率的立体图像702、704表示的视景相似的视景确定立体训练图像的立体视差。第二CDNN层C2 708可以通过最大池化来降低立体图像702、704的分辨率和从CDNN层C1 706输入的立体视差，例如使用互相关来确定立体图像702、704的立体视差，并且将确定的立体视差与输入的立体视差相结合，以正向传播到第三CDNN层C3 710上。

以与第一和第二CDNN层C1 706、C2 708类似的方式，可以训练第三CDNN层C3 710，以确定来自与使用最大池化适当地降低分辨率的立体图像训练图像相似的视景的立体图像702、704的立体视差。第三CDNN层710确定降低分辨率的立体视差，并且将结合有输入立体视差的立体视差结果传递至第四CDNN层C4 712。第四CDNN层C4 712被类似地训练以确定来自与使用最大池化适当地降低分辨率的立体图像训练图像相似的视景的立体图像702、704的立体视差。

第四CDNN层C4 712将立体视差结果正向传播至第一去卷积深度神经网络(DDNN)层D1 714。第一DDNN层D1是由过程900训练的深度神经网络层，以通过插值上采样例如立体视差结果，并且基于至少部分地反相由CDNN层706、708、710、712引入到立体视差结果中的卷积函数来对具有卷积核的立体视差结果去卷积。

从第四CDNN层C4 712正向传播的立体视差结果可以被上采样，与来自CDNN层C3710的立体视差结果716组合，并且例如去卷积，以在正向传播立体视差结果至第二DDNN层D2 718之前增加立体视差结果的分辨率。例如，上采样可以通过复制像素或插值来提高分辨率。例如，插值可以是线性或多项式，或一维或二维。去卷积可以移除由CDNN层706、708、710、712引入到立体视差结果中的至少一些结构。

以与第一DDNN层D1 714类似的方式，训练第二DDNN层D2 718以对立体输入视差结果进行上采样，并且基于至少部分地反相由CDNN层706、708、710、712引入到立体视差结果中的卷积函数来对卷积函数去卷积。第二DDNN层D2 718上采样，并且将该立体视差结果与从第二CDNN层C2 708以适当分辨率正向传播的立体视差结果组合，并且使立体视差结果去卷积以增加输出至第三DDNN层D3 722的分辨率。

以与第一和第二DDNN层D1和D2类似的方式，第三DDNN层D3 722由过程900训练，以通过以适当的分辨率从第一CDNN层C1接收正向传播的立体视差结果，以与从第二DDNN层D2正向传播的上采样的立体视差结果相结合，然后进行去卷积以产生上采样和去卷积的立体视差结果，从而增加立体视差结果的分辨率。可以通过简单的几何转换将立体视差结果转换为估计的深度图726。估计的深度图726可以被上采样以匹配输入立体图像702、704的分辨率并且输出至计算装置115。

在自主驾驶模式中，例如，计算装置115可以通过使用众所周知的机器视觉技术以识别估计的深度图726中诸如道路和诸如车辆的物体的区域，来使用估计的深度图来驾驶车辆。在乘客驾驶模式中，计算装置115可以使用估计的深度图726来进行自动碰撞规避和停车，例如通过识别估计的深度图726中的区域和对象。

图8是用于用于通过关于图7所述的CDNN700确定驾驶车辆110的深度图726的过程800的流程图。过程800可以在车辆信息系统100上实施，输入信息包括来自传感器116的立体图像702、704，例如通过控制器112、113、114执行指令和发送控制信号。过程800包括以所公开的顺序采取的多个步骤。过程800还包括更少步骤或者可以包括以不同顺序采取步骤的实施方式。

过程800在步骤802处开始，在步骤802处，例如，CDNN700接收左侧和右侧立体图像702、704。左侧和右侧立体图像702、704可以由左侧立体摄像机602和右侧立体摄像机604输入。在步骤804处，可以由第一、第二、第三和第四CDNN层706、708、710、712如上文关于图7所述处理左侧和右侧立体图像702、704，以产生降低分辨率的立体视差结果。然后，在步骤806处，可以由第一、第二和第三DDNN层714、718、722如上文关于图7所述处理左侧和右侧立体图像702、704，以基于由CDNN层706、708、710、712引入的卷积函数通过对卷积函数去卷积来进行上采样。

在步骤808处，CDNN700可以基于左侧和右侧立体图像702、704向计算装置115输出估计的深度图726。如上文关于图7所述，估计的深度图726可以被上采样以匹配输入的立体图像702、704的分辨率。

在步骤810处，当车辆110以自主驾驶模式操作时，计算装置115可以基于由过程800输出的估计的深度图726来驾驶车辆110。车辆110可以使用众所周知的机器视觉技术来识别对应于道路、车辆、建筑物或植物的估计的深度图726中的区域和物体，并且使用控制器112、113、114操纵车辆110以操纵车辆110适当地行进，从而基于估计的深度图726来进行驾驶。

在步骤810处，车辆110在乘客驾驶模式下操作时，计算装置115可以通过执行诸如碰撞规避或停车之类的驾驶辅助操作，基于估计的深度图726驾驶车辆110。例如，计算装置115可以使用如上所述的众所周知的机器视觉技术来识别对应于道路、车辆，建筑物或植物的估计的深度图726中的区域。在乘员以基于估计的深度图726能够预测碰撞这样的方式驾驶车辆的情况下，例如，计算装置115可以禁用成员对车辆115的控制，并且用控制器112、113、114控制车辆110以安全地规避碰撞。

基于估计的深度图726驾驶车辆110的另一示例可以是当在乘客驾驶模式下时停车。计算装置115可以使用众所周知的机器视觉技术来识别在估计的深度图726中的停车位和与停车位相邻的车辆和物体，并且在没有乘员干预的情况下使用控制器112、113、114将车辆安全地驾驶至停车位。

在步骤812处，计算装置115可以在显示器117上显示估计的深度图726。例如，显示器117可以是抬头显示器，其中如下关于图9所述，到在视景中的位置的距离可以在深度图726上显示。

总而言之，图8示出了用于基于一个或多个估计的深度图726驾驶车辆的过程800。创建估计的深度图726是通过：接收左侧和右侧立体图像702、704到过程800(802)，其中，用一个或多个具有最大池化的经训练的卷积深度神经网络层处理立体图像702、704以降低分辨率(804)，然后用具有上采样的经训练的去卷积深度神经网络层处理左侧和右侧立体图像702、704以恢复分辨率(806)。过程800然后将一个或多个估计的深度图726输出到计算装置115(808)。计算装置115可以基于一个或多个估计的深度图726来驾驶车辆110(810)，并且在可以是抬头显示器的显示器117上显示估计的深度图726。

图9是用于训练CDNN700的过程900的流程图。为了处理左侧和右侧立体图像702、704以产生估计的深度图726(800)，CDNN700可以由过程900训练。训练是由CDNN700首先在步骤902处接收左侧和右侧立体训练图像来完成。左侧和右侧立体训练图像可以基于地面实况的可用性来选择。地面实况可以包括指示由立体训练图像成像的视景中的点的实际距离或深度的数据。

在步骤904处，CDNN700可以接收与左侧和右侧立体训练图像相关联的地面实况数据。地面实况数据可以由使用光脉冲来确定视景中点的距离或深度的LIDAR或光雷达提供。例如，其它技术可以依靠通过V-I接口111从网络接收地面实况数据。例如，该地面实况信息可以由服务器计算机120以地图或LIDAR数据库的形式提供，或者由附近的联网车辆和联网交通对象提供的自组织网络提供。

如上文关于图7所述，地面实况可以通过在CDNN700中实施反向传播来用于训练CDNN700。反向传播可以允许CDNN700测试立体视差，从而测试与用于每个最大池化CDNN层706、708、710、712和每个上采样DDNN层714、718、722的地面实况相对的深度图结果。以这种方式，可以训练CDNN700以确定与最小化估计的深度图726和地面实况之间的误差的立体训练图像类似的立体图像702、704对的一个或多个估计的深度图726。

立体图像702、704不必与用于确定估计的深度图726的经训练的CDNN700的立体训练图像相同，但是立体图像702、704越不同，估计的深度图726可能变得越不准确性。为了在车辆110行进时保持估计的深度图726的准确性，使用新的立体训练图像和新的地面实况重新训练CDNN700。

在步骤906处，例如，过程900通过处理左侧和右侧立体训练图像来训练CDNN层706、708、710、712，并将得到的深度图与地面实况进行比较。过程900可以使用各种可用参数值来编程每个层706、708、710、712，以使用最大池化和卷积处理来确定深度图，并且测试每个层706、708、710、712的相对于地面实况的得到的深度图。产生最佳结果的参数，例如确定与地面实况最佳匹配的深度图的参数被保留，并且丢弃其他参数。

由于立体摄像机手动地安装在车辆上，它们的相对位置和调准可以在不同的车辆中变化，包括光轴的旋转和平移混合调准。在深度神经网络训练中应考虑到这种变化；否则，神经网络可能在所有车辆上表现不佳，或者其性能可能因立体摄像机位置和调准的变化而改变。训练数据集中的一些参数，例如基线距离，立体摄像机的相对调准可以做出改变。这些变化可以帮助深度神经网络在训练过程中避免局部最小值，这可以增加深度神经网络相对摄像机安装期间引入的立体摄像机位置和调准中的变化的鲁棒性。

深度图估计可以容易地与其他深度神经网络一起用于加速和性能改进的目的。例如，深度神经网络已被用于检测和分类视景中的物体；然而，根据图像尺寸、内容和质量，检测和分类过程可能会变得不准确、不稳定和缓慢。为了解决这个差距，深度图可以是关于到视景中的周围物体的距离的现有知识。以这种方式，检测和分类过程可以仅限于包含较近物体的区域，例如具有较高强度的区域。该策略通过限制搜索区域而不是搜索整个图像来加速检测和分类过程。

在步骤908处，DDNN层714、718、722可以通过处理左侧和右侧训练图像并且例如将得到的深度图与地面实况进行比较，从而进行训练。如上问关于图7所述，每个层714、718、722可以拥有各种用于使用上采样和去卷积处理确定深度的参数值，并且在每个层714、718、722处测试适当分辨率的所得到的深度图。产生最佳结果的参数，例如确定与地面实况最佳匹配的深度图的参数被保留，并且丢弃其他参数。

根据过程900的计算装置115可以用多于一组立体训练图像和相关联的地面实况深度图来训练CDNN700。CDNN可以用多组立体训练图像和相关联的地面实况深度图进行训练。可以通过在预定范围上改变基线B(图2)以及采样立体训练图像和相关联的地面实况，并且在预定的范围上改变摄像机1 206和摄像机2 208的调准以及采样立体声训练图像和相关的地面实况，从而确定立体训练图像和相关联的地面实况深度图的集合。

在步骤910处，CDNN700将经训练的深度神经网络层输出至计算装置115。例如，CDNN700可以通过输出为提供用于基于地面实况来确定估计的深度图的最佳结果至计算装置115的每个层706、708、710、712、714、718、722保留的参数来输出经训练的深度神经网络层。计算装置115可以将所接收到的参数储存在非易失性存储器中并且调用它们来训练CDNN700以确定估计的深度图726。然后，如此训练的CDNN700将能够处理与左侧和右侧立体训练图像相似但不同的左侧和右侧立体图像702、704，以确定一个或多个估计的深度图726。

一旦被训练，CDNN700可以实时确定用于立体图像702、704的估计的深度图726，例如，及时为计算装置输出估计的深度图726(808)以基于估计的深度图726驾驶车辆110(810)。估计的深度图726可以由计算装置115用于自主驾驶车辆，或者在乘客驾驶模式期间提供驾驶辅助，例如在显示器117上显示增强现实信息，显示器117可以是抬头显示器(HUD)，其中立体深度图提供到物体(例如车辆、行人、交通信号灯)的估计的距离。估计的距离似乎可以投影到视景中的物体上。

输出估计的深度图726取决于与立体训练图像类似的立体图像702、704。当车辆在视景中驾驶时，视景可以改变，并且立体图像702、704将不再是十分类似于要由CDNN700处理的立体训练图像。因此，CDNN可以要求新的训练参数来从立体图像702、704确定估计的深度图726。作为后台任务，第二CDNN700可以使用的新的立体声练图像和新的地面实况确定新的训练参数，而第一CDNN700使用当前的训练参数来确定估计的深度图。当接收到新的立体声图像702、704时(802)，第一CDNN700当确定下一个估计的深度图726时，可以使用由第二CDNN700在后台确定的新的训练参数。作为后台任务，计算新的训练参数可以在车辆110驾驶通过变化视景时允许过程800在连续和持续的基础上使用立体图像702、704准确地确定估计的深度图。

总之，图9是用于训练CDNN700以基于立体训练图像和地面实况来确定估计的深度图726的过程900。通过在每个层706、708、710、712、714、718、722处改变参数和测试结果，用于确定估计的深度图的最佳参数可以被计算装置115保留和存储。可以用由计算装置115通过保留的参数来训练CDNN700，并且从而确定与立体训练图像相似的立体图像702、704的估计的深度图726。通过作为后台任务确定新参数来连续地再训练用于确定估计的深度图726的CDNN 700，可以允许计算装置115在自主驾驶模式和乘客驾驶模式二者中经过改变的视景来驾驶车辆110。

诸如本发明所述的那些的计算装置大体上各自包括可由一个或多个计算装置(诸如上述那些)执行以及用于执行上述过程的框或步骤的指令。例如，上面所述的处理框可以被体现为计算机可执行指令。

可以从使用各种编程语言和/或技术创建的计算机程序来编译或解释计算机可执行指令，编程语言和/或技术包括但不限于单独或组合的Java^TM、C、C++、VisualBasic、JavaScript、Perl、HTML等。大体上，处理器(例如，微处理器)从存储器、计算机可读介质等接收指令，并且执行这些指令，从而执行一个或多个过程，包括本发明所述的过程中的一个或多个。这样的指令和其他数据可以储存在文件中，并且使用各种计算机可读介质传输。计算装置中的文件大体上是储存在诸如存储介质、随机存取存储器等的计算机可读介质上的数据的集合。

计算机可读介质包括参与提供可由计算机读取的数据(例如，指令)的任何介质。这样的介质可以采取许多形式，包括但不限于非易失性介质、易失性介质等。非易失性介质包括例如光盘或磁盘以及其它持久存储器。易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。计算机可读介质的常见形式包括例如软盘、柔盘、硬盘、磁带、任何其他磁介质、CD-ROM(只读光盘驱动器)、DVD(数字化视频光盘)、任何其他光学介质、打孔卡、纸带、任何其它物理具有孔图案的介质、RAM(随机存取存储器)、PROM(可编程序只读存储器)、EPROM(可擦可编程只读存储器)，FLASH-EEPROM(闪存-可檫可编程只读存储器)、任何其他存储器芯片或盒，或计算机可从其读取的任何其他介质。

权利要求书中使用的所有术语旨在被给予其如由本领域技术人员所理解的简单和普通的含义，除非在本发明中做出相反的明确指示。特别是，除非权利要求陈述明确相反的限制，否则诸如“一”、“该”、“所述”等单数冠词的使用应该理解为陈述一个或多个所指出的元件。

使用的术语“示例性”在本发明中的意义代表示例，例如，提到“示例性小部件”应该理解为简单地参考小部件的示例。

副词“近似”修饰值或结果意味着形状、结构、尺寸、值、测定、计算等可以偏离准确描述的几何、距离、尺寸、值、测定、计算等，这是因为材料、加工、制造、传感器测量、计算、处理时间、通信时间等方面的缺陷。

在附图中，相同的附图标记表示相同的元件。另外，这些元件中的一些或全部可以被改变。关于本发明所述的介质、过程、系统、方法等，应当理解，尽管已经将这些过程的步骤描述为根据某个有序序列发生，但是这些过程可以用所描述的步骤以不同于本发明描述的顺序执行。还应当理解，可以同时执行某些步骤，可以添加其他步骤，或者可以省略在此描述的某些步骤。换句话说，为了说明某些实施例的目的，提供本发明中的过程的说明，并且不应被解释为限制本发明的权利要求。

Claims

1.一种方法，包含：

用一个或多个深度神经网络上采样层处理所述立体图像；

确定一个或多个深度图；和

基于所述一个或多个深度图来驾驶车辆。

2.根据权利要求1所述的方法，其中所述深度神经网络最大池化层是卷积神经网络层。

3.根据权利要求1所述的方法，其中所述深度神经网络上采样层是去卷积神经网络层。

4.根据权利要求1所述的方法，其中所述深度神经网络最大池化层和所述深度神经网络上采样层是用训练立体图像和相关联的地面实况输出深度图来进行训练。

5.根据权利要求4所述的方法，其中所述训练立体图像是在多个基线距离和立体摄像机调准上获取的。

6.根据权利要求4所述的方法，其中所述深度神经网络最大池化层和所述深度神经网络上采样层是用LIDAR数据来进行训练。

7.根据权利要求1所述的方法，其中所述深度神经网络最大池化层和所述深度神经网络上采样层基于互相关。

8.根据权利要求1所述的方法，其中所述一个或多个深度神经网络最大池化层包括至少四个深度神经网络最大池化层。

9.根据权利要求1所述的方法，其中所述一个或多个深度神经网络上采样层包括至少四个深度神经网络上采样层。

10.根据权利要求1所述的方法，还包含：

其中所述车辆在乘员驾驶模式下操作；和

基于所述一个或多个深度图驾驶车辆包括用增强现实显示来辅助乘员驾驶员。

11.一种装置，包含：

处理器，和

存储器，所述存储器包括要由所述处理器执行的指令，所述指令用于：

用一个或多个深度神经网络上采样层处理所述立体图像；

确定一个或多个深度图；和

基于所述一个或多个深度图来驾驶车辆。

12.根据权利要求11所述的装置，其中所述深度神经网络最大池化层是卷积神经网络层。

13.根据权利要求11所述的装置，其中所述深度神经网络上采样层是去卷积神经网络层。

14.根据权利要求11所述的装置，其中所述深度神经网络最大池化层和所述深度神经网络上采样层是用训练立体图像和相关联的地面实况输出深度图来进行训练。

15.根据权利要求14所述的装置，其中所述训练立体图像是在多个基线距离和立体摄像机调准上获取的。

16.根据权利要求14所述的装置，其中所述深度神经网络最大池化层和所述深度神经网络上采样层是用LIDAR数据来进行训练。

17.根据权利要求11所述的装置，其中所述深度神经网络最大池化层和所述深度神经网络上采样层基于互相关。

18.根据权利要求11所述的装置，其中所述一个或多个深度神经网络最大池化层包括至少四个深度神经网络最大池化层。

19.根据权利要求11所述的装置，其中所述一个或多个深度神经网络上采样层包括至少四个深度神经网络上采样层。

20.根据权利要求11所述的装置，还包括：

其中所述车辆在乘员驾驶模式下操作；和