CN112633465A

CN112633465A - 车辆神经网络训练

Info

Publication number: CN112633465A
Application number: CN202011072624.6A
Authority: CN
Inventors: 普纳杰·查克拉瓦蒂; 普拉韦恩·纳拉亚南; 尼基塔·斋普里亚; 高拉夫·潘迪
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2019-10-08
Filing date: 2020-10-09
Publication date: 2021-04-09
Also published as: US20210103745A1; DE102020126155A1; US11138452B2

Abstract

本公开提供了“车辆神经网络训练”。一种计算机，其包括处理器和存储器，所述存储器包括指令，所述指令由所述处理器执行以：生成两个或更多个立体对的合成图像，并且使用生成式对抗网络(GAN)基于所述两个或更多个立体对的合成图像生成两个或更多个立体对的真实图像，其中使用基于所述两对或更多对真实图像确定的六轴自由度(DoF)姿态来训练所述GAN。所述指令还可以包括以下指令：基于真实图像序列训练深度神经网络并且使用所述深度神经网络操作车辆以处理由车辆传感器获取的视频图像序列。

Description

车辆神经网络训练

技术领域

本公开总体上涉及车辆通信网络。

背景技术

车辆可配备有计算装置、网络、传感器和控制器以获取关于车辆的环境的数据并且基于所述数据来操作车辆。车辆传感器可提供有关在车辆的环境中要行进的路线和要避开的对象的数据。车辆的操作可依赖于在车辆正在道路上进行操作时获取关于车辆的环境中的对象的准确且及时的数据。

发明内容

车辆可以被配备为以自主模式和乘员驾驶模式两者操作。半自主或完全自主模式意指其中车辆可由作为具有传感器和控制器的系统的一部分的计算装置部分地或完全地驾驶的操作模式。车辆可被占用或未被占用，但是在任何一种情况下，都可在没有乘员辅助的情况下部分地或完全地驾驶车辆。出于本公开的目的，自主模式被限定为其中车辆推进(例如，经由包括内燃发动机和/或电动马达的动力传动系统)、制动和转向中的每一者由一个或多个车辆计算机控制的模式；在半自主模式中，一个或多个车辆计算机控制车辆推进、制动和转向中的一者或两者。在非自主车辆中，这些都不由计算机控制。

车辆中的计算装置可被编程为获取关于车辆外部环境的数据并使用所述数据来确定车辆路径，在所述车辆路径上以自主或半自主模式操作车辆。通过确定命令来引导车辆的动力传动系统、制动和转向部件以操作车辆沿着路径行驶，车辆可以基于车辆路径在道路上操作。关于外部环境的数据可以包括车辆周围的环境中的一个或多个移动对象(诸如，车辆和行人等)的位置，并且可以由车辆中的计算装置用来操作车辆。

通过使用包括车辆在道路上操作时可能遇到的交通场景的大量(>1000)样本视频图像训练深度神经网络(DNN)，可以训练DNN来操作车辆。样本视频图像与在道路上操作时车辆传感器所获取的真实视频图像之间的相似性越多，DNN就越可能向车辆提供有用的数据。为了提供对应于道路上车辆可能遇到的各种照明和天气状况的大量样本视频图像，可由合成图像渲染软件生成合成图像，并且使用生成式对抗网络进行处理，以将合成图像修改为看起来是逼真的图像。逼真的图像被限定为在人类观察者看起来好像其是已经由观看真实世界场景的真实世界视频或图像相机获取的图像。合成图像渲染软件的示例为虚幻引擎，由北卡罗莱纳州凯瑞市的Epic Games公司(邮编27581)制作。

本文公开了一种方法，其包括：生成两个或更多个立体对的合成图像；以及使用生成式对抗网络(GAN)基于所述两个或更多个立体对的合成图像生成两个或更多个立体对的真实图像，其中使用基于所述两对或更多对真实图像确定的六轴自由度(DoF)姿态来训练GAN。可以基于真实图像序列来训练深度神经网络，并且可以使用深度神经网络操作车辆以处理由车辆传感器获取的视频图像序列。GAN可以被初始训练以基于不成对的真实图像和模拟图像来生成立体对的真实图像。可以通过将场景描述输入到合成图像渲染引擎中来生成两对或更多对合成图像。可以通过立体视觉测程法生成两个或更多个立体对的合成图像和两对或更多对真实图像的六轴DoF姿态。可以通过确定两个或更多个立体对的合成图像和两对或更多对真实图像的六轴DoF姿态的变化来产生姿态损失。可以基于使两对或更多对合成图像和两对或更多对真实图像中的每对的x、y和z平移以及侧倾、俯仰和横摆旋转最小化来确定六轴DoF姿态。

可以通过比较两对或更多对合成图像的六轴DoF和两个或更多个真实图像的六轴DoF来确定姿态损失。可以基于损失函数来训练GAN，所述损失函数基于为两对或更多对合成立体图像确定的三维姿态损失来输入地面实况，其中通过比较所述两对或更多对合成立体图像的立体重建来确定三维姿态损失。可以基于在真实图像中提供时间一致性的损失函数训练GAN。可以训练深度神经网络以识别并定位包括车辆、行人和道路中的一者或多者的视频图像序列中的对象。可以基于由输入到合成渲染引擎的场景描述确定的地面实况来训练深度神经网络。可以使用深度神经网络处理由视频传感器获取的视频图像序列以识别并定位车辆、行人和道路中的一者或多者。可以通过确定车辆路径以相对于道路定位车辆并且避开车辆和行人中的一者或多者来操作车辆。可以通过控制车辆动力传动系统、车辆转向和车辆制动中的一者或多者来操作车辆。

还公开了一种计算机可读介质，所述计算机可读介质存储用于执行上述方法步骤中的一些或全部的程序指令。还公开了一种计算机，所述计算机被编程用于执行上述方法步骤中的一些或全部，所述计算机包括计算机设备，所述计算机设备被编程为：生成两个或更多个立体对的合成图像，并且使用生成式对抗网络(GAN)基于所述两个或更多个立体对的合成图像生成两个或更多个立体对的真实图像，其中使用基于所述两对或更多对真实图像确定的六轴自由度(DoF)姿态来训练所述GAN。可以基于真实图像序列来训练深度神经网络，并且可以使用深度神经网络操作车辆以处理由车辆传感器获取的视频图像序列。GAN可以被初始训练以基于不成对的真实图像和模拟图像来生成立体对的真实图像。可以通过将场景描述输入到合成图像渲染引擎中来生成两对或更多对合成图像。可以通过立体视觉测程法生成两个或更多个立体对的合成图像和两对或更多对真实图像的六轴DoF姿态。可以通过确定两个或更多个立体对的合成图像和两对或更多对真实图像的六轴DoF姿态的变化来产生姿态损失。可以基于使两对或更多对合成图像和两对或更多对真实图像中的每对的x、y和z平移以及侧倾、俯仰和横摆旋转最小化来确定六轴DoF姿态。

计算机还可以被编程为通过比较两对或更多对合成图像的六轴DoF和两个或更多个真实图像的六轴DoF来确定姿态损失。可以基于损失函数来训练GAN，所述损失函数基于为两对或更多对合成立体图像确定的三维姿态损失来输入地面实况，其中通过比较所述两对或更多对合成立体图像的立体重建来确定三维姿态损失。可以基于在真实图像中提供时间一致性的损失函数训练GAN。可以训练深度神经网络以识别并定位包括车辆、行人和道路中的一者或多者的视频图像序列中的对象。可以基于由输入到合成渲染引擎的场景描述确定的地面实况来训练深度神经网络。可以使用深度神经网络处理由视频传感器获取的视频图像序列以识别并定位车辆、行人和道路中的一者或多者。可以通过确定车辆路径以相对于道路定位车辆并且避开车辆和行人中的一者或多者来操作车辆。可以通过控制车辆动力传动系统、车辆转向和车辆制动中的一者或多者来操作车辆。

附图说明

图1是示例性交通基础设施系统的图示。

图2是示例性生成式对抗网络的图示。

图3是示例性合成视频图像的图示。

图4是示例性立体重建的图示。

图5是示例性深度神经网络的图示。

图6是使用深度神经网络操作车辆的示例性过程的流程图。

具体实施方式

图1是交通基础设施系统100的图示，所述交通基础设施系统100包括可以自主(“自主”本身在本公开中意味着“完全自主”)、半自主和乘员驾驶(也称为非自主)模式操作的车辆110。一个或多个车辆110计算装置115可以从传感器116接收关于车辆110的操作的数据。计算装置115可以自主模式、半自主模式或非自主模式操作车辆110。

计算装置115包括诸如已知的处理器和存储器。此外，存储器包括一种或多种形式的计算机可读介质，并且存储可由处理器执行的用于进行包括如本文所公开的各种操作的指令。例如，计算装置115可以包括编程以操作车辆制动、推进(例如，通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆110的加速度)、转向、气候控制、内部和/或外部灯等中的一项或多项，以及确定计算装置115(而不是操作人员)是否以及何时控制此类操作。

计算装置115可包括多于一个计算装置(例如，包括在车辆110中以用于监测和/或控制各种车辆部件的控制器等(例如，动力传动系统控制器112、制动控制器113、转向控制器114等))，或例如经由如下面进一步描述的车辆通信总线通信地耦接到所述多于一个计算装置。计算装置115通常被布置用于通过车辆通信网络(例如，包括车辆110中的总线，诸如控制器局域网络(CAN)等)通信；另外或替代地，车辆110网络可包括诸如已知的有线或无线通信机制，例如以太网或其他通信协议。

计算装置115可以经由车辆网络向车辆中的各种装置(例如，控制器、致动器、传感器(包括传感器116)等)传输消息和/或从所述各种装置接收消息。替代地或另外地，在计算装置115实际上包括多个装置的情况下，车辆通信网络可以用于在本公开中表示为计算装置115的装置之间的通信。此外，如下文所提及，各种控制器或感测元件(诸如传感器116)可经由车辆通信网络向计算装置115提供数据。

另外，计算装置115可以被配置为通过车辆对基础设施(V对I)接口111经由网络130与远程服务器计算机120(诸如云服务器)通信，如下所描述的，所述计算装置115包括硬件、固件和软件，所述硬件、固件和软件准许计算装置115经由诸如无线互联网

或蜂窝网络的网络130与远程服务器计算机120通信。因此，V对I接口111可包括被配置为利用各种有线和/或无线联网技术(例如，蜂窝、

和有线和/或无线分组网络)的处理器、存储器、收发器等。计算装置115可以被配置为用于使用在附近车辆110间在移动自组网的基础上形成或通过基于基础设施的网络形成的车辆对车辆(V对V)网络(例如，根据专用短距离通信(DSRC)和/或类似的通信)通过V对I接口111与其他车辆110通信。计算装置115还包括诸如已知的非易失性存储器。计算装置115可以经由将数据存储在非易失性存储器中来记录数据，以便以后检索并经由车辆通信网络和车辆对基础设施(V对I)接口111传输到服务器计算机120或用户移动装置160。

如已经提及的，通常包括在存储在存储器中并可由计算装置115的处理器执行的指令中的是用于在没有人类操作员干预的情况下操作一个或多个车辆110部件(例如，制动、转向、推进等)的编程。使用在计算装置115中接收的数据(例如，来自传感器116、服务器计算机120等的传感器数据)，计算装置115可在没有驾驶员的情况下作出各种确定和/或控制各种车辆110部件和/或操作以操作车辆110。例如，计算装置115可包括编程以调节车辆110操作行为(即，车辆110操作的物理表现)，诸如速度、加速度、减速度、转向等，以及策略性行为(即，通常以预期实现路线的安全且有效的行驶的方式进行的操作行为控制)，诸如车辆之间的距离和/或车辆之间的时间量、车道改变、车辆之间的最小间隙、左转跨过路径最小值、在特定位置处的到达时间和为了通过十字路口的十字路口(无信号灯)最小到达时间。

如本文使用的术语控制器包括通常被编程来监测和/或控制特定车辆子系统的计算装置。示例包括动力传动系统控制器112、制动控制器113和转向控制器114。控制器可以是诸如已知的电子控制单元(ECU)，可能包括如本文所描述的另外的编程。控制器可以通信地连接到计算装置115并从所述计算装置115接收指令以根据指令来致动子系统。例如，制动控制器113可从计算装置115接收指令以操作车辆110的制动器。

用于车辆110的一个或多个控制器112、113、114可以包括已知的电子控制单元(ECU)等，作为非限制性示例，包括一个或多个动力传动系统控制器112、一个或多个制动控制器113和一个或多个转向控制器114。控制器112、113、114中的每一个可包括相应的处理器和存储器以及一个或多个致动器。控制器112、113、114可被编程并且连接到车辆110通信总线，诸如控制器局域网(CAN)总线或局域互连网(local interconnect network，LIN)总线，以从计算装置115接收指令并基于指令来控制致动器。

传感器116可包括已知的多种装置，以经由车辆通信总线提供数据。例如，固定到车辆110的前保险杠(未示出)的雷达可以提供从车辆110到车辆110前方的下一车辆的距离，或者设置在车辆110中的全球定位系统(GPS)传感器可以提供车辆110的地理坐标。例如，由雷达和/或其他传感器116提供的(一个或多个)距离和/或由GPS传感器提供的地理坐标可以被计算装置115用来自主或半自主地操作车辆110。

车辆110通常是能够自主和/或半自主操作并且具有三个或更多个车轮的基于地面的车辆110(例如，客车、轻型货车等)。车辆110包括一个或多个传感器116、V对I接口111、计算装置115和一个或多个控制器112、113、114。传感器116可收集与车辆110和车辆110的操作环境相关的数据。以举例的方式但非限制，传感器116可以包括例如测高仪、相机、激光雷达(LIDAR)、雷达、超声传感器、红外传感器、压力传感器、加速度计、陀螺仪、温度传感器、压力传感器、霍尔传感器、光学传感器、电压传感器、电流传感器、机械传感器(诸如开关)等。传感器116可以用来感测车辆110的操作环境，例如，传感器116可以检测诸如天气条件(降雨、外部环境温度等)的现象、道路坡度、道路位置(例如，使用道路边缘、车道标记等)或目标对象(诸如邻近车辆110)的位置。传感器116还可以用于收集数据，包括与车辆110的操作相关的动态车辆110数据，诸如速度、横摆率、转向角度、发动机转速、制动压力、油压、施加到车辆110中的控制器112、113、114的功率水平、在部件之间的连接性以及车辆110的部件的准确且及时的性能。

图2是生成式对抗网络(GAN)200的图示。GAN 200可以用于修改合成视频图像以使它们看起来更真实。GAN 200包括生成器204，所述生成器204通过将输入合成图像202与在训练时间学习到的卷积参数进行卷积来生成输出图像206。输出图像206被输入到判别器208，所述判别器208确定输出图像206是真实的还是伪造的。判别器208输出输出图像206连同标签210。术语“真实”或“伪造”是由判别器208应用于输出图像206的标签210。“真实”标签210被应用于输出图像206，尽管所述输出图像206实际上是由合成图像渲染引擎生成，但是所述输出图像206可能被人类观察者判断为由观看真实世界场景的真实世界相机生成。“伪造”标签210被应用于输出图像206，所述输出图像206可能被人类观察者判断为由合成图像生成器生成，如同它实际被生成的方式一样。训练图像212是由观看真实世界场景的视频传感器获取的视频图像，所述真实世界场景包括可在训练时间输入到判别器208的诸如道路和车辆的真实世界对象。通过响应于在训练时间合成图像202的输入而将真实或伪造标签210反向传播到生成器204来训练GAN 200以输出具有真实标签210的逼真的输出图像206。

GAN 200可以被配置为通过将GAN 200布置成周期一致的GAN 200而从合成图像202产生逼真的真实图像210。周期一致的GAN 200被配置为将合成图像202变换成真实图像210，然后使用第二GAN将真实图像210变换回第二合成图像202。通过将输入合成图像202与变换后的输出图像202进行比较来确定要用于训练GAN 200的损失函数。训练GAN 200以产生与输入合成图像202基本上相同的变换后的输出图像202提高了GAN 200输出逼真的真实图像210的能力。在所述示例中，基本上相同意味着输入合成图像202和变换后的输出图像210之间的像素值的总和差较小，即小于输入合成图像202的像素值总和的1％。

图3是为了符合专利局规定而以黑白线绘图呈现的合成图像300和真实图像302的图示。可以响应于输入合成图像300而从经训练的GAN 200输出真实图像302。尽管输出真实图像302是如上限定的逼真的，但是GAN 200可以改变真实图像302中的细节。例如，合成图像300中的太阳304的位置被改变为真实图像302中的位置310。合成图像300中的挂车门306中的杆的数量从六条改变为真实图像302中的四条312。挂车挂接装置从合成图像300中的“A”框架308改变为真实图像302中的直杆314。当真实图像302用于训练深度神经网络(DNN)以识别当车辆在道路上操作时由车辆传感器获取的真实世界视频图像中的对象时，这些类型的改变尽管较小，但是会引起混淆。使用于训练DNN的逼真的图像尽可能地类似于由车辆传感器获取的真实世界图像，可以改善用于操作车辆的DNN的操作。

与合成图像300相比，真实图像302的变化可能是时间不一致的结果，其被限定为由GAN 200从对应于合成图像300的时间序列的一系列合成图像300产生的一系列真实图像302的变化。合成图像300的时间序列可以对应于一系列合成图像300，所述一系列合成图像300模拟例如当车辆在道路上行驶时由车辆传感器获取的连续图像。通过使用两个或更多个立体对的合成图像300和两对或更多对真实图像302训练GAN 200，训练GAN 200以避免时间不一致可以防止随机变化被引入到一系列真实图像302中。本文所描述的技术可以通过添加如下文结合图4所描述的立体视觉测程法过程以基于立体视觉测程法来确定用于训练GAN 200的损失函数来提高GAN 200输出逼真的真实图像210的能力。将合成图像202产生为立体对，并且将合成图像202的所确定的三维姿态与真实图像210的所确定的三维姿态进行比较，以形成基于三维姿态的损失函数，可以改善GAN 220的训练以产生避免时间不一致的逼真的真实图像210。在所述示例中，从两个或更多个立体对的合成图像300和两个或更多个立体对的真实图像300的时间序列生成三维姿态，并且比较三维姿态以形成损失函数。通过比较三维姿态，进行包括合成图像和真实图像两者的几何特征的比较。几何特征被限定为一对立体图像的区域，其可以通过如下文关于图4所描述的产生三维空间中的位置的立体视觉测程法过程来检测。

图4是用于执行立体视觉测程法400的架构的图示。立体视觉测程法400是用于分析两对或更多对立体图像403、404以确定虚拟相机的姿态或六轴位置和取向的技术。可以相对于三个正交坐标轴x、y和z和分别相对于所述三个坐标轴测量的三个旋转坐标侧倾、俯仰和横摆来测量六轴位置和取向。合成渲染引擎可以被编程来为合成渲染引擎所渲染的场景产生立体图像402、404对。每对立体图像都对应于当一对虚拟相机在模拟场景中移动时获取的模拟场景的视图。立体图像402、404对可以被输入到立体视觉测程法过程(立体VO)406以确定虚拟相机的三维(3D)姿态。立体视觉测程法过程406是一种软件程序，其通过确定对应于一对立体图像中的每个图像共有的几何特征的点406、408来输入立体图像对，并且计算每对对应点的位置差异。一对立体图像402、404中的点406、408的位置差异可以用于确定由合成渲染引擎渲染的合成场景中的点的3D位置。可以使用立体视觉测程法过程406来分析在给定时间步长获取的两对或更多对立体图像402、404之间的点406、408的位置差异，以产生虚拟相机(姿态)408的量距或3D运动。只要立体图像402、404中的每对之间的时间步长是已知的，就可以将两对以上的立体图像402、404输入到立体视觉测程法过程406。

视觉测程法过程406通过经由使用机器视觉技术处理每个图像来定位每个图像中的相同特征而首先确定对应于立体图像402、404对中的几何特征的点406、408来确定(虚拟)相机的六轴姿态。可以通过选择每个图像中具有类似特征(诸如边缘或对比度差异)的区域来确定图像特征。可以通过使用一个图像的小区域作为相关核来执行相关来定位区域，以定位其他图像中的类似区域。当类似区域被识别时，每个区域中的类似位置，例如中心，可以被用作作为所述区域的位置的点406、408。一对立体图像402、404中的每一个中的对应点u_j的位置差异被称为立体视差，其中下标j表示所涉及的点。可以通过假设立体图像402、404由图像传感器成像而对点u_j的立体视差进行三角测量以确定三维特征X_j，所述图像传感器具有放大倍数为M的透镜和距图像传感器平面距离为d的光学中心。假设第一对立体图像402是在时间t₀获取的，并且第二对立体图像404是在时间t₁获取的，其中时间步长t＝t₁-t₀，则可由以下方程式确定对应于图像传感器的六轴姿态：

其中R是旋转坐标侧倾、俯仰和横摆，并且t是位置坐标x、y和z。方程式(1)通过使点406、408之间的投影误差最小化来确定六轴姿态。姿态损失(PL)是两对或更多对立体图像之间的合成图像的虚拟相机的六轴姿态的变化R_s、t_s与两对或更多对真实图像的虚拟相机的六轴姿态的变化R_r、t_r之间的差异，并且可以计算为：

R_s，t_s-R_r，t_r＝((滚动_s-滚动_r)，(俯仰_s-俯仰_r)，(横摆_s-横摆_r))，((x_s-x_r)，(y_d-y_r)，(z_s-z_r)) (2)

因为两对或更多对合成立体图像和真实立体图像的六轴姿态是基于两组图像的几何特征X_j来确定的，所以将姿态损失约束为小于用户确定的阈值的几何特征迫使合成立体图像和真实立体图像在接近相同位置处包括类似的几何特征。以这种方式使用最小姿态损失来训练GAN 200将GAN 200训练为在两个或更多个真实图像序列上产生具有在与输入合成图像接近相同的位置中的类似几何特征的真实图像。

立体视觉测程法400可以用于改善GAN 200的训练。本文描述的技术可以生成两对或更多对合成立体图像。合成立体图像可由GAN 200单独处理以产生真实图像210，所述真实图像210可在处理后组合以形成两对或更多对真实立体图像。可以使用立体视觉测程法过程406来处理合成的两对或更多对立体图像以形成第一相机姿态。然后，两对或更多对真实图像可以被处理以形成第二相机姿态。可以将第一相机姿态与第二相机姿态进行比较以形成姿态损失函数。在所述示例中，在真实图像对的3D特征不同于合成立体图像对的3D特征的情况下，姿态损失函数将是非零的。损失函数可以被反向传播到生成器204，其中非零值指示真实图像的部分，其中使真实图像逼真的过程已经以扭曲真实图像210对应的场景的3D几何形状的方式改变了图像。以这种方式训练GAN 200改善了GAN 200的处理，不仅产生逼真的图像，而且还产生维持底层场景的3D几何形状的图像。

图5是深度神经网络(DNN)500的图示。DNN是在计算装置115上执行的软件程序，其将从车辆110中所包括的视频传感器获取的图像502作为输入。DNN 500通过首先使用卷积层(卷积)504对图像502进行卷积以形成隐藏变量506来处理图像502。隐藏变量506然后由全连接层(全连接)508处理以形成输出状态510。输出状态包括关于输入图像502中包括的区域和对象(包括道路、车道标记、其他车辆和行人)的数据。车辆110中包括的计算装置115可以使用输出状态510来操作车辆。计算装置115可以确定车辆路径，以引导车辆110在由DNN 500检测到的车道标记确定的车道上行驶，同时避免与检测到的对象接触。车辆路径可以是连接的3次或更小次多项式函数系列。计算装置115可通过引导车辆控制器112、113、114控制车辆动力传动系统、转向和制动来操作车辆110。

可以通过输入由GAN 200输出的多个真实图像210连同从合成渲染引擎用来生成合成图像202的场景描述获取的数据来训练DNN 500。由合成渲染引擎用于生成合成图像200的场景描述包括合成图像中的区域和对象(包括道路、车道标记以及包括其他车辆和行人的对象)的数学描述。场景描述可以被用作与训练期间由DNN 500反向传播的输出状态510进行比较的地面实况，以确定DNN 500是否已经正确地检测到并识别出输出状态510中的区域和对象。

图6是关于图1至图3描述的基于来自DNN 500的输出操作车辆的过程600的流程图。过程600可以由计算装置的处理器实施，例如，将来自传感器的信息作为输入，以及执行命令，以及输出对象信息。过程600包括可以以所示顺序执行的多个框。过程600可以替代地或另外地包括更少的框，或者可以包括以不同顺序执行的框。

过程600开始于框602，由合成图像渲染引擎生成合成图像202，如以上关于图3所讨论的。合成图像202是被生成以模拟车辆110在真实世界中操作时可能遇到的状况的大量(>1000)合成图像202中的一个。合成渲染引擎输出场景描述以及合成图像202，所述场景描述包括用于训练DNN 500的场景描述中的区域和对象的数学描述。例如，合成图像渲染引擎可以产生对应于当车辆110在道路上行驶时从车辆传感器获取的图像的时间序列的合成图像202序列。

在框604处，合成图像202被输入到GAN 200来生成真实图像210。已经使用由立体视觉测程法300确定的损失函数使用大量(>1000)组的两对或更多对合成立体图像训练GAN200。由于训练，输出真实图像210是逼真的，并且忠实地渲染输入合成图像的3D几何形状。在运行时，单个合成图像202可以被输入到GAN 200来生成单个真实图像210。因为使用两个或更多个立体对的输入和输出图像的序列来训练GAN 200，所以在操作中，GAN 200可以处理输入合成图像202序列，以产生具有时间一致性的真实图像210序列。

在框606处，大量(>1000)输出真实图像210和来自场景描述的数据，包括对应于由车辆传感器获取的图像时间序列的真实图像210序列，可以用于训练DNN 500。经训练的DNN500可以处理输入图像502，包括输入图像502序列，并且产生输出状态510，包括对应于输入图像502中的区域和对象(包括道路、车道标记和包括其他车辆和行人的对象)的输出状态510序列。

在框608处，由计算装置115使用经训练的DNN 500来操作车辆110。计算装置115可以从包括在车辆110中的视频传感器获取图像数据502，并且处理图像数据502来生成包括道路、车道标记以及包括其他车辆和行人的对象的输出状态510。计算装置115可以使用输出状态510来确定车辆路径，并且控制车辆动力传动系统、转向和制动，以使得车辆110沿着车辆路径操作。在框608之后，过程600结束。

诸如本文讨论的那些计算装置的计算装置通常各自包括命令，所述命令可由诸如上文所识别的那些计算装置的一个或多个计算装置执行并用于执行上文所描述的过程的框或步骤。例如，上文所讨论的过程框可体现为计算机可执行命令。

计算机可执行命令可由使用各种编程语言和/或技术创建的计算机程序来编译或解译，所述编程语言和/或技术单独地或组合地包括但不限于：Java^TM、C、C++、Python、Julia、SCALA、Visual Basic、Java Script、Perl、HTML等。一般来说，处理器(例如，微处理器)接收例如来自存储器、计算机可读介质等的命令，并且执行这些命令，从而执行一个或多个过程，包括本文所描述的过程中的一者或多者。此类命令和其他数据可存储在文件中并使用各种计算机可读介质来传输。计算装置中的文件通常是存储在诸如存储介质、随机存取存储器等计算机可读介质上的数据的集合。

计算机可读介质包括参与提供可由计算机读取的数据(例如，命令)的任何介质。这种介质可采用许多形式，包括但不限于非易失性介质、易失性介质等。非易失性介质包括例如光盘或磁盘以及其他持久性存储器。易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。常见形式的计算机可读介质包括例如软磁盘、软盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD、任何其他光学介质、穿孔卡、纸带、带有孔图案的任何其他物理介质、RAM、PROM、EPROM、快闪-EEPROM、任何其他存储器芯片或盒式磁带或计算机可从其中读取的任何其他介质。

除非本文作出相反的明确指示，否则权利要求中使用的所有术语意图给出如本领域技术人员所理解的普通和通常的含义。具体地，除非权利要求叙述相反的明确限制，否则使用诸如“一个”、“该”、“所述”等单数冠词应被解读为叙述所指示的要素中的一者或多者。

术语“示例性”在本文中以表示示例的意义使用，例如，对“示例性小部件”的引用应被解读为仅指代小部件的示例。

修饰值或结果的副词“大约”意味着形状、结构、测量值、值、确定、计算等可能因材料、机加工、制造、传感器测量、计算、处理时间、通信时间等的缺陷而与确切描述的几何形状、距离、测量值、值、确定、计算等有偏差。

在附图中，相同的附图标记指示相同的要素。此外，可改变这些要素中的一些或全部。关于本文所描述的介质、过程、系统、方法等，应理解，虽然此类过程等的步骤或框已被描述为按照特定顺序的序列发生，但是此类过程可通过以本文所描述的顺序以外的顺序执行的所描述步骤来实践。还应理解，可同时执行某些步骤，可添加其他步骤，或者可省略本文所描述的某些步骤。换句话说，本文对过程的描述是出于说明某些实施例的目的而提供的，并且决不应解释为限制所要求保护的发明。

根据本发明，提供了一种计算机，其具有处理器和存储器，所述存储器包括指令，所述指令由处理器执行以：生成两个或更多个立体对的合成图像；使用生成式对抗网络(GAN)基于所述两个或更多个立体对的合成图像生成两个或更多个立体对的真实图像，其中使用基于所述两对或更多对真实图像确定的六轴自由度(DoF)姿态来训练所述GAN；基于真实图像序列训练深度神经网络；并且使用所述深度神经网络操作车辆以处理由车辆传感器获取的视频图像序列。

根据实施例，GAN被初始训练以基于不成对的真实图像和模拟图像来生成立体对的真实图像。

根据实施例，所述指令还包括以下指令：通过将场景描述输入到合成图像渲染引擎来生成两对或更多对合成图像。

根据实施例，所述指令还包括以下指令：通过立体视觉测程法来确定两对或更多对合成图像和两对或更多对真实图像的六轴DoF姿态。

根据实施例，所述指令还包括以下指令：通过确定两个或更多个立体对的合成图像和两对或更多对真实图像的六轴DoF姿态的变化来确定姿态损失。

根据实施例，所述指令还包括以下指令：基于使两对或更多对合成图像和两对或更多对真实图像中的每对的x、y和z平移以及侧倾、俯仰和横摆旋转最小化来确定六轴DoF姿态。

根据实施例，所述指令还包括以下指令：通过比较两对或更多对合成图像的六轴DoF和两个或更多个真实图像的六轴DoF来确定姿态损失。

根据实施例，所述指令还包括基于损失函数训练所述GAN的指令，所述损失函数基于为两对或更多对合成立体图像确定的三维姿态损失来输入地面实况，其中通过比较两对或更多对合成立体图像的立体重建来确定三维姿态损失。

根据实施例，所述指令还包括以下指令：训练深度神经网络以识别并定位包括车辆、行人和道路中的一者或多者的视频图像序列中的对象。

根据实施例，所述指令还包括以下指令：处理由视频传感器获取的视频图像序列以识别并定位车辆、行人和道路中的一者或多者。

根据本发明，一种方法包括：生成两个或更多个立体对的合成图像；使用生成式对抗网络(GAN)基于所述两个或更多个立体对的合成图像生成两个或更多个立体对的真实图像，其中使用基于所述两对或更多对真实图像确定的六轴自由度(DoF)姿态来训练所述GAN；基于真实图像序列训练深度神经网络；以及使用所述深度神经网络操作车辆以处理由车辆传感器获取的视频图像序列。

在本发明的一个方面中，GAN被初始训练以基于不成对的真实图像和模拟图像来生成立体对的真实图像。

在本发明的一个方面中，所述方法包括通过将场景描述输入到合成图像渲染引擎中来生成两对或更多对合成图像。

在本发明的一个方面中，所述方法包括通过立体视觉测程法确定两个或更多个立体对的合成图像和两对或更多对真实图像的六轴DoF姿态。

在本发明的一个方面中，所述方法包括通过确定两对或更多对合成图像和两对或更多对真实图像的六轴DoF姿态的变化来确定姿态损失。

在本发明的一个方面中，所述方法包括基于使两对或更多对合成图像和两对或更多对真实图像中的每对的x、y和z平移以及侧倾、俯仰和横摆旋转最小化来确定六轴DoF姿态。

在本发明的一个方面中，所述方法包括通过比较两对或更多对合成图像的六轴DoF和两个或更多个真实图像的六轴DoF来确定姿态损失。

在本发明的一个方面中，所述方法包括基于损失函数来训练GAN，所述损失函数基于为两对或更多对合成立体图像确定的三维姿态损失来输入地面实况，其中通过比较两对或更多对合成立体图像的立体重建来确定三维姿态损失。

在本发明的一个方面中，所述方法包括训练深度神经网络以识别并定位包括车辆、行人和道路中的一者或多者的视频图像序列中的对象。

Claims

1.一种方法，其包括：

生成两个或更多个立体对的合成图像；

使用生成式对抗网络(GAN)基于所述两个或更多个立体对的合成图像生成两个或更多个立体对的真实图像，其中使用基于所述两对或更多对真实图像确定的六轴自由度(DoF)姿态来训练所述GAN；

基于真实图像序列训练深度神经网络；以及

使用所述深度神经网络操作车辆以处理由车辆传感器获取的视频图像序列。

2.如权利要求1所述的方法，其中所述GAN被初始训练以基于不成对的真实图像和模拟图像来生成立体对的真实图像。

3.如权利要求1所述的方法，其中所述指令还包括以下指令：通过将场景描述输入到合成图像渲染引擎来生成两对或更多对合成图像。

4.如权利要求1所述的方法，其还包括通过立体视觉测程法确定所述两个或更多个立体对的合成图像和所述两对或更多对真实图像的六轴DoF姿态。

5.如权利要求4所述的方法，其还包括通过确定所述两个或更多个立体对的合成图像和所述两对或更多对真实图像的六轴DoF姿态的变化来确定姿态损失。

6.如权利要求1所述的方法，其还包括基于使所述两对或更多对合成图像和所述两对或更多对真实图像中的每对的x、y和z平移以及侧倾、俯仰和横摆旋转最小化来确定六轴DoF姿态。

7.如权利要求6所述的方法，其还包括通过比较所述两对或更多对合成图像的所述六轴DoF和所述两个或更多个真实图像的所述六轴DoF来确定姿态损失。

8.如权利要求7所述的方法，其还包括基于损失函数来训练所述GAN，所述损失函数基于为两对或更多对合成立体图像确定的三维姿态损失来输入地面实况，其中通过比较所述两对或更多对合成立体图像的立体重建来确定三维姿态损失。

9.如权利要求8所述的方法，其中基于在所述真实图像中提供时间一致性的所述损失函数训练所述GAN。

10.如权利要求1所述的方法，其还包括训练所述深度神经网络以识别并定位包括车辆、行人和道路中的一者或多者的视频图像序列中的对象。

11.如权利要求9所述的方法，其还包括基于由输入到合成渲染引擎的场景描述确定的地面实况来训练所述深度神经网络。

12.如权利要求1所述的方法，其还包括使用深度神经网络处理由视频传感器获取的视频图像序列以识别并定位车辆、行人和道路中的一者或多者。

13.如权利要求11所述的方法，其还包括通过确定车辆路径以相对于所述道路定位所述车辆并且避开车辆和行人中的一者或多者来操作所述车辆。

14.如权利要求1所述的方法，其还包括通过控制车辆动力传动系统、车辆转向和车辆制动中的一者或多者来操作所述车辆。

15.一种系统，其包括计算机，所述计算机被编程为执行权利要求1至14中任一项所述的方法。