CN113177429A

CN113177429A - 车辆神经网络训练

Info

Publication number: CN113177429A
Application number: CN202110074653.4A
Authority: CN
Inventors: 普纳杰·查克拉瓦蒂; 阿什利·伊丽莎白·米克斯
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2020-01-24
Filing date: 2021-01-20
Publication date: 2021-07-27
Also published as: US11299169B2; DE102021101270A1; US20210229680A1

Abstract

本公开提供了“车辆神经网络训练”。一种计算机，包括：处理器和存储器，所述存储器包括由所述处理器执行以进行以下操作的指令：确定第一视频图像中的第一对象的六自由度(DoF)数据；以及基于所述六DoF数据生成与所述第一视频图像相对应的合成视频图像，所述合成视频图包括合成对象和合成对象标签。所述指令可以包括用于进行以下操作的另外的指令：基于配对的第一视频图像和合成视频图像来训练生成式对抗网络(GAN)以生成修改的合成图像，并且训练深度神经网络以基于合成对象在修改的合成视频图像中定位合成对象。所述指令可以包括用于进行以下操作的另外的指令：将训练过的深度神经网络下载到车辆中的计算装置。

Description

车辆神经网络训练

技术领域

本公开总体上涉及车辆神经网络。

背景技术

车辆可配备有计算装置、网络、传感器和控制器以获取关于车辆的环境的数据并基于所述数据来操作车辆。车辆传感器可提供有关在车辆的环境中要行驶的路线和要避开的对象的数据。车辆的操作可依赖于在车辆正在道路上进行操作时获取关于车辆的环境中的对象的准确且及时的数据。

发明内容

车辆可被配备为以自主模式和乘员驾驶模式两者操作。半自主或完全自主模式意指其中车辆可由作为具有传感器和控制器的系统的一部分的计算装置部分地或完全地驾驶的操作模式。车辆可被占用或未被占用，但是在任何一种情况下，都可在没有乘员辅助的情况下部分地或完全地驾驶车辆。出于本公开的目的，自主模式被限定为其中车辆推进(例如，经由包括内燃发动机和/或电动马达的动力传动系统)、制动和转向中的每一者由一个或多个车辆计算机控制的模式；在半自主模式中，一个或多个车辆计算机控制车辆推进、制动和转向中的一者或两者。在非自主模式中，这些都不由计算机控制。

可以训练深度神经网络以基于由车辆传感器获取的图像数据来识别和确定包括车辆周围环境中的其他车辆的对象的位置。车辆中的计算装置可以基于由深度神经网络输出的所识别的对象位置来确定在其上操作车辆的车辆路径。通过确定命令来引导车辆的动力传动系统、制动和转向部件以操作车辆沿着路径行驶，车辆可基于车辆路径在道路上操作。可以训练深度神经网络以使用所标记的训练数据来识别和定位视频数据中的对象，其中视频数据中的对象在用深度神经网络处理之前被识别和定位。

提供所标记的真实世界视频数据可能是昂贵且耗时的。训练深度神经网络可以通过使用所标记的合成视频数据来改进。合成视频数据是由产生所标记的合成视频数据的真实感(photorealistic)渲染软件生成的视频数据。所标记的合成数据可能提供不令人满意的训练结果，因为在一些示例中，合成视频数据不能足够逼真地对真实世界视频数据进行建模到使得能够训练深度神经网络来识别和定位真实视频数据中的对象的程度。本文描述的技术通过确定所获取的真实世界视频数据中的对象的六自由度(DoF)位置和取向数据并使用所述六DoF数据来基于所述六DoF数据生成所标记的合成视频数据来改进深度神经网络训练。来自所标记的合成视频数据的标签可以被传递到真实世界视频数据以生成配对的真实和合成标记的视频数据。

配对的真实标记的视频数据和合成标记的视频数据可以用于训练生成式对抗网络(generative adversarial network，GAN)，以产生比未修改的合成视频数据更接近地对应于真实视频数据的修改的合成视频数据。基于修改的合成视频数据训练深度神经网络通过生成与真实世界视频数据准确地对应的大量(>1000个)合成视频图像来改进对深度神经网络的训练。用训练过的GAN修改合成视频图像可以生成大量的修改的合成图像，所述修改的合成图像可以用于在比基于所标记的真实世界视频数据训练深度神经网络更少的时间内以更高的准确性和更低的成本来训练深度神经网络。

由包括激光雷达、雷达和超声的其他成像模态生成的图像数据可以用于训练深度神经网络以操作车辆。由其他成像模态生成的图像数据可以通过合成数据以与可以通过本文描述的技术增强视频数据的方式相同的方式来增强。可以与激光雷达、雷达或超声数据并行地获取关于车辆的六DoF数据，并且可以通过与每个模态相对应的GAN来生成修改的合成图像数据。所得的修改的图像数据可以用于训练深度神经网络以基于如本文所述的激光雷达、雷达或超声数据来操作车辆。

除了通过利用包括在车辆中的视频传感器获取视频图像数据来操作车辆之外，本文描述的技术也可以用于训练深度神经网络以处理由交通基础设施系统中所包括的固定传感器获取的数据。交通基础设施系统可以从包括视频、激光雷达、雷达和超声中的一者或多者的传感器模态获取图像数据，并使用本文描述的技术处理所获取的图像数据。交通基础设施系统可以使用处理所获取的图像数据的结果来确定交通场景中所包括的对象的标识和位置。关于交通场景中的对象的标识和位置的数据可以用于确定交通场景中的车辆的车辆路径。例如，可以将关于车辆路径的数据下载到交通场景中的车辆以辅助车辆中的计算装置操作车辆。

本文公开了一种方法，所述方法包括：确定第一视频图像中的第一对象的六自由度(DoF)数据；基于所述六DoF数据生成与所述第一视频图像相对应的合成视频图像，所述合成视频图包括合成对象和合成对象标签。可以基于配对的第一视频图像和合成视频图像来训练生成式对抗网络(GAN)以生成修改的合成图像，可以训练深度神经网络以基于合成对象标签定位修改的合成图像中的对象，并且可以将训练过的深度神经网络下载到车辆中的计算装置。合成视频图像可以通过真实感渲染过程生成以与第一视频图像相对应，包括基于六DoF数据将合成对象渲染为与第一视频图像中的第一对象的位置相对应。六DoF数据可以包括三维(3-D)空间中的位置和3-D空间中的取向，这两者都是相对于正交三维轴确定的，其中正交三维轴是相对于全球坐标系确定的。

全球坐标系是基于纬度、经度和海拔，可以x坐标、y坐标和z坐标测量位置，并且通过相对于全球坐标系指定的侧倾、俯仰和横摆测量取向。六DoF数据可以通过使用机器视觉技术处理第一视频图像来确定，以确定第一视频图像中的第一对象上的第一数据点的位置与通过测量第一对象或第一对象的工程制图中的一者或多者上的数据点的位置确定的测量数据点的位置之间的对应关系。可以通过凭借非线性曲线拟合将第一数据点的位置与测量数据点的位置之间的差异最小化来确定六DoF数据。可以基于第一对象的工程制图和虚拟相机视角来确定六DoF数据。虚拟相机视角可以包括虚拟相机的光轴的六DoF数据和虚拟相机的放大倍数数据。GAN可以包括生成式网络和对抗网络。GAN可以将来自第一视频图像的图像特征数据添加到合成视频图像以生成修改的合成视频图像。深度神经网络可以包括卷积层和全连接层。可以训练深度神经网络以通过将反向传播的输出状态与合成对象标签进行比较来定位第一对象。可以通过使用下载的深度神经网络处理所获取的视频数据以在所获取的视频数据中定位一个或多个对象来操作车辆。可以通过基于所获取的视频数据中的一个或多个对象的位置控制车辆动力传动系统、转向和制动来操作车辆。

还公开了一种计算机可读介质，所述计算机可读介质存储用于执行上述一些或所有方法步骤的程序指令。还公开了一种被编程用于执行上述一些或所有方法步骤的计算机，所述计算机包括计算机设备，所述计算机设备被编程为：确定第一视频图像中的第一对象的六自由度(DoF)数据；基于所述六DoF数据生成与所述第一视频图像相对应的合成视频图像，所述合成视频图包括合成对象和合成对象标签。可以基于配对的第一视频图像和合成视频图像来训练生成式对抗网络(GAN)以生成修改的合成图像，可以训练深度神经网络以基于合成对象标签定位修改的合成图像中的对象，并且可以将训练过的深度神经网络下载到车辆中的计算装置。合成视频图像可以通过真实感渲染过程生成以与第一视频图像相对应，包括基于六DoF数据将合成对象渲染为与第一视频图像中的第一对象的位置相对应。六DoF数据可以包括三维(3-D)空间中的位置和3-D空间中的取向，这两者都是相对于正交三维轴确定的，其中正交三维轴是相对于全球坐标系确定的。

计算机还可以被编程为以x坐标、y坐标和z坐标测量位置，并且通过相对于全球坐标系指定的侧倾、俯仰和横摆测量取向。六DoF数据可以通过使用机器视觉技术处理第一视频图像来确定，以确定第一视频图像中的第一对象上的第一数据点的位置与通过测量第一对象或第一对象的工程制图中的一者或多者上的数据点的位置确定的测量数据点的位置之间的对应关系。可以通过凭借非线性曲线拟合将第一数据点的位置与测量数据点的位置之间的差异最小化来确定六DoF数据。可以基于第一对象的工程制图和虚拟相机视角来确定六DoF数据。虚拟相机视角可以包括虚拟相机的光轴的六DoF数据和虚拟相机的放大倍数数据。GAN可以包括生成式网络和对抗网络。GAN可以将来自第一视频图像的图像特征数据添加到合成视频图像以生成修改的合成视频图像。深度神经网络可以包括卷积层和全连接层。可以训练深度神经网络以通过将反向传播的输出状态与合成对象标签进行比较来定位第一对象。可以通过使用下载的深度神经网络处理所获取的视频数据以在所获取的视频数据中定位一个或多个对象来操作车辆。可以通过基于所获取的视频数据中的一个或多个对象的位置控制车辆动力传动系统、转向和制动来操作车辆。

附图说明

图1是示例性交通基础设施系统的图式。

图2是包括视频传感器的示例性交通场景的图式。

图3是交通场景的示例性彩色视频图像的图式。

图4是示例性计算机辅助设计车辆图像的图式。

图5是示例性标记的合成视频图像的图式。

图6是示例性标记的彩色视频图像的图式。

图7是示例性生成式对抗网络的图式。

图8是示例性深度神经网络的图式。

图9是使用深度神经网络操作车辆的示例性过程的流程图。

具体实施方式

图1是交通基础设施系统100的图式，所述交通基础设施系统包括可以自主(“自主”本身在本公开中意味着“完全自主”)、半自主和乘员驾驶(也称为非自主)模式操作的车辆110。一个或多个车辆110计算装置115可从传感器116接收关于车辆110的操作的数据。计算装置115可以自主模式、半自主模式或非自主模式操作车辆110。

计算装置115包括诸如已知的处理器和存储器。此外，存储器包括一种或多种形式的计算机可读介质，并且存储可由处理器执行的用于执行包括如本文所公开的各种操作的指令。例如，计算装置115可以包括编程以操作车辆制动、推进(例如，通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆110的加速度)、转向、气候控制、内部和/或外部灯等中的一项或多项，以及确定计算装置115(而不是操作人员)是否以及何时控制此类操作。

计算装置115可以包括多于一个计算装置(例如，包括在车辆110中以用于监测和/或控制各种车辆部件的控制器等(例如，动力传动系统控制器112、制动控制器113、转向控制器114等))，或例如经由如下面进一步描述的车辆通信总线通信地耦接到所述一个以上的计算装置。计算装置115通常被布置用于通过车辆通信网络(例如，包括车辆110中的总线，诸如控制器局域网(CAN)等)通信；另外或替代地，车辆110网络可以包括诸如已知的有线或无线通信机制，例如以太网或其他通信协议。

计算装置115可经由车辆网络向车辆中的各种装置(例如，控制器、致动器、传感器(包括传感器116)等)传输消息和/或从所述各种装置接收消息。替代地或另外，在计算装置115实际上包括多个装置的情况下，车辆通信网络可用于在本公开中表示为计算装置115的装置之间的通信。此外，如下文所提及，各种控制器或感测元件(诸如传感器116)可经由车辆通信网络向计算装置115提供数据。

另外，计算装置115可被配置用于通过车辆对基础设施(V对I)接口111经由网络130与远程服务器计算机120(诸如云服务器)通信，如下所描述的，所述接口包括硬件、固件和软件，所述硬件、固件和软件准许计算装置115经由诸如无线互联网

或蜂窝网络的网络130与远程服务器计算机120通信。因此，V对I接口111可以包括被配置为利用各种有线和/或无线联网技术(例如，蜂窝、

和有线和/或无线分组网络)的处理器、存储器、收发器等。计算装置115可被配置为用于使用例如在附近车辆110间在移动自组网的基础上形成或通过基于基础设施的网络形成的车辆对车辆(V对V)网络(例如，根据专用短距离通信(DSRC)和/或类似的通信)通过V对I接口111与其他车辆110通信。计算装置115还包括诸如已知的非易失性存储器。计算装置115可经由将数据存储在非易失性存储器中来记录数据，以便以后检索并经由车辆通信网络和车辆对基础设施(V对I)接口111传输到服务器计算机120或用户移动装置160。服务器计算机120还可以用作边缘计算节点中所包括的计算装置115，其中边缘计算节点是例如作为路边基础设施元件等的一部分的计算装置115，所述计算装置获取传感器数据并与车辆110在道路、停车场或停车结构等中的一者或多者的局部部分中进行通信。

如已经提及的，通常包括在存储在存储器中并可由计算装置115的处理器执行的指令中的是用于在没有人类操作员干预的情况下操作一个或多个车辆110部件(例如，制动、转向、推进等)的编程。使用在计算装置115中接收的数据(例如，来自传感器116、服务器计算机120等的传感器数据)，计算装置115可在没有驾驶员的情况下作出各种确定和/或控制各种车辆110部件和/或操作以操作车辆110。例如，计算装置115可以包括编程以调节车辆110操作行为(即，车辆110操作的物理表现)，诸如速度、加速度、减速度、转向等，以及策略性行为(即，通常以预期实现路线的安全且有效的行驶的方式进行的操作行为控制)，诸如车辆之间的距离和/或车辆之间的时间量、车道改变、车辆之间的最小间隙、左转跨过路径最小值、在特定位置处的到达时间和为了通过十字路口的十字路口(无信号灯)最小到达时间。

如本文使用的术语控制器包括通常被编程来监测和/或控制特定车辆子系统的计算装置。示例包括动力传动系统控制器112、制动控制器113和转向控制器114。控制器可以是诸如已知的电子控制单元(ECU)，可能包括如本文所描述的另外的编程。控制器可通信地连接到计算装置115并从所述计算装置接收指令以根据指令来致动子系统。例如，制动控制器113可从计算装置115接收指令以操作车辆110的制动器。

用于车辆110的一个或多个控制器112、113、114可以包括已知的电子控制单元(ECU)等，作为非限制性示例，包括一个或多个动力传动系统控制器112、一个或多个制动控制器113和一个或多个转向控制器114。控制器112、113、114中的每一个可以包括相应的处理器和存储器以及一个或多个致动器。控制器112、113、114可被编程并且连接到车辆110通信总线，诸如控制器局域网(CAN)总线或局域互连网(LIN)总线，以从计算装置115接收指令并基于指令来控制致动器。

传感器116可以包括已知的多种装置，以经由车辆通信总线提供数据。例如，固定到车辆110的前保险杠(未示出)的雷达可提供从车辆110到车辆110前方的下一车辆的距离，或者设置在车辆110中的全球定位系统(GPS)传感器可提供车辆110的地理坐标。例如，由雷达和/或其他传感器116提供的(一个或多个)距离和/或由GPS传感器提供的地理坐标可被计算装置115用来自主或半自主地操作车辆110。

车辆110通常是能够自主和/或半自主操作并且具有三个或更多个车轮的陆基车辆110(例如，客车、轻型卡车等)。车辆110包括一个或多个传感器116、V对I接口111、计算装置115和一个或多个控制器112、113、114。传感器116可收集与车辆110和车辆110的操作环境相关的数据。以举例的方式而非限制，传感器116可以包括例如测高仪、相机、激光雷达、雷达、超声传感器、红外传感器、压力传感器、加速度计、陀螺仪、温度传感器、压力传感器、霍尔传感器、光学传感器、电压传感器、电流传感器、机械传感器(诸如开关)等。传感器116可用来感测车辆110的操作环境，例如，传感器116可检测诸如天气状况(降雨、外部环境温度等)的现象、道路坡度、道路位置(例如，使用道路边缘、车道标记等)或目标对象(诸如邻近车辆110)的位置。传感器116还可用于收集数据，包括与车辆110的操作相关的动态车辆110数据，诸如速率、横摆率、转向角度、发动机转速、制动压力、油压、施加到车辆110中的控制器112、113、114的功率水平、在部件之间的连接性以及车辆110的部件的准确且及时的性能。

图2是交通场景200的图式。交通场景200包括道路202和在道路202上操作的车辆204。交通场景200还包括安装在杆208上的视频传感器206。视频传感器206可以从视野210获取视频图像数据。由视频传感器206获取的视频图像数据将包括在获取视频图像数据时在视野210内的车辆204的图像。由视频传感器206获取的视频图像数据可以被传送到交通基础设施系统100中所包括的计算装置115。与视频传感器206通信的计算装置115可以被称为交通基础设施系统100的边缘计算节点，所述视频传感器被布置成使得视野210覆盖包括车辆204的道路202的一部分。边缘计算节点(即，计算机115)可以获取关于交通场景200的视频图像数据，并且经由服务器计算机120将视频图像数据传送到车辆110中的计算装置115。

边缘计算节点计算机115还可以处理视频图像数据以提取关于交通场景200的数据，并且将所提取的数据传送到车辆110中的计算装置115。在该示例中，边缘计算节点计算机115可以获取视频图像数据和与视频图像数据相关的地面实况，并使用它来训练可以用于操作车辆110的深度神经网络。地面实况是关于除了利用深度神经网络处理视频图像数据之外独立于源确定的视频图像数据中的对象(包括车辆)的标识和位置的数据。例如，人类观察者可以识别和测量交通场景200中的对象的标识和位置。用于训练深度神经网络的视频数据也可以由车辆110中所包括的视频传感器获取。

图3是为了遵守专利局规定而以黑色和白色渲染的彩色视频图像300的图式。彩色视频图像300可以由视频传感器206获取并且被传送到例如包括在交通基础设施系统100中的边缘计算节点计算机115。彩色视频图像300还可以由车辆110中所包括的视频传感器获取。彩色视频图像可以包括车辆302的图像。彩色视频图像300可以用于训练深度神经网络以通过确定关于车辆302的标识和位置的地面实况数据来识别和定位车辆302，其中地面实况数据被定义为关于视频图像的独立确定的数据，所述独立确定的数据包括视频图像中所包括的对象的标识和位置。例如，可以训练深度神经网络以确定视频图像中所包括的对象的标识和位置。可以通过使用标记的视频图像的训练数据集训练深度神经网络来训练深度神经网络以识别和定位对象，其中所述标签包括独立于深度神经网络确定的对象的标识和位置。在该示例中，对象的标识和位置由机器视觉软件程序确定，所述机器视觉软件程序以六DoF识别和定位对象，如下面关于图4所讨论的。

由六DoF技术确定的独立确定的标识和位置被称为地面实况。六DoF技术改进了用户使用图像处理软件程序进行的对象标识和对象位置的确定，所述图像处理软件程序允许用户绘制包括在视频图像中的对象的轮廓并测量像素坐标中的对象位置。例如，用户可以在视频图像中识别车辆品牌和型号，并且可以在视频图像数据中测量以像素为单位的车辆大小，并将其与所述品牌和型号车辆的真实世界测量值进行比较。用户可以基于该测量数据来估计位置和取向。六DoF技术可以使用比基于用户的技术更少的计算机资源来更准确地确定车辆的位置和取向。与基于用户的技术相比，使用六DoF技术确定关于真实世界彩色视频图像300中的对象的位置和取向的数据可以通过使用更少的计算机资源以更准确的地面实况提供更多的训练图像数据集来改进对深度神经网络的训练。

用户标记视频图像中的对象以用于确定地面实况(包括用于训练深度神经网络的数据集的对象标识和位置)所存在的问题是用户确定对象标签可能是昂贵且耗时的。用户对对象标签的确定(包括识别和定位单个视频图像中的对象(包括车辆、行人和道路))可能花费数小时的计算机时间，并且成本可能超过每个图像一千美元(包括计算机时间)。以这种方式确定的对象标签可能包括由不同用户确定的对象标签的差异而生成的误差，因为用户正在估计位置和取向数据。对象标签的这些差异可能导致使用用户确定的标签训练的深度神经网络产生不一致和不可靠的结果，从而需要另外训练、测试和验证神经网络训练，这增加了训练深度神经网络所需的计算资源和成本。

如本文所公开的，可以使用真实感合成图像渲染软件(诸如UNREAL ENGINE^TM)来生成合成视频数据和地面实况。UNREAL ENGINE是输入场景描述并生成与用户指定的光源和虚拟摄像机相对应的真实感输出图像的真实感渲染过程。UNREAL ENGINE包括可从EpicGames,Inc.(见www.unrealengine.com)购得的用于设计和构建游戏、模拟和可视化的一套集成开发工具。与合成视频图像中的对象相关的地面实况是容易获得的，因为需要关于合成图像中的对象的标识和位置的标签数据作为生成图像的过程的输入。生成用于训练深度神经网络的标记的彩色视频图像的第一步骤是确定彩色视频图像中的对象的六自由度(DoF)数据。可以基于计算机辅助设计(CAD)数据来生成六DoF数据。

图4是被渲染为黑白线图以符合专利局规定的CAD车辆图像400的图式。CAD车辆图像400可以用于确定车辆302在彩色视频图像300中的六DoF位置。CAD车辆图像400是通过渲染CAD数据而产生的二维(2D)图像，所述CAD数据是描述3D对象的表面和体积的数学数据。CAD数据可以包括例如对象的工程制图。渲染可以通过确定将CAD数据投影到2D平面上的虚拟相机视角来产生三维(3D)对象的2D CAD车辆图像400。

虚拟相机是CAD渲染程序从CAD数据(包括工程制图)生成2D CAD车辆图像400的手段。渲染过程可以生成从虚拟图像传感器行进通过虚拟透镜的射线，从而遵循物理定律，就好像图像传感器和透镜是物理对象一样。渲染程序将数据插入虚拟图像传感器中，所述虚拟图像传感器对应于3D CAD数据的部分的外观，由3D CAD数据的部分发射并行进通过物理透镜的光线将在物理图像传感器上产生所述外观。通过将虚拟相机定位在相对于3D CAD数据的选定的六DoF位置和取向处，可以生成与相对于车辆的选定视角相对应的2D车辆图像400。

虚拟相机视角包括虚拟相机的光轴的六DoF数据和关于虚拟相机透镜的放大倍数的数据。基于虚拟相机相对于与CAD数据相对应的对象的3D模型的位置和取向来确定虚拟相机视角。将CAD数据投影到2D平面上对应于确定CAD数据对象的哪些边缘和表面对于从选定的位置和取向获取CAD数据对象的图像的相机将是可见的。因为CAD车辆图像400是基于选定位置和取向处的虚拟相机从CAD数据生成的，所以关于在CAD车辆图像400中示出的对象的位置和取向的数据是已知的。可以从虚拟相机的多个位置和取向生成多个CAD车辆图像400。

用于确定车辆302在彩色视频图像300中的位置和取向的过程可以通过确定视频传感器206相对于道路202的位置和取向而开始。视频传感器206的位置和取向可以通过视频传感器206或包括GPS传感器的仪器和视频传感器206中所包括的惯性测量单元的物理测量来确定。这些测量可以确定视频传感器206的视野210相对于道路202在真实世界全局坐标中的位置和取向。

真实世界全局坐标可以被定义为相对于例如由纬度、经度和海拔确定的真实世界3D轴定义的三维(3D)x、y和z空间坐标，以及相对于围绕x、y和z轴的旋转定义的3D侧倾、俯仰和横摆旋转坐标。通过将视频传感器206的视野210的位置和取向与视频传感器206中所包括的透镜的放大倍率和与道路202相对应的平面的位置相结合，位于道路上的对象的真实世界位置可以基于它们在彩色视频图像中的像素坐标中的位置而确定。

可以使用包括深度神经网络的机器视觉技术在彩色视频图像中识别包括车辆302的对象。这些技术可以基于将包括车辆302的对象的先前获取的图像与彩色视频图像300关联来识别和定位彩色视频图像300中的对象。这些技术可以定位车辆并识别车辆的类型(包括品牌和型号)，但是不能确定对象的3D位置和取向。当机器视觉软件已经在彩色视频图像300中识别出车辆302的类型时，可以从CAD车辆图像400的库中调用彩色视频图像300中的车辆302的类型的CAD车辆图像400。

彩色视频图像300中的车辆302的六DoF姿态可以通过用机器视觉软件处理车辆302的图像来确定，所述机器视觉软件确定车辆特征404、406、408、410、412、414、416、418、420、422、424，它们统称为车辆特征402。在图4中示出为圆圈的车辆特征402是车辆302的2D图像或CAD车辆图像400上的位置，所述位置在它们接合以在图像数据中形成顶点时由边缘的几何关系定义。例如，车辆特征404由在挡风玻璃的前边缘与车辆400的顶部的轮廓的接合处形成的车辆400的轮廓的弯曲部分形成。每个车辆特征402通过由车辆图像400的轮廓形成的线的形状和取向以及通过使用包括坎尼边缘检测的机器视觉技术对车辆图像400执行边缘检测形成的内部线而位于车辆400的图像上。坎尼边缘检测是一种可以可靠且可重复地检测车辆图像400上的轮廓和内部线的机器视觉技术。

机器视觉技术可以包括基于特征检测算法确定车辆特征402，所述特征检测算法通过确定几何边缘配置来检测边缘的配置。几何边缘配置可以包括例如两个或多个边缘接合时的曲率、取向、位置、角度和边缘数量。特征检测算法可以检测车辆图像400上独特曲率、取向、位置、角度和多行线接合的位置，并将它们存储为与车辆图像400的特定品牌和型号相对应的车辆特征402。通过处理所渲染的CAD车辆图像400以检测车辆特征402并处理车辆302的所获取的图像，可以基于来自真实世界视频图像300的车辆302的真实世界图像来确定一组车辆特征402，并且可以确定真实世界车辆特征402与基于CAD车辆图像400生成的车辆特征402之间的对应关系。真实感渲染软件程序可以使用虚拟相机的六DoF位置和虚拟相机的特性(包括光轴和虚拟透镜的放大倍数)来生成包括CAD车辆图像400的交通场景和对象。

因为基于用于生成CAD车辆图像400的虚拟相机位置已知CAD车辆图像400的六自由度姿态，所以可以将从CAD车辆图像400获取的多组车辆特征402与通过处理真实世界彩色视频图像300获取的车辆特征402进行比较以确定包括车辆302的位置和取向的真实世界DoF姿态。真实世界六DoF位置和取向数据被定义为相对于例如由纬度、经度和海拔确定的真实世界3D轴定义的三维(3D)x、y和z空间坐标，以及相对于围绕x、y和z轴的旋转定义的3D侧倾、俯仰和横摆旋转坐标，如上文所讨论的。

车辆302的彩色视频图像300可以由计算装置处理，以使用如上所讨论的边缘检测和几何分析机器视觉技术来确定车辆302的图像上的车辆特征402。通过使用与用于检测车辆特征402的技术类似的机器视觉技术来处理车辆302的彩色视频图像，检测到的车辆图像特征将类似于在CAD车辆图像400上检测到的车辆特征402。本文描述的技术可以确定与在车辆302的图像中确定的车辆特征402相对应的第一数据点的位置与和在CAD车辆图像402中确定的车辆特征402相对应的测量数据点的位置之间的对应关系。可通过求解以下N点透视投影方程确定车辆302的六DoF姿态：

方程(1)计算以侧倾、俯仰和横摆测量的旋转R，并且通过确定关于R和t的最小值，计算以x、y和z测量的平移t。通过对车辆图像特征u_j的n个位置(其中j∈{1，...n})与CAD数据车辆特征402X_j的n个位置(其中车辆特征402X_j是来自多组车辆特征402的车辆特征402)之间的平方差求和来计算所述最小值。所选择的六DoF姿态将来自将方程(1)最小化的这组车辆特征402。

方程(1)选择R和t的值，所述值使用包括Levenberg-Marquardt算法的非线性最小二乘曲线拟合技术将检测的车辆图像特征u_j的位置与被旋转和平移以最紧密地匹配检测到的车辆图像特征u_j的CAD数据车辆特征402X_j的位置之间的差异最小化。Levenberg-Marquart技术可以通过执行非线性曲线拟合来确定方程的最小值，其中所述算法在高斯牛顿技术与梯度下降技术之间进行插值以确定曲线的局部最小值，即使所述算法从非常远的实际最小值开始。在每个步骤中，车辆图像特征u_j被拟合到包括被旋转和平移以最紧密地匹配检测的车辆图像特征u_j的CAD数据车辆特征402X_j的车辆模型。系统地改变步骤的顺序可取决于步骤的相对最小值，以有效地确定总最小值。由方程(1)确定的R和t的值对应于车辆302的彩色视频图像300中相对于视频传感器206的六DoF姿态测量的车辆的六DoF姿态。可通过将来自车辆六DoF姿态的对应侧倾、俯仰和横摆以及x、y和z要素与来自相机六DoF姿态和有关用全局坐标测量的视野210的数据相同要素组合来将车辆的六DoF姿态变换为全局坐标，以产生车辆的用全局坐标表示的六DoF姿态。

图5是为了符合专利局规定而以黑色和白色渲染的合成视频图像500的图式。合成视频图像500包括合成渲染的车辆502和车辆标签604。当六DoF过程从视频图像300确定车辆302的六DoF姿态时，可以将关于车辆302的类型和六DoF姿态的数据输入到真实感渲染软件程序以渲染包括合成渲染的车辆502的合成视频图像500。因为车辆502是合成渲染的，所以基于车辆的真实世界姿态和渲染的车辆502在合成视频图像500中的外观两者的关于车辆的标识和位置的地面实况车辆标签504数据是可用的。因为合成视频图像500是基于从真实世界视频图像300获取的六DoF数据渲染的，所以可以将地面实况标签数据准确地传递到真实世界彩色视频数据300。这允许真实世界彩色视频数据300以及来自合成视频数据的标签数据一起用于训练深度神经网络，而不需要用户识别和定位车辆302。

合成视频图像500包括合成渲染的车辆502和车辆标签504。尽管合成生成的视频数据是有“真实感”的，这意味着在观察者看来，它几乎就像是使用看到真实世界交通场景的真实世界视频传感器获取的，但是问题在于，在真实世界视频图像与类似交通场景的合成生成的视频图像之间存在足够多的差异以阻止在合成视频图像上训练深度神经网络，并阻止随附的地面实况正确地识别和定位包括在真实世界视频图像中的真实世界对象。与彩色视频图像300相比，合成生成的视频图像500包括对象(所述对象包括车辆和道路)中所包括的更少图像细节。例如，合成视频图像500不包括真实世界彩色视频图像300中所包括的详细特征。这些特征可以包括附带对象，诸如碎屑和容器等。特征可以包括在诸如道路之类的对象上发现的由污垢、裂缝、维修、车道标记部分缺失引起的纹理以及其他真实世界纹理。合成图像渲染程序不能匹配真实世界彩色视频图像300中出现的对象(包括纹理)的随机性和多样性，所述对象诸如保险杠贴纸、车顶行李架、污垢以及有时在真实世界车辆上发现的凹痕。合成渲染的视频图像500与真实世界彩色视频图像300之间缺乏图像细节和特征差异阻止合成渲染的视频图像500用于训练深度神经网络，尽管它们包括基于用于生成合成视频图像500的数据而在包括准确的车辆标签604方面有优势。

图6是为了遵守专利局规定而以黑色和白色渲染的来自图3的彩色视频图像300的图式。彩色视频图像300包括从来自合成视频图像500的车辆标签504传递的车辆302的图像和车辆标签604。标签604可以被传递到彩色视频图像300，因为标签604是基于合成图像500而生成的，其中合成车辆图像502是基于六DoF数据而生成的，所述六DoF数据是基于车辆302的彩色视频图像而确定的。因此，标签604准确地对应于车辆302的大小、形状、位置和取向，并且包括关于车辆302的标识和姿态的数据，所述数据是基于由生成合成视频图像500的真实感渲染软件输出的数据和由关于图4描述的过程生成的六DoF数据确定的。将车辆标签604添加到真实世界彩色视频图像300生成配对的真实和合成图像，所述配对的真实和合成图像包括类似对象，所述类似对象包括处于具有类似标签的类似位置处的车辆。

图7是生成式对抗网络(GAN)700的图式。GAN 700是可以被训练来修改合成图像数据以使其看起来更像真实世界图像数据的神经网络。如上面关于图5所讨论的，合成图像数据不包括与包括对象、污垢、裂缝、维修等的详细图像特征数据相对应的随机像素数据。可以使用配对的真实世界图像数据和合成图像数据来训练GAN 700以修改合成图像数据以包括详细特征，由此修改合成图像数据以使其看起来更像真实世界图像数据。可以使用配对的真实世界和合成图像数据来训练GAN 700，然后使用所述配对的真实世界和合成图像数据来修改大量(>1000个)合成图像，所述大量合成图像可以用于训练深度神经网络，如下面关于图7所讨论的，以识别并定位在由包括在车辆110中的视频传感器获取的真实世界视频图像中的对象(包括车辆)。真实世界视频图像中的对象的标识和位置可以由车辆110中的计算装置115使用来操作车辆110。

GAN 700包括生成式网络(GEN)704和对抗网络(ADV)708。生成式网络704输入合成视频图像500并使用卷积层修改合成视频图像以对应于真实世界视频图像，并且通过将与真实世界特征和纹理相对应的图像特征添加到合成视频图像500来输出修改的合成图像706。GAN 700被训练以通过对抗网络708生成与真实世界视频图像相对应的修改的合成视频图像706。通过输入(710)配对的合成视频图像500和真实视频图像300以及地面实况(其指示哪个图像是真实的并且哪个图像是合成)来训练对抗网络708。基于输入的配对的合成图像和真实图像以及地面实况，对抗网络708学习区分真实图像和合成图像。在训练对抗网络708之后，训练生成式网络704以通过将结果712从对抗网络708反向传播回生成式网络704来修改输入合成视频图像702以对应于真实世界视频图像，所述结果指示修改的合成图像706对应于真实世界图像的接近程度。

一旦被训练，就可以通过输入(710)配对的真实世界视频图像300以及与真实世界视频图像300相对应的修改的合成图像706以及地面实况(其指示哪些图像是真实的并且哪些图像是合成的)来迭代地训练GAN 700。这种再训练可以提高对抗网络708区分真实图像和合成图像的能力，由此提高输出的修改的合成图像706的质量。

一旦使用配对的真实世界彩色视频图像300和合成视频图像500训练GAN 700，GAN700就可以用于修改在没有配对的真实世界图像的情况下生成的合成视频图像702。以这种方式，可以获得看起来好像它们是由真实世界视频传感器生成的大量修改的合成视频图像以用于训练深度神经网络。训练深度神经网络可能需要包括各种各样的交通场景的数千种或数百万种修改的合成图像。生成数千或数百万个真实世界视频图像并用对象标签对其进行标记可能是非常昂贵且耗时的。本文描述的技术可以通过生成与真实世界视频数据相对应的修改的合成视频图像706来大幅减少生成用于深度神经网络的训练数据的时间和费用，所述修改的合成视频图像包括与由使用配对的真实世界和合成图像数据训练的GAN生成的真实世界图像数据相对应的详细图像特征。修改的合成视频图像706包括训练深度神经网络所需的对象标签数据，因为修改的合成图像706是从合成视频图像500生成的。合成视频图像是从对交通场景的数学描述渲染的，所述数学描述包括关于在合成图像中渲染的对象的六DoF数据，如上面关于图5所讨论的。因为对象是从六DoF数据生成的，所以可以生成的对象标签可以用于训练深度神经网络以识别和定位修改的合成视频数据中的对象。

标记的修改的合成图像706可以用于训练深度神经网络以识别和定位真实世界视频图像中的对象(包括车辆)，因为修改的合成视频图像706对应于逼真的真实世界图像300。因为修改的合成视频图像706是基于关于合成视频图像706中的对象的六DoF数据，所以修改的合成视频图像706包括可以用作关于修改的合成视频图像706中所包括的车辆的标识和位置的地面实况的标签。这种技术改进了对深度神经网络的训练，因为与包括车辆的对象相对应的地面实况数据由渲染软件生成，并且不需要昂贵且耗时的用户处理来确定地面实况数据。修改的合成视频数据706中出现的其他对象可以包括车辆、行人和道路。由GAN 700生成的修改的合成视频图像706可以用于训练深度神经网络以用于操作车辆110，因为修改的合成视频图像706非常类似于真实世界彩色视频图像300。修改的合成视频图像706对应于真实世界彩色视频图像300，因为GAN 700将真实世界图像特征添加到合成视频图像500。真实世界图像特征(包括纹理)包括在真实世界视频图像中出现的道路和物体上的污垢、裂缝、维修、凹痕、划痕等。

图8是可以被训练来操作车辆110的示例性深度神经网络800的图式。深度神经网络800可以是在车辆110中的计算装置115上执行的软件程序。深度神经网络800可以输入由车辆110中所包括的视频传感器获取的彩色视频图像300。视频传感器获取车辆110周围的环境的一个或多个彩色视频图像300。车辆110周围的环境的彩色视频图像300可以包括对象的图像，所述对象包括车辆110周围的车辆302、行人和道路。可以使用大量(>1000个)修改的合成视频图像706来训练深度神经网络800，所述修改的合成视频图像包括关于修改的合成视频图像706中的对象的六DoF数据。可以处理关于修改的合成视频图像中的对象的六DoF数据以确定与合成视频图像706中的对象(包括车辆502)的标识和位置相对应的标签604。因为包括车辆502的对象是基于六DoF数据而确定的，所以标签可以用作地面实况以训练深度神经网络700。

一旦使用修改的合成视频图像706进行训练，深度神经网络700就可以将彩色视频图像300输入到卷积层(CL)804。卷积层804将输入的彩色视频图像300与通过使用修改的合成视频图像706训练深度神经网络800而确定的卷积内核进行卷积，以确定与彩色视频图像中的确定和定位的对象相对应的隐藏变量806。将隐藏变量806输入到全连接层(FL)808，所述全连接层处理隐藏变量806以确定与输入的彩色视频图像300中出现的对象的标识和位置相对应的输出状态810。可以将与彩色视频图像300中的对象的标识和位置相对应的输出状态810传送到车辆110中的计算装置115以用于操作车辆110。例如，计算装置115可以使用输出状态810来确定描述在其上操作车辆110的车辆路径的多项式函数。可以确定车辆路径，使得当车辆110在车辆路径上操作时，车辆110将基于包括在输出状态810中的对象的标识和位置来避免与车辆110周围的环境中的对象接触。

可以通过输入修改的合成视频图像706并使用多组不同的参数多次处理修改的合成视频图像706以对卷积层804和全连接层808进行编程来训练深度神经网络800。对于每组参数，将从这组参数产生的输出状态810反向传播到输入以与和输入的修改的合成视频图像706相对应的地面实况(在该示例中，输入的修改的合成视频图像706中的对象的标识和位置)进行比较。当输出状态810中所包括的标识和位置正确地对应于包括地面实况数据中所包括的对象的标识和位置时，生成输出状态810的这组参数作为学习参数存储在存储器中。将学习参数存储在存储器中以在用深度神经网络处理输入数据时进行调用对应于训练深度神经网络。因为修改的合成视频图像706已经由GAN 700生成以包括与真实世界彩色视频图像300相对应的图像特征，所以深度神经网络800可以成功地识别和定位真实世界彩色视频数据300中的真实世界对象。

图9是相对于图1至7描述的用于训练深度神经网络以操作车辆的过程900的流程图。过程900可以由计算装置的处理器实施，例如，所述处理器将来自传感器的信息作为输入，以及执行命令，以及输出对象信息。过程900包括可以所示顺序执行的多个框。过程900可以替代地或另外包括更少的框，或者可以包括以不同顺序执行的框。

过程900开始于框902，其中获取第一彩色视频图像300。计算装置115可以输入第一彩色视频图像300，并且基于CAD视频图像400，使用将通过处理车辆302的彩色视频图像300来确定的车辆特征402的位置之间的差异最小化的过程来确定第一彩色视频图像中所包括的车辆302的六DoF姿态，如上面关于图4所讨论的。

在框904处，计算装置115生成包括车辆502的合成视频图像500，并且基于如上文关于图6所讨论的在框902处生成的六DoF数据来生成标签604。标签604可以被传递到彩色视频图像300，所述彩色视频图像包括车辆302的图像。标签604包括关于车辆302的标识和位置的数据，可以用作关于车辆302的地面实况，因为它是基于从车辆302的彩色视频图像获取的六DoF数据。

在框906处，计算装置115使用彩色视频图像300和合成视频图像500来训练GAN700以生成修改的合成视频图像706。修改的合成视频图像706用于训练深度神经网络800。通过传播来自多次处理输入的修改的合成视频图像706的结果并将输出状态810与地面实况标签604进行比较来训练深度神经网络800。当深度神经网络生成等于地面实况的输出状态810时，用于生成输出状态810的参数被存储并保存为训练过的深度神经网络的编程参数，如上面关于图8所讨论的。

在框908处，计算装置115使用训练过的深度神经网络800来操作车辆110。训练过的深度神经网络800可以被下载到车辆110中的计算装置115，然后由计算装置115执行。计算装置115可以从车辆110中所包括的视频传感器输入彩色视频图像300，并且将所获取的彩色视频图像300输入到深度神经网络800。深度神经网络800可以基于处理所获取的彩色视频数据300来确定与视频传感器的视野中的对象(包括车辆302)的标识和位置相对应的输出状态810。基于关于视频传感器的视野的位置和取向的数据，计算装置可以确定包括车辆302的对象相对于车辆110的位置。计算装置115可以确定将允许车辆110避免与视野中的对象接触的车辆路径。计算装置可以向车辆控制器112、113、114发出命令以通过基于所获取的彩色视频数据300中的对象(包括车辆302)的位置控制车辆动力传动系统、车辆转向和车辆制动器以控制车辆110来操作车辆110以沿着确定的车辆路径行进，其中车辆路径可以由多项式函数表示。在框908之后，过程900结束。

诸如本文讨论的那些计算装置的计算装置通常各自包括命令，所述命令可由诸如上文所识别的那些计算装置的一个或多个计算装置执行并用于执行上文所描述的过程的框或步骤。例如，上文所讨论的过程框可体现为计算机可执行命令。

计算机可执行命令可根据使用各种编程语言和/或技术创建的计算机程序来编译或解译，所述编程语言和/或技术单独地或组合地包括但不限于：Java^TM、C、C++、Python、Julia、SCALA、Visual Basic、Java Script、Perl、HTML等。一般来说，处理器(例如，微处理器)接收例如来自存储器、计算机可读介质等的命令，并且执行这些命令，从而执行一个或多个过程，包括本文所描述的过程中的一者或多者。此类命令和其他数据可存储在文件中并使用各种计算机可读介质来传输。计算装置中的文件通常是存储在诸如存储介质、随机存取存储器等计算机可读介质上的数据的集合。

计算机可读介质包括参与提供可由计算机读取的数据(例如，命令)的任何介质。这种介质可采用许多形式，包括但不限于非易失性介质、易失性介质等。非易失性介质包括例如光盘或磁盘以及其他持久性存储器。易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。常见形式的计算机可读介质包括例如软磁盘、软盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD、任何其他光学介质、穿孔卡、纸带、带有孔图案的任何其他物理介质、RAM、PROM、EPROM、FLASH-EEPROM、任何其他存储器芯片或盒式磁带或计算机可从其中读取的任何其他介质。

除非本文作出相反的明确指示，否则权利要求中使用的所有术语意图给出如本领域技术人员所理解的普通和通常的含义。具体地，除非权利要求叙述相反的明确限制，否则使用诸如“一个”、“该”、“所述”等单数冠词应被解读为叙述所指示的要素中的一者或多者。

术语“示例性”在本文中以表示示例的意义使用，例如，对“示例性小部件”的引用应被解读为仅指代小部件的示例。

修饰值或结果的副词“大约”意味着形状、结构、测量值、值、确定、计算等可能因材料、机加工、制造、传感器测量、计算、处理时间、通信时间等的缺陷而与确切描述的几何形状、距离、测量值、值、确定、计算等有偏差。

在图式中，相同的附图标记指示相同的元件。此外，可改变这些元件中的一些或全部。关于本文所描述的介质、过程、系统、方法等，应理解，虽然此类过程等的步骤或框已被描述为按照特定顺序的序列发生，但是此类过程可通过以本文所描述的顺序以外的顺序执行所描述步骤来实践。还应理解，可同时执行某些步骤，可添加其他步骤，或者可省略本文所描述的某些步骤。换句话说，本文对过程的描述是出于说明某些实施例的目的而提供的，并且决不应解释为限制所要求保护的发明。

根据本发明，提供了一种计算机，所述计算机具有处理器和存储器，所述存储器包括可由所述处理器执行以进行以下操作的指令：确定用于第一视频图像中的第一对象的六自由度(DoF)数据；基于所述六DoF数据生成与所述第一视频图像相对应的合成视频图像，所述合成视频图像包括合成对象和合成对象标签；基于配对的第一视频图像和合成视频图像来训练生成式对抗网络(GAN)以生成修改的合成图像；训练深度神经网络以基于所述合成对象标签在所述修改的合成视频图像中定位所述合成对象；以及将所述训练过的深度神经网络下载到车辆中的计算装置。

根据一个实施例，所述合成视频图像通过真实感渲染生成以与所述第一视频图像相对应，包括基于所述六DoF数据将所述合成对象渲染为与所述第一视频图像中的所述第一对象的标识和位置相对应。

根据一个实施例，所述六DoF数据包括三维(3-D)空间中的位置和3-D空间中的取向，这两者都是相对于正交三维轴确定的，其中所述正交三维轴是相对于全球坐标系确定的。

根据一个实施例，所述全球坐标系是基于纬度、经度和海拔，位置以x坐标、y坐标和z坐标测量位置，并且通过相对于所述全球坐标系指定的侧倾、俯仰和横摆测量取向。

根据一个实施例，本发明的特征还在于用于进行以下操作的指令：通过使用机器视觉技术处理所述第一视频图像来确定所述六DoF数据，以确定所述第一视频图像中的所述第一对象上的第一数据点的位置与通过测量所述第一对象或所述第一对象的工程制图中的一者或多者上的数据点的位置确定的测量数据点的位置之间的对应关系。

根据一个实施例，本发明的特征还在于用于进行以下操作的指令：通过凭借非线性曲线拟合将所述第一数据点的位置与所述测量数据点的位置之间的差异最小化来确定所述六DoF数据。

根据一个实施例，本发明的特征还在于用于进行以下操作的指令：基于所述第一对象的工程制图和虚拟相机视角来确定所述六DoF数据。

根据一个实施例，所述虚拟相机视角包括所述虚拟相机的光轴的六DoF数据和所述虚拟相机的放大倍数数据。

根据一个实施例，所述GAN包括生成式网络和对抗网络。

根据一个实施例，所述GAN将来自所述第一视频图像的图像特征数据添加到所述合成视频图像以生成所述修改的合成视频图像。

根据一个实施例，所述深度神经网络包括卷积层和全连接层。

根据一个实施例，本发明的特征还在于用于以下操作的指令：训练所述深度神经网络以通过将反向传播的输出状态与所述合成对象标签进行比较来定位所述第一对象。

根据一个实施例，本发明的特征还在于用于以下操作的指令：通过使用所述下载的深度神经网络处理所获取的视频数据以在所述获取的视频数据中定位一个或多个对象来操作所述车辆。

根据一个实施例，本发明的特征还在于用于以下操作的指令：通过基于所述获取的视频数据中的所述一个或多个对象的位置控制车辆动力传动系统、转向和制动来操作所述车辆。

根据本发明，提供了一种方法，所述方法包括：确定用于第一视频图像中的第一对象的六自由度(DoF)数据；基于所述六DoF数据生成与所述第一视频图像相对应的合成视频图像，所述合成视频图像包括合成对象和合成对象标签；基于配对的第一视频图像和合成视频图像来训练生成式对抗网络(GAN)以生成修改的合成图像；训练深度神经网络以基于所述合成对象标签在所述修改的合成图像中定位对象；以及将所述训练过的深度神经网络下载到车辆中的计算装置。

在本发明的一方面，所述合成视频图像通过真实感渲染过程生成以与所述第一视频图像相对应，包括基于所述六DoF数据将所述合成对象渲染为与所述第一视频图像中的所述第一对象的位置相对应。

在本发明的一方面，所述六DoF数据包括三维(3-D)空间中的位置和3-D空间中的取向，这两者都是相对于正交三维轴确定的，其中所述正交三维轴是相对于全球坐标系确定的。

在本发明的一方面，所述全球坐标系是基于纬度、经度和海拔，以x坐标、y坐标和z坐标测量位置，并且通过相对于所述全球坐标系指定的侧倾、俯仰和横摆测量取向。

在本发明的一方面，所述方法包括：通过使用机器视觉技术处理所述第一视频图像来确定所述六DoF数据，以确定所述第一视频图像中的所述第一对象上的第一数据点的位置与通过测量所述第一对象或所述第一对象的工程制图中的一者或多者上的数据点的位置确定的测量数据点的位置之间的对应关系。

在本发明的一方面，所述方法包括：通过凭借非线性曲线拟合将所述第一数据点的位置与所述测量数据点的位置之间的差异最小化来确定六DoF数据。

Claims

1.一种方法，其包括：

确定用于第一视频图像中的第一对象的六自由度(DoF)数据；

基于所述六DoF数据生成与所述第一视频图像相对应的合成视频图像，所述合成视频图包括合成对象和合成对象标签；

基于配对的第一视频图像和合成视频图像来训练生成式对抗网络(GAN)以生成修改的合成图像；

训练深度神经网络以基于所述合成对象标签在所述修改的合成图像中定位对象；以及

将所述训练过的深度神经网络下载到车辆中的计算装置。

2.如权利要求1所述的方法，其中所述合成视频图像通过真实感渲染过程生成以与所述第一视频图像相对应，包括基于所述六DoF数据将所述合成对象渲染为与所述第一视频图像中的所述第一对象的位置相对应。

3.如权利要求1所述的方法，其中所述六DoF数据包括三维(3-D)空间中的位置和3-D空间中的取向，这两者都是相对于正交三维轴确定的，其中所述正交三维轴是相对于全球坐标系确定的。

4.如权利要求3所述的方法，其中所述全球坐标系是基于纬度、经度和海拔，以x坐标、y坐标和z坐标进行测量位置，并且通过相对于所述全球坐标系指定的侧倾、俯仰和横摆测量取向。

5.如权利要求1所述的方法，其还包括通过使用机器视觉技术处理所述第一视频图像来确定所述六DoF数据，以确定所述第一视频图像中的所述第一对象上的第一数据点的位置与通过测量所述第一对象或所述第一对象的工程制图中的一者或多者上的数据点的位置确定的测量数据点的位置之间的对应关系。

6.如权利要求5所述的方法，其还包括通过凭借非线性曲线拟合将所述第一数据点的位置与所述测量数据点的位置之间的差异最小化来确定六DoF数据。

7.如权利要求6所述的方法，其还包括基于第一对象的工程制图和虚拟相机视角来确定所述六DoF数据。

8.如权利要求7所述的方法，其中所述虚拟相机视角包括所述虚拟相机的光轴的六DoF数据和所述虚拟相机的放大倍数数据。

9.如权利要求1所述的方法，其中所述GAN包括生成式网络和对抗网络。

10.如权利要求1所述的方法，其中所述GAN将来自所述第一视频图像的图像特征数据添加到所述合成视频图像以生成所述修改的合成视频图像。

11.如权利要求1所述的方法，其中所述深度神经网络包括卷积层和全连接层。

12.如权利要求11所述的方法，其还包括训练所述深度神经网络以通过将反向传播的输出状态与所述合成对象标签进行比较来定位所述第一对象。

13.如权利要求1所述的方法，其还包括通过使用所述下载的深度神经网络处理所获取的视频数据以在所述获取的视频数据中定位一个或多个对象来操作所述车辆。

14.如权利要求13所述的方法，其还包括通过基于所述获取的视频数据中的所述一个或多个对象的位置控制车辆动力传动系统、转向和制动来操作所述车辆。

15.一种系统，其包括被编程为执行如权利要求1至14中任一项所述的方法的计算机。