CN111137301A

CN111137301A - 车辆语言处理

Info

Publication number: CN111137301A
Application number: CN201911035487.6A
Authority: CN
Inventors: 阿尔潘·库萨利
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2018-11-01
Filing date: 2019-10-29
Publication date: 2020-05-12
Also published as: DE102019129232A1; US20200142420A1; US10831208B2

Abstract

本公开提供了“车辆语言处理”。一种计算系统可以被编程为基于输入到使用包括变分自动编码器(VAE)的逆强化学习(IRL)系统训练的深度神经网络(DNN)的车辆传感器数据来确定车辆动作。所述计算系统还可以被编程为基于所述车辆动作来操作车辆。

Description

车辆语言处理

技术领域

本公开总体上涉及车辆计算系统，并且更具体地涉及车辆语言处理。

背景技术

车辆可以被装备成以自主模式和乘员驾驶模式这两种模式操作。车辆可以被装备有计算装置、网络、传感器和控制器以获取关于车辆环境的信息并且基于所述信息来操作车辆。车辆的安全和舒适的操作可以取决于获取关于车辆环境的准确且及时的信息。车辆传感器可以提供关于要行驶的路线和要在车辆环境中避开的对象的数据。车辆的安全且有效的操作可以取决于当车辆正在道路上操作时获取关于车辆环境中的路线和对象的准确且及时的信息。

发明内容

车辆可以被装备成以自主模式和乘员驾驶模式这两种模式操作。通过半自主模式或完全自主模式，意指一种操作模式，其中车辆可以部分地或全部地由计算装置作为具有传感器和控制器的车辆信息系统的一部分来驾驶。车辆可以被占用或未被占用，但是在任一种情况下，车辆都可以在没有乘员帮助的情况下被部分地或完全地驾驶。出于本公开的目的，自主模式被限定为其中车辆推进(例如，经由包括内燃发动机和/或电动马达的动力传动系统)、制动和转向中的每一者由一个或多个车辆计算机控制的模式；在半自主模式下，车辆计算机控制车辆推进、制动和转向中的一者或两者。在非自主车辆中，这些中没有一个由计算机控制。

车辆中的计算装置可以被编程为获取关于车辆外部环境的数据并且使用所述数据来确定用于以自主或半自主模式操作车辆的车辆轨迹。例如，计算装置可以向控制器(例如，电子控制单元或ECU)提供信息以在包括其他车辆和行人的对象的位置的交通中的道路上操作车辆。基于传感器数据，计算装置可以确定在存在其他车辆和行人的情况下车辆行驶以到达道路上的目的地的路径多项式，其中路径多项式是描述当车辆从道路上的第一位置移动到道路上的第二位置时连接车辆的连续位置的直线或曲线的多项式函数。计算装置可以基于可以用于操作道路上的车辆的路径多项式来确定车辆轨迹。本文讨论了一种用于基于输入到变分自动编码器(VAE)的车辆传感器数据来确定车辆(奖励函数)的行为的技术。然后，奖励函数被用于使用被限定为深层神经网络的策略网络来获得重构策略。

本文公开了一种方法，其包括：基于输入到使用包括变分自动编码器(VAE)的逆强化学习(IRL)系统训练的深度神经网络(DNN)的车辆传感器数据来确定车辆动作；以及基于车辆动作来操作车辆。可以使用VAE来训练DNN以生成重构策略。重构策略可以基于车辆状态和潜在奖励函数。对抗鉴别器网络可以鉴别重构策略和专家策略。专家策略可以基于具有N个轨迹的车辆。可以使用重构策略来恢复专家策略和潜在奖励函数。车辆传感器数据可以包括来自左车道、右车道和同一车道中的相邻车辆的距离和相对速度。

车辆动作可以包括三种车辆速度变化模式，所述三种车辆速度变化模式包括更高速度、更低速度和无变化。车辆动作可以包括三种车辆横向位置变化模式，所述三种车辆横向位置变化模式包括左车道变换操纵、同一车道和右车道变换操纵。VAE可以包括策略处理块，所述策略处理块基于奖励和专家状态来确定重构的动作。VAE可以包括鉴别器处理块，所述鉴别器处理块基于所述重构的动作和所述专家动作、基于所述重构的动作和所述专家动作的相似性来确定处理后的奖励。DNN基于处理后的奖励更新潜在的计算信息。可以基于车辆动作来确定路径多项式。操作车辆可以包括基于路径多项式指示车辆动力传动系统、制动部件和转向部件。

还公开了一种存储用于执行上述方法步骤中的一些或全部的程序指令的计算机可读介质。还公开了一种计算机，所述计算机被编程为执行上述方法步骤中的一些或全部，所述计算机包括计算机设备，其被编程为基于输入到使用包括变分自动编码器(VAE)的逆强化学习(IRL)系统训练的深度神经网络(DNN)的车辆传感器数据来确定车辆动作，以及基于车辆动作来操作车辆。可以使用VAE来训练DNN以生成重构策略。重构策略可以基于车辆状态和潜在奖励函数。对抗鉴别器网络可以鉴别重构策略和专家策略。专家策略可以基于具有N个轨迹的车辆。可以使用重构策略来恢复专家策略和潜在奖励函数。车辆传感器数据可以包括来自左车道、右车道和同一车道中的相邻车辆的距离和相对速度。

计算机设备还可以被编程为在车辆动作中包括三种车辆速度变化模式，所述三种车辆速度变化模式包括更高速度、更低速度和无变化。车辆动作可以包括三种车辆横向位置变化模式，所述三种车辆横向位置变化模式包括左车道变换操纵、同一车道和右车道变换操纵。VAE可以包括策略处理块，所述策略处理块基于奖励和专家状态来确定重构的动作。VAE可以包括鉴别器处理块，所述鉴别器处理块基于所述重构的动作和所述专家动作、基于所述重构的动作和所述专家动作的相似性来确定处理后的奖励。DNN基于处理后的奖励更新潜在的计算信息。可以基于车辆动作来确定路径多项式。操作车辆可以包括基于路径多项式指示车辆动力传动系统、制动部件和转向部件。

附图说明

图1是示例性交通基础设施系统的框图。

图2是示例性交通场景的图。

图3是示例逆强化学习(IRL)系统的图。

图4是基于车辆轨迹操作车辆的示例过程的流程图。

具体实施方式

图1是交通基础设施系统100的图，所述车辆信息系统包括可以在自主(“自主”本身在本公开中意指“完全自主”)模式下和乘员驾驶(也称为非自主)模式下操作的车辆110。车辆110还包括用于在自主操作期间执行用于驾驶车辆110的计算的一个或多个计算装置115。计算装置115可以从传感器116接收关于车辆的操作的信息。计算装置115可以以自主模式、半自主模式或非自主模式来操作车辆110。出于本公开的目的，将自主模式限定为由计算装置控制车辆110的推进、制动和转向中的每一者的模式；在半自主模式下，计算装置115控制车辆110的推进、制动和转向中的一者或两者；在非自主模式下，操作人员控制车辆的推进、制动和转向。

计算装置115包括诸如已知的处理器和存储器。此外，存储器包括一种或各种形式的计算机可读介质，并且存储可由处理器执行以执行包括如本文所公开的各种操作的指令。例如，计算装置115可以包括编程来操作车辆制动、推进(例如，通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆110的加速度)、转向、气候控制、内部和/或外部灯等中的一者或多者，以及确定计算装置115而不是操作人员是否控制这种操作和何时控制这种操作。

计算装置115可以包括或例如经由如下文进一步描述的车辆通信总线联接到一个以上的计算装置(例如，其包括在车辆110中以用于监测和/或控制各种车辆部件的控制器(例如，动力传动系统控制器112、制动控制器113、转向控制器114等))。计算装置115通常被布置为用于在车辆通信网络(例如，其包括车辆110中的总线，诸如控制器局域网(CAN)等)上进行通信；车辆110网络可以另外地或替代地包括诸如已知的有线或无线通信机制，诸如以太网或其他通信协议。

经由车辆网络，计算装置115可以向车辆中的各种装置(例如，控制器、致动器、传感器(包括传感器116)等)传输消息和/或从这些装置接收消息。替代地或另外地，在计算装置115实际上包括多个装置的情况下，车辆通信网络可以用于本公开中被表示为计算装置115的装置之间的通信。此外，如下所述，各种控制器或感测元件(诸如传感器116)可以经由车辆通信网络向计算装置115提供数据。

另外，计算装置115可以被配置为用于经由网络130经由车辆对基础设施(V对I)接口111与远程服务器计算机120(例如，云服务器)进行通信，如下所述，所述接口111包括允许计算装置115经由诸如无线互联网(Wi-Fi)或蜂窝网络的网络130与远程服务器计算机120通信的硬件、固件和软件。因此，V对I接口111可以相应地包括处理器、存储器、收发器等，它们被配置为利用各种有线和/或无线联网技术，例如蜂窝、

和有线和/或无线分组网络。计算装置115可以被配置为用于使用在附近车辆110间在移动自组网的基础上形成或通过基于基础设施的网络形成的车辆对车辆(V对V)网络(例如，根据专用短距离通信(DSRC)和/或类似的通信)通过V对I接口111与其他车辆110通信。计算装置115还包括诸如已知的非易失性存储器。计算装置115可以经由将信息存储在非易失性存储器中来记录信息，以用于稍后经由车辆通信网络和通向服务器计算机120或用户移动装置160的车辆对基础设施(V对I)接口111来进行检索和传输。

如已经提到的，通常包括在存储在存储器中且可由计算装置115的处理器执行的指令中的是用于操作一个或多个车辆110部件(例如，制动、转向、推进等)而无需人类操作员的干预的编程。使用在计算装置115中接收的数据(例如，来自传感器116、服务器计算机120等的传感器数据)，计算装置115可以在没有驾驶员操作车辆110的情况下作出各种确定和/或控制各种车辆110部件和/或操作。例如，计算装置115可以包括编程来调节车辆110操作行为(即，车辆110操作的物理表现)，诸如速度、加速度、减速度、转向等，以及策略性行为(即，典型地以预期实现路线的安全且有效行驶的方式进行的操作行为控制)，诸如在车辆之间的距离和/或在车辆之间的时间量、车道变换、在车辆之间的最小间隙、左转跨过路径最小值、在特定位置处的到达时间和为了通过十字路口的十字路口(无指示灯)最小到达时间。

控制器(如所述术语在本文中所使用的那样)包括典型地被编程以控制特定车辆子系统的计算装置。示例包括动力传动系统控制器112、制动器控制器113和转向控制器114。控制器可以是诸如已知的电子控制单元(ECU)，可能包括如本文所描述的另外的程序。控制器可以通信地连接到计算装置115并且从计算装置115接收指令以根据指令致动子系统。例如，制动控制器113可以从计算装置115接收指令以操作车辆110的制动器。

用于车辆110的一个或多个控制器112、113、114可以包括已知的电子控制单元(ECU)等，作为非限制性示例，其包括一个或多个动力传动系统控制器112、一个或多个制动控制器113和一个或多个转向控制器114|。控制器112、113、114中的每一个可以包括相应的处理器和存储器以及一个或多个致动器。控制器112、113、114可以被编程并连接到车辆110通信总线，诸如控制器局域网(CAN)总线或本地互连网络(LIN)总线，以从计算机115接收指令并且基于所述指令而控制致动器。

传感器116可以包括已知用于经由车辆通信总线提供数据的各种装置。例如，固定到车辆110的前保险杠(未示出)的雷达可提供从车辆110到车辆110前方的下一车辆的距离，或者设置在车辆110中的全球定位系统(GPS)传感器可提供车辆110的地理坐标。由雷达和/或其他传感器116提供的距离和/或由GPS传感器提供的地理坐标可由计算装置115使用来自主地或半自主地操作车辆110。

车辆110通常是能够自主和/或半自主操作并且具有三个或更多个车轮的基于地面的自主车辆110(例如，客车、轻型载货汽车等)。车辆110包括一个或多个传感器116、V对I接口111、计算装置115和一个或多个控制器112、113、114。传感器116可以收集与车辆110和车辆110正在操作所处的环境相关的数据。作为示例而非限制，传感器116可以包括诸如高度计、相机、激光雷达、雷达、超声波传感器、红外传感器、压力传感器、加速度计、陀螺仪、温度传感器、压力传感器、霍尔传感器、光学传感器、电压传感器、电流传感器、诸如开关的机械传感器等，等等。传感器116可以用来感测车辆110的操作环境，例如，传感器116可以检测诸如天气条件(降水、外部环境温度等)的现象、道路坡度、道路位置(例如，使用道路边缘、车道标记等)或目标对象(诸如邻近车辆110)的位置。传感器116还可以用于收集数据，所述数据包括与车辆110的操作相关的动态车辆110数据(诸如速度、横摆率、转向角、发动机转速、制动压力、油压、施加到车辆110中的控制器112、113、114的功率电平、部件之间的连接性以及车辆110的部件的准确且及时性能)。

图2是包括在车道204中的道路202上操作的车辆110的示例交通场景200的图。车辆110在道路202上的操作可由路径多项式212、214、216表示，所述路径多项式212、214、216在本文中被共同地并且单独地由附图标记218表示。路径多项式218是在车辆矢量上计算的三次或更少的多项式函数，所述车辆矢量可以包括3D(维度)车辆轨迹数据，其中车辆轨迹是包括车辆3D姿态和车辆3D加速度的矢量，其中3D姿态包括x、y和z空间坐标以及相对于诸如纬度、经度和高度的坐标系的侧倾、俯仰和横摆旋转坐标，并且3D加速度包括x、y、z线性方向和侧倾、俯仰和横摆旋转方向上的加速度。为了计算的目的，3D车辆轨迹数据可以被表达为平行于道路的平面中的2D(维度)位置、平面中的2D方向、2D方向上的速度以及相对于2D方向的横向加速度和纵向加速度，所有这些都相对于车辆110的运动。车辆110中的计算装置115可以通过估计车辆110的未来轨迹数据来确定路径多项式218。

未来轨迹数据可以基于交通场景200中确定的目的地位置或目标位置来估计，然后基于确定以目标速度到达目的地位置或目标的一系列位置，同时限制由于转向、制动和动力传动系统而导致的横向(横摆)和纵向(x)加速度。横向加速度和纵向加速度的上限和下限可以基于用户输入限制。然后，计算装置115可以使用路径多项式来确定用于控制器112、113、114的指令，以基于车辆110的数学模型来使车辆动力传动系统、转向和制动操作。车辆110的数学模型是在计算装置115上执行的计算机程序，所述计算机程序可以响应于动力传动系统、转向和制动指令来预测车辆110的真实世界行为。可以通过记录与控制器指令对应的多个控制器指令和车辆110轨迹并且确定车辆110轨迹和控制器指令之间的数学关系来以经验确定车辆110的数学模型。计算装置115可以使用以经验确定的车辆110的数学模型来确定将致使车辆110根据将导致车辆110沿着路径多项式218操作的轨迹在空间中移动的控制器指令。

包括在示例交通场景200中的是在道路202上操作的其他车辆210、220、222，在本文中共同地并且单独地由附图标记224指代。车辆110可以根据车辆命令在道路202上行驶，车辆命令是描述车辆110的操作的指令，计算装置115可以使用所述指令来确定操作车辆110的路径多项式218。例如，计算装置115可以执行指示车辆110维持道路202上的车道204、206、208中的目标速度的车辆命令。在交通场景200中的示例中，第一车辆或主车辆110可以在同一车道204中以比第二车辆210更高的速度行驶。如果车辆110不改变其速度和/或方向，则可能发生与其他车辆210的碰撞或接近碰撞。在交通场景200的示例中，车辆110可以减速以匹配由路径多项式214示出的其他车辆210的速度，或者执行由路径多项式212、216示出的左车道或右车道变换或超车操纵。

例如，计算装置115可以使用深度神经网络(DNN)来确定如何响应由交通场景200示出的交通状况。基于车辆传感器116的数据输入，DNN可以输出车辆命令，计算装置115可以使用所述车辆命令根据行驶计划改变车辆速度和位置。例如，车辆传感器116数据可以包括视频传感器数据、激光雷达传感器数据和雷达传感器数据。例如，车辆传感器116数据可以包括由计算装置115处理以确定包括其他车辆和行人的对象的车辆传感器116数据。当车辆110在道路202上行驶时，计算装置可以处理车辆传感器116数据以确定相对于车辆110周围环境中(即，在传感器116的范围内)的对象的距离、方向和相对速度。

计算装置115可以通过将基于车辆传感器116数据的车辆状态输入到DNN中来确定如何响应交通状况，其中DNN被编程为响应于车辆状态而输出车辆动作。例如，车辆传感器数据可以包括道路202的车道204、206、208中的其他车辆224的距离和相对速度。DNN可以输入车辆状态并且输出可由计算装置115用来操作车辆110的车辆动作。使用本文所讨论的技术，通过计算装置115使用用包括变分自动编码器(VAE)的逆强化学习(IRL)系统训练的深层神经网络(DNN)基于车辆传感器数据确定对交通场景200的响应，来改善车辆110的操作。

被训练为基于输入车辆状态输出车辆动作的DNN是运行马尔可夫决策过程(MDP)的专家系统，其中车辆状态转换概率p(s_t+1|s_t，a_t)基于当前状态s_t和当前车辆动作a_t表征下一车辆状态s_t+1。在接收到当前车辆状态s_t时，DNN输出车辆动作a_t。训练DNN是基于标量奖励r_t，以及基于来自环境的经验或模拟数据确定的新车辆状态s_t+1。为了确定标量奖励，可以最大化奖励或值函数v^t的累积折扣总和：

其中0≤γ≤1是折扣因子并且r_t是在时间t的奖励。

由于未知、不完整、缺失或错误的数据，DNN输出可能欠定。通过基于未知或不完全已知的数据，用于车辆110的累积奖励函数v^t可能是难解的。例如，累积奖励函数v^t可以基于其他车辆224的预测的未来动作，或者在计算累积奖励时未知的其他事件。由于这些未知因素，用于计算奖励函数的等式可能欠定。欠定等式具有比已知输入更多的未知结果，并且因此可以用多于一种的解决方案来正确求解，并且在一些示例中可以用无限数量的解决方案来正确求解。可以使用特殊技术来计算欠定函数。例如，马尔可夫链蒙特卡罗(MCMC)技术可以随机地采样解空间并且允许优化奖励函数计算以克服欠定等式。MCMC技术可能需要关于马尔可夫(Markov)过程的先验信息来选择允许MCMC过程收敛的线性编程模型的参数。

本文描述的技术可以通过使用被称为变分自动编码器(VAE)的神经网络近似推断模型来确定奖励函数来改善DNN训练以允许DNN在无需先验信息的情况下求解欠定等式。VAE包括：策略优化网络，用于通过组合基于先前经验专家策略的潜在奖励函数，从车辆状态生成重构策略；以及对抗鉴别器网络，用于鉴别重构策略和专家策略。变分自动编码器通过生成分布在重构策略的解空间上的多个重构策略并且确定多个重构策略中的哪些重构策略与专家策略匹配来解决欠定等式的问题。本文描述的技术使用包括鉴别器网络的对抗过程来确定由编码器神经网络生成的策略是否是专家策略。使用对抗过程，可以训练神经网络来生成通常与专家策略无法区分的重构策略。

图3是示例逆强化学习(IRL)系统300的图。IRL系统300是被配置为执行非线性贝叶斯逆强化学习的专家系统。专家系统是机器智能系统，其可以输入例如关于车辆周围环境的状态信息，并且基于潜在的内部状态，输出车辆动作。IRL系统300包括神经网络编码器处理块306。神经网络编码器处理块306是概率编码器。真的奖励函数是难解的，近似的奖励函数可以假设为具有对角协方差结构的多元高斯函数，如下所示：

其中

是p(z，x)的近似值，联合概率密度对应于观测值x＝x_1：n和潜在变量z＝z_1：m。

是用于潜在变量z的多变量高斯概率密度分布，其中均值μ和方差σ²限定在一组难解的奖励函数I上。

编码器处理块306可以输入包括关于相对于其他车辆224的距离、方向和相对速度的信息的专家状态302，并且输入包括车辆轨迹的专家动作304，并且使用输入的专家状态302和专家动作304来通过奖励编码器处理块306用于基于专家状态302计算专家动作304训练编码器处理块306。可以基于包括相对于其他车辆224的距离、方向和相对速度的关于车辆周围环境的车辆传感器数据来确定专家状态302。专家动作304可以是基于关于由计算装置115响应于由计算装置115记录的专家动作304而执行的真实世界车辆命令的经验数据确定的车辆命令。计算装置115还可以确定关于如等式(1)中限定的对应于专家状态302和专家动作304的累积奖励函数v^t的信息。关于累积奖励函数v^t的信息可以作为概率密度分布存储在先前处理块310处。

可以为多个交通场景200中的多个车辆110记录车辆状态和车辆动作，连同关于对应于车辆状态和车辆动作的累积奖励的概率分布的信息。可以获取和处理关于对应于来自车辆动作的结果的奖励的概率分布的信息，以形成对应于专家状态302和专家动作304的累积奖励的专家概率分布。可以通过将车辆轨迹的数量限制为数量N来限制专家状态302和专家动作302的数量，其中N可以大于100。例如，可以通过选择将N限制为可计算求解的数量的车辆轨迹矢量中的位置、方向和速度信息的采样率和分辨率来确定N。通过将车辆轨迹的数量限制为N，可以针对车辆轨迹来列举专家状态302和专家动作304，并且可以针对列举的专家状态302和专家动作304计算累积奖励的概率分布。

可以基于使用模拟数据获取专家状态302和专家动作304来计算累积奖励的概率分布。可以使用基于视频游戏技术的计算技术来模拟交通场景200和车辆110的操作。用于确定视频游戏中的车辆的现实显示的技术可以用于确定包括到其他车辆224的距离的专家状态302。视频游戏技术可用于基于专家状态302来确定专家动作304，并提供信息以允许计算装置115确定累积奖励函数v^t。例如，可以通过在专家状态302的多个条件下执行多个模拟来确定累积奖励函数v^t的概率分布。

编码器处理块306可以基于输入专家状态302来计算专家动作304，并且将专家动作304和专家状态302两者输出308到先前处理块310。先前处理块基于先前从真实世界数据和如上所述的模拟数据获取的累积奖励函数v^t的概率分布来确定奖励314。先前处理块可以基于专家动作304和专家状态302基于累积奖励函数v^t的概率分布来确定奖励314，并且向策略处理块316输出奖励314。

策略处理块316是神经网络，所述神经网络根据下面的等式(4)基于奖励314和输入专家状态302来确定重构的动作318。重构的动作318被输出到鉴别器处理块320，以确定重构的动作318是否与专家动作304无法区分。

鉴别器处理块320是确定重构的动作318是否等于输入专家动作304的神经网络。鉴别器块320可以通过执行鉴别器函数来确定重构的动作318是否等于输入专家动作304。鉴别器函数是根据下面的等式(3)确定重构的动作318和专家动作304之间的相似性的函数。如果重构的动作318被确定为类似于专家动作304，其中相似性由用户输入限定，则鉴别器函数输出“真”或“真实”结果。如果重构的动作318被确定为不类似于(如用户输入所限定的)专家动作304，则鉴别器函数输出“假”或“虚假”结果。鉴别器处理块320可以将鉴别器损失函数应用于奖励314，且将处理后的奖励322输出到编码器处理块306，以用处理后的奖励322更新编码器处理块306。

鉴别器处理块320通过根据以下等式计算鉴别器损失来区分专家动作和重构的动作：

其中D是鉴别器函数，其基于重构的动作π_R与专家动作的相似程度来对重构的动作π_R和专家动作π_E进行评分。根据损失函数，策略处理块316损失被构造为来自编码器处理块306和先前处理块310的加权对数似然损失的总和：

其中π_R是重构的动作，并且r(s_m，a_m)是针对专家状态302s_m和专家动作304a_m的多个不同样本m的奖励函数。似然损失是通过将交叉熵误差函数和鉴别器损失(根据上面的等式(3))相加而给出的：

以及发散损失由上述等式(2)中给出的后验和先验奖励函数之间的Kullback-Lieber(KL)发散给出。

L_发散＝KL(q_φ(z|x_i)||p(z)) (6)

Kullback-Lieber发散是对应于后验和先验奖励函数的概率分布之间的差的信息损失度量。

IRL系统300可以处理多个专家状态302和专家动作304对，对每个对进行多次处理，以生成存储在编码器处理块306处的编程信息。在训练具有多个专家状态302和专家动作304对的IRL系统300之后，可以将编码器处理块306中包括的编程信息上传到计算装置115并且存储在非易失性存储器中。编程信息可由计算装置115下载到类似于编码器处理块306配置的DNN。编程的DNN可以基于输入车辆状态信息来确定车辆动作。尽管具有不完整或缺失的累积奖励信息，但是来自DNN的车辆动作输出将类似于由IRL系统300输出的专家动作。

IRL系统300可以通过基于车辆状态确定车辆动作来改善车辆110的操作，其中车辆状态和车辆动作不包括足够的信息来确定累积奖励函数。使用包括VAE的IRL系统300，其中VAE包括策略处理块316和鉴别器320，计算装置115可以训练编码器处理块306并且将编程信息传送到类似于编码器处理块配置的DNN以基于输入车辆状态来确定车辆动作。

图4是结合图1至图3描述的用于基于由用IRL训练的DNN确定的车辆动作来操作车辆的过程7400的流程的图。可由计算装置115的处理器实现过程400，例如，将来自传感器116的信息作为输入，并经由控制器112、113、114执行命令并发送控制信号。过程400包括以所公开的顺序采取的多个框。过程400还包括包含较少框的实现方式，或者可以包括以不同顺序采取的框。

过程400在框402处开始，其中使用如以上关于图3所讨论的IRL系统300来训练DNN。IRL系统300输入专家状态302，所述专家状态302包括包含其他车辆224的距离、方向和相对速度的关于车辆110环境中的对象的信息。关于车辆环境中的对象的信息包括基于车辆传感器116数据确定的信息。IRL系统300输入专家动作304，所述专家动作304包括包含车辆动作的车辆动作。车辆动作可以包括车辆轨迹，其中车辆轨迹包括在道路202上操作车辆110的方向。基于多个输入专家状态302和专家动作304以及基于经验证据确定的专家概率分布，IRL系统300可以训练DNN以响应于输入车辆状态而输出车辆轨迹和奖励。

在框404处，计算装置115获取包括视频传感器数据、激光雷达传感器数据和雷达传感器数据的车辆传感器116数据，以确定车辆110环境中的其他车辆224的距离、方向和相对速度。其他车辆224的距离、方向和相对速度由受过训练的DNN处理，以确定车辆动作和奖励，其中奖励是[0…1]范围内的数字。在此示例中，速度越快，奖励可能为正数(+0.1)，而速度越慢，奖励可能为零。针对碰撞或离开道路可以奖励大的负奖励(-2)。车辆动作空间可以包括车辆轨迹，所述车辆轨迹包括三种车辆速度变化模式(更高速度/更低速度/无变化)和三种横向位置变化模式(移动左车道/同一车道/移动右车道)。

在框406处，计算装置115基于在框404处输出的车辆动作来操作车辆110，如上文关于图2所讨论的。计算装置115可以通过基于车辆命令确定路径多项式218来操作车辆110。路径多项式将包括车辆轨迹，所述车辆轨迹包括来自三种车辆速度变化模式中的一个的速度以及来自三种横向位置变化模式中的一个的位置和方向。计算装置115可以经由控制器112、113、114确定指示车辆动力传动系统、制动和转向的指令，以沿着路径多项式218操作车辆110，且由此在框404处完成车辆动作输出。在框406之后，过程400结束。

诸如本文所讨论的那些计算装置通常各自包括可由一个或多个计算装置(诸如上文所识别的那些计算装置)执行并且用于执行上述过程的框或步骤的命令。例如，上文讨论的过程框可以被体现为计算机可执行命令。

计算机可执行命令可由使用各种编程语言和/或技术创建的计算机程序来编译或解译，所述编程语言和/或技术单独地或组合地包括但不限于以下各项：Java^TM、C、C++、Visual Basic、Java Script、Perl、HTML等。通常，处理器(例如，微处理器)接收例如来自存储器、计算机可读介质等的命令，并且执行这些命令，由此执行一个或多个过程，所述一个或多个过程包括本文所述的过程中的一个或多个。可以使用多种计算机可读介质来将这种命令和其他数据存储在文件中并传输此类命令和其他数据。计算装置中的文件通常是存储在计算机可读介质(诸如存储介质、随机存储存储器等)上的数据的集合。

计算机可读介质包括参与提供可由计算机读取的数据(例如，命令)的任何介质。这种介质可采取许多形式，其包括但不限于非易失性介质、易失性介质等。非易失性介质包括例如光盘或磁盘以及其他永久性存储器。易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD、任何其他光学介质、穿孔卡、纸带、任何其他具有孔图案的物理介质、RAM、PROM、EPROM、FLASH-EEPROM、任何其他存储器芯片或盒式磁带，或计算机可从中读取的任何其他介质。

除非本文作出相反的明确指示，否则权利要求中使用的所有术语意图给出如本领域技术人员所理解的普通和通常的含义。特别地，除非权利要求陈述了相反的明确限定，否则单数冠词“一”、“该”、“所述”等的使用应被理解为叙述一个或多个所指示的要素。

本文中使用的术语“示例性”是表示示例的意义，例如对于“示例性小部件”的提及应被解读为简单地指代小部件的示例。

修饰值或结果的副词“约”是指形状、结构、测量、值、确定、计算结果等可以因材料、加工、制造、传感器测量、计算、处理时间、通信时间等的缺陷等而与确切描述的几何结构、距离、测量、值、确定、计算结果等有偏差。

在附图中，相同的附图标记表示相同的要素。此外，可改变这些要素中的一些或全部。关于本文所述的介质、过程、系统、方法等，应理解，尽管已经将这种过程等的步骤或框描述为根据某个有序序列发生，但是这种过程可以采用以本文所述顺序之外的顺序执行的所描述步骤来实践。还应理解，可以同时执行某些步骤，可以添加其他步骤，或者可以省略本文所述的某些步骤。换句话说，本文对过程的描述是为了示出某些实施例而提供，而决不应将其理解为对所要求保护发明进行限制。

根据本发明，一种方法，其包括：基于输入到使用包括变分自动编码器(VAE)的逆强化学习(IRL)系统训练的深度神经网络(DNN)的车辆传感器数据来确定车辆动作；以及基于车辆动作来操作车辆。

根据实施例，本发明的特征还在于使用VAE训练DNN以生成重构策略。

根据实施例，重构策略基于车辆状态和潜在奖励函数。

根据实施例，对抗鉴别器网络鉴别重构策略和专家策略。

根据实施例，专家策略基于具有N个轨迹的车辆。

根据实施例，使用重构策略来恢复专家策略和潜在奖励函数。

根据实施例，车辆传感器数据包括来自左车道、右车道和同一车道中的相邻车辆的距离和相对速度。

根据实施例，所述车辆动作包括三种车辆速度变化模式，所述三种车辆速度变化模式包括更高速度、更低速度和无变化。

根据实施例，车辆动作包括三种车辆横向位置变化模式，所述三种车辆横向位置变化模式包括左车道变换操纵、同一车道和右车道变换操纵。

根据本发明，提供了一种系统，其具有：处理器；以及存储器，其被编程为执行以下操作：基于输入到使用包括变分自动编码器(VAE)的逆强化学习(IRL)系统训练的深度神经网络(DNN)的车辆传感器数据来确定车辆动作；以及基于车辆动作来操作车辆。

根据实施例，重构策略基于车辆状态和潜在奖励函数。

根据实施例，对抗鉴别器网络鉴别重构策略和专家策略。

根据实施例，专家策略基于具有N个轨迹的车辆。

根据本发明，提供了一种系统，其具有：用于控制第二车辆转向、制动和动力传动系统的装置；计算机装置，其用于：基于输入到使用包括变分自动编码器(VAE)的逆强化学习(IRL)系统训练的深度神经网络(DNN)的车辆传感器数据来确定车辆动作；以及基于车辆动作和用于控制第二车辆转向、制动和动力传动系统的装置来操作车辆。

Claims

1.一种方法，其包括：

基于输入到使用包括变分自动编码器(VAE)的逆强化学习(IRL)系统训练的深度神经网络(DNN)的车辆传感器数据来确定车辆动作；和

基于所述车辆动作来操作车辆。

2.如权利要求1所述的方法，其还包括使用所述VAE训练所述DNN以生成重构策略。

3.如权利要求2所述的方法，其中所述重构策略基于车辆状态和潜在奖励函数。

4.如权利要求3所述的方法，其中对抗鉴别器网络鉴别所述重构策略和专家策略。

5.如权利要求4所述的方法，其中所述专家策略基于具有N个轨迹的所述车辆。

6.如权利要求5所述的方法，其中使用所述重构策略来恢复所述专家策略和所述潜在奖励函数。

7.如权利要求1所述的方法，其中所述车辆传感器数据包括来自左车道、右车道和同一车道中的相邻车辆的距离和相对速度。

8.如权利要求1所述的方法，其中所述车辆动作包括三种车辆速度变化模式，所述三种车辆速度变化模式包括更高速度、更低速度和无变化。

9.如权利要求1所述的方法，其中所述车辆动作包括三种车辆横向位置变化模式，所述三种车辆横向位置变化模式包括左车道变换操纵、同一车道和右车道变换操纵。

10.如权利要求1所述的方法，其中所述VAE包括策略处理块，所述策略处理块基于奖励和专家状态来确定重构的动作。

11.如权利要求10所述的方法，其中所述VAE包括鉴别器处理块，所述鉴别器处理块基于所述重构的动作和所述专家动作、基于所述重构的动作和所述专家动作的相似性来确定处理后的奖励。

12.如权利要求11所述的方法，其中所述DNN基于所述处理后的奖励来更新潜在计算信息。

13.如权利要求1所述的方法，其中基于所述车辆动作来确定路径多项式。

14.如权利要求13所述的方法，其中操作所述车辆包括基于所述路径多项式指示车辆动力传动系统、制动部件和转向部件。

15.一种系统，其包括计算机，所述计算机被编程为执行如权利要求1至14中任一项所述的方法。