CN111542836B

CN111542836B - 一种使用神经网络为对象选择动作的方法

Info

Publication number: CN111542836B
Application number: CN201780095641.1A
Authority: CN
Inventors: 姚恒帅; 陈浩; 塞德·马苏德·诺斯拉蒂; 佩曼·亚德梅拉特; 张云飞
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-10-04
Filing date: 2017-11-06
Publication date: 2024-05-17
Anticipated expiration: 2037-11-06
Also published as: US20190101917A1; CN111542836A; US10935982B2; WO2019068236A1

Abstract

本发明提供了一种使用神经网络的动作模型预测对象在环境中的的状态的方法、设备和系统。根据一个方面，一种用于对象的控制系统(115)包括：处理器(102)；多个传感器(110)，耦合至所述处理器(102)，用于感测所述对象的当前状态和所述对象所处的环境；第一神经网络(250)，耦合至所述处理器(102)。使用动作模型、所述对象在所述环境中的当前状态以及多个动作，获得所述对象在所述环境中的多个预测的后续状态。所述动作模型将所述对象在所述环境中的多个状态以及所述对象针对每个状态执行的多个动作映射到所述对象在所述环境中的预测的后续状态。确定最大限度地提高目标的值的动作。所述目标至少基于每个所述预测的后续状态的回报。执行所述确定的动作。

Description

一种使用神经网络为对象选择动作的方法

相关申请案交叉申请

本申请要求于2017年10月4日递交的发明名称为“一种使用神经网络为对象选择动作的方法”的第15/724,939号美国专利申请案的在先申请优先权，该在先申请的内容以引入的方式并入本文。

技术领域

本发明涉及一种使用神经网络的动作模型预测环境中的对象的状态的方法、设备和系统，还涉及一种使用神经网络为对象选择动作的方法、设备和系统。

背景技术

车辆驾驶员辅助系统增强了人类驾驶员的意识和安全，自主驾驶(例如，无人驾驶)车辆提高了驾驶员的安全性和方便性。自主驾驶是自主驾驶车辆的一个重要方面。然而，与自主驾驶车辆的其它方面一样，自主驾驶仍然是一个处于发展状态的领域，在自主驾驶方面仍需不断改进。例如，车辆动力学通常基于所使用的自行车模型。所述自行车模型使用包括位置、方向和方向改变速度等的几个变量来描述车辆状态。所述自行车模型由几个等式组成，这些等式在给定所述车辆的动作(包括油门(或加速度)、制动和转向角)的情况下更新所述车辆的状态。给定控制系统所使用的自行车模型基于车辆设计者的车辆系统设计经验。当前车辆动力学模型(例如，所述自行车模型)具有各种限制，仍需改进。

基于深度强化学习的人工智能(artificial intelligence，简称AI)系统需要大量数据和训练时间。例如，深度Q学习网络(deep Q-learning network，简称DQN)是基于深度强化学习的AI系统中最流行的算法之一。DQN由Google DeepMind^TM开发，在AlphaGo中使用，于2016年打败人类GO冠军。然而，DQN学习速度非常缓慢，需要大量数据才能学习一种优良的策略。DQN还需要大量训练时间和计算才能实现收敛。DeepMind的研究表明，即使对于非常简单的游戏，DQN仍需数百万个训练样本才能学习非常简单的策略。原因在于，DQN就像随机梯度更新，由DQN计算的目标在训练迭代期间不断高速变化。无法保证DQN能够实现收敛，与此同时输出策略可能较差。对于基于AI的车辆驾驶员辅助和车辆自动化，需要改进的神经网络和训练方法。

发明内容

本发明提供了一种基于对象的动作预测所述对象(例如，车辆)在环境中的后续状态的方法。车辆动作模型通常仅考虑所述车辆的状态，因此在各种驾驶场景中存在不精确问题。然而，在开发基于人工智能(artificial intelligence，简称AI)的自主驾驶车辆时，必须将所述车辆的周围环境视为所述车辆的状态。因为所述车辆正在运动，所以所述环境的图像和其它感测测量也取决于所述车辆的动作。本发明提供了一种车辆动作模型，可以用于预测在所述后续状态下车辆在所述环境中的状态，所述后续状态可以用于可视化和其它目的。训练所述动作模型以执行多步预测，这可以用于例如自主驾驶方面的可视化和基于AI的规划。与基于车辆设计者的车辆系统设计经验并且未根据数据学习的其它车辆动力学模型(例如，自行车模型)相比，所述动作模型是根据使用在模拟中或在真实道路上行驶的车辆收集的样本数据集习得的。特别地，本发明使用神经网络根据传感器数据(例如，图像、LIDAR、RADAR和/或其它感测测量)、可能导出的数据、当前动作和后续状态学习动作模型。然后，所述学习的动作模型可以用于预测所述后续传感器数据(例如，图像、LIDAR、RADAR和其它感测测量)和针对给定状态和给定动作可能导出的数据。

根据本发明的一个方面，提供了一种使用所公开的神经网络为对象选择动作的方法。使用神经网络的动作模型和所述对象在所述环境中的当前状态，确定所述对象在所述环境中的一个或多个预测的后续状态。所述动作模型将所述对象在所述环境中的多个状态以及所述对象针对每个状态执行的多个动作映射到所述对象在所述环境中的预测的后续状态。在一些示例中，所述方法还包括：感测所述对象的当前状态和所述对象所处的环境；获得所述对象的所述动作。在一些示例中，所述方法包括：获得多个动作序列，所述多个动作序列中的每一个包括所述对象的多个动作，其中所述对象在所述环境中的所述一个或多个预测的后续状态使用所述动作模型、所述对象在所述环境中的所述当前状态以及所述多个动作序列进行预测。

根据本发明的另一方面，提供了一种使用神经网络学习用于对象的动作模型的方法。针对至少两个相对应的训练动作a，根据样本数据集D{(s,a,s')}中的当前训练状态预测所述对象在所述环境中的后续状态s’。根据回报函数计算所述后续状态的回报。选择产生最大化回报的预测的后续状态s’*。将所述选择的预测的后续状态s’*与所述样本数据集D中的所述对象在所述环境中的相对应后续状态s’之间的差值作为训练误差。更新所述神经网络的参数，以最大限度地减小所述训练误差的均方差(mean square error，简称MSE)。

本发明还提供了一种神经网络、一种使用神经网络的方法和一种训练神经网络以及基于深度强化学习的相关设备和系统，与可替代方案相比，所述深度强化学习更快、更可靠、更稳定并且具有改进控制性能。

已知的深度学习算法通常是无模型算法，其中基于原始样本来学习所述神经网络参数。本发明使用预先学习/预先训练的动作模型来基于当前状态和选择的动作预测后续状态，以提供改进的学习样本，从而实现更快收敛，需要更少样本，输出更可靠、更稳定并且具有改进控制性能的策略，在应用于自主停车和驾驶时尤为如此。可以使用深度神经网络来训练所述动作模型和值函数。

本发明提供了一种选择动作的方法，使用所述动作模型来选择最大限度地增加所述预测的后续回报与所述预测的后续状态的所述值之和的动作。

本发明还提供了一种训练神经网络的方法，所述方法将所述当前预测值V(s)与所述预测的后续状态的折扣值V(s′_a)之间的差值加上状态-动作对(s、a)之后的所述后续状态的所述预测回报R(s′_a)的计算结果，作为所述训练误差，即误差＝γ·V(s′_a)-V(s)+R(s′_a)，而不是像在传统的深度学习网络中那样计算原始转换元组的训练误差。然后，基于所述预测的后续状态而不是原始样本来更新所述神经网络的所述参数。

根据本发明的一个方面，提供了一种使用神经网络为对象选择动作的方法。使用动作模型、所述对象在所述环境中的当前状态以及多个动作，获得所述对象在所述环境中的多个预测的后续状态。所述动作模型将所述对象在所述环境中的多个状态以及所述对象针对每个状态执行的多个动作映射到所述对象在所述环境中的预测的后续状态。确定最大限度地提高目标的值的动作，其中所述目标至少基于每个所述预测的后续状态的回报。执行所述确定的动作。在一些示例中，所述方法包括：使用由多个传感器获得的传感器数据，对所述对象在所述对象所处的所述环境中的当前状态进行编码；获得所述对象的多个动作。

在一些示例中，使用摄像头、LIDAR和RADAR中的一个或多个来感测所述对象在所述环境中的所述状态，其中通过图像、LIDAR测量和RADAR测量中的一个或多个来描述所述对象在所述环境中的所述当前状态。

在一些示例中，确定所述对象在所述环境中的所述一个或多个预测后续状态包括生成以下数据中的一项或多项：预测的图像数据；预测的LIDAR数据；预测的RADAR数据；或根据当前和/或过去传感器数据获得的预测的数据；其中，所述预测的数据图像数据、预测的LIDAR数据、预测的RADAR数据和根据当前和/或过去传感器数据获得的预测的数据基于当前和/或历史图像和数据。

在一些示例中，所述传感器数据包括以下数据中的一项或多项：摄像头视图；LIDAR测量；RADAR测量；全球导航卫星系统(Global Navigation Satellite System，简称GNSS)测量；罗盘读数；惯性测量单元(inertial measurement unit，简称IMU)读数；或速度。

在一些示例中，使用传感器数据和根据当前和/或过去传感器数据获得的数据，对所述对象在所述环境中的所述状态进行编码。

在一些示例中，根据当前和/或过去传感器数据获得的数据包括以下数据中的一项或多项：所述对象的中心到车道轴线的距离，或在车道不可用时，所述对象的中心到预定义路径的当前距离；所述对象的中心到中心线、左侧车道线和右侧车道线的距离；到其它环境参考的距离；或速度。

根据本发明的另一方面，提供了一种训练第一神经网络以为对象选择在环境中的动作的方法。根据动作模型，根据样本数据集中的多个状态，预测所述对象在所述环境中的多个后续状态。所述动作模型将所述对象在所述环境中的多个状态以及所述对象针对每个状态执行的多个动作映射到所述对象在所述环境中的预测的后续状态。确定所述多个预测的后续状态中的每个所述预测的后续状态的回报。确定最大限度地提高目标的值的动作。所述目标至少基于每个所述预测的后续状态的回报。在一些示例中，所述目标y_i是γ·V(s′_a)+R(s′_a)，其中V(s′_a)是基于策略函数V的预测的后续状态的值，γ是折扣因子，R(s′_a)是所述预测的后续状态的所确定的回报R(s′_a)。将所述当前状态的值与所述目标的值之间的差值作为训练误差。更新所述神经网络的所述参数以最大限度地减小所述训练误差。

在一些示例中，将所述当前状态的值V(s)与所述选择的动作的所述预测的后续状态的所述折扣值V(s′_a)之间的差值加上所述选择的动作的所述预测的后续状态的所述预测的回报R(s′_a)的计算结果，作为所述训练误差，即γ·V(s′_a)-V(s)+R(s′_a)。在一些示例中，更新所述第一神经网络的所述参数，以最大限度地减小所述当前状态的所述值V(s)与第一值之间的均方差(mean square error，简称MSE)，所述第一值的大小为所述确定的动作的所述预测的后续状态的所述值V(s′_a)加上所述确定的动作的所述预测的后续状态的所述回报R(s′_a)。在一些示例中，使用最小均方(least mean square，简称LMS)算法来最大限度地减小所述MSE。在一些示例中，根据以下等式定义所述MSE：

其中n是值的数目，其中V(s′_a)是基于策略函数V的预测的后续状态的值，γ是折扣因子，R(s′_a)是所述预测的后续状态的所确定的回报R(s′_a)，V(s_i)是基于所述策略函数V的所述当前状态的值。

在一些示例中，根据回报函数确定所述回报。

在一些示例中，根据一个或多个策略学习所述回报模型。

在一些示例中，其中所述一个或多个策略包括车道追踪和碰撞避免。

在一些示例中，通过调用不同于所述第一神经网络的回报神经网络来获得回报。

在一些示例中，使用以下等式计算所述回报R(s′_a)：

其中，δ′_t+1是所述对象的中心到车道轴线或预定义路径的预测距离；v′_t+1是所述对象的所述中心到预定义路径的当前距离；v*是目标速度；maxspeed是所述对象的最大速度。

在一些示例中，所述第一神经网络是时间差分神经网络。

根据本发明的又一方面，提供了一种用于对象的控制系统，包括：处理器；多个传感器，耦合至所述处理器，用于感测所述对象的当前状态和所述对象所处的环境；第一神经网络，耦合至所述处理器。所述第一神经网络使用动作模型、所述对象在所述环境中的当前状态以及多个动作，获得所述对象在所述环境中的多个预测的后续状态。所述动作模型将所述对象在所述环境中的多个状态以及所述对象针对每个状态执行的多个动作映射到所述对象在所述环境中的预测的后续状态。确定最大限度地提高目标的值的动作。所述目标至少基于每个所述预测的后续状态的回报。在一些示例中，所述目标y_i是γ·V(s′_a)+R(s′_a)，其中V(s′_a)是基于策略函数V的预测的后续状态的值，γ是折扣因子，R(s′_a)是所述预测的后续状态的所确定的回报R(s′_a)。执行所述确定的动作。在一些示例中，所述第一神经网络还用于：使用由所述多个传感器获得的传感器数据，对所述对象在所述对象所处的所述环境中的所述当前状态进行编码；获得所述对象的多个动作，所述多个动作中的每一个包括所述对象的一个或多个动作中的多个。

在一些示例中，所述对象是车辆，所述控制系统是车辆控制系统。

在一些示例中，所述动作包括转向单元的转向角、油门单元的油门值和制动单元的制动值中的一项或其组合。

根据本发明的又一方面，提供了一种用于对象(例如，车辆)的控制系统。所述控制系统包括：处理器；至少一个传感器，耦合至所述处理器，用于感测所述对象的环境；存储器，耦合至所述处理器。所述存储器存储可执行指令，所述指令在由所述处理器执行时使所述控制系统执行上述及此处描述的方法中的至少一部分。

根据本发明的另一方面，提供了一种车辆，包括：机械系统，用于使所述车辆运动；驱动控制系统，耦合至所述机械系统，用于控制所述机械系统；车辆控制系统，耦合至所述驱动控制系统。所述车辆控制系统包括：处理器；至少一个传感器，耦合至所述处理器，用于感测车辆的环境；存储器，耦合至所述处理器。所述存储器存储可执行指令，所述指令在由所述处理器执行时使所述车辆控制系统执行上述及此处描述的方法中的至少一部分。

在本发明的又一方面中，提供了一种非瞬时性机械可读介质，在其上有形地存储用于由对象(例如，车辆)的控制系统的处理器执行的可执行指令。所述可执行指令在由所述处理器执行时使所述控制系统执行上述及此处描述的方法中的至少一部分。

附图说明

图1A和图1B是本发明的示例性实施例提供的一种通信系统的示意图；

图2是一种适用于本发明的通信系统的车辆控制系统的框图；

图3是本发明的一个示例性实施例提供的示出神经网络的示意图；

图4是示出神经网络中的节点的示例性配置的示意图；

图5是本发明的一个示例性实施例提供的示出一种用于学习动作模型的强化学习的示例性方法的流程图；

图6是本发明的另一示例性实施例提供的示出神经网络的示意图；

图7是本发明的一个示例性实施例提供的示出一种训练神经网络的示例性方法的流程图；

图8是本发明的一个示例性实施例提供的示出一种使用神经网络为车辆选择动作的示例性方法的流程图。

具体实施方式

本发明参考附图进行，在所述附图中示出实施例。然而，可以使用许多不同的实施例，因此不应将该描述视为仅限于本文描述的实施例。相反，提供这些实施例是为了使本发明透彻和完整。在全文中，相同的数字表示相同的元件，在可替代实施例中，加撇符号用于表示类似的元件、操作或步骤。所示系统和设备的功能元件的单独的框或所示的分离不一定需要此类功能的物理分离，因为在没有任何此类物理分离的情况下，此类元件之间的通信可以通过消息传递、功能调用、共享存储器空间等的方式发生。这样，功能不必在物理上或逻辑上分离的平台中实现，尽管为了便于此处的解释而分别示出了这些功能。不同的设备可以具有不同的设计，使得尽管一些设备在固定功能硬件中实现一些功能，但其它设备可以在可编程处理器中利用从机器可读介质获得的代码来实现此类功能。

为方便起见，本发明描述了关于机动车辆的定位方法和系统的示例性实施例，所述机动车辆诸如汽车、卡车、公共汽车、船舶、飞机、仓库设备、建筑设备、拖拉机或其它农场设备。本发明的观点不限于车辆或任何特定类型的车辆，可以应用于其它真实或虚拟对象以及非载客车辆和载客车辆。本发明的观点还可以在非车辆移动机器人中实现，所述非车辆移动机器人包括但不限于自主真空吸尘器、探测器、割草机和其它真实或虚拟对象。

图1A是本发明的一个示例性实施例提供的示出一种通信系统100的所选组件的示意图。所述通信系统100包括嵌入在车辆105中的车辆控制系统115。如下所述，所述车辆控制系统115耦合至所述车辆105的驱动控制系统150和机械系统190。所述车辆控制系统115允许所述车辆105在完全自主、半自主或完全用户控制模式下操作。

所述通信系统100包括位于所述车辆105周围的多个传感器110和一个或多个无线收发器130，每个所述无线收发器耦合至所述车辆控制系统115的控制器。所述多个传感器110包括一个或多个数字摄像头112、一个或多个LIDAR单元114、一个或多个雷达单元，例如，一个或多个雷达合成孔径雷达(synthetic aperture radar，简称SAR)单元116、惯性测量单元(inertial measurement unit，简称IMU)118、电子罗盘119和可能的其它传感器120。所述传感器110在激活时重复(例如，定期)感测信息，实时或接近实时地向所述车辆控制系统115提供所述感测的信息。

所述摄像头112可以捕获包括一系列连续帧的静态图像或视频。所述摄像头112可以是二维(two-dimensional，简称2D)摄像头或立体或三维(three-dimensional，简称3D)摄像头，可以感测所述车辆105周围环境的深度和三维结构。所述摄像头112可以捕获可见光和/或红外。所述IMU 118使用加速计和陀螺仪的组合来感测所述车辆的比力和角速度。可替代地，所述LIDAR单元114、SAR单元116和IMU 118中的一个或多个可以用于感测所述车辆105周围环境的所述三维结构。

使用所述传感器110，所述通信系统100可以收集关于所述车辆105的局部环境(例如，任何直接周遭障碍物)的信息以及来自更广泛区域的信息(例如，所述LIDAR单元114和SAR单元116可以收集来自所述车辆105周围高达100m半径区域的信息)。所述通信系统100还可以使用所述IMU 118收集关于所述车辆105的位置和方向的信息。所述使用IMU 118和其它传感器，所述车辆控制系统115确定所述车辆105的线速度(例如，里程表)、角速度、加速度和轮胎抓地力等因素。

在所示实施例中，存在四个传感器单元125，分别位于所述车辆105的前侧、后侧、左侧和右侧。在其它实施例中，所述传感器单元125的数目和位置可能有所不同。例如，图1B示出了另一实施例，其中所述传感器单元125位于安装在或以其它方式位于所述车辆105的顶部(例如，车顶)的外壳135(例如，固定或旋转转盘)中。所述传感器单元分别位于所述外壳135(以及所述车辆105)的所述前侧、后侧、左侧和右侧，以扫描所述车辆105的前侧、后侧、左侧和右侧中的环境。在所描述的实施例中，所述传感器单元125被定向在四个不同的方向中，以扫描所述车辆105的所述前侧、后侧、左侧和右侧中的所述环境。

所述传感器单元125可以包括摄像头112、LIDAR单元114和SAR单元116中的一个或任意组合。安装或以其它方式定位所述传感器单元125，使其在相邻传感器单元125之间具有不同的视场(field of view，简称FOV)，以捕获所述车辆105所述周围环境。所述不同的FOV可能重叠在一起。

所述无线收发器130使所述车辆控制系统115能够与无线广域网(wide areanetwork，简称WAN)210交换数据和可选的语音通信。所述通信系统100可以使用所述无线WAN 210经由一个或多个通信网络220(例如，因特网)来访问诸如驾驶辅助服务器之类的服务器240。所述服务器240可以实现为一个或多个服务器模块，且通常位于防火墙230后方。所述服务器240连接到神经网络250，如下所述。可替代地，所述神经网络250可以是位于所述车辆中的所述车辆控制系统115的一部分或连接到所述车辆控制系统115。所述神经网络250包括或连接到神经网络控制器(未示出)。

所述通信系统100还包括卫星接收器132。所述通信系统100可以使用由所述卫星接收器132从卫星网络260中的多个卫星接收的信号来确定其位置。所述卫星网络260通常包括多个卫星，所述多个卫星是至少一个全球导航卫星系统(Global NavigationSatellite System，简称GNSS)的一部分，所述GNSS在全球范围内提供自主地理空间定位。例如，所述卫星网络260可以是一群GNSS卫星。示例性GNSS包括美国NAVSTAR全球定位系统(Global Positioning System，简称GPS)或俄罗斯全球导航卫星系统(Russian GLObalNAvigation Satellite System，简称GLONASS)。已经部署或正在开发的其它卫星导航系统包括欧盟的伽利略定位系统、中国的北斗导航卫星系统(BeiDou Navigation SatelliteSystem，简称BDS)、印度区域卫星导航系统和日本卫星导航系统。

接下来参考图2，图2示出了本发明的一示例性实施例提供的所述车辆控制系统115的所选组件。所述处理器102经由提供所述组件与所述处理器102之间的通信路径的通信总线(未示出)耦合至多个组件。所述处理器102耦合至：驱动控制系统150；随机存取存储器(random access memory，简称RAM)122；只读存储器(read-only memory，简称ROM)124；永久性(非易失性)存储器126，例如闪速可擦除可编程只读存储器(erasable programmableread only memory，简称EPROM)(闪存)；一个或多个无线收发器130，用于与无线网络210交换射频信号；卫星接收器132，用于从卫星网络260接收卫星信号，所述卫星网络260包括作为全球或区域卫星导航系统的一部分的多个卫星；实时时钟(real-time clock，简称RTC)134和触摸屏136。

所述无线收发器130可以包括一个或多个蜂窝(RF)收发器，用于使用不同的无线数据通信协议和标准与多个不同的无线接入网(例如，蜂窝网络)进行通信。所述通信系统100可以与其地理覆盖区域内的所述无线WAN 210(例如，蜂窝网络)的多个固定收发器基站(其中一个如图1中所示)中的任何一个进行通信。所述无线收发器130可以通过所述无线WAN 210发送和接收信号。所述无线收发器130可以包括支持多个射频频带的多频带蜂窝收发器。

所述无线收发器130还可以包括无线局域网(wireless local area network，简称WLAN)收发器，用于经由WLAN接入点(access point，简称AP)与WLAN(未示出)进行通信。所述WLAN可以包括符合IEEE 802.11x标准(有时称为Wi-)或其它通信协议的Wi-Fi无线网络。

所述无线收发器130还可以包括短距离无线收发器，例如收发器，用于与诸如智能电话或平板电脑的移动计算设备进行通信。所述无线收发器130还可以包括其它短距离无线收发器，包括但不限于近场通信(Near Field Communication，简称NFC)、IEEE802.15.3a(也称为超宽带(UltraWideband，简称UWB))、Z-Wave、ZigBee、ANT/ANT+或红外(例如，国际红外数据协会(Infrared Data Association，简称IrDA)通信)。

所述RTC 134通常包括提供精确实时信息的晶体振荡器，例如由爱特梅尔公司提供的那些。

所述触摸屏136包括显示器，例如彩色液晶显示器(liquid crystal display，简称LCD)、发光二极管(light-emitting diode，简称LED)显示器或有源矩阵有机发光二极管(active-matrix organic light-emitting diode，简称AMOLED)显示器，具有连接到电子控制器的触敏输入表面或叠加层。还可以提供耦合至所述处理器102的附加输入设备(未示出)，包括按钮、开关和显示盘。

所述车辆控制系统115还包括一个或多个扬声器138、一个或多个麦克风140和一个或多个数据端口142，例如串行数据端口(例如，通用串行总线(Universal Serial Bus，简称USB)数据端口)。所述系统还可以包括其它传感器，例如轮胎压力传感器(tirepressure sensor，简称TPS)、车门接触开关、光传感器和接近传感器等。

所述车辆控制系统115还包括用于控制所述车辆105的运动的驱动控制系统150。所述驱动控制系统150包括转向单元152、制动单元154和油门(或加速度)单元156，每个单元可以实现为所述驱动控制系统150内的软件模块或控制块。当处于完全或半自主驾驶模式时，所述转向单元152、制动单元154和油门单元156处理从路径规划系统(未示出)接收的已接收路径信息，生成控制信号以分别控制所述车辆105的所述转向、制动和油门，从而驱动规划路径。所述驱动控制系统150可以包括用于控制所述车辆105的其它方面的附加组件，包括例如转向信号和制动灯。

所述机械系统190从所述驱动控制系统115接收控制信号以操作所述车辆105的所述机械组件。所述机械系统180实现所述车辆105的物理操作。所述机械系统190包括发动机192、变速器194和车轮196。例如，所述发动机192可以是汽油发动机、电池供电发动机或混合发动机。其它组件可以包括在所述机械系统190中，例如包括转向信号、制动灯、风扇和车窗。

所述车辆控制系统115的图形用户界面(graphical user interface，简称GUI)由所述处理器102呈现并显示在所述触摸屏136上。用户可以使用所述触摸屏和可选的其它输入设备(例如，按钮、刻度盘)与所述GUI交互以显示相关信息，例如导航信息、驾驶信息、停车信息、媒体播放器信息和气候控制信息等。所述GUI可以包括一系列可遍历的内容特定菜单。

除所述GUI外，所述存储器126在其上存储由所述处理器102执行的操作系统软件160以及多个应用162。所述应用160包括车辆定位164、停车辅助166、自主停车168、用于半自主驾驶的驾驶辅助170和用于完全自主驾驶的自主驾驶172。诸如映射、导航、气候控制、媒体播放器、电话和消息传递应用之类的其它应用也存储在所述存储器中。所述车辆定位164在由所述处理器102执行时使得执行方法500的操作。

所述存储器126还存储各种数据180。所述数据180可以包括：由所述传感器110感测的传感器数据182；用户数据184，包括用户偏好、设置以及可选的个人媒体文件(例如，音乐、视频和方向等)；下载缓存186，包括经由所述无线收发器130下载的数据。所述下载缓存186可以定期删除，例如，在预先确定的时间量之后。系统软件、软件模块、特定设备应用或其部分可以临时加载到易失性存储器(例如，RAM 122)中，所述易失性存储器用于存储运行时间数据变量和其它类型的数据或信息。由所述车辆控制系统115接收的数据也可以存储在所述RAM 122中。尽管针对各种类型的存储器描述了特定函数，但这仅是一个示例，还可以使用对于存储器类型的不同函数分配。

接下来参考图3，图3示出了本发明的一个示例性实施例提供的神经网络304。所述神经网络304可以用于图1A或图1B的所述通信系统100中的所述神经网络250，如上所述。所述神经网络304包括布置在多个层中的多个节点(也称为神经元)，所述多个层包括输入层320、多个中间(隐藏)层330和输出层340。所述层320、330和340中的每一个都是一个或多个节点的分组，所述一个或多个节点彼此独立并且允许并行计算。

出于解释的目的，现将参考图4，图4以示意图的形式示出了神经网络400中的节点402(图4中仅标记其中一个)的示例性配置。所述神经网络400包括布置在多个层中的多个节点402，所述多个节点402包括输入层410、单个中间(隐藏)层412和输出层414。给定层中的每个节点402的输出连接到后续层中的一个或多个节点402的输出，如连接404(图4中仅标记其中一个)所指示的那样。每个节点402是执行激活函数(也称为传递函数)的逻辑编程单元，用于基于其输入、权重(若有)和偏差因子(若有)来转换或操作数据以生成输出。响应于输入、权重和偏差，每个节点402的所述激活函数产生特定输出。每个节点402的所述输入可以是标量、矢量、矩阵、对象、数据结构和/或其它项目或其引用。每个节点402可以独立于其它节点402存储其相应的激活函数、权重(若有)和偏差因子(若有)。

激活函数的示例包括数学函数(即加法、减法、乘法和除法等)、对象操作函数(即创建对象、修改对象、删除对象和添加对象等、数据结构操作函数(即创建数据结构、修改数据结构、删除数据结构、创建数据字段、修改数据字段和删除数据字段等)和/或其它转换函数，具体取决于所述输入类型。在一些示例中，所述激活函数包括求和或映射函数中的一个或两个。

再次参考图3，所述输入层330的每个节点从所述传感器单元125接收传感器数据作为输入。在示出的示例中，所述传感器数据包括来自所述摄像头112的图像数据312、来自所述LIDAR单元114的LIDAR数据314、诸如来自所述SAR单元116的SAR数据的RADAR数据316以及来自诸如所述IMU 118的其它传感器120的可能的其它传感器数据318。所述数据312、314、316和318包括捕获或测量的数据，例如可以是矢量、矩阵或标量的形式，具体取决于所述数据类型。在示出的实施例中，所述图像数据312由相应的输入层322接收，所述LIDAR数据314由相应的输入层324接收，所述RADAR数据316由相应的输入层326接收，所述其它传感器数据318由相应的输入层328接收。一个或多个动作矢量319也由相应的输入层320接收作为输入，如下文详述。所述动作矢量319可以由所述车辆控制系统115(例如，所述神经网络304)或人类驾驶员选择。在所述示例中，所述动作矢量319包括用于所述转向单元152的转向角矢量、用于油门单元156的油门矢量和用于制动单元154的制动矢量。在其它示例中，所述动作矢量319可以包括更少、附加或不同组件。在许多方面，所述神经网络304是一种复合神经网络，包括用于每个所述相应输入数据类型的神经网络。

可以为所述神经网络304的所述输入层320的所述一个或多个输入以及所述中间层330和所述输出层340的后续节点中的每一个设置权重。权重是一个数值，通常介于0和1之间，指示一个层中的节点与后续层中的节点之间的连接强度。同时，也可以为所述神经网络304的所述输入层320的所述输入以及所述中间层330和所述输出层340的后续节点中的每一个设置偏移(或偏差)。

确定所述输入层320的每个输入与其相应的权重和偏差之间的标量乘积，将所述标量乘积发送到所述第一中间层330的相应节点作为输入。将每个所述标量乘积连接成另一矢量，确定所述第一中间层330的所述输入与其相应的权重和偏差之间的另一标量乘积，将所述另一标量乘积发送到所述第二中间层330的节点作为输入。通过每个所述中间层330依次重复该过程直到所述输出层340。

基于所述物理系统(即所述车辆控制系统115，由所述车辆105的可控元件确定)的所述输入(例如，传感器数据)和输出，所述中间层330的数目、所述层320、330和340中每个层中的节点的数目以及每个层的所述节点之间的连接在实施例之间可能有所不同。确定每个节点的所述权重和偏差，甚至可能确定所述神经网络304的所述节点的所述激活函数，以便通过学习过程(例如，强化学习)实现自主驾驶操作的最佳性能，如下所述。

在示出的示例中，所述中间层330包括连接到所述图像数据312的所述输入层322的所述节点的深层332、连接到所述LIDAR数据314的所述输入层324的所述节点的深层334、连接到所述RADAR数据316的所述输入层326的所述节点的浅层336、连接到所述其它传感器数据318的所述输入层328的所述节点的浅层338以及连接到所述动作矢量319的所述输入层329的所述节点的浅层339。所述中间层330连接到所述输出层340，所述输出层340通过连接所述深层332和334以及所述浅层336、338和339的所述输出(例如，矢量)合并所述中间层330的所述输出，以所述车辆105在所述环境中的一个或多个预测的后续状态的形式生成输出。在描述的示例中，所述神经网络304包括：深层(例如，完全连接层和卷积层)，用于对来自所述车辆105上所述摄像头112的所述图像312进行编码；深层，用于对来自所述车辆105上所述LIDAR单元114的所述LIDAR测量314进行编码；浅层，用于对来自所述SAR单元116的所述RADAR测量316进行编码；浅层328，用于对来自所述其它传感器110的任何其它感测测量进行编码；浅层，用于对所述动作矢量319指定的所述当前动作进行编码。在其它实施例中，可以使用不同的配置。

所述神经网络304定义所述车辆105在所述环境中的所述状态的动作模型。所述动作模型将包括所述车辆105在所述环境中的状态(表示为s)的状态-动作对(表示为(s、a))以及由所述车辆105执行的动作(表示为a)映射到所述车辆105在所述环境中的预测的后续状态(表示为s’)，其中(s,a)→s’。所述动作模型将所述车辆105在所述环境中的多个状态以及所述车辆105针对每个状态执行的多个动作(即状态-动作对)映射到所述车辆105在所述环境中的预测的后续状态。给定由所述传感器单元125感测的所述车辆105在所述环境中的当前状态以及由所述车辆控制系统115(例如，使用所述神经网络304)或人类驾驶员选择的动作，所述神经网络304使用所述动作模型来预测所述车辆105在所述环境中的后续(未来)状态。

每个动作具有多个维度。在描述的示例中，每个动作具有三个维度：所述转向单元152的转向角、油门单元156的油门值和制动单元154的制动值。应当理解的是，在一些情况场景中，所述转向角、油门值和制动值可以具有零值。所述当前状态s和后续状态s’不仅包括所述车辆的状态，还包括同一时间t所述环境的状态(例如，所述车辆105相对于所述环境的测量)。例如，在时间t的情况下，所述状态s可以包括：

·包括当前摄像头视图的传感器数据，包括：所述车辆105上安装的全部所述摄像头112的当前图像；当前LIDAR测量；当前RADAR和其它感测测量，例如来自所述卫星接收器132的当前GNSS数据、当前罗盘读数、当前IMU读数和速度计的当前速度读数等；

·从当前和/或过去传感器数据导出的数据，包括：所述车辆的中心到车道轴线的当前距离，或在车道不可用时，所述车辆的中心到预定义路径的所述当前距离；所述车辆的中心到中心线、左侧车道线和右侧车道线的距离；到其它环境参考等的当前距离；或当前速度(例如，基于当前与过去传感器读数之间的GNSS数据变化)等。

参考图5，将描述本发明的一个示例性实施例提供的使用深度学习来训练车辆105的动作模型的示例性方法500。所述方法500可以由例如所述车辆控制系统115的所述处理器102或神经网络控制器执行的软件执行，具体取决于所述神经网络304是否位于所述车辆105中。

在所述方法500中，至少基于回报值为所述车辆105在所述环境中的每个可能的状态-动作对开发用于预测所述车辆105在所述环境中的后续状态的值的策略。然后，实际状态-动作对可以与所述可能的状态-动作对中的一个相关联，确定与用于所述相关联的状态-动作对的策略相关联的后续状态。

在所述方法500的操作502，接收样本数据集D{(s,a,s')}作为输入，其中s是所述车辆105在所述环境中的所述当前状态，a是所述车辆105所选择的动作，s'是所述车辆105在所述环境中的所述后续状态。所述车辆105在所述环境中的所述当前状态s和所述车辆105在所述环境中的所述后续状态s'是如上所述的矢量。所述动作a具有多个维度，例如转向角、油门和制动。所述样本数据集包括元组形式(s,a,s')的大量样本。所述样本数据集可以由在各种场景(包括公路、停车场、交叉路口、居住区和环岛等)中驾驶所述车辆105的一个或多个人类驾驶员收集。

在操作504，使用所述AI设计者设置的随机或任意权重来初始化所述神经网络304。

在操作506，所述神经网络250针对每个可能的动作a预测所述车辆105在所述环境中的后续状态s’。所述预测的后续状态s’是与所述车辆105在所述环境中的所述当前状态s以及所述车辆105在所述环境中的所述后续状态s'相似的矢量，包括相同的元素，例如：从所述车辆中心到车道轴线的预测距离，或者当车道不可用时，从所述车辆中心到预定义路径的所述预测距离；从所述车辆的中心到中心线、左侧车道线和右侧车道线的预测距离；预测的摄像头视图，包括所述车辆105上安装的全部所述摄像头112的预测图像；预测的LIDAR测量；预测的RADAR和其它感测测量。

在操作508，根据回报函数，针对所述车辆105在所述环境中的每个所述预测的后续状态s’，计算回报值。在对诸如自主驾驶或停车操作等动作序列执行操作的性能方面，所述回报可以是所述神经网络250的性能度量。

在操作510，为每个状态-动作对(s、a)选择最大化所述回报的的所述预测的后续状态s’作为所述选择的后续状态s’*。

在操作512，计算训练误差。将所述车辆105在所述环境中的所述选择的预测的后续状态s’*与所述样本数据集D{(s,a,s')}中指定的所述车辆在所述环境中的所述后续状态s’之间的差值作为所述训练误差。

在操作514和516，所述神经网络250确定当前迭代是否是使用计数器等的第一迭代。在所述操作508至512的每次迭代期间以及在操作508中计算所述回报之后的任何时间，所述计数器递增。如果它不是所述第一迭代，所述神经网络250确定所述误差是否尚未最小化。例如，可以使用最大限度地减小所述训练误差的均方误差(mean square error，简称MSE)的最小均方(least mean square，简称LMS)算法来训练所述动作网络250。在一些示例中，根据以下等式定义所述MSE：

其中n是值的数目，其中所述和是所述样本数据集D{(s,a,s')}中的所有样本的和，s’*(s,a)是所述动作网络250基于状态s和动作a(即给定状态-动作对(s、a))的输入执行的所述车辆在所述环境中的所述选择的预测的后续状态。

如果它不是所述第一迭代并且所述误差尚未最小化，所述操作继续进行到操作518，在操作518，所述动作网络304将所述计算的误差作为误差信号反向传播到所述动作网络304的全部所述先前层，以更新所述动作网络304的所述参数(例如，权重)，从而减小所述误差。如果它不是所述第一迭代并且所述误差已最小化，所述方法500以经过训练的动作网络304作为输出结束。

鉴于以上所述，应当理解的是，所述方法500的所述训练用于调整所述动作网络304的所述参数(例如，权重和偏差因子，甚至可能是所述节点的所述激活函数)，例如使用最大限度地减小所述MSE的梯度下降。该过程迭代完成，称为“调优”。通过每次迭代，所述MSE减小，直至所述动作网络304的所述参数得到优化。目标在于，针对给定状态s和动作a，最大限度地减小所述预测的后续状态与所述样本数据集的所述后续状态之间的所述MSE。通常，仅更改所述中间层330的参数。

在所述动作网络304经过训练之后，它可以用于实时操作，以通过预测所述车辆105在所述环境中的所述后续状态来预测所述车辆的动作的效果。所述车辆105在所述环境中的所述预测的后续状态可以用于实时自主应用，例如本文所述的车辆105的自主驾驶或停车。

接下来参考图6，图6示出了本发明的一个示例性实施例提供的神经网络300。所述神经网络300可以用于图1A或图1B的所述通信系统100中的所述神经网络250，如上所述。所述神经网络300本身包括多个神经网络，包括时间差分神经网络(temporal differenceneural network，简称TDN网络)302、所述动作模型神经网络(动作网络)304和回报模型神经网络(回报网络)306。所述TDN网络从所述动作网络304接收动作模型A(s，a)，从所述回报网络306接收回报模型R(s，a)。如上所述，所述动作模型可以由所述动作网络304学习。所述回报模型可以由所述回报网络306使用AI或机器学习来指定或学习。可替代地，所述TDN网络302可以按照请求根据需要从所述动作网络304接收动作矢量319并从所述回报网络306接收回报值。所述TDN网络302使用策略函数(表示为V(s，a))，所述策略函数经训练后可以用于选择自主操作中的动作，例如所述车辆105的自主驾驶。

参考图7，将描述本发明的一个示例性实施例提供的训练所述TDN网络302的示例性方法700。所述方法700可以由例如所述车辆控制系统115的所述处理器102或神经网络控制器执行的软件执行，具体取决于所述神经网络是否位于所述车辆105中。

在操作702，所述TDN网络302接收样本数据集作为输入，所述样本数据集包括一组状态D＝{s_i}、来自所述动作网络304的动作模型A(s，a)和来自所述回报网络306的回报模型R(s，a)。可替代地，所述TDN网络302可以在必要时根据需要从所述动作网络304调用所述动作模型并从所述回报网络306调用所述回报模型。可替代地，可以由所述TDN网络302而不是回报模型来应用回报函数。

在操作704，使用所述AI设计者设置的随机或任意权重来初始化所述TDN网络302。

在操作706，给定所述样本数据集中的所述状态集D＝{s_i}和所述动作模型A(s，a)，针对所述样本数据集D中的所有状态s(即s∈D)以及针对每个动作a，其中s′_a＝A(s，a)，预测或以其它方式获得多个后续状态s′_a。在所描述的实施例中，由所述TDN网络302通过调用所述动作网络304来获得所述后续状态s′_a。

在操作708，针对每个所述预测的后续状态s′_a计算回报R(s′_a)。在所描述的实施例中，针对每个所述预测的后续状态s′_a，由所述TDN网络302通过调用所述回报网络306来获得所述回报R(s′_a)。可以根据诸如车道追踪和碰撞避免之类的一个或多个应用来学习所述回报网络306的所述回报模型。给定状态s和由所述车辆105选择的动作a*，针对每个所述预测的后续状态s′_a计算所述回报R(s′_a)。根据一个示例，使用以下等式计算所述回报：

其中，δ′_t+1是所述车辆105的所述中心到车道轴线的预测距离(包含在s′_a中)，或者当车道不可用时，从所述车辆105的所述中心到预定义路径的当前距离；v′_t+1是所述车辆105沿着所述车道轴线或预定义路径的预测速度；v*是目标速度；maxspeed是所述车辆105的最大速度。如果所述maxspeed为110km/h，所述回报范围大约是0到1。

在操作710，针对每个所述预测的后续状态计算目标。所述目标至少基于每个所述预测的后续状态的回报。在所描述的实施例中，所述目标y_i是γ·V(s′_a)+R(s′_a)，其中V(s′_a)是基于策略函数V的预测的后续状态的值，γ是由所述AI设计者设置的折扣因子，R(s′_a)是所述预测的后续状态的所确定的回报R(s′_a)。折扣因子0将仅考虑当前回报，而接近1的折扣因子将强调未来回报。

在操作712，确定并选择最大限度地增加目标y_i的值的动作。

在操作714，计算训练误差。在所描述的实施例中，将所述当前状态的值V(s)与所述选择的动作的所述预测的后续状态的值V(s′_a)之间的差值加上所述选择的动作的所述预测的后续状态的所述预测的回报R(s′_a)的计算结果，作为所述训练误差。

在操作716和718，所述TDN网络302确定当前迭代是否是使用计数器等的第一迭代。在所述操作708至714的每次迭代期间以及在操作708中计算所述回报之后的任何时间，所述计数器递增。如果它不是所述第一迭代，所述TDN网络302确定所述误差是否尚未最小化。

如果它不是所述第一迭代并且所述误差尚未最小化，所述操作继续进行到操作720，在操作720，所述TDN网络302将所述计算的误差作为误差信号反向传播到所述TDN网络302的全部所述先前层，以更新所述TDN网络302的所述参数(例如，权重)，从而减小所述误差。如果它不是所述第一迭代并且所述误差已最小化，所述方法700以经过训练的TDN网络302作为输出结束。应当理解的是，在许多迭代中，更新所述TDN网络302的所述参数，以最大限度地减小所述训练误差。

在所描述的实施例中，更新所述TDN网络302的所述参数，以最大限度地减小所述当前状态的所述值V(s)与第一值之间的MSE，第一值的大小为选择的动作的预测的后续状态的所述值V(s′_a)加上所述确定的动作的所述预测的后续状态的所述回报R(s′_a)。在一些示例中，使用LMS算法来最大限度地减小所述MSE。在一些示例中，所述TDN网络302使用LMS算法来最大限度地减小所述当前预测值V(s)与所述预测的后续状态的折扣值V(s′_a)之间的所述MSE加上状态-动作对(s、a)之后的所述后续状态的所述预测回报R(s′_a)，即γ·V(s′_a)-V(s)+R(s′_a)。在一些示例中，使用梯度下降来最大限度地减小所述MSE。在一些示例中，根据以下等式定义所述MSE：

下面提供了一种示例性算法：

在所述TDN网络302经过训练之后，它可以用于实时自主操作，例如本文所述的所述车辆105的自主驾驶或停车操作，以选择所述自主操作中的动作。

参照图8，将描述本发明的一个示例性实施例提供的一种使用神经网络预测所述车辆105的后续状态及其环境以及为所述车辆105选择动作的示例性方法800。所述方法可用于例如自主驾驶或停车操作。所述方法800可以由所述车辆控制系统115(在处于诸如自主驾驶或停车模式的自主模式时)启动。可以响应于来自用户的输入启动所述自主模式，或者可以响应于检测到一个或多个触发在不存在来自所述用户的输入的情况下启动所述自主模式。所述方法800可以由例如所述车辆控制系统115的所述处理器、神经网络控制器或其组合执行的软件执行，具体取决于所述TDN网络302是否位于所述车辆105中。

在操作802，所述车辆控制系统115使用所述传感器110感测所述车辆的状态和所述车辆105的环境，以获得向所述TDN网络302提供的传感器数据。在操作804，所述TDN网络302使用所述传感器数据对表示所述环境中的所述车辆105的状态s进行编码。所述TDN网络302从所述摄像头112、LIDAR单元114和SAR单元118接收原始输入和其它感测测量。

在操作806，所述TDN网络302从所述车辆控制系统115接收至少一个动作。在一些示例中，从所述车辆控制系统115接收多个动作序列，每个动作序列包括表示为a1、a2、……、ak的一个或多个动作。每个动作a根据动作矢量319定义。每个动作矢量319包括所述转向单元152的转向角、油门单元158的油门值和制动单元154的制动值。应当理解的是，在一些场景中，转向角、油门值和制动值可以具有零值。

在操作808，所述TDN网络302使用所述当前状态s和所述至少一个动作来确定所述车辆105在所述环境中的至少一个预测的后续状态s’。在一些示例中，所述TDN网络302使用每个动作序列的所述动作a1、a2、……、ak中的每一个的所述当前状态来确定所述车辆105在所述环境中的预测的后续状态s’。在此类示例中，在针对每个动作序列从所述当前状态开始s采取所述k个动作中的每一个动作之后，所述TDN网络302预测多个状态序列，包括所述车辆105在所述环境中的多个后续状态s’。所述TDN网络302使用特定动作序列的所述编码状态s和第一动作a1，针对该动作序列确定所述车辆在所述环境中的第一预测的后续状态s′_a1。所述TDN网络302使用所述特定动作序列的所述第一预测的后续状态s′_a1和第二动作a2，针对每个所述动作序列确定所述车辆在所述环境中的第二预测的后续状态s′_a2等直至第k个动作。

根据矢量定义每个所述预测的后续状态s’，所述矢量包括预测的传感器数据和从当前和/或过去传感器数据导出的预测的数据。所述预测的传感器数据可以包括预测的图像数据342、预测的LIDAR数据344、预测的RADAR数据348和可能的其它预测的传感器数据348，基于当前和/或历史图像和感测测量，例如GNSS数据、罗盘读数、IMU读数和速度等。所述预测的图像数据可以包括由所述车辆控制系统115使用当前和/或历史图像以及用于计算机生成图像(computer generated image，简称CGI)的各种算法生成的模拟或合成图像，所述CGI例如可以基于所述当前和/或历史图像以及所述预测的LIDAR数据344、预测的RADAR数据348和可能的其它预测的传感器数据348的插值和/或外推。用于合成CGI的许多算法在本领域中是已知的。所使用的特定CGI算法和此类CGI算法的操作不在本发明的范围内。从当前和/或过去传感器数据导出的所述预测的传感器数据可以包括：所述车辆的中心到车道轴线的距离，或在车道不可用时，所述车辆的中心到预定义路径的所述距离；所述车辆的中心到中心线、左侧车道线和右侧车道线的距离；到其它环境参考等的距离；或速度等。

在操作810，可以在诸如所述触摸屏138的所述车辆控制系统115的显示器上显示所述车辆105在所述环境中的至少一个预测的后续状态s’的可视化。在一些示例中，所述可视化包括可以显示的预测的后续状态s’一个或多个序列，例如状态序列s、s′_a1、s′_a2和s′_ak。所述可视化以k个时间步长表示所述车辆105在所述环境中的所述预测状态。所述可视化可以包括用预测的图像数据，所述预测的图像数据使用预测的LIDAR数据、预测的RADAR数据、可选地其它预测的传感器数据和/或从当前和/或过去传感器数据导出的数据中的一项或多项覆盖。

在操作812，所述TDN网络302基于所述当前状态和至少一个预测的后续状态来评估可能结果。在一些示例中，基于所述当前状态和预测的后续状态s’的一个或多个序列(例如，状态序列s、s′_a1、s′_a2和s′_ak，所述神经网络250通过确定目标y_i的值来评估所述可能结果。在所描述的实施例中，所述目标y_i

基于针对给定动作a的所述紧接的后续预测的后续状态，针对每个所述动作的每个所述后续状态s′_a，定义为γ·V(s′_a)+R(s′_a)。

在操作814，所述TDN网络302确定并选择最大限度地增加所述目标y_i的所述值的动作(或动作序列)。在所描述的实施例中，所述目标y_i基于针对给定动作a的所述紧接的后续预测的后续状态。然而，在其它实施例中，所述目标可以基于针对给定动作序列的后续序列(例如，s、s′_a1、s′_a2和s′_ak)的预测序列，最大限度地增加所述目标y_i的所述值的最佳动作序列可以进行确定和选择。如上所述，每个动作具有多个维度；在所描述的示例中，每个动作包括所述转向单元152的转向角、油门单元158的油门值和制动单元154的制动值。应当理解的是，在一些情况场景中，所述转向角、油门值和制动值可以具有零值。

在操作816，所述车辆105执行所述选择的动作或所述选择的动作序列a1、a2、……、ak。如上所述，每个动作具有多个维度；在所描述的示例中，每个动作包括所述转向单元152的转向角、油门单元156的油门值和制动单元154的制动值。应当理解的是，在一些情况场景中，所述转向角、油门值和制动值可以具有零值。

在操作818，所述车辆控制系统115确定是否继续所述方法800，即是否使所述自主模式保持启用状态。所述车辆控制系统115重复所述操作802至816，直至所述自主模式禁用。

应当理解的是，尽管以上描述主要描述了一个实施例，在所述实施例中确定、选择和执行最大限度地增加所述目标y_i的所述值的紧接的后续动作；在其它实施例中，可以确定、选择和执行最大限度地增加所述目标y_i的所述值的最佳动作序列。

在所述TDN网络302远程定位的示例中，所述方法还包括：在操作802，向所述TDN网络302发送由所述传感器单元125获取的传感器数据；从所述TDN网络302接收将由所述车辆控制系统115执行的所述选择的动作。当所述TDN网络302位于所述车辆105中时，例如作为所述车辆控制系统115的一部分，不予执行这些操作。

本发明提供了一种神经网络、一种使用神经网络的方法和一种训练神经网络以及基于深度强化学习的相关设备和系统，与可替代方案相比，所述深度强化学习更快、更可靠、更稳定并且具有改进控制性能。

本发明还提供了一种基于车辆的动作预测所述车辆在环境中的后续状态的方法。车辆动作模型通常仅考虑所述车辆的所述状态，因此在各种驾驶场景中存在不精确问题。然而，在开发基于AI的自主驾驶车辆时，必须将所述车辆的周围环境视为所述车辆的状态。因为所述车辆正在运动，所以所述环境的图像和其它感测测量也取决于所述车辆的动作。本发明提供了一种车辆动作模型，可以用于预测车辆未来在所述环境中的状态，所述后续状态可以用于可视化和其它目的。训练所述动作模型以执行多步预测，这可以用于例如自主驾驶方面的可视化和基于AI的规划。与基于车辆设计者的车辆系统设计经验并且未根据数据学习的其它车辆动力学模型(例如，自行车模型)相比，所述动作模型是根据使用在模拟中或在真实道路上行驶的车辆收集的样本数据集习得的。特别地，本发明使用神经网络从当前图像、LIDAR、RADAR和其它感测测量以及当前动作学习动作模型，同时使用所述动作模型预测所述后续图像、LIDAR、RADAR和其它感测测量。

本公开还提供了一种神经网络结构，可能具有较深层，用于基于当前和/或历史图像和感测测量来预测未来图像和感测测量。

本发明的方法提供了一直基于学习的数据驱动模型，用于预测在应用于自主驾驶车辆时采取诸如车辆动作的动作的效果。与基于车辆模型的传统方法相比，本发明的方法可能更准确、更稳健，所述车辆模型仅预测所述车辆的状态而不考虑所述环境的状态，这在各种驾驶场景中不精确。本发明的方法对于针对自主驾驶车辆的基于强化学习的规划尤其有用。特别地，本发明的动作模型和多步预测可以形成基于强化学习的无人驾驶车辆的基础。本发明的方法可以用于大多数或全天候驾驶条件，包括降雨和降雪条件。

尽管已在用于自主驾驶或停车操作的示例性方法的上下文中描述了本发明，但可以设想的是，本文描述的方法可以用于其它AI应用中，以使用神经网络预测另一类型对象及其环境(可以是真实或虚拟的)的后续状态并为该对象选择动作。例如，本发明的方法可以用于游戏或其它模拟CGI应用、工业机器人技术或无人机导航。

在考虑到本发明的情况下，用于实施上述方法的软件的编码在本领域普通技术人员的范围内。可由一个或多个相应设备的一个或多个处理器执行以执行上述方法的机器可读代码可以存储在诸如所述车辆控制系统115的所述存储器126或神经网络控制器(未示出)的存储器之类的机器可读介质中。本文描述的流程图和附图中的步骤和/或操作仅出于示例目的。在不脱离本发明的观点的情况下，可以对这些步骤和/或操作进行诸多变化。例如，可以按照不同的顺序执行所述步骤，或者可以添加、删除或修改所述步骤。

本文中还公开了在所公开范围内的所有值和子范围。此外，尽管本文中所公开和示出的系统、设备和过程可以包括特定数量的元件/组件，但是系统、设备和组件可以进行修改以包括更多或更少的此类元件/组件。例如，尽管所公开的任何元件/组件可以引用为单数，但本文中所公开的实施例可以进行修改以包括多个此类元件/组件。本文中描述的主题意在涵盖和包含技术上的所有适当更改。

尽管本发明在方法方面至少部分地进行了描述，但本领域普通技术人员将理解，本发明也针对用于执行所述方法的至少一些方面和特征的各种组件，无论是通过硬件(DSP、ASIC或FPGA)、软件还是其组合。因此，本发明的技术方案可以体现在非易失性或非瞬时性机器可读介质(例如，光盘和闪存等)中，在其上有形地存储可执行指令，使得处理设备(例如，车辆控制系统)能够执行本文中所公开的方法的示例。

在不脱离权利要求书的主题的情况下，本发明可以以其它特定形式来体现。所描述的示例性实施例在各方面都仅仅是示意性的，而不是限制性的。本发明意在涵盖和包含技术上的所有适当更改。因此，本发明的范围通过所附的权利要求书而不是通过以上描述进行描述。权利要求书的范围不应受所述示例中阐述的实施例的限制，但应给出与所述描述整体一致的最广泛的解释。

Claims

1.一种控制系统，应用于车辆控制，其特征在于，包括：

处理器；

多个传感器，耦合至所述处理器，用于感测对象的当前状态和所述对象所处的环境；

第一神经网络，耦合至所述处理器，用于：

从定义动作模型的动作神经网络中，获得由所述动作模型使用所述对象在所述环境中的所述当前状态以及多个动作预测的所述对象在所述环境中的多个预测的后续状态，其中所述动作神经网络模型不同于所述第一神经网络，所述动作模型为预训练的模型，所述动作模型将状态-动作对映射到所述对象在所述环境中的预测的后续状态，每个所述状态-动作表示所述环境中所述对象的一个状态和所述对象执行的一个动作；

确定最大限度地提高目标的值的动作，其中所述目标至少基于每个所述预测的后续状态的回报，其中所述目标是/>，其中/>是基于策略函数/>的预测的后续状态的值，/>是折扣因子，/>是所述预测的后续状态的所确定的回报/>；/>为所述预测的后续状态；所述回报通过调用不同于所述第一神经网络的回报神经网络获得；

其中，所述控制系统的所述处理器用于执行所述确定的动作。

2.根据权利要求1所述的控制系统，其特征在于，根据回报模型确定所述回报，其中所述回报模型根据一个或多个策略进行学习，其中所述一个或多个策略包括车道追踪和碰撞避免。

3.根据权利要求1所述的控制系统，其特征在于，使用以下等式计算所述回报：

，

其中，是所述对象的中心到车道轴线或预定义路径的预测距离；/>是所述对象的所述中心到预定义路径的当前距离；/>是目标速度；/>是所述对象的最大速度。

4.根据权利要求1至3中任一项所述的控制系统，其特征在于，所述第一神经网络是时间差分神经网络。

5.根据权利要求1至3中任一项所述的控制系统，其特征在于，所述控制系统用于：

在显示器上显示所述对象在所述环境中的一个或多个所述预测的后续状态的可视化。

6.根据权利要求1至3中任一项所述的控制系统，其特征在于，每个动作包括转向单元的转向角、油门单元的油门值和制动单元的制动值。

7.根据权利要求1至3中任一项所述的控制系统，其特征在于，使所述对象执行所述确定的动作包括使用转向单元、油门单元和制动单元中的一个或多个根据所述确定的动作来使所述对象运动。

8.根据权利要求1至3中任一项所述的控制系统，其特征在于，通过以下步骤学习所述动作模型：针对多个动作中的每个可能的动作，根据当前状态预测所述对象在所述环境中的多个后续状态，根据回报函数计算所述多个预测的后续状态中的每一个的回报；为产生最大化回报的每个状态-动作对选择预测的后续状态；将所述选择的预测的后续状态与样本数据集D {(s, a, s')}中的后续状态之间的差值作为训练误差，其中s是所述对象在所述环境中的当前状态，a是所述对象的动作，s’是所述对象在所述环境中的所述后续状态；更新所述神经网络的参数，更改所述参数以最大限度地减小所述对象在所述环境中的所述后续状态的所述预测与所述样本数据集中指定的所述对象在所述环境中的所述后续状态的所述预测之间的均方差（mean square error，简称MSE）。

9.根据权利要求8所述的控制系统，其特征在于，使用最小均方（least mean square，简称LMS）算法来最大限度地减小所述MSE。

10.根据权利要求8所述的控制系统，其特征在于，根据以下等式定义所述MSE：

，

其中n是值的数目，其中和是所述样本数据集中的所有样本的和，其中所述样本采用（s，a，s'）的形式，s’* (s, a)是基于所述选择的状态-动作对的所述对象在所述环境中的所述后续状态的所述预测。

11.根据权利要求1至3中任一项所述的控制系统，其特征在于，通过以下步骤训练所述第一神经网络：根据动作模型，根据样本数据集中的多个状态，预测所述对象在所述环境中的多个后续状态，其中所述动作模型将所述对象在所述环境中的多个状态以及所述对象针对每个状态执行的多个动作映射到所述对象在所述环境中的预测的后续状态；确定所述多个预测的后续状态中的每个所述预测的后续状态的回报；确定最大限度地增加所述目标的值的动作，其中所述目标至少基于每个所述预测的后续状态的回报；将当前状态的值与所述目标的值之间的差值作为训练误差；更新所述神经网络的参数以最大限度地减小所述训练误差。

12.根据权利要求11所述的控制系统，其特征在于，将所述当前状态的值与所述确定的动作的所述预测的后续状态的值/>之间的差值加上所述确定的动作的所述预测的后续状态的所述预测的回报/>的计算结果，作为所述训练误差；

其中，更新所述第一神经网络的所述参数，以最大限度地减小所述当前状态的所述值与第一值之间的均方差（mean square error，简称MSE），所述第一值的大小为所述确定的动作的所述预测的后续状态的所述值/>加上所述确定的动作的所述预测的后续状态的所述回报/>。

13.根据权利要求12所述的控制系统，其特征在于，使用最小均方（least mean square，简称LMS）算法来最大限度地减小所述MSE。

14.根据权利要求12所述的控制系统，其特征在于，根据以下等式定义所述MSE：

，

其中n是值的数目，其中是基于策略函数/>的预测的后续状态的值，/>是折扣因子，是所述预测的后续状态的所确定的回报/>，/>是基于所述策略函数/>的所述当前状态的值。

15.根据权利要求1至3中任一项所述的控制系统，其特征在于，所述第一神经网络用于：

使用由所述多个传感器获得的传感器数据，对所述对象在所述对象所处的所述环境中的所述当前状态进行编码；

获得所述对象的所述多个动作。

16.根据权利要求1至3中任一项所述的控制系统，其特征在于，所述对象是车辆，所述控制系统是车辆控制系统。

17.根据权利要求16所述的控制系统，其特征在于，所述动作包括转向单元的转向角、油门单元的油门值和制动单元的制动值中的任意一项或其组合。

18.一种使用神经网络为对象选择动作的方法，应用于车辆控制，其特征在于，所述方法包括：

第一神经网络从定义动作模型的动作神经网络中，获得由所述动作模型使用所述对象在所述对象所处的环境中的当前状态以及多个动作预测的所述对象在所述环境中的多个预测的后续状态，其中所述动作神经网络模型不同于所述第一神经网络，所述动作模型为预训练的模型，所述动作模型将状态-动作对映射到所述对象在所述环境中的预测的后续状态，每个所述状态-动作表示所述环境中所述对象的一个状态和所述对象执行的一个动作；

执行所述确定的动作。

19.一种非瞬时性机器可读介质，应用于车辆控制，其特征在于，在其上有形地存储用于由对象的控制系统的处理器执行的可执行指令，其中所述可执行指令在由所述处理器执行时使所述控制系统执行以下操作：控制第一神经网络从定义动作模型的动作神经网络中，获得由动作模型使用所述对象在所述对象所处的环境中的当前状态以及多个动作预测的所述对象在所述环境中的多个预测的后续状态，其中所述动作神经网络模型不同于所述第一神经网络，所述动作模型为预训练的模型，所述动作模型将状态-动作对映射到所述对象在所述环境中的预测的后续状态，每个所述状态-动作表示所述环境中所述对象的一个状态和所述对象执行的一个动作；

执行所述确定的动作。

20.一种训练第一神经网络以为对象选择在环境中的动作的方法，应用于车辆控制，其特征在于，所述方法包括：

从定义动作模型的动作神经网络中，获得由动作模型使用样本数据集中的多个状态预测的所述对象在所述环境中的多个后续状态，其中所述动作神经网络模型不同于所述第一神经网络，所述动作模型为预训练的模型，所述动作模型将状态-动作对映射到所述对象在所述环境中的预测的后续状态，每个所述状态-动作表示所述环境中所述对象的一个状态和所述对象执行的一个动作；

确定所述多个预测的后续状态中的每个所述预测的后续状态的回报；

确定最大限度地提高目标的值的动作，其中所述目标至少基于每个所述预测的后续状态的回报，其中所述目标是/>，其中/>是基于策略函数/>的预测的后续状态的值，/>是折扣因子，/>是所述预测的后续状态的所确定的回报/>；/>为所述预测的后续状态；所述回报通过调用不同于所述第一神经网络的回报神经网络获得；将当前状态的值与所述目标的值之间的差值作为训练误差；

更新所述神经网络的参数以最大限度地减小所述训练误差。

21.根据权利要求20所述的方法，其特征在于，将所述当前状态的值与所述确定的动作的所述预测的后续状态的值/>之间的差值加上所述确定的动作的所述预测的后续状态的所述预测的回报/>的计算结果，作为所述训练误差；

22.根据权利要求21所述的方法，其特征在于，使用最小均方（least mean square，简称LMS）算法来最大限度地减小所述MSE。

23.根据权利要求21所述的方法，其特征在于，根据以下等式定义所述MSE：

，

24.根据权利要求20至23中任一项所述的方法，其特征在于，使用以下等式计算所述回报：

，