CN111137292A

CN111137292A - 用于控制自主车辆的分层车道变换策略的基于空间和时间注意力的深度强化学习

Info

Publication number: CN111137292A
Application number: CN201910496094.9A
Authority: CN
Inventors: P·帕拉尼萨梅; U·P·穆达里格; 陈亦伦; J·M·多兰; K·米林
Original assignee: Carnegie Mellon University; GM Global Technology Operations LLC
Current assignee: Carnegie Mellon University; GM Global Technology Operations LLC
Priority date: 2018-11-01
Filing date: 2019-06-10
Publication date: 2020-05-12
Anticipated expiration: 2039-06-10
Also published as: US10940863B2; DE102019115707A1; US20200139973A1; CN111137292B

Abstract

提供了采用基于空间和时间注意力的分层车道变换策略的深度强化学习来控制自主车辆的系统和方法。执行器‑评价网络架构包括：执行器网络，其处理从环境接收的图像数据以将车道变换策略作为分层动作的集合来学习；以及评价网络，其评估车道变换策略以计算损失和梯度来预测动作值函数(Q)，其用于驱动学习车道变换策略以及更新其参数。执行器‑评价网络架构实施空间注意力模块以选择图像数据中重要的相关区域，以及时间注意力模块以学习要应用于过去的图像数据帧的时间注意力权重，从而指示在决定选择哪个车道变换策略时的相对重要性。

Description

用于控制自主车辆的分层车道变换策略的基于空间和时间注意力的深度强化学习

引言

本公开总体涉及自主车辆，更具体地涉及用于控制自主车辆的自主车辆控制器、自主车辆控制系系统和相关方法。更具体地，本公开涉及用于控制自主车辆的分层车道变换策略的基于空间和时间注意力的深度强化学习。

自主车辆是能够感测其环境并且在很少或没有用户输入的情况下导航的车辆。自主车辆包括智能地控制自主车辆的自主驾驶系统(ADS)。传感器系统使用诸如雷达、激光雷达、图像传感器等的传感装置来感测其环境。ADS还可以处理来自全球定位系统(GPS)技术、导航系统、车辆对车辆通信、车辆对基础设施技术和/或线控驾驶系统的信息以导航车辆。

车辆自动化已被分类为范围从零到五的数值级别，零对应于无自动化且全人工控制，五对应于全自动化且无人工控制。诸如巡航控制、自适应巡航控制和停车辅助系统的各种自动驾驶员辅助系统对应于较低的自动化级别，而真正的“无人驾驶”车辆对应于较高的自动化级别。目前，有许多不同的自主车辆控制方法，但都存在缺陷。

深度强化学习(DRL)最近已成为学习驾驶策略的新方法。DRL指的是任何数量的机器学习技术，它使用深度学习技术将强化学习方法扩展到整个过程的学习。DRL可以用于主动地瞄准与环境交互的问题，并通过最大化标量奖励信号来学习。DRL算法的智能体使用神经网络(例如，用于识别智能体的状态的卷积神经网络)来选择响应于接收任何给定观察而要执行的动作。神经网络是机器学习模型，其采用一个或多个非线性单元层来预测接收输入的输出。“深度神经网络”用于指除了输出层之外具有一个或多个隐藏层的神经网络。每个隐藏层的输出用作网络中下一层(即，下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集合的当前值从接收输入中生成输出。

执行安全且高效的车道变换是用于创建全自主车辆的关键特征。通过深度强化学习算法，自主智能体可以通过从试错法中学习而无需任何人工监督来获得驾驶技能。最近的成果已经聚焦在应用深度Q网络(DQN)或深度确定性策略梯度(DDPG)法来学习驾驶。这些成果成功地证明了车辆可以学习驾驶而不会离开道路边界。最近的进展已经证明了使用深度强化学习的成功的车道跟随行为，但却很少考虑在道路上与其他车辆进行的车道变换的交互。换句话说，大多数这些成果都聚焦在车道跟随的任务上，而与周围车辆的交互常常被忽略。在实际交通场景中，应当考虑更复杂的交互行为，例如用于各种驾驶目的的车道变换。以前，已经开发并研究了基于规则的车道变换操控，但是运用深度强化学习算法考虑车道变换的努力较少。

理解并与人工驾驶汽车交互在合作场景中是重要的，例如车道变换、交叉路口行驶和坡道合并。车道变换是用于超车或导航目的的道路驾驶中的基本行为。它需要对周围车辆的意图和行为进行高级别推理，以形成有效的驾驶策略。同时，它需要低级别推理来规划在安全要求下要遵循的确切路径，一般称为路径规划问题。这些部分中的每一部分都已被单独地研究过，但是它们很少一起被优化。

传统的车道变换操控是基于规则的，并且通过检查空槽来做出车道变换决策。较为近期的方法包括基于采样的方法，其中预先定义了可能的车道变换操控池，并且选择具有最大成本或最佳模仿人类行为的车道变换操控。现有的解决方案需要密集的手工工程，并且需要详尽的预定义的可能的车道变换操控池。这需要设计人员设置大量参数并花费大量时间对其进行调整。

因此，期望提供能够学习用于控制可靠、易于训练和验证的自主车辆控制的策略的系统和方法。此外，结合附图和前述技术领域和背景技术，根据随后的详细描述和所附权利要求，本公开的其他期望特征和特性将变得清楚明白。

发明内容

提供了用于控制自主车辆的系统、方法和控制器。在一个实施例中，提供了一种用于经由执行器-评价网络架构/系统来学习车道变换策略的方法和系统。每个车道变换策略描述了被选择由自主车辆采取的一个或多个动作。每个车道变换策略包括高级别动作和相关的低级别动作。高级别动作包括：左车道变换、车道跟随和右车道变换。每个相关的低级别动作包括转向角命令参数和加速制动率参数。执行器者网络随时间处理从环境接收的图像数据，以将车道变换策略作为分层动作的集合来学习。评价网络经由动作值函数来预测动作值、评估车道变换策略并计算损失和梯度，以驱动学习并且更新评价网络。执行器网络包括卷积神经网络(CNN)、空间注意力模块、时间注意力模块和至少一个全连接层。在每个特定的时间步长时，CNN处理图像数据以生成特征图，该特征图包括驾驶环境的机器可读表示，其包括在特定时间步长时获取的环境的特征。在每个特定的时间步长时，空间注意力模块处理特征图以选择图像数据中的相关区域，其是用于在驾驶中进行车道变换时计算动作所需要聚焦的重要的区域，学习图像数据的每个相关区域的重要性权重并将所学习的重要性权重应用于图像数据的每个相关区域，以增加图像数据的相关区域的重要性，并生成空间环境矢量。在每个特定的时间步长时，时间注意力模块处理空间环境矢量以学习要应用于过去的图像数据帧的时间注意力权重，以指示在决定选择哪个车道变换策略时的相对重要性，并生成组合的环境矢量。在每个特定的时间步长时，全连接层处理组合的环境矢量以生成分层动作集合(如上所述)。

在一个实施例中，执行器网络处理从环境接收的图像数据以将车道变换策略作为分层动作的集合来学习，其被表示为动作选择概率的矢量和耦合到每个独立分层动作的第一参数集合。评价网络使用第二参数集合经由动作值函数来预测动作值。动作值函数被表示为使用第二参数集合的神经网络。评价网络基于由执行器网络生成的转移来评估车道变换策略，其中转移包括由执行器网络生成的图像数据、分层动作、奖励和下一图像数据。

在一个实施例中，评价网络计算损失和梯度以驱动学习并且更新评价网络的第二参数集合。例如，在反向传播模式期间，评价网络处理所获取的小批量转移，其包括由执行器网络生成的图像数据、分层动作、奖励、下一图像数据；通过区分评价网络关于第二参数集合的损失来计算动作值函数的第一梯度；基于第一梯度更新评价网络处的第二参数集合；通过区分评价网络关于由执行器网络采取的分层动作的损失来计算关于由执行器网络生成的分层动作的动作值函数的第二梯度。第一梯度是在关于第二参数集合预测动作值函数中的误差的梯度，并且用于更新评价网络的第二参数集合。

评价网络将第二梯度反向传播到执行器网络。执行器网络处理第二梯度以及由执行器网络生成的第三梯度以更新第一参数集合。通过区分执行器网络关于由执行器网络采取的分层动作的损失来生成第三梯度。

在一个实施例中，空间注意力模块包括：注意力网络，其包括至少一个全连接层，其中每个神经元接收来自前一层的全部激活的输入；以及耦合到全连接层的激活函数，其将值转换为动作概率。CNN通过CNN从特征图中提取区域矢量集合，其中每个区域矢量对应于CNN从图像数据的不同图像区域提取的特征的不同特征层。该区域矢量集合与在过去的时间步长期间由LSTM网络生成的先前隐藏状态矢量一起应用于注意力网络，以学习区域矢量集合的每个区域矢量的重要性权重。所学习的重要性权重被应用于注意力网络处的区域矢量集合的每个区域矢量，以与注意力网络所学习的该区域矢量的重要性成比例地增加区域矢量集合的每个区域矢量的重要性。注意力网络生成空间环境矢量，该空间环境矢量是区域矢量集合的较低维度加权版本。空间环境矢量由全部区域矢量集合的加权和表示。

在一个实施例中，空间注意力模块和时间注意力模块包括长短期记忆(LSTM)网络，由LSTM单元构成。每个LSTM单元按顺序处理输入数据，并随时间保持该输入数据的隐藏状态。在每个时间步长时，LSTM网络处理该时间步长的空间环境矢量和由LSTM网络在过去的时间步长期间生成的先前隐藏状态矢量，以生成LSTM输出。然后，LSTM网络在每个时间步长时学习每个LSTM输出的时间注意力权重。所学习的时间注意力权重是该时间步长的区域矢量和该时间步长的隐藏矢量的内积，并且反映了给定帧处的该LSTM输出的相对重要性，使得对于学习正确的动作而言最重要的帧被认为对于计算动作输出具有更高的重要性。LSTM网络处的柔性最大值传输函数将全部所学习的时间注意力权重的和归一化为1，然后LSTM网络在每个时间步长时生成该时间步长的加权输出，其等于在该时间步长时所学习的时间注意力权重和在该时间步长时的隐藏状态矢量的乘积。

在一个实施例中，时间注意力模块通过在每个时间步长时在LSTM网络处组合来自每个时间步长的LSTM输出来生成组合的环境矢量，以生成作为跨越一定数量(T)个时间步长的全部LSTM输出的加权和的组合的环境矢量。

在一个实施例中，执行器-评价网络架构基于深度循环确定性策略梯度(DRDPG)算法，该算法一并考虑在时间注意力模块处的时间注意力和在空间注意力模块处的空间注意力，时间注意力模块学习权衡图像数据的任何给定帧处的图像数据先前帧的重要性，空间注意力模块学习图像数据的任何给定帧中的不同位置的重要性。空间注意力模块和时间注意力模块共同改进了执行器网络的车道变换策略选择。

在一个实施例中，执行器-评价网络架构被部署在由驾驶员智能体控制的车辆内，并且驾驶员智能体基于当前观察到的环境选择在每个时间步长时要执行的其中一个高级别动作。

在另一个实施例中，提供了一种自主车辆，其包括：驾驶环境处理器，被配置为从环境中获取图像数据；驾驶员智能体，被配置为基于当前观察到的环境和车道变换策略来控制自主车辆；以及处理器，被配置为执行计算机程序的指令，用于经由执行器-评价网络架构来学习车道变换策略。每个车道变换策略描述了自主车辆要采取的一个或多个动作，并且包括高级别动作和相关的低级别动作。高级别动作包括：左车道变换、车道跟随和右车道变换。每个相关的低级别动作包括转向角命令参数和加速制动率参数。在一个实施例中，驾驶员智能体被配置为基于当前观察到的环境选择在每个时间步长时要执行的其中一个高级别动作。

当用于学习车道变换策略的计算机程序的指令由处理器执行时，它们可被配置为执行包括以下内容的方法：经由执行器网络随时间处理从环境中接收的图像数据以将车道变换策略作为分层动作的集合来学习；在评价网络处经由动作值函数来预测动作值；在评价网络处评估车道变换策略；以及在评价网络处计算损失和梯度，以驱动学习并且更新评价网络。在每个特定的时间步长时经由执行器网络的处理包括：在执行器网络的卷积神经网络(CNN)处处理图像数据以生成特征图，该特征图包括驾驶环境的机器可读表示，其包括在特定时间步长时获取的环境的特征；在执行器网络的空间注意力模块处处理特征图，以选择图像数据中的相关区域，其是用于在驾驶中进行车道变换时计算动作所需要聚焦的重要的区域；在空间注意力模块处学习图像数据的每个相关区域的重要性权重；在空间注意力模块处，将所学习的重要性权重应用于图像数据的每个相关区域，以增加图像数据的相关区域的重要性；在空间注意力模块处生成空间环境矢量；在执行器网络的时间注意力模块处处理空间环境矢量，以学习要应用于过去的图像数据帧的时间注意力权重，从而指示在决定选择哪个车道变换策略时的相对重要性；在时间注意力模块处生成组合的环境矢量。该方法还包括：经由至少一个全连接层处理组合的环境矢量以生成分层动作集合。

附图说明

下文将结合以下附图来描述示例性实施例，其中相同的数字指示相同的元件，并且其中：

图1是示出根据所公开的实施例的自主车辆的功能框图；

图2是示出根据所公开的实施例的具有图1的一个或多个自主车辆的运输系统的功能框图；

图3是示出根据所公开的实施例的自主车辆的自主驾驶系统的数据流图；

图4是根据所公开的实施例的DRL系统的框图；

图5是图4的执行器-评价网络架构的框图，其示出了根据所公开的实施例的当执行器-评价网络架构在推理模式或正向传递期间学习时的数据流；

图6是图4的执行器-评价网络架构的框图，其示出了根据所公开的实施例的当执行器-评价网络架构在反向传播模式或反向传递期间训练时的梯度流；

图7A是根据所公开的实施例的图4的执行器-评价网络架构的一个示例实施方式的框图；

图7B是示出图7A中所示的特征提取CNN的一个示例性实施方式的框图；

图7C是根据所公开的实施例的可以实施为LSTM单元的LSTM网络的一部分的LSTM单元的一个非限制性示例的框图；

图8是示出根据所公开的实施例的根据所公开的实施例的为车道变换行为设计的分层动作的分层动作空间的框图；

图9是示出根据所公开的实施例的在进行车道变换时考虑的变量以及它们如何影响奖励信号设计的图；

图10是示出根据所公开的实施例的包括驾驶环境处理器和基于人工智能(AI)的自主驾驶员智能体模块的AI驾驶员智能体系统的框图；

图11是示出根据所公开的实施例的在线学习系统的框图，其包括驾驶环境处理器和基于人工智能(AI)的自主驾驶员智能体模块，其基于深度循环确定性策略梯度(DRDPG)算法实施执行器-评价网络架构。

具体实施方式

以下详细描述本质上仅是示例性的，并不旨在限制应用和用途。此外，无意受前述技术领域、背景技术、发明内容或以下详细描述中提出的任何明示或暗示的理论的约束。如本文所使用的，术语模块单独地或以任何组合指代任何硬件、软件、固件、电子控制部件、处理逻辑和/或处理器装置，包括但不限于：专用集成电路(ASIC)、电子电路、处理器(共享、专用或组)和执行一个或多个软件或固件程序的存储器、组合逻辑电路和/或提供所述功能的其他合适的部件。

本文中可以按照功能和/或逻辑块部件和各种处理步骤来描述本公开的实施例。应当理解，可以通过被配置为执行指定功能的任何数量的硬件、软件和/或固件部件来实现这样的块部件。例如，本公开的实施例可以采用各种集成电路部件，例如，存储器元件、数字信号处理元件、逻辑元件，查找表等，其可以在一个或多个微处理器或其他控制装置的控制下执行各种功能。另外，本领域技术人员将理解，本公开的实施例可以结合任何数量的系统来实践，并且本文所描述的系统仅仅是本公开的示例性实施例。

为了简洁起见，本文中可能不详细描述与信号处理、数据传输、信令、控制和系统的其他功能方面(以及系统的各个操作部件)有关的传统技术。此外，本文包含的各种图中所示的连接线旨在表示各种元件之间的示例功能关系和/或物理耦合。应当注意，在本公开的实施例中可以存在许多替代或附加的功能关系或物理连接。

神经网络指的是由多个简单、高度互连的处理元件/装置/单元组成的计算系统或处理装置，其可以使用软件算法和/或实际硬件来实施。处理元件/装置/单元通过它们对外部输入的动态响应来处理信息。可以在由多个互连节点组成的层中组织神经网络。每个节点包括激活功能。模式经由输入层呈现给网络，其与实际处理经由加权连接系统完成的一个或多个“隐藏层”通信。然后，隐藏层链接到生成输出的输出层。大多数NN包含某种形式的学习规则，其根据所呈现的输入模式修改连接的权重。虽然每个神经网络是不同的，但是神经网络一般包括以下部件中的至少一些：处理单元集合、处理单元的激活状态、用于计算处理单元的输出的功能、处理单元之间的连接模式、激活传播规则、激活功能和所采用的学习规则。神经网络的设计参数可以包括：输入节点的数量、输出节点的数量、中间层或隐藏层的数量、每个隐藏层的节点数量、初始连接权重、初始节点偏置、学习率、动量率等。

图1是示出根据所公开的实施例的自主车辆的功能框图。如图1中所绘，车辆10一般包括底盘12、车身14、前轮16和后轮18。车身14布置在底盘12上并且基本上包围车辆10的部件。车身14和底盘12可以共同形成框架。轮16-18各自在车身14的相应拐角附近可旋转地联接到底盘12。

在各种实施例中，车辆10是自主车辆，并且自主驾驶系统(ADS)被并入自主车辆10(下文中称自主车辆10)中，智能地控制车辆10。自主车辆10例如是被自动地控制以将乘客从一个位置运送到另一个位置的车辆。在所示实施例中，车辆10被绘制为轿车，但是应当理解，也可以使用包括摩托车、卡车、运动型多功能车(SUV)、休闲车(RV)、船舶、飞机等的任何其他车辆。在示例性实施例中，自主车辆10可以例如是四级或五级自动化系统。四级系统指示“高度自动化”，指的是自动驾驶系统完成动态驾驶任务的所有方面的驾驶模式特定性能，即使人类驾驶员没有对干预请求做出适当响应。五级系统指示“完全自动化”，指的是自动驾驶系统在可以由人类驾驶员管理的所有道路和环境条件下完成动态驾驶任务的所有方面的全时性能。

如图所示，自主车辆10一般包括推进系统20、变速器系统22、转向系统24、制动器系统26、传感器系统28、至少一个数据存储装置32、至少一个控制器34、通信系统36和致动器系统90。在各种实施例中，推进系统20可以包括内燃发动机、诸如牵引电动机的电机和/或燃料电池推进系统。变速器系统22被配置为根据可选择的速度比将动力从推进系统20传递到车轮16-18。根据各种实施例，变速器系统22可以包括步进比自动变速器、无级变速器或其他适当的变速器。制动器系统26被配置为向车轮16-18提供制动扭矩。在各种实施例中，制动器系统26可以包括摩擦制动器、线控制动器、诸如电机的再生制动系统和/或其他适当的制动系统。转向系统24影响车轮16-18的位置。虽然为了说明的目的而绘制成包括方向盘，但是在本公开的范围内设想的一些实施例中，转向系统24可以不包括方向盘。

传感器系统28包括一个或多个传感装置40a-40n，其感测自主车辆10的外部环境和/或内部环境的可观察状况。传感装置40a-40n可以包括但不限于：雷达、激光雷达、光学相机、热像仪、成像传感器、超声传感器、惯性测量单元、全球定位系统、导航系统和/或其他传感器。

例如，雷达装置可以处理从物体反射的电磁波以生成指示视场内物体的存在、方向、距离和速度的雷达数据。雷达滤波和预处理模块可以预处理雷达数据以移除诸如静止物体、不可驾驶区域中的物体(例如，雷达从建筑物处返回)和噪声测量/干扰(例如，由于速度)之类的事物，以生成预处理雷达数据。然后，雷达跟踪可以进一步处理预处理雷达数据以生成雷达跟踪信息，然后可以使用雷达跟踪信息来跟踪物体。

相机(或图像传感器)可以间隔开以提供车辆10周围环境的三百六十(360)度图像覆盖。相机捕获图像(例如，图像帧)并输出图像数据(例如，失真的YUV格式图像)，然后可以对其进行处理以生成经校正的(或未失真的)相机图像。图像预处理模块可以通过对图像数据进行去失真/校正来处理图像数据、对经校正的图像数据进行预处理(例如，图像尺寸调整和平均减法)，并将经校正的预处理图像数据转换为图像分类模块的神经网络可以分类的经校正的相机图像(例如，具有正常的RGB格式)。图像数据可以被校正以修正图像中的失真，这些失真可以使(实际中的)直线显现的是弯曲的，例如，如果3D空间中的点云被投影到未经校正的图像数据上，它们实际上可能会由于失真而在图像中处于错误的位置上。通过校正图像，来自3D空间的投影对应于图像的正确部分。然后，经校正的相机图像可以与包括来自物体跟踪模块的物体的三维位置的其他输入一起被发送到图像分类模块，并被处理以生成图像分类数据，图像分类数据可以提供给物体分类模块并用于生成物体分类数据，然后可以将物体分类数据发送到物体跟踪模块，其处理物体、雷达跟踪信息和物体分类数据，以生成物体跟踪信息。

激光雷达装置通过用激光脉冲照射目标来执行扫描，并通过接收反射回来的脉冲来测量到目标的距离。激光雷达装置可以共同使用反射脉冲的强度来生成激光雷达点云，其表示视场内的物体的空间结构/特性。例如，激光雷达装置可以使用旋转的激光束，其旋转以在车辆周围扫描三百六十(360)度。或者，激光雷达装置可以以一定的扫描频率(即，它们振荡得多快)来回振荡并以重复率发射脉冲。

每个激光雷达装置接收激光雷达数据并处理激光雷达数据(例如，激光雷达返回信息分组)以生成激光雷达点云(例如，车辆周围区域三百六十(360)度范围内的三维点集合)。除了三维XYZ位置之外，每个点还具有强度数据。例如，在一个实施方式中，点云包括从每个激光脉冲返回的第一、中间和最后的点。激光雷达装置可以是一起同步的(或相位锁定的)。

相机可以以其最大帧速率运行，并且相机的刷新率通常远高于激光雷达装置。当激光雷达从车辆后部顺时针旋转时，每个相机在激光雷达装置的旋转期间以顺时针顺序捕获图像。外部校准程序可以提供关于相机指向哪里的信息。激光雷达装置是相位锁定的(即，安排在某些时间处于某些旋转位置)，因此知道激光雷达装置何时扫描其周期的某些部分。为了分析场景，系统可以确定在获取某些激光雷达数据的时间点哪个成像器/相机对准。系统可以选择最接近获取激光雷达数据的时间点时采样/获得的任何图像，使得仅在某个目标时间(即，当激光雷达装置观察与相机指向相同的区域时)附近捕获的图像将被处理。结果，可以确定具有良好对准的相机-激光雷达对。这给出了某个航向/方向上的激光雷达数据以及该航向/方向上的场景/环境的相应图像数据。

由激光雷达装置获取的激光雷达点云的激光雷达数据可以融合到单个激光雷达点云中。然后可以执行三维点采样以预处理(单个激光雷达点云的)激光雷达数据以生成三维点集合，然后可以通过物体分割模块将其分割成可以被分类并跟踪的物体。例如，物体分类模块可以包括多个分类器，其对物体进行分类以生成物体分类数据。物体跟踪模块可以跟踪物体。然后，跟踪信息可以与雷达跟踪信息和物体分类数据一起使用，以生成物体跟踪信息(例如，物体的时间跟踪信息，诸如环境中物体的位置、几何形状、速度等)。

致动器系统90包括一个或多个致动器装置42a-42n，其控制一个或多个车辆特征，例如但不限于：推进系统20、变速器系统22、油门系统(未示出)、转向系统24和制动器系统26。如下文所解释的，低级别控制器处理来自车辆控制模块的控制信号，以根据控制信号172生成控制这些致动器装置42a-42n中的一个或多个的命令，从而安排并执行要执行的一个或多个控制动作以自动地控制自主车辆并使在特定驾驶场景中遇到的自主驾驶任务自动化(例如，以实现一个或多个特定车辆轨迹和速度曲线)。另外，在一些实施例中，车辆特征还可以包括内部和/或外部车辆特征，例如但不限于门、行李箱和诸如通风、音乐、照明等的舱室特征(未编号)。

通信系统36被配置为向其他实体48以及从其他实体48无线地传输信息，例如但不限于其他车辆(“V2V”通信)、基础设施(“V2I”通信)、远程系统和/或个人设备(关于图2更详细地描述)。在示例性实施例中，通信系统36是无线通信系统，被配置为使用IEEE 802.11标准或通过使用蜂窝数据通信经由无线局域网(WLAN)进行通信。然而，诸如专用短距离通信(DSRC)信道的附加或替代通信方法也被认为在本公开的范围内。DSRC信道是指专为汽车应用而设计的单向或双向短距离到中距离无线通信信道以及相应的协议和标准集合。

数据存储装置32存储用于自动地控制自主车辆10的数据。在各种实施例中，数据存储装置32存储可导航环境的定义的图。在各种实施例中，该定义的图可以由远程系统预定义并从远程系统获得(关于图2进一步详细地描述)。例如，该定义的图可以由远程系统装配并且(无线地和/或以有线的方式)传输到自主车辆10并存储在数据存储装置32中。可以理解，数据存储装置32可以是与控制器34分离的控制器34的一部分或控制器34的一部分和单独系统的一部分。

控制器34包括至少一个处理器44和计算机可读存储装置或介质46。处理器44可以是任何定制或商业可用处理器、中央处理单元(CPU)、图形处理单元(GPU)、与控制器34相关联的若干处理器中的辅助处理器、基于半导体的微处理器(以微芯片或芯片组的形式)、宏处理器、其任何组合，或一般用于执行指令的任何装置。计算机可读存储装置或介质46可以例如包括只读存储器(ROM)、随机存取存储器(RAM)和保活存储器(KAM)中的易失性和非易失性存储器。KAM是持久性或非易失性存储器，其可以用于在处理器44断电时存储各种操作变量。计算机可读存储装置或介质46可以使用许多已知存储器装置中的任何一种来实施，例如PROM(可编程只读存储器)、EPROM(电PROM)、EEPROM(电可擦除PROM)、闪存或能够存储数据的任何其他电、磁、光学或组合存储器装置，其中一些数据表示可执行指令，由控制器34用于控制自主车辆10。

指令可以包括一个或多个单独的程序，每个程序包括用于实施逻辑功能的可执行指令的有序列表。当由处理器44执行时，指令接收并处理来自传感器系统28的信号、执行用于自动地控制自主车辆10的部件的逻辑、计算、方法和/或算法并且生成到致动器系统90的控制信号，以基于逻辑、计算、方法和/或算法自动地控制自主车辆10的部件。尽管图1中仅示出了一个控制器34，但是自主车辆10的实施例可以包括任何数量的控制器34，其通过任何合适的通信介质或通信介质的组合进行通信，并且协作以处理传感器信号、执行逻辑、计算、方法和/或算法并生成控制信号以自动地控制一个或多个致动器装置42a-42n，其控制自主车辆10的一个或多个车辆特征。

在各种实施例中，控制器34的一个或多个指令体现在自主驾驶系统(ADS)的高级别控制器中，并且当由处理器44执行时，可以将自主驾驶任务分解为寻址特定驾驶场景的子任务，并选择要为每个寻址子任务的特定驾驶场景启用和执行的感觉运动原始模块的特定组合。每个感觉运动原始模块生成车辆轨迹和速度曲线，并且可以处理车辆轨迹和速度曲线中的至少一个以生成由低级别控制器处理的控制信号，从而生成控制自主车辆的一个或多个致动器的命令来执行一个或多个控制动作，以自动地控制自主车辆(例如，以使特定驾驶场景中遇到的自主驾驶任务自动化)。

现在参考图2，在各种实施例中，关于图1描述的自主车辆10可以适用于某个地理区域(例如，城市、学校或商业园区、购物中心、游乐园、活动中心等)中的出租车或穿梭系统的环境中，或者可以只需由远程系统管理。例如，自主车辆10可以与基于自主车辆的远程运输系统相关联。图2示出了总体上以50示出的操作环境的示例性实施例，其包括基于自主车辆的远程运输系统52，其与如关于图1所描述的一个或多个自主车辆10a-10n相关联。在各种实施例中，操作环境50还包括一个或多个用户设备54，其经由通信网络56与自主车辆10和/或远程运输系统52通信。

通信网络56根据需要支持由操作环境50支持的装置、系统和部件之间的通信(例如，经由有形通信链路和/或无线通信链路)。例如，通信网络56可以包括无线载波系统60，例如蜂窝电话系统，其包括多个蜂窝塔(未示出)、一个或多个移动交换中心(MSC)(未示出)以及将无线载波系统60与陆地通信系统连接所需的任何其他网络部件。每个蜂窝塔包括发送和接收天线以及基站，来自不同蜂窝塔的基站直接地或经由诸如基站控制器的中间设备连接到MSC。无线载波系统60可以实施任何合适的通信技术，例如包括诸如CDMA(例如，CDMA2000)、LTE(例如，4G LTE或5G LTE)、GSM/GPRS的数字技术或其他当前或新兴的无线技术。其他蜂窝塔/基站/MSC布置是可能的并且可以与无线载波系统60一起使用。例如，基站和蜂窝塔可以共同位于同一站点或者它们可以距离彼此远程定位，每个基站可以负责单个蜂窝塔，或者单个基站可以服务于各个蜂窝塔，或者各个基站可以耦合到单个MSC，仅举几个可能的布置。

除了包括无线载波系统60之外，可以包括卫星通信系统64形式的第二无线载波系统，以提供与自主车辆10a-10n的单向或双向通信。这可以使用一个或多个通信卫星(未示出)和上行链路发送站(未示出)来完成。单向通信可以例如包括卫星无线电服务，其中节目内容(新闻、音乐等)由发送站接收、打包以便上载，然后发送到卫星，卫星将节目广播给用户。双向通信可以例如包括使用卫星来中继车辆10和站之间的电话通信的卫星电话服务。卫星电话可以与无线载波系统60附加使用或代替无线载波系统60使用。

还可以包括陆地通信系统62，其是连接到一个或多个陆线电话的传统陆基电信网络，并且将无线载波系统60连接到远程运输系统52。例如，陆地通信系统62可以包括例如用于提供硬连线电话、分组交换数据通信和因特网基础设施的公共交换电话网络(PSTN)。陆地通信系统62的一个或多个段可以通过使用标准有线网络、光纤或其他光学网络、有线网络、电力线、诸如无线局域网(WLAN)的其他无线网络或提供宽带无线接入(BWA)的网络或其任何组合来实施。此外，远程运输系统52不需要经由陆地通信系统62连接，而是可以包括无线电话设备，使得它可以直接与无线网络通信，例如无线载波系统60。

尽管图2中仅示出了一个用户设备54，操作环境50的实施例可以支持任何数量的用户设备54，包括由一个人拥有、操作或以其他方式使用的多个用户设备54。可以使用任何合适的硬件平台来实施由操作环境50支持的每个用户设备54。在这方面，用户设备54可以以任何常见的形状因子实现，包括但不限于：台式计算机；移动计算机(例如平板电脑、笔记本电脑或上网本电脑)；智能手机；视频游戏设备；数字媒体播放器；家庭娱乐设备件；数码相机或摄像机；可穿戴计算设备(例如，智能手表、智能眼镜、智能服装)；等等。由操作环境50支持的每个用户设备54被实现为计算机实施的或基于计算机的设备，其具有执行本文描述的各种技术和方法所需的硬件、软件、固件和/或处理逻辑。例如，用户设备54包括可编程设备形式的微处理器，其包括存储在内部存储器结构中的一个或多个指令，并且应用于接收二进制输入以创建二进制输出。在一些实施例中，用户设备54包括能够接收GPS卫星信号并基于那些信号生成GPS坐标的GPS模块。在其他实施例中，用户设备54包括蜂窝通信功能，使得设备使用一个或多个蜂窝通信协议在通信网络56上执行语音和/或数据通信，如本文所讨论的。在各种实施例中，用户设备54包括视觉显示器，例如触摸屏图形显示器或其他显示器。

远程运输系统52包括一个或多个后端服务器系统，其可以是基于云的、基于网络的或驻留在由远程运输系统52服务的特定园区或地理位置处。远程运输系统52可以由现场顾问或自动化顾问或两者的组合来操纵。远程运输系统52可以与用户设备54和自主车辆10a-10n通信以安排乘车、调度自主车辆10a-10n等。在各种实施例中，远程运输系统52存储账户信息，例如用户认证信息、车辆标识符、简档记录、行为模式以及其他相关用户信息。

根据典型的用例工作流程，远程运输系统52的注册用户可以经由用户设备54创建乘车请求。乘车请求通常将指示乘客的期望的接载位置(或当前的GPS位置)、期望的目的地位置(其可以标识预定义的车辆停靠点和/或用户指定的乘客目的地)和接载时间。远程运输系统52接收乘车请求、处理该请求并且调度所选择的一个自主车辆10a-10n(当且如果一个可用时)，以在指定的接载位置处和在适当的时间接载乘客。远程运输系统52还可以生成并发送适当配置的确认消息或通知给用户设备54，以使乘客知晓车辆在路上。

可以理解，本文所公开的主题为可被视为标准或基线自主车辆10和/或基于自主车辆的远程运输系统52提供某些增强特征和功能。为此，可以修改、增强或以其他方式补充自主车辆以及基于自主车辆的远程运输系统，以提供下面更详细描述的附加特征。

根据各种实施例，控制器34实施如图3中所示的自主驾驶系统(ADS)33的高级别控制器。即，控制器34的合适的软件和/或硬件部件(例如，处理器44和计算机可读存储装置46)用于提供与车辆10结合使用的自主驾驶系统33的高级别控制器。

在各种实施例中，用于自主驾驶系统33的高级别控制器的指令可以由功能、模块或系统组织。例如，如图3中所示，自主驾驶系统33的高级别控制器可以包括计算机视觉系统74、定位系统76、引导系统78和车辆控制系统80。可以理解，在各种实施例中，由于本公开不限于本示例，因此可以将指令组织成任何数量的系统(例如，组合、进一步分区等)。

在各种实施例中，计算机视觉系统74合成并处理传感器数据并预测物体的存在、位置、分类和/或路径以及车辆10的环境的特征。在各种实施例中，计算机视觉系统74可以包含来自多个传感器的信息，包括但不限于：相机、激光雷达、雷达和/或任何数量的其他类型的传感器。定位系统76处理传感器数据以及其他数据以确定车辆10相对于环境的位置(例如，相对于图的本地位置、相对于道路的车道的精确位置、车辆航向、速度等)。引导系统78处理传感器数据以及其他数据以确定车辆10要跟随的路径。车辆控制系统80根据所确定的路径生成用于控制车辆10的控制信号72。

在各种实施例中，控制器34实施机器学习技术以辅助控制器34的功能，例如特征检测/分类、障碍物减轻、路线遍历、映射、传感器集成、地面实况确定等。

如上面简要地提到的，ADS33的高级别控制器包括在图1的控制器34内，并且可以用于实施包括传感器系统的车辆控制系统的部分，该传感器系统可以对应于图3的一些实施例中的传感器系统28。

如现在将在下面参考图4-11进行描述的，所公开的实施例可以提供一种自主驾驶系统，其使用基于深度强化学习的方法来学习具有适合车道变换行为的分层动作结构的用于车道变换行为的子策略。分层深度强化学习(DRL)算法可以学习密集交通中的车道变换行为。该算法可以处理道路上的车道变换行为，以在一个模型中学习多个驾驶策略。通过将整体行为分解为子策略，可以学习更快、更安全的车道变换动作。另外，时间和空间注意力应用于DRL架构，这有助于车辆更多地聚焦周围的车辆并带来更平稳的车道变换行为。所公开的实施例不是单独地优化高级别和低级别推理，而是将它们组合在具有分层结构的一个网络中，其仍然可以以端到端的方式得到训练。通过设计分层动作空间，该网络可以同时维护高级别策略和低级别控制命令，同时是端到端可区分的。这鼓励共享计算并优化整体性能。所公开的实施例最终可以产生用于车道变换行为的子策略的分层动作结构，其可以允许车辆执行安全且高效的车道变换，这是用于在道路上实现全自主车辆的关键特征。

所公开的实施例提供了在深度强化学习算法中使用时间注意力和空间注意力来学习更平稳的行为策略的系统和方法。所公开的实施例集成了时间和空间注意力机制，其适用于学习在自主驾驶中使用的驾驶策略，尤其是车道变换操控和行为。在深度强化学习的训练期间，注意力机制将自动地聚焦在可能影响驾驶行为的道路末端或周围的道路车辆上。这最终有助于提高所学习的车道变换行为的质量。注意力增强的网络可以更好地使用感知信息并缩短收敛时间和提高性能。

基于注意力的分层深度强化学习算法可以利用端到端可训练架构来学习密集交通中的车道变换行为。用于学习驾驶行为的所提出的分层动作空间可以生成除了车道跟随行为之外的用于车道变换行为的子策略。该模型简化了特意设计复杂车道变换操控的工作，但引入了一种面向数据的方法，其可以通过试错法来学习车道变换策略。注意力机制可以利用深度强化学习帮助驾驶任务。时间注意力和空间注意力的两个流帮助提高深度强化学习的性能。注意力模型还帮助解释在驾驶模式中所学习的内容。

图4是根据所公开的实施例的DRL系统100的框图。DRL系统100包括基于执行器-评价网络架构102的深度强化学习(DRL)算法以及环境105，在这种情况下，其是模拟环境，但是应当理解，当执行器-评价网络架构102在真实自主车辆内在线实施时，环境105可以是实际驾驶环境，如下面将更详细地描述的。在这方面，应当注意，图4中的图像数据129可以取决于实施方式而变化。也就是说，在模拟环境中，渲染环境场景的图像数据被用作图像数据129，而在真实/实际驾驶环境中，通过感测驾驶环境(即，来自驾驶环境的实际观察)的传感器(例如，图3中的传感器28)获得的图像数据被用作图像数据129。在整个本公开中，术语“图像数据”和“状态”可互换使用。

根据所公开的实施例，用于实施执行器-评价网络架构102的DRL算法可以是任何类型的基于策略梯度的强化学习算法。例如，近端策略优化(PPO)、确定性策略梯度以及它们的派生算法是合适的并且可以在所提出的系统中使用，因为它们可以用于实现/实施执行器-评价网络架构102。

在一个实施例中，DRL算法是深度循环确定性策略梯度(DRDPG)算法，其是最近为连续控制而开发的深度确定性策略梯度(DDPG)算法的循环版本。如下面将更详细地描述的，DRDPG算法建立在循环中并且一并考虑时间注意力和空间注意力。

根据所公开的实施例，为了更好的训练稳定性，执行器-评价架构102用两个神经网络实施：执行器网络110和评价网络120。该架构将动作评估和动作选择过程分离为两个单独的深度神经网络。

执行器网络110将车道变换策略作为分层动作172的集合来学习。每个车道变换策略是分层动作172上的分配(或动作分配)。例如，在一个实施例中，执行器网络110处理从环境接收的图像数据以将车道变换策略作为分层动作集合来学习，其被表示为动作选择概率的矢量和耦合到每个独立分层动作的第一参数集合。执行器网络110收集每个包括观察(即，图像数据帧)、分层动作、奖励、下一观察(即，下一图像数据帧)的转移，并将它们存储在重放存储器中。

评价网络120经由动作值函数来预测动作值、评估车道变换策略并计算损失和梯度以驱动学习并更新评价网络120。例如，在一个实施例中，评价网络120提取小批量转移并使用该小批量转移来改进评价网络120对状态/动作/利益值的预测，其中每个转移包括：由执行器网络110从重放存储器收集的{观察、分层动作、奖励、下一观察}。执行器-评价网络架构102使用状态/动作/利益值的预测、所获得的奖励和策略梯度定理来计算损失。执行器-评价网络架构102在内部使用预测来计算评价的损失并驱动学习过程以更新策略参数。损失是针对执行器网络110和评价网络120(对于该批量输入)两者的组合损失。如下面将参考图6更详细地解释的，通过区分关于评价参数的评价损失和关于执行器参数的执行器损失来计算梯度。

在一个实施例中，评价网络120计算损失和梯度以驱动学习并更新评价网络120的评价参数。例如，在反向传播模式期间，评价网络120处理所获得的小批量转移，其包括图像数据、分层动作、奖励、由执行器网络110生成的下一图像数据；通过区分评价网络120关于评价参数的损失来计算动作值函数的第一梯度；基于第一梯度更新在评价网络120处的评价参数；通过区分评价网络120关于由执行器网络110采取的分层动作的损失来计算关于由执行器网络110生成的分层动作的动作值函数的第二梯度。第一梯度是关于评价参数预测动作值函数中的误差的梯度，并且用于更新评价网络120的评价参数。

评价网络120将第二梯度反向传播到执行器网络110。执行器网络110处理第二梯度以及由执行器网络110生成的第三梯度以更新执行器参数。通过区分执行器网络110关于由执行器网络110采取的分层动作的损失来生成第三梯度。

执行器网络110和评价网络120共享卷积神经网络(CNN)130。CNN是一类深度、前馈人工神经网络。它们也被称为移位不变或空间不变人工神经网络(SIANN)，基于它们的共享权重架构和平移不变性特征。CNN架构由一堆不同的层形成，这些层通过可微函数将输入体积转换为输出体积。通常使用几种不同类型的层，称为卷积层和最大池化层。卷积层的参数由可学习滤波器(或内核)的集合组成，其感受野(receptive field)小，但却延伸贯穿输入体积的整个深度。在正向传递期间，每个滤波器在输入体积的宽度和高度上卷积，计算滤波器的条目和输入之间的点积，并产生该滤波器的二维激活图。结果，网络学习当在输入中的某个空间位置处检测到某种特定类型的特征时激活的滤波器。沿深度维度堆叠所有滤波器的激活图形成卷积层的完整输出体积。因此，输出体积中的每个条目也可以被解释为神经元的输出，其观察输入中的小块区域并与同一激活图中的神经元共享参数。

当处理诸如图像的高维输入时，将神经元连接到前一体积中的所有神经元是不切实际的，因为这样的网络架构不考虑数据的空间结构。卷积网络通过在相邻层的神经元之间实施局部连接模式来利用空间局部相关性：每个神经元仅连接到输入体积的小块区域。这种连接的程度是一个超参数，称为神经元的感受野。这些连接在空间中是局部的(沿宽度和高度)，但始终沿输入体积的整个深度延伸。这种架构确保所学习的滤波器对空间局部输入模式产生最强的响应。

三个超参数控制卷积层的输出体积的大小：深度、步幅和零填充。输出体积的深度控制连接到输入体积的同一区域的层中的神经元数量。这些神经元学习对输入中的不同特征进行激活。例如，如果第一卷积层将原始图像作为输入，则沿深度维度的不同神经元可以在存在各种定向边缘或颜色斑点的情况下激活。步幅控制如何分配空间维度(宽度和高度)周围的深度列。当步幅为1时，我们一次将滤波器移动一个像素。这导致列之间的感受野大范围重叠，并且还导致大的输出体积。当步幅为2(或很少为3或更多)时，滤波器在滑动时一次跳跃2个像素。感受野重叠较少，并且所得到的输出体积具有较小的空间尺寸。有时，在输入体积的边框上用零填充输入是很方便的。这个填充的大小是第三个超参数。填充提供对输出体积空间大小的控制。具体地，有时期望精确地保持输入体积的空间大小。

可以根据输入体积大小W、卷积层神经元K的内核域大小、它们所应用的步幅S以及用于边框上的零填充量P来计算输出体积的空间大小。用于计算给定体积中“适合”多少神经元的公式由(W-K+2P)/S+1给出。如果此数字不是整数，那么步幅设置不正确，并且无法以对称方式平铺神经元以适合输入体积。通常，当步幅为S＝1时，将零填充设置为P＝(K-1)/2确保输入体积和输出体积在空间上将具有相同的大小。虽然通常不完全需要耗尽前一层的所有神经元，例如，可以仅使用一部分填充。在卷积层中使用参数共享方案来控制自由参数的数量。它依赖于一个合理的假设：如果补丁特征对于在某个空间位置的计算是有用的，那么它对在其他位置的计算也应该是有用的。换句话说，将单个二维深度切片表示为深度切片，在每个深度切片中约束神经元以使用相同的权重和偏置。由于单个深度切片中的所有神经元共享相同的参数，因此卷积层的每个深度切片中的正向传递可以被计算为神经元的权重与输入体积的卷积(因此名称：卷积层)。因此，通常将权重集合称为滤波器(或内核)，其与输入卷积。该卷积的结果是激活图，并且每个不同滤波器的激活图的集合沿深度维度堆叠在一起以产生输出体积。参数共享有助于CNN架构的平移不变性。有时，参数共享假设可能没有意义。当CNN的输入图像具有某些特定的中心结构时尤其如此，其中要在不同的空间位置上学习完全不同的特征。

CNN的另一个重要概念是池化，其是一种形式的非线性下采样。有若干个非线性函数来实现池化，包括最大池化。可以在CNN架构的连续卷积层之间插入最大池化层。在最大池化中，输入图像被划分为一组非重叠矩形，并且对于每个这样的子区域，输出最大值。池化层用于逐渐减小表示的空间大小，以减少网络中的参数数量和计算量，并因此还控制过拟合(overfitting)。池化操作提供了另一种形式的平移不变性。每个最大池化层在输入的每个深度切片上独立操作，并在空间上调整它的大小。最常见的形式是具有2x2大小的滤波器的池化层，在输入中的每个深度切片处沿宽度和高度都施加2个包括2个下采样的步幅，丢弃75％的激活。在这种情况下，每个最大操作都超过4个数字。深度维度保持不变。

最大池化允许CNN利用输入数据的2D结构。因此，CNN适用于处理视觉和其他二维数据。可以使用标准反向传播来训练它们。CNN比其他常规的深度前馈神经网络更容易训练，并且需要评估的参数少得多。

人类驾驶员可以考虑一系列历史观察来做出驾驶决策。他们根据观察的时间和位置分配了不同的注意力。为了帮助在自主车辆中提供这种能力，所公开的实施例的DRL算法包括注意力模块140/160。为了更好的动作选择，将注意力模块140/160添加到执行器网络110。根据所公开的实施例，执行器网络110的注意力模块包括空间注意力模块140和时间注意力模块160。

如图4中所示，从环境105接收图像数据129并由CNN130处理。关于执行器网络110，CNN130处理图像数据129以生成特征图的输出，如下面将参考图7B更详细地描述的。例如，在一个实施例中，CNN130从由相机捕获的基于相机的RGB图像和/或由雷达和/或激光雷达捕获的距离图像中导出特征图132。

首先将特征图应用于注意力模块的空间注意力模块140以生成输出，然后将该输出应用于注意力模块的时间注意力模块160。然后，时间注意力模块160可以生成组合的环境矢量作为其输出，然后其他层可以使用该组合的环境矢量来生成分层动作172。如下面将更详细地描述的，分层动作172包括已经由执行器网络110学习的多个车道变换策略。然后，可以在环境105内执行分层动作172的至少一些车道变换策略以生成新的图像数据129，其在这种情况下是新的图像数据。评价网络120的CNN130可以评估分层动作172的车道变换策略以生成动作值函数(Q)138。现在将在下面参考图5和图6描述关于执行器-评价网络架构102的进一步细节。

图5是图4的执行器-评价网络架构102的框图，其示出了根据所公开的实施例的当执行器-评价网络架构102正在学习时(在推理模式或正向传递期间)的数据流。如上所述，在执行器网络110和评价网络120中处理图像数据129。具体地，执行器网络110处理图像数据129以生成分层动作172，其使用参数θ^μ210表示，评价网络120处理来自执行器网络110的分层动作172以生成动作值函数(Q)138，其使用其他参数θ^Q230表示。换句话说，由θ^μ210参数化的执行器网络μ110接受输入状态s129并输出分层动作a172及其参数p_a。由θ^Q230参数化的评价网络Q120接受输入状态s129和分层动作a220及其参数p_a并输出标量Q值Q(s，a)138。分层动作a表示为动作选择概率p的矢量和耦合到每个独立动作的参数P_a。独立的高级别动作被选择为动作概率选择中具有最大值的输出。然后它与参数输出中的相应参数耦合。尽管输出了全部动作的参数，但是仅使用所选动作的参数。以这种方式，执行器网络110同时输出要执行的独立动作以及如何为该动作选择参数。评价网络120接收来自执行器网络110的输出层的全部值作为输入。

相比之下，图6是图4的执行器-评价网络架构102的框图，其示出了根据所公开的实施例的在执行器-评价网络架构102正在训练时(在反向传播模式或反向传递期间)的梯度流。在图6中，将描述两组不同的梯度250、260。为了区分这两者，动作值函数(Q)的梯度将在下面被称为“第一”梯度250，并且动作值函数(Q)138关于由执行器网络110生成的动作的梯度将被称为“第二”梯度260。

在反向传播阶段，评价网络120处理所获得的包括状态、动作、奖励和下一状态(s_t，a_t，r_t，s_t+1)的小批量转移，并且通过区分评价网络120关于评价参数(θ^Q)230的损失来计算动作值函数(Q)138的第一梯度250。第一梯度250是关于评价参数(θ^Q)230预测动作值函数(Q)138中的误差的梯度，并且用于更新评价网络120的评价参数(θ^Q)230。评价网络120基于第一梯度250更新评价网络120处的评价参数(θ^Q)230。

在一个实施例中，通过使用随机梯度下降法(SGD)最小化均方动作值预测误差来更新评价的参数230。评价网络的损失可以使用以下等式计算：

其中：target_t×r_t+γQ′(s_t+1，μ′(s_t+1|θ^μ′)|θ^Q′)，N是在更新期间所使用的小批量(通常从重放存储器中随机提取)中的转移的数量，θ^Q是评价参数230，θ^μ是执行器参数210，并且θ^Q’和θ^μ’分别是θ^Q和θ^μ在每个k学习步骤之后使用以下更新等式更新的副本：

θ^Q＝τθ^Q+(1-τ)θ^Q

θ^μ′＝τ^θμ+(1-τ)θ^μ′其中τ(tau)是可调参数。

使用随机梯度下降法(SGD)来更新评价网络的参数以最小化评价的损失函数L_critic。关于评价参数(θ^Q)230的损失函数L_critic的梯度通过

给出，简写为：

然后，可以使用SGD优化器的优化步骤(例如，

)更新评价参数230。

评价网络120通过区分执行器网络110关于由执行器网络110采取的动作的损失来计算关于由执行器网络110生成的动作的动作值函数(Q)138的第二梯度260，并且将第二梯度260反向传播到执行器网络110。

可以使用以下等式计算执行器网络的损失：

执行器网络110处理第二梯度260以及分层动作172以更新图5的执行器参数(θ^μ)210。在一个实施例中，可以使用SGD优化步骤(例如，

)更新执行器参数(θ^μ)210。

因此，执行器网络110是接收当前环境状态(即，图像数据129)来学习的NN，然后确定要从那里采取的最佳动作以更新分层动作172的车道变换策略(即，将车道变换策略作为分层动作来学习)。当一个动作(例如，转向/加速/减速)被采取/应用于当前环境105时，这导致图像数据129的变化和由评价网络120解释的奖励。评价网络120是经由值函数评估奖励和新状态(即，新图像数据129)的NN，并且反向传播误差以更新其值函数和执行器网络110的一个或多个车道变换策略。基于策略损失(由执行器网络110确定)和值损失(由评价网络的预测值估计与使用所获得的奖励计算的真实值相比悖离多少来确定)来更新执行器网络110的策略。执行器网络110对新图像数据129做出反应并从评价网络120反向传播。

图7A是根据所公开的实施例的图4的执行器-评价网络架构102的一个示例实施方式的框图。具体地，图7A示出了根据所公开的实施例实施的注意力模块的进一步细节。如所指出的，注意力模块包括空间注意力模块140和时间注意力模块160。执行器-评价网络架构102基于深度循环确定性策略梯度(DRDPG)算法，该算法是DDPG算法的循环版本。执行器-评价网络架构102一并考虑在时间注意力模块160处的时间注意力和在空间注意力模块140处的空间注意力，时间注意力模块160学习权衡在任何给定图像数据129处的图像数据先前帧的重要性，空间注意力模块140学习在任何给定图像数据129处的图像中的不同位置的重要性。由执行器-评价网络架构102生成的输出在时间维度(经由160)和空间维度(经由140)上组合以生成分层动作172。与空间注意力模块140(空间注意力)相关联的括号表示沿空间维度的执行器-评价网络架构102的重复。空间注意力模块140将检测图像中用于驾驶的最重要和相关区域，并将重要性度量添加到图像中的不同区域。与时间注意力模块160(时间注意力)相关联的括号表示沿时间维度的执行器-评价网络架构102的重复。时间注意力模块160关于重要性权衡过去的若干帧以决定当前的驾驶策略。评价网络120被设置为用于动作评估的全卷积网络。

为了帮助说明这一点，图7A包括三个虚线框，其中每个虚线框包括公共元素的实例：图像数据的输入(s)图像数据129、CNN模块130、区域矢量集合132、隐藏状态矢量133、注意力网络134、空间环境矢量135和长短期记忆(LSTM)网络150。虚线框的每一个表示在时间序列(t-1，t，t+1......T)内的不同步长时连续应用于更新信息的执行器-评价网络架构102。换句话说，每个虚线框表示由执行器-评价网络架构102在不同时刻进行的处理。而且，应当理解，尽管图7A中仅示出了三个虚线框，但是这仅仅是由于页面大小限制，并且在实际的实施方式中将呈现许多其他实例，如省略号(......)所示。因此，为了简洁起见，现在将提供对块130-3、132-3、134-3、135-3和150-3的描述；然而，应当理解，相应的元件和其他虚线框在不同的时间窗口上起类似的作用。

特征图

当CNN模块130-3接收并处理图像数据(s_T)129-3以提取特征并生成特征图/张量(由130-3内部的顶部大立方体表示)时，图像数据(s_T)129-3的处理开始。提取共同构成特征图的区域矢量集合132-3。每个区域矢量对应于从图像数据129-3中提取的卷积特征图/张量(由130-3内部的顶部大立方体表示)中的不同区域/位置提取的特征。空间注意力网络134-3使用区域矢量132-3来计算环境特征矢量135-3(然后由基于LSTM 150-3的时间注意力块160处理。

图7B是示出图7A中所示的特征提取CNN 130的一个示例性实施例的框图。该实施方式是非限制性的并且包括多个级或层，其包括第一卷积层224、第一最大池化层226、第二卷积层228和第二最大池化层229。然而，应当理解，取决于实施方式，特征提取CNN 130可以包括基于输入的图像数据212生成特征层232所需的任何数量的层。

特征提取CNN130接收传感器数据129作为输入层222。传感器数据129可以包括图像数据212和距离点数据214。图像数据212可以包括经由相机获得的包括像素信息或数据(例如，像素)的图像。距离点数据214可以包括由诸如车辆的激光雷达和/或雷达系统的测距系统获得的数据。特征提取CNN130的不同层224、226、228、229可以处理构成来自图像的图像数据的像素信息，以从该图像中提取各种特征从而产生特征层232。进一步解释，特征提取CNN130的每个层224、226、228、229被配置为连续地处理图像数据的像素以进一步从图像数据212和输出特征层232、236中提取特征。

在一个实施例中，输入层222可以是由平均图像减去的红-蓝-绿通道的输入图像的级联，以生成到神经网络的总输入。第一卷积层224被配置为将第一组卷积核应用于包括红-绿-蓝(RGB)图像数据的输入层222。例如，第一卷积层224的输入可以与一组卷积核进行卷积，以通过诸如校正线性单元(ReLU)函数的非线性激活函数来生成输出神经激活。每个卷积核生成第一层输出通道，其包括具有第一分辨率的图像。第一最大池化层226被配置为通过对该第一输出通道应用最大值操作来处理每个第一输出通道，以缩小相应的图像并生成具有第一分辨率的缩小图。第一最大池化层226输出多个第二输出通道，每个第二输出通道包括具有小于第一分辨率的第二分辨率的图像。第二卷积层228被配置为将第二组卷积核应用于多个第二输出通道中的每一个。第二组的每个卷积核生成第三输出通道，该第三输出通道包括具有小于第二分辨率的第三分辨率的图像。例如，第二卷积层228的输入可以与另一组卷积核进行卷积，以通过诸如ReLU函数的非线性激活函数生成输出神经激活。第二最大池化层229被配置为通过对该第三输出通道应用另一个最大值操作来处理每个第三输出通道，以缩小相应的图像并生成具有第三分辨率的缩小图。第二最大池化层229输出多个第四输出通道，每个第四输出通道包括具有小于第三分辨率的第四分辨率的图像。特征层包括三维张量，其包括多个第四输出通道。

特征提取CNN130处理距离点数据214以生成距离点数据的距离呈现图238。每个距离点指示距车辆的距离值。特征提取CNN130将每个特征层232与前一特征层236和距离呈现图238级联以生成并输出特征图132。特征图132是来自特征层232、前一特征层236和距离呈现图238的级联层。换句话说，距离呈现图238、当前基于视觉的特征图232和来自先前时刻的先前基于视觉的特征图236的级联形成整个特征图132。

空间注意力

在特征提取层130之后以及在循环层150之前应用空间注意力模块140。空间注意力模块140可以应用空间注意力以学习图像中不同区域的权重，并且由LSTM网络150-3使用的空间环境矢量(Z_T)135-3将是空间特征的加权和组合乘以所学习的权重。这允许空间注意力模块140将重要性添加到图像数据129-3内的不同位置或区域。例如，空间注意力模块140允许系统学习相机图像中的不同区域的重要性，这使得其能够在进行车道变换时更好地处理其他车辆和道路物体。

注意力网络134-3可以包括由激活函数遵循的一个或多个全连接层。在一个实施例中，注意力网络

134-3是由柔性最大值传输函数遵循的全连接层，其可以用于将值转换为动作概率。如本领域所知，在全连接层中，每个神经元接收来自前一层的每个元素的输入。全连接层将一层中的每个神经元连接到另一层中的每个神经元。全连接层中的神经元与前一层中的所有激活有连接。区域矢量集合132-3与由LSTM网络150-2从前一阶段(过去的时间步长t+1时)生成的先前隐藏状态矢量(h_t+1)133-3一起应用于注意力网络134-3。注意力网络

134-3是空间注意力模块140的一部分。注意力网络134-3处理区域矢量集合132-3和由LSTM网络150-2从前一阶段生成的隐藏状态矢量133-3，以生成空间环境矢量(Z_T)135-3，其是从CNN130-3输出的全部区域矢量132-3的较低维度加权版本。注意力网络

134-3学习并将空间权重分配给该区域矢量集合132-3中的每一个。

例如，如果在时间步长t时，卷积层130-3产生尺寸为m×n的d个特征图132-3的集合，那么这些特征图132也可以被视为具有一定长度的区域矢量的集合。每个区域矢量对应于由CNN 130在不同图像区域处提取的特征。在软注意力机制中，这意味着学习系统中的确定性加权环境，可以假设空间环境矢量(Z_T)135-3由全区域矢量132-3的加权和表示。该和的权重与该矢量的重要性(例如，该图像区域中提取的特征)成比例地被选择，由注意力网络

134-3来学习。注意力网络

134-3具有由LSTM层150-2产生的区域矢量v_i和隐藏状态h_t-1作为输入，并输出区域矢量v_i的相应重要性权重。

注意力网络

134-3可以用作CNN特征图132-3上的掩码，其中注意力网络

134-3重新加权区域特征以获得用于计算动作的信息量最丰富的特征。因此，空间注意力在进行动作选择时获得选择和聚焦于更重要的区域的能力。这也有助于减少网络中的参数总数，以便进行更高效的培训和测试。

循环和时间注意力

驱动任务通常具有不完整和嘈杂的感知信息，部分原因在于来自传感器的部分可观察性。仅给定一帧输入，自主驾驶员无法收集足够的环境信息以生成正确的驾驶行为。例如，一个被忽略的信息是周围车辆的速度，这对于进行车道变换至关重要。这使得能够驱动部分可观察马尔可夫决策过程(POMDP)。为了处理部分可观察性，引入了循环以更好地评估潜在的真实环境状态。

更具体地，经由LSTM网络150将循环添加到DDPG算法以包括驾驶任务中的时间依赖性。LSTM网络150-3是由LSTM单元构成的循环神经网络(RNN)模块。每个LSTM单元可以按顺序处理数据并随时间保持其隐藏状态。

图7C是可以被实施为LSTM单元的LSTM网络150-3的一部分的LSTM单元的一个非限制性示例的框图。LSTM单元包括输入(即，i)、输出(即，o)和忘记(即，f)门。这些门中的每一个都可以被认为是前馈(或多层)神经网络中的“标准”神经元：即，它们计算加权和的激活(使用激活函数)。i_t、o_t和f_t分别表示在时间步长t时的输入、输出和忘记门的激活。从存储器单元c到三个门i、o和f的三个出口箭头表示窥视孔连接。这些窥视孔连接实际上表示在时间t-1激活存储器单元c的贡献，即，贡献c_t-1(而不是c_t，如图可以揭示的)。换句话说，门i、o和f计算它们在时间步长t时(即，分别是i_t、o_t和f_t)的激活，还考虑在时间步长t-1时存储器单元c的激活，即c_t-1。离开存储器单元的单个从左到右的箭头不是窥视孔连接并且表示c_t。包含x符号的小圆圈表示其输入之间的元素乘法。包含类似S曲线的大圆圈表示将可微函数(如S形函数)应用于加权和。应当理解，图7C的LTSM单元是非限制性的，也可以在LSTM网络150-3内实施其他种类的LSTM单元。

再次参照图7A，LSTM网络150-3处理隐藏状态矢量(h_t+1)133-3和空间环境矢量(Z_T)135-3以生成输出152-3，其等于时间注意力权重(w_T)和隐藏状态矢量(h_T)的乘积。LSTM网络150-3将处理网络中的时间信息，而不是仅将堆叠的历史观察作为输入。此外，由于经由RNN随时间的连接，可以合并和考虑更长的历史信息序列，这可以帮助生成更复杂的驾驶策略。与原始DDPG相比，DRDPG提供多种优势，包括处理更长的输入序列的能力、时间依赖性的探索以及在部分可观察体验的情况下的更好性能。

除了考虑与RNN模块(即，LSTM网络150-3)的时间依赖性之外，在DRDPG模型中，在LSTM层的输出(其包括来自全部LSTM网络150模块的输出)上应用时间注意力，使得可以确定在过去的观察中哪些帧最重要。时间注意力模块160在不同的时间步长时学习LSTM输出152-1、152-2......152-3的标量权重(w_t、w_t+1......w_T)(以及来自图7A中未示出的LSTM150的其他实例的输出)。每个LSTM输出w_i的权重被定义为由柔性最大值传输函数遵循的特征矢量v_i 132和LSTM隐藏矢量h_i 133的内积，以将权重之和归一化为1。这可以在等式(1)中表示如下：

W_T+1-i＝Softmax(v_T+1-i·h_T+1-i)i＝1，2，...T (1)

通过该定义，每个所学习的权重取决于先前时间步长的信息和当前状态信息。所学习的权重可以解释为给定帧处LSTM输出的重要性。因此，优化过程可以被视为学习选择哪些观察对于学习正确的动作而言相对更重要。时间注意力允许系统通过权衡先前感觉观察的重要性来在车辆驾驶时学习时间上重要的信息。时间注意力的作用在于它明确地考虑过去的T帧的LSTM输出特征用以计算动作输出，而此信息只能通过普通的LSTM隐式地传递。通过增加T的值，模型可以考虑更长的历史帧序列，从而可以做出更好的动作选择。

然后组合LSTM输出152-1、152-2......152-3(以及来自图7A中未示出的150的其他实例的输出)以生成组合的环境矢量(C_T)162。组合的环境矢量(C_T)162是较低维度张量表示，其是跨越T个时间步长的全部LSTM输出的加权和(例如，全部区域矢量的加权和)。这可以在等式(2)中表示如下：

分层动作

然后，在计算执行器网络110的分层动作172之前，通过一个或多个全连接(FC)层170传递组合的环境矢量(C_T)162。在一个实施例中，分层动作172可以是表示全部分层动作的单个矢量。

图8是示出根据所公开的实施例的为车道变换行为设计的分层动作172的分层动作空间的框图。如图8中所示，172可以包括各种车道变换策略172-A、172-B、172-C。为了处理驾驶策略中的车道变换行为，有必要做出关于是否进行车道变换的高级别决策，以及制作关于如何进行车道变换的低级别规划。在该示例中，存在三个互斥的、独立的高级别动作：左车道变换172-A、车道跟随172-B和右车道变换172-C。在每个时间步长时，驾驶员智能体必须选择要执行的三个高级别动作之一。

每个车道变换策略将具有相关的转向角命令和相关的加速度或制动率。例如，左车道变换策略172-A具有相关的转向角命令172-A-1和相关的加速度或制动率172-A-2，而车道跟随策略172-B具有相关的转向角命令172-B-1和相关的加速度或制动率172-B-2，而右车道变换策略172-C具有相关的转向角命令172-C-1和相关的加速度或制动率172-C-2。每个动作都需要指定2个连续值参数。在一个实施方式中，转向角参数具有限制在[-60,60]度的范围内的值。为了安全驾驶，特意防止大转向角。加速制动率(ABR)参数应用于车辆控制模块，并且是[-10,10]的范围内的实际值。这里的正值表示加速度，负值表示制动。在一个实施例中，高级别独立动作被定义为A_d＝{a^straight，a^left，a^right}。每个独立动作a∈A_d包含连续参数

的集合。在一个实施例中，整个分层动作空间可以如等式(3)中所示定义如下：

动作的三个集合意在表示三种不同类型的驾驶行为。它们都共享相同的参数结构，但应当能够在遇到不同的驾驶场景时加以区分。在培训期间，系统将学习从三个高级别动作决策中进行选择，并应用特定于该动作的适当参数。

图9是示出在进行车道变换时考虑的变量以及它们如何影响奖励信号设计的图。在强化学习算法中，一个重要的部分是设计良好的任务特定奖励来指导学习。自驾中的简单直接的奖励可以是汽车撞车前的能够行进的距离。然而，这样的奖励信号对于实施学习的驾驶员智能体来说信息量太少而难以收集足够的车道变换信息。因此，期望定义特定的奖励函数以鼓励车辆停留在车道中并且还在情况允许时执行车道变换。奖励信号应当一并确保驾驶舒适性和高效性。根据所公开的实施例，最终奖励包括至少五个部件。车辆的速度应当与道路的方向匹配。在道路方向上的速度得到奖励，并且偏离道路方向的速度受到惩罚。变量θ>0表示与道路方向的偏离角(因此，r1＝cosθ-sinθ)。变量d表示到车道中心的当前距离。驾驶时车应当保持在车道的中心位置，因此距车道中心的任何横向距离都会受到惩罚(因此，r2＝-|d|)。当汽车驶离道路边界时，评定一个大的负惩罚(因此，

)。变量v表示车辆的速度。鼓励车辆具有更大的速度，但不超过35米/秒。为了车道变换，如果前方车辆在100米的距离内，那么鼓励车辆超车。这里x是同一车道中距前方车辆的距离。如果没有找到车辆，那么x的默认值为100(因此，r5＝-max(0,100-x))。总奖励函数可以是上述术语的组合(例如，线性组合)。可以将奖励归一化到范围(0,1)，然后可以执行对不同加权系数的检索，以找到产生良好结果的最佳组合。

一旦已经生成了车道变换策略172，就可以将它们部署到车辆中使用的AI驾驶员智能体系统，以控制车辆的操作，如下面将参考图10描述的。图10是示出根据所公开的实施例的AI驾驶员智能体系统210的框图，该系统包括驾驶环境处理器214和基于人工智能(AI)的自主驾驶员智能体模块216。

图10示出了基于由驾驶环境处理器214观察到的驾驶环境的驾驶环境处理器214与其相应的基于AI的自主驾驶员智能体模块216之间的交互。如驾驶环境处理器214所观察到的，驾驶员智能体216遵循策略172以在特定驾驶环境中驾驶车辆。每个策略172可以处理驾驶环境的状态(S)(如驾驶环境处理器214所观察到的)，并且生成用于控制在该驾驶环境的状态(S)中操作的特定AV。驾驶环境的变化可以例如包括不同的开始/目标位置、不同的交通配置、不同的道路配置、不同的照明/天气/能见度条件等。在一个实施例中，每个策略172是通过深度强化学习(DRL)开发的车道变换策略(参考图8描述的)，因此可以称为DRL策略。在一个实施例中，策略172可以最初从可以从人类驾驶数据或模拟环境中获得的策略池中采样。然后，可以使用执行器-评价网络架构102基于深度循环确定性策略梯度(DRDPG)算法随时间改进策略172。

在一个实施例中，由驾驶员智能体216生成的动作(A)被发送到低级别控制器(未示出)，其可以处理动作以根据该动作生成控制致动器系统90中的一个或多个致动器装置的命令，以安排和执行要执行的一个或多个控制动作，从而自动地控制自主车辆并使特定驾驶场景中遇到的自主驾驶任务自动化(例如，以实现执行车道变换策略所需要的一个或多个特定车辆轨迹和速度曲线)。参考图2和图3作进一步解释，图10的动作相当于图3的控制信号72。如上面参考图3描述的，在一个实施例中，致动器系统90包括低级别控制器和车辆的多个致动器(例如，转向扭矩或角度控制器、制动器系统、油门系统等)。低级别控制器处理动作(或图3的控制信号72)以根据动作(或图3的控制信号72)生成控制致动器(图2的致动器装置42a-42n)的信号或命令，从而安排和执行一个或多个要执行的控制动作以自动化驾驶任务。动作(或图3的控制信号72)指定或映射到用于安排要执行的一个或多个所安排的动作的控制动作和参数，以自动化驾驶任务。一个或多个控制动作自动地控制自主车辆以使在特定驾驶场景中遇到的自主驾驶任务自动化(例如，以实现执行车道变换策略172所需要的特定车辆轨迹和速度曲线)。

可替代地，在一些实施方式中，图4-图7C的执行器-评价网络架构102可以在真实自主车辆内在线实施以通过传感器(例如，图3中的传感器28)获取实际图像数据、感测驾驶环境(即，来自驾驶环境的实际观察)并且在真实或实际的驾驶环境中进一步训练系统，如将在下面参考图11更详细地描述的。图11是示出根据所公开的实施例的在线学习系统的框图，该在线学习系统包括驾驶环境处理器214和基于人工智能(AI)的自主驾驶员智能体模块，该模块基于DRDPG算法实施执行器-评价网络架构102。在该实施例中，在线学习系统部署在其中的车辆利用执行器-评价网络架构102实时地学习和更新车道变换策略，同时还执行如上面参考图10描述的驾驶员智能体216的各种其他功能。

尽管在前面的详细描述中已经呈现了至少一个示例性实施例，但是应当理解，存在着大量的变型。还应当理解，所述一个或多个示例性实施例仅是示例，并不旨在以任何方式限制本公开的范围、适用性或配置。相反，前面的详细描述将为本领域技术人员提供用于实施所述一个或多个示例性实施例的便利路线图。应当理解，在不脱离所附权利要求及其合法等同物中所阐述的本公开的范围的情况下，可以对元件的功能和布置进行各种改变。

Claims

1.一种用于经由执行器-评价网络架构学习车道变换策略的方法，其中每个车道变换策略描述被选择由自主车辆采取的一个或多个动作，所述方法包括：

经由执行器网络随时间处理从环境接收的图像数据以将车道变换策略作为分层动作的集合来学习，其中所述每个车道变换策略包括高级别动作和相关的低级别动作，其中所述高级别动作包括：左车道变换、车道跟随和右车道变换，并且其中每个相关的低级别动作包括转向角命令参数和加速制动率参数；以及

经由在评价网络处的动作值函数预测动作值；

经由所述评价网络评估车道变换策略；

经由所述评价网络计算损失和梯度以驱动学习并更新所述评价网络；

其中，在每个特定的时间步长时经由所述执行器网络进行的处理包括：

在所述执行器网络的卷积神经网络(CNN)处，处理所述图像数据以生成特征图，所述特征图包括驾驶环境的机器可读表示，其包括在特定时间步长时获取的所述环境的特征；

在所述执行器网络的空间注意力模块处，处理所述特征图以选择所述图像数据中的相关区域，其是用于在驾驶中进行车道变换时计算动作所需要聚焦的重要的区域；

在所述空间注意力模块处，学习所述图像数据的每个所述相关区域的重要性权重；

在所述空间注意力模块处，将所学习的重要性权重应用于所述图像数据的每个所述相关区域，以增加所述图像数据的所述相关区域的重要性；

在所述空间注意力模块处，生成空间环境矢量；以及

在所述执行器网络的时间注意力模块处，处理所述空间环境矢量以学习要应用于过去的图像数据帧的时间注意力权重，从而指示在决定选择哪个车道变换策略时的相对重要性；

在所述时间注意力模块处，生成组合的环境矢量；

进一步包括：

经由至少一个全连接层处理所述组合的环境矢量，以生成所述分层动作的集合。

2.根据权利要求1所述的方法，其中经由所述执行器网络随时间处理从所述环境接收的所述图像数据包括：

处理从所述环境接收的所述图像数据，以将所述车道变换策略作为所述分层动作的集合来学习，其被表示为动作选择概率的矢量和耦合到每个独立分层动作的第一参数集合，以及

其中，经由在所述评价网络处的所述动作值函数预测所述动作值包括：

使用第二参数集合经由在所述评价网络处的所述动作值函数预测动作值，其中所述动作值函数被表示为使用所述第二参数集合的神经网络；

其中，经由所述评价网络评估所述车道变换策略包括：

基于由所述执行器网络生成的转移，经由所述评价网络评估所述车道变换策略，其中所述转移包括由所述执行器网络生成的所述图像数据、分层动作、奖励和下一图像数据。

3.根据权利要求2所述的方法，其中经由所述评价网络计算损失和梯度以驱动学习并更新所述评价网络包括：

经由所述评价网络计算损失和梯度以驱动学习并更新所述评价网络的所述第二参数集合，其中计算包括：

在反向传播模式期间，在所述评价网络处处理所获得的小批量转移，其包括由所述执行器网络生成的所述图像数据、分层动作、奖励和下一图像数据；

通过区分所述评价网络关于所述第二参数集合的损失，在所述评价网络处计算所述动作值函数的第一梯度，其中所述第一梯度是在关于所述第二参数集合预测所述动作值函数中的误差的梯度，其中所述第一梯度用于更新所述评价网络的所述第二参数集合；

基于所述第一梯度在所述评价网络处更新所述第二参数集合；

通过区分所述评价网络关于由所述执行器网络采取的所述分层动作的损失，在所述评价网络处计算关于由所述执行器网络生成的所述分层动作的所述动作值函数的第二梯度；

进一步包括：

将所述第二梯度反向传播到所述执行器网络；

在所述执行器网络处处理所述第二梯度以及由所述执行器网络生成的第三梯度以更新所述第一参数集合，其中通过区分所述执行器网络关于由所述执行器网络采取的所述分层动作的损失生成第三梯度。

4.根据权利要求1所述的方法，其中所述空间注意力模块包括：注意力网络，其包括至少一个全连接层，其中每个神经元接收来自前一层的全部激活的输入；以及耦合到所述全连接层的激活函数，其将值转换为动作概率，并且其中由CNN从所述特征图中提取区域矢量集合，其中每个区域矢量对应于由CNN从所述图像数据的不同图像区域提取的特征的不同特征层；以及

其中，在所述空间注意力模块处，学习所述图像数据的每个所述相关区域的重要性权重包括：

在所述注意力网络处，应用所述区域矢量集合以及在过去的时间步长期间由LSTM网络生成的先前隐藏状态矢量，以学习所述区域矢量集合中的每个区域矢量的重要性权重；

其中，在所述空间注意力模块处，将所学习的重要性权重应用于所述图像数据的每个所述相关区域，以增加所述图像数据的所述相关区域的重要性包括：

在所述注意力网络处，将所学习的重要性权重应用于所述区域矢量集合的每个区域矢量，以与由所述注意力网络所学习的该区域矢量的重要性成比例地增加所述区域矢量集合的每个区域矢量的重要性，以及

其中，在所述空间注意力模块处生成所述空间环境矢量包括：

在所述注意力网络处生成所述空间环境矢量，该空间环境矢量是由全部所述区域矢量集合的加权和表示的所述区域矢量集合的较低维度加权版本。

5.根据权利要求4所述的方法，其中，所述空间注意力模块和所述时间注意力模块包括：长短期记忆(LSTM)网络，由LSTM单元构成，其中每个LSTM单元顺序处理输入数据并随时间保持该输入数据的隐藏状态，以及

其中在所述执行器网络的所述时间注意力模块处，处理所述空间环境矢量以学习要应用于过去的图像数据帧的时间注意力权重，从而指示在决定选择哪个车道变换策略时的相对重要性包括：

在每个时间步长时在所述LSTM网络处，处理该时间步长的所述空间环境矢量和由所述LSTM网络在过去的时间步长期间生成的所述先前隐藏状态矢量，以生成LSTM输出；

在所述LSTM网络处，在每个时间步长时学习每个LSTM输出的时间注意力权重，其中所学习的时间注意力权重是该时间步长的所述区域矢量和该时间步长的所述隐藏矢量的内积，并且反映在给定帧处的该LSTM输出的相对重要性，使得对于学习正确的动作而言最重要的帧被认为对计算动作输出具有更高的重要性；

在所述LSTM网络处经由柔性最大值传输函数，将全部所学习的时间注意力权重之和归一化为1；以及

在每个时间步长时在所述LSTM网络处，生成该时间步长的加权输出，其等于该时间步长的所学习的时间注意力权重与该时间步长的隐藏状态矢量的乘积。

6.根据权利要求5所述的方法，其中在所述时间注意力模块处生成所述组合的环境矢量包括：

在每个时间步长时在所述LSTM网络处，组合来自每个时间步长的所述LSTM输出以生成所述组合的环境矢量，其是在一定数量(T)个时间步长上的全部所述LSTM输出的加权和。

7.根据权利要求1所述的方法，其中所述执行器-评价网络架构基于深度循环确定性策略梯度(DRDPG)算法，其一并考虑在所述时间注意力模块处的时间注意力和在所述空间注意力模块处的空间注意力，所述时间注意力模块学习权衡所述图像数据的任何给定帧处的图像数据先前帧的重要性，所述空间注意力模块学习所述图像数据的任何给定帧中的不同位置的重要性，其中所述空间注意力模块和所述时间注意力模块共同改进了所述执行器网络的车道变换策略选择。

8.一种执行器-评价网络系统，包括：

执行器网络，被配置为：随时间处理从环境接收的图像数据，以将车道变换策略作为分层动作的集合来学习，其中每个车道变换策略描述被选择由自主车辆采取的一个或多个动作，其中所述每个车道变换策略包括高级别动作和相关的低级别动作，其中所述高级别动作包括：左车道变换、车道跟随和右车道变换，并且其中每个相关的低级别动作包括转向角命令参数和加速制动率参数；以及

评价网络，被配置为：经由动作值函数预测动作值、评估车道变换策略以及计算损失和梯度以驱动学习并更新所述评价网络，

其中，所述执行器网络包括：

卷积神经网络(CNN)，被配置为：在特定时间步长时处理从所述环境接收的所述图像数据以生成特征图，所述特征图包括所述驾驶环境的机器可读表示，其包括在特定时间步长时获取的所述环境的特征；

空间注意力模块，被配置为：处理所述特征图以选择所述图像数据中的相关区域，其是用于在驾驶中进行车道变换时计算动作所需要聚焦的重要的区域；学习所述图像数据的每个所述相关区域的重要性权重；将所学习的重要性权重应用于所述图像数据的每个所述相关区域，以增加所述图像数据的所述相关区域的重要性；以及生成空间环境矢量；以及

时间注意力模块，被配置为：处理所述空间环境矢量以学习要应用于过去的图像数据帧的时间注意力权重，从而指示在决定选择哪个车道变换策略时的相对重要性，其中，所述时间注意力模块被配置为生成组合的环境矢量；

至少一个全连接层，被配置为处理所述组合的环境矢量以生成所述分层动作的集合。

9.根据权利要求8所述的系统，其中，所述执行器网络被配置为：处理从所述环境接收的所述图像数据以将所述车道变换策略作为所述分层动作的集合来学习，其被表示为动作选择概率的矢量和耦合到每个独立分层动作的第一参数集合，以及

其中所述评价网络被配置为：

使用第二参数集合经由所述动作值函数预测所述动作值，其中所述动作值函数被表示为使用所述第二参数集合的神经网络；

基于由所述执行器网络生成的转移来评估所述车道变换策略，其中所述转移包括由所述执行器网络生成的所述图像数据、分层动作、奖励和下一图像数据；

在反向传播模式期间，处理所获得的小批量转移，其包括由所述执行器网络生成的所述图像数据、分层动作、奖励和下一图像数据；

通过区分所述评价网络关于所述第二参数集合的损失来计算所述动作值函数的第一梯度，其中所述第一梯度是在关于所述第二参数集合预测所述动作值函数中的误差的梯度，并且用于更新所述评价网络的所述第二参数集合；

通过区分所述评价网络关于由所述执行器网络采取的所述分层动作的损失，计算关于由所述执行器网络生成的所述分层动作的所述动作值函数的第二梯度；

将所述第二梯度反向传播到所述执行器网络；以及

其中所述执行器网络被配置为：

通过区分所述执行器网络关于由所述执行器网络采取的所述分层动作的损失生成第三梯度；以及

处理所述第二梯度以及所述第三梯度。

10.根据权利要求9所述的系统，其中所述执行器网络包括：

所述卷积神经网络(CNN)，被配置为：处理从所述环境接收的所述图像数据以生成所述特征图，并且从所述特征图提取区域矢量集合，其中每个区域矢量对应于由CNN从所述图像数据的不同图像区域提取的特征的不同特征层；

其中，所述空间注意力模块包括：

注意力网络，其包括至少一个全连接层，其中每个神经元接收来自前一层的全部激活的输入；以及耦合到全连接层的激活函数，其将值转换为动作概率，其中所述区域矢量集合与在过去的时间步长期间由LSTM网络生成的先前隐藏状态矢量一起应用于所述注意力网络，其中所述注意力网络被配置为学习并将重要性权重与所述注意力网络所学习的所述区域矢量集合的每个区域矢量的重要性成比例地分配到该区域矢量，并且其中所述注意力网络被配置为生成所述空间环境矢量，该空间环境矢量是所述区域矢量集合的较低维度加权版本，其由全部所述区域矢量集合的加权和表示；

其中，所述空间注意力模块和所述时间注意力模块包括：

长短期记忆(LSTM)网络，由LSTM单元构成，其中每个LSTM单元顺序处理输入数据并且随时间保持该输入数据的隐藏状态，其中所述LSTM网络被配置为：

在每个时间步长时：

处理该时间步长的所述空间环境矢量和由所述LSTM网络在过去的时间步长期间生成的所述先前隐藏状态矢量，以生成LSTM输出；

学习每个LSTM输出的时间注意力权重，其中所学习的时间注意力权重是该时间步长的所述区域矢量和该时间步长的所述隐藏矢量的内积，并且反映给定帧处的该LSTM输出的相对重要性，使得对于学习正确的动作而言最重要的帧被认为对计算动作输出具有更高的重要性；

经由柔性最大值传输函数，将全部所学习的时间注意力权重之和归一化为1；以及

生成该时间步长的加权输出，其等于该时间步长的所学习的时间注意力权重与该时间步长的隐藏状态矢量的乘积；以及

组合来自每个时间步长的所述LSTM输出，以生成所述组合的环境矢量，其是在一定数量(T)个时间步长上的全部所述LSTM输出的加权和；

其中所述时间注意力模块还包括：

所述至少一个全连接层，被配置为处理所述组合的环境矢量以生成所述分层动作的集合。