CN116118772A

CN116118772A - 考虑不确定性的自动驾驶强化学习运动规划方法和系统

Info

Publication number: CN116118772A
Application number: CN202211463660.4A
Authority: CN
Inventors: 杨殿阁; 江昆; 周伟韬; 曹重; 邓楠山; 刘小钰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-05-16

Abstract

本发明涉及一种考虑不确定性的自动驾驶强化学习运动规划方法和系统，包括以下步骤：基于获取的历史驾驶数据，使用深度强化学习方法对预先构建的多头值函数网络进行训练；获取当前时刻的环境状态信息，并分别利用训练得到的多头值函数网络和自动驾驶车辆的自动驾驶系统得到基于数据拟合的运动轨迹和基于规则的运动轨迹，比较后得到自动驾驶车辆的最优运动轨迹。通过结合自举式不确定性估计，考虑了强化学习算法在计算过程中可能由于其黑箱特性导致的不确定性，通过基于规则的方法避免了这种不确定性可能造成的危险决策，有助于提升该类方法在智能车辆中使用的安全性和可靠性。因此，本发明可以广泛应用于智能车辆领域。

Description

考虑不确定性的自动驾驶强化学习运动规划方法和系统

技术领域

本发明属于智能车辆领域，具体涉及一种考虑不确定性的自动驾驶强化学习运动规划方法和系统。

背景技术

近年来，人工智能技术在智能交通和车辆领域逐渐开始商业化应用，智能网联车辆逐渐走入人们的视野。一般来说，智能车辆的自动驾驶系统可以分为感知、定位、决策和控制四个模块。其在，运动规划是自动驾驶系统的决策模块中最为关键的部分之一，其规划的结果对车辆最终驾驶决策结果有着直接的影响。

现有的运动规划方法可以大致分为基于规则的方法和基于学习的方法。基于学习的方法，特别是基于强化学习的方法可以从大量驾驶数据中自主的学习最优决策策略，从而有望将无人驾驶决策的能力提升至超越现有人工设计方法的水平。但这类方法一般基于深度神经网络，存在黑箱特性，其风险难以估计，这给无人驾驶安全带来了巨大的挑战。

发明内容

针对上述问题，本发明的目的是提供一种考虑不确定性的自动驾驶强化学习运动规划方法和系统，通过结合自举式不确定性估计，考虑了强化学习算法在计算过程中可能由于其黑箱特性导致的不确定性，提高了运动规划精度。

为实现上述目的，本发明采取以下技术方案：

第一方面，本发明提供一种考虑不确定性的自动驾驶强化学习运动规划方法，包括以下步骤：

基于获取的历史驾驶数据，使用深度强化学习方法对预先构建的多头值函数网络进行训练；

获取当前时刻的环境状态信息，并分别利用训练得到的多头值函数网络和待规划车辆的自动驾驶系统得到基于数据拟合的运动轨迹和基于规则的运动轨迹，比较后得到待规划车辆的最优运动轨迹。

进一步，所述基于获取的历史驾驶数据，使用深度强化学习方法对预先构建的多头值函数网络进行训练，包括：

构建多头值函数网络并进行随机初始化；

采集驾驶数据；

对采集的驾驶数据进行自举式的采样，并基于采样数据，使用深度强化学习方法对多头值函数网络中的各子神经网络分别训练。

进一步，所述多头值函数网络包括多个并行的子神经网络，各所述子神经网络的输入为当前环境状态s及期望决策动作a，输出为该环境状态-期望决策动作对应的决策值Q(s,a)。

进一步，所述获取当前时刻的环境状态信息，并分别利用训练得到的多头值函数网络和待规划车辆的自动驾驶系统得到基于数据拟合的运动轨迹和基于规则的运动轨迹，比较后得到待规划车辆的最优运动轨迹，包括：

获取当前时刻的环境状态信息；

基于当前时刻的环境状态信息，利用待规划车辆本身的自动驾驶系统获取全局轨迹规划结果，并基于代价函数计算得到基于规则的运动轨迹；

基于当前时刻的环境状态信息，利用多头值函数网络，计算得到基于数据拟合的运动轨迹；

基于自举不确定性计算，从基于规则的运动轨迹与基于数据拟合的运动轨迹中确定最优运动轨迹并输出。

进一步，所述基于当前时刻的环境状态信息，利用待规划车辆本身的自动驾驶系统获取全局轨迹规划结果，并基于代价函数计算得到基于规则的运动轨迹，包括：

基于当前时刻的环境状态信息，根据自动驾驶的全局轨迹规划结果，生成运动规划的m条候选轨迹a₁，a₂，a₃，…a_m；

在每个规划循环中，利用代价函数，从候选轨迹中选取代价值最小的轨迹作为基于规则的运动轨迹a_r。

进一步，所述基于当前时刻的环境状态信息，利用训练好的多头值函数网络，计算得到基于数据拟合的运动轨迹，包括：

S231、将当前环境状态信息s和基于规则的运动轨迹a_r作为多头值函数网络的输入，得到基于规则的运动轨迹a_r所对应的一系列决策值Q₁(s，a_r)，Q₂(s，a_r)，...，Q_n(s，a_r)；

S232、从m条候选轨迹a₁，a₂，a₃，...a_m中随机采集一条轨迹作为期望决策动作a，将期望决策动作a和当前环境状态信息s作为多头值函数网络的输入，得到期望决策动作a所对应的一系列决策值：Q₁(s，a)，Q₂(s，a)，...，Q_n(s，a)；

S233、将期望决策动作a所对应的一系列决策值分别与基于规则的运动轨迹a_r所对应的一系列决策值进行比较，得到该期望决策动作a中满足Q_i(s，a)＞Q_i(s，a_r)的决策值数量K，i＝1，2，...，n；

S234、重复步骤S232～S234，并将满足条件数量最多的期望决策动作作为基于数据拟合的运动轨迹a_d。

进一步，所述基于自举不确定性计算，从基于规则的运动轨迹与基于数据拟合的运动轨迹中确定最优运动轨迹并输出，包括：

将基于数据拟合的运动轨迹a_d中满足Q_i(s，a)＞Q_i(s，a_r)的决策值数量K与预设阈值K₀进行比较：

若K大于K₀，则将基于数据拟合的运动轨迹a_d作为待规划车辆的最优规划轨迹输出，否则，将基于规则的运动轨迹a_r作为待规划车辆的最优规划轨迹输出。

第二方面，本发明提供一种考虑不确定性的自动驾驶强化学习运动规划系统，包括：

离线训练模块，用于基于获取的历史驾驶数据，使用深度强化学习方法对预先构建的多头值函数网络进行训练；

在线规划模块，用于获取当前时刻的环境状态信息，并分别利用训练得到的多头值函数网络和待规划车辆的自动驾驶系统得到基于数据拟合的运动轨迹和基于规则的运动轨迹，比较后得到待规划车辆的最优运动轨迹。

第三方面，本发明提供一种处理设备，所述处理设备至少包括处理器和存储器，所述存储器上存储有计算机程序，所述处理器运行所述计算机程序时执行以实现所述考虑不确定性的自动驾驶强化学习运动规划方法的步骤。

第四方面，本发明提供一种计算机存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现根据所述考虑不确定性的自动驾驶强化学习运动规划方法的步骤。

本发明由于采取以上技术方案，其具有以下优点：本发明提供的基于自举式不确定性估计的自动驾驶强化学习运动规划，通过结合自举式不确定性估计，考虑了强化学习算法在计算过程中可能由于其黑箱特性导致的不确定性，通过基于规则的方法避免了这种不确定性可能造成的危险决策，有助于提升该类方法在智能车辆中使用的安全性和可靠性。因此，本发明可以广泛应用于智能车辆领域。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。在整个附图中，用相同的附图标记表示相同的部件。在附图中：

图1是本发明实施例提供的自动驾驶强化学习运动规划方法流程图；

图2是本发明实施例提供的多头值函数网络模型结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明的一些实施例中，提供一种考虑不确定性的自动驾驶强化学习运动规划方法，通过接收自动驾驶感知结果，即周边环境中障碍物的位置、速度等信息，以自车当前位置为起点，输出一系列智能车辆可以执行的时序动作序列。其中，可执行动作的生成使用基于深度强化学习的规划方法，并在规划过程中对神经网络的不确定性进行估计。

与之相对应地，本发明的另一些实施例中提供一种考虑不确定性的自动驾驶强化学习运动规划方法、设备和介质。

实施例1

如图1所示，本实施例提供一种考虑不确定性的自动驾驶强化学习运动规划方法，包括离线训练和在线规划两个阶段，具体包括以下步骤：

步骤S1、离线训练：基于获取的历史驾驶数据，使用深度强化学习方法对构建的多头值函数网络进行训练；

步骤S2、在线规划：获取当前时刻的环境状态信息，并分别利用训练得到的多头值函数网络和自动驾驶车辆的自动驾驶系统得到基于数据拟合的运动轨迹和基于规则的运动轨迹，比较后得到自动驾驶车辆的最优运动轨迹。

优选地，上述步骤S1可以通过以下步骤实现：

S11、构建多头值函数网络并进行随机初始化；

S12、采集历史驾驶数据；

S13、对采集的历史驾驶数据进行自举式采样，并采用深度强化学习方法对多头值函数网络中的各子神经网络分别训练。

优选地，如图2所示，上述步骤S11中，多头值函数网络包括多个并行的子神经网络(也即值函数)，各子神经网络的输入为当前环境状态s及期望决策动作a，输出为该环境状态-期望决策动作对应的决策值Q(s,a)。

优选地，上述步骤S11中，对多头值函数网络进行随机初始化操作指的是对多个并行的子神经网络中的权重进行初始化操作，其中，每个权重的初始值从一个手动定义的高斯分布或其他随机分布中采样。

优选地，上述步骤S12中，采集的驾驶数据指自动驾驶车辆行驶过程中产生的数据，每段数据的格式为(s,a,r,s’)，其中，s为当前时刻环境状态信息，a为期望决策动作，r为执行期望决策动作a后所获得的奖励值，s’为下一时刻环境状态信息。奖励值r是一个由环境状态信息s与期望决策动作a构成的函数，即r(s,a)。

优选地，上述步骤S13中，从回放储存器中自举式的采样驾驶数据是指：从回放储存器中随机采集一段驾驶数据，用该段驾驶数据训练多头值函数网络中并行的子神经网络的其中一部分。为了判别该段驾驶数据会被用于训练哪些子神经网络，对每个子神经网络，进行一次基于二项式分布的采样，若该采样结果为1，则该段驾驶数据用于可以训练此子神经网络，反之则不用于训练该子神经网络。

优选地，上述步骤S13中，采用深度强化学习方法对多头值函数网络中的各子神经网络分别训练时，采用基于深度Q学习算法的强化学习模块。对于强化学习算法，首先需要确定状态空间，动作空间。在本发明中，状态空间为环境中障碍物的信息，包括障碍物的位置，大小和速度(x,y,l,w，vx，vy)，x,y分别为障碍物的坐标，l,w分别为障碍物的长宽，vx，vy分别是障碍物在两个方向上的速度；动作空间设置为离散的动作空间，其长度可以根据实际需求手动设定。

在离线训练过程中，还需要确定强化学习模块的奖励函数：

R＝r₁+r₂+r₃

其中，r₁为到达终点的奖励，r₂为碰撞惩罚，r₁为针对长时间停车的惩罚。

优选地，上述步骤S2可以通过以下步骤实现：

S21、获取当前时刻的环境状态信息；

S22、基于当前时刻的环境状态信息，利用自动驾驶车辆本身的全局轨迹规划结果及综合考虑舒适性、通行效率等因素的代价函数，计算得到基于规则的运动轨迹a_r；

S23、基于当前时刻的环境状态信息，利用训练好的多头值函数网络，计算得到基于数据拟合的运动轨迹；

S24、基于自举不确定性计算，从基于规则的运动轨迹与基于数据拟合的运动轨迹中确定最优运动轨迹并输出。

优选地，上述步骤S22可以通过以下步骤实现：

S221、基于当前时刻的环境状态信息，根据自动驾驶车辆的全局轨迹规划结果，生成运动规划的m条候选轨迹a₁，a₂，a₃，...a_m。

S222、在每个规划循环中，利用综合考虑舒适性、通行效率等因素的代价函数，从候选轨迹中选取代价值最小的轨迹作为基于规则的运动轨迹a_r。

优选地，上述步骤S221中，全局轨迹规划结果由自动驾驶车辆的自动驾驶系统给出，或手动指定。

优选地，上述步骤S222中，代价函数为：

C＝k_jJ_t+k_tg(T)+k_ph(p₁)

其中，J_t表示为整条轨迹上所有点加加速度的时间积分，g和h是任意函数，T为轨迹总体预期耗时，p₁为轨迹最后一个点与全局轨迹规划结果的横向距离，k_j，k_t，k_p为权重，可以手动调整，取值>0。

优选地，上述步骤S23中，如图2所示，基于当前时刻的环境状态信息，利用训练好的多头值函数网络，计算得到基于数据拟合的运动轨迹的方法，具体为：

优选地，上述步骤S24中，基于自举不确定性计算，从基于规则的运动轨迹a_r与基于数据拟合的运动轨迹a_d中输出自动驾驶车辆的最优规划轨迹的方法，包括：

将基于数据拟合的运动轨迹a_d中满足Q_i(s，a)＞Q_i(s，a_r)的决策值数量K与预设阈值K₀进行比较，若K大于K₀，则将基于数据拟合的运动轨迹a_d作为自动驾驶车辆的最优规划轨迹输出，否则，将基于规则的运动轨迹a_r作为自动驾驶车辆的最优规划轨迹输出。

实施例2

上述实施例1提供了一种考虑不确定性的自动驾驶强化学习运动规划方法，与之相对应地，本实施例提供一种考虑不确定性的自动驾驶强化学习运动规划系统。本实施例提供的系统可以实施实施例1的一种考虑不确定性的自动驾驶强化学习运动规划方法，该系统可以通过软件、硬件或软硬结合的方式来实现。例如，该系统可以包括集成的或分开的功能模块或功能单元来执行实施例1各方法中的对应步骤。由于本实施例的系统基本相似于方法实施例，所以本实施例描述过程比较简单，相关之处可以参见实施例1的部分说明即可，本实施例提供的系统的实施例仅仅是示意性的。

本实施例提供的一种考虑不确定性的自动驾驶强化学习运动规划系统，包括：

离线训练模块，用于基于获取的历史驾驶数据，使用深度强化学习方法对构建的多头值函数网络进行训练；

在线规划模块，用于获取当前时刻的环境状态信息，并分别利用训练得到的多头值函数网络和自动驾驶车辆的自动驾驶系统得到基于数据拟合的运动轨迹和基于规则的运动轨迹，比较后得到自动驾驶车辆的最优运动轨迹。

实施例3

本实施例提供一种与本实施例1所提供的考虑不确定性的自动驾驶强化学习运动规划方法对应的处理设备，处理设备可以是用于客户端的处理设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行实施例1的方法。

所述处理设备包括处理器、存储器、通信接口和总线，处理器、存储器和通信接口通过总线连接，以完成相互间的通信。存储器中存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行本实施例1所提供的一种考虑不确定性的自动驾驶强化学习运动规划方法。

在一些实施例中，存储器可以是高速随机存取存储器(RAM：Random AccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

在另一些实施例中，处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器，在此不做限定。

实施例4

本实施例1的一种考虑不确定性的自动驾驶强化学习运动规划方法可被具体实现为一种计算机程序产品，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本实施例1所述的一种考虑不确定性的自动驾驶强化学习运动规划方法的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种考虑不确定性的自动驾驶强化学习运动规划方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种考虑不确定性的自动驾驶强化学习运动规划方法，其特征在于，所述基于获取的历史驾驶数据，使用深度强化学习方法对预先构建的多头值函数网络进行训练，包括：

构建多头值函数网络并进行随机初始化；

采集驾驶数据；

3.如权利要求2所述的一种考虑不确定性的自动驾驶强化学习运动规划方法，其特征在于，所述多头值函数网络包括多个并行的子神经网络，各所述子神经网络的输入为当前环境状态s及期望决策动作a，输出为该环境状态-期望决策动作对应的决策值Q(s,a)。

4.如权利要求2所述的一种考虑不确定性的自动驾驶强化学习运动规划方法，其特征在于，所述获取当前时刻的环境状态信息，并分别利用训练得到的多头值函数网络和待规划车辆的自动驾驶系统得到基于数据拟合的运动轨迹和基于规则的运动轨迹，比较后得到待规划车辆的最优运动轨迹，包括：

获取当前时刻的环境状态信息；

5.如权利要求4所述的一种考虑不确定性的自动驾驶强化学习运动规划方法，其特征在于，所述基于当前时刻的环境状态信息，利用待规划车辆本身的自动驾驶系统获取全局轨迹规划结果，并基于代价函数计算得到基于规则的运动轨迹，包括：

基于当前时刻的环境状态信息，根据自动驾驶的全局轨迹规划结果，生成运动规划的m条候选轨迹a₁，a₂，a₃，...a_m；

6.如权利要求5所述的一种考虑不确定性的自动驾驶强化学习运动规划方法，其特征在于，所述基于当前时刻的环境状态信息，利用训练好的多头值函数网络，计算得到基于数据拟合的运动轨迹，包括：

S233、将期望决策动作a所对应的一系列决策值分别与基于规则的运动轨迹a_r所对应的一系列决策值进行比较，得到该期望决策动作a中满足Q_i(s，a)＞Q_i(s，a_r)的决策值数量K，i＝1,2，...，n；

7.如权利要求6所述的一种考虑不确定性的自动驾驶强化学习运动规划方法，其特征在于，所述基于自举不确定性计算，从基于规则的运动轨迹与基于数据拟合的运动轨迹中确定最优运动轨迹并输出，包括：

若K大于K₀，则将基于数据拟合的运动轨迹a_d作为待规划车辆的最优规划轨迹输出，否则，将基于规则的运动轨迹a_r作为待规划的最优规划轨迹输出。

8.一种考虑不确定性的自动驾驶强化学习运动规划系统，其特征在于，包括：

9.一种处理设备，所述处理设备至少包括处理器和存储器，所述存储器上存储有计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现权利要求1到7任一项所述考虑不确定性的自动驾驶强化学习运动规划方法的步骤。

10.一种计算机存储介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现根据权利要求1到7任一项所述考虑不确定性的自动驾驶强化学习运动规划方法的步骤。