CN114580302A

CN114580302A - 基于最大熵强化学习的自动驾驶汽车决策规划方法

Info

Publication number: CN114580302A
Application number: CN202210261432.2A
Authority: CN
Inventors: 唐小林; 黄冰; 刘腾; 杨丰阁; 杨凯; 李佳承
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-06-03

Abstract

本发明涉及一种基于最大熵强化学习的自动驾驶汽车决策规划方法，属于自动驾驶汽车领域。该方法包括：S1：构建基于最大熵强化学习的决策规划模型，该模型包括：状态空间、动作空间、奖励函数、策略函数与评价模型；S2：构建具有交互性的高速公路仿真训练场景：使用二自由度汽车运动学模型描述训练场景中车辆的运动，并利用基于规则的智能决策规划模型控制环境车辆，使环境具有交互特性；S3：训练基于最大熵强化学习的决策规划模型。本发明利用最大熵强化学习提高了自动驾驶汽车的高速公路决策规划策略的最优性与稳定性。

Description

基于最大熵强化学习的自动驾驶汽车决策规划方法

技术领域

本发明属于自动驾驶汽车领域，涉及一种基于最大熵强化学习的自动驾驶汽车决策规划方法。

背景技术

驾驶员操作不当已经成为交通系统中影响安全的主要因素。作为智能交通运输系统的一环，在改善交通安全方面有着巨大潜力的自动驾驶技术，引起了国内外研究人员的重视。

由于同时涉及横向与纵向运动，车辆换道行为风险较高、逻辑复杂。当前的决策规划方法主要分为基于规则的、基于优化的与基于学习的。基于规则的方法受限于人工设计的、僵化的规则，换道策略过于保守，并且只适用于特定场景。基于优化的方法将换道决策规划问题看作一个有约束的非线性、非凸优化问题。由于该优化问题求解难度高，该类方法难以满足实时性要求。基于学习的方法可利用驾驶数据，自动生成具有泛化性的驾驶经验，有适应各种场景的潜力。但当前基于学习的决策规划方法的数据利用率与稳定性不足。同时，驾驶数据采集成本高、采集风险大，并且数据难以体现环境车辆与目标车辆间的交互。

因此，需要一种新的自动驾驶汽车高速公路决策规划方法来解决以上问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于最大熵强化学习的自动驾驶汽车高速公路决策规划方法，通过仿真训练环境提供的交互性训练数据，提高基于学习的方法的数据利用率、最优性和稳定。

为达到上述目的，本发明提供如下技术方案：

一种基于最大熵强化学习的自动驾驶汽车高速公路决策规划方法，具体包括以下步骤：

S1：构建基于最大熵强化学习的决策规划模型，该模型包括：状态空间、动作空间、奖励函数、策略函数与评价模型；

S2：构建具有交互性的高速公路仿真训练场景：使用二自由度汽车运动学模型描述训练场景中车辆的运动，并利用基于规则的智能决策规划模型控制环境车辆，使环境具有交互特性；

S3：训练基于最大熵强化学习的决策规划模型。

进一步，步骤S1中，构建基于最大熵强化学习的决策规划模型，具体包括：

S11：搭建状态空间S：以关键的环境信息构建状态空间，包括目标车辆的位置、速度和航向角，一定范围内的环境车辆相对目标车辆的相对位置、相对速度及其航向角；状态空间表示环境中可能出现的全部状态。状态是目标车辆对环境的观测，最大熵强化学习模型将获得的状态作为决策规划的基础。

S12：确定动作空间A：动作空间由车辆加速度与前轮转向角组成，以此控制目标车辆的移动；动作空间表示最大熵强化学习模型可采取的动作。

S13：构建奖励函数R：奖励函数是安全指标r_safe、高效指标r_speed、舒适指标r_comfort和合规指标r_rule四个指标的加权求和，即：

r＝k₁r_safe+k₂r_speed+k₃r_comfort+k₄r_rule

其中，k₁、k₂、k₃、k₄为各项的权重，安全指标r_safe要求目标车辆未发生碰撞或者驶向道路外，高效指标r_speed要求目标车辆的行驶速度接近期望速度，舒适指标r_comfort要求车辆的侧向加速度较小，合规指标r_rule鼓励车辆在最右侧车道行驶并鼓励车辆沿着所在车道中心线行驶；

S14：给定策略函数π的结构：使用多层感知机拟合策略函数π，其中；策略函数表示状态与动作间的映射关系；

S15：给定评价模型的结构：评价模型包括两对评价函数与目标评价函数；两个评价函数Q₁、Q₂与两个目标评价函数Q_tar-1、Q_tar-2均由相同结构的多层感知机拟合；目标评价函数的作用是提高模型的数据利用率，使用两对评价函数与目标评价函数是为了提高模型的稳定性。评价模型以最大化奖励与策略熵的加权和为评价标准，评估最大熵强化学习模型采取的动作。

进一步，步骤S2中，构建具有交互性的高速公路仿真训练场景，具体包括以下步骤：

S21：规定仿真环境中，车辆的运动皆由二自由度的运动学模型描述：

其中，x、y、

v分别是车辆的纵向位置、横向位置、横摆角以及速度，x’、y’、

v’分别是纵向位置、横向位置、横摆角以及速度的一阶导数，a是加速度，l_r、l_f是车辆的重心到前轴、后轴的距离，β是车辆的重心处的侧偏角，δ是转向角；

S22：搭建基于规则的环境车辆决策规划模型：为了使环境车辆能对环境的变化主动做出反应，从而使仿真环境具有交互性，赋予环境车辆一种基于规则的智能决策规划模型；

S23：随机初始化环境车辆在仿真环境中的初始位置、初始速度与期望速度。

进一步，步骤S3中，训练基于最大熵强化学习的决策规划模型，具体包括：模型初始化，生成交互式训练数据，更新评价模型、策略函数和温度系数，测试模型性能。

进一步，步骤S3中，训练最大熵强化学习模型，具体包括以下步骤：

S31：初始化最大熵强化学习的决策规划模型，包括模型的超参数、策略函数与评价函数；

S32：在仿真训练环境中加入目标车辆，生成交互性的训练数据(s_t,a_t,r_t,s_t+1)，；将训练数据添加至数据库；

S33：从数据库中提取训练数据，以梯度下降法分别更新评价模型的两个评价函数，下降梯度为：

其中，M是采样的样本数，|M|表示样本集合的大小，s_t、a_t、r_t分别是车辆在t时刻所处的状态、采取的动作、获得的奖励，Q_i是第i个评价函数，θ_i是评价函数Q_i的参数，y(·)是对评价函数值的预测，Q_tar-j是第j个目标函数，π(·|s_t)表示策略函数，

是在下一时刻的状态s_t+1下，根据策略函数采样的下一时刻的行为；α是温度系数；γ是折扣因子；

S34：以梯度下降法更新策略函数，下降梯度为：

其中，ψ是策略函数的参数，

是在下一时刻的状态s_t+1下，根据策略函数采样的下一时刻的行为；

S35：以梯度下降法更新温度系数，下降梯度为：

其中，α是温度系数，H₀为目标熵值；

S36：分别更新评价模型的两个目标评价函数：

θ_tar,i＝ρθ_tar,i+(1-ρ)θ_i,for i＝1,2

其中，ρ为软更新系数，θ_tar,i是目标函数Q_tar-i的参数，θ_i是评价函数Q_i的参数；

S37：迭代更新最大熵强化学习模型：最大熵强化学习模型收敛后，测试最大熵强化学习模型，若不满足期望，则优化最大熵强化学习模型的超参数和奖励函数，并返回至步骤S31。

本发明的有益效果在于：

1)本发明设计了一种具有交互特性的仿真训练环境，使训练数据更符合真实交通场景特征，有利于提高最大熵强化学习模型在真实交通场景中的决策规划性能。

2)本发明设计了一种基于最大熵强化学习的决策规划模型，有利于提高模型的数据利用率、最优性与稳定性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于最大熵强化学习的自动驾驶汽车决策规划方法的逻辑结构图；

图2为最大熵强化学习决策规划模型结构示意图；

图3为仿真训练环境示意图；

图4为最大熵强化学习决策规划模型训练过程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图4，本发明提供了一种基于最大熵强化学习的自动驾驶汽车高速公路决策规划方法。考虑到现实交通环境中车辆间的交互行为，因此提供一种交互性的仿真训练环境，用于提供交互性训练数据。同时，考虑到自动驾驶车辆决策规划问题对稳定性与行驶效率的要求，提出一种稳定性更好、行驶效率更高、样本利用率更高的基于最大熵强化学习的决策规划方法。该方法具体包括以下步骤：

步骤S1：构建最大熵强化学习模型，如图2所示，具体包括以下步骤：

S11：搭建状态空间S：状态空间包括目标车辆的位置、速度，一定范围内的环境车辆相对目标车辆的相对位置、相对速度，即

S＝(S_e,S_i)

-l＜Δx_ie＜L,i≤4,i∈N

其中，S_e指目标车辆，S_i指环境车辆，[-l,L]指目标车辆的观测范围，x,y是车辆的纵向、横向位置，v_x,v_y是车辆的纵向、横向速度，

指航向角。

S12：确定动作空间A：动作空间由车辆加速度与前轮转向角组成，以此控制目标车辆的移动，即A＝(a,δ),s.t.a∈[-4,4]m/s²,δ∈[-0.1,0.1]rad。

S13：构建奖励函数R：奖励函数从安全、高效、舒适三个方面对最大熵强化学习模型采取的动作进行评估。安全指标要求目标车辆未发生碰撞或者驶出道路：

其中，k₁为一个惩罚值，c＝1指发生碰撞或者驶出道路。

高效指标要求目标车辆的行驶速度接近期望速度，但不能超出期望速度区间：

其中，[v_min,v_max]指期望的速度区间，v_e指本车的速度。

舒适指标要求目标车辆以较小的侧向加速度行驶：

此外，目标车辆应尽可能的跟随车道中心线，并在高速公路的最左侧车道行驶：

r_rule＝k_4.1l_ind+k_4.2d_l

其中，l_ind指目标车辆所在车道的编号，d_l指目标车辆与所在车道的中心线的距离。

最终，奖励函数为r＝k₁r_safe+k₂r_speed+k₃r_comfort+k₄r_rule，其中k₁,k₂,k₃,k₄为各项的权重。

S14：给定策略函数π的结构：规定策略函数遵循高斯分布，并使用多层感知机π^φ拟合该高斯分布。多层感知机为含两个隐含层的全连接神经网络，每个隐含层的神经元个数为128。

S15：给定评价函数Q的结构：评价模型包括两个评价函数Q₁、Q₂与两个目标评价函数Q_tar-1、Q_tar-2。两对评价函数与目标评价函数均由含两个隐含层的全连接神经网络构成，每个隐含层的神经元个数为128。

步骤S2：构建交互性训练环境，如图3所示，具体包括以下步骤：

其中，x、y、

v分别是车辆的纵向位置、横向位置、横摆角以及速度，l_r、l_f是车辆的重心到前轴、后轴的距离，β是车辆的重心处的侧偏角。

S22：搭建基于规则的环境车辆决策规划模型：为了使环境车辆能对环境的变化主动做出反应，从而使仿真环境具有交互性，赋予环境车辆基于规则的决策规划模型。其中，构建环境车辆决策规划模型，具体包括以下步骤：

S221：环境车辆的决策规划模型根据前车信息，输出加速度指令a：

d_des＝d₀+v·(T₀+0.1·Δv)

其中，a_max为最大加速度，v为车辆纵向速度，v_des为车辆纵向期望速度，m为加速度参数,d_des为车辆纵向期望距离，d₀为车辆纵向最小距离，T₀为车辆最小碰撞时间，Δv为与前车的相对速度。

S222：环境车辆的决策规划模型通过评估各个车道，输出满足安全与收益指标的车道作为目标车道：

其中，V₀指该决策规划模型控制的车辆，V₁指当前车道上的后车，V₂指期望车道上的后车，Δa指加速度变化量。

S223：环境车辆的决策规划模型根据目标车道，输出转向角指令δ：

其中，l指V₀的长度，w_r指期望的横摆角速度，

指横摆角，Δd_lat指与目标车道的横向距离。

步骤S3：训练最大熵强化学习模型，如图4所示，具体包括以下步骤：

S31：初始化最大熵强化学习模型，包括模型的超参数，策略函数与评价函数。

S32：在仿真训练环境中加入目标车辆，生成交互性的训练数据(s_t,a_t,r_t,s_t+1)；将训练数据添加至数据库。

其中，M是采样的样本数，|M|表示样本集合的大小，

是在下一时刻的状态s_t+1下，根据策略采样的下一时刻的行为；s_t为车辆在t时刻在状态空间S中的取值。θ_i是评价函数Q_i的参数。α是温度系数，用来权衡最大熵强化学习模型对奖励与熵的偏好。

S34：以梯度下降法更新策略函数，下降梯度为：

其中，ψ是策略函数的参数。

S35：以梯度下降法更新温度系数，下降梯度为：

其中，α是温度系数，H₀为目标熵值。

S36：分别更新评价模型的两个目标评价函数：

θ_tar,i＝ρθ_tar,i+(1-ρ)θ_i,for i＝1,2

其中，ρ为软更新系数，θ_tar,i是目标函数Q_tar-i的参数，θ_i是评价函数Q_i的参数。

S37：迭代更新最大熵强化学习模型：最大熵强化学习模型收敛后，测试最大熵强化学习模型，若不满足期望，则优化最大熵强化学习模型的超参数和奖励函数中的权重，并返回至步骤S31。最终模型的超参数如表1所示。

表1模型的超参数取值

超参数名称	值
		学习率	0.0005
折扣因子γ	0.9
		软更新系数ρ	0.02
回忆库容量	1000000
		最小训练样本	256
目标熵值H<sub>0</sub>	-2

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于最大熵强化学习的自动驾驶汽车决策规划方法，其特征在于，该方法具体包括以下步骤：

S3：训练基于最大熵强化学习的决策规划模型。

2.根据权利要求1所述的基于最大熵强化学习的自动驾驶汽车决策规划方法，其特征在于，步骤S1中，构建基于最大熵强化学习的决策规划模型，具体包括：

S11：搭建状态空间S：以关键的环境信息构建状态空间，包括目标车辆的位置、速度和航向角，一定范围内的环境车辆相对目标车辆的相对位置、相对速度及其航向角；

S12：确定动作空间A：动作空间由车辆加速度与前轮转向角组成，以此控制目标车辆的移动；

r＝k₁r_safe+k₂r_speed+k₃r_comfort+k₄r_rule

S14：给定策略函数π的结构：使用多层感知机拟合策略函数π；策略函数表示状态与动作间的映射关系；

S15：给定评价模型的结构：评价模型包括两对评价函数与目标评价函数；两个评价函数Q₁、Q₂与两个目标评价函数Q_tar-1、Q_tar-2均由相同结构的多层感知机拟合；评价模型以最大化奖励与策略熵的加权和为评价标准，评估最大熵强化学习模型采取的动作。

3.根据权利要求1所述的基于最大熵强化学习的自动驾驶汽车决策规划方法，其特征在于，步骤S2中，构建具有交互性的高速公路仿真训练场景，具体包括以下步骤：

其中，x、y、

S22：搭建基于规则的环境车辆决策规划模型；

4.根据权利要求1所述的基于最大熵强化学习的自动驾驶汽车决策规划方法，其特征在于，步骤S3中，训练基于最大熵强化学习的决策规划模型，具体包括：模型初始化，生成交互式训练数据，更新评价模型、策略函数和温度系数，测试模型性能。

5.根据权利要求1或4所述的基于最大熵强化学习的自动驾驶汽车决策规划方法，其特征在于，步骤S3中，以梯度下降法分别更新评价模型的两个评价函数，下降梯度为：

其中，M是样本集合，|M|表示样本集合的大小，s_t、a_t、r_t分别是车辆在t时刻所处的状态、采取的动作、获得的奖励，Q_i是第i个评价函数，θ_i是评价函数Q_i的参数，Q_tar-j是第j个目标函数，y(·)是对评价函数值的预测，π(·|s_t)表示策略函数，

是在下一时刻的状态s_t+1下，根据策略函数采样的下一时刻的行为；α是温度系数；γ是折扣因子。

6.根据权利要求1或4所述的基于最大熵强化学习的自动驾驶汽车决策规划方法，其特征在于，步骤S3中，以梯度下降法更新策略函数，下降梯度为：

其中，M是样本集合，|M|表示样本集合的大小，s_t是车辆在t时刻所处的状态，Q_tar-j是目标函数，π(·|s_t)表示策略函数，ψ是策略函数的参数，

是在下一时刻的状态s_t+1下，根据策略函数采样的下一时刻的行为；α是温度系数。

7.根据权利要求1或4所述的基于最大熵强化学习的自动驾驶汽车决策规划方法，其特征在于，步骤S3中，以梯度下降法更新温度系数，下降梯度为：

其中，α是温度系数，M是样本集合，s_t、a_t分别是车辆在t时刻所处的状态、采取的动作，π(·|s_t)表示策略函数，H₀为目标熵值。

8.根据权利要求1或4所述的基于最大熵强化学习的自动驾驶汽车决策规划方法，其特征在于，步骤S3中，分别更新评价模型的两个目标评价函数：

θ_tar,i＝ρθ_tar,i+(1-ρ)θ_i,for i＝1,2