CN115257745A

CN115257745A - 一种基于规则融合强化学习的自动驾驶换道决策控制方法

Info

Publication number: CN115257745A
Application number: CN202210863035.2A
Authority: CN
Inventors: 熊璐; 李拙人; 杨若霖; 徐浦航; 冷搏
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-11-01

Abstract

本发明涉及一种基于规则融合强化学习的自动驾驶换道决策控制方法，包括：建立他车纵向运动控制模型及横向行为决策模型；配置高速公路驾驶环境，筛除不合理车流场景，构建自动驾驶决策训练场景；建立驾驶行为观测的状态空间、动作空间；搭建用于策略更新的深度学习网络；设计换道决策风险评估方法，建立决策的安全性评判机制；设置奖励函数；将安全性评判机制引入基于DDQN的深度学习网络；基于自动驾驶决策训练场景进行融合训练，修正决策出的危险动作，并设置两个存储经验池，结合奖励函数更新模型中目标价值网络的参数，训练后的模型用于自动驾驶换道决策。与现有技术相比，本发明在换道场景中具有更高的决策任务成功率、行驶效率以及安全性。

Description

一种基于规则融合强化学习的自动驾驶换道决策控制方法

技术领域

本发明涉及自动驾驶控制技术领域，尤其是涉及一种基于规则融合强化学习的自动驾驶换道决策控制方法。

背景技术

随着当前汽车、计算机、雷达、视觉传感器、测绘、机器人等技术的飞速发展与密切融合，自动驾驶技术的优势越发明显。在自动驾驶领域，当前广泛应用的决策技术路线主要分为两类，一种是基于人为制定先验规则，另一种是采用深度学习类数据驱动的方法。

其中，基于规则的决策方法在出现问题时可以反向追溯，找到导致错误产生的规则机理或者相应参数，具有可解释性的优点，而且执行结果稳定、可预见性强。然而在实际交通场景中，自动驾驶汽车所面临的决策工况往往是复杂多变的，基于规则的方法难以适应，这也使得基于数据驱动的方法逐渐成为决策方法研究的重点。

目前，在数据驱动中，基于深度学习的数据驱动方法主要分为监督学习与深度强化学习，强化学习由智能体在仿真环境中自由试错来采集，决策结果的好坏通过决策执行后环境状态的变化、以奖励函数的形式给予评价，因此其数据来源于智能体与环境的真实互动结果，决策数据的覆盖范围更广，决策数据的标签更加真实客观。但是深度学习类数据驱动方法往往依赖于深度神经网络，其可解释性差，遇到问题难以溯源；另外神经网络更新实际是一个迭代优化进行函数逼近的过程，即使在损失函数收敛后深度神经网络仍有可能做出不合理甚至危险的动作。

综上可知，基于深度强化学习的决策方法尽管场景适应性强，但仍存在可靠性问题，因而，对于自动驾驶汽车而言，亟需一个能兼顾安全可靠、可解释性强与场景适应性好的驾驶决策控制方法。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于规则融合强化学习的自动驾驶换道决策控制方法，通过将深度强化学习在训练过程中与基于规则的决策方法相结合，以提高自动驾驶车辆在复杂换道场景中决策结果的可靠性与安全性。

本发明的目的可以通过以下技术方案来实现：一种基于规则融合强化学习的自动驾驶换道决策控制方法，包括以下步骤：

S1、建立他车的纵向运动控制模型及横向行为决策模型；

S2、配置高速公路驾驶环境，加入自车的感知范围及感知噪声，筛除不合理的车流场景，完成结构化道路的自动驾驶决策训练场景的构建；

S3、基于马尔科夫决策模型，建立驾驶行为观测的状态空间、动作空间；基于DDQN(Double Deep Q Network，双深度Q网络)算法，搭建用于策略更新的深度学习网络；

S4、计算他车预测轨迹及其不确定性，设计换道决策风险的评估方法，进而建立决策的安全性评判机制；

S5、考虑安全性评判结果，设置奖励函数；

将安全性评判机制引入基于DDQN的深度学习网络；

基于构建的自动驾驶决策训练场景进行融合训练，修正决策出的危险动作，并设置两个存储经验池，结合奖励函数更新模型中目标价值网络的参数，得到训练后的模型，即作为自动驾驶换道决策模型；

S6、利用自动驾驶换道决策模型，输出得到自动驾驶车辆的实际换道决策结果；根据换道决策结果，车辆规划模块输出相应车辆最优轨迹，使车辆按照最优轨迹行驶。

进一步地，所述步骤S1中纵向运动控制模型具体是基于IDM(Intelligent DriverModel，智能驱动模型)建立，所述纵向运动控制模型的运动控制行为包括他车的加速度；

所述步骤S1中横向行为决策模型具体是基于MOBIL(Minimizing OverallBraking Induced by Lane changes，最小化变道引起的总制动)算法建立，所述横向行为决策模型的横向决策行为包括车道保持与换道。

进一步地，所述步骤S2中高速公路驾驶环境包括场景车道数、每条车道宽度、道路总长度、每条车道限速、他车数量、他车初始化所在车道集合、他车各车辆初始速度、他车初始纵向位置集合以及纵向运动控制模型的速度膨胀系数；

所述步骤S2中不合理的车流场景包括：自车在最左车道时取消左换道，在最右车道时取消右换道；

自车车速达到最大限速时取消加速动作，达到最低限速时取消减速动作；

自车与前车车距小于预设的参考跟车距离，则取消加速指令。

进一步地，所述步骤S3中状态空间包括自车状态信息，以及与自车在曲线坐标系下相距最近的4辆他车的相关状态信息；所述自车状态信息包括一个恒置为1 的是否存在的标志位、自车沿参考路纵向坐标s₀、所处的道路曲线坐标系横向偏移量l₀、自车沿参考路和垂直参考路速度分量v_0x和v_0y；

所述4辆他车的相关状态信息包括一个是否存在的标志位(存在为1，否则为 0)、相对自车沿参考路方向的曲线距离Δs、相对自车垂直于参考路曲线方向的距离Δl、沿参考路曲线方向的相对速度Δv_s、垂直参考路曲线方向的相对速度Δv_l；

所述步骤S3中动作空间分为目标车道的离散决策与目标速度的离散决策，共包含5种离散决策：左换道、右换道、加速、减速以及不换道也不加减速的IDLE (怠速)。

进一步地，所述步骤S3中搭建深度学习网络的具体过程为：

首先搭建深度学习网络结构，总结构为一个25*256*256*5的全连接神经网络，具体层次及设置为：

输入层接收的观测信息为25*1的向量；

中间设置两个隐藏层每层包含有256个神经元；

输出层输出信息为5*1；

激活函数采用ReLU，并设置学习率；

之后设定网络相关配置如下：

设置网络的决策周期；

设置各动作采样概率，使得奖励值高的动作采样概率随探索次数的增加而增高；

采用均方差(MSE，Mean-Squared Loss)计算损失函数；

采用Adam作优化器。

进一步地，所述步骤S4中换道决策的风险评估具体是基于自车与他车的碰撞概率进行评估，设轨迹上共有N个轨迹点，对轨迹上t时刻点T_uncertain[t]高斯分布进行X次采样，获取X个该车辆在第t时刻的可能位置与姿态，若与规划轨迹T_plan[t] 发生重叠，则计数1次碰撞，否则不计数；

设定I_c为判断自车与他车是否碰撞的函数：

使用碰撞采样数与总采样数X之比，以作为自车与该辆车在t时刻的碰撞概率P_coll，即表示碰撞概率，计算如下：

其中，S_self为自车规划轨迹在t时刻的位姿矩形框，S_other为第i次采样得到的周围车的位姿矩形框；

所述步骤S4中安全性评判机制具体是根据碰撞概率峰值、峰值时间倒数、高风险轨迹点个数这三个安全性指标进行综合评判，通过对所述三个安全性指标进行归一化处理，计算得到综合换道风险值，若所述综合换道风险值大于设定的换道风险阈值，则判定为危险动作，否则为安全动作。

进一步地，所述步骤S5中设定的奖励函数包括效率奖励、安全性奖励以及基本交通礼仪奖励，其中，效率奖励具体为：当自动驾驶车辆与他车发生碰撞时给予负奖励，同时将环境终止重置；

安全性奖励具体为：当被判定为危险动作时给予负奖励；

交通礼仪奖励具体为：对车辆驶离最左侧车道给予正奖励。

进一步地，所述步骤S5具体包括以下步骤：

S51、分别设置效率奖励、安全性奖励以及基本交通礼仪奖励，将效率奖励、安全性奖励以及基本交通礼仪奖励进行求和计算，并对求和结果进行归一化处理，得到奖励函数；

S52、根据安全性评判结果，结合自动驾驶决策训练场景进行融合训练，针对安全性评判结果综合风险大于设定综合危险阈值的危险决策进行修正；

S53、设置两个存储经验池，以更新模型中目标价值网络的参数，所述两个存储经验池包括安全经验池和危险经验池；

S54、采用贝尔曼方程计算采样数据目标价值；

S55、计算损失函数梯度，更新主价值网络，每N_targ步更新目标价值网络参数为θ_targ。

进一步地，所述步骤S52中对危险决策进行修正的策略具体为：

如果判断为危险的动作是左换道或右换道动作，则

如果判断为危险的动作不是加速、匀速、减速动作，则

进一步地，所述步骤S53具体包括以下步骤：

S531、在危险动作修正后，设置两个存储经验池，以对安全与危险动作经验分别进行存储：

在危险动作经验池中，给予(s,a)动作状态对一个固定惩罚r_dangerous，存入状态转移信息(s,a,*,r_dangerous)；

在安全经验池中，计算奖励r，存入状态转移信息(s,a,s′,r)；

S532、当安全经验池和危险经验池收集到设定数量的数据后，采用定比例随机采样的方式进行经验回放：

采样轨迹长度为N_t，安全经验采样比例为k时，从安全经验池中随机抽取kN_t个状态转移信息；从危险经验池中随机抽取(1-k)N_t个状态转移系信息；之后将两批数据组合起来作为批处理计算损失函数的对象。

与现有技术相比，本发明提出一种基于规则融合强化学习的自动驾驶换道决策控制方法，将深度强化学习在训练过程中与基于规则的决策方法相结合，并引入安全性评判机制，相比于传统强化学习方法，本发明训练出的决策模型具有更优的性能，既能够应对处理高维复杂交通场景，同时也保证了决策结果具有较强的可靠性，有效提升自动驾驶车辆的换道精准性。

本发明在进行基于规则融合的强化学习决策训练过程中，一方面基于建立的安全性评判机制来设定奖励函数，使获得的累计决策奖励更高，另一方面通过修正决策出的危险动作，并并设置两个存储经验池分别储存安全和危险的状态动作对，以更新模型中目标价值网络的参数，由此保证平均换道风险值更低。使得本发明在训练过程奖励上升速度、收敛值以及安全性指标均优于传统学习方法，在换道场景中具有更高的决策任务成功率、行驶效率以及安全性。

附图说明

图1为本发明的方法流程示意图；

图2为实施例中构建自动驾驶换道决策模型的过程示意图；

图3为实施例中高速四车道换道场景图；

图4为深度学习网络结构图；

图5为实施例中基于规则融合强化学习的自动驾驶换道决策方法的模型训练过程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种基于规则融合强化学习的自动驾驶换道决策控制方法，包括以下步骤：

S1、建立他车的纵向运动控制模型及横向行为决策模型；

S3、基于马尔科夫决策模型，建立驾驶行为观测的状态空间、动作空间；基于DDQN算法，搭建用于策略更新的深度学习网络；

S5、考虑安全性评判结果，设置奖励函数；

将安全性评判机制引入基于DDQN的深度学习网络；

本实施例应用上述技术方案，在构建自动驾驶换道决策模型时，如图2所示，主要包括：

一、建立他车的纵向运动控制模型及横向行为决策模型；

具体包括：

11)基于IDM模型建立他车加速度的纵向行为，首先计算此刻自车与前车距离的参考值：

其中，d₀为预设的期望跟车距离，T为预设的期望车头时距，a为最大舒适加速度，b为最大舒适减速度，Δv为自车与前车速度差值；

再根据前方是否有车辆计算加速度：

111)若无前车，则他车加速度为

其中，v₀为他车目标速度；

112)若有前车，则他车加速度为

其中，d为自车当前与前车的实际距离；

12)基于MOBIL算法，建立包括车道保持与换道的横向行为；

121)若

则车道保持；

其中，

为目标车道后车所需采取的加速度，b_safe为后方车辆在正常情况下所能采取的最大刹车加速度；

122)设定p为礼让系数，若

则换道；

其中，a_c为自车与当前车道前车的纵向加速度，a_n为目标车道后车与前车纵向加速度，a_o为当前车道后方车辆与自车的跟车加速度，

为换道成功后自车与目标车道前车的跟车加速度，

为目标车道后车与自车的跟车加速度，

为当前车道后车与当前车道前车跟车加速度，p为前礼让系数。

二、配置高速公路、低速城区两种驾驶环境，加入自车的感知范围及感知噪声，筛除不合理的车流场景，完成结构化道路的自动驾驶决策仿真场景的构建；

具体为：

21)配置高速公路场景，场景车道数n_lane，每条车道宽度w，道路总长度l，及每条车道限速设置，本实施例中，场景车道数n_lane为4，每条车道宽度w为4m，道路总长度l为1000m，每条车道限速设置为v_min＝20m/s，v_max＝30m/s，配置后场景如图3所示，图3中他车从左至右依次进行初始化；

211)设置他车数量n；

设定交通饱和度

计算道路可容纳车辆数为

其中，d_min为最小跟车距离，本实施例中取参考车辆间距Δs_init作为最小跟车距离；d_actual为实际相邻车辆平均跟车距离；

212)采用包含车道数的整数集合内均匀分布方法，设置n个他车初始化所在车道集合{lane_index_init}_n，本实施例中满足[1,2,3,4]整数集合的均匀分布；

213)设置n个他车各车辆初始速度{v_init}_n，以当前道路限速的0.8倍为均值、 0.7倍限速为方差高斯分布，随机采样生成初始速度，即满足方程式：

v_init～N(0.8v_max,(0.7v_max)²)

214)生成n个他车的初始纵向位置集合{s_init}_n；

首先计算参考车辆间距

s_max为目前最靠右侧的交通参与车辆的纵向位置；

基于Δs_init计算他车的初始生成位置：s_init＝s_max+Δs_init；

215)在给定范围内随机生成IDM控制模型的速度膨胀系数ξ，本实施例中给定范围为[3.5,4.5]；

22)加入感知范围及感知噪声，模拟自动驾驶车辆在现实道路的有限感知；

在车辆坐标系中，x方向感知范围为车后20m到车前70m，y方向感知范围为车左侧20m到车右侧20m；

将感知的不确定性误差视为一个三维的高斯分布，以观测状态量

来表示自车感知获得的某他车在自车直角坐标系内的相对位置和航向角；

具体计算中，首先设定协方差矩阵Σ为3×3的对称矩阵：

其中，σ_x、σ_y、

分别是三个变量分布的标准差，ρ_xy、

和

分别是三个变量间的互相关系数；

从而得到X的高斯概率密度函数为：

初始观测状态量

由Σ为协方差、其他车辆位姿真实值

为均值的三维高斯分布采样得到；

23)筛除不合理的车流场景；

筛除如下车流场景：自车在最左车道时取消左换道，在最右车道时取消右换道；自车车速达到最大限速时取消加速动作，达到最低限速时取消减速动作；自车与前车车距小于参考跟车距离d^*，则取消加速指令。

三、基于马尔科夫决策模型建立驾驶行为观测的状态空间、动作空间，基于 DDQN算法搭建用于策略更新的深度学习网络；

31)设定观测的状态空间；

状态空间包括自车以及与自车在曲线坐标系下相距最近的4辆车的相关状态信息；

311)自车状态信息包括一个恒置为1的是否存在的标志位，自车沿参考路纵向坐标s₀，所处的道路曲线坐标系横向偏移量l₀，自车沿参考路和垂直参考路速度分量v_0x和v_0y；

312)4辆他车的信息包括一个是否存在的标志位，存在为1，否则为0；相对自车沿参考路方向的曲线距离Δs，相对自车垂直于参考路曲线方向的距离Δl，沿参考路曲线方向的相对速度Δv_s，垂直参考路曲线方向的相对速度Δv_l；

所得观测的状态矩阵表达式为：

313)对观测矩阵内的位置量Δs与速度量Δv分别进行归一化处理，将归一化的观测矩阵压缩为网络可接受的一维输入向量sⁱ _nput：

对位置量Δs归一化：

其中，Δs_max、Δs_min分别为位置量归一化的上下限，满足Δs_min＝-5v_max；

对速度量Δv归一化：

其中，Δv_max、Δv_min分别为速度量归一化的上下限，满足Δv_min＝-2v_max以及Δv_max＝2v_max；

最终网络接收的一维观测信息：

32)设定动作空间；

决策网络模型的5种离散决策，分为目标车道lane_target的离散决策与目标速度v_target的离散决策，具体设计如下：

321)目标车道lane_target的离散决策分为左换道，右换道以及不换道，车道标号沿行驶方向从左至右依次增大，本实施例中，车道标号沿行驶方向从左至右依次为 0-3：

其中，lane_current表示自动驾驶车辆当前所处车道序号，lane_max表示最大车道序号，clip(·)表示截断函数，限制超出[0,lane_max]范围的序号；

322)目标速度v_target的离散决策主要决定车辆的纵向行为，包括加速和减速动作；对应的目标车速可分为加速、减速以及匀速：

其中，v_current表示当前自车车速，Δv_acc为加速指令发出后目标速度增量，Δv_dec为减速指令发出后目标速度减少的量；

323)结合上述离散决策结果，将决策动作集合分为以下5类：

左换道，右换道，加速，减速以及不换道也不加减速的IDLE；

33)搭建并配置基于DDQN的深度学习网络；

331)搭建的网络结构：

总结构为一个25*256*256*5的全连接神经网络，具体层次及设置为：

输入层接收的观测信息为25*1的向量；

中间设置两个隐藏层每层包含有256个神经元；

输出层输出信息为5*1；

激活函数采用ReLU，设置学习率，本实施例设置学习率为0.2；

设定后的网络结构如图4所示；

332)设定网络相关配置如下：

设置网络的决策周期；

设置各动作采样概率，使得奖励值高的动作采样概率随探索次数的增加而增高，首先判断动作a是否是Q值，网络所判断出的Q值最高的动作a_max＝argmax_aQ(s,a)，进而进行如下对应计算：

其中，ε从1开始随着探索次数增加逐渐下降，计算方法如下式所示：

其中，|A|为离散决策动作数量，ε_initial为1，ε_final设为0，time为决策次数，tau 为衰减系数；

采用均方差(MSE，Mean-Squared Loss)计算损失函数，本实施例使用的函数表达式为：||y_j-Q(s,a；θ)||²；

采用Adam作优化器。

四、计算他车预测轨迹及其不确定性，设计换道决策风险的评估方法，进而建立决策的安全性评判机制；

41)进行他车轨迹融合预测；

411)基于行为模型预测他车轨迹；

对目标车道中心线上纵向离散规划终点，使用五次多项式曲线生成换道轨迹簇，通过路径评价函数选取出最优路径T_man；

在规划路径对相应曲线距离进行插值操作，得到他车在未来t时刻所处的位置(x_man(t),y_man(t))；

基于行为模型的预测轨迹T_man＝{(x_man(t),y_man(t))}；

412)基于运动学模型预测他车轨迹；

使用运动学模型：

分为ω＝0时与ω≠0时两种情况，计算车辆未来时刻t的位置(x(t),y(t))；

当ω≠0时：

其中

为当前时刻车辆初始位置与初始航向角；

由此得到基于运动学模型的预测轨迹T_mdl＝{(x_mdl(t),y_mdl(t))}；

413)使用三次曲线将T_mdl与T_man融合，得到融合预测轨迹，本实施例使用三次曲线w(t)＝a₃t³+a₂t²+a₁t+a₀将T_mdl与T_man融合，得到融合预测轨迹：

T_fin(t)＝w(t)·T_mdl(t)+(1-w(t))·T_man(t)

42)确定预测轨迹的不确定性；

421)使用高斯分布对他车横坐标x、纵坐标y、航向角

的不确定性进行描述：

43)设计评估方法，基于自车与他车的碰撞概率P_coll，以对换道决策的风险进行评估；

431)设轨迹上共有N个轨迹点，对轨迹上t时刻点T_uncertain[t]高斯分布进行X 次采样，获取X个该车辆在第t时刻的可能位置与姿态，若与规划轨迹T_plan[t]重叠，则计数1次碰撞，否则不计数；

设定判断自车与他车是否碰撞的函数I_c，I_c输出布尔值：

使用碰撞采样数与总采样数X之比作为自车与该辆车在t时刻的碰撞概率P_coll，以表示碰撞风险，计算如下：

其中S_self为自车规划轨迹在t时刻的位姿矩形框，S_other为第i次采样得到的周围车的位姿矩形框；

44)基于计算的换道决策风险，建立决策的安全性评判机制；

具体为，计算换道轨迹综合碰撞概率，选取碰撞概率峰值、峰值时间倒数、高风险轨迹点个数等指标进行综合评判；

441)综合碰撞概率P_i由i时刻自车轨迹点上的与所有其他车辆碰撞概率求和得到：

其中，p_ij为i时刻自车与周围第j辆车的碰撞概率，对其排序得到序列p_ij ^ordered；

442)选取安全性的指标，计算综合换道风险，以进行安全性评判；安全性的指标选取高风险轨迹点个数C_HR，碰撞概率峰值C_p及峰值时间倒数C_TTP，其中，C_HR表示车辆换道决策轨迹的每一点的碰撞风险值P₀大于阈值的个数；

C_p＝min(max(P₁,P₂,…P_I-1,P_I),1)，I表示预测轨迹上轨迹点个数，P_i表示各个时刻的综合碰撞概率；

峰值时间倒数C_TTP＝1/T_P，其中，T_P为碰撞峰值时间TTP；

对上述3个安全性指标进行归一化处理，计算综合换道风险risk，如果该风险大于0.5则判定为危险动作，否则为安全动作，本实施例中，C_HR归一化范围为[0,20]， C_p为[0,1]，C_TTP为[0.05,20]，计算综合换道风险risk如下：

如果该风险大于0.5则判定为危险动作，否则为安全动作。

五、考虑安全性评判结果，设置奖励函数；

51)设定奖励函数；

从效率、安全性以及基本交通礼仪来进行奖励设置；

511)设置效率奖励r_efficiency；

当自动驾驶车辆与他车发生碰撞时给予较大负奖励，同时将环境终止重置；

计算式为：

其中k_speed是折扣系数；

512)设置安全性奖励r_safe，分为危险动作与非危险动作，判断为危险动作时给予负奖励r_dangerous；

计算式为：

r_dangerous是对危险动作的负奖励；

513)设置交通礼仪奖励r_rule，对车辆驶离最左侧车道给予一个微小的奖励：

514)归一化计算最终的奖励；

最终奖励为三项奖励之和，并对其求和结果进行归一化处理得到最终奖励：

六、将步骤四的安全性评判机制引入基于DDQN的深度学习网络，基于步骤二搭建的场景进行融合训练，修正决策出的危险动作，并设置两个存储经验池，更新模型中目标价值网络的参数，训练后的模型用于自动驾驶换道决策；

图5以流程图的形式展示了整个基于规则融合强化学习的自动驾驶换道决策方法的训练流程，具体步骤为：

61)基于步骤四中安全性评判的结果，对综合风险大于0.5的危险决策进行修正，不修正综合风险小于或等于0.5的决策；

62)基于步骤二搭建的场景进行融合训练，修正决策出的危险动作；

621)在高速四车道换道场景中训练模型，设定V/C，他车车速为V₀ m/s，自车车速V_em/s，本实施例中，设定V/C＝1.0，他车车速为V_o∈[20,30]m/s，自车车速V_e∈[20,30]m/s，训练至实现累计奖励收敛；

622)建立横向危险动作修正机制：

如果判断为危险的动作是左换道或右换道动作，则有

623)建立纵向危险动作修正机制：

如果判断为危险的动作不是加速、匀速、减速动作，则有

63)设置两个存储经验池，更新模型中目标价值网络的参数；

631)在危险动作修正后，对安全与危险动作经验设置两个经验池分别存储；

在安全经验池中，计算奖励r，存入状态转移信息(s,a,s′,r)；

632)当安全经验池和危险经验池收集到足够数量的数据后，采用定比例随机采样的方式进行经验回放；

具体为，采样轨迹长度为N_t，安全经验采样比例为k时，从安全经验池中随机抽取kN_t个状态转移信息，从危险经验池中随机抽取(1-k)N_t个状态转移系信息，将两批数据组合起来作为批处理计算损失函数的对象；

633)应用贝尔曼方程计算采样数据目标价值，具体计算式为：

634)计算损失函数梯度，更新主价值网络，每N_targ步更新目标价值网络参数为θ_targ。

综上所述，本技术方案将深度强化学习在训练过程中与基于规则的决策方法相结合，引入安全性评判机制，由此训练出的决策模型可靠性更强、获得的累计决策奖励更高、平均换道风险值更低，能够同时兼顾安全可靠、可解释性强与复杂交通场景适应性好的优点。

Claims

1.一种基于规则融合强化学习的自动驾驶换道决策控制方法，其特征在于，包括以下步骤：

S1、建立他车的纵向运动控制模型及横向行为决策模型；

S5、考虑安全性评判结果，设置奖励函数；

将安全性评判机制引入基于DDQN的深度学习网络；

2.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，其特征在于，所述步骤S1中纵向运动控制模型具体是基于IDM建立，所述纵向运动控制模型的运动控制行为包括他车的加速度；

所述步骤S1中横向行为决策模型具体是基于MOBIL算法建立，所述横向行为决策模型的横向决策行为包括车道保持与换道。

3.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，其特征在于，所述步骤S2中高速公路驾驶环境包括场景车道数、每条车道宽度、道路总长度、每条车道限速、他车数量、他车初始化所在车道集合、他车各车辆初始速度、他车初始纵向位置集合以及纵向运动控制模型的速度膨胀系数；

4.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，其特征在于，所述步骤S3中状态空间包括自车状态信息，以及与自车在曲线坐标系下相距最近的4辆他车的相关状态信息；所述自车状态信息包括一个恒置为1的是否存在的标志位、自车沿参考路纵向坐标s₀、所处的道路曲线坐标系横向偏移量l₀、自车沿参考路和垂直参考路速度分量v_0x和v_0y；

所述4辆他车的相关状态信息包括一个是否存在的标志位：存在为1，否则为0；相对自车沿参考路方向的曲线距离Δs；相对自车垂直于参考路曲线方向的距离Δl；沿参考路曲线方向的相对速度Δv_s；垂直参考路曲线方向的相对速度Δv_l；

所述步骤S3中动作空间分为目标车道的离散决策与目标速度的离散决策，共包含5种离散决策：左换道、右换道、加速、减速以及不换道也不加减速的IDLE。

5.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，其特征在于，所述步骤S3中搭建深度学习网络的具体过程为：

输入层接收的观测信息为25*1的向量；

中间设置两个隐藏层每层包含有256个神经元；

输出层输出信息为5*1；

激活函数采用ReLU，并设置学习率；

之后设定网络相关配置如下：

设置网络的决策周期；

采用均方差计算损失函数；

采用Adam作优化器。

6.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，其特征在于，所述步骤S4中换道决策的风险评估具体是基于自车与他车的碰撞概率进行评估，设轨迹上共有N个轨迹点，对轨迹上t时刻点T_uncertain[t]高斯分布进行X次采样，获取X个该车辆在第t时刻的可能位置与姿态，若与规划轨迹T_plan[t]发生重叠，则计数1次碰撞，否则不计数；

设定I_c为判断自车与他车是否碰撞的函数：

7.根据权利要求6所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，其特征在于，所述步骤S5中设定的奖励函数包括效率奖励、安全性奖励以及基本交通礼仪奖励，其中，效率奖励具体为：当自动驾驶车辆与他车发生碰撞时给予负奖励，同时将环境终止重置；

安全性奖励具体为：当被判定为危险动作时给予负奖励；

交通礼仪奖励具体为：对车辆驶离最左侧车道给予正奖励。

8.根据权利要求7所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，其特征在于，所述步骤S5具体包括以下步骤：

S54、采用贝尔曼方程计算采样数据目标价值；

9.根据权利要求8所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，其特征在于，所述步骤S52中对危险决策进行修正的策略具体为：

如果判断为危险的动作是左换道或右换道动作，则

如果判断为危险的动作不是加速、匀速、减速动作，则

10.根据权利要求8所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，其特征在于，所述步骤S53具体包括以下步骤：

在安全经验池中，计算奖励r，存入状态转移信息(s,a,s′,r)；