CN117315955A

CN117315955A - 一种基于深度强化学习的智能网联车辆入匝道协同控制方法

Info

Publication number: CN117315955A
Application number: CN202310851340.4A
Authority: CN
Inventors: 谢东繁; 栗剑; 王孜健; 么新鹏; 张涵; 荣文; 韦凯; 赵小梅; 毕军
Original assignee: Innovation Research Institute Of Shandong Expressway Group Co ltd; Beijing Jiaotong University
Current assignee: Innovation Research Institute Of Shandong Expressway Group Co ltd; Beijing Jiaotong University
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-12-29

Abstract

本发明涉及一种基于深度强化学习的智能网联车辆入匝道协同控制方法，涉及智能交通系统技术领域；车辆在主路与匝道入口形成的合流区，入匝道车辆的频繁汇入往往会影响干道交通流的稳定状态，对驾驶员驾驶技术要求较高，不当的换道行为对主车道后方车辆的影响较大，从而影响合流区以及上游车辆的正常行驶；本发明结合智能网联车的性能优势和深度强化学习对决策空间的探索能力，针对入匝道车辆从快速路汇入干道并驶出合流区这一过程建模，通过深度强化学习中的智能体在模拟环境中的不断探索训练模型，为合流区通行效率的提升和保障车辆驾驶的安全性提出合理化建议。

Description

一种基于深度强化学习的智能网联车辆入匝道协同控制方法

技术领域

本发明涉及智能交通系统技术领域，特别涉及一种基于深度强化学习的智能网联车辆入匝道协同控制方法。

背景技术

交通供需不平衡导致了严重的交通拥堵以及交通安全和环境问题。高速公路在公路网中占据主导地位，承担着城市间运输的桥梁作用。它具有车道多、通行能力大、行车速度快、运输成本低等优点。在其基本路段，车辆大多在直线行驶，没有外界车辆汇入的干扰，不易发生交通事故。在主路与匝道入口形成的合流区，入匝道车辆的频繁汇入往往会影响干道交通流的稳定状态。而入匝道车辆的汇入行为具有紧迫性和必须性，对驾驶员驾驶技术要求较高，不当的换道行为对主车道后方车辆的影响较大，会使其为与换道车辆保持安全间距而被迫减速或紧急制动，从而影响合流区以及上游车辆的正常行驶。

随着车联网技术和5G通讯技术的发展，为合流区内的车辆控制带来了新的思路。5G通讯技术速度快、网络延时短，使物联网技术的发展更为成熟，可以支持车辆之间实时地传输信息和共享数据。车联网技术和车载感知系统使车辆在行驶过程中可以实时、精确地获得附近车辆的运动状态、道路拥堵状况、区域限速等相关信息，并通过中央控制器或车载控制器对信息进行处理，分析车辆下一时刻的运行决策并对车辆进行实时控制。若入匝道车辆可以通过智能网联技术提前获知道路信息，对车辆速度进行合理地调控，那么便可以减少入匝道车辆与干道车辆的冲突，从而可以使入匝道车辆以更安全、高效、舒适的方式完成车辆汇入。因此，智能网联技术为提升匝道合流区的通行效率提供了更多的可能。

综上所述，合流区内车辆的驾驶行为需要引起更多的关注。本发明结合智能网联车的性能优势和深度强化学习对决策空间的探索能力，针对入匝道车辆从快速路汇入干道并驶出合流区这一过程建模，通过深度强化学习中的智能体在模拟环境中的不断探索训练模型，为合流区通行效率的提升和保障车辆驾驶的安全性提出合理化建议。

发明内容

针对现有技术中存在的不足，本发明目的是提供一种基于深度强化学习的智能网联车辆入匝道协同控制方法，可以提高入匝道车辆换道过程中的安全性、高效性和舒适性，为提高合流区的通行效率和降低事故发生率提供了一定的理论指导。

为解决上述技术问题，本发明提供的技术方案是：

一种基于深度强化学习的智能网联车辆入匝道协同控制方法包括以下步骤：

步骤1：智能网联车状态信息获取；

步骤2：通过智能网联车的车载传感器、定位系统和V2X系统实时获取周边环境信息；智能网联车的状态信息包括车辆的行驶速度、位置、距离快速路尽头的距离；所述智能网联车的周边环境信息包括在主车道上车辆的速度、位置、加速度。

步骤3：基于柔性动作-评价算法设计入匝道车辆的控制策略，分别定义模型的状态空间、动作空间和奖励函数；

步骤3.1：定义模型的状态空间；

所述模型的状态空间如下：

Se＝{Δx,Δy,v,Δx_tp,Δv_tp,Δx_tl,Δv_tl}

其中，Se为智能网联车的状态空间；

Δx为智能网联车与匝道尽头的间距；

Δy为智能网联车与主车道中线的横向间距；

v为智能网联车的速度；

Δx_tp、Δv_tp为智能网联车与目标车道前车的纵向间距、速度差；

Δx_tl、Δv_tl为智能网联车与目标车道后车的纵向间距、速度差；

步骤3.2：定义模型的动作空间；

所述模型的动作空间包括车辆的转向角和加速度值，如下：

A＝{θ,a}

其中，A为智能网联车的动作空间；

θ为智能网联车转向角；

a为智能网联车的纵向加速度。

步骤3.3：定义模型的奖励函数；

总奖惩函数包含安全性、高效性、舒适性三部分，如下：

R＝w_safeR_safe+w_efficiencyR_efficiency+w_comfortR_comfort

其中，w_safe为与安全性相关的子奖励对应的权重系数；

R_safe为安全性的惩罚函数；

w_efficiency为与高效性相关的子奖励对应的权重系数；

R_efficiency是与换道效率相关的子奖励函数；

w_comfort为与舒适性相关的子奖励对应的权重系数；

R_comfort是与舒适性相关的子奖励函数；

安全性的惩罚函数是为了避免智能网联车与其他车辆发生碰撞和保持安全距离，当智能网联车与周围车辆碰撞时间不满足安全约束时，智能体将会被将赋予一个负的惩罚值R_safe，具体定义如下：

其中，t表示时间；

n表示跟驰车辆；

n-1表示前车；

x_n-1(t)表示前车的位置；

v_n-1(t)表示前车的速度；

l表示车的长度；

TTC表示碰撞时间；

x_n(t)表示后车位置；

v_n(t)表示后车速度；

与换道效率相关的子奖励函数R_efficiency具体定义如下：

R_efficiency＝w_laneR_lane+w_speedR_speed

其中，R_lane是与横向坐标相关的子奖励函数；

R_speed是与纵向速度相关的子奖励函数；

y^*为目标车道的中心位置；

R_lane是与智能网联车换道相关的子奖励；

v^*为自动计算车辆的期望速度；

R_speed是与智能网联车速度相关的子奖励；

R_efficiency为总效率奖励，包含上述两个与位置相关和与速度相关的子奖励；

w_lane和w_speed为权重系数；

y为车辆横向为位置；

v为车辆速度；

与舒适性相关的子奖励函数R_comfort具体定义如下：

其中，jerk为加速度的导数；

jerk_max为最大舒适加速度变化率。

步骤4：定义防碰撞策略，具体包括：

当智能网联车满足不安全约束时，安全层将会生效，会拒绝采用模型的输出结果，以更安全的方式控制车辆；智能网联车的安全约束主要包括最小安全距离约束和车道约束；

最小安全距离约束是指当智能网联车的车速大于前车，且与前车的间距小于最小安全距离时，则使智能网联车以最大的减速度减速行驶，最小安全距离的定义如下：

d_min＝(v_n-v_n-1)×t_min

其中，v_n为智能网联车速度；

v_n-1智能网联车前车速度；

a_dmax最大减速度；

t_min为最小安全时间；

d_min为最小安全距离；

车道约束是指当由于不当的决策使得智能网联车将驶离道路撞向车道两侧时，防碰撞策略应及时纠正这种危险驾驶行为，车道约束定义如下：

其中，θ为智能网联车的转向角；θ_steer为车辆可运行的转向角度，为[-30°,30°]

步骤5：定义算法流程，具体包括：

在进行模型训练前，首先需要初始化所有参数，包括最大时间步M、初始化策略网络参数φ、Q值函数参数θ₁和θ₂、V值函数参数ψ、经验回放池D，然后智能体根据环境状态和策略网络选择一个动作，智能体执行动作a_t会使环境更新到新的状态s_t+1，并产生奖励r_t；在每个步骤中产生的经验(s_t,a_t,s_t+1,r)会被存储到经验回放池中，当经验回放池中有足够的经验时，学习过程开始；在学习过程中会在经验池中进行随机采样，通过算法的损失函数来更新网络，最后对目标网络进行更新。

与现有技术相比，本发明的有益效果是：

本发明针对车辆从入口匝道汇入到主车道这一过程，基于柔性动作-评价算法(Soft Actor-Critic，SAC)给出了入匝道车辆控制方法，可以实现车辆在横向、纵向的连续控制。提出的换道模型基于人驾驶数据特征从车辆换道的安全性、高效性、舒适性三个角度设计奖励函数，以最大化累计奖励为目标，通过智能体在模拟环境中不断探索的方式训练模型。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的研究场景示意图；

图2为本发明的训练结果示意图；

图3为本发明的仿真结果示意图；

图4为本发明的仿真数据和NGSIM数据汇入位置对比图；

图5为本发明的仿真数据和NGSIM数据舒适性对比图；

图6为本发明的结构图。

具体实施方式

本发明提出一种基于深度强化学习的智能网联车辆入匝道协同控制方法包括如下步骤：

步骤1：智能网联车状态信息获取，所获取的信息包括车辆的行驶速度、位置、距离快速路尽头的距离，如图1所示；

步骤2：通过智能网联车的车载传感器、定位系统和V2X系统实时获取周边环境信息，所获取的信息包括在主车道上车辆的速度、位置、加速度，如图1所示；

步骤3：基于柔性动作-评价算法(SoftActor-Critic，SAC)设计入匝道车辆的控制策略，分别定义模型中的状态空间、动作空间和奖励函数；

步骤3.1：定义模型的状态空间。为保证入匝道车辆顺利地汇入主车道，必须满足以下两个条件：①目标车道的换道间隙满足驾驶员的心理预期；②快速路有充足的空间使入匝道车辆完成车辆换道。这需要入匝道车辆的驾驶员能够及时地把握换道时机和有较高的驾驶技术。因此，模型的状态空间如下：

Se＝{Δx,Δy,v,Δx_tp,Δv_tp,Δx_tl,Δv_tl}

其中，Se为智能网联车的状态空间；Δx为智能网联车与匝道尽头的间距；Δy为智能网联车与主车道中线的横向间距；v为智能网联车的速度；Δx_tp、Δv_tp为智能网联车与目标车道前车的纵向间距、速度差；Δx_tl、Δv_tl为智能网联车与目标车道后车的纵向间距、速度差。

步骤4.2：定义模型的动作空间。为实现对智能网联车的连续控制，本发明定义模型的动作空间包括车辆的转向角和加速度值，如下所示：

A＝{θ,a}

步骤4.3：定义模型的奖励函数。总奖惩函数包含安全性、高效性、舒适性三部分，具体如下：

R＝w_safeR_safe+w_efficiencyR_efficiency+w_comfortR_comfort

其中，w_safe为与安全性相关的子奖励对应的权重系数；w_efficiency为与高效性相关的子奖励对应的权重系数；w_comfort为与舒适性相关的子奖励对应的权重系数。

R_safe为安全性的惩罚函数，它是为了避免智能网联车与其他车辆发生碰撞和保持安全距离，当智能网联车与周围车辆碰撞时间不满足安全约束时，智能体将会被将赋予一个负的惩罚值R_safe，具体定义如下：

其中，t表示时间；n和n-1分别表示跟驰车辆和前车；x_n-1(t)表示前车的位置；v_n-1(t)表示前车的速度；l表示车的长度。TTC与碰撞风险呈负相关，即TTC越小时车辆碰撞风险越高。从上式可以看出，当TTC接近0时，智能网联车的惩罚值将趋于负无穷，当TTC为负数或者大于4时，智能网联车将不会被赋予惩罚值。

R_efficiency是与换道效率相关的子奖励函数。具体如下：

R_efficiency＝w_laneR_lane+w_speedR_speed

其中，R_lane是与横向坐标相关的子奖励函数旨在鼓励智能网联车尽快汇入目标车道；R_speed是与纵向速度相关的子奖励函数旨在鼓励智能网联车尽快地加速到期望速度；y^*为目标车道的中心位置，即智能网联车的期望纵向位置；R_lane是与智能网联车换道相关的子奖励；v^*为自动计算车辆的期望速度；R_speed是与智能网联车速度相关的子奖励；R_efficiency为总效率奖励，包含上述两个与位置相关和与速度相关的子奖励；w_lane和R_speed为权重系数。

R_comfort是与舒适性相关的子奖励函数。具体如下：

其中，jerk为加速度的导数；jerk_max为最大舒适加速度变化率。

步骤4：定义防碰撞策略。尽管奖励函数会惩罚TTC较小的情况，但智能体仍有可能采取不安全的策略，从而导致车辆碰撞。在本研究中，为了解决这个问题，本发明提出了一个基于规则的防碰撞策略，当智能网联车满足不安全约束时，安全层将会生效，会拒绝采用模型的输出结果，以更安全的方式控制车辆。智能网联车的安全约束主要包括最小安全距离约束和车道约束。

最小安全距离约束是指当智能网联车的车速大于前车，且与前车的间距小于最小安全距离时，则使智能网联车以最大的减速度减速行驶。最小安全距离的定义如下：

d_min＝(v_n-v_n-1)×t_min

其中，v_n为智能网联车速度；v_n-1智能网联车前车速度；a_dmax最大减速度；t_min为最小安全时间；d_min为最小安全距离。

除了车辆之间的相互碰撞，在真实交通场景中，离开行驶道路也是一种危险驾驶行为。车道约束是指当由于不当的决策使得智能网联车将驶离道路撞向车道两侧时，防碰撞策略应及时纠正这种危险驾驶行为。车道约束定义如下：

步骤5：定义算法流程。在进行模型训练前，首先需要初始化所有参数，包括最大时间步M、初始化策略网络参数φ、Q值函数参数θ₁和θ₂、V值函数参数ψ、经验回放池D，然后智能体根据环境状态和策略网络选择一个动作，智能体执行动作a_t会使环境更新到新的状态s_t+1，并产生奖励r_t。在每个步骤中产生的经验(s_t,a_t,s_t+1,r)会被存储到经验回放池中，当经验回放池中有足够的经验时，学习过程开始。在学习过程中会在经验池中进行随机采样，通过算法的损失函数来更新网络，最后对目标网络进行更新，以确保训练的稳定。

步骤6：模型训练结果分析。为验证SAC算法的性能，本发明采用了深度强化学习的主流算法DDPG算法和SAC算法进行比较。图2描述了在训练过程中奖励值随着迭代轮次的增加而变化的情况，平均奖励为训练轮次在一个大小为50的滑动窗口中包含的换道事件的平均奖励。从图中可以看出每次实验训练4000轮，图中实线为多次实验的平均值；图中阴影区域的上界和下界为多次实验的最大值和最小值，表示平均奖励值在多次实验中的波动情况。图中代表基于SAC算法的入匝道车辆换道模型的奖励值的直线，最终收敛到0.818，代表DDPG算法训练的入匝道车辆模型的奖励值的直线最终收敛到0.733，虚线为NGSIM数据集中所有入匝道车辆获得的平均奖励值，为0.471。虽然在训练初期基于DDPG算法的入匝道车辆换道模型的奖励值要高于基于SAC算法的入匝道车辆换道模型的奖励值，但最终的收敛结果表明SAC算法的累计奖励更高，表明其比DDPG算法更适用于入匝道车辆换道模型的构建，而基于SAC算法和DPPG算法构建的入匝道车辆换道模型的性能均优于人驾驶数据，表明本发明模型的设计是合理的。此外，从图中的阴影可以看出基于SAC算法构建的强制换道模型的训练过程更为稳定，收敛速度更快。

步骤7：仿真结果分析。图3为NGSIM数据集和车辆仿真中主车道部分的车辆轨迹时空图，图中的黑色直线为入匝道车辆在目标车道上的前车和后车；黑色虚线为入匝道车辆，表示其换道到主车道后的区域纵坐标的变化情况。从图中可以看出，智能网联车在本发明提出的入匝道车辆换道模型的控制下通过分析周围车辆的运动状态可以提前对可汇入间隙做出反应，使其在换道过程中与目标车道后车有更大的车间距，可以以更舒适的驾驶状态完成车辆换道。

单个车辆的仿真数据具有偶然性，为进一步展示本发明提出的入匝道车辆换道模型在多次仿真中的整体效果，本发明从NGSIM数据集中随机抽取1/4的样本数据对训练好的入匝道车辆换道模型进行仿真测试，并从安全性、换道效率、和舒适性三个方面分析仿真数据。

(1)安全性

TTC通常被用于描述车辆驾驶行为中的安全性。本发明提出的入匝道车辆换道模型中关于的安全性的惩罚函数定义只有智能网联车与周围车辆的TTC值大于0且小于等于4时，才会被认为智能网联车在决策过程中存在安全隐患，即被赋予一定的惩罚值。表1统计了仿真数据和NGSIM数据集中TTC值大于0且小于等于4时的数据帧数占整个数据集总帧的比例和这些帧数据涉及的车辆数占数据集中车辆总数的比例。从表中可以看出在NGSIM数据集中的所有数据中，TTC值在0到4之间的占比为0.0326％，这些数据涉及的车辆占数据集中换道车辆总数的33.898％；在基于SAC算法的换道模型的仿真数据中TTC值在0到4之间的数据占仿真数据总量的0.0271％，这些帧的数据涉及的车辆占仿真数据中换道车辆总数的17.375％。因此，本发明提出的基于SAC算法的入匝道车辆换道模型在安全性上优于人驾驶数据，该算法训练的模型为提高奖励值更倾向于将智能网联车与周围车辆的TTC保持在大于4或小于0的范围。

表1仿真数据与NGSIM数据集的TTC统计

(2)换道效率

图4为仿真数据和NGSIM数据集中换道车辆的汇入位置分布，其中直线为汇入位置的正态分布拟合曲线，进一步描述了汇入位置的分布规律；横坐标为汇入位置；纵坐标为百分比，表示汇入位置在对应范围的车辆占总量的百分比。从图中可以看出仿真数据中汇入位置的中位数在240米左右，约71％的车辆可以在260米以内完成车辆换道；NGSIM数据集中的汇入位置的中位数在260米左右，仅约50％的车辆可以在260米以内完成车辆换道。这表明本发明提出的基于SAC算法的入匝道车辆换道模型在一定程度上提前了换道车辆完成换道的位置，提高了换道车辆的换道效率。

(3)舒适性

图5描述了仿真数据与NGSIM数据中换道车辆的jerk值，其中红色直线为NGSIM数据集中部分换道车辆的jerk值的随机采样，绿色直线为仿真数据集中所有换道车辆的jerk值。从图中可以看出仿真数据中换道车辆的jerk值的波动较为平稳，在-15m/s³到15m/s³之间，而NGSIM数据集中的换道车辆的jerk值的波动范围更大，最大值约为75m/s³，最小值约为-75m/s³。因此，本发明提出的基于SAC算法的强制换道模型在一定程度上减少了加速度的波动幅度，即提高了驾驶员和乘客的舒适性。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的智能网联车辆入匝道协同控制方法，其特征在于，所述车辆入匝道协同控制方法涉及的合流区场景由一条入口匝道、一条平行式加速车道和一条主车道构成，入匝道车辆从入口匝道进入快速路后，为汇入主车道，需要在加速车道上加速行驶到合适的速度区间并完成车辆换道；

包括以下步骤：

步骤1：智能网联车状态信息获取；

步骤2：通过智能网联车的车载传感器、定位系统和V2X系统实时获取周边环境信息；

步骤4：定义防碰撞策略；

步骤5：定义算法流程；

步骤4具体包括：

d_min＝(v_n-v_n-1)×t_min

其中，v_n为智能网联车速度；

v_n-1智能网联车前车速度；

a_dmax最大减速度；

t_min为最小安全时间；

d_min为最小安全距离；

其中，θ为智能网联车的转向角；θ_steer为车辆可运行的转向角度，为[-30。,30。]

步骤5具体包括：

2.根据权利要求1所述的基于深度强化学习的智能网联车辆入匝道协同控制方法，其特征在于，所述智能网联车的状态信息包括车辆的行驶速度、位置、距离快速路尽头的距离；所述智能网联车的周边环境信息包括在主车道上车辆的速度、位置、加速度。

3.根据权利要求1所述的基于深度强化学习的智能网联车辆入匝道协同控制方法，其特征在于，步骤3具体包括：

步骤3.1：定义模型的状态空间；

所述模型的状态空间如下：

Se＝{Δx,Δy,v,Δx_tp,Δv_tp,Δx_tl,Δv_tl}

其中，Se为智能网联车的状态空间；

Δx为智能网联车与匝道尽头的间距；

Δy为智能网联车与主车道中线的横向间距；

v为智能网联车的速度；

步骤3.2：定义模型的动作空间；

所述模型的动作空间包括车辆的转向角和加速度值，如下：

A＝{θ,a}

其中，A为智能网联车的动作空间；

θ为智能网联车转向角；

a为智能网联车的纵向加速度；

步骤3.3：定义模型的奖励函数；

总奖惩函数包含安全性、高效性、舒适性三部分，如下：

R＝w_safeR_safe+w_efficiencyR_efficiency+w_comfortR_comfort

其中，w_safe为与安全性相关的子奖励对应的权重系数；

R_safe为安全性的惩罚函数；

w_efficiency为与高效性相关的子奖励对应的权重系数；

R_efficiency是与换道效率相关的子奖励函数；

w_comfort为与舒适性相关的子奖励对应的权重系数；

R_comfort是与舒适性相关的子奖励函数；

其中，t表示时间；

n表示跟驰车辆；

n-1表示前车辆；

x_n-1(t)表示前车的位置；

v_n-1(t)表示前车的速度；

l表示车的长度；

TTC表示车辆碰撞时间；

x_n(t)表示后车位置；

v_n(t)表示后车速度；

与换道效率相关的子奖励函数R_efficiency具体定义如下：

R_efficiency＝w_laneR_lane+w_speedR_speed

其中，R_lane是与横向坐标相关的子奖励函数；

R_speed是与纵向速度相关的子奖励函数；

y^*为目标车道的中心位置；

R_lane是与智能网联车换道相关的子奖励；

v^*为自动计算车辆的期望速度；

R_speed是与智能网联车速度相关的子奖励；

w_lane和w_speed为权重系数；

y为车辆横向为位置；

v为车辆速度；

与舒适性相关的子奖励函数R_comfort具体定义如下：

其中，jerk为加速度的导数；

jerk_max为最大舒适加速度变化率。