CN116502529A

CN116502529A - 一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法

Info

Publication number: CN116502529A
Application number: CN202310446420.1A
Authority: CN
Inventors: 徐铖铖; 佟昊; 彭畅; 王长帅
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-28

Abstract

本发明提出了一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，针对快速干道信号交叉口处网联自动驾驶车辆与传统人驾车辆混行的场景，基于移动网联及自动驾驶技术的应用，一方面通过路侧设备和车载设备收集并传递前方信号和车流运行信息；另一方面本发明基于深度强化学习算法构建车辆轨迹优化模型，模型采用演员‑评论家框架优化，以交叉口安全性作为优化目标，遵守道路限速和红绿灯规则约束，并设置安全检测器对控制过程中采取的潜在不安全行为进行强制性修正，实现对网联自动驾驶车辆轨迹的优化设计以避免碰撞的发生，提高快速干道的通行效率。

Description

一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法

技术领域

本发明属于智能交通管理与控制技术领域，尤其涉及一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法。

背景技术

交通振荡是造成交通拥堵和交通污染的主要原因之一。在城市道路环境中，交通信号灯的存在使得车辆到达交叉口处必须遵循红绿灯限行原则，以避免不同方向车流的冲突。车辆在信号交叉口处频繁的加减速行为会引起交通振荡并向上游传播，同时造成严重的排队现象，难以实现城市干道的快速通行，极大降低了城市道路的安全性和通行效率。因此通过优化车辆轨迹实现对交叉口振荡的吸收是解决城市交通问题的重要任务。

车联网和自动驾驶技术的发展为解决城市交叉口振荡问题提供了重要技术支撑。具有通信功能的网联车配合RSU设备通过车路通信组网，可以获取路段内交通流运行状态信息，为受控车辆控制动作的生成提供更为准确的信息依据。而网联车行为的改变也会约束引导其它常规车，从而改善整体交通环境。与传统手段相比，车载自组网技术在为网联车提供超视距交通信息或控制指令时具有断面更连续、效果更稳定、驾驶员获取信息更丰富等优点。自动驾驶车具备高分辨率感知系统和高度可控的中控系统，能够准确地感知周边道路信息和严格执行目标控制动作。其反应时间相对于传统人驾车辆更短，并能够接受更小的跟车间距，有利于解决城市交叉口振荡问题和提高道路通行能力。

混合交通流环境具有更高的随机性，对控制方法计算性能提出了更高的要求。与传统线性或非线性控制、模型预测控制方法不同，基于深度强化学习的控制方法更适用于具有高度随机性特征的系统，且计算速度更快，更适用于自动驾驶车辆的在线控制。

发明内容

发明目的：本发明的目的是提出一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，通过对自动驾驶车辆轨迹的优化吸收信号交叉口的交通振荡波，减少振荡波所带来的交通事故风险和交通拥堵。

技术方案：为实现本发明的目的，本发明提出一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，该方法包括以下步骤：

步骤1)设计智能网联信号交叉口仿真场景并确定仿真参数，确定网联自动驾驶车在仿真中获取的信息组成及其定义；

步骤2)构建基于强化学习的网联自动驾驶车辆智能体，其在仿真过程中与环境交互，获取经验数据并存入经验数据集中，从经验数据集中提取数据构建训练数据集；

步骤3)对信号交叉口车辆轨迹优化控制模型进行训练和测试，保存经过训练后最终模型参数；

步骤4)依据训练的车辆轨迹优化控制模型输出下一仿真步长的网联自动驾驶车辆加速度，对控制模型输出的加速度进行安全风险检测，并对存在安全风险的加速度进行强制性修正，自动驾驶车辆在下一步仿真中执行修正后的加速度动作，对信号交叉口进口区域的网联自动驾驶车辆进行分布式控制。

进一步的，所述步骤1)中，设计智能网联环境下单信号交叉口仿真场景，确定仿真车辆基本参数，包括最大速度v_max、最大加速度a_max、车辆长度l_car、最小停车间距s、反应时间τ；确定交叉口信号配时参数，包括周期时间t_cycle、红灯配时t_r、绿灯配时t_g和黄灯配时t_y，每辆自动驾驶车在仿真中获取运行数据信息，包括环境状态信息动作信息/>和奖励信息具体定义如下：

网联自动驾驶车n在t时刻所获取的环境状态信息包括局部状态信息S_local和全局状态信息S_global，S_local由网联车车载设备获取，包括车辆n在t时刻的车速/>前车n-1在t时刻的车速/>t时刻车辆n与n-1间的距离/>S_local由路侧设施获取，包括t时刻车辆n与交叉口的距离/>当前信号周期t_cycle、当前相位P、当前相位剩余时间t_p、排队车辆估计数N_platoon；

动作信息为网联自动驾驶车n在t时刻所采取的加速度，即车辆加速度，

奖励信息为网联自动驾驶车n在/>状态下所获取的奖励值，包括速度奖励r_speed、安全奖励r_safe、时间奖励r_time、平顺性奖励r_a。

进一步的，所述排队车辆数N_platoon为网联自动驾驶车与交叉口间的车辆在排队时间窗内到达停车线的数量，由所采集的交通状态信息进行估计，其具体计算方法如下：

步骤一，由网联自动驾驶车n获取的t时刻交通状态推算车辆排队时间窗[t_{pla_begin}，t_{pla_end}]：

式中，为车辆n在t时刻以当前速度/>到达交叉口停车线的时间，t_{g_begin}、t_{g_end}、t_{y_begin}、t_{r_end}分别为绿灯开始时间、绿灯结束时间、黄灯开始时间、红灯结束时间，k为信号周期数；

步骤二，通过路侧视频信息获取网联自动驾驶车n与信号交叉口停车线间其他车辆的数量K及其状态信息计算与网联自动驾驶车辆n于同一绿灯相位内通过交叉口的车辆估计数N_platoon：

式中，i为网联自动驾驶车n与交叉口停车线间车辆的编号，为t时刻车辆i与交叉口的距离，/>为车辆i在t时刻的速度，/>为车辆i所对应的排队车辆数。

进一步的，速度奖励r_speed、安全奖励r_safe、时间奖励r_time、加速度奖励r_a的具体计算方法如下：

(1)速度奖励r_speed为网联自动驾驶车n在t时刻执行加速度后的t+1时刻的车辆速度/>所对应的奖励，其表现为在限速范围[0，v_max]内，/>越大，r_speed越高；

(2)安全奖励r_safe依据网联自动驾驶车辆n与其前车n-1在t+1时刻的间距是否符合期望安全间距/>要求进行计算；

(3)时间奖励r_time用于鼓励车辆在绿灯相位[t_{g_begin}，t_{g_end}]通过交叉口停车线，且不受前方排队的影响；

L_platoon＝N_platoon*(l_car+s)

式中，L_platoon为轨迹排队长度，ω为绿灯相位开始后交叉口排队的消散波速(m/s)，a_ave为交叉口排队消散的平均加速度(m/s²)，t_free为排队车辆所占用的绿灯时间；

(4)加速度奖励r_a用于确保车辆行驶的平顺性，加速度的计算方法如下：

(5)总奖励值：

R_t+1＝ω₁r_speed+ω₂r_safe+ω₃r_time+ω₄r_a

式中，ω₁、ω₂、ω₃、ω₄为奖励权重。

进一步的，所述步骤2)中，构建网联自动驾驶车辆智能体，其采用基于深度强化学习PPO算法的车辆轨迹优化模型，由Critic和Actor两个子模型构成，均为由多层全连接层构建的神经网络模型，输入层均为智能体获取的环境状态Critic模型的输出为智能体的策略价值V(s)，用于评价Actor，Actor模型输出为智能体策略，即加速度/>的概率分布P(s)。

进一步的，所述步骤2)中，每辆网联自动驾驶车辆作为独立智能体在仿真运行过程中仿真环境交互，获取状态、动作和奖励相关数据并存入经验数据集M中，并从经验数据集中提取数据构建训练数据集，具体如下：

智能体n获取t时刻的环境状态基于状态/>通过轨迹优化模型输出智能体n的加速度概率分布P(s)，由概率分布随机获取加速度动作/>及其对应概率/>执行该动作且仿真运行至t+1时刻，环境状态更新至/>依据状态/>得到动作奖励值/>依据上述流程得到一条经验数据/>每个智能体均通过在仿真过程中与环境的不断交互获取经验数据，并集中存入经验数据集M，设置M的最大数据容量C，到达最大容量时停止经验数据采集，通过在M中随机抽取固定数量的经验数据构建训练集。

进一步的，所述步骤3)中，对信号交叉口车辆轨迹优化控制模型进行训练和测试，保存经过训练后最终模型参数，其具体训练过程如下：

步骤5.1设置训练总回合数N，确定超参数，包括学习率LR、裁剪系数ε，经验数据集容量C、训练数据集容量c、折扣因子；

步骤5.2设置仿真初始参数，包括仿真时长、交通流量参数、信号灯参数；

步骤5.3初始化仿真并运行，采集经验数据存入经验数据集M，当仿真结束，更新仿真随机种子后，重置仿真并继续采集，直至最大容量C时停止经验数据采集；

步骤5.4在M中随机抽取固定数量c的经验数据作为训练集，模型迭代更新x次，其中，x＝C/c；

步骤5.5对更新后的控制模型进行多次仿真测试，输出车辆平均奖励值；

步骤5.6检查是否到达总回合数N，如果到达，结束训练并保存模型参数；如果没有到达，清空经验数据集，返回步骤5.3。

进一步的，所述步骤4)中，依据3)中训练好的轨迹优化模型对信号交叉口进口的多辆网联自动驾驶车辆进行分布式控制，控制步长为0.5s，轨迹优化模型依据网联自动驾驶车n其所获取的环境状态输出控制动作/>依据期望安全间距/>对动作/>进行安全风险判别修正，得到最后执行加速度/>

有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

1.本研究提出的车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，以交叉口车辆安全风险作为优化目标，能够明显消除交叉口排队现象，降低交叉口冲击波所带来的潜在安全风险。

2.估算交叉口冲击波边界，基于感知设施采集的交通状态信息估算未来时段交叉口排队长度，通过交通冲击波理论估计交叉口冲击波最小边界，并结合深度强化学习的探索能力，能够有效地解决混合交通流环境下对人驾车辆轨迹预测的困难。

3.考虑控制策略中偶发性的追尾风险，本研究中在控制策略实施前设置了安全检测器，进一步对控制策略所带来的追尾风险进行评估，并对风险动作进行强制性修正，排除神经网络模型可能存在的潜在误差风险，该安全检测器既能在模型训练阶段指导控制模型训练，也能在控制执行阶段检测所执行的动作。

4.通过优化交叉口上游网联自动驾驶车辆的轨迹引导后续车流平稳顺畅地驶入信号交叉口，以吸收因信号灯造成的交叉口冲击波，从而降低冲击波所带来的潜在事故风险，同时能够降低信号交叉口处的燃油消耗与污染，达到改善城市道路交通拥堵的目的。

附图说明

图1是本发明的控制模型训练与决策机制示意图。

图2是本发明的仿真场景示意图。

图3是本发明中排队长度预测示意图。

图4是本发明中强化学习模型的训练流程图。

具体实施方式

以下结合附图，对本发明的技术方案进行进一步详细说明。图1为本发明的控制模型训练与决策机制示意图，具体步骤如下：

步骤1)设计智能网联信号交叉口仿真场景并确定仿真参数，确定网联自动驾驶车在仿真中获取的信息组成及其定义；如图2所示，其展示的是仿真场景图；

步骤3)对信号交叉口车辆轨迹优化控制模型进行训练和测试，保存经过训练后最终模型参数；如图4所示，其展示的是模型的训练和测试过程；

网联自动驾驶车n在t时刻所获取的环境状态信息包括局部状态信息S_local和全局状态信息S_global，S_local由网联车车载设备获取，包括车辆n在t时刻的车速/>前车n-1在t时刻的车速/>t时刻车辆n与n-1间的距离/>S_local由路侧设施获取，包括t时刻车辆n与交叉口的距离/>当前信号周期t_cycle、当前相位P、当前相位剩余时间t_p、排队车辆估计数N_platoon；如图3所示，其展示的是本发明中排队长度预测示意图。

L_platoon＝N_platoon*(l_car+s)

(5)总奖励值：

R_t+1＝ω₁r_speed+ω₂r_safe+ω₃r_time+ω₄r_a

式中，ω₁、ω₂、ω₃、ω₄为奖励权重。

本方法在城市道路车路协同混合交通流环境下，基于交通状态信息设计以车辆安全稳定为目标的车辆纵向运行轨迹，用于引导车辆在绿灯时间范围内平顺地通过交叉口，减少停车时间，同时降低交通冲击波所带来潜在事故风险。相较于现有方法，本方法除基于传统感知设备和网联通信技术直接获取的交通状态信息以外，结合交通冲击波理论进一步估算交叉口冲击波边界，为轨迹优化提供更为详细的状态信息。同时确保目标轨迹满足安全要求后再执行，以降低控制模型在实际应用时的误差影响。综上所述，本方法解决了在保障信号交叉口交通流安全性的同时，一定程度上降低交叉口的排队长度和车辆的延误时间，提高城市干道的通行效率，其在降低城市道路交通事故风险，解决城市拥堵问题具有实际工程应用价值。

Claims

1.一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，其特征在于，该方法包括以下步骤：

步骤1)设计智能网联信号交叉口仿真场景，并确定仿真参数，确定网联自动驾驶车在仿真中获取的信息组成及其定义；

2.根据权利要求1所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，其特征在于，所述步骤1)中，设计智能网联环境下单信号交叉口仿真场景，确定仿真车辆基本参数，包括最大速度v_max、最大加速度a_max、车辆长度l_car、最小停车间距s、反应时间τ；确定交叉口信号配时参数，包括周期时间t_cycle、红灯配时t_r、绿灯配时t_g和黄灯配时t_y，每辆自动驾驶车在仿真中获取运行数据信息，包括环境状态信息动作信息/>和奖励信息具体定义如下：

3.根据权利要求2所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，其特征在于，所述排队车辆数N_platoon为网联自动驾驶车与交叉口间的车辆在排队时间窗内到达停车线的数量，由所采集的交通状态信息进行估计，其具体计算方法如下：

步骤一，由网联自动驾驶车n获取的t时刻交通状态推算车辆排队时间窗[t_{pla_begin},t_{pla_end}]：

式中，为车辆n在t时刻以当前速度/>到达交叉口停车线的时间，t_{pla_begin},t_{pla_end}分别为排队时间窗开始时间和结束时间，t_{g_begin}、t_{g_end}、t_{y_begin}、t_{r_end}分别为绿灯开始时间、绿灯结束时间、黄灯开始时间、红灯结束时间，k为信号周期数；

4.根据权利要求2所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，其特征在于，速度奖励r_speed、安全奖励r_safe、时间奖励r_time、加速度奖励r_a的具体计算方法如下：

(1)速度奖励r_speed为网联自动驾驶车n在t时刻的车辆速度所对应的奖励，其表现为在限速范围[0,v_max]内，/>越大，r_speed越高；

(2)安全奖励r_safe依据网联自动驾驶车辆n与其前车n-1在t时刻的间距是否符合期望安全间距/>要求进行计算；

(3)时间奖励r_time用于鼓励车辆在绿灯相位[t_{g_begin},t_{g_end}]通过交叉口停车线，且不受前方排队的影响；

L_platoon＝N_platoon*(l_car+s)

(4)加速度奖励r_a为t时刻加速度所对应的奖励值，用于确保车辆行驶的平顺性，其计算方法如下：

5.根据权利要求4所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，其特征在于，总奖励值计算如下：

式中，ω₁、ω₂、ω₃、ω₄为奖励权重。

6.根据权利要求1所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，其特征在于，所述步骤2)中，构建网联自动驾驶车辆智能体，其采用基于深度强化学习PPO算法的车辆轨迹优化模型，由Critic和Actor两个子模型构成，均为由多层全连接层构建的神经网络模型，输入层均为智能体获取的环境状态Critic模型的输出为智能体的策略价值V(s)，用于评价Actor，Actor模型输出为智能体策略，即加速度/>的概率分布P(s)。

7.根据权利要求1所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，其特征在于，所述步骤2)中，每辆网联自动驾驶车辆作为独立智能体在仿真运行过程中仿真环境交互，获取状态、动作和奖励相关数据并存入经验数据集M中，并从经验数据集中提取数据构建训练数据集，具体如下：

8.根据权利要求1所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，其特征在于，所述步骤3)中，对信号交叉口车辆轨迹优化控制模型进行训练和测试，保存经过训练后最终模型参数，其具体训练过程如下：

9.根据权利要求1所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，其特征在于，所述步骤4)中，依据3)中训练好的轨迹优化模型对信号交叉口进口的多辆网联自动驾驶车辆进行分布式控制，控制步长为0.5s，轨迹优化模型依据网联自动驾驶车n其所获取的环境状态输出控制动作/>依据期望安全间距/>对动作/>进行安全风险判别修正，得到最后执行加速度/>

10.根据权利要求9所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法，其特征在于，执行加速度的计算方法如下：