CN116502529A - 一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法 - Google Patents
一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法 Download PDFInfo
- Publication number
- CN116502529A CN116502529A CN202310446420.1A CN202310446420A CN116502529A CN 116502529 A CN116502529 A CN 116502529A CN 202310446420 A CN202310446420 A CN 202310446420A CN 116502529 A CN116502529 A CN 116502529A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- time
- automatic driving
- simulation
- intersection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000005457 optimization Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 17
- 230000002787 reinforcement Effects 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 4
- 238000004088 simulation Methods 0.000 claims description 58
- 230000001133 acceleration Effects 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 38
- 230000009471 action Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000007613 environmental effect Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000035484 reaction time Effects 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 18
- 230000035939 shock Effects 0.000 description 9
- 230000010355 oscillation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000011217 control strategy Methods 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/065—Traffic control systems for road vehicles by counting the vehicles in a section of the road or in a parking area, i.e. comparing incoming count with outgoing count
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/081—Plural intersections under common control
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/09—Arrangements for giving variable traffic instructions
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/09—Arrangements for giving variable traffic instructions
- G08G1/095—Traffic lights
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Operations Research (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提出了一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,针对快速干道信号交叉口处网联自动驾驶车辆与传统人驾车辆混行的场景,基于移动网联及自动驾驶技术的应用,一方面通过路侧设备和车载设备收集并传递前方信号和车流运行信息;另一方面本发明基于深度强化学习算法构建车辆轨迹优化模型,模型采用演员‑评论家框架优化,以交叉口安全性作为优化目标,遵守道路限速和红绿灯规则约束,并设置安全检测器对控制过程中采取的潜在不安全行为进行强制性修正,实现对网联自动驾驶车辆轨迹的优化设计以避免碰撞的发生,提高快速干道的通行效率。
Description
技术领域
本发明属于智能交通管理与控制技术领域,尤其涉及一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法。
背景技术
交通振荡是造成交通拥堵和交通污染的主要原因之一。在城市道路环境中,交通信号灯的存在使得车辆到达交叉口处必须遵循红绿灯限行原则,以避免不同方向车流的冲突。车辆在信号交叉口处频繁的加减速行为会引起交通振荡并向上游传播,同时造成严重的排队现象,难以实现城市干道的快速通行,极大降低了城市道路的安全性和通行效率。因此通过优化车辆轨迹实现对交叉口振荡的吸收是解决城市交通问题的重要任务。
车联网和自动驾驶技术的发展为解决城市交叉口振荡问题提供了重要技术支撑。具有通信功能的网联车配合RSU设备通过车路通信组网,可以获取路段内交通流运行状态信息,为受控车辆控制动作的生成提供更为准确的信息依据。而网联车行为的改变也会约束引导其它常规车,从而改善整体交通环境。与传统手段相比,车载自组网技术在为网联车提供超视距交通信息或控制指令时具有断面更连续、效果更稳定、驾驶员获取信息更丰富等优点。自动驾驶车具备高分辨率感知系统和高度可控的中控系统,能够准确地感知周边道路信息和严格执行目标控制动作。其反应时间相对于传统人驾车辆更短,并能够接受更小的跟车间距,有利于解决城市交叉口振荡问题和提高道路通行能力。
混合交通流环境具有更高的随机性,对控制方法计算性能提出了更高的要求。与传统线性或非线性控制、模型预测控制方法不同,基于深度强化学习的控制方法更适用于具有高度随机性特征的系统,且计算速度更快,更适用于自动驾驶车辆的在线控制。
发明内容
发明目的:本发明的目的是提出一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,通过对自动驾驶车辆轨迹的优化吸收信号交叉口的交通振荡波,减少振荡波所带来的交通事故风险和交通拥堵。
技术方案:为实现本发明的目的,本发明提出一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,该方法包括以下步骤:
步骤1)设计智能网联信号交叉口仿真场景并确定仿真参数,确定网联自动驾驶车在仿真中获取的信息组成及其定义;
步骤2)构建基于强化学习的网联自动驾驶车辆智能体,其在仿真过程中与环境交互,获取经验数据并存入经验数据集中,从经验数据集中提取数据构建训练数据集;
步骤3)对信号交叉口车辆轨迹优化控制模型进行训练和测试,保存经过训练后最终模型参数;
步骤4)依据训练的车辆轨迹优化控制模型输出下一仿真步长的网联自动驾驶车辆加速度,对控制模型输出的加速度进行安全风险检测,并对存在安全风险的加速度进行强制性修正,自动驾驶车辆在下一步仿真中执行修正后的加速度动作,对信号交叉口进口区域的网联自动驾驶车辆进行分布式控制。
进一步的,所述步骤1)中,设计智能网联环境下单信号交叉口仿真场景,确定仿真车辆基本参数,包括最大速度vmax、最大加速度amax、车辆长度lcar、最小停车间距s、反应时间τ;确定交叉口信号配时参数,包括周期时间tcycle、红灯配时tr、绿灯配时tg和黄灯配时ty,每辆自动驾驶车在仿真中获取运行数据信息,包括环境状态信息动作信息/>和奖励信息具体定义如下:
网联自动驾驶车n在t时刻所获取的环境状态信息包括局部状态信息Slocal和全局状态信息Sglobal,Slocal由网联车车载设备获取,包括车辆n在t时刻的车速/>前车n-1在t时刻的车速/>t时刻车辆n与n-1间的距离/>Slocal由路侧设施获取,包括t时刻车辆n与交叉口的距离/>当前信号周期tcycle、当前相位P、当前相位剩余时间tp、排队车辆估计数Nplatoon;
动作信息为网联自动驾驶车n在t时刻所采取的加速度,即车辆加速度,
奖励信息为网联自动驾驶车n在/>状态下所获取的奖励值,包括速度奖励rspeed、安全奖励rsafe、时间奖励rtime、平顺性奖励ra。
进一步的,所述排队车辆数Nplatoon为网联自动驾驶车与交叉口间的车辆在排队时间窗内到达停车线的数量,由所采集的交通状态信息进行估计,其具体计算方法如下:
步骤一,由网联自动驾驶车n获取的t时刻交通状态推算车辆排队时间窗[tpla_begin,tpla_end]:
式中,为车辆n在t时刻以当前速度/>到达交叉口停车线的时间,tg_begin、tg_end、ty_begin、tr_end分别为绿灯开始时间、绿灯结束时间、黄灯开始时间、红灯结束时间,k为信号周期数;
步骤二,通过路侧视频信息获取网联自动驾驶车n与信号交叉口停车线间其他车辆的数量K及其状态信息计算与网联自动驾驶车辆n于同一绿灯相位内通过交叉口的车辆估计数Nplatoon:
式中,i为网联自动驾驶车n与交叉口停车线间车辆的编号,为t时刻车辆i与交叉口的距离,/>为车辆i在t时刻的速度,/>为车辆i所对应的排队车辆数。
进一步的,速度奖励rspeed、安全奖励rsafe、时间奖励rtime、加速度奖励ra的具体计算方法如下:
(1)速度奖励rspeed为网联自动驾驶车n在t时刻执行加速度后的t+1时刻的车辆速度/>所对应的奖励,其表现为在限速范围[0,vmax]内,/>越大,rspeed越高;
(2)安全奖励rsafe依据网联自动驾驶车辆n与其前车n-1在t+1时刻的间距是否符合期望安全间距/>要求进行计算;
(3)时间奖励rtime用于鼓励车辆在绿灯相位[tg_begin,tg_end]通过交叉口停车线,且不受前方排队的影响;
Lplatoon=Nplatoon*(lcar+s)
式中,Lplatoon为轨迹排队长度,ω为绿灯相位开始后交叉口排队的消散波速(m/s),aave为交叉口排队消散的平均加速度(m/s2),tfree为排队车辆所占用的绿灯时间;
(4)加速度奖励ra用于确保车辆行驶的平顺性,加速度的计算方法如下:
(5)总奖励值:
Rt+1=ω1rspeed+ω2rsafe+ω3rtime+ω4ra
式中,ω1、ω2、ω3、ω4为奖励权重。
进一步的,所述步骤2)中,构建网联自动驾驶车辆智能体,其采用基于深度强化学习PPO算法的车辆轨迹优化模型,由Critic和Actor两个子模型构成,均为由多层全连接层构建的神经网络模型,输入层均为智能体获取的环境状态Critic模型的输出为智能体的策略价值V(s),用于评价Actor,Actor模型输出为智能体策略,即加速度/>的概率分布P(s)。
进一步的,所述步骤2)中,每辆网联自动驾驶车辆作为独立智能体在仿真运行过程中仿真环境交互,获取状态、动作和奖励相关数据并存入经验数据集M中,并从经验数据集中提取数据构建训练数据集,具体如下:
智能体n获取t时刻的环境状态基于状态/>通过轨迹优化模型输出智能体n的加速度概率分布P(s),由概率分布随机获取加速度动作/>及其对应概率/>执行该动作且仿真运行至t+1时刻,环境状态更新至/>依据状态/>得到动作奖励值/>依据上述流程得到一条经验数据/>每个智能体均通过在仿真过程中与环境的不断交互获取经验数据,并集中存入经验数据集M,设置M的最大数据容量C,到达最大容量时停止经验数据采集,通过在M中随机抽取固定数量的经验数据构建训练集。
进一步的,所述步骤3)中,对信号交叉口车辆轨迹优化控制模型进行训练和测试,保存经过训练后最终模型参数,其具体训练过程如下:
步骤5.1设置训练总回合数N,确定超参数,包括学习率LR、裁剪系数ε,经验数据集容量C、训练数据集容量c、折扣因子;
步骤5.2设置仿真初始参数,包括仿真时长、交通流量参数、信号灯参数;
步骤5.3初始化仿真并运行,采集经验数据存入经验数据集M,当仿真结束,更新仿真随机种子后,重置仿真并继续采集,直至最大容量C时停止经验数据采集;
步骤5.4在M中随机抽取固定数量c的经验数据作为训练集,模型迭代更新x次,其中,x=C/c;
步骤5.5对更新后的控制模型进行多次仿真测试,输出车辆平均奖励值;
步骤5.6检查是否到达总回合数N,如果到达,结束训练并保存模型参数;如果没有到达,清空经验数据集,返回步骤5.3。
进一步的,所述步骤4)中,依据3)中训练好的轨迹优化模型对信号交叉口进口的多辆网联自动驾驶车辆进行分布式控制,控制步长为0.5s,轨迹优化模型依据网联自动驾驶车n其所获取的环境状态输出控制动作/>依据期望安全间距/>对动作/>进行安全风险判别修正,得到最后执行加速度/>
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
1.本研究提出的车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,以交叉口车辆安全风险作为优化目标,能够明显消除交叉口排队现象,降低交叉口冲击波所带来的潜在安全风险。
2.估算交叉口冲击波边界,基于感知设施采集的交通状态信息估算未来时段交叉口排队长度,通过交通冲击波理论估计交叉口冲击波最小边界,并结合深度强化学习的探索能力,能够有效地解决混合交通流环境下对人驾车辆轨迹预测的困难。
3.考虑控制策略中偶发性的追尾风险,本研究中在控制策略实施前设置了安全检测器,进一步对控制策略所带来的追尾风险进行评估,并对风险动作进行强制性修正,排除神经网络模型可能存在的潜在误差风险,该安全检测器既能在模型训练阶段指导控制模型训练,也能在控制执行阶段检测所执行的动作。
4.通过优化交叉口上游网联自动驾驶车辆的轨迹引导后续车流平稳顺畅地驶入信号交叉口,以吸收因信号灯造成的交叉口冲击波,从而降低冲击波所带来的潜在事故风险,同时能够降低信号交叉口处的燃油消耗与污染,达到改善城市道路交通拥堵的目的。
附图说明
图1是本发明的控制模型训练与决策机制示意图。
图2是本发明的仿真场景示意图。
图3是本发明中排队长度预测示意图。
图4是本发明中强化学习模型的训练流程图。
具体实施方式
以下结合附图,对本发明的技术方案进行进一步详细说明。图1为本发明的控制模型训练与决策机制示意图,具体步骤如下:
步骤1)设计智能网联信号交叉口仿真场景并确定仿真参数,确定网联自动驾驶车在仿真中获取的信息组成及其定义;如图2所示,其展示的是仿真场景图;
步骤2)构建基于强化学习的网联自动驾驶车辆智能体,其在仿真过程中与环境交互,获取经验数据并存入经验数据集中,从经验数据集中提取数据构建训练数据集;
步骤3)对信号交叉口车辆轨迹优化控制模型进行训练和测试,保存经过训练后最终模型参数;如图4所示,其展示的是模型的训练和测试过程;
步骤4)依据训练的车辆轨迹优化控制模型输出下一仿真步长的网联自动驾驶车辆加速度,对控制模型输出的加速度进行安全风险检测,并对存在安全风险的加速度进行强制性修正,自动驾驶车辆在下一步仿真中执行修正后的加速度动作,对信号交叉口进口区域的网联自动驾驶车辆进行分布式控制。
进一步的,所述步骤1)中,设计智能网联环境下单信号交叉口仿真场景,确定仿真车辆基本参数,包括最大速度vmax、最大加速度amax、车辆长度lcar、最小停车间距s、反应时间τ;确定交叉口信号配时参数,包括周期时间tcycle、红灯配时tr、绿灯配时tg和黄灯配时ty,每辆自动驾驶车在仿真中获取运行数据信息,包括环境状态信息动作信息/>和奖励信息具体定义如下:
网联自动驾驶车n在t时刻所获取的环境状态信息包括局部状态信息Slocal和全局状态信息Sglobal,Slocal由网联车车载设备获取,包括车辆n在t时刻的车速/>前车n-1在t时刻的车速/>t时刻车辆n与n-1间的距离/>Slocal由路侧设施获取,包括t时刻车辆n与交叉口的距离/>当前信号周期tcycle、当前相位P、当前相位剩余时间tp、排队车辆估计数Nplatoon;如图3所示,其展示的是本发明中排队长度预测示意图。
动作信息为网联自动驾驶车n在t时刻所采取的加速度,即车辆加速度,
奖励信息为网联自动驾驶车n在/>状态下所获取的奖励值,包括速度奖励rspeed、安全奖励rsafe、时间奖励rtime、平顺性奖励ra。
进一步的,所述排队车辆数Nplatoon为网联自动驾驶车与交叉口间的车辆在排队时间窗内到达停车线的数量,由所采集的交通状态信息进行估计,其具体计算方法如下:
步骤一,由网联自动驾驶车n获取的t时刻交通状态推算车辆排队时间窗[tpla_begin,tpla_end]:
式中,为车辆n在t时刻以当前速度/>到达交叉口停车线的时间,tg_begin、tg_end、ty_begin、tr_end分别为绿灯开始时间、绿灯结束时间、黄灯开始时间、红灯结束时间,k为信号周期数;
步骤二,通过路侧视频信息获取网联自动驾驶车n与信号交叉口停车线间其他车辆的数量K及其状态信息计算与网联自动驾驶车辆n于同一绿灯相位内通过交叉口的车辆估计数Nplatoon:
式中,i为网联自动驾驶车n与交叉口停车线间车辆的编号,为t时刻车辆i与交叉口的距离,/>为车辆i在t时刻的速度,/>为车辆i所对应的排队车辆数。
进一步的,速度奖励rspeed、安全奖励rsafe、时间奖励rtime、加速度奖励ra的具体计算方法如下:
(1)速度奖励rspeed为网联自动驾驶车n在t时刻执行加速度后的t+1时刻的车辆速度/>所对应的奖励,其表现为在限速范围[0,vmax]内,/>越大,rspeed越高;
(2)安全奖励rsafe依据网联自动驾驶车辆n与其前车n-1在t+1时刻的间距是否符合期望安全间距/>要求进行计算;
(3)时间奖励rtime用于鼓励车辆在绿灯相位[tg_begin,tg_end]通过交叉口停车线,且不受前方排队的影响;
Lplatoon=Nplatoon*(lcar+s)
式中,Lplatoon为轨迹排队长度,ω为绿灯相位开始后交叉口排队的消散波速(m/s),aave为交叉口排队消散的平均加速度(m/s2),tfree为排队车辆所占用的绿灯时间;
(4)加速度奖励ra用于确保车辆行驶的平顺性,加速度的计算方法如下:
(5)总奖励值:
Rt+1=ω1rspeed+ω2rsafe+ω3rtime+ω4ra
式中,ω1、ω2、ω3、ω4为奖励权重。
进一步的,所述步骤2)中,构建网联自动驾驶车辆智能体,其采用基于深度强化学习PPO算法的车辆轨迹优化模型,由Critic和Actor两个子模型构成,均为由多层全连接层构建的神经网络模型,输入层均为智能体获取的环境状态Critic模型的输出为智能体的策略价值V(s),用于评价Actor,Actor模型输出为智能体策略,即加速度/>的概率分布P(s)。
进一步的,所述步骤2)中,每辆网联自动驾驶车辆作为独立智能体在仿真运行过程中仿真环境交互,获取状态、动作和奖励相关数据并存入经验数据集M中,并从经验数据集中提取数据构建训练数据集,具体如下:
智能体n获取t时刻的环境状态基于状态/>通过轨迹优化模型输出智能体n的加速度概率分布P(s),由概率分布随机获取加速度动作/>及其对应概率/>执行该动作且仿真运行至t+1时刻,环境状态更新至/>依据状态/>得到动作奖励值/>依据上述流程得到一条经验数据/>每个智能体均通过在仿真过程中与环境的不断交互获取经验数据,并集中存入经验数据集M,设置M的最大数据容量C,到达最大容量时停止经验数据采集,通过在M中随机抽取固定数量的经验数据构建训练集。
进一步的,所述步骤3)中,对信号交叉口车辆轨迹优化控制模型进行训练和测试,保存经过训练后最终模型参数,其具体训练过程如下:
步骤5.1设置训练总回合数N,确定超参数,包括学习率LR、裁剪系数ε,经验数据集容量C、训练数据集容量c、折扣因子;
步骤5.2设置仿真初始参数,包括仿真时长、交通流量参数、信号灯参数;
步骤5.3初始化仿真并运行,采集经验数据存入经验数据集M,当仿真结束,更新仿真随机种子后,重置仿真并继续采集,直至最大容量C时停止经验数据采集;
步骤5.4在M中随机抽取固定数量c的经验数据作为训练集,模型迭代更新x次,其中,x=C/c;
步骤5.5对更新后的控制模型进行多次仿真测试,输出车辆平均奖励值;
步骤5.6检查是否到达总回合数N,如果到达,结束训练并保存模型参数;如果没有到达,清空经验数据集,返回步骤5.3。
进一步的,所述步骤4)中,依据3)中训练好的轨迹优化模型对信号交叉口进口的多辆网联自动驾驶车辆进行分布式控制,控制步长为0.5s,轨迹优化模型依据网联自动驾驶车n其所获取的环境状态输出控制动作/>依据期望安全间距/>对动作/>进行安全风险判别修正,得到最后执行加速度/>
本方法在城市道路车路协同混合交通流环境下,基于交通状态信息设计以车辆安全稳定为目标的车辆纵向运行轨迹,用于引导车辆在绿灯时间范围内平顺地通过交叉口,减少停车时间,同时降低交通冲击波所带来潜在事故风险。相较于现有方法,本方法除基于传统感知设备和网联通信技术直接获取的交通状态信息以外,结合交通冲击波理论进一步估算交叉口冲击波边界,为轨迹优化提供更为详细的状态信息。同时确保目标轨迹满足安全要求后再执行,以降低控制模型在实际应用时的误差影响。综上所述,本方法解决了在保障信号交叉口交通流安全性的同时,一定程度上降低交叉口的排队长度和车辆的延误时间,提高城市干道的通行效率,其在降低城市道路交通事故风险,解决城市拥堵问题具有实际工程应用价值。
Claims (10)
1.一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,其特征在于,该方法包括以下步骤:
步骤1)设计智能网联信号交叉口仿真场景,并确定仿真参数,确定网联自动驾驶车在仿真中获取的信息组成及其定义;
步骤2)构建基于强化学习的网联自动驾驶车辆智能体,其在仿真过程中与环境交互,获取经验数据并存入经验数据集中,从经验数据集中提取数据构建训练数据集;
步骤3)对信号交叉口车辆轨迹优化控制模型进行训练和测试,保存经过训练后最终模型参数;
步骤4)依据训练的车辆轨迹优化控制模型输出下一仿真步长的网联自动驾驶车辆加速度,对控制模型输出的加速度进行安全风险检测,并对存在安全风险的加速度进行强制性修正,自动驾驶车辆在下一步仿真中执行修正后的加速度动作,对信号交叉口进口区域的网联自动驾驶车辆进行分布式控制。
2.根据权利要求1所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,其特征在于,所述步骤1)中,设计智能网联环境下单信号交叉口仿真场景,确定仿真车辆基本参数,包括最大速度vmax、最大加速度amax、车辆长度lcar、最小停车间距s、反应时间τ;确定交叉口信号配时参数,包括周期时间tcycle、红灯配时tr、绿灯配时tg和黄灯配时ty,每辆自动驾驶车在仿真中获取运行数据信息,包括环境状态信息动作信息/>和奖励信息具体定义如下:
网联自动驾驶车n在t时刻所获取的环境状态信息包括局部状态信息Slocal和全局状态信息Sglobal,Slocal由网联车车载设备获取,包括车辆n在t时刻的车速/>前车n-1在t时刻的车速/>t时刻车辆n与n-1间的距离/>Slocal由路侧设施获取,包括t时刻车辆n与交叉口的距离/>当前信号周期tcycle、当前相位P、当前相位剩余时间tp、排队车辆估计数Nplatoon;
动作信息为网联自动驾驶车n在t时刻所采取的加速度,即车辆加速度,
奖励信息为网联自动驾驶车n在/>状态下所获取的奖励值,包括速度奖励rspeed、安全奖励rsafe、时间奖励rtime、平顺性奖励ra。
3.根据权利要求2所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,其特征在于,所述排队车辆数Nplatoon为网联自动驾驶车与交叉口间的车辆在排队时间窗内到达停车线的数量,由所采集的交通状态信息进行估计,其具体计算方法如下:
步骤一,由网联自动驾驶车n获取的t时刻交通状态推算车辆排队时间窗[tpla_begin,tpla_end]:
式中,为车辆n在t时刻以当前速度/>到达交叉口停车线的时间,tpla_begin,tpla_end分别为排队时间窗开始时间和结束时间,tg_begin、tg_end、ty_begin、tr_end分别为绿灯开始时间、绿灯结束时间、黄灯开始时间、红灯结束时间,k为信号周期数;
步骤二,通过路侧视频信息获取网联自动驾驶车n与信号交叉口停车线间其他车辆的数量K及其状态信息计算与网联自动驾驶车辆n于同一绿灯相位内通过交叉口的车辆估计数Nplatoon:
式中,i为网联自动驾驶车n与交叉口停车线间车辆的编号,为t时刻车辆i与交叉口的距离,/>为车辆i在t时刻的速度,/>为车辆i所对应的排队车辆数。
4.根据权利要求2所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,其特征在于,速度奖励rspeed、安全奖励rsafe、时间奖励rtime、加速度奖励ra的具体计算方法如下:
(1)速度奖励rspeed为网联自动驾驶车n在t时刻的车辆速度所对应的奖励,其表现为在限速范围[0,vmax]内,/>越大,rspeed越高;
(2)安全奖励rsafe依据网联自动驾驶车辆n与其前车n-1在t时刻的间距是否符合期望安全间距/>要求进行计算;
(3)时间奖励rtime用于鼓励车辆在绿灯相位[tg_begin,tg_end]通过交叉口停车线,且不受前方排队的影响;
Lplatoon=Nplatoon*(lcar+s)
式中,Lplatoon为轨迹排队长度,ω为绿灯相位开始后交叉口排队的消散波速(m/s),aave为交叉口排队消散的平均加速度(m/s2),tfree为排队车辆所占用的绿灯时间;
(4)加速度奖励ra为t时刻加速度所对应的奖励值,用于确保车辆行驶的平顺性,其计算方法如下:
5.根据权利要求4所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,其特征在于,总奖励值计算如下:
式中,ω1、ω2、ω3、ω4为奖励权重。
6.根据权利要求1所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,其特征在于,所述步骤2)中,构建网联自动驾驶车辆智能体,其采用基于深度强化学习PPO算法的车辆轨迹优化模型,由Critic和Actor两个子模型构成,均为由多层全连接层构建的神经网络模型,输入层均为智能体获取的环境状态Critic模型的输出为智能体的策略价值V(s),用于评价Actor,Actor模型输出为智能体策略,即加速度/>的概率分布P(s)。
7.根据权利要求1所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,其特征在于,所述步骤2)中,每辆网联自动驾驶车辆作为独立智能体在仿真运行过程中仿真环境交互,获取状态、动作和奖励相关数据并存入经验数据集M中,并从经验数据集中提取数据构建训练数据集,具体如下:
智能体n获取t时刻的环境状态基于状态/>通过轨迹优化模型输出智能体n的加速度概率分布P(s),由概率分布随机获取加速度动作/>及其对应概率/>执行该动作且仿真运行至t+1时刻,环境状态更新至/>依据状态/>得到动作奖励值/>依据上述流程得到一条经验数据/>每个智能体均通过在仿真过程中与环境的不断交互获取经验数据,并集中存入经验数据集M,设置M的最大数据容量C,到达最大容量时停止经验数据采集,通过在M中随机抽取固定数量的经验数据构建训练集。
8.根据权利要求1所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,其特征在于,所述步骤3)中,对信号交叉口车辆轨迹优化控制模型进行训练和测试,保存经过训练后最终模型参数,其具体训练过程如下:
步骤5.1设置训练总回合数N,确定超参数,包括学习率LR、裁剪系数ε,经验数据集容量C、训练数据集容量c、折扣因子;
步骤5.2设置仿真初始参数,包括仿真时长、交通流量参数、信号灯参数;
步骤5.3初始化仿真并运行,采集经验数据存入经验数据集M,当仿真结束,更新仿真随机种子后,重置仿真并继续采集,直至最大容量C时停止经验数据采集;
步骤5.4在M中随机抽取固定数量c的经验数据作为训练集,模型迭代更新x次,其中,x=C/c;
步骤5.5对更新后的控制模型进行多次仿真测试,输出车辆平均奖励值;
步骤5.6检查是否到达总回合数N,如果到达,结束训练并保存模型参数;如果没有到达,清空经验数据集,返回步骤5.3。
9.根据权利要求1所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,其特征在于,所述步骤4)中,依据3)中训练好的轨迹优化模型对信号交叉口进口的多辆网联自动驾驶车辆进行分布式控制,控制步长为0.5s,轨迹优化模型依据网联自动驾驶车n其所获取的环境状态输出控制动作/>依据期望安全间距/>对动作/>进行安全风险判别修正,得到最后执行加速度/>
10.根据权利要求9所述的一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法,其特征在于,执行加速度的计算方法如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310446420.1A CN116502529A (zh) | 2023-04-24 | 2023-04-24 | 一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310446420.1A CN116502529A (zh) | 2023-04-24 | 2023-04-24 | 一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116502529A true CN116502529A (zh) | 2023-07-28 |
Family
ID=87317733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310446420.1A Pending CN116502529A (zh) | 2023-04-24 | 2023-04-24 | 一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116502529A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884220A (zh) * | 2023-08-01 | 2023-10-13 | 同济大学 | 一种基于轨迹数据的面向全局可变限速遵从度预测方法 |
-
2023
- 2023-04-24 CN CN202310446420.1A patent/CN116502529A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884220A (zh) * | 2023-08-01 | 2023-10-13 | 同济大学 | 一种基于轨迹数据的面向全局可变限速遵从度预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111081065B (zh) | 路段混行条件下的智能车辆协同换道决策模型 | |
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN110992695B (zh) | 基于冲突消解的车辆城市交叉口通行决策多目标优化方法 | |
Gong et al. | Multi-objective reinforcement learning approach for improving safety at intersections with adaptive traffic signal control | |
Nie et al. | Real-time dynamic predictive cruise control for enhancing eco-driving of electric vehicles, considering traffic constraints and signal phase and timing (SPaT) information, using artificial-neural-network-based energy consumption model | |
Ye et al. | Development and evaluation of a vehicle platoon guidance strategy at signalized intersections considering fuel savings | |
CN106710215B (zh) | 瓶颈上游车道级交通状态预测系统及实现方法 | |
Lu et al. | A speed control method at successive signalized intersections under connected vehicles environment | |
CN111625989B (zh) | 一种基于a3c-sru的智能车汇入车流方法及系统 | |
CN114495499B (zh) | 一种多目标智能网联车辆协同优化控制方法 | |
CN116502529A (zh) | 一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法 | |
CN110956851A (zh) | 一种智能网联汽车协同调度换道方法 | |
CN113487857B (zh) | 一种区域多路口可变车道协同控制决策方法 | |
CN113867354A (zh) | 一种自动驾驶多车智能协同的区域交通流导引方法 | |
CN114074680B (zh) | 基于深度强化学习的车辆换道行为决策方法及系统 | |
Wang et al. | Effectiveness of driver's bounded rationality and speed guidance on fuel-saving and emissions-reducing at a signalized intersection | |
CN115056798A (zh) | 一种基于贝叶斯博弈的自动驾驶车辆换道行为车路协同决策算法 | |
CN113823076B (zh) | 一种基于联网车辆协调控制的即停即走路段缓堵方法 | |
CN117116064A (zh) | 一种基于深度强化学习的乘客延误最小化信号控制方法 | |
CN114701517A (zh) | 基于强化学习的多目标复杂交通场景下自动驾驶解决方法 | |
CN115083149A (zh) | 一种实时监测的强化学习可变时长信号灯控制方法 | |
Pan et al. | Research on multi-lane energy-saving driving strategy of connected electric vehicle based on vehicle speed prediction | |
Gu et al. | Mandatory Lane-Changing Decision-Making in Dense Traffic for Autonomous Vehicles based on Deep Reinforcement Learning | |
Nie et al. | An Improved Velocity Forecasts Method Considering the Speed and Following Distance of Two Vehicles | |
Wang et al. | A deep reinforcement learning-based approach for autonomous lane-changing velocity control in mixed flow of vehicle group level |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |