CN114913684B - 一种融合多模型与数据驱动的瓶颈路段交通流控制方法 - Google Patents

一种融合多模型与数据驱动的瓶颈路段交通流控制方法 Download PDF

Info

Publication number
CN114913684B
CN114913684B CN202210458554.0A CN202210458554A CN114913684B CN 114913684 B CN114913684 B CN 114913684B CN 202210458554 A CN202210458554 A CN 202210458554A CN 114913684 B CN114913684 B CN 114913684B
Authority
CN
China
Prior art keywords
highway
traffic
section
traffic flow
road section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210458554.0A
Other languages
English (en)
Other versions
CN114913684A (zh
Inventor
李志斌
李戈阳
黎萌
秦思行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210458554.0A priority Critical patent/CN114913684B/zh
Publication of CN114913684A publication Critical patent/CN114913684A/zh
Application granted granted Critical
Publication of CN114913684B publication Critical patent/CN114913684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Atmospheric Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种融合多模型与数据驱动的瓶颈路段交通流控制方法,在高速公路常发孤立瓶颈路段架设检测设备用于采集实时交通流数据并在瓶颈上游设置信息板发布可变限速信息。设置适应值函数来挖掘控制效果最优的积分参数KI和微分参数KD。训练强化学习智能体接收实时交通流数据和优化后的PID参数KI、KD,生成最优的比例参数KP。当发生交通拥堵时,将拥堵信息反馈至PID控制器,基于KP、KI和KD值组成关键控制参数生成路段限速值,通过信息板调整高速公路内各区段车速。本发明有效提高高速公路瓶颈路段可变限速控制系统的鲁棒性,对于快速缓解交通拥堵,改善通行能力以及提高控制系统在突发状况下的有效性具有重要作用。

Description

一种融合多模型与数据驱动的瓶颈路段交通流控制方法
技术领域
本发明属于智能交通技术领域,特别是涉及到一种融合多模型与数据驱动的瓶颈路段交通流控制方法、
背景技术
随着机动车保有量的不断增加,如何使有限的高速公路资源得到充分利用成为了亟需解决的难题。当前,主动交通管控技术的发展为提高高速公路的通行效率做出了重要贡献。可变限速控制作为主动交通管控技术的一种已经被广泛应用到高速公路上,当高速公路上交通流出现拥堵时,可变限速控制技术基于一定控制策略自动调整当前限速值,并通过可变情报板将限速信息实时发布给道路使用者,从而实现对高速公路交通流的主动干预,以达到改善交通流运行效率、缓解交通拥堵、提升行车安全等目的。
近年来有越来越多的针对高速公路瓶颈路段可变限速的研究,现有的大部分可变限速控制方法是通过在瓶颈上游路段处安装可变情报板对限速值进行调整,从而达到减少拥堵和通行能力的下降以及提高通行效率的目的。但是上游控制路段采取的行为对下游瓶颈路段所存在的时间迟滞效应使得可变限速控制效果降低,虽然PID控制能够一定程度上解决迟滞性,但传统的PID控制参数的确定依赖专家经验,控制效果具有主观随意性。因此如何针对波动性大的交通流状况做出精准快速且有效的限速调整从而得到一个适应性广、抗干扰性强的可变限速控制系统是值得关注的重点。
通行能力较小且波动性较大的下游路段是制约高速公路通行能力的一个重要因素,且上游路段的限速行为对下游瓶颈路段的作用的迟滞性也会进一步影响通行能力,严重的甚至会引发交通拥堵。虽然PID算法与可变限速的结合对解决高速公路瓶颈路段的拥堵有一定的帮助,但是由于PID算法的结构与参数比较固定,不能根据实时的交通流状况变化对限速值进行及时的调整,对高速公路瓶颈路段的拥堵排队响应慢
发明内容
为了解决上述背景技术提到的技术问题,本发明提出一种融合多模型与数据驱动的瓶颈路段交通流控制方法,引入改进粒子群算法迅速寻找全局最优的PID参数KI、KD达到减少超调和快速收敛的目的,在此基础上,结合强化学习训练智能体学习到一套在高速公路各种交通流状况下能够根据输入与实际输出的偏差对PID参数KP进行快速精准调优的策略。
为了实现上述技术目的,本发明的技术方案为:
一种融合多模型与数据驱动的瓶颈路段交通流控制方法,包括以下步骤:
步骤一:对高速公路进行路段划分,在具有瓶颈路段的高速公路上布设雷视一体化检测设备实时测量高速公路各路段的交通数据,具体包括交通流占有率、车辆加速度、车辆平均速度和平均车头时距,将这些数据传输至PID控制器,计算高速公路多目标通行指标Y,并在高速公路瓶颈上游控制区域设置可变情报信息板;
步骤二:基于改进粒子群算法,利用粒子对PID控制器中的积分参数KI和微分参数KD依次赋值,针对不同拥堵等级调整动态惯性权重从而更新粒子的速度和位置,并根据设置的满足高速公路可变限速系统快速响应特性和超调小需求的适应值函数来找到粒子群中适应度最佳的粒子所对应的KI和KD参数;
步骤三:使用深度确定性策略梯度DDPG强化学习算法,根据步骤二所得优化后的PID参数KI和KD以及雷视一体化检测设备采集的高速公路各路段的交通流占有率和平均车头时距作为状态空间的输入;根据高速公路各路段车辆执行限速值的滞后时间以及天气条件参数设置动作空间以增加PID比例参数KP的探索度,通过与高速公路可变限速环境的交互以及奖励函数的引导使得智能体学习到在高速公路各种交通流状况下能够对PID参数KP进行调优的策略;
步骤四:当发生交通拥堵时,将拥堵信息反馈至PID控制器,基于改进粒子群算法和强化学习融合调参后的PID控制参数KP、KI、KD组合成控制项并通过预期高速公路多目标通行指标与实际高速公路多目标通行指标的误差eY(k)来计算路段限速值,通过可变情报信息板调整k时刻高速公路内各区段车速v(k)。
优选地,步骤二所述不同拥堵等级的具体划分如下:
当满足oa>30%且va<80km/h时为一级拥堵;当满足oa>30%且va<70km/h时为二级拥堵;其中,oa为高速公路各路段实时交通流占有率,va为检测到的高速公路各路段实时速度。
优选地,步骤二所述改进粒子群算法中动态惯性权重wd设置为;
Figure BDA0003619613620000031
式中,Tnow是当前迭代次数,Tmax是最大迭代次数,wstart是初始权重,wend是终止权重;当满足一级拥堵等级时,λ>1;当满足二级拥堵等级时,λ=1;在拥堵严重时,增加惯性权重扩大粒子的探寻范围以获取全局最优值。
优选地,所述步骤四中v(k)由如下公式确定:
Figure BDA0003619613620000032
Figure BDA0003619613620000033
Figure BDA0003619613620000034
式中,Y是高速公路多目标通行指标;
Figure BDA0003619613620000035
为k时刻预期要达到的高速公路多目标通行指标,
Yvsl(k)为k时刻实际的高速公路多目标通行指标,ε是高速公路拥堵等级,t是高速公路控制周期,q是各路段交通流量,d是各路段交通流密度,o是各路段交通流占有率,l是各路段排队长度。
优选地,所述步骤三中利用强化学习对PID参数KP进行调参优化步骤如下:(1)对强化学习方法所涉及的状态空间进行设置,将高速公路路段划分成3个区域,分别为可变限速控制区域、过渡区域以及下游瓶颈路段区域;基于此,强化学习状态输入为s=[适应度最佳粒子所对应的KI参数,适应度最佳粒子所对应的KD参数,o1=可变限速控制区域的交通流占有率,o2=过渡区域的交通流占有率,o3=下游瓶颈路段区域的交通流占有率,l1=可变限速控制区域的平均车头时距,l2=过渡区域的平均车头时距,l3=下游瓶颈路段区域的平均车头时距];
(2)对强化学习方法所涉及的动作空间进行设置,设定优化约束如下:
Figure BDA0003619613620000041
其中,T和V与路况、车况、天气条件有关,并且是随时间不断变化的,V表示控制区域内所有车辆速度的加权平均值,T表示控制区域内车辆执行路段限速值的滞后时间,T和V由如下公式确定:
Figure BDA0003619613620000042
Figure BDA0003619613620000043
Figure BDA0003619613620000044
其中Vi a表示控制区域内车辆i的实际速度,Vi u表示控制区域内车辆i的所需执行的限速值,n表示控制区域内的所有车辆数,Ti是控制区域内车辆驾驶员的反应时间和制动时间,εi是车辆i受到来自外界因素的干扰因素,如果车辆不受干扰地行驶εi取0,否则εi视情况取0.1-0.3;
(3)对强化学习所涉及的奖励函数进行设置,引导智能体训练出根据不同的交通流状态得到更适合的KP参数,奖励函数为:
R=-10*eY(k)-l
其中,eY(k)是k时刻预期要达到的高速公路通行指标与实际高速公路通行指标的差值,l是各路段排队长度。
采用上述技术方案带来的有益效果:
本发明是针对具有瓶颈路段的高速公路的可变限速控制,一种融合多模型与数据驱动的优化方法用于解决具有迟滞性、非线性的控制系统的PID参数整定繁琐、抗干扰性差等问题,可以实现精准快速整定和优化控制器参数。通过在高速公路上等距离布设雷视一体化检测设备所获得的交通流信息,对高速公路拥堵状况进行研判,基于智能体在各种交通流状况下所学习到的一套在高速公路各种交通流状况下能够根据输入与实际输出的偏差对PID参数KP进行快速精准调优的策略,同时引入粒子群算法迅速寻找全局最优的PID参数KI、KD。这种多技术融合调参的方法能够克服根据专家经验确定PID参数的主观随意性,增强在一些极端条件下控制系统对交通流的限速控制的有效性,既能减少超调快速响应高速公路可变限速的需求又极大增强了整个控制系统的抗干扰性,实现对根据高速公路实际的通行能力和拥堵情况进行有效的实时反馈调节。融合优化后的智能PID控制器通过可变情报板实时发布路段限速值,控制车辆进入高速公路的车流量,这对于快速缓解交通拥堵,改善通行能力以及提高控制系统在突发状况下的有效性具有重要作用。
附图说明
图1是本发明的高速公路瓶颈路段的可变限速控制流程图;
图2是本发明的改进粒子群算法优化PID参数KI、KD示意图;
图3是本发明的强化学习优化PID参数KP示意图;
图4是本发明的结合改进粒子群算法和强化学习融合调参的PID可变限速控制器结构图;
图5是本发明的雷视一体化检测设备和可变情报信息板的设置方法示意图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
如图1所示的一种融合多模型与数据驱动的瓶颈路段交通流控制方法,包括如下步骤:
步骤一:对高速公路常发孤立瓶颈路段进行划分,设置雷视一体化检测设备实时测量高速公路各路段的交通数据,计算高速公路多目标通行指标Y,并在高速公路瓶颈上游控制区域设置可变情报信息板。
步骤二:基于改进粒子群算法,利用粒子对PID控制器中的积分参数KI和微分参数KD依次赋值,针对不同拥堵等级调整惯性权重从而更新粒子的速度和位置,并根据设置的满足高速公路可变限速系统快速响应特性和超调小需求的适应值函数来找到粒子群中适应度最佳的粒子所对应的KI、KD参数。动态惯性权重wd可以设置为:
Figure BDA0003619613620000061
式中,Tnow是当前迭代次数,Tmax是最大迭代次数,wstart是初始权重,wend是终止权重;当满足一级拥堵等级时,λ>1;当满足二级拥堵等级时,λ=1。在拥堵严重时,增加惯性权重扩大粒子的探寻范围以获取全局最优值。
步骤三:使用深度确定性策略梯度(DDPG)强化学习算法,根据步骤二所得优化后的PID参数KI、KD以及雷视一体化检测设备采集的高速公路各路段的交通流占有率、车头时距作为状态空间的输入;根据高速公路各路段车辆执行限速值的滞后时间以及天气条件等参数设置灵活且较大范围的动作空间以增加PID比例参数KP的探索度。通过与高速公路可变限速环境的交互,在奖励函数的引导下使得智能体学习到一套在高速公路各种交通流状况下能够对PID参数KP进行快速精准调优的策略。
步骤四:当发生交通拥堵时,将拥堵信息反馈至PID控制器,基于改进粒子群算法和强化学习融合调参后的PID控制参数KP、KI、KD组合成控制项并通过预期高速公路多目标通行指标与实际高速公路多目标通行指标的误差eY(k)来计算路段限速值,通过可变情报信息板调整k时刻高速公路内各区段车速v(k)。v(k)由如下公式确定:
Figure BDA0003619613620000062
Figure BDA0003619613620000063
/>
Figure BDA0003619613620000064
式中,Y是高速公路多目标通行指标,ε是高速公路拥堵等级,t是高速公路控制周期,q是各路段交通流量,d是各路段交通流密度,o是各路段交通流占有率,l是各路段排队长度。
实施例:
所述步骤一中确定高速公路瓶颈路段以及可变限速控制范围,布设雷视一体化检测设备获取高速公路交通流数据,具体包括:
a1、如图5所示在具有瓶颈路段的高速公路上布设雷视一体化检测设备,并对高速公路进行路段划分,每个路段的划分间隔为1km,并按照从上游到下游的方向对各路段编号为i=1,2,3,…,每个路段均需布设雷视一体化检测设备。
a2、将雷视一体化检测设备检测到的各个路段的交通流占有率、车辆加速度、车辆平均速度和平均车头时距等数据通过无线传输设备输入至PID控制器。
如图2所示,步骤二中所述的利用改进粒子群算法对PID参数KI、KD进行调参优化具体包括:
a1、设置粒子群位置Xi=(xi1,xi2),i=1,2,……,N,特别地,每个粒子位置由两个优化变量组成,分别为PID控制器的积分参数KI和微分参数KD,N为种群粒子数量。
a2、为了满足高速公路可变限速系统响应快和合理限速的特点,并尽可能降低系统超调,将适应值函数设置为:
Figure BDA0003619613620000071
其中,v(k)是系统的输出信号,eY(k)是系统的误差信号,ε1~ε2是权重系数
Figure BDA0003619613620000072
o是高速公路各路段交通流占有率均值,Tmax粒子群算法的最大迭代次数,式中第二项是为了防止超调。
a3、在适应值函数的引导下各粒子在每一维度范围内进行寻优,从而更新个体极值和全局最优值,改进的粒子群算法基于不同拥堵状态下对粒子的位置和速度进行更新。改进的更新公式如下所示:
Figure BDA0003619613620000073
Figure BDA0003619613620000081
Figure BDA0003619613620000082
a4、若计算出的适应值收敛或者达到设定的最大迭代次数,则算法结束并将最终的全局最优值所对应粒子的KI、KD作为最佳控制参数输出,否则返回到第二步重新计算直到输出最佳的KI、KD参数为止。
可选地,在python中利用粒子群算法对PID参数KI、KD依次赋值并求取优化后的PID参数KI、KD
如图3所示,所述步骤三中利用强化学习对PID参数KP进行调参优化具体包括:
a1、对强化学习方法所涉及的状态空间进行设置,将高速公路路段划分成3个区域,分别为可变限速控制区域、过渡区域以及下游瓶颈路段区域。基于此,强化学习状态输入为s=[适应度最佳粒子所对应的KI参数,适应度最佳粒子所对应的KD参数,o1=可变限速控制区域的交通流占有率,o2=过渡区域的交通流占有率,o3=下游瓶颈路段区域的交通流占有率,l1=可变限速控制区域的平均车头时距,l2=过渡区域的平均车头时距,l3=下游瓶颈路段区域的平均车头时距]。
a2、对强化学习方法所涉及的动作空间进行设置,在智能体学到一个成熟的优化策略前,考虑到整个优化系统性能实际可行性,根据经验人为设定优化约束如下:
Figure BDA0003619613620000083
特别地,当aP过大时,在优化过程中需要对动作空间进行修剪,将其限制在15以内。
其中,T和V与路况、车况、天气条件等条件有关,并且是随时间不断变化的,V表示控制区域内所有车辆速度的加权平均值,T表示控制区域内车辆执行路段限速值的滞后时间,T、K由如下公式确定:
Figure BDA0003619613620000091
Figure BDA0003619613620000092
Figure BDA0003619613620000093
其中,其中ai表示控制区域内车辆i的实际速度,ui表示控制区域内车辆i的所需执行的限速值,n表示控制区域内的所有车辆数,Ti是控制区域内车辆驾驶员的反应时间和制动时间,驾驶员的反应时间和车辆的制动性能无关,一般为0.4-1s,车辆的制动响应时间为0.3-0.6s,εi是车辆i受到来自外界因素的干扰因素,例如恶劣天气和交通事故等,如果车辆不受干扰地行驶ε取0,否则ε视情况取0.1-0.3。
a3、对强化学习所涉及的奖励函数进行设置,引导智能体训练出根据不同的交通流状态迅速得到更适合的KP参数,奖励函数为:
R=-10*eY(k)-l
步骤三中,可选地,强化学习的交互训练过程在仿真平台sumo上进行。在仿真平台上初始化高速公路可变限速环境,包括车道数,瓶颈设置,车道长度,车流量,车辆速度等,并布设检测设备和可变情报板。开始限速仿真后基当前交通状态选择KP的值,获取奖励值,并更新神经网络参数。在sumo中多回合重复仿真训练,直到最后收敛到一个比较理想且稳定的情况。
如图4所示,所述步骤四中结合改进粒子群算法和强化学习融合调参的PID控制器的搭建具体包括:
a1、检测设备实时获取各路段的交通流数据,当满足oa>30%且va<80km/h,则该路段发生交通拥堵,并进一步判别拥堵等级;否则继续监视。
其中,oa为高速公路各路段实时交通流占有率,va为检测到的高速公路各路段实时速度。
a2、将出现的拥堵排队信息迅速反馈至PID控制平台,利用改进粒子群算法和强化学习算法融合调参后的PID参数组成控制项,计算出当前路段的限速值以控制进入瓶颈路段的车流量。
a3、通过无线传输设备将v值传输给可变情报板并发布信息:“驾驶员请注意,当前的限速值为v”。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (1)

1.一种融合多模型与数据驱动的瓶颈路段交通流控制方法,其特征在于,包括以下步骤:
步骤一:对高速公路进行路段划分,在具有瓶颈路段的高速公路上布设雷视一体化检测设备实时测量高速公路各路段的交通数据,具体包括交通流占有率、车辆加速度、车辆平均速度和平均车头时距,将这些数据传输至PID控制器,计算高速公路多目标通行指标Y,并在高速公路瓶颈上游控制区域设置可变情报信息板;
步骤二:基于改进粒子群算法,利用粒子对PID控制器中的积分参数KI和微分参数KD依次赋值,针对不同拥堵等级调整动态惯性权重从而更新粒子的速度和位置,并根据设置的满足高速公路可变限速系统快速响应特性和超调小需求的适应值函数来找到粒子群中适应度最佳的粒子所对应的KI和KD参数;步骤二所述不同拥堵等级的具体划分如下:
当满足oa>30%且va<80km/h时为一级拥堵;当满足oa>30%且va<70km/h时为二级拥堵;其中,oa为高速公路各路段实时交通流占有率,va为检测到的高速公路各路段实时速度;
步骤二所述改进粒子群算法中动态惯性权重wd设置为;
Figure FDA0004191284680000011
式中,Tnow是当前迭代次数,Tmax是最大迭代次数,wstart是初始权重,wend是终止权重;当满足一级拥堵等级时,λ>1;当满足二级拥堵等级时,λ=1;在拥堵严重时,增加惯性权重扩大粒子的探寻范围以获取全局最优值;
步骤三:使用深度确定性策略梯度DDPG强化学习算法,根据步骤二所得优化后的PID参数KI和KD以及雷视一体化检测设备采集的高速公路各路段的交通流占有率和平均车头时距作为状态空间的输入;根据高速公路各路段车辆执行限速值的滞后时间以及天气条件参数设置动作空间以增加PID比例参数KP的探索度,通过设计的奖励函数的引导使得强化学习智能体学习到在高速公路不同交通流状况下能够对PID参数KP进行调优的策略;所述步骤三中利用强化学习对PID参数KP进行调参优化步骤如下:
(1)对强化学习方法所涉及的状态空间进行设置,将高速公路路段划分成3个区域,分别为可变限速控制区域、过渡区域以及下游瓶颈路段区域;基于此,强化学习状态输入为s=[适应度最佳粒子所对应的KI参数,适应度最佳粒子所对应的KD参数,o1=可变限速控制区域的交通流占有率,o2=过渡区域的交通流占有率,o3=下游瓶颈路段区域的交通流占有率,l1=可变限速控制区域的平均车头时距,l2=过渡区域的平均车头时距,l3=下游瓶颈路段区域的平均车头时距];
(2)对强化学习方法所涉及的动作空间进行设置,设定优化约束如下:
Figure FDA0004191284680000021
其中,T和V与路况、车况、天气条件有关,并且是随时间不断变化的,V表示控制区域内所有车辆速度的加权平均值,T表示控制区域内车辆执行路段限速值的滞后时间,T和V由如下公式确定:
Figure FDA0004191284680000022
/>
Figure FDA0004191284680000023
Figure FDA0004191284680000024
其中
Figure FDA0004191284680000026
表示控制区域内车辆i的实际速度,/>
Figure FDA0004191284680000025
表示控制区域内车辆i的所需执行的限速值,n表示控制区域内的所有车辆数,Ti是控制区域内车辆驾驶员的反应时间和制动时间,εi是车辆i受到来自外界因素的干扰因素,如果车辆不受干扰地行驶εi取0,否则εi视情况取0.1-0.3;
(3)对强化学习所涉及的奖励函数进行设置,引导智能体训练出根据不同的交通流状态得到更适合的KP参数,奖励函数为:
R=-10*eY(k)-l
其中,eY(k)是k时刻预期要达到的高速公路通行指标与实际高速公路通行指标的差值,l是各路段排队长度;
步骤四:当发生交通拥堵时,将拥堵信息反馈至PID控制器,基于改进粒子群算法和强化学习调参后的PID控制参数KP、KI、KD组合成控制项并通过预期高速公路多目标通行指标与实际高速公路多目标通行指标的误差eY(k)来计算路段限速值,通过可变情报信息板调整k时刻高速公路内各区段车速v(k);所述步骤四中v(k)由如下公式确定:
Figure FDA0004191284680000031
Figure FDA0004191284680000032
Figure FDA0004191284680000033
式中,Y是高速公路多目标通行指标;
Figure FDA0004191284680000034
为k时刻预期要达到的高速公路多目标通行指标,Yvsl(k)为k时刻实际的高速公路多目标通行指标,ε是高速公路拥堵等级,t是高速公路控制周期,q是各路段交通流量,d是各路段交通流密度,o是各路段交通流占有率,l是各路段排队长度。/>
CN202210458554.0A 2022-04-24 2022-04-24 一种融合多模型与数据驱动的瓶颈路段交通流控制方法 Active CN114913684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210458554.0A CN114913684B (zh) 2022-04-24 2022-04-24 一种融合多模型与数据驱动的瓶颈路段交通流控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210458554.0A CN114913684B (zh) 2022-04-24 2022-04-24 一种融合多模型与数据驱动的瓶颈路段交通流控制方法

Publications (2)

Publication Number Publication Date
CN114913684A CN114913684A (zh) 2022-08-16
CN114913684B true CN114913684B (zh) 2023-05-26

Family

ID=82763870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210458554.0A Active CN114913684B (zh) 2022-04-24 2022-04-24 一种融合多模型与数据驱动的瓶颈路段交通流控制方法

Country Status (1)

Country Link
CN (1) CN114913684B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512537A (zh) * 2022-09-13 2022-12-23 中远海运科技股份有限公司 一种基于深度强化学习算法的高速公路监控方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105931460A (zh) * 2016-05-13 2016-09-07 东南大学 一种快速道路连续瓶颈路段的可变限速控制策略优化方法
CN106021814B (zh) * 2016-06-13 2019-05-21 东南大学 一种面向通行效率改善的可变限速优化控制方法
CN106128095A (zh) * 2016-06-13 2016-11-16 东南大学 一种快速道路孤立瓶颈路段的可变限速控制方法
CN105913675A (zh) * 2016-07-11 2016-08-31 东南大学 一种同时面向通行效率改善与交通安全提升的多目标可变限速控制方法
CN106157650A (zh) * 2016-07-11 2016-11-23 东南大学 一种基于强化学习可变限速控制的快速道路通行效率改善方法
CN112733448B (zh) * 2021-01-07 2023-03-03 北京理工大学 列车自动驾驶系统参数自学习双q表联合代理建立方法
CN113682312B (zh) * 2021-09-23 2023-07-25 中汽创智科技有限公司 一种融合深度强化学习的自主换道方法及系统

Also Published As

Publication number Publication date
CN114913684A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN107577234B (zh) 一种驾驶员在环的汽车燃油经济性控制方法
CN107554524B (zh) 一种基于主观危险感知的跟驰模型稳定性控制方法
Kamal et al. Smart driving of a vehicle using model predictive control for improving traffic flow
CN110070732B (zh) 一种基于实时仿真的匝道信号前馈控制方法及系统
Li et al. Ecological adaptive cruise control for vehicles with step-gear transmission based on reinforcement learning
CN113591269B (zh) 基于交通仿真的拥堵路段智能网联车辆专用道控制方法
CN102109821A (zh) 车辆自适应巡航控制系统及方法
CN112201033B (zh) 一种道路交通运行主动管控策略选择方法
CN114913684B (zh) 一种融合多模型与数据驱动的瓶颈路段交通流控制方法
CN111028504A (zh) 一种城市快速路智慧交通管控方法和系统
Zhang et al. A cruise control method for connected vehicle systems considering side vehicles merging behavior
Chen et al. Car-following model of connected and autonomous vehicles considering both average headway and electronic throttle angle
Yang et al. An adaptive cruise control method based on improved variable time headway strategy and particle swarm optimization algorithm
CN113741464B (zh) 一种基于时空数据强化学习的自动驾驶速度控制框架
CN114802306A (zh) 一种基于人机共驾理念的智能车辆集成式决策系统
CN109064760B (zh) 一种数据驱动的智能鲁棒车速实时规划方法及系统
Zhang et al. An improved car-following model based on multiple preceding vehicles under connected vehicles environment
Zhang et al. Stability and safety analysis of mixed traffic flow considering network function degradation and platoon driving on the road with a slope
CN116176654A (zh) 一种场景自适应的轨道交通ato控制系统
Wu et al. An optimal longitudinal control strategy of platoons using improved particle swarm optimization
Farag et al. Reinforcement learning based approach for multi-vehicle platooning problem with nonlinear dynamic behavior
Dabiri et al. Personalised optimal speed advice to cyclists approaching an intersection with uncertain green time
CN108839655A (zh) 一种基于最小安全车距的协同式自适应控制方法
Hua A new car-following model considering recurrent neural network
Dong et al. Lane-changing trajectory control strategy on fuel consumption in an iterative learning framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant