CN106157650A - 一种基于强化学习可变限速控制的快速道路通行效率改善方法 - Google Patents

一种基于强化学习可变限速控制的快速道路通行效率改善方法 Download PDF

Info

Publication number
CN106157650A
CN106157650A CN201610542934.7A CN201610542934A CN106157650A CN 106157650 A CN106157650 A CN 106157650A CN 201610542934 A CN201610542934 A CN 201610542934A CN 106157650 A CN106157650 A CN 106157650A
Authority
CN
China
Prior art keywords
speed limit
traffic flow
state
value
variable speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610542934.7A
Other languages
English (en)
Inventor
李志斌
刘攀
王炜
徐铖铖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201610542934.7A priority Critical patent/CN106157650A/zh
Publication of CN106157650A publication Critical patent/CN106157650A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • G08G1/0145Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于强化学习可变限速控制的快速道路通行效率改善方法。基于强化学习方法实时确定可变限速值,智能体依据交通流数据感知快速道路上交通流运行状态,针对当前状态选择一个限速值动作并计算该动作导致的状态转移的回报值,智能体遍历所有状态‑动作组合直到所有状态‑动作的回报值收敛,智能体离线习得不同交通流状态下的最优限速值动作。依据实时交通流数据智能体自主选择当前状态对应的最优限速值并发布,同时将控制后的交通流数据和限速值传回控制中心使智能体持续学习。本发明弥补了之前可变限速控制中交通流状态和限速值之间对应关系确定的主观随意性,提高了控制系统的抗干扰能力,通过智能体持续挖掘可变限速值对通行效率改善的影响规律,实现依据实时交通流数据对可变限速值进行反馈调节,有效提升了瓶颈路段可变限速控制下道路的通行效率。

Description

一种基于强化学习可变限速控制的快速道路通行效率改善 方法
技术领域
本发明属于智能交通和交通控制技术领域,具体涉及一种基于强化学习可变限速控制的快速道路通行效率改善方法。
背景技术
可变限速控制作为一种越来越被广泛用于改善快速道路通行效率的交通控制策略,其控制效果与可变限速值确定过程所采用的方法密切相关。强化学习作为一种闭环结构,通过控制效果对控制策略的反馈调节使智能体不断学习不同交通流状态下对应的最优限速值,有效提升了可变限速控制的效果和可变限速控制限速值的合理性。因此,基于强化学习的可变限速控制快速道路通行效率改善方法,可以通过强化学习使智能体掌握不同交通流运行状态下的最优限速值。
现有可变限速控制策略中不同交通流状态下对应的限速值的确定依赖于工程师经验主观确定,同时可变限速控制对交通流运行的影响与期望有差异,可能导致控制策略无法达到最优控制效果。本发明提出基于强化学习可变限速控制的快速道路通行效率改善方法,相比于现有的反馈方法和在线优化方法,本发明提出的方法具有依据新的交通环境与数据持续学习的能力,通过实际道路交通环境下的最优控制策略的持续更新有效提升可变限速控制效果。
发明内容
本发明要解决的问题是:以往针对瓶颈路段的可变限速控制策略中交通流状态和限速值之间的对应关系主要由工程师主观确定,缺乏对不同交通流状态下不同可变限速值控制效果的客观分析,缺乏不同交通流状态下不同限速值与其控制效果之间的数据信息的挖掘,导致可变限速控制中限速值的确定过程缺乏理论性,具有一定主观随意性。现有的在线优化方法下的控制系统抗干扰能力较差。本发明提出一种基于强化学习可变限速控制的快速道路通行效率改善方法,通过计算机智能体学习可变限速控制策略对通行效率改善的规律,确定不同交通流状态下具有最优控制效果的可变限速控制策略。克服之前可变限速控制中限速值确定过程的主观随意性,实现根据实际效果和交通流数据对最优可变限速控制策略进行反馈调节。
本发明技术方案为:
本发明提出一种基于强化学习可变限速控制的快速道路通行效率改善方法,基于实测交通流数据训练智能体掌握不同交通流运行状态下的最优限速值,据此在可变限速控制路段发布当前交通流状态下的最优限速值,采集可变限速控制后的限速值与交通流数据使智能体依据新的交通环境与数据持续学习,本方法对实际中通过可变限速控制策略有效提高快速道路通行效率具有重要意义。实例显示,本发明提出的可变限速控制方法有很好效果,能有效减少快速道路路段内系统通行时间,还能不断依据实际应用后的限速值与交通流数据持续学习最优策略。
附图说明
图1为快速道路瓶颈路段的可变限速控制策略流程图。
图2为主线交通流状态划分示意图。
图3为匝道交通流状态划分示意图。
图4为不同交通流密度对应的回报函数。
图5为算例中瓶颈路段示意图。
图6为算例流量-速度分布图。
具体实施方式
本发明是基于强化学习Q学习方法的基本原理和可变限速控制策略的基本流程提出针对瓶颈路段上游进行可变限速控制的策略,通过交通流检测器检测瓶颈路段及其上下游的交通流运行情况生成训练数据库,智能体通过离线学习掌握不同交通流状态下的最优可变限速值,在实际控制中智能体通过快速道路上实测交通流数据感知实时交通流状态,从知识库中选择当前状态对应的最优限速值对交通流进行动态调节,用控制实施后的交通流数据和限速值对智能体进行持续训练,基于强化学习可变限速控制的快速道路通行效率改善方法的流程图如图1所示。
第一步是确定快速道路瓶颈路段及可变限速控制路段范围,以合理间距设置交通流检测器,获取快速道路瓶颈路段一段时间内的真实交通流数据,在可变限速控制路段上游端设置可变限速指示牌,用于发布可变限速值。
第二步是基于实际交通流数据的变化范围及变化幅度确定强化学习方法中的交通流状态集和动作集。
状态集是将连续的交通流密度划分为若干离散密度区间,由于需要了解瓶颈路段及其上下游交通流信息,所以状态集应包括瓶颈位置上下游及匝道的密度信息。基于真实交通流数据绘制流量-速度分布图寻找瓶颈路段交通流的关键密度,在自由流、拥堵状态和关键密度附近分别对交通流状态进行划分。快速道路主线交通流状态划分的范围为2veh/m/ln~80veh/m/ln,由于交通流运行状态在关键密度附近变化较为敏感,故关键密度附近以2veh/m/ln为步长划分交通流状态,在自由流和拥堵流中以8veh/m/ln为步长划分交通流状态,划分结果如图2所示。快速道路匝道交通流状态划分的范围为5veh/m/ln~45veh/m/ln,关键密度附近以2.5veh/m/ln为步长划分交通流状态,在自由流和拥堵流中以5veh/m/ln为步长划分交通流状态,划分结果如图3所示。综上所述,强化学习方法中的状态集共包含13×13×11=1859种交通状态。
动作集是可变限速控制中的不同限速值,限速值应在路段允许的最高和最低限速值之间,即VSL∈{Vmin,Vmax},同时考虑到驾驶员对限速值的接受情况,发布的限速值取为5或10的整数倍。大量测试可知动作集中限速值的取值范围为20mph至65mph,选取步长定为5mph,因此动作集中元素为{20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph}。
第三步是基于提高快速道路通行效率这一目标设置强化学习中的回报函数。与无控情况相比,研究路段内总通行时间降低得越多表明策略越有效地提高了通行效率,由于瓶颈路段内总通行时间可以由瓶颈位置交通流量计算,且瓶颈位置交通流量可以由交通流密度计算,因此Q学习方法中回报函数依据路段交通流密度设置。假设各交通流密度对应的回报函数服从泊松分布,则回报函数表达式如下:
R ( s ) = μ g Pr ( X = s ) = μ g λ s e - λ s ! - - - ( 1 )
其中,R(s)为状态s对应的回报值,μ为决定回报值幅度的参数,缺省值为1×104,Pr(X=s)为状态s的概率函数,λ为泊松分布参数,缺省值为26.9辆/英里。
为加快强化学习收敛速度,对关键密度状态附近的交通流状态设置200额外奖励值,对严重拥堵状态设置200额外惩罚值,不同密度状态对应的回报函数如图4所示。
第四步是基于第一步中采集到的交通流和可变限速控制状态数据库训练智能体。
首先,初始化所有“状态-行为”对应的Q值为零,集计可变限速控制前后5分钟的交通流数据用于判断交通流状态转移。在Q学习每一个时间步中,基于集计的交通流数据观察当前环境状态,判断当前状态是否已执行20次动作选择,若不是,则强制智能体对每个状态尝试不同动作;若是,则采用softmax动作选择策略根据Q值确定当前状态下选择各动作的概率,策略为Q值越高动作选择中所占权重越大,该动作被选中的概率越大,具体计算公式如下:
P s ( a ) = e Q ( s , a ) / T Σ b ∈ A e Q ( s , a ) / T - - - ( 2 )
其中,
Ps(a)为在状态s下选择行动a的概率;
T为退火温度;
Qt(s,a)为当前时刻“状态-行为”对应的Q值。
其次,做出动作选择后,基于图4中所示的“状态-行为”的回报值,需要对各“状态-行为”组合的回报值Q进行更新,Q学习方法中按照下式调整Q值:
Qt+1(st,at)=Qt(st,at)+λt(st,at)×[Rt+1+γmaxQt(st,at)-Qt(st,at)] (3)
其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻对应的Q值,λt(st,at)(0<λ<1)是学习速率,γ为折扣因子(0<γ<1),折衷马上获得的与延迟获得的奖励。
本专利中对公式(3)进行简化,不考虑延迟获得的奖励,综合考虑模型运行效率和仿真准确性后,本专利采用下式更新Q值:
Qt+1(st,at)=Rt+1+0.8×max Qt(st+1,at+1) (4)
其中,
Qt+1(st,at)为t+1时刻对应的Q值;
Qt(st+1,at+1)为t时刻对应的Q值;
Rt+1为t+1时刻对应的回报函数值。
更新Q值后进入下一个学习时间步,循环上述过程直到Q值收敛,则每个状态下最大Q值对应的动作即为最优控制策略。
第五步是采用第四步中得到的各状态及其最大Q值对应的动作进行可变限速控制,基于当前交通流检测器采集到的5分钟的平均交通流密度判断当前交通流状态,采用智能体实时选择当前交通流状态下的最优限速值,将最优限速值传递至瓶颈位置上游可变限速控制指示牌发布限速值。
第六步是继续实时采集发布最优限速值后的交通流数据和限速值并传回控制系统,智能体依据新的交通流数据和限速值重复上述第四步到第五步持续学习最优控制策略。
下面结合附图对发明的可变限速控制方法进行了实例演示:
假设某一快速道路与匝道构成的瓶颈如图5所示,图中入口匝道与主线相交处为一瓶颈,在瓶颈位置上下游分别设置了交通流检测器1和2,匝道上设置了检测器3,在可变限速控制路段上游设置了可变限速控制指示牌。假设该路段一周内交通流检测器检测到的历史交通流数据如图6所示,则关键密度为30veh/m/ln左右。状态集中元素为包含检测器1,2,3的密度数据的状态向量,记为S(s1,s2,s3),动作集中元素为{20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph}。
将图6中的历史交通流数据库用于训练智能体,通过强化学习得到检测器1、2、3所得不同交通流状态排列组合得到的所有状态向量S对应的动作集中的最佳限速值。判断检测器1、2、3实时检测到的交通流数据对应的交通流状态s1,s2和s3,找到状态向量S(s1,s2,s3)对应的最优限速值为v,将v值传递至可变限速控制指示牌并发布信息“当前限速值为v,请小心驾驶”。同时,将当前时刻的最优可变限速值v和交通流状态S传回控制系统添加至训练数据库中。
据统计,无控制和可变限速控制下的快速道路内车辆总通行时间如表1所示,由表可知,在稳定需求下,可变限速控制下通行时间比无控情况减少了49.34%;在波动需求下,可变限速控制下通行时间比无控情况减少了21.84%。因此,基于强化学习方法的可变限速控制方法能有效改善瓶颈路段的通行效率。
表1 基于强化学习的可变限速控制效果
评价指标 无控制 可变限速控制
稳定需求情况下系统总通行时间(辆·小时) 193.20 97.88
稳定需求情况下系统总通行时间减少值(辆·小时) / 95.32
稳定需求情况下通行时间减少比例(%) / 49.34
波动需求情况下系统总通行时间(辆·小时) 118.17 92.36
波动需求情况下系统总通行时间减少值(辆·小时) / 25.80
波动需求情况下通行时间减少比例(%) / 21.84

Claims (6)

1.一种基于强化学习可变限速控制的快速道路通行效率改善方法,其特征是包括步骤:
1)确定快速道路瓶颈路段及可变限速控制路段范围,以合理间距设置交通流检测器,获取快速道路瓶颈路段一段时间内的真实交通流数据,在可变限速控制路段上游端设置可变限速指示牌,用于发布可变限速值;
2)确定强化学习方法中的交通流状态集和动作集,状态集包括瓶颈位置上下游及匝道的密度信息,因此交通流状态集中的每个元素是一个记录了瓶颈位置上下游及匝道的密度的状态向量S,在自由流、拥堵状态和关键密度附近分别对交通流状态进行划分;动作集为不同限速值,应在路段允许的最高和最低限速值之间,即VSL∈{Vmin,Vmax},同时考虑到驾驶员对限速值的接受情况,发布的限速值取为5或10的整数倍;
3)基于提高快速道路通行效率这一目标确定强化学习的著名算法Q学习算法中的回报函数,所述Q学习方法中回报函数依据路段交通流密度设置,假设各交通流密度对应的回报函数服从泊松分布,回报函数表达式如下:
R ( s ) = &mu; g Pr ( X = s ) = &mu; g &lambda; s e - &lambda; s !
其中,R(s)为状态s对应的回报值,μ为决定回报值幅度的参数,缺省值为1×104,Pr(X=s)为状态s的概率函数,λ为泊松分布参数,缺省值为26.9辆/英里;
4)基于步骤1)中采集到的交通流和可变限速控制状态数据库训练智能体,步骤包括:
401)初始化,Q学习中的参数Q值反映不同状态下选择不同动作的长期回报,初始状态下将所有“状态-行为”对应的Q值设置为零,将可变限速控制前后5分钟的数据集计后用于判断交通流状态的转移情况;
402)基于步骤401)中的初始化数据开始Q学习,在Q学习每一个时间步中,首先判断当前交通流状态,再判断当前状态是否已执行20次动作选择,若是,则进入步骤403);若不是则强制智能体尝试当前状态对应的不同动作实现“状态-行为”集的遍历,再进入步骤404);
403)采用softmax动作选择策略根据下式计算当前状态下选择各动作的概率:
P s ( a ) = e Q ( s , a ) / T &Sigma; b &Element; A e Q ( s , a ) / T
其中,Ps(a)为在状态s下选择行动a的概率,T为退火温度,Qt(s,a)为当前时刻“状态-行为”对应的Q值;
404)将步骤3)中计算得到的“状态-行为”回报值和步骤402)或步骤403)中做出的动作选择带入下式更新Q值:
Qt+1(st,at)=Rt+1+0.8×max Qt(st+1,at+1)
其中,
Qt+1(st,at)为t+1时刻对应的Q值,Qt(st+1,at+1)为t时刻对应的Q值,Rt+1为t+1时刻对应的回报函数值;
405)判断Q值是否收敛,若是则将每个状态下最大Q值对应的动作确定为最优控制策略;若不是,则返回步骤3)转入下一个时间步;
5)基于步骤405)中给出的最优可变限速控制策略,检测当前交通流检测器的数据并依据步骤2)确定的状态划分确定主线及匝道的交通流状态,采用训练后的智能体实时选择当前交通流状态下的最优限速值并传递至可变限速控制指示牌发布限速值;
6)实时采集步骤5)中发布最优限速值后的交通流数据和限速值并传回控制系统,智能体依据新的交通流数据和限速值重复步骤4)持续学习最优控制策略。
2.根据权利要求1所述的一种基于强化学习可变限速控制的快速道路通行效率改善方法,其特征是所述步骤2)中,快速道路主线交通流密度划分的范围为2veh/m/ln~80veh/m/ln,关键密度附近以2veh/m/ln为步长划分交通流状态,自由流和拥堵流中以8veh/m/ln为步长划分交通流状态。
3.根据权利要求1所述的一种基于强化学习可变限速控制的快速道路通行效率改善方法,其特征是所述步骤2)中,快速道路匝道交通流状态划分的范围为5veh/m/ln~45veh/m/ln,关键密度附近以2.5veh/m/ln为步长划分交通流状态,自由流和拥堵流中以5veh/m/ln为步长划分交通流状态。
4.根据权利要求1所述的一种基于强化学习可变限速控制的快速道路通行效率改善方法,其特征是所述步骤2)中,经过大量测试可知限速值的取值范围为20mph至65mph,选取步长定为5mph,因此动作集中元素为{20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph}。
5.根据权利要求1所述的一种基于强化学习可变限速控制的快速道路通行效率改善方法,其特征是所述步骤3)中,为加快强化学习收敛速度,确定回报函数时对关键密度状态附近的交通流状态设置200额外奖励值,对严重拥堵状态设置200额外惩罚值。
6.根据权利要求1所述的一种基于强化学习可变限速控制的快速道路通行效率改善方法,其特征是所述步骤404)中,采用的Q值更新的公式是综合考虑简化后的结果,Q学习方法中的Q值更新公式如下:
Qt+1(st,at)=Qt(st,at)+λt(st,at)×[Rt+1+γmaxQt(st,at)-Qt(st,at)]
其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻对应的Q值,λt(st,at)(0<λ<1)是学习速率,γ为折扣因子(0<γ<1),折衷马上获得的与延迟获得的奖励。
CN201610542934.7A 2016-07-11 2016-07-11 一种基于强化学习可变限速控制的快速道路通行效率改善方法 Pending CN106157650A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610542934.7A CN106157650A (zh) 2016-07-11 2016-07-11 一种基于强化学习可变限速控制的快速道路通行效率改善方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610542934.7A CN106157650A (zh) 2016-07-11 2016-07-11 一种基于强化学习可变限速控制的快速道路通行效率改善方法

Publications (1)

Publication Number Publication Date
CN106157650A true CN106157650A (zh) 2016-11-23

Family

ID=58062336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610542934.7A Pending CN106157650A (zh) 2016-07-11 2016-07-11 一种基于强化学习可变限速控制的快速道路通行效率改善方法

Country Status (1)

Country Link
CN (1) CN106157650A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106981197A (zh) * 2017-05-23 2017-07-25 招商局重庆交通科研设计院有限公司 多级路网交通速度控制方法
CN107367929A (zh) * 2017-07-19 2017-11-21 北京上格云技术有限公司 更新q值矩阵的方法、存储介质和终端设备
CN108476084A (zh) * 2016-12-02 2018-08-31 华为技术有限公司 Q学习中调整状态空间边界的方法和装置
CN109448402A (zh) * 2018-12-24 2019-03-08 成都四方伟业软件股份有限公司 匝道控制方法及装置
CN110147891A (zh) * 2019-05-23 2019-08-20 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备
CN110689402A (zh) * 2019-09-04 2020-01-14 北京三快在线科技有限公司 推荐商家的方法、装置、电子设备及可读存储介质
CN111127910A (zh) * 2019-12-18 2020-05-08 上海天壤智能科技有限公司 交通信号调节方法、系统及介质
CN111179601A (zh) * 2020-02-25 2020-05-19 青岛国信城市信息科技有限公司 隧道交通运行管控方法
CN111311913A (zh) * 2020-02-26 2020-06-19 清华大学 一种提高公路变窄路段通行效率的控制方法和系统
CN111860777A (zh) * 2020-07-06 2020-10-30 中国人民解放军军事科学院战争研究院 面向超实时仿真环境的分布式强化学习训练方法及装置
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112700642A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种利用智能网联车辆提高交通通行效率的方法
CN113192328A (zh) * 2021-04-23 2021-07-30 长安大学 一种道路运行风险防控系统及交通标识牌的协同布设方法
CN114141029A (zh) * 2021-11-25 2022-03-04 东南大学 基于线下强化学习与宏观模型的匝道控制方法
CN114241778A (zh) * 2022-02-23 2022-03-25 东南大学 高速公路网联车协同匝道汇入多目标优化控制方法和系统
CN114299714A (zh) * 2021-12-07 2022-04-08 东南大学 一种基于异策略强化学习的多匝道协调控制方法
CN114913684A (zh) * 2022-04-24 2022-08-16 东南大学 一种融合多模型与数据驱动的瓶颈路段交通流控制方法
CN115512537A (zh) * 2022-09-13 2022-12-23 中远海运科技股份有限公司 一种基于深度强化学习算法的高速公路监控方法及系统
CN115830887A (zh) * 2023-02-14 2023-03-21 武汉智安交通科技有限公司 一种自适应交通信号控制方法、系统及可读存储介质
EP4209963A1 (en) 2022-01-11 2023-07-12 Ford Global Technologies, LLC Method for autonomous driving of a vehicle, a data processing circuit, a computer program, and a computer-readable medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938203A (zh) * 2012-11-06 2013-02-20 江苏大为科技股份有限公司 基于基本交通流参数的道路拥挤状态自动判别方法
KR20150018223A (ko) * 2013-08-09 2015-02-23 재단법인대구경북과학기술원 실시간 교통정보를 이용하는 가변 제한속도 표시 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938203A (zh) * 2012-11-06 2013-02-20 江苏大为科技股份有限公司 基于基本交通流参数的道路拥挤状态自动判别方法
KR20150018223A (ko) * 2013-08-09 2015-02-23 재단법인대구경북과학기술원 실시간 교통정보를 이용하는 가변 제한속도 표시 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李志斌: "快速道路可变限速控制技术", 《万方数据》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108476084A (zh) * 2016-12-02 2018-08-31 华为技术有限公司 Q学习中调整状态空间边界的方法和装置
CN108476084B (zh) * 2016-12-02 2020-05-08 华为技术有限公司 Q学习中调整状态空间边界的方法和装置
CN106981197A (zh) * 2017-05-23 2017-07-25 招商局重庆交通科研设计院有限公司 多级路网交通速度控制方法
CN107367929A (zh) * 2017-07-19 2017-11-21 北京上格云技术有限公司 更新q值矩阵的方法、存储介质和终端设备
CN109448402B (zh) * 2018-12-24 2021-02-09 成都四方伟业软件股份有限公司 匝道控制方法及装置
CN109448402A (zh) * 2018-12-24 2019-03-08 成都四方伟业软件股份有限公司 匝道控制方法及装置
CN110147891A (zh) * 2019-05-23 2019-08-20 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备
CN110689402A (zh) * 2019-09-04 2020-01-14 北京三快在线科技有限公司 推荐商家的方法、装置、电子设备及可读存储介质
CN111127910A (zh) * 2019-12-18 2020-05-08 上海天壤智能科技有限公司 交通信号调节方法、系统及介质
CN111179601A (zh) * 2020-02-25 2020-05-19 青岛国信城市信息科技有限公司 隧道交通运行管控方法
CN111311913A (zh) * 2020-02-26 2020-06-19 清华大学 一种提高公路变窄路段通行效率的控制方法和系统
CN111311913B (zh) * 2020-02-26 2021-09-03 清华大学 一种提高公路变窄路段通行效率的控制方法和系统
CN111860777A (zh) * 2020-07-06 2020-10-30 中国人民解放军军事科学院战争研究院 面向超实时仿真环境的分布式强化学习训练方法及装置
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112289044B (zh) * 2020-11-02 2021-09-07 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112700642A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种利用智能网联车辆提高交通通行效率的方法
CN113192328A (zh) * 2021-04-23 2021-07-30 长安大学 一种道路运行风险防控系统及交通标识牌的协同布设方法
CN114141029A (zh) * 2021-11-25 2022-03-04 东南大学 基于线下强化学习与宏观模型的匝道控制方法
CN114141029B (zh) * 2021-11-25 2022-11-18 东南大学 基于线下强化学习与宏观模型的匝道控制方法
CN114299714A (zh) * 2021-12-07 2022-04-08 东南大学 一种基于异策略强化学习的多匝道协调控制方法
CN114299714B (zh) * 2021-12-07 2022-12-27 东南大学 一种基于异策略强化学习的多匝道协调控制方法
EP4209963A1 (en) 2022-01-11 2023-07-12 Ford Global Technologies, LLC Method for autonomous driving of a vehicle, a data processing circuit, a computer program, and a computer-readable medium
CN114241778A (zh) * 2022-02-23 2022-03-25 东南大学 高速公路网联车协同匝道汇入多目标优化控制方法和系统
CN114913684A (zh) * 2022-04-24 2022-08-16 东南大学 一种融合多模型与数据驱动的瓶颈路段交通流控制方法
CN115512537A (zh) * 2022-09-13 2022-12-23 中远海运科技股份有限公司 一种基于深度强化学习算法的高速公路监控方法及系统
CN115830887A (zh) * 2023-02-14 2023-03-21 武汉智安交通科技有限公司 一种自适应交通信号控制方法、系统及可读存储介质

Similar Documents

Publication Publication Date Title
CN106157650A (zh) 一种基于强化学习可变限速控制的快速道路通行效率改善方法
CN106128095A (zh) 一种快速道路孤立瓶颈路段的可变限速控制方法
CN103578273B (zh) 一种基于微波雷达数据的道路交通状态估计方法
Taylor et al. Fuzzy ramp metering: Design overview and simulation results
CN106710215B (zh) 瓶颈上游车道级交通状态预测系统及实现方法
Murat Comparison of fuzzy logic and artificial neural networks approaches in vehicle delay modeling
CN100533475C (zh) 基于粒子群算法的交通信号离线配时优化方法
CN103324085A (zh) 基于监督式强化学习的最优控制方法
JPH08503317A (ja) 交通パラメータの予測方法
Han et al. A new reinforcement learning-based variable speed limit control approach to improve traffic efficiency against freeway jam waves
CN103496368A (zh) 具有学习能力的汽车协同式自适应巡航控制系统及方法
CN113487857B (zh) 一种区域多路口可变车道协同控制决策方法
Selten et al. Experimental investigation of day-to-day route-choice behaviour and network simulations of autobahn traffic in North Rhine-Westphalia
CN105047057A (zh) 一种考虑多驾驶员类型和车道选择偏好的高快速路网宏观交通流仿真方法
CN113947929A (zh) 一种针对高速公路改扩建连续施工区的可变限速控制方法
Han et al. New extended discrete first-order model to reproduce propagation of jam waves
Vrbanić et al. Reinforcement learning based variable speed limit control for mixed traffic flows
Matsui et al. Travel time prediction for freeway traffic information by neural network driven fuzzy reasoning
Khamis et al. Adaptive traffic control system based on Bayesian probability interpretation
Yang et al. Eco-driving strategies using reinforcement learning for mixed traffic in the vicinity of signalized intersections
Gregurić et al. The use of cooperative approach in ramp metering
Zhang et al. Stability and safety analysis of mixed traffic flow considering network function degradation and platoon driving on the road with a slope
CN116893681A (zh) 基于场景风格迁移与sac网络协同的单车控制方法
CN115512537A (zh) 一种基于深度强化学习算法的高速公路监控方法及系统
CN114913684A (zh) 一种融合多模型与数据驱动的瓶颈路段交通流控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123