CN114141029B - 基于线下强化学习与宏观模型的匝道控制方法 - Google Patents

基于线下强化学习与宏观模型的匝道控制方法 Download PDF

Info

Publication number
CN114141029B
CN114141029B CN202111412067.2A CN202111412067A CN114141029B CN 114141029 B CN114141029 B CN 114141029B CN 202111412067 A CN202111412067 A CN 202111412067A CN 114141029 B CN114141029 B CN 114141029B
Authority
CN
China
Prior art keywords
reinforcement learning
data
state
traffic
macroscopic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111412067.2A
Other languages
English (en)
Other versions
CN114141029A (zh
Inventor
韩雨
李玲慧
高津达
刘攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202111412067.2A priority Critical patent/CN114141029B/zh
Publication of CN114141029A publication Critical patent/CN114141029A/zh
Application granted granted Critical
Publication of CN114141029B publication Critical patent/CN114141029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/075Ramp control

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Traffic Control Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于线下强化学习与宏观模型的匝道控制方法,包括:获取高速公路几何参数,道路交通数据以及控制信息,建立并标定宏观交通流模型;基于宏观交通流模型中生成合成强化学习数据,与历史数据混合获得强化学习数据集;进行线下强化学习:更新策略进行线上控制并采集道路交通数据以及控制信息;重复上述步骤迭代训练。本发明提出的既避免了通过微观仿真平台与实际交通条件的固有不匹配所带来的系统误差,也避免了完全线下学习的收敛问题,同时宏观交通模型提高了强化学习动作探索的效率,解决了实际环境中数据有限的问题,最终方案很大程度避免了交通拥堵,提高了交通运行的效率。

Description

基于线下强化学习与宏观模型的匝道控制方法
技术领域
本发明属于智能交通控制领域,涉及一种基于线下强化学习与宏观模型的匝道控制方法。
背景技术
强化学习技术在交通控制领域尤其是匝道控制中得到了广泛的探索。但目前的研究大多依赖以微观仿真平台以实现线上的探索和学习,对数据量要求极高。这使得强化学习很难应用到实际的交通控制中,而微观仿真与实际交通条件的区别也会使基于强化学习的匝道控制效果大打折扣。而完全的线下强化学习则很难收敛,同时通过固定策略获得的数据很难满足强化学习对状态和动作多样性的要求。
发明内容
技术问题:本发明提供一种能够在线上探索、宏观模型辅助以及线下强化学习的迭代中不断优化,能在有限的数据和学习周期内达到较好的效果的匝道控制方法。
技术方案:本发明的基于线下强化学习与宏观模型的匝道控制方法,包括以下步骤:
步骤10)获取高速公路几何参数,基于原有的控制策略进行匝道控制,获取每个控制周期的道路交通数据以及匝道控制信息,建立并标定宏观交通流模型;所述高速公路几何参数包括车道数和检测器间距,所述道路交通数据包括交通流量、平均速度、时间占有率以及交通密度,所述匝道控制信息为在定周期情况下匝道控制的红灯时长;
步骤20)在一个数据采集周期后,根据所采集的交通流量、平均速度、交通密度以及匝道控制信息,在宏观交通流模型中生成若干的合成强化学习数据,与该数据采集周期所采集的数据混合获得强化学习数据集;
步骤30)根据强化学习数据集,基于Q学习进行线下强化学习:
首先,获取相邻的状态,以及对应的动作和奖励,如果任一状态不在Q表中,则在Q表中增加该状态,根据相应的动作、奖励以及下一个状态的Q值,更新状态的Q值;其中状态由当前控制周期交织区上游平均流量、交织区上游平均速度、瓶颈下游检测器的占有率、匝道排队长度以及上一控制周期的红灯时长五个状态参数确定,动作定义为当前控制周期的红灯时长,奖励为当前控制周期路网总的输出流量;
步骤40)根据以下方法进行线上控制并采集道路交通数据以及匝道控制信息:如果实时交通状态已经在强化学习算法中被访问,则采取步骤30)的强化学习算法对应的最优动作控制,反之采取步骤10)的高速公路原有的控制策略。
步骤50)重复步骤20)、30)和40)迭代训练强化学习智能体,直到智能体访问的状态空间满足精度要求。
进一步的,本发明方法中,步骤10)和40)按照如下方式获取交通数据:
在高速公路以及匝道上,均布设有电磁感应线圈作为检测器,相邻两个电磁感应线圈的距离在500米到1500米之间;电磁感应线圈均布设在道路截面的所有车道上。
进一步的,本发明方法中,步骤10)按照如下方式建立并标定宏观交通流模型:在宏观交通流模型中,高速公路网络被划分为若干段,每一段的特征为每个用于标定的离散时间步长,即一个匝道控制周期内的交通密度、平均速度以及驶出路段的流量。
进一步的,本发明方法中,步骤20)通过以下流程获取强化学习数据:
首先,以一个数据采集周期所采集的道路交通数据以及匝道控制信息作为真实强化学习状态数据集;随后,根据真实强化学习状态数据集中的交通流量、平均速度、交通密度以及匝道控制信息,在已经标定的宏观交通模型进一步生成合成强化学习数据,加入真实强化学习状态数据集构成强化学习数据集;其中强化学习数据集中的一条训练数据是一组状态转换数据,即[当前状态,动作,奖励,下一状态]。
合成数据的生成流程如下所述:在每个训练周期内,对于每个一组状态转换数据,除了已实施的动作,所有有限的可行的控制动作被列举出来。一组状态转换数据对应的交通状况与新列举的可行的控制动作逐个输入宏观交通流模型,预测下一步的交通状态并记录对应的奖励。如果预测的下一步的交通状态存在于前述的真实强化学习状态数据集中,则将该组状态转换数据的交通状况对应的强化学习状态,该控制动作对应奖励和宏观交通流模型预测的下一步的交通状态对应的强化学习状态作为一条合成强化学习数据。
进一步的,本发明方法中,步骤20)根据如下标准确定合成强化学习数据的数量:
假设强化学习数据集中真实数据的比率的比例随着迭代次数的增加而增加,我们使用以下函数来确定在第w次迭代中真实数据的比例:
η=θ1+exp(-θ2·w)
其中θ1和θ2是该函数的参数,根据计算最初与迭代最终的真实数据比率确定。而在每次迭代中,合成数据的数量由η决定,多余的合成训练数据被丢弃。
有益效果:本发明与现有技术相比,具有以下优点:
通过线上线下迭代的方式进行学习,既避免了通过微观仿真平台与实际交通条件的固有不匹配所带来的系统误差,也避免了完全线下学习的收敛问题。宏观交通模型为强化学习提供了新的动作探索的途径,解决了实际环境中数据有限的问题,提高了学习效率,保证了控制效果。最终的控制方案与原有方案相比,更好地控制了交通拥堵,提高了交通运行的效率。
附图说明
图1是本发明的流程框图;
图2是本发明实施例的路网结构与检测器布设图;
图3是本发明实施例迭代过程中的真实数据比率的演变图;
图4是本发明实施例迭代过程中以及最终方案的总行程时间与PI-ALINEA以及无控制方案的总行程时间的对比图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
在一个实施例中,如图1所示,提供了一种基于线下强化学习与宏观模型的匝道控制方法,包括以下步骤:
步骤10)获取高速公路几何参数,基于原有的控制策略进行匝道控制,获取每个控制周期的道路交通数据以及匝道控制信息,建立并标定宏观交通流模型;所述高速公路几何参数包括车道数和检测器间距,所述道路交通数据包括交通流量、平均速度、时间占有率以及交通密度,所述匝道控制信息为在定周期情况下匝道控制的红灯时长;
本实例中,基于真实的高速公路路段在SUMO中搭建微观仿真作为测试平台。实验所用路段为位于澳大利亚布里斯班地区的布鲁斯高速公路从北到南方向的一部分。实验路段包括与Anzac大街相连的上下匝道,该匝道目前的控制策略为PI-ALINEA。该路段全长约5千米,主线三车道,交织区直到匝道影响区下游1千米四车道。主线每隔400-700米设有交通流检测器,共设有11个检测器。这些检测器每20秒(一个控制周期)返回当前步长内的交通流量、平均速度以及检测器的时间占有率。图2给出了道路结构以及检测器的具体位置。
该阶段数据采集时长设为五周,且只采集工作日(周一到周五)的早高峰时段(6:00-9:00)的数据。
基于PI-ALINEA策略,第k+1个周期的匝道汇入率qr(k+1)(辆/h),按下式计算:
Figure BDA0003374500540000031
其中qr(k)为第k个周期的匝道汇入率,Kp和KI均为调节器参数,
Figure BDA0003374500540000041
为临界占有率,o(k)、o(k-1)分别为第k、k-1个周期的时间占有率;实验中设置Kp=70[veh/h],KI=4[veh/h],
Figure BDA0003374500540000042
此外,采用排队管理策略,避免匝道排队溢出问题:
Figure BDA0003374500540000043
其中,qn(k+1)是由排队管理策略计算所得的第k+1个周期的匝道汇入率(辆/h),n(k+1)是第k+1个周期匝道的排队长度,nmax是匝道的最大排队长度(辆),dr(k)是上一个控制周期进入匝道的流量(辆/h),T是控制周期。
而最终应用的匝道汇入率为qr(k+1)与qn(k+1)中的更大值。
步骤20)在一个数据采集周期后,根据所采集的交通流量、平均速度、交通密度以及匝道控制信息,在宏观交通流模型中生成若干数量的合成强化学习数据,与该数据采集周期所采集的数据混合获得强化学习数据集。
实验所用的宏观交通模型为METANET模型。以下等式描述了快速道路交通随时间的演变。每个路段在t时刻的驶出流量等于密度乘以平均速度以及该路段的车道数:
fi(t)=ρi(t)vi(t)λi (3)
其中,fi(t)为路段i在t时刻的驶出流量,ρi(t)为路段i在t时刻的交通密度,vi(t)为路段i在t时刻的平均速度,λi为路段i在t时刻的车道数。
而路段交通密度遵循车辆守恒定律:
Figure BDA0003374500540000044
其中Ts是离散时间步长的持续时间,ρi(t+1)为路段i在t+1时刻的交通密度,Li为路段i的长度,fi-1(t)为路段i-1在t时刻的驶出流量。
路段i在t+1时刻的平均速度vi(t+1)取决于路段i在t时刻的平均速度、车辆流入速度和下游密度:
Figure BDA0003374500540000045
其中,τ,
Figure BDA0003374500540000047
和κ为模型参数。V(ρi(t))表示驾驶员的期望速度,即:
Figure BDA0003374500540000046
其中,am是模型参数,vfree,i是路段i的自由流速度,ρcr,i为流量最大时的对应的密度。
此外,为了解释合流现象引起的速度下降,如果有一个入口匝道,那么此项需加入到式中
Figure BDA0003374500540000051
当有车道减少时,由于交织现象引起的速度降低表示为:
Figure BDA0003374500540000052
其中,Δλ=λii+1是车道减少的数量,φ是模型参数。
快速道路路段的第一段被视为起点,其交通特性由排队模型表示:
ω1(t+1)=ω1(t)+Ts(do(t)-f1(t)) (9)
其中,ω1(t+1)与ω1(t)分别为路段1在t+1时刻与t时刻的车辆数,do(t)为起点的交通需求;f1(t)通过下式确定:
Figure BDA0003374500540000053
其中,第一项是时间t的可用交通流量,第二项是通行能力。对于上游边界条件,假设起始段的速度与第二段的速度相同,因此v1(t)=v2(t)。对于下游边界条件,快速道路路段下游的密度在整个实验中始终设置为20(veh/h/lane)。其余参数在表1中给出:
表1
Figure BDA0003374500540000054
此外,在本实施例中,初始真实数据比率为0.4,最终真实数据比率为0.95;真实数据比率随迭代变化趋势见图3。
步骤30)根据强化学习数据集,基于Q学习进行线下强化学习:
首先,获取相邻的状态,以及对应的动作和奖励,如果任一状态不在Q表中,则在Q表中增加该状态,根据相应的动作、奖励以及下一个状态的Q值,更新状态的Q值;其中状态由当前控制周期交织区上游平均流量、交织区上游平均速度、瓶颈下游检测器的占有率、匝道排队长度以及上一控制周期的红灯时长五个状态参数确定,动作定义为当前控制周期的红灯时长,奖励为当前控制周期路网总的输出流量;
在本实施例中,实验路段被划分为交织区上游、交织区和交织区下游三段。强化学习状态由当前控制周期交织区上游平均流量(辆/小时/车道)、交织区上游平均速度(千米/小时)、瓶颈下游检测器的占有率、匝道排队长度(辆)以及上一控制周期的红灯时长(秒)五个状态参数确定。动作定义为当前控制周期的红灯时长(秒)。奖励则为当前控制周期路网总的输出流量(包括主线和匝道)。
在本实施例中,Q表根据如下公式进行更新:
Figure BDA0003374500540000061
其中,Q(s,a)为当前状态s采取动作a对应的Q值;Q(s,a)为下一个状态s采取动作a对应的Q值;r为当前状态动作下对应的奖励,a为状态s对应的可行动作,κ为学习率。
步骤40)根据以下方法进行线上控制并采集道路交通数据以及匝道控制信息:如果实时交通状态已经在强化学习算法中被访问,则采取步骤30)的强化学习算法对应的最优动作控制,反之采取步骤10)的高速公路原有的控制策略。
步骤50)重复步骤20)、30)和40)迭代训练强化学习智能体,直到智能体访问的状态空间满足精度要求。
在本实施例中,当95%的状态空间已被访问时停止迭代,总迭代时长为25周,其中5周为步骤10)初始数据累积过程,并在学习结束后进行了5周的验证,将获取方案与PI-ALINEA和无控制的总行程时间对比,结果发现,该方法获得的控制策略取得了明显且稳定的提升,具体见图4。
在一个实施例中,提供了一种基于线下强化学习与宏观模型的匝道控制装置,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的基于线下强化学习与宏观模型的匝道控制方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于线下强化学习与宏观模型的匝道控制方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (7)

1.一种基于线下强化学习与宏观模型的匝道控制方法,其特征在于,该方法包括以下步骤:
步骤10)获取高速公路几何参数,基于原有的控制策略进行匝道控制,获取每个控制周期的道路交通数据以及匝道控制信息,建立并标定宏观交通流模型;所述高速公路几何参数包括车道数和检测器间距,所述道路交通数据包括交通流量、平均速度、时间占有率以及交通密度,所述匝道控制信息为在定周期情况下匝道控制的红灯时长;
步骤20)在一个数据采集周期后,根据所采集的交通流量、平均速度、交通密度以及匝道控制信息,在宏观交通流模型中生成若干的合成强化学习数据,与该数据采集周期所采集的数据混合获得强化学习数据集;
步骤30)根据强化学习数据集,基于Q学习进行线下强化学习:
首先,获取相邻的状态,以及对应的动作和奖励,如果任一状态不在Q表中,则在Q表中增加该状态,根据相应的动作、奖励以及下一个状态的Q值,更新状态的Q值;其中状态由当前控制周期交织区上游平均流量、交织区上游平均速度、瓶颈下游检测器的占有率、匝道排队长度以及上一控制周期的红灯时长五个状态参数确定,动作定义为当前控制周期的红灯时长,奖励为当前控制周期路网总的输出流量;
步骤40)根据以下方法进行线上控制并采集道路交通数据以及匝道控制信息:如果实时交通状态已经在强化学习算法中被访问,则采取步骤30)中线下强化学习得到的最优动作控制,反之采取步骤10)的高速公路原有的控制策略;
步骤50)重复步骤20)、30)和40),直到智能体访问的状态空间满足精度要求;
所述的步骤20)中,强化学习数据是通过以下流程获取的:
首先,以一个数据采集周期所采集的道路交通数据以及匝道控制信息作为真实强化学习状态数据集;随后,根据真实强化学习状态数据集中的交通流量、平均速度、交通密度以及匝道控制信息,在已经标定的宏观交通模型进一步生成合成强化学习数据,加入真实强化学习状态数据集构成强化学习数据集;其中强化学习数据集中的一条训练数据是一组状态转换数据,即[当前状态,动作,奖励,下一状态]。
2.根据权利要求1所述的基于线下强化学习与宏观模型的匝道控制方法,其特征在于,所述的步骤10)和40)中按照如下方式获取交通数据:
在高速公路以及匝道上,均布设有电磁感应线圈作为检测器,相邻两个电磁感应线圈的距离在500米到1500米之间;电磁感应线圈均布设在道路截面的所有车道上。
3.根据权利要求1所述的基于线下强化学习与宏观模型的匝道控制方法,其特征在于,所述的步骤10)中按照如下方式建立并标定宏观交通流模型:
在宏观交通流模型中,高速公路网络被划分为若干段,每一段的特征为每个用于标定的离散时间步长,即一个匝道控制周期内的交通密度、平均速度以及驶出路段的流量。
4.根据权利要求3所述的基于线下强化学习与宏观模型的匝道控制方法,其特征在于,合成强化学习数据的生成流程如下所述:在每个训练周期内,对于每个一组状态转换数据,除了已实施的动作,所有有限的可行的控制动作被列举出来,该组状态转换数据对应的道路交通数据与新列举的可行的控制动作逐个输入宏观交通流模型,预测下一步的道路交通数据并记录每个新列举的可行的控制动作对应的奖励;如果预测得到的下一步的交通状态存在于前述的真实强化学习状态数据集中,则将该组状态转换数据的道路交通数据对应的强化学习状态,新列举的可行的控制动作对应的奖励和宏观交通流模型预测得到的下一步的交通状态对应的强化学习状态作为一条合成强化学习数据。
5.根据权利要求1所述的基于线下强化学习与宏观模型的匝道控制方法,其特征在于,所述的步骤30)中,Q表根据如下公式进行更新:
Figure FDA0003860839710000021
其中Q(s,a)为当前状态s采取动作a对应的Q值;Q(s′,a′)为下一个状态s′采取动作a′对应的Q值;r为当前状态动作下对应的奖励,a′为状态s′对应的可行动作,κ为学习率。
6.基于线下强化学习与宏观模型的匝道控制装置,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一所述的基于线下强化学习与宏观模型的匝道控制方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一所述的基于线下强化学习与宏观模型的匝道控制方法的步骤。
CN202111412067.2A 2021-11-25 2021-11-25 基于线下强化学习与宏观模型的匝道控制方法 Active CN114141029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111412067.2A CN114141029B (zh) 2021-11-25 2021-11-25 基于线下强化学习与宏观模型的匝道控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111412067.2A CN114141029B (zh) 2021-11-25 2021-11-25 基于线下强化学习与宏观模型的匝道控制方法

Publications (2)

Publication Number Publication Date
CN114141029A CN114141029A (zh) 2022-03-04
CN114141029B true CN114141029B (zh) 2022-11-18

Family

ID=80391632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111412067.2A Active CN114141029B (zh) 2021-11-25 2021-11-25 基于线下强化学习与宏观模型的匝道控制方法

Country Status (1)

Country Link
CN (1) CN114141029B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116153069B (zh) * 2023-02-09 2024-01-30 东南大学 交通流模型与数据融合驱动的交通状态估计方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102842226A (zh) * 2012-08-30 2012-12-26 西北工业大学 基于Jiang-Wu-Zhu宏观交通流模型的FPGA在线预测控制方法
CN106157650A (zh) * 2016-07-11 2016-11-23 东南大学 一种基于强化学习可变限速控制的快速道路通行效率改善方法
CN106710245A (zh) * 2016-12-23 2017-05-24 西华大学 基于密度的快速路多车道匝道控制方法
CN110070732A (zh) * 2019-05-10 2019-07-30 东南大学 一种基于实时仿真的匝道信号前馈控制方法及系统
CN110503833A (zh) * 2019-08-29 2019-11-26 桂林电子科技大学 一种基于深度残差网络模型的入口匝道联动控制方法
CN112800550A (zh) * 2021-03-30 2021-05-14 浙江高速信息工程技术有限公司 一种基于元胞传输模型的匝道流量管控效果仿真预测方法
CN113409594A (zh) * 2021-07-29 2021-09-17 苏州大学 一种基于强化学习的匝道信号控制优化方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102842226A (zh) * 2012-08-30 2012-12-26 西北工业大学 基于Jiang-Wu-Zhu宏观交通流模型的FPGA在线预测控制方法
CN106157650A (zh) * 2016-07-11 2016-11-23 东南大学 一种基于强化学习可变限速控制的快速道路通行效率改善方法
CN106710245A (zh) * 2016-12-23 2017-05-24 西华大学 基于密度的快速路多车道匝道控制方法
CN110070732A (zh) * 2019-05-10 2019-07-30 东南大学 一种基于实时仿真的匝道信号前馈控制方法及系统
CN110503833A (zh) * 2019-08-29 2019-11-26 桂林电子科技大学 一种基于深度残差网络模型的入口匝道联动控制方法
CN112800550A (zh) * 2021-03-30 2021-05-14 浙江高速信息工程技术有限公司 一种基于元胞传输模型的匝道流量管控效果仿真预测方法
CN113409594A (zh) * 2021-07-29 2021-09-17 苏州大学 一种基于强化学习的匝道信号控制优化方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于分布式强化学习的高速公路控制模型;温凯歌等;《交通信息与安全》;20110620(第03期);全文 *
快速路网单点入口匝道动态控制策略仿真评价研究;干宏程等;《苏州大学学报(工科版)》;20111020(第05期);全文 *
高速公路主线与匝道合流区协调控制方法;马明辉等;《哈尔滨工程大学学报》(第12期);全文 *

Also Published As

Publication number Publication date
CN114141029A (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
Pasquale et al. Two-class freeway traffic regulation to reduce congestion and emissions via nonlinear optimal control
CN112289034A (zh) 基于多模态时空数据的深度神经网络鲁棒交通预测方法
CN111009134A (zh) 一种基于前车与自车互动的短期车速工况实时预测方法
CN112614343A (zh) 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN111145552B (zh) 基于5g网络的车辆动态换道轨迹的规划方法
Hoogendoorn et al. Modeling driver, driver support, and cooperative systems with dynamic optimal control
US20140244067A1 (en) Road grade auto-mapping
DE112011103424T5 (de) System, Verfahren und Programm zum Auswählen von Routen
DE102013202643A1 (de) Verfahren und vorrichtung zur voraussage eines fahrerzielorts
CN114141029B (zh) 基于线下强化学习与宏观模型的匝道控制方法
CN111177934B (zh) 参考路径规划的方法、设备和存储介质
Chow et al. Adaptive signal control for bus service reliability with connected vehicle technology via reinforcement learning
DE112021001181T5 (de) Iterativer Optimierungsalgorithmus zur Fusionsvorhersage mit Multiskalen von Fahrzeuggeschwindigkeit für intelligente vernetzte Fahrzeuge
CN108417032A (zh) 一种城市中心区路边停车需求分析预测方法
Cantisani et al. Calibration and validation of and results from a micro-simulation model to explore drivers’ actual use of acceleration lanes
DE102013207688A1 (de) Verfahren und Vorrichtung zum Auswählen einer Route zum Befahren durch ein Fahrzeug
CN115547075A (zh) 一种高速公路收费站区域交通状态管控方法及系统
CN117141520B (zh) 一种实时轨迹规划方法、装置和设备
CN111507499B (zh) 预测用模型的构建方法、测试方法、装置及系统
JPH08171694A (ja) 交通信号制御方法及び制御装置
US20230131614A1 (en) Systems and methods for coordinated vehicle lane assignment
CN114475607B (zh) 自动驾驶车辆的拟人化换道方法、装置、车辆及存储介质
CN113705891B (zh) 基于mra-bas-bp算法的城市商办综合体建筑停车需求预测方法
CN115410372A (zh) 基于贝叶斯lstm的高速公路交通流量可靠预测方法
CN115083149A (zh) 一种实时监测的强化学习可变时长信号灯控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant