CN114299714B - 一种基于异策略强化学习的多匝道协调控制方法 - Google Patents

一种基于异策略强化学习的多匝道协调控制方法 Download PDF

Info

Publication number
CN114299714B
CN114299714B CN202111484299.9A CN202111484299A CN114299714B CN 114299714 B CN114299714 B CN 114299714B CN 202111484299 A CN202111484299 A CN 202111484299A CN 114299714 B CN114299714 B CN 114299714B
Authority
CN
China
Prior art keywords
reinforcement learning
ramp
control
data
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111484299.9A
Other languages
English (en)
Other versions
CN114299714A (zh
Inventor
韩雨
高津达
李玲慧
刘攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202111484299.9A priority Critical patent/CN114299714B/zh
Publication of CN114299714A publication Critical patent/CN114299714A/zh
Application granted granted Critical
Publication of CN114299714B publication Critical patent/CN114299714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Traffic Control Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于异策略强化学习的匝道协调控制方法,以迭代方式使用离线交通数据训练强化学习智能体,而不是与交通模拟器交互。在每次训练迭代中,收集历史交通流数据并将其输入学习算法以更新控制策略。在迭代初期,当历史交通流数据量较少时,使用宏观交通流模型METANET来生成合成交通流数据。这使强化学习能够探索到可能导致更好的交通性能的新动作。为了保证训练迭代的可行时间,快速道路被分为若干单点控制区域,每个单点控制区域对应于单点匝道控制系统,以保持低维度的状态和动作空间,从而可以充分探索控制动作。随着探索更多的控制动作和利用更多的训练数据,最终得到匝道协调控制的最优策略。

Description

一种基于异策略强化学习的多匝道协调控制方法
技术领域
本发明公开了一种对快速道路多匝道协调控制策略进行控制优化的异策略强化学习方法,属于智能交通技术领域。
背景技术
匝道控制是快速道路上的一种常见的交通管控措施,不仅在文献中进行了广泛的研究,而且在现实生活中也得到了广泛的应用。匝道控制通过防止通行能力下降和排队溢出,进而减少快速道路交通系统中驾驶员的总行程时间。而且,交通系统可以通过改变出行者的路线选择行为而间接地从匝道控制中受益,从而在整个网络中获得理想的交通流量分布。
由于匝道排队的存储容量有限,因此一旦匝道队列长度超过最大允许值,就必须释放排队的车辆,以避免对相邻地面道路交通的干扰,这可能会造成快速道路拥堵。因此,局部匝道控制方法并不总是有效地改善整个交通网络的总体交通性能。为此,匝道协调控制策略通过利用其他匝道上的存储空间,来达到系统最优,同时这些匝道的交通需求也影响目标瓶颈的交通流动态。Papamichail等提出了一种用于匝道协调控制的启发式反馈控制策略,称为HERO,并将其应用于澳大利亚的多个快速道路站点。另外,最优控制方法,例如模型预测控制方法,已经广泛研究以用于协调匝道控制。Han等提出了一种基于宏观基本图模型的协调匝道控制方法,并将其与基于不同交通流模型的几种MPC方法进行了比较。发现预测模型和过程模型之间的不匹配会显着影响系统性能。
近年来,随着人工智能技术的发展,基于强化学习方法已在道路交通控制领域引起了越来越多的关注。对于文献中大多数基于强化学习的交通控制策略,强化学习智能体都是通过与模拟实际交通过程的交通仿真器进行交互的方式反复试验地进行训练的。此训练过程通常需要大量数据,而这可能需要花费很长的时间才能在现实中。此外,由于交通仿真器与实际交通过程之间存在固有的不匹配,因此那些基于强化学习策略的性能很可能会受限于仿真器的准确性。在强化学习等其他应用中,例如机器人技术和游戏,则包含智能体以从已收集的固定数据批次中学习。但是,对于实际的交通控制系统,交通流量是基于预定的控制策略进行控制的。因此,对于有效的训练过程,从现场获得的交通数据可能不够丰富。在有限的交通数据下开发基于强化学习的交通控制策略是一项具有挑战性的工作。
发明内容
技术问题:本发明针对基于强化学习的匝道协调控制策略在实践中存在交通仿真和实际交通环境不匹配,以及能用于训练强化学习智能体的数据量有限的问题,提出一种基于异策略强化学习的匝道协调控制方法,所提出的策略显着地减少交通拥堵,提高交通效率。
技术方案:本发明一种基于异策略强化学习的匝道协调控制方法,该方法包括以下步骤:
步骤10)根据快速道路几何数据,建立启发式匝道协调控制HERO算法,采集应用HERO算法的快速道路历史交通流数据,以及多个匝道信号灯中的历史信号数据;所述历史交通流数据包括交通流量、时间占有率、平均速度和匝道排队长度,将历史交通流数据整合形成历史强化学习数据;
步骤20)根据历史交通流数据,标定宏观交通流模型METANET的参数;
步骤30)将每组历史交通流数据作为METANET的初始状态,扩大强化学习动作空间,产生合成强化学习数据,进而建立包含历史强化学习数据和合成强化学习数据的综合强化学习数据集;
步骤40)利用Q表格方法和综合强化学习数据集,训练强化学习智能体;
步骤50)重复步骤30)和步骤40)迭代训练智能体,直到智能体访问的状态空间满足精度要求,进而得到最优控制策略。
有益效果:本发明与现有技术相比,具有以下优点:
1、使用历史数据来训练强化学习智能体以避免训练环境与实际交通过程之间的不匹配,这种方法不用通过与交通仿真器交互来获取数据训练强化学习智能体,因此能够避免交通仿真器和真实交通过程之间固有存在的差异问题;
2、使用宏观交通流模型合成综合数据集获得可观的数据量,这种方法无需现实中获取智能体训练所需的大量数据,进而节省了在实际交通环境中收集数据所花费的大量时间;
3、这种方法随着探索更多的控制动作和利用更多的训练数据,所提出的带有表格学习算法的匝道协调控制策略提升了交通性能,可以很大程度上减少交通拥堵。
附图说明
图1是本发明的实施流程图;
图2是局部匝道控制的区域划分图;
图3是协调匝道控制的区域划分图。
具体实施方式
下面结合附图进一步详细叙述本发明的技术方案,但本发明的实施和保护不局限于以下所述内容。
本发明的基于异策略强化学习的多匝道协调控制方法,如图1所示,包括以下步骤:
步骤10)根据快速道路几何数据,建立HERO控制算法(启发式匝道协调控制方法),并在实际快速道路中应用。采集应用HERO算法的快速道路历史交通流数据,以及多个匝道信号灯中的历史信号数据,所述历史交通流数据包括交通流量、时间占有率、平均速度和匝道排队长度,将历史交通流数据整合形成历史强化学习数据。
本实例模拟了提出方法的实施,该方法持续了数周。总的来说,实验包含三个阶段,具体解释如下:1)实验的第一阶段是执行原匝道协调控制策略HERO五个星期(为开始获得更多数据可增大此时间)。在此阶段,我们应用了HERO匝道协调控制策略。这为建议的基于强化学习的匝道控制策略的训练过程提供了初始数据,该策略应用于第二阶段。2)在第二阶段,使用Q表格学习方法迭代训练来更新控制策略。在这个阶段,新的控制动作从离线和在线探索中得到。当真实训练数据量足够丰富时,使用所有历史(真实)数据训练最优策略,并且不再更新。在此阶段中,应用迭代训练的多个匝道智能体来控制匝道红灯时长,当本周期获取的强化学习状态不在Q表中时,应用原控制算法HERO进行交通流控制。实例中选择的道路网络是位于澳大利亚布里斯班地区的一段布鲁斯快速道路。这是一条城市快速路,其特点是交通模式强烈依赖于往返布里斯班市中心的通勤者的需求。HERO匝道协调控制策略已在布鲁斯快速路上实施并投入使用。
HERO匝道协调控制策略的工作原理阐述如下:
对于每个匝道,分别应用ALINEA和PI-ALINE局部匝道控制算法。对于k+1控制周期,ALINEA根据以下等式计算匝道流量qr(k+1):
Figure BDA0003396889290000041
其中,
Figure BDA0003396889290000042
为道路断面的关键占有率,KR为调节器参数,o(k)为周期k道路断面的占有率。
对于存在远处下游瓶颈的单点匝道控制系统,已经提出了ALINEA的扩展版本(称为PI-ALINEA)以确保控制器的稳定性:
Figure BDA0003396889290000043
其中,Kp和KI均为调节器参数。
此外,采用排队管理策略,避免匝道队列长度超过最大值:
Figure BDA0003396889290000044
其中,qn(k)是由队列管理确定的匝道汇入流量(辆/h),nmax是匝道的最大排队长度(辆),dr(k-1)是k-1个控制周期到达匝道的需求流量(辆/h)。
对于每个控制周期,根据对当前匝道队列长度和主流占用率的估计来决定可能的协调动作。对于每个入口匝道,如果排队比率超过某个阈值而相应瓶颈的占用率接近临界密度,则激活其上游入口匝道(从属匝道)的协调。这种激活的原因是,相应的局部匝道协调控制明显处于激活状态,形成的队列可能很快就会达到其最大允许值。从属入口匝道的队列长度将被重新确定,使得两个匝道的队列比率彼此接近,即两个匝道中的相对可用排队存储空间相等:
Figure BDA0003396889290000045
其中,qLC(k)为排队控制的匝道汇入率(辆/h),T为匝道控制周期(s),nmin为激活协调的排队长度阈值,nmin/nmax为排队比例。
最终的入口匝道流量通过下式计算:
q(k)=max{min{qr(k),qLC(k)},qn(k)} (5)
步骤20)根据历史交通流数据,标定METANET的参数,建立宏观交通流模型。在METANET模型中,快速道路网络被划分为路段,每个路段具有统一的几何结构。在实验中,可以假设快速道路网络中的路段是根据线圈检测器的位置形成的,每个检测器位于一个路段的中间。第i段的特征在于交通密度ρi(t)(辆/km/lane)、平均速度vi(t)(km/h)和流量fi(t)(辆/h),其中t是交通流模型离散时间步长的索引。以下等式描述了快速道路交通随时间的演变。每个路段的流量等于密度乘以平均速度和该路段的车道数(用λi表示):
fi(t)=ρi(t)vi(t)λi (6)
其中,t是交通流模型离散时间步长的索引,fi(t)、ρi(t)、vi(t)分别是t时间步长第i个路段的交通流量、交通密度、平均速度,λi是第i个路段的车道数。
每个路段的密度遵循车辆守恒定律,表示为:
Figure BDA0003396889290000051
其中ρi(t+1)是t+1时间步长第i个路段的交通密度,Ts是离散时间步长的持续时间,fi-1(t)是t-1时间步长第i个路段的交通流量,Li是第i个路段的长度。
t+1时间步长路段i的平均速度取决于t时间步长第i个路段的平均速度、第i-1个路段的车辆流入速度vi-1(t)和第i+1个路段的下游密度ρi+1(t),表示为:
Figure BDA0003396889290000052
其中,τ,θ和κ为METANET模型参数。V(ρi(t))表示驾驶员试图达到的期望速度,即:
Figure BDA0003396889290000053
其中,am是METANET模型参数,vfree,i是第i个路段的自由流速度,ρcr,i为第i个路段流量最大时的关键密度。
为了解释合流现象引起的速度下降,如果有一个入口匝道,那么此项需加入到式(8)的末尾:
Figure BDA0003396889290000054
当有车道减少时,由于交织现象引起的速度降低表示如下,需加入到式(8)的末尾:
Figure BDA0003396889290000055
其中,Δλ=λii+1是车道减少的数量,φ是METANET模型参数。
快速道路路段的第一段被视为原点,其交通动态由一个简单的队列模型表示:
ω1(t+1)=ω1(t)+Ts(do(t)-f1(t)) (12)
其中,ω1(t+1)、ω1(t)分别表示t+1时间步长、t时间步长第1个路段的交通动态,do(t)为起点的交通需求,f1(t)为第1个路段的交通流量。f1(t)通过下式确定:
Figure BDA0003396889290000061
其中,第一项是t时间步长的可用交通流量,第二项是通行能力。
对于上游边界条件,假设起始段的速度与第二段的速度相同,因此v1(t)=v2(t)。对于下游边界条件,快速道路路段下游的密度在整个模拟期间始终设置为20(veh/h/lane)。在模拟实验中,Ts设为5(s)。在式(8)中,τ设为18(s),κ设为40(veh/km/lane),θ设为30(km2/h)。式(8)中的参数经过校准,其中am=2.55,vfree=88.48(km/h),ρcr=36.09(veh/km/lane)。这些参数的值对于所有路段都是相同的。代表合流和车道减少的参数也被校准。在式(10)中,δ=1.07,在式中,φ=2.14。
步骤30)将每组历史交通流数据作为METANET模型的初始状态,扩大强化学习动作空间,产生合成强化学习数据,进而建立包含历史强化学习数据和合成强化学习数据的综合强化学习数据集。
应用于匝道协调控制系统所需要的强化学习状态动作空间较大,其状态和动作变量的增加给强化学习系统带来了挑战,因为系统需要成倍数量的数据来训练强化学习智能体,而实际上可能需要非常长的时间来收集这些数据,并需要更多的计算资源来找到最佳策略。为解决此困难,快速道路被分为几个区域,每个区域对应于单点匝道控制系统,如图2所示。具体来说,每个区域都包含合流区上下游的快速道路路段。如果单点匝道控制系统中出现遥远的下游瓶颈,也包括瓶颈下游的部分。每个单点匝道控制区域又分为上游路段U,合流路段M和下游路段D,如图3所示。
协调控制方法包含上下两层:在上层控制中,状态定义为:
Figure BDA0003396889290000062
其中,
Figure BDA0003396889290000063
Figure BDA0003396889290000064
分别是k个控制周期快速道路网络中每个区域的平均流量和平均速度的向量,
Figure BDA0003396889290000065
是所有入口匝道的队列长度向量。
上层动作aupper(k)是一个二元变量向量,每个二元变量代表一个入口匝道的有控/无控(1/0)。上层奖励rupper(k)是快速道路网络的总流出量,包括所有出口匝道的流出量和下游流出量。
协调控制系统的下层有多个子单点匝道控制系统。每个单点匝道控制系统都会优化入口匝道的信号时序。对于单点匝道控制系统j,状态定义为,
Figure BDA0003396889290000071
其中,j是单点匝道控制匝道系统的索引;FU,j(k)和VU,j(k)分别是为单点匝道控制系统j上游路段的平均流量和平均速度;oBN,j(k)是单点匝道控制系统j瓶颈区域的占有率;nj+1(k)是单点匝道控制系统j的状态变量包含其下游入口匝道的队列长度;单点匝道控制系统的总数表示为J,对于属于最下游单点匝道控制系统的入口匝道,即j=J;γj(k-1)是上一周期匝道信号灯的绿灯或红灯时长。
在上层,强化学习智能体优化快速道路网络中所有入口匝道的激活方案,在下层,每个强化学习智能体优化入口匝道的信号时序。在基于强化学习的协调匝道控制系统中,对应于每个学习智能体,有多个训练数据集和强化学习状态数据集。对于每个数据切片,提取所有强化学习智能体的状态并将其添加到强化学习状态数据集。具体来说,直接将上层强化学习智能体的状态加入到对应的强化学习状态数据集中。此状态用作下层强化学习智能体状态的标签。因此,将每个下层智能体的强化学习状态添加到由上层强化学习状态标记的状态数据集中。这样,上层强化学习状态可以对应下层强化学习智能体的多个状态,因为上层RL代理的状态变量是聚合的交通状态(例如,一个区域的平均流量和速度),而下层代理的状态更具体。对于上层控制和下层控制的动作探索,若上层状态对应的动作均为0(无控),下层控制动作不再进行探索;若上层状态存在1(有控),则相应的下层匝道控制动作需遍历最小绿灯时长到最大绿灯时长的整数控制动作,如果存在多个匝道需控制,则不同匝道动作探索需进行组合。对于一个强化学习数据切片,所有可行的控制动作被枚举并输入到交通流模型中,以预测交通流动态。对于某个数据切片,如果上层智能体的合成强化学习状态在强化学习状态数据集中,则合成训练数据切片被添加到训练数据集中。对于这个数据切片,下层强化学习智能体的合成训练数据切片也被添加到相应的训练数据集中。下层智能体的合成强化学习状态,可能不存在于对应的下层强化学习状态数据集中。在这种情况下,对于所有在下层状态中用上层状态标记的强化学习状态,与合成状态偏差最小的状态被选中并添加到合成训练数据切片中。状态之间的偏差由所有归一化状态变量的均方根偏差的总和计算。
步骤40)利用Q表格学习方法和综合数据集训练强化学习智能体。强化学习智能体按照如下设置:强化学习主要有三个参数:状态、动作和奖励。在本实验中,上层控制的状态为:快速道路网络中每个区域的平均流量和平均速度,以及所有入口匝道的队列长度向量。动作是一个二元变量,每个二元变量代表一个入口匝道的激活/不激活(1/0)。奖励是快速道路网络的总流出量,包括所有出口匝道的流出量和下游流出量。下层控制的状态为:最上游路段U的平均流量和平均速度,瓶颈处下游检测器的时间占有率,入口匝道的排队长度和上一个控制周期中的红灯时间。动作被定义为本次控制周期中红灯时间。假设周期长度是固定的。奖励是快速道路网络的总流出量,包括所有出口匝道的流出量和下游流出量。在提出的协调匝道计量方法中,上层强化学习智能体的状态空间远大于局部匝道控制强化学习智能体的状态空间,因为前者包含更多状态变量。为了在可行的时间内收集足够的训练数据,为上层智能体的状态变量设置了更大的离散间隔。流量、速度和排队长度变量的离散间隔分别设置为200(veh/h/lane)、20(km/h)和20(veh)。对于下层智能体,这些变量的离散间隔分别设置为100(veh/h/lane)、10(km/h)和10(veh)。
本实例的最终目的是使每个时间段的路网系统总流出量达到最大,由此使用时间差分学习来估计最优价值函数Q。Q值Q(s,a)存储状态-动作对的值,并根据式(16)进行更新:
Figure BDA0003396889290000081
其中,r是在动作a下从当前状态s转换到新状态s′得到的奖励;a′表示在状态s′选择的动作;κ(s,a)是控制Q值改变速度的学习率。
步骤50)重复步骤30)和步骤40)迭代训练智能体,直到智能体访问的状态空间满足精度要求,进而得到基于所有历史数据的最优策略。状态空间的精度可设为0.95。
本发明还提供一种基于异策略强化学习的匝道协调控制装置,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的基于异策略强化学习的匝道协调控制方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于异策略强化学习的匝道协调控制方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (4)

1.一种基于异策略强化学习的匝道协调控制方法,其特征在于,该方法包括以下步骤:
步骤10)根据快速道路几何数据,建立启发式匝道协调控制HERO算法,采集应用HERO算法的快速道路历史交通流数据,以及多个匝道信号灯中的历史信号数据;所述历史交通流数据包括交通流量、时间占有率、平均速度和匝道排队长度,将历史交通流数据整合形成历史强化学习数据;
步骤20)根据历史交通流数据,标定宏观交通流模型METANET的参数;
步骤30)将每组历史交通流数据作为METANET的初始状态,扩大强化学习动作空间,产生合成强化学习数据,进而建立包含历史强化学习数据和合成强化学习数据的综合强化学习数据集;
步骤40)利用Q表格方法和综合强化学习数据集,训练强化学习智能体;
步骤50)重复步骤30)和步骤40)迭代训练智能体,直到智能体访问的状态空间满足精度要求,进而得到最优控制策略;
其中,在强化学习智能体状态空间和动作空间不足的情况下,通过METANET模拟交通状态,扩大强化学习动作区间,对于一个包含[本周期状态,动作,下一周期状态,奖励值]的数据切片,列举所有可能的动作并将其输入到METANET中来预测下一时间步的交通动态;
快速道路被分为若干单点控制区域,每个单点控制区域对应于单点匝道控制系统,每个单点控制区域都包含合流区上下游的快速道路路段;每个单点控制区域又分为上游路段U,合流路段M和下游路段D;如果单点匝道控制系统中出现超出设定距离的下游瓶颈,那么对应单点控制区域还包括瓶颈下游;
所述控制方法分为上、下两层:
上层控制的状态为快速道路网络中每个单点控制区域的平均流量和平均速度,以及所有入口匝道的队列长度向量;动作是一个二元变量向量,每个二元变量代表一个入口匝道的激活或不激活,用1或0表示;奖励是快速道路网络的总流出量,包括所有出口匝道的流出量和下游流出量;
下层控制的状态为上游路段U的平均流量和平均速度,瓶颈处下游检测器的时间占有率,入口匝道的排队长度和上一个控制周期中的红灯时间;动作为本次控制周期中红灯时间;奖励是快速道路网络的总流出量,包括所有出口匝道的流出量和下游流出量。
2.根据权利要求1所述的基于异策略强化学习的匝道协调控制方法,其特征在于,Q表格根据以下公式进行更新:
Figure FDA0003914156970000021
式中,Q(s,a)为当前状态s采取动作a对应的Q值;Q(s′,a′)为下一个状态s′采取动作a′对应的Q值;r为当前状态动作下对应的奖励,a′为状态s′对应的可行动作,κ(s,a)为学习率。
3.一种基于异策略强化学习的匝道协调控制装置,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1或2所述的基于异策略强化学习的匝道协调控制方法的步骤。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1或2所述的基于异策略强化学习的匝道协调控制方法的步骤。
CN202111484299.9A 2021-12-07 2021-12-07 一种基于异策略强化学习的多匝道协调控制方法 Active CN114299714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111484299.9A CN114299714B (zh) 2021-12-07 2021-12-07 一种基于异策略强化学习的多匝道协调控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111484299.9A CN114299714B (zh) 2021-12-07 2021-12-07 一种基于异策略强化学习的多匝道协调控制方法

Publications (2)

Publication Number Publication Date
CN114299714A CN114299714A (zh) 2022-04-08
CN114299714B true CN114299714B (zh) 2022-12-27

Family

ID=80966103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111484299.9A Active CN114299714B (zh) 2021-12-07 2021-12-07 一种基于异策略强化学习的多匝道协调控制方法

Country Status (1)

Country Link
CN (1) CN114299714B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700251A (zh) * 2013-11-27 2014-04-02 东南大学 一种快速道路上可变限速与匝道控制协调优化控制方法
CN106157650A (zh) * 2016-07-11 2016-11-23 东南大学 一种基于强化学习可变限速控制的快速道路通行效率改善方法
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112885088A (zh) * 2021-01-25 2021-06-01 浙江工业大学 一种基于动态交通流的多匝道协调控制方法
CN113674522A (zh) * 2020-05-13 2021-11-19 南京东控智能交通研究院有限公司 一种解决快速道路瓶颈路段拥堵问题的匝道控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700251A (zh) * 2013-11-27 2014-04-02 东南大学 一种快速道路上可变限速与匝道控制协调优化控制方法
CN106157650A (zh) * 2016-07-11 2016-11-23 东南大学 一种基于强化学习可变限速控制的快速道路通行效率改善方法
CN113674522A (zh) * 2020-05-13 2021-11-19 南京东控智能交通研究院有限公司 一种解决快速道路瓶颈路段拥堵问题的匝道控制方法
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112885088A (zh) * 2021-01-25 2021-06-01 浙江工业大学 一种基于动态交通流的多匝道协调控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An integrated approach for dynamic traffic routing and ramp metering using sliding mode control;Hirsh Majid等;《Journal of Traffic and Transportation Engineering(English Edition)》;20180415(第02期);全文 *
基于分布式强化学习的高速公路控制模型;温凯歌等;《交通信息与安全》;20110620(第03期);全文 *
快速路网单点入口匝道动态控制策略仿真评价研究;干宏程等;《苏州大学学报(工科版)》;20111020(第05期);全文 *

Also Published As

Publication number Publication date
CN114299714A (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
Hoel et al. Automated speed and lane change decision making using deep reinforcement learning
Jin et al. A group-based traffic signal control with adaptive learning ability
CN112614343B (zh) 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN112216124B (zh) 一种基于深度强化学习的交通信号控制方法
US11783702B2 (en) Method and system for adaptive cycle-level traffic signal control
Davarynejad et al. Motorway ramp-metering control with queuing consideration using Q-learning
CN110750877A (zh) 一种Apollo平台下的车辆跟驰行为预测方法
Guo et al. DRL-TP3: A learning and control framework for signalized intersections with mixed connected automated traffic
Gregurić et al. Impact of deep reinforcement learning on variable speed limit strategies in connected vehicles environments
Aragon-Gómez et al. Traffic-signal control reinforcement learning approach for continuous-time Markov games
Ye et al. Meta reinforcement learning-based lane change strategy for autonomous vehicles
Hart et al. Formulation and validation of a car-following model based on deep reinforcement learning
JPWO2019186996A1 (ja) モデル推定システム、モデル推定方法およびモデル推定プログラム
Kuang et al. Intelligent traffic signal control based on reinforcement learning with state reduction for smart cities
CN115862322A (zh) 一种车辆可变限速控制优化方法、系统、介质及设备
Wu et al. ES-CTC: A deep neuroevolution model for cooperative intelligent freeway traffic control
Zhang et al. Platoon-centered control for eco-driving at signalized intersection built upon hybrid MPC system, online learning and distributed optimization part I: Modeling and solution algorithm design
CN113110359B (zh) 约束型智能汽车自主决策系统在线训练方法及装置
Chen et al. Traffic signal optimization control method based on adaptive weighted averaged double deep Q network
Zhang et al. A hierarchical framework for multi-lane autonomous driving based on reinforcement learning
Yin et al. A reinforcement learning method for traffic signal control at an isolated intersection with pedestrian flows
CN114299714B (zh) 一种基于异策略强化学习的多匝道协调控制方法
JP2023531927A (ja) 運転意思決定方法および運転意思決定装置ならびにチップ
Yin et al. Adaptive traffic signal control for multi-intersection based on microscopic model
CN114141029B (zh) 基于线下强化学习与宏观模型的匝道控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant