CN113392577B - 一种基于深度强化学习的区域边界主交叉口信号控制方法 - Google Patents

一种基于深度强化学习的区域边界主交叉口信号控制方法 Download PDF

Info

Publication number
CN113392577B
CN113392577B CN202110541233.2A CN202110541233A CN113392577B CN 113392577 B CN113392577 B CN 113392577B CN 202110541233 A CN202110541233 A CN 202110541233A CN 113392577 B CN113392577 B CN 113392577B
Authority
CN
China
Prior art keywords
traffic flow
area
time
region
vehicles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110541233.2A
Other languages
English (en)
Other versions
CN113392577A (zh
Inventor
王银银
金雷
杨大鹏
傅惠
周家诠
林梓潼
欧锦赛
黄立荣
吴嘉明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110541233.2A priority Critical patent/CN113392577B/zh
Publication of CN113392577A publication Critical patent/CN113392577A/zh
Application granted granted Critical
Publication of CN113392577B publication Critical patent/CN113392577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • G06F17/12Simultaneous equations, e.g. systems of linear equations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Traffic Control Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Geometry (AREA)
  • Operations Research (AREA)

Abstract

本发明公开了一种基于深度强化学习的区域边界主交叉口信号控制方法,包括步骤:将路网分为关键区域与外围区域两大部分;基于Sumo搭建仿真平台,导入真实的公交出行数据,合理设置社会车流量,借助仿真获取关键区域MFD;建立关键区域与外围区域之间的交通流动态守恒方程;基于步骤S3建立的交通流动态守恒方程,结合模型预测控制MPC与遗传算法,求取最优边界控制参数;在求得最优边界控制参数的情况下,进行深度强化学习,得到最优的区域边界主交叉口信号控制方案,使得实际转移车流量与预期转移车流量之间的差距最小。本发明实现了城市路网的边界交叉口信号智能控制,动态的调节各区域间的进出比,以达到缓解交通拥堵的目的。

Description

一种基于深度强化学习的区域边界主交叉口信号控制方法
技术领域
本发明涉及智能交通的技术领域,尤其涉及到一种基于深度强化学习的区域边界主交叉口信号控制方法。
背景技术
随着经济的快速发展,城市交通拥堵问题变得非常严重,造成了巨大的经济损失,尤其是在中国。道路交叉口的短时交通需求具有时变性、非线性、复杂性等特征,很难建立起精确的数学模型,简单的定时控制、感应控制方法难以适应交通流量的动态、复杂、快速变化,控制效果不好。智能交通的发展,利用人工智能知识,加强对城市交通信号的有效控制,可以有效缓解城市拥堵。
目前存在的边界控制方案:以两个交通区域为研究对象的一种最优边界控制方法,即模型预测控制法(MPC),构建一个预测控制模型,最后以城市不同拥挤程度下MFD的稳定性作为分析指标,证明该方法比反馈调节算法更优。
目前存在的信号控制方案:一种基于信号灯组的交通信号强化学习控制方法,其每个流向的信号灯组为一个RL智能体,并采用Q学习算法根据交通流状态自动优化相位结构及顺序。
虽然基于MFD理论的边界控制已有较为成熟的发展历程,但也存在以下不足:以往的研究多是确定控制方案使路网运行效率最大化,并不从系统角度考虑寻找一个策略使路网运行效率在研究时段内整体最高。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度强化学习的区域边界主交叉口信号控制方法,以提升城市道路对居民出行的服务能力为导向,围绕基于MFD边界控制理论,开展相应调研、仿真路网搭建、数据采集处理、人工智能算法设计与优化,旨在实现城市路网的边界交叉口信号智能控制,动态的调节各区域间的进出比,以达到缓解交通拥堵的目的。本发明有利于对交通信息资源的管理和利用,提升城市道路基础设施、路况信息的服务质量,为社会公众提供安全、优质、便捷、高效的运输服务。
为实现上述目的,本发明所提供的技术方案为:
一种基于深度强化学习的区域边界主交叉口信号控制方法,包括以下步骤:
S1、将路网分为关键区域与外围区域两大部分;
S2、基于Sumo搭建仿真平台,导入真实的公交出行数据,合理设置社会车流量,借助仿真获取关键区域MFD;
S3、建立关键区域与外围区域之间的交通流动态守恒方程;
S4、基于步骤S3建立的交通流动态守恒方程,结合模型预测控制MPC与遗传算法,求取最优边界控制参数;
S5、在求得最优边界控制参数的情况下,进行深度强化学习,得到最优的区域边界主交叉口信号控制方案,使得实际转移车流量与预期转移车流量之间的差距最小。
进一步地,所述步骤S3建立的状态平衡方程如下:
nij(k+1)=nij(k)+dij(k)-mij(k)*μij(k) (1)
nii(k+1)=nii(k)+dii(k)-mji(k)*μji(k)-mii(k) (2)
式(1)和式(2)中,nij(k+1)和nii(k+1)分别表示k+1时刻区域i内的目的地是区域j的车辆数和区域i内的目的地是区域i的车辆数,nij(k)和nii(k)分别表示k时刻区域i内的目的地是区域j的车辆数和区域i内的目的地是区域i的车辆数,dij(k)和dii(k)分别表示k-1到k时间段内区域i产生的目的地是区域j的车辆需求和区域i产生的目的地是区域j的车辆需求,mij(k)和mji(k)分别表示k-1到k时间段内区域i到区域j的转移流和区域j到区域i的转移流,μij(k)和μji(k)分别表示k-1到k时间段内区域i到区域j转移流的控制比率和区域j到区域i转移流的控制比率,mii(k)表示k-1到k时间段内区域i到区域i的完成流,区域i和区域j为两个不同的区域。
进一步地,所述步骤S4求取最优边界控制参数的具体过程如下:
S4-1)获取当前的区域的车辆状态nij(k)和nii(k),同时获得已假设的区域之间的车辆需求dij(k)和dii(k);
S4-2)通过以下公式获得当前时刻k控制时长T时间内的区域转移流值:
Figure BDA0003071638700000031
Figure BDA0003071638700000032
G(Ni(k))=A1*Ni 3(k)+A2*Ni 2(k)+A3Ni(k)+A4
其中,Ni(k)表示K时刻区域i的累计车辆数,G(Ni(k))表示k时刻区域i的总的输出量,A1,A2,A3,A4为常数,由实际路网决定;
S4-3)初始化M个优化方案,每个方案中含有K个控制参数(即预测时域为K),:Uk M,Uk+1 M,Uk+2 M,…,Uk+K-1 M,Uk M表示第M个方案中k时刻的边界控制参数;
S4-4)将M个方案输入交通流动态守恒方程预测出关键区域路网未来K时域内的交通状态;
S4-5)将未来K时域内的交通状态(目标值)作为适应度,通过对原种群进行选择,交叉和变异得到新一代种群;
S4-6)重复步骤4)至步骤5),在满足设置的迭代次数后停止迭代;
S4-7)选取最优方案(Uk *,Uk+1 *,Uk+2 *,…Uk+K-1 *)的第一步即Uk *作为k时刻的最优边界控制参数;
S4-8)得到执行Uk *之后区域的车辆状态nij(k+1)和nii(k+1),重复步骤S4-1)至步骤S4-7)直到控制结束。
进一步地,所述步骤S5中,深度强化学习以实际转移车流量和预期转移车流量的差值最小的目标,通过观察关键区域与外围区域之间的区域边界主交叉口处所有入口车道的状态进行信号控制;
其中,
预期转移车流量通过下式求得:
PTV=[U12(k)·m12(k)+U21(k)·m21(k)]·T;
上式中,PTV为预期转移车流量,T为控制时长,U12(k)和U21(k)为控制时刻k的最优边界控制参数,m12(k)和m21(k)为控制时刻k的从1区到2区的转移车流量及从2区到1区的转移车流量;
实际转移车流量通过下式求得:
Figure BDA0003071638700000041
上式中,
Figure BDA0003071638700000042
为k时刻所有路口的转移数之和;
目标函数为:
Z=min(PTV-ATV);
环境基于以下数学模型搭建:
nhm(k+1)=nhm(k)-outhm(k)+inhm(k)
Figure BDA0003071638700000043
上式中,nhm(k)是时刻k内交叉口h进口车道m的等待车辆数,outhm(k)是k时刻内交叉口h进口道m的实际通过车辆数,inhm(k)是时刻k内实际进入交叉口h进口道m的车辆数,nhm(k+1)是k+1时刻内交叉口h进口道m的实际等待车辆数;
outhm(k+1)为k+1时刻通过交叉口h进口道m的车辆数,gm(k)为k时刻内路口h,进口道m所对应的相位绿灯时间,
Figure BDA0003071638700000051
表示当前相位所有的进口道的等待车辆总和,saturation表示交叉口h进口道m的饱和流率。
进一步地,深度强化学习的具体过程如下:
1)初始化一个经验池D,容量大小为N;初始化一个Q神经网络的参数w,w为神经网络的权重矩阵;初始化一个target神经网络的参数w-,且使w=w-
2)获取初始状态值,即各主交叉口进口道的排队车辆数以及预期转移车辆数;
3)将各主交叉口进口道的排队车辆数以及预期转移车辆数输入Q神经网络中,利用ε-greedy策略输出信号控制方案;
4)将步骤3)输出的信号控制方案输入至交通仿真模型进行仿真,得到实际转移车流量的值以及下一时刻的各路口进口道的等待车流量;
5)收集以上步骤2)至步骤4)产生的信息即(sk,ak,rk,sk+1)存储至经验池D中,主要内容分别为k时刻的状态值sk,k时刻采取的信号方案ak,执行信号方案后的奖赏值rk(实际转移车流量和预期转移车流量的差值)以及下一时刻状态值sk+1
6)当D中的信息满足设定数量后,从D中随机抽样m个样本(sj,aj,rj,sj+1);
7)基于m个样本在target神经网络中计算估计值yj
Figure BDA0003071638700000052
其中,γ为折扣因子,maxa`Q(sj+1,a`;w-)表示利用target神经网络对下一状态所有动作进行估值比较后选取最大的Q值(动作的估值)作为远期回报,加上当前回报rj,赋值给yj;若下一时刻结束当前episode,则无远期回报,将当前回报rj,赋值给yj
8)将步骤6)中样本的sj,aj输入到Q神经网络中,得到实际的动作估值Q(sj,aj;w);
9)利用步骤7)中得到的估计值yj与步骤8)中得到的动作估值Q(sj,aj;w)构造损失函数即(yj-Q(sj,aj;w))2
10)针对步骤9)中的损失函数,使用梯度下降法更新Q神经网络的w值;
11)每相隔设定步数C,将Q神经网络参数全部赋值给target神经网络;
12)重复步骤3)至步骤11),直至target神经网络的损失函数收敛。
与现有技术相比,本方案原理及优点如下:
1.选取两个区域作为边界控制的控制对象,通过解决易于拥堵的关键区域并辐射周围来缓解整个城市的交通拥堵状况,不仅使问题的复杂性和难度降低,也符合实际的交通管理需求。
2.围绕基于MFD边界控制理论,开展相应调研、仿真路网搭建、数据采集处理、人工智能算法设计与优化方案设计,实现城市路网的边界交叉口信号智能控制,动态的调节各区域间的进出比,以达到缓解交通拥堵的目的。
本方案有利于对交通信息资源的管理和利用,提升城市道路基础设施、路况信息的服务质量,为社会公众提供安全、优质、便捷、高效的运输服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于深度强化学习的区域边界主交叉口信号控制方法的原理图;
图2为本发明一种基于深度强化学习的区域边界主交叉口信号控制方法中求取最优边界控制参数的原理图;
图3为本发明一种基于深度强化学习的区域边界主交叉口信号控制方法中深度强化学习的流程图;
图4为实施例中低需求下的训练结果图;
图5为实施例中高需求下的训练结果图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
如图1所示,本实施例所述的一种基于深度强化学习的区域边界主交叉口信号控制方法,包括以下步骤:
S1、将路网分为关键区域与外围区域两大部分。
S2、基于Sumo搭建仿真平台,导入真实的公交出行数据,合理设置社会车流量,借助仿真获取关键区域MFD。
S3、建立关键区域与外围区域之间的交通流动态守恒方程,具体如下:
nij(k+1)=nij(k)+dij(k)-mij(k)*μij(k) (1)
nii(k+1)=nii(k)+dii(k)-mji(k)*μji(k)-mii(k) (2)
式(1)和式(2)中,nij(k+1)和nii(k+1)分别表示k+1时刻区域i内的目的地是区域j的车辆数和区域i内的目的地是区域i的车辆数,nij(k)和nii(k)分别表示k时刻区域i内的目的地是区域j的车辆数和区域i内的目的地是区域i的车辆数,dij(k)和dii(k)分别表示k-1到k时间段内区域i产生的目的地是区域j的车辆需求和区域i产生的目的地是区域j的车辆需求,mij(k)和mji(k)分别表示k-1到k时间段内区域i到区域j的转移流和区域j到区域i的转移流,μij(k)和μji(k)分别表示k-1到k时间段内区域i到区域j转移流的控制比率和区域j到区域i转移流的控制比率,mii(k)表示k-1到k时间段内区域i到区域i的完成流,区域i和区域j为两个不同的区域。
S4、基于步骤S3建立的交通流动态守恒方程,结合模型预测控制MPC与遗传算法,求取最优边界控制参数,如图2所示,具体过程如下:
S4-1)获取当前的区域的车辆状态nij(k)和nii(k),同时获得已假设的区域之间的车辆需求dij(k)和dii(k);
S4-2)通过以下公式获得当前时刻k控制时长T时间内的区域转移流值:
Figure BDA0003071638700000081
Figure BDA0003071638700000082
G(Ni(k))=A1*Ni 3(k)+A2*Ni 2(k)+A3Ni(k)+A4
其中,Ni(k)表示K时刻区域i的累计车辆数,G(Ni(k))表示k时刻区域i的总的输出量,A1,A2,A3,A4为常数,由实际路网决定;
S4-3)初始化M个优化方案,每个方案中含有K个控制参数(即预测时域为K),:Uk M,Uk+1 M,Uk+2 M,…,Uk+K-1 M,Uk M表示第M个方案中k时刻的边界控制参数;
S4-4)将M个方案输入交通流动态守恒方程预测出关键区域路网未来K时域内的交通状态;
S4-5)将未来K时域内的交通状态(目标值)作为适应度,通过对原种群进行选择,交叉和变异得到新一代种群;
S4-6)重复步骤4)至步骤5),在满足设置的迭代次数后停止迭代;
S4-7)选取最优方案(Uk *,Uk+1 *,Uk+2 *,…Uk+K-1 *)的第一步即Uk *作为k时刻的最优边界控制参数;
S4-8)得到执行Uk *之后区域的车辆状态nij(k+1)和nii(k+1),重复步骤S4-1)至步骤S4-7)直到控制结束。
S5、在求得最优边界控制参数的情况下,进行深度强化学习,以实际转移车流量和预期转移车流量的差值最小的目标,得到最优的区域边界主交叉口信号控制方案,使得实际转移车流量与预期转移车流量之间的差距最小。
本步骤中,预期转移车流量通过下式求得:
PTV=[U12(k)·m12(k)+U21(k)·m21(k)]·T;
上式中,PTV为预期转移车流量,T为控制时长,U12(k)和U21(k)为控制时刻k的最优边界控制参数,m12(k)和m21(k)为控制时刻k的从1区到2区的转移车流量及从2区到1区的转移车流量;
实际转移车流量通过下式求得:
Figure BDA0003071638700000091
上式中,
Figure BDA0003071638700000092
为k时刻所有路口的转移数之和;
目标函数为:
Z=min(PTV-ATV);
环境基于以下数学模型搭建:
nhm(k+1)=nhm(k)-outhm(k)+inhm(k)
Figure BDA0003071638700000093
上式中,nhm(k)是时刻k内交叉口h进口车道m的等待车辆数,outhm(k)是k时刻内交叉口h进口道m的实际通过车辆数,inhm(k)是时刻k内实际进入交叉口h进口道m的车辆数,nhm(k+1)是k+1时刻内交叉口h进口道m的实际等待车辆数;
outhm(k+1)为k+1时刻通过交叉口h进口道m的车辆数,gm(k)为k时刻内路口h,进口道m所对应的相位绿灯时间,
Figure BDA0003071638700000094
表示当前相位所有的进口道的等待车辆总和,saturation表示交叉口h进口道m的饱和流率。
如图3所示,深度强化学习的具体过程如下:
1)初始化一个经验池D,容量大小为N;初始化一个Q神经网络的参数w,w为神经网络的权重矩阵;初始化一个target神经网络的参数w-,且使w=w-
2)获取初始状态值,即各主交叉口进口道的排队车辆数以及预期转移车辆数;
3)将各主交叉口进口道的排队车辆数以及预期转移车辆数输入Q神经网络中,利用ε-greedy策略输出信号控制方案;
4)将步骤3)输出的信号控制方案输入至交通仿真模型进行仿真,得到实际转移车流量的值以及下一时刻的各路口进口道的等待车流量;
5)收集以上步骤2)至步骤4)产生的信息即(sk,ak,rk,sk+1)存储至经验池D中,主要内容分别为k时刻的状态值sk,k时刻采取的信号方案ak,执行信号方案后的奖赏值rk(实际转移车流量和预期转移车流量的差值)以及下一时刻状态值sk+1
6)当D中的信息满足设定数量后,从D中随机抽样m个样本(sj,aj,rj,sj+1);
7)基于m个样本在target神经网络中计算估计值yj
Figure BDA0003071638700000101
其中,γ为折扣因子,maxa`Q(sj+1,a`;w-)表示利用target神经网络对下一状态所有动作进行估值比较后选取最大的Q值(动作的估值)作为远期回报,加上当前回报rj,赋值给yj;若下一时刻结束当前episode,则无远期回报,将当前回报rj,赋值给yj
8)将步骤6)中样本的sj,aj输入到Q神经网络中,得到实际的动作估值Q(sj,aj;w);
9)利用步骤7)中得到的估计值yj与步骤8)中得到的动作估值Q(sj,aj;w)构造损失函数即(yj-Q(sj,aj;w))2
10)针对步骤9)中的损失函数,使用梯度下降法更新Q神经网络的w值;
11)每相隔设定步数C,将Q神经网络参数全部赋值给target神经网络;
12)重复步骤3)至步骤11),直至target神经网络的损失函数收敛。
本实施例以广州某两个交通子区为研究对象,创建了车辆高需求与车辆低需求两个场景,实验结果如图4和图5所示,从图中可见,1)强化学习算法在训练过程中确实有向差距值变小的方向发展;2)强化学习算法自主学习选择的信号方案是优于固定信号方案。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.一种基于深度强化学习的区域边界主交叉口信号控制方法,其特征在于,包括以下步骤:
S1、将路网分为关键区域与外围区域两大部分;
S2、基于Sumo搭建仿真平台,导入真实的公交出行数据,合理设置社会车流量,借助仿真获取关键区域宏观基本图;
S3、建立关键区域与外围区域之间的交通流动态守恒方程;
S4、基于步骤S3建立的交通流动态守恒方程,结合模型预测控制MPC与遗传算法,求取最优边界控制参数;
S5、在求得最优边界控制参数的情况下,进行深度强化学习,得到最优的区域边界主交叉口信号控制方案,使得实际转移车流量与预期转移车流量之间的差距最小;
所述步骤S5中,深度强化学习以实际转移车流量和预期转移车流量的差值最小的目标,通过观察关键区域与外围区域之间的区域边界主交叉口处所有入口车道的状态进行信号控制;
其中,
预期转移车流量通过下式求得:
PTV=[U12(k)·m12(k)+U21(k)·m21(k)]·T;
上式中,PTV为预期转移车流量,T为控制时长,U12(k)和U21(k)为控制时刻k的最优边界控制参数,m12(k)和m21(k)为控制时刻k从1区到2区的转移车流量及从2区到1区的转移车流量;
实际转移车流量通过下式求得:
Figure FDA0003934477920000011
上式中,
Figure FDA0003934477920000012
为k时刻所有路口的转移数之和;
目标函数为:
Z=min(PTV-ATV);
路口交通流动态方程如下:
nhm(k+1)=nhm(k)-outhm(k)+inhm(k)
Figure FDA0003934477920000021
上式中,nhm(k)是时刻k内交叉口h进口车道m的等待车辆数,outhm(k)是k时刻内交叉口h进口道m的实际通过车辆数,inhm(k)是时刻k内实际进入交叉口h进口道m的车辆数,nhm(k+1)是k+1时刻内交叉口h进口道m的实际等待车辆数;outhm(k+1)为k+1时刻通过交叉口h进口道m的车辆数,gm(k)为k时刻内路口h,进口道m所对应的相位绿灯时间,
Figure FDA0003934477920000022
表示当前相位所有的进口道的等待车辆总和,saturation表示交叉口h进口道m的饱和流率。
2.根据权利要求1所述的一种基于深度强化学习的区域边界主交叉口信号控制方法,其特征在于,所述步骤S3建立的交通流动态守恒方程如下:
nij(k+1)=nij(k)+dij(k)-mij(k)*μij(k) (1)
nii(k+1)=nii(k)+dii(k)-mji(k)*μji(k)-mii(k) (2)
式(1)和式(2)中,nij(k+1)和nii(k+1)分别表示k+1时刻区域i内的目的地是区域j的车辆数和区域i内的目的地是区域i的车辆数,nij(k)和nii(k)分别表示k时刻区域i内的目的地是区域j的车辆数和区域i内的目的地是区域i的车辆数,dij(k)和dii(k)分别表示k-1到k时间段内区域i产生的目的地是区域j的车辆需求和区域i产生的目的地是区域i的车辆需求,mij(k)和mji(k)分别表示k-1到k时间段内区域i到区域j的转移流和区域j到区域i的转移流,μij(k)和μji(k)分别表示k-1到k时间段内区域i到区域j转移流的控制比率和区域j到区域i转移流的控制比率,mii(k)表示k-1到k时间段内区域i到区域i的完成流,区域i和区域j为两个不同的区域。
3.根据权利要求2所述的一种基于深度强化学习的区域边界主交叉口信号控制方法,其特征在于,所述步骤S4求取最优边界控制参数的具体过程如下:
S4-1)获取当前的区域的车辆状态nij(k)和nii(k),同时获得已假设的区域之间的车辆需求dij(k)和dii(k);
S4-2)通过以下公式获得当前时刻k控制时长T时间内的区域转移流值:
Figure FDA0003934477920000031
Figure FDA0003934477920000032
G(Ni(k))=A1*Ni 3(k)+A2*Ni 2(k)+A3Ni(k)+A4
其中,Ni(k)表示k时刻区域i的累计车辆数,G(Ni(k))表示k时刻区域i的总的输出量,A1,A2,A3,A4为常数,由实际路网决定;
S4-3)初始化M个优化方案,每个方案中含有K个控制参数:Uk M,Uk+1 M,Uk+2 M,…,Uk+K-1 M,Uk M表示第M个方案中k时刻的边界控制参数;
S4-4)将M个方案输入交通流动态守恒方程预测出关键区域路网未来K个步长的交通状态;
S4-5)将未来K个步长的交通状态作为适应度,通过对上一代种群进行选择,交叉和变异得到新一代种群;
S4-6)重复步骤S4-4)至步骤S4-5),在满足设置的迭代次数后停止迭代;
S4-7)选取最优方案(Uk *,Uk+1 *,Uk+2 *,…Uk+K-1 *)的第一步即Uk *作为k时刻的最优边界控制参数;
S4-8)得到执行Uk *之后区域的车辆状态nij(k+1)和nii(k+1),重复步骤S4-1)至步骤S4-7)直到控制步数达到给定数量。
4.根据权利要求1所述的一种基于深度强化学习的区域边界主交叉口信号控制方法,其特征在于,深度强化学习的具体过程如下:
1)初始化一个经验池D,容量大小为N;初始化一个Q神经网络的参数w,w为神经网络的权重矩阵;初始化一个target神经网络的参数w-,且使w=w-
2)获取初始状态值,即各主交叉口进口道的排队车辆数以及预期转移车辆数;
3)将各主交叉口进口道的排队车辆数以及预期转移车辆数输入Q神经网络中,利用ε-greedy策略输出信号控制方案;
4)将步骤3)输出的信号控制方案输入至交通仿真模型进行仿真,得到实际转移车流量的值以及下一时刻的各路口进口道的等待车流量;
5)收集以上步骤2)至步骤4)产生的信息即(sk,ak,rk,sk+1)存储至经验池D中,主要内容分别为k时刻的状态值sk,k时刻采取的信号方案ak,执行信号方案后的奖赏值rk以及下一时刻状态值sk+1
6)当D中的信息满足设定数量后,从D中随机抽样m个样本(sj,aj,rj,sj+1);
7)基于m个样本在target神经网络中计算估计值yj:
Figure FDA0003934477920000041
其中,γ为折扣因子,maxa`Q(sj+1,a`;w-)表示利用target神经网络对下一状态所有动作进行估值比较后选取最大的Q值作为远期回报,加上当前回报rj,赋值给yj;若下一时刻结束当前episode,则无远期回报,将当前回报rj,赋值给yj
8)将步骤6)中样本的sj,aj输入到Q神经网络中,得到实际的动作估值Q(sj,aj;w);
9)利用步骤7)中得到的估计值yj与步骤8)中得到的动作估值Q(sj,aj;w)构造损失函数即(yj-Q(sj,aj;w))2
10)针对步骤9)中的损失函数,使用梯度下降法更新Q神经网络的w值;
11)每相隔设定步数C,将Q神经网络参数全部赋值给target神经网络;
12)重复步骤3)至步骤11),直至target神经网络的损失函数收敛。
CN202110541233.2A 2021-05-18 2021-05-18 一种基于深度强化学习的区域边界主交叉口信号控制方法 Active CN113392577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110541233.2A CN113392577B (zh) 2021-05-18 2021-05-18 一种基于深度强化学习的区域边界主交叉口信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110541233.2A CN113392577B (zh) 2021-05-18 2021-05-18 一种基于深度强化学习的区域边界主交叉口信号控制方法

Publications (2)

Publication Number Publication Date
CN113392577A CN113392577A (zh) 2021-09-14
CN113392577B true CN113392577B (zh) 2023-01-13

Family

ID=77617981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110541233.2A Active CN113392577B (zh) 2021-05-18 2021-05-18 一种基于深度强化学习的区域边界主交叉口信号控制方法

Country Status (1)

Country Link
CN (1) CN113392577B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627650B (zh) * 2022-05-11 2022-08-23 深圳市城市交通规划设计研究中心股份有限公司 城市公交优先仿真推演系统、方法、电子设备及存储介质
CN115359672B (zh) * 2022-08-19 2023-07-07 东北大学秦皇岛分校 一种数据驱动与强化学习结合的交通区域边界控制方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021685A (zh) * 2014-06-26 2014-09-03 广东工业大学 一种含混合交通流的交叉口交通控制方法
CN105205546A (zh) * 2015-08-12 2015-12-30 东南大学 一种城市道路平面交叉口转向比例实时估计方法
CN106952484A (zh) * 2017-03-28 2017-07-14 广东工业大学 基于宏观基本图的路网门限控制
CN109872538A (zh) * 2019-04-16 2019-06-11 广东交通职业技术学院 基于mfd的饱和交叉口群多层边界迭代学习控制方法和装置
CN111243299A (zh) * 2020-01-20 2020-06-05 浙江工业大学 一种基于3dqn_pser算法的单交叉口信号控制方法
CN111429737A (zh) * 2020-03-30 2020-07-17 银江股份有限公司 一种基于agent的城市区域边界控制方法及系统
KR20200090528A (ko) * 2019-01-21 2020-07-29 한국과학기술원 분산 예측 기반의 교통신호 제어 시스템 및 그 방법
CN111932914A (zh) * 2020-06-03 2020-11-13 东南大学 城市拥堵区域路网双层边界控制方法
CN112700664A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种基于深度强化学习的交通信号配时优化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228819B (zh) * 2016-08-18 2019-09-27 广东工业大学 一种多交叉口的交通信号优化控制方法及装置
CN110213827B (zh) * 2019-05-24 2023-05-02 南京理工大学 基于深度强化学习的车辆数据采集频率动态调节方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021685A (zh) * 2014-06-26 2014-09-03 广东工业大学 一种含混合交通流的交叉口交通控制方法
CN105205546A (zh) * 2015-08-12 2015-12-30 东南大学 一种城市道路平面交叉口转向比例实时估计方法
CN106952484A (zh) * 2017-03-28 2017-07-14 广东工业大学 基于宏观基本图的路网门限控制
KR20200090528A (ko) * 2019-01-21 2020-07-29 한국과학기술원 분산 예측 기반의 교통신호 제어 시스템 및 그 방법
CN109872538A (zh) * 2019-04-16 2019-06-11 广东交通职业技术学院 基于mfd的饱和交叉口群多层边界迭代学习控制方法和装置
CN111243299A (zh) * 2020-01-20 2020-06-05 浙江工业大学 一种基于3dqn_pser算法的单交叉口信号控制方法
CN111429737A (zh) * 2020-03-30 2020-07-17 银江股份有限公司 一种基于agent的城市区域边界控制方法及系统
CN111932914A (zh) * 2020-06-03 2020-11-13 东南大学 城市拥堵区域路网双层边界控制方法
CN112700664A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种基于深度强化学习的交通信号配时优化方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
Hui Fu et al..Hierarchical perimeter control with guaranteed stability for.《Transportation Research Part C》.2017,第18-38页. *
Jack Haddad et al..Cooperative traffic control of a mixed network with two urban regions and a freeway.《Transportation Research Part B》.2013,第17-36页. *
Nikolas Geroliminis et al..Optimal Perimeter Control for Two Urban Regions.《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》.2013,第14卷(第1期),第348-359页. *
傅惠等.城市交通系统管理与优化研究综述.《工业工程》.2016,第19卷(第01期),第10-15页. *
刘洁锐.基于深度强化学习的城市区域交通信号控制研究.《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》.2021,第C034-1031页. *
基于MFD的区域双层边界协调控制研究;刘娜等;《现代计算机(专业版)》;20170615(第17期);第10-15页 *
王鹏等.基于层级控制的宏观基本图交通信号控制模型.《计算机应用》.2020,第41卷(第02期),第571-576页. *
钟林等.基于着色Petri网的区域边界主交叉口公交信号优先控制.《第三十八届中国控制会议论文集(7)》.2019,第2953-2958页. *
龙顺忠等.网联环境下基于深度强化学习的单路口交通信号控制优化.《工业控制计算机》.2020,第33卷(第10期),第16-19,22页. *

Also Published As

Publication number Publication date
CN113392577A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN108847037B (zh) 一种面向非全局信息的城市路网路径规划方法
CN112700664B (zh) 一种基于深度强化学习的交通信号配时优化方法
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN110570672B (zh) 一种基于图神经网络的区域交通信号灯控制方法
CN113392577B (zh) 一种基于深度强化学习的区域边界主交叉口信号控制方法
CN104766484A (zh) 基于进化多目标优化和蚁群算法的交通控制与诱导系统和方法
CN112365724A (zh) 一种基于深度强化学习的连续交叉口信号协同控制方法
CN113538910A (zh) 一种自适应的全链条城市区域网络信号控制优化方法
CN113516277B (zh) 一种基于路网动态定价的网联智能交通路径规划方法
CN113053120B (zh) 基于迭代学习模型预测控制的交通信号灯调度方法与系统
CN113299078B (zh) 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN113409576B (zh) 一种基于贝叶斯网络的交通路网动态预测方法及系统
CN113724507B (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
CN110021168B (zh) 一种车联网下实现实时智能交通管理的分级决策方法
CN115472023B (zh) 一种基于深度强化学习的智能交通灯控制方法及装置
Wu et al. Deep Reinforcement Learning Based Traffic Signal Control: A Comparative Analysis
CN117133138A (zh) 一种多交叉口交通信号协同控制方法
CN115331460B (zh) 一种基于深度强化学习的大规模交通信号控制方法及装置
CN115547050A (zh) 一种基于马尔科夫决策过程的智能交通信号控制优化方法、软件
CN115359672A (zh) 一种数据驱动与强化学习结合的交通区域边界控制方法
CN116137103B (zh) 基于图元学习和深度强化学习的大规模交通灯信号控制方法
CN116994444B (zh) 一种交通灯控制方法、系统及存储介质
Tuan Trinh et al. Improving Traffic Efficiency in a Road Network by Adopting Decentralised Multi-Agent Reinforcement Learning and Smart Navigation
CN114926997B (zh) 一种基于性能加权的启发式在线路网信号优化方法
Ma et al. Optimization of Signal Timing Coordination at Short-spaced Intersections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant