CN114038212B - 基于双阶段注意力机制和深度强化学习的信号灯控制方法 - Google Patents
基于双阶段注意力机制和深度强化学习的信号灯控制方法 Download PDFInfo
- Publication number
- CN114038212B CN114038212B CN202111214138.8A CN202111214138A CN114038212B CN 114038212 B CN114038212 B CN 114038212B CN 202111214138 A CN202111214138 A CN 202111214138A CN 114038212 B CN114038212 B CN 114038212B
- Authority
- CN
- China
- Prior art keywords
- network
- state
- neural network
- intersection
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 47
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 57
- 230000009471 action Effects 0.000 claims description 29
- 230000000306 recurrent effect Effects 0.000 claims description 28
- 238000004088 simulation Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 10
- 238000013461 design Methods 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 101001091423 Agaricus bisporus Polyphenol oxidase 2 Proteins 0.000 claims description 4
- 101000611523 Arabidopsis thaliana Protoporphyrinogen oxidase 2, chloroplastic/mitochondrial Proteins 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000008901 benefit Effects 0.000 claims description 3
- 230000001413 cellular effect Effects 0.000 claims description 3
- 108020001991 Protoporphyrinogen Oxidase Proteins 0.000 claims 2
- 238000011217 control strategy Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 239000004721 Polyphenylene oxide Substances 0.000 description 8
- 229920006380 polyphenylene oxide Polymers 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于双阶段注意力机制和深度强化学习的信号灯控制方法,首先,根据交叉口路段的实际情况,建立能够反映当前交通网络状态的张量;其次,融合双阶段注意力机制的状态预处理;然后,建立基于深度强化学习算法A2C的交叉口信号控制神经网络模型;最后,利用PPO算法训练交叉口信号控制神经网络模型;将当前交叉口的实际交通状态信息输入训练好的神经网络模型,得到有利于改善当前交通通行指标的信号控制方案。本发明融合了双阶段注意力机制的深度强化学习信号控制模型将具有更强的提取交通状态的细节信息和应对变化的交通状态的能力,在信号控制策略上更具主动性。
Description
技术领域
本发明属于交通信号控制(Traffic Signal Control,TRC)领域,具体涉及一种基于双阶段注意力机制和深度强化学习的信号灯控制方法。
背景技术
现代社会城市交通车流控制压力越来越大,交通运行状态中出现拥堵甚至阻塞的现象越来越多。交叉口是城市交通网络的枢纽和关键节点,交叉口的信号控制是调节城市交通网络中交通流的中主要方式之一,因此改善和优化交通灯的信号控制方案是解决交通拥堵问题的重要手段。当前主流的交通信号灯控制策略通通常基于简化的交通信号控制模型,如SCATS(Sydney Coordinated Adaptive Traffic System)自适应交通控制系统。但是,由于交通信号控制系统是一个涉及人、车和路网环境等因素的复杂大系统,具有高度的不确定性和非线性;因此,基于简化模型的传统方法在实际应用中效果有限。
人工智能、导航定位等技术的不断发展可帮助获取有关车辆位置和速度等更多实时精确的交通信息,为实现交通信号的智能化控制提供了新的契机。深度强化学习(DeepReinforcement Learning,DRL)算法融合了深度学习(Deep Learning,DL)的强信息感知能力和强化学习(Reinforcement Learning,RL)的决策能力,不需要提前掌握城市道路环境和具体的车流状况,神经网络模型通过与城市道路环境的不断交互,在试错中学习经验和获得智能判别的能力,非常适合处理交通信号控制问题。Prashanth等(选择车道排队长度和信号灯时间作为交通信息状态,并将数据离散化为不同级别,该方法在简化交通状态信息复杂度的同时也丢失了部分细节信息。Choe等提出了单交叉口场景下基于循环神经网络(Recurrent Neural Network,RNN)的DQN模型。RNN网络虽然可以学习利用部分历史状态信息,但强化学习的训练过程依赖于一阶马尔可夫决策过程,面对交通流量的变化,其调控能力仍具有一定的滞后性。基于此,本发明设计了一种融合双阶段注意力机制的深度强化学习交通信号灯控制方法。
发明内容
发明目的:本发明提出一种基于双阶段注意力机制和深度强化学习的信号灯控制方法,能够根据当前路况状态调整路口相位,使得当前交通灯控制策略有利于最小化区域交叉口拥堵。
技术方案:本发明所述的一种基于双阶段注意力机制和深度强化学习的信号灯控制方法,包括以下步骤:
(1)根据交叉口路段的实际情况,建立能够反映当前交通网络状态的张量;
(2)利用双阶段注意力机制网络进行状态预处理;第一层注意力机制循环神经网络f1自适应地选取每个时间步状态xt的各特征,掌握交通状态空间分布细节信息;第二层注意力机制循环神经网络f2以每个时间步的前三个历史状态为输入,利用交通状态时序相关性大的特点增强信控模型的主动控制能力;
(3)基于深度强化学习算法A2C建立交叉口信号控制神经网络模型;
(4)利用PPO算法训练交叉口信号控制神经网络模型:利用SUMO搭建路网和车流的仿真环境,神经网络模型通过SUMO的Traci接口与仿真环境交互,将步骤2中预处理后的状态作为强化学习的状态利用PPO算法训练网络得到最优的交叉口信号控制神经网络模型;
(5)将交叉口的当前相位与最优的交叉口信号控制神经网络模型输出的特征进行拼接,作为Actor动作概率网络的输入;根据Actor网络输出的动作概率选择交叉口信号灯控制模型的最终相位结果。
进一步地,所述步骤(1)包括以下步骤:
(11)对进入交叉口的各路段车道按照与交叉口的距离进行等距元胞划分,得到每个车道的交通状态信息;
(12)重复步骤(11),将各个方向的车道信息进行拼接,得到一个包含各个车道信息的状态向量,;
(13)采用四相位进行动作设计,分别对应交叉口4种绿灯相位:南北方向绿灯,东西方向绿灯,南北方向左转绿灯和东西方向左转绿灯;
(14)将瞬时奖励R定义为相邻时间步t之间路口所有车辆的累计平均等待时间之差:
Rt=α(TT+1-Tt) (4)
其中,Tt是第t个时间步内路网所有车辆的累计平均等待时间,Tt+1是第t+1个时间步内路网所有车辆的累计平均等待时间,α是常量,避免奖励值范围波动过大。
进一步地,所述步骤(2)包括以下步骤:
(21)第一层注意力机制循环神经网络自适应地选取状态各特征:对于当前时刻的状态输入xt∈Rn,引入注意力机制自适应地选取各个特征,即对t时刻状态xt;xt的不同特征包含的是不同车道和距离交叉口不同距离的交通状态元胞信息;神经网络为各个特征赋予一定的注意力权重衡量了t时刻输入xt的第k个特征的重要性;
(22)第二层注意力机制循环神经网络用于处理状态序列预测问题;对于当前时刻t,建立当前时刻状态与前两个时间步的状态以及当前时刻t的输出之间的关系;进入注意力机制,利用不同的网络参数,对不同时刻的采用不同的权重系数,取t时刻状态以及t时刻前两个时间步状态和得到
进一步地,步骤(3)所述建立的交叉口信号灯控制神经网络模型包括第一层循环神经网络GRU、第二层循环神经网络GRU,第三层到第六层为全连接神经网络;所述第一层循环神经网络GRU为步骤2中第一层注意力机制的循环神经网络f1;所述第二层循环神经网络GRU为步骤2中的第二层注意力机制循环神经网络f2;所述第六层全连接神经网络将上一层网络的输出与当前相位状态进行拼接作为输入,输出分别是Actor动作概率网络和Critic价值网络。
进一步地,所述步骤(4)包括以下步骤:
(41)分别建立基于随机参数θa的Actor动作网络和基于随机参数θc的Critic评价网络作为新策略网络π',再分别建立与Actor动作网络和Critic评价网络结构完全一样的旧策略网络π;
(42)初始化神经网络参数、交通仿真的状态和仿真次数、轨迹池等;
(43)在每个决策时间步,将从当前仿真窗口获取的状态St输入到旧策略π的Actor网络,状态经过两层循环神经网络预处理后,Actor网络根据输出概率参数随机选择一个动作,SUMO仿真软件根据选择的动作执行对应的相位,并获取环境反馈的奖励Rt和下一个St+1;
(44)利用OpenAI提出的PPO2算法,构建目标函数,通过与环境不断交互学习过程中,得到最优的交叉口信号灯控制模型;所述目标函数为:
其中,ε表示clip的阈值,Aθ′(st,at)表示优势函数,ratio表示新老策略比值:
有益效果:与现有技术相比,本发明的有益效果:本发明基于深度强化学习建立交叉口信号灯控制神经网络模型,其中PPO算法在实现的难易程度、采样复杂度和调试所需时间之间取得较好的平衡;由于交叉口车道数目、长度和相位设计等对神经网络结构的影响并不大,因此广泛适用于各种城市道路交叉口信号灯控制;为了控制模型更好地获取交通状态信息,本发明在设计深度神经网络结构方面创新性地加入了双阶段注意力机制的循环网络,其中空间双注意力网络着重运用学习的方法提取状态不同特征对控制模型做出决策的差异化影响;时间注意力网络则着重学习不同历史时刻状态对控制模型作出决策的差异化影响;基于此,信号控制模型将具有更强的应对变化的交通状态的能力,在信号控制策略上更具主动性。
附图说明
图1为城市道路典型交叉口模型和状态设计图;
图2为路口四相位设计图;
图3为第一层注意力机制循环神经网络结构图;
图4为第二层注意力机制循环神经网络结构图;
图5为融合双阶段注意力机制的A2C网络结构图;
图6为基于A2C的近端策略优化算法的训练过程示意图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明提出一种基于双阶段注意力机制和深度强化学习的信号灯控制方法,在深度神经网络结构上做了优化,融合了双阶段注意力机制网络,第一阶段注意力机制模型使得神经网络可以更准确掌握交通状态空间分布细节信息,第二阶段注意力机制模型利用三个历史状态信息预测未来交通状态,利用交通状态时序相关性大的特点,克服模型调控具有一定滞后性的不足,使得信号控制策略更具主动性和超前性。具体包括以下步骤:
步骤1:根据交叉口路段的实际情况,建立能够反映当前交通网络状态的张量;强化学习三要素包括状态、动作和奖励,参数设计参考路段长度宽度、车道数目、实时路况交通数据、以及各个交叉路口交通信号机的相位方案等数据。建立能够反映交叉口原始交通状态的步骤如下:
(1.1)对进入交叉口的各路段车道按照与交叉口的距离进行等距元胞划分,得到每个车道的交通状态信息。
如图1所示是一个常见的四相位交叉口,东、西、南、北四个侧面连接的都是双向六车道道路,所有车道靠右侧行驶,按图中箭头所指方向行驶。为快速高效提取交通原始状态信息,节省计算资源,将与交叉口相连的各路段的各个车道均分成等距元胞,如图2所示,本发明仿真设置中车辆长度为4.5m,因此元胞长度取5m。所以元胞中如果有车只能是数量为1,本发明中元胞i信息为Mi,Mi的计算公式如下:
其中,di表示车辆延迟:
其中,vi是当元胞内有车辆时车辆速度,若没有则为0,vf为当前路段允许行驶的极限速度,vf=20m/s,wi为:
其中,Di为元胞i到交叉口的距离,L为元胞所属车道的总长度,此处设置L=400m。
(1.2)重复步骤(1.1),将各个方向的车道信息进行拼接,得到一个包含各个车道信息的状态向量。在得到各个元胞信息后,将各车道的元胞信息组合拼接成(1,n)维度的向量,得到原始交通状态的张量表示。
(1.3)动作定义如图2所示的四相位组合,分别对应交叉口4种绿灯相位,如图3所示,从左向右依次为南北方向绿灯(NSG),东西方向绿灯(EWG),南北方向左转绿灯(NSLG)和东西方向左转绿灯(EWLG)。
(1.4)将瞬时奖励R定义为相邻时间步t之间路口所有车辆的累计平均等待时间之差:
Rt=α(TT+1-Tt) (4)
其中,Tt是第t个时间步内路网所有车辆的累计平均等待时间,Tt+1是第t+1个时间步内路网所有车辆的累计平均等待时间,α是常量,避免奖励值范围波动过大。
步骤2:利用双阶段注意力机制网络进行状态预处理:第一层注意力机制循环神经网络f1可自适应地选取每个时间步状态xt的各特征,掌握交通状态空间分布细节信息;第二层注意力机制循环神经网络f2以每个时间步的前三个历史状态为输入,利用交通状态时序相关性大的特点增强信控模型的主动控制能力。
(2.1)第一层注意力机制循环神经网络自适应地选取状态各特征。为了学习并提取交通信号状态中包含的空间分布细节信息,本发明选取GRU循环神经网络实现第一层非线性激活函数f1,f1结构如图3所示,对于当前时刻的状态输入xt∈Rn,引入注意力机制自适应地选取各个特征,即对t时刻状态xt,有:
其中,xt的不同特征包含的是不同车道和距离交叉口不同距离的交通状态元胞信息。
(2.2)第二层注意力机制循环神经网络用于处理状态序列预测问题,第二层非线性激活函数f2仍然采用GRU卷神经网络实现,如图4所示。对于当前时刻t,我们需要建立当前时刻状态与前两个时间步的状态以及当前时刻t的输出之间的关系。这里同样进入了注意力机制,利用不同的网络参数,对不同时刻的采用不同的权重系数,即:取t时刻状态以及t时刻前两个时间步状态和得到表达式如下:
最终:
步骤3:基于深度强化学习算法(AdvantageActor Critic,A2C)设计交叉口信号灯控制神经网络模型,如图5所示。
建立的交叉口信号灯控制神经网络模型包括第一层循环神经网络GRU、第二层循环神经网络GRU,第三到第六为全连接层。
第一层循环神经网络GRU,即为步骤2中的第一层注意力机制的循环神经网络f1,f1可自适应地选取每个时间步状态xt的各个特征,学习并提取交通信号状态中包含的空间分布细节信息。
第二层循环神经网络GRU,即为步骤2中的第二层注意力机制循环神经网络f2,f2关注不同时刻的历史状态和当前状态对当前决策的影响程度的差异。
第六层全连接神经网络将上一层网络的输出与当前相位状态进行拼接作为输入,输出分别是Actor动作概率网络和Critic价值网络。
步骤4:利用PPO算法训练交叉口信号灯控制神经网络。利用SUMO搭建路网和车流的仿真环境,神经网络模型通过SUMO的Traci接口与仿真环境交互,将步骤2中预处理后的状态作为强化学习的状态利用PPO算法训练网络得到最优的神经网络模型。包括以下步骤:
(4.1)分别建立基于随机参数θa的Actor动作网络和基于随机参数θc的Critic评价网络作为新策略网络π',再分别建立与Actor动作网络和Critic评价网络结构完全一样的旧策略网络π。
(4.2)初始化神经网络参数、交通仿真的状态和仿真次数、轨迹池等。
(4.3)在每个决策时间步,将从当前仿真窗口获取的状态St输入到旧策略π的Actor网络,状态经过两层循环神经网络预处理后,Actor网络根据输出概率参数随机选择一个动作,SUMO仿真软件根据选择的动作执行对应的相位,并获取环境反馈的奖励Rt和下一个St+1。
(4.4)利用OpenAI提出的PPO2算法,构建目标函数,通过与环境不断交互学习过程中,得到最优的交叉口信号灯控制模型。目标函数为:
其中,ε表示clip的阈值,Aθ′(st,at)表示优势函数,ratio表示新老策略比值:
在监督学习中,设计损失函数、实现梯度下降很容易实现,但是在强化学习中,算法中有许多变化的部分导致训练过程极其不稳定,PPO则在实现的难易程度、采样复杂度和调试所需时间之间取得了较好的平衡。
基于近端策略PPO算法训练神经网络模型,网络参数以及部分指标的获取如图6所示,总体流程具体包括以下步骤:
1)初始化Actor动作网络和Critic评价网络的网络参数、交通仿真的状态和仿真次数、轨迹池等。
2)在每个决策时间步,将环境状态St输入到旧策略π的Actorold网络,网络根据输出概率参数随机选择一个动作at,SUMO仿真软件根据选择的动作执行对应的相位,并获取环境反馈的奖励Rt和下一个St+1。
3)循环步骤2),存储[(st,at,rt),st+1]和动作概率probold。这个过程中Actorold网络并没有更新。
4)利用存储的所有瞬时奖励rt计算折扣奖励Rt。
5)把存储的所有状态St输入Criticnew网络,得到所有的状态价值statevalues,计算优势函数At=R-statevalues。
6)利用Criticloss=mean(square(At))更新Critic网络。
7)将存储的状态集合states动作集合actions输入到Actornew网络得到动作概率集合probnew,这样就得到了策略更新比例ratio。
8)利用OpenAI提出的PPO2算法,构建目标函数,并更新Actornew网络。
9)重复步骤5)~8)循环一定步数之后,利用Actornew网络参数更新Actorold网络。智能体通过与环境不断交互学习过程中,得到最优的交叉口信号灯控制模型。
步骤5:将交叉口的当前相位与步骤4中的神经网络输出进行拼接,Actor动作网络根据网络输出按照概率选择交叉口信号灯控制模型的最终相位结果;
交叉口是城市交通网络的枢纽和关键节点,交叉口的信号优化是提高城市交通网络交通运输效率的主要方式。本发明针对DRL应用于交通信号控制中存在的忽略交通状态空间耦合关系、忽略交通状态时序相关性大和面对变化的交通流主动应变能力不够突出的问题;两层注意力机制网络模型可以提高Agent信号控制的主动性,灵活性,帮助控制模型更好地学习交通状态在空间和时间维度上的信息,以更好地适应复杂变化的城市交通信号灯控制问题。
Claims (3)
1.一种基于双阶段注意力机制和深度强化学习的信号灯控制方法,其特征在于,包括以下步骤:
(1)根据交叉口路段的实际情况,建立能够反映当前交通网络状态的张量;
(2)利用双阶段注意力机制网络进行状态预处理;第一层注意力机制循环神经网络f1自适应地选取每个时间步状态xt的各特征,掌握交通状态空间分布细节信息;第二层注意力机制循环神经网络f2以每个时间步的前三个历史状态为输入,利用交通状态时序相关性大的特点增强信控模型的主动控制能力;
(3)基于深度强化学习算法A2C建立交叉口信号控制神经网络模型;
(4)利用PPO算法训练交叉口信号控制神经网络模型:利用SUMO搭建路网和车流的仿真环境,神经网络模型通过SUMO的Traci接口与仿真环境交互,将步骤(2)中预处理后的状态作为强化学习的状态利用PPO算法训练网络得到最优的交叉口信号控制神经网络模型;
(5)将交叉口的当前相位与最优的交叉口信号控制神经网络模型输出的特征进行拼接,作为Actor动作概率网络的输入;根据Actor动作概率网络输出的动作概率选择交叉口信号灯控制模型的最终相位结果;
步骤(3)所述建立的交叉口信号灯控制神经网络模型包括第一层循环神经网络GRU、第二层循环神经网络GRU,第三层到第六层为全连接神经网络;所述第一层循环神经网络GRU为步骤2中第一层注意力机制的循环神经网络f1;所述第二层循环神经网络GRU为步骤2中的第二层注意力机制循环神经网络f2;所述第六层全连接神经网络将上一层网络的输出与当前相位状态进行拼接作为输入,输出分别是Actor动作概率网络和Critic价值网络;
所述步骤(4)包括以下步骤:
(41)分别建立基于随机参数θa的Actor动作网络和基于随机参数θc的Critic评价网络作为新策略网络π',再分别建立与Actor动作网络和Critic评价网络结构完全一样的旧策略网络π;
(42)初始化神经网络参数、交通仿真的状态和仿真次数、轨迹池;
(43)在每个决策时间步,将从当前仿真窗口获取的状态St输入到旧策略π的Actor网络,状态经过两层循环神经网络预处理后,Actor网络根据输出概率参数随机选择一个动作,SUMO仿真软件根据选择的动作执行对应的相位,并获取环境反馈的奖励Rt和下一个St+1;
(44)利用OpenAI提出的PPO2算法,构建目标函数,通过与环境不断交互学习过程中,得到最优的交叉口信号灯控制模型;所述目标函数为:
其中,ε表示clip的阈值,Aθ’(st,at)表示优势函数,ratio表示新老策略比值:
2.根据权利要求1所述的基于双阶段注意力机制和深度强化学习的信号灯控制方法,其特征在于,所述步骤(1)包括以下步骤:
(11)对进入交叉口的各路段车道按照与交叉口的距离进行等距元胞划分,得到每个车道的交通状态信息;
(12)重复步骤(11),将各个方向的车道信息进行拼接,得到一个包含各个车道信息的状态向量;
(13)采用四相位进行动作设计,分别对应交叉口4种绿灯相位:南北方向绿灯,东西方向绿灯,南北方向左转绿灯和东西方向左转绿灯;
(14)将瞬时奖励R定义为相邻时间步t之间路口所有车辆的累计平均等待时间之差:
Rt=α(TT+1-Tt) (4)
其中,Tt是第t个时间步内路网所有车辆的累计平均等待时间,Tt+1是第t+1个时间步内路网所有车辆的累计平均等待时间,α是常量,避免奖励值范围波动过大。
3.根据权利要求1所述的基于双阶段注意力机制和深度强化学习的信号灯控制方法,其特征在于,所述步骤(2)包括以下步骤:
(21)第一层注意力机制循环神经网络自适应地选取状态各特征:对于当前时刻的状态输入xt∈Rn,引入注意力机制自适应地选取各个特征,即对t时刻状态xt;xt的不同特征包含的是不同车道和距离交叉口不同距离的交通状态元胞信息;神经网络为各个特征赋予一定的注意力权重衡量了t时刻输入xt的第k个特征的重要性;
(22)第二层注意力机制循环神经网络用于处理状态序列预测问题;对于当前时刻t,建立当前时刻状态与前两个时间步的状态以及当前时刻t的输出之间的关系;进入注意力机制,利用不同的网络参数,对不同时刻的采用不同的权重系数,取t时刻状态以及t时刻前两个时间步状态和得到
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111214138.8A CN114038212B (zh) | 2021-10-19 | 2021-10-19 | 基于双阶段注意力机制和深度强化学习的信号灯控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111214138.8A CN114038212B (zh) | 2021-10-19 | 2021-10-19 | 基于双阶段注意力机制和深度强化学习的信号灯控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114038212A CN114038212A (zh) | 2022-02-11 |
CN114038212B true CN114038212B (zh) | 2023-03-28 |
Family
ID=80141642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111214138.8A Active CN114038212B (zh) | 2021-10-19 | 2021-10-19 | 基于双阶段注意力机制和深度强化学习的信号灯控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114038212B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114527666B (zh) * | 2022-03-09 | 2023-08-11 | 西北工业大学 | 基于注意力机制的cps系统强化学习控制方法 |
CN115359653A (zh) * | 2022-07-25 | 2022-11-18 | 清华大学 | 一种交通信号控制方法和装置 |
CN115691110B (zh) * | 2022-09-20 | 2023-08-25 | 东南大学 | 一种面向动态车流的基于强化学习的交叉口信号周期稳定配时方法 |
CN115762128B (zh) * | 2022-09-28 | 2024-03-29 | 南京航空航天大学 | 一种基于自注意力机制的深度强化学习交通信号控制方法 |
CN115578870B (zh) * | 2022-09-30 | 2023-06-30 | 合肥工业大学 | 一种基于近端策略优化的交通信号控制方法 |
CN116092297B (zh) * | 2023-04-07 | 2023-06-27 | 南京航空航天大学 | 一种低渗透率分布式差分信号控制的边缘计算方法及系统 |
CN116227598B (zh) * | 2023-05-08 | 2023-07-11 | 山东财经大学 | 一种基于双阶段注意力机制的事件预测方法、设备及介质 |
CN116311948B (zh) * | 2023-05-11 | 2023-08-01 | 武汉理工大学三亚科教创新园 | 基于交通流速度预测和信号灯状态的车辆路径规划方法 |
CN117079479B (zh) * | 2023-10-17 | 2024-01-16 | 之江实验室 | 一种时空预测的后继强化学习的交通信号控制方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101821494B1 (ko) * | 2016-08-10 | 2018-01-24 | 중앙대학교 산학협력단 | 감응식 교통 신호 제어 방법 및 그 장치 |
KR102171671B1 (ko) * | 2018-08-09 | 2020-10-29 | (주)인터아이 | 딥 러닝 및 인공지능 플래닝 기반 교통신호 통합제어 시스템 |
CN110491146B (zh) * | 2019-08-21 | 2020-08-21 | 浙江工业大学 | 一种基于深度学习的交通信号控制方案实时推荐方法 |
US20210118288A1 (en) * | 2019-10-22 | 2021-04-22 | Mitsubishi Electric Research Laboratories, Inc. | Attention-Based Control of Vehicular Traffic |
CN110969872A (zh) * | 2019-12-18 | 2020-04-07 | 上海天壤智能科技有限公司 | 基于强化学习和图注意力网络的交通信号控制方法及系统 |
CN111260937B (zh) * | 2020-02-24 | 2021-09-14 | 武汉大学深圳研究院 | 一种基于强化学习的十字路口交通信号灯控制方法 |
CN111598325A (zh) * | 2020-05-11 | 2020-08-28 | 浙江工业大学 | 基于层次聚类和分层注意力机制的交通速度预测方法 |
CN113299084B (zh) * | 2021-05-31 | 2022-04-12 | 大连理工大学 | 一种基于多视角编码迁移强化学习的区域信号灯协同控制方法 |
-
2021
- 2021-10-19 CN CN202111214138.8A patent/CN114038212B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114038212A (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114038212B (zh) | 基于双阶段注意力机制和深度强化学习的信号灯控制方法 | |
CN111931905B (zh) | 一种图卷积神经网络模型、及利用该模型的车辆轨迹预测方法 | |
CN110060475B (zh) | 一种基于深度强化学习的多交叉口信号灯协同控制方法 | |
CN112700664B (zh) | 一种基于深度强化学习的交通信号配时优化方法 | |
CN112365724B (zh) | 一种基于深度强化学习的连续交叉口信号协同控制方法 | |
CN108847037B (zh) | 一种面向非全局信息的城市路网路径规划方法 | |
CN112216124B (zh) | 一种基于深度强化学习的交通信号控制方法 | |
CN112632858A (zh) | 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法 | |
CN111785045A (zh) | 基于演员-评论家算法的分布式交通信号灯联合控制方法 | |
CN104766484A (zh) | 基于进化多目标优化和蚁群算法的交通控制与诱导系统和方法 | |
CN114360266B (zh) | 一种网联车探测状态感知的交叉口强化学习信号控制方法 | |
CN114627657A (zh) | 一种基于图深度强化学习的自适应交通信号控制方法 | |
CN113538910A (zh) | 一种自适应的全链条城市区域网络信号控制优化方法 | |
CN115331460B (zh) | 一种基于深度强化学习的大规模交通信号控制方法及装置 | |
CN112863179B (zh) | 一种基于神经网络模型预测控制的路口信号灯控制方法 | |
CN116524745B (zh) | 一种云边协同区域交通信号动态配时系统及方法 | |
CN115691167A (zh) | 一种基于交叉口全息数据的单点交通信号控制方法 | |
CN116863729A (zh) | 一种基于深度强化学习算法的多智能体道路交通信号控制方法 | |
CN113077642B (zh) | 一种交通信号灯控制方法、装置及计算机可读存储介质 | |
Wu et al. | Deep reinforcement learning based traffic signal control: A comparative analysis | |
CN116758767B (zh) | 基于多策略强化学习的交通信号灯控制方法 | |
CN117133138A (zh) | 一种多交叉口交通信号协同控制方法 | |
CN110021168B (zh) | 一种车联网下实现实时智能交通管理的分级决策方法 | |
WO2024001301A1 (zh) | 一种无信号灯交叉路口车辆协同控制方法及系统 | |
CN116824848A (zh) | 基于贝叶斯深度q网络的交通信号优化控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |