CN115512558A - 一种基于多智能体强化学习的交通灯信号控制方法 - Google Patents
一种基于多智能体强化学习的交通灯信号控制方法 Download PDFInfo
- Publication number
- CN115512558A CN115512558A CN202211103815.3A CN202211103815A CN115512558A CN 115512558 A CN115512558 A CN 115512558A CN 202211103815 A CN202211103815 A CN 202211103815A CN 115512558 A CN115512558 A CN 115512558A
- Authority
- CN
- China
- Prior art keywords
- intersection
- traffic
- reinforcement learning
- traffic light
- signal control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/09—Arrangements for giving variable traffic instructions
- G08G1/095—Traffic lights
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0108—Measuring and analyzing of parameters relative to traffic conditions based on the source of data
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
- G08G1/0145—Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种基于多智能体强化学习的交通灯信号控制方法,包括:获取真实交通数据,构建并初始化交通环境;针对每个交叉路口的交通灯构建多智能体强化学习模型,所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层;训练多智能体强化学习模型;每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值,利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案,并控制交通信号灯的行动。与现有技术相比,本发明考虑了邻居路口的协作关系,能够适应复杂的道路环境,并且能针对每个路口给出适合该交叉路口的最优交通灯信号控制方案。
Description
技术领域
本发明涉及交通信号灯智能控制领域,尤其是涉及一种基于多智能体强化学习的交通灯信号控制方法。
背景技术
近年来,大多数城市都遭遇了城市交通拥堵。可怕的交通拥堵将导致空气污染和经济损失问题。为了缓解交通拥堵,交通领域的研究人员提出了各种交通信号控制方法来协调各路口的车辆运动。如固定时间改变交通信号、按照最大压力改变信号等。这些交通方法都是基于领域知识所构建出来得。然而,交通状况是高度动态的,使得这些交通领域的方法不能给出最佳解决方案来更有效地协调各路口得车辆,缓解交通拥堵问题。
现在,许多研究开始利用强化学习来设计交通信号控制方法。与交通领域的方法相比,基于强化学习的方法可以减少更多的车辆驾驶时间。如图1(a)所示,强化学习的基本框架是智能体和环境之间的迭代,它更加灵活。智能体根据自己的实时观察给出推荐行动,环境接受该行动并返回相应的奖励给予智能体。面对整个城市下大规模路网的交通信号控制问题,现有的主流研究是利用多智能体强化学习框架来给出控制策略。
现在基于强化学习的主流方法是适应分布式框架Ape-XDQN,它将强化学习过程分为两个独立的部分:行动和学习。行动在每个交叉点设置一个统一的智能体,以获取样本并将其存储在经验池中。学习用经验池训练统一的智能体。为了实现跨路口的协作,研究人员允许智能体不仅观察其邻居的交通状况,而且观察其过去的行为,而不是仅仅使用本地交通状况。虽然目前的主流方法已经有效地缓解了交通拥堵,减少了车辆行驶时间,但用共享参数训练统一的代理,导致现有的方法在学习交叉路口的协作模式方面存在不足。如图1(b)所示,路网中存在两个不同协作模式的交叉路口。交叉路口B与四条道路相连,其中B-W和B-N为双向道路,B-S和B-E为单向道路,这表明B-S、B-E对交叉路口B的影响与B-W和B-N不同。交叉路口A与三条双向街道和一条单向街道相连,这与交叉路口B完全不同。显然,当他们观察到的状态相同时,交叉路口A的智能体应该给出与交叉路口B的智能体不同的政策。简单来说,当路口数量增加时,用图注意网络和Ape-XDQN框架很难学习大规模道路网络中存在的所有交通模式,从而给出适合不同交叉路口的最优动作。
发明内容
本发明的目的就是为了提供一种基于多智能体强化学习的交通灯信号控制方法,能够学习大规模道路网络中存在的所有交通模式,从而给出适合不同交叉路口的最优动作。
本发明的目的可以通过以下技术方案来实现:
一种基于多智能体强化学习的交通灯信号控制方法,包括以下步骤:
获取真实交通数据,构建并初始化交通环境,所述交通数据包括路网信息、交通流数据和环境信息;
针对每个交叉路口的交通灯构建多智能体强化学习模型,所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层,其中,所述观测嵌入层基于多层感知机将交通环境的观测值映射为潜在交通状态观测向量,所述自适应邻居协作层基于多模式图注意力网络聚合目标交叉路口与邻居路口的潜在交通状态观测向量,得到目标交叉路口包含其邻居信息的潜在表征,所述Q值预测层根据输入的目标交叉路口的潜在表征,输出不同行动的预期奖励,并选择具有最高预期奖励的最佳行动,作为最优的交通灯信号控制方案;
基于真实交通数据训练多智能体强化学习模型;
每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值,利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案,并控制交通信号灯的行动。
所述观测嵌入层基于多层感知器将k维的观测值嵌入到m维的潜伏层:
其中,是第i个交叉路口在时间t的观测值,和分别是权重矩阵和偏置向量,σ是ReLU函数,观测嵌入层的输出代表第i个交叉路口的当前潜在交通状态观测向量,观测值包括当前的交通信号与交叉路口相连的每条接近车道的车辆数量以及交叉路口的压力
所述多模式图注意力网络包括观测交互模块、邻居关注分布模块、邻居信息聚合模块、多头注意力机制模块。
所述观测交互模块学习邻居路口对目标交叉路口的重要性:
eij=(hiWt)·hjWs)T
所述邻居关注分布模块基于Softmax函数正常化邻居路口对目标交叉路口的重要性:
所述邻居信息聚合模块基于正常化后的重要性对邻居路口的信息进行聚合:
所述多头注意力机制的多头函数被并行训练,以生成多个交叉路口的邻域表示hsi,并将其平均为hmi:
其中,H为注意头的数量。
所述多头注意机制模块中的每个交叉路口上设有一个临界节点嵌入模块,以确定每个头的权重,并基于权重调整交叉路口邻域表示的平均值:
wi=σ(Waihi+bai)
hmi′=σ(Wq·wi·Hi)+bq)
所述Q值预测层基于深度Q网络,根据贝尔曼方程预测每个备选行动的预期奖励,其中,所述贝尔曼方程为:
Q(st,at)=R(st,at)+γmaxQ(st+1,at+1)
其中,st为t时刻路网观测值由多模式图注意力网络映射后的路网状态,at为t时刻的行动集合,γ为折扣系数,R(*)为st状态下选择动作at的观测值,Q(*)为行动价值函数。
与现有技术相比,本发明具有以下有益效果:
(1)本发明将分布式强化学习框架作为算法的基础框架,提出一种多模式图注意力网络来聚合目标路口和邻居路口的信息,可以探索每个交叉路口存在的特殊协作模式,使智能体能够给出考虑目标交叉路口和其邻居之间合作的行动,从而得到针对目标交叉路口的最优控制方案。
(2)本发明通过临界节点嵌入来捕捉每个邻居路口对目标路口影响的权重,从而更精确的表示邻居间的协同关系,提高预测精度。
(3)本发明基于真实路网和真实交通流数据作为实验数据,充分模拟现实路况,使得模型的效果更适应现实场景。
附图说明
图1为强化学习框架和两个不同路况的十字路口示意图;
图2为多智能体强化学习模型的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种基于多智能体强化学习的交通灯信号控制方法,包括以下步骤:
0)问题建模
首先为整个交通信号灯管控场景建立数学模型,定义交通环境中的状态,智能体的动作,以及相应的奖励。
在交通信号控制系统中,每个交叉路口都由一个代理控制。代理人根据自己的观察给出“最优”的交通信号,其目的是使道路网络中所有车辆的行驶时间最小。特别是,交通信号控制问题被看作是一个马尔可夫博弈,并由以下主要部分组成:
观测值指的是系统状态空间中智能体可以观察和记录的部分。实际上,观测空间是系统状态空间的子空间。我们定义了智能体i在时间t的观测值它包括由向量表示的其当前阶段、与交叉路口相连的每个进路车道上的车辆数量以及交叉路口的压力。
在交通信号控制问题中,智能体i会根据观察到的从行动集中选择一个行动该行动将被设定为目标交叉路口的下一阶段,表明该交叉路口从时间t到t+δt将处于阶段本实施例中,行动集包括"东直西直(ESWS)"、"北直南直(NSSS)"、"东左西左(ELWL)"、"北左南左(NLSL)"四个行动,其中,“直”表示直行,“左”表示左转弯。也就是说,交通灯在进行信号控制切换时,仅包括以上四种行动方式。
⑤奖励r
每个代理人在采取行动后,可以根据环境的反馈获得奖励。最优的奖励时使得所有车辆的旅行时间最小化,而这是很难实时测量的。因此,使用等价的奖励来确定代理的学习方向,定义为是在时间t上每个接近车道l的排队长度。
⑥策略π和折扣因子γ
智能体遵循政策π,在时间t给出最佳行动,使奖励其中T是一个情节的总时间步骤,折扣系数γ∈[0,1]中区分历史奖励的重要性。使用每个智能体i在时间t的行动价值函数来近似计算代理人观察状态ot并给出交通信号行动为时的奖励期望政策π将根据行动-价值函数选择行动a′,其中a′为
1)获取真实交通数据,构建并初始化交通环境,所述交通数据包括路网信息、交通流数据和环境信息;
基于cityflow交通模拟器构建交通环境,并进行交通灯的控制模拟。
本实施例使用多个城市的真实路网结构来构建模拟器中的路网,并使用该地1小时的观测车流来构建模拟器中的模拟车流。设置模拟器模拟时长为3600s;路网中共有16个路口,在每个路口设置智能交通灯,并且信号切换时间设定为10s一次。
2)针对每个交叉路口的交通灯构建多智能体强化学习模型,所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层,如图2所示;
2-1)观测嵌入层
观测嵌入层基于多层感知机将交通环境的观测值映射为潜在交通状态观测向量,将k维的观测值嵌入到m维的潜伏层:
其中,是第i个交叉路口在时间t的观测值,和分别是权重矩阵和偏置向量,σ是ReLU函数,观测嵌入层的输出代表第i个交叉路口的当前潜在交通状态观测向量,观测值包括当前的交通信号与交叉路口相连的每条接近车道的车辆数量以及交叉路口的压力
2-2)自适应邻居协作层
自适应邻居协作层基于多模式图注意力网络聚合目标交叉路口与邻居路口的潜在交通状态观测向量,得到目标交叉路口包含其邻居信息的潜在表征;
在多个交叉口的交通信号控制问题中,每个代理不仅需要考虑自己观测到的状态,还需要考虑其邻居的动向。然而,多头机制不能学习大规模道路网络中存在的所有协作模式。因此,本发明提出了多模式的图注意力网络,在图注意力网络中加入了多层感知,以学习每个交叉口的协作模式。特别是,该层的多层感知机不共享参数,而该层的其他部分则共享所有参数。
所述多模式图注意力网络包括观测交互模块、邻居关注分布模块、邻居信息聚合模块、多头注意力机制模块。
2-2-1)观测交互模块学习邻居路口对目标交叉路口的重要性:
eij=(hiWt)·hjWs)T
2-2-2)邻居关注分布模块基于Softmax函数正常化邻居路口对目标交叉路口的重要性:
2-2-3)为了汇总邻居的信息,了解他们的动向,邻居信息聚合模块基于正常化后的重要性对邻居路口的信息进行聚合:
其中,是邻域交叉嵌入的权重参数,Wq和bq是权重矩阵和偏执向量,邻域表示积累了邻域的信息,代表与相邻交叉路口的协作模式,σ为ReLU函数,邻居表示hsi代表一种与相邻交叉口的协作模式。基于这个表示,代理可以关注邻居的运动和它的观测值,以做出考虑目标和邻居交叉路口之间协作的最佳行动。
2-2-4)为了保证注意力机制能够很好地覆盖不同位置的不同模式的交叉口,传统的做法是将单头注意力机制扩展为多头机制。具体来说,多头注意函数被并行训练,以生成多个交叉口的邻域表示hsi,并将其平均为hmi:
其中,H为注意头的数量。
尽管多头关注机制比单头机制能覆盖更多的邻居聚集模式,但它仅限于共享参数的形式,这对于学习大规模路网中存在的所有协作模式仍然是不够的。因此,本发明中,在多头注意机制模块中的每个交叉路口上设有一个临界节点嵌入模块,以确定每个头的权重,并基于权重调整交叉路口邻域表示的平均值:
wi=σ(Waihi+bai)
hmi′=σ(Wq·wi·Hi)+bq)
2-3)Q值预测层根据输入的目标交叉路口的潜在表征,输出不同行动的预期奖励,并选择具有最高预期奖励的最佳行动,作为最优的交通灯信号控制方案;
所述Q值预测层基于深度Q网络,根据贝尔曼方程预测每个备选行动的预期奖励,其中,所述贝尔曼方程为:
Q(st,at)=R(st,at)+γmaxQ(st+1,att1)
其中,st为t时刻路网观测值由多模式图注意力网络映射后的路网状态,at为t时刻的行动集合,γ为折扣系数,R(*)为st状态下选择动作at的观测值,Q(*)为行动价值函数。
本实施例中,预期奖励取决于各路口的等待车辆数。
3)基于真实交通数据训练多智能体强化学习模型;
4)每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值,利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案,并控制交通信号灯的行动。
本实施例中,交通信号灯的控制方法是定时切换交通信号,在需要切换交通信号时,获取观测值(包括路口下四个方向停止的车辆数目),并基于训练好的模型给出最优交通灯信号控制方案,判断是否需要进行切换(即最优控制方案与当前执行方案是否一致),如果需要切换,则控制交通信号灯按照最优控制方案行动,若不需要切换则保持不变。本实施例中,每隔10s重新执行上述步骤,实现交通信号灯的实时控制,以达到优化交通的目的。
在本实施例中,设定的观测值为交叉口相连的每个进路车道上的车辆数量以及交叉口的压力,其中交叉口的压力为进交叉口的总车数减去出交叉口的总车数。
根据上述方法,得到实验结果如表1所示。实验结果表明,使用基于多智能体强化学习构建的智能交通灯来指挥交通灯的信号变化能大大降低车辆的平均行驶时间。
表1不同方法控制交通信号的车辆平均行驶时间
方法 | 纽约28*7路网 | 杭州4*4路网 | 济南3*4路网 |
固定时间切换信号 | 1950.27s | 728.29s | 869.85s |
本发明所述方法 | 1107.24s | 293.01s | 291.41s |
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案,皆应在权利要求书所确定的保护范围内。
Claims (10)
1.一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,包括以下步骤:
获取真实交通数据,构建并初始化交通环境,所述交通数据包括路网信息、交通流数据和环境信息;
针对每个交叉路口的交通灯构建多智能体强化学习模型,所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层,其中,所述观测嵌入层基于多层感知机将交通环境的观测值映射为潜在交通状态观测向量,所述自适应邻居协作层基于多模式图注意力网络聚合目标交叉路口与邻居路口的潜在交通状态观测向量,得到目标交叉路口包含其邻居信息的潜在表征,所述Q值预测层根据输入的目标交叉路口的潜在表征,输出不同行动的预期奖励,并选择具有最高预期奖励的最佳行动,作为最优的交通灯信号控制方案;
基于真实交通数据训练多智能体强化学习模型;
每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值,利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案,并控制交通信号灯的行动。
3.根据权利要求1所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述多模式图注意力网络包括观测交互模块、邻居关注分布模块、邻居信息聚合模块、多头注意力机制模块。
9.根据权利要求1所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述Q值预测层基于深度Q网络,根据贝尔曼方程预测每个备选行动的预期奖励,其中,所述贝尔曼方程为:
Q(st,at)=R(st,at)+γmaxQ(st+1,at+1)
其中,st为t时刻路网观测值由多模式图注意力网络映射后的路网状态,at为t时刻的行动集合,γ为折扣系数,R(*)为st状态下选择动作at的观测值,Q(*)为行动价值函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211103815.3A CN115512558A (zh) | 2022-09-09 | 2022-09-09 | 一种基于多智能体强化学习的交通灯信号控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211103815.3A CN115512558A (zh) | 2022-09-09 | 2022-09-09 | 一种基于多智能体强化学习的交通灯信号控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115512558A true CN115512558A (zh) | 2022-12-23 |
Family
ID=84504390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211103815.3A Pending CN115512558A (zh) | 2022-09-09 | 2022-09-09 | 一种基于多智能体强化学习的交通灯信号控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115512558A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092056A (zh) * | 2023-03-06 | 2023-05-09 | 安徽蔚来智驾科技有限公司 | 目标识别方法、车辆控制方法、设备、介质及车辆 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102155055B1 (ko) * | 2019-10-28 | 2020-09-11 | 라온피플 주식회사 | 강화학습 기반 신호 제어 장치 및 신호 제어 방법 |
-
2022
- 2022-09-09 CN CN202211103815.3A patent/CN115512558A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102155055B1 (ko) * | 2019-10-28 | 2020-09-11 | 라온피플 주식회사 | 강화학습 기반 신호 제어 장치 및 신호 제어 방법 |
Non-Patent Citations (1)
Title |
---|
ZHI CHEN ET AL: "Multi-mode Light: Learning Special Collaboration Patterns for Traffic Signal Control", ARTIFICIAL NEURAL NETWORKS AND MACHINE LEARNING-ICANN2022 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092056A (zh) * | 2023-03-06 | 2023-05-09 | 安徽蔚来智驾科技有限公司 | 目标识别方法、车辆控制方法、设备、介质及车辆 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN110032782B (zh) | 一种城市级智能交通信号控制系统及方法 | |
CN109215355A (zh) | 一种基于深度强化学习的单点交叉口信号配时优化方法 | |
CN109493599A (zh) | 一种基于生成式对抗网络的短时交通流预测方法 | |
CN108831168B (zh) | 一种基于关联路口视觉识别的交通信号灯控制方法与系统 | |
CN110570672B (zh) | 一种基于图神经网络的区域交通信号灯控制方法 | |
CN111260937A (zh) | 一种基于强化学习的十字路口交通信号灯控制方法 | |
Lin et al. | Traffic signal optimization based on fuzzy control and differential evolution algorithm | |
CN113223305B (zh) | 基于强化学习的多路口交通灯控制方法、系统及存储介质 | |
CN112216124A (zh) | 一种基于深度强化学习的交通信号控制方法 | |
CN112071062B (zh) | 一种基于图卷积网络和图注意力网络的行车时间估计方法 | |
CN113643528A (zh) | 信号灯控制方法、模型训练方法、系统、装置及存储介质 | |
CN113299084B (zh) | 一种基于多视角编码迁移强化学习的区域信号灯协同控制方法 | |
CN114360266B (zh) | 一种网联车探测状态感知的交叉口强化学习信号控制方法 | |
Ge et al. | Multi-agent transfer reinforcement learning with multi-view encoder for adaptive traffic signal control | |
CN113538910A (zh) | 一种自适应的全链条城市区域网络信号控制优化方法 | |
CN115512558A (zh) | 一种基于多智能体强化学习的交通灯信号控制方法 | |
CN115731724A (zh) | 一种基于强化学习的区域交通信号配时方法及系统 | |
Choy et al. | Real-time coordinated signal control through use of agents with online reinforcement learning | |
Shi et al. | Efficient connected and automated driving system with multi-agent graph reinforcement learning | |
CN111341109A (zh) | 一种基于时空相似性的城市级信号推荐系统 | |
Shamsi et al. | Reinforcement learning for traffic light control with emphasis on emergency vehicles | |
Jiang et al. | A general scenario-agnostic reinforcement learning for traffic signal control | |
Li | A hierarchical autonomous driving framework combining reinforcement learning and imitation learning | |
CN116758767A (zh) | 基于多策略强化学习的交通信号灯控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |