CN115512558A - 一种基于多智能体强化学习的交通灯信号控制方法 - Google Patents

一种基于多智能体强化学习的交通灯信号控制方法 Download PDF

Info

Publication number
CN115512558A
CN115512558A CN202211103815.3A CN202211103815A CN115512558A CN 115512558 A CN115512558 A CN 115512558A CN 202211103815 A CN202211103815 A CN 202211103815A CN 115512558 A CN115512558 A CN 115512558A
Authority
CN
China
Prior art keywords
intersection
traffic
reinforcement learning
traffic light
signal control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211103815.3A
Other languages
English (en)
Inventor
赵生捷
邓浩
陈志�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202211103815.3A priority Critical patent/CN115512558A/zh
Publication of CN115512558A publication Critical patent/CN115512558A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/095Traffic lights
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0108Measuring and analyzing of parameters relative to traffic conditions based on the source of data
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • G08G1/0145Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于多智能体强化学习的交通灯信号控制方法,包括:获取真实交通数据,构建并初始化交通环境;针对每个交叉路口的交通灯构建多智能体强化学习模型,所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层;训练多智能体强化学习模型;每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值,利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案,并控制交通信号灯的行动。与现有技术相比,本发明考虑了邻居路口的协作关系,能够适应复杂的道路环境,并且能针对每个路口给出适合该交叉路口的最优交通灯信号控制方案。

Description

一种基于多智能体强化学习的交通灯信号控制方法
技术领域
本发明涉及交通信号灯智能控制领域,尤其是涉及一种基于多智能体强化学习的交通灯信号控制方法。
背景技术
近年来,大多数城市都遭遇了城市交通拥堵。可怕的交通拥堵将导致空气污染和经济损失问题。为了缓解交通拥堵,交通领域的研究人员提出了各种交通信号控制方法来协调各路口的车辆运动。如固定时间改变交通信号、按照最大压力改变信号等。这些交通方法都是基于领域知识所构建出来得。然而,交通状况是高度动态的,使得这些交通领域的方法不能给出最佳解决方案来更有效地协调各路口得车辆,缓解交通拥堵问题。
现在,许多研究开始利用强化学习来设计交通信号控制方法。与交通领域的方法相比,基于强化学习的方法可以减少更多的车辆驾驶时间。如图1(a)所示,强化学习的基本框架是智能体和环境之间的迭代,它更加灵活。智能体根据自己的实时观察给出推荐行动,环境接受该行动并返回相应的奖励给予智能体。面对整个城市下大规模路网的交通信号控制问题,现有的主流研究是利用多智能体强化学习框架来给出控制策略。
现在基于强化学习的主流方法是适应分布式框架Ape-XDQN,它将强化学习过程分为两个独立的部分:行动和学习。行动在每个交叉点设置一个统一的智能体,以获取样本并将其存储在经验池中。学习用经验池训练统一的智能体。为了实现跨路口的协作,研究人员允许智能体不仅观察其邻居的交通状况,而且观察其过去的行为,而不是仅仅使用本地交通状况。虽然目前的主流方法已经有效地缓解了交通拥堵,减少了车辆行驶时间,但用共享参数训练统一的代理,导致现有的方法在学习交叉路口的协作模式方面存在不足。如图1(b)所示,路网中存在两个不同协作模式的交叉路口。交叉路口B与四条道路相连,其中B-W和B-N为双向道路,B-S和B-E为单向道路,这表明B-S、B-E对交叉路口B的影响与B-W和B-N不同。交叉路口A与三条双向街道和一条单向街道相连,这与交叉路口B完全不同。显然,当他们观察到的状态相同时,交叉路口A的智能体应该给出与交叉路口B的智能体不同的政策。简单来说,当路口数量增加时,用图注意网络和Ape-XDQN框架很难学习大规模道路网络中存在的所有交通模式,从而给出适合不同交叉路口的最优动作。
发明内容
本发明的目的就是为了提供一种基于多智能体强化学习的交通灯信号控制方法,能够学习大规模道路网络中存在的所有交通模式,从而给出适合不同交叉路口的最优动作。
本发明的目的可以通过以下技术方案来实现:
一种基于多智能体强化学习的交通灯信号控制方法,包括以下步骤:
获取真实交通数据,构建并初始化交通环境,所述交通数据包括路网信息、交通流数据和环境信息;
针对每个交叉路口的交通灯构建多智能体强化学习模型,所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层,其中,所述观测嵌入层基于多层感知机将交通环境的观测值映射为潜在交通状态观测向量,所述自适应邻居协作层基于多模式图注意力网络聚合目标交叉路口与邻居路口的潜在交通状态观测向量,得到目标交叉路口包含其邻居信息的潜在表征,所述Q值预测层根据输入的目标交叉路口的潜在表征,输出不同行动的预期奖励,并选择具有最高预期奖励的最佳行动,作为最优的交通灯信号控制方案;
基于真实交通数据训练多智能体强化学习模型;
每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值,利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案,并控制交通信号灯的行动。
所述观测嵌入层基于多层感知器将k维的观测值嵌入到m维的潜伏层:
Figure BDA0003840505540000021
其中,
Figure BDA0003840505540000022
是第i个交叉路口在时间t的观测值,
Figure BDA0003840505540000023
Figure BDA0003840505540000024
分别是权重矩阵和偏置向量,σ是ReLU函数,观测嵌入层的输出
Figure BDA0003840505540000025
代表第i个交叉路口的当前潜在交通状态观测向量,观测值
Figure BDA0003840505540000031
包括当前的交通信号
Figure BDA0003840505540000032
与交叉路口相连的每条接近车道的车辆数量
Figure BDA0003840505540000033
以及交叉路口的压力
Figure BDA0003840505540000034
所述多模式图注意力网络包括观测交互模块、邻居关注分布模块、邻居信息聚合模块、多头注意力机制模块。
所述观测交互模块学习邻居路口对目标交叉路口的重要性:
eij=(hiWt)·hjWs)T
其中,eij为邻居路口j对目标交叉路口i的重要性,Wt,
Figure BDA0003840505540000035
分别是目标交叉路口和邻居路口的潜在状态观测向量,hi,hj分别为目标交叉路口i和邻居路口j的观测值输入到观测嵌入层后的输出。
所述邻居关注分布模块基于Softmax函数正常化邻居路口对目标交叉路口的重要性:
Figure BDA0003840505540000036
其中,
Figure BDA0003840505540000037
是目标交叉路口i的邻居路口,τ为温度系数,用于调整softmax曲线的平滑程度。
所述邻居信息聚合模块基于正常化后的重要性对邻居路口的信息进行聚合:
Figure BDA0003840505540000038
其中,
Figure BDA0003840505540000039
是邻域交叉嵌入的权重参数,Wq和bq是权重矩阵和偏执向量,邻域表示
Figure BDA00038405055400000310
积累了邻域的信息,代表与相邻交叉路口的协作模式,σ为ReLU函数。
所述多头注意力机制的多头函数被并行训练,以生成多个交叉路口的邻域表示hsi,并将其平均为hmi
Figure BDA00038405055400000311
其中,H为注意头的数量。
所述多头注意机制模块中的每个交叉路口上设有一个临界节点嵌入模块,以确定每个头的权重,并基于权重调整交叉路口邻域表示的平均值:
wi=σ(Waihi+bai)
Figure BDA0003840505540000041
hmi′=σ(Wq·wi·Hi)+bq)
其中,
Figure BDA0003840505540000042
是观测嵌入层的输出,
Figure BDA0003840505540000043
是交叉路口i的多头的权重,hmi′是基于权重wi调整的交叉路口邻域表示
Figure BDA0003840505540000044
的加权和。
所述Q值预测层基于深度Q网络,根据贝尔曼方程预测每个备选行动的预期奖励,其中,所述贝尔曼方程为:
Q(st,at)=R(st,at)+γmaxQ(st+1,at+1)
其中,st为t时刻路网观测值由多模式图注意力网络映射后的路网状态,at为t时刻的行动集合,γ为折扣系数,R(*)为st状态下选择动作at的观测值,Q(*)为行动价值函数。
基于每个智能体i在时间t的行动价值函数
Figure BDA0003840505540000045
预估预期奖励
Figure BDA0003840505540000046
并通过最小化损失函数来训练深度Q网络,其中,预期奖励
Figure BDA0003840505540000047
定义为:
Figure BDA0003840505540000048
它代表了智能体选择动作后奖励总和的期望,
Figure BDA0003840505540000049
为时刻t在路口i所观测到的单次动作奖励;
损失函数
Figure BDA00038405055400000410
定义为:
Figure BDA00038405055400000411
其中,θn表示n次迭代参数,
Figure BDA00038405055400000412
Figure BDA00038405055400000413
的下一个观测值,
Figure BDA00038405055400000414
表示t时刻基于观测值
Figure BDA00038405055400000415
所选动作
Figure BDA00038405055400000416
动作奖励
Figure BDA00038405055400000417
和第n-1次迭代模型预估的预期奖励,
Figure BDA00038405055400000418
表示t时刻利用第n次迭代模型预估的预期奖励。
与现有技术相比,本发明具有以下有益效果:
(1)本发明将分布式强化学习框架作为算法的基础框架,提出一种多模式图注意力网络来聚合目标路口和邻居路口的信息,可以探索每个交叉路口存在的特殊协作模式,使智能体能够给出考虑目标交叉路口和其邻居之间合作的行动,从而得到针对目标交叉路口的最优控制方案。
(2)本发明通过临界节点嵌入来捕捉每个邻居路口对目标路口影响的权重,从而更精确的表示邻居间的协同关系,提高预测精度。
(3)本发明基于真实路网和真实交通流数据作为实验数据,充分模拟现实路况,使得模型的效果更适应现实场景。
附图说明
图1为强化学习框架和两个不同路况的十字路口示意图;
图2为多智能体强化学习模型的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种基于多智能体强化学习的交通灯信号控制方法,包括以下步骤:
0)问题建模
首先为整个交通信号灯管控场景建立数学模型,定义交通环境中的状态,智能体的动作,以及相应的奖励。
在交通信号控制系统中,每个交叉路口都由一个代理控制。代理人根据自己的观察给出“最优”的交通信号,其目的是使道路网络中所有车辆的行驶时间最小。特别是,交通信号控制问题被看作是一个马尔可夫博弈,并由以下主要部分组成:
Figure BDA0003840505540000051
①系统状态空间
Figure BDA0003840505540000052
假设路网中存在N个交叉路口,那么N个交叉路口的状态集合就是系统状态空间
Figure BDA0003840505540000053
这些状态是交叉路口的所有信息,包括信号相位、接近车道上的等待车辆数量、接近车道上的行驶车辆速度等。
②观测空间
Figure BDA0003840505540000054
观测值
Figure BDA0003840505540000055
指的是系统状态空间
Figure BDA0003840505540000056
中智能体可以观察和记录的部分。实际上,观测空间
Figure BDA0003840505540000057
是系统状态空间
Figure BDA0003840505540000058
的子空间。我们定义了智能体i在时间t的观测值
Figure BDA0003840505540000059
它包括由向量表示的其当前阶段、与交叉路口相连的每个进路车道上的车辆数量以及交叉路口的压力。
③动作集
Figure BDA00038405055400000510
在交通信号控制问题中,智能体i会根据观察到的
Figure BDA0003840505540000061
从行动集
Figure BDA0003840505540000062
中选择一个行动
Figure BDA0003840505540000063
该行动将被设定为目标交叉路口的下一阶段,表明该交叉路口从时间t到t+δt将处于阶段
Figure BDA0003840505540000064
本实施例中,行动集包括"东直西直(ESWS)"、"北直南直(NSSS)"、"东左西左(ELWL)"、"北左南左(NLSL)"四个行动,其中,“直”表示直行,“左”表示左转弯。也就是说,交通灯在进行信号控制切换时,仅包括以上四种行动方式。
④转移概率
Figure BDA0003840505540000065
过渡概率
Figure BDA0003840505540000066
定义了当交通系统在t时刻的状态st和所有代理人的相应联合行动at给定时,系统状态在下一时刻t+1的概率分布。其中
Figure BDA0003840505540000067
表示状态分布的空间。
⑤奖励r
每个代理人在采取行动后,可以根据环境的反馈获得奖励。最优的奖励时使得所有车辆的旅行时间最小化,而这是很难实时测量的。因此,使用等价的奖励来确定代理的学习方向,定义为
Figure BDA0003840505540000068
是在时间t上每个接近车道l的排队长度。
⑥策略π和折扣因子γ
智能体遵循政策π,在时间t给出最佳行动,使奖励
Figure BDA0003840505540000069
其中T是一个情节的总时间步骤,折扣系数γ∈[0,1]中区分历史奖励的重要性。使用每个智能体i在时间t的行动价值函数
Figure BDA00038405055400000610
来近似计算代理人观察状态ot并给出交通信号行动为
Figure BDA00038405055400000611
时的奖励期望
Figure BDA00038405055400000612
政策π将根据行动-价值函数选择行动a′,其中a′为
Figure BDA00038405055400000613
1)获取真实交通数据,构建并初始化交通环境,所述交通数据包括路网信息、交通流数据和环境信息;
基于cityflow交通模拟器构建交通环境,并进行交通灯的控制模拟。
本实施例使用多个城市的真实路网结构来构建模拟器中的路网,并使用该地1小时的观测车流来构建模拟器中的模拟车流。设置模拟器模拟时长为3600s;路网中共有16个路口,在每个路口设置智能交通灯,并且信号切换时间设定为10s一次。
2)针对每个交叉路口的交通灯构建多智能体强化学习模型,所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层,如图2所示;
2-1)观测嵌入层
观测嵌入层基于多层感知机将交通环境的观测值映射为潜在交通状态观测向量,将k维的观测值嵌入到m维的潜伏层:
Figure BDA0003840505540000071
其中,
Figure BDA0003840505540000072
是第i个交叉路口在时间t的观测值,
Figure BDA0003840505540000073
Figure BDA0003840505540000074
分别是权重矩阵和偏置向量,σ是ReLU函数,观测嵌入层的输出
Figure BDA0003840505540000075
代表第i个交叉路口的当前潜在交通状态观测向量,观测值
Figure BDA0003840505540000076
包括当前的交通信号
Figure BDA0003840505540000077
与交叉路口相连的每条接近车道的车辆数量
Figure BDA0003840505540000078
以及交叉路口的压力
Figure BDA0003840505540000079
2-2)自适应邻居协作层
自适应邻居协作层基于多模式图注意力网络聚合目标交叉路口与邻居路口的潜在交通状态观测向量,得到目标交叉路口包含其邻居信息的潜在表征;
在多个交叉口的交通信号控制问题中,每个代理不仅需要考虑自己观测到的状态,还需要考虑其邻居的动向。然而,多头机制不能学习大规模道路网络中存在的所有协作模式。因此,本发明提出了多模式的图注意力网络,在图注意力网络中加入了多层感知,以学习每个交叉口的协作模式。特别是,该层的多层感知机不共享参数,而该层的其他部分则共享所有参数。
所述多模式图注意力网络包括观测交互模块、邻居关注分布模块、邻居信息聚合模块、多头注意力机制模块。
2-2-1)观测交互模块学习邻居路口对目标交叉路口的重要性:
eij=(hiWt)·hjWs)T
其中,eij为邻居路口j对目标交叉路口i的重要性,Wt,
Figure BDA00038405055400000710
分别是目标交叉路口和邻居路口的潜在状态观测向量,hi,hj分别为目标交叉路口i和邻居路口j的观测值输入到观测嵌入层后的输出。
2-2-2)邻居关注分布模块基于Softmax函数正常化邻居路口对目标交叉路口的重要性:
Figure BDA00038405055400000711
其中,
Figure BDA00038405055400000712
是目标交叉路口i的邻居路口,τ为温度系数,用于调整softmax曲线的平滑程度。
2-2-3)为了汇总邻居的信息,了解他们的动向,邻居信息聚合模块基于正常化后的重要性对邻居路口的信息进行聚合:
Figure BDA0003840505540000081
其中,
Figure BDA0003840505540000082
是邻域交叉嵌入的权重参数,Wq和bq是权重矩阵和偏执向量,邻域表示
Figure BDA0003840505540000083
积累了邻域的信息,代表与相邻交叉路口的协作模式,σ为ReLU函数,邻居表示hsi代表一种与相邻交叉口的协作模式。基于这个表示,代理可以关注邻居的运动和它的观测值,以做出考虑目标和邻居交叉路口之间协作的最佳行动。
2-2-4)为了保证注意力机制能够很好地覆盖不同位置的不同模式的交叉口,传统的做法是将单头注意力机制扩展为多头机制。具体来说,多头注意函数被并行训练,以生成多个交叉口的邻域表示hsi,并将其平均为hmi
Figure BDA0003840505540000084
其中,H为注意头的数量。
尽管多头关注机制比单头机制能覆盖更多的邻居聚集模式,但它仅限于共享参数的形式,这对于学习大规模路网中存在的所有协作模式仍然是不够的。因此,本发明中,在多头注意机制模块中的每个交叉路口上设有一个临界节点嵌入模块,以确定每个头的权重,并基于权重调整交叉路口邻域表示的平均值:
wi=σ(Waihi+bai)
Figure BDA0003840505540000085
hmi′=σ(Wq·wi·Hi)+bq)
其中,
Figure BDA0003840505540000086
是观测嵌入层的输出,
Figure BDA0003840505540000087
是交叉路口i的多头的权重,hmi′是基于权重wi调整的交叉路口邻域表示
Figure BDA0003840505540000088
的加权和。
2-3)Q值预测层根据输入的目标交叉路口的潜在表征,输出不同行动的预期奖励,并选择具有最高预期奖励的最佳行动,作为最优的交通灯信号控制方案;
所述Q值预测层基于深度Q网络,根据贝尔曼方程预测每个备选行动的预期奖励,其中,所述贝尔曼方程为:
Q(st,at)=R(st,at)+γmaxQ(st+1,att1)
其中,st为t时刻路网观测值由多模式图注意力网络映射后的路网状态,at为t时刻的行动集合,γ为折扣系数,R(*)为st状态下选择动作at的观测值,Q(*)为行动价值函数。
基于每个智能体i在时间t的行动价值函数
Figure BDA0003840505540000091
预估预期奖励
Figure BDA0003840505540000092
并通过最小化损失函数来训练深度Q网络,其中,预期奖励
Figure BDA0003840505540000093
定义为:
Figure BDA0003840505540000094
它代表了智能体选择动作后奖励总和的期望,
Figure BDA0003840505540000095
为时刻t在路口i所观测到的单次动作奖励。根据上述定义式是无法实际求解得到预期奖励
Figure BDA0003840505540000096
的,因此,本发明采用
Figure BDA0003840505540000097
来近似计算预期奖励的值。
损失函数
Figure BDA0003840505540000098
定义为:
Figure BDA0003840505540000099
其中,θn表示n次迭代参数,
Figure BDA00038405055400000910
Figure BDA00038405055400000911
的下一个观测值,
Figure BDA00038405055400000912
表示t时刻基于观测值
Figure BDA00038405055400000913
所选动作
Figure BDA00038405055400000914
动作奖励
Figure BDA00038405055400000915
和第n-1次迭代模型预估的预期奖励,
Figure BDA00038405055400000916
表示t时刻利用第n次迭代模型预估的预期奖励。
本实施例中,预期奖励取决于各路口的等待车辆数。
3)基于真实交通数据训练多智能体强化学习模型;
4)每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值,利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案,并控制交通信号灯的行动。
本实施例中,交通信号灯的控制方法是定时切换交通信号,在需要切换交通信号时,获取观测值(包括路口下四个方向停止的车辆数目),并基于训练好的模型给出最优交通灯信号控制方案,判断是否需要进行切换(即最优控制方案与当前执行方案是否一致),如果需要切换,则控制交通信号灯按照最优控制方案行动,若不需要切换则保持不变。本实施例中,每隔10s重新执行上述步骤,实现交通信号灯的实时控制,以达到优化交通的目的。
在本实施例中,设定的观测值为交叉口相连的每个进路车道上的车辆数量以及交叉口的压力,其中交叉口的压力为进交叉口的总车数减去出交叉口的总车数。
根据上述方法,得到实验结果如表1所示。实验结果表明,使用基于多智能体强化学习构建的智能交通灯来指挥交通灯的信号变化能大大降低车辆的平均行驶时间。
表1不同方法控制交通信号的车辆平均行驶时间
方法 纽约28*7路网 杭州4*4路网 济南3*4路网
固定时间切换信号 1950.27s 728.29s 869.85s
本发明所述方法 1107.24s 293.01s 291.41s
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案,皆应在权利要求书所确定的保护范围内。

Claims (10)

1.一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,包括以下步骤:
获取真实交通数据,构建并初始化交通环境,所述交通数据包括路网信息、交通流数据和环境信息;
针对每个交叉路口的交通灯构建多智能体强化学习模型,所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层,其中,所述观测嵌入层基于多层感知机将交通环境的观测值映射为潜在交通状态观测向量,所述自适应邻居协作层基于多模式图注意力网络聚合目标交叉路口与邻居路口的潜在交通状态观测向量,得到目标交叉路口包含其邻居信息的潜在表征,所述Q值预测层根据输入的目标交叉路口的潜在表征,输出不同行动的预期奖励,并选择具有最高预期奖励的最佳行动,作为最优的交通灯信号控制方案;
基于真实交通数据训练多智能体强化学习模型;
每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值,利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案,并控制交通信号灯的行动。
2.根据权利要求1所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述观测嵌入层基于多层感知器将k维的观测值嵌入到m维的潜伏层:
Figure FDA0003840505530000011
其中,
Figure FDA0003840505530000012
是第i个交叉路口在时间t的观测值,
Figure FDA0003840505530000013
Figure FDA0003840505530000014
分别是权重矩阵和偏置向量,σ是ReLU函数,观测嵌入层的输出
Figure FDA0003840505530000015
代表第i个交叉路口的当前潜在交通状态观测向量,观测值
Figure FDA0003840505530000016
包括当前的交通信号
Figure FDA0003840505530000017
与交叉路口相连的每条接近车道的车辆数量
Figure FDA0003840505530000018
以及交叉路口的压力
Figure FDA0003840505530000019
3.根据权利要求1所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述多模式图注意力网络包括观测交互模块、邻居关注分布模块、邻居信息聚合模块、多头注意力机制模块。
4.根据权利要求3所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述观测交互模块学习邻居路口对目标交叉路口的重要性:
eij=(hiWt)·(hjWs)T
其中,eij为邻居路口j对目标交叉路口i的重要性,
Figure FDA0003840505530000021
分别是目标交叉路口和邻居路口的潜在状态观测向量,hi,hj分别为目标交叉路口i和邻居路口j的观测值输入到观测嵌入层后的输出。
5.根据权利要求4所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述邻居关注分布模块基于Softmax函数正常化邻居路口对目标交叉路口的重要性:
Figure FDA0003840505530000022
其中,
Figure FDA0003840505530000023
是目标交叉路口i的邻居路口,τ为温度系数,用于调整softmax曲线的平滑程度。
6.根据权利要求5所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述邻居信息聚合模块基于正常化后的重要性对邻居路口的信息进行聚合:
Figure FDA0003840505530000024
其中,
Figure FDA0003840505530000025
是邻域交叉嵌入的权重参数,Wq和bq是权重矩阵和偏执向量,邻域表示
Figure FDA0003840505530000026
积累了邻域的信息,代表与相邻交叉路口的协作模式,σ为ReLU函数。
7.根据权利要求6所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述多头注意力机制的多头函数被并行训练,以生成多个交叉路口的邻域表示hsi,并将其平均为hmi
Figure FDA0003840505530000027
其中,H为注意头的数量。
8.根据权利要求7所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述多头注意机制模块中的每个交叉路口上设有一个临界节点嵌入模块,以确定每个头的权重,并基于权重调整交叉路口邻域表示的平均值:
wi=σ(Waihi+bai)
Figure FDA0003840505530000031
hmi′=σ(Wq·(wi·Hi)+bq)
其中,
Figure FDA0003840505530000032
是观测嵌入层的输出,
Figure FDA0003840505530000033
是交叉路口i的多头的权重,hmi′是基于权重wi调整的交叉路口邻域表示
Figure FDA0003840505530000034
的加权和。
9.根据权利要求1所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述Q值预测层基于深度Q网络,根据贝尔曼方程预测每个备选行动的预期奖励,其中,所述贝尔曼方程为:
Q(st,at)=R(st,at)+γmaxQ(st+1,at+1)
其中,st为t时刻路网观测值由多模式图注意力网络映射后的路网状态,at为t时刻的行动集合,γ为折扣系数,R(*)为st状态下选择动作at的观测值,Q(*)为行动价值函数。
10.根据权利要求9所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,基于每个智能体i在时间t的行动价值函数
Figure FDA0003840505530000035
预估预期奖励
Figure FDA0003840505530000036
并通过最小化损失函数来训练深度Q网络,其中,预期奖励
Figure FDA0003840505530000037
定义为:
Figure FDA0003840505530000038
它代表了智能体选择动作后奖励总和的期望,
Figure FDA0003840505530000039
为时刻t在路口i所观测到的单次动作奖励;
损失函数
Figure FDA00038405055300000310
定义为:
Figure FDA00038405055300000311
其中,θn表示n次迭代参数,
Figure FDA00038405055300000312
Figure FDA00038405055300000313
的下一个观测值,
Figure FDA00038405055300000314
表示t时刻基于观测值
Figure FDA00038405055300000315
所选动作
Figure FDA00038405055300000316
动作奖励
Figure FDA00038405055300000317
和第n-1次迭代模型预估的预期奖励,
Figure FDA00038405055300000318
表示t时刻利用第n次迭代模型预估的预期奖励。
CN202211103815.3A 2022-09-09 2022-09-09 一种基于多智能体强化学习的交通灯信号控制方法 Pending CN115512558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211103815.3A CN115512558A (zh) 2022-09-09 2022-09-09 一种基于多智能体强化学习的交通灯信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211103815.3A CN115512558A (zh) 2022-09-09 2022-09-09 一种基于多智能体强化学习的交通灯信号控制方法

Publications (1)

Publication Number Publication Date
CN115512558A true CN115512558A (zh) 2022-12-23

Family

ID=84504390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211103815.3A Pending CN115512558A (zh) 2022-09-09 2022-09-09 一种基于多智能体强化学习的交通灯信号控制方法

Country Status (1)

Country Link
CN (1) CN115512558A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092056A (zh) * 2023-03-06 2023-05-09 安徽蔚来智驾科技有限公司 目标识别方法、车辆控制方法、设备、介质及车辆

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102155055B1 (ko) * 2019-10-28 2020-09-11 라온피플 주식회사 강화학습 기반 신호 제어 장치 및 신호 제어 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102155055B1 (ko) * 2019-10-28 2020-09-11 라온피플 주식회사 강화학습 기반 신호 제어 장치 및 신호 제어 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHI CHEN ET AL: "Multi-mode Light: Learning Special Collaboration Patterns for Traffic Signal Control", ARTIFICIAL NEURAL NETWORKS AND MACHINE LEARNING-ICANN2022 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092056A (zh) * 2023-03-06 2023-05-09 安徽蔚来智驾科技有限公司 目标识别方法、车辆控制方法、设备、介质及车辆

Similar Documents

Publication Publication Date Title
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN110032782B (zh) 一种城市级智能交通信号控制系统及方法
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN109493599A (zh) 一种基于生成式对抗网络的短时交通流预测方法
CN108831168B (zh) 一种基于关联路口视觉识别的交通信号灯控制方法与系统
CN110570672B (zh) 一种基于图神经网络的区域交通信号灯控制方法
CN111260937A (zh) 一种基于强化学习的十字路口交通信号灯控制方法
Lin et al. Traffic signal optimization based on fuzzy control and differential evolution algorithm
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN112216124A (zh) 一种基于深度强化学习的交通信号控制方法
CN112071062B (zh) 一种基于图卷积网络和图注意力网络的行车时间估计方法
CN113643528A (zh) 信号灯控制方法、模型训练方法、系统、装置及存储介质
CN113299084B (zh) 一种基于多视角编码迁移强化学习的区域信号灯协同控制方法
CN114360266B (zh) 一种网联车探测状态感知的交叉口强化学习信号控制方法
Ge et al. Multi-agent transfer reinforcement learning with multi-view encoder for adaptive traffic signal control
CN113538910A (zh) 一种自适应的全链条城市区域网络信号控制优化方法
CN115512558A (zh) 一种基于多智能体强化学习的交通灯信号控制方法
CN115731724A (zh) 一种基于强化学习的区域交通信号配时方法及系统
Choy et al. Real-time coordinated signal control through use of agents with online reinforcement learning
Shi et al. Efficient connected and automated driving system with multi-agent graph reinforcement learning
CN111341109A (zh) 一种基于时空相似性的城市级信号推荐系统
Shamsi et al. Reinforcement learning for traffic light control with emphasis on emergency vehicles
Jiang et al. A general scenario-agnostic reinforcement learning for traffic signal control
Li A hierarchical autonomous driving framework combining reinforcement learning and imitation learning
CN116758767A (zh) 基于多策略强化学习的交通信号灯控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination