CN113435112A - 基于邻居感知的多智能体强化学习的交通信号控制方法 - Google Patents

基于邻居感知的多智能体强化学习的交通信号控制方法 Download PDF

Info

Publication number
CN113435112A
CN113435112A CN202110649830.7A CN202110649830A CN113435112A CN 113435112 A CN113435112 A CN 113435112A CN 202110649830 A CN202110649830 A CN 202110649830A CN 113435112 A CN113435112 A CN 113435112A
Authority
CN
China
Prior art keywords
agent
intersection
correlation
neighbor
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110649830.7A
Other languages
English (en)
Other versions
CN113435112B (zh
Inventor
张程伟
田宇
桑晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN202110649830.7A priority Critical patent/CN113435112B/zh
Publication of CN113435112A publication Critical patent/CN113435112A/zh
Application granted granted Critical
Publication of CN113435112B publication Critical patent/CN113435112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • G08G1/0145Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供了基于邻居感知的多智能体强化学习的交通信号控制方法,包括:将自适应交通信号控制问题建模为邻居感知的马尔可夫博弈,根据道路网络将交叉口建模为连通的智能体;所述邻居感知的马尔可夫博弈中,智能体的观测被定义为交叉口和它的邻居信息;所有交叉口在时刻采取动作后所观察到的智能体的奖励定义为所有进入的队列中等待车辆的平均数量;运行交通控制交互环境;确定智能体与其连接邻居之间的相关性;根据智能体之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权,得到更新后的观测和奖励信息;根据更新后的观测和奖励信息训练智能体,进而每个智能体进行交通信号分散控制。本发明能够达到缓解交通拥堵的技术效果。

Description

基于邻居感知的多智能体强化学习的交通信号控制方法
技术领域
本发明涉及交通控制技术领域,更具体地说,涉及一种基于邻居感知的多智能体强化学习的交通信号控制方法。
背景技术
ATSC(自适应交通信号控制)的目标是在实时道路交通测量的基础上自适应地调整信号相位以减少交通拥挤。
为了解决ATSC问题,现有一些工作利用集中训练分布式执行(CTDE)机制学习最优联合策略,解决多智能体协作问题。然而,由于联合动作空间随着智能体数量的增加呈指数增长,集中式学习难以扩展。在真实的城市交通环境中,可能有上千个交叉口共同协调以优化城市交通。将交通信号控制定义为分散的多智能体协同控制(MARL)更为自然,即每个交叉口由一个具有局部观测的单一智能体控制。
迄今为止,大多数现有的ATSC多智能体视角的工作都集中在基于分散优化的方法上,这些方法使用了来自其他协调智能体的局部观测和消息,将ATSC问题看作是一个全局层面或邻居层面的多智能体合作博弈,但是忽略了单个智能体之间的相互关系,通常是在基于图的网络中将交叉口和其他交叉口同等对待或根据它们的距离赋予固定的权值。
然而,在ATSC场景中,来自不同路口在不同时间的信息可能有不同的重要性。交叉口之间的相关性不仅受交叉口网络关系的影响,还受相邻两个交叉口相关性的影响。如果一视同仁地考虑来自其他交叉点的信息,不仅会浪费计算资源,而且会影响学习效果。
发明内容
有鉴于此,本发明提供了基于邻居感知的多智能体强化学习的交通信号控制方法,以节约计算资源,提高多智能体强化学习效果,进而达到缓解交通拥堵的技术效果。
为此,本发明提供了以下技术方案:
本发明提供了一种基于邻居感知的多智能体强化学习的交通信号控制方法,所述方法包括:
将自适应交通信号控制问题建模为邻居感知的马尔可夫博弈,根据道路网络将交叉口建模为连通的智能体;所述邻居感知的马尔可夫博弈中,智能体的观测被定义为交叉口和它的邻居信息;所有交叉口在时刻采取动作后所观察到的智能体的奖励定义为所有进入的队列中等待车辆的平均数量;
运行交通控制交互环境;
确定智能体与其连接邻居之间的相关性;
根据智能体之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权,得到更新后的观测和奖励信息;
根据更新后的观测和奖励信息训练智能体,进而每个智能体进行交通信号分散控制;
重复多次训练智能体,直至完成交通信号控制。
进一步地,确定智能体与其连接邻居之间的相关性,包括:根据其相邻交叉口的等待车辆数确定智能体与其连接邻居之间的相关性。
进一步地,根据其相邻交叉口的等待车辆数确定智能体与其连接邻居之间的相关性,包括:
交叉口i和交叉口j在t时刻的相关系数cij (t)定义为:
Figure BDA0003111292530000031
其中nmax是一个常数用来表示车辆的上限,∑l∈Liwave[l](t)在交叉口i的进入线中等待车辆的数量;Li是交叉口i的进车道集合。
进一步地,确定智能体与其连接邻居之间的相关性,包括:根据当前交叉口和相邻交叉口的奖励序列计算皮尔森相关系数,基于皮尔森相关系数来计算相关性。
进一步地,基于皮尔森相关系数来计算相关性,包括:
对于两个采样的数据数组X={xi,1≤i≤n}和Y={yi,1≤i≤n},皮尔森相关系数rp为:
Figure BDA0003111292530000032
其中,
Figure BDA0003111292530000033
分别表示X和Y的平均值;
皮尔森相关系数的取值范围为[-1,1],相关系数为正值,说明X和Y两个变量呈正相关关系,相反,相关系数为负值,说明X和Y两个变量呈负相关关系;将皮尔森相关系数rp作为交叉口i和交叉口j之间的相关系数cij
进一步地,根据智能体之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权,得到更新后的观测和奖励信息,包括:
将时刻t智能体i的观测oi (t)更新为两个交叉口之间进入车道中等待车辆的数量加权相关邻居的状态信息:
Figure BDA0003111292530000041
其中phasei∈i∪Ni (t)是交叉口i在时间步t的相位,Li和LNi分别是交叉口i和它邻居交叉口的进车道集合,wave[l](t)表示进车道l上的等待车辆数量;
在时刻t,在所有交叉口执行完它们的动作后,将交叉口i的奖励ri (t)更新为在集合{i}∪Ni中所有交叉口入车道等待车辆的平均值加权相关邻居的状态信息:
Figure BDA0003111292530000042
本发明的优点和积极效果:
本发明将ATSC问题建模为一种基于邻居感知的马尔可夫博弈模型,考虑了交叉口及其连接邻居的信息。在此基础上,提出了一种自适应计算邻居智能体相关性的方法,将来自邻居的信息进行加权处理。通过合理处理邻居智能体的信息,节约了计算资源,提高了多智能体强化学习效果,进而达到了缓解交通拥堵的技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于智能体级自适应协调的MARL框架的结构示意图;
图2为本发明实施例中济南数据集上的奖励图;
图3为本发明实施例中杭州数据集上的奖励图;
图4为本发明实施例中合成数据集上的奖励图。
具体实施方式
在多智能体强化学习(MARL)应用于自适应交通信号控制(ATSC)问题的研究中,这些MARL方法将ASTC问题建模为一个多智能体合作博弈,主要集中在全局层面或邻居层面来确定了智能体之间的协调。然而,交叉口之间的协调问题仍有待解决,这对于ASTC场景下交叉口联合最优合作策略的学习具有重要意义。而且,实验发现在一个车辆较少的真实交通网络中,一些精心设计的MARL算法甚至不如独立RL算法那么好,例如:IDQN(独立学习的DQN)。因此,在学习合作策略时,考虑交叉点之间的相关性是很重要的。
为此,考虑到在交通网络的交叉口之间有明显的拓扑关系,以及相邻交叉口的状态通常被一个交叉口观察到的情况下,本发明将ASTC问题建模为一个邻居感知的马尔可夫博弈,根据道路网络将交叉口建模为连通的智能体。每个智能体根据其局部观察和来自其连接邻居的信息进行分散控制。在这个博弈中,智能体考虑了ASTC及其连接邻居的信息,提出了一种基于智能体级别自适应协调(ALC,agent-level coordination)的MARL算法(具体为HDQN)。具体来说,先确定交叉口与其连接邻居之间的相关性,然后根据交叉口之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权,利用加权的观测和奖励信息训练智能体,也就是利用ALC-HDQN算法训练智能体,进而利用智能体进行交通信号分散控制。其中,确定交叉口与其连接邻居之间的相关性可以根据车道上车辆数量进行粗略划分相关性,还可以基于皮尔森相关系数计算每个交叉口及其相邻邻居的相关性。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
参见图1,其示出了本发明实施例中基于邻居感知的多智能体强化学习的交通信号控制方法的流程图,该方法包括:
S101、构建强化学习要素,建模面向交通的邻居感知马尔科夫博弈,将交叉口建模为智能体;
S102、运行交通控制交互环境;
S103、确定智能体与其连接邻居之间的相关性;
S104、根据智能体之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权,得到更新后的观测和奖励信息;
S105、根据更新后的观测和奖励信息训练智能体,进而每个智能体进行交通信号分散控制;
根据智能体之间的相关性得到更新后的观测和奖励信息,利用更新后的观测和奖励信息训练智能体,也就是在原有的HDQN算法上增加智能体级别的自适应协调(ALC),即利用ALC-HDQN算法训练智能体。
S106、重复多次训练智能体,直至完成训练,也就是完成交通信号控制。
更具体地,ALC-HDQN算法的具体步骤如下:
S1:随机初始化当前网络θi和目标网络
Figure BDA0003111292530000061
初始化经验回放池Di和临时经验池
Figure BDA0003111292530000062
S2:设置训练次数M,按照下列步骤对智能体重复训练M次;
S3:获取当前交叉口处的车辆数量和信号相位;
S4:限定每回合中交通时间为T,在每个时间步t上,t=1,...,T,执行以下步骤:
S5:根据贪婪策略,随机数小于贪婪因子ε时随机选择动作ai,t,随机数大于贪婪因子ε时根据ai,t=argmaxaQ(st,a;θ)选择动作;
S6:执行S5所述动作ai,t,得到奖励ri (t)和下一时间步的状态oi (t+1)
S9:将经验(oi (t),ai (t),ri (t),oi (t+1))存入中Di′中;
S10:每隔n步通过公式(4)和(5)计算智能体和邻居的相关性得到加权后的状态
Figure BDA0003111292530000071
下一个状态
Figure BDA0003111292530000072
和奖励
Figure BDA0003111292530000073
S11:将新的经验
Figure BDA0003111292530000074
存入Di中;
S12:从Di中随机采样抽取经验更新HDQN网络θi
S13:每隔C步更新目标网络参数
Figure BDA0003111292530000075
为了便于理解,下面对本发明实施例中的邻居感知马尔可夫博弈进行具体说明。将ATSC问题建模为一个特殊的网络化马尔可夫博弈,命名为邻居感知马尔可夫博弈(NAMG)。在NAMG,假设一个交叉口可以观察到自己及其连接的邻居在每个进入车道上等待车辆的数量。形式化上,一个NAMG可以定义为一个元组g=<g,S,O,A,P,R>,其中智能体i的观测oi=Oi被定义为交叉口i和它的邻居信息:
Figure BDA0003111292530000076
其中phasei∈i∪Ni (t)是它在时间步t的相位,Li和LNi分别是交叉口i和它邻居交叉口的进车道集合,wave[l](t)表示进车道l上的等待车辆数量总和。智能体i的动作ai∈Ai是信号相位。
需要注意的是,ATSC问题的目标是优化整体交通状况,所有交叉口在时刻采取动作后所观察到的智能体的奖励可以定义为所有进入的队列中等待车辆的平均数量,定义每个智能体的个体奖励为:
Figure BDA0003111292530000077
如前所述,在NAMG中智能体所观察到的信息包含了交叉口及其邻居的局部交通信息。显然,这些信息的重要性是不同的。交叉口的拥堵状况更容易受到相邻交叉口的影响,而不是远处交叉口的影响。相邻的两个交叉口之间的相关性直接受其等待车辆数量的影响,不适合平等地考虑来自相连邻居的非必要信息。
下面对本发明实施例中确定相邻的两个交叉口之间的相关性的两种方法进行具体说明:
(1)根据车辆数量粗略划分相关性
首先根据其相邻交叉口的等待车辆数来分析交叉口与其连接邻居之间的相关性,然后根据交叉口之间的相关性预先获取各个分散的加强学习智能体的观察和奖励信息。形式上,相连的交叉口i和j在t时刻的相关性定义为:
Figure BDA0003111292530000081
其中nmax是一个常数用来表示车辆的上限,∑l∈Liwave[l](t)在交叉口i的进入线中等待车辆的数量,是在oi (t)中部分的表示。cij (t)根据i和j路口进车道等候车辆总数,将i和j之间的相关性分为三类。
在此基础上,对时刻t智能体i的观测进行了改进:
Figure BDA0003111292530000082
其中cii (t)=1,公式(4)根据两个交叉口之间进入车道中等待车辆的数量,加权相关邻居的状态信息,重新定义了交叉口i的观测。
同样,在时刻t,在所有交叉口执行完它们的动作后,将交叉口i的奖励定义为在集合{i}∪Ni中所有交叉口入车道等待车辆的平均值用公式(3)中的相关性cij (t)进行加权:
Figure BDA0003111292530000083
(2)自适应方法计算相关性
仅通过粗略划分车辆数量等推理技术计算相关性的话过于简单,且需要对不同数据集进行多次参数调优,无法准确地识别智能体之间的相关性。为了解决这一问题,本发明实施例中基于Pearson相关系数来计算相关性,然后根据交叉口之间的相关性对各个分散的RL智能体的观察和奖励信息进行加权。
Pearson相关系数是最常用的用于测量变量之间相关性的统计估计量。对于两个采样的数据数组X={xi,1≤i≤n}和Y={yi,1≤i≤n},皮尔森相关系数rp为:
Figure BDA0003111292530000091
其中,
Figure BDA0003111292530000092
分别表示X和Y的平均值。
Pearson相关系数的取值范围均为[-1,1],相关系数为正值,说明X和Y两个变量呈正相关关系,相反,相关系数为负值,说明X和Y两个变量呈负相关关系。此外,相关系数的绝对值越高,说明两个变量之间的相关性越强。将Pearson相关系数rp作为智能体之间的相关系数cij
基于奖励轨迹,每个智能体都有在一定长度范围内的奖励轨迹ri={ri 1,ri 2,...,ri T}。智能体收到奖励的变化在一定程度上反映了智能体之间的相关性。首先以皮尔森相关系数来准确的计算来交叉口与其连接邻居之间的相关性,然后根据交叉口之间的相关性对各个分散的RL智能体的观察和奖励信息进行加权。
在此基础上,对时刻t智能体i的观测和奖励(即公式(4)和(5))中相关系数cij进行了改进,得到了新的观测和奖励信息。
这种方法可以自适应的计算智能体之间的相关性,且相关系数计算的更加准确,在三个数据集上都取得了最好的结果,算法的鲁棒性也很强。
实验结果:
在Cityflow模拟器在三种交通信号控制场景:一个4*4合成交通网格和两个真实世界济南(12个交叉口)和杭州(16个交叉口)的交通网络中进行了算法实现。与最先进的方法MA2C(multi-agent advantage actor critic,多智能体优势演员-评论家算法)和HDQN进行了比较。图2、3展示了本发明实施例中的算法(ALC-HDQN)在济南和杭州数据集上和其他算法奖励的对比图。由于真实数据集上的车辆数量少,难度小,因此算法之间相差不大,但本发明实施例中的算法仍略优于其他算法。图4展示了本发明实施例中的算法(ALC-HDQN)在合成数据集上和其他算法奖励的对比图。合成数据集上的车辆数量多,难度大,拥堵程度更严重,本发明实施例中的算法得到的奖励值更高,即交叉口等待的车辆数量更少,能够更显著的缓解拥堵程度,具有明显优势。
本发明实施例中的交通信号控制方法应用于多智能体强化学习中,设计面向交通地多智能体协作马尔可夫博弈模型,并针对性地设计协作式多智能体强化学习算法,然后通过在真实交通环境数据的模拟器上的仿真实验,检验模型和算法地效能。该框架在其他算法上的应用也有明显效果提升,稳健性也很好。实验数据集包括真实交通数据集,在实用性上也得到了保证。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种基于邻居感知的多智能体强化学习的交通信号控制方法,其特征在于,所述方法包括:
将自适应交通信号控制问题建模为邻居感知的马尔可夫博弈,根据道路网络将交叉口建模为连通的智能体;所述邻居感知的马尔可夫博弈中,智能体的观测被定义为交叉口和它的邻居信息;所有交叉口在时刻采取动作后所观察到的智能体的奖励定义为所有进入的队列中等待车辆的平均数量;
运行交通控制交互环境;
确定智能体与其连接邻居之间的相关性;
根据智能体之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权,得到更新后的观测和奖励信息;
根据更新后的观测和奖励信息训练智能体,进而每个智能体进行交通信号分散控制;
重复多次训练智能体,直至完成交通信号控制。
2.根据权利要求1所述的一种基于邻居感知的多智能体强化学习的交通信号控制方法,其特征在于,确定智能体与其连接邻居之间的相关性,包括:根据其相邻交叉口的等待车辆数确定智能体与其连接邻居之间的相关性。
3.根据权利要求2所述的一种基于邻居感知的多智能体强化学习的交通信号控制方法,其特征在于,根据其相邻交叉口的等待车辆数确定智能体与其连接邻居之间的相关性,包括:
交叉口i和交叉口j在t时刻的相关系数cij (t)定义为:
Figure FDA0003111292520000021
其中nmax是一个常数用来表示车辆的上限,
Figure FDA0003111292520000022
在交叉口i的进入线中等待车辆的数量;Li是交叉口i的进车道集合。
4.根据权利要求1所述的一种基于邻居感知的多智能体强化学习的交通信号控制方法,其特征在于,确定智能体与其连接邻居之间的相关性,包括:根据当前交叉口和相邻交叉口的奖励序列计算皮尔森相关系数,基于皮尔森相关系数来计算相关性。
5.根据权利要求4所述的一种基于邻居感知的多智能体强化学习的交通信号控制方法,其特征在于,基于皮尔森相关系数来计算相关性,包括:
对于两个采样的数据数组X={xi,1≤i≤n}和Y={yi,1≤i≤n},皮尔森相关系数rp为:
Figure FDA0003111292520000023
其中,
Figure FDA0003111292520000024
分别表示X和Y的平均值;
皮尔森相关系数的取值范围为[-1,1],相关系数为正值,说明X和Y两个变量呈正相关关系,相反,相关系数为负值,说明X和Y两个变量呈负相关关系;将皮尔森相关系数rp作为交叉口i和交叉口j之间的相关系数cij
6.根据权利要求3或5所述的一种基于邻居感知的多智能体强化学习的交通信号控制方法,其特征在于,根据智能体之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权,得到更新后的观测和奖励信息,包括:
将时刻t智能体i的观测oi (t)更新为两个交叉口之间进入车道中等待车辆的数量加权相关邻居的状态信息:
Figure FDA0003111292520000031
其中
Figure FDA0003111292520000032
是交叉口i在时间步t的相位,Li
Figure FDA0003111292520000033
分别是交叉口i和它邻居交叉口的进车道集合,wave[l](t)表示进车道l上的等待车辆数量;
在时刻t,在所有交叉口执行完它们的动作后,将交叉口i的奖励ri (t)更新为在集合{i}∪Ni中所有交叉口入车道等待车辆的平均值加权相关邻居的状态信息:
Figure FDA0003111292520000034
CN202110649830.7A 2021-06-10 2021-06-10 基于邻居感知的多智能体强化学习的交通信号控制方法 Active CN113435112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110649830.7A CN113435112B (zh) 2021-06-10 2021-06-10 基于邻居感知的多智能体强化学习的交通信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110649830.7A CN113435112B (zh) 2021-06-10 2021-06-10 基于邻居感知的多智能体强化学习的交通信号控制方法

Publications (2)

Publication Number Publication Date
CN113435112A true CN113435112A (zh) 2021-09-24
CN113435112B CN113435112B (zh) 2024-02-13

Family

ID=77755590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110649830.7A Active CN113435112B (zh) 2021-06-10 2021-06-10 基于邻居感知的多智能体强化学习的交通信号控制方法

Country Status (1)

Country Link
CN (1) CN113435112B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120672A (zh) * 2021-11-19 2022-03-01 大连海事大学 基于多智能体强化学习的异构路口场景交通信号控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150102945A1 (en) * 2011-12-16 2015-04-16 Pragmatek Transport Innovations, Inc. Multi-agent reinforcement learning for integrated and networked adaptive traffic signal control
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质
CN112216129A (zh) * 2020-10-13 2021-01-12 大连海事大学 一种基于多智能体强化学习的自适应交通信号控制方法
CN112489464A (zh) * 2020-11-19 2021-03-12 天津大学 一种具有位置感知的路口交通信号灯调控方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150102945A1 (en) * 2011-12-16 2015-04-16 Pragmatek Transport Innovations, Inc. Multi-agent reinforcement learning for integrated and networked adaptive traffic signal control
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质
CN112216129A (zh) * 2020-10-13 2021-01-12 大连海事大学 一种基于多智能体强化学习的自适应交通信号控制方法
CN112489464A (zh) * 2020-11-19 2021-03-12 天津大学 一种具有位置感知的路口交通信号灯调控方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120672A (zh) * 2021-11-19 2022-03-01 大连海事大学 基于多智能体强化学习的异构路口场景交通信号控制方法

Also Published As

Publication number Publication date
CN113435112B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
WO2022121510A1 (zh) 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN110674869B (zh) 分类处理、图卷积神经网络模型的训练方法和装置
Sun et al. A new fitness estimation strategy for particle swarm optimization
CN111224966B (zh) 基于演化网络博弈的最优防御策略选取方法
CN111176820A (zh) 一种基于深度神经网络的边缘计算任务的分配方法及装置
CN112907970B (zh) 一种基于车辆排队长度变化率的可变车道转向控制方法
WO2022198943A1 (zh) 密接人员感染风险评估方法、装置、电子设备及存储介质
CN112163601A (zh) 图像分类方法、系统、计算机设备及存储介质
CN109344969B (zh) 神经网络系统及其训练方法以及计算机可读介质
CN113435112A (zh) 基于邻居感知的多智能体强化学习的交通信号控制方法
Huang et al. ODformer: spatial–temporal transformers for long sequence Origin–Destination matrix forecasting against cross application scenario
CN116311880A (zh) 基于局部-全局时空特征融合的交通流量预测方法及设备
CN111461284A (zh) 数据离散化方法、装置、设备及介质
CN113381888B (zh) 控制方法、装置、设备及存储介质
CN110717582A (zh) 使用鉴别器神经网络从生成器神经网络采样
Chen et al. Traffic signal optimization control method based on adaptive weighted averaged double deep Q network
Jokar et al. On the existence of proper stochastic Markov models for statistical reconstruction and prediction of chaotic time series
Chu et al. Self-regularized causal structure discovery for trajectory-based networks
CN111770152A (zh) 一种边缘数据管理方法、介质、边缘服务器和系统
Renard et al. Change of support: an inter-disciplinary challenge
CN113992520B (zh) 一种虚拟网络资源的部署方法和系统
CN113393667A (zh) 一种基于Categorical-DQN乐观探索的交通控制方法
CN113095535A (zh) 基于深度时空残差网络的流量预测方法及装置
CN112231934B (zh) 一种基于重力模型的社团结构生成方法及系统
Lee et al. Reinforcement learning for traffic signal control: Incorporating a virtual mesoscopic model for depicting oversaturated traffic conditions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant