CN113223305B - 基于强化学习的多路口交通灯控制方法、系统及存储介质 - Google Patents

基于强化学习的多路口交通灯控制方法、系统及存储介质 Download PDF

Info

Publication number
CN113223305B
CN113223305B CN202110324649.9A CN202110324649A CN113223305B CN 113223305 B CN113223305 B CN 113223305B CN 202110324649 A CN202110324649 A CN 202110324649A CN 113223305 B CN113223305 B CN 113223305B
Authority
CN
China
Prior art keywords
traffic
agent
action
ith
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110324649.9A
Other languages
English (en)
Other versions
CN113223305A (zh
Inventor
王斌
甘海洋
盛津芳
康文军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hemai Technology Development Shenzhen Co ltd
Central South University
Original Assignee
Hemai Technology Development Shenzhen Co ltd
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hemai Technology Development Shenzhen Co ltd, Central South University filed Critical Hemai Technology Development Shenzhen Co ltd
Priority to CN202110324649.9A priority Critical patent/CN113223305B/zh
Publication of CN113223305A publication Critical patent/CN113223305A/zh
Application granted granted Critical
Publication of CN113223305B publication Critical patent/CN113223305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B20/00Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
    • Y02B20/40Control techniques providing energy savings, e.g. smart controller or presence detection

Abstract

本发明公开了基于强化学习的多路口交通灯控制方法、系统及存储介质,通过构建并训练以MADDPG为框架,以多路口交通灯系统控制的多个路口的车流数据作为输入状态,以输入状态对应的信号灯的时序调控动作为输出动作,以t时刻的历史输入状态、历史输入状态对应的历史输出动作、历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本的多智能体强化模型,并基于多智能体强化模型获取多路口交通灯系统的最优控制动作,相比现有技术,该方法在训练时将智能体之间的相互影响简化为动作平均值,极大地简化了智能体数量带来的模型空间的增大,能有效缩短解算时间。

Description

基于强化学习的多路口交通灯控制方法、系统及存储介质
技术领域
本发明涉及交通信号灯控制技术领域,尤其涉及基于强化学习的多路口交通灯控制方法、系统及存储介质。
背景技术
随着城市化进程的不断加快,城市规模的发展以及人口的持续增加,车辆已早已成为人们的必备出行工具,交通拥堵成为了亟待解决的痛点问题。因此采取有效的技术手段来减少交通拥堵显得尤为重要。而交通信号灯的控制作为调节和优化城市交通流的关键途径,基于最新兴起的人工智能技术进行交通信号灯控制是改善交通拥堵的有效方法。
目前我国城市采用的交通信号灯控制模型大多采用定时控制,通过人为的方式分析历史车流数据选择交通信号灯固定的配时和周期时长,并不能根据实时的交通流做出调控,缺乏动态分析和决策,不能很好的满足实际的应用场景。比如在当某一车道方向上车流量很大或者无车时,不能够自适应的改变红绿灯的时间来延长或者缩短这一方向的通过时间,造成了人们在等待红绿灯上所耗费时间的严重浪费。
而人工智能技术作为新一代信息技术,引起了很多国内外学者的关注和研究,强化学习和深度学习是目前在机器学习和人工智能领域很热的研究方向,并在城市交通灯控制领域中取得了很好的效果,使用深度强化学习只需要通过与城市路口环境的交互获取先验知识,在获取到环境状态后形成奖励激励路口交通灯做出更优的相位动作,以此来学习训练成一定的智能控制模型。
现有的基于强化学习和深度学习的信号灯智能控制模型往往需要构建多个智能体进行协同控制,然而智能体数量的增多会带来的模型空间的增大,进而导致智能控制模型最优解的解算慢,时延高、实时性差,因此,现有的多智能体信号灯智能控制模型最优解的解算慢、时延高、实时性差已成为本领域技术人员亟待解决的技术问题。
发明内容
本发明提供了基于强化学习的多路口交通灯控制方法、系统及存储介质,用于解决现有的多智能体信号灯智能控制模型最优解的解算慢、时延高、实时性差的技术问题。
为解决上述技术问题,本发明提出的技术方案为:
一种基于强化学习的多路口交通灯控制方法,包括以下步骤:
构建多智能体强化模型,多智能体强化学习模型以MADDPG(Multi-Agent DeepDeterministic Policy Gradient,深度确定性策略梯度算法的多智能体强化学习框架)为框架,以多路口交通灯系统控制的多个路口的车流数据作为输入状态,以输入状态对应的信号灯的时序调控动作为输出动作,以t时刻的历史输入状态、历史输入状态对应的历史输出动作、历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本;
获取多路口交通灯系统调控的多个路口的历史车流数据以及对应的历史时序调控动作,将历史车流数据以及对应的历史时序调控动作输入至多智能体强化模型中进行迭代训练,得到训练好的多智能体强化模型;
获取多路口交通灯系统调控的多个路口的实时车流数据,并输入至训练好的多智能体强化模型中,得到多路口的实时时序调控动作。
优选的,多智能体强化学习模型中包括多个交通智能体,多个交通智能体相互通信,多个交通智能体与多路口交通灯系统控制控制的多个路口一一对应,每个交通智能体用于获取与其对应路口的车流数据,并输出车流数据对应的时序调控动作,且每个交通智能体均采用DQN(Deep Q Network,深度Q网络)的双网络结构,包括actor(动作网络)、critic(评价网络)、targetactor(目标动作网络)和targetcritic(目标评价网络)网络。
优选的,多智能体强化学习模型的输入状态表示为s=[o1,o2,…,on],其中,oi表示第i个交通智能体的输入状态,其中,i=1,2,...,n,n为交通智能体的个数,其中,车流数据包括路口各个相位的车辆信息;
其中,多智能体强化学习模型的输出动作为a=[a1,a2,…,an],其中,ai表示第i个交通智能体的输出动作,其中,i=1,2,...,n,n为交通智能体的个数,ai的取值范围为[0,3],当ai=0时表示第i个交通智能体执行的动作为东西方向红灯南北方向绿灯,当ai=1时表示第i个交通智能体执行的动作为东西方向红灯南北方向黄灯,当ai=2时表示第i个交通智能体执行的动作为东西方向绿灯南北方向红灯,当ai=3时表示第i个交通智能体执行的动作为东西方向黄灯南北方向红灯。
优选的,每个交通智能体的奖赏值函数为:
Figure BDA0002994123610000021
k是一个常量参数,取值范围为(0,1],为了确保奖赏值的波动范围不会太大,Lim为第i个交通智能体对应路口的第m交通相位的车辆排队长度,M为路口的交通相位数。
优选的,每个交通智能体的critic网络更新算法为:
Figure BDA0002994123610000031
Figure BDA0002994123610000032
Figure BDA0002994123610000033
Figure BDA0002994123610000034
其中,L(θi)为第i个交通智能体的critic网络的损失率,K表示从经验池采样的样本总量,即批量梯度下降的样本数,θi为第i个交通智能体的critic网络,j表示训练样本序号,yj为第j个训练样本的目标MF(Mean Field,平均场)值函数,
Figure BDA0002994123610000035
为真实的MF值函数,表示第i个交通智能体与其平均虚拟智能体之间的相互作用,其中,平均虚拟智能体由第i个交通智能体的所有邻居智能体的平均动作对其的作用构成,sj为第j个训练样本的状态,aj为第j个训练样本的动作,
Figure BDA0002994123610000036
为第j个训练样本的平均动作值,
Figure BDA0002994123610000037
为第i个交通智能体的所有邻居智能体的平均动作,Ni为第i个交通智能体的邻居智能体数量,ak为第i个交通智能体的第k位邻居智能体的动作;δai,k为第i个交通智能体的第k位邻居智能体的波动值,rj为第j个训练样本的奖励值,γ为折扣因子,
Figure BDA0002994123610000038
表示目标网络参数,
Figure BDA0002994123610000039
为目标网络参数
Figure BDA00029941236100000310
的最佳响应策略的迭代函数。
优选的,每个交通智能体的actor网络更新算法为:
Figure BDA00029941236100000311
其中,
Figure BDA00029941236100000312
表示actor网络策略梯度公式,K表示从经验池采样的样本总量,j表示训练样本序号,
Figure BDA00029941236100000313
表示为第i个交通智能体建立的值函数,θi为第i个交通智能体对应路口更新前的目标网络参数,
Figure BDA00029941236100000314
为第i个交通智能体的第j个训练样本的输入状态,μi为第i个交通智能体的动作更新策略,
Figure BDA00029941236100000315
表示在输入状态
Figure BDA00029941236100000316
下根据更新策略μi更新后的动作值,
Figure BDA00029941236100000317
表示第i个交通智能体所有邻居智能体更新后的动作值分布。
优选的,第i个交通智能体的探索策略选择动作公式为
Figure BDA0002994123610000041
其中,oi表示第i个智能体的观测状态,ηt表示在t时刻的环境噪声,μ表示智能体的策略,θi为第i个交通智能体的critic网络。
优选的,将历史车流数据以及对应的历史时序调控动作输入至多智能体强化模型中进行迭代训练,具体包括:
每个交通智能体的actor网络初始化一个噪声η,根据随机选取一个随机动作并下达给仿真环境执行该随机动作at
每个交通智能体的仿真环境当下状态st下执行该随机动作at,通过奖赏值函数计算该随机动作at在当下状态st下的回奖赏值,并获取该智能体的所有邻居智能体的动作计算自己所有邻居智能体的平均动作
Figure BDA0002994123610000042
并返回当下状态st、随机动作at、对应的回报值rt、执行随机动作at后的新的状态st+1以及该智能体的所有邻居智能体的平均动作
Figure BDA0002994123610000045
每个交通智能体的actor网络将当下状态st、随机动作at、对应的回报值rt、执行随机动作at后的新的状态st+1以及该智能体的所有邻居智能体的平均动作
Figure BDA0002994123610000043
为训练样本数据
Figure BDA0002994123610000044
存入历史经验存储缓冲区,作为训练actor网络和critic网络的训练样本集;
每个交通智能体从经验池中采样一小批训练样本,并通过critic网络更新算法来更新critic网络;
每个交通智能体使用actor网络更新算法更新actor网络;
每个交通智能体使用target网络更新算法更新target网络参数。
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现上述任一方法的步骤。
一种计算机存储介质,其上存储有计算机程序,其特征在于,程序被处理器执行时实现上述任一项方法中的步骤。
本发明具有以下有益效果:
1、本发明中的基于强化学习的多路口交通灯控制方法、系统及存储介质,通过构建并训练以MADDPG为框架,以多路口交通灯系统控制的多个路口的车流数据作为输入状态,以输入状态对应的信号灯的时序调控动作为输出动作,以t时刻的历史输入状态、历史输入状态对应的历史输出动作、历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本的多智能体强化模型,并基于多智能体强化模型获取多路口交通灯系统的最优控制动作,该方法吸收了MADDPG算法的优点,对于多个路口不同交通数据的同时输入,采取集中式训练、分布式执行的策略,动态地给出当前城市区域内部车流情况的最优交通信号灯配时方案,同时引入了平均场理论(Mean Field Theory,MFT),即在训练时,将智能体之间的动作影响简化为动作平均值,极大地简化了智能体数量带来的模型空间的增大,大大缩短了最优解的解算时间,且能够巧妙地解决现实世界中交通场景的复杂性,使得智能体的数量不再成为了限制,因此具体很好的拓展性。
2、在优选方案中,将一个路口Agent(交通智能体)与其邻居路口Agent之间的相互作用简化为两个Agent之间的相互作用(该Agent与其所有邻居的均值),极大地简化了Agent数量带来的模型空间的增大。
3、本发明基于MFDDPG算法引入了博弈论纳什均衡的思想,在理论上可以给出收敛性证明,并且能够收敛到纳什均衡点。
4、本方法解决了定时控制方法设置固定周期时长,不具有动态性的问题。相比于其它深度强化学习算法,如DQN或者actor-critic算法,由于每个智能体都是在不断学习改进其策略,因此从每一个智能体的角度看,环境是一个动态不稳定的,这不符合传统RL收敛条件。因此,本方法能够适用于传统RL算法无法处理的复杂多智能体场景。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明优选实施例的基于强化学习的多路口交通灯控制方法的实施流程图。
图2为本发明优选实施例的基于强化学习的多路口交通灯控制方法中的六个十字路口场景示意图。
图3为本发明优选实施例的基于强化学习的多路口交通灯控制方法中的单个十字路口的详情图及相位示意图。
图4为本发明优选实施例的基于强化学习的多路口交通灯控制方法中的每条道路交通状态的模型示意图。
图5为本发明优选实施例的基于强化学习的多路口交通灯控制方法中的MADDPG算法框架图。
图6为本发明优选实施例的基于强化学习的多路口交通灯控制方法中的MFDDPG算法平均场论近似图;
图7为本发明中基于强化学习的多路口交通灯控制方法的流程简图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例一:
如图7所示,本实施中公开了一种基于强化学习的多路口交通灯控制方法,包括以下步骤:
构建多智能体强化模型,多智能体强化学习模型以MADDPG为框架,以多路口交通灯系统控制的多个路口的车流数据作为输入状态,以输入状态对应的信号灯的时序调控动作为输出动作,以t时刻的历史输入状态、历史输入状态对应的历史输出动作、历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本;
获取多路口交通灯系统调控的多个路口的历史车流数据以及对应的历史时序调控动作,将历史车流数据以及对应的历史时序调控动作输入至多智能体强化模型中进行迭代训练,得到训练好的多智能体强化模型;
获取多路口交通灯系统调控的多个路口的实时车流数据,并输入至训练好的多智能体强化模型中,得到多路口的实时时序调控动作。
此外,在本实施例中,还公开了一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现上述任一方法的步骤。
此外,在本实施例中,还公开了一种计算机存储介质,其上存储有计算机程序,其特征在于,程序被处理器执行时实现上述任一项方法中的步骤。
本发明中的基于强化学习的多路口交通灯控制方法、系统及存储介质,通过构建并训练以MADDPG为框架,以多路口交通灯系统控制的多个路口的车流数据作为输入状态,以输入状态对应的信号灯的时序调控动作为输出动作,以t时刻的历史输入状态、历史输入状态对应的历史输出动作、历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本的多智能体强化模型,并基于所述多智能体强化模型获取多路口交通灯系统的最优控制动作,该方法吸收了MADDPG算法的优点,对于多个路口不同交通数据的同时输入,采取集中式训练、分布式执行的策略,动态地给出当前城市区域内部车流情况的最优交通信号灯配时方案,同时引入了平均场理论(Mean Field Theory,MFT),即在训练时,将智能体之间的动作影响简化为动作平均值,极大地简化了智能体数量带来的模型空间的增大,大大缩短了最优解的解算时间,且能够巧妙地解决现实世界中交通场景的复杂性,使得智能体的数量不再成为了限制,因此具体很好的拓展性。
实施例二:
实施例二是实施例一的优选实施例,其与实施例一的不同之处在于,对基于强化学习的多路口交通灯控制方法的具体步骤进行了细化:
如图1所示,在本实施例中,公开了一种基于强化学习的多路口交通灯控制方法,通过交通仿真软件SUMO进行仿真迭代,最终实现对于多路口交通信号灯的自适应控制,具体包括以下步骤:
步骤1:构建路网模型,根据现有数据或者随机产生,得到路网中车辆的数量、位置等交通数据。
本实施例中,路网模型建立的是六个十字路口,如图2所示,车辆从东西南北四个方向产生并流入流出路网。每一个路口的详细示意图如图3所示,这里是按照实际道路建立的双向四车道建立的,内侧车道可以直行和左转,外侧车道可以直行和右转。
步骤2:道路建模,根据实际的十字路口车辆通行情况,建立综合评价指标。
这里是以每个路口车辆驶入的道路为一个单位进行建模。根据步骤1建立的路网模型可知,一条道路包括两条车道。每条车道的长度设为Length,车辆的最大速度为V。将车道划分为若干个单元格,设置每个单元格长度为d,每个单元格同一时间内仅能存在一辆车。用布尔变量来表示单元格内车辆存在与否,1表示存在车辆、0表示不存在车辆。路网中任意路口相连接车道上的车辆都可用0和1表示,每时刻任意路口直接相连的某些车道上(执行相位的车道)的车辆都会运动,因此每时刻路口的交通状态都会不同,道路交通状态建模如图4所示。
综合评价指标包括车辆排队长度、车辆平均等待时间和路口通行流量。车辆排队长度数值上等于路口四个方向一定长度道路上等待的车辆数量,反应了路口的拥堵状况。车辆平均等待时间数值上等于所有车辆在路口红绿灯处总的等待时间除以车辆总数得到的平均值,反应单个车辆在路口的平均等待时间。路口通行车流数值上等于一定时间间隔内路口通过的车辆数量,反应了路口的通行能力。
步骤3:将交通信号灯控制问题建模为一个马尔可夫决策过程,定义其中的状态、动作和立即奖赏函数。
状态集用s表示为从环境中观测到所有Agent的状态信息(o1,…,on),主要包括各个路口四个方向的车辆信息。动作集用a表示各个路口Agent在当前路口下执行的动作,设置0和1分别代表红绿灯切换和保持,同时对于每个路口的相位描述如下:0表示东西方向红灯南北方向绿灯,1表示东西方向红灯南北方向黄灯,2表示东西方向绿灯南北方向红灯,3表示东西方向黄灯南北方向红灯,如图3所示。当路口执行动作切换时,为了缓冲绿灯和红灯之间的动作替换,引入了黄灯的缓冲作用,路口相位从0~3改变。立即奖赏函数用r表示,统计在状态s下执行动作a后路口四个方向通过的车辆和进入的车辆,得到静止状态下路口各个方向的车辆数目,即车辆排队长度,四个方向车辆排队长度平方和的负数则用于表示奖赏函数,用公式表示为
Figure BDA0002994123610000081
k是一个常量参数,为了确保奖赏值的波动范围不会太大。
步骤4:建立多路口强化学习模型,这里使用的是MFDDPG算法,采用集中式训练、分布式执行的思想处理多个路口的交通数据;
MFDDPG算法是建立在DDPG算法的基础上,引入了平均场论的思想,是一种从单智能体拓展到多智能体强化学习的算法。由于在多智能体强化学习应用场景下不仅有环境交互的问题,还有各个智能体之间相互动态的影响,因此为了得到最优策略,每个智能体都需要考察其他智能体的动作及状态得到联合动作值函数。但是由于状态空间跟动作空间随着智能体数量的增多而迅速扩大,这给计算以及探索带来了非常大的困难。而平均场论的引入可以巧妙的简化这一难题,平均场论对于多智能体场景做出了一个近似假设:对某个智能体,其他所有智能体对其产生的作用可以用一个均值替代。这样就将一个智能体与其邻居智能体之间的相互作用简化为两个智能体之间的相互作用(该智能体与其所有邻居的均值),如图6所示。这样极大地简化了智能体数量带来的模型空间的增大。而且在应用平均场论后,学习在两个Agent之间是相互促进的:单个Agent的最优策略的学习是基于智能体群体中的动态;同时,群体的动态也是根据个体的策略进行更新。
同时MFDDPG算法还吸收了MADDPG算法的优点,对于多个路口不同交通数据的同时输入,采取集中式训练、分布式执行的策略。因此MFDDPG算法具体模型结构也是和MADDPG算法类似。MADDPG算法的训练算法框架如图5所示,对于每个路口Agent,分别搭建actor-critic结构,并采用了DQN的双网络结构,对于actor和critic都构建了估计网络和现实网络两个神经网络。
在DDPG算法的基础上,为了能够适用于动态环境,改进了经验回放记录的数据。每一条信息由
Figure BDA0002994123610000082
组成,其中s表示为从环境中观测到所有Agent的状态信息(o1,…,on),a表示各个路口Agent在当前路口下执行的动作(红绿灯切换/保持),a=[a1,a2,…,an],r表示当前路口状态s下执行动作a得到的立即奖赏,r=[r1,r2,…,rn],s'表示为在当前状态s下每个路口Agent执行动作ai后迁移到的下一个状态,
Figure BDA0002994123610000091
在交通场景下,因为所有的Agent都是同构的,其动作空间都相同,并且动作空间是离散的。所以每个Agent的动作都采用one-hot编码,比如智能体j的动作
Figure BDA0002994123610000092
其表示共有D个动作的动作空间内每个动作的值。若选用动作i,则
Figure BDA0002994123610000093
其它均为0。之后定义
Figure BDA0002994123610000094
为智能体j邻居N(j)的平均动作值,其邻居k的one-hot编码ak可以表示为
Figure BDA0002994123610000095
和一个波动值δaj,k的形式,公式如下所示:
Figure BDA0002994123610000096
其中
Figure BDA0002994123610000097
步骤5:在仿真软件中导入车辆数据,进行数据预处理。仿真软件用的是SUMO平台,利用traci和sumolib模块对车流进行操作。
步骤6:设置网络参数,进行交通仿真和Agent训练。这里主要是设置神经网络的各项参数,如学习率α、折扣因子γ等。
步骤7:使用构建的多智能体强化学习模型求解最优策略。MFDDPG模型求解过程具体如下:
初始化一个噪声η与环境交互,并接收初始状态s;
对于每一个路口agent i,根据当前场景和探索策略选择动作
Figure BDA0002994123610000098
其中oi表示每i个智能体的观测,ηt表示在t时刻的环境噪声,μ表示智能体的策略,状态s=[o1,o2,…,on],并计算新的动作平均值
Figure BDA0002994123610000099
在状态s执行当前动作a得到新状态s_和奖励r,每一次状态转移即做出动作记作一个时间步t,将每一个时间步得到的训练样本
Figure BDA00029941236100000910
存入经验池D中,其中a=[a1,a2,…,an],r=[r1,r2,…,rn];
从经验池中采样一小批训练样本,定义一个Loss function(损失函数),其函数公式为
Figure BDA0002994123610000101
并通过最小化损失函数来更新critic网络,其中
Figure BDA0002994123610000102
为目标MF值函数,K表示从经验池采样的样本总量,j表示每一个样本,
Figure BDA0002994123610000103
表示目标网络参数,γ表示折扣因子;
使用样本策略梯度更新actor网络,更新过程中使用的策略梯度函数为
Figure BDA0002994123610000104
其中
Figure BDA0002994123610000105
表示为每个智能体建立的值函数;
更新每个路口agent i的目标网络参数,更新公式为:
Figure BDA0002994123610000106
其中α表示目标网络的学习率。
步骤8:利用最优策略控制各个路口的交通信号灯。通过步骤8得到的最优策略指的是一组动作序列,分别对应每一个路口Agent,都用0和1分别代表切换动作和保持动作,步骤3中详细说明了交通信号灯的四种相位。
步骤9:仿真结束。
综上所述,本发明中的基于强化学习的多路口交通灯控制方法、系统及存储介质,通过构建并训练以MADDPG为框架,以多路口交通灯系统控制的多个路口的车流数据作为输入状态,以输入状态对应的信号灯的时序调控动作为输出动作,以t时刻的历史输入状态、历史输入状态对应的历史输出动作、历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本的多智能体强化模型,并基于所述多智能体强化模型获取多路口交通灯系统的最优控制动作,该方法吸收了MADDPG算法的优点,对于多个路口不同交通数据的同时输入,采取集中式训练、分布式执行的策略,动态地给出当前城市区域内部车流情况的最优交通信号灯配时方案,同时引入了平均场理论(Mean Field Theory,MFT),即在训练时,将智能体之间的动作影响简化为动作平均值,极大地简化了智能体数量带来的模型空间的增大,大大缩短了最优解的解算时间,且能够巧妙地解决现实世界中交通场景的复杂性,使得智能体的数量不再成为了限制,因此具体很好的拓展性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于强化学习的多路口交通灯控制方法,其特征在于,包括以下步骤:
构建多智能体强化模型,所述多智能体强化学习模型以MADDPG为框架,以多路口交通灯系统控制的多个路口的车流数据作为输入状态,以输入状态对应的信号灯的时序调控动作为输出动作,以t时刻的历史输入状态、所述历史输入状态对应的历史输出动作、所述历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本;
所述多智能体强化学习模型中包括多个交通智能体,所述多个交通智能体相互通信,所述多个交通智能体与所述多路口交通灯系统控制控制的多个路口一一对应,所述每个交通智能体用于获取与其对应路口的车流数据,并输出所述车流数据对应的时序调控动作,且每个交通智能体均采用DQN的双网络结构,包括actor、critic、target actor和targetcritic网络;
每个交通智能体的critic网络更新算法为:
Figure FDA0003645638990000011
Figure FDA0003645638990000012
Figure FDA0003645638990000013
Figure FDA0003645638990000014
其中,L(θi)为第i个交通智能体的critic网络的损失率,K表示从经验池采样的样本总量,即批量梯度下降的样本数,θi为第i个交通智能体的critic网络,j表示训练样本序号,yj为第j个训练样本的目标MF值函数,
Figure FDA0003645638990000015
为真实的MF值函数,表示第i个交通智能体与其平均虚拟智能体之间的相互作用,其中,平均虚拟智能体由第i个交通智能体的所有邻居智能体的平均动作对其的作用构成,sj为第j个训练样本的状态,aj为第j个训练样本的动作,
Figure FDA0003645638990000016
为第j个训练样本的平均动作值,
Figure FDA0003645638990000017
为第i个交通智能体的所有邻居智能体的平均动作,Ni为第i个交通智能体的邻居智能体数量,ak为第i个交通智能体的第k位邻居智能体的动作;δai,k为第i个交通智能体的第k位邻居智能体的波动值,rj为第j个训练样本的奖励值,γ为折扣因子,
Figure FDA0003645638990000018
表示目标网络参数,
Figure FDA0003645638990000019
为目标网络参数
Figure FDA00036456389900000110
的最佳响应策略的迭代函数;
每个交通智能体的actor网络更新算法为:
Figure FDA0003645638990000021
其中,
Figure FDA0003645638990000022
表示actor网络策略梯度公式,K表示从经验池采样的样本总量,j表示训练样本序号,
Figure FDA0003645638990000023
表示为第i个交通智能体建立的值函数,θi为第i个交通智能体对应路口更新前的目标网络参数,
Figure FDA0003645638990000024
为第i个交通智能体的第j个训练样本的输入状态,μi为第i个交通智能体的动作更新策略,
Figure FDA0003645638990000025
表示在输入状态
Figure FDA0003645638990000026
下根据更新策略μi更新后的动作值,
Figure FDA0003645638990000027
表示第i个交通智能体所有邻居智能体更新后的动作值分布;
获取所述多路口交通灯系统调控的多个路口的历史车流数据以及对应的历史时序调控动作,将所述历史车流数据以及对应的历史时序调控动作输入至所述多智能体强化模型中进行迭代训练,得到训练好的多智能体强化模型;
获取所述多路口交通灯系统调控的多个路口的实时车流数据,并输入至训练好的所述多智能体强化模型中,得到所述多路口的实时时序调控动作。
2.根据权利要求1所述的基于强化学习的多路口交通灯控制方法,其特征在于,所述多智能体强化学习模型的输入状态表示为s=[o1,o2,…,on],其中,oi表示第i个交通智能体的输入状态,其中,i=1,2,...,n,n为交通智能体的个数,其中,车流数据包括路口各个相位的车辆信息;
其中,所述多智能体强化学习模型的输出动作为a=[a1,a2,…,an],其中,ai表示第i个交通智能体的输出动作,其中,i=1,2,...,n,n为交通智能体的个数,ai的取值范围为[0,3],当ai=0时表示第i个交通智能体执行的动作为东西方向红灯南北方向绿灯,当ai=1时表示第i个交通智能体执行的动作为东西方向红灯南北方向黄灯,当ai=2时表示第i个交通智能体执行的动作为东西方向绿灯南北方向红灯,当ai=3时表示第i个交通智能体执行的动作为东西方向黄灯南北方向红灯。
3.根据权利要求1所述的基于强化学习的多路口交通灯控制方法,其特征在于,每个交通智能体的奖赏值函数为:
Figure FDA0003645638990000028
k是一个常量参数,取值范围为(0,1],为了确保奖赏值的波动范围不会太大,Lim为第i个交通智能体对应路口的第m交通相位的车辆排队长度,M为路口的交通相位数。
4.根据权利要求1所述的基于强化学习的多路口交通灯控制方法,其特征在于,所述第i个交通智能体的探索策略选择动作公式为
Figure FDA0003645638990000031
其中,oi表示第i个智能体的观测状态,ηt表示在t时刻的环境噪声,μ表示智能体的策略,θi为第i个交通智能体的critic网络。
5.根据权利要求4所述的基于强化学习的多路口交通灯控制方法,其特征在于,将所述历史车流数据以及对应的历史时序调控动作输入至所述多智能体强化模型中进行迭代训练,具体包括:
每个交通智能体的actor网络初始化一个噪声η,根据随机选取一个随机动作并下达给仿真环境执行该随机动作at
每个交通智能体的仿真环境当下状态st下执行该随机动作at,通过奖赏值函数计算该随机动作at在当下状态st下的回奖赏值,并获取该智能体的所有邻居智能体的动作计算自己所有邻居智能体的平均动作
Figure FDA0003645638990000032
并返回当下状态st、随机动作at、对应的回报值rt、执行随机动作at后的新的状态st+1以及该智能体的所有邻居智能体的平均动作
Figure FDA0003645638990000033
每个交通智能体的actor网络将当下状态st、随机动作at、对应的回报值rt、执行随机动作at后的新的状态st+1以及该智能体的所有邻居智能体的平均动作
Figure FDA0003645638990000034
为训练样本数据
Figure FDA0003645638990000035
存入历史经验存储缓冲区,作为训练actor网络和critic网络的训练样本集;
每个交通智能体从经验池中采样一小批训练样本,并通过critic网络更新算法来更新critic网络;
每个交通智能体使用actor网络更新算法更新actor网络;
每个交通智能体使用target网络更新算法更新target网络参数。
6.一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5任一所述方法的步骤。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述权利要求1至5任一项所述方法中的步骤。
CN202110324649.9A 2021-03-26 2021-03-26 基于强化学习的多路口交通灯控制方法、系统及存储介质 Active CN113223305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110324649.9A CN113223305B (zh) 2021-03-26 2021-03-26 基于强化学习的多路口交通灯控制方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110324649.9A CN113223305B (zh) 2021-03-26 2021-03-26 基于强化学习的多路口交通灯控制方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN113223305A CN113223305A (zh) 2021-08-06
CN113223305B true CN113223305B (zh) 2022-09-06

Family

ID=77084401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110324649.9A Active CN113223305B (zh) 2021-03-26 2021-03-26 基于强化学习的多路口交通灯控制方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN113223305B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823099B (zh) * 2021-09-10 2023-03-21 上海商汤智能科技有限公司 信控方案调整方法、装置、设备及计算机可读存储介质
CN114399909B (zh) * 2021-12-31 2023-05-12 深圳云天励飞技术股份有限公司 交通信号灯控制方法及相关设备
CN114333357B (zh) * 2021-12-31 2023-08-15 上海商汤智能科技有限公司 一种交通信号控制方法、装置、电子设备及存储介质
CN114444718B (zh) * 2022-01-26 2023-03-24 北京百度网讯科技有限公司 机器学习模型的训练方法、信号控制方法和装置
CN114919581B (zh) * 2022-05-11 2024-04-26 中南大学 智能车辆无序交叉路口的行为决策方法、计算机装置
CN115472023B (zh) * 2022-08-29 2023-07-11 南京邮电大学 一种基于深度强化学习的智能交通灯控制方法及装置
CN116092056B (zh) * 2023-03-06 2023-07-07 安徽蔚来智驾科技有限公司 目标识别方法、车辆控制方法、设备、介质及车辆

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106198909B (zh) * 2016-06-30 2019-05-10 中南大学 一种基于深度学习的水产养殖水质预测方法
US20190347933A1 (en) * 2018-05-11 2019-11-14 Virtual Traffic Lights, LLC Method of implementing an intelligent traffic control apparatus having a reinforcement learning based partial traffic detection control system, and an intelligent traffic control apparatus implemented thereby
CN109559530B (zh) * 2019-01-07 2020-07-14 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110060475B (zh) * 2019-04-17 2021-01-05 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN110264750B (zh) * 2019-06-14 2020-11-13 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法

Also Published As

Publication number Publication date
CN113223305A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN110060475B (zh) 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN112700664B (zh) 一种基于深度强化学习的交通信号配时优化方法
CN110794842A (zh) 基于势场的强化学习路径规划算法
CN112365724B (zh) 一种基于深度强化学习的连续交叉口信号协同控制方法
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN113963555B (zh) 一种结合状态预测的深度强化学习交通信号控制方法
CN113299084B (zh) 一种基于多视角编码迁移强化学习的区域信号灯协同控制方法
Mao et al. A comparison of deep reinforcement learning models for isolated traffic signal control
CN113436443A (zh) 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
Tahifa et al. Swarm reinforcement learning for traffic signal control based on cooperative multi-agent framework
CN113724507B (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
CN115019523A (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN114419884A (zh) 基于强化学习和相位竞争的自适应信号控制方法及系统
CN115762128B (zh) 一种基于自注意力机制的深度强化学习交通信号控制方法
Wu Control method of traffic signal lights based on ddpg reinforcement learning
CN115273502B (zh) 一种交通信号协同控制方法
CN116758768A (zh) 一种全十字路口红绿灯动态调控方法
CN115512558A (zh) 一种基于多智能体强化学习的交通灯信号控制方法
Li et al. Multi-intersections traffic signal intelligent control using collaborative q-learning algorithm
CN113393667A (zh) 一种基于Categorical-DQN乐观探索的交通控制方法
Huo et al. A traffic signal control method based on asynchronous reinforcement learning
Faqir et al. Deep q-learning approach for congestion problem in smart cities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant