CN113487891B - 一种基于纳什q学习算法的交叉口联合信号控制方法 - Google Patents

一种基于纳什q学习算法的交叉口联合信号控制方法 Download PDF

Info

Publication number
CN113487891B
CN113487891B CN202110623777.3A CN202110623777A CN113487891B CN 113487891 B CN113487891 B CN 113487891B CN 202110623777 A CN202110623777 A CN 202110623777A CN 113487891 B CN113487891 B CN 113487891B
Authority
CN
China
Prior art keywords
intersection
nash
state
intersections
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110623777.3A
Other languages
English (en)
Other versions
CN113487891A (zh
Inventor
王昊
刘晓瀚
董长印
杨朝友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou Fama Intelligent Equipment Co ltd
Southeast University
Original Assignee
Yangzhou Fama Intelligent Equipment Co ltd
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou Fama Intelligent Equipment Co ltd, Southeast University filed Critical Yangzhou Fama Intelligent Equipment Co ltd
Priority to CN202110623777.3A priority Critical patent/CN113487891B/zh
Publication of CN113487891A publication Critical patent/CN113487891A/zh
Application granted granted Critical
Publication of CN113487891B publication Critical patent/CN113487891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles

Abstract

本发明公开了一种基于纳什Q学习算法的交叉口联合信号控制方法,属于交通信号自适应控制技术领域,包括以下步骤:构建相邻交叉口协调控制模型并确立强化学习的状态、动作、奖励信息;构建纳什Q学习网络控制模型;获取模型训练和测试数据;训练纳什Q学习网络模型;对控制区域交叉口实施联合协同控制。本发明在基于强化学习思想实现交叉口自学习控制的基础上,考虑交叉口间存在的联系对交叉口整体区域控制效果的,在交叉口的协同博弈中实现交叉口间的纳什均衡控制。本发明通过博弈控制理论,实现相邻交叉口间的协调控制,在一定程度上缓解了因相邻交叉口缺乏合作机制而造成的拥堵问题。

Description

一种基于纳什Q学习算法的交叉口联合信号控制方法
技术领域
本发明涉及交通信号自适应控制技术,具体而言涉及一种基于纳什Q学习算法的交叉口联合信号控制方法。
背景技术
随着人工智能技术不断发展,计算机硬件计算能力不断提升,5G通讯技术的不断完备,交叉口自检测车辆信息并实现信息实时传输成为可能。因此充分利用交叉口实时检测的信息和传输机制,建立数据驱动型控制算法,并考虑利用相邻交叉口间的合作博弈建立协同机制,能极大提高交通网络的运行效率,减缓交通网络的拥挤程度。
利用强化学习思想进行交叉口信号控制是一种可行有效的数据驱动型交叉口自适应信号控制算法。已有研究中,中国专利CN202010111549.3将交叉口网格化获取车辆在交叉口位置和速度信息并基于Deep Q-network强化学习算法对单点十字路口进行信号控制;中国专利CN202010034436.8依据深度循环Q学习建立单点交叉口信号控制算法,加入LSTM神经网络对交叉口一段时间内的状态进行记录,提高了交叉口控制效率。总体来说,现有研究多针对于将强化学习类算法应用于交叉口控制内,尤其是针对单点信号口控制场景可证明此类方法有很好的控制效果,但少有研究考虑网络区域内多交叉口之前的相互影响,对于多交叉口协调控制的研究还并不成熟。
发明内容
为了克服上述现有技术的不足,本发明目的在于提出一种基于纳什Q学习算法的相邻交叉口间联合协调信号控制方法,依据交叉口控制间的博弈理论构建纳什Q学习网络模型,通过最优化理论求解交叉口信号控制的纳什Q值,建立相邻交叉口间的合作协调控制机制,解决由于相邻交叉口信号控制不匹配引起的交通拥堵问题。
为实现上述目的,本发明提供如下技术方案:
一种基于纳什Q学习算法的交叉口联合信号控制方法,包括以下步骤:
步骤S1、在目标区域内选择需要进行协调的相邻交叉口,形成协调控制区域,并在协调控制区域内构建协调控制模型,利用协调控制模型分别获得协调控制区域内各个目标交叉口对应的状态集、动作集、以及奖励集,所述状态集为协调控制区域内各个目标交叉口的各个进道口的车辆数量、以及各个目标交叉口当前周期的信号控制相位,所述动作集为协调控制区域内各个目标交叉口下一周期的信号控制相位,所述奖励集为协调控制区域在下一周期内通过各个目标交叉口的车辆数;
步骤S2、分别针对协调控制区域内的各个目标交叉口,利用纳什均衡策略,以协调控制区域内的状态集、动作集为输入,以目标交叉口的纳什Q值为输出,构建纳什Q学习网络模型,获得目标交叉口的纳什Q值;
步骤S3、针对协调控制区域,结合步骤S2中构建的纳什Q学习网络模型,提取与状态集、动作集和奖励集相关的各个目标交叉口的经验数据,并将经验数据随机划分为训练数据集和测试数据集,利用训练数据集对步骤S2中获得的各个目标交叉口的纳什Q学习网络模型进行训练,并保留训练的模型参数,即获得训练好的目标区域的纳什Q学习网络模型;
步骤S4、根据步骤S3中获得的训练好的纳什Q学习网络模型对目标区域内的信号控制相位进行协调控制。
进一步地,前述的步骤S1中,利用协调控制模型分别获得协调控制区域内各个目标交叉口对应的状态集、动作集、以及奖励集,具体如下:
选择需要进行协调控制并且拓扑关联的相邻交叉口构建协调控制区域I,I=[i1,i2],其中i1表示编号为1的交叉口,i2表示i1交叉口的相邻编号为2的交叉口;
控制区域状态集由S表示,
Figure BDA0003101215590000021
其中
Figure BDA0003101215590000022
表示交叉口i1,i2的状态矩阵,单个交叉口的状态主要为交叉口各进口道的车辆数和交叉口当前的信号控制相位,s=[N,c],N是交叉口各进口道存储的车辆数的行向量,c为该交叉口当前信号控制相位;
控制区域动作集由A表示,
Figure BDA0003101215590000023
其中
Figure BDA0003101215590000024
表示交叉口i1,i2的动作,单个交叉口的动作为交叉口下一阶段要采用的信号控制相位;
控制区域奖励集由R表示,
Figure BDA0003101215590000025
其中
Figure BDA0003101215590000026
表示交叉口i1,i2的奖励矩阵,奖励矩阵r为在s状态下交叉口i1,i2采用动作a1,a2所对应的奖励组合,具体奖励形式为下一阶段通过交叉口的车辆数。
进一步地,步骤S2中,针对目标区域内的各个目标交叉口,构建对应的纳什Q学习网络模型,包括以下步骤:
步骤S2-1、以交叉口的状态集S和动作集A为输入,以当前状态下交叉口的Q预测值为输出,构建神经网络模型,构建过程如下:
Qi(S,A)=[σ(FC(S))]m,i∈I
其中,Qi(S,A)为目标区域I内的交叉口i在状态集S经过动作集A后的Q预测值,σ为神经网络的激活层,FC为神经网络的全连接层,m为神经网络模型全连接层和激活层的数量;
步骤S2-2、根据以下约束条件:
Figure BDA0003101215590000031
求解以下规划问题过程:
Figure BDA0003101215590000032
Figure BDA0003101215590000033
获得纳什均值策略,其中
Figure BDA0003101215590000034
为交叉口i1、i2在状态S下的纳什Q值,x、y为列向量,具体为交叉口i1,i2在下一阶段采用各个相位的概率,xi,yi为列向量x,y的各个分量;
步骤S2-3、根据公式:
Figure BDA0003101215590000035
将交叉口i的Q预测值Qi(S,A)更新为Qi(S,A)′,其中,α为学习速率,ri(S,A)为在交叉口状态集S下经过与动作集A得到的奖励集,γ为折扣因子,
Figure BDA0003101215590000036
为交叉口i在状态S′下的纳什Q值,状态S′为协调控制区域在状态S下经过联合动作A后转移得到的状态。
进一步地,步骤S3中,处理并划分为训练数据集和测试数据集,具体包括:
对于每个交叉口建立对应的经验回收池,对于每次动作迭代收集经验数据<S,A,Ri,S′>填入经验回收池,经验回收池设置最大存储容量,采用队列结构存储数据,即当经验回收池中的数据量大于最大存储容量时,最早进入经验回收池中的经验被移除;
当需要训练时,从经验回收池随机选取指定数量的随机样本,按照预设比例随机分成训练数据集和测试数据集。
进一步地,步骤S3中,利用训练数据集对步骤S2中获得的各个目标交叉口的纳什Q学习网络模型进行训练,包括以下步骤:
步骤S3-1、设置训练迭代总回合数;
步骤S3-2、初始化步骤S2-1构建的神经网络模型参数;
步骤S3-3、设置单次训练迭代回合运行时长、以及时间步长;
步骤S3-4、每经过一个时间步长,记录当前时间、以及经验数据<S,A,Ri,S′>,并填入经验回收池,根据步骤S2-2求解出的列向量x、y,按概率选择x、y中的分量作为下一阶段两个交叉口的动作A,即下一阶段两个交叉口各自需要切换的相位,经过当前时间步长后记录交叉口的状态S′和在这一时间步长内交叉口i得到的奖励ri,将<S,A,Ri,S′>填入经验回收池,随后时间步长加1,检查当前时间是否超过运行时长,如果超过,进入步骤S3-5,如果没超过重新进行步骤S3-4;
步骤S3-5、按照步骤S3获取训练数据集,按照步骤S2-2、S2-3对建立的网络参数进行迭代更新,当前迭代回合数加1;
步骤S3-6、检查当前回迭代合数是否超过训练迭代总回合数,如果超过,结束训练,如果没超过重新进入步骤S3-3。
进一步地,步骤S4中,交通网络运行时,在每个时间步长,相邻两个交叉口获取当前联合状态集S,并利用步骤S2构建的神经网络模型加载步骤S3最终训练的模型参数计算各动作组合的Qi(S,A),并通过步骤S2-2计算两个交叉口各自采取的信号相位概率向量x、y,并选取x和y中的最大分量作为下一阶段交叉口要采取的动作。
本发明所述一种基于纳什Q学习算法的交叉口联合信号控制方法,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明提出的一种基于纳什Q学习算法的相邻交叉口间联合协调信号控制方法,充分利用交叉口可获取的道路交通信息和交叉口之间稳定快速的信息传递机制,依据强化学习思想,建立交叉口自适应控制模型,保证对不同状态下的交叉口都能进行实时有效控制;基于一般和博弈原理,使相邻交叉口达到纳什均衡控制,最终实现相邻交叉口间的协调控制。
附图说明
图1是本发明实施例的方法流程图;
图2是本发明实施例的控制区域示意图;
图3是本发明实施例交叉口3的示意图;
图4是本发明实施例信号控制方案相位示意图;
图5是本发明实施例的神经网络模型结构示意图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本发明中参照附图来描述本发明的各方面,附图中示出了许多说明性实施例。本发明的实施例不局限于附图所示。应当理解,本发明通过上面介绍的多种构思和实施例,以及下面详细描述的构思和实施方式中的任意一种来实现,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
如图1所示,本发明实施例公开的一种基于纳什Q学习算法的相邻交叉口间联合协调信号控制方法,包括如下步骤:
步骤S1、选择需要进行联合协调控制的相邻交叉口构建协调控制模型,并分别定义强化学习的状态、动作和奖励。
具体地如图2所示,选择需要进行协调控制并且拓扑关联的相邻交叉口构建协调控制区域I,此事例中选取交叉口3和4组成协调区域,即I=[i3,i4];
控制区域状态集由S表示,在图2示例中,
Figure BDA0003101215590000051
Figure BDA0003101215590000052
表示交叉口i3,i4的状态矩阵。单个交叉口的状态主要为交叉口各进口道的车辆数和交叉口当前的信号控制相位,s=[N,c],N是交叉口各进口道存储的车辆数的行向量,c为该交叉口当前信号控制相位。图3为图2中交叉口3的局部图,该交叉口南北为双向3车道,东西方向为双向2车道,每个方向均包含一个左转车道,如图3所示,按照北、东、南、西方向顺序,N=[2,7,3,7],示例中交叉口信号控制相位为两相位,如图4所示,此时图3示例显示当前相位为南北通行相位,对应于图4中的1,即c=1,因此本示例中s=[2,7,3,7,1]。
控制区域动作集由A表示,在图2示例中,
Figure BDA0003101215590000053
Figure BDA0003101215590000054
表示交叉口i3,i4的动作。单个交叉口的动作为交叉口下一阶段要采用的信号控制相位,若为图4交叉口所示相位,a∈[1,2]。
控制区域奖励集由R表示,在图2示例中,
Figure BDA0003101215590000055
Figure BDA0003101215590000056
表示交叉口i3,i4的奖励矩阵,奖励矩阵r为在s状态下交叉口i3,i4采用动作
Figure BDA0003101215590000057
听对应的奖励组合,具体奖励形式为下一阶段通过交叉口的车辆数。在图3示例中,
Figure BDA0003101215590000058
表示当3号交叉口采用信号相位1,4号交叉口采用信号相位1时,通过3号交叉口的车辆数为5;当3号交叉口采用信号相位1,4号交叉口采用信号相位2时,通过3号交叉口的车辆数为4;当3号交叉口采用信号相位2,4号交叉口采用信号相位1时,通过3号交叉口的车辆数为10;当3号交叉口采用信号相位2,4号交叉口采用信号相位2时,通过3号交叉口的车辆数为11。
步骤S2、依据强化学习算法和交叉口信号控制间的博弈理论构建纳什Q学习网络模型。具体实现包括以下子步骤:
步骤S2-1、构建神经网络模型,神经网络模型由多层全连接层FC和激活层σ构成,输入层输入为交叉口的状态集S和联合动作集A的集合,在图3示例中,输入为维度为12的行向量
Figure BDA0003101215590000061
输出层输出为该状态下交叉口3的Q值预测值
Figure BDA0003101215590000062
即交叉口3在状态集S下经过联合动作集A后可得到的回报期望值,计算过程如下:
Qi(S,A)=[σ(FC(S))]m,i∈I
式中,m为神经网络模型全连接层和激活层的数量,在本实例中m为3,σ采用relu激活函数,神经网络模型结构如图5所示。
步骤S2-2、求解纳什均衡策略π,求解策略π过程为求解如下规划问题过程,在本示例中:
Figure BDA0003101215590000063
Figure BDA0003101215590000064
Figure BDA0003101215590000065
Figure BDA0003101215590000066
分别为交叉口i3,i4在状态S下的纳什Q值;x,y为列向量,具体为交叉口i3,i4在下一阶段采用各个相位的概率;xi,yi为列向量x,y的各个分量。
具体求解方法为:
由步骤2.1构建的神经网络模型求解出在S状态下
Figure BDA0003101215590000067
Figure BDA0003101215590000068
定义松弛变量a3,b4
Figure BDA0003101215590000069
Figure BDA0003101215590000071
即:
a31=1-4y3-6y4 A1
a32=1-5y3-3y4 A2
b43=1-3x1-x2 B1
b44=1-2x1-4x2 B2
设置松弛变量为0,在B1约束下将x1扩大至1/3:
Figure BDA0003101215590000072
将x1代入约束方程B2:
Figure BDA0003101215590000073
根据互补条件y3b43=0,依据约束A2求解y3
Figure BDA0003101215590000074
将y3代入约束方程A1:
Figure BDA00031012155900000715
基于x2a32=0,依据约束B2′求解x2
Figure BDA0003101215590000075
Figure BDA0003101215590000076
基于y4b43=0,依据约束A1′求解y4
Figure BDA0003101215590000077
Figure BDA0003101215590000078
因此当前解策略为
Figure BDA0003101215590000079
归一化策略为:
Figure BDA00031012155900000710
即纳什均衡策略π交叉口3在下一相位以
Figure BDA00031012155900000711
的概率采取相位1,以
Figure BDA00031012155900000712
的概率采取相位2;交叉口4在下一相位以
Figure BDA00031012155900000713
的概率采取相位1,以
Figure BDA00031012155900000714
的概率采取相位2。
步骤S2-3、更新交叉口i的Qi(S,A),更新过程如下:
Figure BDA0003101215590000083
式中,α为学习速率,γ为折扣因子,
Figure BDA0003101215590000084
为交叉口i的纳什Q值,si′为交叉口i在状态si下经过与邻接交叉口的联合动作A后转移得到的状态,ri(S,A)为交叉口i在状态S下经过联合动作A所得到的奖励。在图3示例中,
Figure BDA0003101215590000081
Figure BDA0003101215590000082
步骤S3、基于实际或仿真场景运行提取与状态、动作和奖励相关的数据,处理并划分为训练数据集和测试数据集。
具体地,对于每个交叉口建立对应的经验回收池Mi,对于每次动作迭代收集经验<S,A,ri,S′>填入经验回收池。经验回收池设置最大存储容量Z,采用队列结构存储数据,即当经验回收池中的数据量大于最大存储容量Z时,最早进入经验回收池中的经验被移除。在本示例中Z取值为12800。
当需要训练时,从经验回收池随机选取指定数量的随机样本,按照α和1-α比例分成训练数据集和测试数据集。在本示例中,α=0.8。
基于训练集数据对实现交叉口协调控制的纳什Q学习网络模型进行训练,并保留最终训练的模型参数。具体实现包括以下子步骤:
步骤S3-1、设置训练迭代总回合数N,在本示例中N设置为200;
步骤S3-2、初始化步骤2.1构建的神经网络模型参数。在本示例中神经网络权重系数初始化为符合正太分布的随机数,纳什Q值表中各值初始化为0。
步骤S3-3、设置单次训练迭代回合仿真运行时长T,时间步长step。在本示例中,=设置为3600秒,step设置为5秒。
步骤S3-4、每经过一时间步长,记录当前仿真时间t,记录相邻交叉口的当前状态S,根据步骤S2-2求解出的列向量x、y,按概率选择x、y中的分量作为下一阶段两个交叉口的动作A,即下一阶段两个交叉口各自需要切换的相位,经过当前时间步长后记录交叉口的状态S′和在这一时间步长内交叉口i得到的奖励ri,将<S,A,Ri,S′>存入经验回收池Mi中时间步长加1,检查当前时间是否超过运行时长,如果超过,进入步骤S3-5,如果没超过重新进行步骤S3-4;
步骤S3-5、按照步骤S3获取训练数据集,按照步骤S2-2、S2-3对建立的网络参数进行迭代更新,当前迭代回合数加1;
步骤S3-6、检查当前迭代回合数是否超过训练迭代总回合数,如果超过,结束训练,如果没超过重新进入步骤S3-3。
步骤4、依据训练好的纳什Q学习网络模型对控制区域进行联合协同控制,对各交叉口的信号相位进行合理切换。
具体地,交通网络运行时,在每个时间步长,相邻两个交叉口获取当前联合状态集S,并利用步骤S2构建的神经网络模型加载步骤S3最终训练的模型参数计算各动作组合的Qi(S,A),并通过步骤S2-2计算两个交叉口各自采取的信号相位概率向量x、y,并选取x和y中的最大分量作为下一阶段交叉口要采取的动作。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (4)

1.一种基于纳什Q学习算法的交叉口联合信号控制方法,其特征在于,包括以下步骤:
步骤S1、在目标区域内选择需要进行协调的相邻交叉口,形成协调控制区域,并在协调控制区域内构建协调控制模型,利用协调控制模型分别获得协调控制区域内各个目标交叉口对应的状态集、动作集、以及奖励集,所述状态集为协调控制区域内各个目标交叉口的各个进道口的车辆数量、以及各个目标交叉口当前周期的信号控制相位,所述动作集为协调控制区域内各个目标交叉口下一周期的信号控制相位,所述奖励集为协调控制区域在下一周期内通过各个目标交叉口的车辆数;
步骤S1中,利用协调控制模型分别获得协调控制区域内各个目标交叉口对应的状态集、动作集、以及奖励集,具体如下:
选择需要进行协调控制并且拓扑关联的相邻交叉口构建协调控制区域I,I=[i1,i2],其中i1表示编号为1的交叉口,i2表示i1交叉口的相邻编号为2的交叉口;
控制区域状态集由S表示,
Figure FDA0003553531370000011
其中
Figure FDA0003553531370000012
表示交叉口i1,i2的状态矩阵,单个交叉口的状态主要为交叉口各进口道的车辆数和交叉口当前的信号控制相位,s=[N,c],N是交叉口各进口道存储的车辆数的行向量,c为该交叉口当前信号控制相位;
控制区域动作集由A表示,
Figure FDA0003553531370000013
其中
Figure FDA0003553531370000014
表示交叉口i1,i2的动作,单个交叉口的动作为交叉口下一阶段要采用的信号控制相位;
控制区域奖励集由R表示,
Figure FDA0003553531370000015
其中
Figure FDA0003553531370000016
表示交叉口i1,i2的奖励矩阵,奖励矩阵r为在s状态下交叉口i1,i2采用动作a1,a2所对应的奖励组合,具体奖励形式为下一阶段通过交叉口的车辆数;
步骤S2、分别针对协调控制区域内的各个目标交叉口,利用纳什均衡策略,以协调控制区域内的状态集、动作集为输入,以目标交叉口的纳什Q值为输出,构建纳什Q学习网络模型,获得目标交叉口的纳什Q值;
步骤S2中,针对目标区域内的各个目标交叉口,构建对应的纳什Q学习网络模型,包括以下步骤:
步骤S2-1、以交叉口的状态集S和动作集A为输入,以当前状态下交叉口的Q预测值为输出,构建神经网络模型,构建过程如下:
Qi(S,A)=[σ(FC(S))]m,i∈I
其中,Qi(S,A)为目标区域I内的交叉口i在状态集S经过动作集A后的Q预测值,σ为神经网络的激活层,FC为神经网络的全连接层,m为神经网络模型全连接层和激活层的数量;
步骤S2-2、根据以下约束条件:
Figure FDA0003553531370000021
求解以下规划问题过程:
Figure FDA0003553531370000022
Figure FDA0003553531370000023
获得纳什均值策略,其中
Figure FDA0003553531370000024
为交叉口i1、i2在状态S下的纳什Q值,x、y为列向量,具体为交叉口i1,i2在下一阶段采用各个相位的概率,xi,yi为列向量x,y的各个分量;
步骤S2-3、根据公式:
Figure FDA0003553531370000025
将交叉口i的Q预测值Qi(S,A)更新为Qi(S,A)′,其中,α为学习速率,ri(S,A)为在交叉口状态集S下经过与动作集A得到的奖励集,γ为折扣因子,
Figure FDA0003553531370000026
为交叉口i在状态S′下的纳什Q值,状态S′为协调控制区域在状态S下经过联合动作A后转移得到的状态;
步骤S3、针对协调控制区域,结合步骤S2中构建的纳什Q学习网络模型,提取与状态集、动作集和奖励集相关的各个目标交叉口的经验数据,并将经验数据随机划分为训练数据集和测试数据集,利用训练数据集对步骤S2中获得的各个目标交叉口的纳什Q学习网络模型进行训练,并保留训练的模型参数,即获得训练好的目标区域的纳什Q学习网络模型;
步骤S4、根据步骤S3中获得的训练好的纳什Q学习网络模型对目标区域内的信号控制相位进行协调控制。
2.根据权利要求1所述的一种基于纳什Q学习算法的交叉口联合信号控制方法,其特征在于,所述步骤S3中,处理并划分为训练数据集和测试数据集,具体包括:
对于每个交叉口建立对应的经验回收池,对于每次动作迭代收集经验数据<S,A,Ri,S′>填入经验回收池,经验回收池设置最大存储容量,采用队列结构存储数据,即当经验回收池中的数据量大于最大存储容量时,最早进入经验回收池中的经验被移除;
当需要训练时,从经验回收池随机选取指定数量的随机样本,按照预设比例随机分成训练数据集和测试数据集。
3.根据权利要求2所述的一种基于纳什Q学习算法的交叉口联合信号控制方法,其特征在于,所述步骤S3中,利用训练数据集对步骤S2中获得的各个目标交叉口的纳什Q学习网络模型进行训练,包括以下步骤:
步骤S3-1、设置训练迭代总回合数;
步骤S3-2、初始化步骤S2-1构建的神经网络模型参数;
步骤S3-3、设置单次训练迭代回合运行时长、以及时间步长;
步骤S3-4、每经过一个时间步长,记录当前时间、以及经验数据<S,A,Ri,S′>,并填入经验回收池,根据步骤S2-2求解出的列向量x、y,按概率选择x、y中的分量作为下一阶段两个交叉口的动作A,即下一阶段两个交叉口各自需要切换的相位,经过当前时间步长后记录交叉口的状态S′和在这一时间步长内交叉口i得到的奖励ri,将<S,A,Ri,S′>填入经验回收池,时间步长加1,检查当前时间是否超过运行时长,如果超过,进入步骤S3-5,如果没超过重新进行步骤S3-4;
步骤S3-5、按照步骤S3获取训练数据集,按照步骤S2-2、S2-3对建立的网络参数进行迭代更新,当前迭代回合数加1;
步骤S3-6、检查当前迭代回合数是否超过训练迭代总回合数,如果超过,结束训练,如果没超过重新进入步骤S3-3。
4.根据权利要求1所述的一种基于纳什Q学习算法的交叉口联合信号控制方法,其特征在于,所述步骤S4中,交通网络运行时,在每个时间步长,相邻两个交叉口获取当前联合状态集S,并利用步骤S2构建的神经网络模型加载步骤S3最终训练的模型参数计算各动作组合的Qi(S,A),并通过步骤S2-2计算两个交叉口各自采取的信号相位概率向量x、y,并选取x和y中的最大分量作为下一阶段交叉口要采取的动作。
CN202110623777.3A 2021-06-04 2021-06-04 一种基于纳什q学习算法的交叉口联合信号控制方法 Active CN113487891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110623777.3A CN113487891B (zh) 2021-06-04 2021-06-04 一种基于纳什q学习算法的交叉口联合信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110623777.3A CN113487891B (zh) 2021-06-04 2021-06-04 一种基于纳什q学习算法的交叉口联合信号控制方法

Publications (2)

Publication Number Publication Date
CN113487891A CN113487891A (zh) 2021-10-08
CN113487891B true CN113487891B (zh) 2022-07-01

Family

ID=77934266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110623777.3A Active CN113487891B (zh) 2021-06-04 2021-06-04 一种基于纳什q学习算法的交叉口联合信号控制方法

Country Status (1)

Country Link
CN (1) CN113487891B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046987B (zh) * 2015-06-17 2017-07-07 苏州大学 一种基于强化学习的路面交通信号灯协调控制方法
CN109559530B (zh) * 2019-01-07 2020-07-14 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN109785619B (zh) * 2019-01-21 2021-06-22 南京邮电大学 区域交通信号协调优化控制系统及其控制方法
CN110060475B (zh) * 2019-04-17 2021-01-05 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN111243271A (zh) * 2020-01-11 2020-06-05 多伦科技股份有限公司 一种基于深度循环q学习的单点交叉口信号控制方法
CN111583675B (zh) * 2020-05-14 2021-05-14 吴钢 一种区域路网交通信号灯协调控制系统和方法

Also Published As

Publication number Publication date
CN113487891A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
Du et al. A survey on multi-agent deep reinforcement learning: from the perspective of challenges and applications
CN108197739B (zh) 一种城市轨道交通乘客流量预测方法
CN109492814B (zh) 一种城市交通流量预测方法、系统及电子设备
KR101821494B1 (ko) 감응식 교통 신호 제어 방법 및 그 장치
CN108427985A (zh) 一种基于深度强化学习的插电式混合动力车辆能量管理方法
CN109063823B (zh) 一种智能体探索3d迷宫的批a3c强化学习方法
CN107818367A (zh) 用于神经网络的处理系统和处理方法
CN109740741B (zh) 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法
CN105701482A (zh) 基于非平衡标签信息融合的人脸识别算法架构
CN111047078B (zh) 交通特征预测方法、系统及存储介质
CN113963553A (zh) 一种道路交叉口信号灯绿信比控制方法、装置和设备
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
Zou et al. An end-to-end learning of driving strategies based on DDPG and imitation learning
CN115300910B (zh) 基于多智能体强化学习的去混淆游戏策略模型生成方法
Alaniz Deep reinforcement learning with model learning and monte carlo tree search in minecraft
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及系统
CN114626499A (zh) 用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法
CN114582131B (zh) 一种基于匝道智能控流算法的监控方法及系统
CN113299079B (zh) 一种基于ppo和图卷积神经网络区域交叉口信号控制方法
CN113487891B (zh) 一种基于纳什q学习算法的交叉口联合信号控制方法
Gallego et al. Maintaining flexibility in smart grid consumption through deep learning and deep reinforcement learning
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN113509726B (zh) 交互模型训练方法、装置、计算机设备和存储介质
CN116224996A (zh) 一种基于对抗强化学习的自动驾驶优化控制方法
CN112884125A (zh) 迁移强化学习控制方法、系统、存储介质、设备及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant