CN115273502B - 一种交通信号协同控制方法 - Google Patents

一种交通信号协同控制方法 Download PDF

Info

Publication number
CN115273502B
CN115273502B CN202210903865.3A CN202210903865A CN115273502B CN 115273502 B CN115273502 B CN 115273502B CN 202210903865 A CN202210903865 A CN 202210903865A CN 115273502 B CN115273502 B CN 115273502B
Authority
CN
China
Prior art keywords
network
agent
action
actor
critic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210903865.3A
Other languages
English (en)
Other versions
CN115273502A (zh
Inventor
李长乐
王硕
岳文伟
陈新洋
陈越
计星怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210903865.3A priority Critical patent/CN115273502B/zh
Publication of CN115273502A publication Critical patent/CN115273502A/zh
Application granted granted Critical
Publication of CN115273502B publication Critical patent/CN115273502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提出了一种交通信号协同控制方法,主要解决现有集中式评价MARL方法在交通信号协同控制中各智能体具有相同信誉导致合作效率低的问题。其实现方案为:构建路网交通信号控制仿真环境,获取训练样本集;构建由Critic神经网和Actor神经网络并行排布的DRMA网络模型;设计该网络模型的目标优化函数,为各智能体分配不同的信誉并计算各自在协作中的差异贡献;用训练样本集和目标优化函数对DRMA网络模型进行迭代更新,获得训练好的DRMA模型;用训练好的网络模型从环境中获取交通信号协同控制方案。本发明提高了路网的交通信号协同控制效率,降低了路网的平均车辆行程延迟,可用于城市路网的自适应交通信号控制。

Description

一种交通信号协同控制方法
技术领域
本发明属于多智能体强化学习技术领域,特别涉及一种交通信号协同控制方法,可用于城市路网的自适应交通信号控制。
背景技术
目前我国大型城市交通拥堵问题日益严重,更新缓慢的道路基础设施以及无法适应交通流变化的固定相位交通信号灯使得城市路网中的交通流无法被有效疏导从而造成大面积的交通拥堵。针对这一问题,自适应交通信号控制ATSC技术被提出用于应对实时多变的交通流。传统的自适应交通信号控制方法通常是基于时间间隔或时间损耗的。基于时间损耗的控制方法根据路口驶来车辆的时间损失来控制交通信号的相位状态延长。基于时间间隔的方法选择在检测到连续的车流间有足够的时间间隔时切换交通信号相位。
近年来,强化学习RL方法在ATSC领域兴起。与传统的基于时间损失或时间间隔的方法不同,RL采用参数化的网络模型,其输入来自真实的交通场景,输出是通过最大化奖励函数所得到的控制策略。经典的RL方法以Q-learning为代表,采用Q-table存储动作价值,但该方法在高维数据问题中的应用受到限制。针对这一问题,深度神经网络端到端的学习方式被应用于RL算法中,得到改进后的RL算法被称为深度强化学习DRL算法,其在众多复杂的高维数据任务中取得了突破性的表现。深度强化学习DRL可分为两种主要的方法:基于价值的和基于策略的。基于价值的方法,例如深度Q-learning,采用深度神经网络拟合状态价值函数并采用一步时间误差来更新网络参数。基于策略的方法,例如策略迭代和策略梯度,采用深度神经网络对状态价值函数进行参数化,并利用随机梯度下降的优化方法更新其参数。后来,一种AC方法被提出,该方法是基于价值和基于策略两种学习方法的结合体,通过使用Critic网络对每个Actor的动作价值进行评估,并引导他们优化自己的策略。AC方法在价值估计上的方差更小,且比基于策略的方法收敛更快,在交通信号控制方面优于Q-learning方法。
申请公布号为CN112201060A的专利中提出了一种基于AC方法的单交叉口交通信号控制方法,其实现步骤为:获取固定时间间隔的路网车辆位置信息和速度信息,以及对应时刻的信号灯状态;对采集的训练数据进行预处理,获得车辆队列-信号灯状态的集合;利用车辆队列-信号灯状态集,更新Actor网络和Critic网络参数;根据最终的收敛模型,可以得到基于AC的单交叉口交通信号最优配时方案,即下一时刻的最优信号。与现有技术相比,该发明通过人工智能方法,获取了交通运行过程中所隐藏的重要交通信息,最终得到了比传统定时方法通行效率更高的配时方案。但该专利只研究了单交叉路口信号控制问题,无法实现多交叉路口的协同控制,不适用于城市路网。
尽管DRL方法在交通信号控制中表现良好,但对于城市路网,训练所需的联合动作空间随所控制的交通信号灯数量呈指数级增长,极其高维的联合动作空间对于单一集中式的DRL方法在训练上难以达到收敛。在这种情况下,多智能体强化学习MARL方法被提出。该方法在早期采用分布式独立控制的DRL对城市路网中各路口的交通信号进行独立控制。但由于各智能体之间没有通信,每个智能体只考虑最大化自己的回报,在同时与环境交互而不相互协作的情况下,这种早期分布式独立控制的MARL算法在收敛性上表现很差。为了获得更好的收敛性,MARL方法得到了改进,即在分布控制的基础上加入了集中评价机制,主要思想是利用集中式的Critic网络和分布式的Actor网络来控制路网中的交通信号,通过提高每个智能体的环境观测能力使智能体能够在控制策略中考虑彼此的动作,从而实现各路口信号灯控制的有限合作。然而,目前集中式评价的MARL方法仍存在信誉分配问题,即中心Critic网络只能根据联合动作策略向所有智能体返回相同的价值,这样每个智能体单独对全局网络的贡献无法被准确地评估,导致每个智能体的策略改进的方向不准确,因此目前的集中式MARL方法在路网交通信号控制中的合作效率低,导致在交通效率上路网的平均车辆行程延迟较高。
发明内容
本发明目的在于针对上述现有技术的不足,提出一种交通信号协同控制方法,以集中式Critic网络中高效的协作奖励分配机制设计,为路网中分布控制的信号灯智能体提供准确的个体协作策略改进指导,提高信号灯智能体间的合作效率,降低路网的平均车辆行程延迟,实现路网中交通信号的高效协同控制。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)构建路网交通信号控制仿真环境:
构建由路口集合I={I1,I2,…,In,…,IN}及与其对应智能体集合 a={a1,a2,…,an,…,aN}组成的交通信号协同控制场景,其中,N为路口集合中的路口总数,an表示对应N个智能体中的第n个智能体,In表示N个路口中的第n个路口,每个路口中均存在车道集合
Figure BDA0003770348280000031
表示路口In的M个车道中的第m个车道,M为车道集合中的车道总数,0≤n≤N,0≤m≤M,N≥2,M≥2;
(2)获取训练样本集Y:
每个智能体an采集T个时间步长的交通状态信息,每个时间步长的交通状态信息包括:各路口智能体在每个时刻t下的交通状态观察st n、执行动作ut n、执行动作后得到的协作奖励
Figure BDA0003770348280000033
0≤t≤T,用T个时间步长的交通状态信息构成样本规模为N×T的训练样本集Y;
(3)构建DRMA网络模型H:
(3a)建立由7个全连接层依次级联组成的Critic神经网络;
(3b)建立由5个全连接层依次级联组成的Actor神经网络;
(3c)将Critic神经网络和Actor神经网络并行排布构成DRMA网络模型H;
(4)设计DRMA网络模型H的目标优化函数J:
根据路网中的信号灯智能体通过Actor网络π输出策略执行相应动作的机制,采用动作价值Qπ评估智能体在交通状态st下执行动作ut的价值,设计DRMA网络模型H的如下目标优化函数,以使智能体的动作价值Qπ的期望达到最大:
Figure BDA0003770348280000032
其中,J(θπ)为Actor网络π输出策略条件下路网中智能体动作价值Qπ的期望值,θπ为Actor网络π的神经网络参数;
(5)对DRMA网络模型H进行迭代训练:
(5a)初始化迭代次数为e,最大迭代次数为E,E≥2000,e=1;
(5b)将训练集Y作为DRMA网络模型H的输入,Actor网络根据当前时刻t的联合交通状态信息st输出每个智能体要执行的动作概率分布pθπ,同时Critic网络根据当前时刻 t每个智能体选择执行的动作ut n和联合交通状态信息st评估智能体执行动作ut n后获得的价值Qπ,随后Critic网络根据Qπ得到每个智能体在合作中的个体贡献
Figure BDA0003770348280000041
并反馈给 Actor网络,Actor网络根据每个时刻的/>
Figure BDA0003770348280000042
得到其参数θπ的更新方向/>
Figure BDA0003770348280000043
(5c)采用梯度上升法并行更新Actor网络参数θπ和Critic网络参数θc,更新过程按照时间步长依次进行,每T个时间步长更新记作一次迭代训练,其中,T≥3000,为一次迭代训练的最大时间步长,执行一次迭代训练后,e=e+1;
(5d)重复执行(5b)和(5c),直到满足e≥E,则训练结束,得到的训练好的DRMA 网络模型为H*
(6)获取交通信号协同控制方案:
(6a)采集路网当前最新的交通状态信息,构建与(2)中训练样本Y结构相同的测试样本F;
(6b)将测试样本F输入至训练好的DRMA网络模型H*,该模型中的Actor网络根据测试样本F输出每个时刻全局智能体的动作概率分布;
(6c)每个智能体根据最大概率原则输出各自最优的协作动作
Figure BDA0003770348280000044
得到全局智能体的最优协作动作集合/>
Figure BDA0003770348280000045
该集合为该路网的交通信号协同控制方案。
本发明与现有技术相比,具有以下优点:
1)本发明通过集中式Critic网络评估每个智能体在路网交通信号协同控制中不同的个体贡献,对各智能体的Actor网络参数反馈各自相应的改进方向,能够激励各智能体高效地进行协作学习,克服了现有集中式评价方法存在的信誉分配问题,提高了路网中信号灯智能体间的合作效率,降低了路网的平均车辆行程延迟。
2)本发明在所构建的训练样本中对各智能体的奖励进行了空间加权以加强各彼此间的合作,通过该空间加权奖励,各智能体能够接收周围邻居在同一时刻所执行的动作以及返回的奖励,将彼此独立的奖励机制相互耦合,进一步加强了智能体在路网交通信号控制中的协作效率。
附图说明
图1为本发明的实现流程图;
图2为本发明中DRMA网络模型H的结构示意图;
图3为分别用本发明和现有方法对目标路网进行交通信号控制的仿真对比图;
图4为分别用本发明和现有方法对目标路网进行车辆行程延迟的仿真对比图。
具体实施方式
具体实现方式
以下结合附图对本发明的实施例和效果进一步详细描述。
参照图1,本实例的实现步骤如下:
步骤1,构建路网交通信号控制仿真环境。
构建由路口集合I及与其对应智能体集合a组成的交通信号协同控制场景,公式表示如下:
I={I1,I2,…,In,…,IN}
a={a1,a2,…,an,…,aN}
其中,N为路口集合中的路口总数,an表示对应N个智能体中的第n个智能体,In表示N个路口中的第n个路口,每个路口中均存在车道集合Ln,公式表示如下:
Figure BDA0003770348280000051
其中,
Figure BDA0003770348280000052
表示路口In的M个车道中的第m个车道,M为车道集合中的车道总数, 0≤n≤N,0≤m≤M,N≥2,M≥2;
本实施例中,采用LuST城市路网作为交通信号控制场景,K=22,M=24。
步骤2,获取训练样本集Y。
2.1)采集t时刻路口In第m条车道上的车辆数
Figure BDA0003770348280000053
计算路口In所有车道上的车辆总数st n
Figure BDA0003770348280000054
式中,st n记作智能体an在时刻t下的交通状态观察;
2.2)采集智能体an在时刻t下的执行动作ut n,即该时刻交通灯的相位信号动作,本实施例中,交通灯的信号动作采用8相位模式;
2.3)采集t时刻路口In处的车辆流出量
Figure BDA0003770348280000061
和流入量/>
Figure BDA0003770348280000062
计算该时刻路口In处的车辆净流出量/>
Figure BDA0003770348280000063
Figure BDA0003770348280000064
式中,rt n记作智能体an在t时刻执行动作后收到的奖励;
2.4)对2.3)中智能体an的奖励rt n进行空间加权,获得智能体an的协作奖励
Figure BDA0003770348280000065
Figure BDA0003770348280000066
其中,K(n)表示智能体an的相邻智能体集合,α为空间加权因子,协作奖励
Figure BDA0003770348280000067
使智能体能够考虑周围邻居的执行动作和奖励以加强彼此间的协作,本实施例中,α=0.8;
2.5)将t时刻在步骤2.1)、2.2)、2.4)中得到的智能体an的交通状态观察st n、执行动作ut n和协作奖励
Figure BDA0003770348280000068
三者集合构成一个训练样本yn,t
Figure BDA0003770348280000069
2.6)对N个智能体重复进行步骤2.1)至步骤2.5),按照时间步长共进行T步,本实施例中,T=3600,获得N×T个训练样本,构成训练样本集Y,形式如下:
Figure BDA00037703482800000610
其中,yn,t表示智能体an在t时刻构建的一个训练样本。
步骤3,构建DRMA网络模型H。
参照图2,本步骤的具体实现如下:
3.1)建立由7个全连接层依次级联组成的Critic神经网络;
该Critic神经网络中顺次级联的7个全连接层为:输入层→第一隐藏层→第二隐藏层→第三隐藏层→第四隐藏层→第五隐藏层→线性输出层;
该Critic神经网络的输入数据是规模为N×M+N维的联合状态向量,五个隐藏层的神经元规模依次为380、250、160、80、20,每个隐藏层的输出均使用ReLU函数激活,输出层输出的数据为N维的联合价值向量。
3.2)建立由5个全连接层依次级联组成的Actor神经网络;
该Actor神经网络中顺次级联的5个全连接层为:输入层→第一隐藏层→第二隐藏层→第三隐藏层→SoftMax输出层;
该Actor神经网络的输入数据是M维的局部交通状态观察向量,三个隐藏层的神经元规模依次为256、128、64,每个隐藏层的输出均使用ReLU函数激活,SoftMax层输出智能体执行动作的概率分布向量;
3.3)将Critic神经网络和Actor神经网络并行排布构成DRMA网络模型H,其中:
Actor网络负责收集局部交通状态并执行局部最优协作控制动作;
Critic网络负责根据全局交通状态对Actor网络输出的动作策略进行价值评估并反馈给Actor网络,为Actor网络提供参数优化方案。
步骤4,设计DRMA网络模型H的目标优化函数J。
根据路网中的信号灯智能体通过Actor网络π输出策略执行相应动作的机制,采用动作价值Qπ评估智能体在交通状态st下执行动作ut的价值,设计DRMA网络模型H的如下目标优化函数,以使智能体的动作价值Qπ的期望达到最大:
Figure BDA0003770348280000071
其中,J(θπ)为Actor网络π输出策略条件下路网中智能体动作价值Qπ的期望值,θπ为Actor网络π的神经网络参数。
步骤5,对DRMA网络模型H进行迭代训练。
5.1)初始化迭代次数为e,最大迭代次数为E,E≥2000,e=1,本实施例中,E=2000;
5.2)Critic网络通过训练集Y计算每个智能体的个体贡献
Figure BDA0003770348280000072
并反馈给Actor网络,以计算Actor网络的参数优化方向/>
Figure BDA0003770348280000073
5.2.1)将训练集Y作为DRMA网络模型H的输入,Critic网络根据当前时刻t路网中智能体的联合动作ut和全局交通状态信息st计算全局动作价值Qπ
Figure BDA0003770348280000081
式中,
Figure BDA0003770348280000082
为全局智能体的空间加权协作奖励,γ为未来回报折扣因子,本实施例中,γ=0.99;
5.2.2)Critic网络根据全局动作价值Qπ和全局智能体动作ut计算得出每个智能体在交通信号协同控制中的个体贡献
Figure BDA0003770348280000083
并反馈给Actor网络:
Figure BDA0003770348280000084
式中,
Figure BDA0003770348280000085
表示对除智能体an自身外其他智能体在t时刻后的联合动作价值估计,ut=(ut n,ut -n)表示全局的执行动作分为两个部分:自身执行动作ut n和其他智能体的执行动作集合ut -n,/>
Figure BDA0003770348280000086
表示Actor网络根据当前时刻t智能体an的局部观察st n输出执行动作/>
Figure BDA0003770348280000087
的概率分布;
5.2.3)Actor网络根据Critic网络在每个时刻t输出的个体贡献
Figure BDA0003770348280000088
得出其参数θπ的更新方向/>
Figure BDA0003770348280000089
Figure BDA00037703482800000810
式中,θπ为Actor网络π的神经网络参数,
Figure BDA00037703482800000811
为对θπ求梯度的运算。
5.3)采用梯度上升法并行更新Actor网络参数θπ和Critic网络参数θc,公式如下:
Figure BDA00037703482800000812
Figure BDA00037703482800000813
其中,θ'π为更新后的Actor网络参数,θ'c为更新后的Critic网络参数;
Figure BDA0003770348280000091
为智能体an获得的未来折扣回报期望的梯度,其作为Actor网络的优化步长,βπ为Actor 网络的学习率,/>
Figure BDA0003770348280000092
为Critic网络的优化步长,βc为Critic网络的学习率,本实施例中,βπ=0.05,βc=0.001;δt表示一步时间误差,作为Critic网络进行优化的损失函数,根据空间加权奖励/>
Figure BDA0003770348280000093
和动作价值Qπ计算得到:/>
Figure BDA0003770348280000094
本步骤的更新过程按照时间步长依次进行,每T个时间步长更新记作一次迭代训练,本实施例中,T=3600,为一次迭代训练的最大时间步长,执行一次迭代训练后,e=e+1;
5.4)重复执行5.2)和5.3),直到满足e≥E,则训练结束,得到的训练好的DRMA 网络模型为H*
步骤6,获取交通信号协同控制方案。
6.1)采集路网当前最新的交通状态信息,构建与(2)中训练样本Y结构相同的测试样本F;
6.2)将测试样本F输入至训练好的DRMA网络模型H*,该模型中的Actor网络根据测试样本F输出每个时刻全局智能体的动作概率分布;
6.3)每个智能体根据最大概率原则输出各自最优的协作动作
Figure BDA0003770348280000095
得到全局智能体的最优协作动作集合/>
Figure BDA0003770348280000096
该集合为该路网的交通信号协同控制方案。
以下结合仿真对本发明的效果作进一步说明:
一、仿真条件
本发明仿真实验的硬件条件为:Intel Xeon Gold 5218CPU和GEFORCE RTX2080Ti GPU。
本发明仿真实验的软件条件为:Ubuntu20.04操作系统和SUMO1.14.1交通仿真平台。
仿真实验的具体参数如表1所示:
表1:仿真实验参数表
Figure BDA0003770348280000097
Figure BDA0003770348280000101
二、仿真实验内容及结果分析:
仿真实验1:在上述仿真条件下,分别使用本发明和现有方法IA2C和MA2C,在目标路网中获取交通信号协同控制方案,结果如图3,其中,纵坐标为全局动作价值Qπ表示所使用方法对路网交通效率提升的收益,横坐标为迭代训练次数;
现有的IA2C方法是一种分布式独立控制的交通信号控制方法,该方法中的每个智能体在路网中彼此独立,只负责优化各自局部的交通信号控制方案,同时与环境交互而不相互协作。
现有的MA2C方法是一种集中式评价的交通信号控制方法,该方法中的每个智能体能够在控制策略中考虑彼此的动作并以此进行协作,每个智能体通过合作收到统一的奖励回报来更新参数,即每个智能体被分配相同的信誉。
从图3可以看出,本发明的训练曲线最先收敛,且收敛后的全局动作价值Qπ最高,表明本发明在交通信号协同控制中的智能体协作效率是最高的,且获得的交通效率提升收益是最大的。
仿真实验2,在上述仿真条件下,分别使用本发明和现有方法IA2C、MA2C和FixedPhase,在目标路网中进行车辆行程延迟对比,结果如图4,其中左侧纵坐标为车辆平均行程延迟D,计算公式为:
Figure BDA0003770348280000102
式中V为路网中导入的最大车辆数,TTi o为每辆车的实际行程时间,TTi f为每辆车的理想行程时间;右侧纵坐标为车辆数,横坐标为时刻。
现有的Fixed Phase方法是一种采用固定相位模型信号的交通灯控制方案。
从图4可以看出,随着路网中车辆数的变化趋势,本发明的交通信号协同控制方案在目标路网中的车辆平均行程延迟是最低的,表明本发明对目标路网的交通疏导是最有效的。
以上描述仅使本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可以在不背离本发明原理、结构的请看下,进行形式和细节上的各中修改和改变,但是这些基于本发明思想的修正和改变仍然在本发明的权利要求保护范围之内。

Claims (6)

1.一种交通信号协同控制方法,其特征在于,包括如下步骤:
(1)构建路网交通信号控制仿真环境:
构建由路口集合I={I1,I2,…,In,…,IN}及与其对应智能体集合a={a1,a2,…,an,…,aN}组成的交通信号协同控制场景,其中,N为路口集合中的路口总数,an表示对应N个智能体中的第n个智能体,In表示N个路口中的第n个路口,每个路口中均存在车道集合
Figure FDA0003770348270000011
Figure FDA0003770348270000012
表示路口In的M个车道中的第m个车道,M为车道集合中的车道总数,0≤n≤N,0≤m≤M,N≥2,M≥2;
(2)获取训练样本集Y:
每个智能体an采集T个时间步长的交通状态信息,每个时间步长的交通状态信息包括:各路口智能体在每个时刻t下的交通状态观察st n、执行动作ut n、执行动作后得到的协作奖励
Figure FDA0003770348270000013
用T个时间步长的交通状态信息构成样本规模为N×T的训练样本集Y;
(3)构建DRMA网络模型H:
(3a)建立由7个全连接层依次级联组成的Critic神经网络;
(3b)建立由5个全连接层依次级联组成的Actor神经网络;
(3c)将Critic神经网络和Actor神经网络并行排布构成DRMA网络模型H;
(4)设计DRMA网络模型H的目标优化函数J:
根据路网中的信号灯智能体通过Actor网络π输出策略执行相应动作的机制,采用动作价值Qπ评估智能体在交通状态st下执行动作ut的价值,设计DRMA网络模型H的如下目标优化函数,以使智能体的动作价值Qπ的期望达到最大:
Figure FDA0003770348270000014
其中,J(θπ)为Actor网络π输出策略条件下路网中智能体动作价值Qπ的期望值,θπ为Actor网络π的神经网络参数;
(5)对DRMA网络模型H进行迭代训练:
(5a)初始化迭代次数为e,最大迭代次数为E,E≥2000,e=1;
(5b)Critic网络通过训练集Y计算每个智能体的个体贡献
Figure FDA0003770348270000021
并反馈给Actor网络,以计算Actor网络的参数优化方向/>
Figure FDA0003770348270000022
(5c)采用梯度上升法并行更新Actor网络参数θπ和Critic网络参数θc,更新过程按照时间步长依次进行,每T个时间步长更新记作一次迭代训练,其中,T≥3000,为一次迭代训练的最大时间步长,执行一次迭代训练后,e=e+1;
(5d)重复执行(5b)和(5c),直到满足e≥E,则训练结束,得到的训练好的DRMA网络模型为H*
(6)获取交通信号协同控制方案:
(6a)采集路网当前最新的交通状态信息,构建与(2)中训练样本Y结构相同的测试样本F;
(6b)将测试样本F输入至训练好的DRMA网络模型H*,该模型中的Actor网络根据测试样本F输出每个时刻全局智能体的动作概率分布;
(6c)每个智能体根据最大概率原则输出各自最优的协作动作
Figure FDA0003770348270000023
得到全局智能体的最优协作动作集合/>
Figure FDA0003770348270000024
该集合为该路网的交通信号协同控制方案。
2.根据权利要求1所述的方法,其特征在于,步骤(2)中用T个时间步长的交通状态信息构成样本规模为N×T的训练样本集Y,实现如下:
(2a)采集t时刻路口In第m条车道上的车辆数
Figure FDA0003770348270000025
计算路口In所有车道上的车辆总数
Figure FDA0003770348270000026
Figure FDA0003770348270000027
其中,M为每个路口具有的车道总数,st n记作智能体an在时刻t下的交通状态观察;
(2b)采集智能体an在时刻t下的执行动作ut n,即该时刻交通灯的相位动作;
(2c)采集t时刻路口In处的车辆流出量
Figure FDA0003770348270000031
和流入量/>
Figure FDA0003770348270000032
计算该时刻路口In处的车辆净流出量rt n,计算公式如下:
Figure FDA0003770348270000033
其中,rt n记作智能体an在t时刻执行动作后收到的奖励;
(2d)对(2c)中智能体an的奖励rt n进行空间加权,获得智能体an的协作奖励
Figure FDA0003770348270000034
其计算公式如下:
Figure FDA0003770348270000035
其中,K(n)表示智能体an的相邻智能体集合,α为空间加权因子,协作奖励
Figure FDA0003770348270000036
使智能体能够考虑周围邻居的执行动作和奖励以加强彼此间的协作;
(2e)将t时刻在(2a)、(2b)、(2d)中得到的智能体an的交通状态观察st n、执行动作ut n和协作奖励
Figure FDA0003770348270000037
三者集合构成一个训练样本yn,t
Figure FDA0003770348270000038
(2f)对N个智能体重复进行(2a)至(2e),按照时间步长共进行T步,获得N×T个训练样本,构成训练样本集Y,形式如下:
Figure FDA0003770348270000039
其中,yn,t表示智能体an在t时刻构建的一个训练样本。
3.根据权利要求1所述的方法,其特征在于,步骤(3a)中建立由7个全连接层依次级联组成的Critic神经网络,具体结构和参数如下:
该Critic神经网络中顺次级联的7个全连接层为:输入层→第一隐藏层→第二隐藏层→第三隐藏层→第四隐藏层→第五隐藏层→线性输出层;
该Critic神经网络的输入数据是规模为N×M+N维的联合状态向量,五个隐藏层的神经元规模依次为380、250、160、80、20,每个隐藏层的输出均使用ReLU函数激活,输出层输出的数据为N维的联合价值向量。
4.根据权利要求1所述的方法,其特征在于,步骤(3b)中建立由5个全连接层依次级联组成的Actor神经网络,具体结构和参数如下:
该Actor神经网络中顺次级联的5个全连接层为:输入层→第一隐藏层→第二隐藏层→第三隐藏层→SoftMax输出层;
该Actor神经网络的输入数据是M维的局部交通状态观察向量,三个隐藏层的神经元规模依次为256、128、64,每个隐藏层的输出均使用ReLU函数激活,SoftMax层输出智能体执行动作的概率分布向量。
5.根据权利要求1所述的方法,其特征在于,步骤(5b)中所述的Critic网络通过训练集Y计算每个智能体的个体贡献
Figure FDA0003770348270000041
并反馈给Actor网络,以计算Actor网络的参数优化方向
Figure FDA0003770348270000042
公式表示如下:
Figure FDA0003770348270000043
其中,θπ为Actor网络π的神经网络参数,
Figure FDA0003770348270000044
为对θπ求梯度的运算,/>
Figure FDA0003770348270000045
为t时刻智能体an在状态st n的条件下使用Actor网络π执行动作/>
Figure FDA0003770348270000046
的概率;
Figure FDA0003770348270000047
表示智能体an在t时刻根据全局的交通状态观察st和全局的执行动作ut计算得出的自身个体贡献,其计算为/>
Figure FDA0003770348270000048
式中,ut=(ut n,ut -n)表示全局的执行动作ut分为两个部分:自身执行动作ut n和其他智能体的执行动作集合ut -n,Qπ(st,ut)表示对全局智能体在t时刻后执行动作的价值估计,
Figure FDA0003770348270000051
表示对除智能体an自身外其他智能体在t时刻后执行动作的价值估计,两者之差即为t时刻智能体an在协同控制中的个体贡献/>
Figure FDA0003770348270000052
Qπ(st,ut)表示Critic网络根据输入的全局状态st和联合动作ut计算得出的全局动作价值,其计算为
Figure FDA0003770348270000053
式中,/>
Figure FDA0003770348270000054
为全局智能体的空间加权协作奖励,γ为未来回报折扣因子。
6.如权利要求1所述的方法,其特征在于,步骤(5c)中对Actor网络参数θπ和Critic网络参数θc进行更新,公式如下:
Figure FDA0003770348270000055
Figure FDA0003770348270000056
其中,θ'π为更新后的Actor网络参数,θ'c为更新后的Critic网络参数,
Figure FDA0003770348270000057
为智能体an获得的未来折扣回报期望的梯度,作为Actor网络的优化步长,βπ为Actor网络的学习率;
Figure FDA0003770348270000058
为Critic网络的优化步长,βc为Critic网络的学习率;δt为一步时间误差,作为Critic网络进行优化的损失函数,根据空间加权奖励/>
Figure FDA0003770348270000059
和动作价值Qπ计算得到:
Figure FDA00037703482700000510
式中,γ为未来回报折扣因子,Qπ(st,ut)为Critic网络根据输入的全局状态st和联合动作ut计算得出的全局动作价值。
CN202210903865.3A 2022-07-28 2022-07-28 一种交通信号协同控制方法 Active CN115273502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210903865.3A CN115273502B (zh) 2022-07-28 2022-07-28 一种交通信号协同控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210903865.3A CN115273502B (zh) 2022-07-28 2022-07-28 一种交通信号协同控制方法

Publications (2)

Publication Number Publication Date
CN115273502A CN115273502A (zh) 2022-11-01
CN115273502B true CN115273502B (zh) 2023-06-30

Family

ID=83771779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210903865.3A Active CN115273502B (zh) 2022-07-28 2022-07-28 一种交通信号协同控制方法

Country Status (1)

Country Link
CN (1) CN115273502B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116056285B (zh) * 2023-03-23 2023-06-23 浙江芯源交通电子有限公司 一种基于神经元电路的信号灯控制系统及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487860A (zh) * 2021-06-28 2021-10-08 南京云创大数据科技股份有限公司 一种智能交通信号控制方法
WO2022126940A1 (zh) * 2020-12-20 2022-06-23 东南大学 一种重型营运车辆的后向防撞驾驶决策方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022126940A1 (zh) * 2020-12-20 2022-06-23 东南大学 一种重型营运车辆的后向防撞驾驶决策方法
CN113487860A (zh) * 2021-06-28 2021-10-08 南京云创大数据科技股份有限公司 一种智能交通信号控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于超级网络的空铁联合交通流分布模型;戴福青;庞笔照;袁婕;赵元棣;;武汉理工大学学报(交通科学与工程版)(第05期);全文 *

Also Published As

Publication number Publication date
CN115273502A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN112216124B (zh) 一种基于深度强化学习的交通信号控制方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN110119844B (zh) 引入情绪调控机制的机器人运动决策方法、系统、装置
CN112365724B (zh) 一种基于深度强化学习的连续交叉口信号协同控制方法
Abdulhai et al. Reinforcement learning: Introduction to theory and potential for transport applications
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN113643553B (zh) 基于联邦强化学习的多路口智能交通信号灯控制方法及系统
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
Ge et al. Multi-agent transfer reinforcement learning with multi-view encoder for adaptive traffic signal control
CN110299008B (zh) 一种基于强化学习的交通流多步预测方法
CN113436443B (zh) 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
CN113538910A (zh) 一种自适应的全链条城市区域网络信号控制优化方法
CN110444022A (zh) 交通流数据分析模型的构建方法和装置
CN115273502B (zh) 一种交通信号协同控制方法
CN112071062A (zh) 一种基于图卷积网络和图注意力网络的行车时间估计方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
Zhang et al. Independent reinforcement learning for weakly cooperative multiagent traffic control problem
CN113780624A (zh) 一种基于博弈均衡理论的城市路网信号协调控制方法
Bouktif et al. Deep reinforcement learning for traffic signal control with consistent state and reward design approach
CN115731724A (zh) 一种基于强化学习的区域交通信号配时方法及系统
CN115019523A (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
CN115691167A (zh) 一种基于交叉口全息数据的单点交通信号控制方法
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN109752952A (zh) 一种获取多维随机分布及强化控制器的方法和装置
CN116128028A (zh) 一种连续决策空间组合优化的高效深度强化学习算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant