CN116994444B - 一种交通灯控制方法、系统及存储介质 - Google Patents
一种交通灯控制方法、系统及存储介质 Download PDFInfo
- Publication number
- CN116994444B CN116994444B CN202311243923.5A CN202311243923A CN116994444B CN 116994444 B CN116994444 B CN 116994444B CN 202311243923 A CN202311243923 A CN 202311243923A CN 116994444 B CN116994444 B CN 116994444B
- Authority
- CN
- China
- Prior art keywords
- agent
- intelligent
- action
- moment
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 230000009471 action Effects 0.000 claims abstract description 74
- 230000009467 reduction Effects 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 10
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 238000004088 simulation Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 2
- 101100004297 Caenorhabditis elegans bet-1 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/081—Plural intersections under common control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
- G08G1/0129—Traffic data processing for creating historical data or processing based on historical data
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种交通灯控制方法、系统及存储介质,本发明采用的控制模型中,将上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值降维后进行全局传递,不仅解决了局部可见性问题,而且解决了因通信延时智能体难以实时获取较远处其他交叉口信息的问题,根据全局信息和当前时刻各交叉口的交通信息实现交通灯相位控制,可投入实际应用环境。
Description
技术领域
本发明涉及一种交通灯控制方法、系统及存储介质,属于多智能体强化学习、深度学习和交通仿真技术领域。
背景技术
目前很多学者将多智能体深度强化学习方法运用到交通灯控制中,具体是将每个交叉口视作一个独立的智能体,将交叉口的交通信息(如车流信息、拥堵情况等)视作状态,交通信号灯的相位视作动作。但是对于单个智能体而言,可观察到的环境不是全局环境,而是每个交叉口附近的局部环境,这种局部可见性直接导致了环境变得不平稳,间接使得智能体策略难以收敛以及强化学习的经验回放方法不再适用,并且目前的大多数研究,建立在智能体能够实时全局通信的假设前提下,但是在真实环境中,由于通信之间的延时问题,智能体难以实时的获取较远处其他交叉口信息,这导致多智能体深度强化学习方法难以投入实际应用环境。
发明内容
本发明提供了一种交通灯控制方法、系统及存储介质,解决了背景技术中披露的问题。
为了解决上述技术问题,本发明所采用的技术方案是:
一种交通灯控制方法,包括:
获取当前时刻各交叉口的交通信息;
将当前时刻各交叉口的交通信息和上一时刻各交叉口的高维信息输入控制模型,获得当前时刻各交叉口交通灯的相位;
其中,在控制模型中,将交叉口视为智能体,将交叉口的交通信息视为智能体的状态,将交叉口交通信号灯的相位视为智能体的动作;
控制模型对上一时刻各智能体的高维信息进行降维处理,获得上一时刻各智能体的低维信息,将各智能体的低维信息进行交互,获得上一时刻各智能体的全局信息,根据上一时刻各智能体的全局信息和当前时刻各智能体的状态,获得当前时刻各智能体的动作以及动作对应的价值;上一时刻各智能体的高维信息包括上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值。
控制模型采用全连接层对上一时刻各智能体的高维信息进行降维处理,公式为:
;
式中,为t-1时刻第k个智能体的低维信息,w k 为第k个智能体的ReLU函数中的权重,b k 为第k个智能体的ReLU函数中的偏置量,/>为t-1时刻第k个智能体状态和t-1时刻控制模型输出的第k个智能体动作价值的组合。
将各智能体的低维信息进行交互,获得上一时刻各智能体的全局信息,包括:
采用空间折扣策略,将各智能体的低维信息进行交互,获得上一时刻各智能体的全局信息;其中,空间折扣策略:第k个智能体接收到的其他智能体的低维信息为基于空间距离折扣计算后的低维信息。
基于空间距离折扣计算低维信息的公式为:
;
式中,为第k个智能体接收到的第j个智能体t-1时刻的低维信息,f k 为第k个智能体的协调器,d(k,j)为第k个智能体和第j个智能体的空间距离,α d 为与空间距离d适配的折扣因子,/>为t-1时刻第j个智能体的低维信息,/>为协调器参数,D k 表示其他智能体与第k个智能体的最远空间距离,v表示第k个智能体的所有可通信智能体集合。
根据上一时刻各智能体的全局信息和当前时刻各智能体的状态,获得当前时刻各智能体的动作以及动作对应的价值,包括:
将上一时刻各智能体的全局信息和当前时刻各智能体的状态输入深度循环Q网络,获得当前时刻各智能体的动作集合以及动作集合对应的价值集合;其中,价值集合中的价值和动作集合中的动作一一对应;
采用贪心策略,从每个价值集合中选择一价值,将价值对应的动作作为相应智能体的当前动作。
贪心策略中,ϵ设置为随着时间改变动态递减的值。
控制模型的智能体奖励值为以下因素的加权和;
其中,因素包括:
智能体所有临近道路的队列长度;
智能体所有临近道路的延迟总和;
智能体所有临近道路车辆更新后的等待时间总和;
在智能体与环境交互的周期内,智能体执行完最后一次相位改变后,周期内通过智能体的车辆总数。
控制模型输出的动作价值公式为:
;
式中,为未来折扣因子,用来表示未来奖励的影响程度,当/>接近1时,表示控制模型越关心未来的奖励,如果/>,则表示未来奖励和当前奖励一样,当/>接近0时,表示控制模型越关心现在的奖励,如果/>,则表示不考虑未来奖励因素,s t 为t时刻的状态,s t+1为t+1时刻的状态,a t 为t时刻的动作,a t+1为t+1时刻的动作,为在s t+1下最大的动作价值,Q(s t ,a t )为智能体在s t 下采用a t 后控制模型输出的动作价值,r(s t ,a t )为智能体在s t 下采用a t 后控制模型输出的奖励;
控制模型训练采用的损失函数为:
;
式中,L为损失函数值,分别代表目标网络和评估网络的参数,B代表每次进行控制模型更新时从经验池中采样的数量,r t 为t时刻的奖励,Q(s t ,a t ;θ)为智能体在s t 下采用a t 后经参数为θ的目标网络输出的动作价值,/>为智能体在s t+1下采用a t+1后经参数为/>的评估网络输出的动作价值。
一种交通灯控制系统,包括:
交通信息获取模块,获取当前时刻各交叉口的交通信息;
相位控制模块,将当前时刻各交叉口的交通信息和上一时刻各交叉口的高维信息输入控制模型,获得当前时刻各交叉口交通灯的相位;
其中,在控制模型中,将交叉口视为智能体,将交叉口的交通信息视为智能体的状态,将交叉口交通信号灯的相位视为智能体的动作;
控制模型对上一时刻各智能体的高维信息进行降维处理,获得上一时刻各智能体的低维信息,将各智能体的低维信息进行交互,获得上一时刻各智能体的全局信息,根据上一时刻各智能体的全局信息和当前时刻各智能体的状态,获得当前时刻各智能体的动作以及动作对应的价值;上一时刻各智能体的高维信息包括上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值。
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行交通灯控制方法。
本发明所达到的有益效果:本发明采用的控制模型中,将上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值降维后进行全局传递,不仅解决了局部可见性问题,而且解决了因通信延时智能体难以实时获取较远处其他交叉口信息的问题,根据全局信息和当前时刻各交叉口的交通信息实现交通灯相位控制,可投入实际应用环境。
附图说明
图1为交通灯控制方法的流程图;
图2为交叉口交通信号灯相位的示意图;
图3为降维处理的原理图;
图4为信息交互的原理图;
图5为深度循环Q网络的结构示意图;
图6为控制模型的原理图;
图7为交通环境中交通流的示意图;
实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种交通灯控制方法,包括以下步骤:
步骤1,获取当前时刻各交叉口的交通信息。
步骤2,将当前时刻各交叉口的交通信息和上一时刻各交叉口的高维信息输入控制模型,获得当前时刻各交叉口交通灯的相位;
其中,在控制模型中,将交叉口视为智能体,将交叉口的交通信息视为智能体的状态,将交叉口交通信号灯的相位视为智能体的动作;
控制模型对上一时刻各智能体的高维信息进行降维处理,获得上一时刻各智能体的低维信息,将各智能体的低维信息进行交互,获得上一时刻各智能体的全局信息,根据上一时刻各智能体的全局信息和当前时刻各智能体的状态,获得当前时刻各智能体的动作以及动作对应的价值;上一时刻各智能体的高维信息包括上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值。
上述方法采用的控制模型中,将上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值降维后进行全局传递,不仅解决了局部可见性问题,而且解决了因通信延时智能体难以实时获取较远处其他交叉口信息的问题,根据全局信息和当前时刻各交叉口的交通信息实现交通灯相位控制,可投入实际应用环境。
上述控制模型在实施之前需要先进行训练,可采用仿真方式获取训练所需样本,具体可采用仿真平台SUMO(Simulation of Urban Mobility)为实验环境,在该平台上实现现实道路的仿真;以一个含有二十五个交叉口的交通路网为例,在仿真平台上进行交通环境的设计,每个交叉口与四个200米长的路段相连,每条道路有两条引入车道和两条引出车道,交叉口的交通灯包括四个相位(见图2),图中NSG(南北方向绿灯)、NSLG(南北方向左转绿灯)、WEG(东西方向绿灯)、WELG(东西方向左转绿灯),当一个方向上有绿灯时,另一个方向上有红灯,此外,绿灯后接3秒黄灯,然后变为红灯。
在仿真平台上设计实现时变交通流,交通流由四种合成交通流共同组成,分别为交通流F 1、f 1、F 2、f 2、F 1,交通流从0时刻开始运行,由三对源-目标(O-D)组成,分别为F 1.1、F 1.2、F 1.3;见图7,其中,O表示一股交通流的其实位置,D表示一股交通流的终点位置,交叉口之间的距离为200米,一对源-目标意味着有一股交通流将从原位置出发,最终到达目标位置,f 1交通流则由f 1.1、f 1.2、f 1.3三对O-D组成,在15分钟之后,F 1和f 1的车辆开始衰减,F 2和f 2开始生成,F 2、f 2交通流是翻转F 1、f 1的三对O-D而来,X代表着交通环境中的单个交叉口,在图7中演示了一个含有25个交叉口的交通路网。
基于背景技术中的问题,在考虑到真实交通环境的通信情况后,针对需要进行全局传递的信息,本发明的控制模型采用非即时通信取代即时通信,即传递上一时刻的信息,具体是通过仿真平台获取的上一时刻各交叉口的交通信息以及上一时刻控制模型输出的各交叉口相位的价值。
假设△t作为智能体与交通环境交互的时间步,每次在环境模拟了△t时长后,智能体将改变当前策略。为了保证现实交通状况中的安全状况,每次改变策略后,智能体将先执行ty时间,之后执行的△t-ty时间则作为执行策略的真正时间,仿真平台也将收集该时间段的交通信息,并将交通信息记为提供给模型,其中,因此需要保证ty<△t。
由于交通信息和相位的价值均具备高维的特性,难以直接应用,因此本发明的控制模型中,在进行全局传递之前,需要先进行降维处理,见图3高维信息经过全连接层(FC)的处理,实现降维。以第k个智能体为例,将t-1时刻第k个智能体状态和t-1时刻控制模型输出的第k个智能体动作价值/>的组合记为/>,用全连接层对上一时刻/>进行降维处理,降维后的低维信息可表示为:
;
式中,为t-1时刻第k个智能体的低维信息,w k 为第k个智能体的ReLU函数中的权重,b k 为第k个智能体的ReLU函数中的偏置量。
传统的信息传递,每个智能体都需要在某一时刻收集其它智能体的信息,这意味着一个智能体的信息需要被所有智能体都进行一次收集。本发明将各智能体的低维信息加入到集中协调模块,后续其他智能体可直接通过集中协调模块获取任一智能体的信息,通过这种方式可以避免重复的计算。
对于某个智能体而言,其状态和策略的改变都会对距离最近的交叉口产生较大的影响,这种影响程度会随着距离的增加逐渐降低,在某些情况下,对于最远处的智能体而言,所造成的影响几乎小到忽略不计。因此本发明采用空间折扣策略,将各智能体的低维信息进行交互,获得上一时刻各智能体的全局信息;其中,空间折扣策略:第k个智能体接收到的其他智能体的低维信息为基于空间距离折扣计算后的低维信息。
见图4(图4中的FC为全连接层),在多智能体网络中,如果第k个智能体和第k1个智能体之间存在边,则它们可被看作是是邻居,第k个智能体的邻居被表示为N k ,则本地区域表示第k个智能体的所有可通信智能体集合,包括自己。任意两个智能体的空间距离代表着连接他们的最小边的数量,D k 表示其他智能体与第k个智能体的最远空间距离,α作为空间折扣因子,按照空间顺序衡量信息的价值。相比于在智能体之间等价的传递信息,这种能够从0到1灵活改变的折扣因子更能反映真实交通环境中不同路网之间带来影响的重要程度。
因此基于空间距离折扣计算低维信息的公式可表示为:
;
式中,为第k个智能体接收到的第j个智能体t-1时刻的低维信息,f k 为第k个智能体的协调器,d(k,j)为第k个智能体和第j个智能体的空间距离,α d 为与空间距离d适配的折扣因子,/>为t-1时刻第j个智能体的低维信息,/>为协调器参数。
将上一时刻各智能体的全局信息和当前时刻各智能体的状态输入深度循环Q网络,获得当前时刻各智能体的动作集合以及动作集合对应的价值集合;其中,价值集合中的价值和动作集合中的动作一一对应。采用贪心策略,从每个价值集合中选择一价值,将价值对应的动作作为相应智能体的当前动作。
考虑到交通路口状况的时间连续性,深度循环Q网络如图5所示,本地状态作为输入首先经过LSTM模块,其输出结合全局信息共同作为输入通过全连接层,最终输出Q值,通过这种做法,使模型具备记忆本地交叉口上下文信息的功能。根据当前时刻各智能体的状态以及上一时刻各智能体的全局信息预测出t1秒后当前智能体(智能体)的拥堵情况,拥堵情况是由当前车辆队列等待长度,已通过车辆数和更新后的车辆等待时间共同决定。并根据预测的各个车道拥堵情况,以ϵ概率随机选取随机动作,以1-ϵ的概率选取可使当前拥堵情况得到最大缓解的动作。
基于当前的一些学术研究,为了确保模型在前期能充分探索位置环境,后期充分利用以存储的信息进行学习,本发明对ϵ值进行动态的设置,参考其他研究,为ϵ设置初始值为0.8,随着时间改变动态递减的值,当到达最后时刻时,缩减至0.01。
综上,见图6,控制模型的工作过程为:对上一时刻各智能体的高维信息进行降维处理,获得上一时刻各智能体的低维信息,将各智能体的低维信息进行交互,获得上一时刻各智能体的全局信息,根据上一时刻各智能体的全局信息和当前时刻各智能体的状态,获得当前时刻各智能体的动作以及动作对应的价值。
仿真平台执行智能体提供的动作,使交通状态进入下一阶段,并返回即时奖励值;其中,控制模型的智能体奖励值为以下因素的加权和;因素包括:智能体所有临近道路的队列长度;智能体所有临近道路的延迟总和;智能体所有临近道路车辆更新后的等待时间总和;在智能体与环境交互的周期内,智能体执行完最后一次相位改变后,周期内通过智能体的车辆总数。
生成经验元组(D j-1,O j ,A j ,Q j ,O j+1),其中D j-1表示j-1时刻的全局信息,O j 表示j时刻所有智能体的本地状态组合,A j 表示j时刻所有智能体的动作组合,Q j 表示j时刻模型的输出,O j+1则表示在O j 时刻采取A j 后得到的j+1时刻状态组合。将该经验元组存入经验池中,每隔一段时间,利用经验回放机制从经验池中选取若干条经验元组,基于已选择的经验元组,利用平滑化绝对值损失函数和经验元组的TD-error值加权和作为损失函数,使用最先进的正交初始化器和RMSprop作为梯度优化器对模型进行训练。
控制模型输出的动作价值公式为:
;
式中,为未来折扣因子,用来表示未来奖励的影响程度,当/>接近1时,表示控制模型越关心未来的奖励,如果/>,则表示未来奖励和当前奖励一样,当/>接近0时,表示控制模型越关心现在的奖励,如果/>,则表示不考虑未来奖励因素,s t 为t时刻的状态,s t+1为t+1时刻的状态,a t 为t时刻的动作,a t+1为t+1时刻的动作,为在s t+1下最大的动作价值,Q(s t ,a t )为智能体在s t 下采用a t 后控制模型输出的动作价值,r(s t ,a t )为智能体在s t 下采用a t 后控制模型输出的奖励;
在控制模型的更新过程中,采用了梯度下降的均方误差损失函数来更新参数,控制模型训练采用的损失函数为:
;
式中,L为损失函数值,分别代表目标控制模型和评估控制模型的参数,B代表每次进行控制模型更新时从经验池中采样的数量,r t 为t时刻的奖励,Q(s t ,a t ;θ)为智能体在s t 下采用a t 后经参数为θ的目标网络输出的动作价值,/>为智能体在s t+1下采用a t+1后经参数为/>的评估网络输出的动作价值。
将当前时刻各交叉口的交通信息和上一时刻各交叉口的高维信息输入训练完成的控制模型,即可获得当前时刻各交叉口交通灯的相位。在模型第一次使用时,上一时刻各交叉口的高维信息为0,即表示在初始时刻模型根据本地交叉口收集到的当前数据进行学习。
本发明从时间和空间两个角度出发,提出一种新型控制模型,该控制模型从上至下可分为三层,第一层中每个智能体从上一轮的本地信息(即交通信息)和策略中独立地提取有效信息,第二层中智能体之间利用上层的信息进行集中的交互,由于本地交通的状况与邻接交通存在较强的关联性,使用空间折扣策略,确保智能体在信息交互过程中重视局部信息的状态,第三层中每个智能体基于当前时刻的本地信息和上层中收集到的交互信息进行策略的学习。
本发明的控制模型不仅解决了局部可见性问题,而且解决了因通信延时智能体难以实时获取较远处其他交叉口信息的问题,可投入实际应用环境。
基于相同的技术方案,本发明还公开了上述方法的软件系统,一种交通灯控制系统,包括:
交通信息获取模块,获取当前时刻各交叉口的交通信息;
相位控制模块,将当前时刻各交叉口的交通信息和上一时刻各交叉口的高维信息输入控制模型,获得当前时刻各交叉口交通灯的相位;
其中,在控制模型中,将交叉口视为智能体,将交叉口的交通信息视为智能体的状态,将交叉口交通信号灯的相位视为智能体的动作;
控制模型对上一时刻各智能体的高维信息进行降维处理,获得上一时刻各智能体的低维信息,将各智能体的低维信息进行交互,获得上一时刻各智能体的全局信息,根据上一时刻各智能体的全局信息和当前时刻各智能体的状态,获得当前时刻各智能体的动作以及动作对应的价值;上一时刻各智能体的高维信息包括上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值。
上述系统各模块的数据处理流程与方法的一致,这里不重复描述了。
上述系统的控制模型不仅解决了局部可见性问题,而且解决了因通信延时智能体难以实时获取较远处其他交叉口信息的问题,可投入实际应用环境。
基于相同的技术方案,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行交通灯控制方法。
基于相同的技术方案,本发明还公开了一种计算机设备,包括一个或多个处理器、以及一个或多个存储器,一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行交通灯控制方法的指令。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
Claims (8)
1.一种交通灯控制方法,其特征在于,包括:
获取当前时刻各交叉口的交通信息;
将当前时刻各交叉口的交通信息和上一时刻各交叉口的高维信息输入控制模型,获得当前时刻各交叉口交通灯的相位;
其中,在控制模型中,将交叉口视为智能体,将交叉口的交通信息视为智能体的状态,将交叉口交通信号灯的相位视为智能体的动作;
控制模型对上一时刻各智能体的高维信息进行降维处理,获得上一时刻各智能体的低维信息,采用空间折扣策略,将各智能体的低维信息进行交互,获得上一时刻各智能体的全局信息,根据上一时刻各智能体的全局信息和当前时刻各智能体的状态,获得当前时刻各智能体的动作以及动作对应的价值;上一时刻各智能体的高维信息包括上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值;
空间折扣策略:第k个智能体接收到的其他智能体的低维信息为基于空间距离折扣计算后的低维信息;
基于空间距离折扣计算低维信息的公式为:
;
式中,为第k个智能体接收到的第j个智能体t-1时刻的低维信息,f k 为第k个智能体的协调器, d(k,j)为第k个智能体和第j个智能体的空间距离,α d 为与空间距离d适配的折扣因子,/>为t-1时刻第j个智能体的低维信息,/>为协调器参数,D k 表示其他智能体与第k个智能体的最远空间距离,v表示第k个智能体的所有可通信智能体集合。
2.根据权利要求1所述的交通灯控制方法,其特征在于,控制模型采用全连接层对上一时刻各智能体的高维信息进行降维处理,公式为:
;
式中,为t-1时刻第k个智能体的低维信息, w k 为第k个智能体的ReLU函数中的权重,b k 为第k个智能体的ReLU函数中的偏置量,/>为t-1时刻第k个智能体状态和t-1时刻控制模型输出的第k个智能体动作价值的组合。
3.根据权利要求1所述的交通灯控制方法,其特征在于,根据上一时刻各智能体的全局信息和当前时刻各智能体的状态,获得当前时刻各智能体的动作以及动作对应的价值,包括:
将上一时刻各智能体的全局信息和当前时刻各智能体的状态输入深度循环Q网络,获得当前时刻各智能体的动作集合以及动作集合对应的价值集合;其中,价值集合中的价值和动作集合中的动作一一对应;
采用贪心策略,从每个价值集合中选择一价值,将价值对应的动作作为相应智能体的当前动作。
4.根据权利要求3所述的交通灯控制方法,其特征在于,贪心策略中,ϵ设置为随着时间改变动态递减的值。
5.根据权利要求1所述的交通灯控制方法,其特征在于,控制模型的智能体奖励值为以下因素的加权和;
其中,因素包括:
智能体所有临近道路的队列长度;
智能体所有临近道路的延迟总和;
智能体所有临近道路车辆更新后的等待时间总和;
在智能体与环境交互的周期内,智能体执行完最后一次相位改变后,周期内通过智能体的车辆总数。
6.根据权利要求1所述的交通灯控制方法,其特征在于,控制模型输出的动作价值公式为:
;
式中,为未来折扣因子,用来表示未来奖励的影响程度,当/>接近1时,表示控制模型越关心未来的奖励,如果/>,则表示未来奖励和当前奖励一样,当/>接近0时,表示控制模型越关心现在的奖励,如果/>,则表示不考虑未来奖励因素,s t 为t时刻的状态,s t+1为t+1时刻的状态,a t 为t时刻的动作,a t+1为t+1时刻的动作,为在s t+1下最大的动作价值,Q(s t , a t )为智能体在s t 下采用a t 后控制模型输出的动作价值,r(s t , a t )为智能体在s t 下采用a t 后控制模型输出的奖励;
控制模型训练采用的损失函数为:
;
式中,L为损失函数值,分别代表目标网络和评估网络的参数,B代表每次进行控制模型更新时从经验池中采样的数量,r t 为t时刻的奖励,Q(s t ,a t ; θ)为智能体在s t 下采用a t 后经参数为θ的目标网络输出的动作价值,/>为智能体在s t+1下采用a t+1后经参数为/>的评估网络输出的动作价值。
7.一种交通灯控制系统,其特征在于,包括:
交通信息获取模块,获取当前时刻各交叉口的交通信息;
相位控制模块,将当前时刻各交叉口的交通信息和上一时刻各交叉口的高维信息输入控制模型,获得当前时刻各交叉口交通灯的相位;
其中,在控制模型中,将交叉口视为智能体,将交叉口的交通信息视为智能体的状态,将交叉口交通信号灯的相位视为智能体的动作;
控制模型对上一时刻各智能体的高维信息进行降维处理,获得上一时刻各智能体的低维信息,采用空间折扣策略,将各智能体的低维信息进行交互,获得上一时刻各智能体的全局信息,根据上一时刻各智能体的全局信息和当前时刻各智能体的状态,获得当前时刻各智能体的动作以及动作对应的价值;上一时刻各智能体的高维信息包括上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值;
空间折扣策略:第k个智能体接收到的其他智能体的低维信息为基于空间距离折扣计算后的低维信息;
基于空间距离折扣计算低维信息的公式为:
;
式中,为第k个智能体接收到的第j个智能体t-1时刻的低维信息,f k 为第k个智能体的协调器, d(k,j)为第k个智能体和第j个智能体的空间距离,α d 为与空间距离d适配的折扣因子,/>为t-1时刻第j个智能体的低维信息,/>为协调器参数,D k 表示其他智能体与第k个智能体的最远空间距离,v表示第k个智能体的所有可通信智能体集合。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行权利要求1~6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311243923.5A CN116994444B (zh) | 2023-09-26 | 2023-09-26 | 一种交通灯控制方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311243923.5A CN116994444B (zh) | 2023-09-26 | 2023-09-26 | 一种交通灯控制方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116994444A CN116994444A (zh) | 2023-11-03 |
CN116994444B true CN116994444B (zh) | 2023-12-12 |
Family
ID=88532422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311243923.5A Active CN116994444B (zh) | 2023-09-26 | 2023-09-26 | 一种交通灯控制方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116994444B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014225098A (ja) * | 2013-05-15 | 2014-12-04 | 株式会社東芝 | 交通管制システム及び特典情報提供方法 |
CN110060475A (zh) * | 2019-04-17 | 2019-07-26 | 清华大学 | 一种基于深度强化学习的多交叉口信号灯协同控制方法 |
CN110718077A (zh) * | 2019-11-04 | 2020-01-21 | 武汉理工大学 | 一种行动-评价机制下信号灯优化配时方法 |
CN111696370A (zh) * | 2020-06-16 | 2020-09-22 | 西安电子科技大学 | 基于启发式深度q网络的交通灯控制方法 |
CN111785045A (zh) * | 2020-06-17 | 2020-10-16 | 南京理工大学 | 基于演员-评论家算法的分布式交通信号灯联合控制方法 |
CN112700663A (zh) * | 2020-12-23 | 2021-04-23 | 大连理工大学 | 基于深度强化学习策略的多智能体智能信号灯路网控制方法 |
CN112927505A (zh) * | 2021-01-28 | 2021-06-08 | 哈尔滨工程大学 | 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法 |
CN115019523A (zh) * | 2022-05-31 | 2022-09-06 | 南京邮电大学 | 基于最小化压力差的深度强化学习交通信号协调优化控制方法 |
CN115116242A (zh) * | 2022-06-29 | 2022-09-27 | 苏州科达科技股份有限公司 | 交通信号控制方法、系统、设备及存储介质 |
CN115472023A (zh) * | 2022-08-29 | 2022-12-13 | 南京邮电大学 | 一种基于深度强化学习的智能交通灯控制方法及装置 |
WO2022258943A1 (en) * | 2021-06-11 | 2022-12-15 | Vivacity Labs Ltd | Traffic control system |
-
2023
- 2023-09-26 CN CN202311243923.5A patent/CN116994444B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014225098A (ja) * | 2013-05-15 | 2014-12-04 | 株式会社東芝 | 交通管制システム及び特典情報提供方法 |
CN110060475A (zh) * | 2019-04-17 | 2019-07-26 | 清华大学 | 一种基于深度强化学习的多交叉口信号灯协同控制方法 |
CN110718077A (zh) * | 2019-11-04 | 2020-01-21 | 武汉理工大学 | 一种行动-评价机制下信号灯优化配时方法 |
CN111696370A (zh) * | 2020-06-16 | 2020-09-22 | 西安电子科技大学 | 基于启发式深度q网络的交通灯控制方法 |
CN111785045A (zh) * | 2020-06-17 | 2020-10-16 | 南京理工大学 | 基于演员-评论家算法的分布式交通信号灯联合控制方法 |
CN112700663A (zh) * | 2020-12-23 | 2021-04-23 | 大连理工大学 | 基于深度强化学习策略的多智能体智能信号灯路网控制方法 |
CN112927505A (zh) * | 2021-01-28 | 2021-06-08 | 哈尔滨工程大学 | 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法 |
WO2022258943A1 (en) * | 2021-06-11 | 2022-12-15 | Vivacity Labs Ltd | Traffic control system |
CN115019523A (zh) * | 2022-05-31 | 2022-09-06 | 南京邮电大学 | 基于最小化压力差的深度强化学习交通信号协调优化控制方法 |
CN115116242A (zh) * | 2022-06-29 | 2022-09-27 | 苏州科达科技股份有限公司 | 交通信号控制方法、系统、设备及存储介质 |
CN115472023A (zh) * | 2022-08-29 | 2022-12-13 | 南京邮电大学 | 一种基于深度强化学习的智能交通灯控制方法及装置 |
Non-Patent Citations (5)
Title |
---|
Multi-agent Decision-making at Unsignalized Intersections with Reinforcement Learning from Demonstrations;Chang Huang等;《2023 IEEE Intelligent Vehicles Symposium (IV)》;1-6 * |
Multi-Agent Deep Reinforcement Learning for Large-Scale Traffic Signal Control;Tianshu Chu等;《IEEE Transactions on Intelligent Transportation Systems》;1086-1095 * |
基于多智能体强化学习的智能交通控制系统;谢东瀚;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》(第5期);C034-555 * |
基于多智能体深度强化学习的区域交通信号协调控制研究;余鹏程;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》(第2期);C034-1900 * |
基于深度强化学习的交通信号控制方法研究;孙浩;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》(第2期);C034-1049 * |
Also Published As
Publication number | Publication date |
---|---|
CN116994444A (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112216124B (zh) | 一种基于深度强化学习的交通信号控制方法 | |
CN112632858A (zh) | 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法 | |
CN112700664A (zh) | 一种基于深度强化学习的交通信号配时优化方法 | |
CN113223305B (zh) | 基于强化学习的多路口交通灯控制方法、系统及存储介质 | |
CN111243271A (zh) | 一种基于深度循环q学习的单点交叉口信号控制方法 | |
Li et al. | Adaptive traffic signal control model on intersections based on deep reinforcement learning | |
CN113257016B (zh) | 一种交通信号控制方法、装置以及可读存储介质 | |
CN110444022A (zh) | 交通流数据分析模型的构建方法和装置 | |
CN110164150A (zh) | 一种基于时间分配和强化学习的交通信号灯控制方法 | |
Song et al. | Traffic signal control under mixed traffic with connected and automated vehicles: a transfer-based deep reinforcement learning approach | |
CN114970058A (zh) | 一种基于信赖域贝叶斯的大规模网络信号控制优化方法 | |
Chen et al. | An adaptive control method for arterial signal coordination based on deep reinforcement learning | |
CN115019523A (zh) | 基于最小化压力差的深度强化学习交通信号协调优化控制方法 | |
CN114419884B (zh) | 基于强化学习和相位竞争的自适应信号控制方法及系统 | |
CN113724507B (zh) | 基于深度强化学习的交通控制与车辆诱导协同方法和系统 | |
CN115331460A (zh) | 一种基于深度强化学习的大规模交通信号控制方法及装置 | |
CN113392577B (zh) | 一种基于深度强化学习的区域边界主交叉口信号控制方法 | |
CN116994444B (zh) | 一种交通灯控制方法、系统及存储介质 | |
CN115472023B (zh) | 一种基于深度强化学习的智能交通灯控制方法及装置 | |
CN111507499B (zh) | 预测用模型的构建方法、测试方法、装置及系统 | |
CN110021168B (zh) | 一种车联网下实现实时智能交通管理的分级决策方法 | |
CN116758767A (zh) | 基于多策略强化学习的交通信号灯控制方法 | |
CN116758768A (zh) | 一种全十字路口红绿灯动态调控方法 | |
CN115083149B (zh) | 一种实时监测的强化学习可变时长信号灯控制方法 | |
CN116824848A (zh) | 基于贝叶斯深度q网络的交通信号优化控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |