CN114995119A - 基于多智能体深度强化学习的城市交通信号协同控制方法 - Google Patents
基于多智能体深度强化学习的城市交通信号协同控制方法 Download PDFInfo
- Publication number
- CN114995119A CN114995119A CN202210151210.5A CN202210151210A CN114995119A CN 114995119 A CN114995119 A CN 114995119A CN 202210151210 A CN202210151210 A CN 202210151210A CN 114995119 A CN114995119 A CN 114995119A
- Authority
- CN
- China
- Prior art keywords
- network
- global
- traffic
- sub
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了基于多智能体深度强化学习的城市交通信号协同控制方法,包括:采集城市路网的交通状态信息向量;协调各个子区域交叉口的控制策略,并生成子区域交叉口的控制策略。通过深度强化学习算法优化交通信号灯配时,实时动态地调节交叉口车流,减少拥堵延误。以降低总旅行时间为目标优化所有交叉口的信号配时,防止单一交叉口优化对路网造成不利影响,并通过强化学习持续更新优化策略。本发明可以满足城市交通信号控制问题的复杂性、实时性、适应性要求,提升城市路网的整体通行效率,缓解交通拥堵。
Description
技术领域
本发明涉及基于多智能体深度强化学习的城市交通信号协同控制方法,属于智能交通控制技术领域。
背景技术
随着我国城市人口及车辆持续增长,城市交通在高峰时段经常呈现出周期性、长时间和大范围的交通拥堵。我国城市交通系统具有车流量大、车辆时空分布不均匀和受交叉口信号控制的影响明显等特征。而城市土地资源有限,单纯依靠增加交通基础设施不能解决问题,亟需研发先进的城市交通控制系统。现有的自适应交通控制系统如SCOOT,SCAT等需要建立较为复杂的数学模型,且控制效果取决于模型的精度;另一方面,模型的精确度越高,结构和参数调节就越复杂,耗时也越长,这将会在实时性与可靠性之间产生矛盾,特别是需要提高控制效率时,矛盾就会越突出。此外,现有的控制系统依赖人工调参经验,信号配时方案往往滞后,有时反而会加重交通拥堵的情况。
强化学习作为机器学习领域的一个重要分支,无需对交通环境精确建模,而是通过和环境的不断交互获取不同信号控制策略的反馈效果,进而学习不同随机交通环境下的控制策略,最终可以得到动态交通环境下的最优信号控制策略。此外,离线强化学习技术可以做到训练和控制相分离,利用经验数据和仿真数据对神经网络进行预训练,使系统能够在使用前就具备初步的自适应控制能力,在实际使用过程中再不断地采集最新的交通数据优化控制神经网络,从而达到根据不断变化的随机交通流动态控制的目的。
现有的强化学习控制系统主要是针对单一交叉口实施,尚无针对不同交叉口间协作控制的成熟方案,其原因在于强化学习算法的时间复杂度会随着状态空间的增加而呈指数型上升,因而单一交叉口控制方案不能直接套用在多交叉口协同控制中。此外,现有的多智能体强化学习协同控制理论较为复杂,可操作性有待进一步完善。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供基于多智能体深度强化学习的城市交通信号协同控制方法,通过构建多个交叉口的交通控制单元模块(智能体)、路网协同控制模块(智能体)、交通信息采集模块和回放记忆池等,实现对多个交叉口的实时响应信号控制,并且智能体可以在协同控制模块的指导下进行协作。本系统能够有效降低交叉口的拥堵延误时间,平衡路网中各交叉口的利用率,减少通行延误。本系统解决了现有强化学习技术在处理高维交通数据时的状态空间爆炸问题,以及多智能体强化学习中智能体之间耦合程度高,训练难以收敛的问题。
为达到上述目的,本发明提供了基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,包括:
采集城市路网的交通状态信息向量;
协调各个子区域交叉口的控制策略,并生成子区域交叉口的控制策略。
优先地,采集城市路网的交通状态信息向量,包括:
将城市路网划分成N个包含交通信号灯的子区域,交通状态信息向量st为所有子区域的交通状态信息si,t的集合,i∈[1,N],N为城市路网中子区域的总数;
时刻t子区域i交通信号灯的状态向量ci,t=(pi,li,t-1),pi为时刻t子区域i交通信号灯的相位配时,li,t-1为时刻t子区域i相位配时pi的已执行时长。
优先地,协调各个子区域交叉口的控制策略,并生成子区域交叉口的控制策略,包括:
获取交通状态信息向量st,动态生成每个子区域交叉口的控制策略,并将每个子区域交叉口的控制策略转换为对应子区域的交通信号灯的相位配时。
优先地,获取交通状态信息向量si,t和st,动态生成每个子区域交叉口的控制策略,并将每个子区域交叉口的控制策略转换为对应子区域的交通信号灯的相位配时,包括:
将子区域i交通状态信息si,t,送入训练获得的执行网络Qi,a;
执行网络Qi,a动态生成已知的最优控制策略ai,t;
将最优控制策略ai,t转换为对应子区域i交通信号灯的相位配时pi,t:
获取当前交通信号灯的相位配时pi和相位配时pi的已执行时长li,t-1,相位配时pi的最新执行时长li,t=ai,t-li,t-1;若li,t<0,则交通信号灯跳转执行下一相位配时pi,t;
获取下一时刻交通信息状态si,t+1和st+1,将(si,t,ai,t,ri,t,si,t+1,st+1)存为经验数据。
优先地,基于训练获得的本地评价网络Qi,c,训练获得执行网络Qi,a,包括:
训练获得本地评价网络Qi,c,包括:
采集(si,t,ai,t,ri,t,si,t+1,st+1),获取历史经验数据si,tr为子区域i的历史时刻tr的交通状态信息,ai,tr为si,tr对应的历史控制策略,ri,tr为控制策略ai,tr的奖励值,si,tr+1为时刻tr+1子区域的交通状态信息,str+1为时刻tr+1全路网交通状态信息,Di为历史经验数据的容量;
利用训练数据集对本地评价网络Qi,c进行训练,包括:
训练获得的全局执行网络Qa计算获得全局优化策略a′=Qa(s′)的控制策略分量a′i;
采用软更新法更新目标评价网络Q′i,c的权重w′i:
w′i,new=τw′i,old+(1-τ)wi,
式中,τ是设定的系数,w′i,old是更新前的权重,w′i,new是更新后的目标评价网络Q′i,c的权重w′i,wi为Qi,c的权重;
根据交通状态信息向量s′i、控制策略分量a′i、奖励向量ri以及目标评价网络Q′i,c的权重w′i,求解使累积奖励最大的控制目标向量yi:
yi=ri+γQ′i,c(s′i,a′i,w′i),
式中,γ是设定的折扣系数;
计算本地评价网络Qi,c的值Qi,c(si,ai,wi)和控制目标向量yi之间的loss值:
式中,L(wi)是Qi,c(si,ai,wi)和控制目标向量yi之间的loss值;wi是本地评价网络Qi,c的权重向量,采用Adam优化器以loss值最小为目标迭代更新wi;是由该训练数据集计算得到的loss期望值,
判断Qi,c(si,ai,wi)是否能收敛到yi,若Qi,c(si,ai,wi)收敛到yi则输出获得最终的本地评价网络Qi,c。
优先地,基于训练获得的本地评价网络Qi,c,训练获得执行网络Qi,a,包括:
步骤2,调用执行网络Qi,a计算得到si的对应策略ai,ai=Qi,a(si);
步骤3,将si和ai代入本地评价网络Qi,c,计算策略ai的得分Qi,c(si,ai);
步骤4,将得分Qi,c(si,ai)代入以下方程,并采用Adam优化器和确定性策略梯度法更新执行网络Qi,a的权重θi,以使Qi,c(si,ai)的得分达到最高:
步骤5,当Δθi,k<δ时停止更新,δ为相似度阈值,输出获得最终的执行网络Qi,a。优先地,训练获得的全局执行网络Qa计算获得全局优化策略a′=Qa(s′)的控制策略分量a′i,包括:
全局执行网络Qa获取城市路网的交通状态信息向量s′;基于交通状态信息向量s′,全局执行网络Qa计算获得全局优化策略a′,a′=(a′1,…,a′N),N为城市路网中子区域的总数,将a′分解为{a′i|a′i∈a′},a′i为全局优化策略a′的控制策略分量。
优先地,基于训练获得的全局评价网络Qc,训练获得全局执行网络Qa,包括:
训练获得全局评价网络Qc,包括:
步骤1,获取城市路网当前时刻t所有N个子区域的控制策略,合成全局控制策略at=(a1,t,…,aN,t);获取当前时刻的全局交通状态信息向量st和下一时刻的全局交通状态信息向量st+1;
步骤3,通过不断采集(st,at,rt,st+1)获取全路网经验数据(str,atr,rtr,s′tr)D,D为容量,str为城市路网在tr时刻的历史交通状态信息,atr=(a1,tr,…,aN,tr)为tr时刻所有子区域的控制策略,rtr为控制策略atr的奖励值,s′tr为城市路网在tr+1下一时刻的历史交通状态信息;
步骤4,随机选择B组数据构成训练集(str,atr,rtr,s′tr)B,从训练集中提取奖励值(rtr)B构成奖励向量r,从训练集中提取交通状态信息(str)B构成交通状态信息向量s′,并根据s′生成全局控制策略a′,即a′=Qa(s′);
步骤5,采用软更新法更新全局目标评价网络Q′c的权重w′:
w′new=τw′old+(1-τ)w;
式中,τ是设定的系数,w′new是更新前的全局目标评价网络Q′c的权重,w′old是更新后的全局目标评价网络Q′c的权重w′,w是Qc的权重;
更新全局控制目标函数,使全局累积奖励最大;
全局控制目标函数为:
y=r+γQ′c(s′,a′,w′),
式中,y为全局控制目标,Q′c为全局目标评价网络,w′是全局目标评价网络Q′c的权重;
步骤6,通过迭代更新全局评价网络Qc的权重w以最小化L(w);L(w)的计算公式为:
若使Qc(s,a,w)收敛到y,则结束运行,获得最终的全局评价网络Qc。
优先地,基于训练获得的全局评价网络Qc,训练获得全局执行网络Qa,包括:
步骤2,调用全局执行网络Qa计算得到s对应策略a,a=Qa(s);
步骤3,将s和a代入全局评价网络Qc,计算策略a的得分Qc(s,a);
步骤4,将得分Qc(s,a)代入以下方程,并使用Adam优化器对全局执行网络Qa的权重θ进行更新,以使提高Qc(s,a)的得分达到最高;
全局执行网络Qa的权重θ的更新公式为:
若Δθk<δ则结束运行,δ为相似度阈值,输出全局执行网络Qa,否则执行步骤1。
本发明所达到的有益效果:
(1)本发明所述系统和方法,是对城市道路网络的整体协同控制,不再局限于单一交叉口的点控,通过多智能体深度强化学习方法对多个交叉口的信号灯相位调控进行整合,可以提升整条瓶颈路段的通行效率,减少城市交通拥堵。并且,通过协作能够降低每个交通控制单元模块的输入状态规模,避免状态空间爆炸。
(2)本发明提出“整体-局部”分层控制框架的协同控制系统,把城市多交叉口信号灯的协同控制问题分解成一系列规模有限的局部优化问题,既降低了计算负担,又保障了算法的收敛性。在整体层面采用采用了松耦合设计,让协同控制模块在交通控制单元模块训练时提供策略指导和优化,而不需通过共享权重等方式直接参与交叉口的控制,减少了协同控制模块和交通控制单元模块之间的耦合度,从而降低了训练难度;在局部层面采用自主控制,让智能体根据实际情况均衡本地和全局优化策略,从而增加控制的灵活性和对具体问题的针对性。
(3)本发明减少了控制系统的全局评价网络数量,简化了算法结构。以国外较新的多智能体确定性深度确定性策略梯度算法(Multi-agent Deep Deterministic PolicyGradient,MADDPG)为对比,该算法中的每个智能体都需要一个全局评价网络监视全局状态信息的变化。而本发明只需要在协同控制模块中有一个全局评价网络,通过通信模块让其他交通控制单元模块共享全局评价网络的结果就可以达到协同效果,提高了计算效率。
(4)本发明有助于提升我国城市道路交通的智慧管控水平,可以解决传统单点交通控制难以处理路网层面拥堵延误的问题,具有良好的应用前景。
附图说明
图1为本发明的整体结构示意图;
图2为本发明的典型城市路网划分及相应交通状态信息示意图;
图3为本发明的典型交叉口信号相位配时的示意图;
图4为本发明的交通控制单元模块的训练流程图;
图5为本发明的协同控制模块的执行流程图;
图6为本发明的协同控制模块的训练流程图。
具体实施方式
以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
一种多智能体深度强化学习城市交通信号协同控制系统,包括交通信息采集模块,交通控制单元模块,协同控制模块以及通信模块。
所述交通信息采集模块,用于采集城市道路交通信息;
所述交通控制单元模块,用于动态调控交叉口车流的控制策略,减少拥堵延误;
所述协同控制模块,用于协调城市路网中各交叉口的控制策略,防止对某个交叉口的车流调控影响其他交叉口的通行,降低路网车流的总旅行时间;
所述通信模块,用于交通控制单元模块和协同控制模块通信交互。
更进一步地,本实施例中所述交通信息采集模块,使用车路协同技术,或通过线圈或高清摄像头等设备获得深度强化学习可用的交通状态信息st,再发送给交通控制单元模块和协同控制模块。交通状态信息st的采样间隔为5秒;每次更新控制策略后,记录各交通控制单元模块的最新控制策略,并发送给本地回放记忆池和全局回放记忆池。
获取交通状态信息向量st的方法为:
以l米间距对城市路网进行网格化处理,共得到1/n个网格,形成1/n维度的向量,n为网格总数,交叉口单独建立网格;同时将路网划分为N个子区域,每个子区域包含一个交通信号灯、一个交叉口以及和交叉口相邻的k-1条道路网格。交通状态信息向量st为所有子区域i交通状态信息si,t的集合,l取值为200米;
子区域i交通状态信息si,t包括时刻t子区域i的拥堵延误向量和时刻t子区域i交通信号灯的状态向量ci,t,为时刻t子区域i路段k的拥堵延误值,i∈[1,N],k∈[1,K];若时刻t子区域i路段k内无车,则否则m为时刻t路段k的车辆总数,tk为路段k车辆的实际旅行时间,tfree为路段k自由流车速的旅行时间;
时刻t子区域i交通信号灯的状态向量ci,t=(pi,li,t-1),pi为时刻t子区域i交通信号灯的相位配时,li,t-1为时刻t子区域i相位配时pi的已执行时长。
如图3所示,相位配时被分为P1、P2、P3和P4,每个相位配时内依次执行同一交叉口内四个红绿灯的绿灯时长、黄灯时长和红灯时长,例如P1相位内车辆可以南北方向直行和对应的右转,P2相位内东西方向的车辆可以左转,P3相位内东西方向的车辆可以直行和对应的右转,P4相位内东西方向的车辆可以左转。
交通信息采集模块通过通信模块将交通状态信息向量st分别发送给交通控制单元模块和协同控制模块。
所述交通信号控制模块,获取交通状态信息向量st,动态生成每个子区域交叉口的控制策略,并将每个子区域交叉口的控制策略转换为对应子区域的交通信号灯的相位配时,以指导车辆驾驶行为,对交叉口的车流实施管控。主要步骤为:
步骤1,从交通信息采集模块获取交通状态信息st,并提取出子区域i交通状态信息si,t,送入本地执行网络Qi,a;
步骤2,执行网络Qi,a动态生成已知的最优控制策略ai,t;
步骤3,将最优控制策略ai,t转换为对应子区域的交通信号灯的相位配时pi,t;
获取当前交通信号灯的相位配时pi和相位配时pi的已执行时长li,t-1,最新时长li,t=ai,t-li,t-1。若li,t<0,则交通信号灯跳转执行下一相位配时pi,t,周而复始;
步骤4,将最新控制策略ai,t的副本发送给协同控制模块,生成全局决策信息。
所述本地回放记忆池,用于存放交叉口i的历史经验数据容量设为Di。其中si,tr为子区域i的历史时刻tr的交通状态信息,ai,tr为si,tr对应的历史控制策略,ri,tr为控制策略ai,tr的奖励值,si,tr+1为时刻tr+1子区域的交通状态信息,s′tr+1为时刻tr+1的交通状态信息。每个采样周期,交通信息采集模块将最新的交通状态信息放入本地回放记忆池中,当记忆池容量存满时,删去最早存入的Dm条历史经验数据。
所述策略优化模块用于优化交叉口i的控制策略ai,t。该策略优化模块包括本地评价(神经)网络Qi,c和目标评价(神经)网络Q′i,c。本地评价网络Qi,c用于评价执行网络的短期行为,和目标评价网络Q′i,c用于评价执行网络的长期行为。
本发明中执行网络、本地评价网络、目标评价网络、全局执行网络、全局评价网络和全局目标评价网络的网络结构均为现有技术,本实施例不再详细阐述。
训练获得本地评价网络的步骤为:
步骤2,策略优化模块向协同控制模块请求全局优化策略,包括:
步骤2-1,将交通状态信息向量s′发给协同控制模块;
步骤2-2,获取协同控制模块生成的全局优化策略分量a′i;
步骤3,策略优化模块根据s′i,a′i,ri以及目标评价网络Q′i,c的权重w′i求解使累积奖励最大的控制目标向量yi:
yi=ri+γQ′i,c(s′i,a′i,w′i
式中,γ=0.9是折扣系数,反映了历史经验数据的影响力随时间递减。
步骤4,使本地评价网络Qi,c的Q值和控制目标向量yi之间的loss值最小:
式中,L(wi)是损失函数,表示本地评价网络Qi,c控制目标向量yi之间的loss值,wi是本地评价网络Qi,c的权重向量,是该批次样本的loss期望值,是历史交通状态信息向量,是si对应历史控制策略向量。
通过Adam优化器迭代更新本地评价网络Qi,c的权重向量wi,以最小化loss值,从而使Qi,c(si,ai,wi)逐步收敛到yi,此时获得最优的本地评价网络Qi,c和目标评价网络,结束运行。
采用软更新法更新目标评价网络Q′i,c的权重w′i:
w′i,new=τw′i,old+(1-τ)wi
式中,τ是设定的系数,取值为0.9。w′i,old是更新前目标评价网络的权重,w′i,new是更新后目标评价网络的权重,wi为Qi,c的权重。
步骤5,基于本地评价网络,训练获得本地执行网络:
步骤5-2,调用执行网络Qi,a计算得到si的对应策略ai,ai=Qi,a(si);
步骤5-3,将si和ai代入评价网络Qi,c,计算策略ai的得分Qi,c(si,ai);
步骤5-4,将得分Qi,c(si,ai)代入以下方程,并采用Adam优化器和确定性策略梯度法更新执行网络Qi,a的权重θi,使Qi,c(si,ai)的得分尽可能高:
步骤5-5,当Δθi,k<δ时停止更新,δ为相似度阈值,输出获得最终的执行网络Qi,a。
所述协同控制模块,用于生成全局优化策略,包括全局策略执行模块、全局记忆池和全局策略优化模块。
所述全局记忆池,用于存放全路网的经验数据(str,atr,rtr,s′tr)D,容量为D。其中,str为路网在tr时刻的历史交通状态信息,atr=(a1,tr,…,aN,tr)为所有交通控制单元对应在tr时刻的历史控制策略,rtr为控制策略atr的奖励值,s′tr为路网在tr+1时刻的历史交通状态信息。每个采样周期,交通信息采集模块将最新的经验数据放入全局回放记忆池中,奖励值rtr根据控制目标计算得到。当记忆池容量存满时,删去最早的Dm条数据。
所述全局策略执行模块,接收来自交通控制单元模块获取全局优化策略的请求,从交通信息采集模块中获取城市路网的交通状态信息向量s′,再通过全局执行网络Qa动态生成全局优化策略,然后将全局优化策略发送给各交通控制单元模块的本地评价网络Qi,c中,使交通控制单元模块能够兼顾本地交叉口和全局路网的优化目标。
获取全局优化策略a′=Qa(s′)的控制策略分量a′i具体步骤为:
步骤1,全局执行网络Qa获取交通状态信息向量s′;
步骤2,全局执行网络Qa计算全局优化策略a′=Qa(s′),其中a′=(a′1,…,a′N),N为城市路网划分的子区域个数(每个子区域内有且仅有一个交通控制单元)。将a′分解为{a′i|a′i∈a′},再将a′i返回给子区域i的交通控制单元模块。
所述全局策略优化模块,包括全局评价网络Qc和全局目标评价网络Q′c。全局策略优化模块训练获得Qc和更新Q′c进行优化,再通过Qc对全局执行网络Qa的策略进行优化。全局策略优化模块训练获得Qc和更新Q′c,主要步骤为:
步骤1,获取城市路网当前时刻t所有N个子区域的控制策略,合成全局控制策略at=(a1,t,…,aN,t);获取当前时刻的全局交通状态信息向量st和下一时刻的全局交通状态信息向量st+1;
步骤3,通过不断采集(st,at,rt,st+1)获取全路网经验数据(str,atr,rtr,s′tr)D,D为容量,str为城市路网在tr时刻的历史交通状态信息,atr=(a1,tr,…,aN,tr)为tr时刻所有子区域的控制策略,rtr为控制策略atr的奖励值,s′tr为城市路网在tr+1时刻的历史交通状态信息;
步骤4,随机选择B组数据构成训练集(str,atr,rtr,s′tr)B,从训练集中提取奖励值(rtr)B构成奖励向量r,从训练集中提取交通状态信息(str)B构成交通状态信息向量s′,并根据s′生成全局控制策略a′,即a′=Qa(s′);
步骤5,更新全局控制目标函数,使全局累积奖励最大,全局控制目标函数为:
y=r+γQ′c(s′,a′,w′)
式中,y为全局控制目标,Q′c为全局目标评价网络,w′是全局目标评价网络Q′c的权重;
步骤6,通过迭代更新全局评价网络Qc的权重w以最小化L(w),L(w)的计算公式为:
若使Qc(s,a,w)收敛到y,则结束运行,获得最终的全局评价网络Qc,否则执行步骤7;
步骤7,调用Adam优化器以loss值最小为目标迭代更新全局评价网络Qc的权重向量wi;
步骤8,采用软更新法更新全局目标评价网络Q′c的权重w′:
w′new=τw′old+(1-τ)w
式中,τ是设定的系数,取值为0.9。w′new是更新前的权重,w′old是更新后的权重,w是Qc的权重。全局策略优化模块通过Qc对训练获得全局执行网络Qa,,从而优化主要步骤为:
步骤2,调用全局执行网络Qa计算得到s对应策略a,a=Qa(s);
步骤3,将s和a代入评价网络Qc,计算策略a的得分Qc(s,a);
步骤4,将得分Qc(s,a)代入以下方程,并使用Adam优化器对全局执行网络Qa的权重θ进行更新,使Qc(s,a)的得分尽可能高。全局执行网络Qa的权重θ的更新公式为:
式中,α是学习率,是全局执行网络Qa的权重θ的策略梯度,是控制策略向量a的策略梯度,Qa(a|s)是状态为s时策略为a的条件概率,Δθk是θ在第k步的更新增量,当Δθk<δ时停止更新,δ为相似度阈值,获得最终的全局执行网络Qa。
通信模块,采用有线(例如光纤通信)或无线(例如5G通讯或专用短程通信技术Dedicated Short Range Communication,DSRC)技术,让系统的各模块能通过该模块交换交通信息,包括:交通信息采集模块和交通控制单元模块之间的通信子模块,用于传递交通状态信息和控制策略信息;协同控制模块和交通控制单元模块之间的通信子模块,用于传递全局优化决策信息。
交通控制系统的结构如图1所示,其中,交通控制单元模块包括(本地)执行网络,本地回放记忆池和本地评价网络。通过车路协同技术,视频及线圈等方式,获取当前时刻t的路网可观测交通信息数据ot,通过强化学习获得城市道路交通信息。
本地评价网络每次从本地回放记忆池中随机选取小批次(512条)经验数据,训练本地评价网络的参数向量wi,通过更新wi参数最小化损失函数L(wi),再通过本地评价网络更新本地执行网络参数θi。本地评价网络和执行网络依次包括输入层,全连接层和输出层,其中全连接层有128个神经元,采用Relu激活函数,评价网络输出控制策略的得分(Q值),执行网络输出相位编码(分别对应图3中的P1,P2,P3,P4相位)及时长,每个相位的时长的取值范围为0~1分钟。输出层采用Sigmoid激活函数以保障输出值有界。学习率α取值0.99。
协同控制模块如图1中所示,包括全局执行网络、全局记忆池和全局评价网络,用于生成全局优化策略,再对交通控制单元模块的策略进行优化。
全局执行网络获取城市路网的全局交通状态st,根据st生成全局优化策略at。协同控制模块采用请求-响应的方式和交通控制单元模块进行交互。方法为监听交通控制单元模块的请求,当交通控制单元模块i发送协同请求时,协同控制模块响应请求,将全局优化策略at的分量ai,t发送给请求方。
全局评价网络每次从全局回放记忆池中随机选取小批次(512条)经验数据,训练全局评价网络的参数向量w,通过更新w参数最小化损失函数L(w),再通过评价网络更新全局执行网络参数θ。评价网络和执行网络依次包括输入层,全连接层和输出层,其中全连接层有256个神经元,采用Relu激活函数,评价网络输出为策略的得分(Q值),执行网络的输出为路网中各信号灯的相位及时长,每个相位的时长范围为0~1分钟。输出层采用Sigmoid激活函数。学习率α取值0.99。
通信模块采用光纤,5G通讯或者DSRC技术让系统中的各模块能交换交通状态信息和控制决策信息。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (9)
1.基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,包括:
采集城市路网的交通状态信息向量;
协调各个子区域交叉口的控制策略,并生成子区域交叉口的控制策略。
2.根据权利要求1所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,采集城市路网的交通状态信息向量,包括:
将城市路网划分成N个包含交通信号灯的子区域,交通状态信息向量st为所有子区域的交通状态信息si,t的集合,i∈[1,N],N为城市路网中子区域的总数;
时刻t子区域i交通信号灯的状态向量ci,t=(pi,li,t-1),pi为时刻t子区域i交通信号灯的相位配时,li,t-1为时刻t子区域i相位配时pi的已执行时长。
3.根据权利要求1所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,协调各个子区域交叉口的控制策略,并生成子区域交叉口的控制策略,包括:
获取交通状态信息向量st,动态生成每个子区域交叉口的控制策略,并将每个子区域交叉口的控制策略转换为对应子区域的交通信号灯的相位配时。
4.根据权利要求3所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,获取交通状态信息向量si,t和st,动态生成每个子区域交叉口的控制策略,并将每个子区域交叉口的控制策略转换为对应子区域的交通信号灯的相位配时,包括:
将子区域i交通状态信息si,t,送入训练获得的执行网络Qi,a;
执行网络Qi,a动态生成已知的最优控制策略ai,t;
将最优控制策略ai,t转换为对应子区域i交通信号灯的相位配时pi,t:
获取当前交通信号灯的相位配时pi和相位配时pi的已执行时长li,t-1,相位配时pi的最新执行时长li,t=ai,t-li,t-1;若li,t<0,则交通信号灯跳转执行下一相位配时pi,t;
获取下一时刻交通信息状态si,t+1和st+1,将(si,t,ai,t,ri,t,si,t+1,st+1)存为经验数据。
5.根据权利要求4所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,基于训练获得的本地评价网络Qi,c,训练获得执行网络Qi,a,包括:
训练获得本地评价网络Qi,c,包括:
采集(si,t,ai,t,ri,t,si,t+1,st+1),获取历史经验数据si,tr为子区域i的历史时刻tr的交通状态信息,ai,tr为si,tr对应的历史控制策略,ri,tr为控制策略ai,tr的奖励值,si,tr+1为时刻tr+1子区域的交通状态信息,str+1为时刻tr+1全路网交通状态信息,Di为历史经验数据的容量;
利用训练数据集对本地评价网络Qi,c进行训练,包括:
训练获得的全局执行网络Qa计算获得全局优化策略a′=Qa(s′)的控制策略分量a′i;
采用软更新法更新目标评价网络Q′i,c的权重w′i:
w′i,new=τw′i,old+(1-τ)wi,
式中,τ是设定的系数,w′i,old是更新前的权重,w′i,new是更新后的目标评价网络Q′i,c的权重w′i,wi为Qi,c的权重;
根据交通状态信息向量s′i、控制策略分量a′i、奖励向量ri以及目标评价网络Q′i,c的权重w′i,求解使累积奖励最大的控制目标向量yi:
yi=ri+γQ′i,c(s′i,a′i,w′i),
式中,γ是设定的折扣系数;
计算本地评价网络Qi,c的值Qi,c(si,ai,wi)和控制目标向量yi之间的loss值:
式中,L(wi)是Qi,c(si,ai,wi)和控制目标向量yi之间的loss值;wi是本地评价网络Qi,c的权重向量,采用Adam优化器以loss值最小为目标迭代更新wi;是由该训练数据集计算得到的loss期望值,
判断Qi,c(si,ai,wi)是否能收敛到yi,若Qi,c(si,ai,wi)收敛到yi则输出获得最终的本地评价网络Qi,c。
6.根据权利要求5所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,基于训练获得的本地评价网络Qi,c,训练获得执行网络Qi,a,包括:
步骤2,调用执行网络Qi,a计算得到si的对应策略ai,ai=Qi,a(si);
步骤3,将si和ai代入本地评价网络Qi,c,计算策略ai的得分Qi,c(si,ai);
步骤4,将得分Qi,c(si,ai)代入以下方程,并采用Adam优化器和确定性策略梯度法更新执行网络Qi,a的权重θi,以使Qi,c(si,ai)的得分达到最高:
步骤5,当Δθi,k<δ时停止更新,δ为相似度阈值,输出获得最终的执行网络Qi,a。
7.根据权利要求6所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,训练获得的全局执行网络Qa计算获得全局优化策略a′=Qa(s′)的控制策略分量a′i,包括:
在全局执行网络Qa获取城市路网的交通状态信息向量s′;基于交通状态信息向量s′,全局执行网络Qa计算获得全局优化策略a′,a′=(a′1,...,a′N),N为城市路网中子区域的总数,将a′分解为{a′i|a′i∈a′},a′i为全局优化策略a′的控制策略分量。
8.根据权利要求1所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,基于训练获得的全局评价网络Qc,训练获得全局执行网络Qa,包括:
训练获得全局评价网络Qc,包括:
步骤1,获取城市路网当前时刻t所有N个子区域的控制策略,合成全局控制策略at=(a1,t,...,aN,t);获取当前时刻的全局交通状态信息向量st和下一时刻的全局交通状态信息向量st+1;
步骤3,通过不断采集(st,at,rt,st+1)获取全路网经验数据D为容量,str为城市路网在tr时刻的历史交通状态信息,atr=(a1,tr,...,aN,tr)为tr时刻所有子区域的控制策略,rtr为控制策略atr的奖励值,s′tr为城市路网在tr+1下一时刻的历史交通状态信息;
步骤4,随机选择B组数据构成训练集从训练集中提取奖励值(rtr)B构成奖励向量r,从训练集中提取交通状态信息(str)B构成交通状态信息向量s′,并根据s′生成全局控制策略a′,即a′=Qa(s′);
步骤5,采用软更新法更新全局目标评价网络Q′c的权重w′:
w′new=τw′old+(1-τ)w;
式中,τ是设定的系数,w′new是更新前的全局目标评价网络Q′c的权重,w′old是更新后的全局目标评价网络Q′c的权重w′,w是Qc的权重;
更新全局控制目标函数,使全局累积奖励最大;
全局控制目标函数为:
y=r+γQ′c(s′,a′,w′),
式中,y为全局控制目标,Q′c为全局目标评价网络,w′是全局目标评价网络Q′c的权重;
步骤6,通过迭代更新全局评价网络Qc的权重w以最小化L(w);L(w)的计算公式为:
若使Qc(s,a,w)收敛到y,则结束运行,获得最终的全局评价网络Qc。
9.根据权利要求8所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,基于训练获得的全局评价网络Qc,训练获得全局执行网络Qa,包括:
步骤2,调用全局执行网络Qa计算得到s对应策略a,a=Qa(s);
步骤3,将s和a代入全局评价网络Qc,计算策略a的得分Qc(s,a);
步骤4,将得分Qc(s,a)代入以下方程,并使用Adam优化器对全局执行网络Qa的权重θ进行更新,通过调节θ使Qc(s,a)的得分达到最高;全局执行网络Qa的权重θ的更新公式为:
若Δθk<δ则结束运行,δ为相似度阈值,输出全局执行网络Qa,否则执行步骤1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210151210.5A CN114995119A (zh) | 2022-02-16 | 2022-02-16 | 基于多智能体深度强化学习的城市交通信号协同控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210151210.5A CN114995119A (zh) | 2022-02-16 | 2022-02-16 | 基于多智能体深度强化学习的城市交通信号协同控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114995119A true CN114995119A (zh) | 2022-09-02 |
Family
ID=83024065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210151210.5A Pending CN114995119A (zh) | 2022-02-16 | 2022-02-16 | 基于多智能体深度强化学习的城市交通信号协同控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114995119A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457781A (zh) * | 2022-09-13 | 2022-12-09 | 内蒙古工业大学 | 一种基于多代理深度强化学习的智能交通信号灯控制方法 |
CN115482664A (zh) * | 2022-09-13 | 2022-12-16 | 上海智能交通有限公司 | 一种智能交通的路网交通流时空预测方法 |
CN116597672A (zh) * | 2023-06-14 | 2023-08-15 | 南京云创大数据科技股份有限公司 | 基于多智能体近端策略优化算法的区域信号灯控制方法 |
-
2022
- 2022-02-16 CN CN202210151210.5A patent/CN114995119A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457781A (zh) * | 2022-09-13 | 2022-12-09 | 内蒙古工业大学 | 一种基于多代理深度强化学习的智能交通信号灯控制方法 |
CN115482664A (zh) * | 2022-09-13 | 2022-12-16 | 上海智能交通有限公司 | 一种智能交通的路网交通流时空预测方法 |
CN115457781B (zh) * | 2022-09-13 | 2023-07-11 | 内蒙古工业大学 | 一种基于多代理深度强化学习的智能交通信号灯控制方法 |
CN116597672A (zh) * | 2023-06-14 | 2023-08-15 | 南京云创大数据科技股份有限公司 | 基于多智能体近端策略优化算法的区域信号灯控制方法 |
CN116597672B (zh) * | 2023-06-14 | 2024-02-13 | 南京云创大数据科技股份有限公司 | 基于多智能体近端策略优化算法的区域信号灯控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032782B (zh) | 一种城市级智能交通信号控制系统及方法 | |
CN114995119A (zh) | 基于多智能体深度强化学习的城市交通信号协同控制方法 | |
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
Liang et al. | A deep reinforcement learning network for traffic light cycle control | |
CN112365724B (zh) | 一种基于深度强化学习的连续交叉口信号协同控制方法 | |
CN109215355A (zh) | 一种基于深度强化学习的单点交叉口信号配时优化方法 | |
CN112364984A (zh) | 一种协作多智能体强化学习方法 | |
CN111267831A (zh) | 一种混合动力车辆智能变时域模型预测能量管理方法 | |
Lin et al. | Traffic signal optimization based on fuzzy control and differential evolution algorithm | |
CN113780624B (zh) | 一种基于博弈均衡理论的城市路网信号协调控制方法 | |
CN113643553A (zh) | 基于联邦强化学习的多路口智能交通信号灯控制方法及系统 | |
CN114463997A (zh) | 一种无信号灯交叉路口车辆协同控制方法及系统 | |
CN113223305A (zh) | 基于强化学习的多路口交通灯控制方法、系统及存储介质 | |
CN113053120B (zh) | 基于迭代学习模型预测控制的交通信号灯调度方法与系统 | |
CN115019523B (zh) | 基于最小化压力差的深度强化学习交通信号协调优化控制方法 | |
Qiao et al. | Adaptive collaborative optimization of traffic network signal timing based on immune-fireworks algorithm and hierarchical strategy | |
Xu et al. | SCA-MADRL: multiagent deep reinforcement learning framework based on state classification and assignment for intelligent shield attitude control | |
Chen et al. | Traffic signal optimization control method based on adaptive weighted averaged double deep Q network | |
WO2024001301A1 (zh) | 一种无信号灯交叉路口车辆协同控制方法及系统 | |
CN112750298A (zh) | 一种基于smdp和drl的货车编队动态资源分配方法 | |
CN109752952A (zh) | 一种获取多维随机分布及强化控制器的方法和装置 | |
CN110021168B (zh) | 一种车联网下实现实时智能交通管理的分级决策方法 | |
CN115187056A (zh) | 一种考虑公平性原则的多智能体协同资源分配方法 | |
Zhang et al. | Coordinated control of distributed traffic signal based on multiagent cooperative game | |
Li et al. | Multi-intersections traffic signal intelligent control using collaborative q-learning algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |