CN114995119A

CN114995119A - 基于多智能体深度强化学习的城市交通信号协同控制方法

Info

Publication number: CN114995119A
Application number: CN202210151210.5A
Authority: CN
Inventors: 王翀
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-09-02

Abstract

本发明公开了基于多智能体深度强化学习的城市交通信号协同控制方法，包括：采集城市路网的交通状态信息向量；协调各个子区域交叉口的控制策略，并生成子区域交叉口的控制策略。通过深度强化学习算法优化交通信号灯配时，实时动态地调节交叉口车流，减少拥堵延误。以降低总旅行时间为目标优化所有交叉口的信号配时，防止单一交叉口优化对路网造成不利影响，并通过强化学习持续更新优化策略。本发明可以满足城市交通信号控制问题的复杂性、实时性、适应性要求，提升城市路网的整体通行效率，缓解交通拥堵。

Description

基于多智能体深度强化学习的城市交通信号协同控制方法

技术领域

本发明涉及基于多智能体深度强化学习的城市交通信号协同控制方法，属于智能交通控制技术领域。

背景技术

随着我国城市人口及车辆持续增长，城市交通在高峰时段经常呈现出周期性、长时间和大范围的交通拥堵。我国城市交通系统具有车流量大、车辆时空分布不均匀和受交叉口信号控制的影响明显等特征。而城市土地资源有限，单纯依靠增加交通基础设施不能解决问题，亟需研发先进的城市交通控制系统。现有的自适应交通控制系统如SCOOT，SCAT等需要建立较为复杂的数学模型，且控制效果取决于模型的精度；另一方面，模型的精确度越高，结构和参数调节就越复杂，耗时也越长，这将会在实时性与可靠性之间产生矛盾，特别是需要提高控制效率时，矛盾就会越突出。此外，现有的控制系统依赖人工调参经验，信号配时方案往往滞后，有时反而会加重交通拥堵的情况。

强化学习作为机器学习领域的一个重要分支，无需对交通环境精确建模，而是通过和环境的不断交互获取不同信号控制策略的反馈效果，进而学习不同随机交通环境下的控制策略，最终可以得到动态交通环境下的最优信号控制策略。此外，离线强化学习技术可以做到训练和控制相分离，利用经验数据和仿真数据对神经网络进行预训练，使系统能够在使用前就具备初步的自适应控制能力，在实际使用过程中再不断地采集最新的交通数据优化控制神经网络，从而达到根据不断变化的随机交通流动态控制的目的。

现有的强化学习控制系统主要是针对单一交叉口实施，尚无针对不同交叉口间协作控制的成熟方案，其原因在于强化学习算法的时间复杂度会随着状态空间的增加而呈指数型上升，因而单一交叉口控制方案不能直接套用在多交叉口协同控制中。此外，现有的多智能体强化学习协同控制理论较为复杂，可操作性有待进一步完善。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供基于多智能体深度强化学习的城市交通信号协同控制方法，通过构建多个交叉口的交通控制单元模块(智能体)、路网协同控制模块(智能体)、交通信息采集模块和回放记忆池等，实现对多个交叉口的实时响应信号控制，并且智能体可以在协同控制模块的指导下进行协作。本系统能够有效降低交叉口的拥堵延误时间，平衡路网中各交叉口的利用率，减少通行延误。本系统解决了现有强化学习技术在处理高维交通数据时的状态空间爆炸问题，以及多智能体强化学习中智能体之间耦合程度高，训练难以收敛的问题。

为达到上述目的，本发明提供了基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，包括：

采集城市路网的交通状态信息向量；

协调各个子区域交叉口的控制策略，并生成子区域交叉口的控制策略。

优先地，采集城市路网的交通状态信息向量，包括：

将城市路网划分成N个包含交通信号灯的子区域，交通状态信息向量s_t为所有子区域的交通状态信息s_i,t的集合，i∈[1,N]，N为城市路网中子区域的总数；

子区域i交通状态信息s_i,t包括时刻t子区域i的拥堵延误向量

和时刻t子区域i交通信号灯的状态向量c_i,t，

为时刻t子区域i路段k的拥堵延误值，k∈[1,K]，K为子区域内的路段数；

若时刻t子区域i路段k内无车，则

否则

m为时刻t路段k的车辆总数，t_k为路段k车辆的实际旅行时间，t_free为路段k自由流车速的旅行时间；

时刻t子区域i交通信号灯的状态向量c_i,t＝(p_i,l_i,t-1)，p_i为时刻t子区域i交通信号灯的相位配时，l_i,t-1为时刻t子区域i相位配时p_i的已执行时长。

优先地，协调各个子区域交叉口的控制策略，并生成子区域交叉口的控制策略，包括：

获取交通状态信息向量s_t，动态生成每个子区域交叉口的控制策略，并将每个子区域交叉口的控制策略转换为对应子区域的交通信号灯的相位配时。

优先地，获取交通状态信息向量s_i,t和s_t，动态生成每个子区域交叉口的控制策略，并将每个子区域交叉口的控制策略转换为对应子区域的交通信号灯的相位配时，包括：

将子区域i交通状态信息s_i,t，送入训练获得的执行网络Q_i,a；

执行网络Q_i,a动态生成已知的最优控制策略a_i,t；

将最优控制策略a_i,t转换为对应子区域i交通信号灯的相位配时p_i,t：

获取当前交通信号灯的相位配时p_i和相位配时p_i的已执行时长l_i,t-1，相位配时p_i的最新执行时长l_i,t＝a_i,t-l_i,t-1；若l_i,t<0，则交通信号灯跳转执行下一相位配时p_i,t；

从s_i,t中提取子区域的拥堵延误状态d_i,t，计算奖励函数

获取下一时刻交通信息状态s_i,t+1和s_t+1，将(s_i,t,a_i,t,r_i,t,s_i,t+1,s_t+1)存为经验数据。

优先地，基于训练获得的本地评价网络Q_i,c，训练获得执行网络Q_i,a，包括：

训练获得本地评价网络Q_i,c，包括：

采集(s_i,t,a_i,t,r_i,t,s_i,t+1,s_t+1)，获取历史经验数据

s_i,tr为子区域i的历史时刻tr的交通状态信息，a_i,tr为s_i,tr对应的历史控制策略，r_i,tr为控制策略a_i,tr的奖励值，s_i,tr+1为时刻tr+1子区域的交通状态信息，s_tr+1为时刻tr+1全路网交通状态信息，D_i为历史经验数据的容量；

随机选择B_i条历史经验数据构成训练数据集

利用训练数据集对本地评价网络Q_i,c进行训练，包括：

从训练数据集中提取奖励向量

交通状态信息向量

和

训练获得的全局执行网络Q_a计算获得全局优化策略a′＝Q_a(s′)的控制策略分量a′_i；

采用软更新法更新目标评价网络Q′_i,c的权重w′_i：

w′_i,new＝τw′_i,old+(1-τ)w_i，

式中，τ是设定的系数，w′_i,old是更新前的权重，w′_i,new是更新后的目标评价网络Q′_i,c的权重w′_i，w_i为Q_i,c的权重；

根据交通状态信息向量s′_i、控制策略分量a′_i、奖励向量r_i以及目标评价网络Q′_i,c的权重w′_i，求解使累积奖励最大的控制目标向量y_i：

y_i＝r_i+γQ′_i,c(s′_i,a′_i,w′_i)，

式中，γ是设定的折扣系数；

计算本地评价网络Q_i,c的值Q_i,c(s_i,a_i,w_i)和控制目标向量y_i之间的loss值：

式中，L(w_i)是Q_i,c(s_i,a_i,w_i)和控制目标向量y_i之间的loss值；w_i是本地评价网络Q_i,c的权重向量，采用Adam优化器以loss值最小为目标迭代更新w_i；

是由该训练数据集计算得到的loss期望值，

判断Q_i,c(s_i,a_i,w_i)是否能收敛到y_i，若Q_i,c(s_i,a_i,w_i)收敛到y_i则输出获得最终的本地评价网络Q_i,c。

步骤1，从训练数据集

从中提取交通信息状态向量

步骤2，调用执行网络Q_i,a计算得到s_i的对应策略a_i，a_i＝Q_i,a(s_i)；

步骤3，将s_i和a_i代入本地评价网络Q_i,c，计算策略a_i的得分Q_i,c(s_i,a_i)；

步骤4，将得分Q_i,c(s_i,a_i)代入以下方程，并采用Adam优化器和确定性策略梯度法更新执行网络Q_i,a的权重θ_i，以使Q_i,c(s_i,a_i)的得分达到最高：

式中，α是学习率，

是执行网络Q_i,a的网络权重θ_i的策略梯度，

是执行网络Q_i,a策略向量a_i的策略梯度，Q_i,a(a_i|s_i)是状态为s_i时策略为a_i的条件概率，Δθ_i,k是θ_i在第k步的更新量；

步骤5，当Δθ_i,k<δ时停止更新，δ为相似度阈值，输出获得最终的执行网络Q_i,a。优先地，训练获得的全局执行网络Q_a计算获得全局优化策略a′＝Q_a(s′)的控制策略分量a′_i，包括：

全局执行网络Q_a获取城市路网的交通状态信息向量s′；基于交通状态信息向量s′，全局执行网络Q_a计算获得全局优化策略a′，a′＝(a′₁,…,a′_N)，N为城市路网中子区域的总数，将a′分解为{a′_i|a′_i∈a′}，a′_i为全局优化策略a′的控制策略分量。

优先地，基于训练获得的全局评价网络Q_c，训练获得全局执行网络Q_a，包括：

训练获得全局评价网络Q_c，包括：

步骤1，获取城市路网当前时刻t所有N个子区域的控制策略，合成全局控制策略a_t＝(a_1,t,…,a_N,t)；获取当前时刻的全局交通状态信息向量s_t和下一时刻的全局交通状态信息向量s_t+1；

步骤2：根据城市路网的总拥堵延误时间计算全局奖励值r_t，

获得全局经验数据(s_t,a_t,r_t,s_t+1)；

步骤3，通过不断采集(s_t,a_t,r_t,s_t+1)获取全路网经验数据(s_tr,a_tr,r_tr,s′_tr)_D，D为容量，s_tr为城市路网在tr时刻的历史交通状态信息，a_tr＝(a_1,tr,…,a_N,tr)为tr时刻所有子区域的控制策略，r_tr为控制策略a_tr的奖励值，s′_tr为城市路网在tr+1下一时刻的历史交通状态信息；

步骤4，随机选择B组数据构成训练集(s_tr,a_tr,r_tr,s′_tr)_B，从训练集中提取奖励值(r_tr)_B构成奖励向量r，从训练集中提取交通状态信息(s_tr)_B构成交通状态信息向量s′，并根据s′生成全局控制策略a′，即a′＝Q_a(s′)；

步骤5，采用软更新法更新全局目标评价网络Q′_c的权重w′：

w′_new＝τw′_old+(1-τ)w；

式中，τ是设定的系数，w′_new是更新前的全局目标评价网络Q′_c的权重，w′_old是更新后的全局目标评价网络Q′_c的权重w′，w是Q_c的权重；

更新全局控制目标函数，使全局累积奖励最大；

全局控制目标函数为：

y＝r+γQ′_c(s′,a′,w′)，

式中，y为全局控制目标，Q′_c为全局目标评价网络，w′是全局目标评价网络Q′_c的权重；

步骤6，通过迭代更新全局评价网络Q_c的权重w以最小化L(w)；L(w)的计算公式为：

式中，L(w)是基于训练集(s_tr,a_tr,r_tr,s′_tr)_B得到的loss值，

为该训练集计算得到的loss期望值；调用Adam优化器以loss值最小为目标迭代更新全局评价网络Q_c的权重向量w；

若使Q_c(s,a,w)收敛到y，则结束运行，获得最终的全局评价网络Q_c。

步骤1，获取训练集(s_tr,a_tr,r_tr,s′_tr)_B，从中提取交通信息状态向量

步骤2，调用全局执行网络Q_a计算得到s对应策略a，a＝Q_a(s)；

步骤3，将s和a代入全局评价网络Q_c，计算策略a的得分Q_c(s,a)；

步骤4，将得分Q_c(s,a)代入以下方程，并使用Adam优化器对全局执行网络Q_a的权重θ进行更新，以使提高Q_c(s,a)的得分达到最高；

全局执行网络Q_a的权重θ的更新公式为：

式中，α是学习率，

是全局执行网络Q_a的权重θ的策略梯度，

是控制策略向量a的策略梯度，Q_a(a|s)是状态为s时策略为a的条件概率，Δθ_k是θ在第k步的更新增量；

若Δθ_k<δ则结束运行，δ为相似度阈值，输出全局执行网络Q_a，否则执行步骤1。

本发明所达到的有益效果：

(1)本发明所述系统和方法，是对城市道路网络的整体协同控制，不再局限于单一交叉口的点控，通过多智能体深度强化学习方法对多个交叉口的信号灯相位调控进行整合，可以提升整条瓶颈路段的通行效率，减少城市交通拥堵。并且，通过协作能够降低每个交通控制单元模块的输入状态规模，避免状态空间爆炸。

(2)本发明提出“整体-局部”分层控制框架的协同控制系统，把城市多交叉口信号灯的协同控制问题分解成一系列规模有限的局部优化问题，既降低了计算负担，又保障了算法的收敛性。在整体层面采用采用了松耦合设计，让协同控制模块在交通控制单元模块训练时提供策略指导和优化，而不需通过共享权重等方式直接参与交叉口的控制，减少了协同控制模块和交通控制单元模块之间的耦合度，从而降低了训练难度；在局部层面采用自主控制，让智能体根据实际情况均衡本地和全局优化策略，从而增加控制的灵活性和对具体问题的针对性。

(3)本发明减少了控制系统的全局评价网络数量，简化了算法结构。以国外较新的多智能体确定性深度确定性策略梯度算法(Multi-agent Deep Deterministic PolicyGradient,MADDPG)为对比，该算法中的每个智能体都需要一个全局评价网络监视全局状态信息的变化。而本发明只需要在协同控制模块中有一个全局评价网络，通过通信模块让其他交通控制单元模块共享全局评价网络的结果就可以达到协同效果，提高了计算效率。

(4)本发明有助于提升我国城市道路交通的智慧管控水平，可以解决传统单点交通控制难以处理路网层面拥堵延误的问题，具有良好的应用前景。

附图说明

图1为本发明的整体结构示意图；

图2为本发明的典型城市路网划分及相应交通状态信息示意图；

图3为本发明的典型交叉口信号相位配时的示意图；

图4为本发明的交通控制单元模块的训练流程图；

图5为本发明的协同控制模块的执行流程图；

图6为本发明的协同控制模块的训练流程图。

具体实施方式

以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

一种多智能体深度强化学习城市交通信号协同控制系统，包括交通信息采集模块，交通控制单元模块，协同控制模块以及通信模块。

所述交通信息采集模块，用于采集城市道路交通信息；

所述交通控制单元模块，用于动态调控交叉口车流的控制策略，减少拥堵延误；

所述协同控制模块，用于协调城市路网中各交叉口的控制策略，防止对某个交叉口的车流调控影响其他交叉口的通行，降低路网车流的总旅行时间；

所述通信模块，用于交通控制单元模块和协同控制模块通信交互。

更进一步地，本实施例中所述交通信息采集模块，使用车路协同技术，或通过线圈或高清摄像头等设备获得深度强化学习可用的交通状态信息s_t，再发送给交通控制单元模块和协同控制模块。交通状态信息s_t的采样间隔为5秒；每次更新控制策略后，记录各交通控制单元模块的最新控制策略，并发送给本地回放记忆池和全局回放记忆池。

交通状态信息s_t包括城市路网中各路段的拥堵延误向量

以及交通信号灯的状态向量c_t，即s_t＝(d_t,c_t)；最新控制策略包括更新后的相位p′_t及相位时长l′_t。

获取交通状态信息向量s_t的方法为：

以l米间距对城市路网进行网格化处理，共得到1/n个网格，形成1/n维度的向量，n为网格总数，交叉口单独建立网格；同时将路网划分为N个子区域，每个子区域包含一个交通信号灯、一个交叉口以及和交叉口相邻的k-1条道路网格。交通状态信息向量s_t为所有子区域i交通状态信息s_i,t的集合，l取值为200米；

子区域i交通状态信息s_i,t包括时刻t子区域i的拥堵延误向量

和时刻t子区域i交通信号灯的状态向量c_i,t,

为时刻t子区域i路段k的拥堵延误值，i∈[1,N]，k∈[1,K]；若时刻t子区域i路段k内无车，则

否则

如图3所示，相位配时被分为P1、P2、P3和P4，每个相位配时内依次执行同一交叉口内四个红绿灯的绿灯时长、黄灯时长和红灯时长，例如P1相位内车辆可以南北方向直行和对应的右转，P2相位内东西方向的车辆可以左转，P3相位内东西方向的车辆可以直行和对应的右转，P4相位内东西方向的车辆可以左转。

交通信息采集模块通过通信模块将交通状态信息向量s_t分别发送给交通控制单元模块和协同控制模块。

所述交通信号控制模块，获取交通状态信息向量s_t，动态生成每个子区域交叉口的控制策略，并将每个子区域交叉口的控制策略转换为对应子区域的交通信号灯的相位配时，以指导车辆驾驶行为，对交叉口的车流实施管控。主要步骤为：

步骤1，从交通信息采集模块获取交通状态信息s_t，并提取出子区域i交通状态信息s_i,t，送入本地执行网络Q_i,a；

步骤2，执行网络Q_i,a动态生成已知的最优控制策略a_i,t；

步骤3，将最优控制策略a_i,t转换为对应子区域的交通信号灯的相位配时p_i,t；

获取当前交通信号灯的相位配时p_i和相位配时p_i的已执行时长l_i,t-1，最新时长l_i,t＝a_i,t-l_i,t-1。若l_i,t<0，则交通信号灯跳转执行下一相位配时p_i,t，周而复始；

步骤4，将最新控制策略a_i,t的副本发送给协同控制模块，生成全局决策信息。

所述本地回放记忆池，用于存放交叉口i的历史经验数据

容量设为D_i。其中s_i,tr为子区域i的历史时刻tr的交通状态信息，a_i,tr为s_i,tr对应的历史控制策略，r_i,tr为控制策略a_i,tr的奖励值，s_i,tr+1为时刻tr+1子区域的交通状态信息，s′_tr+1为时刻tr+1的交通状态信息。每个采样周期，交通信息采集模块将最新的交通状态信息放入本地回放记忆池中，当记忆池容量存满时，删去最早存入的D_m条历史经验数据。

所述策略优化模块用于优化交叉口i的控制策略a_i,t。该策略优化模块包括本地评价(神经)网络Q_i,c和目标评价(神经)网络Q′_i,c。本地评价网络Q_i,c用于评价执行网络的短期行为，和目标评价网络Q′_i,c用于评价执行网络的长期行为。

本发明中执行网络、本地评价网络、目标评价网络、全局执行网络、全局评价网络和全局目标评价网络的网络结构均为现有技术，本实施例不再详细阐述。

训练获得本地评价网络的步骤为：

步骤1，从本地回放记忆池中随机选择B_i条历史经验数据构成训练数据集

从训练数据集中提取奖励向量

交通状态信息向量

和

步骤2，策略优化模块向协同控制模块请求全局优化策略，包括：

步骤2-1，将交通状态信息向量s′发给协同控制模块；

步骤2-2，获取协同控制模块生成的全局优化策略分量a′_i；

步骤3，策略优化模块根据s′_i，a′_i，r_i以及目标评价网络Q′_i,c的权重w′_i求解使累积奖励最大的控制目标向量y_i：

y_i＝r_i+γQ′_i,c(s′_i,a′_i,w′_i

式中，γ＝0.9是折扣系数，反映了历史经验数据的影响力随时间递减。

步骤4，使本地评价网络Q_i,c的Q值和控制目标向量y_i之间的loss值最小：

式中，L(w_i)是损失函数，表示本地评价网络Q_i,c控制目标向量y_i之间的loss值，w_i是本地评价网络Q_i,c的权重向量，

是该批次样本的loss期望值，

是历史交通状态信息向量，

是s_i对应历史控制策略向量。

通过Adam优化器迭代更新本地评价网络Q_i,c的权重向量w_i，以最小化loss值，从而使Q_i,c(s_i,a_i,w_i)逐步收敛到y_i，此时获得最优的本地评价网络Q_i,c和目标评价网络，结束运行。

采用软更新法更新目标评价网络Q′_i,c的权重w′_i：

w′_i,new＝τw′_i,old+(1-τ)w_i

式中，τ是设定的系数，取值为0.9。w′_i,old是更新前目标评价网络的权重，w′_i,new是更新后目标评价网络的权重，w_i为Q_i,c的权重。

步骤5，基于本地评价网络，训练获得本地执行网络：

步骤5-1，获取训练数据集

从中提取交通信息状态向量

步骤5-2，调用执行网络Q_i,a计算得到s_i的对应策略a_i，a_i＝Q_i,a(s_i)；

步骤5-3，将s_i和a_i代入评价网络Q_i,c，计算策略a_i的得分Q_i,c(s_i,a_i)；

步骤5-4，将得分Q_i,c(s_i,a_i)代入以下方程，并采用Adam优化器和确定性策略梯度法更新执行网络Q_i,a的权重θ_i，使Q_i,c(s_i,a_i)的得分尽可能高：

式中，α是学习率，

是执行网络Q_i,a的网络权重θ_i的策略梯度，

步骤5-5，当Δθ_i,k<δ时停止更新，δ为相似度阈值，输出获得最终的执行网络Q_i,a。

所述协同控制模块，用于生成全局优化策略，包括全局策略执行模块、全局记忆池和全局策略优化模块。

所述全局记忆池，用于存放全路网的经验数据(s_tr,a_tr,r_tr,s′_tr)_D，容量为D。其中，s_tr为路网在tr时刻的历史交通状态信息，a_tr＝(a_1,tr,…,a_N,tr)为所有交通控制单元对应在tr时刻的历史控制策略，r_tr为控制策略a_tr的奖励值，s′_tr为路网在tr+1时刻的历史交通状态信息。每个采样周期，交通信息采集模块将最新的经验数据放入全局回放记忆池中，奖励值r_tr根据控制目标计算得到。当记忆池容量存满时，删去最早的D_m条数据。

所述全局策略执行模块，接收来自交通控制单元模块获取全局优化策略的请求，从交通信息采集模块中获取城市路网的交通状态信息向量s′，再通过全局执行网络Q_a动态生成全局优化策略，然后将全局优化策略发送给各交通控制单元模块的本地评价网络Q_i,c中，使交通控制单元模块能够兼顾本地交叉口和全局路网的优化目标。

获取全局优化策略a′＝Q_a(s′)的控制策略分量a′_i具体步骤为：

步骤1，全局执行网络Q_a获取交通状态信息向量s′；

步骤2，全局执行网络Q_a计算全局优化策略a′＝Q_a(s′)，其中a′＝(a′₁,…,a′_N)，N为城市路网划分的子区域个数(每个子区域内有且仅有一个交通控制单元)。将a′分解为{a′_i|a′_i∈a′}，再将a′_i返回给子区域i的交通控制单元模块。

所述全局策略优化模块，包括全局评价网络Q_c和全局目标评价网络Q′_c。全局策略优化模块训练获得Q_c和更新Q′_c进行优化，再通过Q_c对全局执行网络Q_a的策略进行优化。全局策略优化模块训练获得Q_c和更新Q′_c，主要步骤为：

步骤2，根据城市路网的总拥堵延误时间计算全局奖励值r_t，

获得全局经验数据(s_t,a_t,r_t,s_t+1)；

步骤3，通过不断采集(s_t,a_t,r_t,s_t+1)获取全路网经验数据(s_tr,a_tr,r_tr,s′_tr)_D，D为容量，s_tr为城市路网在tr时刻的历史交通状态信息，a_tr＝(a_1,tr,…,a_N,tr)为tr时刻所有子区域的控制策略，r_tr为控制策略a_tr的奖励值，s′_tr为城市路网在tr+1时刻的历史交通状态信息；

步骤5，更新全局控制目标函数，使全局累积奖励最大，全局控制目标函数为：

y＝r+γQ′_c(s′,a′,w′)

步骤6，通过迭代更新全局评价网络Q_c的权重w以最小化L(w)，L(w)的计算公式为：

式中，L(w)是基于训练集(s_tr,a_tr,r_tr,s′_tr)_B得到的loss值，

为该批训练样本计算得到的loss期望值；

若使Q_c(s,a,w)收敛到y，则结束运行，获得最终的全局评价网络Q_c，否则执行步骤7；

步骤7，调用Adam优化器以loss值最小为目标迭代更新全局评价网络Q_c的权重向量w_i；

步骤8，采用软更新法更新全局目标评价网络Q′_c的权重w′：

w′_new＝τw′_old+(1-τ)w

式中，τ是设定的系数，取值为0.9。w′_new是更新前的权重，w′_old是更新后的权重，w是Q_c的权重。全局策略优化模块通过Q_c对训练获得全局执行网络Q_a，，从而优化主要步骤为：

步骤1，获取权利要求7中的训练数据集(s_tr,a_tr,r_tr,s′_tr)_B，从中提取交通信息状态向量

步骤2，调用全局执行网络Q_a计算得到s对应策略a，a＝Q_a(s)；

步骤3，将s和a代入评价网络Q_c，计算策略a的得分Q_c(s,a)；

步骤4，将得分Q_c(s,a)代入以下方程，并使用Adam优化器对全局执行网络Q_a的权重θ进行更新，使Q_c(s,a)的得分尽可能高。全局执行网络Q_a的权重θ的更新公式为：

式中，α是学习率，

是全局执行网络Q_a的权重θ的策略梯度，

是控制策略向量a的策略梯度，Q_a(a|s)是状态为s时策略为a的条件概率，Δθ_k是θ在第k步的更新增量，当Δθ_k<δ时停止更新，δ为相似度阈值，获得最终的全局执行网络Q_a。

通信模块，采用有线(例如光纤通信)或无线(例如5G通讯或专用短程通信技术Dedicated Short Range Communication，DSRC)技术，让系统的各模块能通过该模块交换交通信息，包括：交通信息采集模块和交通控制单元模块之间的通信子模块，用于传递交通状态信息和控制策略信息；协同控制模块和交通控制单元模块之间的通信子模块，用于传递全局优化决策信息。

交通控制系统的结构如图1所示，其中，交通控制单元模块包括(本地)执行网络，本地回放记忆池和本地评价网络。通过车路协同技术，视频及线圈等方式，获取当前时刻t的路网可观测交通信息数据o_t，通过强化学习获得城市道路交通信息。

本地评价网络每次从本地回放记忆池中随机选取小批次(512条)经验数据，训练本地评价网络的参数向量w_i，通过更新w_i参数最小化损失函数L(w_i)，再通过本地评价网络更新本地执行网络参数θ_i。本地评价网络和执行网络依次包括输入层，全连接层和输出层，其中全连接层有128个神经元，采用Relu激活函数，评价网络输出控制策略的得分(Q值)，执行网络输出相位编码(分别对应图3中的P₁，P₂，P₃，P₄相位)及时长，每个相位的时长的取值范围为0～1分钟。输出层采用Sigmoid激活函数以保障输出值有界。学习率α取值0.99。

协同控制模块如图1中所示，包括全局执行网络、全局记忆池和全局评价网络，用于生成全局优化策略，再对交通控制单元模块的策略进行优化。

全局执行网络获取城市路网的全局交通状态s_t，根据s_t生成全局优化策略a_t。协同控制模块采用请求-响应的方式和交通控制单元模块进行交互。方法为监听交通控制单元模块的请求，当交通控制单元模块i发送协同请求时，协同控制模块响应请求，将全局优化策略a_t的分量a_i,t发送给请求方。

全局评价网络每次从全局回放记忆池中随机选取小批次(512条)经验数据，训练全局评价网络的参数向量w，通过更新w参数最小化损失函数L(w)，再通过评价网络更新全局执行网络参数θ。评价网络和执行网络依次包括输入层，全连接层和输出层，其中全连接层有256个神经元，采用Relu激活函数，评价网络输出为策略的得分(Q值)，执行网络的输出为路网中各信号灯的相位及时长，每个相位的时长范围为0～1分钟。输出层采用Sigmoid激活函数。学习率α取值0.99。

通信模块采用光纤，5G通讯或者DSRC技术让系统中的各模块能交换交通状态信息和控制决策信息。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，包括：

采集城市路网的交通状态信息向量；

2.根据权利要求1所述的基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，采集城市路网的交通状态信息向量，包括：

将城市路网划分成N个包含交通信号灯的子区域，交通状态信息向量s_t为所有子区域的交通状态信息s_i，t的集合，i∈[1，N]，N为城市路网中子区域的总数；

子区域i交通状态信息s_i，t包括时刻t子区域i的拥堵延误向量

和时刻t子区域i交通信号灯的状态向量c_i，t，

为时刻t子区域i路段k的拥堵延误值，k∈[1，K]，K为子区域内的路段数；

若时刻t子区域i路段k内无车，则

否则

时刻t子区域i交通信号灯的状态向量c_i，t＝(p_i，l_i，t-1)，p_i为时刻t子区域i交通信号灯的相位配时，l_i，t-1为时刻t子区域i相位配时p_i的已执行时长。

3.根据权利要求1所述的基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，协调各个子区域交叉口的控制策略，并生成子区域交叉口的控制策略，包括：

4.根据权利要求3所述的基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，获取交通状态信息向量s_i，t和s_t，动态生成每个子区域交叉口的控制策略，并将每个子区域交叉口的控制策略转换为对应子区域的交通信号灯的相位配时，包括：

将子区域i交通状态信息s_i，t，送入训练获得的执行网络Q_i，a；

执行网络Q_i，a动态生成已知的最优控制策略a_i，t；

将最优控制策略a_i，t转换为对应子区域i交通信号灯的相位配时p_i，t：

获取当前交通信号灯的相位配时p_i和相位配时p_i的已执行时长l_i，t-1，相位配时p_i的最新执行时长l_i，t＝a_i，t-l_i，t-1；若l_i，t＜0，则交通信号灯跳转执行下一相位配时p_i，t；

从s_i，t中提取子区域的拥堵延误状态d_i，t，计算奖励函数

获取下一时刻交通信息状态s_i，t+1和s_t+1，将(s_i，t，a_i，t，r_i，t，s_i，t+1，s_t+1)存为经验数据。

5.根据权利要求4所述的基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，基于训练获得的本地评价网络Q_i，c，训练获得执行网络Q_i，a，包括：

训练获得本地评价网络Q_i，c，包括：

采集(s_i，t，a_i，t，r_i，t，s_i，t+1，s_t+1)，获取历史经验数据

s_i，tr为子区域i的历史时刻tr的交通状态信息，a_i，tr为s_i，tr对应的历史控制策略，r_i，tr为控制策略a_i，tr的奖励值，s_i，tr+1为时刻tr+1子区域的交通状态信息，s_tr+1为时刻tr+1全路网交通状态信息，D_i为历史经验数据的容量；

随机选择B_i条历史经验数据构成训练数据集

利用训练数据集对本地评价网络Q_i，c进行训练，包括：

从训练数据集中提取奖励向量

交通状态信息向量

和

采用软更新法更新目标评价网络Q′_i，c的权重w′_i：

w′_i，new＝τw′_i，old+(1-τ)w_i，

式中，τ是设定的系数，w′_i，old是更新前的权重，w′_i，new是更新后的目标评价网络Q′_i，c的权重w′_i，w_i为Q_i，c的权重；

根据交通状态信息向量s′_i、控制策略分量a′_i、奖励向量r_i以及目标评价网络Q′_i，c的权重w′_i，求解使累积奖励最大的控制目标向量y_i：

y_i＝r_i+γQ′_i，c(s′_i，a′_i，w′_i)，

式中，γ是设定的折扣系数；

计算本地评价网络Q_i，c的值Q_i，c(s_i，a_i，w_i)和控制目标向量y_i之间的loss值：

式中，L(w_i)是Q_i，c(s_i，a_i，w_i)和控制目标向量y_i之间的loss值；w_i是本地评价网络Q_i，c的权重向量，采用Adam优化器以loss值最小为目标迭代更新w_i；

是由该训练数据集计算得到的loss期望值，

判断Q_i，c(s_i，a_i，w_i)是否能收敛到y_i，若Q_i，c(s_i，a_i，w_i)收敛到y_i则输出获得最终的本地评价网络Q_i，c。

6.根据权利要求5所述的基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，基于训练获得的本地评价网络Q_i，c，训练获得执行网络Q_i，a，包括：

步骤1，从训练数据集

从中提取交通信息状态向量

步骤2，调用执行网络Q_i，a计算得到s_i的对应策略a_i，a_i＝Q_i，a(s_i)；

步骤3，将s_i和a_i代入本地评价网络Q_i，c，计算策略a_i的得分Q_i，c(s_i，a_i)；

步骤4，将得分Q_i，c(s_i，a_i)代入以下方程，并采用Adam优化器和确定性策略梯度法更新执行网络Q_i，a的权重θ_i，以使Q_i，c(s_i，a_i)的得分达到最高：

式中，α是学习率，

是执行网络Q_i，a的网络权重θ_i的策略梯度，

是执行网络Q_i，a策略向量a_i的策略梯度，Q_i，a(a_i|s_i)是状态为s_i时策略为a_i的条件概率，Δθ_i，k是θ_i在第k步的更新量；

步骤5，当Δθ_i，k＜δ时停止更新，δ为相似度阈值，输出获得最终的执行网络Q_i，a。

7.根据权利要求6所述的基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，训练获得的全局执行网络Q_a计算获得全局优化策略a′＝Q_a(s′)的控制策略分量a′_i，包括：

在全局执行网络Q_a获取城市路网的交通状态信息向量s′；基于交通状态信息向量s′，全局执行网络Q_a计算获得全局优化策略a′，a′＝(a′₁，...，a′_N)，N为城市路网中子区域的总数，将a′分解为{a′_i|a′i∈a′}，a′_i为全局优化策略a′的控制策略分量。

8.根据权利要求1所述的基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，基于训练获得的全局评价网络Q_c，训练获得全局执行网络Q_a，包括：

训练获得全局评价网络Q_c，包括：

步骤1，获取城市路网当前时刻t所有N个子区域的控制策略，合成全局控制策略a_t＝(a_1，t，...，a_N，t)；获取当前时刻的全局交通状态信息向量s_t和下一时刻的全局交通状态信息向量s_t+1；

步骤2：根据城市路网的总拥堵延误时间计算全局奖励值r_t，

获得全局经验数据(s_t，a_t，r_t，s_t+1)；

步骤3，通过不断采集(s_t，a_t，r_t，s_t+1)获取全路网经验数据

D为容量，s_tr为城市路网在tr时刻的历史交通状态信息，a_tr＝(a_1，tr，...，a_N，tr)为tr时刻所有子区域的控制策略，r_tr为控制策略a_tr的奖励值，s′_tr为城市路网在tr+1下一时刻的历史交通状态信息；

步骤4，随机选择B组数据构成训练集

从训练集中提取奖励值(r_tr)_B构成奖励向量r，从训练集中提取交通状态信息(s_tr)_B构成交通状态信息向量s′，并根据s′生成全局控制策略a′，即a′＝Q_a(s′)；

w′_new＝τw′_old+(1-τ)w；

更新全局控制目标函数，使全局累积奖励最大；

全局控制目标函数为：

y＝r+γQ′_c(s′，a′，w′)，

式中，L(w)是基于训练集(s_tr，a_tr，r_tr，s′_tr)_B得到的loss值，

若使Q_c(s，a，w)收敛到y，则结束运行，获得最终的全局评价网络Q_c。

9.根据权利要求8所述的基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，基于训练获得的全局评价网络Q_c，训练获得全局执行网络Q_a，包括：

步骤1，获取训练集

从中提取交通信息状态向量

步骤2，调用全局执行网络Q_a计算得到s对应策略a，a＝Q_a(s)；

步骤3，将s和a代入全局评价网络Q_c，计算策略a的得分Q_c(s，a)；

步骤4，将得分Q_c(s，a)代入以下方程，并使用Adam优化器对全局执行网络Q_a的权重θ进行更新，通过调节θ使Q_c(s，a)的得分达到最高；全局执行网络Q_a的权重θ的更新公式为：

式中，α是学习率，

是全局执行网络Q_a的权重θ的策略梯度，

若Δθ_k＜δ则结束运行，δ为相似度阈值，输出全局执行网络Q_a，否则执行步骤1。