CN113223305B

CN113223305B - 基于强化学习的多路口交通灯控制方法、系统及存储介质

Info

Publication number: CN113223305B
Application number: CN202110324649.9A
Authority: CN
Inventors: 王斌; 甘海洋; 盛津芳; 康文军
Original assignee: Hemai Technology Development Shenzhen Co ltd; Central South University
Current assignee: Hemai Technology Development Shenzhen Co ltd; Central South University
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-09-06
Anticipated expiration: 2041-03-26
Also published as: CN113223305A

Abstract

本发明公开了基于强化学习的多路口交通灯控制方法、系统及存储介质，通过构建并训练以MADDPG为框架，以多路口交通灯系统控制的多个路口的车流数据作为输入状态，以输入状态对应的信号灯的时序调控动作为输出动作，以t时刻的历史输入状态、历史输入状态对应的历史输出动作、历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本的多智能体强化模型，并基于多智能体强化模型获取多路口交通灯系统的最优控制动作，相比现有技术，该方法在训练时将智能体之间的相互影响简化为动作平均值，极大地简化了智能体数量带来的模型空间的增大，能有效缩短解算时间。

Description

基于强化学习的多路口交通灯控制方法、系统及存储介质

技术领域

本发明涉及交通信号灯控制技术领域，尤其涉及基于强化学习的多路口交通灯控制方法、系统及存储介质。

背景技术

随着城市化进程的不断加快，城市规模的发展以及人口的持续增加，车辆已早已成为人们的必备出行工具，交通拥堵成为了亟待解决的痛点问题。因此采取有效的技术手段来减少交通拥堵显得尤为重要。而交通信号灯的控制作为调节和优化城市交通流的关键途径，基于最新兴起的人工智能技术进行交通信号灯控制是改善交通拥堵的有效方法。

目前我国城市采用的交通信号灯控制模型大多采用定时控制，通过人为的方式分析历史车流数据选择交通信号灯固定的配时和周期时长，并不能根据实时的交通流做出调控，缺乏动态分析和决策，不能很好的满足实际的应用场景。比如在当某一车道方向上车流量很大或者无车时，不能够自适应的改变红绿灯的时间来延长或者缩短这一方向的通过时间，造成了人们在等待红绿灯上所耗费时间的严重浪费。

而人工智能技术作为新一代信息技术，引起了很多国内外学者的关注和研究，强化学习和深度学习是目前在机器学习和人工智能领域很热的研究方向，并在城市交通灯控制领域中取得了很好的效果，使用深度强化学习只需要通过与城市路口环境的交互获取先验知识，在获取到环境状态后形成奖励激励路口交通灯做出更优的相位动作，以此来学习训练成一定的智能控制模型。

现有的基于强化学习和深度学习的信号灯智能控制模型往往需要构建多个智能体进行协同控制，然而智能体数量的增多会带来的模型空间的增大，进而导致智能控制模型最优解的解算慢，时延高、实时性差，因此，现有的多智能体信号灯智能控制模型最优解的解算慢、时延高、实时性差已成为本领域技术人员亟待解决的技术问题。

发明内容

本发明提供了基于强化学习的多路口交通灯控制方法、系统及存储介质，用于解决现有的多智能体信号灯智能控制模型最优解的解算慢、时延高、实时性差的技术问题。

为解决上述技术问题，本发明提出的技术方案为：

一种基于强化学习的多路口交通灯控制方法，包括以下步骤：

构建多智能体强化模型，多智能体强化学习模型以MADDPG(Multi-Agent DeepDeterministic Policy Gradient，深度确定性策略梯度算法的多智能体强化学习框架)为框架，以多路口交通灯系统控制的多个路口的车流数据作为输入状态，以输入状态对应的信号灯的时序调控动作为输出动作，以t时刻的历史输入状态、历史输入状态对应的历史输出动作、历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本；

获取多路口交通灯系统调控的多个路口的历史车流数据以及对应的历史时序调控动作，将历史车流数据以及对应的历史时序调控动作输入至多智能体强化模型中进行迭代训练，得到训练好的多智能体强化模型；

获取多路口交通灯系统调控的多个路口的实时车流数据，并输入至训练好的多智能体强化模型中，得到多路口的实时时序调控动作。

优选的，多智能体强化学习模型中包括多个交通智能体，多个交通智能体相互通信，多个交通智能体与多路口交通灯系统控制控制的多个路口一一对应，每个交通智能体用于获取与其对应路口的车流数据，并输出车流数据对应的时序调控动作，且每个交通智能体均采用DQN(Deep Q Network，深度Q网络)的双网络结构，包括actor(动作网络)、critic(评价网络)、targetactor(目标动作网络)和targetcritic(目标评价网络)网络。

优选的，多智能体强化学习模型的输入状态表示为s＝[o¹,o²,…,oⁿ]，其中，oⁱ表示第i个交通智能体的输入状态，其中，i＝1,2,...,n，n为交通智能体的个数，其中，车流数据包括路口各个相位的车辆信息；

其中，多智能体强化学习模型的输出动作为a＝[a¹,a²,…,aⁿ]，其中，aⁱ表示第i个交通智能体的输出动作，其中，i＝1,2,...,n，n为交通智能体的个数，aⁱ的取值范围为[0,3]，当aⁱ＝0时表示第i个交通智能体执行的动作为东西方向红灯南北方向绿灯，当aⁱ＝1时表示第i个交通智能体执行的动作为东西方向红灯南北方向黄灯，当aⁱ＝2时表示第i个交通智能体执行的动作为东西方向绿灯南北方向红灯，当aⁱ＝3时表示第i个交通智能体执行的动作为东西方向黄灯南北方向红灯。

优选的，每个交通智能体的奖赏值函数为：

k是一个常量参数，取值范围为(0，1]，为了确保奖赏值的波动范围不会太大，L_im为第i个交通智能体对应路口的第m交通相位的车辆排队长度，M为路口的交通相位数。

优选的，每个交通智能体的critic网络更新算法为：

其中，L(θ_i)为第i个交通智能体的critic网络的损失率，K表示从经验池采样的样本总量，即批量梯度下降的样本数，θ_i为第i个交通智能体的critic网络，j表示训练样本序号，y^j为第j个训练样本的目标MF(Mean Field，平均场)值函数，

为真实的MF值函数，表示第i个交通智能体与其平均虚拟智能体之间的相互作用，其中，平均虚拟智能体由第i个交通智能体的所有邻居智能体的平均动作对其的作用构成，s^j为第j个训练样本的状态，a^j为第j个训练样本的动作，

为第j个训练样本的平均动作值，

为第i个交通智能体的所有邻居智能体的平均动作，N_i为第i个交通智能体的邻居智能体数量，a_k为第i个交通智能体的第k位邻居智能体的动作；δa_i,k为第i个交通智能体的第k位邻居智能体的波动值，r^j为第j个训练样本的奖励值，γ为折扣因子，

表示目标网络参数，

为目标网络参数

的最佳响应策略的迭代函数。

优选的，每个交通智能体的actor网络更新算法为：

其中，

表示actor网络策略梯度公式，K表示从经验池采样的样本总量，j表示训练样本序号，

表示为第i个交通智能体建立的值函数，θ_i为第i个交通智能体对应路口更新前的目标网络参数，

为第i个交通智能体的第j个训练样本的输入状态，μ_i为第i个交通智能体的动作更新策略，

表示在输入状态

下根据更新策略μ_i更新后的动作值，

表示第i个交通智能体所有邻居智能体更新后的动作值分布。

优选的，第i个交通智能体的探索策略选择动作公式为

其中，o_i表示第i个智能体的观测状态,η_t表示在t时刻的环境噪声，μ表示智能体的策略，θ_i为第i个交通智能体的critic网络。

优选的，将历史车流数据以及对应的历史时序调控动作输入至多智能体强化模型中进行迭代训练，具体包括：

每个交通智能体的actor网络初始化一个噪声η，根据随机选取一个随机动作并下达给仿真环境执行该随机动作a_t；

每个交通智能体的仿真环境当下状态s_t下执行该随机动作a_t，通过奖赏值函数计算该随机动作a_t在当下状态s_t下的回奖赏值，并获取该智能体的所有邻居智能体的动作计算自己所有邻居智能体的平均动作

并返回当下状态s_t、随机动作a_t、对应的回报值r_t、执行随机动作a_t后的新的状态s_t+1以及该智能体的所有邻居智能体的平均动作

每个交通智能体的actor网络将当下状态s_t、随机动作a_t、对应的回报值r_t、执行随机动作a_t后的新的状态s_t+1以及该智能体的所有邻居智能体的平均动作

为训练样本数据

存入历史经验存储缓冲区，作为训练actor网络和critic网络的训练样本集；

每个交通智能体从经验池中采样一小批训练样本，并通过critic网络更新算法来更新critic网络；

每个交通智能体使用actor网络更新算法更新actor网络；

每个交通智能体使用target网络更新算法更新target网络参数。

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现上述任一方法的步骤。

一种计算机存储介质，其上存储有计算机程序，其特征在于，程序被处理器执行时实现上述任一项方法中的步骤。

本发明具有以下有益效果：

1、本发明中的基于强化学习的多路口交通灯控制方法、系统及存储介质，通过构建并训练以MADDPG为框架，以多路口交通灯系统控制的多个路口的车流数据作为输入状态，以输入状态对应的信号灯的时序调控动作为输出动作，以t时刻的历史输入状态、历史输入状态对应的历史输出动作、历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本的多智能体强化模型，并基于多智能体强化模型获取多路口交通灯系统的最优控制动作，该方法吸收了MADDPG算法的优点，对于多个路口不同交通数据的同时输入，采取集中式训练、分布式执行的策略，动态地给出当前城市区域内部车流情况的最优交通信号灯配时方案，同时引入了平均场理论(Mean Field Theory，MFT)，即在训练时，将智能体之间的动作影响简化为动作平均值，极大地简化了智能体数量带来的模型空间的增大，大大缩短了最优解的解算时间，且能够巧妙地解决现实世界中交通场景的复杂性，使得智能体的数量不再成为了限制，因此具体很好的拓展性。

2、在优选方案中，将一个路口Agent(交通智能体)与其邻居路口Agent之间的相互作用简化为两个Agent之间的相互作用(该Agent与其所有邻居的均值)，极大地简化了Agent数量带来的模型空间的增大。

3、本发明基于MFDDPG算法引入了博弈论纳什均衡的思想，在理论上可以给出收敛性证明，并且能够收敛到纳什均衡点。

4、本方法解决了定时控制方法设置固定周期时长，不具有动态性的问题。相比于其它深度强化学习算法，如DQN或者actor-critic算法，由于每个智能体都是在不断学习改进其策略，因此从每一个智能体的角度看，环境是一个动态不稳定的，这不符合传统RL收敛条件。因此，本方法能够适用于传统RL算法无法处理的复杂多智能体场景。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明优选实施例的基于强化学习的多路口交通灯控制方法的实施流程图。

图2为本发明优选实施例的基于强化学习的多路口交通灯控制方法中的六个十字路口场景示意图。

图3为本发明优选实施例的基于强化学习的多路口交通灯控制方法中的单个十字路口的详情图及相位示意图。

图4为本发明优选实施例的基于强化学习的多路口交通灯控制方法中的每条道路交通状态的模型示意图。

图5为本发明优选实施例的基于强化学习的多路口交通灯控制方法中的MADDPG算法框架图。

图6为本发明优选实施例的基于强化学习的多路口交通灯控制方法中的MFDDPG算法平均场论近似图；

图7为本发明中基于强化学习的多路口交通灯控制方法的流程简图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例一：

如图7所示，本实施中公开了一种基于强化学习的多路口交通灯控制方法，包括以下步骤：

构建多智能体强化模型，多智能体强化学习模型以MADDPG为框架，以多路口交通灯系统控制的多个路口的车流数据作为输入状态，以输入状态对应的信号灯的时序调控动作为输出动作，以t时刻的历史输入状态、历史输入状态对应的历史输出动作、历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本；

此外，在本实施例中，还公开了一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现上述任一方法的步骤。

此外，在本实施例中，还公开了一种计算机存储介质，其上存储有计算机程序，其特征在于，程序被处理器执行时实现上述任一项方法中的步骤。

本发明中的基于强化学习的多路口交通灯控制方法、系统及存储介质，通过构建并训练以MADDPG为框架，以多路口交通灯系统控制的多个路口的车流数据作为输入状态，以输入状态对应的信号灯的时序调控动作为输出动作，以t时刻的历史输入状态、历史输入状态对应的历史输出动作、历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本的多智能体强化模型，并基于所述多智能体强化模型获取多路口交通灯系统的最优控制动作，该方法吸收了MADDPG算法的优点，对于多个路口不同交通数据的同时输入，采取集中式训练、分布式执行的策略，动态地给出当前城市区域内部车流情况的最优交通信号灯配时方案，同时引入了平均场理论(Mean Field Theory，MFT)，即在训练时，将智能体之间的动作影响简化为动作平均值，极大地简化了智能体数量带来的模型空间的增大，大大缩短了最优解的解算时间，且能够巧妙地解决现实世界中交通场景的复杂性，使得智能体的数量不再成为了限制，因此具体很好的拓展性。

实施例二：

实施例二是实施例一的优选实施例，其与实施例一的不同之处在于，对基于强化学习的多路口交通灯控制方法的具体步骤进行了细化：

如图1所示，在本实施例中，公开了一种基于强化学习的多路口交通灯控制方法，通过交通仿真软件SUMO进行仿真迭代，最终实现对于多路口交通信号灯的自适应控制，具体包括以下步骤：

步骤1：构建路网模型，根据现有数据或者随机产生，得到路网中车辆的数量、位置等交通数据。

本实施例中，路网模型建立的是六个十字路口，如图2所示，车辆从东西南北四个方向产生并流入流出路网。每一个路口的详细示意图如图3所示，这里是按照实际道路建立的双向四车道建立的，内侧车道可以直行和左转，外侧车道可以直行和右转。

步骤2：道路建模，根据实际的十字路口车辆通行情况，建立综合评价指标。

这里是以每个路口车辆驶入的道路为一个单位进行建模。根据步骤1建立的路网模型可知，一条道路包括两条车道。每条车道的长度设为Length，车辆的最大速度为V。将车道划分为若干个单元格，设置每个单元格长度为d，每个单元格同一时间内仅能存在一辆车。用布尔变量来表示单元格内车辆存在与否，1表示存在车辆、0表示不存在车辆。路网中任意路口相连接车道上的车辆都可用0和1表示，每时刻任意路口直接相连的某些车道上(执行相位的车道)的车辆都会运动，因此每时刻路口的交通状态都会不同，道路交通状态建模如图4所示。

综合评价指标包括车辆排队长度、车辆平均等待时间和路口通行流量。车辆排队长度数值上等于路口四个方向一定长度道路上等待的车辆数量，反应了路口的拥堵状况。车辆平均等待时间数值上等于所有车辆在路口红绿灯处总的等待时间除以车辆总数得到的平均值，反应单个车辆在路口的平均等待时间。路口通行车流数值上等于一定时间间隔内路口通过的车辆数量，反应了路口的通行能力。

步骤3：将交通信号灯控制问题建模为一个马尔可夫决策过程，定义其中的状态、动作和立即奖赏函数。

状态集用s表示为从环境中观测到所有Agent的状态信息(o₁,…,o_n)，主要包括各个路口四个方向的车辆信息。动作集用a表示各个路口Agent在当前路口下执行的动作，设置0和1分别代表红绿灯切换和保持，同时对于每个路口的相位描述如下：0表示东西方向红灯南北方向绿灯，1表示东西方向红灯南北方向黄灯，2表示东西方向绿灯南北方向红灯，3表示东西方向黄灯南北方向红灯，如图3所示。当路口执行动作切换时，为了缓冲绿灯和红灯之间的动作替换，引入了黄灯的缓冲作用，路口相位从0～3改变。立即奖赏函数用r表示，统计在状态s下执行动作a后路口四个方向通过的车辆和进入的车辆，得到静止状态下路口各个方向的车辆数目，即车辆排队长度，四个方向车辆排队长度平方和的负数则用于表示奖赏函数，用公式表示为

k是一个常量参数，为了确保奖赏值的波动范围不会太大。

步骤4：建立多路口强化学习模型，这里使用的是MFDDPG算法，采用集中式训练、分布式执行的思想处理多个路口的交通数据；

MFDDPG算法是建立在DDPG算法的基础上，引入了平均场论的思想，是一种从单智能体拓展到多智能体强化学习的算法。由于在多智能体强化学习应用场景下不仅有环境交互的问题，还有各个智能体之间相互动态的影响，因此为了得到最优策略，每个智能体都需要考察其他智能体的动作及状态得到联合动作值函数。但是由于状态空间跟动作空间随着智能体数量的增多而迅速扩大，这给计算以及探索带来了非常大的困难。而平均场论的引入可以巧妙的简化这一难题，平均场论对于多智能体场景做出了一个近似假设：对某个智能体，其他所有智能体对其产生的作用可以用一个均值替代。这样就将一个智能体与其邻居智能体之间的相互作用简化为两个智能体之间的相互作用(该智能体与其所有邻居的均值)，如图6所示。这样极大地简化了智能体数量带来的模型空间的增大。而且在应用平均场论后，学习在两个Agent之间是相互促进的：单个Agent的最优策略的学习是基于智能体群体中的动态；同时，群体的动态也是根据个体的策略进行更新。

同时MFDDPG算法还吸收了MADDPG算法的优点，对于多个路口不同交通数据的同时输入，采取集中式训练、分布式执行的策略。因此MFDDPG算法具体模型结构也是和MADDPG算法类似。MADDPG算法的训练算法框架如图5所示，对于每个路口Agent，分别搭建actor-critic结构，并采用了DQN的双网络结构，对于actor和critic都构建了估计网络和现实网络两个神经网络。

在DDPG算法的基础上，为了能够适用于动态环境，改进了经验回放记录的数据。每一条信息由

组成，其中s表示为从环境中观测到所有Agent的状态信息(o₁,…,o_n)，a表示各个路口Agent在当前路口下执行的动作(红绿灯切换/保持)，a＝[a¹,a²,…,aⁿ]，r表示当前路口状态s下执行动作a得到的立即奖赏，r＝[r¹,r²,…,rⁿ]，s'表示为在当前状态s下每个路口Agent执行动作a_i后迁移到的下一个状态，

在交通场景下，因为所有的Agent都是同构的，其动作空间都相同，并且动作空间是离散的。所以每个Agent的动作都采用one-hot编码，比如智能体j的动作

其表示共有D个动作的动作空间内每个动作的值。若选用动作i，则

其它均为0。之后定义

为智能体j邻居N(j)的平均动作值，其邻居k的one-hot编码a_k可以表示为

和一个波动值δa_j,k的形式，公式如下所示：

其中

步骤5：在仿真软件中导入车辆数据，进行数据预处理。仿真软件用的是SUMO平台，利用traci和sumolib模块对车流进行操作。

步骤6：设置网络参数，进行交通仿真和Agent训练。这里主要是设置神经网络的各项参数，如学习率α、折扣因子γ等。

步骤7：使用构建的多智能体强化学习模型求解最优策略。MFDDPG模型求解过程具体如下：

初始化一个噪声η与环境交互，并接收初始状态s；

对于每一个路口agent i,根据当前场景和探索策略选择动作

其中o_i表示每i个智能体的观测,η_t表示在t时刻的环境噪声，μ表示智能体的策略，状态s＝[o¹,o²,…,oⁿ]，并计算新的动作平均值

在状态s执行当前动作a得到新状态s_和奖励r，每一次状态转移即做出动作记作一个时间步t，将每一个时间步得到的训练样本

存入经验池D中，其中a＝[a¹,a²,…,aⁿ]，r＝[r¹,r²,…,rⁿ]；

从经验池中采样一小批训练样本，定义一个Loss function(损失函数)，其函数公式为

并通过最小化损失函数来更新critic网络，其中

为目标MF值函数，K表示从经验池采样的样本总量，j表示每一个样本,

表示目标网络参数，γ表示折扣因子；

使用样本策略梯度更新actor网络，更新过程中使用的策略梯度函数为

其中

表示为每个智能体建立的值函数；

更新每个路口agent i的目标网络参数，更新公式为：

其中α表示目标网络的学习率。

步骤8：利用最优策略控制各个路口的交通信号灯。通过步骤8得到的最优策略指的是一组动作序列，分别对应每一个路口Agent，都用0和1分别代表切换动作和保持动作，步骤3中详细说明了交通信号灯的四种相位。

步骤9：仿真结束。

综上所述，本发明中的基于强化学习的多路口交通灯控制方法、系统及存储介质，通过构建并训练以MADDPG为框架，以多路口交通灯系统控制的多个路口的车流数据作为输入状态，以输入状态对应的信号灯的时序调控动作为输出动作，以t时刻的历史输入状态、历史输入状态对应的历史输出动作、历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本的多智能体强化模型，并基于所述多智能体强化模型获取多路口交通灯系统的最优控制动作，该方法吸收了MADDPG算法的优点，对于多个路口不同交通数据的同时输入，采取集中式训练、分布式执行的策略，动态地给出当前城市区域内部车流情况的最优交通信号灯配时方案，同时引入了平均场理论(Mean Field Theory，MFT)，即在训练时，将智能体之间的动作影响简化为动作平均值，极大地简化了智能体数量带来的模型空间的增大，大大缩短了最优解的解算时间，且能够巧妙地解决现实世界中交通场景的复杂性，使得智能体的数量不再成为了限制，因此具体很好的拓展性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的多路口交通灯控制方法，其特征在于，包括以下步骤：

构建多智能体强化模型，所述多智能体强化学习模型以MADDPG为框架，以多路口交通灯系统控制的多个路口的车流数据作为输入状态，以输入状态对应的信号灯的时序调控动作为输出动作，以t时刻的历史输入状态、所述历史输入状态对应的历史输出动作、所述历史输出动作对应的奖赏值、t+1时刻的历史输入状态以及t时刻的历史输入状态对应的历史输出动作平均值作为训练样本；

所述多智能体强化学习模型中包括多个交通智能体，所述多个交通智能体相互通信，所述多个交通智能体与所述多路口交通灯系统控制控制的多个路口一一对应，所述每个交通智能体用于获取与其对应路口的车流数据，并输出所述车流数据对应的时序调控动作，且每个交通智能体均采用DQN的双网络结构，包括actor、critic、target actor和targetcritic网络；

每个交通智能体的critic网络更新算法为：

其中，L(θ_i)为第i个交通智能体的critic网络的损失率，K表示从经验池采样的样本总量，即批量梯度下降的样本数，θ_i为第i个交通智能体的critic网络，j表示训练样本序号，y^j为第j个训练样本的目标MF值函数，

为第j个训练样本的平均动作值，

表示目标网络参数，

为目标网络参数

的最佳响应策略的迭代函数；

每个交通智能体的actor网络更新算法为：

其中，

表示在输入状态

下根据更新策略μ_i更新后的动作值，

表示第i个交通智能体所有邻居智能体更新后的动作值分布；

获取所述多路口交通灯系统调控的多个路口的历史车流数据以及对应的历史时序调控动作，将所述历史车流数据以及对应的历史时序调控动作输入至所述多智能体强化模型中进行迭代训练，得到训练好的多智能体强化模型；

获取所述多路口交通灯系统调控的多个路口的实时车流数据，并输入至训练好的所述多智能体强化模型中，得到所述多路口的实时时序调控动作。

2.根据权利要求1所述的基于强化学习的多路口交通灯控制方法，其特征在于，所述多智能体强化学习模型的输入状态表示为s＝[o¹,o²,…,oⁿ]，其中，oⁱ表示第i个交通智能体的输入状态，其中，i＝1,2,...,n，n为交通智能体的个数，其中，车流数据包括路口各个相位的车辆信息；

其中，所述多智能体强化学习模型的输出动作为a＝[a¹,a²,…,aⁿ]，其中，aⁱ表示第i个交通智能体的输出动作，其中，i＝1,2,...,n，n为交通智能体的个数，aⁱ的取值范围为[0,3]，当aⁱ＝0时表示第i个交通智能体执行的动作为东西方向红灯南北方向绿灯，当aⁱ＝1时表示第i个交通智能体执行的动作为东西方向红灯南北方向黄灯，当aⁱ＝2时表示第i个交通智能体执行的动作为东西方向绿灯南北方向红灯，当aⁱ＝3时表示第i个交通智能体执行的动作为东西方向黄灯南北方向红灯。

3.根据权利要求1所述的基于强化学习的多路口交通灯控制方法，其特征在于，每个交通智能体的奖赏值函数为：

4.根据权利要求1所述的基于强化学习的多路口交通灯控制方法，其特征在于，所述第i个交通智能体的探索策略选择动作公式为

5.根据权利要求4所述的基于强化学习的多路口交通灯控制方法，其特征在于，将所述历史车流数据以及对应的历史时序调控动作输入至所述多智能体强化模型中进行迭代训练，具体包括：

为训练样本数据

每个交通智能体使用actor网络更新算法更新actor网络；

每个交通智能体使用target网络更新算法更新target网络参数。

6.一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至5任一所述方法的步骤。

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现上述权利要求1至5任一项所述方法中的步骤。