CN115359653A

CN115359653A - 一种交通信号控制方法和装置

Info

Publication number: CN115359653A
Application number: CN202210880024.5A
Authority: CN
Inventors: 李力; 毛锋; 李志恒
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-11-18

Abstract

一种交通信号控制方法和装置，所述方法包括：获取信号灯的路网环境信息和当前时刻的交通流量信息；根据路网环境信息和当前时刻的交通流量信息确定对应于所述信号灯的交叉口观测信息；利用预先训练好的基于注意力机制的交通信号控制模型的ALight模块确定所述信号灯当前时刻的相位，并根据所确定的相位对所述信号灯进行控制；其中，该交通信号控制模型的输入参数包括：对应于所述信号灯的交叉口观测信息，该交通信号控制模型的ALight模块的输出参数为当前时刻所述信号灯的相位。

Description

一种交通信号控制方法和装置

技术领域

本文涉及深度学习技术领域，尤指一种交通信号控制方法和装置。

背景技术

交通信号控制对于建设智慧城市至关重要。随着深度强化学习(DRL)技术的发展，大量的研究将DRL方法用于单交叉口交通信号控制。近些年来，研究人员开始将DRL方法应用于干线交通信号控制和多交叉口交通信号控制。针对于干线交通信号控制，由于干线交通信号控制问题的状态即动作空间巨大，需要设计一个多智能体深度强化学习(MARL)模型来提取有用信息并搜索最优解空间。关于MARL模型的设计主要受三类因素的影响：强化学习模型要素选择、多智能体强化学习模型结构设计和多智能体模型训练算法，所以该模型的设计存在一定的困难。

因此，亟待需要实现一种基于注意力机制的多智能体深度强化学习干线交通信号控制方法，以实现对于干线交通信号有效控制。

发明内容

本申请提供了一种交通信号控制方法和装置，该方法基于注意力机制的多智能体深度强化学习交通信号控制模型确定交通信号，可以提高干线路网交通通行效率。

本申请提供了一种交通信号控制方法，所述方法包括：

获取信号灯的路网环境信息和当前时刻的交通流量信息；

根据路网环境信息和当前时刻的交通流量信息确定对应于所述信号灯的交叉口观测信息；

利用预先训练好的基于注意力机制的多智能体深度强化学习交通信号控制模型的ALight网络确定所述信号灯当前时刻的相位，并根据所确定的相位对所述信号灯进行控制；

其中，该交通信号控制模型的输入参数包括：对应于所述信号灯的交叉口观测信息，该交通信号控制模型的输出参数为当前时刻所述信号灯的相位。

一种示例性的实施例中，所述预先训练好的基于注意力机制的交通信号控制模型通过以下步骤训练得到：

建立经验回放池，该经验回放池中存储多组数据，每组数据包括：当前时刻的状态信息，当前时刻的信号灯的相位选择，奖励，当前时刻的状态信息；其中，所述状态信息包括：信号灯的交叉口观测信息、路网全局观测信息；

从该经验回放池中随机选择一批数据进行本轮的交通信号控制模型训练；

本轮训练所得到的模型进行存储；

经过预定次数的多轮训练后，选择多轮训练中奖励最大的模型作为训练好的交通信号控制模型。

一种示例性的实施例中，所述建立经验回放池，包括：

通过预设的仿真软件和路网环境信息生成路网文件；

根据路网中每个车辆的行驶路径生成路网交通流量文件；

根据该路网文件和路网交通流量文件生成仿真配置文件，并根据该仿真配置文件进行交通信号控制仿真；

将每轮仿真的样本数据存储到经验回放池。

一种示例性的实施例中，所述从该经验回放池中随机选择一批数据进行本轮的交通信号控制模型训练包括：

从该经验回放池中随机选择一批数据，并训练更新预先建立的基于注意力机制的ACritic神经网络模型；

根据选择的一批数据和所述ACritic神经网络模型计算得到奖励Q值，更新预先建立的基于注意力机制的ALight神经网络模型；

通过更新后的ALight神经网络模型，采用预设的深度强化学习算法进行计算，得到信号灯的当前时刻相位，完成交通信号控制模型的一次训练。

一种示例性的实施例中，所述ACritic神经网络模型为：

上述模型中，w_i表示ACritic模型的参数，i表示当前智能体，i为大于等于1的正整数；该ACritic神经网络模型的输入信息为路网全局观测信息S_t， t表示当前时刻，该ACritic神经网络模型的输出信息为智能体选择每个相位的累计奖励。

一种示例性的实施例中，所述ALight神经网络模型为：

上述模型中，θ_i表示ALight神经网络模型的参数，softmax(·)为激励函数， ||L_i||和||p_i||分别表示当前智能体i所位于的交叉口的车道数量和交叉口相位数目；所述ALight神经网络模型的输入信息为交叉口观测信息o_i,t；所述ALight 神经网络模型的输出信息为智能体选择每个相位的概率。

一种示例性的实施例中，所述预设的深度强化学习算法包括：

其中，该算法的目标

是最大化累计奖励及最大化熵，T表示一轮训练模型的时间，α表示温度参数，r_i,t表示所述信号灯在t时刻下获得的奖励。

一种示例性的实施例中，所述根据该数据中的路网全局观测信息和所述 ACritic神经网络模型计算得到奖励Q值，并利用该奖励Q值更新预先建立的基于注意力机制的ALight神经网络模型，包括：

利用ACritic模型的更新公式计算奖励Q值；

根据该ACritic模型计算出的奖励Q值计算所述ALight神经网络模型；

其中，ACritic模型的更新公式为：

其中，D表示经验回放池，

表示ACritic网络计算出的奖励Q 值，y(r_i,t,S_t+1)表示目标奖励Q值，a_t表示温度参数，(S_t，a_t)～D表示从经验池中随机选取数据，E(.)表示的对数据求均值。

一种示例性的实施例中，所述ALight模型的更新公式为：

其中，

表示利用所述ACritic模型计算出的奖励Q值。

本申请还提供了一种交通信号控制装置，所述装置包括：存储器和处理器；所述存储器用于保存进行交通信号控制的程序，所述处理器用于读取执行所述用于进行交通信号控制的程序，执行上述实施例中任一项所述的方法。

与相关技术相比，本申请提供一种交通信号控制方法和装置，所述方法包括：获取信号灯的路网环境信息和当前时刻的交通流量信息；根据路网环境信息和当前时刻的交通流量信息确定对应于所述信号灯的交叉口观测信息；利用预先训练好的基于注意力机制的交通信号控制模型确定所述信号灯当前时刻的相位，并根据所确定的相位对所述信号灯进行控制；其中，该交通信号控制模型的输入参数包括：对应于所述信号灯的交叉口观测信息，该交通信号控制模型的输出参数为当前时刻所述信号灯的相位。通过本发明的技术方案，该方法基于注意力机制的交通信号控制模型确定交通信号，可以提高干线路网交通通行效率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例的交通信号控制方法流程图；

图2为本申请实施例的交通信号控制装置示意图；

图3为一些示例性实施例中交通信号控制模型的建立和训练示意图；

图4为一些示例性实施例中测试1×6干线路网示意图；

图5为一些示例性实施例中基于注意力机制的多智能体深度强化学习交通信号控制模型的干线交通信号控制方法网络结构示意图；

图6为一些示例性实施例中ALight模型网络结构示意图；

图7为一些示例性实施例中ACritic模型网络结构示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

本公开实施例提供了一种交通信号控制方法，如图1所示，方法包括步骤S100-S120，具体如下：

S100.获取信号灯路网环境信息和当前时刻的交通流量信息；

S110.根据路网环境信息和当前时刻的交通流量信息确定对应于所述信号灯的交叉口观测信息和路网全局观测信息；

S120.利用预先训练好的基于注意力机制的交通信号控制模型确定所述信号灯当前时刻的相位，并根据所确定的相位对所述信号灯进行控制。

在本实施例中，该交通信号控制模型的输入参数包括：对应于所述信号灯的交叉口观测信息，该交通信号控制模型的输出参数为当前时刻所述信号灯的相位。

在步骤S100中，该路网环境信息包括并不限于：路段车道数、交叉口相位设置。如图4所示：路段车道数为3道；交叉口相位设置包括：相位1、相位2、相位3和相位4。该交通流量信息包括当前信号灯下每个交叉口的车辆数以及每个车辆的行驶路径。

在步骤S110中，各个信号灯只能获得自身的交叉口观测信息o_i,t，该信息包括：各个车道车辆数n_i,t，各个车道车辆平均速度v_i,t和交叉口当前相位p_i,t。交叉口观测信息可以表示为(||L_i||,2+||pi||)的向量，其中||L_i||和||p_i||分别表示交叉口的车道数量和交叉口相位数目。路网全局观测信息表示为S_t，可以是干线路网的全局观测信息，也可以是非干线路网的全局观测信息，使用 (N,||L_i||,2+||p_i||)的张量表示路网中所有交叉口的观测信息和。

步骤1.建立经验回放池，该经验回放池中存储多组数据，每组数据包括：当前时刻的状态信息，当前时刻的信号灯的相位选择，奖励，当前时刻的状态信息；其中，所述状态信息包括：信号灯的交叉口观测信息、路网全局观测信息；

步骤2.从该经验回放池中随机选择一批数据进行本轮的交通信号控制模型训练；

步骤3.本轮训练所得到的结果模型进行存储；

步骤4.经过预定次数的多轮训练后，选择多轮训练中奖励最大的模型作为训练好的交通信号控制模型。

一种示例性的实施例中，建立经验回放池，包括：

通过预设的仿真软件和路网环境信息生成路网文件；

根据路网中每个车辆的行驶路径生成路网交通流量文件；

根据该路网文件和路网交通流量文件生成仿真配置文件，并根据该仿真配置文件进行交通信号控制模型训练；

将每轮模型训练所得的结果存储到经验回放池。

根据选择的一批数据和所述ACritic神经网络模型计算得到奖励Q值，更新预先建立的基于注意力机制的多智能体深度强化学习的ALight神经网络模型；

一种示例性的实施例中，所述ACritic神经网络模型为：

一种示例性的实施例中，所述ALight神经网络模型为：

其中，该算法的目标

一种示例性的实施例中，所述根据该数据中的路网全局观测信息和所述ACritic神经网络模型计算得到奖励Q值，并利用该奖励Q值更新预先建立的基于注意力机制的ALight神经网络模型，包括：

利用ACritic模型的更新公式计算奖励Q值；

其中，ACritic模型的更新公式为：

其中，D表示经验回放池，

表示ACritic网络计算出的奖励Q值， y(r_i,t,S_t+1)表示目标奖励Q值，a_t表示温度参数，(S_t，a_t)～D表示从经验池中随机选取数据，E(.)表示的对数据求均值。

一种示例性的实施例中，所述ALight模型的更新公式为：

其中，

表示利用所述ACritic模型计算出的奖励Q值。

本公开实施例还提供了一种交通信号控制装置，如图2所示，所述装置包括：存储器210和处理器220；存储器210用于保存进行交通信号控制的程序，处理器220用于读取执行所述用于进行交通信号控制的的程序，执行上述实施例中任一项所述的方法。

下面用一个示例说明交通信号控制模型的建立和训练过程，如图3所示：

步骤301、搭建路网环境；

根据所搭建的路网环境生成交通流量文件和仿真配置信息文件；

步骤302、设置马尔科夫决策过程要素；

将干线交通信号控制建模为部分可观测马尔科夫决策过程，对干线交通信号控制马尔科夫决策过程要素进行设置；

步骤303、搭建基于基于注意力机制的多智能体深度强化学习交通信号控制模型；

步骤304、采用SAC(Soft actor critic)深度强化学习算法进行交通信号控制模型训练；

步骤305、定义交通信号控制评价指标，对干线交通信号控制效果进行测试。

在步骤301中，生成仿真配置文件的过程如下：

步骤3011、使用sumo微观交通仿真软件，根据干线路网的拓扑，交叉口渠化进行建模，包括：Node生成、路段车道数定义、edge生成、路段间连通性设置、交叉口相位设置，检测器生成。最终生成.net.xml文件；

步骤3012、根据干线路网每个车辆veh_i在时间t_i从路段arc_j进入，在干线路网的行驶路径arc_i,j→arc_i,j+1→…，然后离开路网的信息，生成干线路网交通流量.rou.xml文件；

步骤3013、生成仿真配置.sumocfg文件，配置信息包括：仿真路网.net.xml 文件，仿真流量.rou.xml文件，路网检测器.add.xml文件，仿真开始、终止时间，是否可视化仿真。

在步骤302中，对干线交通信号控制马尔科夫决策过程要素进行设置过程为：

步骤3021、各个信号灯获得自身交叉口的观测信息o_i,t，包括：各个车道车辆数n_i,t，各个车道车辆平均速度v_i,t和交叉口当前相位p_i,t。交叉口观测信息表示为(||L_i||,2+||p_i||)的向量，其中，||L_i||和||p_i||分别表示交叉口的车道数量和交叉口相位数目；

步骤3022、状态S_t表示为干线路网的全局观测信息，使用(N,||L_i||,2+||p_i||) 的张量表示路网中所有交叉口的观测信息和；

步骤3023、各个信号灯的动作设置为相位选择型，表示为

其中，

表示交叉口预先设定的相位方案，当前时刻的相位选择型动作设置表示当前时刻交叉口放行相位a_i,t车道的车辆；

步骤3024、各个信号灯的奖励函数r_i,t设置为信号灯各自交叉口车道平均排队车辆数。

在步骤303中，搭建基于注意力机制的多智能深度强化学习模型，具体方法为：

步骤3031、建立基于注意力机制的actor网络模型即ALight神经网络模型，该ALight神经网络模型能更有效地提取交叉口有效的信息。其中，为了更有效提取特征，该ALight神经网络模型使用了一个输出为128维的embed 层，为了捕捉每个embed相位特征的重要性，使用了注意力机制。该ALight 神经网络模型的输入为交叉口观测信息o_i,t，维度为(||L_i||,2+||pi||)；ALight神经网络模型的输出信息为表示智能体选择每个相位的概率，该输出为(1，||p_i||)向量；

如图6所示，该ALight神经网络模型为：

上述公式中，θ_i表示ALight模型的网络参数，softmax(·)为激励函数。

步骤3032、建立基于注意力机制的critic网络模型即ACritic神经网络模型，该ACritic神经网络模型更准确地估计Q函数，可以减少Actor网络梯度估计误差。其中，该ACritic神经网络模型为了更有效提取交叉口特征，使用了一个输出为128维的embed层，为了捕捉每个交叉口embed特征的重要性，使用了注意力机制。ACritic模型的输入为路网全局观测信息S_t，维度为 (N,||L_i||,2+||p_i||)，该ACritic神经网络模型的输出信息为智能体选择每个相位的累计奖励，为(1，||p_i||)向量；

其中，如图7所示，该ACritic神经网络模型为：

上述公式中，w_i表示ACritic模型的网络参数。

在步骤304中，采用SAC深度强化学习算法作为多智能体模型的训练算法，该SAC深度强化学习算法为：

其中，T表示仿真时间范围，α是温度参数控制熵项对奖励的重要性。采用SAC作为多智能体强化学习模型训练算法，目标是最大化累计奖励同时也最大化熵。

在步骤304中，模型训练过程中，包括ACritic神经网络模型更新和ALight 神经网络模型更新；

其中，该ACritic神经网络模型更新公式表示为：

其中，D表示经验回放池，

表示ACritic网络计算出的奖励Q值， y(r_i,t,S_t+1)表示目标奖励Q值，a_t表示温度参数，(S_t，a_t)～D表示从经验池中随机选取数据，E(.)表示的对数据求均值；

该ALight模型神经网络更新公式表示为：

上述更新公式中，

表示利用所述ACritic模型计算出的奖励Q 值；

温度参数梯度更新公式表示为：

在步骤305中，对该训练好的交通信号控制模型进行效果评估过程为：

(1)为了评估各种算法的训练性能，采用训练算法所需的最佳收敛回合数(BCE)和最佳收敛时间(BCT)。BCE指标可以反映算法的样本效率， BCT指标反映了算法的时间复杂度。这两个评价指标都通过所有训练实验中最好的训练模型得到。此外，还采用平均回合奖励曲线的最佳收敛点(BCP) 来评价强化学习算法的训练效果。

(2)为了评估各种强化学习算法的执行性能，以平均回合累积奖励 (ACR)、平均队列长度(AQL)、平均等待时间(AWT)、平均旅行时间 (ATT)，平均停车次数(AS)作为执行阶段评价指标。

(3)对比算法选用max band方法和几个多智能体深度强化学习算法， CommNet及NeurComm模型。

基于上述对比分析发现，本实施例中的基于注意力机制的交通信号控制模型与MARL模型相比，其显著优点为：

1.使用SAC作为MARL模型的训练算法，大大增强了MARL模型对解空间的搜索能力；

2.在actor和critic神经网络模型中使用了注意力机制，增强了MARL模型提取有效信息的能力；

3.所建立的基于注意力机制的MARL模型为其他MARL问题的模型设计提供了重要参考价值。

下面用一个示例说明交通信号控制方法的过程，如图5所示：

步骤501.通过预设的仿真软件和路网环境信息生成路网文件；

在本步骤中，可以用Sumo仿真软件生成图4所示的路网文件 1×6_grid.net.xml，在图4中，该路网是一个1×6干线路网，双向三车道、路段长度为300m、每个交叉口的信号灯为四相位设置，其中，四相位设置分别为：南北直行、南北左转、东西直行和东西左转。

步骤502.根据路网中每个车辆的行驶路径生成路网交通流量文件；

在本步骤中，可以使用Sumo仿真软件根据车辆轨迹信息生成干线路网交通流量。例如：干线路网每个车辆的轨迹信息为：veh_i在时间t_i从路段arc_j进入，在干线路网的行驶路径为arc_i,j→arc_i,j+1→…，最后是离开路网；根据该轨迹信息生成干线路网交通流量.rou.xml文件。

步骤503.根据该路网文件和路网交通流量文件生成仿真配置文件；

在本步骤中，可以使用Sumo仿真软件生成仿真配置.sumocfg文件，该配置信息包括：仿真路网1×6_grid.net.xml，仿真流量1×6_grid.rou.xml，路网检测器1×6_grid.add.xml，可以仿真开始时间＝0、终止时间＝3600s，是否可视化仿真＝False。

步骤504.根据当前时刻的路网环境信息和当前时刻的交通流量信息确定对应于所述信号灯的交叉口观测信息和路网全局观测信息；

在本步骤中，设置干线交通信号控制建模成的部分可观测马尔科夫决策过程要素包括：信号灯的交叉口观测信息和路网全局观测信息。其中，各个信号灯获得自身交叉口的观测信息o_i,t，包括：各个车道车辆数n_i,t，各个车道车辆平均速度v_i,t和交叉口当前相位p_i,t。交叉口观测信息表示为(||L_i||,2+||p_i||)的向量，其中||L_i||和||p_i||分别表示交叉口的车道数量和交叉口相位数目。状态S_t表示为干线路网的全局观测信息，使用(N,||L_i||,2+||p_i||)的张量表示路网中所有交叉口的观测信息和。

设置干线交通信号控制建模成的部分可观测马尔科夫决策过程要素还包括：各个信号灯的动作设置为相位选择型，表示为

其中

表示交叉口预先设定的相位方案：南北直行，南北左转，东西直行，东西左转。相位选择型动作设置表示当前时刻交叉口放行相位a_i,t车道的车辆；

设置干线交通信号控制建模成的部分可观测马尔科夫决策过程要素还包括：各个信号灯的奖励值设置为各自交叉口车道平均排队车辆数。

步骤505.获取预先训练好的基于注意力机制的交通信号控制模型，并确定所述信号灯当前时刻的相位。

在本步骤中，搭建基于注意力机制的多智能深度强化学习模型，包括：

步骤5051.建立经验回放池，该经验回放池中存储多组数据，每组数据包括：当前时刻的状态信息，当前时刻的信号灯的相位选择，奖励，当前时刻的状态信息；其中，所述状态信息包括：信号灯的交叉口观测信息、路网全局观测信息。

在本步骤中，建立经验回放池，包括：

1、通过预设的仿真软件和路网环境信息生成路网文件；

2、根据路网中每个车辆的行驶路径生成路网交通流量文件；

3、根据该路网文件和路网交通流量文件生成仿真配置文件，并根据该仿真配置文件进行交通信号控制模型训练；

4、将每轮模型训练所得的结果存储到经验回放池。

步骤5052.从该经验回放池中随机选择一组数据，并获取预先建立的基于注意力机制的ACritic神经网络模型；如图7所示，所述ACritic神经网络模型为：

步骤5053.根据该数据中的路网全局观测信息和所述ACritic神经网络模型计算得到奖励Q值，并利用该奖励Q值更新预先建立的基于注意力机制的 ALight神经网络模型；

在本步骤中实现过程如下：

步骤01.预先建立一个基于注意力机制的actor网络来更有效地提取交叉口有效的信息，称这个actor网络为ALight，如图6所示，所述ALight神经网络模型为：

步骤02.采用SAC深度强化学习算法作为交通信号控制模型的训练算法，具体方法为：

所述预设的深度强化学习算法包括：

其中，该算法的目标

步骤03、利用ACritic模型的更新公式计算奖励Q值；ACritic模型的更新公式为：

其中，D表示经验回放池，

步骤04、根据该ACritic模型的更新公式计算出的奖励Q值后，更新计算所述ALight神经网络模型；

所述ALight模型的更新公式为：

其中，

表示利用所述ACritic模型计算出的奖励Q值。

步骤05、对于更新的ALight模型采用更新的温度参数进行计算；

其中，该算法中的温度参数梯度更新公式表示为：

步骤506.对交通信号控制方法进行效果评估。

在本步骤中，使用1×6_grid.rou.xml流量进行仿真，测试基于该基于注意力机制的交通信号控制模型的训练效果，包括CommNet、NeurComm模型。

为了评估各种算法的训练性能，采用训练算法所需的最佳收敛回合数(BCE)和最佳收敛时间(BCT)；

使用1×6_grid.rou.xml流量对步骤4训练好的算法模型进行测试，并与 maxband方法和CommNet、NeurComm模型进行比较；

为了评估各种强化学习算法的执行性能，以平均回合累积奖励(ACR)、平均队列长度(AQL)、平均等待时间(AWT)、平均旅行时间(ATT),平均停车次数(AS)作为执行阶段评价指标。

本实施例中，通过基于注意力机制的交通信号控制模型，可以提取有用信息并搜索最优解空间，模型使用SAC作为MARL模型的训练算法，大大增强了MARL模型对解空间的搜索能力；模型在actor和critic神经网络模型中使用了注意力机制，增强了MARL模型提取有效信息的能力，也能够干线交通提供更优的控制信号以提高干线路网交通通行效率。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质) 和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种交通信号控制方法，其特征在于，所述方法包括：

获取信号灯的路网环境信息和当前时刻的交通流量信息；

利用预先训练好的基于注意力机制的多智能体深度强化学习的交通信号控制模型确定所述信号灯当前时刻的相位，并根据所确定的相位对所述信号灯进行控制；

2.根据权利要求1所述的交通信号控制方法，其特征在于，所述预先训练好的基于注意力机制的多智能体深度强化学习的交通信号控制模型通过以下步骤训练得到：

本轮训练所得到的模型进行存储；

3.根据权利要求2所述的交通信号控制方法，其特征在于，所述建立经验回放池，包括：

通过预设的仿真软件和路网环境信息生成路网文件；

根据路网中每个车辆的行驶路径生成路网交通流量文件；

将每轮仿真的样本数据存储到经验回放池。

4.根据权利要求2所述的交通信号控制方法，其特征在于，所述从该经验回放池中随机选择一批数据进行本轮的交通信号控制模型训练包括：

5.根据权利要求4所述的交通信号控制方法，其特征在于，

所述ACritic神经网络模型为：

上述模型中，w_i表示ACritic模型的参数，i表示当前智能体，i为大于等于1的正整数；该ACritic神经网络模型的输入信息为路网全局观测信息S_t，t表示当前时刻，该ACritic神经网络模型的输出信息为智能体选择每个相位的累计奖励。

6.根据权利要求5所述的交通信号控制方法，其特征在于，

所述ALight神经网络模型为：

上述模型中，θ_i表示ALight神经网络模型的参数，softmax(·)为激励函数，||L_i||和||p_i||分别表示当前智能体i所位于的交叉口的车道数量和交叉口相位数目；所述ALight神经网络模型的输入信息为交叉口观测信息o_i,t；所述ALight神经网络模型的输出信息为智能体选择每个相位的概率。

7.根据权利要求6所述的交通信号控制方法，其特征在于，

所述预设的深度强化学习算法包括：