CN112289045A

CN112289045A - 交通信号控制方法、装置、电子设备及可读存储介质

Info

Publication number: CN112289045A
Application number: CN202011119057.5A
Authority: CN
Inventors: 王鲁晗; 李牧宇; 胡智群; 王刚; 傅彬
Original assignee: Zhiyou Open Source Communication Research Institute Beijing Co ltd
Current assignee: Zhiyou Open Source Communication Research Institute Beijing Co ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-29
Anticipated expiration: 2040-10-19
Also published as: CN112289045B

Abstract

本公开实施例公开了一种交通信号控制方法、装置、电子设备及可读存储介质，该方法包括获取基于路网中各个路口的拓扑结构形成的邻接矩阵；接收当前所述路网中的多个路口的第一路况信息；基于当前的所述第一路况信息以及所述邻接矩阵，生成所述多个路口的控制动作；将所述控制动作分别发送至设置在对应路口的交通信号控制机，以便所述交通信号控制机根据所述控制动作控制交通信号，从而能够集中式地对所有路口进行状态采集、动作选取、方案分发，可应用于大规模路网交通灯智能协调控制系统，并且，所有路口训练网络的参数共享，即只需要在控制中心训练同一套神经网络，即可有效控制路网中的所有交叉口信号配时，大大降低了资源部署和计算成本。

Description

交通信号控制方法、装置、电子设备及可读存储介质

技术领域

本公开涉及智慧交通技术领域，具体涉及一种交通信号控制方法、装置、电子设备及可读存储介质。

背景技术

车辆交通在人们的日常生活中作用相当巨大，城市道路的交通负担会随着道路上车辆的增加而加重。交叉路口拥堵是城市交通环境中最普遍的瓶颈类型之一，因此交通信号灯控制在城市交通管理中起着至关重要的作用。解决堵塞问题最为根本高效的方式就是依照交叉路口的实时交通情况对信号灯的配时方案进行合理的控制。

基于深度强化学习的交通灯智能调控研究将深度强化学习算法引入到交通灯配时中，在每个路口搭建一个智能体，获取当前路口的车流信息作为状态，通过深度强化学习网络输出动作以控制交通灯的配时方案，再设定排队长度、等待时间等交通性能指标作为奖励以指导智能体的学习。这类研究主要利用深度强化学习可应用于动态化、不确定化场景的特点，无需推导复杂的数学模型。

然而，本发明人发现，现有的基于深度强化学习的交通灯智能调控研究，大多集中于单路口交通性能的提升，如果应用在多路口甚至是大规模路网的场景下，需要在所有路口都部署智能体，每个智能体训练自己的神经网络，这样大大增加了计算成本，而且各个智能体之间的信息交互非常局限，很难达到区域协调控制的目标。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种交通信号控制方法、装置、电子设备及可读存储介质。

第一方面，本公开实施例中提供了一种交通信号控制方法。

具体地，所述交通信号控制方法，包括：

获取基于路网中各个路口的拓扑结构形成的邻接矩阵；

接收当前所述路网中的多个路口的第一路况信息；

基于当前的所述第一路况信息以及所述邻接矩阵，生成所述多个路口的控制动作；

将所述控制动作分别发送至设置在对应路口的交通信号控制机，以便所述交通信号控制机根据所述控制动作控制交通信号。

结合第一方面，本公开在第一方面的第一种实现方式中，所述接收当前所述路网中的多个路口的第一路况信息包括：

接收设置在多个路口的检测器采集的当前的第一路况信息，所述第一路况信息包括各个相位的车辆排队长度，所述相位由进入路口的方向和离开路口的方向确定。

结合第一方面，本公开在第一方面的第二种实现方式中，所述基于所述第一路况信息以及所述邻接矩阵，生成所述多个路口的控制动作，包括：

将各个路口的第一路况信息组成状态矩阵；

将所述状态矩阵、邻接矩阵、路口编号输入至经训练的神经网络模型，得到对应于各个路口编号的控制动作。

结合第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，所述神经网络模型包括基于图注意力机制的第一部分和基于深度强化学习的第二部分，所述将所述状态矩阵、邻接矩阵、路口编号输入至经训练的神经网络模型，得到对应于各个路口编号的控制动作包括：

基于所述状态矩阵和所述邻接矩阵，通过所述第一部分，得到对相邻路口的状态信息进行融合后各个路口的融合状态；

分别基于各个路口的融合状态，通过所述第二部分，得到对应于各个路口编号的控制动作。

结合第一方面的第二种或第三种实现方式，本公开在第一方面的第四种实现方式中，还包括：

接收执行所述控制动作预定时间之后的第二路况信息并基于所述第二路况信息确定奖励值；

基于所述第二路况信息以及奖励值更新所述神经网络模型的参数。

结合第一方面的第四种实现方式，本公开在第一方面的第五种实现方式中，所述奖励值基于多个路口的排队长度和等待时间确定。

结合第一方面的第四种实现方式，本公开在第一方面的第六种实现方式中，在所述接收执行所述控制动作预定时间之后的第二路况信息并基于所述第二路况信息确定奖励值之后，所述方法还包括：

将当前阶段的所述状态矩阵、控制动作、奖励值、路口编号以及基于所述第二路况信息确定的下一阶段的状态矩阵组成结构化的转移数据，

所述基于所述第二路况信息以及奖励值更新所述神经网络模型的参数包括：

随机选取所述转移数据用于更新所述神经网络模型的参数。

第二方面，本公开实施例中提供了一种交通信号控制方法。

具体地，所述交通信号控制方法，包括：

获取当前路口的第一路况信息；

将所述第一路况信息和预定编号发送到服务端；

接收来自服务端的控制动作；

基于所述控制动作控制所述当前路口的交通信号。

第三方面，本公开实施例中提供了一种交通信号控制装置。

具体地，所述交通信号控制装置，包括：

第一获取模块，被配置为获取基于路网中各个路口的拓扑结构形成的邻接矩阵；

第一接收模块，被配置为接收当前所述路网中的多个路口的第一路况信息；

生成模块，被配置为基于当前的所述第一路况信息以及所述邻接矩阵，生成所述多个路口的控制动作；

第一发送模块，被配置为将所述控制动作分别发送至设置在对应路口的交通信号控制机，以便所述交通信号控制机根据所述控制动作控制交通信号。

第四方面，本公开实施例中提供了一种交通信号控制装置。

具体地，所述交通信号控制装置，包括：

第二获取模块，被配置为获取当前路口的第一路况信息；

第二发送模块，被配置为将所述第一路况信息和预定编号发送到服务端；

第二接收模块，被配置为接收来自服务端的控制动作；

控制模块，被配置为基于所述控制动作控制所述当前路口的交通信号。

第五方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种至第六种实现方式、第二方面中任一项所述的方法。

第六方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面、第一方面的第一种至第六种实现方式、第二方面中任一项所述的方法。

根据本公开实施例提供的技术方案，通过获取基于路网中各个路口的拓扑结构形成的邻接矩阵；接收当前所述路网中的多个路口的第一路况信息；基于当前的所述第一路况信息以及所述邻接矩阵，生成所述多个路口的控制动作；将所述控制动作分别发送至设置在对应路口的交通信号控制机，以便所述交通信号控制机根据所述控制动作控制交通信号，从而能够集中式地对所有路口进行状态采集、动作选取、方案分发，可应用于大规模路网交通灯智能协调控制系统，并且，所有路口训练网络的参数共享，即只需要在控制中心训练同一套神经网络，即可有效控制路网中的所有交叉口信号配时，大大降低了资源部署和计算成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1A～图1C示出根据本公开实施例的应用场景的示意图；

图2示出根据本公开实施例的交通信号控制方法的流程图；

图3示出根据本公开实施例的确定控制动作的流程图；

图4示出根据本公开另一实施例的交通信号控制方法的流程图；

图5示出根据本公开实施例的交通信号控制装置的框图；

图6示出根据本公开另一实施例的交通信号控制装置的框图；

图7示出根据本公开实施例的电子设备的框图；

图8示出适于实现本公开实施例的交通信号控制的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

本发明人发现，由于城市道路中的车流运行在时间和空间上具有很强的关联性，在做交通信号控制时，应当具备区域观测和协调规划的能力，而不仅仅针对于单个交叉路口进行信号控制。根据路网中各个交叉口的拓扑关系以及车流的运行路径，对相应路口的交通信息进行融合，充分考虑其关联性，有利于达到统筹规划和协调控制的目标。

现有的基于深度强化学习的交通灯智能调控研究，大多集中于单路口交通性能的提升，如果应用在多路口甚至是大规模路网的场景下，需要在所有路口都部署智能体，每个智能体训练自己的神经网络，这样大大增加了计算成本，而且各个智能体之间的信息交互非常局限，很难达到区域协调控制的目标。

图1A～图1C示出根据本公开实施例的应用场景的示意图。

如图1A所示，路网结构通常包括多条道路以及多条道路的交汇形成的多个路口。在路网的各个路口(例如路口1,2,3,…,n)设置有交通信号控制机，用于控制交通信号。各个路口还可以设置采集器，用于采集路口的路况信息。交通信号控制机和采集器中均可以集成有通信单元，通过以太网或GPRS网络等与控制中心的服务器进行交互。

图1B示出了一种示例性的路口的示意图，定义进入路口方向的车道为入车道，离开路口方向的车道为出车道，该路口包括12条入车道和12条出车道，每个方向上各有三条入车道和三条出车道。其中，三条入车道分别为左转道、直行道和右转道。因此共有12种相位：E-W(直行),E-S(左转),E-N(右转),W-E(直行),W-S(右转),W-N(左转),S-E(右转),S-W(左转),S-N(直行),N-E(左转),N-W(右转),N-S(直行)。根据相位冲突及右转车流不受信号限制原则，可将信号周期分为4种有效控制阶段：南北直行，南北左转，东西直行，东西左转。图1C示出一种示例性的路网结构，包括四条横向道路和两条纵向道路以及形成的八个十字路口，各个路口例如可以具有如图1B所示的车道设置。

应当注意的是，以上图1A～图1C仅为示例性的路网结构，本公开实施例的交通信号控制方法和装置的应用不仅限于此种结构，例如可以具有更多或更少的路口数量，或者可以存在丁字路口等其他形式的路口，各个路口也可以与图1B不同的车道设置。

在本文中的一些实施例的十字路口的道路指向东南西北四个方向，实际应用中可以具有不同的方向。本公开实施例以相位为基础进行数据的采集和运算，在面对不同方向或不同形式的路口时，只需对相位进行重新定义即可，因而具有较好的适应性。

图2示出根据本公开实施例的交通信号控制方法的流程图。

如图2所示，该方法包括操作S210～S240。

在操作S210，获取基于路网中各个路口的拓扑结构形成的邻接矩阵；

在操作S220，接收当前所述路网中的多个路口的第一路况信息；

在操作S230，基于当前的所述第一路况信息以及所述邻接矩阵，生成所述多个路口的控制动作；

在操作S240，将所述控制动作分别发送至设置在对应路口的交通信号控制机，以便所述交通信号控制机根据所述控制动作控制交通信号。

本公开实施例提供的方法适用于多路口甚至大规模路网环境下的交通信号灯智能调控，通过在各个交叉路口部署检测器，并将所有检测器感知到的环境信息以及路网中交叉路口的拓扑关系上传到中央智能体，由中央智能体对相应路口的交通状态信息进行融和，并基于此生成各个路口的配时动作，再将方案下发到各个路口进行信号调控，实现对区域路网中多路口的实时信号控制，从而进一步提高路网的健康指数。

根据本公开实施例，包括上述操作S210～S240的方法例如可以由设置在控制中心的服务器执行。

根据本公开实施例，在操作S210，可以根据路网中各个交叉路口的拓扑结构，形成邻接矩阵A，A∈R^8*8。以如图1C所示的4×2的矩形路网为例，共由八个十字交叉路口构成。在该路网中，邻接矩阵例如可以表示为如下形式：邻接矩阵A＝[[1,1,1,0,0,0,0,0],[1,1,0,1,0,0,0,0],[1,0,1,1,1,0,0,0],[0,1,1,1,0,1,0,0],[0,0,1,0,1,1,1,0],[0,0,0,1,1,1,0,1],[0,0,0,0,1,0,1,1],[0,0,0,0,0,1,1,1]]，其中，每一行表示一个路口与其他路口之间的连通关系，例如，第四行[0,1,1,1,0,1,0,0]表示路口4与路口2、3、6连通，与路口1、5、7、8不连通，其中，自身的位置(即表示路口4的第四位)可默认置为1。由此可见，该邻接矩阵的表示方法可以适用于各种结构的路网。

根据本公开实施例，在操作S220，接收当前所述路网中的多个路口的第一路况信息。例如，设置在各个路口的检测器可以采集相应路口的第一路况信息，该些检测器通过通信单元将采集到的第一路况信息发送到服务器，服务器可以接收该些第一路况信息。在上传第一路况信息时，可以通过交通信号控制机，也可以不通过交通信号控制机，本公开实施例对此不做限定。该第一路况信息例如可以包括各个车道的车辆数量，或者，可以根据车道的属性，对各个车道的车辆数量进行处理，得到各个相位的车辆排队长度。

根据本公开实施例，所述接收当前所述路网中的多个路口的第一路况信息包括：

例如，在南向北方向有四条车道，分别为左转、直行、直行、右转的情况下，取两条直行车道上的车辆排队长度的平均值作为S-N相位的车辆排队长度，将左转车道和右转车道的车辆排队长度分别作为S-W相位和S-E相位的车辆排队长度。又如，在南向北方向有两条车道，一条为左转，一条为直行兼右转，可将S-E相位的车辆排队长度置为0，将左转车道和直行兼右转车道上的车辆排队长度分别作为S-W相位和S-N相位的车辆排队长度。此处并未穷举所有的情况，具体的规则可以根据实际需要进行定义。

根据本公开实施例，各个路口通过检测器获取其12个相位的排队长度，作为状态向量，

n表示路口序号，在图1C所示的八路口路网中，n＝1,2,3…8。检测器可以将状态向量传入其交通信号控制机，由交通信号控制机汇总后发送到服务器，或者，也可以直接发送到服务器进行处理。

根据本公开实施例提供的技术方案，通过接收设置在多个路口的检测器采集的当前的第一路况信息，所述第一路况信息包括各个相位的车辆排队长度，所述相位由进入路口的方向和离开路口的方向确定，从而能够及时采集各个相位的实际情况，便于产生更为有效的控制动作。

根据本公开实施例，在操作S230，所述基于所述第一路况信息以及所述邻接矩阵，生成所述多个路口的控制动作，包括：

将各个路口的第一路况信息组成状态矩阵；

根据本公开实施例，服务器可以将所有状态向量按序号组成状态矩阵

根据本公开实施例，该神经网络模型例如可以是基于深度强化学习的预测模型。强化学习是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。在本公开实施例中，控制中心的服务器运行的预测模型可抽象成一个中央智能体，每个路口的状态信息即该中央智能体面临的环境的状态信息。在本公开实施例中，通过将状态矩阵H、邻接矩阵A和路口编号n输入至经训练的神经网络模型中，可以得到对应于各个路口编号的控制动作a_n，该动作的不同取值例如可以分别表示南北直行，南北左转，东西直行，东西左转4种不同的控制动作，例如可以以0,1,2,3分别表示四种控制动作。

根据本公开实施例提供的技术方案，通过将各个路口的第一路况信息组成状态矩阵；将所述状态矩阵、邻接矩阵、路口编号输入至经训练的神经网络模型，得到对应于各个路口编号的控制动作，从而无需推导复杂的数学模型，适于动态化、不确定的场景。

根据本公开实施例，所述神经网络模型包括基于图注意力机制(GAT)的第一部分和基于深度强化学习(DQN)的第二部分，所述将所述状态矩阵、邻接矩阵、路口编号输入至经训练的神经网络模型，得到对应于各个路口编号的控制动作包括：

其中，基于图注意力机制的网络利用注意力机制对邻近节点特征加权求和，能够很好地学习到全局几何特征。邻近节点特征的权重完全取决于节点特征，独立于图结构，具有较好的泛化能力。深度强化学习(DQN)是在Q-Learning的基础上演变而来的，使用Q函数而不是Q表用于确定奖励，提高了泛化能力。

图3示出根据本公开实施例的确定控制动作的流程图。

如图3所示，基于图注意力机制的第一部分用于处理状态矩阵H和邻接矩阵A，得到对相邻路口的状态信息进行融合后的状态

通过路口编号n从S’中选择出

并由基于深度强化学习的第二部分处理，以得到控制动作a_n。其中，第一部分与第二部分参数共享。

根据本公开实施例提供的技术方案，通过基于所述状态矩阵和所述邻接矩阵，通过所述基于图注意力机制的第一部分，得到对相邻路口的状态信息进行融合后各个路口的融合状态；分别基于各个路口的融合状态，通过所述基于深度强化学习的第二部分，得到对应于各个路口编号的控制动作，从而将相邻路口的交通信息进行融合，达到统筹规划和协调控制的目标，提高了训练效率，降低了计算成本。

根据本公开实施例，该方法还可以包括：

根据本公开实施例，在预定时间T之后，设置在各路口的检测器可以采集该时刻的第二路况信息

并上传到服务器。服务器可以基于所述第二路况信息

计算得到奖励值。其中，该奖励值为综合多个路口的第二路况信息

的全局奖励。

根据本公开实施例，所述奖励值基于多个路口的排队长度和等待时间确定。例如，可以定义奖励值r＝w₁×L+w₂×T，其中，L为全局的车辆排队长度，T为全局等待时间，w₁、w₂为负值，其大小根据L和T的量级设置，尽可能使等式右边的两项处于同一数量级。

根据本公开实施例提供的技术方案，通过基于多个路口的排队长度和等待时间确定奖励值，可以最小化排队长度和等待时间为目标，持续改善配时策略。

根据本公开实施例提供的技术方案，通过接收执行所述控制动作预定时间之后的第二路况信息并基于所述第二路况信息确定奖励值；基于所述第二路况信息以及奖励值更新所述神经网络模型的参数，可以基于奖励值持续改善配时策略。

根据本公开实施例，在所述接收执行所述控制动作预定时间之后的第二路况信息并基于所述第二路况信息确定奖励值之后，所述方法还包括：

随机选取所述转移数据用于更新所述神经网络模型的参数。

根据本公开实施例，可以将下一阶段，即T时间之后的状态向量组成下一阶段的状态矩阵

将先前的状态矩阵H、控制动作a_n、奖励值r、路口编号n以及下一阶段的状态矩阵H^T组成一条转移数据[H,a_n,r,n,H^T]存储至记忆库中。同一时间阶段每个路口对应一条转移数据，不同路口的H、r和H^T相同，可以一次生成n条转移数据。中央智能体从记忆库中随机选取一定数量的转移数据作为样本用于神经网络的参数更新，并继续基于状态矩阵H^T、邻接矩阵A以及路口编号n生成下一阶段的动作a_n ^T。

根据本公开实施例提供的技术方案，通过将当前阶段的所述状态矩阵、控制动作、奖励值、路口编号以及基于所述第二路况信息确定的下一阶段的状态矩阵组成结构化的转移数据，随机选取所述转移数据用于更新所述神经网络模型的参数，可以持续对神经网络模型进行训练。

根据本公开实施例，在操作S240，将控制动作a₁,a₂,a₃,…,a_n分别发送至设置在对应路口的交通信号控制机，以便所述交通信号控制机根据所述控制动作控制交通信号。

图4示出根据本公开另一实施例的交通信号控制方法的流程图。

如图4所示，该方法包括操作S410～S440。

在操作S410，获取当前路口的第一路况信息；

在操作S420，将所述第一路况信息和预定编号发送到服务端；

在操作S430，接收来自服务端的控制动作；

在操作S440，基于所述控制动作控制所述当前路口的交通信号。

根据本公开实施例提供的技术方案，通过获取当前路口的第一路况信息；将所述第一路况信息和预定编号发送到服务端；接收来自服务端的控制动作；基于所述控制动作控制所述当前路口的交通信号，以便服务端集中式地对所有路口进行状态采集、动作选取、方案分发，可应用于大规模路网交通灯智能协调控制系统，并且，所有路口训练网络的参数共享，即只需要在控制中心训练同一套神经网络，即可有效控制路网中的所有交叉口信号配时，大大降低了资源部署和计算成本。

该神经网络的架构不仅大大提高了训练效率，降低了计算成本，而且可以将相邻路口的交通信息进行融合，达到统筹规划和协调控制的目标。将状态矩阵H，邻接矩阵A输入神经网络中的GAT层，由GAT根据路网的拓扑结构对相应交叉路口的交通信息进行有效融合，得到融合后的状态矩阵S′。此时需要控制哪个路口，就输入其路口序号n作为指针，抽取状态矩阵S′中对应行向量

该向量即路口n融合了其相邻路口的交通信息后得到的状态向量，再以此向量作为新的状态向量输入到DQN网络中，经过DQN网络输出对应路口n的动作a_n。在多路口甚至大规模路网交通灯智能控制场景下，本公开实施例的方法仅需要搭建一个中央智能体即可有效协调控制所有的交叉路口，大大降低了资源部署和计算成本。各个路口只需上传各自的状态信息及其路口编号，通过同一个神经网络，即可获取各自的通行动作。另外本公开实施例的特定神经网络结构可根据路网拓扑关系将关联的路口交通信息进行融合，达到统筹规划和协调控制的目标。

图5示出根据本公开实施例的交通信号控制装置500的框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图5所示，所述交通信号控制装置500包括第一获取模块510、第一接收模块520、生成模块530和第一发送模块540。

第一获取模块510，被配置为获取基于路网中各个路口的拓扑结构形成的邻接矩阵；

第一接收模块520，被配置为接收当前所述路网中的多个路口的第一路况信息；

生成模块530，被配置为基于当前的所述第一路况信息以及所述邻接矩阵，生成所述多个路口的控制动作；

第一发送模块540，被配置为将所述控制动作分别发送至设置在对应路口的交通信号控制机，以便所述交通信号控制机根据所述控制动作控制交通信号。

根据本公开实施例提供的技术方案，通过第一获取模块510，被配置为获取基于路网中各个路口的拓扑结构形成的邻接矩阵；第一接收模块520，被配置为接收当前所述路网中的多个路口的第一路况信息；生成模块530，被配置为基于当前的所述第一路况信息以及所述邻接矩阵，生成所述多个路口的控制动作；第一发送模块540，被配置为将所述控制动作分别发送至设置在对应路口的交通信号控制机，以便所述交通信号控制机根据所述控制动作控制交通信号，从而能够集中式地对所有路口进行状态采集、动作选取、方案分发，可应用于大规模路网交通灯智能协调控制系统，并且，所有路口训练网络的参数共享，即只需要在控制中心训练同一套神经网络，即可有效控制路网中的所有交叉口信号配时，大大降低了资源部署和计算成本。

根据本公开实施例，所述第一接收模块520被配置为接收设置在多个路口的检测器采集的当前的第一路况信息，所述第一路况信息包括各个相位的车辆排队长度，所述相位由进入路口的方向和离开路口的方向确定。

根据本公开实施例，所述生成模块530被配置为将各个路口的第一路况信息组成状态矩阵，以及将所述状态矩阵、邻接矩阵、路口编号输入至经训练的神经网络模型，得到对应于各个路口编号的控制动作。

根据本公开实施例，所述神经网络模型包括基于图注意力机制的第一部分和基于深度强化学习的第二部分，所述将所述状态矩阵、邻接矩阵、路口编号输入至经训练的神经网络模型，得到对应于各个路口编号的控制动作包括：

根据本公开实施例，该装置还可以包括接收子模块和更新子模块。

接收子模块，被配置为接收执行所述控制动作预定时间之后的第二路况信息并基于所述第二路况信息确定奖励值；

更新子模块，被配置为基于所述第二路况信息以及奖励值更新所述神经网络模型的参数。

根据本公开实施例提供的技术方案，通过接收子模块，被配置为接收执行所述控制动作预定时间之后的第二路况信息并基于所述第二路况信息确定奖励值；更新子模块，被配置为基于所述第二路况信息以及奖励值更新所述神经网络模型的参数，可以基于奖励值持续改善配时策略。

根据本公开实施例，所述奖励值基于多个路口的排队长度和等待时间确定。

根据本公开实施例，该装置还可以包括确定子模块，被配置为将当前阶段的所述状态矩阵、控制动作、奖励值、路口编号以及基于所述第二路况信息确定的下一阶段的状态矩阵组成结构化的转移数据；该更新子模块被配置为随机选取所述转移数据用于更新所述神经网络模型的参数。

根据本公开实施例提供的技术方案，通过确定子模块，被配置为将当前阶段的所述状态矩阵、控制动作、奖励值、路口编号以及基于所述第二路况信息确定的下一阶段的状态矩阵组成结构化的转移数据，随机选取所述转移数据用于更新所述神经网络模型的参数，可以持续对神经网络模型进行训练。

图6示出根据本公开另一实施例的交通信号控制装置600的框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图6所示，所述交通信号控制装置600包括第二获取模块610、第二发送模块620、第二接收模块630和控制模块640。

第二获取模块610，被配置为获取当前路口的第一路况信息；

第二发送模块620，被配置为将所述第一路况信息和预定编号发送到服务端；

第二接收模块630，被配置为接收来自服务端的控制动作；

控制模块640，被配置为基于所述控制动作控制所述当前路口的交通信号。

根据本公开实施例提供的技术方案，通过第二获取模块610，被配置为获取当前路口的第一路况信息；第二发送模块620，被配置为将所述第一路况信息和预定编号发送到服务端；第二接收模块630，被配置为接收来自服务端的控制动作；控制模块640，被配置为基于所述控制动作控制所述当前路口的交通信号，以便服务端集中式地对所有路口进行状态采集、动作选取、方案分发，可应用于大规模路网交通灯智能协调控制系统，并且，所有路口训练网络的参数共享，即只需要在控制中心训练同一套神经网络，即可有效控制路网中的所有交叉口信号配时，大大降低了资源部署和计算成本。

本公开还公开了一种电子设备，图7示出根据本公开实施例的电子设备的框图。

如图7所示，所述电子设备700包括存储器701和处理器702，其中，存储器701用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器702执行以实现如下操作：

获取基于路网中各个路口的拓扑结构形成的邻接矩阵；

接收当前所述路网中的多个路口的第一路况信息；

根据本公开实施例，所述基于所述第一路况信息以及所述邻接矩阵，生成所述多个路口的控制动作，包括：

将各个路口的第一路况信息组成状态矩阵；

根据本公开实施例，计算机指令被所述处理器702执行还用于执行：

随机选取所述转移数据用于更新所述神经网络模型的参数。

根据本公开实施例，电子设备700的存储器701用于存储一条或多条计算机指令，该指令被所述处理器702执行以实现如下操作：

获取当前路口的第一路况信息；

将所述第一路况信息和预定编号发送到服务端；

接收来自服务端的控制动作；

基于所述控制动作控制所述当前路口的交通信号。

如图8所示，计算机系统800包括处理单元801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行上述实施例中的各种处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。处理单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。其中，所述处理单元801可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种交通信号控制方法，包括：

获取基于路网中各个路口的拓扑结构形成的邻接矩阵；

接收当前所述路网中的多个路口的第一路况信息；

2.根据权利要求1所述的方法，其中，所述接收当前所述路网中的多个路口的第一路况信息包括：

3.根据权利要求1所述的方法，其中，所述基于所述第一路况信息以及所述邻接矩阵，生成所述多个路口的控制动作，包括：

将各个路口的第一路况信息组成状态矩阵；

4.根据权利要求3所述的方法，其中，所述神经网络模型包括基于图注意力机制的第一部分和基于深度强化学习的第二部分，所述将所述状态矩阵、邻接矩阵、路口编号输入至经训练的神经网络模型，得到对应于各个路口编号的控制动作包括：

5.根据权利要求3或4所述的方法，还包括：

6.根据权利要求5所述的方法，其中，所述奖励值基于多个路口的排队长度和等待时间确定。

7.根据权利要求5所述的方法，其中，在所述接收执行所述控制动作预定时间之后的第二路况信息并基于所述第二路况信息确定奖励值之后，所述方法还包括：

随机选取所述转移数据用于更新所述神经网络模型的参数。

8.一种交通信号控制方法，包括：

获取当前路口的第一路况信息；

将所述第一路况信息和预定编号发送到服务端；

接收来自服务端的控制动作；

基于所述控制动作控制所述当前路口的交通信号。

9.一种交通信号控制装置，包括：

10.一种交通信号控制装置，包括：

第二获取模块，被配置为获取当前路口的第一路况信息；

第二接收模块，被配置为接收来自服务端的控制动作；

11.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1～8任一项所述的方法步骤。

12.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1～8任一项所述的方法步骤。