CN114399909B

CN114399909B - 交通信号灯控制方法及相关设备

Info

Publication number: CN114399909B
Application number: CN202111674229.XA
Authority: CN
Inventors: 蚁韩羚; 李圆法; 余晓填; 王孝宇; 陈宁
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-05-12
Anticipated expiration: 2041-12-31
Also published as: CN114399909A; WO2023123906A1

Abstract

本发明实施例提供一种交通信号灯控制方法，包括：获取当前路口以及邻接路口在第一预设时间段内的状态信息，以及获取当前路口与邻接路口的图结构，状态信息包括各个车道中车辆的停留位置以及停留时长，图结构包括当前路口与邻接路口的连接关系；将状态信息和图结构输入到预训练的智能体中，预测当前路口在预设时刻的信号灯动作，智能体通过强化学习的训练得到；根据当前路口在预设时刻的信号灯动作，控制当前路口的信号灯在预设时刻执行信号灯动作。通过智能体能从时空的维度准确预测当前路口在预设时刻的信号灯动作，在控制路口信号灯在预设时刻执行该信号灯动作，避免车辆拥堵或通行时间窗口闲置，从而提高整体路网的通行效率。

Description

交通信号灯控制方法及相关设备

技术领域

本发明涉及交通信号灯控制领域，尤其涉及一种交通信号灯控制方法及相关设备。

背景技术

交通信号灯控制是智慧城市建设中必不可少的一环，有效控制好交通信号灯，对于缓解城市交通拥堵具有重大意义。目前，交通信号灯普遍使用单点定时控制的控制方式，即在固定时段内按照预设相位的顺序和时长对各向车流依次放行，这样会导致车辆多的车道无法在固定时段内全部通行，在固定时段未通行的车辆需要等到下一个周期的相位才有可能继续通行，车辆少的车道存在冗余的通行时间，导致通行时间窗口闲置(无车辆通行)。因此，现有的交通信号灯控制方式存在通行效率低的问题。

发明内容

本发明实施例提供一种交通信号灯控制方法，通过将当前路口以及邻接路口在第一预设时间段内的状态信息，以及当前路口与邻接路口的图结构作为智能体的输入，通过智能体输出信号灯动作，由于状态信息中包括时序信息以及车道中车辆的停留位置以及停留时长，考虑到车道的拥堵情况，而图结构中包括各个路口的空间依赖，考虑到各个路口的空间分布情况，使得智能体能从时空的维度准确预测当前路口在预设时刻的信号灯动作，在控制路口信号灯在预设时刻执行该信号灯动作，避免车辆拥堵或通行时间窗口闲置，从而提高整个路网车辆的通行效率。

第一方面，本发明实施例提供一种交通信号灯控制方法，所述交通信号灯控制方法包括：

获取当前路口以及邻接路口在第一预设时间段内的状态信息，以及获取所述当前路口与所述邻接路口的图结构，所述状态信息包括各个车道中车辆的停留位置以及停留时长，所述图结构包括所述当前路口与所述邻接路口的连接关系；

将所述状态信息和所述图结构输入到预训练的智能体中，预测所述当前路口在预设时刻的信号灯动作，所述智能体通过强化学习的训练得到；

根据所述当前路口在预设时刻的信号灯动作，控制所述当前路口的信号灯在所述预设时刻执行所述信号灯动作。

可选的，所述获取当前路口以及邻接路口在第一预设时间段内的状态信息，包括：

在当前时刻，获取所述当前路口各个车道的图像信息，根据所述各个车道的图像信息提取所述各个车道中车辆的停留位置以及停留时长；

根据所述各个车道中车辆的停留位置以及停留时长，计算所述各个车道对应的车道队列长度；

根据信号灯动作信息以及所述各个车道对应的车道队列长度，计算所述当前路口在当前时刻的状态信息；

获取第一预设时间段内每个时刻对应的状态信息，所述第一预设时间段包括当前时刻。

可选的，所述根据信号灯动作信息以及所述各个车道对应的车道队列长度，计算所述当前路口在当前时刻的状态信息，包括：

获取所述当前路口在当前时刻的信号灯动作；

计算所述当前路口在当前时刻的信号灯动作下允许通行的车道所对应的车道队列长度之和；

根据所述当前路口在当前时刻的信号灯动作以及所述允许通行的车道所对应的车道队列长度之和，得到所述当前路口在所述当前时刻的状态信息。

可选的，在所述将所述状态信息和所述图结构输入到预训练的智能体中，预测所述当前路口在预设时刻的信号灯动作之前，所述方法还包括：

构建智能体，所述智能体被构建为根据状态信息输出信号灯动作；

以当前路口在第二预设时间段内的通行量为奖励，对所述智能体进行强化学习的训练，训练完成后得到训练好的智能体作为预设的智能体。

可选的，所述构建智能体，包括：

基于时空图卷积网络和第一输出网络构建信号灯动作网络，所述信号灯动作网络通过所述第一输出网络输出信号灯动作；

基于时空图卷积网络和第二输出网络构建评价网络，所述评价网络通过所述第二输出网络输出状态价值，所述状态价值用于评价所述信号灯动作网络的表现，所述评价网络与所述信号灯动作网络共享一个时空图卷积网络的参数；

根据所述信号灯动作网络和所述评价网络，构建得到智能体。

可选的，所述以当前路口在第二预设时间段内的通行量为奖励，对所述智能体进行强化学习的训练，训练完成后得到训练好的智能体作为预设的智能体，包括：

根据预设数量的仿真路口、仿真道路、仿真路口之间的联通关系、每条仿真道路的最高限速以及仿真道路长度构建路网仿真环境，每个仿真路口设置一个构建好的智能体，所述路网仿真环境随机在各个仿真车道生成仿真车流；

每隔预设时间，将所有仿真路口在所述第一预设时间段内的状态信息以及路网仿真环境对应的图结构作为所述构建好的智能体的输入，通过所述构建好的智能体输出信号灯动作；

在执行信号灯动作后，将各个仿真路口在第二预设时间段内的通行量作为奖励，对所述构建好的智能体进行强化学习的训练；

训练完成后，将所述训练好的智能中的信号灯动作网络作为预设的智能体。

可选的，在所述将所述状态信息和所述图结构输入到预训练的智能体中，预测所述当前路口在预设时刻的信号灯动作之后，所述方法还包括：

根据预设的后处理规则，对所述当前路口在预设时刻的信号灯动作进行后处理，得到经过后处理的当前路口在预设时刻的信号灯动作；

根据所述经过后处理的当前路口在预设时刻的信号灯动作，控制所述当前路口在所述预设时刻执行所述信号灯动作。

第二方面，本发明实施例提供一种交通信号灯控制装置，所述装置包括：

获取模块，用于获取当前路口以及邻接路口在第一预设时间段内的状态信息，以及获取所述当前路口与所述邻接路口的图结构，所述状态信息包括各个车道中车辆的停留位置以及停留时长，所述图结构包括所述当前路口与所述邻接路口的连接关系；

预测模块，用于将所述状态信息和所述图结构输入到预训练的智能体中，预测所述当前路口在预设时刻的信号灯动作，所述智能体通过强化学习的训练得到；

第一控制模块，用于根据所述当前路口在预设时刻的信号灯动作，控制所述当前路口的信号灯在所述预设时刻执行所述信号灯动作。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例提供的交通信号灯控制方法中的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现发明实施例提供的交通信号灯控制方法中的步骤。

本发明实施例中，获取当前路口以及邻接路口在第一预设时间段内的状态信息，以及获取所述当前路口与所述邻接路口的图结构，所述状态信息包括各个车道中车辆的停留位置以及停留时长，所述图结构包括所述当前路口与所述邻接路口的连接关系；将所述状态信息和所述图结构输入到预训练的智能体中，预测所述当前路口在预设时刻的信号灯动作，所述智能体通过强化学习的训练得到；根据所述当前路口在预设时刻的信号灯动作，控制所述当前路口的信号灯在所述预设时刻执行所述信号灯动作。通过将当前路口以及邻接路口在第一预设时间段内的状态信息，以及当前路口与邻接路口的图结构作为智能体的输入，通过智能体输出信号灯动作，由于状态信息中包括时序信息以及车道中车辆的停留位置以及停留时长，考虑到车道最近一段时间的拥堵情况，而图结构中包括各个路口的空间依赖，考虑到各个路口的空间分布情况，使得智能体能从时空的维度准确预测当前路口在预设时刻的信号灯动作，在控制路口信号灯在预设时刻执行该信号灯动作，避免车辆拥堵或通行时间窗口闲置，从而提高整体路网的通行效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种交通信号灯控制方法的流程示意图；

图2是本发明实施例提供的一种路口信号灯相位的示意图；

图3是本发明实施例提供的一种智能体的网络架构图；

图4是本发明实施例提供的一种交通信号灯控制装置的结构示意图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种交通信号灯控制方法的流程图，如图1所示，该交通信号灯控制方法包括：

101、获取当前路口以及邻接路口在第一预设时间段内的状态信息，以及获取当前路口与邻接路口的图结构。

在本发明实施例中，上述状态信息包括当前路口的状态信息以及邻接路口的状态信息，进一步的，上述当前路口的状态信息包括当前路口中各个车道中车辆的停留位置以及停留时长，上述邻接路口的状态信息包括邻接路口中各个车道的停留位置以及停留时长。

上述图结构包括上述当前路口与上述邻接路口的连接关系，上述当前路口与上述邻接路口的连接关系可以理解为当前路口与哪些路口连接，车辆可以从这些路口行驶到当前路口，也可以从当前路口行驶到这些路口。在图结构中，当前路口与邻接路口作为节点，当前路口与邻接路口的连接关系作为权重边，当前路口与邻接路口的距离越近，则权重边的值越大，当前路口与邻接路口的距离越远，则权重边的值越小。

上述图结构可以是预先构建得到的，根据每个路口与其他路口的连接关系以及距离，构建得到对应的图结构，图结构为路网的固定结构，在路网没有发生变化前，图结构是不会发生变化的。图结构编码了不同交通路口之间的空间依赖关系，在图结构中，每个节点代表一个交通路口，节点之间的边关系可以有多种定义，例如可以定义每个交通路口与其相邻的K＝4个交通路口存在边，同时每个节点还有一条边指向自己，以及每条边具有权重值等。

上述当前路口以及邻接路口在第一预设时间段内的状态信息可以通过设置在当前路口以及邻接路口中的摄像头拍摄到的图像信息得到。摄像头会对自身所处的路口中各个车道进行实时的图像采集，得到路口自身所处的路口中各个车道的图像信息。

具体的，以当前车道为例进行说明，可以在当前时刻，获取当前路口各个车道的图像信息，根据各个车道的图像信息提取各个车道中车辆的停留位置以及停留时长；根据各个车道中车辆的停留位置以及停留时长，计算各个车道对应的车道队列长度；根据信号灯动作信息以及各个车道对应的车道队列长度，计算当前路口在当前时刻的状态信息；获取第一预设时间段内每个时刻对应的状态信息，所述第一预设时间段包括当前时刻。

在摄像头采集到当前时刻的当前路口各个车道的图像信息后，可以对图像信息进行车辆检测，得到各个车道的车辆信息，车辆信息包括车辆的停留位置以及停留时长。

具体地，上述车辆的停留位置可以是车辆停留在哪条车道的预设区域，比如，对于当前路口，可以记录每条车道上距离当前路口50米内的车辆。上述车辆的停留时间可以是这些车辆在对应车道上面的停留时长，停留时长可以从车辆进入车道的预设区域开始计算，比如车辆进入距离当前路口50米内开始计算。

根据各个车道中车辆的停留位置以及停留时长，计算各个车道对应的车道队列长度。以车道l为例进行说明，根据车道l中车辆的停留位置以及停留时长，根据车道l的车辆集合V_l，车辆集合V_l中的每辆车都是在车道l中的预设区域内的车辆，则车道l对应的车道队列长度可以如下述式子所示：

其中，V_l是车道l上面距离路口预设区域内的车辆的集合，t_v是车辆v在车道l上面的停留时长，

和w是超参数。可以看出，本发明实施例中的车道队列长度中考虑了车辆在车道上的停留时长，一般来说，如果一个车道上存在很多辆车的停留时长很长(即t_v很大)，那么相应的车道队列长度也会很长。

需要说明的是，上述针对车道l的车道队列长度计算也可以用于当前路口的其他车道的车道队列长度计算，以及其他路口的车道的车道队列长度计算。

在本发明实施例中，信号灯动作信息可以是根据信号灯相位来确定的，信号灯的相位可以参考图2，图2是本发明实施例提供的一种路口信号灯相位的示意图，在图2中，交通路口为四叉路口，包括1－24号总共24条车道，基于现行的右转不等待信号灯指示，前行与左转需等待信号灯指标，同一个分叉路口左转与前行同时进行，对向路口无交叉交通路口通行规则，则一个四叉路口存在1－8号总共8个信号灯相位，在图2中，以四叉路口包括东、南、西、北四个分叉路口，每个路口包括左转车道、前行车道、右转车道、3个来驶车道为例，分叉路口北则包括左转车道1、前行车道2、右转车道3、来驶车道13、来驶车道14、来驶车道15；分叉路口东则包括左转车道4、前行车道5、右转车道6、来驶车道16、来驶车道17、来驶车道18；分叉路口南则包括左转车道7、前行车道8、右转车道9、来驶车道19、来驶车道20、来驶车道21；分叉路口西则包括左转车道10、前行车道11、右转车道12、来驶车道22、来驶车道23、来驶车道24；1号相位对应左转车道1和左转车道7的放行动作，2号相位对应前行车道2和前行车道8的放行动作，3号相位对应左转车道4和左转车道10的放行动作，4号相位对应前行车道5和前行车道11的放行动作，5号相位对应前行车道2和左转车道1的放行动作，6号相位对前行车道5和左转车道4的放行动作，7号相位对应前行车道8和左转车道7的放行动作，8号相位对应前行车道11和左转车道10的放行动作，8个相位，分别对应信号灯的8个放行动作。

在本发明实施例中，当前路口的状态信息可以理解为当前路口信号灯的状态信息，当前路口的状态信息包括与路口相位总数相等的维数，当前路口为四叉路口时信号灯的相位总数为8，则当前路口的状态信息具有8个维度。

当然，本发明实施例只是以四叉路口进行举例，对于其他叉口数量的交通路口，路口的状态信息包括与路口相位总数相等的维数。

可选的，交通路口也可以是三叉路口，三叉路口信号灯的相位只有3个，在本发明实施例中，可以在四叉路口信号灯的相位基础上，选择对应的3个信号灯相位作为三叉路口信号灯的相位，例如，在图2的基础上，对于没有分叉路口北(没有车道1-3，13-15)的三叉路口，可以有相位1，4，6可以选择，具体的，可以通过下述表1来表示三叉路口信号灯的相位：

表1

进一步的，在本发明实施例中，对于三叉路口的状态信息，可以在不可选择的维度上用－1代替，相当于对不可选择的信号灯的相位进行遮挡，比如，四叉路口的状态信息为(1，2，3，4，5，6，7，8)，则没有分叉路口北的三叉路口的状态信息为(1，－1，－1，4，－1，6，－1，－1)，这样使得路网所有路口的状态信息都是一个8维的向量。通过减少三叉路口的动作空间，可以使得智能体的动作更加高效合理，从而加快智能体的学习速度。

可选的，可以获取当前路口在当前时刻的信号灯动作；计算当前路口在当前时刻的信号灯动作下允许通行的车道所对应的车道队列长度之和；根据当前路口在当前时刻的信号灯动作以及允许通行的车道所对应的车道队列长度之和，得到所述当前路口在所述当前时刻的状态信息。具体的，上述当前路口在所述当前时刻的状态信息包括两部分信息，一部分信息是当前路口在当前时刻的信号灯动作，另一部分信息是允许通行的车道所对应的车道队列长度之和。

信号灯动作与信号灯的相位一一对应，以四叉路口为例，四叉路口信号灯的相位为8个，则信号灯动作也是8个，每个信号灯动作对应一个信号灯的相位。在本发明实施例中，以单个相位作为一个信号灯动作，可以提高相位选择的灵活性。

具体来说，当前路口的状态信息包含两部分，第一部分为当前路口当前时刻的信号灯状态，假设当前时刻的信号灯为2，我们使用独热编码(One-hot Encoding)对其进行编码。第二部分为各相位对应的车道上的车道队列长度之和，以四叉路口为例，结合图2进行说明，1号相位对应左转车道1和左转车道7的放行动作，则是左转车道1的车道队列长度与左转车道7的车道队列长度之和。更具体的，可以用L_i来表示相位i中允许通行的车道的集合，那么状态信息s的第i维可以定义下述式子：

s_i表示当前路中的状态信息中第i维状态。

获取第一预设时间段内每个时刻对应的状态信息，第一预设时间段包括当前时刻。具体的，第一预设时间段是最近的H个时刻，H个时刻包括当前时刻，比如，包括当前时刻在内的最近5个时刻。

当前路口以及邻接路口在第一预设时间段内的状态信息则可以被表达为一个全局状态，该全局状态为一个H*N*F的张量，其中H是超参数，代表了第一预设时间段内H个时刻对应的状态信息，比如取H＝5，即使用最近5个时刻对应的状态信息。N代表路网中交通信号灯的数量，每个路口通过一个信号灯(或者一个信号灯系统)控制各个车道的放行，F代表了状态信息的维度。

102、将状态信息和图结构输入到预训练的智能体中，预测当前路口在预设时刻的信号灯动作。

在本发明实施例中，上述智能体通过强化学习的训练得到，智能体的输入为状态信息H*N*F和图结构G，状态信息H*N*F为当前路口以及邻接路口在第一预设时间段内的状态信息，图结构G为当前路口与邻接路口的图结构。当前路口与邻接路口可以级成一个目标路网，因此，状态信息H*N*F也可以称为目标路网的全局状态，图结构G也可以称为目标路网的图结构。智能体的输出为预设时刻的信号灯动作概率分布，选择概率最大的信号灯动作为预设时刻的信号灯动作。比如，F＝8时，则智能体会得到8个预设时刻的信号灯动作的概率分布，每个预设时刻的信号灯动作都有一个概率，概率最大的一个预设时刻的信号灯动作被作为最终的预设时刻的信号灯动作。上述预设时刻可以是当前时刻的下A个时刻，比如可以是当前时刻的下一时刻。

预设的智能体是通过强化学习的训练得到的，在强化学习中，通过对智能体进行奖励，以使智能体以得到更多的奖励为目标进行学习训练。

可选的，可以构建智能体，智能体被构建为根据状态信息输出信号灯动作；以当前路口在第二预设时间段内的通行量为奖励，对智能体进行强化学习的训练，训练完成后得到训练好的智能体作为预设的智能体。在路网中，每个路口设置一个智能体来预测该路口在预设时刻的信号灯动作。

上述第二预设时间段可以是信号灯动作持续的时间段，在信号灯动作持续的时间段内，对应的车道内的车辆可以通行。当前路口对应的智能体以在第二预设时间段内的通行量为奖励，通行量越高，则奖励越高，正向激励的作用越强。具体的，设V_t为在t时刻当前路口通行的车辆的集合，则当前路口的奖励可以通过下述式子进行表示：

可以看出，当前路口的奖励考虑了车辆的停留时长t_v，这样可以使智能体更加关注拥堵的车道，从而提高路网整体的通行效率。

可选的，基于时空图卷积网络和第一输出网络构建信号灯动作网络，信号灯动作网络通过第一输出网络输出信号灯动作；基于时空图卷积网络和第二输出网络构建评价网络，评价网络通过第二输出网络输出状态价值，状态价值用于评价信号灯动作网络的表现，评价网络与信号灯动作网络共享一个时空图卷积网络的参数；根据信号灯动作网络和评价网络，构建得到智能体。

进一步的，时空图卷积网络可以包括图卷积网络、循环神经网络以及全连接网络，其中，图卷积网络用于提取图结构中当前路口以及邻接路口的空间依赖关系，循环神经网络用于提取当前路口以及邻接路口的状态时序依赖关系，通过全连接网络将空间依赖关系与状态时序依赖关系进行融合，得到当前路口以及邻接路口车流的时空信息。

更进一步的，上述图卷积网络可以是基于GAT层的图卷积网络，上述循环神经网络可以是基于GRU层的循环神经网络。GAT层作为一种图卷积神经网络，能够很好的捕捉相邻路口的空间相关性，使得智能体在做决策时能把相邻路口的状态也考虑进来。GRU层作为一种循环神经网络，能够很好的捕捉路口状态的时间相关性，使得智能体在做决策时能把历史状态考虑进来。通过结合GAT层、GRU层以及多个全连接层，可以得到一个时空图卷积网络，能很好地捕捉路网车流的时空特征。

第一输出网络可以包括线性层、掩码层以及分类层，其中，线性层用于将时空图卷积网络提取到时空特征进行线性变换，分类层用于将线性变换后的特征向量进行分类，分类层可以采用Softmax进行分类，得到各个信号灯动作的概率分布。掩码层用于对信号灯动作的概率分布进行掩码，使得不可选的信号灯动作的概率分布为0，主要针对于三叉路口的智能体。

第二输出网络可以包括线性层，线性层用于将时空图卷积网络提取到时空特征进行线性变换，输出状态价值，状态价值用于评价信号灯动作网络的表现，信号灯动作网络的表现是从状态信息到信号灯动作的概率分布的一过程评价，在训练过程中，信号灯动作网络会根据状态价值进行调整，评价网络也会根据状态价值进行调整，使得信号灯动作网络表现越来越好，评价网络的状态价值也越来高。

需要说明的是，当智能体训练完成后，部署到对应路口时，则不需要将评价网络一块部署，只需要部署信号灯动作网络即可。智能体的训练包括信号灯动作网络和评价网络的训练。需要说明的是，智能体在构建好后包括状态函数、动作函数、奖励函数、信号灯动作网络以及评价网络，训练好的智能体可以只包括信号灯动作网络，其中，状态函数用于描述状态信息，动作函数用于描述信号灯动作、奖励函数用于激励智能体选择通行量更高的信号灯动作。

在一种可能的实施例中，请参见图3，图3是本发明实施例提供的一种智能体的架构图，如图3所示，信号灯动作网络与评价网络可以基于Actor-Critic框架进行构建，此时，智能体中包括Actor网络和Critic网络。Actor网络与Critic网络共享部分网络参数(时空图卷积网络的参数)，上部分为Critic网络，下部分为Actor网络，这两个网络共享了前面四层网络参数(时空图卷积网络的参数)。这样有利于降低模型的学习难度，加快智能体训练的收敛。在训练过程中，智能体的输出分为两部分，一部分是Critic网络的输出，这部分输出是每个智能体的状态价值；另一部分是Actor网络的输出，这部分输出是智能体预测的信号灯动作的概率分布，由于不同智能体(设置在不同路口)可选择的信号灯动作可能不一样(例如三叉路口的智能体只可以选择三个相位)，因此可以在Actor网络的输出层加了Mask(即掩模)的操作，针对三叉路口的智能体的输出动作分布加入掩模使得不可选择的动作概率输出为0。

可选的，在训练过程中，可以根据预设数量的仿真路口、仿真道路、仿真路口之间的联通关系、每条仿真道路的最高限速以及仿真道路长度构建路网仿真环境，每个仿真路口设置一个构建好的智能体，路网仿真环境随机在各个仿真车道生成仿真车流；每隔预设时间，将所有仿真路口在第一预设时间段内的状态信息以及路网仿真环境对应的图结构作为构建好的智能体的输入，通过构建好的智能体输出信号灯动作；在执行信号灯动作后，将各个仿真路口在第二预设时间段内的通行量作为奖励，对构建好的智能体进行强化学习的训练；训练完成后，将训练好的智能中的信号灯动作网络作为预设的智能体。

在训练过程，可以每迭代M次，就对路网仿真环境中的交通流量进行随机生成，以增加智能体对应不同交通环境的适应性，M大于或等于1。同时，也可以每迭代Z次，对路网仿真环境进行随机重构，随机重构路网仿真环境中的仿真路口、仿真道路、仿真路口之间的联通关系、每条仿真道路的最高限速以及仿真道路长度，Z大于或等于1，以进一步增加智能体对应不同交通环境的适应性。

在路网仿真环境中，每隔预设时间计算当前观察到的状态S，将所有仿真路口的状态S和路网仿真环境的图结构G作为对应智能体的输入，输出每个智能体的动作的概率分布，智能体选择概率最大的动作执行，同时会把执行动作之后的奖励r存储下来用以对智能体进行强化学习的训练。

通过在仿真环境中训练完成后，则可以在实际路网中部署使用，具体的，在每个交通路口安装摄像头，通过端侧(即摄像头)运行车辆检测算法的方式，实时获取路口各个车道的车辆信息(如车辆位置，停留时长)。获取车辆信息后，每个智能体计算当前的状态，并与其相邻的智能体交换状态信息，经过智能体内信号灯动作网络的运算后最终输出预设时刻的信号灯动作。需要说明的是，智能体在做决策前，除了要获取当前路口的状态之外，还需要获取邻接路口的状态，这是图卷积神经网络在计算时需要利用到相邻路口的状态信息。这样可以使得多个智能体在做决策时能充分协作，有效考虑相邻路口的状态信息。

103、根据当前路口在预设时刻的信号灯动作，控制当前路口的信号灯在预设时刻执行所述信号灯动作。

可选的，在智能体预测到当前路口在预设时刻的信号灯动作后，可以控制当前路口的信号灯在预设时刻执行所述信号灯动作，使得在预设时刻时，对应车道中的车辆能根据信号灯动作通行。

可选的，可以根据预设的后处理规则，对所述当前路口在预设时刻的信号灯动作进行后处理，得到经过后处理的当前路口在预设时刻的信号灯动作；根据所述经过后处理的当前路口在预设时刻的信号灯动作，控制所述当前路口在所述经过后处理的预设时刻执行所述信号灯动作。

可以理解的是，后处理用于对最终的信号灯动作进行修正，后处理可以由多种规则组成，例如可以通过限定相位(相当于限定信号灯动作)对应车道上车辆的停留时长来对最终相位进行修正(由于定义的信号灯动作是独立的，有可能使得某些相位一直未被选择导致对应车道上的车辆等候时间过长)。

一种后处理规则可以是，如果某一信号灯动作未被选中并且该信号灯动作对应的车道上车辆的停留时长超过预设阈值，则选中该信号灯动作让对应车道的车辆通行。后处理的加入可以使得最终的动作更加合理。

需要说明的是，本发明实施例提供的交通信号灯控制方法可以应用于可以进行交通信号灯控制的智能手机、电脑、服务器等设备。

请参见图4，图4是本发明实施例提供的一种交通信号灯控制装置的结构图，如图4所示，该交通信号灯控制装置包括：

获取模块401，用于获取当前路口以及邻接路口在第一预设时间段内的状态信息，以及获取所述当前路口与所述邻接路口的图结构，所述状态信息包括各个车道中车辆的停留位置以及停留时长，所述图结构包括所述当前路口与所述邻接路口的连接关系；

预测模块402，用于将所述状态信息和所述图结构输入到预训练的智能体中，预测所述当前路口在预设时刻的信号灯动作，所述智能体通过强化学习的训练得到；

第一控制模块403，用于根据所述当前路口在预设时刻的信号灯动作，控制所述当前路口的信号灯在所述预设时刻执行所述信号灯动作。

可选的，所述获取模块401包括：

第一获取子模块，用于在当前时刻，获取所述当前路口各个车道的图像信息，根据所述各个车道的图像信息提取所述各个车道中车辆的停留位置以及停留时长；

第一计算子模块，用于根据所述各个车道中车辆的停留位置以及停留时长，计算所述各个车道对应的车道队列长度；

第二计算子模块，用于根据信号灯动作信息以及所述各个车道对应的车道队列长度，计算所述当前路口在当前时刻的状态信息；

第二获取子模块，用于获取第一预设时间段内每个时刻对应的状态信息，所述第一预设时间段包括当前时刻。

可选的，所述第二计算子模块包括：

获取单元，用于获取所述当前路口在当前时刻的信号灯动作；

计算单元，用于计算所述当前路口在当前时刻的信号灯动作下允许通行的车道所对应的车道队列长度之和；

处理单元，用于根据所述当前路口在当前时刻的信号灯动作以及所述允许通行的车道所对应的车道队列长度之和，得到所述当前路口在所述当前时刻的状态信息。

可选的，所述装置还包括：

构建模块，用于构建智能体，所述智能体被构建为根据状态信息输出信号灯动作；

训练模块，用于以当前路口在第二预设时间段内的通行量为奖励，对所述智能体进行强化学习的训练，训练完成后得到训练好的智能体作为预设的智能体。

可选的，所述构建模块包括：

第一构建子模块，用于基于时空图卷积网络和第一输出网络构建信号灯动作网络，所述信号灯动作网络通过所述第一输出网络输出信号灯动作；

第二构建子模块，用于基于时空图卷积网络和第二输出网络构建评价网络，所述评价网络通过所述第二输出网络输出状态价值，所述状态价值用于评价所述信号灯动作网络的表现，所述评价网络与所述信号灯动作网络共享一个时空图卷积网络的参数；

第三构建子模块，用于根据所述信号灯动作网络和所述评价网络，构建得到智能体。

可选的，所述训练模块包括：

第四构建子模块，用于根据预设数量的仿真路口、仿真道路、仿真路口之间的联通关系、每条仿真道路的最高限速以及仿真道路长度构建路网仿真环境，每个仿真路口设置一个构建好的智能体，所述路网仿真环境随机在各个仿真车道生成仿真车流；

第一处理子模块，用于每隔预设时间，将所有仿真路口在所述第一预设时间段内的状态信息以及路网仿真环境对应的图结构作为所述构建好的智能体的输入，通过所述构建好的智能体输出信号灯动作；

奖励子模块，用于在执行信号灯动作后，将各个仿真路口在第二预设时间段内的通行量作为奖励，对所述构建好的智能体进行强化学习的训练；

第二处理子模块，用于训练完成后，将所述训练好的智能中的信号灯动作网络作为预设的智能体。

可选的，所述装置还包括：

后处理模块，用于根据预设的后处理规则，对所述当前路口在预设时刻的信号灯动作进行后处理，得到经过后处理的当前路口在预设时刻的信号灯动作；

第二控制模块，用于根据所述经过后处理的当前路口在预设时刻的信号灯动作，控制所述当前路口在所述预设时刻执行所述信号灯动作。

需要说明的是，本发明实施例提供的交通信号灯控制装置可以应用于可以进行交通信号灯控制的智能手机、电脑、服务器等设备。

本发明实施例提供的数据中心设备能够实现上述方法实施例中交通信号灯控制方法实现的各个过程，且可以达到相同的有益效果。为避免重复，这里不再赘述。

参见图5，图5是本发明实施例提供的一种电子设备的结构示意图，如图5所示，包括：存储器502、处理器501及存储在所述存储器502上并可在所述处理器501上运行的交通信号灯控制方法的计算机程序，其中：

处理器501用于调用存储器502存储的计算机程序，执行如下步骤：

可选的，处理器501执行的所述获取当前路口以及邻接路口在第一预设时间段内的状态信息，包括：

可选的，处理器501执行的所述根据信号灯动作信息以及所述各个车道对应的车道队列长度，计算所述当前路口在当前时刻的状态信息，包括：

获取所述当前路口在当前时刻的信号灯动作；

根据所述当前路口在当前时刻的信号灯动作以及所述允许通行的车道所对应的车道队列长度之和，计算得到所述当前路口在所述当前时刻的状态信息。

可选的，在所述将所述状态信息和所述图结构输入到预训练的智能体中，预测所述当前路口在预设时刻的信号灯动作之前，处理器501执行的所述方法还包括：

可选的，处理器501执行的所述构建智能体，包括：

可选的，处理器501执行的所述以当前路口在第二预设时间段内的通行量为奖励，对所述智能体进行强化学习的训练，训练完成后得到训练好的智能体作为预设的智能体，包括：

可选的，在所述将所述状态信息和所述图结构输入到预训练的智能体中，预测所述当前路口在预设时刻的信号灯动作之后，处理器501执行的所述方法还包括：

需要说明的是，本发明实施例提供的电子设备可以应用于可以进行交通信号灯控制的智能手机、电脑、服务器等设备。

本发明实施例提供的电子设备能够实现上述方法实施例中交通信号灯控制方法实现的各个过程，且可以达到相同的有益效果。为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的交通信号灯控制方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，简称RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种交通信号灯控制方法，其特征在于，包括以下步骤：

获取当前路口以及邻接路口在第一预设时间段内的状态信息，以及获取所述当前路口与所述邻接路口的图结构，所述状态信息包括各个车道中车辆的停留位置以及停留时长，所述图结构包括所述当前路口与所述邻接路口的连接关系；所述停留时长可以从车辆进入车道的预设区域开始计算；

以所述当前路口在第二预设时间段内的通行量为奖励，对所述智能体进行强化学习的训练，训练完成后得到训练好的智能体作为预训练的智能体；所述当前路口的奖励可以通过下述式子进行表示：

其中，V_t为在t时刻当前路口通行的车辆的集合，t_v是车辆的停留时长，

和w是超参数；

2.如权利要求1所述的交通信号灯控制方法，其特征在于，所述获取当前路口以及邻接路口在第一预设时间段内的状态信息，包括：

3.如权利要求2所述的交通信号灯控制方法，其特征在于，所述根据信号灯动作信息以及所述各个车道对应的车道队列长度，计算所述当前路口在当前时刻的状态信息，包括：

获取所述当前路口在当前时刻的信号灯动作；

4.如权利要求1所述的交通信号灯控制方法，其特征在于，所述构建智能体，包括：

5.如权利要求4所述的交通信号灯控制方法，其特征在于，所述以当前路口在第二预设时间段内的通行量为奖励，对所述智能体进行强化学习的训练，训练完成后得到训练好的智能体作为预设的智能体，包括：

6.如权利要求1所述的交通信号灯控制方法，其特征在于，在所述将所述状态信息和所述图结构输入到预训练的智能体中，预测所述当前路口在预设时刻的信号灯动作之后，所述方法还包括：

根据所述经过后处理的当前路口在预设时刻的信号灯动作，控制所述当前路口在所述经过后处理的预设时刻执行所述信号灯动作。

7.一种交通信号灯控制装置，其特征在于，所述装置包括：

获取模块，用于获取当前路口以及邻接路口在第一预设时间段内的状态信息，以及获取所述当前路口与所述邻接路口的图结构，所述状态信息包括各个车道中车辆的停留位置以及停留时长，所述图结构包括所述当前路口与所述邻接路口的连接关系；所述停留时长可以从车辆进入车道的预设区域开始计算；

训练模块，用于以所述当前路口在第二预设时间段内的通行量为奖励，对所述智能体进行强化学习的训练，训练完成后得到训练好的智能体作为预训练的智能体；所述当前路口的奖励可以通过下述式子进行表示：

其中，V_t为在t时刻当前路口通行的车辆的集合，t_v是车辆v在车道上面的停留时长，

和w是超参数；

8.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的交通信号灯控制方法中的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的交通信号灯控制方法中的步骤。