CN116189454A

CN116189454A - 交通信号控制方法、装置、电子设备及存储介质

Info

Publication number: CN116189454A
Application number: CN202310183083.1A
Authority: CN
Inventors: 皮家甜; 杨新民; 吴昌质
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-05-30

Abstract

本发明提供一种交通信号控制方法、装置、电子设备及存储介质，该方法包括获取交通状态信息，交通状态信息包括交叉路口的信号灯信息和不同通行方向的车辆信息，车辆信息包括车辆队列长度、车辆的位置与速度，将行驶车辆的位置与速度映射到车辆队列长度，得到有效行驶车辆的权重，基于有效行驶车辆的权重和车辆队列长度计算交叉路口不同相位的相位有效压力，根据交通状态信息和相位有效压力建立交通信号控制模型，并将新的交通状态信息输入至交通信号控制模型进行训练，基于训练后的交通信号控制模型对目标交叉路口的交通信号进行控制，可以有效地降低交通压力、减少车辆等待时间，提高交通效率、缓解交通拥堵，同时模型简单、可使用性高。

Description

交通信号控制方法、装置、电子设备及存储介质

技术领域

本发明涉及交通信号控制技术领域，尤其涉及一种交通信号控制方法、装置、电子设备及存储介质。

背景技术

随着社会经济与城市化的发展，人们出行方式也发生改变，使得道路车辆飞速增长，而随之带来的交通问题也日趋增多。现有的道路交通管理系统己经无法适应如今的交通压力，交通堵塞、交通事故、环境污染以及能源浪费等诸多问题不仅影响了国家的发展和社会的进步，同时给日常出行带来很多不便。对交叉路口交通流进行合理的控制和疏导是提高交通效率和缓解交通拥堵的必然要求，也是切实保障交通安全和维护生态可持续发展的必由之路。

现有的自适应交通信号控制通常将交通移动建模为一个车辆储存和释放的排队系统，通过贪婪地提高车流网络的吞吐量在方法中取得了不错的效果。然而，基于强化学习的交通信号控制算法专注于交通状态的多样化组合使用，忽略了最基础的交通状态表示，在大幅提高模型复杂性的情况下，仅小幅度地降低了交通延迟，同时降低了模型的可使用性。

发明内容

鉴于以上所述现有技术的缺点，本发明提供一种交通信号控制方法、装置、电子设备及存储介质，以解决上述模型复杂且降低交通延迟的效果不佳的技术问题。

本发明提供的一种交通信号控制方法，包括：获取交通状态信息，所述交通状态信息包括交叉路口的信号灯信息和不同通行方向的车辆信息，所述车辆信息包括车辆队列长度、车辆的位置与速度；将行驶车辆的位置与速度映射到所述车辆队列长度，得到有效行驶车辆的权重，基于所述有效行驶车辆的权重和所述车辆队列长度计算交叉路口不同相位的相位有效压力，所述车辆包括所述行驶车辆，所述相位包括一组互不冲突的通行方向；根据所述交通状态信息和所述相位有效压力建立交通信号控制模型，并将新的交通状态信息输入至所述交通信号控制模型进行训练；基于训练后的交通信号控制模型对目标交叉路口的交通信号进行控制。

于本发明一实施例中，将新的行驶车辆的位置与速度映射到新的车辆队列长度，得到新的有效行驶车辆的权重；基于所述新的有效行驶车辆的权重和所述新的车辆队列长度计算交叉路口不同相位的新的相位有效压力；根据新的信号灯信息和不同相位的新的相位有效压力进行决策，得到优选相位配时方案。

于本发明一实施例中，对于每个通行方向，基于当前相位持续时间、预设道路速度阈值以及上游车道的总长度确定所述上游车道的最远有效位置，根据所述最远有效位置和所述上游车道的上游堵塞长度计算所述上游车道的有效行驶距离，所述信号灯信息包括所述当前相位持续时间，所述交通状态信息还包括不同通行方向的上游车道的总长度，所述上游堵塞长度基于排队车辆的位置得到，所述车辆还包括所述排队车辆；将所述最远有效位置和所述行驶车辆的位置进行比较，根据比较结果确定所述有效行驶车辆，根据所述有效行驶距离和所述有效行驶车辆的速度计算所述通行方向的有效行驶车辆的权重。

于本发明一实施例中，若所述通行方向的车道饱和度大于或等于预设饱和度阈值，则根据所述通行方向的上游车辆队列长度和下游车辆队列长度计算所述通行方向的交通移动压力，若所述通行方向的车道饱和度小于所述预设饱和度阈值，则根据所述通行方向的上游车辆队列长度计算所述通行方向的交通移动压力，得到不同通行方向的交通移动压力，所述车辆队列长度包括所述上游车辆队列长度和所述下游车辆队列长度，所述车辆信息还包括所述车道饱和度；对于每个相位，将所述相位各通行方向的交通移动压力之和作为所述相位的相位队列压力，基于所述相位各通行方向的有效行驶车辆的权重之和以及所述相位的相位队列压力计算所述相位的相位有效压力。

于本发明一实施例中，将所述相位各通行方向的上游车辆队列长度之和作为所述相位的相位队列长度，得到不同相位的相位队列长度；基于预设权重参数、所述相位的相位队列长度和所述相位的相位等待时间确定所述相位的奖励值，得到不同相位的奖励值，所述信号灯信息包括不同相位的相位等待时间，所述预设权重参数随着所述相位等待时间的增大而增大；基于不同相位的奖励值对所述交通信号控制模型进行收敛。

于本发明一实施例中，根据不同相位的新的相位等待时间和不同相位的新的相位有效压力确定多个初始相位配时方案，每一初始相位配时方案包括相位持续时间、概率和一组相位动作；若一初始相位配时方案中的相位持续时间满足预设时间区间，则将所述初始相位配时方案作为候选相位配时方案；对每个候选相位配时方案的概率进行比较，将最大概率对应的候选相位配时方案作为所述优选相位配时方案。

于本发明的一实施例中，统计对所述交通信号控制模型进行训练的训练次数，若所述训练次数等于预设阈值，则将所述交通信号控制模型确定为所述训练后的交通信号控制模型。

于本发明的一实施例中，还提供一种交通信号控制装置，包括：获取模块，用于获取交通状态信息，所述交通状态信息包括交叉路口的信号灯信息和不同通行方向的车辆信息，所述车辆信息包括车辆队列长度、车辆的位置与速度；处理模块，用于将行驶车辆的位置与速度映射到所述车辆队列长度，得到有效行驶车辆的权重，基于所述有效行驶车辆的权重和所述车辆队列长度计算交叉路口不同相位的相位有效压力，所述车辆包括所述行驶车辆，所述相位包括一组互不冲突的通行方向；训练模块，用于根据所述交通状态信息和所述相位有效压力建立交通信号控制模型，并将新的交通状态信息输入至所述交通信号控制模型进行训练；控制模块，用于基于训练后的交通信号控制模型对目标交叉路口的交通信号进行控制。

于本发明的一实施例中，还提供一种电子设备，所述电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如上所述的交通信号控制方法。

于本发明的一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行如上所述的交通信号控制方法。

本发明的有益效果：本发明提供了一种交通信号控制方法、装置、电子设备及存储介质，该交通信号控制方法通过基本的交通状态信息建立交通信号控制模型并进行训练，基于训练后的交通信号控制模型优化信号相位配时方案，以对目标交叉路口的交通信号进行控制，可以有效地降低交通压力、减少车辆等待时间，提高交通效率、缓解交通拥堵，同时模型简单、可使用性高。

附图说明

图1是本发明的一示例性实施例示出的一种交通信号控制方法的实施环境示意图；

图2是本发明的一示例性实施例示出的一种交通信号控制方法的流程图；

图3是本发明的一示例性实施例示出的交叉路口简要示意图；

图4是本发明的一示例性实施例示出的交通移动简要示意图；

图5是本发明的一示例性实施例示出的四相位简要示意图；

图6是本发明的一示例性实施例示出的八相位简要示意图；

图7是本发明的一示例性实施例示出的交叉路口γ的交通情况示意图；

图8是本发明的一示例性实施例示出的一种交通信号控制模型的训练流程示意图；

图9是本发明的一示例性实施例示出的济南路网仿真示意图；

图10是本发明的一示例性实施例示出的一种交通信号控制装置的框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

需要说明的是，本发明中，“第一”、“第二”等仅为对相似对象的区分，并非是对相似对象的顺序限定或先后次序限定。所描述的“包括”、“具有”等变形，表示该词语的主语所涵盖的范围除该词语所示出的示例外，并不排他。

可以理解的是，在本发明中记载的各种数字编号、步序编号等标号为描述方便进行的区分，并不用来限制本发明的范围。本发明标号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定。

在下文描述中，探讨了大量细节，以提供对本发明实施例的更透彻的解释，然而，对本领域技术人员来说，可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的，在其他实施例中，以方框图的形式而不是以细节的形式来示出公知的结构和设备，以避免使本发明的实施例难以理解。

需要说明的是，现有的自适应交通信号控制通常将交通移动建模为一个车辆储存和释放的排队系统，通过贪婪地提高车流网络的吞吐量在方法中取得了不错的效果。这些方法将交通信号灯控制建模为一个代理，通过代理观察各种与交通相关的特征，例如：队列长度、车辆速度、平均等待时间等，并根据相位动作选择(即信号灯的变化)后从交通环境反馈的奖励如车辆数量和车辆通过率等优化其方案，学习如何采取下一步动作。例如：采用六种状态表示，包括队列长度、车辆数量、当前阶段、下一阶段、车辆图像以及更新的等待时间，以及六种奖励，包括队列长度、延迟、更新的等待时间总和、灯光变化指示器、通过的车辆数量和总旅行时间。又例如：使用一种更简单的状态表示，包括当前阶段和类似图像的表示，但需要复杂的奖励，包括延迟、紧急停止、灯光变化指示器和车辆等待时间。

然而，基于强化学习的交通信号控制算法专注于交通状态的多样化组合使用，忽略了最基础的交通状态表示，在小幅度降低交通延迟的情况下，反而大幅提高模型复杂性并且降低可使用性。同时，以往方案的主要目的是最大限度地提高交叉口的通行能力，而忽视了单一车道的最长红灯时间，导致驾驶员激进的驾驶行为。此外，虽然最大压力法在道路压力表示具有很强的代表性，但是它们都不能形象的表达交通网络中行驶车辆对相位调整的影响，难以代表复杂的交通状态。

为解决上述问题，本发明的实施例分别提出一种交通信号控制方法、一种交通信号控制装置、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品，以下将对这些实施例进行详细描述。

需要说明的是，本发明的实施例提出的交通信号控制方法是一种ETS-RL算法(Excellent Traffic State Reinforcement Learning，基于强化学习的更优越的交通状态表示算法)，将行驶车辆和道路饱和度引入相位竞争，通过协调交叉口上下游的有效压力和限定范围内有效行驶车辆设计了一个新的交通状态(Excellent Traffic State，简称ETS)表示，并通过预先设定交叉口通行状态划分规则——彼此不冲突的车辆行驶路线(通行方向)可划分为同一相位，计算对应相序概率并选择最大的输出。

请参阅图1，图1是本发明的一示例性实施例示出的一种交通信号控制方法的实施环境示意图。

如图1所示，实施环境可以包括交通状态感知端101、计算机设备102以及信号灯控制端103。其中，计算机设备102可以是微型计算机、嵌入式计算机、神经网络计算机等中的至少一种。交通状态感知端101用于采集交通状态信息并提供给计算机设备102，计算机设备102用于根据交通状态信息建立交通信号控制模型并进行训练，基于训练后的交通信号控制模型优化信号相位配时方案，并将相位配时方案发送给信号灯控制端103，以对目标交叉路口的交通信号进行控制。

首先，通过多个传感器组成的交通状态感知端101采集实时的交通状态信息，包括车辆位置与速度、车道队列长度，并以车道ID(Identity document，身份标识)作为标识进行统计。其次，在特定的时刻，由计算机设备102发起请求获取实时的交通状态信息。然后，ETS-RL算法根据预先设定的交叉口通行状态划分规则计算对应相序概率并选择最大的输出，能够实现更好的交通信号自适应控制。最后，在保证安全的前提下，信号灯控制端103按照交叉口相位配时方案执行信号控制。交通信号控制模型通过学习交通信号灯的相位规则进行相位调整和配时优化，力求减少车辆的等待时间和有效提高路口通行能力，缓解城市交通拥堵。无论从规模化难易程度还是改善城市交通方面都具有可行性和一定的优势，对于构建智慧城市具有良好的实用价值，因此具有良好的发展前景。

示例性的，计算机设备102获取交通状态信息，其中，交通状态信息包括交叉路口的信号灯信息和不同通行方向的车辆信息，车辆信息包括车辆队列长度、车辆的位置与速度，将行驶车辆的位置与速度映射到车辆队列长度，得到有效行驶车辆的权重，基于有效行驶车辆的权重和车辆队列长度计算交叉路口不同相位的相位有效压力，车辆包括行驶车辆，相位包括一组互不冲突的通行方向，根据交通状态信息和相位有效压力建立交通信号控制模型，并将新的交通状态信息输入至交通信号控制模型进行训练，基于训练后的交通信号控制模型对目标交叉路口的交通信号进行控制。可见，本发明实施例的技术方案能够通过基本的交通状态信息建立交通信号控制模型并进行训练，基于训练后的交通信号控制模型优化信号相位配时方案，以对目标交叉路口的交通信号进行控制，可以有效地降低交通压力、减少车辆等待时间，提高交通效率、缓解交通拥堵，同时模型简单、可使用性高。

需要说明的是，本发明实施例所提供的交通信号控制方法一般由交通状态感知端101、计算机设备102以及信号灯控制端103执行，交通信号控制装置一般设置于计算机设备102中。

请参阅图2，图2是本发明的一示例性实施例示出的一种交通信号控制方法的流程图。该方法可以应用于图1所示的实施环境，并由该实施环境中的交通状态感知端101、计算机设备102以及信号灯控制端103具体执行。应理解的是，该方法也可以适用于其它的示例性实施环境，并由其它实施环境中的设备具体执行，本实施例不对该方法所适用的实施环境进行限制。

如图2所示，在一示例性的实施例中，交通信号控制方法至少包括步骤S210至步骤S240，详细介绍如下：

步骤S210，获取交通状态信息。

在本发明的一个实施例中，可以通过仿真模拟器、交通状态感知端以及共享经验池等中至少之一获取交通状态信息，此处不进行限制。其中，交通状态信息包括交叉路口的信号灯信息和通行方向的车辆信息，车辆信息包括车辆队列长度、车辆的位置与速度。车辆队列长度是指当前排队车辆的数量，可以大于或等于0，车辆包括行驶车辆和排队车辆。信号灯信息包括相位等待时间和当前相位持续时间，相位等待时间是指每个通行方向对应的信号相位(简称相位)距离上次获取绿灯通行权的时间间隔，即相位持续的红灯时长，当前相位持续时间是当前获得通行权相位的绿灯时长。

请参阅图3，图3是本发明的一示例性实施例示出的交叉路口简要示意图。如图3所示，一个交通路口(交叉路口)由几组进入道(Lⁱⁿ)和对应的退出道(L^out)彼此交汇或交叉组成，用符号I表示。每条道又由几条车道

组成，决定了车道的行驶路径，是路网中的基础组件。每一个交通网络是由多个路口(I₁…I_N)通过一组道路(R₁…R_M)互相连接组成，其中N表示交通路口总数，M表示道路总数。车辆从进入车道(上游车道)l通过十字路口到退出车道(下游车道)m的合理行驶轨迹称为一个交通移动(通行方向)，记为(l,m)。

请参阅图4，图4是本发明的一示例性实施例示出的交通移动简要示意图。如图4所示，一个4向的十字路口包括4个“左转”、4个“直行”和4个“右转”共12中交通移动方式。而根据大多数路口的交通规则，无论信号如何，车辆都可以右转。因此，通常只需要考虑协调8种交通移动，例如图4中1#-8#交通移动。

请参阅图5和图6，图5是本发明的一示例性实施例示出的四相位简要示意图，图6是本发明的一示例性实施例示出的八相位简要示意图。如图5和图6所示，图5描述了4组常用的交通移动搭配方案，分别构成A、B、C、D四个信号相位(简称相位)，图6描述了8组常用的交通移动搭配方案，分别构成A、B、C、D、E、F、G、H八个信号相位，且每一个信号相位都包含着一组互不冲突的交通移动，相位通常用s表示。

步骤S220，将行驶车辆的位置与速度映射到车辆队列长度，得到有效行驶车辆的权重，基于有效行驶车辆的权重和车辆队列长度计算交叉路口不同相位的相位有效压力。

在本发明的一个实施例中，对于每个通行方向的车道来说，由于可能会有行驶车辆不断加入到当前的车辆队列长度中，因而直接获取的车辆队列长度并不能真实反映待通行车道的车辆排队情况，相应的，仅根据车辆队列长度计算的相位压力准确性不高。因此，需要确定能真实反映通行方向的车辆排队情况，可以根据行驶车辆的位置与速度判断哪些行驶车辆在当前绿灯相位的当前相位持时间结束前能汇入车辆队列长度，进而将行驶车辆的位置与速度映射到车辆队列长度，得到有效行驶车辆的权重。基于有效行驶车辆的权重和车辆队列长度计算交叉路口不同相位的相位有效压力，提高了相位压力的准确性。其中，车辆包括行驶车辆，相应的，车辆的位置与速度包括行驶车辆的位置与速度，每个相位包括一组互不冲突的通行方向。

在本发明的一个实施例中，将行驶车辆的位置与速度映射到车辆队列长度，得到有效行驶车辆的权重，包括如下：

对于每个通行方向，基于当前相位持续时间、预设道路速度阈值以及上游车道的总长度确定上游车道的最远有效位置，根据最远有效位置和上游车道的上游堵塞长度计算上游车道的有效行驶距离，信号灯信息包括当前相位持续时间，交通状态信息还包括不同通行方向的上游车道的总长度，上游堵塞长度基于排队车辆的位置得到，车辆还包括排队车辆；

将最远有效位置和行驶车辆的位置进行比较，根据比较结果确定有效行驶车辆，根据有效行驶距离和有效行驶车辆的速度计算通行方向的有效行驶车辆的权重。

在该实施例中，每个通行方向的上游车道的子车道数大于或等于1，每个上游车道的有效行驶车辆的车辆数大于或等于0。以交通移动(l,m)的上游车道l的一个有效行驶车辆的权重为例，有效行驶车辆的权重的计算流程如下：

1)确定有效范围(最远有效位置)。该有效范围是指行驶车辆能够在当前相位持续时间内通过交叉路口的最远有效位置，且最远有效位置不能超过上游车道的总长度，首先通过当前相位持续时间和预设道路速度阈值计算最远有效位置的初值，计算方式如下：

L＝V_max×t_duration 式(1)

其中，L为最远有效位置的初值，V_max为道路允许的最大速度(预设道路速度阈值)，t_duration为当前相位持续时间。

然后，将最远有效位置的初值与上游车道的总长度进行比较，若最远有效位置的初值小于或等于上游车道的总长度，则将最远有效位置的初值作为最远有效位置，若最远有效位置的初值大于上游车道的总长度，则将上游车道的总长度作为最远有效位置。

2)确定有效行驶距离。有效行驶距离是指对于每个通行方向，行驶车辆在上游车道的有效行驶距离。上游车道l的有效行驶距离的计算方式如下：

L_surplus＝L-X(l)-spaceHeadway 式(2)

其中，L_surplus为交通移动(l,m)的上游车道l上的有效行驶距离，X(l)为交通移动(l,m)上游车道l的上游堵塞长度，spaceHeadway为预设车头间距，预设车头间距可以是2.5m，或者3m，或者本领域技术人员设定的其他长度。若上游车道l的子车道数大于1，则上游堵塞长度的数量也大于1，需要分别上游车道l的每个子车道的有效行驶距离。

其中，上游堵塞长度可以根据上游车道的排队车辆中最后一辆车的位置得到，由于车辆还包括排队车辆，相应的，车辆的位置还包括排队车辆的位置，当没有排队车辆时，上游堵塞长度为0，此时将最远有效位置作为有效行驶距离。

3)确定有效行驶车辆的权重。有效行驶车辆是指在交叉路口有效范围内进道口(通过交叉路口)的行驶车辆，通过车辆位置与速度、上游堵塞长度等交通状态信息估算行驶车辆能在未来的相位持续时间内处于停止或行驶状态，估计值表示相位切换对行驶车辆的影响程度，即有效行驶车辆的权重。将最远有效位置与上游车道的行驶车辆的位置进行比较，若一行驶车辆的位置不超过最远有效位置，则将该行驶车辆确定为有效行驶车辆。根据交通移动(l,m)的上游车道l的有效行驶距离和该上游车道l的一个有效行驶车辆的速度计算该有效行驶车辆的权重，计算方式如下：

其中，r(l,m)为交通移动(l,m)的上游车道l上的一个有效行驶车辆的权重，v为该有效行驶车辆的速度。若交通移动(l,m)的有效行驶车辆的车辆数为多个，可以通过式(3)计算交通移动(l,m)的全部有效行驶车辆的权重。

以此类推，还可以通过式(1)、式(2)和式(3)的计算方式确定交通移动(k,v)的全部有效行驶车辆的权重。

在本发明的一个实施例中，基于有效行驶车辆的权重和车辆队列长度计算交叉路口不同相位的相位有效压力，包括如下步骤：

步骤S221，若通行方向的车道饱和度大于或等于预设饱和度阈值，则根据通行方向的上游车辆队列长度和下游车辆队列长度计算通行方向的交通移动压力，若通行方向的车道饱和度小于预设饱和度阈值，则根据通行方向的上游车辆队列长度计算通行方向的交通移动压力，得到不同通行方向的交通移动压力。

在本发明的一个实施例中，车辆信息还包括车道饱和度，车道饱和度是指每个通行方向对应的下游车道的车道饱和度，可以通过采集每个通行方向对应的下游车道的当前交通量，并对当前交通量预处理得到。示例性的，对于当前阶段，使用Q_m表示交通移动(l,m)下游车道m的车道饱和度，计算方式如下：

其中，C_now为下游车道m的当前交通量，C_max为下游车道m的预设最大交通量。

不同的下游车道其车道饱和度不同，由即将到来的上游车辆造成的延迟堵塞现象也不同，因此计算交通压力时需要采用条件函数进行分类处理。将车道饱和度作为判断可能造成的车辆堵塞程度。车道饱和度反映了车道服务水平，相位队列压力则表示车辆的通行需要。

请参阅图7，图7是本发明的一示例性实施例示出的交叉路口γ的交通情况示意图。如图7所示，放行南北直行相位，然而东西向通行需求更加强烈。显然，仅使用上下游车辆队列长度计算相位队列压力无疑是不合理的。

在该实施例中，车辆队列长度包括上游车辆队列长度和下游车辆队列长度，在计算交通移动压力之前，需要将预设饱和度阈值与每个通行方向的车道饱和度进行比较，根据比较结果确定交通移动压力的计算方式，交通移动压力的计算方式如下：

其中，p_q(l,m)为上游车道l和下游车道m构成的交通移动(l,m)上的交通移动压力，x(l_i)为上游车道l的子车道l_i的上游车辆队列长度，M为上游车道l的子车道数，x(m_j)为下游车道的子车道m_j的下游车辆队列长度，N为下游车道m的子车道数，Q_m为下游车道m的车道饱和度，W₁为预设饱和度阈值。需要说明的是，上游车道或者下游车道是一个总称，其不单单代表一条车道，上游车道或者下游车道包括至少一条子车道。

步骤S222，对于每个相位，将相位各通行方向的交通移动压力之和作为相位的相位队列压力，基于相位各通行方向的有效行驶车辆的权重之和以及相位的相位队列压力计算相位的相位有效压力。

在本发明的一个实施例中，在计算得到不同通行方向的交通移动压力之后，将一个相位下的各互不冲突的通行方向的交通移动压力之和作为该相位的相位队列压力，以得到不同相位的相位队列压力，相位队列压力的计算方式如下：

p_q(s)＝p_q(l,m)+p_q(k,v) 式(6)

其中，p_q(s)为相位s的相位队列压力，相位s包括一组互不冲突的交通移动(l,m)和交通移动(k,v)，p_q(k,v)为上游车道k和下游车道v构成的交通移动(k,v)上的交通移动压力，p_q(k,v)的计算方式与上述p_q(l,m)的计算方式一致，本处不再进行赘述。

然后，计算不同相位的相位有效压力，每一个相位的相位有效压力为该相位的相位队列压力与该相位各通行方向的全部有效行驶车辆的权重之和，例如相位s的相位有效压力计算方式如下：

d(s)＝∑r(l,m)+∑r(k,v)+p_q(s) 式(7)

其中，d(s)为相位s的相位有效压力，∑r(l,m)为交通移动(l,m)的全部有效行驶车辆的权重之和，∑r(k,v)为交通移动(k,v)的全部有效行驶车辆的权重之和。

同样的，通过上述计算方式，可以计算其他相位的相位有效压力。

步骤S230，根据交通状态信息和相位有效压力建立交通信号控制模型，并将新的交通状态信息输入至交通信号控制模型进行训练。

在本发明的一个实施例中，根据交通状态信息和相位有效压力建立交通信号控制模型，包括定义状态空间和预设交通信号相位动作空间(简称相位动作空间)，其中，交通信号控制模型可以是深度学习网络模型、卷积神经网络模型、全连接网络模型中至少之一。获取新的交通状态信息，将新的交通状态信息作为输入值对交通信号控制模型进行训练，以得到训练后的交通信号控制模型。

需要说明的是，相位动作空间的灵活性对交通信号控制模型的性能有着明显影响。本发明的相位动作空间设计主要考虑两种情况。第一，信号相位以车道转向和不冲突为前提进行两两组合，基于实时交通流信息(交通状态信息)，信号灯可以跳转到任意一个绿灯相位，同时右转方向设置为常绿状态，相位动作空间可以表示为图5中的四相位和图6中的八相位两种常见相位组合。第二，信号相位不固定，以车流方向不冲突进行实时组合，根据实时交通流量对相位的绿灯持续时间进行动态调整。

此外，还可以对交通信号控制模型定义输入接口，以使输入接口将交通状态信息转换为状态矩阵。

在本发明的一个实施例中，将新的交通状态信息输入至交通信号控制模型进行训练，包括如下：

将新的行驶车辆的位置与速度映射到新的车辆队列长度，得到新的有效行驶车辆的权重；

基于新的有效行驶车辆的权重和新的车辆队列长度计算交叉路口不同相位的新的相位有效压力；

根据新的信号灯信息和不同相位的新的相位有效压力进行决策，得到优选相位配时方案。

在该实施例中，交通信号控制模型学习对交通状态信息进行处理，包括将新的行驶车辆的位置与速度映射到新的车辆队列长度，得到新的有效行驶车辆的权重，基于新的有效行驶车辆的权重和新的车辆队列长度计算交叉路口的新的交通压力。交通信号控制模型还学习根据新的信号灯信息和新的相位有效压力进行决策，输出下一时刻的优选相位配时方案。

示意性的，可以配置仿真模拟器，通过仿真模拟器获取当前模拟的交通状态信息，将当前模拟的交通状态信息输入至交通信号控制模型，以使交通信号控制模型输出下一时刻的优选相位配时方案，控制仿真模拟器执行该优选相位配时方案并得到新的模拟的交通状态信息，再将新的模拟的交通状态信息输入至交通信号控制模型进行训练。

在本发明的一个实施例中，根据新的信号灯信息和不同相位的新的相位有效压力进行决策，得到优选相位配时方案，包括如下：

根据不同相位的新的相位等待时间和不同相位的新的相位有效压力确定多个初始相位配时方案，每一初始相位配时方案包括相位持续时间、概率和一组相位动作；

若一初始相位配时方案中的相位持续时间满足预设时间区间，则将初始相位配时方案作为候选相位配时方案；

对每个候选相位配时方案的概率进行比较，将最大概率对应的候选相位配时方案作为优选相位配时方案。

在该实施例中，交通信号控制模型根据每个相位的新的相位等待时间和新的相位有效压力确定相位动作空间中每组相位动作的相位持续时间和概率，得到多个初始相位配时方案，将相位动作的相位持续时间满足预设时间区间的初始相位配时方案作为候选相位配时方案，将相位动作的概率最大的候选相位配时方案作为优选相位配时方案并输出。

通过规定最小绿灯时间和最大绿灯时间对采取的动作方案进行限制，防止单一车道绿灯时间过长而导致其余车道无法忍受的情况出现，能够保证交叉口的行车安全。

在本发明的另一个实施例中，将新的交通状态信息输入至交通信号控制模型进行训练，还包括如下：

将相位各通行方向的上游车辆队列长度之和作为相位的相位队列长度，得到不同相位的相位队列长度；

基于预设权重参数、相位的相位队列长度和相位的相位等待时间确定相位的奖励值，得到不同相位的奖励值，信号灯信息包括不同相位的相位等待时间，预设权重参数随着相位等待时间的增大而增大；

基于不同相位的奖励值对交通信号控制模型进行收敛。

在该实施例中，强化学习过程中，奖励函数可以为交通信号控制模型提供学习方向，并且决定着交通信号控制模型的收敛速度。对于奖励函数的定义，本发明主要从两个方向进行考虑：将相位队列长度作为延误时间，并将相位等待时间作为竞争项。首先，车辆的延误时间可以近似为相位队列长度，亦可以反映道路的通行需求。其次，为了平衡各个方向的交通流，避免相位陷入长时间的等待，将相位的红灯时长(相位等待时间)作为竞争项。奖励函数可以定义为如下公式：

其中，R_i为相位i的奖励值，q_j为相位i中通行方向j的上游车道队列长度，W_waiting为相位i上次绿灯结束后的红灯时长，即相位等待时间，α为一个随相位等待时间增大的预设权重系数，表示等待时间越久的车道优先级越高。

使用贝尔曼方程式进行模型更新，表示如下：

Q(s_t,a_t)＝R(s_t,a_t)+γmaxQ(s_t+1,a_t+1) 式(9)

其中，Q(s_t,a_t)为当前时刻t最优策略下的动作价值，s为有限的状态集合，a为有限的动作集合。R(s_t,a_t)为在当前时刻t的状态s_t下，采取动作a_t得到的奖励值，maxQ(s_t+1,a_t+1)为按照最优策略去行动能获得的未来动作价值的期望，γ为未来动作价值的一种折扣关系。

交通信号控制模型的参数通过强化学习算法不断调整，最终输出的优选相位配时方案可以最大程度的调节交通流，提高交通效率。

统计对交通信号控制模型进行训练的训练次数，若训练次数等于预设阈值，则将交通信号控制模型确定为训练后的交通信号控制模型。

示意性的，预设阈值可以是100，或者本领域技术人员设定的其他数值。

步骤S240，基于训练后的交通信号控制模型对目标交叉路口的交通信号进行控制。

在本发明的一个实施例中，获取当前交通状态信息，其中，当前交通状态信息包括目标交叉路口的当前信号灯信息和通行方向的当前车辆信息，当前车辆信息包括当前车辆队列长度、当前车辆的位置与速度，将当前交通状态信息输入至训练后的交通信号控制模型，得到下一时刻的优选相位配时方案，将该优选相位配时方案发送给目标交叉路口对应的信号灯控制端，以使该信号灯控制端根据该优选相位配时方案对目标交叉路口的交通信号进行控制。

总的来说本发明实施例的技术方案根据行驶中车辆和交通信号状态，将其映射到等待队列表示道路最近一段时间的整体通行需求。同时，不同的下游车道根据其车道饱和度不同，对即将到来的上游车辆存在延迟堵塞现象，因此计算相位压力时需要采用条件函数进行分类处理。最后将该交通状态表示方法与强化学习相结合开发基于强化学习的算法模板，通过环境反馈学习相位调整和配时优化，从而表现得更加出色。

请参阅图8，图8是本发明的一示例性实施例示出的一种交通信号控制模型的训练流程示意图。如图所示，训练流程如下：

1)配置仿真模拟器，搭建强化学习网络，定义多交叉口控制模型

本发明基于Windows(一种操作系统)系统，将交通仿真软件SUMO(一种仿真模拟器)作为测试平台。通过SUMO配置仿真路口环境以及车流数据，通过API接口(ApplicationProgramming Interface，应用程序接口)和TraCI接口(Traffic Control Interface，交通控制接口)提取仿真数据和交通信号控制。定义动作空间、定义奖励函数，搭建强化学习网络，以每个交叉口的车辆速度、车辆位置、车辆队列长度和当前相位等待时间等作为交通状态表示，结合信号灯信息作为模型的输入参数。根据数据特征，使用卷积网络和全连接网络进行特征提取。将每个交叉口都看作一个智能体，智能体以最大化预期奖励选取并执行下一个动作，并根据环境反馈调整自身策略。

本发明使用济南和杭州共5个真实世界交通数据集配置仿真的道路文件和车流文件，用以描述交通路网和车辆状态。其中，3个来自济南，2个来自杭州。请参阅图9，图9是本发明的一示例性实施例示出的济南路网仿真示意图。如图6所示，济南数据集路网有12个十字路口(3个×4个)。每个十字路口都是一个四向的十字路口，有两个400米(东西)长的路段和两个800米(南北)长的路段。而杭州数据集(路网有16个十字路口(4个×4个)。每个十字路口都是一个四向的十字路口，有两个800米(东西)长的路段和两个600米(南北)长的路段。所有车道的最大允许速度为40km/h。

表1

请参阅表1，表1为本发明的一个具体实施例中的数据集车辆到达率表。如表1所示，这些数据集拥有不同的车辆到达率，可以模拟不同情况的交通状况，足以满足实验需求。

2)获取交叉口交通状态信息，基于控制模型生成下一时刻的信号配时方案(优选相位配时方案)

在实验过程中通过TraCI接口实时从SUMO中获取车辆的位置与速度、车辆队列长度以及信号灯信息等交通状态信息。将所有车辆状态信息经过处理后转换为矩阵作为卷积网络的输入。最后输出下一时刻的信号配时方案，信号配时方案包括一组动作空间(相位动作)的概率值和相位绿灯持续时间(相位持续时间)。

3)仿真模拟器执行配时方案并得到新的交通状态

智能体执行选择动作，更新交通状态，并根据仿真模拟器得到仿真环境的交通状态信息进入下一个状态。采集仿真模拟器中交叉口的交通状态信息，并不断控制更新。同时将历史数据(历史交通状态信息)存入共享经验池加快训练速度，并及时更新模型参数。同时统计训练次数，判断是否达到预设的训练次数(预设阈值)。若达到预设的训练次数，则输出最终的控制模型，即训练后的交通信号控制模型，否则继续训练。

本发明提供的交通信号控制方法是基于交通状态表示的信号配时优化方法，通过底层的交通状态表示既可以有效地降低交通压力，也可以减少车辆等待时间，提高交通效率，缓解交通拥堵。通过考虑队列车辆和行驶车辆之间的联系，设计了一种基于最大压力算法的交通信号控制方法——ETS，可以灵活的应用到不同的自适应交通信号控制模型，进一步地实验证明了将ETS与基于强化学习的方法集成可以带来更好地模型效果。

请参阅图10，图10是本发明的一示例性实施例示出的交通信号控制装置的框图。该装置可以应用于图1所示的实施环境，并具体配置在计算机设备102中。该装置也可以适用于其它的示例性实施环境，并具体配置在其它设备中，本实施例不对该装置所适用的实施环境进行限制。

如图10所示，该示例性的交通信号控制装置包括：

获取模块1010，用于获取交通状态信息，交通状态信息包括交叉路口的信号灯信息和不同通行方向的车辆信息，车辆信息包括车辆队列长度、车辆的位置与速度；处理模块1020，用于将行驶车辆的位置与速度映射到车辆队列长度，得到有效行驶车辆的权重，基于有效行驶车辆的权重和车辆队列长度计算交叉路口不同相位的相位有效压力，车辆包括行驶车辆，相位包括一组互不冲突的通行方向；训练模块1030，用于根据交通状态信息和相位有效压力建立交通信号控制模型，并将新的交通状态信息输入至交通信号控制模型进行训练；控制模块1040，用于基于训练后的交通信号控制模型对目标交叉路口的交通信号进行控制。

需要说明的是，上述实施例所提供的交通信号控制装置与上述实施例所提供的交通信号控制方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的交通信号控制装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处也不对此进行限制。

本实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现上述各个实施例中提供的交通信号控制方法。

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机的处理器执行时，使计算机执行如前所述的交通信号控制方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的交通信号控制方法。

本实施例提供的电子设备，包括处理器、存储器、收发器和通信接口，存储器和通信接口与处理器和收发器连接并完成相互间的通信，存储器用于存储计算机程序，通信接口用于进行通信，处理器和收发器用于运行计算机程序，使电子设备执行如上方法的各个步骤。

在本实施例中，存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本实施例中的计算机可读存储介质，本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM(只读存储器)、RAM(随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种交通信号控制方法，其特征在于，所述方法包括：

获取交通状态信息，所述交通状态信息包括交叉路口的信号灯信息和不同通行方向的车辆信息，所述车辆信息包括车辆队列长度、车辆的位置与速度；

将行驶车辆的位置与速度映射到所述车辆队列长度，得到有效行驶车辆的权重，基于所述有效行驶车辆的权重和所述车辆队列长度计算交叉路口不同相位的相位有效压力，所述车辆包括所述行驶车辆，所述相位包括一组互不冲突的通行方向；

根据所述交通状态信息和所述相位有效压力建立交通信号控制模型，并将新的交通状态信息输入至所述交通信号控制模型进行训练；

基于训练后的交通信号控制模型对目标交叉路口的交通信号进行控制。

2.根据权利要求1所述的交通信号控制方法，其特征在于，将新的交通状态信息输入至所述交通信号控制模型进行训练，包括：

基于所述新的有效行驶车辆的权重和所述新的车辆队列长度计算交叉路口不同相位的新的相位有效压力；

3.根据权利要求2所述的交通信号控制方法，其特征在于，将行驶车辆的位置与速度映射到所述车辆队列长度，得到有效行驶车辆的权重，包括：

对于每个通行方向，基于当前相位持续时间、预设道路速度阈值以及上游车道的总长度确定所述上游车道的最远有效位置，根据所述最远有效位置和所述上游车道的上游堵塞长度计算所述上游车道的有效行驶距离，所述信号灯信息包括所述当前相位持续时间，所述交通状态信息还包括不同通行方向的上游车道的总长度，所述上游堵塞长度基于排队车辆的位置得到，所述车辆还包括所述排队车辆；

将所述最远有效位置和所述行驶车辆的位置进行比较，根据比较结果确定所述有效行驶车辆，根据所述有效行驶距离和所述有效行驶车辆的速度计算所述通行方向的有效行驶车辆的权重。

4.根据权利要求3所述的交通信号控制方法，其特征在于，基于所述有效行驶车辆的权重和所述车辆队列长度计算交叉路口不同相位的相位有效压力，包括：

若所述通行方向的车道饱和度大于或等于预设饱和度阈值，则根据所述通行方向的上游车辆队列长度和下游车辆队列长度计算所述通行方向的交通移动压力，若所述通行方向的车道饱和度小于所述预设饱和度阈值，则根据所述通行方向的上游车辆队列长度计算所述通行方向的交通移动压力，得到不同通行方向的交通移动压力，所述车辆队列长度包括所述上游车辆队列长度和所述下游车辆队列长度，所述车辆信息还包括所述车道饱和度；

对于每个相位，将所述相位各通行方向的交通移动压力之和作为所述相位的相位队列压力，基于所述相位各通行方向的有效行驶车辆的权重之和以及所述相位的相位队列压力计算所述相位的相位有效压力。

5.根据权利要求4所述的交通信号控制方法，其特征在于，将新的交通状态信息输入至所述交通信号控制模型进行训练，还包括：

将所述相位各通行方向的上游车辆队列长度之和作为所述相位的相位队列长度，得到不同相位的相位队列长度；

基于预设权重参数、所述相位的相位队列长度和所述相位的相位等待时间确定所述相位的奖励值，得到不同相位的奖励值，所述信号灯信息包括不同相位的相位等待时间，所述预设权重参数随着所述相位等待时间的增大而增大；

基于不同相位的奖励值对所述交通信号控制模型进行收敛。

6.根据权利要求5所述的交通信号控制方法，其特征在于，根据新的信号灯信息和不同相位的新的相位有效压力进行决策，得到优选相位配时方案，包括：

若一初始相位配时方案中的相位持续时间满足预设时间区间，则将所述初始相位配时方案作为候选相位配时方案；

对每个候选相位配时方案的概率进行比较，将最大概率对应的候选相位配时方案作为所述优选相位配时方案。

7.根据权利要求1至6中任一项所述的交通信号控制方法，其特征在于，将新的交通状态信息输入至所述交通信号控制模型进行训练，还包括：

统计对所述交通信号控制模型进行训练的训练次数，若所述训练次数等于预设阈值，则将所述交通信号控制模型确定为所述训练后的交通信号控制模型。

8.一种交通信号控制装置，其特征在于，所述装置包括：

获取模块，用于获取交通状态信息，所述交通状态信息包括交叉路口的信号灯信息和不同通行方向的车辆信息，所述车辆信息包括车辆队列长度、车辆的位置与速度；

处理模块，用于将行驶车辆的位置与速度映射到所述车辆队列长度，得到有效行驶车辆的权重，基于所述有效行驶车辆的权重和所述车辆队列长度计算交叉路口不同相位的相位有效压力，所述车辆包括所述行驶车辆，所述相位包括一组互不冲突的通行方向；

训练模块，用于根据所述交通状态信息和所述相位有效压力建立交通信号控制模型，并将新的交通状态信息输入至所述交通信号控制模型进行训练；

控制模块，用于基于训练后的交通信号控制模型对目标交叉路口的交通信号进行控制。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至7中任一项所述的交通信号控制方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行如权利要求1至7中任一项所述的交通信号控制方法。