CN114333357B

CN114333357B - 一种交通信号控制方法、装置、电子设备及存储介质

Info

Publication number: CN114333357B
Application number: CN202111664526.6A
Authority: CN
Inventors: 陈若冰; 刘宇; 王晓刚
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-08-15
Anticipated expiration: 2041-12-31
Also published as: WO2023123885A1; CN114333357A

Abstract

本公开提供了一种交通信号控制方法、装置、电子设备及存储介质，其中，该方法包括：获取目标路口的车流状态信息及至少一个相邻路口的车流状态信息，并获取针对目标路口对应的预训练的强化学习网络；基于目标路口的车流状态信息、至少一个相邻路口的车流状态信息以及强化学习网络，确定针对目标路口的交通信号控制信息；其中，交通信号控制信息用于控制目标路口的交通灯，按照强化学习网络输出的相位组合策略执行信号切换动作。本公开针对目标路口对应的相位组合策略是结合目标路网中有关目标路口的相邻路口的车流状态信息共同确定的，信号调控能力更强，从而便于进行实际道路的部署。

Description

一种交通信号控制方法、装置、电子设备及存储介质

技术领域

本公开涉及交通信号控制技术领域，具体而言，涉及一种交通信号控制方法、装置、电子设备及存储介质。

背景技术

随着城市的不断发展，车辆的不断增多，交通拥堵已成为现代社会最令人头痛的一件事，交通管理工作越来越受到关注。交通信号控制问题是解决交通拥堵，优化交通运输效率的重要研究方向。目前，交通控制是通过路口的红绿信号灯来实现的。

在目前阶段，大型城市道路网络(简称“路网”)的交通信号控制主要采用传统控制方法实现，包括固定时间交通灯控制计划，即预先设定每种信号相位的时间周期，并通过设定的时间周期控制路口设置的红绿信号灯。除此之外，工程师还可以基于路口检测到的车流长度手动地调整不同信号相位的时间长度和比例，以更好的改善交通拥堵的问题。

然而，上述控制方法在复杂车流情况中调整能力较弱，对于改善交通状况的作用非常有限，且工程师的手动调整方式也存在一定的不便之处。

发明内容

本公开实施例至少提供一种交通信号控制方法、装置、电子设备及存储介质。

第一方面，本公开实施例提供了一种交通信号控制方法，包括：

获取目标路口的车流状态信息及至少一个相邻路口的车流状态信息，并获取针对所述目标路口对应的预训练的强化学习网络；

基于所述目标路口的车流状态信息、所述至少一个相邻路口的车流状态信息以及所述强化学习网络，确定针对所述目标路口的交通信号控制信息；

其中，所述交通信号控制信息用于控制所述目标路口的交通灯，按照所述强化学习网络输出的相位组合策略执行信号切换动作。

采用上述交通信号控制方法，在获取到目标路口及其至少一个相邻路口的车流状态信息以及针对目标路口对应的预训练的强化学习网络的情况下，可以结合强化学习网络对目标路口的车流状态信息进行分析以确定该路口对应的相位组合策略，也即，本公开针对目标路口对应的相位组合策略是基于目标路网中包括的其它相邻路口的车流状态信息共同来确定的，信号调控能力更强，从而便于进行实际道路的部署。

在一种可能的实施方式中，所述基于所述目标路口的车流状态信息、所述至少一个相邻路口的车流状态信息以及所述强化学习网络，确定针对所述目标路口的交通信号控制信息，包括：

将所述目标路口的车流状态信息以及所述相邻路口的车流状态信息输入所述强化学习网络进行动作预测，确定对所述目标路口的交通灯进行信号切换动作控制的相位组合策略；所述相位组合策略用于指示对应目标路口的交通信号控制信息。

这里，针对目标路口可以是基于该路口及其相邻路口的车流状态信息而实现的动作预测，这可以使得各路口之间的调控更为顺滑，提升整体路网的调控能力。

在一种可能的实施方式中，在所述目标路口属于目标路网的任一路口的情况下，在确定针对所述目标路口的交通信号控制信息之后，所述方法还包括：

基于所述目标路网包括的各个路口分别对应的当前车流状态信息确定针对所述目标路网的状态奖励值；

基于所述状态奖励值以及所述各个路口在当前相位组合策略下的回报奖励值，对所述目标路口对应的强化学习网络进行调整；

基于调整后的所述目标路口对应的强化学习网络、以及在所述目标路口按照当前相位组合策略控制对应的交通灯执行信号切换动作的情况下，所述目标路口的下一个车流状态信息，确定针对所述目标路口的交通灯进行信号切换动作控制的下一个相位组合策略。

这里，可以结合针对所述目标路网的状态奖励值以及各个路口在当前相位组合策略下的回报奖励值，对任一目标路口对应的强化学习网络进行调整，使得调整后的目标路口对应的强化学习网络不仅可以满足本路口的车流情况，还可以兼顾整个目标路网中其它路口的车流情况，这样所确定的相位组合策略能够更大程度上满足整个路网的调控需求。

在一种可能的实施方式中，按照如下步骤确定所述目标路口在当前相位组合策略下的回报奖励值：

获取所述目标路口在当前相位组合策略下的车流压力值；

基于所述车流压力值的相反数，确定所述目标路口在当前相位组合策略下的回报奖励值。

这里，车流压力值越小，一定程度上可以反映较佳的车流状态，也即说明在当前相位组合策略的影响下，车流调控能力强弱，因而可以赋予更小的回报奖励值，从而抑制类似相位组合策略的控制；反之，车流压力值越大，一定程度上可以反映较差的车流状态，也即说明在当前相位组合策略的影响下，车流调控能力较强，因而可以赋予更大的回报奖励值，从而增强类似相位组合策略的控制。

在一种可能的实施方式中，所述获取所述目标路口在当前相位组合策略下的车流压力值，包括：

检测驶入所述目标路口的第一车辆数量以及从所述目标路口驶出的第二车辆数量；

基于所述第一车辆数量与所述第二车辆数量之间的差值运算，确定所述车流压力值。

在一种可能的实施方式中，所述基于所述车流压力值的相反数，确定所述目标路口在当前相位组合策略下的回报奖励值，包括：

获取所述当前相位组合策略相比上一个相位组合策略的相位切换时长；

基于所述相位切换时长以及所述车流压力值的相反数，确定所述目标路口在当前相位组合策略下的回报奖励值。

这里，相位切换时长需要保持一个比较理想的取值。在取值或大或小的情况下，均可能导致当前路口的车流状态发生变化，因而这里可以结合车流压力值和相位切换时长来确定回报奖励值，以实现更为精准的信号调控。

在一种可能的实施方式中，所述基于所述状态奖励值以及所述各个路口在当前相位组合策略下的回报奖励值，对所述目标路口对应的强化学习网络进行调整，包括：

为所述目标路网包括的各个路口分别赋予重要度权重；

基于所述各个路口在当前相位组合策略下的回报奖励值以及为所述各个路口分别赋予的重要度权重之间的加权求和，得到针对所述目标路网的回报奖励和值；

基于所述状态奖励值以及回报奖励和值，对所述目标路口对应的强化学习网络进行调整。

这里，对于不同的路口可以赋予不同的重要度权重，例如，对于主路口可以赋予更大的权重，在这种情况下所调整得到的强化学习网络可以实现更为符合实际应用场景的信号调控需求。

在一种可能的实施方式中，所述对所述目标路口对应的强化学习网络进行调整，包括：

获取包括多个状态动作序列的回放池，所述多个状态动作序列中的每个状态动作序列由所述目标路网中每个路口的历史车流状态信息以及所述每个路口对应的强化学习网络输出的历史相位组合策略确定；

基于从所述回放池中选取的状态动作序列，确定针对所述目标路网的历史状态奖励值、以及所述每个路口在对应历史相位组合策略下的历史回报奖励；

基于所述历史状态奖励值以及所述历史回报奖励，对所述目标路口对应的强化学习网络进行调整。

这里，为了可以实现更为泛化的强化学习网络的训练，这里可以利于回收池实现历史状态奖励值以及所述历史回报奖励的网络调整，也即，在强化学习网络基于当前车流状态信息进行相位组合策略确定的过程中，用于调整网络的可以是历史车流状态信息，这使得调整后的强化学习网络的输出能力更强。

在一种可能的实施方式中，所述目标路口的车流状态信息包括以下信息中的至少一种：

从所述路口包括的每个车道驶入所述路口的车流长度；

驶入所述路口的车流长度占所述路口所属道路的长度的比例；

驶入所述路口的车流对应的平均等待次数；

所述路口包括的各个交通灯之间的相位偏移量；

所述路口包括的各个交通灯在对应相位循环中每个相位的持续时长。

第二方面，本公开实施例还提供了一种交通信号控制装置，包括：

获取模块，用于获取目标路口的车流状态信息及至少一个相邻路口的车流状态信息，并获取针对所述目标路口对应的预训练的强化学习网络；

控制模块，用于基于所述目标路口的车流状态信息、所述至少一个相邻路口的车流状态信息以及所述强化学习网络，确定针对所述目标路口的交通信号控制信息；

第三方面，本公开实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的交通信号控制方法的步骤。

第四方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的交通信号控制方法的步骤。

关于上述交通信号控制装置、电子设备、及计算机可读存储介质的效果描述参见上述交通信号控制方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种交通信号控制方法的流程图；

图2示出了本公开实施例所提供的一种交通信号控制装置的示意图；

图3示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，在目前阶段，大型城市道路网络(简称“路网”)的交通信号控制主要采用传统控制方法实现，包括固定时间交通灯控制计划，即预先设定每种信号相位的时间周期，并通过设定的时间周期控制路口设置的红绿信号灯。除此之外，工程师还可以基于路口检测到的车流长度手动地调整不同信号相位的时间长度和比例，以更好的改善交通拥堵的问题。而在实际监控结果表示，应用在真实场景中的交通灯控制计划大部分时候是很少发生变化的。

基于上述研究，本公开提供了一种结合整个路网中各路口的车流状态信息以及每个路口对应预训练的强化学习网络实现交通信号控制的方案，以提升整个路网的信号调控能力。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种交通信号控制方法进行详细介绍，本公开实施例所提供的交通信号控制方法的执行主体一般为具有一定计算能力的电子设备，该电子设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、计算设备、车载设备等。在一些可能的实现方式中，该交通信号控制方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

接下里以服务器为执行主体进行有关交通信号控制方法的具体说明。

参见图1所示，为本公开实施例提供的交通信号控制方法的流程图，方法包括步骤S101～S102，其中：

S101：获取目标路口的车流状态信息及至少一个相邻路口的车流状态信息，并获取针对目标路口对应的预训练的强化学习网络；

S102：基于目标路口的车流状态信息、至少一个相邻路口的车流状态信息以及强化学习网络，确定针对目标路口的交通信号控制信息；其中，交通信号控制信息用于控制目标路口的交通灯，按照强化学习网络输出的相位组合策略执行信号切换动作。

为了便于理解本公开实施例提供的交通信号控制方法，接下来首先对对该方法的应用场景进行简单说明。本公开实施例中的交通信号控制方法主要可以应用于交通控制领域，例如，可以应用于智慧城市中的城市道路场景。这里的交通控制主要指的是有关路口红绿灯的信号切换。在实际应用中，可以是有关路口设置的各个红绿灯之间的信号切换，例如，行人道路的红绿灯与车辆道路的红绿灯之间的切换，还可以是其中一个路口的红绿灯的信号切换，例如，持续90秒的红灯切换为持续30秒的绿灯。

为了更好的进行交通调控，本公开实施例提供的交通信号控制方法针对的是整个路网(即目标路网)内各个路口的协同调整，以确保各个路口所分别对应的交通信号控制信息能够控制对应路口的交通灯执行更为有效的信号切换动作。

本公开实施例中的目标路网，可以指的是在目标区域内，由各种道路组成的相互联络、交织成网状分布的道路系统。例如，可以是由各级公路组成的公路网，还可以是在城市范围内由各种道路组成的城市路网。这里的目标区域可以指向的是一个具体的城市所区域，还可以是城市内划分的行政区域，还可以是其它方式划分的特定区域，本公开实施对此不做具体的限制。

不管是公路网还是城市路网所形成的目标路网，连接公路/道路的均可以是路口。本公开实施例中的目标路口可以是目标路网中的任一路口，也可以是从目标网络中选取的特定路口，这里不做具体的限制。在实际应用中，可以对目标网络中的每个路口进行调控。

本公开实施例中，目标路口的交通信号控制信息可以是基于该路口的车流状态信息、该路口的至少一个相邻路口的车流状态信息、以及该路口对应的强化学习网络确定的，这主要是考虑到强化学习作为一种通过在环境中探索和交互，逐渐掌握不同状态下正确的动作的学习算法，被证明在一系列动态交互场景中具备可观的性能潜力，而真实的交通环境需要多个路口的交通信号协同调整，因而，这里有关路口对应的强化学习网络输出的相位组合策略(对应网络掌握的动作)不仅与该路口的车流状态信息相关，还与其它路口的车流状态信息相关。

也即，在实际对目标路口进行相位组合策略输出的过程中，综合考虑了整个路网内多个路口的车流状态信息对这一路口的影响。针对目标路口而言，通过该目标路口对应的强化学习网络可以学习到适合于整个路网状态下该路口的相位组合策略，这样各个路口在对应的各个相位组合策略下进行整体性的交通信号控制，从而可以最大化整体的通行收益，使得整个路网的信号调控能力更强。

在实现针对目标路网中的目标路口的交通控制之前，这里需要获取目标路网包括的多个路口(可以包括目标路口、目标路口的一阶相邻路口、二阶相邻路口等)的车流状态信息。

其中，有关路口的车流状态信息可以包括从路口包括的每个车道驶入该路口的车流长度，这样，针对每个车道可以确定一个车流长度，该车流长度可以是对应车道内满足跟车间距的车流总长度，车流长度越大，一定程度上说明当前车道的车流量比较大，反之，车流长度越小，一定程度上说明当前车道的车流量比较小；上述车流状态还可以包括驶入路口的车流长度占路口所属道路的长度的比例，也即，将路口的车流长度与路口所属道路的长度进行结合来确定车流状态信息，在道路的长度越长的情况下，对应所能缓解交通堵塞等不良路况的应对能力更强一些；上述车流状态还可以包括驶入路口的车流对应的平均等待次数，这里可以将红灯导致的车流整体停止视为一次等待，平均等待次数越多，说明存在交通阻塞等不良路况的可能性越大，反之，平均等待次数越少，说明存在交通阻塞等不良路况的可能性越小；上述车流状态还可以包括路口包括的各个交通灯之间的相位偏移量以及路口包括的各个交通灯在对应相位循环中每个相位的持续时长，该相位偏移量用于表征路口包括的各个交通灯的切换情况以及具体的切换时长，各个交通灯之间的切换情况相互作用，相互影响。

在确定各个路口的车流状态信息的情况下，可以基于目标路口对应的强化学习网络确定与目标路口对应的相位组合策略，该相位组合策略用于指示目标路口的交通信号控制信息，以控制该路口的红绿灯执行信号切换动作。

本公开实施例中有关目标路口对应的强化学习网络输出的相位组合策略用于控制该路口的一个或多个交通灯执行对应的信号切换动作，例如，针对一个双向行驶的十字路口，可以是包括先后允许横向直行、横向左转、纵向直行和纵向左转四种相位组合的相位组合策略，以控制对应交通灯执行红绿灯的切换。

在实际应用中，针对目标路口的相位组合策略可以是将路口的车流状态信息以及相邻路口的车流状态信息作为强化学习网络的输入状态，进行动作预测的结果，这里之所以结合相邻路口的车流状态实现本路口的动作预测，主要是为了兼顾整个路网下对本路口影响较大的相邻路口的影响，以实现整个路网的协同调控。其中，这里相邻路口，可以是相邻的一个路口，也可以是相邻的两个路口，还可以是相邻的三个路口等等，可以依照不同的应用场景来进行设置，这里不做具体的限制。

需要说明的是，本公开实施例中针对目标路口对应预训练的强化学习网络可以是基于该路口的车流状态信息预先训练得到的，具有一定的动作预测能力。

随着相位组合策略的输出，信号切换动作得以执行，此时，目标路网中各个路口的状态将随之发生变化，为了评估相位组合策略的优劣，这里可以基于强化学习网络的回报函数以及针对目标路网的价值函数来确定，前者用于评估单个路口所执行动作的好坏，后者用于评估整个路网包括的各个路口的状态影响程度，继而可以实现在动态交互场景下的相位组合策略更新，具体包括如下步骤：

步骤一、基于目标路网包括的各个路口分别对应的当前车流状态信息，确定针对目标路网的状态奖励值；

步骤二、基于状态奖励值以及各个路口在当前相位组合策略下的回报奖励值，对目标路口对应的强化学习网络进行调整；

步骤三、基于调整后的目标路口对应的强化学习网络、以及在目标路口按照当前相位组合策略控制对应的交通灯执行信号切换动作的情况下，目标路口的下一个车流状态信息，确定针对目标路口的交通灯进行信号切换动作控制的下一个相位组合策略。

这里，可以基于状态奖励值以及各个路口在当前相位组合策略下的回报奖励值对目标路口对应的强化学习网络进行调整，而后在目标路口按照当前相位组合策略控制对应的交通灯执行信号切换动作的情况下，目标路口的下一个车流状态信息输入到调整后的强化学习网络中，从而可以确定针对目标路口的交通灯进行信号切换动作控制的下一个相位组合策略，依此往复，可以循环对强化学习网络进行调整，以及进行相位组合策略的更新，更新相位组合策略的目的在于使得整个路网包括的各个路口处于一个最大化收益的状态。

其中，上述目标路口在当前相位组合策略下的回报奖励值可以是基于车流压力值确定的，这里的车流压力值可以定义为驶入这个路口的车辆数减去驶出方向的车辆数的绝对值，如在一个双向十字路口中，可以是四个驶入方向的车辆数减去四个驶出方向的车辆数的绝对值。在车流压力值越大的情况下，一定程度上说明当前相位组合策略不够优良，在后续尽量抑制类似的相位组合策略，反之，在车流压力值越小的情况下，一定程度上说明当前相位组合策略足够优良，在后续尽量增强类似的相位组合策略，因而，这里可以基于车流压力值的相反数确定回报奖励值。

在实际应用场景中，考虑到相位频繁切换对于相位组合策略的不良影响，这里，可以结合当前相位组合策略相比上一个相位组合策略的相位切换时长以及上述车流压力值的相反数来确定回报奖励值。

也即，这里，可以将频繁切换相位时间作为回报函数的惩罚项，以提升信控策略的稳定性。

需要说明的是，除了目标路口之外的其它路口也可以按照上述方式确定回报奖励值，有关具体内容在此不再赘述。

本公开实施例中，为了实现针对目标路网的整体调控，可以是基于状态奖励值以及各个路口在当前相位组合策略下的回报奖励值，对目标路口对应的强化学习网络进行调整，具体可以包括如下步骤：

步骤一、为目标路网包括的各个路口分别赋予重要度权重；

步骤二、基于各个路口在当前相位组合策略下的回报奖励值以及为各个路口分别赋予的重要度权重之间的加权求和，得到针对目标路网的回报奖励和值；

步骤三、基于状态奖励值以及回报奖励和值，对目标路口对应的强化学习网络进行调整。

这里，在对目标路口对应的强化学习网络进行调整的过程中，可以首先确定针对目标路网的回报奖励和值，回报奖励和值越大，一定程度上说明各个路口所对应的当前相位组合策略的配合度更高，这为进一步实现良好的整体调控提供了可能性，也即，在实际应用中，为了使得整个路网的调整性能更佳，可以增强路网中某一个/某一些路口的调控性能，而弱化另一个/另一些路口的调控性能，以使得整体的通行收益达到最佳。

其中，有关回报奖励和值可以是基于各个路口在当前相位组合策略下的回报奖励值以及为各个路口分别赋予的重要度权重之间的加权求和确定的。这里，针对目标路网可以为主干道路所对应路口赋予更高的重要度权重，为支线道路所对应路口赋予更低的重要度权重，以提升整个路网的通行收益。

为了便于进一步说明有关强化学习网络的调整过程，这里首先对本公开实施例中所采用的强化学习网络进行具体说明。本公开实施例中，首先可以构建一个针对给定路网进行交通信号控制的强化学习环境。强化学习环境包含三种基本要素——动作(Action)，状态(State)和回报(Reward)，以下针对这三种要素的定义做详细说明。

本公开实施例中，交通灯的信号控制可以是通过改变信号的相位(Phase)和相位持续时间来实现的。这里仍以一个双向行驶的十字路口为例，该十字路口共有八种相位，即每个方向的直行和左转相位。由于车辆行驶的冲突关系，一次最多只能有两个相位处于允许通行状态，这样就构成了一个由4种相位组合构成的信号控制循环。

为贴近真实路口情况，本公开实施例中所确定的相位组合策略不改变相位循环的顺序，而是调节不同相位的持续时间来改变某个路口的控制策略。在多路口协同方面，这里的路网可以选取某一个路口的信号灯为比较基准，其他路口的信号通过调整与基准路口的起始相位的偏移量(Offset)实现多路口之间的协同。在具体应用中，一般可以选取某固定方向的绿灯相位计算相对偏移量，通过修改每个路口的偏移量来实现。

以一个双向十字路口为例，该路口的动作空间共包括5种，即四个相位组合的时间长度和相位偏移量，每种输出-1，0，1之间的三个数，+-1代表偏移量增大、减小一个固定值，从而调节每个路口的信号策略。环境中其他形状的路口(如T性或*型)的动作空间维度可能不同。

在确定路口按照当前相位组合策略控制对应的交通灯执行信号切换动作的情况下，得到路口的下一个车流状态信息，这里的下一个车流状态信息对应的是有关车流状态的观测值，例如，上述车流长度、平均等待次数、各相位持续时长等发生了数值上的变化，在基准路口的路口状态发生变化的情况下，其它路口的状态也会相应做出调整。

此外，本公开实施例还构建了环境整体的回报函数，具体可以结合上述每个路口车流压力值所反映的车流压力项、对应频繁切换相位时间的惩罚项、以及有关各路口所对应赋予的重要度权重等来确定，这里不再赘述。

本公开实施例中，为了实现更为综合的信号调控，有关强化学习网络的调整，除了可以依赖于对应动作网络的输出结果所确定的回报函数的值(即回报奖励值)，还可以综合考虑针对目标路网的状态奖励值。在实际应用中，该状态奖励值可以是利用价值函数确定的。

本公开实施例中，为了针对强化学习网络实现有关价值函数和回报函数的联合调整，这里可以利用近端策略优化(Proximal Policy Optimization，PPO)方法来具体实现。其中，策略网络包括一个价值(Value)网络和一个动作(Action)网络，动作网络通过回报奖励值的输出计算优势函数决定动作更新的梯度，此外，通过中心化的价值网络决定状态奖励值。

具体而言，所有路口共享一个中心化的价值网络，该网络输入当前时刻所有路口的观测状态，并输出该全局状态下的一个价值估计。每个路口拥有独立的动作网络，动作网络采用当前路口的状态以及该路口一阶邻居的状态作为输入，输出该路口下一个时刻的动作进行信号策略调整，在训练时通过全局的价值计算策略网络的更新梯度。每个动作网络的结构(输入和输出)可能不同，具体由该路口的位置和结构决定。

为了实现更为鲁棒性的强化学习网络的训练，这里可以利用回收池(Replaybuffer)进行网络调整，具体包括如下步骤：

步骤一、获取包括多个状态动作序列的回放池，多个状态动作序列中的每个状态动作序列由目标路网中每个路口的历史车流状态信息以及每个路口对应的强化学习网络输出的历史相位组合策略确定；

步骤二、基于从回放池中选取的状态动作序列，确定针对目标路网的历史状态奖励值、以及每个路口在对应历史相位组合策略下的历史回报奖励；

步骤三、基于历史状态奖励值以及历史回报奖励，对目标路口对应的强化学习网络进行调整。

可知的是，在进行目标路口对应的强化学习网络的调整过程中，采用的是历史状态奖励值以及历史回报奖励，也即，在将当前车流状态输入强化学习网络进行动作预测的过程中，不是基于当前动作预测结果进行网络更新，而是利用历史动作预测结果进行网络更新，这使得在环境中采样所用的状态动作序列和实际训练的状态动作序列并非同一个，从而可以有更高的探索度，利于学习到更加鲁棒的策略函数。

在具体应用中，可以是采用离轨的近端策略优化(Off-policy PPO)强化学习算法训练策略网络。这里，添加了回放池存放采样过的状态动作序列，每轮训练时从回放池采样一定数量的状态动作序列进行更新，除此之外，本公开实施例包含的多个动作网络，会在每轮训练时依次计算梯度并更新。

为了进一步提升网络探索的速度，在进行强化学习的训练时，本公开实施例可采用环境并行方式实现加速训练。具体方式为启动多个进程运行相同的目标路网，但起始条件不同的强化学习环境，然后将相同策略下采样得到的多个环境的数据存放在回放池中。在训练时，可以从回放池中采样得到的数据拼成一个数据组，同步输出所有环境的预测结果。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与交通信号控制方法对应的交通信号控制装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述交通信号控制方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图2所示，为本公开实施例提供的一种交通信号控制装置的示意图，装置包括：获取模块201、控制模块202；其中，

获取模块201，用于获取目标路口的车流状态信息及至少一个相邻路口的车流状态信息，并获取针对目标路口对应的预训练的强化学习网络；

控制模块202，用于基于目标路口的车流状态信息、至少一个相邻路口的车流状态信息以及强化学习网络，确定针对目标路口的交通信号控制信息；其中，交通信号控制信息用于控制目标路口的交通灯，按照强化学习网络输出的相位组合策略执行信号切换动作。

采用上述交通信号控制装置，在获取到目标路口及其至少一个相邻路口的车流状态信息以及针对目标路口对应的预训练的强化学习网络的情况下，可以结合强化学习网络对目标路口的车流状态信息进行分析以确定该路口对应的相位组合策略，也即，本公开针对目标路口对应的相位组合策略是基于目标路网中包括的其它相邻路口的车流状态信息共同来确定的，信号调控能力更强，从而便于进行实际道路的部署。

在一种可能的实施方式中，控制模块202，用于按照如下步骤基于目标路口的车流状态信息、至少一个相邻路口的车流状态信息以及强化学习网络，确定针对目标路口的交通信号控制信息：

将目标路口的车流状态信息以及相邻路口的车流状态信息输入强化学习网络进行动作预测，确定对目标路口的交通灯进行信号切换动作控制的相位组合策略；相位组合策略用于指示对应目标路口的交通信号控制信息。

在一种可能的实施方式中，在目标路口属于目标路网的任一路口的情况下，上述装置还包括：

调整模块203，用于在确定针对每个路口的交通信号控制信息之后，基于目标路网包括的各个路口分别对应的当前车流状态信息确定针对目标路网的状态奖励值；基于状态奖励值以及各个路口在当前相位组合策略下的回报奖励值，对目标路口对应的强化学习网络进行调整；

基于调整后的目标路口对应的强化学习网络、以及在目标路口按照当前相位组合策略控制对应的交通灯执行信号切换动作的情况下，目标路口的下一个车流状态信息，确定针对目标路口的交通灯进行信号切换动作控制的下一个相位组合策略。

在一种可能的实施方式中，调整模块203，用于按照如下步骤确定目标路口在当前相位组合策略下的回报奖励值：

获取目标路口在当前相位组合策略下的车流压力值；

基于车流压力值的相反数，确定目标路口在当前相位组合策略下的回报奖励值。

在一种可能的实施方式中，调整模块203，用于按照如下步骤获取目标路口在当前相位组合策略下的车流压力值：

检测驶入目标路口的第一车辆数量以及从目标路口驶出的第二车辆数量；

基于第一车辆数量与第二车辆数量之间的差值运算，确定车流压力值。

在一种可能的实施方式中，调整模块203，用于按照如下步骤基于车流压力值的相反数，确定目标路口在当前相位组合策略下的回报奖励值：

获取当前相位组合策略相比上一个相位组合策略的相位切换时长；

基于相位切换时长以及车流压力值的相反数，确定目标路口在当前相位组合策略下的回报奖励值。

在一种可能的实施方式中，调整模块203，用于按照如下步骤基于状态奖励值以及各个路口在当前相位组合策略下的回报奖励值，对目标路口对应的强化学习网络进行调整：

为目标路网包括的各个路口分别赋予重要度权重；

基于各个路口在当前相位组合策略下的回报奖励值以及为各个路口分别赋予的重要度权重之间的加权求和，得到针对目标路网的回报奖励和值；

基于状态奖励值以及回报奖励和值，对目标路口对应的强化学习网络进行调整。

在一种可能的实施方式中，调整模块203，用于按照如下步骤对目标路口对应的强化学习网络进行调整：

获取包括多个状态动作序列的回放池，多个状态动作序列中的每个状态动作序列由目标路网中每个路口的历史车流状态信息以及每个路口对应的强化学习网络输出的历史相位组合策略确定；

基于从回放池中选取的状态动作序列，确定针对目标路网的历史状态奖励值、以及每个路口在对应历史相位组合策略下的历史回报奖励；

基于历史状态奖励值以及历史回报奖励，对目标路口对应的强化学习网络进行调整。

在一种可能的实施方式中，路口的车流状态信息包括以下信息中的至少一种：

从路口包括的每个车道驶入路口的车流长度；

驶入路口的车流长度占路口所属道路的长度的比例；

驶入路口的车流对应的平均等待次数；

路口包括的各个交通灯之间的相位偏移量；

路口包括的各个交通灯在对应相位循环中每个相位的持续时长。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种电子设备，如图3所示，为本公开实施例提供的电子设备结构示意图，包括：处理器301、存储器302、和总线303。存储器302存储有处理器301可执行的机器可读指令(比如，图2中的装置中获取模块201、控制模块202对应的执行指令等)，当电子设备运行时，处理器301与存储器302之间通过总线303通信，机器可读指令被处理器301执行时执行如下处理：

获取目标路口的车流状态信息及至少一个相邻路口的车流状态信息，并获取针对目标路口对应的预训练的强化学习网络；

基于目标路口的车流状态信息、至少一个相邻路口的车流状态信息以及强化学习网络，确定针对目标路口的交通信号控制信息；其中，交通信号控制信息用于控制目标路口的交通灯，按照强化学习网络输出的相位组合策略执行信号切换动作。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的交通信号控制方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的交通信号控制方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种交通信号控制方法，其特征在于，包括：

获取目标路口的车流状态信息及至少一个相邻路口的车流状态信息，并获取针对所述目标路口对应的预训练的强化学习网络；所述目标路口属于目标路网的任一路口；

将所述目标路口的车流状态信息以及所述相邻路口的车流状态信息输入所述强化学习网络进行动作预测，确定对所述目标路口的交通灯进行信号切换动作控制的相位组合策略；其中，所述相位组合策略用于指示对应目标路口的交通信号控制信息；所述交通信号控制信息用于控制所述目标路口的交通灯，按照所述强化学习网络输出的相位组合策略执行信号切换动作；

将所述目标路网包括的各个路口分别对应的当前车流状态信息，输入至中心化的价值网络，输出全局状态下针对所述目标路网的状态奖励值；所有路口共享所述中心化的价值网络；

获取所述各个路口在当前相位组合策略下的车流压力值；

基于所述车流压力值的相反数，确定所述各个路口在当前相位组合策略下的回报奖励值；

为所述目标路网包括的各个路口分别赋予重要度权重；

基于所述状态奖励值以及回报奖励和值，对所述目标路口对应的强化学习网络进行调整；

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标路口在当前相位组合策略下的车流压力值，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述车流压力值的相反数，确定所述目标路口在当前相位组合策略下的回报奖励值，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述目标路口对应的强化学习网络进行调整，包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述路口的车流状态信息包括以下信息中的至少一种：

从所述路口包括的每个车道驶入所述路口的车流长度；

驶入所述路口的车流对应的平均等待次数；

所述路口包括的各个交通灯之间的相位偏移量；

6.一种交通信号控制装置，其特征在于，包括：

获取模块，用于获取目标路口的车流状态信息及至少一个相邻路口的车流状态信息，并获取针对所述目标路口对应的预训练的强化学习网络；所述目标路口属于目标路网的任一路口；

控制模块，用于将所述目标路口的车流状态信息以及所述相邻路口的车流状态信息输入所述强化学习网络进行动作预测，确定对所述目标路口的交通灯进行信号切换动作控制的相位组合策略；其中，所述相位组合策略用于指示对应目标路口的交通信号控制信息；所述交通信号控制信息用于控制所述目标路口的交通灯，按照所述强化学习网络输出的相位组合策略执行信号切换动作；

调整模块，用于在确定针对每个路口的交通信号控制信息之后，将所述目标路网包括的各个路口分别对应的当前车流状态信息，输入至中心化的价值网络，输出全局状态下针对所述目标路网的状态奖励值；所有路口共享所述中心化的价值网络；获取所述各个路口在当前相位组合策略下的车流压力值；基于所述车流压力值的相反数，确定所述各个路口在当前相位组合策略下的回报奖励值；为所述目标路网包括的各个路口分别赋予重要度权重；基于所述各个路口在当前相位组合策略下的回报奖励值以及为所述各个路口分别赋予的重要度权重之间的加权求和，得到针对所述目标路网的回报奖励和值；基于所述状态奖励值以及回报奖励和值，对所述目标路口对应的强化学习网络进行调整；

7.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的交通信号控制方法的步骤。

8.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5任一所述的交通信号控制方法的步骤。