CN115294784A

CN115294784A - 多路口交通信号灯控制方法、装置、电子设备及存储介质

Info

Publication number: CN115294784A
Application number: CN202210709165.0A
Authority: CN
Inventors: 王飞跃; 吕宜生; 陈筱语; 沈震; 熊刚
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-11-04

Abstract

本发明提供一种多路口交通信号灯控制方法、装置、电子设备及存储介质，采用的本地共享模型在训练时并不需要其他路口的训练样本，而是以联邦强化学习算法，借助于初始本地私有模型以及中央处理器智能体中与初始本地共享模型结构相同的初始全局模型进行集中‑分布式协同训练得到，可以保证各路口的时序交通状态信息观测样本的隐私性，即使不共享的情况下也可以得到准确的本地共享模型，避免了数据孤岛问题的出现。而且，由于采用基于联邦强化学习算法的集中‑分布式协同训练的方式，可以避免出现现有技术中对强化学习智能体训练时探索空间会呈现指数级增长的问题出现，可以实现最优化全局道路网络的交通状况。

Description

多路口交通信号灯控制方法、装置、电子设备及存储介质

技术领域

本发明涉及城市交通控制技术领域，尤其涉及一种多路口交通信号灯控制方法、装置、电子设备及存储介质。

背景技术

交通信号灯控制是当前城市交通管理与控制的重要手段，合理的交通信号控制策略不仅可以提高交通系统运行效率，还可有效减少交通事故的发生。交通信号灯常被设置于路口，用于指挥交通车辆及行人的前进或停止，指导交通流的安全、有序运行。为构建智能交通系统，保证道路网络内车辆的通行效率，对道路网络内的多路口交通信号灯进行同步控制至关重要。

目前，关于路口交通信号灯的控制，通常基于强化学习的方法实现单路口交通信号灯的独立控制，即基于强化学习的自主信号控制，在每个路口都配备有强化学习智能体，该强化学习智能体基于物联网设备(例如交通摄像头、路边传感器)捕获的交通数据，产生对应路口的所有交通信号灯的控制信号。对于每个路口，所有交通信号灯基于控制信号产生的动作被定义为该路口的动作，以引导对应方向车流通过该路口。

上述方法虽然提高了单路口交通信号灯的控制效率，但是当一个道路网络中涉及到多路口时，由于各路口所有交通信号灯的动作组合，导致强化学习智能体在训练时的探索空间会呈现指数级增长，进而将造成维度灾难，难以最优化全局道路网络的交通状况。而且，实际的道路网络中，各路口的交通数据可能来自于同一城市的不同管理部门，随着人们对于数据隐私保护的愈发重视，不同路口的交通数据无法实现共享，将引发数据孤岛问题，完全集中训练的强化学习算法不再可行。

发明内容

本发明提供一种多路口交通信号灯控制方法、装置、电子设备及存储介质，用以解决现有技术中存在的缺陷。

本发明提供一种多路口交通信号灯控制方法，包括：

获取当前时刻道路网络内目标路口的交通状态信息；

基于所述交通状态信息，采用所述目标路口对应的本地共享模型，确定所述目标路口的目标局部值函数向量，并基于所述目标局部值函数向量，确定所述目标路口的当前动作；

基于当前动作，生成所述目标路口各交通信号灯的控制指令，基于所述控制指令，对所述各交通信号灯进行控制；

其中，所述目标局部值函数向量基于所述目标路口各可选动作的局部值函数确定，所述局部值函数用于表征所述目标路口的每个可选动作的累积局部奖励的期望，所述本地共享模型基于所述道路网络内各路口的时序交通状态信息观测样本，采用联邦强化学习算法，对所述目标路口对应的初始本地共享模型、初始本地私有模型和中央处理器智能体中与所述初始本地共享模型结构相同的初始全局模型进行集中-分布式协同训练得到

根据本发明提供的一种多路口交通信号灯控制方法，所述本地共享模型采用如下步骤训练得到：

基于所述目标路口的时序交通状态信息观测样本中当前交通状态信息观测样本和所述目标路口的前一动作，采用所述初始本地共享模型，确定所述目标路口的局部值函数向量；

基于所述局部值函数向量，从所述可选动作中选取待执行动作在所述目标路口进行执行，基于执行所得结果确定环境反馈的局部奖励，并将所述局部值函数向量、所述待执行动作的局部值函数分量和所述局部奖励发送至所述中央处理器智能体，以使所述初始全局模型基于接收到的所述各路口的局部值函数向量、局部值函数分量和局部奖励，对应确定所述道路网络的局部值函数向量集、局部值函数联合向量和全局奖励；

接收所述局部值函数向量集、所述局部值函数联合向量和所述全局奖励，并基于所述局部值函数联合向量，采用所述初始本地共享模型生成全局值函数，基于所述全局值函数、所述全局奖励和所述局部值函数向量集，对所述初始本地共享模型进行训练，得到本地共享模型参数；所述全局值函数用于表征所述各路口的联合动作的累积全局奖励的期望；

基于所述目标路口的时序交通状态信息观测样本，对所述初始本地私有模型进行更新，得到本地私有模型参数，将所述本地共享模型参数与所述本地私有模型参数进行聚合，并将聚合所得结果发送至所述中央处理器智能体，以使所述中央处理器智能体基于所述聚合所得结果对所述初始全局模型的模型参数进行更新，将更新所得模型参数进行分发；

迭代执行上述步骤，直至更新所得模型收敛或达到预设迭代次数。

根据本发明提供的一种多路口交通信号灯控制方法，所述将所述局部值函数向量、所述待执行动作的局部值函数分量和所述局部奖励发送至所述中央处理器智能体，具体包括：

将所述局部值函数向量和所述局部值函数分量进行差分隐私保护处理，得到备选局部值函数向量和备选局部值函数分量；

将所述备选局部值函数向量、所述备选局部值函数分量和所述局部奖励发送至所述中央处理器智能体。

根据本发明提供的一种多路口交通信号灯控制方法，所述获取当前时刻道路网络内目标路口的交通状态信息，具体包括：

确定所述各路口中最大入口方向数以及各入口方向的最大进入车道数，并基于所述最大入口方向数以及所述最大进入车道数，对所述目标路口的入口方向和进入车道进行标准化处理，得到所述目标路口的标准化结构信息；

基于所述标准化结构信息，确定所述目标路口的各进入车道的车道连接状态信息，并基于所述车道连接状态信息，确定所述目标路口的结构编码；

采集所述当前时刻所述各进入车道上车辆的最大已等待时长以及车流量，并基于所述最大已等待时长、所述车流量以及所述结构编码，确定所述交通状态信息。

根据本发明提供的一种多路口交通信号灯控制方法，所述初始本地共享模型、所述初始本地私有模型和所述初始全局模型均基于预先建立的多路口交通信号控制的马尔科夫过程的8元组初始化得到；

所述8元组包括所述各路口的客户端智能体集合以及所述各路口的联合动作空间。

根据本发明提供的一种多路口交通信号灯控制方法，所述初始本地共享模型、所述初始本地私有模型和所述初始全局模型均基于依次连接的第一多层感知器、门控制循环单元以及第二多层感知器构建得到。

根据本发明提供的一种多路口交通信号灯控制方法，所述基于所述目标局部值函数向量，确定所述目标路口的当前动作，包括：

基于所述目标局部值函数向量，采用贪婪算法，确定所述目标路口的当前动作。

本发明还提供一种多路口交通信号灯控制装置，包括：

信息获取模块，用于获取当前时刻道路网络内目标路口的交通状态信息；

动作确定模块，用于基于所述交通状态信息，采用所述目标路口对应的本地共享模型，确定所述目标路口的目标局部值函数向量，并基于所述目标局部值函数向量，确定所述目标路口的当前动作；

控制模块，用于基于当前动作，生成所述目标路口各交通信号灯的控制指令，基于所述控制指令，对所述各交通信号灯进行控制；

其中，所述目标局部值函数向量基于所述目标路口各可选动作的局部值函数确定，所述局部值函数用于表征所述目标路口的每个可选动作的累积局部奖励的期望，所述本地共享模型基于所述道路网络内各路口的时序交通状态信息观测样本，采用联邦强化学习算法，对所述目标路口对应的初始本地共享模型、初始本地私有模型和中央处理器智能体中与所述初始本地共享模型结构相同的初始全局模型进行集中-分布式协同训练得到。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的多路口交通信号灯控制方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的多路口交通信号灯控制方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的多路口交通信号灯控制方法。

本发明提供的多路口交通信号灯控制方法、装置、电子设备及存储介质，采用的本地共享模型在训练时并不需要其他路口的训练样本，而是以联邦强化学习算法，借助于初始本地私有模型以及中央处理器智能体中与初始本地共享模型结构相同的初始全局模型进行集中-分布式协同训练得到，可以保证各路口的时序交通状态信息观测样本的隐私性，即使不共享的情况下也可以得到准确的本地共享模型，避免了数据孤岛问题的出现。而且，由于采用基于联邦强化学习算法的集中-分布式协同训练的方式，可以避免出现现有技术中对强化学习智能体训练时探索空间会呈现指数级增长的问题出现，可以实现最优化全局道路网络的交通状况。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的多路口交通信号灯控制方法的流程示意图；

图2是本发明提供的多路口交通信号灯控制方法中4向-12车道路口示意图；

图3是本发明提供的多路口交通信号灯控制方法中3向-6车道路口示意图；

图4是本发明提供的多路口交通信号灯控制方法中对目标路口的入口方向以及进入车道进行标准化处理之后得到的目标路口示意图；

图5是本发明提供的多路口交通信号灯控制方法中智能体共享网络或智能体私有网络的处理流程示意图；

图6是本发明提供的多路口交通信号灯控制方法中混合网络的处理流程示意图；

图7是本发明提供的多路口交通信号灯控制装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有技术中基于强化学习的路口交通信号灯控制方法均是各路口独立控制，虽然可以提高单路口交通信号灯的控制效率，但是当一个道路网络中涉及到多路口时，将导致强化学习智能体在训练时因各路口的动作组合而引起的探索空间呈现指数级增长，进而将造成维度灾难，难以最优化全局道路网络的交通状况。而且，实际的道路网络中，各路口的交通数据可能来自于同一城市的不同管理部门，随着人们对于数据隐私保护的愈发重视，不同路口的交通数据无法实现共享，将引发数据孤岛问题，完全集中训练的强化学习算法不再可行。为此，本发明实施例中提供了一种多路口交通信号灯控制方法。

图1为本发明实施例中提供的一种多路口交通信号灯控制方法的流程示意图，如图1所示，该方法包括：

S1，获取当前时刻道路网络内目标路口的交通状态信息；

S2，基于所述交通状态信息，采用所述目标路口对应的本地共享模型，确定所述目标路口的目标局部值函数向量，并基于所述目标局部值函数向量，确定所述目标路口的当前动作；

S3，基于当前动作，生成所述目标路口各交通信号灯的控制指令，基于所述控制指令，对所述各交通信号灯进行控制；

具体地，本发明实施例中提供的多路口交通信号灯控制方法，其执行主体是为目标路口配置的目标客户端智能体，该客户端智能体可以是配置于目标路口处的微型电脑、芯片、电子设备等。该目标路口可以是道路网络中的任何一个路口，道路网络即路网，其覆盖的范围可以根据需要进行设定，也可以按省、市等行政范围进行划分，此处不作具体限定。本发明实施例中仅以道路网络中单一的目标路口为例详细描述多路口交通信号灯控制方法的执行过程。

可以理解的是，对于多路口的交通信号灯的控制，本发明实施例中在各路口均配置有客户端智能体，各路口的客户端智能体均可以执行本发明实施例中提供的多路口交通信号灯控制方法，以指导本地交通信号灯的动作决策。同时，本发明实施例中还引入了中央处理器智能体，该中央处理器智能体配置于道路网络管控部门，以实现对各路口训练经验(即训练样本)的融合，并完成各客户端智能体中应用的本地共享模型的训练，以协调各客户端智能体的动作决策。此处，各客户端智能体以及中央处理器智能体均具备一定的计算能力。

首先，执行步骤S1，目标客户端智能体获取当前时刻道路网络内目标路口的交通状态信息，该交通状态信息是指用于描述该目标路口的交通状态的信息，可以包括目标路口的各进入车道上车辆的最大已等待时长以及车流量等实时交通数据，也可以包括目标路口的结构编码，该结构编码可以用于表征该目标路口的各进入车道允许前进的方向，即各进入车道是左转车道、右转车道、直行车道或者至少两个动作的结合车道。

实时交通数据可以通过设置于目标路口的各进入车道的出口处的感应线圈采集得到，该感应线圈与目标客户端智能体通信连接，以将采集得到的实时交通数据传输至目标客户端智能体。结构编码可以直接由目标客户端智能体通过对目标路口的各进入车道的前进方向进行编码得到，目标路口的各进入车道的前进方向则可以通过道路网络管控部门对该目标路口的规划信息确定。

然后执行步骤S2，目标客户端智能体可以将当前时刻的交通状态信息作为本地共享模型的输入，由本地共享模型对该交通状态信息进行解析，确定出目标路口的目标局部值函数向量。并且，该本地共享模型还根据目标局部值函数向量，确定出目标路口的当前动作。本地共享模型在对该交通状态信息进行解析时，可以结合该目标路口的前一动作实现。

本发明实施例中，目标路口可以包括多个可选动作，可选动作是指当前时刻允许控制目标路口的各交通信号灯产生的、以引导对应方向车流通过该目标路口且不与其他方向车流发生冲突的动作。每个可选动作是该目标路口中各交通信号灯产生的动作的集合。

每个可选动作均会对应有一个值函数，为将该值函数与后续基于中央处理器智能体发送的局部值函数联合向量确定的值函数进行区分，此处将目标客户端智能体产生的值函数记为局部值函数，该局部值函数用于表征对应可选动作的累积局部奖励的期望。局部奖励是指该目标路口执行该可选动作后得到的奖励，累积局部奖励则是指该目标路口执行该可选动作后未来时刻得到的综合奖励。

在训练得到本地共享模型的过程中，可以根据道路网络内各路口的时序交通状态信息观测样本，采用联邦强化学习算法，对目标客户端智能体内目标路口对应的初始本地共享模型、初始本地私有模型以及中央处理器智能体中与初始本地共享模型结构相同的初始全局模型进行集中-分布式协同训练，进而得到本地共享模型。此处，初始本地共享模型与初始全局模型的模型结构完全相同，区别仅仅在于模型参数的取值不同。

初始本地共享模型与初始全局模型均包括智能体共享网络(Agent Network-shared)和混合网络(Mixing Network)，初始本地私有模型可以包括智能体私有网络(Agent Network-private)，该智能体私有网络与初始本地共享模型和初始全局模型中包括的智能体共享网络的网络结构相同，区别仅仅在于网络参数的取值不同。

各路口的时序交通状态观测样本是指各路口的交通状态观测样本的时间序列，其作为各路口的本地共享模型的训练样本，为保证各路口的训练样本不共享，提高各路口数据的隐私性和独立性，各路口的客户端智能体可以将各自的初始本地共享模型得到的局部值函数向量以及某一动作的局部奖励发送至中央处理器智能体。各路口的客户端智能体还可以在本地通过时序交通状态信息观测样本对初始本地私有模型进行训练，得到本地私有模型。

中央处理器智能体可以对接收到的各路口的客户端智能体发送的信息进行聚合并下发，各路口的客户端智能体则根据接收到的信息对初始本地共享模型进行训练，得到第一中间本地共享模型，并通过本地私有模型的模型参数对第一中间本地共享模型的模型参数进行更新，得到第二中间本地共享模型，并将第二中间本地共享模型的模型参数发送至中央处理器智能体，该中央处理器智能体可以根据接收到的模型参数对初始全局模型的模型参数进行更新，得到中间全局模型，并将更新后的模型参数下发至各路口的客户端智能体，以同步更新各中间本地共享模型的模型参数。

采用不同交通状态观测样本迭代进行上述过程，直至中央处理器智能体中的中间全局模型收敛，此时各路口的客户端智能体得到的中间本地共享模型即为最终应用的本地共享模型。

可以理解的是，本发明实施例中，本地共享模型的训练过程是对其确定目标局部值函数向量的功能的训练，其确定当前动作的功能并不需要进行训练，可以通过设置策略实现。在本地共享模型具有确定目标局部值函数向量的功能的基础上，可以将策略设置为采用贪婪算法，从目标局部值函数向量中选取取值最大的局部值函数对应的可选动作作为当前动作，也可以将策略设置为其他形式，此处不作具体限定。

最后执行步骤S3，根据目标路口的当前动作，生成目标路口各交通信号灯的控制指令。每个交通信号灯均对应有一控制指令，该控制指令用于控制对应交通信号灯产生相应的动作，该动作可以包含在当前动作内。进而，可以将该控制指令发送至对应交通信号灯，以实现对交通信号灯的动作控制。该动作可以包括切换为目标颜色或保持当前颜色不变。目标颜色可以是红、绿或黄。

本发明实施例中提供的多路口交通信号灯控制方法，首先获取当前时刻道路网络内目标路口的交通状态信息；然后基于交通状态信息，采用目标路口对应的本地共享模型，确定目标路口的目标局部值函数向量，并基于目标局部值函数向量，确定目标路口的当前动作；最后基于当前动作，生成目标路口各交通信号灯的控制指令，基于控制指令，对各交通信号灯进行控制。采用的本地共享模型在训练时并不需要其他路口的训练样本，而是以联邦强化学习算法，借助于初始本地私有模型以及中央处理器智能体中与初始本地共享模型结构相同的初始全局模型进行集中-分布式协同训练得到，可以保证各路口的时序交通状态信息观测样本的隐私性，即使不共享的情况下也可以得到准确的本地共享模型，避免了数据孤岛问题的出现。而且，由于采用基于联邦强化学习算法的集中-分布式协同训练的方式，可以避免出现现有技术中对强化学习智能体训练时探索空间会呈现指数级增长的问题出现，可以实现最优化全局道路网络的交通状况。

在上述实施例的基础上，本发明实施例中提供的多路口交通信号灯控制方法，所述本地共享模型采用如下步骤训练得到：

具体地，本发明实施例中，采用联邦强化学习算法，对目标路口对应的初始本地共享模型、初始本地私有模型和中央处理器智能体中与初始本地共享模型结构相同的初始全局模型进行集中-分布式协同训练时，可以先根据目标路口的时序交通状态信息观测样本中当前交通状态信息观测样本和目标路口的前一动作，采用初始本地共享模型，确定目标路口的局部值函数向量。

以下将目标路口一般化为道路网络内的路口i进行描述，以下步骤的执行主体则一般化为路口i的客户端智能体，其同样适用于路口i为目标路口的情况。

t时刻路口i的当前交通状态信息观测样本o_i,t可以包括路口i各进入车道上车辆的实时最大已等待时长、实时车流量以及该路口的结构编码，可以表示为：

其中，wait(m)_t为t时刻路口i进入车道m上车辆的最大已等待时长，

为t时刻路口i各进入车道上车辆的最大已等待时长，flow(m)_t为t时刻路口i进入车道m上的车流量，

为t时刻路口i各进入车道上的车流量，

为t时刻路口i进入车道m的结构编码，

为t时刻路口i的结构编码。

为路口i的所有进入车道的集合，

为路口i入口方向j(1≤j≤D)的所有进入车道的集合，D为路口i的最大入口方向数。

t时刻路口i的待执行动作可以表示为u_i,t，前一动作为前一时刻的已执行动作，可以表示为u_i,t-1，即t-1时刻路口i的动作。将

和目标路口的前一动作u_i,t-1，采用初始本地共享模型中的智能体共享网络，可以确定出路口i的局部值函数向量。

路口i的可选动作可以有多个，例如路口i的可选动作共有P个，P可以为8，则路口i的局部值函数向量Q_i可以表示为：

其中，

为路口i的可选动作

的局部值函数，τ_i为路口i的交通状态信息观测样本与可选动作的时序对应关系，即观测-动作轨迹。

然后，路口i的客户端智能体基于局部值函数向量，从各可选动作中选取待执行动作在目标路口进行执行。训练过程中选取待执行动作采用的策略为ε-greedy策略，可以先设置阈值ε，并随机生成一个随机数R，则ε-greedy策略可以表示为：

其中，

表示R<ε时在所有可选相位中随机选取可选动作作为待执行动作u_i,t。该待执行动作u_i,t的局部值函数分量是指该待执行动作u_i,t在局部值函数向量Q_i中的局部值函数，即Q_i(τ_i,u_i,t)。

路口i的客户端智能体将待执行动作u_i,t在路口i进行执行，即路口i的客户端智能体根据待执行动作u_i,t，生成路口i各交通信号灯的控制指令，基于控制指令，对各交通信号灯进行控制。在实际交通场景中，执行所得结果即路口i的各交通信号灯产生该待执行动作中的对应动作。根据该执行所得结果，即可得到环境反馈的局部奖励r_i,t。

r_i,t为下一时刻路口i的所有进入车道的排队长度与最大等待时间的加权和的负值，可以通过如下公式计算得到：

其中，queue(m)_t+ΔT、wait(m)_t+ΔT分别为下一时刻路口i所有进入车道的排队长度和车道上车辆的最大已等待时长，α为常数系数，可以根据需要进行设置，例如可以设置为0.2。

进而，路口i的客户端智能体将局部值函数向量Q_i、待执行动作u_i,t的局部值函数分量Q_i(τ_i,u_i,t)和局部奖励r_i,t发送至中央处理器智能体。此处，路口i的客户端智能体将可以直接将Q_i和Q_i(τ_i,u_i,t)发送至中央处理器智能体，也可以对Q_i和Q_i(τ_i,u_i,t)进行处理，并将处理结果发送至中央处理器智能体。设中央处理器智能体接收到的路口i的客户端智能体发送的局部值函数向量、局部值函数分量和局部奖励分别表示为

Q′_i(τ_i,u_i,t)和

可以等于

也可以等于

的处理结果，此处不作具体限定。同样地，Q′_i(τ_i,u_i,t)可以等于Q_i(τ_i,u_i,t)，也可以等于Q_i(τ_i,u_i,t)的处理结果。

由于每个路口的客户端智能体均会将自己的局部值函数向量、待执行动作的局部值函数分量和局部奖励发送至中央处理器智能体，因此中央处理器智能体可以接收到所有路口的客户端智能体发送的局部值函数向量、局部值函数分量和局部奖励，进而中央处理器智能体中的初始全局模型可以根据接收到的各路口的局部值函数向量、局部值函数分量和局部奖励，对应确定道路网络的局部值函数向量集、局部值函数联合向量和全局奖励。

初始全局模型可以将各路口的客户端智能体发送的局部值函数向量进行汇总，得到道路网络的局部值函数向量集Q′。即有：

Q′＝{Q′_i}_i∈A

其中，A为道路网络中各路口的客户端智能体集合。

初始全局模型可以将各路口的客户端智能体发送的局部值函数分量进行汇总，得到道路网络的局部值函数联合向量

即有：

其中，N为道路网络中各路口的总数。

初始全局模型可以将各路口的客户端智能体发送的局部奖励进行汇总，得到道路网络的全局奖励R_t。即有：

中央处理器智能体将确定的道路网络的局部值函数向量集、局部值函数联合向量和全局奖励分发至各路口的客户端智能体。

路口i的客户端智能体接收局部值函数向量集Q′、局部值函数联合向量

和全局奖励R_t，并基于所述局部值函数联合向量

采用初始本地共享模型中的混合网络生成全局值函数Q_total，该全局值函数用于表征各路口的联合动作的累积全局奖励的期望。即有：

此后，路口i的客户端智能体可以根据全局值函数Q_total、全局奖励R_t和局部值函数向量集Q′，对初始本地共享模型进行训练，得到本地共享模型参数。

对初始本地共享模型进行训练的过程，即通过全局值函数Q_total、全局奖励R_t和局部值函数向量集Q′，计算第一损失，并通过该第一损失对初始本地共享模型进行参数迭代，进而得到第一中间本地共享模型，第一中间本地共享模型的模型参数即为本地共享模型参数。

在计算第一损失时，可以先获取局部值函数向量集Q′中除路口i外的其他路口的局部值函数向量构成的第一其他集合{Q′_j}_j≠i，并获取下一时刻t+1对应的第二其他集合

然后根据Q_total、R_t、{Q′_j}_j≠i和

计算第一损失，该第一损失可以通过第一时序差分损失函数计算，即有：

其中，

为第一损失，C1为初始本地共享模型训练时的批处理大小，可以为256，

为初始本地共享模型的所有参数，

为初始本地共享模型对应的评估网络模型的模型参数，γ为折扣因子。

最后，可以根据路口i的时序交通状态信息观测样本，对初始本地私有模型进行更新，得到本地私有模型，该本地私有模型的模型参数即为本地私有模型参数。

对初始本地私有模型进行更新时采用的损失函数可以是第二时序差分损失函数，即有：

其中，C2为初始本地私有模型更新时的批处理大小，可以与C1取值相同，也可以与C1取值不同，

为初始本地私有模型的所有参数，

为初始本地私有模型对应的评估网络模型的模型参数，Q_i,loc为初始本地私有模型基于当前交通状态信息观测样本生成的局部值函数向量。

进而，将本地共享模型参数与本地私有模型参数进行聚合，聚合的方式可以是本地共享模型参数中智能体共享网络的网络参数以一定权重比例与本地私有网络进行融合，并根据融合所得结果对本地共享模型参数中智能体共享网络的网络参数进行更新，以平衡全局泛化性和本地差异性。即有：

其中，β为加权因子，可以设置为0.7，

为本地共享模型参数中智能体共享网络的网络参数。此处等号为将右侧数值赋给左侧。

以及本地共享模型参数中未发生变化的

共同构成聚合所得结果

此后，路口i的客户端智能体将聚合所得结果发送至中央处理器智能体。此时，中央处理器智能体基于各路口的客户端智能体发送的聚合所得结果对初始全局模型的模型参数进行更新，更新的过程可以通过联邦平均算法(Federated Averaging Algorithm，FedAvg)。

更新所得模型参数可以表示为：

其中，

表示当前时刻中央处理器智能体上初始全局模型的更新所得模型参数。

此后，可以将更新所得模型参数进行分发，以使各路口的客户端智能体对其得到的第一本地共享模型的模型参数进行同步更新，即将更新所得模型参数赋给第一本地共享模型，变成第一本地共享模型的模型参数，即有：

上述步骤即构成一个训练过程，迭代执行上述步骤，直至中央处理器智能体中的更新所得模型收敛或达到预设迭代次数。其中，预设迭代次数可以根据需要进行设定，此处不作具体限定。

本发明实施例中，在训练过程中，通过将本地共享模型参数与本地私有模型参数进行聚合，可以平衡全局泛化性和本地差异性，提高本地共享模型的准确性和针对性。

在上述实施例的基础上，本发明实施例中提供的多路口交通信号灯控制方法，所述将所述局部值函数向量、所述待执行动作的局部值函数分量和所述局部奖励发送至所述中央处理器智能体，具体包括：

具体地，本发明实施例中，路口i的客户端智能体向中央处理器智能体发送的局部值函数向量、待执行动作的局部值函数分量和局部奖励可以是经差分隐私保护处理后得到的处理结果。差分隐私保护处理操作的引入，目的是防止攻击者通过相邻数据集的差异推断出原始训练数据。此处，为实现差分隐私保护处理，加入服从拉普拉斯分布和高斯分布的噪音生成隐私阈值波动。即有：

其中，b为常数，DPP为差分隐私保护处理函数,

为备选局部值函数向量，Q′_i(τ_i,u_i,t)为备选局部值函数分量。

本发明实施例中，通过对局部值函数向量和局部值函数分量进行差分隐私保护处理，可以防止攻击者通过相邻数据集的差异推断出局部值函数向量和局部值函数分量，可以保护数据。

在上述实施例的基础上，本发明实施例中提供的多路口交通信号灯控制方法，所述获取当前时刻道路网络内目标路口的交通状态信息，具体包括：

具体地，本发明实施例中，在获取当前时刻道路网络内目标路口的交通状态信息时，可以先确定各路口中最大入口方向数以及各入口方向的最大进入车道数。每个路口均对应有一个入口方向数，从所有路口对应的入口方向数中选取最大值即为最大入口方向数。同样地，每个路口均对应有一个进入车道数，从所有路口对应的进入车道数中选取最大值即为最大进入车道数。

此后，可以先对目标路口的入口方向依照时钟方向做简单修正，以使目标路口的入口方向均沿时钟方向，修正过程不改变目标路口的结构。进而，可以根据最大入口方向数以及最大进入车道数，对目标路口的入口方向和进入车道进行标准化处理。即在不改变目标路口的结构的情况下，将目标路口的入口方向数调整为最大入口方向数，将目标路口的进入车道数调整为最大进入车道数。调整方式可以是增加虚拟入口方向以及虚拟进入车道。

以道路网络中的最大入口方向数为4，入口方向分别为东南西北四个方向，最大进入车道数为12，即每个入口方向均对应有3个进入车道为例，如图2所示，道路网络中4向-12车道路口示意图，包括东(E)、南(S)、西(W)和北(N)四个入口方向，入口方向N对应有L₁、L₂、L₃这3个进入车道，入口方向E对应有L₄、L₅、L₆这3个进入车道，入口方向S对应有L₇、L₈、L₉这3个进入车道，入口方向W对应有L₁₀、L₁₁、L₁₂这3个进入车道。

若目标路口是3向-6车道路口，即入口方向数为3，进入车道数为6，如图3所示。对目标路口的入口方向以及进入车道进行标准化处理之后，得到的目标路口如图4所示，图4中虚线部分即为虚拟入口方向以及虚拟进入车道。图2和图4对比可知，标准化处理之后的目标路口与道路网络中最大入口方向数、最大进入车道数的路口结构相同。对标准化处理之后的目标路口的结构描述信息即为目标路口的标准化结构信息。

然后，根据标准化结构信息，即可确定目标路口的各进入车道的车道连接状态信息。车道连接状态信息用于描述各进入车道的前进方向，即驶向哪个车道。车道连接状态信息可以包括左转/直行/右转及其组合。

此后，根据各进入车道的车道连接状态信息，确定目标路口的结构编码。可以使用Multi-hot编码体现每一进入车道的车道连接状态信息的差异性，对该进入车道上允许的前进方向设1，不允许的设0。

如表1所示，分别为(a)4向-12车道路口和(b)3向-6车道路口的各进入车道的车道连接状态信息，即两个路口的结构编码。

表1 4向-12车道路口和3向-6车道路口的结构编码

最后，采集当前时刻各进入车道上车辆的最大已等待时长以及车流量，以目标路口为路口e为例，则当前时刻各进入车道上车辆的最大已等待时长可以表示为

当前时刻各进入车道上的车流量可以表示为

根据最大已等待时长、车流量以及结构编码

确定当前时刻目标路口的交通状态信息o_e,t。

本发明实施例中，通过对目标路口的入口方向和进入车道进行标准化处理，可以使各路口的客户端智能体与中央处理器智能体之间的传输的数据具有一致性，便于数据传输与模型训练。

在上述实施例的基础上，本发明实施例中提供的多路口交通信号灯控制方法，所述初始本地共享模型、所述初始本地私有模型和所述初始全局模型均基于预先建立的多路口交通信号控制的马尔科夫过程的8元组初始化得到；

具体地，本发明实施例中，采用的初始本地共享模型、初始本地私有模型和初始全局模型均基于预先建立的多路口交通信号控制的马尔科夫过程的8元组初始化得到；

该8元组可以表示为：

<A,S,{U_i}_i∈A,P,R,{O_i}_i∈A,Ω,γ>

其中，A为道路网络中各路口的客户端智能体集合，S为所有客户端智能体的联合状态空间，{U_i}_i∈A为所有客户端智能体的联合动作空间，P为状态转移概率，R为即时奖励函数，{O_i}_i∈A为所有客户端智能体的联合局部观测空间，Ω为观测函数，γ为折扣因子。

特别地，A＝{1,2,…,N}，N为道路网络中各路口的总个数。

定义t时刻联合状态为s_t，则有：

定义将路口i在t时刻的局部观测为o_i,t，则有：

定义该路网内所有路口的联合动作空间U_i为各路口可选动作的个数，是离散动作空间。

在上述实施例的基础上，本发明实施例中提供的多路口交通信号灯控制方法，所述初始本地共享模型、所述初始本地私有模型和所述初始全局模型均基于依次连接的第一多层感知器、门控制循环单元以及第二多层感知器构建得到。

具体地，初始本地私有模型基于智能体私有网络构建，初始本地共享模型及初始全局模型中均包含有智能体共享网络。智能体共享网络以及智能体私有网络均基于依次连接的第一多层感知器(Multilayer Perceptron，MLP)、门控制循环单元(Gated RecurrentUnit，GRU)以及第二多层感知器构建得到，初始本地共享模型中的混合网络以及初始全局模型中的混合网络均基于第三多层感知器构建。

如图5所示，为智能体共享网络或智能体私有网络的处理流程示意图，当前交通状态信息观测样本o_i,t结合u_i,t-1输入至第一MLP，输出结果作为GRU的输入x_t，GRU结合t-1时刻的隐藏层状态h_t-1，输出y_t以及t时刻的隐藏层状态h_t，y_t输入至第二MLP，得到路口i的可选动作

的局部值函数

进而，通过策略π_i选择待执行动作u_i,t及其局部值函数分量Q_i(τ_i,u_i,t)。

如图6所示，为混合网络的处理流程示意图。各路口的局部值函数分量Q_i(τ_i,u_i,t)均输入至第三多层感知器，由第三多层感知器输出全局值函数Q_total(τ,u)。除此之外，第三多层感知器的输入还可以是经差分隐私保护处理后得到的处理结果Q′_i(τ_i,u_i,t)。

在上述实施例的基础上，本发明实施例中提供的多路口交通信号灯控制方法，一个Episode的执行流程包括：

基于所述目标路口的时序交通状态信息观测样本中当前交通状态信息观测样本和所述目标路口的前一动作，采用所述初始本地共享模型，确定所述目标路口的局部值函数向量；基于所述局部值函数向量，从所述可选动作中选取待执行动作在所述目标路口进行执行。

本发明实施例中，一个Episode的总时间设置为3600s，决策间隔为5s，一个Episode中的总决策步数为720步。

综上所述，本发明实施例中提供的多路口交通信号灯控制方法，可以有效解决维度灾难问题，同时实现全局路网交通状况的最优化；基于联邦学习完成数据孤岛场景下多路口交通信号的协同训练，保证原始训练数据不外流，同时能够满足大规模性和全局优化性，执行过程能够有效改善整体路网交通状况，减少路口排队长度、缩短车辆的旅行时间，且参数聚合后的模型具备一定的泛化性和可扩展性。在实际应用中，相比传统交通信号定时控制方法和其他强化学习算法，可以实现数据孤岛场景下的有效控制，减轻中央处理器智能体集中训练的压力；可以提升道路网络内所有车辆的平均行驶速度，减少各路口的排队长度，有效改善整体和局部的交通状况；在小规模道路网络训练好的本地共享模型具有较好的大规模可扩展性，可以直接迁移到大规模道路网络上作为预训练模型，节约新场景下的训练时间。

如图7所示，在上述实施例的基础上，本发明实施例中提供了一种多路口交通信号灯控制装置，包括：

信息获取模块71，用于获取当前时刻道路网络内目标路口的交通状态信息；

动作确定模块72，用于基于所述交通状态信息，采用所述目标路口对应的本地共享模型，确定所述目标路口的目标局部值函数向量，并基于所述目标局部值函数向量，确定所述目标路口的当前动作；

控制模块73，用于基于当前动作，生成所述目标路口各交通信号灯的控制指令，基于所述控制指令，对所述各交通信号灯进行控制；

在上述实施例的基础上，本发明实施例中提供的多路口交通信号灯控制装置，还包括训练模块，用于：

在上述实施例的基础上，本发明实施例中提供的多路口交通信号灯控制装置，所述训练模块，具体用于：

在上述实施例的基础上，本发明实施例中提供的多路口交通信号灯控制装置，所述信息获取模块，具体用于：

在上述实施例的基础上，本发明实施例中提供的多路口交通信号灯控制装置，所述初始本地共享模型、所述初始本地私有模型和所述初始全局模型均基于预先建立的多路口交通信号控制的马尔科夫过程的8元组初始化得到；

在上述实施例的基础上，本发明实施例中提供的多路口交通信号灯控制装置，所述初始本地共享模型、所述初始本地私有模型和所述初始全局模型均基于依次连接的第一多层感知器、门控制循环单元以及第二多层感知器构建得到。

在上述实施例的基础上，本发明实施例中提供的多路口交通信号灯控制装置，所述动作确定模块，具体用于：

具体地，本发明实施例中提供的多路口交通信号灯控制装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(Processor)810、通信接口(Communications Interface)820、存储器(Memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行上述各实施例中提供的多路口交通信号灯控制方法，该方法包括：获取当前时刻道路网络内目标路口的交通状态信息；基于所述交通状态信息，采用所述目标路口对应的本地共享模型，确定所述目标路口的目标局部值函数向量，并基于所述目标局部值函数向量，确定所述目标路口的当前动作；基于当前动作，生成所述目标路口各交通信号灯的控制指令，基于所述控制指令，对所述各交通信号灯进行控制；其中，所述目标局部值函数向量基于所述目标路口各可选动作的局部值函数确定，所述局部值函数用于表征所述目标路口的每个可选动作的累积局部奖励的期望，所述本地共享模型基于所述道路网络内各路口的时序交通状态信息观测样本，采用联邦强化学习算法，对所述目标路口对应的初始本地共享模型、初始本地私有模型和中央处理器智能体中与所述初始本地共享模型结构相同的初始全局模型进行集中-分布式协同训练得到。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例中提供的多路口交通信号灯控制方法，该方法包括：获取当前时刻道路网络内目标路口的交通状态信息；基于所述交通状态信息，采用所述目标路口对应的本地共享模型，确定所述目标路口的目标局部值函数向量，并基于所述目标局部值函数向量，确定所述目标路口的当前动作；基于当前动作，生成所述目标路口各交通信号灯的控制指令，基于所述控制指令，对所述各交通信号灯进行控制；其中，所述目标局部值函数向量基于所述目标路口各可选动作的局部值函数确定，所述局部值函数用于表征所述目标路口的每个可选动作的累积局部奖励的期望，所述本地共享模型基于所述道路网络内各路口的时序交通状态信息观测样本，采用联邦强化学习算法，对所述目标路口对应的初始本地共享模型、初始本地私有模型和中央处理器智能体中与所述初始本地共享模型结构相同的初始全局模型进行集中-分布式协同训练得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例中提供的多路口交通信号灯控制方法，该方法包括：获取当前时刻道路网络内目标路口的交通状态信息；基于所述交通状态信息，采用所述目标路口对应的本地共享模型，确定所述目标路口的目标局部值函数向量，并基于所述目标局部值函数向量，确定所述目标路口的当前动作；基于当前动作，生成所述目标路口各交通信号灯的控制指令，基于所述控制指令，对所述各交通信号灯进行控制；其中，所述目标局部值函数向量基于所述目标路口各可选动作的局部值函数确定，所述局部值函数用于表征所述目标路口的每个可选动作的累积局部奖励的期望，所述本地共享模型基于所述道路网络内各路口的时序交通状态信息观测样本，采用联邦强化学习算法，对所述目标路口对应的初始本地共享模型、初始本地私有模型和中央处理器智能体中与所述初始本地共享模型结构相同的初始全局模型进行集中-分布式协同训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多路口交通信号灯控制方法，其特征在于，包括：

获取当前时刻道路网络内目标路口的交通状态信息；

2.根据权利要求1所述的多路口交通信号灯控制方法，其特征在于，所述本地共享模型采用如下步骤训练得到：

3.根据权利要求2所述的多路口交通信号灯控制方法，其特征在于，所述将所述局部值函数向量、所述待执行动作的局部值函数分量和所述局部奖励发送至所述中央处理器智能体，具体包括：

4.根据权利要求1所述的多路口交通信号灯控制方法，其特征在于，所述获取当前时刻道路网络内目标路口的交通状态信息，具体包括：

5.根据权利要求1所述的多路口交通信号灯控制方法，其特征在于，所述初始本地共享模型、所述初始本地私有模型和所述初始全局模型均基于预先建立的多路口交通信号控制的马尔科夫过程的8元组初始化得到；

6.根据权利要求5所述的多路口交通信号灯控制方法，其特征在于，所述初始本地共享模型、所述初始本地私有模型和所述初始全局模型均基于依次连接的第一多层感知器、门控制循环单元以及第二多层感知器构建得到。

7.根据权利要求1-6中任一项所述的多路口交通信号灯控制方法，其特征在于，所述基于所述目标局部值函数向量，确定所述目标路口的当前动作，包括：

8.一种多路口交通信号灯控制装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的多路口交通信号灯控制方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的多路口交通信号灯控制方法。