CN115762129A

CN115762129A - 交通信号控制方法及模型训练方法、设备及存储介质

Info

Publication number: CN115762129A
Application number: CN202211226797.8A
Authority: CN
Inventors: 于津强; 肖楠; 余亮
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-03-07

Abstract

本申请实施例提供一种交通信号控制方法及模型训练方法、设备及存储介质。在本申请实施例中，可根据目标区域的交通状态信息，确定针对该目标区域的交通控制策略。由于该交通控制策略是根据目标区域的交通状态信息确定的，融合了目标区域各路口的交通状态，因此，根据目标区域的交通控制策略确定出的目标区域中各路口的信号控制参数，也融合了目标区域内各路口的交通状态，可实现区域协调交通控制。因此，相较于单路口信号控制，本实施例提供的交通信号控制方式更为合理，有助于提高区域道路通行效率。

Description

交通信号控制方法及模型训练方法、设备及存储介质

技术领域

本申请涉及交通控制技术领域，尤其涉及一种交通信号控制方法及模型训练方法、设备及存储介质。

背景技术

在交通技术领域中，交通信号灯控制是交通管理的主要手段之一。在对交通信号灯进行控制时，可根据各路口的交通流环境，调整该路口的信号灯参数，以使车辆可更快的通过该路口，提高道路通行效率。

但是，在实际路网环境中，由于路口之间的交通信号灯控制是相互影响的，而单路口交通信号控制的观测范围有限，无法兼顾其它路口的交通信号控制，部分路口的通行效率提高可能导致其它路口拥堵，影响道路整体通行效率。

发明内容

本申请的多个方面提供一种交通信号控制方法及模型训练方法、设备及存储介质，用以实现区域交通信号协调控制，提高区域道路通行效率。

本申请实施例提供一种交通信号控制方法，包括：

获取目标区域的交通状态信息；所述目标区域的交通状态信息包括所述目标区域中各路口的交通状态；

根据所述目标区域的交通状态信息，确定针对所述目标区域的交通控制策略；

根据所述目标区域的交通控制策略，确定所述目标区域中各路口的信号控制参数；

根据所述目标区域中各路口的信号控制参数，对所述各路口进行交通信号控制。

本申请实施例还提供一种模型训练方法，包括：

获取多个交通仿真环境各自对应的交通状态信息；

利用所述多个交通仿真环境对应的交通状态信息，并行对多个本地网络模型进行多轮次训练，以得到所述多个本地网络模型在每个训练轮次对应的训练结果；

根据所述多个本地网络模型在每个训练轮次对应的训练结果，迭代调整所述多个本地网络模型，以得到所述多个本地网络模型在每次迭代后的模型参数；

根据所述多个本地网络模型在每次迭代后的模型参数，迭代调整全局网络模型，直至所述全局网络模型收敛；

将收敛的全局网络模型作为区域控制决策模型，以供利用所述区域控制决策模型确定目标区域的交通控制策略。

本申请实施例还提供一种计算设备，包括：存储器和处理器；其中，所述存储器，用于存储计算机程序；

所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行上述交通信号控制方法和/或模型训练方法中的步骤。

本申请实施例还提供一种存储有计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行上述交通信号控制方法和/或模型训练方法中的步骤。

在本申请实施例中，可根据目标区域的交通状态信息，确定针对该目标区域的交通控制策略。由于该交通控制策略是根据目标区域的交通状态信息确定的，融合了目标区域各路口的交通状态，因此，根据目标区域的交通控制策略确定出的目标区域中各路口的信号控制参数，也融合了目标区域内各路口的交通状态，可实现区域协调交通控制。因此，相较于单路口信号控制，本实施例提供的交通信号控制方式更为合理，有助于提高区域道路通行效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的交通控制系统的结构示意图；

图2为本申请实施例提供的交通信号控制方法的流程示意图；

图3为本申请实施例提供的神经网络模型的架构示意图；

图4为本申请实施例提供的模型训练方法的流程示意图；

图5为本申请实施例提供的本地网络模型的训练过程示意图；

图6为本申请实施例提供的交通信号控制过程和模型更新过程示意图；

图7为本申请实施例提供的计算设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了实现区域交通信号协调控制，在本申请一些实施例中，可根据目标区域的交通状态信息，确定针对该目标区域的交通控制策略。由于该交通控制策略是根据目标区域的交通状态信息确定的，融合了目标区域各路口的交通状态，因此，根据目标区域的交通控制策略确定出的目标区域中各路口的信号控制参数，也融合了目标区域内各路口的交通状态，可实现区域协调交通控制。因此，相较于单路口信号控制，本实施例提供的交通信号控制方式更为合理，有助于提高区域道路通行效率。

以下结合附图，详细说明本申请各实施例提供的技术方案。

应注意到：相同的标号在下面的附图以及实施例中表示同一物体，因此，一旦某一物体在一个附图或实施例中被定义，则在随后的附图和实施例中不需要对其进行进一步讨论。

图1为本申请实施例提供的交通控制系统的结构示意图。如图1所示，该交通控制系统主要包括：位于目标区域P的路口的交通信号灯10、交通控制设备20和服务端设备30。

在本实施例中，目标区域P为交通控制系统可自动控制其交通流量的区域。目标区域P包括多个路口，多个是指2个或2个以上。目标区域P可以为一条道路或多条道路形成的区域，例如可以是已有地理片区，例如一个城市，一个城市的某个区等，也可以是根据交通控制需求，灵活划定的片区，例如某个城市或某个区的繁华地段等，但不限于此。

在本实施例中，路口可以是T形、Y形、十字形、X形、错位、环形等形式的道路交叉口，也可以是单个道路的路口等。道路交叉口是指两条或两条以上道路的交会处。

交通控制设备20主要用于通过指定区域P中各路口的交通信号灯10进行控制的设备，可控制交通信号灯10的信号灯的启亮时间，实现对路口交通的管控。其中，交通控制设备20可部署于交通信号灯10上，也可为独立的设备。在交通信号灯10与交通控制设备20相互独立时，交通控制设备20与交通信号灯10通信连接。交通信号灯10与交通控制设备20之间可以是无线或有线通信连接。可选地，交通信号灯10与交通控制设备20可以通过移动网络通信连接。

相应地，移动网络的网络制式可以为2G(如全球移动通信系统(Global Systemfor Mobile Communications，GSM)等)、2.5G(如，通用无线分组业务(General PacketRadio Service，GPRS)等)、3G(如宽带码分多址(Wideband Code Division MultipleAccess，WCDMA)、时分同步码分多址(Time Division-Synchronous Code DivisionMultiple Access，TD-SCDMA)、码分多址2000(Code Division Multiple Access 2000，CDMA2000)、通用移动通信系统(Universal Mobile Telecommunications System，UTMS)等)、4G(如长期演进(Long Term Evolution，LTE)等)、4G+(如升级版长期演进(LTE-Advanced，LTE-A)等)、5G、全球微波接入互操作性(World Interoperability forMicrowave Access，WiMax)等中的任意一种。可选地，交通信号灯10与交通控制设备20也可以通过蓝牙、WiFi、红外线等方式通信连接。

在本实施例中，服务端设备30是指可以进行交通信息管理，提供与交通信息处理相关的服务的计算机设备，一般具备承担服务并保障服务的能力。服务端设备30可以为单一服务器设备，也可以云化的服务器阵列，或者为云化的服务器阵列中运行的虚拟机(Virtual Machine，VM)。另外，服务端设备也可以指具备相应服务能力的其他计算设备，例如电脑等终端设备(运行服务程序)等。服务端设备30与交通控制设备20之间通信连接，通信连接方式可参见上述交通信号灯10与交通控制设备20之间的通信方式，在此不再赘述。

在本实施例中，服务端设备30可获取目标区域P的交通状态信息。交通状态信息是指反映目标区域P的交通状态的信息，可包括目标区域P中各路口的交通状态。相应地，目标区域P的交通状态信息可包括：采集时间内目标区域P内的车流OD、目标区域P的路径信息及车流量信息等，还可包括：目标区域P内各路段的车流平均密度和平均速度等。车流量信息是指目标区域P中的车辆数。

在本申请实施例中，不限定服务端设备30获取目标区域P的交通状态信息的具体实施方式。在一些实施例中，服务端设备30可获取目标区域P的交通环境信息；并从交通环境信息中，获取目标区域P的交通状态信息。

其中，目标区域P的交通环境信息为目标区域P的实时交通环境信息。目标区域P的交通环境信息是指可反映目标区域P的交通状态的信息，包括但不局限于：目标区域P的路网信息、目标区域P的路径信息、目标区域P内的车流信息及目标区域P内的车辆的跟车模型参数等，但不限于此。

车辆的跟车模型参数是指反映相互跟随的前后车辆之间有关信息的数据，可包括：目标区域P内的车流中前后车的速度差、前后车的距离及跟随车的当前速度等。其中，目标区域P内的车流信息包括但不局限于：目标区域P内的车流的始点和终点(Origin andDestination，OD)、车流的平均速度及车流的平均密度等。

在本申请实施例中，不限定服务端设备30获取目标区域P的交通环境信息的具体实施方式。在一些实施例中，目标区域P内的信息采集设备40可采集目标区域P的交通环境数据。信息采集设备40可为目标区域P的路口的摄像头、目标区域P内的车辆上安装的信号采集器等。其中，图1仅以信息采集设备40为路口的摄像头为例进行图示，但不构成限定。车辆上安装的信号采集器包括但不局限于：定位装置、行车记录仪及车辆运动状态采集装置等。其中，车辆运动状态采集装置采集的运动参数包括但不局限于：车辆的行车速度、加速度及角速率等。其中，路口的摄像头和行车记录仪可采集目标区域P的交通环境图像。相应地，信息采集设备40采集的目标区域P的交通环境数据包括：目标区域P的交通环境图像、目标区域P内的车辆的定位信息及车辆的运动参数等。

进一步，信息采集设备40可将采集的目标区域P的交通环境数据提供给服务端设备30。相应地，服务端设备30可根据目标区域P的交通环境数据，确定目标区域的交通环境信息。例如，服务端设备30可根据目标区域P内的车辆的定位信息及定位信息的时间戳，计算目标区域P内的车辆的平均速度和平均密度等。服务端设备30还可根据目标区域P内的车辆的定位信息和目标区域P的路网信息，确定目标区域P内的车流OD等。

对于目标区域P的路网信息和路径信息，服务端设备30可从电子地图中，获取目标区域P的路网信息和路径信息。

服务端设备30在获取目标区域的交通环境信息之后，可从交通环境信息中，获取目标区域P的交通状态信息。交通环境信息包括交通状态信息。

在本申请实施例中，服务端设备30可根据目标区域P的交通状态信息，确定针对目标区域P的交通控制策略。其中，交通控制策略是针对区域进行交通控制的策略，为单路口的信号控制算法的更高一层的决策。由于该交通控制策略是根据目标区域P的交通状态信息确定的，融合了目标区域P各路口的交通状态，因此，确定出的针对目标区域P的交通控制策略，相较于单路口信号控制更为合理。

在本申请实施例中，不限定交通控制策略的具体策略方式。在一些实施例中，区域的交通控制策略包括：区域协调策略和单路口控制策略。其中，区域协调策略对应对区域进行子区划分、确定区域内各路径的权重及拥堵缓解策略等；单路口控制策略对应单路口的配时方式。下面对区域的交通控制策略进行逐一说明。

区域交通控制策略1：对区域进行子区划分，是指将需要协调控制的路口划分为同一子区。同一子区内处于协调控制的路口的信号周期一致。该策略输出结果为：路口子区关系及子区公共周期。可选地，可将子区内处于协调控制的路口的最大信号周期，作为子区公共周期。

其中，路口的信号周期是指交通信号灯经历各个相位回到初始状态所经历的时长，可等于路口所有相位的相位时间之和。相位，又称交通相位或信号相位。在一个信号周期内，一股或几股车流在任何时刻都获得完全相同的交通信号灯色显示，那么就把它们获得不同灯色(绿灯、黄灯、全红)的连续时序称作一个相位。同一相位的车流可同时被绿灯放行。一个相位的相位时间为该相位的所有交通信号灯的灯色的亮灯时间之和，可等于该相位的绿灯时间、黄灯时间及全红时间之和。全红(all-red-signal)是指交通信号灯从一个相位变化到另一个相位时，路口所有进口的信号灯全部为红灯，其目的是清空该路口内的车辆。

区域交通控制策略2：确定区域内各路径的权重。可通过调节区域内每条路径的权重，实现区域协调控制意图；权重越大的路径协调效果越好，车流越顺畅，一般是流量大的路径权重大。该策略的输出结果为区域内各路径的权重。路径的权重影响该路径的绿波带宽度。路径的权重越大，绿波带宽度越大，该路径车流越畅通。

其中，绿波带是指以一定车速行驶的车辆在具有协调的绿灯信号变换控制的道路上，通过各交叉口时所遇到的一连串绿灯信号。相应地，绿波带宽度是指联动控制干道上按规定时速行驶的汽车，能连续通过各个路口绿灯通行带的宽度。

区域交通控制策略3：拥堵缓解策略。拥堵缓解策略是指缓解道路交通拥堵的策略，可包括：缓进快出策略和排队防溢出策略。其中，缓进快出策略可通过调节路口各相位的最大绿灯时间和最小绿灯时间，控制驶入和驶出拥堵区域的车流量，达到降低拥堵区域车流密度的目的。在路口的相位的绿灯时间达到最大绿灯时间时，即使该相位有车辆也要结束该相位，而在该相位的绿灯时间未达到最小绿灯时间时，不进行信号切换。

排队均衡防溢出策略，可通过调节路口的绿信比使区域的各进口道排队均衡，降低排队溢出风险。路口的绿信比是指该路口的交通信号灯的绿信比，具体是指交通信号灯的每个相位的绿灯时间占交通信号灯周期的比例，此时，绿信比可以表示为一个百分比。需要注意的是，交通信号灯的绿信比也可直接用绿灯时间来表示，此时，绿信比可以表示为一个时间信息。

上述区域交通控制策略3的输出结果为：是否采用缓进快出策略和/或排队防溢出策略，包括：采用缓进快出策略和排队防溢出策略，采用排队防溢出策略，采用缓进快出策略，不采用缓进快出策略和排队防溢出策略等4种输出结果。

区域交通控制策略4：路口控制策略，输出结果为区域内各路口的配时方式。配时是指为路口的交通信号灯配置信号控制参数。其中，交通信号灯的信号控制参数包括但不局限于：交通信号灯的周期、绿信比及相位差等。交通信号灯的相位差是指两个路口信号周期中第一个相位绿灯的起始时间之差。在本申请实施例中，可设置区域内的任一路口为基准路口，基础路口的相位差为0。相应地，其它路口的交通信号灯的相位差为其它路口与基准路口的信号周期中第一个相位绿灯的起始时间之差。

路口的配时方式可包括：模式1，周期级单点配时模式，每个周期开始时，确定路口在该周期的每个相位的时长，之后按照确定出的相位时长，对该路口在该周期内进行交通信号控制；模式2，秒级单点自适应模式，路口的实时车流量和预测的车流量，实时确定相位时长；模式3，协调模式，周期开始时确定本周期的相位时长，并协调相位的相位起始时间，允许少量增减，车流量大的路径上的路口效果好。

相应地，上述区域交通控制策略4的输出结果为：区域内各路口的配时模式。

在本申请实施例中，服务端设备30可确定出目标区域P的交通控制策略，交通控制策略可包括上述实施例示出的区域交通控制策略1-4中的一种或多种，多种是指2种或2种以上。优选地，交通控制策略包括上述区域交通控制策略1-4。相应地，交通控制策略包括：目标区域P的子区划分结果及子区的公共周期；目标区域P中各路径的权重；目标区域P是否使用拥堵缓解策略及使用的哪种拥堵缓解策略；以及目标区域P中各路口的配时模式等。

在确定出目标区域P的交通控制策略之后，服务端设备30可根据目标区域的交通控制策略，确定目标区域P中各路口的信号控制参数。其中，路口的信号控制参数可包括：交通信号灯的周期、绿信比和相位差等。

进一步，服务端设备30可将目标区域P中各路口的信号控制参数提供给交通控制设备20。相应地，交通控制设备20可根据目标区域P中各路口的信号控制参数，对目标区域P中各路口进行交通信号控制。具体地，交通控制设备20可根据目标区域P中各路口的信号控制参数，确定目标区域P中各路口的各色信号灯的启亮时间和相位时长，并按照目标区域P中各路口的各色信号灯的启亮时间和相位时长，对各路口的交通信号灯进行交通信号控制。

在本实施例中，服务端设备30可部署于云端，交通控制设备20可部署于交通信号灯10相邻近的位置，实现对交通信号的云边协调控制。由于交通控制设备20可部署于交通信号灯10相邻近的位置，可提高交通信号控制效率。

本实施例提供的交通控制系统，可根据目标区域的交通状态信息，确定针对该目标区域的交通控制策略。由于该交通控制策略是根据目标区域P的交通状态信息确定的，融合了目标区域P各路口的交通状态，因此，根据目标区域的交通控制策略确定出的目标区域中各路口的信号控制参数，也融合了目标区域内各路口的交通状态，可实现区域协调交通控制。因此，相较于单路口信号控制，本实施例提供的交通信号控制方式更为合理，有助于提高区域道路通行效率。

值得说明的是，上述交通控制设备20对目标区域P内的各路口进行交通信号控制的实施步骤，也可由服务端设备30执行。下面结合方法实施例，对服务端设备进行交通信号控制的过程进行示例性说明。

图2为本申请实施例提供的交通信号控制方法的流程示意图。如图2所示，该方法主要包括以下步骤：

201、获取目标区域的交通状态信息；目标区域的交通状态信息包括目标区域中各路口的交通状态。

202、根据目标区域的交通状态信息，确定针对目标区域的交通控制策略。

203、根据目标区域的交通控制策略，确定目标区域中各路口的信号控制参数。

204、根据目标区域中各路口的信号控制参数，对目标区域中各路口进行交通信号控制。

在本实施例中，关于步骤201的具体实施方式，可参见上述系统实施例的相关内容，在此不再赘述。

在步骤202中，可根据目标区域的交通状态信息，确定针对目标区域的交通控制策略。关于区域的交通控制策略的描述，可参见上述系统实施例的相关内容，在此不再赘述。

在本申请实施例中，不限定根据目标区域的交通状态信息，确定目标区域的交通控制策略的具体实施方式。

在一些实施例中，可利用神经网络模型根据目标区域的交通状态信息，确定针对目标区域的交通控制策略。在本申请实施例中，将用于确定区域的交通控制策略的神经网络模型，定义为区域控制决策模型。在本申请实施例中，不限定区域控制决策模型的具体实现形态。可选地，区域控制决策模型可为深度学习模型或强化学习模型。无论使用哪种形态的神经网络模型，在使用之前均需要进行模型训练。

在一些传统方案中，可采用深度强化学习方法进行模型训练。每进行一次模型训练，可朝着梯度下降的方向更新模型参数，可寻找出在不同交通流状态下对应的最优的控制策略组合。传统的基于强化学习的区域信号优化算法，是对每一个路口单独训练。路口间的协调有两种实现方式，一是通过路口间信息交换的方式间接实现路口间协调，二是通过多智能体(multi-agent)强化学习，多智能体共享一个区域总的价值函数。不管采用哪种方式，随着路网范围的扩大和交通场景的多样化，导致智能体个体决策对整个神经网络的奖励之间的相关性越来越难以刻画，使得深度强化学习网络很难收敛，导致使用神经网络模型决策区域的交通控制策略难以实现。

在本申请实施例中，为了能够实现神经网络模型收敛，提出并行仿真方式。可选地，如图3所示，区域控制决策模型对应的初始模型可包括：多个本地网络模型和全局网络模型。多个是指2个或2个以上。图3仅以本地网络模型的数量为n个进行图示。n≥2，且为整数。可选地，可采用异步执行器-评价器(Asynchronous Advantage Actor-Critic，A3C)对区域决策模型进行强化学习训练。A3C可利用多线程并行独立采样数据，一方面保证数据的多样性，另一方面可提高学习效率，可通过异步学习发挥并行学习的优势。

相应地，本申请实施例还提供模型训练方法，如图4所示，模型训练方法主要包括：

401、获取多个交通仿真环境各自对应的交通状态信息；交通仿真环境的数量与本地网络模型的数量相同。

402、根据多个交通仿真环境对应的交通状态信息，并行对多个本地网络模型进行多轮次训练，以得到多个本地网络模型在每个训练轮次对应的训练结果。

403、根据多个本地网络模型在每个训练轮次对应的训练结果，迭代调整多个本地网络模型的模型参数，以得到多个本地网络模型在每次迭代后的模型参数。

404、根据多个本地网络模型在每次迭代后的模型参数，迭代调整全局网络模型的模型参数，直至全局网络模型收敛。

405、将收敛的全局网络模型作为区域控制决策模型，以供利用区域控制策略模型确定目标区域的交通控制策略。

在本实施例中，交通仿真环境是指对实际交通环境进行仿真得到的交通环境。在本实施例中，可获取历史时间段的真实的历史交通环境，并根据历史时间段的真实的历史交通环境，构建交通仿真环境库。在本实施例中，不限定历史时间段的具体取值。例如，历史时间段可为过去一周、一个月或多个月等。历史时间段的真实的历史交通环境为多样性的交通环境，可包括多种交通环境。或者，在另一些实施例中，也可利用仿真器交通仿真环境，得到交通仿真环境库。具体地，可修改仿真器参数，得到多种交通仿真环境等等。交通仿真环境可以交通环境信息表示。关于交通环境信息的描述，可参见上述系统实施例的相关内容，在此不再赘述。

在本实施例中，不限定步骤401获取的交通仿真环境的具体数量。优选地，交通仿真环境的数量与本地网络模型的数量相等。交通仿真环境的交通状态信息是指反映该交通仿真环境的交通状态的信息，可包括：设定时间段内的仿真区域的车流OD、仿真区域的路径信息及车流量信息等，还可包括：仿真区域内各路段的车流平均密度和平均速度等。车流量信息是指区域中的车辆数。在该仿真区域是指交通仿真环境所仿真的区域。

关于从交通仿真环境，获取交通状态信息的具体实施方式，可参见上述系统实施例中，从交通环境信息中，获取交通状态信息的相关内容，在此不再赘述。

在获取多个交通仿真环境各自对应的交通状态信息之后，在步骤402中，可根据多个交通仿真环境对应的交通状态信息，并行对多个本地网络模型进行多轮次训练，以得到多个本地网络模型在每个训练轮次对应的训练结果。

在本实施例中，如上述图3所示，每个本地网络模型对应一个线程。每个线程独立地进行训练学习。本地网络模型与全局网络模型具有相同的网络架构。本地网络模型和全局网络模型在模型训练阶段的输入为交通仿真状态的交通状态信息(记为s)；输出为交通状态信息相关的仿真区域的交通控制策略π(s)和价值V(s)。价值V(s)是指输入的交通状态信息的价值，也称为状态价值，用于评估全局网络模型中的评价器模型，可通过评价器模型学习得到。

具体地，针对任一训练轮次X，可根据该训练轮次X的多个本地网络模型根据该训练轮次X输入的多个交通仿真环境的交通状态信息，确定训练轮次X的多个本地网络模型输出的目标区域交通控制策略。需要说明的是，第一个训练轮次的多个本地网络模型的输入为步骤401获取的多个交通仿真环境对应的交通状态信息。

进一步，可根据训练轮次的多个本地网络模型输出的目标区域交通控制策略，更新任一训练轮次对应的多个交通仿真环境，以得到多个更新后的交通仿真环境，作为多个本地网络模型在训练轮次X对应的训练结果。

可选地，针对任一本地网络模型A，可根据训练轮次X使用的本地网络模型A输出的目标区域交通控制策略，确定训练轮次X使用的本地网络模型A对应的交通仿真环境中各路口的信号控制参数。

在本申请实施例中，目标区域交通控制策略为上述区域交通控制策略，可包括：仿真区域的区域协调策略和仿真区域内的单路口控制策略。相应地，可采用目标区域协调策略和单路口控制策略，融合计算目标区域中各路口的信号控制参数。

在本实施例中，每个交通仿真环境对应有各自的信号控制算法。信号控制算法可属于交通仿真环境的一部分。其中，每个交通仿真环境包含的信号控制算法包括但不局限于：单路口周期配时优化算法、单点自适应控制算法、区域网状绿波协调算法、单路口排队均衡算法及区域缓进快出算法等。其中，单路口周期配时优化算法与单点自适应控制算法均属于信号配时优化算法。在本申请实施例中，不限定每种信号控制算法的具体实现方式，且信号控制算法的具体实施方式非本申请发明点。因此，不做过多赘述。

基于每个交通仿真环境包含的信号控制算法，在根据任一训练轮次X使用的任一本地网络模型A输出的目标区域交通控制策略，确定训练轮次X使用的本地网络模型A对应的交通仿真环境中各路口的信号控制参数时，可根据训练轮次X使用的本地网络模型A输出的仿真区域的交通控制策略，从预设的信号控制算法中确定与训练轮次X使用的本地网络模型A输出的仿真区域的交通控制策略适配的目标信号控制算法；进一步，可利用训练轮次X使用的本地网络模型A输出的仿真区域的交通控制策略适配的目标信号控制算法和训练轮次X使用的本地网络模型A输出的仿真区域的交通控制策略，确定训练轮次X使用的本地网络模型A对应的交通仿真环境中各路口的信号控制参数。

在一些实施例中，训练轮次X使用的本地网络模型A输出的仿真区域的交通控制策略包括：仿真区域的子区划分结果、仿真区域内各路径的权重及仿真区域内各路口的配时方式。相应地，训练轮次X使用的本地网络模型A输出的仿真区域的交通控制策略适配的目标信号控制算法，可包括：区域网状绿波协调算法及仿真区域内各路口的配时方式对应的信号配时优化算法。

相应地，可从训练轮次X使用的本地网络模型A输出的仿真区域的子区划分结果中，获取仿真区域内需要协调控制的至少一个子区及至少一个子区的公共信号周期；并从训练轮次X使用的本地网络模型A输出的仿真区域内各路径的权重中，获取至少一个子区内路径的权重；之后，可采用区域网状绿波协调算法根据至少一个子区内路径的权重，确定至少一个子区内各路口包含的相位的绿波带宽度。

可选地，可根据至少一个子区内路径的权重及上述至少一个子区内的路径的车流量，构建以以至少一个子区内各路口包含的相位的绿波带宽度为待求量的数学模型；以可以至少一个子区内各路口包含的相位的绿波带宽度最大化为目标，对该数学模型进行求解，以得到至少一个子区内各路口包含的相位的绿波带宽度。

进一步，可根据至少一个子区内各路口包含的相位的绿波带宽度及至少一个子区的公共信号周期，采用上述至少一个子区内的各路口的信号配时方式适配的信号配时优化算法，对至少一个子区各路口进行信号配时，以得到训练轮次X使用的本地网络模型A输出的仿真区域包含的至少一个子区内各路口的信号控制参数，进而得到训练轮次X使用的本地网络模型A对应的交通仿真环境中各路口的信号控制参数。

在另一些实施例中，训练轮次X使用的本地网络模型A输出的仿真区域的交通控制策略包括：拥堵缓解策略。在一些实施例中，拥堵缓解策略为缓进快出的拥堵缓解策略。相应地，训练轮次X使用的本地网络模型A输出的仿真区域的交通控制策略适配的目标信号控制算法，可包括：区域缓进快出算法。相应地，可以至少一个子区内的车流密度满足设定的车流密度要求为目的，采用区域缓进快出算法调整至少一个子区内各路口包含的相位的最大绿灯时间和最小绿灯时间；并根据至少一个子区内各路口包含的相位的最大绿灯时间和最小绿灯时间、至少一个子区内各路口包含的相位的绿波带宽及至少一个子区的公共信号周期，采用目标区域内各路口的信号配时方式对应的信号配时优化算法，对至少一个子区内各路口进行信号配时，以得到训练轮次X使用的本地网络模型A输出的仿真区域包含的至少一个子区内各路口的信号控制参数，进而得到训练轮次X使用的本地网络模型A对应的交通仿真环境中各路口的信号控制参数。

在另一些实施例中，拥堵缓解策略为排队均衡防溢出的拥堵缓解策略。相应地，训练轮次X使用的本地网络模型A输出的仿真区域的交通控制策略适配的目标信号控制算法，可包括：单路口排队均衡算法。相应地，可以所述至少一个子区内的各路口的进口相位的排队车流均衡为目标，采用所述单路口排队均衡算法调整所述至少一个子区内的进口相位的绿信比，以得到所述至少一个子区内的各路口的进口相位的目标绿信比。进一步，可根据至少一个子区内的各路口的进口相位的目标绿信比、至少一个子区内各路口包含的相位的绿波带宽及至少一个子区的公共信号周期，采用目标区域内各路口的信号配时方式对应的信号配时优化算法，对至少一个子区内各路口进行信号配时，以训练轮次X使用的本地网络模型A输出的仿真区域包含的至少一个子区内各路口的信号控制参数，进而得到训练轮次X使用的本地网络模型A对应的交通仿真环境中各路口的信号控制参数。

在得到任一训练轮次X使用的任一本地网络模型A对应的交通仿真环境中各路口的信号控制参数之后，可根据任一训练轮次X使用的任一本地网络模型A对应的交通仿真环境中各路口的信号控制参数，预测对任一训练轮次X使用的任一本地网络模型A对应的交通仿真环境中车流的影响；进一步，可根据对任一训练轮次X使用的任一本地网络模型A对应的交通仿真环境中车流的影响，更新训练轮次X使用的本地网络模型A对应的交通仿真环境，以得到任一本地网络模型A对应的更新后的交通仿真环境。

采用上述相同的实施方式，可得到任一训练轮次X使用的多个本地网络模型各自对应的更新后的交通仿真环境，即多个更新后的交通仿真环境；并将训练轮次X得到的多个更新后的交通仿真环境，作为多个本地网络模型在训练轮次X对应的训练结果。

进一步，在步骤403中，可根据多个本地网络模型在每个训练轮次对应的训练结果，迭代调整多个本地网络模型的模型参数，以得到多个本地网络模型在每次迭代后的模型参数；进一步，在步骤404中，可根据多个本地网络模型在每次迭代后的模型参数，迭代调整全局网络模型的模型参数，直至全局网络模型收敛。进一步，在步骤405中，可将收敛的全局网络模型作为上述实时在线确定目标区域的交通控制策略的区域控制决策模型。

本实施例提供的模型训练方法，多个本地网络模型的并行训练，有助于提高模型训练效率，提升全局网络模型的收敛速度。另一方面，由于多个本地网络模型的训练结果融合了多种交通仿真环境，因此，根据多个本地网络模型在每个训练轮次对应的训练结果，迭代调整多个本地网络模型的模型参数，根据多个本地网络模型在每次迭代后的模型参数，迭代调整全局网络模型的模型参数，可使全局网络模型也融合多种交通环境，有助于提高训练出的区域控制决策模型后续进行区域交通控制策略决策的准确度。

此外，上述模型训练方法利用强化学习和并行训练，对区域交通控制策略加以学习，而将单路口的具体信号控制交由底层的路口信控算法执行，观测的状态以区域内的宏观交通参数(如区域的交通状态信息)为主，忽略单车位置这样的精细状态，可降低交通环境变量和控制参数的维度，使模型训练可以收敛，区域整体最优成为可能。

在本申请实施例中，不限定上述步骤403和步骤404的执行顺序，在一些实施例中，步骤403和步骤404可交叉实施。例如，上述步骤403可实施为：针对任一训练轮次X，根据多个更新后的交通仿真环境，调整任一训练轮次X使用的多个本地网络模型的模型参数，以得到任一训练轮次X使用的多个本地网络模型的调整后的模型参数。

具体地，可根据任一本地网络模型A对应的更新后的交通仿真环境，确定A本地网络模型对应的更新后的交通仿真环境中的车辆的平均延误时间。在本申请实施例中，车辆的延误时间是指车辆实际行车时间与车辆在自由流状态下不停车的行驶时间之间的时间差。自由流是指车辆按照道路规定的限行速度行驶的状态。

进一步，可以任一本地网络模型A对应的更新后的交通仿真环境中的车辆在设定时长内的平均延误时间为奖励，采用策略梯度(Policy Gradient)算法调整训练轮次X使用的本地网络模型A的模型参数，以得到训练轮次X使用的本地网络模型A的调整后的模型参数。

相应地，步骤404可实现为：根据任一训练轮次X使用的多个本地网络模型的调整后的模型参数，联合调整任一训练轮次X使用的全局网络模型的模型参数，以得到任一训练轮次X使用的全局网络模型的调整后的模型参数。

具体地，可根据任一训练轮次X使用的多个本地网络模型的调整后的模型参数，确定任一训练轮次X使用的多个本地网络模型对应的模型参数梯度；并根据任一训练轮次X使用的多个本地网络模型对应的模型参数梯度，采用决策梯度算法联合调整训练轮次X使用的全局网络模型的模型参数，以得到训练轮次X使用的全局网络模型的调整后的模型参数。

在本实施例中，由于调整模型参数后的全局网络模型融合了多个本地网络模型对应的多种仿真交通环境，因此，在上述步骤403中，还可根据任一训练轮次X使用的全局网络模型的调整后的模型参数，调整任一训练轮次X使用的多个本地网络模型的模型参数，以得到任一训练轮次X的下一训练轮次使用的多个本地网络模型。这样，可使本地网络模型也可融合多种仿真交通环境，有助于提高全局网络模型收敛速度。

进一步，可将上述得到的任一训练轮次X使用的多个本地网络模型对应的多个更新后的交通仿真环境对应的交通状态信息，作为训练轮次X的下一训练轮次使用的多个本地网络模型的输入，分别输入至上述步骤403中得到的训练轮次X的下一训练轮次使用的多个本地网络模型，循环执行上述示出的任一训练轮次X的训练过程直至全局网络模型收敛；并将收敛的全局网络模型作为区域控制决策模型。

在模型训练过程中，每个独立的交通仿真环境对应独立的本地网络模型。如图5所示，可按照设定的时间片从交通仿真环境E_i中，在每个时间片(如5分钟等)获取仿真区域的交通状态信息S_i；并将交通状态信息S_i输入至当前的本地网络模型中，得到仿真区域的交通控制策略a_i。其中，i表示第i个训练轮次。每个时间片对应一个训练轮次。之后，可根据当前时间片输出的交通控制策略a_i，更新交通仿真环境，得到更新后的交通仿真环境E_i+1；并从更新后的交通仿真环境E_i+1中，获取下一时间片(下一训练轮次)输入的交通状态信息S_i+1。进一步，还可根据从更新后的交通仿真环境E_i+1中，获取当前的本地网络模型的奖励r_i。在本实施例中，可从更新后的交通仿真环境E_i+1中，获取仿真区域中车辆的平均延误时间，作为当前的本地网络模型的奖励r_i。进一步，可根据当前的本地网络模型的奖励r_i，采用决策梯度算法更新本地网络模型的模型参数，以得到本地网络模型更新后的模型参数θ(本地i+1)。进一步，可根据当前训练轮次i得到的多个本地网络模型的模型参数θ(本地i+1)，联合更新全局网络模型的模型参数，以得到全局网络模型的更新后的模型参数θ(全局i+1)。进一步，在下一训练轮次(第(i+1)训练轮次开始时)，本地网络模型对应的多个线程可从全局网络模型拉取全局网络模型的模型参数θ(全局i+1)，并将全局网络模型的模型参数θ(全局i+1)，复制至本地网络模型，即第(i+1)训练轮次使用的本地网络模型的模型参数等于θ(全局i+1)。进一步，可将更新后的仿真交通环境的交通状态信息S_i+1输入第i+1次训练使用的本地网络模型中，并循环执行上述第i训练轮次的步骤，直至全局网络模型收敛。将收敛的全局网络模型作为区域控制决策模型。

基于上述实施例得到的区域控制决策模型，上述步骤203的一种实施方式为：将目标区域的交通状态信息输入区域控制决策模型；并利用区域控制决策模型根据目标区域的交通状态信息，确定针对目标区域的交通控制策略。

进一步，在步骤204中，可根据目标区域的交通控制策略，确定目标区域中各路口的信号控制参数。其中，关于信号控制参数的描述，可参见上述系统实施例的相关内容，在此不再赘述。

在一些实施例中，区域的交通控制策略的下层设置有多种信号控制算法。关于信号控制算法的描述，可参见上述实施例的相关内容，在此不再赘述。不同信号控制算法适用于不同的区域的交通控制策略。例如，单路口周期配时优化算法适用于上述区域交通控制策略4中的模式1，单点自适应控制算法适用于上述区域交通控制策略4中的模式2，区域网状绿波协调算法适用于上述区域交通控制策略2，单路口排队均衡算法适用于上述区域交通控制策略3中的缓进快出策略，区域缓进快出算法适用于上述区域交通控制策略3中的排队防溢出策略等。

基于上述多种信号控制算法，如图6所示，步骤204的一种实施方式为：根据目标区域的交通控制策略，从预设的信号控制算法中确定与目标区域的交通控制策略适配的目标信号控制算法；进一步，可利用目标信号控制算法和目标区域的交通控制策略，确定目标区域中各路口的信号控制参数。

在一些实施例中，目标区域的交通控制策略包括：目标区域的子区划分结果、目标区域内各路径的权重及目标区域内各路口的配时方式。相应地，目标区域的交通控制策略适配的目标信号控制算法，可包括：区域网状绿波协调算法及目标区域内各路口的配时方式对应的信号配时优化算法。

相应地，可从目标区域的子区划分结果中，获取目标区域内需要协调控制的至少一个子区及至少一个子区的公共信号周期；并从目标区域内各路径的权重中，获取至少一个子区内路径的权重；之后，可采用区域网状绿波协调算法根据至少一个子区内路径的权重，确定至少一个子区内各路口包含的相位的绿波带宽度。

可选地，可根据至少一个子区内路径的权重及上述至少一个子区内的路径的车流量，构建以至少一个子区内各路口包含的相位的绿波带宽度为待求量的数学模型；以可以至少一个子区内各路口包含的相位的绿波带宽度最大化为目标，对该数学模型进行求解，以得到至少一个子区内各路口包含的相位的绿波带宽度。

进一步，可根据至少一个子区内各路口包含的相位的绿波带宽度及至少一个子区的公共信号周期，采用上述至少一个子区内的各路口的信号配时方式适配的信号配时优化算法，对至少一个子区各路口进行信号配时，以得到目标区域包含的至少一个子区内各路口的信号控制参数，进而得到目标区域中各路口的信号控制参数。

在另一些实施例中，目标区域的交通控制策略包括：拥堵缓解策略。在一些实施例中，拥堵缓解策略为缓进快出的拥堵缓解策略。相应地，目标区域的交通控制策略适配的目标信号控制算法，可包括：区域缓进快出算法。相应地，可以至少一个子区内的车流密度满足设定的车流密度要求为目的，采用区域缓进快出算法调整至少一个子区内各路口包含的相位的最大绿灯时间和最小绿灯时间；并根据至少一个子区内各路口包含的相位的最大绿灯时间和最小绿灯时间、至少一个子区内各路口包含的相位的绿波带宽及至少一个子区的公共信号周期，采用目标区域内各路口的信号配时方式对应的信号配时优化算法，对至少一个子区内各路口进行信号配时，以得到目标区域包含的至少一个子区内各路口的信号控制参数，进而得到目标区域中各路口的信号控制参数。

在另一些实施例中，拥堵缓解策略为排队均衡防溢出的拥堵缓解策略。相应地，目标区域的交通控制策略适配的目标信号控制算法，可包括：单路口排队均衡算法。相应地，可以至少一个子区内的各路口的进口相位的排队车流均衡为目标，采用单路口排队均衡算法调整至少一个子区内的进口相位的绿信比，以得到至少一个子区内的各路口的进口相位的目标绿信比。进一步，可根据至少一个子区内的各路口的进口相位的目标绿信比、至少一个子区内各路口包含的相位的绿波带宽及至少一个子区的公共信号周期，采用目标区域内各路口的信号配时方式对应的信号配时优化算法，对至少一个子区内各路口进行信号配时，以得到目标区域包含的至少一个子区内各路口的信号控制参数，进而得到目标区域中各路口的信号控制参数。

上述实施例示出的根据目标区域的交通控制策略，确定目标区域中各路口的交通信号参数的实施方式仅为示例性说明，并不构成限定。

在得到目标区域中各路口的交通信号参数之后，在步骤205中，可根据目标区域中各路口的交通信号参数，对目标区域中各路口进行交通信号控制。具体地，可根据目标区域中各路口的信号控制参数，确定目标区域中各路口的各色信号灯的启亮时间和相位时长，并按照目标区域中各路口的各色信号灯的启亮时间和相位时长，对各路口的交通信号灯进行交通信号控制。

在本实施例中，可根据目标区域的交通状态信息，确定针对该目标区域的交通控制策略。由于该交通控制策略是根据目标区域的交通状态信息确定的，融合了目标区域各路口的交通状态，因此，根据目标区域的交通控制策略确定出的目标区域中各路口的信号控制参数，也融合了目标区域内各路口的交通状态，可实现区域协调交通控制。因此，相较于单路口信号控制，本实施例提供的交通信号控制方式更为合理，有助于提高区域道路通行效率。

在本申请实施例中，为了进一步提高训练出的区域控制决策模型的适应性与准确度，还可区域控制决策模型进行更新。具体地，在上述步骤205之后，可获取对目标区域中各进行交通信号控制之后的目标区域的交通环境信息；并根据对目标区域中各路口进行交通信号控制之后的所述目标区域的交通环境信息，确定对目标区域中各路口进行交通信号控制之后的交通状态信息。具体地，可根据对目标区域中各路口进行交通信号控制之后的所述目标区域的交通环境信息，构建交通仿真环境(对应图6的交通环境仿真)。进一步，可从构建的交通仿真环境中获取对目标区域中各路口进行交通信号控制之后的交通状态信息。

进一步，可利用对目标区域中各路口进行交通信号控制之后的交通状态信息，对上述区域控制模型进行更新从对目标区域中各路口进行交通信号控制之后的交通状态信息中，获取对目标区域中各路口进行交通信号控制之后，目标区域中车辆的平均延迟时间；将对目标区域中各路口进行交通信号控制之后目标区域中车辆的平均延迟时间作为区域控制决策模型的奖励，采用决策梯度算法更新区域控制决策模型的模型参数，实现对区域控制决策模型的更新(对应图6中的模型训练)。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤401和402的执行主体可以为设备A；又比如，步骤401的执行主体可以为设备A，步骤402的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如401、402等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

相应地，本申请实施例还提供一种存储有计算机指令的计算机可读存储介质，当计算机指令被一个或多个处理器执行时，致使一个或多个处理器执行上述交通信号控制方法和/或模型训练方法中的步骤。

图7为本申请实施例提供的计算设备的结构示意图。如图7所示，该计算设备主要包括：存储器70a和处理器70b。存储器70a，用于存储计算机程序。

处理器70b耦合至存储器70a，用于执行计算机程序以用于：获取目标区域的交通状态信息；根据目标区域的交通状态信息，确定针对目标区域的交通控制策略；根据目标区域的交通控制策略，确定目标区域中各路口的信号控制参数；以及，根据目标区域中各路口的信号控制参数，对各路口进行交通信号控制。

可选地，处理器70b在获取目标区域的交通状态信息时，具体用于：获取目标区域的交通环境信息；从交通环境信息，获取目标区域的交通状态信息。

可选地，处理器70b在根据目标区域的交通状态信息，确定针对目标区域的交通控制策略时，具体用于：将目标区域的交通状态信息输入区域控制决策模型；利用区域控制决策模型根据目标区域的交通状态信息，确定针对目标区域的交通控制策略。

其中，区域控制决策模型对应的初始模型包括：多个本地网络模型和全局网络模型。相应地，处理器70b还用于：获取多个交通仿真环境各自对应的交通状态信息；交通仿真环境的数量与本地网络模型的数量相同；根据多个交通仿真环境对应的交通状态信息，并行对多个本地网络模型进行多轮次训练，以得到多个本地网络模型在每个训练轮次对应的训练结果；根据多个本地网络模型在每个训练轮次对应的训练结果，迭代调整多个本地网络模型的模型参数，以得到多个本地网络模型在每次迭代后的模型参数；根据多个本地网络模型在每次迭代后的模型参数，迭代调整全局网络模型的模型参数，直至全局网络模型收敛；并将收敛的全局网络模型作为区域控制决策模型。

可选地，处理器70b在根据多个交通仿真环境对应的交通状态信息，并行对多个本地网络模型进行多轮次训练时，具体用于：针对任一训练轮次，根据任一训练轮次的多个本地网络模型根据任一训练轮次输入的多个交通仿真环境的交通状态信息，确定任一训练轮次的多个本地网络模型输出的目标区域交通控制策略；根据任一训练轮次的多个本地网络模型输出的目标区域交通控制策略，更新任一训练轮次对应的多个交通仿真环境，以得到多个更新后的交通仿真环境，作为多个本地网络模型在任一训练轮次对应的训练结果；其中，第一个训练轮次的多个本地网络模型的输入为多个交通仿真环境对应的交通状态信息。

可选地，处理器70b在根据多个本地网络模型在每个训练轮次对应的训练结果，迭代调整多个本地网络模型参数时，具体用于：针对任一训练轮次，根据多个更新后的交通仿真环境，调整任一训练轮次使用的多个本地网络模型的模型参数，以得到任一训练轮次使用的多个本地网络模型的调整后的模型参数。

相应地，处理器70b在根据多个本地网络模型在每次迭代后的模型参数，迭代调整全局网络模型的模型参数时，具体用于：根据任一训练轮次使用的多个本地网络模型的调整后的模型参数，联合调整任一训练轮次使用的全局网络模型的模型参数，以得到任一训练轮次使用的全局网络模型的调整后的模型参数。

进一步，处理器70b在根据多个本地网络模型在每个训练轮次对应的训练结果，迭代调整多个本地网络模型的模型参数，还用于：根据任一训练轮次使用的全局网络模型的调整后的模型参数，调整任一训练轮次使用的多个本地网络模型的模型参数，以得到任一训练轮次的下一训练轮次使用的多个本地网络模型。

可选地，处理器70b还用于：将多个更新后的交通仿真环境对应的交通状态信息作为任一训练轮次的下一训练轮次使用的多个本地网络模型的输入。

在一些实施例中，处理器70b在根据任一训练轮次的多个本地网络模型输出的目标区域交通控制策略，更新任一训练轮次对应的多个交通仿真环境时，具体用于：针对任一本地网络模型，根据任一训练轮次使用的任一本地网络模型输出的目标区域交通控制策略，确定任一训练轮次的任一本地网络模型对应的交通仿真环境中各路口的信号控制参数；根据任一训练轮次的任一本地网络模型对应的交通仿真环境中各路口的信号控制参数，预测对任一训练轮次的任一本地网络模型对应的交通仿真环境中车流的影响；根据对任一训练轮次的任一本地网络模型对应的交通仿真环境中车流的影响，更新任一训练轮次的任一本地网络模型对应的交通仿真环境，以得到任一本地网络模型对应的更新后的交通仿真环境。

进一步，处理器70b在根据多个更新后的交通仿真环境，调整任一训练轮次使用的多个本地网络模型的模型参数时，具体用于：针对任一本地网络模型，根据任一本地网络模型对应的更新后的交通仿真环境，确定任一本地网络模型对应的更新后的交通仿真环境中的车辆的平均延误时间；以任一本地网络模型对应的更新后的交通仿真环境中的车辆的平均延误时间为奖励，采用策略梯度算法调整任一训练轮次使用的任一本地网络模型的模型参数，以得到任一训练轮次使用的任一本地网络模型的调整后的模型参数。

相应地，处理器70b在根据任一训练轮次使用的多个本地网络模型的调整后的模型参数，联合调整任一训练轮次使用的全局网络模型的模型参数时，具体用于：根据任一训练轮次使用的多个本地网络模型的调整后的模型参数，确定任一训练轮次使用的多个本地网络模型对应的模型参数梯度；根据任一训练轮次使用的多个本地网络模型对应的模型参数梯度，采用决策梯度算法联合调整任一训练轮次使用的全局网络模型的模型参数，以得到任一训练轮次使用的全局网络模型的调整后的模型参数。

可选地，处理器70b还用于：在根据目标区域中各路口的信号控制参数，对目标区域中各路口进行交通信号控制之后，获取对目标区域中各路口进行交通信号控制之后的目标区域的交通环境信息；根据对目标区域中各路口进行交通信号控制之后的目标区域的交通环境信息，确定对目标区域中各路口进行交通信号控制之后的交通状态信息；利用对目标区域中各路口进行交通信号控制之后的交通状态信息，对区域控制决策模型进行更新。

在本申请一些实施例中，处理器70b在根据目标区域的交通控制策略，确定目标区域中各路口的信号控制参数时，具体用于：根据目标区域的交通控制策略，从预设的信号控制算法中确定与目标区域的交通控制策略适配的目标信号控制算法；利用目标信号控制算法和目标区域的交通控制策略，确定目标区域中各路口的信号控制参数。

可选地，目标区域的交通控制策略包括：区域协调策略和单路口控制策略。区域协调策略对应子区划分结果和目标区域内各路径的权重；单路口控制策略对应目标区域内各路口的信号配时方式。相应地，目标信号控制算法包括：区域网状绿波协调算法和目标区域内各路口的信号配时方式对应的信号配时优化算法。相应地，处理器70b在利用目标信号控制算法和目标区域的交通控制策略，确定目标区域中各路口的信号控制参数时，具体用于：从子区划分结果，获取目标区域内需要协调控制的至少一个子区及至少一个子区的公共信号周期；从目标区域内各路径的权重中，获取至少一个子区内路径的权重；利用区域网状绿波协调算法根据至少一个子区内路径的权重，确定至少一个子区内各路口包含的相位的绿波带宽度；根据至少一个子区内各路口包含的相位的绿波带宽度及至少一个子区的公共信号周期，采用目标区域内各路口的信号配时方式对应的信号配时优化算法，对至少一个子区内各路口进行信号配时，以得到至少一个子区内各路口的信号控制参数。

可选地，区域协调策略还包括：缓进快出的拥堵缓解策略；目标信号控制算法包括：区域缓进快出算法。相应地，处理器70b在根据至少一个子区内各路口包含的相位的绿波带宽及至少一个子区的公共信号周期，采用目标区域内各路口的信号配时方式对应的信号配时优化算法，对至少一个子区内各路口进行信号配时，具体用于：以至少一个子区内的车流密度满足设定的车流密度要求为目的，采用区域缓进快出算法调整至少一个子区内各路口包含的相位的最大绿灯时间和最小绿灯时间；根据至少一个子区内各路口包含的相位的最大绿灯时间和最小绿灯时间、至少一个子区内各路口包含的相位的绿波带宽及至少一个子区的公共信号周期，采用目标区域内各路口的信号配时方式对应的信号配时优化算法，对至少一个子区内各路口进行信号配时，以得到至少一个子区内各路口的信号控制参数。

可选地，区域协调策略还包括：排队均衡防溢出的拥堵缓解策略；目标信号控制算法包括：单路口排队均衡算法。相应地，处理器70b在根据至少一个子区内各路口包含的相位的绿波带宽及至少一个子区的公共信号周期，采用至少一个子区内各路口的信号配时方式，对至少一个子区内各路口进行信号配时时，具体用于：以至少一个子区内的各路口的进口相位的排队车流均衡为目标，采用单路口排队均衡算法调整至少一个子区内的进口相位的绿信比，以得到至少一个子区内的各路口的进口相位的目标绿信比；根据至少一个子区内的各路口的进口相位的目标绿信比、至少一个子区内各路口包含的相位的绿波带宽及至少一个子区的公共信号周期，采用目标区域内各路口的信号配时方式对应的信号配时优化算法，对至少一个子区内各路口进行信号配时，以得到至少一个子区内各路口的信号控制参数。

在一些可选实施方式中，如图7所示，该计算设备还可包括：通信组件70c、电源组件70d等可选组件。在一些实施例中，计算设备为电脑等终端设备。相应地，计算设备还可包括：显示组件70e和音频组件70f等组件。图7中仅示意性给出部分组件，并不意味着计算设备必须包含图7所示全部组件，也不意味着计算设备只能包括图7所示组件。

需要说明的是，上述实现交通信号控制的计算设备，与实现模型训练的计算设备可为同一设备，也可为不同的设备，在本申请实施例中不进行限定。

本实施例提供的计算设备在交通信号控制时，可根据目标区域的交通状态信息，确定针对该目标区域的交通控制策略。由于该交通控制策略是根据目标区域的交通状态信息确定的，融合了目标区域各路口的交通状态，因此，根据目标区域的交通控制策略确定出的目标区域中各路口的信号控制参数，也融合了目标区域内各路口的交通状态，可实现区域协调交通控制。因此，相较于单路口信号控制，本实施例提供的交通信号控制方式更为合理，有助于提高区域道路通行效率。

本实施例提供的计算设备在模型训练时，可实现多个本地网络模型的并行训练，有助于提高模型训练效率，提升全局网络模型的收敛速度。另一方面，由于多个本地网络模型的训练结果融合了多种交通仿真环境，因此，根据多个本地网络模型在每个训练轮次对应的训练结果，迭代调整多个本地网络模型的模型参数，根据多个本地网络模型在每次迭代后的模型参数，迭代调整全局网络模型的模型参数，可使全局网络模型也融合多种交通环境，有助于提高训练出的区域控制决策模型后续进行区域交通控制策略决策的准确度。

在本申请实施例中，存储器用于存储计算机程序，并可被配置为存储其它各种数据以支持在其所在设备上的操作。其中，处理器可执行存储器中存储的计算机程序，以实现相应控制逻辑。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

在本申请实施例中，处理器可以为任意可执行上述方法逻辑的硬件处理设备。可选地，处理器可以为中央处理器(Central Processing Unit，CPU)、图形处理器(GraphicsProcessing Unit，GPU)或微控制单元(Microcontroller Unit，MCU)；也可以为现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程阵列逻辑器件(ProgrammableArray Logic，PAL)、通用阵列逻辑器件(General Array Logic，GAL)、复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)等可编程器件；或者为先进精简指令集(RISC)处理器(Advanced RISC Machines，ARM)或系统芯片(System on Chip，SOC)等等，但不限于此。

在本申请实施例中，通信组件被配置为便于其所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，4G，5G或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术或其他技术来实现。

在本申请实施例中，显示组件可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示组件包括触摸面板，显示组件可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

在本申请实施例中，电源组件被配置为其所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

在本申请实施例中，音频组件可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。例如，对于具有语言交互功能的设备，可通过音频组件实现与用户的语音交互等。

需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机的存储介质为可读存储介质，也可称为可读介质。可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种交通信号控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标区域的交通状态信息，确定针对所述目标区域的交通控制策略，包括：

将所述目标区域的交通状态信息输入区域控制决策模型；

利用所述区域控制决策模型根据所述目标区域的交通状态信息，确定针对所述目标区域的交通控制策略。

3.根据权利要求2所述的方法，其特征在于，所述区域控制决策模型对应的初始模型包括：多个本地网络模型和全局网络模型；所述方法还包括：

获取多个交通仿真环境各自对应的交通状态信息；所述交通仿真环境的数量与所述本地网络模型的数量相同；

根据所述多个交通仿真环境对应的交通状态信息，并行对所述多个本地网络模型进行多轮次训练，以得到所述多个本地网络模型在每个训练轮次对应的训练结果；

根据所述多个本地网络模型在每个训练轮次对应的训练结果，迭代调整所述多个本地网络模型的模型参数，以得到所述多个本地网络模型在每次迭代后的模型参数；

根据所述多个本地网络模型在每次迭代后的模型参数，迭代调整所述全局网络模型的模型参数，直至所述全局网络模型收敛；

将收敛的全局网络模型作为所述区域控制决策模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个交通仿真环境对应的交通状态信息，并行对所述多个本地网络模型进行多轮次训练，包括：

针对任一训练轮次，根据所述任一训练轮次的多个本地网络模型根据所述任一训练轮次输入的多个交通仿真环境的交通状态信息，确定所述任一训练轮次的多个本地网络模型输出的目标区域交通控制策略；

根据所述任一训练轮次的多个本地网络模型输出的目标区域交通控制策略，更新所述任一训练轮次对应的多个交通仿真环境，以得到多个更新后的交通仿真环境，作为所述多个本地网络模型在所述任一训练轮次对应的训练结果；

其中，第一个训练轮次的多个本地网络模型的输入为所述多个交通仿真环境对应的交通状态信息。

5.根据权利要求4所述的方法，其特征在于，所述根据所述多个本地网络模型在每个训练轮次对应的训练结果，迭代调整所述多个本地网络模型的模型参数，以得到所述多个本地网络模型在每次迭代后的模型参数，包括：

针对任一训练轮次，根据所述多个更新后的交通仿真环境，调整所述任一训练轮次使用的多个本地网络模型的模型参数，以得到所述任一训练轮次使用的多个本地网络模型的调整后的模型参数；

所述根据所述多个本地网络模型在每次迭代后的模型参数，迭代调整所述全局网络模型的模型参数，包括：

根据所述任一训练轮次使用的多个本地网络模型的调整后的模型参数，联合调整所述任一训练轮次使用的全局网络模型的模型参数，以得到所述任一训练轮次使用的全局网络模型的调整后的模型参数；

所述根据所述多个本地网络模型在每个训练轮次对应的训练结果，迭代调整所述多个本地网络模型的模型参数，还包括：

根据所述任一训练轮次使用的全局网络模型的调整后的模型参数，调整所述任一训练轮次使用的所述多个本地网络模型的模型参数，以得到所述任一训练轮次的下一训练轮次使用的多个本地网络模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述多个更新后的交通仿真环境，调整所述任一训练轮次使用的多个本地网络模型的模型参数，以得到所述任一训练轮次使用的多个本地网络模型的调整后的模型参数，包括：

针对任一本地网络模型，根据所述任一本地网络模型对应的更新后的交通仿真环境，确定所述任一本地网络模型对应的更新后的交通仿真环境中的车辆的平均延误时间；

以所述任一本地网络模型对应的更新后的交通仿真环境中的车辆的平均延误时间为奖励，采用策略梯度算法调整所述任一训练轮次使用的所述任一本地网络模型的模型参数，以得到所述任一训练轮次使用的所述任一本地网络模型的调整后的模型参数；

所述根据所述任一训练轮次使用的多个本地网络模型的调整后的模型参数，联合调整所述任一训练轮次使用的全局网络模型的模型参数，以得到所述任一训练轮次使用的全局网络模型的调整后的模型参数，包括：

根据所述任一训练轮次使用的多个本地网络模型的调整后的模型参数，确定所述任一训练轮次使用的多个本地网络模型对应的模型参数梯度；

根据所述任一训练轮次使用的多个本地网络模型对应的模型参数梯度，采用决策梯度算法联合调整所述任一训练轮次使用的全局网络模型的模型参数，以得到所述任一训练轮次使用的全局网络模型的调整后的模型参数。

7.根据权利要求2-6任一项所述的方法，其特征在于，在根据所述目标区域中各路口的信号控制参数，对所述各路口进行交通信号控制之后，所述方法还包括：

获取对所述目标区域中各路口进行交通信号控制之后的所述目标区域的交通环境信息；

根据对所述目标区域中各路口进行交通信号控制之后的所述目标区域的交通环境信息，确定所述对所述目标区域中各路口进行交通信号控制之后的交通状态信息；

利用所述对所述目标区域中各路口进行交通信号控制之后的交通状态信息，对所述区域控制决策模型进行更新。

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标区域的交通控制策略，确定所述目标区域中各路口的信号控制参数，包括：

根据所述目标区域的交通控制策略，从预设的信号控制算法中确定与所述目标区域的交通控制策略适配的目标信号控制算法；

利用所述目标信号控制算法和所述目标区域的交通控制策略，确定所述目标区域中各路口的信号控制参数。

9.根据权利要求8所述的方法，其特征在于，所述目标区域的交通控制策略包括：区域协调策略和单路口控制策略；所述区域协调策略对应子区划分结果和目标区域内各路径的权重；所述单路口控制策略对应所述目标区域内各路口的信号配时方式；所述目标信号控制算法包括：区域网状绿波协调算法和所述目标区域内各路口的信号配时方式对应的信号配时优化算法；

所述利用所述目标信号控制算法和所述目标区域的交通控制策略，确定所述目标区域中各路口的信号控制参数，包括：

从所述子区划分结果，获取所述目标区域内需要协调控制的至少一个子区及所述至少一个子区的公共信号周期；

从所述目标区域内各路径的权重中，获取所述至少一个子区内路径的权重；

利用所述区域网状绿波协调算法根据所述至少一个子区内路径的权重，确定所述至少一个子区内各路口包含的相位的绿波带宽度；

根据所述至少一个子区内各路口包含的相位的绿波带宽度及所述至少一个子区的公共信号周期，采用所述目标区域内各路口的信号配时方式对应的信号配时优化算法，对所述至少一个子区内各路口进行信号配时，以得到所述至少一个子区内各路口的信号控制参数。

10.根据权利要求9所述的方法，其特征在于，所述区域协调策略还包括：缓进快出的拥堵缓解策略；所述目标信号控制算法包括：区域缓进快出算法；

所述根据所述至少一个子区内各路口包含的相位的绿波带宽及所述至少一个子区的公共信号周期，采用所述目标区域内各路口的信号配时方式对应的信号配时优化算法，对所述至少一个子区内各路口进行信号配时，以得到所述至少一个子区内各路口的信号控制参数，包括：

以所述至少一个子区内的车流密度满足设定的车流密度要求为目的，采用所述区域缓进快出算法调整所述至少一个子区内各路口包含的相位的最大绿灯时间和最小绿灯时间；

根据所述至少一个子区内各路口包含的相位的最大绿灯时间和最小绿灯时间、所述至少一个子区内各路口包含的相位的绿波带宽及所述至少一个子区的公共信号周期，采用所述目标区域内各路口的信号配时方式对应的信号配时优化算法，对所述至少一个子区内各路口进行信号配时，以得到所述至少一个子区内各路口的信号控制参数。

11.根据权利要求9所述的方法，其特征在于，所述区域协调策略还包括：排队均衡防溢出的拥堵缓解策略；所述目标信号控制算法包括：单路口排队均衡算法；

所述根据所述至少一个子区内各路口包含的相位的绿波带宽及所述至少一个子区的公共信号周期，采用所述至少一个子区内各路口的信号配时方式，对所述至少一个子区内各路口进行信号配时，以得到所述至少一个子区内各路口的信号控制参数，包括：

以所述至少一个子区内的各路口的进口相位的排队车流均衡为目标，采用所述单路口排队均衡算法调整所述至少一个子区内的进口相位的绿信比，以得到所述至少一个子区内的各路口的进口相位的目标绿信比；

根据所述至少一个子区内的各路口的进口相位的目标绿信比、所述至少一个子区内各路口包含的相位的绿波带宽及所述至少一个子区的公共信号周期，采用所述目标区域内各路口的信号配时方式对应的信号配时优化算法，对所述至少一个子区内各路口进行信号配时，以得到所述至少一个子区内各路口的信号控制参数。

12.一种模型训练方法，其特征在于，包括：

获取多个交通仿真环境各自对应的交通状态信息；

根据所述多个本地网络模型在每次迭代后的模型参数，迭代调整全局网络模型的模型参数，直至所述全局网络模型收敛；

13.一种计算设备，其特征在于，包括：存储器和处理器；其中，所述存储器，用于存储计算机程序；

所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行权利要求1-12任一项所述方法中的步骤。

14.一种存储有计算机指令的计算机可读存储介质，其特征在于，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行权利要求1-12任一项所述方法中的步骤。