CN113643528A

CN113643528A - 信号灯控制方法、模型训练方法、系统、装置及存储介质

Info

Publication number: CN113643528A
Application number: CN202110746329.2A
Authority: CN
Inventors: 由长喜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-11-12
Anticipated expiration: 2041-07-01

Abstract

本发明实施例公开了一种信号灯控制方法、模型训练方法、系统、装置及存储介质,根据目标路口的交通状态信息预测目标路口的信号灯控制策略，能够给出较佳的信号灯配时方案,另外，通过车辆在岔路上的行驶方向对车辆的行驶状态特征进行分组统计，得到目标路口中各个岔路上不同行驶方向车辆的行驶状态统计特征以进行信号灯控制策略的预测，由于统计特征信息的对象是整个岔路上不同行驶方向的车辆，实现了与路口中车道结构的解耦，这样输入的预测特征与岔路中的车道结构无关，即使岔路上的车道结构发生变化后，信号灯策略预测模型仍然能够适用，提高了信号灯策略预测或信号灯策略预测模型在实际道路环境的普遍适应性和使用灵活性。

Description

信号灯控制方法、模型训练方法、系统、装置及存储介质

技术领域

本发明涉及智慧交通领域，特别是涉及一种信号灯控制方法、模型训练方法、系统、装置及存储介质。

背景技术

随着城市化进程的加快和人均汽车占有量的提高，城市的交通变得越来越繁忙，城市路网的交通拥挤、交通事故问题愈加逐渐凸显。目前我国道路主要还是使用基于传统交通规则、固定配置的信号灯配时策略，而上述策略的制定和变更都具有较大的滞后性，无法快速响应交通的变化。

随着深度学习在人工智能领域的蓬勃发展，结合人工智能的自适应交通灯控制技术逐渐受到人们的关注。例如，通过使用强化学习的方法建立信号灯控制模型，利用训练好的信号灯控制模型对路口信号灯进行智能控制，能够给出较佳的信号灯配时方案。然而，上述的信号灯控制模型对实际道路环境的普遍适应性并不理想。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种信号灯控制方法、模型训练方法、系统、装置及存储介质，能够提高信号灯控制模型对实际道路环境的普遍适用性。

一方面，本发明实施例提供了一种信号灯控制方法，用于控制目标路口的信号灯工作状态，方法包括：

获取目标路口的交通状态信息，交通状态信息包括目标路口的第一车辆行驶状态信息；

根据交通状态信息进行信号灯状态策略预测，得到目标路口的信号灯控制策略；

根据信号灯控制策略控制目标路口的信号灯工作状态；

其中，第一车辆行驶状态信息包括目标路口中各个岔路上不同行驶方向车辆的行驶状态统计特征，第一车辆行驶状态信息通过以下步骤获得：

获取目标路口中各个岔路上行驶的车辆的行驶状态特征；

根据车辆在岔路上的行驶方向对车辆的行驶状态特征进行分组统计，得到目标路口中各个岔路上不同行驶方向车辆的行驶状态统计特征。

另一方面，本发明实施例还提供一种信号灯模型训练方法，包括：

基于目标路口所在的路网结构，构建目标路口的交通仿真环境，交通仿真环境包括目标仿真路口；

获取目标仿真路口的仿真交通状态信息，仿真交通状态信息包括目标仿真路口的第一车辆行驶状态信息；

将仿真交通状态信息作为训练数据对信号灯策略预测模型进行强化学习训练，信号灯策略预测模型用于对目标路口的信号灯控制策略进行预测；

其中，第一车辆行驶状态信息包括目标仿真路口中各个岔路上不同行驶方向仿真车辆的行驶状态统计特征，第一车辆行驶状态信息通过以下步骤获得：

获取目标仿真路口中各个岔路上行驶的仿真车辆的行驶状态特征；

根据仿真车辆在岔路上的行驶方向对仿真车辆的行驶状态特征进行分组统计，得到目标仿真路口中各个岔路上不同行驶方向仿真车辆的行驶状态统计特征。

另一方面，本发明实施例还提供一种信号灯模型的全局训练方法，包括全局模型和两个以上的工作者模型，全局模型包括全局信号灯策略模型集合，全局信号灯策略模型集合包括分别与目标路网中各个路口对应的全局信号灯策略模型，训练方法包括：

工作者模型从全局模型中获取全局信号灯策略模型集合，根据全局信号灯策略模型集合生成对应的信号灯策略模型集合，信号灯策略模型集合包括与目标路网中各个路口对应的信号灯策略模型；

工作者模型依据上述实施例的信号灯模型训练方法对信号灯策略模型进行训练，并获得信号灯策略模型集合中各个信号灯策略模型的网络参数；

工作者模型将所获取的各个网络参数反馈至全局模型，以使全局模型更新各个全局信号灯策略模型

另一方面，本发明实施例还提供一种信号灯控制装置，用于控制目标路口的信号灯工作状态，包括：

交通状态获取单元，用于获取目标路口的交通状态信息，交通状态信息包括目标路口的第一车辆行驶状态信息；

策略预测单元，用于根据交通状态信息进行信号灯状态策略预测，得到目标路口的信号灯控制策略；

信号灯控制单元，用于根据信号灯控制策略控制目标路口的信号灯工作状态；

其中，第一车辆行驶状态信息包括目标路口中各个岔路上不同行驶方向车辆的行驶状态统计特征，交通状态获取单元还用于：

获取目标路口中各个岔路上行驶的车辆的行驶状态特征；

进一步，交通状态信息还包括相邻路口的第二车辆行驶状态信息，其中，相邻路口与目标路口相邻接，第二车辆行驶状态信息包括相邻路口中各个岔路上不同行驶方向车辆的行驶状态统计特征，交通状态获取单元还用于：

获取相邻路口中各个岔路上行驶的车辆的行驶状态特征；

根据车辆在岔路上的行驶方向对车辆的行驶状态特征进行分组统计，得到相邻路口中各个岔路上不同行驶方向车辆的行驶状态统计特征。

进一步，车辆的行驶状态特征包括车辆在岔路上向不同方向行驶的概率，行驶状态统计特征包括岔路上车辆不同行驶方向的期望排队长度，交通状态获取单元还用于：

对岔路上车辆的不同行驶方向的概率进行分组统计求和，得到岔路上不同行驶方向的期望排队长度，期望排队长度表征岔路上同一行驶方向的车辆通行数量。

进一步，车辆的行驶状态特征包括车辆在目标路口的等待时间、行驶速度和车辆在岔路上向不同方向行驶的概率，行驶状态统计特征包括岔路上车辆不同行驶方向的期望排队长度、期望等待时间和期望车速，交通状态获取单元还用于：

对岔路上车辆的不同行驶方向的概率进行分组统计求和，得到岔路上不同行驶方向的期望排队长度，期望排队长度表征岔路上同一行驶方向的车辆通行数量；

对岔路上车辆的不同行驶方向的概率及等待时间进行分组加权求和，然后除以期望排队长度得到期望等待时间，期望等待时间表征岔路上同一行驶方向的车辆的平均等待时间；

对岔路上车辆的不同行驶方向的概率及车速进行分组加权求和，然后除以期望排队长度，得到期望车速，期望车速表征岔路上同一行驶方向的车辆的平均车速。

进一步，交通状态获取单元还用于：

获取目标路口中各个岔路上不同行驶方向车道的车辆分布概率，根据车辆分布概率计算出车辆在岔路上向不同方向行驶的概率；

或者，通过对目标路口中各个岔路上的车辆的驾驶行为进行预测，得到车辆在岔路上向不同方向行驶的概率。

进一步，交通状态信息还包括目标路口的信号灯在下一信号周期可用相位的相位集合信息，交通状态获取单元还用于：

获取目标路口当前信号周期的第一相位状态，根据第一相位状态确定下一信号周期可用相位的相位集合信息；

或者，获取目标路口的相位状态，根据相位状态确定下一信号周期可用相位的相位集合信息。

另一方面，本发明实施例还提供了一种信号灯模型训练装置，包括：

仿真环境创建单元，用于基于目标路口所在的路网结构，构建目标路口的交通仿真环境，交通仿真环境包括目标仿真路口；

仿真交通状态获取单元，用于获取目标仿真路口的仿真交通状态信息，仿真交通状态信息包括目标仿真路口的第一车辆行驶状态信息；

训练单元，用于将仿真交通状态信息作为训练数据对信号灯策略预测模型进行强化学习训练，信号灯策略预测模型用于对目标路口的信号灯控制策略进行预测；

其中，第一车辆行驶状态信息包括目标仿真路口中各个岔路上不同行驶方向仿真车辆的行驶状态统计特征，仿真交通状态获取单元还用于：

进一步，交通状态信息还包括相邻仿真路口的各个岔路上不同行驶方向仿真车辆的第二车辆行驶状态信息，其中，相邻仿真路口与目标仿真路口相邻接，仿真交通状态获取单元还用于：

获取相邻仿真路口中各个岔路上行驶的仿真车辆的行驶状态特征；

根据仿真车辆在岔路上的行驶方向对仿真车辆的行驶状态特征进行分组统计，得到相邻仿真路口中各个岔路上不同行驶方向仿真车辆的行驶状态统计特征。

进一步，仿真交通状态信息还包括：目标仿真路口的信号灯在下一信号周期可用相位的相位集合信息，仿真交通状态获取单元还用于：

获取目标仿真路口当前信号周期的第一相位状态，根据第一相位状态确定下一信号周期可用相位的相位集合信息；

或者，获取目标仿真路口的历史相位状态，根据历史相位状态确定下一信号周期可用相位的相位集合信息。

进一步，训练单元还用于：

将仿真交通状态信息输入至信号灯策略预测模型进行策略预测，得到目标仿真路口的第一信号灯控制策略；

根据第一信号灯控制策略控制目标仿真路口的信号灯当前工作状态；

当目标仿真路口的信号灯的工作状态变化后，重新获取目标仿真路口的仿真交通状态信息，得到目标仿真交通状态信息；

根据目标仿真交通状态信息对第一信号灯控制策略进行评价，得到目标评价信息；

根据目标评价信息和目标仿真交通状态信息对信号灯策略预测模型中的参数进行修正。

进一步，训练单元还用于：

获取目标仿真路口信号灯在下一信号周期可用相位的相位集合信息；

根据目标仿真交通状态信息对第一信号灯控制策略进行评价，得到目标评价信息，包括：

根据目标仿真交通状态信息对第一信号灯控制策略进行评价，得到初始评价信息；

通过判断第一信号灯控制策略是否为相位集合信息中的可用相位，得到评价修正信息；

根据评价修正信息对初始评价信息进行修正，得到目标评价信息。

进一步，信号灯模型训练装置还包括：

变更信息获取装置，用于获取第一仿真路口的状态变更信息，第一仿真路口与目标仿真路口相邻接；

模型更新单元，判断信号灯策略预测模型在进行强化训练时是否有使用第一仿真路口的行驶状态统计特征，若没有使用，则重新获取目标仿真路口的仿真交通状态信息作为训练数据并重新对信号灯策略预测模型进行强化学习训练。

另一方面，本发明实施例还提供了一种信号灯模型的全局训练方法，包括全局模型和两个以上的工作者模型，全局模型包括全局信号灯策略模型集合，全局信号灯策略模型集合包括分别与目标路网中各个路口对应的全局信号灯策略模型，训练方法包括：

工作者模型将所获取的各个网络参数反馈至全局模型，以使全局模型更新各个全局信号灯策略模型。

另一方面，本发明实施例还提供了一种信号灯模型训练系统，包括：

全局模型，包括全局强化学习模型集合，强化学习模型集合包括分别与目标路网中各个路口对应的全局强化学习模型，全局强化学习模型包括全局信号灯策略模型以及全局评价模型；

两个以上的工作者模型，工作者模型包括交通环境仿真模块，交通环境仿真模块用于模拟目标路网的交通仿真环境，交通仿真环境包括目标仿真路网；

工作者模型从全局强化学习模型集合中获取对应目标仿真路网中各个仿真路口的全局信号灯策略模型以及全局评价模型，并生成对应仿真路口的信号灯策略模型和评价模型，其中，信号灯策略模型用于对目标仿真路口的信号灯控制策略进行预测，评价模型用于评价信号灯策略模型输出的控制策略；

工作者模型从目标仿真路网中获取目标仿真路口的仿真交通状态信息，仿真交通状态信息包括目标仿真路口的第一车辆行驶状态信息；

工作者模型仿真交通状态信息对信号灯策略预测模型及评价模型进行强化学习训练，并得到信号灯策略预测模型及其对应评价模型的网络参数；

工作者模型将所获取的各个网络参数反馈至全局模型，以使全局模型更新各个全局信号灯策略模型及其对应的全局评价模型；

另一方面，本发明实施例还提供了一种电子设备，包括存储器、处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述的信号灯控制方法、信号灯模型训练方法或者信号灯模型的全局训练方法。

另一方面，本发明实施例还提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现上述的信号灯控制方法、信号灯模型训练方法或者信号灯模型的全局训练方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行实现上述的信号灯控制方法、信号灯模型训练方法或者信号灯模型的全局训练方法。

本发明实施例至少包括以下有益效果：本发明实施例根据目标路口的交通状态信息预测信号灯控制策略，能够给出较佳的信号灯配时方案，能够有效改善城市交通的拥堵状况，实现快速响应交通状况的变化，使得目标路口交通得以安全、顺畅地运营。另外，本发明实施例中通过车辆在岔路上的行驶方向对车辆的行驶状态特征进行分组统计，得到目标路口中各个岔路上不同行驶方向车辆的行驶状态统计特征，以进行信号灯控制策略的预测，由于统计特征信息的对象是整个岔路上不同行驶方向的车辆，实现了与路口中车道结构的解耦，这样输入的预测特征与岔路中的车道结构无关，即使岔路上的车道结构发生变化后，信号灯策略预测仍然能够适用，这样提高了信号灯策略预测及其信号灯策略预测模型在实际道路环境的普遍适应性，使用信号灯策略预测或信号灯策略预测模型具有更好的灵活性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明实施例中一个十字路口的示意图；

图2是本发明实施例中训练方法、信号灯状态控制方法的运行环境的系统架构图；

图3是本发明实施例提供的信号灯模型训练方法的流程图；

图4a是东西直行相位示意图；

图4b是东西左转相位示意图；

图4c是南北直行相位示意图；

图4d是南北左转相位示意图；

图4e是由西向东全部放行相位示意图；

图4f是由东向西全部放行相位示意图；

图4g是由南向北全部放行相位示意图；

图4h是由北向南全部放行相示意图；

图5是图3所示步骤320中获取第一车辆行驶状态信息的方法流程图；

图6是图3中步骤320的具体方法流程图；

图7是本发明实施例中路网的示意图；

图8是本发明另一实施例提供的信号灯模型训练方法的流程图；

图9为图3中步骤330的具体方法流程图；

图10为图9中步骤940的具体方法流程图；

图11为本发明实施例中神经网络模型的结构示意图；

图12是本发明实施例提供的信号灯模型训练系统结构示意图；

图13是本发明实施例提供的信号灯模型的全局训练方法的方法流程图；

图14是本发明另一实施例提供的信号灯模型的全局训练方法的方法流程图；

图15是本发明实施例提供的信号灯控制方法的流程图；

图16是图15所示步骤1510中获取第一车辆行驶状态信息的方法流程图；

图17是图16中步骤1620的具体方法流程图；

图18是本发明实施例提供的信号灯控制装置的结构示意图；

图19是本发明实施例提供的信号灯模型训练装置的结构示意图。

具体实施方式

下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

路网：又称道路网(road network)指的是在一定区域内，由各种道路组成的相互联络、交织成网状分布的道路系统。路网可以有不同的范围，例如全部由各级公路组成的称公路网。在城市范围内由各种道路组成的称城市道路网，在街区范围内由各种道路组成的称为街区网。

路口：由于路网呈网状结构分布，因此存在多个相交的交叉点。路口有不同的类型，例如十字路口和T字路口，其中，十字路口为两条道路十字相交的路口，T字路口为两条道路T字相交的路口。道路的连结点，该连结点就是路口，在道路工程中路口也称为交叉口，是由两条或多条道路相交的交叉点。

岔路：岔路指从路口沿不同方向往外延伸的道路，例如参照图1所示的一种十字路口示意图，包括向南、向北、向西、向东四个方向的岔路，当然，岔路的方向可以根据城市规划设置。

车道：指上述岔路中车辆行经的车行道，也称行车线，一般道路上使用实线或曲线划分车道，在靠近路口的车道上一般划分经路口不同行驶方向的车道，例如左转车道、直行车道、右转车道、掉头车道等，或者复合方向的车道，例如左转和直行车道，直行和右转车道，左转和掉头车道等。

信号灯相位：由于路口连接不同的道路，为车辆提供了切换到其他道路的场所，因此路口容易出现交通混乱的情况，为了协调路口的交通，通常在路口上设置有信号灯以控制车辆行驶。例如十字路口一般设置4组信号灯(每个岔路对应一个)，路口上各个信号灯的状态组合称为一个相位。一个标准的十字路口有十二种车辆运动方式，分别是直行(东-西，西-东，南-北，北-南)，小转(东-北，西-南，北-西，南-东)，大转(东-南，西-北，北-东，南-西)，而通过岔路上的一个信号灯可以控制该岔路上车辆的运动方式。上述十二种运动方式可以相互组合形成一个相位，例如东西直行相位包括东-西，西-东两种运动方式。通过信号灯相位可以控制整个路口车辆的运动方式，因此路口的信号灯工作状态也可以表现为信号灯的相位。

受控路口：指设置有信号灯，可以通过改变信号灯相位以控制路口车辆行驶状况的路口。

信号灯工作状态：信号灯工作状态表示为信号灯的相位。

数学期望：离散随机变量的一切可能取值与其对应的概率P的乘积之和称为数学期望，在概率论和统计学中，一个离散性随机变量的数学期望(或期望值或均值，亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。

交通路网模拟仿真平台：在路网仿真环境中对仿真车辆、路网中各信号灯进行模拟测试的平台。

强化学习：强化学习(ReinforcementLearning，RL)是一种代理(Agent)与环境互动的目标导向决策技术，在实际应用中，代理又可以称为智能体。强化学习涉及智能体和环境(Environment)，应用强化学习的系统(简称强化学习系统，本发明实施例中具体为信号灯控制系统)定义环境的一系列状态的集合(简称状态集)，定义智能体所采取的一系列动作的集合(简称动作集)，定义奖励(Reward)，其基本思想是，信号灯控制系统的智能体接收环境的状态集中的状态(state)特征化的数据(简称为特征数据)，并且基于该数据，选择来自动作集的待执行的动作(action)，施加给环境。环境响应于该选定的动作而发生状态的变更，基于状态变更结果与所预定的目标期望之间的差异，智能体获得奖励。强化学习的任务是使信号灯控制系统通过选择正确的策略(即状态到动作的映射)来尝试最大化智能体所接收的累积收益(长期累积的评价奖励)，让信号灯控制系统有了自我学习、自我决策的能力。需要说明的是，本发明实施例所涉及的强化学习在实际应用中可以是具体的变形，例如强化学习可以结合深度学习而变形为深度强化学习。

本申请实施例所提供的信号灯控制方法和模型训练方法均可以应用于人工智能之中。人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

需要说明的是，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

另外，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开了研究和应用；例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗和智能客服等；随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。在本发明实施例中，将对人工智能在智能交通领域，特别是对交通信号灯的智能控制的应用进行说明。

在相关技术中，为了使信号灯控制策略在目标路口实际应用时可以保持较优的性能，可以在实际应用之前在交通流仿真软件中进行训练和仿真测试。

目前用于信号灯控制的方案有很多，比较典型的包括韦伯斯特(Webster)配时法,最大压力(MaxPressure，MP)控制算法,绿波带宽(GreenWave)算法，实时自适应交通控制系统(SCATS)算法，绿信比-信号周期-相位差优化技术(Split-Cycle-Offset OptimizationTechnique，SCOOT)等。其中，MaxPressure控制算法属于比较典型的实时性方案，通过计算目标相位的需求压力来进行相位切换，理论上可以最大程度增加单个路口的吞吐量。Webster配时法,依赖对路口数据的分析设计固定的周期方案，这些方案都更加适用于单一路口的控制。GreenWave是比较典型的多路口协同控制算法，通过设计顺序多路口的相位差来减少特定行驶方向车辆的停车次数。SCOOT是1973年英国交通研究实验室开发的实时优化信控算法，通过优化绿信比、offset和周期来最小化排队长度。此方法的协同作用一般体现在优化两个相邻路口的相位offset,通过不断的动态频繁修正参数来改善上下游的拥堵。SCATS是1990年澳大利亚新南威尔士州交通局开发的城市信控算法，与SCOOT类似，SCATS也是通过优化绿信比、offset和周期来改善路口饱和度等指标，但是需要提前设计大量的备选方案并在执行过程中实时切换最优方案。对于区域性信控问题，以上方法要么不适用，要么优化手段单一，不够系统和灵活。

随着深度学习在人工智能领域的蓬勃发展，结合人工智能的自适应交通灯控制技术逐渐受到人们的关注。通过使用强化学习的方法建立信号灯控制模型，利用训练好的信号灯控制模型对路口信号灯进行智能控制，能够给出较佳的信号灯配时方案。

然而，上述的强化学习方法面临着一些问题，例如模型设计简单抽象导致训练效果不佳，或者模型设计复杂导致训练难度过大大。为了获得较佳的预测效果，目前模型高度依赖道路结构进行算法设计，例如在模型中使用车道级的测量数据进行模型的训练和相位预测。当路口环境发生变化后模型很可能不再适用，比如说增减车道、道路封闭等等。这样导致上述的信号灯控制模型对实际道路环境的普遍适应性并不理想。另外，随着路网规模的增大，现有技术模型的训练过程会更加困难，需要想办法提升模型的训练效率。

基于此，本发明实施例提供了一种信号灯控制方法、模型训练方法、装置及存储介质，能够提高对实际道路环境的普遍适用性。

下面结合附图，对本发明的具体实施方式进行说明，本发明实施例通过信号灯控制系统对路网中各个路口的信号灯工作状态进行控制，路网中的每个路口均有其对应的信号灯策略预测模型，当要对路网中的一个目标路口的信号灯工作状态进行控制时，应用所述目标路口对应的信号灯策略预测模型进行策略预测，得到所述目标路口的信号灯控制策略，然后根据所述信号灯控制策略控制所述目标路口的信号灯工作状态。当然，在使用信号灯策略预测模型进行策略预测之前，要预先对信号灯策略预测模型进行训练。本发明实施例中，通过信号灯模型训练系统对各个路口的信号灯策略预测模型进行训练，具体采用的是下文提及的信号灯模型的训练方法。

参照图2所示，本申请实施例提供一种信号灯模型训练方法，可应用于终端201中，也可应用于服务器202中，还可以是运行于终端或服务器中的软件。在一些实施例中，可以是应用在分布式大数据处理平台中，例如通过分布式大数据处理平台分别对各个路口对应的信号灯策略预测模型进行训练。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是训练强化学习模型的应用程序等，但并不局限于以上形式。由于本申请的信号灯模拟训练方法采用强化学习训练的方式，需要频繁对信号灯的工作状态进行调整，无论从训练效率还是交通安全的角度，都无法在实际路口的信号灯上进行，因此，信号灯模型训练系统需要设置一个对应于真实路网的交通仿真环境，模拟城市道路车辆在路口的行为。其中交通仿真环境包括多个仿真路口，其中每个仿真路口对应设置一个智能体，本发明实施例中，将能够进行自我学习并与交通仿真环境进行交互的软件或者硬件实体抽象为智能体，智能体驻留于交通仿真环境中，可从交通仿真环境中获得的反映交通状态的特征数据，通过学习选择合适的交通信号灯配时方案，对交通环境产生影响。智能体根据交通环境提供的评价奖励作为反馈，学习一系列的环境状态到动作的映射(即信号灯控制策略)，动作选择的原则是最大化未来累积的奖励的概率。选择的动作不仅影响当前时刻的奖励，还会影响下一时刻甚至未来的奖励，因此，智能体在学习过程中，根据某个动作带来的环境的正奖励或负奖励，加强或削弱这一动作，即进行强化学习训练，直至信号灯策略预测模型的预测结果达到预设目标(或符合训练期望)。另外，由于每个仿真路口对应设置一个智能体，因此，可以通过设置一个模型对仿真路网中的各个智能体进行管理，例如，在一实施例中，通过工作者模型对仿真路网中的各个智能体进行管理。

图3是本申请实施例提供的一种信号灯模型训练方法的一个可选的流程图，包括：

步骤310，基于目标路口所在的路网结构，构建目标路口的交通仿真环境，交通仿真环境包括目标仿真路口。

本步骤中，首先需要根据目标路口所在的路网结构来构建交通仿真环境，其中，路网及目标路口可以是现实中真实存在的路口，例如是目前在实际交通环境中使用的真实路网，另外也可以是规划中的路网，例如可以是某地区城市规划的标准路网设计。交通仿真器可以内嵌于智能体中，也可以独立设置，例如交通仿真器可以是用于模拟仿真路网的交通环境仿真模块，仿真路网中的各个仿真路口分别由不同的智能体进行控制训练，即多个智能体共用一个由交通环境仿真模块所模拟的仿真路网。通过交通仿真器可以进行交通仿真环境的构建，其中，交通仿真器包括路网生成器、信号灯配时生成器和车流生成器。

其中，路网生成器为交通仿真器提供了模拟现实交通环境中交通道路和交通交叉口的功能，它的数据来源是对应真实存在的实际交通路网或人工设置的路网，对于真实存在的实际交通路网，可以通过地址在地图数据库中查找对应路网结构，根据路网结构生成仿真路网；对于人工设置的路网，由用户输入路网结构数据生成仿真路网。路网生成器可为交通仿真器具体配置两种参数。其中，一种是路口(交叉口)参数，路口参数包括交叉口中心的位置坐标，交叉口中心到各个车道停止线的距离等等；另一种是临近路口(临近交叉口)的车道参数，临近路口的车道参数包括各个车道的位置(偏正北顺时针角度)、长度、转向等等。举例来说，如图1所示，该图1展示了一个十字路口和它的岔路。其中，南北岔路和东西岔路的交汇处即为路口中心；东方向岔路的位置由东方向岔路的中轴线偏离正北方的角度(90度)来决定；路口中心到西方向车道停止线的距离为西方向车道中轴线的长度。其中，岔路上可以设置多个车道及车道的转向，例如图1中的车道S1表示左转车道，车道S2表示直行车道，车道S3表示直行及右转车道，一些实施例中，还包括掉头车道，然而一般的左转车道也可以掉头，因此本申请实施例中并没有进行区分，认为掉头的车辆也属于左转的车辆。

信号灯配时生成器用于对仿真路口中的信号灯实现模拟现实环境中信号灯运作的功能，例如，配置了信号灯在各个时间段的相位结构、相位顺序、相位时长，以及车辆最小绿灯时间、行人最小绿灯时间和黄灯、红灯、最大绿灯时间等等，实现了仿真路口的信号灯工作状态的控制。信号等工作状态以信号灯相位进行表示，一个路口预设可以采取的行为所构成的集合为相位集合action set，以十字路口为例，仿真车辆可以有十二种车辆运动方式，分别是直行(东-西，西-东，南-北，北-南)，小转(东-北，西-南，北-西，南-东)，大转(东-南，西-北，北-东，南-西)，由于车辆在路口中执行右转无需单独设计信号灯指令(右转自动避让直行车辆以及行人，即使是红灯依旧能够自由右转通过路口)，因此本发明实施例中不考虑小转(东-北，西-南，北-西，南-东)这四种状态。因此路口信号灯的工作状态可以表现为8个相位，例如参照图4a所示的东西直行相位410、图4b所示的东西左转相位420、图4c所示的南北直行相位430、图4d所示的南北左转相位440、图4e所示的由西向东全部放行相位450、图4f所示的由东向西全部放行相位460、图4g所示的由南向北全部放行相位470、图4h所示的由北向南全部放行相位480。通过灯配时生成器，可以控制路口的交通灯工作状态在上述8种相位之间进行切换。至于其他路口的类型(例如丁字形路口)为上述相位集合的子集，此处不再详细介绍。

车流生成器为交通仿真器提供了仿真交通环境中车辆行驶的功能，其数据来源可以是自动采集现实路口的历史车辆行驶数据，又或者自动或人工配置交通环境中的车流状态，例如为交通仿真器具体配置了单位时间内(例如1小时、7：00-9:00时间段、1天、15天等)路口的各个车道的车辆通行数量、车距、行驶方向、车辆类型等参数、车辆排队数量和车速等。车流生成器模拟了仿真交通环境中车辆行驶，因此车流生成器也记录了车辆具体行驶状态。

一实施例中，可以采用sumo交通仿真器(Simulation of Urban Mobility,一款开源微观交通流仿真软件)来构建交通路网模拟仿真平台以及模拟城市道路车辆行为，可以通过sumo提供的交通控制接口Traci API来控制仿真环境的信号灯状态并访问路口交通仿真数据。本实施例中，设计单步仿真时间为10秒，黄灯时间为5秒，路口中单独的左转向灯相位持续时间为10至30秒，相位集合中其他相位的持续时间为30至120秒。随着仿真区域大小以及仿真车辆数目的变化，sumo交通仿真器实用16核单机计算机的训练时间介于4至24小时之间。

步骤320，获取目标仿真路口的仿真交通状态信息，仿真交通状态信息包括目标仿真路口的第一车辆行驶状态信息。

本步骤中的一实施例，可以在上述步骤310所构建好的交通仿真环境运行一段时间后，从交通仿真环境的仿真历史数据库中目标仿真路口的仿真交通状态信息，例如通过上述车流生成器的历史操作数据库中获取仿真交通状态信息。或者，在一实施例中，可以对交通仿真环境的运行状态进行持续采集，进而得到仿真交通状态信息，例如记录上述车流生成器的仿真车辆行驶的数据作为仿真交通状态信息。其中，仿真交通状态信息包括第一车辆行驶状态信息，第一车辆行驶状态信息表征当前目标仿真路口上所有车辆的行驶状态。

步骤330，将仿真交通状态信息作为训练数据对信号灯策略预测模型进行强化学习训练，信号灯策略预测模型用于对目标路口的信号灯控制策略进行预测。

本步骤中，可以采用强化学习算法对智能体的信号灯策略预测模型进行训练，例如，在可能的实现方式中，可以采用Q-Learning算法,或DDPG算法或SARSA算法或A3C算法等等对信号灯策略预测模型进行训练，另外，在又一可能的实现方式中，采用若干个强化学习算法组合的方式对信号灯策略预测模型进行训练。

本发明一实施例中，第一车辆行驶状态信息包括目标仿真路口中各个岔路上不同行驶方向仿真车辆的行驶状态统计特征；参照图5所示，上述步骤320中的第一车辆行驶状态信息，具体通过以下步骤获得：

步骤510，获取目标仿真路口中各个岔路上行驶的仿真车辆的行驶状态特征。

本步骤中，目标仿真路口的各个岔路上行驶的仿真车辆都具有一个行驶状态特征，用于描述仿真车辆在岔路中的行驶状态，例如当前仿真车辆在岔路中在目标仿真路口中的等待时间、车速、行驶方向等。其中，可以由智能体从车流生成器的仿真车辆行驶的数据中获取或对仿真车辆的行驶状态进行跟踪分析，得到行驶状态特征，又或者，智能体可以监测仿真车辆在岔路中各车道的通行情况，统计出仿真车辆的行驶状态特征分布，得到仿真车辆的行驶状态特征。

步骤520，根据仿真车辆在岔路上的行驶方向对仿真车辆的行驶状态特征进行分组统计，得到目标仿真路口中各个岔路上不同行驶方向仿真车辆的行驶状态统计特征。

本步骤中，以仿真车辆在岔路上的行驶方向对上述各个仿真车辆的行驶状态特征进行统计，其中行驶方向指的是岔路上的车辆经过路口的行驶方向，例如当前岔路的车辆通过路口后为直行的，就是直行方向的车辆，若经过路口后为左转的，就是左转方向的车辆，经过路口后为右转的，就是右转方向车辆。例如，当前岔路上包括左转、直行和右转三个方向，分别对三个方向行驶的仿真车辆的行驶状态特征进行统计，即分别统计左转车辆的行驶状态特征、直行车辆的行驶状态特征和右转车辆的行驶状态特征，进而分别得到左转方向的行驶状态统计特征、直行方向的行驶状态统计特征和右转方向的行驶状态统计特征。在本发明实施例中，并没有在岔路上区分车道对仿真路口进行特征提取，而是根据岔路上车辆的行驶状态，以不同行驶方向仿真车辆的行驶状态特征进行分组统计，得到不同行驶方向仿真车辆的行驶状态统计特征，本发明实施例以仿真车辆行驶方向维度进行特征统计(例如排队长度特征、等待时间特征或车速特征)，例如统计左转方向仿真车辆在当前岔路的排队数量(例如左转信号灯绿灯前进入岔路的车辆数量表示排队数量)，通过不同行驶方向仿真车辆的行驶状态统计特征来表征目标仿真路口的交通状态，实现了模型与路口车道几何关系的解耦(通常是统计各个岔路不同车道的车辆排队长度、等待时间、平均车速作为模型的输入)，在使用模型时具有更好的灵活性。

本发明实施例提供的一种信号灯模型训练方法，通过构建交通仿真环境，使用强化学习算法对信号灯策略预测模型进行训练，其中，依据行驶方向对仿真车辆的行驶状态特征进行分组统计，得到目标仿真路口中各个岔路上不同行驶方向仿真车辆的行驶状态统计特征，并以此作为训练样本对信号灯策略预测模型进行训练，由于训练样本数据与岔路的车道结构无关，因此实现了信号灯策略预测模型与路口车道几何关系的解耦，即使岔路上的车道结构发生变化后，信号灯策略预测模型仍然能够使用，这样提高了信号灯策略预测模型在实际道路环境的普遍适应性，信号灯策略预测模型的使用具有更好的灵活性。

本发明一实施例中，仿真车辆的行驶状态特征包括仿真车辆在岔路上向不同方向行驶的概率，上述步骤410具体包括：

步骤411，获取目标路口中各个岔路上不同行驶方向仿真车道的车辆分布概率，根据车辆分布概率计算出仿真车辆在所述岔路上向不同方向行驶的概率。

由于本发明实施例只需要输入预测模型的特征，而且该特征与车道几何关系的解耦，但是行驶状态统计特征仍然可以结合车道获取，因此在本步骤中，这样只需要统计经过车道仿真车辆的数量即可得出行驶状态统计特而无需跟踪每个仿真车辆的行驶轨迹，例如，当前岔路上设置有3个车道，分别是左转车道、直行车道和右转车道，假设在统计周期(例如10分钟)中，经过左转车道的车辆为4辆，直行车道为3辆，右转车道为3辆，则这10辆车中，车辆向左转方向行驶的概率为0.4，向直行方向行驶的概率为0.3，向右转方向行驶的概率为0.3。可见，在计算不同行驶方向车道的车辆分布概率，可以结合车道特征进行统计，最后统计出的特征与车辆行驶方向相关，与车道结构无关。而对于复合结构的车道，可以以50％的比例进行概率的划分，例如，当前岔路上设置有3个车道，分别是左转及直行车道、直行车道和右转车道，假设在统计周期中，经过左转及直行车道的车辆为4辆，直行车道为3辆，右转车道为3辆，这样在统计车辆分布概率将左转及直行车道的车辆按50％的概率划分分为左转2辆，直行2辆。这样，则这10辆车中，车辆向左转方向行驶的概率为0.2，向直行方向行驶的概率为0.5，向右转方向行驶的概率为0.3。也可以通过计算不同行驶方向车道的车辆分布概率，能够确定各个仿真车辆在岔路内往各个方向行驶的概率，例如，若对于仿真车辆V，若确定其行驶进直行车道内，则仿真车辆V不同方向的行驶概率为：左转方向0，直行方向1，右转方向0。若确定该仿真车辆V驶进直行左转和直行复合车道内，仿真车辆V不同方向的行驶概率为：左转方向0.5，直行方向0.5，右转方向0。

本发明另一实施例中，也可以直接通过交通路网模拟仿真平台的车流生成器获取各个所述岔路中仿真车辆的具体行驶方向，统计得到所述岔路上不同行驶方向车辆的行驶状态统计特征。同理，也可以通过确定仿真车辆的具体行驶方向，获得仿真车辆向不同方向行驶的概率，例如对于仿真车辆V，确定其在目标仿真路口中的具体行驶方向为左转，则仿真车辆V不同方向的行驶概率为：左转方向1，直行方向0，右转方向0。

另外，一实施例中，也可以获取目标仿真路口中仿真车辆的驾驶行为，确定该仿真车辆在岔路内向不同方向行驶的概率，即上述步骤410具体包括：

步骤412：通过对目标仿真路口中各个岔路上的仿真车辆的驾驶行为进行预测，得到仿真车辆在岔路上向不同方向行驶的概率。

本步骤中，驾驶行为可以是仿真车辆的历史行驶数据、所在车道以及仿真车辆的转向灯，例如，可以通过车道结合仿真车辆的转向灯确定仿真车辆不同方向的行驶概率，若仿真车辆V行走在左转和直行复合车道内，且仿真车辆V的转向灯为左转，则确定仿真车辆V不同方向的行驶概率为：左转方向1，直行方向0，右转方向0；若仿真车辆V行走在左转和直行复合车道内，但其转向灯为右转，则确定仿真车辆V不同方向的行驶概率为：左转方向1/3，直行方向1/3，右转方向1/3。

本发明实施例中，利用仿真车辆在岔路内往各个方向行驶的概率作为仿真车辆的行驶状态特征，一方面能便于对各个驾驶方向仿真车辆的行驶状态特征进行统计和计算，另一方面无需准确识别出仿真车辆确切行驶方向，降低训练数据的采集难度，可以通过进入车道或配合信号灯状态预测仿真车辆向不同方向行驶的概率，进一步提高了模型的适用性。

本发明一实施例，上述步骤320中的行驶状态统计特征包括岔路上仿真车辆不同行驶方向的期望排队长度。通过上述实施例获取到岔路中各个仿真车辆向不同方向行驶的概率，进一步可以统计不同行驶方向的车辆分布概率进行统计，计算出岔路中不同行驶方向的期望排队长度，即参照图6所示，上述步骤320具体包括：

步骤610：对岔路上仿真车辆的不同行驶方向的概率进行分组统计求和，得到岔路上不同行驶方向的期望排队长度，期望排队长度表征岔路上同一行驶方向的仿真车辆通行数量。

本发明一实施例中，定义集合

表示左转、直行、右转三个行驶方向，集合R_i表示路口i的岔路集合，用

表示岔路k上行驶的仿真车辆的集合。通过q_j,k表示岔路k上沿方向j行驶仿真车辆的期望排队长度：

其中P(j|V)表示仿真车辆V向j方向行驶的概率，P(j|V)可以通过获取各个所述岔路中不同行驶方向车道的车辆分布概率，例如当前岔路上有3辆仿真车辆V1、V2、V3，对于仿真车辆V1来说，可通过上述步骤411或步骤412得到仿真车辆V1左转、直行、右转三个行驶方向行驶的概率分别为：P(L|V1)＝0.5，P(S|V1)＝0.5，P(R|V1)＝0。同理，可以得到仿真车辆V2左转、直行、右转三个行驶方向行驶的概率分别为：P(L|V2)＝1，P(S|V2)＝0，P(R|V2)＝0，仿真车辆V3左转、直行、右转三个行驶方向行驶的概率分别为：P(L|V3)＝0，P(S|V3)＝0.5，P(R|V3)＝0.5。

因此，可以对岔路上仿真车辆的不同行驶方向的概率进行分组统计求和，得到所述岔路上不同行驶方向的期望排队长度，结合上述仿真车辆V1、V2、V3进行说明，分别依据左转、直行、右转进行分组统计，即对于当前岔路k来说，左转方向的期望排队长度为仿真车辆V1、V2、V3的左转方向行驶的概率之和，即q_L,k＝P(L|V1)+P(L|V2)+P(L|V3)＝1.5，表示当前岔路上左转车辆的期望排队长度为1.5辆车。

同理，可计算出前岔路上直行车辆的期望排队长度q_S,k＝P(S|V1)+P(S|V2)+P(S|V3)＝1。以及右转车辆的期望排队长度q_R,k＝P(R|V1)+P(R|V2)+P(R|V3)＝0.5。

这里的q_L,k＝1.5，q_S,k＝1，q_R,k＝0.5即为上述的行驶状态统计特征，同理，可以计算目标仿真路口中其他岔路的上不同行驶方向的期望排队长度。也可以用于计算仿真路网中其他仿真路口的期望排队长度。

本发明一实施例中，仿真车辆的行驶状态特征还包括仿真车辆在目标仿真路口的等待时间，行驶状态统计特征还包括期望等待时间，即参照图4所示，上述步骤320还包括以下步骤：

步骤620，对岔路上仿真车辆的不同行驶方向的概率及等待时间进行分组加权求和，然后除以期望排队长度得到期望等待时间，期望等待时间表征岔路上同一行驶方向的仿真车辆的平均等待时间。

本步骤中，通过w_j,k表示岔路k上沿方向j行驶车辆的期望等待时间：

其中P(j|V)表示仿真车辆V向j方向行驶的概率，w_V表示车辆V在仿真目标路口的等待时间。继续以上述仿真车辆V1、V2、V3进行说明，其中仿真车辆V1、V2、V3在仿真目标路口的等待时间分别为w_V1＝30s，w_V2＝20s，w_V3＝15s，则左转方向的期望等待时间为仿真车辆V1、V2、V3的左转方向行驶的概率及其等待时间进行加权求和后除以期望排队长度。

即左转方向的期望等待时间w_L,k＝(w_V1*P(L|V1)+w_V2*P(L|V2)+w_V3*P(L|V3))/q_L,k＝23.33s。表示在目标仿真路口中左转车辆的平均等待时间为23.33秒。同理，可以计算目标仿真路口中其他岔路的上不同行驶方向的期望等待时间。也可以用于计算仿真路网中其他仿真路口的期望等待时间。

本发明一实施例中，仿真车辆的行驶状态特征还包括仿真车辆在目标仿真路口的车速，行驶状态统计特征还包括期望车速，即参照图4所示，上述步骤320还包括以下步骤：

步骤630，对岔路上仿真车辆的不同行驶方向的概率及车速进行分组加权求和，然后除以期望排队长度，得到期望车速，期望车速表征所述岔路上同一行驶方向的仿真车辆的平均车速。

本步骤中，通过v_j,k表示岔路k上沿方向j行驶车辆的期望车速：

其中P(j|V)表示仿真车辆V向j方向行驶的概率，v_V表示车辆V通过路口是的车速或在岔路上的平均车速。

继续以上述仿真车辆V1、V2、V3进行说明，其中仿真车辆V1、V2、V3在仿真目标路口的车速分别为V_V1＝40m/s，V_V2＝10m/s，V_V3＝25m/s，则左转方向的期望等待时间为仿真车辆V1、V2、V3的左转方向行驶的概率及其车速进行加权求和后除以期望排队长度。

即左转方向的期望车速V_L,k＝(V_V1*P(L|V1)+V_V2*P(L|V2)+V_V3*P(L|V3))/q_L,k＝20m/s。表示在目标仿真路口中左转车辆的平均等待时间为每秒20米。

综上所述，目标仿真路口i的各个岔路上不同行驶方向车辆的行驶状态统计特征可以表示为：

,其中q_j,k，w_j,k，v_j,k分别表示岔路k上沿方向j行驶仿真车辆的期望排队长度、期望等待时间和期望车速。

本发明一实施例中，仿真交通状态信息还包括目标仿真路口信号灯在下一信号周期可用相位的相位集合信息。例如，相位集合信息可以标识当前仿真路口信号灯在下一个信号周期(即切换到下一相位)时可供选择采用的相位集合，为了确保信号灯状态的过渡能够有条不紊，避免出现不合理的相位过渡，不能随意进行相位状态的切换，需要确定下一个信号周期可用的相位，以图4a至图4h的8个相位为例，若当前仿真路口信号灯的相位为图4c所示的南北直行相位430，则下一个信号周期可供选择采用的相位集合就不宜包括图4g所示的由南向北全部放行相位470，因为这样由南往北直行的车辆持续了2个相位过长，类似地可以考虑路口可能出现的情况设置相位集合信息，例如考虑行人道通行合理逻辑关系，在此不再一一进行举例说明。相位集合信息可以由一个布尔型数组表示，其中每一位数固定表示一个可用的相位，比如[0,1,0,0,1,1,0,0]表示下一时刻允许的目标相位是图4b所示相位420，图4f所示相位450，图4g所示相位460。通过在模型训练过程中引入了相位集合信息，让信号灯策略预测模型在训练时考虑符合实际交通情况的可用相位，能够使信号灯策略预测模型作出更合理的预测结果。

本发明一实施例中，相位集合信息通过以下步骤获得：

步骤410，获取所述目标仿真路口当前信号周期的第一相位状态，根据所述第一相位状态确定下一信号周期可用相位的相位集合信息。本步骤中，下一信号周期可用相位的相位集合信息受到当前信号周期的第一相位状态影响，由当前的第一相位状态决定下一信号周期的可用相位。

在本发明另一实施例中，相位集合信息通过以下步骤获得：

步骤420，获取所述目标仿真路口的历史相位状态，根据所述历史相位状态确定下一信号周期可用相位的相位集合信息。本步骤中下一信号周期可用相位的相位集合信息受到信号灯的历史相位状态影响，历史相位状态包括历史相位的切换记录，例如根据前5个信号周期的历史相位状态决定下一信号周期的可用相位。

在本发明另一实施例中，为了实现路网中不同路口的协同控制作用，除了使用当前目标仿真路口的各个岔路的第一车辆行驶状态信息作为训练数据外，还考虑了与目标仿真路口邻接的相邻仿真路口，参照图7所示的路网，其中与目标仿真路口A的邻接的路口包括相邻仿真路口B、相邻仿真路口C、相邻仿真路口D和相邻仿真路口E。也就是说仿真交通状态信息还包括相邻仿真路口的第二车辆行驶状态信息，第二车辆行驶状态信息包括相邻仿真路口各个岔路上不同行驶方向车辆的行驶状态统计特征，相邻仿真路口的行驶状态统计特征统计方法与目标仿真路口一致，即相邻仿真路口各个岔路上不同行驶方向车辆的行驶状态统计特征维度与目标仿真路口一致，可以适用上述实施例中的行驶状态统计特征公式进行计算表达：

,其中i表示第i个仿真路口，q_j,k，w_j,k，v_j,k分别表示岔路k上沿方向j行驶车辆的期望排队长度、期望等待时间和期望车速。

如果用N_A表示目标仿真路口A及其相邻路口的集合(包括目标仿真路口A),则目标仿真路口A邻域的状态可表示为：

那么，一实施例中，目标仿真路口的仿真交通状态信息包括目标仿真路口的领域状态

和相位集合信息。

通过在训练数据中考虑其他邻接路口各个岔路上不同行驶方向仿真车辆的行驶状态统计特征，能够实现不同路口的协同控制，使信号灯策略预测模型的预测策略具备区域性和全局性，有效缓解路网整体通信效率，极大程度缓解道路交通拥堵，另外，由于只考虑了目标仿真路口邻接的相邻仿真路口，因此能够方便地对路网中的具备路口的信号灯策略预测模型进行修正。而且，由于相邻仿真路口的行驶状态统计特征也实现了与路口车道集合关系的解耦，使整个路网的信号灯策略预测模型具有更好的灵活性。

当路网需要局部进行调整时，若在进行模型训练时参考了仿真路网其他仿真路口的工作状态，相应的目标仿真路口需要重新进行训练，而本发明实施例由于只考虑了目标仿真路口邻接的相邻仿真路口，因此需要训练新增/待调整路口及其周围受到影响的相邻路口，其余路口无需调整。

1)若路口此前已经参与协同训练，则周围路口不受影响，只需要单独训练该路口；2)若路口为新增受控路口，则周围相邻受控路口均需要重新进行协同训练。

本发明的一个实施例，参见图8所示，在信号灯策略预测模型强化学习过程中或强化学习完成后，信号灯模型训练方法还包括以下步骤：

步骤340，获取第一仿真路口的状态变更信息，第一仿真路口与目标仿真路口相邻接。

本步骤中，第一仿真路口为变更了路口状态的一个相邻仿真路口，其中路口状态的变更可以是仿真路口的结构发生变化，例如是新增仿真路口，或者岔路、车道发生变化(例如增减了岔路或车道)，路口状态的变更也可以是仿真路口的信号灯发生变化，例如新增或减少了信号灯。当第一仿真路口的路口状态变更后，会通知其他仿真路口的智能体，相关的智能体获取第一仿真路口的状态变更信息。通知的方式可以是仅通知第一仿真路口的邻接路口，也可以通知整个路网所有的仿真路口。以图7为例，假设当前目标仿真路口为仿真路口C，第一仿真路口为仿真路口F，其中，仿真路口F的信号灯为新设置的受控信号灯，因此仿真路口C的智能体会收到对应仿真路口F的状态变更信息，该状态变更信息仿真路口C的智能体其邻近的仿真路口F路口状态发生变更。

步骤350，判断信号灯策略预测模型在进行强化训练时是否有使用第一仿真路口的行驶状态统计特征，若没有使用，则重新获取所述目标仿真路口的仿真交通状态信息作为训练数据并重新对所述信号灯策略预测模型进行强化学习训练。

本步骤中，智能体根据第一仿真路口的状态变更信息确定发生状态变化的仿真路口，然后判断训练的过程或已经训练完成的信号灯策略预测模型是否使用过第一仿真路口的行驶状态统计特征，其中，一实施例中，可以对上述邻域特征

中的特征元素进行判断，根据元素的标识(例如判断S_i中的i是否存在第一仿真路口的表示)判断是否有使用过第一仿真路口的行驶状态统计特征。

以图7为例，假设目前想更新目标仿真路口A，由于此前相邻仿真路口B、C、D、E路口的算法已经把A当作相邻路口进行协同训练，此时不再需要重新训练，故只需要目标仿真路口A，其他所有路口算法无须调整。例如目标仿真路口F不是受控路口，我们想给其安装信号灯并设计控制算法，由于相邻仿真路口C、D在此前训练过程中未考虑F的存在，未进行协同训练，故相邻仿真路口C、D和目标仿真路口F均需要重新训练，其余路口无需调整。

参照图9所示，本发明的一个实施例，上述步骤330，具体包括以下步骤：

步骤910，将所述仿真交通状态信息输入至信号灯策略预测模型进行策略预测，得到所述目标仿真路口的第一信号灯控制策略。

本步骤中，智能体将获取的仿真交通状态信息输入至信号灯策略预测模型进行策略预测，得到用于控制目标仿真路口相位的第一信号灯控制策略，其中，仿真交通状态信息包括目标仿真路口的第一车辆行驶状态信息、第二车辆行驶状态信息和相位集合信息。

步骤920,根据第一信号灯控制策略控制目标仿真路口的信号灯当前工作状态。

本步骤中，智能体通过第一信号灯控制策略控制目标仿真路口的信号灯当前工作状态，实现对环境(即目标仿真路口的交通流量状态)进行影响。

步骤930,当所述目标仿真路口的信号灯的工作状态变化后，重新获取所述目标仿真路口的仿真交通状态信息，得到目标仿真交通状态信息。一实施例中，当智能体向目标仿真路口的信号灯发送第一信号灯控制策略后，可视为目标仿真路口的信号灯的工作状态变化，获取目标仿真路口的仿真交通状态信息周围目标仿真交通状态信息。另一实施例中，也可以通过观察信号灯的相位发生变化后确定信号灯的工作状态已变化，另一实施例中，也可以直接获取目标仿真路口信号灯下一个信号周期的仿真交通状态信息作为目标仿真交通状态信息。

步骤940，根据所述目标仿真交通状态信息，对第一信号灯控制策略进行评价，得到目标评价信息。

第一信号灯控制策略对目标仿真路口的环境进行了影响，为了判断第一信号灯控制策略对环境造成了正面影响还是负面影响，需要重新采集目标仿真路口信号灯的工作状态变化后的目标仿真交通状态信息(可以是下一个信号周期的交通状态)，以根据目标仿真交通状态信息对第一信号灯控制策略进行评价，目标评价信息可以通过设置奖励函数(reward函数)实现。

其中，第二交通状态信息和奖励函数相关，在一些实施例中，第二交通状态信息可以与第一交通状态信息的特征维度一致。在另一些实施例中，也可以设置得与第一交通状态信息不一致。例如，参照图7所示的路网，第二交通状态信为路口的整体排队长度和延误时间，L_A表示目标路口A的全部岔路的集合，则路口A的奖励函数可以定义为

其中，α是等待时间的权重系数，q_l和w_l分别是车道l的排队长度和首辆车等待时间。路口A邻域的奖励函数可以表示为

其中β为距离系数，d(A,j)为路口j到A的图形距离。由于目标路口A的邻域仅由A及其直接相邻的路口组成，因此当计算目标仿真路口的奖励时，图形距离为零，无需考虑距离系数，即可以得到：

其中，一实施例中，奖励函数R_A中的距离系数β，等待时间的权重系数α可以通过神经网络模型进行训练获得，例如，对于演员/评论家强化学习模型(actor/critic模型)，包括信号灯策略模型(actor)以及评价模型(critic模型)，上述奖励函数R_A中的距离系数β，等待时间的权重系数α可以通过评价模型进行训练得到。

步骤950，根据目标评价信息和目标仿真交通状态信息，对信号灯策略预测模型中的参数进行修正。

本步骤中，智能体根据目标评价信息和目标仿真交通状态信息，对信号灯策略预测模型中的参数进行修正。

参照图10所示，在本发明一些实施例中，上述步骤940，具体包括：

步骤1010，根据目标仿真交通状态信息，对第一信号灯控制策略进行评价，得到初始评价信息。

步骤1020，通过判断第一信号灯控制策略是否为相位集合信息中的可用相位，得到评价修正信息。

步骤1030,根据评价修正信息对初始评价信息进行修正，得到目标评价信息。

其中，初始评价信息为上述实施例中的

由于可能信号灯策略预测模型预测的第一信号灯控制策略并非下一信号周期可用的相位，因此本实施例中引入相位集合信息进行修正。若判断第一信号灯控制策略并非属于相位集合信息，则需要对奖励函数进行修正，即：

其中R_false为错误状态切换的代价，其取值为负数，在本实施例中，R_false＝-300，表示当判断第一信号灯控制策略并非属于相位集合信息奖励函数减300分，该取值可以根据实际情况设置或者调试修正。

通过上述步骤610至步骤650，实现了单步的强化学习训练，在一些实施例中，还可以设置累计奖励，当累积奖励值得到预设的目标，停止进行强化学习训练，在另一些实施例中，可以不设置累计奖励判断强化学习是否应该结束，可以设置强化学习训练的固定步长，例如设置训练10000步后结束强化学习训练，同理也可以通过设置训练时间来结束强化学习训练。

参照图11所示为本发明实施例的一个神经网络模型，为一个actor/critic模型，其中模型的输入为仿真交通状态信息，即领域

中各个岔路按车辆行驶方向提取的期望排队长度，期望等待时间和期望速度以及相位集合信息。其中期望排队长度、期望等待时间、期望速度，和相位集合信息分别连接有FC全连接中间层，然后连接有状态的LSTM(全称为长短期记忆网络Long Short Term Memory networks)层，最后输出第一信号灯控制策略和奖励函数，其中第一信号灯控制策略以softmax激活函数表示，奖励函数单点输出表示(即输出奖励函数的具体数值)。

参照图12所示，本发明实施例提供了一种信号灯模型训练系统，采用A3C的分布式模式(Asynchronous Advantage Actor-Critic)进行路网神经网络模型训练，信号灯模型训练系统包括全局模型和两个以上的工作者模型，其中全局模型包括全局强化学习模型集合，强化学习模型集合包括分别与目标路网中各个路口对应的全局强化学习模型，例如参照图7所示，目标路网包括16个路口，则全局强化学习模型集合中包括16个全局强化学习模型，其中每个全局强化学习模型包括全局信号灯策略模型和全局评价模型。一实施例中，全局强化学习模型集合根据输入的目标路网结构生成，即对目标路网中的每个路口对应生成一个全局强化学习模型组成对应目标路网的全局强化学习模型集合。

信号灯模型训练系统的最终目的是输出全局信号灯策略模型集合应用于对目标路网中各个路口的信号灯控制。全局模型不执行强化学习训练，强化学习训练由各个工作者模型并行执行，再将训练结果反馈至全局模型以更新全局强化学习模型集合。

每个工作者模型都并行执行强化训练，工作者模型包括交通环境仿真模块，交通环境仿真模块用于模拟所述路网的交通仿真环境，其中交通仿真环境包括仿真路网及其仿真路口。

工作者模型从全局强化学习模型集合中获取对应目标仿真路网中各个仿真路口的全局信号灯策略模型以及全局评价模型，并生成对应各个仿真路口的信号灯策略模型和评价模型。其中，信号灯策略模型用于对目标仿真路口的信号灯控制策略进行预测，评价模型用于评价信号灯策略模型输出的控制策略。

工作者模型利用交通仿真环境对信号灯策略模型和评价模型进行强化训练。其中，工作者模型中的所有信号灯策略模型和评价模型均共享相同的交通环境仿真模块。即工作者模型基于同一个交通仿真环境对多个仿真路口的信号灯策略模型和评价模型进行强化训练。一实施例中，每个仿真路口对应设置有一个智能体，智能体用于获取其对应的仿真路口的仿真交通状态信息，并依据图3所示步骤310至步骤330的信号灯模型训练方法对信号灯策略模型进行训练。

本发明一实施例中，工作者模型从目标仿真路网中获取目标仿真路口的仿真交通状态信息，仿真交通状态信息包括目标仿真路口的第一车辆行驶状态信息；

工作者模型通过仿真交通状态信息对信号灯策略预测模型及评价模型进行强化学习训练，其中，第一车辆行驶状态信息包括目标仿真路口中各个岔路上不同行驶方向仿真车辆的行驶状态统计特征，第一车辆行驶状态信息通过以下步骤获得：

工作者模型对信号灯策略预测模型进行强化学习训练时，获取信号灯策略预测模型及其对应评价模型的网络参数，并将所获取的各个网络参数反馈至全局模型，以使全局模型更新各个全局信号灯策略模型及其对应的全局评价模型。一实施例中，网络参数包括信号灯策略预测模型和评价模型的梯度参数。

本发明的一个实施例中，工作者模型中的各个智能体将每次训练获得网络参数反馈至全局模型，另一实施例中，智能体也可以根据评价模型的评价结果向全局反馈网络参数，例如评价模型对第一信号灯控制策略的目标评价信息符合预设条件，才向全局模型反馈网络参数，或者累计奖励符合预设条件，向全局模型反馈网络参数。

本发明的一个实施例中，工作者模型会根据强化学习训练的进度对交通仿真环境进行初始化，例如可以设定满足预设训练时间和训练步长后对交通仿真环境进行初始化，这样能够避免长时间的交通环境仿真而使目标仿真路网出现大规模拥堵，进而避免由于长时间训练影响强化学习的效果。

本发明实施例提供的信号灯模型训练系统，由多个工作者模型并行进行强化学习训练，各个工作者模芯并周期性地向全局模型反馈网络参数，以更新全局模型中的全局强化学习模型集合，这样能够使各个工作者模型能够及时获取最新的全局强化学习模型集合进一步进行训练，能有效提高信号灯模型的训练效率，由于工作者模型进行强化学习训练时是复制全局模型中的整个全局强化学习模型集合作为强化学习训练的基础模型，因此训练完成后的各个全局信号灯策略模型的协同控制效果更佳，另外，工作者模型依据行驶方向对仿真车辆的行驶状态特征进行分组统计，得到目标仿真路口中各个岔路上不同行驶方向仿真车辆的行驶状态统计特征，并以此作为训练样本对信号灯策略预测模型进行训练，由于训练样本数据与岔路的车道结构无关，因此实现了信号灯策略预测模型与路口车道几何关系的解耦，即使岔路上的车道结构发生变化后，信号灯策略预测模型仍然能够使用，这样提高了信号灯策略预测模型在实际道路环境的普遍适应性，使全局信号灯策略模型集合具有更好的灵活性和适应性。

基于图12所示的信号灯模型训练系统，参考图13所示，本发明实施例提供了一种信号灯模型的全局训练方法，所述训练方法包括以下步骤：

步骤1310，工作者模型从全局模型中获取全局信号灯策略模型集合，根据全局信号灯策略模型集合生成对应的信号灯策略模型集合，信号灯策略模型集合包括与目标路网中各个路口对应的信号灯策略模型。

本步骤中，工作者模型从全局模型中的全局强化学习模型集合中获取目标路网中各个路口的全局信号灯策略模型组成的全局信号灯策略模型集合，另外，工作者模型还可以从全局强化学习模型集合中获取对应各个全局信号灯策略模型的全局评价模型，工作者模型根据全局信号灯策略模型的全局评价模型生成对应模拟仿真环境中仿真路口的信号灯策略模型和评价模型。一实施例中，全局强化学习模型为全局模型根据输入的目标路网结构生成，即对目标路网中的每个路口对应生成一个全局强化学习模型并组成对应目标路网的全局强化学习模型集合，因此，工作者模型中的信号灯策略模型集合和评价模型集合与目标路网中的各个路口对应。

步骤1320，工作者模型依据图3所示步骤310至步骤330的信号灯模型训练方法对信号灯策略模型进行训练，并获得信号灯策略模型集合中各个信号灯策略模型的网络参数；

本步骤中，工作者模型通过从过仿真交通状态信息对信号灯策略预测模型及评价模型进行强化学习训练。

步骤1330，工作者模型将所获取的各个网络参数反馈至全局模型，以使全局模型更新各个全局信号灯策略模型。

本步骤中，网络参数包括信号灯策略预测模型和评价模型的梯度参数。

本发明实施例提供的信号灯模型的全局训练方法，由多个工作者模型并行进行强化学习训练，各个工作者模芯向全局模型反馈网络参数，以更新全局模型中的全局强化学习模型集合，这样能够使各个工作者模型能够及时获取最新的全局强化学习模型集合进一步进行训练，能有效提高信号灯模型的训练效率，由于工作者模型进行强化学习训练时是复制全局模型中的整个全局信号灯策略模型集合作为强化学习训练的基础模型，因此训练完成后的各个全局信号灯策略模型的协同控制效果更佳，另外，工作者模型依据行驶方向对仿真车辆的行驶状态特征进行分组统计，得到目标仿真路口中各个岔路上不同行驶方向仿真车辆的行驶状态统计特征，并以此作为训练样本对信号灯策略预测模型进行训练，由于训练样本数据与岔路的车道结构无关，因此实现了信号灯策略预测模型与路口车道几何关系的解耦，即使岔路上的车道结构发生变化后，信号灯策略预测模型仍然能够使用，这样提高了信号灯策略预测模型在实际道路环境的普遍适应性，使全局信号灯策略模型集合具有更好的灵活性和适应性。

参照图14所示，为信号灯模型的全局训练方法的一个训练流程图，以下结合图14对信号灯模型的全局训练方法的完整流程进行说明，其中图14所示的信号灯模型的全局训练方法依赖图12所示的信号灯模型训练系统，全局训练方法具体如下：

步骤1410，全局模型对目标路网的所有全局强化学习模型进行初始化，即初始化全局强化学习模型集合，全局强化模型集合中的各个全局强化模型以及全局评价模型的网络参数恢复至默认值。一实施例中，全局模型可以获取一个新的目标路网，并根据新的目标路网的结构新建全局强化学习模型集合，其中全局强化模型集合中的各个全局强化模型以及全局评价模型的网络参数均处于初始化状态。

步骤1420，工作者模型对其交通环境仿真模块进行初始化操作，使仿真交通环境处于初始化的状态。一实施例中，工作者模型可以从全局模型获取目标路网结构，交通环境仿真模块根据目标路网结构生成仿真交通环境，该仿真交通环境处于初始化状态。

步骤1430，工作者模型从全局模型中复制各个仿真路口对应的全局信号灯策略模型以及全局评价模型(例如复制其网络参数)，并生成对应各个仿真路口的信号灯策略模型和评价模型。

步骤1440，工作者模型从仿真交通环境中获取各个标仿真路口的仿真交通状态信息，其中仿真交通状态信息包括表征当前仿真路口仿真交通状态的第一车辆行驶状态信息和表征相邻路口仿真交通状态的第二车辆行驶状态信息以及标识下一信号周期可用相位的相位集合信息，工作者模型将仿真交通状态信息输入至信号灯策略模型中得到第一信号灯控制策略。

步骤1450，工作者模型各个仿真路口的智能体根据第一信号灯控制策略控制当前仿真路口的信号灯工作状态，使仿真交通环境发生变化，评价模型根据仿真交通环境的变化对第一控制策略进行评价，智能体根据该评价计算信号灯策略模型及评价模型的梯度，信号灯策略模型和评价模型根据该梯度调整其网络参数。

步骤1460，工作者模型将各个仿真路口中信号灯策略模型和评价模型的网络参数发送至全局模型，以使全局模型同步更新其全局信号灯策略模型和全局评价模型。这样能够让其他的工作者模型及时获取到最新的全局信号灯策略模型和全局评价模型，提高训练效果。

步骤1470，工作者模型判断当前强化学习训练是否符合训练结束条件，若符合结束条件，这执行步骤1480，若不符合训练结束条件，则执行步骤1430获取最新的全局信号灯策略模型以及全局评价模型继续进行训练。其中，训练结束条件可以是训练时间或训练步长，例如可以设定当训练步长总数到达60步后，认为当前交通仿真环境已经不适合继续训练，执行步骤1480重置交通仿真环境或结束当前工作者模型的训练工作。

步骤1480，工作者模型判断当前工作者模型的强化学习训练是否符合结束条件，若符合，当前工作者模型结束训练工作，若不符合，则执行步骤1420对交通环境仿真模块进行初始化操作。其中，工作者模型的强化学习训练结束条件可以是预设的训练时间或训练步长，例如当训练步长总数到达1000步后，当前工作者模型的训练工作结束。

参照图2所示，本发明实施例提供一种信号灯控制方法，用于控制目标路口的信号灯工作状态，可应用于终端201中，也可应用于服务器202中，还可以是运行于终端或服务器中的软件。

在一些实施例中，由终端201执行信号灯控制方法，终端201可以是局部路网的现场控制器，例如可以是现场信号灯控制器、通信基站、智能手机、平板电脑、笔记本电脑、台式计算机等。终端201中存储了用于控制目标路口信号灯的信号灯策略预测算法或信号灯策略预测模型，其中信号灯策略预测模型可以由上述实施例中的信号灯模型训练方法或信号灯模型的全局训练方法得到。

在另一些实施例中，由服务器202执行信号灯控制方法，服务器202可以是应用于交通部门的路网控制服务器，例如设置在某个市区对该市内路网信号灯进行控制的服务器，也可以是应用在分布式大数据处理平台中，例如通过分布式大数据处理平台分别对各个路口对应的信号灯进行控制。服务器202中存储了用于控制目标路口信号灯的信号灯策略预测算法或信号灯策略预测模型，其中信号灯策略预测模型可以由上述实施例中的信号灯模型训练方法或信号灯模型的全局训练方法得到。

在另一些实施例中，可以由服务器202配合终端201执行信号灯控制方法，其中终端201用于控制路网中各个路口的信号灯的工作状态，服务器202与各个终端201通信连接，用于向终端201下达信号灯控制策略指令。其中服务器202中存储了用于控制目标路口信号灯的信号灯策略预测算法信号灯策略预测模型，其中信号灯策略预测模型可以由上述实施例中的信号灯模型训练方法或信号灯模型的全局训练方法得到。

参照图15所示，是本申请实施例提供的信号灯控制方法包括以下步骤：

步骤1510，获取目标路口的交通状态信息，交通状态信息包括目标路口的第一车辆行驶状态信息。

本步骤中，目标路口为如图1所示十字路口，目标路口上设置有信号灯(图未示出)指挥目标路口中车辆的行驶，其中信号灯的工作状态可以表现为如图4a至图4h所示的8个相位，即如参照图4a所示的东西直行相位410、图4b所示的东西左转相位420、图4c所示的南北直行相位430、图4d所示的南北左转相位440、图4e所示的由西向东全部放行相位450、图4f所示的由东向西全部放行相位460、图4g所示的由南向北全部放行相位470、图4h所示的由北向南全部放行相位480。可以通过信号灯控制器控制信号灯的相位切换，例如信号灯控制器控制信号灯的相位从西向东全部放行相位450切换至由南向北全部放行相位470。目标路口的状态包括信号灯的状态(以上述的信号灯相位表示)以及目标路口的交通状态，在本实施例中，目标路口的交通状态指目标路口中车辆行驶状态，例如南向北通行顺畅，西向东通行拥堵等均可视为目标路口的交通状态，本步骤中主要考虑车辆的行驶状态，并未考虑行人或自行车的行驶状态，当然，本领域技术人员也可以基于本发明实施例的构思将行人或自行车作为特征考虑。

一实施例中，通过交通状态感应模块获取目标路口的交通状态信息，其中可以通过设置于目标路口中的各种传感器获取目标路口的交通状态信息，例如设置于岔路两侧用于检测是否有车辆通过的红外传感器、用于检测车速的超声波/微波传感器、设置于车道底部的环形线圈传感器等，其中环形线圈传感器可以检测交通量、车速、占有率、车头时距、车长、长车比和车辆存在等多种车辆行驶状态信息。另一实施例中，也可以通过设置于目标路口的摄像监控设备以图像识别的方式获取目标路口的交通状态信息。

本步骤中，可以实时获取目标路口的交通状态信息，例如获取瞬时的目标路口的车辆通行状态，又或者设定一个固定或动态的时间采集窗口，获取一定时间段的车辆通行状态信息，以进一步统计获得相关的统计特征，例如统计得到平均车速、平均通行时间等。本步骤中，交通状态信息包括第一车辆行驶状态信息，第一车辆行驶状态信息表征当前目标路口上所有车辆的行驶状态。

步骤1520，根据交通状态信息进行信号灯状态策略预测，得到目标路口的信号灯控制策略。

本步骤中，可以使用信号灯状态预测算法或信号灯策略预测模型进行信号灯控制策略预测，其中信号灯状态预测算法可以是预设的信号灯状态切换函数，而信号灯策略预测模型可以采用上述实施例中信号灯模型训练方法或信号灯模型的全局训练方法得到。例如可以采用如图3中步骤310-330的信号灯模型训练方法、图8中步骤310至步骤350的信号灯模型训练方法、图13中步骤1310至步骤1330的信号灯模型的全局训练方法或者图14中步骤1410至步骤1480的信号灯模型的全局训练方法训练得到的信号灯策略预测模型。以服务器202执行信号灯控制方法为例，服务器202通过交通状态感应模块获取目标路口的交通状态信息，将该交通状态信息输入至服务器202中的信号灯策略预测模型进行策略预测，得到目标路口的信号灯控制策略。

步骤1530，根据信号灯控制策略控制目标路口的信号灯工作状态。

本步骤中，目标路口的信号的设置有用于接收信号灯控制策略的信号接收端口，信号灯通过信号接收端口获取信号灯控制策略，并依据信号灯控制策略控制其信号灯的状态(例如改变其信号灯相位)。以服务器202执行信号灯控制方法为例，服务器202将步骤1520中得到的信号灯控制策略发送至信号灯的信号接收端口中，实现控制目标路口的信号灯工作状态。

本发明一实施例中，第一车辆行驶状态信息包括目标路口中各个岔路上不同行驶方向车辆的行驶状态统计特征，参照图16所示，上述步骤1510中的第一车辆行驶状态信息，具体通过以下步骤获得：

步骤1610，获取目标路口中各个岔路上行驶的车辆的行驶状态特征；

步骤1620，根据车辆在岔路上的行驶方向对车辆的行驶状态特征进行分组统计，得到目标路口中各个岔路上不同行驶方向车辆的行驶状态统计特征。

本步骤中，以车辆在岔路上的行驶方向对上述各个车辆的行驶状态特征进行统计，例如，当前岔路上包括左转、直行和右转三个方向，分别对三个方向行驶的车辆的行驶状态特征进行统计，即分别统计左转车辆的行驶状态特征、直行车辆的行驶状态特征和右转车辆的行驶状态特征，进而分别得到左转方向的行驶状态统计特征、直行方向的行驶状态统计特征和右转方向的行驶状态统计特征。

在本发明实施例中，并没有在岔路上区分车道对路口进行特征提取，而是根据岔路上车辆的行驶状态，以不行驶方向车辆的行驶状态特征进行分组统计，得到不同行驶方向车辆的行驶状态统计特征，本发明实施例以车辆行驶方向维度进行特征统计，在使用模型时具有更好的灵活性。

本发明实施例提供的一种信号灯控制方法，根据目标路口的交通状态信息预测目标路口的信号灯控制策略，能够给出较佳的信号灯配时方案，能够有效改善城市交通的拥堵状况，实现快速响应交通状况的变化，使得目标路口交通得以安全、顺畅地运营。另外，本发明实施例中通过车辆在岔路上的行驶方向对车辆的行驶状态特征进行分组统计，得到目标路口中各个岔路上不同行驶方向车辆的行驶状态统计特征，以进行信号灯控制策略的预测，由于统计特征信息的对象是整个岔路上不同行驶方向的车辆，实现了与路口中车道结构的解耦，这样输入的预测特征与岔路中的车道结构无关，即使岔路上的车道结构发生变化后，信号灯策略预测模型仍然能够适用，这样提高了信号灯策略预测及其信号灯策略预测模型在实际道路环境的普遍适应性，使用信号灯策略预测或信号灯策略预测模型具有更好的灵活性。

本发明一实施例中，车辆的行驶状态特征包括所述车辆在所述岔路上向不同方向行驶的概率，上述步骤1610具体包括：

步骤1611，获取目标路口中各个岔路上不同行驶方向车道的车辆分布概率，根据车辆分布概率计算出车辆在岔路上向不同方向行驶的概率。

本步骤中，可以结合车道和各车道的车辆通行数量统计简单地获得岔路上不同行驶方向车道的车辆分布概率，这样无需跟踪目标路口中各车辆的具体行驶轨迹，能提高车辆行驶状态的获取和统计效率。一实施例中，可以通过统计各个车道的车辆通信数量确定车辆在岔路上向不同方向行驶的概率。例如，当前岔路上设置有左转车道、直行车道和右转车道，则可以在一个统计周期中，统计经过各个车道的车辆通行数量分布。在另一实施例中，也可以通过计算不同行驶方向车道的车辆分布概率，能够确定各车辆在岔路内往各个方向行驶的概率，例如，若对于车辆V’，若确定其行驶进直行车道内，则车辆V’不同方向的行驶概率为：左转方向0，直行方向1，右转方向0。若确定该车辆V’驶进直行左转和直行复合车道内，车辆V’不同方向的行驶概率为：左转方向0.5，直行方向0.5，右转方向0。

另外，一实施例中，也可以获取目标路口中各车辆的驾驶行为，确定该车辆在岔路内向不同方向行驶的概率，即上述步骤1610具体包括：

步骤1612，通过对目标路口中各个岔路上的车辆的驾驶行为进行预测，得到车辆在岔路上向不同方向行驶的概率。

本步骤中，车辆的驾驶行为可以通过车道上的传感器组合进行感知，例如对车辆进入车道、车速等数据对车辆的的行驶方向进行预测，又或者，通过设置于路口中的摄像头通过图像识别的方式进行预测，例如通过拍摄车辆的行驶轨迹、确定车辆进入的车道及其转向灯的状态，确定当前车辆不同方向行驶的概率。例如，若车辆V’行走在左转和直行复合车道内，且车辆V’的转向灯为左转，则确定车辆V’不同方向的行驶概率为：左转方向1，直行方向0，右转方向0；若真车辆V行走在左转和直行复合车道内，但其转向灯为右转，则确定车辆V’不同方向的行驶概率为：左转方向1/3，直行方向1/3，右转方向1/3。

本发明实施例中，利用车辆在岔路内往各个方向行驶的概率作为车辆的行驶状态特征，一方面能便于对各个驾驶方向车辆的行驶状态特征进行统计和计算，另一方面无需准确识别出车辆确切行驶方向，降低信号灯策略预测模型输入特征数据的采集难度，可以通过进入车道或配合信号灯状态预测车辆向不同方向行驶的概率，进一步提高了模型的适用性。

本发明一实施例中，上述步骤1620中的各个岔路上不同行驶方向车辆的行驶状态统计特征包括岔路上车辆不同行驶方向的期望排队长度。通过上述实施例获取到岔路中各个车辆向不同方向行驶的概率，进一步可以统计不同行驶方向的车辆分布概率进行统计，计算出岔路中不同行驶方向的期望排队长度，即参照图17所示，上述步骤1620具体包括：

步骤1710，对所述岔路上所述车辆的不同行驶方向的概率进行分组统计求和，得到所述岔路上不同行驶方向的所述期望排队长度，所述期望排队长度表征所述岔路上同一行驶方向的车辆通行数量。

本发明一实施例中，定义集合

表示左转、直行、右转三个行驶方向，集合R_i表示路口i的岔路集合，我们用

表示岔路k上行驶车辆的集合。通过q_j,k表示岔路k上沿方向j行驶车辆的期望排队长度：

其中P(j|V')表示车辆V'向j方向行驶的概率，P(j|V')可以通过上述步骤获取各个所述岔路中不同行驶方向车道的车辆分布概率，例如可以通过上述步骤1611或步骤1612得到车辆V'左转、直行、右转三个行驶方向行驶的概率P(L|V')，P(S|V')，P(R|V')。在此基础上，可以对岔路上车辆的不同行驶方向的概率进行分组统计求和，得到所述岔路上不同行驶方向的期望排队长度，例如岔路上行驶有车辆V’1、V’2、V’3，则对于当前岔路k来说，左转方向的期望排队长度为车辆V’1、V’2、V’3的左转方向行驶的概率之和，即：q_L,k＝P(L|V'1)+P(L|V'2)+P(L|V'3)。

同理，可以计算出直行车辆的期望排队长度：q_S,k＝P(S|V'1)+P(S|V'2)+P(S|V'3)；

以及右转车辆的期望排队长度q_R,k＝P(R|V'1)+P(R|V'2)+P(R|V'3)；这里的q_L,k、q_S,k和q_R,k即为上述的行驶状态统计特征。同理，可以计算目标路口中其他岔路的上不同行驶方向的期望排队长度。也可以用于计算路网中其他路口的期望排队长度。

本发明一实施例中，车辆的行驶状态特征还包括车辆在目标路口的等待时间，行驶状态统计特征还包括期望等待时间，即参照图17所示，上述步骤1620还包括以下步骤：

步骤1720，对所述岔路上所述车辆的不同行驶方向的概率及所述等待时间进行分组加权求和，然后除以所述期望排队长度得到期望等待时间，所述期望等待时间表征所述岔路上同一行驶方向的车辆的平均等待时间。

其中P(j|V)表示车辆V'向j方向行驶的概率，w_V'表示车辆V’在目标路口的等待时间。例如对于车辆V’1、V’2、V’3在目标路口的等待时间分别为w_V'1，w_V'2，w_V'3，则左转方向的期望等待时间为车辆V’1、V’2、V’3的左转方向行驶的概率及其等待时间进行加权求和后除以期望排队长度。即左转方向的期望等待时间:

w_L,k＝(w_V'1*P(L|V'1)+w_V'2*P(L|V'2)+w_V'3*P(L|V'3))/q_L,k。同理，可以计算目标路口中其他岔路的上不同行驶方向的期望等待时间。也可以用于计算目标路网中其他路口的期望等待时间。

本发明一实施例中，车辆的行驶状态特征还包括车辆在目标路口的车速，行驶状态统计特征还包括期望车速，即参照图17所示，上述步骤1620还包括以下步骤：

步骤1730，对岔路上车辆的不同行驶方向的概率及车速进行分组加权求和，然后除以期望排队长度，得到期望车速，期望车速表征岔路上同一行驶方向的车辆的平均车速。

其中P(j|V')表示车辆V'向j方向行驶的概率，v_V‘表示车辆V’通过路口是的车速或在岔路上的平均车速。例如对于车辆V’1、V’2、V’3在目标路口的车速分别为V_V'1＝40m/s，V_V'2＝10m/s，V_V’3＝25m/s，则左转方向的期望等待时间为车辆V’1、V’2、V’3的左转方向行驶的概率及其车速进行加权求和后除以期望排队长度。

即左转方向的期望车速V_L,k＝(V_V'1*P(L|V'1)+V_V'2*P(L|V'2)+V_V'3*P(L|V'3))/q_L,k＝20m/s。表示在目标路口中左转车辆的平均等待时间为每秒20米。

综上所述，目标路口i的各个岔路上不同行驶方向车辆的行驶状态统计特征可以表示为：

,其中q_j,k，w_j,k，v_j,k分别表示岔路k上沿方向j行驶车辆的期望排队长度、期望等待时间和期望车速。

本发明一实施例中，交通状态信息还包括目标路口信号灯在下一信号周期可用相位的相位集合信息。例如，相位集合信息可以标识当前路口信号灯在下一个信号周期(即切换到下一相位)时可供选择采用的相位集合。即上述步骤1520中，还将相位集合信息输入至信号灯策略预测模型进行策略预测，得到目标路口的信号灯控制策略。为了确保信号灯状态的过渡能够有条不紊，避免出现不合理的相位过渡，不能随意进行相位状态的切换，需要确定下一个信号周期可用的相位，将相位集合信息作为输入特征输入至信号灯策略预测模型中，以使信号灯策略预测模型考虑下一个信号周期可用的相位，能够得出更合理、符合现实需求的信号灯控制策略。相位集合信息可以由一个布尔型数组表示，其中每一位数固定表示一个可用的相位，比如[0,1,0,0,1,1,0,0]表示下一时刻允许的目标相位是图4b所示相位420，图4f所示相位450，图4g所示相位460。

本发明一实施例中，相位集合信息通过以下步骤获得：

步骤1511，获取所述目标路口当前信号周期的第一相位状态，根据所述第一相位状态确定下一信号周期可用相位的相位集合信息。本步骤中，下一信号周期可用相位的相位集合信息受到当前信号周期的第一相位状态影响，由当前的第一相位状态决定下一信号周期的可用相位。

在本发明另一实施例中，相位集合信息通过以下步骤获得：

步骤1512，获取所述目标路口的相位状态，根据所述相位状态确定下一信号周期可用相位的相位集合信息。本步骤中下一信号周期可用相位的相位集合信息受到信号灯的相位状态影响，相位状态包括相位的切换记录。

在本发明另一实施例中，为了实现路网中不同路口的协同控制作用，除了使用当前目标路口的各个岔路的第一车辆行驶状态信息作为输入特征外，还考虑了与目标路口邻接的相邻路口，参照图7所示的路网，其中与目标路口A的邻接的路口包括相邻路口B、相邻路口C、相邻路口D和相邻路口E。也就是说交通状态信息还包括相邻路口的第二车辆行驶状态信息，第二车辆行驶状态信息包括相邻路口各个岔路上不同行驶方向车辆的行驶状态统计特征，相邻路口的行驶状态统计特征统计方法与目标路口一致，即相邻路口各个岔路上不同行驶方向车辆的行驶状态统计特征维度与目标路口一致，可以适用上述实施例中的行驶状态统计特征公式进行计算表达：

,其中i表示第i个路口，q_j,k，w_j,k，v_j,k分别表示岔路k上沿方向j行驶车辆的期望排队长度、期望等待时间和期望车速。

如果用N_A表示A路口及其相邻路口的集合(包括A),则A路口邻域的状态可表示为：

本发明一实施例中，目标路口的交通状态信息包括目标路口的领域状态和相位集合信息。

通过在信号灯策略预测模型输入特征考虑其他邻接路口各个岔路上不同行驶方向车辆的行驶状态统计特征，能够实现不同路口的协同控制，使信号灯策略预测模型的预测策略具备区域性和全局性，有效缓解路网整体通信效率，极大程度缓解道路交通拥堵，而且，由于相邻路口的行驶状态统计特征也实现了与路口车道集合关系的解耦，使整个路网的信号灯策略预测模型具有更好的灵活性。

本发明一实施例中，可以针对当前区域的整个目标路网的信号灯进行控制，即目标路网中的各个路口均对应有一个信号灯策略预测模型，这些信号灯策略预测模型组合成信号灯策略预测模型集合，该成信号灯策略预测模型集合可以由上述实施例中的信号灯模型训练方法逐一进行训练得到，也可以由上述实施例中的信号灯模型的全局训练方法训练得到。

参照图18所示，本发明实施例还提供一种信号灯控制装置，用于控制目标路口的信号灯工作状态，信号灯控制装置包括：

交通状态获取单元1810，用于获取目标路口的交通状态信息，交通状态信息包括目标路口的第一车辆行驶状态信息；

策略预测单元1820，用于根据交通状态信息进行信号灯状态策略预测，得到目标路口的信号灯控制策略；

信号灯控制单元1830，用于根据信号灯控制策略控制目标路口的信号灯工作状态；

获取目标路口中各个岔路上行驶的车辆的行驶状态特征；

获取相邻路口中各个岔路上行驶的车辆的行驶状态特征；

进一步，交通状态获取单元还用于：

参照图19所示，本发明实施例还提供了一种信号灯模型训练装置，包括：

仿真环境创建单元1910，用于基于目标路口所在的路网结构，构建目标路口的交通仿真环境，交通仿真环境包括目标仿真路口；

仿真交通状态获取单元1920，用于获取目标仿真路口的仿真交通状态信息，仿真交通状态信息包括目标仿真路口的第一车辆行驶状态信息；

训练单元1930，用于将仿真交通状态信息作为训练数据对信号灯策略预测模型进行强化学习训练，信号灯策略预测模型用于对目标路口的信号灯控制策略进行预测；

进一步，训练单元还用于：

进一步，信号灯模型训练装置还包括：

本发明实施例还提供了一种电子设备，包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述各实施例的信号灯控制方法、信号灯模型训练方法或者信号灯模型的全局训练方法。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现上述各实施例的信号灯控制方法、信号灯模型训练方法或者信号灯模型的全局训练方法。

本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行实现上述各实施例的信号灯控制方法、信号灯模型训练方法或者信号灯模型的全局训练方法。

本发明的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。

应当理解，在本发明中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

应当理解，在本发明实施例的描述中，多个(或多项)的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

还应了解，本发明实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种信号灯控制方法，用于控制目标路口的信号灯工作状态，其特征在于，所述方法包括：

获取所述目标路口的交通状态信息，所述交通状态信息包括所述目标路口的第一车辆行驶状态信息；

根据所述交通状态信息进行信号灯状态策略预测，得到所述目标路口的信号灯控制策略；

根据所述信号灯控制策略控制所述目标路口的信号灯工作状态；

其中，所述第一车辆行驶状态信息包括所述目标路口中各个岔路上不同行驶方向车辆的行驶状态统计特征，所述第一车辆行驶状态信息通过以下步骤获得：

获取所述目标路口中各个岔路上行驶的所述车辆的行驶状态特征；

根据所述车辆在所述岔路上的行驶方向对所述车辆的所述行驶状态特征进行分组统计，得到所述目标路口中各个所述岔路上不同行驶方向车辆的所述行驶状态统计特征。

2.根据权利要求1所述的信号灯控制方法，其特征在于，所述交通状态信息还包括相邻路口的第二车辆行驶状态信息，其中，所述相邻路口与所述目标路口相邻接，所述第二车辆行驶状态信息包括所述相邻路口中各个所述岔路上不同行驶方向车辆的行驶状态统计特征，所述第二车辆行驶状态信息通过以下步骤获得：

获取所述相邻路口中各个岔路上行驶的所述车辆的行驶状态特征；

根据所述车辆在所述岔路上的行驶方向对所述车辆的所述行驶状态特征进行分组统计，得到所述相邻路口中各个所述岔路上不同行驶方向车辆的所述行驶状态统计特征。

3.根据权利要求1所述的信号灯控制方法，其特征在于，所述车辆的行驶状态特征包括所述车辆在所述岔路上向不同方向行驶的概率，所述行驶状态统计特征包括所述岔路上车辆不同行驶方向的期望排队长度；所述根据所述车辆在所述岔路上的行驶方向对所述车辆的所述行驶状态特征进行分组统计，得到所述目标路口中各个所述岔路上不同行驶方向车辆的行驶状态统计特征，包括：

对所述岔路上所述车辆的不同行驶方向的概率进行分组统计求和，得到所述岔路上不同行驶方向的所述期望排队长度，所述期望排队长度表征所述岔路上同一行驶方向的车辆通行数量。

4.根据权利要求1所述的信号灯控制方法，其特征在于，所述车辆的行驶状态特征包括所述车辆在目标路口的等待时间、行驶速度和所述车辆在所述岔路上向不同方向行驶的概率，所述行驶状态统计特征包括所述岔路上车辆不同行驶方向的期望排队长度、期望等待时间和期望车速；所述根据所述车辆在所述岔路上的行驶方向对所述车辆的所述行驶状态特征进行分组统计，得到所述目标路口中各个所述岔路上不同行驶方向车辆的行驶状态统计特征，包括：

对所述岔路上所述车辆的不同行驶方向的概率进行分组统计求和，得到所述岔路上不同行驶方向的所述期望排队长度，所述期望排队长度表征所述岔路上同一行驶方向的车辆通行数量；

对所述岔路上所述车辆的不同行驶方向的概率及所述等待时间进行分组加权求和，然后除以所述期望排队长度得到期望等待时间，所述期望等待时间表征所述岔路上同一行驶方向的车辆的平均等待时间；

对所述岔路上所述车辆的不同行驶方向的概率及所述车速进行分组加权求和，然后除以所述期望排队长度，得到期望车速，所述期望车速表征所述岔路上同一行驶方向的车辆的平均车速。

5.根据权利要求1所述的信号灯控制方法，其特征在于，所述交通状态信息还包括所述目标路口的信号灯在下一信号周期可用相位的相位集合信息。

6.一种信号灯模型训练方法，其特征在于，包括：

基于目标路口所在的路网结构，构建所述目标路口的交通仿真环境，所述交通仿真环境包括目标仿真路口；

获取所述目标仿真路口的仿真交通状态信息，所述仿真交通状态信息包括所述目标仿真路口的第一车辆行驶状态信息；

将所述仿真交通状态信息作为训练数据对信号灯策略预测模型进行强化学习训练，所述信号灯策略预测模型用于对所述目标路口的信号灯控制策略进行预测；

其中，所述第一车辆行驶状态信息包括所述目标仿真路口中各个岔路上不同行驶方向仿真车辆的行驶状态统计特征，所述第一车辆行驶状态信息通过以下步骤获得：

获取所述目标仿真路口中各个岔路上行驶的所述仿真车辆的行驶状态特征；

根据所述仿真车辆在所述岔路上的行驶方向对所述仿真车辆的所述行驶状态特征进行分组统计，得到所述目标仿真路口中各个所述岔路上不同行驶方向仿真车辆的所述行驶状态统计特征。

7.根据权利要求6所述的一种信号灯模型训练方法，其特征在于，所述交通状态信息还包括相邻仿真路口的各个岔路上不同行驶方向仿真车辆的第二车辆行驶状态信息，其中，所述相邻仿真路口与所述目标仿真路口相邻接，所述第二车辆行驶状态信息包括所述相邻仿真路口中各个所述岔路上不同行驶方向所述仿真车辆的行驶状态统计特征，所述第二车辆行驶状态信息通过以下步骤获得：

获取所述相邻仿真路口中各个岔路上行驶的所述仿真车辆的行驶状态特征；

根据所述仿真车辆在所述岔路上的行驶方向对所述仿真车辆的所述行驶状态特征进行分组统计，得到所述相邻仿真路口中各个所述岔路上不同行驶方向仿真车辆的所述行驶状态统计特征。

8.根据权利要求6所述的一种信号灯模型训练方法，其特征在于，所述仿真车辆的行驶状态特征包括所述仿真车辆在所述岔路上向不同方向行驶的概率，所述行驶状态统计特征包括所述岔路上仿真车辆不同行驶方向的期望排队长度；所述根据所述仿真车辆在所述岔路上的行驶方向对所述仿真车辆的所述行驶状态特征进行分组统计，得到所述目标仿真路口中各个所述岔路上不同行驶方向仿真车辆的所述行驶状态统计特征，包括：

对所述岔路上所述仿真车辆的不同行驶方向的概率进行分组统计求和，得到所述岔路上不同行驶方向的所述期望排队长度，所述期望排队长度表征所述岔路上同一行驶方向的仿真车辆通行数量。

9.根据权利要求6所述的一种信号灯模型训练方法，其特征在于，所述仿真交通状态信息还包括所述目标仿真路口的信号灯在下一信号周期可用相位的相位集合信息。

10.根据权利要求6所述的一种信号灯模型训练方法，其特征在于，所述将所述仿真交通状态信息作为训练数据对信号灯策略预测模型进行强化学习训练，包括：

将所述仿真交通状态信息输入至信号灯策略预测模型进行策略预测，得到所述目标仿真路口的第一信号灯控制策略；

根据所述第一信号灯控制策略控制所述目标仿真路口的信号灯当前工作状态；

当所述目标仿真路口的信号灯的工作状态变化后，重新获取所述目标仿真路口的仿真交通状态信息，得到目标仿真交通状态信息；

根据所述目标仿真交通状态信息对所述第一信号灯控制策略进行评价，得到目标评价信息；

根据所述目标评价信息和所述目标仿真交通状态信息对所述信号灯策略预测模型中的参数进行修正。

11.根据权利要求10所述的一种信号灯模型训练方法，其特征在于，还包括：

获取所述目标仿真路口信号灯在下一信号周期可用相位的相位集合信息；

所述根据所述目标仿真交通状态信息对所述第一信号灯控制策略进行评价，得到目标评价信息，包括：

根据所述目标仿真交通状态信息对所述第一信号灯控制策略进行评价，得到初始评价信息；

通过判断所述第一信号灯控制策略是否为所述相位集合信息中的可用相位，得到评价修正信息；

根据所述评价修正信息对所述初始评价信息进行修正，得到所述目标评价信息。

12.根据权利要求7所述的一种信号灯模型训练方法，其特征在于，还包括：

获取第一仿真路口的状态变更信息，所述第一仿真路口与所述目标仿真路口相邻接；

判断所述信号灯策略预测模型在进行强化训练时是否有使用所述第一仿真路口的行驶状态统计特征，若没有使用，则重新获取所述目标仿真路口的仿真交通状态信息作为训练数据并重新对所述信号灯策略预测模型进行强化学习训练。

13.一种信号灯模型的全局训练方法，其特征在于，包括全局模型和两个以上的工作者模型，所述全局模型包括全局信号灯策略模型集合，所述全局信号灯策略模型集合包括分别与目标路网中各个路口对应的全局信号灯策略模型，所述训练方法包括：

所述工作者模型从所述全局模型中获取所述全局信号灯策略模型集合，根据所述全局信号灯策略模型集合生成对应的信号灯策略模型集合，所述信号灯策略模型集合包括与所述目标路网中各个路口对应的信号灯策略模型；

所述工作者模型依据权利要求6至12任意一项所述的信号灯模型训练方法对所述信号灯策略模型进行训练，并获得所述信号灯策略模型集合中各个所述信号灯策略模型的网络参数；

所述工作者模型将所获取的各个所述网络参数反馈至所述全局模型，以使所述全局模型更新各个所述全局信号灯策略模型。

14.一种信号灯模型训练系统，其特征在于，包括：

全局模型，包括全局强化学习模型集合，所述强化学习模型集合包括分别与目标路网中各个路口对应的全局强化学习模型，所述全局强化学习模型包括全局信号灯策略模型以及全局评价模型；

两个以上的工作者模型，所述工作者模型包括交通环境仿真模块，所述交通环境仿真模块用于模拟所述目标路网的交通仿真环境，所述交通仿真环境包括目标仿真路网；

所述工作者模型从所述全局强化学习模型集合中获取对应所述目标仿真路网中各个仿真路口的所述全局信号灯策略模型以及所述全局评价模型，并生成对应所述仿真路口的信号灯策略模型和评价模型，其中，信号灯策略模型用于对目标仿真路口的信号灯控制策略进行预测，评价模型用于评价所述信号灯策略模型输出的控制策略；

所述工作者模型从所述目标仿真路网中获取所述目标仿真路口的仿真交通状态信息，所述仿真交通状态信息包括所述目标仿真路口的第一车辆行驶状态信息；

所述工作者模型所述仿真交通状态信息对所述信号灯策略预测模型及评价模型进行强化学习训练，并得到所述信号灯策略预测模型及其对应评价模型的网络参数；

所述工作者模型将所获取的各个所述网络参数反馈至所述全局模型，以使所述全局模型更新各个所述全局信号灯策略模型及其对应的全局评价模型；

15.一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现权利要求1至5任意一项所述的信号灯控制方法，或者执行实现权利要求6至12任意一项所述的信号灯模型训练方法，或者执行实现权利要求13所述的信号灯模型的全局训练方法。