CN117321650A

CN117321650A - 交通灯的控制方法、装置、路网系统、电子设备和介质

Info

Publication number: CN117321650A
Application number: CN202280001023.7A
Authority: CN
Inventors: 周希波; 文晋晓; 杨卓士
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2023-12-29
Also published as: WO2023206248A1

Abstract

一种路网中交通灯的控制方法、装置、电子设备和计算机可读存储介质。路网包括多个路段和所述多个路段形成的交汇口，所述交通灯用于调控所述交汇口的交通，该控制方法包括：获取所述路网中与所述交汇口连接的多个路段的实时的路况状态信息(S10)；根据所述路况状态信息从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位(S20)；以及控制所述交通灯的相位更新为所述下一跳相位(S30)。该方法根据实时路况智能动态地选择相位，从而尽可能地减少车辆的等待时间、车辆的排队长度等以达到优化交通的目的。

Description

交通灯的控制方法、装置、路网系统、电子设备和介质

技术领域

本公开的实施例涉及一种交通灯的控制方法、装置、路网系统、电子设备和介质。

背景技术

随着物联网和人工智能等技术的发展，城市信息化应用水平不断提升，智慧城市建设成为未来社会发展的重要趋势。智慧城市在充分整合、挖掘、利用信息技术与资源的基础上，实现对城市各领域的精确化管理，以及对城市资源的集约化利用。对于城市的居民与管理者来说，智慧公共交通系统是智慧城市建设的重要目标之一。要解决城市交通决策规划问题，需要综合考虑交通状况、城市路网和交通灯协调情况。

发明内容

本公开至少一个实施例提供一种路网中交通灯的控制方法，路网包括多个路段和多个路段形成的交汇口，交通灯用于调控交汇口的交通，该方法包括：获取路网中与交汇口连接的多个路段的实时的路况状态信息；根据路况状态信息从交通灯的多个预设相位中选择交通灯的下一跳相位；以及控制交通灯的相位更新为下一跳相位。

例如，在本公开一实施例提供的控制方法中，该控制方法还包括：向地图显示页面提供下一跳相位，使得地图显示页面展示下一跳相位。

例如，在本公开一实施例提供的控制方法中，该控制方法还包括：根据路况状态信息，判断路网是否存在发生交通事故的事故车道；响应于路网存在事故车道，向地图显示页面提供交通事故的事故信息，事故信息包括以下至少一种：预计通过事故车道的通行时间长度、预计事故解除的时间长度、事故车道的车道信息以及与事故车道连接的路口的交通灯相位。

例如，在本公开一实施例提供的控制方法中，根据路况状态信息从交通灯的多个预设相位中选择交通灯的下一跳相位包括：响应于路网存在事故车道，获取针对交通事故的处理策略；按照处理策略，从交通灯的多个预设相位中选择交通灯的下一跳相位。

例如，在本公开一实施例提供的控制方法中，路况状态信息包括多个路段中每个车辆的当前行驶信息，多个路段中每个包括至少一个车道，根据路况状态信息从交通灯的多个预设相位中选择交通灯的下一跳相位，包括：针对所述多个预设相位每个，确定每个预设相位对应的至少一个第一车道，其中，所述每个预设相位对应的至少一个第一车道为所述每个预设相位放行到达所述交汇口的一个或多个车辆的车道；根据至少一个第一车道中每个车辆的当前行驶信息，计算至少一个第一车道中到达交汇口的车辆如果被禁止通行所产生的预期延误时长；根据每个预设相位的预期延误时长，从交通灯的多个预设相位中选择交通灯的下一跳相位。

例如，在本公开一实施例提供的控制方法中，根据每个预设相位的预期延误时长，从交通灯的多个预设相位中选择交通灯的下一跳相位，包括：根据每个预设相位下分别产生的预期延误时长，确定每个预设相位下放行至少一个第一车道中到达交汇口的一个或者多个车辆通行所产生的多个放行奖励；根据每个预设相位的放行奖励，从交通灯的多个预设相位中选择交通灯的下一跳相位。

例如，在本公开一实施例提供的控制方法中，响应于交通灯在两个相邻周期中的相位不同，将两个相邻周期中在后的周期划分为第一阶段和第二阶段，在第一阶段，交通灯指示多个路段中的所有车辆禁止穿过交汇口；第二阶段为交通灯指示放行多个路段中至少部分车道中到达交汇口的车辆；预期延误时长包括：在第一阶段的第一延误时长和在第二阶段的第二延误时长。

例如，在本公开一实施例提供的控制方法中，根据每个预设相位下分别产生的预期延误时长，确定每个预设相位下放行至少一个第一车道到达交汇口的一个或者多个车辆所产生的放行奖励，包括：判断在交通灯的当前周期的前一周期内，交通灯是否对至少一个第一车道中到达交汇口的车辆放行；响应于当前周期的前一周期对至少一个第一车道中到达交汇口的车辆放行，基于至少一个第一车道每个中的一个或者多个车辆的第一延误时长和第二延误时长，确定放行至少一个第一车道中到达交汇口的一个或者多个车辆产生的放行奖励；以及响应于当前周期的前一周期对至少一个第一车道中到达所述交汇口的车辆未被放行，基于至少一个第一车道的第二延误时长，确定放行至少一个第一车道中到达交汇口的车辆产生的放行奖励。

例如，在本公开一实施例提供的控制方法中，响应于所述当前周期的前一周期对所述至少一个第一车道中到达所述交汇口的车辆放行，基于所述至少一个第一车道每个中的一个或者多个车辆的所述第一延误时长和所述第二延误时长，确定放行所述至少一个第一车道中到达所述交汇口的一个或者多个车辆产生的放行奖励，包括：针对每个第一车道，计算第一加和与第二加和，其中，所述第一加和为所述第一车道中到达所述交汇口的一个或者多个车辆的第一延误时长之和，所述第二加和为所述第一车道中到达所述交汇口的车辆的第二延误时长之和；根据放行所述第一车道中一个或者多个车辆的相位的权重，将所述第一延误时长之和与所述第二延误时长之和转换为第一放行奖励和第二放行奖励；将所述至少一个第一车道各自的第一放行奖励和所述第二放行奖励累加，得到放行所述至少一个第一车道中到达所述交汇口的一个或者多个车辆产生的放行奖励。

例如，在本公开一实施例提供的控制方法中，响应于所述当前周期的前一周期对所述至少一个第一车道中到达所述交汇口的车辆未被放行，基于所述至少一个第一车道每个中的一个或者多个车辆的所述第二延误时长，确定放行所述至少一个第一车道中到达所述交汇口的车辆产生的放行奖励，包括：将所述至少一个第一车道每个中一个或者多个车辆的所述第二放行奖励累加，得到放行所述至少一个第一车道中到达所述交汇口的一个或者多个车辆产生的放行奖励。

例如，在本公开一实施例提供的控制方法中，根据多个放行奖励，从交通灯的多个预设相位中选择交通灯的下一跳相位，包括：从交通灯的多个预设相位中选择放行奖励最大的相位作为交通灯的下一跳相位。

例如，在本公开一实施例提供的控制方法中，根据多个放行奖励，从交通灯的多个预设相位中选择交通灯的下一跳相位，还包括：响应于至少两个相位的放行奖励最大，针对至少两个相位中的每个，按照当前周期内的后一周期的交通灯的相位与当前周期内的相位相同，计算在当前周期的后一周期内的预期延误时长；以及从交通灯的多个预设相位中选择在后一周期内放行奖励最大的相位作为交通灯的下一跳相位。

例如，在本公开一实施例提供的控制方法中，根据所述每个车辆的当前行驶信息，计算所述至少一个第一车道中的到达所述交汇口的车辆禁止通行所产生的预期延误时长，包括：根据所述当前行驶信息，获取所述至少一个第一车道中每个车辆到所述交汇口所需要的第一时间长度；判断所述每个车辆穿过所述交汇口进入的第二车道是否发生拥堵；响应于所述第二车道未发生拥堵，判断所述第一时间长度是否小于第二时间长度，所述第二时间长度为所述第一阶段的时间长度；响应于所述第一时间长度大于等于所述第二时间长度并且小于所述交通灯的一个周期的总时间长度，所述第二车道未发生拥堵时的所述第一延误时长等于0，所述第二车道未发生拥堵时的所述第二延误时长等于所述交通灯的一个周期的总时间长度与所述第一时间长度之间的差值；响应于所述第一时间长度小于所述第二时间长度，所述第二车道未发生拥堵的所述第一延误时长t _v1和第二延误时长t _v2分别按照如下公式计算得到：t _v1＝t _red-t _r；t _v2＝t _step-t _r-t _v1，t _red为第二时间长度，t _r为第一时间长度，t _step为交通灯的一个周期的总时间长度。

例如，在本公开一实施例提供的控制方法中，根据所述每个车辆的当前行驶信息，计算所述至少一个第一车道中的到达所述交汇口的车辆禁止通行所产生的预期延误时长，还包括：响应于所述第二车道发生拥堵，获取所述每个车辆在所述第二车道中的可行时间长度，可行时间长度根据可行距离和所述每个车辆的速度确定；判断可行时间长度是否小于第一延误时长t _v1；响应于可行时间长度小于第一延误时长t _v1，按照如下公式计算第二车道发生拥堵时的第一延误时长t′ _v1和第二延误时t′ _v2： t′ _v2＝t _step-t _red，dist _r表示可行距离，r _n.speed表示第二车道的限速；响应于可行时间长度大于等于第一延误时长t _v1，第二车道发生拥堵时的第一延误时长等于0，按照如下公式计算第二延误时长：

例如，在本公开一实施例提供的控制方法中，第一时间长度t _r小于2×t _step，并且大于等于t _step，在当前周期的后一周期内的预期延误时长t _v3按照如下公式计算：t _v3＝2×t _step-t _r。

例如，在本公开一实施例提供的控制方法中，还包括：获取多个历史周期的统计数据；以及根据多个历史周期的统计数据，对第一时间长度进行修正。

例如，在本公开一实施例提供的控制方法中，统计数据包括两个相邻的历史周期中的在前历史周期内统计车道中预期被放行的至少一个第一车辆和在后历史周期内所述统计车道中的至少一个第二车辆，根据多个历史周期的统计数据，对第一时间长度进行修正，包括：响应于至少一个第一车辆中的目标车辆同时为至少一个第二车辆中的车辆，将所述目标车辆标记为计算失误车辆；根据计算失误车辆的速度，确定平均误差；根据平均误差，对第一时间长度进行修正。

例如，在本公开一实施例提供的控制方法中，根据路况状态信息，从交通灯的多个预设相位中选择交通灯的下一跳相位，包括：将路况状态信息输入到奖励计算模型中，由奖励计算模型计算多个预设相位中每个作为下一跳相位得到的放行奖励；以及根据每个预设相位的放行奖励，从交通灯的多个预设相位中选择交通灯的下一跳相位。

例如，在本公开一实施例提供的控制方法中，还包括：获取多组训练样本数据，每组训练样本数据包括历史路况状态信息、交通灯的下一跳相位、交通灯变为下一跳相位得到的放行奖励，交通灯变更为下一跳相位后的路况状态信息；将多组训练样本数据输入到奖励计算模型，对奖励计算模型进行训练。

例如，在本公开一实施例提供的控制方法中，还包括：确定路网中是否存在至少两个相互关联的拥堵车道；根据路况状态信息，从交通灯的多个预设相位中选择交通灯的下一跳相位，包括：响应于路网存在至少两个相互关联的拥堵车道，确定所述至少两个相互关联的拥堵车道分别对应的第一交通灯和第二交通灯；查找第一交通灯的相位和第二交通灯的相位的组合方式；确定第一交通灯和第二交通灯在组合方式下分别放行部分车道的组合放行奖励；根据组合放行奖励，从交通灯的多个预设相位中分别选择第一交通灯的下一跳相位和第二交通灯的下一跳相位。

例如，在本公开一实施例提供的控制方法中，确定路网中是否存在至少两个相互关联的拥堵车道，包括：针对述路网中每个车道，获取预设时间段内，车道中的车流长度和车道长度的比值；响应于比值大于预设阈值，确定车道为拥堵车道；以及响应于路网中存在至少两个拥堵车道，确定至少两个拥堵车道对应的交汇口的交通是否相互影响；响应于至少两个拥堵车道对应的交汇口的交通相互影响，至少两个拥堵车道相互关联。

例如，在本公开一实施例提供的控制方法中，获取路网的实时路况状态信息，包括：获取路网的路网信息和路网的历史车流量数据；根据路网信息和历史车流量数据，构建交通仿真模型；由交通仿真模型输出路网的实时路况状态信息。

本公开至少一个实施例提供一种路网中交通灯的控制装置，路网包括多个路段和多个路段形成的交汇口，交通灯用于调控交汇口的交通，控制装置包括：获取单元，配置为获取路网中与交汇口连接的多个路段的实时的路况状态信息；选择单元，配置为根据路况状态信息，从交通灯的多个预设相位中选择交通灯的下一跳相位；以及控制单元，配置为控制交通灯的相位更新为下一跳相位。

本公开至少一个实施例提供一种路网系统，其中，所述路网系统包括：路网，包括多个路段和所述多个路段形成的交汇口；交通灯，配置为调控所述交汇口的交通；以及根据本公开任一实施例提供的控制装置。

例如，在本公开一实施例提供的路网系统中，控制装置还包括：调整单元，配置为获取对所述路网的配置信息，以及根据所述配置信息调整所述路网。

例如，在本公开一实施例提供的路网系统中，配置信息包括所述路网中交汇口的位置信息和/或所述交通灯的所述多个预设相位的数量。

例如，在本公开一实施例提供的路网系统中，调整单元还配置为获取对所述多个路段中潮汐车道的控制信息，以及根据所述控制信息，调控所述潮汐车道中车辆的行驶方向。

本公开至少一个实施例提供一种电子设备，包括处理器；存储器，包括一个或多个计算机程序指令；其中，一个或多个计算机程序指令被存储在存储器中由处理器执行时实现本公开任一实施例提供的控制方法。

本公开至少一个实施例提供一种计算机可读存储介质，非暂时性存储有计算机可读指令，当计算机可读指令由处理器执行时可以实现本公开任一实施例提供的控制方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1A示出了本公开至少一个实施例提供的一种路网中交通灯的控制方法的流程图；

图1B示出了本公开至少一个实施例提供的一种路网的示意图；

图1C示出了本公开至少一个实施例提供的另一种控制方法的流程图；

图2A示出了本公开至少一个实施例提供的图1A中步骤S20的方法流程图；

图2B示出了本公开至少一个实施例提供的图2A中步骤S22的方法流程图；

图3A示出了本公开至少一个实施例提供的图2B中步骤S221的方法流程图；

图3B示出了本公开至少一个实施例提供的交通灯周期的示意图；

图4示出了本公开至少一个实施例提供的图3A中步骤S2212的方法流程图；

图5示意性示出了根据本公开至少一个实施例提供的图2A中步骤S22的方法流程图；

图6示意性示出了根据本公开至少一个实施例提供的另一种图2A中步骤S22的方法流程图；

图7示意性示出了根据本公开至少一个实施例提供的对第一时间长度进行修正的方法流程图；

图8A示意性示出了根据本公开至少一个实施例提供的另一种交通灯的控制方法的流程图；

图8B示意性示出了根据本公开至少一个实施例提供的另一种交通灯的控制方法的流程图；

图9A示出了本公开至少一个实施例提供的路网中存在两个相互关联的拥堵车道的控制方法的示意图；

图9B示出了本公开至少一个实施例提供的第一交通灯和第二交通灯的相位的组合方式的示意图；

图10A示意性示出了本公开至少一个实施例提供的另一交通灯控制方法的流程图；

图10B示意性示出了本公开至少一个实施例提供的另一交通灯控制方法的流程图；

图11示意性示出了本公开至少一个实施例提供的路网中交通灯的控制装置的示意图；

图12示出了本公开至少一个实施例提供的一种电子设备的示意框图；

图13示出了本公开至少一个实施例提供的另一种电子设备的示意框图；以及

图14示出了本公开至少一个实施例提供的一种计算机可读存储介质的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

目前业界通用的交通灯信号控制策略是固定周期配时方法，即根据各交叉路口的车流状况和经验公式计算出各交通灯信号切换的周期，以及每种信号相位的时长配比。然而，在大城市中，由于路网结构的复杂性以及交通流的动态变化，固定周期配时逐渐无法达到最优化的效果。

本公开至少一个实施例提供一种路网中交通灯的控制方法、装置、电子设备和计算机可读存储介质。路网包括多个路段和多个路段形成的交汇口，交通灯用于调控交汇口的交通，该控制方法包括：获取路网中与交汇口连接的多个路段的实时的路况状态信息；根据路况状态信息从交通灯的多个预设相位中选择交通灯的下一跳相位；以及控制交通灯的相位更新为下一跳相位。该控制方法可以根据实时路况智能动态地选择相位，从而尽可能地减少车辆的等待时间、车辆的排队长度等以达到优化交通的目的。控制装置包括获取单元、选择单元和控制单元。获取单元配置为获取所述路网中与所述交汇口连接的多个路段的实时的路况状态信息。选择单元配置为根据所述路况状态信息，从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位。控制单元配置为控制所述交通灯的相位更新为所述下一跳相位。该控制装置可以根据实时路况智能动态地选择相位，从而尽可能地减少车辆的等待时间、车辆的排队长度等以达到优化交通的目的。

图1A示出了本公开至少一个实施例提供的一种路网中交通灯的控制方法的流程图。

如图1A所示，该方法可以包括步骤S10～S30。

步骤S10：获取路网中与交汇口连接的多个路段的实时的路况状态信息。

步骤S20：根据路况状态信息从交通灯的多个预设相位中选择交通灯的下一跳相位。

步骤S30：控制交通灯的相位更新为下一跳相位。

图1B示出了本公开至少一个实施例提供的一种路网的示意图。在下文中结合图1B和图1A对本公开至少一个实施例提供的控制方法进行说明。

可以理解的是，图1B只是示出了该路网中的部分区域的局部示意图，并非完整的路网示意图。

如图1B所示，路网100包括多个路段，分别为路段1、路段2、路段3和路段4。多个路段(路段1～路段4)形成的交汇口T。例如，在交汇口T设置交通灯P，交通灯P用于调控交汇口T的交通。例如，当车辆行驶至当前路段的终点(即，交汇口处)时，根据交通灯的指示确定是暂停行驶还是继续行驶。

在本公开的另外一些实施例中，路网中可以包括没有设置交通灯的交汇口，在没有设置交通灯的交汇口处，交通系统例如可以默认放行车辆，以提升交通系统的兼容性。

如图1B所示，多个路段中的每个路段包括多个车道。例如，路段1包括车道1、车道2、车道3、车道13、车道14和车道15。车流驶入交汇口的车道为入车道，朝远离交汇口的方向行驶的车道为出车道。例如，路段1中的车道1、车道2和车道3为入车道，车道13、车道14和车道15为出车道。由于交通灯控制驶入交汇口的车道中的车辆，因此本发明的控制方法例如对入车道(例如，图1B中的车道1、车道2、车道3、车道4、车道5、车道6、车道7、车道8、车道9、车道10、车道11、车道12)中的车辆的行驶速度、车流长度等路况状态信息进行分析来确定交通灯的下一跳相位。例如，在下文中除非特别说明，“车道”是指入车道。

在本公开的实施例中，交通灯的相位例如是指放行信号的组合，放行信号指示放行的车道。例如，交通灯包括红色信号、黄色信号和绿色信号，绿色信号为放行信号，红色信号为禁止通行信号，黄色信号为等待信号。

如图1B所示，例如交通灯包括4种相位，分别为相位1、相位2、相位3和相位4。每个相位放行两条车道的车流。例如，相位1放行车道1和车道3中的车流，相位2放行车道2和车道8中的车流，相位3方向车道10和车道4中的车流，相位4放行车道11和车道5中的车流。

在本公开的另一些实施例中，交通灯可以包括8种相位。该8中相位例如可以是在图1B所示的4中相位的基础上还进一步包括放行车道2和车道1中车流的相位、放行车道5和车道4中车流的相位、放行车道7和车道8中车流的相位以及放行车道10和车道11中车流的相位。

对于步骤S10，在本公开的一些实施例中，路况状态信息例如可以包括路网数据、车流数据和交通灯状态信息。路网数据例如可以包括道路数据(例如，路段ID、路段起点、终点所在的交汇口ID、路段长度、路段限速、车道数量、对应的反向路段ID等)、交汇口数据(例如，交汇口ID、交汇口坐标、是否安装交通灯等)和交通灯数据(例如，所在的交汇口ID、连接的路段ID等)。车流数据包含每辆车当前所在的路段ID、车道ID、与路段起点的距离、当前车速等信息。车流数据还可以包括车道指定时间间隔内的车流密度、占有率、平均车速、到达/离开的车数等数据。车流数据还可以包括指定时间间隔内通过的车数、流量、占有率、拥堵与延误等数据。交通灯状态信息例如包括交通灯当前的相位。在本公开的一些实施例中，实际路网中的车道数量可以是单个(例如，直行车辆、左转车辆、右转车辆均行驶于单个车道中)，在单个车道的情形中，路网系统可以将该单个车道划分得到多个虚拟车道，多个虚拟车道中车辆的行驶方向不相同。例如，单个车道被划分为第一虚拟车道、第二虚拟车道和第三虚拟车道，第一虚拟车道为左转车道，第二虚拟车道为直线车道，第三虚拟车道为右转车道等。

在本公开的一些实施例中，路网数据可以是预先获取的。车流数据和交通灯状态信息可以是实时获取的。例如，通过车辆装载的GPS定位系统采集车辆的实时位置信息，通过GPS定位系统得到的实时位置信息的数据准确度高。又例如，由路网上部署的摄像头拍摄路况画面，再由图像识别技术对拍摄视角内的车辆进行定位，从而推算出车辆实时的位置信息，该实施例的数据源较为集中，且采集到的信息较为全面。

在本公开的另一些实施例中，步骤S10可以是获取路网的路网信息和路网的历史车流量数据；根据路网信息和历史车流量数据，构建交通仿真模型；由交通仿真模型输出路网的实时路况状态信息。

例如，采用SUMO(Simulation of Urban Mobility)搭建交通仿真模型，SUMO是一款开源、微观、多模态的交通模拟仿真软件，用于模拟由单个车辆组成的指定交通需求在指定的路网中的移动。SUMO可引入多种道路网络格式(例如，VISUM、Vissim、Shapefile、OSM、RoboCup、MATsim、OpenDRIVE、XML等)，并且可以通过TraCI(Traffic Control Interface)接口，将交通灯控制算法嵌入仿真过程。SUMO的系统输入包括路网文件、路由文件以及探测器配置文件。路网文件描述节点(即，交汇口)信息、边(即，路段)信息、类别信息(例如，道路类型及对应的车道数、限速等信息)以及连接信息。路由文件描述车辆的行进路线与流量，可为每辆车分配单独路线，或为车流路线设置流量，并设置发车频率或概率。在实际场景中，例如根据路口的流量探测器每5分钟采集的车流量数据，采用SUMO自带的路径生成工具dfrouter，反推路网上的车辆行进路线与数量。dfrouter的输入包括路网文件、流量探测器部署文件，以及流量数据文件，输出包括车辆行进路线文件与车辆信息描述文件。可将这两种文件合并为路由文件，也可以单独作为交通仿真模型的输入文件。探测器配置文件描述流量探测器部署的车道及位置信息，用于采集模拟过程中指定交汇口的流量信息，也可以结合实际采集的流量信息，生成对应时段的车流数据。

SUMO的系统输出包括：任一车道指定时间间隔内的车流密度、占有率、平均车速、到达/离开的车数等数据；任一交通灯的状态及切换数据；任一虚拟探测器位置指定时间间隔内通过的车数、流量、占有率、拥堵与延误等数据；任一时刻、任一车道上每辆车的位置、坐标、航向与车速等数据。通过TraCI的接口函数可调用算法需要的实时数据。

对于步骤S20，例如，路网中包括多个交通灯，每个交通灯具有4个或者8个相位，则每个交通灯可以根据实时的路况状态信息从4个或者8个相位中选择一个相位作为下一跳相位。

对于步骤S30，例如控制交通灯的相位由当前相位更新为下一跳相位，并且在一定的时间段内保持下一跳相位，以放行路网中的部分车道。一定的时间段例如可以是40秒、60秒、90秒等。例如，如图1B所示，交通灯的当前相位为相位1，若下一跳相位为相位2，则在步骤S30，交通灯由相位1更新为相位2显示，以放行车道2和车道8中的车流。

在本公开的实施例中，多个预设相位作为多个备选预估相位，综合考虑每个备选预估相位的被选择影响因素，以便交通灯根据这些被选择影响因素选择最优的下一跳相位，从而使得恒定时间内车辆的通行量最大。被选择影响因素，例如可以包括禁止车辆通行带来的预取延误时长、车辆放行得到的放行奖励等，这些被选择影响因素可以根据路况状态信息得到。

如图1A所示，该控制方法还可以包括步骤S40。

步骤S40：向地图显示页面提供下一跳相位，使得地图显示页面展示下一跳相位。

例如，向地图显示应用程序发送下一跳相位，使得地图显示应用程序在地图显示页面中显示该交通灯的下一跳相位。

例如，根据车辆所在的路段和行驶方向，判断车辆将要经过的目标交汇口，并且将目标交汇口处的交通灯的下一跳相位显示于该车辆中的地图显示应用程序提供的地图显示页面中。

该实施例可以方便位于车辆中的用户及时地获取到交通灯的相位，以便用户提前规划路径，提高用户体验。

图1C示出了本公开至少一个实施例提供的另一种控制方法的流程图。

如图1C所示，该控制方法可以在包括图1A所示的步骤S10～步骤S40的基础上，还可以包括步骤S50和步骤S60。

步骤S50：根据路况状态信息，判断路网是否存在发生交通事故的事故车道。

步骤S60：响应于路网存在事故车道，向地图显示页面提供交通事故的事故信息。

在本公开的一些实施例中，事故信息包括以下至少一种：预计通过事故车道的通行时间长度、预计事故解除的时间长度、事故车道的车道信息以及与事故车道连接的路口的交通灯相位。

该控制方法能够及时地向地图显示页面提供事故信息，以便根据事故信息规划行驶路线，以节约行驶时间，提高了用户体验。

对于步骤S50，例如可以根据车辆的行驶速度判断路网是否存在发生交通事故的事故车道，或者根据用户提供和上报的信息判断路网中是否存在发生交通事故的事故车道。

对于步骤S60，例如地图显示页面响应于获取事故信息，在事故路段中显示该事故信息。

在图1C所示的实施例中，步骤S20可以包括：响应于路网存在事故车道，获取针对交通事故的处理策略；按照处理策略，从交通灯的多个预设相位中选择交通灯的下一跳相位。

例如，处理策略例如可以是从交通灯的多个预设相位中选择禁止驶入事故车道的相位作为下一跳相位。

又例如，处理策略还可以包括交通灯的多个预设相位中允许车辆驶入事故车道的相位的持续时间长度减少，禁止车辆驶入事故车道的相位的持续时间长度增加。

在本公开的一些实施例中，路况状态信息包括多个路段中每个车辆的当前行驶信息。当前行驶信息例如可以包括车辆的当前位置、车辆的当前行驶速度等。

图2A示出了本公开至少一个实施例提供的图1A中步骤S20的方法流程图。

如图2A所示，步骤S20可以包括步骤S21～步骤S23。

步骤S21：针对多个预设相位每个，确定每个相位对应的至少一个第一车道，每个预设相位对应的至少一个第一车道为所述每个预设相位放行到达交汇口的一个或多个车辆的车道。

步骤S22：根据至少一个第一车道中每个车辆的当前行驶信息，计算至少一个第一车道中的到达交汇口的车辆如果被禁止通行产生的预期延误时长。

步骤S23：根据每个预设相位产生的预期延误时长，从交通灯的多个预设相位中选择交通灯的下一跳相位。

该实施例根据预期延误时长确定下一跳相位，能够减少车辆的等待时间。

对于步骤S21，例如在图1B所示的情景中，相位1放行车道7和车道1中到达交汇口的车辆，因此，相位1与车道7和车道1对应。相位2放行车道2和车道8，因此，相位2与车道2和车道8相对应。

对于步骤S22，例如，对于相位1，根据车道7和车道1中每个车辆的当前行驶信息，计算车道7和车道1中每个到的交汇口的车辆被交通灯禁止通行所产生的预期延误时长。

在本公开的一些实施例中，响应于交通灯在两个相邻周期中的相位不同，将两个相邻周期中在后的周期划分为第一阶段和第二阶段，在第一阶段，交通灯指示多个路段中的所有车辆禁止穿过交汇口；第二阶段为交通灯指示放行多个路段中至少部分车道中到达交汇口的车辆。例如，第一阶段为交通灯的多个预设相位信号全部为红灯，即交通灯禁止所有车道中的车辆通行。在第二阶段交通灯保持选择出的下一跳相位，以放行多个路段中至少部分车道中到达交汇口的车辆。例如，下一跳相位为图1B中的相位2，则在第二阶段交通灯保持图1B中的相位2，以放行车道2和车道8中的车辆。响应于交通灯在两个相邻周期中的相位相同，在后的周期可以没有全部为红灯的阶段，即在后的周期没有第一阶段。

在该实施例中，预期延误时长包括：在第一阶段的第一延误时长和在第二阶段的第二延误时长。例如，第一延误时长为某个车道中的至少一个车辆在第一阶段被禁止通行所产生的时间消耗，第二延误时长为某个车道中至少一个车辆在第二阶段被禁止通行所产生的时间消耗。由于第二阶段交通灯对部分车道中到达交汇口的车辆放行，对另一部分车道中到达交汇口的车辆禁止通行，因此，另一部分车道中的车辆存在由于被禁止通行所产生的时间消耗。

对于步骤S23，在本公开的一些实施例中，例如预取延误时长越大表示放行至少一个第一车道得到的放行奖励越大，则可以选择产生的预期延误时长较大的相位作为下一跳相位。例如，交通灯的当前周期的前一周期的相位为图1B所示的相位1，交通灯分别计算相位1、相位2、相位3和相位4的预期延误时长，若在相位2对应的车道2和车道8中的一个或者多个车辆禁止通行产生的预期延误时长大于在相位1对应的车道7和车道1中的一个或者多个车辆禁止通行产生的预期延误时长、相位3对应的车道4和车道10中的一个或者多个车辆禁止通行产生的预期延误时长，并且大于相位4对应的车道5和车道11中的一个或者多个车辆禁止通行产生的预期延误时长，则下一跳相位可以是相位2，以便放行车道2和车道8得到最大的放行奖励。

图2B示出了本公开至少一个实施例提供的图2A中步骤S22的方法流程图。

如图2B所示，步骤S22可以包括步骤S221和步骤S222。

步骤S221：根据每个预设相位下分别产生的预期延误时长，确定每个预设相位下放行至少一个第一车道中到达交汇口的一个或者多个车辆所产生的放行奖励。

步骤S222：根据每个预设相位的放行奖励，从交通灯的多个预设相位中选择交通灯的下一跳相位。

图3A示出了本公开至少一个实施例提供的图2B中步骤S221的方法流程图。

如图3A所示，步骤S221可以包括步骤S2211～步骤S2213。

步骤S2211：判断在交通灯的当前周期的前一周期内，交通灯是否对至少一个第一车道中到达交汇口的车辆放行。

步骤S2212：响应于当前周期的前一周期对至少一个第一车道中到达交汇口的车辆放行，基于至少一个第一车道中每个中的一个或者多个车辆的第一延误时长和第二延误时长，确定放行至少一个第一车道中到达交汇口的车辆产生的放行奖励。

步骤S2213：响应于当前周期的前一周期对至少一个第一车道中到达交汇口的车辆未被放行，基于至少一个第一车道每个中的一个或者多个车辆的第二延误时长，确定放行至少一个第一车道中到达交汇口的车辆产生的放行奖励。

对于步骤S2211，在本公开中，当前周期是指在图1A中的步骤S20所选择出的交通灯的下一跳相位所在的周期。

图3B示出了本公开至少一个实施例提供的交通灯相邻两个周期的示意图。

如图3B所示，交通灯的每个周期可以划分为第一阶段和第二阶段。第一阶段可以为全红灯阶段(即，交通灯中各个方向的指示灯均为红色)，以禁止多个路段中所有车辆穿过交汇口。

如图3B所示，假设当前周期在第二阶段的交通灯相位为图1B中的相位1，则至少一个第一车道为车道7和车道1。若当前周期的前一周期在第二阶段中交通灯的相位也为相位1，则当前周期的前一周期对至少一个第一车道(即，车道7和车道1)中到达交汇口的车辆放行。

假设当前周期在第二阶段的交通灯相位为图1B中的相位1，则至少一个第一车道为车道7和车道1。若当前周期的前一周期在第二阶段中交通灯的相位为相位2，则当前周期的前一周期未对至少一个第一车道(即，车道7和车道1)中到达交汇口的车辆放行。

对于步骤S2212，响应于车道1和车道7在当前周期的前一周期内放行，根据车道1和车道7中每个车辆的第一延误时长和第二延误时长，确定放行车道1和车道7中到达交汇口的车辆产生的放行奖励。下文图4示出了本公开至少一个实施例提供的步骤S2212的方法流程图，请参见下文4的描述，在此不再赘述。

对于步骤S2213，响应于车道1和车道7在当前周期的前一周期内未被放行，基于车道1和车道7中到达交汇口的一个或者多个车辆的第二延误时长，确定放行车道1和车道7中到达交汇口的车辆产生的放行奖励。

在本公开的一些实施例中，只有与当前周期的前一周期相同的相位可以在整个当前周期内对至少一个车道中的车辆放行，也即，若当前周期与前一周期的相位相同，则当前周期可以没有第一阶段而只有第二阶段。因此，对于与当前周期的前一周期的相位相同的相位，按照步骤S2212计算得到放行奖励。对于与当前周期的前一周期的相位不相同的其他相位只能在第一阶段过后的第二阶段内对至少一个车道中的车辆放行，因此，对于与当前周期的前一周期的相位不相同的其他相位按照步骤S2213计算得到放行奖励。该实施例针对不同的相位采用不同的计算方法，提高了放行奖励计算的准确性。

图4示出了本公开至少一个实施例提供的图3A中步骤S2212的方法流程图。

如图4所示，步骤S2212可以包括步骤S401～步骤S403。

步骤S401：针对每个第一车道，计算第一加和和第二加和。第一加和为第一车道中到达交汇口的一个或者多个车辆的第一延误时长之和，第二加和为第一车道中到达交汇口的一个或者多个车辆的第二延误时长之和。

步骤S402：根据放行第一车道中一个或者多个车辆的相位的权重，将第一延误时长之和与第二延误时长之和转换为第一放行奖励和第二放行奖励。

步骤S403：将至少一个第一车道各自的第一放行奖励和第二放行奖励累加，得到放行至少一个第一车道中到达交汇口的一个或者多个车辆产生的放行奖励。

对于步骤S401，例如，至少一个第一车道包括车道1和车道7，对于车道1，N个车辆由于交通灯的禁止通行产生延误，第一加和为N个车辆在第一阶段产生的第一延误时长之和y11，第二加和为N个车辆在第二阶段产生的第二延误时长之和y12。对于车道7，M个车辆由于交通灯的禁止通行产生延误，第一加和为M个车辆在第一阶段产生的第一延误时长之和y71，第二加和为N个车辆在第二阶段产生的第二延误时长之和y72。M和N为大于等于0的整数。

对于步骤S402，相位的权重可以根据相位的保持时间确定。例如，相位的权重与相位的保持时间成正比。

例如，第一放行奖励为相位的权重与预期延时时长的乘积。例如，相位1的权重为b，则车道1的第一放行奖励c1 _v1＝y11×b，车道1的第二放行奖励c1 _v2＝y12×b，类似地，车道7的第一放行奖励c7 _v1＝y71×b，车道7的第二放行奖励c7 _v2＝y72×b。

对于步骤S403，放行车道1和车道7中到达交汇口的N个车辆产生的放行奖励c _p＝c1 _v1+c7 _v1+c1 _v2+c7 _v2。

对于步骤S2213，响应于车道1和车道7在当前周期的前一周期内未被放行，放行车道1和车道7中到达交汇口的车辆产生的放行奖励c _p＝c1 _v2+c7 _v2。

因此，假设某个相位对应的第一车道的数量为i个，对于图3A中的步骤S2212和步骤S2213可以描述为如下公式：

ci _v1表示第i车道的第一放行奖励，ci _v2表示第i车道的第二放行奖励。

图5示意性示出了根据本公开至少一个实施例提供的图2A中步骤S22的方法流程图。

如图5所示，步骤S22可以包括步骤S221～步骤S225。

步骤S221：根据当前行驶信息，获取至少一个第一车道中每个车辆到交汇口所需要的第一时间长度。

步骤S222：判断每个车辆穿过交汇口进入的第二车道是否发生拥堵。

步骤S223：响应于第二车道未发生拥堵，判断第一时间长度是否小于第二时间长度，第二时间长度为第一阶段的时间长度。

步骤S224：响应于第一时间长度大于等于第二时间长度，第二车道未发生拥堵时的第一延误时长等于0，第二车道未发生拥堵时的第二延误时长等于交通灯的一个周期的总时间长度与第一时间长度之间的差值。

步骤S225：响应于第一时间长度小于第二时间长度，第二车道未发生拥堵的第一延误时长t _v1和第二延误时长t _v2分别按照如下公式计算得到：

t _v1＝t _red-t _r

t _v2＝t _step-t _r-t _v1；

t _red为第二时间长度，t _r为第一时间长度，t _step为交通灯的一个周期的总时间长度。

对于步骤S221，若至少一个第一车道中存在多个车辆驶向交汇口，则获取该多个车辆每个到交汇口所需要的第一时间长度，即每个车辆对应一个第一时间长度。

第一时间长度例如可以是在当前周期的前一周期过程中，根据每个第一车道中的车辆到交汇口的距离和速度进行计算得到的估计值。

例如，若车辆v的瞬时速度等于道路限速，则车辆v以道路限速匀速行驶，若车辆v以a m/s的加速度匀加速行驶至道路限速后，再匀速行驶。a大于0，例如，a等于2.0，下文以a＝2.0为例介绍车辆v到达路段终点的预期耗时t _r的计算方法，但是本公开不限定a的值，a可以是任意值。车辆v到达交汇口(也即路段终点)所需要的第一时间长度t _r可以按照如下公式进行计算。

v.speed为车辆的当前速度，r.speed为车道限速，t _a为匀加速行驶的时间，d _a为匀加速行驶的距离，d _a＝r.length-v.dist为车辆v到达下个路口的剩余距离。

对于步骤S222，例如可以根据第二车道上车辆的行驶速度判断第二车道是否发生拥堵，或者根据上报的第二车道的交通情况来判断第二车道是否发生拥堵。例如，根据上报的第二车道上的车辆数量和车辆的平均行驶速度来判断第二车道是否发生拥堵。

在本公开的一些实施例中，例如可以根据用户输入的目的地址来确定用户将要进入的第二车道，或者假设车辆通过交汇口后进入的下个路段的车道与当前车道相同，例如都是直行车道、都是左转车道或者都是右转车道等。

根据用户输入的目的地址确定第二车道能够准确地获得用户即将进入的第二车道，从而更加准确地计算预期延误时长。本领域技术人员也可以根据其他的方法进行第二车道的预判。例如根据车辆的历史行驶数据判断车辆即将进入的第二车道。在无法根据车辆的行驶情况来预判车辆即将进入的第二车道时，可以假设车辆通过交汇口后进入的下个路段的车道与当前车道相同，从而提高了计算效率。

对于步骤S223，响应于第二车道未发生拥堵，判断第一时间长度t _r是否小于第二时间长度t _red。第二时间长度即交通灯的相位信号全部为红色的保持时间长度。

对于步骤S224，在第二车道未发生拥堵的情况下，响应于t _red≤t _r<t _step每个车辆的第一延误时长t _v1＝0，第二延误时长t _v2＝交通灯的一个周期的总时间长度t _step-t _r。

对于步骤S225，响应于第二车道未发生拥堵，响应于t _r<t _red，每个车辆的第一延误时长t _v1＝t _red-t _r，每个车辆的第二延误时长t _v2＝t _step-t _r-t _v1。

图6示意性示出了根据本公开至少一个实施例提供的另一种图2A中步骤S22的方法流程图。

如图6所示，步骤S22除包括步骤S221～步骤S225之外，还可以包括步骤S226～步骤S229。

步骤S226：响应于第二车道发生拥堵，获取每个车辆在第二车道中的可行时间长度，可行时间长度根据可行距离和每个车辆的速度确定。

步骤S227：判断可行时间长度是否小于第一延误时长t _v1。

步骤S228：响应于可行时间长度小于第一延误时长t _v1，按照如下公式计算第二车道发生拥堵时的第一延误时长t′ _v1和第二延误时长t′ _v2：

t′ _v2＝t _step-t _red，

dist _r表示可行距离，r _n.speed表示第二车道的限速。

步骤S229：响应于可行时间长度大于等于第一延误时长t _v1，第二车道发生拥堵时的第一延误时长等于0，按照如下公式计算第二延误时长：

对于步骤S226，例如可行时间长度等于可行距离dist _r和每个车辆的速度的比值。每个车辆的速度例如可以等于第二车道的限速。

对于步骤S227，比较可行时间长度和上文图5中描述的第一延误时长t _v1(即，t _red-t _r)，以判断可行时间长度是否小于t _v1。

对于步骤S228，若可行时间长度则第一延误时长t′ _v1等于可行时间长度，即，第二延误时长t′ _v2＝t _step-t _red。

对于步骤S229，若t _v1<可行时间长度则第一延误时长t′ _v1等于0，第二延误时长

本公开提供的至少一个实施例分别针对第二车道拥堵和第二车道不拥堵的两种情况计算第一延误时长和第二延误时长，使得本公开提供的控制方法可以适用于多种不同的场景，针对多种不同的场景的预取延误时长的计算精确度较高，从而使得交通灯的控制更加优化。

在本公开的至少一个实施例中，图2B中步骤S222包括从交通灯的多个预设相位中选择放行奖励最大的相位作为交通灯的下一跳相位。

在本公开的一些实施例中，响应于至少两个相位的放行奖励最大，针对至少两个相位中的每个，按照当前周期内的后一周期的交通灯的相位与当前周期内的相位相同，计算在当前周期的后一周期内的预期延误时长；以及从交通灯的多个预设相位中选择在后一周期内放行奖励最大的相位作为交通灯的下一跳相位。

例如，在图1B所示的情景中，若下一跳相位为相位3和相位2的放行奖励相等，并且大于相位4和相位1的放行奖励，则针对相位2，假设当前周期的后一周期的交通灯的相位也为相位2，计算当前周期的后一周期内的预期延误时长，以及针对相位3，假设当前周期的后一周期的交通灯的相位也为相位3，计算当前周期的后一周期内的预期延误时长。若当前周期和后一周期的相位均为相位2的放行奖励大于当前周期和后一周期的相位均为相位3的放行奖励，则选择相位2作为交通灯的下一跳相位；若当前周期和后一周期的相位均为相位3的放行奖励大于当前周期和后一周期的相位均为相位2的放行奖励，则选择相位3作为交通灯的下一跳相位。

在本公开的一些实施例中，对于一个交通灯来说，有可能发生所有车道上的车都无法在接下来的t _step内到达交汇口，为了处理这种情况，本公开计算当前周期的后一周期内的预期延误时长。若t _step≤t _r<2×t _step，在当前周期的后一周期内的预期延误时长t _v3按照如下公式计算：

t _v3＝2×t _step-t _r-t _v1-t _v2。

在上述公式中，由于t _v1和t _v2都等于0，因此，预期延误时长t _v3＝2×t _step-t _r。

在本公开的一些实施例中，控制方法还可以包括获取多个历史周期的统计数据；以及根据多个历史周期的统计数据，对第一时间长度进行修正。

图7示意性示出了根据本公开至少一个实施例提供的对第一时间长度进行修正的方法流程图。

如图7所示，该方法可以包括步骤S701～步骤S703。在图7所示的实施例中，统计数据包括两个相邻的历史周期中的在前历史周期内统计车道中预期被放行的至少一个第一车辆和在后历史周期内统计车道中的至少一个第二车辆。

步骤S701：响应于至少一个第一车辆中的多个目标车辆同时为至少一个第二车辆中的车辆，将所述目标车辆标记为计算失误车辆。

步骤S702：根据计算失误车辆的速度，确定平均误差。

步骤S703：根据平均误差，对第一时间长度进行修正。

该实施例能够根据两个相邻的历史周期的统计数据第一时间长度进行修正，从而提高计算预期延误时长和放行奖励的精确度，进而进一步优化对交通灯的控制。

对于步骤S701，例如，统计车道为图1B中的车道1，在前历史周期内车道1中的车辆包括车辆1、车辆2、车辆3和车辆4预期被放行，若在后历史周期内车道1中仍然包括车辆3和车辆4，则车辆3和车辆4被标记为计算失误车辆。

对于步骤S702，例如可以首先针对每个统计车道计算该统计车道中计算失误车辆的平均延误误差，然后根据每个统计车道中计算失误车辆的平均延误误差得到平均误差。

例如，按照如下公式计算每个统计车道中失误车辆的平均误差。

e _l为车道l中计算失误车辆的平均误差，V _fl为车道l上所有被标记为计算失误的车辆的集合，|v _fl|表示被标记为计算失误车辆的个数，即上述集合中元素的个数。

例如，按照如下公式根据每个统计车道中计算失误车辆的平均延误误差计算得到平均误差。

e _a为平均误差，V _a为在交通灯a处所有被标记为计算失误的车辆的集合。

对于步骤S703：根据平均误差，对第一时间长度进行修正。

例如，修正后的第一时间长度t′ _r＝t _r×e _a。

图8A示意性示出了根据本公开至少一个实施例提供的另一种交通灯的控制方法的流程图。

如图8A所示，该控制方法可以包括步骤S801和步骤S802。

步骤S801：将路况状态信息输入到奖励计算模型中，由奖励计算模型计算多个预设相位中每个下一跳相位得到的放行奖励。

步骤S802：根据每个相位的所述放行奖励，从交通灯的多个预设相位中选择交通灯的下一跳相位。

对于步骤S801，奖励计算模型例如可以是Q-learning算法。在Q-learning算法中，Q(s,a)表示在某一时刻的状态s下，采取动作a能够获得收益的期望，该算法的主要思路就是根据环境对动作反馈的奖励，构建Q-table来存储每一种状态下采取每一种动作的Q值。在智能体每次选择动作并获取奖励反馈后，采用时间差分法对Q值进行更新：

Q(s,a)←Q(s,a)+a[r+γmaxQ(s′,a′)-Q(s,a)]

maxQ(s′,a′)为根据下一个状态s′选取的最大期望回报，γ为折扣因子，r为奖励值。Q值在不断迭代的过程中逼近最优，对应的最优策略为：

在本公开的交通灯的控制方法中，状态s可以是路口状态信息，动作a可以是下一跳相位，环境对动作反馈的奖励可以是交通灯更新为下一跳相位得到的放行奖励，Q ^*(s,a)表示多个奖励中的最优的奖励。

对于步骤S802，例如可以利用分类器，根据每个相位的放行奖励，从交通灯的多个预设相位中选择交通灯的下一跳相位。

对于步骤S801和步骤S802，例如可以采用强化学习模型对交通灯控制问题进行优化。强化学习模型主要由5个要素组成：环境(Environment)、智能体(Agent)、状态(State)、动作(Action)、奖励(Reward)。强化学习过程定义为四元组<S,A,P,R>，其中为S状态空间，A为动作空间，R:S×A→R为奖励函数。当时间为t时，智能体从环境得到状态信息S _t∈S，根据算法选择对应的动作A _t，将新的状态S _t+1∈S输入环境，并接收奖励R _t作为奖励反馈。强化学习算法的目标是学习一个最优策略π:S→A，将长期奖励最大化。其中，T为终止时间，r(s _i,a _i)为在状态s _i下执行动作a _i获得的奖励，γ为折扣因子。采用DQN (Deep Q Network)求解最优策略π，DQN是一种融合了Q-learning算法与深度学习的强化学习算法。在实际场景中，当状态空间过于庞大时，Q-table的构建变得不可行。因此，DQN采用深度学习模型来拟合Q值函数，基于历史状态-动作-奖励的样本，对网络参数进行训练，在收敛后能够根据状态的输入直接输出对应的Q值。采用单层神经网络+softmax分类器构建深度学习模型。

因此，如图8A所示，控制方法除可以包括步骤S801和步骤S802之外，还可以包括步骤S803和步骤S804。

步骤S803：获取多组训练样本数据，每组训练样本数据包括历史路况状态信息、交通灯的下一跳相位、交通灯变为下一跳相位得到的放行奖励，交通灯变更为下一跳相位后的路况状态信息。

步骤S804：将多组训练样本数据输入到奖励计算模型，对奖励计算模型进行训练。

对于步骤S803，历史路口状态信息例如可以包括但不限于：各个车道上车辆的平均等待时间、队列长度，以及平均速度。例如，对于车道上的任意车辆，当其速度小于0.1m/s时，开始记录该车辆的等待时间，并在其速度大于0.1m/s时归零。

放行奖励例如可以指在交通灯的相位变更为下一跳相位(即，执行动作)之后，得到的反馈奖励函数，例如放行奖励定义为：r＝-∑ _Lw，L为交通灯控制的入车道集合，w为入车道上一辆车的等待时间，入车道为车流朝驶入交汇口的车道。

对于步骤S804，在训练过程中，整个训练系统重复推演指定轮数。在每轮中，训练过程以固定时间间隔为步长进行推演。例如，指定轮数为K轮，K为大于等于1的整数，每24小时采集到的训练样本作为一轮，固定时间间隔为10秒，则在每轮中每10s进行一次迭代，每轮进行8640次迭代。每一次迭代中，首先计算历史路况状态信息，输入DQN模型，模型输出下一步中各交通灯的相位后，例如在路网的仿真系统中设置生效。接下来，仿真系统进行下一步的推演，并计算新一步的路网环境下的路况状态信息，执行经验回放。经验回放是指在仿真过程中生成训练样本，缓存到经验池中，以供DQN模型训练之用。由于每次执行一个动作后，交通灯会转移到下一个状态，并获得一个奖励，因此可以获得一个四元组(s,a,r,s′)放到经验池中，其中，s为历史路况状态信息，a为该交通灯采取的动作，r为采取动作后带来的奖励，s′为新一步路况状态信息。由于每一步生成的四元组之间存在关联性，如果按顺序取一批四元组作为训练集，容易过拟合。因此，每次模型训练时，从经验池中随机抽取少量四元组作为一个组，进行模型训练。此外，为了防止过拟合，每轮训练后的DQN模型并不会直接在下一步中进行相位决策，而是以一个指定频率对决策用的DQN模型进行更新。最终，当仿真系统重复推演完指定轮数后，训练结束，最终得到的DQN模型可被用到未来的决策中。

在本公开的一些实施例中，控制方法还可以包括确定路网中是否存在至少两个相互关联的拥堵车道。在该实施例中，在图1A中步骤S20包括：响应于路网存在至少两个相互关联的拥堵车道，确定至少两个相互关联的拥堵车道分别对应的第一交通灯和第二交通灯；查找第一交通灯的相位和第二交通灯的相位的组合方式；确定第一交通灯和第二交通灯在组合方式下分别放行部分车道的组合放行奖励；根据组合放行奖励，从交通灯的多个预设相位中分别选择第一交通灯的下一跳相位和第二交通灯的下一跳相位。

例如，上文图1C描述的事故车道为拥堵车道的一个示例。当某车道为事故车道时，可以根据上述步骤S20中路网中存在至少两个相关联的拥堵车道的实施例进行下一跳相位的选择。下文图9A和图9B说明了上述步骤S20中路网中存在至少两个相关联的拥堵车道进行下一跳相位的选择的实施方式。

图8B示意性示出了根据本公开至少一个实施例提供的另一种交通灯的控制方法的流程图。

如图8B所示，该交通灯的控制方法可以包括步骤S810～步骤S880。

步骤S810：启动交通仿真模型，交通仿真模型可以利用SUMO系统搭建。例如将路网流量数据输入到交通仿真模型。

步骤S820：交通仿真模型实时输出路况状态信息。

步骤S830：向DQN模型输入路况状态信息，由DQN模型进行下一跳相位的决策。

步骤S840：DQN模型输出决策的每个交通灯的下一跳相位。

步骤S850：交通仿真模型进行仿真推演得到推演后的路况状态信息。例如将交通仿真模型中的多个交通灯各自更新为对应的下一跳相位，从而交通仿真模型进行仿真推演得到推演后的路况状态信息。

步骤S860：进行经验回放。例如，将推演生成的训练样本缓存到经验池中。

步骤S870：利用经验池中的训练样本进行DQN模型训练。

步骤S880：按照指定频率更新DQN模型。

图9A示出了本公开至少一个实施例提供的路网中存在两个相互关联的拥堵车道的控制方法的示意图。

图9B示出了本公开至少一个实施例提供的第一交通灯和第二交通灯的相位的组合方式的示意图。

如图9A所示，假设交通灯A1和交通灯A2两个交通灯分别控制的左转与直行车道全被标为拥挤车道。由于交通灯A1和交通灯A2相邻，交通灯A1控制的车流与交通灯A2控制的车流相互影响，即，交通灯A1和交通灯A2控制的多个车道相互关联。交通灯A1和交通灯A2分别为第一交通灯和第二交通灯的示例。由于交通灯A1和交通灯A2两个交通灯分别控制的左转与直行车道相关联并且均为拥堵车道，则应该将交通灯A1和交通灯A2进行协同考虑。交通灯A1和交通灯A2的相位的组合方式如图9B所示。

例如，如图9B所示，组合方式1可以是交通灯A1和交通灯A2都允许东西方向直行；组合方式2可以是交通灯A1允许东西方向直行，交通灯A2允许东西方向行驶的车辆左转。

如图9B所示，组合方式1-组合方式6为协同疏散相位(即，两个交通灯放行的车道连通)，相位7为独立疏散相位(即，两个交通灯放行的车道不连通)。根据交通灯A1和交通灯A2在多个组合方式下分别放行部分车道的放行奖励，计算出图9B中7种相位的组合放行奖励，例如，将交通灯A1的在组合方式下的放行奖励与交通灯A2在组合方式下的放行奖励进行求和。最终，将组合放行奖励最大的组合方式。

在本公开的一些实施例中，确定路网中是否存在至少两个相互关联的拥堵车道，包括：针对述路网中每个车道，获取预设时间段内，车道中的车流长度和车道长度的比值；响应于比值大于预设阈值，确定车道为拥堵车道；以及响应于路网中存在至少两个拥堵车道，确定至少两个拥堵车道对应的交汇口的交通是否相互影响；响应于至少两个拥堵车道对应的交汇口的交通相互影响，至少两个拥堵车道相互关联。

例如，在交通仿真的过程中，根据SUMO系统实时输出的车道占有率信息判断拥堵区域。车道占有率的定义为指定时间内，该车道上停留的车流长度与车道长度的比值，取值范围在0-1之间。当车道占有率超过指定阈值时，该车道则被定义为拥堵。根据业务需求，针对不同级别的车道，可以定义不同拥堵阈值。在任一时刻，系统输出路网上所有车道的占有率后，找出所有拥堵车道。例如，路网拓扑结构上相连的车道连成拥堵区域。例如，在路网拓扑结构上相连的车道对应的交汇口的交通相互影响，相连的车道相互关联。若相连的两个车道均发生拥堵，则这个两个相连的车道为两个相互关联的拥堵车道。

图10A示意性示出了本公开至少一个实施例提供的另一交通灯控制方法的流程图。

如图10A所示，该交通灯控制方法可以包括步骤S1001～步骤S1006。

步骤S1001：获取路网流量数据。

步骤S1002：将路网流量数据输入到交通仿真模型中得到实时的路况状态信息。交通仿真模型可以利用SUMO系统搭建。

步骤S1003：根据交通仿真模型实时输出的路况状态信息中车道占有率信息挖掘拥堵区域。

步骤S1004：针对每个交通灯，根据路况状态信息计算交通灯的下一跳相位。

步骤S1005：针对拥堵区域的多个交通灯，根据组合放行奖励确定多个交通灯各自的相位。

步骤S1006：每个交通灯更新为各自的下一跳相位。

图10B示意性示出了本公开至少一个实施例提供的另一交通灯控制方法的流程图。

如图10B所示，该交通灯控制方法可以包括步骤S1010～步骤S1014。

步骤S1010：获取实时的路况状态信息。

步骤S1011：根据实时的路况状态信息计算预期延误时长。例如，可以按照图2B描述的方法计算预期延误时长。

步骤S1012：根据预期延误时长，计算交通灯的每个相位的放行奖励，并且根据放行奖励选择下一跳相位。例如，可以按照图3A描述的方法计算每个相位的放行奖励。

步骤S1013：交通灯的相位更新为下一跳相位。

步骤S1014：将每次使用的路况状态信息和每次更新后的下一跳相位作为历史周期的统计数据，对预期延误时长的计算进行校正。例如，获取多个历史周期的统计数据；以及根据多个历史周期的统计数据，对第一时间长度进行修正。例如，按照图7描述的方法对第一时间长度进行校正，进而校正预期延误时长的计算。

该控制方法对第一时间长度进行校正，从而提高了计算精度，使得进一步减少车辆的等待时间、车辆的排队长度等以达到优化交通的目的。

图11示意性示出了本公开至少一个实施例提供的路网中交通灯的控制装置1100的示意图。

如图11所示，控制装置1100可以包括获取单元1101、选择单元1102和控制单元1103。

获取单元1101配置为获取所述路网中与所述交汇口连接的多个路段的实时的路况状态信息。

获取单元1101例如可以执行上文图1A描述的步骤S10。

选择单元1102配置为根据路况状态信息，从交通灯的多个预设相位中选择交通灯的下一跳相位。

选择单元1102例如可以执行上文图1A描述的步骤S20。

控制单元1103配置为控制交通灯的相位更新为所述下一跳相位。

控制单元1103例如可以执行上文图1A描述的步骤S30。

该控制装置可以根据实时路况智能动态地选择相位，从而尽可能地减少车辆的等待时间、车辆的排队长度等以达到优化交通的目的。

本公开的至少一个实施例还提供了一种路网系统。该路网系统包括：路网、交通灯和上述控制装置。路网包括多个路段和所述多个路段形成的交汇口，交通灯配置为调控所述交汇口的交通。

例如，控制装置还包括：调整单元，配置为获取对路网的配置信息，以及根据配置信息调整路网。

在本公开的一些实施例中，调整单元可以与用户进行交互，例如接收用户的输入、用户对图标的选择等操作。例如，该路网系统提供的显示页面在用户的触摸屏上显示，调整单元可以接收用户在触摸屏上进行的圈选以标注拥堵车道、路况良好车道等信息。

例如，配置信息可以包括路网中交汇口的位置信息和/或交通灯的多个预设相位的数量。例如，交通灯的预设相位的数量可以设置为4个、8个等，用户可以输入配置信息，从而对交通灯的预设相位的数量进行配置。

又例如，配置信息可以包括路网中车道的数量，交汇口的设置。用户可以通过输入配置信息，更新路网。

例如，调整单元还配置为获取对多个路段中潮汐车道的控制信息，以及根据控制信息，调控潮汐车道中车辆的行驶方向。潮汐车道例如为南北方向的车道，控制信息例如可以是由南驶向北或者由北驶向南。若控制信息为由南驶向北，则潮汐车道中的车辆只能从南向北行驶。

在本公开的一些实施例中，控制装置1100还可以包括展示单元，配置为向地图显示页面提供所述下一跳相位，使得所述地图显示页面展示所述下一跳相位。

在本公开的一些实施例中，控制装置1100还可以包括判断单元和提供单元。判断单元配置为根据所述路况状态信息，判断所述路网是否存在发生交通事故的事故车道。提供单元配置为响应于所述路网存在所述事故车道，向所述地图显示页面提供所述交通事故的事故信息，其中，所述事故信息包括以下至少一种：预计通过所述事故车道的通行时间长度、预计事故解除的时间长度、所述事故车道的车道信息以及与所述事故车道连接的路口的交通灯相位。

在本公开的一些实施例中，选择单元1102包括策略获取子单元和选择子单元。策略获取子单元配置为响应于所述路网存在所述事故车道，获取针对所述交通事故的处理策略。选择子单元配置为按照所述处理策略，从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位。

本公开的至少一个实施例还提供了一种电子设备，该电子设备包括处理器和存储器，存储器包括一个或多个计算机程序模块。一个或多个计算机程序模块被存储在存储器中并被配置为由处理器执行，一个或多个计算机程序模块包括用于实现上述的控制方法的指令。该电子设备可以根据实时路况智能动态地选择相位，从而尽可能地减少车辆的等待时间、车辆的排队长度等以达到优化交通的目的。

图12为本公开一些实施例提供的一种电子设备的示意框图。如图12所示，该电子设备1200包括处理器1210和存储器1220。存储器1220用于存储非暂时性计算机可读指令(例如一个或多个计算机程序模块)。处理器1210用于运行非暂时性计算机可读指令，非暂时性计算机可读指令被处理器1210运行时可以执行上文所述的控制方法中的一个或多个步骤。存储器1220和处理器1210可以通过总线系统和/或其它形式的连接机构(未示出)互连。

例如，处理器1210可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或程序执行能力的其它形式的处理单元。例如，中央处理单元(CPU)可以为X86或ARM架构等。处理器1210可以为通用处理器或专用处理器，可以控制电子设备1200中的其它组件以执行期望的功能。

例如，存储器1220可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序模块，处理器1210可以运行一个或多个计算机程序模块，以实现电子设备1200的各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据以及应用程序使用和/或产生的各种数据等。

需要说明的是，本公开的实施例中，电子设备1200的具体功能和技术效果可以参考上文中关于控制方法的描述，此处不再赘述。

图13为本公开一些实施例提供的另一种电子设备的示意框图。该电子设备1300例如适于用来实施本公开实施例提供的控制方法。电子设备1300可以是终端设备等。需要注意的是，图13示出的电子设备1300仅仅是一个示例，其不会对本公开实施例的功能和使用范围带来任何限制。

如图13所示，电子设备1300可以包括处理装置(例如中央处理器、图形处理器等)1310，其可以根据存储在只读存储器(ROM)1320中的程序或者从存储装置1380加载到随机访问存储器(RAM)1330中的程序而执行各种适当的动作和处理。在RAM 1330中，还存储有电子设备1300操作所需的各种程序和数据。处理装置1310、ROM 1320以及RAM1330通过总线1340彼此相连。输入/输出(I/O)接口1350也连接至总线1340。

通常，以下装置可以连接至I/O接口1350：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1360；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置1370；包括例如磁带、硬盘等的存储装置1380；以及通信装置1390。通信装置1390可以允许电子设备1300与其他电子设备进行无线或有线通信以交换数据。虽然图13示出了具有各种装置的电子设备1300，但应理解的是，并不要求实施或具备所有示出的装置，电子设备1300可以替代地实施或具备更多或更少的装置。

例如，根据本公开的实施例，上述控制方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包括用于执行上述控制方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置1390从网络上被下载和安装，或者从存储装置1380安装，或者从ROM1320安装。在该计算机程序被处理装置1310执行时，可以实现本公开实施例提供的控制方法中限定的功能。

本公开的至少一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储非暂时性计算机可读指令，当非暂时性计算机可读指令由计算机执行时可以实现上述的控制方法。利用该计算机可读存储介质，可以根据实时路况智能动态地选择相位，从而尽可能地减少车辆的等待时间、车辆的排队长度等以达到优化交通的目的。

图14为本公开一些实施例提供的一种存储介质的示意图。如图14所示，存储介质1400用于非暂时性存储有计算机可读指令1410。例如，当计算机可读指令1410由计算机执行时可以执行根据上文所述的控制方法中的一个或多个步骤。

例如，该存储介质1400可以应用于上述电子设备1200中。例如，存储介质1400可以为图12所示的电子设备1200中的存储器1220。例如，关于存储介质1400的相关说明可以参考图12所示的电子设备1200中的存储器1220的相应描述，此处不再赘述。

对于本公开，还有以下几点需要说明：

(1)本公开实施例附图只涉及到本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

一种路网中交通灯的控制方法，其中，所述路网包括多个路段和所述多个路段形成的交汇口，所述交通灯用于调控所述交汇口的交通，所述方法包括：

获取所述路网中与所述交汇口连接的多个路段的实时的路况状态信息；

根据所述路况状态信息从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位；以及

控制所述交通灯的相位更新为所述下一跳相位。
根据权利要求1所述的控制方法，还包括：

向地图显示页面提供所述下一跳相位，使得所述地图显示页面展示所述下一跳相位。
根据权利要求1所述的控制方法，还包括：

根据所述路况状态信息，判断所述路网是否存在发生交通事故的事故车道；

响应于所述路网存在所述事故车道，向所述地图显示页面提供所述交通事故的事故信息，

其中，所述事故信息包括以下至少一种：预计通过所述事故车道的通行时间长度、预计事故解除的时间长度、所述事故车道的车道信息以及与所述事故车道连接的路口的交通灯相位。
根据权利要求3所述的控制方法，其中，根据所述路况状态信息从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位，包括：

响应于所述路网存在所述事故车道，获取针对所述交通事故的处理策略；

按照所述处理策略，从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位。
根据权利要求1所述的控制方法，其中，所述路况状态信息包括所述多个路段中每个车辆的当前行驶信息，所述多个路段中每个包括至少一个车道，

根据所述路况状态信息从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位，包括：

针对所述多个预设相位每个，确定每个预设相位对应的至少一个第一车道，其中，所述每个预设相位对应的至少一个第一车道为所述每个预设相位放行到达所述交汇口的一个或多个车辆的车道；

根据所述至少一个第一车道中每个车辆的当前行驶信息，计算所述至少一个第一车道中的到达所述交汇口的车辆如果被禁止通行所产生的预期延误时长；

根据所述每个预设相位产生的所述预期延误时长，从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位。
根据权利要求5所述的控制方法，其中，根据所述每个预设相位产生的所述预期延误时长，从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位，包括：

根据所述每个预设相位下分别产生的所述预期延误时长，确定所述每个预设相位下放行所述至少一个第一车道中到达所述交汇口的一个或者多个车辆所产生的放行奖励；

根据所述每个预设相位的所述放行奖励，从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位。
根据权利要求6所述的控制方法，其中，响应于所述交通灯在两个相邻周期中的相位不同，将所述两个相邻周期中在后的周期划分为第一阶段和第二阶段，

在所述第一阶段，所述交通灯指示所述多个路段中的所有车辆禁止穿过所述交汇口；

所述第二阶段为所述交通灯指示放行所述多个路段中至少部分车道中到达所述交汇口的车辆；

其中，所述预期延误时长包括：在所述第一阶段的第一延误时长和在所述第二阶段的第二延误时长。
根据权利要求7所述的控制方法，其中，根据所述每个预设相位下分别产生的所述预期延误时长，确定所述每个预设相位下放行所述至少一个第一车道中到达所述交汇口的一个或者多个车辆所产生的放行奖励，包括：

判断在所述交通灯的当前周期的前一周期内，所述交通灯是否对所述至少一个第一车道中到达所述交汇口的车辆放行；

响应于所述当前周期的前一周期对所述至少一个第一车道中到达所述交汇口的车辆放行，基于所述至少一个第一车道每个中的一个或者多个车辆的所述第一延误时长和所述第二延误时长，确定放行所述至少一个第一车道中到达所述交汇口的一个或者多个车辆产生的放行奖励；以及

响应于所述当前周期的前一周期对所述至少一个第一车道中到达所述交汇口的车辆未被放行，基于所述至少一个第一车道每个中的一个或者多个车辆的所述第二延误时长，确定放行所述至少一个第一车道中到达所述交汇口的车辆产生的放行奖励。
根据权利要求8所述的控制方法，其中，响应于所述当前周期的前一周期对所述至少一个第一车道中到达所述交汇口的车辆放行，基于所述至少一个第一车道每个中的一个或者多个车辆的所述第一延误时长和所述第二延误时长，确定放行所述至少一个第一车道中到达所述交汇口的一个或者多个车辆产生的放行奖励，包括：

针对每个第一车道，计算第一加和与第二加和，其中，所述第一加和为所述第一车道中到达所述交汇口的一个或者多个车辆的第一延误时长之和，所述第二加和为所述第一车道中到达所述交汇口的一个或者多个车辆的第二延误时长之和；

根据放行所述第一车道中一个或者多个车辆的相位的权重，将所述第一延误时长之和与所述第二延误时长之和转换为第一放行奖励和第二放行奖励；

将所述至少一个第一车道各自的第一放行奖励和所述第二放行奖励累加，得到放行所述至少一个第一车道中到达所述交汇口的一个或者多个车辆产生的放行奖励。
根据权利要求9所述的控制方法，其中，响应于所述当前周期的前一周期对所述至少一个第一车道中到达所述交汇口的车辆未被放行，基于所述至少一个第一车道每个中的一个或者多个车辆的所述第二延误时长，确定放行所述至少一个第一车道中到达所述交汇口的车辆产生的放行奖励，包括：

将所述至少一个第一车道每个中一个或者多个车辆的所述第二放行奖励累加，得到放行所述至少一个第一车道中到达所述交汇口的一个或者多个车辆产生的放行奖励。
根据权利要求6所述的控制方法，其中，根据所述多个放行奖励，从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位，包括：

从所述交通灯的多个预设相位中选择所述放行奖励最大的相位作为所述交通灯的下一跳相位。
根据权利要求11所述的控制方法，其中，根据所述多个放行奖励，从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位，还包括：

响应于至少两个相位的放行奖励最大，针对所述至少两个相位中的每个，按照所述当前周期内的后一周期的所述交通灯的相位与所述当前周期内的相位相同，计算在所述当前周期的后一周期内的预期延误时长；以及

从所述交通灯的多个预设相位中选择在所述后一周期内所述放行奖励最大的相位作为所述交通灯的下一跳相位。
根据权利要求8所述的控制方法，其中，根据所述每个车辆的当前行驶信息，计算所述至少一个第一车道中的到达所述交汇口的车辆如果被禁止通行所产生的预期延误时长，包括：

根据所述当前行驶信息，获取所述至少一个第一车道中每个车辆到所述交汇口所需要的第一时间长度；

判断所述每个车辆穿过所述交汇口进入的第二车道是否发生拥堵；

响应于所述第二车道未发生拥堵，判断所述第一时间长度是否小于第二时间长度，所述第二时间长度为所述第一阶段的时间长度；

响应于所述第一时间长度大于等于所述第二时间长度并且小于所述交通灯的一个周期的总时间长度，所述第二车道未发生拥堵时的所述第一延误时长等于0，所述第二车道未发生拥堵时的所述第二延误时长等于所述交通灯的一个周期的总时间长度与所述第一时间长度之间的差值；

响应于所述第一时间长度小于所述第二时间长度，所述第二车道未发生拥堵的所述第一延误时长t _v1和第二延误时长t _v2分别按照如下公式计算得到：

t _v1＝t _red-t _r

t _v2＝t _step-t _r-t _v1；

其中，t _red为所述第二时间长度，所述t _r为所述第一时间长度，t _step为所述交通灯的一个周期的总时间长度。
根据权利要求13所述的控制方法，其中，根据所述每个车辆的当前行驶信息，计算所述至少一个第一车道中的到达所述交汇口的车辆如果被禁止通行所产生的预期延误时长，还包括：

响应于所述第二车道发生拥堵，获取所述每个车辆在所述第二车道中的可行时间长度，可行时间长度根据可行距离和所述每个车辆的速度确定；

判断所述可行时间长度是否小于所述第一延误时长t _v1；

响应于所述可行时间长度小于第一延误时长t _v1，按照如下公式计算所述第二车道发生拥堵时的第一延误时长t′ _v1和第二延误时t′ _v2：

t′ _v2＝t _step-t _red

其中，dist _r表示所述可行距离，r _n.speed表示所述第二车道的限速；

响应于所述可行时间长度大于等于所述第一延误时长t _v1，所述第二车道发生拥堵时的第一延误时长等于0，按照如下公式计算所述第二延误时长：
根据权利要求12所述的控制方法，其中，响应于所述第一时间长度t _r小于2×t _step，并且大于等于t _step，在所述当前周期的后一周期内的预期延误时长t _v3按照如下公式计算：

t _v3＝2×t _step-t _r。
根据权利要求13所述的控制方法，还包括：

获取所述多个历史周期的统计数据；以及

根据多个历史周期的统计数据，对所述第一时间长度进行修正。
根据权利要求16所述的控制方法，其中，所述统计数据包括两个相邻的历史周期中的在前历史周期内统计车道中预期被放行的至少一个第一车辆和在后历史周期内所述统计车道中的至少一个第二车辆，

所述根据所述多个历史周期的所述统计数据，对所述第一时间长度进行修正，包括：

响应于至少一个第一车辆中的目标车辆同时为至少一个第二车辆中的车辆，将所述目标车辆标记为计算失误车辆；

根据所述计算失误车辆的速度，确定平均误差；

根据平均误差，对所述第一时间长度进行修正。
根据权利要求1所述的控制方法，其中，根据所述路况状态信息，从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位，包括：

将所述路况状态信息输入到奖励计算模型中，由所述奖励计算模型计算所述多个预设相位中每个作为所述下一跳相位得到的放行奖励；以及

根据所述每个预设相位的所述放行奖励，从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位。
根据权利要求18所述的控制方法，还包括：

获取多组训练样本数据，每组训练样本数据包括历史路况状态信息、所述交通灯的下一跳相位、所述交通灯变为所述下一跳相位得到的放行奖励，所述交通灯变更为所述下一跳相位后的路况状态信息；

将多组训练样本数据输入到奖励计算模型，对奖励计算模型进行训练。
根据权利要求6或18所述的控制方法，还包括：

确定所述路网中是否存在至少两个相互关联的拥堵车道，其中，

根据所述路况状态信息，从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位，包括：

响应于所述路网存在至少两个相互关联的拥堵车道，确定所述至少两个相互关联的拥堵车道分别对应的第一交通灯和第二交通灯；

查找所述第一交通灯的相位和第二交通灯的相位的组合方式；

确定所述第一交通灯和所述第二交通灯在组合方式下分别放行部分车道的组合放行奖励；

根据组合放行奖励，从所述交通灯的多个预设相位中分别选择所述第一交通灯的下一跳相位和所述第二交通灯的下一跳相位。
根据权利要求20所述的控制方法，其中，确定所述路网中是否存在至少两个相互关联的拥堵车道，包括：

针对述路网中每个车道，获取预设时间段内，所述车道中的车流长度和所述车道长度的比值；

响应于所述比值大于预设阈值，确定所述车道为拥堵车道；以及

响应于所述路网中存在至少两个拥堵车道，确定所述至少两个拥堵车道对应的交汇口的交通是否相互影响；

响应于所述至少两个拥堵车道对应的交汇口的交通相互影响，所述至少两个拥堵车道相互关联。
根据权利要求1所述的控制方法，其中，获取所述路网的实时路况状态信息，包括：

获取所述路网的路网信息和所述路网的历史车流量数据；

根据所述路网信息和所述历史车流量数据，构建交通仿真模型；

由所述交通仿真模型输出所述路网的实时路况状态信息。
一种路网中交通灯的控制装置，其中，所述路网包括多个路段和所述多个路段形成的交汇口，所述交通灯用于调控所述交汇口的交通，所述控制装置包括：

获取单元，配置为获取所述路网中与所述交汇口连接的多个路段的实时的路况状态信息；

选择单元，配置为根据所述路况状态信息，从所述交通灯的多个预设相位中选择所述交通灯的下一跳相位；以及

控制单元，配置为控制所述交通灯的相位更新为所述下一跳相位。
一种路网系统，其中，所述路网系统包括：

路网，包括多个路段和所述多个路段形成的交汇口；

交通灯，配置为调控所述交汇口的交通；以及

根据权利要求23所述的控制装置。
根据权利要求24所述的路网系统，其中，所述控制装置还包括：

调整单元，配置为获取对所述路网的配置信息，以及根据所述配置信息调整所述路网。
根据权利要求25所述的路网系统，其中，所述配置信息包括所述路网中交汇口的位置信息和/或所述交通灯的所述多个预设相位的数量。
根据权利要求25所述的路网系统，所述调整单元还配置为获取对所述多个路段中潮汐车道的控制信息，以及根据所述控制信息，调控所述潮汐车道中车辆的行驶方向。
一种电子设备，包括：

处理器；

存储器，包括一个或多个计算机程序指令；

其中，所述一个或多个计算机程序指令被存储在所述存储器中，并由所述处理器执行时实现权利要求1-22任一项所述的路网中交通灯的控制方法的指令。
一种计算机可读存储介质，非暂时性存储有计算机可读指令，其中，当所述计算机可读指令由处理器执行时实现权利要求1-22任一项所述的路网中交通灯的控制方法。