CN111243297A

CN111243297A - 交通灯相位控制方法、系统、设备及介质

Info

Publication number: CN111243297A
Application number: CN202010052858.8A
Authority: CN
Inventors: 毛晓蛟; 章勇; 曹李军
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-05

Abstract

本发明提供了一种交通灯相位控制方法、系统、设备及介质，所述方法包括：采集当前时刻的路口状态数据，所述路口状态数据包括路口的各个车道的车辆状态数据；将所述当前时刻的路口状态数据输入训练好的交通灯相位模型；根据所述交通灯相位模型输出的交通灯相位状态控制交通灯的相位。本发明通过采集路口状态数据和交通信号灯相位数据，通过采用机器学习模型可以更好地选择交通信号灯的相位变化方式，实现自适应调整交通信号灯，有效减少交通拥堵情况。

Description

交通灯相位控制方法、系统、设备及介质

技术领域

本发明涉及信号灯控制技术领域，尤其涉及一种交通灯相位控制方法、系统、设备及介质。

背景技术

随着经济和城市基础建设的不断发展，道路交通拥堵问题变的越来越明显。合理规划路网中交通信号灯的相位变换是非常重要的，可以有效减少道路拥堵问题。目前常用的交通灯相位模型训练方式主要可分为人工控制和计算机程序控制两种。

由于人工主观判断比较准确，结合监控摄像机的实时视频流，人工控制交通信号灯的相位变换可以有效解决路口拥堵问题。但是，对于城市级交通灯相位模型训练而言，人工的成本也是极高的。

通过计算机程序控制交通信号灯，可以极大地减少人工成本。但由于程序通常是人为预先编写的，常用的固定时间相位变换较难适应每个路口实时的车辆量变化，适应性不强无法较好地解决交通堵塞。

发明内容

针对现有技术中的问题，本发明的目的在于提供一种交通灯相位控制方法、系统、设备及介质，解决了现有的计算机程序控制方式无法自适应调整信号灯相位的缺陷。

本发明实施例提供一种交通灯相位控制方法，包括如下步骤：

采集当前时刻的路口状态数据，所述路口状态数据包括路口的各个车道的车辆状态数据；

将所述当前时刻的路口状态数据输入训练好的交通灯相位模型；

根据所述交通灯相位模型输出的交通灯相位状态控制交通灯的相位。

可选地，所述各个车道的车辆状态数据包括车辆数量、车辆平均速度和车辆排队长度中的至少一种；

所述采集当前时刻的路口状态数据，包括如下步骤：

采集当前时刻的路口的各个车道的车辆状态数据；

将各个车道的车辆状态数据按照预设的车道排列顺序进行拼接，得到当前时刻的路口状态数据。

可选地，所述路口状态数据包括多个路口的各个车道的车辆状态数据；

所述采集当前时刻的路口状态数据，包括如下步骤：

采集各个路口的各个车道的车辆状态数据；

将各个车道的车辆状态数据按照预设的车道排列顺序进行拼接，得到各个路口的车辆状态数据；

将各个路口的车辆状态数据按照预设的路口排列顺序进行拼接，得到当前时刻的路口状态数据。

可选地，所述路口状态数据还包括路口的各个人行道的行人状态数据；

所述采集当前时刻的路口状态数据，包括如下步骤：

采集当前时刻的路口的各个车道的车辆状态数据和各个人行道的行人状态数据；

将各个车道的车辆状态数据按照预设的车道排列顺序进行拼接，得到路口的车辆状态数据；

将各个人行道的行人状态数据按照预设的人行道排列顺序进行拼接，得到路口的行人状态数据；

将路口的车辆状态数据和行人状态数据进行拼接，得到当前时刻的路口状态数据。

可选地，所述方法还包括采用如下步骤训练所述交通灯相位模型：

采集第一交通灯相位状态和对应的第一路口状态数据；

将所述第一路口状态数据输入交通灯相位模型，得到输出的第二交通灯相位状态；

采集应用所述第二交通灯相位状态后的第二路口状态数据，并计算奖励分数，将所述第一交通灯相位状态、第一路口状态数据、第二交通灯相位状态、第二路口状态数据和奖励分数加入训练样本；

采用所述训练样本迭代训练所述交通灯相位模型，对所述交通灯相位模型的网络参数进行优化，得到训练好的交通灯相位模型。

可选地，所述采集第一交通灯相位状态和对应的第一路口状态数据，包括从交通仿真系统中采集i-1时刻的交通灯相位状态和路口状态数据，其中，i表示当前为第i次训练；

所述采集应用所述第二交通灯相位状态后的第二路口状态数据，包括在所述交通仿真系统中应用所述第二交通灯相位状态，采集i时刻的交通灯相位状态和路口状态数据。

可选地，所述在所述交通仿真系统中应用所述第二交通灯相位状态，包括如下步骤：

判断所述第一交通灯相位状态与所述第二交通灯相位状态是否一致；

如果是，则保持所述交通仿真系统中的交通灯相位状态不变，且保持时间为第一时间；

如果否，则变更所述交通仿真系统中的交通灯相位状态，且第二交通灯相位状态的保持时间为第二时间，所述第二时间大于所述第一时间。

可选地，所述计算奖励分数，包括如下步骤：

采集i-1时刻的路口等待时间和i时刻的路口等待时间，i表示当前为第i次训练，i-1时刻为所述第一路口状态数据的采集时刻，i时刻为所述第二路口状态数据的采集时刻；

采用如下公式计算奖励分数R：

R＝(W_i-1-W_i)

其中，W_i-1为i-1时刻路口等待时间，W_i为i时刻路口等待时间。

可选地，所述计算奖励分数，包括如下步骤：

采集i-1时刻的行人等待时间、i-1时刻的车辆等待时间、i时刻的行人等待时间和i时刻的车辆等待时间，i表示当前为第i次训练，i-1时刻为所述第一路口状态数据的采集时刻，i时刻为所述第二路口状态数据的采集时刻；

采用如下公式计算奖励分数R：

其中，

为i-1时刻行人等待时间，

为i时刻行人等待时间，

为i-1时刻车辆等待时间，

为i时刻车辆等待时间，α₁和α₂分别为行人奖励项的权重和车辆奖励项的权重。

本发明的交通灯相位控制方法通过实时采集当前时刻的路口状态数据，可以获取路口的实时车辆状态数据，并且将当前时刻的路口状态数据输入至通过机器学习训练好的交通灯相位模型，通过机器学习模型可以得到针对实时车辆状态的优化相位控制策略，然后根据交通灯相位模型的输出来实现相位控制，从而更好地选择交通信号灯的相位变化方式，实现自适应调整交通信号灯，有效减少交通拥堵情况。

本发明实施例还提供一种交通灯相位控制系统，应用于所述的交通灯相位控制方法，所述系统包括：

数据采集模块，用于采集当前时刻的路口状态数据，所述路口状态数据包括路口的各个车道的车辆状态数据；

模型输入模块，用于将所述当前时刻的路口状态数据输入训练好的交通灯相位模型；

相位控制模块，用于根据所述交通灯相位模型输出的交通灯相位状态控制交通灯的相位。

本发明的交通灯相位控制系统通过数据采集模块实时采集当前时刻的路口状态数据，可以获取路口的实时车辆状态数据，由模型输入模块将路口状态数据输入至通过机器学习训练好的交通灯相位模型，通过机器学习模型可以得到针对实时车辆状态的优化相位控制策略，并且由相位控制模块根据交通灯相位模型的输出来实现相位控制，从而更好地选择交通信号灯的相位变化方式，实现自适应调整交通信号灯，有效减少交通拥堵情况。

本发明实施例还提供一种交通灯相位控制设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行所述的交通灯相位控制方法的步骤。

本发明的交通灯相位控制设备在其中的处理器执行所述可执行指令来执行所述的交通灯相位控制方法时，通过实时采集当前时刻的路口状态数据，可以获取路口的实时车辆状态数据，并且将当前时刻的路口状态数据输入至通过机器学习训练好的交通灯相位模型，通过机器学习模型可以得到针对实时车辆状态的优化相位控制策略，然后根据交通灯相位模型的输出来实现相位控制，从而更好地选择交通信号灯的相位变化方式，实现自适应调整交通信号灯，有效减少交通拥堵情况。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现所述的交通灯相位控制方法的步骤。

本发明的计算机可读存储介质在其存储的程序被执行时实现所述的交通灯相位控制方法时，通过实时采集当前时刻的路口状态数据，可以获取路口的实时车辆状态数据，并且将当前时刻的路口状态数据输入至通过机器学习训练好的交通灯相位模型，通过机器学习模型可以得到针对实时车辆状态的优化相位控制策略，然后根据交通灯相位模型的输出来实现相位控制，从而更好地选择交通信号灯的相位变化方式，实现自适应调整交通信号灯，有效减少交通拥堵情况。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明一实施例的交通灯相位控制方法的流程图；

图2是本发明一实施例的路口车道示意图；

图3是本发明一实施例的交通灯相位模型训练的流程图；

图4是本发明一实施例的交通灯相位模型采集训练样本的流程图；

图5是本发明一实施例的交通灯相位控制系统的结构示意图；

图6是本发明一实施例的交通灯相位控制设备的结构示意图；

图7是本发明一实施例的计算机存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

如图1所示，本发明提供了一种交通灯相位控制方法，包括如下步骤：

S100：采集当前时刻的路口状态数据，所述路口状态数据包括路口的各个车道的车辆状态数据；

S200：将所述当前时刻的路口状态数据输入训练好的交通灯相位模型；

S300：根据所述交通灯相位模型输出的交通灯相位状态控制交通灯的相位。

因此，本发明的交通灯相位控制方法中，通过步骤S110实时采集当前时刻的路口状态数据，可以获取路口的实时车辆状态数据，并且通过步骤S120将路口状态数据输入至通过机器学习训练好的交通灯相位模型，通过机器学习模型可以得到针对实时车辆状态的优化相位控制策略，然后通过步骤S130根据交通灯相位模型的输出来实现相位控制，从而更好地选择交通信号灯的相位变化方式，实现自适应调整交通信号灯，有效减少交通拥堵情况。

在步骤S110中，所述路口状态数据可以包括一个路口的各个车道的车辆状态数据，对于每个路口来说，所述步骤S110：采集一个路口的路口状态数据包括：采集当前时刻的路口的各个车道的车辆状态数据；将各个车道的车辆状态数据按照预设的车道排列顺序进行拼接，得到当前时刻的路口状态数据。

其中，各个车道的排列顺序(例如根据车道的空间位置按顺时针顺序依次排列或逆时针顺序依次排列)可以根据需要设定，但需要保证各个车道的排列顺序与训练所述交通灯相位模型时训练样本所对应的各个车道的排列顺序相一致。

在其他可替代的实施方式中，所述路口状态数据还可以包括多个路口的各个车道的车辆状态数据。因此，本发明可以进一步应用于多路口的交通灯相位控制。对应地，交通灯相位模型输出的交通灯相位状态也就是多个路口的交通灯相位状态的拼接数据。当前时刻的路口状态数据中的路口数量与训练所述交通灯相位模型时训练样本中路口的数量一致。

在所述路口状态数据包括多个路口的各个车道的车辆状态数据时，所述步骤S110：所述采集当前时刻的路口状态数据，包括如下步骤：

采集各个路口的各个车道的车辆状态数据；

此处多个路口的排列顺序也可以根据需要设定，但需要保证，此处多个路口的排列顺序与训练所述交通灯相位模型时训练样本中路口的排列顺序一致，例如，路口状态数据包括三个路口的各个车道的车辆状态数据，则当前时刻的路口状态数据为{路口1路口状态数据，路口2路口状态数据，路口3路口状态数据}。

因此，本发明可以进一步解决现有方法中无法协调多个路口的问题，通过采用多个路口的路口状态数据一起训练得到的交通灯相位模型，并且将实时采集的多个路口的路口状态数据输入到交通灯相位模型中，使得多个路口协同配合，获得更好的多路口协同的相位控制优化策略。

在该实施例中，所述各个车道的车辆状态数据包括车辆数量、车辆平均速度和车辆排队长度中的至少一种。其中，各个车道的车辆状态数据可以采用设置于车道上的地感线圈感应直接获取，相比于现有技术中需要摄像头采集图像然后进行图像分析的方式，采用地圈线圈作为采集设备，在采集设备布置上更加简单，数据采集过程更加便捷。

将各个车道的车辆状态数据进行拼接时，例如，一个路口有八个车道，每个车道采集到车辆数量、车辆平均速度和车辆排队长度三个参数，则生成的路口状态数据为{车道1车辆数量，车道1平均速度，车道1排队长度，车道2车辆数量，车道2平均速度，车道2排队长度，车道3车辆数据，车道3平均速度，车道3排队长度，车道4车辆数据，车道4平均速度，车道4排队长度……}。

此处以图2中示出的车道为例进行说明。如图2所示，为本发明一实施例的路口车道示意图。在该实施例中，路口A处共有16个车道(R1～R16)，对应有8个行车方向：车道R1、R2、R5、R6、R9、R10、R13、R14的行车方向。每个车道口设置有一个传感器，每个传感器记录车辆的平均速度和车辆数量，得到32个数据，并且通过传感器数据统计每个行车方向的排队长度，可以得到8个数据，将整个路口的各个车道的平均速度、车辆数量和排队长度拼接，可以得到拼接后的路口状态数据，以表示路口状态。路口状态数据的拼接方式可以有多种，例如得到的路口状态数据可以为：{车道R1车辆数量，车道R1平均速度，车道R1排队长度，车道R2车辆数量，车道R2平均速度，车道R2排队长度，车道R5车辆数量，车道R5平均速度，车道R5排队长度……}，或者得到的路口状态数据可以为：{车道R1车辆数量，车道R1平均速度，车道R2车辆数量，车道R2平均速度，车道R3车辆数量，车道R3平均速度，……，车道R16车辆数量，车道R16平均速度，车道R1方向排队长度，车道R2方向排队长度，车道R5方向排队长度，……，车道R14方向排队长度}等等。

所述交通灯相位状态是路口所有交通灯的相位按照一个设定的固定顺序进行拼接，表示在某个时刻，路口所有交通信号灯的状态。例如，在图2中，共有4种不同的通行状态，每个状态表示一种交通灯相位。例如，在图2中，南北方向(图2中上下方向)直行绿灯，其他方向红灯时，从R1R2方向车道开始，顺时针每个行车方向R1、R2、R5、R6、R9、R10、R13、R14用一个信号灯相位表示，其相位为：GRRRGRRR。在有多个路口的车辆状态数据时，所述交通灯相位模型的输出数据为多个路口的交通信号灯的状态按照多个路口的预设顺序进行拼接的结果。

进一步地，本发明还可以应用于车道和人行道的交通灯相位同时控制，所述路口状态数据包括路口的车道的车辆状态数据和人行道的行人状态数据。所述步骤S100：采集当前时刻的路口状态数据，包括如下步骤：

采集当前时刻的路口的各个车道的车辆状态数据和各个人行道的行人状态数据，行人状态数据包括每条人行道的行人数量、行人平均速度和行人排队长度等数据的特征值；

根据所述路口的车辆行人拼接数据生成当前时刻的路口状态数据。

车辆状态数据和行人状态数据的拼接顺序也不限定，只需要与交通灯相位模型训练时训练样本保持一致即可。例如，将行人状态数据拼接于车辆状态数据之后，在有多个路口时，拼接后路口状态数据可以为：{路口1车辆状态数据，路口1行为状态数据，路口2车辆状态数据，路口2行人状态数据，路口3车辆状态数据……}

因此，本发明可以进一步解决现有技术中无法协调车道和人行道的交通灯控制的问题，在训练模型时由于考虑到了车辆状态数据和行人状态数据，因此在采用该交通灯相位模型进行交通灯相位控制策略选择时，可以更好地协调车辆和行人的关系，同时降低车道和人行道的拥堵情况。

如图3所示，在该实施例中，还包括交通灯相位模型训练步骤，具体地，采用如下步骤训练所述交通灯相位模型：

S210：采集第一交通灯相位状态和对应的第一路口状态数据；

S220：将所述第一路口状态数据输入交通灯相位模型，得到输出的第二交通灯相位状态；

S230：采集应用所述第二交通灯相位状态后的第二路口状态数据，并计算奖励分数，将所述第一交通灯相位状态、第一路口状态数据、第二交通灯相位状态、第二路口状态数据和奖励分数加入训练样本；

S240：采用所述训练样本迭代训练所述交通灯相位模型，对所述交通灯相位模型的网络参数进行优化，得到训练好的交通灯相位模型。

因此，在该实施例中，通过强化学习的方式来训练交通灯相位模型，并且交通灯相位模型的输入为路口状态数据，奖励分数为根据应用第二交通灯相位之后的路口状态数据，可以得到具有高自适应性、具有高准确性的交通灯相位模型，应用于本发明的交通灯相位控制方法时，可以获得更好的交通灯相位控制效果，降低道路拥堵情况。

强化学习(Reinforcement Learning，RL)是机器学习的一种方法，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化，此处回报最大化即为奖赏最大化。其原理在于，如果智能体的某个行为策略导致环境正的奖赏，那么智能体以后产生这个行为策略的趋势便会增强。强化学习模型包括行动网络和评估网络，行动网络用于根据当前的输入状态数据决定下一时刻施加到环境上去的最好动作，而评估网络用于对动作施加到环境上去的动作进行评估，得到表征评估结果的奖励分数。对于行动网络，强化学习算法允许其输出节点进行随机搜索，有了来自评估网络的奖励分数后，将奖励分数作为内部强化信号，行动网络的输出结点即可有效地完成随机搜索并且大大地提高选择好的动作的可能性，同时可以优化整个行动网络的参数。

在该实施例中，采用所述行动网络作为所述交通灯相位模型，所述交通灯相位模型采用神经网络模型来表示，通过步骤S120将所述第一路口状态数据输入交通灯相位模型之后，可以得到预测的各种交通灯相位状态的概率，选择概率最大的作为第二交通灯相位状态。将所述第二交通灯相位状态应用到环境中后，可以采集第二路口状态数据，并采用所述评估网络进行奖励分数的计算，然后采用包括所述第一路口状态数据、第一交通灯相位状态、第二路口状态数据、第二交通灯相位状态和奖励分数的训练样本训练所述行动网络。

所述步骤S210～S240为所述交通灯相位模型一次训练的步骤，在每次训练过程中，对所述交通灯相位模型的内部网络参数进行优化。在该实施例中，优选重复采用所述步骤S210～S240对所述交通灯相位模型进行迭代训练，第i-1次训练时得到的第二路口状态数据和第二交通灯相位状态可以作为第i次训练时的第一路口状态数据和第一交通灯相位状态，即第i-1次训练时在应用交通灯相位变化后的路口状态数据和交通灯相位状态可以作为第i次训练时的初始路口状态数据和交通灯相位状态。所述交通灯相位模型训练完成可以依据迭代次数或依据价值函数，依据迭代次数指的是迭代次数达到预设值时，迭代完成，依据价值函数指的是构建模型的价值函数，训练至价值函数收敛到最优值时，迭代完成，价值函数可以是值迭代函数或策略迭代函数等。

在该实施例中，进一步地，在迭代训练所述交通灯相位模型时，可以采用PPO(Proximal Policy Optimization，近端策略优化)的强化学习算法。近端策略优化算法是一种新型的Policy Gradient(策略梯度)算法，策略梯度算法对步长十分敏感，但是又难以选择合适的步长，在训练过程中新旧策略的的变化差异如果过大则不利于学习。近端策略优化算法提出了新的目标函数可以在多个训练步骤实现小批量的更新，解决了策略梯度算法中步长难以确定的问题。但本发明不限于此，在其他实施方式中，所述强化学习算法也可以采用策略梯度算法、信赖域策略优化算法、AC(Based Actor-Critic，基于演员-评价者)算法等等。

所述第一路口状态数据和第二路口状态数据的数据类型与上述的路口状态数据一致，并且在训练时第一路口状态数据和第二路口状态数据中各种类型数据的拼接顺序与上述的实时采集的当前时刻的路口状态数据的拼接数据相一致。所述第一路口状态数据和第二路口状态数据可以分别包括一个或多个路口的车道的车辆状态数据，在包括多个路口时，路口的排列顺序与实时采集的当前时刻的路口状态数据中路口的排列顺序一致。

进一步地，对于有人行道的路口，所述第一路口状态数据和第二路口状态数据可以包括一个或多个路口的各个车道的车辆状态数据和行人状态数据。将每个路口的车辆状态数据和行人状态数据进行拼接，拼接方式与当前时刻的路口状态数据的拼接方式一致。行人状态数据包括每条人行道的行人数量、行人平均速度和行人排队长度等数据的特征值。

因此，本发明可以进一步解决现有方法中无法协调多个路口的问题，并且可以同时规划车辆通行和人行道通行。本发明针对实时人车流量的不确定性，通过数据驱动的方式，来对强化学习模型参数进行优化训练，使得模型具备针对某种路口人、车流状态，采取合理行为来减轻路口拥堵状况，可以同时针对多路口的人流、车流进行建模，在实际应用中有很强的先进行和有效性。

所述交通灯相位状态是路口所有交通灯的相位按照一个设定的固定顺序进行拼接，表示在某个时刻，路口所有交通信号灯的状态。对于多个路口，将所有路口的交通灯相位状态按照一个固定顺序拼接，对于有人行道的路口，将车道的交通灯相位状态与人行道的相位状态进行拼接。

在强化学习模型中，环境是一个外部系统，智能体从外部系统中采集状态数据(路口状态数据)，并且将动作(交通灯相位变化)应用到环境中，使得环境中的状态数据发生变化。在该实施例中，采用交通仿真系统作为强化学习中的环境，交通仿真系统根据设定的道路、车辆、行人等参数模拟一个真实的交通环境，智能体从交通仿真系统中采集不同时刻的路口状态数据，并且在得到交通灯相位模型预测的交通灯相位状态之后，将交通灯相位变化应用到交通仿真系统中。

如图4所示，在该实施例中，对于第i次训练来说，所述步骤S210：采集第一交通灯相位状态和对应的第一路口状态数据，包括S210：从交通仿真系统中采集i-1时刻的交通灯相位状态和路口状态数据，i-1时刻的交通灯相位状态和路口状态数据实际上也是第i-1次训练时输出的第二交通灯相位状态和第二路口状态数据，i≥1，i＝1时，i-1时刻的交通灯相位状态和路口状态数据即为从交通仿真系统中第一次采集到的初始的交通灯相位状态和路口状态数据。

所述步骤S230：采集应用所述第二交通灯相位状态后的第二交通灯相位状态和第二路口状态数据，包括在所述交通仿真系统中应用所述第二交通灯相位状态，采集i时刻的交通灯相位状态和路口状态数据。

所述交通仿真系统可以采用Sumo(Simulation of Urban Mobility，城市交通仿真)系统，允许模拟给定交通需求如何在给定的道路网络中移动。在其他可替代的实施方式中，所述交通仿真系统也可以采用其他类型的仿真模型，例如VISSIM仿真模型，是德国PTV公式开发的一种微观仿真模型，CORSIM是美国联邦公路局开发的、能够仿真城市道路和高速公路的交通流的仿真模型等等。

如图4所示，在该实施例中，所述在所述交通仿真系统中应用所述第二交通灯相位状态，包括如下步骤：

S231：判断所述第一交通灯相位状态与所述第二交通灯相位状态是否一致，若是，则执行步骤S232，若否，则执行步骤S233。

S232：在交通仿真系统中保持第一交通灯相位状态m秒，然后执行步骤S235。

其中，第一时间m可以为10s。

S233：执行黄灯相位过渡，然后执行步骤S234。

其中，执行黄灯相位过渡的时间可以为3S。

S234：在交通仿真系统中变更至第二交通灯相位状态并保持n秒，因此第二交通灯相位状态的保持时间为第二时间n，所述第二时间n大于所述第一时间m，然后执行步骤S135。

其中，第二时间n可以为27s。

S135：从所述交通仿真系统中采集第二路口状态数据，并计算奖励分数。

在该实施例中，所述步骤S235：计算奖励分数，包括如下步骤：

从所述交通仿真系统中采集i-1时刻的路口等待时间和i时刻的路口等待时间；其中，i-1时刻的路口等待时间可以是i-1时刻在采集第一路口状态数据时同时采集的，i时刻的路口等待时间可以是i时刻在采集第二路口状态数据时同时采集的。

然后采用如下公式计算奖励分数R：

R＝(W_i-1-W_i)

因此，本发明通过路口等待时间来计算奖励分数，从而在迭代训练交通灯相位模型时，优化其内部的网络参数以获得更少的路口等待时间，减少司机和行人在路口的等待时间，降低路口拥堵情况。

进一步地，在另一种实施方式中，可以将车辆等待时间和行人等待时间分开计算，并采用权重将两者进行组合，所述步骤S235：计算奖励分数，包括如下步骤：

采集i-1时刻的行人等待时间、i-1时刻的车辆等待时间、i时刻的行人等待时间和i时刻的车辆等待时间；i-1时刻的行人等待时间、i-1时刻的车辆等待时间可以是i-1时刻在采集第一路口状态数据时同时采集的，i时刻的行人等待时间和i时刻的车辆等待时间可以是i时刻在采集第二路口状态数据时同时采集的。

采用如下公式计算奖励分数R：

其中，

为i-1时刻行人等待时间，

为i时刻行人等待时间，

为i-1时刻车辆等待时间，

为i时刻车辆等待时间，α₁和α₂分别为行人奖励项的权重和车辆奖励项的权重，一般约束设置α₁+α₂＝1。

在该实施例中，所述行人等待时间包括路口的各个人行道中行人等待时间的总和，所述车辆等待时间包括路口的各个车道中车辆等待时间的总和。行人等待时间和车辆等待时间可以直接从Sumo等交通仿真系统中直接获取。

因此，本发明针对实时人车流量的不确定性，通过数据驱动的方式，来对强化学习模型参数进行优化训练，使得模型具备针对某种路口人、车流状态，采取合理行为来减轻路口拥堵状况，可以同时针对多路口的人流、车流进行建模，在实际应用中有很强的先进行和有效性。

如图5所示，本发明实施例还提供一种交通灯相位控制系统，应用于所述的交通灯相位控制方法，所述系统包括：

数据采集模块M100，用于采集当前时刻的路口状态数据，所述路口状态数据包括路口的各个车道的车辆状态数据；

模型输入模块M200，用于将所述当前时刻的路口状态数据输入训练好的交通灯相位模型；

相位控制模块M300，用于根据所述交通灯相位模型输出的交通灯相位状态控制交通灯的相位

本发明的交通灯相位控制系统通过数据采集模块M100实时采集当前时刻的路口状态数据，可以获取路口的实时车辆状态数据，由模型输入模块M200将当前时刻的路口状态数据输入至通过机器学习训练好的交通灯相位模型，通过机器学习模型可以得到针对实时车辆状态的优化相位控制策略，并且由相位控制模块M300根据交通灯相位模型的输出来实现相位控制，从而更好地选择交通信号灯的相位变化方式，实现自适应调整交通信号灯，有效减少交通拥堵情况。

在本发明的交通灯相位控制系统中，各个模块的功能实现可以采用上述交通灯相位控制方法中各个步骤的实施方式，例如，数据采集模块M100的功能可以采用上述步骤S110的具体实施方式实现，模型输入模块M200可以采用上述步骤S120的具体实施方式实现，相位控制模块M300可以采用上述步骤S130的具体实施方式实现，此处不予赘述。

本发明实施例还提供一种交通灯相位控制设备，包括处理器；存储器，其中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行所述的交通灯相位控制方法的步骤。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤。

所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现所述的交通灯相位控制方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图7所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种交通灯相位控制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的交通灯相位控制方法，其特征在于，所述各个车道的车辆状态数据包括车辆数量、车辆平均速度和车辆排队长度中的至少一种；

所述采集当前时刻的路口状态数据，包括如下步骤：

采集当前时刻的路口的各个车道的车辆状态数据；

3.根据权利要求1所述的交通灯相位控制方法，其特征在于，所述路口状态数据包括多个路口的各个车道的车辆状态数据；

所述采集当前时刻的路口状态数据，包括如下步骤：

采集各个路口的各个车道的车辆状态数据；

4.根据权利要求3所述的交通灯相位控制方法，其特征在于，所述路口状态数据还包括路口的各个人行道的行人状态数据；

所述采集当前时刻的路口状态数据，包括如下步骤：

5.根据权利要求1所述的交通灯相位控制方法，其特征在于，所述方法还包括采用如下步骤训练所述交通灯相位模型：

采集第一交通灯相位状态和对应的第一路口状态数据；

6.根据权利要求5所述的交通灯相位控制方法，其特征在于，所述采集第一交通灯相位状态和对应的第一路口状态数据，包括从交通仿真系统中采集i-1时刻的交通灯相位状态和路口状态数据，其中，i表示当前为第i次训练；

7.根据权利要求6所述的交通灯相位控制方法，其特征在于，所述在所述交通仿真系统中应用所述第二交通灯相位状态，包括如下步骤：

8.根据权利要求5所述的交通灯相位控制方法，其特征在于，所述计算奖励分数，包括如下步骤：

采用如下公式计算奖励分数R：

R＝(W_i-1-W_i)

9.根据权利要求8所述的交通灯相位控制方法，其特征在于，所述计算奖励分数，包括如下步骤：

采用如下公式计算奖励分数R：

其中，

为i-1时刻行人等待时间，W_i ¹为i时刻行人等待时间，

为i-1时刻车辆等待时间，W_i ²为i时刻车辆等待时间，α₁和α₂分别为行人奖励项的权重和车辆奖励项的权重。

10.一种交通灯相位控制系统，其特征在于，应用于权利要求1至9中任一项所述的交通灯相位控制方法，所述系统包括：

11.一种交通灯相位控制设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至9中任一项所述的交通灯相位控制方法的步骤。

12.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现权利要求1至9中任一项所述的交通灯相位控制方法的步骤。