CN117649776A

CN117649776A - 一种单交叉口信号灯控制方法、装置、终端及存储介质

Info

Publication number: CN117649776A
Application number: CN202311625235.5A
Authority: CN
Inventors: 张雄飞; 莫惠娟; 曾吴涛; 钱梦哲; 罗钦
Original assignee: Shenzhen Technology University
Current assignee: Shenzhen Technology University
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-03-05

Abstract

本发明所提供的一种单交叉口信号灯控制方法、装置、终端及存储介质，所述方法包括：获取当前时刻相邻路口的交通信息以及目标路口当前相位，得到当前交通状态；将所述当前交通状态输入预先训练的神经网络模型中，得到信号相位及信号相位的绿灯持续时间；根据所述信号相位及信号相位的绿灯持续时间对下一时刻目标路口的交通信号灯进行控制。本发明通过预先训练的神经网络模型实现了对交叉口信号控制的相位顺序、绿灯持续时间进行整体动态优化，提高了对交通信号灯控制的准确性，进而提高了道路通行效率。

Description

一种单交叉口信号灯控制方法、装置、终端及存储介质

技术领域

本发明涉及交通技术领域，尤其涉及的是一种单交叉口信号灯控制方法、装置、终端及存储介质。

背景技术

近年来，随着大数据、深度学习、深度强化学习等领域的不断发展，交通信号控制策略和城市智能交通也成为了发展的热点。其中，深度强化学习在特征选择与决策制定上具有绝对的优势。深度强化学习被广泛应用于各个行业，如机器人技术、医疗保健、智能电网、城市交通和无人驾驶车辆。

基于深度强化学习算法的信号控制优化，从环境获取实时交通信息，能实现交叉口车辆运行状态的动态监测与预测，提升信号控制优化的优化效果。但目前基于深度强化学习算法的交叉口信号控制研究中，多集中在相位顺序优化或者绿灯时长优化其中之一，优化方案缺乏全面性，无法对交叉口信号控制方案的相位顺序、绿灯时长进行整体动态优化，因此，在对交通信号灯进行控制时，优化结果并不准确，导致道路通行效率较低。

因此，现有技术存在缺陷，有待改进与发展。

发明内容

本申请提供了一种单交叉口信号灯控制方法、装置、终端及存储介质，以解决相关技术中在对交通信号灯进行控制时，优化结果并不准确，导致道路通行效率低的技术问题。

为实现上述目的，本申请采用了以下技术方案：

本申请第一方面实施例提供一种单交叉口信号灯控制方法，其特征在于，包括：

获取当前时刻相邻路口的交通信息以及目标路口当前相位，得到当前交通状态；

将所述当前交通状态输入预先训练的神经网络模型中，得到信号相位及信号相位的绿灯持续时间；

根据所述信号相位及信号相位的绿灯持续时间对下一时刻目标路口的交通信号灯进行控制。

可选地，所述神经网络模型的训练步骤包括：

在预先搭建的仿真平台中构建道路交叉口仿真场景；

以参数化深度Q网络为算法框架，构建初始神经网络模型，所述初始神经网络模型包括：主网络和目标网络，所述主网络和目标网络均包括：第一Actor网络和第二Actor网络，所述第一Actor网络用于选择相位的绿灯持续时间，所述第二Actor网络用于选择相位，所述目标网络用于预测目标值并更新主网络；

基于所述道路交叉口仿真场景对所述初始神经网络模型进行训练，得到已训练的神经网络模型。

可选地，基于所述道路交叉口仿真场景对所述初始神经网络模型进行训练，得到已训练的神经网络模型，包括：

基于所述道路交叉口仿真场景，利用所述主网络的第一Actor网络和第二Actor网络获取训练数据集；

利用所述训练数据集对所述初始神经网络模型进行训练，得到已训练的神经网络模型。

可选地，基于所述道路交叉口仿真场景，利用所述主网络的第一Actor网络和第二Actor网络获取训练数据集，包括：

确定所述道路交叉口仿真场景中的目标交叉路口和相邻交叉路口，在所述道路交叉口仿真场景中获取当前时刻的交通状态，所述交通状态包括：相邻交叉路口的交通信息以及目标交叉路口当前相位状态；

将当前时刻的交通状态输入所述主网络的第一Actor网络中，得到动作参数，所述动作参数用于反映绿灯持续时间；

将所述动作参数和当前时刻的交通状态输入所述主网络的第二Actor网络中，得到目标相位，根据动作参数和目标相位形成混合动作；

执行所述混合动作，转换相位至目标相位，执行绿灯持续时间；

检测当前时段内目标交叉路口每个车道车辆的平均等待时间和平均排队长度，根据所述平均等待时间和平均排队长度得到奖励值；

检测相邻交叉路口中与目标交叉路口相通的所有进口车道对应的车辆吞吐量，根据所述车辆吞吐量得到下一时刻的交通状态；

将当前时刻的交通状态、混合动作、奖励值以及下一时刻的交通状态作为一个样本数据；

获取多个样本数据，多个样本数据形成训练数据集。

可选地，将所述动作参数和当前时刻的交通状态输入所述主网络的第二Actor网络中，得到目标相位，根据动作参数和目标相位形成混合动作，包括：

将所述动作参数和当前时刻的交通状态输入所述主网络的第二Actor网络中；

采用随机系数贪婪探索策略进行动作选择，得到目标相位，根据动作参数和目标相位形成混合动作。

可选地，获取多个样本数据，多个样本数据形成训练数据集，包括：

将所述样本数据存储至经验池中；

当经验池中的样本数据达到预设容量值时，从所述经验池中随机获取预设数量的样本数据，形成训练数据集。

可选地，利用所述训练数据集对所述初始神经网络模型进行训练，得到已训练的神经网络模型，包括：

将训练数据集中的各个样本数据分别输入到所述目标网络中，得到各个样本数据的目标值；

根据各个样本数据的目标值计算每个样本数据的损失函数；

基于各个样本数据的损失函数，利用Adam随机梯度优化算法更新学习率，修正网络参数；

完成训练后，得到已训练的神经网络模型。

本申请第二方面实施例提供一种单交叉口信号灯控制装置，包括：

获取模块，用于获取当前时刻相邻路口的交通信息以及目标路口当前相位，得到当前交通状态；

输入模块，用于将所述当前交通状态输入预先训练的神经网络模型中，得到信号相位及信号相位的绿灯持续时间；

控制模块，用于根据所述信号相位及信号相位的绿灯持续时间对目标路口的交通信号灯进行控制。

本申请第三方面实施例提供一种终端，所述终端包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的单交叉口信号灯控制程序，所述处理器执行所述单交叉口信号灯控制程序时，实现如上所述的单交叉口信号灯控制方法的步骤。

本申请第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有单交叉口信号灯控制程序，所述单交叉口信号灯控制程序被处理器执行时，实现如上所述的单交叉口信号灯控制方法的步骤。

本发明的有益效果：本发明实施例通过获取当前时刻相邻路口的交通信息以及目标路口当前相位，得到当前交通状态；将所述当前交通状态输入预先训练的神经网络模型中，得到信号相位及信号相位的绿灯持续时间；根据所述信号相位及信号相位的绿灯持续时间对下一时刻目标路口的交通信号灯进行控制，实现了对交叉口信号控制的相位顺序、绿灯持续时间进行整体动态优化，提高了对交通信号灯控制的准确性，进而提高了道路通行效率。

附图说明

图1是本发明中单交叉口信号灯控制方法较佳实施例的流程图。

图2是本发明中单交叉口信号灯控制方法较佳实施例的交叉路口示意图。

图3是本发明中单交叉口信号灯控制方法较佳实施例中的混合动作空间示意图。

图4是本发明中单交叉口信号灯控制方法较佳实施例中的基于参数化深度Q网络的算法架构示意图。

图5是本发明中单交叉口信号灯控制方法较佳实施例中智能体与环境的交互示意图。

图6是本发明中单交叉口信号灯控制方法较佳实施例中的经验池示意图。

图7是本发明中单交叉口信号灯控制方法较佳实施例中的仿真平台架构图。

图8是本发明中单交叉口信号灯控制方法较佳实施例中的仿真实验流程图。

图9是本发明中单交叉口信号灯控制方法较佳实施例中的平均排队长度对比图。

图10是本发明中单交叉口信号灯控制方法较佳实施例中的平均等待时间对比图。

图11是本发明中单交叉口信号灯控制装置较佳实施例的功能原理框图。

图12是本发明中终端的较佳实施例的功能原理框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术无法对交叉口信号控制方案的相位顺序、绿灯时长进行整体动态优化，在利用相邻交叉口交通信息来研究目标交叉口信号控制方案时，忽略了状态空间的维度指数增长趋势所造成的维数灾难问题。本发明基于现状研究的不足，在深度强化学习算法的应用下提出考虑相邻交叉口影响的交叉口信号相位顺序、绿灯时长的整体动态优化方法。

请参见图1，本发明实施例所述的单交叉口信号灯控制方法包括如下步骤：

步骤S10、获取当前时刻相邻路口的交通信息以及目标路口当前相位，得到当前交通状态。

具体地，本申请解决的是基于深度强化学习算法的交叉口信号控制优化问题，因此，通过相邻路口的交通信息以及目标路口当前相位，得到当前交通状态，进而实现在考虑相邻交叉口出口道交通信息的背景下基于深度强化学习算法实现相位顺序和信号配时的整体动态优化，进一步提高相位和绿灯时间的利用率以及交叉口通行效率，减少车辆等待时间和排队长度，实现高效信号控制、减少环境污染、减少经济损失的目的。

如图1所示，所述单交叉口信号灯控制方法还包括如下步骤：

步骤S20、将所述当前交通状态输入预先训练的神经网络模型中，得到信号相位及信号相位的绿灯持续时间。

在本申请实施例中，所述神经网络模型的训练步骤包括：

步骤S100、在预先搭建的仿真平台中构建道路交叉口仿真场景；

步骤S200、以参数化深度Q网络为算法框架，构建初始神经网络模型，所述初始神经网络模型包括：主网络和目标网络，所述主网络和目标网络均包括：第一Actor网络和第二Actor网络，所述第一Actor网络用于选择相位的绿灯持续时间，所述第二Actor网络用于选择相位，所述目标网络用于预测目标值并更新主网络；

步骤S300、基于所述道路交叉口仿真场景对所述初始神经网络模型进行训练，得到已训练的神经网络模型。

首先需要搭建深度强化学习算法仿真平台，在信号交叉口范围内搭建SUMO-Python联合仿真平台，利用SUMO仿真软件的开源性和二次开发特性，搭建城市道路交叉口场景，利用其提供的Traci接口获取、传输实时交通信息，最后与编程软件Python进行二次开发联合仿真，完成平台搭建。具体包括：

第一步、环境初始化。对城市道路和车辆等信息进行了封装，以生成完整的道路路网和对应的车流量。

第二步、信号控制优化。基于设置好的交通环境，智能体通过交互学习、交通控制和解释策略来完成信号方案的优化，即基于交通仿真不断迭代更改算法参数从而实现信号控制方案的优化。

第三步、数据分析与评价。保存算法模型和实验数据，其中算法模型是通过建立文件夹将算法训练过程中产生的数据写入到特定的文件中，而实验数据则是将仿真所得数据通过接口提供给Python进行存储，通过调用Matplotlib绘图工具将其可视化，进而对实验结果进行分析评价。

基于预先搭建的仿真平台实现基于混合动作空间深度强化学习的交叉口信号控制方法。考虑相邻交叉口出口道吞吐量的影响，以具有五个交叉口的城市道路交通场景作为研究对象，在仿真软件上建立城市道路交叉口仿真场景，将相邻交叉口出口道的吞吐量以及当前交叉口执行的相位组成新的状态表示方法，在动作空间上，将相序优化和配时优化两者结合起来形成一个分层化动作空间，接着采用多目标函数来表示奖励函数，加入经验回放技术与ε贪婪探索策略，提高算法的收敛速度。利用深度强化学习算法设计一个混合体系架构来进行研究，实现离散和连续的联合信号优化控制。

在搭建交通环境时，本申请实施例设置了一个具有五个交叉口的道路交通环境，如图2所示。图中相交道路都是双向六车道，每个交叉口进口道的最内侧车道为左转，中间车道为直行，外侧车道为右转。其中处于中间的交叉口为目标交叉口。同时，假设所有车辆都是网联车辆，可以实时获取车辆位置、车辆速度、交通信号灯状态及绿灯持续时间、车辆排队长度、车辆等待时间等，同时，本文所构建的交通环境还建立在以下基本假设条件下：

(1)不考虑行人和非机动车对车辆运行的影响；

(2)不考虑过饱和状态；

(3)进入该交通环境的所有车辆均遵循交通规则行驶，不考虑交通事故发生情况；

(4)不考虑车辆相关交通信息的获取延迟和故障问题。

为了控制图2中目标交叉口A的交通信号灯，需要相邻四个交叉口B、C、D和E的交通信息。将交叉口A的进口道定义为LA_i1、LA_i2、…LA_i12，出口道定义为LA_e1、LA_e2、…LA_e12，同样地，其他交叉口也用这种命名方式进行定义。通过交叉口B的进口道LB_i1、LB_i5、LB_i9得到其出口道LB_e10、LB_e11、LB_e12的交通信息，从而得到交叉口A的进口道LA_i4、LA_i5和LA_i6的交通状况。若进口道LB_i1、LB_i5、LB_i9车流量较少，则说明该方向进入交叉口A的车道比较畅通，若交叉口B进口道车流量较多，说明交叉口B驶向交叉口A的通行压力大。在交叉口地理位置较近、交通压力较大的情况下，局部视图可以利用相邻交叉口的交通状况预测当前交叉口的交通状况，从而让智能体更好地做出决策。

本申请实施例为考虑相邻交叉口交通状态对目标交叉口信号控制的影响，将相邻交叉口出口道的交通状况与目标交叉口信号相位一起构建组合状态。

本申请实施例设置了状态空间。为了获得相邻交叉口出口道的状态，目标智能体需要获得12条车道的交通数据，然后将车道的交通状况作为状态发送给智能体用于选择动作。在同一时刻，由于受到交通灯管控，每个交叉口驶入目标交叉路口A的交通流量有非常大的差距，因此，为了给智能体提供合适的环境信息，将使用相邻交叉路口的车辆吞吐量来设计状态，12条车道的交通特征创建了大小为13的组合状态。交通状态表达式如下：

S_Le＝[Q_LBe,Q_LCe,Q_LDe,Q_LEe,P] (1)

式中，Q_LBe表示交叉路口B出口道的吞吐量，Q_LCe表示交叉路口C出口道的吞吐量，Q_LDe表示交叉路口D出口道的吞吐量，Q_LEe表示交叉路口E出口道的吞吐量，P表示交叉路口选择的交通信号相位，P∈{1，2，3，4}，其中，1代表南北直行及右转，2代表南北左转及右转，3代表东西直行及右转，4代表东西左转及右转。

本申请实施例设置了混合动作空间。在交通信号控制中，通常会将离散型动作空间定义为交通信号相位，连续型动作空间表示在给定的十字路口中对固定顺序的交通信号相位的绿灯持续时间进行分配选择。

混合动作空间就是将离散动作与连续动作进行结合，具体而言，将连续动作在网络中进行参数化处理，与离散动作形成混合动作，在选择离散动作的同时也对连续动作进行选择，如图3所示。在交通信号控制中，混合动作会同时设定不限顺序选择的相位以及最小、最大绿灯时间范围，智能体会同时选择执行哪个信号相位以及绿灯持续时间参数来执行。

本申请实施例将动作空间定义为混合动作，即将相位变换与相位的绿灯持续时间结合形成交通信号相位及其绿灯持续时间的两个子空间，那么动作空间变成了一个组合结构，定义为Α＝(P,d_p)，其中P表示交通信号的一个相位，d_p表示相位P的绿灯持续时间。第一个子空间交通信号相位定义为四个相位的集合，用P∈{1，2，3，4}表示，第二个子空间定义为绿灯持续时间，其范围用d_p＝{[t_min,t_max]}表示。

下面对动作的两个子空间进行定义。动作空间中4相位的具体表示方式如表1所示，该动作中的信号灯是控制交通流的，信号灯颜色依次对应交叉路口A的L1～L12车道，其中右转车道不受交通信号灯的控制，英文字母中的“G”代表绿灯，“R”代表红灯，“y”代表黄灯，可通行方向的解释如下：SN-L表示南北方向驶入交叉口的车辆可以左转。智能体可随意选择任一相位，为了对驾驶员停车起到提醒作用，相邻两个相位发生改变时要加3秒的黄灯时间。

动作空间中的绿灯持续时间范围确定为[5s,40s]，对相位的最小绿灯持续时间和最大绿灯持续时间进行合理的范围设置，最大时间可以避免其他车道的车辆产生长时间的等待，而最短时间则可以确保至少有一辆等待的车辆可以穿过交叉口。

通过对动作空间的重新定义，可以确保智能体在根据交叉口交通流的运行情况来进行相位的选择的同时，也能在合理的绿灯持续时间范围内选择时长。

表1

本申请实施例还设置了奖励函数。使用多目标函数来定义奖励函数，使用车辆等待时间、车辆排队长度两种交通流特征来设计奖励函数，通过组合多个目标计算单个奖励值。

式中，r表示奖励函数，L表示车道数，W_l表示车道l车辆的平均等待时间，q_l表示车道l车辆的平均排队长度。

在本申请实施例中，所述步骤S300具体包括：

步骤S310、基于所述道路交叉口仿真场景，利用所述主网络的第一Actor网络和第二Actor网络获取训练数据集；

步骤S320、利用所述训练数据集对所述初始神经网络模型进行训练，得到已训练的神经网络模型。

具体地，在一般的深度Q网络算法中，其智能体只需要采用一个主网络和目标网络进行训练，其中，主网络是用来执行动作的，目标网络则用来协助主网络完成训练。而本申请的算法框架是基于P-DQN算法(Parameterized Deep Q-Network，P-DQN，参数化深度Q网络)来处理混合动作空间问题，参数化深度Q网络采用了两个主神经网络，第一Actor网络用于近似基于策略的映射，以选择相位绿灯持续时间，称为ParamActor网络，第二Actor网络用于逼近基于值的Q值，用于选择离散动作，即相位选择，称之为Actor网络，如图4所示。同时，为了提高算法的稳定性，两个网络都加入了目标网络，用于预测目标值并更新主网络。

在本申请实施例中，所述步骤S310具体包括：

步骤S311、确定所述道路交叉口仿真场景中的目标交叉路口和相邻交叉路口，在所述道路交叉口仿真场景中获取当前时刻的交通状态，所述交通状态包括：相邻交叉路口的交通信息以及目标交叉路口当前相位状态；

步骤S312、将当前时刻的交通状态输入所述主网络的第一Actor网络中，得到动作参数，所述动作参数用于反映绿灯持续时间；

步骤S313、将所述动作参数和当前时刻的交通状态输入所述主网络的第二Actor网络中，得到目标相位，根据动作参数和目标相位形成混合动作；

步骤S314、执行所述混合动作，转换相位至目标相位，执行绿灯持续时间；

步骤S315、检测当前时段内目标交叉路口每个车道车辆的平均等待时间和平均排队长度，根据所述平均等待时间和平均排队长度得到奖励值；

步骤S316、检测相邻交叉路口中与目标交叉路口相通的所有进口车道对应的车辆吞吐量，根据所述车辆吞吐量得到下一时刻的交通状态；

步骤S317、将当前时刻的交通状态、混合动作、奖励值以及下一时刻的交通状态作为一个样本数据；

步骤S318、获取多个样本数据，多个样本数据形成训练数据集。

具体地，在深度强化学习算法的应用下，交通信号控制策略发生改变，如图5所示，展示了P-DQN算法下交通信号控制的过程。一般来说，信号控制策略由一个智能体和交通环境构成，其中智能体使用的学习机制是深度神经网络，环境则由SUMO绘制的交通环境而成，智能体通过状态、动作和奖励与环境进行交互，从而实现高效的信号控制策略。在t时刻，第一Actor网络智能体观察到交通环境状态s_t，选择连续动作dp_t，然后对连续动作dp_t进行参数化处理并进行输出，接着将观察到的状态s_t和连续动作dp_t输入到第二Actor网络中，根据策略将状态向量映射到动作中：S→A，混合动作A包括信号相位以及与之相关联的绿灯持续时间，接着根据执行动作后的交通状态变化，环境会将相应的奖励值以及下一个状态s_t+1反馈给智能体。

在本申请实施例中，所述步骤S313具体包括：

步骤S3131、将所述动作参数和当前时刻的交通状态输入所述主网络的第二Actor网络中；

步骤S3132、采用随机系数贪婪探索策略进行动作选择，得到目标相位，根据动作参数和目标相位形成混合动作。

具体地，在训练网络的初期，智能体对动作的选择是随机的，这种随机选择被称为探索，经过神经网络的不断迭代收敛，我们可以获得不同交通状态下各个动作的Q值，这时需要逐渐减少探索量，提高使Q值达到最优的动作的优先级，这种策略选择则被称为利用。但这种策略存在一个缺点，当动作之间的价值方差差别很大的时候，会导致动作选择策略陷入局部的最优解。为了避免这种情况的发生，采用ε贪婪探索策略作为动作选择的策略，避免算法在训练时陷入局部最优，使智能体能探索到不同的动作，并以概率分布的形式进行动作选择。通常情况下，设定随机系数ε∈(0,1)，在环境与智能体交互的每一次迭代中，智能体以概率ε随机选择动作，以1-ε的概率选择具有最大值函数的动作。

在本申请实施例中，所述步骤S318具体包括：

步骤S3181、将所述样本数据存储至经验池中；

步骤S3182、当经验池中的样本数据达到预设容量值时，从所述经验池中随机获取预设数量的样本数据，形成训练数据集。

具体地，在进行信号控制时需要引入经验池，经验池的作用是为了打破数据之间的关联性，从而更好地进行参数更新。训练主网络通常需要庞大的数据样本，并且通过仿真训练采集到的数据存在相关性，这种相关性会导致智能体的训练结果不准确，引入经验池可以打破数据间的相关性，使训练性能大大增强。为了实现经验回放，经验池会存储模型训练产生的样本数据，当经验池的样本数据达到设定的数量值后，会进行随机抽样，参与到模型的网络训练中去。经验池的存储示意图如图6所示。

在本申请实施例中，所述步骤S320具体包括：

步骤S321、将训练数据集中的各个样本数据分别输入到所述目标网络中，得到各个样本数据的目标值；

步骤S322、根据各个样本数据的目标值计算每个样本数据的损失函数；

步骤S323、基于各个样本数据的损失函数，利用Adam随机梯度优化算法更新学习率，修正网络参数；

步骤S324、完成训练后，得到已训练的神经网络模型。

具体地，利用深度神经网络来近似Q(s,P,d_p)和即Q(s,P,d_p)≈Q(s,P,d_p；ω)，/>其中θ为第一Actor网络的权值，ω为第二Actor网络的权值。通过梯度下降最小化均方贝尔曼误差来估计ω和θ，在t时刻，设θ_t和ω_t分别为第一Actor网络和第二Actor网络的权值，定义目标值y_t为：

用来更新参数的损失函数公式为：

在设置网络参数时，对于第一Actor网络的架构，使用大小为13的输入层、具有Relu激活函数的256个神经元的隐藏层以及大小为4个神经元的输出层。将第二Actor网络架构的输入层大小设置为17，分别对应大小为13的状态空间+大小为4的连续动作参数，隐含层则是一个具有Relu激活函数的256个神经元组成，输出层由4个神经元组成。目标网络与主网络结构相同。

在本申请实施例中，仿真平台具体如图7所示，训练流程具体如表2所示。

表2

具体地，在参数设置与参数初始化时，第一Actor网络和第二Actor网络的学习率分别是0.00001、0.001，探索参数ε的初始值设为ε＝0.1(随着训练次数的不断增加从ε₁＝0.1衰减到ε₂＝0.01)。折扣因子γ＝0.95。经验池的大小设为N＝20000，最小样本数B＝64，初始样本数n＝0。

仿真时长Simu_time＝3600s，训练周期数Emax＝400。

目标网络参数复制周期Cmax＝100,C＝0。

t＝0。(参数更新次数下标)

随机生成第一Actor网络和第二Actor网络的权重系数ω₀、θ₀，初始化目标网络的权重系数，ω^-＝ω₀，θ^-＝θ₀。

在训练过程中，步骤1：仿真开始，Simu_clock＝0。

步骤2：获取当前交通状态。

在车联网环境下实时获取交通状态s_t，即与交叉口A相关的12条进口车道的车辆吞吐量和当前的相位状态。

s_t＝[Q_LBi1,Q_LBi5,Q_LBi9,Q_LCi3,Q_LCi7,Q_LCi11,Q_LDi2,Q_LDi6,Q_LDi10,Q_LEi4,Q_LEi8,Q_LEi12,P]

步骤3：第一Actor网络计算。

在第一Actor深度神经网络中将实时交通状态s_t作为输入，输出连续动作d_pt(绿灯持续时间)，即动作参数d_pt←x_dp(s_t；θ_t)。

步骤4：第二Actor网络计算。

在第二Actor网络中，将第一Actor网络得到的动作参数d_pt以及实时交通状态s_t作为输入，并选择动作p_t(下一相位)，形成混合动作a_t＝(p_t,d_pt)输出。

根据ε-greedy策略进行动作选择。

步骤5：执行动作，并检测交通状态。

执行动作a_t＝(p_t,dp_t)，即运行仿真，黄灯3s，转换相位至p_t，执行绿灯时间d_pt。Simu_clock＝Simu_clock+3+d_pt。

检测该时段内目标交叉口A每个车道车辆平均等待时间、车辆排队长度，获得奖励r_t。检测相邻交叉口中与交叉口A相关的12条进口车道的车辆吞吐量，并获取下一时刻的状态s_t+1。

步骤6：存储经验。

将样本数据(s_t,a_t,r_t,s_t+1)存储到经验池中，n＝n+1。

步骤7：经验池维护。

若n>N，即经验池中训练样本超过经验池大小，则会删除靠前的样本数据，保持经验池规模为N。

步骤8：参数更新。

若n≥B，从经验池中随机选取B个样本数据(s_t',a_t',r_t',s_t+1')，用于网络训练(主要用于反复训练修正参数)。否则，转入步骤2。

将B个样本分别输入到目标网络中，得到各个样本的目标值。

计算每个样本的损失函数。

利用Adam随机梯度优化算法更新学习率，得到参数值ω_t+1、θ_t+1。

C＝C+1，目标网络参数复制，若C≥Cmax，ω^-＝ω_t，θ^-＝θ_t，令C＝0。

步骤9：令t＝t+1。

若Simu_clock<Simu_time，转入步骤2；

若Simu_clock≥Simu_time，则令E＝E+1。

若E<Emax，更新ε，转入步骤1。

否则结束。

如图1所示，所述单交叉口信号灯控制方法还包括如下步骤：

步骤S30、根据所述信号相位及信号相位的绿灯持续时间对下一时刻目标路口的交通信号灯进行控制。

具体地，神经网络模型是在仿真环境中进行训练，然后再将训练好的神经网络模型部署到实际路口，实现在实际环境中的继续学习和进行信号灯控制。

本发明在深度强化学习智能信号控制算法中引入了混合动作空间。针对交叉口的类型与特点，将相序优化和配时优化两者结合起来形成一个分层化动作空间，并引入深度强化学习算法混合体系结构，从而对下一时刻的交通信号相位及其绿灯持续时间进行控制，一定程度上提高了交叉口信号控制的准确性。并且，提出了考虑相邻交叉口影响的深度强化学习信号控制方法。在智能体算法的背景下，单个智能体在考虑相邻交叉口交通条件的情况下进行动作选择，智能体通过车辆在车道中的场景了解相邻交叉口的交通状况，考虑其附近交叉口的局部视图，以选择当前交通状态的动作，从而提高目标交叉口对车辆运行的了解程度，提高交叉口的通行能力。

以一个具有五个交叉口的仿真环境作为仿真实验对象来研究目标交叉口的信号控制方案，在基于深度强化学习算法的基础上考虑相邻交叉口影响进行混合动作空间整体信号控制优化方案研究，设计了两种信号控制方案作为对比实验：方案1为基于单一离散动作空间深度强化学习算法的单交叉口信号控制方案，方案2运用了本发明中混合动作空间整体优化方法的单交叉口信号控制方案。以交叉口车辆平均排队长度、平均等待时间作为评价指标，通过仿真对比了各控制方案的控制效果。

在一种实现方式中，如图8所示，仿真实验流程包括：

步骤S1、绘制路网文件以及编写sumocfg；

步骤S2、利用Traci接口运行sumocfg文件；

步骤S3、Python初始化模型、交通流与环境；

步骤S4、环境函数将路网交通信息转化为状态与奖励；

步骤S5、模型接收状态输出动作；

步骤S6、动作函数将动作转化为SUMO信号指令，通过Traci输出给SUMO；

步骤S7、SUMO根据指令仿真一个信号灯周期；

步骤S8、回合是否结束；若是，则执行步骤S9；若否，则返回步骤S4；

步骤S9、训练是否结束；若是，则结束；若否，则返回步骤S3。

如图9和图10所示，仿真结果表示，本发明提出的信号控制方案效果最优，能有效减少交叉口的车辆排队长度和等待时间，提高交叉口的通行效率。

本申请实施例在定义交通状态时，可以加入更多车辆信息，如：车辆速度、车流量、吞吐量等，能更全面地获取车辆状态，提高算法的控制性能。在研究交叉口信号控制时，还可以考虑行人和非机动车的影响，以更好地对交通信号灯进行设置。本申请实施例还可以拓展到多交叉口的协同信号控制，将深度强化学习算法应用到区域信号控制中。

在一种实施例中，如图11所示，基于上述单交叉口信号灯控制方法，本发明还相应提供了一种单交叉口信号灯控制装置，包括：

获取模块100，用于获取当前时刻相邻路口的交通信息以及目标路口当前相位，得到当前交通状态；

输入模块200，用于将所述当前交通状态输入预先训练的神经网络模型中，得到信号相位及信号相位的绿灯持续时间；

控制模块300，用于根据所述信号相位及信号相位的绿灯持续时间对目标路口的交通信号灯进行控制。

需要说明的是，前述对单交叉口信号灯控制方法实施例的解释说明也适用于该实施例的单交叉口信号灯控制装置，此处不再赘述。

本发明公开一种单交叉口信号灯控制方法、装置、终端及存储介质，所述方法包括：获取当前时刻相邻路口的交通信息以及目标路口当前相位，得到当前交通状态；将所述当前交通状态输入预先训练的神经网络模型中，得到信号相位及信号相位的绿灯持续时间；根据所述信号相位及信号相位的绿灯持续时间对下一时刻目标路口的交通信号灯进行控制，实现了对交叉口信号控制的相位顺序、绿灯持续时间进行整体动态优化，提高了对交通信号灯控制的准确性，进而提高了道路通行效率。

图12为本申请实施例提供的终端的结构示意图。该终端可以包括：

存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。

处理器502执行程序时实现上述实施例中提供的单交叉口信号灯控制方法。

进一步地，终端还包括：

通信接口503，用于存储器501和处理器502之间的通信。

存储器501，用于存放可在处理器502上运行的计算机程序。

存储器501可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器501、处理器502和通信接口503独立实现，则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(Periphera lComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，在具体实现上，如果存储器501、处理器502及通信接口503，集成在一块芯片上实现，则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。

处理器502可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的单交叉口信号灯控制方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述无需针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备读取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种单交叉口信号灯控制方法，其特征在于，包括：

2.根据权利要求1所述的单交叉口信号灯控制方法，其特征在于，所述神经网络模型的训练步骤包括：

在预先搭建的仿真平台中构建道路交叉口仿真场景；

3.根据权利要求2所述的单交叉口信号灯控制方法，其特征在于，基于所述道路交叉口仿真场景对所述初始神经网络模型进行训练，得到已训练的神经网络模型，包括：

4.根据权利要求3所述的单交叉口信号灯控制方法，其特征在于，基于所述道路交叉口仿真场景，利用所述主网络的第一Actor网络和第二Actor网络获取训练数据集，包括：

获取多个样本数据，多个样本数据形成训练数据集。

5.根据权利要求4所述的单交叉口信号灯控制方法，其特征在于，将所述动作参数和当前时刻的交通状态输入所述主网络的第二Actor网络中，得到目标相位，根据动作参数和目标相位形成混合动作，包括：

6.根据权利要求4所述的单交叉口信号灯控制方法，其特征在于，获取多个样本数据，多个样本数据形成训练数据集，包括：

将所述样本数据存储至经验池中；

7.根据权利要求3所述的单交叉口信号灯控制方法，其特征在于，利用所述训练数据集对所述初始神经网络模型进行训练，得到已训练的神经网络模型，包括：

根据各个样本数据的目标值计算每个样本数据的损失函数；

完成训练后，得到已训练的神经网络模型。

8.一种单交叉口信号灯控制装置，其特征在于，包括：

9.一种终端，其特征在于，所述终端包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的单交叉口信号灯控制程序，所述处理器执行所述单交叉口信号灯控制程序时，实现如权利要求1-7任一项所述的单交叉口信号灯控制方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有单交叉口信号灯控制程序，所述单交叉口信号灯控制程序被处理器执行时，实现如权利要求1-7任一项所述的单交叉口信号灯控制方法的步骤。