CN114419884B

CN114419884B - 基于强化学习和相位竞争的自适应信号控制方法及系统

Info

Publication number: CN114419884B
Application number: CN202210031174.9A
Authority: CN
Inventors: 胡坚明; 吴智楷; 彭黎辉; 裴欣
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2023-04-07
Anticipated expiration: 2042-01-12
Also published as: CN114419884A

Abstract

本发明涉及一种基于强化学习和相位竞争的自适应信号控制方法及系统，其包括：与仿真环境交互得到交叉口状态，利用策略网络π_θ的输出得到决策，在决策后收集奖励和下一时刻的状态，得到样本仿真轨迹；基于仿真轨迹，对PPO网络进行训练和参数更新，重复若干轮直至收敛。收敛后模型能基于交通流量的实时状态进行信号调整控制信号。本发明在保证信号控制的效果同时，能够适用于不同交叉口。本发明可以广泛在城市交通信号控制领域中应用。

Description

基于强化学习和相位竞争的自适应信号控制方法及系统

技术领域

本发明涉及一种城市交通信号控制领域，特别是关于一种基于深度强化学习和相位竞争的自适应信号控制方法及系统。

背景技术

21世纪以来，随着我国经济水平的飞速发展，居民的生活水平得到了极大的提高。因此，如何合理有效的提升交通出行效率，从而缓解交通拥堵问题是近年来政府部门关注的重点。而交叉口一直是造成交通拥堵的主要原因，因此通过对其信号配时的优化来缓解交通拥堵问题也成为了近些年来的一个研究热点。

传统的信号控制方法，大多都是基于交通工程学领域的知识进行建模和优化，如Webster、GreenWave、SCATS、SCOOT等方法。但这些方法多数都是事先制定好一套或者若干套信号配时方案，面对不同的交叉口结构和车流分布时很难面面俱到。而近年来与博弈论、智能优化算法相结合的信号控制算法也面临着需要较多先验知识、难以实时进行控制、不适于大规模路网等问题。

而近些年来深度强化学习的发展为信号控制问题提供了一种新的解决手段。这些方法首先通过智能交通系统布设的传感器等设备来获取交叉口的实时状态，并根据状态做出实时的决策。而由于深度强化学习数据驱动、无需先验知识、在线实时控制的特点，其在信号控制问题上取得了很好的效果。但是，目前大多数基于深度强化学习的模型具有两个缺点：1.泛化性较差。在一个车流数据下训练得到的模型在另一个车流数据下的控制效果很可能大打折扣。2.目前的大多数模型把所有的状态进行拼接为向量后直接输入，但这样做使得当交叉口的拓扑结构或者相位设置发生改变后，由于向量维度的改变导致模型不再适用。

发明内容

针对上述问题，本发明的目的是提供一种基于深度强化学习和相位竞争的自适应信号控制方法及系统，在保证信号控制的效果同时，能够适用于不同交叉口。

为实现上述目的，本发明采取以下技术方案：一种基于强化学习和相位竞争的自适应信号控制方法，其包括：与仿真环境交互得到交叉口状态，利用策略网络π_θ的输出得到决策，在决策后收集奖励和下一时刻的状态，得到样本仿真轨迹；基于仿真轨迹，对PPO网络进行训练和参数更新，重复若干轮直至收敛，收敛后模型基于交通流量的实时状态进行信号调整控制信号。

进一步，所述样本仿真轨迹的获取方法包括：

定义交叉口的状态空间，通过获取交叉口的实时统计量组成状态，包括车道的车辆数目，车道的车辆延迟和当前时刻的相位以及当前时刻的相位时间；

将获取得到交叉口的状态作为策略网络π_θ的输入，得到动作的输出；动作的输出为下一时刻的相位，根据被选中的相位确定当前相位的状态；

在得到动作后，在仿真系统中执行该动作，并计算奖励r和下一时刻的状态；

根据相位的需求分数、动作和奖励得到当前时刻的样本轨迹向量，由仿真时段内的所有时刻的样本轨迹向量构成完成的样本仿真轨迹。

进一步，所述根据被选中的相位确定当前相位的状态，包括：

被选中的相位执行t_min的时间直到下一次时间间隔，如果选中的相位与当前相位相同，则直接将当前相位延长t_min；如果不同，则相位切换之间会有预先设定时长的红灯时间，保证安全。

进一步，所述将获取得到交叉口的状态作为策略网络π_θ的输入，得到动作的输出，包括：

将获取得到交叉口的状态分为状态统计量、当前相位和当前相位时间三部分特征；

所述状态统计量的输入维度为[batch_size,车道数目,2]，在最后一个维度用全连接层的方式进行状态提取，输出维度为4的神经元d_i，将每个相位对应的车道的输出相加，得到相位的特征d_p；

对于当前相位和当前相位时间两个特征，将其映射为4维的相位向量f_p和时间向量t_p，一个相位的特征为三部分特征的拼接，其维度为12，维输出维度为[batch_size,相位数目,12]的相位特征向量；

定义相位收益向量和相位损失向量确定相位的需求分数，将需求分数的相位向量通过softmax层得到最后每个相位的选择概率，策略网络π_θ根据各个相位的概率来采样选择下一时刻的动作。

进一步，所述相位的需求分数为选择该相位的收益加上不选择其他相位的损失。

进一步，所述对PPO网络进行训练和参数更新，包括：

利用状态网络估计状态价值values和GAE优势函数advantages，计算累计回报的估计值；

训练时，从当前的样本轨迹中抽取轨迹记录和对应的累计回报的估计值，利用累计回报的估计值进行参数更新。

进一步，参数更新的目标函数为：

其中，

式中，H(s,π_θ)是分布的熵，returns是累计回报的估计值，

是基于GAE方法计算得到的优势函数，ε是容忍策略更新的阈值，π_θ(a|s)和

是表示更新前后的策略网络参数。

一种基于强化学习和相位竞争的自适应信号控制系统，其包括：轨迹获取模块，与仿真环境交互得到交叉口状态，利用策略网络π_θ的输出得到决策，在决策后收集奖励和下一时刻的状态，得到样本仿真轨迹；训练更新模块，基于仿真轨迹，对PPO网络进行训练和参数更新，重复若干轮直至收敛，输出基于交通流量的实时状态进行信号调整控制信号。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

一种计算设备，其包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明考虑了车道和相位之间的对应关系以及相位之间的竞争关系，在保证信号控制的效果同时，能够适用于不同交叉口。

2、本发明收敛性和控制效果好。通过有效的状态表示方法，减少了强化学习的状态空间，有效的提升了模型的收敛性和最后的控制效果。

3、本发明泛化性能好。本发明不仅能够适用于不同的交叉口拓扑结构和相位设置，面对不同的车流也体现了较好的鲁棒性。

附图说明

图1是本发明一实施例中的基于强化学习和相位竞争的自适应信号控制方法示意图；

图2是本发明一实施例中的自适应信号控制系统中的状态表示示意图；

图3是本发明一实施例中的基于相位竞争的状态编码器(FRAP+)结构示意图；

图4是本发明一实施例中的整体网络结构示意图；

图5是本发明一实施例中的计算设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明提出一种基于强化学习和相位竞争的自适应信号控制方法及系统，实现对红绿灯信号的控制。本发明将基于深度强化学习的Proximal Policy Optimization(PPO)算法与基于相位竞争的状态编码器(FRAP+)相结合，将状态空间定义为交叉口中每个车道的车辆数目和车道延迟；动作空间则定义为下一时刻要执行的相位，被选中的相位将执行t_min的时间；奖励函数从两个部分考虑：一部分是衡量交叉口的拥堵状况的奖励函数r₁，用交叉口队列长度的负数表示；另一部分则表示当前相位的时间，保证模型能够维持相位时间处于合理的范围内。

在本发明的一个实施例中，提供一种基于深度强化学习和相位竞争的自适应信号控制方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，如图1所示，该方法包括以下步骤：

1)与仿真环境交互得到交叉口状态，利用策略网络π_θ的输出得到决策，在决策后收集奖励和下一时刻的状态，得到样本仿真轨迹；

2)基于仿真轨迹，对PPO网络进行训练和参数更新，重复若干轮直至收敛，收敛后模型基于交通流量的实时状态进行信号调整控制信号。

在本实施例中，执行步骤1)之前还包括对参数进行初始化的步骤。初始化包括了模型参数的初始化和仿真环境的初始化。模型参数初始化包括PPO的策略网络π_θ和价值网络Vω参数的随机初始化；仿真环境的初始化则是将环境时间重设为0，所有车辆恢复初始状态，并设定仿真时长和仿真的决策间隔时长。优选的，仿真时长为4000s，仿真的决策间隔为10s。

上述步骤1)中，样本仿真轨迹的获取方法包括以下步骤：

1.1)定义交叉口的状态空间，通过获取交叉口的实时统计量组成状态，包括车道的车辆数目，车道的车辆延迟和当前时刻的相位以及当前时刻的相位时间；状态的示意图如图2所示。

例如，假设交叉口有8个车道，图2中第一行表示各车道数目，本实施例对其做了归一化处理，归一化系数为50；第二行表示各车道的车道延迟，其定义如式(1)，其中v_i为车道上车辆的平均速度。当前相位则用一个one hot向量表示。

其中，d_i表示车道延迟，v_max表示车道的最高限速。

1.2)将获取得到交叉口的状态作为策略网络π_θ的输入，得到动作的输出；动作的输出为下一时刻的相位，根据被选中的相位确定当前相位的状态；

在本实施例中，采用的基于相位竞争的状态编码器(FRAP+)的结构如图3所示。

1.3)在得到动作后，在仿真系统中执行该动作，并计算奖励r和下一时刻的状态；

1.4)根据交叉口的状态、动作和奖励得到当前时刻的样本轨迹向量，由仿真时段内的所有时刻的样本轨迹向量构成完整的样本仿真轨迹。

上述步骤1.2)中，根据被选中的相位确定当前相位的状态，具体为：被选中的相位执行t_min的时间直到下一次时间间隔，如果选中的相位与当前相位相同，则直接将当前相位延长t_min；如果不同，则相位切换之间会有预先设定时长的红灯时间，保证安全。在本实施例中，优选的，t_min＝10s，t_min表示每个相位最小的执行时间。

上述步骤1.2)中，将获取得到交叉口的状态作为策略网络π_θ的输入，得到动作的输出，包括以下步骤：

1.2.1)将获取得到交叉口的状态分为状态统计量h_i、当前相位和当前相位时间三部分特征；

1.2.2)状态统计量的输入维度为[batch_size,车道数目,2]，batch_size表示每个训练批次的样本数量，在最后一个维度用全连接层的方式进行状态提取，输出维度为4的神经元d_i，将每个相位对应的车道的输出相加，得到相位的特征d_p；

其中，神经元d_i为：

d_i＝Leakey_ReLU(W₁h_i+B₁)

d_p＝d_i+d_j (2)

网络之间的连接权重都可以采用权重的矩阵W表示(W∈R^m×n),其中m表示前一层的神经元个数，n表示下一层的神经元个数：

且对于每一层的每一神经元均设置有偏置量bi，每一层的偏置量可以采用向量B表示(B∈R^K)，K表示当前层神经元的个数：

B＝[b₁…b_k] (4)

1.2.3)对于当前相位和当前相位时间两个特征，将其映射为4维的相位向量f_p和时间向量t_p，一个相位的特征为三部分特征的拼接，其维度为12，维输出维度为[batch_size,相位数目,12]的相位特征向量；

在本实施例中，由于当前相位和当前相位时间两个特征的取值必定为有范围的整数，采用自然语言处理中常用的方法，将其映射为4维的向量f_p和t_p。最终，一个相位的特征为上述三部分特征的拼接，其维度为12维。故此时的输出维度为[batch_size,相位数目,12]的相位特征向量p：

p＝Concat(d_p,f_p,t_p) (5)

1.2.4)定义相位收益向量和相位损失向量确定相位的需求分数，将需求分数的相位向量通过softmax层得到最后每个相位的选择概率，策略网络π_θ根据各个相位的概率来采样选择下一时刻的动作。

在本实施例中，相位收益向量g和相位损失向量l的得到是将上一步的相位特征向量p通过两个不同的编码器得到的。每个编码器有3层，每一层的维度为10维，10维和1维，非线性激活函数为Leakey_ReLU。

一个相位的需求分数s_i为选择该相位的收益加上不选择其他相位的损失，如式(6)：

其中，i表示当前相位，j表示除了当前相位外的其他相位，n表示相位数量。

此外，类似于多头注意力机制，本实施例还设计了一个多头编码器的机制来提取相位在不同方面的需求。则多头编码器下的相位需求分数为：

MultiHead(s,a)＝ W [Head₁(s,a),Head₂(s,a),..,Head_n(s,a)]+b (7)

其中，Head_n(s,a)表示第n个编码器输出的结果。

在得到所有相位的需求分数后，将需求分数的向量s通过softmax层得到最后每个相位的选择概率。其中softmax的定义为：

其中，s_i表示需求分数，n表示相位数目。整体的网络结构如图4所示。

策略网络π_θ根据各个相位的概率来采样选择下一时刻的动作A。

上述步骤1.3)中，奖励r可以分为两个部分，平均队列长度r₁和相位持续时间r₂。平均队列长度r₁参考大部分文献，为各个车道队列长度的平均值乘上一个缩放因子，缩放因子取为0.02。相位持续时间的定义如式(9)，即当相位时间小于25s时，鼓励模型在适当的情况下延长相位；但若相位持续时间大于25s时，则鼓励模型切换相位。

r₂＝|current_phase_time-25| (9)

其中，current_phase_time表示当前相位的持续时间。

循环直至收集的轨迹满足长度要求为止。

上述步骤1.4)中，相位的需求分数为选择该相位的收益加上不选择其他相位的损失。

上述步骤2)中，对PPO网络进行训练和参数更新，包括以下步骤：

2.1)预处理：利用状态网络V_ω估计状态价值values，以及式(10)的GAE(Generalized Advantage Estimation)优势函数advantages，计算累计回报的估计值returns；

δ_t＝r_t+γV(s_t+1)-V(s_t)

其中，

表示基于GAE计算得到的优势函数值，V(s_t)表示当前时刻的状态价值，r_t表示t时刻的奖励，γ表示折扣因子，。

2.2)训练时，从当前的样本轨迹中抽取轨迹记录和对应的累计回报的估计值，利用累计回报的估计值进行参数更新。

其中，目标函数J(θ)为：

其中，

式中，H(s,π_θ)是分布的熵，returns是累计回报的估计值，，π_θ(a|s)和

表示更新前后的策略，，

表示期望，c₁和c₂是预先设定好的权重，，ε表示容忍策略更新的阈值。

其中，clip函数的定义如下：

H(s,π_θ)为：

其中，a,b分别表示截断的上下界，p(x)表示输入的概率分布。

综上，本发明基于深度强化学习的Proximal Policy Optimization(PPO)算法与基于相位竞争的状态编码器(FRAP+)相结合的方法。将状态空间定义为交叉口中每个车道的车辆数目和车道延迟；动作空间则定义为下一时刻要执行的相位，被选中的相位将执行t_min的时间；奖励函数从两个部分考虑：一部分是衡量交叉口的拥堵状况的奖励函数r1，用交叉口队列长度的负数表示；另一部分则表示当前相位的时间，保证模型能够维持相位时间处于合理的范围内。

实施例：

将训练后的本发明的效果与传统信号控制方法MaxPressure、普通状态表示下的强化学习方法DQN以及基线方法FRAP从平均旅行时间、平均等待时间、平均队列长度三个指标进行了比较。其中，FRAP是本发明的主要参考文献，本发明在其基础上进行了结构的优化。结果如表1所示。可以看出，本发明在三个指标上都达到了最优的控制效果。

表1.实验效果对比

对于泛化性能的测试，将在某一数据集上训练的模型直接在另外三个数据集上进行测试，测试结果的平均旅行时间如表2所示。可以看出，相比于基线方法FRAP，本发明在三个测试数据集上都取得了较低的平均旅行时间，这说明本发明的泛化性能是十分优秀的。其中，数据集3的道路是8车道的拓扑结构，而训练数据集是12车道的拓扑结构，这也说明了本发明可以适用于不同拓扑结构的交叉口。

表2.泛化性能比较

在本发明的一个实施例中，提供一种基于强化学习和相位竞争的自适应信号控制系统，其包括：

轨迹获取模块，与仿真环境交互得到交叉口状态，利用策略网络π_θ的输出得到决策，在决策后收集奖励和下一时刻的状态，得到样本仿真轨迹；

训练更新模块，基于仿真轨迹，对PPO网络进行训练和参数更新，重复若干轮直至收敛，收敛后，模型能够输出基于交通流量的实时状态进行信号调整控制信号。

本实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

如图5所示，为本发明一实施例中提供的计算设备结构示意图，该计算设备可以是终端，其可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中，处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序，该计算机程序被处理器执行时以实现一种控制方法；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏，该输入装置可以是显示屏上覆盖的触摸层，也可以是计算设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令，以执行如下方法：与仿真环境交互得到交叉口状态，利用策略网络π_θ的输出得到决策，在决策后收集奖励和下一时刻的状态，得到样本仿真轨迹；基于仿真轨迹，对PPO网络进行训练和参数更新，重复若干轮直至收敛，输出基于交通流量的实时状态进行信号调整控制信号。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算设备的限定，具体的计算设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的一个实施例中，提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：与仿真环境交互得到交叉口状态，利用策略网络π_θ的输出得到决策，在决策后收集奖励和下一时刻的状态，得到样本仿真轨迹；基于仿真轨迹，对PPO网络进行训练和参数更新，重复若干轮直至收敛，输出基于交通流量的实时状态进行信号调整控制信号。

在本发明的一个实施例中，提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法，例如包括：与仿真环境交互得到交叉口状态，利用策略网络π_θ的输出得到决策，在决策后收集奖励和下一时刻的状态，得到样本仿真轨迹；基于仿真轨迹，对PPO网络进行训练和参数更新，重复若干轮直至收敛，输出基于交通流量的实时状态进行信号调整控制信号。

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。