CN115578870A

CN115578870A - 一种基于近端策略优化的交通信号控制方法

Info

Publication number: CN115578870A
Application number: CN202211209590.XA
Authority: CN
Inventors: 曹旭东; 石琴
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-06
Anticipated expiration: 2042-09-30
Also published as: CN115578870B

Abstract

本发明公开了一种基于近端策略优化的交通信号控制方法，包括：1建立经验存储集合，包括交叉口信号相位数据和交通流状态数据；2构建基于LSTM神经网络的信号策略网络Actor和信号价值网络Critic；3以经验存储集合中第n回合下t时刻的样本{S_n,t,a_n,t,r_n,t,S_n,t+1}作为输入训练信号策略网络Actor和信号价值网络Critic；4将当前回合数n+1赋值给n，循环执行上述步骤，直到n＝N，保存信号策略网络Actor的模型参数，用于真实场景中输出不同交通状态下的信号相位。本发明能能使得交通信号控制能够根据交通状态变化自动进行调整，从而能提高交叉口的通行效率。

Description

一种基于近端策略优化的交通信号控制方法

技术领域

本发明属于智能交通信号控制技术领域，具体的说是一种基于近端策略优化的交通信号控制方法。

背景技术

在城市机动车水平快速提升的今天，交通拥堵已经成为世界各大城市面临的严重问题。城市道路有限增长与汽车保有量无限增长之间的矛盾导致交通问题日益严重，特别是以小汽车为主导的大中城市正在面临严峻的交通拥堵问题。而交通信号控制，在道路资源有限、不易扩容的情况下，可以通过调动交通系统的时空资源，平衡交通压力，保证交通系统运行的安全和稳定，成为城市交通系统管控的重要手段之一。

然而，居民出行方式以及城市交通网络复杂度的快速变化，经典的信号控制方式逐渐显露出了一些问题，控制效果也渐渐达到了瓶颈阶段。首先，固定信号配时方案是基于交通流的短期时不变假设，根据历史的平均流量数据计算得到的，虽然计算简单便于实际使用，但是由于缺少交通流的实时监测数据，因此该方案并不能根据交通流的实时变化而做出调整。其次，感应控制方案仅对车辆的到达状态进行检测，虽然能一定程度响应交通流的变化，但是并没有对交通流的变化趋势进行判断，因此无法从整体上分析各方向的交通需求，很难保证车均延误的降低，并且当面对稀疏交通流状态时，控制效果往往较差。最后，自适应控制方式需要预设较多系统参数，如车辆启动延误，车辆安全距离等，这些参数不仅需要大量的现场测试和人工调整，耗时费力且普适性低。同时，对于非均质交通流的控制效果并不理想。因为交通信号控制的最优解没有固定的范式，在交通状态不断变化的条件下最优策略也随之改变，所以按照人类的经验很难定义最优控制策略。因此，以深度强化学习的方式完成信号控制自动调整成为研究的热点。然而现有基于强化学习的信号控制方法存在交通流动态时序特征难以有效抽取和利用，样本的差异度难以有效辐射到参数梯度变化因而模型收敛速度慢、实时性差等问题。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于近端策略优化的交通信号控制方法，以期能够根据不同的交叉口交通运行状态，主动抽取交通流时序特征，实现信号控制策略的自适应调整以及系统的自学习、自迭代，从而能解决交叉口信号控制难以动态调整的问题，并提高交叉口运行效率。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于近端策略优化的交通信号控制方法的特点是按如下步骤进行：

步骤1：建立交叉口仿真环境模型；

步骤2：收集真实场景中的交叉口信号相位数据和交通流状态数据作为原始数据，所述信号相位数据为信号控制机输出的信号相位、相序及相位持续时间数据，所述交通流状态数据为交叉口各进口道的交通状态数据；

步骤3：定义当前的回合数为n，定义信号相位集δ＝{δ₀,δ₁,...,δ_m}，δ_m表示第m个信号相位，定义第n回合下t时刻的信号相位概率分布集P_n,t＝{p_n,t,0,p_n,t,1,...,p_n,t,m}，p_n,t,m表示第n回合下t时刻的第m个信号相位δ_m的概率输出值，定义第n回合下信号相位策略集a_n＝{a_n,0,a_n,1,...,a_n,t,...,a_n,T}，a_n,0表示第n回合下初始时刻的信号相位，a_n,t表示第n回合下t时刻的信号相位，a_n,t∈δ，T表示所设置信号控制的终止时刻，t＝0,1,…,T；

定义第n回合交通状态集s_n＝{s_n,0,s_n,1,...,s_n,t,...,s_n,T}，s_n,0表示第n回合下交叉口初始时刻的交通状态，s_n,t表示第n回合下交叉口t时刻执行t-1时刻的信号控制相位a_n,t-1后的交通状态，并有

表示第n回合下t时刻第k个交通指标值；

定义第n回合下t时刻的状态输入集S_n,t＝{s_n,t,s_n,t-1,...,s_n,t-l}，0≤l≤t；

定义第n回合下奖励集r_n＝{r_n,0,r_n,1,…,r_n,t,…r_n,T}，r_n,t表示第n回合下t时刻的奖励；

步骤4：构建基于LSTM神经网络的信号策略网络Actor和信号价值网络Critic，其中，所述LSTM神经网络的结构包括：输入层，卷积层，LSTM层，全连接层，输出层；其中，所述卷积层包括：归一化层、卷积操作层、ReLU激活函数层；

所述信号策略网络Actor包含两个结构一致，但参数不同的Actor-New信号策略网络和Actor-Old信号策略网络；定义Actor-New信号策略网络的参数为π_θ，Actor-Old信号策略网络的参数为π_θ'，Critic信号价值网络的参数为π_v；

步骤5：定义网络参数更新频率为α，最大回合数为N，初始化n＝0；

建立经验存储集合D并初始化为空集；

步骤6：定义时刻t并初始化t＝0；

步骤7：所述Actor-New信号策略网络基于第n回合下t时刻的状态输入集S_n,t计算得到第n回合下t时刻的信号相位概率分布P_n,t，并采用ε-greedy算法对信号相位概率分布P_n,t进行采样后得到第n回合下t时刻的信号相位a_n,t；

步骤8：所述交叉口仿真环境模型执行第n回合下t时刻的信号相位a_n,t并得到第n回合下t+1时刻的交通状态s_n,t+1以及t时刻的奖励r_n,t；从而由第n回合下t+1时刻的交通状态s_n,t+1得到第n回合下t+1时刻的状态输入集S_n,t+1；

将所述第n回合下t时刻的状态输入集S_n,t、信号相位a_n,t和奖励r_n,t作为第n回合下t时刻的样本{S_n,t,a_n,t,r_n,t,S_n,t+1}放入至经验存储集合D中；

步骤9：判断t＝T是否成立，若成立，则执行步骤10；否则，t+1赋值给t，并返回步骤步骤7顺序执行；

步骤10：所述Critic信号价值网络基于第n回合下T时刻输入的状态输入集S_n,T计算得到第n回合下T时刻的奖励估计值

然后设置未来折现因子γ，并利用式(1)将奖励值

按照时间维度倒序折减后，得到第n回合下t时刻的折扣奖励R_n,t：

式(1)中，r_n,t′为第n回合下t′时刻得到的奖励值，当t′＝T时，令

0＜γ≤1；

步骤11：将经验存储集合D中第n回合下所有时刻的状态输入集合输入到Critic信号价值网络中，得到第n回合下所有状态的奖励估计值，然后利用式(2)计算Actor-New信号策略网络在第n回合下t时刻的优势函数A^θ(S_n,t,a_n,t)，并作为状态输入集S_n,t下选择信号相位a_n,t的最终的奖励值：

步骤12：利用式(3)计算Critic信号价值网络的损失函数c_loss，然后利用误差反向传播法更新Critic信号价值网络的参数π_v；

步骤13：将经验存储集合D中第n回合下所有时刻的状态输入集分别输入Actor-Old信号策略网络和Actor-New信号策略网络，得到第n回合下每个信号相位在两个网络中对应的动作概率，并相应构成第n回合下动作概率集合prob_n,Old和prob_n,New，从而利用式(4)得到第n回合下重要性采样权重ratio_n：

步骤14：利用式(5)计算Actor_New信号策略网络的损失函数a_loss，然后利用误差反向传播法更新Actor_New信号策略网络的参数π_θ：

式(5)中，E表示期望，clip(·)表示裁剪操作，ε表示裁剪系数，A^θ′(S_n,t,a_n,t)表示Actor-Old信号策略网络在第n回合下t时刻的优势函数，β表示范围控制的动态调整参数，并由式(6)得到，σ_β表示控制阈值，且σ_β＞0；

步骤15：判断n＝N是否成立，若成立，则将π_θ赋值给π_θ'，并保存模型参数π_θ，从而完成Actor信号策略网络和Critic信号价值网络的训练；在实际信号控制中，基于参数π_θ的Actor信号策略网络根据交叉口交通状态输入，计算得到输出相应的信号相位；否则，n+1赋值给n，并返回步骤6顺序执行。

本发明一种电子设备，包括存储器以及处理器，其特点在于，所述存储器用于存储支持处理器执行所述交通信号控制方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特点在于，所述计算机程序被处理器运行时执行所述交通信号控制方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、本发明通过采用融合长短时记忆神经网络和近端策略优化算法，解决了交通流时序依赖特征的抽取以及信号相位选择空间与交通特征间的非线性映射问题，通过策略梯度动态范围调整，提高了模型的收敛速度，实现了信号控制算法的自适应迭代训练，大量减少了参数标定和人工调整的过程，从而在实际应用中节约了服务器的算力投入，使得交叉口能够根据交通状态自主动态调整信号相位策略而不需要人工干预，提高了交叉口的交通运行效率和维护成本。

2、本发明采用基于特征的值向量表示方法描述交通状态，克服了以往基于图像的离散流量状态编码方式需进行二次编码所带来的转换耗时以及图像的时序特征丢失等问题，从而保留了交通数据原始特征，且本发明基于现有部署的视频监控设备，实际可操作性强。

3、本发明提出一种动态范围调整的自适应近端策略优化算法，通过加入范围控制的动态调整参数，克服了静态范围控制下梯度更新速度较慢的问题，提高了信号策略空间的探索幅度，提升了模型的收敛速度，从而节省了交叉口信号控制系统的分析决策时间，能够对道路交通流变化迅速作出反应，使得交叉口信号控制的实际应变能力增强。

附图说明

图1为本发明基于近端策略优化的交通信号控制方法的流程图。

具体实施方式

本实施例中，一种基于近端策略优化的交通信号控制方法，是结合LSTM神经网络以及近端策略优化的强化学习控制法来完成交叉口交通信号的自动控制，如图1所示，具体按如下步骤进行：

步骤1：建立交叉口仿真环境模型，本实施例中，采用OpenStreetMap工具抽取实际道路电子地图，并将地图导入SUMO仿真软件搭建信号控制交叉口基础环境；

步骤2：收集真实场景中的交叉口信号相位数据和交通流状态数据作为原始数据，信号相位数据为信号控制机输出的信号相位、相序及相位持续时间数据，交通流状态数据为交叉口各进口道的交通状态数据，本实施例中，采用iDS-2VS435-F832/T3-海康威视摄像机并结合YOLOv4算法，采集交叉口各进口道方向各条车道的交通状态数据，包括交通量、车辆平均速度、平均排队长度、平均停车等待时间、车道占有率；

步骤3：定义当前的回合数为n，定义信号相位集δ＝{δ₀,δ₁,...,δ_m}，δ_m表示第m个信号相位，定义第n回合下t时刻的信号相位概率分布集P_n,t＝{p_n,t,0,p_n,t,1,…,p_n,t,m}，p_n,t,m表示第n回合下t时刻的第m个信号相位δ_m的概率输出值，定义第n回合下信号相位策略集a_n＝{a_n,0,a_n,1,...,a_n,t,...,a_n,T}，a_n,0表示第n回合下初始时刻的信号相位，a_n,t表示第n回合下t时刻的信号相位，a_n,t∈δ，T表示所设置信号控制的终止时刻，t＝0,1,…,T，本实施例中，信号相位集设为8个，分别为南北方向直行、东西方向直行、南北方向左转、东西方向左转、东方向直行和左转、西方向直行和左转、南方向直行和左转、北方向直行和左转；

表示第n回合下t时刻第k个交通指标值，本实施例中，采用标准四叉路口，每个进口分为左、直、右三个车道方向，交叉口的交通状态采用交通量、车辆平均速度、平均排队长度、平均停车等待时间、车道占有率5个交通指标作为交通状态的特征表示，即交叉口的交通状态用4×3×5的向量进行表示；

定义第n回合下t时刻的状态输入集S_n,t＝{s_n,t,s_n,t-1,...,s_n,t-l}，0≤l≤t，本实施例中，采用历史5分钟的交通状态组成状态输入集；

定义第n回合下奖励集r_n＝{r_n,0,r_n,1,…,r_n,t,…r_n,T}，r_n,t表示第n回合下t时刻的奖励，本实施例中，奖励设定为平均车速；

步骤4：构建基于LSTM神经网络的信号策略网络Actor和信号价值网络Critic，其中，LSTM神经网络的结构包括：输入层，卷积层，LSTM层，全连接层，输出层；其中，卷积层包括：归一化层、卷积操作层、ReLU激活函数层，本实施例中的卷积层，包括归一化、卷积、ReLU激活函数，卷积核的个数为64个，LSTM层的LSTM细胞单元个数为64个，全连接层的单元个数为200个，输出层采用sigmoid激活函数，信号策略网络Actor该层的单元个数为8个，信号价值网络Critic该层的单元个数为1个；

信号策略网络Actor包含两个结构一致，但参数不同的Actor-New信号策略网络和Actor-Old信号策略网络，本实施例中的Actor-New信号策略网络用于交叉口信号控制并根据奖励反馈不断更新神经网络参数，Actor-Old信号策略网络用于保存历史信号策略网络参数，并定期更新至最新的Actor-New信号策略网络参数，通过对比两个信号策略网络参数，可以观察并控制参数梯度变化幅度；定义Actor-New信号策略网络的参数为π_θ，Actor-Old信号策略网络的参数为π_θ'，Critic信号价值网络的参数为π_v；

建立经验存储集合D并初始化为空集；

步骤6：定义时刻t并初始化t＝0；

步骤7：Actor-New信号策略网络基于第n回合下t时刻的状态输入集S_n,t计算得到第n回合下t时刻的信号相位概率分布P_n,t，并采用ε-greedy算法对信号相位概率分布P_n,t进行采样后得到第n回合下t时刻的信号相位a_n,t，本实施例中，ε-greedy的系数设置为0.1，即90％的概率选择概率分布中最大值对应的信号相位；

步骤8：交叉口仿真环境模型执行第n回合下t时刻的信号相位a_n,t并得到第n回合下t+1时刻的交通状态s_n,t+1以及t时刻的奖励r_n,t；从而由第n回合下t+1时刻的交通状态s_n,t+1得到第n回合下t+1时刻的状态输入集S_n,t+1；

将第n回合下t时刻的状态输入集S_n,t、信号相位a_n,t和奖励r_n,t作为第n回合下t时刻的样本{S_n,t,a_n,t,r_n,t,S_n,t+1}放入至经验存储集合D中；

步骤10：Critic信号价值网络基于第n回合下T时刻输入的状态输入集S_n,T计算得到第n回合下T时刻的奖励估计值

然后设置未来折现因子γ，并利用式(1)将奖励值

0＜γ≤1，本实施例中，未来折现因子γ取值为0.9；

本实施例中，通过计算重要性采样权重可以得到Actor-Old信号策略网络和Actor-New信号策略网络输出的概率分布变化，用于判断两个信号策略网络参数梯度的变化幅度；

本实施例中，ε裁剪系数取值为0.2，σ_β控制阈值取值为0.1，通过将重要性采样权重与优势函数相乘并进行梯度裁剪作为Actor_New信号策略网络的参数更新函数，使得具有更高平均奖励期望的信号相位选择概率得到增大，并且本实施例中采用动态调整参数β，能够随着奖励期望的值动态调整梯度变化幅度，从而加快信号策略网络参数的收敛；

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行该交通信号控制方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行该交通信号控制方法的步骤。