CN116631203A

CN116631203A - 结合交通流预测与强化学习的自适应交通信号控制方法

Info

Publication number: CN116631203A
Application number: CN202310452873.5A
Authority: CN
Inventors: 皮家甜; 杨新民; 吴昌质
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-08-22

Abstract

本发明公开了结合交通流预测与强化学习的自适应交通信号控制方法，涉及交通信号控制技术领域，其技术方案要点是：具体包括以下步骤：S1：获取路口进口和出口车辆的数量和速度信息，并基于获取的信息预测未来一段时间内交通流的变化趋势；S2：根据交通流预测结果和实时交通信息，确定当前时刻的最优放行相位；S3：根据交通流预测结果和交通信号现场检测数据，通过强化学习得到最优的相位绿灯时间；S4：交通信号控制设备根据信号方案自适应调节信号周期、绿灯时间和相位序列等参数，实现对平面交叉口交通信号的自适应控制。该方法通过对交通流的预测和对路口状态的表示，实现了交通信号控制的自适应。

Description

结合交通流预测与强化学习的自适应交通信号控制方法

技术领域

本发明涉及交通信号控制技术领域，更具体地说，它涉及结合交通流预测与强化学习的自适应交通信号控制方法。

背景技术

交通拥堵是城市化进程中的一个普遍问题，解决这一问题是交通运输领域的重点研究方向之一。传统的交通信号控制方法通常是按照固定的时间间隔进行，缺乏对路口实时状态的反馈和调整，因此往往不能适应实际交通流量变化，造成交通拥堵。

近年来，随着智能交通技术的快速发展，交通信号控制技术也得到了很大的改进。目前已有一些自适应交通信号控制方法被提出，这些方法可以根据实时交通流量变化，调整信号周期长度，达到优化信号控制的效果。然而，这些方法往往只是简单地根据车辆流量来调整信号周期长度，缺乏对路口实时状态的准确反馈和预测，因此控制效果并不理想。因此，研究如何精准预测平面交叉口的短时交通流，以提高交叉口通行能力，缓解城市交通拥堵，是当前热门研究课题。

短期交通流量预测时间一般不超过15分钟。目前，基于模型、人工智能和数据的方法主要用于交通流量的短期预测。其中，张一鸣等人采用改进的灰狼优化算法对BP神经网络的权值和阈值进行优化，以提高预测精度和模型稳定性。田宝辉等人提出了基于时空分析的短期交通预测模型，并在长春市局部路网进行了试验。Chen Xiqun等人使用图卷积网络模型来预测短期交通流量，并使用来自大规模城市道路网络的真实浮动车辆数据对该模型进行了测试。Howe KZ等人使用模糊逻辑分析对ARIMA模型和WNN模型进行加权，以预测交通流量并获得更准确的预测值。钟颖等基于极限梯度爬升算法，分别建立了目标路段的时间序列预测模型和时空序列预测模型，预测了该路段未来的平均出行时间。然而，现有的研究主要集中在通过改进预测模型来提高预测的准确性和效率，而对微交通流的时变特性研究不足。因此，通过深层次研究交通大数据的特征，考察平交道口交通流分布，做出准确的短期交通流预测，可以更好地了解微观交通流的时变特征。从而提高预测模型的准确性和可靠性。

发明内容

本发明的目的是提供结合交通流预测与强化学习的自适应交通信号控制方法，该方法通过对交通流的预测和对路口状态的表示，实现了交通信号控制的自适应。

本发明的上述技术目的是通过以下技术方案得以实现的：结合交通流预测与强化学习的自适应交通信号控制方法，具体包括以下步骤：

S1：获取路口进口和出口车辆的数量和速度信息，并基于获取的信息预测未来一段时间内交通流的变化趋势；

S2：根据交通流预测结果和实时交通信息，确定当前时刻的最优放行相位；

S3：根据交通流预测结果和交通信号现场检测数据，通过强化学习得到最优的相位绿灯时间；

S4：交通信号控制设备根据信号方案自适应调节信号周期、绿灯时间和相位序列等参数，实现对平面交叉口交通信号的自适应控制。

进一步的：所述S1中预测未来一段时间内的交通流变化趋势是采用XGBoost机器学习算法，其目标函数是：

进一步的：所述S2中确定最优放行相位采用改进后的MP算法计算，即：

p(s)＝p(s)_real+p(s)_predict

其中，

p(s)_real＝p(l,m)+p(k,v)+γ*time_waiting

选择相位压力最大的相位作为放行相位。

进一步的：所述S3的具体步骤是：

S3-1：对交叉口进道口进行离散化建模；

S3-2：设计相位动作空间；

S3-3：使用负的交集队列长度作为奖励，其中奖励函数为：

综上所述，本发明具有以下有益效果：

1、通过在自适应控制系统中嵌入预测模型，可以更准确地预测交通趋势变化，优化红绿灯控制方案，提高路口通行能力，减少交通拥堵，缓解城市交通负荷；

2、本发明提供的自适应交通信号控制系统具有更高的智能化和适应性，不仅可以准确控制预测交通流量，还可以根据实时交通流量变化调整信号控制策略，实现最大化优化。改善路口交通状况，提高路口通行效率；

3、本发明采用的基于机器学习的交通预测模型具有更高的预测精度和可靠性，不受交通波动和季节变化等因素的影响，能够更准确地反映路口交通变化趋势。从而实现更高效的信号控制；

4、本发明还提供了一种方便高效的交通预测方法，可以通过历史交通数据的学习和学习，快速生成准确的交通预测结果，避免了人工调参的需要；模型的不足改进了预测。效率和准确性；

5、本发明提供的相位持续时间不是固定的，可以随着不同的交通状态而动态变化；

6、本发明提供的自适应交通信号控制系统及方法，能够有效减少城市交通拥堵，提高十字路口通行效率，减少交通事故，具有广阔的应用前景和社会价值。

附图说明

图1是本发明实施例中交通信号控制系统结构示意图；

图2是本发明实施例中交通信号控制方法整体框架图；

图3是本发明实施例中通过XGBoost算法所得到的部分预测结果图；

图4是本发明实施例中交叉口进口道进行离散化建模图；

图5是本发明实施例中每个元胞所能容纳的最大车辆数的示意图；

图6是本发明实施例中12*10*2的交通状态矩阵示意图；

图7是本发明实施例中相位空间信号灯动作空间表示的示意图。

具体实施方式

以下结合附图1-7对本发明作进一步详细说明。

实施例：结合交通流预测与强化学习的自适应交通信号控制方法，具体包括以下步骤：

S1：通过视频监控设备获取路口进口和出口车辆的数量和速度信息，基于获取的信息，预测未来一段时间内交通流的变化趋势；其中S1采用XGBoost机器学习算法，目标函数由损失函数和正则化项两部分组成，将车流量记为y_i，时间序列记为x_i，设训练集为T＝{(x₁,y₁),(x₂,y₂),...(x_n,y_n)}，损失函数正则化项Ω(f_k)，则整体目标函数可记为

其中，是线性空间上的表达，i是第i个样本，k是第k棵树，/>是第i个样本x_i的预测值。

用GBDT梯度提升树表达方式XGBoost，由于：

则转化成如下形式：

接下来对XGBoost目标函数进行优化，分为三个阶段：

第一步：二阶泰勒展开，去除常数项，优化损失函数项；

第二步：正则化项展开，去除常数项，优化正则化项；

第三步：合并一次项系数、二次项系数，得到最终目标函数。

XGBoost的目标函数解：

构建形如一元二次方程形式，求最优值。

已知XGBoost的目标函数：

则每个叶子节点j的目标函数是：

其是一个w_j的一元二次函数。

(H_j+λ)>0，则f(w_j)在处取得最小值，最小值为/>

目标值Obj最小，则树结构最好，此时即是目标函数的最优解。由车道上的检测器采集到16列时序数据，输入XGBoost算法，用网格搜索进行调参，最后得到预测结果，部分结果如图3所示。可以观察到平均绝对误差大多数都在1辆车以内，是比较理想的预测结果。

S2：根据交通流预测结果和实时交通信息，确定当前时刻的最优放行相位。

S2中采用改进后的MP算法进行实时相位压力计算。(l,m)表示进入车道l和退出车道m的交通移动，常包含多个车道。用p(l,m)表示进入车道l的车道压力，则

如果相位S包括交通移动(l,m)和(k,v),则相位S的实时相位压力表示为：

p(s)_real＝p(l,m)+p(k,v)+γ*time_waiting

其中，time_waiting为相位等待时间，γ为折扣系数，表示等待时间越长的相位更应该获得绿灯通行权。

然后将交通流预测信息与实时车流检测信息融合。记车道的预测车辆为p(s)_predict，则相位压力为：

p(s)＝p(s)_real+p(s)_predict

最终选择相位压力最大的相位作为放行相位。

S3：根据交通流预测结果和交通信号现场检测数据，通过强化学习得到最优的相位绿灯时间。

其中，S3决定了相位的放行时间，采用强化学习的方式在预设的放行时间表中进行最优方案选择，时间表如[10,15,20,25,30,35,40,45]，具体步骤为：

S3-1：状态空间

受近年来较为流行的DTSE技术启发，同样对交叉口进口道进行离散化建模，具体的建模方式如图4所示。假设交叉口的西进口车道长为350m，被不规则划分为10个元胞，每个元胞即表示一个包含车辆位置信息和车辆速度信息的二维向量{P,V}，并将所有元胞进一步构成位置矩阵和速度矩阵来描述交通状态。对于位置矩阵，记每个元胞最大可容纳车辆数为N_max，实际车辆数为N_r，则每个元胞的位置信息值为N_r/N_max；对于速度矩阵，记每个元胞内车辆的平均速度为V_avg，道路最大限速为V_max，则每个元胞的速度信息值为V_avg/V_max。

假定车辆长度为5m，车辆间最小间距为2m，如图5所示进道口，每个元胞所能容纳的最大车辆数依次为(17,11,8,4,3,2,1,1,1,1)。计算可得元胞位置信息如表1所示。

表1元胞位置信息表

0	0	0.38	0	0.33	0	1	0	0	1
										0.24	0	0	0.25	0	0	0	0	1	1
0	0.18	0	0	0	0.50	0	1	0	0

同理可得元胞速度信息如表2所示。

表2元胞速度信息表

0	0	0.83	0	0.58	0	0.37	0	0	0.17
										0.95	0	0	0.67	0	0	0	0	0.25	0.13
0	0.88	0	0	0	0.48	0	0.30	0	0

最后将交叉口四个进道口的车辆位置信息和车流速度信息拼接构成如图6的维度为12*10*2的交通状态矩阵作为强化学习网络的输入。值得说明的是，相较于直接将交叉口图像信息作为输入或规则化的元胞结构，这种不规则元胞划分方式能够显著压缩数据维度，减少冗余信息，进而提高训练速度。

S3-2：动作空间

信号灯动作空间的灵活性对模型性能有着明显影响。本实施例的相位动作空间设计主要考虑两种情况。第一，信号相位以车道转向和不冲突为前提进行两两组合，基于实时交通流信息，信号灯可以跳转到任意一个绿灯相位，同时右转方向设置为常绿状态，动作空间可以表示为图7(c)(d)两种常见相位组合。第二，信号相位不固定，以车流方向不冲突进行实时组合。其次，根据实时交通流量对相位的绿灯持续时间进行动态调整。

S3-3：奖励函数

使用负的交集队列长度作为奖励，在此过程中的奖励函数可以定义为公式：

本实施例中采用的交通信号控制系统如图1所示，包括路口视频监控设备、数据预处理模块、交通流预测模块、状态表示模块、信控方案生成与通信模块和交通信号控制设备，视频监控设备用于获取路口进口测量的数量、位置和速度信息，交通流预测模块用于基于获取的信息预测未来一段时间内交通流的变化趋势，状态表示模块根据视频监控设备采集的实时车流信息进行交通特征参数提取，信控方案生成与通信模块用于根据交通流预测和视频监控结果确定当前时刻的最优信号控制方案，并向交通信号控制设备发送调整信号方案的命令。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.结合交通流预测与强化学习的自适应交通信号控制方法，其特征是：具体包括以下步骤：

2.根据权利要求1所述的结合交通流预测与强化学习的自适应交通信号控制方法，其特征是：所述S1中预测未来一段时间内的交通流变化趋势是采用XGBoost机器学习算法，其目标函数是：

3.根据权利要求1所述的结合交通流预测与强化学习的自适应交通信号控制方法，其特征是：所述S2中确定最优放行相位采用改进后的MP算法计算，即：

p(s)＝p(s)_real+p(s)_predict

其中，

p(s)_real＝p(l,m)+p(k,v)+γ*time_waiting

选择相位压力最大的相位作为放行相位。

4.根据权利要求1所述的结合交通流预测与强化学习的自适应交通信号控制方法，其特征是：所述S3的具体步骤是：

S3-1：对交叉口进道口进行离散化建模；

S3-2：设计相位动作空间；

S3-3：使用负的交集队列长度作为奖励，其中奖励函数为：