CN116994442A

CN116994442A - 一种基于cql离线强化学习的自适应交通信号控制方法

Info

Publication number: CN116994442A
Application number: CN202310886626.6A
Authority: CN
Inventors: 皮家甜; 杨新民; 吴昌质
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-11-03

Abstract

本发明公开了一种基于CQL离线强化学习的自适应交通信号控制方法，涉及交通信号控制技术领域，通过学习一个价值函数来实现强化学习；该价值函数表示在当前状态下，采取不同动作的长期回报期望值；即只使用已有的历史数据进行训练；它通过学习一个目标策略和一个行为策略的差异来实现离线学习；其中，目标策略是最终要求的最优策略，行为策略是在历史数据中采取的策略。在本算法中，通过最大化每个状态下的最大长期回报来学习最优策略。本算法加入了一个新的约束条件，使得目标策略在行为策略的分布范围内。这个约束条件能够保证学习出的目标策略在历史数据中出现的状态和动作上表现良好，同时也避免了学习过程中出现的过拟合问题。

Description

一种基于CQL离线强化学习的自适应交通信号控制方法

技术领域

本发明涉及交通信号控制技术领域，更具体地说，它涉及一种基于CQL离线强化学习的自适应交通信号控制方法。

背景技术

随着城市化进程的不断加快，交通拥堵问题日益突出。传统的交通信号控制方法无法满足城市交通的需求。因此，开发一种能够自适应调整信号时长的交通信号控制方法具有重要意义。

强化学习是近年来发展迅速的一种人工智能技术，在自适应交通信号控制领域的应用形式常表现为离线强化学习。一般思路为通过采集交通流量数据和交通信号灯状态数据，训练深度神经网络来直接学习和调整交通信号控制策略，并根据预测结果和实际数据调整信号灯的时长，以达到最优的交通控制效果。

离线强化学习的目的是利用从先前策略中收集的经验来进行样本学习，然而，在实践中，常用的基于价值和基于策略的强化学习方法对交通流历史数据集的数据分布高度敏感，在不收集额外在线学习数据的情况下只能取得有限地进展。原因在于离线数据集D是通过使用行为策略π_β(α|s)采样得到，是折扣的边缘状态分布，则时，采样的过程会因为状态动作对的采样不充分产生样本误差。当前，离线强化学习中对于样本分布误差问题的解决思路是将待优化策略的动作选择限制在离线数据集的动作分布上，从而避免分布外的动作出现Q值的过估计问题，进而减少了未知的动作在策略训练学习过程中的影响，这种方法被称为策略约束(Policy constraint)，比如离线强化学习中的BCQ和BEAR算法。然而，对于一些随机策略或者带有噪声的策略所产生的数据，它们的行为很难被精确地预测出来。除此之外，当离线数据来自于多个不同的策略时，重建行为策略的难度也会增大。而行为策略重建的不精确性，会导致BCQ和BEAR这类通过最小化学习策略与行为策略之间差异作为约束的离线强化学习算法产生较差的表现。

因此，为了解决离线强化学习方法可能会由于交通流数据集和学习策略之间的分布转移导致的值而失败的问题，本发明提出一种基于CQL离线强化学习的自适应交通信号控制方法。

发明内容

本发明的目的是提供一种基于CQL离线强化学习的自适应交通信号控制方法，该方法引入CQL(Conservative Q-Learning)模型增强标准贝尔曼方程在自适应交通信号控制上的准确性，以解决传统强化学习方法存在数据采样效率低下、实时性要求高等问题。

本发明的上述技术目的是通过以下技术方案得以实现的：一种基于CQL离线强化学习的自适应交通信号控制方法，具体包括以下步骤：

S1：通过交通路口的传感器采集交通流量数据，并将采集的数据存储在离线数据集中；

S2：对离线数据集进行预处理，然后采用CQL模型进行离线训练，将训练结束后得到的最优策略部署到交通信号控制系统中；

S3：根据选择最优动作，控制交通信号灯的开关状态和时间，从而优化交通流效率。

通过采用上述技术方案，。

进一步的，还包括定期对系统进行性能评估和优化，不断提高系统的控制效率。

进一步的，S1中离线数据集包括状态信息和动作信息，状态信息包括车辆数量、车速、车道数量和等待数据；动作信息包括交通信号灯的开关状态和时间。

进一步的，CQL模型的建模方法具体包括以下步骤：

S3-1：将交叉口的每一个进口车道划分为多个不规则的元胞，每个元胞都表示一个包含车辆位置信息和测量速度信息的二维向量{P,V}，并将所有元胞进一步构成位置矩阵和速度矩阵来描述交通状态；

S3-2：设定车辆长度和车辆间最小间距，得到每个元胞所能容纳的最大车辆数所对应的位置信息和速度信息；

S3-3：将交叉口四个进道口的车辆位置信息和车流速度信息拼接构成交通状态矩阵作为强化学习网络的输入。

进一步的，CQL模型中的奖励函数的设计方法为：

(1)为每辆成功通过路口的车辆分配一个正的奖励值；

(2)为每辆车的等待时间分配一个负的奖励值；

(3)为每次红绿灯切换分配一个负的奖励值；

(4)最后得出建立函数：

R(s,a,s’)＝c₁·ΔV-c₂·ΔW-c₃·L。

进一步的，CQL的更新公式为：

综上所述，本发明具有以下有益效果：

1、本发明的算法只需要离线学习，不需要实时的环境交互，因此可以大大降低学习的成本和风险，特别是在一些复杂、危险的现实环境中应用时更具有优势。即使需要大量的离线数据，则设置合适的Kullback-Leibler散度和价值函数参数表可适应不同的交通环境；

2、采用离线训练方法，避免了实时交互的数据采样效率低下、实时性要求高等问题，提高了算法效率和灵活性；

3、CQL模型能够避免分布偏移问题，减少了未知的动作在策略训练学习过程中的影响，提高了算法的稳定性和准确性；

4、本发明的方法和系统可以实现自适应交通信号控制，提高了交通流的效率，降低了交通拥堵问题，有望缓解城市交通拥堵现象，提高城市交通的运行效率。

附图说明

图1是本发明实施例中交通信号控制系统结构示意图；

图2是本发明实施例中对交叉口离散化建模的示意图；

图3是本发明实施例中交叉口的进道口的元胞划分示意图；

图4是本发明实施例中将交叉口四个进道口的车辆位置信息和车流速度信息拼接后的示意图；

图5是本发明实施例中交叉口相位动作空间设计的示意图。

具体实施方式

以下结合附图1-5对本发明作进一步详细说明。

实施例：一种基于CQL离线强化学习的自适应交通信号控制方法，如图1至图5所示，本方法使用的交通控制系统结构如图1所示，包括交通流量数据采集器、交通灯状态数据采集器、数据预处理模块、状态表示模块、时序数据库、模型训练器、信控方案生成与通信模块和交通信号控制设备。

交通流量数据采集器用于获取路口进口车辆的数量、位置和速度信息；

交通灯状态数据采集器用于收集信号灯的变换信息；

数据预处理模块用于对采集的数据进行噪声滤波、数据清洗等预处理操作，降低模型误差，提高收敛速度与模型精度上限；

状态表示模块根据视频监控设备采集的实时车流信息进行交通特征参数提取；

时序数据库用于保存历史交通信息与模型采样数据；

模型训练器用于训练自适应交通信号控制的离线强化学习模型，并根据不断收集的新的实时交通数据，重新训练控制器，直至可以适应不同的交通流量和路况；

信控方案生成与通信模块用于根据交通流预测和视频监控结果确定当前时刻的最优信号控制方案，并向交通信号控制设备发送调整信号方案的命令。

该方法具体包括以下步骤：

S1：在交通路口设置传感器，通过传感器采集车辆数量、速度、密度、等待时间等交通流量数据，并将这些数据存储在离线数据集中。离线数据集包括状态信息和动作信息，其中状态信息包括车辆数量、车速、车道数量、等待时间等，动作信息包括交通信号灯的开关状态和时间等；

S2：CQL模型离线训练，其具体步骤为：

S2-1：预处理离线数据集，包括数据归一化、数据筛选等操作；

S2-2：利用CQL模型进行离线训练。本实施例的CQL模型是一种基于Q-learning和策略约束的强化学习算法，其核心思想是将待优化策略的动作选择限制在离线数据集的动作分布上，从而避免分布外的动作出现Q值的过估计问题，进而减少了未知的动作在策略训练学习过程中的影响，提高了算法的稳定性和准确性；

S2-3：训练结束后，得到最优策略，将其部署到交通信号控制系统中，实现自适应控制；

S3：通过交通信号控制系统来控制交通信号灯，具体步骤为：

S3-1：状态空间，受近年来较为流行的DTSE技术启发，同样对交叉口进口道进行离散化建模，具体的建模方式如图2所示，假设交叉口的西进口车道长为350m，被不规则划分为10个元胞，每个元胞即表示一个包含车辆位置信息和车辆速度信息的二维向量{P,V}，并将所有元胞进一步构成位置矩阵和速度矩阵来描述交通状态；对于位置矩阵，记每个元胞最大可容纳车辆数为N_max，实际车辆数为N_r，则每个元胞的位置信息值为N_r/N_max；对于速度矩阵，记每个元胞内车辆的平均速度为V_avg，道路最大限速为V_max，则每个元胞的速度信息值为V_avg/V_max。

假定车辆长度为5m，车辆间最小间距为2m，如图3所示进道口，每个元胞所能容纳的最大车辆数依次为(17,11,8,4,3,2,1,1,1,1)。计算可得元胞位置信息如表1所示。

表1元胞位置信息表

0	0	0.38	0	0.33	0	1	0	0	1
										0.24	0	0	0.25	0	0	0	0	1	1
0	0.18	0	0	0	0.50	0	1	0	0

同理可得元胞速度信息如表2所示。

表2元胞速度信息表

0	0	0.83	0	0.58	0	0.37	0	0	0.17
										0.95	0	0	0.67	0	0	0	0	0.25	0.13
0	0.88	0	0	0	0.48	0	0.30	0	0

最后将交叉口四个进道口的车辆位置信息和车流速度信息拼接构成如图4的维度为12*10*2的交通状态矩阵作为强化学习网络的输入。需要说明的是，相较于直接将交叉口图像信息作为输入或规则化的元胞结构，这种不规则元胞划分方式能够显著压缩数据维度，减少冗余信息，进而提高训练速度。

S3-2：动作空间，信号灯动作空间的灵活性对模型性能有着明显影响。本实施例相位动作空间设计主要考虑两种情况，第一，信号相位以车道转向和不冲突为前提进行两两组合，基于实时交通流信息，信号灯可以跳转到任意一个绿灯相位，同时右转方向设置为常绿状态，动作空间可以表示为图5中(c)(d)两种常见相位组合；第二，信号相位不固定，以车流方向不冲突进行实时组合，其次，根据实时交通流量对相位的绿灯持续时间进行动态调整。

S3-3：奖励函数，在本实施例中，状态数据来自状态采集模块提供的具体数据，而动作的取值来自于动作空间，定义s表示当前的采集的状态，那么，奖励函数r表示从s采取动作a后获得当前奖励。

本实施例任务是控制红绿灯，以减少等待时间并提高车辆通行效率，在收集了足够的离线数据后，我们的目标是优化交通流量，减少拥堵和等待时间，在这个场景下，设计以下奖励函数：

1、车辆通行效率：车辆通过路口的数量，为每辆成功通过路口的车辆分配一个正的奖励值，比如+1；

2、等待时间：每个车辆在路口的等待时间。为每辆车的等待时间分配一个负的奖励值，比如-0.1×等待时间(秒)；

3、红绿灯切换：为了避免频繁切换红绿灯导致交通混乱，为每次红绿灯切换分配一个负的奖励值，比如-0.5。

R(s，a，s’)＝c₁·ΔV-c₂·ΔW-c₃·L

其中，s为当前状态，包括每个道路上的车辆数量、每个道路上车辆的平均速度和红绿灯的状态；a为采取的动作，例如切换红绿灯状态或保持当前状态；s’为执行动作a后的新状态；R(s，a，s’)为状态s下执行动作a并达到状态s’时的奖励值；ΔV为执行动作a后通过路口的车辆数量变化；ΔW为执行动作a后车辆在路口的总等待时间变化；L为如果红绿灯状态发生变化，则为1，否则为0；c₁，c₂，c₃均为权重参数，根据实际问题和需求进行调整，本实施例中c₁，c₂，c₃分别为1、-0.1、-0.5，具体数值可根据实际路况变化。

S3-4：策略更新方法，CQL引入了保守估计的思想，并且对目标策略下的Q值估计进行了限制，使得算法更加稳定和鲁棒。具体公式解释如下：

CQL的Q值更新公式：

其中s表示当前状态；a表示当前行为；s′表示下一状态；r表示从状态s采取动作a后获得当前奖励；α表示学习率，通常取值在0到1之间，控制着Q值的更新速度；

π_β(a|s)表示行为策略，用于生成离线数据集D；μ(als)表示需要进行训练的当前策略；为贝尔曼算子，贝尔曼算子是根据贝尔曼方程定义的操作符，用于描述由当前值函数估计未来状态的值函数的更新和优化过程。

CQL的目标函数：

其中优化变量为Q和μ，此目标函数希望学习到一个Q函数的最大下界，从而体现保守估计的思想。具体而言，该目标函数可分为三部分来理解：在第一部分中E_{s～D，a～μ(als)}[Q(s，a)]表示根据当前策略μ(als)，在状态s下所选择行动a的Q值。表示根据行为策略/>在状态s下所选择行动a的Q值；第二部分是误差项，通过均方误差方法计算当前状态的Q值和下一个状态的Q值之间的差异值；第三项G(μ)为正则化项，作用是防止学习到策略μ过拟合。我们使用的正则化项是选择KL散度的负值，即G(μ)＝-D_KL(μ，ρ)，得到如下公式：

其中ρ(als)是一个先验分布，使得μ(als)∝ρ(als)·exp(Q(s，a))。

总之，本实施例提供的自适应交通信号控制装置能够自动化地对交通信号进行控制，并根据实时的交通流量情况和车辆信息进行自适应调整，以达到最优的交通控制效果。该装置具有智能化、自适应性强、操作简便等优点，能够有效提高交通效率和道路安全性，具有广泛的应用前景。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种基于CQL离线强化学习的自适应交通信号控制方法，其特征是：具体包括以下步骤：

2.根据权利要求1所述的一种基于CQL离线强化学习的自适应交通信号控制方法，其特征是：还包括定期对系统进行性能评估和优化，不断提高系统的控制效率。

3.根据权利要求1所述的一种基于CQL离线强化学习的自适应交通信号控制方法，其特征是：S1中离线数据集包括状态信息和动作信息，状态信息包括车辆数量、车速、车道数量和等待数据；动作信息包括交通信号灯的开关状态和时间。

4.根据权利要求1所述的一种基于CQL离线强化学习的自适应交通信号控制方法，其特征是：CQL模型的建模方法具体包括以下步骤：

5.根据权利要求1所述的一种基于CQL离线强化学习的自适应交通信号控制方法，其特征是：CQL模型中的奖励函数的设计方法为：

(1)为每辆成功通过路口的车辆分配一个正的奖励值；

(2)为每辆车的等待时间分配一个负的奖励值；

(3)为每次红绿灯切换分配一个负的奖励值；

(4)最后得出建立函数：

R(s,a,s’)＝c₁·ΔV-c₂·ΔW-c₃·L。

6.根据权利要求1所述的种基于CQL离线强化学习的自适应交通信号控制方法，其特征是：CQL的更新公式为：