CN113763723B

CN113763723B - 基于强化学习与动态配时的交通信号灯控制系统及方法

Info

Publication number: CN113763723B
Application number: CN202111037132.8A
Authority: CN
Inventors: 刘冰艺; 宋斌; 吴鹏春; 熊盛武
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2023-01-17
Anticipated expiration: 2041-09-06
Also published as: CN113763723A

Abstract

本发明公开了一种基于强化学习与动态配时的交通信号灯控制系统及方法，首先对十字路口进行建模，分别定义强化学习三要素state，reward，action；然后依据强化学习A2C算法构建策略网络和评估网络；最后收集路口实时信息，转化为state向量后输入到构建的策略网络和评估网络，输出action概率分布，系统根据action概率分布选择最合适的相位；决定相位后，接下来的一段时间就属于该相位的绿灯时间；由自适应定时控制器构成的动态配时模块根据实时的交通流信息，以最大化绿灯时间利用为目标，动态控制绿灯时间；当检测到绿灯时间的损失，就终止当前相位。本发明克服了固定分配交通灯时长而导致绿灯利用率不高的缺陷，减少了车辆的平均等待时间和二氧化碳等有害气体的排放。

Description

基于强化学习与动态配时的交通信号灯控制系统及方法

技术领域

本发明属于车联网技术领域，具体涉及一种结合强化学习与动态配时的交通信号灯控制系统及方法。

背景技术

近年来物联网、大数据、机器学习的快速发展，使得实时的智能交通灯控制成为可能。2016年，AlphaGo作为一个著名的强化学习应用实例，横空出世，强化学习的方法也越来越多的被应用到各个邻域中，强化学习作为一种新颖的方法，用于进行交通灯的动态控制控制。能减少车辆平均等待时间、减小行程时间、减少二氧化碳排放等。

但交通灯的决策不仅应该包括选择哪个相位，也应包括相位延续的时间，即绿灯时长。以上强化学习方法都是只控制交通灯相位，虽然强化学习模型可以根据交叉路口状态选择最佳相位，但往往每个相位都设置固定时长，在车辆密度不同的情况下设置成相同的时长会增加车辆的平均等待时间，如果交通流密度大，如早高峰和晚高峰时段，较大时长的设置更有利于车辆的快速通行，减少车辆的停车时延，而交通流密度小时，如中午时段，较小的交通灯时长设置可减少车辆的不必要等待时间。

发明内容

本发明的目的是实现完整的交通信号灯控制，尽可能每一步都做出最佳的相位选择和对应时长的选择。本发明提供了一种结合强化学习与动态配时的交通信号灯控制系统及方法，通过强化学习模型决定最佳相位，然后通过自适应配时方法减少车辆的平均等待时间，动态调整相位时长，使得相位时长更加合理。

本发明的系统所采用的技术方案是：一种基于强化学习与动态配时的交通信号灯控制系统，包括DSRC通信模块、接收器、相位控制器、由自适应定时控制器构成的动态配时模块；

所述DSRC(短距离通信)通信模块设置在车辆上，车辆之间通过DSRC通信模块接受和发送消息；

所述接收器收集车辆通过DSRC通信模块输出的实时信息，并处理相位控制器、自适应定时控制器的可用数据；

所述相位控制器，用于确定当前时间中最佳相位的策略网络(基于A2C算法构建的网络)；

所述动态配时模块，根据实时的交通流信息，以最大化绿灯时间利用为目标，动态控制绿灯时间。

本发明的方法所采用的技术方案是：一种基于强化学习与动态配时的交通信号灯控制方法，包括以下步骤：

步骤1：对十字路口进行建模，分别定义强化学习三要素state，reward， action；

state要素定义车辆位置：首先把接入交叉口的道路划分成网格，网格大小并不均等，距离路口越近，则网格越小，反之越大；统计在不同网格中车辆数；

action要素定义车辆的通行规则：南北向车辆直行右转，南北向车辆左转，东西向车辆直行右转，东西向车辆左转；

reward要素定义Agent，即智能体，从Environment，即环境中获取到的立即奖励，表示经过一次action选择，再与环境交互后，环境中所有车辆累计的等待时间的变化，即r_t＝W_t-W_t+1；W_t+1表示当前时间所有进入方向车辆的总的累计等待时间，W_t表示之前一步的总的累计等待时间；只有负奖励才能计算出来，而Agent目标是最大化这个负的累计奖励，即通过调控减少车辆的等待时间；其中，r_t表示t时刻Agent获得的奖励，即action要素之后所有在路口等待车辆的总等待时间的减少；

步骤2：依据强化学习A2C算法构建A2C网络，包括一个评估网络和一个策略网络，训练完成后只需保留策略网络；

步骤3：收集路口实时信息，转化为state向量后输入A2C策略网络，输出 action概率分布，系统选择action概率最大值对应的相位；决定相位后，接下来的一段时间就属于该相位的绿灯时间；自适应配时模块基于实时的交通流信息，以最大化绿灯时间利用为目标，动态控制绿灯时间；当检测到绿灯时间的损失，就终止当前相位。

本发明与现有技术相比具有如下优点和有益效果：

(1)与其他基于强化学习的交通信号灯控制方法不同的是，本发明采用交通灯的相位和时长联合控制的方式，克服了其他方法固定分配交通灯时长而导致绿灯利用率不高的缺陷，减少了车辆的平均等待时间和二氧化碳等有害气体的排放。

(2)本发明选取的强化学习模型是经实验比较后选择的，适用于交通灯控制的场景，未来可被更优秀的强化学习模型替代，体现本发明整体方法的灵活性。

(3)本发明提出的一种基于强化学习与自适应定时的交通灯控制方法，与其他的方法相比在全天交通场景中具有高适应性。

附图说明

图1为本发明实施例的系统场景图；

图2为本发明实施例的方法流程图；

图3为本发明实施例的A2C网络的结构示意图和训练过程图。

具体实施方式

为了便于本领域的普通技术员工理解和实施本发明，下面结合附图及实施案例，对本发明做进一步的详细描述，应当理解，此处所描述的实施实例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于强化学习与动态配时的交通信号灯控制系统，包括DSRC通信模块、接收器、相位控制器、自适应定时控制组成的动态配时模块；

DSRC通信模块设置在车辆上，车辆之间通过DSRC通信模块接受和发送消息；

接收器收集车辆通过DSRC通信模块输出的实时信息，并处理相位控制器、自适应定时控制器的可用数据；

相位控制器，用于确定当前时间中最佳相位的策略网络(基于A2C算法构建的网络)；

动态配时模块，根据实时的交通流信息，以最大化绿灯时间利用为目标，动态控制绿灯时间。

请见图2，本发明提供的一种基于强化学习与动态配时的交通信号灯控制方法，包括以下步骤：

步骤2：依据强化学习算法构建A2C网络，包括一个评估网络和一个策略网络，训练完成后只需保留策略网络；

请见图3，本实施例的A2C网络，包括并行设置的2个子网络，即策略网络和评估网络；所述评估网络由串联的3层全连接层FC、修正线性激活单元ReLU、全连接层FC组成；所述策略网络由串联的3层全连接层FC和Softmax函数层组成；这两个子网络各自输出。

本实施例提供的A2C网络，包括actor子网络和critic子网络，输入均为 state，只是输入不同，它们可以放入同一个主体网络中训练共享信息和参数，但各自的输出层不同。策略网络基于state选择执行动作，评估网络对该动作的好坏进行评估，并反馈给策略网络，策略网络因此调整执行动作，使得结果更优。

在构建agent以后的experience source时用到了高级包PATN。

本实施例训练A2C网络，包括以下子步骤：

步骤2.1：初始化统计参数R,T_delay，分别为累计奖励，平均等待时间，并初始化网络参数w，即神经网络中所有待更新的参数；

步骤2.2：设置训练的回合数episode为0,1,...,N；

步骤2.3：设置时间步step为0,1,...,T；

步骤2.4：获取t时刻路口的状态s_t，并根据策略网络选择一个随机的行为a_t (即t时刻Agent所采取的行动，也就是怎么切换红绿灯)，然后按照当前的行为 a_t进行仿真模拟，仿真执行时长为一个绿灯时间的步长；执行a_t之后得到奖励值r_t，Environment(即环境)达到下一个状态s_t+1；最后使用当前的 (s_t，a_t，r_t，s_t+1)四元组用于评估网络和策略网络的更新；

具体的网络更新过程包括以下子步骤；

步骤2.4.1：如果当前的行为a_t的和前一时刻的行为a_t-1相同那么就执行绿灯的相位转变，并在绿灯时间结束时执行：首先更新评估网络的参数，使用当前收集的(s_t，a_t，r_t，s_t+1)四元组计算当前动作action，即a_t的优势值

γ为折扣系数，r(a_t，s_t)为从环境获得的即时奖励，

表示当前时刻的状态价值，s_t+1表示下一个状态，而

表示下个时刻的状态价值，因此

表示对当前状态s_t下采取动作a_t的动作价值估计，

表示评估网络的参数，最后计算出A^π(s_t，a_t)，也就是对当前状态下采取动作a_t的优劣的评价。评估网络的loss就是A^π(s_t，a_t)，评估网络更新公式为

其中，α表示学习率，

表示对评估网络参数求的梯度，V^π(s_t，a_t)表示价值函数；接下来根据A^π(s_t，a_t)训练策略网络，其更新公式为

其中π_θ(a|s)表示策略网络，θ表示策略网络的参数；其中π_θ(a|s)表示策略网络，θ表示策略网络的参数；a表示动作具体指交通灯的相位变化，s表示状态具体指交通灯处在那个相位，

表示对评估网络参数求的梯度，A^π(s，a)表示优势值；2个网络更新完成，此时更新step ＝step+15，表示绿灯时间持续15秒；如果当前的行为a_t的和前一时刻的行为 a_t-1不相同那么就执行黄灯，并在黄灯时间结束时执行与步骤2.4.1相同的网络训练过程，然后更新step＝step+3，表示黄灯时间持续3秒；

步骤2.4.2：更新完黄灯轮转周期之后，接着按步骤2.5.1更新绿灯轮转周期；

步骤2.5：更新统计参数R，T_delay；

步骤2.6：回到步骤2.3，直到总训练步长step为T，表示训练完了一个回合，接下来执行步骤2.7；

步骤2.7：回到步骤2.1，直到总训练回合episode为0，表示训练完所有的回合，接下来执行步骤2.8；

步骤2.8：所有训练回合结束后，保存策略网络即可。

步骤3：收集路口实时信息，转化为state向量后输入A2C策略网络，策略网络输出action概率分布，系统选择action(交通灯需要控制交叉路口的相位)概率最大值对应的相位；决定相位后，接下来的一段时间就属于该相位的绿灯时间；自适应配时模块基于实时的交通流信息，以最大化绿灯时间利用为目标，动态控制绿灯时间；当检测到绿灯时间的损失，就终止当前相位。

本实施例当检测到绿灯时间的损失t_L，包括启动损失时间I₁和清尾损失时间I₂，其公式如下：

t_L＝I₁+I₂

启动损失时间表示车辆从静止状态启动到饱和车流时速度通过停止线所损失的时间。如果在相位初始时，车辆都刚好以饱和车流时速度经过停止线，那么启动损失时间就恰好为0。显然，大部分情况，车辆都需要从零启动以通过停止线。

可以看到，当交通信号灯转变为绿灯显示时，原先等候在停车线后面的车流便开始向前运动，车辆以车队形式越过停车线，其流率由0很快增至一个稳定的数值，即饱和流率，此时车辆都到达一个稳定的速度。此后，越过停车线的后续车流流率将继续保持与饱和流率相等，直到停车线后面原先积存的车辆全部放行完毕，或者虽未放完，但绿灯时间已经截止。

为了更具体地计算损失时间，做出如下定义。

定义从绿灯启亮到第一辆车车头驶至停止线的时间为“首车启动损失时间”，意味着车辆在相位初始时还未到达路口，记为t₀；定义从第一辆车车头驶至停止线到第二辆车车头驶至停止线的时间为“第一车头时距”，记为h₁；依此类推，有h_i(i＝1，2，3，...，n)。

那么，启动损失时间的计算公式可为：

由此可知，启动损失时间是很难避免的，因为交叉路口绝大多数请况都是车辆暂停排队，绿灯亮起后从零开始加速启动通过。

除了启动损失时间，还有清尾损失时间。

黄灯启亮时刻，即当前相位结束，该方向的车辆已经不能通行。这时距相位初始已经有一段时间，车队头部车辆已经通过停止线，而车队尾部车辆间的车头时距逐渐增大，这些车辆已经无法在黄灯启亮时刻前通过停止线，但当前相位仍未结束，清尾损失时间由此产生。

那么清尾损失计算公式如下：

I₂＝t_last-t_Y；

t_Y为当下距黄灯启亮的剩余时间；t_last为从当下算起，黄灯启亮前的最后一辆车辆驶过停止线的通过时间。

本实施例中，当强化学习策略决定相位后，为避免相位无限延续，设置一个较长的时限，相位时长超过这个阈值就必须做一次相位决策。在这个绿灯时间段内，动态配时模块保证绿灯时间的有效利用。如果检测到环境中存在绿灯时间的损失(Loss of greentime)，动态配时模块就提前结束当前相位，具体过程如下。

当车流冲突时，车辆启动阶段的时间损失往往不可避免。避免结束损失时间，并尽量减少低效绿灯时间。

相位初期，车队中车辆的车头时距保持较小的值，接近饱和流率通过路口，就很可能进入了相位后期，这时需要比较绿灯方向最小车头时距h_rear和相位剩余时间t_remaining，如果满足：

h_rear＞t_remaining＞threshold₁；

即最后一辆车无法在黄灯亮起时到达路口，自适应配时控制器会终止当前相位。而且h_rear必须大于一定值，即threshold₁，这是为了安全，给予司机反应和减速的时间。但当排队车辆少时，大部分车辆在相位初期就通过路口，交通流很快就不饱和了，后面车辆的车头时距可能会很大，而且红灯方法往往积累大量排队车辆。这种情况下，绿灯时间的利用率就会快速降低，而这段时间是低效绿灯时间。当然，如果所有红灯方向都没有车辆等待或即将到达，就没有必要进行相位转换。

因此，当一个相位开始时，自适应配时控制器每秒都统计所有驶入方向车辆的位置和速度，并计算当前绿灯通行车道中车辆的车头时距，然后获得其中最小值h_min，g，意味着最近的车辆也需要h_min，g到达停止线。如果车头时距大于所设置的阈值，即

h_min，g＞threshold₁；

且其他红灯方向有车辆停在路口等待通过时，自适应配时控制器会提前终止当前相位。这时，策略网络会重新观测环境的状态，并根据新的状态决定新的相位。但如果所有红灯方向都没有车辆到达路口，需要比较红灯方向车辆的最小车头时距h_min，r和绿灯方向最小车头时距h_min，g，如果满足：

h_min，g-h_min，r＞threshold₂≥0；

在这种情况下，红灯方向的车辆会比绿灯方向的车辆早一段时间到达路口，自适应配时控制器也会提前终止当前相位。这在一定程度上能减少下一个通行方向车辆的启动时间损失，因为车队可以保持一定速度直接通过路口，而不必停下来，相比于速度从零启动的车队通行效率更高。

本实施例根据测试数据集，对交通灯控制系统进行测试并评估，首先测试场景包括单路口及多路口类型，测试数据集包括真实世界提取的车流数据和流率依次递增的车流数据；

本实施例定义评价指标，包括平均等待时间、平均停车次数、平均时间损失、和平均行驶速度。平均等待时间表示每辆车因红绿灯控制而暂停等待的时间；平均停车次数表示每辆车行驶过程中因红绿灯控制而减速暂停的次数，反映道路通畅程度；平均时间损失表示每辆车因交通状况耽误的时间，包括暂停等待及行驶缓慢耽误的时间，计算为实际行驶时间与理想速度下匀速行驶全程的时间的差值；平均行驶速度表示每辆车行驶完全程的平均速度，平均速度越大，说明道路越通畅；根据测试数据集，对交通灯控制系统进行测试并评估，首先测试场景包括单路口及多路口类型，测试集包括真实世界提取的车流数据和流率依次递增的车流数据；等待时间，即当车辆速度小于0.1m/s时，开始累计其等待时间。这个指标表示，在一个episode中，所有车辆速度通过交叉路口时停车等待的平均值；平均等待次数是指一个episode中，所有通过车辆等待次数的平均值；平均时间损失，即车辆因停车等待及缓慢行驶而损失的时间。如果车辆没有停车等待，且一直以标准速度行驶，到达目的地，则其时间损失为零。这个指标表示，一个 episode中，所有通过车辆时间损失的平均值；平均相位时长表示在整个模拟时间内，相位转变的次数。由于模拟时间可能不同，所以这个指标很有必要的。

本实施例在训练过程中进行信息监控，以便知道目前网络的优化情况，是否在逐渐收敛。采用tensorboard对信息进行可视化处理，除了reward外，还将 loss和一些重要参数写入tensorboard中，监控它们的变化情况，为后期的调参优化提供依据。

应当理解的是，上述针对较佳实例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术员工在本发明的启示下，在不脱离本发明权利要求书所保护的范围情况下，还可以做出替换和变形，均落入本发明的保护范围之内，本发明的请求保护范围应当以所附的权利要求为准。

Claims

1.一种基于强化学习与动态配时的交通信号灯控制方法，采用基于强化学习与动态配时的交通信号灯控制系统；

其特征在于：所述系统包括DSRC通信模块、接收器、相位控制器、自适应定时控制器构成的动态配时模块；

所述DSRC通信模块设置在车辆上，车辆之间通过DSRC通信模块接受和发送消息；

所述相位控制器，用于确定当前时间中最佳相位的策略网络；

所述动态配时模块，根据实时的交通流信息，以最大化绿灯时间利用为目标，动态控制绿灯时间；

所述方法包括以下步骤：

步骤1：对十字路口进行建模，分别定义强化学习三要素state，reward，action；

其中所述A2C网络，包括策略网络actor和评估网络critic；输入均为state，策略网络基于state选择执行动作，评估网络对该动作的好坏进行评估，并反馈给策略网络，策略网络因此调整执行动作，使得结果更优；

所述A2C网络，包括并行设置的2个子网络，即策略网络和评估网络；所述评估网络由串联的3层全连接层FC、修正线性激活单元ReLU、全连接层FC组成；所述策略网络由串联的3层全连接层FC和Softmax函数层组成；这两个子网络各自输出；

训练所述A2C网络，包括以下子步骤：

步骤2.1：初始化统计参数R,T_delay，R为累计奖励，T_delay为平均等待时间，并初始化网络策略网络参数θ和评估网络参数

步骤2.2：设置训练的回合数episode为0,1,...,N；

步骤2.3：设置时间步step为0,1,...,T；

步骤2.4：获取t时刻路口的状态s_t，并根据策略网络选择一个随机的行为a_t，然后按照当前的行为a_t进行仿真模拟，仿真执行时长为一个绿灯时间的步长；执行a_t之后得到奖励值r_t，Environment达到下一个状态s_t+1；最后使用当前的(s_t,a_t,r_t,s_t+1)四元组更新评估网络和策略网络；其中，行为a_t是t时刻Agent所采取的行动，即怎么切换红绿灯；

所述评估网络和策略网络的更新，具体实现包括以下子步骤；

步骤2.4.1：若当前的行为a_t的和前一时刻的行为a_t-1相同，则执行绿灯的相位转变；在绿灯时间结束时执行下述网络训练过程：首先更新评估网络的参数，使用当前收集的(s_t,a_t,r_t,s_t+1)四元组计算当前动作action，即a_t的优势值

γ为折扣系数，r(a_t,s_t)为从环境获得的即时奖励，

表示当前时刻的状态价值，s_t+1表示下一个状态，而

表示下个时刻的状态价值，因此

表示对当前状态s_t下采取动作a_t的动作价值估计，

表示评估网络的参数，最后计算出优势值A^π(s_t,a_t)，也就是对当前状态下采取动作a_t的优劣的评价；评估网络的loss为A^π(s_t,a_t)，评估网络更新公式为

其中，α表示学习率，

表示对评估网络参数求的梯度，V^π(s_t,a_t)表示价值函数；接下来根据A^π(s_t,a_t)训练策略网络，其更新公式为

其中π_θ(a|s)表示策略网络，θ表示策略网络的参数；a表示动作具体指交通灯的相位变化，s表示状态具体指交通灯处在那个相位，

表示对评估网络参数求的梯度，A^π(s，a)表示优势值；2个网络更新完成，此时更新step＝step+15，表示绿灯时间持续15秒；

如果当前的行为a_t的和前一时刻的行为a_t-1不相同那么就执行黄灯，并在黄灯时间结束时执行与步骤2.4.1相同的网络训练过程，然后更新step＝step+3，表示黄灯时间持续3秒；

步骤2.4.2：更新完黄灯轮转周期之后，接着按步骤2.4.1更新绿灯轮转周期；

步骤2.5：更新统计参数R，T_delay；

步骤2.8：所有训练回合结束后，保存策略网络即可；

步骤3：收集路口实时信息，转化为state向量后输入A2C策略网络，输出action概率分布，系统选择action概率最大值对应的相位；决定相位后，接下来的一段时间就属于该相位的绿灯时间；自适应配时模块基于实时的交通流信息，以最大化绿灯时间利用为目标，动态控制绿灯时间；当检测到绿灯时间的损失，就终止当前相位；

所述当检测到绿灯时间的损失，就终止当前相位；具体实现过程是：

相位初期，比较绿灯方向最小车头时距h_rear和相位剩余时间t_remaining，如果满足：

h_rear＞t_remaining＞threshold₁；

即最后一辆车无法在黄灯亮起时到达路口，自适应配时控制器会终止当前相位；而且h_rear必须大于预设值，即threshold₁；

当一个相位开始时，自适应配时控制器每秒都统计所有驶入方向车辆的位置和速度，并计算当前绿灯通行车道中车辆的车头时距，然后获得其中最小值h_min，g，意味着最近的车辆也需要h_min，g到达停止线；如果车头时距大于所设置的阈值，即：

h_min，g＞threshold₁；

且其他红灯方向有车辆停在路口等待通过时，自适应配时控制器会提前终止当前相位；这时，策略网络会重新观测环境的状态，并根据新的状态决定新的相位；但如果所有红灯方向都没有车辆到达路口，需要比较红灯方向车辆的最小车头时距h_min，r和绿灯方向最小车头时距h_min，g，如果满足：

h_min，g-h_min，r＞threshold₂≥0；

则红灯方向的车辆会比绿灯方向的车辆早一段时间到达路口，自适应配时控制器也会提前终止当前相位。

2.根据权利要求1所述的基于强化学习与动态配时的交通信号灯控制方法，其特征在于：步骤3中所述绿灯时间的损失t_L，包括启动损失时间I₁和清尾损失时间I₂，其公式如下：

t_L＝I₁+I₂

定义从绿灯启亮到第一辆车车头驶至停止线的时间为“首车启动损失时间”，意味着车辆在相位初始时还未到达路口，记为t₀；定义从第一辆车车头驶至停止线到第二辆车车头驶至停止线的时间为“第一车头时距”，记为h₁；依此类推，有h_i，i＝1，2，3，...，n；

则启动损失时间的计算公式为：

清尾损失时间计算公式如下：

I₂＝t_last-t_Y；

3.根据权利要求1-2任意一项所述基于强化学习与动态配时的交通信号灯控制方法，其特征在于：首先定义评价指标，然后根据测试数据集，对交通灯控制系统进行测试并评估，首先测试场景包括单路口及多路口类型，测试数据集包括真实世界提取的车流数据和流率依次递增的车流数据；

所述评价指标，包括平均等待时间、平均停车次数、平均时间损失和平均行驶速度；所述平均等待时间表示每辆车因红绿灯控制而暂停等待的时间；所述平均停车次数表示每辆车行驶过程中因红绿灯控制而减速暂停的次数，反映道路通畅程度；所述平均时间损失表示每辆车因交通状况耽误的时间，包括暂停等待及行驶缓慢耽误的时间，计算为实际行驶时间与理想速度下匀速行驶全程的时间的差值；所述平均行驶速度表示每辆车行驶完全程的平均速度，平均速度越大，说明道路越通畅。