CN115083149B

CN115083149B - 一种实时监测的强化学习可变时长信号灯控制方法

Info

Publication number: CN115083149B
Application number: CN202210545093.0A
Authority: CN
Inventors: 陈铭松; 方则宽
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2023-07-28
Anticipated expiration: 2042-05-19
Also published as: CN115083149A

Abstract

本发明公开了一种实时监测的强化学习可变时长信号灯控制方法，包括：通过事先安装于道路上的物联网设备采集道路上的实时交通数据生成新定义的压力信息；基于上述各个压力信息设计强化学习方法，生成强化学习状态；在每个路口配置一个强化学习智能体，并且设计一个监视属性，通过所述智能体实时判断当前相位下，路口监视属性是否到达阈值；并根据是否达到阈值确定是否对信号灯的相位进行调整；存储数据并通过强化学习智能体的回放机制来更新网络参数；各个路口配置的强化学习智能体通过当前道路情况控制交通信号灯的相位选择。本发明能够提高强化学习代理的学习能力，快速获得优秀的信号灯控制策略，并且控制效果大大提升。

Description

一种实时监测的强化学习可变时长信号灯控制方法

技术领域

本发明属于计算机技术领域，涉及一种实时监测的强化学习可变时长信号灯控制方法，本发明涉及深度强化学习算法以及信号灯控制问题，尤其涉及在高度复杂的实时交通环境中，根据物联网设备可获取的实时交通数据学习生成一个有效的信号灯控制策略。

背景技术

经济的不断发展使得各地区汽车持有量急剧增加，这严重影响了人们的出行效率。据研究显示，2021年，全球最拥堵城市排名中，伦敦，巴黎，布鲁塞尔位列前三，这些地区，人均交通拥堵损失小时均超过130小时，意味着这些地区的人们在2021年有超过5天时间浪费在等待车辆通行上。且低效的交通出行还会给驾驶员心态产生负面影响。近期，有研究者发现，经常性的停车是导致交通事故的重要原因之一，该行为会对驾驶员的心态产生恶性影响，这将导致堵车后出现撞车等交通事故的概率急剧上升。因此，改善交通出行效率问题是城市治理的重中之重。作为提高交通效率最有希望的手段之一，交通信号优化控制被广泛研究。传统的交通信号灯控制策略往往根据路口车流量的历史信息，基于交通领域的经典算法，为信号灯设置总周期时长和固定的相位变化顺序。然而交通流呈现高度的复杂性和动态性，传统的交通灯控制策略很难适应不断变化的交通流情况。

近年来，随着路侧单元的升级以及人工智能技术的不断发展，强化学习(RL)在面向交通的网络物理系统(CPS)的控制部件设计中得到了越来越多的研究，特别是在交通系统的信号控制中。信号灯代理根据路侧单元监测设备(摄像头，激光雷达等)传来的信息(车的速度、距离路口距离等)，计算得到路口状态，从而向相关的信号灯发出控制信息(相位，相位时长等)，使信号灯展示合理的信号引导车辆通行。相较于传统的信号灯控制方法，强化学习方法让信号灯自主学习得到下一时刻的信号和信号的时长，使得强化学习方法具备较强的自适应性和动态性。但是，目前交通信号灯控制领域的强化学习方法，大多只考虑了如何设计合理的状态和奖励得到准确的动作(信号)，而忽视了动作持续时间的设计。不同于其他领域强化学习方法，交通领域的强化学习方法动作并不会因回合的结束而停止，而需要手动停止，因而动作的时长与奖励息息相关。不合理的时长设计将导致部分情况下，强化学习选择出了最佳的信号灯信号，但却因为不合理的持续时间，使得该信号给路口的交通状况产生了负面影响。且这些负面影响还会让信号灯对这类信号产生错误的判断，从而影响强化学习的学习效果和学习速率，甚至导致学习过程无法收敛。

发明内容

为了解决现有技术存在的不足，本发明的目的是提供一种实时监测的强化学习可变时长信号灯控制方法，设计了一种基于交叉路口“混合压力”概念的强化学习方法，利用物联网设备采集到的各种实时交通信息(如车辆的位置，速度等)，实时监控路口状态，使信号灯在合适的时机转换相位，并优化信号灯的相位控制策略，提升控制效果。

所述信号灯的相位指的是不冲突的信号的组合。

本发明方法包括以下具体步骤：

步骤1：基于事先安装于道路上的物联网设备获取道路上的实时交通数据，对获取的交通信息进行处理，根据采集到的道路实时交通数据生成新定义的压力信息；物联网设备包括测速仪、摄像头等传感器；所述传感器用来获取车道上包括车辆的速度、位置在内的车辆运行信息；实时交通数据包括车辆的位置和速度；所述压力信息包括每条车道的静态压力，动态压力，混合压力；其中静态压力为静止车辆对车道拥堵带来的影响，动态压力为正在行驶车辆对车道拥堵带来的影响，混合压力由车道的静态压力和动态压力相结合组成，表示车道上所有车辆对车道拥堵带来的影响。

经过广泛的调查研究发现，路口的压力与交通效率有关。更少的静止车辆将导致更短的平均车辆行驶时间。然而，路口状态的简单定义并不能完全反映路口的通行效率。本发明在充分考虑各种交通数据的情况下，提出了一个全新的“混合压力”的概念，在物联网设备获取的车辆位置、速度数据的基础上，计算车道的静态压力、动态压力、混合压力以及监视属性。

首先定义车道的静态压力。假设当前车道i静止车辆的集合为V_i ^s,当前车为veh，车辆在该道路上静止等待的时间为t_s，静止等待时间系数为ω，则此时车道的静态压力为：

其次定义车道的动态压力。假设当前车道i正在行驶的车辆的集合为V_i ^d,当前车为veh，车辆速度为v，车辆距离路口的距离为L，道路长度系数为L_max，一般为当前车道长度的1/4。道路长度系数与车辆的速度以及道路的长度有关，一般而言车道长度1/4的距离内的车辆对路口拥堵程度的影响较为明显。此时车道的动态压力为：

在此基础上，本发明定义车道的混合压力。假设当前车道i的静态压力为P_s，当前车道i的动态压力为P_d，则此时车道的混合压力为：

P_m＝P_s+P_d

另外，本发明还定义了监视属性，表示当前相位下路口通行的效率：

其中，j表示第j号路口，l_i表示第i号车道，l_act表示当前相位下允许车辆通过路口的车道，l_nac表示当前相位下禁止车辆通过路口的车道，P_s表示当前车道的静态压力，P_d表示当前车道的动态压力，ε表示一个极小值，保障分母不为0。

监视属性中分子表示当前正在同行车道上动态压力的和，分母表示当前禁止通行车道中，静态压力的最大值。通过对比两种压力值，监视属性能够体现当前相位在该时刻缓解路口拥堵的程度。

步骤2：设计强化学习方法，生成强化学习状态：

强化学习方法通常包含三个要素：状态，动作及奖励，本发明设计如下：

状态：为智能体通过物联网设备对道路上车辆进行观察和计算得到，包括当前路口下所有车道的静态压力、动态压力、混合压力；本发明定义第j号路口的强化学习代理为Agent_j。Agent_j通过物联网设备观察系统环境的一部分,通过分析各车道上车的速度和位置，计算该路口各车道的压力信息，作为状态S_j。所述各个车道的压力信息通过路测速度传感器以及路口摄像头采集到的车辆速度、位置计算得到；路口当前相位通过直接读取信号灯当前状态得到；路口的监视属性通过当前路口下所有车道的静态压力和动态压力计算得到。

本发明中提到的状态由所有车道的混合压力组成。以典型的四向交叉路口为例，若可选相位有4个，则状态表示为其中为车辆离开路口的车道，/>为车辆驶入路口的车道。

动作：红绿灯需要根据当前状态选择合适的信号，以优化交通效率。在交通信号控制问题上，动作表示强化学习模型与环境交互所采取的行为，一般设置为相位编号。若可选相位有4个，则动作空间为{0,1,2,3}。

奖励：强化学习代理的奖励是对该状态下选取的动作的评价，反映在当前状态下所采取的行动的质量，体现了在某个状态下执行某个动作后缓解车道拥堵的程度，以指导学习过程。本发明设置为路口所有车道混合压力之和的负值。这意味着若某个动作能够更大幅度地减小路口的混合压力，则这个动作则被认为是一个更好的动作。

本发明中，所述强化学习方法设计的关键是路口状态和奖励，以及强化学习模型的选择；通过实时交通数据计算得到的各种压力信息以及监视属性信息，来计算状态和奖励。本发明在设计强化学习网络结构时，采取了经典的DQN网络结构。

所述DQN网络由两层全连接组成。其中输入为路口的状态，输出为每个动作的Q值，如附图1所示。本发明中，所述Q值为DQN网络预测每个动作在当前状态下产生的价值。

步骤3：每个路口配置一个强化学习智能体，实时监测路口的监视属性。所述智能体与交通环境进行交互，通过实时获取的交通数据来训练强化学习代理，在代理控制信号灯的同时不断优化DQN网络参数，直到参数收敛，强化学习代理学习到一个优化的控制策略，并且所述控制策略能够适应交通变化而调整，最小化所有出行车辆的平均等待时间，并根据实时交通状况对信号灯的相位做出最佳选择。

每当当前相位持续时间大于5s后，强化学习代理。强化学习代理每隔1s获取物联网设备采集的路口信息以及车道的交通数据，分析并计算路口的监视属性。若监视属性大于等于设计的阈值，则保持当前相位不变；若监视属性小于阈值，则立即结束当前相位。阈值的确定通过多次实验对比结果，取最优结果实验的数值作为阈值。通过实验，不断改变阈值，实验的效果随阈值的增加呈现先变好后变差的趋势，并在0.7时取到最优，故阈值设置为0.7。

步骤4：存储数据并通过强化学习智能体的回放机制来更新网络参数。

步骤4的详细过程为：首先初始化强化学习网络以及经验回放缓冲区D；每当当前相位持续时间超过5s后，智能体观察环境，通过物联网设备包括测速仪、传感器等上传的信息获得状态S，并计算路口的监视属性；当监视属性到达阈值时，交通信号灯结束当前相位，将当前相位下获得的经验＜S,A,R,S'＞至经验回放缓冲区,当存储的经验数量满足可用于训练的数量时，智能体会从经验回放缓冲区中随机选择一批设定完批大小的样本进行模型训练，并使用随机梯度下降来更新DQN网络中的权重；基于更新的DQN网络重新选择交通信号灯的下一相位；将状态S输入到强化学习模型中，模型计算得到相位动作A；接着在相位持续5s后实时计算监视属性，并基于相位结束时的状态计算该相位动作的奖励R，相位结束时的状态为该相位的下一个状态S'。

步骤5：每个路口配置的强化学习智能体通过当前道路情况控制交通信号灯的相位选择。

每当当前相位下的监视属性到达阈值时，强化学习代理获取物联网设备采集的路口信息以及车道的交通数据，分析并计算状态，为信号灯选择一个新的最佳相位。同时采集到的历史数据以及所选择的相位将被存储用来训练强化学习代理。

相位的选择策略基于强化学习方法训练所得。强化学习代理通过不断与道路环境交互，获取经验数据用于训练，不断优化自身模型参数，并且优化后的模型继续为路口选择最优的交通信号。通过不断循环该过程，模型最终将收敛，从而得到最优的强化学习信号灯控制策略。交通信号灯可根据该模型对交通状况做出最佳的信号灯相位选择。

在智能体与环境之间交互的每个周期中，学习过程可以大致分为四个步骤：

1)观察交通环境以获取强化学习所需状态；

2)当监视属性到达阈值时，结束当前相位；

3)存储数据并通过强化学习的回放机制来更新网络参数；

4)利用更新后的强化学习模型选择最优的相位动作。

本发明的有益效果在于：本发明提出了一种新颖实时监测的强化学习交通信号灯控制方法。通过提出有效的“混合压力”机制，将实时采集得到的车辆的动力学数据抽象为压力信息。并且根据监视属性，使得交通信号灯能在合适的时间结束相位。此方法极大地提升了交通信号灯控制效果，降低了车辆在路上的行驶时间，并且本发明提高了强化学习代理的学习能力，实时改变交通信号保障信号灯代理在复杂多变的交通状况下能够快速收敛，加快了强化学习模型的训练收敛速度，快速获得优秀的信号灯控制策略。

附图说明

图1是DQN网络结构图。

图2是路口示意图，描述了动作、信号以及相位的概念。其中左图车道的箭头表示该车道允许的前进方向，从该车道通过路口进入该方向的出车道。信号用来确定某一时刻哪些动作被允许，其中深色椭圆点表示允许移动，浅色椭圆点表示禁止移动。相位定义为不冲突的信号的组合，如右图所示为经典的信号灯控制方案所采取的四相位，即南北直行、东西直行、南北左转、东西左转。

图3是信号控制及策略学习流程图。

图4是本发明方法性能测试结果。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明设计了一种基于交叉路口“混合压力”概念的强化学习方法，利用物联网设备实时采集各种交通信息(如车辆与路口的距离，速度等)来控制信号灯的相位选择。同时实时对比当前正在通行的道路状态与当前禁止通行的道路状态，判断交通信号灯是否需要改变。

本发明提供了一种实时监测的强化学习可变时长信号灯控制方法，包括以下内容：

1.基于物联网设备采集的交通数据定义压力信息：

本发明首先定义车道的静态压力。假设当前车道i静止车辆的集合为V_i ^s,当前车为veh，车辆在该道路上静止等待的时间为t_s，静止等待时间系数为ω，则此时车道的静态压力为：

其次定义车道的动态压力。假设当前车道i正在行驶的车辆的集合为V_i ^d,当前车为veh，车辆速度为v，车辆距离路口的距离为L，道路长度系数为L_max，一般为当前车道长度的1/4，则此时车道的动态压力为：

在此基础上，本发明定义车道的混合压力。假设当前车道i的静态压力为P_s，当前车道的动态压力为P_d，则此时车道的混合压力为：

P_m＝P_s+P_d

2.强化学习方法设计：

本发明设计强化学习方法的三个要素状态、动作和奖励具体如下：

状态：本发明定义第j号路口的强化学习代理为Agent_j。Agent_j通过物联网设备观察系统环境的一部分,通过分析各车道上车的速度和位置，计算该路口各车道的压力信息，作为状态S_j。

状态由所有车道的混合压力组成。以典型的四向交叉路口为例，若可选相位有4个，则状态表示为其中/>为车辆离开路口的车道，/>为车辆驶入路口的车道。

动作：红绿灯需要根据当前状态选择合适的信号，以优化交通效率。在交通信号控制问题上，动作表示模型与环境交互所采取的行为，一般设置为相位编号。若可选相位有4个，则动作空间为{0,1,2,3}。

奖励：强化学习代理的奖励是对该状态下选取的动作的评价，反映在当前状态下所采取的行动的质量，以指导学习过程。本发明设置为路口混合压力之和的负值。这意味着若某个动作能够更大幅度地减小路口的混合压力，则这个动作则被认为是一个更好的动作。

设计的关键是状态和奖励，通过实时交通数据计算得到的各种压力信息以及监视属性信息，来计算状态和奖励。本发明在设计强化学习网络结构时，采取了经典的DQN网络结构。

3.判断是否结束相位以及对交通信号灯的相位选择：

在智能体与环境之间交互的每个周期中，学习过程可以大致分为四个步骤：1)观察交通环境以获取强化学习所需状态；2)当监视属性到达阈值时，结束当前相位；3)存储数据并通过强化学习的回放机制来更新网络参数；4)利用更新后的强化学习模型选择最优的相位动作。

步骤3的详细的过程为：首先初始化强化学习网络以及的经验回放缓冲区D；每当当前相位持续时间超过5s后，智能体观察环境，通过物联网设备包括测速仪、传感器等上传的信息获得状态S，并计算路口的监视属性；当监视属性到达阈值时，交通信号灯结束当前相位，将当前相位下获得的经验＜S,A,R,S'＞至经验回放缓冲区,当存储的经验数量满足可用于训练的数量时，智能体会从经验回放缓冲区中随机选择一批设定完批大小的样本进行模型训练，批大小可以按照实际需求进行修改，本实施例中设置为32，并使用随机梯度下降来更新DQN网络中的权重；基于更新的DQN网络重新选择交通信号灯的下一相位；将状态S输入到强化学习模型中，模型计算得到相位动作A；接着在相位持续5s后实时计算监视属性，并基于相位结束时的状态计算该相位动作的奖励R，相位结束时的状态为该相位的下一个状态S'。

实施例

本发明提出了一种实时监测的强化学习可变时长信号灯控制方法，为了综合测试本发明的性能，本发明使用Cityflow交通模拟平台，在4个仿真数据集(1x3路口，2x2路口，3x3路口，4x4路口)以及2个真实数据集(济南3x3路口，杭州4x4路口)上了进行了模拟控制，并与传统信号灯控制方法以及其他先进强化学习方法进行了性能比较，过程如下：

1.选取4个模拟数据集(1x3路口，2x2路口，3x3路口，4x4路口)和2个真实数据集(济南3x3路口，杭州4x4路口)分别进行测试，其中所有数据集包含不同车流量的1个小时车辆信息，以及不同结构的路网信息。

2.初始化强化学习模型参数以及经验回放缓冲区，并且初始化Cityflow仿真环境。导入数据集。

3.设定强化学习训练200轮，在强化学习的每一轮中，可以分为以下四步：1)首先从Cityflow交通环境中获取强化学习所需状态；2)计算当前监视属性，若达到阈值时，则结束当前相位；3)结束相位的同时，存储交通历史数据并通过强化学习的回放机制来更新网络参数；4)利用更新后的强化学习模型选择最优的相位动作。每一轮中不断循环这4个步骤，直至仿真环境达到1小时。

4.训练结束后选择最优的训练模型，作为该方法的最优策略。作为实验对比，本发明选择车辆平均旅行时间作为指标，与目前主流的传统方法(Fixed time)和最先进的强化学习方法(PressLight)进行对比。

图3是本发明方法性能测试结果，可以看出此方法能够使得车辆的平均等待时间最短。相比于传统方法，本发明方法车辆的平均等待时间平均缩短了62.87％；相比于其他先进的强化学习方法，本发明方法车辆平均等待时间平均缩短了15.46％。

本发明提出了一种实时监测的强化学习可变时长信号灯控制方法。基于物联网设备采集到的各种实时交通数据设计了“混合压力”信息，在此基础上设计了强化学习方法。其次本发明摆脱了为选择相位配置信号时长的方式，选择实时监测路口监视属性，在合理的时刻结束当前相位并选择新相位。本发明为每个路口配置一个强化学习智能体。智能体与交通环境进行交互，在控制信号灯的同时不断优化模型参数，学习更优秀的控制策略。本发明能够提高强化学习代理的学习能力，实时改变交通信号保障信号灯代理在复杂多变的交通状况下能够快速地收敛到一个优秀的信号灯控制策略，并且控制效果大大提升。

本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于实时监测的强化学习可变时长信号灯控制方法，其特征在于，包括：

步骤1：通过事先安装于道路上的物联网设备采集道路上的实时交通数据生成新定义的压力信息；步骤1中，所述物联网设备是指包括测速仪、摄像头在内的传感器，所述传感器用来获取车道上包括车辆的速度、位置在内的车辆运行信息；

所述实时交通数据包括车辆的位置和速度；

所述压力信息包括每条车道的静态压力，动态压力，混合压力；其中静态压力为静止车辆对车道拥堵带来的影响，动态压力为正在行驶车辆对车道拥堵带来的影响，混合压力为车道上所有车辆对车道拥堵带来的影响；

所述车道的静态压力的计算公式为：

其中，veh表示当前车辆，V_i ^s表示当前车道i静止车辆的集合，t_s表示车辆在该道路上静止等待的时间，ω为所述静止等待时间的系数；

所述车道的动态压力的计算公式为：

其中，veh表示当前车辆，V_i ^d表示当前车道i正在行驶车辆的集合，v表示车辆速度，L表示车辆距离路口的距离，L_max表示道路长度系数，所述道路长度系数为当前车道长度的1/4；

所述车道的混合压力的计算公式为：P_m＝P_s+P_d，

其中，P_s表示当前车道的静态压力，P_d表示当前车道的动态压力；

步骤2：基于步骤1中的各个压力信息设计强化学习方法，生成强化学习状态；步骤2中,所述强化学习方法包括三个要素：状态、动作及奖励；

所述状态为智能体通过物联网设备对道路上车辆进行观察和计算得到，包括当前路口下所有车道的静态压力、动态压力、混合压力；各个车道的压力信息通过路测速度传感器以及路口摄像头采集到的车辆速度、位置计算得到；路口当前相位通过直接读取信号灯当前状态得到；路口的监视属性通过当前路口下所有车道的静态压力和动态压力计算得到；

所述动作表示强化学习模型与环境交互所采取的行为，设置为相位编号；

所述奖励体现在某个状态下，强化学习代理控制信号灯执行某个动作后缓解车道拥堵的程度，设置为路口下所有车道混合压力之和的负值；

步骤3：在每个路口配置一个强化学习智能体，并且设计一个监视属性，通过所述智能体实时判断当前相位下，路口监视属性是否到达阈值；若达到阈值，则信号灯结束当前相位，并通过处理路口及道路物联网设备采集到的交通数据，为信号灯选择一个新的最佳相位，同时采集到的交通数据以及所选择的相位动作将被存储用来训练智能体；

步骤4：存储数据并通过强化学习智能体的回放机制来更新网络参数；

步骤5：各个路口配置的强化学习智能体通过当前道路情况控制交通信号灯的相位选择。

2.如权利要求1所述的方法，其特征在于，所述强化学习方法设计的关键是路口状态和奖励的设计，以及强化学习模型的选择；通过实时交通数据计算得到的各种压力信息来设计状态和奖励，所述强化学习模型采用DQN网络结构设计；

所述DQN网络由两层全连接组成，其中输入为路口的状态，输出为每个动作的Q值，所述Q值是指DQN网络预测每个动作在当前状态下产生的价值。

3.如权利要求1所述的方法，其特征在于，步骤3中，所述路口的监视属性表示当前相位下路口通行的效率，用下述公式表示：

4.如权利要求1所述的方法，其特征在于，步骤3中，所述智能体与交通环境进行交互，通过实时获取的交通数据来训练强化学习代理，在代理控制信号灯的同时不断优化DQN网络的参数，直到参数收敛，强化学习代理学习到一个最佳的控制策略，并且所述控制策略能够适应交通变化而调整，最小化所有出行车辆的平均等待时间，并根据实时交通状况对信号灯的相位做出最佳选择。

5.如权利要求1所述的方法，其特征在于，路口的监视属性需要实时计算，在监视属性到达阈值时结束当前相位；阈值为0.7；在每个相位持续5s后，每隔1s重新计算路口的监视属性，若监视属性小于0.7，则表明该相位需要重新选择。

6.如权利要求1所述的方法，其特征在于，所述步骤4的详细过程为：首先初始化强化学习网络以及经验回放缓冲区D；每当当前相位持续时间超过5s后，智能体观察环境，通过包括测速仪、传感器在内的物联网设备上传信息获得状态S，并计算路口的监视属性；当监视属性到达阈值时，交通信号灯结束当前相位，将当前相位下获得的经验＜S,A,R,S'＞传输至经验回放缓冲区，当存储的经验数量满足可用于训练的数量时，智能体会从经验回放缓冲区中随机选择一批设定完批大小的样本进行模型训练，并使用随机梯度下降来更新网络权重；基于更新的DQN网络重新选择交通信号灯的下一相位；将状态S输入到强化学习模型中，模型计算得到相位动作A；接着在相位持续5s后实时计算监视属性，并基于相位结束时的状态计算该相位动作的奖励R，相位结束时的状态为该相位的下一个状态S'。