CN111951575B

CN111951575B - 基于提前强化学习的交通信号灯自适应控制方法

Info

Publication number: CN111951575B
Application number: CN202010811650.XA
Authority: CN
Inventors: 上官伟; 杜煜; 柴琳果; 蔡伯根; 邱威智
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2023-04-07
Anticipated expiration: 2040-08-13
Also published as: CN111951575A

Abstract

本发明提供了一种基于提前强化学习的交通信号灯自适应控制方法。该方法包括：基于车路协同感知获取交通信号灯的管控区域内的所有车辆的位置与速度信息，根据所有车辆的位置与速度信息构建交通信号灯的管控区域交通状态矩阵；基于管控区域交通状态矩阵利用神经网络的训练过程，对交通信号灯在未来时刻的交通信号灯相位做出自适应决策；在未来时刻到来后，交通信号灯根据自适应决策选择对应的相位进行显示。本发明的方法实现了城市交叉口信号控制器的区域环境感知、提前信号决策与双向倒计时控制，可以解决自适应信号控制系统无法预测的缺点，为疏解交叉口区域交通流量提供基于智能体自学习的交通信号灯控制方法。

Description

基于提前强化学习的交通信号灯自适应控制方法

技术领域

本发明涉及交通信号等控制管理技术领域，尤其涉及一种基于提前强化学习的交通信号灯自适应控制方法。

背景技术

交叉口控制是现代城市交通控制系统中一个长期存在的重要问题，交通信号控制系统的智能水平是城市道路中影响交通效率的关键。不适当的信号相位顺序和不适当的交相位划分是定时控制方法造成交通拥堵、浪费绿灯时间的两个主要原因。

强化学习是一种机器学习方法，它强调智能体根据环境状态进行操作以获得最大的预期收益。它广泛用于许多领域，例如机器人控制，推荐系统等。交通信号控制系统可以看作是一个典型的强化学习问题。道路和车辆构成了动态的交通环境，交通信号灯被认为是一种智能体，它可以通过学习最佳控制策略来根据交通状况最大化预期交通效率。

然而和其他自适应信号控制方法一样，基于强化学习的交通信号灯控制方法无法预测其未来状态，导致人工驾驶车辆或者智能网联车辆无法根据剩余绿灯或红灯时间优化其驾驶行为。未来较长时间内，城市交通主体将为不同智能等级车辆组成的异构交通主体，而自适应信号控制系统的不可预测性，使其难以在未来车辆与基础设施之间的协同决策中广泛应用。

目前，现有技术中还没有一种能够有效地为交通参与者提前提供相位信息的基于强化学习的交通信号控制方法。

发明内容

本发明提供了一种基于提前强化学习的交通信号灯自适应控制方法，以实现一种基于提前强化学习的交通信号灯自适应控制方法。

为了实现上述目的，本发明采取了如下技术方案。

一种基于提前强化学习的交通信号灯自适应控制方法，包括：

基于车路协同感知获取交通信号灯的管控区域内的所有车辆的位置与速度信息，根据所述所有车辆的位置与速度信息构建所述交通信号灯的管控区域交通状态矩阵；

基于所述管控区域交通状态矩阵利用神经网络的训练过程，对所述交通信号灯在未来时刻的交通信号灯相位做出自适应决策；

在所述未来时刻到来后，所述交通信号灯根据所述自适应决策选择对应的相位进行显示。

优选地，所述的基于车路协同感知获取交通信号灯的管控区域内的所有车辆的位置与速度信息，根据所述所有车辆的位置与速度信息构建所述交通信号灯的管控区域交通状态矩阵，包括：

通过安装在交通信号灯顶部的摄像头拍摄管控区域内上游车道线上的车辆的实时位置，并对每帧图像中的所有车辆进行关联，实现车辆跟踪，通过视频感知获得车辆的速度与位置信息；通过无线通信网络接收来自上游管控区域内的智能网联车辆发送过来的车辆的速度与位置信息，将通过视频感知的数据和无线通信接收到的车辆的速度与位置信息进行融合，获取交通信号灯的管控区域内的所有车辆的位置与速度信息；

根据管控区域内的所有车辆的实时位置和速度信息构建管控区域交通状态矩阵，该管控区域交通状态矩阵的有效数据范围根据管控区域内的车速变化信息而定。

优选地，所述的该管控区域交通状态矩阵的有效数据范围根据管控区域内的车速变化信息而定，包括：

所述管控区域交通状态矩阵的有效数据范围d_p的计算方法为：

d_p＝(t+C)×v_m

其中，t为交通信号灯的控制周期开始时刻，C为控制周期长度，v_m为上一个控制周期内车辆的最大速度。

优选地，所述的基于所述管控区域交通状态矩阵利用神经网络的训练过程，对所述交通信号灯在未来时刻的交通信号灯相位做出自适应决策，包括：

将所述管控区域交通状态矩阵作为神经网络的输入，利用所述神经网络进行自适应决策的训练拟合过程，利用所述神经网络拟合表示任意交通状态下交通信号灯的各个可选相位的长期回报期望值的函数，所述神经网络选择Q值向量中数值最大的元素，将该元素标号对应的相位作为交通信号灯在未来时刻的信号相位决策结果，所述Q值向量的长度为交通信号灯可选的相位数量，所述Q值向量的每一位表示其对应信号相位的长期回报期望值；

所述信号相位的长期回报期望值为执行动作的瞬时回报在时间上的累积，所述瞬时回报考虑管控区域内的车辆排队长度和车辆行驶速度两个评估参数，并以同一条件下定时控制效果为参考，如果控制效果优于定时控制效果，瞬时回报值为正数，反之；瞬时回报值为负数，其计算方法如下：

其中：R_t为一个仿真步长获得的回报值，

为一个控制周期结束后的回报值，C为周期长度，s为当前区域交通状态矩阵，s′为在当前状态s的条件下依据策略π执行动作a，系统将转移到的下一个状态，Q_t为t时刻的车道排队长度，V_t为t时刻的车辆平均速度，

和

分别为该时刻由定时控制测试得到的排队长度基准值和车辆速度基准值，tanh()函数用于将两个参数归一化到同一范围，Q(s，a)表示在状态s下执行动作a所得到的Q值；r(s，a)表示在状态s下执行动作a所得到的短期收益值；E为期望函数，γ^k是一个算法参数称为折扣系数，R_t+k为t+k时刻的回报值，S_t为t时刻的交通状态矩阵，x，e^x是为了说明tanh函数意义引入的自变量与e指数函数，A_t为t时刻智能体执行的动作，即选择的信号相位。

优选地，所述的在所述未来时刻到来后，所述交通信号灯根据所述自适应决策选择对应的相位进行显示，包括：

将自适应决策选择的交通信号灯在未来时刻的相位与当前交通信号灯的相位进行比较，如果比较结果为不同，则当前交通信号灯的相位从开始倒计时，直到倒数到0，在所述未来时刻到来后，所述交通信号灯根据所述自适应决策选择对应的相位进行显示；如果比较结果为相同，则当前交通信号灯的相位保持不变，在所述未来时刻到来后，所述交通信号灯根据所述自适应决策选择对应的相位进行显示。

优选地，所述的方法还包括：所述交通信号灯通过无线通信网络将自适应决策选择的交通信号灯在未来时刻的相位发送给上游管控区域内的智能网联车辆。

优选地，设置双向倒计时的交通信号灯的相位包括：红灯、绿灯、红色倒计时和绿色倒计时。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例的方法实现了城市交叉口信号控制器的区域环境感知、提前信号决策与双向倒计时控制，可以解决自适应信号控制系统无法预测的缺点，为网联车辆诱导、人工驾驶车辆轨迹优化提供前方交通信号灯信息，为疏解交叉口区域交通流量提供基于智能体自学习的交通信号灯控制方法。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于强化学习的交通信号灯自适应控制方法的实现原理示意图；

图2为本发明实施例提供的一种城市道路交叉口场景图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明提供了一种基于提前强化学习的交通信号灯自适应控制方法，实现基于强化学习模型动态决策交叉口交通信号灯的信号相位，提供自适应信号系统的剩余信号时间信息。该方法的实现原理示意图如图1所示，包括：交叉口动态管控区域交通信息感知步骤、提前决策强化学习的信号决策步骤、双向倒计时的交通信号灯控制步骤；

所述的交叉口动态管控区域交通信息感知步骤，用于确定下一个信号控制周期内通过交叉口的车辆范围，基于车路协同感知技术获取该车辆范围内所有车辆的位置与速度信息，根据所有车辆的位置与速度信息构建管控区域交通状态矩阵；

所述的提前决策强化学习的信号决策步骤，用于基于所述管控区域交通状态矩阵利用神经网络的训练过程，对所述交通信号灯在未来时刻的交通信号灯相位做出自适应决策。

所述的双向倒计时的交通信号灯控制步骤，用于在所述未来时刻到来后，所述交通信号灯根据所述自适应决策选择对应的相位进行显示。

交通信号灯通过无线通信网络将自适应决策选择的交通信号灯在未来时刻的相位发送给上游管控区域内的智能网联车辆。

设置双向倒计时的交通信号灯的相位包括：红灯、绿灯、红色倒计时和绿色倒计时。

优选地，在所述的交叉口动态管控区域交通信息感知步骤中，交叉口交通信号灯具备不小于100m的交通信息感知能力，通过安装在交通信号灯顶部的摄像头拍摄上游管控区域内的车道线上的车辆的实时位置，并对每帧图像中的所有车辆进行关联，实现车辆跟踪，通过视频感知获得车辆的速度与位置信息。同时通过无线通信网络接收来自上游管控区域内的智能网联车辆主动发送过来的车辆的速度与位置信息，将通过视频感知的数据和无线通信接收到的车辆的速度与位置信息进行融合，获取通过交通信号灯的管控区域内的所有车辆的位置与速度信息。

根据获取通过交通信号灯的管控区域内的所有车辆的位置与速度信息构建管控区域交通状态矩阵，该管控区域交通状态矩阵的有效数据范围根据管控区域内的车速变化信息而定，车速越快该矩阵的有效数据范围越大，车速越小该矩阵的有效数据范围越小，该矩阵的有效数据范围的计算方法为：

d_p＝(t+C)×v_m

其中，t为控制周期开始时刻，C为控制周期长度，v_m为上一个控制周期内d_p范围内车辆的最大速度。

优选地，在所述的提前决策强化学习的信号决策步骤中，将交通信号灯的决策与控制分离，提前某一固定时间段做出下一个信号控制周期的信号相位决策，并在下一个控制周期到来之时，执行该信号相位决策，即亮起从所有可选信号相位中被选择的信号相位。

由基于历史经验的训练过程和基于实时数据的测试过程组成，以扩展的管控区域交通状态矩阵作为策略训练拟合过程的神经网络的输入，以可选相位的Q值向量作为输出，Q值向量长度为交通信号灯可选的相位数量，Q向量每一位表示其对应信号相位的长期回报期望值，其训练过程是指利用神经网络拟合表示任意交通状态下可选相位长期回报期望值的函数。神经网络将选择Q向量中数值最大的元素，将该元素标号对应的相位作为决策结果输出，即作为交通信号灯在下一个信号控制周期中的信号相位。

上述训练过程中的长期回报期望值为执行动作的瞬时回报在时间上的累积，上述执行动作即选择一个信号相位，比如信号灯有南北方向和东西方向两个相位，可选动作为两种信号相位，执行动作为选择其中一种。其瞬时回报考虑交叉口排队长度和车辆行驶速度两个评估参数，并以同一条件下定时控制效果为参考，如果控制效果优于定时控制效果，瞬时回报值为正数，反之；瞬时回报值为负数，其计算方法如下：

其中：R_t为一个仿真步长获得的回报值，

为一个控制周期结束后的回报值，C为周期长度，s为当前区域交通状态矩阵，s′为在当前状态s的条件下依据策略π执行动作a，系统将转移到的下一个状态。Q_t为t时刻的车道排队长度，V_t为t时刻的车辆平均速度，

和

优选地，在所述双向倒计时的交通信号灯控制步骤中，由四种相位组成，红灯、绿灯、红色倒计时和绿色倒计时。在决策周期开始时，将提前决策交通信号灯输出状态与当前交通信号灯状态进行比较。如果决策状态与当前状态不同，则当前灯将从开始倒计时，直到倒数到0，同时下一个控制周期开始。如果决策状态与当前状态相同，则当前交通信号灯状态不变，并将一直保持到下一个决策周期开始。

优选地，所述的双向倒计时的交通信号灯控制步骤，通过比较决策输出相位与当前相位的，得到交通信号灯显示结果。如果该显示结果为红色倒计时或绿的倒计时，倒计时数值将在交通信号灯数码管上以相应颜色显示给人工驾驶车辆，同时该信息通过无线网络(LTE-V/4G/5G/DSRC)发送给网联车辆。如果该显示结果为红色或绿色，相应颜色交通信号灯将保持点亮，网联车辆将接收到剩余时间为一个控制周期的信息。无论是人工驾驶车辆还是网联车辆都能够根据接收到的信息优化其驾驶轨迹。

下面以城市道路双向六车道交叉口两个控制周期中提前决策强化学习自适应交通信号灯的控制过程为例具体介绍图1中的各个步骤的功能：

图2为本发明实施例提供的一种城市道路交叉口场景图。本实施例以如图2(a)所示的城市道路双向六车道交叉口为基础交通环境，每条车道由一个独立交通信号灯控制，所有独立交通信号灯的显示由所述的自适应控制方法控制。图2(b)所示的是交通信号灯智能体运行流程，首先交通信号灯智能体从交叉口环境中获得当前时刻交通状态S_t,包括管控范围内所有车辆的速度和位置信息，以管控区域交通状态矩阵形式存储，并将管控区域交通状态矩阵作为作为神经网络的输入，利用神经网络进行自适应决策的训练拟合过程。

此实施例中未来时刻是指提前半个周期。因此，交通信号灯智能体的输出为决策信息A_t+C/2,交通信号灯将比较A_t+C/2和当前相位的关系，从红灯、绿灯、红色倒计时和绿色倒计时四种相位中选择一种点亮，并在t+C/2时刻，执行决策输出相位A_t+C/2，在t+C时刻，交叉口下一个状态信息S_t+C和一个周期内的回报值的平均值

将由交叉口信息检测器收集并反馈给智能体，智能体以

为一组经验值，存储在内存中。通过在仿真器中对该场景的连续仿真，积累大量经验信息，利用神经网络模型对Q(s,a)函数进行拟合，优化目标为最小化以下损失函数：

其中θ为神经网络模型待拟合的参数，s为状态样本，对应本例中S_t；a为动作样本，对应本例中A_t+C/2；s′为下一时刻状态样本，对应本例中S_t+C；r(s，a)为回报值，对应本例中的

γ为时间折扣因子，常取0.9为参数。为最小化上式中的损失函数，利用反向传播梯度下降方法对该问题求解，更新神经网络参数θ。当参数变化小于预定义阈值或系统迭代次数达到最大迭代次数的时候，参数不再更新。得到的神经网络模型，可以用于同类交通环境下的交叉口信号控制。同类交通环境是指交叉口的车道数与车道类型参数一致。

应用预训练模型的具体实施过程如下：以两个周期的信号控制过程为例，如图2(c)所示，当时刻为0时，第一个决策周期开始，智能体从交叉口环境中获得当前时刻交通状态S₀,S₀是一个L*L*2的矩阵，L为交叉口感知范围，2为数据感知维度，第一个维度是车辆位置，如果该位置有车即为1，否则即为0，第二个维度是车辆速度。智能体以S₀为输入，预训练的神经网络模型作为决策模型，输出C/2时刻的相位决策信息A_C/2。对于某一特定车道来说，A_C/2中对应决策结果为绿，当前交通信号灯状态也为绿，那么，交通信号灯将保持绿灯直到下一个决策周期。在时刻C，智能体从交叉口环境中获得当前时刻交通状态S_C,与第一个控制周期类似的，输出决策信息A_3C/2，A_3C/2中对应该车道的决策结果为红，当前交通信号灯状态为绿，那么，交通信号灯将进入绿灯倒计时模式，以绿色数字形式显示从C/2到0的倒计时信息，每秒更新一次，本实例一个控制周期为10s，所以交通信号灯以绿色字体从5开始倒数直至0。同时，该倒计时信息以数据帧形式发送给环境中处于通信覆盖范围内的网联车辆。当时刻为3C/2时，倒计时信息为0，交通信号灯显示变为红灯。

综上所述，本发明实施例提出了一种提前决策强化学习的交通信号灯自适应控制方法。基于该方法实现城市交叉口信号控制器的区域环境感知、提前信号决策与双向倒计时控制，可以解决自适应信号控制系统无法预测的缺点，为网联车辆诱导、人工驾驶车辆轨迹优化提供前方交通信号灯信息，为疏解交叉口区域交通流量提供基于智能体自学习的交通信号灯控制方法。有效提高交叉口运行效率、减少交叉口排队长度、提高车辆行驶速度、减少不必要的停车。

本发明能够实现基于强化学习模型动态决策交叉口信号灯的信号相位，同时为人工驾驶车辆和网联驾驶车辆提供剩余信号时间信息，弥补自适应信号控制无法预测的缺点，为基于实时交叉口数据的城市信号灯自适应控制提供一种新方法。

本发明能够解决自适应信号灯难以预测，从而难以实现车辆诱导的问题，搭建双向倒计时机制在城市交叉口的仿真场景，对不同智能等级车辆的跟驰模型进行调整，训练深度强化学习神经网络，求解能够实现提前决策信号灯相位的自适应交通信号系统，实现在不损失绿灯时间的前提下满足人类驾驶员反应时间需求，提高交叉口通信效率，降低车辆停车次数与交叉口排队长度。为由人工驾驶车辆和智能网联车辆组成的混合交通流提供交叉口自适应管理新方法。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于提前强化学习的交通信号灯自适应控制方法，其特征在于，包括：

在所述未来时刻到来后，所述交通信号灯根据所述自适应决策选择对应的相位进行显示；

所述的基于车路协同感知获取交通信号灯的管控区域内的所有车辆的位置与速度信息，根据所述所有车辆的位置与速度信息构建所述交通信号灯的管控区域交通状态矩阵，包括：

根据管控区域内的所有车辆的实时位置和速度信息构建管控区域交通状态矩阵，该管控区域交通状态矩阵的有效数据范围根据管控区域内的车速变化信息而定；

所述的该管控区域交通状态矩阵的有效数据范围根据管控区域内的车速变化信息而定，包括：

d_p＝(t+C)×v_m

其中，t当前时刻到下个信号周期开始需要的时间，C为控制周期长度，v_m为上一个控制周期内车辆的最大速度。

2.根据权利要求1所述的方法，其特征在于，所述的基于所述管控区域交通状态矩阵利用神经网络的训练过程，对所述交通信号灯在未来时刻的交通信号灯相位做出自适应决策，包括：

其中：R_t为一个仿真步长获得的回报值，

和

分别为该时刻由定时控制测试得到的排队长度基准值和车辆速度基准值，tanh()函数用于将两个参数归一化到同一范围，Q(s,a)表示在状态s下执行动作a所得到的Q值；r(s,a)表示在状态s下执行动作a所得到的短期收益值；E为期望函数，γ^k是一个算法参数称为折扣系数，R_t+k为t+k时刻的回报值，S_t为t时刻的交通状态矩阵，x，e^x是为了说明tanh函数意义引入的自变量与e指数函数，A_t为t时刻智能体执行的动作，即选择的信号相位。

3.根据权利要求2所述的方法，其特征在于，所述的在所述未来时刻到来后，所述交通信号灯根据所述自适应决策选择对应的相位进行显示，包括：

4.根据权利要求3所述的方法，其特征在于，所述的方法还包括：所述交通信号灯通过无线通信网络将自适应决策选择的交通信号灯在未来时刻的相位发送给上游管控区域内的智能网联车辆。

5.根据权利要求3所述的方法，其特征在于，设置双向倒计时的交通信号灯的相位包括：红灯、绿灯、红色倒计时和绿色倒计时。