CN114360266B

CN114360266B - 一种网联车探测状态感知的交叉口强化学习信号控制方法

Info

Publication number: CN114360266B
Application number: CN202111560168.4A
Authority: CN
Inventors: 张健; 王涵; 王博; 姜夏; 史晓宇; 熊壮
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-12-13
Anticipated expiration: 2041-12-20
Also published as: CN114360266A

Abstract

本发明公开了一种网联车探测状态感知的交叉口强化学习信号控制方法，在网联自动驾驶车辆具有一定市场渗透率的情况下，将交叉口进口道划分为一定数目的网格，以网联自动驾驶车辆作为移动传感器，探测周围车辆的实时位置、速度等数据，将数据填充到相应的进口道网格中，形成网格填充矩阵。将信号灯视作智能体并设计马尔可夫决策过程，以网格填充矩阵作为智能体状态，以相位切换为动作，以车辆更新等待时间为奖励函数。采用深度策略梯度算法训练智能体，可以减少车辆的等待时间，同时实现排队长度以及平均速度的优化。本发明提出的方法能够在对信号交通口进行控制时减少交通拥堵，缓解因交通拥堵带来的交通延误和碳排放及能源消耗。

Description

一种网联车探测状态感知的交叉口强化学习信号控制方法

技术领域

本发明涉及一种网联车探测状态感知的交叉口强化学习信号控制方法，属于车路协同智能交通道路交叉口信号灯优化控制技术领域。

背景技术

交通拥堵会导致交通延误，产生额外的污染排放，构建智能交通管理系统可以有效避免城市交通拥堵。交通信号控制是交通管理系统的核心，可以在保证安全的前提下有效减少拥堵。现有的驱动信号控制、协同信号控制等方法可以用来解决交通拥堵问题，其中最有前景的是根据交通流量调整信号相位和间隔的自适应交通信号控制方法。基于自适应控制方法的交通信号控制系统是目前广泛应用的信号控制系统，相比于固定配时系统，自适应交通信号控制系统提高了交通灯的灵活性以及道路运行效率。但自适应信号控制系统难以应对大规模交通路网的交通信号协调控制，基于此，由深度学习与强化学习结合的深度强化学习被应用于交叉口车辆控制与信号控制。自适应交通信号控制主要使用的方法是模糊逻辑、群体智能算法和神经网络等智能算法。但随着人工智能技术的发展，强化学习展现了处理真实的自适应交通信号控制问题的巨大潜力。在强化学习中，经训练的智能体可以根据CAVs探测的状态选择动作，通过对交通信号的控制缓解交通拥堵。

此外，基于优先级信号的城市交叉口交通管理方案也被应用于减少拥挤和车辆平均等待时间。但是对于智能网联车辆而言，由于感知范围有限，交通效率的提升并不明显。同时，通过控制单个车辆来调节冲突运动从而改善交叉口性能的方法也诞生，通过控制单个车辆的速度、跟驰与换道行为来管理交通。

在自适应交通信号控制问题中，交通信号灯作为智能体，可以根据它观测到的道路状态做出行为决策。现有的表示道路状态的方法大致分为以下三种：从模拟器导出的快照、聚合的交通信息、离散交通状态编码。其中第一种需要使用从交通仿真系统中拍摄的交叉口照片，使用这些照片作为卷积神经网络的输入并提取车辆和道路特征，现实获取难度高。而第二种与第三种状态表征需要通过传感器、摄像头等设备来获取。安装道路监控设备成本高，且存在由于客观条件无法获取清晰的道路状态的可能，传统线圈和视频探测器设备在状态表征任务中功能不足。此外，传统交通传感器的安装和维护有时会对道路铺装产生破坏，甚至需要封锁车道，这些都会给城市交通管理带来不便。

发明内容

本发明所要解决的技术问题是：提供一种网联车探测状态感知的交叉口强化学习信号控制方法，利用联网车辆作为移动传感器，为交通信控智能体提供状态信息；以交通信号灯为智能体，采用策略梯度算法对交通信号灯智能体进行训练，优化交通信号控制。

本发明为解决上述技术问题采用以下技术方案：

一种网联车探测状态感知的交叉口强化学习信号控制方法，包括如下步骤：

步骤1，在网联自动驾驶车辆与非自动驾驶车辆共存的场景下，构建交通系统仿真环境，在所述仿真环境中将所述网联自动驾驶车辆作为移动传感器，获取交通流状态信息；

步骤2，使用改进的离散交通流状态编码，将所述网联自动驾驶车辆获取的交通流状态信息转化为检测掩码矩阵、位置矩阵和速度矩阵；

步骤3，使用马尔可夫决策过程定义交通系统的智能体、状态变量、动作和目标；

步骤4，采用深度策略梯度算法训练智能体，将状态变量作为深度策略梯度算法种策略网络的输入，策略网络的输出为智能体选择各动作的概率，经过训练后的智能体即能够根据网联自动驾驶车辆获取的交通流状态信息选择相位切换动作。

作为本发明的一种优选方案，所述步骤2的具体过程如下：

令步骤1构建的交通系统仿真环境中各交叉口的编号为j，j＝1,2,…，则交叉口j获取的交通流状态信息转化为检测掩码矩阵D_j、位置矩阵P_j和速度矩阵V_j；

根据车辆平均长度，将交叉口各进口道上每个车道划分为若干个大小相同的道路单元，每个道路单元与检测掩码矩阵中的元素一一对应，每个道路单元与位置矩阵中的元素一一对应，每个道路单元与速度矩阵中的元素一一对应；

检测掩码矩阵中的元素值表征其所对应的道路单元是否能够被进口道上的网联自动驾驶车辆观测到，若能够被至少一辆网联自动驾驶车辆观测到，则该元素值为1，否则为0；

位置矩阵表征进口道上所有能够被网联自动驾驶车辆观测到的道路单元内是否有车，若某道路单元能够被网联自动驾驶车辆观测到，且该道路单元内有车，则该道路单元在位置矩阵中对应的元素值为1；若某道路单元能够被网联自动驾驶车辆观测到，且该道路单元内无车，则该道路单元在位置矩阵中对应的元素值为0；若某道路单元不能够被至少一辆网联自动驾驶车辆观测到，则该道路单元在位置矩阵中对应的元素值为0；

速度矩阵表征被网联自动驾驶车辆观测到的道路单元内车辆的位置及速度，若某道路单元能够被网联自动驾驶车辆观测到，且该道路单元内有车，则该道路单元在速度矩阵中对应的元素值为道路单元内车辆的速度；除此之外，速度矩阵中其他元素值均为0。

作为本发明的一种优选方案，所述步骤3的具体过程如下：

定义智能体为交通信号灯，状态变量由检测掩码矩阵、位置矩阵和速度矩阵构成，其中，检测掩码矩阵由网联自动驾驶车辆的位置与探测半径决定，位置矩阵和速度矩阵的确定基于网联自动驾驶车辆能够探测的范围以及网联自动驾驶车辆能够探测的范围内车辆的状态；

定义智能体的动作为信号相位是否变化，根据预先设定的相位情况，智能体的两种动作选择分别为：切换到下一相位，即a＝1；保持当前相位，即a＝0；智能体每次动作的时间间隔为15秒，相位总时长不得超过60秒；

定义智能体的目标为所有车辆等待时间之和最小，智能体根据即时的状态以所有车辆的等待时间之和为奖励函数选择自己的动作，其中，单车等待时间具体公式为：

其中，W_i(t)表示车辆i在时刻t的等待时间，单位秒；Δt表示步长间隔，单位秒；v_i(t)表示车辆i在时刻t的速度，单位米每秒。

作为本发明的一种优选方案，步骤4所述策略网络包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层、第一全连接层和第二全连接层；其中，第一、第二、第三卷积层的卷积核大小依次为3×3、5×5、3×3，通道数依次为32、128、512；第一、第二、第三最大池化层的采样核大小依次为2×2、2×2、3×3；第一、第二全连接层的单元数依次为512、256；所述策略网络的输入即第一卷积层的输入维数为m×n×3，其中，m＝交叉口数量×每个交叉口进口道数量×每个进口道车道数量，n＝车道长度/车道上划分的道路单元的长度，3表示检测掩码矩阵、位置矩阵和速度矩阵这三个矩阵。

作为本发明的一种优选方案，步骤4所述深度策略梯度算法中，用θ表示策略网络的参数，深度策略梯度算法的思想是带参数θ的最优策略满足等式：

状态s选定时，各个动作选择概率总和为1；S表示状态集合，π表示策略，a表示动作；

用J_θ表示给定策略π时，状态s的价值函数，对其求梯度：

表示对J_θ(t)中的θ求梯度，

表示给定策略π时，变量

的期望值，γ^t表示时刻t的折扣率，G_t表示从时刻t到回合终止智能体积累的奖励之和，a_t表示时刻t的动作，s_t表示时刻t的状态，θ_t表示时刻t的参数，T表示回合终止的时间；

利用学习率因子α迭代更新参数θ以获得最优策略：

其中，θ_t+1表示时刻t+1的参数，α＝0.0004；

带参数θ的策略表示为：

其中，h表示动作偏好函数，a′表示动作；

利用策略网络迭代θ去逼近最优策略，同时将最优策略转化为概率输出，策略网络经过训练后即能够根据智能体交通信号灯获取的交通状态流选择相位切换动作。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、为了解决传感器部署和道路重建成本高以及交通拥堵的问题，本发明提出了一种新的离散交通状态编码方法，利用联网车辆作为移动传感器，为交通信控智能体提供状态信息。以交通信号灯为智能体，采用策略梯度算法对交通信号灯智能体进行训练，采用微观交通模拟器SUMO进行实验，提出一种网联车探测状态感知的交叉口强化学习信号控制方法。

2、CAVs装备了雷达、摄像头等传感设备，帮助车辆探测、收集道路的状态信息。智能联网车辆可以通过车路之间的通信将交通状态信息转换为交通信号，从而减少用于建造传统传感设备方面的支出。现有的技术大多假设基于网联自动车处于较高市场占有率的情况下，本发明在较低的市场占有率下仍有意义。

3、本发明能够在对信号交通口进行控制时减少交通拥堵，缓解因交通拥堵带来的交通延误和碳排放及能源消耗，以实现城市地面交通系统运行效率和节能减排的进一步提升。

附图说明

图1是本发明实施例2*2道路交叉口图；

图2是本发明单元化后的道路检测掩码矩阵、位置矩阵与速度矩阵图；

图3是路口信号相位图；

图4是本发明深度策略梯度算法的流程图；

图5是策略网络结构图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

强化学习是人工智能的一个重要分支，可以处理各种各样的决策问题。强化学习中，智能体通过感知到的环境实现从环境到动作的映射。强化学习用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化的问题。强化学习基于实时的试错机制，因而误差可以用来评估路径的质量。近年来，基于深度神经网络的非线性表征能力，产生了深度学习与强化学习结合的研究方式。在深度强化学习中，可以对道路交通环境进行基于马尔科夫决策过程的建模，这种建模更适用于自适应交通信号控制系统。与此同时，智能联网车辆装备了雷达、摄像头等各种各样的传感设备，这些可以作为车辆的眼睛，探测、收集道路的状态信息。智能联网车辆可以通过车路之间的连接，实现交通状态信息到交通信号控制的转化，从而减少安装传统传感设备的支出。

本发明提供一种基于网联车辆探测状态感知的交叉口强化学习信号控制方法，为了解决传感器部署和道路重建成本高以及交通拥堵的问题，提出了一种新的离散交通状态编码方法。利用网联自动驾驶车辆(Connected and Automated Vehicles，CAVs)作为移动传感器，为交通信控智能体提供状态信息。采用策略梯度算法对智能体进行训练，采用微观交通模拟器SUMO进行实验，提出一种城市地面交通网络信号交叉口的控制方法。

实施例

实施例处于CAVs与非自动驾驶车辆共存的场景下，设计了2*2的交通网格信号控制环境，如图1所示。交叉口编号为j，j∈(1,2,3,4)。每节路段长度为300米，并且为每个交叉口都设置了专门的左转车道。在此情境下，采用多智能体强化学习的模型。该道路系统状态的演变可以用马尔科夫决策过程来表示，对马尔可夫决策过程的要素的定义会对系统产生重要影响。智能体通过状态分享机制参考全局的状态，但动作仍是独自执行的。

CAVs为保障安全装备了先进的传感器设备。尽管部分现有研究认为为确保安全，路侧单元应该为CAVs提供播报更多的道路信息，由CAVs收集的信息可以被传送到车路协同系统中的道路系统。在CAVs具有一定市场占有率的情况下，将其作为移动传感器为道路系统提供交通状态信息。CAVs通过装备先进的传感器设备保证行驶车辆和周围车辆的安全，由CAVs收集的道路上的车辆信息传输到车路协同系统中。基于车路协同工作的系统，使用改进的离散交通流状态编码，使CAVs与非自动驾驶车辆置于同一道路场景中进行分析。

CAVs可以提供自身以及探测半径内其他车辆的位置和速度信息。如图2所示，将车道按一定的尺寸划分为道路单元，路段上车辆的状态由检测掩码矩阵D_j、位置矩阵P_j与速度矩阵V_j表示。检测掩码矩阵表征该道路单元是否可以被CAVs观测到，位置矩阵代表征道路内所有可以被CAVs观测到的位置单元内是否有车，速度矩阵提供被探测车辆所在位置以及速度值。

使用马尔可夫决策过程(Markov Decision Process，MDP)的基本架构对道路系统进行建模：

智能体：强化学习的本体，作为学习者或决策者。具备学习能力的智能体能够在某种程度上感知环境的状态，然后采取动作并影响环境状态。在本发明中，智能体为交通信号灯，通过收集到的道路车辆环境信息，训练交通信号灯的周期与相位时长，优化对车辆的管理训练后的交叉口信号灯也会进一步影响路网中车辆的状态。

状态：在强化学习中，“状态”既作为策略和价值函数输入，同时又作为模型的输入和输出。如图2中，进口道根据车道和车辆平均长度被划分为若干个单元：通过单元的状态表现道路系统状态的变化，状态变量由探测范围矩阵、位置矩阵以及速度矩阵构成。速度和位置状态的探测由CAVs完成。可探测范围矩阵由CAVs的位置与探测半径决定。位置矩阵与速度矩阵的确定基于CAV可探测的范围以及CAVs周围的非自动驾驶车辆的状态。

动作：即智能体可以做出的动作。动作指信号相位是否变化。根据预先设定的相位情况(即图3中预设的相位顺序)，智能体的两种动作选择分别是：

a＝1：切换到下一相位；

a＝0：保持当前相位；

智能体的动作切换由策略梯度算法输出的概率决定，其目标为最大化期望奖励值。

智能体每次动作的时间间隔为15秒，相位总时长不得超过60秒。

收益：在强化学习中，形式化表征智能体的目标的标量数值，智能体的目标就是最大化收益累积和的概率期望值。智能体根据即时的状态以奖励规则为优化目标选择自己的动作。在本发明中，使用最新的所有车辆等待时间之和作为奖励值。单车等待时间：

其中：W_i(t)表示车辆i在时刻t的等待时间，单位秒；Δt表示步长间隔，单位秒；v_i(t)表示车辆i在时刻t的速度，单位米每秒。

以全部车辆的等待时间和为奖励函数，实现车辆总等待时间的最小化。

策略：强化学习是从环境状态到每个动作选择概率之间的映射，称该映射关系为策略，即智能体如何选择动作的思考过程。在本发明中，采用深度策略梯度算法训练智能体。

如图4所示，具体策略梯度算法过程如下：

用参数集合θ代表神经网络或线性逼近函数的参数，深度策略梯度算法的基本思想是带参数θ的近似最优策略，满足等式：

在特定状态s时各种动作选择概率总和为1。

基于各个阶段积累的奖励，用J_θ评估特定情况下的价值。J_θ是指在当前参数化策略下，特定状态的价值函数，其梯度是关于参数向量θ每个元素的偏导组成的列向量。

在给定策略π时，[]中变量的期望值；

γ-折扣率，决定了未来收益的现值：未来时刻k的收益值只有它的当前值的γ^k-1倍。因此智能体尝试选择动作，使得它在未来收到的经过折扣系数加权后的收益是最大化的；

G_t-从时刻t到回合终止智能体积累的奖励之和；

T-回合终止的时间；

α作为学习率因子，迭代更新参数θ以获得最佳策略：

动作偏好函数表示每个状态和动作的数值偏好。此外，使用指数softmax分布避免确定性决策，使其估计值收敛于对应的真实值，因此参数策略可以表示为：

动作偏好函数的形式可以是线性逼近也可以是人工神经网络，由于深度神经网络具有良好的非线性逼近能力，本发明选用深度学习模型逼近最优策略。神经网络一般称为策略网络，用于逼近最优策略。如图5所示，该网络以道路状态为输入，通过卷积运算和最大池化运算相结合的方法提取特征，经过全连接层后，通过softmax操作给出随机策略。为了得到最优策略，利用Adam优化器更新网络参数。

策略网络包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层、第一全连接层和第二全连接层；其中，第一、第二、第三卷积层的卷积核大小依次为3×3、5×5、3×3，通道数依次为32、128、512；第一、第二、第三最大池化层的采样核大小依次为2×2、2×2、3×3；第一、第二全连接层的单元数依次为512、256；所述策略网络的输入即第一卷积层的输入维数为m×n×3，其中，m＝交叉口数量×每个交叉口进口道数量×每个进口道车道数量，n＝车道长度/车道上划分的道路单元的长度，3表示检测掩码矩阵、位置矩阵和速度矩阵这三个矩阵。

在参数化的策略网络充分训练后信号灯智能体即可根据网联车探测的交通状态选择相位切换动作。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种网联车探测状态感知的交叉口强化学习信号控制方法，其特征在于，包括如下步骤：

步骤2，使用改进的离散交通流状态编码，将所述网联自动驾驶车辆获取的交通流状态信息转化为检测掩码矩阵、位置矩阵和速度矩阵；具体过程如下：

速度矩阵表征被网联自动驾驶车辆观测到的道路单元内车辆的位置及速度，若某道路单元能够被网联自动驾驶车辆观测到，且该道路单元内有车，则该道路单元在速度矩阵中对应的元素值为道路单元内车辆的速度；除此之外，速度矩阵中其他元素值均为0；

步骤3，使用马尔可夫决策过程定义交通系统的智能体、状态变量、动作和目标；具体过程如下：

其中，W_i(t)表示车辆i在时刻t的等待时间，单位秒；Δt表示步长间隔，单位秒；v_i(t)表示车辆i在时刻t的速度，单位米每秒；

步骤4，采用深度策略梯度算法训练智能体，将状态变量作为深度策略梯度算法中策略网络的输入，策略网络的输出为智能体选择各动作的概率，经过训练后的智能体即能够根据网联自动驾驶车辆获取的交通流状态信息选择相位切换动作；

所述策略网络包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层、第一全连接层和第二全连接层；其中，第一、第二、第三卷积层的卷积核大小依次为3×3、5×5、3×3，通道数依次为32、128、512；第一、第二、第三最大池化层的采样核大小依次为2×2、2×2、3×3；第一、第二全连接层的单元数依次为512、256；所述策略网络的输入即第一卷积层的输入维数为m×n×3，其中，m＝交叉口数量×每个交叉口进口道数量×每个进口道车道数量，n＝车道长度/车道上划分的道路单元的长度，3表示检测掩码矩阵、位置矩阵和速度矩阵这三个矩阵；

所述深度策略梯度算法中，用θ表示策略网络的参数，深度策略梯度算法的思想是带参数θ的最优策略满足等式：