CN113392577A

CN113392577A - 一种基于深度强化学习的区域边界主交叉口信号控制方法

Info

Publication number: CN113392577A
Application number: CN202110541233.2A
Authority: CN
Inventors: 王银银; 金雷; 杨大鹏; 傅惠; 周家诠; 林梓潼; 欧锦赛; 黄立荣; 吴嘉明
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-09-14
Anticipated expiration: 2041-05-18
Also published as: CN113392577B

Abstract

本发明公开了一种基于深度强化学习的区域边界主交叉口信号控制方法，包括步骤：将路网分为关键区域与外围区域两大部分；基于Sumo搭建仿真平台，导入真实的公交出行数据，合理设置社会车流量，借助仿真获取关键区域MFD；建立关键区域与外围区域之间的交通流动态守恒方程；基于步骤S3建立的交通流动态守恒方程，结合模型预测控制MPC与遗传算法，求取最优边界控制参数；在求得最优边界控制参数的情况下，进行深度强化学习，得到最优的区域边界主交叉口信号控制方案，使得实际转移车流量与预期转移车流量之间的差距最小。本发明实现了城市路网的边界交叉口信号智能控制，动态的调节各区域间的进出比，以达到缓解交通拥堵的目的。

Description

一种基于深度强化学习的区域边界主交叉口信号控制方法

技术领域

本发明涉及智能交通的技术领域，尤其涉及到一种基于深度强化学习的区域边界主交叉口信号控制方法。

背景技术

随着经济的快速发展，城市交通拥堵问题变得非常严重，造成了巨大的经济损失，尤其是在中国。道路交叉口的短时交通需求具有时变性、非线性、复杂性等特征，很难建立起精确的数学模型，简单的定时控制、感应控制方法难以适应交通流量的动态、复杂、快速变化，控制效果不好。智能交通的发展，利用人工智能知识，加强对城市交通信号的有效控制，可以有效缓解城市拥堵。

目前存在的边界控制方案：以两个交通区域为研究对象的一种最优边界控制方法，即模型预测控制法(MPC)，构建一个预测控制模型，最后以城市不同拥挤程度下MFD的稳定性作为分析指标，证明该方法比反馈调节算法更优。

目前存在的信号控制方案：一种基于信号灯组的交通信号强化学习控制方法，其每个流向的信号灯组为一个RL智能体，并采用Q学习算法根据交通流状态自动优化相位结构及顺序。

虽然基于MFD理论的边界控制已有较为成熟的发展历程，但也存在以下不足：以往的研究多是确定控制方案使路网运行效率最大化，并不从系统角度考虑寻找一个策略使路网运行效率在研究时段内整体最高。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度强化学习的区域边界主交叉口信号控制方法，以提升城市道路对居民出行的服务能力为导向，围绕基于MFD边界控制理论，开展相应调研、仿真路网搭建、数据采集处理、人工智能算法设计与优化，旨在实现城市路网的边界交叉口信号智能控制，动态的调节各区域间的进出比，以达到缓解交通拥堵的目的。本发明有利于对交通信息资源的管理和利用，提升城市道路基础设施、路况信息的服务质量，为社会公众提供安全、优质、便捷、高效的运输服务。

为实现上述目的，本发明所提供的技术方案为：

一种基于深度强化学习的区域边界主交叉口信号控制方法，包括以下步骤：

S1、将路网分为关键区域与外围区域两大部分；

S2、基于Sumo搭建仿真平台，导入真实的公交出行数据，合理设置社会车流量，借助仿真获取关键区域MFD；

S3、建立关键区域与外围区域之间的交通流动态守恒方程；

S4、基于步骤S3建立的交通流动态守恒方程，结合模型预测控制MPC与遗传算法，求取最优边界控制参数；

S5、在求得最优边界控制参数的情况下，进行深度强化学习，得到最优的区域边界主交叉口信号控制方案，使得实际转移车流量与预期转移车流量之间的差距最小。

进一步地，所述步骤S3建立的状态平衡方程如下：

n_ij(k+1)＝n_ij(k)+d_ij(k)-m_ij(k)*μ_ij(k) (1)

n_ii(k+1)＝n_ii(k)+d_ii(k)-m_ji(k)*μ_ji(k)-m_ii(k) (2)

式(1)和式(2)中，n_ij(k+1)和n_ii(k+1)分别表示k+1时刻区域i内的目的地是区域j的车辆数和区域i内的目的地是区域i的车辆数，n_ij(k)和n_ii(k)分别表示k时刻区域i内的目的地是区域j的车辆数和区域i内的目的地是区域i的车辆数，d_ij(k)和d_ii(k)分别表示k-1到k时间段内区域i产生的目的地是区域j的车辆需求和区域i产生的目的地是区域j的车辆需求，m_ij(k)和m_ji(k)分别表示k-1到k时间段内区域i到区域j的转移流和区域j到区域i的转移流，μ_ij(k)和μ_ji(k)分别表示k-1到k时间段内区域i到区域j转移流的控制比率和区域j到区域i转移流的控制比率，m_ii(k)表示k-1到k时间段内区域i到区域i的完成流，区域i和区域j为两个不同的区域。

进一步地，所述步骤S4求取最优边界控制参数的具体过程如下：

S4-1)获取当前的区域的车辆状态n_ij(k)和n_ii(k)，同时获得已假设的区域之间的车辆需求d_ij(k)和d_ii(k)；

S4-2)通过以下公式获得当前时刻k控制时长T时间内的区域转移流值：

G(N_i(k))＝A₁*N_i ³(k)+A₂*N_i ²(k)+A³N_i(k)+A₄；

其中，N_i(k)表示K时刻区域i的累计车辆数，G(N_i(k))表示k时刻区域i的总的输出量，A₁，A₂，A₃，A₄为常数，由实际路网决定；

S4-3)初始化M个优化方案，每个方案中含有K个控制参数(即预测时域为K)，：U_k ^M,U_k+1 ^M,U_k+2 ^M,…,U_k+K-1 ^M，U_k ^M表示第M个方案中k时刻的边界控制参数；

S4-4)将M个方案输入交通流动态守恒方程预测出关键区域路网未来K时域内的交通状态；

S4-5)将未来K时域内的交通状态(目标值)作为适应度，通过对原种群进行选择，交叉和变异得到新一代种群；

S4-6)重复步骤4)至步骤5)，在满足设置的迭代次数后停止迭代；

S4-7)选取最优方案(U_k ^*,U_k+1 ^*,U_k+2 ^*,…U_k+K-1 ^*)的第一步即U_k ^*作为k时刻的最优边界控制参数；

S4-8)得到执行U_k ^*之后区域的车辆状态n_ij(k+1)和n_ii(k+1)，重复步骤S4-1)至步骤S4-7)直到控制结束。

进一步地，所述步骤S5中，深度强化学习以实际转移车流量和预期转移车流量的差值最小的目标，通过观察关键区域与外围区域之间的区域边界主交叉口处所有入口车道的状态进行信号控制；

其中，

预期转移车流量通过下式求得：

PTV＝[U₁₂(k)·m₁₂(k)+U₂₁(k)·m₂₁(k)]·T；

上式中，PTV为预期转移车流量，T为控制时长，U₁₂(k)和U₂₁(k)为控制时刻k的最优边界控制参数，m₁₂(k)和m₂₁(k)为控制时刻k的从1区到2区的转移车流量及从2区到1区的转移车流量；

实际转移车流量通过下式求得：

上式中，

为k时刻所有路口的转移数之和；

目标函数为：

Z＝min(PTV-ATV)；

环境基于以下数学模型搭建：

n^hm(k+1)＝n^hm(k)-out^hm(k)+in^hm(k)

上式中，n^hm(k)是时刻k内交叉口h进口车道m的等待车辆数，out^hm(k)是k时刻内交叉口h进口道m的实际通过车辆数，in^hm(k)是时刻k内实际进入交叉口h进口道m的车辆数，n^hm(k+1)是k+1时刻内交叉口h进口道m的实际等待车辆数；

out^hm(k+1)为k+1时刻通过交叉口h进口道m的车辆数，g_m(k)为k时刻内路口h,进口道m所对应的相位绿灯时间，

表示当前相位所有的进口道的等待车辆总和，saturation表示交叉口h进口道m的饱和流率。

进一步地，深度强化学习的具体过程如下：

1)初始化一个经验池D，容量大小为N；初始化一个Q神经网络的参数w，w为神经网络的权重矩阵；初始化一个target神经网络的参数w^-，且使w＝w^-；

2)获取初始状态值，即各主交叉口进口道的排队车辆数以及预期转移车辆数；

3)将各主交叉口进口道的排队车辆数以及预期转移车辆数输入Q神经网络中，利用ε-greedy策略输出信号控制方案；

4)将步骤3)输出的信号控制方案输入至交通仿真模型进行仿真，得到实际转移车流量的值以及下一时刻的各路口进口道的等待车流量；

5)收集以上步骤2)至步骤4)产生的信息即(s_k,a_k,r_k,s_k+1)存储至经验池D中，主要内容分别为k时刻的状态值s_k，k时刻采取的信号方案a_k，执行信号方案后的奖赏值r_k(实际转移车流量和预期转移车流量的差值)以及下一时刻状态值s_k+1；

6)当D中的信息满足设定数量后，从D中随机抽样m个样本(s_j,a_j,r_j,s_j+1)；

7)基于m个样本在target神经网络中计算估计值y_j：

其中,γ为折扣因子，max_a`Q(s_j+1,a^`；w^-)表示利用target神经网络对下一状态所有动作进行估值比较后选取最大的Q值(动作的估值)作为远期回报，加上当前回报r_j，赋值给y_j；若下一时刻结束当前episode，则无远期回报，将当前回报r_j，赋值给y_j；

8)将步骤6)中样本的s_j，a_j输入到Q神经网络中，得到实际的动作估值Q(s_j,a_j；w)；

9)利用步骤7)中得到的估计值y_j与步骤8)中得到的动作估值Q(s_j,a_j；w)构造损失函数即(y_j-Q(s_j,a_j；w))²；

10)针对步骤9)中的损失函数，使用梯度下降法更新Q神经网络的w值；

11)每相隔设定步数C，将Q神经网络参数全部赋值给target神经网络；

12)重复步骤3)至步骤11)，直至target神经网络的损失函数收敛。

与现有技术相比，本方案原理及优点如下：

1.选取两个区域作为边界控制的控制对象，通过解决易于拥堵的关键区域并辐射周围来缓解整个城市的交通拥堵状况，不仅使问题的复杂性和难度降低，也符合实际的交通管理需求。

2.围绕基于MFD边界控制理论，开展相应调研、仿真路网搭建、数据采集处理、人工智能算法设计与优化方案设计，实现城市路网的边界交叉口信号智能控制，动态的调节各区域间的进出比，以达到缓解交通拥堵的目的。

本方案有利于对交通信息资源的管理和利用，提升城市道路基础设施、路况信息的服务质量，为社会公众提供安全、优质、便捷、高效的运输服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于深度强化学习的区域边界主交叉口信号控制方法的原理图；

图2为本发明一种基于深度强化学习的区域边界主交叉口信号控制方法中求取最优边界控制参数的原理图；

图3为本发明一种基于深度强化学习的区域边界主交叉口信号控制方法中深度强化学习的流程图；

图4为实施例中低需求下的训练结果图；

图5为实施例中高需求下的训练结果图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

如图1所示，本实施例所述的一种基于深度强化学习的区域边界主交叉口信号控制方法，包括以下步骤：

S1、将路网分为关键区域与外围区域两大部分。

S2、基于Sumo搭建仿真平台，导入真实的公交出行数据，合理设置社会车流量，借助仿真获取关键区域MFD。

S3、建立关键区域与外围区域之间的交通流动态守恒方程，具体如下：

n_ij(k+1)＝n_ij(k)+d_ij(k)-m_ij(k)*μ_ij(k) (1)

n_ii(k+1)＝n_ii(k)+d_ii(k)-m_ji(k)*μ_ji(k)-m_ii(k) (2)

S4、基于步骤S3建立的交通流动态守恒方程，结合模型预测控制MPC与遗传算法，求取最优边界控制参数，如图2所示，具体过程如下：

G(N_i(k))＝A₁*N_i ³(k)+A₂*N_i ²(k)+A³N_i(k)+A₄；

S5、在求得最优边界控制参数的情况下，进行深度强化学习，以实际转移车流量和预期转移车流量的差值最小的目标，得到最优的区域边界主交叉口信号控制方案，使得实际转移车流量与预期转移车流量之间的差距最小。

本步骤中，预期转移车流量通过下式求得：

PTV＝[U₁₂(k)·m₁₂(k)+U₂₁(k)·m₂₁(k)]·T；

实际转移车流量通过下式求得：

上式中，

为k时刻所有路口的转移数之和；

目标函数为：

Z＝min(PTV-ATV)；

环境基于以下数学模型搭建：

n^hm(k+1)＝n^hm(k)-out^hm(k)+in^hm(k)

out^hm(k+1)为k+1时刻通过交叉口h进口道m的车辆数，g_m(k)为k时刻内路口h，进口道m所对应的相位绿灯时间，

如图3所示，深度强化学习的具体过程如下：

7)基于m个样本在target神经网络中计算估计值y_j：

本实施例以广州某两个交通子区为研究对象，创建了车辆高需求与车辆低需求两个场景，实验结果如图4和图5所示，从图中可见，1)强化学习算法在训练过程中确实有向差距值变小的方向发展；2)强化学习算法自主学习选择的信号方案是优于固定信号方案。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于深度强化学习的区域边界主交叉口信号控制方法，其特征在于，包括以下步骤：

S1、将路网分为关键区域与外围区域两大部分；

S3、建立关键区域与外围区域之间的交通流动态守恒方程；

2.根据权利要求1所述的一种基于深度强化学习的区域边界主交叉口信号控制方法，其特征在于，所述步骤S3建立的状态平衡方程如下：

n_ij(k+1)＝n_ij(k)+d_ij(k)-m_ij(k)*μ_ij(k) (1)

n_ii(k+1)＝n_ii(k)+d_ii(k)-m_ji(k)*μ_ji(k)-m_ii(k) (2)

3.根据权利要求2所述的一种基于深度强化学习的区域边界主交叉口信号控制方法，其特征在于，所述步骤S4求取最优边界控制参数的具体过程如下：

G(N_i(k))＝A₁*N_i ³(k)+A₂*N_i ²(k)+A³N_i(k)+A₄；

S4-3)初始化M个优化方案，每个方案中含有K个控制参数：

U_k ^M，U_k+1 ^M，U_k+2 ^M，…，U_k+K-1 ^M，U_k ^M表示第M个方案中k时刻的边界控制参数；

S4-5)将未来K时域内的交通状态作为适应度，通过对原种群进行选择，交叉和变异得到新一代种群；

S4-6)重复步骤S4-4)至步骤S4-5)，在满足设置的迭代次数后停止迭代；

S4-7)选取最优方案(U_k ^*，U_k+1 ^*，U_k+2 ^*，…U_k+K-1 ^*)的第一步即U_k ^*作为k时刻的最优边界控制参数；

4.根据权利要求1所述的一种基于深度强化学习的区域边界主交叉口信号控制方法，其特征在于，所述步骤S5中，深度强化学习以实际转移车流量和预期转移车流量的差值最小的目标，通过观察关键区域与外围区域之间的区域边界主交叉口处所有入口车道的状态进行信号控制；

其中，

预期转移车流量通过下式求得：

PTV＝[U₁₂(k)·m₁₂(k)+U₂₁(k)·m₂₁(k)]·T；

上式中，PTV为预期转移车流量，T为控制时长，U₁₂(k)和U₂₁(k)为控制时刻k的最优边界控制参数，m₁₂(k)和m₂₁(k)为控制时刻k从1区到2区的转移车流量及从2区到1区的转移车流量；

实际转移车流量通过下式求得：

上式中，

为k时刻所有路口的转移数之和；

目标函数为：

Z＝min(PTV-ATV)；

环境基于以下数学模型搭建：

n^hm(k+1)＝n^hm(k)-out^hm(k)+in^hm(k)

上式中，n^hm(k)是时刻k内交叉口h进口车道m的等待车辆数，out^hm(k)是k时刻内交叉口h进口道m的实际通过车辆数，in^hm(k)是时刻k内实际进入交叉口h进口道m的车辆数，n^hm(k+1)是k+1时刻内交叉口h进口道m的实际等待车辆数；out^hm(k+1)为k+1时刻通过交叉口h进口道m的车辆数，g_m(k)为k时刻内路口h，进口道m所对应的相位绿灯时间，

5.根据权利要求4所述的一种基于深度强化学习的区域边界主交叉口信号控制方法，其特征在于，深度强化学习的具体过程如下：

1)初始化一个经验池D，容量大小为N；初始化一个Q神经网络的参数w，w为神经网络的权重矩阵；初始化一个target神经网络的参数w，且使w＝w；

5)收集以上步骤2)至步骤4)产生的信息即(s_k，a_k，r_k，s_k+1)存储至经验池D中，主要内容分别为k时刻的状态值s_k，k时刻采取的信号方案a_k，执行信号方案后的奖赏值r_k以及下一时刻状态值s_k+1；

6)当D中的信息满足设定数量后，从D中随机抽样m个样本(s_j，a_j，r_j，s_j+1)；

7)基于m个样本在target神经网络中计算估计值y_j：

其中，γ为折扣因子，max_a`Q(s_j+1，a`；w^-)表示利用target神经网络对下一状态所有动作进行估值比较后选取最大的Q值作为远期回报，加上当前回报r_j，赋值给y_j；若下一时刻结束当前episode，则无远期回报，将当前回报r_j，赋值给y_j；

8)将步骤6)中样本的s_j，a_j输入到Q神经网络中，得到实际的动作估值Q(s_j，a_j；w)；

9)利用步骤7)中得到的估计值y_j与步骤8)中得到的动作估值Q(s_j，a_j；w)构造损失函数即(y_j-Q(s_j，a_j；w))²；

10)针对步骤9)中的损失函数，使用梯度下降法更新0神经网络的w值；