CN110930737A

CN110930737A - 一种基于记忆宫殿的干线协调交通信号灯控制方法

Info

Publication number: CN110930737A
Application number: CN201911226544.9A
Authority: CN
Inventors: 许潇月; 程健; 郝建根; 卢长春; 张俊; 张继锋
Original assignee: Nanjing LES Information Technology Co. Ltd
Current assignee: Nanjing LES Information Technology Co. Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-03-27
Anticipated expiration: 2039-12-04
Also published as: CN110930737B

Abstract

本发明公开了一种基于记忆宫殿的干线协调交通信号灯控制方法，包括步骤如下：1)定义状态：取干线上的每个交叉口的相位，出口道O每条车道的车辆数c(l^O)，l^O∈O，每个进口道3个断面的车辆数；2)定义动作：取四相位动作集合U，时间t时的相位p为其动作值a_t；3)设计奖励函数和最大密度差控制策略；4)深度Q值网络学习。本发明的方法提高了交通信号控制里强化学习过程的学习效率；以及保证了动作选择的准确性，从而保证了交通信号控制的有效性和高效性。

Description

一种基于记忆宫殿的干线协调交通信号灯控制方法

技术领域

本发明属于智能交通控制领域，具体指代一种在强化学习下基于记忆宫殿的干线协调交通信号灯控制方法。

背景技术

随着城市化进程的推进和居民购车量的提升，全球大都市的交通需求呈稳步上升的态势。庞大的日常交通量给现有的城市交通基础设施带来了压力，导致路网运行时出现频繁的交通拥堵。作为协调交叉口处交通运动的重要手段，智能交通信号控制算法是提高交通运输效率的关键。

早期的自适应交通控制算法通过解决优化问题，寻找有效的协调和控制策略，如成功落地的产品SCOOT和SCATS。到了90年代，跨学科技术开始被引入交通控制中，其中，模糊控制、遗传算法和神经网络是这一时期的几种代表性算法。然而，这种模型驱动的方法依赖于启发式的假设和方程式，难以很好地适应于时变的实际交通场景。而强化学习方法无需依靠启发式假设，不断与复杂交通系统交互获得经验，直接学习如何进行下一步的红绿灯调节操作，很好地契合了交通的动态特性。

然而，当前基于强化学习的信号控制方法中，存在以下几个问题：

1)奖励函数里融合了多种因素，但每种因素的权重设定缺乏依据，容易出现权重的细微调节导致性能大幅变化的情况；而如何设定权重，尚无基于理论依据的准则。

2)现存的趋于更复杂的状态表示；这种复杂的状态定义增加了学习时间，但与交通网络运行时间这一最终目标没有直接相关，所以未必带来显著的性能提升；甚至出现高维度的状态定义延缓交通网络运行时长的情况。

3)现有的基于强化学习的控制方法进行最优动作选择时，通常选择具有最大Q(s,a)值的动作；该策略没有很好地考虑交通知识对于动作选择的影响，导致选出的动作未必代表当前条件下的最优选择。

4)在Q值网络的训练过程中，通常把所有状态-动作-奖励的训练样本放入同一个存储池，agent从该存储池中随机选取样本更新网络参数；但在实际交通下，不同车道的车辆数是不均衡的。这样的存储方式容易使训练过程受到最频繁出现的相位和动作支配，而忽略了出现频率不高的相位动作组合，导致agent对这种不常见的相位-动作组合做出错误的决策。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种基于记忆宫殿的干线协调交通信号灯控制方法，本发明的方法提高了交通信号控制里强化学习过程的学习效率；以及保证了动作选择的准确性，从而保证了交通信号控制的有效性和高效性。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种基于记忆宫殿的干线协调交通信号灯控制方法，包括步骤如下：

1)定义状态：取干线上的每个交叉口的相位，出口道O每条车道的车辆数c(l^O)，l^O∈O，每个进口道3个断面的车辆数c(l^I)_n，l^I∈I,n＝1,2,3；

2)定义动作：取四相位动作集合U，时间t时的相位p为其动作值a_t；

U＝[a₁:WE-Straight,a₂:NS-Straight,a₃:WE-Left,a₄:NS-Left]

其中，WE-Straight表示东西直行，NS-Straight表示南北直行，WE-Left表示东西左转，NS-Left表示南北左转；

3)设计奖励函数：第i个交叉口的奖励为rⁱ＝-D_i；D_i由进出口道车辆密度差的累积和计算得到：

其中，c_max(l)为车道l的最大允许过车辆；

最大密度差控制策略：每个时间t，agent选择具有最大密度差的动作作为当前状态s下的最优动作：

4)深度Q值网络学习。

进一步地，所述步骤4)具体包括：

41)构建交叉口i处路网的agent模型，初始化记忆宫殿下的每个内存池和深度Q值网络参数w_i，每条车道的断面数n＝3，交叉口i的状态空间

和动作空间

42)观测得到t时刻agent的状态值c(l^O)和c(l^I)_n,l^I∈I,n＝1,2,3，l^O∈O，得到其当前状态

43)计算交叉口i处的奖励函数值：

44)将t时刻交叉口i的状态

输入深度Q值网络，学习每个动作下的Q值；

45)根据最大密度差控制策略选择最优动作

46)t+1进入状态

根据移动方程计算断面j的车辆移动量：

c(l^I)_j(t+1)＝c(l^I)_j(t)+β·c(l^I)_j+1(t)-min{c(l^I,l^O)·a(l^I,l^O)(t),c(l^I)_j(t)}·1(c(l^O)≤c_max(l^O))

得到t+1时刻agent的状态值

47)将每个动作的经验

分别存入其对应的内存池中；分别从各个动作的内存池随机采样N个经验，利用梯度下降算法更新w_i，获得更新的网络参数w′_i；

48)取t＝t+1，重复上述步骤44)到步骤47)。

进一步地，所述步骤1)具体包括：时间t+1车辆驶进1号断面的车辆移动方程为：

c(l^I)₁(t+1)＝c(l^I)₁(t)+c(l^I)₂(t)-min{c(l^I,l^O)·a(l^I,l^O)(t),c(l^I)₁(t)}·1(c(l^O)≤c_max(l^O))。

本发明的有益效果：

本发明使用了基于进出口道车辆密度差的奖励函数，形式简洁，且与最小化路网交通运行时长密切相关。根据该奖励函数，最优动作选择策略也进行了改进。其选择了具有最大密度差和的动作作为当前状态下的最优动作，更符合实际交通运行的情况。与此同时，本发明采用了不同相位-动作对独立存储的模式，该模式有效地抑制了不同的相位-动作组合干扰彼此的训练过程，提高了深度Q值网络的拟合能力，从而提升了所预测奖励值的准确性，缩短了交通网络的整体运行时间。

附图说明

图1为交叉口的四相位图。

图2为记忆宫殿存储模型示意图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

1)定义状态：取干线上的每个交叉口的相位，出口道O每条车道的车辆数c(l^O)，l^O∈O，每个进口道3个断面的车辆数c(l^I)_n，l^I∈I,n＝1,2,3；示例中设定了4个相位，相位图如图1所示。

U＝[a₁:WE-Straight,a₂:NS-Straight,a₃:WE-Left,a₄:NS-Left]

其中，c_max(l)为车道l的最大允许过车辆；

4)深度Q值网络学习。

所述步骤4)具体包括：

和动作空间

记忆宫殿如图2所示；

43)计算交叉口i处的奖励函数值：

44)将t时刻交叉口i的状态

输入深度Q值网络，学习每个动作下的Q值；

45)根据最大密度差控制策略选择最优动作

46)t+1进入状态

根据移动方程计算断面j的车辆移动量：

得到t+1时刻agent的状态值

47)将每个动作的经验

48)取t＝t+1，重复上述步骤44)到步骤47)。

所述步骤1)具体包括：时间t+1车辆驶进1号断面的车辆移动方程为：

本发明中，密度差式奖励函数预保护项：奖励函数的设计采用了进出口道车辆密度差的累积和的形式，即

与加快交通路网运行时间的最终目标直接相关；

最优动作选择策略欲保护项：计算出当前状态下选择东西直行/右转、东西左转、南北直行/右转和南北左转这四个相位后，产生的密度差和值

a∈U里的最大值作为最优动作。

记忆宫殿式样本存储预保护项：训练过程中，来自不同相位-动作组合的训练样本存储到不同的存储池中。在选择样本更新模型时，记忆宫殿式样本存储方式会分别从每个存储池中随机选取出相同数量的样本，以防止训练出的模型过拟合。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。