CN105654744B

CN105654744B - 一种基于q学习的改进交通信号控制方法

Info

Publication number: CN105654744B
Application number: CN201610135744.3A
Authority: CN
Inventors: 蒋昌俊; 喻剑; 闫春钢; 章昭辉; 叶晨; 王成; 陈德基; 毕卓; 张辰
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2016-03-10
Filing date: 2016-03-10
Publication date: 2018-07-06
Anticipated expiration: 2036-03-10
Also published as: CN105654744A

Abstract

本发明涉及一种基于Q学习的改进交通信号控制方法，包括以下步骤：1)通过在模拟环境下获取区域内所有路口对应的初始lookup表，所述的初始lookup表包括环境信息state、路口行为action以及对应的Q值；2)在现实交通环境下通过安装在各交通路口的感应器持续检测所有交通路口的环境信息；3)在区域内选择一个本地路口，并根据交通路口的环境信息和初始的lookup表，采用路口信号切换算法判断本地路口是否需要进行信号切换，并根据Q值更新函数对初始lookup表进行更新；4)选择一个其他路口，重复步骤3)，最终完成区域内全部路口的信号控制。与现有技术相比，本发明具有考虑路口联动性、计算准确方便等优点。

Description

一种基于Q学习的改进交通信号控制方法

技术领域

本发明涉及区域交通信号的控制，尤其是涉及一种基于Q学习的改进交通信号控制方法。

背景技术

21世纪以来，交通问题已经成为制约经济发展的主要瓶颈，交通拥挤及阻塞，给全球的经济带来了巨大的影响，解决交通拥挤与堵塞己经迫在眉睫。在美国，1984年由于交通拥挤及阻塞带来的延误约为12亿车·时(veh·h)，造成的损失约1200亿美元；据2005年估计，每年美国的交通延误将达69亿车·时，道路交通拥堵浪费的燃料将达73亿加仑；2010年，美国由于交通拥堵产生的延误时间上升了57％；因交通拥堵造成额外的燃油消耗就高达90亿美元。在英国，一个约100个平交路口的城市，每年由于交通延误导致的经济损失就达到1400万英镑。在我国，百万人口以上的大城市，每年交通拥堵导致的经济损失约1600亿人民币，到达了我国GDP总值的3.2％。然而，城市交通问题还派生出了一系列其他的城市问题，如环境污染、废气排放、土地资源紧缺等问题。

要从根本上解决交通拥堵问题，除了拓展城市道路、改造城市布局、增强人们交通意识之外，构建自适应智能交通控制系统来管理交通成为了更有效途径，从而大幅度提高交叉口、路网的通行能力和服务质量。因此，引进人工智能、计算机仿真等高新技术，来解决城市交通的拥挤和堵塞问题，已经成为自适应交通信号控制的研究热点。

近年来，人工智能技术取得了重大进展，为解决城市交通控制问题提供了新的途径。不少专家学者将神经网络、模糊控制、进化算法等人工智能算法应用到城市交通信号控制中，取得了很多研究成果。神经网络、模糊理论均可归结为无监督学习及有监督学习，进化算法为仿生全局优化方法，算法特点是随机搜索与隐并行计算，不易陷于局部极值点，在城市交通控制中常用于解决静态的信号配时优化。监督学习一般需要预先获得训练样本的类别；而无监督学习的训练样本并不需知道类别信息，但是需要获取每种类别的先验概率及类别的数量。对于具有模糊性、非线性、不确定性和自组织性等特征的交通流，基于监督或无监督学习的交通控制系统往往难以满足现代城市交通控制要求，因此强化学习控制交通的方法引起人们的关注。与监督学习及非监督学习不同，强化学习方法是通过与外部环境交互而取得状态到行为映射关系的学习方法，可以感知环境状态并从环境中获得不确定的信息来学习最优策略，是构建智能系统的核心技术之一。

然而，使用Q学习算法进行区域交通控制仍有一定的不足，如区域中邻近路口会互相影响，路口之间具有联动性，另外，区域中路口各不相同，路口间的最大通行量等指标也不同，因此在控制时需要区别对待。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种考虑路口联动性、计算准确方便的基于Q学习的改进交通信号控制方法。

本发明的目的可以通过以下技术方案来实现：

一种基于Q学习的改进交通信号控制方法，包括以下步骤：

1)通过在模拟环境下获取区域内所有路口对应的初始lookup表，所述的初始lookup表包括环境信息state、路口行为action以及对应的Q值；

2)在现实交通环境下通过安装在各交通路口的感应器持续检测所有交通路口的环境信息；

3)在区域内选择一个本地路口，并根据交通路口的环境信息和初始的lookup表，采用路口信号切换算法判断本地路口是否需要进行信号切换，并根据Q值更新函数对初始lookup表进行更新；

4)选择一个其他路口，重复步骤3)，最终完成区域内全部路口的信号控制。

所述的步骤1)中环境信息state包括本地路口local和全局路口global的当前信号相位、本路口红灯方向上队列长度和绿灯方向上通行车流量数据，路口行为action包括保持当前相位和切换当前相位，所述的Q值由路口的拥堵情况决定，所述的lookup表为：

其中，N为总环境信息数，LV₁、LV₂、GV₁、GV₂为对应的Q值。

所述的步骤3)中的路口信号切换算法包括以下步骤：

31)根据检测到的本地路口的环境信息，查询lookup表中对应的本地路口local和全局路口global不同的路口行为Action对应的Q值，即LV₁、LV₂、GV₁和GV₂；

32)当|LV₁-LV₂|＞＞|GV₁-GV₂|时，则本地路口进行路口行为对本地路口的影响高于对全局路口的影响，则选择本地路口进行路口行为切换，

当|GV₁-GV₂|＞＞|LV₁-LV₂|时，则本地路口进行路口行为对全局路口的影响高于对本地路口的影响，则选择本地路口进行路口行为保持，

当min(LV₁,LV₂)＞＞min(GV₁,GV₂)时，则本地路口进行路口行为对本地路口带来的收益高于全局路口，则选择本地路口进行路口行为切换，

当min(GV₁,GV₂)＞＞min(LV₁,LV₂)时，则本地路口进行路口行为对全局路口带来的收益高于本地路口，则选择本地路口进行路口行为保持，

当LV₁≈LV₂≈GV₁≈GV₂时，则随机选择本地路口的路口行为。

33)获取本地路口进行路口行为后的拥堵情况和环境信息，根据拥堵情况采用Q值更新函数更新初始的lookup表，并且获取环境信息在更新后的lookup表中对应的Q值，返回步骤32)，进而实现本地路口的信号控制。

所述的步骤33)中，拥堵情况EI由平均延误x_t、平均速度x_d和排队长度x_c加权后得到，计算式为：

EI＝w₁x_d+w₂x_t+w₃x_c

其中，w₁、w₂、w₃为权值。

所述的步骤33)中，Q值更新函数为：

Q_t+1(s_t,a_t)＝(1-a_t)Q_t(s_t,a_t)+a_t[r_t+1+γmaxQ_t(s_t+1,a_t+1)]

Q_t(s_t,a_t)＝[Q_tLocal(s_t,a_t),Q_tGlobal(s_t,a_t)]

r_t+1＝[r_Local,r_Global]a_t

r_i＝EI_t+1-EI_t

其中，Q_t+1(s_t,a_t)为t+1时刻的Q值，s_t为t时刻的State值，at为t时刻的action值，r_t+1为t+1时刻的回报值，r_Local为本地路口的回报值，r_Global为全局路口的回报值，r_i为第i个路口的回报值，h_i为第i个全局路口的权重，n为全局路口总数，γ为常数，EI_t+1为t+1时刻的拥堵情况，EI_t为t时刻的拥堵情况。

与现有技术相比，本发明具有以下优点：

本发明以Q学习算法作为基础，各路口控制器之间可以互相交换信息，通过修改Q学习的lookup表和动作选择机制，令控制其在决策时权衡本路口和全局路口的利益，从而解决路口联动性的问题，并且通过为每一个路口赋予一个单独的路口权重，令算法在决策时更偏向重要的路口，从而解决路口不一致的问题。

附图说明

图1为本方法的步骤流程图。

图2为实施例中的监测路口图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例：

本方法采用单Agent控制单路口的模式。在区域中每个路口由一个Agent控制，Agent之间使用网络互相交换信息，如图1所示，图为本方法的步骤流程图。

Agent由控制器，探测器组成。每个路口配有环境探测器，且通过网路与周边路口的控制器连接。环境探测器实时监测本交叉口的交通状况信息，并反馈给本地控制器。周边路口的控制器将自身的信息通过网路传输给本地控制器。

实际实施图见附图2，设计在不同程度的交通拥堵下进行测试。实验场景设计为一块由27个交叉口组成的区域，区域是对上海市松江区部分的模拟。图中标出的路口为监测路口，其中圆圈标注的为正常路口，五角形标注的为通行能力较差的脆弱路口。

为了验证本方法应用的控制效果，设计了多个具有不同车流量的场景，车流量依次递增，并且将结果与传统区域控制方法进行比较。

实验采用随机车流，针对每一种车流量场景均测试10轮，每次180分钟。

表1为各场景车流数据。其中，每个方向上的车流为该方向上每个入口的平均车流量(veh/h)。

表1各场景车流数据

在实验中，路口Agent会实时探测交通情况，并做出决策。

Claims

1.一种基于Q学习的改进交通信号控制方法，其特征在于，包括以下步骤：

1)通过在模拟环境下获取区域内所有路口对应的初始lookup表，所述的初始lookup表包括环境信息state、路口行为action以及对应的Q值，环境信息state包括本地路口local和全局路口global的当前信号相位、本路口红灯方向上队列长度和绿灯方向上通行车流量数据，路口行为action包括保持当前相位和切换当前相位，所述的Q值由路口的拥堵情况决定，所述的lookup表为：

其中，N为总环境信息数，LV₁、LV₂、GV₁、GV₂为对应的Q值；

3)在区域内选择一个本地路口，并根据交通路口的环境信息和初始的lookup表，采用路口信号切换算法判断本地路口是否需要进行信号切换，并根据Q值更新函数对初始lookup表进行更新，路口信号切换算法包括以下步骤：

32)当|LV₁-LV₂|>>|GV₁-GV₂|时，则本地路口进行路口行为对本地路口的影响高于对全局路口的影响，则选择本地路口进行路口行为切换，

当|GV₁-GV₂|>>|LV₁-LV₂|时，则本地路口进行路口行为对全局路口的影响高于对本地路口的影响，则选择本地路口进行路口行为保持，

当min(GV₁,GV₂)>>min(LV₁,LV₂)时，则本地路口进行路口行为对全局路口带来的收益高于本地路口，则选择本地路口进行路口行为保持，

当LV₁≈LV₂≈GV₁≈GV₂时，则随机选择本地路口的路口行为；

33)获取本地路口进行路口行为后的拥堵情况和环境信息，根据拥堵情况采用Q值更新函数更新初始的lookup表，并且获取环境信息在更新后的lookup表中对应的Q值，返回步骤32)，进而实现本地路口的信号控制，拥堵情况EI由平均延误x_t、平均速度x_d和排队长度x_c加权后得到，计算式为：

EI＝w₁x_d+w₂x_t+w₃x_c

其中，w₁、w₂、w₃为权值；

Q值更新函数为：

Q_t+1(s_t,a_t)＝(1-a_t)Q_t(s_t,a_t)+a_t[r_t+1+γmaxQ_t(s_t+1,a_t+1)]

Q_t(s_t,a_t)＝[Q_tLocal(s_t,a_t),Q_tGlobal(s_t,a_t)]

r_t+1＝[r_Local,r_Global]a_t

r_i＝EI_t+1-EI_t

其中，Q_t+1(s_t,a_t)为t+1时刻的Q值，s_t为t时刻的State值，a_t为t时刻的action值，r_t+1为t+1时刻的回报值，r_Local为本地路口的回报值，r_Global为全局路口的回报值，r_i为第i个路口的回报值，h_i为第i个全局路口的权重，n为全局路口总数，γ为常数，EI_t+1为t+1时刻的拥堵情况，EI_t为t时刻的拥堵情况；