CN105654744B - 一种基于q学习的改进交通信号控制方法 - Google Patents

一种基于q学习的改进交通信号控制方法 Download PDF

Info

Publication number
CN105654744B
CN105654744B CN201610135744.3A CN201610135744A CN105654744B CN 105654744 B CN105654744 B CN 105654744B CN 201610135744 A CN201610135744 A CN 201610135744A CN 105654744 B CN105654744 B CN 105654744B
Authority
CN
China
Prior art keywords
crossing
local
global
behavior
lookup tables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610135744.3A
Other languages
English (en)
Other versions
CN105654744A (zh
Inventor
蒋昌俊
喻剑
闫春钢
章昭辉
叶晨
王成
陈德基
毕卓
张辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201610135744.3A priority Critical patent/CN105654744B/zh
Publication of CN105654744A publication Critical patent/CN105654744A/zh
Application granted granted Critical
Publication of CN105654744B publication Critical patent/CN105654744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles

Abstract

本发明涉及一种基于Q学习的改进交通信号控制方法,包括以下步骤:1)通过在模拟环境下获取区域内所有路口对应的初始lookup表,所述的初始lookup表包括环境信息state、路口行为action以及对应的Q值;2)在现实交通环境下通过安装在各交通路口的感应器持续检测所有交通路口的环境信息;3)在区域内选择一个本地路口,并根据交通路口的环境信息和初始的lookup表,采用路口信号切换算法判断本地路口是否需要进行信号切换,并根据Q值更新函数对初始lookup表进行更新;4)选择一个其他路口,重复步骤3),最终完成区域内全部路口的信号控制。与现有技术相比,本发明具有考虑路口联动性、计算准确方便等优点。

Description

一种基于Q学习的改进交通信号控制方法
技术领域
本发明涉及区域交通信号的控制,尤其是涉及一种基于Q学习的改进交通信号控制方法。
背景技术
21世纪以来,交通问题已经成为制约经济发展的主要瓶颈,交通拥挤及阻塞,给全球的经济带来了巨大的影响,解决交通拥挤与堵塞己经迫在眉睫。在美国,1984年由于交通拥挤及阻塞带来的延误约为12亿车·时(veh·h),造成的损失约1200亿美元;据2005年估计,每年美国的交通延误将达69亿车·时,道路交通拥堵浪费的燃料将达73亿加仑;2010年,美国由于交通拥堵产生的延误时间上升了57%;因交通拥堵造成额外的燃油消耗就高达90亿美元。在英国,一个约100个平交路口的城市,每年由于交通延误导致的经济损失就达到1400万英镑。在我国,百万人口以上的大城市,每年交通拥堵导致的经济损失约1600亿人民币,到达了我国GDP总值的3.2%。然而,城市交通问题还派生出了一系列其他的城市问题,如环境污染、废气排放、土地资源紧缺等问题。
要从根本上解决交通拥堵问题,除了拓展城市道路、改造城市布局、增强人们交通意识之外,构建自适应智能交通控制系统来管理交通成为了更有效途径,从而大幅度提高交叉口、路网的通行能力和服务质量。因此,引进人工智能、计算机仿真等高新技术,来解决城市交通的拥挤和堵塞问题,已经成为自适应交通信号控制的研究热点。
近年来,人工智能技术取得了重大进展,为解决城市交通控制问题提供了新的途径。不少专家学者将神经网络、模糊控制、进化算法等人工智能算法应用到城市交通信号控制中,取得了很多研究成果。神经网络、模糊理论均可归结为无监督学习及有监督学习,进化算法为仿生全局优化方法,算法特点是随机搜索与隐并行计算,不易陷于局部极值点,在城市交通控制中常用于解决静态的信号配时优化。监督学习一般需要预先获得训练样本的类别;而无监督学习的训练样本并不需知道类别信息,但是需要获取每种类别的先验概率及类别的数量。对于具有模糊性、非线性、不确定性和自组织性等特征的交通流,基于监督或无监督学习的交通控制系统往往难以满足现代城市交通控制要求,因此强化学习控制交通的方法引起人们的关注。与监督学习及非监督学习不同,强化学习方法是通过与外部环境交互而取得状态到行为映射关系的学习方法,可以感知环境状态并从环境中获得不确定的信息来学习最优策略,是构建智能系统的核心技术之一。
然而,使用Q学习算法进行区域交通控制仍有一定的不足,如区域中邻近路口会互相影响,路口之间具有联动性,另外,区域中路口各不相同,路口间的最大通行量等指标也不同,因此在控制时需要区别对待。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种考虑路口联动性、计算准确方便的基于Q学习的改进交通信号控制方法。
本发明的目的可以通过以下技术方案来实现:
一种基于Q学习的改进交通信号控制方法,包括以下步骤:
1)通过在模拟环境下获取区域内所有路口对应的初始lookup表,所述的初始lookup表包括环境信息state、路口行为action以及对应的Q值;
2)在现实交通环境下通过安装在各交通路口的感应器持续检测所有交通路口的环境信息;
3)在区域内选择一个本地路口,并根据交通路口的环境信息和初始的lookup表,采用路口信号切换算法判断本地路口是否需要进行信号切换,并根据Q值更新函数对初始lookup表进行更新;
4)选择一个其他路口,重复步骤3),最终完成区域内全部路口的信号控制。
所述的步骤1)中环境信息state包括本地路口local和全局路口global的当前信号相位、本路口红灯方向上队列长度和绿灯方向上通行车流量数据,路口行为action包括保持当前相位和切换当前相位,所述的Q值由路口的拥堵情况决定,所述的lookup表为:
其中,N为总环境信息数,LV1、LV2、GV1、GV2为对应的Q值。
所述的步骤3)中的路口信号切换算法包括以下步骤:
31)根据检测到的本地路口的环境信息,查询lookup表中对应的本地路口local和全局路口global不同的路口行为Action对应的Q值,即LV1、LV2、GV1和GV2
32)当|LV1-LV2|>>|GV1-GV2|时,则本地路口进行路口行为对本地路口的影响高于对全局路口的影响,则选择本地路口进行路口行为切换,
当|GV1-GV2|>>|LV1-LV2|时,则本地路口进行路口行为对全局路口的影响高于对本地路口的影响,则选择本地路口进行路口行为保持,
当min(LV1,LV2)>>min(GV1,GV2)时,则本地路口进行路口行为对本地路口带来的收益高于全局路口,则选择本地路口进行路口行为切换,
当min(GV1,GV2)>>min(LV1,LV2)时,则本地路口进行路口行为对全局路口带来的收益高于本地路口,则选择本地路口进行路口行为保持,
当LV1≈LV2≈GV1≈GV2时,则随机选择本地路口的路口行为。
33)获取本地路口进行路口行为后的拥堵情况和环境信息,根据拥堵情况采用Q值更新函数更新初始的lookup表,并且获取环境信息在更新后的lookup表中对应的Q值,返回步骤32),进而实现本地路口的信号控制。
所述的步骤33)中,拥堵情况EI由平均延误xt、平均速度xd和排队长度xc加权后得到,计算式为:
EI=w1xd+w2xt+w3xc
其中,w1、w2、w3为权值。
所述的步骤33)中,Q值更新函数为:
Qt+1(st,at)=(1-at)Qt(st,at)+at[rt+1+γmaxQt(st+1,at+1)]
Qt(st,at)=[QtLocal(st,at),QtGlobal(st,at)]
rt+1=[rLocal,rGlobal]at
ri=EIt+1-EIt
其中,Qt+1(st,at)为t+1时刻的Q值,st为t时刻的State值,at为t时刻的action值,rt+1为t+1时刻的回报值,rLocal为本地路口的回报值,rGlobal为全局路口的回报值,ri为第i个路口的回报值,hi为第i个全局路口的权重,n为全局路口总数,γ为常数,EIt+1为t+1时刻的拥堵情况,EIt为t时刻的拥堵情况。
与现有技术相比,本发明具有以下优点:
本发明以Q学习算法作为基础,各路口控制器之间可以互相交换信息,通过修改Q学习的lookup表和动作选择机制,令控制其在决策时权衡本路口和全局路口的利益,从而解决路口联动性的问题,并且通过为每一个路口赋予一个单独的路口权重,令算法在决策时更偏向重要的路口,从而解决路口不一致的问题。
附图说明
图1为本方法的步骤流程图。
图2为实施例中的监测路口图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例:
本方法采用单Agent控制单路口的模式。在区域中每个路口由一个Agent控制,Agent之间使用网络互相交换信息,如图1所示,图为本方法的步骤流程图。
Agent由控制器,探测器组成。每个路口配有环境探测器,且通过网路与周边路口的控制器连接。环境探测器实时监测本交叉口的交通状况信息,并反馈给本地控制器。周边路口的控制器将自身的信息通过网路传输给本地控制器。
实际实施图见附图2,设计在不同程度的交通拥堵下进行测试。实验场景设计为一块由27个交叉口组成的区域,区域是对上海市松江区部分的模拟。图中标出的路口为监测路口,其中圆圈标注的为正常路口,五角形标注的为通行能力较差的脆弱路口。
为了验证本方法应用的控制效果,设计了多个具有不同车流量的场景,车流量依次递增,并且将结果与传统区域控制方法进行比较。
实验采用随机车流,针对每一种车流量场景均测试10轮,每次180分钟。
表1为各场景车流数据。其中,每个方向上的车流为该方向上每个入口的平均车流量(veh/h)。
表1各场景车流数据
在实验中,路口Agent会实时探测交通情况,并做出决策。

Claims (1)

1.一种基于Q学习的改进交通信号控制方法,其特征在于,包括以下步骤:
1)通过在模拟环境下获取区域内所有路口对应的初始lookup表,所述的初始lookup表包括环境信息state、路口行为action以及对应的Q值,环境信息state包括本地路口local和全局路口global的当前信号相位、本路口红灯方向上队列长度和绿灯方向上通行车流量数据,路口行为action包括保持当前相位和切换当前相位,所述的Q值由路口的拥堵情况决定,所述的lookup表为:
其中,N为总环境信息数,LV1、LV2、GV1、GV2为对应的Q值;
2)在现实交通环境下通过安装在各交通路口的感应器持续检测所有交通路口的环境信息;
3)在区域内选择一个本地路口,并根据交通路口的环境信息和初始的lookup表,采用路口信号切换算法判断本地路口是否需要进行信号切换,并根据Q值更新函数对初始lookup表进行更新,路口信号切换算法包括以下步骤:
31)根据检测到的本地路口的环境信息,查询lookup表中对应的本地路口local和全局路口global不同的路口行为Action对应的Q值,即LV1、LV2、GV1和GV2
32)当|LV1-LV2|>>|GV1-GV2|时,则本地路口进行路口行为对本地路口的影响高于对全局路口的影响,则选择本地路口进行路口行为切换,
当|GV1-GV2|>>|LV1-LV2|时,则本地路口进行路口行为对全局路口的影响高于对本地路口的影响,则选择本地路口进行路口行为保持,
当min(LV1,LV2)>>min(GV1,GV2)时,则本地路口进行路口行为对本地路口带来的收益高于全局路口,则选择本地路口进行路口行为切换,
当min(GV1,GV2)>>min(LV1,LV2)时,则本地路口进行路口行为对全局路口带来的收益高于本地路口,则选择本地路口进行路口行为保持,
当LV1≈LV2≈GV1≈GV2时,则随机选择本地路口的路口行为;
33)获取本地路口进行路口行为后的拥堵情况和环境信息,根据拥堵情况采用Q值更新函数更新初始的lookup表,并且获取环境信息在更新后的lookup表中对应的Q值,返回步骤32),进而实现本地路口的信号控制,拥堵情况EI由平均延误xt、平均速度xd和排队长度xc加权后得到,计算式为:
EI=w1xd+w2xt+w3xc
其中,w1、w2、w3为权值;
Q值更新函数为:
Qt+1(st,at)=(1-at)Qt(st,at)+at[rt+1+γmaxQt(st+1,at+1)]
Qt(st,at)=[QtLocal(st,at),QtGlobal(st,at)]
rt+1=[rLocal,rGlobal]at
ri=EIt+1-EIt
其中,Qt+1(st,at)为t+1时刻的Q值,st为t时刻的State值,at为t时刻的action值,rt+1为t+1时刻的回报值,rLocal为本地路口的回报值,rGlobal为全局路口的回报值,ri为第i个路口的回报值,hi为第i个全局路口的权重,n为全局路口总数,γ为常数,EIt+1为t+1时刻的拥堵情况,EIt为t时刻的拥堵情况;
4)选择一个其他路口,重复步骤3),最终完成区域内全部路口的信号控制。
CN201610135744.3A 2016-03-10 2016-03-10 一种基于q学习的改进交通信号控制方法 Active CN105654744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610135744.3A CN105654744B (zh) 2016-03-10 2016-03-10 一种基于q学习的改进交通信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610135744.3A CN105654744B (zh) 2016-03-10 2016-03-10 一种基于q学习的改进交通信号控制方法

Publications (2)

Publication Number Publication Date
CN105654744A CN105654744A (zh) 2016-06-08
CN105654744B true CN105654744B (zh) 2018-07-06

Family

ID=56493521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610135744.3A Active CN105654744B (zh) 2016-03-10 2016-03-10 一种基于q学习的改进交通信号控制方法

Country Status (1)

Country Link
CN (1) CN105654744B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106846836B (zh) * 2017-02-28 2019-05-24 许昌学院 一种单交叉口信号灯时间控制方法及系统
CN106910351B (zh) * 2017-04-19 2019-10-11 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN108335497B (zh) * 2018-02-08 2021-09-14 南京邮电大学 一种交通信号自适应控制系统及方法
CN108537379B (zh) * 2018-04-04 2021-11-16 北京科东电力控制系统有限责任公司 自适应变权重组合负荷预测方法及装置
CN108510764B (zh) * 2018-04-24 2023-11-10 南京邮电大学 一种基于q学习的多路口自适应相位差协调控制系统及方法
CN108986491A (zh) * 2018-07-26 2018-12-11 武汉邮电科学研究院有限公司 基于人工智能避免交通拥塞的行车引导系统及方法
CN109035812B (zh) * 2018-09-05 2021-07-27 平安科技(深圳)有限公司 交通信号灯的控制方法、装置、计算机设备及存储介质
CN109559530B (zh) * 2019-01-07 2020-07-14 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110930737B (zh) * 2019-12-04 2021-10-08 南京莱斯信息技术股份有限公司 一种基于记忆宫殿的干线协调交通信号灯控制方法
CN111081035A (zh) * 2019-12-17 2020-04-28 扬州市鑫通智能信息技术有限公司 一种基于q学习的交通信号控制方法
CN113506450B (zh) * 2021-07-28 2022-05-17 浙江海康智联科技有限公司 一种基于Qlearning的单点信号配时方案选择方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122584A (ja) * 2005-10-31 2007-05-17 Sumitomo Electric Ind Ltd 交通信号制御システム、および交通信号制御システムの制御方法
CN104881992A (zh) * 2015-06-12 2015-09-02 天津大学 基于多智能体仿真的城市公共交通政策分析平台
CN104933876A (zh) * 2015-06-03 2015-09-23 浙江师范大学 一种自适应智慧城市智能交通信号的控制方法
CN105046987A (zh) * 2015-06-17 2015-11-11 苏州大学 一种基于强化学习的路面交通信号灯协调控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122584A (ja) * 2005-10-31 2007-05-17 Sumitomo Electric Ind Ltd 交通信号制御システム、および交通信号制御システムの制御方法
CN104933876A (zh) * 2015-06-03 2015-09-23 浙江师范大学 一种自适应智慧城市智能交通信号的控制方法
CN104881992A (zh) * 2015-06-12 2015-09-02 天津大学 基于多智能体仿真的城市公共交通政策分析平台
CN105046987A (zh) * 2015-06-17 2015-11-11 苏州大学 一种基于强化学习的路面交通信号灯协调控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种结合动态权重的但路口信号控制方法;张辰;《商》;20151213(第49期);第228页 *
基于Q 学习的多目标分时段路口交通控制;张辰;《电脑知识与技术》;20160131(第3期);第291-292页 *
基于Q学习的Agent在单路口;陈丹舟等;《公路交通科技》;20070531;第24卷(第5期);第117-129页 *

Also Published As

Publication number Publication date
CN105654744A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
CN105654744B (zh) 一种基于q学习的改进交通信号控制方法
US20210209939A1 (en) Large-scale real-time traffic flow prediction method based on fuzzy logic and deep LSTM
CN104778834B (zh) 一种基于车辆gps数据的城市道路交通拥堵判别方法
CN104157139B (zh) 一种交通拥堵预测方法及可视化方法
CN103106793B (zh) 基于实时行车方向和通行时段信息的交通状态判别方法
CN105678034B (zh) 行人过街时间模型及信号交叉口人行横道宽度优化方法
CN103593989B (zh) 城市道路交通公交优先信号控制方法
CN109087517A (zh) 基于大数据的智能信号灯控制方法和系统
CN110232257B (zh) 一种自动驾驶测试场景的构建方法及其难度系数计算方法
CN107679667A (zh) 一种终端区航线规划优先级分类方法
Zhang et al. Optimal Signal Timing Method of Intersections Based on Bus Priority
CN108806287B (zh) 一种基于协同优化的交通信号配时方法
CN107527137A (zh) 城市轨道交通网络成熟度确定方法
Alam et al. Intellegent traffic light control system for isolated intersection using fuzzy logic
CN111009140B (zh) 一种基于开源路况信息的智能交通信号控制方法
US20230153742A1 (en) Methods for shared bicycle delivery and operation area planning in smart cities and internet of things (iot) systems thereof
CN106781495A (zh) 快速发现导致城市道路交通拥堵源头位置的方法和系统
Lu et al. Research on the intelligent assignment model of urban traffic planning based on optimal path optimization algorithm
Mehan et al. Development of traffic light control system based on fuzzy logic
CN113554221B (zh) 一种“流空间”视角下的城镇开发边界模拟预测方法
Ng et al. A Hybrid intelligent traffic light system for solving traffic congestion in Hong Kong
Tsuboi et al. Method for the proposal and evaluation of urban structures for compact cities using an expert system
Shamlitskiy et al. Transport stream optimization based on neural network learning algorithms
Fan et al. A Traffic Flow Adaptive Energy Saving Scheme for Smart Lighting Systems
Tong et al. Intelligent tidal lane system based on vehicle attribute recognition algorithm and related laws and regulations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant