CN111081035A - 一种基于q学习的交通信号控制方法 - Google Patents

一种基于q学习的交通信号控制方法 Download PDF

Info

Publication number
CN111081035A
CN111081035A CN201911301069.7A CN201911301069A CN111081035A CN 111081035 A CN111081035 A CN 111081035A CN 201911301069 A CN201911301069 A CN 201911301069A CN 111081035 A CN111081035 A CN 111081035A
Authority
CN
China
Prior art keywords
learning
signal control
data
traffic
value table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911301069.7A
Other languages
English (en)
Inventor
胡春良
潘翔
柏志玮
邓忠飞
胡雅旭
张庆鹏
谢明亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou Xintong Intelligent Information Technology Co ltd
Original Assignee
Yangzhou Xintong Intelligent Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou Xintong Intelligent Information Technology Co ltd filed Critical Yangzhou Xintong Intelligent Information Technology Co ltd
Priority to CN201911301069.7A priority Critical patent/CN111081035A/zh
Publication of CN111081035A publication Critical patent/CN111081035A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals

Abstract

本发明涉及交通控制工程技术领域,且公开了一种基于Q学习的交通信号控制方法,其特征在于,包括以下步骤:信息采集;对于每一个时刻,获取交叉口的所有车道的排队车辆信息。该基于Q学习的交通信号控制方法,通过使用Q学习方法训练Q值表得到在车道排队车辆给定的情况下,执行不同灯态的不同Q值,根据训练好的Q值表,选取使得Q值表最大的灯态动作用于信号控制,最终使得交通信号的控制可以适应交通路网的随机性,从而达到更好的控制效率,解决了现有技术中计算方式难以达成多段十字交通路口的车流汇集,所计算出时间的信号控制忽视了路网的随机性,无法适应当前城市道路交通情况,导致车辆通行效率低n,延误时间长的问题。

Description

一种基于Q学习的交通信号控制方法
技术领域
本发明涉及交通控制工程技术领域,具体为一种基于Q学习的交通信号控制方法。
背景技术
汽车的发明给人民的出行生活带来了极大的便利,但是随着社会经济的发展,城市汽车数量急剧增加却又带来了一系列交通问题,其中交通拥堵问题尤为突出。采用合理的信号控制方案是缓解交通拥堵的有效方法。目前,城市里大多数交通信号灯都采用定时控制,即根据历史交通流量预先计算出交通相位及时长,使信号灯以固定的时间进行切换。
根据中国专利申请公布号为CN 105654744 A提出的一种基于Q学习的改进交通信号控制方法,该基于Q学习的改进交通信号控制方法具有减少车辆停靠时间和节能减排的优点,但已经暴露出了其诸多缺陷,该种计算方式难以达成多段十字交通路口的车流汇集,所计算出时间的信号控制忽视了路网的随机性,无法适应当前城市道路交通情况,导致车辆通行效率低,延误时间长的缺点,故而提出一种基于Q学习的交通信号控制方法解决上述所提出的问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于Q学习的交通信号控制方法,具备可以适应交通路网的随机性等优点,解决了现有技术中计算方式难以达成多段十字交通路口的车流汇集,所计算出时间的信号控制忽视了路网的随机性,无法适应当前城市道路交通情况,导致车辆通行效率低,延误时间长的问题。
(二)技术方案
为实现上述可以适应交通路网随机性的目的,本发明提供如下技术方案:一种基于Q学习的交通信号控制方法,包括以下步骤:
1)信息采集;对于每一个时刻,获取交叉口的所有车道的排队车辆信息,以及信号灯的灯态信息并按照连续时刻一一对应;
2)原始车辆灯态数据预处理;获得排队车辆-灯态数据集{Vk,Sk,Vk+1},其中,Vk为第k时刻各个车道排队车辆的个数,k=1,2,…,K,K为该数据集合中的数据个数;
3)利用排队车辆-灯态数据集{Vk,Sk,Vk+1},更新Q学习中的Q值表
Figure BDA0002321785800000021
4)根据得到的Q值表,可以给出基于Q学习的最优控制方案:在实际信号控制中,利用传感器获取当前路网中的排队车辆信息Vnow,根据Q值表,得到下一步应当执行的信号灯状态Snext
优选的,所述K为该数据集合中的数据个数,计算过程为,剔除明显异常数据,如排队车辆变化量不符合常识的数据,将过车时刻数据按照时间顺序梳理,获取数据集合{Vk,Sk,Vk+1}。
优选的,所述步骤3中对每个V,S初始化表项
Figure BDA0002321785800000022
为,对于每一个数据(Vk,Sk,Vk+1),定义Q学习中的奖励值;
r=-Vk
优选的,利用车辆-灯态数据集{Vk,Sk,Vk+1}中每一个数据对Q值表
Figure BDA0002321785800000023
按照下式更新表项,其中折扣因子γ=0.99;
Figure BDA0002321785800000024
优选的,所述重复权利要求4步骤并相邻计算两次Q值表的差值ε,差值计算公式如下,直到ε<0.001;
Figure BDA0002321785800000031
优选的,所述Snext的计算公式为;
Figure BDA0002321785800000032
(三)有益效果
与现有技术相比,本发明提供了一种基于Q学习的交通信号控制方法,具备以下有益效果:
1、该基于Q学习的交通信号控制方法,通过信息采集,对于每一个时刻,获取交叉口的所有车道的排队车辆信息,以及信号灯的灯态信息并按照连续时刻一一对应,原始车辆灯态数据预处理;获得排队车辆-灯态数据集{Vk,Sk,Vk+1},利用排队车辆-灯态数据集{Vk,Sk,Vk+1},更新Q学习中的Q值表
Figure BDA0002321785800000034
得到下一步应当执行的信号灯状态Snext,首先收集交叉口中的排队车辆和与之对应的灯态信息,然后又基于该数据集,使用Q学习方法训练Q值表得到在车道排队车辆给定的情况下,执行不同灯态的不同Q值,根据训练好的Q值表,通过选取使得Q值表最大的灯态动作用于信号控制,最终使得交通信号的控制可以适应交通路网的随机性,从而达到更好的控制效率。
2、该基于Q学习的交通信号控制方法,通过利用SUMO搭建的路网匹配和信息采集、原始车辆灯态数据预处理、利用排队车辆-灯态数据集{Vk,Sk,Vk+1},更新Q学习中的Q值表
Figure BDA0002321785800000033
和得到的Q值表,可以给出基于Q学习的最优控制方案:在实际信号控制中,利用传感器获取当前路网中的排队车辆信息Vnow,根据Q值表,得到下一步应当执行的信号灯状态Snext,以SUMO仿真数据软件为实施例,运用以上方法得到了基于Q学习的交通信号控制器,结果显示汽车平均旅行时间比传统定时方法控制少了16%,从而达到了可以适应交通路网随机性的目的。
附图说明
图1为该基于Q学习的交通信号控制方法的Q学习算法的Q值表的更新流程图;
图2为该基于Q学习的交通信号控制方法的基于开源仿真软件SUMO搭建的路网图。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:一种基于Q学习的交通信号控制方法,包括以下步骤:
1)信息采集;对于每一个时刻,获取交叉口的所有车道的排队车辆信息,以及信号灯的灯态信息并按照连续时刻一一对应;
2)原始车辆灯态数据预处理;获得排队车辆-灯态数据集{Vk,Sk,Vk+1},其中,Vk为第k时刻各个车道排队车辆的个数,k=1,2,…,K,K为该数据集合中的数据个数;
3)利用排队车辆-灯态数据集{Vk,Sk,Vk+1},更新Q学习中的Q值表
Figure BDA0002321785800000041
步骤3中对每个V,S初始化表项
Figure BDA0002321785800000042
为,对于每一个数据(Vk,Sk,Vk+1),定义Q学习中的奖励值;
r=-Vk
利用车辆-灯态数据集{Vk,Sk,Vk+1}中每一个数据对Q值表
Figure BDA0002321785800000051
按照下式更新表项,其中折扣因子γ=0.99;
Figure BDA0002321785800000052
重复权利要求4步骤并相邻计算两次Q值表的差值ε,差值计算公式如下,直到ε<0.001;
Figure BDA0002321785800000053
4)根据得到的Q值表,可以给出基于Q学习的最优控制方案:在实际信号控制中,利用传感器获取当前路网中的排队车辆信息Vnow,根据Q值表,得到下一步应当执行的信号灯状态Snext,Snext的计算公式为;
Figure BDA0002321785800000054
本发明的有益效果是:通过信息采集,对于每一个时刻,获取交叉口的所有车道的排队车辆信息,以及信号灯的灯态信息并按照连续时刻一一对应,原始车辆灯态数据预处理;获得排队车辆-灯态数据集{Vk,Sk,Vk+1},利用排队车辆-灯态数据集{Vk,Sk,Vk+1},更新Q学习中的Q值表
Figure BDA0002321785800000055
得到下一步应当执行的信号灯状态Snext,首先收集交叉口中的排队车辆和与之对应的灯态信息,然后又基于该数据集,使用Q学习方法训练Q值表得到在车道排队车辆给定的情况下,执行不同灯态的不同Q值,根据训练好的Q值表,通过选取使得Q值表最大的灯态动作用于信号控制,最终使得交通信号的控制可以适应交通路网的随机性,从而达到更好的控制效率。
实施例二:一种基于Q学习的交通信号控制方法,包括以下步骤:
1)信息采集;对于每一个时刻,获取交叉口的所有车道的排队车辆信息,以及信号灯的灯态信息并按照连续时刻一一对应;
2)原始车辆灯态数据预处理;获得排队车辆-灯态数据集{Vk,Sk,Vk+1},其中,Vk为第k时刻各个车道排队车辆的个数,k=1,2,…,K,K为该数据集合中的数据个数;
3)利用排队车辆-灯态数据集{Vk,Sk,Vk+1},更新Q学习中的Q值表
Figure BDA0002321785800000061
步骤3中对每个V,S初始化表项
Figure BDA0002321785800000062
为,对于每一个数据(Vk,Sk,Vk+1),定义Q学习中的奖励值;
r=-Vk
利用车辆-灯态数据集{Vk,Sk,Vk+1}中每一个数据对Q值表
Figure BDA0002321785800000063
按照下式更新表项,其中折扣因子γ=0.99;
Figure BDA0002321785800000064
重复权利要求4步骤并相邻计算两次Q值表的差值ε,差值计算公式如下,直到ε<0.001;
Figure BDA0002321785800000065
4)根据得到的Q值表,可以给出基于Q学习的最优控制方案:在实际信号控制中,利用传感器获取当前路网中的排队车辆信息Vnow,根据Q值表,得到下一步应当执行的信号灯状态Snext,Snext的计算公式为;
Figure BDA0002321785800000066
本发明的有益效果是:通过利用SUMO搭建的路网匹配和信息采集、原始车辆灯态数据预处理、利用排队车辆-灯态数据集{Vk,Sk,Vk+1},更新Q学习中的Q值表
Figure BDA0002321785800000071
和得到的Q值表,可以给出基于Q学习的最优控制方案:在实际信号控制中,利用传感器获取当前路网中的排队车辆信息Vnow,根据Q值表,得到下一步应当执行的信号灯状态Snext,以SUMO仿真数据软件为实施例,运用以上方法得到了基于Q学习的交通信号控制器,结果显示汽车平均旅行时间比传统定时方法控制少了16%,从而达到了可以适应交通路网随机性的目的。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于Q学习的交通信号控制方法,其特征在于,包括以下步骤:
1)信息采集;对于每一个时刻,获取交叉口的所有车道的排队车辆信息,以及信号灯的灯态信息并按照连续时刻一一对应;
2)原始车辆灯态数据预处理;获得排队车辆-灯态数据集{Vk,Sk,Vk+1},其中,Vk为第k时刻各个车道排队车辆的个数,k=1,2,…,K,K为该数据集合中的数据个数;
3)利用排队车辆-灯态数据集{Vk,Sk,Vk+1},更新Q学习中的Q值表
Figure FDA0002321785790000011
4)根据得到的Q值表,可以给出基于Q学习的最优控制方案:在实际信号控制中,利用传感器获取当前路网中的排队车辆信息Vnow,根据Q值表,得到下一步应当执行的信号灯状态Snext
2.根据权利要求1所述的基于Q学习的交通信号控制方法,其特征在于:所述K为该数据集合中的数据个数,计算过程为,剔除明显异常数据,如排队车辆变化量不符合常识的数据,将过车时刻数据按照时间顺序梳理,获取数据集合{Vk,Sk,Vk+1}。
3.根据权利要求1所述的基于Q学习的交通信号控制方法,其特征在于:所述步骤3中对每个V,S初始化表项
Figure FDA0002321785790000012
为,对于每一个数据(Vk,Sk,Vk+1),定义Q学习中的奖励值;
r=-Vk
4.根据权利要求3所述的基于Q学习的交通信号控制方法,其特征在于:利用车辆-灯态数据集{Vk,Sk,Vk+1}中每一个数据对Q值表
Figure FDA0002321785790000013
按照下式更新表项,其中折扣因子γ=0.99;
Figure FDA0002321785790000021
5.根据权利要求4所述的基于Q学习的交通信号控制方法,其特征在于:所述重复权利要求4步骤并相邻计算两次Q值表的差值ε,差值计算公式如下,直到ε<0.001;
Figure FDA0002321785790000022
6.根据权利要求4所述的基于Q学习的交通信号控制方法,其特征在于:
所述Snext的计算公式为;
Figure FDA0002321785790000023
CN201911301069.7A 2019-12-17 2019-12-17 一种基于q学习的交通信号控制方法 Pending CN111081035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911301069.7A CN111081035A (zh) 2019-12-17 2019-12-17 一种基于q学习的交通信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911301069.7A CN111081035A (zh) 2019-12-17 2019-12-17 一种基于q学习的交通信号控制方法

Publications (1)

Publication Number Publication Date
CN111081035A true CN111081035A (zh) 2020-04-28

Family

ID=70315042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911301069.7A Pending CN111081035A (zh) 2019-12-17 2019-12-17 一种基于q学习的交通信号控制方法

Country Status (1)

Country Link
CN (1) CN111081035A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201060A (zh) * 2020-09-27 2021-01-08 航天科工广信智能技术有限公司 一种基于Actor-Critic的单交叉口交通信号控制方法
CN112216128A (zh) * 2020-09-28 2021-01-12 航天科工广信智能技术有限公司 一种基于深度q学习神经网络的大型路网交通信号控制方法
CN112216127A (zh) * 2020-09-27 2021-01-12 航天科工广信智能技术有限公司 一种基于近端策略优化的小型路网交通信号优化方法
CN112216126A (zh) * 2020-09-27 2021-01-12 航天科工广信智能技术有限公司 一种基于sarsa的干线交通控制优化方法
CN113506450A (zh) * 2021-07-28 2021-10-15 浙江海康智联科技有限公司 一种基于Qlearning的单点信号配时方案选择方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761883A (zh) * 2014-01-29 2014-04-30 中国科学技术大学 一种交通信号控制的自学习方法及系统
CN105654744A (zh) * 2016-03-10 2016-06-08 同济大学 一种基于q学习的改进交通信号控制方法
CN106846836A (zh) * 2017-02-28 2017-06-13 许昌学院 一种单交叉口信号灯时间控制方法及系统
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN108335497A (zh) * 2018-02-08 2018-07-27 南京邮电大学 一种交通信号自适应控制系统及方法
CN108510764A (zh) * 2018-04-24 2018-09-07 南京邮电大学 一种基于q学习的多路口自适应相位差协调控制系统及方法
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、系统和存储介质
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110047278A (zh) * 2019-03-30 2019-07-23 北京交通大学 一种基于深度强化学习的自适应交通信号控制系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761883A (zh) * 2014-01-29 2014-04-30 中国科学技术大学 一种交通信号控制的自学习方法及系统
CN105654744A (zh) * 2016-03-10 2016-06-08 同济大学 一种基于q学习的改进交通信号控制方法
CN106846836A (zh) * 2017-02-28 2017-06-13 许昌学院 一种单交叉口信号灯时间控制方法及系统
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN108335497A (zh) * 2018-02-08 2018-07-27 南京邮电大学 一种交通信号自适应控制系统及方法
CN108510764A (zh) * 2018-04-24 2018-09-07 南京邮电大学 一种基于q学习的多路口自适应相位差协调控制系统及方法
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、系统和存储介质
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110047278A (zh) * 2019-03-30 2019-07-23 北京交通大学 一种基于深度强化学习的自适应交通信号控制系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜坚: "多Agent强化学习及其应用研究" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201060A (zh) * 2020-09-27 2021-01-08 航天科工广信智能技术有限公司 一种基于Actor-Critic的单交叉口交通信号控制方法
CN112216127A (zh) * 2020-09-27 2021-01-12 航天科工广信智能技术有限公司 一种基于近端策略优化的小型路网交通信号优化方法
CN112216126A (zh) * 2020-09-27 2021-01-12 航天科工广信智能技术有限公司 一种基于sarsa的干线交通控制优化方法
CN112216127B (zh) * 2020-09-27 2022-05-03 航天科工广信智能技术有限公司 一种基于近端策略优化的小型路网交通信号优化方法
CN112201060B (zh) * 2020-09-27 2022-05-20 航天科工广信智能技术有限公司 一种基于Actor-Critic的单交叉口交通信号控制方法
CN112216128A (zh) * 2020-09-28 2021-01-12 航天科工广信智能技术有限公司 一种基于深度q学习神经网络的大型路网交通信号控制方法
CN113506450A (zh) * 2021-07-28 2021-10-15 浙江海康智联科技有限公司 一种基于Qlearning的单点信号配时方案选择方法

Similar Documents

Publication Publication Date Title
CN111081035A (zh) 一种基于q学习的交通信号控制方法
CN109697866B (zh) 一种边缘计算交通信号灯控制系统及控制方法
CN108538065B (zh) 一种基于自适应迭代学习控制的城市主干道协调控制方法
CN111429721B (zh) 基于排队消散时间的路口交通信号方案优化方法
CN111915894B (zh) 基于深度强化学习的可变车道及交通信号协同控制方法
CN106558226B (zh) 信号灯配时评估与实时调整方法
CN108734354B (zh) 一种城市道路信号交叉口多目标配时优化方法
CN107331166B (zh) 一种基于路径分析的动态限行方法
LU503042B1 (en) Multi-model learning particle swarm-based intelligent city signal light timing optimization method
CN109410610B (zh) 一种简便实用的双向绿波配时算法
CN115578870B (zh) 一种基于近端策略优化的交通信号控制方法
CN104952261A (zh) 一种单交叉口交通信号优化控制方法
CN109029478A (zh) 一种基于改进Floyd算法的智能车辆路径规划方法
CN109035808A (zh) 一种基于深度学习的红绿灯切换方法及系统
CN113421439A (zh) 一种基于蒙特卡罗算法的单路口交通信号配时优化方法
CN114120670A (zh) 用于交通信号控制的方法和系统
CN107680393B (zh) 一种基于时变论域的十字路口交通信号灯的智能控制方法
CN113506442A (zh) 一种基于预期收益估计的城市路网交通信号灯控制方法
CN106600990B (zh) 基于遗传算法的动态信号灯评估方法与系统
CN111005275B (zh) 一种钩形弯交叉口信号协同控制优化方法
CN108648455B (zh) 一种基于综合出行费用的城市路网模式选择方法
CN114360265B (zh) 一种基于电子地图api的自适应交通信号灯控制方法
CN112905912B (zh) 配时方案确定方法及装置
CN110021168A (zh) 一种车联网下实现实时智能交通管理的分级决策方法
CN108572651A (zh) 一种智能化程度高的无人驾驶车辆

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200428