CN109670233A - 基于深度强化学习的多交通信号灯自动控制方法 - Google Patents
基于深度强化学习的多交通信号灯自动控制方法 Download PDFInfo
- Publication number
- CN109670233A CN109670233A CN201811535631.8A CN201811535631A CN109670233A CN 109670233 A CN109670233 A CN 109670233A CN 201811535631 A CN201811535631 A CN 201811535631A CN 109670233 A CN109670233 A CN 109670233A
- Authority
- CN
- China
- Prior art keywords
- traffic
- data
- agent
- vehicle
- crossing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
- G08G1/0129—Traffic data processing for creating historical data or processing based on historical data
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/09—Arrangements for giving variable traffic instructions
- G08G1/095—Traffic lights
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/09—Arrangements for giving variable traffic instructions
- G08G1/096—Arrangements for giving variable traffic instructions provided with indicators in which a mark progresses showing the time elapsed, e.g. of green phase
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供了一种基于深度强化学习的多交通信号灯自动控制方法,包括步骤1,通过现有数据或随机产生,获取包含车辆到达时间、位置以及路口地理位置的交通数据;步骤2,对交通数据进行预处理,在仿真软件中搭建模拟环境;步骤3,构造深度强化学习模型,使用单一智能体Agent处理多个路口的交通数据,Agent采用卷积神经网络;步骤4,在仿真软件中导入车辆数据,进行交通仿真和Agent训练,得到网络参数;步骤5,选择需要优化的车辆数据,在仿真中使用网络参数进行计算,动态地给出当前车流情况下最优的交通信号灯配时方案;步骤6,仿真结束,给出所有车辆的平均等待时间。
Description
技术领域
本发明涉及一种数据分析与深度强化学习技术,特别时一种基于深度强化学习的多交通信号灯自动控制方法。
背景技术
随着城市规模的发展以及人口的持续增加,交通拥堵成为亟待解决的热点问题。而交通信号灯作为调节和优化交通流的最主要方式,基于交通数据的智能分析进行交通信号灯控制是改善交通拥堵的有效方法。
目前的交通数据分析多是停留在静态分析阶段,通过人为分析车流数据选择交通信号灯固定的配时和周期时长,虽然在使用初期能一定程度上缓解交通压力,但由于缺乏动态分析和决策,在应对不同的道路情况时经常会出现浪费无效通行时间、增加等待时间等问题,进一步引起某些时刻的交通拥堵、交通信号灯的效率低下。交通数据的分析和优化问题本质上来说是一个包括环境分析和机器决策的问题,非常契合强化学习的适用范围。因此,本发明提出基于强化学习的交通数据智能分析方法,使用单一智能体(Agent)处理多个路口的交通数据,动态地给出当前车流情况下最优的交通信号灯配时方案,并引入了对偶学习,双Q学习,目标网络等提升性能,通过在仿真软件SUMO(Simulation of UrbanMObility)中的实验证明了其有效性。
发明内容
本发明的目的在于提供一种基于深度强化学习的多交通信号灯自动控制方法,包括以下步骤:
步骤1,通过现有数据或随机产生,获取包含车辆到达时间、位置以及路口地理位置的交通数据;
步骤2,对交通数据进行预处理,在仿真软件中搭建模拟环境;
步骤3,构造深度强化学习模型,使用单一智能体Agent处理多个路口的交通数据,Agent采用卷积神经网络;
步骤4,在仿真软件中导入车辆数据,进行交通仿真和Agent训练,得到网络参数;
步骤5,选择需要优化的车辆数据,在仿真中使用网络参数进行计算,动态地给出当前车流情况下最优的交通信号灯配时方案;
步骤6,仿真结束,给出所有车辆的平均等待时间。
本发明与现有技术相比,具有以下优点:(1)本发明针对人工选择的特征可能存在信息丢失、特征不全的问题,引入了基于图像的交通数据状态描述,并使用卷积神经网络提取特征和Q值计算;(2)针对多路口的交通数据关联影响问题,本发明采用单一Agent并在神经网络中共享参数来解决,既减少了多Agent引起的计算复杂,又能由卷积神经网络自动地考虑关联情况;(3)针对强化学习训练复杂,早期模型表现一般的问题,本发明引入了对偶学习,双Q学习,目标网络等提升性能。
下面结合说明书附图对本发明作进一步描述。
附图说明
图1是本发明基于深度强化学习的多交通信号灯自动控制方法流程图。
图2是仿真软件SUMO中的道路仿真实时截图。
图3是基于深度强化学习的多交通信号灯自动控制方法演示的效果图。
具体实施方式
结合图1,一种基于深度神经网络的电子竞技比赛胜负预测方法,包括以下步骤:
步骤1,通过现有数据或随机产生,获取包含车辆到达时间、位置以及路口地理位置的交通数据;
步骤2,对交通数据进行预处理,在仿真软件SUMO(Simulation of UrbanMObility)中搭建模拟环境;
步骤3,构造深度强化学习模型,使用单一智能体(Agent)处理多个路口的交通数据,Agent采用卷积神经网络;
步骤4,在SUMO中导入车辆数据,进行交通仿真和Agent训练,得到网络参数;
步骤5,选择需要优化的车辆数据,在仿真中使用网络参数进行计算,动态地给出当前车流情况下最优的交通信号灯配时方案;
步骤6,仿真结束,给出所有车辆的平均等待时间。
步骤1中的交通数据包含多个路口的位置坐标以及车辆在该路段的相关信息。其中路口的位置坐标为相对于某一路口的相对位置,车辆数据包括到达时间,所经过的路径和唯一的编号。
步骤2中预处理的具体过程包括,确保车辆数据中每一辆车唯一地对应一个编号,并删除行驶路径不连贯的车辆轨迹。
步骤3中的Agent,使用的是卷积神经网络,其输入是每个路口的车辆信息,这种信息形式可以是由每辆车的位置和速度构成的特征,也可以是仿真软件SUMO中的道路仿真实时截图,如图2所示。Agent的输出是所有交通信号灯下一秒或下一周期的最佳行为,即交通信号灯的时长与变化情况。为了提高Agent的性能,引入了对偶学习,双Q学习,目标网络的方法来加速训练,减少误差。
步骤4中的训练过程,在进行仿真时以秒为单位获取路口的状态(车辆信息)并存入Agent的记忆缓存中,每经过固定的时间间隔Agent将取出缓存进行训练,训练目标是减少所有车辆在路口的等待时间。
步骤6中的所有车辆的平均等待时间是指在一次完整的仿真过程中,所有车辆在路口停止等待的时间的平均值。
Claims (6)
1.一种基于深度强化学习的多交通信号灯自动控制方法,其特征在于,包括以下步骤:
步骤1,通过现有数据或随机产生,获取包含车辆到达时间、位置以及路口地理位置的交通数据;
步骤2,对交通数据进行预处理,在仿真软件中搭建模拟环境;
步骤3,构造深度强化学习模型,使用单一智能体Agent处理多个路口的交通数据,Agent采用卷积神经网络;
步骤4,在仿真软件中导入车辆数据,进行交通仿真和Agent训练,得到网络参数;
步骤5,选择需要优化的车辆数据,在仿真中使用网络参数进行计算,动态地给出当前车流情况下最优的交通信号灯配时方案;
步骤6,仿真结束,给出所有车辆的平均等待时间。
2.根据权利要求1所述的方法,其特征在于,所述步骤1中的交通数据包含多个路口的位置坐标以及车辆在该路段的相关信息;其中
路口的位置坐标为相对于某一路口的相对位置,
车辆数据包括到达时间、所经过的路径和唯一的编号。
3.根据权利要求2所述的方法,其特征在于,所述步骤2中预处理包括:
确保车辆数据中每一辆车唯一地对应一个编号,
删除行驶路径不连贯的车辆轨迹。
4.根据权利要求1所述的方法,其特征在于,所述步骤3中的Agent使用的是卷积神经网络;其中
神经网络的输入是每个路口的车辆信息,所述信息形式包括每辆车的位置和速度构成的特征,或仿真软件中的道路仿真实时截图;
神经网络的输出是所有交通信号灯的时长与变化情况。
5.根据权利要求1所述的方法,其特征在于,所述步骤4中的训练过程,在进行仿真时以秒为单位获取路口的车辆信息并存入Agent的记忆缓存中,每经过固定的时间间隔Agent将取出缓存进行训练,训练目标是减少所有车辆在路口的等待时间。
6.根据权利要求1所述的方法,其特征在于,所述步骤6中的所有车辆的平均等待时间是指在一次完整的仿真过程中,所有车辆在路口停止等待的时间的平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811535631.8A CN109670233A (zh) | 2018-12-14 | 2018-12-14 | 基于深度强化学习的多交通信号灯自动控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811535631.8A CN109670233A (zh) | 2018-12-14 | 2018-12-14 | 基于深度强化学习的多交通信号灯自动控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109670233A true CN109670233A (zh) | 2019-04-23 |
Family
ID=66143827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811535631.8A Pending CN109670233A (zh) | 2018-12-14 | 2018-12-14 | 基于深度强化学习的多交通信号灯自动控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670233A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428615A (zh) * | 2019-07-12 | 2019-11-08 | 中国科学院自动化研究所 | 基于深度强化学习单路口交通信号控制方法、系统、装置 |
CN110444018A (zh) * | 2019-07-30 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 仿真城市系统的控制方法和装置、存储介质及电子装置 |
CN110516380A (zh) * | 2019-08-30 | 2019-11-29 | 的卢技术有限公司 | 一种基于车辆行驶仿真数据的深度强化测试方法和系统 |
CN110718077A (zh) * | 2019-11-04 | 2020-01-21 | 武汉理工大学 | 一种行动-评价机制下信号灯优化配时方法 |
CN112150806A (zh) * | 2020-09-04 | 2020-12-29 | 开普云信息科技股份有限公司 | 基于sumo分析模型的单路口信号灯最优配时实现方法、控制装置、电子设备及存储介质 |
CN112700663A (zh) * | 2020-12-23 | 2021-04-23 | 大连理工大学 | 基于深度强化学习策略的多智能体智能信号灯路网控制方法 |
CN112836395A (zh) * | 2021-03-10 | 2021-05-25 | 北京车和家信息技术有限公司 | 一种车辆行驶数据模拟方法、装置、电子设备及存储介质 |
CN112863206A (zh) * | 2021-01-07 | 2021-05-28 | 北京大学 | 一种基于强化学习的交通信号灯控制方法与系统 |
CN114254567A (zh) * | 2021-12-29 | 2022-03-29 | 北京博能科技股份有限公司 | 一种基于Muti-Agent与强化学习的机场融合仿真方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7580996B1 (en) * | 2000-05-31 | 2009-08-25 | International Business Machines Corporation | Method and system for dynamic update of an application monitoring agent using a non-polling mechanism |
CN106910351A (zh) * | 2017-04-19 | 2017-06-30 | 大连理工大学 | 一种基于深度强化学习的交通信号自适应控制方法 |
CN107016861A (zh) * | 2017-05-31 | 2017-08-04 | 电子科技大学 | 基于深度学习和智能路灯的交通信号灯智能调控系统 |
-
2018
- 2018-12-14 CN CN201811535631.8A patent/CN109670233A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7580996B1 (en) * | 2000-05-31 | 2009-08-25 | International Business Machines Corporation | Method and system for dynamic update of an application monitoring agent using a non-polling mechanism |
CN106910351A (zh) * | 2017-04-19 | 2017-06-30 | 大连理工大学 | 一种基于深度强化学习的交通信号自适应控制方法 |
CN107016861A (zh) * | 2017-05-31 | 2017-08-04 | 电子科技大学 | 基于深度学习和智能路灯的交通信号灯智能调控系统 |
Non-Patent Citations (1)
Title |
---|
王宗尧: "分布式智能交通网络流量预测与控制系统", 《系统工程》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428615A (zh) * | 2019-07-12 | 2019-11-08 | 中国科学院自动化研究所 | 基于深度强化学习单路口交通信号控制方法、系统、装置 |
CN110428615B (zh) * | 2019-07-12 | 2021-06-22 | 中国科学院自动化研究所 | 基于深度强化学习单路口交通信号控制方法、系统、装置 |
CN110444018A (zh) * | 2019-07-30 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 仿真城市系统的控制方法和装置、存储介质及电子装置 |
CN110516380A (zh) * | 2019-08-30 | 2019-11-29 | 的卢技术有限公司 | 一种基于车辆行驶仿真数据的深度强化测试方法和系统 |
CN110718077A (zh) * | 2019-11-04 | 2020-01-21 | 武汉理工大学 | 一种行动-评价机制下信号灯优化配时方法 |
CN110718077B (zh) * | 2019-11-04 | 2020-08-07 | 武汉理工大学 | 一种行动-评价机制下信号灯优化配时方法 |
CN112150806A (zh) * | 2020-09-04 | 2020-12-29 | 开普云信息科技股份有限公司 | 基于sumo分析模型的单路口信号灯最优配时实现方法、控制装置、电子设备及存储介质 |
CN112700663A (zh) * | 2020-12-23 | 2021-04-23 | 大连理工大学 | 基于深度强化学习策略的多智能体智能信号灯路网控制方法 |
CN112863206A (zh) * | 2021-01-07 | 2021-05-28 | 北京大学 | 一种基于强化学习的交通信号灯控制方法与系统 |
CN112836395A (zh) * | 2021-03-10 | 2021-05-25 | 北京车和家信息技术有限公司 | 一种车辆行驶数据模拟方法、装置、电子设备及存储介质 |
CN114254567A (zh) * | 2021-12-29 | 2022-03-29 | 北京博能科技股份有限公司 | 一种基于Muti-Agent与强化学习的机场融合仿真方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670233A (zh) | 基于深度强化学习的多交通信号灯自动控制方法 | |
CN109765820B (zh) | 一种用于自动驾驶控制策略的训练系统 | |
CN111260937B (zh) | 一种基于强化学习的十字路口交通信号灯控制方法 | |
CN107506830A (zh) | 面向智能汽车规划决策模块的人工智能训练平台 | |
CN109215355A (zh) | 一种基于深度强化学习的单点交叉口信号配时优化方法 | |
CN106846818B (zh) | 基于Simulink仿真的路网动态交通流预测方法 | |
CN113561986B (zh) | 自动驾驶汽车决策方法及装置 | |
Wu et al. | Smart fog based workflow for traffic control networks | |
CN114038216B (zh) | 一种基于路网划分和边界流量控制的信号灯管控方法 | |
Lim et al. | Simulators for vehicular ad hoc network (VANET) development | |
CN115204455A (zh) | 适用于高速与环路交通场景的长时域驾驶行为决策方法 | |
CN113724507B (zh) | 基于深度强化学习的交通控制与车辆诱导协同方法和系统 | |
Lim et al. | Traffic vehicular network modelling for VANET inter-vehicle data scavenging | |
CN113657433A (zh) | 一种车辆轨迹多模态预测方法 | |
CN114613159B (zh) | 基于深度强化学习的交通信号灯控制方法、装置及设备 | |
Zhancheng | Research on application of deep reinforcement learning in traffic signal control | |
Arbabi et al. | Planning for autonomous driving via interaction-aware probabilistic action policies | |
Vacek et al. | An integrated simulation framework for cognitive automobiles | |
CN113887726A (zh) | 数据生成、驾驶策略验证、强化学习网络训练方法及装置 | |
Ng et al. | UTNSim: A new traffic simulator based on the LWR-IM mesoscopic traffic model | |
Tigga et al. | A deep Q-learning-based adaptive traffic light control system for urban safety | |
JP6832267B2 (ja) | 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム | |
Pholpol et al. | Traffic congestion prediction using deep reinforcement learning in vehicular ad-hoc networks (vanets) | |
CN114639255B (zh) | 一种交通信号控制方法、装置、设备和介质 | |
Kamal et al. | Digital-twin-based deep reinforcement learning approach for adaptive traffic signal control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |