CN111696370B - 基于启发式深度q网络的交通灯控制方法 - Google Patents

基于启发式深度q网络的交通灯控制方法 Download PDF

Info

Publication number
CN111696370B
CN111696370B CN202010546010.0A CN202010546010A CN111696370B CN 111696370 B CN111696370 B CN 111696370B CN 202010546010 A CN202010546010 A CN 202010546010A CN 111696370 B CN111696370 B CN 111696370B
Authority
CN
China
Prior art keywords
network
intersection
traffic
state
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010546010.0A
Other languages
English (en)
Other versions
CN111696370A (zh
Inventor
方敏
徐维
刘超
葛领驰
陈博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010546010.0A priority Critical patent/CN111696370B/zh
Publication of CN111696370A publication Critical patent/CN111696370A/zh
Application granted granted Critical
Publication of CN111696370B publication Critical patent/CN111696370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于启发式深度Q学习的多路口交通信号控制方法,主要解决现有方法中的训练数据有相关性、交通灯控制策略不能快速收敛和控制效率低的问题。其方案是:读取城市交通路网信息,建立各个路口的车辆交通状态集合,并将读取的城市交通路网信息转换为邻接矩阵进行存储;从各个路口车辆交通状态集合中,获取各个路口状态集、动作集和动作奖励值;根据状态集、动作集、动作奖励值和邻接矩阵,利用启发式深度Q网络方法根据每个路口的状态不断地执行动作获取奖励再到下一状态,实现对城市路网交通灯进行控制。本发明能提高对路口交通信号灯的控制效率,改善了多路口交通信号控制器的性能,可用于城市交通管理,减少城市交通拥堵。

Description

基于启发式深度Q网络的交通灯控制方法
技术领域
本发明属于智能交通控制领域,特别涉及一种交通灯控制方法,可用于城市交通管理,减少城市交通拥堵。
背景技术
在城市智能交通控制领域,深度学习和强化学习是目前很热门的研究方向,并取得了不错的成效。强化学习是通过与城市道路环境的不断交互获取环境状态来学习最优的交通控制策略,形成城市交通的自适应控制系统。然而由于城市道路环境复杂度的提高会导致其在获取先验知识过程中,状态-动作空间的维度急剧增长。为解决此类问题,强化学习与深度学习结合形成的深度强化学习DRL同时利用深度学习的感知能力和强化学习的决策能力,对高维输入进行处理,表现出了良好的效果。深度学习可以从高维数据中提取判别信息,在大数据推理与机器学习研究方向具有良好的表现。将深度学习方法应用于自适应交通信号控制问题已经成为国内外研究的热点,可以进一步优化现有的交通信号控制方法,同时利用多智能体系统,结合实际的复杂路网情况分析多路口之间的协作关系,实现多路口交通信号控制。
强化学习通过状态、动作和奖励与环境进行交互,其主要由智能体和环境组成。强化学习RL的模型如图2所示。RL通过不断的试错,从环境中获取奖励值,根据奖励值来改进智能体的动作选择,以获取最大的奖励。一个强化学习任务在满足马尔可夫性时被称作马尔可夫决策过程MDP,马尔可夫决策过程定义为如下所示五元组:
Figure BDA0002540768290000011
其中i,j∈S,a∈Ai
式中,S表示环境状态空间的集合;i和j分别表示状态集中的一个状态,Ai表示agent在状态i的动作集;
Figure BDA0002540768290000012
表示在状态i下采取动作a转移到状态j的转移概率,状态转移函数为T:S×A→Π(S);
Figure BDA0002540768290000013
表示采取动作a从状态i转移到状态j的奖励值;γ为折扣因子,它控制着即时奖励和未来奖励的重要程度,γ∈[0,1]。在每个迭代次数t,agent从环境中感知状态st∈S,并选择一个执行动作a,采取行动后根据状态转移概率转移到下一个状态st+1∈S,然后观察获取奖励值rt。马尔科夫性指agent的下一个状态仅与当前状态有关,而与历史状态无关。
深度学习DL通过将机器要学习的事务转换成数据,然后建立一个多层神经网络模型不断地训练这些数据,直到得到的结果满足要求,保留这个模型的各项参数,否则,继续调整网络的参数设置,直到输出满足要求为止,是一种新的机器学习方法。主要用于处理一些大数据问题,包括文字、图像、视频、语音等多种类型数据。
深度学习通过堆叠多个层,将前层特征通过神经网络处理,组合成更加抽象的后层来表示数据中隐藏的类别或特征,即将上一层输出作为下一层的输入,以发现数据的分布式特征表示,与其他的机器学习方法相比,深度学习注重模型结构的深度,通过逐层特征变换,从高维数据中学习特征,获取更多的内在信息,它的主要优点包括可以获取更高的准确率,可以更好的适应不同的领域和应用,不需要复杂的特征工程。
Wiering等人使用多智能体强化学习算法来学习交通信号控制,即交通控制TC1方法,以最大程度地减少城市中汽车的总体等待时间,选择的交通信号是通过累计所有汽车的预计等候时间来设置的,但是该算法需要一个中心服务器来控制每个路口的交通信号,由于城市交通的动态性、复杂性和不确定性,服务器并不能做出及时的交通控制。
Balaji P G等人提出了一种基于多智能体的分布式交通信号控制,所提出的基于自适应强化学习交通信号控制具有完全分布式的体系结构,其中的智能体能够相互交互,以有效地计算最佳的绿灯时间值,从而减少总行驶时间延迟并提高车辆平均速度,并通过智能体之间的即时通信共享交通路网信息,提高了每个智能体的预测能力,但是交通状态信息急剧增多,智能交通控制的难度呈指数级增长。
Bakker和Kuyer等人在Wiering的基础上,提出了两种改进方法。一种是结合邻接路口的交通拥堵情况,计算车辆的全局拥堵因子,得到不同的状态转移概率和值函数。另一种方法通过多个路口控制器之间的不断通信,利用协作图建模来实现多路口协作的交通信号控制。通过这两种方法虽然增加了路口之间的协作,但是由于要不断更新维护全局拥堵因子,降低了深度Q学习算法效率,且使得深度Q学习算法灵活性、鲁棒性变差。
Xiaoyuan Liang等人提出了一种深度强化学习DRL模型来控制交通信号周期,根据从不同传感器收集的数据来确定交通信号的持续时间。该模型通过收集交通数据并将整个交叉路口划分为小网格,将复杂的交通情景量化为状态;动作是交通信号灯的持续时间变化,这些动作被建模为高维马尔可夫决策过程;奖励是两个周期之间的累积等待时间差。但是该模型中各智能体独立学习,并没有相互合作,这使得深度强化学习算法收敛速度很慢,很难学到一个最优的交通灯控制策略。
发明内容
本发明的目的在于针对上述现有技术的不足,提出基于启发式深度Q网络的交通灯控制方法,以在动作选择阶段,通过结合启发式函数和原有的策略指导交通灯控制器的动作选择,促进其对状态动作空间的探索,加快收敛速度,提高路口交通信号控制器的控制性能。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)读取城市交通路网信息,建立各个路口的车辆交通状态集合,并将读取的城市交通路网信息转换为邻接矩阵进行存储;
(2)从(1)建立的各个路口车辆交通状态集合中,获取各个路口信息,即各时刻的状态集、动作集和动作奖励值;
(3)根据(2)获取的信息和(1)中的邻接矩阵,利用启发式深度Q网络方法实现对城市路网交通灯进行控制:
3a)初始化第i个路口的评估网络参数θi=1和目标网络参数θi -=1,初始化学习率α=0.05,折扣因子γ=0.99,ε贪心策略中的ε初始为1迭代递减至0.01,采样间隔batch=32,目标网络更新步长C=50,仿真时间t的初始值为0,初始化第i个路口的奖励rt i=0,迭代次数上限T=50000;
3b)设置启发式函数
Figure BDA0002540768290000031
3c)在时刻t,将第i个路口的状态
Figure BDA0002540768290000032
输入到评估网络中,对任意一个动作a,计算评估网络的输出值
Figure BDA0002540768290000033
和启发函数
Figure BDA0002540768290000034
的函数值;
3d)选择并执行信号灯动作
Figure BDA0002540768290000035
获得奖励rt i,再进入下一状态
Figure BDA0002540768290000036
令t=t+1;
3e)用状态
Figure BDA0002540768290000037
动作
Figure BDA0002540768290000038
评估网络的输出值
Figure BDA0002540768290000039
奖励rt i和下一状态
Figure BDA00025407682900000310
组成一个参考向量
Figure BDA00025407682900000311
并将其存储在第i个路口的参考向量集Mi中,当该参考向量个数大于2000时,开始训练评估网络,执行3f),否则,执行3c);当该参考向量个数大于5000,则移除最早生成的参考向量;
3f)从参考向量集Mi中采样得到参考向量的样本集,输入到评估网络中得到输出值
Figure BDA0002540768290000041
根据评估网络的输出值
Figure BDA0002540768290000042
和第j个邻接路口t-1时刻的评估网络的输出值
Figure BDA0002540768290000043
更新第i个路口的评估网络的输出值
Figure BDA0002540768290000044
3g)计算评估网络的损失函数,根据梯度下降方法更新评估网络参数θi,每隔50步,目标网络参数θi -=θi
3h)将当前迭代次数t与迭代次数上限T进行比较,判断迭代是否停止:
若t>T,完成对城市路网交通灯的控制;否则,返回3c)。
本发明与现有方法相比有如下优点:
第一,本发明采用了先将参考向量存储到参考向量池,再对参考向量池进行采样的方法,避免顺序生成的训练数据的相关性,使得整个训练数据满足独立且同分布的假设,其训练结果更有说服力;
第二,本发明采用结构与评估网络相同、参数不同的目标网络,避免了评估输出值的微小变化都会导致学到的交通灯控制策略不能收敛的问题;
第三,本发明提高了深度Q学习方法的学习效率,进一步改善了多路口交通信号控制器的性能,有效地调节了各路口的交通流,单位时间内全局通过各个路口的车辆更多,在最大程度上缓解城市交通的压力,避免交通拥堵情况的发生。
附图说明
图1为本发明的实现总流程图;
图2为本发明中使用的强化学习模型图;
图3为本发明中使用的开源交通仿真软件GLD生成的交通路网图;
图4为本发明中路口以及路口的信号灯组合图;
图5为本发明中路口交通状态图;
图6为本发明中进行启发式深度Q学习的子流程图;
图7为用本发明与现有的两种交通灯控制方法在交通顺畅的情况下对交通灯控制的性能评价对比图;
图8为用本发明与现有的两种交通灯控制方法在交通拥堵的情况下对交通灯控制的性能评价对比图。
具体实施方式
下面结合附图,对本发明实例和效果作进一步的详细描述。
参照图1,本实例的实现步骤如下:
步骤1,读取城市交通路网信息,建立各个路口的车辆交通状态集合,并将读取的城市交通路网信息转换为邻接矩阵进行存储。
1.1)通过开源交通仿真软件GLD生成城市交通路网信息,如图3中所示,建立各个路口的车辆交通状态集合Ti
1.1.1)根据交通路网信息构建路口交通信号控制器的集合I:
I={agent0,···agenti,···agentn},
其中agenti表示第i个路口的交通信号控制器,i∈[0,n],n为路网中的路口数;
1.1.2)根据中国的道路交通规则建立路口信号控制器agenti的动作集Ai
Ai={a1,a2,a3,a4},
其中a1表示南北方向的直行或右拐,a2表示东西方向的直行或右拐,a3表示南北方向的左拐,a4表示东西方向的左拐,路口信号控制器agenti在同一时刻只能选择一组信号灯相位方向,图4中标注了一个路口含有的4种信号灯组合,信号灯相位的执行取决于路网的实时交通状态,路网交通动作集与信号灯相位集映射关系如表1所示:
表1动作与路口信号灯相位关系
Figure BDA0002540768290000051
1.1.3)根据城市交通路网信息构建第i个路口的驶入车道集合Li,驶入车道集合Li中的一条驶入车道为li,li∈Li
1.1.4)根据中国的道路交通规则构建第i个路口的信号灯集合TLi,驶入车道li上的信号灯为tli,tli∈TLi,该信号灯仅考虑红灯和绿灯;
1.1.5)根据路网中车辆信息构建第i个路口的车辆状态集
Figure BDA0002540768290000061
其包含车辆所处车道的信号灯tli、所处位置p以及目的地d信息,并用三元组[tli,p,d]表示;
1.1.6)根据交通信号控制器的集合I、路口信号控制器agenti的动作集Ai、驶入车道集合Li、信号灯集合TLi和车辆状态集
Figure BDA0002540768290000062
建立第i个路口的车辆交通状态集合Ti
Figure BDA0002540768290000063
同理,可以建立路网中所有路口的车辆交通状态集合。
步骤2,从步骤1建立的各个路口车辆交通状态集合中,获取各个路口信息,即各时刻的状态集、动作集和动作奖励值。
2.1)获取各个路口各时刻的状态集:
2.1.1)通过交通仿真软件GLD实时获取路网中的交通信息,设置每个路口的所有驶入车道长度为L,将其平均划分为6个车位,设置每个车位长度为b,确保每个车位刚好能够容纳一辆车;
2.1.2)在时刻t,对于驶入车道集合Li中的一条驶入车道li,如图5所示,它的状态可用矩阵
Figure BDA0002540768290000064
表示:
Figure BDA0002540768290000065
其中,0表示该车位上没有车辆,1表示该车位上有车辆,该路口的状态集
Figure BDA0002540768290000066
表示如下:
Figure BDA0002540768290000067
同理可获得所有路口的状态集;
2.2)获取各个路口各时刻的动作集Ai
Ai={a1,a2,a3,a4},
该动作集Ai与信号灯相位集映射关系如表1所示;
2.3)根据表1的映射关系选择对应的信号灯相位,对执行动作集Ai中的一个动作ak,按如下规则修改交通灯相位的执行时间,k=1,2,3,4:
2.3.1)设置交通信号灯相位执行时间的初始值为40秒;
2.3.2)交通灯控制器每隔10秒选择一次信号灯相位,若下一次将要执行的信号灯相位与上一时刻不同,则执行时间减少10秒,否则,增加10秒;
2.3.3)当信号灯相位的执行时间累计到70秒或者执行时间减至0秒时,直接将该路口交通信号灯相位替换为下一相位执行;
2.4)计算各个路口各时刻的动作奖励值
Figure BDA0002540768290000071
Figure BDA0002540768290000072
其中w1、w2、w3为三个不同的比例系数,ni为在动作执行期间通过路口i的车辆数,n0为单位时间内经过的车辆数的平均值,
Figure BDA0002540768290000073
为在t时刻第i个路口的四个不同方向车辆的队列长度,N为路口车道数量,pj表示在第j个车道所有车辆的等待时间,r0表示系统定义的额外奖励。
步骤3,根据步骤2获取的信息和步骤1中的邻接矩阵,利用启发式深度Q网络方法实现对城市路网交通灯进行控制。
参照图6,本步骤的具体实现流程如下:
3.1)构建第i个路口的评估网络和目标网络:
3.1.1)将两个卷积层和两个全连接层依次连接组成评估网络,第i个路口的评估网络的参数用θi表示;
3.1.2)设置结构与评估网络相同、参数不同的目标网络,第i个路口的目标网络参数用
Figure BDA0002540768290000074
表示;
3.1.3)定义评估网络的损失函数MSE如下:
Figure BDA0002540768290000075
其中,m为批次大小,rt i为动作奖励值,θi为评估网络的参数,表示θi -目标网络参数,
Figure BDA0002540768290000076
为第i个路口t时刻在状态
Figure BDA0002540768290000077
下所有动作的评估网络最大输出值,ωi,j为比例系数,
Figure BDA0002540768290000078
表示第j个邻接路口t-1时刻的评估网络的输出值,
Figure BDA0002540768290000081
为评估网络的输出;
3.2)初始化学习率α=0.05,折扣因子γ=0.99,ε贪心策略中的ε初始为1迭代递减至0.01,采样间隔batch=32,目标网络更新步长C=50,仿真时间t的初始值为0,初始化第i个路口的奖励rt i=0,迭代次数上限T=50000;
3.3)设置启发式函数
Figure BDA0002540768290000082
Figure BDA0002540768290000083
其中:
Figure BDA0002540768290000084
式中,
Figure BDA0002540768290000085
表示在t时刻第i个路口的状态,c为比例系数,c∈[0,1],l为第i个路口的任意一个车道,
Figure BDA0002540768290000086
为在状态
Figure BDA0002540768290000087
下采取动作a之后第l个车道的车流量,Ai为第i个路口的动作集,a'为Ai中的任意一个动作,θi为第i个路口的评估网络的参数,
Figure BDA0002540768290000088
为将
Figure BDA0002540768290000089
输入到第i个路口的评估网络的输出值,η为一个较小的正值,启发函数
Figure BDA00025407682900000810
的值越大,表明状态
Figure BDA00025407682900000811
下动作a越好,即交通路网中车辆的通行量越多。
3.4)在时刻t,将第i个路口的状态
Figure BDA00025407682900000812
输入到评估网络中,对动作集Ai中的任意一个动作a,计算评估网络的输出值
Figure BDA00025407682900000813
Figure BDA00025407682900000814
其中MLP函数为评估网络函数,它由评估网络的结构决定,MLP函数先将
Figure BDA00025407682900000815
通过两个卷积层卷积来提取特征,再将提取到的特征通过两个全连接层得到输出
Figure BDA00025407682900000816
3.5)根据评估网络的输出
Figure BDA00025407682900000817
计算启发函数
Figure BDA00025407682900000818
的函数值,进而选择信号灯动作
Figure BDA00025407682900000819
Figure BDA0002540768290000091
其中,rand(0,1)表示[0,1]之间的一个随机数,ε初始值为1迭代递减至0.01,
Figure BDA0002540768290000092
为评估网络的输出,
Figure BDA0002540768290000093
为启发式函数的值;
3.6)用状态
Figure BDA0002540768290000094
动作
Figure BDA0002540768290000095
评估网络的输出值
Figure BDA0002540768290000096
奖励rt i和下一状态
Figure BDA0002540768290000097
组成一个参考向量
Figure BDA0002540768290000098
并将其存储在第i个路口的参考向量集Mi中,当该参考向量个数大于2000时,开始训练评估网络,执行3.7),否则,执行3.4);当该参考向量个数大于5000,则移除最早生成的参考向量;
3.7)从参考向量集Mi中采样得到参考向量的样本集,输入到评估网络中得到输出值
Figure BDA0002540768290000099
根据评估网络的输出值
Figure BDA00025407682900000910
和第j个邻接路口t-1时刻的评估网络的输出值
Figure BDA00025407682900000911
更新第i个路口的评估网络的输出值
Figure BDA00025407682900000912
Figure BDA00025407682900000913
其中,α(t)为学习率,γ为折扣因子,Ai为第i个路口的动作集,a'为Ai中的任意一个动作,θi和θi -分别是第i个路口的评估网络和目标网络的参数,N为第i个路口的邻接路口集,ωi,j表示第j个邻接路口t-1时刻的评估网络的输出值
Figure BDA00025407682900000914
的权重,计算公式如下:
Figure BDA00025407682900000915
式中,c1、c2为两个数值不同的比例系数,di,j表示第i个路口到第j个路口的距离,Ti,j表示第i个路口到第j个路口之间的车辆数;
3.8)令t=t+1,计算评估网络的损失函数,根据梯度下降方法更新评估网络参数θi,每隔50步,目标网络参数θi -=θi
3.9)将当前迭代次数t与迭代次数上限T进行比较,判断迭代是否停止:
若t>T,完成对城市路网交通灯的控制;否则,返回3.4)。
本发明的效果可通过以下实验做进一步说明。
一.仿真条件
用本发明与现有的两种交通灯控制方法在开源的微观交通仿真软件GLD中进行实验和仿真。GLD是一个基于细胞自动机的仿真环境,可以根据自己的需要创建和编辑交通网络,实现自己的控制方法。本发明在jdk1.8环境下用java语言实现。
通过GLD仿真平台创建交通路网,如图3所示,其中包括路口、车道、车辆和车辆产生频率。
该路口包括12个边缘路口和9个交叉路口,车辆从边缘路口产生,每个交叉路口上设有红绿灯,车辆行驶过程中会受到红绿灯以及前方车辆的限制,随机选择一个其他边缘路口作为目的地;
该交通路网共有24条道路,每条道路由4条车道组成,每条车道都划分单元格来容纳车辆,每个单元格同时仅供一辆车占用,当所有车道都被车辆占满时发生堵塞;
该车辆包括汽车和公交车,不同类型的车辆长度不同;不同的车辆产生频率对应不同的交通仿真场景,由于当车辆产生频率值大于等于0.4时则会产生交通拥堵,当小于0.4时则不会造成严重的交通拥堵;
仿真实验的现有方法:协作式深度Q学习CDQN方法和基于置信传播的交通信号控制方法MaxplusJJ。
参数设置:折扣因子γ=0.9,ε策略中的ε=0.01;
性能评价指标:路口车辆平均等待时间AJWT、车辆平均行驶等待时间ATWT和到达目的地的总车辆数TAV:
路口的车辆平均等待时间AJWT,用于反映路口的交通性能,定义如下:
Figure BDA0002540768290000101
式中,ni为通过第i个路口的所有车辆数,
Figure BDA0002540768290000102
表示第k辆车在第i个路口的等待时间,AJWT值越小,说明路口越通畅,反之,AJWT越大,说明路口越拥堵;
车辆平均行驶时间ATWT,用于反映整个路网的交通性能,定义如下:
Figure BDA0002540768290000103
式中,N为路网中所有的车辆总数,Wk表示第k辆车在路网中的行驶时间,ATWT值越小,说明路网性能越好,反之,ATWT越大,说明路网性能越差;
到达目的地的总车辆数TAV是通过GLD仿真软件统计得到,TAV值越大,说明路口拥堵时间越少,反之,路口拥堵时间越长。
二.仿真实验内容
仿真实验1:在图3所示的交通网络中,在交通顺畅的情况下,设汽车的生成频率为0.25,公交车的生成频率为0.05,用本发明方法和上述现有两种交通控制方法进行城市路网交通灯控制仿真,从仿真结果中获取三个交通性能评估指标,其中的两个评估指标路口的车辆平均等待时间AJWT和车辆平均行驶时间ATWT如图7所示,然后计算三个评估指标的平均值,如表2所示。
表2交通顺畅的情况下三种控制方法交通性能评价指标平均值
Figure BDA0002540768290000111
仿真实验2:在图3所示的交通网络中,在交通拥堵的情况下,设置汽车的生成频率为0.35,公交车的生成频率为0.05,用本发明方法和上述现有两种交通控制方法进行城市路网交通灯控制仿真,从仿真结果中获取三个交通性能评估指标,其中的两个评估指标路口的车辆平均等待时间AJWT和车辆平均行驶时间ATWT如图8所示,然后计算三个评估指标的平均值,如表3所示。
表3交通拥堵的情况下三种控制方法交通性能评价指标平均值
Figure BDA0002540768290000112
图7、图8和表3、表2均表明:本发明的ATWT和AJWT指标明显优于基于置信传播的交通信号控制MAXJJ方法,其性能与协作式深度Q学习CDQN方法相当,能有效减少路口车辆的等待时间,实现对复杂交通路网下交通信号的有效控制;但本发明的ATWT和AJWT指标曲线收敛速度要快于协作式深度Q学习CDQN方法,表明本发明能够对复杂路网中的交通信号作出更及时的控制。
综上所述,本发明能够实现对多路口交通信号的有效控制,其控制效果优于现有的交通信号控制方法,与现有的两种交通信号控制方法相比,表现出更好的稳定性及更快的收敛速度。

Claims (2)

1.一种基于启发式深度Q网络的交通灯控制方法,其特征在于,包括如下:
步骤1:读取城市交通路网信息,建立各个路口的车辆交通状态集合Ti,并将读取的城市交通路网信息转换为邻接矩阵进行存储;其中,建立各个路口的车辆交通状态集合Ti,实现如下:
1a)根据交通路网信息构建路口交通信号控制器的集合I:
I={agent0,…agenti,…agentn},
其中agenti表示第i个路口的交通信号控制器,i∈[0,n],n为路网中的路口数;
1b)根据中国的道路交通规则建立路口信号控制器agenti的动作集Ai
Ai={a1,a2,a3,a4},
其中a1表示南北方向的直行或右拐,a2表示东西方向的直行或右拐,a3表示南北方向的左拐,a4表示东西方向的左拐,路口信号控制器agenti在同一时刻只能选择一组信号灯相位方向;
1c)根据城市交通路网信息构建第i个路口的驶入车道集合Li,驶入车道集合Li中的一条驶入车道为li,li∈Li
1d)根据中国的道路交通规则构建第i个路口的信号灯集合TLi,驶入车道li上的信号灯为tli,tli∈TLi,该信号灯仅考虑红灯和绿灯;
1e)根据路网中车辆信息构建第i个路口的车辆状态集
Figure FDA0003171984980000011
其包含车辆所处车道的信号灯tli、所处位置p以及目的地d信息,并用三元组[tli,p,d]表示;
1f)根据交通信号控制器的集合I、路口信号控制器agenti的动作集Ai、驶入车道集合Li、信号灯集合TLi和车辆状态集
Figure FDA0003171984980000012
建立第i个路口的车辆交通状态集合Ti
Figure FDA0003171984980000013
同理,可以建立路网中所有路口的车辆交通状态集合;
步骤2:从步骤1建立的各个路口车辆交通状态集合中,获取各个路口不同时刻的信息,该信息为状态集、动作集和动作奖励值;
步骤3:根据步骤2获取的信息和步骤1中的邻接矩阵,利用启发式深度Q网络方法实现对城市路网交通灯进行控制:
3a)初始化第i个路口的评估网络参数θi=1和目标网络参数θi -=1,初始化学习率α=0.05,折扣因子γ=0.99,ε贪心策略中的ε初始为1迭代递减至0.01,采样间隔batch=32,目标网络更新步长C=50,仿真时间t的初始值为0,初始化第i个路口的奖励rt i=0,迭代次数上限T=50000;
3b)设置启发函数
Figure FDA0003171984980000021
Figure FDA0003171984980000022
其中:
Figure FDA0003171984980000023
式中,
Figure FDA0003171984980000024
表示在t时刻第i个路口的状态,c为比例系数,c∈[0,1],l为第i个路口的任意一个车道,
Figure FDA0003171984980000025
为在状态
Figure FDA0003171984980000026
下采取动作a之后第l个车道的车流量,Ai为第i个路口的动作集,a'为Ai中的任意一个动作,θi为第i个路口的评估网络参数,
Figure FDA0003171984980000027
为将
Figure FDA0003171984980000028
输入到第i个路口的评估网络的输出值,η为一个较小的正值,启发函数
Figure FDA0003171984980000029
的值越大,表明状态
Figure FDA00031719849800000210
下动作a越好,表明交通路网中车辆的通行量越多;
3c)在时刻t,将第i个路口的状态
Figure FDA00031719849800000211
输入到评估网络中,对任意一个动作a,计算评估网络的输出值
Figure FDA00031719849800000212
和启发函数
Figure FDA00031719849800000213
的函数值;其中,评估网络的输出值
Figure FDA00031719849800000214
按照如下公式计算:
Figure FDA00031719849800000215
其中MLP函数为评估网络函数,它由评估网络的结构决定,MLP函数先将
Figure FDA00031719849800000216
通过两个卷积层卷积来提取特征,再将提取到的特征通过两个全连接层得到输出
Figure FDA0003171984980000031
3d)选择并执行信号灯动作
Figure FDA0003171984980000032
Figure FDA0003171984980000033
其中,rand(0,1)表示[0,1]之间的一个随机数,ε初始值为1迭代递减至0.01,
Figure FDA0003171984980000034
为评估网络的输出,
Figure FDA0003171984980000035
为启发函数的值;
获得奖励rt i,再进入下一状态
Figure FDA0003171984980000036
令t=t+1;其中的奖励rt i,按如下公式计算:
Figure FDA0003171984980000037
其中w1、w2、w3为三个不同的比例系数,ni为在动作执行期间通过路口i的车辆数,n0为单位时间内经过的车辆数的平均值,
Figure FDA0003171984980000038
为在t时刻第i个路口的四个不同方向车辆的队列长度,
Figure FDA0003171984980000039
为在t-1时刻第i个路口的四个不同方向车辆的队列长度,N为路口车道数量,pj表示在第j个车道所有车辆的等待时间,r0表示系统定义的额外奖励;
3e)用状态
Figure FDA00031719849800000310
动作
Figure FDA00031719849800000311
评估网络的输出值
Figure FDA00031719849800000312
奖励rt i和下一状态
Figure FDA00031719849800000313
组成一个参考向量
Figure FDA00031719849800000314
并将其存储在第i个路口的参考向量集Mi中,当该参考向量个数大于2000时,开始训练评估网络,执行3f),否则,执行3c);当该参考向量个数大于5000,则移除最早生成的参考向量;
3f)从参考向量集Mi中采样得到参考向量的样本集,输入到评估网络中得到评估网络的输出值
Figure FDA00031719849800000315
根据评估网络的输出值
Figure FDA00031719849800000316
和第j个邻接路口t-1时刻的评估网络的输出值
Figure FDA00031719849800000317
更新第i个路口的评估网络的输出值
Figure FDA00031719849800000318
按照如下公式进行更新:
Figure FDA0003171984980000041
其中,α(t)为学习率,γ为折扣因子,Ai为第i个路口的动作集,a'为Ai中的任意一个动作,θi
Figure FDA0003171984980000042
分别是第i个路口的评估网络和目标网络参数,N'为第i个路口的邻接路口集,ωi,j表示第j个邻接路口t-1时刻的评估网络的输出值
Figure FDA0003171984980000043
的权重,计算公式如下:
Figure FDA0003171984980000044
式中,c1、c2为两个数值不同的比例系数,di,j表示第i个路口到第j个路口的距离,Ti,j表示第i个路口到第j个路口之间的车辆数;
3g)计算评估网络的损失函数,根据梯度下降方法更新评估网络参数θi,每隔50步,目标网络参数
Figure FDA0003171984980000045
3h)将当前迭代次数t与迭代次数上限T进行比较,判断迭代是否停止:
若t>T,完成对城市路网交通灯的控制;否则,返回3c)。
2.根据权利要求1所述的方法,其特征在于:3a)中第i个路口的评估网络和目标网络,实现如下:
3a1)由两个卷积层和两个全连接层组成评估网络,评估网络参数用θi表示;
3a2)设置结构与评估网络相同、参数不同的目标网络,目标网络参数用
Figure FDA0003171984980000046
表示;
3a3)定义评估网络的损失函数MSE如下:
Figure FDA0003171984980000047
其中,m为批次大小,θi为评估网络参数,
Figure FDA0003171984980000048
表示目标网络参数,
Figure FDA0003171984980000049
为状态
Figure FDA00031719849800000410
下所有动作的评估网络最大输出值,
Figure FDA00031719849800000411
为评估网络的输出值。
CN202010546010.0A 2020-06-16 2020-06-16 基于启发式深度q网络的交通灯控制方法 Active CN111696370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010546010.0A CN111696370B (zh) 2020-06-16 2020-06-16 基于启发式深度q网络的交通灯控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010546010.0A CN111696370B (zh) 2020-06-16 2020-06-16 基于启发式深度q网络的交通灯控制方法

Publications (2)

Publication Number Publication Date
CN111696370A CN111696370A (zh) 2020-09-22
CN111696370B true CN111696370B (zh) 2021-09-03

Family

ID=72481227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010546010.0A Active CN111696370B (zh) 2020-06-16 2020-06-16 基于启发式深度q网络的交通灯控制方法

Country Status (1)

Country Link
CN (1) CN111696370B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150808B (zh) * 2020-09-25 2022-06-17 天津大学 一种基于深度学习的城市交通系统调度策略生成方法
CN112201060B (zh) * 2020-09-27 2022-05-20 航天科工广信智能技术有限公司 一种基于Actor-Critic的单交叉口交通信号控制方法
CN112216128A (zh) * 2020-09-28 2021-01-12 航天科工广信智能技术有限公司 一种基于深度q学习神经网络的大型路网交通信号控制方法
CN112614343B (zh) * 2020-12-11 2022-08-19 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN112669629B (zh) * 2020-12-17 2022-09-23 北京建筑大学 一种基于深度强化学习的实时交通信号控制方法及装置
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法
CN112863206B (zh) * 2021-01-07 2022-08-09 北京大学 一种基于强化学习的交通信号灯控制方法与系统
CN112927522B (zh) * 2021-01-19 2022-07-05 华东师范大学 一种基于物联网设备的强化学习可变时长信号灯控制方法
CN112927505B (zh) * 2021-01-28 2022-08-02 哈尔滨工程大学 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法
CN113380054A (zh) * 2021-06-09 2021-09-10 湖南大学 一种基于强化学习的交通信号灯控制方法及系统
CN113554166A (zh) * 2021-06-16 2021-10-26 中国人民解放军国防科技大学 认知行为模型加速的深度q网络强化学习方法及设备
WO2023065057A1 (zh) * 2021-10-22 2023-04-27 孟卫平 交通信号智能控制架构方法
CN114141028B (zh) * 2021-11-19 2023-05-12 哈尔滨工业大学(深圳) 智能红绿灯车流调控系统
CN114299732B (zh) * 2021-12-29 2023-04-14 中山大学 一种同时考虑行程时间和公平性的交通灯控制方法及系统
CN114613168B (zh) * 2022-04-19 2023-02-24 南京信息工程大学 一种基于记忆网络的深度强化学习交通信号控制方法
CN114613169B (zh) * 2022-04-20 2023-02-28 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法
CN115752076B (zh) * 2022-10-27 2023-12-01 成都飞创科技有限公司 一种冷却循环水系统控制方法
CN116758767B (zh) * 2023-08-21 2023-10-20 中南大学 基于多策略强化学习的交通信号灯控制方法
CN116994444B (zh) * 2023-09-26 2023-12-12 南京邮电大学 一种交通灯控制方法、系统及存储介质
CN117407718B (zh) * 2023-12-15 2024-03-26 杭州宇谷科技股份有限公司 一种换电预测模型的训练方法、应用方法和系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201009974D0 (en) * 2010-06-15 2010-07-21 Trinity College Dublin Decentralised autonomic system and method for use inan urban traffic control environment
CN107705557B (zh) * 2017-09-04 2020-02-21 清华大学 基于深度增强网络的路网信号控制方法及装置
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、系统和存储介质
CN109559530B (zh) * 2019-01-07 2020-07-14 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110264750B (zh) * 2019-06-14 2020-11-13 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN110164151A (zh) * 2019-06-21 2019-08-23 西安电子科技大学 基于分布式深度循环q网络的交通灯控制方法
CN110738860B (zh) * 2019-09-18 2021-11-23 平安科技(深圳)有限公司 基于强化学习模型的信息控制方法、装置和计算机设备
CN110956311B (zh) * 2019-11-15 2023-04-07 浙江工业大学 一种基于强化学习的超启发算法的车辆路径优化方法
CN111091711A (zh) * 2019-12-18 2020-05-01 上海天壤智能科技有限公司 基于强化学习和交通车道竞争理论的交通控制方法及系统
CN111243271A (zh) * 2020-01-11 2020-06-05 多伦科技股份有限公司 一种基于深度循环q学习的单点交叉口信号控制方法

Also Published As

Publication number Publication date
CN111696370A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN110264750B (zh) 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN112216124B (zh) 一种基于深度强化学习的交通信号控制方法
CN112365724B (zh) 一种基于深度强化学习的连续交叉口信号协同控制方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN112700664A (zh) 一种基于深度强化学习的交通信号配时优化方法
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN112735126A (zh) 一种基于模型预测控制的混合交通流协同优化控制方法
CN113312752B (zh) 一种主路优先控制交叉口交通仿真方法及装置
CN110570672A (zh) 一种基于图神经网络的区域交通信号灯控制方法
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN115056798A (zh) 一种基于贝叶斯博弈的自动驾驶车辆换道行为车路协同决策算法
CN115691167A (zh) 一种基于交叉口全息数据的单点交通信号控制方法
CN116476863A (zh) 基于深度强化学习的自动驾驶横纵向一体化决策方法
CN113724507B (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
CN113299079B (zh) 一种基于ppo和图卷积神经网络区域交叉口信号控制方法
CN113479187A (zh) 一种插电式混合动力汽车分层异步长能量管理方法
CN116968721A (zh) 一种混合动力汽车预测式能量管理方法、系统和存储介质
CN116758768A (zh) 一种全十字路口红绿灯动态调控方法
Luo et al. Researches on intelligent traffic signal control based on deep reinforcement learning
CN113487870B (zh) 一种基于cw攻击对智能单交叉口的对抗扰动生成方法
CN115116240A (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
Chen et al. Traffic signal optimization control method based on adaptive weighted averaged double deep Q network
CN117275240B (zh) 考虑多类型驾驶风格的交通信号强化学习控制方法和装置
CN113753049B (zh) 基于社会偏好的自动驾驶超车决策确定方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant