CN114913685A - 基于深度强化学习的路口交通信号自适应控制方法 - Google Patents

基于深度强化学习的路口交通信号自适应控制方法 Download PDF

Info

Publication number
CN114913685A
CN114913685A CN202210503173.XA CN202210503173A CN114913685A CN 114913685 A CN114913685 A CN 114913685A CN 202210503173 A CN202210503173 A CN 202210503173A CN 114913685 A CN114913685 A CN 114913685A
Authority
CN
China
Prior art keywords
vehicles
action
reinforcement learning
current
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210503173.XA
Other languages
English (en)
Other versions
CN114913685B (zh
Inventor
高万宝
尹少东
吕红振
张超
解寅萍
杨丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Horoma Information Technology Co ltd
Original Assignee
Nanjing Digma Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Digma Network Technology Co ltd filed Critical Nanjing Digma Network Technology Co ltd
Priority to CN202210503173.XA priority Critical patent/CN114913685B/zh
Publication of CN114913685A publication Critical patent/CN114913685A/zh
Application granted granted Critical
Publication of CN114913685B publication Critical patent/CN114913685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的路口交通信号自适应控制方法,包括三个步骤:定义基于深度强化学习与卷积神经网络的算法控制器,定义状态空间、动作空间和回报函数;使用深度强化学习方法对卷积神经网络进行训练;依据训练好的算法控制器进行路口交通信号控制。本发明将车道划分成多个元胞,每元胞可容纳多辆车辆,通过车辆饱和率来表达状态信息,与现有的一元胞一车辆相比,降低了数据量和后续的计算量,降低了系统成本,从而提高了可行性;将元胞内车辆的速度比作为饱和率的信息补充,使得当前交通状态的描述更全面与准确;将车道内车辆的速度、延迟时间及最靠近停车线的若干道段内车辆的数量变化综合作为回报值,判断更准确也更及时。

Description

基于深度强化学习的路口交通信号自适应控制方法
技术领域
本发明涉及交通信号控制技术领域,具体涉及一种基于深度强化学习的路口交通信号自适应控制方法。
背景技术
随着汽车保有量的增加,交通拥堵已经成为困扰我国经济发展的一个难题。解决交通拥堵有主动和被动两种方法,主动方法以改善交通基础设施和发展先进的交通控制系统为主,而被动方法则是采用单双限号、鼓励绿色出行等。目前看来,发展先进的交通控制系统是操作性最佳,对人们生活影响最小的方式。
深度学习是通过多层的网络结构和非线性变换,组合低层特征,形成抽象的、易于区分的高层表示,以发现数据的分布式特征表示,近年来,已经在图像分类、语音识别、自然语言处理、视频分类等领域取得了令人瞩目的成功。所以,深度学习在交通控制系统中也理应大有可为。
专利文献CN106910351B公开了一种基于深度强化学习的交通信号自适应控制方法,通过对交通数据进行预处理,获取包含车辆位置信息的交通状态的低层表示;在此基础上利用强化学习的决策能力选择合适的配时方案,实现交通信号自适应控制,以减少车辆旅行时间,确保交通安全、畅通、有序和高效地运行。上述专利中,对停车线外的车道进行离散化处理,得到若干个元胞,元胞内有车,则值为1,元胞内无车,则值为0;再将连续4个时刻获取的当前交通信息作为当前交通状态,以包含了交通动态变化的信息。该方式虽然能准确深刻的刻画出当前交通状态,但通过矩阵的方式来描述整个路网的信息,数据多、计算量大,成本较高,因此难以推广。
发明内容
为了提高实现高速、低成本的实现路口交通信号的自适应控制,发明提供了一种基于深度强化学习的路口交通信号自适应控制方法。
本发明采用的技术方案如下:一种基于深度强化学习的路口交通信号自适应控制方法,包括如下步骤:
步骤1.定义基于深度强化学习与卷积神经网络的算法控制器,定义状态空间S、动作空间A和回报函数R;
步骤2.使用深度强化学习方法对卷积神经网络进行训练;
步骤3.依据训练好的算法控制器进行路口交通信号控制;
步骤1具体如下:
步骤1.1.使用深度强化学习方法构建卷积神经网络Q;
具有用于存储样本<s,a,r,s'>的样本池D,其中s表示当前交通状态,a表示选取的执行动作,r为回报值,s'为执行动作a后转移到的下一交通状态;卷积神经网络依次设输入层、卷积层、全连接层及输出层,输入层为当前交通状态s,输出层为当前交通状态s下所有执行动作a的值估计Q(s,a);
步骤1.2.定义当前交通状态s;
将路口停车线以外的车道进行离散化处理,分成J个道段,每各道段为一元胞,元胞内最大容纳车辆数为Cmax-j,元胞内实际车辆数为Cr-j,元胞的第一个特征值饱和率表示为Cr-j/Cmax-j;元胞内车辆最高速度为Smax-n,元胞内车辆实际平均速度为Savg-j,最元胞的第二个特征值车速比表示为Savg-j/Smax-j;
即J×2维矩阵
Figure BDA0003635023770000031
用来表示当前交通状态s;
步骤1.3.定义动作空间A;
路口交通信号采用四相位按固定相序周期循环,相位一为X向直行及右转,相位二为X向左转,相位三为Y向直行及右转,相位四为Y向左转,四元组<t1,t2,t3,t4>表示当前周期下四个相位的绿灯持续时间;执行动作a=<t’1,t’2,t’3,t’4>,其中t’1、t’2、t’3、t’4分别表示下一周期下四个相位的绿灯持续时间;动作空间A为执行动作a的集合;
步骤1.4.定义回报函数R;
将车道内车辆的速度、延迟时间及最靠近停车线的若干道段内车辆的数量变化综合作为回报值r,回报函数为
Figure BDA0003635023770000032
其中,c1、c1及c3为权重,v为车辆当前速度,d为车辆延迟时间,k为当前车道内车辆总数,l为单一道段内车辆的数量,m为最靠近停车线的道段数量;R>0,表示回报为奖励,R<0,表示回报为惩罚。优选的,步骤1.2中,从路口停车线向远处的N个道段,各道段的长度逐渐增加。
优选的,步骤1.3中,满足
t1+t2+t3+t4=t’1+t’2+t’3+t’4,即四相位的当前周期与下一周期的时间总长相等。
优选的,步骤1.3中,执行动作a为对t1、t3与t2、t4中的一组作一增一减的调整或保持不变,调整量为Δt1,执行动作a具有5种情形
Figure BDA0003635023770000041
即为动作空间A。
优选的,步骤1.3中,执行动作a为对t1、t2、t3、t4中任一个值增减一个固定调整量Δt2或保持不变,执行动作a具有9种情形
Figure BDA0003635023770000042
即为动作空间A。
优选的,执行动作a中t’1、t’2、t’3、t’4具有上限与下限。
优选的,步骤2具体如下:
步骤2.1.用Q(s,a,ω)表示卷积神经网络Q的Q(s,a)的近似值,ω为神经网络权重,构造两个参数一致的当前网络QM和目标网络QT,当前网络QM用于实时更新神经网络的权重ω,目标网络QT保持权重ω不变,当前网络QM按设定步数T将权重ω赋值给目标网络QT
步骤2.2.初始化当前网络QM的权重ω,ω随机分布在[-1,1]间,并把权重ω赋值给目标网络QT;初始化样本池D,使其容量达到设置值;
步骤2.3.检测各元胞即道段内车辆的饱和率和车速比,合并成系统的当前交通状态s;
步骤2.4.采用ε贪心法选取执行动作a,即以ε的概率随机选取执行动作a,以(1-ε)的概率以maxQ(s,a,ω)作为标准选取执行动作a,
Figure BDA0003635023770000051
Figure BDA0003635023770000052
其中,ε为搜索利用率,maxQ(s,a,ω)表示Q(s,a,ω)的最大值,n为当前训练步数,N为初始设置的总步数;
步骤2.5.得到回报值r与更新后的下一交通状态s',将<s,a,r,s'>存储至样本池D,更新样本池D;
步骤2.6.按设定步数T根据最小梯度法更新目标网络QT的权重ω;步骤2.7.重复步骤2.3~2.6,直至初始设置的总步数N。
优选的,步骤2.6具体为,
从样本池D中随机选取样本<s,a,r,s'>,根据最小梯度法更新目标网络QT的权重ω,损失函数为L
Figure BDA0003635023770000053
其中,γ表示折扣率。
优选的,步骤3具体为,
步骤3.1.取ε贪心法中的ε=0,使算法控制器利用已学习到的经验;
步骤3.2.定时获取各元胞内车辆的饱和率和车速比,合并成系统的当前交通状态s,并送入算法控制器中,以maxQ(s,a,ω)作为标准选取执行动作a,重复此步骤。
本发明具有如下有益效果:
1.将车道划分成多个元胞,每元胞可容纳多辆车辆,通过车辆饱和率Cr-j/Cmax-j来表达状态信息,与现有的一元胞一车辆相比,降低了数据量和后续的计算量,降低了系统成本,从而提高了可行性;
2.将元胞内车辆的速度比Savg-j/Smax-j作为车辆饱和率Cr-j/Cmax-j的信息补充,使得当前交通状态的描述更全面与准确;
3.将车道内车辆的速度、延迟时间及最靠近停车线的若干道段内车辆的数量变化综合作为回报值,判断更准确也更及时。
附图说明
图1是本发明实施例中路口的四相位示意图。
图2是本发明实施例中元胞的划分示意图。
图3是本发明实施例中交通信号自适应控制框架图。
图4是本发明实施例中深度学习算法的结构图。
具体实施方式
下面结合实施例与附图,对本发明作进一步说明。
如图1所示,为目前较为成熟的单交叉路口的四相位表达方式。在单交叉路口,车辆的行驶方向可以分为直行、左转和右转,受限于行驶空间,不同方向的车辆不能同时行驶,否则就会发生堵塞。为了使交通能正常运行,把交通流分成互补冲突的几组状态,称之为相位,而且,在一个周期内,每个相位有且只出现一次。图1中,相位一为X向直行及右转,相位二为X向左转,相位三为Y向直行及右转,相位四为Y向左转。在一个控制周期内,按照相位一、二、三及四的顺序依次出现,相序固定,一般不发生变动。另外,周期的总市场,通常来说不会有大的变动。四元组<t1,t2,t3,t4>表示当前周期下四个相位的绿灯持续时间。
如图3所示,为本实施例交通信号自适应控制的原理,通过车载或路口的各种检测器实现对路口环境状态进行检测,通过基于深度学习及卷积神经网络的强化学习系统选择使回本值最大的动作行为,基于这一动作进而控制路口的交通信号。
如图2所示,为本实施例卷积神经网络Q中元胞的设计思路。具体的,是将路口停车线以外的车道进行离散化处理,分成J个道段,每各道段为一元胞,元胞内最大容纳车辆数为Cmax-j,元胞内实际车辆数为Cr-j,元胞的第一个特征值饱和率表示为Cr-j/Cmax-j;元胞内车辆最高速度为Smax-n,元胞内车辆实际平均速度为Savg-j,最元胞的第二个特征值车速比表示为Savg-j/Smax-j;
即J×2维矩阵
Figure BDA0003635023770000071
用来表示当前交通状态s。
具体的,本实施例将路口停车线以外的480m车道作为关注对象,依次划分为30m、50m、70m、90m、110m及130m共6个元胞,每辆车的长度(含间距)占5m,即个元胞的第一个特征值饱和率依次为Cr-1/6、Cr-2/10、Cr-3/14、Cr-4/18、Cr-5/22、Cr-6/26。需要说明的是,图2中数据仅为示意,与上述具体数据不一致。
本实施例,将车道划分成多个元胞,每元胞可容纳多辆车辆,通过车辆饱和率Cr-j/Cmax-j来表达状态信息,与现有的一元胞一车辆相比,降低了数据量和后续的计算量,降低了系统成本,从而提高了可行性。特别的,基于车道内车辆分布的性质,越远离路口,车辆分布越稀疏,因此本实施例的各元胞并非等分设置,而是从路口停车线向远处长度逐渐增加,这种设置能进一步减少元胞的数量,最大化的降低系统成本。此外,本实施例将元胞内车辆的速度比Savg-j/Smax-j作为车辆饱和率Cr-j/Cmax-j的信息补充,使得当前交通状态的描述更全面与准确。
如图4所示,为本实施例的算法结构图。深度强化学习为了弱化样本之间的联系,具有样本池D,用于存储样本<s,a,r,s'>。样本数量达到设定值之后开始学习,为进一步减少样本之间的联系,并减少神经网络参数更新过于频繁带来的影响,构造两个参数一致的当前网络QM和目标网络QT,当前网络QM用于实时更新神经网络的权重ω,目标网络QT保持权重ω不变,当前网络QM按设定步数T将权重ω赋值给目标网络QT,从而有效避免了权重ω频繁更新带来的问题。
本实施例中,执行动作a=<t′1,t’2,t′3,t’4>,其中t’1、t′2、t’3、t’4分别表示下一周期下四个相位的绿灯持续时间,本实施例的执行动作a的选择具有两个策略。
策略一为:执行动作a为对t1、t3与t2、t4中的一组作一增一减的调整或保持不变,调整量为Δt1执行动作a具有5种情形
Figure BDA0003635023770000081
即为动作空间A。
策略二为:执行动作a为对t1、t2、t3、t4中任一个值增减一个固定调整量Δt2或保持不变,执行动作a具有9种情形
Figure BDA0003635023770000091
即为动作空间A。
策略一相对来说比较简单,适应性好,特别是对其他路口的干扰小,方便区域交通信号的协调。策略二较为复杂,但比较灵活,能很好的改善单个路口的交通状况。
本实施例中,将车道内车辆的速度、延迟时间及最靠近停车线的若干道段内车辆的数量变化综合作为回报值r,回报函数为
Figure BDA0003635023770000092
其中,c1、c2及c3为权重,v为车辆当前速度,d为车辆延迟时间,k为当前车道内车辆总数,l为单一道段内车辆的数量,m为最靠近停车线的道段数量;R>0,表示回报为奖励,R<0,表示回报为惩罚。本实施例的汇报函数将车道内车辆的速度、延迟时间及最靠近停车线的若干道段内车辆的数量变化综合作为回报值,判断更准确也更及时。
本实施例为一种基于深度强化学习的路口交通信号自适应控制方法,包括如下步骤:
步骤1.定义基于深度强化学习与卷积神经网络的算法控制器,定义状态空间S、动作空间A和回报函数R。
步骤1.1.使用深度强化学习方法构建卷积神经网络Q。
具有用于存储样本<s,a,r,s'>的样本池D,其中s表示当前交通状态,a表示选取的执行动作,r为回报值,s'为执行动作a后转移到的下一交通状态;卷积神经网络依次设输入层、卷积层、全连接层及输出层,输入层为当前交通状态s,输出层为当前交通状态s下所有执行动作a的值估计Q(s,a)。具体的,本实施例设置一个输入层、两个卷积层、一个全连接层及一个输出层。
步骤1.2.定义当前交通状态s。
将路口停车线以外的车道进行离散化处理,分成J个道段,每各道段为一元胞,元胞内最大容纳车辆数为Cmax-j,元胞内实际车辆数为Cr-j,元胞的第一个特征值饱和率表示为Cr-j/Cmax-j;元胞内车辆最高速度为Smax-n,元胞内车辆实际平均速度为Savg-j,最元胞的第二个特征值车速比表示为Savg-j/Smax-j;
即J×2维矩阵
Figure BDA0003635023770000101
用来表示当前交通状态s。
特别的,从路口停车线向远处的N个道段,各道段的长度逐渐增加。
步骤1.3.定义动作空间A。
路口交通信号采用四相位按固定相序周期循环,相位一为X向直行及右转,相位二为X向左转,相位三为Y向直行及右转,相位四为Y向左转,四元组<t1,t2,t3,t4>表示当前周期下四个相位的绿灯持续时间;执行动作a=<t’1,t’2,t’3,t’4>,其中t’1、t’2、t’3、t′4分别表示下一周期下四个相位的绿灯持续时间;动作空间A为执行动作a的集合。其中执行动作a中t’1、t’2、t’3、t’4具有上限与下限,根据路口的宽度设置下限,根据路口的车流量设定上限。
策略一为:执行动作a为对t1、t3与t2、t4中的一组作一增一减的调整或保持不变,调整量为Δt1,执行动作a具有5种情形
Figure BDA0003635023770000111
即为动作空间A。Δt1可以选择3~5秒之间的数值,此策略下,满足t1+t2+t3+t4=t’1+t’2+t’3+t’4,即四相位的当前周期与下一周期的时间总长相等。
策略二为:执行动作a为对t1、t2、t3、t4中任一个值增减一个固定调整量Δt2保持不变,执行动作a具有9种情形
Figure BDA0003635023770000112
即为动作空间A。Δt2以选择3~5秒之间的数值,此策略下,四相位的当前周期与下一周期的时间不相等。
步骤1.4.定义回报函数R。
将车道内车辆的速度、延迟时间及最靠近停车线的若干道段内车辆的数量变化综合作为回报值r,回报函数为
Figure BDA0003635023770000113
其中,c1、c1及c3为权重,v为车辆当前速度,d为车辆延迟时间,k为当前车道内车辆总数,l为单一道段内车辆的数量,m为最靠近停车线的道段数量;R>0,表示回报为奖励,R<0,表示回报为惩罚。
步骤2.使用深度强化学习方法对卷积神经网络进行训练。
步骤2.1.用Q(s,a,ω)表示卷积神经网络Q的Q(s,a)的近似值,ω为神经网络权重,构造两个参数一致的当前网络QM和目标网络QT,当前网络QM用于实时更新神经网络的权重ω,目标网络QM保持权重ω不变,当前网络QM按设定步数T将权重ω赋值给目标网络QT
步骤2.2.初始化当前网络QM的权重ω,ω随机分布在[-1,1]间,并把权重ω赋值给目标网络QT;初始化样本池D,使其容量达到设置值。
步骤2.3.检测各元胞即道段内车辆的饱和率和车速比,合并成系统的当前交通状态s。
步骤2.4.采用ε贪心法选取执行动作a,即以ε的概率随机选取执行动作a,以(1-ε)的概率以maxQ(s,a,ω)作为标准选取执行动作a,
Figure BDA0003635023770000121
Figure BDA0003635023770000122
其中,ε为搜索利用率,maxQ(s,a,ω)表示Q(s,a,ω)的最大值,n为当前训练步数,N为初始设置的总步数。
步骤2.5.得到回报值r与更新后的下一交通状态s',将<s,a,r,s'>存储至样本池D,更新样本池D。
步骤2.6.按设定步数T根据最小梯度法更新目标网络QT的权重ω。从样本池D中随机选取样本<s,a,r,s'>,根据最小梯度法更新目标网络QT的权重ω,损失函数为L
Figure BDA0003635023770000131
其中,γ表示折扣率。
步骤2.7.重复步骤2.3~2.6,直至初始设置的总步数N。
步骤3.依据训练好的算法控制器进行路口交通信号控制。
步骤3.1.取ε贪心法中的ε=0,使算法控制器利用已学习到的经验。
步骤3.2.定时获取各元胞内车辆的饱和率和车速比,合并成系统的当前交通状态s,并送入算法控制器中,以maxQ(s,a,ω)作为标准选取执行动作a,重复此步骤。
显然,本发明的上述实施例仅仅是为了说明本发明所作的举例,而并非对本发明的实施方式的限定。其他由本发明的实质精神所引申出的显而易见的变化或变动仍属于本发明的保护范围。

Claims (9)

1.一种基于深度强化学习的路口交通信号自适应控制方法,包括如下步骤:
步骤1.定义基于深度强化学习与卷积神经网络的算法控制器,定义状态空间S、动作空间A和回报函数R;
步骤2.使用深度强化学习方法对卷积神经网络进行训练;
步骤3.依据训练好的算法控制器进行路口交通信号控制;
其特征在于,步骤1具体如下:
步骤1.1.使用深度强化学习方法构建卷积神经网络Q;
具有用于存储样本<s,a,r,s'>的样本池D,其中s表示当前交通状态,a表示选取的执行动作,r为回报值,s'为执行动作a后转移到的下一交通状态;卷积神经网络依次设输入层、卷积层、全连接层及输出层,输入层为当前交通状态s,输出层为当前交通状态s下所有执行动作a的值估计Q(s,a);
步骤1.2.定义当前交通状态s;
将路口停车线以外的车道进行离散化处理,分成J个道段,每各道段为一元胞,元胞内最大容纳车辆数为Cmax-j,元胞内实际车辆数为Cr-j,元胞的第一个特征值饱和率表示为Cr-j/Cmax-j;元胞内车辆最高速度为Smax-n,元胞内车辆实际平均速度为Savg-j,最元胞的第二个特征值车速比表示为Savg-j/Smax-j;
即J×2维矩阵
Figure FDA0003635023760000011
用来表示当前交通状态s;
步骤1.3.定义动作空间A;
路口交通信号采用四相位按固定相序周期循环,相位一为X向直行及右转,相位二为X向左转,相位三为Y向直行及右转,相位四为Y向左转,四元组<t1,t2,t3,t4>表示当前周期下四个相位的绿灯持续时间;执行动作a=<t’1,t’2,t’3,t’4>,其中t’1、t’2、t’3、t’4分别表示下一周期下四个相位的绿灯持续时间;动作空间A为执行动作a的集合;
步骤1.4.定义回报函数R;
将车道内车辆的速度、延迟时间及最靠近停车线的若干道段内车辆的数量变化综合作为回报值r,回报函数为
Figure FDA0003635023760000021
其中,c1、c2及c3为权重,v为车辆当前速度,d为车辆延迟时间,k为当前车道内车辆总数,l为单一道段内车辆的数量,m为最靠近停车线的道段数量;R>0,表示回报为奖励,R<0,表示回报为惩罚。
2.根据权利要求1所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,步骤1.2中,从路口停车线向远处的N个道段,各道段的长度逐渐增加。
3.根据权利要求1所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,步骤1.3中,满足
t1+t2+t3+t4=t’1+t’2+t’3+t’4,即四相位的当前周期与下一周期的时间总长相等。
4.根据权利要求3所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,
步骤1.3中,执行动作a为对t1、t3与t2、t4中的一组作一增一减的调整或保持不变,调整量为Δt1,执行动作a具有5种情形
Figure FDA0003635023760000031
即为动作空间A。
5.根据权利要求1所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,
步骤1.3中,执行动作a为对t1、t2、t3、t4中任一个值增减一个固定调整量Δt2或保持不变,执行动作a具有9种情形
Figure FDA0003635023760000032
即为动作空间A。
6.根据权利要求3~5中任一项所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,执行动作a中t’1、t’2、t’3、t’4具有上限与下限。
7.根据权利要求1所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,步骤2具体如下:
步骤2.1.用Q(s,a,ω)表示卷积神经网络Q的Q(s,a)的近似值,ω为神经网络权重,构造两个参数一致的当前网络QM和目标网络QT,当前网络QM用于实时更新神经网络的权重ω,目标网络QT保持权重ω不变,当前网络QM按设定步数T将权重ω赋值给目标网络QT
步骤2.2.初始化当前网络QM的权重ω,ω随机分布在[-1,1]间,并把权重ω赋值给目标网络QT;初始化样本池D,使其容量达到设置值;
步骤2.3.检测各元胞即道段内车辆的饱和率和车速比,合并成系统的当前交通状态s;
步骤2.4.采用ε贪心法选取执行动作a,即以ε的概率随机选取执行动作a,以(1-ε)的概率以maxQ(s,a,ω)作为标准选取执行动作a,
Figure FDA0003635023760000041
Figure FDA0003635023760000042
其中,ε为搜索利用率,maxQ(s,a,ω)表示Q(s,a,ω)的最大值,n为当前训练步数,N为初始设置的总步数;
步骤2.5.得到回报值r与更新后的下一交通状态s',将<s,a,r,s'>存储至样本池D,更新样本池D;
步骤2.6.按设定步数T根据最小梯度法更新目标网络QT的权重ω;
步骤2.7.重复步骤2.3~2.6,直至初始设置的总步数N。
8.根据权利要求7所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,步骤2.6具体为,
从样本池D中随机选取样本<s,a,r,s'>,根据最小梯度法更新目标网络QT的权重ω,损失函数为L
Figure FDA0003635023760000043
其中,γ表示折扣率。
9.根据权利要求1所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,步骤3具体为,
步骤3.1.取ε贪心法中的ε=0,使算法控制器利用已学习到的经验;
步骤3.2.定时获取各元胞内车辆的饱和率和车速比,合并成系统的当前交通状态s,并送入算法控制器中,以maxQ(s,a,ω)作为标准选取执行动作a,重复此步骤。
CN202210503173.XA 2022-05-09 2022-05-09 基于深度强化学习的路口交通信号自适应控制方法 Active CN114913685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210503173.XA CN114913685B (zh) 2022-05-09 2022-05-09 基于深度强化学习的路口交通信号自适应控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210503173.XA CN114913685B (zh) 2022-05-09 2022-05-09 基于深度强化学习的路口交通信号自适应控制方法

Publications (2)

Publication Number Publication Date
CN114913685A true CN114913685A (zh) 2022-08-16
CN114913685B CN114913685B (zh) 2024-03-22

Family

ID=82767256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210503173.XA Active CN114913685B (zh) 2022-05-09 2022-05-09 基于深度强化学习的路口交通信号自适应控制方法

Country Status (1)

Country Link
CN (1) CN114913685B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN113963555A (zh) * 2021-10-12 2022-01-21 南京航空航天大学 一种结合状态预测的深度强化学习交通信号控制方法
US20220092973A1 (en) * 2020-09-18 2022-03-24 Soheil MOHAMAD ALIZADEH SHABESTARY Method and system for adaptive cycle-level traffic signal control

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
US20220092973A1 (en) * 2020-09-18 2022-03-24 Soheil MOHAMAD ALIZADEH SHABESTARY Method and system for adaptive cycle-level traffic signal control
CN113963555A (zh) * 2021-10-12 2022-01-21 南京航空航天大学 一种结合状态预测的深度强化学习交通信号控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘皓;吕宜生;: "基于深度强化学习的单路口交通信号控制", 交通工程, no. 02, 15 April 2020 (2020-04-15) *

Also Published As

Publication number Publication date
CN114913685B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN111931905B (zh) 一种图卷积神经网络模型、及利用该模型的车辆轨迹预测方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN111081065B (zh) 路段混行条件下的智能车辆协同换道决策模型
CN111260937B (zh) 一种基于强化学习的十字路口交通信号灯控制方法
CN114495527B (zh) 一种混合交通环境下网联交叉口车路协同优化方法及系统
CN111243271A (zh) 一种基于深度循环q学习的单点交叉口信号控制方法
CN110718077B (zh) 一种行动-评价机制下信号灯优化配时方法
CN113963555B (zh) 一种结合状态预测的深度强化学习交通信号控制方法
CN113581182B (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN115019523B (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
CN114462667A (zh) 一种基于sfm-lstm神经网络模型的过街行人轨迹预测方法
CN115188204B (zh) 一种异常天气条件下高速公路车道级可变限速控制方法
CN116176572A (zh) 一种基于dqn深度强化学习的汽车紧急避撞控制方法
CN114802306A (zh) 一种基于人机共驾理念的智能车辆集成式决策系统
CN114973650A (zh) 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN113223324A (zh) 高速匝道入口合流的控制方法
CN113724507A (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
CN114913685A (zh) 基于深度强化学习的路口交通信号自适应控制方法
CN116872971A (zh) 一种基于人机协同增强的自动驾驶控制决策方法及系统
CN116758767A (zh) 基于多策略强化学习的交通信号灯控制方法
CN116824848A (zh) 基于贝叶斯深度q网络的交通信号优化控制方法
CN115083149B (zh) 一种实时监测的强化学习可变时长信号灯控制方法
Zhancheng Research on application of deep reinforcement learning in traffic signal control
CN116189454A (zh) 交通信号控制方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230720

Address after: Room 210-950, 2 / F, building 003, 750 Chuangyuan Road, high tech Zone, Ningbo, Zhejiang 315000

Applicant after: Ningbo horoma Information Technology Co.,Ltd.

Address before: Room 202, Block A, No.5 Yongzhi Road, Baixia High-tech Industrial Park, Qinhuai District, Nanjing City, Jiangsu Province, 210001

Applicant before: Nanjing digma Network Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant