CN111260937B - 一种基于强化学习的十字路口交通信号灯控制方法 - Google Patents

一种基于强化学习的十字路口交通信号灯控制方法 Download PDF

Info

Publication number
CN111260937B
CN111260937B CN202010111549.3A CN202010111549A CN111260937B CN 111260937 B CN111260937 B CN 111260937B CN 202010111549 A CN202010111549 A CN 202010111549A CN 111260937 B CN111260937 B CN 111260937B
Authority
CN
China
Prior art keywords
intersection
time
vehicle
action
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010111549.3A
Other languages
English (en)
Other versions
CN111260937A (zh
Inventor
吴黎兵
王敏
张瑞
曹书琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Research Institute of Wuhan University
Original Assignee
Shenzhen Research Institute of Wuhan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Institute of Wuhan University filed Critical Shenzhen Research Institute of Wuhan University
Priority to CN202010111549.3A priority Critical patent/CN111260937B/zh
Publication of CN111260937A publication Critical patent/CN111260937A/zh
Application granted granted Critical
Publication of CN111260937B publication Critical patent/CN111260937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于强化学习的十字路口交通信号灯控制方法,首先,将当前时刻十字路口的通行状态表示成Position和Speed矩阵;其次,在传统强化学习算法Deep Q‑network的基础上根据State的特征构建基于空间注意力机制的框架,其中主干网络为卷积神经网络;然后,根据贪婪策略随机选取或者从模型预测一个Action执行。如果当前时刻的Action和前一时刻的相同,那么就直接执行绿灯相位时间,并在此过程中不断训练网络;否则,首先执行黄灯相位时间,然后,再执行绿灯相位时间,同样在此过程中同样不断地训练网络;最后,所有训练回合结束后保存模型,然后测试并评估模型效果。本发明改进了现有的交通信号灯控制方法,使得车辆能够更快的通过十字路口,一定程度上缓解了交通拥堵。

Description

一种基于强化学习的十字路口交通信号灯控制方法
技术领域
本发明属于人工智能技术领域,涉及一种基于强化学习的交通信号灯控制方法,特别涉及一种改进的基于Deep Q-network模型的强化学习的交通信号灯控制方法。
背景技术
交通拥挤已经越来越影响人们的日常生活了,如何控制交通灯的切换成了一个亟待解决的问题。但是,传统固定时间(Fixed-time Light)切换的方法和基于交通反馈(Traffic Responsive)的方法已经能从根本上解决现有的交通拥堵,基于此,有人提出了用强化学习的方法来控制交通灯的切换。现有的基于强化学习的交通信号灯控制主要面临两大挑战,一是如何更好地表示环境(Environment),二是如何从环境表示中抽取更有用的信息供代理(Agent)学习和预测。本发明主要根据这两大挑战同时针对现有的强化学习方法进行改进,具体体现在对转态(State)的表示和对模型的改进。
空间注意力机制(Spatial Attention Mechanism)最开始是用于图像处理领域的技术,主要用来关注图片上某些特定的部分,并给这些区域分配更大的权重,以此来表示这些区域的信息很重要。由于十字路口交通状态在表示的时候会出现车辆分布不均匀的情况,即在靠近路口的时候车辆相对比较密集。因此,在矩阵化的过程中也会出现矩阵稀疏的情况,基于此可以用空间注意力机制来给不同的十字路口区域分配不同的权重。
发明内容
本发明的目的是提供一种交通信号灯控制方法,通过强化学习的方法来控制十字路口红绿灯的切换,从而使得车辆尽快的通过十字路口,减少车辆等待时间。发明内容主要包括对现有State表示方法的改进和基于空间注意力机制的强化学习模型。
本发明所采用的技术方案是:一种基于强化学习的十字路口交通信号灯控制方法,其特征在于,包括以下步骤:
步骤1:对十字路口进行建模,分别定义强化学习三要素State,Reward,Action;
State要素的定义包含车辆位置和速度;首先把路口划分成网格,定义车辆的位置矩阵为P′=[P′0,P′1,P′2,P′3],其中P′0,P′1,P′2,P′3分别为每条车道车辆位置的表示;定义车辆的速度矩阵为V′=[V′0,V′1,V′2,V′3],速度矩阵表示的是车辆期望以多大的速度尽快离开路口;其中V′0,V′1,V′2,V′3为每条车道车辆速度表示,速度矩阵的每一个元素表示的是vmn=max speed-vehicle speed,vehicle speed表示车辆到达十字路口当前的速度,maxspeed表示车辆允许通行的最大速度;
Action要素的定义表示的是车辆能无碰撞安全的通过路口的红绿灯的状态,即如何在不同的状态之间进行切换能保证车辆安全通过路口;Action={NS,NSL,WE,WEL},其中NS表示南北方向直行和右转绿灯,NSL表示南北方向左转绿灯,WE表示东西方向直行和右转绿灯,WEL表示东西方向左转绿灯;
Reward要素的定义是Environment从Agent中获取到的奖励,表示经过采取一个Action要素之后十字路口车辆减少的数目,即rt=β·Wt-W′t;其中,rt表示t时刻Agent返回来的奖励,β是折扣系数Wt表示在t时刻所有在路口等待车辆的总数,Wt′表示经过采取一个action要素之后所有在路口等待车辆的总数;
步骤2:依据强化学习算法构建基于空间注意力机制的Deep Q-network;
所述基于空间注意力机制的Deep Q-network主干网络是卷积神经网络CNN,依次为卷积层,Spatial Attention层,卷积层,然后接上两个全连接层,最后是Q-Values的输出;
步骤3:结合十字路口场景图自动生成车辆仿真数据,包括仿真模拟的时长车辆数目等,获得训练数据和测试数据集;本发明中仿真一个回合的时长设置为1小时,车辆数目设置为1000。
步骤4:准备训练数据300回合和测试数据100回合,全部由步骤3生成;
步骤5:根据训练数据,训练基于空间注意力机制的Deep Q-network,训练完之后保存最后的模型;
步骤6:定义评价指标,根据测试集,对基于空间注意力机制的Deep Q-network进行测试并评估;
步骤7:采用基于空间注意力机制的Deep-Q-network对卷积神经网络输出的特征向量进行处理。通过对路口进行建模,来对红绿灯进行切换,切换目的是使车辆在路口等待时间最少,切换所采取的行为Action由神经网络预测。
本发明与现有技术相比具有如下优点和有益效果:
(1)与其他基于强化学习的交通信号灯控制方法不同的是,本说明在定义State的时候改变了以往的不足,具体体现在对车辆位置和速度建模的时候,本说明克服了矩阵中整型0和浮点型0可能会互相混淆的缺点。
(2)在对十字路口建模之后,针对环境Environment的表示可能出现矩阵稀疏的情况,结合空间注意力机制,本发明可以更加有效的提取State中的信息。
(3)本发明使用两种不同车流量密度的仿真场景对所提出的方法进行试验和验证,并从车辆平均时延,车辆平均等待队列,车辆平均到达时间三个不同指标来验证模型的优势。
附图说明
图1为本发明实施例的原理图;
图2为本发明实施例十字路口的建模,包含对State中Position和Speed的定义;
图3为本发明实施例Action的切换示意图;
图4为本发明实施例基于空间注意力机制的Deep Q-network。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,为本发明原理图,主要包含Environment和Agent以及强化学习三要素State,Reward和Action。其执行过程是Agent和Environment相互交互,通过返回的Reward来调整红绿灯的切换,以此来训练模型和优化十字路口车辆的通行。
本发明提供的一种基于强化学习的十字路口交通信号灯控制方法,包括以下步骤:
步骤1:对十字路口进行建模,分别定义强化学习三要素State,Reward,Action;
State要素的定义包含车辆位置和速度;首先把路口划分成网格,定义车辆的位置矩阵为P′=[P′0,P′1,P′2,P′3],其中P′0,P′1,P′2,P′3分别为每条车道车辆位置的表示;定义车辆的速度矩阵为V′=[V′0,V′1,V′2,V′3],速度矩阵表示的是车辆期望以多大的速度尽快离开路口;其中V′0,V′1,V′2,V′3为每条车道车辆速度表示,速度矩阵的每一个元素表示的是vmn=max speed-vehicle speed,vehicle speed表示车辆到达十字路口当前的速度,maxspeed表示车辆允许通行的最大速度;对State要素的定义具体见图2。
Action要素的定义表示的是车辆能无碰撞安全的通过路口的红绿灯的状态,即如何在不同的状态之间进行切换能保证车辆安全通过路口;Action={NS,NSL,WE,WEL},其中NS表示南北方向直行和右转绿灯,NSL表示南北方向左转绿灯,WE表示东西方向直行和右转绿灯,WEL表示东西方向左转绿灯;Action要素的切换见图3。
Reward要素的定义是Environment从Agent中获取到的奖励,表示经过采取一个Action要素之后十字路口车辆减少的数目,即rt=β·Wt-Wt′;其中,rt表示t时刻Agent返回来的奖励,β是折扣系数Wt表示在t时刻所有在路口等待车辆的总数,Wt′表示经过采取一个action要素之后所有在路口等待车辆的总数;
步骤2:依据强化学习算法构建基于空间注意力机制的Deep Q-network;
本说明的强化学习模型主干网络是卷积神经网络(CNN),具体模型见图4,依次为卷积层,Spatial Attention层,卷积层,然后接上两个全连接层,最后是Q-Values的输出。Spatial Attention的作用是在一个二维的卷积特征向量上,假设经过第一层卷积之后的特征为M=[m1,m2,...,mn],其中mi∈RW·H,n为第一层卷积神经元个数,mi表示一个宽为W,高为H的高为空间向量,R表示向量空间;那么注意力权重的计算和新的特征向量过程如下:
Figure GDA0003077152970000041
其中
Figure GDA0003077152970000042
bs∈R1分别表示权重和偏置,C表示神经网络中输出神经元的个数,fm表示最终生成的feature map向量;σ是Sigmoid激活函数,r(·)表示向量的Reshape操作,
Figure GDA0003077152970000043
表示向量联结,
Figure GDA0003077152970000044
表示向量相乘;最终生成的fm是经过注意力权重和原来的特征M相乘的结果,表示权重已经分配到了每一个元素。
步骤3:结合十字路口场景图自动生成车辆仿真数据,包括仿真模拟的时长车辆数目等,获得训练数据和测试数据集;本发明中仿真一个回合的时长设置为1小时,车辆数目设置为1000。本实施例中,根据道路特征产生车辆数据直行占75%,包含三条lane;左转弯和右转车辆占25%,包含两条lane,每次按韦布尔分布(Weibull distribution)产生一小时的数据。
步骤4:准备训练数据300回合和测试数据100回合,全部由步骤3生成;
步骤5:根据训练数据,训练基于空间注意力机制的Deep Q-network,训练完之后保存最后的模型;
本实施例采用mini batch训练的方式,每次准备好一个mini batch的数据,扔到模型中训练,训练所采用的梯度计算算法是Adam,训练的时候梯度传递方式是反向传递。训练过程为回合制,即回合结束此次强化学习过程算结束。训练数据需要训练直到模型达到收敛转态,loss不再改变;测试数据只需要用预训练模型每次预测出Action即可。
具体实现包括以下子步骤:
步骤5.1:初始化统计参数R,Twt,L,Td,分别为平均奖励,平均等待时间,平均等待车辆队列长度,平均旅行时间,并初始化网络参数w,即神经网络中所有待更新的参数;
步骤5.2:设置回合数即训练迭代数episode为0,1,...,N;
步骤5.3:设置时间步step为0,1,...,T;
步骤5.4:获取t时刻路口的状态st,并根据ε贪婪策略选择一个随机的行为at(即t时刻Agent所采取的行动,也就是怎么切换红绿灯),然后按照当前的行为at进行仿真模拟,仿真执行时长为一个绿灯时间的步长,εh=(1-e/N),e为当前的回合数,N为回合总数;执行at之后得到奖励值rt,Environment达到下一个状态st+1;最后存储当前的(st,at,rt,st+1)四元组到Memory,Memory是一个专门存储四元组的数组;
步骤5.5:具体过程包括以下子步骤;
步骤5.5.1:如果当前的行为at的和前一时刻的行为at-1相同那么就执行绿灯轮转,并在绿灯时间结束之前执行:从Memory中取出一个批次mini batch大小的数据,并计算当前action从环境返回的Q值Q(s,a)=r+γmaxa(s′,a′,w),γ为折扣系数,r为从环境获得的即时奖励,maxa(s′,a′,w)为表示当前时刻采取行动之后所获得的下一个状态的奖励的最大值,s′,a′分别表示下一个状态、下一个行为,w表示神经网络的参数。根据Q(s,a)训练基于空间注意力机制的Deep Q-network,其中待优化的损失函数loss为J=1/m∑(Q(s,a)-Q(s,a,w))2,Q(s,a)为模型预测的Q值,Q(s,a,w)为存储在Memory中的Q值;然后更新step=step+1,绿灯时间G=G-1;
如果当前的行为at的和前一时刻的行为at-1不相同那么就执行黄灯轮转,并在黄灯时间结束之前执行:从Memory中取出一个批次mini batch大小的数据,并计算当前action从环境返回的Q值Q(s,a)=r+γmaxa(s′,a′,w),根据Q(s,a)训练模型,其中待优化的损失函数loss为J=1/m∑(Q(s,a)-Q(s,a,w))2,Q(s,a)为模型预测的Q值,Q(s,a,w)为存储在Memory中的Q值,然后更新step=step+1,黄灯时间Y=Y-1;
步骤5.5.2:更新完黄灯轮转周期之后,接着按步骤5.5.1更新绿灯轮转周期;
步骤5.6:更新统计参数R,Twt,L,Td
步骤5.7:回到步骤5.3,直到总训练步长step为T,表示训练完了一个回合,接下来执行步骤5.8;
步骤5.8:回到步骤5.1,直到训练完所有的回合,表示训练完所有的回合,接下来执行步骤5.9;
步骤5.9:所有训练回合结束后,保存基于空间注意力机制的Deep Q-network。
步骤6:定义评价指标,根据测试集,对基于空间注意力机制的Deep Q-network进行测试并评估;
本实施例中,评价指标包括平均等待时延,平均等待队列长度和平均到达时间;平均等待时延
Figure GDA0003077152970000061
m为车辆的总数,wtt为时刻t的等待时间,T为一回合的时长;平均等待队列长度
Figure GDA0003077152970000062
qt为时刻t的车辆队列长度;平均到达时间
Figure GDA0003077152970000063
nt为时刻t在仿真场景上运行的车辆总数。
步骤7:采用基于空间注意力机制的Deep-Q-network对卷积神经网络输出的特征向量进行处理。通过对路口进行建模,来对红绿灯进行切换,切换目的是使车辆在路口等待时间最少,切换所采取的行为Action由神经网络预测。
本发明提供的一个基于强化学习的十字路口交通信号灯控制方法,除了改进State中位置和速度的表示之外,本发明的模型在传统Deep Q-network的基础上进行了扩充,加入了Spatial attention机制,能够更好地提取State中的信息,对不同位置的车辆分配不同的权重,加强了Agent和Environment之间的紧密联系。
本发明与其他方法相比主要有两大优势,首先是对State表示更加合理有效,避免了速度矩阵和位置矩阵中的0值的混淆,使得卷积神经网络能识别其中的值所代表的含义;另外本发明采用空间注意力机制能够有针对性的对卷积特征进行提取更有用的信息,而不是针对每一个元素分配一样的权重,这样能够使得最终模型效果更好。本发明旨在通过强化学习模型来对交通信号灯的切换顺序进行控制,更加合理的分配信号灯轮转周期,以此来减少车辆在路口等待的时间,提高交通通行效率,环境交通拥堵带来的压力。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (3)

1.一种基于强化学习的十字路口交通信号灯控制方法,其特征在于,包括以下步骤:
步骤1:对十字路口进行建模,分别定义强化学习三要素State,Reward,Action;
State要素的定义包含车辆位置和速度;首先把路口划分成网格,定义车辆的位置矩阵为P′=[P′0,P′1,P′2,P′3],其中P′0,P′1,P′2,P′3分别为每条车道车辆位置的表示;定义车辆的速度矩阵为V′=[V′0,V′1,V′2,V′3],速度矩阵表示的是车辆期望以多大的速度尽快离开路口;其中V′0,V′1,V′2,V′3为每条车道车辆速度表示,速度矩阵的每一个元素表示的是vmn=maxspeed-vehicle speed,vehicle speed表示车辆到达十字路口当前的速度,maxspeed表示车辆允许通行的最大速度;
Action要素的定义表示的是车辆能无碰撞安全的通过路口的红绿灯的状态,即如何在不同的状态之间进行切换能保证车辆安全通过路口;Action={NS,NSL,WE,WEL},其中NS表示南北方向直行和右转绿灯,NSL表示南北方向左转绿灯,WE表示东西方向直行和右转绿灯,WEL表示东西方向左转绿灯;
Reward要素的定义是Environment从Agent中获取到的奖励,表示经过采取一个Action要素之后十字路口车辆减少的数目,即rt=β·Wt-W′t;其中,rt表示t时刻Agent返回来的奖励,β是折扣系数Wt表示在t时刻所有在路口等待车辆的总数,Wt′表示经过采取一个action要素之后所有在路口等待车辆的总数;
步骤2:依据强化学习算法构建基于空间注意力机制的Deep Q-network;
所述基于空间注意力机制的Deep Q-network主干网络是卷积神经网络CNN,依次为卷积层,Spatial Attention层,卷积层,然后接上两个全连接层,最后是Q-Values的输出;
步骤3:结合十字路口场景图自动生成车辆仿真数据,包括仿真模拟的时长车辆数目,获得训练数据和测试数据集;
步骤4:准备训练数据300回合和测试数据100回合;
步骤5:根据训练数据,训练基于空间注意力机制的Deep Q-network,训练完之后保存最后的模型;
步骤5的具体实现包括以下子步骤:
步骤5.1:初始化统计参数R,Twt,L,Td,分别为平均奖励,平均等待时间,平均等待车辆队列长度,平均旅行时间,并初始化网络参数w,即神经网络中所有待更新的参数;
步骤5.2:设置回合数即训练迭代数episode为0,1,...,N;
步骤5.3:设置时间步step为0,1,...,T;
步骤5.4:获取t时刻路口的状态st,并根据ε贪婪策略选择一个随机的行为at,然后按照当前的行为at进行仿真模拟,仿真执行时长为一个绿灯时间的步长,εh=(1-e/N),e为当前的回合数,N为回合总数;执行at之后得到奖励值rt,Environment达到下一个状态st+1;最后存储当前的(st,at,rt,st+1)四元组到Memory,Memory是一个专门存储四元组的数组;其中,at即t时刻Agent所采取的行动,也就是怎么切换红绿灯;
步骤5.5:具体过程包括以下子步骤;
步骤5.5.1:如果当前的行为at的和前一时刻的行为at-1相同那么就执行绿灯轮转,并在绿灯时间结束之前执行:从Memory中取出一个批次mini batch大小的数据,并计算当前action从环境返回的Q值Q(s,a)=r+γmaxa(s′,a′,w),γ为折扣系数,r为从环境获得的即时奖励,maxa(s′,a′,w)为表示当前时刻采取行动之后所获得的下一个状态的奖励的最大值,s′,a′分别表示下一个状态、下一个行为,w表示神经网络的参数;根据Q(s,a)训练基于空间注意力机制的Deep Q-network,其中待优化的损失函数loss为J=1/m∑(Q(s,a)-Q(s,a,w))2,Q(s,a)为模型预测的Q值,Q(s,a,w)为存储在Memory中的Q值;然后更新step=step+1,绿灯时间G=G-1;
如果当前的行为at的和前一时刻的行为at-1不相同那么就执行黄灯轮转,并在黄灯时间结束之前执行:从Memory中取出一个批次mini batch大小的数据,并计算当前action从环境返回的Q值Q(s,a)=r+γmaxa(s′,a′,w),根据Q(s,a)训练模型,其中待优化的损失函数loss为J=1/m∑(Q(s,a)-Q(s,a,w))2,Q(s,a)为模型预测的Q值,Q(s,a,w)为存储在Memory中的Q值,然后更新step=step+1,黄灯时间Y=Y-1;
步骤5.5.2:更新完黄灯轮转周期之后,接着按步骤5.5.1更新绿灯轮转周期;
步骤5.6:更新统计参数R,Twt,L,Td
步骤5.7:回到步骤5.3,直到总训练步长step为T,表示训练完了一个回合,接下来执行步骤5.8;
步骤5.8:回到步骤5.1,直到训练完所有的回合,接下来执行步骤5.9;
步骤5.9:所有训练回合结束后,保存基于空间注意力机制的Deep Q-network;
步骤6:定义评价指标,根据测试集,对基于空间注意力机制的Deep Q-network进行测试并评估;
步骤7:采用基于空间注意力机制的Deep-Q-network对卷积神经网络输出的特征向量进行处理,通过对路口进行建模,来对红绿灯进行切换,切换目的是使车辆在路口等待时间最少,切换所采取的行为Action由神经网络预测。
2.根据权利要求1所述的基于强化学习的十字路口交通信号灯控制方法,其特征在于:步骤2中,Spatial Attention的作用是在一个二维的卷积特征向量上,经过第一层卷积之后的特征为M=[m1,m2,...,mn],其中mi∈RW·H,n为第一层卷积神经元个数,mi表示一个宽为W,高为H的空间向量,R表示向量空间;那么注意力权重α和a的计算和新的特征向量过程如下:
Figure FDA0003077152960000031
fm=a*mi
其中ws∈RC*1,bs∈R1分别表示权重和偏置,C表示神经网络中输出神经元的个数,fm表示最终生成的feature map向量;σ是Sigmoid激活函数,r(·)表示向量的Reshape操作,
Figure FDA0003077152960000032
表示向量联结,
Figure FDA0003077152960000033
表示向量相乘;最终生成的fm是经过注意力权重和原来的特征M相乘的结果,表示权重已经分配到了每一个元素。
3.根据权利要求1所述的基于强化学习的十字路口交通信号灯控制方法,其特征在于:步骤6中,所述评价指标包括平均等待时延,平均等待队列长度和平均到达时间;所述平均等待时延
Figure FDA0003077152960000034
m为车辆的总数,wtt为时刻t的等待时间,T为一回合的时长;所述平均等待队列长度
Figure FDA0003077152960000035
qt为时刻t的车辆队列长度;所述平均到达时间
Figure FDA0003077152960000036
nt为时刻t在仿真场景上运行的车辆总数。
CN202010111549.3A 2020-02-24 2020-02-24 一种基于强化学习的十字路口交通信号灯控制方法 Active CN111260937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010111549.3A CN111260937B (zh) 2020-02-24 2020-02-24 一种基于强化学习的十字路口交通信号灯控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010111549.3A CN111260937B (zh) 2020-02-24 2020-02-24 一种基于强化学习的十字路口交通信号灯控制方法

Publications (2)

Publication Number Publication Date
CN111260937A CN111260937A (zh) 2020-06-09
CN111260937B true CN111260937B (zh) 2021-09-14

Family

ID=70947287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010111549.3A Active CN111260937B (zh) 2020-02-24 2020-02-24 一种基于强化学习的十字路口交通信号灯控制方法

Country Status (1)

Country Link
CN (1) CN111260937B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111932871B (zh) * 2020-06-28 2021-06-29 银江股份有限公司 一种区域级实时交通控制策略推荐系统及方法
CN112419762A (zh) * 2020-08-12 2021-02-26 华东师范大学 基于物联网平台的强化学习智能交通信号灯控制方法及系统
CN112206538A (zh) * 2020-10-19 2021-01-12 武汉大学 一种基于Deep Q-Network改进的俄罗斯方块智能Agent学习方法
CN112289045B (zh) * 2020-10-19 2021-12-21 智邮开源通信研究院(北京)有限公司 交通信号控制方法、装置、电子设备及可读存储介质
CN112489464B (zh) * 2020-11-19 2022-06-28 天津大学 一种具有位置感知的路口交通信号灯调控方法
CN112863206B (zh) * 2021-01-07 2022-08-09 北京大学 一种基于强化学习的交通信号灯控制方法与系统
CN112927522B (zh) * 2021-01-19 2022-07-05 华东师范大学 一种基于物联网设备的强化学习可变时长信号灯控制方法
CN113160585B (zh) * 2021-03-24 2022-09-06 中南大学 交通灯配时优化方法、系统及存储介质
CN113077642B (zh) * 2021-04-01 2022-06-21 武汉理工大学 一种交通信号灯控制方法、装置及计算机可读存储介质
CN113299069B (zh) * 2021-05-28 2022-05-13 广东工业大学华立学院 一种基于历史误差反向传播的自适应交通信号控制方法
CN113299084B (zh) * 2021-05-31 2022-04-12 大连理工大学 一种基于多视角编码迁移强化学习的区域信号灯协同控制方法
CN113380054A (zh) * 2021-06-09 2021-09-10 湖南大学 一种基于强化学习的交通信号灯控制方法及系统
CN113487889B (zh) * 2021-07-19 2022-06-17 浙江工业大学 基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法
CN113763723B (zh) * 2021-09-06 2023-01-17 武汉理工大学 基于强化学习与动态配时的交通信号灯控制系统及方法
CN114038212B (zh) * 2021-10-19 2023-03-28 南京航空航天大学 基于双阶段注意力机制和深度强化学习的信号灯控制方法
CN116504079B (zh) * 2023-06-30 2023-09-22 中国水利水电第七工程局有限公司 施工隧道通行控制方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101814954B1 (ko) * 2017-04-18 2018-01-30 (주)동림피엔디 횡단보도 보행자 안전을 위한 신호 제어방법
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110164150A (zh) * 2019-06-10 2019-08-23 浙江大学 一种基于时间分配和强化学习的交通信号灯控制方法
CN110444028A (zh) * 2019-09-06 2019-11-12 科大讯飞股份有限公司 多路口信号灯控制方法、装置及设备
CN110766955A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 基于动作预测模型的信号调节方法、装置和计算机设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2187369A3 (en) * 2008-06-04 2012-03-28 Roads and Traffic Authority of New South Wales Traffic signals control system
CN102110371B (zh) * 2011-03-04 2012-09-05 哈尔滨工业大学 一种基于分级多智能体架构的交通信号控制系统
CN105046987B (zh) * 2015-06-17 2017-07-07 苏州大学 一种基于强化学习的路面交通信号灯协调控制方法
US10503174B1 (en) * 2019-01-31 2019-12-10 StradVision, Inc. Method and device for optimized resource allocation in autonomous driving on the basis of reinforcement learning using data from lidar, radar, and camera sensor
CN110491146B (zh) * 2019-08-21 2020-08-21 浙江工业大学 一种基于深度学习的交通信号控制方案实时推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101814954B1 (ko) * 2017-04-18 2018-01-30 (주)동림피엔디 횡단보도 보행자 안전을 위한 신호 제어방법
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110164150A (zh) * 2019-06-10 2019-08-23 浙江大学 一种基于时间分配和强化学习的交通信号灯控制方法
CN110444028A (zh) * 2019-09-06 2019-11-12 科大讯飞股份有限公司 多路口信号灯控制方法、装置及设备
CN110766955A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 基于动作预测模型的信号调节方法、装置和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
colight:learning network-level cooperation for traffic signal control;HuaWei;《Proceedings of the 28th ACM International on Conference on Information and Knowledge Management》;20190511;第1-10页 *
交叉口信号优化控制的深度循环Q学习方法;施赛江;《信息技术与网络安全》;20180630;第1-5页 *

Also Published As

Publication number Publication date
CN111260937A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111260937B (zh) 一种基于强化学习的十字路口交通信号灯控制方法
CN112700664B (zh) 一种基于深度强化学习的交通信号配时优化方法
CN111785045B (zh) 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN112216124B (zh) 一种基于深度强化学习的交通信号控制方法
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
WO2021051870A1 (zh) 基于强化学习模型的信息控制方法、装置和计算机设备
CN111696370A (zh) 基于启发式深度q网络的交通灯控制方法
WO2023123906A1 (zh) 交通信号灯控制方法及相关设备
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
Pang et al. Deep deterministic policy gradient for traffic signal control of single intersection
CN110570672A (zh) 一种基于图神经网络的区域交通信号灯控制方法
CN115019523B (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
CN114120670B (zh) 用于交通信号控制的方法和系统
CN116758767B (zh) 基于多策略强化学习的交通信号灯控制方法
CN114419884A (zh) 基于强化学习和相位竞争的自适应信号控制方法及系统
CN110021168B (zh) 一种车联网下实现实时智能交通管理的分级决策方法
CN111507499B (zh) 预测用模型的构建方法、测试方法、装置及系统
CN115331460B (zh) 一种基于深度强化学习的大规模交通信号控制方法及装置
CN116189454A (zh) 交通信号控制方法、装置、电子设备及存储介质
CN115472023B (zh) 一种基于深度强化学习的智能交通灯控制方法及装置
Luo et al. Researches on intelligent traffic signal control based on deep reinforcement learning
CN116758768A (zh) 一种全十字路口红绿灯动态调控方法
CN115512558A (zh) 一种基于多智能体强化学习的交通灯信号控制方法
CN116137103B (zh) 基于图元学习和深度强化学习的大规模交通灯信号控制方法
CN114639255B (zh) 一种交通信号控制方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant