CN113763723B - 基于强化学习与动态配时的交通信号灯控制系统及方法 - Google Patents

基于强化学习与动态配时的交通信号灯控制系统及方法 Download PDF

Info

Publication number
CN113763723B
CN113763723B CN202111037132.8A CN202111037132A CN113763723B CN 113763723 B CN113763723 B CN 113763723B CN 202111037132 A CN202111037132 A CN 202111037132A CN 113763723 B CN113763723 B CN 113763723B
Authority
CN
China
Prior art keywords
time
network
phase
vehicle
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111037132.8A
Other languages
English (en)
Other versions
CN113763723A (zh
Inventor
刘冰艺
宋斌
吴鹏春
熊盛武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202111037132.8A priority Critical patent/CN113763723B/zh
Publication of CN113763723A publication Critical patent/CN113763723A/zh
Application granted granted Critical
Publication of CN113763723B publication Critical patent/CN113763723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles

Abstract

本发明公开了一种基于强化学习与动态配时的交通信号灯控制系统及方法,首先对十字路口进行建模,分别定义强化学习三要素state,reward,action;然后依据强化学习A2C算法构建策略网络和评估网络;最后收集路口实时信息,转化为state向量后输入到构建的策略网络和评估网络,输出action概率分布,系统根据action概率分布选择最合适的相位;决定相位后,接下来的一段时间就属于该相位的绿灯时间;由自适应定时控制器构成的动态配时模块根据实时的交通流信息,以最大化绿灯时间利用为目标,动态控制绿灯时间;当检测到绿灯时间的损失,就终止当前相位。本发明克服了固定分配交通灯时长而导致绿灯利用率不高的缺陷,减少了车辆的平均等待时间和二氧化碳等有害气体的排放。

Description

基于强化学习与动态配时的交通信号灯控制系统及方法
技术领域
本发明属于车联网技术领域,具体涉及一种结合强化学习与动态配时的交通信号灯控制系统及方法。
背景技术
近年来物联网、大数据、机器学习的快速发展,使得实时的智能交通灯控制成为可能。2016年,AlphaGo作为一个著名的强化学习应用实例,横空出世,强化学习的方法也越来越多的被应用到各个邻域中,强化学习作为一种新颖的方法,用于进行交通灯的动态控制控制。能减少车辆平均等待时间、减小行程时间、减少二氧化碳排放等。
但交通灯的决策不仅应该包括选择哪个相位,也应包括相位延续的时间,即绿灯时长。以上强化学习方法都是只控制交通灯相位,虽然强化学习模型可以根据交叉路口状态选择最佳相位,但往往每个相位都设置固定时长,在车辆密度不同的情况下设置成相同的时长会增加车辆的平均等待时间,如果交通流密度大,如早高峰和晚高峰时段,较大时长的设置更有利于车辆的快速通行,减少车辆的停车时延,而交通流密度小时,如中午时段,较小的交通灯时长设置可减少车辆的不必要等待时间。
发明内容
本发明的目的是实现完整的交通信号灯控制,尽可能每一步都做出最佳的相位选择和对应时长的选择。本发明提供了一种结合强化学习与动态配时的交通信号灯控制系统及方法,通过强化学习模型决定最佳相位,然后通过自适应配时方法减少车辆的平均等待时间,动态调整相位时长,使得相位时长更加合理。
本发明的系统所采用的技术方案是:一种基于强化学习与动态配时的交通信号灯控制系统,包括DSRC通信模块、接收器、相位控制器、由自适应定时控制器构成的动态配时模块;
所述DSRC(短距离通信)通信模块设置在车辆上,车辆之间通过DSRC通信模块接受和发送消息;
所述接收器收集车辆通过DSRC通信模块输出的实时信息,并处理相位控制器、自适应定时控制器的可用数据;
所述相位控制器,用于确定当前时间中最佳相位的策略网络(基于A2C算法构建的网络);
所述动态配时模块,根据实时的交通流信息,以最大化绿灯时间利用为目标,动态控制绿灯时间。
本发明的方法所采用的技术方案是:一种基于强化学习与动态配时的交通信号灯控制方法,包括以下步骤:
步骤1:对十字路口进行建模,分别定义强化学习三要素state,reward, action;
state要素定义车辆位置:首先把接入交叉口的道路划分成网格,网格大小并不均等,距离路口越近,则网格越小,反之越大;统计在不同网格中车辆数;
action要素定义车辆的通行规则:南北向车辆直行右转,南北向车辆左转,东西向车辆直行右转,东西向车辆左转;
reward要素定义Agent,即智能体,从Environment,即环境中获取到的立即奖励,表示经过一次action选择,再与环境交互后,环境中所有车辆累计的等待时间的变化,即rt=Wt-Wt+1;Wt+1表示当前时间所有进入方向车辆的总的累计等待时间,Wt表示之前一步的总的累计等待时间;只有负奖励才能计算出来,而Agent目标是最大化这个负的累计奖励,即通过调控减少车辆的等待时间;其中,rt表示t时刻Agent获得的奖励,即action要素之后所有在路口等待车辆的总等待时间的减少;
步骤2:依据强化学习A2C算法构建A2C网络,包括一个评估网络和一个策略网络,训练完成后只需保留策略网络;
步骤3:收集路口实时信息,转化为state向量后输入A2C策略网络,输出 action概率分布,系统选择action概率最大值对应的相位;决定相位后,接下来的一段时间就属于该相位的绿灯时间;自适应配时模块基于实时的交通流信息,以最大化绿灯时间利用为目标,动态控制绿灯时间;当检测到绿灯时间的损失,就终止当前相位。
本发明与现有技术相比具有如下优点和有益效果:
(1)与其他基于强化学习的交通信号灯控制方法不同的是,本发明采用交通灯的相位和时长联合控制的方式,克服了其他方法固定分配交通灯时长而导致绿灯利用率不高的缺陷,减少了车辆的平均等待时间和二氧化碳等有害气体的排放。
(2)本发明选取的强化学习模型是经实验比较后选择的,适用于交通灯控制的场景,未来可被更优秀的强化学习模型替代,体现本发明整体方法的灵活性。
(3)本发明提出的一种基于强化学习与自适应定时的交通灯控制方法,与其他的方法相比在全天交通场景中具有高适应性。
附图说明
图1为本发明实施例的系统场景图;
图2为本发明实施例的方法流程图;
图3为本发明实施例的A2C网络的结构示意图和训练过程图。
具体实施方式
为了便于本领域的普通技术员工理解和实施本发明,下面结合附图及实施案例,对本发明做进一步的详细描述,应当理解,此处所描述的实施实例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于强化学习与动态配时的交通信号灯控制系统,包括DSRC通信模块、接收器、相位控制器、自适应定时控制组成的动态配时模块;
DSRC通信模块设置在车辆上,车辆之间通过DSRC通信模块接受和发送消息;
接收器收集车辆通过DSRC通信模块输出的实时信息,并处理相位控制器、自适应定时控制器的可用数据;
相位控制器,用于确定当前时间中最佳相位的策略网络(基于A2C算法构建的网络);
动态配时模块,根据实时的交通流信息,以最大化绿灯时间利用为目标,动态控制绿灯时间。
请见图2,本发明提供的一种基于强化学习与动态配时的交通信号灯控制方法,包括以下步骤:
步骤1:对十字路口进行建模,分别定义强化学习三要素state,reward, action;
state要素定义车辆位置:首先把接入交叉口的道路划分成网格,网格大小并不均等,距离路口越近,则网格越小,反之越大;统计在不同网格中车辆数;
action要素定义车辆的通行规则:南北向车辆直行右转,南北向车辆左转,东西向车辆直行右转,东西向车辆左转;
reward要素定义Agent,即智能体,从Environment,即环境中获取到的立即奖励,表示经过一次action选择,再与环境交互后,环境中所有车辆累计的等待时间的变化,即rt=Wt-Wt+1;Wt+1表示当前时间所有进入方向车辆的总的累计等待时间,Wt表示之前一步的总的累计等待时间;只有负奖励才能计算出来,而Agent目标是最大化这个负的累计奖励,即通过调控减少车辆的等待时间;其中,rt表示t时刻Agent获得的奖励,即action要素之后所有在路口等待车辆的总等待时间的减少;
步骤2:依据强化学习算法构建A2C网络,包括一个评估网络和一个策略网络,训练完成后只需保留策略网络;
请见图3,本实施例的A2C网络,包括并行设置的2个子网络,即策略网络和评估网络;所述评估网络由串联的3层全连接层FC、修正线性激活单元ReLU、全连接层FC组成;所述策略网络由串联的3层全连接层FC和Softmax函数层组成;这两个子网络各自输出。
本实施例提供的A2C网络,包括actor子网络和critic子网络,输入均为 state,只是输入不同,它们可以放入同一个主体网络中训练共享信息和参数,但各自的输出层不同。策略网络基于state选择执行动作,评估网络对该动作的好坏进行评估,并反馈给策略网络,策略网络因此调整执行动作,使得结果更优。
在构建agent以后的experience source时用到了高级包PATN。
本实施例训练A2C网络,包括以下子步骤:
步骤2.1:初始化统计参数R,Tdelay,分别为累计奖励,平均等待时间,并初始化网络参数w,即神经网络中所有待更新的参数;
步骤2.2:设置训练的回合数episode为0,1,...,N;
步骤2.3:设置时间步step为0,1,...,T;
步骤2.4:获取t时刻路口的状态st,并根据策略网络选择一个随机的行为at (即t时刻Agent所采取的行动,也就是怎么切换红绿灯),然后按照当前的行为 at进行仿真模拟,仿真执行时长为一个绿灯时间的步长;执行at之后得到奖励值rt,Environment(即环境)达到下一个状态st+1;最后使用当前的 (st,at,rt,st+1)四元组用于评估网络和策略网络的更新;
具体的网络更新过程包括以下子步骤;
步骤2.4.1:如果当前的行为at的和前一时刻的行为at-1相同那么就执行绿灯的相位转变,并在绿灯时间结束时执行:首先更新评估网络的参数,使用当前收集的(st,at,rt,st+1)四元组计算当前动作action,即at的优势值
Figure GDA0003946665920000051
Figure GDA0003946665920000052
γ为折扣系数,r(at,st)为从环境获得的即时奖励,
Figure GDA0003946665920000053
表示当前时刻的状态价值,st+1表示下一个状态,而
Figure GDA0003946665920000054
表示下个时刻的状态价值,因此
Figure GDA0003946665920000055
表示对当前状态st下采取动作at的动作价值估计,
Figure GDA0003946665920000056
表示评估网络的参数,最后计算出Aπ(st,at),也就是对当前状态下采取动作at的优劣的评价。评估网络的loss就是Aπ(st,at),评估网络更新公式为
Figure GDA0003946665920000057
其中,α表示学习率,
Figure GDA0003946665920000058
表示对评估网络参数求的梯度,Vπ(st,at)表示价值函数;接下来根据Aπ(st,at)训练策略网络,其更新公式为
Figure GDA0003946665920000059
其中πθ(a|s)表示策略网络,θ表示策略网络的参数;其中πθ(a|s)表示策略网络,θ表示策略网络的参数;a表示动作具体指交通灯的相位变化,s表示状态具体指交通灯处在那个相位,
Figure GDA00039466659200000510
表示对评估网络参数求的梯度,Aπ(s,a)表示优势值;2个网络更新完成,此时更新step =step+15,表示绿灯时间持续15秒;如果当前的行为at的和前一时刻的行为 at-1不相同那么就执行黄灯,并在黄灯时间结束时执行与步骤2.4.1相同的网络训练过程,然后更新step=step+3,表示黄灯时间持续3秒;
步骤2.4.2:更新完黄灯轮转周期之后,接着按步骤2.5.1更新绿灯轮转周期;
步骤2.5:更新统计参数R,Tdelay
步骤2.6:回到步骤2.3,直到总训练步长step为T,表示训练完了一个回合,接下来执行步骤2.7;
步骤2.7:回到步骤2.1,直到总训练回合episode为0,表示训练完所有的回合,接下来执行步骤2.8;
步骤2.8:所有训练回合结束后,保存策略网络即可。
步骤3:收集路口实时信息,转化为state向量后输入A2C策略网络,策略网络输出action概率分布,系统选择action(交通灯需要控制交叉路口的相位)概率最大值对应的相位;决定相位后,接下来的一段时间就属于该相位的绿灯时间;自适应配时模块基于实时的交通流信息,以最大化绿灯时间利用为目标,动态控制绿灯时间;当检测到绿灯时间的损失,就终止当前相位。
本实施例当检测到绿灯时间的损失tL,包括启动损失时间I1和清尾损失时间I2,其公式如下:
tL=I1+I2
启动损失时间表示车辆从静止状态启动到饱和车流时速度通过停止线所损失的时间。如果在相位初始时,车辆都刚好以饱和车流时速度经过停止线,那么启动损失时间就恰好为0。显然,大部分情况,车辆都需要从零启动以通过停止线。
可以看到,当交通信号灯转变为绿灯显示时,原先等候在停车线后面的车流便开始向前运动,车辆以车队形式越过停车线,其流率由0很快增至一个稳定的数值,即饱和流率,此时车辆都到达一个稳定的速度。此后,越过停车线的后续车流流率将继续保持与饱和流率相等,直到停车线后面原先积存的车辆全部放行完毕,或者虽未放完,但绿灯时间已经截止。
为了更具体地计算损失时间,做出如下定义。
定义从绿灯启亮到第一辆车车头驶至停止线的时间为“首车启动损失时间”,意味着车辆在相位初始时还未到达路口,记为t0;定义从第一辆车车头驶至停止线到第二辆车车头驶至停止线的时间为“第一车头时距”,记为h1;依此类推,有hi(i=1,2,3,...,n)。
那么,启动损失时间的计算公式可为:
Figure GDA0003946665920000061
由此可知,启动损失时间是很难避免的,因为交叉路口绝大多数请况都是车辆暂停排队,绿灯亮起后从零开始加速启动通过。
除了启动损失时间,还有清尾损失时间。
黄灯启亮时刻,即当前相位结束,该方向的车辆已经不能通行。这时距相位初始已经有一段时间,车队头部车辆已经通过停止线,而车队尾部车辆间的车头时距逐渐增大,这些车辆已经无法在黄灯启亮时刻前通过停止线,但当前相位仍未结束,清尾损失时间由此产生。
那么清尾损失计算公式如下:
I2=tlast-tY
tY为当下距黄灯启亮的剩余时间;tlast为从当下算起,黄灯启亮前的最后一辆车辆驶过停止线的通过时间。
本实施例中,当强化学习策略决定相位后,为避免相位无限延续,设置一个较长的时限,相位时长超过这个阈值就必须做一次相位决策。在这个绿灯时间段内,动态配时模块保证绿灯时间的有效利用。如果检测到环境中存在绿灯时间的损失(Loss of greentime),动态配时模块就提前结束当前相位,具体过程如下。
当车流冲突时,车辆启动阶段的时间损失往往不可避免。避免结束损失时间,并尽量减少低效绿灯时间。
相位初期,车队中车辆的车头时距保持较小的值,接近饱和流率通过路口,就很可能进入了相位后期,这时需要比较绿灯方向最小车头时距hrear和相位剩余时间tremaining,如果满足:
hrear>tremaining>threshold1
即最后一辆车无法在黄灯亮起时到达路口,自适应配时控制器会终止当前相位。而且hrear必须大于一定值,即threshold1,这是为了安全,给予司机反应和减速的时间。但当排队车辆少时,大部分车辆在相位初期就通过路口,交通流很快就不饱和了,后面车辆的车头时距可能会很大,而且红灯方法往往积累大量排队车辆。这种情况下,绿灯时间的利用率就会快速降低,而这段时间是低效绿灯时间。当然,如果所有红灯方向都没有车辆等待或即将到达,就没有必要进行相位转换。
因此,当一个相位开始时,自适应配时控制器每秒都统计所有驶入方向车辆的位置和速度,并计算当前绿灯通行车道中车辆的车头时距,然后获得其中最小值hmin,g,意味着最近的车辆也需要hmin,g到达停止线。如果车头时距大于所设置的阈值,即
hmin,g>threshold1
且其他红灯方向有车辆停在路口等待通过时,自适应配时控制器会提前终止当前相位。这时,策略网络会重新观测环境的状态,并根据新的状态决定新的相位。但如果所有红灯方向都没有车辆到达路口,需要比较红灯方向车辆的最小车头时距hmin,r和绿灯方向最小车头时距hmin,g,如果满足:
hmin,g-hmin,r>threshold2≥0;
在这种情况下,红灯方向的车辆会比绿灯方向的车辆早一段时间到达路口,自适应配时控制器也会提前终止当前相位。这在一定程度上能减少下一个通行方向车辆的启动时间损失,因为车队可以保持一定速度直接通过路口,而不必停下来,相比于速度从零启动的车队通行效率更高。
本实施例根据测试数据集,对交通灯控制系统进行测试并评估,首先测试场景包括单路口及多路口类型,测试数据集包括真实世界提取的车流数据和流率依次递增的车流数据;
本实施例定义评价指标,包括平均等待时间、平均停车次数、平均时间损失、和平均行驶速度。平均等待时间表示每辆车因红绿灯控制而暂停等待的时间;平均停车次数表示每辆车行驶过程中因红绿灯控制而减速暂停的次数,反映道路通畅程度;平均时间损失表示每辆车因交通状况耽误的时间,包括暂停等待及行驶缓慢耽误的时间,计算为实际行驶时间与理想速度下匀速行驶全程的时间的差值;平均行驶速度表示每辆车行驶完全程的平均速度,平均速度越大,说明道路越通畅;根据测试数据集,对交通灯控制系统进行测试并评估,首先测试场景包括单路口及多路口类型,测试集包括真实世界提取的车流数据和流率依次递增的车流数据;等待时间,即当车辆速度小于0.1m/s时,开始累计其等待时间。这个指标表示,在一个episode中,所有车辆速度通过交叉路口时停车等待的平均值;平均等待次数是指一个episode中,所有通过车辆等待次数的平均值;平均时间损失,即车辆因停车等待及缓慢行驶而损失的时间。如果车辆没有停车等待,且一直以标准速度行驶,到达目的地,则其时间损失为零。这个指标表示,一个 episode中,所有通过车辆时间损失的平均值;平均相位时长表示在整个模拟时间内,相位转变的次数。由于模拟时间可能不同,所以这个指标很有必要的。
本实施例在训练过程中进行信息监控,以便知道目前网络的优化情况,是否在逐渐收敛。采用tensorboard对信息进行可视化处理,除了reward外,还将 loss和一些重要参数写入tensorboard中,监控它们的变化情况,为后期的调参优化提供依据。
应当理解的是,上述针对较佳实例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术员工在本发明的启示下,在不脱离本发明权利要求书所保护的范围情况下,还可以做出替换和变形,均落入本发明的保护范围之内,本发明的请求保护范围应当以所附的权利要求为准。

Claims (3)

1.一种基于强化学习与动态配时的交通信号灯控制方法,采用基于强化学习与动态配时的交通信号灯控制系统;
其特征在于:所述系统包括DSRC通信模块、接收器、相位控制器、自适应定时控制器构成的动态配时模块;
所述DSRC通信模块设置在车辆上,车辆之间通过DSRC通信模块接受和发送消息;
所述接收器收集车辆通过DSRC通信模块输出的实时信息,并处理相位控制器、自适应定时控制器的可用数据;
所述相位控制器,用于确定当前时间中最佳相位的策略网络;
所述动态配时模块,根据实时的交通流信息,以最大化绿灯时间利用为目标,动态控制绿灯时间;
所述方法包括以下步骤:
步骤1:对十字路口进行建模,分别定义强化学习三要素state,reward,action;
state要素定义车辆位置:首先把接入交叉口的道路划分成网格,网格大小并不均等,距离路口越近,则网格越小,反之越大;统计在不同网格中车辆数;
action要素定义车辆的通行规则:南北向车辆直行右转,南北向车辆左转,东西向车辆直行右转,东西向车辆左转;
reward要素定义Agent,即智能体,从Environment,即环境中获取到的立即奖励,表示经过一次action选择,再与环境交互后,环境中所有车辆累计的等待时间的变化,即rt=Wt-Wt+1;Wt+1表示当前时间所有进入方向车辆的总的累计等待时间,Wt表示之前一步的总的累计等待时间;只有负奖励才能计算出来,而Agent目标是最大化这个负的累计奖励,即通过调控减少车辆的等待时间;其中,rt表示t时刻Agent获得的奖励,即action要素之后所有在路口等待车辆的总等待时间的减少;
步骤2:依据强化学习A2C算法构建A2C网络,包括一个评估网络和一个策略网络,训练完成后只需保留策略网络;
其中所述A2C网络,包括策略网络actor和评估网络critic;输入均为state,策略网络基于state选择执行动作,评估网络对该动作的好坏进行评估,并反馈给策略网络,策略网络因此调整执行动作,使得结果更优;
所述A2C网络,包括并行设置的2个子网络,即策略网络和评估网络;所述评估网络由串联的3层全连接层FC、修正线性激活单元ReLU、全连接层FC组成;所述策略网络由串联的3层全连接层FC和Softmax函数层组成;这两个子网络各自输出;
训练所述A2C网络,包括以下子步骤:
步骤2.1:初始化统计参数R,Tdelay,R为累计奖励,Tdelay为平均等待时间,并初始化网络策略网络参数θ和评估网络参数
Figure FDA0003946665910000021
步骤2.2:设置训练的回合数episode为0,1,...,N;
步骤2.3:设置时间步step为0,1,...,T;
步骤2.4:获取t时刻路口的状态st,并根据策略网络选择一个随机的行为at,然后按照当前的行为at进行仿真模拟,仿真执行时长为一个绿灯时间的步长;执行at之后得到奖励值rt,Environment达到下一个状态st+1;最后使用当前的(st,at,rt,st+1)四元组更新评估网络和策略网络;其中,行为at是t时刻Agent所采取的行动,即怎么切换红绿灯;
所述评估网络和策略网络的更新,具体实现包括以下子步骤;
步骤2.4.1:若当前的行为at的和前一时刻的行为at-1相同,则执行绿灯的相位转变;在绿灯时间结束时执行下述网络训练过程:首先更新评估网络的参数,使用当前收集的(st,at,rt,st+1)四元组计算当前动作action,即at的优势值
Figure FDA0003946665910000022
γ为折扣系数,r(at,st)为从环境获得的即时奖励,
Figure FDA0003946665910000023
表示当前时刻的状态价值,st+1表示下一个状态,而
Figure FDA0003946665910000024
表示下个时刻的状态价值,因此
Figure FDA0003946665910000025
表示对当前状态st下采取动作at的动作价值估计,
Figure FDA0003946665910000026
表示评估网络的参数,最后计算出优势值Aπ(st,at),也就是对当前状态下采取动作at的优劣的评价;评估网络的loss为Aπ(st,at),评估网络更新公式为
Figure FDA0003946665910000027
其中,α表示学习率,
Figure FDA0003946665910000028
表示对评估网络参数求的梯度,Vπ(st,at)表示价值函数;接下来根据Aπ(st,at)训练策略网络,其更新公式为
Figure FDA0003946665910000029
其中πθ(a|s)表示策略网络,θ表示策略网络的参数;a表示动作具体指交通灯的相位变化,s表示状态具体指交通灯处在那个相位,
Figure FDA0003946665910000031
表示对评估网络参数求的梯度,Aπ(s,a)表示优势值;2个网络更新完成,此时更新step=step+15,表示绿灯时间持续15秒;
如果当前的行为at的和前一时刻的行为at-1不相同那么就执行黄灯,并在黄灯时间结束时执行与步骤2.4.1相同的网络训练过程,然后更新step=step+3,表示黄灯时间持续3秒;
步骤2.4.2:更新完黄灯轮转周期之后,接着按步骤2.4.1更新绿灯轮转周期;
步骤2.5:更新统计参数R,Tdelay
步骤2.6:回到步骤2.3,直到总训练步长step为T,表示训练完了一个回合,接下来执行步骤2.7;
步骤2.7:回到步骤2.1,直到总训练回合episode为0,表示训练完所有的回合,接下来执行步骤2.8;
步骤2.8:所有训练回合结束后,保存策略网络即可;
步骤3:收集路口实时信息,转化为state向量后输入A2C策略网络,输出action概率分布,系统选择action概率最大值对应的相位;决定相位后,接下来的一段时间就属于该相位的绿灯时间;自适应配时模块基于实时的交通流信息,以最大化绿灯时间利用为目标,动态控制绿灯时间;当检测到绿灯时间的损失,就终止当前相位;
所述当检测到绿灯时间的损失,就终止当前相位;具体实现过程是:
相位初期,比较绿灯方向最小车头时距hrear和相位剩余时间tremaining,如果满足:
hrear>tremaining>threshold1
即最后一辆车无法在黄灯亮起时到达路口,自适应配时控制器会终止当前相位;而且hrear必须大于预设值,即threshold1
当一个相位开始时,自适应配时控制器每秒都统计所有驶入方向车辆的位置和速度,并计算当前绿灯通行车道中车辆的车头时距,然后获得其中最小值hmin,g,意味着最近的车辆也需要hmin,g到达停止线;如果车头时距大于所设置的阈值,即:
hmin,g>threshold1
且其他红灯方向有车辆停在路口等待通过时,自适应配时控制器会提前终止当前相位;这时,策略网络会重新观测环境的状态,并根据新的状态决定新的相位;但如果所有红灯方向都没有车辆到达路口,需要比较红灯方向车辆的最小车头时距hmin,r和绿灯方向最小车头时距hmin,g,如果满足:
hmin,g-hmin,r>threshold2≥0;
则红灯方向的车辆会比绿灯方向的车辆早一段时间到达路口,自适应配时控制器也会提前终止当前相位。
2.根据权利要求1所述的基于强化学习与动态配时的交通信号灯控制方法,其特征在于:步骤3中所述绿灯时间的损失tL,包括启动损失时间I1和清尾损失时间I2,其公式如下:
tL=I1+I2
定义从绿灯启亮到第一辆车车头驶至停止线的时间为“首车启动损失时间”,意味着车辆在相位初始时还未到达路口,记为t0;定义从第一辆车车头驶至停止线到第二辆车车头驶至停止线的时间为“第一车头时距”,记为h1;依此类推,有hi,i=1,2,3,...,n;
则启动损失时间的计算公式为:
Figure FDA0003946665910000041
清尾损失时间计算公式如下:
I2=tlast-tY
tY为当下距黄灯启亮的剩余时间;tlast为从当下算起,黄灯启亮前的最后一辆车辆驶过停止线的通过时间。
3.根据权利要求1-2任意一项所述基于强化学习与动态配时的交通信号灯控制方法,其特征在于:首先定义评价指标,然后根据测试数据集,对交通灯控制系统进行测试并评估,首先测试场景包括单路口及多路口类型,测试数据集包括真实世界提取的车流数据和流率依次递增的车流数据;
所述评价指标,包括平均等待时间、平均停车次数、平均时间损失和平均行驶速度;所述平均等待时间表示每辆车因红绿灯控制而暂停等待的时间;所述平均停车次数表示每辆车行驶过程中因红绿灯控制而减速暂停的次数,反映道路通畅程度;所述平均时间损失表示每辆车因交通状况耽误的时间,包括暂停等待及行驶缓慢耽误的时间,计算为实际行驶时间与理想速度下匀速行驶全程的时间的差值;所述平均行驶速度表示每辆车行驶完全程的平均速度,平均速度越大,说明道路越通畅。
CN202111037132.8A 2021-09-06 2021-09-06 基于强化学习与动态配时的交通信号灯控制系统及方法 Active CN113763723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111037132.8A CN113763723B (zh) 2021-09-06 2021-09-06 基于强化学习与动态配时的交通信号灯控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111037132.8A CN113763723B (zh) 2021-09-06 2021-09-06 基于强化学习与动态配时的交通信号灯控制系统及方法

Publications (2)

Publication Number Publication Date
CN113763723A CN113763723A (zh) 2021-12-07
CN113763723B true CN113763723B (zh) 2023-01-17

Family

ID=78793068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111037132.8A Active CN113763723B (zh) 2021-09-06 2021-09-06 基于强化学习与动态配时的交通信号灯控制系统及方法

Country Status (1)

Country Link
CN (1) CN113763723B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299732B (zh) * 2021-12-29 2023-04-14 中山大学 一种同时考虑行程时间和公平性的交通灯控制方法及系统
CN114613170B (zh) * 2022-03-10 2023-02-17 湖南大学 一种基于强化学习的交通信号灯路口协调控制方法
CN114459498A (zh) * 2022-03-14 2022-05-10 南京理工大学 基于强化学习的新能源车充电站选择及自适应导航方法
CN114639255B (zh) * 2022-03-28 2023-06-09 浙江大华技术股份有限公司 一种交通信号控制方法、装置、设备和介质
CN115457781B (zh) * 2022-09-13 2023-07-11 内蒙古工业大学 一种基于多代理深度强化学习的智能交通信号灯控制方法
CN115547054B (zh) * 2022-11-29 2023-03-21 湖南工商大学 一种基于大数据的交通引导系统
CN116524745B (zh) * 2023-05-10 2024-01-23 重庆邮电大学 一种云边协同区域交通信号动态配时系统及方法
CN116597672B (zh) * 2023-06-14 2024-02-13 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法
CN117062280B (zh) * 2023-08-17 2024-03-08 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898221A (zh) * 2018-06-12 2018-11-27 中国科学技术大学 基于状态特征和后继特征的特征与策略的联合学习方法
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、系统和存储介质
JP2019079199A (ja) * 2017-10-23 2019-05-23 株式会社豊田中央研究所 信号機切替制御装置、信号機切替制御方法及び信号機切替制御プログラム
CN110032782A (zh) * 2019-03-29 2019-07-19 银江股份有限公司 一种城市级智能交通信号控制系统及方法
CN111260937A (zh) * 2020-02-24 2020-06-09 武汉大学深圳研究院 一种基于强化学习的十字路口交通信号灯控制方法
CN112052936A (zh) * 2020-07-24 2020-12-08 清华大学 基于生成对抗机制的强化学习探索方法及装置
WO2021051870A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 基于强化学习模型的信息控制方法、装置和计算机设备
US11080602B1 (en) * 2020-06-27 2021-08-03 Sas Institute Inc. Universal attention-based reinforcement learning model for control systems
CN113299085A (zh) * 2021-06-11 2021-08-24 昭通亮风台信息科技有限公司 一种交通信号灯控制方法、设备及存储介质
CN113335291A (zh) * 2021-07-27 2021-09-03 燕山大学 一种基于人车风险状态的人机共驾控制权决策方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX344434B (es) * 2011-12-16 2016-12-15 Pragmatek Transp Innovations Inc Aprendizaje por refuerzo de agentes multiples para control de señales de transito adaptable, integrado y conectado en red.

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019079199A (ja) * 2017-10-23 2019-05-23 株式会社豊田中央研究所 信号機切替制御装置、信号機切替制御方法及び信号機切替制御プログラム
CN108898221A (zh) * 2018-06-12 2018-11-27 中国科学技术大学 基于状态特征和后继特征的特征与策略的联合学习方法
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、系统和存储介质
CN110032782A (zh) * 2019-03-29 2019-07-19 银江股份有限公司 一种城市级智能交通信号控制系统及方法
WO2021051870A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 基于强化学习模型的信息控制方法、装置和计算机设备
CN111260937A (zh) * 2020-02-24 2020-06-09 武汉大学深圳研究院 一种基于强化学习的十字路口交通信号灯控制方法
US11080602B1 (en) * 2020-06-27 2021-08-03 Sas Institute Inc. Universal attention-based reinforcement learning model for control systems
CN112052936A (zh) * 2020-07-24 2020-12-08 清华大学 基于生成对抗机制的强化学习探索方法及装置
CN113299085A (zh) * 2021-06-11 2021-08-24 昭通亮风台信息科技有限公司 一种交通信号灯控制方法、设备及存储介质
CN113335291A (zh) * 2021-07-27 2021-09-03 燕山大学 一种基于人车风险状态的人机共驾控制权决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于强化学习的交通信号控制及深度学习应用;李高杨等;《人工智能》;20200610(第03期);全文 *

Also Published As

Publication number Publication date
CN113763723A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN113763723B (zh) 基于强化学习与动态配时的交通信号灯控制系统及方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
WO2021227502A1 (zh) 一种信号交叉口交通信号灯和车辆轨迹控制方法
CN108510764B (zh) 一种基于q学习的多路口自适应相位差协调控制系统及方法
CN111619624B (zh) 一种基于深度强化学习的有轨电车运行控制方法和系统
WO2021051870A1 (zh) 基于强化学习模型的信息控制方法、装置和计算机设备
CN111899534A (zh) 基于道路实时容量的交通灯智能控制方法
CN111267830A (zh) 一种混合动力公交车能量管理方法、设备和存储介质
CN113380054A (zh) 一种基于强化学习的交通信号灯控制方法及系统
CN113554875B (zh) 一种基于边缘计算的高速公路异质交通流可变限速控制方法
CN113312752B (zh) 一种主路优先控制交叉口交通仿真方法及装置
CN115665936B (zh) 一种隧道照明节能控制策略生成方法、系统、终端及介质
CN111951575A (zh) 基于提前强化学习的交通信号灯自适应控制方法
CN115641717A (zh) 基于混合交通流的高速公路主线-匝道车辆协同合流控制方法、设备及存储介质
CN116189462A (zh) 一种面向混合交通流的车辆轨迹与交通信号协同控制方法
CN113034955B (zh) 一种自适应巡航车队通过信号路口的通行方法及装置
CN116524745B (zh) 一种云边协同区域交通信号动态配时系统及方法
CN116502529A (zh) 一种车路协同混合交通流环境下快速干道车辆轨迹优化控制方法
CN114648878A (zh) 一种智能网联环境下连续路口速度诱导方法
Wang et al. Study of vehicle-road cooperative green wave traffic strategy for traffic signal intersections
CN115691110B (zh) 一种面向动态车流的基于强化学习的交叉口信号周期稳定配时方法
CN117406751B (zh) 道路网络上网联自动驾驶汽车轨迹优化方法及系统
CN114613170B (zh) 一种基于强化学习的交通信号灯路口协调控制方法
LU502247B1 (en) Method for controlling bus travel time at intersection based on vehicle speed guidance
CN116476828A (zh) 一种考虑前车影响和红绿灯信息的车速规划方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant