CN117809469A - 基于深度强化学习的交通信号灯配时调控方法及系统 - Google Patents
基于深度强化学习的交通信号灯配时调控方法及系统 Download PDFInfo
- Publication number
- CN117809469A CN117809469A CN202410217400.1A CN202410217400A CN117809469A CN 117809469 A CN117809469 A CN 117809469A CN 202410217400 A CN202410217400 A CN 202410217400A CN 117809469 A CN117809469 A CN 117809469A
- Authority
- CN
- China
- Prior art keywords
- reinforcement learning
- value
- deep reinforcement
- target
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000002787 reinforcement Effects 0.000 title claims abstract description 38
- 230000009471 action Effects 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 230000000875 corresponding effect Effects 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 101100436086 Escherichia coli (strain K12) asmA gene Proteins 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims description 2
- 238000010187 selection method Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Abstract
本发明涉及交通控制技术领域,具体涉及基于深度强化学习的交通信号灯配时调控方法及系统。本发明公开了基于深度强化学习的交通信号灯配时调控方法,包括:步骤一,初始化两个相同结构的Q值网络,并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络;步骤二,将目标道路交叉口作为目标环境,并周期性采集目标环境的状态;步骤三,基于双Q学习对、进行多轮迭代运算,并同步对目标环境中的交通信号灯进行相位控制,直至达到最大迭代轮数N。本发明采用双Q学习方法,通过引入经验回放、使用目标Q值网络来评估Q值,将选择最优动作的过程和评估最优动作的过程分开,可以更好、更稳定性的学习到最优策略。
Description
技术领域
本发明涉及交通控制技术领域,更具体的,涉及:1、一种基于深度强化学习的交通信号灯配时调控方法,2、一种基于深度强化学习的交通信号灯配时调控系统。
背景技术
信号灯配时对交通有着重要的影响,可以直接影响道路流量、拥堵程度、行车速度、交通事故率和交通效率。
目前,传统交通信号灯配时采用固定配时方案,即一个相位中红、黄、绿三色信号灯的时长固定。这显然违背了居民出行产生的交通流具有强周期性的特点——交通流存在日、周、月模式(日模式指在同一天不同时间段交通流有很大区别,而不同日期同一时段交通流往往相仿;周模式指一周内工作日与非工作日交通流有很大区别,而不同周工作日之间、非工作日之间交通流往往相仿;月模式指一年内不同月份的交通流有很大区别,而不同年份相同月份间、交通流往往相仿)。故一年365天内设置同样的信号配时方案显然不是最佳的信号灯配时机制。
现今研究中,有部分专家提出根据真实的交通数据人为制定信号灯配时规则。但是,这些规则仍然是由人们的先验经验进行预定义的,不能根据实时流量进行动态调整。
基于深度学习和强化学习的迅速发展,有学者提出采用基于值函数的Q-Learning强化学习方法来控制交通信号灯配时,它通过学习一个称为Q值函数的动作价值函数来估计在给定状态下采取某个动作的长期累积奖励,以指导智能体在环境中做出最优决策。但Q-Learning方法在面对交通流这种复杂的场景时存在难以收敛且缺乏稳定性的重大缺陷,故有学习将Q-Learning方法与深度神经网络相结合,提出了深度Q网络(DQN)。DQN利用深度神经网络的特点,可以自动从高维状态空间中自动提取特征来逼近状态-动作值函数,具有更好的收敛性和稳定性。但DQN存在自举的情况,即在更新Q 值时使用当前估计的最大动作值来估计下一个状态的最大动作值带来的过估计问题,所得到的估计Q值总会过高或过低,会影响学习的性能。
发明内容
基于此,有必要针对现有DQN存在自举而影响学习性能的问题,提供一种基于深度强化学习的交通信号灯配时调控方法及系统。
本发明采用以下技术方案实现:
第一方面,本发明公开了基于深度强化学习的交通信号灯配时调控方法,包括以下步骤:
步骤一,初始化两个相同结构的Q值网络,并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络/>;其中,/>、/>的参数相同;
步骤二,将目标道路交叉口作为目标环境,并周期性采集目标环境的状态;
步骤三,基于双Q学习对、/>进行多轮迭代运算,并同步对目标环境中的交通信号灯进行相位控制,直至达到最大迭代轮数N。
其中,n∈[1,N],第n轮迭代运算的方法包括:
步骤3.1,获取s n ,并基于ε-greedy策略从所有可能动作中选择出第n轮迭代要执行的动作a n ;
其中,s n 表示执行a n-1后目标环境的状态,a n-1表示第n-1轮迭代要执行的动作;所有可能动作包括a 1、a 2;a 1=1,表示切换当前相位到下一相位;a 2=0,表示保持当前相位不变;
步骤3.2,在目标环境中执行a n 、并得到s n+1;其中,s n+1表示执行a n 后目标环境的状态;
步骤3.3,依据s n 计算出a n 的奖励r n ,再组成第n组经验组(s n ,a n ,r n ,s n+1)、并存入经验池;
其中,若n超过经验存储阈值D,从经验池中随机选择m组经验组,并计算出目标Q值TQ n ;再基于TQ n 构建损失函数L,并基于L按照梯度下降算法更新的参数,得到第n轮迭代完成后的动作价值网络/>;
若n等于参数替换阈值d*K,将的参数替换成/>的参数;d为整数。
该种基于深度强化学习的交通信号灯配时调控方法实现根据本公开的实施例的方法或过程。
第二方面,本发明公开了基于深度强化学习的交通信号灯配时调控系统,其使用了第一方面的基于深度强化学习的交通信号灯配时调控方法。
基于深度强化学习的交通信号灯配时调控系统包括:Q网络模块、检测模块、双Q学习模块。
Q网络模块用于初始化两个相同结构的Q值网络,并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络/>;其中,/>、/>的参数相同。检测模块用于将目标道路交叉口作为目标环境,并周期性采集目标环境的状态。双Q学习模块用于基于双Q学习对/>、/>进行多轮迭代运算,并同步对目标环境中的交通信号灯进行相位控制,直至达到最大迭代轮数N。
该种基于深度强化学习的交通信号灯配时调控系统实现根据本公开的实施例的方法或过程。
第三方面,本发明公开了一种可读存储介质。该种可读存储介质中存储有计算机程序指令,计算机程序指令被一处理器读取并运行时,执行如第一方面公开的基于深度强化学习的交通信号灯配时调控方法。
与现有技术相比,本发明具备如下有益效果:
本发明采用双Q学习方法,通过引入经验回放、使用目标Q值网络来评估Q值,将选择最优动作的过程和评估最优动作的过程分开,可以更好、更稳定性的学习到最优策略。
附图说明
图1为本发明实施例1中基于深度强化学习的交通信号灯配时调控方法的流程图;
图2为图1方法中的信息流向图;
图3为本发明实施例2中仿真实验结果图一
图4为本发明实施例2中仿真实验结果图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,当组件被称为“安装于”另一个组件,它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“设置于”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中组件。当一个组件被认为是“固定于”另一个组件,它可以是直接固定在另一个组件上或者可能同时存在居中组件。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“或/及”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
请参阅图1,为本发明实施例1中基于深度强化学习的交通信号灯配时调控方法的简要流程图。
总的来说,参看图2,本发明使将双价值网络应用到交通信号灯配时调控,使用双Q学习来避免现有DQN的问题,保证并提高学习的稳定性。
如图2所示,基于深度强化学习的交通信号灯配时调控方法包括以下步骤:
步骤一,初始化两个相同结构的Q值网络,并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络/>;其中,/>、/>的参数相同。
对于Q值网络来说,其基于函数Q θ (s, a)进行构建,输出一个实数。其中,θ表示该Q值网络的当前参数;s表示状态;a表示动作。
步骤二,将目标道路交叉口作为目标环境,并周期性采集目标环境的状态。
需要说明的是,状态采集的间隔为Δt 1。
具体的,目标环境的状态包括5类参数。其中,参数一为每个车道上的排队长度;参数二为每个车道上的平均延误;参数三为每个车道上的平均等待时间;参数四为当前迭代轮次中通过目标道路交叉口的车辆总数;参数五为当前迭代轮次中通过目标道路交叉口的车辆的总耗时。
为了获取到上述5类参数,可以在目标环境中设置相应的检测模块,例如:交通信号检测单元、车辆检测单元等。
步骤三,基于双Q学习对、/>进行多轮迭代运算,并同步对目标环境中的交通信号灯进行相位控制,直至达到最大迭代轮数N。
由于每轮迭代的操作类似,接下来取其中的第n轮(n∈[1,N])迭代进行说明:
步骤3.1,获取s n ,并基于ε-greedy策略从所有可能动作中选择出第n轮迭代要执行的动作a n 。
其中,s n 表示执行a n-1后目标环境的状态,a n-1表示第n-1轮迭代要执行的动作;所有可能动作包括a 1、a 2;a 1=1,表示切换当前相位到下一相位;a 2=0,表示保持当前相位不变。
需要说明的是,引入ε-greedy策略后可以避免贪婪算法一直随机选取动作的缺点。具体的,在步骤3.1中,a n 的选择方法包括:
步骤3.1.1,使用计算出a 1、a 2所对应的Q值Q 1、Q 2;
其中,为第n-1轮迭代完成后的动作价值网络;/>,;
步骤3.1.2,随机生成一个小于1的随机数ε n 、并与预设概率值ε 0进行比较;
若ε n >ε 0,取Q 1、Q 2中较大值对应的动作作为a n ;否则,从a 1、a 2中随机选取一个动作作为a n 。
步骤3.2,在目标环境中执行a n 、并得到s n+1;其中,s n+1表示执行a n 后目标环境的状态。
参看上面,若步骤3.1最后a n 取a 1,那么步骤3.2中就要切换当前相位到下一相位;若步骤3.1最后a n 取a 1,那么步骤3.2中就要保持当前相位不变。
那么,在目标环境中执行a n 后,就出现一个新的状态s n+1、并继续被采集。需要注意的是,步骤3.1到步骤3.2的耗时为Δt 2,要保证Δt 2≥Δt 1,以保证s n+1可以被正确采集。
步骤3.3,依据s n 计算出a n 的奖励r n ,再组成第n组经验组(s n ,a n ,r n ,s n+1)、并存入经验池。
具体的,在步骤3.2中,
。
下面对r n 的组成逐一进行说明:
1,表示第n轮中目标环境内车道上排队长度的总和。
其中,I表示目标环境的总车道数;表示第n轮中第i个车道的排队长度。
需要说明的是,车辆处于排队状态,即是等待车辆——其实时车速趋近于0(一般小于0.1m/s即可视作趋近于0)。
2,表示第n轮中目标环境内车道上平均延误的总和。
其中,I表示目标环境的总车道数;表示第n轮中第i个车道的平均延误。
的计算公式为:/>;式中,/>表示第n轮中第i个车道的平均车速;/>表示第n轮中第i个车道的最大允许车速。需要注意的是,一般默认每个车道的最大允许车速相同。
3,表示第n轮中目标环境内车道上平均等待时间的总和。
其中,I表示目标环境的总车道数;表示第n轮中第i个车道的平均等待时间。
对于来说,其计算公式为:/>;式中,/>表示第n轮中第i个车道第j个车辆的等待时间;j∈[ 1,J ],J表示第n轮中第i个车道的车辆总数。
与类似的,若车辆实时车速趋近于0,即为等待车辆,要计入等待时间。也就是说,对于/>,其计算方法包括:
获取第n轮中第i个车道第j个车辆的实时车速v,将v趋近于0的持续时间计入。
4,N n 表示第n轮中通过目标道路交叉口的车辆总数。
5,T n 表示第n轮中通过目标道路交叉口的车辆的总耗时。
6,w 1、w 2、w 3、w 4、w 5均为权重系数。具体的,w 1<0(一般取-0.3),w 2<0(一般取-0.3),w 3<0(一般取-0.3),w 4>0(一般取0.9),w 5>0(一般取0.8)。通过权重系数的配比,将奖励与交通拥堵情况构建联系:奖励越大,交通拥堵情况越少。
基于上述公式,计算出r n ;那么就可以将s n 、a n 、r n 、s n+1组成第n组经验组(s n ,a n ,r n ,s n+1),并存入经验池。
需要说明的是,引入经验池后,可以随机采样一批先前的经验,而不仅仅是最新的信息来更新,这样就消除了经验路径中的相关性,并平滑了观测分布中的波动。
具体的,若n超过经验存储阈值D(一般取64),从经验池中随机选择m组经验组,并计算出目标Q值TQ n ;再基于TQ n 构建损失函数L,并基于L按照梯度下降算法更新的参数,得到第n轮迭代完成后的动作价值网络/>;
其中,TQ n 的计算方法包括:
S3.3.1,将选出的m组经验组作为m组参考组;
其中,第k组参考组为;k∈[1,m];
S3.3.2,使用计算出每个参考组的经验Q值,分别为/>、/>、…、/>;
其中,第k组参考组的经验Q值为;/>为第n-1轮迭代完成后的动作价值网络;
S3.3.3,计算TQ n ;
;
式中,表示折扣因子(一般取0.9),/>表示求取经验Q值最大时对应的动作。
其中,L的计算公式为:
。
需要说明的是,L可视作自变量为θ的函数,也可写作L(θ)。
L(θ)在第n轮迭代开始时的参数可以表示为θ n ;那么,在n超过经验存储阈值D的情况下,可以按照将θ n 更新成θ n+1;其中,α表示学习率,一般取0.001。
当然,若n等于参数替换阈值d*K,将的参数替换成/>的参数;d为整数。这样可以确保两个Q值网络之间的同步。
上述过程相较于现有DQN的方式,通过采用双网络解决了高估问题,从而使学习更加稳定可靠。
实施例2
本实施例2公开了一种基于深度强化学习的交通信号灯配时调控系统,其使用了实施例1的基于深度强化学习的交通信号灯配时调控方法。
基于深度强化学习的交通信号灯配时调控系统包括:Q网络模块、检测模块、双Q学习模块。
Q网络模块配置为初始化两个相同结构的Q值网络,并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络/>;其中,/>、/>的参数相同。
检测模块配置为将目标道路交叉口作为目标环境,并周期性采集目标环境的状态。
双Q学习模块配置为基于双Q学习对、/>进行多轮迭代运算,并同步对目标环境中的交通信号灯进行相位控制,直至达到最大迭代轮数N。
由于本基于深度强化学习的交通信号灯配时调控系统使用了实施例1中的基于深度强化学习的交通信号灯配时调控方法,因此也具有与实施例1相同的效果,此处不再重复。
实施例3
本实施例3对实施例1的基于深度强化学习的交通信号灯配时调控方法(简称为DDQL)进行了仿真实验,并引入了固定时间控制法(简称为FT)进行对比。
仿真实验的目标环境在模拟平台上搭建,构建了一个标准的十字路口(包括东西南北四个方向),连接着四条150米长的路段,每条路有3条进车道和3条出车道。
交通信号灯的相位变化简化成:南北方向为绿灯,则东西方向为红灯;南北方向为红灯,则东西方向为绿灯。
首先采用DDQL对目标环境中的交通灯进行控制,迭代了1000轮,并考察了奖励变化情况,结果参看图3。可知,随着迭代的不断进行,DDQL的奖励也在增加,并逐渐趋于稳定。
然后引入FT对目标环境中的交通灯进行控制,并与DDQL对比了目标环境中平均等待时间的变化情况,结果参看图4。可知,虽然初期迭代中,DDQL效果弱于FT;但随着迭代的不断进行,DDQL可以降低平均等待时间,效果逐渐超过FT,可以进一步改善交通拥堵情况。
实施例4
本实施例4公开了一种可读存储介质,可读存储介质中存储有计算机程序指令,计算机程序指令被一处理器读取并运行时,执行实施例1的基于深度强化学习的交通信号灯配时调控方法的步骤。
实施例1的方法在应用时,可以软件的形式进行应用,如设计成计算机可读存储介质可独立运行的程序,计算机可读存储介质可以是U盘、或设计成U盾,即设计成通过外在触发启动整个方法的程序。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于深度强化学习的交通信号灯配时调控方法,其特征在于,包括以下步骤:
步骤一,初始化两个相同结构的Q值网络,并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络/>;其中,/>、/>的参数相同;
步骤二,将目标道路交叉口作为目标环境,并周期性采集目标环境的状态;
步骤三,基于双Q学习对、/>进行多轮迭代运算,并同步对目标环境中的交通信号灯进行相位控制,直至达到最大迭代轮数N;
其中,n∈[1,N],第n轮迭代运算的方法包括:
步骤3.1,获取s n ,并基于ε-greedy策略从所有可能动作中选择出第n轮迭代要执行的动作a n ;
其中,s n 表示执行a n-1后目标环境的状态,a n-1表示第n-1轮迭代要执行的动作;所有可能动作包括a 1、a 2;a 1=1,表示切换当前相位到下一相位;a 2=0,表示保持当前相位不变;
步骤3.2,在目标环境中执行a n 、并得到s n+1;其中,s n+1表示执行a n 后目标环境的状态;
步骤3.3,依据s n 计算出a n 的奖励r n ,再组成第n组经验组(s n ,a n ,r n ,s n+1)、并存入经验池;
其中,若n超过经验存储阈值D,从经验池中随机选择m组经验组,并计算出目标Q值TQ n ;再基于TQ n 构建损失函数L,并基于L按照梯度下降算法更新的参数,得到第n轮迭代完成后的动作价值网络/>;
若n等于参数替换阈值d*K,将的参数替换成/>的参数;d为整数。
2.根据权利要求1所述的基于深度强化学习的交通信号灯配时调控方法,其特征在于,步骤二中,目标环境的状态包括5类参数;
其中,参数一为每个车道上的排队长度;参数二为每个车道上的平均延误;参数三为每个车道上的平均等待时间;参数四为当前迭代轮次中通过目标道路交叉口的车辆总数;参数五为当前迭代轮次中通过目标道路交叉口的车辆的总耗时。
3.根据权利要求2所述的基于深度强化学习的交通信号灯配时调控方法,其特征在于,步骤3.1中,a n 的选择方法包括:
步骤3.1.1,使用计算出a 1、a 2所对应的Q值Q 1、Q 2;
其中,为第n-1轮迭代完成后的动作价值网络;/>,;
步骤3.1.2,随机生成一个小于1的随机数ε n 、并与预设概率值ε 0进行比较;
若ε n >ε 0,取Q 1、Q 2中较大值对应的动作作为a n ;否则,从a 1、a 2中随机选取一个动作作为a n 。
4.根据权利要求2所述的基于深度强化学习的交通信号灯配时调控方法,其特征在于,步骤3.2中,;
式中,w 1、w 2、w 3、w 4、w 5均为权重系数;w 1<0,w 2<0,w 3<0,w 4>0,w 5>0;I表示目标环境的总车道数;表示第n轮中第i个车道的排队长度;/>表示第n轮中第i个车道的平均延误;表示第n轮中第i个车道的平均等待时间;N n 表示第n轮中通过目标道路交叉口的车辆总数;T n 表示第n轮中通过目标道路交叉口的车辆的总耗时。
5.根据权利要求4所述的基于深度强化学习的交通信号灯配时调控方法,其特征在于,;
式中,表示第n轮中第i个车道的平均车速;/>表示第n轮中第i个车道的最大允许车速。
6.根据权利要求4所述的基于深度强化学习的交通信号灯配时调控方法,其特征在于,;
式中,表示第n轮中第i个车道第j个车辆的等待时间;j∈[ 1,J ],J表示第n轮中第i个车道的车辆总数;
其中,的计算方法包括:
获取第n轮中第i个车道第j个车辆的实时车速v,将v趋近于0的持续时间计入。
7.根据权利要求1所述的基于深度强化学习的交通信号灯配时调控方法,其特征在于,步骤3.3中,
TQ n 的计算方法包括:
S3.3.1,将选出的m组经验组作为m组参考组;
其中,第k组参考组为;k∈[1,m];
S3.3.2,使用计算出每个参考组的经验Q值,分别为/>、/>、…、/>;
其中,第k组参考组的经验Q值为;/>为第n-1轮迭代完成后的动作价值网络;
S3.3.3,计算TQ n ;
;
式中,表示折扣因子,/>表示求取经验Q值最大时对应的动作。
8.根据权利要求7所述的基于深度强化学习的交通信号灯配时调控方法,其特征在于,步骤3.3中,
L的计算公式为:。
9.一种基于深度强化学习的交通信号灯配时调控系统,其特征在于,其使用了如权利要求1-8中任一所述的基于深度强化学习的交通信号灯配时调控方法;
所述基于深度强化学习的交通信号灯配时调控系统包括:
Q网络模块,其用于初始化两个相同结构的Q值网络,并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络/>;其中,/>、/>的参数相同;
检测模块,其用于将目标道路交叉口作为目标环境,并周期性采集目标环境的状态;
以及
双Q学习模块,其用于基于双Q学习对、/>进行多轮迭代运算,并同步对目标环境中的交通信号灯进行相位控制,直至达到最大迭代轮数N。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,计算机程序指令被一处理器读取并运行时,执行如权利要求1-8中任一所述的基于深度强化学习的交通信号灯配时调控方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410217400.1A CN117809469A (zh) | 2024-02-28 | 2024-02-28 | 基于深度强化学习的交通信号灯配时调控方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410217400.1A CN117809469A (zh) | 2024-02-28 | 2024-02-28 | 基于深度强化学习的交通信号灯配时调控方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117809469A true CN117809469A (zh) | 2024-04-02 |
Family
ID=90423605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410217400.1A Pending CN117809469A (zh) | 2024-02-28 | 2024-02-28 | 基于深度强化学习的交通信号灯配时调控方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117809469A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700664A (zh) * | 2020-12-19 | 2021-04-23 | 北京工业大学 | 一种基于深度强化学习的交通信号配时优化方法 |
CN113570870A (zh) * | 2021-09-27 | 2021-10-29 | 华砺智行(武汉)科技有限公司 | 分布式路口平均延误估计方法、装置、设备及存储介质 |
CN114089627A (zh) * | 2021-10-08 | 2022-02-25 | 北京师范大学 | 基于双深度q网络学习的非完全信息博弈策略优化方法 |
CN114202916A (zh) * | 2021-12-01 | 2022-03-18 | 辽宁警察学院 | 单点交叉口交通信号控制方法 |
CN115019523A (zh) * | 2022-05-31 | 2022-09-06 | 南京邮电大学 | 基于最小化压力差的深度强化学习交通信号协调优化控制方法 |
CN116050505A (zh) * | 2023-02-22 | 2023-05-02 | 西南交通大学 | 一种基于伙伴网络的智能体深度强化学习方法 |
CN116543574A (zh) * | 2023-06-01 | 2023-08-04 | 长安大学 | 一种面向车道容量差异的多信号灯控制方法及系统 |
WO2024016386A1 (zh) * | 2022-07-19 | 2024-01-25 | 江苏大学 | 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法 |
-
2024
- 2024-02-28 CN CN202410217400.1A patent/CN117809469A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700664A (zh) * | 2020-12-19 | 2021-04-23 | 北京工业大学 | 一种基于深度强化学习的交通信号配时优化方法 |
CN113570870A (zh) * | 2021-09-27 | 2021-10-29 | 华砺智行(武汉)科技有限公司 | 分布式路口平均延误估计方法、装置、设备及存储介质 |
CN114089627A (zh) * | 2021-10-08 | 2022-02-25 | 北京师范大学 | 基于双深度q网络学习的非完全信息博弈策略优化方法 |
CN114202916A (zh) * | 2021-12-01 | 2022-03-18 | 辽宁警察学院 | 单点交叉口交通信号控制方法 |
CN115019523A (zh) * | 2022-05-31 | 2022-09-06 | 南京邮电大学 | 基于最小化压力差的深度强化学习交通信号协调优化控制方法 |
WO2024016386A1 (zh) * | 2022-07-19 | 2024-01-25 | 江苏大学 | 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法 |
CN116050505A (zh) * | 2023-02-22 | 2023-05-02 | 西南交通大学 | 一种基于伙伴网络的智能体深度强化学习方法 |
CN116543574A (zh) * | 2023-06-01 | 2023-08-04 | 长安大学 | 一种面向车道容量差异的多信号灯控制方法及系统 |
Non-Patent Citations (2)
Title |
---|
余鹏程: "基于多智能体深度强化学习的区域交通", 硕士电子期刊, no. 02, 15 February 2023 (2023-02-15), pages 26 - 30 * |
王坤: "基于深度强化学习的智能交通信号控制方法研究", 硕士电子期刊, no. 01, 15 January 2024 (2024-01-15), pages 26 - 27 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN112669629B (zh) | 一种基于深度强化学习的实时交通信号控制方法及装置 | |
CN112216124B (zh) | 一种基于深度强化学习的交通信号控制方法 | |
CN112950251B (zh) | 一种基于信誉的车辆群智感知节点反向组合拍卖激励优化方法 | |
CN111243271A (zh) | 一种基于深度循环q学习的单点交叉口信号控制方法 | |
CN113963553A (zh) | 一种道路交叉口信号灯绿信比控制方法、装置和设备 | |
CN112580801B (zh) | 一种强化学习训练方法及基于强化学习的决策方法 | |
CN112907970B (zh) | 一种基于车辆排队长度变化率的可变车道转向控制方法 | |
CN110562301B (zh) | 基于q学习的地铁列车节能驾驶曲线计算方法 | |
CN114333361B (zh) | 一种信号灯配时方法及装置 | |
CN107293133A (zh) | 一种交通信号灯控制方法 | |
CN115691167A (zh) | 一种基于交叉口全息数据的单点交通信号控制方法 | |
CN110543978A (zh) | 基于小波神经网络的交通流数据预测方法和装置 | |
CN115578870A (zh) | 一种基于近端策略优化的交通信号控制方法 | |
Raeis et al. | A deep reinforcement learning approach for fair traffic signal control | |
Hussain et al. | Optimizing traffic lights with multi-agent deep reinforcement learning and v2x communication | |
CN114760585A (zh) | 车辆群智感知激励方法、系统及设备 | |
CN117809469A (zh) | 基于深度强化学习的交通信号灯配时调控方法及系统 | |
CN114330126A (zh) | 交通信号控制模型的训练方法及交通信号控制方法 | |
CN115472023B (zh) | 一种基于深度强化学习的智能交通灯控制方法及装置 | |
CN117116064A (zh) | 一种基于深度强化学习的乘客延误最小化信号控制方法 | |
CN113487870B (zh) | 一种基于cw攻击对智能单交叉口的对抗扰动生成方法 | |
WO2021258847A1 (zh) | 一种驾驶决策方法、装置及芯片 | |
WO2022258943A1 (en) | Traffic control system | |
CN115691110B (zh) | 一种面向动态车流的基于强化学习的交叉口信号周期稳定配时方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |