CN112150808B - 一种基于深度学习的城市交通系统调度策略生成方法 - Google Patents
一种基于深度学习的城市交通系统调度策略生成方法 Download PDFInfo
- Publication number
- CN112150808B CN112150808B CN202011024487.9A CN202011024487A CN112150808B CN 112150808 B CN112150808 B CN 112150808B CN 202011024487 A CN202011024487 A CN 202011024487A CN 112150808 B CN112150808 B CN 112150808B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- neural network
- strategy
- space
- urban traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/09—Arrangements for giving variable traffic instructions
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种基于深度学习的城市交通系统调度策略生成方法,包括如下步骤:搭建城市交通系统仿真模型;基于城市交通系统仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数;根据深度学习PPO算法,搭建策略神经网络和估值神经网络;基于所述城市交通系统仿真模型、各个状态空间、各个动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略。
Description
技术领域
本发明涉及一种智能化管理系统,特别涉及一种城市交通智能化调度管理系统及方法。
背景技术
目前,我国很多城市都在加强城市智能交通系统的建设,但事实上,目前的建设水平与真正的城市智能交通系统还相差甚远。有人认为在交通路口安装摄像头是智能交通系统,其实这些只是一个小小的基础。此外,由于城市智能交通系统中的一些实际问题(如交通控制对交通状况的影响、调度模型影响因素的确定等)还没有得到解决,目前还无法实现实时智能调度。诚然,信息技术和计算机网络技术的广泛应用,推动了城市交通向智能化方向发展。然而,城市交通智能调度管理系统存在着车辆间信息不清晰、缺乏动态信息服务等问题,严重影响了城市交通系统的调度水平。目前,城市交通系统智能调度技术的研究还比较滞后。随着相关技术的发展,城市交通系统智能调度技术具有重要的理论价值和现实意义。
目前国内外对于基于深度学习的城市交通系统调度策略主要集中于对交通灯的调度,而在当前公布的众多论文、专利中,均很少涉及统一调度交通灯与车辆的功能。在现有的基于深度学习的智能调度方案中,无论是采用值网络[1]还是采用策略梯度网络[2]来生成智能调度策略,都只是单纯的调整交通灯的调度方案,而忽视了调度车辆对于改善整个系统中的交通状况的积极作用。针对这个问题,本专利采用基于PPO算法的统一调度交通灯与车辆的方案,以提升城市交通系统智能调度的整体效果。
由于传统的PPO算法(Proximal Policy Optimization算法)[3]采用的超参数多是人为设定的常数,传统的PPO算法不能适应网络训练过程中的新变化,从而影响生成的调度策略的性能。针对这个问题,本专利提出了一种自适应调节超参数的方案,进一步提升智能调度的效果。
参考文献:
[1]Van der Pol,Elise,and Frans A.Oliehoek."Coordinated deepreinforcement learners for traffic light control."Proceedings of Learning,Inference and Control of Multi-Agent Systems(at NIPS 2016)(2016).
[2]Mousavi,Seyed Sajad,Michael Schukat,and Enda Howley."Traffic lightcontrol using deep policy-gradient and value-function-based reinforcementlearning."IET Intelligent Transport Systems 11.7(2017):417-423.
[3]Schulman,John,et al."Proximal policy optimization algorithms."arXiv preprint arXiv:1707.06347(2017).
发明内容
本发明的目的是提供一种综合统筹,并且能够自适应的调节超参数的基于深度学习的交通系统调度策略生成方法,技术方案如下:
一种基于深度学习的城市交通系统调度策略生成方法,包括如下步骤:
(1)搭建城市交通系统仿真模型;
(2)基于城市交通系统仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数,具体为:
(2.1)为系统中每一个交通灯建立状态空间:交通灯状态空间有GRGR和RGRG两种状态,GRGR表示车辆可以在该交通灯所在路口南北向通行,RGRG表示车辆可以在该交通灯所在路口东西向通行;
(2.2)为系统中每一个车辆建立状态空间:车辆状态空间包括三个子空间,第一个子空间代表车辆速度,是个连续空间,取值范围为0和道路限速组成的闭区间。第二个子空间代表车辆所在位置与下一个交通灯之间的距离,是个连续空间,取值范围为0和路段长度组成的闭区间。第三个子空间代表车辆所在路段,是个离散空间,取值范围为1和路段个数组成的正整数区间;
(2.3)为系统中每一个交通灯建立动作空间,交通灯动作空间有两种动作:转化为GRGR和转化为RGRG。
(2.4)为系统中每一个车辆建立动作空间,车辆动作空间是个连续空间,表示该车辆在该时刻对本身施加的加速度,取值范围与静态路网信息单元中的车辆加速度范围一致;
(2.5)为系统中每一个交通灯和每一个车辆建立回报函数,将系统中每个车辆的平均延迟的相反数作为回报;
(3)根据深度学习PPO算法,搭建策略神经网络和估值神经网络;
(4)基于所述自动驾驶仿真模型、状态空间、动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型,具体为:
(4.1)初始化策略神经网络参数和估值神经网络参数;
(4.2)对各个状态空间进行初始化,得到当前状态st;
(4.3)城市交通系统仿真模型根据策略神经网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;
(4.4)根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
(4.5)策略神经网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;
(4.6)反复执行N次(4.2)到(4.5),从而完成神经网络模型的训练,保存训练好的神经网络模型。
(5)调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略。
在所述步骤(1)中,搭建城市交通系统仿真模型,具体为:
(1.1)建立静态路网信息单元:将路段长度、交通灯位置、道路限速数据以及车辆加速度范围存入建立静态路网信息单元中;
(1.2)建立动态路网信息单元:将初始时刻系统内车辆的速度信息、位置信息,交通灯的信号信息存入动态路网信息单元,在系统运行过程中,实时更新动态路网信息单元内的信息。
在所述步骤(3)中,根据深度学习PPO算法,搭建策略神经网络和估值神经网络,具体为,策略神经网络和估值神经网络均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.97,折扣因子设为0.999。
本发明的有益效果如下:
(1)本发明基于深度学习PPO算法,设计面向城市交通系统智能调度,使用神经网络拟合环境和车辆行为、交通灯行为间的映射关系,并对其进行训练,使得城市交通系统能够使用训练好的神经网络自主生成智能调度策略。
(2)本发明充分调动了车辆在智能调度中的作用,将交通系统内的交通灯和车辆进行统一调度,提升了智能调度的效果。
附图说明
图1为本方法方法流程图
图2为强化学习原理图;
图3为决策网络框架图;
图4为估值网络框架图;
图5为策略网络损失函数;
图6为估值网络损失函数;
图7为城市交通系统车辆平均延迟曲线图;
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本发明做进一步阐述。
如图1所示,本发明首先建立城市交通系统仿真模型,并建立相应的马尔科夫决策过程,包括状态空间、动作空间、回报函数,采用PPO算法,在图2所示的强化学习的原理指导下,设计决策网络和对决策行为评价的估值网络。决策网络通过输入当前车辆和交通灯的状态,以车辆平均延迟作为回报,指导车辆和交通灯形成智能决策;估值网络以当前环境状态、决策网络的输出(即采取的行为)和预估下一时刻的状态为输入,输出当前采取的行为的价值,一次来衡量行为的好坏程度,从而对决策网络的参数进行更新,估值网络通过输出的价值来构造损失函数,从而对网络参数进行更新。得到训练好的模型,输出有效的回收控制策略用以实现对交通系统的智能调度。按以下步骤具体实现:
(1)搭建城市交通系统仿真模型;
分别建立静态路网信息单元和动态路网信息单元。将路段长度、交通灯位置、道路限速数据以及车辆加速度范围存入建立静态路网信息单元中。将初始时刻系统内车辆的速度信息、位置信息,交通灯的信号信息存入动态路网信息单元。并在系统运行过程中,实时更新动态路网信息单元内的信息。
(2)基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数;
a)为系统中每一个交通灯建立状态空间,空间内有两种状态:GRGR和RGRG。GRGR表示车辆可以在该交通灯所在路口南北向通行,RGRG表示车辆可以在该交通灯所在路口东西向通行。
b)为系统中每一个车辆建立状态空间。状态空间包括三个子空间。第一个子空间代表车辆速度,是个连续空间,取值范围为0和道路限速组成的闭区间。第二个子空间代表车辆所在位置与下一个交通灯之间的距离,是个连续空间,取值范围为0和路段长度组成的闭区间。第三个子空间代表车辆所在路段,是个离散空间,取值范围为1和路段个数组成的正整数区间。
c)为系统中每一个交通灯建立动作空间,空间内有两种动作:转化为GRGR和转化为RGRG。
d)为系统中每一个车辆建立动作空间,该空间是个连续空间,表示该车辆在该时刻对本身施加的加速度。取值范围与静态路网信息单元中的车辆加速度范围一致。
e)为系统中每一个交通灯和每一个车辆建立回报函数。将系统中每个车辆的平均延迟的相反数作为回报。
回报函数的具体计算方法如下:
reward=-avg_del
其中,reward是指回报函数的具体数值,avg_del是指每个车辆的平均延迟,n是指系统中的车辆总数,deli是指第i个车辆的延迟,vtop是指道路限速,vi是指第i个车辆的速度,timestep是指车辆在系统中行驶的时间长度。
(3)根据深度学习算法,搭建神经网络;
搭建神经网络,具体为:
基于PPO算法,搭建策略神经网络和估值神经网络,均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.97,折扣因子设为0.999。
损失函数基于所采用的深度学习算法,估值网络主要根据该时刻回报信息更新对每个状态-动作对的评价(Q),而策略网络主要根据评价网络更新动作(策略),从而使得每次所选择的策略始终朝着评价大的方向前进。
决策网络输入的是环境当前的状态,包括车辆的位置、速度以及交通灯的信号等参数,输出车辆和交通灯应采取的策略;估值网络输入当前和下一时刻状态,分别输出相应的Q值,并根据环境反馈的回报设计损失函数用于对决策网络和估值网络进行更新,具体网络结构如图3和图4所示:
(4)基于所述自动驾驶仿真模型、状态空间、动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
具体为:
(4.1)随机初始化策略神经网络参数和估值神经网络参数;
(4.2)对所述状态空间进行初始化,得到当前状态st;
(4.3)智能交通系统仿真模型根据策略网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的车辆以及交通灯状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存;
(4.4)依据当前步骤的车辆平均速度、训练进度等信息,自适应性的更新超参数,具体公式如下:
cpb=base×(1+0.002×iter)-0.75
其中vaver是车辆平均速度,base是常数参数,iter是当前训练轮数,ε是常数参数。
(4.5)基于(4.3)得到的优势函数和(4.4)得到的超参数,根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数,具体公式如下;
LMod_PPO(θ)=Et[min(rt(θ)At,clip(rt(θ),1-βMod,1+βMod)At)]
(4.6)策略网络输出新策略;
(4.7)反复执行N次(4.2)到(4.6);
(4.8)保存训练好的神经网络模型。
(5)调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略;
某次仿真的策略网络损失函数收敛结果如图5所示,估值网络损失函数收敛结果如图6所示。由图5、图6可知,损失函数得以收敛。回报函数如图7所示,车辆的平均延迟持续减小。通过仿真得到的结果可知,神经网络损失函数得以收敛,输出了有效可行的智能调度策略。
(1)本发明基于深度学习PPO算法,设计面向城市交通系统智能调度,使用神经网络拟合环境和车辆行为、交通灯行为间的映射关系,并对其进行训练,使得城市交通系统能够使用训练好的神经网络自主生成智能调度策略。
(2)本发明充分调动了车辆在智能调度中的作用,将交通系统内的交通灯和车辆进行统一调度,提升了智能调度的效果。
Claims (3)
1.一种基于深度学习的城市交通系统调度策略生成方法,包括如下步骤:
(1)搭建城市交通系统仿真模型;
(2)基于城市交通系统仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数;具体为:
(2.1)为系统中每一个交通灯建立状态空间:交通灯状态空间有GRGR和RGRG两种状态,GRGR表示车辆可以在该交通灯所在路口南北向通行,RGRG表示车辆可以在该交通灯所在路口东西向通行;
(2.2)为系统中每一个车辆建立状态空间:车辆状态空间包括三个子空间,第一个子空间代表车辆速度,是个连续空间,取值范围为0和道路限速组成的闭区间;第二个子空间代表车辆所在位置与下一个交通灯之间的距离,是个连续空间,取值范围为0和路段长度组成的闭区间;第三个子空间代表车辆所在路段,是个离散空间,取值范围为1和路段个数组成的正整数区间;
(2.3)为系统中每一个交通灯建立动作空间,交通灯动作空间有两种动作:转化为GRGR和转化为RGRG;
(2.4)为系统中每一个车辆建立动作空间,车辆动作空间是个连续空间,表示该车辆在该时刻对本身施加的加速度,取值范围与静态路网信息单元中的车辆加速度范围一致;
(2.5)为系统中每一个交通灯和每一个车辆建立回报函数,将系统中每个车辆的平均延迟的相反数作为回报,回报函数的具体计算方法如下:
reward=-avg_del
其中,reward是指回报函数的具体数值,avg_del是指每个车辆的平均延迟,n是指系统中的车辆总数,deli是指第i个车辆的延迟,vtop是指道路限速,vi是指第i个车辆的速度,timestep是指车辆在系统中行驶的时间长度;
(3)根据深度学习PPO算法,搭建策略神经网络和估值神经网络;
(4)基于所述城市交通系统仿真模型、各个状态空间、各个动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型,具体为:
(4.1)初始化策略神经网络参数和估值神经网络参数;
(4.2)对各个状态空间进行初始化,得到当前状态st;
(4.3)城市交通系统仿真模型根据策略神经网络输出的策略基于动作空间选择行为at,执行状态转移方程,得到下一步的状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;
(4.4)依据当前步骤的车辆平均速度、训练进度信息,自适应性地更新超参数,具体公式如下:
cpb=base×(1+0.002×iter)-0.75
其中vaver是车辆平均速度,base是常数参数,iter是当前训练轮数,ε是常数参数;
(4.5)基于(4.3)得到的优势函数和(4.4)得到的超参数,根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数,具体公式如下;
LMod_PPO(θ)=Et[min(rt(θ)At,clip(rt(θ),1-βMod,1+βMod)At)]
(4.6)策略神经网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;
(4.7)反复执行N次(4.2)到(4.6),从而完成神经网络模型的训练,保存训练好的神经网络模型;
(5)调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略。
2.根据权利要求1所述的基于深度学习的城市交通系统调度策略生成方法,其特征在于:在所述步骤1中,搭建城市交通系统仿真模型,具体为:
(1.1)建立静态路网信息单元:将路段长度、交通灯位置、道路限速数据以及车辆加速度范围存入建立静态路网信息单元中;
(1.2)建立动态路网信息单元:将初始时刻系统内车辆的速度信息、位置信息,交通灯的信号信息存入动态路网信息单元,在系统运行过程中,实时更新动态路网信息单元内的信息。
3.根据权利要求1所述的基于深度学习的城市交通系统调度策略生成方法,其特征在于:在所述步骤3中,根据深度学习PPO算法,搭建策略神经网络和估值神经网络,具体为,策略神经网络和估值神经网络均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.97,折扣因子设为0.999。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011024487.9A CN112150808B (zh) | 2020-09-25 | 2020-09-25 | 一种基于深度学习的城市交通系统调度策略生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011024487.9A CN112150808B (zh) | 2020-09-25 | 2020-09-25 | 一种基于深度学习的城市交通系统调度策略生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112150808A CN112150808A (zh) | 2020-12-29 |
CN112150808B true CN112150808B (zh) | 2022-06-17 |
Family
ID=73897231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011024487.9A Active CN112150808B (zh) | 2020-09-25 | 2020-09-25 | 一种基于深度学习的城市交通系统调度策略生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112150808B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113665593B (zh) * | 2021-10-22 | 2022-03-01 | 智己汽车科技有限公司 | 一种车辆智能驾驶纵向控制方法、系统及存储介质 |
CN114299732B (zh) * | 2021-12-29 | 2023-04-14 | 中山大学 | 一种同时考虑行程时间和公平性的交通灯控制方法及系统 |
CN114333357B (zh) * | 2021-12-31 | 2023-08-15 | 上海商汤智能科技有限公司 | 一种交通信号控制方法、装置、电子设备及存储介质 |
CN114419884B (zh) * | 2022-01-12 | 2023-04-07 | 清华大学 | 基于强化学习和相位竞争的自适应信号控制方法及系统 |
CN114104005B (zh) * | 2022-01-26 | 2022-04-19 | 苏州浪潮智能科技有限公司 | 自动驾驶设备的决策方法、装置、设备及可读存储介质 |
CN114550470B (zh) * | 2022-03-03 | 2023-08-22 | 沈阳化工大学 | 一种无线网络互联智慧型交通信号灯 |
CN115752076B (zh) * | 2022-10-27 | 2023-12-01 | 成都飞创科技有限公司 | 一种冷却循环水系统控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930625A (zh) * | 2016-06-13 | 2016-09-07 | 天津工业大学 | Q学习结合神经网络的智能驾驶行为决策系统的设计方法 |
CN106910351A (zh) * | 2017-04-19 | 2017-06-30 | 大连理工大学 | 一种基于深度强化学习的交通信号自适应控制方法 |
CN109559530A (zh) * | 2019-01-07 | 2019-04-02 | 大连理工大学 | 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法 |
WO2019127232A1 (en) * | 2017-12-28 | 2019-07-04 | Siemens Aktiengesellschaft | System and method for determining vehicle speed |
CN110060475A (zh) * | 2019-04-17 | 2019-07-26 | 清华大学 | 一种基于深度强化学习的多交叉口信号灯协同控制方法 |
CN111696370A (zh) * | 2020-06-16 | 2020-09-22 | 西安电子科技大学 | 基于启发式深度q网络的交通灯控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705557B (zh) * | 2017-09-04 | 2020-02-21 | 清华大学 | 基于深度增强网络的路网信号控制方法及装置 |
-
2020
- 2020-09-25 CN CN202011024487.9A patent/CN112150808B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930625A (zh) * | 2016-06-13 | 2016-09-07 | 天津工业大学 | Q学习结合神经网络的智能驾驶行为决策系统的设计方法 |
CN106910351A (zh) * | 2017-04-19 | 2017-06-30 | 大连理工大学 | 一种基于深度强化学习的交通信号自适应控制方法 |
WO2019127232A1 (en) * | 2017-12-28 | 2019-07-04 | Siemens Aktiengesellschaft | System and method for determining vehicle speed |
CN109559530A (zh) * | 2019-01-07 | 2019-04-02 | 大连理工大学 | 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法 |
CN110060475A (zh) * | 2019-04-17 | 2019-07-26 | 清华大学 | 一种基于深度强化学习的多交叉口信号灯协同控制方法 |
CN111696370A (zh) * | 2020-06-16 | 2020-09-22 | 西安电子科技大学 | 基于启发式深度q网络的交通灯控制方法 |
Non-Patent Citations (2)
Title |
---|
交通控制诱导一体化的智能模型及算法研究;王祥生;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20090415;全文 * |
交通系统中的智能决策研究;褚雪松;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20060815;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112150808A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112150808B (zh) | 一种基于深度学习的城市交通系统调度策略生成方法 | |
US11205124B1 (en) | Method and system for controlling heavy-haul train based on reinforcement learning | |
Chen et al. | An intelligent path planning scheme of autonomous vehicles platoon using deep reinforcement learning on network edge | |
CN110264750B (zh) | 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法 | |
CN111267831A (zh) | 一种混合动力车辆智能变时域模型预测能量管理方法 | |
Aslani et al. | Developing adaptive traffic signal control by actor–critic and direct exploration methods | |
CN103324085A (zh) | 基于监督式强化学习的最优控制方法 | |
Wang et al. | Design of intelligent connected cruise control with vehicle-to-vehicle communication delays | |
CN115359672B (zh) | 一种数据驱动与强化学习结合的交通区域边界控制方法 | |
CN111487863B (zh) | 一种基于深度q神经网络的主动悬架强化学习控制方法 | |
Boyali et al. | Real-time controller design for a parallel hybrid electric vehicle using neuro-dynamic programming method | |
Dai et al. | Neural network based online traffic signal controller design with reinforcement training | |
Chen et al. | NN model-based evolved control by DGM model for practical nonlinear systems | |
CN117636661B (zh) | 一种无信号交叉口完全自主交通流通行控制方法 | |
CN115331460B (zh) | 一种基于深度强化学习的大规模交通信号控制方法及装置 | |
CN111081022A (zh) | 一种基于粒子群优化神经网络的交通流预测方法 | |
CN113110052B (zh) | 一种基于神经网络和强化学习的混合能量管理方法 | |
Wang et al. | Lookup table-based consensus algorithm for real-time longitudinal motion control of connected and automated vehicles | |
CN113780576A (zh) | 基于奖励自适应分配的合作多智能体强化学习方法 | |
CN114074680B (zh) | 基于深度强化学习的车辆换道行为决策方法及系统 | |
CN116382297A (zh) | 基于深度强化学习策略的带约束的混合车辆编队控制方法 | |
Koch et al. | Adaptive Traffic Light Control With Deep Reinforcement Learning: An Evaluation of Traffic Flow and Energy Consumption | |
CN109492797A (zh) | 运用多种群协作差分进化算法优化周期性交通调度时刻表的方法 | |
CN114154729A (zh) | 一种混合动力汽车复合储能系统能量管理系统及方法 | |
CN116071939B (zh) | 一种交通信号控制模型的建立方法及控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |