CN112150808A - 一种基于深度学习的城市交通系统调度策略生成方法 - Google Patents

一种基于深度学习的城市交通系统调度策略生成方法 Download PDF

Info

Publication number
CN112150808A
CN112150808A CN202011024487.9A CN202011024487A CN112150808A CN 112150808 A CN112150808 A CN 112150808A CN 202011024487 A CN202011024487 A CN 202011024487A CN 112150808 A CN112150808 A CN 112150808A
Authority
CN
China
Prior art keywords
neural network
vehicle
strategy
space
urban traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011024487.9A
Other languages
English (en)
Other versions
CN112150808B (zh
Inventor
杨嘉琛
张季鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011024487.9A priority Critical patent/CN112150808B/zh
Publication of CN112150808A publication Critical patent/CN112150808A/zh
Application granted granted Critical
Publication of CN112150808B publication Critical patent/CN112150808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions

Abstract

本发明涉及一种基于深度学习的城市交通系统调度策略生成方法,包括如下步骤:搭建城市交通系统仿真模型;基于城市交通系统仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数;根据深度学习PPO算法,搭建策略神经网络和估值神经网络;基于所述城市交通系统仿真模型、各个状态空间、各个动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略。

Description

一种基于深度学习的城市交通系统调度策略生成方法
技术领域
本发明涉及一种智能化管理系统,特别涉及一种城市交通智能化调度管理系统及方法。
背景技术
目前,我国很多城市都在加强城市智能交通系统的建设,但事实上,目前的建设水平与真正的城市智能交通系统还相差甚远。有人认为在交通路口安装摄像头是智能交通系统,其实这些只是一个小小的基础。此外,由于城市智能交通系统中的一些实际问题(如交通控制对交通状况的影响、调度模型影响因素的确定等)还没有得到解决,目前还无法实现实时智能调度。诚然,信息技术和计算机网络技术的广泛应用,推动了城市交通向智能化方向发展。然而,城市交通智能调度管理系统存在着车辆间信息不清晰、缺乏动态信息服务等问题,严重影响了城市交通系统的调度水平。目前,城市交通系统智能调度技术的研究还比较滞后。随着相关技术的发展,城市交通系统智能调度技术具有重要的理论价值和现实意义。
目前国内外对于基于深度学习的城市交通系统调度策略主要集中于对交通灯的调度,而在当前公布的众多论文、专利中,均很少涉及统一调度交通灯与车辆的功能。在现有的基于深度学习的智能调度方案中,无论是采用值网络[1]还是采用策略梯度网络[2]来生成智能调度策略,都只是单纯的调整交通灯的调度方案,而忽视了调度车辆对于改善整个系统中的交通状况的积极作用。针对这个问题,本专利采用基于PPO算法的统一调度交通灯与车辆的方案,以提升城市交通系统智能调度的整体效果。
由于传统的PPO算法(Proximal Policy Optimization算法)[3]采用的超参数多是人为设定的常数,传统的PPO算法不能适应网络训练过程中的新变化,从而影响生成的调度策略的性能。针对这个问题,本专利提出了一种自适应调节超参数的方案,进一步提升智能调度的效果。
参考文献:
[1]Van der Pol,Elise,and Frans A.Oliehoek."Coordinated deepreinforcement learners for traffic light control."Proceedings of Learning,Inference and Control of Multi-Agent Systems(at NIPS 2016)(2016).
[2]Mousavi,Seyed Sajad,Michael Schukat,and Enda Howley."Traffic lightcontrol using deep policy-gradient and value-function-based reinforcementlearning."IET Intelligent Transport Systems 11.7(2017):417-423.
[3]Schulman,John,et al."Proximal policy optimization algorithms."arXiv preprint arXiv:1707.06347(2017).
发明内容
本发明的目的是提供一种综合统筹,并且能够自适应的调节超参数的基于深度学习的交通系统调度策略生成方法,技术方案如下:
一种基于深度学习的城市交通系统调度策略生成方法,包括如下步骤:
(1)搭建城市交通系统仿真模型;
(2)基于城市交通系统仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数,具体为:
(2.1)为系统中每一个交通灯建立状态空间:交通灯状态空间有GRGR和RGRG两种状态,GRGR表示车辆可以在该交通灯所在路口南北向通行,RGRG表示车辆可以在该交通灯所在路口东西向通行;
(2.2)为系统中每一个车辆建立状态空间:车辆状态空间包括三个子空间,第一个子空间代表车辆速度,是个连续空间,取值范围为0和道路限速组成的闭区间。第二个子空间代表车辆所在位置与下一个交通灯之间的距离,是个连续空间,取值范围为0和路段长度组成的闭区间。第三个子空间代表车辆所在路段,是个离散空间,取值范围为1和路段个数组成的正整数区间;
(2.3)为系统中每一个交通灯建立动作空间,交通灯动作空间有两种动作:转化为GRGR和转化为RGRG。
(2.4)为系统中每一个车辆建立动作空间,车辆动作空间是个连续空间,表示该车辆在该时刻对本身施加的加速度,取值范围与静态路网信息单元中的车辆加速度范围一致;
(2.5)为系统中每一个交通灯和每一个车辆建立回报函数,将系统中每个车辆的平均延迟的相反数作为回报;
(3)根据深度学习PPO算法,搭建策略神经网络和估值神经网络;
(4)基于所述自动驾驶仿真模型、状态空间、动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型,具体为:
(4.1)初始化策略神经网络参数和估值神经网络参数;
(4.2)对各个状态空间进行初始化,得到当前状态st;
(4.3)城市交通系统仿真模型根据策略神经网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;
(4.4)根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
(4.5)策略神经网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;
(4.6)反复执行N次(4.2)到(4.5),从而完成神经网络模型的训练,保存训练好的神经网络模型。
(5)调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略。
在所述步骤(1)中,搭建城市交通系统仿真模型,具体为:
(1.1)建立静态路网信息单元:将路段长度、交通灯位置、道路限速数据以及车辆加速度范围存入建立静态路网信息单元中;
(1.2)建立动态路网信息单元:将初始时刻系统内车辆的速度信息、位置信息,交通灯的信号信息存入动态路网信息单元,在系统运行过程中,实时更新动态路网信息单元内的信息。
在所述步骤(3)中,根据深度学习PPO算法,搭建策略神经网络和估值神经网络,具体为,策略神经网络和估值神经网络均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.97,折扣因子设为0.999。
本发明的有益效果如下:
(1)本发明基于深度学习PPO算法,设计面向城市交通系统智能调度,使用神经网络拟合环境和车辆行为、交通灯行为间的映射关系,并对其进行训练,使得城市交通系统能够使用训练好的神经网络自主生成智能调度策略。
(2)本发明充分调动了车辆在智能调度中的作用,将交通系统内的交通灯和车辆进行统一调度,提升了智能调度的效果。
附图说明
图1为本方法方法流程图
图2为强化学习原理图;
图3为决策网络框架图;
图4为估值网络框架图;
图5为策略网络损失函数;
图6为估值网络损失函数;
图7为城市交通系统车辆平均延迟曲线图;
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本发明做进一步阐述。
如图1所示,本发明首先建立城市交通系统仿真模型,并建立相应的马尔科夫决策过程,包括状态空间、动作空间、回报函数,采用PPO算法,在图2所示的强化学习的原理指导下,设计决策网络和对决策行为评价的估值网络。决策网络通过输入当前车辆和交通灯的状态,以车辆平均延迟作为回报,指导车辆和交通灯形成智能决策;估值网络以当前环境状态、决策网络的输出(即采取的行为)和预估下一时刻的状态为输入,输出当前采取的行为的价值,一次来衡量行为的好坏程度,从而对决策网络的参数进行更新,估值网络通过输出的价值来构造损失函数,从而对网络参数进行更新。得到训练好的模型,输出有效的回收控制策略用以实现对交通系统的智能调度。按以下步骤具体实现:
(1)搭建城市交通系统仿真模型;
分别建立静态路网信息单元和动态路网信息单元。将路段长度、交通灯位置、道路限速数据以及车辆加速度范围存入建立静态路网信息单元中。将初始时刻系统内车辆的速度信息、位置信息,交通灯的信号信息存入动态路网信息单元。并在系统运行过程中,实时更新动态路网信息单元内的信息。
(2)基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数;
a)为系统中每一个交通灯建立状态空间,空间内有两种状态:GRGR和RGRG。GRGR表示车辆可以在该交通灯所在路口南北向通行,RGRG表示车辆可以在该交通灯所在路口东西向通行。
b)为系统中每一个车辆建立状态空间。状态空间包括三个子空间。第一个子空间代表车辆速度,是个连续空间,取值范围为0和道路限速组成的闭区间。第二个子空间代表车辆所在位置与下一个交通灯之间的距离,是个连续空间,取值范围为0和路段长度组成的闭区间。第三个子空间代表车辆所在路段,是个离散空间,取值范围为1和路段个数组成的正整数区间。
c)为系统中每一个交通灯建立动作空间,空间内有两种动作:转化为GRGR和转化为RGRG。
d)为系统中每一个车辆建立动作空间,该空间是个连续空间,表示该车辆在该时刻对本身施加的加速度。取值范围与静态路网信息单元中的车辆加速度范围一致。
e)为系统中每一个交通灯和每一个车辆建立回报函数。将系统中每个车辆的平均延迟的相反数作为回报。
回报函数的具体计算方法如下:
reward=-avg_del
Figure BDA0002701726930000041
Figure BDA0002701726930000042
其中,reward是指回报函数的具体数值,avg_del是指每个车辆的平均延迟,n是指系统中的车辆总数,deli是指第i个车辆的延迟,vtop是指道路限速,vi是指第i个车辆的速度,timestep是指车辆在系统中行驶的时间长度。
(3)根据深度学习算法,搭建神经网络;
搭建神经网络,具体为:
基于PPO算法,搭建策略神经网络和估值神经网络,均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.97,折扣因子设为0.999。
损失函数基于所采用的深度学习算法,估值网络主要根据该时刻回报信息更新对每个状态-动作对的评价(Q),而策略网络主要根据评价网络更新动作(策略),从而使得每次所选择的策略始终朝着评价大的方向前进。
决策网络输入的是环境当前的状态,包括车辆的位置、速度以及交通灯的信号等参数,输出车辆和交通灯应采取的策略;估值网络输入当前和下一时刻状态,分别输出相应的Q值,并根据环境反馈的回报设计损失函数用于对决策网络和估值网络进行更新,具体网络结构如图3和图4所示:
(4)基于所述自动驾驶仿真模型、状态空间、动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
具体为:
(4.1)随机初始化策略神经网络参数和估值神经网络参数;
(4.2)对所述状态空间进行初始化,得到当前状态st;
(4.3)智能交通系统仿真模型根据策略网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的车辆以及交通灯状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存;
(4.4)依据当前步骤的车辆平均速度、训练进度等信息,自适应性的更新超参数,具体公式如下:
Figure BDA0002701726930000043
cpb=base×(1+0.002×iter)-0.75
Figure BDA0002701726930000044
其中vaver是车辆平均速度,base是常数参数,iter是当前训练轮数,ε是常数参数。
(4.5)基于(4.3)得到的优势函数和(4.4)得到的超参数,根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数,具体公式如下;
LMod_PPO(θ)=Et[min(rt(θ)At,clip(rt(θ),1-βMod,1+βMod)At)]
(4.6)策略网络输出新策略;
(4.7)反复执行N次(4.2)到(4.6);
(4.8)保存训练好的神经网络模型。
(5)调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略;
某次仿真的策略网络损失函数收敛结果如图5所示,估值网络损失函数收敛结果如图6所示。由图5、图6可知,损失函数得以收敛。回报函数如图7所示,车辆的平均延迟持续减小。通过仿真得到的结果可知,神经网络损失函数得以收敛,输出了有效可行的智能调度策略。
(1)本发明基于深度学习PPO算法,设计面向城市交通系统智能调度,使用神经网络拟合环境和车辆行为、交通灯行为间的映射关系,并对其进行训练,使得城市交通系统能够使用训练好的神经网络自主生成智能调度策略。
(2)本发明充分调动了车辆在智能调度中的作用,将交通系统内的交通灯和车辆进行统一调度,提升了智能调度的效果。

Claims (3)

1.一种基于深度学习的城市交通系统调度策略生成方法,包括如下步骤:
(1)搭建城市交通系统仿真模型;
(2)基于城市交通系统仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数。具体为:
(2.1)为系统中每一个交通灯建立状态空间:交通灯状态空间有GRGR和RGRG两种状态,GRGR表示车辆可以在该交通灯所在路口南北向通行,RGRG表示车辆可以在该交通灯所在路口东西向通行;
(2.2)为系统中每一个车辆建立状态空间:车辆状态空间包括三个子空间,第一个子空间代表车辆速度,是个连续空间,取值范围为0和道路限速组成的闭区间;第二个子空间代表车辆所在位置与下一个交通灯之间的距离,是个连续空间,取值范围为0和路段长度组成的闭区间;第三个子空间代表车辆所在路段,是个离散空间,取值范围为1和路段个数组成的正整数区间;
(2.3)为系统中每一个交通灯建立动作空间,交通灯动作空间有两种动作:转化为GRGR和转化为RGRG;
(2.4)为系统中每一个车辆建立动作空间,车辆动作空间是个连续空间,表示该车辆在该时刻对本身施加的加速度,取值范围与静态路网信息单元中的车辆加速度范围一致;
(2.5)为系统中每一个交通灯和每一个车辆建立回报函数,将系统中每个车辆的平均延迟的相反数作为回报;
(3)根据深度学习PPO算法,搭建策略神经网络和估值神经网络;
(4)基于所述城市交通系统仿真模型、各个状态空间、各个动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型,具体为:
(4.1)初始化策略神经网络参数和估值神经网络参数;
(4.2)对各个状态空间进行初始化,得到当前状态st;
(4.3)城市交通系统仿真模型根据策略神经网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;
(4.4)根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
(4.5)策略神经网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;
(4.6)反复执行N次(4.2)到(4.5),从而完成神经网络模型的训练,保存训练好的神经网络模型;
(5)调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略。
2.根据权利要求1所述的基于深度学习的城市交通系统调度策略生成方法,其特征在于:在所述步骤1中,搭建城市交通系统仿真模型,具体为:
(1.1)建立静态路网信息单元:将路段长度、交通灯位置、道路限速数据以及车辆加速度范围存入建立静态路网信息单元中;
(1.2)建立动态路网信息单元:将初始时刻系统内车辆的速度信息、位置信息,交通灯的信号信息存入动态路网信息单元,在系统运行过程中,实时更新动态路网信息单元内的信息。
3.根据权利要求1所述的基于深度学习的城市交通系统调度策略生成方法,其特征在于:在所述步骤3中,根据深度学习PPO算法,搭建策略神经网络和估值神经网络,具体为,策略神经网络和估值神经网络均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.97,折扣因子设为0.999。
CN202011024487.9A 2020-09-25 2020-09-25 一种基于深度学习的城市交通系统调度策略生成方法 Active CN112150808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011024487.9A CN112150808B (zh) 2020-09-25 2020-09-25 一种基于深度学习的城市交通系统调度策略生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011024487.9A CN112150808B (zh) 2020-09-25 2020-09-25 一种基于深度学习的城市交通系统调度策略生成方法

Publications (2)

Publication Number Publication Date
CN112150808A true CN112150808A (zh) 2020-12-29
CN112150808B CN112150808B (zh) 2022-06-17

Family

ID=73897231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011024487.9A Active CN112150808B (zh) 2020-09-25 2020-09-25 一种基于深度学习的城市交通系统调度策略生成方法

Country Status (1)

Country Link
CN (1) CN112150808B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113665593A (zh) * 2021-10-22 2021-11-19 智己汽车科技有限公司 一种车辆智能驾驶纵向控制方法、系统及存储介质
CN114104005A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114299732A (zh) * 2021-12-29 2022-04-08 中山大学 一种同时考虑行程时间和公平性的交通灯控制方法及系统
CN114333357A (zh) * 2021-12-31 2022-04-12 上海商汤智能科技有限公司 一种交通信号控制方法、装置、电子设备及存储介质
CN114419884A (zh) * 2022-01-12 2022-04-29 清华大学 基于强化学习和相位竞争的自适应信号控制方法及系统
CN114550470A (zh) * 2022-03-03 2022-05-27 沈阳化工大学 一种无线网络互联智慧型交通信号灯
CN115752076A (zh) * 2022-10-27 2023-03-07 成都飞创科技有限公司 一种冷却循环水系统控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930625A (zh) * 2016-06-13 2016-09-07 天津工业大学 Q学习结合神经网络的智能驾驶行为决策系统的设计方法
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN107705557A (zh) * 2017-09-04 2018-02-16 清华大学 基于深度增强网络的路网信号控制方法及装置
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
WO2019127232A1 (en) * 2017-12-28 2019-07-04 Siemens Aktiengesellschaft System and method for determining vehicle speed
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930625A (zh) * 2016-06-13 2016-09-07 天津工业大学 Q学习结合神经网络的智能驾驶行为决策系统的设计方法
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN107705557A (zh) * 2017-09-04 2018-02-16 清华大学 基于深度增强网络的路网信号控制方法及装置
WO2019127232A1 (en) * 2017-12-28 2019-07-04 Siemens Aktiengesellschaft System and method for determining vehicle speed
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
王祥生: "交通控制诱导一体化的智能模型及算法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *
王祥生: "交通控制诱导一体化的智能模型及算法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, 15 April 2009 (2009-04-15) *
褚雪松: "交通系统中的智能决策研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *
褚雪松: "交通系统中的智能决策研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, 15 August 2006 (2006-08-15) *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113665593A (zh) * 2021-10-22 2021-11-19 智己汽车科技有限公司 一种车辆智能驾驶纵向控制方法、系统及存储介质
CN114299732A (zh) * 2021-12-29 2022-04-08 中山大学 一种同时考虑行程时间和公平性的交通灯控制方法及系统
CN114333357A (zh) * 2021-12-31 2022-04-12 上海商汤智能科技有限公司 一种交通信号控制方法、装置、电子设备及存储介质
CN114333357B (zh) * 2021-12-31 2023-08-15 上海商汤智能科技有限公司 一种交通信号控制方法、装置、电子设备及存储介质
CN114419884A (zh) * 2022-01-12 2022-04-29 清华大学 基于强化学习和相位竞争的自适应信号控制方法及系统
CN114104005A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114104005B (zh) * 2022-01-26 2022-04-19 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114550470A (zh) * 2022-03-03 2022-05-27 沈阳化工大学 一种无线网络互联智慧型交通信号灯
CN114550470B (zh) * 2022-03-03 2023-08-22 沈阳化工大学 一种无线网络互联智慧型交通信号灯
CN115752076A (zh) * 2022-10-27 2023-03-07 成都飞创科技有限公司 一种冷却循环水系统控制方法
CN115752076B (zh) * 2022-10-27 2023-12-01 成都飞创科技有限公司 一种冷却循环水系统控制方法

Also Published As

Publication number Publication date
CN112150808B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN112150808B (zh) 一种基于深度学习的城市交通系统调度策略生成方法
US11205124B1 (en) Method and system for controlling heavy-haul train based on reinforcement learning
Chen et al. An intelligent path planning scheme of autonomous vehicles platoon using deep reinforcement learning on network edge
CN110264750B (zh) 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN108847037B (zh) 一种面向非全局信息的城市路网路径规划方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN103324085B (zh) 基于监督式强化学习的最优控制方法
Boyali et al. Real-time controller design for a parallel hybrid electric vehicle using neuro-dynamic programming method
Aslani et al. Developing adaptive traffic signal control by actor–critic and direct exploration methods
CN111487863B (zh) 一种基于深度q神经网络的主动悬架强化学习控制方法
CN114241778A (zh) 高速公路网联车协同匝道汇入多目标优化控制方法和系统
CN112339756B (zh) 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法
CN113110052B (zh) 一种基于神经网络和强化学习的混合能量管理方法
Wang et al. Design of intelligent connected cruise control with vehicle-to-vehicle communication delays
CN114074680B (zh) 基于深度强化学习的车辆换道行为决策方法及系统
Wang et al. Lookup table-based consensus algorithm for real-time longitudinal motion control of connected and automated vehicles
CN113780576A (zh) 基于奖励自适应分配的合作多智能体强化学习方法
CN115107733A (zh) 一种混合动力汽车的能量管理方法及系统
Liu et al. Cooperative multi-agent traffic signal control system using fast gradient-descent function approximation for v2i networks
CN116071939B (zh) 一种交通信号控制模型的建立方法及控制方法
CN110021168B (zh) 一种车联网下实现实时智能交通管理的分级决策方法
CN115359672B (zh) 一种数据驱动与强化学习结合的交通区域边界控制方法
CN116843500A (zh) 充电站规划方法、神经网络模型训练方法、装置和设备
CN115116240A (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
CN114154729A (zh) 一种混合动力汽车复合储能系统能量管理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant