CN115291508A - 一种基于分布式深度强化学习的动态公交控制系统及方法 - Google Patents

一种基于分布式深度强化学习的动态公交控制系统及方法 Download PDF

Info

Publication number
CN115291508A
CN115291508A CN202210681154.6A CN202210681154A CN115291508A CN 115291508 A CN115291508 A CN 115291508A CN 202210681154 A CN202210681154 A CN 202210681154A CN 115291508 A CN115291508 A CN 115291508A
Authority
CN
China
Prior art keywords
bus
time
drl
submodule
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210681154.6A
Other languages
English (en)
Other versions
CN115291508B (zh
Inventor
聂庆慧
欧吉顺
张海洋
周扬
王天昊
刘路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN202210681154.6A priority Critical patent/CN115291508B/zh
Publication of CN115291508A publication Critical patent/CN115291508A/zh
Application granted granted Critical
Publication of CN115291508B publication Critical patent/CN115291508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于分布式深度强化学习的动态公交控制系统及方法,包括历史和实时数据收集模块,用于收集研究路网内部的公交历史数据,公交系统设计模块,根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据,搭建真实DRL环境模块,用于根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建,构建DRL模型模块,用于根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励,训练DRL模型模块,用于对DRL模型进行不断训练,学习最优策略,本申请旨在显著减少计划时间和车头时距的偏差,防止偏差向下游累积,避免公交串车现象发生。

Description

一种基于分布式深度强化学习的动态公交控制系统及方法
技术领域
本发明涉及公交系统控制与管理领域,具体是一种基于分布式深度强化学习的动态公交控制系统及方法。
背景技术
由于公交系统固有的不确定性,公交系统会受到两种形式的干扰,分为内部干扰和外部干扰。内部干扰主要来自不合理的交通设计,包括不合理的时间调度设计、不规范的停车间距等。而外部干扰主要由不确定因素造成,可以归纳为延误干扰(交通拥堵、交通事故、交通信号控制、恶劣天气条件)和不确定的乘客到达流。这些干扰造成了不同的行程时间和停留时间从而导致了公交串车现象的发生,因此我们要在公交控制中考虑延误干扰和乘客需求的不确定性。
目前,现有的研究方法其一是只利用了单一类型的方法控制公交;其二是只考虑了单一类型的不确定性并且运用解析分布处理不确定性;其三是精确求解约束的随机优化问题计算量很大。
所以,需要考虑潜在的不确定性开发一种综合的更通用的公交控制系统,来减少公交串车现象并且优化公交系统。将深度神经网络与强化学习相结合,深度强化学习DRL非常适用于具有随机特性的系统,并且具有很强的泛化能力,此外基于DRL控制的计算量主要集中在训练过程,可以实时实现。多智能体控制理论表明一致性是多智能体网络中的关键属性,它可以有效防止干扰的积累,并且有很大潜力可以显著提高控制性能的鲁棒性。
本发明旨在针对由不确定的站间行程时间和不确定的乘客需求率导致的公交串车问题,通过保持计划时间的准确性、车头时距的规律性和达成了多智能体系统中的一致性,解决了公交串车问题,更好的利用公交历史和实时交通信息,并将这些信息融入到环境中,使每辆公交利用加权下游公交信息,通过一些通用方法来调整公交运行,训练DRL模型,提高训练性能,使得控制算法更加高效。
发明内容
本发明的目的在于提供一种基于分布式深度强化学习的动态公交控制系统及方法,以解决现有技术中的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于分布式深度强化学习的动态公交控制系统,包括:
历史和实时数据收集模块,用于收集研究路网内部的公交历史数据;
公交系统设计模块,根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据;
搭建真实DRL环境模块,用于根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建;
构建DRL模型模块,用于根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励;
训练DRL模型模块,用于对DRL模型进行不断训练,学习最优策略。
进一步设置:公交系统设计模块包括:
公交系统开发子模块,将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统,其中,监控系统包括是路段监控系统、站台监控系统、公交监控系统;
收集交通信息数据子模块,通过路段监控系统检测公交站台每站之间的路段,提供历史和实时交通信息,包括平均行程时间、延误干扰分布,通过站台监控系统实时监控公交站台,提供历史数据和实时数据,历史数据包括期望的乘客需求率、需求不确定性分布,实时数据包括实际乘客需求率、实际站台停留时间,通过公交监控系统,将计划的公交运行嵌入系统,监测实时公交运行,动态计算计划运行和实际运行的偏差。
进一步设置:搭建真实DRL环境模块包括:
开发计划公交运行子模块,根据监控子系统收集的历史交通数据开发计划公交运行模块,分析公交车辆到不同站台的计划时间,设定
Figure BDA0003698460250000031
表示i车到j站的计划时间,rj表示从j站到j+1站的平均行程时间,βjH 表示公交在j站服务乘客的期望提留时间,sj表示从j站到j+1站的站台停靠富裕时间,根据公式:
Figure BDA0003698460250000032
分析得出i车到j+1站的计划时间
Figure BDA0003698460250000033
开发时空变化干扰子模块,判定计划公交运行会受到干扰,对时空变化干扰进行建模,建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布;
开发实际公交运行子模块,用于根据站台监控系统收集实时公交数据,分析公交车辆到不同站台的实际时间,设定
Figure BDA0003698460250000034
表示i车到j站的实际时间,
Figure BDA0003698460250000035
表示i车到j站的实际车头时距,
Figure BDA0003698460250000036
表示实际的乘客需求率,
Figure BDA0003698460250000037
表示控制力,即公交i从j站到j+1站时间的调整,
Figure BDA0003698460250000038
表示i 车从j站到j+1站的干扰延误时间,根据公式:
Figure BDA0003698460250000039
分析得出i车到j+1站的实际行程时间;
开发误差动态子模块,用于解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积,获取实际公交运行时间和计划公交运行时间,分析实际公交运行时间和计划公交运行时间之间的时间偏差,设定
Figure BDA00036984602500000310
表示i车到j站的计划之间与实际时间之间的偏差时间,根据公式:
Figure BDA00036984602500000311
设定
Figure BDA00036984602500000312
表示i车到j站的计划车头时距与实际车头时距之间的偏差车头时距,设定H表示计划车头时距,根据公式:
Figure BDA0003698460250000041
设定
Figure BDA0003698460250000042
表示i车与i-k车在j站的实际车头时距,
Figure BDA0003698460250000043
表示i 车与i-k车在j站的偏差车头时距,k为i车下游第k辆车,根据公式:
Figure BDA0003698460250000044
计算得出,当前公交运行偏差时间和偏差车头时距,根据分析数据描述动态公交系统,将描述的动态公交系统作为基于分布式DRL公交控制的训练环境,实现对DRL环境的搭建。
进一步设置:构建DRL模型模块包括:
构造状态子模块,用于获取搭建真实DRL环境模块分析的动态公交数据,将数据信息融合,形成三维向量构建DRL状态,设定加权车头时距的偏差为
Figure BDA0003698460250000045
站台实际停留时间为
Figure BDA0003698460250000046
其中加权车头时距的偏差为:
Figure BDA0003698460250000047
其中,加权系数αi-m为DRL的超参数,
根据上述数据,设定
Figure BDA0003698460250000048
为DRL的状态表示:
Figure BDA0003698460250000049
构造成本代价函数子模块,用于使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化,使控制力最小化,保持计划时间的准确性和车头时距的规律性,设定
Figure BDA00036984602500000410
为成本状态表示:
Figure BDA00036984602500000411
设定上述要素的成本二次型表示为:
Figure BDA0003698460250000051
其中,Qi为正定对角系数矩阵,根据公式:
Figure BDA0003698460250000052
其中,α1,i、α2,i、α3,i分别为表示计划时间偏差系数、加权车头时距偏差系数和控制力系数,α3,i表示如下:
Figure BDA0003698460250000053
其中,αv,i>αu,i时,表示复合策略实施困难,不建议实施;
构造奖励函数子模块,根据成本代价函数,设定在j站的i车的即刻奖励为
Figure BDA0003698460250000054
将即刻奖励设计为指数函数,将奖励值进行归一化在[0,1] 内,根据公式:
Figure BDA0003698460250000055
构造最优策略函数子模块,基于奖励函数,在无限时间范围内最大化折扣累积奖励,构造最优策略函数,设定最优策略函数为π*,设定m 为状态构造中第m个状态,j+m为第j站的下游后m站,根据公式:
Figure BDA0003698460250000056
其中,γ表示折扣因素,计算得出最优策略函数π*
进一步设置:训练DRL模型模块包括:
策略输出子模块,用于使分布式公交控制器收到在不同的站台公交的状态,根据global actor网络的最新策略输出控制力来控制公交,设定某一辆公交i在j站的公交状态为
Figure BDA0003698460250000057
设定训练过程中更新的策略函数为π,控制力为
Figure BDA0003698460250000058
在通过计算回报函数获得奖励
Figure BDA0003698460250000059
后,公交的状态由
Figure BDA0003698460250000061
转移到j+1站的状态
Figure BDA0003698460250000062
Figure BDA0003698460250000063
Figure BDA0003698460250000064
储存在存储缓存区;
更新actor网络参数子模块,设定策略参数为θ,actor网络负责根据策略参数θ最大化目标函数来更新θ,设定目标函数为LCLIP(θ),根据公式:
Figure BDA0003698460250000065
上述公式中pt(θ)被clip(pt(θ),1-ε,1+ε)函数限制在1-ε到1+ε内, pt(θ)为更新策略函数πθ和旧策略函数
Figure BDA0003698460250000066
的概率比,根据公式:
Figure BDA0003698460250000067
上述公式中
Figure BDA0003698460250000068
为优势函数,根据公式:
Figure BDA0003698460250000069
其中,Rt是T个时间步的折扣累积奖励,设定折扣因素为γ,根据公式:
Figure BDA00036984602500000610
更新critic网络子模块,用于通过critic网络评估系统输出行动, critic网络通过更新最小化评估损失函数,设定最小化评估损失函数为 Lc(φ),根据公式:
Figure BDA00036984602500000611
循环重复子模块,用于重复策略输出子模块、更新actor网络参数子模块和更新critic网络子模块,不断更新策略函数π,直至达到最优策略函数π*
一种基于分布式深度强化学习的动态公交控制方法,包括:
S1:利用历史和实时数据收集模块收集研究路网内部的公交历史数据;
S2:利用公交系统设计模块根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据;
S3:利用搭建真实DRL环境模块根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建;
S4:利用构建DRL模型模块根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励;
S5:利用训练DRL模型模块对DRL模型进行不断训练,学习最优策略。
进一步设置:S2中还包括以下步骤:
S2-1:利用公交系统开发子模块将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统,其中,监控系统包括是路段监控系统、站台监控系统、公交监控系统;
S2-2:利用收集交通信息数据子模块,通过路段监控系统检测公交站台每站之间的路段,提供历史和实时交通信息,包括平均行程时间、延误干扰分布,通过站台监控系统实时监控公交站台,提供历史数据和实时数据,历史数据包括期望的乘客需求率、需求不确定性分布,实时数据包括实际乘客需求率、实际站台停留时间,通过公交监控系统,将计划的公交运行嵌入系统,监测实时公交运行,动态计算计划运行和实际运行的偏差。
进一步设置:S3中还包括以下步骤:
S3-1:利用开发计划公交运行子模块根据监控子系统收集的历史交通数据开发计划公交运行模块,分析公交车辆到不同站台的计划时间;
S3-2:利用开发时空变化干扰子模块判定计划公交运行会受到干扰,对时空变化干扰进行建模,建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布;
S3-3:利用开发实际公交运行子模块根据站台监控系统收集实时公交数据,分析公交车辆到不同站台的实际时间;
S3-4:利用开发误差动态子模块解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积,获取实际公交运行时间和计划公交运行时间,分析实际公交运行时间和计划公交运行时间之间的时间偏差;
S3-5:根据分析的数据描述动态公交系统,将描述的动态公交系统作为基于分布式DRL公交控制的训练环境,实现对DRL环境的搭建。
进一步设置:S4中还包括以下步骤:
S4-1:利用构造状态子模块获取搭建真实DRL环境模块分析的动态公交数据,将数据信息融合,形成三维向量构建DRL状态;
S4-2:利用构造成本代价函数子模块使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化,使控制力最小化,保持计划时间的准确性和车头时距的规律性,构造DRL的成本状态;
S4-3:利用构造奖励函数子模块根据成本代价函数构造即刻奖励函数;
S4-4:利用构造最优策略函数子模块,基于奖励函数,在无限时间范围内最大化折扣累积奖励,构造最优策略函数。
进一步设置:S5中还包括以下步骤:
S5-1:利用策略输出子模块使分布式公交控制器收到在不同的站台公交的状态,根据global actor网络的最新策略输出控制力来控制公交;
S5-2:利用更新actor网络参数子模块控制actor网络根据策略参数最大化目标函数来更新策略参数;
S5-3:利用更新critic网络子模块通过critic网络评估系统输出行动,critic网络通过更新最小化评估损失函数;
S5-4:利用循环重复子模块重复循环策略输出子模块、更新actor 网络参数子模块和更新critic网络子模块,不断更新策略函数,直至达到最优策略函数。
与现有技术相比,本发明的有益效果是:本申请的公交运行动态控制系统及方法考虑了公交运行过程中站间行程时间的不确定性和乘客需求的不确定性,控制模型及方法构建过程综合考虑了计划时间准确性、车头时距规律性和多智能体系统一致性,通过有效地利用公交历史和实时交通信息,并将这些信息融入到多智能体训练环境,构建基于分布式深度强化学习的动态公交鲁棒控制模型及系统,可以显著减少公交运行过程中计划时间和车头时距偏差,并且防止偏差向下游累积,从智能化运行控制的角度有效提升公交运行控制的科学性和可靠性。本申请在控制性能、鲁棒性能和泛化性能方面都有卓越性,可有效减少公交串车问题发生频率,提高公交系统的服务品质。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
图1为本发明一种基于分布式深度强化学习的动态公交控制系统的结构示意图;
图2为本发明一种基于分布式深度强化学习的动态公交控制系统中公交系统设计模块的结构图;
图3为本发明一种基于分布式深度强化学习的动态公交控制系统中搭建真实DRL环境模块的结构图;
图4为本发明一种基于分布式深度强化学习的动态公交控制系统中构建DRL模型模块的结构图;
图5为本发明一种基于分布式深度强化学习的动态公交控制系统中训练DRL模型模块的结构图;
图6为本发明一种基于分布式深度强化学习的动态公交控制方法的流程图;
图7为本发明一种基于分布式深度强化学习的动态公交控制方法中 S2的流程图;
图8为本发明一种基于分布式深度强化学习的动态公交控制方法中 S3的流程图;
图9为本发明一种基于分布式深度强化学习的动态公交控制方法中 S4的流程图;
图10为本发明一种基于分布式深度强化学习的动态公交控制方法中 S5的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:请参阅图1~5,本发明实施例中,一种基于分布式深度强化学习的动态公交控制系统,包括:
历史和实时数据收集模块,用于收集研究路网内部的公交历史数据;
公交系统设计模块,根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据,
具体参照图2,公交系统设计模块包括:
公交系统开发子模块,将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统,其中,监控系统包括是路段监控系统、站台监控系统、公交监控系统;
收集交通信息数据子模块,通过路段监控系统检测公交站台每站之间的路段,提供历史和实时交通信息,包括平均行程时间、延误干扰分布,通过站台监控系统实时监控公交站台,提供历史数据和实时数据,历史数据包括期望的乘客需求率、需求不确定性分布,实时数据包括实际乘客需求率、实际站台停留时间,通过公交监控系统,将计划的公交运行嵌入系统,监测实时公交运行,动态计算计划运行和实际运行的偏差。
搭建真实DRL环境模块,用于根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建,
具体参照图3,搭建真实DRL环境模块包括:
开发计划公交运行子模块,根据监控子系统收集的历史交通数据开发计划公交运行模块,分析公交车辆到不同站台的计划时间,设定
Figure BDA0003698460250000101
表示i车到j站的计划时间,rj表示从j站到j+1站的平均行程时间,βjH 表示公交在j站服务乘客的期望提留时间,sj表示从j站到j+1站的站台停靠富裕时间,根据公式:
Figure BDA0003698460250000111
分析得出i车到j+1站的计划时间
Figure BDA0003698460250000112
开发时空变化干扰子模块,判定计划公交运行会受到干扰,对时空变化干扰进行建模,建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布;
需要具体说明的是,延误干扰分布在[-5s,30s]选取截断正态分布,乘客需求不确定性服从分布设置在[-0.02s,0.02s]中均匀分布。
开发实际公交运行子模块,用于根据站台监控系统收集实时公交数据,分析公交车辆到不同站台的实际时间,设定
Figure BDA0003698460250000113
表示i车到j站的实际时间,
Figure BDA0003698460250000114
表示i车到j站的实际车头时距,
Figure BDA0003698460250000115
表示实际的乘客需求率,
Figure BDA0003698460250000116
表示控制力,即公交i从j站到j+1站时间的调整,
Figure BDA0003698460250000117
表示i 车从j站到j+1站的干扰延误时间,根据公式:
Figure BDA0003698460250000118
分析得出i车到j+1站的实际行程时间;
开发误差动态子模块,用于解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积,获取实际公交运行时间和计划公交运行时间,分析实际公交运行时间和计划公交运行时间之间的时间偏差,设定
Figure BDA0003698460250000119
表示i车到j站的计划之间与实际时间之间的偏差时间,根据公式:
Figure BDA00036984602500001110
设定
Figure BDA00036984602500001111
表示i车到j站的计划车头时距与实际车头时距之间的偏差车头时距,设定H表示计划车头时距,根据公式:
Figure BDA00036984602500001112
设定
Figure BDA00036984602500001113
表示i车与i-k车在j站的实际车头时距,
Figure BDA00036984602500001114
表示i 车与i-k车在j站的偏差车头时距,k为i车下游第k辆车,根据公式:
Figure BDA0003698460250000121
计算得出,当前公交运行偏差时间和偏差车头时距,根据分析数据描述动态公交系统,将描述的动态公交系统作为基于分布式DRL公交控制的训练环境,实现对DRL环境的搭建。
构建DRL模型模块,用于根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励,
具体参照图4,构建DRL模型模块包括:
构造状态子模块,用于获取搭建真实DRL环境模块分析的动态公交数据,将数据信息融合,形成三维向量构建DRL状态,设定加权车头时距的偏差为
Figure BDA0003698460250000122
站台实际停留时间为
Figure BDA0003698460250000123
其中加权车头时距的偏差为:
Figure BDA0003698460250000124
其中,加权系数αi-m为DRL的超参数,
根据上述数据,设定
Figure BDA0003698460250000125
为DRL的状态表示:
Figure BDA0003698460250000126
构造成本代价函数子模块,用于使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化,使控制力最小化,保持计划时间的准确性和车头时距的规律性,设定
Figure BDA0003698460250000127
为成本状态表示:
Figure BDA0003698460250000128
设定上述要素的成本二次型表示为:
Figure BDA0003698460250000129
其中,Qi为正定对角系数矩阵,根据公式:
Figure BDA0003698460250000131
其中,α1,i、α2,i、α3,i分别为表示计划时间偏差系数、加权车头时距偏差系数和控制力系数,α3,i表示如下:
Figure BDA0003698460250000132
其中,αv,i>αu,i时,表示复合策略实施困难,不建议实施;
构造奖励函数子模块,根据成本代价函数,设定在j站的i车的即刻奖励为
Figure BDA0003698460250000133
将即刻奖励设计为指数函数,将奖励值进行归一化在[0,1] 内,根据公式:
Figure BDA0003698460250000134
构造最优策略函数子模块,基于奖励函数,在无限时间范围内最大化折扣累积奖励,构造最优策略函数,设定最优策略函数为π*,设定m 为状态构造中第m个状态,j+m为第j站的下游后m站,根据公式:
Figure BDA0003698460250000135
其中,γ表示折扣因素,计算得出最优策略函数π*
训练DRL模型模块,用于对DRL模型进行不断训练,学习最优策略,
需要具体说明,训练DRL模型模块内部设有DRL agent,DRL agent 为分布式公交控制器,DRL agent能够在公交i在j站台时,收到公交i 的状态信息
Figure BDA0003698460250000136
将状态信息
Figure BDA0003698460250000137
输出为控制力
Figure BDA0003698460250000138
具体参照图5,训练DRL模型模块包括:
策略输出子模块,用于使分布式公交控制器收到在不同的站台公交的状态,根据global actor网络的最新策略输出控制力来控制公交,设定某一辆公交i在j站的公交状态为
Figure BDA0003698460250000139
设定训练过程中更新的策略函数为π,控制力为
Figure BDA0003698460250000141
在通过计算回报函数获得奖励
Figure BDA0003698460250000142
后,公交的状态由
Figure BDA0003698460250000143
转移到j+1站的状态
Figure BDA0003698460250000144
Figure BDA0003698460250000145
Figure BDA0003698460250000146
储存在存储缓存区;
需要具体说明的是,控制力
Figure BDA0003698460250000147
限制在[-u,u]区间内来确保执行的可行性。
更新actor网络参数子模块,设定策略参数为θ,actor网络负责根据策略参数θ最大化目标函数来更新θ,设定目标函数为LCLIP(θ),根据公式:
Figure BDA0003698460250000148
上述公式中pt(θ)被clip(pt(θ),1-ε,1+ε)函数限制在1-ε到1+ε内, pt(θ)为更新策略函数πθ和旧策略函数
Figure BDA0003698460250000149
的概率比,根据公式:
Figure BDA00036984602500001410
上述公式中
Figure BDA00036984602500001411
为优势函数,根据公式:
Figure BDA00036984602500001412
其中,Rt是T个时间步的折扣累积奖励,设定折扣因素为γ,根据公式:
Figure BDA00036984602500001413
更新critic网络子模块,用于通过critic网络评估系统输出行动, critic网络通过更新最小化评估损失函数,设定最小化评估损失函数为 Lc(φ),根据公式:
Figure BDA00036984602500001414
循环重复子模块,用于重复策略输出子模块、更新actor网络参数子模块和更新critic网络子模块,不断更新策略函数π,直至达到最优策略函数π*
实施例2:具体参照图6,一种基于分布式深度强化学习的动态公交控制方法,包括:
S1:利用历史和实时数据收集模块收集研究路网内部的公交历史数据;
S2:利用公交系统设计模块根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据;
S3:利用搭建真实DRL环境模块根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建;
S4:利用构建DRL模型模块根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励;
S5:利用训练DRL模型模块对DRL模型进行不断训练,学习最优策略。
进一步设置:具体参照图7,S2中还包括以下步骤:
S2-1:利用公交系统开发子模块将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统,其中,监控系统包括是路段监控系统、站台监控系统、公交监控系统;
S2-2:利用收集交通信息数据子模块,通过路段监控系统检测公交站台每站之间的路段,提供历史和实时交通信息,包括平均行程时间、延误干扰分布,通过站台监控系统实时监控公交站台,提供历史数据和实时数据,历史数据包括期望的乘客需求率、需求不确定性分布,实时数据包括实际乘客需求率、实际站台停留时间,通过公交监控系统,将计划的公交运行嵌入系统,监测实时公交运行,动态计算计划运行和实际运行的偏差。
进一步设置:具体参照图8,S3中还包括以下步骤:
S3-1:利用开发计划公交运行子模块根据监控子系统收集的历史交通数据开发计划公交运行模块,分析公交车辆到不同站台的计划时间;
S3-2:利用开发时空变化干扰子模块判定计划公交运行会受到干扰,对时空变化干扰进行建模,建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布;
S3-3:利用开发实际公交运行子模块根据站台监控系统收集实时公交数据,分析公交车辆到不同站台的实际时间;
S3-4:利用开发误差动态子模块解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积,获取实际公交运行时间和计划公交运行时间,分析实际公交运行时间和计划公交运行时间之间的时间偏差;
S3-5:根据分析的数据描述动态公交系统,将描述的动态公交系统作为基于分布式DRL公交控制的训练环境,实现对DRL环境的搭建。
进一步设置:具体参照图9,S4中还包括以下步骤:
S4-1:利用构造状态子模块获取搭建真实DRL环境模块分析的动态公交数据,将数据信息融合,形成三维向量构建DRL状态;
S4-2:利用构造成本代价函数子模块使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化,使控制力最小化,保持计划时间的准确性和车头时距的规律性,构造DRL的成本状态;
S4-3:利用构造奖励函数子模块根据成本代价函数构造即刻奖励函数;
S4-4:利用构造最优策略函数子模块,基于奖励函数,在无限时间范围内最大化折扣累积奖励,构造最优策略函数。
进一步设置:具体参照图10,S5中还包括以下步骤:
S5-1:利用策略输出子模块使分布式公交控制器收到在不同的站台公交的状态,根据global actor网络的最新策略输出控制力来控制公交;
S5-2:利用更新actor网络参数子模块控制actor网络根据策略参数最大化目标函数来更新策略参数;
S5-3:利用更新critic网络子模块通过critic网络评估系统输出行动,critic网络通过更新最小化评估损失函数;
S5-4:利用循环重复子模块重复循环策略输出子模块、更新actor 网络参数子模块和更新critic网络子模块,不断更新策略函数,直至达到最优策略函数。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种基于分布式深度强化学习的动态公交控制系统,其特征在于:包括
历史和实时数据收集模块,用于收集研究路网内部的公交历史数据;
公交系统设计模块,根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据;
搭建真实DRL环境模块,用于根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建;
构建DRL模型模块,用于根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励;
训练DRL模型模块,用于对DRL模型进行不断训练,学习最优策略。
2.根据权利要求1所述的一种基于分布式深度强化学习的动态公交控制系统,其特征在于:所述公交系统设计模块包括:
公交系统开发子模块,将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统,其中,监控系统包括是路段监控系统、站台监控系统、公交监控系统;
收集交通信息数据子模块,通过路段监控系统检测公交站台每站之间的路段,提供历史和实时交通信息,包括平均行程时间、延误干扰分布,通过站台监控系统实时监控公交站台,提供历史数据和实时数据,历史数据包括期望的乘客需求率、需求不确定性分布,实时数据包括实际乘客需求率、实际站台停留时间,通过公交监控系统,将计划的公交运行嵌入系统,监测实时公交运行,动态计算计划运行和实际运行的偏差。
3.根据权利要求1所述的一种基于分布式深度强化学习的动态公交控制系统,其特征在于:所述搭建真实DRL环境模块包括:
开发计划公交运行子模块,根据监控子系统收集的历史交通数据开发计划公交运行模块,分析公交车辆到不同站台的计划时间,设定
Figure FDA0003698460240000011
表示i车到j站的计划时间,rj表示从j站到j+1站的平均行程时间,βjH表示公交在j站服务乘客的期望提留时间,sj表示从j站到j+1站的站台停靠富裕时间,根据公式:
Figure FDA0003698460240000021
分析得出i车到j+1站的计划时间
Figure FDA0003698460240000022
开发时空变化干扰子模块,判定计划公交运行会受到干扰,对时空变化干扰进行建模,建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布;
开发实际公交运行子模块,用于根据站台监控系统收集实时公交数据,分析公交车辆到不同站台的实际时间,设定
Figure FDA0003698460240000023
表示i车到j站的实际时间,
Figure FDA0003698460240000024
表示i车到j站的实际车头时距,
Figure FDA0003698460240000025
表示实际的乘客需求率,
Figure FDA0003698460240000026
表示控制力,即公交i从j站到j+1站时间的调整,
Figure FDA0003698460240000027
表示i车从j站到j+1站的干扰延误时间,根据公式:
Figure FDA0003698460240000028
分析得出i车到j+1站的实际行程时间;
开发误差动态子模块,用于解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积,获取实际公交运行时间和计划公交运行时间,分析实际公交运行时间和计划公交运行时间之间的时间偏差,设定
Figure FDA0003698460240000029
表示i车到j站的计划之间与实际时间之间的偏差时间,根据公式:
Figure FDA00036984602400000210
设定
Figure FDA00036984602400000211
表示i车到j站的计划车头时距与实际车头时距之间的偏差车头时距,设定H表示计划车头时距,根据公式:
Figure FDA00036984602400000212
设定
Figure FDA00036984602400000213
表示i车与i-k车在j站的实际车头时距,
Figure FDA00036984602400000214
表示i车与i-k车在j站的偏差车头时距,k为i车下游第k辆车,根据公式:
Figure FDA0003698460240000031
计算得出,当前公交运行偏差时间和偏差车头时距,根据分析数据描述动态公交系统,将描述的动态公交系统作为基于分布式DRL公交控制的训练环境,实现对DRL环境的搭建。
4.根据权利要求1所述的一种基于分布式深度强化学习的动态公交控制系统,其特征在于:所述构建DRL模型模块包括:
构造状态子模块,用于获取搭建真实DRL环境模块分析的动态公交数据,将数据信息融合,形成三维向量构建DRL状态,设定加权车头时距的偏差为
Figure FDA0003698460240000032
站台实际停留时间为
Figure FDA0003698460240000033
其中加权车头时距的偏差为:
Figure FDA0003698460240000034
其中,加权系数αi-m为DRL的超参数,
根据上述数据,设定
Figure FDA0003698460240000035
为DRL的状态表示:
Figure FDA0003698460240000036
构造成本代价函数子模块,用于使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化,使控制力最小化,保持计划时间的准确性和车头时距的规律性,设定
Figure FDA0003698460240000037
为成本状态表示:
Figure FDA0003698460240000038
设定上述要素的成本二次型表示为:
Figure FDA0003698460240000039
其中,Qi为正定对角系数矩阵,根据公式:
Figure FDA0003698460240000041
其中,α1,i、α2,i、α3,i分别为表示计划时间偏差系数、加权车头时距偏差系数和控制力系数,α3,i表示如下:
Figure FDA0003698460240000042
其中,αv,i>αu,i时,表示复合策略实施困难,不建议实施;
构造奖励函数子模块,根据成本代价函数,设定在j站的i车的即刻奖励为
Figure FDA0003698460240000043
将即刻奖励设计为指数函数,将奖励值进行归一化在[0,1]内,根据公式:
Figure FDA0003698460240000044
构造最优策略函数子模块,基于奖励函数,在无限时间范围内最大化折扣累积奖励,构造最优策略函数,设定最优策略函数为π*,设定m为状态构造中第m个状态,j+m为第j站的下游后m站,根据公式:
Figure FDA0003698460240000045
其中,γ表示折扣因素,计算得出最优策略函数π*
5.根据权利要求1所述的一种基于分布式深度强化学习的动态公交控制系统,其特征在于:所述训练DRL模型模块包括:
策略输出子模块,用于使分布式公交控制器收到在不同的站台公交的状态,根据global actor网络的最新策略输出控制力来控制公交,设定某一辆公交i在j站的公交状态为
Figure FDA0003698460240000046
设定训练过程中更新的策略函数为π,控制力为
Figure FDA0003698460240000047
在通过计算回报函数获得奖励
Figure FDA0003698460240000048
后,公交的状态由
Figure FDA0003698460240000049
转移到j+1站的状态
Figure FDA00036984602400000410
Figure FDA00036984602400000411
Figure FDA00036984602400000412
储存在存储缓存区;
更新actor网络参数子模块,设定策略参数为θ,actor网络负责根据策略参数θ最大化目标函数来更新θ,设定目标函数为LCLIP(θ),根据公式:
Figure FDA0003698460240000051
上述公式中pt(θ)被clip(pt(θ),1-ε,1+ε)函数限制在1-ε到1+ε内,pt(θ)为更新策略函数πθ和旧策略函数
Figure FDA0003698460240000052
的概率比,根据公式:
Figure FDA0003698460240000053
上述公式中
Figure FDA0003698460240000054
为优势函数,根据公式:
Figure FDA0003698460240000055
其中,Rt是T个时间步的折扣累积奖励,
Figure FDA0003698460240000056
是状态
Figure FDA0003698460240000057
的期望奖励,设定折扣因素为γ,根据公式:
Figure FDA0003698460240000058
更新critic网络子模块,用于通过critic网络评估系统输出行动,critic网络通过更新最小化评估损失函数,设定最小化评估损失函数为Lc(φ),根据公式:
Figure FDA0003698460240000059
循环重复子模块,用于重复策略输出子模块、更新actor网络参数子模块和更新critic网络子模块,不断更新策略函数π,直至达到最优策略函数π*
6.一种基于分布式深度强化学习的动态公交控制方法,其特征在于:采用权利要求1-5任意一项基于分布式深度强化学习的动态公交控制系统,所述控制方法包括以下步骤:
S1:利用历史和实时数据收集模块收集研究路网内部的公交历史数据;
S2:利用公交系统设计模块根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据;
S3:利用搭建真实DRL环境模块根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建;
S4:利用构建DRL模型模块根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励;
S5:利用训练DRL模型模块对DRL模型进行不断训练,学习最优策略。
7.根据权利要求6所述的一种基于分布式深度强化学习的动态公交控制方法,其特征在于:所述S2中还包括以下步骤:
S2-1:利用公交系统开发子模块将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统,其中,监控系统包括是路段监控系统、站台监控系统、公交监控系统;
S2-2:利用收集交通信息数据子模块,通过路段监控系统检测公交站台每站之间的路段,提供历史和实时交通信息,包括平均行程时间、延误干扰分布,通过站台监控系统实时监控公交站台,提供历史数据和实时数据,历史数据包括期望的乘客需求率、需求不确定性分布,实时数据包括实际乘客需求率、实际站台停留时间,通过公交监控系统,将计划的公交运行嵌入系统,监测实时公交运行,动态计算计划运行和实际运行的偏差。
8.根据权利要求6所述的一种基于分布式深度强化学习的动态公交控制方法,其特征在于:所述S3中还包括以下步骤:
S3-1:利用开发计划公交运行子模块根据监控子系统收集的历史交通数据开发计划公交运行模块,分析公交车辆到不同站台的计划时间;
S3-2:利用开发时空变化干扰子模块判定计划公交运行会受到干扰,对时空变化干扰进行建模,建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布;
S3-3:利用开发实际公交运行子模块根据站台监控系统收集实时公交数据,分析公交车辆到不同站台的实际时间;
S3-4:利用开发误差动态子模块解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积,获取实际公交运行时间和计划公交运行时间,分析实际公交运行时间和计划公交运行时间之间的时间偏差;
S3-5:根据分析的数据描述动态公交系统,将描述的动态公交系统作为基于分布式DRL公交控制的训练环境,实现对DRL环境的搭建。
9.根据权利要求6所述的一种基于分布式深度强化学习的动态公交控制方法,其特征在于:所述S4中还包括以下步骤:
S4-1:利用构造状态子模块获取搭建真实DRL环境模块分析的动态公交数据,将数据信息融合,形成三维向量构建DRL状态;
S4-2:利用构造成本代价函数子模块使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化,使控制力最小化,保持计划时间的准确性和车头时距的规律性,构造DRL的成本状态;
S4-3:利用构造奖励函数子模块根据成本代价函数构造即刻奖励函数;
S4-4:利用构造最优策略函数子模块,基于奖励函数,在无限时间范围内最大化折扣累积奖励,构造最优策略函数。
10.根据权利要求6所述的一种基于分布式深度强化学习的动态公交控制方法,其特征在于:所述S5中还包括以下步骤:
S5-1:利用策略输出子模块使分布式公交控制器收到在不同的站台公交的状态,根据globalactor网络的最新策略输出控制力来控制公交;
S5-2:利用更新actor网络参数子模块控制actor网络根据策略参数最大化目标函数来更新策略参数;
S5-3:利用更新critic网络子模块通过critic网络评估系统输出行动,critic网络通过更新最小化评估损失函数;
S5-4:利用循环重复子模块重复循环策略输出子模块、更新actor网络参数子模块和更新critic网络子模块,不断更新策略函数,直至达到最优策略函数。
CN202210681154.6A 2022-06-16 2022-06-16 一种基于分布式深度强化学习的动态公交控制系统及方法 Active CN115291508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210681154.6A CN115291508B (zh) 2022-06-16 2022-06-16 一种基于分布式深度强化学习的动态公交控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210681154.6A CN115291508B (zh) 2022-06-16 2022-06-16 一种基于分布式深度强化学习的动态公交控制系统及方法

Publications (2)

Publication Number Publication Date
CN115291508A true CN115291508A (zh) 2022-11-04
CN115291508B CN115291508B (zh) 2023-08-29

Family

ID=83820391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210681154.6A Active CN115291508B (zh) 2022-06-16 2022-06-16 一种基于分布式深度强化学习的动态公交控制系统及方法

Country Status (1)

Country Link
CN (1) CN115291508B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180143635A1 (en) * 2010-06-07 2018-05-24 Affectiva, Inc. Vehicle manipulation using occupant image analysis
US20180364054A1 (en) * 2017-06-15 2018-12-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for building an itinerary-planning model and planning a traveling itinerary
CN111105141A (zh) * 2019-11-23 2020-05-05 同济大学 一种需求响应型公交调度方法
CN111369181A (zh) * 2020-06-01 2020-07-03 北京全路通信信号研究设计院集团有限公司 一种列车自主调度深度强化学习方法和模块
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112632858A (zh) * 2020-12-23 2021-04-09 浙江工业大学 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法
CN113380043A (zh) * 2021-08-12 2021-09-10 深圳市城市交通规划设计研究中心股份有限公司 一种基于深度神经网络计算的公交到站时间预测方法
CN113963553A (zh) * 2021-10-20 2022-01-21 西安工业大学 一种道路交叉口信号灯绿信比控制方法、装置和设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180143635A1 (en) * 2010-06-07 2018-05-24 Affectiva, Inc. Vehicle manipulation using occupant image analysis
US20180364054A1 (en) * 2017-06-15 2018-12-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for building an itinerary-planning model and planning a traveling itinerary
CN111105141A (zh) * 2019-11-23 2020-05-05 同济大学 一种需求响应型公交调度方法
CN111369181A (zh) * 2020-06-01 2020-07-03 北京全路通信信号研究设计院集团有限公司 一种列车自主调度深度强化学习方法和模块
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112632858A (zh) * 2020-12-23 2021-04-09 浙江工业大学 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法
CN113380043A (zh) * 2021-08-12 2021-09-10 深圳市城市交通规划设计研究中心股份有限公司 一种基于深度神经网络计算的公交到站时间预测方法
CN113963553A (zh) * 2021-10-20 2022-01-21 西安工业大学 一种道路交叉口信号灯绿信比控制方法、装置和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
尹璐: "基于深度强化学习的交通灯配时优化技术的研究" *
李雪岩等: "基于深度强化学习的城市公共交通票价优化模型" *
胡潇炜等: "一种结合自编码器与强化学习的查询推荐方法" *

Also Published As

Publication number Publication date
CN115291508B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
Yang et al. Eco-cooperative adaptive cruise control at signalized intersections considering queue effects
CN104809554A (zh) 一种面向道路交通事故应急处置的决策支持系统及方法
Jayawardana et al. Learning eco-driving strategies at signalized intersections
CN103927872A (zh) 一种基于浮动车数据预测多时段行程时间分布的方法
CN102081859A (zh) 一种公交车到站时间预测模型控制方法
CN114863699B (zh) 一种基于数字孪生的城市车路协同交通流预测方法
CN117593167B (zh) 基于大数据的智能城市规划管理方法及系统
DE10057796B4 (de) Verfahren zur fahrzeugindividuellen Verkehrszustandsprognose
CN109064742A (zh) 一种基于svm的自适应公交到站时间预测方法
Piacentini et al. Highway traffic control with moving bottlenecks of connected and automated vehicles for travel time reduction
CN111625989A (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN113537626A (zh) 一种聚合信息差异的神经网络结合时间序列预测的方法
CN105957387A (zh) 一种固定路线车辆的行驶状态预警方法
CN115291508A (zh) 一种基于分布式深度强化学习的动态公交控制系统及方法
Li et al. POINT: Partially observable imitation network for traffic signal control
Liu et al. A complete state transition-based traffic signal control using deep reinforcement learning
Li et al. Large-scale incident-induced congestion: en-route diversions of commercial and non-commercial traffic under connected and automated vehicles
Wang et al. Modeling and simulating of single autonomous vehicle under urban conventional traffic flow
Bashiri Data-driven intersection management solutions for mixed traffic of human-driven and connected and automated vehicles
Pasquale et al. A multi-class decentralised event-triggered control framework for congestion and emission reduction in freeway networks
Gregurić et al. New concepts for urban highways control
Li et al. Eco-driving---current strategies and issues, a preliminary survey
Ling et al. Modelling of traffic capacity under traffic accident
Wang et al. Machine Learning Transit Signal Priority Control of Bus Rapid Transit Based on Connected Vehicles Environment
Lei et al. A Novel Variable Speed Limit Control for Freeway Work Zone Based on Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant