CN115291508B - 一种基于分布式深度强化学习的动态公交控制系统及方法 - Google Patents

一种基于分布式深度强化学习的动态公交控制系统及方法 Download PDF

Info

Publication number
CN115291508B
CN115291508B CN202210681154.6A CN202210681154A CN115291508B CN 115291508 B CN115291508 B CN 115291508B CN 202210681154 A CN202210681154 A CN 202210681154A CN 115291508 B CN115291508 B CN 115291508B
Authority
CN
China
Prior art keywords
bus
time
module
drl
station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210681154.6A
Other languages
English (en)
Other versions
CN115291508A (zh
Inventor
聂庆慧
欧吉顺
张海洋
周扬
王天昊
刘路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN202210681154.6A priority Critical patent/CN115291508B/zh
Publication of CN115291508A publication Critical patent/CN115291508A/zh
Application granted granted Critical
Publication of CN115291508B publication Critical patent/CN115291508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于分布式深度强化学习的动态公交控制系统及方法,包括历史和实时数据收集模块,用于收集研究路网内部的公交历史数据,公交系统设计模块,根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据,搭建真实DRL环境模块,用于根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建,构建DRL模型模块,用于根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励,训练DRL模型模块,用于对DRL模型进行不断训练,学习最优策略,本申请旨在显著减少计划时间和车头时距的偏差,防止偏差向下游累积,避免公交串车现象发生。

Description

一种基于分布式深度强化学习的动态公交控制系统及方法
技术领域
本发明涉及公交系统控制与管理领域,具体是一种基于分布式深度强化学习的动态公交控制系统及方法。
背景技术
随着公共交通的快速发展,由不确定的站间行程时间和不确定的乘客需求率造成的公交串车现象给世界各国人民的出行体验和交通运输效率造成了很多的负面影响,显著增加了经济损失和出行成本,导致严重的尾气和噪声污染。交通部门应该将找出公交串车现象的潜在原因作为首要任务,从而设计合适的公交控制策略。由于公交系统固有的不确定性,公交系统会受到两种形式的干扰,分为内部干扰和外部干扰。内部干扰主要来自不合理的交通设计,包括不合理的时间调度设计、不规范的停车间距等。而外部干扰主要由不确定因素造成,可以归纳为延误干扰(交通拥堵、交通事故、交通信号控制、恶劣天气条件)和不确定的乘客到达流。这些干扰造成了不同的行程时间和停留时间从而导致了公交串车现象的发生,因此我们要在公交控制中考虑延误干扰和乘客需求的不确定性。
目前,现有的研究方法其一是只利用了单一类型的方法控制公交;其二是只考虑了单一类型的不确定性并且运用解析分布处理不确定性;其三是精确求解约束的随机优化问题计算量很大。
所以,需要考虑潜在的不确定性开发一种综合的更通用的公交控制系统,来减少公交串车现象并且优化公交系统。将深度神经网络与强化学习相结合,深度强化学习DRL非常适用于具有随机特性的系统,并且具有很强的泛化能力,此外基于DRL控制的计算量主要集中在训练过程,可以实时实现。多智能体控制理论表明一致性是多智能体网络中的关键属性,它可以有效防止干扰的积累,并且有很大潜力可以显著提高控制性能的鲁棒性。
本发明旨在针对由不确定的站间行程时间和不确定的乘客需求率导致的公交串车问题,通过保持计划时间的准确性、车头时距的规律性和达成了多智能体系统中的一致性,解决了公交串车问题,更好的利用公交历史和实时交通信息,并将这些信息融入到环境中,使每辆公交利用加权下游公交信息,通过一些通用方法来调整公交运行,训练DRL模型,提高训练性能,使得控制算法更加高效。
发明内容
本发明的目的在于提供一种基于分布式深度强化学习的动态公交控制系统及方法,以解决现有技术中的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于分布式深度强化学习的动态公交控制系统,包括:
历史和实时数据收集模块,用于收集研究路网内部的公交历史数据;
公交系统设计模块,根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据;
搭建真实DRL环境模块,用于根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建;
构建DRL模型模块,用于根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励;
训练DRL模型模块,用于对DRL模型进行不断训练,学习最优策略。
进一步设置:公交系统设计模块包括:
公交系统开发子模块,将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统,其中,监控系统包括是路段监控系统、站台监控系统、公交监控系统;
收集交通信息数据子模块,通过路段监控系统检测公交站台每站之间的路段,提供历史和实时交通信息,包括平均行程时间、延误干扰分布,通过站台监控系统实时监控公交站台,提供历史数据和实时数据,历史数据包括期望的乘客需求率、需求不确定性分布,实时数据包括实际乘客需求率、实际站台停留时间,通过公交监控系统,将计划的公交运行嵌入系统,监测实时公交运行,动态计算计划运行和实际运行的偏差。
进一步设置:搭建真实DRL环境模块包括:
开发计划公交运行子模块,根据监控子系统收集的历史交通数据开发计划公交运行模块,分析公交车辆到不同站台的计划时间,设定表示i车到j站的计划时间,rj表示从j站到j+1站的平均行程时间,βjH表示公交在j站服务乘客的期望提留时间,sj表示从j站到j+1站的站台停靠富裕时间,根据公式:
分析得出i车到j+1站的计划时间
开发时空变化干扰子模块,判定计划公交运行会受到干扰,对时空变化干扰进行建模,建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布;
开发实际公交运行子模块,用于根据站台监控系统收集实时公交数据,分析公交车辆到不同站台的实际时间,设定表示i车到j站的实际时间,/>表示i车到j站的实际车头时距,/>表示实际的乘客需求率,/>表示控制力,即公交i从j站到j+1站时间的调整,表示i车从j站到j+1站的干扰延误时间,根据公式:
分析得出i车到j+1站的实际行程时间;
开发误差动态子模块,用于解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积,获取实际公交运行时间和计划公交运行时间,分析实际公交运行时间和计划公交运行时间之间的时间偏差,设定表示i车到j站的计划之间与实际时间之间的偏差时间,根据公式:
设定表示i车到j站的计划车头时距与实际车头时距之间的偏差车头时距,设定H表示计划车头时距,根据公式:
设定表示i车与i-k车在j站的实际车头时距,/>表示i车与i-k车在j站的偏差车头时距,k为i车下游第k辆车,根据公式:
计算得出,当前公交运行偏差时间和偏差车头时距,根据分析数据描述动态公交系统,将描述的动态公交系统作为基于分布式DRL公交控制的训练环境,实现对DRL环境的搭建。
进一步设置:构建DRL模型模块包括:
构造状态子模块,用于获取搭建真实DRL环境模块分析的动态公交数据,将数据信息融合,形成三维向量构建DRL状态,设定加权车头时距的偏差为站台实际停留时间为其中加权车头时距的偏差为:
其中,加权系数αi-m为DRL的超参数,
根据上述数据,设定为DRL的状态表示:
构造成本代价函数子模块,用于使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化,使控制力最小化,保持计划时间的准确性和车头时距的规律性,设定为成本状态表示:
设定上述要素的成本二次型表示为:
其中,Qi为正定对角系数矩阵,根据公式:
其中,α1,i、α2,i、α3,i分别为表示计划时间偏差系数、加权车头时距偏差系数和控制力系数,α3,i表示如下:
其中,αv,i>αu,i时,表示复合策略实施困难,不建议实施;
构造奖励函数子模块,根据成本代价函数,设定在j站的i车的即刻奖励为将即刻奖励设计为指数函数,将奖励值进行归一化在[0,1]内,根据公式
构造最优策略函数子模块,基于奖励函数,在无限时间范围内最大化折扣累积奖励,构造最优策略函数,设定最优策略函数为π*,设定m为状态构造中第m个状态,j+m为第j站的下游后m站,根据公式:
其中,γ表示折扣因素,计算得出最优策略函数π*
进一步设置:训练DRL模型模块包括:
策略输出子模块,用于使分布式公交控制器收到在不同的站台公交的状态,根据global actor网络的最新策略输出控制力来控制公交,设定某一辆公交i在j站的公交状态为设定训练过程中更新的策略函数为π,控制力为/>在通过计算回报函数获得奖励后,公交的状态由/>转移到j+1站的状态/>将/>和/>储存在存储缓存区;
更新actor网络参数子模块,设定策略参数为θ,actor网络负责根据策略参数θ最大化目标函数来更新θ,设定目标函数为LCLIP(θ),根据公式:
上述公式中pt(θ)被clip(pt(θ),1-ε,1+ε)函数限制在1-ε到1+ε内,pt(θ)为更新策略函数πθ和旧策略函数的概率比,根据公式:
上述公式中为优势函数,根据公式:
其中,Rt是T个时间步的折扣累积奖励,设定折扣因素为γ,根据公式:
更新critic网络子模块,用于通过critic网络评估系统输出行动,critic网络通过更新最小化评估损失函数,设定最小化评估损失函数为Lc(φ),根据公式:
循环重复子模块,用于重复策略输出子模块、更新actor网络参数子模块和更新critic网络子模块,不断更新策略函数π,直至达到最优策略函数π*
一种基于分布式深度强化学习的动态公交控制方法,包括:
S1:利用历史和实时数据收集模块收集研究路网内部的公交历史数据;
S2:利用公交系统设计模块根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据;
S3:利用搭建真实DRL环境模块根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建;
S4:利用构建DRL模型模块根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励;
S5:利用训练DRL模型模块对DRL模型进行不断训练,学习最优策略。
进一步设置:S2中还包括以下步骤:
S2-1:利用公交系统开发子模块将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统,其中,监控系统包括是路段监控系统、站台监控系统、公交监控系统;
S2-2:利用收集交通信息数据子模块,通过路段监控系统检测公交站台每站之间的路段,提供历史和实时交通信息,包括平均行程时间、延误干扰分布,通过站台监控系统实时监控公交站台,提供历史数据和实时数据,历史数据包括期望的乘客需求率、需求不确定性分布,实时数据包括实际乘客需求率、实际站台停留时间,通过公交监控系统,将计划的公交运行嵌入系统,监测实时公交运行,动态计算计划运行和实际运行的偏差。
进一步设置:S3中还包括以下步骤:
S3-1:利用开发计划公交运行子模块根据监控子系统收集的历史交通数据开发计划公交运行模块,分析公交车辆到不同站台的计划时间;
S3-2:利用开发时空变化干扰子模块判定计划公交运行会受到干扰,对时空变化干扰进行建模,建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布;
S3-3:利用开发实际公交运行子模块根据站台监控系统收集实时公交数据,分析公交车辆到不同站台的实际时间;
S3-4:利用开发误差动态子模块解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积,获取实际公交运行时间和计划公交运行时间,分析实际公交运行时间和计划公交运行时间之间的时间偏差;
S3-5:根据分析的数据描述动态公交系统,将描述的动态公交系统作为基于分布式DRL公交控制的训练环境,实现对DRL环境的搭建。
进一步设置:S4中还包括以下步骤:
S4-1:利用构造状态子模块获取搭建真实DRL环境模块分析的动态公交数据,将数据信息融合,形成三维向量构建DRL状态;
S4-2:利用构造成本代价函数子模块使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化,使控制力最小化,保持计划时间的准确性和车头时距的规律性,构造DRL的成本状态;
S4-3:利用构造奖励函数子模块根据成本代价函数构造即刻奖励函数;
S4-4:利用构造最优策略函数子模块,基于奖励函数,在无限时间范围内最大化折扣累积奖励,构造最优策略函数。
进一步设置:S5中还包括以下步骤:
S5-1:利用策略输出子模块使分布式公交控制器收到在不同的站台公交的状态,根据global actor网络的最新策略输出控制力来控制公交;
S5-2:利用更新actor网络参数子模块控制actor网络根据策略参数最大化目标函数来更新策略参数;
S5-3:利用更新critic网络子模块通过critic网络评估系统输出行动,critic网络通过更新最小化评估损失函数;
S5-4:利用循环重复子模块重复循环策略输出子模块、更新actor网络参数子模块和更新critic网络子模块,不断更新策略函数,直至达到最优策略函数。
与现有技术相比,本发明的有益效果是:本申请的公交运行动态控制系统及方法考虑了公交运行过程中站间行程时间的不确定性和乘客需求的不确定性,控制模型及方法构建过程综合考虑了计划时间准确性、车头时距规律性和多智能体系统一致性,通过有效地利用公交历史和实时交通信息,并将这些信息融入到多智能体训练环境,构建基于分布式深度强化学习的动态公交鲁棒控制模型及系统,可以显著减少公交运行过程中计划时间和车头时距偏差,并且防止偏差向下游累积,从智能化运行控制的角度有效提升公交运行控制的科学性和可靠性。本申请在控制性能、鲁棒性能和泛化性能方面都有卓越性,可有效减少公交串车问题发生频率,提高公交系统的服务品质。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
图1为本发明一种基于分布式深度强化学习的动态公交控制系统的结构示意图;
图2为本发明一种基于分布式深度强化学习的动态公交控制系统中公交系统设计模块的结构图;
图3为本发明一种基于分布式深度强化学习的动态公交控制系统中搭建真实DRL环境模块的结构图;
图4为本发明一种基于分布式深度强化学习的动态公交控制系统中构建DRL模型模块的结构图;
图5为本发明一种基于分布式深度强化学习的动态公交控制系统中训练DRL模型模块的结构图;
图6为本发明一种基于分布式深度强化学习的动态公交控制方法的流程图;
图7为本发明一种基于分布式深度强化学习的动态公交控制方法中S2的流程图;
图8为本发明一种基于分布式深度强化学习的动态公交控制方法中S3的流程图;
图9为本发明一种基于分布式深度强化学习的动态公交控制方法中S4的流程图;
图10为本发明一种基于分布式深度强化学习的动态公交控制方法中S5的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:请参阅图1~5,本发明实施例中,一种基于分布式深度强化学习的动态公交控制系统,包括:
历史和实时数据收集模块,用于收集研究路网内部的公交历史数据;
公交系统设计模块,根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据,
具体参照图2,公交系统设计模块包括:
公交系统开发子模块,将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统,其中,监控系统包括是路段监控系统、站台监控系统、公交监控系统;
收集交通信息数据子模块,通过路段监控系统检测公交站台每站之间的路段,提供历史和实时交通信息,包括平均行程时间、延误干扰分布,通过站台监控系统实时监控公交站台,提供历史数据和实时数据,历史数据包括期望的乘客需求率、需求不确定性分布,实时数据包括实际乘客需求率、实际站台停留时间,通过公交监控系统,将计划的公交运行嵌入系统,监测实时公交运行,动态计算计划运行和实际运行的偏差。
搭建真实DRL环境模块,用于根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建,
具体参照图3,搭建真实DRL环境模块包括:
开发计划公交运行子模块,根据监控子系统收集的历史交通数据开发计划公交运行模块,分析公交车辆到不同站台的计划时间,设定表示i车到j站的计划时间,rj表示从j站到j+1站的平均行程时间,βjH表示公交在j站服务乘客的期望提留时间,sj表示从j站到j+1站的站台停靠富裕时间,根据公式:
分析得出i车到j+1站的计划时间
开发时空变化干扰子模块,判定计划公交运行会受到干扰,对时空变化干扰进行建模,建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布;
需要具体说明的是,延误干扰分布在[-5s,30s]选取截断正态分布,乘客需求不确定性服从分布设置在[-0.02s,0.02s]中均匀分布。
开发实际公交运行子模块,用于根据站台监控系统收集实时公交数据,分析公交车辆到不同站台的实际时间,设定表示i车到j站的实际时间,/>表示i车到j站的实际车头时距,/>表示实际的乘客需求率,/>表示控制力,即公交i从j站到j+1站时间的调整,表示i车从j站到j+1站的干扰延误时间,根据公式:
分析得出i车到j+1站的实际行程时间;
开发误差动态子模块,用于解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积,获取实际公交运行时间和计划公交运行时间,分析实际公交运行时间和计划公交运行时间之间的时间偏差,设定表示i车到j站的计划之间与实际时间之间的偏差时间,根据公式:
设定表示i车到j站的计划车头时距与实际车头时距之间的偏差车头时距,设定H表示计划车头时距,根据公式:
设定表示i车与i-k车在j站的实际车头时距,/>表示i车与i-k车在j站的偏差车头时距,k为i车下游第k辆车,根据公式:
计算得出,当前公交运行偏差时间和偏差车头时距,根据分析数据描述动态公交系统,将描述的动态公交系统作为基于分布式DRL公交控制的训练环境,实现对DRL环境的搭建。
构建DRL模型模块,用于根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励,
具体参照图4,构建DRL模型模块包括:
构造状态子模块,用于获取搭建真实DRL环境模块分析的动态公交数据,将数据信息融合,形成三维向量构建DRL状态,设定加权车头时距的偏差为站台实际停留时间为其中加权车头时距的偏差为:
其中,加权系数αi-m为DRL的超参数,
根据上述数据,设定为DRL的状态表示:
构造成本代价函数子模块,用于使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化,使控制力最小化,保持计划时间的准确性和车头时距的规律性,设定为成本状态表示:
设定上述要素的成本二次型表示为:
其中,Qi为正定对角系数矩阵,根据公式:
其中,α1,i、α2,i、α3,i分别为表示计划时间偏差系数、加权车头时距偏差系数和控制力系数,α3,i表示如下:
其中,αv,i>αu,i时,表示复合策略实施困难,不建议实施;
构造奖励函数子模块,根据成本代价函数,设定在j站的i车的即刻奖励为将即刻奖励设计为指数函数,将奖励值进行归一化在[0,1]内,根据公式:
构造最优策略函数子模块,基于奖励函数,在无限时间范围内最大化折扣累积奖励,构造最优策略函数,设定最优策略函数为π*,设定m为状态构造中第m个状态,j+m为第j站的下游后m站,根据公式:
其中,γ表示折扣因素,计算得出最优策略函数π*
训练DRL模型模块,用于对DRL模型进行不断训练,学习最优策略,
需要具体说明,训练DRL模型模块内部设有DRL agent,DRL agent为分布式公交控制器,DRL agent能够在公交i在j站台时,收到公交i的状态信息将状态信息/>输出为控制力/>
具体参照图5,训练DRL模型模块包括:
策略输出子模块,用于使分布式公交控制器收到在不同的站台公交的状态,根据global actor网络的最新策略输出控制力来控制公交,设定某一辆公交i在j站的公交状态为设定训练过程中更新的策略函数为π,控制力为/>在通过计算回报函数获得奖励后,公交的状态由/>转移到j+1站的状态/>将/>和/>储存在存储缓存区;
需要具体说明的是,控制力限制在[-u,u]区间内来确保执行的可行性。
更新actor网络参数子模块,设定策略参数为θ,actor网络负责根据策略参数θ最大化目标函数来更新θ,设定目标函数为LCLIP(θ),根据公式:
上述公式中pt(θ)被clip(pt(θ),1-ε,1+ε)函数限制在1-ε到1+ε内,pt(θ)为更新策略函数πθ和旧策略函数的概率比,根据公式:
上述公式中为优势函数,根据公式:
其中,Rt是T个时间步的折扣累积奖励,设定折扣因素为γ,根据公式:
更新critic网络子模块,用于通过critic网络评估系统输出行动,critic网络通过更新最小化评估损失函数,设定最小化评估损失函数为Lc(φ),根据公式:
循环重复子模块,用于重复策略输出子模块、更新actor网络参数子模块和更新critic网络子模块,不断更新策略函数π,直至达到最优策略函数π*
实施例2:具体参照图6,一种基于分布式深度强化学习的动态公交控制方法,包括:
S1:利用历史和实时数据收集模块收集研究路网内部的公交历史数据;
S2:利用公交系统设计模块根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据;
S3:利用搭建真实DRL环境模块根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建;
S4:利用构建DRL模型模块根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励;
S5:利用训练DRL模型模块对DRL模型进行不断训练,学习最优策略。
进一步设置:具体参照图7,S2中还包括以下步骤:
S2-1:利用公交系统开发子模块将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统,其中,监控系统包括是路段监控系统、站台监控系统、公交监控系统;
S2-2:利用收集交通信息数据子模块,通过路段监控系统检测公交站台每站之间的路段,提供历史和实时交通信息,包括平均行程时间、延误干扰分布,通过站台监控系统实时监控公交站台,提供历史数据和实时数据,历史数据包括期望的乘客需求率、需求不确定性分布,实时数据包括实际乘客需求率、实际站台停留时间,通过公交监控系统,将计划的公交运行嵌入系统,监测实时公交运行,动态计算计划运行和实际运行的偏差。
进一步设置:具体参照图8,S3中还包括以下步骤:
S3-1:利用开发计划公交运行子模块根据监控子系统收集的历史交通数据开发计划公交运行模块,分析公交车辆到不同站台的计划时间;
S3-2:利用开发时空变化干扰子模块判定计划公交运行会受到干扰,对时空变化干扰进行建模,建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布;
S3-3:利用开发实际公交运行子模块根据站台监控系统收集实时公交数据,分析公交车辆到不同站台的实际时间;
S3-4:利用开发误差动态子模块解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积,获取实际公交运行时间和计划公交运行时间,分析实际公交运行时间和计划公交运行时间之间的时间偏差;
S3-5:根据分析的数据描述动态公交系统,将描述的动态公交系统作为基于分布式DRL公交控制的训练环境,实现对DRL环境的搭建。
进一步设置:具体参照图9,S4中还包括以下步骤:
S4-1:利用构造状态子模块获取搭建真实DRL环境模块分析的动态公交数据,将数据信息融合,形成三维向量构建DRL状态;
S4-2:利用构造成本代价函数子模块使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化,使控制力最小化,保持计划时间的准确性和车头时距的规律性,构造DRL的成本状态;
S4-3:利用构造奖励函数子模块根据成本代价函数构造即刻奖励函数;
S4-4:利用构造最优策略函数子模块,基于奖励函数,在无限时间范围内最大化折扣累积奖励,构造最优策略函数。
进一步设置:具体参照图10,S5中还包括以下步骤:
S5-1:利用策略输出子模块使分布式公交控制器收到在不同的站台公交的状态,根据global actor网络的最新策略输出控制力来控制公交;
S5-2:利用更新actor网络参数子模块控制actor网络根据策略参数最大化目标函数来更新策略参数;
S5-3:利用更新critic网络子模块通过critic网络评估系统输出行动,critic网络通过更新最小化评估损失函数;
S5-4:利用循环重复子模块重复循环策略输出子模块、更新actor网络参数子模块和更新critic网络子模块,不断更新策略函数,直至达到最优策略函数。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (8)

1.一种基于分布式深度强化学习的动态公交控制系统,其特征在于:包括
历史和实时数据收集模块,用于收集研究路网内部的公交历史数据;
公交系统设计模块,根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据;
搭建真实DRL环境模块,用于根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建;
构建DRL模型模块,用于根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励;
训练DRL模型模块,用于对DRL模型进行不断训练,学习最优策略;
所述公交系统设计模块包括:
公交系统开发子模块,将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统,其中,监控系统包括是路段监控系统、站台监控系统、公交监控系统;
收集交通信息数据子模块,通过路段监控系统检测公交站台每站之间的路段,提供历史和实时交通信息,包括平均行程时间、延误干扰分布,通过站台监控系统实时监控公交站台,提供历史数据和实时数据,历史数据包括期望的乘客需求率、需求不确定性分布,实时数据包括实际乘客需求率、实际站台停留时间,通过公交监控系统,将计划的公交运行嵌入系统,监测实时公交运行,动态计算计划运行和实际运行的偏差;
所述搭建真实DRL环境模块包括:
开发计划公交运行子模块,根据监控子系统收集的历史交通数据开发计划公交运行模块,分析公交车辆到不同站台的计划时间,设定表示i车到j站的计划时间,rj表示从j站到j+1站的平均行程时间,βjH表示公交在j站服务乘客的期望提留时间,sj表示从j站到j+1站的站台停靠富裕时间,根据公式:
分析得出i车到j+1站的计划时间
开发时空变化干扰子模块,判定计划公交运行会受到干扰,对时空变化干扰进行建模,建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布;
开发实际公交运行子模块,用于根据站台监控系统收集实时公交数据,分析公交车辆到不同站台的实际时间,设定表示i车到j站的实际行程时间,/>表示i车到j站的实际车头时距,/>表示实际的乘客需求率,/>表示控制力,即公交i从j站到j+1站时间的调整,表示i车从j站到j+1站的干扰延误时间,根据公式:
分析得出i车到j+1站的实际行程时间;
开发误差动态子模块,用于解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积,获取实际公交运行时间和计划公交运行时间,分析实际公交运行时间和计划公交运行时间之间的时间偏差,设定表示i车到j站的计划之间与实际时间之间的偏差时间,根据公式:
设定表示i车到j站的计划车头时距与实际车头时距之间的偏差车头时距,设定H表示计划车头时距,根据公式:
设定表示i车与i-k车在j站的实际车头时距,/>表示i车与i-k车在j站的偏差车头时距,k为i车下游第k辆车,根据公式:
计算得出,当前公交运行偏差时间和偏差车头时距,根据分析数据描述动态公交系统,将描述的动态公交系统作为基于分布式DRL公交控制的训练环境,实现对DRL环境的搭建。
2.根据权利要求1所述的一种基于分布式深度强化学习的动态公交控制系统,其特征在于:所述构建DRL模型模块包括:
构造状态子模块,用于获取搭建真实DRL环境模块分析的动态公交数据,将数据信息融合,形成三维向量构建DRL状态,设定加权车头时距的偏差为站台实际停留时间为其中加权车头时距的偏差为:
其中,加权系数αi-m为DRL的超参数,
根据上述数据,设定为DRL的状态表示:
构造成本代价函数子模块,用于使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化,使控制力最小化,保持计划时间的准确性和车头时距的规律性,设定为成本状态表示:
设定要素的成本二次型表示为:
其中,Qi为正定对角系数矩阵,根据公式:
其中,α1,i、α2,i、α3,i分别为表示计划时间偏差系数、加权车头时距偏差系数和控制力系数,α3,i表示如下:
其中αv,ih,i时,表示复合策略实施困难,不建议实施;
构造奖励函数子模块,根据成本代价函数,设定在j站的i车的即刻奖励为将即刻奖励设计为指数函数,将奖励值进行归一化在[0,1]内,根据公式:
构造最优策略函数子模块,基于奖励函数,在无限时间范围内最大化折扣累积奖励,构造最优策略函数,设定最优策略函数为π*,设定m为状态构造中第m个状态,j+m为第j站的下游后m站,根据公式:
其中,γ表示折扣因素,计算得出最优策略函数π*
3.根据权利要求1所述的一种基于分布式深度强化学习的动态公交控制系统,其特征在于:所述训练DRL模型模块包括:
策略输出子模块,用于使分布式公交控制器收到在不同的站台公交的状态,根据global actor网络的最新策略输出控制力来控制公交,设定某一辆公交i在j站的公交状态为设定训练过程中更新的策略函数为π,控制力为/>在通过计算回报函数获得奖励后,公交的状态由/>转移到j+1站的状态/>将/> 和/>储存在存储缓存区;
更新actor网络参数子模块,设定策略参数为θ,actor网络负责根据策略参数θ最大化目标函数来更新θ,设定目标函数为LCLIP(θ),根据公式:
上述公式中pt(θ)被clip(pt(θ),1-ε,1+ε)函数限制在1-ε到1+ε内,pt(θ)为更新策略函数πθ和旧策略函数的概率比,根据公式:
上述公式中为优势函数,根据公式:
其中,Rt是T个时间步的折扣累积奖励,是状态/>的期望奖励,设定折扣因素为γ,根据公式:
更新critic网络子模块,用于通过critic网络评估系统输出行动,critic网络通过更新最小化评估损失函数,设定最小化评估损失函数为Lc(φ),根据公式:
循环重复子模块,用于重复策略输出子模块、更新actor网络参数子模块和更新critic网络子模块,不断更新策略函数π,直至达到最优策略函数π*
4.一种基于分布式深度强化学习的动态公交控制方法,其特征在于:采用权利要求1-3任意一项基于分布式深度强化学习的动态公交控制系统,所述控制方法包括以下步骤:
S1:利用历史和实时数据收集模块收集研究路网内部的公交历史数据;
S2:利用公交系统设计模块根据历史数据参数设计公交系统,根据公交系统收集交通信息实时数据;
S3:利用搭建真实DRL环境模块根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建;
S4:利用构建DRL模型模块根据搭建的DRL训练环境,构建DRL模型,包括DRL的状态、动作、策略和奖励;
S5:利用训练DRL模型模块对DRL模型进行不断训练,学习最优策略。
5.根据权利要求4所述的一种基于分布式深度强化学习的动态公交控制方法,其特征在于:所述S2中还包括以下步骤:
S2-1:利用公交系统开发子模块将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统,其中,监控系统包括是路段监控系统、站台监控系统、公交监控系统;
S2-2:利用收集交通信息数据子模块,通过路段监控系统检测公交站台每站之间的路段,提供历史和实时交通信息,包括平均行程时间、延误干扰分布,通过站台监控系统实时监控公交站台,提供历史数据和实时数据,历史数据包括期望的乘客需求率、需求不确定性分布,实时数据包括实际乘客需求率、实际站台停留时间,通过公交监控系统,将计划的公交运行嵌入系统,监测实时公交运行,动态计算计划运行和实际运行的偏差。
6.根据权利要求5所述的一种基于分布式深度强化学习的动态公交控制方法,其特征在于:所述S3中还包括以下步骤:
S3-1:利用开发计划公交运行子模块根据监控子系统收集的历史交通数据开发计划公交运行模块,分析公交车辆到不同站台的计划时间;
S3-2:利用开发时空变化干扰子模块判定计划公交运行会受到干扰,对时空变化干扰进行建模,建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布;
S3-3:利用开发实际公交运行子模块根据站台监控系统收集实时公交数据,分析公交车辆到不同站台的实际时间;
S3-4:利用开发误差动态子模块解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积,获取实际公交运行时间和计划公交运行时间,分析实际公交运行时间和计划公交运行时间之间的时间偏差;
S3-5:根据分析的数据描述动态公交系统,将描述的动态公交系统作为基于分布式DRL公交控制的训练环境,实现对DRL环境的搭建。
7.根据权利要求6所述的一种基于分布式深度强化学习的动态公交控制方法,其特征在于:所述S4中还包括以下步骤:
S4-1:利用构造状态子模块获取搭建真实DRL环境模块分析的动态公交数据,将数据信息融合,形成三维向量构建DRL状态;
S4-2:利用构造成本代价函数子模块使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化,使控制力最小化,保持计划时间的准确性和车头时距的规律性,构造DRL的成本状态;
S4-3:利用构造奖励函数子模块根据成本代价函数构造即刻奖励函数;
S4-4:利用构造最优策略函数子模块,基于奖励函数,在无限时间范围内最大化折扣累积奖励,构造最优策略函数。
8.根据权利要求7所述的一种基于分布式深度强化学习的动态公交控制方法,其特征在于:所述S5中还包括以下步骤:
S5-1:利用策略输出子模块使分布式公交控制器收到在不同的站台公交的状态,根据global actor网络的最新策略输出控制力来控制公交;
S5-2:利用更新actor网络参数子模块控制actor网络根据策略参数最大化目标函数来更新策略参数;
S5-3:利用更新critic网络子模块通过critic网络评估系统输出行动,critic网络通过更新最小化评估损失函数;
S5-4:利用循环重复子模块重复循环策略输出子模块、更新actor网络参数子模块和更新critic网络子模块,不断更新策略函数,直至达到最优策略函数。
CN202210681154.6A 2022-06-16 2022-06-16 一种基于分布式深度强化学习的动态公交控制系统及方法 Active CN115291508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210681154.6A CN115291508B (zh) 2022-06-16 2022-06-16 一种基于分布式深度强化学习的动态公交控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210681154.6A CN115291508B (zh) 2022-06-16 2022-06-16 一种基于分布式深度强化学习的动态公交控制系统及方法

Publications (2)

Publication Number Publication Date
CN115291508A CN115291508A (zh) 2022-11-04
CN115291508B true CN115291508B (zh) 2023-08-29

Family

ID=83820391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210681154.6A Active CN115291508B (zh) 2022-06-16 2022-06-16 一种基于分布式深度强化学习的动态公交控制系统及方法

Country Status (1)

Country Link
CN (1) CN115291508B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105141A (zh) * 2019-11-23 2020-05-05 同济大学 一种需求响应型公交调度方法
CN111369181A (zh) * 2020-06-01 2020-07-03 北京全路通信信号研究设计院集团有限公司 一种列车自主调度深度强化学习方法和模块
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112632858A (zh) * 2020-12-23 2021-04-09 浙江工业大学 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法
CN113380043A (zh) * 2021-08-12 2021-09-10 深圳市城市交通规划设计研究中心股份有限公司 一种基于深度神经网络计算的公交到站时间预测方法
CN113963553A (zh) * 2021-10-20 2022-01-21 西安工业大学 一种道路交叉口信号灯绿信比控制方法、装置和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10627817B2 (en) * 2010-06-07 2020-04-21 Affectiva, Inc. Vehicle manipulation using occupant image analysis
CN107633317B (zh) * 2017-06-15 2021-09-21 北京百度网讯科技有限公司 建立行程规划模型以及规划出游行程的方法、装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105141A (zh) * 2019-11-23 2020-05-05 同济大学 一种需求响应型公交调度方法
CN111369181A (zh) * 2020-06-01 2020-07-03 北京全路通信信号研究设计院集团有限公司 一种列车自主调度深度强化学习方法和模块
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112632858A (zh) * 2020-12-23 2021-04-09 浙江工业大学 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法
CN113380043A (zh) * 2021-08-12 2021-09-10 深圳市城市交通规划设计研究中心股份有限公司 一种基于深度神经网络计算的公交到站时间预测方法
CN113963553A (zh) * 2021-10-20 2022-01-21 西安工业大学 一种道路交叉口信号灯绿信比控制方法、装置和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李雪岩等.基于深度强化学习的城市公共交通票价优化模型.管理工程学报.2022,第36卷(第6期),第144-155页. *

Also Published As

Publication number Publication date
CN115291508A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
Zhou et al. A survey on driving prediction techniques for predictive energy management of plug-in hybrid electric vehicles
CN104809554A (zh) 一种面向道路交通事故应急处置的决策支持系统及方法
CN111340289B (zh) 一种基于遗传算法的公交发车与车速调整优化方法及系统
CN103593535A (zh) 基于多尺度融合的城市交通复杂自适应网络平行仿真系统及方法
CN109191849B (zh) 一种基于多源数据特征提取的交通拥堵持续时间预测方法
Jayawardana et al. Learning eco-driving strategies at signalized intersections
CN112949999A (zh) 一种基于贝叶斯深度学习的高速交通事故风险预警方法
CN103927872A (zh) 一种基于浮动车数据预测多时段行程时间分布的方法
CN112489426A (zh) 一种基于图卷积神经网络的城市交通流量时空预测方案
Valera et al. Driving cycle and road grade on-board predictions for the optimal energy management in EV-PHEVs
Piacentini et al. Highway traffic control with moving bottlenecks of connected and automated vehicles for travel time reduction
Padiath et al. Prediction of traffic density for congestion analysis under Indian traffic conditions
Qi et al. Stochastic approach for short-term freeway traffic prediction during peak periods
CN111081022A (zh) 一种基于粒子群优化神经网络的交通流预测方法
Suh et al. Vehicle speed prediction for connected and autonomous vehicles using communication and perception
CN117593167B (zh) 基于大数据的智能城市规划管理方法及系统
CN111047120A (zh) 一种路-电耦合网络下电动汽车充电负荷预测方法
CN115291508B (zh) 一种基于分布式深度强化学习的动态公交控制系统及方法
Pasquale et al. Supervisory multi-class event-triggered control for congestion and emissions reduction in freeways
Wu et al. An optimal longitudinal control strategy of platoons using improved particle swarm optimization
CN112927508B (zh) 一种考虑多拥堵等级的交通事故时空影响范围估算方法
EP4194249A1 (en) Method for predicting energy consumption-recovery ratio of new energy vehicle, and energy saving control method and system
CN115437377A (zh) 自动驾驶速度规划方法、电子设备、车辆及存储介质
CN114820259A (zh) 一种基于时空深度学习模型的道路车辆尾气二氧化碳排放实时计算方法
Wang et al. Modeling and simulating of single autonomous vehicle under urban conventional traffic flow

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant