CN115291508A

CN115291508A - 一种基于分布式深度强化学习的动态公交控制系统及方法

Info

Publication number: CN115291508A
Application number: CN202210681154.6A
Authority: CN
Inventors: 聂庆慧; 欧吉顺; 张海洋; 周扬; 王天昊; 刘路
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-11-04
Anticipated expiration: 2042-06-16
Also published as: CN115291508B

Abstract

本发明公开了一种基于分布式深度强化学习的动态公交控制系统及方法，包括历史和实时数据收集模块，用于收集研究路网内部的公交历史数据，公交系统设计模块，根据历史数据参数设计公交系统，根据公交系统收集交通信息实时数据，搭建真实DRL环境模块，用于根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建，构建DRL模型模块，用于根据搭建的DRL训练环境，构建DRL模型，包括DRL的状态、动作、策略和奖励，训练DRL模型模块，用于对DRL模型进行不断训练，学习最优策略，本申请旨在显著减少计划时间和车头时距的偏差，防止偏差向下游累积，避免公交串车现象发生。

Description

一种基于分布式深度强化学习的动态公交控制系统及方法

技术领域

本发明涉及公交系统控制与管理领域，具体是一种基于分布式深度强化学习的动态公交控制系统及方法。

背景技术

由于公交系统固有的不确定性，公交系统会受到两种形式的干扰，分为内部干扰和外部干扰。内部干扰主要来自不合理的交通设计，包括不合理的时间调度设计、不规范的停车间距等。而外部干扰主要由不确定因素造成，可以归纳为延误干扰(交通拥堵、交通事故、交通信号控制、恶劣天气条件)和不确定的乘客到达流。这些干扰造成了不同的行程时间和停留时间从而导致了公交串车现象的发生，因此我们要在公交控制中考虑延误干扰和乘客需求的不确定性。

目前，现有的研究方法其一是只利用了单一类型的方法控制公交；其二是只考虑了单一类型的不确定性并且运用解析分布处理不确定性；其三是精确求解约束的随机优化问题计算量很大。

所以，需要考虑潜在的不确定性开发一种综合的更通用的公交控制系统，来减少公交串车现象并且优化公交系统。将深度神经网络与强化学习相结合，深度强化学习DRL非常适用于具有随机特性的系统，并且具有很强的泛化能力，此外基于DRL控制的计算量主要集中在训练过程，可以实时实现。多智能体控制理论表明一致性是多智能体网络中的关键属性，它可以有效防止干扰的积累，并且有很大潜力可以显著提高控制性能的鲁棒性。

本发明旨在针对由不确定的站间行程时间和不确定的乘客需求率导致的公交串车问题，通过保持计划时间的准确性、车头时距的规律性和达成了多智能体系统中的一致性，解决了公交串车问题，更好的利用公交历史和实时交通信息，并将这些信息融入到环境中，使每辆公交利用加权下游公交信息，通过一些通用方法来调整公交运行，训练DRL模型，提高训练性能，使得控制算法更加高效。

发明内容

本发明的目的在于提供一种基于分布式深度强化学习的动态公交控制系统及方法，以解决现有技术中的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于分布式深度强化学习的动态公交控制系统，包括：

历史和实时数据收集模块，用于收集研究路网内部的公交历史数据；

公交系统设计模块，根据历史数据参数设计公交系统，根据公交系统收集交通信息实时数据；

搭建真实DRL环境模块，用于根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建；

构建DRL模型模块，用于根据搭建的DRL训练环境，构建DRL模型，包括DRL的状态、动作、策略和奖励；

训练DRL模型模块，用于对DRL模型进行不断训练，学习最优策略。

进一步设置：公交系统设计模块包括：

公交系统开发子模块，将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统，其中，监控系统包括是路段监控系统、站台监控系统、公交监控系统；

收集交通信息数据子模块，通过路段监控系统检测公交站台每站之间的路段，提供历史和实时交通信息，包括平均行程时间、延误干扰分布，通过站台监控系统实时监控公交站台，提供历史数据和实时数据，历史数据包括期望的乘客需求率、需求不确定性分布，实时数据包括实际乘客需求率、实际站台停留时间，通过公交监控系统，将计划的公交运行嵌入系统，监测实时公交运行，动态计算计划运行和实际运行的偏差。

进一步设置：搭建真实DRL环境模块包括：

开发计划公交运行子模块，根据监控子系统收集的历史交通数据开发计划公交运行模块，分析公交车辆到不同站台的计划时间，设定

表示i车到j站的计划时间，r_j表示从j站到j+1站的平均行程时间，β_jH 表示公交在j站服务乘客的期望提留时间，s_j表示从j站到j+1站的站台停靠富裕时间，根据公式：

分析得出i车到j+1站的计划时间

开发时空变化干扰子模块，判定计划公交运行会受到干扰，对时空变化干扰进行建模，建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布；

开发实际公交运行子模块，用于根据站台监控系统收集实时公交数据，分析公交车辆到不同站台的实际时间，设定

表示i车到j站的实际时间，

表示i车到j站的实际车头时距，

表示实际的乘客需求率，

表示控制力，即公交i从j站到j+1站时间的调整，

表示i 车从j站到j+1站的干扰延误时间，根据公式:

分析得出i车到j+1站的实际行程时间；

开发误差动态子模块，用于解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积，获取实际公交运行时间和计划公交运行时间，分析实际公交运行时间和计划公交运行时间之间的时间偏差，设定

表示i车到j站的计划之间与实际时间之间的偏差时间，根据公式：

设定

表示i车到j站的计划车头时距与实际车头时距之间的偏差车头时距，设定H表示计划车头时距，根据公式：

设定

表示i车与i-k车在j站的实际车头时距，

表示i 车与i-k车在j站的偏差车头时距，k为i车下游第k辆车，根据公式：

计算得出，当前公交运行偏差时间和偏差车头时距，根据分析数据描述动态公交系统，将描述的动态公交系统作为基于分布式DRL公交控制的训练环境，实现对DRL环境的搭建。

进一步设置：构建DRL模型模块包括：

构造状态子模块，用于获取搭建真实DRL环境模块分析的动态公交数据，将数据信息融合，形成三维向量构建DRL状态，设定加权车头时距的偏差为

站台实际停留时间为

其中加权车头时距的偏差为：

其中，加权系数α_i-m为DRL的超参数，

根据上述数据，设定

为DRL的状态表示：

构造成本代价函数子模块，用于使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化，使控制力最小化，保持计划时间的准确性和车头时距的规律性，设定

为成本状态表示：

设定上述要素的成本二次型表示为：

其中，Q_i为正定对角系数矩阵，根据公式：

其中，α_1，i、α_2，i、α_3，i分别为表示计划时间偏差系数、加权车头时距偏差系数和控制力系数，α_3，i表示如下：

其中，α_v,i＞α_u,i时，表示复合策略实施困难，不建议实施；

构造奖励函数子模块，根据成本代价函数，设定在j站的i车的即刻奖励为

将即刻奖励设计为指数函数，将奖励值进行归一化在[0,1] 内，根据公式：

构造最优策略函数子模块，基于奖励函数，在无限时间范围内最大化折扣累积奖励，构造最优策略函数，设定最优策略函数为π^*，设定m 为状态构造中第m个状态，j+m为第j站的下游后m站，根据公式：

其中，γ表示折扣因素，计算得出最优策略函数π^*。

进一步设置：训练DRL模型模块包括：

策略输出子模块，用于使分布式公交控制器收到在不同的站台公交的状态，根据global actor网络的最新策略输出控制力来控制公交，设定某一辆公交i在j站的公交状态为

设定训练过程中更新的策略函数为π，控制力为

在通过计算回报函数获得奖励

后，公交的状态由

转移到j+1站的状态

将

和

储存在存储缓存区；

更新actor网络参数子模块，设定策略参数为θ，actor网络负责根据策略参数θ最大化目标函数来更新θ，设定目标函数为L^CLIP(θ)，根据公式：

上述公式中p_t(θ)被clip(p_t(θ),1-ε,1+ε)函数限制在1-ε到1+ε内， p_t(θ)为更新策略函数π_θ和旧策略函数

的概率比，根据公式：

上述公式中

为优势函数，根据公式：

其中，R_t是T个时间步的折扣累积奖励，设定折扣因素为γ，根据公式：

更新critic网络子模块，用于通过critic网络评估系统输出行动， critic网络通过更新最小化评估损失函数，设定最小化评估损失函数为 L_c(φ)，根据公式：

循环重复子模块，用于重复策略输出子模块、更新actor网络参数子模块和更新critic网络子模块，不断更新策略函数π，直至达到最优策略函数π^*。

一种基于分布式深度强化学习的动态公交控制方法，包括：

S1：利用历史和实时数据收集模块收集研究路网内部的公交历史数据；

S2：利用公交系统设计模块根据历史数据参数设计公交系统，根据公交系统收集交通信息实时数据；

S3：利用搭建真实DRL环境模块根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建；

S4：利用构建DRL模型模块根据搭建的DRL训练环境，构建DRL模型，包括DRL的状态、动作、策略和奖励；

S5：利用训练DRL模型模块对DRL模型进行不断训练，学习最优策略。

进一步设置：S2中还包括以下步骤：

S2-1:利用公交系统开发子模块将开发的公交系统设计为三个监控子系统和一个基于DRL的综合控制系统，其中，监控系统包括是路段监控系统、站台监控系统、公交监控系统；

S2-2:利用收集交通信息数据子模块，通过路段监控系统检测公交站台每站之间的路段，提供历史和实时交通信息，包括平均行程时间、延误干扰分布，通过站台监控系统实时监控公交站台，提供历史数据和实时数据，历史数据包括期望的乘客需求率、需求不确定性分布，实时数据包括实际乘客需求率、实际站台停留时间，通过公交监控系统，将计划的公交运行嵌入系统，监测实时公交运行，动态计算计划运行和实际运行的偏差。

进一步设置：S3中还包括以下步骤：

S3-1：利用开发计划公交运行子模块根据监控子系统收集的历史交通数据开发计划公交运行模块，分析公交车辆到不同站台的计划时间；

S3-2：利用开发时空变化干扰子模块判定计划公交运行会受到干扰，对时空变化干扰进行建模，建模内容包括公交延误干扰服从分布和乘客需求不确定性服从分布；

S3-3：利用开发实际公交运行子模块根据站台监控系统收集实时公交数据，分析公交车辆到不同站台的实际时间；

S3-4：利用开发误差动态子模块解决时空变化干扰导致的公交运行不稳定和公交实际运行的误差累积，获取实际公交运行时间和计划公交运行时间，分析实际公交运行时间和计划公交运行时间之间的时间偏差；

S3-5：根据分析的数据描述动态公交系统，将描述的动态公交系统作为基于分布式DRL公交控制的训练环境，实现对DRL环境的搭建。

进一步设置：S4中还包括以下步骤：

S4-1：利用构造状态子模块获取搭建真实DRL环境模块分析的动态公交数据，将数据信息融合，形成三维向量构建DRL状态；

S4-2：利用构造成本代价函数子模块使公交运行计划时间与实际时间的偏差和加权车头时距的偏差最小化，使控制力最小化，保持计划时间的准确性和车头时距的规律性，构造DRL的成本状态；

S4-3：利用构造奖励函数子模块根据成本代价函数构造即刻奖励函数；

S4-4：利用构造最优策略函数子模块，基于奖励函数，在无限时间范围内最大化折扣累积奖励，构造最优策略函数。

进一步设置：S5中还包括以下步骤：

S5-1：利用策略输出子模块使分布式公交控制器收到在不同的站台公交的状态，根据global actor网络的最新策略输出控制力来控制公交；

S5-2：利用更新actor网络参数子模块控制actor网络根据策略参数最大化目标函数来更新策略参数；

S5-3：利用更新critic网络子模块通过critic网络评估系统输出行动，critic网络通过更新最小化评估损失函数；

S5-4：利用循环重复子模块重复循环策略输出子模块、更新actor 网络参数子模块和更新critic网络子模块，不断更新策略函数，直至达到最优策略函数。

与现有技术相比，本发明的有益效果是：本申请的公交运行动态控制系统及方法考虑了公交运行过程中站间行程时间的不确定性和乘客需求的不确定性，控制模型及方法构建过程综合考虑了计划时间准确性、车头时距规律性和多智能体系统一致性，通过有效地利用公交历史和实时交通信息，并将这些信息融入到多智能体训练环境，构建基于分布式深度强化学习的动态公交鲁棒控制模型及系统，可以显著减少公交运行过程中计划时间和车头时距偏差，并且防止偏差向下游累积，从智能化运行控制的角度有效提升公交运行控制的科学性和可靠性。本申请在控制性能、鲁棒性能和泛化性能方面都有卓越性，可有效减少公交串车问题发生频率，提高公交系统的服务品质。

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

图1为本发明一种基于分布式深度强化学习的动态公交控制系统的结构示意图；

图2为本发明一种基于分布式深度强化学习的动态公交控制系统中公交系统设计模块的结构图；

图3为本发明一种基于分布式深度强化学习的动态公交控制系统中搭建真实DRL环境模块的结构图；

图4为本发明一种基于分布式深度强化学习的动态公交控制系统中构建DRL模型模块的结构图；

图5为本发明一种基于分布式深度强化学习的动态公交控制系统中训练DRL模型模块的结构图；

图6为本发明一种基于分布式深度强化学习的动态公交控制方法的流程图；

图7为本发明一种基于分布式深度强化学习的动态公交控制方法中 S2的流程图；

图8为本发明一种基于分布式深度强化学习的动态公交控制方法中 S3的流程图；

图9为本发明一种基于分布式深度强化学习的动态公交控制方法中 S4的流程图；

图10为本发明一种基于分布式深度强化学习的动态公交控制方法中 S5的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：请参阅图1～5，本发明实施例中，一种基于分布式深度强化学习的动态公交控制系统，包括：

公交系统设计模块，根据历史数据参数设计公交系统，根据公交系统收集交通信息实时数据，

具体参照图2，公交系统设计模块包括：

搭建真实DRL环境模块，用于根据公交系统提供的历史和实时数据对真实DRL公交控制的训练环境进行搭建，

具体参照图3，搭建真实DRL环境模块包括：

分析得出i车到j+1站的计划时间

需要具体说明的是，延误干扰分布在[-5s,30s]选取截断正态分布，乘客需求不确定性服从分布设置在[-0.02s,0.02s]中均匀分布。

表示i车到j站的实际时间，

表示i车到j站的实际车头时距，

表示实际的乘客需求率，

表示控制力，即公交i从j站到j+1站时间的调整，

表示i 车从j站到j+1站的干扰延误时间，根据公式:

分析得出i车到j+1站的实际行程时间；

设定

设定

表示i车与i-k车在j站的实际车头时距，

构建DRL模型模块，用于根据搭建的DRL训练环境，构建DRL模型，包括DRL的状态、动作、策略和奖励，

具体参照图4，构建DRL模型模块包括：

站台实际停留时间为

其中加权车头时距的偏差为：

其中，加权系数α_i-m为DRL的超参数，

根据上述数据，设定

为DRL的状态表示：

为成本状态表示：

设定上述要素的成本二次型表示为：

其中，Q_i为正定对角系数矩阵，根据公式：

其中，γ表示折扣因素，计算得出最优策略函数π^*。

训练DRL模型模块，用于对DRL模型进行不断训练，学习最优策略，

需要具体说明，训练DRL模型模块内部设有DRL agent，DRL agent 为分布式公交控制器，DRL agent能够在公交i在j站台时，收到公交i 的状态信息

将状态信息

输出为控制力

具体参照图5，训练DRL模型模块包括：

设定训练过程中更新的策略函数为π，控制力为

在通过计算回报函数获得奖励

后，公交的状态由

转移到j+1站的状态

将

和

储存在存储缓存区；

需要具体说明的是，控制力

限制在[-u,u]区间内来确保执行的可行性。

的概率比，根据公式：

上述公式中

为优势函数，根据公式：

实施例2：具体参照图6，一种基于分布式深度强化学习的动态公交控制方法，包括：

进一步设置：具体参照图7，S2中还包括以下步骤：

进一步设置：具体参照图8，S3中还包括以下步骤：

进一步设置：具体参照图9，S4中还包括以下步骤：

进一步设置：具体参照图10，S5中还包括以下步骤：

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。