CN116307448B

CN116307448B - 一种基于多智能体强化学习的公交智能调度方法

Info

Publication number: CN116307448B
Application number: CN202211565540.5A
Authority: CN
Inventors: 李俊俊; 董皓; 赵学东; 陶黎明; 梁超; 张迎
Original assignee: Aerospace Internet Of Things Technology Co ltd
Current assignee: Aerospace Internet Of Things Technology Co ltd
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2024-04-02
Anticipated expiration: 2042-12-07
Also published as: CN116307448A; WO2024119845A1

Abstract

本发明公开了一种基于多智能体强化学习的公交智能调度方法，包括以下步骤：基于客流数据、站点信息数据、到离站数据和车辆发车数据构建等待时间模型和插值模型；基于所述等待时间模型，获得每个乘客的等待时间，基于所述插值模型，获得站点之间不同时间段的速度；基于多智能体强化学习算法对所述每个乘客的等待时间和站点之间不同时间段的速度、计划发车间隔进行训练，获得最终发车间隔，进而获得每条线路每辆车的发车时间，实现公交车辆调度。本发明一方面能够满足乘客较少的等待时间，另一方面考虑公交公司的成本，进一步提升公交车运营效率，以及乘客的满意度，在智能公交领域具有较高的推广价值，为管理者提供高效智能的管理手段。

Description

一种基于多智能体强化学习的公交智能调度方法

技术领域

本发明属于智能交通技术领域，特别是涉及一种基于多智能体强化学习的公交智能调度方法。

背景技术

针对公交系统中时间表设计以及车辆排班的优化，国内外学者已经使用多种方法，包括精确算法、启发式算法、时空网络分析、仿真等研究方法，从载客率、乘客换乘、运营成本等方面对问题进行研究，但是现有研究还存在以下问题：

1.现有的研究产生的公交车调度时间表一旦确定之后在公交车的行驶过程中就不会在改变了，不能根据实时交通情况进行调节。

2.使用基于传统数学方法的算法进行公交车调度问题的求解不能很好的拟合问题，导致算法的效果欠佳。

基于以上问题，本发明提出一种基于多智能体强化学习的公交智能调度方法以解决现有技术中存在的问题。

发明内容

本发明的目的是提供一种基于多智能体强化学习的公交智能调度方法，该方法通过汇聚客流数据、站点信息数据、到离站数据、车辆发车数据，构建等待时间模型和插值模型，得到每一个乘客的等待时间和站点之间不同时间的速度，结合公交每条线路实际发车业务场景，对强化学习的状态空间以及奖励函数等进行设计，提出了多智能体强化学习算法，使用深度学习使得算法拥有更强的泛化能力，融入计划发车间隔数据去训练多智能体强化学习算法，最终给出最优的发车间隔，进而得到每条线路每辆车的发车时间，实现公交车辆调度目的，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于多智能体强化学习的公交智能调度方法，包括以下步骤：

基于客流数据、站点信息数据、到离站数据和车辆发车数据构建等待时间模型和插值模型；

基于所述等待时间模型，获得每个乘客的等待时间，基于所述插值模型，获得站点之间不同时间段的速度；

获取计划发车间隔，基于多智能体强化学习算法对所述每个乘客的等待时间、站点之间不同时间段的速度和计划发车间隔进行训练，获得最终发车间隔，进而获得每条线路每辆车的发车时间，实现公交车辆调度。

可选地，基于等待时间模型获得每个乘客的等待时间的过程包括：获取到站乘客之间的到站间隔，基于所述到站乘客之间的到站间隔获得每个乘客的到站时间；基于所述每个乘客的到站时间和每个乘客的上车时间，获得每个乘客的等待时间。

可选地，基于插值模型获得站点之间不同时间段的速度的过程包括：选取目标线路的任意两个站点，获取两个站点之间的路段距离以及所有公交车到达两个站点的到站时间；基于所述到站时间获取所有公交车在两个站点间不同时间段的时间间隔；基于所述路段距离和两个站点间不同时间段的时间间隔，获得所有公交车的两个站点间不同时间段的平均速度；基于所述不同时间段的平均速度，利用插值的方式获得两个站点间所有时间段的速度，进而获得所有公交线路的任意两个站点间所有时间段的速度。

可选地，所述多智能体包括若干个智能体，其中，每个智能体均表示一条公交线路，每条公交线路均包括上行智能体和下行智能体；若干条公交线路进行耦合处理组成了多智能体调度。

可选地，基于多智能体强化学习算法获得最终发车间隔的过程包括：基于每个智能体获取观察值，基于所述观察值对第一传入网络和第二传入网络进行训练，进而获得对应的第一发车间隔和第二发车间隔；若所述第一发车间隔和第二发车间隔的差值小于间隔阈值，则最终发车间隔为所述第一发车间隔和第二发车间隔的平均值，若所述发车间隔的差值大于间隔阈值，则最终发车间隔为间隔阈值，并继续对第一传入网络和第二传入网络进行训练；

所述观察值包括：路上行驶的公交车数量、当前的时间、计划发车间隔、每辆车在上一个路段的行驶时间、每辆车在上一个路段的路程、每辆车上的乘客数。

可选地，基于多智能体强化学习算法获得最终发车间隔的过程还包括：基于所述多智能体强化学习算法构建双目标函数，基于所述双目标函数获取车辆运营成本和乘客等待成本，并对所述车辆运营成本和乘客等待成本进行单目标优化。

可选地，基于多智能体强化学习算法获得最终发车间隔的过程还包括：基于所述双目标函数构建奖励函数，基于所述奖励函数获取所述第一传入网络和第二传入网络的奖励。

可选地，对第一传入网络进行训练，获得第一发车间隔的过程包括：以公交运营期间的每一次发车时间为决策点，基于所述第一传入网络与环境进行交互，获得均值和方差，基于所述均值和方差获得正态分布，并对所述正态分布进行采样；基于所述均值、方差、采样值、观察值和与环境进行交互获得的奖励，更新所述第一传入网络的网络参数，获得训练后的第一传入网络；基于所述训练后的第一传入网络、每个决策点的乘客实时需求以及交通状况，获取对应的第一发车间隔。

可选地，对第二传入网络进行训练，获得第二发车间隔的过程包括：基于所述第二传入网络与环境进行交互，获得环境观测值，基于所述环境观测值所做的决策为发车与不发车，根据当前的交互动作获得奖励；当所述奖励达到最大值时，获得最终的环境观测值；基于所述最终的环境观测值及对应的当前交互动作、对应的奖励和前一个环境观测值，更新所述第二传入网络的网络参数，获得训练后的第二传入网络；基于所述训练后的传入网络，获得对应的第二发车间隔。

可选地，所述环境观测值包括：当前时刻线路上正在运行的车辆数、当前时刻、计划发车间隔、上一个站到当前站的运行时间、上一个站到当前站的距离和上一个站到当前站期间车上的乘客数量。

本发明的技术效果为：

本发明实现了一种基于多智能体强化学习的公交智能调度方法，该方法可以实时对当前交通情况进行判断并给出最优的公交车调度策略，一方面能够满足乘客较少的等待时间，另一方面考虑公交公司的成本，进一步提升公交车运营效率，以及乘客的满意度，在智能公交领域具有较高的推广价值，为管理者提供高效智能的管理手段。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的基于多智能体强化学习的公交车调度方法流程图；

图2为本发明实施例中的多智能体强化学习算法实现发车间隔流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

公交线路一般有上下两个方向。在每个方向上都有一个出发控制点(出发站)，控制该方向的公交出发。为了实时调整出发间隔，本实施例需要设计一个控制器，根据每个决策点的乘客实时需求和交通状况来决定间隔多久发下一趟车，本实施例以公交运营期间的每一次发车时间为决策点，这样，本实施例就把公交时刻表优化问题转化为一个序列决策问题。序列决策问题可以建模为离散时间马尔可夫决策过程(MDP)，综合考虑满载率、空载率、等待时间和滞留旅客数量来向深度强化学习(DRL)系统提供即时性能反馈的奖励。深度强化学习作为智能决策的主要方法，可以在不使用任何人工准备的训练数据或人类专业知识的情况下自动学习策略。本实施例利用DRL自适应确定下一班车发车时间。为了更好的模型性能以及更快的训练速度，本实施例在框架中加入了人类的专业知识，实现了根据人类经验和客流动态生成公交时间表。

强化学习的决策过程如下：从第一分钟的公交服务期间(第一趟和最后一趟公交的出发时间是公交公司预先确定的)，控制器(agent)在每次发车时决定下次发车的间隔。每当agent采取一个动作后，公交系统的状态就会随之变化(乘客信息，交通信息，公交车信息等)，同时，agent会立即得到一个奖励值，然后，agent在下一次发车时继续根据新的状态做出新的决策，系统重复以上过程直到最后一班车发出。

公交时间表问题是一个不完全信息的MDP，在模型决策过程中加入人类的专业知识，显然有助于模型达到更好的性能表现，同时也能加快模型收敛速度。本实施例通过将当前时刻映射到人类定制的公交时间表的某个区间上，取出这个时间间隔作为基本间隔HW。同时，DRL模型根据观察到的信息，输出一个Δ值来适当调整具体的间隔时间，这体现了时间表的动态性。

本实施例的目的在于提出一种基于多智能体强化学习的公交智能调度方法，该方法通过汇聚客流数据、站点信息数据、到离站数据、车辆发车数据，构建等待时间模型和插值模型，得到每一个乘客的等待时间和站点之间不同时间的速度，结合公交每条线路实际发车业务场景，对强化学习的状态空间以及奖励函数等进行设计，提出了多智能体强化学习算法，使用深度学习使得算法拥有更强的泛化能力，融入计划发车间隔数据去训练多智能体强化学习算法，最终给出最优的发车间隔，进而得到每条线路每辆车的发车时间，实现公交车辆调度目的，该方法可以实时对当前交通情况进行判断并给出最优的公交车调度策略，一方面能够满足乘客较少的等待时间，另一方面节省了公交公司的成本，能进一步提升公交车运营效率，以及乘客的满意度。与基于传统数学方法的算法相比，强化学习的策略可以实时对当前交通情况进行判断并给出最优的公交车调度策略。公交车调度优化旨在满足乘客以及公交车企业的需求，通过对强化学习的状态空间以及奖励函数进行设计，使用基于深度学习的多智能体强化学习算法，利用深度神经网络来拟合多智能体强化学习模型的价值函数以及策略函数，使用深度学习使得模型拥有更强的泛化能力。

图1是本实施例中一种基于多智能体强化学习的公交智能调度方法的流程图，具体包括如下步骤：

步骤一

先获取客流数据、站点信息数据、到离站数据、车辆发车数据；

从现实中采集到的数据，由于各种各样的原因，会有一些异常数据。在预处理阶段，需要把异常数据修正或删除(数据清洗)，然后将得到的数据转换成特定的格式，方便后续读取和使用。

首先将得到的客流数据和到离站数据结合，字段内容包括站序、站点名称、方向、上车人数、下车人数、到站时间、离站时间、趟次。经过处理后得到“干净”的数据，转换成特定的格式存入文件以备使用，还有一些其他的数据，例如车站之间的距离，是从百度地图里获取的。

步骤二

利用等待时间模型得到每一个乘客的等待时间；利用插值模型得到站点之间不同时间的速度；

等待时间模型具体步骤如下：

A1、计算到站乘客之间的到站间隔。设某公交车站相邻两辆公交车在此站的上车人数为m，n，离站时间分别为l，k，则从l到k这段时间内有n人陆续到达该公交站点，这n名乘客的到站时间按均匀分布处理，则每个乘客的到站间隔为：

A2、计算得到了每个乘客的到站时间。第1个乘客的到站时间为第2个乘客的到站时间为/>……第n个乘客的到站时间为/>

A3、结合这n个乘客的上车时间以及第2步得到的每个乘客的到站时间，就能求出每一个乘客的等待时间，每一个乘客的等待时间＝每个乘客的上车时间-每个乘客的到站时间。

插值模型具体步骤如下：

设某线路l_v的公交车编号分别为Bus₁,Bus₂，……Bus_t，t为l_v线路公交车的数量，v∈[1,r]，r为所有线路的数量。

B1、获取l_v线路某两个站之间的路段距离，以及所有公交车到达这两个站之间的时间，设两个站点分别为A，B，距离为length_A,B，Bus₁公交车辆在一天时间内到达这两个站时间分别为T_A1,T_B1,T_A2,T_B2…；

B2、计算Bus₁公交车在A，B两个站点之间的时间间隔，则T_Bus1(T_A1-T_B1)＝T_B1-T_A1,TBus1(T_A2-T_B2)＝T_B2-T_A2,……，同理可得其他公交车辆在A,B路段内不同时间段内的时间间隔；

B3、获取两个站之间的路段在不同时间的速度。速度是从历史数据中获取的，有时间和空间两个维度对于每一段路，用历史数据计算出平均速度来反映这段路的路况，而每段路的不同时间段的速度又不一样，也需要根据历史数据计算，Bus1公交车在T_A1-T_B1时间段内的平均速度为Bus1公交车在T_A2-T_B2时间段内的平均速度为，……，同理可得其他公交车辆在A,B路段内不同时间段内的平均速度；

B4、计算一天所有时间段内的A，B两路段速度。对于一段路而言，不是每一个时间段都有车辆在行驶，也就是并不是每一个时间段都能有历史数据参考，因为路况也不会突然发生很剧烈的变化，对于空白的时间段，直接采用插值的方式计算速度，即空白时间段内的速度可以由起始时间的速度V₁和结束时间的速度V₂与这段时间段内组成斜线的斜率求得，假设空白时间段为K1-K2，K3为K1和K2之间的时间点，则该空白时间段内的斜率K3时间点的速度/>同理可以得到其他空白时间段内的速度；

B5、重复第1步和第4步的步骤，计算其他线路其他路段内一天不同时间段的速度；

步骤三

利用多智能体强化学习算法得到实际发车间隔，如图2多智能体强化学习算法实现发车间隔流程图所示；

单一智能体意味着只有一个智能体做出决策。相反，多智能体允许多个智能体共存，每个智能体可以建立自己的策略，本实施例的算法选择了具有耦合的不同公交线路同时进行优化。公交运营时间、车队规模、公交运力等公交线路条件存在异质性，每条公交线路都应该有一个独特的策略来满足这一要求。因此，本实施例采用多智能体框架，用一个智能体表示一条线路，每条线路又包括2个智能体，分别是上行智能体和下行智能体，如此组成多智能体调度。

多智能体强化学习算法具体步骤如下：

C1、获取观察值(路上行驶的公交车数量、当前的时间、计划发车间隔、每辆车在上一个路段的行驶时间、每辆车在上一个路段的路程、每辆车上的乘客数)；其中，本实施例的初始计划发车间隔可由人工时刻表获得，基于多智能体强化学习算法获得最终的发车间隔之后，可根据预测的最终的发车间隔实时更新计划发车间隔，将实时更新的计划间隔再输入到多智能体强化学习算法中，通过不断地更新迭代的过程直至获得满足条件的发车间隔，进而获得发车时间，完成公交车的智能调度。

C2、设计目标函数，一个合理设计的公交时间表要同时考虑公交营运商和乘客的利益，基于多智能体强化学习算法构造了一个双目标函数来计算运营成本和乘客成本，并将其转化为单目标优化问题。

设J表示所有公交站点的集合，j表示第j个公交站点，L表示感兴趣的公交线路集合，l表示第l条公交线路，路线l可以用一系列公交站点表示，这些站点的顺序表示该路线的访问顺序，表示l线路第k次行程的第j-1个站点到第j个站点的行程时间，/>表示l线路第k次行程中从第j个站点出发时车上的乘客人数，h(j,k,l)表示停留时间，/>表示l路线第k次出行的乘客在第j个公交车站的总等待时间。

车辆运营成本：运营公交车的数量直接关系到公交运营商的运营成本。长时间运行的公共汽车比短时间运行的公共汽车花费更多。因此，本实施例假设车辆总运行成本与所有行程的总运行时间成正比，用f1表示为：

其中α为平均车辆运营成本，每名乘客的上车和下车时间分别用h_a和h_b表示，u_jk和d_jk分别表示l线第k次行程在j站上车和下车的乘客数量。

乘客等待成本：较低的乘客等候时间意味着较好的公共汽车服务。乘客等待成本f2可表示为：

其中β为每名乘客的平均等待成本。

公交运营与乘客等待成本结合为一个多目标优化问题，不存在能够同时优化每个目标的单一解决方案。因此，本实施例用统一的式子将原来的多目标优化转化为单目标优化，如下：

minZ＝f₁+f₂

C3、设计奖励函数，奖励函数评估agent的每一个行为的表现。一个精心设计的奖励函数会带来一个有效和高效的学习过程。本实施例根据第2步中的目标函数设计奖励函数，以优化公交调度模型。如前所述，合理的公交时刻表考虑了公交运营和乘客成本。本实施例的奖励函数也应该包含这两个部分。在动作步骤K中，奖励函数r_t可表示为：

r_1t＝-α′Δt_K·g(t，l)

r_2t＝-β′Δt_K·u(t，l)

r_t＝r_1t+r_2t

其中，α′和β′均为权重系数。Δt_K表示第K次动作到第K-1次动作的时间间隔。g(t，l)表示在时间戳t时，在线路l上正在跑的公交车数量。u(t，1)表示在时间戳t时，在线路l的所有车站的所有等待人数。注意到奖励函数和目标函数之间的关系可以表述为

一般来说，衰减的累积奖励可以用期望收益Rt表示为

其中，γ(0＜γ≤1)表示衰减因子。

C4、训练第一传入网络PP0，得到发车间隔，第一传入网络训练分为两个阶段，第一阶段是Agent和环境交互产生数据，第二阶段是Agent利用产生的数据来完成对神经网络参数的更新，交替进行两个阶段。Actor和Critic接收到环境的观察值后，产生输出。其中，Actor网络输出一个均值和一个方差，Critic网络输出一个数值value，用输出的均值和方差得到一个正态分布，从这个正态分布里采样一个值作为Action。动作的产生(HW即发车间隔，action_scale和HW人工为超参数，分别设为60和900)，Storage用于存储agent和环境交互收集到的数据。

第一传入网络与环境交互的详细过程具体流程如下：

1.完成环境的初始化，获取最初的观察值obs。

2.将obs输入到Actor和Critic网络，得到网络的输出action，value和logP(aciton)。

3.将Actor输出的action输入到环境，完成和环境的交互，此时又能得到下一时刻的观察值obs，以及本次交互得到的奖励reward。reward计算公式如下：

r_1t＝-α′·g(t，l)

r_2t＝-β′·u(t，l)

Reward＝r1t+r2t

4.重复numsteps次2到3步。

5.将以上收集到的数据(action，value，logP(aciton)，obs，reward)存入storage。

6.按照收集数据时的执行顺序，从storage中依次取出数据，输入到Actor和Critic网络中，计算loss，更新网络参数。Loss函数如下：

7.重复numepoch次第6步。

8.重复1-7步N次。

9.结束训练。

C5、训练第二传入网络DQN，得到发车间隔，设fleetsize即路上行驶的公交车数量，fleetsize越小，发车频率越低，总的运行时间也就越短；首先本实施例的状态输入来自于根据历史数据生成的模拟环境，这里的状态也就是环境的观测值s。

s＝[fleetsize，t，headway，*traveltime，*distance，*onboard]，

其中fleetsize表示当前时刻t线路上正在运行的车辆数，t表示当前时刻，headway表示网络所预测的发车间隔，带有星号的代表数组，数组的长度为人为设定的max_fleet_size，也就是线路上某个时刻正在运行的车辆的最大值。traveltime表示上一个站到当前站的运行时间，distance表示上一个站到当前站的距离，onboard表示上一个站到当前站期间车上的乘客数量。

需要重点关注的是其中的headway，初始状态下headway被设置为900(15分钟)，其值会根据DQN输出的动作action进行变化。action设置如下：

A＝[-120，-60，0，60，120]

action＝A[i]

action代表在headway上增加或者减少的值。环境每一次step，headway都会被重新根据action来计算。

headway′＝headway+Δheadway

上面的Δheadway即是action的数值。

本实施例需要根据环境观测值所做的决策为发车与不发车，为了保证模型的稳定性，本实施例设定每60秒才允许做一次决策。发车决策由如下条件决定：

t-t_x>headway&&fleetsize＜max_fleetsize_size

上式中，t代表当前时刻，t_x代表上一次发车的时刻。

另外模型学习的目的是使得Reward，也就是奖励达到最大值。模型的决策网络只要是Q网络，Q网络决策的方式是通过估计每种可能的action的价值。然后通过选取价值最大的action作为下一次动作。在上述中，所有可能的action，

A＝[-120，-60，0，60，120]

Q网络将给出每一种action对应的价值

V＝[Q₀，Q₁，Q₂，Q₃，Q₄]

选出max(V)对应action作为下一次动作。

第二传入网络与环境交互的详细过程具体流程如下：

1.环境初始化，执行reset()函数。这时obs设置为初始值。

2.obs传入第二传入网络的Q网络。这里的Q网络用于估计动作的价值，Q网络根据obs从所有action值中选出使得Q值最大的一个作为下一个动作。(由于本实施例采用Ape-xDQN，每一个actor共享Q网络，但由于探索率不同，将可能产生不同的action，因此每一个actor将有一条单独的路线，但收集数据共用于更新)

3.环境执行下一步动作，得到一个新的观测值obs1，同时本实施例可以计算出当前这个动作的reward。计算公式如下：

r₁＝-α×fleetsize

r₂＝-β×waiting_number

Reward＝r₁+r₂

其中α，β为超参数。分别对应单位车辆的运作代价，每个人的等待代价。

4.将(s_t，action，reward，s_t+1)存入经验回放池(Ape-xDQN有多个actor，每一个actor这一步都会存入一条数据。)

5.从经验回放池中采样出一条优先级最高的数据(s_t，action，reward，s_t+1)

6.根据sample出来的数据更新Q网络。Loss函数如下：

Q₁＝r+λmaxQ(s_t+1，a)

Q₂＝Q(s_t，a)

Loss＝(Q₁-Q₂)²

其思想为尽量使得Q网络估计出的value更接近于实际。上式中λ为超参数代表discountfactor，本实施例将其设为0.99。

7.重复以上步骤

C6、对第4步和第5步得到的发车间隔进行比较，如果两者发车间隔差值小于间隔阈值，则最终发车间隔等于两者发车间隔的平均值，如果两者发车间隔差值大于阈值，则最终发车间隔为间隔阈值，进入第4步和第5步继续训练。

步骤四根据实际发车间隔得到每条线路每辆车的发车时间。利用步骤三实时得到每天线路的发车间隔，则每条线路每辆车的发车时间＝上一辆车的发车时间+实际发车间隔，实现智能调度的目的。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于多智能体强化学习的公交智能调度方法，其特征在于，包括以下步骤：

获取计划发车间隔，基于多智能体强化学习算法对所述每个乘客的等待时间、站点之间不同时间段的速度和计划发车间隔进行训练，获得最终发车间隔，进而获得每条线路每辆车的发车时间，实现公交车辆调度；

基于多智能体强化学习算法获得最终发车间隔的过程包括：基于每个智能体获取观察值，基于所述观察值对第一传入网络和第二传入网络进行训练，进而获得对应的第一发车间隔和第二发车间隔；若所述第一发车间隔和第二发车间隔的差值小于间隔阈值，则最终发车间隔为所述第一发车间隔和第二发车间隔的平均值，若所述发车间隔的差值大于间隔阈值，则最终发车间隔为间隔阈值，并继续对第一传入网络和第二传入网络进行训练；

所述观察值包括：路上行驶的公交车数量、当前的时间、计划发车间隔、每辆车在上一个路段的行驶时间、每辆车在上一个路段的路程和每辆车上的乘客数；

基于多智能体强化学习算法获得最终发车间隔的过程还包括：基于所述多智能体强化学习算法构建双目标函数，基于所述双目标函数获取车辆运营成本和乘客等待成本，并对所述车辆运营成本和乘客等待成本进行单目标优化；

基于多智能体强化学习算法获得最终发车间隔的过程还包括：基于所述双目标函数构建奖励函数，基于所述奖励函数获取所述第一传入网络和第二传入网络的奖励。

2.根据权利要求1所述的基于多智能体强化学习的公交智能调度方法，其特征在于，

基于等待时间模型获得每个乘客的等待时间的过程包括：获取到站乘客之间的到站间隔，基于所述到站乘客之间的到站间隔获得每个乘客的到站时间；基于所述每个乘客的到站时间和每个乘客的上车时间，获得每个乘客的等待时间。

3.根据权利要求1所述的基于多智能体强化学习的公交智能调度方法，其特征在于，

基于插值模型获得站点之间不同时间段的速度的过程包括：选取目标线路的任意两个站点，获取两个站点之间的路段距离以及所有公交车到达两个站点的到站时间；基于所述到站时间获取所有公交车在两个站点间不同时间段的时间间隔；基于所述路段距离和两个站点间不同时间段的时间间隔，获得所有公交车的两个站点间不同时间段的平均速度；基于所述不同时间段的平均速度，利用插值的方式获得两个站点间所有时间段的速度，进而获得所有公交线路的任意两个站点间所有时间段的速度。

4.根据权利要求1所述的基于多智能体强化学习的公交智能调度方法，其特征在于，

所述多智能体包括若干个智能体，其中，每个智能体均表示一条公交线路，每条公交线路均包括上行智能体和下行智能体；若干条公交线路进行耦合处理组成了多智能体调度。

5.根据权利要求1所述的基于多智能体强化学习的公交智能调度方法，其特征在于，

对第一传入网络进行训练，获得第一发车间隔的过程包括：以公交运营期间的每一次发车时间为决策点，基于所述第一传入网络与环境进行交互，获得均值和方差，基于所述均值和方差获得正态分布，并对所述正态分布进行采样；基于所述均值、方差、采样值、观察值和与环境进行交互获得的奖励，更新所述第一传入网络的网络参数，获得训练后的第一传入网络；基于所述训练后的第一传入网络、每个决策点的乘客实时需求以及交通状况，获取对应的第一发车间隔。

6.根据权利要求1所述的基于多智能体强化学习的公交智能调度方法，其特征在于，

对第二传入网络进行训练，获得第二发车间隔的过程包括：基于所述第二传入网络与环境进行交互，获得环境观测值，基于所述环境观测值所做的决策为发车与不发车，根据当前的交互动作获得奖励；当所述奖励达到最大值时，获得最终的环境观测值；基于所述最终的环境观测值及对应的当前交互动作、对应的奖励和前一个环境观测值，更新所述第二传入网络的网络参数，获得训练后的第二传入网络；基于所述训练后的传入网络，获得对应的第二发车间隔。

7.根据权利要求6所述的基于多智能体强化学习的公交智能调度方法，其特征在于，

所述环境观测值包括：当前时刻线路上正在运行的车辆数、当前时刻、计划发车间隔、上一个站到当前站的运行时间、上一个站到当前站的距离和上一个站到当前站期间车上的乘客数量。