CN113673836A

CN113673836A - 一种基于强化学习的共享公交车贴线调度方法

Info

Publication number: CN113673836A
Application number: CN202110863993.5A
Authority: CN
Inventors: 王基光; 李志德; 陈伟坚; 李峰; 刘兴禄
Original assignee: Shenzhen Public Transportation Network Technology Co ltd; Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen Public Transportation Network Technology Co ltd; Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-19
Anticipated expiration: 2041-07-29
Also published as: CN113673836B

Abstract

本发明公开了一种基于强化学习的共享公交车贴线调度方法，包括如下步骤：S1：基于真实数据搭建公交路网仿真模型作为强化学习的环境；S2：使用多智能体强化学习对共享公交车调度模型进行优化、分析与验证。本发明考虑交通路网中的动态变化带来的影响，基于真实的数据搭建公交路网仿真模型作为强化学习的环境，使用多智能体强化学习的算法对调度模型进行优化、分析与验证，可以有效提高公司收益，并且具有更高的鲁棒性，是一种高效实用的共享公交车调度算法。

Description

一种基于强化学习的共享公交车贴线调度方法

技术领域

本发明涉及城市交通领域，特别是涉及一种基于强化学习的共享公交车贴线调度方法。

背景技术

大都市的出行需求可分为短途出行和长途出行，其中有明显的潮流现象。例如在深圳，人们早上从住宅区集中到商业区，晚上从商业区返回到住宅区，这是典型的潮汐现象，这一现象导致高峰时段的公共资源供应不足。随着公交公司提出共享公交车这一服务来解决这一问题，车队管理问题成为一个极其重要的问题。例如，深圳东部公交公司开发了共享公交车(E-bus)服务，与普通公交车合作，在高峰时间协助常规公交车对高峰线路进行(贴线)合作载客以提高运输效率。

如何准确、高效地管理和调度车队成为城市公共交通优化的任务之一。具体来说，公交车运营商管理许多车队，这些车队分为普通公交车和共享公交车两种，分别完成普通线路和专用公交车任务。政府会在每天的早高峰、晚高峰及其他时段(包括工作日及节假日)向普通公交车公布具体的发车间隔及车辆班次要求，公司需要满足政府的发车要求，并在满足正常公交车的运营要求后，对共享公交车进行调度优化，来增加公司收入。如图1，图中表示常规情况下共享公交车的调度策略，共享公交车在早上从车场出发完成特定的任务(通常指公司的通勤任务)，完后需要空驶回车场并在晚上前往公司完成后续的通勤任务，这样的任务使得共享公交车造成了大量的空驶损耗。

发明内容

为了弥补上述现有技术的大量空驶损耗的不足，本发明提出一种基于强化学习的共享公交车贴线调度方法。

本发明的技术问题通过以下的技术方案予以解决：

本发明提出一种基于强化学习的共享公交车贴线调度方法，包括如下步骤：S1：基于真实数据搭建公交路网仿真模型作为强化学习的环境；S2：使用多智能体强化学习对共享公交车调度模型进行优化、分析与验证。

在一些实施例，S1步骤具体包括：S11：通过面向对象的交通路网环境进行刻画，通过贴线任务时间的结束作为仿真推进的时间点来对仿真环境进行更新，每次共享公交车完成指定任务策略后根据所处时间对道路客流量进行更新；S12：该仿真模型对交通路网的变化进行数值化的描述和仿真，其中仿真环境输入参数由实际数据拟合得到，客流数据包含一段时间内所有工作日及节假日各公交线路的客流数据。

在一些实施例，S12步骤中，把一天分为24个时段，通过统计和分布检验进行拟合，得到客流仿真参数，作为模拟输入参数。

在一些实施例，S12步骤中，针对各项数据按照实际情况进行设定，并作出如下假设：由于贴线任务需完成整条线路的运行，不会在中途站停止任务，所以选择以全线客流作为预测单位，忽略跨区域站间的差异；仿真模型中线路定义为单向线路，公交线的上下行分别处理，便于计算，执行任务过程中，共享公交车默认从始发站运行至终点站，然后再选择下一次任务；由于正常线路的发车频率远高于共享公交车的贴线任务，所以电动公交车非正常调度对客流的影响是短期且递减的。

在一些实施例，S2步骤具体包括：S21：强化学习通过观察环境中每个状态的变化，从环境中获得动作反馈，通过设计适当的奖励来评估反馈的好坏，将共享公交车定义为对象，将城市公交网络仿真模型定义为环境，状态定义为一天中每个时段整个公交路网的客流量，状态的数量等于一天中时间段的数量；S22：当共享公交车在完成上一次任务后到达公交车站可以执行的行动，包括选择一条常规线路进行贴线任务或者在原地等待一段时间使得下一个时刻可以选择长期收益更高的任务。

在一些实施例，S21步骤中，每个状态的信息来源于整个城市公交网的实时信息，奖励反馈在共享公交车完成前一项任务到达下一站后进行计算，之后共享公交车将重复进行之前的决策过程。

在一些实施例，共享公交车作为智能体，在完成自身任务后为状态i-1，共享公交车选择协助常规线路1，在完成任务后变为状态i，并且根据客流和空驶距离计算及时奖励，之后进行动作选择；动作1代表在原地等待以在下一次任务选择节点选择长期受益更高的线路，动作2代表协助常规线路2，动作3代表协助常规线路3，这个过程重复进行直到达到该智能体的任务终止时间。

在一些实施例，奖励定义为一个加权正则化值，该值通过计算空载距离损失和顾客票价收入得到：r＝α·revenue-β·cost，其中r为期望奖励，revenue为e-bus标准化后的载客收入，cost为共享公交车标准化后的空载额外电量损失，α和β是系数，可自由调整；

在一些实施例，强化学习在不停迭代，而智能体对象会对不同状态下的动作期望收益不断更新，其更新规则如下：Q(s，a)＝Q(s，a)+α[r+γmax_a′Q(s′，a′)-Q(s，a)]，其中Q为状态-动作值函数，表示在状态下采取动作的期望回报，Q(s，a)是在状态s下采取动作α预计得到的期望收益，α是学习率，r是在该状态下采取动作所获得的来自环境的及时收益，γ是时间折现因子，代表未来期望回报的权重。

在一些实施例，用来实现调度策略的强化学习算法中涉及到的超参数，具体包括学习率、时间折扣率、贪心初值、衰减率和迭代次数。

本发明还提出一种基于强化学习的共享公交车贴线调度的终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-10任一所述方法的步骤。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-10任一所述方法的步骤。

本发明与现有技术对比的有益效果包括：本发明考虑交通路网中的动态变化带来的影响，基于真实的数据搭建公交路网仿真模型作为强化学习的环境，使用多智能体强化学习的算法对调度模型进行优化、分析与验证，可以有效提高公司收益，并且具有更高的鲁棒性，是一种高效实用的共享公交车调度算法。

附图说明

图1是本发明实施例的共享公交车常规调度示意图；

图2是本发明实施例的共享公交车贴线策略调度示意图；

图3是本发明实施例的三个月内工作日上午9点客流T分布检验图；

图4是本发明实施例的共享公交车贴线调度的多智能体强化学习框架图；

图5是本发明实施例的多智能体学习算法流程图；

图6是本发明实施例的基于多智能体方法的收益和固定收益比较示意图。

附图标记：1-共享公交车；2-常规公交车；3-公交站点；4-共享公交车车场；5-常规线路车场。

具体实施方式

下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本实施例中的左、右、上、下、顶、底等方位用语，仅是互为相对概念，或是以产品的正常使用状态为参考的，而不应认为是具有限制性的。

公交公司设计高效的算法来管理E-bus车队，使其在满足自身任务时间窗的约束下帮助其他正常线路来减少自身的空车驾驶距离，并增加收入。如图2，共享公交车在早上完成自身特定任务后，可以选择前往附近的繁忙常规公交线选择贴线任务，这样不仅可以避免空驶回场，也可以获取额外的顾客收益，同时降低常规线路高峰期的客流压力。

带有时间窗约束的共享公交车贴线调度问题与普通公交车调度相比存在着许多区别和差异。共享公交车贴线调度问题的目标是设计E-bus的路线和时间表，不同于常规的公交车调度那样调整发车频率。因此，该问题类似于带时间窗的车辆路径问题(VehicleRouting problem with Time window,VRPTW)，但所提问题中路线上的点(指公交车线路)可以被同一辆共享公交车多次选择，也可以在同一时间段内被多辆公交车选择。与VRPTW相比，这是一个显著的差异。在前人研究的基础上，本工作首次提出了共享公交车的贴线调度问题，问题的目标是使公司共享公交车的总收益最大化，并减少闲置时间。

每辆共享公交车都需要完成自己特定的任务(一般是外包的通勤任务)，即各E-bus调度的初始位置和时间窗口是不同的。这里的时间窗是指E-bus开始执行贴线任务的时间，结束时间是指E-bus需要返回原开始地点的最晚时间。例如，E-bus A需要在早上接送C公司的员工，完成任务后，E-bus A可以开始选择执行贴线任务，但需要保证在C公司员工下班之前返回C公司完成后续任务。所以为了保证时间窗的约束，每次调度都需要判断E-bus能否在规定时间前完成任务并返回公司。基于以上描述，我们模型的目标是确定最优的公交贴线调度策略，从而提高公司的总收入。一般来说，公交公司的收入由很多部分组成。以深圳东部公交公司为例，其收入主要由两部分组成。第一部分是固定的政府补贴，这部分是指公交车公司调度常规公交车完成政府对于各常规线路的发车频次的要求后获得的固定收益补贴，我们将这部分公交车称为政府管理车队。其中要说明的是该收入是固定的，不受客流量的影响，顾客的车票收入属于政府。另一部分是E-bus的特殊任务和贴线作业的客票收入，这部分收入属于公司，且不会影响常规线路的固定补贴，所以E-bus和常规公交车之间不存在客流的竞争关系。

而城市公交存在的一个明显的特征就是动态且不稳定性，使用常规的算法并不能有效针对该情况提出解决方案，而强化学习正是一种不错的选择。由于该问题的特点，采用model-free的强化学习算法可能是一种有效方法。对于强化学习来说，创造一个真实的环境是最重要的部分。该问题中的强化学习环境可以抽象为交通网络的仿真模型。为了更加真实，我们的环境参数与公交公司的真实数据进行了拟合，如每条正常公交线路的客流量等。我们统计了三个月的客流量，并用这些数据拟合客流分布，并使用这些预测分布更新环境参数。

基于此，本发明提出一种面向动态环境的共享公交车调度优化方法。通过实际数据进行城市路网仿真模型搭建，并采用多智能体强化学习的方法，对共享公交车调度模型进行优化、分析与验证。

本发明考虑交通路网中的动态变化带来的影响。首先基于真实的数据搭建公交路网仿真模型作为强化学习的环境，然后使用多智能体强化学习的算法对调度模型进行优化、分析与验证。

公交路网仿真模型。在本问题中，我们需要搭建仿真模型为强化学习提供学习的环境，我们采用python作为仿真搭建的语言，通过面向对象agent的交通路网环境进行刻画，通过贴线任务时间的结束作为仿真推进的时间点来对仿真环境进行更新，每次共享公交车完成指定任务策略后会根据所处的时间对道路客流量进行更新。该仿真模型可以对交通路网的变化进行数值化的描述和仿真，其中仿真环境输入参数均由实际数据拟合得到，其中客流数据包含了三个月时间内所有工作日及节假日的各公交线路的客流数据。我们可以把一天分为24个时段，通过统计和分布检验进行拟合，得到客流仿真参数。如图3所示，是三个月内工作日上午9点的客流拟合的一个例子。通过分析得到，这些数据遵循t分布，我们可以得到分布的参数作为我们的模拟输入参数。

同时针对各项数据我们按照实际情况进行设定，并作出如下假设：

1.由于贴线任务需要完成整条线路的运行，也就是说E-bus不会在中途站停止任务。所以可以选择以全线客流作为预测的单位，忽略跨区域站间的差异。

2.仿真模型中线路定义为单向线路(公交线的上下行分别处理)，便于计算，执行任务过程中，E-bus默认从始发站运行至终点站，然后再选择下一次任务。

3.由于正常线路的发车频率远高于E-bus的贴线任务，所以电动公交车非正常调度对客流的影响是短期且递减的。

其他参数如下表1，由真实数据设定：

表1仿真参数

多智能体Q-learning的强化学习算法。强化学习通过观察环境中每个状态的变化，并从环境中获得动作反馈，学习最优的控制策略以获得最大的总体奖励。强化学习认知环境的方法是通过设计适当的奖励来评估反馈的好坏。Q-Learning算法由Watkins提出，是一种特殊的基于off-policy和value的强化学习算法。简单地说，每个agent都可以根据奖励值从每一步学习控制策略。这一特性使得它更有可能在未知环境中获得全局最优解。Q-learning是强化学习中一种非常经典的算法，适用于马尔可夫决策过程，即每个代理都需要不断地做出决策，每一个决策都会相互影响并希望获得最大的回报。而实现这个算法时设置适当的学习状态、行动和奖励是必不可少的。

在这个问题中，我们可以将E-bus定义为agent，将城市公交网络仿真模型定义为该问题中的环境，状态可以定义为一天中每个时段整个公交路网的客流量，状态的数量就等于一天中时间段的数量。每辆E-bus的决策是指当E-bus在完成上一次任务后到达公交车站可以执行的行动，包括选择一条常规线路进行贴线任务或者在原地等待一段时间使得下一个时刻可以选择长期收益更高的任务。

每个状态的信息来源于整个城市公交网的实时信息。奖励反馈会在E-bus完成前一项任务到达下一站后进行计算，之后E-bus将重复进行之前的决策过程。共享公交车贴线调度的多智能体强化学习框架示意图，如图4。共享公交车作为智能体，在完成自身任务后为状态i-1，共享公交车选择协助常规线路1，在完成任务后变为状态i，并且根据客流和空驶距离计算及时奖励，之后进行动作选择，动作1代表在原地等待以在下一次任务选择节点选择长期受益更高的线路，动作2代表协助常规线路2，动作3代表协助常规线路3，这个过程重复进行直到达到该智能体的任务终止时间。

在公式1中，奖励可以定义为一个加权正则化值，该值通过计算空载距离损失和顾客票价收入得到。r为期望奖励，revenue为e-bus标准化后的载客收入，cost为e-bus标准化后的空载额外电量损失。α和β是系数，可以用公司自由调整，此处可定为0.5，0.5.

r＝α·revenue-β·cost (1)

在Q-learning中，Q为状态-动作值函数，它表示在状态下采取动作的期望回报，强化学习在不停地迭代中学习，而智能体agent会对不同状态下的动作期望收益不断地更新，其更新规则如下。

Q(s，a)＝Q(s，a)+α[r+γmax_a′Q(s′，a′)-Q(s，a)] (2)

在公式二中，Q(s，a)是在状态s下采取动作a预计得到的期望收益。α是学习率，r是在该状态下采取动作所获得的来自环境的及时收益，γ是时间折现因子，代表未来期望回报的权重[9-10]。算法的流程图参考图5所示。多智能体Q学习算法框架如表2。

表2多智能体Q学习算法框架

数值实验。我们使用20辆E-bus和10条常规公交线路进行仿真实验。E-bus和公交线路的数据如表3和表4所示，这些数据来自于真实数据。

表3 E-Bus参数表

表4公交线路参数表

其中，1号线和2号线是同一条公交线路，但分别表示上行和下行。该算法可在7.8s内完成100次迭代并求解。数值实验表明，所提出的强化学习算法在求解质量和求解速度上都有较好的性能，可收敛到较好的解约为￥4200。而根据公司原有策略及政府补贴，单辆E-bus的利润为200元，20辆车的总利润为4000元。如图5所示，本文提出的多智能体Q-learning方法与固定收益进行比较，最终收益收敛到4282.8，比固定收益高约7％。E-bus优化调度结果示例如表5所示，包括每个任务的任务名称、开始时间、结束时间和预计收入。调度结果表明，工作效率和预计收入有很大的提高。

表5 No.1共享公交车调度时间表

最后，用来实现调度策略的强化学习算法中涉及到的超参数设置如表6所示，具体参数包括学习率、时间折扣率、贪心初值、衰减率和迭代次数。

表6调度策略的强化学习算法超参数

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于强化学习的共享公交车贴线调度方法，其特征在于，包括如下步骤：

S1：基于真实数据搭建公交路网仿真模型作为强化学习的环境；

S2：使用多智能体强化学习对共享公交车调度模型进行优化、分析与验证。

2.如权利要求1所述的基于强化学习的共享公交车贴线调度方法，其特征在于，S1步骤具体包括：

S11：通过面向对象的交通路网环境进行刻画，通过贴线任务时间的结束作为仿真推进的时间点来对仿真环境进行更新，每次共享公交车完成指定任务策略后根据所处时间对道路客流量进行更新；

S12：该仿真模型对交通路网的变化进行数值化的描述和仿真，其中仿真环境输入参数由实际数据拟合得到，客流数据包含一段时间内所有工作日及节假日各公交线路的客流数据。

3.如权利要求2所述的基于强化学习的共享公交车贴线调度方法，其特征在于：S12步骤中，把一天分为24个时段，通过统计和分布检验进行拟合，得到客流仿真参数，作为模拟输入参数。

4.如权利要求2所述的基于强化学习的共享公交车贴线调度方法，其特征在于：S12步骤中，针对各项数据按照实际情况进行设定，并作出如下假设：

由于贴线任务需完成整条线路的运行，不会在中途站停止任务，所以选择以全线客流作为预测单位，忽略跨区域站间的差异；

仿真模型中线路定义为单向线路，公交线的上下行分别处理，便于计算，执行任务过程中，共享公交车默认从始发站运行至终点站，然后再选择下一次任务；

由于正常线路的发车频率远高于共享公交车的贴线任务，所以电动公交车非正常调度对客流的影响是短期且递减的。

5.如权利要求1所述的基于强化学习的共享公交车贴线调度方法，其特征在于，S2步骤具体包括：

S21：强化学习通过观察环境中每个状态的变化，从环境中获得动作反馈，通过设计适当的奖励来评估反馈的好坏，将共享公交车定义为对象，将城市公交网络仿真模型定义为环境，状态定义为一天中每个时段整个公交路网的客流量，状态的数量等于一天中时间段的数量；

S22：当共享公交车在完成上一次任务后到达公交车站可以执行的行动，包括选择一条常规线路进行贴线任务或者在原地等待一段时间使得下一个时刻可以选择长期收益更高的任务。

6.如权利要求5所述的基于强化学习的共享公交车贴线调度方法，其特征在于，S21步骤中，每个状态的信息来源于整个城市公交网的实时信息，奖励反馈在共享公交车完成前一项任务到达下一站后进行计算，之后共享公交车将重复进行之前的决策过程。

7.如权利要求5所述的基于强化学习的共享公交车贴线调度方法，其特征在于：共享公交车作为智能体，在完成自身任务后为状态i-1，共享公交车选择协助常规线路1，在完成任务后变为状态i，并且根据客流和空驶距离计算及时奖励，之后进行动作选择；动作1代表在原地等待以在下一次任务选择节点选择长期受益更高的线路，动作2代表协助常规线路2，动作3代表协助常规线路3，这个过程重复进行直到达到该智能体的任务终止时间。

8.如权利要求5所述的基于强化学习的共享公交车贴线调度方法，其特征在于：奖励定义为一个加权正则化值，该值通过计算空载距离损失和顾客票价收入得到：r＝α·revenue-β·cost，其中r为期望奖励，revenue为e-bus标准化后的载客收入，cost为共享公交车标准化后的空载额外电量损失，α和β是系数，可自由调整。

9.如权利要求5所述的基于强化学习的共享公交车贴线调度方法，其特征在于：强化学习在不停迭代，而智能体对象会对不同状态下的动作期望收益不断更新，其更新规则如下：Q(s，a)＝Q(s，a)+α[r+γmax_a′Q(s′，a′)-Q(s，a)]，其中Q为状态-动作值函数，表示在状态下采取动作的期望回报，Q(s，a)是在状态s下采取动作a预计得到的期望收益，α是学习率，r是在该状态下采取动作所获得的来自环境的及时收益，γ是时间折现因子，代表未来期望回报的权重。

10.如权利要求5所述的基于强化学习的共享公交车贴线调度方法，其特征在于：用来实现调度策略的强化学习算法中涉及到的超参数，具体包括学习率、时间折扣率、贪心初值、衰减率和迭代次数。

11.一种基于强化学习的共享公交车贴线调度的终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-10任一所述方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-10任一所述方法的步骤。