CN116402323B

CN116402323B - 一种出租车调度方法

Info

Publication number: CN116402323B
Application number: CN202310680152.XA
Authority: CN
Inventors: 黄晓辉; 凌嘉壕; 成学博; 许嘉杨; 祝显红
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-01
Anticipated expiration: 2043-06-09
Also published as: CN116402323A

Abstract

本发明涉及车辆调度技术领域，公开了一种出租车调度方法，包括以下步骤：将出租车调度问题构建为一个马尔可夫决策元组；构建网格地图；预测者智能体接收到从环境中观测到的全局订单时空分布，将其划分为基于分钟的历史订单与基于天数的历史订单两种类型；使用多视图时空卷积注意力模块结合上述两种类型的历史订单分布预测各区域的未来出行需求；工人智能体接收到所述预测者智能体所预测的潜在订单分布，结合推算的潜在车辆分布，计算区域的供需特征，形成需求指数与区域标记；相邻的工人智能体通过消息模块来分享所述需求指数与所述区域标记这两个信息，再使用超参数自注意力模块学习出租车调度策略；验证上述策略，形成最终模型。

Description

一种出租车调度方法

技术领域

本发明涉及车辆调度技术领域，特别是涉及一种基于预分配层次强化学习的出租车调度方法。

背景技术

拼车系统广泛部署在许多大城市中，其通过智能算法实现乘客预订和调度附近可用的车辆，显著改善了日常出行。尽管这些平台广受欢迎，但仍面临着需求供给不平衡的巨大挑战。例如，高人口密度的热区域通常缺乏可用车辆，导致许多乘车请求无法得到满足；而低需求的冷区域可能有过剩的闲置车辆，等待可能不会到来的乘车请求。这些需求供给不匹配可能会导致乘客满意度降低，也会减少拼车平台和司机的利益。

基于组合优化算法，如贪婪算法和启发式算法等，首先被提出并用于出租车车队的调度管理，然而，这些算法大多集中在短期重新定位，在长期规划方面有较低的效率，忽略了需求的变化和不确定性的影响。因此，需要一种能够考虑长期目标和需求预测的方式。

目前，基于强化学习的算法已被应用于解决出租车车队调度问题。这些算法将每个可用的车辆视为一个自主智能体，利用神经网络为每个智能体学习调度策略，能够在提高订单响应率和平台收入方面取得一定的效果。然而，基于传统强化学习的算法仍然面临着很多的技术挑战。首先，它们需要定义智能体的状态和动作空间，并协调智能体之间的协作，因为车队管理策略需要在城市范围内匹配数以万计的车辆和出行请求。其次，它们还必须能够准确预测潜在的乘客需求，这需要有效地整合预测模型和车队调度模型。第三，它们的最终挑战是如何基于预测结果生成长期的车队调度策略，以实现平台的可持续发展。

发明内容

为解决上述技术问题，本发明提供一种出租车调度方法，保证出租车系统能更高效的分配车辆资源。

本发明解决其技术问题所采用的技术方案是：

一种出租车调度方法，包括以下步骤：

S1，将出租车调度问题构建为一个马尔可夫决策元组；

其中，该马尔可夫决策元组包括智能体，所述智能体包括负责调度车辆的工人智能体和负责预测未来的出行需求的预测者智能体；

S2，构建网格地图；

其中，每个网格代表一个区域，每个网格内可以拥有多个订单与司机；

S3，所述预测者智能体接收到从环境中观测到的全局订单时空分布，将其划分为基于分钟的历史订单与基于天数的历史订单两种类型；

S4，使用多视图时空卷积注意力模块结合上述两种类型的历史订单分布预测各区域的未来出行需求；

S5，所述工人智能体接收到所述预测者智能体所预测的潜在订单分布，结合推算的潜在车辆分布，基于预分配规则计算区域的供需特征，形成需求指数与区域标记；

S6，相邻的工人智能体通过消息模块来分享所述需求指数与所述区域标记这两个信息，再使用超参数自注意力模块学习出租车调度策略；

S7，验证上述策略，并形成最终模型。

优选地，所述马尔可夫决策元组G=（N,S,A,P,R,γ）；

其中N是工人智能体的数量，S表示环境中的状态集，A表示行动集，P是状态转移概率，R表示奖励函数，γ表示折扣因子。

优选地，所述预测者智能体的奖励函数为，且：

；

其中，和/>分别表示t+1时刻时全城实际订单和预测订单的分布；表示Kullback-Leibler距离，它显示了时刻t+1时真实订单和预测出行需求之间的差距；

所述工人智能体的奖励函数为，且：

；

其中，代表网格/>中的车辆所获得的直接订单匹配奖励收入；网格/>中的剩余车辆没有获得直接奖励，而是根据其周围的潜在订单数量，获得与之成比例的奖励/>。

优选地，构建所述网格地图，将城市分区成六边形格网世界，每个格网被视为一个代理，具有唯一的格网ID ，并拥有多个同质化的空闲车辆；

且所述六边形格网的边缘大小设置为2~3公里。

优选地，环境中观察到的历史订单分布数据被用于预测t+1时间步的目标需求；其中

时间步t-n到t中的基于分钟的历史订单分布被选为预测者智能体输入的一部分，以研究连续n个时间段内旅行需求的变化趋势；

最近n天时间步t+1的基于天的历史订单分布被选为输入的另一部分，以研究不同天之间旅行需求的变化趋势。

优选地，所述多视图时空卷积注意力模块包括时间注意力模块和空间注意力模块，所述时间注意力模块用于从历史数据中学习旅行需求的变化趋势，所述空间注意力模块用于从空间维度挖掘不同网格之间旅行需求的相互影响。

优选地，基于分钟的历史订单分布的潜在需求为/>，

；

基于天数的历史订单分布的潜在需求为/>，

。

优选地，所述基于预分配规则计算区域的供需特征，通过匹配潜在订单和潜在车辆/>来计算网格$i$的需求指数/>，

其中表示网格i的本地潜在需求，/>表示时刻t+1网格i的本地潜在车辆分布；

所述需求指数可以表示为：

其中需求指数代表该网格的需求和供应之间的差异，每个网格都根据需求指数/>分配了一个区域标记/>，指示它是热区、冷区或平衡区，根据需求指数/>，我们可以知道网格i属于哪种类型的区域；

因此，区域标记可以用数字表示为：

。

优选地，所述消息模块将相邻网格的需求指数和区域标记与当前工人智能体i的需求指数和区域标记相结合，从而计算出特定于工人智能体i的局部需求指数和局部区域标记/>；同时利用局部状态/>构建一个超参数自注意力网络，其为：

；

利用所述超参数自注意力网络计算得出工人智能体i的行为-状态值函数，其为：

。

优选地，验证上述策略，并形成最终模型包括以下步骤：

S71：计算奖励，根据模型计算的调度策略，调度所有的出租车前往目标区域并匹配订单，计算此次调度决策所带来的收益；

S72：训练模型，存储一天内所有的调度的过程后，采用Huber损失函数学习这些过程并更新智能体网络的参数；

Huber损失函数为：

；

其中$，/>为目标网络中的参数；

S73：模型评估与实验验证；训练若干回合后，采用在出租车调度场景中的两个指标ADI和ORR，作为评估算法优缺点的标准；

ADI表示在一个回合中所有已完成订单的收入，可以在基于网格的模拟器中表示为：

；

其中，表示在时间步t中服务于网格i的订单价值之和；

ORR是一个回合中所有时间步骤中订单响应率的加权平均值，其为：

；

其中，表示在时间步t中网格i中已服务的订单数量，/>表示在时间步$t$中网格i中所有订单数量；

选取最优的模型权重后，在数据集上进行8~15个回合的测试，取所有结果的平均值作为模型的最终结果。

本发明实施例的一种出租车调度方法，与现有技术相比，其有益效果在于：本发明利用层次强化学习将出租车调度分解为多个子任务，并使用视图时空卷积注意力模块与超参数自注意力模块联合决策，使得出租车系统能更高效的分配车辆资源。

附图说明

图1为本发明的出租车调度方法的流程图。

图2为本发明用于预测需求的订单时间特征分类的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

下面结合附图，对本申请的一些实施例作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本申请实施例提供一种出租车调度方法，其特征在于：包括以下步骤：

S1，将出租车调度问题构建为一个马尔可夫决策元组；

其中，该马尔可夫决策元组包括智能体，所述智能体包括负责调度车辆的工人智能体和负责预测未来的出行需求的预测者智能体。

所述马尔可夫决策元组G=（N,S,A,P,R,γ）；

其中N是工人智能体的数量（N也等于网格地图中的网格数），S表示环境中的状态集，A表示行动集，P是状态转移概率，R表示奖励函数，γ表示折扣因子。

具体定义如下：

智能体：我们将每个网格视为一个工人智能体，其中可能包含多个同质的可移动闲置车辆。整个重新分配系统有一个预测者智能体，用于学习所有工人智能体的目标集。

状态：状态有环境中订单与出租车的时空分布构成，包括局部状态与全局状态。

动作：动作由预测需求与车辆重定位组成，其中预测者智能体负责预测需求，工人智能体负责调度出租车。

奖励函数：预测者智能体通过观察环境中全局订单的时空分布来捕捉潜在的出行需求。因此，预测者智能体的奖励函数，可以定义为式：

；

其中，和/>分别表示t+1时刻时全城实际订单和预测订单的分布；表示Kullback-Leibler距离，它显示了时刻t+1时真实订单和预测出行需求之间的差距。这种奖励设计有助于预测者智能体更好地预测潜在需求，从而引导所有工人智能体重新定位车辆

所述工人智能体的奖励函数为，且：

；

S2，构建网格地图；

将城市分区成六边形格网世界，每个格网被视为一个代理，具有唯一的格网ID ，并拥有多个同质化的空闲车辆。为考虑实际交通场景和计算开销，将六边形格网的边缘大小设置为2~3公里，优选2.4公里。一个格网中的空闲车辆可以自由地前往相邻的格网区域以满足订单需求。为了便于空闲车辆的重新定位，我们将一天定义为强化学习的一个回合，每个回合被分成t个时间步，在每个时间步中，我们采用分层方法对需求预测和车队管理进行建模。

为更准确地捕捉下一个时间步的潜在出行需求，使用了两种类型的历史数据来形成预测者智能体的输入数据，如图2所示。环境中观察到的历史订单分布数据被用于预测t+1时间步的目标需求。一方面，时间步t-n到t中的基于分钟的历史订单分布被选为预测者智能体输入的一部分，以研究连续n个时间段内旅行需求的变化趋势。另一方面，最近n天时间步t+1的基于天的历史订单分布/>被选为输入的另一部分，以研究不同天之间旅行需求的变化趋势。

预测者智能体的由基于多视图的时空卷积网络组成，包括时间注意力模块和空间注意力模块。时间注意力模块试图从历史数据中学习旅行需求的变化趋势，空间注意力模块旨在从空间维度挖掘不同网格之间旅行需求的相互影响。

在时间步t，基于分钟的历史订单分布通过多层感知机（MLP）转换为特征映射，其中通道数为n，表示n个连续时间步。在时间注意力模块中，/>被输入到全局平均池化和一个 MLP 中，以计算时间权重图/>，它表示每个时间步的重要程度。时间注意力可以表示为：

其中和/>分别表示旅行需求的时间特征图和 MLP 的参数，/>表示激活函数，/>表示全局平均池化。

类似地，在空间注意力模块中，被输入到最大池和平均池中，以计算空间权重映射/>，它表示每个格子的重要程度。值得注意的是，空间权重映射/>是由卷积神经网络学习生成的。因此，我们可以将时间-空间特征在分钟级历史订单分布/>中的融合表示为潜在需求/>，具体如下所示：

。

同样地，基于天数的历史订单分布的潜在需求/>的计算过程与/>相同。将两种时间尺度结合起来，下一时间步潜在需求/>的预测可以表示为式：

。

通过匹配潜在订单和潜在车辆/>来计算网格$i$的需求指数/>，

其中表示网格i的本地潜在需求，/>表示时刻t+1网格i的本地潜在车辆分布，这是基于司机的在线和离线概率以及先前订单的下车位置计算得出的。因此，需求指数/>可以表示为：

。

其中需求指数代表该网格的需求和供应之间的差异，需求指数的值越大，供应过剩的情况就越大。在该系统中，每个网格都根据需求指数/>分配了一个区域标记/>，指示它是热区（需求大于供应）、冷区（供应大于需求）还是平衡区（供需平衡）。根据需求指数，我们可以知道网格i属于哪种类型的区域。

因此，区域标记可以用数字表示为：

其中，1表示热区，0表示平衡区，-1表示冷区。

为了促进局部环境内工人智能体之间的合作，采用了消息模块（一种多头自注意机制），所述消息模块将相邻网格的需求指数和区域标记与当前工人智能体i的需求指数和区域标记相结合，从而计算出特定于工人智能体i的局部需求指数和局部区域标记；同时为了进一步增强环境信息，我们利用局部状态/>构建了一个超参数自注意力网络，定义为式，其为：

；

其中，Q、K和V分别表示超参数自注意力网络的输入矩阵，、/>和/>是经过MLP 处理后的参数矩阵，其输入为本地状态/>。

。

S7，验证上述策略，并形成最终模型。

包括以下步骤：

S71：计算奖励，根据模型计算的调度策略，调度所有的出租车前往目标区域并匹配订单，计算此次调度决策所带来的收益。

Huber损失函数为：

；

其中$，/>为目标网络中的参数；

训练批大小设置为1024，训练20回合，初始学习率设置为0.002。保存每个周期的模型权重。

S73：模型评估与实验验证；训练20回合后，采用在出租车调度场景中的两个指标ADI和ORR，作为评估算法优缺点的标准；

；

其中，表示在时间步t中服务于网格i的订单价值之和；

；

选取最优的模型权重后，在数据集上进行8~15个回合的测试，优选10回合，取所有结果的平均值作为模型的最终结果。

本发明利用层次强化学习将出租车调度分解为多个子任务，并使用视图时空卷积注意力模块与超参数自注意力模块联合决策，使得出租车系统能更高效的分配车辆资源。

应当理解，在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上，仅为本申请的具体实施例，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种出租车调度方法，其特征在于：包括以下步骤：

S1，将出租车调度问题构建为一个马尔可夫决策元组；

S2，构建网格地图；

S7，验证上述策略，并形成最终模型；

所述马尔可夫决策元组G＝(N,S,A,P,R,γ)；

其中N是工人智能体的数量，S表示环境中的状态集，A表示行动集，P是状态转移概率，R表示奖励函数，γ表示折扣因子；

所述预测者智能体的奖励函数为r_t ^p，且：

r_t ^p＝D_KL(P(o_t+1)||P(po_t+1))；

其中，P(o_t+1)和P(po_t+1)分别表示t+1时刻时全城实际订单和预测订单的分布；D_KL(P(o_t+1)||P(po_t+1))表示Kullback-Leibler距离，它显示了时刻t+1时真实订单和预测出行需求之间的差距；

所述工人智能体的奖励函数为r_t ^w，且：

其中，代表网格i中的车辆所获得的直接订单匹配奖励收入；网格i中的剩余车辆没有获得直接奖励，而是根据其周围的潜在订单数量，获得与之成比例的奖励/>

构建所述网格地图，将城市分区成六边形格网世界，每个格网被视为一个代理，具有唯一的格网ID，并拥有多个同质化的空闲车辆；

且所述六边形格网的边缘大小设置为2～3公里；

环境中观察到的历史订单分布数据被用于预测t+1时间步的目标需求；其中

最近n天时间步t+1的基于天的历史订单分布被选为输入的另一部分，以研究不同天之间旅行需求的变化趋势；

所述多视图时空卷积注意力模块包括时间注意力模块和空间注意力模块，所述时间注意力模块用于从历史数据中学习旅行需求的变化趋势，所述空间注意力模块用于从空间维度挖掘不同网格之间旅行需求的相互影响；

基于分钟的历史订单分布的潜在需求为/>

基于天数的历史订单分布的潜在需求为/>

所述基于预分配规则计算区域的供需特征，通过匹配潜在订单和潜在车辆/>来计算网格$i$的需求指数di_i，

所述需求指数di_i可以表示为：

其中需求指数di_i代表该网格的需求和供应之间的差异，每个网格都根据需求指数di_i分配了一个区域标记m_i，指示它是热区、冷区或平衡区，根据需求指数di_i，我们可以知道网格i属于哪种类型的区域；

因此，区域标记m_i可以用数字表示为：

所述消息模块将相邻网格的需求指数和区域标记与当前工人智能体i的需求指数和区域标记相结合，从而计算出特定于工人智能体i的局部需求指数ldi_i和局部区域标记lm_i；同时利用局部状态构建一个超参数自注意力网络，其为：

Hyper-attention(Q，K，V)＝softmax((Q×w_q)×(K×w_k)^·)×V×w_v；

利用所述超参数自注意力网络计算得出工人智能体i的行为-状态值函数其为：

验证上述策略，并形成最终模型包括以下步骤：

Huber损失函数为：

其中y_t＝r_t+γ×Qπ(s_t+1，a_t+1；θ)-Q_π(s_t，a_t；θ)$，θ’为目标网络中的参数；

其中，表示在时间步t中服务于网格i的订单价值之和；

选取最优的模型权重后，在数据集上进行8～15个回合的测试，取所有结果的平均值作为模型的最终结果。