CN116029525A

CN116029525A - 车辆调度方法、车辆调度服务器及计算机可读的存储介质

Info

Publication number: CN116029525A
Application number: CN202310108667.2A
Authority: CN
Inventors: 黄晓辉; 成学博; 杨凯铭; 汤文亮; 周云飞
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-04-28

Abstract

本发明涉及车辆调度技术领域，尤其是涉及一种车辆调度方法、车辆调度服务器及计算机可读的存储介质，包括将原始数据分化为网格状数据并抽象出每个网格的状态作为输入以此得到个体动作；将联合动作集合或个体状态作为新的输入到双评价网络中获得奖励值；再经过双评价网络与不确定性加权的操作得到目标价值

与评价网络的损失函数，并将两个函数进行对比得到最佳的调度方案。本发明可实现多智能体大规模的协调调度问题，利用不确定性加权模块可以更加保守地估计离群数据集，以避免价值函数的过渡估计问题。在面对复杂场景时表现优异，可以捕捉复杂的动态供需变化，从而实现更好的调度方式。

Description

车辆调度方法、车辆调度服务器及计算机可读的存储介质

技术领域

本发明涉及车辆调度技术领域，尤其是涉及一种车辆调度方法、车辆调度服务器及计算机可读的存储介质。

背景技术

近年来，随着互联网高速发展，人们的生活有了很大的改变。“网约车”走入了人们的生活。网约车平台通过将订单派送给空闲的司机，极大的优化了交通资源的分配，并且对于交通拥堵的情况也有所改善。

合理调度车辆的一个关键挑战就是平衡供应与需求，也就是平衡司机与乘客订单数量关系。大型城市每天会产生数百万的订单，这些大规模的订单其中也会出现许多订单因为附近没有司机而被取消的情况，亦或是司机附近没有合适的订单可以接收，导致交通资源的闲置。如果将这些空闲的司机调度到需求量大的地区，会大大增加订单的响应率，提高运输能力的效用，增加司机的收入以及乘客的满意度。车辆调度是一个复杂的动态过程，当前车辆的调度决策将影响未来交通供需的差距。监督学习方法很难捕捉和模拟这些实时动态的变化，但是强化学习在这一方面表现优异，可以捕捉复杂的动态供需变化，从而进行很好的车辆调度，以保证交通资源的充足利用。在深度强化学习的分类中，主要分为基于价值和基于策略这两种方式。Actor-Critic算法结合了两种方式。

相关技术中采用上下文深度Q学习以及上下文多智能体Actor-Critic算法，在车辆调度方面取得了优异的结果。但是，在基于价值的强化学习方法（如深度 Q 学习）中，函数逼近错误会导致高估价值估计和次优策略。

发明内容

本发明旨在至少解决现有技术中大规模车辆供需不平衡问题，对历史数据进行不确定性加权，以此减少OOD（out-of-distribution data，OOD数据：即离线数据集分布外的数据对）数据对对价值估计的影响，从而对双Critic的结果按一定比例进行调和，以此限制过低估对比带来的影响。为此，本发明提出了一种车辆调度方法、车辆调度服务器及计算机可读的存储介质。

针对本发明的流程，做出如下解释，对应的发明流程图如图1所示：

将原始的车辆订单调度数据分化为网格型数据以此来获取初始车辆配送和订单信息，从信息中获取全局状态与对应网格的局部状态。然后将局部状态作为策略网络 (Actor网络)的输入得到对应的动作Action，再通过双评价网络(Critic网络)输入对应的Q 值：当前状态下选取对应动作可能获得的奖励值

和

，再通过对这两个不同的价值进行计算得到目标价值

，以此来获取每个网格数据对应的车辆调度时间表。再通过对应匹配的订单进行调度，从而实现最佳的车辆调度操作。在完成一组车辆调度操作之后把当前的状态返回给Actor网络去更新对应的全局状态与局部状态，然后再进行下一步的调度操作。

根据本发明第一方面实施例的车辆调度方法，其中包括：

获取初始车辆调度信息和订单信息作为原始数据，将原始数据分化为网格状数据：按照地图数据分布，将地图划分为六边形网格，将数据集中的车辆调度信息、订单信息按照经纬度划分到网格之中；将一天的时间信息分为若干个时间片段，每隔一个时间片段执行一次调度，每天在数据集中抽取一天来拟合实际数据，以此来提取全局状态；

从全局状态中获取每个网格的个体状态作为输入，其中个体状态包含了自身以及周围六个邻居节点的信息；

个体状态通过全连接网络层得到个体动作（Action）：每个网格内的智能体（Agent）是同质的，拥有相同的调度策略；

将所有智能体的联合动作集合/个体状态作为新的输入，输入到双评价网络(双 Critic网络)中得到当前状态下选取对应动作可能获得的奖励值

、

；将得到的奖励值

和

输入到调和网络模块中得到目标价值

；

将得到的

输入到不确定性加权模块中得到评价网络的损失函数(Critic Loss)，将策略网络的损失函数(Actor Loss)、评价网络的损失函数(Critic Loss)进行比对得到最终调度方案。

根据本发明实施例的车辆调度方法，将订单派送问题建模为马尔科夫决策过程，基于此提出了不确定加权调和双Critic算法实现多智能体大规模的协调调度问题：利用不确定性加权模块可以更加保守地估计离群数据集，以避免价值函数的过渡估计问题，并设计了一个调和双Critic架构，将其不确定性加权。车辆调度的目标是提前决定将有多少空闲车辆被调度到需求更大的区域，以便为更多的订单服务；本发明实施例面对复杂场景时表现优异，可以捕捉复杂的动态供需变化，从而实现更好的调度方式。

根据本发明的一些实施例，所述将所有智能体的联合动作集合/个体状态作为新的输入，输入到双评价网络(双Critic网络)中得到当前状态下选取对应动作可能获得的奖励值

和

，将得到的奖励值

和

输入到调和网络模块中得到目标价值

，包括：将同样的动作与状态信息输入到两个相同结构层的Critic网络中，由于训练中的参数不同，会导致两个Critic网络输出不同的价值，再将这两个不同的价值进行比较，其较大值乘以权重系数α，较小值乘以权重系数β再相加得到目标价值

。

通过设计双Critic调和网络，两个Critic网络输出不同的价值，再将这两个不同的价值进行比较，其较大值乘以权重系数α，较小值乘以权重系数β再相加得到目标价值

，避免了对于价值的过高估计同时又不限制Q函数的概括能力。

根据本发明的一些实施例，所述将得到的奖励值

和

输入到调和网络模块中得到目标价值

，具体公式如下：

其中

均为权重系数，

，

。

根据本发明的一些实施例，智能体（Agent）的动作空间

包含七个离散动作值，分别指向第i个网络本身和六个邻居网格；将得到的动作Action输入到不确定性加权模块，得到对应的Actor Loss（也就是通过得到的Action的不确定性得到其权重，以降低分布外数据对对价值估计的影响）。

通过设计不确定性加权模块，对同一模块的不同输入实例保持不变的量，当模块的同方差不确定性较高时，任务对网络权重更新的影响较小，并且以此来平衡Loss与对应梯度的大小。

根据本发明的一些实施例，所述不确定性加权模块包括如下内容：

模块的不确定性可以通过Q值估计的方差近似得到：

其中：

为模块的不确定性权重，用来估计不同状态-动作对的权重，

为数据中的固有噪声，

为模型对其预测的不确定程度，

为预测均值。

就是模型关于离线数据集分布外的数据对（out-of- distribution data，OOD数据）样本的不确定性；

得到离线数据集分布外的数据对样本的不确定性后，就可以定义基于不确定性加权的策略分布

:

其中：

表示在原有的策略基础之上加上了不确定性权重的策略分布，

为不确定性常数，

表示0号智能体在策略

分布情况下的不确定性，

为在状态s下选择动作

的概率，

为在状态s下选取所有不同动作

的概率分布；

将预测的不确定性融入Actor-Critic框架中就可以得到新的评价网络(Critic)的损失函数和策略网络(Actor)的损失函数，分别如下所示：

其中：

为新的评价网络的损失函数，

为新的策略网络的损失函数，

、

、

表示将数据进行估计的不确定性作为正则化项，以达到保守估计的目的，并且将预测的不确定性融入框架中以得到新的损失值，具体表示为在对应状态或动作的策略条件下的正则化操作；

为不确定性常数，

为下一个状态--动作价值对的不确定性权重，

表示在每一个时序差分中的误差，简称为TD Error，

函数表示标准的当前价值与目标价值的损失；

为当前状态s选择动作后产生的价值，

为状态s下执行动作后获得的奖励值，

为折扣因子，

表示对下一个状态选择对应执行动作的价值的估计；

表示智能体在策略

分布情况下的不确定性加权权重；

Critic的损失函数是在TD Error前面加上权重，而Actor的损失函数是在Q值前面加上不确定性权重，本发明中，所述

优选0.8。

根据本发明的一些实施例，所述获取初始车辆调度信息和订单信息作为原始数据，将原始数据分化为网格状数据包括：将地图划分为六边形网格具体为将地图划分为17*15的六边形网格，一共划分为255个六边形网格，并将数据集中的车辆信息、订单信息按照经纬度划分到网格之中；将一天的时间信息分为144个时间片段，每个片段10分钟执行一次调度，每天在数据集中抽取一天来拟合实际数据，以此来提取全局状态。

此外，本发明的评价指标为订单的平均响应率和GMV，订单平均响应率是指订单被车辆响应的占比；GMV为所有订单的总价格，每一个订单会根据时长以及订单的服务质量等等因素得到对应的订单价格。

根据本发明第二方面实施例的车辆调度服务器，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器在运行所述计算机程序时，执行上述的方法。

根据本发明第三方面实施例的计算机可读的存储介质，其上存储有计算机程序，其其中所述计算机程序被处理器运行时实现上述的方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的车辆调度方法流程图；

图2是根据本发明实施例的车辆调度方法框架图；

图3是根据本发明实施例的调和网络模型图；

图4是根据本发明实施例的调和网络中订单总价格的超参数分析图；

图5是根据本发明实施例的调和网络中平均响应率的超参数分析图。

具体实施方式

下面详细描述本发明的实施例，参考附图描述的实施例是示例性的，应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请的说明书和权利要求书及所述附图中术语“第一”、“第二”、“第三”等是区别于不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元，或者可选地，还包括没有列出的步骤或单元，或者可选地还包括这些过程、方法、产品或设备固有的其它步骤或单元。

附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前，应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作（或步骤）描述成顺序的处理，但是其中的许多操作可以并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在本说明书中使用的术语“部件”、“模块”、“系统”、“单元”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件或执行中的软件。例如，单元可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或分布在两个或多个计算机之间。此外，这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可例如根据具有一个或多个数据分组（例如来自与本地系统、分布式系统和/或网络间的另一单元交互的第二单元数据。例如，通过信号与其它系统交互的互联网）的信号通过本地和/或远程进程来通信。

实施例1

参阅图1和图2，本实施例提出一种基于不确定性加权调和双Critic算法的车辆调度方法，将原始数据分化为网格状数据，并从中提取全局状态；从全局状态中获取每个网格的个体状态作为输入，其中个体状态包含了自身以及周围六个邻居节点的信息；获得动作 Action：个体状态通过全连接层得到个体的动作Action，将得到的动作Action输入到不确定性加权模块中，得到Actor Loss；将所有智能体的联合动作集合个体状态作为新的输入，输入到双Critic网络中得到奖励值

和

；将得到的奖励值

和

输入到调和网络模块中得到目标价值

；将得到的目标价值

输入到不确定性加权模块中得到Critic Loss，将Actor Loss、Critic Loss进行比对最终得到最佳的调度方案。其中，具体包括：

获取初始车辆调度信息和订单信息作为原始数据，将原始数据分化为网格状数据：按照地图数据分布，将地图划分为17*15的六边形网格，一共划分为255个六边形网格，并将数据集中的车辆调度信息、订单信息按照经纬度划分到网格之中；将一天的时间信息分为144个时间片段，每个时间片段10分钟执行一次调度，每天在数据集中抽取一天来拟合实际数据，以此来提取全局状态。144个片段为一个epoch，一轮实验包括训练集15个epoch和测试集15个epoch，取测试集15个epoch的平均值；

个体状态通过全连接网络层得到个体动作（Action）：每个网格内的智能体（Agent）是同质的，拥有相同的调度策略；智能体（Agent）的动作空间

模块的不确定性可以通过Q值估计的方差近似得到：

其中：

为模块的不确定性权重，用来估计不同状态-动作对的权重。

为数据中的固有噪声，

为模型对其预测的不确定程度，

为预测均值。

就是模型关于离线数据集分布外的数据对（OOD）样本的不确定性；

:

其中：

为不确定性常数，

表示0号智能体在策略

分布情况下的不确定性，

为在状态s下选择动作

的概率，

为在状态s下选取所有不同动作

的概率分布；

将预测的不确定性融入Actor-Critic框架中就可以得到新的评价网络的损失函数和策略网络的损失函数，分别如下所示：

其中：

为新的评价网络的损失函数，

为新的策略网络的损失函数，

、

、

为不确定性常数，

为下一个状态--动作价值对的不确定性权重，

表示在每一个时序差分中的误差，简称为TD Error，

函数表示标准的当前价值与目标价值的损失；

为当前状态s选择动作后产生的价值，

为状态s下执行动作后获得的奖励值，

为折扣因子，

表示对下一个状态选择对应执行动作的价值的估计；

表示智能体在策略

分布情况下的不确定性加权权重。

Critic的损失函数是在TD Error前面加上权重，而Actor的损失函数是在Q值前面加上不确定性权重，在本发明中，

为0.8。

将联合动作集合/个体状态作为新的输入，输入到双评价网络（双Critic网络）中得到奖励值

和

；将得到的奖励值

和

输入到调和网络模块中得到目标价值

，（如图3所示）包括：将同样的动作与状态信息输入到两个相同结构层的Critic网络中，由于训练中的参数不同，两个Critic网络会输出不同的价值，再将这两个不同的价值进行比较，其较大值乘以权重系数α，较小值乘以权重系数β再相加得到目标价值

，避免了对于价值的过高估计同时又不限制Q函数的概括能力。公式如下：

超参数

分析：

取7天数据集在100%车辆的情况下进行训练，

在区间[0，1]之间每间隔0.1取一次值，

为

。由图4和图5可以得到，当

取值区间为[0.1，0.9]时，效果明显优于取值为 0或1.当

时，可取得最佳效果。此外，当

=0时，也就是说目标价值等于双 Critic网络中最小值时，效果显著降低。

将得到的

输入到不确定性加权模块中得到评价网络的损失函数(Critic Loss)，将策略网络的损失函数、评价网络的损失函数进行比对最终得到最佳的调度方案。

实施例2

本实施例提供一种车辆调度服务器，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器在运行所述计算机程序时，执行上述的方法。

实施例3

本实施例提供一种计算机可读的存储介质，其上存储有计算机程序，其中所述计算机程序被处理器运行时实现上所述的方法。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对发明的限制。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。

显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或者特性可以包含在本实施例申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是相同的实施例，也不是与其它实施例互斥的独立的或是备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种车辆调度方法，其特征在于，包括：获取初始车辆调度信息和订单信息作为原始数据，将原始数据分化为网格状数据：按照地图数据分布，将地图划分为六边形网格，并将数据集中的车辆调度信息、订单信息按照经纬度划分到网格之中：将一天的时间信息分为若干个时间片段，每隔一个时间片段执行一次调度，每天在数据集中抽取一天来拟合实际数据，以此来提取全局状态；从全局状态中获取每个网格的个体状态作为输入，其中个体状态包含了自身以及周围六个邻居节点的信息；个体状态通过全连接网络层得到个体动作：每个网格内的智能体是同质的，拥有相同的调度策略；将所有智能体的联合动作集合或个体状态作为新的输入，输入到双评价网络中得到当前状态下选取对应动作获得的奖励值