CN115713130A

CN115713130A - 基于超参数网络权重分配深度强化学习的车辆调度方法

Info

Publication number: CN115713130A
Application number: CN202211088592.8A
Authority: CN
Inventors: 黄晓辉; 张�雄; 杨凯铭; 易虎
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2023-02-24
Anticipated expiration: 2042-09-07
Also published as: CN115713130B

Abstract

本发明公开了基于超参数网络权重分配深度强化学习的车辆调度方法，包括：获取多智能体的调度区域，调度区域包括局部区域和全局区域，其中智能体为被调度的车辆；基于局部区域，得到多智能体的局部状态，基于局部状态，通过策略网络，得到当前的调度策略；基于全局区域，得到多智能体的全局状态，基于全局状态，通过价值网络，得到全局状态价值；通过评价网络，得到多智能体的状态‑联合动作价值；基于状态价值与状态‑联合动作价值，得到新的目标函数；基于目标函数，优化调度策略，最终实现车辆调度。本发明通过以上技术方案，能够提高订单响应率，同时能够增加最大化累积司机收益。

Description

基于超参数网络权重分配深度强化学习的车辆调度方法

技术领域

本发明属于共享交通领域，特别是涉及一种基于超参数网络权重分配深度强化学习的车辆调度方法。

背景技术

当某市中心的下班高峰时间段，该区域订单的需求量远大于该区域的空闲车辆，那么问题就演变成该如何将可用车辆提前进行调度，来满足当前的乘客需求，然而，从长远来看，可能在下一时间段由于天气等因素导致该区域的需求量较小，这就造成了车辆未来收益较少和资源的浪费。

目前车辆调度的方法主要有三类，包括：基于组合优化的方法、基于单智能体强化学术方法和基于多智能体深度强化学习的方法。但是，现有技术中，没有将整体收益和订单响应率以及车队重定位数量进行综合考虑，比如高价订单匹配的车辆可以在单个调度阶段得到很好的收入；但是可能在不久的将来该车队很可能大部分车辆没有得到合理利用，这将损害订单响应率和最大化累积司机收益的整体效益。

发明内容

本发明的目的是提供一种基于超参数网络权重分配深度强化学习的车辆调度方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于超参数网络权重分配深度强化学习的车辆调度方法，包括：

获取多智能体的调度区域，所述调度区域包括局部区域和全局区域；其中所述智能体为被调度的车辆；

基于所述局部区域，得到多智能体的局部状态，基于所述局部状态，通过策略网络，得到当前调度策略；

基于所述全局区域，得到多智能体的全局状态，基于所述全局状态，得到全局状态价值；通过评价网络，得到多智能体的状态-联合动作价值；

基于所述状态价值与所述状态-联合动作价值，得到新的目标函数；基于所述目标函数，优化所述调度策略，最终实现车辆调度。

优选地，获取多智能体的调度区域的过程包括：

划分地图得到智能体的六边形网格区域，其中所述六边形网格区域为网约车调度区域；

基于所述六边形网格区域的中心坐标，得到邻居区域。

优选地，得到当前调度策略的过程包括：

基于所述局部区域，得到多智能体的局部状态，其中所述局部状态包括：订单需求数和车辆数以及网格编号；

将所述局部状态输入至策略网络，得到当前调度策略。

优选地，将所述局部状态输入至策略网络的过程包括：

获取策略网络，将所述订单需求数和车辆数输入至所述策略网络，得到观察状态与动作参数的映射关系，基于所述映射关系，得到当前调度策略。

优选地，得到全局状态价值的过程包括：

基于所述全局区域，得到多智能体的全局状态，其中所述全局状态包括：订单需求数、车辆数以及网格编号；

基于所述全局状态，通过价值网络的损失函数，得到全局状态价值。

优选地，得到多智能体的状态-联合动作价值的过程包括：

基于所述全局状态，通过评价网络，将所述当前调度策略和超参数进行组合计算，得到多智能体的状态-联合动作价值。

优选地，得到新的目标函数的过程包括：

获取损失函数的权重常数，基于所述权重常数，将所述状态价值与所述状态-联合动作价值进行组合，得到总的目标损失函数，所述总的目标损失函数为新的目标函数。

优选地，优化所述调度策略的过程包括：

基于反向传播算法，对所述调度策略进行权重分配；基于分配结果和所述目标函数，优化所述当前调度策略，直至输出的误差减小至期望值，优化过程结束。

本发明的技术效果为：

本发明提出了一种基于超参数网络权重分配深度强化学习的车队调度方法，获取多智能体的调度区域，基于局部区域，得到多智能体的局部状态，通过策略网络，得到当前调度策略；基于全局区域，得到多智能体的全局状态，通过价值网络，基于全局状态，得到全局状态价值；通过评价网络，得到多智能体的状态-联合动作价值；将状态价值与状态-联合动作价值进行组合，得到新的目标函数；通过目标函数，优化调度策略，最终实现车辆调度。

本发明提供的调度方法，有利于地解决复杂的动态环境下，大规模车辆的短期和长期调度优化问题。同时此方法不是每个时间段的最佳策略，而是整个调度过程的整体优化方法，考虑了未来时间段的供需变化以及调度决策对下一时间段的供需的影响。本发明提出的动态优化调度策略，可提高调度运营效率；提高订单响应率，增加司机和平台累积收益，减少调度车辆，减少某些区域内过高堆积的闲置车辆数目；减少共享资源的浪费，改善由大量闲置车辆的堆叠所造成的城市环境的现象。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的方法流程图；

图2为本发明实施例中的调度过程图；

图3为本发明实施例中的时空调度图；

图4为本发明实施例中的CADPG模型结构图；

图5为本发明实施例中的模拟订单数量示意图；

图6为本发明实施例中的采用基于权重分配深度强化学习与四种基线方法的订单响应率和累积司机收益对比结果图；

图7为本发明实施例中的采用基于权重分配深度强化学习与四种基线方法的车辆调度数对比结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1-4所示，本实施例中提供一种基于超参数网络权重分配深度强化学习的车辆调度方法，包括以下步骤：

获取多智能体的调度区域，调度区域包括局部区域和全局区域；其中智能体为被调度的车辆；

基于局部区域，得到多智能体的局部状态，基于局部状态，通过策略网络，得到当前调度策略；

基于全局区域，得到多智能体的全局状态，基于全局状态，通过价值网络，得到全局状态价值；通过评价网络，得到多智能体的状态-联合动作价值；

基于状态价值与状态-联合动作价值，得到新的目标函数；基于目标函数，优化当前调度策略，最终实现车辆调度。

具体实施方式包括：

S1：划分地图得到共享网约车的调度区域，并根据距离建立邻居区域；

S11：将成都网约车的活动地图划分为大小相同六边形网格状，其中每一个网格中的所有车辆视为拥有同一状态并且完成相应的调度动作后获得相同的奖励。

S12：根据建立的坐标系，获取车辆调度的六个邻居区域；假设其中一个六边形区域中心坐标为(X，Y)，X，Y为横纵坐标，当Y为偶数时，它的六个邻居区域左边分别为(X-1，Y)，(X，Y+1)，(X+1，Y+1)，(X+1，Y)，(X+1，Y-1)，(X，Y-1)；当Y为奇数时，它的六个邻居区域左边分别为(X-1，Y)，(X-1，Y+1)，(X，Y+1)，(X+1，Y)，(X，Y-1)，(X-1，Y-1)。

S2：遍历车辆调度区域，得到当前时刻订单需求数和车辆数，把每一个智能体(车辆)所观察到的局部状态O_t＝(t,g_(d,o))输入到策略网络，计算该智能体当前的调度策略，g_(d,o)主要包括订单需求数和车辆数以及网格编号；

S21：建立马尔科夫决策过程，包含六元组，它由一个包括(Z，S，A，R，P，γ)组成，其中Z，S，A，R，P，γ分别是智能体的数量，状态集，联合动作空间，奖励函数，转移概率函数，和一个折扣因子；

S22：首先将一天分为144个时间段(每10分钟为一个时间间隔)，并在每天的0点对整个区域内的订单数和车辆数进行初始化，用S₀来表示初始时刻的状态，在当前时刻t₀，当产生订单信息请求时，订单信息主要包括(起始点，目标点，持续时间，订单价格)，通过遍历区域内所有六边形网格的订单请求数和车辆数，然后使用权重分配深度强化学习车辆调度模型来执行调度动作，并且获取相应的动作奖励，通过计算一段时间内的订单响应率和订单总体收益以及车辆调度次数，并且获得下一个状态S₁的车辆分布和订单需求数，并重复以上步骤得到S₀,A₀,R₁,S₁,A₁。

S23：策略网络，使用

同时训练分散策略以最大化以下目标，其中H是每个智能体的熵正则化项，公式表示如下：

其中θ是策略网络的参数，特别是，本实施例使用的调度策略具有一定优势，因为：(1)它们可以更好地处理局部状态；(2)其中在车队调度问题中贪婪策略一定程度上优于随机性策略。

在本实施例中，在一个六边形区域中的车队调度只有7个动作，通过反向传播直接计算公式中的策略梯度

直接输入车队的动作分布参数(例如高斯策略的均值和方差以及离散策略的动作概率)，表示为

作为计算近似策略梯度的输入。总体而言，智能体的策略使用以下内容更新，公式如下：

该公式具有几个的特点：在策略培训期间，可以将其视为确定性策略梯度的特例，因为智能体可以确定地将其观察状态映射到动作参数中，允许端到端的可微性，而无需连续近似动作样本；动作参数的探索同样受到熵的影响，由于动作分布包含了更多智能体的动作信息，这可以直观地提高学习效率，实现更好的联合动作。

S3：输入系统全局状态S_t＝(t,l_(d,o))，通过超参数网络学习评价网络的权重分配参数，组合所有智能体当前的调度策略和超参数计算智能体的状态-联合动作价值，l_(d,o)主要包括订单需求数和车辆数以及网格编号；

S31：评价网络的权重由超网络生成。每个超网络将全局状态S_t ^z作为输入，并生成混合网络的一层权重。每个超网络由一个线性层组成，然后是一个绝对激活函数。此外每个超网络产生偏执的方式相同，但不限于非负偏差。最终偏差由具有Relu非线性的2层超网络产生。在策略上训练

使用一个变体的的TD(π)更新网络参数，损失函数和目标

定义如下：

其中Loss_cn为评价网络的损失函数，Φ是评价网络的参数，可以使用奖励r_t来代替

作为Q^π的无偏估计。也可以使用目标评价网络中的

定期更新Φ^-←Φ以提高整体学习稳定性。

S4，根据系统的全局状态，计算当前的状态价值；

S41：状态价值网络负责计算状态值V(s)，使用标准的TD误差更新。如果没有状态价值网络，部分可观测性将限制Q值的复杂性，状态值与给定状态s的选定动作无关，因此，该值网络不会有助于选择动作，而是用于计算公式的损失：

Loss_vn＝(V(s)-y^λ(r,s,ω))²

其中Loss_tot为总的目标损失函数，μ为损失函数的所占权重常数，Loss_vn为价值的损失函数，Loss_cn为评价的损失函数。

S5：结合状态价值与状态-联合动作价值设计了一个新的目标函数，通过反向传播算法来学习系统的调度策略，公式如下：

Loss_tot＝Loss_cn+μLoss_vn

其中Loss_tot为总的目标损失函数，

S51：根据确定调度策略获取的奖励，通过报酬函数评价车辆在特定状态s_t下采取调度动作

好坏程度，根据神经网络的前向计算以及反向传播，进行的策略权重分配。然后使用神经网络的前向计算以及反向传播，具体公式为：

v＝f_s(s)f_a(a)

其中

状态-联合动作值，其中Φ是评价网络中的参数，f_s(s)和f_a(a)表示对状态s和动作a的学习表示，v代表是评价网络中f_s(s)和f_a(a)的第一个混合表示，用于反向传播计算。

实施例二

本实施例通过具体的实验，对实施例一方法的有效性进行验证。

1、数据集

本实施例选取的是公开的成都滴滴数据集；

数据预处理：滴滴出行提供的真实数据包括订单信息和每月数百万订单城市中心区的车辆轨迹。每天的数据包含每个城市的7065907订单。订单信息包括订单ID、开始计费时间、结束计费时间、起点(纬度和经度)、目的地(纬度和经度)，如表1所示：

表1

信息	样本
		订单编号	eacad20698482f7720da5dc31335ec8d
订单开始时间	1478096112
		订单结束时间	1478097361
订单开始经度	104。07598
		订单开始纬度	30。65375
订单结束经度	104。06661
		订单结束纬度	30。60166

2、模拟器设计

模拟器设计：解决车队调度问题，常用方法是为环境设置模拟器。在这一部分中，本实施例使用一个模拟真实环境的模拟器，只需要订单信息来计算所需调度车辆的数量。本实施例的模拟器由网约车的状态(如真实世界中的在线/离线状态和真实世界中的分布)、调度指令的生成以及驾驶员与环境之间的交互过程组成。该模拟器是CADPG算法的训练和测试环境。此外，本实施例的模拟器的关键性能指标可以使用历史数据进行校准，因此学习到的策略与实际完全相同。在校准关键性能指标后，本实施例的模拟器的在模拟每天的的订单数量与共享网约车平台的每天订单数量大致相同，如图5所示。

3、评价指标：本实施例所提出的权重分配策略梯度算法的目标是通过将可用车辆调度到需求量大的六边形网格来服务更多订单，来提高订单响应率和订单总收益。因此，评估指标有三个：

(1)订单响应率：表示为在一个时间步长内服务的订单数和总的订单数目的比值，其中N_so和N_to分别表示服务订单数和总订单数目，表达式为：

(2)订单总体收益：总订单收益是所有网约车完成服务订单请求而获得的累积收入，R^(t)为完成每个订单的报酬。

(3)重定位车辆数：这是每个回合内将网约车调度到当前区域之外的调度车辆数，其中D_(a,b)为车辆从a地区调度到b地区的车辆数。

4、实验结果

通过改变网约车数量，即100％车辆、80％车辆和60％车辆来比较CADPG和基线方法试验效果。对于给定数量的网约车，每个指标的最佳结果以粗体标记。一般来说，更多的网约车可以提供更多的乘车需求，因此在车辆多的时候，所有方法的订单总体收益和订单响应率都可以大大提高。可以看出，CADPG算法在订单总体收益和订单响应率方面都优于基线算法。IDQN方法和Random方法相比，IDQN方法能够学习供需之间复杂的动态变化，但IDQN的状态-动作维度太大，无法获得良好的稳定调度性能。而DQN和A2C方法虽可以在复杂的环境中进行车队调度，并且使用了上下文的地理信息，但是这两种基线方法增加了大量了计算花费。而本实施例的方法CADPG使用三个网络联合更新损失函数，使用两种状态输入(局部状态和全局状态)，能够及时的获取复杂的动态供需情况。在车辆数量为100％时，CADPG在ORR方面相对于基线方法最高可提高8。24％，在ADI方面也有所提升，结果如表2所示：

表2

为了进一步衡量CADPG的稳健性，将CADPG与三种基线方法在车辆调度数量方面进行了试验评估，结果表明CADPG在不同的初始化车辆数时车辆调度数量明显低于基线方法，如图6所示。CADPG将局部观测状态和全局状态进行联合输入，使用神经网络来估计供应(可用车辆)和需求(订单)之间的复杂动态，不仅提高了算法的性能，在很大程度上缩小了动作空间，并且在车队调度策略权重分配时提供了重要的信息。

如图7显示了每天在线车辆数，包括了正在服务的车辆和空闲车辆。在本实施例中使用正态分布来进行车辆的更新，并且在每个时间段设置了车辆上下线的概率来平衡车辆供需，以此来提高车辆的利用率，减小资源损失，如在12点时，正是下班高峰时间段，而在线的车辆数也达到了一个高峰，确保在这个时间步提供更多的服务。

与现有技术方法相比，本实施例所提出的动态优化调度策略，可提高调度运营效率。提高订单响应率，增加司机和平台累积收益，减少调度车辆，减少某些区域内过高堆积的闲置车辆数目。减少共享资源的浪费，改善由大量闲置车辆的堆叠所造成的城市环境的现象。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.基于超参数网络权重分配深度强化学习的车辆调度方法，其特征在于，包括以下步骤：

基于所述全局区域，得到多智能体的全局状态，基于所述全局状态，通过价值网络，得到全局状态价值；通过评价网络，得到多智能体的状态-联合动作价值；

2.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法，其特征在于，获取多智能体的调度区域的过程包括：

划分地图得到智能体的六边形网格区域，其中所述六边形网格区域为调度区域；

基于所述六边形网格区域的中心坐标，得到邻居区域。

3.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法，其特征在于，得到当前调度策略的过程包括：

基于所述局部区域，得到多智能体的局部状态，其中所述局部状态包括：自身网格和六个邻居网格中的订单需求数和车辆数以及网格编号；

将所述局部状态输入至策略网络，得到当前调度策略。

4.根据权利要求3所述的基于超参数网络权重分配深度强化学习的车辆调度方法，其特征在于，将所述局部状态输入至策略网络的过程包括：

获取策略网络，将所述的局部状态输入至所述策略网络，得到观察状态与动作参数的映射关系，基于所述映射关系，得到当前调度策略。

5.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法，其特征在于，得到全局状态价值的过程包括：

基于所述全局区域，得到多智能体的全局状态，其中所述全局状态包括：所有网络中的订单需求数、车辆数以及网格编号；

基于所述全局状态，通过价值网络，得到全局状态价值。

6.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法，其特征在于，得到多智能体的状态-联合动作价值的过程包括：

7.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法，其特征在于，得到新的目标函数的过程包括：

8.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法，其特征在于，优化所述调度策略的过程包括：