CN114418213A

CN114418213A - 一种基于深度强化学习的城市电动车辆调度方法和系统

Info

Publication number: CN114418213A
Application number: CN202210056967.6A
Authority: CN
Inventors: 王甲海; 黄欢欢
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-04-29

Abstract

本发明公开了一种基于深度强化学习的城市电动车辆调度方法和系统，方法为一种端到端的方法，给定问题实例作为输入，利用训练好的深度神经网络可以直接输出问题的解。具体地，提出了一个可以捕捉和提取边信息的图神经网络对策略进行建模，以有效地解决非对称车辆路径问题，且提出了一个软约束+硬约束的两阶段训练方法，以有效地处理带时间窗电动车辆路径问题中的复杂约束。与传统方法相比，它能在获得更好求解效果的前提下大幅度地缩减求解时间。

Description

一种基于深度强化学习的城市电动车辆调度方法和系统

技术领域

本发明涉及车辆路径问题领域，更具体地，涉及一种基于深度强化学习的城市电动车辆调度方法和系统。

背景技术

车辆路径问题(Vehicle Routing Problem，VRP)是指一定数量的客户，各自有不同数量的货物需求，配送中心向客户提供货物，由一个车队负责分送货物，组织适当的行车路线，目标是使得客户的需求得到满足，并能在一定的约束下，达到诸如路程最短、成本最小、耗费时间最少等目的。车辆路径问题是一类经典的组合优化问题，属于NP难问题。由于其具有广泛的应用性和经济上的重大价值，因此受到了国内外学者的广泛研究。车辆路径问题的实际问题包括配送中心配送、公共汽车、工业废品收集等。

在基本车辆路径问题的基础上，根据不同的问题设定，产生了不同类型的车辆路径问题。近年来，新能源电动汽车受到了广泛的应用，相比于传统汽车，新能源电动汽车使用的是可再生的和清洁的能源，具有绿色环保的巨大优势，其市场份额也在逐年升高，在能源和环保的压力下，新能源汽车无疑将成为未来汽车的发展方向，由此，也衍生了大量关于电动车辆路径问题的研究。带时间窗的电动车辆路径问题(Electric Vehicle RoutingProblem with Time Windows，EVRPTW)在基础车辆路径问题上增加了行驶里程约束和时间窗约束。具体地，给定一定数量的客户，每个客户有各自的货物需求和可被服务的时间窗，给定一个电动汽车车队，每一电动汽车具有有限的装载容量和有限的行驶里程，其从仓库出发，沿途在规定的时间窗内为客户提供货物，途中可访问充电站充电以增加行驶里程，最终在规定的最晚时间之前回到仓库，要求为该电动汽车车队组织适当的行驶路线，在满足客户需求及时间、容量、行驶里程约束下使得总的路径长度最短。

当前，求解车辆路径问题的方法主要可以分为精确算法、启发式/元启发式算法和深度强化学习优化算法。精确算法是可以求解得到全局最优解的算法，包括分支界限法、动态规划法等，由于车辆路径问题是NP难题，因此精确算法的计算量会随着问题规模呈指数级增长，难以扩展到大规模问题。启发式/元启发式算法是基于直观或经验构造的算法，其可以在可接受的计算时间内求出一个可行解，但无法保证解的质量，具体包括模拟退火、禁忌搜索、遗传算法等，启发式/元启发式算法一般是迭代型优化算法，当问题规模很大时大量的迭代搜索仍然会导致较大的计算量，且一旦问题发生变化便需要重新进行搜索求解，此外，启发式规则的设计通常需要对问题具有深入的了解和研究，导致了算法设计的困难。

深度强化学习优化算法是近年来兴起的一种求解方法，相比于传统方法，深度强化学习优化算法具有求解速度快、泛化能力强的优势，其可以分为两大类：一类是构造式方法，其采用端到端方式，给定问题实例作为输入，利用训练好的深度神经网络直接输出问题的解，其中神经网络的参数由深度强化学习训练得到，相对于传统的迭代型优化算法，构造式方法无需搜索而直接输出问题的解，具有求解速度快的优势，且模型一旦训练完成，便可以对具有相同分布特性的所有问题实例进行求解，具有一定的泛化能力，而传统算法则对于每一新的问题实例都需要从头开始进行搜索求解，十分耗时。另一类是提升式方法，其在迭代搜索框架下，利用深度强化学习对启发式规则进行学习和选择，通过学习到的规则进行解的迭代搜索，该类方法通过神经网络模型代替人为手工设计，从而降低了算法设计的困难性，由于其本质上仍然是迭代型优化算法，因此该类方法虽具有较好的优化效果，但是其求解速度则远不及构造式的端到端方法。

在现有的求解车辆路径问题的深度强化学习优化算法研究中，存在两点不足：其一是问题脱离现实场景，当前大多数研究都聚焦于对称的车辆路径问题，结点之间的距离为通过坐标计算而来的欧式距离，是对称的，然而，在现实的车辆路径问题中，结点之间的距离不可能是简单的欧式距离，也几乎不可能是对称的，因此有必要将深度强化学习优化算法推广到非对称的车辆路径问题上。其二是缺乏有效地约束处理机制来解决车辆路径问题中的复杂约束，当前在构造式深度强化学习优化算法的训练过程中通常采取直接屏蔽非法动作的方式对约束进行处理，该硬约束处理方法虽可保证生成可行解，但一定程度上影响了模型的求解质量。

现有技术中公开了一种求解带软时间窗物流运输车辆路径问题的方法，针对基于实时交通信息的带软时间窗物流运输车辆路径问题，采用时间窗惩罚机制，建立其数学模型；使用自适应混沌蚁群算法求解该模型，通过算法信息素的自适应更新和算法参数的混沌自适应调整来提高算法的寻优能力。该方法耗时久，无法很好的应用于实际案例中。

发明内容

本发明的首要目的是提供一种基于深度强化学习的城市电动车辆调度方法，在获得更好求解效果的前提下大幅度地缩减求解时间。

本发明的进一步目的是提供一种基于深度强化学习的城市电动车辆调度系统。

为解决上述技术问题，本发明的技术方案如下：

一种基于深度强化学习的城市电动车辆调度方法，其特征在于，包括以下步骤：

S1：将带时间窗电动车辆路径问题建模成一个有向完全图，仓库、充电站和客户为图中的结点，任意两个结点之间通过边相连接，对需求、距离和时间数据分别进行归一化处理；

S2：使用编码器分别对所述有向完全图中的点信息和边信息进行编码得到对应的特征表示；

S3：使用解码器进行解码，在每步解码中根据步骤S2中得到的点和边的特征表示以及当前车辆状态信息和历史路径信息，以自回归的方式逐步构造路径，得到问题的解；

S4：根据所述问题的解计算出总回报，使用REINFORCE算法对编码器和解码器的参数进行更新；

S5：将训练好的编码器和解码器用于求解带时间窗电动车辆路径问题。

进一步地，所述步骤S1中结点信息为v_i＝(d_i,e_i,l_i,t_i)，其中，d_i表示客户需求，e_i表示最早服务时间，l_i表示最晚服务时间，t_i表示节点类型，且有：

其中，V_d，V_s，V_c分别表示仓库结点集合、充电站结点集合和客户结点集合。

进一步地，所述步骤S1中边信息为e_ij＝(dis_ij,time_ij,a_ij)，其中，dis_ij表示距离，time_ij表示时间，a_ij表示最近邻，且有：

进一步地，所述步骤S2具体包括以下步骤：

S2.1：使用两个嵌入层分别将所述结点信息v_i和边信息e_ij映射成高维的特征向量，得到图神经网络的第一层输入

和

式中，W_V，b_V，W_E，b_E均为可训练的参数；

S2.2：使用图神经网络，将

和

经过N层图神经网络得到最终的特征向量表示，在图神经网络的每一层中，每一点和边都会聚集相邻点和边的信息以更新自身，其中点特征表示的更新方式为：

边特征表示的更新方式为：

其中MHA是多头注意力子层，FF是全连接子层，BN是批正则化子层，；表示拼接操作，σ是激活函数Relu，

均为可训练的参数，最后一层图神经网络的输出即为所有点信息和边信息经过编码器编码得到的特征向量表示。

进一步地，所述步骤S3具体包括以下步骤：

S3.1：根据编码器编码得到的点和边的特征向量表示以及当前解码步的车辆状态信息和历史路径信息，先使用glimpse机制计算出一个查询向量，具体地，假设车辆当前在i结点，则计算出查询向量：

c_t＝W_CC_t+b_C

h_t＝GRU^t(h_i)

式中，MHA表示多头注意力层，W_C，b_C均为可训练的参数，C_t＝(T_t,D_t,B_t)表示当前车辆状态信息，T_t是当前时间，D_t是剩余容量，B_t是剩余行驶里程，h_j和

表示对应点和边的特征向量表示；

S3.2：采取注意力机制，根据查询向量q^t及与结点i相邻点和边的隐向量计算出每一结点的权重，即概率分布p^t：

p^t＝softmax(u^t)

其中W_Q，W_K为可训练的参数，C为常数，d_h为Q^t的维度，

表示在

t步解码时结点j可以被选择，反之则表示不能被选择，在软约束处理方法中，

当遇到如下情况之一时有

·i＝j；

·结点i为仓库或充电站且结点j为充电站；

·结点j为客户且已经被访问过；

在硬约束处理方法中，当遇到如下情况之一时有

·i＝j；

·结点i为仓库或充电站且结点j为充电站；

·结点j为客户且已经被访问过；

·车辆剩余容量小于结点j的需求量，即D_t<d_j；

·到达结点j的时间会晚于结点j的最晚服务时间，即T_t+time_ij>l_j；

·剩余行驶里程不支持到达结点j，即B_t<dis_ij；

·到达结点j后的剩余行驶里程不支持到达任一仓库或充电站；

S3.3：根据概率分布p^t，选择一个结点j进行访问即执行一个动作，将此结点j加入到历史路径π中，并更新车辆状态信息，当前时间更新为：

其中，s是服务时间，c是充电时间；

当前剩余容量更新为：

其中，D_max是车辆最大装载容量；

当前剩余行驶里程更新为：

其中B_max是车辆最大行驶里程；

S3.4：重复步骤S3.1～S3.3，直至车辆服务完所有客户结点且返回到仓库，该过程中选择的结点序列即为问题的解。

进一步地，所述步骤S3.3中选择一个结点j进行访问，有两种选择方法，一种为贪心策略，每步均选择概率最大的结点；另一种为随机策略，即结点被选择的概率为解码器输出的概率。

进一步地，所述步骤S4中根据所述问题的解计算出总回报，具体为：

式中，π＝{i₀,i₁,…,i_T}表示结点序列即问题的解，α，β，γ均为常系数。

进一步地，所述步骤S4中使用REINFORCE算法对编码器和解码器的参数进行更新，具体为：

其中s表示问题实例，b(s)是当前策略网络greedy解码方式求得的解的总回报，引入它的目的是减小策略梯度的方差，使训练稳定，Adam是Adam优化器。

进一步地，所述步骤S5中训练好的编码器和解码器，具体为：

随机生成仿真算例集，并将所有问题实例分成训练集、验证集和测试集，使用训练集对编码器和解码器进行多次训练，其中前一阶段训练中采用软约束处理方法，后一阶段训练中采用硬约束处理方法，在每个批次训练完成后均在验证集上进行一次求解评估，取在验证集上表现最好的编码器和解码器用于求解带时间窗电动车辆路径问题。

一种基于深度强化学习的城市电动车辆调度系统，包括：

图建模模块，所述图建模模块将带时间窗电动车辆路径问题建模成一个有向完全图，仓库、充电站和客户为图中的结点，任意两个结点之间通过边相连接，对需求、距离和时间数据分别进行归一化处理；

编码模块，所述编码模块使用编码器分别对所述有向完全图中的点信息和边信息进行编码得到对应的特征表示；

解码模块，所述解码模块使用解码器进行解码，在每步解码中根据编码模块中得到的点和边的特征表示以及当前车辆状态信息和历史路径信息，以自回归的方式逐步构造路径，得到问题的解；

参数更新模块，所述参数更新模块根据所述问题的解计算出总回报，使用REINFORCE算法对编码器和解码器的参数进行更新；

求解模块，所述求解模块将训练好的编码器和解码器用于求解带时间窗电动车辆路径问题。

与现有技术相比，本发明技术方案的有益效果是：

1、本发明设计了求解非对称带时间窗电动车辆路径问题的深度强化学习优化算法，与传统方法相比，它能在获得相当或更好求解效果的前提下大幅度地缩减求解时间，且训练好的模型可以求解具有相同分布特性的问题实例，具有求解速度快、泛化能力强的优势。

2、本发明设计的捕捉和提取边信息的图神经网络可以有效地解决非对称车辆路径问题，使得算法具有广泛的应用性和实际意义。

3、本发明提出的软约束+硬约束的两阶段训练方法使得模型可以较好地应对复杂约束，获得更好的求解效果，该方法也容易推广到其他带复杂约束的组合优化问题上。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的模型结构示意图。

图3为本发明的系统模块示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种基于深度强化学习的城市电动车辆调度方法，如图1至图2所示，包括以下步骤：

本实施例是一种基于深度强化学习的带时间窗电动车辆问题求解方法，是一种端到端方法，给定问题实例作为输入，利用训练好的深度神经网络可以直接输出问题的解，模型一旦训练完成，便可以对具有相同分布特性的所有问题实例进行求解，因此具有求解速度快、泛化能力强的优势。首先组织得到问题实例的点信息和边信息并作数据预处理，然后将问题实例的点信息和边信息输入到编码器中编码得到相应的特征向量表示，再使用解码器对点和边的特征向量表示以及车辆状态信息和历史路径信息进行序列解码得到结点序列即问题的解，最后根据解计算出总回报并更新模型参数，重复如上步骤若干次得到训练好的模型即可用于求解带时间窗电动车辆路径问题。

所述步骤S1中结点信息为v_i＝(d_i,e_i,l_i,t_i)，其中，d_i表示客户需求，e_i表示最早服务时间，l_i表示最晚服务时间，t_i表示节点类型，且有：

所述步骤S1中边信息为e_ij＝(dis_ij,time_ij,a_ij)，其中，dis_ij表示距离，time_ij表示时间，a_ij表示最近邻，且有：

再根据车辆最大装载容量、车辆最大行驶里程和车辆最早出发时间与最晚返回时间分别对所有点信息和边信息的需求、距离和时间进行归一化。

所述步骤S2具体包括以下步骤：

和

式中，W_V，b_V，W_E，b_E均为可训练的参数；

S2.2：使用图神经网络，将

和

边特征表示的更新方式为：

所述步骤S3具体包括以下步骤：

c_t＝W_CC_t+b_C

h_t＝DRU^t(h_i)

表示对应点和边的特征向量表示；

p^t＝softmax(u^t)

其中W_Q，W_K为可训练的参数，C为常数，d_h为Q^t的维度，

表示在t步解码时结点j可以被选择，反之则表示不能被选择，引入mask的目的是保证生成可行解，这里设计了软约束和硬约束两种约束处理方法，在软约束处理方法中，当遇到如下情况之一时有

·i＝j；

·结点i为仓库或充电站且结点j为充电站；

·结点j为客户且已经被访问过；

在硬约束处理方法中，当遇到如下情况之一时有

·i＝j；

·结点i为仓库或充电站且结点j为充电站；

·结点j为客户且已经被访问过；

·车辆剩余容量小于结点j的需求量，即D_t<d_j；

·剩余行驶里程不支持到达结点j，即B_t<dis_ij；

其中，s是服务时间，c是充电时间；

当前剩余容量更新为：

其中，D_max是车辆最大装载容量；

当前剩余行驶里程更新为：

其中B_max是车辆最大行驶里程；

所述步骤S3.3中选择一个结点j进行访问，有两种选择方法，一种为贪心策略，每步均选择概率最大的结点；另一种为随机策略，即结点被选择的概率为解码器输出的概率。

所述步骤S4中根据所述问题的解计算出总回报，具体为：

所述步骤S4中使用REINFORCE算法对编码器和解码器的参数进行更新，具体为：

所述步骤S5中训练好的编码器和解码器，具体为：

实施例2

本实施例提供实施例1的一个具体实施例，具体为：

通过随机生成的仿真算例集进行评估，并分为训练集、验证集和测试集。其中训练集有32000个算例，每个算例包含有S＝2个充电站结点和C＝20个客户结点，验证集有1000个算例，每个算例也包含有S＝2个充电站结点和C＝20个客户结点，测试集有三种算例，每种算例均有1000个，三种算例分别包含S＝2个充电站结点和C＝20个客户结点(S2-C20)、S＝5个充电站结点和C＝50个客户结点(S5-C50)、S＝10个充电站结点和C＝100个客户结点(S10-C100)。使用测试集对训练好的模型进行测试并记录实验结果，模型在测试时采用greedy和sample两种解码方式，sample解码方式对每一算例采集1280条路径并选取其中最好结果。

本发明使用两个评价指标进行衡量：

1、求解质量：表示平均每个算例求得的解的总路径长度。

2、求解时间：表示平均每个算例求解所用时间。

表1本发明在测试集上与其他对比方法的求解质量实验结果(单位：m，真实结果除以1e5)

方法	S2-C20	S5-C50	S10-C100
				OR-Tools	5.9124	16.0137	-
SA	5.7714	11.6925	20.4695
				RL(greedy)	6.5543	13.1467	23.1973
RL(sample)	6.1120	12.1550	21.5154
				本发明(greedy)	6.2472	12.6422	22.0075
本发明(sample)	5.9028	11.6041	20.8789

表2本发明在测试集上与其他对比方法的求解时间实验结果(单位：s)

方法	S2-C20	S5-C50	S10-C100
				OR-Tools	54.26	56.38	-
SA	27.79	49.87	105.22
				RL	0.82	1.44	2.17
本发明	0.53	0.78	1.13

由上述实验结果可知，本发明较其他方法可以在大幅度缩减求解时间的情况下取得较好的求解效果。

实施例3

本实施例提供一种基于深度强化学习的城市电动车辆调度系统，如图3所示，包括：

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。