CN112784481B

CN112784481B - 一种用于中继充电路径规划的深度强化学习方法及系统

Info

Publication number: CN112784481B
Application number: CN202110052655.3A
Authority: CN
Inventors: 黄金才; 周玉珍; 石建迈; 程光权; 孙博良
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2023-04-07
Anticipated expiration: 2041-01-15
Also published as: CN112784481A

Abstract

本发明实施例提供一种用于中继充电路径规划的深度强化学习方法及系统，包括构建用于中继充电路径规划的数学模型；根据所述数学模型构建用于中继充电路径规划的深度强化学习模型；对所述深度强化学习模型进行训练，得到所述深度强化学习模型的应用模型；将运输工具要访问的客户点和中继充电站点的位置输入所述应用模型，得到所述运输工具的路径规划的解。通过该方案，在规划物流工具用于中继充电路径时，具有较高的工作效率，并能取得更优的规划结果。

Description

一种用于中继充电路径规划的深度强化学习方法及系统

技术领域

本发明涉及物流技术领域，具体涉及一种用于中继充电路径规划的深度强化学习方法及系统。

背景技术

电动汽车、无人机等新兴运输工具在环保、成本等方面具有很大优势，在最近物流配送领域应用越来越广泛。由于其续航能力限制，一般需要中途进行充电，才能完成所有客户点的访问，使得电动汽车、无人机等新兴运输工具的行驶路径规划更加复杂。

电动汽车、无人机等在路径规划中的应用引出了一类新的规划问题—中继充电的路径规划问题。该问题是传统路径规划问题的延伸和扩展，其不仅需要考虑客户点的访问顺序，还需要考虑车辆或无人机是否能到达下一个客户点，从而决定是否要访问中继充电站进行充电，在哪个位置充电，访问哪个充电站等。其还有两点不同于传统的路径规划问题在于其具有有序性和有向性。在传统路径规划问题中车辆可以从路径中任一客户点出发，按顺序访问完所有顾客点后返回出发的点，且传统的路径规划确定了客户点的访问顺序后，反方向行驶也是一样的。但在中继充电的路径规划问题中，客户点的访问顺序受出发点的影响，同时客户点的访问顺序也影响访问充电站的位置以及访问的充电站。因此，中继充电的路径规划问题所有车辆或无人机有固定的出发点且具有方向性，车辆或无人机在访问完所有顾客点后最终返回出发点。总目标是使得总行驶距离最小。

在实现本发明的过程中，发明人发现现有技术至少存在如下问题：

针对该类问题传统的求解方法是通过构造式获得初始解，然后不断优化解的结构，从而获得更优的解，这通常需要耗费大量的时间才能获得满意的解。在现代物流中，每天面对成千上万条相似规模的数据需要求解，如何节约计算时间从而提高求解效率是需要解决的问题。

发明内容

本发明实施例提供一种用于中继充电路径规划的深度强化学习方法及系统，来使路径规划的效率更高、结果更准确。

为达上述目的，一方面，本发明实施例提供一种用于中继充电路径规划的深度强化学习方法，包括：

构建路径规划的数学模型；

根据所述数学模型构建所述路径规划的深度强化学习模型；

对所述深度强化学习模型进行训练，得到所述深度强化学习模型的应用模型；

将运输工具要访问的客户点和中继充电站点的位置输入所述应用模型，得到所述运输工具的路径规划的解。

另一方面，本发明实施例提供一种用于中继充电路径规划的深度强化学习系统，包括：

数学模型构建单元，用于构建路径规划的数学模型；

深度强化学习模型构建单元，用于根据所述数学模型构建所述路径规划的深度强化学习模型；

模型训练单元，用于对所述深度强化学习模型进行训练，得到所述深度强化学习模型的应用模型；

规划单元，用于将运输工具要访问的客户点和中继充电站点的位置输入所述应用模型，得到所述运输工具的路径规划的解。

上述技术方案具有如下有益效果：

提出了一种端到端的深度强化学习方法求解该问题，该方法通过观察奖励信号和遵循一些可行性规则，找到问题的可行解，并且通过动作—评价方法优化其参数，训练后的模型可以直接为类似规模的用于中继充电物流路径规划问题快速找到接近最优的解决方案而不需要重新训练。具有较高的工作效率，并能取得更优的规划结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一种用于中继充电路径规划的深度强化学习方法的流程图；

图2是本发明实施例一种用于中继充电路径规划的深度强化学习系统的结构图

图3是本发明实施例的深度强化学习网络模型；

图4是本发明一具体实施例中采用深度强化学习得到的结果；

图5为本发明一具体实施例中采用经典节约算法得到的结果；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种用于中继充电路径规划的深度强化学习方法，包括：

S101、构建路径规划的数学模型；

S102、根据所述数学模型构建所述路径规划的深度强化学习模型；

S103、对所述深度强化学习模型进行训练，得到所述深度强化学习模型的应用模型；

S104、将运输工具要访问的客户点和中继充电站点的位置输入所述应用模型，得到所述运输工具的路径规划的解。

经发明人研究，中继充电的路径规划过程可以看做一个典型的马尔科夫过程，其中最优解可以是视为一系列的决策。这使得我们可以考虑使用深度强化学习来生成问题的解决方案。本申请提出了一种端到端的深度强化学习方法求解该问题，该方法通过观察奖励信号和遵循一些可行性规则，找到问题的可行解，并且通过动作-评价方法优化其参数，训练后的模型可以直接为类似规模的问题快速找到接近最优的解决方案而不需要重新训练。

用G＝(N,A)表示一个有向图，N＝C∪F∪O表示节点集，其中C＝{1,2,…,n}表示需要访问的客户点集，F＝{1,2,…,m}表示充电站集。N中的每个节点i由(lngⁱ,latⁱ)定义，其表示客户点的坐标。集合A＝{(i,j)|i,j∈N,i≠j表示连接客户点或者充电站的弧线，每条弧线(i,j)∈A对应距离d_ij。车辆从仓库出发，在访问完所有任务点后返回库区。在行程中，由于车辆的行驶里程有限，车辆需要到充电站进行充电。路径规划的目的是在满足任务要求和能量约束的前提下，找到最短的路线。

根据以上定义，中继充电的路径规划问题的混合整数线性模型如下：

其中x_ij表示客户点i和客户点j之间是否有路径，y_i记录车辆到达i时的剩余可行驶里程，Y表示车辆的最大里程数。

该模型的目标是使总距离最小化。方程(1)保证每个客户点都要被且只被服务一次；式(2)限制每个充电站最多只被访问一次；式(3)-式(4)保证路径没有内循环；式(5)-式(7)记录车辆行驶里程的变化，并假设车辆离开充电站时已充满电；式(8)限定了车辆最大行驶里程；式(9)定义了x_ij的变量类型。

进一步的，所述强化学习的方式为：

根据当前已确定的访问点和约束条件，采用条件概率公式选择下一个访问点，所述访问点包括客户点和中继充电站点；

所述条件概率公式为：

X_t+1＝f(y_t+1,X_t)，

其中，X_t为时刻t的输入，Y＝{y₁,…,y_T}，Y为长度为T的客户点和中继充电站点的序列，f为状态转移函数。

对于中继充电的路径规划算法的研究，最早采用的是穷举法，在问题规模较小的情况下，穷举法很容易得到问题的最优解，但是，众所周知，路径规划是一个NP-Hard问题，中继充电的路径规划问题作为其扩展，求解空间更为庞大，随着数据规模的扩大，其求解空间呈指数增长，获得最优解几乎不可能。因此，启发式算法应运而生，其可以在可接受的时间范围内给出较好的解。例如退火、遗传算法、蚁群算法等种群算法和变邻域搜索、大规模邻域搜索、自适应大规模邻域搜索等搜索算法，效果显著。

启发式算法对于单个案例来说，可以在可接受的时间内获取较优的解，但对于大规模类似数据求解时，针对每个案例，算法都需要大量迭代去获得最优解。例如某些电商的物流，每天都有的大量相似的订单，快速获得这些路径的最优解对于效率的提升很有必要。

中继充电的路径规划的过程是一个典型的马尔科夫决策过程。在本专利中，针对中继充电的路径规划问题，提出了一个类似于端到端的深度强化学习模型来解决这个问题，并通过策略梯度方法动作评价算法对网络进行训练。该模型可以通过观察奖励信号和遵循一些可行性规则，为类似规模的问题找到接近最优的解决方案。

先行定义网络的输入为X＝{xⁱ,i＝1,…,n+m+1}，其中n代表客户点数量，m表示充电站数量。每一个输入xⁱ是一个元组序列

其中x_i代表它们的二维坐标，

是输入的动态元素，它表示第i个客户点在固定的时间t是否被访问，用X_t表示时刻t的输入。我们的最终目标是找到一个长度为T的客户点和充电站的排列，Y＝{y₁,…,y_T}，它可能与输入长度n+m+1不同。这是基于车辆可能需要多次到充电站加油，也可能有一些充电站没有到过。首先，车辆从库房出发，库房被记录为y₁，在每一个解码步骤中，选择下一个可到达的客户点进行访问，或者在车辆里程不足的情况下选择访问充电站，选择的节点被记录为y_t+1。这个选择的过程可以用公式(10)描述。目标是寻找策略π在满足约束的情况下生成最小化损失函数的序列Y。

其中

X_t+1＝f(y_t+1,X_t) (11)

f代表了状态转移函数，即下一刻的状态，由上一时刻的状态和当前选择的节点决定。

进一步的，所述构建用于中继充电路径规划的深度强化学习模型，包括：

S1021、在编码器和解码器基础之上设置注意力层；；

S1022、采用注意力机制计算每一个输入在下一个时刻t的解码步骤中的相关程度；

所述注意力机制包括：

其中，所述神经网络的输入X＝{xⁱ,i＝1,…,n+m+1}，n为客户点数量，m为充电站点数量，每个xⁱ是一个元组序列

x_i为访问点的二维坐标，

为动态元素用于指示第i个访问点在时刻t是否被访问。

如图3所示，所述深度强化学习模型为神经网络，神经网络由两个RNN构成，分别称为编码器和解码器。编码器采用简单的一维卷积将其映射到高维(128)向量空间，解码器采用多层LSTM,隐藏层层数为128。(10)式右端的条件概率P(y_t+1|y_1,y₂,…,y_t,X_t)由一个基于注意力的指针网络决定，其结合了解码器的隐藏状态和输入的编码一起用来计算下一个输入的条件概率。其中单实线框的输入代表顾客点，双实现框的代表中继充电站点。

直观地讲，注意力机制会计算每一个输入在下一个解码步骤t中的相关程度，相关度最高的那个会得到更多的关注，可以被选为下一个访问客户点。其中：

进一步的，所述约束条件包括：

每个客户点均被运输工具访问，且每个客户点只能被访问一次；

每个中继充电站点可以被运输工具多次访问、或不被访问；

运输工具遍历所有客户点后返回到出发点；

运输工具在访问过程中始终保持有足够电量到达下一个访问点。

为了加快训练和避免大量不可行的解，使用一种屏蔽方案，将不可行点的对数概率设为1，或者在满足特定条件时强制求解。

在中继充电的路径规划问题中，可采用以下屏蔽规则。

1、已经被访问过的客户点不会被再次访问，充电站可以重复访问；

2、如果车辆访问完该客户后，无法到达距离它最近的充电站，则该客户节点将被掩蔽。

3、当所有顾客点被访问完以后结束。

该屏蔽方案可以避免解在访问了当前顾客点以后发现接下来没有可以访问的点，从而陷入僵局，加快了训练速度。

进一步的，所述对所述深度强化学习模型进行训练，得到所述深度强化学习模型的应用模型，包括：

S1031、设定迭代次数E和训练用访问点数量；

S1032、设定迭代次数初始值k＝0

S1033、生成满足训练用访问点数量的训练输入数据；

S1034、根据训练输入数据生成训练路径规划，并计算回报值；

S1035、根据回报值更新动作网络参数和评价网络参数；

S1036、更新迭代次数k＝k+1；

S1037、当k<E时，返回步骤3，所述步骤3是指生成满足训练用访问点数量的训练输入数据；

S1038、根据最后得到的动作网络参数和评价网络参数确定所述深度强化学习模型的应用模型。

在本申请中，使用动作评价网训练模型。表1的算法展示了训练过程的伪代码。

表1.动作评价网训练过程的伪代码

如图2所示，本发明提供一种用于中继充电路径规划的深度强化学习系统，其特征在于，包括：

数学模型构建单元21，用于构建路径规划的数学模型；

深度强化学习模型构建单元22，用于根据所述数学模型构建所述路径规划的深度强化学习模型；

模型训练单元23，用于对所述深度强化学习模型进行训练，得到所述深度强化学习模型的应用模型；

规划单元24，用于将运输工具要访问的客户点和中继充电站点的位置输入所述应用模型，得到所述运输工具的路径规划的解。

进一步的，所述深度强化学习模型具体用于：

所述条件概率公式为：

X_t+1＝f(y_t+1,X_t)，

进一步的，所述深度强化学习模型构建单元22具体用于：

在编码器和解码器基础之上设置注意力层；；

采用注意力机制计算每一个输入在下一个时刻t的解码步骤中的相关程度；

所述注意力机制包括：

x_i为访问点的二维坐标，

为动态元素用于指示第i个访问点在时刻t是否被访问。

进一步的，所述约束条件包括：

每个中继充电站点可以被运输工具多次访问、或不被访问；

运输工具遍历所有客户点后返回到出发点；

运输工具在访问过程中始终保持有足够电量到达下一访问点。

进一步的，所述模型训练单元23具体用于：

设定迭代次数E和训练用访问点数量；

设定迭代次数初始值k＝0

生成满足训练用访问点数量的训练输入数据；

根据训练输入数据生成训练路径规划，并计算回报值；

根据回报值更新动作网络参数和评价网络参数；

更新迭代次数k＝k+1；

当k<E时，返回步骤3，所述步骤3是指生成满足训练用访问点数量的训练输入数据，用以迭代更新动作网络参数和评价网络参数；

根据最后得到的动作网络参数和评价网络参数确定所述深度强化学习模型的应用模型。

下面举一个具体实例加以说明：

设置模型的迭代次数为70000次，并使用Adam优化器对动作评价网络进行训练，学习率为0.0001，批量大小为128。

为了对模型和算法的效率进行验证，在1000个小规模案例上将模型所得结果与经典的节约算法(CW)进行了对比。每个案例包含了10个顾客点以及4个充电站。结果显示，在656个数据集上获得了比CW更好的解。

可以看出，采用本申请的强化学习方法得到的解的分布相对更为集中，并且平均优于CW的结果。为更直接的看出解的差距，现展示其中一个实例的解，如图4和图5所示。

可以看出，两个顾客点的访问顺序相同，但访问充电站的位置和访问的充电站都不相同，强化学习访问的充电站更优。且算法可以在1秒内给出1000个实例的解，求解效率更高，因此该算法具有较高的实用价值。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。