CN113687651A

CN113687651A - 一种按需派送车辆的路径规划方法及装置

Info

Publication number: CN113687651A
Application number: CN202110762775.2A
Authority: CN
Inventors: 李勇; 宗泽方; 金德鹏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-11-23
Anticipated expiration: 2041-07-06
Also published as: CN113687651B

Abstract

本发明提供一种按需派送车辆的路径规划方法及装置。该方法包括：获取待分析的订单数据；将所述订单数据输入到双阶段强化学习预测模型中，得到所述双阶段强化学习预测模型输出的车辆配送路径规划策略；其中，所述双阶段强化学习预测模型是基于预设的样本订单数据、所述样本订单数据对应的配送路径规划策略及其结果迭代训练得到；所述双阶段强化学习预测模型包括：用于进行操作算子选择的算子选择器以及用于进行操作算子作用路径选择的路径选择器。采用本发明按需派送车辆的路径规划方法，能够基于双阶段强化学习预测模型引入深度强化学习的方法指导启发式操作在策略空间中进行高效搜索，提高了按需派送车辆的路径规划的效率和准确度。

Description

一种按需派送车辆的路径规划方法及装置

技术领域

本发明涉及大数据分析技术领域，具体涉及一种按需派送车辆的路径规划方法和装置。另外，还涉及一种电子设备及处理器可读存储介质。

背景技术

车辆路径调度问题(Vehicle Routing Problem，VRP)是指在一定的约束条件下，针对一系列装货点和卸货点，组织适当的行车路径，使车辆有序地通过各个站点，并对过程的开销进行控制，以达到一定目标的问题。这类问题在快递收发、外卖派送等场景中广泛存在。根据实际场景的不同，VRP问题有着不同的约束条件与优化目标。其中，结对揽货-派送(Pair-wise Pickup and Delivery)车辆路径规划场景是一种在现实中具有广泛应用的典型VRP问题场景，具有收发站点成对出现，且一一对应的特点。除车辆的容量与派送的时间窗约束外，路径的规划还需要满足收发站点对由相同车辆配送的约束，且货物必须满足首先被揽货，再被派送的顺序。现实生活中的外卖场景就是按需派送场景在食品配送领域的典型例子。结对揽货-派送(Pair-wise Pickup and Delivery)场景下的VRP问题是NP hard问题。

在现有技术中，解决上述问题主要存在以下几种技术方案：(1)是利用精确算法。精确算法主要利用运筹学的手段，采用精确的数学建模进行优化的方法，主要包括分枝定界法(Branch and Bound Approach)，割平面法(Cutting Planes Approach)，动态规划算法(Dynamic Programming Approach)等多种类型。精确算法由于采用了精准的建模，能够得到针对问题的最优解或较优解，但其计算量往往随问题规模的增大呈指数增长，因此只能对小规模的确定性问题起作用，在绝大多数条件下并不适用。(2)是利用启发式算法。在精确算法难以有效解决问题的情况下，启发式算法成为了解决此类问题的主要手段，现代的高级启发式算法的基本思想主要是从初始解开始，通过对当前解进行优化和扰动来寻找更优解。这类算法包括禁忌搜索算法(Tabu Search)，遗传算法(Genetic Algorithm)、蚁群算法(Ant Colony)，模拟退火算法(Simulated Annealing)等。这类启发式算法具有适应性强，求解速度可观等优势，但在面对按需派送这类较复杂的场景时，仍然会表现出局部最优，求解质量过低等问题。

近年来，随着计算机技术及神经网络模型的快速发展，采用深度强化学习的方法解决实际工程问题已成为趋势。深度强化学习方法因其求解迅速，求解质量高等特点正在越来越受到青睐。然而，现有方法主要基于驾驶员信息、集群信息等经验信息进行路径的预测，同时普遍存在适应场景较简单，自适应能力有限等缺陷。除此以外，现有方法往往基于启发式算法进行实用VRP求解器的设计，往往在部署阶段需要耗费大量的运算时间，无法满足更新速度快、迭代频率高的快递、外卖场景算法设计需求。因此，在按需分配的VRP场景下，如何基于强化学习方法提高按需派送车辆的路径规划的效率和质量是业界普遍关注并亟待解决的问题。

发明内容

为此，本发明提供一种按需派送车辆的路径规划方法及装置，以解决现有技术中存在的派送车辆的路径规划方案局限性较高，且车辆配送路径规划效率较差的问题。

第一方面，本发明提供一种按需派送车辆的路径规划方法，包括：

获取待分析的订单数据；

将所述订单数据输入到双阶段强化学习预测模型中，得到所述双阶段强化学习预测模型输出的车辆配送路径规划策略；

其中，所述双阶段强化学习预测模型是基于预设的样本订单数据、所述样本订单数据对应的配送路径规划策略及其结果迭代训练得到；

所述双阶段强化学习预测模型包括：用于进行操作算子选择的算子选择器以及用于进行操作算子作用路径选择的路径选择器。

进一步的，所述算子选择器包括第一注意力机制网络和多层线性感知器；

其中，所述第一注意力机制网络用于基于当前路径策略中结点信息进行串联合并得到的特征向量进行嵌入表征，得到各个结点对应的当前结点嵌入表征信息；

所述多层线性感知器用于基于所述当前结点嵌入表征信息、历史选取操作算子及其结果进行感知处理，并利用第一逻辑回归模型对感知处理结果进行概率分析，得到各个操作算子被选取的概率值。

进一步的，所述路径选择器包括长期短期记忆网络和第二注意力机制网络；

其中，所述长期短期记忆网络，用于基于所述当前路径策略和所述当前结点嵌入表征信息进行结点信息串联整合，得到各个路径对应的路径嵌入特征；

所述第二注意力机制网络，用于基于所述路径嵌入特征和确定的语义查询项信息进行路径选取分析，并利用第二逻辑回归模型对各个路径的选取力度进行处理，得到各个路径被选取的概率值。

进一步的，所述基于当前路径策略中结点信息进行串联合并得到的特征向量进行嵌入表征，得到各个结点对应的当前结点嵌入表征信息，具体包括：

将所述特征向量输入到所述第一注意力机制网络的多头注意力机制网络，得到所述多头注意力机制网络提取输出的结点表征信息；

将所述结点表征信息输入到所述第一注意力机制网络的前馈网络，得到所述前馈网络输出的各个结点对应的当前结点嵌入表征信息。

进一步的，所述的按需派送车辆的路径规划方法，还包括：

在将所述特征向量输入到所述第一注意力机制网络的多头注意力机制网络之前，基于所述当前路径策略确定路径中各个结点对应的结点信息，并对所述结点信息进行串联合并得到各个结点对应的特征向量；

其中，所述结点信息包含：结点的需求量大小、结点的位置坐标、位于该结点时车辆的剩余容量、结点所在路径前后结点的位置坐标、结点与所在路径前后结点间的距离、结点的时间窗信息、车辆到达与离开结点时的时间戳中的至少一种。

进一步的，所述基于所述当前路径策略和所述当前结点嵌入表征信息进行结点信息串联整合，得到各个路径对应的路径嵌入特征，具体包括：基于所述当前路径策略下车辆到达每条路径中结点的先后顺序，依次获取所述当前路径策略中每条路径的当前结点嵌入表征信息，并进行串联整合，对串联整合结果进行平均运算，得到各个路径对应的路径嵌入表征。

进一步的，所述语义查询项信息是基于各个路径对应的路径嵌入表征的均值、历史选取路径及其结果、所述算子选择器选取的操作算子及其结果串联得到的。

第二方面，本发明提供一种按需派送车辆的路径规划装置，包括：

待分析数据获取单元，用于获取待分析的订单数据；

车辆配送路径规划单元，用于将所述订单数据输入到双阶段强化学习预测模型中，得到所述双阶段强化学习预测模型输出的车辆配送路径规划策略；

进一步的，所述的按需派送车辆的路径规划装置，还包括：

特征向量获得单元，用于在将所述特征向量输入到所述第一注意力机制网络的多头注意力机制网络之前，基于所述当前路径策略确定路径中各个结点对应的结点信息，并对所述结点信息进行串联合并得到各个结点对应的特征向量；

第三方面，本发明还提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任意一项所述的按需派送车辆的路径规划方法的步骤。

第四方面，本发明还提供一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如上述任意一项所述的按需派送车辆的路径规划方法的步骤。

采用本发明所述的按需派送车辆的路径规划方法，能够基于双阶段强化学习预测模型引入深度强化学习的方法指导启发式操作在策略空间中进行高效搜索，提高了按需派送车辆的路径规划的效率和准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1为本发明实施例提供的按需派送车辆的路径规划方法的流程示意图；

图2为本发明实施例提供的双阶段强化学习预测模型的应用示意图；

图3为本发明实施例提供的算子选择器的应用示意图；

图4为本发明实施例提供的路径选择器的应用示意图；

图5为本发明实施例提供的按需派送车辆的路径规划装置的结构示意图；

图6为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

本发明提供的按需派送车辆的路径规划方法，针对按需分配场景的车辆路径规划问题，将深度强化学习方法与启发式方法相结合。具体的，在启发式算法中，首先初始化一组符合约束条件的解(即初始车辆配送路径规划策略)，并使用操作算子(即启发式算子)反复迭代的方式来更新解。本发明采用深度强化学习方法对上述操作算子的选取方式和被操作算子作用路径(route)的选取方式进行学习，实现高效操作算子迭代策略的选取，利用结点、车辆、路径的各种信息作为双阶段强化学习预测模型的输入，便于充分利用结点信息，能够大幅提升对操作算子选取和作用路径选取结果(即效果)的显著性，使得整体车辆配送路径规划生成策略取得更优质的性能。

下面基于本发明所述的按需派送车辆的路径规划方法，对其实施例进行详细描述。如图1所示，其为本发明实施例提供的按需派送车辆的路径规划方法的流程示意图，具体实现过程包括以下步骤：

步骤101：获取待分析的订单数据。

如图2所示，在本发明实施例中，获取算法模型应用阶段待分析的订单数据之前，需要经过算法模型训练阶段，即预先确定样本订单数据，并基于样本订单数据对初始双阶段强化学习预测模型进行训练，得到满足条件的双阶段强化学习预测模型。

在训练模型过程中，使用深度强化学习方法对操作算子(即启发式算子)的选择进行学习，并在应用阶段进行决策。同时，针对多车辆协作的复杂结对揽货-派送(Pair-wisePickup and Delivery)车辆路径规划场景，本发明同时对启发式算子所作用的具体车辆及对应路径进行决策。因此，本发明将决策过程分为对操作算子的选择和对操作算子作用路径的选择两个阶段。需要说明的是，在结对揽货-派送路径规划场景中，可基于车辆容量、结点时间窗以及揽货-派送货物对所造成的解进行结构性约束，在每次操作算子作用后，需要对新生成的解进行可行性检测，其中最优目标可设为最小化所有车辆的总行驶距离与超出结点时间窗部分对应惩罚项之和。

为了更好地提升操作算子选择与操作算子作用目标(即路径)选择质量，首先采取注意力机制网络对各个结点、各个路径进行特征处理，分别获得对应结点与路径的结点嵌入表征信息和路径嵌入表征信息。其中，在操作算子选择阶段，本发明设计并使用一个算子选择器进行操作算子的选择；选择器的输入由反映所有结点特征的结点嵌入表征信息与之前步骤的历史算子选择及其结果组成。在作用路径选择阶段，本发明设计并使用一个路径选择器进行操作算子作用路径的选择；路径选择器的输入由反映各个路径特征的路径嵌入表征信息、当前算子选择器的算子选择与之前步骤的路径选择及其结果组成。

在两个阶段选择结束后，根据本次操作算子作用的结果所生成解是否为可行解及解是否有效果提升来决定是否保留本次操作。通过不断迭代更新的方式来实现解的迭代和双阶段强化学习预测模型参数的更新学习。其中，本次操作包含算子和其作用的车辆。

在实际训练过程中，该迭代方式可能陷入局部最优，为破除局部最优并扩大搜索空间，本发明在连续若干次迭代操作未能获得效果改进时对现有解进行一次扰动(perturbation)，以改变该解的结构，重构临近的解空间，从而继续进行迭代更新。

具体的，双阶段强化学习预测模型需要学习的参数包括：第一阶段，算子选择器中为得到结点嵌入表征信息所构建的第一注意力机制网络的参数、多层线性感知器(MLP，Multilayer Perceptron)的参数，第二阶段，路径选择器涉及的第二注意力机制网络的参数等。除此之外，在模型训练过程中需要设置的超参数有注意力机制网络层数l，各类特征向量维数以及学习率lr等。具体的，在模型的训练过程中可使用Adam优化器进行参数的更新。

在本步骤中，所述订单数据可包含但不限于送单顾客信息揽货顾客信息、运单车辆信息以及对应的订单编号等，在此不做具体限定。

步骤102：将所述订单数据输入到双阶段强化学习预测模型中，得到所述双阶段强化学习预测模型输出的车辆配送路径规划策略。其中，所述车辆配送路径规划策略包含针对所有车辆的规划路径的集合(也就是迭代优化之后最终得到的一组可行解的集合)。所述双阶段强化学习预测模型是基于预设的样本订单数据、所述样本订单数据对应的配送路径规划策略及其结果迭代训练得到；所述双阶段强化学习预测模型包括：用于进行操作算子选择的算子选择器以及用于进行操作算子作用路径选择的路径选择器。所述操作算子与车辆的行驶路径相对应，不同的操作算子对应的车辆的行驶路径也是不同的。

如图3所示，在本发明实施例中，所述算子选择器包括第一注意力机制网络和多层线性感知器(MLP，Multilayer Perception)。其中，所述第一注意力机制网络用于基于当前路径策略中结点信息进行串联合并得到的特征向量进行嵌入表征，得到各个结点对应的当前结点嵌入表征信息。所述多层线性感知器用于基于所述当前结点嵌入表征信息、历史选取操作算子及其结果进行感知处理，并利用第一逻辑回归模型对感知处理结果进行概率分析，得到各个操作算子被选取的概率值。所述第一注意力机制网络包括：第一多头注意力机制网络(MHA，Multihead-attention)与前馈网络(FF，Feed forward)。

所述的基于当前路径策略中结点信息进行串联合并得到的特征向量进行嵌入表征，得到各个结点对应的当前结点嵌入表征信息，具体实现过程包括：将所述特征向量输入到所述第一注意力机制网络的多头注意力机制网络，得到所述多头注意力机制网络提取输出的结点表征信息；将结点表征信息输入到所述第一注意力机制网络的前馈网络，得到所述前馈网络输出的各个结点对应的当前结点嵌入表征信息。

需要说明的是，在将所述特征向量输入到所述第一注意力机制网络的多头注意力机制网络之前，需要预先基于所述当前路径策略确定路径中各个结点对应的结点信息，并对所述结点信息进行串联合并得到各个结点对应的特征向量。其中，所述结点信息包含：结点的需求量大小、结点的位置坐标、位于该结点时车辆的剩余容量、结点所在路径前后结点的位置坐标、结点与所在路径前后结点间的距离、结点的时间窗信息、车辆到达与离开结点时的时间戳等中的至少一种。

所述结点嵌入表征信息的作用是反映各需求结点的特征，以便于算子选择器进行选取决策，同时在辅助生成路径嵌入表征。在一个给定的初始可行解中，以上结点信息可以全面反映一个结点的各种信息。将以上结点信息进行串联合并，对每一个结点生成一个特征向量。每个特征向量经过第一注意力机制网络，生成各个结点所对应的嵌入表征信息

其中m表示路径(每个车辆对应一条路径)序号，τ表示结点序号，t表示当前决策步骤序号。具体的，所使用的第一注意力机制网络包含l层第一多头注意力机制网络与前馈网络(MHA+FF)两部分，以提取结点对应特征向量中的关键信息，形成有效的结点嵌入表征信息。对第i个特征向量h_i，经过第l层MHA+FF层的处理如下：

即最终得到的结点嵌入表征信息，该结点嵌入表征信息可用于算子选择器的选择操作算子的依据，也可用于路径嵌入表征的生成。

算子选择过程为本发明中每一步路径规划探索的第一阶段。算子选择器根据当前结点嵌入表征信息和历史算子选取及其对应结果来进行操作算子的选择。在具体实施过程中，可提前设计共包含18个不同操作算子的算子备选集合，由算子选择器在每一个决策步骤从中选取一个操作算子，对当前解(即当前车辆配送路径规划策略)进行处理迭代。

对于当前结点嵌入表征的部分，可直接采取上述步骤中对结点进行嵌入表征，并作为算子选择器的输入。

对于历史算子选择的结果部分，将之前k步的更新中使用过的操作算子与其对应的总路径开销减少量作为历史算子选择的结果的表征。其中，对第t步预测，使用的操作算子与获得的回报分别表示为

与r^t-k，t大于k。

将上述当前结点嵌入表征和历史算子选择的结果两部分作为输入，由选择选择器中的两层级联的多层感知机(MLP，Multilayer Perception)进行处理，并采用softmax(逻辑回归模型)函数来输出算子备选集合中各个算子被选择的概率值，从而根据概率值选取一个算子对当前解进行迭代优化。

如图4所示，在本发明实施例中，所述路径选择器包括长期短期记忆网络和第二注意力机制网络。所述长期短期记忆网络，用于基于当前路径策略和所述当前结点嵌入表征信息进行结点信息串联整合，得到各个路径对应的路径嵌入特征。所述算子选择器基于所述当前结点嵌入表征进行选取决策。所述第二注意力机制网络，用于基于所述路径嵌入特征和确定的语义查询项信息进行路径选取分析，并利用第二逻辑回归模型对各个路径的选取力度进行处理，得到各个路径被选取的概率值。所述语义查询项信息是基于各个路径对应的路径嵌入表征的均值、历史选取路径及其结果、所述算子选择器选取的操作算子及其结果串联得到的。所述第一注意力机制网络包括第二多头注意力机制网络(MHA，Multihead-attention)。

其中，所述的基于所述当前路径策略和所述当前结点嵌入表征信息进行结点信息串联整合，得到各个路径对应的路径嵌入特征，具体实现过程包括：基于所述当前路径策略下车辆到达每条路径中结点的先后顺序，依次获取所述当前路径策略中每条路径的当前结点嵌入表征信息，并进行串联整合，对串联整合结果进行平均运算，得到各个路径对应的路径嵌入表征。

路径嵌入表征的作用是表示各个路径的特征，以便于路径选择器进行选取决策。由于在迭代过程中，路径的长度、所含结点集合会不断发生变化，因此需要根据当前所包含结点特征

进行动态表达。

路径嵌入表征的构建方式包括，将每条路径中的结点信息按到达的先后顺序依次输入到长期短期记忆网络(LSTM，Long Short-Term Memory)中，并将所得输出求平均后得到路径嵌入表征

该LSTM结构不仅能够起到整合结点信息的作用，同时还能够反映各结点在路径中的位置、顺序等信息，使得生成的路径嵌入表征

兼顾路径中各个结点的各异性与路径的整体性。

对于多车辆协同的场景，由于操作算子作用的对象往往是单车(对应单路径)或双车(对应双路径)，但完整解中具有若干个可被算子操作的对象，因此本发明将双阶段强化学习预测模型的第二个阶段设计为路径选择器用于选择操作算子作用的对象。操作算子可以作用的各路径特征由第三节中生成的路径嵌入表征所表示。

反映路径选择的历史特征，包含历史所选择的算子与该次操作获得的结果，以及历史操作中算子所作用的对象。由于我们的算子作用的对象为1或2条路径，因此，对第t次预测，在选择第t-k次预测作为本次预测的历史特征时，选择的指标如下：

其中

分别表示本次操作的第一个和第二个对象，

代表本次参与选择的所有路径的路径嵌入表征的平均值。

基于以上输入，路径选择器基于注意力机制网络进行路径的选取。

下列公式子表示在第t步用上述信息对各路径的选取方法：

其中，W^q,W^k,W^v为带训练参数，u_m为第m个路径的被选取力度。将各路径的选取力度经过softmax函数进行处理，即可得到各路径的被选取概率大小，从而可以对操作算子作用的路径进行选择。

在一个具体实施例中，以10对揽收-配送顾客，通过一辆车进行全部任务的配送为例进行说明，全部站点分布在[0,100]×[0,100]大小的矩形区域上，输入信息如下表所示：

首先，针对已知输入信息，生成一组初始可行解(即初始车辆配送路径规划策略)，使得车辆能够在满足容量上限、结点时间窗要求的前提下，完成对所有顾客对的配送服务。基于当前解，将通过下述步骤操作进行迭代更新。

其次，为了对各个站点的特征进行处理，获取各个站点的浅层特征表达，具体包括：(1)结点的需求量大小；(2)结点的位置坐标；(3)位于该结点时车辆的剩余容量；(4)结点所在路径前后结点的位置坐标；(5)结点与所在路径前后结点间的距离；(6)结点的时间窗信息；(7)车辆到达与离开该结点时的时间戳。每一个结点的上述结点信息进行直接串联整合，得到各个结点对应的特征向量，共计20个特征向量。20个结点的特征向量通过第一注意力机制网络对所述特征向量进行处理，得到20个结点分别对应的结点嵌入表征信息，即获得每个车辆对应路径的路径嵌入表征信息。

进一步的，基于获取到的结点嵌入表征和历史选取算子及其结果，利用算子选择器通过二层级联多层线性感知器进行处理，生成预先构建好的，包含18个不同操作算子的算子备选集合中18个操作算子各自的被选取的概率值。系统通过softmax概率处理从中选取算子对当前路径进行操作。需要说明的是，本发明实施例中，所述算子备选集合包括但不限于18个操作算子，在此不做具体限定。

考虑到在单车辆场景下，有且仅有一两车所对应的路径可被算子操作，因此直接对该路径进行算子操作处理，从而得出一个当前解。若当前解相较于之前的解有结果提升，则保留该解，进入下一次迭代操作。若当前路径规划策略已连续若干次没有出现结果提升，则对当前路径规划策略进行一次扰动，即重新初始化当前路径规划策略。当迭代搜索次数达到预设的迭代阈值后，结束迭代搜索，历史搜索过程中将所能够达到的结果最优路径规划策略作为最终的车辆配送路径规划策略输出。其中，所述站点即为揽收站点或者配送顾客站点，双阶段强化学习预测模型中所述的结点与所述站点一一对应。

在另一个具体实施例中，以25对揽收-配送顾客，拥有三辆车进行全部任务的配送为例进行说明，输入信息如下表所示：

首先，针对已知输入信息，生成一组初始可行解(即初始车辆配送路径规划策略)，使得全部车辆能够在满足容量上限、结点时间窗要求的前提下，完成对所有顾客对的配送服务。基于当前解，将通过下述步骤操作进行迭代更新。

其次，为了对各个站点的特征进行处理，获取各个站点的浅层特征表达，具体包括(1)结点的需求量大小；(2)结点的位置坐标；(3)位于该结点时车辆的剩余容量；(4)结点所在路径前后结点的位置坐标；(5)结点与所在路径前后结点间的距离；(6)结点的时间窗信息；(7)车辆到达与离开该结点时的时间戳。每一个结点的上述信息进行直接串联整合，得到各个结点对应的特征向量，共计100个特征向量。20个结点的特征向量通过注意力机制进行处理，得到100个结点各自对应的结点嵌入表征信息，从而完成结点嵌入表征的生成。

进一步的，基于所述结点嵌入表征信息和历史选取算子及其对应的结果，获取每个车辆对应路径的路径嵌入表征信息，共计每次5个路径嵌入表征信息。路径选择器以5个路径嵌入表征的均值、历史选取路径结果、历史选取算子和对应结果之串联作为路径选择器的语义查询项，以此通过注意力机制，生成5个路径的选取力度大小，通过softmax函数处理，得到5个路径各自选取概率，最终选取一个路径作为操作算子的操作对象。从而得出一个当前解。若判断所述当前路径规划策略相较于之前路径规划策略有结果提升，则保留所述当前路径规划策略，并进入下一次迭代操作。若当前路径规划策略已连续若干次没有出现结果提升，则对当前路径规划策略进行一次扰动，即重新初始化当前路径规划策略。当迭代搜索次数达到预设的迭代阈值后，结束迭代搜索，历史搜索过程中将所能够达到的结果最优路径规划策略作为最终的车辆配送路径规划策略输出。

采用本发明实施例所述的按需派送车辆的路径规划方法，能够基于双阶段强化学习预测模型引入深度强化学习的方法指导启发式操作在策略空间中进行高效搜索，提高了按需派送车辆的路径规划的效率和准确度。

与上述提供的一种按需派送车辆的路径规划方法相对应，本发明还提供一种按需派送车辆的路径规划装置。由于该装置的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的按需派送车辆的路径规划装置的实施例仅是示意性的。请参考图5所示，其为本发明实施例提供的一种按需派送车辆的路径规划装置的结构示意图。

本发明所述的按需派送车辆的路径规划装置具体包括如下部分：

待分析数据获取单元501，用于获取待分析的订单数据；

车辆配送路径规划单元502，用于将所述订单数据输入到双阶段强化学习预测模型中，得到所述双阶段强化学习预测模型输出的车辆配送路径规划策略。其中，所述双阶段强化学习预测模型是基于预设的样本订单数据、所述样本订单数据对应的配送路径规划策略及其结果迭代训练得到；所述双阶段强化学习预测模型包括：用于进行操作算子选择的算子选择器以及用于进行操作算子作用路径选择的路径选择器。

采用本发明实施例所述的按需派送车辆的路径规划装置，能够基于双阶段强化学习预测模型引入深度强化学习的方法指导启发式操作在策略空间中进行高效搜索，提高了按需派送车辆的路径规划的效率和准确度。

与上述提供的按需派送车辆的路径规划方法相对应，本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的电子设备仅是示意性的。如图6所示，其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括：处理器(processor)601、存储器(memory)602和通信总线603，其中，处理器601，存储器602通过通信总线603完成相互间的通信，通过通信接口604与外部进行通信。处理器601可以调用存储器602中的逻辑指令，以执行按需派送车辆的路径规划方法，该方法包括：获取待分析的订单数据；将所述订单数据输入到双阶段强化学习预测模型中，得到所述双阶段强化学习预测模型输出的车辆配送路径规划策略；其中，所述双阶段强化学习预测模型是基于预设的样本订单数据、所述样本订单数据对应的配送路径规划策略及其结果迭代训练得到；所述双阶段强化学习预测模型包括：用于进行操作算子选择的算子选择器以及用于进行操作算子作用路径选择的路径选择器。

此外，上述的存储器602中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：存储芯片、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在处理器可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的按需派送车辆的路径规划方法，该方法包括：获取待分析的订单数据；将所述订单数据输入到双阶段强化学习预测模型中，得到所述双阶段强化学习预测模型输出的车辆配送路径规划策略；其中，所述双阶段强化学习预测模型是基于预设的样本订单数据、所述样本订单数据对应的配送路径规划策略及其结果迭代训练得到；所述双阶段强化学习预测模型包括：用于进行操作算子选择的算子选择器以及用于进行操作算子作用路径选择的路径选择器。

又一方面，本发明实施例还提供一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的按需派送车辆的路径规划方法，该方法包括：获取待分析的订单数据；将所述订单数据输入到双阶段强化学习预测模型中，得到所述双阶段强化学习预测模型输出的车辆配送路径规划策略；其中，所述双阶段强化学习预测模型是基于预设的样本订单数据、所述样本订单数据对应的配送路径规划策略及其结果迭代训练得到；所述双阶段强化学习预测模型包括：用于进行操作算子选择的算子选择器以及用于进行操作算子作用路径选择的路径选择器。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种按需派送车辆的路径规划方法，其特征在于，包括：

获取待分析的订单数据；

2.根据权利要求1所述的按需派送车辆的路径规划方法，其特征在于，所述算子选择器包括第一注意力机制网络和多层线性感知器；

3.根据权利要求2所述的按需派送车辆的路径规划方法，其特征在于，所述路径选择器包括长期短期记忆网络和第二注意力机制网络；

4.根据权利要求2所述的按需派送车辆的路径规划方法，其特征在于，所述基于当前路径策略中结点信息进行串联合并得到的特征向量进行嵌入表征，得到各个结点对应的当前结点嵌入表征信息，具体包括：

5.根据权利要求4所述的按需派送车辆的路径规划方法，其特征在于，还包括：

6.根据权利要求3所述的按需派送车辆的路径规划方法，其特征在于，所述基于所述当前路径策略和所述当前结点嵌入表征信息进行结点信息串联整合，得到各个路径对应的路径嵌入特征，具体包括：

基于所述当前路径策略下车辆到达每条路径中结点的先后顺序，依次获取所述当前路径策略中每条路径的当前结点嵌入表征信息，并进行串联整合，对串联整合结果进行平均运算，得到各个路径对应的路径嵌入表征。

7.根据权利要求3所述的按需派送车辆的路径规划方法，其特征在于，所述语义查询项信息是基于各个路径对应的路径嵌入表征的均值、历史选取路径及其结果、所述算子选择器选取的操作算子及其结果串联得到的。

8.一种按需派送车辆的路径规划装置，其特征在于，包括：

待分析数据获取单元，用于获取待分析的订单数据；

9.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任意一项所述的按需派送车辆的路径规划方法的步骤。

10.一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7任意一项所述的按需派送车辆的路径规划方法的步骤。