CN114462687A

CN114462687A - 基于深度强化学习的车辆路径规划方法及装置

Info

Publication number: CN114462687A
Application number: CN202210043667.4A
Authority: CN
Inventors: 王甲海; 廖易天
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-05-10

Abstract

本发明公开了基于深度强化学习的车辆路径规划方法及装置，方法包括：搭建车辆路径规划问题的求解框架，确定初始参数信息；搭建神经网络模型作为破坏策略；根据所述初始参数信息和所述破坏策略，将大邻域搜索过程拟合成马尔可夫决策过程；根据所述马尔可夫决策过程，通过强化学习方法训练神经网络模型；通过训练得到的神经网络模型对所述车辆路径规划问题进行求解，得到车辆路径规划结果。本发明能够缩短求解时间，且保证求解质量，可广泛应用于人工智能技术领域。

Description

基于深度强化学习的车辆路径规划方法及装置

技术领域

本发明涉及人工智能技术领域，尤其是基于深度强化学习的车辆路径规划方法及装置。

背景技术

在组合优化问题中，车辆路径问题(Vehicle Routing Problem，VRP)是一类经典并被广泛研究的问题：给定一组车队和一定数量的客户，在满足约束的条件下，如何安排组织车队车辆的行驶路线(即客户先后服务顺序)使得设定目标(例如车辆总路程、车辆总耗时等)最优。在现实环境中，快递投递问题、外卖配送问题等都可以抽象为VRP问题，但往往存在客户数量较多和约束条件复杂(时间窗约束，配送顺序约束，货物容量约束等)等问题。

在VRPSDPTW问题上，迭代式搜索是求解此类问题的经典方法，目前较为优秀的是Liu等人基于模因搜索的求解框架，而大邻域搜索(Large Neighborhood Search，LNS)是其中的关键组件之一。大邻域搜索具有领域范围大，探索能力强等特点，是避免迭代搜索陷入局部最优的关键组件，在其他问题或其他求解框架中也有广泛应用。但大邻域搜索仍存在两大问题：第一，探索随机性较大，未能契合大规模问题和约束复杂场景；第二，当面对新问题场景时仍依赖专家知识设计人工启发式。

近年来，有学者提出通过深度强化学习的方法学习局部搜索算法的启发式规则，从而比人工设计的搜索规则具有更好的搜索能力。但是在复杂约束和大规模的VRP问题上，目前未有提出利用深度强化学习改进大邻域搜索的方法。

发明内容

有鉴于此，本发明实施例提供基于深度强化学习的车辆路径规划方法及装置。

本发明的一方面提供了一种基于深度强化学习的车辆路径规划方法，包括：

搭建车辆路径规划问题的求解框架，确定初始参数信息；

搭建神经网络模型作为破坏策略；

根据所述初始参数信息和所述破坏策略，将大邻域搜索过程拟合成马尔可夫决策过程；

根据所述马尔可夫决策过程，通过强化学习方法训练神经网络模型；

通过训练得到的神经网络模型对所述车辆路径规划问题进行求解，得到车辆路径规划结果。

可选地，所述搭建车辆路径规划问题的求解框架，确定初始参数信息，包括：

配置问题求解框架中目标解的位置特征和结点特征；

配置所述目标解的质量的计算函数。

可选地，所述搭建车辆路径规划问题的求解框架，确定初始参数信息，还包括：

将结点序列进行位置编码得到各结点位置特征；

将结点的个体特征划分为静态特征和动态特征；

其中，所述静态特征包括二维坐标、货物接收量、货物投放量和服务时间窗；所述动态特征包括等待时间、所在路径的最大货物容量、当前货物容量、与所在路径的前后结点的之间距离及前后结点之间距离。

可选地，所述搭建神经网络模型作为破坏策略，包括：

将结点序列和结点个体特征输入到编码器中，所述编码器将结点位置特征和结点个体特征进行交互，得到结点个体特征向量的序列和结点位置特征向量的序列；

将编码器得到的结点个体特征向量和结点位置特征向量输入到解码器，通过所述解码器计算结点间的概率矩阵；

所述解码器根据概率矩阵选择若干个结点作为破坏的结点集，得到关于当前解的大邻域破坏策略；

输出所选结点集合和动作概率。

可选地，所述将结点位置特征和结点个体特征进行交互，得到结点个体特征向量的序列和结点位置特征向量的序列，包括：

将结点个体特征进行线性映射，得到高维的结点个体特征向量；

将结点序列信息通过位置编码，得到高维的结点位置特征向量；

通过三个双向协同注意力层对所述结点个体特征向量和所述结点位置特征向量进行特征提取，得到结点个体特征的嵌入向量序列和结点位置编码的嵌入向量序列；

其中，所述结点个体特征向量的计算公式为：

所述结点位置特征向量的计算公式为：

其中，

代表结点i的结点个体特征向量；W与B是可训练的参数；(x_i,y_i)代表二维坐标；

代表结点i的结点位置特征向量；pe(·)表示进行正弦位置编码。

可选地，所述根据概率矩阵选择若干个结点作为破坏的结点集，得到关于当前解的大邻域破坏策略，包括：

随机选择一个结点作为初始结点；

对概率矩阵中所述初始结点所在行进行softmax操作，把已选择结点的概率设为0，按概率选择第二个结点，然后再把已选择结点的概率设为0，直至选择Q个结点。

可选地，所述根据所述初始参数信息和所述破坏策略，将大邻域搜索过程拟合成马尔可夫决策过程，包括：

根据当前解的结点序列和各结点个体特征确定当前状态；

根据神经网络输出的结点集合确定动作；

根据修复后的解的结点序列和各结点个体特征确定下一个状态；

根据前后状态间解的质量差确定奖励值。

本发明实施例的另一方面还提供了一种基于深度强化学习的车辆路径规划装置，包括：

第一模块，用于搭建车辆路径规划问题的求解框架，确定初始参数信息；

第二模块，用于搭建神经网络模型作为破坏策略；

第三模块，用于根据所述初始参数信息和所述破坏策略，将大邻域搜索过程拟合成马尔可夫决策过程；

第四模块，用于根据所述马尔可夫决策过程，通过强化学习方法训练神经网络模型；

第五模块，用于通过训练得到的神经网络模型对所述车辆路径规划问题进行求解，得到车辆路径规划结果。

本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例首先搭建车辆路径规划问题的求解框架，确定初始参数信息；搭建神经网络模型作为破坏策略；根据所述初始参数信息和所述破坏策略，将大邻域搜索过程拟合成马尔可夫决策过程；根据所述马尔可夫决策过程，通过强化学习方法训练神经网络模型；通过训练得到的神经网络模型对所述车辆路径规划问题进行求解，得到车辆路径规划结果。本发明能够缩短求解时间，且保证求解质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供整体步骤流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明的目的在于克服现有技术的缺点与不足，提供一种基于深度强化学习的改进大邻域搜索的方法。对于VRPSDPTW问题，本发明在较大规模的问题场景(结点数量为200)下进行训练，实验结果表明本发明的神经网络破坏策略在求解质量上优于随机破坏策略，并且将神经网络策略与人工启发式破坏策略结合后，能起到加快迭代搜索的效果。同时神经网络策略具有一定的泛化能力，在结点数量为250或300时能有相近的优化效果。

搭建车辆路径规划问题的求解框架，确定初始参数信息；

搭建神经网络模型作为破坏策略；

配置问题求解框架中目标解的位置特征和结点特征；

配置所述目标解的质量的计算函数。

将结点序列进行位置编码得到各结点位置特征；

将结点的个体特征划分为静态特征和动态特征；

可选地，所述搭建神经网络模型作为破坏策略，包括：

输出所选结点集合和动作概率。

其中，所述结点个体特征向量的计算公式为：

所述结点位置特征向量的计算公式为：

其中，

随机选择一个结点作为初始结点；

根据当前解的结点序列和各结点个体特征确定当前状态；

根据神经网络输出的结点集合确定动作；

根据前后状态间解的质量差确定奖励值。

第二模块，用于搭建神经网络模型作为破坏策略；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

下面结合说明书附图，对本发明的具体实现过程进行详细描述：

针对现有技术存在的问题，本发明提供一种基于深度强化学习改进大邻域搜索的方法。本发明使用深度神经网络，通过强化学习训练，可以学习出较优的破坏策略，提高邻域探索效率，加速迭代搜索速度。在大规模问题和约束复杂的场景下，本发明训练所得的破坏策略能获得明显的优化效果，且在新应用场景可避免依赖专家知识设计人工启发式。

本发明的基于深度强化学习的改进大邻域搜索方法，包括以下步骤：

S1、搭建问题求解框架；设定解的位置特征和结点特征；设定解质量的计算函数；

S2、搭建神经网络模型作为破坏策略。神经网络模型包括编码器(Encoder)和解码器(Decoder)两部分，编码器从解的状态信息里提取位置编码特征和结点个体特征，解码器计算结点间相关性并得出移除结点集合。

S3、将大邻域搜索过程拟合成马尔可夫决策过程(Markov Decision Process，MDP)，其中当前状态s_t为当前解的结点序列和结点特征；动作a_t为通过神经网络来选择部分结点作为破坏策略进行移除；下一个状态s_t+1为修复后的解的结点序列和结点特征；奖励值r_t为前后状态间解的质量差；

S4、使用强化学习方法训练神经网络模型，直至模型收敛；

S5、使用训练得到的神经网络破坏策略应用在Liu算法框架上对问题进行求解；

由以上技术方案可知，本发明针对大规模和约束复杂的问题场景，对已有的大邻域搜索方法进行改进，使用神经网络作为大邻域搜索的破坏策略，通过深度强化学习的方法训练神经网络策略。与现有技术相比，本发明技术方案的有益效果是：

1、在旧问题上，本发明使用神经网络学习出更全面的问题特征，得到的神经网络策略能与人工启发式相结合，加速迭代搜索速度，优化求解效果。

2、在新问题上，本发明通过深度强化学习能得到适应问题的破坏策略，避免依赖专家知识设计人工启发式，优化在新问题上的求解效果。

3、本发明通过强化学习训练神经网络模型，不仅能够做到一次(离线)训练多次(在线)求解，而且具备一定的泛化能力，能直接应用在不同场景。

针对带时间窗的同时取送货的车辆路径问题(即VRPSDPTW问题)，本发明对其中的大邻域搜索组件进行改进，使用神经网络策略作为破坏策略，加快迭代搜索速度，优化求解过程。

VRPSDPTW问题的一个解s由K条路径构成，即解s＝{r₁,r₂,…,r_K}，其中，路径r_k为车辆k服务的结点序列。解s的信息可分为结点位置特征和结点个体特征，结点个体特征又可分为静态特征st_i和动态特征dy_i。解s需要满足以下约束：(1)所有结点都被服务且仅服务一次，即∪_r∈s＝V并且

(2)车辆任何时候都满足货物容量约束；(3)所有的客户结点都在各自的服务时间窗内被服务；(4)车辆需同时满足客户结点的取送货要求。问题的优化目标与一般VRP问题类似，可分为两部分：所有车辆的旅行距离总和、所需车辆数量，形式化描述如下：

s.t.s∈S

其中，c_k表示在解s中第k辆车的旅行距离，s.t.表示subject to的意思，S是满足容量和时间窗复杂约束的解空间。

本发明对现有算法框架的大邻域搜索组件进行改进，使用神经网络作为破坏策略，通过深度强化学习进行训练。神经网络策略不仅在求解质量上明显优于随机策略，在新问题场景下可避免依赖专家知识设计人工启发式，而且可将神经网络策略和人工启发式策略进行结合，加快迭代搜索的效果。具体包括如下步骤，其中步骤S1为本发明的框架构建与特征定义部分，S2-S4构成本发明的训练部分，步骤S5为本发明的应用部分：

S1、搭建问题求解框架；设定解的特征提取方式；设定解质量的计算函数。具体来说，本发明使用VRPSDPTW问题求解框架，将神经网络替换人工启发式(Shaw启发式)作为其大邻域搜索的破坏策略；解s的特征可分为两部分：第一部分为结点位置特征，将结点序列进行位置编码(position encoding，PE)得到各结点位置特征；第二部分为各结点的个体特征，结点v_i∈V的个体特征可分为两类：第一类为静态特征st_i，包括二维坐标[x_i,y_i]、货物接收量和投放量[d_i,p_i]、服务时间窗[a_i,b_i]；第二类为动态特征dy_i，包括等待时间w_i、所在路径的最大货物容量和当前货物容量[m_i,n_i]、与所在路径的前后结点的之间距离及前后结点之间距离[o_i,p_i,q_i]；设定解质量的计算函数，具体上μ₁＝100，μ₂＝1；

S2、搭建神经网络模型作为破坏策略。神经网络模型可分为编码器和解码器两部分，提取当前解s的特征输入到神经网络中，神经网络输入所选结点集合作为破坏策略。

步骤S2的具体过程包括：

S21、将结点序列和结点个体特征输入到编码器中，编码器将结点位置特征和结点个体特征进行交互，得到两部分：结点个体特征的嵌入向量序列H＝(h₁,h₂,…,h_N)，结点位置编码的嵌入向量序列G＝(g₁,g₂,…,g_N)。

具体来说，将结点个体特征x_i进行线性映射，得到高维的结点个体特征向量

将结点序列信息y_i通过位置编码(position encoding，PE)，得到高维的结点位置特征向量

计算公式如下：

其中，

表示结点i的初始个体特征向量，向量维度为128，W与B是可训练的参数，

表示结点i的初始位置特征向量，向量维度为128，pe(·)表示进行正弦位置编码。

再通过三个双向协同注意力层提取特征，即：

其中，LN(·)为层正则化(layer normalization,LN)；FFN(·)为全连接前馈网络层(feed-forward network,FFN)，具体公式如下：

FFN(h_i；W,B)＝max(0,Wh_i+B)

DAC_Att(·)为双向协同注意力计算，能使个体特征向量h_i和位置特征向量g_i进行交互，其中W^Q,W^K,W^V,

W^O都是可训练参数，更进一步的公式如下：

其中，

是

分别经过Softmax层后得到的，Concat(·)表示向量拼接操作。双向协同注意力中，W^Q,W^K,W^V三个参数与经典注意力模型相同，增添了

参数用于学习结点个体特征和结点位置特征的交互性，W^O用于处理拼接后的多头注意力输出向量。在实际操作时，本发明设定m＝4，d_k＝16。

S22、将编码器得到的结点个体特征向量和结点位置特征向量输入到解码器。解码器首先计算结点间的概率矩阵。具体来说特征向量都先经过一层MAX-Pooling，公式如下：

其中，

都是可训练参数，然后通过多头注意力计算，得到结点间相关性向量，然后通过线性层整合得到结点间相关性矩阵，公式如下：

其中，

都是可训练参数，m为多头注意力头数量，FFA(·)为四层FFN层的结合，最终输入标量。为了控制熵值，标量会通过Tanh(·)层并乘上系数C得到最终值，公式如下：

S23、解码器根据概率矩阵选择Q个结点作为破坏的结点集，得到关于当前解的大邻域破坏策略。具体过程为，首先随机选择一个结点node₁作为初始结点，对概率矩阵中node₁所在行进行Softmax操作，把已选择结点的概率设为0，按概率选择第二个结点，然后再把已选择结点的概率设为0，如此类推，直至选择Q个结点，具体公式为：

其中，Sample(·)为按概率选择，返回对应索引的概率。最终动作概率通过各子概率连乘求得，简单证明能得到动作空间中所有动作的概率和为1，动作概率计算公式如下：

S24、输出所选结点集合和动作概率。

S3、将大邻域搜索过程拟合成马尔科夫决策过程(Markov Decision Process，MDP)，其中当前状态s_t为当前解的结点序列和各结点个体特征；动作a_t为神经网络输出的结点集合；下一个状态s_t+1为修复后的解的结点序列和各结点个体特征；奖励值r_t为前后状态间解的质量差，具体公式为：

r_t＝cost(s_t)-cost(s_t+1).

S4、使用强化学习方法训练神经网络模型，直至模型收敛。具体来说，本发明使用基于策略梯度的REINFORCE算法对神经网络模型的参数θ进行训练，即：

其中，b(S_t)是用于减小梯度方差的baseline，为3次随机破坏策略所获奖励值的平均值。在训练过程中，参数θ的梯度可以使用蒙特卡洛采样近似，计算公式如下:

其中B是训练批数据的数量。使用上述公式对神经网络模型参数进行训练，直到模型收敛，并使用Adam优化方法更新模型参数。

S5、使用训练得到的神经网络破坏策略和人工启发式(Shaw启发式)进行结合，应用在现有算法框架上对问题进行求解。具体来说，当进入大邻域搜索时，首先使用神经网络的破坏策略，若修复解并经过局部搜索后仍不能跳出局部最优，将使用人工启发式(Shaw启发式)尝试跳出。

本发明通过随机生成算例作为测试集进行评估。测试过程包含两部分，第一部分为神经网络的破坏策略与随机破坏策略的对比，以验证通过深度强化学习神经网络能学习到有效的策略，能在新问题上优化求解效果；第二部分为神经网络和Shaw启发式结合后的策略与仅Shaw启发式的对比，为了实验的公平合理性，仅Shaw启发式的方法里是连续两次使用Shaw启发式，与结合策略的探索次数相同。

训练模型时仅使用N＝200的算例，在测试阶段两部分都包含三个子集，分别有N＝200、N＝250、N＝300(N为客户结点数量)，以测试模型的泛化能力。每个子集为随机生成的100个算例，每个算例独立运行10次，计算其均值和方差两个指标进行衡量。

本发明的神经网络结合策略与仅人工启发式策略的对比实验结果(N＝200)。

由上述实验结果可知，本发明在所有子集上优于随机破坏策略，并随着问题规模扩大本发明优化效果更明显。本发明与Shaw启发式结合的效果优于仅使用Shaw启发式，且在大规模问题上降低求解时间的同时保持解的质量。因此本发明通过深度强化学习能学习到有效的大邻域搜索破坏策略，优化现有的大邻域搜索方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于深度强化学习的车辆路径规划方法，其特征在于，包括：

搭建车辆路径规划问题的求解框架，确定初始参数信息；

搭建神经网络模型作为破坏策略；

2.根据权利要求1所述的基于深度强化学习的车辆路径规划方法，其特征在于，所述搭建车辆路径规划问题的求解框架，确定初始参数信息，包括：

配置问题求解框架中目标解的位置特征和结点特征；

配置所述目标解的质量的计算函数。

3.根据权利要求2所述的基于深度强化学习的车辆路径规划方法，其特征在于，所述搭建车辆路径规划问题的求解框架，确定初始参数信息，还包括：

将结点序列进行位置编码得到各结点位置特征；

将结点的个体特征划分为静态特征和动态特征；

4.根据权利要求1所述的基于深度强化学习的车辆路径规划方法，其特征在于，所述搭建神经网络模型作为破坏策略，包括：

输出所选结点集合和动作概率。

5.根据权利要求4所述的基于深度强化学习的车辆路径规划方法，其特征在于，所述将结点位置特征和结点个体特征进行交互，得到结点个体特征向量的序列和结点位置特征向量的序列，包括：

其中，所述结点个体特征向量的计算公式为：

所述结点位置特征向量的计算公式为：

其中，

6.根据权利要求4所述的基于深度强化学习的车辆路径规划方法，其特征在于，所述根据概率矩阵选择若干个结点作为破坏的结点集，得到关于当前解的大邻域破坏策略，包括：

随机选择一个结点作为初始结点；

7.根据权利要求1所述的基于深度强化学习的车辆路径规划方法，其特征在于，所述根据所述初始参数信息和所述破坏策略，将大邻域搜索过程拟合成马尔可夫决策过程，包括：

根据当前解的结点序列和各结点个体特征确定当前状态；

根据神经网络输出的结点集合确定动作；

根据前后状态间解的质量差确定奖励值。

8.基于深度强化学习的车辆路径规划装置，其特征在于，包括：

第二模块，用于搭建神经网络模型作为破坏策略；

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。