CN111325401B

CN111325401B - 一种路径规划模型的训练方法、装置及计算机系统

Info

Publication number: CN111325401B
Application number: CN202010106767.8A
Authority: CN
Inventors: 李盛强; 王勤勤; 乔宝华; 俞恺
Original assignee: Jiangsu Suning Logistics Co ltd
Current assignee: Jiangsu Suning Logistics Co ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2022-09-09
Anticipated expiration: 2040-02-20
Also published as: CN111325401A

Abstract

本申请公开了一种路径规划模型的训练方法、装置及计算机系统，使用所述方法训练获得的路径规划模型可实现对路径规划问题的最优解的自动求解，省去了现有的启发式算法对每个路径规划的实例进行重新搜索计算的过程，节省了大量的计算时间，提高了路径规划效率。

Description

一种路径规划模型的训练方法、装置及计算机系统

技术领域

本发明涉及机器学习领域，尤其涉一种路径规划模型的训练方法、装置及计算机系统。

背景技术

随着电子商务的迅速扩张，物流作为电子商务的一个重要环节也得到了飞速发展。对于承接运输的物流企业而言，如果能在实际运输前将路线进行合理规划，降低完成运输的所需成本及时间，便能够保障物流企业的利润、保证消费者的使用体验。

在物流运输领域存在着一种城市或区域内部的支线运输需求，在城市或区域内往往都有一个或多个物流中心，每天要往所辐射的门店或快递点运输货量。可以将支线运输的规划需求抽象成VRP问题或者TSP问题，VRP问题是将运输场景抽象一个中心仓库和若干个待访问点，每个待访问点有一定的货量运输需求，需要计算用几条线路及每条线路访问点的顺序；TSP问题是将运输场景抽象为若干个待访问的点，需要计算这些点的访问顺序，达到距离最优或成本最优的目标。

在现有技术中，解决这两类问题比较通用的方法是采用启发式算法计算对应的规划路线。但是启发式算法是在求解过程中需要进行不断的迭代搜索，存在耗时较长，且当迭代次数不够时较优解的质量不够稳定等的缺点。

发明内容

为了解决现有技术的不足，本发明的主要目的在于提供一种路径规划模型的训练方法，以实现使用训练获得的路径规划模型对路径规划问题的TSP问题的最优解进行自动求解。

为了达到上述目的，第一方面本发明提供了一种路径规划模型的训练方法，所述方法包括：

获取测试矩阵并导入路径规划模型，所述路径规划模型包含第一预设模型、第二预设模型及环境模块，所述测试矩阵包含目的地及所述目的地间的距离；

所述第一预设模型按照第一参数，确定规划的下一目的地并存入路径；

所述第二预设模型按照第二参数，对确定的所述目的地进行打分，获得打分结果；

所述环境模块按照预设方法计算确定的所述目的地对应的奖励值；

所述第一预设模型根据所述打分结果，对所述第一参数进行调整；

所述第二预设模型根据所述奖励值，对所述第二参数进行调整；

所述路径规划模型不断地重复上述过程，直至所述路径包含所述测试矩阵的所有所述目的地；

输出所述路径规划模型。

在一些实施例中，所述第一预设模型及所述第二预设模型预设了Attention注意力机制。

在一些实施例中，所述获取测试矩阵并导入路径规划模型包括:

获取测试矩阵及每一目的地的运输量并导入路径规划模型。

在一些实施例中，所述第一预设模型按照第一参数，确定路径的下一目的地包括：

对导入数据进行embedding编码，并将所述编码结果输入所述第一预设模型，所述导入数据包括所述测试矩阵及所述每一目的地的运输量。

在一些实施例中，所述第一预设模型、第二预设模型为RNN网络模型。

在一些实施例中，所述第一预设模型按照第一参数，确定路径的下一目的地并存入所述路径包括：

所述第一预设模型按照第一参数，分别计算每一所述目的地被确定为下一目的地的概率；

所述第一预设模型根据预设的策略及每一所述目的地被确定为下一目的地的概率，确定下一目的地。

第二方面，本申请提供了一种路径规划模型的训练装置，所述装置包括：

获取模块，用于获取测试矩阵并导入路径规划模型，所述测试矩阵包含目的地及所述目的地间的距离；

训练模块，包含所述路径规划模型，所述路径规划模型包含第一预设模型、第二预设模型及环境模块；

所述第一预设模型用于按照第一参数，确定路径的下一目的地并存入所述路径；

所述第二预设模型用于按照第二参数，对确定的所述目的地进行打分，获得打分结果；

所述环境模块用于按照预设方法计算确定的所述目的地对应的奖励值；

输出模块，用于输出所述路径规划模型。

在一些实施例中，所述训练模块包含的所述第一预设模型及所述第二预设模型预设了Attention注意力机制。

在一些实施例中，所述获取模块还可用于获取测试矩阵及每一目的地的运输量并导入路径规划模型。

第三方面，本申请提供了一种计算机系统，所述系统包括：

一个或多个处理器；

以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

所述第一预设模型按照第一参数，确定路径的下一目的地并存入所述路径；

输出所述路径规划模型。

本发明实现的有益效果为：

本发明公开了一种路径规划模型的训练方法，所述方法包括:获取测试矩阵并导入路径规划模型，所述路径规划模型包含第一预设模型、第二预设模型及环境模块，所述测试矩阵包含目的地及所述目的地间的距离；所述第一预设模型按照第一参数，确定规划的下一目的地并存入路径；所述第二预设模型按照第二参数，对确定的所述目的地进行打分，获得打分结果；所述环境模块按照预设方法计算确定的所述目的地对应的奖励值；所述第一预设模型根据所述打分结果，对所述第一参数进行调整；所述第二预设模型根据所述奖励值，对所述第二参数进行调整；所述路径规划模型不断地重复上述过程，直至所述路径包含所述测试矩阵的所有所述目的地；输出所述路径规划模型，使用上述方法训练获得的路径规划模型可实现对路径规划问题的TSP问题的最优解的自动求解，相对于现有的启发式算法不需对每个路径规划的实例进行重新搜索计算，节省了大量的计算时间，提高了路径规划效率；

进一步地，本申请还公开了在第一预设模型及第二预设模型预设了Attention注意力机制，以提升第一预设模型及第二预设模型在解码时重要的点被选择或输出的概率，提升了模型结果输出的效率及准确性；

本申请公开了将测试矩阵及每一目的地的运输量并导入路径规划模型作为测试训练数据对所述路径规划模型进行训练，实现了对可解决路径规划问题中的VRP问题的最优解的自动求解。

本发明所有产品并不需要具备上述所有效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的Attention机制结构图；

图2是本申请实施例提供的Actor网络结构图；

图3是本申请实施例提供的Critic网络结构图；

图4是本申请实施例提供的方法流程图；

图5是本申请实施例提供的装置结构图；

图6是本申请实施例提供的计算机系统结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如背景技术中所述，实际的运输成本在是物流的总成本中占了很大的比重，因此如何实现合理的路径规划是物流行业中亟待解决的技术问题。将物流的路径规划问题抽象地分为TSP问题和VRP问题，这两类问题求解最优解的过程可以看做是序列决策的过程，即每一步的决策是基于决策后不同的状态如每一个运输点的货量、已规划的运输点、车子剩余装载量等来决策下一步要选择的点。

现有技术中TSP及VRP问题的常用求解算法为启发式算法，包括遗传算法、蚁群算法、变邻域搜索算法等。此类算法主要思想是先生成路径规划的初始解，然后利用一定规则进行摧毁重建以生成新的解，并判断新的解是否满足约束且是否比之前的解更优，如果更优则替换之前的解作为新解，如此往复迭代多次之后，就能搜索到接近最优解的次优解。这类的求解算法需要消耗一定的时间进行探索，而且如果输入的条件发生变化求解算法需要重新进行重复的迭代计算，时效性不高。且当规划的路径规模较大时，如果迭代次数不充足，则次优解的质量不能保证满足实际的需求。因此，如果对每次路径规划都采用启发式算法来求解，那么需要的计算资源及时间成本将十分庞大。

为解决上述问题，本申请公开了一种路径规划模型的训练方法，通过该方法训练获得的模型可以适用于解决TSP问题或是VRP问题，只要向训练后的模型输入每个规划场景的具体数据模型就可以正确的计算出结果，而不需要对每个场景进行具体训练，节省了大量的时间及成本。

具体的，可搭建一个基于强化学习的Actor-Critic路径规划模型，该模型中预设了两个RNN网络模型及环境模块，该RNN网络模型可分别命名为Actor及Critic。Actor用于编码，如图2所示，负责读取输入的数据并映射为预设大小的特征向量，然后通过预设的搜索算法解码出decode_len大小的动作序列，当输出的解码的值的长度不小于预设值decode_len时，即由环境模块中的奖励函数计算对应的奖励值；Critic用于编码，如图3所示，负责将Actor解码的特征向量映射到输出序列，并计算输出序列的对应的预估奖励值即打分结果。在Actor及Critic中，还可分别预设Attention神经网络机制，所述机制用于帮助Actor及Critic的解码器在每一步的解码中都能关注到序列中的重要位置，以便生成更好的输出序列。

RNN网络模型是指循环神经网络模型，用于识别数据序列中的模式。

以适用于解决TSP问题的模型为例，进行所述模型的训练过程具体包括：

步骤一、获取训练数据集；

所述数据集为矩阵集合，每一矩阵即为一条训练数据，代表了该次训练中目的地间的距离，当该模型用于解决VRP问题时，训练数据集包含了与TSP问题相同的矩阵集合与每一目的地的所需运输的运输量，该运输量以标量表示。

具体的，TSP问题的输入数据的大小应当为batch_size*max_time*input_dim；其中batch_size表示模型的该次训练批次的大小；max_time表示目的地的总个数，input_dim表示特征维度，即目的地间的距离。对于VRP问题而言，input_dim还包括了每个目的地待运输的货物的重量。

步骤二、构造路径规划模型；

具体的，所述构造过程具体包括：

S1、构造环境模块；

所述环境模块的构造过程包括：

构造环境类，环境类中包含了车辆容积、客户点数、总点数、输入数据维度、距离输入、货量输入、数据批次大小等与路径规划相关的数据变量，并且预设了环境重置方法即每回合探索结束后需要初始化的变量，以及每步更新方法即每步后需要更新的变量。

以总距离作为奖励值构造奖励函数；

其中奖励函数为R＝∑_i,jd_ij*X_ij，d_ij表示目的地i到目的地j之间的距离，x_ij＝1表示路径经过ij边，xij＝0表示路径未经过ij边。

S2、构造Actor和Critic包含的Attention机制，用于输出节点的权重Logit和卷积后的全量输入数据e；

图1示出了Attention机制的结构图，以Actor网络为例，Attention机制的运算流程为：

A、

其中“；”表示将两个向量级联在一起，v_a和W_a表示待训练的变量，“T”表示矩阵的转置。

B、将输入的嵌套特征

与a_t进行运算获取输出c_t；

其中M表示输入的嵌套特征

的维度。

C、

与c_t作为输入，经过计算获取最终的网络输出π(.|Y_t,X_t)，

其中“；”表示将向量进行级联，v_c和W_c表示待训练的变量，“T”表示矩阵的转置。

S3、构建Actor网络用于解码每步输出的动作即做出每一步应当选择哪一目的地的决定，构建Critic网络用于评估并计算每一步目的地的选择的打分结果；

所述Actor网络和Critic网络包括：

1.对输入的目的地的经纬度或距离矩阵数据进行embedding编码，将低维数据映射到高维空间，得到encoder_emb_inp作为actor网络的解码层输入；

2.如图2所示，在Actor网络中，在模型训练的过程中使用随机策略来获取下一步选择的目的地，循环解码得到所有目的地的访问顺序；而在模型评估或是使用的过程中则采用贪心策略或是集束搜索策略来确定下一步的目的地；

3.在如图3所示，critic网络中，需要构建评估基线。首先，对encoder_emb_inp循环进行三次Attention机制得到logit打分矩阵，该矩阵用于输出每个节点的权重值；对该打分矩阵进行归一化操作，通过softmax得到logit的prob矩阵，以及隐藏层的输出hy，表示RNN网络模型的神经元输出的state变量值；最后，通过全连接层，对hy进行全连接得到V值矩阵，该V值矩阵即可用于输出当前所在环境下对Actor网络选择的下一步骤的评分值；

S4、构建Actor和Critic网络训练过程中对应的损失函数、优化方法，并计算下降梯度；

其中，Actor网络的损失函数为动作Yⁿ的极大似然损失，即

其中Rⁿ表示环境模块评估获得的第n个样本的实际奖励值，

表示第n个样本第0步解码时的输入的变量值序列，

表示Critic网络的当前权重，

表示表示Critc网络计算获得的第n个样本的近似奖励值即打分值，Yⁿ表示第n个样本输出的动作序列，

表示表示第n个样本在

作为输入时得到Yⁿ输出序列的概率值。Actor网络的下降梯度为

θ表示Actor网络的当前权重。

Critic网络的损失函数为MSE损失，即

其中N表示该次训练批次下的样本数量。Critic网络的下降梯度为

Actor网络及Critic网络的优化方法均为Adam优化器。Adam优化器是一种深度学习优化器，用于提升模型的训练效率。

S5、构造环境模块中的Eva l uate函数，用于计算Actor网络在当前参数下输出的最优动作序列及对应的奖励值。

Eva l uate评估函数主要功能是计算测试集数据在当前Actor网络下的实际奖励值即reward值，可进行单条数据评估或者是批处理评估，可分别按照Actor网络预设的greedy或beam search的解码策略来计算下一步的动作及其对应的reward值。

Greedy策略为贪心策略，即选择当前步计算获得对应的概率值最大的目的地为这一步确定的目的地，beam search策略为集束搜索策略，即选择当前可选目的地中概率最大的topk个序列作为候选目的地节点，然后在这些候选目的地节点的基础上继续计算对应的下一目的地节点，并按照预设策略对节点进行剪除，直到找到满足预设要求的节点序列。

步骤三、对所述路径规划模型进行训练；

所述训练过程包括：

设所述模型每一步选择某一目的地的概率服从概率分布Φ_M，则将第n个样本t步的输出动作记为

第n个样本t步的输入数据记为

第n个样本t步之前的所有输出动作记为

随机初始化Actor网络权重θ和Cr itic网络权重φ，初始化梯度dθ＝0,dφ＝0；

从Φ_M中抽取样本，初始化步数t＝0；

使用Actor网络，计算每一步的概率分布函数

随机选择下一步动作

使用Cr i t i c网络，计算该步对应的打分

同时步数t加1；

使用环境模块根据当前状态变量值计算该步对应的奖励值，并根据Actor网络每一步解码的解码结果对当前状态变量值进行更新，所述当前状态变量值包括车辆装载率、已访问的点、剩余待装载量等当前路径规划的状态数据；

Actor网络根据打分结果调整自身的参数；

所述参数包括但不限于Actor网络权重θ。

Critic网络根据奖励值调整自身的打分参数；

所述参数包括但不限于Critic网络权重φ。

计算actor网络下降梯度：

计算critic网络下降梯度：

重复上述过程，直至满足终止条件。

所述终止条件可以包括：

Actor网络和Critic网络的下降梯度收敛至预设阈值；

Actor网络和Critic网络的损失函数的值趋于0；

Criti c网络的打分结果趋于奖励值。

当路径规划模型满足终止条件时，即可使用获得的模型进行路径规划。

经过测试，使用上述模型处理TSP10问题时，在训练20万代之后，单机总用时8小时，测试1000组数据近95％测试案例能达到最优解。在实际部署该模型后，每组待规划数据的最优解计算响应时间为毫秒级。而同样的TSP10问题，如果使用动态规划等方法进行精确求解则每组数据求解所需的时间至少为2-3秒。

处理TSP20问题时，在训练80万代之后，单机用时36小时，测试1000组数据近80％测试案例能达到最优解。在实际部署该模型后，每组待规划数据的最优解计算响应时间也是毫秒级，而同样的TSP20问题采用动态规划进行求解的话，无法在单台机器上3天内求得最优解。

对于VRP问题的测试，如表1所示，对比现有的如CW和SW等启发式算法，在小规模的VRP问题中，RL方法更逼近最优解；而在大规模VRP问题中，RL方法求得的解不仅更优，而且用时也更短且更稳定。

表1

实施例二

对应上述实施例，本申请提供了一种路径规划模型的训练方法，如图4所示，所述方法包括：

410、获取测试矩阵并导入路径规划模型，所述路径规划模型包含第一预设模型、第二预设模型及环境模块，所述测试矩阵包含目的地及所述目的地间的距离；

优选的，所述获取测试矩阵并导入路径规划模型包括

411、获取测试矩阵及每一目的地的运输量并导入路径规划模型。

420、所述第一预设模型按照第一参数，确定规划的下一目的地并存入路径；

优选的，所述第一预设模型按照第一参数，确定路径的下一目的地包括：

421、对导入数据进行embedding编码，并将所述编码结果输入所述第一预设模型，所述导入数据包括所述测试矩阵及所述每一目的地的运输量。

优选的，所述第一预设模型按照第一参数，确定路径的下一目的地并存入所述路径包括：

422、所述第一预设模型按照第一参数，分别计算每一所述目的地被确定为下一目的地的概率；

430、所述第二预设模型按照第二参数，对确定的所述目的地进行打分，获得打分结果；

440、所述环境模块按照预设方法计算确定的所述目的地对应的奖励值；

450、所述第一预设模型根据所述打分结果，对所述第一参数进行调整；

460、所述第二预设模型根据所述奖励值，对所述第二参数进行调整；

470、所述路径规划模型不断地重复上述过程，直至所述路径包含所述测试矩阵的所有所述目的地；

480、输出所述路径规划模型。

优选的，所述第一预设模型及所述第二预设模型预设了Attention注意力机制。

优选的，所述第一预设模型、第二预设模型为RNN网络模型。

实施例三

对应上述方法实施例，本申请提供了一种路径规划模型的训练装置，如图5所示，所述装置包括：

获取模块510，用于获取测试矩阵并导入路径规划模型，所述测试矩阵包含目的地及所述目的地间的距离；

训练模块520，包含所述路径规划模型，所述路径规划模型包含第一预设模型、第二预设模型及环境模块；

输出模块530，用于输出所述路径规划模型。

优选的，所述训练模块520包含的所述第一预设模型及所述第二预设模型预设了Attention注意力机制。

优选的，所述获取模块510还可用于获取测试矩阵及每一目的地的运输量并导入路径规划模型。

优选的，所述获取模块510还可用于对导入数据进行embedding编码，并将所述编码结果输入所述第一预设模型，所述导入数据包括所述测试矩阵及所述每一目的地的运输量。

优选的，所述训练模块520包含的所述第一预设模型及第二预设模型为RNN网络模型。

优选的，所述训练模块520还可用于所述第一预设模型按照第一参数，分别计算每一所述目的地被确定为下一目的地的概率；所述第一预设模型根据预设的策略及每一所述目的地被确定为下一目的地的概率，确定下一目的地。

实施例四

对应上述方法、设备及系统，本申请实施例四提供一种计算机系统，包括：一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：获取测试矩阵并导入路径规划模型，所述路径规划模型包含第一预设模型、第二预设模型及环境模块，所述测试矩阵包含目的地及所述目的地间的距离；

输出所述路径规划模型。

其中，图6示例性的展示出了计算机系统的架构，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521，用于控制计算机系统1500的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器1523，数据存储管理系统1524，以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。

输入/输出接口1513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1530包括一通路，在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520)之间传输信息。

另外，该计算机系统1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线1530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种路径规划模型的训练方法，其特征在于，所述方法包括:

输出所述路径规划模型。

2.根据权利要求1所述的方法，其特征在于，所述第一预设模型及所述第二预设模型预设了Attention注意力机制。

3.根据权利要求1所述的方法，其特征在于，所述获取测试矩阵并导入路径规划模型包括:

获取测试矩阵及每一目的地的运输量并导入路径规划模型。

4.根据权利要求3所述的方法，其特征在于，所述第一预设模型按照第一参数，确定路径的下一目的地包括：

5.根据权利要求1-3任一所述的方法，其特征在于，所述第一预设模型、第二预设模型为RNN网络模型。

6.根据权利要求1-3任一所述的方法，其特征在于，所述第一预设模型按照第一参数，确定路径的下一目的地并存入所述路径包括：

7.一种路径规划模型的训练装置，其特征在于，所述装置包括：

输出模块，用于输出所述路径规划模型。

8.根据权利要求7所述的装置，其特征在于，所述训练模块包含的所述第一预设模型及所述第二预设模型预设了Attention注意力机制。

9.根据权利要求7或8所述的装置，其特征在于，所述获取模块还可用于获取测试矩阵及每一目的地的运输量并导入路径规划模型。

10.一种计算机系统，其特征在于，所述系统包括：

一个或多个处理器；

输出所述路径规划模型。