CN117494921B

CN117494921B - 一种多目标类型的路径模型求解方法及装置

Info

Publication number: CN117494921B
Application number: CN202311853079.8A
Authority: CN
Inventors: 陈荣元; 王金; 李甜霞; 钟炎容; 周鲜成; 周金爽
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-12
Anticipated expiration: 2043-12-29
Also published as: CN117494921A

Abstract

本发明实施例提供了一种多目标类型的路径模型求解方法、装置、存储介质及电子装置，涉及路径模型求解技术的技术领域。其方法包括：获取初始模型数据，并基于初始模型数据构建第一多目标类型路径模型；基于预设的模型架构和第一模型数据，执行第一映射处理，以得到初始模型数据对应的实例嵌入信息；根据实例嵌入信息，确定隐藏层信息，并通过架构函数对隐藏层信息进行概率确定处理，以得到目标对象的对象概率信息以及目标节点的节点概率信息；根据节点概率信息以及对象概率信息，执行路径迭代处理，以得到第一多目标类型路径模型的模型解；通过本发明，解决了路径模型求解精度低的问题，进而达到了提高路径模型求解效率和精度的效果。

Description

一种多目标类型的路径模型求解方法及装置

技术领域

本发明实施例涉及路径模型求解技术领域，具体而言，涉及一种多目标类型的路径模型求解方法及装置。

背景技术

车辆路径问题是一个经典的组合优化问题，旨在满足客户需求的基础上根据优化目标生成最优的车辆路径。

求解多车型车辆路径问题的传统方法存在很难应用于求解大规模算例、最优性保证较弱、过于依赖求解者的专业知识等问题。因此，如何在现有研究的基础上，探究快速有效的求解方法十分重要。

发明内容

本发明实施例提供了一种多目标类型的路径模型求解方法及装置，以至少解决相关技术中多车型车辆路径模型求解效率低的问题。

根据本发明的一个实施例，提供了一种多目标类型的路径模型求解方法，包括：

获取初始模型数据，并基于所述初始模型数据构建第一多目标类型路径模型，其中，所述初始模型数据包括多种类型的目标对象的对象数据以及所述目标对象执行目标动作的动作路径数据；

基于预设的模型架构和第一模型数据，执行第一映射处理，以得到所述初始模型数据对应的实例嵌入信息，其中，所述第一模型数据是对所述初始模型数据进行预处理后得到的；

根据所述实例嵌入信息，确定隐藏层信息，并通过架构函数对所述隐藏层信息进行概率确定处理，以得到目标对象的对象概率信息以及目标节点的节点概率信息；

根据所述节点概率信息以及所述对象概率信息，执行路径迭代处理，以得到所述第一多目标类型路径模型的模型解，所述模型解用于规划构建目标路径。

在一个示例性实施例中，所述基于预设的模型架构和第一模型数据，执行第一映射处理包括：

通过目标维度的全连接层对所述第一模型数据进行第一映射计算，以得到第一映射结果；

通过目标数量的注意力模块对所述第一映射结果进行注意力计算，以得到注意力计算结果；

对注意力计算结果进行节点嵌入处理，以得到实例嵌入信息。

在一个示例性实施例中，所述根据所述实例嵌入信息，确定隐藏层信息，并通过架构函数对所述隐藏层信息进行概率确定处理，以得到目标对象的对象概率信息包括：

根据所述第一模型数据，确定第一上下文信息以及第二上下文信息，其中，所述第一上下文信息包括所述动作路径数据中目标节点的节点信息以及所述目标对象执行第一动作并触发所述目标节点的第一累计时间，所述第二上下文信息包括所有目标对象的节点嵌入信息的队列信息；

基于预设的第一处理层，确定所述第一上下文信息的第一隐藏信息，以及所述第二上下文信息的第二隐藏信息；

对所述第一隐藏信息以及所述第二隐藏信息进行串联投影处理，以得到第一向量，并通过所述架构函数对所述第一向量进行第一概率选择处理，以得到所述目标对象的对象概率信息。

在一个示例性实施例中，所述根据所述实例嵌入信息，确定隐藏层信息，并通过架构函数对所述隐藏层信息进行概率确定处理，以得到目标节点的节点概率信息包括：

通过预设的第一算子对所述第一模型数据中包括的概率矩阵进行对象选择计算，以确定目标时间步中执行第一动作的第一对象的第一对象信息，其中，所述目标对象包括所述第一对象，所述第一对象信息包括所述第一对象的第一状态信息；

基于所述第一状态信息以及所述实例嵌入信息，确定所述目标节点的第三上下文信息；

通过预设的第二处理层对所述第三上下文信息进行向量处理，以确定所述第三上下文信息的第二向量；

通过所述架构函数对所述第二向量进行第二概率选择处理，以得到所述目标节点包括的第一节点的节点概率信息。

在一个示例性实施例中，所述根据所述节点概率信息以及所述对象概率信息，执行路径迭代处理，以得到所述第一多目标类型路径模型的模型解包括：

通过第三算子对所述节点概率信息和所述对象概率信息执行第一动作处理，以得到动作奖励值；

通过第四算子对所述节点概率信息和所述对象概率信息执行第二动作处理，以得到动作估计值；

基于预设的参数更新算法对所述动作奖励值以及所述动作估计值进行参数更新计算，并基于参数更新结果进行路径迭代计算，以得到所述模型解。

根据本发明的另一个实施例，提供了一种多目标类型的路径模型求解装置，包括：

模型数据模块，用于获取初始模型数据，并基于所述初始模型数据构建第一多目标类型路径模型，其中，所述初始模型数据包括多种类型的目标对象的对象数据以及所述目标对象执行目标动作的动作路径数据；

第一映射模块，用于基于预设的模型架构和第一模型数据，执行第一映射处理，以得到所述初始模型数据对应的实例嵌入信息，其中，所述第一模型数据是对所述初始模型数据进行预处理后得到的；

概率信息模块，用于根据所述实例嵌入信息，确定隐藏层信息，并通过架构函数对所述隐藏层信息进行概率确定处理，以得到目标对象的对象概率信息以及目标节点的节点概率信息；

路径迭代模块，用于根据所述节点概率信息以及所述对象概率信息，执行路径迭代处理，以得到所述第一多目标类型路径模型的模型解，所述模型解用于规划构建目标路径。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，由于通过架构函数对路径模型概率信息和节点信息进行路径迭代，避免模型解迭代过程中出现策略丢失的问题，保证迭代过程始终结合概率信息和节点信息进行路径求解迭代，因此，可以解决路径模型求解精度低的问题，达到提高路径模型求解精度的效果。

附图说明

图1是本发明实施例的一种多目标类型的路径模型求解方法的移动终端的硬件结构框图；

图2是根据本发明实施例的一种多目标类型的路径模型求解方法的流程图；

图3是根据本发明实施例的一种多目标类型的路径模型求解装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种多目标类型的路径模型求解方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的一种多目标类型的路径模型求解方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种多目标类型的路径模型求解方法，图2是根据本发明实施例的一种多目标类型的路径模型求解的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取初始模型数据，并基于所述初始模型数据构建第一多目标类型路径模型，其中，所述初始模型数据包括多种类型的目标对象的对象数据以及所述目标对象执行目标动作的动作路径数据；

在本实施例中，基于 Transformer 构架和强化学习算法对初始模型数据进行模型构建，以得到多种车型情况下的路径模型，并对该模型进行优化，以利用Transformer 架构的多头注意力机制，从不同的维度注意到子空间的信息，从而提取车辆路径问题更深层的特征，实施并行计算，进而得到高精度的最优路径解。

其中，初始模型数据包括（但不限于）配送中心的位置坐标、配送中心进行货物配送的车辆类型（例如车辆容量、行车速度灯）和数量、客户的数量、客户的位置、客户的需求量、所有车辆均从配送中心出发并完成配送任务后返回配送中心所需要的油耗以及耗时等数据，需要说明的是，每个客户点有且仅有一辆车为其进行单次服务，且所有客户点的需求都要被满足，客户点的最大需求量均小于车辆容量；第一多目标类型数据模型包括于Transformer 构架和强化学习算法得到的多车型车辆路径模型，且强化学习的目标是基于公式1计算得到的最小化所有车辆的行驶时间总和Z：

（公式1）

式中，表示节点/>到节点/>的欧几里德距离，/>表示车辆/>的行驶速度，/>用到的所有车辆集合，/>表示所有节点集合 (包括仓库)，/>为 0-1 变量，当车辆/>从节点/>行驶到节点/>时值为1，反之为 0。

目标对象包括不同车型的车辆，对应的，对象数据包括车辆的类型、容量、油耗等数据，目标动作包括（但不限于）货物配送、货物装卸等动作，动作路径数据包括车辆进行货物配送所运动的路径节点坐标、节点名称等数据，需要说明的是，目标对象还可以是行人、无人机或无人车、货运飞机、地铁或铁路等轨道交通对象、船只等水运交通对象以及其他对象，并不局限于车辆；对应的，对象数据也随目标对象的变化和环境需求而不同。

步骤S202，基于预设的模型架构和第一模型数据，执行第一映射处理，以得到所述初始模型数据对应的实例嵌入信息，其中，所述第一模型数据是对所述初始模型数据进行预处理后得到的；

在本实施例中，进行第一映射处理是为了进行高维映射，使得数据可以更好的被处理，从而可以被识别，且方便后续的计算，并将数据格式进行统一，并将数据表达为可以被识别的形式。

其中，第一映射处理包括将节点坐标、需求量以及车辆容量等第一模型数据的原始特征通过维度为dim128全连接层进行映射，并将第一映射结果作为输入传输至 N 个注意力模块进行计算，随后再将上述注意力模块的输出作为问题实例的节点嵌入，并将其平均值作为问题实例的图嵌入，将在解码器中重复使用多次，实例嵌入信息包括节点嵌入以及图嵌入。

需要说明的是，在执行第一映射处理之前，还需要进行关键数据的定义，具体的包括：

（2a）状态空间：状态分为车辆状态和客户点状态。车辆状态包括车辆在配送中的剩余容量和累计配送时间；客户点状态包括客户点坐标和需求。

（2b）动作空间：多车型车辆路径的动作空间表示在时间步 t 时可选择的车辆和节点。

（2c）状态转移规则：假定动作在时间步t时，选择车辆/>对节点/>的进行配送，则车辆状态和节点状态变化如下：

1.车辆当前位置更新为节点/>的位置；

2.车辆的剩余载重容量需减去节点的需求量；

3.车辆的累计行驶时间需加上从上一访问节点/>行驶到节点/>的时间；

4.节点的需求量更新为0。

（2d）奖励函数：强化学习模型的优化目标是最小化所有车辆的行驶时间总和Z，总行驶时间越小则奖励越大，则将作为奖励值。

步骤S203，根据所述实例嵌入信息，确定隐藏层信息，并通过架构函数对所述隐藏层信息进行概率确定处理，以得到目标对象的对象概率信息以及目标节点的节点概率信息；

在本实施例中，确定节点概率信息和对象概率信息的目的是为了选择出下一步进行配送的车辆与节点。

步骤S204，根据所述节点概率信息以及所述对象概率信息，执行路径迭代处理，以得到所述第一多目标类型路径模型的模型解，所述模型解用于规划构建目标路径。

在本实施例中，在确定节点概率信息和对象概率信息之后，再通过带基线策略梯度训练网络包括的策略网络和基线网络进行动作估计计算和动作奖励计算，并由此对策略网络和基线网络进行更新迭代，以确定最终的最优配送路径。

通过上述步骤，利用Transformer架构的多头注意力机制，从不同的维度注意到子空间的信息，从而提取车辆路径问题更深层的特征，实施并行计算，进而得到高精度的最优路径解，提高了路径模型求解效率和求解精度，解决了多类型的目标对象的情况下路径模型求解效率低的问题，提高了路径模型求解效率和精度。

其中，上述步骤的执行主体可以为基站、终端等，但不限于此。

在一个可选的实施例中，所述基于预设的模型架构和第一模型数据，执行第一映射处理包括：

步骤S2021，通过目标维度的全连接层对所述第一模型数据进行第一映射计算，以得到第一映射结果；

在本实施例中，目标维度可以是dim128的维度，也可以是其他维度，具体根据实际需求进行调整。

步骤S2022，通过目标数量的注意力模块对所述第一映射结果进行注意力计算，以得到注意力计算结果；

在本实施例中，每个注意力模块均由一个多头注意力层（MHA）和一个具有 Relu激活函数的前馈层（FF）组成，且两个子层之间添加跳跃链接，且注意力模块的个数可根据模型需要自行定义注意力模块的目标数量可以根据需求进行调整。

步骤S2023，对注意力计算结果进行节点嵌入处理，以得到实例嵌入信息。

在本实施例中，节点嵌入处理包括将注意力计算结果作为问题实例的节点嵌入，并将其平均值作为问题实例的图嵌入。

在一个可选的实施例中，所述根据所述实例嵌入信息，确定隐藏层信息，并通过架构函数对所述隐藏层信息进行概率确定处理，以得到目标对象的对象概率信息包括：

步骤S2031，根据所述第一模型数据，确定第一上下文信息以及第二上下文信息，其中，所述第一上下文信息包括所述动作路径数据中目标节点的节点信息以及所述目标对象执行第一动作并触发所述目标节点的第一累计时间，所述第二上下文信息包括所有目标对象的节点嵌入信息的队列信息；

在本实施例中，第一上下文信息包括不同类型的车辆的上下文信息，/>包括车辆配送过的部分路线中最后一个节点的位置（对应目标节点）的坐标信息（对应前述节点信息）以及累计配送时间（对应前述第一累计时间），对应的，第一动作可以是配送动作；第二上下文信息包括路径的上下文信息/>，/>为实例节点的嵌入排列，对于第二上下文信息，可以采用max pooling 函数对整个车队的路径上下文信息进行聚合，形成整个车队路径的上下文信息；需要说明的是，节点嵌入排列即节点的嵌入，排列就是所嵌入的节点展开，比如12345，节点嵌入排列是将前述的问题实例节点嵌入（即问题实例的图嵌入）经过编码器处理后的结果，即加工过的问题实例嵌入。

步骤S2032，基于预设的第一处理层，确定所述第一上下文信息的第一隐藏信息，以及所述第二上下文信息的第二隐藏信息；

在本实施例中，第一处理层包括带不同参数的 FF 层，处理车辆的上下文信息和路径的上下文信息/>，分别生成第一隐藏层/>和第二隐藏层/>，其中 FF 层的维度均为 dim=512，第一处理层的维度可以根据需求进行调整。

步骤S2033，对所述第一隐藏信息以及所述第二隐藏信息进行串联投影处理，以得到第一向量，并通过所述架构函数对所述第一向量进行第一概率选择处理，以得到所述目标对象的对象概率信息。

在本实施例中，将隐藏层信息和/>串联并投影后得到第一向量/>，在利用架构函数softmax函数对向/>进行进一步的概率选择计算，以得到车辆选择的概率向量，其中，对象概率信息包括进行车辆选择的概率向量；需要说明的是，明确车辆选择的概率向量可以确定下一步动作选择出发的车辆，车辆概率向量等于车辆概率矩阵。

在一个可选的实施例中，所述根据所述实例嵌入信息，确定隐藏层信息，并通过架构函数对所述隐藏层信息进行概率确定处理，以得到目标节点的节点概率信息包括：

步骤S2034，通过预设的第一算子对所述第一模型数据中包括的概率矩阵进行对象选择计算，以确定目标时间步中执行第一动作的第一对象的第一对象信息，其中，所述目标对象包括所述第一对象，所述第一对象信息包括所述第一对象的第一状态信息；

在本实施例中，第一算子可以是贪婪算法的贪婪算子或采样算法的采样算子，第一对象信息可以是下一时间步需要执行配送动作的车辆的信息，对应的，目标时间步包括相对当前时间步的下一时间段；第一对象可以是多个车辆中的某个车辆，对应的，第一状态信息包括该车辆当前的状态情况。

步骤S2035，基于所述第一状态信息以及所述实例嵌入信息，确定所述目标节点的第三上下文信息；

在本实施例中，将图嵌入的特征信息，以及上述选择出的配送车辆的状态信息进行串联，形成节点选择的上下文信息/>（即第三上下文信息）。

步骤S2036，通过预设的第二处理层对所述第三上下文信息进行向量处理，以确定所述第三上下文信息的第二向量；

在本实施例中，采用一个多头注意力层对进行向量处理，生成新的上下文向量（即第二向量）。

步骤S2037，通过所述架构函数对所述第二向量进行第二概率选择处理，以得到所述目标节点包括的第一节点的节点概率信息。

在本实施例中，用 softmax 函数对向量进行第二概率选择操作，得到节点选择的概率向量后，再利用贪婪算子或采样算子基于节点选择的概率矩阵选择下一时间步由车辆/>进行配送的节点/>，并由此确定节点/>的坐标、数量等信息。

例如，节点计算完概率后，选择概率最大的作为下一步配送的节点，即/>对应的是概率最大的节点（即前述第一节点）。

在一个可选的实施例中，所述根据所述节点概率信息以及所述对象概率信息，执行路径迭代处理，以得到所述第一多目标类型路径模型的模型解包括：

步骤S2041，通过第三算子对所述节点概率信息和所述对象概率信息执行第一动作处理，以得到动作奖励值；

在本实施例中，通过策略网络的采样算子选择一个动作执行，计算出该动作的奖励值，其中，第三算子包括采样算子。

步骤S2042，通过第四算子对所述节点概率信息和所述对象概率信息执行第二动作处理，以得到动作估计值；

在本实施例中，通过基线网络结构的贪婪算子执行动作，其始终以最大的概率在车辆选择概率向量和节点选择概率向量中选择下一时间步将使用的车辆和配送节点，并计算出该动作的估计值，其中，第四算子包括贪婪算子。

步骤S2043，基于预设的参数更新算法对所述动作奖励值以及所述动作估计值进行参数更新计算，并基于参数更新结果进行路径迭代计算，以得到所述模型解。

在本实施例中，将策略网络计算出的奖励值与基线网络计算出的估计值相减得到损失值，利用蒙特卡罗法更新参数，并对策略网络参数和基线网络参数进行 t 检验，如果最新的策略网络参数显著性优于基线网络参数，则基线网络的参数更新为最新的策略网络参数，然后根据设定的迭代次数进行迭代更新，规划最优的配送路径；其中，损失值可以理解为误差，即实际值与估计值之间的差距，损失值越小越好。

具体的，带基线策略梯度训练网络包括策略网络和基线网络两个部分。

（5a）策略网络包括：先利用步骤S2021-2023中的编码器对客户位置、客户需求和车辆容量等原始特征进行处理，将编码器处理的结果先输入步骤S2031-2037中的车辆选择解码器与节点选择解码器，得到车辆选择概率向量和节点选择概率向量，再利用采样算子选择一个动作执行，计算出该动作的奖励值。

（5b）基线网络结构与策略网络大体相同，区别在于极限网络使用的是贪婪算子执行动作，其始终以最大的概率在车辆选择概率向量和节点选择概率向量中选择下一时间步将使用的车辆和配送节点，并计算出该动作的估计值。

（5c）将策略网络计算出的奖励值与基线网络计算出的估计值相减得到损失值，利用蒙特卡罗法更新参数，并对策略网络参数和基线网络参数进行 t 检验，如果最新的策略网络参数显著性优于基线网络参数，则基线网络的参数更新为最新的策略网络参数，然后根据设定的迭代次数进行迭代更新，规划最优的配送路径。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

在本实施例中还提供了一种多目标类型的路径模型求解装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的一种多目标类型的路径模型求解装置的结构框图，如图3所示，该装置包括：

模型数据模块31，用于获取初始模型数据，并基于所述初始模型数据构建第一多目标类型路径模型，其中，所述初始模型数据包括多种类型的目标对象的对象数据以及所述目标对象执行目标动作的动作路径数据；

第一映射模块32，用于基于预设的模型架构和第一模型数据，执行第一映射处理，以得到所述初始模型数据对应的实例嵌入信息，其中，所述第一模型数据是对所述初始模型数据进行预处理后得到的；

概率信息模块33，用于根据所述实例嵌入信息，确定隐藏层信息，并通过架构函数对所述隐藏层信息进行概率确定处理，以得到目标对象的对象概率信息以及目标节点的节点概率信息；

路径迭代模块34，用于根据所述节点概率信息以及所述对象概率信息，执行路径迭代处理，以得到所述第一多目标类型路径模型的模型解，所述模型解用于规划构建目标路径。

在一个可选的实施例中，第一映射模块32包括：

第一映射单元，用于通过目标维度的全连接层对所述第一模型数据进行第一映射计算，以得到第一映射结果；

注意力计算单元，用于通过目标数量的注意力模块对所述第一映射结果进行注意力计算，以得到注意力计算结果；

节点嵌入单元，用于对注意力计算结果进行节点嵌入处理，以得到实例嵌入信息。

在一个可选的实施例中，所述概率信息模块包括：

第一上下文信息单元，用于根据所述第一模型数据，确定第一上下文信息以及第二上下文信息，其中，所述第一上下文信息包括所述动作路径数据中目标节点的节点信息以及所述目标对象执行第一动作并触发所述目标节点的第一累计时间，所述第二上下文信息包括所有目标对象的节点嵌入信息的队列信息；

第一隐藏单元，用于基于预设的第一处理层，确定所述第一上下文信息的第一隐藏信息，以及所述第二上下文信息的第二隐藏信息；

第一概率选择单元，用于对所述第一隐藏信息以及所述第二隐藏信息进行串联投影处理，以得到第一向量，并通过所述架构函数对所述第一向量进行第一概率选择处理，以得到所述目标对象的对象概率信息。

在一个可选的实施例中，所述概率信息模块还包括：

第一对象单元，用于通过预设的第一算子对所述第一模型数据中包括的概率矩阵进行对象选择计算，以确定目标时间步中执行第一动作的第一对象的第一对象信息，其中，所述目标对象包括所述第一对象，所述第一对象信息包括所述第一对象的第一状态信息；

第三上下文单元，用于基于所述第一状态信息以及所述实例嵌入信息，确定所述目标节点的第三上下文信息；

第二向量单元，用于通过预设的第二处理层对所述第三上下文信息进行向量处理，以确定所述第三上下文信息的第二向量；

节点概率单元，用于通过所述架构函数对所述第二向量进行第二概率选择处理，以得到所述目标节点包括的第一节点的节点概率信息。

在一个可选的实施例中，路径迭代模块34包括：

动作奖励单元，用于通过第三算子对所述节点概率信息和所述对象概率信息执行第一动作处理，以得到动作奖励值；

动作估计单元，用于通过第四算子对所述节点概率信息和所述对象概率信息执行第二动作处理，以得到动作估计值；

路径迭代单元，用于基于预设的参数更新算法对所述动作奖励值以及所述动作估计值进行参数更新计算，并基于参数更新结果进行路径迭代计算，以得到所述模型解。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多目标类型的路径模型求解方法，其特征在于，包括：

获取初始模型数据，并基于所述初始模型数据构建第一多目标类型路径模型，其中，所述初始模型数据包括多种类型的目标对象的对象数据以及所述目标对象执行目标动作的动作路径数据；其中，所述对象数据至少包括目标对象的类型、目标对象的容量、目标对象的油耗任意之一，所述初始模型数据还包括目标对象要进行配送的客户的客户数量、客户位置、客户需求、目标对象从配送中心完成配送任务并返回配送中心所需要的油耗及目标对象从配送中心完成配送任务并返回配送中心所需要的耗时至少任意之一；所述动作路径数据至少包括目标对象进行货物配送所运动的路径节点坐标、节点名称任意之一；

基于预设的模型架构和第一模型数据，执行第一映射处理，以得到所述初始模型数据对应的实例嵌入信息，其中，所述第一模型数据是对所述初始模型数据进行预处理后得到的，所述模型架构至少包括 Transformer 构架以及强化学习算法，所述强化学习算法用于得到最小化所有目标对象的行驶时间总和；所述第一模型数据至少包括节点坐标、需求量、目标对象容量任意之一；所述实例嵌入信息至少包括节点嵌入以及图嵌入任意之一；

根据所述实例嵌入信息，确定第一上下文信息以及第二上下文信息，再基于预设的第一处理层对所述第一上下文信息以及第二上下文信息确定隐藏层信息，并通过架构函数对所述隐藏层信息进行概率确定处理，以得到目标对象的对象概率信息以及目标节点的节点概率信息，其中，所述架构函数至少包括softmax函数；所述目标对象包括下一步用于进行配送的对象，所述目标节点包括下一步需要进行配送的节点；

2.根据权利要求1所述的方法，其特征在于，所述基于预设的模型架构和第一模型数据，执行第一映射处理包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述实例嵌入信息，确定隐藏层信息，并通过架构函数对所述隐藏层信息进行概率确定处理，以得到目标对象的对象概率信息包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述实例嵌入信息，确定隐藏层信息，并通过架构函数对所述隐藏层信息进行概率确定处理，以得到目标节点的节点概率信息包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述节点概率信息以及所述对象概率信息，执行路径迭代处理，以得到所述第一多目标类型路径模型的模型解包括：

6.一种多目标类型的路径模型求解装置，其特征在于，包括：

模型数据模块，用于获取初始模型数据，并基于所述初始模型数据构建第一多目标类型路径模型，其中，所述初始模型数据包括多种类型的目标对象的对象数据以及所述目标对象执行目标动作的动作路径数据；其中，所述对象数据至少包括目标对象的类型、目标对象的容量、目标对象的油耗任意之一，所述初始模型数据还包括目标对象要进行配送的客户的客户数量、客户位置、客户需求、目标对象从配送中心完成配送任务并返回配送中心所需要的油耗及目标对象从配送中心完成配送任务并返回配送中心所需要的耗时至少任意之一；所述动作路径数据至少包括目标对象进行货物配送所运动的路径节点坐标、节点名称任意之一；

第一映射模块，用于基于预设的模型架构和第一模型数据，执行第一映射处理，以得到所述初始模型数据对应的实例嵌入信息，其中，所述第一模型数据是对所述初始模型数据进行预处理后得到的，所述模型架构至少包括 Transformer 构架以及强化学习算法，所述强化学习算法用于得到最小化所有目标对象的行驶时间总和；所述第一模型数据至少包括节点坐标、需求量、目标对象容量任意之一；所述实例嵌入信息至少包括节点嵌入以及图嵌入任意之一；

概率信息模块，用于根据所述实例嵌入信息，确定第一上下文信息以及第二上下文信息，再基于预设的第一处理层对所述第一上下文信息以及第二上下文信息确定隐藏层信息，并通过架构函数对所述隐藏层信息进行概率确定处理，以得到目标对象的对象概率信息以及目标节点的节点概率信息，其中，所述架构函数至少包括softmax函数；所述目标对象包括下一步用于进行配送的对象，所述目标节点包括下一步需要进行配送的节点；

7.根据权利要求6所述的装置，其特征在于，所述第一映射模块包括：

8.根据权利要求7所述的装置，其特征在于，所述概率信息模块包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至5任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至5任一项中所述的方法。