CN117875535B

CN117875535B - 基于历史信息嵌入的取送货路径规划方法及系统

Info

Publication number: CN117875535B
Application number: CN202410286402.6A
Authority: CN
Inventors: 周玲
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-06-04
Anticipated expiration: 2044-03-13
Also published as: CN117875535A

Abstract

本发明公开了一种基于历史信息嵌入的取送货路径规划方法及系统，该方法包括：将起点、取货节点与送货节点的坐标作为节点特征，将起点、取货节点与送货节点的索引作为节点位置特征；将节点特征嵌入与节点位置嵌入整合得到增强节点嵌入；将增强节点嵌入与精英档案结合生成历史节点嵌入，再得到精炼节点嵌入；基于精炼节点嵌入进行节点对的移除与重新插入，得到第一新规划结果以及若干第二新规划结果，并更新精英档案；在满足迭代终止条件时将精英档案中成本最小的作为最优取送货路径规划结果。本发明应用于路径规划领域，能够有效地在减少运算时间的同时，获得高质量的取送货路径规划结果。

Description

基于历史信息嵌入的取送货路径规划方法及系统

技术领域

本发明涉及路径规划技术领域，具体是一种基于历史信息嵌入的取送货路径规划方法及系统。

背景技术

取送货旅行商问题（Pickup and Delivery Traveling Salesman Problem，PDTSP）是车辆路径问题（Vehicle Routing Problem，VRP）的一种变体。PDTSP将VRP中的节点分配为配送点和取货点，每一个配送点对应一个取货点且不共享，另外添加了单车辆，节点不重复访问，方案是一个循环路径和取货优先于送货等约束。这种组合优化问题涉及如何有效的规划车辆访问所有的节点，完成所有配送订单，并在满足约束条件的情况下最小化总行驶距离或成本。相关的实例如同城快递配送和共享单车/汽车服务。现有的针对PDTSP的方法大多数是使用精确算法和启发式算法，但由于PDTSP的NP-Hard性质，这些算法在较短的运算时间内很难获得最优解。

近年来，基于任何组合优化问题都可以等价转化为一个序列决策问题这一理论，研究者们尝试利用解决序列决策问题的深度强化学习（Deep Reinforcement Learning，DRL）来研究组合优化问题，发现其效果在提高效率的同时也获得了高质量的解。深度强化学习基于马尔科夫决策过程（Markov Decision Process，MDP）进行设计，与普通的机器学习相比，深度强化学习是通过与环境交互获得奖励或惩罚，不断地学习知识，优化自身动作策略，以获得长期收益（累计奖励）最大化，更加适应环境。MDP包含四个重要的元素：状态、动作、奖励和转移概率。状态代表智能体所能感知的世界的状态，动作是智能体与环境交互的方式，奖励是智能体采取动作后获得的奖励或惩罚，转移概率为当前状态转移到另一种状态的可能性。智能体与环境交互的过程可以看做是多个时刻、每一时刻智能体根据环境的状态，依据一定的策略选择一个动作，然后环境依据一定的状态转移概率转移到下一个状态，与此同时根据此时状态的好坏反馈给智能体一个奖励。智能体可以根据环境的反馈调整其策略，然后继续在环境中探索，最终学习到一个能够获得最多奖励的最优策略。

针对DRL解决这一类问题的相关研究，最近也提出了一些算法。比如针对电动汽车的流行，部分学者提出一种新的框架来解决电动汽车车队调度问题和利用电动汽车进行取货和送货的服务；一部分人提出一种独特的神经网络整合了为取货和送货问题定制的异质注意力机制；一部分人提出一个双阶段框架，将图分配和基于注意力的DRL结合，最小化卡车，拖车和客户之间的距离；一部分人提出一种有效的神经领域搜索PDSTP，制作一个综合多种特征的注意力模型，通过编码器—解码器架构的增强，可以自主学习节点对操作，并采用强化学习算法进行训练，训练结果甚至在更多约束的情况下超过了著名的LKH3求解器。尽管DRL解决组合优化问题取得了一些成果，但大多数基于DRL为基础的解决方案只能处理典型的VRP问题，处理PDTSP中配对和优先级关系不太有效。同时现有技术大多数是提高解的多样性和解空间大小，但是这类方法大大增加了运算时间，且不能保证搜索到的解的质量。

发明内容

针对上述现有技术中的不足，本发明供一种基于历史信息嵌入的取送货路径规划方法及系统，能够有效地在减少运算时间的同时，获得高质量的取送货路径规划结果。

为实现上述目的，本发明提供一种基于历史信息嵌入的取送货路径规划方法，基于训练完成的深度强化学习模型进行取送货路径规划，其包括如下步骤：

步骤1，将起点、取货节点与送货节点的坐标作为节点特征，并随机生成个取送货路径规划的规划结果存入精英档案，其中，所述取货节点与所述送货节点一一对应；

步骤2，将当前所述精英档案中最优的规划结果作为当前规划结果，并将所述起点、所述取货节点与所述送货节点在所述当前规划结果中的索引作为节点位置特征；

步骤3，对所述节点特征进行线性投影得到节点特征嵌入，对所述节点位置特征进行循环位置编码得到节点位置嵌入，并将所述节点特征嵌入与所述节点位置嵌入进行整合得到增强节点嵌入；

步骤4，将所述增强节点嵌入与所述精英档案中的所有规划结果结合生成历史节点嵌入，并对所述历史节点嵌入进行增强处理，得到精炼节点嵌入；

步骤5，基于所述精炼节点嵌入，在当前规划结果的基础上进行节点对的移除与重新插入，得到第一新规划结果，其中，所述节点对包括一组对应的取货节点与送货节点；

步骤6，在所述第一新规划结果的基础上进行节点的移除与重新插入，得到个第二新规划结果；

步骤7，筛选出所述第一新规划结果、所有所述第二新规划结果与所述精英档案中的所有规划结果中最优的个，并更新所述精英档案；

步骤6，判断是否满足迭代终止条件：

若是，将当前所述精英档案中最优的规划结果作为最优取送货路径规划结果，并输出；

否则，返回步骤2。

为实现上述目的，本发明还提供一种基于历史信息嵌入的取送货路径规划系统，所述取送货路径规划系统包括：

初始解生成单元，用于随机生成个取送货路径规划的规划结果存入精英档案；

特征转换单元，用于将起点、取货节点与送货节点的坐标作为节点特征，以及将起点、取货节点与送货节点在当前规划结果中的索引作为节点位置特征，其中，取货节点与送货节点一一对应；

编码器，用于对节点特征进行线性投影得到节点特征嵌入，对节点位置特征进行循环位置编码得到节点位置嵌入，并将节点特征嵌入与节点位置嵌入进行整合得到增强节点嵌入；

精炼器，用于将增强节点嵌入与精英档案中的解决方案结合生成历史节点嵌入，并对历史节点嵌入进行增强处理，得到精炼节点嵌入；

解码器，用于基于精炼节点嵌入，在当前取送货路径规划结果的基础上进行节点对的移除与重新插入，得到第一新规划结果，其中，节点对包括一组对应的取货节点与送货节点；

精英档案更新单元，用于在第一新规划结果的基础上进行节点的移除与重新插入，得到个第二新规划结果，并筛选出第一规划结果、所有第二新规划结果与精英档案中的所有规划结果中最优的/>个，更新精英档案；

结果输出单元，用于判断是否满足迭代终止条件，并在满足迭代终止条件时将当前精英档案中最优的规划结果作为最优取送货路径规划结果并输出，以及在不满足迭代终止条件时继续迭代。

与现有技术相比，本发明具有如下有益技术效果：

1.本发明分别基于节点的坐标以及在取送货路径规划结果中的索引生成节点特征嵌入与节点位置嵌入，并联合节点特征嵌入与节点位置嵌入得到增强节点嵌入，并从精英档案中的规划结果中提取动态图拓扑信息，结合增强节点嵌入得到精炼节点嵌入，最后再通过精炼节点嵌入完成取送货路径规划结果中节点对的移除与重新插入，实现取送货路径规划结果的迭代更新；

2.本发明在利用网络模型对规划结果进行更新后，再以成本和出现次数为依据，对更新后的规划结果进行样本扩充，进而给予网络模型更多的建议，这样网络模型在后续的迭代中会发现部分节点在某个位置出现次数多，同时方案成本更低，从而可以在更新的时候优先将这部分节点确认在这些位置，再去考虑别的节点对位置，加快计算过程的收敛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1中取送货路径规划方法的流程图；

图2为本发明实施例1中深度强化学习模型进行取送货路径规划的框架流程图；

图3为本发明实施例1中的解决方案示例图，其中：(a)为解决方案一的示例图，(b)为解决方案二的示例图；

图4为本发明实施例1中的节点特征和节点位置特征示意图，其中：(a)为当前取送货路径规划结果示意图，(b)为节点特征示意图，(c)为节点位置特征示意图；

图5为本发明实施例1中深度强化学习模型对取送货路径规划结果进行一次迭代的框架流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接，还可以是物理连接或无线通信连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1所示为本实施例公开的一种基于历史信息嵌入的取送货路径规划方法，该方法主要基于训练完成的深度强化学习模型进行取送货路径规划，其包括如下步骤：

步骤1，将起点、取货节点与送货节点的坐标作为节点特征，并随机生成个取送货路径规划的规划结果存入精英档案，其中，取货节点与送货节点一一对应；

步骤2，将当前精英档案中最优的规划结果作为当前规划结果，并将起点、取货节点与送货节点在当前规划结果中的索引作为节点位置特征；

步骤3，对节点特征进行线性投影得到节点特征嵌入，对节点位置特征进行循环位置编码得到节点位置嵌入，并将节点特征嵌入与节点位置嵌入进行整合得到增强节点嵌入；

步骤4，将增强节点嵌入与精英档案中的所有规划结果结合生成历史节点嵌入，并对历史节点嵌入进行增强处理，得到精炼节点嵌入；

步骤5，基于精炼节点嵌入，在当前规划结果的基础上进行节点对的移除与重新插入，得到第一新规划结果，其中，节点对包括一组对应的取货节点与送货节点；

步骤6，在第一新规划结果的基础上进行节点的移除与重新插入，得到个第二新规划结果；

步骤7，筛选出第一新规划结果、所有第二新规划结果与精英档案中的所有规划结果中最优的个，并更新精英档案；

步骤8，判断是否满足迭代终止条件：

若是，将当前精英档案中最优的规划结果作为最优取送货路径规划结果，并输出；

否则，返回步骤2。

本实施例中的深度强化学习模型采用编码器-精炼器-解码器架构作为基本框架，从当前解决方案(即当前规划结果)中提取节点特征和节点位置特征，转换为节点特征嵌入和节点位置嵌入，再将节点特征嵌入和节点位置嵌入分别在基于注意力模型设计的编码器中学习和整合，获得新的增强节点嵌入。增强节点嵌入通过和精英档案中的历史信息(即精英档案中的规划结果)结合，生成历史节点嵌入，放入到精炼器网络中进行进一步增强，得到精炼节点嵌入。再将精炼后的精炼节点嵌入提供给移除解码器和重新插入解码器，根据概率分布移除和重新插入节点对，获得新的解决方案(即第一新规划结果)，例如图2所示，当前取送货路径规划结果为，经过一轮步骤2至步骤5的计算后，得到的新取送货路径规划结果为/>，图2中，0为起点，为一组对应的取货、送货阶段对，/>为另一组对应的取货、送货阶段对。

本实施例中，对需要求解的取送货路径规划问题作出如下定义：

中，/>代表取送货路径规划问题中的节点，和/>分别代表取货节点和送货节点，/>为第/>个节点(既可以是取货节点，也可是送货节点)，/>代表起点，/>代表节点对的数量。/>表示取送货路径规划问题的解决方案，即取送货路径规划结果。因为解决方案一定是一个循环序列，所以解决方案/>在最后需要返回起点（即/>）。如图3(a)所示，解决方案一从起点出发，不重复经过所有节点，且完成所有配送订单后返回。而图3(b)的解决方案二中，车辆取得第一个取货点的货物后，到达了第二个送货点，但车辆中并没有给第二个送货客户的货物，这种没有满足取货优先于送货约束的方案是不可取的。

马尔可夫决策过程包含状态/>、动作/>、奖励/>，状态转移/>四个重要的元素，本实施例中定义对马尔可夫决策过程定义如下：

状态包含了节点特征、节点位置特征、历史动作和当前最优方案的目标值。如图4(a)所示的当前规划结果，节点特征为节点的坐标，即图4(b)所示；节点位置特征/>为节点在当前规划结果序列中的索引，即图4(c)所示；/>代表前序/>时刻所进行的/>个动作，/>为当前精英档案中的最优规划结果，/>为最优规划结果的目标值，即取送货路径规划问题的总成本(例如总行驶距离、总油耗或总时间等)，目标值越小，代表找到了成本更小且更优的规划结果；

动作包含了需要移除和重新插入的节点对/>，在节点对被选择后，将移除节点/>分别插入节点/>、/>的后面；

奖励，即利用即刻减少成本来计算，如果当前时刻解决方案目标值大于当前最优解决方案，则/>，反之则/>，即当前时刻奖励等于即刻减少成本，通过给予奖励，鼓励智能体找到更优的解决方案，同时累计奖励等于初始解决方案的总成本，意味着累计奖励越大，规划结果成本越少；

状态转移的过程是确定的，当前状态在经过/>中的节点对操作后，更新下一状态；

折扣因子用于确定训练注重当前短期奖励，还是更注重长期未来的奖励。

如图5所示，本实施例中深度强化学习模型对取送货路径规划结果进行一次迭代的过程具体为：

首先，从当前精英档案中最优的规划结果提取节点特征和节点位置特征；

然后，分别采用线性投影和循环位置编码的方式获得节点特征嵌入和节点位置嵌入；

之后，将节点特征嵌入和节点位置嵌入分别在基于注意力机制模型设计的编码器中学习和整合，获得新的增强节点嵌入；

然后，增强节点嵌入通过和当前精英档案中的动态图拓扑特征结合，生成历史节点嵌入，放入到精炼器网络中的门控循环单元，进行历史信息的提取和记忆，输出结果再与增强节点嵌入一起输入到精炼器网络中的门控非线性层，自适应的改进增强特征嵌入，进行更多探索，得到精炼节点嵌入；

之后，将精炼后的精炼节点嵌入提供给移除解码器和重新插入解码器，根据概率分布移除和重新插入节点对，获得第一新解决方案；

最后，在第一新规划结果的基础上进行节点的移除与重新插入，得到个第二新规划结果，再筛选出第一新规划结果、所有第二新规划结果与精英档案中的所有规划结果中最优的/>个，更新精英档案。

本实施例在具体实施过程中，节点特征通过线性投影获得维度/>的节点特征嵌入/>，节点位置特征/>通过循环位置编码获得同样维度的节点位置嵌入/>，/>、/>分别为节点/>对应的节点特征嵌入和节点位置嵌入，即/>。其中，循环位置编码具体采用基于格雷码设计的循环位置编码，其能够获得邻接相似性与循环性，每个数字都包含一个具有反射对称性的周期循环，数字越大，周期越长等需要在解决方案中表现出的特性。循环位置编码的过程具体为：

；

其中，为节点/>在第/>个维度上的节点位置嵌入，/>；/>为角速度，标量/>可以在生成的图案中以线性间隔设置/>个节点，/>为循环周期，/>为波长。为了更好的保持想要的循环特性和相邻相似性，角速度通过/>减小，让波长/>在范围内增长，且波长的后半部分设置为/>。

在编码器中，将节点特征嵌入与节点位置嵌入进行整合得到增强节点嵌入的过程具体为：

步骤3.1，基于节点特征嵌入计算多头自注意力分数，为：

；

其中，为节点/>对应的节点特征嵌入，/>为节点特征嵌入/>对应节点特征嵌入/>的多头自注意力分数，/>、/>为可训练矩阵，/>为矩阵的转置，表示节点特征嵌入的维度，/>为可训练参数矩阵的列大小，/>为节点特征嵌入与节点位置嵌入的维度，/>为注意力层的头数；

步骤3.2，基于节点位置嵌入计算多头辅助注意力分数，为：

；

其中，为节点/>对应的节点位置嵌入，/>为节点位置嵌入/>对应节点位置嵌入/>的多头辅助注意力分数，/>、/>为可训练矩阵，/>表示节点位置嵌入的维度；

步骤3.3，将多头自注意力分数与多头辅助注意力分数输入到多层感知器网络MLP，计算第一综合注意力分数，为：

；

其中，为节点/>对应节点/>的第一综合注意力分数，/>表示多层感知器网络MLP，MLP可用作特征提取器，将原始数据转换为更具代表性的特征表示，从而提高模型的表示能力和性能，且MLP的隐层通过激活函数引入非线性，这使其能够捕捉数据中的复杂模式和非线性关系；

步骤3.4，将综合注意力分数通过Softmax层进行归一化后得到第一注意力权重，再利用注意力权重计算每个头的注意力值，最后进行拼接得到新的节点嵌入，并利用残差连接层、标准化层和前馈神经网络层对新的节点嵌入进行进一步增强，残差连接层可以将底部特征直接传递到更高的级别，提供更多上下文信息到注意力模型中，有助于最小化信息损失和避免梯度消失。标准化层可以提高训练的稳定性和加速收敛，降低梯度爆炸和消失的风险。前馈神经网络中的非线性转换可以帮助模型捕捉输入内容中的非线性模式和关系，提取到更深层次的特征和提供更好的特征表示，最终即可得到增强节点嵌入，为：

；

其中，为节点/>在第/>个头的注意力值，/>为取货节点与送货节点的总数，表示Softmax层的归一化处理，/>为节点/>对应的增强节点嵌入，/>表示对括号内的元素进行拼接，/>、/>为可训练矩阵，/>为可训练矩阵的列大小。

在通过编码器获得增强节点嵌入后，首先从精英档案中提取动态图拓扑信息，动态图拓扑信息包括精英档案中各个规划结果内每两节点间的距离和每个节点出现在每个索引位置的次数概率分布。并将动态图拓扑信息与增强节点嵌入结合生成历史节点嵌入，其具体实施过程为：

步骤4.1，基于增强节点嵌入计算询问特征与关键特征，为：

；

其中，、/>分别为节点/>、节点/>对应的增强节点嵌入，/>为节点/>对应的询问特征，/>为节点/>对应的关键特征，/>、/>为可训练矩阵；

步骤4.2，基于询问特征与关键特征，利用FFT（一个三层的前馈神经网络和ReLU激活函数）分别计算距离注意力分数与概率分布注意力分数，为：

；

其中，为当前精英档案中第/>个规划结果所对应的节点/>关于节点/>的距离注意力分数，/>为当前精英档案中第/>个规划结果所对应的节点/>关于节点/>的概率分布注意力分数，/>为节点/>与节点/>间的距离，/>为节点/>在当前精英档案中出现在每个索引位置的次数概率分布；/>为二元变量，当前精英档案中第/>个规划结果中节点/>与节点/>间具有连线时/>，否则/>；/>表示一个三层的前馈神经网络和ReLU激活函数；

步骤4.3，将距离注意力分数与概率分布注意力分数输入到多层感知器网络进行结合，得到第二综合注意力分数，为：

；

其中，为当前精英档案中第/>个规划结果所对应节点/>关于节点/>的第二综合注意力分数，/>为/>个距离注意力分数，/>为/>个概率分布注意力分数；

步骤4.4，基于所述第二综合注意力分数与当前精英档案中的所有规划结果生成历史节点嵌入，具体包括：

首先，基于第二综合注意力分数计算得到第二注意力权重，为：

；

其中，为当前精英档案中第/>个规划结果所对应节点/>关于节点/>的第二注意力权重，/>为可训练矩阵；

然后，为了减去成本对高质量解决方案的影响，用第二注意力权重除以方案成本获得新的权重，即基于第二注意力权重与取送货路径规划的历史解计算得到第三注意力权重，为：

；

其中，为节点/>关于节点/>的第三注意力权重，/>为当前精英档案中第/>个规划结果对应的成本；

之后，将节点关于所有节点的第三注意力权重/>通过softmax标准化，得到第四注意力权重/>；

最后，基于第四注意力权重与节点特征嵌入计算得到历史节点嵌入，为：

；

其中，为节点/>对应的历史节点嵌入。

在得到历史节点嵌入后，即可通过精炼器的门控循环单元提取和记忆历史节点嵌入的全局历史信息，得到记忆节点嵌入。门控循环单元中包含重置门和更新门，重置门用于选择忘记上一时刻隐藏状态/>的信息，更新门/>控制上一时刻隐藏状态有多少转移到新的状态，再收集新输入的部分信息/>，形成新的记忆节点嵌入，其具体实施过程为：

；

其中，、Tanh表示Sigmoid函数和Tanh函数，/>、/>、/>为权重矩阵，/>为当前记忆状态，/>为节点/>对应的记忆节点嵌入。

在得到记忆节点嵌入后，在通过精炼器的门控非线性层得到精炼节点嵌入。门控非线性层的结构与门控循环单元类似，是一个自适应特征神经网络组件，可促进架构内的选择性信息流。详细的说，门控非线性层的吸收门利用Sigmoid函数将门控循环单元输出的新的指导信息进行吸收，同时保留门/>用Sigmoid函数保留编码器输出的增强节点嵌入中想要保留的属性。随后利用非线性激活函数处理新的指导信息，并利用线性结合将部分新指导信息和保留部分原始属性的增强嵌入结合，得到精炼节点嵌入，其具体实施过程为：

；

其中，为吸收新信息的节点特征嵌入，/>为权重矩阵。

在得到精炼节点嵌入，即可在解码器中利用移除解码器与重新插入解码器在当前取送货路径规划结果的基础上进行节点对的移除与重新插入，得到新取送货路径规划结果。

在移除解码器中，利用一个最大池化层将全局表示整合出单一嵌入，接着利用状态中的历史动作，计算每个节点与其相邻节点的亲密度，以节点为例，其与相邻前节点、相邻后节点/>的亲密度/>为：

；

其中，、/>、/>分别为节点/>、/>、/>的精炼节点嵌入，/>、为可训练参数矩阵；

然后，基于各个节点的亲密度，计算得到每一组节点对的移除分数，为：

；

其中，为节点对/>的移除分数，/>表示多层感知器层，为节点对/>中取货节点/>的/>头亲密度，/>为节点对中送货节点/>的/>头亲密度，/>为节点对/>在前序/>个历史解中被选作移除节点对的次数，/>是一个二元变量，用于表示最近/>次迭代有无选择作为移除的节点对，若有着/>，否则/>；

再然后，利用一个激活函数层对移除分数进行非线性处理，即，来控制熵/>和屏蔽不可行的节点对，将移除分数/>转换为非线性的；

最后，将移除分数通过Softmax层标准化似然值，得到节点对的移除概率分布，再选择移除概率最大的一组节点对，并将其从当前取送货路径规划结果中移除。

在重新插入解码器中，首先获取当前取送货路径规划结果移除节点对后的节点序列，计算节点序列中各个节点接受移除节点对中两个节点作为相邻后节点的插入分数，为：

；

其中，为节点/>接受另一个节点/>作为其前相邻节点的偏好程度，/>为节点/>接受另一个节点/>作为其后相邻节点的偏好程度，/>为移除节点对/>中的取货节点/>插入至节点/>的后相邻位置、送货节点/>插入至节点/>的后相邻位置的插入分数，/>表示多层感知器层，/>表示/>个头内取货节点/>作为/>(节点/>的后者)的前置节点的分数，/>表示/>个头内送货节点/>作为/>(节点/>的后者)的前置节点的分数，表示/>个头内取货节点/>作为节点/>的后继节点的分数，表示/>个头内送货节点/>作为节点/>的后继节点的分数；

在得到插入分数后，与移除解码器相同，对插入分数进行非线性处理，并通过Softmax层标准化似然值，得到节点的插入概率分布，并将移除节点对中两个节点分别插入节点序列中插入概率最大值所对应节点的后相邻位置，即得到新取送货路径规划结果。

本实施例在步骤6的具体实施过程中，在第一新规划结果的基础上进行节点的移除与重新插入，得到个第二新规划结果的过程具体为：

步骤6.1，定义上一次步骤5中重新插入的节点对为、/>，其中，/>为取货节点，/>为送货节点；

步骤6.2，定义所述第一新规划结果中：位于节点前一个的节点为/>，位于节点后一个的节点为/>，位于节点/>前一个的节点为/>，位于节点/>后一个的节点为/>，值得注意的是，节点/>、节点/>、节点/>、节点/>中可能存在与节点/>或/>重复的节点，节点/>、节点/>、节点/>、节点/>之间也可能存在重复的节点或起点；

步骤6.3，提取所述第一新规划结果中除起点、节点、节点/>、节点/>、节点/>、节点/>、节点/>以外的所有节点，并定义为候选节点；

步骤6.4，根据每个候选节点在所有迭代次的步骤5中被移除与重新插入次数的降序进来排列，得到候选节点序列，其中，对于被移除与重新插入次数相同的两个节点则随机排序；

步骤6.5，定义所述候选节点序列中的第1个节点为；

步骤6.6，将节点从所述第一新规划结果中移除，得到不包含节点/>的规划结果序列；

步骤6.7，根据取货节点在送货节点之前以及拒绝原位插入的原则，遍历节点在所述规划结果序列中的所有插入方案，得到若干第二新规划结果；

步骤6.8，判断当前第二新规划结果的数量是否达到或超过个：

若是，随机选择个第二新规划结果，并输出；

否则，将节点从所述候选节点序列剔除后，返回步骤6.5。

本实施例在步骤8的具体实施过程中，迭代终止条件具有多种实施方式，例如：可将迭代次数超过设定阈值设定为迭代终止条件，或者将作为目标函数值的成本收敛设定为迭代终止条件，还可以将迭代次数超过设定阈值且作为目标函数值的成本收敛设定为迭代终止条件。其中，作为目标函数值的成本收敛指的是，在连续多次(例如10次)迭代中，每次得到的新取送货路径规划结果对应的成本(总行驶距离、总油耗或总时间等)与前一次新取送货路径规划结果对应的成本之前的差值都小于设定的精度阈值，即代表作为目标函数值的成本收敛。

本实施例中，深度强化学习模型的训练部分采用演员-批判（Actor-Critic）架构的近端策略优化算法（Proximal Policy Optimization，PPO），actor网络即进行本实施例中步骤2至步骤6的取送货路径规划结果更新策略，critic网络将更新策略中的嵌入通过多头注意力层增强，再利用一个平均池化层整合所有特征的全局表示，再经过一个四层的前馈神经网络得到输出。训练中每一批次利用了课程学习策略提高解的质量，最后通过剪辑的方式缩小策略更新的差距，避免过度更新。相对于普通的深度强化学习模型，首先分别学习特征嵌入，可以避免产生噪音和混合相关性。其次精炼器的加入，提供历史解决方案的信息作为参考由于模型有限的解搜索能力，相比于增加解的数量，精炼器更能够搜索到优质的解决方案。至于利用演员-批判架构训练深度强化学习模型的具体实施过程则为本领域的常规技术手段，本实施例不再对其进行赘述。

实施例2

基于实施例1中的取送货路径规划方法，本实施例公开了一种基于历史信息嵌入的取送货路径规划系统。该取送货路径规划系统包括初始解生成单元、特征转换单元、编码器、精炼器、解码器、精英档案更新单元与结果输出单元。该取送货路径规划系统用于执行实施例1中取送货路径规划方法的部分或全部步骤，进而实现取送货路径规划。具体地：

初始解生成单元用于随机生成个取送货路径规划的规划结果存入精英档案；

特征转换单元用于将起点、取货节点与送货节点的坐标作为节点特征，以及将起点、取货节点与送货节点在当前规划结果中的索引作为节点位置特征，其中，取货节点与送货节点一一对应；

编码器用于对节点特征进行线性投影得到节点特征嵌入，对节点位置特征进行循环位置编码得到节点位置嵌入，并将节点特征嵌入与节点位置嵌入进行整合得到增强节点嵌入；

精炼器用于将增强节点嵌入与精英档案中的解决方案结合生成历史节点嵌入，并对历史节点嵌入进行增强处理，得到精炼节点嵌入；

解码器用于基于精炼节点嵌入，在当前取送货路径规划结果的基础上进行节点对的移除与重新插入，得到第一新规划结果，其中，节点对包括一组对应的取货节点与送货节点；

精英档案更新单元用于在第一新规划结果的基础上进行节点的移除与重新插入，得到个第二新规划结果，并筛选出第一规划结果、所有第二新规划结果与精英档案中的所有规划结果中最优的/>个，更新精英档案；

结果输出单元用于判断是否满足迭代终止条件，并在满足迭代终止条件时将当前精英档案中最优的规划结果作为最优取送货路径规划结果并输出，以及在不满足迭代终止条件时继续迭代。

本实施例中，初始解生成单元、特征转换单元、编码器、精炼器、解码器、精英档案更新单元与结果输出单元的具体工作过程以及工作原理均与实施例1中的方法相同，因此本实施例中不再对其进行赘述。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于历史信息嵌入的取送货路径规划方法，其特征在于，基于训练完成的深度强化学习模型进行取送货路径规划，其包括如下步骤：

所述历史节点嵌入的生成过程为：

步骤4.1，基于所述增强节点嵌入计算询问特征与关键特征，为：

步骤4.2，基于所述询问特征与所述关键特征，分别计算距离注意力分数与概率分布注意力分数，为：

其中，为当前精英档案中第/>个规划结果所对应的节点/>关于节点/>的距离注意力分数，/>为当前精英档案中第/>个规划结果所对应的节点/>关于节点/>的概率分布注意力分数，/>为节点/>与节点/>间的距离，/>为节点/>在当前精英档案中出现在每个索引位置的次数概率分布；/>为二元变量，当前精英档案中第/>个规划结果中节点/>与节点/>间具有连线时，否则/>；/>表示一个三层的前馈神经网络和ReLU激活函数；

步骤4.3，将所述距离注意力分数与所述概率分布注意力分数输入到多层感知器网络计算第二综合注意力分数，为：

步骤4.4，基于所述第二综合注意力分数与当前精英档案中的所有规划结果生成历史节点嵌入，具体为：

基于所述第二综合注意力分数计算得到第二注意力权重，为：

其中，为当前精英档案中第/>个规划结果所对应节点/>关于节点/>的第二注意力权重，为可训练矩阵；

基于所述第二注意力权重与当前精英档案中的所有规划结果计算得到第三注意力权重，为：

将节点关于所有节点的第三注意力权重/>通过softmax标准化，得到第四注意力权重/>；

基于第四注意力权重与节点特征嵌入计算得到历史节点嵌入，为：

其中，为节点/>对应的历史节点嵌入；

步骤8，判断是否满足迭代终止条件：

否则，返回步骤2。

2.根据权利要求1所述的基于历史信息嵌入的取送货路径规划方法，其特征在于，步骤3中，将所述节点特征嵌入与所述节点位置嵌入进行整合得到增强节点嵌入的过程为：

步骤3.1，基于所述节点特征嵌入计算多头自注意力分数，为：

其中，为节点/>对应的节点特征嵌入，/>为节点/>对应的节点特征嵌入，/>为节点特征嵌入/>对应节点特征嵌入/>的多头自注意力分数，/>、/>为可训练矩阵，/>为矩阵的转置，/>为可训练矩阵的列大小，/>为节点特征嵌入与节点位置嵌入的维度，/>为头数；

步骤3.2，基于所述节点位置嵌入计算多头辅助注意力分数，为：

其中，为节点/>对应的节点位置嵌入，/>为节点/>对应的节点位置嵌入，/>为节点位置嵌入/>对应节点位置嵌入/>的多头辅助注意力分数，/>、/>为可训练矩阵；

步骤3.3，将所述多头自注意力分数与所述多头辅助注意力分数输入到多层感知器网络计算第一综合注意力分数，为：

其中，为节点/>对应节点/>的第一综合注意力分数，/>表示多层感知器网络；

步骤3.4，将所述综合注意力分数通过Softmax层进行归一化后得到第一注意力权重，再利用注意力权重计算每个头的注意力值，最后进行拼接得到增强节点嵌入，为：

其中，为节点/>在第/>个头的注意力值，/>为起点、取货节点与送货节点的总数，表示Softmax层的归一化处理，/>为节点/>对应的增强节点嵌入，/>表示对括号内的元素进行拼接，/>、/>为可训练矩阵。

3.根据权利要求1或2所述的基于历史信息嵌入的取送货路径规划方法，其特征在于，步骤4中，所述精炼节点嵌入的计算过程为：

基于门控循环单元提取和记忆历史节点嵌入的全局历史信息，得到记忆节点嵌入，为：

其中，为节点/>对应的历史节点嵌入，/>、/>为重置门和更新门，/>为上一时刻隐藏状态，/>、tanh表示sigmoid函数和tanh函数，/>、/>、/>为权重矩阵，/>为当前记忆状态，/>为节点/>对应的记忆节点嵌入；

将所述记忆节点嵌入输入门控非线性层，得到精炼节点嵌入，为：

其中，为吸收新信息的节点特征嵌入，/>为权重矩阵，/>为节点/>对应的节点特征嵌入，/>为门控非线性层的吸收门，/>为门控非线性层的保留门，/>为节点/>对应的精炼节点嵌入。

4.根据权利要求1或2所述的基于历史信息嵌入的取送货路径规划方法，其特征在于，步骤5中，在当前取送货路径规划结果的基础上进行节点对的移除具体为：

基于精炼节点嵌入，计算得到每个节点与其相邻前节点与相邻后节点的亲密度；

基于各个节点的亲密度，计算得到每一组节点对的移除分数，对移除分数进行非线性处理，并通过Softmax层标准化似然值，得到节点对的移除概率分布；

选择移除概率最大的一组节点对，并将其从当前取送货路径规划结果中移除。

5.根据权利要求4所述的基于历史信息嵌入的取送货路径规划方法，其特征在于，步骤5中，节点对的重新插入过程为：

获取当前取送货路径规划结果移除节点对后的节点序列，计算节点序列中各个节点接受移除节点对中两个节点作为相邻后节点的插入分数；

对插入分数进行非线性处理，并通过Softmax层标准化似然值，得到节点的插入概率分布，并将移除节点对中两个节点分别插入节点序列中插入概率最大值所对应节点的后相邻位置，即得到新取送货路径规划结果。

6.根据权利要求5所述的基于历史信息嵌入的取送货路径规划方法，其特征在于，步骤6中，在第一新规划结果的基础上进行节点的移除与重新插入，得到个第二新规划结果的过程具体为：

步骤6.2，定义所述第一新规划结果中：位于节点前一个的节点为/>，位于节点/>后一个的节点为/>，位于节点/>前一个的节点为/>，位于节点/>后一个的节点为/>；

步骤6.5，定义所述候选节点序列中的第1个节点为；

若是，随机选择个第二新规划结果，并输出；

否则，将节点从所述候选节点序列剔除后，返回步骤6.5。

7.根据权利要求1或2所述的基于历史信息嵌入的取送货路径规划方法，其特征在于，步骤8中，所述迭代终止条件具体为：

迭代次数超过设定阈值；或

作为目标函数值的成本收敛；或

迭代次数超过设定阈值，且作为目标函数值的成本收敛。

8.一种基于历史信息嵌入的取送货路径规划系统，其特征在于，采用权利要求1至7任一项所述的取送货路径规划方法，所述取送货路径规划系统包括：