CN117236541A

CN117236541A - 基于注意力指针网络的分布式物流配送路径规划方法及系统

Info

Publication number: CN117236541A
Application number: CN202311261606.6A
Authority: CN
Inventors: 李冠涛; 郭春生; 应娜; 杨萌
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-15

Abstract

本发明公开了一种基于注意力指针网络的分布式物流配送路径规划方法及系统，本发明方法包括如下步骤：S1.建立分布式物流配送路径规划问题的数学模型；S2.构造基于注意力指针网络的总体网络模型；S3.初始化网络训练参数，将设置好的若干批次的问题实例数据输入；S4.注意力层结合解码器中的隐状态计算出下一时刻动作的概率分布。概率分布结合当前时刻状态，由网络做出动作决策；S5.执行决策的动作，记录路径轨迹并更新环境状态，对同一批次内的问题实例进行重复；S6.使用路径轨迹计算奖励，再用奖励计算梯度，并使用梯度更新网络参数，每一批次问题实例重复直到训练结束；S7.保存训练好的模型，并使用其求解新的问题实例，输出路径规划的解。

Description

基于注意力指针网络的分布式物流配送路径规划方法及系统

技术领域

本发明属于车辆路径规划技术领域，尤其涉及一种基于注意力指针网络的分布式物流配送路径规划方法及系统。

背景技术

在物流运输过程中，运输的距离和时长占运输成本很大比重，也就是说运输路径选择的合理性是影响运输成本的重要因素。路径优化则是根据不同的策略提升运输路径选择合理性的重要技术之一。目前，很多学者针对车辆路径规划提出了不同算法。目前常见的算法有传统的启发式算法和基于强化学习的规划算法等。基于强化学习的规划算法具有求解速度快和求解质量高等优点。但其存在一个明显缺点，训练后的模型无法用于分布式物流配送路径规划问题模型上，即具有局限性。

进一步地，分布式物流配送路径规划问题类似于一对一取送货车辆路径规划问题。指物流配送过程中的货物接收和货物配送分布在不同的物流节点中，同时取货节点与配送节点之间是确定的一对一关系，也就是说一个配送节点只能从一个取货节点取货，一个取货节点只能服务于一个配送节点，同时分布式物流配送路径规划问题允许车辆在使路程更短的情况下，先收取多个客户的货物再进行统一配送。而传统车辆路径规划问题是一取多送的模式，即从仓库出发到每个客户目的地进行货物分发的模式。

发明内容

为解决背景技术中提到现有技术的不足，本发明提供了一种基于注意力指针网络的分布式物流配送路径规划方法及系统。

为了实现上述目的，本发明采用以下技术方案：

基于注意力指针网络的分布式物流配送路径规划方法，其按如下步骤进行：

S1.以总行驶距离为优化目标，建立分布式物流配送路径规划问题的数学模型；车辆路径规划问题是指在给定一组地点或任务以及一组车辆的情况下，找到一种最优的方式来分配任务并规划车辆的路径，以最小化总成本或总行驶距离。而分布式物流配送路径规划问题指物流配送过程中的货物接收和货物配送分布在不同的物流节点中，同时取货节点与配送节点之间是确定的一对一关系，也就是说一个配送节点只能从一个取货节点取货，一个取货节点只能服务于一个配送节点。

S2.以Actor-Critic模型构造总网络。注意力指针网络作为Actor网络，包括嵌入层、解码器和注意力层。设置训练轮数并确定用于训练的问题实例，包含坐标位置信息和货物需求量；

S3.初始化Actor网络参数和Critic网络参数，将设置好的一个批次的问题实例数据输入注意力指针网络的嵌入层中处理；

S4.使嵌入输入全连接到注意力层，注意力层结合解码器中的隐状态计算出下一时刻动作的概率分布。概率分布结合当前时刻状态，由Actor网络做出动作决策；

S5.执行决策的动作，记录路径轨迹并更新环境状态，返回执行步骤S4(即重复步骤S4和S5)直到运行完一个批次的问题实例；

S6.使用路径轨迹计算奖励，再用奖励计算梯度，并使用梯度更新网络参数，每一批次问题实例按步骤S3、S4、S5、S6重复直到完成设置的训练轮数；

S7.保存训练好的模型，并使用其求解新的问题实例，输出路径规划的解。

进一步的，所述步骤S1中，数学模型的基本假设建立如下：

(1)关注区域内不含配送中心，客户节点分成取货节点和配送节点，取货节点与配送节点之间是一对一的关系；

(2)送货车辆在区域内的随机一点出发完成对各个客户节点的服务，服务方式为先取货后送货；

(3)订单信息在送货车辆出发前已经确定，给定客户节点的坐标及货物供给或需求量；

(4)在配送过程中，订单均可一次取货或配送成功，配送订单需求不可拆分，即每个客户节点只能被访问一次。单一客户需求不超过车辆最大容量；

(5)一辆车可以同时配送多个顾客，但途经的客户节点的总需求量要小于车辆的最大载重。

优化目标可以表示为：

在该模型中优化目标为最大化收益，表示为加权的配送过程中所有收取的货物数量减去加权的车辆在收取与配送过程中行驶的总距离。其中α，β，γ表示目标函数加权系数，V_ij代表车辆从点i到点j时车辆收取的货物总量，x_ij代表决策变量，从客户节点i行驶客户节点j为1，否则为0，M代表车辆行驶过程中同时服务的最大客户数，X_ij代表车辆从点i到点j的行驶距离。

进一步的，所述步骤S2中，对于注意力指针网络，在网络的嵌入层中，使用一维卷积层进行嵌入，将输入映射到K维向量空间，滤波器的数量是K。映射采用的是仿射变换。解码器使用了一个长短期记忆网络单元。在网络的注意力层中，使用可变长度对齐向量从输入中提取特征。h_t∈R^N代表解码步骤t中解码器的隐状态，然后对齐向量表示为a_t。问题实例中的坐标位置信息和货物需求量表示为s和d_t，其中t为解码时刻。

进一步的，所述步骤S3中，初始化Actor网络参数θ，Critic网络参数φ，将设置好的一个批次的问题实例数据输入网络的嵌入层，共B个批次，每个批次样本数为N，其中输入数据包括X＝{x¹,x²,…,x^N}，其中xⁱ为当前批次中第i个样本，其中sⁱ表示第i个样本中的位置信息，/>表示第i个样本在t时刻的货物需求量；第i个样本经过嵌入层被处理为/>其中/>表示当前批次中第i个样本在t时刻的嵌入输入，/>表示当前批次中第i个样本嵌入到K维向量空间的位置信息，/>表示当前批次中第i个样本在t时刻嵌入到K维向量空间的货物需求量。

进一步的，所述步骤S4中，v_a，v_c，W_a，W_c是可训练参数。第i个样本在t时刻的对齐向量可以由/>计算得到，其中softmax代表使用归一化指数函数，tanh代表使用双曲正弦函数，/>是可训练参数v_a的转置矩阵，“；”表示两个向量的串联；上下文向量c_t可由/>计算得到，使用softmax函数归一化，生成概率分布/>其中y_t+1代表t+1时刻的决策，Y_t是t时刻的路径轨迹，X_t是t时刻的环境状态，/>是可训练参数v_c的转置矩阵，其他部分与该段上面描述意义一致。

进一步的，所述步骤S5中，将决策动作y_t添加到序列Y中，并使用该动作与环境交互获得新状态X_t+1。对同一批次内的问题实例进行重复。

进一步的，所述步骤S6中，使用计算奖励值，其中Rⁿ代表第n个问题实例的奖励值，R(Y,X)为奖励函数，Yⁿ代表第n个问题实例的总路径轨迹，/>表示第n个问题实例的初始环境状态。使用/>计算Actor网络的梯度，其中dθ代表Actor网络的梯度，N代表每个批次样本数，Rⁿ代表第n个问题实例的奖励值，代表第n个样本的初始状态在Critic网络参数为φ情况下的状态值，后半部分则是对记录的轨迹取对数求Actor网络参数θ的偏导；使用/>计算Critic网络的梯度，其中dφ代表Critic网络的梯度，N代表每个批次样本数，Rⁿ代表第n个问题实例的奖励值，/>代表第n个样本的初始状态在Critic网络参数为φ情况下的状态值，/>则是对Critic网络参数φ求偏导；Actor网络和Critic网络都使用Adam优化器更新网络参数。

进一步的，在所述步骤S7中，经过上述训练的迭代过程，将最终训练的模型权重保存下来。

本发明还公开了一种基于注意力指针网络的分布式物流配送路径规划系统，基于上述的方法，其包括如下模块：

数学模型建立模块：以总行驶距离为优化目标，建立分布式物流配送路径规划问题的数学模型；车辆路径规划问题是指在给定一组地点或任务以及一组车辆的情况下，找到一种最优的方式来分配任务并规划车辆的路径，以最小化总成本或总行驶距离。而分布式物流配送路径规划问题指物流配送过程中的货物接收和货物配送分布在不同的物流节点中，同时取货节点与配送节点之间是确定的一对一关系，也就是说一个配送节点只能从一个取货节点取货，一个取货节点只能服务于一个配送节点；

总网络构造模块：以Actor-Critic模型构造总网络；注意力指针网络作为Actor网络，包括嵌入层、解码器和注意力层；确定用于训练的问题实例，包含坐标位置信息和货物需求量；

网络参数初始化模块：设置训练轮数并确定用于训练的问题实例，包含坐标位置信息和货物需求量；初始化Actor网络参数和Critic网络参数，将设置好的一个批次的问题实例数据输入注意力指针网络的嵌入层中处理；

动作决策产生模块：使嵌入输入全连接到注意力层，注意力层结合解码器中的隐状态计算出下一时刻动作的概率分布；概率分布结合当前时刻状态，由Actor网络做出动作决策；

动作决策执行模块：执行决策的动作，记录路径轨迹并更新环境状态；对同一批次内的问题实例进行重复；

问题实例训练模块：用路径轨迹计算奖励，用奖励计算梯度，用梯度更新网络参数，每一批次问题实例重复训练直到完成设置的训练轮数；

问题实例求解模块：保存训练好的模型，使用其求解新的问题实例，输出路径规划的解。

本发明与现有技术相比，其显著效果如下：

1.相较于启发式算法求解路径规划问题，本发明采用神经网络在训练好模型后求解时间将大大减少。客户点越多，差距越明显。

2.路径规划问题中，客户需求量是随时间变化的动态元素，为解决动态元素在传统指针网络中计算复杂的问题，本发明引入了注意力指针网络对动态元素进行处理。在网络的注意力层中，使用可变长度对齐向量从输入中提取特征。对齐向量指定每个输入数据在下一个解码步骤中的相关性。对齐向量与输入作加权和获得上下文向量。首先是对齐向量可以增大发生变化的输入的权重，使得网络更加关注发生变化的输入，其次计算对齐向量和上下文向量都使用到了输入，其引导了模型重点关注了和任务相关的有用的输入信息。

3.本发明对现有方法进行修改，延伸了适用问题范围，使得注意力指针网络也能处理分布式物流配送路径规划问题。

附图说明

图1是本发明优选实施例基于注意力指针网络的分布式物流配送路径规划方法的步骤流程图。

图2是注意力指针网络的模型图。

图3是本发明优选实施例步骤S2中基于注意力指针网络构建的结构模型图。

图4是本发明优选实施例基于注意力指针网络的分布式物流配送路径规划系统框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1：

如图1-3所示，本实施例提供了一种基于注意力指针网络的分布式物流配送路径规划方法，其具体实现流程包括如下步骤：

S11.考虑装车约束下的物流配送问题，基于车辆路径规划问题的相关理论，以总行驶距离为优化目标，建立分布式物流配送路径规划问题的数学模型。

车辆路径规划问题是指在给定一组地点或任务以及一组车辆的情况下，找到一种最优的方式来分配任务并规划车辆的路径，以最小化总成本或总行驶距离。而分布式物流配送路径规划问题指物流配送过程中的货物接收和货物配送分布在不同的物流节点中，同时取货节点与配送节点之间是确定的一对一关系，也就是说一个配送节点只能从一个取货节点取货，一个取货节点只能服务于一个配送节点。

在上述以总行驶距离为优化目标的基础上，该场景下的分布式物流配送路径规划问题数学模型所涉及的参数及其定义表示如下表。

模型的约束条件如下：

p_i≤Q(4)

s_i≤Q (5)

V_ij+Z_ij≤Qx_ij,i≠j (9)

0≤V_ij≤Q,i≠j (10)

0≤Z_ij≤Q,i≠j (11)

其中，约束(1)、(2)表示每个客户点只被访问一次。约束(3)表示车辆访问的某客户点即下次访问的离开点。约束(4)为车辆的负载约束，车辆单次接收的货物重量不得超过车辆的额定负载。约束(5)表示客户的配送需求不得超过车辆的额定负载，结合约束(1)、(2)，即模型禁止需求分割。约束(6)表示至少存在一对客户节点的取货需求和配送需求相等，取货节点与配送节点是一对一关系。约束(7)和(8)表示取货需求和配送需求于车辆的关系，保证满足客户的需求。约束(9)为容量约束，保证每段上一个客户节点到下一个客户节点的路径上的总载重量小于车辆容量。约束(10)和(11)表示参数范围。约束(12)为容量约束，表示每个客户的需求货物重量都不大于车辆额定负载；

S12.构造如图2所示的注意力指针网络，注意力指针网络包含嵌入层、解码器和注意力层，嵌入层如上所述使用一维卷积，将输入映射到K维向量空间，滤波器的数量是K；映射采用仿射变换；解码器使用了一个长短期记忆网络单元；在网络的注意力层中，使用可变长度对齐向量从输入中提取特征；h_t∈R^N代表解码步骤中解码器的隐状态，然后对齐向量表示为a_t；问题实例中的坐标位置信息和货物需求量分别表示为s和d_t，其中t为解码时刻。

解码器使用了一个长短期记忆网络单元。它有三个门：输入门、遗忘门和输出门。这些门能够控制信息流的量，并决定哪些信息应该被传递和哪些信息应该被遗忘。输入门为i_t，输出门为o_t，遗忘门为f_t。当前时间步的输入和前一个时间步的隐状态作为数据送入长短期记忆网络的门中。它们由三个具有sigmoid激活函数的全连接层处理，以计算输入门、遗忘门和输出门的值。因此，这三个门的值都在(0,1)的范围内。c_t是候选记忆元，使用tanh函数作为激活函数，所以值范围为(-1,1)。c_t是记忆元，根据输入门控制采用多少来自候选记忆元c_t的新数据和遗忘门控制采用多少来自过去时刻的记忆元c_t-1的内容来计算获得。最后解码器的隐状态h_t是输出门对c_t进行的计算，值范围在(-1,1)。输出门的值接近1，就能够有效地将所有记忆信息传递给预测部分，而对于输出门的值接近0，只保留记忆元内的所有信息，而不需要更新隐状态。计算公式如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t·tanh(c_t)

其中f_t代表遗忘门的输出，σ代表sigmoid函数，W_f和b_f代表遗忘门的网络参数，h_t-1代表t-1时刻的隐状态，x_t代表t时刻的输入；i_t代表输入门的输出，W_i和b_i代表遗忘门的网络参数；代表t时刻的候选记忆元，tanh代表tanh函数，W_c和b_c代表tanh层的网络参数；o_t代表输出门的输出，W_o和b_o代表遗忘门的网络参数；c_t代表t时刻的记忆元，c_t-1代表t-1时刻的记忆元，/>代表候选记忆元。

使用注意力指针网络构建如图3所示总网络模型；

S13.初始化Actor网络参数θ和Critic网络参数φ，批次设置为60000，每一批次128个随机问题实例，即N＝128。将设置好的问题实例数据输入注意力指针网络的嵌入层中，其中输入数据包括X＝{x¹,x²,…,x^N}，其中xⁱ为当前批次中第i个样本，第i个样本经过嵌入层被处理为/>将输入信息嵌入到高维空间。

S14.在网络的注意力层中，使用可变长度对齐向量从输入中提取特征。对齐向量指定每个输入数据在下一个解码步骤中的相关性。对齐向量与输入作加权和获得上下文向量。首先是对齐向量可以增大发生变化的输入的权重，使得网络更加关注发生变化的输入，其次计算对齐向量和上下文向量都使用到了输入，其引导了模型重点关注了和任务相关的有用的输入信息。因此，该注意力层帮助了网络关注动态元素。网络使用这些信息计算下一动作的概率，再使用这个概率决策出当前时刻的动作。

具体的，v_a，v_c，W_a，W_c是可训练参数。第i个样本在t时刻的对齐向量可以由计算得到，其中softmax代表使用归一化指数函数，tanh代表使用双曲正弦函数，/>是可训练参数v_a的转置矩阵，“；”表示两个向量的串联；上下文向量c_t可由/>计算得到，使用softmax函数归一化，生成概率分布其中y_t+1代表t+1时刻的决策，Y_t是t时刻的路径轨迹，X_t是t时刻的环境状态，/>是可训练参数v_c的转置矩阵。

S15.执行步骤S14决策的动作，将决策动作y_t添加到序列Y中，并使用该动作与环境交互获得新状态X_t+1，同时记录动作轨迹；对同一批次内的问题实例进行重复。

S16.如步骤S6中，使用计算奖励值，其中Rⁿ代表第n个问题实例的奖励值，R(Y,X)为奖励函数，Yⁿ代表第n个问题实例的总路径轨迹，/>表示第n个问题实例的初始环境状态。使用/>计算Actor网络的梯度，其中dθ代表Actor网络的梯度，N代表每个批次样本数，Rⁿ代表第n个问题实例的奖励值，/>代表第n个样本的初始状态在Critic网络参数为φ情况下的状态值，后半部分则是对记录的轨迹取对数求Actor网络参数θ的偏导；使用/>计算Critic网络的梯度，其中dφ代表Critic网络的梯度，N代表每个批次样本数，Rⁿ代表第n个问题实例的奖励值，/>代表第n个样本的初始状态在Critic网络参数为φ情况下的状态值，/>则是对Critic网络参数φ求偏导；Actor网络和Critic网络都使用Adam优化器更新网络参数。Adam优化器是一种学习速率自适应调整的梯度下降优化算法，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。其计算过程如下：

更新有偏一阶矩估计：m_t←β₁*m_t-1+(1-β₁)*g_t

更新有偏二阶矩估计：

计算偏差校正的一阶矩估计：

计算偏差校正的二阶矩估计：

更新参数：

计算梯度的指数移动平均数m_t，m₀初始化为0，类似于动量梯度优化算法。β₁为指数衰减率，控制指数移动平均数和梯度的权重，默认为0.9。其次，计算梯度平方的指数移动平均数v_t，v₀初始化为0。β₂为指数衰减率，控制梯度平方的指数移动平均数。类似于RMSProp算法，对梯度平方进行加权均值。默认为0.999。由于m₀初始化为0，在训练的前期，会导致m_t偏向于0，所以需要对m_t进行偏差校正得到同理得到/>最后进行参数更新，学习速率α在训练中取为10^-4。ε是一个足够小的数，避免除数为0，默认为10^-8。

S17.保存训练完成的模型，使用其求解新的问题实例，输出路径规划的解。

本实施例的具体思路如下：首先定义一个路径组合优化问题的输入集X，输入集中包括了客户节点和送货车辆出发节点，其中客户节点包括了取货点和送货点。每个节点都有静态元素和动态元素，以元组的形式表示。静态元素指的是节点的二维坐标信息，动态元素指的是节点的货物需求量。如果一个客户节点为取货点那么它的货物需求量为负。如果一个客户节点为送货点那么它的货物需求量为正。送货车辆出发节点的需求量设为0。本发明假设取货点和送货点成对出现，且每一对取货点和送货点所需要运输的货物尺寸不同。也就是说，一对取货点和送货点它们的需求量互为相反数。然后还对货物进行分类，一对取货点和送货点要求运输同一类货物。

得益于注意力指针网络，输入集中的动态元素可以在每个解码步骤中发生改变。例如，当送货车辆访问客户节点时，被访问的客户节点的动态元素就会发生变化。事实上，许多VRP都符合这种情况。变化的情况视乎问题的模型而定，本发明禁止需求分割的问题模型，所以每个客户节点只会被访问一次，被访问时完成需求，使其动态元素变为0。

从0时刻的输入X₀开始，本发明使用指针y₀指向该输入。在后面的每个解码时间t，y_t+1指向输入X_t。指针y_t的作用是决定下一个解码时间输入到解码器中的输入，直到满足终止条件为止。终止条件因问题模型不同而不同，本质是能否满足可行性约束条件。在本发明的工作中，问题模型的终止条件是满足所有客户节点的需求。本发明的目的是找出一个最小化损失目标同时满足问题约束的随机策略π生成路径序列Y。最优策略π^*将以概率1产生最优解序列。本发明的目标是使π尽可能的接近π^*。

由于客户点的输入顺序并不影响路径序列Y的生成，任何的随机排列都包含相同的信息，因此，在数据预处理阶段直接使用嵌入层对输入进行接收和处理。嵌入层将输入映射到一个高维空间，嵌入层的作用与其他网络模型中的编码器相同，是将环境状态的信息转换成一个固定形状的向量，这个向量可以包含关于环境状态的各种信息。这个向量可以被传递到智能体的决策模型中，以帮助智能体做出更好的决策。

在指针网络中，RNN解码器通常结合前一解码时刻的隐状态用于生成动作，将编码后的向量转换为智能体的决策输出。而在注意力指针网络中，RNN解码器的作用是使用隐状态和指针指向的输入生成下一时刻动作的概率分布，同时将这个概率分布传递到下一层中使用注意力机制计算。说明一下，这里RNN解码器的输入是指针所指向的输入信息中的静态元素。

嵌入后的输入、RNN解码器隐状态和RNN解码器生成的下一时刻动作的概率分布被输入到注意力指针网络的注意力层中。注意力层先计算对齐向量，再使用对齐向量计算出上下文向量。最后由上下文向量和嵌入输入计算得出下一时刻动作的概率分布。生成的概率分布将被传输到Actor网络中进行决策。

当智能体做出动作决策后会将动作传递到环境中与环境进行交互。环境会根据当前的状态和接收到的动作计算智能体的奖励和下一个时刻的状态。分布式物流配送路径规划的环境的状态有三大要素：一是送货车辆的装载状态；二是客户节点的需求信息；三是Mask。首先送货车辆的装载状态是对每一对取货点和送货点要求运输的货物分开计数，而不是单独计算车辆的总装载量。客户节点的需求信息是指嵌入输入中的客户节点需求量。被访问的客户节点在被满足需求后，其需求量将更新为0。Mask是一种用于将一些特定的输入数据屏蔽掉的机制。以便在下一时刻计算动作分布概率时，只考虑与当前时间步相关的信息。Mask的更新流程较前两个要素复杂，第一步先根据当前时刻动作以及上一时刻计算保存的送货车辆的装载量，计算并更新装车结果。第二步是对下一时刻可能选取到的动作进行预测计算。假如下一时刻选取到的是取货点，则结合装车结果计算剩余装载量，判断能否满足装车约束和客户点需求，若不能则将该动作通过Mask屏蔽，减小该动作的分布概率；假如下一时刻选取到的是送货点，则看送货车辆已装载货物能否满足该点需求，若不能则同样通过Mask屏蔽减小该动作的分布概率。

与环境交互完成之后，更新后的状态会传到Critic网络中结合Actor网络的动作更新权重向量，并计算出一个状态价值传给Actor网络。Actor网络在收到状态和状态价值之后，计算梯度，更新自己的权重向量然后进行下一次循环。

达到终止条件后，训练的结果以模型的形式保存。保存的模型可输入测试用例进行测试，查看训练结果。

测试例：

本实例中，客户节点和送货车辆出发节点的横纵坐标都从范围[0,1]内按均匀分布随机选择。本实例中，客户节点的需求量是在范围[1,9]内按均匀分布随机选择，而车辆出发节点的需求量设为0。生成1000个测试实例使用模型求解，分别进行贪心搜索和集束搜索输出预测结果。下表是本发明其中一个测试用例用户节点为10的分布式物流配送路径规划问题的输出解。

其中，0-9是客户节点，10是车辆出发点，货物需求为负数表示为在该点取货，正数表示为在该点卸货，最终路径只显示质量最高的解。

实施例2

如图4所示，本实施例一种基于注意力指针网络的分布式物流配送路径规划系统，基于实施例1所述的方法，其包括如下模块：

本实施例其他内容可参考实施例1。

综上，本发明基于注意力指针网络的分布式物流配送路径规划方法及系统，解决了分布式物流配送路径规划问题，加入了一对一配送的约束条件，改进了环境函数、奖励函数以及各种参数来适应该问题。最终实现了使用注意力指针网络解决分布式物流配送路径规划问题。

上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.基于注意力指针网络的分布式物流配送路径规划方法，其特征在于，包括如下步骤：

S1.以总行驶距离为优化目标，建立分布式物流配送路径规划问题的数学模型；

S2.以Actor-Critic模型构造总网络；注意力指针网络作为Actor网络，包括嵌入层、解码器和注意力层；设置训练轮数并确定用于训练的问题实例，包含坐标位置信息和货物需求量；

S4.使嵌入输入全连接到注意力层，注意力层结合解码器中的隐状态计算出下一时刻动作的概率分布；概率分布结合当前时刻状态，由Actor网络做出动作决策；

S5.执行决策的动作，记录路径轨迹并更新环境状态，返回执行步骤S4，直到运行完一个批次的问题实例；

S6.用路径轨迹计算奖励，用奖励计算梯度，用梯度更新网络参数，每一批次问题实例按步骤S3、S4、S5、S6重复直到完成设置的训练轮数；

S7.保存训练好的模型，使用其求解新的问题实例，输出路径规划的解。

2.根据权利要求1所述基于注意力指针网络的分布式物流配送路径规划方法，其特征在于，步骤S1中，数学模型的假设为：

(4)在配送过程中，订单均可一次取货或配送成功，配送订单需求不可拆分，即每个客户节点只能被访问一次；单一客户需求不超过车辆最大容量；

(5)一辆车能同时配送多个顾客，但途经的客户节点的总需求量要小于车辆的最大载重；

优化目标函数为表示为加权的配送过程中所有收取的货物数量减去加权的车辆在收取与配送过程中行驶的总距离，其中α，β，γ表示目标函数加权系数，V_ij代表车辆从点i到点j时车辆收取的货物总量，x_ij代表决策变量，从客户节点i行驶客户节点j为1，否则为0，M代表车辆行驶过程中同时服务的最大客户数，X_ij代表车辆从点i到点j的行驶距离。

3.根据权利要求2所述基于注意力指针网络的分布式物流配送路径规划方法，其特征在于，步骤S2中，对于注意力指针网络，在网络的嵌入层中，使用一维卷积层进行嵌入，将输入映射到K维向量空间，滤波器的数量是K；映射采用仿射变换；解码器使用一个长短期记忆网络单元；在网络的注意力层中，使用可变长度对齐向量从输入中提取特征；h_t∈R^N代表解码步骤中解码器的隐状态，然后对齐向量表示为a_t；问题实例中的坐标位置信息和货物需求量分别表示为s和d_t，其中t为解码时刻。

4.根据权利要求3所述基于注意力指针网络的分布式物流配送路径规划方法，其特征在于，步骤S3中，初始化Actor网络参数θ，Critic网络参数φ，将设置好的若干批次的问题实例数据输入注意力指针网络的嵌入层，共B个批次，每个批次样本数为N，其中输入数据包括X＝{x¹,x²,…,x^N}，其中xⁱ为当前批次中第i个样本，i＝1,2,…N，其中sⁱ表示第i个样本中的位置信息，/>表示第i个样本在t时刻的货物需求量；第i个样本经过嵌入层被处理为/>其中/>表示当前批次中第i个样本在t时刻的嵌入输入，/>表示当前批次中第i个样本嵌入到K维向量空间的位置信息，/>表示当前批次中第i个样本在t时刻嵌入到K维向量空间的货物需求量。

5.根据权利要求4所述基于注意力指针网络的分布式物流配送路径规划方法，其特征在于，步骤S4中，第i个样本在t时刻的对齐向量由/>计算得到，其中，W_a是可训练参数，softmax代表使用归一化指数函数，tanh代表使用双曲正弦函数，/>是可训练参数v_a的转置矩阵，“；”表示两个向量的串联；上下文向量c_t由计算得到，使用softmax函数归一化，生成概率分布其中，W_c是可训练参数，y_t+1代表t+1时刻的决策，Y_t是t时刻的路径轨迹，X_t是t时刻的环境状态，/>是可训练参数v_c的转置矩阵。

6.根据权利要求5所述基于注意力指针网络的分布式物流配送路径规划方法，其特征在于，步骤S5中，将决策动作y_t添加到序列Y中，并使用该动作与环境交互获得新状态X_t+1。

7.根据权利要求6所述基于注意力指针网络的分布式物流配送路径规划方法，其特征在于，步骤S6中，使用计算奖励值，其中Rⁿ代表第n个问题实例的奖励值，R(Y,X)为奖励函数，Yⁿ代表第n个问题实例的总路径轨迹，/>表示第n个问题实例的初始环境状态；使用/>计算Actor网络的梯度，其中dθ代表Actor网络的梯度，N代表每个批次样本数，Rⁿ代表第n个问题实例的奖励值，/>代表第n个样本的初始状态在Critic网络参数为φ情况下的状态值，后半部分则是对记录的轨迹取对数求Actor网络参数θ的偏导；使用/>计算Critic网络的梯度，其中dφ代表Critic网络的梯度，N代表每个批次样本数，Rⁿ代表第n个问题实例的奖励值，/>代表第n个样本的初始状态在Critic网络参数为φ情况下的状态值，/>则是对Critic网络参数φ求偏导；Actor网络和Critic网络都使用Adam优化器更新网络参数。

8.基于注意力指针网络的分布式物流配送路径规划系统，基于权利要求1-7任一项所述的方法，其特征在于，包括如下模块：

数学模型建立模块：以总行驶距离为优化目标，建立分布式物流配送路径规划问题的数学模型；