CN115358464A

CN115358464A - 基于强化学习算法的零部件供应循环包装箱配送调度方法

Info

Publication number: CN115358464A
Application number: CN202210997917.8A
Authority: CN
Inventors: 丁凤霞; 孙陈杰
Original assignee: Chengdu Easy Computing Technology Co ltd
Current assignee: Chengdu Easy Computing Technology Co ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-18

Abstract

本发明公开了一种基于强化学习算法的零部件供应循环包装箱配送调度方法，通过建立多中心循环包装箱配送数学模型；使用强化学习算法确定配送方案；使用真实历史数据验证循环包装箱配送调度算法。相较于传统的强化学习算法，本发明添加了输入指导层，使得不用每次计算都将所有的配送中心数据输入算法，节约了计算资源，提高了求解速度；本发明添加了嵌入层，通过数据升维的方式使得输入的配送中心数量可变，模型泛化能力强，求解效果好；本发明对强化学习添加了RNN网络，用于储存模型参数，使得问题参数不用重新计算，提高了求解速度。

Description

基于强化学习算法的零部件供应循环包装箱配送调度方法

技术领域

本发明涉及零部件供应循环包装箱配送调度领域，具体是一种基于强化学习算法的零部件供应循环包装箱配送调度方法。

背景技术

近年来，物流行业日新月异。随着社会和经济的发展，物流已经成为人们生活中的一个重要组成部分。然而，物流行业的发展本身又带来了新的污染问题，大量快递包装箱的不当处理对环境产生了巨大影响。日常快递与外卖的包装箱由于商品的多样性而尺寸不一，回收困难。

由于工业标准零部件如冰箱、空调零件等的成本昂贵，零部件包装箱的质量要求高。因此，零部件包装箱的造价高昂，可达数百到数万元，需要循环利用。此外，工业标准零部件尺寸统一，方便回收利用。对于工业标准零部件的包装箱的循环利用具有现实可行性。

目前，零部件包装箱的循环利用主要是由第三方物流公司承担，包括包装箱的生产、调度以及回收等业务。

在物流行业日新月异的今天，由于实际问题中零部件供应包装箱多中心循环调度的约束条件、问题规模等问题，常用于调度问题的软件不能有针对性的进行有效解决，需要进行面向实际应用的研究。因此，对零部件供应包装箱多中心循环调度问题的研究主要面向实际应用开展。由于目前的零部件供应包装箱多中心循环调度算法还不能有效解决生产调度等领域中的大规模问题，面向零部件供应包装箱多中心循环调度的算法研究具有现实且重要的研究意义。

整数规划是运筹学的一个经典规划问题，也是一类约束优化问题，因所求变量取值均为整数而得名，整数规划问题也称离散优化问题，是运筹学领域的一个热点问题。其已被广泛应用于实际生产生活中，如0-1背包问题、TSP路径问题等组合优化问题都属于整数规划问题。因其解的结构为离散的整数域，一般的连续优化方法不适用于该模型的求解。所以，即使在计算技术飞速发展的今天，求解整数规划问题的算法发展依旧不尽人意。本文面向的调度对象为各种包装箱零件数量，取值只能为整数，因此是一个整数规划问题。

整数规划问题在割平面法提出后开始兴起，目前常用的方法有分支限界法、割平面法等。但由于分支定界法是一种确定性计算方法，即从一个确定的搜索点到另一个确定的搜索点。因此，在求解小规模的整数规划问题时效果较佳。但是，当整数规划问题规模变大时，确定性计算方法的运算量非常可观，启发式算法很好的解决了这个问题。启发式算法，是受自然界的启发，模拟自然界现象的算法，其代表方法主要有遗传算法、粒子群算法以及模拟退火算法等。由于启发式算法是基于概率的算法，其可行解一般不唯一，因此，可提供多个配送方案。但启发式算法存在容易提前收敛、陷入局部最优解的问题。

综上，现有方法存在以下问题：

(1)确定性算法。在确定性算法中，穷举法具有方法简单的优点，但是只可解小规模问题，计算量大，例如：对0-1整数规划，计算量是2n，按指数增长；四舍五入法不一定能得到最优解或者可行解；分枝定界法则计算效率高，应用广泛；割平面法有理论意义，但计算效率不高；

(2)人工智能算法。人工智能算法具有计算效率高，可解大规模问题的优点。由于启发式算法是基于概率的算法，其可行解一般不唯一，因此，可提供多个配送方案。但启发式算法存在容易提前收敛、陷入局部最优解的问题。

发明内容

本发明的目的在于克服上述背景技术中提出的问题，提供了一种基于强化学习算法的零部件供应循环包装箱配送调度方法，该方法计算每种车型的配送方案，采用真实历史数据验证算法可行性，能在更贴切实际问题的情况下，加快计算速度、提高求解质量。

本发明的目的主要通过以下技术方案实现：

基于强化学习算法的零部件供应循环包装箱配送调度方法，包括以下步骤：

(1)建立多中心循环包装箱配送数学模型；

(2)使用强化学习算法确定配送方案；

(3)使用真实历史数据验证循环包装箱配送调度算法。

针对目前大规模循环包装箱配送调度问题无法求解、求解耗时长等缺点，本方案提供的基于强化学习算法的零部件供应循环包装箱配送调度方法，以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输出的直接控制。在许多需要感知高维度原始输入数据和决策控制的任务中，深度强化学习方法已经取得了实质性的突破。采用深度强化学习算法解决多中心循环包装箱调度问题。通过计算每种车型的配送方案，采用真实历史数据验证算法可行性，能在更贴切实际问题的情况下，加快计算速度、提高求解质量。

进一步地，在步骤(1)中通过各中心的库存与需求约束，求解总运输费用最低的配送方案，包括：

(1)构建配送费用矩阵：分别以各中心为横纵坐标，用各中心之间的距离填充配送费用矩阵，得到配送费用矩阵后，分别用i中心与j中心之间的配送费用A_ij乘上i中心与j中心之间的配送量x_ij，得到总运输里程数最低的目标函数Z：

(2)构建库存约束：由i中心运往各中心的材料k配送量之和

不得高于i中心的库存量D_ik，得到库存约束：

(3)构建需求约束：由各中心运往j中心的材料k配送量之和

应当高于j中心的需求量B_j，得到需求约束：

(4)确定配送量：各中心之间的总配送量x_ij等于各中心之间各种材料的配送量a_ijk之和：

进一步地，在步骤(2)中算法主要包括嵌入层、输入指导层、注意力机制以及环境。

进一步地，在嵌入层将各中心的位置s与库存需求数据d升至高维，使得配送中心的数量可变；RNN网络记录了模型的参数，使得算法不用每次因为输入的配送中心数据改变而重新计算参数。利用嵌入层，通过数据升维的方式使得输入的配送中心数量可变，模型泛化能力强，求解效果好。对强化学习添加了RNN网络，用于储存模型参数，使得问题参数不用重新计算，提高了求解速度。

进一步地，在输入指导层根据各配送中心的库存与需求数据，选择需要配送的中心输入至注意力机制，其具体步骤如下：

Step1、调取各配送中心的需求与库存数据；

Step2、根据嵌入层的数据计算需要配送的中心数量；

Step3、将各配送中心是否需要配送作为权重输入注意力机制；

Step4、将RNN中记录的历史参数输入注意力机制。

通过输入指导层，使得不用每次计算都将所有的配送中心数据输入算法，节约了计算资源，提高了求解速度。

进一步地，在注意力机制包含行为者网络actor与批评家网络critic两个神经网络。其中，注意力机制中计算最低配送费用的行为者网络迭代具体步骤如下：

Step1、在主线程中用随机权重θ和随机权重φ初始化行为者网络和批评家网络；

Step2、从M中抽取N个样本问题，并使用蒙特卡洛模拟来产生关于当前策略πθ的可行序列(采用上标n来指代第n个实例的变量)；

Step3、在所有N个问题的解码结束后，利用问题n的物流中心位置S_n与物流中心需求量d_n以及目前状态π按照如下公式来更新行为者网络的状态π^*(实例问题n的状态π属于符合库存与需求约束的状态空间∏)；

Step4、更新批判者网络，以减少蒙特卡洛展开过程中预期奖励与观察到的奖励之间的差异。

进一步地，在环境用于促使注意力机制的迭代，具体步骤如下：

Step1：注意力机制中的行为者网络将配送方案State传入环境；

Step2：在环境中根据各物流中心之间的配送费用A_ij与相应物流中心之间的配送量x_ij按照如下公式计算此调度方案所花费总费用Z；

Step3：环境以此调度方案所花费总费用的负值作为奖励Reward反馈给行为者网络；

Step4：行为者网络向总调度费用更低的方向迭代。

综上，本发明与现有技术相比具有以下有益效果：

1、相较于传统的强化学习算法，本发明添加了输入指导层，使得不用每次计算都将所有的配送中心数据输入算法，节约了计算资源，提高了求解速度；

2、本发明添加了嵌入层，通过数据升维的方式使得输入的配送中心数量可变，模型泛化能力强，求解效果好；

3、本发明对强化学习添加了RNN网络，用于储存模型参数，使得问题参数不用重新计算，提高了求解速度。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明的流程示意图。

图2为强化学习算法流程示意图。

图3为目标函数取值情况示意图。

图4为强化学习算法的小规模实验结果示意图。

图5为某零部件供应循环包装箱公司在配送中心的上盖、底托以及小围板三种零部件的实时库存数据图。

图6为配送中心的上盖、底托以及小围板三种循环包装箱零部件的需求数据图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

如图1所示，本实施例的基于强化学习算法的零部件供应循环包装箱配送调度方法，包括以下步骤：

(1)建立多中心循环包装箱配送数学模型；

(2)使用强化学习算法确定配送方案；

(3)使用真实历史数据验证循环包装箱配送调度算法。

在步骤(1)中通过各中心的库存与需求约束，求解总运输费用最低的配送方案，包括：

(2)构建库存约束：由i中心运往各中心的材料k配送量之和

不得高于i中心的库存量D_ik，得到库存约束：

(3)构建需求约束：由各中心运往j中心的材料k配送量之和

应当高于j中心的需求量B_j，得到需求约束：

针对多中心循环包装箱调度问题，本发明对强化学习算法做了一些改进。改进后的强化学习算法流程如图2所示，在步骤(2)中算法主要包括嵌入层、输入指导层、注意力机制以及环境。

本发明针对大规模循环包装箱配送调度问题无法求解、求解耗时长等缺点，对强化学习算法做了一些改进。嵌入层Embedding将各中心的位置s与库存需求数据d升至高维，使得配送中心的数量可变。RNN网络记录了模型的参数，使得算法不用每次因为输入的配送中心数据改变而重新计算参数。

为提高运算效率，本发明添加了输入指导层a。a根据各配送中心的库存与需求数据，选择需要配送的中心输入至注意力机制。其具体步骤如下：

Step1、调取各配送中心的需求与库存数据；

Step2、根据嵌入层的数据计算需要配送的中心数量；

Step4、将RNN中记录的历史参数输入注意力机制。

注意力机制包含行为者网络actor与批评家网络critic两个神经网络。

注意力机制中计算最低配送费用的行为者网络迭代具体步骤如下：

环境用于促使注意力机制的迭代，具体步骤如下：

Step1：注意力机制中的行为者网络将配送方案State传入环境；

Step4：行为者网络向总调度费用更低的方向迭代。

关于使用真实历史数据验证循环包装箱配送调度算法：

(1)强化学习算法与其他算法的比较

目前，求解整数规划问题时，研究人员主要采用穷举可行解再进行比较的方法。当整数规划问题规模较小、变量较少时，解的数量是有限的，该方法是可行的。但是，当整数规划问题规模变大、变量变多时，解的数量过多，该方法的可行性会降低。

通过实验，我们发现在问题规模为6中心、6种运输方式、9种需调度零部件，即324个变量时，分支限界法与强化学习算法运算速度相差无几，分支限界法结果略优，原因可能为强化学习算法浪费大量运算时间在更新与迭代上。运算结果也相差无几。但是，当问题规模为6中心、6种运输方式、28种需调度零部件，即10008个变量时，分支限界法运算速度大幅降低，而遗传算法依旧保持高效，原因是分支限界法非并行运算，在变量增多时，运算效率低的缺点开始暴露。

粒子群算法的优点是控制参数少，实现简单。但是，粒子群算法解决整数规划问题时需要将每次迭代结果转换为整数，且同样具有提前收敛即早熟的问题。

但是，启发式算法目前还存在以下问题：①启发式算法大多为并行计算的非确定性算法，目前尚没有成熟的评价标准比较算法优劣。②由于实际问题的多样性，整数规划的启发式算法缺乏普遍适用性，针对不同的整数规划模型，需要编写不同的算法。③针对不同的整数规划问题，启发式算法有容易过早收敛、陷入局部最优解等问题，目前主要靠调整参数解决，期待更好的解决此类问题的算法出现。

本发明分别编写了强化学习算法与粒子群算法的代码。经比较，两类算法的运行时间相差无几，但是，模拟退火算法与粒子群算法的运算结果即总运输费用低于遗传算法。分析原因如下：

如图3为目标函数取值情况，由于粒子群算法是基于实数域的优化算法，在变量取两整数之间的实数时，目标函数可能取得更小值。而由于本文的问题模型为整数规划，运输的零部件数量不能取实数，因此实际问题可能不能获得粒子群算法所求得的值。

由实数解四舍五入取得的整数解可能并不是整数规划的全局最优解。因此，在整数域中进行搜索的强化学习算法更契合问题模型。

(2)强化学习算法小规模实验

如图4为强化学习算法的小规模实验结果，配送中心1、2、3对某零部件供应循环包装箱材料的库存数据分别为965个、558个以及971个。需求数据为815个、914个以及279个。设配送中心1、2之间的配送费用权重为1，配送中心2、3之间的配送费用权重为2，配送中心2、3之间的配送费用权重为3。(各配送中心运往自身的配送费用权重为0)强化学习算法基于各配送中心自身的库存与需求数据计算得到了总配送费用最低的配送方案。从图中可以看出，由于配送中心2、3之间的配送费用权重过大，算法采用了由3运往1，再由1运往2的配送方案，符合实际情况。

(3)强化学习算法用于某公司真实数据

表1是6个中心之间的部分运输费用，表中包含了不同启运地与目的地之间的距离里程以及不同车型的运输单价、车辆最大运载量以及最小运载量。

表1

图5为某零部件供应循环包装箱公司在合肥、胶州、重庆三个配送中心的上盖、底托以及小围板三种零部件的实时库存数据，现有该公司在合肥、胶州、重庆三个配送中心的上盖、底托以及小围板三种循环包装箱零部件如图6所示的需求数据，设合肥至胶州、合肥至重庆、胶州至重庆的配送费用比例为1:2:3(设各配送中心配送至自身的配送费用为0)。经过500次迭代，强化学习算法计算出各变量，即采用各种配送方案的循环包装箱零部件的取值，算法的运算结果如表2所示：

表2

从表2可以看出，改进后的强化学习算法运算得到的配送方案优先通过配送费用较低的路线满足各配送中心对零部件供应循环包装箱的需求，成功在某零部件供应循环包装箱公司的真实数据上运算得到了总配送费用最低的配送调度方案。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于，包括以下步骤：

(1)建立多中心循环包装箱配送数学模型；

(2)使用强化学习算法确定配送方案；

(3)使用真实历史数据验证循环包装箱配送调度算法。

2.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述步骤(1)中通过各中心的库存与需求约束，求解总运输费用最低的配送方案，包括：

(2)构建库存约束：由i中心运往各中心的材料k配送量之和

不得高于i中心的库存量D_ik，得到库存约束：

(3)构建需求约束：由各中心运往j中心的材料k配送量之和

应当高于j中心的需求量B_j，得到需求约束：

3.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述步骤(2)中算法主要包括嵌入层、输入指导层、注意力机制以及环境。

4.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述嵌入层将各中心的位置s与库存需求数据d升至高维，使得配送中心的数量可变；RNN网络记录了模型的参数，使得算法不用每次因为输入的配送中心数据改变而重新计算参数。

5.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述输入指导层根据各配送中心的库存与需求数据，选择需要配送的中心输入至注意力机制，其具体步骤如下：

Step1、调取各配送中心的需求与库存数据；

Step2、根据嵌入层的数据计算需要配送的中心数量；

Step4、将RNN中记录的历史参数输入注意力机制。

6.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述注意力机制包含行为者网络actor与批评家网络critic两个神经网络。

7.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述注意力机制中计算最低配送费用的行为者网络迭代具体步骤如下：

8.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述环境用于促使注意力机制的迭代，具体步骤如下：

Step1：注意力机制中的行为者网络将配送方案State传入环境；

Step4：行为者网络向总调度费用更低的方向迭代。