CN116700176A

CN116700176A - 一种基于强化学习的分布式阻塞流水车间调度优化系统

Info

Publication number: CN116700176A
Application number: CN202310725678.5A
Authority: CN
Inventors: 赵付青; 周刚; 张建林; 朱宁宁; 许天鹏; 宋厚彬; 姚毓凯
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-09-05

Abstract

本发明属于制造业分布式生产调度领域，具体涉及一种基于强化学习的分布式阻塞流水车间调度优化系统，包括调度序列多样化初始化模块、基于Q‑learning的改进模块和基于邻域重构的局部搜索模块；所述调度序列多样化初始化模块设计了一种多样化初始种群生成策略，所述基于Q‑learning的改进模块设计了一种基于强化学习机制的全局搜索机制，根据搜索状态和算子的历史经验自适应选择搜索算子。所述基于邻域重构的局部搜索模块包括基于邻域重构的深度局部搜索策略和基于路径重连的改进策略。本发明逻辑简单、易于实现和易于扩展，可以将优化器扩展到满足当前智能制造生产领域中的大多数调度问题中。

Description

一种基于强化学习的分布式阻塞流水车间调度优化系统

技术领域

本发明属于制造业分布式生产调度领域，具体涉及一种基于强化学习的分布式阻塞流水车间调度优化系统。

背景技术

在现有技术中，由原来的单厂制造转变为多厂协同生产，分布式生产环境正变得越来越重要，因为它们为企业提供更高质量、更短的交货期和更低成本的产品。生产调度是制造系统的组成部分，直接影响企业的效率和竞争力。尤其是在企业制造过程中有着重要应用的分布式阻塞流水作业调度问题，引起了众多研究者的关注。分布式阻塞流水车间调度问题(Distributed Blocking Flowshop Problem,DBFSP)是传统阻塞流水车间调度问题的推广，其核心是将工件分配到不同的工厂，并在工厂内完成生产资源的分配和工艺调度，以确保较高的生产率和资源利用率。PFSP已被证明是一个NP-hard问题。DBFSP在分布式置换流水车间的基础上考虑了机器之间无缓冲区的条件。因此，DBFSP也是一个NP-hard问题。

分布式车间调度问题的求解方法主要是近似方法。精确算法求解复杂的组合优化问题时，由于问题解空间规模大，计算时间长，局限于实现小规模问题的求解，是一个具有挑战性的问题。对于大规模问题，启发式、元启发式算法和混合算法被广泛应用，其中启发式算法的优点是能够在相对较短的时间内快速获得调度解，但解的质量通常难以保证。然而，元启发式算法能够在可接受的时间框架内获得高质量的近似最优解。DBFSP允许在各种生产调度系统中建模，在生产制造系统的某些加工阶段，机器之间没有缓冲区，这意味着在一台机器上完成的工件在下一台机器可用之前必须停留在该机器上，并阻塞自身，由于阻塞流水车间调度的强大约束，制造完工时间被大幅度推迟。因此，有必要通过最大限度地减少机器阻塞和空闲时间来提高生产率。最大限度地缩短完工时间是生产行业的一个关键实践目标。在动态生产环境下，如何统一平衡生产企业之间的资源使用，包括降低产品库存和成品周转率，被认为具有现实意义。因此，有必要扩展现有的研究以获得有效的调度方法来解决生产环境中的调度问题。DBFSP的甘特图描述如图1所示。

元启发式算法获得高质量解的能力在很大程度上取决于扰动算子和局部搜索方法的设计和选择。本研究根据问题的特点设计了不同的搜索算子，每个搜索算子在搜索空间的不同区域具有不同程度的搜索能力。元启发式可以通过在搜索过程的不同阶段选择具有不同特征的搜索算子，有效地平衡算法的勘探和开发能力。在元启发式算法搜索近似最优解的过程中，需要考虑搜索算子的历史性能，以便动态地选择和采用最合适的算子。Q-learning算法作为机器学习算法的一个分支，在解决调度问题方面取得了一系列研究成果。机器学习技术服务于元启发式算法，从整个搜索过程中产生的数据中提取知识规则。合理地将知识整合到种群进化不同阶段的搜索过程中，可以指导算法做出最优决策，有效提高解的质量。

SS运用“分散-收敛集聚”的智能迭代机制，在参考集中构建高质量和多样性的解，并通过子集合并方法和参考集更新方法，求取问题的全局最优解或满意解。SS框架包括五个系统子方法，分别为多样化生成方法、解改进方法、参考集更新方法、子集生成方法和解组合方法。整个框架非常灵活，框架中的每个子方法都可以根据实际问题的复杂程度或不同需求用不同的方法来实现和替换。SS算法用于多种工程优化问题的求解，求解过程简单，使用SS算法求解分布式阻塞流水车间调度问题具有一定的研究基础和优势。

发明内容

本发明提供了一种基于强化学习的分布式阻塞流水车间调度优化系统，以最小化最大完工时间为优化目标，解决分布式阻塞流水车间调度问题，该方法能够优化分布式阻塞流水车间调度系统的运行效率和性能。

为了实现上述目的，本发明提供以下技术方案：

一种基于强化学习的分布式阻塞流水车间调度优化系统，其特征在于：包括调度序列多样化初始化模块、基于Q-learning的改进模块和基于邻域重构的局部搜索模块。

优选的，所述调度序列多样化初始化模块设计了一种多样化初始种群生成策略，首先，随机生成一个初始化序列以保证初始序列的多样性；然后，前f(f为工厂数量)个工件被依次取出，放置在各个工厂的第一个位置，剩下的工件被按序依次取出，尝试插入到所有工厂中最好的位置，重复上述过程，直至生成一定数量的个体，组成种群。后续所有的操作均是对种群中的个体进行操作。

具体的，首先，确定每个工厂的第一个加工工件，随机排序后的前f个工件依次插入每个工厂的第一个位置；其次，为每个工厂选择要在最后一台机器上处理的工件，根据最后一台机器上工件的加工处理时间，所有剩余工件按升序排列，排序后的前f个工件插入每个工厂的最后一个位置；每个工厂执行基于NEH启发式的插入操作，除每个工厂的第一个和最后一个工件外，所有剩余工件执行基于NEH的邻域插入搜索。使系统在求解分布式阻塞流水车间调度问题时能够获得更高精度的结果。

优选的，所述基于Q-learning的改进模块设计了一种基于强化学习机制的全局搜索机制，根据搜索状态和算子的历史经验自适应选择搜索算子。与传统的选择单一搜索算子相比，根据个体的实时状态自适应选择搜索算子可进行不同深度的探索，提高了算法摆脱局部最优的能力。

具体的，设计了五种具有邻域知识的基于邻域扰动的策略集，策略集中的邻域扰动算子有两种类型，第一种是基于关键工厂(C_fac)内部的操作，另一种是关键工厂与其他工厂之间的操作；Q-learning算法在Refset更新过程中的每一步选择最合适的扰动策；动作集(A＝N₁,N₂,…,N₅)被定义为具有五种不同扰动强度的邻域搜索算子。KCLSS和强化学习(RL)的组合模型如图2所示，学习模块如图3所示。最后一种邻域扰动机制是一种基于工件块的搜索算子，其目的是增加扰动强度。五种邻域结构如图4所示。

具体的，为了优化工件序列，采用了5种序列相关的操作；n表示工件数量，m表示机器数量；Rand_fac是一个随机工厂，C_fac是关键工厂；

具体操作过程描述如下：

N₁(Insert_Rand_fac_C_fac)：在C_fac和随机选择的工厂Rand_fac之间执行插入操作；首先，随机选择一个非关键工厂，然后，依次取出C_fac中每个工件重新插入到Rand_fac中的所有位置，记录产生最佳C_max的位置；

N₂(Swap_Rand_fac_C_fac)：在C_fac和随机选择的工厂Rand_fac之间执行交换操作；首先，随机选择一个非关键工厂，然后，依次取出C_fac中每个工件与Rand_fac中每个位置的工件交换，记录产生最佳C_max的位置；

N₃(Insert_C_fac)：在C_fac中随机选择一个工件，并将其插入该工厂的所有可能位置，如果插入后C_fac的C_max优于当前解，则保留新解；

N₄(Swap_C_fac)：在C_fac中随机选择两个工件，然后交换，如果在交换后C_max得到改进，则接受新解；

N₅(Insert_block_C_fac)：首先，在C_fac中随机选择一个起始位置，提取由η(η＝rand[2,4])个连续工件组成的工件块并从原始位置移除，然后将该工件块重新插入C_fac的最佳位置。

采用了改进的ε-greedy策略，在种群迭代进化的早期阶段，以更高的概率探索新的行为，随着训练时间的增加，智能体从探索新的动作转向选择目前能获得最大回报的动作，采用这种策略的好处是确保智能体能够探索更广的搜索区域，同时保留一定的深度探索能力；改进后的策略具体表述如下：

其中a^*表示在s_t状态下Q值最大的动作，A(s_t)表示s_t状态中所有可选动作的集合，P_rand是服从标准正态分布的样本值，T_max表示停止标准(T_max＝10×n×m×f)。

优选的，所述基于邻域重构的局部搜索模块是一种基于路径重连的深度局部搜索策略。路径重连策略是探索两个给定解的邻域的一种有效搜索方法，在该阶段被应用以生成一个新的有价值的解。这里，选择当前最好的个体Cbest与当前个体Ci进行比较。对当前个体Ci执行插入或交换转换为Cbest，并在每次执行运算操作后产生一个中间个体。最后，对所有中间个体进行评估，并保留最优个体。

具体的，所述基于邻域重构的深度局部搜索策略是为了增强局部优化性能，提出了一种基于路径重连的邻域重构策略，对当前个体以及当前种群中最优个体执行重构操作，针对关键工厂中每个工件，依次取出重新插入到该工厂所有可能位置，重构邻域结构如图5所示。

具体的，邻域重构的局部搜索方法是解决流水车间调度问题的一种常用方法，其基本思想是在当前解的邻域中搜索更优的解，直到无法找到更好的解为止；首先，选取当前种群最优个体，依次取出每一个工件，然后，通过插入操作向当前最优解转换，生成当前的邻域解，在当前邻域解中搜索更好的解，即找到使目标函数值最小的邻域解。如果找到更优的解，则更新当前解为邻域解，重复上述步骤，直至搜索结束。

本发明具有以下有益效果：

(1)本发明在分散搜索算法中引入了多个邻域扰动算子。邻域结构是针对问题的特点设计的，以提高局部搜索的效率。在整个搜索过程中自适应地选择邻域扰动策略。

(2)Q-learning算法用于动态选择搜索策略。基于搜索状态和每个扰动算子的历史反馈信息，选择合适的扰动算子，以进一步平衡勘探和开发能力。

(3)重构的邻域结构被设计用于增强局部搜索能力。SS子方法之间的协同进化可以有效地提高种群的质量。

(4)本发明逻辑简单、易于实现和易于扩展，可以将优化器扩展到满足当前智能制造生产领域中的大多数调度问题中。

附图说明

为了更清楚地说明本发明实例中的技术方案，下面将对本发明实例中的一些附图做简要介绍。

图1是现有技术中分布式阻塞流水车间调度问题甘特图。

图2是本发明中的KCLSS和RL的组合模型图。

图3是本发明中的学习模块原理图。

图4是本发明中的五种邻域结构示意图。

图5是本发明中的邻域重构示意图。

图6是本发明中的算法流程图。

具体实施方式

为了更清楚地说明本发明的目的、技术方案及优点，以下结合附图具体的解释每个模块的功能及优点。

实施例一

1、调度序列多样化初始化模块

构造启发式通常根据问题的特征获得启发式解。首先，随机生成初始化序列然后，将前f个工件/>逐一取出，安排在每个工厂的第一个位置。其余的工件/>依次被取出，并测试所有工厂的所有可能位置，选最佳位置插入,并且每个工厂的加工负荷不能超过平均加工负荷(/>)。种群生成策略的伪代码如算法1所示。

2、基于Q-learning的改进模块

为了优化工件序列，采用了5种序列相关的操作。n表示工件数量，m表示机器数量。Rand_fac是一个随机工厂，C_fac是关键工厂。操作过程说明如下。

具体描述如下：

1)N₁(Insert_Rand_fac_C_fac)：在C_fac和随机选择的工厂Rand_fac之间执行插入操作。首先，随机选择一个非关键工厂，然后，依次取出C_fac中每个工件重新插入到Rand_fac中的所有位置，记录产生最佳C_max的位置。

2)N₂(Swap_Rand_fac_C_fac)：在C_fac和随机选择的工厂Rand_fac之间执行交换操作。首先，随机选择一个非关键工厂，然后，依次取出C_fac中每个工件与Rand_fac中每个位置的工件交换，记录产生最佳C_max的位置。

3)N₃(Insert_C_fac)：在C_fac中随机选择一个工件，并将其插入该工厂的所有可能位置，如果插入后C_fac的C_max优于当前解，则保留新解。

4)N₄(Swap_C_fac)：在C_fac中随机选择两个工件，然后交换，如果在交换后C_max得到改进，则接受新解。

5)N₅(Insert_block_C_fac)：首先，在C_fac中随机选择一个起始位置，提取由η(η＝rand[2,4])个连续工件组成的工件块并从原始位置移除，然后将该工件块重新插入C_fac的最佳位置。

采用了改进的ε-greedy策略，在种群迭代进化的早期阶段，以更高的概率探索新的行为。随着训练时间的增加，智能体从探索新的动作转向选择目前能获得最大回报的动作。采用这种策略的好处是确保智能体能够探索更广的搜索区域，同时保留一定的深度探索能力。改进后的策略具体表述如下：

根据调度序列多样化初始化模块生成的工件加工种群序列，根据Q-learning算法反馈信息动态选择搜索算子，首先，智能体观察当前环境，根据t时刻s_t的状态，在可用的动作集中采取动作a_t。然后，智能体与环境交互。执行完动作a_t后，智能体的状态切换为s_t+1，智能体从环境中获得奖励或惩罚r_t。使用不同扰动强度的序列相关操作，调整序列排列，寻找更优的工件加工排列顺序。

3、基于路径重连的邻域重构局部搜索模块

邻域重构的局部搜索方法是解决流水车间调度问题的一种常用方法，其基本思想是在当前解的邻域中搜索更优的解，直到无法找到更好的解为止。首先，选取当前种群最优个体以及当前个体，依次取出当前个体每一个工件，然后，通过插入操作转换为当前最优解，在当前邻域解中搜索更好的解，即找到使目标函数值最小的邻域解。如果找到更优的解，则更新当前解为邻域解，重复上述步骤，直至搜索结束。

4、系统流程

KCLSS算法主要由三部分构成：多样化生成策略产生初始种群、基于强化学习机制的全局搜索机制和基于路径重连的邻域重构深度局部搜索机制。在初始化阶段，采用构造启发式和随机化相结合的方法生成高质量的初始种群。在全局搜索方面，设计了一个包含不同结构特征的邻域扰动策略池，并与Q-learning算法相结合，动态选择合适的扰动策略。邻域重构策略引导个体在解空间的潜在优势区域中进行搜索。算法伪代码如算法2所示，算法流程图如图6所示。

以上内容介绍了本发明实例的基本原理、主要特征与优点。相关从业人员应该了解，本发明不受上述实例的限制，上述实施例和说明书中描述的只是说明本发明的原理。本发明可以应用到其他任何具有优化性质的领域中。本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于强化学习的分布式阻塞流水车间调度优化系统，其特征在于：包括调度序列多样化初始化模块、基于Q-learning的改进模块和基于邻域重构的局部搜索模块。

2.根据权利要求1所述一种基于强化学习的分布式阻塞流水车间调度优化系统，其特征在于：所述调度序列多样化初始化模块设计了一种多样化初始种群生成策略，首先，随机生成一个初始化序列以保证初始序列的多样性；然后，前f(f为工厂数量)个工件被依次取出，放置在各个工厂的第一个位置，剩下的工件被按序依次取出，尝试插入到所有工厂中最好的位置，重复上述过程，直至生成一定数量的个体，组成种群。

3.根据权利要求2所述一种基于强化学习的分布式阻塞流水车间调度优化系统，其特征在于：首先，确定每个工厂的第一个加工工件，随机排序后的前f个工件依次插入每个工厂的第一个位置；其次，为每个工厂选择要在最后一台机器上处理的工件，根据最后一台机器上工件的加工处理时间，所有剩余工件按升序排列，排序后的前f个工件插入每个工厂的最后一个位置；每个工厂执行基于NEH启发式的插入操作，除每个工厂的第一个和最后一个工件外，所有剩余工件执行基于NEH的邻域插入搜索。使系统在求解分布式阻塞流水车间调度问题时能够获得更高精度的结果。

4.根据权利要求2所述一种基于强化学习的分布式阻塞流水车间调度优化系统，其特征在于：所述基于Q-learning的改进模块设计了一种基于强化学习机制的全局搜索机制，根据搜索状态和算子的历史经验自适应选择搜索算子。

5.根据权利要求4所述一种基于强化学习的分布式阻塞流水车间调度优化系统，其特征在于：设计了五种具有邻域知识的基于邻域扰动的策略集，策略集中的邻域扰动算子有两种类型，第一种是基于关键工厂(C_fac)内部的操作，另一种是关键工厂与其他工厂之间的操作；Q-learning算法在Refset更新过程中的每一步选择最合适的扰动策；动作集(A＝N₁,N₂,…,N₅)被定义为具有五种不同扰动强度的邻域搜索算子。

6.根据权利要求5所述一种基于强化学习的分布式阻塞流水车间调度优化系统，其特征在于：为了优化工件序列，采用了5种序列相关的操作；n表示工件数量，m表示机器数量；Rand_fac是一个随机工厂，C_fac是关键工厂；

具体操作过程描述如下：

N₅(Insert_block_C_fac)：首先，在C_fac中随机选择一个起始位置，提取由η(η＝rand[2，4])个连续工件组成的工件块并从原始位置移除，然后将该工件块重新插入C_fac的最佳位置；

7.根据权利要求6所述一种基于强化学习的分布式阻塞流水车间调度优化系统，其特征在于：所述基于邻域重构的局部搜索模块是一种基于路径重连的深度局部搜索策略，路径重连策略是探索两个给定解的邻域的一种有效搜索方法，在该阶段被应用以生成一个新的有价值的解；首先，选择当前最好的个体Cbest与当前个体Ci进行比较；对当前个体Ci执行插入或交换转换为Cbest，并在每次执行运算操作后产生一个中间个体；最后，对所有中间个体进行评估，并保留最优个体。

8.根据权利要求7所述一种基于强化学习的分布式阻塞流水车间调度优化系统，其特征在于：所述基于邻域重构的深度局部搜索策略是为了增强局部优化性能，提出了一种基于路径重连的邻域重构策略，对当前个体以及当前种群中最优个体执行重构操作，针对关键工厂中每个工件，依次取出重新插入到该工厂所有可能位置。

9.根据权利要求8所述一种基于强化学习的分布式阻塞流水车间调度优化系统，其特征在于：邻域重构的深度局部搜索方法是解决流水车间调度问题的一种常用方法，其基本思想是在当前解的邻域中搜索更优的解，直到无法找到更好的解为止；首先，选取当前种群最优个体，依次取出每一个工件，然后，通过插入操作，生成当前的邻域解，在当前邻域解中搜索更好的解，即找到使目标函数值最小的邻域解，如果找到更优的解，则更新当前解为邻域解，重复上述步骤，直至搜索结束。

10.一种计算机可读存储介质，其特征在于：其中包含计算机程序，该程序被CPU处理时可实现权利要求1-9所提供的任一种优化系统。