CN116976603A

CN116976603A - 一种复杂零部件批量生产优化调度方法

Info

Publication number: CN116976603A
Application number: CN202310915744.5A
Authority: CN
Inventors: 王琳; 夏浩源; 谷朝臣
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-31

Abstract

本发明涉及一种复杂零部件批量生产优化调度方法，包括：获取零部件对应的工艺规划方案，并确定车间调度资源，以构建混合流水车间调度模型；设计序列选择超启发式算法，基于强化学习的方式，生成得到启发式算法执行序列；根据启发式算法执行序列，对混合流水车间调度模型进行求解，输出得到最优调度结果；基于最优调度结果，完成对零部件批量生产的调度控制。与现有技术相比，本发明将零部件的加工特征看作是阶段、每个工序中的多个同种机床看作是并行机床，将复杂零部件批量生产问题转换为混合流水车间问题进行求解，能够快速准确地确定出最优调度结果，从而避免复杂零部件批量生产的加工资源浪费、提高生产效率。

Description

一种复杂零部件批量生产优化调度方法

技术领域

本发明涉及生产加工调度技术领域，尤其是涉及一种复杂零部件批量生产优化调度方法。

背景技术

在实际的加工过程中，往往需要将多个零部件同时进行加工，因此有必要对加工资源进行调度，类似的问题被看作是车间调度问题，即在有限资源的车间内给出机床、刀具等资源的调度策略，实现设定的优化目标。一般研究者将整个问题抽象为n个工件在m台机床上加工，在满足加工过程中存在的各种环境约束、资源约束的前提下进行排产调度。同时，由于车间调度过程中需要达成的指标根据不同企业需求有多种选择，此类问题也被认为是复杂的组合优化问题。

相较于经典的车间调度问题，复杂零部件存在加工特征多、约束种类多且相互制约、加工时间长等特点，这些特点使得每个零部件的工序需要多个同种类型的机床去加工，而工艺规划算法决定工艺路线时已经确定了车间的刀具和机床数量，所以研究的零部件批量生产的每个订单中的零部件种类都是相同的。然而经典的车间调度算法都是以工序为单位对问题进行调度，即将每个零部件的工序分配到机床上进行加工，当需要批量生产复杂零部件时，由于加工特征众多、工序灵活等特点，工序中包含的加工特征数量众多，每个工序中甚至包含上百个加工特征，如果依旧以工序为单位进行加工，必然会导致调度单位较大、加工资源极大浪费，不利于问题的优化，此外，由于调度的单位变得极多，可选择的优化算法也更多，若无法选择出合适的优化算法，将难以保证求解得到调度结果的最优性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种复杂零部件批量生产优化调度方法，能够快速准确地确定出最优调度结果，从而避免复杂零部件批量生产的加工资源浪费、提高生产效率。

本发明的目的可以通过以下技术方案来实现：一种复杂零部件批量生产优化调度方法，包括以下步骤：

S1、获取零部件对应的工艺规划方案，并确定车间调度资源，以构建混合流水车间调度模型；

S2、设计序列选择超启发式算法，基于强化学习的方式，生成得到启发式算法执行序列；

S3、根据启发式算法执行序列，对混合流水车间调度模型进行求解，输出得到最优调度结果；

S4、基于最优调度结果，完成对零部件批量生产的调度控制。

进一步地，所述步骤S1具体包括以下步骤：

S11、获取零部件对应的工艺规划方案，并确定车间调度资源，以进行调度单位的转换；

S12、设定调度优化目标、约束条件和调度策略，构建混合流水车间调度模型。

进一步地，所述步骤S11中调度单位的转换具体是将调度单位由工序转换为加工特征，根据加工特征划分不同加工阶段。

进一步地，所述步骤S12中调度优化目标具体为：

min(f)＝min{max{F_j}}

其中，f为最终的完成时间，调度优化目标在于最小化最大加工时间F_j，使得整个加工过程时间最短。

进一步地，所述步骤S12中约束条件具体为：

F_j＝E_ijm

S_i，j，m+T_i，j，m≤S_i+1，j，m

1≤i≤N，1≤j≤O_i，1≤m≤M_i

其中，N为零部件总数量，O_i为零部件i的所有工序数量，M_i为零部件i使用的并行机床数量，F_j为第j个工序的加工时间，E_ijm为零部件i的第j个工序使用机床m的结束时间，S_i，j，m为部件i的第j个工序使用机床m的开始时间，T_i，j，m为部件i的第j个工序使用机床m的持续时间，x_i,j,m为部件i的第j个工序使用机床m的加工单位。

进一步地，所述步骤S12中调度策略具体为：

(1)初始化机床零部件信息，包括特征数量、每个阶段对应的机床数量和每个阶段在特定机床上的加工时间；

(2)对上个阶段的零部件加工顺序倒序排序获得最早结束加工的零部件；

(3)为每个零部件的当前阶段分配相应的机床，具体是从当前零部件的加工方法中挑选加工时间最短的；

(4)所有阶段结束则完成调度，否则返回步骤(2)。

进一步地，所述步骤S12中混合流水车间调度模型具体为：在生产车间中有n个零部件待加工，每个零部件均有一个及以上的阶段待加工，车间为每个阶段提供多个互不打扰的并行机床，所述阶段通过零部件的加工特征进行划分。

进一步地，所述步骤S2具体是采用强化学习方式作为高级选择策略，以迭代地从低级启发式算法集合中依次筛选出多个启发式算法，从而排序得到启发式算法执行序列。

进一步地，所述低级启发式算法集合中包括随机算法、遗传算法、差分进化算法、禁忌搜索算法、模拟退火算法。

进一步地，所述步骤S2具体包括以下步骤：

S21、构建低级启发式算法池；

S22、设定高级选择策略和移动接收策略，以从低级启发式算法池中随机选择低级启发式算法，确定出选择得到的多个低级启发式算法，按序排列构成启发式算法执行序列。

与现有技术相比，本发明具有以下优点：

一、本发明基于零部件对应的工艺规划方案以及车间调度资源，以构建混合流水车间调度模型；并设计序列选择超启发式算法，基于强化学习的方式，生成得到启发式算法执行序列；再根据启发式算法执行序列，对混合流水车间调度模型进行求解，输出得到最优调度结果。由此将复杂零部件的批量生产问题转换为混合流水车间问题进行求解，能够在解决问题过程中指定优化目标，完成对零部件加工顺序、加工机床选择、加工时间确定等操作，确保加工中每个待加工阶段可以选择的同种数量的机床有多个，即实现并行机床处理，从而能够快速准确地确定出最优调度结果，避免复杂零部件批量生产的加工资源浪费、提高生产效率。

二、本发明中，将问题中的加工特征看作是典型调度中的工序，即以加工特征作为调度基本单位，并设计在调度过程中每次选择加工机床时，将使当前加工时间最短的机床设置为当前运行机床，由此能够快速获得最优调度结果。

三、本发明在构建混合流水车间调度模型时，设定优化目标为最小化最大加工时间，以使得整个加工过程时间最短；并充分考虑多种约束条件：当前机床加工结束当前工件后才能加工下一个工件、零部件加工完当前工序后才能加工下一个工序、某个加工单位必须被该阶段的某个机床加工处理。由此确保后续求解得到的调度结果最优解能够极大减少加工资源的浪费、提高加工生产效率。

四、本发明设计序列选择超启发式算法，基于强化学习的方式，以生成得到启发式算法执行序列，用于对混合流水车间调度模型进行求解，通过得到针对混合流水车间调度模型的最优算法序列，相比于单独算法求解的方式，能够获得更好的调度优化效果。

附图说明

图1为本发明的方法流程示意图；

图2为零部件加工过程示意图；

图3为加工资源示意图；

图4为流水车间调度示意图；

图5为混合流水车间示意图；

图6a、6b、6c为实施例中零部件实际数据调度优化示意图；

图7为实施例中不同算法的调度优化对比示意图；

图8为序列选择超启发式算法的架构示意图；

图9为实施例中采用Sarsa强化学习的流程示意图；

图10为实施例中零部件批量生产调度训练结果示意图；

图11为实施例中本方案序列选择算法与传统单独算法的求解对比示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种复杂零部件批量生产优化调度方法，包括以下步骤：

将上述方案应用于实际，主要内容有：

研究面对的单个复杂约束下的零部件所需要的加工资源数量是极多的，这些加工机床本身就有极高的价格，因此研究主要在单个零部件工艺规划所确定的加工方案和加工资源的基础上进行资源的调度完成零部件的批量生产。复杂零部件的加工方案如图2所示，每个工序都需要多个机床进行加工，例如工序1中有两个A型机床，每个A型机床上加工若干个特征，工序2包含三个机床。

采用传统方法进行调度时，需要以工序为基本单位，这里将加工资源进行打包，运行池中包含所有的加工资源，它们通过工序被一个个划分，如图3所示，例如工序1加工资源中就包含此工序所需要的所有加工资源机床和刀具等。

由此问题可以被描述为n个工件等待被加工，每个工件都包含m个工序，现有m个加工资源对应需要加工的m个工序，每个加工资源可以加工一个工序，其可被看作是流水车间调度问题，其简单甘特图如图4所示，图4中共三个零部件，每个零部件都有三个工序待加工，图中可以清晰看出流水车间调度问题的特点，每个机床可以加工每个零部件的其中一个工序，每个工件在机床上的加工顺序是相同的，都是从机床1到机床3，机床对每个零部件的加工时间可以不同，调度的目标一般是最小化最大加工时间，图中为最小化工件3最后一个工序的完成时间。

研究针对的问题在加工一个复杂零部件时机床的数量就已经达到了需求的上限，即单个零部件的加工方案决定了车间的资源。工艺规划所生成的加工方案中一个工序的加工需要多个机床，而机床的数量取决于之前单个零部件的工艺规划结果，因此在批量生产的过程中，每个加工特征所能使用的机床数量是复数的，相当于在每个阶段提供了并行机床，问题据此可以被转换为混合流水车间调度问题。问题可以被描述为在生产车间中有n个零部件待加工，每个零部件都有一个及以上的阶段待加工，车间为每个阶段提供M_i个互不打扰的并行机床，这里的阶段通过零部件的加工特征划分。可以在解决问题过程中指定优化目标，完成对零部件加工顺序、加工机床选择、加工时间确定等操作。相较于流水车间，其最大的不同就是加工中每个待加工阶段可以选择的同种数量的机床有多个，即并行机床进行处理。

图5展示了混合流水车间问题的一般过程，将需要加工的工件放入调度流程进行调度，在每个阶段都有若干个并行机床可选择，完成所有阶段则完成所有工件的加工。这里的调度单位为加工特征，每个阶段都需要完成一个加工特征的调度，优化目标根据具体需求设定。得到的数学模型如下所示：

min(f)＝min{max{T_j}} (1)

约束包含：

F_j＝E_ijm (2)S_i，j，m+T_i，j，m≤S_i+1，j，m (3)

1≤i≤N，1≤j≤O_i，1≤m≤M_i (6)

其中，变量f为最终的完成时间，目标函数指最小化最大加工时间，使得整个加工过程时间最短。公式(3)表示当前机床加工结束当前工件后才能加工下一个工件，公式(4)表示零部件加工完当前工序后才能加工下一个工序，公式(5)表示某个加工单位必须被该阶段的某个机床加工处理。

目前有复杂零部件的固定加工方案，该加工方案规定了特征的加工顺序，机床的选择，刀具的选择，机床的数量，刀具的数量，将问题中的加工特征看作是典型调度中的工序，多个机床看作是并行机床，将问题建模为混合车间调度模型。现在给出研究的零部件加工问题的工艺规划方案，并进行调度单位的转换，转换的方式如表1所示。

表1调度问题转换

表1中为一个工件的加工方案，其中，工序O_ij表示第i个工件的第j个工序。加工特征MF_ijk表示第i个工件的第j个工序中的第k个特征。

由于现在以工序的组成单位加工特征作为调度的基本单位，一个零部件加工调度任务的工作量会变的极大，例如本实施例中有503个加工特征但只有11个工序。从加工特征的角度进行车间调度使得调度计算过程变的较为复杂，也能获得更好的调度优化效果。需要注意的一点是，由于机床的数量和配置的工序已经被求解规定，所以每次生成的调度方案都调度同一种零部件。该问题的基本求解流程如下：

(1)初始化机床零部件信息，包括特征数量、每个阶段对应的机床数量和每个阶段在特定机床上的加工时间。

(2)对上个阶段的零部件加工顺序倒序排序获得最早结束加工的零部件。

(3)为每个零部件的当前阶段分配相应的机床，方法是从当前零部件的加工方法中挑选加工时间最短的。

(4)所有阶段结束则完成调度，否则重复步骤(2)。

确定完调度策略后，设计问题的优化方式。此方法的整个加工方案由初始阶段的零部件加工顺序决定，因此在编解码主要针对初始阶段的加工顺序，一般而言，一个编码对应于一个加工方法，在优化时只需要对此编码进行变换操作就可以实现调度方案的变化。现有编号1-7的零部件待加工，则可将编码表示为[1,5,4,3,6,7,2]。

这里对实际的零部件的加工数据进行优化加工，实验分为以工序为单位和以加工特征为单位。零部件1共10个工序，机床的数量为[5,3,3,3,1,4,3,2,1,3]。将实际得到的工件1和工件2的工艺规划方案放入调度算法中，503个特征划分为503个阶段，同样设置10个相同零部件进行加工，需要注意研究将加工资源对每个工件的加工时间由于工序数量稀少设置不再添加随机数，故加工时间相同。而对于以加工特征为调度单位的算法中，研究添加随机数作为调度过程中的时间损耗，保证不同机床调度过程中加工时间的不同，观察两个调度方法的好坏，优化结果如图6a～6c所示。由于在调度过程中每次选择加工机床时将使当前加工时间最短的机床设置为当前运行机床。以工序为单位加工时，由于每次可选择的加工资源只有一个，且加工资源对相同工序的加工时间由于没有额外的添加随机数导致每个工件当前工序的加工时间都相同，所以一般而言只有一个优化解，和采用加工特征的优化方式相比，耗费的时间多了两倍左右，可以得出结论，以加工特征为单位进行调度的方式在此目标下可以获得更优解。

调节算法参数，利用遗传算法、模拟退火、差分进化和禁忌搜索算法对比，观察在混合车间调度问题上不同算法的效果。其中，遗传算法和禁忌搜索算法参数完全相同，邻域搜索算法主要设置相同的加工时间，按迭代次数的倍数间隔采样。如图7所示，遗传算法和其它几种算法进行对比，可以看出，在此问题的优化方法上，遗传算法的收敛速度更快，最终值和差分进化算法相同。

接下来使用序列选择超启发式算法对问题进行优化，序列选择超启发式在执行的过程中通过迭代不断修改优化策略去选择一组低级启发式策略对问题进行优化，直到满足终止条件。选择超启发式中的低级启发式算法可以是简单的运算符、元启发式算法甚至潜在的超启发式算法。它们是通过自身的搜索策略来进行划分。想要设计一个序列选择超启发式算法需要完成六个组成部分的设计(如图8所示)。

Sarsa(lambda)是属于强化学习算法中的经典算法之一，它被分类为在线学习算法。Sarsa(lambda)是Sarsa的一种改进形式，是一种类似于Q-Learning的基于值的算法，此类算法非常适合于离散优化领域。与常见的强化学习算法一样，Sarsa(lambda)由两个主要元素组成：状态和动作。例如可以假设S＝[s₁，s₂，s₃，…，s_n]表示优化时的不同状态，而A＝[a₁，a₂，…，a_n]表示每个状态下一步可以进行的操作，每次只能选择一个操作去执行，操作指对环境的一些实际动作，在研究中指执行对问题的优化算法。

该算法的流程图如9所示，Agent当中包含状态集合、动作集合和需要更新的Q表，Q表中每个位置的值由Q(s，a)表示，在初始化Agent中的三个要素后从状态集合S中选择动作和环境交互，观察得到的奖励和更新后的状态，根据Q表来选择下一步动作，而后更新Q表和衰减矩阵判断是否达到终止条件，直到本次算法执行结束。在研究的问题中，由于可能有不同的迭代次数，强化学习状态的数量是未知的，而每次可选择的操作是有限的，其由算法本身设定的低级启发式算法池决定。除了这两个元素外，当前迭代的奖励定义为r，γ表示未来奖励的衰减值，α表示学习率。经过多次迭代后，将构建一个Q表，评估在特定状态下采取行动的优缺点。因此，在Sarsa中更新Q表的公式如下：

Q(s，a)＝Q(s，a)+α[r+γQ(s′，a′)-Q(s，a)] (7)

其中Q(s′，a′)表示具有下一状态s′和动作a′的值。Sarsa是每一步都在更新状态的算法，这意味着早期迭代的试验对结果有很大的影响，而这些试验大多数情况下是无用的，前期的尝试也会对实验结果产生较大的影响。假设有一个目标正在等待实现，由于参数λ的存在，越接近目标的操作对结果的影响越大。简单地说，该算法为每次更新提供一个衰减值λ，该参数可以使得远离最优解的操作变得不重要从而更加关注达到目标的操作。

图9中的E表示保存路径中每个步骤的衰减矩阵，它可以在每次迭代时选择更新E的方法。一般有两种类型，第一种类型是使用方程E(s，a)＝E(s，a)+1，而第二种类型的方程是E(s，a)＝1。选择哪种方法更新E目前没有定论，很多研究者都认为最佳的选择方法是尝试并比较它们，本方案选择的是第二种。

总之，基于强化学习的超启发式算法中需要重点关注的部分分别为高级启发式策略，低级启发式算法池和移动接受策略，其他的组成部分直接采用较为成熟的方案，确定三个方面后需要有一个抽象层连接模型到具体的问题。

将基于强化学习的序列选择超启发式算法运用到问题上，强化学习中的奖励值由估算得到的加工时间上限减去当前的加工时间。

r＝4000-t (8)

因此最大化r的过程就是最小化加工时间的过程，学习过程获取奖励值r。图10为训练的结果，得到的序列为[3，1，1，1，4，1，4，4，2]，0-4分别表示随机算法、遗传算法、差分进化算法、禁忌搜索算法和模拟退火算法。从图10中可以看出，最后一个迭代周期对问题的优化效果要高于前面的迭代周期。图11是本方案生成的序列选择算法和其他算法的对比，图中对解进行填充后对比优化结果，明显看出序列选择算法求解的运行序列对问题的求解更优。

综上可知，本技术方案针对大规模复杂约束下零部件的工艺规划方案确定该零部件的加工配置资源，使用工艺规划求得的单个零部件的加工资源研究批量生产此类零部件的方法，针对此类资源受限零部件加工的批量生产问题给出相应算法并在实际的数据上进行实验验证结果。对调度模型进行重新建立，以全新的角度对问题进行调度，将问题转换为混合流水车间问题进行调度，优化对比不同算法在此问题上的结果。本方案研究解决复杂零部件的批量生产问题，考虑到在实际加工过程中由于零部件的加工特征众多，一个工序中可以拥有上百个加工特征，因此传统零部件以工序为单位进行调度会极大浪费加工资源，在获得零部件的工艺规划方案后，确定车间调度资源，包括机床刀具等，把零部件的加工特征看作是阶段，每个工序中的多个同种机床看作是并行机床，将问题转换为混合流水车间问题进行求解，将调度结果和以工序为调度单位进行比较，并在实际数据上验证了调度优化算法性能。

Claims

1.一种复杂零部件批量生产优化调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种复杂零部件批量生产优化调度方法，其特征在于，所述步骤S1具体包括以下步骤：

3.根据权利要求2所述的一种复杂零部件批量生产优化调度方法，其特征在于，所述步骤S11中调度单位的转换具体是将调度单位由工序转换为加工特征，根据加工特征划分不同加工阶段。

4.根据权利要求2所述的一种复杂零部件批量生产优化调度方法，其特征在于，所述步骤S12中调度优化目标具体为：

min(f)＝min{max{F_j}}

5.根据权利要求4所述的一种复杂零部件批量生产优化调度方法，其特征在于，所述步骤S12中约束条件具体为：

F_j＝E_ijm

S_i,j,m+T_i,j,m≤S_i+1,j,m

1≤i≤N，1≤j≤O_i，1≤m≤M_i

其中，N为零部件总数量，O_i为零部件i的所有工序数量，M_i为零部件i使用的并行机床数量，F_j为第j个工序的加工时间，E_ijm为零部件i的第j个工序使用机床m的结束时间，S_i,j,m为部件i的第j个工序使用机床m的开始时间，T_i,j,m为部件i的第j个工序使用机床m的持续时间，x_i,j,m为部件i的第j个工序使用机床m的加工单位。

6.根据权利要求5所述的一种复杂零部件批量生产优化调度方法，其特征在于，所述步骤S12中调度策略具体为：

(4)所有阶段结束则完成调度，否则返回步骤(2)。

7.根据权利要求6所述的一种复杂零部件批量生产优化调度方法，其特征在于，所述步骤S12中混合流水车间调度模型具体为：在生产车间中有n个零部件待加工，每个零部件均有一个及以上的阶段待加工，车间为每个阶段提供多个互不打扰的并行机床，所述阶段通过零部件的加工特征进行划分。

8.根据权利要求1所述的一种复杂零部件批量生产优化调度方法，其特征在于，所述步骤S2具体是采用强化学习方式作为高级选择策略，以迭代地从低级启发式算法集合中依次筛选出多个启发式算法，从而排序得到启发式算法执行序列。

9.根据权利要求8所述的一种复杂零部件批量生产优化调度方法，其特征在于，所述低级启发式算法集合中包括随机算法、遗传算法、差分进化算法、禁忌搜索算法、模拟退火算法。

10.根据权利要求9所述的一种复杂零部件批量生产优化调度方法，其特征在于，所述步骤S2具体包括以下步骤：

S21、构建低级启发式算法池；