CN113506048A

CN113506048A - 一种柔性作业车间的调度方法

Info

Publication number: CN113506048A
Application number: CN202111055211.1A
Authority: CN
Inventors: 励春林; 刘永奎; 王立献; 王富龙; 张海浪; 崔岚岚; 陈高平
Original assignee: Xidian University; Ningbo Shuaitelong Group Co Ltd
Current assignee: Xidian University; Ningbo Shuaitelong Group Co Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-10-15

Abstract

本发明提供了一种柔性作业车间的调度方法，属于动态调度技术领域，包括步骤：S1：根据柔性作业车间调度中的预设加工信息建立相应的数学模型；S2：以每道工序的加工完成的时间点作为调度的决策时间点进行时间离散型马尔科夫决策模型的建立；S3：根据数学模型和马尔科夫决策模型建立相应的柔性车间调度环境；S4：根据机器数量和工件数量构建神经网络模型，并训练神经网络模型。本发明将柔性车间调度问题转换为马尔科夫决策模型，且构建神经网络模型对柔性车间进行调度决策，具有很强的自适应性和实时性，能够在秒级以内的时间内根据环境变化生成合理的调度方案，减少车间环境中不确定扰动对生产过程的影响，大大提高产线生产效率。

Description

一种柔性作业车间的调度方法

技术领域

本发明属于动态调度技术领域，尤其涉及一种柔性作业车间的调度方法。

背景技术

柔性作业车间调度问题(FJSP)在许多实际工业领域中都有应用和发展。FJSP可以认为是作业车间调度问题的延伸。在经典的FJSP中，有n个工件需要在m台机器上加工，每一个工件都需要经历若干个加工步骤，每一个加工步骤都对应一个能够加工的机器集合，加工步骤都需要选定一台机器完成，每台机器在同一时刻只能加工一个工件，每个工件在同一时刻也只能被一台机器加工，通常情况下允许抢占。

过去的几十年里，许多优化方法被设计出来并应用到作业车间调度问题中以寻找最优解。对于作业车间调度的很多研究致力于不变的静态环境下。而在大多数现实环境中，调度是一个持续的反应过程，其中各种意外中断的出现通常是不可避免的，如机器故障，生产人员的缺席，紧急订单，质量问题返工，交货日期改变以及订单取消等问题，并且不断地迫使系统重新考虑和修改预先建立的调度。这时为解决静态调度问题所提出的传统方法则得不到充分的发挥，不能处理实际生产过程中的不确定事件（如机器故障，加工时间的改变等）。另外，研究人员目前主要使用数学规划（整数规划，动态规划等）或者各种元启发式（遗传算法，进化算法，各种混合算法等）的方法解决柔性作业车间调度问题，在求解大规模的柔性作业车间调度问题时，上述方法求解时间太长，不能满足大规模生产下实时调度的需求。

发明内容

本发明的目的是针对现有的技术存在上述问题，提出了一种自适应性强，实时性高，计算速度快且可靠性高的柔性车间调度方法。

为了实现上述目的，本发明采用的技术方案为：

一种柔性作业车间的调度方法，包括步骤：

S1：根据柔性作业车间调度中的预设加工信息建立相应的数学模型，所述预设加工信息包括机器数量，工件数量，各工序的加工时间，工件的运输时间以及功能转换所需的准备时间；

S2：根据柔性作业车间调度中的预设加工信息，以每道工序的加工完成的时间点作为调度的决策时间点进行时间离散型马尔科夫决策模型的建立；

S3：根据数学模型和马尔科夫决策模型建立相应的柔性车间调度环境，并构建相关环境预设条件；

S4：根据机器数量和工件数量构建神经网络模型，并通过预设算法训练神经网络模型；

S5：根据训练后的神经网络模型文件和当前加工信息进行柔性作业车间的调度决策。

在上述的一种柔性作业车间的调度方法中，步骤S1具体包括：

S11：获取柔性作业车间中的工件数量n，机器数量m，加工时间

，运输时间

以及准备时间

；

S12：建立工件完工时间计算方法；

S13：建立最小化最大完工时间数学模型。

在上述的一种柔性作业车间的调度方法中，步骤S12中工件完工时间计算方法具体为：

其中，

为工件i的第k道工序在机器j上的加工时间，

为工件从第1道工序到第k-1道工序之间的运输时间，

为机器j从加工上一个工件x的y道工序到加工工件i的第k道工序所需要的准备时间，k=1,2，…m。

在上述的一种柔性作业车间的调度方法中，步骤S13中最小化最大完工时间的数学模型具体为：

。

在上述的一种柔性作业车间的调度方法中，步骤S2中马尔科夫决策模型具体包括定义系统状态空间，定义系统动作以及设置奖励函数，其中，系统状态空间包括工件的状态信息和机器的运行状态信息。

在上述的一种柔性作业车间的调度方法中，奖励函数具体为：

当工件正在机器上加工或机器正在运行，奖励函数

；当所有工件完工时，奖励函数

；

式中，oldtime是上一次的完成时间，thistime是在时间当前t时刻下的完成时间。其中，α和β是两个常量，根据不同规模的问题取不同的值，α的取值范围为0.5-1.5，β的取值为所有工件中所有工序的加工时间的平均值。

在上述的一种柔性作业车间的调度方法中，所述预设条件应满足不同工件或机器之间互不干扰且满足加工要求。

在上述的一种柔性作业车间的调度方法中，步骤S4具体为：

S41：根据工件构建与工件数量一致的多个子网络；

S42：设置一个总体网络输出层；

S43：将多个子网络的输出层与总体网络输出层进行连接构成一个总体网络，得到神经网络模型；

S44：通过预设算法训练神经网络模型。

在上述的一种柔性作业车间的调度方法中，步骤S41中子网络包括输入层，隐藏层以及输出层，其中，输入层，隐藏层以及输出层中均设置有多个神经元，且输出层中的神经元数量与机器数量一致。

在上述的一种柔性作业车间的调度方法中，步骤S44具体包括：

S441：根据构建的神经网络模型搭建目标网络和估值网络，并对目标网络和估值网络进行初始化；

S442：通过智能体获取车间状态信息，并将状态信息归一化处理后输入到估值网络，且通过估值网络向前传输当前动作的收益值；

S443：根据收益值并通过贪婪策略选取要执行的动作，并根据选取的动作确定要加工的工件和分配的机器；

S444：重复步骤S442至步骤S443，直至所有工件的所有工序全部被分配在机器上加工；

S445：对估值网络和目标网络进行优化更新；

S446：判断神经网络的损失函数是否收敛到0，若是，则停止训练并保存神经网络模型，若否，则至步骤S441。

与现有技术相比，本发明具有以下有益效果：

1、本发明提供的一种柔性作业车间的调度方法，将柔性车间调度问题转换为马尔科夫决策模型，且构建神经网络模型，并使用训练后的神经网络模型对柔性车间进行调度决策，该方法具有很强的自适应性和实时性，能够在秒级以内的时间内根据环境变化生成合理的调度方案，在应对生产过程中出现的突发事件时可以快速响应生成新的调度方案来及时恢复生产，减少车间环境中不确定扰动对生产过程的影响，大大提高产线生产效率；

2、本发明提供的一种神经网络模型，根据工件的数量构建了同等数量的子网络，再将这些子网络连接在一起构成一个大的网络，使得神经网络能够更好的学习到工件的加工信息，利用该神经网络生成的调度结果中，工件的完工时间更短，大幅提高了工件的完工效率；

3、本发明中将深度强化学习算法与柔性车间生产调度相结合，形成一种柔性作业车间的调度方法，为生产车间提供合理的调度方案，在环境变换时，可以快速进行计算，得到新的调度结果，解决了产线加工中计划不合理和机器故障引起的生产停滞等问题。

附图说明

图1是本发明一种柔性作业车间的调度方法中的步骤图。

图2是本发明一种柔性作业车间的调度方法中S1具体步骤图。

图3是本发明一种柔性作业车间的调度方法中S4具体步骤图。

图4是本发明一种柔性作业车间的调度方法中S44具体步骤图。

图5是本发明一种柔性作业车间的调度方法中的系统框架图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

需要说明，本发明实施例中所有方向性指示（诸如上，下，左，右，前，后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系，运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

如图1至图5所示，本发明提供了一种柔性作业车间的调度方法，包括步骤：

本发明提供的一种柔性作业车间的调度方法，为一种基于深度强化学习的柔性车间调度方法，将柔性车间调度问题转换为马尔科夫决策模型，且构建神经网络模型，并使用训练后的神经网络模型对柔性车间进行调度决策，该调度方法具有很强的自适应性和实时性，能够在秒级以内的时间内根据环境变化生成合理的调度方案，在应对生产过程中出现的突发事件时可以快速响应生成新的调度方案来及时恢复生产，减少车间环境中不确定扰动对生产过程的影响，大大提高了产线生产效率。

优选地，如图2所示，步骤S1具体包括：

，运输时间

以及准备时间

；

S12：建立工件完工时间计算方法；

S13：建立最小化最大完工时间数学模型。

进一步优选地，步骤S12中工件完工时间计算方法具体为：

；

步骤S13中的数学模型具体为：

其中，

为工件i的第k道工序在机器j上的加工时间，

为工件从第1道工序到第k-1道工序之间的运输时间，

为机器j从加工上一个工件x的y道工序到加工工件i的第k道工序所需要的准备时间，k=1,2，…m，

代表最小化最大完工时间。

在本实施例中，柔性作业车间调度问题是将n个工件分配到m台机器上加工的过程，其中每个工件包含多道工序，每道工序可以在多台机器上进行加工，不同工序在不同机器上的加工时间不同。根据不同规模的柔性作业车间，以及生产过程中的各种加工信息，如工件的物流时间，机器的多功能性及其各个功能转换所需要的时间，工件的交期时间等，以最小化最大完工时间为目标，建立相应的数学模型，具体如下：

，k = 1,2,3,…m；

目标函数：

；

其中，各符号及其含义如下：

T _i：工件i的完工时间；

工件集：J={J ₁ ,J ₂ ,J ₃ ,…,J _n }，表示n个工件的集合；

机器集：M={M ₁ ,M ₂ ,M ₃ ,…,M _m }，表示m台机器的集合；

工序集：O _i ={O _i1 ,O _i2 ,…,O _ik, …}，表示工件J _i的所有工序

的集合；

：工件i的第k道工序在机器j上的加工时间；

：工件从第1道工序到第k-1道工序之间的运输时间，k = 1,2,…m；

:机器j从加工上一个工件到加工工件i的第k道工序所需要的准备时间。

使用本方法解决不同规模的柔性作业车间的调度问题时，通过DQN智能体获取柔性作业车间的加工信息，并定义相关加工信息的计算方法，为后续的调度提供基础数学模型以及加工信息，使得后续的调度可以在短时间内根据环境变化生成新的调度方案，大大减少了生产调度所需的时间，避免了因长时间停滞造成的产品积压和交期延误等问题。具体的加工信息包括：机器数量，工件数量，各工序的加工时间，工件的运输时间，机器的启动时间和功能转换所需的准备时间，工件的交期时间，将这些加工信息以文本数据的方式保存到计算机的存储介质内，供计算机程序本地读取，大大提高了计算机读取数据的效率。

优选地，如图1至图5所示，步骤S2中马尔科夫决策模型具体包括定义系统状态空间，定义系统动作以及设置奖励函数，其中，系统状态空间包括工件的状态信息和机器的运行状态信息。

进一步优选地，奖励函数具体为：

当工件正在机器上加工或机器正在运行，奖励函数

；当所有工件完工时，奖励函数

；

在本实施例中，将柔性作业车间调度问题转换为马尔科夫决策过程，以每道工序的完成时间作为调度的决策时间点，即有机器空闲并且有待加工的工件时才进行决策。在零时刻，所有机器和工件处于就绪状态，每次决策只分配一个工件到指定的机器上，直到所有工件的所有工序全部分配到指定的机器上进行加工才完成一次调度过程。将这个顺序决策过程转换为一个时间离散的马尔科夫决策过程，建立相应的马尔科夫决策模型。

具体步骤如下：

（1）定义系统状态S

工件的状态：

机器的状态：

其中，S _j表示第j个工件的状态，O _ji表示第j个工件的第i道工序，O _j表示第j个工件的总工序数；S _m表示第m个机器的状态，T _m是第m台机器的运行时间，n为机器总数。

（2）定义系统动作：

a _t ={1,2,3,… ,D}

job ID=a _t /m

machine ID=a _t /m

动作空间的维度为D=n*m。智能体会根据a _t来选择要加工的工件和指定加工机器，式中job ID，machine ID即为选择的工件和机器编号。

（3）设置奖励函数：

当工件正在机器上加工或机器正在运行，奖励函数

；当所有工件完工时，奖励函数

；

通过将柔性作业车间调度问题转换为离散时间型马尔科夫决策过程，使得本柔性作业车间调度方法可以在深度强化学习中得到最优调度方案，且能够在环境变化时以最短时间生成最新的调度方案，极大的提高了本柔性作业车间调度方法的实时性和可靠性。

优选地，如图1至图5所示，所述预设条件应满足不同工件或机器之间互不干扰且满足加工要求，预设条件具体包括：机器之间是相互独立的，工件之间是相互独立的，同一工件的不同工序之间的优先关系不可改变，一台机器同一时刻只能加工一个工件，机器在加工过程中，不可以被打断，若工件加工不符合标准，则直接抛弃，不再返工。

在本实施例中，通过提前设置各预设条件，使得在调度过程中，各工件，机器以及各工序之间均为独立工作，不受其他因素影响，能最大程度的保证系统在最短时间内实现新的调度方法。

优选地，如图3所示，步骤S4具体为：

S41：根据工件构建与工件数量一致的多个子网络；

S42：设置一个总体网络输出层；

S44：通过预设算法训练神经网络模型。

进一步优选地，步骤S41中子网络包括输入层，隐藏层以及输出层，其中，输入层和隐藏层均使用relu激活函数，输出层使用lieaner激活函数。

在本实施例中，根据工件数量n和机器数量m构建不同规模大小的全连接神经网络模型。首先根据工件数量n,构建n个结构相同的子网络。其中每个子网络由1个输入层，4个隐藏层，1个输出层组成。输入层设置2个神经元，使用relu激活函数；隐藏层每层设置24个神经元，使用relu激活函数；输出层设置m个神经元,使用lieaner激活函数；各层之间全连接构成n个独立的子网络。然后设置一个总体网络的输出层，设置n*m个神经元，采用lieaner激活函数。最后将n个子网络的输出层与总体网络的输出层进行全连接构成一个总体网络。具体实施中，可以使用pytorch，tensorflow，keras等一些机器学习库来搭建神经网络模型。通过设置由多个子网络连接构建的神经网络模型，使得神经网络能够更好的学习到工件的加工信息，利用该神经网络生成的调度结果中，工件的完工时间更短，大幅提高了工件的完工效率。

优选地，如图4所示，步骤S44具体包括：

S445：对估值网络和目标网络进行优化更新；

在本实施例中，使用DoubleDQN算法训练神经网络模型，本柔性车间调度方法所依赖的调度系统包括柔性作业车间模块和DQN智能体，DQN智能体从车间中感知状态信息，通过神经网络的前向传播输出每个动作的Q(s _t ,a)值，DQN智能体会根据ε贪婪策略进行动作选择：以ε概率进行随机选择，以（1-ε）概率选择Q(s _t , a)值最大的动作a _t。然后根据所选择的动作a _t来确定要加工的工件和指定的机器，进行加工。环境中的一些动态事件（机器故障，紧急订单的插入，交货时间的改变等）的加入会使环境状态产生一些不确定的变化。加工完成后，车间的状态会发生改变并给智能体反馈一定的奖励信号。智能体根据新的车间状态和奖励继续选择动作，同时会将每次的车间状态信息，动作，奖励等信息存入记忆池中并从中抽取一定的样本来进行神经网络的反向传播，并不断更新网络的参数θ。在正常的情况下按这个过程不断循环训练，直到神经网络的损失函数逼近于0。

具体步骤如下：

（1）首先初始化目标网络和估值网络，目标网络和估值网络均使用上述搭建的神经网络模型，将权重随机初始化，偏置初始化为0。

（2）提取系统的状态信息，将状态信息归一化处理后展开成一维向量输入给估值网络，估值网络前向传播输出当前状态-行动对的Q(s, a _t )值。

（3）根据贪婪策略选取要执行的动作。以ε概率进行随机选择，以（1-ε）概率选择Q (s, a _t )值最大的动作a _t。其中ε代表智能体进行探索的概率，设置初始值为ε ₀ = 0.9，即训练开始时，智能体以90%的概率进行随机探索行动，以10%的概率利用智能体已经学到的知识进行选择行动。ε值依据迭代公式进行更新，公式随着神经网络的迭代次数的增加而减小，最小值限制在0.01，迭代公式具体为：

，

其中，n为神经网络迭代次数。

（4）根据选取的动作a _t，解析出要分配的工件和机器。将工件分配到指定的机器上后，记录操作工件工序的开始时间和结束时间，更新系统的状态信息s _t+1，并计算执行这次动作所获得的奖励r _t，系统返回r _t，s_t+1以及done。将这一次的状态转换过程<s _t , a _t ,r _t ,s _t+1 , done>存储到一个容量为2000队列容器D中。

（5）重复上述步骤（2）-（4），直到所有工件的所有工序全部被分配在指定机器上加工。从队列容器D中根据重要性采样一批mini-batch数量的数据来对估值网络和目标网络参数的优化。

（6）估值网络和目标网络参数的优化过程如下：

使用从队列容器D中采样来的mini-batch个样本数据<s _t , a _t ,r _t ,s _t+1 ,done>，t=1, 2,3,4,...m计算t时刻的目标Q值y _t

式中，θ为估值网络参数，

为目标值网络参数，γ为折扣因子。

使用目标值y _t与估计值Q(s_t,a _t,θ)的均方差作为损失函数：

使用自适应估计（Adam）优化器对损失函数求导，根据学习率u更新估值网络参数θ：

。

（7）以固定频率更新目标值网络参数。在实际操作中，我们设置估值网络每迭代10次，就将估值网络的参数赋值给目标值网络

。

（8）上述步骤（1）-（7）为完整的一次训练过程，每次训练开始，先加载柔性作业车间的各项加工数据，使系统初始化。然后不断重复（1）-（7）的训练过程，直到神经网络的损失函数逐渐收敛到0附近，则停止训练保存神经网络模型。

在实际训练过程中，算法的参数设置如下：

需要说明的是，在本发明中如涉及“第一”，“第二”，“一”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”，“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。术语“连接”，“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。