CN115034653A

CN115034653A - 一种基于transformer的端到端动态作业车间调度模型

Info

Publication number: CN115034653A
Application number: CN202210738071.6A
Authority: CN
Inventors: 郭洪飞; 陈世帆; 张恒基; 黄祖艺; 洪晓杰; 姜涛; 李建庆
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-09
Anticipated expiration: 2042-06-27
Also published as: CN115034653B

Abstract

本发明涉及用于人工智能技术领域，具体涉及一种基于transformer的端到端动态作业车间调度模型，可以应用于不同尺寸的DJSSP(作业车间调度问题)。由特征提取模块、特征压缩模块、动作选择模块所构成。特征提取模块提取生产环境特征，并利用特征压缩模块将生产环境的特征进一步压缩成定长向量。然后，动作选择模块根据压缩后的能够反映生产环境状态的定长向量，实时选择简单优先级规则。本发明所建立的模型是Transformer在DJSSP中的第一个应用，不仅提高了工业调度的生产能力，而且为未来深度学习在DJSSP中的研究提供了范式。

Description

一种基于transformer的端到端动态作业车间调度模型

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于transformer的端到端动态作业车间调度模型。

背景技术

调度在智能制造中起着至关重要的作用，因为有效的调度可以提高生产的盈利能力和资源利用率。作业车间调度问题(JSSP)是制造业中的典型调度问题，它是一个NP-hard的组合优化问题，旨在在给定一组作业的情况下找到生产调度的最优解。其中，每个作业都需要通过不同的机器加工不同的工序，才能被制成。大多数解决JSSP的方法都假设生产环境是静态的，生产环境的状态是预先知道的。但是，在生产环境中发生机器故障、新作业插入等动态事件时，这些解决JSSP的方法所得到的初始调度计划会变得无效，从而需要对作业进行重新的调度。而考虑动态事件的JSSP被称为动态作业车间调度问题(DJSSP)，有效解决DJSSP可以更好地提高实际生产中的生产力。

目前，已有多种解决DJSSP的方法被提出。由于调度规则比较简单、容易实现、计算复杂度低，因此在生产中被广泛使用。然而，实时选择调度规则进行调度是至关重要的，因为不同的调度规则在不同的DJSSP中的性能有很大的不同：

元启发式算法在解决DJSSP方面也具有一定的竞争力，其中，元启发式算法中的进化算法和基于群的算法被较多地运用于DJSSP中。

进化算法是受到生物进化的启发而实现的算法，它模仿生物进化的机制来产生更好的解决方案，如遗传算法和差分进化算法，而基于群的算法模仿自然界中鱼群、鸟群、狼群等动物群体的行为，利用群体间的信息交流，通过个体间简单而有限的互动实现优化，如灰狼优化、蚁群优化和粒子群优化。

尽管元启发式算法可以产生高质量的解决方案，但它们往往需要进行大量的迭代才能得到最优或接近最优的解；强化学习(RL)是解决组合优化问题的一种有效方法，并已成功应用于各个领域。由于RL的快速计算能力和应对动态事件的能力，其在解决DJSSP方面取得了突出的成就。如Q-learning、DQN、PPO等RL算法在解决DJSSP问题上，都取得了成功。

深度学习是人工智能中的一种表示学习方法，它具有更深的网络结构，能够将输入的特征映射到特定的输出。深度学习方法可以对未见过的问题进行很好的泛化，一些研究者已经成功地利用深度学习来解决DJSSP。如多层人工神经网络(ANN)、二维卷积神经网络(CNN)、长短期记忆网络(LSTM)等网络模型都成功地被应用于DJSSP的求解中。然而，大部分用于求解DJSSP的深度学习模型或是需要一个模块对模型的输入进行预处理，或是需要使用其他模块对模型的输出进行处理以产生最终的调度方案，这可能会加剧各个模块之间的误差，导致无法获得最优的调度方案。

现有的求解动态作业车间调度问题的方法中，CN201510844179.3针对动态作业车间调度问题的基于局部搜索遗传编程算法；此专利设计了一种搜索机制，更好地实现了开发和探索之间的平衡，能够在更短的时间内，得到一个效果良好的调度规则。

CN201810092067.0基于多色集合的改进遗传算法求解动态车间调度的方法，此专利将遗传算法与多色集合理论相结合以求解DJSSP。

前述两者所提出的方法的泛化性能有限，无法有效解决尺寸不同的DJSSP实例，可见这一领域的相关研究仍存在空白。

总体来说，利用深度学习解决不同尺寸的DJSSP的研究不多，而鉴于现实生活中，DJSSP的尺寸往往是不固定且多样的，开发出一种能够有效解决不同尺寸的DJSSP问题能够有效提高工业生产效率，意义重大。

发明内容

本发明提供一种基于transformer的端到端动态作业车间调度模型，以析取图为输入，以调度规则作为输出，为解决动态作业车间调度问题提供了一种完全基于数据驱动的方法。

一种基于transformer的端到端动态作业车间调度模型，包括征提取模块、特征压缩模块和动作选择模块；

根据车间生产状态建立析取图，根据析取图作为模型的输入；

使用特征提取模块提取所述析取图中的初始特征并将初始特征转化为特征向量矩阵；

使用特征压缩模块将所述特征向量矩阵转换成256维的固定长度的向量；

使用动作选择模块根据所述固定长度的向量在每个决策时刻从8个调度规则中选择特定的调度规则进行车间调度，

其中，动作选择模块在每个决策时刻使用softmax函数来进行调度规则的选择。

特别地，利用交叉熵损失函数训练所述模型，使用交叉熵损失函数计算所述模型针对一个特定的析取图所输出的调度规则与所述析取图所对应的标签之间的交叉熵损失，

其中，将针对一个特定的析取图所选择的特定的调度规则作为所述析取图的标签并根据该交叉熵损失训练模型，交叉熵损失L的计算如下：

其中，N表示用以训练模型的总的析取图的数量；v表示8个调度规则中的1个；c表示任意一个单独的析取图；y_cv∈{0,1}是表示析取图c是否与调度规则v相对应的标签，y_cv＝0表示调度规则v不是析取图c所对应的标签，y_cv＝1表示调度规则v是析取图c所对应的标签；p_cv表示析取图c与调度规则v相对应的概率；

当交叉熵损失L小于预定值时，所述模型训练完毕。

特别地，使用能够反映车间生产状态的析取图作为SPP-Transformer输入；析取图为G＝(V,C∪D)的有向图；

其中，V为所有作业的工序的集合，所述工序被表示为析取图中的各个顶点；

V同时包括源点和汇点两个假顶点，分别代表为调度的开始和结束；

在析取图中，每两个连续的工序之间若存在优先级约束，则使用有向连接边将这两个工序进行连接，所有的有向连接边组成了集合C；

为了更好地反映DJSSP中的动态特征，将以下几个属性添加到析取图的每个顶点中：

每个工序的编号；

(1)每个工序的编号。

(2)包含该顶点所表示的工序的作业编号。

(3)能够加工该顶点所表示的工序的机器编号，若无能够加工该工序的机器，则该顶点所对应的机器编号为0。

(4)工序完成情况：“1”表示该顶点所表示的工序已完成加工，“0”表示该顶点所表示的工序正在被加工，“-1”表示该顶点所表示的工序未完成加工。

(5)完成率：当此顶点所表示的工序完成加工后，包含此工序的作业的完成率。即该作业中已完成加工的工序数量与该作业总的工序数量的比值。

(6)剩余工序数量。即此顶点所表示的工序完成加工后，包含此工序的作业的剩余的待完成加工的工序数量。

(7)等待的时间。即此顶点所表示的工序从整个生产活动的开始到这道工序开始被加工所经过的时间。

(8)加工时间。加工此顶点所表示的工序所需的时间。

(9)剩余时间。距离此顶点所表示的工序完成加工的时间，其中“0”表示此顶点所表示的工序还未开始加工。

(10)此顶点所表示的工序是否可被加工，如果该工序可被加工，则该属性为“True”。

进一步地，使用特征提取模块提取析取图中的初始特征并将初始特征转化为特征向量矩阵；

所述模型的特征提取模块由6个编码器层组成，每个编码器层包含堆叠的attention函数、feed forward network、残差连接和Layer normalization；

每道工序与析取图中的每个顶点相对应，每个顶点被视作1个长度为10的特征序列；

所有顶点所对应的特征序列共同构成了特征序列矩阵，并被输入至所述特征提取模块中，由特征提取模块进行处理，得到特征向量；

其中，所述特征提取模块中的attention函数计算所输入特征序列矩阵中的注意力分布，attention函数使用查询Q以确定当前加工过程中的所有工序所涉及的加工类型，使用键K表示当前正在处理的工序的加工类型，使用值V表示当前在处理的工序的信息。并将查询Q和键值对所构成的集合映射到输出；

其中

d_L代表总的工序数量，而d_F＝10代表输入的特征序列的长度；

计算查询Q和键K的点积，得到所有工序的匹配分数，并将匹配分数进一步除以

应用softmax函数来获得值V的权重，计算权重和数值V的点积来计算输出；

其中，attention函数如下所示：

进一步地，attention函数与multi-head attention结合，且多个multi-headattention的输出组合，使用不同的查询Q和键K获取更多的信息，如下所示：

MultiHead(Q,K,V)＝Concat(head₁,...,head_H)W^multi

其中

其中，H代表应用于输入的长度为10的特征序列的attention数量，

和

代表参数矩阵。

进一步地，所述的feed forward network由一个非线性的激活函数和两个线性的组成，具体为：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

且在所述feed forward network子层和每个所述multi-head attention周围使用了残差连接，并在残差连接后使用Layer normalization防止内部协变量偏移。

特别地，使用所述特征压缩模块将特征向量矩阵转换成维度是256的固定长度向量；

在使用特征提取模块处理不同的析取图后，将得到由个数不固定的特征向量所构成的特征向量矩阵；

利用特征压缩模块，将该特征向量矩阵压缩成固定长度的向量；

特征压缩模块为空间金字塔池化层；为了从不同角度对从析取图中提取的特征进行采样，在空间金字塔池化层中使用了4个不同的窗口进行自适应池化；

在该特征向量矩阵输入到特征压缩模块后，空间金字塔池化层中的4个不同大小的窗口将该特征向量矩阵进行池化，得到4个固定长度的64维向量；

4个窗口的大小和步长根据所输入的不同长度的特征向量进行自适应地变化，对于一个窗口，其大小如下计算：

其步长如下计算：

其中win代表窗口的大小、str分别代表窗口的步长、ceil(·)代表向上取整、floor(·)代表向下取整、d_In分别代表输入向量的维度、d_Out代表输出向量的维度。

之后，将4个固定长度的64维向量连接，以构建256维的固定长度的特征向量。

特别地，使用动作选择模块根据固定长度的向量在每个决策时刻从8个调度规则中选择特定的调度规则；

从以下8种调度规则种选择1个调度规则作为该模型在该决策时刻的输出：

先入先出FIFO：机器将首先加工最先到达的作业；

后进先出LIFO：机器将首先加工最后到达的作业；

剩余作业最多MOR：机器将首先加工有剩余工序数量最多的作业；

剩余作业最少LOR：机器将首先加工有剩余工序数量最少的作业；

最长处理时间LPT：机器将首先加工具有最长加工时间的作业；

最短处理时间SPT：机器将首先加工具有最短加工时间的作业；

最长总处理时间LTPT：机器将首先加工总加工时间最长的作业；

最短总处理时间STPT：机器将首先加工总加工时间最短的作业。

特别地，动作选择模块在每个决策时刻使用Linear transformation和softmax函数来进行调度规则的选择；

使用Linear transformation和softmax函数将动作选择模块的输出转换所述的8种调度规则中的每种规则被选择的概率；

Linear transformation是利用16个神经元组成的单层网络进行变换；

softmax函数如下所示：

其中，v＝1,2,...,8，z_v代表8种调度规则中的1种；每种调度规则被选中的概率用使用上式计算得出。

本发明设计了一个能够压缩不同尺寸的动态车间调度实例的特征压缩模块，将不同尺寸的动态车间调度实例压缩为同一尺寸，使得所提出的动态作业车间调度模型能够在各种尺寸的实例上进行统一训练，而无需针对每种尺寸的实例进行单独训练。

本发明与传统的序列到序列的深度学习模型不同，所提出的序列到动作的深度学习模型能够根据生产环境的实时状态在每一决策时刻采取动作，作出决策。因此，该模型无需额外的措施，也能够有效地解决在任意时刻都可能发生的动态事件。

附图说明

图1为本发明的模型框架图。

图2为本发明含有12个顶点的析取图。

具体实施方式

下面结合具体实施例，对本发明作进一步详细的阐述。

实施例1

(1)根据车间生产状态建立析取图，根据析取图作为模型的输入；

利用交叉熵损失函数训练模型，使用交叉熵损失函数计算模型针对一个特定的析取图所输出的调度规则与析取图所对应的标签之间的交叉熵损失，

其中，将针对一个特定的析取图所选择的特定的调度规则作为析取图的标签并根据该交叉熵损失训练模型，交叉熵损失L的计算如下：

当交叉熵损失L小于预定值时，模型训练完毕。

其中，V为所有作业的工序的集合，工序被表示为析取图中的各个顶点；

将以下几个属性添加到析取图的每个顶点中：

每个工序的编号；

包含该顶点所表示的工序的作业编号；

能够加工该顶点所表示的工序的机器编号；若无能够加工该工序的机器，则该顶点所对应的机器编号为0；

工序完成情况：“1”表示该顶点所表示的工序已完成加工，“0”表示该顶点所表示的工序正在被加工，“-1”表示该顶点所表示的工序未完成加工；

完成率：当此顶点所表示的工序完成加工后，包含此工序的作业的完成率；

剩余工序数量；

等待时间；

加工时间；

剩余时间；其中“0”表示此顶点所表示的工序还未开始加工。

是否可加工，如果该工序可被加工，则该属性为“True”。

模型的特征提取模块由6个编码器层组成，每个编码器层包含堆叠的attention函数、feed forward network、残差连接和Layer normalization；

所有顶点所对应的特征序列共同构成了特征序列矩阵，并被输入至特征提取模块中，由特征提取模块进行处理，得到特征向量；

其中，特征提取模块中的attention函数计算所输入特征序列矩阵中的注意力分布，attention函数使用查询Q以确定当前加工过程中的所有工序所涉及的加工类型，使用键K表示当前正在处理的工序的加工类型，使用值V表示当前在处理的工序的信息。并将查询Q和键值对所构成的集合映射到输出；

其中

其中，attention函数如下所示：

attention函数与multi-head attention结合，且多个multi-head attention的输出组合，使用不同的查询Q和键K获取更多的信息，如下所示：

MultiHead(Q,K,V)＝Concat(head₁,...,head_H)W^multi

其中

和

代表参数矩阵。

的feed forward network由一个非线性的激活函数和两个线性的组成，具体为：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

且在feed forward network子层和每个multi-head attention周围使用了残差连接，并在残差连接后使用Layer normalization防止内部协变量偏移。

(2)使用特征提取模块提取析取图中的初始特征并将初始特征转化为特征向量矩阵；

使用特征压缩模块将特征向量矩阵转换成维度是256的固定长度向量；

(3)使用特征压缩模块将特征向量矩阵转换成256维的固定长度的向量；

特征压缩模块为空间金字塔池化层；在空间金字塔池化层中使用了4个不同的窗口进行自适应池化；

其步长如下计算：

(4)使用动作选择模块根据固定长度的向量在每个决策时刻从8个调度规则中选择特定的调度规则进行车间调度，

使用动作选择模块根据固定长度的向量在每个决策时刻从8个调度规则中选择特定的调度规则；

先入先出FIFO：机器将首先加工最先到达的作业；

后进先出LIFO：机器将首先加工最后到达的作业；

使用Linear transformation和softmax函数将动作选择模块的输出转换的8种调度规则中的每种规则被选择的概率；

softmax函数如下所示：

利用图2所示的析取图所表示的DJSSP实例，其中，每个顶点表示1道工序O_in是作业i的第n道工序(其中，i＝1,2,3；n＝1,2,3,4,5)，下图共有有12道工序需要在不同的机器(M1、M2、M3、M4)上进行加工，实线是反映每两道工序之间的优先级约束的有向连接边，虚线是连接共用1台机器的不同工序的无向析取边。

按照前述的方法：

①首先对每个表示工序的顶点添加能够反映车间的动态特征的10种属性，从而将每个顶点视作长度为10的特征序列，由于该实例中，共有12道工序需要加工，故最终获得了具有12行，10列的特征序列矩阵。

②使用特征提取模块从析取图中提取出这一具有12行，10列的特征序列矩阵，并对这一矩阵进行处理，得到能够更好地反映车间状态的的由12个维度为10维的特征向量所构成的特征向量矩阵。

③使用特征压缩模块，对这由12个维度为10维的特征向量所构成的特征向量矩阵进行压缩，将其压缩成1个256的特征向量。利用4个不同的窗口对该矩阵进行池化，最终每个窗口生成1个64维的向量，共获得4个64维的向量，将这四个向量进行连接，获得1个256维的特征向量。

④动作选择模块根据该256维的向量从8个调度规则中，选择1个调度规则在该时刻调度该DJSSP实例的。⑤在该时刻下，动作选择模块选择调度规则用于调度该实例后，车间状态将会发生变化，使得析取图中的每个顶点的属性发生相应的变化，生成新的特征序列矩阵，继续重复执行步骤①-④，直至完成整个实例的调度。

需要注意，此例为特定的DJSSP实例下的模型调度过程，而在处理不同尺寸的DJSSP实例时，作业的数量、工序的数量将会不同，即用以表示该DJSSP实例的析取图中的顶点个数将与图2不同，此时，步骤①中的特征序列矩阵将可能不再具有12行，步骤②中的10维向量个数将可能不再为12个；但经过步骤③后，使用特征压缩模块，仍能得到1个256维的特征向量。

最后应当说明的是，以上内容仅用以说明本发明的技术方案，而非对本发明保护范围的限制，本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换，均不脱离本发明技术方案的实质和范围。

Claims

1.一种基于transformer的端到端动态作业车间调度模型，其特征在于，包括征提取模块、特征压缩模块和动作选择模块；

2.根据权利要求1所述的基于transformer的端到端动态作业车间调度模型，其特征在于，利用交叉熵损失函数训练所述模型，使用交叉熵损失函数计算所述模型针对一个特定的析取图所输出的调度规则与所述析取图所对应的标签之间的交叉熵损失，

当交叉熵损失L小于预定值时，所述模型训练完毕。

3.根据权利要求1所述的基于transformer的端到端动态作业车间调度模型，其特征在于，使用能够反映车间生产状态的析取图作为SPP-Transformer输入；析取图为G＝(V,C∪D)的有向图；

将以下几个属性添加到析取图的每个顶点中：

每个工序的编号；

包含该顶点所表示的工序的作业编号；

剩余工序数量；

等待时间；

加工时间；

剩余时间；其中“0”表示此顶点所表示的工序还未开始加工；

是否可加工，如果该工序可被加工，则该属性为“True”。

4.根据权利要求3所述的基于transformer的端到端动态作业车间调度模型，其特征在于，使用特征提取模块提取析取图中的初始特征并将初始特征转化为特征向量矩阵；

其中，所述特征提取模块中的attention函数计算所输入特征序列矩阵中的注意力分布，attention函数使用查询Q以确定当前加工过程中的所有工序所涉及的加工类型，使用键K表示当前正在处理的工序的加工类型，使用值V表示当前在处理的工序的信息；并将查询Q和键值对所构成的集合映射到输出；

其中

其中，attention函数如下所示：

5.根据权利要求4所述的基于transformer的端到端动态作业车间调度模型，其特征在于，attention函数与multi-head attention结合，且多个multi-head attention的输出组合，使用不同的查询Q和键K获取更多的信息，如下所示：

MultiHead(Q,K,V)＝Concat(head₁,...,head_H)W^multi

其中

和

代表参数矩阵。

6.根据权利要求4所述的基于transformer的端到端动态作业车间调度模型，其特征在于，所述的feed forward network由一个非线性的激活函数和两个线性的组成，具体为：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

7.根据权利要求1所述的基于transformer的端到端动态作业车间调度模型，其特征在于，使用所述特征压缩模块将特征向量矩阵转换成维度是256的固定长度向量；

其步长如下计算：

其中win代表窗口的大小、str分别代表窗口的步长、ceil(·)代表向上取整、floor(·)代表向下取整、d_In分别代表输入向量的维度、d_Out代表输出向量的维度；

8.根据权利要求1所述的基于transformer的端到端动态作业车间调度模型，其特征在于，使用动作选择模块根据固定长度的向量在每个决策时刻从8个调度规则中选择特定的调度规则；

先入先出FIFO：机器将首先加工最先到达的作业；

后进先出LIFO：机器将首先加工最后到达的作业；

9.根据权利要求6所述的基于transformer的端到端动态作业车间调度模型，其特征在于，动作选择模块在每个决策时刻使用Linear transformation和softmax函数来进行调度规则的选择；

softmax函数如下所示：