CN117151441A

CN117151441A - 一种基于演员-评论家算法的置换流水车间调度方法

Info

Publication number: CN117151441A
Application number: CN202311425372.4A
Authority: CN
Inventors: 白俊峰; 席嘉璐
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2023-12-01
Anticipated expiration: 2043-10-31
Also published as: CN117151441B

Abstract

本发明公开了一种基于演员‑评论家算法的置换流水车间调度方法，属于工业工程和智能调度技术领域，解决了现有的优先调度规则性能差、PFS可行解的搜索空间有限的问题，该方法首先利用优先调度规则计算获得初始解，然后通过一个叶子节点只包含一个元素的完全二叉树来表达可行解，以此为基础设计演员‑评论家算法训练所需要的元素，进化上述二叉树的结构，从而寻找到一个相对初始解性能更优的可行解。本发明以在工程上常用的优先调度规则为性能基准，直接通过人工智能算法提升它的性能，提高了优先调度规则求得的解的质量，降低了调度目标makespan，提升了生产效率。

Description

一种基于演员-评论家算法的置换流水车间调度方法

技术领域

本发明属于工业工程和智能调度技术领域，具体涉及一种基于演员-评论家算法的置换流水车间调度方法。

背景技术

由于市场的个性化需求，置换流水车间调度（Permutation Flow-shopScheduling，PFS）已经在工业广泛的应用且是大规模定制的一种重要的、典型的调度类型。makespan作为一种调度目标，减少PFS的makespan对减少在制品积压、提高机器利用率和降低生产成本具有重要意义。

如经常在工程中使用的优先调度规则具有性能差的劣势，而且优先调度规则的选择不佳可能会对生产效率带来不利影响。为优化优先调度规则的性能、降低PFS的makespan，结合优先调度规则简单、计算资源占用少等优点，将其作为初始调度方法，利用演员-评论家算法平衡利用和探索的强大性能，有助于实现扩大可行解搜索空间和实现提升初始解的质量的作用。

发明内容

为了继续增加PFS可行解的搜索空间，增强优先调度规则求解所获得的初始解性能，本发明提出了一种基于演员-评论家算法的置换流水车间调度方法，该方法通过一个叶子结点只包含一个元素的完全二叉树表达PFS可行解，以上述表达方式为基础，设计演员-评论家算法训练所需要的状态、动作、奖励以及智能体与环境的交互过程，利用演员-评论家算法实现了上述表达方式的进化进而优化初始解。

本发明为实现上述目的所采取的技术方案如下：

一种基于演员-评论家算法的置换流水车间调度方法，所述方法包括以下步骤：

步骤一：利用优先调度规则生成置换流水车间调度的初始解；

步骤二：利用完全二叉树对所述初始解进行表达，得到代表初始解的初始二叉树、代表初始解进化过程的中间二叉树和代表最优解的最终二叉树；

步骤三：基于初始二叉树、中间二叉树和最终二叉树设计状态、动作、奖励以及智能体与环境的交互过程，其中状态是由代表初始二叉树、中间二叉树和最终二叉树的数组组成；动作是二叉树父节点的左右两个子节点是否交换，不交换的动作定义为0，交换的动作定义为1；奖励为执行动作前后二叉树所代表的解的makespan差值；智能体与环境的交互过程为从初始二叉树的根节点到叶子结点、从最左边节点到最右边节点依次对父节点执行动作，直到所有的父节点执行动作后完成一轮交互，一轮交互能够产生个二叉树，为作业的数量；

步骤四：设计策略网络和价值网络；

步骤五：以策略网络表示演员-评论家算法中的Actor，以价值网络表示演员-评论家算法中的Critic，对演员-评论家算法进行训练，得到相对初始解较优的可行解。

本发明提出的一种基于演员-评论家算法的置换流水车间调度方法的有益效果在于：本发明提出的是一种静态调度方法，初始解是由优先调度规则计算获得，通过一个叶子节点只包含一个元素的完全二叉树来表达可行解，然后通过演员-评论家算法在初始二叉树的基础上寻找一个性能更优的解。上述过程一方面改善了经常被用在工程上的优先调度规则的解的质量，优化了PFS的makespan；另一方面结合了优先调度规则求解PFS可行解的简单、占用计算资源少的优点。

附图说明

图1为本发明实施例所述的一种基于演员-评论家算法的置换流水车间调度方法的流程图；

图2为TA01基准的代表初始解的二叉树结构示意图；

图3为演员-评论家算法训练时的收敛过程图；

图4为基于演员-评论家算法调度鲁棒性的测试结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在其中一个实施例中，如图1所示，本实施例提供一种基于演员-评论家（Actor-Critic）算法的置换流水车间调度方法，主要包括了PFS调度初始解的生成，初始解表达方式的转变，状态、动作、奖励以及智能体与环境的交互过程的设计，价值网络和策略网络的设计，Actor-Critic算法的训练过程。本实施例的一种基于Actor-Critic算法的置换流水车间调度方法包括以下的步骤一至步骤五。

步骤一：利用优先调度规则生成置换流水车间调度的初始解。

本步骤利用优先调度规则生成PFS调度的初始解。优先调度规则是以作业的加工参数为其设置优先级，作业的加工参数包括每个机器处理作业的时间、作业的总处理时间等，优先级越高的作业率先被加工。

可选地，本步骤利用最短总处理时间优先调度规则（STPT）生成置换流水车间调度的初始解。利用STPT生成初始解的具体过程为：收集机器处理作业的加工时间，进而求解每个作业的总加工时间。STPT的参数是每个作业的总加工时间，STPT使得具有最短总加工时间的作业设定更高的加工优先级，优先级高的作业优先被加工。

步骤二：利用完全二叉树对初始解进行表达，得到代表初始解的初始二叉树、代表初始解进化过程的中间二叉树和代表最优解的最终二叉树。

初始解表达方式的转变是指通过一个叶子节点只包含一个元素的完全二叉树（下文简称二叉树）表达初始解的过程。二叉树的所有节点的形成过程是从根节点到叶子节点从上向下、从最左边节点到最右边节点从左到右。在利用完全二叉树对初始解进行表达时，以生成初始解的优化调度规则的参数相同的作业参数计算分枝条件参数，分枝的条件是第父节点中的作业参数小于的作业分枝到左节点中，作业参数大于等于的作业分枝到右节点中，其中参数的计算公式如下：

（1）

式中，表示作业的加工参数，与生成初始解的优先调度规则对应的作业加工参数相同，表示第个父节点中包含作业的数量。

在所有可以代表可行解的二叉树中，代表初始解的二叉树定义为初始二叉树，代表初始解进化过程的二叉树为中间二叉树，代表最优解的二叉树为最终二叉树。

步骤三：基于初始二叉树、中间二叉树和最终二叉树设计状态、动作、奖励以及智能体与环境的交互过程。

状态、动作、奖励以及智能体与环境的交互过程的设计基于上述的初始二叉树、中间二叉树和最终二叉树实现。状态是由代表初始二叉树、中间二叉树和最终二叉树的数组组成；动作是二叉树父节点的左右两个子节点是否交换，不交换的动作定义为0，交换的动作定义为1；奖励为执行动作前后二叉树所代表的解的makespan差值；智能体与环境的交互过程为从初始二叉树的根节点到叶子结点、从最左边节点到最右边节点依次对父节点执行动作，直到所有的父节点执行动作后完成一轮交互，一轮交互能够产生个二叉树（初始二叉树为一个，由初始二叉树经过交互产生n-2个新的二叉树），为作业的数量。

表达状态的数组根据表达初始二叉树的根节点或父节点的子节点的左右位置是否改变而获得。假设初始状态数组为，第个根节点或父子节点改变，则的第个元素的值变为1。

步骤四：设计策略网络和价值网络。

策略网络和价值网络的设计如下：策略网络包括个全连接层、个relu激活函数、一个softmax函数，softmax函数为最后一个全连接层的激活函数，其中，最后一个全连接层包括两个神经元，因此输出的向量为二维结构；价值网络包括个全连接层、个 relu激活函数，其中最后一个全连接层包含一个神经元，因此输出结构为数值标量结构。

步骤五：以策略网络表示Actor-Critic算法中的Actor，以价值网络表示Actor-Critic算法中的Critic，对Actor-Critic算法进行训练，得到相对初始解较优的可行解。Actor-Critic算法的训练为通过智能体与环境的交互过程不断进化初始解，最终收敛到一个相对初始解较优的可行解。

Actor是表达当前二叉树状态的状态数据和动作的关系函数，由策略网络表示，输入状态数据进而通过策略网络输出选取每个动作的概率；Critic是衡量Actor输出动作的价值，由价值网络表示，输入状态数据和策略网络输出的每个动作的概率的行向量拼接。策略网络的损失函数是策略网络输出动作的价值，训练过程为梯度上升；价值网络的损失函数是当前状态下的状态价值和下一状态的折扣价值与当前状态执行动作获得的奖励和的差值，训练过程为梯度下降。训练好的策略网络输出两个值的最大值索引为被选定的动作，即相对初始解较优的可行解。

本实施例提出的一种基于Actor-Critic算法的置换流水车间调度方法以在工程上常用的优先调度规则为性能基准，直接通过人工智能算法提升它的性能，提高了优先调度规则求得的解的质量，降低了调度目标makespan，提升了生产效率。

下面以Taillard的flow shop基准中的TA01基准为例，对本发明的技术方案进行进一步说明。TA01基准的数据如表1所示，其中，PT1、PT2、PT3、PT4、PT5分别表示作业在机器M1、M2、M3、M4和M5的加工时间，J1、J2、…、J20表示PFS生产系统作业任务集的20个作业。

表1 TA01基准的数据

	PT1	PT2	PT3	PT4	PT5
						J1	54	79	16	66	58
J2	83	3	89	58	56
						J3	15	11	49	31	20
J4	71	99	15	68	85
						J5	77	56	89	78	53
J6	36	70	45	91	35
						J7	53	99	60	13	53
J8	38	60	23	59	41
						J9	27	5	57	49	69
J10	87	56	64	85	13
						J11	91	61	1	9	72
J12	14	73	63	39	8
						J13	29	75	41	41	49
J14	12	47	63	56	47
						J15	77	14	47	40	87
J16	32	21	26	54	58
						J17	87	86	75	77	18
J18	68	5	77	51	68
						J19	94	77	40	31	28
J20	91	61	1	9	72

。

TA01基准的makespan的求解过程如式（2）～（3）所示：

（2）

（3）

其中，表示作业的加工优先级，表示加工优先级为的作业在机器上的完成时间，表示机器处理加工优先级为的作业的处理时间，表示作业的数量，表示机器的数量，最小化的调度目标能够转化为。

PFS调度初始解的生成：利用最短总处理时间优先调度规则（STPT）生成初始解。利用STPT生成初始解的具体过程为：收集机器处理作业的加工时间，进而求解每个作业的总加工时间，如式（4）所示；STPT的参数是每个作业的总加工时间，STPT使得具有最短总加工时间的作业设定更高的加工优先级，作业的加工优先级的求解公式如式（5）所示，优先级高的作业优先被加工：

（4）

（5）

其中，表示机器加工作业的时间。

使用STPT计算TA01基准的初始解的作业加工序列为[3, 17, 13, 9, 8, 15, 12,14, 11, 16, 19, 20, 1, 6, 7, 2, 10, 4, 18, 5]，该加工序列下求解的makespan为1472。

初始解表达方式的转变：如图2所示，为一个叶子节点只包含一个元素的完全二叉树，二叉树的所有节点的形成过程是从根节点到叶子节点从上向下、从最左边节点到最右边节点从左到右。图2详细的表示了TA01基准的代表初始解的二叉树结构，包括了各节点包含的作业索引、各个父节点的分枝参数值以及各个父节点分枝的先后顺序。其中带有阴影的方块为叶子节点，叶子节点从左到右的作业索引排序为作业序列；透明的方块代表根节点和中间节点，根节点中包含的是作业的索引；阴影的圆圈为能作为父节点的索引且它的顺序为节点的生成过程。父节点的分枝参数根据式（1）计算而得。

状态、动作、奖励以及智能体与环境的交互过程的设计：如图2所示，以计算TA01可行解过程为例。从初始二叉树通过改变父节点的作业子节点的位置生成的二叉树都定义为一个状态，每一个二叉树用一个只包含0或1的19维向量表达。例如，初始解的二叉树结构的向量表达方式为。动作为是否改变父节点的分支情况，父节点的左右子节点如果交换，动作定义为1，改变上一状态表达的PFS可行解；否则动作定义为0，与上一状态表达的PFS可行解相同。奖励为相邻两个二叉树表达的解的makepan的差值，如式（6）所示：

（6）

其中，为makepan的差值，为第k个二叉树表达的解的makepan，为第k+1 个二叉树表达的解的makepan。

智能体与环境的交互过程为按照初始二叉树各节点生成的过程依次对父节点的分枝施加动作。例如，对初始二叉树的第一个父节点（即二叉树的根节点）的分枝施加动作，如果施加了动作1，状态转变为，获得奖励-145，作业的加工序列转变为作业序列为[11,16,19,20,1,6,7,2, 10,4,18,5, 3,17,13,9,8,15,12,14]，如果施加动作0，状态转变为，作业的加工序列保持不变，获得奖励0。按照父节点的索引依次对所有的父节点施加动作，直到最后一个父节点施加动作后，定义上述过程为智能体和环境的一轮交互。

价值网络和策略网络的设计：价值网络设置为输入层维度为21*1，第一个全连接层维度为256*1，紧接着一个relu激活函数，第二个全连接层的维度为128*1，紧接着一个relu激活函数，第三个全连接层的维度为1；策略网络设置为输入层维度为19*1，第一个全连接层的维度为256*1，紧接着一个relu激活函数，第二个全连接层的维度为128*1，紧接着一个relu激活函数，第三个全连接层的维度为2*1，紧跟着一个softmax函数。

Actor-Critic算法的训练过程：Actor是表达当前二叉树状态的状态数据和动作的关系函数，由策略网络表示，输入状态数据进而通过策略网络输出选取每个动作的概率； Critic是衡量Actor输出动作的价值，由价值网络表示，输入状态数据和策略网络输出的每个动作的概率的行向量拼接。策略网络的损失函数是策略网络输出动作的价值，训练过程为梯度上升；价值网络的损失函数是当前状态下的状态价值和下一状态的折扣价值与当前状态执行动作获得的奖励和的差值，如式（7）所示，训练过程为梯度下降：

（7）

其中，表示折扣因子，表示参数为的价值网络。

训练好的策略网络输出两个值的最大值索引为被选定的动作。设置的训练所需要的参数如表2所示，Actor-Critic算法训练的收敛过程如图3所示，图中的横坐标是Actor-Critic算法训练时迭代的次数，纵坐标是本实施例的调度目标即最大作业完工时间。改进的解为[3, 13, 17, 18, 9, 14, 12, 15, 2, 1, 7, 6, 11, 16, 20, 19, 4, 18, 5,10]，makespan值为1342，相对于初始解makespan值降低了8.83%。

表2 Actor-Critic算法的训练参数

参数

策略网络的学习率

价值网络的学习率

折扣因子

迭代次数

优化器

经验回放池大小

最小训练数据量

参数值

0.003

0.002

0.98

100

Adam

1000

64

。

为了测试求解TA01基准可行解的鲁棒性，利用Actor-Critic算法训练10次，结果如图4所示，解的标准差为6.29，且每个解都优于初始解，证明了在TA01基准下基于Actor-Critic算法的置换流水车间的调度具有较强的鲁棒性和强大的改善初始解的能力。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于演员-评论家算法的置换流水车间调度方法，其特征在于，包括以下步骤：

步骤三：基于初始二叉树、中间二叉树和最终二叉树设计状态、动作、奖励以及智能体与环境的交互过程，其中状态是由代表初始二叉树、中间二叉树和最终二叉树的数组组成；动作是二叉树父节点的左右两个子节点是否交换，不交换的动作定义为0，交换的动作定义为1；奖励为执行动作前后二叉树所代表的解的makespan差值；智能体与环境的交互过程为从初始二叉树的根节点到叶子结点、从最左边节点到最右边节点依次对父节点执行动作，直到所有的父节点执行动作后完成一轮交互，一轮交互能够产生个二叉树，/>为作业的数量；

步骤四：设计策略网络和价值网络；

2.根据权利要求1所述的一种基于演员-评论家算法的置换流水车间调度方法，其特征在于，在利用完全二叉树对所述初始解进行表达时，以生成初始解的优化调度规则的参数相同的作业参数计算分枝条件参数，分枝的条件是第父节点中的作业参数小于/>的作业分枝到左节点中，作业参数大于等于/>的作业分枝到右节点中。

3.根据权利要求2所述的一种基于演员-评论家算法的置换流水车间调度方法，其特征在于，参数的计算公式如下：

（1）

式中，表示作业/>的加工参数，与生成初始解的优先调度规则对应的作业加工参数相同，/>表示第/>个父节点中包含作业的数量。

4.根据权利要求1所述的一种基于演员-评论家算法的置换流水车间调度方法，其特征在于，所述策略网络包括个全连接层、/>个relu激活函数和一个softmax函数，softmax函数为最后一个全连接层的激活函数，其中，最后一个全连接层包括两个神经元，因此输出的向量为二维结构；所述价值网络包括/>个全连接层和/>个relu激活函数，其中最后一个全连接层包含一个神经元，因此输出结构为数值标量结构。

5.根据权利要求4所述的一种基于演员-评论家算法的置换流水车间调度方法，其特征在于，所述策略网络的损失函数是策略网络输出动作的价值，训练过程为梯度上升；所述价值网络的损失函数是当前状态下的状态价值和下一状态的折扣价值与当前状态执行动作获得的奖励和的差值，训练过程为梯度下降。

6.根据权利要求1所述的一种基于演员-评论家算法的置换流水车间调度方法，其特征在于，在步骤三中，根据表达初始二叉树的根节点或父节点的子节点的左右位置是否改变确定表达状态的数组。

7.根据权利要求1所述的一种基于演员-评论家算法的置换流水车间调度方法，其特征在于，在步骤一中，利用最短总处理时间优先调度规则生成置换流水车间调度的初始解。

8.根据权利要求1所述的一种基于演员-评论家算法的置换流水车间调度方法，其特征在于，演员-评论家算法的训练参数包括：策略网络的学习率为0.003，价值网络的学习率为0.002，折扣因子为0.98，迭代次数为100，优化器为Adam，经验回放池大小为1000，最小训练数据量为64。