CN114386843A

CN114386843A - 一种基于改进深度强化学习算法的柔性车间调度方法

Info

Publication number: CN114386843A
Application number: CN202210035975.2A
Authority: CN
Inventors: 陈良银; 程俊夫; 王浩; 陈彦如; 张媛媛; 黄鑫茂; 何正洪; 黄长海; 兰地理; 李银鹏; 王诗雨
Original assignee: Sichuan Changcheng Computer System Co ltd; Sichuan University
Current assignee: Sichuan Changcheng Computer System Co ltd; Sichuan University
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-04-22

Abstract

本发明公开了一种基于改进深度强化学习算法的柔性车间调度方法。本发明涉及到工业系统生产调度领域。本发明提出的基于改进深度强化学习算法的柔性车间调度方法具有调度效果好、能够对机器利用率进行提高的优点。与传统的基于深度强化学习的柔性车间调度算法相比，本发明将邻域搜索算法应用到了深度Q学习算法当中，提出了一种新型的同时具备邻域搜索算法局部搜索能力以及深度Q学习算法全局搜索能力的结合了邻域搜索算法的深度Q学习算法。最后通过一系列标准数据集上的实验，成功证明了结合了邻域搜索算法的深度Q学习算法在解决柔性车间调度问题上的优越性。

Description

一种基于改进深度强化学习算法的柔性车间调度方法

技术领域

本发明属于工业系统生产调度领域，具体涉及一种深度Q学习(Deep Q-learning)和邻域搜索(Local Search)算法相结合实现的柔性车间调度方法，用于实现工业生产系统中的高效低成本生产调度。

背景技术

在工厂的生产过程中，如何批量高效地进行自动化生产调度是一项重要的研究。该领域的典型代表问题是作业车间调度问题(JSP)。灵活作业车间调度问题(FJSP)是经典作业车间调度问题(JSP)的扩展。FJSP比传统JSP更难，因为它引入了排序之外的另一个决策内容，即作业路径。确定作业路径就是决定每道工序用哪台机器处理，每台机器上的处理时间不一定相同。在实际生产中，可以根据资源负载情况灵活选择资源来解决FJSP，从而使工厂的生产效率得到提高的同时将工厂的生产成本降低。

FJSP是一个NP难(NP-hard)问题。对它的研究一直是一个热点，现有的一些研究方法主要分为基于元启发式算法类型的解决方法和基于强化学习算法类型的解决方法，基于元启发式算法类型的解决方法有如下：

1.2016年，李新宇等人使用遗传算法结合局部搜索的方法，通过构建禁忌列表，采用禁忌搜索的策略读取后代产生的结果进行更新和优化。

2.2019年，雷德明等人将ICA(帝国竞争算法)和VNS(变量局部搜索)结合成一个两阶段求解，利用ICA的全局搜索特征和VNS的局部搜索特征进行求解。

3.2011年，王亚丽等人采用最先进的NSGA-III遗传算法结合局部搜索算法解决FJSP问题，并采用一定的优化策略来减小算法的规模，提高算法的速度。

4.2011年，Ghasem Moslehi等人使用粒子群优化算法结合局部搜索算法，通过筛选帕累托最优边界来解决多目标FJSP问题，并为作业的每个操作分配权重。

5.2014年，Kacem.I等人使用统一的数学模型，改进的遗传算法编解码方法，交叉和变异算子，最终使FJSP稳定收敛到最优解。基于粒子群优化算法。

6.2018年，M.Nouiri等人开发了一种动态方法来优化完工时间和能源效率，并考虑了机器故障。并在机器发生故障时应用了4种响应。

7.2021年，Rylan H.Caldeira等人通过使用多目标(makespan、workload、Maxworkload)改进粒子群算法，并使用田口方法过滤参数。

基于强化学习的方法研究有如下：

1.2021年，Han.BA等提出了一种端到端的深度强化学习(DRL)框架，它由编码器和解码器组成，并且根据选定的调度特征对要调度的操作进行编码，然后使用注意力机制，在每个解码步骤中将一个输入指向一个动作，并使用循环神经网络(RNN)对解码器网络进行建模。

2.2019年，朱海华等人通过引入新的约束，将需要组合过程的实时FJSP问题转移成普通的FJSP问题，然后使用Marko方法解决FJSP问题，提出了基于MAS(Multi-agentsystem)强化学习方法。

3.2014年，舒洛等人提出了一种基于深度强化学习的动态订单插入算法。目标是在有插入订单的任务时优化决策。该算法创新性地提出了6条规则，并使用深度Q-learning在每个插入时间点或操作完成时间点做出决策选择。

4.2022年，建林等人提出了基于Q学习的超启发式(QHH)算法。QHH的结构使用Q学习算法作为从一组预先设计的低级启发式算法中自主选择启发式算法的高级策略。开发了一个有效的编码和解码对来生成一个可行的时间表，并将左移方案嵌入到解码过程中以提高资源利用率。

5.2006年，Csáji.BC等人和2019年，赵.M等人分别提出了当机器发生故障时，使用强化学习的FJSP问题解决方案。

6.2012年，Aissani等人使用SARSA算法来解决FJSP问题。

7.2020年，Park.I等人解决FJSP问题时考虑了设置时间。

8.2007年，Yang.HB等人使用延迟作为解决FJSP的措施。

发明内容

现有的一些研究方法主要分为基于元启发式算法类型的解决方法和基于强化学习算法类型的解决方法，前者主要是通过模拟自然界中的生物或物理过程而开发的，如遗传算法、蚁群优化算法，禁忌搜索算法,粒子群优化算法等。它们取得了更高的解的质量，但使存在计算耗时等问题。于是一些学者采用了基于强化学习的方法来避免元启发式算法的缺点。

强化学习的历史可以追溯到神经科学、计算机科学和心理学的早期。通常来说，强化学习通过模仿动物或人类认知，比如模仿动物或人类倾向于执行具有积极后果的行为。近年来，强化学习方法已被应用于生产调度问题，并且是用来解决柔性车间调度问题(FJSP)使用频率最高的五种算法之一。

目前基于强化学习算法方面的研究大部分使用的是基于Q-learning算法，但是传统的Q-learning算法在状态特征值连续的情况下容易陷入内存空间不足以存储所有状态的情况，于是深度强化学习算法应运而生。

在现有的基于深度强化学习算法解决FJSP方法中，其使用的调度规则包含两个目标。第一个目标是选择要加工的特定工件的操作工序，第二个目标是选择加工的机器。然而现有的算法研究都存在在设计调度规则的时候不考虑两个目标组合出多种规则的可能性，从而导致设计的调度规则不完整的情况。与此同时，还存在在执行完调度规则后没有考虑对调度结果的进一步优化的情况。

针对现有的基于深度强化学习算法在解决柔性车间调度问题方面上存在的问题，我们以最小化完工时间为目的，为目标一和目标二设计了一套独特的子调度规则，然后使用组合方法将所有可行的完整组合调度规则组合起来用于算法调度过程。同时，由于大部分研究采取随机调度规则来防止陷入局部最优，调度结果仍有进一步优化的可能。因此我们将局部搜索算法应用于深度强化学习算法中以提高机器的平均利用率。

本发明提出的基于改进深度强化学习算法的柔性车间调度方法，包括以下步骤：本发明提出的算法分为6个步骤，计算状态特征值并将状态特征值输入全连接神经网络，根据全连接神经网络输出结果选择调度规则，执行调度规则生成调度结果，执行邻域搜索算法优化调度结果并计算新的状态特征值同时根据奖励函数计算奖励，应用调度结果到生产线并将产生的数据存入存储中，随机从存储中选择批量数据优化更新全连接神经网络参数。循环执行这6个步骤直到所有生产任务完成。

1.计算状态特征值：状态特征值作为当前车间生产情况的直观体现，其对生产有着非常重要的指导作用。考虑到在实际生产环境中，作业数和机器数的波动幅度很大，为了使算法更加鲁棒，我们决定采用0和1之间的比值作为状态值的表达。

2.神经网络智能决策：在输入状态特征值后，需要综合所有状态特征值在特定的时间进行调度规则的选择，由于神经网络具有学习的功能，因此我们选择使用全连接神经网络搭配激活函数对动态决策进行学习，从而使算法具备更高的智能决策能力。

3.调度规则执行：调度规则包含两个目标，第一个目标是选择要加工的特定工件的操作工序，第二个目标是选择加工的机器。不同的调度规则会导致不同的调度安排效果，因此我们针对子目标细节设计了对应的调度规则，通过组合的方式提出了一套完整的调度规则。

4.执行邻域搜索算法并计算新的状态特征值与奖励：调度规则在产生出调度结果时候，其结果往往并不一定是当前情况下的最优结果，因此使用邻域搜索算法对调度结果的相邻结果进行搜索，利用邻域搜索算法的局部搜索能力配合整体算法的全局搜索能力，从而保证了结果的最优解出现。获取到最优结果之后需要将其应用到生产车间，并重新计算状态特征值以及根据奖励函数计算奖励。

5.存储调度经验：每次的调度结果都是一次工作经验，将工作经验存到存储中，从而为后面的学习以及工作记录查询提供帮助。

6.更新神经网络：由于使用了神经网络，所以可能通过从存储中读取经验数据对网络参数进行更新，从而使网络决策更加智能，又因为使随机抽取的存储经验，从而保证了算法具备更强的鲁棒性，让算法更加地符合生产实际需求。

本发明的积极效果是：

1.使用深度强化学习算法来学习调度策略的智能选择，并且设计了一套独特的调度规则从而使调度过程更加智能。

2.将邻域搜索算法应用到深度强化学习算法当中，在每次决策执行过后对决策结果进行优化，使调度结果更佳。

3.根据优化后的调度结果重新计算状态特征值以及奖励，使神经网络参数更新过程更加高效。

附图说明

图1为整体算法运行流程图。

图2为奖励函数伪代码图。

图3为本发明整体框架流程图。

图4为领域搜索算法伪代码图。

图5为本发明执行结果展示图。

具体实施方式

在进一步介绍发明具体实施方式之前，我们首先对问题进行描述以及对相关数学符号进行说明：

n:工件数量。

m:机器数量。

Ji：第i个工件。

Mk:第k台机器。

IDk:机器k的空闲时间间隔数。

TAk:机器k的任务数。

Oi,j:作业Ji的第j个工序。

Mi,j:可以处理操作Oi,j的机器组。

ni:Ji作业的工序数。

ti,j,k:操作Oi,j在机器Mk上的处理时间。

ti,j:工序Oi,j的处理时间。

Ci,j:工序Oi,j的完成时间。

CTk:机器Mk完成当前最后一次预定操作的时间。

OPi：Ji作业当前已完成的工序数。

Sx:操作x的开始时间或时间间隔x的开始时间。

Ex：操作x结束时间或时间间隔x的结束时间。

在m台机器上有n个作业要处理。每个Ji作业有ni个操作，Oi,j表示Ji作业的第J个操作。每个操作Oi,j都有一个机器集Mi,j，它由可以处理该操作的机器组成。Ti,j,k是操作Oi,j在机器k上的处理时间。目标是最小化完工时间，最大化机器利用率。同时，基于解决方案的实现考虑，应满足几个预定义的约束条件：每台机器一次只能处理一个操作，每个作业的所有操作都按固定顺序处理，并且只有前一道工序完成后才能进行下一道工序，每道工序在加工过程中不能中断，不考虑机器和材料的准备时间和工序切换的延迟。机器Mk的机器利用率Uk，它代表机器最后一次操作结束时的工作时间与运行时间的比率，定义为公式

α＝1仅当在机器Mk上分配操作Oi,j时。我们的目标是最大限度地减少所有作业的最长完成时间，同时最大限度地提高平均机器利用率。也就是说，在保证方程

的基础上，尽可能满足方程

首先，我们根据当前实际的生产情况计算状态特征值。我们选择机器平均利用率Uave以及机器利用率标准差Ustd，工件平均完成率CRJave以及工件完成率标准差CRJstd作为状态特征值。

机器平均利用率：

机器利用率标准差：

工件平均完成率：

工件完成率标准差：

在计算工件完成率的过程中，

是在机器集Mi,j上执行操作Oi,j的平均操作时间，它表示为方程

ETLi是Ji作业完成剩余操作的估计时间，公式为

OPTi是作业完成的所有过程所花费的时间，其定义为

我们为了使具体作业的完成率更加准确，我们用工件所有完成工序的时间和/(工件所有完成工序的时间和+完成工件剩余工序的预计时间)来表示完成率CRJi，它表示为方程

接着是将状态特征值输入神经网络，我们设计的神经网络为全连接神经网络，它有9层结构，分别是1个输入层、1个输出层和7x50隐藏层。其中，输入层节点对应的状态特征值个数，输出层节点对应的调度规则个数。这个网络使用的激活函数都是“relu”。

然后是根据神经网络的输出选择对应的调度规则，并计算调度结果。有六种调度规则的计算过程：

规则一：首先计算一个未完成的工件集UCjob，然后我们根据它的完成进度CRJi对Ji进行排序，之后选择完成率CRJi最小的下一个工件Ji并选择它的下一个工序Oi,j。然后就是选择对应的机器，确定下一个操作Oi,j后，我们可以计算得到一个机器集Mi,j，在Mi,j中，我们可以选择最早可用的机器

来处理操作Oi,j。

规则二：首先计算一个未完成的工件集UCjob，然后我们根据它的完成进度CRJi对Ji进行排序，之后选择完成率CRJi最小的下一个工件Ji并选择它的下一个工序Oi,j。然后就是选择对应的机器，确定下一个操作Oi,j后，我们可以计算得到一个机器集Mi,j，在Mi,j中，选择预计最快完成操作Oi,j的机器

规则三：首先计算一个未完成的工件集UCjob，然后我们根据它的完成进度CRJi对Ji进行排序，之后选择完成率CRJi最小的下一个工件Ji并选择它的下一个工序Oi,j。然后就是选择对应的机器，确定下一个操作Oi,j后，我们可以计算得到一个机器集Mi,j，在Mi,j中，随机选择一台机器防止局部最优。

规则四：首先计算一个未完成的工件集UCjob，为了防止陷入局部最优，我们随机选择一个未完成的工件Ji并选择它的下一个工序Oi,j。然后就是选择对应的机器，确定下一个操作Oi,j后，我们可以计算得到一个机器集Mi,j，在Mi,j中，我们可以选择最早可用的机器

来处理操作Oi,j。

规则五：首先计算一个未完成的工件集UCjob，为了防止陷入局部最优，我们随机选择一个未完成的工件Ji并选择它的下一个工序Oi,j。然后就是选择对应的机器，确定下一个操作Oi,j后，我们可以计算得到一个机器集Mi,j，在Mi,j中，选择预计最快完成操作Oi,j的机器

规则六：首先计算一个未完成的工件集UCjob，为了防止陷入局部最优，我们随机选择一个未完成的工件Ji并选择它的下一个工序Oi,j。然后就是选择对应的机器，确定下一个操作Oi,j后，我们可以计算得到一个机器集Mi,j，在Mi,j中，随机选择一台机器防止局部最优。

接着，我们对调度结果使用邻域搜索算法进行优化。在使用邻域搜索算法的过程中，我们首先得到它的任务列表，空闲时间列表。然后我们从后往前选择任务CTLi，得到CTLi的操作Oi,j。最后，当满足空闲时间间隔的结束时间晚于Oi,j-1的结束时间的条件时，从前到后选择操作Oi,j的空闲时间间隔，空闲时间间隔可以包含时间用于处理操作Oi,j的区域。最终将操作Oi,j移到空闲时间间隔上面。

在完成了调度结果的优化后，我们将新的调度结果应用到生产车间上面进行执行并计算新的状态特征值与奖励，并将旧的状态特征值S、调度规则编号A、奖励R、新的状态特征值S_组合为四元组存入存储中(S,A,R,S_)。

最后随机抽取存储中的数据用来更新优化神经网络。

Claims

1.目前的基于深度强化学算法解决柔性车间调度问题的算法，在执行完调度规则后就直接应用了调度结果，并没有考虑对调度结果的优化，本发明将一种独特的领域搜索算法与深度强化学习相结合，形成了一种改良的深度强化学习，其特征在于在每次决策执行过后对决策结果进行优化，使调度结果更佳，同时，根据优化后的调度结果重新计算状态特征值以及奖励，使神经网络参数更新过程更加高效，邻域搜索算法优化结果如下。