CN115640898A

CN115640898A - 一种基于ddqn算法的大规模柔性作业车间调度方法

Info

Publication number: CN115640898A
Application number: CN202211325264.5A
Authority: CN
Inventors: 张剑; 郑婷娟; 李俊达; 张刘; 石懿
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-01-24

Abstract

本发明公开了一种基于DDQN算法的大规模柔性作业车间调度方法，具体为：首先对大规模调度问题进行形式化表达，包括定义状态特征、动作集、奖励函数；其次为了保证框架有效训练模型，将问题进行分解，并提出动作集及奖励函数反哺特征的方法设计状态特征；选用对完工时间最小化灵敏度高的复合调度规则作为动作集，并设计启发式奖励方法引导算法收敛；最后利用DDQN算法求解大规模柔性作业车间调度问题。本发明能够高效高质地解决大规模柔性作业车间调度问题。

Description

一种基于DDQN算法的大规模柔性作业车间调度方法

技术领域

本发明属于柔性作业车间调度技术领域，尤其涉及一种基于DDQN算法的大规模柔性作业车间调度方法。

背景技术

柔性作业车间调度问题是传统作业车间调度问题的扩展，是大量生产线的原型，由于其调度的柔性，每道工件加工工序可选择多台加工设备，更符合车间实际生产情况。工件数×机器数>1000的柔性作业车间调度问题被称为大规模柔性作业车间调度问题。事实上，在生产复杂产品时，往往因机器数量多、工艺复杂等因素而形成大规模柔性作业车间调度问题。该类问题解空间大，寻优困难，所以结合生产实际对其展开研究意义重大。

目前柔性作业车间调度问题的求解方法众多，但是常用方法是启发式调度规则和元启发式智能优化算法。基于优先级规则的启发式算法实施简单，能够稳定快速地得到可行解，但是启发式调度规则本身不具备优化能力，解的质量不高。而元启发式智能优化算法虽然求解精度较高，但其在求解大规模调度的问题时，需要迭代搜索而耗时长。即使针对静态调度问题，可提前进行求解，但是涉及众多资源，过早调度无法考虑到后期资源变化情况，导致生成的方案执行力差。

发明内容

针对上述问题，本发明提供一种基于DDQN算法的大规模柔性作业车间调度方法。

本发明的一种基于DDQN算法的大规模柔性作业车间调度方法，包括以下步骤：

步骤A：确定大规模柔性作业车间调度问题。

设有n个工件{J₁,J₂,…,J_n}在m台机器{M₁,M₂,…,M_m}上加工，每个工件有n_i道工序{O_i,1,O_i,2,…,O_i,ni}，O_i,j表示工件i的第j道工序，每道工序O_i,j有多台机器可加工；t_i,j,k表示工序O_i,j在第k台设备上加工的时间。

当出现以下三种情况时，被称为大规模柔性作业车间调度问题：

a)当工件n>50，机器m>20时；

b)当工件n≤50,机器m>20，n×m>1000时；

c)当工件n>50，机器m≤20，n×m>1000时。

步骤B：建立大规模柔性作业车间调度目标优化的数学模型。

目标函数为完工时间最小，如下式：

约束条件：

n·m＞1000 (6)

其中，n表示待加工工件总数，m表示机床数量，J_i表示第i个工件，M_k表示第k台机器，M_i,j表示工序O_i,j的可用机器集，n_i表示工件i的工序数，C_i,j表示工序O_i,j的完工时间，C_i表示工件i的完工时间。

其中，式(1)表示最小化最大完工时间，式(2)表示每道工序的完工时间是非负的，式(3)表示每道工序只能在一台机器上加工，式(4)表示每台机器只能在同一时刻加工一道工序，式(5)表示下一道工序只能在上一道工序加工完成后才能开始加工，式(6)为大规模限定条件，式(7)为决策变量。

步骤C：调度问题的转换。

(a)状态特征设计

将柔性作业车间调度问题分解成工件调度完成和完工时间最小两个子目标；针对调度完成子目标，设计状态特征f₁表示工件完工率，f₂表示工件完工率标准差；针对完工时间最小设计状态特征f₃表示机器平均利用率，f₄表示机器平均利用率标准差。

为了让调度智能体获取动作相关信息，设计动作集状态特征f₅表示剩余最大工时归一化处理、f₆表示剩余工序数最大归一化处理、f₇表示最小机床负载归一化处理、f₈表示最小加工工时归一化处理、f₉表示可用机床最小完工时间归一化处理。

(b)动作集设计

筛选出了在完工时间最优时表现出色的两种工件选择规则和三种机器选择规则，排列组合得到复合调度规则。

(c)奖励函数设计

设计启发式奖励方法以引导智能体在较短时间内获得较大的奖励值，得到一组使最大完工时间最小的调度规则集；奖励值设置考虑回合奖励和即时奖励，在回合结束时，设计如式(8)示的奖励值；由于机器利用率越高，完工时间也就越小，所以为了避免稀疏奖励，采用式(9)示的即时奖励。

式中，makepan(t)代表当前回合的完工时间。

式中，Uave(t)代表t时刻的机器平均机器利用率。

步骤D：DDQN算法优化求解大规模柔性作业车间调度问题。

调度智能体在车间某种状态下，根据车间状态选择复合调度规则，当对工件排序并分配机床后，车间环境发生改变，据此给予调度智能体奖励值；如果奖励值高，调度智能体则会选择这个复合调度规则，经过不断地试错学习，不断与环境交互，最终保证在累积奖励值最大的情况下，获得较优解。DDQN算法求解大规模柔性作业车间调度问题具体如下：

步骤1：初始化记忆池容量为D、最大迭代次数为Max_episode、初始化学习率为α、折扣率为γ，初始化目标网络和估计网络的参数。

步骤2：每个回合的开始将车间环境重置为初始状态S₀。

步骤3：将状态输入网络，网络输出动作的Q值，利用贪婪策略选择动作，即选择复合调度规则调度工件以及选择机器加工该工件，并且执行该动作a_t。

步骤4：执行该动作后，车间环境进入下一状态S_t+1，计算状态特征值，环境变化后智能体会获得奖励值r_t，然后将S_t+1赋给S_t。

步骤5：将数据(S_t,a_t,r_t,S_t+1)存储在记忆池D中，然后从记忆池中随机采样batchisize个样本来学习，在学习的过程当中梯度下降更新网络中的权重参数。

步骤6：每隔C步将估计网络中的参数赋给目标网络。

步骤7：判断案例的所有工件工序是否调度完成，如果是则进入下一个回合，如否，则继续执行步骤3。

步骤8：判断回合是否结束，如果是则输出较优的调度模型，如否，则继续执行步骤2。

本发明的有益技术效果为：

(1)本方法设计了DDQN算法框架训练模型求解问题，在求解实例中，利用训练好的模型能够获得比调度规则更优的解且寻优时间比元启发式算法短，表明该算法框架能够高效高质地解决大规模柔性作业车间调度问题。

(2)本方法设计了一种将调度问题分解，根据设计的动作集以及奖励函数反哺设计状态特征的方法，解决状态特征提取难的问题；针对柔性作业车间调度问题具有机器选择和工件排序两个子动作，设计选用复合调度规则作为动作集，提高解的精度；同时设计了启发式奖励函数，加快算法收敛。

附图说明

图1为本发明DDQN求解大规模柔性作业车间调度问题框架示意图。

图2为调度智能体学习过程奖惩记录图。

图3为调度智能体学习过程MK01完工时间迭代图。

图4为本发明DDQN算法求解MK01算例最优调度甘特图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。

本发明提出采用DDQN算法框架训练模型以求解问题。首先对大规模调度问题进行形式化表达，包括定义状态特征、动作集、奖励函数。其次为了保证框架有效训练模型，将问题进行分解，并提出动作集及奖励函数反哺特征的方法设计状态特征；选用对完工时间最小化灵敏度高的复合调度规则作为动作集，并设计启发式奖励方法引导算法收敛。

步骤A：确定大规模柔性作业车间调度问题。

a)当工件n>50，机器m>20时；

b)当工件n≤50,机器m>20，n×m>1000时；

c)当工件n>50，机器m≤20，n×m>1000时。

故大规模柔性作业车间调度问题需要满足以下约束条件：(1)每台机床在某一时刻只能加工一道工序，并且每道工序一旦开始加工不得中断；(2)某工件的下一道工序只能在上一道工序加工完成之后才能开始加工；(3)同一时刻，工件的每道工序只在一台机器上加工；(4)机床在零时刻可以开工，同时工件在零时刻可以被加工；(5)工件数和机器数的乘积不能小于一千。

步骤B：建立大规模柔性作业车间调度目标优化的数学模型。

目标函数为完工时间最小，如下式：

约束条件：

n·m＞1000 (6)

其中，n表示待加工工件总数，m表示机床数量，J_i表示第i个工件，M_k表示第k台机器，M_i,j表示工序O_i,j的可用机器集，n_i表示工件i的工序数，C_i,j表示工序O_i,j的完工时间。

步骤C：调度问题的转换。

(a)状态特征设计

针对状态特征提取难，过多过少都会降低算法效率的问题，本发明通过深入分析柔性作业车间调度问题以及优化目标，根据设计的奖励函数以及动作集反哺状态特征，提取出以下9种状态特征作为网络的输入。首先将柔性作业车间调度问题分解成工件调度完成和完工时间最小两个子目标；针对调度完成子目标，设计状态特征f₁表示工件完工率，f₂表示工件完工率标准差；针对完工时间最小设计状态特征f₃表示机器平均利用率，f₄表示机器平均利用率标准差。

为了让调度智能体获取动作相关信息，再根据工时、工序数、机床负载等工件以及机器的相关信息结合动作集设计状态特征f₅表示剩余最大工时归一化处理、f₆表示剩余工序数最大归一化处理、f₇表示最小机床负载归一化处理、f₈表示最小加工工时归一化处理、f₉表示可用机床最小完工时间归一化处理。采取归一化的特征有利于网络的学习以及增强模型泛化性，解的效果更好，所以本发明的状态特征采取归一化处理。各个状态特征的详细描述如表1所示。

表1状态特征详细描述表

(b)动作集设计

目前在车间调度问题上，筛选出了在完工时间最优时表现出色的两种工件选择规则和三种机器选择规则，排列组合得到表2所示的复合调度规则。

表2动作集表

(c)奖励函数设计

设计奖励函数是决定深度强化学习是否能够学习到策略的关键，直接影响到算法最终性能。为了能够加快算法收敛，设计启发式奖励方法以引导智能体在较短时间内获得较大的奖励值，得到一组使最大完工时间最小的调度规则集；奖励值设置考虑回合奖励和即时奖励，在回合结束时，设计如式(8)示的奖励值；由于机器利用率越高，完工时间也就越小，所以为了避免稀疏奖励，采用式(9)示的即时奖励。

式中，makepan(t)代表当前回合的完工时间。

式中，Uave(t)代表t时刻的机器平均机器利用率。

步骤D：DDQN算法优化求解大规模柔性作业车间调度问题。

调度智能体在车间某种状态下，根据车间状态选择复合调度规则，当对工件排序并分配机床后，车间环境发生改变，据此给予调度智能体奖励值；如果奖励值高，调度智能体则会选择这个复合调度规则，经过不断地试错学习，不断与环境交互，最终保证在累积奖励值最大的情况下，获得较优解。

DDQN算法求解大规模柔性作业车间调度问题如图1所示，具体如下：

步骤2：每个回合的开始将车间环境重置为初始状态S₀。

步骤6：每隔C步将估计网络中的参数赋给目标网络。

步骤8：判断回合是否结束，如果是则输出较优的调度模型，如否，则继续执行步骤2。实施例：

本发明在柔性作业车间调度问题的标准算例Brandimarte以及随机产生的大规模算例上验证所提算法框架的有效性以及模型泛化性。

(1)实验设计

神经网络的层数以及隐藏层节点数会在很大程度上影响算法的性能，由于柔性作业车间调度问题比较复杂，在实验中，本发明构建了具有单输入层、四层隐藏层以及单输出层的神经网络，其中输入层节点数为设计的状态特征个数，隐藏层节点数为30，输出层节点数为上文设计的动作集个数，其中每层激活函数都使用ReLU激活函数。同时正确选择超参数对智能体的学习能力和算法性能影响大，但是超参数范围很广，难以选择到合适参数，本发明根据一般原则，设置相关参数，见表3。实验采用Python语言，Tensorflow1.4版本，设备配置为Intel(R)Core(TM)i5-9400 CPU@2.90GHz 2.90GHz，机带RAM为8GB。

表3离线训练算法参数表

(2)实验结果分析

图2为调度智能体学习过程当中的奖惩记录图，智能体在1000代以内不断学习，处于试错阶段，之后就能以极大的概率选取到使奖励最大的动作，整个学习过程趋于稳定。图3为MK01算例在学习过程中的完工时间迭代曲线图，由图可知随着奖励值的增大，完工时间在不断减小，当智能体所获得的奖励值趋于稳定时，完工时间就能收敛到较优值，从而验证了所设计的状态特征和奖励值的有效性。图4为MK01算例中完工时间最小的调度甘特图。

根据所设置参数，在FJSP问题的经典算例上进行测试，并且与现有端到端的深度强化学习算法及动作集中所设计的复合调度规则进行对比，结果如表4示。表4中的GAP表示各种算法所求解与现有MK标准算例最优解之间的差值百分比。

表4实验结果对比表

从表4可知，本发明所提算法求解MK01-MK10算例时，平均解比基于端到端的深度强化学习算法高出17.4个单位时间，所得结果中，90％优于基于端到端的深度强化算法解，并且所有算例的求解结果均优于复合调度规则，验证了本发明所提算法相较于复合调度规则以及现有的端到端深度强化算法可以获得较优的解。

深度神经网络在训练过程中需要一定的时间，但是可将线下训练好的模型应用到实例中，稳定且快速地得到一个可行解，从而能够避免智能算法求解大规模问题寻优耗时长的问题。

表5是利用50×20规模的算例进行训练获取的模型在70×30大规模以及100×50规模算例上测试的结果，并将其与动作集设计的调度规则改进遗传算法IGA以及改进杂草算法IIWO进行比较，表5中GAP表示复合调度规则及元启发式算法所得解与本文所提算法框架所得解的差值百分比。

表5大规模测试泛化结果表

可见，利用线下训练模型能够快速得到优于复合调度规则的可行解，从而验证模型的泛化性。虽然解的精度略低于元启发式算法，但是在求解100×50大规模问题时，其求解时间仅为元启发式智能算法的1/58，仅需22.33s就能获得可行解，进一步说明了所提算法框架能够很好地解决求解大规模问题耗时问题。

Claims

1.一种基于DDQN算法的大规模柔性作业车间调度方法，其特征在于，包括以下步骤：

步骤A：确定大规模柔性作业车间调度问题；

设有n个工件{J₁,J₂,…,J_n}在m台机器{M₁,M₂,…,M_m}上加工，每个工件有n_i道工序{O_i,1,O_i,2,…,O_i,ni}，O_i,j表示工件i的第j道工序，每道工序O_i,j有多台机器可加工；t_i,j,k表示工序O_i,j在第k台设备上加工的时间；

a)当工件n>50，机器m>20时；

b)当工件n≤50,机器m>20，n×m>1000时；

c)当工件n>50，机器m≤20，n×m>1000时；

步骤B：建立大规模柔性作业车间调度目标优化的数学模型；

目标函数为完工时间最小，如下式：

约束条件：

n·m＞1000 (6)

其中，n表示待加工工件总数，m表示机床数量，J_i表示第i个工件，M_k表示第k台机器，M_i,j表示工序O_i,j的可用机器集，n_i表示工件i的工序数，C_i,j表示工序O_i,j的完工时间，C_i表示工件i的完工时间；

其中，式(1)表示最小化最大完工时间，式(2)表示每道工序的完工时间是非负的，式(3)表示每道工序只能在一台机器上加工，式(4)表示每台机器只能在同一时刻加工一道工序，式(5)表示下一道工序只能在上一道工序加工完成后才能开始加工，式(6)为大规模限定条件，式(7)为决策变量；

步骤C：调度问题的转换；

(a)状态特征设计

将柔性作业车间调度问题分解成工件调度完成和完工时间最小两个子目标；针对调度完成子目标，设计状态特征f₁表示工件完工率，f₂表示工件完工率标准差；针对完工时间最小设计状态特征f₃表示机器平均利用率，f₄表示机器平均利用率标准差；

为了让调度智能体获取动作相关信息，设计动作集状态特征f₅表示剩余最大工时归一化处理、f₆表示剩余工序数最大归一化处理、f₇表示最小机床负载归一化处理、f₈表示最小加工工时归一化处理、f₉表示可用机床最小完工时间归一化处理；

(b)动作集设计

筛选出了在完工时间最优时表现出色的两种工件选择规则和三种机器选择规则，排列组合得到复合调度规则；

(c)奖励函数设计

设计启发式奖励方法以引导智能体在较短时间内获得较大的奖励值，得到一组使最大完工时间最小的调度规则集；奖励值设置考虑回合奖励和即时奖励，在回合结束时，设计如式(8)示的奖励值；由于机器利用率越高，完工时间也就越小，所以为了避免稀疏奖励，采用式(9)示的即时奖励；

式中，makepan(t)代表当前回合的完工时间；

式中，Uave(t)代表t时刻的机器平均机器利用率；

步骤D：DDQN算法优化求解大规模柔性作业车间调度问题；

2.根据权利要求1所述的一种基于DDQN算法的大规模柔性作业车间调度方法，其特征在于，所述DDQN算法求解大规模柔性作业车间调度问题具体如下：

步骤1：初始化记忆池容量为D、最大迭代次数为Max_episode、初始化学习率为α、折扣率为γ，初始化目标网络和估计网络的参数；

步骤2：每个回合的开始将车间环境重置为初始状态S₀；

步骤3：将状态输入网络，网络输出动作的Q值，利用贪婪策略选择动作，即选择复合调度规则调度工件以及选择机器加工该工件，并且执行该动作a_t；

步骤4：执行该动作后，车间环境进入下一状态S_t+1，计算状态特征值，环境变化后智能体会获得奖励值r_t，然后将S_t+1赋给S_t；

步骤5：将数据(S_t,a_t,r_t,S_t+1)存储在记忆池D中，然后从记忆池中随机采样batchisize个样本来学习，在学习的过程当中梯度下降更新网络中的权重参数；

步骤6：每隔C步将估计网络中的参数赋给目标网络；

步骤7：判断案例的所有工件工序是否调度完成，如果是则进入下一个回合，如否，则继续执行步骤3；