CN113344332A

CN113344332A - 一种带运输过程和机器状态的车间调度方法及系统

Info

Publication number: CN113344332A
Application number: CN202110506250.2A
Authority: CN
Inventors: 杜宇; 李俊青
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-09-03

Abstract

本发明公开了一种带运输过程和机器状态的车间调度方法及系统，其技术方案为：包括获取工件参数、机器全过程运输参数；以最大完工时间和总能耗最小为优化目标，利用强化学习方法构建深度Q网络模型；采用双重深度Q网络和软目标权重更新策略训练深度Q网络，并采用softmax选择策略通过概率选择调度规则提高解的质量，得到柔性车间调度最优解决方案。本发明基于深度神经网络的强化学习模型来解决考虑起重机全过程运输、机器准备时间、机器空闲时间的柔性车间调度问题，降低了总能耗，缩短了最大完工时间，提高了工作效率。

Description

一种带运输过程和机器状态的车间调度方法及系统

技术领域

本发明涉及柔性车间调度领域，尤其涉及一种带运输过程和机器状态的车间调度方法及系统。

背景技术

柔性车间调度问题(FJSP)是组合优化领域中的一个重要分支，是车间调度问题(JSP)的一个扩展NP-hard问题。在FJSP中，需要完成所有工序加工的顺序和每个工序加工机器分配这两个任务。FJSP在设备制造、半导体制造、化学材料加工以及手机装配领域中广泛存在。在FJSP中，工件依靠起重机在机器之间运输，起重机运输过程的时间和能量消耗不能被忽略。

FJSP通常通过进化算法(EAs)求得满意解。然而，对于中大规模的FJSP，模型的探索和挖掘能力对于EAs的随机搜索策略来说并不明显。发明人发现，目前关于柔性车间调度的研究存在以下问题：

(1)借助进化算法优化结果，而进化算法依靠随机调整调度方案提高优化的效果，所以进化算法在调度的优化效果较为有限；

(2)起重机在运动过程中没有考虑全部的运动过程，特别是忽略了起重机在竖直方向(z方向)上的移动过程，而在实际的生产过程中，起重机在竖直方向上的运动时间不可忽略；

(3)忽略了机器的准备时间、空闲时间及其能耗问题，但实际生产过程中，同一台机器生产不同的工件往往伴随着调整机器参数等过程，同样消耗时间，与此同时，机器在整个调度过程中不可关闭，空闲状态的机器同样消耗电能，这两部分的时间和能量消耗不可忽略。

上述问题的存在导致柔性车间调度能好较高、工作效率较低。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种带运输过程和机器状态的车间调度方法及系统，基于深度神经网络的强化学习模型来解决考虑起重机全过程运输、机器准备时间、机器空闲时间的柔性车间调度问题，降低了总能耗，缩短了最大完工时间，提高了工作效率。

为了实现上述目的，本发明是通过如下的技术方案来实现：

第一方面，本发明的实施例提供了一种带运输过程和机器状态的车间调度方法，包括：

获取工件参数、机器全过程运输参数；

以最大完工时间和总能耗最小为优化目标，利用强化学习方法构建深度Q网络模型；

采用双重深度Q网络和软目标权重更新策略训练深度Q网络，并采用softmax选择策略通过概率选择调度规则提高解的质量，得到柔性车间调度最优解决方案。

作为进一步的实现方式，在深度Q网络中，首先观测初始状态s0并计算初始状态特征值；之后利用ε贪婪规则增强在线网络在柔性车间调度中的泛化能力；

根据变化的环境计算得到奖赏，根据计算误差通过梯度下降法训练在线网络Q；观测得到新的状态和新的状态特征。

作为进一步的实现方式，当在线网络更新时，目标网络通过软目标权重更新策略同步更新。

作为进一步的实现方式，采用多个状态特征描述柔性车间调度的环境，根据优化目标，将多个状态特征分为若干组，同组的状态特征在深度Q网络中共享设定层网络节点，不同组的状态特征在深度Q网络中互不链接。

作为进一步的实现方式，所述状态特征划分为关于调度过程的状态特征、关于最大完工时间的状态特征、关于总能耗的状态特征、关于能量效率的状态特征；所有的状态特征通过特征向量Φ管理。

作为进一步的实现方式，以概率ε利用softmax策略选择动作ai，其中i为自然数；根据插入策略完成其中的一个动作，插入策略的步骤为：

在插入新工序之前记录所有已安排工序的机器安排；

选择一个未完成的工件插入到加工向量中；

在机器向量中，更新已安排工序的机器安排；

计算插入后的新解的适应度值，选择适应度值最优的点为插入点；

检查是否所有未完成工件在所有可插入位置上都已尝试；

根据最优适应度值对应的工件和插入点进行插入操作。

作为进一步的实现方式，采用GTHS策略提高解的质量，在GTHS策略基础上添加基于对最大完工时间和总能耗的优化策略；调整后的GTHS策略包括策略1-载重搬运能耗优化、策略2-等待过程能耗优化、策略3-最大完工时间优化；每一次对机器向量按照“策略1→策略2→策略3”的顺序执行。

第二方面，本发明实施例还提供了一种带运输过程和机器状态的车间调度系统，包括：

参数获取模块，被配置为：获取工件参数、机器全过程运输参数；

深度Q网络模型构建模块，被配置为：以最大完工时间和总能耗最小为优化目标，利用强化学习方法构建深度Q网络模型；

寻优模块，被配置为：采用双重深度Q网络和软目标权重更新策略训练深度Q网络，并采用softmax选择策略通过概率选择调度规则提高解的质量，得到柔性车间调度最优解决方案。

第三方面，本发明实施例还提供了一种介质，其上存储有程序，该程序被处理器执行时实现所述的一种带运输过程和机器状态的车间调度方法中的步骤。

第四方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现所述的一种带运输过程和机器状态的车间调度方法中的步骤。

上述本发明的实施例的有益效果如下：

(1)本发明的一个或多个实施方式采用强化学习模型进行优化，该模型选用一个深度神经网络完成强化学习的过程，深度神经网络具有非常强的模型拟合能力和学习能力，在预测和模拟各种实际问题中的能力在目前最强，因此利用以深度神经网络为内核的强化学习来解决柔性车间调度问题，能够基于数据的角度对调度结果进行优化，从而规避之前进化算法的盲目性，提升优化效果。

(2)本发明的一个或多个实施方式考虑了包括起重机在竖直方向上的八种运输状态，模拟出了车间内起重机的所有运动过程，在时间消耗和能量消耗上接近实际的生产状态；并将机器的准备时间、空闲时间以及二者的能耗考虑进模型中，更加符合实际的车间生产状态。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明根据一个或多个实施方式的流程图；

图2是本发明根据一个或多个实施方式的起重机状态的判别规则；

图3是本发明根据一个或多个实施方式的DQN模型框架；

图4是本发明根据一个或多个实施方式的FJSP-CS解的编码；

图5是本发明根据一个或多个实施方式的DQN结构；

图6(a)-图6(c)是本发明根据一个或多个实施方式的参数校正实验结果图；

图7是本发明根据一个或多个实施方式的调度规则性能比较图；

图8是本发明根据一个或多个实施方式的调度规则ANOVA结果图；

图9是本发明根据一个或多个实施方式的其他调度规则和算法性能比较图；

图10是本发明根据一个或多个实施方式的其他调度规则和算法ANOVA结果图；

图11是本发明根据一个或多个实施方式的DPR-5性能对比的ANOVA结果图；

图12是本发明根据一个或多个实施方式的DQN网络结构比较ANOVA结果图；

图13是本发明根据一个或多个实施方式的权重分析结果图。

具体实施方式

实施例一：

本实施例提供了一种带运输过程和机器状态的车间调度方法，包括：

获取工件参数、机器全过程运输参数；

在FJSP-CS(柔性车间调度问题)中需要完成I个工件的加工，每个工件i有OP_i个工序，每个工件的工序必须按照一定的顺序在一个机器集合中加工。每个工件只能同时被一台机器加工，且每台机器同时只能加工一个工件。机器间工件的运输通过起重机完成，起重机在同一时间只能搬运一个工件。

在本实施例中，涉及的符号及参数含义为：

i：工件编号；j：工序编号；k：机器编号；pr：加工顺序编号。

O_i,j：工件i的第j个工序；I：工件数；OP_i：工件i的工序数；PR：所有工件的总工序数；K：机器数；K_i,j：工序O_i,j的可加工机器集合；Vx，Vy，Vz：起重机横向、纵向和竖向的运行速度；h：起重机竖向高度；Wx，Wy，Wz：起重机横向、纵向和竖向的设备重量；Wj：抬升工件的重量；Qn：起重机可抬升重量；Ts_i,j，Tc_i,j：O_i,j的开始和结束时间；STs_i,j，STc_i,j：O_i,j机器准备过程的开始和结束时间；MIs_i,j，MIc_i,j：O_i,j机器空闲状态的开始和结束时间；noS_i,j，nsS_i,j，nlS_i,j，luS_i,j，lsS_i,j，loS_i,j，llS_i,j，nuS_i,j：空载运输、空载等待、空载下降、载重抬升、载重等待、载重运输、载重下降和空载抬升过程的开始时间；noC_i,j，nsC_i,j，nlC_i,j，luC_i,j，lsC_i,j，loC_i,j，llC_i,j，nuC_i,j：空载运输、空载等待、空载下降、载重抬升、载重等待、载重运输、载重下降和空载抬升过程的结束时间；a_xs，a_xb：起重机横向运动开始和结束加速度；a_ys，a_yb：起重机纵向运动开始和结束加速度；a_ys，a_yb：起重机竖向运动开始和结束加速度；P_x，P_xs：起重机横向额定功率和启动功率；P_y，P_ys：起重机纵向额定功率和启动功率；P_z，P_zs：起重机竖向额定功率和启动功率；P_s：起重机空闲状态功率；x_op，x_cp，x_pp：加工位置、起重机位置和同工件前序工序位置的横坐标；y_op，y_cp，y_pp：加工位置、起重机位置和同工件前序工序位置的纵坐标；T_xnos(O_i,j)，T_xnob(O_i,j)，T_xnod(O_i,j)：工序O_i,j在空载运输状态的横向开始、减速和匀速时间；T_ynos(O_i,j)，T_ynob(O_i,j)，T_ynod(O_i,j)：工序O_i,j在空载运输状态的纵向开始、减速和匀速时间；T_znls(O_i,j)，T_znlb(O_i,j)，T_znld(O_i,j)：工序O_i,j在空载下降状态的竖向开始、减速和匀速时间；T_zlus(O_i,j)，T_zlub(O_i,j)，T_zlud(O_i,j)：工序O_i,j在载重上升状态的竖向开始、减速和匀速时间；T_xlos(O_i,j)，T_xlob(O_i,j)，T_xlod(O_i,j)：工序O_i,j在载重运输状态的横向开始、减速和匀速时间；T_ylos(O_i,j)，T_ylob(O_i,j)，T_ylod(O_i,j)：工序O_i,j在载重运输状态的纵向开始、减速和匀速时间；T_zlls(O_i,j)，T_zllb(O_i,j)，T_zlld(O_i,j)：工序O_i,j在载重下降状态的竖向开始、减速和匀速时间；T_znus(O_i,j)，T_znub(O_i,j)，T_znud(O_i,j)：工序O_i,j在空载上升状态的竖向开始、减速和匀速时间；Wx，Wy，Wz：横向、纵向和竖向设备的重量；Ψ<O_i1,j1,O_i2,j2>：在同一台机器上，工序O_i2,j2是O_i1,j1加工后的下一个加工工序。

假设：

在FJSP-CS中，所有的工序必须严格按照加工顺序和机器安排进行加工；

起重机和机器的工作过程是一个连续的过程，中途不可被打断；

每一个工序只能在一台机器上加工，不可同时被别的机器加工；

每台机器一次只能加工一个工件；

起重机同一时间只能搬运一台工件；

起重机的初始位置位于第一个加工的工序机器位置上；

处于安全因素，加工机器处于空闲时才可进行工件运输步骤；

所有工件的第一个工序无需起重机搬运；

当工件的加工位置和前序加工位置相同，不需要起重机搬运。

本实施例考虑的机器状态包括机器加工状态、机器准备状态和机器空闲状态。

(1)机器加工状态：

工序O_i,j的机器加工状态能耗E_mp(O_i,j)为，由式(1)计算。

其中，

和T_mp(O_i,j)分别为工序的单位能耗和机器加工时间。

机器加工状态的总能耗由式(2)计算。

(2)机器准备状态

工序O_i,j的机器准备状态能耗E_st(O_i,j)为，由式(3)计算。

其中，

和T_st(O_i,j)分别为工序的单位能耗和机器加工时间。

机器准备状态的总能耗由式(4)计算。

(3)机器空闲状态

工序O_i,j的机器空闲状态能耗E_mi(O_i,j)为，由式(5)计算。

其中，

和T_mi(O_i,j)分别为工序的单位能耗和机器加工时间。

机器空闲状态的总能耗由式(6)计算。

本实施例的起重机运输包括水平方向运输和垂直于地面的竖向运输。水平方向运输包括空载运输、空载等待、载重等待和载重运输。竖向运输包括空载下降、载重抬升、载重下降和空载抬升。

起重机系统安装于车间内，起重机包括横向运输设备、纵向运输设备和抬升设备。横向运输设备控制起重机沿x轴方向运动，纵向运输设备控制起重机沿y方向运输，抬升设备控制挂钩沿z轴方向运动。

本实施例提出的判别规则清楚地描述了八种起重机状态的关系，即空载运输、空载等待、空载下降、载重抬升、载重等待、载重运输、载重下降、空载抬升；如图2所示，判别规则根据当前操作的位置、同工件前序工序操作位置以及起重机位置的关系来确定起重机接下来需要执行的动作。

进一步的，工序O_i,j的空载运输x和y方向的移动时间分别由式(7)-(10)和(11)-(14)计算，空载运输过程的时间和能量消耗分别由(15)和(16)计算，空载运输过程的总能耗由(17)计算。

T_no(O_i,j)＝T_xnos(O_i,j)+T_xnob(O_i,j)+T_xnod(O_i,j)+T_ynos(O_i,j)+T_ynob(O_i,j)+T_ynod(O_i,j)(15)

进一步的，工序O_i,j的空载等待过程的时间和能量消耗分别由(18)和(19)计算，空载等待过程的总能耗由(20)计算。

T_ns(O_i,j)＝max{Tc(O_i,j-1)-T_no(O_i,j),0} (18)

E_ns(O_i,j)＝T_ns(O_i,j)·P_s (19)

进一步的，工序O_i,j的空载下降z方向的移动时间由式(21)-(24)计算，空载下降过程的时间和能量消耗分别由(25)和(26)计算，空载下降过程的总能耗由(27)计算。

T_nl(O_i,j)＝T_znls(O_i,j)+T_znlb(O_i,j)+T_znld(O_i,j) (25)

进一步的，工序O_i,j的载重抬升z方向的移动时间由式(28)-(31)计算，载重抬升过程的时间和能量消耗分别由(32)和(33)计算，载重抬升过程的总能耗由(34)计算。

T_lu(O_i,j)＝T_zlus(O_i,j)+T_zlub(O_i,j)+T_zlud(O_i,j) (32)

进一步的，工序O_i,j的载重等待过程的时间和能量消耗分别由(35)和(36)计算，载重等待过程的总能耗由(37)计算。

T_ls(O_i,j)＝max{Tc(O_i,j-1)-T_st(O_i,j),0} (35)

E_ls(O_i,j)＝T_ls(O_i,j)·P_s (36)

进一步的，工序O_i,j的载重运输x和y方向的移动时间分别由式(38)-(41)和(42)-(45)计算，载重运输过程的时间和能量消耗分别由(46)和(47)计算，载重运输过程的总能耗由(48)计算。

T_lo(O_i,j)＝T_xlos(O_i,j)+T_xlob(O_i,j)+T_xlod(O_i,j)+T_ylos(O_i,j)+T_ylob(O_i,j)+T_ylod(O_i,j)(46)

进一步的，工序O_i,j的载重下降z方向的移动时间由式(49)-(51)计算，载重下降过程的时间和能量消耗分别由(52)和(53)计算，载重下降过程的总能耗由(54)计算。

T_ll(O_i,j)＝T_zlls(O_i,j)+T_zllb(O_i,j)+T_zlld(O_i,j) (52)

E_ll(O_i,j)＝δ·T_zlld(O_i,j)·P_zd-T_zlls(O_i,j)·P_zs (53)

进一步的，工序O_i,j的载重抬升z方向的移动时间由式(55)-(57)计算，载重抬升过程的时间和能量消耗分别由(58)和(59)计算，载重抬升过程的总能耗由(60)计算。

T_nu(O_i,j)＝T_znus(O_i,j)+T_znub(O_i,j)+T_znud(O_i,j) (58)

E_nu(O_i,j)＝T_znus(O_i,j)·P_zs+γ·T_znud(O_i,j)·P_zd (59)

进一步的，所有机器状态的总能耗由式(61)计算，所有起重机状态的总能耗由式(62)计算，FJSP-CS的总能耗由式(63)计算。

TEC_mc＝TEC_mp+TEC_st+TEC_mi (61)

TEC_ct＝E_no+E_ns+E_nl+E_lu+E_ls+E_lo+E_ll+E_nu (62)

TEC＝TEC_mc+TEC_ct (63)

FJSP-CS模型表示为：

minf＝w·f₁+(1-w)·f₂ (64)

f₂＝TEC (66)

FJSP-CS模型的加权适应度值由式(64)计算。权重w将式(65)的最大完工时间和式(66)的总能耗相连接。约束(67)保证每个工序只由一台机器加工。约束(68)描述每个加工次序上只有一个工序。约束(69)保证工序按照调度次序进行加工。约束(70)保证了机器上各个顺序至多只能有一个工序。约束(71)保证了机器的加工时间与输入数据吻合。约束(72)描述了起重机运输各个过程的时间关系。约束(73)保证了当目标机器为空闲状态时，起重机才可进入运输状态。约束(74)保证了当机器加工结束后工件才可被起重机运输。约束(75)表示所有工件的第一个工序无需起重机运输。约束(76)表示如果一个工序的前序工序和当前工序加工机器一致时无需起重机运输。约束(77)表示机器准备阶段的开始时间不能晚于该机器前序工序的加工完成时间。约束(78)描述了机器准备时间、空闲时间和机器加工的时间关系。约束(79)为FJSP-CS的决策变量。

进一步的，RL可被看做一个马尔科夫决策过程模型，其中一个agent通过规则π做出动作a给环境，环境发生改变，agent得到奖赏r。在每一个决策时间点t，agent观测环境的状态s_t，从动作集A中根据规则π做出动作a_t。当做出a_t后，观测到新的状态s_t+1，环境反馈这个动作得到奖赏r_t+1。DQN是RL和DL的结合，其中agent的动作由一个深度神经网络决定。本实施例通过DQN模型来解决FJSP-CS。

针对FJSP-CS的DQN模型框架由图3所示。在DQN中，在线网络Q由训练算例的数据训练。首先，agent观测初始状态s₀并计算初始状态特征值。然后，应用ε贪婪规则增强在线网络在FJSP-CS中的泛化能力。接下来，根据变化的环境计算得到奖赏，根据计算误差通过梯度下降法训练在线网络Q。最后，观测得到新的状态和新的状态特征。

当在线网络更新时，目标网络

通过软目标权重更新策略同步更新，这保证了目标网络的稳定性。目标网络与在线网络结构相同。目标网络更新之后，测试算例的数据输入到目标网络计算输出结果。最后，所有生成的解通过绿色运输启发式策略(GTHS)来精炼得到最终结果。

进一步的，FJSP-CS的解包括一个加工向量和一个机器向量，每个向量的长度为所有工件工序的数量之和。在加工向量{ω₁,ω₂,...,ω_n}中，每个元素ω_i由一个工件编号代表。在机器向量{ρ₁,ρ₂,...,ρ_n}中，每个元素ρ_i代表加工机器编号。图4给出了一个解的编码，其中加工向量的第一个“3”表示工件3的第一个工序，第二个“3”表示工件3的第二个工序，其他工件按照同样的规则进行编排。图4中解的加工顺序为O_3,1、O_1,1、O_2,1、O_3,2、O_1,2、O_2,2、O_1,3、O_2,3、O_2,4。在机器向量中，工序O_3,1由机器M₂加工，工序O_1,1由机器M₂加工，后续工序的加工机器安排以此类推。

FJSP-CS的适应度值可根据对应的解计算得到。机器加工时间和准备时间由输入数据确定。具体的解码过程可参照起重机的判别规则。

进一步的，本实施例提出了12个状态特征来描述调度的环境。根据优化的目标，12个状态特征分为四组，即关于调度过程的状态特征、关于最大完工时间的状态特征、关于总能耗的状态特征、关于能量效率的状态特征。为了更好的优化效果，同组的状态特征在DQN中共享三层网络节点，不同组的状态特征在DQN中互不链接。

更进一步的，关于调度过程的状态特征包括：

进度百分比PR(t)：

PR(t)由式(80)定义，其中C_op(t)为时间t时已安排的工序数。

平均进度百分比PR_ave(t)：

PR_ave(t)由式(81)定义，其中C_op,i(t)为工件i在时间t时已安排的工序数。

进度百分比标准差PR_std(t)：

PR_std(t)由式(82)定义。

关于最大完工时间的状态特征包括：

当前最大完工时间CT(t)：

CT(t)由式(83)定义，其中CT_i,j(t)是工序O_i,j在时间t时的完工时间。

平均最大完工时间CT_ave(t)包括：

CT_ave(t)由式(84)定义，其中CT_k(t)是机器k在时间t时的完工时间。

最大完工时间标准差CT_std(t)包括：

CT_std(t)由式(85)定义。

关于总能耗的状态特征包括：

当前总能耗TEC(t)：

TEC(t)由式(86)定义，其中TEC_i,j(t)是工序O_i,j在时间t时的总能耗。

平均总能耗TEC_ave(t)：

TEC_ave(t)由式(87)定义，其中TEC_k(t)是机器k在时间t时上所有加工工序的总能耗。总能耗标准差TEC_std(t)：

TEC_std(t)由式(88)定义。

关于能量效率的状态特征包括：

机器能耗比ER(t)：

ER(t)由式(89)定义，其中TEC_mp(t)是FJSP-CS在时间t时机器加工的总能耗。

平均机器能耗比ER_ave(t)：

ER_ave(t)由式(90)定义，其中ER_k(t)是机器k在时间t时上所有加工工序的能耗比。

机器能耗比标准差ER_std(t)：

ER_std(t)由式(91)定义。

以上所有的状态特征通过特征向量Φ管理。特征向量表示为Φ_t＝(PR(t),PR_ave(t),PR_std(t),CT(t),CT_ave(t),CT_std(t),TEC(t),TEC_ave(t),TEC_std(t),ER(t),ER_ave(t),ER_std(t))。Φ是DQN的输入。为了更好地训练DQN，所有的输入参数通过式(92)归一化为[0,1]。

其中，Φ_i′是第i个归一化的状态特征，Φ_i是第i个归一化前的状态特征，Φ_max和Φ_min分别是特征向量的最大和最小特征值。

进一步的，本实施例涉及六种调度规则和插入策略，每一种方法为DQN的一个输出节点。

(1)调度规则1(DPR-1)：

加工向量接下来安排的工序来自未完成工序最多的工件，如果有超过一个工件满足上述情况，随机选择一个。机器安排由式

决定。根据DPR-1完成的动作为a₁。

(2)调度规则2(DPR-2)：

加工向量接下来安排的工序来自各机器加工时间最短的工件，如果有超过一个工件满足上述情况，随机选择一个。指派加工时间最短的机器进行加工。根据DPR-2完成的动作为a₂。

(3)调度规则3(DPR-3)：

加工向量接下来安排的工序来自各机器平均加工时间最短的工件，如果有超过一个工件满足上述情况，随机选择一个。机器安排由式

决定。根据DPR-3完成的动作为a₃。

(4)调度规则4(DPR-4)：

加工向量接下来安排的工序随机从未完成加工的工件里选择，机器安排由式

决定。根据DPR-4完成的动作为a₄。

(5)调度规则5(DPR-5)：

加工向量接下来安排的工序来自未完成的前序工件，机器安排也与前序工件工序的机器安排一致。如果所有的前序工件均已完成加工，则随机选择一个未完成工件，机器安排由式

决定。根据DPR-5完成的动作为a₅。

(6)调度规则6(DPR-6)：

加工向量接下来安排的工序来自各机器加工时间最长的工件，如果有超过一个工件满足上述情况，随机选择一个。机器安排由式

决定。根据DPR-6完成的动作为a₆。

(7)插入策略(IS)：

以上所有的调度规则都是通过在加工向量最后添加工序来完成动作。然而，这样的方式会限制调度规则的优化能力。本实施例受到迭代贪婪(IG)算法启发，提出了IS策略，IS通过将新的工序插入到加工向量的位置来完成动作。根据IS完成的动作为a₇。

IS的主要步骤如下：

步骤1：在插入新工序之前记录所有已安排工序的机器安排。

步骤2：选择一个未完成的工件插入到加工向量中。

步骤3：在机器向量中，更新已安排工序的机器安排。

步骤4：计算插入后的新解的适应度值，选择适应度值最优的点为插入点。

步骤5：检查是否所有的未完成工件在所有可插入位置上都已尝试，如果没有，返回到步骤2。

步骤6：根据最优适应度值对应的工件和插入点进行插入操作。

进一步的，在每个调度时点，只选择一个动作来完成FJSP-CS。在动作的选择上利用ε策略平衡探索能力和挖掘能力。DQN模型有(1-ε)的概率根据计算的最高Q值选择动作，为了避免陷入局部最优，本实施例以概率ε利用softmax策略选择动作。

选择动作a_i的概率公示计算如下：

其中，参数μ控制不同动作的区分程度。

算法1描述了在每个调度时点的动作选择过程。

在每次动作执行之后，DQN对应的奖赏由算法2描述，奖赏的设计目的是为了最小化最大完工时间和总能耗。

进一步的，DQN包括一个输入层、三个隐含层和一个输出层，输入层和输出层节点数分别与状态特征数和动作数相同，每个隐含层有20个节点。

本实施例的DQN不是全连接结构，如图5所示，12个状态特征分为四组，每组的状态特征在DQN中为全连接，但不同组的状态特征在前两层隐含层中互不相连。在第二层隐含层到输出层之间，节点为全连接。输入层和隐含层的激活函数为ReLU，输出层的激活函数为pure l in。与全连接的神经网络相比，DQN模型减少了权重和偏置，节省了计算时间和资源。更为重要的是，不同组的状态特征在训练过程中不会互相干扰。

DQN中的在线网络根据误差

的梯度下降方法训练，目标网络根据

更新。

进一步的，为了得到更好的调度结果，参考GTHS策略来提高解的质量。在此基础上添加了基于对最大完工时间和总能耗的优化策略。调整后的GTHS包括三种策略，所有的策略只对机器向量进行调整。在GTHS过程中，每一次对机器向量按照“策略1→策略2→策略3”的顺序执行。

策略1：载重搬运能耗优化：

此策略在机器向量上从左至右调整机器安排来获得载重搬运过程和机器加工过程能耗最低的解。

策略2：等待过程能耗优化：

此策略在机器向量上从左至右调整机器安排来获得载重等待过程和空载等待过程能耗最低的解。

策略3：最大完工时间优化

此策略在机器向量上从左至右调整机器安排来获得最大完工时间最小的解。

进一步的，本实施例通过RPI值对DQN的模型性能进行评价，计算过程如下：

其中f_c是给定算法的平均适应度值，f_b是所有对比算法中fc的最优适应度值。

实验算例：

算例命名格式为“aJbM”，表明该算例包括a个工件和b台机器。本实施例包括三类算例。第一类包括四个的小算例，其中工件数I＝{7,9,10}，机器数为6。第二类包括30个通过代码生成的算例，其中工件数I＝{10,20,30,40,50,80,100}，机器数M＝{6,7,8,9,10}加工时间在区间[5,30]内平均分布。第三类算例为第二类算例子集，包括10个算例，其中工件数I＝{20,30,40,50,80}，工序数M＝{6,10}。第一类和第二类算例用来评价DQN与其他算法的性能。算例“20J6M”用于参数校正。第三类算例用于权重讨论。

进一步的，DQN通过算例20J6M训练。训练之后，DQN在算例20J7M上进行测试。

本实施例包括三个重要参数，softmax策略参数μ、软目标权重更新参数τ和ε策略的参数ε_max。每个参数的水平值如下：

μ：{1.0,1.2,1.4,1.6,1.8,2.0}；

τ：{0.01,0.05,0.10}；

ε_max：{0.2,0.5,0.8}.

三个参数共包括6*3*3＝54个组合。在算例20J6M上对所有的组合进行参数校正实验，每一个组合重复30次取平均值。图6(a)-6(c)图为不同水平下的结果，根据图6，设定参数值为μ＝1.2，τ＝0.05，ε_max＝0.5。

本实施例将DQN与DPR1-6和IS进行性能对比。每组实验重复30次，取平均值。各算例的RPI值如图7所示。

由图7可得以下结论：(1)DQN相比其他的DPR和IS均更优，说明训练后的DQN已习得在不同状态下选择适合动作的知识；(2)DPR-5能在起重机方面减少时间和能量消耗，同时节省准备时间；(3)尽管DPR-5比其他的调度规则性能都最优，但是单个的DPR无法获得满意的解。因此，DQN能够有效地解决FJSP-CS。

采用多因素变量分析(ANOVA)来比较不同的策略之间是否显著。图8显示了不同比较算法RPI值的均值和95％置信区间，其中p值小于0.05，说明不同策略之间的比较结果是显著的。

进一步的，为了比较所提算法的性能，将其与其他广泛应用的调度规则和EAs进行比较。

参与比较的调度规则包括FIFO规则、MRT规则、SSU规则、SPTSSU规则。其中，FIFO规则优先选择选择具有各机器最小的最大完工时间的工序；MRT规则优先选择剩余加工时间最长的工序；SSU规则优先选择准备时间最长的工序；SPTSSU规则优先选择准备时间和剩余加工时间最长的工序。参与比较的算法包括遗传算法(GA)和变邻域搜索(VNS)。在GA和VNS中，种群数量为100，其余参数与现有技术记载一致，算法运行时间为(0.6*PR)。每个比较策略的RPI值如图9所示，结果为重复30次运行得到的平均值。

由图9可得以下结论：(1)DQN在性能方便优于其他调度规则和算法，说明DQN能够在有限时间内得到满意解；(2)除DQN外，VNS的结果最好，说明VNS具有强大的挖掘能力；(3)DQN和基于知识的调度规则优化结果比基于随机尝试的VNS更优秀。

采用多因素变量分析(ANOVA)来比较不同的策略之间是否显著。图10显示了不同比较算法RPI值的均值和95％置信区间，其中p值小于0.05，说明不同策略之间的比较结果是显著的。

进一步的，为了验证DPR-5的效果，将DQN与不含DPR-5的DQN进行比较，两种算法的其他部分都保持一致。两种算法均在所有算例中重复运行30次，取平均值。图11为两种算法的均值和95％置信区间，其中p值小于0.05，说明基于知识的DPR-5能够显著提高模型的优化能力。

进一步的，为了研究DQN结构对优化性能的影响，将DQN与全连接结构的DQN进行比较，两种算法的其他部分都保持一致。两种算法均在所有算例中重复运行30次，取平均值。图12为两种算法的均值和95％置信区间，其中p值小于0.05，说明本文提出DQN的结构通过节省计算资源得到了相比经典全连接DQN结构更好的结果。

本实施例利用权重w通过最大完工时间和总能耗计算适应度值，w设为0.8。实际上，权重表明了对两个优化目标的偏好。本实施例将权重依次设为{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9}来研究两个优化目标之间的关系。选择第三类算例对权重进行研究，每个算例单独运行10次取平均值。

图13为权重实验的结果，其中每个点表示对应权重和算例的两个目标的RPI值。从图13可得以下结论：(1)最大完工时间和总能耗可由权重w影响，较小的w更偏好对总能耗的优化，较大的w更偏好对最大完工时间的优化；(2)在不同的权重当中，适应度值相比总能耗对最大完工时间更敏感；(3)对于FJSP-CS，当w介于0.3到0.9时，算法对两个目标的优化效果都可得到较为满意的结果。

根据上述实验，DQN相比其他对比方法具有更好的表现，主要原因可总结如下：(1)DQN学会了在各种状态下挑选合适的调度规则；(2)将模型的参数调整到了最优；(3)分别与其他调度规则和算法的角度进行对比，证明了本实施例模型的性能；(4)基于知识的调度规则改善了DQN的性能；(5)通过对比实验说明了相比全连接结构的DQN，DQN的结构能够得到更优解。

本实施例提出的FJSP-CS包括起重机运输全过程、机器准备时间、机器空闲时间，相比普通的FJSP有更大的复杂度。本实施例通过基于RL方法的DQN模型解决FJSP-CS，其中最大完工时间和总能耗为优化目标。12个状态特征和7个基于知识的调度规则分别代表调度特征和动作。DQN通过双重深度Q网络和软目标权重更新在不同的情况下选择适宜的调度规则。应用softmax选择策略通过概率选择调度规则来提升DQN的柔性。数值实验对模型的效果、网络结构、调度规则进行了测试，结果表明DQN能在FJSP-CS得到较优解。

实施例二：

本发明实施例还提供了一种带运输过程和机器状态的车间调度系统，包括：

具体的车间调度系统的工作方法与实施例一中的调度方法相同，这里不再赘述。

实施例三：

本发明实施例还提供了一种介质，其上存储有程序，该程序被处理器执行时实现实施例一所述的一种带运输过程和机器状态的车间调度方法中的步骤。

实施例四：

本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现实施例一所述的一种带运输过程和机器状态的车间调度方法中的步骤。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种带运输过程和机器状态的车间调度方法，其特征在于，包括：

获取工件参数、机器全过程运输参数；

2.根据权利要求1所述的一种带运输过程和机器状态的车间调度方法，其特征在于，在深度Q网络中，首先观测初始状态s₀并计算初始状态特征值；之后利用ε贪婪规则增强在线网络在柔性车间调度中的泛化能力；

3.根据权利要求2所述的一种带运输过程和机器状态的车间调度方法，其特征在于，当在线网络更新时，目标网络

通过软目标权重更新策略同步更新。

4.根据权利要求1所述的一种带运输过程和机器状态的车间调度方法，其特征在于，采用多个状态特征描述柔性车间调度的环境，根据优化目标，将多个状态特征分为若干组，同组的状态特征在深度Q网络中共享设定层网络节点，不同组的状态特征在深度Q网络中互不链接。

5.根据权利要求4所述的一种带运输过程和机器状态的车间调度方法，其特征在于，所述状态特征划分为关于调度过程的状态特征、关于最大完工时间的状态特征、关于总能耗的状态特征、关于能量效率的状态特征；所有的状态特征通过特征向量Φ管理。

6.根据权利要求1所述的一种带运输过程和机器状态的车间调度方法，其特征在于，以概率ε利用softmax策略选择动作a_i，其中i为自然数；根据插入策略完成其中的一个动作，插入策略的步骤为：

在插入新工序之前记录所有已安排工序的机器安排；

选择一个未完成的工件插入到加工向量中；

在机器向量中，更新已安排工序的机器安排；

检查是否所有未完成工件在所有可插入位置上都已尝试；

根据最优适应度值对应的工件和插入点进行插入操作。

7.根据权利要求1所述的一种带运输过程和机器状态的车间调度方法，其特征在于，采用GTHS策略提高解的质量，在GTHS策略基础上添加基于对最大完工时间和总能耗的优化策略；调整后的GTHS策略包括策略1-载重搬运能耗优化、策略2-等待过程能耗优化、策略3-最大完工时间优化；每一次对机器向量按照“策略1→策略2→策略3”的顺序执行。

8.一种带运输过程和机器状态的车间调度系统，其特征在于，包括：

9.一种介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种带运输过程和机器状态的车间调度方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种带运输过程和机器状态的车间调度方法中的步骤。