CN115454005A

CN115454005A - 一种面向有限运输资源场景的制造车间动态智能调度方法及装置

Info

Publication number: CN115454005A
Application number: CN202211201246.6A
Authority: CN
Inventors: 顾文斌; 刘斯麒; 郭镇洋; 秦豪杰; 苑明海; 裴凤雀
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-12-09

Abstract

本发明公开了一种面向有限运输资源场景的制造车间动态智能调度方法及装置，方法包括：以最小化总完工时间和总能耗为目标，建立DFJSP‑ITR的马尔科夫决策过程和多目标优化模型；提出了基于DRL的多智能体调度框架模型来求解此类问题，并为该调度模型设计了决策点、状态空间、基于遗传规划的动作空间和奖励函数四个关键要素；提出一种基于LSTM的HDQN(HDRQN)训练方法使决策智能体学会根据每个决策点的生产状态选择合适的调度规则；训练完成后选取性能优越模型作为调度模型，随后可以根据车间的状态来输出最优的调度规则。本发明能够通过实时调度来有效克服在运输资源有限的情况下柔性车间动态调度问题，实现最小化总完工时间和总能耗的目标，具有良好的动态性，自适应性。

Description

一种面向有限运输资源场景的制造车间动态智能调度方法及装置

技术领域

本发明涉及一种面向有限运输资源场景的制造车间动态智能调度方法及装置，属于智能制造技术领域。

背景技术

在激烈的市场竞争和巨大的能源消耗背景下，制造业面临着巨大的经济压力和环境挑战。为了满足客户的多样化需求，节约成本，企业不断努力提高制造系统的可扩展性、灵活性和可靠性。同时随着自动引导车在制造系统中的广泛应用，考虑有限运输资源的生产调度成为一个难题，并且实际制造系统容易发生各种干扰事件，这增加了车间的复杂性和不确定性。

因此，在考虑运输资源不充足情况下，研究具有动态性，实时性的柔性车间调度方法来合理安排车间的生产资源和运输资源，从而提高企业运行效益，具有重要的理论价值和实际意义。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种面向有限运输资源场景的制造车间动态智能调度方法及装置，能够有效克服车间运输资源不足，车间生产过程中的干扰事件和不可预见事件等问题，针对不同规模的生产系统均具有较强的通用性和优越性，可根据车间的实时状态来提供优秀的调度方案。。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种面向有限运输资源场景的制造车间动态智能调度方法，包括以下步骤：

以最小化总工时间和总能耗为目标，将DFJSP-ITR调度问题建模为马尔可夫决策过程，建立相应多目标优化模型；

使用基于深度强化学习的方法来求解此类问题，并提出了基于DRL的调度框架模型，根据此类调度模型设计了决策点、状态空间、基于遗传规划的动作空间和奖励函数四个关键要素；

提出一个使用HDRQN的训练方法使决策智能体学会根据每个决策点的生产状态选择合适的调度规则；

通过训练集对HDRQN网络进行训练，即不断地更新HDRQN网络的参数，使其实现最小化最大完工时间和总能耗为目标以及处理干扰事件和不确定事件；

训练完成后，选取调度性能优越的模型作为最终的调度模型；当车间接收到新的订单时，该模型可以实时获取订单的信息，进而获取实时生产状态即设计的状态空间，随后根据实时生产状态来输出优秀的调度规则生产该模型可以针对考虑运输资源不足情况下动态柔性作业车间调度问题，实现最小化完工时间和总能耗的目标同时可以很好的处理干扰事件和不确定事件。

进一步的，以最小化总完工时间和最小化总能耗为目标，将DFJSP-ITR调度问题建模为马尔可夫决策过程，建立相应多目标优化模型的方法步骤如下：

首先对问题进行描述，并给出在描述此类问题中所需要用到的参数及其符号；

然后建立相应的目标优化模型；

第一个优化目标是最小化总完工时间，如公式(1)所示：

其中,T代表加工任务总完工时间，u代表工件的总数，CT_x代表工件x的完工时间。

第二个优化目标是最小化总能量消耗，如公式(2)所示：

其中ME_P，TE_p，AE_p分别代表机器的加工能耗，AGV的运输能耗以及辅助设备的能耗

在得到两个目标T和E后，通过赋予权重将两个优化目标转化为一个目标f来实现基于深度强化学习的调度方法，具体计算由下式所示：

f＝ω₁·T+ω₂·E (3)

其中ω₁和ω₂分别代表T和E的权重。

进一步的，提出了一种基于DRL的调度框架，包括如下内容：

该调度框架分为离线学习和在线应用两个阶段。

离线学习阶段，当订单发布到车间时，决策智能体不断收集来自车间的历史经验，并利用DRL方法和以往的决策经验来优化自身的参数。训练完成后，决策智能体可以据车间的实时状态选择合适的调度规则，从而优化目标。在线应用阶段，利用训练好的神经网络模型实现实时调度。

进一步的，设计的决策点，包括如下步骤：

根据车间是否存在故障机器，将决策点分为两种情况，即存在故障机器和不存在故障机器。

当车间不存在故障机器时，时间点t需要满足两个条件才能成为决策点：存在一个或多个工件等待运输；车间内存在一个或多个空闲AGV。

当车间存在故障机器时，时间点t需要满足三个条件才能成为决策点：当前剩余加工时间小于当前故障机器维修时间，存在一个或多个工件等待运输；车间内存在一个或多个空闲AGV。

进一步的，状态空间的设计方法，包括如下步骤：

创建能够统一表示不同车间环境和任务特征的状态特征，所有状态特征都生成在一个公式中，如公示(4)所示。

f＝x/ω (4)

f表示状态特征，x表示生产属性，ω一般性表示一般性的权重。ω的是用于减少不同生产属性值之间的差异，使状态特征更加具有通用性和统一性。

其中某一个时刻的26个生产属性x分别是：工件的平均完成率及其标准差，工件池工序加工的总时间，工件池加载率与当前工序加工时间的乘积，工件池当前工序加工的时间的均值和标准差，工件池加载率与当前工序加工时间的乘积的均值和标准差，工件池剩余加工时间和剩余能耗的均值，工件池加载率与当前工序加工时间的乘积值的范围，前工序加工时间值的范围，P_i的均值和方差，机器加载率的均值和方差，机器加工所有工序所需时间的总和，机器加工所有工序时间与加载率乘积的总和，机器加工所有工序所需时间均值和方差的总和，机器加工所有工序所需时间值的范围，机器加工所有工序时间与加载率乘积的均值和标准差的总和，机器加工所有工序时间与加载率乘积的总和的值的范围，机器剩余加载率和剩余能量消耗的均值的总和。

进一步的，设计了基于遗传规划的动作空间，包括如下步骤：

初始化迭代次数最大深度、种群规模、交叉率和变异率；

利用混合法生成初始种群，并计算种群中每个个体的适应度；

根据适应度从初始种群中挑选性能最好的一些GP规则形成调度规则库；

开始迭代，首先使用轮盘赌方法进行个体选择，然后基于交叉率进行或不进行交叉操作，基于变异率进行或不进行变异操作，最后更新种群中的每个个体的适应度，判断种群中是否存在比调度规则库中的规则表现还好的GP规则，如果存在则替换性能较差的GP规则，更新调度规则库。由此一直迭代直到达到迭代次数。

最终产生12个最佳的高质量GP规则，即12个动作，它们构成的动作空间。

进一步的，设计了奖励函数，包括如下步骤：

奖励函数第一部分是关于最小化完工时间这一目标，通过最小化单步过渡时间来实现最小化总完工时间；

奖励函数的第二个部分是关于最小化总能量消耗这一目标，通过最小化机器的能耗，AGV的能耗和辅助设备的能耗来实现总能耗最小化这一目标；

将奖励函数的两个部分通过赋予权重来结合在一起形成最终的奖励函数。

进一步的，获取实际案例并进行数据处理，包括如下步骤：

首先获取一个规模较大的案例，其中工件数量为40(工件1,…,工件40)，加工机器的数量为15(机器1,…,机器15)，ACV的数量为5(AGV1,…,AGV5)；

随后提取关键数据，每个工件的工序可选加工机器的数量，每个工件的工序可选加工机器的数量，可加工机器加工每个工件的工序的时间，可加工机器加工每个工件的工序的切削能耗，机器的空载能耗，AGV在机器之间的运输时间，AGV的运输能耗，车间的辅助生产能耗；

获取上述数据后，计算工件的属性数据，AGV的属性数据以及机器的属性数据。工件的属性数据包括：工件对应的可加工机器，在某一时刻每道工序的完成的进度，每道工序开始加工的时间和所需的加工时间以及所需要的切削能耗，每个工件被运输的AGV和运输时间。机器的属性数据包括：某一时刻是否正在加工(正在加工为1，否则为0)，某一时刻机器正在加工的工件(序号)，正在加工的工序的加工时间以及剩余加工时间。AGV的属性数据包括：某一时刻是否正在运输(正在运输为1，否则为0)，某一时刻AGV正在运输的工件(序号)，正在运输的工序的运输时间以及剩余运输时间，AGV正在运输工件的出发地和目的地(机器的序号)。

这些数据的获取是实时的，当需要调度时可以通过这些实时数据计算出所建立的生产状态空间中的所有变量的数值。

进一步的，使用HDRQN的训练方法，包括如下步骤：

对DQN扩展成HDQ,三个扩展分别是：双Q学习、优先级重播和软目标网络更新策略；

在HDQN的网络前增加了长短记忆网络层(LSTM)，LSTM层可以存储历史经验，使智能体拥有良好的记忆功能，进而可以更好的学习。

初始化HDQN的超参数，训练总次数，sum-treeD容量，存储容量，车间环境，动作值网络权重，目标动作值网络权重；

开始训练，当时间点是决策点时，首先获取车间状态，使用贪心策略来选取动作并执行动作，随后将转移变量存储在sum-treeD中。如果没有达到sum-treeD的容量，则一直循环获取动作直至达到其容量。

达到容量后，以一定概率抽取转移变量来计算相应权重并计算Q值，直到达到记忆容量。随后使用Adam方法更新Q。

判断是否存在决策点，如果存在则继续执行上述步骤，如果不存在则完成一次训练。

判断训练次数是否达到设定值，如果没有则开始新一轮的训练，如果达到则训练完成。

训练完成后保存表现优异的调度模型及其参数，该调度模型可以实现决策智能体根据每个决策点的生产状态选择合适的调度规则。

进一步的，所述的迭代次数，种群数量，最大深度，交叉率，变异率分别是：100，50，3，0.5，0.05。

进一步的，所述的目标函数的两个权重分别是：ω₁为0.7，ω₂为0.3。

进一步的，所述的动作值网络和目标动作值网络的结构是：由三个隐藏层构成，每层的节点都是30。

进一步的，所述的训练总次数，sum-treeD容量，存储容量分别是：4000,10^-5,10^-5。

进一步的，贪婪策略的选择概率ε为0.6。

进一步的，所述的HRDQN的超参数分别是：γ为0.95，学习率为10^-4，τ和α为0.01和1，λ为0.01，μ为8，C_d为2.7×10^-6,LB和UB分别为0.02和1，β和C_i分别为0.4和5×10^-5,LSTM网络的隐藏层数为3。

第二方面，本发明提供一种面向有限运输资源场景的制造车间动态智能调度装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

1、本发明的调度模型可以针对考虑运输资源不足情况下动态柔性作业车间调度问题，实现最小化完工时间和总能耗的目标同时可以很好的处理干扰事件和不确定事件，本发明采用深度强化学习方法来解决运输资源不足情况下的动态柔性作业车间(DFJSP-ITR)调度问题，该方法在求解DFJSP-ITR时具有优越性和良好的鲁棒性，并且能够有效地处理干扰事件。本发明建立了DFJSP-ITR的以最小化完工时间和总能耗为目标的多目标优化模型，并提出了一种基于DRL的调度框架，然后设计了决策点、26个通用状态特征、基于遗传规划的动作空间和奖励函数，提出了一个HDQ的训练方法来训练决策智能体，使其可以学习根据每个决策点的车间状态选择合适的调度规则。

附图说明

图1是面向运输资源不足情况下的动态柔性作业车间调度方法的总体流程图；

图2是基于深度强化学习的具体调度框架图，是图1进一步细化；

图3是决策点判断的流程图，是图1的进一步细化；

图4是生成动作空间的流程图，是图1的进一步细化；

图5是LSTM的工作原理示意图，是图1的进一步细化。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1～5所示，是本发明实施例提供的一种面对制造过程的资源调度方法的流程图，包括如下步骤：

步骤1：构建多目标优化模型并建立车间模型：

以最小化总完工时间和最小化总能耗为目标，将DFJSP-ITR调度问题建模为马尔可夫决策过程，建立相应多目标优化模型的方法步骤如下：

然后建立相应的目标优化模型；这里的问题指的是将该类调度问题，建模为马尔可夫决策过程进而再建立多目标优化模型。

第一个优化目标是最小化总完工时间，如公式(1)所示：

第二个优化目标是最小化总能量消耗，如公式(2)所示：

在得到两个目标T和E后，通过赋予权重将两个优化目标转化为一个目标f来实现基于深度强化学习的调度方法，具体计算由公式(7)所示：

f＝ω₁·T+ω₂·E (3)

其中ω₁和ω₂分别代表T和E的权重。

优化目标一个是最小化总完工时间，另一个是最小化总能耗。通过赋予相应权重将这两个优化目标整合成为一个优化目标，如公式(1)所示：

f＝ω₁·T+ω₂·E (1)

其中T代表总完工时间，E代表能耗，ω₁为0.7，ω₂为0.3。并利用Python仿真平台构建运输资源不足情况下的动态柔性作业车间的环境模型。

步骤2：基于DRL(深度强化学习)的多智能体调度框架(图2所示)，设计决策点：

根据车间是否存在故障机器，将决策点分为两种情况，即存在故障机器和不存在故障机器。当车间不存在故障机器时，时间点t需要满足两个条件才能成为决策点：存在一个或多个工件等待运输；车间内存在一个或多个空闲AGV。当车间存在故障机器时，时间点t需要满足三个条件才能成为决策点：当前剩余加工时间小于当前故障机器维修时间，存在一个或多个工件等待运输；车间内存在一个或多个空闲AGV。

这个调度框架模型可以理解为一个调度规则器，简单来说输入的是车间的实时状态，输出的则是调度规则。但是需要深度强化学习的特点与调度问题结合，故提出这个调度框架。如图2所示。

步骤3：基于DRL的多智能体调度框架(图2所示)，设计状态空间：

创建能够统一表示不同车间环境和任务特征的状态特征，所有状态特征都生成在一个公式中，如公示(2)所示。

f＝x/ω (2)

其中f表示状态特征，x表示生产属性，ω表示一般性的权重。ω的是用于减少不同生产属性值之间的差异，使状态特征更加具有通用性和统一性。其中某一个时刻的26个生产属性x分别是：工件的平均完成率及其标准差，工件池工序加工的总时间，工件池加载率与当前工序加工时间的乘积，工件池当前工序加工的时间的均值和标准差，工件池加载率与当前工序加工时间的乘积的均值和标准差，工件池剩余加工时间和剩余能耗的均值，工件池加载率与当前工序加工时间的乘积值的范围，前工序加工时间值的范围，P_i的均值和方差，机器加载率的均值和方差，机器加工所有工序所需时间的总和，机器加工所有工序时间与加载率乘积的总和，机器加工所有工序所需时间均值和方差的总和，机器加工所有工序所需时间值的范围，机器加工所有工序时间与加载率乘积的均值和标准差的总和，机器加工所有工序时间与加载率乘积的总和的值的范围，机器剩余加载率和剩余能量消耗的均值的总和。

获取具体案例，并提取具体案例中的生产数据，并对生产数据进行处理形成生产状态空间。

步骤4：基于DRL的多智能体调度框架(图2所示)，生成基于遗传规划的动作空间：

通过将普通的调度规则进行基于遗传规划方法来进行进化，可以得到高质量的组合调度规则，也就是GP调度规则，具体步骤如下：

初始化迭代次数为100、最大深度为3、种群规模为50、交叉率为0.5、变异率为0.05；

基于Python仿真平台，利用混合法生成初始种群，并计算种群中每个个体的适应度；

这些调度规则时通过遗传算法进化普通调度规则得到的GP调度规则，这里的GP规则指的是有普通调度规则通过遗传算法进化得到高质量调度规则。

这些普通的调度规则都是启发式调度规则中常见的调度规则。在此问题中，主要包括两种，一种是机器分配调度规则，另一种是AGV分配规则。

步骤5：基于DRL的多智能体调度框架，建立奖励函数：

奖励函数第一部分是关于最小化完工时间这一目标，通过最小化单步过渡时间来实现最小化总完工时间；奖励函数的第二个部分是关于最小化总能量消耗这一目标，通过最小化机器的能耗，AGV的能耗和辅助设备的能耗来实现总能耗最小化这一目标；将奖励函数的两个部分通过赋予权重来结合在一起形成最终的奖励函数，如公式(3)所示：

r_t＝ω₁·FR_t+ω₂·SR_t (3)

其中FR_t是关于完工时间的奖励值，SR_t是关于能耗的奖励值，二者都是负数。ω₁为0.7，ω₂为0.3。

步骤6：使用HDRQN对调度模型进行训练：

设计了一种使用HDQN的训练方法，HDQN是指对传统的DQN进行一些扩展，来提高整个方法性能，包括如下步骤：

对DQN扩展成HDQN,三个扩展分别是：双Q学习、优先级重播和软目标网络更新策略；

在HDQN网络前增加一个LSTM神经网络使决策智能体具有记忆功能；

构建LSTM网络，包括如下步骤：

LSTM网络中的神经元引入了单元状态、遗忘门、记忆门、输出门。

单元状态贯穿整个神经网络，换句话说是神经网络对于输入数据的“记忆”，用C_t表示神经元在t时刻过后的“记忆”，这个向量涵盖了在t+1时刻前神经网络对于所有输入信息的“概括总结”。

输入门是将数据导入到神经网络，遗忘门使用sigmoid函数会将任意输入压缩到(0,1)的区间上,进而可以选择遗忘掉之前单元中不重要的信息，减少LSTM网络的记忆量。记忆门使用sigmoid函数决定单元中哪些分量可以被记忆，换句话说是用于提取有效信息。最后输出门计算当前时刻的输出值的神经层。输出层会先将当前输入值与上一时刻输出值整合后的向量，用sigmoid函数提取其中的信息，接着，会将当前的单元状态通过tanh函数压缩映射到区间(-1,1)中。

获取实际案例，将实际案例中的数据导入所建立的车间环境中；获取实际案例进而进行数据处理，包括如下步骤：

训练集是生成的一个具体案例，这个案例中包含了大量需要决策(调度)的时刻。

通过设计具体的案例，将这些案例转化成为生产状态。这些数据形式主要是矩阵，例如每个工件的每道工序在不同机器上的加工时间。

其中，具体过程包括：

基于Python仿真平台，建立两个神经网络，分别是动作值Q网络，目标动作值Q-网络权重。这两个网络都是由三个隐藏层构成，每层的节点数都是30，并且层与层之间采用全连接的方式进行连接。

初始化HDRQN的超参数，训练总次数，sum-treeD容量，存储容量。HDQN的超参数分别是：γ为0.95，学习率为10^-4，τ和α为0.01和1，λ为0.01，μ为8，C_d为2.7×10^-6,LB和UB分别为0.02和1，β和C_i分别为0.4和5×10^-5。

训练总次数，sum-treeD容量，存储容量分别是：4000,10^-5,10^-5。贪婪策略的选择概率ε为0.6。sum-treeD中的初概率值P为1

初始化基于Python仿真平台构建的车间环境，动作值Q网络权重，目标动作值Q^-网络权重。

开始训练，判断时间点是否是决策点，如果是则首先获取车间状态，使用贪心策略来选取动作。也就是生成一个0到1之间的随机数，如果这个数小于ε则随机选择动作，如果大于ε则选取Q值最大的动作，如公式所示：

选取完动作后，执行该动作。如果不是决策点则车间的生产按时间向前推进。

观察下一个决策点的状态以及过渡变量，并获取奖励值r_t。

将过渡变量存储在sum-treeD中，并赋予其优先级，如公式(5)所示。如果存储量没有达到sum-treeD的容量，则一直循环获取动作直至达到其容量。

p_t＝max_1≤x≤z p_x (5)

达到sum-treeD的容量后，以一定概率，如公式(6)所示，采集sum-treeD中的过渡变量。

计算重要采样权重，如公式(7)所示：

计算目标Q值，如公式(8)所示：

如果采集到的转移变量并没直到达到记忆容量，则持续采集并计算重要采样权重和目标Q值

如果达到记忆容量则用带有损失函数的Adam方法更新网络，损失函数如公式(9)所示：

计算目标动作

值，如公式(10)所示：

计算每个采样过渡变量的TD误差，如公式(11)所示：

δ_j＝y_j-Q(s_j,a_j；θ) (11)

以p_j←(|δ_j|+τ)^α的方式更新sum-treeD中每个节点的优先级。通过C_i逐渐增加β，直到达到UB。通过C_d逐渐减小ε，直到LB。

判断当前决策点是否是最后一个决策点，如果不是则继续重复上述步骤，如果是则结束这次的训练。

判断训练次数是否达到预设的训练次数，如果没有则开始新的训练。如果达到了则训练完成，则保存表现优异的调度模型及其参数并将其用于在线测试，从而实现了根据每个决策点的车间状态选择合适的调度规则。

实施例二：

本实施例提供一种面向有限运输资源场景的制造车间动态智能调度装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种面向运输资源不足情况下的动态柔性作业车间调度方法，其特征在于，所述方法包括如下步骤：

以最小化总工时间和总能耗为目标，将DFJSP-ITR调度问题建模为马尔可夫决策过程，建立相应的多目标优化模型作为调度模型；

基于深度强化学习的多智能体调度框架，将车间划分为决策智能体，机器智能体，运输智能体，同时设计决策点、状态空间、基于遗传规划的动作空间和奖励函数四个关键要素；

提出使用DRQN网络的训练方法使调度模型学会根据每个决策点的生产状态选择合适的调度规则；

获取实际案例并进行数据处理，得到训练集，通过训练集对DRQN网络进行训练，使其不断学习，即不断地更新DRQN网络的参数，使其实现最小化最大完工时间和总能耗为目标以及处理干扰事件和不确定事件；

训练完成后，选取调度性能优越的模型作为最终的调度模型；当车间接收到新的订单时，该模型可以实时获取订单的信息，进而获取实时生产状态即设计的状态空间，随后根据实时生产状态来输出调度规则，根据输出的调度规则指导生产。

2.根据权利要求1所述的一种面向有限运输资源场景的制造车间动态智能调度方法，其特征在于，以最小化总完工时间和最小化总能耗为目标，将DFJSP-ITR调度问题建模为马尔可夫决策过程，建立相应多目标优化模型的方法如下：

建立第一个优化目标即最小化总完工时间；车间从0时刻开始加工第一个工件，最后一个工件完成加工的时刻点为总完工时间；

其次建立第二个优化目标即最小化总能量消耗；能量消耗主要由三个部分组成，分别是机器智能体的加工能耗，运输智能体的运输能耗以及辅助设备的能耗；

在得到两个优化目标后，通过赋予权重将两个优化目标转化为一个目标f来实现基于深度强化学习的调度方法。

3.根据权利要求1所述的一种面向有限运输资源场景的制造车间动态智能调度方法，其特征在于，基于深度强化学习的多智能体调度框架，包括：

将车间中的生产资源划分为多种智能体，分别是决策智能体，机器智能体，运输智能体；机器智能体用于加工工件，运输智能体用于运输工件，决策智能体可以根据实时的生产数据来合理分配机器智能体和运输智能体进而对车间进行调度；

构建调度框架；该调度框架分为离线学习和在线应用两个阶段；

离线学习阶段，当订单发布到车间时，决策智能体不断收集来自车间的历史经验，并利用DRL方法和以往的决策经验来优化自身的神经网络参数；训练完成后，决策智能体可以据车间的实时状态选择合适的调度规则，从而优化目标；

在线应用阶段，当订单下达至车间，车间直接使用训练好的调度模型实时给出调度方案从而完成整个订单的加工。

4.根据权利要求1所述的一种面向有限运输资源场景的制造车间动态智能调度方法，其特征在于，决策点的设计方法，包括如下步骤：

根据车间是否存在故障机器，将决策点分为两种情况，即存在故障机器和不存在故障机器；

当车间不存在故障机器时，时间点t需要满足两个条件才能成为决策点：存在一个或多个工件等待运输；车间内存在一个或多个空闲AGV；

5.根据权利要求1所述的一种面向有限运输资源场景的制造车间动态智能调度方法，其特征在于，状态空间的设计方法，包括如下步骤：

创建能够统一表示不同车间环境和任务特征的状态特征，所有状态特征都生成在一个公式中，如公示(1)所示：

f＝x/ω (1)

f表示状态特征，x表示生产属性，ω一般性表示一般性的权重；ω的是用于减少不同生产属性值之间的差异，使状态特征更加具有通用性和统一性；

6.根据权利要求1所述的一种面向有限运输资源场景的制造车间动态智能调度方法，其特征在于，设计了基于遗传规划的动作空间，包括如下步骤：

初始化迭代次数、最大深度、种群规模、交叉率和变异率；

根据适应度从初始种群中挑选性能最好的一些GP规则形成调度规则库；所述GP规则指的是有普通调度规则通过遗传算法进化得到高质量调度规则；

开始迭代，首先使用轮盘赌方法进行个体选择，然后基于交叉率进行或不进行交叉操作，基于变异率进行或不进行变异操作，最后更新种群中的每个个体的适应度，判断种群中是否存在比调度规则库中的规则表现还好的GP规则，如果存在则替换性能较差的GP规则，更新调度规则库；由此一直迭代直到达到迭代次数；

最终产生12个最佳的高质量GP规则，即12个动作，构成动作空间。

7.根据权利要求1所述的一种面向有限运输资源场景的制造车间动态智能调度方法，其特征在于，奖励函数的设计方法，包括如下步骤：

8.根据权利要求1所述的一种面向有限运输资源场景的制造车间动态智能调度方法，其特征在于，使用HDRQN的训练方法，包括如下步骤：

对DQN扩展成HDQN,三个扩展分别是：双Q学习、优先级重播和软目标网络更新策略在HDQN的网络前增加了长短记忆网络层(LSTM)，LSTM层可以存储历史经验，使智能体拥有良好的记忆功能，进而可以更好的学习；

初始化各类参数、车间环境、LSTM网络参数，动作值网络权重和目标动作值网络权重；

开始训练之前，将车间状态导入到调度模型，使时序经验池中存有一定量的数据，随后重置车间环境，准备训练；

开始训练，当时间点是决策点时，首先获取车间状态，将车间状态输入到LSTM网络层中得到带有时序的车间状态，随后根据此状态使用贪心策略来选取动作并执行动作，随后将转移变量存储在一个sum-tree D中；如果没有达到sum-treeD的容量，则一直循环获取动作直至达经验池的容量，每一轮训练的经验池的容量都带有时间序列，在一轮训练结束后此轮训练的经验池将存入时序经验池中；

达到容量后，随机从时序经验池中提取转移变量来计算相应权重并计算Q值，使用Adam方法更新Q；

判断是否存在决策点，如果存在则继续执行上述步骤，如果不存在则完成一次训练；

判断训练次数是否达到设定值，如果没有则开始新一轮的训练，并将，如果达到则训练完成；

9.根据权利要求6所述的一种面向有限运输资源场景的制造车间动态智能调度方法，其特征在于，所述的迭代次数，种群数量，最大深度，交叉率，变异率分别是：100，50，3，0.5，0.05。

10.一种面向有限运输资源场景的制造车间动态智能调度装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1～9任一项所述方法的步骤。