CN112149987A

CN112149987A - 基于深度强化学习的多目标柔性作业车间调度方法和装置

Info

Publication number: CN112149987A
Application number: CN202010983212.1A
Authority: CN
Inventors: 张林宣; 罗术
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2020-12-29

Abstract

本发明公开了一种基于深度强化学习的多目标柔性作业车间调度方法和装置，涉及动态调度技术领域，其中，方法包括：读取当前重调度时刻的生产线状态特征向量输入训练后的目标智能体的目标策略网络得到调度目标；将生产线状态特征向量和调度目标输入训练后的工件智能体的工件策略网络得到工件指派规则，并输入训练后的机器智能体的机器策略网络得到机器分配规则；根据工件指派规则选取待加工工件，根据机器分配规则选取加工机器，通过加工机器对待加工工件的下一道工序进行加工处理。由此，通过在不同的重调度时刻根据生产线的状态智能选取不同的优化目标、工件指派规则和机器分配规则，实现多目标协同优化和完全实时化、自主化、无人化的智能工厂。

Description

基于深度强化学习的多目标柔性作业车间调度方法和装置

技术领域

本发明涉及动态调度技术领域，特别涉及一种基于深度强化学习的多目标柔性作业车间调度方法和装置。

背景技术

相关技术中，多目标柔性作业车间动态调度方法大多基于简单的调度规则或者元启发式算法，简单的调度规则主要包括先来先服务(First in First out,简称FIFO)、最短交货期优先(Earliest due date,简称EDD)、最长剩余加工时间优先(Most remainingprocessing time,简称MRPT)等，其在每个重调度时刻选取一个工件到一台机器上进行加工，其优点是具有较高的实时性，能对不确定事件立即做出响应，其缺点是具有短视性，从长期来看不能得到较好的调度方案，而且单一的调度规则往往适用于单一优化目标，无法实现多目标优化。

另外，元启发式算法主要包括遗传算法(genetic algorithm,简称GA)、粒子群优化算法(Particle swarm optimization,简称PSO)、蚁群优化算法(Ant colonyoptimization,简称ACO)等。其将动态调度问题分解为多阶段静态调度问题进行求解，即在每个重调度时刻对剩余所有未完成的工件统一进行考虑，通过复杂的智能优化算法在庞大的搜索空间内进行寻优，并形成全新的调度方案。其优点是能够获得较好的重调度方案，其缺点是运算时间较长，不具有实时性，在动态事件频发的情况下不适用。

传统动态调度方法大多针对简单的作业车间调度问题，既每道工序的加工机器提前给定，且只能由该台指定的机器进行加工，因此只需决定不同机器上各工序的加工顺序即可。而柔性作业车间调度问题中，每道工序可以由给定机器集合中的任意一台机器进行加工。相比于传统作业车间调度问题，既要考虑将每道工序安排到合适的机器上进行加工，也要考虑每台机器上各工序的加工顺序。其比简单的作业车间调度问题更加复杂，已被证明是NP-难题。因此，在各种不确定因素(例如插单和机器故障)并存且频繁发生的加工环境中，传统的柔性作业车间动态调度算法，特别是复杂的启发式算法由于需要耗费大量的计算时间，无法满足时效性，而简单的启发式规则由于具有短视性，且不能实现多目标优化，也无法对调度方案起到长期优化作用。

目前强化学习已经被广泛应用于解决各种动态调度问题，其中使用最多的算法便是Q学习，传统的Q-学习在训练过程中其需要维护一张庞大的Q-函数表，该表的每一行表示某个状态，每一列代表某个可选动作，每一个元素存储的便是某个状态下选取某个动作所对应的Q-函数值。一般而言，在每个重调度时刻只需选择该状态下Q-函数值最高的规则作为该时刻的调度规则即可。使用Q表，虽然具有简单直观的优点，但却存在“维数爆炸”的巨大隐患。即其状态总数随着状态特征维数的增长呈指数上升，这对于拥有巨大状态空间的实际调度问题来说是不可接受的。存储一张如此庞大而复杂的Q表不仅会引入巨大的计算负担，也会引入大量从未经历过的无用状态，降低了算法效率，以及现有的基于强化学习的动态调度算法往往只考虑单一优化目标(例如总拖期)，无法实现多目标优化。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种基于深度强化学习的多目标柔性作业车间实时重调度方法，通过在不同的重调度时刻根据生产线的状态智能选取不同的优化目标、工件指派规则以及机器分配规则，实现多目标优化以及完全实时化、自主化、无人化的智能工厂。

本发明的另一个目的在于提出一种基于深度强化学习的多目标柔性作业车间实时重调度装置。

为达到上述目的，本发明一方面实施例提出了一种基于深度强化学习的多目标柔性作业车间调度方法，包括：读取当前重调度时刻的生产线状态特征向量；将所述生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到所述当前重调度时刻的调度目标；将所述生产线状态特征向量和所述调度目标输入训练后的工件智能体的工件策略网络，得到所述当前重调度时刻的工件指派规则；将所述生产线状态特征向量和所述调度目标输入训练后的机器智能体的机器策略网络，得到所述当前重调度时刻的机器分配规则；根据所述工件指派规则选取待加工工件，根据所述机器分配规则选取加工机器，以及通过所述加工机器对所述待加工工件的下一道工序进行加工处理。

另外，根据本发明上述实施例的基于深度强化学习的多目标柔性作业车间调度方法还可以具有如下附加的技术特征：

根据本发明的一个实施例，将所述当前重调度时刻的生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到所述当前重调度时刻的调度目标，包括：根据所述目标策略网络中的深度神经网络对所述生产线状态特征向量进行处理后输入分类函数得到每一个优化目标对应的选择概率；使用轮盘赌方法根据不同优化目标的选择概率确定所述调度目标。

根据本发明的一个实施例，所述将所述当前重调度时刻的生产线状态特征向量和所述当前重调度时刻的调度目标输入训练后的工件智能体的工件策略网络，得到所述当前重调度时刻的工件指派规则，包括：根据所述工件策略网络中的深度神经网络对所述生产线状态特征向量和所述调度目标进行处理后输入分类函数得到每一个工件指派规则对应的选择概率；使用轮盘赌方法根据不同工件指派规则的选择概率确定所述工件指派规则。

根据本发明的一个实施例，所述将所述生产线状态特征向量和所述调度目标输入训练后的机器智能体的机器策略网络，得到目标机器分配规则，包括：

根据所述机器策略网络中的深度神经网络对所述当前重调度时刻的生产线状态特征向量和所述当前重调度时刻的调度目标进行处理后输入分类函数得到每一个机器分配规则对应的选择概率；使用轮盘赌方法根据不同机器分配规则的选择概率确定所述机器分配规则。

根据本发明的一个实施例，将所述当前重调度时刻的生产线状态特征向量输入所述目标智能体的目标价值网络，得到所述当前重调度时刻的目标状态价值函数；将所述当前重调度时刻的生产线状态特征向量和所述当前重调度时刻的调度目标输入所述工件智能体的工件价值网络，得到所述当前重调度时刻的工件状态价值函数；将所述当前重调度时刻的生产线状态特征向量和所述当前重调度时刻的调度目标输入所述机器智能体的机器价值网络，得到所述当前重调度时刻的机器状态价值函数。

根据本发明的一个实施例，所述当前重调度时刻为任意一道工序的完成时刻、或者，插单到达的时刻。

根据本发明的一个实施例，在离线预训练过程中，获取所述目标智能体的目标策略网络、旧目标策略网络和目标价值网络、所述工件智能体的工件策略网络、旧工件策略网络和工件价值网络、所述机器智能体的机器策略网络、旧机器策略网络和机器价值网络，并对各个网络进行参数初始化；令旧目标策略网络的初始参数为目标策略网络的初始参数，旧工件策略网络的初始参数为工件策略网络的初始参数，旧机器策略网络的初始参数为机器策略网络的初始参数。在每个训练周期内，随机生成新的训练环境，并用近端策略优化算法(Proximal Policy Optimization，PPO)对所有智能体进行离线预训练，具体来说，在训练过程中的每个重调度时刻获取当前状态特征向量输入所述旧工件策略网络得到优化目标；将所述当前状态特征向量和所述优化目标分别输入旧工件策略网络和旧机器策略网络，得到训练工件指派规则和训练机器分配规则；根据所述训练工件指派规则选取一个工件和根据所述训练机器分配规则选取一台机器，将被选工件的下一道工序安排在被选机器上进行加工，计算当前时刻奖励；每当经过一定的重调度步数后，通过PPO损失函数更新所述目标智能体的目标策略网络、所述工件智能体的工件策略网络、所述机器智能体的机器策略网络，并用各智能体当前时刻的策略网络的参数替换其旧策略网络的参数。通过最小平方误差损失函数(MSE)更新目标智能体的目标状态价值网络、工件智能体的工件状态价值网络、机器智能体的机器状态价值网络，此过程不断进行，直到所述各个网络满足使用需求。

根据本发明的一个实施例，所述调度目标为最小化所有工件的总拖期、最大化所有机器的平均机器利用率和最小化所有机器负荷的方差中的一种或者多种。

根据本发明的一个实施例，所述生产线状态特征向量，包括：加工车间内的机器总数、平均机器利用率、各机器利用率的方差、所有工序的完成度、每个工件的平均完成度、工件完成度的方差、所有机器负荷的方差、每个重调度时刻的预估延迟率、每个重调度时刻的实际延迟率和每个重调度时刻的预估延迟时间中的一种或者多种。

根据本发明实施例的基于深度强化学习的多目标柔性作业车间调度方法，通过读取当前重调度时刻的生产线状态特征向量；将生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到调度目标；将生产线状态特征向量和调度目标输入训练后的工件智能体的工件策略网络，得到工件指派规则；将生产线状态特征向量和调度目标输入训练后的机器智能体的机器策略网络，得到机器分配规则；根据目标工件指派规则选取待加工工件，根据目标机器分配规则选取加工机器，以及通过加工机器对待加工工件的下一道工序进行加工处理。由此，通过在不同的重调度时刻根据生产线的状态智能选取不同的优化目标，工件指派规则以及机器分配规则，实现完全实时化、自主化、无人化的智能工厂。

为达到上述目的，本发明另一方面实施例提出了一种基于深度强化学习的多目标柔性作业车间调度装置，包括：读取模块，用于读取当前重调度时刻的生产线状态特征向量；第一输入模块，用于将所述生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到所述当前重调度时刻的调度目标；第二输入模块，用于将所述当前重调度时刻的生产线状态特征向量和所述当前重调度时刻的调度目标输入训练后的工件智能体的工件策略网络，得到所述当前重调度时刻的工件指派规则；第三输入模块，用于将所述当前重调度时刻的生产线状态特征向量和所述当前重调度时刻的调度目标输入训练后的机器智能体的机器策略网络，得到所述当前重调度时刻的机器分配规则；处理模块，用于根据所述工件指派规则选取待加工工件，根据所述机器分配规则选取加工机器，以及通过所述加工机器对所述待加工工件的下一道工序进行加工处理。

根据本发明实施例的基于深度强化学习的多目标柔性作业车间调度装置，通过读取当前重调度时刻的生产线状态特征向量；将生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到调度目标；将生产线状态特征向量和调度目标输入训练后的工件智能体的工件策略网络，得到工件指派规则；将生产线状态特征向量和调度目标输入训练后的机器智能体的机器策略网络，得到机器分配规则；根据工件指派规则选取待加工工件，根据机器分配规则选取加工机器，以及通过加工机器对待加工工件的下一道工序进行加工处理。由此，通过在不同的重调度时刻根据生产线的状态智能选取不同的优化目标、工件指派规则以及机器分配规则实现多目标协同优化以及完全实时化、自主化、无人化的智能工厂。

根据本发明实施例的第三方面，提供一种服务器，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面实施例所述的基于深度强化学习的多目标柔性作业车间调度方法。

根据本发明实施例的第四方面，提供一种存储介质，包括：

当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行第一方面实施例所述的基于深度强化学习的多目标柔性作业车间调度方法。

根据本发明实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，使得服务器能够执行第一方面实施例所述的基于深度强化学习的多目标柔性作业车间调度方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是根据本发明一个实施例的基于深度强化学习的多目标柔性作业车间调度方法的流程图；

图2是根据本发明数值实验示例图；

图3展示了在整个动态调度过程中三个智能体与生产现场之间的相互作用效果图

图4是根据本发明一个实施例的基于深度强化学习的多目标柔性作业车间调度装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于深度强化学习的多目标柔性作业车间调度方法和装置。

相关技术中，大多针对简单的作业车间调度问题，既每道工序的加工机器提前给定，且只能由该台指定的机器进行加工，因此只需决定不同机器上各工序的加工顺序即可。本发明基于深度强化学习的多目标柔性作业车间调度方法针对柔性作业车间调度问题，即每道工序可以由给定的候选机器集合中的任意一台机器进行加工，因此既要考虑每道工序的机器分配问题，也要考虑每台机器上各工序的加工顺序问题，比传统的作业车间动态调度问题更加复杂。

具体而言，本发明基于深度强化学习的多目标柔性作业车间调度方法既要考虑工件指派规则(即每个重调度时刻选取一个合适的未完成的工件，并加工其下一道工序)，也要考虑机器分配规则(即每个重调度时刻在被选中的工序的候选机器集合中选取一台合适的加工机器，并将该工序分配至该机器上进行加工)。

可以理解的是，在各种不确定因素并存的加工环境中，传统静态调度算法，特别是复杂的启发式算法由于需要耗费大量的计算时间，无法满足时效性。而简单的启发式规则由于具有短视性，无法对调度方案起到长期优化作用。

为了解决以上问题，一个合理的方案是根据生产现场的实时状况动态、自适应地选取最合适的调度规则，每个调度规则只针对当前时刻及之后的一小段时间进行优化，这确保了调度规则的短期有效性，当新的不确定事件发生时，立即重新选取最合适的调度规则，如此一来，既保证了动态调度的时效性，也能获得从长期看较为优秀的调度方案。

针对以上描述，若把规则(或其他调度参数)选取的过程建模为一个马尔可夫决策过程(Markov Decision Processes,MDP)，其决策时刻可以定义为不确定事件(插单、机器故障等)发生的时刻，其状态为每个决策时刻生产现场的状态指标，如任务完成率、机器利用率、生产节拍、等待任务队列长度、订单延迟程度等等，其动作即为每个决策时刻可以选取的调度规则集合。则该马尔可夫过程可以通过强化学习得到有效的解决。

为了实现带频繁插单的多目标柔性作业车间的实时在线重调度，设计了基于深度强化学习的多目标实时重调度方法。其相比传统动态调度算法最大的优点是具有实时性。定义重调度时刻为任意一道工序的完成时刻或是插单到达的时刻，其在每个重调度时刻智能选择优化目标以及工件指派规则和机器分配规则，能够在整个调度过程中实现多目标优化。

具体地，传统的动态调度算法往往针对单一优化目标(例如总拖期)进行优化，本发明基于深度强化学习的多目标柔性作业车间调度方法对(1)总拖期、(2)所有机器的平均机器利用率、(3)所有机器负荷的均衡度(即所有机器负荷的方差)三个目标同时进行考虑，实现多目标优化。

具体操作为在每个重调度时刻t，通过目标智能体π_g根据当前时刻的生产线状态φ(s_t)选择总拖期(total tardiness,简称TT)、所有机器的平均机器利用率(U_ave)、所有机器负荷的方差(W_std)这三个目标的其中之一作为当前时刻的优化目标g_t，而后工件智能体π_J基于当前时刻的生产线状态φ(s_t)和目标智能体选择的优化目标g_t选择一条合理的工件指派规则a_J,t，并根据该规则选择一个未加工完成的工件J_i。机器智能体π_m基于当前时刻的生产线状态φ(s_t)和目标智能体选择的优化目标g_t选择一条合理的机器分配规则a_m,t，并根据该规则选择一台合适的加工机器M_k，最后把工件智能体选择的未加工完成的工件J_i的下一道工序分配至机器智能选中的机器M_k上进行加工。由于在每个重调度时刻均根据当前的生产线实时状态选取优化目标，并依据该目标选取对应的工件指派规则和机器分配规则，因此从长远看能够在整个调度过程中实现对各个目标的综合优化，达到理想的调度效果。

具体地，传统的多目标优化方法通过对各种目标函数加权求和形成新的目标函数，即将多目标优化问题转化为单目标优化问题进行求解。其缺点在于各种目标函数的权重难以指定，很难指定最优的权重以实现对各种目标的综合优化。本发明基于深度强化学习的多目标柔性作业车间调度方法通过在不同的重调度时刻根据生产线的状态智能选取不同的优化目标，不用为各目标设置不同的权重，从长远来看能实现对各种目标的综合优化。

具体地，由于单一调度规则具有短视性，从长远来看无法获得较好的重调度方案，且无法实现多目标优化。本发明基于深度强化学习的多目标柔性作业车间调度方法分别定义了5种工件指派规则和5种机器分配规则，该方法在每个重调度时刻选取分别选取合适的工件指派规则和机器分配规则。其中，每种工件指派规则选取一个合适的未加工完成的工件，每种机器分配规则选取一台合适的加工机器并将通过工件指派规则选中的工件的下一道工序安排到该机器上进行加工。通过在不同的重调度时刻选取最合适的工件指派规则和机器分配规则，从长远来看能够在整个调度过程中实现较好的调度效果。

具体地，传统的深度Q-网络基于深度Q-学习进行训练，其输出为每个状态-动作对的Q-函数值，无法直接输出策略(即每个动作的选择概率)。本方法使用直接输出策略的深度策略网络，直接将每个重调度时刻的将状态特征作为输入，将每个规则或优化目标的选择概率作为输出，利用近端策略优化算法(Proximal Policy Optimization,PPO)对三个智能体进行训练，解决了基于传统Q-学习动态调度算法的状态爆炸问题，同时能够直接对策略进行优化。

本发明基于深度强化学习的多目标柔性作业车间调度方法包含三个深度强化学习智能体，分别为目标智能体π_g，工件智能体π_J，以及机器智能体π_m。每个智能体都包含一个深度策略网络π和状态价值网络v。定义当前重调度时刻的生产线状态特征为φ(s_t)。目标智能体的策略网络π_g的输入φ_g,t为当前重调度时刻t的生产线状态φ(s_t)，即φ_g,t＝φ(s_t)，其输出为前重调度时刻的优化目标g_t的选择概率π_g(φ_g,t,g_t)。目标智能体的状态价值网络v_g以φ_g,t作为输入，以当前重调度时刻的目标状态价值函数v_g(φ_g,t)作为输出。工件智能体的策略网络π_J的输入φ_J,t为当前时刻的生产线状态φ(s_t)和当前时刻的优化目标g_t，即φ_J,t＝[φ(s_t),g_t]，输出为当前重调度时刻的工件指派规则a_J,t的选择概率π_J(φ_J,t,a_J,t)。工件智能体的状态价值网络v_J的输入为φ_J,t，输出为当前重调度时刻的工件状态价值函数v_J(φ_J,t)。机器智能体的策略网络π_m的输入为当前时刻的生产线状态φ(s_t)和当前时刻的优化目标g_t，即φ_m,t＝[φ(s_t),g_t]，输出为当前重调度时刻的机器分配规则a_m,t的选择概率π_m(φ_m,t,a_m,t)。机器智能体的状态价值网络v_m的输入为φ_m,t，输出为当前重调度时刻的机器状态价值函数v_m(φ_m,t)。

本发明基于深度强化学习的多目标柔性作业车间实时重调度方法可以定义重调度时刻为任意一道工序的完成时刻或是插单到达的时刻。

本发明基于深度强化学习的多目标柔性作业车间调度方法，在每个重调度时刻，目标智能体π_g根据当前时刻的生产线状态φ(s_t)选择优化目标g_t，工件智能体π_J根据当前时刻的生产线状态φ(s_t)及g_t选取合适的工件指派规则a_J,t，机器智能体π_m根据当前时刻的生产线状态φ(s_t)及g_t选取合适的机器分配规则a_m,t。最后系统根据工件指派规则a_J,t选取一个合适的工件J_i，并根据机器分配规则a_m,t选取合适的机器M_k，并将工件J_i的下一道工序安排到机器M_k上进行加工。

图1是根据本发明一个实施例的基于深度强化学习的多目标柔性作业车间调度方法的流程图。如图1所示，该基于深度强化学习的多目标柔性作业车间调度方法包括以下步骤：

步骤S101，读取当前重调度时刻的生产线状态特征向量。

首先，本发明针对的是多目标柔性作业车间动态调度问题，具体地，在车间中存在n个依次到达的工件J＝{J₁,J₂,…,J_n}和m台机器M＝{M₁,M₂,…,M_m}。每个工件J_i包含n_i道工序，其中O_i,j代表工件J_i的第j道工序。每道工序O_i,j都可以在其候选机器集合

中的任意一台机器M_k上进行加工。工序O_i,j在机器M_k上的加工时间用t_i,j,k来表示。工序O_i,j的加工完成时间用C_i,j表示。每个工件J_i的到达时间为A_i，其交货期限为D_i。在调度过程中需同时考虑3种优化目标：最小化所有工件的总拖期，最大化所有机器的平均机器利用率，以及最小化所有机器负荷的方差。

在本实施例中，多目标柔性作业车间动态调度问题需要满足如下假设：(1)每台机器在任一时刻最多只能加工一道工序(机器能力约束)；(2)所有工序必须在其前导工序加工完成后才能进行加工(优先级约束)；(3)每道工序一旦开始加工不允许被中断。

在本实施例中，各个参数的含义如下表所示：

在本实施例中，还定义了决策变量以及对应的决策变量意义，如下表所示：

在本实施例中，还设置了数学模型，具体描述如下：

其中，

其中，目标f₁为最小化所有工件的总拖期，目标f₂为最小化所有机器的平均机器利用率的倒数，目标f₃为最小化所有机器负荷的方差；约束(1)代表任意工序的开始时间需大于等于0，且完成时间需大于0。约束(2)代表每道工序只能被安排到一台机器上。约束(3)代表每道工序必须在其前一道工序加工完成之后才能开始加工。约束(4)代表每个工件只能在其到达时间之后开始加工。约束(5)代表任意机器在任意时刻最多只能加工一道工序。

在本实施例中，生产线状态特征向量，包括：加工车间内的机器总数、平均机器利用率、各机器利用率的方差、所有工序的完成度、每个工件的平均完成度、工件完成度的方差、所有机器负荷的方差、每个重调度时刻的预估延迟率、每个重调度时刻的实际延迟率和每个重调度时刻的预估延迟时间中的一种或者多种。

具体地，定义CT_k(t)为当前重调度时刻t机器M_k上最后一道工序的完成时间，定义OP_i(t)为当前重调度时刻工件J_i已经被分配至机器上加工的工序总数。定义当前时刻机器M_k的利用率为U_k(t)，即

定义当前时刻工件J_i的完成度为CRJ_i(t)，有

定义当前时刻机器M_k的负荷为

当前时刻的平均机器负荷

定义

为工序O_i,j在其所有可用机器集合M_i,j上的加工时间的平均值。基于以上符号，本发明定义了10种生产状态特征向量，如下所示：

(1)加工车间内的机器总数m；(2)平均机器利用率

(3)各机器利用率的方差

(4)所有工序的完成度

(5)每个工件的平均完成度

(6)工件完成度的方差

(7)所有机器负荷的方差

(8)预估延迟率Tard_e(t)，其计算方式如下；每个重调度时刻t的预估延迟率Tard_e(t)的计算方式：

(9)实际延迟率Tard_a(t)，其计算方式如下：

(10)预估延迟时间Estimated tardinessET()，其计算方式如下

在本实施例中，当前重调度时刻为任意一道工序的完成时刻、或者，插单到达的时刻。

步骤S102，将生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到调度目标。

在本实施例中，根据目标策略网络中的深度神经网络对生产线状态特征向量进行处理后输入分类函数比如softmax得到每一个优化目标对应的选择概率，使用轮盘赌方法根据不同优化目标的选择概率确定最终的调度目标。

具体地，目标智能体π_g的策略网络为7层深度神经网络，包含一个输入层，五个隐含层，一个输出层。其输入层有10个节点，对应十种生产线状态特征φ(s_t)＝[m,U_ave(t),U_std(t),CRO(t),CRJ_ave(t),CRJ_std(t),W_std(t),Tard_e(t),Tard_a(t),ET(t)]，其激活函数为Relu。五个隐含层每层有200个节点，激活函数为Relu。其输出层有3个节点，对应3种优化目标，即总拖期、平均机器利用率以及所有机器负荷的均衡度。输出层的激活函数为softmax函数，对应输出每个重调度时刻三种优化目标的选择概率π_g(φ_g,t,a_g,t)。

在本实施例中，调度目标为最小化所有工件的总拖期、最大化所有机器的平均机器利用率和最小化所有机器负荷的方差中的一种或者多种。

步骤S103，将生产线状态特征向量和调度目标输入训练后的工件智能体的工件策略网络，得到目标工件指派规则。

在本实施例中，根据工件策略网络中的深度神经网络对生产线状态特征向量和调度目标进行处理后输入分类函数比如得到每一个工件指派规则对应的选择概率，使用轮盘赌方法根据不同工件指派规则的选择概率确定最终的工件指派规则。

具体地，工件智能体π_J的策略网络为7层深度神经网络，包含一个输入层，五个隐含层，一个输出层。其输入层有11个节点，对应十种生产线状态特征φ(s_t)＝[m,U_ave(t),U_std(t),CRO(t),CRJ_ave(t),CRJ_std(t),W_std(t),Tard_e(t),Tard_a(t),ET(t)]以及当前重调度时刻的优化目标g_t，其激活函数为Relu。五个隐含层每层有200个节点，激活函数为Relu。其输出层有5个节点，对应5种工件指派规则。输出层的激活函数为softmax函数，对应输出每个重调度时刻5种工件指派规则的选择概率π_J(φ_J,t,a_J,t)。

具体地，定义T_cur＝mean_kCT_k()为当前重调度时刻所有机器上最后一道工序加工完成的平均时间。定义Tard_job(t)为当前时刻的预估延迟工件集合，即交货期D_i<T_cur的未完成工件的集合。定义UC_job(t)为当前时刻所有未完成的工件的集合。基于以上符号，本发明提出了5种工件指派规则，如下所示：

步骤S104，将生产线状态特征向量和调度目标输入训练后的机器智能体的机器策略网络，得到目标机器分配规则。

在本实施例中，根据机器策略网络中的深度神经网络对生产线状态特征向量和调度目标进行处理后输入分类函数比如softmax得到每一个机器分配规则对应的选择概率，,使用轮盘赌方法根据不同机器分配规则的选择概率确定最终的机器分配规则。

具体地，机器智能体π_m的策略网络为7层深度神经网络，包含一个输入层，五个隐含层，一个输出层。其输入层有11个节点，对应十种生产线状态特征。

φ(s_t)＝[m,U_ave(t),U_std(t),CRO(t),CRJ_ave(t),CRJ_std(t),W_std(t),Tard_e(t),Tard_a(t),ET(t)]以及当前重调度时刻的优化目标g_t，其激活函数为Relu。五个隐含层每层有200个节点，激活函数为Relu。其输出层有5个节点，对应5种机器分配规则。输出层的激活函数为softmax函数，对应输出每个重调度时刻5种机器分配规则的选择概率π_m(φ_m,t,a_m,t)。

本发明提出了5种机器分配规则，如下所示。

可以理解的是，还可以获取各个网络的状态价值函数，在本实施例中，将生产线状态特征向量输入目标智能体的目标状态价值网络，得到当前重调度时刻的目标状态价值函数；将生产线状态特征向量和调度目标输入工件智能体的工件状态价值网络，得到当前重调度时刻的工件状态价值函数；将生产线状态特征向量和调度目标输入机器智能体的机器状态价值网络，得到当前重调度时刻的机器状态价值函数。

具体地，目标智能体π_g的状态价值网络为4层深度神经网络，包含一个输入层，两个隐含层，一个输出层。其输入层有10个节点，对应十种生产线状态特征。φ(s_t)＝[m,U_ave(t),U_std(t),CRO(t),CRJ_ave(t),CRJ_std(t),W_std(t),Tard_e(t),Tard_a(t),ET(t)]，其激活函数为Relu。两个隐含层每层有200个节点，激活函数为Relu。其输出层有1个节点，激活函数为Relu，输出每个状态φ_g,t对应的目标状态价值函数值v_g(φ_g,t)。

具体地，工件智能体π_J的状态价值网络为4层深度神经网络，包含一个输入层，两个隐含层，一个输出层。其输入层有11个节点，对应十种生产线状态特征。φ(s_t)＝[m,U_ave(t),U_std(t),CRO(t),CRJ_ave(t),CRJ_std(t),W_std(t),Tard_e(t),Tard_a(t),ET(t)]以及当前重调度时刻的优化目标g_t，其激活函数为Relu。两个隐含层每层有200个节点，激活函数为Relu。其输出层有1个节点，激活函数为Relu，输出每个状态φ_J,t对应的工件状态价值函数值v_J(φ_J,t)。

具体地，机器智能体π_m的状态价值网络为4层深度神经网络，包含一个输入层，两个隐含层，一个输出层。其输入层有11个节点，对应十种生产线状态特征。φ(s_t)＝[m,U_ave(t),U_std(t),CRO(t),CRJ_ave(t),CRJ_std(t),W_std(t),Tard_e(t),Tard_a(t),ET(t)]以及当前重调度时刻的优化目标g_t，其激活函数为Relu。两个隐含层每层有200个节点，激活函数为Relu。其输出层有1个节点，激活函数为Relu，输出每个状态φ_m,t对应的机器状态价值函数值v_m(φ_m,t)。

可以理解的是，需要预先训练好各个网络，在本实施例中，获取目标智能体的目标策略网络、旧目标策略网络和目标状态价值网络、工件智能体的工件策略网络、旧工件策略网络和工件状态价值网络、机器智能体的机器策略网络、旧机器策略网络和机器状态价值网络，并对各个网络进行参数初始化；令旧目标策略网络的初始参数为目标策略网络的初始参数，旧工件策略网络的初始参数为工件策略网络的初始参数，旧机器策略网络的初始参数为机器策略网络的初始参数。在每个训练周期内，随机生成新的训练环境，并用近端策略优化算法(Proximal Policy Optimization，PPO)对所有智能体进行离线预训练。具体来说，在训练过程中的每个重调度时刻获取当前状态特征向量输入旧工件策略网络得到优化目标；将当前状态特征向量和优化目标分别输入旧工件策略网络和旧机器策略网络，得到训练工件指派规则和训练机器分配规则；根据训练工件指派规则选取一个工件和根据训练机器分配规则选取一台机器，将工件的下一道工序安排在机器上进行加工，计算当前时刻奖励；每当经过一定的重调度步数后，通过PPO损失函数更新目标智能体的目标策略网络、工件智能体的工件策略网络、机器智能体的机器策略网络，并用各智能体当前时刻的策略网络的参数替换其旧策略网络的参数。通过最小平方误差损失函数(MSE)更新目标智能体的目标状态价值网络、工件智能体的工件状态价值网络、机器智能体的机器状态价值网络。此过程不断进行，直到各个网络满足使用需求。

具体地，首先对三个智能体进行离线预训练，每个episode表示一个完整的训练过程(即从开始时刻到所有工序都被调度完成的时刻)。在每个episode中，都随机生成不同的训练环境。假设插单的到达过程符合泊松过程，即相邻两个插单到达的时间间隔服从指数分布

即相邻两个插单的到达时间间隔的均值为λ。用DDT(due date tightness)代表每个订单交货期的紧急程度。若某个订单J_i的到达时间为A_i，则其交货期

DDT的值越小代表该订单的交期越短，即该订单越紧急。基于以上表述，每个episode中的训练环境的参数如下表所示：

机器总数m	[1,50]内的均匀分布
		每道工序O<sub>i,j</sub>的可用机器总数\|M<sub>i,j</sub>\|	[1,m]内的均匀分布
每个工件J<sub>i</sub>的工序总数n<sub>i</sub>	[1,20]内的均匀分布
		随机到达的插单总数	[50,200]内的均匀分布
每个订单交货期的紧急程度DDT	[0.5,1.5]内的均匀分布
		相邻两个插单的到达时间间隔的均值λ	[50,200]内的均匀分布

基于近端策略优化Proximal Policy Optimization(PPO)的离线预训练算法如下表所示：

奖励函数的计算方式：

本方法所提出的三个智能体经过离线预训练后，将其应用于实际动态重调度过程进行在线实时重调度，其实施方法如下。在实施过程中，只用到了各智能体的策略网络进行优化目标、工件指派规则以及机器分配规则的选取，而没有用到各智能体的状态价值网络。即状态价值网络仅在各智能体的离线预训练过程中起作用，而在实际的重调度过程中不起作用。

步骤S105，根据工件指派规则选取工件，根据机器分配规则选取机器，以及通过被选机器对被选工件的下一道工序进行加工处理。

具体地，训练后的目标策略网络π_g，训练后的工件策略网络π_J，训练后的机器策略网络π_m。

fort＝0:T(t是重调度时刻，即每当某台机器上的某道工序做完或是新工件到达的时刻，T是终止时刻，即所有工序加工完成的时刻)

获取当前状态s_t的特征向量φ(s_t)

＝[m,U_ave(t),U_std(t),CRO(t),CRJ_ave(t),CRJ_std(t),W_std(t),Tard_e(t),Tard_a(t),ET(t)]

令φ_g,t＝φ(s_t)根据策略π_g(φ_t,g_t；θ_g)选取目标g_t。

令φ_J,t＝[φ(s_t),g_t]，根据策略π_J(φ_J,t,a_J,t；θ_J)选取工件指派规则a_J,t。

令φ_m,t＝[φ(s_t),g_t]，根据策略π_m(φ_m,t,a_m,t；θ_m)选取机器分配规则a_m,t。

根据工件指派规则a_J,t选取一个工件J_i，根据机器分配规则a_m,t选取一台机器M_k，将J_i的下一道工序安排在M_k上进行加工。

举例而言，如图2所示，Pareto支配的定义：

在一个有m个目标函数{f₁,f₂,…,f_m}的Minimize优化问题中，假设有两个解x和y，若满足(1)

(2)至少存在一个k严格满足f_k(x)<f_k(y)，则称x支配y，或x＜y。若某个解满足没有任何其他解能将其支配，则称其为非支配解，或是Pareto最优解。某个多目标优化问题的所有Pareto最优解构成的集合称为Pareto最优前沿。多目标优化算法力图找到一组在Pareto最优前沿上均匀分布的Pareto最优解，如下图所示。这些解在各个目标上各有优劣，从而直观地反映了多目标之间的相互权衡。

多目标优化问题的性能评价指标：

对于多目标优化问题，采用以下三种指标评价解性能的好坏：

(1)世代距离(Generational Distance,GD)，其定义如下：

其中P为真实某个多目标优化问题中真实的Pareto最优前沿，A为某个待评价算法得到的近似Pareto最优前沿。d_i,A,P为A中第i个解与P中距离其最近的解之间的欧式距离。GD指标主要用来评价某个算法得到的Pareto最优前沿的收敛性，GD的值越小则代表该算法得到的Pareto最优前沿与真实的Pareto最优前沿越接近。

(2)多样性指标Δ，其定义如下：

其中d_i,A,A为A中第i个解与A中距离其最近的解之间的欧式距离。

为所有d_i，A，A的平均值。

为A中某个第j个目标函数最大的解与P中第j个目标函数最大的解之间的欧式距离。n_o为所有目标函数的数量。Δ指标用来评价某个算法得到的Pareto最优前沿的均匀性。Δ的值越小则代表该算法得到的Pareto最优前沿上Pareto最优解的分布越均匀。

(3)反转世代距离(Inverse Generational Distance,IGD)，其定义如下：

其中，d_i,P,A为P中第i个解与A中距离其最近的解之间的欧式距离。IGD指标主要用来综合评价某个算法得到的Pareto最优前沿的收敛性和均匀性，IGD的值越小则代表该算法得到的Pareto最优前沿与真实的Pareto最优前沿越接近，同时得到的Pareto最优前沿上的解的分布的均匀性也越好。

将本发明的调度效果与现存的六种最常用的调度规则对比，包括：(1)先来先服务(First in first out,FIFO)：即选择最早达到的工件，并将其下一道工序安排至最早可用的机器上加工。(2)最多剩余加工时间优先(Most remaining processing time,MRPT)：即选择具有最多剩余加工时间的工件，并将其下一道工序安排至最早可用的机器上加工。(3)最早交货期优先(Earliest due date,EDD)：即选择具有最早交货期的工件，并将其下一道工序安排至最早可用的机器上加工。(4)关键率(Critical ratio,CR)：定义工件的关键率为工件的剩余加工时间除以当前时刻距离其交期的时间，选择具有最高关键率的工件，并将其下一道工序安排至最早可用的机器上加工。(5)最短加工时间(Shortest processingtime,SPT)：选择下一道工序的加工时间最短的工件，并将其下一道工序安排至最早可用的机器上加工。(6)最长加工时间(Longest processing time,LPT)：选择下一道工序的加工时间最长的工件，并将其下一道工序安排至最早可用的机器上加工。(7)随机规则(Randomrule)：在每个重调度时刻随机选择以上某种规则安排某道工序至某台机器上进行加工。

将本方法基于PPO训练得到的三个智能体在不同的算例上进行测试，并与上述7种调度规则进行性能比较，结果如下表所示。其中每个测试算例的插单数量在[100,150]之间均匀分布，每个工件的工序数量为[1,20]区间内的均匀分布，每道工序的加工时间为[1,50]区间内的均匀分布。假设插单的到达过程符合泊松过程，即相邻两个插单到达的时间间隔服从指数分布

在这里指定λ＝100，即相邻两个插单的到达时间间隔的均值为100。DDT(due date tightness)代表每个订单交货期的紧急程度。若某个订单的到达时间为A_i，则其交货期

m代表测试算例中的机器总数。对每个测试算例都用本方法以及上述7种调度规则独立运行20次，选取每种方法最后得到的Pareto最优解，并计算GD、IGD以及Δ三种指标。不同的方法在不同测试算例上的性能指标如下(其中每个测试算例上最优的性能指标用粗体标注)：

1、不同方法在不同测试算例上的GD值：

需要说明的是，上述在表格中对最优算法进行了加粗标注。

2、不同方法在不同测试算例上的IGD值：

3、不同方法在不同测试算例上的Δ值：

从以上表格可以看出，本方法(即利用PPO进行训练后的智能体的调度效果)在几乎所有测试算例上都取得了最优的性能指标。

作为一种场景描述，图3展示了在整个动态调度过程中三个智能体与生产现场之间的相互作用效果图，通过读取当前重调度时刻的生产线状态特征向量；将生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到调度目标；将生产线状态特征向量和调度目标输入训练后的工件智能体的工件策略网络，得到工件指派规则；将生产线状态特征向量和调度目标输入训练后的机器智能体的机器策略网络，得到机器分配规则；根据工件指派规则选取工件，根据机器分配规则选取机器，以及通过被选机器对被选工件的下一道工序进行加工处理。

由此，能够实现带有频繁插单的多目标柔性作业车间的实时在线重调度。在每个重调度时刻(即每当插单到达或者某个机器做完一道工序时)，系统自动从剩余未加工工序集合中选择一道合适的工序并放在一台合适的机器上加工，而不必像传统动态调度方法那样通过遗传算法等其他智能优化算法耗费大量运算时间形成全新的调度方案。训练后的三个智能体在每个重调度时刻根据生产线状态进行自主决策，可以免去人工干预，能够实现完全实时化、自主化、无人化智能工厂。

另外，能够在整个调度过程中实现对总拖期、所有机器的平均机器利用率和所有机器负荷的均衡度三个目标的综合优化。

根据本发明实施例提出的基于深度强化学习多目标柔性作业车间调度方法，通过读取当前重调度时刻的生产线状态特征向量；将生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到调度目标；将生产线状态特征向量和调度目标输入训练后的工件智能体的工件策略网络，得到工件指派规则；将生产线状态特征向量和调度目标输入训练后的机器智能体的机器策略网络，得到机器分配规则；根据工件指派规则选取待加工工件，根据机器分配规则选取加工机器，以及通过加工机器对待加工工件的下一道工序进行加工处理。由此，通过在不同的重调度时刻根据生产线的状态智能选取不同的优化目标、工件指派规则以及机器分配规则，实现完全实时化、自主化、无人化的智能工厂。

图4是本发明实施例的基于深度强化学习的多目标柔性作业车间调度装置的结构示例图。如图4所示，该基于深度强化学习的多目标柔性作业车间调度装置包括：获取模块100、第一输入模块、第二输入模块300、第三输入模块400和处理模块500。

读取模块100，用于读取当前重调度时刻的生产线状态特征向量。

第一输入模块200，用于将所述生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到当前重调度时刻的调度目标。

第二输入模块300，用于将所述当前重调度时刻的生产线状态特征向量和所述当前重调度时刻的调度目标输入训练后的工件智能体的工件策略网络，得到当前重调度时刻的工件指派规则。

第三输入模块400，用于将所述当前重调度时刻的生产线状态特征向量和所述当前重调度时刻的调度目标输入训练后的机器智能体的机器策略网络，得到当前重调度时刻的机器分配规则。

处理模块500，用于根据所述工件指派规则选取待加工工件，根据所述机器分配规则选取加工机器，以及通过所述加工机器对所述待加工工件的下一道工序进行加工处理。

需要说明的是，前述对基于深度强化学习的多目标柔性作业车间调度方法实施例的解释说明也适用于该实施例的基于深度强化学习的多目标柔性作业车间调度装置，此处不再赘述。

根据本发明实施例提出的基于深度强化学习的多目标柔性作业车间调度装置，通过读取当前重调度时刻的生产线状态特征向量；将生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到调度目标；将生产线状态特征向量和调度目标输入训练后的工件智能体的工件策略网络，得到工件指派规则；将生产线状态特征向量和调度目标输入训练后的机器智能体的机器策略网络，得到机器分配规则；根据工件指派规则选取待加工工件，根据机器分配规则选取加工机器，以及通过加工机器对待加工工件的下一道工序进行加工处理。由此，通过在不同的重调度时刻根据生产线的状态智能选取不同的优化目标、工件指派规则和机器分配规则，实现完全实时化、自主化、无人化的智能工厂。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度强化学习的多目标柔性作业车间调度方法，其特征在于，包括：

读取当前重调度时刻的生产线状态特征向量；

将所述生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到所述当前重调度时刻的调度目标；

将所述生产线状态特征向量和所述调度目标输入训练后的工件智能体的工件策略网络，得到所述当前重调度时刻的工件指派规则；

将所述生产线状态特征向量和所述调度目标输入训练后的机器智能体的机器策略网络，得到所述当前重调度时刻的机器分配规则；

根据所述工件指派规则选取待加工工件，根据所述机器分配规则选取加工机器，以及通过所述加工机器对所述待加工工件的下一道工序进行加工处理。

2.如权利要求1所述的基于深度强化学习的多目标柔性作业车间调度方法，其特征在于，将所述当前重调度时刻的生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到所述当前重调度时刻的调度目标，包括：

根据所述目标策略网络中的深度神经网络对所述生产线状态特征向量进行处理后输入分类函数得到每一个优化目标对应的选择概率；

使用轮盘赌方法根据不同优化目标的选择概率确定所述调度目标。

3.如权利要求1所述的基于深度强化学习的多目标柔性作业车间调度方法，其特征在于，将所述当前重调度时刻的生产线状态特征向量和所述当前重调度时刻的调度目标输入训练后的工件智能体的工件策略网络，得到所述当前重调度时刻的工件指派规则，包括：

根据所述工件策略网络中的深度神经网络对所述生产线状态特征向量和所述调度目标进行处理后输入分类函数得到每一个工件指派规则对应的选择概率；

使用轮盘赌方法根据不同工件指派规则的选择概率确定所述工件指派规则。

4.如权利要求1所述的基于深度强化学习的多目标柔性作业车间调度方法，其特征在于，将所述当前重调度时刻的生产线状态特征向量和所述当前重调度时刻的调度目标输入训练后的机器智能体的机器策略网络，得到当前重调度时刻的机器分配规则，包括：

根据所述机器策略网络中的深度神经网络对所述生产线状态特征向量和所述调度目标进行处理后输入分类函数得到每一个机器分配规则对应的选择概率；

使用轮盘赌方法根据不同机器分配规则的选择概率确定所述机器分配规则。

5.如权利要求1所述的基于深度强化学习的多目标柔性作业车间调度方法，其特征在于，还包括：

将所述当前重调度时刻的生产线状态特征向量输入所述目标智能体的目标价值网络，得到所述当前重调度时刻的目标状态价值函数；

将所述当前重调度时刻的生产线状态特征向量和所述当前重调度时刻的调度目标输入所述工件智能体的工件价值网络，得到所述当前重调度时刻的工件状态价值函数；

将所述当前重调度时刻的生产线状态特征向量和所述当前重调度时刻的调度目标输入所述机器智能体的机器价值网络，得到所述当前重调度时刻的机器状态价值函数。

6.如权利要求1所述的基于深度强化学习的多目标柔性作业车间调度方法，其特征在于，所述当前重调度时刻为任意一道工序的完成时刻、或者，插单到达的时刻。

7.如权利要求1所述的基于深度强化学习的多目标柔性作业车间调度方法，在离线预训练过程中，其特征在于，还包括：

获取所述目标智能体的目标策略网络、旧目标策略网络和目标状态价值网络、所述工件智能体的工件策略网络、旧工件策略网络和工件状态价值网络、所述机器智能体的机器策略网络、旧机器策略网络和机器状态价值网络，并对各个网络进行参数初始化；

设置所述旧目标策略网络的初始参数为所述目标策略网络的初始参数，所述旧工件策略网络的初始参数为所述工件策略网络的初始参数，以及所述旧机器策略网络的初始参数为所述机器策略网络的初始参数；

在每个训练周期内，随机生成新的训练环境，并利用近端策略优化算法PPO对三个智能体进行离线预训练；

在训练过程中的每个重调度时刻获取当前状态特征向量输入所述旧工件策略网络得到训练优化目标；

在训练过程中的每个重调度时刻将所述当前状态特征向量和所述优化目标分别输入旧工件策略网络和旧机器策略网络，得到训练工件指派规则和训练机器分配规则；

在每个重调度时刻根据所述训练工件指派规则选取一个工件和根据所述训练机器分配规则选取一台机器，将被选工件的下一道工序安排在被选机器上进行加工，计算当前时刻奖励；

每当经过一定的重调度步数后，通过PPO损失函数更新所述目标智能体的目标策略网络、所述工件智能体的工件策略网络、所述机器智能体的机器策略网络；并用各智能体当前时刻的策略网络的参数替换其旧策略网络的参数。通过最小平方误差损失函数MSE更新目标智能体的目标状态价值网络、工件智能体的工件状态价值网络、机器智能体的机器状态价值网络。此过程不断进行，直到所述各个网络满足使用需求。

8.如权利要求1所述的基于深度强化学习的多目标柔性作业车间调度方法，其特征在于，

所述调度目标为最小化所有工件的总拖期、最大化所有机器的平均机器利用率和最小化所有机器负荷的方差中的一种或者多种。

9.如权利要求1所述的基于深度强化学习的多目标柔性作业车间调度方法，其特征在于，

所述生产线状态特征向量，包括：加工车间内的机器总数、平均机器利用率、各机器利用率的方差、所有工序的完成度、每个工件的平均完成度、工件完成度的方差、所有机器负荷的方差、每个重调度时刻的预估延迟率、每个重调度时刻的实际延迟率和每个重调度时刻的预估延迟时间中的一种或者多种。

10.一种基于深度强化学习的多目标柔性作业车间调度装置，其特征在于，包括：

读取模块，用于读取当前重调度时刻的生产线状态特征向量；

第一输入模块，用于将所述生产线状态特征向量输入训练后的目标智能体的目标策略网络，得到所述当前重调度时刻的调度目标；

第二输入模块，用于将所述生产线状态特征向量和所述调度目标输入训练后的工件智能体的工件策略网络，得到所述当前重调度时刻的工件指派规则；

第三输入模块，用于将所述生产线状态特征向量和所述调度目标输入训练后的机器智能体的机器策略网络，得到所述当前重调度时刻的机器分配规则；

处理模块，用于根据所述目标工件指派规则选取待加工工件，根据所述目标机器分配规则选取加工机器，以及通过所述加工机器对所述待加工工件的下一道工序进行加工处理。