CN117057528A

CN117057528A - 一种基于端到端深度强化学习的分布式作业车间调度方法

Info

Publication number: CN117057528A
Application number: CN202310810466.7A
Authority: CN
Inventors: 李新宇; 黄江平; 高亮; 张春江
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-11-14

Abstract

本发明属于分布式车间调度相关技术领域，并公开了一种基于端到端深度强化学习的分布式作业车间调度方法。该方法包括下列步骤：S1绘制待求解的分布式车间调度问题的拼接析取图模型并确定其初始信息；确定所有工序对应的工序‑工厂对动作；S2将当前时刻的拼接析取图信息输入图神经网络，提取其节点信息和全局信息，将所获得信息输入决策网络，计算每个动作被选取的概率；选取概率值最大的动作，确定被调度的工序以及该工序应该被放入的工厂；执行被选取的动作并更新析取图信息；S3重复步骤S2，直至获得所有时刻对应的动作，获得调度方案。通过本发明，解决现有技术存在的适用场景单一、实时性差、缺乏自学习和自进化能力的问题。

Description

一种基于端到端深度强化学习的分布式作业车间调度方法

技术领域

本发明属于分布式车间调度相关技术领域，更具体地，涉及一种基于端到端深度强化学习的分布式作业车间调度方法。

背景技术

随着企业间的合作日益紧密，分布式制造已经成为一种常见的生产模式。它可以通过合理调配多个企业的资源，实现高效生产。作为一种典型的分布式制造问题，分布式作业车间调度问题(Distributed Job-shop Scheduling Problem,DJSP)在装备制造业和其他生产领域有着广泛的应用，已经成为了一个热点问题。DJSP是一个NP-hard问题，需要探索有效的方法实现该问题的高效求解。

针对车间调度问题，已经有很多方法被提出，主要包括三大类：精确算法、启发式算法和元启发式算法。但是这些方法适合的场景各不相同，且算法在不同的场景可能差异很大。精确算法适合精确求解小规模问题，因为DJSP的NP-hard特性，所以不适宜采用精确算法求解；启发式算法是一种易于理解且易于实现的算法，但其仅适用于专业知识丰富且产品结构不复杂的场景；元启发式算法是目前寻优能力最好的一种算法，相关研究最为广泛，但其时间复杂度高，难以针对实时性要求高的场景快速生成调度方案。工业4.0倡导建设智能工厂，随着大数据、物联网、数字孪生、人工智能等新一代信息技术的深度融合，工业数据的多样性、可获得性以及可用性得到了有效的提升。上述三种方法虽然可以有效解决大多数调度问题，但它们不能充分利用历史数据，难以实现自学习，这不利于制造系统的自动化和智能化发展。为适应智能工厂的发展需求，提高调度算法的自学习和自进化能力，亟需开发一类能够自进化和自适应调节的方法。

近年来，深度强化学习(Deep Reinforcement Learning,DRL)由于其强大的学习能力得到了广泛的关注，已经被成功应用到各个领域。DRL是深度学习(Deep Learning,DL)和强化学习(Reinforment Learning,RL)的结合体。RL通过与环境互动获得奖励，指导行为选择，使累积奖励最大化。DL能根据历史数据预测某一事件发生的概率。DRL集聚了DL和RL两者的优势，具有自我学习和自我进化的能力，可以根据环境做出智能决策，其在车间调度问题中也得到了成功应用。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于端到端深度强化学习的分布式作业车间调度方法，解决现有技术存在的适用场景单一、实时性差、缺乏自学习和自进化能力的问题。

为实现上述目的，按照本发明，提供了一种基于端到端深度强化学习的分布式作业车间调度方法，该方法包括下列步骤：

S1对于待调度的分布式车间，确定该待调度的分布式车间的初始信息，包括工厂的数量，待加工工件的加工工序、工件在不同机器上的加工顺序以及每个工序的加工时间，利用所述初始信息绘制包括所有待加工工件以及工件的加工工艺约束的拼接析取图；将每个工序与工厂配对组成一个动作，以此确定所有工序对应的动作；

S2根据当前时刻的拼接析取图确定当前时刻可被选取的动作；将当前时刻的所述拼接析取图信息输入图神经网络中提取所述拼接析取图中的节点信息和全局信息，将提取的节点信息和全局信息输入决策网络中；利用所述决策网络计算每个所述可被选取的动作(即动作空间中的动作，动作空间由产品工艺所决定，在任意决策点t时刻，均需根据所执行的动作更新动作空间)的概率，根据该概率选取当前时刻执行的动作；执行该被选取的动作并以此更新下一个时刻的拼接析取图信息；

S3重复步骤S2，直至获得所有时刻对应的动作，以此确定加工顺序，即获得调度方案。

进一步优选地，在步骤S2中，利用所述决策网络计算可被选取的动作的概率后，还需在每个可被选取的动作的概率上加上概率加强系数，该概率加强系数是当前可被选取的动作所在工厂的最大完成时间的倒数，将加上概率加强系数后的概率作为当前可被选取的动作的概率，概率最大的可被选取的动作作为当前时刻执行的动作。

进一步优选地，对于初始时刻，所述概率加强系数为预设给定值。

进一步优选地，对于还未开始加工的工厂，其概率加强系数为预设给定初始值。

进一步优选地，在步骤S2中，所述图神经网络按照下列关系式进行节点特征提取：

对于每个节点v：

其中，是节点v经过k次迭代后的信息表达，/>是节点v的初始输入信息，是经过k次迭代后参数为θ_k的多层感知机，θ_k是经过k次迭代的多层感知机的网络参数，∈是一个学习参数，N(v)是节点v的邻居节点集合，u是邻居节点集合N(v)中的节点，是节点u经过k-1次迭代后的信息表达；

经过K次迭代后，对于所获得的所有节点信息，采用平均池化的方式计算所得拼接析取图的全局信息h_g：

其中，K是总迭代次数，V是所有节点集合，是任意节点v经过K次迭代后的信息表达，m是机器总数量,n是工件总数量。

进一步优选地，在步骤S2中，在决策点t时刻，所述决策网络按照下列关系式计算每个可被选取动作的概率：

其中，是经过K次迭代后参数为θ_K的多层感知机,/>是节点v在决策点t时刻经过K次迭代后的信息表达，h_g,t是t时刻拼接析取图的全局信息表达，A_t是t时刻可被选取的动作集合，即t时刻的动作空间。

进一步优选地，对于待求解的所述分布式作业车间调度问题，需先将该待求解的分布式作业车间调度问题作业转化为马尔可夫决策模型，然后选取优化算法训练步骤S2中的所述图神经网络和决策网络，最后按照步骤S1至S3求解所述待求解的分布式作业车间调度问题。

进一步优选地，在步骤S2中，所述图神经网络和决策网络是通过演员-评论家模式的近端策略优化算法训练获得。

进一步优选地，在所述演员-评论家模式的近端策略优化算法中t时刻的奖励函数按照下列关系式进行：

r_t＝C_l,t-1-C_l,t

其中，C_l,t是t时刻被选工厂l的最大完成时间，C_l,t-1是上一时刻工厂l的最大完成时间。

进一步优选地，所述演员-评论家模式的近端策略优化算法中的目标函数是作业车间调度方式的最大完成时间最小化。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具备下列有益效果：

1.本发明基于DJSP的问题特性，采用工序和工厂配对的方式将DJSP这个分步决策问题转化为单步决策问题，确定由工序-工厂对组成的动作空间，基于拼接析取图表达，采用图神经网络提取任意决策点t时刻的特征表达，决策网络根据图神经网络提供的特征表达计算可被选取动作的概率分布，进一步考虑每个工厂完成时间的影响，采用概率加强机制，更新概率分布，根据所得概率分布确定任意决策点t时刻被选取的动作，该方法解决了复杂场景下分布式车间调度问题，其具备自主学习和自进化能力，泛化性强，简化了DJSP问题的求解步骤，有效提高了DJSP问题的求解速度；

2.本发明是针对分布式作业车间调度问题提出的技术方案，通过工序和工厂配对的思想，将分布式作业车间的分步决策问题转化为了单步决策问题，简化了求解思路；而现有的柔性作业车间调度问题是工件的机器选择和工件在机器上的排序问题，其采用的是分层的思想，先选择工序，再选择机器；

3.特别地，本发明在决策网络的基础上引入了与问题特性相适应的概率加强机制，即考虑工厂负载均衡，不同工厂间需要到达负载均衡的效果，这样才能充分利用生产资源，发挥分布式生产的真正作用；

4.本发明构建马尔可夫决策模型，构建了针对分布式车间提出的拼接析取图，包含了工厂分配信息，建立了由工序-工厂对组成的动作空间，实现了智能体同时选择加工工件和确定工件加工工厂，简化了分布式调度问题的求解步骤，提高了调度方案的生成效率；

5.本发明针对分布式调度问题特性，提出了一种基于工厂完成时间的概率加强机制，有效地避免了工厂间加工任务分配不均的问题，有利于最小化最大完成时间；

6.本发明较已有的分布式车间调度问题的解决方法，本发明具有很强的自学习和自进化能力，其能够基于历史调度数据进行学习，提高自身的决策能力，其求解效率更高，优化能力更强，泛化性更好，适用的场景更多。

附图说明

图1是本发明的优选实施例所构建的基于端到端深度强化学习的分布式作业车间调度方法；

图2是本发明的优选实施例所构建的分布式作业车间问题的解的拼接析取图示意图，其中，(a)是包含初始信息的析取图，(b)是一个可行解的析取图；

图3是本发明的优选实施例所构建的动作空间变化过程示意图，其中，(a)是初始时刻动作空间示意图，(b)是动作(O₁₁,F₁)被选取后动作空间示意图，即工序O₁₁被放入工厂F₁后的动作空间变化情况，(c)是动作(O₃₁,F₂)被选取后动作空间示意图，即工序O₃₁被放入工厂F₂中后动作空间变化情况，(d)是动作(O₁₂,F₁)被选取后动作空间示意图，即工序O₁₂在工厂F₁中被调度后的动作空间变化情况；

图4是本发明的优选实施例所构建的基于GNN的调度策略的整体框架图；

图5是本发明的优选实施例所构建的模型训练收敛曲线图，其中，(a)是由问题规模为2×15×15测试用例训练所得模型的收敛曲线，(b)是问题规模为3×15×15测试用例训练所得模型的收敛曲线(c)是问题规模为4×15×15测试用例训练所得模型的收敛曲线；

图6是本发明的优选实施例所构建的训练模型与调度规则对比结果的95％最小显著性差异置信区间的均值图和交互图，其中，(a)是训练模型与调度规则对比结果的均值图，(b)是算法类型与工厂数双因素分析交互图，(c)是算法类型与工件数双因素分析交互图，(d)是算法类型与机器数双因素分析交互图；

图7是本发明的优选实施例所构建的训练模型与RL算法对比结果的95％最小显著性差异置信区间的均值图和交互图，其中，(a)是训练模型与RL算法对比结果的均值图，(b)是算法类型与工厂数双因素分析交互图，(c)是算法类型与工件数双因素分析交互图，(d)是算法类型与机器数双因素分析交互图；

图8是本发明的优选实施例所构建的训练模型与元启发式算法对比结果的95％最小显著性差异置信区间的均值图和交互图，其中，(a)是训练模型与元启发式算法对比结果的均值图，(b)是算法类型与工厂数双因素分析交互图，(c)是算法类型与工件数双因素分析交互图，(d)是算法类型与机器数双因素分析交互图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

一种基于端到端深度强化学习的分布式作业车间调度方法，包括如下内容：

对于待求解的所述DJSP，首先将该待求解的DJSP转化为马尔可夫决策模型；然后选取优化算法训练图神经网络和决策网络；最后按照利用图神经网络和决策网络求解所述待求解的DJSP。

(1)构建DJSP的拼接析取图

通常来说，DJSP问题的解可以采用包含节点、连接弧和析取弧的析取图来表达，其是一种经典的调度问题的解的表达方式，可以表示为G＝(V,C∪D)；节点集合V中包含被加工工件的所有工序信息以及表示开始加工和结束加工的2个空节点{S,T}；连接弧集合C则定义了每个工件工序之间优先约束关系，即工件的加工工艺；析取弧集合D则限定了同一台机器上加工工序的先后顺序，其方向在问题求解过程中依次确定。

本发明采用一种拼接析取图表示DJSP的解，f是总工厂数。在拼接析取图G中，集合V包含了所有加工工件的工序信息，C_k则包含工厂k中的连接弧信息，k∈{1,2,…,f}，由C_k可知被分配到工厂k中的所有工件的工艺约束，D_k是被分配到工厂k中工件的析取弧集合，其方向在调度方案生成过程中逐一被确定。

举一个2×3×3(工厂数×工件数×机器数，f×n×m)的例子，图2中的(a)包含了此算例的初始信息，图2中的(b)是此算例的一个可行解，由图2中的(b)可知，工件1，2和3被分配到了工厂1中，工件4，5和6被分配到了工厂2中。在工厂1中，工序O₁₁，O₂₂和O₃₁依次在机器2上进行加工。由图2可知，拼接析取图可清晰有效的给出DJSP的解的表达。另外，拼接析取图的图的特性为图神经网络(Graph Neural Network,GNN)与DJSP的深度融合提供了重要基础。

(2)构建DJSP的马尔可夫决策模型

RL是一个序贯决策过程，它试图找到一个决策规则(即策略)使得系统获得最大的累积奖励值，即获得最大价值。建立RL与DJSP问题之间的联系是采用DRL方法高效求解的关键，所以要建立DJSP问题的马尔可夫决策模型，其通常由状态空间、动作空间、状态转移、奖励函数以及折扣因子等组成。

①本发明DJSP解的表达是基于析取图的，其马尔可夫模型建立如下：

状态(任意t时刻的状态表示为s_t)：t时刻的析取图反映了问题的过程状态。/>中包含直到t时刻工厂k中指定了方向的析取弧；D_kt则包含了t时刻工厂k中没有指定方向的析取弧，其中没有被调度的工序间的析取弧没有被指定方向，/>每个节点v都包含一个表示其工厂分配的信息/>如果节点v对应的工序O_ji被分配到工厂k，则表示工厂分配的节点信息/>被赋值为k。集合V中的任意节点均包含2个特征[c_LB(v,s_t),b(v,s_t)]：

a.节点v对应工序的完成时间的估计下界c_LB(v,s_t)，t时刻，如果节点完成加工，则其完成时间的估计下界就等于它的实际完成时间，否则，该下界通过公式c_LB(v,s_t)＝c_LB(v′,s_t)+p_ji计算得到，若节点v对应加工工序O_ji，即工件j的第i道工序，则节点v′则对应加工工序O_ji-1，O_ji-1是工序O_ji的前一道工序，即工件j的第i-1道工序。若节点b对应加工工序是当前工厂的第一道工序，则其下界就等于该工件的释放时间加上当前工序的加工时间，即c_LB(b,s_t)＝re_j+p_ji，re_j为工件j的释放时间,p_ji是工序O_ji的加工时间；

b.一个二进制变量b(b,s_t)，当b(b,s_t)＝1时，节点b对应工序在t时刻已经完成调度；否则b(v,s_t)＝0。

②动作(任意t时刻的动作表示为a_t，本发明中的动作对应工序-工厂对)：在任意时刻t，智能体通过观测当前环境选择一个动作指导智能体行为。在分布式调度问题中，智能体需要从未完成加工的工序中选择一个工序，并为该工序选择一个合适的待放入工厂。工件选择和工厂分配是两个连续的行为，本发明通过工序和工厂的配对操作将这个分步决策的问题转化为单步决策问题。由DJSP问题的定义可知，任意时刻，每个工件都只能有一道工序被加工，因此对于一个规模为f×n×m的问题，其动作空间的大小为n×f，随着工件逐渐完成加工，其动作空间逐渐缩小。以算例2×3×3为例，如图3所示，所有可被选动作由深灰色标出，一旦某一道工序对应的动作完成加工，则由虚线框的灰色标出。图3中(a)中，最开始所有的工件都可以被放入任意工厂，即对应的由工序-工厂对组成的动作空间可以表示为{(O₁₁,F₁),(O₁₁,F₂),(O₂₁,F₁),(O₂₁,F₂),(O₃₁,F₁),(O₃₁,F₂)}；图3中(b)所示，工序-工厂对(O₁₁,F₁)已经完成调度，对应的动作空间变为{(O₁₂,F₁),(O₁₂,F₁),(O₂₁,F₁),(O₂₁,F₂),(O₃₁,F₁),(O₃₁,F₂)}；图3中(c)所示，工序O₁₁,O₁₂和O₃₁已经完成加工，则动作空间变为{(O₁₃,F₁),(O₁₃,F₁),(O₂₁,F₁),(O₂₁,F₂),(O₃₂,F₂),(O₃₂,F₂)}；图3中(d)展示了当工件1的最后一道工序完成加工，动作空间就减小了2，即任意工件完成加工，动作空间就减小f。

③状态转移：基于被选的动作，更新当前析取图状态，实现状态转移。本发明中，根据智能体选择的动作(被选取的加工工序和该工序被放入的工厂)，更新析取弧方向以及析取图节点信息，实现状态转移。

当前时刻执行的动作被选取后，按照下列方式更新下一个时刻的拼接析取图信息：根据被选取动作，按照尽量使得当前工序尽可能快地被加工的原则，确定其开始加工时刻和被安排的位置，指定对应析取弧方向，重新计算拼接析取图中节点对应工序的完成时间估计值、被放入工厂编号以及最早开始加工时间等信息。

④奖励：奖励是环境反馈给智能体的重要信息，用来评估智能体执行的动作是否正确。设置合理的奖励函数有利于智能体的自学习和自进化。本发明结合算法的优化目标以及DJSP的问题特性，将奖励函数设置为r_t＝C_l,t-1-C_l,t，其中C_l,t是当前时刻被选中工厂l的最大完成时间，C_l,t-1是上一时刻被选中工厂的最大完成时间。由奖励函数可计算累积奖励值：R＝(C_l,0-C_l,1)+(C_l,1-C_l,2)+…+(C_l,f×n-1-C_l,f×n)＝C_l,0-C_l,f×n，最小化DJSP的最大完成时间等价于最小化关键工厂(即最大完成时间最大的工厂)的最大完成时间。本发明的奖励函数与优化目标负相关，将DJSP的最大完成时间最小化问题转化成累计奖励值最大化问题。

⑤图神经网络和决策网络

GNN是一种解决图结构数据的深度神经网络，已经在各个领域得到了成功的应用。本发明将GNN与DJSP的解的析取图表达相结合，通过GNN探究问题特征，生成新的调度策略，实现实时调度。本发明的基于GNN的策略框架如图4所示，主要包含3个步骤：首先，根据拼接析取图生成基于GNN的工件任务编码；接着，根据工件任务编码计算动作空间的概率分布，从动作空间中选取动作；最后，根据选取的动作进行调度方案更新。

工件任务编码：工件任务编码也叫做图嵌入，是图结构数据的压缩表达。本发明采用图同构神经网络(Graph Isomorphism Network,GIN)提取析取图信息，GIN是GNN的最简单也是最有效的一个分支。GIN的嵌入层是一个多层感知机，对于析取图中的每个工序对应的节点v，其状态更新采用关系式：

其中，是节点v经过k次迭代后的信息表达，/>是节点v的初始输入信息，是经过k次迭代后参数为θ_k的多层感知机，θ_k是经过k次迭代的多层感知机的网络参数，∈是一个学习参数，N(v)是节点v的邻居节点集合，u是邻居节点集合N(v)中的节点，是节点u经过k-1次迭代后的信息表达。经过K次迭代后，对于所获得的所有节点信息，采用平均池化的方式计算所得拼接析取图的全局信息h_g：

其中，K是总迭代次数，V是所有节点集合，是任意节点v经过K次迭代后的信息表达，m是机器总数量，n是工件总数量，即mn为总的节点数。本发明中的多层感知机是由2层包含64个神经元的全连接层组成。由于每个节点包含2个特征，所以输入层维度是2。

动作选择：本发明通过动作选择可以选定待加工工件并确定该工件被放入的工厂。为了获得一个调度策略，根据GIN输出的析取图的嵌入特征，通过关系式

计算动作空间的概率分布，在模型训练模式下，基于概率分布进行动作采样；在模型应用模式下，采用贪婪的选择策略，即选择概率最大的动作进行调度。

进一步地，在模型应用阶段，本发明结合优化目标，提出了一个概率加强机制，即在智能体输出的动作概率基础上，加上与该动作对应工厂的最大完成时间(该工厂所有已经加工的工件最大完成时间)的倒数，进一步削弱完成时间大的工厂被选择的概率。如图3中(d)，假设当前时刻工厂1和2的完成时间分别是C₁＝126和C₂＝158，动作空间{(O₁₃,F₁),(O₁₃,F₁),(O₂₁,F₁),(O₂₁,F₂),(O₃₂,F₂),(O₃₂,F₂),(O₄₁,F₁),(O₄₁,F₂)}中每个动作对应的概率为{0.167,0.167,0.172,0.173,0.155,0.155,0.169,0.170}，由智能体输出的概率可知，动作(O₂₁,F₂)被选择，即工件2被放到工厂2中，考虑概率加强机制，得到新的概率分布为{0.175,0.175,0.180,0.179,0.161,0.161,0.176,0.177}，即动作(O₂₁,F₁)被选择，工件1被放到工厂1中，即达到了新的工件被放入当前完成时间更小的工厂，有助于实现不同工厂之间的负载均衡。

(3)对图神经网络和决策网络模型的训练

本发明采用一种演员-评论家模式的近端策略优化(Proximal PolicyOptimization,PPO)算法训练模型。其采用一个多层感知机(演员网络)计算动作空间中候选动作的概率分布，采用一个同样结构的多层感知机(评论家网络)对所选动作进行评价。该多层感知机是由2层包含32个神经元的隐藏层组成，并且每个隐藏层连接着一个tanh激活函数。具体训练细节如下：首先；确定算法参数，总的迭代次数Ψ，总的训练步数Γ，折扣因子γ，参数更新的回合数(update epoch)ρ，即经过ρ个回合后，网络参数更新一次，策略损失系数c_p，值函数损失系数c_v，交叉熵损失系数c_e以及修剪比例∈；接着，随机初始化演员网络π_θ、行为演员网络和评论家网络π_φ；然后算法进入迭代过程；最后输出训练所得的参数固定的演员网络π_θ和评论家网络π_φ。其中，在算法迭代过程中，每次迭代都随机生成调度算例，采用行为策略/>进行动作采样，根据采样的动作计算奖励值并更新状态空间，结合累计奖励值和评论家网络π_φ输出，通过关系式

计算优势评估值，其中是累计奖励值，/>是评论家网络π_Φ对当前状态的评价，重复上述过程，直到至少一个调度算例完成调度，计算策略代理项值函数偏差/>以及熵值奖励S[π_θ]，进而计算总损失采用上述数据优化网络参数ρ个epoch，采用所得网络参数更新行为演员网络/>

下面将结合具体的实施例进一步说明本发明。

为了验证本发明的有效性，首先采用不同规模测试用例训练得到不同的求解模型，包括GDRL2×15×15，GDRL3×15×15以及GDRL4×15×15，三个模型训练收敛曲线如图5所示。采用训练好的模型求解经典的TA数据集，工厂数为{2,3,4}，并将其与8种调度规则、3种RL算法以及5种元启发式算法进行对比。表1、表2和表3分别记录了训练模型与调度规则、RL算法以及元启发式算法的对比结果的相对百分偏差，结果可以看出，当与经典调度规则进行对比时(表1)，本发明训练所得模型均能获得最小的平均相对百分偏差(加粗斜体标出)；当与用于解决相关问题的RL算法对比时(表2)，本发明所得模型能取得当工厂数为2和3时的所有算例的最小平均相对百分偏差值，当工厂数为4时，尽管本发明没有取得所有算例的最小平均相对百分偏差值，但是最后的总体平均值仍然是最小的；当与用于解决相同问题的元启发式算法比较时(表3)，所得结论和表2中所得结论类似，本发明所得模型在工厂数为2和3时能取得所有算例的最小平均相对百分偏差值，尽管当工厂数为4时，一些算例的最优平均值被算法DAHACO求解得到，但最后的总体平均值却还是有本发明所得模型GDRL4×15×15得到。综上所述，本发明所得模型与现有的主流算法相比，在经典问题的求解效果上具有明显优势。

表1.训练模型与调度规则对比结果的平均相对百分偏差值.

表2.训练模型与RL算法对比结果的平均相对百分偏差值.

表3.训练模型与元启发式算法对比结果的平均相对百分偏差值.

图6、图7和图8分别展示了本发明的训练模型与对比算法的单因素分析图和多因素分析的交互图。从单因素对比图中可以看出，本发明所提出的调度模型在解决不同规模DJSP问题时，均能表现出最优的性能。从多因素分析的交互图中可以看出，本发明中的模型受问题规模(如工厂数、工件数、机器数)影响最小，相较其它对比算法，其稳定性更好。另外，本发明通过采用不同规模测试用例训练得到不同的求解模型求解所有规模问题，验证了由本发明训练所得模型的泛化性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于端到端深度强化学习的分布式作业车间调度方法，其特征在于，该方法包括下列步骤：

S2根据当前时刻的拼接析取图确定当前时刻可被选取的动作；将当前时刻的所述拼接析取图信息输入图神经网络中提取所述拼接析取图中的节点信息和全局信息，将提取的节点信息和全局信息输入决策网络中；利用所述决策网络计算每个所述可被选取的动作的概率，根据该概率选取当前时刻执行的动作；执行该被选取的动作并以此更新下一个时刻的拼接析取图信息；

2.如权利要求1所述的一种基于端到端深度强化学习的分布式作业车间调度方法，其特征在于，在步骤S2中，利用所述决策网络计算可被选取的动作的概率后，还需在每个可被选取的动作的概率上加上概率加强系数，该概率加强系数是当前可被选取的动作所在工厂的最大完成时间的倒数，将加上概率加强系数后的概率作为当前可被选取的动作的概率，概率最大的可被选取的动作作为当前时刻执行的动作。

3.如权利要求2所述的一种基于端到端深度强化学习的分布式作业车间调度方法，其特征在于，对于初始时刻，所述概率加强系数为预设给定值。

4.如权利要求2或3所述的一种基于端到端深度强化学习的分布式作业车间调度方法，其特征在于，对于还未开始加工的工厂，其概率加强系数为预设给定初始值。

5.如权利要求1所述的一种基于端到端深度强化学习的分布式作业车间调度方法，其特征在于，在步骤S2中，所述图神经网络按照下列关系式进行节点特征提取：

对于每个节点v：

其中，是节点v经过k次迭代后的信息表达，/>是节点v的初始输入信息，/>是经过k次迭代后参数为θ_k的多层感知机，θ_k是经过k次迭代的多层感知机的网络参数，∈是一个学习参数，N(v)是节点v的邻居节点集合，u是邻居节点集合N(v)中的节点，/>是节点u经过k-1次迭代后的信息表达；

6.如权利要求1或5所述的一种基于端到端深度强化学习的分布式作业车间调度方法，其特征在于，在步骤S2中，在决策点t时刻，所述决策网络按照下列关系式计算每个可被选取动作的概率：

7.如权利要求1所述的一种基于端到端深度强化学习的分布式作业车间调度方法，其特征在于，对于待求解的所述分布式作业车间调度问题，需先将该待求解的分布式作业车间调度问题作业转化为马尔可夫决策模型，然后选取优化算法训练步骤S2中的所述图神经网络和决策网络，最后按照步骤S1至S3求解所述待求解的分布式作业车间调度问题。

8.如权利要求7所述的一种基于端到端深度强化学习的分布式作业车间调度方法，其特征在于，在步骤S2中，所述图神经网络和决策网络是通过演员-评论家模式的近端策略优化算法训练获得。

9.如权利要求8所述的一种基于端到端深度强化学习的分布式作业车间调度方法，其特征在于，在所述演员-评论家模式的近端策略优化算法中时刻的奖励函数按照下列关系式进行：

r_t＝C_l,t-1-C_l,t

10.如权利要求8所述的一种基于端到端深度强化学习的分布式作业车间调度方法，其特征在于，所述演员-评论家模式的近端策略优化算法中的目标函数是作业车间调度方式的最大完成时间最小化。