CN114707881A

CN114707881A - 一种基于深度强化学习的作业车间自适应调度方法

Info

Publication number: CN114707881A
Application number: CN202210406935.4A
Authority: CN
Inventors: 干雪梅; 李少波; 张钧星; 张安思; 左颖
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-05

Abstract

本发明公开了一种基于深度强化学习的作业车间自适应调度方法，在近端策略优化算法中设计优化的动作策略和异步更新机制，形成直接高效探索和异步更新近端策略优化算法，基于直接高效探索和异步更新近端策略优化算法，将图神经网络与原始状态信息的分层非线性细化相结合，设计了一种端到端的强化学习方法，基于此，获得一个自适应调度系统。本发明的直接高效探索和异步更新近端策略优化算法具有高级鲁棒性，调度得分比近端策略优化算法提高5.6％，最小完成时间比深度Q网络算法降低8.9％。实验结果证明了所提出的自适应调度策略的有效性和通用性。

Description

一种基于深度强化学习的作业车间自适应调度方法

技术领域

本发明属于作业车间自适应调度技术领域，涉及一种基于深度强化学习的作业车间自适应调度方法。

背景技术

随着信息技术在制造业中的发展，智能制造和可重构制造应运而生。作业车间调度问题由于能够最优地分配有限的资源，提高生产效率而备受关注。JSSP本质上是一个组合优化问题，传统上区分精确算法(数学方法)和近视算法方法。解决JSSP的精确算法主要基于运筹学产生，如数学规划法，拉格朗松弛法以及分支界限法等。这些方法从理论上可以得出最优解。然而因为该方法需要精准的建模和大量的计算，所有多数还停留在理论层面而不能应用于实际生产。

为了解决这一问题，许多学者将目光转移到了近似算法，如优先规则或元启发式算法。这些优先规则，如先进先出(First In First，FIFO)、最长处理时间(LongestProcessing Time，LPT)、大部分剩余操作(Most Operation Remaining，MOPR)、大部分剩余处理时间(Most Work Remaining，MWKR)等，计算速度更快，自然能够处理实践中的不确定性，但容易短视而陷入局部最优，难以获得全局最优解。当调度规模扩大时会导致调度解得质量下降。学者也提出了许多基于领域知识的复合规则，表现出了良好的调度性能。设计一个有效的复合调度规则需要大量的先验知识和大量的时间。在元启发式算法方面，有许多的群智能算法，如遗传算法、粒子群算法和蚁群算法等。这些算法通过不断的探索和迭代可以获得相对较优解。然而，元启发式和优先规则面临的相同问题是，一旦调度问题的规模发生变化，调度方案即不适用需要重新运算求解，在大规模生产下，难以想象将生产资源停工长时间甚至几个小时等调度方案。

为了寻求时间成本和算法质量之间的平衡，强化学习(reinforcement learning，RL)被提出来训练调度模型，并在实际调度案例中获得了许多成功的应用。还有两个问题需要关注。首先，由于人工指标的存在，车间状态的特征提取会受到人为的影响。其次，将调度规则作为动作空间，由于工作顺序的选择回到了规则的选择，必然会耗费更多的时间。

许多学者将强化学习(reinforcement learning，RL)应用于调度策略的研究，为作业车间调度的高效决策提供了新的途径和方向。强化学习(reinforcement learning，RL)是不需要预先准备标签数据的无监督学习。在标签数据难以收集和获取的情况下，具有独特的优势。作业车间可以看作是一个类似的场景，其中代理根据当前车间状态选择操作。车间调度过程可以转化为如图1所示的马尔可夫决策过程(Markov decision process,MDP)，其关键要素为状态、行动和奖励。

RL在调度中的应用主要可以分为以下四类。首先，将强化学习(reinforcementlearning，RL)与启发式算法相结合，通过优化算法参数来提高算法性能；其次，将强化学习(reinforcement learning，RL)与优先级规则相结合，将规则集合设计为动作空间；强化学习(reinforcement learning，RL)用于在每个调度点上寻找最优规则，以达到最优策略。第三，将工件加工的工序直接设计为动作空间。强化学习(reinforcement learning，RL)直接选择每个调度点上的工序，即得到最优解。最后，将机器ID或传输材料定义为智能体(agent)选择的动作空间。上述类别通常对应于强化学习(reinforcement learning，RL)的四种不同的动作空间类型，即优化参数、优化规则、加工工序和机器设备。

本发明提出了基于作业车间调度问题(Job shop scheduling problem,JSSP)的直接高效探索和异步更新的近端策略优化算法(explicit exploration andasynchronous update proximal policy optimization algorithm，E2APPO)，以最小化完工时间为优化目标。本文的主要工作如下:(1)通过设计一种动态优化谈索策略和异步更新机制，构建直接高效探索和异步更新近端策略优化算法(explicit exploration andasynchronous update proximal policy optimization algorithm，E2APPO)算法，获得生产状态和动作概率分布的映射关系以获取最优工序序列。(2)针对不同的生产状态，特别是不同的算例规模，构建了一种自适应调度方案。(3)建立实时调度系统，实现离线训练和在线执行；该系统能够分配训练有素的模型来应对不确定的车间环境，以提高调度效率。(4)数值实验结果证明了所提出的直接高效探索和异步更新近端策略优化算法(explicitexploration and asynchronous update proximal policy optimization algorithm，E2APPO)的有效性和通用性。

发明内容

本发明要解决的技术问题是：提供一种基于深度强化学习的作业车间自适应调度方法，以解决现有技术中存在的技术问题。

本发明采取的技术方案为：一种基于深度强化学习的作业车间自适应调度方法，该方法包括以下步骤：

(1)构建作业车间调度问题的调度函数模型：设有以n个作业和m台机器，每个作业包括m个不同的工序，在作业车间调度中，n个作业J＝{J₁，J₂……，J_n}必须在m台机器m＝{M₁，M₂……，M_m}上按照预先知道的不同顺序进行处理，设O_k，b表示为工件b第k个工序，每个工序O_k，b都必须在特定的时间段内在特定的机器上执行，工件b在机器M_k上的处理时间用t_b，k标记，t_b，k是预先确定的，工件b在M_k机器上的实际完成时间用C_b，k表示，它等于A_b，k+t_b，k,，其中A_b，k表示工件b在M_k机器上的开始处理时间，一个工件在它最后一个工序完成之后就全部完成，所有的调度目标都取决于所有工件的完成时间；最小化最大完工时间的目标函数对应调度的长度；作业车间调度问题(Job shop scheduling problem,JSSP)的调度函数模型定义为：

C_max＝min max{C_b，k} (1)

其中，b＝1,2……n；k＝1,2……，m；

C_bk-t_bk+M(1-y_bhk)≥C_bh (2)

其中，M是一个极大值，b＝1,2……n；h,k＝1,2……，m；C_bk表示工件b在M_k机器上的实际完成时间；t_b，k表示工件b在机器M_k上的处理时间；C_bh表示工件b在M_h机器上的实际完成时间；y_bhk表示条件函数如(4),若工件b在机器h上加工先于机器k，y_bhk等于1，否则等于0.

C_ak-C_bk+M(1-x_bak)≥t_ak (3)

其中，M是一个极大值，a,b＝1,2……n；k＝1,2……，m；C_ak表示工件a在M_k机器上的实际完成时间,C_bk表示工件b在M_k机器上的实际完成时间；t_a，k表示工件a在机器M_k上的处理时间；x_bhk表示条件函数如(5),若工件b先于工件a在机器k上加工,x_bhk等于1，否则等于0；

式(1)是使所有工件完成时间最小的总目标函数；公式(2)-(3)是调度过程的约束条件；公式(2)表示工件b在机器h上先于机器k处理，公式(3)表示工件b在机器k上加工先于工件a。

(2)在近端策略优化算法引入优化策略和异步更新机制后形成直接高效探索和异步更新近端策略优化算法；

(3)将图神经网络与原始状态信息的分层非线性细化相结合，并基于步骤(2)直接高效探索和异步更新近端策略优化算法，给出一种端到端的深度强化学习方法；

(4)基于步骤(3)端到端的深度强化学习方法对步骤(1)作业车间进行自适应调度决策。

动作策略采用新型探索策略

步骤(2.4)中采用如下损失函数

其中，

其中x_i，y_i分别表示目标值与预测值，在误差接近0的区域使用目标值和预测值之差的平方的平均值，在误差远离0的区域使用目标值和预测值之差的绝对值的平均值。

A网络和C网络均采用激活函数

f(x)＝x.sigmoid(βx) (10)

其中，x是网络的输入，f(x)是网络非线性变化后的输出，β是可训练参数。

A网络和C网络更新采用异步更新机制：K＝2表示在C网络更细2次后A网络更新1次。

本发明的有益效果：与现有技术相比，本发明的效果如下：

1)本发明针对作业车间调度问题，在结合动作优化搜索策略和异步更新机制的近端策略优化算法基础上，提出了一种直接高效探索和异步更新近端策略优化算法；本发明的直接高效探索和异步更新近端策略优化算法具有高级鲁棒性，调度得分比近端策略优化算法提高5.6％，最小完成时间比传统深度Q网络算法降低8.9％。实验结果证明了所提出的自适应调度策略的有效性和通用性；

2)动作策略借鉴基于值确定性策略中的ε-greedy策略，选择动作概率高的动作作为最佳动作，如式(8)所示。该方法减少了无意义的搜索，增强了搜索方向和小尺度遍历。该策略可以更快地学习最优调度策略，更适合车间的动态复杂性、可变性和不确定性；

3)评估了优势函数，并引入了一个延迟策略，形成了C网络和A网络之间的异步更新机制。异步更新机制减少了A网络错误的更新，因为A网络的更新速度比批评网络慢。这样的优点可以避免不必要的重复更新，减少重复更新的累积误差。K为AC网络间的更新延迟系数；

4)使用的光滑损失函数，而不是均方误差损失函数；该损失函数对异常值不敏感，并保证稳定性。在作业车间调度中，空间值的探索不可避免地会出现离群值。由光滑损耗函数生成的模型更适用于复杂制造，具有更好的鲁棒性，能够适应不同的调度情况。为了使模型性能最大化，神经网络采用的激活函数，它可以看作是介于线性函数和Relu函数之间的平滑函数，结合了两者的优点。该激活函数比Relu激活函数有更好的性能。

附图说明

图1为生产调度的马尔科夫链示意图；

图2为基于PPO2的算法流程图；

图3为基于E2APPO的实时调度系统图；

图4为ε-greedy策略和softmax策略的收敛对比图；

图5为不同ε参数的收敛对比图；

图6为不同k系数下的收敛对比图；

图7为E2APPO和GA算法对比图；

图8为E2APPO和GA的性能得分图；

图9为E2APPO对大规模算法的泛化测试图；

图10为E2APPO和基础PPO的调度得分图；

图11为E2APPO和MDQN在训练稳定上的对比图。

具体实施方式

下面结合具体的实施例对本发明进行进一步介绍。

实施例1：如图1-11所示，一种基于深度强化学习的作业车间自适应调度方法，该方法包括以下步骤：

正确的加工顺序和工序调度对车间最大化生产力而言至关重要。作业车间调度问题可以看作是一个序列决策问题。调度的目标是确定每台机器上各个工序的处理顺序和每个工序的开始时间，以最小化最大完工时间。

为了便于建模，为这个问题约定了几个预定的约束。这些约束与现有技术中的方法相同，如下所示：(1)提前知道同一工件不同工序的顺序关系和加工时间；(2)每台机器一次最多只能进行一个操作；(3)每次操作只能在一台机器上进行；(4)任何已经开始的加工都应连续进行，不中断，直至完成；(5)不同工件的工序之间没有顺序约束；(6)所有工件在0时刻到达可用。

(1)构建作业车间调度问题的调度函数模型：设有以n个作业和m台机器，每个作业包括m个不同的工序，在作业车间调度中，n个作业J＝{J₁，J₂……，J_n}必须在m台机器m＝{M₁，M₂……，M_m}上按照预先知道的不同顺序进行处理，设O_k，b表示为工件b第k个工序，每个工序O_k，b都必须在特定的时间段内在特定的机器上执行，工件b在机器M_k上的处理时间用t_b，k标记，t_b，k是预先确定的，工件b在M_k机器上的实际完成时间用C_b，k表示，它等于A_b，k+t_b，k,，其中A_b，k表示工件b在M_k机器上的开始处理时间，一个工件在它最后一个工序完成之后就全部完成，所有的调度目标都取决于所有工件的完成时间；最小化最大完工时间的目标函数对应调度的长度；作业车间调度问题(Job shop schedulingproblem,JSSP)的调度函数模型定义为：

C_max＝min max{C_b，k} (1)

其中，b＝1,2……n；k＝1,2……，m；

C_bk-t_bk+M(1-y_bhk)+C_bh (2)

C_ak-C_bk+M(1-x_bak)≥t_ak (3)

其中，M是一个极大值，a,b＝1,2……n；k＝1,2……，m；C_ak表示工件a在M_k机器上的实际完成时间,C_bk表示工件b在M_k机器上的实际完成时间；t_a，k表示工件a在机器M_k上的处理时间；x_bhk表示条件函数如(5),若工件b先于工件a在机器k上加工,x_bhk等于1，否则等于0.

式(1)是使所有工件完成时间最小的总目标函数；公式(2)-(3)是调度过程的约束条件；公式(2)表示工件b在机器h上先于机器k处理，公式(3)表示工件b在机器k上加工先于工件a。针对这种情况，本发明就是要找出解决调度问题的最佳策略；

采用的算法是改进传统的近端策略优化算法(proximal policy optimizationalgorithm，PPO)来进行车间调度。结合图神经网络形成一种端到端强化学习方法，可以有效提取车间状态特征，帮助智能体(agent)学习更准确的策略。

近端策略优化算法基于典型的AC网络框架，其中A网络用于动作选择，C网络用于评估状态价值函数V(s_t)，以评估演员所做的决定。近端策略优化算法限制了新旧策略的更新范围，以保证其稳定性，使得策略梯度(Policy Gradient，PG)算法对较大的学习率不太敏感。它采用了裁剪函数(clip loss)，将更新程度限制在1-∈和1+∈之间，如式(6)，其中ε为超参数。

A(s_t，a_t)＝∑_t′＞tγ^t′-tr_t′-V(s_t) (7)

优势函数公式(7)定义为状态价值函数V(s_t)与折扣奖励的积分，表示采取行动a_t的额外收益。状态价值函数V(s_t)是负的，因此方差更小；通过应用优化器(Adam)对网络进行训练。

本发明利用智能体(agent)与生产车间交互生成调度数据，如加工时间、机器分配、调度当前流程等。这些数据被收集并存储在缓冲区中。在一个轨迹之后，参与者网络和评论网络使用存储的调度数据来学习经验。利用时间差分(Temporal-difference，TD)误差进行梯度下降更新批评网络，利用策略梯度进行梯度上升更新行动者网络，寻找应对生产状态变化的最佳行动者网络。调度的具体过程如图2所示。

(2)直接高效探索和异步更新近端策略优化算法提出了车间调度环境的马尔可夫决策过程转换，如利用图神经网络提取车间特征、由可选操作组成的行动空间、模型训练过程的奖励设计等，基于近端策略优化算法在离散动作空间中的一致性性能，在近端策略优化算法引入贪婪策略和异步更新方法后形成直接高效探索和异步更新近端策略优化算法，该算法对步骤(1)作业车间进行自适应调度；

直接高效探索和异步更新近端策略优化算法的步骤如下：

(2.1)输入：带训练参数θ的A网络π_θ；带训练参数ω的C网络v_ω，裁剪系数∈，C网络相对于A网络的更新频率倍数K，折扣因子λ，贪婪因子ε；

(2.2)生产环境的马尔科夫过程建模,设计环境状态(s_t)，动作集合(a_t)，奖励值(r_t)；

(2.3)对1-N轮调度训练；对该轮训练中的1-J步；感知状态s_t,基于动作策略选择动作a_t；获得即时奖励r_t和下一状态s_t+1；收集以上的参数{s_t，r_t，a_t}到经验池,判断该轮调度是否完；

(2.4)调度完成后，通过将经验池数据输入C网络，评估该轮训练的优势函数

(2.5)反向传递更新C网络

(2.6)当训练次数是K的整数倍时，按如下公式更新A网络的参数θ，体现AC网络的异步更新

(2.7)将更新后的参数赋值到A网络π_old←π_θ。

第2.2步的作用是利用马尔可夫设计强化学习过程中使用的关键元素{s_t，r_t，a_t}，将在下面的部分中详细介绍。N是轨迹的数量，J是每条轨迹的训练步数。在每个轨迹中，步骤2.3中内容“对1-N轮调度训练；对该轮训练中的1-J步；感知状态s_t,基于优化动作策略选择动作a_t；获得即时奖励r_t和下一状态s_t+1”表示代理与生产环境交互并收集数据。动作策略借鉴Q学习(Q-learning)中的ε-greedy策略，选择动作概率高的作为最佳动作，如式(8)所示。该方法减少了无意义的搜索，增强了搜索方向和小尺度遍历。该策略可以更快地学习最优调度策略，更适合车间的动态复杂性、可变性和不确定性。ε为探索和利用之间的平衡，一般调整在0.5～0.15之间。本发明仿真实验时采用0.1。

在一个轨迹的末端，第2.4步，将前三步智能体与环境交互而收集的参数输入C网络，评估了优势函数

并在2.6步引入了一个延迟策略，当更新步数是K的整数倍时，更新A网络，形成了A网络和C网络之间的异步更新机制。异步更新机制减少了错误的更新，因为参与者的更新速度比批评网络慢。这样的优点可以避免不必要的重复更新，减少重复更新的累积误差。K为行动者更新延迟系数，其最优值为训练实验中的2。与大多数算法不同，本发明使用的是光滑损失函数如式(9)，而不是均方误差损失函数。该损失函数对异常值不敏感，并保证稳定性。在作业车间调度中，空间值的探索不可避免地会出现离群值。由光滑损耗函数生成的模型更适用于复杂制造，具有更好的鲁棒性，能够适应不同的调度情况；采用的光滑损失函数：

其中,

为了使模型性能最大化，本发明的神经网络采用了如式(10)所示的激活函数，它可以看作是介于线性函数和Relu函数之间的平滑函数，结合了两者的优点。该激活函数比Relu激活函数有更好的性能。实验中使用了该激活函数，结果表明该方法具有较好的准确性。A网络和C网络的激活函数：

f(x)＝x.sigmoid(βx) (10)

where,βis a trainable parameter

其中x是网络的输入，f(x)是网络非线性变化后的输出，β是可训练参数。

(3)在近端策略优化算法引入优化策略和异步更新机制后形成直接高效探索和异步更新近端策略优化算法；

(4)将图神经网络与原始状态信息的分层非线性细化相结合，并基于步骤(2)直接高效探索和异步更新近端策略优化算法，给出一种端到端的深度强化学习方法；

(5)基于步骤(4)端到端的深度强化学习方法对步骤(1)作业车间进行自适应调度决策。

作业车间的马尔可夫过程建模如下：

强化学习应用智能体(agent)与环境进行连续的交互。智能体(agent)通过与环境的交互，获得状态和行为之间的映射，并学习最佳策略，使累积回报最大化。基本的强化学习任务通常转化为马尔可夫决策过程(Markov decision process,MDP)。马尔可夫决策过程(Markov decision process,MDP)框架用5元组<S,a,P,r(S,a)，γ来描述环境，S表示环境状态的集合，A表示智能体(agent)可以执行的行动集合，P是状态转换的概率，表示从先前状态转换到当前状态的概率。回报r(s_t,a_t)代表在状态S_t∈S.下采取动作a_t∈A的奖励。马尔科夫最重要的特性是，下一个状态与过去的状态无关，而只与当前的状态相关。

作业车间调度很适合转化为马尔可夫决策过程。智能体(agent)观察车间调度状态，选择动作，操作完成后立即获得奖励，然后将累积奖励最大化，学习最优调度策略。作业车间调度的马尔可夫模型具有以下几个关键要素。

(1)基于图神经网络(Graph Neural Networks，GNN)方法的作业车间状态特征提取

车间调度状态可以用选取图表示，选取图提供了一个综合的视图，包括每台机器上的加工时间、预约束序列。国家在车间调度的决策点表示为一个析取图G＝(N,A,E),节点N描述全部工件所有工序的集合,包括开始和结束虚拟节点，N＝O∪{O_s，O_e}＝{O_s，O_1，1，...，O_1，v1...，O_n，1...O_n，vn，O_e}；连接弧集A表示同一工件的所有工序的集合，对于每个节点A包含有向边O(j,k)→O(j,k+1)；析取集合E反映了无向弧，每一弧连接一对需要同一台机器进行处理的工序。因此，为作业调度实例寻找解决方案与确定每个分离点的方向是一样的，从而产生有向无环图(DAG)。在析取图中最小化最长路径恰好是最大完工时间最小化的最优解。

基于图神经网络(Graph Neural Networks，GNN)方法是提取析取图特征，并作为输入又更新析取图的有效方法。基于空间域的方法通过邻域采样、目标节点与邻域节点之间的相关性计算、接收到的消息聚合单个向量来表示车间状态获取特征。以G＝(N,A,E)为例，使用图神经网络(Graph Neural Networks，GNN)对每个节点进行迭代以获得多维嵌入，第k次迭代的更新方程描述为公式(11)。单一启发式规则仅根据单个属性作为调度序列的基础。它只考虑了局部信息，在不同的情况下会产生不同的调度性能。相比之下，图神经网络(Graph Neural Networks，GNN)方法提取的特征是基于原始数据的，可以更好地表达当前状态，避免了人为特征的不足。

式中，σ为非线性，W为权矩阵，h为节点特征，k为深度，邻域函数N。

(2)作业车间中智能体的动作空间建模

A表示在每个调度点上可以选择的动作集合。在车间调度领域中，动作空间一般是指可以执行的操作或启发式规则。此外，还有一些不同的形式，如设备设置和参数选择。在本发明中，将工序设计为动作空间。选择O_t∈A_t作为决策步骤t的动作，假设每个工件在t时刻只能有一个可加工工序，那么动作集的大小等于工件的数量，随着工件的完成而减小。

(3)作业车间中智能体执行动作的奖励建模

奖励函数本质上是为了引导智能体(agent)获得最大的累积奖励。我们的代理目标是在最优调度策略下最小化最大完工时间C_max。C_max是所有作业的最大完成时间，与整个进度表的范围相同。奖励函数定义为公式(12)，其中r(a_t,s_t)表示智能体在执行动作a_t后得到的奖励值，也是状态s_t与状态s_(t+1)之间的值差，最大化即时奖励的累积与最小化完成时间的效果一致。奖励设计是生产调度成功的关键，本发明将完工时间作为生产调度中最关键的因素。

r(a_t，s_t)＝T(s_t)-T(s_t+1) (12)

其中，T(s_t)表示s_t状态下的完成时间，T(s_t+1)表示下一状态的完成时间。

实例仿真：建立了一个实时调度系统来验证算法的性能，并在系统下进行了算法测试和比较。首先建立了具有深度强化学习算法模型的实时调度系统，以增强生产车间的即时调度能力。训练和测试过程的参数优化和设置将在后面介绍。然后，将提出的直接高效探索和异步更新近端策略优化算法与经典启发式算法以及其他可信调度规则的性能进行了比较。为了进一步验证所提出的自适应调度策略的优势，还将直接高效探索和异步更新近端策略优化算法与其他两种采用强化学习训练的方法进行了比较。对比实验结果验证了所提出的自适应调度策略的有效性和通用性。

基于该方法的作业车间实时调度系统：实时性是基于深度强化学习的车间生产调度系统与传统调度算法的显著区别。我们的目的不仅是开发一个适用于小型实例的高级解决方案，而且还需要找到一个解决方案，该解决方案可以快速地在大规模的最佳情况下获得近似的解决方案。本发明提出的系统如图3所示。一方面，系统可以利用历史数据或仿真数据来描述作业车间的状态，并提前对模型进行离线训练，然后将训练好的模型存储起来供以后使用。另一方面，系统可以通过车间实时传感技术或物联网技术来评估作业车间的当前状态，然后选择训练良好的模型进行实时调度。同时，训练后的模型对于调度不同大小的实例具有较强的泛化能力，避免了再训练的时间消耗，与传统方法相比，具有实时调度性能。

实验参数：培训过程在上述调度系统下进行；在1-99范围内随机生成各种大小的训练实例的工序加工时间和机器任务分配。实验表明，10000次训练轨迹后可以达到收敛。提议的直接高效探索和异步更新近端策略优化算法运行在具有Intel酷睿i7-6700@4.0GHzCPU、GEFORCE RTX 2080Ti GPU和8gb RAM的计算机上。表1显示了训练过程的参数。在每一轮的训练中随机生成新的实例，提高了直接高效探索和异步更新近端策略优化算法在训练过程中的通用性，类似于复杂的制造环境。在每个训练阶段之后，在一个验证实例上测试训练过的直接高效探索和异步更新近端策略优化算法，以评估训练过的模型的有效性。

表1算法在训练中的参数设置

参数名称	值
		训练次数	10000
记忆池容量	1e6
		裁剪系数∈	0.2
创新探索策略参数ε	0.05-0.15
		学习率lr	2e-5
延迟系数K	2
		折扣因子γ	1
GAE参数λ	0.98
		优化器	Adam

创新探索策略集中了随机策略和确定性策略的优点。与确定性策略相比，创新探索策略可以避免陷入局部最优；另一方面，与随机策略相比，创新探索策略具有更精确的勘探方向，防止无意义的勘探和消费。图4为创新探索策略和softmax策略在训练过程中的收敛情况。创新探索策略的奖励曲线基本高于其他策略，说明创新探索策略的累计奖励值大于softmax。创新探索策略的性能优于Softmax策略在过程中寻找行动空间。

参数ε为空间探索与开发的平衡，如图5所示。ε-贪婪参数ε为勘探概率，在0.05～0.15范围内得到优化，ε＝1为随机作用。实验结果表明，除ε＝1外，在ε＝1范围内，奖励曲线有逐渐增大的趋势。在大约3000回合后，ε＝0.1曲线已经到达顶部，而在后面的章节中，ε＝0.15的奖励值将会下降。其原因可能是ε的增加，导致开发不足。通过训练过程的比较，得出ε的最优值为0.1。

在延迟更新机制中，参数K表示行动者网络相对于批评网络的延迟更新频率。从1-3中选取K倍数的最佳值。为了更好地显示在不同系数K下的收敛性，本实验的训练次数扩大到16000次。如图6所示，K＝1和K＝2时的收敛曲线始终较高。K＝1在训练阶段开始时处于较高水平，但在后期，由于在批评家不确定的情况下，演员的更新频繁，导致K＝2曲线以下。可以得出，系数K＝2的异步更新策略相对于K＝1而言，使整个训练稳定下来，并在训练后期收敛到最高点。

性能指标和测试数据集：对于本发明，目标是找到一个调度方案，使最大完工时间最小化。为了对各种调度方法进行综合评价，如式(13)所示，性能评分代表了不同方法得到的最小makespan与最优方案(OR-Tools)之间的差距。表现分数越高，说明该方法越有效。

性能分数＝(1-(T_i-T_best)/T_best)*100％ (13)

式中T_i为不同方法的完成时间，T_best为OR-Tools解决方案的完成时间。本发明中使用的两个基准数据集是众所周知的公共作业车间调度问题(Job shop schedulingproblem,JSSP)数据集和生成的实例；从公共基准中选取了近90个案例。其中，中小规模的例子来源于FT、LA和ORB。从DMU数据集中选取大规模的例子与文献“C.-C.Lin,D.-J.Deng,Y.-L.Chih,and H.-T.Chiu(2019)Smart Manufacturing Scheduling With EdgeComputing Using Multiclass Deep Q Network.IEEE Trans.Ind.Informatics 15(7):4276–4284”进行比较。采用文献“C.Zhang,W.Song,Z.Cao,J.Zhang,P.S.Tan,and C.Xu(2020)Learning to Dispatch for Job Shop Scheduling via Deep ReinforcementLearning.NeurIPS 1:1–17”中生成的相同实例，以便与其中的算法进行比较。

结果与讨论：

与启发式算法的比较：为了证明本发明提出的直接高效探索和异步更新近端策略优化算法相对于启发式算法的优越性，将其与文献“Y.Zhan and C.Qiu(2008)Geneticalgorithm application to the hybrid flow shop scheduling problem.Proc.IEEEInt.Conf.Mechatronics Autom.ICMA2008”中的遗传算法(GA)进行了比较。选择了几个常用的高性能优先级规则来比较文献“V.Sels,N.Gheysen,and M.Vanhoucke(2012)Acomparison of priority rules for the job shop scheduling problem underdifferent flow time-and tardiness-related objectivefunctions.Int.J.Prod.Res.50(5):4255–4270”。遗传算法对于解决JSSP问题具有良好的性能；缺点是它需要在遇到不同的作业车间调度问题(Job shop scheduling problem,JSSP)实例时进行解决，并且再次花费大量时间。

对于15*15的尺度，选择了25个例子与遗传算法(GA)进行比较。如图7所示，本发明方法在15种情况下优于遗传算法，在5种情况下等于遗传算法，在其余5种情况下略低于遗传算法。由以上结果并结合图8可以看出，直接高效探索和异步更新近端策略优化算法与遗传算法(GA)相比在质量上并没有绝对优势。直接高效探索和异步更新近端策略优化算法的主要优点是可以在不同大小的情况下获得近似优秀的结果，而无需重新训练，在大尺寸的实例中具有明显的优势。

对比的优先规则如下所示。

最短处理时间(SPT)：选择处理时间最短的下一个操作；

先进先出规则FIFO(First In First Out):选择最早到达的作业的下一个操作。

最长处理时间(LPT):选择下一个处理时间最长的操作

MOPR(Most Operation Remaining):剩余操作最多的作业先处理。

大部分剩余工作(MWKR):最高优先级给予属于该工作的操作，该操作需要完成的总处理时间。

流程截止日期与大部分剩余工作的最小比例(FDD):截止日期越早的任务优先级越高。

表2优先规则与E2APPO在不同算例下的求解

调度规则与直接高效探索和异步更新近端策略优化算法的比较如表2所示。在25个测试算例中，直接高效探索和异步更新近端策略优化算法在18个案例中优于规则的调度解，有72％的超过率，说明直接高效探索和异步更新近端策略优化算法优于规则调度。为了证明直接高效探索和异步更新近端策略优化算法在泛化能力方面的优势，从benchmark中选取70个大规模算例，对训练良好的30*20尺度模型进行泛化性测试，并将结果的平均值与已知的规则进行比较。如图9所示，直接高效探索和异步更新近端策略优化算法的曲线始终在左下角。与已知规则相比，30*20模型还可以快速求解相似尺度的最优值。直接高效探索和异步更新近端策略优化算法具有较强的泛化能力和自适应性能，更适合复杂和不确定的生产环境。

与现有强化学习(reinforcement learning，RL)调度算法的比较：为了进一步确认直接高效探索和异步更新近端策略优化算法，E2APPO)相对于传统强化学习算法的优势，选择基本近端策略优化算法(proximal policy optimization algorithm，PPO)和深度Q网络算法(deep Q-network,DQN)算法进行比较。首先可以观察到，本发明提出的调度算法可以进一步提高基本近端策略优化算法(proximal policy optimization algorithm，PPO)的性能，在大多数情况下获得更高的调度得分，如图10所示。特别是对于30*20实例，调度分数提高了5.6％，体现了异步更新和策略的效果。同时，表3给出了几种知名规则、改进的深度Q网络算法(modified deep Q-network,MDQN)和E2APPO算法在DMU数据集上的测试结果。最好的值用粗体表示；与改进的深度Q网络算法(modified deep Q-network,MDQN)相比，所有实例的完成时间均显著减少，平均减少8.9％。每个实例的结果及其平均值表明了直接高效探索和异步更新近端策略优化算法的优越性。由图11可以看出，直接高效探索和异步更新近端策略优化算法训练分布均匀，在考虑个体实例结果的稳定性方面具有明显的优势。

表3 MDQN和E2APPO在DMU算例上的对比

仿真结论：针对作业车间调度问题，提出了一种直接高效探索和异步更新近端策略优化算法，该算法采用动态贪婪搜索策略和异步更新机制，以最小化总完成时间。提出的搜索策略提高了搜索效率，避免了不必要的搜索，异步更新机制使参与者网络更新更加稳定。行动者网络根据环境状态自适应地选择当前的操作。基于所提出的直接高效探索和异步更新近端策略优化算法，在实时调度系统中提出了一种自适应调度策略，包括离线训练和在线实现。自适应调度策略提高了对复杂车间环境的适应性。结果表明，训练良好的基于直接高效探索和异步更新近端策略优化算法的模型在不同尺度上具有比启发式算法更好的泛化性能，能够在调度质量和调度速度之间实现最优平衡。

通过对大量的实例进行数值实验，包括众所周知的基准和随机生成的实例作为实际制造的真实再现，验证了所提出的直接高效探索和异步更新近端策略优化算法的优势。通过与启发式算法的比较，验证了直接高效探索和异步更新近端策略优化算法的优越性，特别是在不同尺度下的泛化性能。与现有的强化学习算法相比，直接高效探索和异步更新近端策略优化算法达到了我们的目的。

综上所述，在现代多变复杂的制造业中，传统的调度方法由于响应时间的限制，已经不能满足高效率的要求。为此，在近端策略优化算法(proximal policy optimizationalgorithm，PPO)中设计优化的动作策略和异步更新机制，形成直接高效探索和异步更新近端策略优化算法(explicit exploration and asynchronous update proximal policyoptimization algorithm，E2APPO)，结合了探索方向更明确、训练过程更稳定的优点。基于直接高效探索和异步更新近端策略优化算法(explicit exploration and asynchronousupdate proximal policy optimization algorithm，E2APPO)，将图神经网络与原始状态信息的分层非线性细化相结合，设计了一种端到端的强化学习方法。在此基础上，我们实现了一个自适应调度系统，该系统由两个子系统组成:一是离线系统，对训练好的模型进行提前训练和存储；二是实时调用模型的在线系统。在该系统下，对训练后的直接高效探索和异步更新近端策略优化算法(explicit exploration and asynchronous update proximalpolicy optimization algorithm，E2APPO)进行了广泛的测试，并与遗传算法等启发式算法和优先调度规则以及其他现有的基于强化学习的调度方法进行了比较。与遗传算法相比，有75％的算例得出的解优于或等同于遗传算法。在泛化性的测试中，所有大实例都优于已知的调度规则，体现了直接高效探索和异步更新近端策略优化算法(explicitexploration and asynchronous update proximal policy optimization algorithm，E2APPO)的高级鲁棒性。调度得分比近端策略优化算法(proximal policy optimizationalgorithm，PPO)提高5.6％，最小完成时间比深度Q网络算法(deep Q-network,DQN)降低8.9％。实验结果证明了所提出的自适应调度策略的有效性和通用性。

本发明具有如下优点：(1)通过设计一种动态优化探索策略和异步更新机制，开发了直接高效探索和异步更新近端策略优化算法(explicit exploration andasynchronous update proximal policy optimization algorithm，E2APPO)算法，获得映射状态和动作概率分布的最优操作序列。(2)针对不同的实例状态，特别是不同的实例规模，构建了一种自适应调度方案。(3)建立实时调度系统，实现离线培训和在线执行；该系统能够分配训练有素的模型来应对不可预见的车间环境，以提高调度效率。(4)数值实验结果证明了所提出的直接高效探索和异步更新近端策略优化算法(explicit exploration andasynchronous update proximal policy optimization algorithm，E2APPO)的有效性和通用性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度强化学习的作业车间自适应调度方法，其特征在于：该方法包括以下步骤：

(1)构建作业车间调度问题的调度函数模型：设有以n个作业和m台机器，每个作业包括m个不同的工序，在作业车间调度中，n个作业J＝{J₁，J₂......，J_n}必须在m台机器m＝{M₁，M₂……，M_m}上按照预先知道的不同顺序进行处理，设O_k，b表示为工件b第k个工序，每个工序O_k，b都必须在特定的时间段内在特定的机器上执行，工件b在机器M_k上的处理时间用t_b，k标记，t_b，k是预先确定的，工件b在M_k机器上的实际完成时间用C_b，k表示，它等于A_b，k+t_b，k，，其中A_b，k表示工件b在M_k机器上的开始处理时间，一个工件在它最后一个工序完成之后就全部完成，所有的调度目标都取决于所有工件的完成时间；最小化最大完工时间的目标函数对应调度的长度；作业车间调度问题的调度函数模型定义为：

C_max＝min max{C_b，k} (1)

其中，b＝1，2……n；k＝1，2……，m；

C_bk-t_bk+M(1-y_bhk)≥C_bh (2)

其中，M是一个极大值，b＝1，2……n；h，k＝1，2……，m；C_bk表示工件b在M_k机器上的实际完成时间；t_b，k表示工件b在机器M_k上的处理时间；C_bh表示工件b在M_h机器上的实际完成时间；y_bhk表示条件函数如(4)，若工件b在机器h上加工先于机器k，y_bhk等于1，否则等于0.

C_ak-C_bk+M(1-x_bak)≥t_ak (3)

其中，M是一个极大值，a，b＝1，2……n；k＝1，2……，m；C_ak表示工件a在M_k机器上的实际完成时间，C_bk表示工件b在M_k机器上的实际完成时间；t_a，k表示工件a在机器M_k上的处理时间；x_bhk表示条件函数如(5)，若工件b先于工件a在机器k上加工，x_bhk等于1，否则等于0.