CN114219274A

CN114219274A - 一种基于深度强化学习适应机器状态的车间调度方法

Info

Publication number: CN114219274A
Application number: CN202111517699.5A
Authority: CN
Inventors: 陆宝春; 张哲�; 葛超; 张卫; 孙子昊
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-22

Abstract

本发明公开了一种基于深度强化学习适应机器状态的车间调度方法，该方法基于多智能体Actor Critic的深度强化学习框架，结合机器运行效率值获取单步动作的奖惩值，经验池记录全部工件智能体状态、动作、即时奖励以及各机器的实时效率值，指导Actor网络进行网络参数修正，最终获得考虑机器运载情况下的最优车间调度方案。相比于现有技术，本方法能够快速建立机器故障情况下的调度策略，减少出现机器状态变化时引起的重调度时间，更具有灵活性，符合实际车间生产情况，提高车间生产效率。

Description

一种基于深度强化学习适应机器状态的车间调度方法

技术领域

本发明属于混合流水车间调度领域，特别是一种基于深度强化学习适应机器状态的车间调度方法。

背景技术

混合流水车间调度问题(Hybrid flow-shop scheduling problem，HFSP)是在多任务同时加工、并且存在并行机的情况下根据实际生产情况对生产计划进行合理的调度分配，提升车间生产效率，并被公认是经典的NP-hard问题。调度的主要目标一、确定加工过程中同一批次下的工件的执行顺序，二、为加工过程中毛坯分配加工机器。

上世纪50年代，便开始了对调度技术的研究，在随后的几十年，学者们提出的优化方案如泉水般络绎不绝，对于车间调度的复杂度也逐渐上升。1973年，Salvador首次提出了将车间调度问题与并行机调度问题相结合的混合流水车间调度问题，也使得调度问题上升到了另外的一道台阶。

近年来，机器学习领域里的一个理论强化学习，得到了广泛的重视，但是目前，应用到混合流水车间调度并不多，基于价值的强化学习算法如Q-Learning无法对连续的动作做出即时响应，而基于概率的强化学习算法如Policy Gradients则是基于回合更新，降低了学习效率。集成了值函数估计算法和策略搜索算法的Actor-Critic模型能够有效的统筹学习速度以及单步响应之间的平衡，并被验证解决混合流水车间调度问题的可行性。

对于复杂的流水车间调度问题，由于将强化学习应用于混合流水车间调度问题后，其行为空间为多维离散空间，不适合继续采用基于一维离散行为算法。因此，学者建立基于多agent的Actor-Critic模型，使得工件智能体之间相互影响，能够为求解混合流水车间调度问题提供较优调度方案。

在真实的车间生产环境中难免会出现机器状态不佳，或者并行机中的一台暂时无法参与加工，甚至未来也不再参与加工的情况。传统的多agent的Actor-Critic模型虽然能够保证动态车间调度的高效性及可靠性，但难以对车间机器状态的变化做出实时的响应，不能够结合车间机器状态给出最优的调度方案，降低了实际生产效率。因此让所训练的多agent的Actor-Critic模型能够针对机器的状态做出不同的调度策略有着重要的现实意义和应用价值。

发明内容

本发明的目的在于提供一种基于深度强化学习适应机器状态的车间调度方法，以最小化最大完工时间以及最大化车间利用率为调度目标函数，将实际机器运行状态作为了模型参数值之一，实现能够根据不同的机器状态给出相应的调度方案。

实现本发明目的的技术解决方案为：

一种基于深度强化学习适应机器状态的车间调度方法，包括以下步骤：

步骤1、以混合流水车间调度问题作为研究对象，根据车间存在并行机且机器状态动态变化的生产特征建立目标函数以及约束条件，将原始的组合优化问题转变为工件智能体的连续决策问题，初始化混合流水车间调度模型，初始化工件智能体初始状态s⁰；

步骤2、在一个状态序列中，工件智能体当前状态s^t，基于Softmax策略概率性选择行为a^t，获得奖励r^t并且进入下一个状态s^t+1，所有工件智能体将经验以统一的形式放入到经验池中；经验池记录全部工件智能体以及机器效率值的集合，包括工件智能体在t时刻的状态、所有机器在t时刻的效率值、工件智能体在t时刻做出的行为决策、工件智能体做出行为决策后此次获取到的奖惩值、工件智能体执行动作a^t进入下一时刻后所处的状态；

步骤3、判断当前经验池样本容量D是否达到单批次样本需求数Batch_Size，若达到，进入步骤4；若没有达到，不进行此次学习，进入步骤6。

步骤4、Critic从经验池中提取Batch_Size个数的经验记录，对Critic网络进行训练；根据Critic网络输出价值函数值，计算出的均方损失误差loss对Critic网络参数w的梯度进行更新，输出平均奖励的时序差分误差TD_Error指导Actor进行策略梯度参数修正；

步骤5：Actor基于平均奖励的时序差分误差TD_Error，采用小梯度下降算法更新策略梯度目标网络的参数θ；

步骤6：判断是否终止学习过程：若出现终止信号，任务终止；若没有出现终止信号，返回步骤2，进行下一回合的训练；

步骤7：工件智能体进行下一回合训练任务之前，判断当前训练片段数是否达到最大训练片段数，若达到最大训练片段数，输出工件智能体最优状态序列对应的行为策略组合B，终止任务；若未达到最大训练片段数，则继续执行训练任务，执行步骤2。

本发明与现有技术相比，其显著优点是：

(1)本方法基于多智能体Actor-Critic深度强化学习框架解决机器运行状态动态变化情况下的混合流水车间调度问题，对深度强化学习在解决混合流水车间调度问题领域的应用做出了横向扩充。

(2)相比于现有技术，本方法能够快速建立机器故障情况下的调度策略，减少出现机器状态变化时引起的重调度时间，更具有灵活性，符合实际车间生产情况，提高车间生产效率。

附图说明

图1是本发明基于深度强化学习适应机器状态的车间调度方法的流程图；

图2是Actor Critic深度学习算法原理图；

图3是本发明实施例的10×8×6问题模型最优调度甘特图；

图4是本发明实施例的三号机器效率值在t＝300s时刻变为0时最优调度甘特图；

图5是本发明实施例的训练过程奖惩值变化曲线。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的介绍。

本实施例的一种基于多智能体Actor Critic适应机器状态的车间调度方法，结合多agent技术，建立多智能体Actor-Critic模型并将机器的状态考虑进模型的训练条件中，实现能够根据不同的机器状态进行处理的调度模型，将每一个工件看做为一个工件智能体，具体包括如下步骤：

步骤1、以混合流水车间调度问题作为研究对象，根据车间存在并行机且机器状态动态变化的生产特征建立目标函数以及约束条件，将原始的组合优化问题转变为工件智能体的连续决策问题，初始化混合流水车间调度模型，Critic行为价值函数为Q_w(s，a)，初始化工件智能体初始状态s⁰、最大训练片段数Max_Eqisode、单批次数据大小Batch_Size、奖励折损γ，网络学习速率α等。构建混合流水车间调度环境，以实现与智能体的交互，以期最终获得工件智能体最佳行为策略组合B，进入步骤2。

步骤1中调度系统目标函数为最小化最大加权平均完工时间以及最大化车间利用率，

其中最大完工时间H的目标函数为：

车间利用率γ₁的目标函数为：

具体符号含义如表1所示。最大完工时间是一批工件完成加工的最终时间，是衡量一批工件调度优化程度的重要指标，在实际车间生产中有着重要意义。车间利用率能够有效的结合机器状态因素反映出设备整体的利用情况。

包含的约束条件如下

S_ilk≥E_i′l′k′ (3)

上述为调度模型约束条件，其中式(1)为限制工序只能由一台设备独立加工；式(2)为限制前一道工序结束才能开始下一道的加工；式(3)为限制一个机器不能同时加工多道工序。

表1调度模型中涉及的符号及含义如下表表示所示

步骤2：在一个状态序列中，工件智能体当前状态s^t，基于Softmax策略概率性选择行为a^t，获得奖励r^t并且进入下一个状态s^t+1，所有工件智能体将经验以统一的形式放入到经验池中，单个工件智能体的存储形式为

其中

表示第i个工件智能体在t时刻的状态；

表示在t时刻第k个机器的效率值；

表示第i个工件智能体在t时刻做出的行为决策；

表示第i个工件智能体做出行为决策后此次获取到的奖惩值；

表示第i个工件智能体执行动作a进入下一时刻t+1时刻后所处的状态。经验池记录全部工件智能体以及机器效率值的集合，存储形式为<s^t，sm^t，a^t，r^t，s^t+1，t>，其中s^t代表

即全部工件智能体在t时刻状态的合集，同理a^t，r^t分别代表工件智能体在t时刻的动作及奖励合集，sm^t代表

代表机器在t时刻效率值的合集，进入步骤3。

其中步骤2中将机器效率值信息加入到经验池中，Actor执行动作获得的奖惩情况也和机器状态相关，初步建立机器状态动态变化下混合流水车间调度问题的多智能体Actor-Critic模型，具体方式如下述步骤。

步骤21：采用Softmax策略对于当前每个动作的平均奖励值转换为发生下一个动作的概率。

步骤22：工件智能体会根据计算出的概率值，尝试进行下一步动作，并根据奖惩规则获得本次行为的奖惩值r^t。Critic经验池将记录工件智能体本次状态变化、执行动作、现有机器效率值及获得奖惩值情况。

其中所述步骤22中奖惩规则为：最终设置奖惩规则为：1.工件正常完成某道工序，获得加工该道工序的机器的奖励值，最终奖励值与完成时间相关；2.工件智能体选择了不能对其现有状态进行加工的机器，获得较大的惩罚值，进入缓冲区；3.工件智能体选择机器的奖励值会在原有的基础上乘以机器当前状态的效率值，获得当前机器状态下的最终奖励值；4.工件选择了正在加工状态的机器，则进入缓冲区，并获得对应的惩罚值，惩罚值会随着缓冲时间的延长而变大；5.出现机器智能体无工件加工，随时间的延长获得相应的惩罚值。奖励函数基于机器状态进行重新定义，使得在状态更优的设备上进行加工获取的奖励值更高。

其中r^t为全部工件智能体在t_u-1到t_u决策时刻获得的最终奖惩值；δ_k(t)表示t时刻第k个机器的效率值；其中c为工件等待状态下的惩罚值常量、p为工件智能体选择无法进行加工的机器时的惩罚值常量、q_k为第k个机器出现空闲时的惩罚值常量，取值c＝1、p＝10、q_k＝1，δ_i(t)表示t时刻第i个工件智能体所处的状态；s_k表示第k个机器当前的运行状态，当机器处于空闲状态时取值为-1，工作状态取值为1；r_lk代表在第l道工序上选择第k个机器完成加工所获得的奖励值。

步骤3：判断当前经验池样本容量D是否达到单批次样本需求数Batch_Size，若达到，进入步骤4；若没有达到，不进行此次学习，进入步骤6。

步骤4：Critic从经验池中提取Batch_Size个数的经验记录，依据全部工件智能体的状态、动作、平均奖励以及机器智能体的状态对Critic网络进行训练。根据Critic网络输出价值函数值，计算出的均方损失误差loss对Critic网络参数w的梯度进行缓慢更新，输出平均奖励的时序差分误差TD_Error指导Actor进行策略梯度修正，进入步骤5。

其中所述步骤4中输出平均奖励时序差分误差TD_Error指导Actor网络行为修正，时序差分误差TD_Error基础计算公式为：

TD_Error＝r^t+γ*f(s^t+1)-f(s^t)

其中f(s^t)代表将s^t状态输入到Critic神经网络中得到的Q值，γ为奖励折损值。

其中所述步骤4计算使用均方损失函数loss作Critic网络参数w的梯度更新，均方损失误差为多个工件智能体的目标价值与Critic的神经网络输出价值的权重，其中智能体的目标价值计算分成两种情况：

(1)若工件智能体未达到最后一个状态用下一状态的价值+执行动作

获得的奖励值

此时均方损失误差遵循公式：

(2)若工件智能体达到最后一个状态，当前价值则由执行动作获得的奖励值

确定，此时均方损失误差遵循公式：

其中各参数的含义如表2所示。

表2参数及参数含义

步骤5：Actor基于平均奖励的时序差分误差TD_Error，采用小梯度下降算法更新策略函数的参数θ，进入步骤6。

所述步骤5中Actor获取平均奖励的时序差分误差TD_Error，更新策略梯度参数θ，获得θ更新后的结果θ‘，公式为：

其中α为Actor网络学习率，

为Actor网络的分值函数，采用Softmax函数。为了避免数据样本的随机关联性，对网络参数采用缓慢更新的策略，对θ’进行再次处理，得到此次更新最终的策略梯度参数θ‘’。

θ‘’＝τ_Aθ+(1-τ_A)θ′

其中τ_A为Actor网络更新速度参数。最终网络参数的修正方向与平均奖励的时序差分误差值TD_Error正相关，若TD_Error值大于0，表明本次执行的行为策略向着好的方向发展，使θ的修正方向与平均奖励的时序差分信号方向保持一致，否则则相反。

为了说明本发明的技术方案及技术目的，下面结合附图及具体实施例对本发明做进一步的介绍。

实施例

以木门家具生产车间实际生产情况为例，规模为任务个数为n＝10，每个工件的加工工序数l＝6，车间总机器个数为m＝8，在第三道工序以及第四道工序存在并行机，车间经过上料、四边锯、封边、铰链加工、门锁加工、雕刻六道主要工序，生产模式以流水式生产并存在并行机，符合混合流水车间模型。实施例主要验证多智能体Actor-Critic框架在解决基础混合流水车间问题的同时，结合机器状态动态变化的因素实现机器状态变化情况下的动态调度。在系统开始阶段，初始状态为s⁰。初始参数设置如表3所示。

19.表3模型参数设置

表4为10×8×6车间调度模型。

机器分布情况为{1，2，[3，4]，[5，6]，7，8}。

十个工件从系统时刻0开始至全部任务终止为一个片段，学习过程为8000个片段。工件智能体每行动一次，产生一条经验记录，当经过所有片段训练后，得到最优片段结果甘特图，结束训练。每20个片段记录最小平均加权时间、最小最大完工时间、奖惩值等信息，图3为任务调度甘特图。

当t＝300s时刻车间机器3出现故障，工序3仅机器4可完成当前工序作业任务，任务调度甘特图如图4所示，模型能够对机器状态变化情况下做出重调度响应，得到最优的调度结果。如图5所示为总奖励值训练变化曲线。从图中可以发现，初始阶段行动倾向于探索，获取奖惩值处于较低的水平，大多行为无法完成正常的作业任务。但是随着训练过程的推进，处于等待队列的工件智能体以及工件智能体之间的冲突行为开始减少，错误选择逐渐消失，最后的平均完工时间降低到1040左右、奖励值维持在98左右。实验结果说明工件智能体能够在机器状态发生变化的情况下通过自学习，实现协作生产以扩大总体奖励。验证了本文方法与模型在求解适应机器状态的混合流水车间调度问题上的可行性和有效性。

Claims

1.一种基于深度强化学习适应机器状态的车间调度方法，其特征在于，包括以下步骤：

步骤1：以混合流水车间调度问题作为研究对象，根据车间存在并行机且机器状态动态变化的生产特征建立目标函数以及约束条件，将原始的组合优化问题转变为工件智能体的连续决策问题，初始化混合流水车间调度模型，初始化工件智能体初始状态s⁰；

步骤2：在一个状态序列中，工件智能体当前状态s^t，基于Softmax策略概率性选择行为a^t，获得奖励r^t并且进入下一个状态s^t+1，所有工件智能体将经验以统一的形式放入到经验池中；经验池记录全部工件智能体以及机器效率值的集合，包括工件智能体在t时刻的状态、所有机器在t时刻的效率值、工件智能体在t时刻做出的行为决策、工件智能体做出行为决策后此次获取到的奖惩值、工件智能体执行动作a^t进入下一时刻后所处的状态；

步骤4：Critic从经验池中提取Batch_Size个数的经验记录，对Critic网络进行训练；根据Critic网络输出价值函数值，计算出的均方损失误差loss对Critic网络参数w的梯度进行更新，输出平均奖励的时序差分误差TD_Error指导Actor进行策略梯度修正；

2.根据权利要求1所述的基于深度强化学习适应机器状态的车间调度方法，其特征在于，步骤1中，目标函数为：

(1)基于最大完工时间H的目标函数为：

(2)基于车间利用率γ₁的目标函数为：

约束条件为：

(1)限制工序只能由一台设备独立加工：

(2)限制前一道工序结束才能开始下一道的加工：

(3)限制一个机器不能同时加工多道工序：

S_ilk≥E_i′l′k′

其中i代表工件的序号，n为总工件数；k代表机器的序号，m为总机器数；l代表工序的序号，其o_i代表第i个工件的总工序数；o_il代表第i个工件的第l道工序；A_il代表可对第i个工件的第l道工序加工的机器集合；S_ilk代表第i个工件在第l道工序选择第k个机器进行加工的开始加工时间；C_i代表第i个工件的完工时间；t_ilk代表第i个工件在第l道工序选择第k个机器进行加工的加工时间；δ_k代表第k个机器当前的加工状态；X_ilk代表第i个工件在第l道工序是否选择第k个机器进行加工；E_i′l′k′代表第k个机器上前一个加工子批任务的结束时间。

3.根据权利要求1所述的一种基于深度强化学习适应机器状态的车间调度方法，其特征在于，所述步骤2过程如下：

步骤21：采用Softmax策略对于当前每个动作的平均奖励值转换为发生下一个动作的概率；

步骤22：工件智能体会根据计算出的概率值，尝试进行下一步动作，并获取到奖惩值；根据奖惩规则获得本次行为的奖惩情况，Critic经验池将记录本次工件智能体状态变化、行为选择、现有机器效率值以及获取的奖惩值情况。

4.根据权利要求3所述的一种基于深度强化学习适应机器状态的车间调度方法，其特征在于，步骤22中奖惩规则的设定为：

(1)工件正常完成某道工序，获得该道工序的奖励值，最终奖励值与完成时间相关；(2)工件智能体选择了不能对其现有状态进行加工的机器，获得相应的惩罚值，进入缓冲区；(3)工件智能体选择机器的奖励值会在原有的基础上乘以机器当前状态的效率值，获得当前机器状态下的最终奖励值；(4)工件选择了正在加工状态的机器，则进入缓冲区，并获得对应的惩罚值，惩罚值会随着缓冲时间的延长而变大；(5)出现机器智能体无工件加工，随时间的延长获得相应的惩罚值。

5.根据权利要求4所述的一种基于深度强化学习适应机器状态的车间调度方法，其特征在于，奖励值的计算公式为：