CN114565247A

CN114565247A - 一种基于深度强化学习的车间调度方法、装置和系统

Info

Publication number: CN114565247A
Application number: CN202210147308.3A
Authority: CN
Inventors: 沈卫明; 赵林林
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-05-31

Abstract

本发明公开了一种基于深度强化学习的车间调度方法、装置和系统，属于作业车间调度领域，所述方法包括：S1：根据车间调度问题的目标函数确定出车间仿真环境；S2：利用深度强化学习DRL智能体与车间仿真环境获取交互三元组<s，a，r>；S3：将多个三元组作为训练数据集训练智能体Actor和智能体Critic；智能体Actor用于选取加工工件，智能体Critic用于评价当前加工状态的期望奖励值；S4：利用执行智能体继承训练后的智能体Actor的网络参数，控制执行智能体在线对车间加工工序中的调度实例进行决策，以确定出下一个待加工工件。本发明为基于数据驱动的科学决策，决策效率高，能够准确为待加工工件分配优先级，同时适用于各种加工场景，兼容性强。

Description

一种基于深度强化学习的车间调度方法、装置和系统

技术领域

本发明属于车间调度领域，更具体地，涉及一种基于深度强化学习的车间调度方法、装置和系统。

背景技术

作业车间调度问题(Job Shop Scheduling Problem，JSSP)是智能制造中典型的调度问题，即通过合理安排工件在各机器上的加工顺序以达到预定的目标函数，比如最小化最大完工时间、最小化拖期等。好的车间调度方法可以帮助企业提高生产效率、资源利用率，因此车间调度问题受到广泛的关注。随着互联网的普及，制造业逐渐转变为多品种小批量的生产模式，客户的线上订单逐渐占据了一些企业的业务核心。这类调度问题也被称为在线调度问题，因其固有的不确定性和复杂性使得传统的静态调度方法难以适用。

而目前应用比较广泛的动态在线调度方法是启发式规则方法，其关键在于为待加工工件分配优先级。但是启发式规则不具有泛化性，不同的启发式规则是适用于特定的加工场景。而且，启发式规则具有短视性，即调度结果会随着决策步数的增加远远差于最优解。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度强化学习的车间调度方法、装置和系统，其目的在于，通过智能体与加工环境交互得到训练数据，利用近端策略优化算法和训练数据对智能体进行训练；再控制执行智能体直接继承离线训练中智能体的调度知识，从而对加工环境新的调度实例进行决策；由此解决现有作业车间的动态在线调度方法效率低、兼容性差的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度强化学习的车间调度方法，包括：

S1：根据车间调度问题的目标函数确定出车间仿真环境；其中，所述车间仿真环境以每台机器对应的当前加工工序结束和新工件到达为动态事件，触发实施调度策略以从待加工工件中选取一个加工工件；当一个加工工件的所有工序被选择完后将其移除所述车间仿真环境，直到所有工件均被移除，从而完成车间调度过程；

S2：利用深度强化学习DRL智能体与所述车间仿真环境获取交互三元组<s，a，r>；s为当前加工状态，a为所述DRL智能体针对所述当前加工状态s做出加工动作，r为所述车间仿真环境针对所述加工动作a反馈的奖励；

S3：将多个所述三元组<s，a，r>作为训练数据集训练智能体Actor和智能体Critic；所述智能体Actor和所述智能体Critic均基于深度强化学习算法架构；所述智能体Actor用于选取加工工件，所述智能体Critic用于评价当前加工状态的期望奖励值；

S4：利用执行智能体继承训练后的智能体Actor的网络参数，控制所述执行智能体在线对车间加工工序中的调度实例进行决策，以确定出下一个待加工工件。

在其中一个实施例中，Actor的损失函数和Critic的损失函数的表达式为：

L_critic(s,a,θ)＝mse(A^pθ(s,a))；

其中，θ和θ_k分别指构成新旧策略对应神经网络的网络权重，新策略为当前时刻对应的神经网络参数，旧策略为当前时刻之前若干迭代步数对应的神经网络参数，

是优势函数，

s_t为t时刻加工状态，a为t时刻加工动作，r_t为t时刻反馈的奖励，γ是折扣因子，Vθ(st)是Critic输出的期望奖励值；r(θ)为新策略对应神经网络的输出结果p_θ(a|s)和旧策略对应神经网络的输出结果p_θk(a|s)的比值，用于描述新旧策略的变化，并采用Clip裁剪函数限制r(θ)的变动量，ε为超参数，Critic的损失函数采用均方误差mse优化预测的期望奖励值和真实奖励值的差值。

在其中一个实施例中，离线训练的损失函数为：

L_PPO＝L_actor-c₁L_critic+c₂S[p_θ](s)；

其中，L_actor为Actor的损失函数，L_critic是Critic的损失函数，c₁，c₂是常数系数，S[p_θ](s)交叉熵，p_θ是网络学习到的策略，即网络参数。

在其中一个实施例中，所述智能体Actor和所述智能体Critic均基于近端策略优化算法架构。

在其中一个实施例中，所述智能体Actor的网络结构包括Transformer结构；

所述Transformer结构包括：若干个相互串联的相同的注意力层；其输入为以单个工件信息为单位的工件序列，输出为下一加工工件在所述工件序列中的位置，以为输入的各个工件分配注意力，即确定出各个工件被选择的优先级。

在其中一个实施例中，所述为输入的各个工件分配注意力的过程包括：

将所述Transformer结构针对第j个工件J_i的输出e_j输入注意力机制u_j＝v^T tanh(We_j+d)，a_j＝softmax(u_j),j∈(1,···,n)，进而得到注意力向量

W，v，d是在此次训练中进行学习的网络参数；

将e_j和d'通过Act_Net机制防止信息退化，则各个工件的注意力分配表示为：

u_j＝q^Ttanh(W₁e_j+W₂d'),j∈(1,···,n)；

P＝softmax(u)；

W₁，W₂，q是在此次训练中进行学习的网络参数，u即输入的各个工件的注意力分配；再通过softmax函数进行注意力归一化得到注意力分布P。

在其中一个实施例中，所述S4包括：

利用执行智能体继承训练后的智能体Actor的网络参数；

控制所述执行智能体根据所述注意力分布P对应的argmax(P)在线对车间加工工序中的调度实例进行决策，确定出下一个待加工工件。

按照本发明的另一方面，提供了一种基于深度强化学习的车间调度装置，包括：

初始化模块，用于根据车间调度问题的目标函数确定出车间仿真环境；其中，所述车间仿真环境以每台机器对应的当前加工工序结束和新工件到达为动态事件，触发调度策略以从待加工工件中选取一个加工工件；当一个加工工件的所有工序被选择完后将其移除所述车间仿真环境，直到所有工件均被移除从而完成车间调度过程；

构建模块，用于利用深度强化学习DRL智能体与所述车间仿真环境获取交互三元组<s，a，r>；s为当前加工状态，a为所述DRL智能体针对所述当前加工状态s做出加工动作，r为所述车间仿真环境针对所述加工动作a反馈的奖励；

训练模块，用于多个所述三元组<s，a，r>作为训练数据集训练智能体Actor和智能体Critic；所述智能体Actor和所述智能体Critic均基于深度强化学习算法架构；所述智能体Actor用于选取加工工件，所述智能体Critic用于评价当前加工状态的期望奖励值；

调度模块，用于利用执行智能体继承训练后的智能体Actor的网络参数，控制所述执行智能体在线对车间加工工序中的调度实例进行决策，以确定出下一个待加工工件。

按照本发明的另一方面，提供了一种基于深度强化学习的车间调度系统，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述车间调度方法的步骤。

按照本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述车间调度方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

第一、本发明公开了基于深度强化学习的车间调度方法包括模拟加工环境、离线训练和在线应用三部分组成，离线训练中的深度强化学习智能体通过与环境交互得到训练数据，并通过基于策略的近端策略优化算法训练智能体从交互得到的训练数据学习调度知识；在线应用中的执行智能体直接继承离线训练中的智能体的调度知识，并对来自于加工环境的新调度实例进行快速在线决策。基于深度强化学习的调度方法实现了基于数据驱动的科学决策，决策效率高，能够准确为待加工工件分配优先级，同时适用于各种加工场景，兼容性强，在工业互联网时代有着巨大的应用前景。

第二、设计了基于Transformer和注意力机制的动作网络，该网络的输出可以直接指向下一加工工件，其对应于输入工件序列中该工件的位置。

附图说明

图1为本发明一实施例中基于深度强化学习的车间调度方法的流程图；

图2为本发明一实施例中基于深度强化学习的车间调度方法的框架示意图；

图3为本发明一实施例中Transformer的单层内部结构图；

图4为本发明一实施例中基于Transformer结构和注意力机制选择工件的Actor网络示意图；

图5为关于图3选出的工件进行评价的智能体Critic的网络结构图；

图6为本发明一实施例中基于深度强化学习的车间调度方法中S4的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

深度强化学习(Deep Reinforcement Learning，DRL)在强化学习的基础上加入神经网络去近似求解值函数，使强化学习可以解决大规模以及连续状态空间的问题。DRL是一种不需要建立数学模型仅通过与环境交互进行问题求解的一种方法。DRL可以看作为一个智能体Agent，与环境交互的过程可以定义为一个三元组。Agent根据从环境中观测到的状态S做出动作A，然后环境反馈一个奖励值R去评价动作的好坏，Agent根据得到的奖励值R去调整自己的策略，从而可以在未来的决策中收获更大的奖励值。目前，DRL方法可以分为两类：基于值的DRL和基于策略的DRL。基于值得DRL更侧重当前决策的好坏，基于策略的DRL则是从一轮的总奖励值去进行优化，更有助智能体学习全局性能。

如图1所示，本发明提供一种基于深度强化学习的车间调度方法，包括：

S1：根据车间调度问题的目标函数确定出车间仿真环境；其中，所述车间仿真环境以每台机器对应的当前加工工序结束和新工件到达为动态事件，触发实施调度策略以从待加工工件中选取一个加工工件；当一个加工工件的所有工序被选择完后将其移除所述车间仿真环境，直到所有工件均被移除，从而完成车间调度过程。

S2：利用深度强化学习DRL智能体与所述车间仿真环境获取交互三元组<s，a，r>；s为当前加工状态，a为所述DRL智能体针对所述当前加工状态s做出加工动作，r为所述车间仿真环境针对所述加工动作a反馈的奖励。

具体的，本发明中的加工环境是通过仿真建立的，<s，a，r>是加工环境和DRL智能体进行交互的三元组，智能体通过从仿真环境中观测当前的加工状态s，做出动作a，所作的动作会改变当前的加工状态，加工环境的状态矩阵也会相应的转移到下一状态矩阵，加工环境会反馈一个奖励r来评价智能体所作的动作，奖励是智能体调整以后调度策略的依据。该仿真加工环境以每台机器上当前加工工序加工完成和新工件到达为动态事件，触发智能体进行调度，从待加工工件中选取即将要加工的工件，当一个工件的所有工序被选择完后，将该工件移除加工环境，直到所有的工件被移除加工环境，即没有待加工工件在车间环境时，整个调度过程完成。

S3：将多个所述三元组<s，a，r>作为训练数据集训练智能体Actor和智能体Critic；所述智能体Actor和所述智能体Critic均基于深度强化学习算法架构；所述智能体Actor用于选取加工工件，所述智能体Critic用于评价当前加工状态的期望奖励值。

具体的，本发明中采用的深度强化学习(Deep Reinforcement Learning，DRL)算法为近端策略优化算法(Proximal Policy Optimization，PPO)，PPO是基于策略的DRL算法，其主旨在于训练智能体学习一轮中总奖励最大的调度策略。PPO是基于Actor和Critic架构的，因此需要训练两个智能体:Actor和Critic，Actor的作用是选取下一加工工件，Critic的作用是评价当前加工状态的期望奖励值。

L_critic(s,a,θ)＝mse(A^pθ(s,a))；

是优势函数，

s_t为t时刻加工状态，a为t时刻加工动作，r_t为t时刻反馈的奖励，γ是折扣因子，V^θ(s_t)是Critic输出的期望奖励值；r(θ)为新策略对应神经网络的输出结果p_θ(a|s)和旧策略对应神经网络的输出结果p_θk(a|s)的比值，用于描述新旧策略的变化，并采用Clip裁剪函数限制r(θ)的变动量，ε为超参数，Critic的损失函数采用均方误差mse优化预测的期望奖励值和真实奖励值的差值。

在其中一个实施例中，离线训练的损失函数为：

L_PPO＝L_actor-c₁L_critic+c₂S[p_θ](s)；

其中，L_actor为Actor的损失函数，L_critic是Critic的损失函数，c₁，c₂是常数系数，S[p_θ](s)是交叉熵，用来衡量新旧策略分布的差异性，p_θ是网络学习到的策略，即网络参数。

具体的，Actor和Critic的损失函数定义如下：

L_critic(s,a,θ)＝mse(A^pθ(s,a))

L_PPO＝L_actor-c₁L_critic+c₂S[p_θ](s)

L_actor是Actor的损失函数，L_critic是Critic的损失函数，S[p_θ](s)是交叉熵，

是优势函数，

V^θ(s_t)是Critic输出的期望奖励值，γ是折扣因子，用来把未来的奖励折扣到当下的奖励。优势函数可以反映从当前动作获得的奖励值相对于平均期望奖励的优势。ε是一个非常小的超参数，是为了限制r(θ)的变动量，

是新旧策略的比值，用来描述新旧策略的变化。c₁，c₂是常数系数，S是交叉熵。当Actor和Critic网络共享网络参数的时候，可以采用一个损失函数进行训练，损失函数形式见L_PPO。定义好网络的损失函数之将执行梯度上升去优化调度策略。

本发明中Actor的动作空间设计为输入的待加工工件，因此，网络的输入是以单个工件信息为单位的工件序列，输出则是对应输入中下一加工工件在输入序列中的位置。在本方法中，Transformer被用来处理以工件为单位的序列输入，从而提取整个当前加工环境的特征。Transformer结构是由若干个相同的注意力层串联组成，单个的注意力层的网络结构如图3所示，单层注意力网络由两个子层串联组成，依次是多头注意力层和前馈神经网络层，每个子层的连接正则化对输出进行处理，并通过残差连接两个子层。Transformer的输出将经过注意力机制(Attention Mechanism，AM)，从而为输入的各个工件分配注意力，即每个工件被选择的优先级。AM分配注意力的过程如下：

u_j＝v^Ttanh(We_j+d),j∈(1,···,n)

a_j＝softmax(u_j),j∈(1,···,n)

e_j是Transformer对应工件J_i的输出，W，v，d是可以在训练中进行学习的网络参数，d'是注意力向量，辅助接下来的机制计算注意力，接下来的机制采用Act_Net表示：

u_j＝v^Ttanh(W₁e_j+W₂d'),j∈(1,···,n)

P＝softmax(u)

u即输入的各个工件的注意力分配，最后通过softmax函数讲注意力归一化。离线训练的智能体根据计算的注意力分布P进行采样对策略进行探索，在线训练中的智能体根据argmax(P)选出下一加工的工件。

将所述Transformer结构针对第j个工件J_i的输出e_j输入注意力机制u_j＝v^Ttanh(We_j+d)，a_j＝softmax(u_j),j∈(1,···,n)，进而得到注意力向量

W，v，d是在此次训练中进行学习的网络参数；

u_j＝q^Ttanh(W₁e_j+W₂d'),j∈(1,···,n)；

P＝softmax(u)；

W₁，W₂，q在此次训练中进行学习的网络参数，u即输入的各个工件的注意力分配；再通过softmax函数进行注意力归一化得到注意力分布P。

在其中一个实施例中，所述S4包括：

利用执行智能体继承训练后的智能体Actor的网络参数；

下文对本发明提供的车间在线调度方法解决最小化总拖期问题进行描述，需要说明的是，最小化总拖期问题是在线调度的经典问题，但本发明不仅限于解决最小化总拖期的问题，本发明是为解决在线调度问题提出了一个通用的框架。下面将结合最小化总拖期问题详细讲述一下本方法的实施过程，其他调度问题可以根据需要解决的目标函数改变加工环境中的状态矩阵和奖励函数，即可学习到相应的调度策略。整个框架如附图2所示。针对作业车间在线调度的最小化总拖期问题，具体的实施步骤如下：

(1)对以总拖期最小为目标函数的动态在线作业车间调度问题进行描述。作业车间在线调度可以描述为：有n个连续到来的工件J＝{J₁,J₂,···,J_i,···J_n}被安在m台机器M＝{M₁,M₂,···,M_i,···M_m}上进行加工，每个工件有m个工序J_i＝{O_i1,O_i2,···,O_ii,···O_im}。工序O_i,j的加工时间p_i,j和被分配的加工机器m_i,j在工件J_i到达后才确定。作业车间调度问题需要满足如下约束和假设：

1)同一个工件的所有工序有一个固定的加工顺序，只有在前一道工序加工完成后才能进行下一道工序的加工，不同工件的工序没有加工顺序约束；

2)一台机器一次只能加工一道工序，只有在当前工序加工完成后才能开始下一道工序的加工；

3)机器故障、资源短缺、工件运输时间等不进行考虑。

为了更符合当前的生产制造模式，本发明以总拖期为目标函数，定义如下：

c_i,j是工序O_i,j的完工时间，A_i是工件J_i到达车间的时间，D_i是工件J_i的交货日期。DDT在某种程度上代表的工件的紧急程度，DDT越小，工件约紧急。

(2)建立作业车间的仿真加工环境，加工环境可以用矩阵进行描述，即状态矩阵。DRL智能体可以根据当前观测到的状态矩阵进行决策，加工环境的状态矩阵也会根据决策转移到下一状态。因为本发明解决的是最小拖期问题，所以观测到的状态需要包括两部分，一是可以反应当前待加工工件的加工信息的特征，包括加工时间和被分配的机器；二是可以放映当前待加工工件关于延期情况的特征。本发明设计以每个工件为网络的输入单元，所有工件的信息即反映当前加工环境的状态。为此，本发明为每个工件设计了5个特征，表示为：

特征P_i，M_i是代加工工件的加工信息，分别是加工时间和加工机器。RST_i是机器允许的可开始加工时间，反映的已加工完的工件信息。特征RJT_i，RD_i分别表示工件下一工序允许的相对可开始加工时间和工件的相对交货期，反映了工件的延期情况。

基于上述的工件特征设计，在t时刻网络的输入为：

即当前有n个待加工工件。

(3)设计DRL智能体的动作A。图3显示了单层注意力层的结构。图4中Transformer部分是三层串联的相同的注意力层，图5详细描绘了选取动作的过程。当前决策点的动作空间可以表示如下：a_t＝{J₁,J₂,...,J_n}，即为选择对应的工件。

(4)设计DRL的奖励函数r。奖励函数是用来修改网络的策略以实现目标函数的。如上所述动态作业车间的目标函数是最小化总拖期，工件的拖期只有在该工件的全部工序完成以后才可以确定。因此，本发明将调度每一个工件最后一个工序的动作的奖励值设置为该工件拖期的负值。当所有的工作被调度完，一个回合的总奖励是总拖期的负值。近端优化算法是为了提高一个回合的总奖励，因此，总拖期的负值随着训练增加的过程就是总拖期随着训练减少的过程。基于以上叙述，奖励函数可以定义如下。

(5)PPO训练是基于Actor和Critic框架的，Critic网络是用来评价动作的，Critic网络与Actor网络共享Transformer的特征提取网络，在选择工件时采用带有一个输出节点的全连接网络，具体的网络结构如附图5。基于上述各个部分的设计和发明内容中PPO定义的损失函数。

(6)执行智能体将直接继承离线训练中Actor的调度知识，对新的调度实例进行快速决策。在线应用的整个过程如图6所示；而且离线训练中的智能体也可以对新的调度实例进行学习，进而不断更新调度策略，提高决策性能。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的车间调度方法，其特征在于，包括：

2.如权利要求1所述的基于深度强化学习的车间调度方法，其特征在于，Actor的损失函数和Critic的损失函数的表达式为：

是优势函数，

s_t为t时刻加工状态，a为t时刻加工动作，r_t为t时刻反馈的奖励，γ是折扣因子，V^θ(s_t)是Critic输出的期望奖励值；r(θ)为新策略对应神经网络的输出结果p_θ(a|s)和旧策略对应神经网络的输出结果

的比值，用于描述新旧策略的变化，并采用Clip裁剪函数限制r(θ)的变动量，ε为超参数，Critic的损失函数采用均方误差mse优化预测的期望奖励值和真实奖励值的差值。

3.如权利要求2所述的基于深度强化学习的车间调度方法，其特征在于，离线训练的损失函数为：

L_PPO＝L_actor-c₁L_critic+c₂S[p_θ](s)；

其中，L_actor为Actor的损失函数，L_critic是Critic的损失函数，c₁，c₂是常数系数，S[p_θ](s)交叉熵。

4.如权利要求2所述的基于深度强化学习的车间调度方法，其特征在于，所述智能体Actor和所述智能体Critic均基于近端策略优化算法架构。

5.如权利要求1所述的基于深度强化学习的车间调度方法，其特征在于，所述智能体Actor的网络结构包括Transformer结构；

6.如权利要求5所述的基于深度强化学习的车间调度方法，其特征在于，所述为输入的各个工件分配注意力的过程包括：

将所述Transformer结构针对第j个工件J_i的输出e_j输入注意力机制u_j＝v^Ttanh(We_j+d)，a_j＝softmax(u_j),j∈(1,…,n)，进而得到注意力向量

W，v，d是在此次训练中进行学习的网络参数；

u_j＝q^Ttanh(W₁e_j+W₂d'),j∈(1,…,n)；

P＝softmax(u)；

7.如权利要求6所述的基于深度强化学习的车间调度方法，其特征在于，所述S4包括：

利用执行智能体继承训练后的智能体Actor的网络参数；

8.一种基于深度强化学习的车间调度装置，其特征在于，包括：

调度模块，用于利用执行智能体继承训练后的智能体Actor的网络参数控制所述执行智能体在线对车间加工工序中的调度实例进行决策，以确定下一个待加工工件。

9.一种基于深度强化学习的车间调度系统，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。