CN114580937B

CN114580937B - 基于强化学习和注意力机制的智能作业调度系统

Info

Publication number: CN114580937B
Application number: CN202210237299.7A
Authority: CN
Inventors: 郭洪飞; 黄祖艺; 曾云辉; 李秀; 袁博; 何智慧; 李建庆
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2023-04-28
Anticipated expiration: 2042-03-10
Also published as: CN114580937A

Abstract

本发明涉及用于数据处理方法技术领域，具体涉及一种基于强化学习和注意力机制的智能作业调度系统；包括：从给定的由机器矩阵MO和工时矩阵TO描述的调度实例，生成包含动态事件的由新的机器矩阵MO′和新的工时矩阵TO′描述的调度实例，并将其作为当前交互环境；调度系统与环境进行交互，收集经验并训练；提取特征，输入D3QPN得到当前状态下不同动作的Q值；根据Q值表进行作业调度。本发明通过注意力机制有效提取出关键信息，并使用强化学习算法选择最优的调度策略解决动态作业车间问题，以此解决实际智能制造中作业的动态变化问题，让智能调度作业系统在动态作业调度环境下依然拥有不错的性能。

Description

基于强化学习和注意力机制的智能作业调度系统

技术领域

本发明涉及数据处理方法技术领域，具体涉及基于强化学习和注意力机制的智能作业调度系统。

背景技术

作业车间调度问题(JSP)是最重要的生产调度问题，具有多目标性、动态随机性、计算复杂性等特点，并已被证明是NP难问题。经过几十年的发展，研究人员己经提出许多用于解决作业车间调度问题的算法，包括基于分支定界、数学规划等运筹学理论的调度方法，基于调度规则的调度方法，基于瓶颈的调度方法，基于人工神经网络、遗传算法、群体智能等智能计算理论的调度方法。

随着实际生产调度问题越来越复杂，制造工艺越来越多样化，从而导致制造车间存在众多不确定因素。例如机器故障、工件返工、缺料、紧急插单、加工时间变化等扰动因素，影响了生产系统的稳定运行，甚至使计划变得不可行。因此为了满足实时动态变化的生产环境，对传统动态作业车间调度问题的解决方法提出了更高的要求。

发明内容

针对上述文献中存在的问题，本发明提供一种基于强化学习和注意力机制的智能作业调度系统。

一种基于强化学习和注意力机制的智能作业调度系统，包括，

S1：从给定的由机器矩阵MO和工时矩阵TO描述的调度实例，生成包含动态事件的由新的机器矩阵MO′和新的工时矩阵TO′描述的调度实例，并将其作为交互环境；

S2：调度系统与环境进行交互，收集经验的同时进行训练；

S3：环境给出的析取图输入由注意力机制构成的GRL模块后得到提取后的特征；

S4：提取后的特征输入D3QPN得到当前状态下不同动作的Q值；

S5：根据得到的累积回报值确定不同状态下的启发式规则作业调度策略，并从中选择最优的作业调度策略。

特别地，在S1中包括：

S11：每个实例总共由n个作业J＝{J₁，J₂，…，J_n}和m个机器M＝{M₁，M₂，…，M_m}组成；

S12：每个作业由m个工序O_i＝{O_i1，O_i2，…，O_im}组成；

S13：机器矩阵MO＝{M_il|M_il＝M₁，M₂，…，M_m}(i＝1，2，…，n and l＝1，2，…，m)，规定了工序O_il需要在机器M_il上加工；

S14：工时矩阵TO＝{T_il|T_il≥0}(i＝1，2，…，n and l＝1，2，…，m)，规定了工序O_il的加工用时为T_il个时间步。

特别地，动态事件包括：

S15：工时矩阵按如下公式更新：

其中r∈[0，1)为随机数，random_rate∈[0，1]为可控超参数；

S16：机器矩阵中每个作业有random_rate的概率，随机调换max(2，m·random_rate))个工序的加工顺序。

特别地，在S2中包括：

S21：构建的马尔科夫过程

为：

状态

包含当前时刻的每个工序的相关信息的析取图的特征向量；

动作

启发式调度规则；

转移函数

根据选择的启发式规则a在当前状态s下调度k步，其中k为可调超参数；

奖励函数

策略函数π(s，a)：在当前状态s下，执行动作a的概率；

S22：调度系统使用D3QPN(double dueling deep Q-network with prioritizedreplay and noisy networks)强化学习算法训练、学习。

进一步地，所述D3QPN算法的训练过程如下：

S23：初始化行为网络权重θ，价值网络权重θ′，步长η，和目标网络更新频率N^-；

S24：重复S25-S210步骤τ次，j＝1，2，…，τ：

S25：为目标网络采样噪声

为行为网络采样噪声

其中

表示标准正态分布；

S26：计算采样重要性权重

其中N为经验池大小；

S27：设

S28：计算TD-error：δ_j＝(y_j-Q(s_j，a_j；ξ；θ))²；

S29：更新传递优先级p_j←|δ_j｜；

S210：累计权重改变量

S211：更新网络权重θ←θ+η·Δ，重置Δ＝0；

S212：每N^-次，更新目标网络：θ′←θ。

进一步地，采用Double DQN的损失函数计算公式：

采用Dueling DQN的Q值计算公式为：q(s_t，a_t)＝v(s_t)+A(s_t，a_t)，其中函数v计算状态的价值，函数A计算动作的优势。

采用Noisy DQN的神经网络的权重计算公式为：

w＝μ^w+σ^w⊙ε^w

b＝μ^b+σ^b⊙ε^b

其中μ^w，μ^b，σ^w和σ^b为单层神经网络的参数，ε^w，ε^b为符合高斯噪声的随机变量，⊙为元素积，单层神经网络的输出为y＝wx+b；

特别地，所述的GRL模块通过注意力机制、多头注意力、残差链接、层归一化和前馈神经网络组合实现。

进一步地，所述GRL模块，对于输入的析取图特征向量

有计算过程如下：

S31：重复S32-S8步骤L次，l＝1，2，...，L；

S32：重复S33-S34步骤H次，h＝1，2，...，H；

S33：计算

S34：计算

其中d_feature是特征向量的维度；

S35：计算本层多头注意力

S36：计算本层中间值

S37：计算本层前馈神经网络

S38：计算本层输出X^l＝LN(X^l′+F^l)；

S39：得到输出为提取后特征向量

特别地，所用的启发式规则作业调度策略包括：先进先出、先进后出、剩余工序数最多优先、剩余工序数最少优先、加工时间最长优先、加工时间最短优先、总加工时间最长优先和总加工时间最短优先。

本发明根据实验结果，选择性能最好的D3QPN强化学习算法；使用注意力机制作为图表征学习模块，提取析取图的特征信息。将强化学习应用到动态作业车间调度问题。动态作业车间调度问题中，下一时刻的状态只与当前状态下做的调度有关，因此适合使用强化学习进行调度。

通过注意力机制有效提取出关键信息，并使用强化学习算法选择最优的调度策略解决动态作业车间问题，以此解决实际智能制造中作业的动态变化问题，让智能调度作业系统在动态作业调度环境下依然拥有不错的性能。

附图说明

图1为本发明整体流程。

具体实施方式

下面结合具体实施例，对本发明作进一步详细的阐述，下述实施例不用于限制本发明，仅用于说明本发明。以下实施例中所使用的实验方法如无特殊说明，实施例中未注明具体条件的实验方法，通常按照常规条件，下述实施例中所使用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1

包括以下步骤：

S1、输入由机器矩阵MO和工时矩阵TO描述的调度实例，并在每一局训练时生成包含动态事件的由新的机器矩阵MO′和新的工时矩阵TO′描述的调度实例并作为环境。具体表示为：每个实例总共由n个作业J＝{J₁，J₂，...，J_n}和m个机器M＝{M₁，M₂，...，M_m}组成；每个作业由m个工序O_i＝{O_i1，O_i2，...，O_im}组成；机器矩阵MO＝{M_il|M_il＝M₁，M₂，...，M_m}(i＝1，2，...，n and l＝1，2，...，m)，规定了工序O_il需要在机器M_il上加工；工时矩阵TO＝{T_il|T_il≥0}(i＝1，2，...，n and l＝1，2，...，m)，规定了工序O_il的加工用时为T_il个时间步。发送动态事件时工，时矩阵按如下公式更新：

其中r∈[0，1)为随机数，random_rate∈[0，1]为可控超参数；

机器矩阵中则每个作业有random_rate的概率，随机调换max(2，m·random_rate))个工序的加工顺序。

S2、调度系统与环境进行交互，收集经验的同时进行训练。其中D3QPN强化学习构建的马尔科夫过程

为：

状态

包含当前时刻的每个工序的相关信息的析取图特征向量；

动作

启发式调度规则；

转移函数

奖励函数

策略函数π(s，a)：在当前状态s下，执行动作a的概率；

D3QPN算法的具体训练过程为：

S21、初始化行为网络权重θ，价值网络权重θ′，步长η，和目标网络更新频率N^-；

S22、重复S25-S210步骤τ次，j＝1，2，...，τ：

S23、为目标网络采样噪声

为行为网络采样噪声

其中

表示标准正态分布；

S24、计算采样重要性权重：

其中N为经验池大小；

S25、设

S26、计算：

TD-error：δ_j＝(y_j-Q(s_j，a_j；ξ；θ))²；

S27、更新传递优先级p_j←|δ_j|；

S28、累计权重改变量

S29、更新网络权重θ←θ+η·Δ，重置Δ＝0；

S210、每N^-次，更新目标网络：θ′←θ。

S3、环境给出的析取图经过由注意力机制构成的GRL模块后得到提取后的特征。对于输入的析取图特征向量

具体的计算过程如下：

S31、重复S32-S8步骤L次，l＝1，2，...，L；

S32、重复S33-S34步骤H次，h＝1，2，...，H；

S33、计算

S34、计算：

其中d_feature是特征向量的维度；

S35、计算本层多头注意力

S36、计算本层中间值：

S37、计算本层前馈神经网络：

S38、计算本层输出：

X^l＝LN(X^l′+F^l)；

S39、得到输出为提取后特征向量：

S4、提取后的特征输入D3QPN(double dueling deep Q-network withprioritized replay andnoisy networks)算法的Q网络得到当前状态下不同动作的Q值。计算过程中的细节包括：

S41、损失函数计算公式：

S42、Q值计算公式为：q(s_t，a_t)＝v(s_t)+A(s_t，a_t)，其中函数v计算状态的价值，函数A计算动作的优势；

S43、单层神经网络的输出为y＝wx+b。其中神经网络的权重计算公式为：

w＝μ^w+σ^w⊙ε^w

b＝μ^b+σ^b⊙ε^b

μ^w，μ^b，σ^w和σ^b为单层神经网络的参数，ε^w，ε^b为符合高斯噪声的随机变量，⊙为元素积。

最后应当说明的是，以上内容仅用以说明本发明的技术方案，而非对本发明保护范围的限制，本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换，均不脱离本发明技术方案的实质和范围。

Claims

1.一种基于强化学习和注意力机制的智能作业调度系统，其特征在于，包括，

S1：从给定的由机器矩阵MO和工时矩阵TO描述的调度实例，生成包含动态事件的由新的机器矩阵MO^′和新的工时矩阵TO^′描述的调度实例，并将其作为交互环境；

S2：调度系统与环境进行交互，收集经验的同时进行训练；

S4：提取后的特征输入D3QPN得到当前状态下不同动作的Q值；

S5：根据得到的累积回报值确定不同状态下的启发式规则作业调度策略，并从中选择最优的作业调度策略；

在S1中包括；

S11：每个实例总共由n个作业J＝{J₁,J₂,…,J_n}和m个机器M＝{M₁,M₂,…,M_m}组成；

S12：每个作业由m个工序O_i＝{O_i1,O_i2,…,O_im}组成；

S13：机器矩阵MO＝{M_il|M_il＝M₁,M₂,…,M_m}(i＝1,2,…,n and l＝

1,2,…,m)，规定了工序O_il需要在机器M_il上加工；

S14：工时矩阵TO＝{T_il|T_il≥0}(i＝1,2,…,n and l＝1,2,…,m)，规定了工序O_il的加工用时为T_il个时间步；

动态事件包括：

S15：工时矩阵按如下公式更新：

其中r∈[0,1)为随机数，random_rate∈[0,1]为可控超参数；

S16：机器矩阵中每个作业有random_rate的概率，随机调换max(2,m·random_rate))个工序的加工顺序；

在S2中包括：

S21：构建的马尔科夫过程

为：

状态

包含当前时刻的每个工序的相关信息的析取图的特征向量；

动作

启发式调度规则；

转移函数

奖励函数

策略函数π(s,a)：在当前状态s下，执行动作a的概率；

S22：调度系统使用D3QPN(double dueling deep Q-network with prioritizedreplay and noisy networks)强化学习算法训练、学习；

所述D3QPN算法的训练过程如下：

S24：重复S25-S210步骤τ次，j＝1,2,…,τ：

S25：为目标网络采样噪声

为行为网络采样噪声

其中

表示标准正态分布；

S26：计算采样重要性权重

其中N为经验池大小；

S27：设

S28：计算TD-error：δ_j＝(y_j-Q(s_j,a_j；ξ；θ))²；

S29：更新传递优先级p_j←|δ_j|；

S210：累计权重改变量

S211：更新网络权重θ←θ+η·Δ，重置Δ＝0；

S212：每N^-次，更新目标网络：θ′←θ；

采用Double DQN的损失函数计算公式：

采用Dueling DQN的Q值计算公式为：q(s_t,a_t)＝v(s_t)+A(s_t,a_t)，其中函数v计算状态的价值，函数A计算动作的优势；

采用Noisy DQN的神经网络的权重计算公式为：

w＝μ^w+σ^w⊙ε^w

b＝μ^b+σ^b⊙ε^b

其中μ^w,μ^b,σ^w和σ^b为单层神经网络的参数，ε^w,ε^b为符合高斯噪声的随机变量，⊙为元素积，单层神经网络的输出为y＝wx+b；

所述的GRL模块通过注意力机制、多头注意力、残差链接、层归一化和前馈神经网络组合实现；

所述GRL模块，对于输入的析取图特征向量

有计算过程如下：

S31：重复S32-S8步骤L次，l＝1,2,…,L；

S32：重复S33-S34步骤H次，h＝1,2,…,H；

S33：计算

S34：计算

其中d_feature是特征向量的维度；

S35：计算本层多头注意力

S36：计算本层中间值

S37：计算本层前馈神经网络

S38：计算本层输出X^l＝LN(X^l′+F^l)；

S39：得到输出为提取后特征向量

2.根据权利要求1所述基于强化学习和注意力机制的智能作业调度系统，其特征在于，

所用的启发式规则作业调度策略包括：先进先出、先进后出、剩余工序数最多优先、剩余工序数最少优先、加工时间最长优先、加工时间最短优先、总加工时间最长优先和总加工时间最短优先。