CN111199272A

CN111199272A - 一种面向智能车间的自适应调度方法

Info

Publication number: CN111199272A
Application number: CN201911403830.8A
Authority: CN
Inventors: 马玉敏; 黎声益; 陆晓玉; 乔非; 王俊凯
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-26
Anticipated expiration: 2039-12-30
Also published as: CN111199272B

Abstract

本发明涉及一种面向智能车间的自适应调度方法，该方法通过一基于深度Q网络的自适应调度器生成控制智能车间生产过程的调度策略，深度Q网络的自适应调度器执行：获取智能车间的实时车间状态，判断当前调度策略是否需要更新，若是，则根据实时车间状态通过动态调度模型更新调度策略施加至智能车间，若否，则保持智能车间的调度策略不变；在调度策略生成过程中，采集经验调度样本存放至调度经验池中，基于所述调度经验池中的经验调度样本对所述动态调度模型进行训练；所述智能车间具有一实现与基于深度Q网络的自适应调度器和调度经验池的信息交互的信息交换器。与现有技术相比，本发明具有调度策略适应性好、离线学习免监督、提高生产效率优点。

Description

一种面向智能车间的自适应调度方法

技术领域

本发明涉及生产自动化调度领域，尤其是涉及一种面向智能车间的自适应调度方法。

背景技术

智能车间是实现智能制造的基石和落脚点，其生产调度需要具有自学习和自适应的特性，以满足快速响应动态变化的生产环境的需求。在智能车间中架设物联网、CPS等环境，能够实时地获取生产数据，因此，数据驱动技术在智能车间运营中越来越受到关注和应用。同样，数据驱动技术(包括数据挖掘和统计分析)在制造系统生产调度也有关注。深度强化学习是基于数据驱动技术的一个极具前景的研究方向，其模型本身具有免监督学习、适应性决策等优点，应用于智能制造车间生产调度上，可以形成更为科学、智能的调度系统。

通过检索现有的专利文献发现，数据驱动技术对生产调度问题的优化主要体现在制造系统动态调度中。中国专利申请“一种半导体生产线动态调度装置”(申请号：201310740754.6)提供了一种对半导体生产线进行动态调度的方法与装置，借助半导体仿真模型获取样本数据，从而建立样本数据库，而后基于样本数据库，筛选出最优样本，建立最优样本数据库，再通过极限学习机算法学习最优样本数据库，得到可以用于动态调度的模型，并建立不同生产环境下的模型库。该方法训练出的模型库可以针对不同的车间状态，给出最优的调度方案。但此方法中的最优样本获取较为困难，导致离线训练时间长且较为耗费人力资源。另外，在当前规则失效时，及时做出响应，缺乏时效性。中国专利“一种生产调度方法及系统”(专利号：ZL201710013045.6)提出了一种有效提高离散装配车间生产效率的方法与系统，基于当前生产装配任务的装配工艺参数和实际生产约束参数，并依据预先设定的调度问题模型，获得当前生产装配任务的工序执行时间表和资源使用时间表。此方法在调度问题模型库充足的条件下，可以保证调度策略的快速响应与执行。但此方法的调度问题模型均为单目标优化模型，模型过于单一，车间整体生产性能提升不显著。另外，此方法同样存在模型建立时间成本高，需要人为监督等不足。中国专利“基于多阶段智能优化算法的动态柔性作业车间调度控制方法”(专利号：ZL201510015487.5)提出了一种解决动态调度重调度时策略单一问题的方法，在初始调度阶段、车间设备故障阶段、重调度阶段三个阶段中，利用自适应遗传算法进行优化求解，得出当前阶段车间状态下的最优调度策略。此方法对调度问题的生产背景进行了阶段性区分，使不同阶段求解得出的最优调度策略更为准确。但此方法的调度规则更新仅仅发生在设备故障时，自适应性十分局限，且优化目标仅局限于完工时间，过于单一，实用性不足。

结合上述现有技术的研究容易得出，当前对于智能车间调度方法中，普遍存在优化方法自适应性差、时效性不足、优化目标单一、调度规则有效期短等问题。另外，对于基于模型的智能车间调度优化方法，还存在模型获取困难、离线训练时间长、人力成本高等问题。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种调度策略适应性好、离线学习免监督、提高生产效率的面向智能车间的自适应调度方法。

本发明的目的可以通过以下技术方案来实现：

一种面向智能车间的自适应调度方法，该方法通过一基于深度Q网络的自适应调度器生成控制智能车间生产过程的调度策略，所述深度Q网络的自适应调度器执行以下动作：

获取智能车间的实时车间状态，判断当前调度策略是否需要更新，若是，则根据所述实时车间状态通过动态调度模型更新调度策略施加至智能车间，若否，则保持智能车间的调度策略不变；

在所述调度策略生成过程中，采集经验调度样本存放至调度经验池中，基于所述调度经验池中的经验调度样本对所述动态调度模型进行训练；

所述智能车间具有一实现与基于深度Q网络的自适应调度器和调度经验池的信息交互的信息交换器。

进一步地，所述判断当前调度策略是否需要更新具体为：

基于性能指标集提取实时车间状态中的各项性能指标，计算所述各项性能指标对应的调度规则奖励值，判断该奖励值是否超过预设奖励阈值Te_reward，若是，则当前调度策略不需更新，若否，则判断当前奖励值变动的绝对值是否超过预设变动阈值Te_Δ，若是，则判定为需要对当前调度策略进行更新，若否，则当前调度策略不需更新。

进一步地，所述性能指标包括平均加工周期MCT、日平均移动步数MDayMov、日平均生产量PROD、日平均设备利用率OEE。

进一步地，所述经验调度样本具体为原车间状态s、所采用的调度规则d、当前调度规则奖励值r、下一车间状态s'的组合(s,d,r,s')。

进一步地，所述调度规则奖励值r由下式得：

r＝norm(P₁)+norm(P₂)+...+norm(P_l)

其中，norm(·)表示归一化操作，P_.表示从车间状态数据集中得到的性能指标。

进一步地，所述车间状态包括车间在制品状态和车间设备状态。

进一步地，所述调度规则为单一启发式调度规则或组合式调度规则。

进一步地，当所述调度经验池中的经验调度样本数超过预设阈值Te_sample时，从调度经验池中随机抽取设定量样本数作为所述动态调度模型的训练样本。

进一步地，所述动态调度模型的训练采用基于Q-learning的双网络调度模型训练器实现。

进一步地，所述基于Q-learning的双网络调度模型训练器对动态调度模型进行训练的过程具体包括以下步骤：

1)以当前动态调度模型作为评估网络，基于所述评估网络构建目标网络，在评估网络的训练过程中，每隔设定训练次数，将评估网络的参数延时拷贝至目标网络；

2)将训练样本同时输入至所述评估网络和目标网络中进行前向传播，分别得到评估网络的行为值向量Q_eval与目标网络的行为值向量Q_target；

3)基于Q-learning算法计算损失函数Loss；

4)利用损失函数Loss对评估网络进行反向传播，更新、优化评估网络的参数；

5)重复步骤1)-4)，若达到预设训练次数T_train或预设周期T内平均奖励值超过预设阈值

则输出训练好的评估深度神经网络，作为最终的动态调度模型。

进一步地，所述损失函数Loss的计算过程为：

301)将Q_eval拷贝至中间向量Q_eval2；

302)以Q_target作为目标行为值向量，将其输入到Q-learning算法的行为值函数中，并将输出覆盖至Q_eval2的对应位置，使Q_eval2中部分元素得到更新，所述行为值函数为：

Q_eval2(batch_index,d_loct)＝r+γmax Q_target(batch_index,:)

其中，batch_index表示训练样本的行索引向量且满足batch_index∈[1,length(batch)]，length(batch)表示训练样本中的样本条数，d_loct表示训练样本中的规则位置向量；

303)以Q_eval与Q_eval2构建损失函数Loss：

Loss＝Q_eval2-Q_eval。

与现有技术相比，本发明具有如下有益效果：

1、本发明将DQN与智能车间生产调度进行有机结合，搭建了实现DQN自适应调度器与智能车间进行信息交互的信息交换器，并以规则的奖励值代替样本标签，实现完全免监督的离线学习，提高调度效率和精度；

2、构建了状态更新判断机制，使动态调度模型可以实现免监督、自适应的在线决策，提高了调度策略更新的实效性；

3、采用基于Q-learning算法的双网络调度模型训练得到的动态调度模型，其输出的调度规则综合考虑了当前的车间状态与下一车间状态，决策更为科学，且决策规则适用的有效期更长；

4、本发明实现了多目标优化，可以自定义所需优化的性能指标类型与数量，车间整体性能提升更为显著，具有更好的实用性；

5、本发明采用的调度规则集十分丰富，在不同的车间状态下，为模型提供了充足的调度规则选择余地，对车间的性能指标优化效果也更为显著。

附图说明

图1为本发明的流程示意图；

图2为本发明实施例中Minifab模型示意图；

图3为本发明中基于Q-learning的双网络调度模型训练器流程示意图；

图4为本发明中车间状态更新判断器流程示意图；

图5为本发明中信息交换器流程示意图；

图6为本发明在半导体晶圆智能车间中的应用效果对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本发明提供一种面向智能车间的自适应调度方法，该方法通过一基于深度Q网络(DQN)的自适应调度器生成控制智能车间生产过程的调度策略，所述深度Q网络的自适应调度器执行以下动作：获取智能车间的实时车间状态，判断当前调度策略是否需要更新，若是，则根据所述实时车间状态通过动态调度模型更新调度策略施加至智能车间，若否，则保持智能车间的调度策略不变；在所述调度策略生成过程中，采集经验调度样本存放至调度经验池中，基于所述调度经验池中的经验调度样本对所述动态调度模型进行训练。

智能车间中搭建有一信息交换器，该信息交换器用于实现与基于深度Q网络的自适应调度器和调度经验池的信息交互，主要功能包括实时读取车间状态、接收决策信息并施加至智能车间、向车间状态更新判断器发送实时车间状态信息等。

判断当前调度策略是否需要更新可由一车间状态更新判断器完成，具体为：

调度经验池用于存储经验调度样本，该调度经验池基于车间历史数据初始化，并由智能车间在实时运行中更新。经验调度样本具体为原车间状态s、所采用的调度规则d、当前调度规则奖励值r、下一车间状态s'的组合(s,d,r,s')，其具体采集过程包括：

1a)从车间历史数据中获得一定量的初始车间状态数据集，并设定调度规则全集；

1b)利用初始车间状态数据集初始化评估网络的输入层节点数，调度规则全集初始化评估网络的输出层节点数，并随机初始化评估网络的权重与偏置；

1c)将实时车间状态数据输入至评估网络进行前向传播，并将评估网络输出中的最大值位置映射至调度规则全集，得到当前调度规则，前向传播过程如下式所示：

Q_eval＝(((s∧ω₁+b₁)∧ω₂+b₂)...)∧ω_N+b_N

其中，s为网络输入状态向量，ω.，b.为第·层网络的权重与偏置向量，其维度与预设的神经元个数(节点数)相关；

1d)并将规则施加至智能车间，得到下一车间状态与当前规则对应的奖励值；

1e)将原车间状态s、所采用的调度规则d、当前调度规则奖励值r、下一车间状态s'组合为(s,d,r,s')集合形式，作为一条经验调度样本。

所述调度规则奖励值r由下式得：

r＝norm(P₁)+norm(P₂)+...+norm(P_l)

其中，norm(·)表示归一化操作，P.表示从车间状态数据集中得到的性能指标。

对性能指标P进行归一化操作具体实现如下：

其中，max_P、min_P分别为从车间历史数据中得到的P的最大值与最小值。

奖励值变动的绝对值计算如下式所示：

其中，

表示调度规则d在0时刻的奖励值，

表示调度规则d在t时刻的奖励值。

车间状态包括车间在制品状态和车间设备状态等。调度规则为单一启发式调度规则或组合式调度规则，其形式为D＝{d₁,d₂,...,d_j,...,d_n}，其中d_j＝(x_j1,x_j2,...,x_ji,...,x_jm)，x_ji表示规则i的权重且满足

特别地，当x_ji＝1时，d_j表示某一种单一启发式规则，其余均为组合式调度规则。

当所述调度经验池中的经验调度样本数超过预设阈值Te_sample时，从调度经验池中随机抽取设定量样本数作为所述动态调度模型的训练样本，该设定量为小批量，以减少计算复杂度。所述动态调度模型的训练采用基于Q-learning的双网络调度模型训练器实现。所述基于Q-learning的双网络调度模型训练器对动态调度模型进行训练的过程具体包括以下步骤：

2a)以当前动态调度模型作为评估网络，基于所述评估网络构建目标网络，在评估网络的训练过程中，每隔设定训练次数，将评估网络的参数延时拷贝至目标网络；

2b)将训练样本同时输入至所述评估网络和目标网络中进行前向传播，分别得到评估网络的行为值向量Q_eval与目标网络的行为值向量Q_target；

2c)基于Q-learning算法计算损失函数Loss，计算过程为：

301)将Q_eval拷贝至中间向量Q_eval2；

302)以Q_target作为目标行为值向量，将其输入到Q-learning算法的行为值函数中，并将输出覆盖至Q_eval2的对应位置，将向量Q_eval2中的部分指定元素(依据batch_index、d_loct进行元素定位)进行更新，所述行为值函数为：

Q_eval2(batch_index,d_loct)＝r+γmaxQ_target(batch_index,:)

303)以Q_eval与Q_eval2构建损失函数Loss：

Loss＝Q_eval2-Q_eval

2d)利用损失函数Loss对评估网络进行反向传播，更新、优化评估网络的参数；

2e)重复步骤2a)-2d)，若达到预设训练次数T_train或预设周期T内平均奖励值超过预设阈值

实施例

Minifab是根据实际生产线简化而来的一个简单半导体晶圆智能车间模型，它由3个设备群、5台设备组成，可生产3种产品(6道工序)，如图2所示。本实施例以上述智能车间为实施对象，对本发明方法进行详细说明。

如图1-5所示，本实施例的自适应调度方法具体实施过程如下：

步骤1，确定半导体晶圆智能车间的车间状态集F、调度规则集D和性能指标集P，本例中三个数据集的具体设置如下：

1)车间状态集F

本例选择了47个车间状态作为描述当前车间状态的指标，如表1所示。

表1车间状态集

2)调度规则集D

本例选择了包括交货期优先规则(EDD)、最小剩余加工时间优先规则(SRPT)、关键比例规则(CR)三种启发式规则以及多种组合式调度规则在内的231种调度规则，其形式d_j＝(x_j1,x_j2,x_j3)，x_ji表示规则i的权重且满足

特别地，当x_j1＝1时，d_j表示规则EDD，当x_j2＝1时，d_j表示规则SRPT，当x_j3＝1时，d_j表示规则CR，其余均为组合式调度规则。

3)性能指标集P

本例考察以下4个生产系统的性能指标：平均加工周期MCT、日平均移动步数MDayMov、日平均生产量PROD、日平均设备利用率OEE。

步骤2，搭建评估深度神经网络与目标深度神经网络。借助Python语言以及tensorflow等神经网络算法库，搭建包含维度为47的输入层、3层隐含层、维度为231的输出层、每层隐含层神经元个数为30个的全连接层深度神经网络，并随机初始化各个权重与偏置，为前向传播做准备。

步骤3，搭建车间状态更新判断器。借助Python语言，搭建如图3所示的车间状态更新判断器。主要实现：提取实时车间状态中的各项性能指标，并计算当前性能指标对应的调度规则奖励值。首先判断当前奖励值是否超过了预设奖励阈值Te_reward，若是，则继续监视实时车间状态；若否，则判断当前奖励值变动的绝对值是否超过了预设变动阈值Te_Δ，若是，则判定为当前车间状态发生有效变动，需要对当前调度策略进行更新；若否，则继续监视实时车间状态。此例中，Te_reward为3.7，Te_Δ为0.2。

步骤4，借助于在仿真平台Plant Simulation上研发的MiniFab仿真模型，模拟智能车间的运行状况，通过仿真得到的车间历史决策信息集，在此基础上搭建信息交换器，其实现流程见图4。

此例中，在信息交换器的基础上获取经验调度样本的过程概括为以下步骤，如图5所示：

1)加载仿真模型的初始状态；

2)预热10天，为后续调度规则的施加提供正常运行的车间状态；

3)将实时车间状态数据输入至评估网络进行前向传播，并将评估网络输出中的最大值位置映射至调度规则全集，得到当前调度规则；

4)并将规则施加至MiniFab仿真模型，在车间状态更新判断器的判定下，得到下一车间状态与当前规则对应的奖励值；

5)将车间状态s、所采用的调度规则d、当前调度规则奖励值r、下一车间状态s'组合为(s,d,r,s')集合形式，作为一条经验调度样本。

步骤5，判断当前调度经验池内经验调度样本的条数是否达到了预设阈值Te_sample，若是，从调度经验池中随机抽取小批量调度样本，对应地输出到评估网络、目标网络以及Q-learning训练器中，为评估网络的训练做好数据准备。若否，则重复步骤1-4。此例中小批量调度样本的数量设置为32，Te_sample设为500。

步骤6，如图3所示，将评估网络的输出作为当前行为值向量Q_eval，并拷贝至中间向量Q_eval2，将目标网络的输出作为目标行为值向量Q_target。并将Q_eval2、Q_target输入至Q-learning训练器中，并通过Q-learning算法中的行为值函数，与训练器中已存入的规则d、奖励值r共同更新当前行为值向量Q_eval2中的指定元素。在此基础上建立损失函数，并以此进行反向传播，更新评估网络参数，达到训练评估网络的目的。并每隔一定的训练次数，将评估网络的参数拷贝至目标网络，此例中延时拷贝网络参数对应的训练次数设置为10次。

步骤7，当训练次数到达预设阈值Te_train或在预设周期T内平均奖励值超过了预设奖励阈值

后，评估网络训练完毕。此例中Te_train设置为500次，T为50次，

为3.5。将半导体晶圆智能车间(即，MiniFab仿真模型)与DQN调度器进行数据联结，车间预热为10天，总加工周期为31天，并将在DQN自适应调度器指导运行下的智能车间日性能指标与施加单一启发式规则EDD、SRPT、CR的智能车间日性能指标进行比较。

表2为在DQN自适应调度器指导运行下的智能车间日性能指标变化情况，其中P_DQN表示在DQN自适应调度器指导运行下的智能车间综合性能。分别记录了平均加工周期MCT、日平均移动步数MDayMov、日平均生产量PROD、日平均设备利用率OEE以及总的量化性能指标P_DQN。另外，调度器在天数为6、8、12、15、19、22、26时，由于车间状态发生了较大的变动，因此自动为智能车间施加了新的调度规则。由于智能车间随着加工时间的变化，负荷加大，其各项性能指标势必会逐渐变差，但从表2可以看出，在上述的新规则施加节点处，大部分性能指标均得到了一定程度的回升。由此可以得出结论，DQN调度器确实能对智能车间生产调度起到优化作用。

表2在DQN自适应调度器下指导下的智能车间日性能指标

表3、图6为智能车间在DQN自适应调度器指导下与施加单一启发式规则EDD、SRPT、CR的日性能指标比较，表3中，P_DQN表示在DQN自适应调度器指导运行下的智能车间综合性能；P_EDD表示在规则EDD下的智能车间综合性能；P_SRPT表示在规则SRPT下的智能车间综合性能；P_CR表示在规则CR下的智能车间综合性能。由表3、图4可以看出，在DQN自适应调度器指导下的车间总量化性能指标整体均高于实施单一启发式规则，并且性能指标的下降速度与下降幅度明显小于实施单一启发式规则。由此可以得出结论，应用DQN调度器的优化效果明显优于应用单一启发式规则。

表3智能车间在DQN自适应调度器指导下与施加单一启发式规则的日性能指标比较

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。

Claims

1.一种面向智能车间的自适应调度方法，其特征在于，该方法通过一基于深度Q网络的自适应调度器生成控制智能车间生产过程的调度策略，所述深度Q网络的自适应调度器执行以下动作：

2.根据权利要求1所述的面向智能车间的自适应调度方法，其特征在于，所述判断当前调度策略是否需要更新具体为：

3.根据权利要求1所述的面向智能车间的自适应调度方法，其特征在于，所述经验调度样本具体为原车间状态s、所采用的调度规则d、当前调度规则奖励值r、下一车间状态s'的组合(s,d,r,s')。

4.根据权利要求2或3所述的面向智能车间的自适应调度方法，其特征在于，所述调度规则奖励值r由下式得：

r＝norm(P₁)+norm(P₂)+...+norm(P_l)

其中，norm(·)表示归一化操作，P_·表示从车间状态数据集中得到的性能指标。

5.根据权利要求1或3所述的面向智能车间的自适应调度方法，其特征在于，所述车间状态包括车间在制品状态和车间设备状态。

6.根据权利要求3所述的面向智能车间的自适应调度方法，其特征在于，所述调度规则为单一启发式调度规则或组合式调度规则。

7.根据权利要求1所述的面向智能车间的自适应调度方法，其特征在于，当所述调度经验池中的经验调度样本数超过预设阈值Te_sample时，从调度经验池中随机抽取设定量样本数作为所述动态调度模型的训练样本。

8.根据权利要求1所述的面向智能车间的自适应调度方法，其特征在于，所述动态调度模型的训练采用基于Q-learning的双网络调度模型训练器实现。

9.根据权利要求8所述的面向智能车间的自适应调度方法，其特征在于，所述基于Q-learning的双网络调度模型训练器对动态调度模型进行训练的过程具体包括以下步骤：

3)基于Q-learning算法计算损失函数Loss；

10.根据权利要求9所述的面向智能车间的自适应调度方法，其特征在于，所述损失函数Loss的计算过程为：

301)将Q_eval拷贝至中间向量Q_eval2；

Q_eval2(batch_index,d_loct)＝r+γmaxQ_target(batch_index,:)

303)以Q_eval与Q_eval2构建损失函数Loss：

Loss＝Q_eval2-Q_eval。