CN112884239A

CN112884239A - 一种基于深度强化学习的航天起爆器生产调度方法

Info

Publication number: CN112884239A
Application number: CN202110268713.6A
Authority: CN
Inventors: 魏善碧; 余笑; 王昱; 肖勇; 王辉阳; 吴睿
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-06-01
Anticipated expiration: 2041-03-12
Also published as: CN112884239B

Abstract

本发明公开了一种基于深度强化学习的航天起爆器生产调度方法，主要涉及机器学习与智能制造领域；包括步骤：S1、从起爆器生产车间获取生产加工的实时信息；S2、根据起爆器生产车间收集的实时信息，确定起爆器柔性生产车间调度问题描述和相关假设；S3、确定起爆器生产车间调度优化的目标函数及约束条件；S4、将起爆器生产调度问题构造为马尔科夫决策模型，将实时信息转化为实时状态；S5、将实时状态信息存储在记忆库中，作为深度强化学习DQN算法训练的输入；S6、深度强化学习DQN算法的训练；S7、起爆器生产实时调度；本发明能够提高生产调度的自适应性和实时性，使调度方案能够更好地适应复杂动态的实际生产过程。

Description

一种基于深度强化学习的航天起爆器生产调度方法

技术领域

本发明涉及机器学习与智能制造领域，具体是一种基于深度强化学习的航天起爆器生产调度方法。

背景技术

随着航天事业的快速发展，航天火工品需求量不断增加，传统基于手工生产的生产模式远远不能达到发展需求。目前，生产航天火工品的离散制造企业正处于自动化生产的转型期，正由传统的大批量生产模式向小批量、多批次的柔性生产模式转型。柔性生产加工调度比传统生产调度更加灵活，更能适应外部环境的动态变化。在复杂动态场合加工，调度方案及参数通常由工人的主观经验及知识进行组织生产，需要耗费巨大的时间和劳动力且生产效率及稳定性也难以保证。因此，深入了解起爆器生产加工调度现状，分析整个生产结构与功能需求，优化起爆器柔性生产车间生产调度对企业具有重要意义。

在复杂动态场合加工，传统的调度方案及参数的制定通常由工人的主观经验及知识进行组织生产，需要耗费巨大的时间和劳动力且生产效率及稳定性也难以保证。而现有的生产调度算法，如运筹学调度算法、启发式搜索算法以及群体算法等，都能够对生产加工进行有效调度，在调度问题的实际化上取得了不错的成果，但是这些调度方案存在以下问题：

1)、失去了调度规则简洁易行的优势，在算法生成的调度规则在形式上较为复杂；

2)、忽略了经验记录的价值，对企业过去的生产加工调度历史数据并没有进行关注；

3)、缺少了对生产控制方法学习能力的考虑，不能满足当前智能制造系统构建的需求。

4)、缺少对起爆器试装以及固化、装压药时间对质量影响的考虑。

5)、缺少在备料过程中，考虑药剂，胶液等受环境因素的影响，需二次调度。

发明内容

本发明的目的在于解决现有技术中存在的问题，提供一种基于深度强化学习的航天起爆器生产调度方法，能够提高生产调度的自适应性和实时性，缓解起爆器生产车间对人工调整的依赖，使调度方案能够更好地适应复杂动态的实际生产过程。

本发明为实现上述目的，通过以下技术方案实现：

一种基于深度强化学习的航天起爆器生产调度方法，包括步骤：

S1、从起爆器生产车间获取生产加工的实时信息；

S2、根据起爆器生产车间收集的实时信息，确定起爆器柔性生产车间调度问题描述和相关假设；

S3、确定起爆器生产车间调度优化的目标函数及约束条件；

S4、将起爆器生产调度问题构造为马尔科夫决策模型，将实时信息转化为实时状态；

S5、将实时状态信息存储在记忆库中，作为深度强化学习DQN算法训练的输入；

S6、深度强化学习DQN算法的训练；

S7、起爆器生产实时调度。

优选的，步骤S1中，所述实时信息包括机器设备总台数、生产加工计划、各生产工序加工时间、工件加工工序数以及各加工工序开完工时间。

优选的，步骤S1中，所述起爆器柔性生产车间调度问题描述为合理地将每道工序分配到一个具体的设备，同时排列设备上工件的加工顺序，并确定开始加工的时间，使其满足调度优化目标。

优选的，步骤S2中，所述相关假设包括第一假设、第二假设、第三假设；

所述第一假设为：各生产机器设备相互独立，加工过程中互不影响；

所述第二假设为：在零时刻，任意设备和工件均准备就绪；

所述第三假设为：每台设备在任意时刻正在加工的产品只能有一个。

优选的，步骤S3中，所述目标函数为：

其中，

Minmize W表示最小化机器总负荷；Minmize M表示最少加工等待时间；A表示需要生产加工的起爆器的数量；m表示第m个工件，m∈(1，2，…A)；s_j表示每个起爆器需要多少道加工工序；n表示第n道工序，n∈(1，2，…s_j)；Q表示设备数量；q表示第q台设备，q∈(1，2，…Q)；

O_mn表示加工工件m的第n道工序；G_mnq表示设备q加工工序O_mn的加工时间；U_mnq表示工件m在q设备上进行n工序的加工，当工序O_mn选择设备q加工，则U_mnq＝1，其它则为0；E_m表示加工工件m的的总加工时间；N_mn表示工序O_mn有无存储固化，当有存储固化，N_mn＝1,若无，则为0；P_mn表示工序O_mn有无配胶环节，当有配胶时，P_mn＝1,若无，则为0；T_n表示加工工序n的存储固化工序时间；L_n表示加工工序n的配胶工序时间；I_n表示加工工序n的称、装药时间；H_n表示试装工序时间；C_m表示加工工件m的任务交期。

优选的，步骤S3中，所述约束条件包括：

约束每个工件每道工序只能被加工一次：

约束起爆器工件交期时间：E_m≤C_m；

约束存储固化工序时间：12≤T_n≤24；

约束试装工序时间：2≤H_n≤3；

约束配胶工序时间：6≤L_n≤12；

约束称、装药工序时间：3≤I_n≤6。

优选的，所述马尔科夫决策模型包括状态空间设置、动作空间设置和奖励函数设置；

所述状态空间设置通过特征变量n_m、f_m、q_m、T来定义各加工工件的实时状态，其中，n_m表示正在加工工件m的工序号，f_m表示正在加工工件m的工序加工进度，q_m表示正在加工工件的工序选用的机器编号，T表示目前的系统时间；

所述动作空间设置包括：对各加工工件的行动进行编号，具体的编码方式为<0,1,2,…,q>，其中0表示等待加工，其余整数为加工机器编号；

所述奖励函数设置的奖惩函数公式为：

其中，d为生产完工时间，t为生产加工等待时间。

优选的，步骤S6中，深度强化学习DQN算法的训练过程包括Q网络和经验回放，所述Q网络包括主Q网络和目标Q网络。

优选的，深度强化学习DQN算法的优化过程如下：

步骤一：用两个结构相同的神经网络分别作为Q值网络和目标Q值网络，参数分别为θ和θ′：Q(s,a,θ)≈Q^π(s,a)；

步骤二：每隔n步，将当前Q网络参数复制给目标Q网络：θ′←θ；

步骤三：在Q值中使用均方误差来定义目标函数，即损失函数：

步骤四：计算参数θ关于损失函数的梯度：

步骤五：使用随机梯度方法实现端对端的优化目标。

对比现有技术，本发明的有益效果在于：

本发明提出了一种基于深度强化学习的起爆器生产调度方法，首先，从起爆器生产车间获取生产加工的实时信息，根据这些信息，确定起爆器柔性生产车间调度问题，并将调度问题转化为一个马尔科夫决策问题；使用深度强化学习中DQN算法来求解马尔科夫决策问题的最优解；在该方法的训练过程中，利用配置记忆库来降低训练信息之间的关联度，提高方法的训练速度；经过多次训练，得到训练最优的生产加工调度方法。和传统的调度方法不同，DQN方式是根据起爆器生产加工车间的实时信息而做出决策的，这使得该方法能够很好的应对起爆器生产车间各种扰动的影响，具有较高的稳定性和自适应性；能够有效的提高起爆器生产加工效率。

附图说明

附图1是本发明的流程图；

附图2是本发明的起爆器工件学习流程图；

附图3是本发明DQN算法损失函数构造过程。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

实施例：本发明根据起爆器生产加工特点，考虑到起爆器特殊生产工序试装、配胶、固化以及装压药等工序对起爆器生产加工的影响，针对于起爆器生产过程中紧急任务、机器故障、工艺变更问题等显隐性扰动，提供一种基于深度强化学习的航天起爆器生产调度方法，以最大程度地缩短完工时间及减小设备负荷量，能够提高生产调度的自适应性和实时性，缓解起爆器生产车间对人工调整的依赖，使调度方案能够更好地适应复杂动态的实际生产过程。

本发明将起爆器生产加工调度被表述为马尔科夫决策过程，然后，提出了一种新颖的的基于深度强化学习DQN算法的生产调度方法来确定该问题的最佳策略，通过该方法可以获取合适的规则来执行各种生产车间状态的调度。

如附图1所示，本发明公开了一种基于深度强化学习的航天起爆器生产调度方法，主要分为三个方面，分别是起爆器生产车间调度问题描述、目标函数和约束条件，马尔科夫决策模型的建立以及DQN算法的学习训练过程。具体包括以下步骤：

第一步，利用起爆器生产控制系统从起爆器生产加工车间中收集实时信息，所述实时信息包括机器设备总台数、生产加工计划，各生产工序加工时间、工件加工工序数以及各加工工序开完工时间等；这些信息的采集对于后面的DQN算法的学习训练至关重要。

第二步，根据起爆器生产车间收集的实时信息，对起爆器生产车间调度问题进行描述，明确各生产加工工位具体情况，并依据现场情况作出生产过程的假设。

通过对起爆器柔性生产车间调度问题的研究，假设A个起爆器在Q台设备上加工，其中每个起爆器需要s_j,j∈(1,2,…,e)道加工工序，工序要按照指定的加工工艺先后顺序进行加工，S_t＝[s₁,s₂,…,s_e]表示所有起爆器工序数所构成的集合。

所谓生产加工调度就是合理地将每道工序o_mn分配到一个具体的设备q，同时排列设备q上工件的加工顺序，并确定开始加工的时间，使其满足调度优化目标。

根据生产现场实际情况，提出以下假设：

1)各生产机器设备相互独立，加工过程中互不影响。

2)在零时刻，任意设备和工件均准备就绪。

3)每台设备在任意时刻正在加工的产品只能有一个。

第三步，确定起爆器柔性生产车间调度问题的目标函数以及约束条件。

具体地，目标函数，包括最小化机器总负荷函数以及最少加工等待时间函数，在生产加工过程中，应尽量减少设备负荷量，为此后的生产加工或突发情况保有充足的生产能力，有效避免其对后续加工产生的影响，另外，对于加工等待时间，具体如下所示：

最小化机器总负荷数：

最少加工等待时间：

进一步地，约束条件，包括对每个工件只能加工一次、设备同一时间点只能加工唯一工件、每个工件交期时间以及固化、试装、配胶、装压药时间的约束，具体如下所示：

约束每个工件每道工序只能被加工一次：

约束起爆器工件交期时间：E_m≤C_m；

约束存储固化工序时间：12≤T_n≤24；

约束试装工序时间：2≤H_n≤3；

约束配胶工序时间：6≤L_n≤12；

约束称、装药工序时间：3≤I_n≤6；

第四步，马尔科夫决策问题模型的建立。

马尔科夫决策问题模型可以很好地描述随机动力学系统。在发明中，我们应用具有离散时间步长的有限马尔科夫决策问题模型来描述起爆器生产车间实时调度。具体而言，任何两台机器空闲的时间间隔是两个相邻时间步t之间的时间间隔。在时间步骤t，我们观察到系统状态s_t,该状态包括正在加工工件的工序号，正在加工工件的工序加工进度，正在加工工件的工序选用的机器编号，目前的系统时间。有了这些信息，我们就可以选择适当的操作。执行此操作后,我们可以观察新系统状态s_t+1的状态，并在时间步t+1处选择操作。马尔科夫决策问题模型提供了一种数学体系结构，用于在结果部分随机且部分受决策者控制的情况下对决策过程进行建模。马尔科夫决策问题模型是一个四元组<S,A,T,R>,其中S是包含所有状态的有限集，A是包含所有动作的有限集﹐T是定义为T:S×A×S→[0,1]的状态转移概率S→[0,1]，R是定义为R:S×A×S→R的奖励方程。考虑到紧急任务，工艺变更，随机机器故障等，我们定义的起爆器生产加工调度的马尔科夫决策问题模型的详细定义如下：

1、状态空间定义

在起爆器柔性生产车间，工件的状态定义应充分涉及生产车间的所有条件可能，反映生产车间的不确定性，便于工件有效识别自身状态并作出行动决策，采用的编码方式为：<n_m,f_m,q_m,T>；

其中m为航天火工品序号，n为工序号，f为工序n的进度，q为工序n所选用的机器编号，T为系统时刻。

2、动作空间设置：

在起爆器生产加工过程中，工件的行动是从等待和各个机器之间做出选择，是离散的。所以机器的编号即可以作为工件智能体的行动编号，具体的编码方式为：<0,1,2,…,q>。

其中0表示等待加工，即还未选择加工机器，加工工件进入缓冲区等待，其余整数为加工机器编号。

3、报酬函数设置：

奖励功能是马尔科夫决策过程最重要的部分。这是因为奖励函数隐式定义了学习目标。奖励功能用于控制系统的优化方向。为了实现最优调度，我们定义了报酬函数，设置如下所示：

第五步，经过第四步的状态空间的计算，起爆器生产车间实时信息被转化为实时状态。将转化好的实时状态存储在记忆库中，作为深度强化学习DQN算法训练的输入。

第六步，深度强化学习DQN算法的训练。我们使用起爆器生产车间的实时状态作为Q网络的输入。输出训练好的Q网络的参数，并根据ε衰减贪婪策略选择最合适的动作。执行此操作后，系统进入下一个状态s_t+1。深度强化学习DQN算法的训练过程主要包括两个部分：Q网络(主Q网络和目标Q网络)和经验回放。

1、Q网络

在以往深度强化学习DQN算法的训练中，目标Q值的计算使用当前要训练的Q网络参数来计算Q(s_t+1,a,θ)，然后使用同一网络。这在迭代中导致两者之间的过度相关，这不利于算法的收敛。为了使算法的性能更加稳定，我们建立了两个结构相同但参数不同的神经网络：主Q网络和目标Q网络。

在初始时刻，将主Q网络的参数分配给目标Q网络，然后主Q网络继续更新神经网络参数，而目标Q网络的参数是固定的。然后，将主Q网络的参数分配给目标Q网络。来回循环直到训练完成。这会使目标Q值在一段时间内保持恒定,从而使算法更新更加稳定。

主Q网络和目标Q网络是结构相同的两个Q网络。具体而言，Q(s,a,θ)表示主Q网络的输出，并用于评估与当前状态和操作相对应的值函数。Q(s_t+1,a,θ′)表示目标Q网络的输出。Q网络由三层网络组成。输入层完全连接到具有v个节点的隐藏层。每个隐藏层的值是：

v_t＝g(w₁×x_t+b₁)；

其中x表示输入向量，g是整流后的激活函数，w₁是权重矩阵，b₁是偏差向量。

然后，隐藏层完全连接到输出层。Q网络的输出是系统状态下所有可行调度规则的作用值，即：

Q(s_t,a)＝g(w₂×v_t+b₂)；

其中w₂是权重矩阵，b₂是阀值矩阵。输出是具有最大操作值的调度规则。

2、经验回放

在起爆器生产车间系统中，相邻状态之间的相关性特别高。因此，如果将这些数据用于顺序训练﹐则神经网络的稳定性不够高。鉴于此，我们使用经验重播的方法来训练Q网络，这可能会破坏数据之间的关联。具体方法是在学习过程中建立“经验回放”。将所有s_t，a_t，s_t+1和r_t存储在内存中一段时间。训练神经网络时，会从内存中随机选择一些数据进行训练，这会破坏原始数据的顺序并削弱数据的相关性。

附图2为起爆器生产加工过程工件探索学习过程。

深度强化学习DQN算法的优化过程如下：

步骤三：在Q值中使用均方误差来定义目标函数，即损失函数，附图3为DQN算法损失函数的构造：

步骤四：计算参数θ关于损失函数的梯度：

步骤五：使用随机梯度方法实现端对端的优化目标。

第七步，起爆器生产实时调度。

经过第六步的深度强化学习DQN算法训练后，用于起爆器生产车间实时调度的Q网络参数被固定。当输入起爆器生产车间实时状态时，DQN算法输出合适的调度规则，用于当前时刻的起爆器生产车间实时调度。在完成本次调度后，起爆器生产车间进入下一个状态﹐直至完成整个调度过程。

本发明在强时间条件约束下，将与时间相关的质量问题考虑到柔性生产加工中，实现离散多批次小批量产品的生产加工，提高起爆器的生产效率；本发明考虑起爆器产品在生产加工过程中特有的试装、固化、装压药环节，以及环境因素对药剂、胶液的影响而产生的二次调度，能够大幅度降低产品在正式使用过程中发生事故的可能性。