CN113093673B

CN113093673B - 一种使用平均场动作价值学习优化车间作业排程的方法

Info

Publication number: CN113093673B
Application number: CN202110350151.XA
Authority: CN
Inventors: 朱枝睿; 高阳; 陈子璇; 王健琦
Original assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Current assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-03-29
Anticipated expiration: 2041-03-31
Also published as: CN113093673A

Abstract

本发明提供了一种使用平均场动作价值学习优化车间作业排程的方法，属于人工智能和运筹优化交叉领域。本专利使用多智能体马尔科夫决策过程建模车间作业排程的一次求解过程，在此过程中设备作为智能体根据本地观测选择作业进行加工，而且每个作业按生产的时长被动态划分为子作业。本方法使用模拟器处理对应现实条件的复杂约束，由多分类平均场强化学习算法进行多目标优化，从而对车间作业排程问题的痛点进行解耦，专注优化订单出货代价时能将生产周期整体时间压缩约30%，每个订单平均等待时间压缩约35%。

Description

一种使用平均场动作价值学习优化车间作业排程的方法

技术领域

本发明使用平均场动作价值学习优化车间作业排程方案，属于人工智能和运筹优化交叉领域。柔性车间作业优化问题一直以来都是运筹学中的难题，本专利将此问题建模成多智能体多步决策问题进行求解，通过平均场强化学习的方式优化求解器的参数达到对解的快速求解搜索。

背景技术

柔性作业车间调度问题研究自上世纪以来就成为组合优化的经典领域。它有多个优化目标，包括每个订单的完成时间，每台机器的服务效率，以及调度过程中的库存。此外，在投射到真实场景时，不同的制造工厂面临着各种各样的限制。这样的问题难以使用纯数学计算最优解，而是需要启发式的算法，例如遗传算法，贪婪随机自适应搜索算法，或混合搜索算法。现有研究一般基于单线程处理订单的简单建模，或针对某个特殊的生产场景而形成。因此难以形成可以被实际应用的通用求解方法。

基于智能体的建模和仿真通过分解动态的智能体和交互在分析复杂系统和问题求解上具有计算优势。为对复杂多变制造环境进行更好的分析求解，本专利提出了新的建模方法和一个作业车间模拟器，它们不再局限于一个高度抽象的模型，而包含了相当多的实际细节来满足不同的制造业约束。其中我们将每台设备对应一个自治的智能体，而订单对应被动智能体，此外为了辅助求解，我们还应用了其他的工具型智能体与环境交互，如检查器和可视化工具。

多智能体深度强化学习是通过强化学习算法解决多智能体决策问题，由深度神经网络实现其中的状态动作值函数近似或策略函数近似。在具有多个自治智能体的环境中，智能体可以在局部观察环境并独自进行决策。近年来，多智能体深度强化学习方法在大量游戏环境中取得超人的成就，包括捉迷藏游戏、多智能体房间导航、星际争霸等。

发明内容

发明目的：提出一种使用平均场动作价值学习优化车间作业排程的方法，以解决柔性车间作业优化问题。

技术方案：一种使用平均场动作价值学习优化车间作业排程的方法，包括如下步骤：

步骤1、建立和验证作业车间调度问题模型：此模型建立数据包括车间设备的产能，需要被生产的作业和订单，车间的其他特殊约束；

步骤2、生成设备的特征，并进行自动聚类，并为每类计算对应的平均场网络模型的超参数；

步骤3、为每类设备初始化一个经验池和一个神经网络；

步骤4、进行若干轮多智能体马尔科夫决策过程对作业车间调度问题进行求解：每轮首先使用关键步骤1中的问题模型初始化模拟器环境，然后循环过程，依次激活模拟事件直到有空闲设备，取一个设备进行观测，利用状态动作价值选择作业，将选择的作业解码为模拟事件，当环境中没有还需要求解的问题后结束此轮求解，评估本轮解的各个方面的代价，记录解和解的代价；

步骤5、对所有求得解按代价排序，返回关于本次求解结果总的报告和若干个代价极小的解。

根据本发明的一个方面，所述步骤1中的问题模型，具体的表示为一个三元组<M,O,T>的形式：

M表示车间设备的集合：每个设备m有一个可行的工艺集合，对集合中的每个工艺类型，设备还具有一些特殊的属性，包括生产效率，所需的准备时间，所需的开关时间和离散生产的特性，即k_m,op,

n_m,op，有时还会休眠等特殊约束；

O是所有订单的集合：每个订单o都对应了一系列作业配方，包括此作业的目标产品，需要的工艺类型，若干个原材料和原材料的配比，订单的最终需求是其中的一个特殊作业，工艺类型为出货，对应的原材料和原材料的配比就是此订单目标产品和量；

T表示周转：用来描述半成品的相关动态特性，包括库存控制和运输，我们使用一个车间内的最大的延迟时间t_delay来等待物料的运输。

根据本发明的一个方面，所述步骤2中，设备特征的生成方法如下：

设备的特征是其可执行工艺的01向量表示，向量长度为车间的总体工艺集大小

利用曼哈顿距离进行4次独立k-means聚类，选择分数最高的一次聚类结果，作为对设备的分类结果；

聚类数量默认为设备数量的开方：

对于一次聚类的结果，其分数通

计算，其中c_i表示聚类的中心的特征表示，通过此分数，我们限制每类与尽量少的作业相关，并且类之间的作业数量尽量均衡。

根据本发明的一个方面，所述步骤4中：利用多智能体马尔科夫决策过程求解作业车间调度问题，其中设备为自主决策的智能体，动作和作业对应，通过马尔科夫决策接口获得本地观测，使用深度神经网络推理动作价值，利用ε-Greedy策略进行动作选择，再返回马尔科夫决策接口解码动作为模拟器事件。

所述多智能体马尔科夫决策过程动作和作业对应方法为：

按生产时长动态划分作业：对于每个设备而言，其每次只需要在长度为T的时隙中安排子作业生产，在此时隙中，设备需要通过时隙前和时隙后的相邻子作业考虑换线和准备时间，实际可工作时间t_work≤T，对于设备m和生产类型为op的作业，设备的本次子作业的产量为α＝t_work×k_m,op。

所述多智能体马尔科夫决策过程本地观测编码方法为：

从全局观测中编码本地观测，在决策中使用部分可观测的方式取代全局状态以减少模型获得的冗余信息：对一个设备而言，其本地观测围绕所处设备类的相关作业形成，对每个相关作业我们考虑以下4个性质，从而形成规模为(|A|-1)×4的张量：当前设备对此作业的子最大生产能力T×k_m,op；考虑约束后的实际生产能力t_work×t_m,op；此作业的剩余需求量；此作业目前的存量。

所述多智能体马尔科夫决策过程涉及了一系列动作蒙版：

蒙版是一个长度为的01向量，每位对应一个动作，当蒙版位为0时，此作业不可选择，为1时可选择；该方法包含设计了5条可自由组合的蒙版规则：

当一个作业不是当前设备的相关作业时，对应位为0；

当一个作业在当前时刻不可被生产时，对应位为0；

当任何一个作业可被选择时，等待动作对应位为0；

当此生产时隙前的同生产类型作业可被生产时，其他作业对应位为0；

当此生产时隙前生产的作业可被继续生产时，其他作业对应位为0。

所述多智能体马尔科夫决策过程建立了全面的的代价评估体系，具体方法如下：

出货代价：设备提前于其最早/最迟出货时间而生产导致的代价，方法如下：

总的出货代价是每个订单的出货代价

的和，其中

为实际完工时间，当

时不受惩罚，否则受到系数为

的惩罚；

空等率：设备状态为空等的时间比总开机时间的比例，方法如下：

其中

为一个设备的总工作时间，而

其空等时间的集合；

换线率：设备换线的次数比其总工艺类型的比例，方法如下：

根据本发明的一个方面，一种使用平均场动作价值学习优化作业排程的方法的具体算法如下：

步骤1、取得各种参数包括求解的目标回合数N_epoch和目标轮次N_episode，期待的聚类数量N_class；

步骤2、初始化记录参数当前回合数额epo和当前轮次eps都记为0；

步骤3、初始化问题模型<M,O,T>；

步骤4、检查问题模型，判断当前模拟器条件下是否存在解，如果存在则继续求解，否则返回求解不可能的原因；

步骤5、计算聚类和每类对应的神经网络模型的部分超参数；

步骤6、(可选)初始化绘图工具；

步骤7、初始化平均场强化学习智能体和网络：根据步骤5得到超参术初始化为每个平均场算法智能体类的初始化共享经验池和共享网络；

步骤8、回溯模拟器到初始问题模型；

步骤9、模拟车间时序动态，直到车间有可工作的空闲设备，取得此空闲设备，利用专利设计的车间调度问题的马尔可夫决策接口编码观测和可行动作，利用瞬时奖赏计算这个设备上一步的代价；

步骤10、(可选)绘制当前模拟器状态，设备本地观测和可选动作；

步骤11、多分类平均场强化学习智能体根据观测和可行动作根据ε-Greedy策略选择一个动作；

步骤12、(可选)绘制当前模拟器状态和智能体的选择；

步骤13马尔可夫决策接口接口将被选择的动作解码为对应作业，再解码为模拟器事件返回模拟器；

步骤14、如果模拟器还有订单未完成，则回到步骤9；否则本轮求解完成，计算最终代价，保存解和解的代价；

步骤15、从经验池随机抽取经验训练平均场强化学习智能体，eps加1；

步骤16、如果eps＜N_episode，则回到步骤8；否则eps归0，epo加1；

步骤17、如果epo＜N_epoch，则回到步骤7；否则继续；

步骤18、对保存的解进行统计，返回求解报告和推荐的解。

有益效果：本发明对于小批量定制化生产的生产场景，能够处理真实工厂环境中特殊的约束，并形式化了车间环境中从不同角度出发的多个优化目标，强化学习算法优化提高设备选择动作时的决策能力，优化了求得的解的效率。

附图说明

图1是利用平均场动作价值学习优化求解作业排程方法过程的可视化图。

图2a是对设备和工艺关系的可视化图。

图2b是对每个订单的生产路径，和每个生产节点上生产规模的可视化图。

图3是是对一台设备在时序上状态切换的可视化图。

图4是一个自动聚类的结果。

图5是对前后继作业安排的可视化图。

图6是一种使用平均场动作价值学习优化作业排程的算法流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。一种使用平均场动作价值学习优化车间作业排程的方法，包括以下步骤：

步骤3、为每类设备初始化一个经验池和一个神经网络；

步骤4、进行若干轮多智能体马尔科夫决策过程对作业车间调度问题进行求解：每轮首先使用步骤1中的问题模型初始化模拟器环境，然后循环过程，依次激活模拟事件直到有空闲设备，取一个设备进行观测，利用状态动作价值选择作业，将选择的作业解码为模拟事件，当环境中没有还需要求解的问题后结束此轮求解，评估本轮解的各个方面的代价，记录解和解的代价；

在进一步实施例中，所述步骤1中的问题作业车间调度问题模型包括三元组<M,O,T>，在图2中可视化了车间作业中的设备和订单，这里进行补充说明：图2a可视化了设备和工艺之间存在的多对多的复杂关系，其中左侧节点对应一台设备，右侧节点对应一类加工工艺；图2b右侧可视化了各个订单的作业关系，不同订单的作业没有前后项关系，在一个订单中，三角形表示原材料节点，圆形为半成品或成品节点，用颜色浓淡区分前后继作业，用节点大小区分生产规模。可以看到订单内的作业具有线性和树形两种关系，而一般的数学方法和遗传算法等启发式算法无法处理这种树型关系，另外订单之间和订单内作业之间在生产规模上都存在差异性。

在进一步实施例中，所述步骤2中，对设备进行聚类，专利在图4中展示设备的聚类结果，在这里进行补充说明：因为此环境中有7台设备，所以本方法默认将其分为3类。图4以热力图的形式展示聚类结果，x轴对应了6个工艺，热力图第一行为聚类中心，下面每行依次对应此类中的一个设备。可以看到三个类中各有2，3，2个设备，因此每类中设备数量均衡。不同聚类之间的交集也很少，只有前两个聚类在工艺0上有交集。

在进一步实施例中，所述步骤3中，每个聚类使用的网络模型如图6所示，其中包含：网络的输入：本地观测和平均场；网络主体：首先分别编码观测和平均场再连接，网络可以使用循环神经网络提取时序特征，在实际实验中我们发现循环神经网络能够提高算法对解对优化性能，但可能受计算能力影响导致求解时间时间变长。本专利使用ε-Greedy策略探索动作，其中ε指设备以此概率选择一个随机动作，通过线性衰减此项，设备策略趋于稳定选择最优动作，设备动作选择只能在蒙版所限制的范围内进行。

在进一步实施例中，所述步骤4中，利用多智能体马尔科夫决策过程求解作业车间调度问题。如图1设备为自主决策的智能体，动作和作业对应，通过马尔科夫决策接口获得本地观测，使用深度神经网络推理动作价值，利用策略进行动作选择，再返回马尔科夫决策接口解码动作为模拟器事件。

此外本专利提出按生产时长动态划分作业。如图2，订单之间和订单内作业之间在生产规模上都存在较大的差异，因此直接一次生产会导致较长的等待时间，需要一种方法对作业进行划分。如图5是对前后继作业安排的可视化，其中图5a是一趟完全生产形式的排程方案的可视化，需要消耗最长的时间；图5b是将作业划分4份进行排程的可视化，能够缩短一些等待时间；图5c是作业按份数划分并并行排程的可视化，通过并行工作大量节约了时间；图5d是使用本专利提出的按时间灵活划分方法的可视化，不仅能节约时间，用到的设备也更少。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.一种使用平均场动作价值学习优化作业排程的方法，其特征在于，包括如下步骤：

步骤3、为每类设备初始化一个经验池和一个神经网络；

2.根据权利要求1所述的一种使用平均场动作价值学习优化作业排程的方法，所述步骤1中的问题模型，具体的表示为一个三元组<M,O,T>的形式：

M表示车间设备的集合：每个设备m有一个可行的工艺集合，对集合中的每个工艺类型，设备还具有一些特殊的属性，包括生产效率，所需的准备时间，所需的开关时间和离散生产的特性，即

有时还会休眠等特殊约束；

3.根据权利要求1所述的一种使用平均场动作价值学习优化作业排程的方法，其特征在于，所述步骤2中，设备特征的生成方法如下：

聚类数量默认为设备数量的开方：

对于一次聚类的结果，其分数通过

4.根据权利要求1所述的一种使用平均场动作价值学习优化作业排程的方法，其特征在于，所述步骤4中：利用多智能体马尔科夫决策过程求解作业车间调度问题，其中设备为自主决策的智能体，动作和作业对应，通过马尔科夫决策接口获得本地观测，使用深度神经网络推理动作价值，利用ε-Greedy策略进行动作选择，再返回马尔科夫决策接口解码动作为模拟器事件。

5.根据权利要求4所述的一种使用平均场动作价值学习优化作业排程的方法，其特征在于，所述多智能体马尔科夫决策过程动作和作业对应方法为：

6.根据权利要求4所述的一种使用平均场动作价值学习优化作业排程的方法，其特征在于，所述多智能体马尔科夫决策过程本地观测编码方法为：

7.根据权利要求4所述的一种使用平均场动作价值学习优化作业排程的方法，其特征在于，所述多智能体马尔科夫决策过程涉及了一系列动作蒙版：

蒙版是一个长度为当前作业数量的01向量，每位对应一个动作，当蒙版位为0时，此作业不可选择，为1时可选择；该方法包含设计了5条可自由组合的蒙版规则：

当一个作业不是当前设备的相关作业时，对应位为0；

当一个作业在当前时刻不可被生产时，对应位为0；

当任何一个作业可被选择时，等待动作对应位为0；

8.根据权利要求4所述的一种使用平均场动作价值学习优化作业排程的方法，其特征在于，所述多智能体马尔科夫决策过程建立了全面的的代价评估体系，具体方法如下：