CN114503038A

CN114503038A - 使用状态矩阵自学习柔性制造系统的制造调度的方法及设备

Info

Publication number: CN114503038A
Application number: CN201980100510.7A
Authority: CN
Inventors: 斯基林·贝尔; 丹妮尔·切尔西·图尔纳
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2022-05-13
Also published as: JP2022548836A; KR20220066336A; EP4004663A1; WO2021052588A1; US20220342398A1

Abstract

一种用于自学习柔性制造系统的制造调度的方法，该柔性制造系统具有以处理实体互连的加工实体，其中，借助于在柔性制造系统的模型上的增强学习系统来学习制造调度，其中，模型至少表示柔性制造系统的行为与决策制定，并且其中，模型被转换为状态矩阵以模拟柔性制造系统的状态。提出的方案包括在模拟中进行训练并且根据FMS内多种各个情形的经定义动作集合来学习最佳决策的用于线上调度和资源分配的自学习系统。对于不可预见的情形，建议该方案(当使用神经网络时)。当应用该系统时，能够在生产过程期间近乎实时地做出决策并且系统以FMS使用不同的优化目标来找出每个产品的最佳方式。在使用具有工艺路线柔性的制造系统方面并且自动地规定产品穿过工厂的工艺路线和分配合适的机器或制造模块特别好。

Description

使用状态矩阵自学习柔性制造系统的制造调度的方法及设备

技术领域

柔性制造系统(FMS)指这样一种制造系统，其中，存在允许系统在无论预测到还是未预测到的变化的情况下做出反应的一定量柔性。

背景技术

工艺路线(英语：routing)柔性覆盖系统的发生改变而生产新的产品类型的能力以及改变在部件上执行的操作顺序的能力。机器柔性指使用多个机器对部件执行相同操作的能力以及适应大规模的变化(诸如体积、容量、或能力)的系统能力。

大部分FMS由三个主系统构成。作业机器(通常指自动化的CNC机器)以材料处理系统而互连，以对部件流程和控制材料移动和机器流程的中央控制计算机进行优化。

FMS的主要优点在于其管理类似时间和精力的制造资源来制造新的产品时的高度柔性。FMS的最佳应用在于在类似大量生产的小型产品集合的生产中。

由于趋势发展至模块化和柔性制造系统(FMS)，离线调度不再是能够实现有效的产品工艺路线的唯一度量。必须考虑到预期不到的情况，诸如制造模块出现故障、空的材料堆或FMS的重新配置。因此，具有一种(额外的)线上调度与资源分配系统是很有帮助的。

第二个问题在于现有技术的调度系统的状态的高工程化工作量，如MES的产品工艺路线系统。进一步地，这些方案是静态的。由于系统在模拟中自己学习每种情形的决策，直至其被应用于运行时并且能够针对FMS的变化或适配进行重新训练为止，自学习产品工艺路线系统将减少工程化工作量。

制造执行系统(MES)被用于产品规划和调度，但是实现大部分这些用户指定系统的工程化工作量是极其大的。MES的规划与调度部件可被本发明的线上调度与分配系统所替代。

此外，存在自学习产品工艺路线系统，但具有较高计算费用的少量构思(在产品等待答案的过程中在线上计算最佳的决策)。

例如，能够在下列公开中找出这些构思地描述：

Di Caro,G.,与Dorigo,M.1998。用于通信网络的Antnet分布式共识控制。人工智能研究杂志9:317-365。Dorigo,M.,与Stutzle,T.2004。蚁群算法。MIT出版社Sallez,Y.；Berger,T.；以及Trentesaux,D.2009。一种用于在fms中动态地给激活产品规定工艺路线的共识方案。工业计算机60:204-216。

Pach,C.；Berger,T.；Bonte,T.；以及Trentesaux,D.2014。Orca-fms：一种用于柔性制造调度的优化和反应式控制的动态架构。工业计算机65:706-720。

另一种方案是多代理系统，其中，存在控制代理竞价的中央实体，使得代理必须与该实体进行通信，在下面对此进行了描述：

Frankoviˇc,B.与Budinskˊa,I.2000。“Advantages and disadvantages ofheuristic and multi agents approaches to the solution of scheduling problem(解决调度问题的启发式和多代理方案的优点和缺点)”。会议IFAC控制系统设计的会刊。布拉迪斯拉发，斯洛伐克：IFAC会刊第60卷，13期。或者

Leit～ao,P.与Rodrigues,N.2011。“Multi-agent system for on-demandproduction integrating production and quality control(按需式生产集成制造和质量控制的多代理系统)”。HoloMAS 2011,LNAI 6867:84-93。

增强学习是一种机器学习方法，通过使用奖励和惩罚的系统而对代理进行训练。

一般而言，增强学习算法或代理通过与其环境进行交互而学习。代理通过正确执行接收奖励并且因为不正确执行而接收惩罚。在无人类的干涉的情况下，代理可以通过使其奖励最大化并且使其惩罚最小化而学习。

发明内容

本发明的目的是提供一种上面讨论的FMS的产品规划和调度的问题的解决方案。

通过根据权利要求1的特征的方法并且进一步通过根据权利要求10的特征的系统而解决问题。

一种用于自学习具有以处理实体而互连的加工实体的柔性制造系统的制造调度的方法，

根据本发明，具有下列步骤：

其中，通过柔性制造系统的模型上的增强学习系统而学习制造调度，

其中，模型至少表示柔性制造系统的行为与决策制定，其中，模型被转换为状态矩阵以模拟柔性制造系统的状态。

进一步地，一种用于自学习被至少用于生产产品的柔性制造系统的制造调度的增强学习系统，根据本发明，

其中，制造系统由以处理实体互连的加工实体构成，

其中，学习过程的输入包含柔性制造系统的模型，

其中，模型至少表示柔性制造系统的行为与决策制定，其中，根据权利要求1至9中任一项的方法，模型(400)被实现为状态矩阵(100)。

在从属权利要求中描述了本发明的有利实施方式。

实施方式的描述仅是本发明的执行的实施例并且并非意在限制本发明。

所提出的方案包括一种在模拟中进行训练并且根据FMS内多种各个情形的经定义动作集合来学习最佳决策的用于线上调度和资源分配的自学习系统。对于不可预见的情形，建议该方案(当使用神经网络时)。当应用该系统时，能够在生产过程期间近乎实时地做出决策并且系统通过FMS而使用不同的优化目标找出每个产品的最佳方式。在使用具有工艺路线柔性制造系统方面并且自动地规定产品穿过工厂的工艺路线和分配合适的机器或制造模块特别好。

附图说明

在下文中，将通过附图在优选实施方式中示出本发明：

图1：RL代理在虚拟级中训练构思的和经训练模型在物理级(真实FMS)中应用的概览，

图2：FMS在虚拟级中并且作为矩阵的状态与行为的表示，并且

图3示出示意性地设计FMS的GUI的可能草案。

具体实施方式

在图1中，示出了RL代理300在物理级(真实FMS 500)的虚拟级(指模拟)中的训练构思。针对FMS 100的模拟对代理300进行训练。训练模型400随后被应用为物理级500的受控策略600。

在右上方，示出了真实FMS 500的示意性表示100，且具有全部加工实体M1、...M6和处理实体C0、...C6。加工实体具有例如实现机械加工、钻孔等的功能/动作F1、...F3。

在从有限的动作集合302中选择一动作之后，通过做出随机化选择来开始，环境被更新，并且RL代理303观察新的状态(State)以及根据对其动作的评估进行奖励。RL代理的目标是通过找出最佳控制策略而使长期折扣奖励301最大化。

作为RL技术，可使用SARSA、DQN等，在图1中，其可作为深度神经网络DNN，104。

由于模块能够被各个制造过程所替代，该构思可被转换成任意工厂内的物流应用。

如果在一些情况下存在系统未知的情形(即，当存在新的制造模块时)，系统能够调查这种情形下的动作并且在线上学习这些动作如何执行。因此，尽管其在开始时可能选择次优的决策，然而系统在线上学习未知情形的最佳动作。可替代地，存在这样的可能性，即通过使用GUI(后面图3中更深度地描述的)再次在具有所适配工厂拓扑的训练设置中对系统进行训练。

重要步骤在于作为FMS模拟的状态矩阵200的FMS 500的表示。优选地，自动地根据FMS的表示100生成状态矩阵。

在设计FMS的示意图之后，例如，在图3的GUI 10的帮助下，自动生成状态矩阵。在图2中示出了具有所属FMS的状态矩阵的实施例。利用这种形状的矩阵，用户容易理解代理的行为，而非信任黑盒。

在图2中，右侧存在FMS的表示100并且左侧上存在FMS的对应状态矩阵200。

每个加工单元M1...M6在状态矩阵中具有对应的字段，状态矩阵所涉及字段的布置符合FMS的拓扑。特定字段的内容示出了关于特定加工实体的功能(F1，F2，F3)的信息。进一步地，在自身字段中描绘了处理单元(C0，...C6)，并且能够在矩阵的最后一行202中找出具有相应等待产品1，...4的决策点D。最后一行JL之前的行示出了加工作业的进度，例如，仍需要对M1、...M6进行机械加工。

按照与真实工厂拓扑及其周围的生产模块/加工单元(M1，...M6)相似的方式对处理单元进行排序，例如，传动带(C0，...C6)。生产模块包含关于能够执行的作业的进一步信息或工厂操作人员希望描绘的属性，如生产时间、质量或能效，仅提及了其中少数。通过特定编号对受控产品204进行标记，在该实施例中，以编号5标记，并且更新至其当前所定位的决策制定点4.1，4.2,...。

倒数第二行表示作业列表JL并且最后一行202的内容为特定模块的队列中当前正在等待的产品的数量，以考虑制造过程中的其它产品。可替代地，可以将具有产品ID的列表存储在所述的矩阵字段中。

当产品移至传动带中的下一位置时，状态矩阵被并行地用作模拟，据此，做出决策。如果产品进入模块中，由于仅在具有更新作业列表的下一决策制定点处对模拟进行更新，没有在模拟中对此进行描绘。初始状态能够被表征为完整的作业列表和经定义的产品位置，并且能够将终止状态定义成履行的作业列表，意味着全部字段具有值“0”(空)-无产品在等待。

对于工厂的每个模块或机器，在矩阵中生成一个位置。由于在工厂拓扑中对模块进行排序，这通过逐个模块而完成并且通过相同的方式构建矩阵。对于运输的决策制定点(模块之间的传送区段)，在与两个连接模块相邻的位置所生成的矩阵中也存在一个位置。按照与工厂拓扑相同的顺序自动地并且基于规则地构建矩阵。例如，对于在矩阵中生成新一行的决策，GUI中的网格可能有帮助。通常，网格有助于模块和传送区段进行定位并且然后在矩阵中找出相应的位置。

在自动创建状态矩阵和模拟之后，系统能够根据这些需求进行训练。使用增强学习(RL)代理对系统进行训练。其并非是多代理系统(MAS)，因此由于工厂的状态包括模块的队列长度的信息，不需要产品彼此进行通信。RL不需要被标记数据，这使得该方案对于有时困扰于生成被标记数据的任务的工厂操作员非常具有吸引力。

在本发明的一个实施方式中，能够使用GUI，其中，工厂操作员必须对工厂进行示意性并且以非常少的工程化工作量进行描绘。在图3中示出了示例性的GUI。存在模块化和静态生产模块的方框以及表示传送区段的细小方框。不得不在所需位置处放置决策制定点D。在GUI后面，存在所实现的固定与通用规则，诸如在决策制定点需要制定决策并且在决策制定之后产品能够在传送带上从一个决策制定点移至下一个决策制定点。

能够经由GUI的方框11定义加工单元。见方框12和13，在GUI中可容易设置工厂在一个时间的产品的最大数量、一个作业列表中的作业的最大数量、作业列表中的全部可能的作业、以及模块的特性(包括可用的可执行作业或操作或者最大队列长度)。

还能够设置动作，但是在具有多种方向的决策点处，默认动作是选择方向。当模块前方存在决策点并且无通向模块的传送带时，能够设置动作“进入”。利用工厂100的该示意性附图并且利用输入意义的固定知识，可以自动生成工厂的足够用于训练从一个决策点移至下一决策点的产品的简单模拟。

进一步地，由于生成状态矩阵的系统具有关于GUI的输入意义的知识，FMS的状态的表示能够直接并且被自动地描绘成状态矩阵15。如果存在额外的信息，工厂操作员则希望在模拟或状态矩阵中进行描绘，存在对该信息进行直接编码的可能性。

可替代的方案是描述性(OPC UA)信息模型，其描述了工厂拓扑等，然后，能够通过特定(OPC UA)客户端进行读取。然后，客户端能够建立模拟和状态矩阵。

奖励函数16对系统所选择的动作进行赋值，在这种情况下，产品所采用的路线以及产品如何在其路线上符合给定约束并且在每个时间步骤检查动作是否有用。因此，奖励函数必须包含这些过程特定约束、局部优化目标以及全部可经由方框14定义的全局优化目标。此外，能够设置作业顺序约束(必须首先、然后执行哪个作业等)，17

由于其是所考虑的优化目标的数学公式，自动生成奖励函数。

用户定义优化目标的重要性(例如，GUI 14中)，例如：

5x生产时间、2x质量、1x能效

并且在奖励函数的数学描述中对该信息进行直接转换：

0.625生产时间+0.25x质量+0.125x时间能量

此外，奖励函数包括系统应在制造过程期间所考虑的优化目标。这些目标能够包括完工时间、加工时间、材料成本、生产成本、能量需求以及质量。工厂操作员的任务是在GUI中设置过程特定约束和优化目标。还可以根据工厂操作员的需要考虑组合与加权优化目标。

在运行时，能够将所接收的奖励与所预期的奖励进行比较，以获得进一步分析或决策而对模型进行再次训练或进行精细地调试。

总之，本发明示出了在虚拟环境(所生成的模拟)中进行训练并且学习如何在其所看到的每个可能情形中做出反应的RL代理。在从有限的一组动作中选择一个动作之后，通过做出随机化选择而开始，环境被更新，并且RL代理观察新的状态并且根据动作的评估进行奖励。RL代理的目标是通过找出最佳的控制策略而使长期折扣奖励最大化。

在训练过程中，RL代理多次查看多种可能的情形(非常高的状态空间)，直至其获知最优动作为止。针对每个优化目标，对不同的RL代理进行训练。

在第一训练步骤中，RL代理被训练为控制产品，使得根据其优化目标进行制造。以固定的策略来控制制造过程中的其它产品。

在第二训练步骤中，在同一制造过程和模拟期间对不同的RL代理进行训练。这是为了彼此调整RL代理并且遵守其它代理的决策并且对其做出反应。然后，当RL代理给出满意的结果时，将在虚拟环境中训练的模型转换成工厂的物理级，在物理级中这些模型被应用为控制策略。取决于针对每个产品所定义的优化目标，使用适当的控制策略来控制产品工艺路线并且因此控制制造。这使得同时在一个FRMS中以最小生产批量实现产品的制造并且实现特定优化目标，诸如高能效或低材料成本。利用控制策略，取决于所定义的优化目标，制造工厂中的每个产品能够在制造过程期间的每个时间步骤做出其自身的决策。

如已经叙述的，在图1中，示出了RL代理在虚拟级(模拟)中的训练构思以及训练模型在物理级(真实FMS)中的应用。

由于模块能够被多种制造过程所替代，可将该构思转换成任意厂内物流应用。

在一些情况中，如果存在系统未知的情形(即，当存在新的制造模块时)，系统能够调查这种情形下的动作并且在线上学习这些动作如何执行。因此，尽管其可能在开始时选择次优决策，然而系统在线上学习未知情形的最佳动作。可替代地，存在使用GUI利用经适配的工厂拓扑在训练设置中再次对系统进行训练的可能性。

在本发明中，重要步骤在于FMS被自动表示为状态矩阵。因此，使用GUI，其中工厂操作员必须对工厂进行示意性并且以非常少的工程化工作量进行描绘。在图3中示出了示例性的GUI。存在模块化和静态生产模块的方框以及表示传送带区段的细小方框。不得不在所需位置处放置决策制定点。在GUI的后面，存在所实现的固定和通用规则，诸如在决策制定点需要制定决策并且在决策制定之后产品能够在传送带上从一个决策制定点移至下一个决策制定点。

在GUI中可容易设置工厂在一个时间的产品的最大数量、一个作业列表中的作业的最大数量、作业列表中的全部可能的作业以及模块的特性(包括可用的可执行作业或最大队列长度)。还能够设置动作，但是，在具有多种方向的决策点处，默认动作是选择方向。当模块前方存在决策点并且无通向模块的传送带时，能够设置动作“进入”。利用工厂的该示意性附图并且利用输入意义的固定知识，可以自动生成工厂的足够用于训练从一个决策点移至下一决策点的产品的简单模拟。

能够在一个FMS中同时使用不同的优化目标最优地制造各种产品。

在不需要编程(自训练系统)的情况下，通过与模拟环境进行交互而以FMS自动地找出产品的最优方式。

从GUI自动生成模拟，不存在生成用于训练的GUI的高工程化工作量。

从GUI自动生成FMS的当前状态的表示，因此，仅利用来自FMS的重要信息对状态描述进行工程化不需要大的工作量。

决策制定不是基于规则的或被工程化的。其是具有较少工程化工作量的自学习系统。

由于系统从训练中获知每种情形，决策制定在线上并且近乎实时地进行。

如果在一些情况下存在系统未知的情形(即，当存在新的制造模块时)，系统能够调查这种情形下的动作并且在线上学习这些动作如何执行。因此，尽管其可能在开始时选择次优决策，然而系统在线上学习未知情形的最佳动作。可替代地，存在使用GUI利用经适配的工厂拓扑在训练设置中再次对系统进行训练的可能性。

由于关于当前状态的信息包括模块队列并且因此包括重要的产品位置，产品之间不需要进行通信。

由于通过与模拟进行交互而训练，系统不需要被标记数据来找出最佳决策。

可将该构思转换成任意厂内物流应用。

Claims

1.一种用于自学习被至少用于生产产品的柔性制造系统(500)的制造调度的方法，

其中，所述制造系统由以处理实体(C，C1，...)而互连的加工实体(M1，M2，...M6)构成，

其中，通过在所述柔性制造系统的模型(400)上的增强学习系统(300)学习所述制造调度，

其中，所述模型(400)至少表示所述柔性制造系统的行为与决策制定，其中，所述模型(400)被转换为状态矩阵(200)以模拟所述柔性制造系统的状态。

2.根据权利要求1所述的方法，其特征在于，所述状态矩阵(200)中的一种状态表示包括所述产品的所述柔性制造系统(500)中的一种情形。

3.根据前述权利要求中任一项所述的方法，其特征在于，所述柔性制造系统(500)具有已知拓扑(100)，并且生成与来自所述模型(100)的信息对应的所述状态矩阵(200)，其中，根据所描述的所述柔性制造系统(500)的所述拓扑对所述状态矩阵(200)中的所述信息的位置进行排序。

4.根据前述权利要求中任一项所述的方法，其特征在于，自动生成所述状态矩阵(200)中的信息，

a)在第一步骤中，根据所述柔性制造系统中的实际位置将所述处理实体(C，C1，...，203)的信息放置到所述矩阵中；并且

b)在第二步骤中，放置所述加工实体(M1，M2，...M6，201)的信息。

5.根据前述权利要求中任一项所述的方法，其特征在于，关于所述加工实体的所述状态矩阵(200)中的信息包含相应实体的处理能力(F1，F2，...)的表示。

6.根据前述权利要求中任一项所述的方法，其特征在于，所述状态矩阵(200)的主体包含在加工实体的加工队列中等待的一个时间点处位于所述柔性制造系统中的每个产品的输入(202)。

7.根据前述权利要求中任一项所述的方法，其特征在于，所述状态矩阵(200)的主体包含作业列表(JL)的输入(JL)。

8.根据前述权利要求中任一项所述的方法，其特征在于，对于所述增强学习系统的训练，基于关于所述产品的制造过程或所述柔性制造系统的效率的额外输入的和优先化的优化标准，通过计算在一个时间t处包含关于所述柔性制造系统的全部状态信息的所述状态矩阵(200)的下一转换状态，作为用于选择将所述增强学习系统转换到时间t+1处的下一步骤的下一转换的基础，使用所述状态矩阵(200)中所包含的信息，其中，所述全部状态信息被用作所述增强学习系统的输入信息。

9.根据前述权利要求中任一项所述的方法，其特征在于，对于所述增强学习系统的训练，所述矩阵的初始状态显示完整的作业列表(JL)和经定义的产品位置，并且终止状态被表征为空的作业列表(JL)。

10.一种用于自学习被至少用于生产产品的柔性制造系统(500)的制造调度的增强学习系统，

其中，所述制造系统由以处理实体(C，C1,...)而互连的加工实体(M1，M2，...M6)构成；

其中，学习过程的输入包含所述柔性制造系统的模型(100)；

其中，所述模型至少表示所述柔性制造系统的行为与决策制定，其中，根据权利要求1至9中任一项所述的方法，所述模型(100)被实现为状态矩阵(200)。