CN114430815A

CN114430815A - 用于柔性制造系统及设备的自学习制造调度方法

Info

Publication number: CN114430815A
Application number: CN201980100616.7A
Authority: CN
Inventors: 斯基林·贝尔
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2022-05-03
Also published as: WO2021052589A1; JP2022548835A; JP7379672B2; US20220374002A1; KR20220066337A; EP4007942A1

Abstract

所提出的方法用于针对用于至少生产产品的柔性制造系统进行自学习制造调度，其中，制造系统由通过输送实体互连的加工实体组成，其中，制造调度将由强化学习系统在柔性制造系统的模型上学习，其中，该模型至少表示该柔性制造系统的行为和决策制定，其中，该模型作为佩特里网来实现。加工实体和输送实体的顺序能够互换，并且因此整个布置非常灵活。

Description

用于柔性制造系统及设备的自学习制造调度方法

技术领域

柔性制造系统(FMS)是其中具有一定程度灵活性的制造系统，其允许系统在变化的状况下做出反应，无论是可预测的还是不可预测的。

背景技术

路由灵活性包括改变系统的能力，以用于生产新产品类型，以及改变在零件上执行的操作顺序的能力。机器灵活性是使用多个机器以对零件执行相同操作的能力，以及系统吸收大规模的变化诸如体积、容量或性能的能力。

大多数FMS由三个主要系统组成。通常为自动化的CNC机器的工作机器通过材料处理系统连接以优化零件流和控制材料运动的中央控制计算机和机器流。

FMS的主要优势在于其在管理制造资源(如时间和精力)以制造新产品方面的高度灵活性。FMS的最佳应用在于小套装产品(如来自大量生产的产品)的生产中。

随着趋势转向模块化和柔性制造系统(FMS)，离线调度不再是实现高效产品路由的唯一措施。必须考虑意外事件，诸如制造模块的故障、空的材料堆或FMS的重新配置。因此，拥有(附加的)在线调度和资源分配系统是有帮助的。

第二个问题是与经典启发式方法类似的产品路由系统的决策制定的高的工程工作量。自学习产品路由系统将减少工程工作量，因为在模拟中系统自身学习关于多个状况下的决策，直至在运行时其能被应用为止。

另一点，数学地描述FMS中的规则和约束并且实施它们导致了高的工程工作量。自学习智能体的想法是理解这些约束，同时以非正式的方式在奖励函数中考虑它们。

制造执行系统(MES)用于产品规划和调度，但是实施这些主要特定于客户的系统需要极高的工程工作量。解决调度问题的经典方法是使用(元)启发式方法。在不可预见的事件中，进行了重新调度。一方面，这需要大量的时间，并且另一方面，难以决定何时必须进行重新调度。

自学习产品路由系统的一些概念是已知的，但是计算费用高，在生产期间在线计算最佳决策需要等待答案。

例如，在以下公开文本中能够找到这些概念的描述：

Di Caro,G.和Dorigo,M.1998。Antnet distributed stigmergic control forcommunications networks(用于通信网络的蚁群网络分布式共识主动控制)。Journal ofArtificial Intelligence Research(人工智能研究杂志)9:317-365。Dorigo,M.和Stutzle,T.2004。Ant Colony Optimization(蚁群优化)。The MIT Press(麻省理工学院出版社)。Sallez,Y.；Berger,T.和Trentesaux,D.2009。A stigmergic approach fordynamic routing of active products in fms(柔性制造系统中主动产品的动态路由的共识主动方法)。Computers in Industry(工业计算机)60:204-216。

Pach,C.；Berger,T.；Bonte,T.；和Trentesaux,D.2014。Or-ca-fms:a dynamicarchitecture for the optimized and reactive control of flexible manufacturingscheduling(用于柔性制造调度的优化和反应控制的动态体系结构)。Computers inIndustry(工业计算机)65:706-720。

另一方法是其中有中央实体控制智能体的要求的多智能体系统，因此智能体必须与该实体通信，这描述为：

Frankovi^νc,B.和Budinsk'a,I.2000。"Advantages and disadvantages ofheuristic and multi agents approaches to the solution of scheduling problem(启发式和多智能体方法解决调度问题的优缺点)"。Proceedings of the ConferenceIFAC Control Systems Design(IFAC控制系统设计会议记录)。Bratislava,Slovak Rep.:IFAC ProceedingVolumes 60,Issue 13or(斯洛伐克共和国布拉迪斯拉发：IFAC记录第60卷第13期或)

Leit～ao,P.和Rodrigues,N.2011。"Multi-agent system for on-demandproduction integrating production and quality control(集成生产和质量控制的按需生产多智能体系统)"。HoloMAS 2011,LNAI 6867:84-93。

强化学习是一种使用奖励和惩罚的系统来训练算法的动态编程的类型。一般来说，强化学习算法或智能体通过与其环境交互来学习。智能体通过正确执行来接收奖励，并且因不正确执行而受到惩罚。智能体在没有来自人类干预的状况下通过最大化其奖励并且最小化其惩罚来学习。

在多智能体强化学习(RL)的领域中也有针对分布式作业车间调度问题的研究，其中，一个智能体控制一个制造模块并且决定是否能够派遣作业。

在Gabel T.,Multi-Agent Reinforcement Learning Approaches forDistributed Job-Shop Scheduling Problems(分布式作业车间调度问题的多智能体强化学习方法),Dissertation(论文),June(六月)2009中描述了实例。

缺点是需要中央实体来制定全局决策，并且每个智能体只能获得FMS状态的简化视图，这能导致长的训练阶段。

发明内容

本发明的目的旨在针对上述所讨论的问题提供解决方案，以用于FMS的产品规划和调度。

该问题通过根据权利要求1所述的特征的方法和通过根据权利要求8所述的特征的系统来解决。

在从属权利要求中描述了本发明的其他有利实施方式。

解决方案的描述仅是执行的实例，并且并不意味着对本发明的限制。

所提出的方法用于针对用于至少生产产品的柔性制造系统进行自学习制造调度，其中，制造系统由通过输送实体互连的加工实体组成，其中，制造调度将由强化学习系统在柔性制造系统的模型上学习，其中，该模型至少表示柔性制造系统的行为和决策制定，其中，该模型作为佩特里网(petri net)来实现。

加工实体和输送实体的顺序能够互换，并且因此整个布置非常灵活。

佩特里网，也称为位置/转换(PT)网，用于描述分布式系统的数学建模语言。它是一类离散事件动态系统。佩特里网是有向二分图，其中，节点表示转换(即可能发生的事件，通过条形表示)和位置(即条件，由圈表示)。有向弧描述了哪些位置是关于哪些转换的前置条件和/或后置条件(由箭头表示)。

已经有研究使用佩特里网对材料流进行建模，并且使用佩特里网模型和启发式搜索来调度FMS中的作业，例如：“Method for Flexible Manufacturing Systems Based onTimed Colored Petri Nets and Anytime Heuristic Search(基于定时有色佩特里网和随时启发式搜索的柔性制造系统方法)”，IEEE Transactions on System,Man,andCybernetics(系统、人与控制论的IEEE交易):Systems(系统)45(5):831-846·May(五月)2015。

本发明提出了用于在线调度的自学习系统，其中，RL智能体针对佩特里网进行训练，直至它们从针对FMS内的多个状况限定的一组动作中学习到最佳决策为止。佩特里网表示FMS的系统行为和决策制定点。佩特里网的状态表示FMS中的状况，因为它涉及模块和位置的拓扑以及产品的种类。

该自学习系统的最初想法是使用佩特里网作为工厂架构、其状态和其行为的表示，以用于训练RL智能体。佩特里网的当前状态进而工厂被用作RL智能体的输入。同时，佩特里网被用作FMS(环境)的模拟，因为它在RL智能体选择每个动作之后会进行更新。

当应用经训练的系统时，能够在生产过程期间近乎实时地制定决策，并且智能体通过FMS控制产品，包括将操作派遣至使用不同优化目标的各种产品的制造模块。本发明尤其适用于具有路由和派遣灵活性的制造系统。

该佩特里网能够由用户手动创建，但是也能够通过使用例如如图3中描绘的背后具有逻辑的GUI来自动创建，它能够在佩特里网中翻译架构的示意性描述。

对于每个模块或机器，生成一个位置。对于每个决策制定点，也生成一个位置。对于两个点之间的每个传送带连接，生成连接相应位置的转换。通过遵循这些规则，佩特里网的拓扑将自动看起来与用户创建的工厂拓扑非常类似。

MES的规划和调度部分能够被本发明的在线调度和分配系统取代。

附图说明

在下文中，本发明将通过附图在优选实施方式中进行说明。

图1示出了在虚拟层(佩特里网)中RL智能体的训练构思以及在物理层(实际FMS)中经训练的模型的应用，

图2上部示出了将FMS的状态和行为表示为佩特里网，有色佩特里网用于表示FMS中的多个产品，

图2下部示出了该矩阵包含佩特里网的系统行为，

图3示出了GUI的可能的草案以用于示意性地设计FMS。

具体实施方式

图1示出了来自训练系统300的整个系统的概览，其中，实际工厂500表示为佩特里网102。

因为RL技术，我们能够使用SARSA、DQN等。

一个RL智能体模型针对佩特里网102进行训练，以稍后精确控制一种产品。因此，针对各种产品训练有各种智能体，其能够是同一智能体的一些实例，每种产品一个。由于工厂的状态包括模块的队列长度和其他产品的位置信息，因此产品不需要彼此之间进行通信。

图1示出了训练的构思。RL智能体在虚拟环境(佩特里网)中训练，并且学习如何在示出的不同状况下做出反应。在从一组有限的动作中选择动作之后，从随机选择开始，更新环境，并且RL智能体观察新的状态和奖励作为对其动作的评估。RL智能体的目标是通过找到最佳控制策略来最大化长期折扣奖励。

在训练期间，如果神经网络与RL智能体一起使用，RL智能体多次看到多个状况(非常高的状态空间)并且能够推广到看不到的状况。在针对佩特里网训练智能体之后，在运行时将智能体应用于在线调度之前，将其在实际的FMS中进行微调。

在采取动作302之后，观察模拟中的结果303，并且给出反馈(奖励301)。

由于工厂的状态包括模块的队列长度和其他产品的位置信息，因此产品不需要彼此之间进行通信。

在从一组有限的动作中选择动作之后，通过随机选择开始，更新环境，并且RL智能体观察新的状态和奖励，作为对其动作的评估。RL智能体的目标是通过找到最佳控制策略来最大化长期折扣奖励。在训练期间，如果神经网络与RL智能体一起使用，RL智能体多次看到多个状况(非常高的状态空间)并且能够推广到看不到的状况。在针对佩特里网训练智能体之后，在运行时将智能体应用于在线调度之前，在实际的FMS中对其进行微调。

利用工厂的示意图101以及利用内容含义的固定知识，能够自动生成佩特里网102，如其在所有附图中示意性描绘的。

在下文中，解释佩特里网101的结构。

将圆圈命名为位置M1、……、M6，并且将箭头1、2、……、24命名为佩特里网环境中的转换。图2中的佩特里网的内六边形表示传送带部分(位置7-12)，并且外部位置表示能够连接制造模块的位置(数字1-6)。转换3、11、15、19、23让产品停留在相同位置。其余数字1、……、24是转换，能够触发转换以将产品(令牌)从一个位置移动至另一位置。当在第一操作之后第二操作能够在相同模块中执行时，这些转换是有用的。佩特里网的状态由位置的乘积a、b、c、d、e(令牌)限定。为了考虑FMS中的多个不同产品，能够使用具有有色令牌的有色佩特里网作为不同产品。除了颜色，还能够使用产品ID。

描述工厂架构(位置)及其系统行为(转换)的佩特里网也能够表示在一个单个矩阵中，如下图2所示。

该矩阵描述了通过激活转换来将令牌从一个位置移动到另一位置。行是位置并且列是转换。例如第二列和第一行中的+1描述了一个令牌通过激活转换2移动至位置1。通过使用如图2中的矩阵，能够通过将转换向量和矩阵C的点积与前一状态相加来轻松地计算佩特里网的以下状态。转换向量是一个热编码向量，它描述了受控智能体待触发的转换。

FMS的佩特里网表示非常适合RL智能体的训练环境。例如，通过称为Q-学习(Q-Learning)的算法针对佩特里网训练RL智能体，直至策略/Q值(针对事件的长期折扣奖励)收敛。佩特里网的状态是用于表示FMS中的状况的一个组成，包括受控产品和其他产品的产品位置及其特征。这种状态能够用单个向量表示，并且用作RL智能体的输入向量之一。该向量限定了佩特里网中每个位置的状态，包括位于该位置的产品类型。

即如果产品类型a位于容量为三的位置一上，则第一向量的录入如下所示[a,0,0]。

如果产品类型b和c在容量为三的位置二上，则第一向量和第二向量的录入如下所示[[a,0,0][b,c,0]]。

RL智能体的动作空间由佩特里网的所有转换限定。因此，RL智能体的任务根据状态触发转换。

然后在单行代码中非常快速地计算下一状态，并且将下一状态传播回奖励函数和智能体。在触发无效转换时，智能体将首先通过获得负奖励来学习工厂行为，并且然后将能够触发合适的转换，即由不同智能体控制的所有产品都以有效的方式生产。智能体在运行时的动作与受控产品在需要制定决策的每个点上应该走的方向相关联。由于多个智能体通过其优化目标控制不同的产品，同时考虑附加的全局优化目标，该系统能够用作在线/反应式调度系统。

奖励函数(奖励函数不是本发明的一部分，本段仅用于理解奖励函数如何参与训练RL智能体)重视智能体选择的动作、模块的派遣，以及智能体如何遵守给定的约束。因此，奖励函数必须包含这些特定于过程的约束、局部优化目标和全局优化目标。这些目标能够包括完工时间、加工时间、材料成本、生产成本、能源需求和质量。

自动生成奖励函数，因为它是待考虑的优化目标的数学公式。

工厂操作员的任务是在例如GUI中设定特定于过程的约束和优化目标。还能够根据工厂操作员的期望考虑组合和加权优化目标。在运行时，能够将接收到的奖励与预期奖励进行比较，以进一步分析或决定再次训练模型或对其进行微调。

由于模块能够被各种制造过程所取代，因此该构思能够转移到任何工厂内的物流应用中。本发明有利于在线调度，但是也能够应用于离线调度或以组合的方式使用。

如果在一些状况下存在系统不知道的状况(即当有新的制造模块时)，系统能够探索这种状况下的动作并且在线学习如何执行动作。因此，系统在线学习未知状况下的最佳动作，尽管它可能会在一开始就选择次优决策。可替选地，在训练设置中能够再次利用适应的工厂拓扑例如通过使用GUI对系统进行训练。

在图3的实例GUI 110中，右侧是FMS的表示。有用于模块化和静态生产模块的框M1、……、M6和表示传送带部分的小框C、C1、……、C6。模块化框M1、……、M6中的数字表示特定制造模块的加工功能F1、F5，例如钻孔、成型、打印。能够想象，制造过程中的一项任务能够由不同的制造站M1、……、M6执行，即使它们实现不同的加工功能，也能够互换。

决策制定点D1、……、D6被放置在期望的位置处。在GUI的背后，实施了固定且通用的规则，例如在决策制定点处需要做出决策(→稍后：智能体调用)并且产品能够在传送带上从一个决策制定点移动至下一个决策制定点或者在制定决策之后停留在模块中。能够在典型的GUI的第三+框113中设定工厂中产品的最大数量、作业列表中的最大操作数量和与所有可能操作一样的作业顺序约束117以及模块的属性(包括最大容量或队列长度)。也能够设定动作，但是在默认状况下，佩特里网102的每个转换都是动作。

例如通过在GUI中设定值的方式能够限定优化目标的重要性114，例如

5×生产时间，2×质量，1×能源效率

并且然后该信息将直接转换为奖励函数116的数学描述，在该实例中：

0.625生产时间+0.25×质量+0.125×时间能量

本发明提供了具有能够非常快速地对看不见的状况作出在线反应的调度系统。自学在线调度引起较少的工程工作量，因为它不是基于规则或工程的。使用所提出的解决方案，通过与佩特里网交互找到最佳在线调度，而无需工程工作量，例如限定启发式。

与已知的工厂模拟工具相比，“模拟”时间非常快，因为对于计算下一状态仅需要一个方程。模拟工具与智能体之间不需要通信(“模拟”集成在智能体的环境中，因此也没有响应时间)。

对于训练不需要模拟工具。

不需要标记数据便可找到最佳决策，因为它是针对佩特里网进行训练的。用于FMS的佩特里网能够自动生成。

各种产品能够在一个FMS中以不同的优化目标和附加的全局优化目标进行优化制造。

由于RL，对于工程师无需过度考虑每种奇异状况来为系统规则建模。

应用系统的决策制定在线发生并且近乎实时。

例如对于新的拓扑，能够进行在线训练，也能够离线重新训练智能体。

Claims

1.一种用于针对用于至少生产产品(a、b、c、d、e)的柔性制造系统(500)进行自学习制造调度的方法，

其中，所述制造系统由通过输送实体(C，C1，……)互连的加工实体(M1，M2，……，M6)组成，

其中，所述制造调度将由强化学习系统(300)在所述柔性制造系统的模型(400)上学习，

其中，所述模型至少表示所述柔性制造系统的行为和决策制定，

其中，所述模型(400)作为佩特里网(100)来实现。

2.根据权利要求1所述的方法，其特征在于，所述佩特里网(100)的一个状态表示所述柔性制造系统中的一个状况。

3.根据前述权利要求中任一项所述的方法，其特征在于，

所述佩特里网的位置(PM1，……，PM6)表示一个加工实体(M1，M2，……，M6)的状态，并且

所述佩特里网的转换(1，……，24)表示一个输送实体。

4.根据前述权利要求中任一项所述的方法，其特征在于，

所述佩特里网的转换与所述柔性制造系统的动作相对应。

5.根据前述权利要求中任一项所述的方法，其特征在于，

所述柔性制造系统具有已知的拓扑，并且生成了与来自包含关于转换和位置的信息的所述佩特里网(102)的信息相对应的矩阵(103)，并且

所述矩阵(103)中的所述信息的位置根据所描述的柔性制造系统的拓扑来排序。

6.根据前述权利要求中任一项所述的方法，其特征在于，

所述矩阵(103)的主体包含用于在一个时间点位于所述柔性制造系统中的每个产品(a，b，c，d，e)的输入，并且

所述矩阵示出所述柔性制造系统中相应产品(a，b，c，d，e)的位置或者从一个位置到另一位置的移动。

7.根据前述权利要求中任一项所述的方法，其特征在于，

使用有色佩特里网以表示相应产品(a，b，c，d，e)的特性。

8.根据前述权利要求中任一项所述的方法，其特征在于，

对于所述强化学习系统的训练，所述矩阵(103)中包含的信息通过计算用作用于所述强化学习系统的输入信息的向量而被使用，所述输入信息是基于与产品(a，b，c，d，e)的制造过程或所述柔性制造系统的效率有关的、附加输入的并优先级化的优化标准来选择转换至所述强化学习系统的下一步的基础。

9.一种用于针对用于至少生产产品(a，b，c，d，e)的柔性制造系统(500)的自学习制造调度的强化学习系统，

其中，学习过程的输入包括所述柔性制造系统的模型(400)的输入，

其中，根据权利要求1至8中所述的方法中的一个方法，所述模型(400)作为佩特里网(100)来实现。