CN116490885A

CN116490885A - 用于工业装置的控制方法和装置

Info

Publication number: CN116490885A
Application number: CN202080103765.1A
Authority: CN
Inventors: 李想; 王晓峰; 孟繁博
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2023-07-25
Also published as: WO2022056916A1; EP4193316A4; EP4193316A1; US20230384764A1

Abstract

本发明提供一种用于控制工业装置的方法和装置。所述方法包括：接收表征所述工业装置的当前状态的状态输入；基于机器学习模型，处理所述状态输入以产生表征将由所述工业装置针对所述当前状态执行的预期动作的动作输出，所述机器学习模型是基于所述工业装置的状态、各自针对所述工业装置的每一状态执行的动作和各自通过执行每一动作获得的结果而训练；以及基于所述动作输出，产生用于所述工业装置的控制信号。

Description

用于工业装置的控制方法和装置

技术领域

本发明大体上涉及工业控制，且尤其涉及基于机器学习的工业控制。

背景技术

目前，大多数工业装置由由人类专家预定义的规则或由人类专家调谐的控制器控制。为了实现自动控制，工业装置的控制通常通过专家知识的简化公式来指导。但是，对于高度非线性、多输入、多输出和延迟的工业装置，这无法提供令人满意的控制性能。

对于高度非线性、多输入、多输出和延迟的工业装置，单独的控制已经用于具有多个控制回路的不同装置参数，但对于多个回路，装置的控制可变得不稳定且对小的干扰敏感。在一些情况下，针对具有高惰性响应的参数引入经验控制；但这无法保证工业装置的一致生产质量。

替代地，模型预测控制用于高度非线性、多输入、多输出和延迟的工业装置。模型预测控制的核心理念是利用一个模型来预测未来工厂的产量，且解决一个优化问题来选择最优控制。设计模型需要高的人工工作和专家知识，且实时控制是不可行的，因为用模型寻找最优解决方案需要太长的计算时间。

发明内容

提供一种用于工业装置的改进控制方法和装置，所述控制方法和装置使用机器学习模型以产生将针对工业装置的当前状态执行的预期动作，所述机器学习模型不仅基于工业装置的状态和各自针对工业装置的每一状态执行的动作而且通过各自执行每一动作获得的结果而训练。建模不需要人工工作，且因此可在低成本和高时间效率下控制工业装置。

在一个实施例中，一种用于控制工业装置的方法包括：获得表征工业装置的当前状态的状态输入；基于机器学习模型，处理状态输入以产生表征将由工业装置针对当前状态执行的预期动作的动作输出，所述机器学习模型是基于工业装置的状态、各自针对工业装置的每一状态执行的动作和各自通过执行每一动作获得的结果而训练；以及基于动作输出，产生用于工业装置的控制信号。

在另一实施例中，一种用于控制工业装置的装置包括：获得设备，其获得表征工业装置的当前状态的状态输入；处理器，其用于基于机器学习模型处理状态输入以产生表征将由工业装置针对当前状态执行的预期动作的动作输出，且基于动作输出产生用于工业装置的控制信号，所述机器学习模型是基于工业装置的状态、各自针对工业装置的每一状态执行的动作和各自通过执行每一动作获得的结果而训练；以及控制器，其用于基于所述控制信号控制所述工业装置。

在另外实施例中，一种用于工业装置的控制装置包括：一或多个处理器；和一或多个存储器，其存储在一或多个处理器执行时可操作以使得一或多个处理器执行本发明的实施例的方法的指令。

在再一实施例中，一种计算机存储媒体，其包括在由一或多个处理器执行时执行本发明的实施例的方法的指令。

一个优点是装置的行为在没有专家设计的情况下建模，且因此成本降低且时间有效性得到改进。

另一优点是模型可被自适应地调谐以更好地符合工业装置，因此实现简易且有成本效益的按比例调整。

再另一优点是可改进工业装置的控制，且接着可针对工业装置实现较好的产品质量和较高的生产效率。

下文进一步详细描述本公开的各种方面和特征。并且参考结合附图进行的描述，本发明的其它目标和优点将变得更加显而易见且将易于理解。

附图说明

下文将结合实施例并参考图式更详细地描述和解释本发明，其中：

图1为根据本发明的一个实施例的用于工业装置的控制方法的流程图；

图2为根据本发明的一个实施例的用于通过与装置模型交互来更新和/或测试机器学习模型的方法200的流程图；

图3为根据本发明的一个实施例的用于在机器学习模型用于工业装置中时更新机器学习模型的方法300的流程图；

图4为根据本发明的一个实施例的用于在机器学习模型用于真实工业装置之后更新机器学习模型的方法400的流程图；

图5为根据本发明的一个实施例的用于控制工业装置的装置的框图；且

图6示出使用实施例的方法生产单晶棒的结果。

图式中的相同附图标记指示类似或对应的特征和/或功能性。

具体实施方式

将参照具体实施例且参考某些图式描述本发明，但是本发明不限于此，而是仅受到权利要求书限制。所描述的图式仅是示意性的且是非限制性的。在图式中，出于说明性目的可放大一些元件的尺寸，并且不按比例尺绘制。

根据本发明的实施例，通过使用机器学习模型，尤其基于深度学习的模型，以产生将针对工业装置的当前状态的预期动作执行，所述机器学习模型不仅基于工业装置的状态和各自针对工业装置的每一状态执行的动作而且各自通过针对每一动作执行的结果而训练，其中结果用于调整机器学习模型的一或多个参数的值以强化模型，不需要对不同参数进行单独的控制，且建模不需要人工工作，因此可在没有大量人工干预的情况下以低成本和高时间效率控制工业装置。

此外，机器学习模型可通过与工业装置的装置模型的交互来更新，所述装置模型被训练成在接收到一对状态和动作时输出状态的后续状态，这可确保机器学习模型可在将其应用于真实工业装置之前以高效率和低风险被进一步训练和测试，因此进一步提高机器学习模型对工业装置的适应性。另外，可周期性地更新装置模型，且机器学习模型与更新的装置模型交互以周期性地更新机器学习模型。这允许机器学习模型适应于工业装置的任何变化。

此外，在将机器学习模型应用于真实工业装置以控制其操作之后，其可进一步由来自操作的真实控制的装置数据更新。

图1为根据本发明的一个实施例的用于工业装置的控制方法100的流程图。根据控制方法100，在步骤110中，接收表征工业装置的当前状态的状态输入。状态输入可来自与工业装置相关联的任何种类的传感器，且可为任何种类的数据，包含但不限于温度、电力和速度中的至少一个。对于不同类型的工业装置，状态输入可不同。举例来说，为了控制用于生产单晶硅材料的工业装置，单晶棒的直径可受拉动速度和当前硅液体温度影响，因此，状态输入可与拉动速度和当前硅液体温度相关联以表征工业装置的当前状态。

在步骤120中，基于机器学习模型，尤其基于深度学习的模型，处理状态输入，以产生表征将由工业装置针对当前状态执行的预期动作的动作输出。机器学习模型尤其由人类专家知识的历史数据训练，特别是关于工业装置的人类专家知识。人类专家知识可表示如何在不同条件下控制工业装置。机器学习模型还可由工业装置的历史数据训练。

可将人类专家知识和/或工业装置的历史数据处理为可学习形式，即，包含工业装置的状态、各自针对工业装置的每一状态执行的动作和各自通过执行每一动作获得的结果。接着，可通过所获得的状态、动作和结果训练机器学习模型。机器学习模型为强化学习模型，其中结果用于调整模型的一或多个参数的值。

所预期的动作是指将针对当前状态采用的任何种类的动作。举例来说，对于单晶硅材料的生产，如果发现单晶棒的直径偏离正常值，那么用预定值调整硅液体温度。

结果是指在对状态执行一个动作之后获得的结果，例如工业装置的一个参数改善了多少。

在步骤120中产生动作输出之后，在步骤130中，可基于动作输出产生用于工业装置的控制信号，由此可控制工业装置以执行预期动作。在一个实施例中，在产生控制信号之前，可评估预期动作的风险以确定预期动作是否可由工业装置安全地执行，可基于一组预定风险检查规则来执行评估。如果风险高于预期，那么将不基于预期动作产生控制信号；否则，将基于预期动作产生控制信号，且将执行预期动作。

尽管关于机器学习模型的使用描述了以上方法100，但是方法100还可能包含在步骤110之前训练模型的步骤。训练可基于工业装置的状态、各自针对工业装置的每一状态执行的动作和各自通过执行每一动作获得的结果。

在一个实施例中，可经由异策略学习来训练机器学习模型。根据异策略学习，处理历史数据以产生一或多个“状态-动作-结果”三元组，利用所述三元组训练和/或更新机器学习模型，直到满足预定结束条件(例如，三元组的数目或性能)。

在另一实施例中，可经由同策略学习来训练机器学习模型。根据同策略学习，分别训练值预测模型和策略模型，且接着用于产生机器学习模型。

特别地，处理历史数据以产生一或多个“状态-动作-结果”三元组以及一或多个“状态-动作”对，基于一或多个“状态-动作-结果”三元组训练和/或更新值预测模型，同时基于一或多个“状态-动作”对训练和/或更新策略模型，直到满足值预测模型和策略模型的预定结束条件。在满足预定结束条件之后，基于值预测模型和策略模型产生机器学习模型。

在一个实施例中，机器学习模型可通过与经训练以产生对应于一对状态和动作的下一状态的装置模型的交互来更新。

图2为根据一个实施例的用于通过与装置模型交互而更新和/或测试机器学习模型的方法200的流程图。根据方法200，在步骤210中，获得工业装置的历史数据以用于更新和/或测试机器学习模型。历史数据可不同于如上文所描述的用于训练机器学习模型的历史数据。

在步骤220中，处理历史数据以获得工业装置的状态集，作为用于更新和测试所训练机器学习模型的另外状态。

在步骤230中，从工业装置的状态集获得另外状态，且在步骤240中，基于机器学习模型处理另外状态以产生将由工业装置针对另外状态执行的另外动作，由此获得一对另外状态和另外动作。

在步骤250中，基于装置模型，处理所述一对另外状态和另外动作以产生紧接于另外状态的状态，所述装置模型是基于工业装置的每一对状态和动作以及对应于所述一对的下一状态而训练以产生对应于一对状态和动作的下一状态。装置模型可为人工构建的模拟模型或数据驱动的监督学习模型。对于数据驱动的监督学习模型，可以来自工业装置的数据周期性地更新装置模型。更新的装置模型可准确地反映可随时间改变的工业装置的特性。与此类装置模型交互，可更准确地更新和测试机器学习模型，由此确保所获得的机器学习模型的质量。

在步骤260中，可基于另外状态和紧接于另外状态的状态而计算另外动作的结果。

在步骤270中，可基于另外状态、另外动作和紧接于另外状态的状态而更新或进一步训练机器学习模型。

在步骤280中，确定是否满足预定结束条件，例如状态的数目是否超出预定值。

如果确定不满足预定结束条件，那么方法200返回到步骤230以获得另一另外状态。如果确定满足预定结束条件，那么方法200进行到步骤290以输出新机器学习模型。

如上文参考通过与装置模型交互而更新机器学习模型描述方法200，也可构想出通过与装置模型交互而测试机器学习模型。为了测试机器学习模型，在一个实施例中，在步骤260中计算对应于另外动作的结果之后，可将所计算的结果与可从另外状态的历史数据获得的实际结果进行比较，因此，机器学习模型可在应用于真实工业装置之前用装置模型测试。

在一个方面中，可在将机器学习模型应用于真实工业装置之前执行方法200，以确保机器学习模型具有足够高的质量以应用于真实工业装置中。

在另一方面，可执行方法200以在将机器学习模型应用于真实工业装置中之后周期性地更新机器学习模型，以确保机器学习模型符合工业装置的任何变化。

在另一实施例中，机器学习模型可在其用于真实工业装置时更新。图3为根据一个实施例的用于在机器学习模型用于工业装置中时更新机器学习模型的方法300的流程图。

根据方法300，在步骤310中，类似于以上步骤110，接收表征工业装置的当前状态的状态输入。在步骤320中，类似于以上步骤120，基于机器学习模型处理状态输入以产生表征将由工业装置针对当前状态执行的预期动作的动作输出。

在步骤330中，基于风险检查规则的预定集合确定预期动作是否可由工业装置安全地执行。如果在步骤330中确定预期动作可安全地执行，那么在步骤340中，产生用于工业装置的控制信号以执行预期动作。此后，在步骤350中，可从工业装置观察对应于预期动作的结果，且在步骤360中，可基于当前状态、预期动作和对应于预期动作的结果而更新机器学习模型。

如果在步骤330中确定无法安全地执行预期动作，那么在步骤370中，可基于当前状态、预期动作以及当前状态和预期动作的预定结果而训练机器学习模型。或者，可省略训练步骤370。此后，可在步骤380中通过预定备用动作确定方法获得备用动作，且可在步骤390中基于备用动作产生控制信号。

已经参考图2和图3描述机器学习模型的更新方式，预期可组合或分别使用更新方式。

在一个实施例中，机器学习模型可在其用于真实工业装置时实时更新且通过与装置模型的交互周期性地更新。

图4为根据一个实施例的用于在机器学习模型用于真实工业装置之后更新机器学习模型的方法400的流程图。根据方法400，在步骤410中，将机器学习模型应用于真实工业装置。在步骤420中，基于机器学习模型执行过程，且可获得并存储工业装置的操作数据。在步骤430中，可更新机器学习模型。可参考图3的方法300实时地执行更新。

在步骤440中，确定是否需要周期性更新，例如，时间段(例如，月)是否到期。如果确定需要周期性更新，那么方法400进行到步骤450，其中可参考图2的方法200，基于工业装置的所存储的操作数据，通过与装置模型交互来更新机器学习模型。否则，如果确定不需要周期性更新，那么方法400继续到步骤420。

预期还可更新装置模型。特别地，从工业装置的操作数据获得一或多对状态和动作以及各自对应于一或多对状态和动作中的一对的一或多个下一状态；以及可基于所获得的一或多对状态和动作以及所获得的一或多个下一状态而更新装置模型。

尽管参考不同流程图描述本发明的方法，但可预期其中的任一个可组合以实现不同功能。另外，以上流程图的不同步骤可在不同实施例中组合、更改、删除和替换以实现不同功能。

图5为根据实施例的用于控制工业装置的装置10的框图。装置10至少包含获得设备11、处理器12和控制器13。获得设备11用于获得表征工业装置的当前状态的状态输入S。处理器12基于机器学习模型处理状态输入以产生表征将由工业装置针对当前状态执行的预期动作的动作输出，且基于动作输出产生用于工业装置的控制信号，所述机器学习模型是基于工业装置的状态、各自针对工业装置的每一状态执行的动作和各自通过执行每一动作获得的结果而训练。控制器13基于控制信号控制工业装置。在一个实施例中，控制信号包含工业装置的控制设置的值。

在一个实施例中，装置10进一步包括文本识别和提取设备14。在一个方面中，其可接收工业装置的历史数据/操作数据Di或工业装置关于如何在不同条件下控制工业装置的专家知识，且从所接收的数据识别和提取一或多个“状态-动作-结果”三元组以用于训练和/或更新机器学习模型。在另一方面，其可实时地从工业装置或用户接收操作数据以识别指示工业装置的当前状态的状态输入。

在一个实施例中，处理器12通过以下操作更新机器学习模型：获得工业装置的另外状态；基于机器学习模型，处理工业装置的另外状态以产生将由工业装置针对另外状态执行的另外动作；基于装置模型，基于另外状态和另外动作，产生紧接于另外状态的状态，所述装置模型是基于工业装置的每一对状态和动作以及对应于所述一对状态和动作的下一状态而训练；基于另外状态和紧接于另外状态的状态，计算另外动作的结果；以及基于另外状态、另外动作和另外动作的结果，更新机器学习模型。

其中装置模型可为可更新的，特别地，处理器12通过以下操作更新装置模型：从工业装置的历史数据获得一或多对状态和动作；从工业装置的历史数据获得各自对应于一或多对状态和动作中的一对的一或多个下一状态；以及基于所获得的一或多对状态和动作以及所获得的一或多个下一状态，更新装置模型。

在另一实施例中，当机器学习模型用于工业装置时，处理器12实时地更新机器学习模型。特别地，处理器12确定预期动作是否可由工业装置安全地执行；响应于预期动作可安全地执行的确定，产生用于工业装置的控制信号以执行预期动作，获得对应于预期动作的结果，且基于当前状态、预期动作和对应于预期动作的结果而更新机器学习模型；以及响应于预期动作无法安全地执行的确定，基于当前状态、预期动作以及当前状态和预期动作的预定结果，更新机器学习模型。

可经由文本识别和提取设备14识别和提取在更新期间使用的状态和动作。

实例：

对于单晶棒的生产，通常需要加热功率设置的手工输入。通过使用本发明的实施例的方法，我们训练和更新机器学习模型以预测针对当前状态采用的动作。

图6示出使用实施例的方法生产单晶棒的结果。左边部分示出本发明的实施例的优化加热功率曲线。右边部分示出了通过我们的发明的原始控制误差与优化误差之间的比较，其中实线表示通过本发明的实施例获得的误差，而虚线表示通过原始控制方法获得的误差。显而易见的是，通过本发明的实施例，误差得到显著改善。

上文所描述的本发明的实施例可通过数字电子电路、计算机软件或固件、计算机硬件和其任何组合来执行。在一个实施例中，用于工业装置的控制装置可通过一或多个存储器和一或多个处理器实现。存储器存储在一或多个处理器执行时可操作以使一或多个处理器执行实施例的方法的指令。

本发明的实施例可由计算机存储媒体执行。储存媒体储存在由一或多个处理器执行时执行实施例的方法的指令。

预期实施例的方法还可在相对于工业装置的远程位置处(例如，在云端处)执行。

请注意，上文提及的实施例说明而非限制本发明，且所属领域的技术人员将能够在不脱离所附权利要求书的范围的情况下设计替代实施例。在权利要求书中，放置在圆括号中的任何附图标记不应被解释为限制权利要求。词“包括”不排除权利要求书中或说明书中未列出的元件或步骤的存在。元件之前的词“一(a/an)”不排除多个此类元件的存在。在列举若干单元的产品权利要求书中，这些单元中的若干可由软件和/或硬件的一个和相同项目体现。词语第一、第二和第三等的使用不指示任何排序。这些词语将被解释为名称。

Claims

1.一种用于控制工业装置的方法，其包括

获得表征所述工业装置的当前状态的状态输入；

基于机器学习模型，处理所述状态输入以产生表征将由所述工业装置针对所述当前状态执行的预期动作的动作输出，所述机器学习模型是基于所述工业装置的状态、各自针对所述工业装置的每一状态执行的动作和各自通过执行每一动作获得的结果而训练；以及

基于所述动作输出，产生用于所述工业装置的控制信号。

2.根据权利要求1所述的方法，其中所述工业装置的所述状态、所述动作和所述结果来源于所述工业装置的历史数据和/或人类专家知识。

3.根据权利要求2所述的方法，其中所述机器学习模型经由同策略学习或异策略学习来训练。

4.根据权利要求2所述的方法，其中所述机器学习模型通过以下操作产生：

基于所述工业装置的所述状态、各自针对所述工业装置的每一状态执行的所述动作和各自通过执行每一动作获得的所述结果，训练所述机器学习模型。

5.根据权利要求1所述的方法，其中所述机器学习模型通过以下操作更新：

获得所述工业装置的另外状态；

基于所述机器学习模型，处理所述工业装置的所述另外状态以产生将由所述工业装置针对所述另外状态执行的另外动作；

基于装置模型，基于所述另外状态和所述另外动作，产生紧接于所述另外状态的状态，所述装置模型是基于所述工业装置的每一对状态和动作以及对应于所述一对所述状态和所述动作的下一状态而训练；

基于所述另外状态和紧接于所述另外状态的所述状态，计算所述另外动作的结果；以及

基于所述另外状态、所述另外动作和所述另外动作的所述结果，更新所述机器学习模型。

6.根据权利要求5所述的方法，其中所述装置模型通过以下操作更新：

从所述工业装置的历史数据获得一或多对状态和动作；

从所述工业装置的所述历史数据获得各自对应于所述一或多对状态和动作中的一对的一或多个下一状态；以及

基于所获得的一或多对状态和动作以及所获得的一或多个下一状态，更新所述装置模型。

7.根据权利要求1至6中任一权利要求所述的方法，其进一步包括

确定所述预期动作是否能够由所述工业装置安全地执行；以及

响应于所述预期动作能够安全地执行的确定，产生用于所述工业装置的所述控制信号以执行所述预期动作，获得对应于所述预期动作的所述结果，且基于所述当前状态、所述预期动作和对应于所述预期动作的所述结果而更新所述机器学习模型。

8.根据权利要求7所述的方法，其进一步包括：

响应于所述预期动作无法安全地执行的确定，基于所述当前状态、所述预期动作以及所述当前状态和所述预期动作的预定结果，更新所述机器学习模型。

9.一种用于控制工业装置的装置，其包括

获得设备，其用于获得表征所述工业装置的当前状态的状态输入；

处理器，其用于基于机器学习模型处理所述状态输入以产生表征将由所述工业装置针对所述当前状态执行的预期动作的动作输出，且基于所述动作输出产生用于所述工业装置的控制信号，所述机器学习模型是基于所述工业装置的状态、各自针对所述工业装置的每一状态执行的动作和各自通过执行每一动作获得的结果而训练；以及

控制器，其用于基于所述控制信号控制所述工业装置。

10.根据权利要求9所述的装置，其中所述处理器进一步用于通过以下操作更新所述机器学习模型：

获得所述工业装置的另外状态；

11.根据权利要求10所述的装置，其中所述处理器进一步用于通过以下操作更新所述装置模型：

从所述工业装置的历史数据获得一或多对状态和动作；

12.根据权利要求9至11中任一权利要求所述的装置，其中所述处理器进一步用于

13.根据权利要求12所述的装置，其中所述处理器进一步用于

14.一种用于工业装置的控制装置，其包括

一或多个处理器；以及

一或多个存储器，其存储在所述一或多个处理器执行时可操作以使所述一或多个处理器执行根据权利要求1至8中任一权利要求所述的方法的指令。

15.一种计算机存储媒体，其包括用于在由一或多个处理器执行时执行根据权利要求1至8中任一权利要求所述的方法的步骤的指令。