CN116520705A

CN116520705A - 工业流程的人性化的自动化控制

Info

Publication number: CN116520705A
Application number: CN202310623821.XA
Authority: CN
Inventors: 萨巴纳塔拉简·萨比亚; 本杰明·克洛珀
Original assignee: ABB Schweiz AG
Current assignee: ABB Schweiz AG
Priority date: 2019-07-08
Filing date: 2020-07-07
Publication date: 2023-08-01
Also published as: US20210011459A1; EP3764173A1; CN112198792B; US11556111B2; CN112198792A

Abstract

本公开涉及工业流程的人性化的自动化控制。一种用于控制工业流程(1)的方法(100)，该方法包括：通过流程控制器(2)来确定(110)控制输出的集合(21)；查询(120)经训练的机器学习模型(3)，该机器学习模型被配置为输出分类值(31)和/或回归值(32)，该分类值和/或回归值指示监视操作人员(4)对于至少部分地覆盖由流程控制器(2)提供的控制输出(21)的倾向(33)；以及响应于确定模型(3)的输出满足预定的标准(130)，其中，修改(140)控制输出(21)中的至少一个控制输出和/或表征流程控制器(2)的行为的至少一个参数(22)和/或流程控制器(2)运行时的至少一个约束(23)，和/或出于降低倾向(33)的目的将至少一条消息(41)传达(150)给操作人员(4)。

Description

工业流程的人性化的自动化控制

分案申请说明

本申请是申请日为2020年7月7日、申请号为202010644564.4、名称为“工业流程的人性化的自动化控制”的中国发明专利申请的分案申请。

技术领域

本发明涉及一种以对于作为备份的监视工业流程的操作人员而言更为合理的方式来自动地控制工业流程的方法。

背景技术

如今的大多数工业流程都由流程控制系统(诸如分布式控制系统)以自动化的方式控制。然而，操作人员仍然监视该流程来作为备份。如果发生问题的情况并且自动化控制系统不能处理这种情况，那么操作人员可以以手动操作来覆盖自动化控制系统所建议的操作。例如，控制系统可能出现故障，或者可能无法处理传感器或执行器的意外故障。

操作人员被训练以监视流程的某些状态变量的发展，并且在该发展对他而言不合理的情况下进行手动控制。以这种方式，操作人员确保了流程以有序且安全的方式进行，并且流程的所有约束都被观察到。然而，操作人员每次进行干预都要付出成本。自动化控制系统通常沿着状态空间中根据最优性标准(诸如节省材料或能量)选择的轨迹进行流程。如果操作人员进行控制，则该轨迹就发生偏离，并且该流程以相对于所述最优性标准而言不是最优的方式进行。

已经观察到，在自动化控制系统能够应付的情况下，操作人员倾向于频繁地进行控制。这导致流程在很大比例的时间里以不是最优的方式进行。

发明目标

因此，本发明的目标是允许以不太可能引发不必要的人为干预的方式控制工业流程。

通过根据主权利要求所述的用于控制工业流程的方法、通过根据另一项独立权利要求所述的用于训练机器学习模型的方法以及通过对应的软件产品来实现该目标。在相应的从属权利要求中详细描述了更有利的实施例。

发明内容

本发明提供了一种用于控制工业流程的方法。在该方法的过程中，流程控制器得到流程的状态变量的当前值和/或过去值的集合。例如，这些值可以作为时间序列数据而被提供。至少部分基于所述值的集合，流程控制器生成控制输出的集合，该输出将被转换为流程中的至少一个物理操作。特别地，可能存在闭合的反馈回路，其中流程控制器连续地得到流程的状态变量的新值。这些新值指示工业流程对由流程控制器的控制输出引起的先前的物理操作的响应。

控制输出可以直接应用于依次执行物理操作的至少一个执行器。备选地或组合地，控制输出可以应用于依次作用于这种执行器的低级控制器。例如，控制输出可以包括用于低级控制器的设定点(诸如所需的温度或压力)，并且低级控制器可以控制执行器(诸如加热器或阀门)以保持流程的状态变量(诸如所述温度或压力)接近该设定点。

基于该当前值的集合的至少一个子集和该控制输出的集合的至少一个子集来查询经训练的机器学习模型。该经训练的机器学习模型被配置为输出分类值和/或回归值，该分类值和/或回归值指示监视操作人员对于至少部分地覆盖由流程控制器提供的控制输出的倾向。

响应于确定分类值和/或回归值和/或倾向来满足预定标准，出于降低操作人员覆盖控制输出的倾向的目的而采取对策。例如，该标准可以包括由操作人员覆盖的概率的阈值。

该对策可以包括修改控制输出中的至少一个控制输出，和/或表征流程控制器的行为的至少一个参数，和/或流程控制器运行时的至少一个约束。例如，该参数可以表示流程的控制所追求的最优目标。如果流程控制器本身只作为“黑盒”可用而不知道其内部工作和参数，则对于调整流程控制器运行时的至少一个约束尤其有利。在这方面，约束可以被视为从外部协调对流程控制器的内部工作的操作的抽象的句柄。

这种修改的最终结果是最终选择的应用于工业流程的物理操作对操作人员更为合理。即，这些操作更符合操作人员基于其对流程的了解所期望的结果，使得操作人员没有太多理由怀疑出现任何问题而需要手动干预。

发明人已经发现，尽管流程控制器的复杂性不断提高使得工业流程以相对于给定的最优性标准而言更好的方式进行，但是这也使得操作人员更难理解控制输出。PID控制器包括三个部件，每个部件都具有容易理解的对输入的依赖关系，即，分别与输入本身、输入的积分和输入的导数成比例。相比之下，模型预测控制器(MPC)包含近似流程行为的数学模型。创建这种模型是专家的任务，并且从普通流程操作人员的角度来看，输出对输入的依赖性不是直接的。

在形象化的示例中，以根据最优性标准的最好的方式进行流程可能不是以直接的方式，因为流程在状态空间中遵循的轨迹需要满足在状态空间中可能采取禁区的形式约束。复杂的流程控制器(诸如MPC)通过流程模型知道禁区并且可以将流程发送到状态空间中绕过禁区的迂回的轨迹。但是，操作人员不知道状态空间中存在禁区，因此从他的角度来看，轨迹在没有明显原因的情况下突然绕路而行。上述修改使得流程所遵循的轨迹不够优化，但是反过来，该轨迹包含较少的绕过禁区的弯路。

在另一个示例中，虽然操作人员可以知道需要满足哪些约束，但是操作人员可能不确信MPC提出的策略实际是否满足约束条件。例如，如果状态变量快速增加或减小，则该状态变量的最大或最小约束是否会一直满足，这对操作人员来说并不是立即显而易见的。将在下文详细讨论该示例。

该对策还可以包括将至少一条消息传达给操作人员。例如，这种消息可以指示流程控制器是功能正常的，或者包含在流程的控制中的部件(如传感器、执行器或低级控制器)刚刚经过自检过程并且发现是功能正常的。

因此，将消息传达给操作人员不改变控制输入，从而使其对操作人员更为合理。相反，其努力修改操作人员的理解，使得通过该修改的理解，未修改的控制输出变得合理。

无论采取哪个对策，单独地或组合地，最终结果总是走向同一方向：根据给定的最优性标准，工业流程沿状态空间中的较好的轨迹进行的概率提高，因为从这种好的轨迹通过状态空间中较差区域的人为偏差被最小化了。

在特别有利的实施例中，分类值和/或回归值包括操作人员覆盖流程控制器提供的控制输出的可能原因。那么，在该对策的过程中执行的修改可以特别针对降低流程的行为中该可能原因的普遍性。

在形象化的示例中，最优轨迹可以要求泵电机以某一频谱驱动。但是，当泵电机以该频谱驱动时，这可能使泵产生刺耳的噪声，该噪声与泵的轴承故障时产生的噪声非常相似。操作人员听见噪声并进行手动控制以降低泵的速度，因为轴承出现故障。但是，由于轴承没有真的发生故障，所以这导致不必要地偏离最优轨迹。然后，该修改可以将泵发出的噪声改变为不再类似于故障轴承的声音。

在特别有利的实施例中，覆盖的可能原因具体包括流程的至少一个状态变量的过冲或下冲。过冲可以具体包括状态变量的增加超过应该增加的目标值。同样，下冲可以具体包括状态变量的减小超过应该减小的目标值。如果状态变量在一段时间内非常快速地增加或减小，那么这可能在操作人员的方面造成状态变量由于某种故障而失去控制的印象。例如，阀门可能卡在打开状态，或者温控开关可能被熔断而使得其无法打开。

MPC知道流程的模型，从而知道状态变量的增加或减小的速率可以变化的最大切换速率。因此，如果MPC认为状态变量增加或减小到新的目标值以便根据最优性标准的最优方式进行流程是有利的，那么可以首先以可能的最大速度增加或减小，然后在最后一刻减速，在此期间仍然可以避免过冲或下冲。以这种方式，尽可能快地达到新的目标值，并且以根据最优性标准的最优方式进行流程的总时间最大化。但是，操作人员对流程模型可能不像MPC知道得那么详细，因此他可能怀疑出现了一些错误并且状态变量以不受控制的方式增加或减小。因为操作人员会比MPC花费更多时间来减缓增加或减小所以操作人员必须决定在MPC计划减缓增加或减小之前进行手动控制。

在这种情况下，特别有利的是使得流程的状态变量增加或减小的速率逐渐减缓。以这种方式，虽然状态变量会花费更长的时间到达其目标值，但是变化速率使得操作人员立即明白，流程控制是功能正常的并且会主动做一些事情。

如果消息被传达给操作人员，那么该消息可能具体包括要应用的控制输出后面的控制策略的解释。在上述形象化的示例的上下文中，这种消息可以被读作“在正前方的状态空间中存在禁区，并且在该禁区周围左转也是禁止的。因此我要右转以绕过禁区”。备选地或组合地，可以画出计划的轨迹，以确保操作人员知道MPC要满足的所有约束，并且实际地计划以满足这些约束。然后，操作人员只需要粗略地检查所观察到的行为与该解释是否一致。

备选地或组合地，消息可以具体包括邀请操作人员从数个候选控制策略中选择一个要应用于流程的策略。这些控制策略对于操作人员而言合理性达到了更高的程度，因为在所述禁区周围需要不难掌握的弯路，但代价是从给定的最优性标准的角度来看不是最优的。但是，它们仍然比操作人员的手动干预所导致的路径好得多。

在特别有利的实施例中，在对策的过程中执行的修改具体包括生成控制输出的多个候选集合。基于控制输出的每个候选集合，再次查询经训练的机器学习模型，以获得候选分类值和/或候选回归值。控制输出的候选集合可以产生候选分类值和/或候选回归值，指示操作人员覆盖的倾向小于当前要应用的控制输出的集合。如果发生这种情况，则控制输出的候选集合将变为新的要应用的控制输出的集合。

以这种方式，可以在可能的控制输出的空间中执行主动搜索。可以通过任何合适的搜索策略来获得控制输出的候选集合。搜索策略可以特别取决于搜索可用的时间，并且该时间取决于要控制的工业流程的速度。在大多数大规模的工业流程中，时间常数足够长，使得至少可以分配几秒钟来搜索。

在另一个特别有利的实施例中，通过流程控制器确定控制输出的集合可以通过模型预测控制(MPC)来执行。在MPC中，响应于应用于流程的控制输出的给定的候选集合，工业流程的模型用于预测状态变量从给定值的集合到新的候选值的集合的演化。以这种方式测试控制输出的多个候选集合，并且基于至少一个最优性标准，为状态变量的每个候选集合分配一个优值。确定了至少一个优值满足预定标准的状态变量的候选集合。对应于该状态变量的候选集合的控制输出的候选集合被确定为控制输出的集合。

如上所述，MPC在绕过状态空间中的所述禁区方面做得特别好，但代价是所产生的轨迹对操作人员来说难以理解。通过上述对策，轨迹变得更容易理解，并且操作人员覆盖MPC的概率更小。

此外，MPC可以二次用于上述控制输出的新候选集合的主动搜索。例如，可以修改MPC确定输出值的集合的约束，以获得输出值的新的候选集合。例如，为了避免产生状态变量即将过冲的印象，该状态变量的最大值的约束可以设置为较低的值。

本发明还提供了一种方法，该方法用于训练在上述控制方法中使用的机器学习模型。

在该训练方法的过程中，在流程控制器的控制下和操作人员的监控下，在工业流程的实际和/或模拟运转期间，记录来自流程控制器的控制输出的多个集合。这些控制输出应用于至少一个执行器和/或低级控制器。执行器和/或低级控制器被配置为使得在工业流程中执行至少一个(实际的和/或模拟的)物理操作。

对于由流程控制器提供的控制输出的多个集合中的每个集合，记录了操作人员是否要求覆盖控制输出的该集合的决定。例如，只要操作人员允许流程在不干预的情况下运转其自动化过程，那么可以记录操作人员决定不覆盖流程控制器提供的控制输出的该集合。每当操作人员以某种方式进行控制时，可以记录覆盖的决定。

此外，在记录控制输出的集合的每种情况下，记录流程的状态变量的当前值和/或过去值的集合。如上所述，控制输出的集合总是与由状态变量的当前值和/或过去值的集合表征的流程的情况相关联。

对于与状态变量的当前值和/或过去值的对应的集合组合的控制输出的集合中的每个集合，查询机器学习模型来获得分类值和/或回归值。优化表征机器学习模型的行为的参数，使得分类值和/或回归值更准确地预测操作人员实际上是否请求覆盖控制输出的对应集合。

即，如果记录当应用控制输出的某个集合时，操作人员允许流程运转其自动化过程，那么分类值和/或回归值应该指示操作人员覆盖控制输出的倾向较低或为零。相比之下，如果记录当应用控制输出的特定的集合时，有操作人员干预，那么分类值和/或回归值应该指示操作人员覆盖控制输出的倾向较高或有一定倾向。

如果在具有足够高的可变性的一组情况下执行训练，那么经训练的机器学习模型能够预测操作人员在许多情况下覆盖控制输出的倾向，即使那些情况不是训练的一部分。这是因为这种机器学习模型的泛化能力。为了提高可变性，工业流程的模拟运转是特别有利的，因为这很容易引发各种情况。此外，工业流程的运转可以在多个独立的操作人员监视下执行，以便考虑这些操作人员之间的可变性。例如，一个操作人员可能比另一个操作人员更容易地对状态变量看似即将过冲做出反应。

在特别有利的实施例中，该方法还包括记录请求覆盖控制输出的集合的原因。然后，可以优化机器学习模型的参数，使得分类值和/或回归值也更准确地预测该原因。

在另一个特别有利的实施例中，参数的优化包括：基于控制输出的集合和在第一流程记录的覆盖决定的第一阶段，以及随后的基于控制输出的集合和在第二流程记录的覆盖决定的第二阶段。

特别地，第二阶段可以以在第一阶段末尾获得的参数的值开始。以这种方式，例如，在工业流程的更通用的版本上执行的训练的第一阶段可以再次用于该流程的多个更具体的实例。这种再利用节省了计算时间。此外，不需要向想要将机器学习模型应用于工业流程的具体实现的任何人泄露进入训练的第一阶段的训练数据。这种训练数据可以是机密的。

在另一个特别有利的实施例中，记录由操作人员改正的控制输入。将触发操作人员干预的控制输入的集合和作为干预的一部分的改正的控制输入的叠加记录为控制输出的新集合。操作人员覆盖的倾向较低或为零归因于控制输出的该新集合。其动机是，通过做出具体的定量控制输入，操作人员已经明确地指出在当前情况下他/她认为哪些控制输出的值是可接受的。

在另一个特别有利的实施例中，借助于聚类算法将操作人员请求覆盖的控制输出的所有集合，和/或流程的当前值和/或过去值的对应的集合分组为多个簇。覆盖的不同原因与每个簇相关联。

以这种方式，机器学习模型分类的合适的类别可以在不能使用先验知识建立可能的类别目录(即，操作人员想要覆盖MPC的原因的目录)的情况下自动确定。例如，可能不知道状态变量的值中哪种类型的行为最可能触发人为干预。例如，聚类可能产生具有至少一个状态变量急剧增加的共同特征的第一簇情况。该簇对应于作为覆盖的原因的感知到的即将发生的过冲。该聚类还可以产生具有至少一个状态变量急剧减小的共同特征的第二簇情况。该簇对应于作为覆盖的原因的感知到的即将发生的下冲。

训练的主要结果是表征经训练的机器学习模型的行为的参数集合。如果模型包括人工神经网络，那么该参数例如可以包括权重；在将这些权重相加为相应神经元的激活时，使用这些权重对各个神经元的输入进行加权。如果模型包括支持向量机，那么该参数例如可以表征将不同类别彼此分离的超平面。在参数集合中，收集训练数据的努力和训练本身的努力被压缩。无论谁具有参数集合，都可以跳过训练，并且立即能够在上述控制方法中使用经训练的机器学习模型。因此，参数集合是一种本身可以单独销售的产品。

机器学习模型还可以拓展为包括表征控制输出的每个集合对应的情况的进一步的数量。例如，除了在流程的状态变量的当前值和/或过去值的集合之外，流程的至少一个设定点和/或流程的至少一个状态变量的未来期望也可以用于表征流程的情况。

本发明可以至少部分地在可以单独销售的计算机程序中实现。因此，本发明还提供了一种具有机器可读指令的计算机程序，该机器可读指令当由一个或多个计算机执行时使得一个或多个计算机执行上述的控制方法和/或训练方法。

特别地，计算机程序和/或参数集合可以以非暂时性存储介质的形式和/或可下载的产品的形式被销售和提供。计算机可以由参数集合、计算机程序和/或非暂时性存储介质提供。

附图说明

在下文中，使用不旨在限制本发明的范围的附图来说明本发明。

附图示出了：

图1：控制方法100的示例性实施例；

图2：状态空间中轨迹的最优性和可理解性之间权衡的示意图；

图3：避免从目标值A到目标值B的状态变量11的增加会过冲超过约束阈值T的印象；

图4：操作人员4选择控制策略2a-2c的实施例的示意图；

图5：训练方法200的示例性实施例。

具体实施方式

图1是控制方法100的示例性实施例的流程图。在步骤110中，基于流程1的状态变量当前值和/或过去值的集合11，通过流程控制器2来确定控制输出的集合21。在图1所示的示例中，流程控制器2执行模型预测控制(MPC)：根据框111，对于控制输出的多个预期集合21a-21c，当控制输出的相应的候选集合21a-21c被应用于流程1时，将发生状态变量的值的给定集合11到候选集合11a-11c的演化。根据框112，基于最优性标准24，状态变量的候选集合11a-11c中的每个集合都分配一个相应的优值25a-25c。根据框113，基于该优值25a-25c，控制输出的一个候选集合21a-21c被选择作为控制输出的最终集合21。控制输出的该集合21应用于流程1，例如应用于该流程的执行器12或低级控制器13。

在步骤120中，状态变量的集合11和控制输出的集合21被传递到经训练的机器学习模型3，该机器学习模型返回分类值31和/或回归值32，和/或操作人员4希望覆盖控制输出的集合21的原因34。操作人员4覆盖这些控制输出21倾向33可以直接包含在机器学习模型3的输出中，或者可以从分类值31和/或回归值32计算。

然后，确定分类值31和/或回归值32和/或倾向33是否满足预定标准130。如果发生这种情况(真值1)，那么有两个选项可以备选地或组合地执行。

在步骤140中，控制输出21中的至少一个控制输出，和/或表征流程控制器2的行为的至少一个参数22，和/或流程控制器2运行时的至少一个约束23，以降低操作人员覆盖控制输入21的倾向33为目的进行修改。该修改在控制输出的集合21应用于流程1之前执行。特别地，其中流程控制器2是内部结构未知的MPC控制器，改变MPC的约束22并且然后重新运行MPC是优选的方法。

在框140中，描绘了执行修改的示例性方法。根据框141，状态变量增加或减小的速率可能逐渐减缓，以便不会在操作人员4的方面产生该状态变量以不受控制的方式变化的印象。

根据框142至144，可以对控制输出的新集合21执行主动搜索。根据框142，可以生成控制输出的多个候选集合21a-21c。根据框143，可以基于状态变量的集合11和控制输出的候选集合21a-21c再次查询经训练的机器学习模型3，以获得候选分类值31a-31c和/或候选回归值32a-32c。基于从经训练的机器学习模型3的该输出22，根据框144，操作人员干预的倾向33的候选集合21a-21c被选择作为控制输出新集合21。

在步骤150中，消息41被传达给操作人员4，以便使操作人员4确信，控制输出的要应用的集合21在状态变量的集合11所述的流程1的当前情况的角度来看是合理的。特别地，消息41可以包含要应用的控制输出21后的控制策略2a的解释41a，和/或从要应用于流程1的数个候选控制策略20a中选择一个的邀请41b。

图2示出了简单的示例中的控制输出21的最优性和可理解性之间的权衡。当控制输出的集合21应用于流程1时，这将使流程1遵循状态空间15中的某一轨迹。流程控制器2根据遵循轨迹14a-14c的最优性标准24运行。在图2的简单的示例中，该等级是从A到F下降的学校等级。

最优性和可理解性之间存在权衡的原因在于物理流程1的复杂性。以状态空间15的禁区15a-15f的形式描述该复杂性，轨迹14a-14c不能进入或穿过该禁区。轨迹14a-14c的等级越好，禁区15a-15f周围所需的路径越复杂。更复杂的轨迹14a-14c反过来需要更复杂的控制输出模式来产生。

在简单的示例中，存在容易理解的、直接的轨迹14a。但是，该轨迹仅具有最优性标准24的D等级。另一方面，达到等级A的最优轨迹14b极其复杂并且在状态空间15中绕禁区15a-15e走很多弯路。由于状态空间15中的禁区15a-15f是MPC流程控制器2中的流程模型的一部分，所以它们对于操作人员而言是不可见的，操作人员可能会对迂回的轨迹14b感到迷惑并且会怀疑出现了一些错误。因此操作人员4可能进行手动控制并沿直接的轨迹14a进行流程1，将等级A交换为等级D。

在这种情况下，值得切换到轨迹14c。该轨迹14c在状态空间15中绕禁区15f只有一个弯路，因此比最优轨迹14b更有可能被操作人员4合理接受。为了达到这一点，最优轨迹14b达到的等级A需要用等级B交换，这比降低到等级D的代价要小得多。

图3是操作人员4可能触发干预的情况的另一个示例。流程1的状态变量11要从第一目标值A增加到第二目标值B，因为MPC控制器2根据其最优性标准认为这是值得的。第二目标值B非常接近禁止超过的约束阈值T。状态变量11的增加是由图3中未明确示出的控制输入21引起的。

从时间t₁处的第一目标值A开始，到达第二目标值B的最快的方法是将状态变量11的增加加速到其可能的最大速率，并在最后可能的时刻减速(轨迹a)。如果遵循该策略，那么会在时间t₂到达第二目标值B。

然而，状态变量11的急剧增加会让操作人员4感到惊讶。害怕过冲会超过约束阈值T，操作人员4会进行手动控制，与最优轨迹a分离并沿轨迹b将状态变量11引导到第二目标值B。这种非常谨慎的方法的代价是，轨迹b在较晚的时间t₃处才到达第二目标值B。这意味着流程1在时间t₂和t₃之间的次最优地运转。

可以通过逐渐降低状态变量11增加的速度来降低操作人员4覆盖MPC控制器2的倾向。即，在以最大速率增加非常短的一段时间之后，沿轨迹c引导状态变量11。该轨迹c也涉及偏离最优轨迹a，并且在时间t₄处才到达第二目标值B，时间t₄也晚于t₂。但是，仍然远早于时间t₃。此外，流程1保持处于自动化控制下，因此不存在操作人员4犯错误而导致干预本应避免的过冲的危险。

图4示出了提示操作人员4选择数个提出的控制策略2a-2c中的一个控制策略的交互方法。最初，MPC流程控制器2在方法100的步骤110的过程中产生控制输出的集合21，控制输出的该集合21对应于第一控制策略2a。

在步骤120和130的过程中，确定操作人员4覆盖控制输出的集合21的倾向33过高。因此，决定用消息41、41b来提示操作人员4。对此，从MPC流程控制器2获得进一步的控制策略2b、2c。虽然这些进一步的策略2b、2c相对于最优性标准24是次最优的，但是它们更容易被操作人员4理解，因此它们被认为合理的机会更大。提示操作人员4选择提出的控制策略2a-2c中的一种控制策略以及对应的控制输出的集合21。所选择的控制输出的集合21应用于流程1。

图5是训练方法200的示例性实施例的流程图。在方法100的步骤210中，在流程1在流程控制器2的控制下实际和/或模拟运转期间，记录来自流程控制器2的控制输出的多个集合21。此外，在步骤220中，基于控制输出的相应的集合21，记录流程1的状态变量的当前值和/或过去值的集合11。

在步骤230中，对于由流程控制器提供的控制输出的多个集合21中的每个集合，记录在相应的情况下操作人员4是否请求覆盖控制输出的相应的集合21的决定42。根据框231，这可以包括借助于聚类算法将操作人员4请求覆盖的控制输出的所有集合21，和/或流程的状态变量的当前值和/或过去值的对应的集合(11)分组为多个簇。覆盖的不同原因34与每个簇相关联。例如，一个簇可能涉及操作人员4害怕状态变量过冲的情况，并且另一个簇可能涉及操作人员害怕状态变量下冲的情况。

在步骤240中，用控制输出的集合21和描述控制输出所表示的情况的状态变量的对应的集合11来查询正在训练的机器学习模型3。机器学习模型的行为由参数35的集合表征。机器学习模型返回分类值31和/或回归值32，操作人员4覆盖控制输出的集合21的倾向33遵循该值。

在步骤250中，优化参数35，使得基于分类值31和/或基于回归值32的倾向的预测更准确，即，更好地匹配实际决定42。该优化可以分别在不同的流程1和1’上以两个阶段251和252执行。结果参数35应用于机器学习模型3。

在步骤260中，记录由操作人员4改正的控制输入43。在步骤270中，将操作人员认为不合理的控制输入的集合21与操作人员4响应于该决定而应用的改正的控制输入43的叠加记录为控制输出的新集合21*。对于控制输出的该新集合21*，已知操作人员4覆盖的倾向33较低或为零。新集合21*可以像控制输出的任何其他集合21一样用于步骤240和250中。

附图标记列表

1，1’工业流程

11流程1的状态变量的集合

11a-11c状态变量的候选集合11

12 流程1中的执行器

13 流程1中的低级控制器

14a-14c状态空间15中的轨迹

15流程1的状态空间

15a-15f状态空间15中的禁区

2流程控制器

2a-2c控制策略

21控制输出的集合

21a-21c控制输出的候选集合

22 表征流程控制器2的行为的参数

23 流程控制器2运行下的约束

24 流程控制器2的最优性标准

25a-25c根据最优性标准24的优值

3 机器学习模型

31 由模型3提供的分类值

31a-31c候选集合21a-21c的分类值

32由模型3提供的回归值

32a-32c候选集合21a-21c的回归值

33 操作人员4覆盖输出的集合21的倾向

34 覆盖的原因

35 表征机器学习模型3的行为的参数

4 操作人员

41 给操作人员4的消息

41a 控制策略2a-2c的解释

41b 选择控制策略2a-2c的邀请

42 操作人员4的决定

43 由操作人员4改正的控制输入

100 控制方法

110 确定控制输出的集合111 预测状态变量的候选集合11a-11c

112 将优值25a-25c分配给候选集合11a-11c113 选择候选集合21a-21c作为控制输出的集合21 120 查询经训练的机器学习模型3

130 分类31、回归32和/或倾向33的标准140 修改控制输出21、参数22和/或约束23

141 逐渐减缓状态变量增加/减小的速率142 生成多个候选集合21a-21c

143 查询经训练的机器学习模型3

144 用候选集合21a-21c替换控制输出150 将消息传达给操作人员4

200 训练方法

210 记录控制输出的多个集合21

220 记录状态变量值的集合11

230 记录决定42

231 请求覆盖的聚类情况

232 将不同的原因34归因于不同的簇

240 查询机器学习模型3

250 优化模型3的参数35

251 第一流程1上优化250的第一阶段252 第二流程1上优化250的第二阶段260记录改正的控制输入43

270 使用控制输入43记录控制输出的新集合21*A 状态变量11的第一目标值

B 状态变量11的第二目标值

T 状态变量11的约束阈值

t 时间

t₁-t₄ 时间点。

Claims

1.一种用于控制工业流程(1)的方法(100)，所述方法(100)包括：

·至少部分地基于所述工业流程(1)的状态变量的当前值和/或过去值的集合(11)，通过流程控制器(2)来确定(110)待应用于至少一个执行器(12)和/或低级控制器(13)的控制输出的集合(21)，所述至少一个执行器和/或低级控制器被配置为使得在所述工业流程(1)中执行至少一个物理操作；

·至少基于所述状态变量的当前值和/或过去值的集合(11)的至少一个子集、以及所述控制输出的集合(21)的至少一个子集，来查询(120)经训练的机器学习模型(3)，所述机器学习模型被配置为输出分类值(31)和/或回归值(32)，所述分类值和/或所述回归值指示监视操作人员(4)对于至少部分地覆盖由所述流程控制器(2)提供的所述控制输出(21)的倾向(33)；和

·响应于确定所述分类值(31)、和/或所述回归值(32)、和/或所述操作人员(4)覆盖所述控制输出(21)的倾向(33)，来满足预定的标准(130)，以及

-修改(140)所述控制输出(21)中的至少一个控制输出、和/或表征所述流程控制器(2)的行为的至少一个参数(22)、和/或所述流程控制器(2)运行时的至少一个约束(23)，

其中所述修改(140)具体包括：

·生成(142)控制输出的多个候选集合(21a-21c)；

·基于控制输出的每个候选集合(21a-21c)，来查询(143)所述经训练的机器学习模型(3)，以获得候选分类值(31a-31c)、和/或候选回归值(32a-32c)；和

·用控制输出的候选集合(21a-21c)替换(144)所述控制输出的当前待应用的集合(21)，其中对应的候选分类值(31a-31c)、和/或候选回归值(32a-32c)指示所述操作人员进行覆盖的倾向(33)较小。

2.根据权利要求1所述的方法(100)，其中所述分类值(31)、和/或所述回归值(32)包括所述操作人员(4)覆盖由所述流程控制器(2)提供的所述控制输出(21)的可能原因(34)。

3.根据权利要求2所述的方法(100)，其中所述修改(140)具体针对降低所述工业流程(1)的行为中的所述可能原因(34)的普遍性。

4.根据权利要求3所述的方法(100)，其中所述可能原因(34)具体包括所述工业流程(1)的至少一个状态变量的过冲和/或下冲。

5.根据权利要求4所述的方法(100)，其中所述修改(140)具体包括：使得(141)所述工业流程(1)的特定状态变量增加或减小的速率逐渐减缓。

6.根据权利要求1至5中任一项所述的方法(100)，其中确定(110)控制输出的集合(21)包括：

·对于控制输出的多个候选集合(21a-21c)，基于所述工业流程(1)的模型来预测(111)状态变量的值的候选集合(11a-11c)，其中状态变量的值的给定集合(11)将响应于应用于所述至少一个执行器(12)和/或低级控制器(13)的候选控制输出的相应的集合(21a-21c)而演化；

·基于至少一个最优性标准(24)，将优值(25a-25c)分配(112)给状态变量的每个候选集合(11a-11c)；和

·确定(113)与优值(25a-25c)满足预定标准的状态变量的候选集合(11a-11c)对应的控制输出的所述候选集合(21a-21c)，作为控制输出的所述集合(21)。

7.根据权利要求1至5中任一项所述的方法(100)，其中所述机器学习模型(3)进一步基于所述分类值(31)和/或所述回归值(32)、基于所述工业流程(1)的至少一个设定点、和/或基于所述工业流程(1)的至少一个状态变量的未来期望。

8.根据权利要求1至5中任一项所述的方法(100)，其中所述机器学习模型(3)包括人工神经网络和/或支持向量机。

9.一种包括机器可读指令的计算机程序，当所述机器可读指令由一个或多个计算机执行时，使得所述一个或多个计算机执行根据权利要求1至8中任一项所述的方法(100)。

10.一种非暂时性存储介质和/或一种可下载的产品，包括根据权利要求9所述的计算机程序。

11.一种计算机，被提供有根据权利要求9所述的计算机程序、和/或根据权利要求10所述的非暂时性存储介质和/或可下载的产品。