CN106462117A

CN106462117A - 控制目标系统

Info

Publication number: CN106462117A
Application number: CN201580032397.5A
Authority: CN
Inventors: S.迪尔; M.米勒; C.奥特; S.乌德卢夫特; H.F.巴西利
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2014-06-19
Filing date: 2015-05-11
Publication date: 2017-02-22
Anticipated expiration: 2035-05-11
Also published as: US10747184B2; EP3129839B1; WO2015193032A1; KR101963686B1; KR20170023098A; EP3129839A1; US20170090429A1; CN106462117B; US20150370227A1

Abstract

为了控制目标系统（例如燃气或风力涡轮机或另一技术系统），使用控制对策池。接收包括多个控制对策的控制对策池和用于加权多个控制对策中的每一个的权重。多个控制对策由权重加权以提供加权的聚合控制对策。由此，使用加权的聚合控制对策来控制目标系统，并且接收与受控目标系统的性能相关的性能数据。此外，基于接收的性能数据调整权重，以改进受控目标系统的性能。由此，通过调整的权重来重新加权多个控制对策，以调整加权的聚合控制对策。

Description

控制目标系统

背景技术

复杂的动态技术系统（例如，燃气涡轮机、风力涡轮机或其它设备）的控制可以通过所谓的数据驱动方法来优化。由此，可以改进这种动态系统的各个方面。例如，可以改进燃气涡轮机的效率、燃烧动力学或排放。另外，可以改进风力涡轮机的寿命消耗、效率或偏航。

现代数据驱动的优化利用机器学习方法来改进动态系统关于一般或特定优化目标的控制对策（也被表示为控制策略）。这种机器学习方法可以允许胜过常规控制策略。特别地，如果受控系统正在改变，则能够根据动态系统的新特性和新情况来学习和调整控制策略的自适应控制方法可能优于常规非学习控制策略。

然而，为了优化复杂的动态系统（例如，燃气涡轮机或其它设备），将收集足够量的操作数据以便找到或学习良好的控制策略。因此，在调试新设备、升级或修改新设备的情况下，在良好的控制策略可用之前可能需要一些时间来收集新的或改变的系统的足够的操作数据。这种变化的原因可能是磨损，修理后改变的部件，或不同的环境条件。

用于机器学习的已知方法包括增强学习方法，所述增强学习方法专注于用于指定动态系统的数据高效学习。然而，即使在使用这些方法时，仍可能需要一些时间，直到在动态系统改变之后良好的数据驱动控制策略可用为止。直到那时，改变的动态系统在可能优化的包络外操作。如果动态系统的变化率非常高，则仅可以获得用于数据驱动优化的次优结果，因为足够量的操作数据可能永远不可用。

发明内容

鉴于上述内容，本发明的目标是创建一种用于控制目标系统的方法、控制器和计算机程序产品，所述方法、控制器和计算机程序产品允许特别针对变化的目标系统更快速地学习控制对策。

根据本发明，用于由处理器控制目标系统（例如，燃气或风力涡轮机或另一技术系统）的方法、控制器或计算机程序产品基于控制对策池。该方法、控制器或计算机程序产品被配置为接收包括多个控制对策的控制对策池并且接收用于加权多个控制对策中的每一个的权重。多个控制对策由权重加权以提供加权的聚合控制对策。由此，使用加权的聚合控制对策来控制目标系统，并且接收与受控目标系统的性能相关的性能数据。此外，处理器基于接收到的性能数据来调整权重，以改进受控目标系统的性能。由此，通过调整的权重来重新加权多个控制对策，以调整加权的聚合控制对策。

本发明通过调整多个控制对策的权重允许有效地学习目标系统的特性。通常，这样的权重包括比控制对策池本身少得多的参数。因此，与整个控制对策池的训练相比，权重的调整可能需要少得多的计算工作量并且可能快得多地收敛。因此，可以在更短的时间内达到高水平的优化。特别地，可以显著减少对目标系统的变化的反应时间。此外，聚合多个控制对策降低了意外选择不良对策的风险，从而增加了该方法的鲁棒性。

根据本发明的实施例，可以通过训练由处理器运行的神经网络来调整权重。

使用神经网络来调整权重允许高效的学习和灵活的适应。

根据本发明的另一实施例，可以优选地通过训练神经网络而从一个或多个源系统的操作数据的不同数据集计算多个控制对策。不同的数据集可以涉及不同的源系统，一个或多个源系统的不同版本，不同的对策模型，不同地域中的源系统，或不同条件下（例如，在修理、维护、改变部件等之前和之后）的一个或多个源系统。

可以类似于目标系统来选择一个或多个源系统，使得针对一个或多个源系统所优化的控制对策预期对目标系统执行良好。因此，基于一个或多个类似源系统的多个控制对策是用于控制目标系统的良好起点。从类似情况的这种学习通常被表示为“转移学习”。因此，需要与目标系统相关的少得多的性能数据，以便为目标系统获得良好的聚合控制对策。因此，即使对于具有稀缺数据的目标系统，也可以在短时间内学习有效的聚合控制对策。

多个控制对策的计算可以使用与源系统的性能相关的回报函数。优选地，该回报函数也用于调整权重。

此外，性能数据可以包括与目标系统的当前状态有关的状态数据。然后，可以根据状态数据对多个控制对策进行加权和/或重新加权。这允许更精确和更有效地调整权重。特别地，如果识别出控制对策结果是执行良好的状态，则可以增加该控制对策的权重，反之亦然。

有利地，可以从受控目标系统、从目标系统的仿真模型和/或从对策评估来接收性能数据。来自受控目标系统的性能数据允许监测目标系统的实际性能并且通过学习目标系统的特定响应特性来改进该性能。另一方面，目标系统的仿真模型也允许回报函数的假设查询。此外，利用对策评估，可以建立所谓的Q函数，从而允许确定回报函数的期望值。

此外，可以根据加权聚合控制对策从根据多个控制对策的动作建议通过加权多数表决、通过形成加权平均值、和/或通过形成加权中值来确定用于控制目标系统的聚合控制动作。

根据本发明的优选实施例，神经网络的训练可以基于增强学习模型，所述增强学习模型允许对动态系统的控制对策的高效学习。

特别地，神经网络可以作为递归神经网络操作。这允许在控制动态系统时维持使能高效检测时间相关模式的内部状态。此外，许多所谓的部分可观察马尔科夫决策过程可以通过递归神经网络像所谓的马尔科夫决策过程一样处理。

可以根据控制对策的性能评估从控制对策池中选择多个控制对策。所选择的控制对策可以建立所谓的控制对策集合。特别地，可以从控制对策池中仅选择根据预定标准执行良好的那些控制对策。

此外，来自控制对策池的控制对策可以根据调整的权重被包括到多个控制对策中或者从多个控制对策中排除。这允许改进包含在多个控制对策中的控制对策的选择。因此，例如，可以从多个控制对策中去除具有非常小的权重的控制对策，以便降低计算工作量。

附图说明

图1图示了本发明的示例性实施例，包括目标系统和若干源系统以及生成控制对策池的控制器。

图2更详细地图示了目标系统以及控制器。

具体实施方式

图1图示了包括目标系统TS和若干源系统S1，...，SN的本发明的示例性实施例。目标系统TS和源系统S1，...，SN可以是包括用于仿真动态系统的仿真工具的燃气或风力涡轮机或其它动态系统。优选地，源系统S1，...，SN被选择为与目标系统TS类似。

源系统S1，...，SN还可以在不同的时间（例如在目标系统TS的维护之前或在交换系统组件之前等）包括目标系统TS。反之亦然，目标系统TS可以是在稍后时间的源系统S1，...，SN之一。

源系统S1，...，SN中的每一个分别由增强学习控制器RLC1，...，或RLCN控制，所述增强学习控制器RLC1，...，或RLCN分别由控制对策P1，...，或PN驱动。增强学习控制器RLC1，...，RLCN每个可以包括用于学习即优化控制对策P1，...，PN的递归神经网络（未示出）。源系统S1，...，SN的源系统特定操作数据OD1，...，ODN被收集并被存储在数据库DB1，...，DBN中。根据控制对策P1，...，PN来处理操作数据OD1，...，ODN，并且控制对策P1，...，PN由增强学习控制器RLC1，...，RLCN通过增强学习来细化。控制对策P1，...，PN的控制输出经由控制回路CL反馈到相应的源系统S1，...，或SN中，导致相应的控制对策P1，...，或PN在相应的增强学习控制器RLC1，...，或RLCN中的闭合学习回路。控制对策P1，...，PN被馈送到增强学习对策生成器PGEN中，所述增强学习对策生成器PGEN生成包括控制对策P1，...，PN的控制对策池P。

目标系统TS由包括递归神经网络RNN和聚合控制对策ACP的增强学习控制器RLC控制。增强学习控制器RLC从增强学习对策生成器PGEN接收控制对策P1，...，PN，并且从控制对策P1，...，PN生成聚合控制对策ACP。

此外，增强学习控制器RLC从目标系统TS接收与目标系统TS的当前性能（例如当前功率输出、当前效率等）相关的性能数据PD。性能数据PD包括与目标系统TS的当前状态（例如温度，旋转速度等）相关的状态数据SD。性能数据PD被输入到递归神经网络RNN以对其训练，并被输入到聚合控制对策ACP以生成用于经由控制回路CL控制目标系统TS的聚合控制动作。这导致增强学习控制器RLC的闭合学习回路。

来自若干类似源系统S1，...，SN的预训练控制对策P1，...，PN的使用为由增强学习控制器RLC运行的神经模型给出了良好起点。由此，可以显著地降低用于学习目标系统TS的高效控制对策所需的数据量和/或时间。

图2更详细地图示了目标系统TS以及增强学习控制器RLC。增强学习控制器RLC包括处理器PROC以及如上已经所述的递归神经网络RNN和聚合控制对策ACP。递归神经网络RNN实现增强学习模型。

包括源于目标系统TS的状态数据SD的性能数据PD（SD）被输入到递归神经网络RNN和聚合控制对策ACP。此外，控制对策P1，...，PN被输入到增强学习控制器RLC。控制对策P1，...，PN可以包括整个池P或者来自池P的控制对策的选择。

递归神经网络RNN适于训练包括用于对每个控制对策P1，...，PN加权的权重W1，...，WN的加权对策WP。通过由增强学习控制器RLC例如从增强学习对策生成器PGEN或从不同源接收的初始权重IW1，...，IWN来初始化权重W1，...，WN。

聚合控制对策ACP依赖于从递归神经网络RNN接收权重W1，...，WN的聚合函数AF并且依赖于控制对策P1，...，PN。控制对策P1，...，PN中的每一个或控制对策P1，...，PN的预选部分分别接收具有状态数据SD的性能数据PD（SD）并从所述性能数据PD（SD）计算特定动作建议AP1，...，或APN。动作建议AP1，...，APN被输入到聚合函数AF，所述聚合函数AF利用相应的权重W1，...，或WN对每个动作建议AP1，...，APN进行加权以从它们生成聚合控制动作AGGA。可以例如从控制对策P1，...，PN通过多数表决、通过形成加权平均值和/或通过形成加权中值来加权动作建议AP1，...，APN。然后，目标系统TS由聚合控制动作AGGA控制。

由聚合控制动作AGGA对目标系统TS的控制产生的性能数据PD（SD）被反馈到聚合控制对策ACP和递归神经网络RNN。从反馈的性能数据PD（SD），新的特定动作建议AP1，...，APN由控制对策P1，...，PN计算。另一方面，递归神经网络RNN使用与目标系统TS的期望性能相关的回报函数（未示出）来根据从目标系统TS反馈的性能数据PD（SD）调整权重W1，...，WN。

通过增强学习来调整权重W1，...，WN，其中优化目标针对期望性能的改进。利用调整后的权重W1，...，WN，进行聚合函数AF的更新UPD。更新的聚合函数AF然后通过调整的权重W1，...，WN对新的动作建议AP1，...，APN进行加权，即重新加权控制对策P1，...，PN，以便生成用于控制目标系统TS的新的聚合控制动作AGGA。上述步骤实现闭合学习回路，导致目标系统TS的性能的显著改进。

下面给出实施例的更详细的描述：

每个控制对策P1，...，PN最初分别由增强学习控制器RLC1，...，RLCN基于操作数据OD1，...，或ODN集计算。可以以多种方式指定用于特定控制对策的操作数据集。这种特定操作数据集的示例可以是单个系统例如单个设备的操作数据，某个版本的多个设备的操作数据，设备在修理之前和/或之后的操作数据，或者设备在某种地域中、在某种操作条件下和/或在某种环境条件下的操作数据。此外，来自P1，...，PN的不同控制对策可以指在相同的操作数据集上训练的不同的对策模型。

当将特定于某一源系统的任何这样的控制对策应用于目标系统时，它通常不能最佳地执行，因为没有一个数据集代表目标系统。因此，可以从池P中选择多个控制对策以形成控制对策集合P1，...，PN。每个控制对策P1，...，PN从性能数据PD（SD）提供单独的动作建议AP1，...，或APN。聚合动作建议AP1，...，APN以计算聚合控制对策ACP的聚合控制动作AGGA。在离散动作建议AP1，...，APN的情况下，可以使用多数表决来执行聚合。如果动作建议AP1，...，APN是连续的，则动作建议AP1，...，APN的平均值或中值可以用于聚合。

通过调整的权重W1，...，WN对控制对策P1，...，PN的重新加权允许聚合控制对策ACP的快速调整，特别是如果目标系统TS改变的话。重新加权取决于在与目标系统TS交互时产生的最近性能数据PD（SD）。由于加权对策WP具有比控制对策通常具有的更少的自由参数，即权重W1，...，WN，因此需要较少的数据来适应新的情况或修改的系统。权重W1，...，WN可以使用目标系统的当前性能数据PD（SD）和/或使用目标系统的模型（通过例如附加的递归神经网络实现）和/或使用所谓的对策评估来调整。

根据简单的实施方式，每个控制对策P1，...，PN可以被全局加权（即，在目标系统TS的完整状态空间上）。零的权重可以指示特定控制对策不是对策集合的一部分。

另外或替代地，聚合函数AF的加权可取决于系统状态，即取决于目标系统TS的状态数据SD。这可以用于在目标系统TS的状态空间的一个区域内向良好控制对策赐予高权重。在状态空间的其他区域内，可能根本不使用那些控制对策。

具体地，令P_i（i = 1，...，N）表示来自所存储的控制对策集合P1，...，PN的控制对策，并且令s为表示目标系统TS的当前状态的向量。然后，根据由s表示的当前状态，权重函数f（P_i，s）可以将（集合W1，...，WN的）权重W_i分配给相应的控制对策P_i，即W_i = f（P_i，s）。可能的方法可以是基于当前状态s和与P_i一起存储在训练集合中的状态之间（根据状态空间的预定义度量）的距离计算权重W_i，该训练集合包含P_i执行良好的那些状态。例如由概率对策提供的不确定性估计也可以包括在权重计算中。

优选地，使用增强学习来优化全局和/或状态相关加权。这种增强学习问题的动作空间是权重W1，...，WN的空间，而状态空间被定义在目标系统TS的状态空间中。对于例如十个控制对策的池，动作空间仅是十维的，并且因此允许利用相对少的输入数据和少的计算工作量进行快速优化。所谓的元动作可以用于甚至进一步降低动作空间的维度。所谓的延迟效应通过使用增强学习方法而得以减轻。

优选地通过将控制对策集合P1，...，PN的所测量性能应用于回报函数来执行权重W1，...，WN的调整。回报函数可以优选地根据最大化目标系统TS的效率、最大化目标系统TS的输出、最小化目标系统TS的排放和/或最小化目标系统TS的磨损的目标来选择。特别地，用于训练控制对策P1，...，PN的回报函数可以用于训练和/或初始化加权对策WP。

利用训练的权重W1，...，WN，可以根据AGGA = AF（s，AP1，...，APN，W1，...，WN）来计算聚合控制动作AGGA，其中AP_i = P_i（s），i = 1，...，N。

Claims

1.一种用于由处理器基于控制对策池来控制目标系统的方法，所述方法包括：

a）接收包括多个控制对策的所述控制对策池，

b）接收用于加权所述多个控制对策中的每一个的权重，

c）通过所述权重对所述多个控制对策进行加权，以提供加权的聚合控制对策，

d）使用加权的聚合控制对策来控制目标系统，

e）接收与所述受控目标系统的性能相关的性能数据，

f）由所述处理器基于所接收的性能数据来调整所述权重，以改进所述受控目标系统的性能，以及

g）通过所调整的权重来重新加权所述多个控制对策，以调整所述加权的聚合控制对策。

2.根据权利要求1所述的方法，其中，

通过训练由处理器运行的神经网络来调整权重。

3.根据权利要求1所述的方法，还包括：

a）接收至少一个源系统的操作数据，以及

b）从所述操作数据的不同数据集计算所述多个控制对策。

4.根据权利要求3所述的方法，其中，

通过训练神经网络或另一神经网络来计算所述多个控制对策。

5.根据权利要求3所述的方法，其中，

所述多个控制对策的计算使用与所述至少一个源系统的性能相关的回报函数，并且

该回报函数用于调整权重。

6.根据权利要求1所述的方法，其中，

所述性能数据包括与目标系统的当前状态有关的状态数据，并且

所述多个控制对策的加权和/或重新加权取决于所述状态数据。

7.根据权利要求1所述的方法，其中，

从受控目标系统、从目标系统的仿真模型和/或从对策评估来接收所述性能数据。

8.根据权利要求1所述的方法，其中，

为了控制目标系统，根据加权的聚合控制对策从根据多个控制对策的动作建议通过加权多数表决、通过形成加权平均值和/或通过形成加权中值，来确定聚合控制动作。

9.根据权利要求2所述的方法，其中，

神经网络的训练基于增强学习模型。

10.根据权利要求2所述的方法，其中，

神经网络作为递归神经网络操作。

11.根据权利要求1所述的方法，其中，

根据控制对策的性能评估而从所述控制对策池选择所述多个控制对策。

12.根据权利要求1所述的方法，其中，

来自所述控制对策池的控制对策根据调整的权重被包括在所述多个控制对策中或从所述多个控制对策中排除。

13.根据权利要求1所述的方法，其中，

针对目标系统在闭合学习回路中运行权利要求1的步骤d）至g）。

14.一种用于基于控制对策池来控制目标系统的控制器，适于执行权利要求1所述的方法。

15.一种用于由处理器基于控制对策池来控制目标系统的计算机程序产品，适于执行权利要求1所述的方法。