CN112292642A

CN112292642A - 用于控制技术系统的控制装置和用于配置控制装置的方法

Info

Publication number: CN112292642A
Application number: CN201980042965.8A
Authority: CN
Inventors: S·迪尔; K·赫舍; V·施特尔青; M·C·韦伯
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2018-06-27
Filing date: 2019-06-26
Publication date: 2021-01-29
Anticipated expiration: 2039-06-26
Also published as: KR20210024106A; WO2020002447A1; KR102506454B1; EP3794416A1; EP3588211A1; US20210256428A1; CN112292642B

Abstract

借助机器学习方法训练用于技术系统（TS）的根据本发明的控制装置（CTL）。为此，检测用于该机器学习方法的训练数据（TD）的时间序列。所述训练数据（TD）包括对所述技术系统（TS）的状态进行详细说明的状态数据（SD）以及对所述技术系统（TS）的控制动作进行详细说明的控制动作数据（AD）。从所述训练数据（TD）中特定地提取所述控制动作数据（AD）的时间序列并且鉴于时间上的变化来对其进行检验。在确定出时间上的变化的情况下确定包括该变化的时间窗（TF）并且时间窗特定地提取处在该时间窗（TF）之内的训练数据（FTD）。然后该控制装置（CTL）借助机器学习方法优选地依据所提取的所述训练数据（FTD）被训练并且因此被配置用于控制所述技术系统（TS）。

Description

用于控制技术系统的控制装置和用于配置控制装置的方法

背景技术

复杂的技术系统、诸如燃气涡轮机、风力涡轮机、太阳能发电站、内燃机、制造设施或电网通常为了生产运行而需要耗费的配置，以便例如有针对性地优化回报、资源需求、有效程度、有害物排放、稳定性、磨损和/或该技术系统的其他目标参数。

技术系统的符合时代要求的控制装置为了配置而常常使用机器学习方法。借助于这样的学习方法，可以依据训练数据而鉴于如下方面训练控制装置：从技术系统的当前运行数据出发确定用于控制该技术系统的如下控制动作，这些控制动作特定地引起该技术系统的期望行为或者在其他方面最佳的行为。为了所述目的，有大量已知的学习方法、诸如增强式学习的方法可供使用。在此，作为训练数据可以尤其是使用该技术系统的或者类似技术系统的尤其是历史的和/或当前的运行数据。

在已知的学习方法情况下，通常为了成功的训练而需要大量的训练数据，所述训练数据此外应该尽可能代表性地涵盖该技术系统的运行条件。过少量的代表性训练数据或过少地涵盖相关的运行条件可能负面地影响训练成果。

发明内容

本发明的任务是：说明一种用于控制技术系统的控制装置以及一种用于配置控制装置的方法，所述控制装置以及所述方法允许有效的训练。

所述任务通过具有专利权利要求1的特征的方法、通过具有专利权利要求13的特征的控制装置、通过具有专利权利要求14的特征的计算机程序产品以及通过具有专利权利要求15的特征的计算机可读的存储介质而得以解决。

为了借助机器学习方法来配置用于技术系统的控制装置，检测用于该机器学习方法的训练数据的时间序列。所述训练数据在此情况下包括：对该技术系统的状态进行详细说明的状态数据以及对该技术系统的控制动作进行详细说明的控制动作数据。所述技术系统可以尤其是燃气涡轮机、风力涡轮机、太阳能发电站、内燃机、制造设施、交通管理系统、用于建筑物的能量控制装置、能量传输网或3D打印机。从训练数据中特定地提取控制动作数据的时间序列并且鉴于时间上的变化来对其进行检验。在确定出时间上的变化的情况下，确定包括该变化的时间窗并且时间窗特定地提取处在该时间窗之内的训练数据。该控制装置然后借助机器学习方法优选地依据所提取的训练数据被训练并且因此被配置用于控制该技术系统。

为了执行根据本发明的方法，设置控制装置、计算机程序产品以及计算机可读的存储介质。

根据本发明的方法以及根据本发明的控制装置可以例如借助一个或多个计算机、处理器、应用特定集成电路（ASIC）、数字信号处理器（DSP）和/或所谓的“现场可编程门阵列”（FPGA）来执行或实施。

只要是有针对性地确定相应的时间窗以使其包括控制动作数据的时间上的变化，就应期望的是：在该时间窗中所包含的训练数据超出平均水平地包含有许多关于对技术系统的状态的控制干预的效果的信息。证实了：通过特定提取处在该时间窗之内的训练数据以及将其优选地使用用于训练该控制装置，常常能够明显更快速且更有效地学习在控制干预及其效果之间的相互联系。在许多情况下，违背于普遍的学术观点而可观察到：受限于特定选择的训练数据而进行的训练要比利用所有训练数据进行的训练更为有效。较不相关的或者冗余的训练数据常常可能甚至使训练成果变差。

本发明的有利实施方式和扩展方案在从属权利要求中予以说明。

有利地，所述机器学习方法可以使用或实施：增强式学习的方法、人工神经网络、递归神经网络、卷积神经网络、自动编码器、深度学习架构、支持向量机、数据驱动的可训练的回归模型、k最近邻分类器、物理模型和/或决策树。针对所说明的变型，有大量的有效实施方案可供使用。通过本发明，尤其是可以改善在增强式学习的方法情况下所谓Q函数的收敛和稳定性。增强式学习的这样的方法常常也被称为Reinforcement Learning（强化学习）。

根据本发明的有利的实施方式，可以在训练控制装置的情况下抑制或不采纳处在时间窗之外的训练数据。替代地或附加地，在训练时可以将处于时间窗之外的训练数据加权得比所提取的训练数据更小。

根据本发明的有利扩展方案，可以在进行中的运行中检测技术系统的运行数据并且将其纳入到训练数据的序列中。然后，可以优选地依据所提取的训练数据来在进行中的运行中进一步训练该控制装置；尤其是在控制装置控制该技术系统期间。以这种方式，控制装置可以适配于在运行中产生的、例如由磨损引起的在技术系统的行为方面的变化。替代地或附加地，至少部分地事先训练或离线训练该控制装置。

此外，可以在鉴于控制动作数据的序列的时间上的变化来进行检验时例如借助模式识别方法来在该序列中寻找预给定的变化模式。由于找到了所述变化模式于是可以确定出时间上的变化。

此外，可以在鉴于控制动作数据的序列的时间上的变化来进行检验时根据分配给不同时间的控制动作数据的比较、差形成、经加权的差形成和/或差商来确定变化度量。可以然后依据所确定的变化度量来进行时间上的变化的确定。作为变化度量可以尤其是计算接连控制动作数据的差商或差的平方或者绝对值。在此，也可以考虑更高的差商。通过所述变化度量可以量化相应的时间上的变化。

对于控制动作数据分别包括多个分量的情况，可以针对所述控制动作数据的分量分别确定分量特定的变化度量。在此，可以鉴于时间上的变化来单独地检验这些分量其中的每个。

作为用于确定出时间上的变化的标准可以使用：相应变化度量对必要时多分量的阈值的超出。

根据本发明的一种有利的扩展方案，可以确定控制动作数据的序列的时间上的变化的幅度和/或速率。根据所确定的速率和/或幅度，然后可以规定时间窗的长度、用于与所述时间上的变化的变化度量进行比较的阈值和/或变化模式。替代地或附加地，可以根据控制动作数据或训练数据的内相关或者其他统计学特性来规定时间窗长度、阈值和/或变化模式。

根据本发明的另一有利实施方式，可以提供目标函数，该目标函数根据状态数据的至少一部分来确定在技术系统的运行中待优化的性能参数。这种目标函数常常也称为报酬函数或Reward Function（回报函数）。然后，可以优选地依据被包含在所提取的训练数据中的状态数据的部分鉴于优化性能参数方面来训练该控制装置。优化在此并且在下文中也应理解为接近最佳值。该性能参数可以尤其是涉及：技术系统的回报、产率、有效程度、有害物排放或资源消耗或者这些参数其中一部分或者这些参数必要时经加权的组合。目标函数可以由状态数据或其他运行数据、例如技术系统的环境数据来计算性能参数。

为了优化性能参数有大量的尤其是增强式的学习和被监督的学习的已知方法可供使用。

此外，可以确定所提取的训练数据占训练数据总体的份额。根据所确定的份额，然后可以确定针对所述训练数据的质量度量并且将该质量度量输出以用于控制技术系统。通过这样的质量度量可以在一定程度上量化所述训练数据的对于该训练而言相关的信息密度。如果有训练数据的多个序列可用，则优选地可以选择具有高质量度量的序列并且将其用于训练。

根据本发明的有利扩展方案，可以借助聚合函数来聚合所述训练数据和/或所提取的训练数据。然后，可以依据经聚合的训练数据来进行所述训练。通过这种聚合可以优选地时间窗特定地合并或减少所述训练数据或所述所提取的训练数据，其方式例如为：连续地形成多个时间上接连的训练数据的必要时经加权的平均值或中位数、最大值或最小值。

附图说明

本发明的实施例接下来依据附图进一步予以阐述。在此，分别在示意图中：

图1示出了具有根据本发明的控制装置的燃气涡轮机；

图2示出了在训练阶段中的根据本发明的控制装置；和

图3示出了具有相对时间来描绘的训练数据的图表。

具体实施方式

图1示例性地图解了作为技术系统TS的燃气涡轮机。替代地或附加地，该技术系统TS也可包括：风力涡轮机、太阳能发电站、内燃机、制造设施、交通管理系统、用于建筑物的能量控制装置、能量传输网、诸如电网、3D打印机或其他用于添加式制造的系统。

燃气涡轮机TS与能够以计算机支持的方式训练的控制装置CTL耦合，该控制装置CTL能够实施为燃气涡轮机TS的部分或者以完全地或部分地在燃气涡轮机TS外部的方式来实施。控制装置CTL用于控制技术系统TS并且为此目的能够借助于机器学习方法来训练。在此情况下，对技术系统TS进行控制也应理解为：对技术系统TS进行调节以及对与控制相关的、也即有助于控制技术系统TS的数据和控制信号进行输出和应用。

这样的与控制相关的数据可以尤其是包括：控制动作数据、预测数据、监控数据和/或分类数据，这些数据尤其是能够被应用于技术系统TS的运行优化、监控或维护和/或应用于磨损或损坏识别。

燃气涡轮机TS还拥有与控制装置CTL耦合的传感器S，这些传感器连续地测量技术系统TS的一个或多个运行参数并且将其以运行数据BD的形式传送至控制装置CTL。除了传感器数据之外，还能够通过控制装置CTL检测来自技术系统TS的其他数据源的或来自外部数据源的其他运行参数。

在此并且在下文中尤其是应将物理的、调节技术的、效用技术的和/或结构类型引起的运行参量、属性数据、功率数据、效果数据、状态数据、系统数据、规定值、控制数据、传感器数据、测量值、环境数据、监控数据、预测数据、分析数据和/或其他在技术系统TS的运行中产生的数据和/或对技术系统TS的运行状态或控制动作进行描述的数据理解为运行数据BD。这可以例如是技术系统TS的关于温度、压力、排放、振动、震荡状态或资源消耗的数据。特别是在燃气涡轮机的情况下，运行数据BD可以涉及涡轮机功率、转动速度、振动频率或振动幅度。所述运行数据BD可以是纯量的、向量值的或张量值的并且尤其是高维度的。

图2在示意图中示出在训练阶段中的根据本发明的控制装置CTL，通过该训练阶段为了对技术系统TS的经优化的控制来配置该控制装置CTL。控制装置CTL被耦合到技术系统TS上。

可以如在图1的上下文中所描述的那样来构型或实施控制装置CTL以及技术系统TS。控制装置CTL拥有一个或多个用于执行控制装置CTL的所有方法步骤的处理器PROC以及拥有一个或多个与处理器PROC耦合的用于存储要由控制装置CTL处理的数据的存储器MEM。

由技术系统TS以传感技术的方式检测运行数据的时间序列并且将其作为训练数据TD（t）传送至控制装置CTL，所述运行数据不仅包括状态数据而且也包括控制动作数据，t在此并且在下文中表示相应参量的时间上的依赖性或者其到相应时间点t的分配。

训练数据TD（t）的时间序列在当前实施例中来自于技术系统TS。一般而言，可以与此同时作为训练数据来应用该技术系统TS或类似技术系统的任意的能够应用于训练的历史运行数据或当前运行数据。

所述训练数据TD（t）尤其是包含状态数据SD（t）的时间序列以及控制动作数据AD（t）的时间序列。状态数据SD（t）在此情况下详细说明技术系统TS的运行状态，而控制动作数据AD（t）则详细说明对技术系统TS进行的控制动作。所述运行状态可以例如涉及技术系统的功率、转速、温度、压力、震荡状态和/或排放。

控制装置CTL拥有能够以数据驱动的方式训练的计算模块NN，该计算模块实施机器学习方法。在当前实施例中，能训练的计算模块NN拥有人工神经网络，借助于所述人工神经网络来实施增强式学习的方法。这样的能训练的计算模块或相应训练的控制装置常常也称为能训练的或进行学习的策略代理（Policy Agent）或者称为控制模块。计算模块NN的神经网络具有在训练期间形成的训练结构。

一般而言，训练应理解为：对参数化系统模型的输入参数到一个或多个输出参数的映射进行优化，其中所述系统模型例如是神经网络。所述映射根据预给定的、经学习的和/或要学习的标准在训练阶段期间被优化。可以例如在控制模块的情况下将控制动作的成果考虑作为标准，该成果例如可以涉及回报、资源需求、有害物排放、磨损或量化技术系统性能的其他参数。训练结构可以例如包括神经网络的神经元网络结构和/或在神经元之间的连接的权重，其通过该训练这样被形成，使得尽量好地满足所述标准。

在当前实施例中，借助增强式学习的方法鉴于经优化地控制技术系统TS来训练该计算模块NN。在此鉴于如下方面来训练该计算模块NN：依据作为输入参数被输送的技术系统TS的运行数据输出经优化的控制动作数据OAD作为输出参数，其中所述输出参数优化了目标函数RF。针对这样的学习方法有大量的已知标准例程可供使用。

目标函数RF由被输送的运行数据来计算出性能参数PP，该性能参数应通过所提及的学习方法来优化。为此目的，性能参数PP的通过目标函数RF所计算出的值被输送给计算模块NN，正如在图2中通过虚线箭头所表明的。因此，借助学习方法这样适配神经网络的训练结构，使得神经网络的输出参数OAD优化性能参数PP。

通过性能参数PP来量化该技术系统TS的所期望的行为。因此，可以例如使用技术系统TS的回报、产率、有效程度、有害物排放、磨损和资源消耗的必要时经加权的组合来作为性能参数PP或者可以使用这些参数其中一部分或者涉及技术系统TS的性能的其他参数。通过优化性能参数PP，鉴于经优化的控制动作数据OAD的输出来训练该计算模块NN并且因此将该控制装置CTL配置用于对技术系统TS的经优化的控制。

用于计算性能参数（在此为PP）的目标函数（在此为RF）常常也称为报酬函数或Reward Function。该性能参数在此优选地说明了长期收益或总报酬。

进入到目标函数RF中的运行数据常常也称为目标数据并且通常是该技术系统TS的在运行数据中所包含的状态数据的部分。为了由技术系统TS的目标数据来计算性能参数而已知大量的方法。

证实了：计算模块NN的训练成果明显取决于训练数据TD的质量。在此意义上，根据本发明应力求找到和提取对于训练或训练成果而言特别有用的那些训练数据。

为了选择和提取这些促进训练的训练数据，控制装置CTL包含过滤器，训练数据TD（t）被传送至过滤器F。该过滤器F用于如下目的：识别如下时间间隔或时间窗TF，所述时间间隔或时间窗优选地包含促进训练的训练数据并且特定地提取或滤出所述促进训练的训练数据。

证实了：包含关于控制干预对技术系统TS的状态的影响的信息的那些训练数据是特别促进训练的。通过将学习方法聚焦于这样的训练数据，通常可以明显更快速地且更有效地学习在控制干预及其影响之间的相互联系。因此，证实为有利的是，识别或者在训练时优选如下时间窗，在所述时间窗内应用或者变换控制动作，也即在所述时间窗内控制动作在时间上变化。

为了确定出控制动作的时间上的变化，该过滤器F包括变化探测器DD，其中控制动作数据AD（t）的时间序列被传送至变化探测器。对此，通过过滤器F从所述训练数据TD（t）中特定地提取所述控制动作数据AD（t）。

为了探测所述控制动作数据AD（t）的时间上的变化，所述变化探测器DD连续地确定变化度量D。后者可以例如被计算为接连的控制动作数据的差的绝对值|AD（t）- AD（t-1）|或者计算为这样的差的商（AD（t）- AD（t-1））²。在多分量的控制动作数据AD（t）的情况下，可以相应地确定接连的控制动作矢量的多维的欧几里得距离或加权距离来作为变化度量D。变化探测器DD将连续确定的变化度量D与预给定的或者以其他方式确定的阈值TH比较并且由于超出所述阈值TH而确定出控制动作数据AD（t）的时间上的变化。在多分量的控制动作数据情况下，可以相应地设置分量特定的阈值。替代地或附加地，变化探测器DD可以根据预给定的或者以其他方式确定的变化模式来寻找控制动作数据AD（t）的序列并且由于所述变化模式的出现而确定出控制动作数据AD（t）的时间上的变化。

由于确定出相应的变化而确定在控制动作数据AD（t）的序列中的相应的变化点。在当前实施例中，确定相应的变化时间点t_s作为相应的变化点，其中在所述变化时间点t_s相应的变化度量D超出该阈值TH。

由所述变化探测器DD将所确定的变化时间点t_s传送至过滤器F的选择模块SEL。也将训练数据TD（t）的序列传送至所述选择模块SEL。选择模块SEL依据变化时间点t_s来分别确定如下时间窗TF，该时间窗分别包括相应的变化时间点t_s。优选地，围绕相应的变化时间点ts而居中对齐相应的时间窗TF。在此情况下，作为时间窗得出了所述时间间隔TF（t_s）=[t_s-L/2,t_s+L/2]，其中L表示时间窗TF的长度。

可以根据要控制的技术系统TS而定，取决于所述技术系统的传感器的反应时间、对控制措施的反应时间、环境条件的变化时间或者取决于其他对于控制该技术系统TS而言决定性的时间尺度来规定时间窗的长度L。在燃气涡轮机或风力涡轮机的情况下，可以优选地设置从一秒到三分钟以上的长度L，尤其是设置从30秒到60秒的长度。

优选地，可以根据对控制动作数据AD（t）的序列的时间上的变化的分析来确定该阈值TH以及长度L。因此，可以例如确定控制动作数据AD（t）的波动的速率和/或幅度并且取决于此地计算出或者修改该阈值TH和长度L。尤其是，可以在更大幅度的情况下规定更小的阈值TH并且在更大速率的情况下规定更小的长度L。

依据图3进一步图解对时间窗TF的确定。图3示出了如下图表，在该图表中相对于时间t来描绘训练数据TD（t）的序列。训练数据TD（t）包括状态数据SD（t）和控制动作数据AD（t），在图表的下方部分中图解所述状态数据，在上方部分中图解所述控制动作数据AD（t）。出于一目了然的原因，以强烈简化的方式分别示出唯一的值的变化过程。

控制动作数据AD（t）的序列示出在时间点t_s1、t_s2、t_s3和t_s4时的多个时间上的变化S1、S2、S3和S4。在变化时间点t_s1、t_s2以及t_s3时，所确定的变化度量D位于阈值TH之上，而在t_s4时则位于该阈值TH之下。因此不采纳该变化S4并且因此并不定义时间窗。相反，时间上的变化S1或时间点t_s1则定义了时间窗TF1，变化S2或时间点t_s2定义了时间窗TF2并且变化S3或时间点t_s3定义了时间窗TF3。所述时间窗TF2和TF3重叠并且因此被合并成共同的时间窗TF23=[t_s2-L/2,t_s3+L/2]。

再次依据图2来图解根据本发明的方法的接下来的过程。

依据所确定的时间窗TF，选择模块SEL特定地选择并且提取所述训练数据TD（t）其中的处于该时间窗TF之内的那些训练数据。处于该时间窗TF之内的训练数据在下文中表示为所提取的或所过滤的训练数据FTD。针对包括该变化时间点t_s的（不重叠的）时间窗TF，可以例如通过FTD={TD(t_s-L/2),…, TD(t_s+L/2)}来给出所提取的训练数据。

由选择模块SEL或由过滤器F将时间窗特定地选择的和过滤的训练数据FTD传送至计算模块NN。此外，所过滤的训练数据FTD被输送给目标函数RF，所述目标函数由在所提取的训练数据FTD中所包含的运行数据并且尤其是由在其中所包含的状态数据来计算性能参数PP。如上文已经表明的，依据所提取的训练数据FTD以及所计算出的性能参数PP来这样训练计算模块NN的神经网络，使得输出如下控制动作数据OAD，所述控制动作数据在被应用于所述技术系统TS的情况下优化性能参数PP。

在本实施例中并不将处于该时间窗TF之外的训练数据输送给该计算模块NN并且因此仅仅依据所提取的训练数据FTD来训练该神经网络。如上文已经提及的，相对于神经网络替代地或附加地，可以尤其是在计算模块NN中实施增强式学习的方法。只要是时间上接近于控制干预或控制动作数据变化的训练数据证实为特别促进训练的，通常就可以改善训练成果或者减小训练耗费。

替代地，也可以将处于时间窗之外的训练数据输送给计算模块NN。在此情况下，至少优选地或者绝大多数地依据所过滤的训练数据FTD来训练计算模块NN。因此，可以比处于时间窗之外的训练数据更强地加权在训练时所过滤的训练数据FTD，或者可以减少、稀释和/或部分地不予采纳处于时间窗之外的训练数据。

依据所提取的训练数据FTD和其占训练数据TD总体的份额可以导出针对训练数据TD的质量度量。这样确定的质量度量可以在一定程度上量化针对所述训练而言相关的信息密度。

优选地，可以通过过滤器F连续过滤被连续检测的和当前检测的训练数据TD（t）并且在进行中的运行中依据所过滤的训练数据FTD进一步训练该控制装置CTL。

可选地，可以在过滤器F和计算模块NN之间中间接通聚合器（未示出），该聚合器优选地逐时间窗地聚合、也即合并所过滤的训练数据FTD和/或减少所过滤的训练数据FTD。然后为了训练而将被聚合的训练数据传送给计算模块NN。可以例如通过经由所过滤的训练数据FTD的序列的预给定的片段形成平均值、中位数、最小值和/或最大值来进行该聚合。

通过训练神经网络并且因此训练计算模块NN，控制装置CTL被配置用于经优化地控制技术系统TS。在控制中，控制装置CTL应用通过训练所学习的控制策略、也即将当前的系统状态映射到鉴于目标函数RF方面最佳的控制动作。

通过特定地过滤训练数据，通过特别促进训练的训练数据来训练该计算模块NN。所选择的训练数据FTD包含特别多的在控制干预和其对技术系统TS的系统状态的影响之间的相关性并且因此对于其控制而言是特别有代表性的。通过特定选择训练数据，可以有效地避免冗余的、较不相关的或较不显著的信息干扰或延迟学习过程。这表明了：通过以根据本发明的方式过滤训练数据可以显著改善训练成果或者显著减少训练耗费。

Claims

1.用于借助机器学习方法配置用于技术系统（TS）的控制装置（CTL）的方法，其中：

a) 检测用于所述机器学习方法的训练数据（TD）的时间序列，其中所述训练数据（TD）包括：对所述技术系统（TS）的状态进行详细说明的状态数据（SD）以及对所述技术系统（TS）的控制动作进行详细说明的控制动作数据（AD）；

b) 从所述训练数据（TD）中特定地提取所述控制动作数据（AD）的时间序列；

c) 鉴于时间上的变化来检验所述控制动作数据（AD）的序列，并且在确定出时间上的变化的情况下，确定包括所述变化的时间窗（TF）；

d）时间窗特定地提取处在所述时间窗（TF）之内的训练数据（FTD）；和

e）所述控制装置（CTL）借助所述机器学习方法优选地依据所提取的所述训练数据（FTD）被训练并且因此被配置用于控制所述技术系统（TS）。

2.根据权利要求1所述的方法，其特征在于，所述技术系统（TS）是燃气涡轮机、风力涡轮机、太阳能发电站、内燃机、制造设施、交通管理系统、用于建筑物的能量控制装置、能量传输网和/或3D打印机。

3.根据上述权利要求其中任意一项所述的方法，其特征在于，所述机器学习方法使用或实施：增强式学习的方法、人工神经网络、递归神经网络、卷积神经网络、自动编码器、深度学习架构、支持向量机、数据驱动的可训练的回归模型、k最近邻分类器、物理模型和/或决策树。

4.根据上述权利要求其中任意一项所述的方法，其特征在于，在训练所述控制装置（CTL）的情况下抑制或不采纳处在所述时间窗（TF）之外的训练数据。

5.根据上述权利要求其中任意一项所述的方法，其特征在于，在进行中的运行中检测所述技术系统（TS）的运行数据（BD）并且将所述运行数据纳入到所述训练数据（TD）的序列中；和

优选地依据所提取的所述训练数据（FTD）来在进行中的运行中进一步训练所述控制装置（CTL）。

6.根据上述权利要求其中任意一项所述的方法，其特征在于，在鉴于所述控制动作数据（AD）的序列的时间上的变化来进行检验时在所述序列中寻找预给定的变化模式；和

由于找到了所述变化模式来确定出所述时间上的变化。

7.根据上述权利要求其中任意一项所述的方法，其特征在于，在鉴于所述控制动作数据（AD）的序列的时间上的变化来进行检验时根据分配给不同时间的控制动作数据（AD）的比较、差形成、经加权的差形成和/或差商来确定变化度量（D）；和

依据所确定的所述变化度量（D）来进行时间上的变化的确定。

8.根据权利要求7所述的方法，其特征在于，所述控制动作数据（AD）分别包括多个分量，并且

针对所述控制动作数据（AD）的所述分量分别确定分量特定的变化度量。

9.根据上述权利要求其中任意一项所述的方法，其特征在于，确定所述控制动作数据（AD）的序列的时间上的变化的幅度和/或速率，并且

根据所确定的所述速率和/或所述幅度规定所述时间窗（TF）的长度和/或用于与所述时间上的变化的变化度量（D）比较的阈值。

10.根据上述权利要求其中任意一项所述的方法，其特征在于，提供目标函数（RF），所述目标函数根据所述状态数据（SD）的至少一部分来确定在所述技术系统（TS）的运行中待优化的性能参数（PP），并且

优选地依据被包含在所提取的所述训练数据（FTD）中的所述状态数据（SD）的部分鉴于优化所述性能参数（PP）方面训练所述控制装置（CTL）。

11.根据上述权利要求其中任意一项所述的方法，其特征在于，

确定所提取的所述训练数据（FTD）占所述训练数据（TD）的份额，和

根据所确定的份额，确定针对所述训练数据（TD）的质量度量并且将所述质量度量输出以用于控制所述技术系统（TS）。

12.根据上述权利要求其中任意一项所述的方法，其特征在于，借助聚合函数来聚合所述训练数据（TD）和/或所提取的所述训练数据（FTD），并且

依据经聚合的训练数据来进行所述训练。

13.用于控制技术系统（TS）的控制装置（CTL），所述控制装置被设立用于执行根据上述权利要求其中任意一项所述的方法。

14.计算机程序产品，所述计算机程序产品被设立用于执行根据权利要求1至12其中任意一项所述的方法。

15.计算机可读存储介质，所述计算机可读存储介质具有根据权利要求14所述的计算机程序产品。