CN110023850B

CN110023850B - 用于控制技术系统的方法和控制装置

Info

Publication number: CN110023850B
Application number: CN201780075886.8A
Authority: CN
Inventors: C.奥特; A.亨切尔; S.乌德卢夫特
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2016-12-06
Filing date: 2017-12-05
Publication date: 2022-06-28
Anticipated expiration: 2037-12-05
Also published as: US20200064788A1; WO2018104280A1; EP3529669B1; EP3529669A1; US11340564B2; CN110023850A; DE102016224207A1

Abstract

为了控制技术系统（TS），连续地检测技术系统（TS）的系统状态（SZ、SZ1、SZ2）。借助于训练过的第一控制模型（BM）参照检测到的系统状态（SZ、SZ1）预测所述技术系统（TS）的后续状态（PZ）。接着获知针对预测的后续状态（PZ）和实际出现的系统状态（SZ2）之间的距离的距离值（D）。此外借助于训练过的第一控制模型（BM）这样训练第二控制模型（RM）：参照检测到的系统状态（SZ、SZ1）和用于控制所述技术系统（TS）的控制动作（SA、SA1、...、SAN）预测所述距离值。然后参照通过训练过的第二控制模型预测的距离值（PD、PD1、...、PDN）修改通过第一控制模型（BM）预测的后续状态（PZ）。输出修改后的后续状态（MZ1、...、MZN）用于控制所述技术系统（TS）。

Description

用于控制技术系统的方法和控制装置

背景技术

在复杂的技术系统、例如风力涡轮机、燃气轮机、制造设备、机动车或技术成像系统或分析系统中通常期望的是，在预定的标准方面优化技术系统的行为、作用和/或产额。为此，时兴的控制常常使用复杂的控制模型，这些控制模型从技术系统的相应系统状态中导出用于控制技术系统的特定控制数据。这种控制模型可以尤其是用于预测、模拟、分析和/或分类技术系统的系统状态。时兴的控制模型常常基于机器学习技术、例如借助于神经元网络并且可以参照技术系统的训练数据和/或其他运行数据专门地这样训练或设计：在预定的标准方面优化控制。

这样，风力涡轮机的控制可以例如参照训练数据进行学习：改变风湍流下转子叶片的迎角，以避免流动中断，从而最大化能量产生。该优化在此情况下自动地进行且通常不需要手动干预。

在许多技术系统中，通过外部影响因素、例如风速、风湍流比通过内部控制动作、例如上面提到的改变迎角更加强烈地影响行为、作用和/或收益。这种影响因素常常也具有高度随机性，并且只能部分地检测到。在这种情况下优化的控制策略、即优化的控制动作的机器学习可能会受到极大影响。

发明内容

本发明的任务是提出用于控制技术系统的方法和控制装置，它们可以更有效地被训练。

该任务通过具有权利要求1的特征的方法、通过具有权利要求12的特征的控制装置、通过具有权利要求13的特征的计算机程序产品以及通过具有权利要求14的特征的计算机可读的存储器介质来解决。

为了控制技术系统、例如风力涡轮机、太阳能设备、太阳能发电站、燃气轮机、制造设备或其他设备，连续地检测技术系统的系统状态。这种系统状态可以例如包括物理的、由作用引起的、调节技术上的和/或由结构类型引起的运行变量、特性、功率数据、作用数据、系统数据、预定值、控制数据、传感器数据、测量数据、环境数据和/或其他的在技术系统运行中产生的数据。尤其是系统状态也可以包括技术系统的一系列状态或状态走势。借助于训练过的第一控制模型参照检测到的系统状态预测该技术系统的后续状态。之后获知针对预测的后续状态和实际出现的系统状态之间的距离的距离值。此外，借助于训练过的第一控制模型这样训练第二控制模型：参照检测到的系统状态和用于控制该技术系统的控制动作预测所述距离值。通过第一控制模型预测的后续状态然后参照通过训练过的第二控制模型预测的距离值来修改。修改后的后续状态被输出用于控制技术系统。参照输出的修改后的后续状态，可以尤其是获知、选择和/或计划要采取的控制动作。

为了实施根据本发明的方法，设置控制装置、计算机程序产品以及计算机可读的存储器介质。

本发明的优点在于，通过将技术系统的建模划分到第一和第二控制模型中，控制动作对后续状态的影响通常比在技术系统的单片模型的情况下明显更好地被检测到。这尤其适合于控制动作对后续状态的影响相当小的情况。以这种方式通常可以大大提高训练成果。此外，常常需要较少的训练数据和较短的训练时间。

本发明的有利实施方式和改进方案在从属权利要求中说明。

优选地，第一和/或第二控制模型可以包括神经元网络、高斯过程、支持向量机、数据驱动的可训练回归模型、物理模型和/或决策树。针对前述的控制模型的实施变型，可使用大量的有效训练方法和学习方法。

系统状态还可以包括影响变量，其对技术系统的影响主导控制动作对技术系统的影响。这种影响变量可以尤其是具体化成对技术系统的外部或内部的影响，其可以是由环境引起的、调节技术上的和/或由作用引起的。

在风力涡轮机作为技术系统的情况下，影响变量可以尤其是包括风速、涡轮机功率、转速和/或发动机舱的加速度。在此情况下，相比于例如可通过控制动作影响的转子叶片的调整而言，尤其是风速具有对功率产额的明显更大的影响。主导的影响变量的其他例子是在太阳能发电站中的天气条件、燃气轮机中的燃气温度，制造设备中的工件状态或机动车中的速度。

在主导的影响变量的情况下，根据本发明的控制模型的分开被证明相对于现有技术是特别有利的。尤其是已被证明，控制动作在预测距离值时的影响通常比在预测由影响变量主导的后续状态时明显更好地被检测。这可以归因于主导的效应已经与训练过的第一控制模型分离。由此通常可以大大提高训练成果。

如果影响变量经受统计波动，则还可以设置成这样训练第一控制模型：即优化、尤其是最小化在预测的后续状态和实际出现的系统状态之间的距离的统计平均值。以这种方式即便在统计波动和/或仅部分地可测量的影响变量的情况下通常也能实现比较高的预测品质。

按照本发明的一种有利的实施方式，可以参照检测到的技术系统的系统状态训练第一控制模型，尤其是用于参照技术系统的系统状态预测后续状态。

替选地或附加地，也可以参照检测到的不同于技术系统的训练系统的系统状态训练第一控制模型，尤其是用于参照训练系统的系统状态预测后续状态。这种训练常常也被称作迁移学习。通过使用其他系统的训练数据，通常可以大大减少在技术系统本身上待检测的训练数据的数量。以这种方式可以常常缩短所需的训练阶段。由于根据本发明的控制模型的分开通常较少地产生不准确性，该不准确性通过技术系统和训练系统之间的个性化区别所引起，因为这些不准确性通过第二控制模型在一定程度上被纠正。

还可以设置成，在训练第一控制模型和/或在预测后续状态时不考虑控制动作。这样，控制动作的实际存在的影响在训练第一控制模型时作为极小的统计干扰变量存在，这对第一控制模型的训练成果或预测品质几乎没有影响。相反，影响变量的主要影响常常被更好地检测到。

按照本发明的另一有利的实施方式可以设置成，针对多个控制动作借助于训练后的第二控制模型分别预测距离值且因此修改预测的后续状态并且配设给相应的控制动作。

然后，从所得出的修改后的后续状态可以选择目标状态，并且可以参照配属于选择的目标状态的控制动作控制技术系统。作为目标状态在此情况下可以尤其是选择所得出的修改后的后续状态的这样的后续状态，该后续状态优化预定的标准。该标准可以比如涉及技术系统的产额、性能、资源消耗和/或磨损。

按照本发明的一种有利的改进方案，可以借助于训练后的第一控制模型和训练后的第二控制模型这样训练第三控制模型：参照检测到的系统状态输出优化的控制动作用于控制技术系统。在此情况下作为优化的控制动作可以尤其输出这样的控制动作，其按照预定的标准优化修改后的后续状态。如上面已经说明，预定的标准例如可以涉及技术系统的产额、性能、资源消耗和/或磨损。这种第三控制模型常常也可以被称作政策模型（Policy-Model）。

优选地，可以借助于被强化的学习方法训练第三控制模型。

附图说明

下面参照附图详细阐述一个实施例。在此分别在示意图中示出：

图1 风力涡轮机和根据本发明的用于控制风力涡轮机的控制装置，

图2 训练根据本发明的用于控制技术系统的控制装置以及

图3 借助于训练后的控制装置控制技术系统。

具体实施方式

图1在示意图中示出了风力涡轮机作为技术系统TS，其与根据本发明的用于控制风力涡轮机TS的控制装置CTL耦接。作为技术系统TS也可以设置太阳能设备、太阳能发电站、燃气轮机、制造设备或其他设备、技术成像系统或分析系统、机动车或上述的组合。控制装置CTL可以作为技术系统TS的一部分或者完全地或部分地在技术系统TS的外部实现。控制装置CTL具有用于实施控制模型的解释器INT。

技术系统TS具有传感器S用于连续地检测和/或测量技术系统TS的系统状态或部分系统状态。相应的传感器S在此也可以作为软件传感器实现。

借助于传感器S检测到的技术系统TS的系统状态SZ通过状态数据来具体化或表示。这种状态数据可以例如包括物理的、调节技术上的、由作用引起的和/或由结构类型引起的运行变量、运行数据、特性、功率数据、作用数据、系统数据、预定值、控制数据、环境数据、传感器数据、测量值或其他的在技术系统TS的运行中产生的数据。状态数据在此可以尤其是通过数据向量表示。

优选状态数据包括待优化的目标参数，其例如描述技术系统TS的功率、产额和/或行为。目标参数可以尤其是所谓的奖励函数的反馈值。反馈值、例如技术系统TS的功率产额，在此情况下作为系统状态或部分系统状态的函数被获知。这种奖励函数常常被称作奖励函数（Reward Function）。

系统状态SZ可以尤其包括状态走势，例如以一系列时间上前后相继地由传感器S连续测量的状态或向量。

此外，系统状态SZ尤其包括一个或多个主导的影响变量EG。影响变量EG在此情况下尤其具体化对技术系统TS或对技术系统TS的运行条件的外部或内部的影响。该作用（Einwirkung）或者说影响（Einfluss）可以是由环境引起的、物理的、调节技术上的和/或由作用引起的。影响变量EG在此可以包括作用的时间走势。在风力涡轮机作为技术系统TS的该实施例中，影响变量EG可以尤其包括测量到的风速。为了检测风速，可以将传感器S中的一个构造成风速计。

影响变量EG对技术系统TS的影响尤其是主导控制动作SA对技术系统TS的影响。因此，在风力涡轮机中-如前面已提到-比例如转子叶片的调节而言，风速对风力涡轮机的功率产额通常具有明显更大的影响。主导的影响变量EG的其他例子在风力涡轮机中是涡轮机功率、转子的转速和/或发动机舱的加速度，在太阳能发电站中是天气条件、在燃气轮机中是燃气温度，在制造设备中是工件状态以及在机动车中是其速度。影响变量EG借助于传感器S被连续地测量且通过状态数据具体化或表示。

在该实施例中系统状态SZ连同其包含的影响变量EG以状态数据的形式由技术系统TS传输至控制装置CTL。根据被传输的系统状态SZ，控制装置CTL获知优化的控制动作SA并且将其传输到技术系统TS上用于控制。

通过相应的控制动作SA控制技术系统TS，方式为，通过技术系统TS实施控制动作SA。在此将技术系统TS从当前的系统状态转运到后续状态中。这种控制动作SA常常也被称作动作、被称作动作变量或被称作控制变量并且通过控制数据具体化或表示。控制数据可以在此情况下尤其是也包括控制信号、模拟数据、预测数据、分析数据、状态数据、分类数据、监控数据和/或其他的与控制相关的、也就是说有助于控制技术系统的数据。尤其是控制动作SA也可以包括动作序列。如上面已经提到，假设控制动作SA对技术系统TS的影响通过影响变量EG主导。

图2在示意图中示出了控制装置CTL的训练。

耦接到技术系统TS上的控制装置CTL具有一个或多个处理器PROC用于实施控制装置CTL的方法步骤以及具有一个或多个与处理器PROC耦接的存储器MEM用于存储待由控制装置CTL处理的数据。

控制装置CTL还具有两个单独的控制模型BM和RM。

控制模型在该实施例中理解为可训练的控制模型，例如以神经元网络的形式，具有技术系统TS的模型。控制模型具有具备学习能力的训练结构并且常常也被称作系统模型。

训练理解为系统模型的输入参数到一个或多个目标参数上的映射（Abbildung）的优化。该映射按照预定的、学习到的和/或待学习的标准在训练阶段期间被优化。尤其是在预测模型中预测品质、分类品质、分析品质和/或模拟品质或-与此互补地-预测误差、分类误差、分析误差和/或模拟误差可以作为标准。替选地或附加地可以设置技术系统TS的性能、资源消耗、产额和/或磨损作为标准。作为预测品质可以例如使用在预测的和实际出现的针对目标参数的值之间的距离。以这种方式可以如下训练预测模型：使得在预测的和实际出现的系统状态之间的相应距离最小化，也就是说尽可能准确地预告系统状态。这种训练常常也被称作机器学习。

为了训练控制模型，通常可使用大量的标准训练方法，例如受监控的、未被监控的和/或被强化的学习方法。在此优化标准可以通过适当的成本函数来表示，为了使其最小化，实施已知的学习方法。

控制模型可以尤其是借助于神经元网络、支持向量机、决策树，一般性的数据驱动的训练过的回归模型、分析模型或借助于上述的组合来实现。在神经元网络中通过训练例如神经元网络结构、神经元阈值和/或神经元之间的连接的加权在优化标准方面进行优化，也就是说如此进行配置，使得上述的映射被优化。在数据驱动的回归模型中优化该模型的系数。

控制模型用于模拟或分析技术系统TS的物理的、调节技术上的、随机的和/或其他的作用相关性或上述中的一部分，用于预测或分类运行数据、状态数据、控制数据或其他系统数据和/或用于控制技术系统TS。控制模型优选对技术系统TS或其一部分以及外部影响进行建模，技术系统TS受这些外部影响所影响或者根据这些外部影响控制技术系统TS。控制模型可以作为模块、函数或例程来实现，它们的输入数据作为输入参数被供给且由此的输出数据作为目标参数根据其训练结构被导出。如此训练系统模型，即从输入数据在预定的标准方面可以导出优化的输出数据。

根据本发明控制装置CTL具有第一控制模型BM并且具有第二控制模型RM，第一控制模型也被称作基础模型，第二控制模型也被称作残差模型。两个控制模型BM和RM如前所述地实现并且分别通过数据结构来编码，该数据结构可以由解释器INT解码和实施。

基础模型BM和残差模型RM参照检测到的技术系统TS的系统状态和控制动作被训练。系统状态和控制动作在此配属于逻辑上不同的时间间隔TI1和TI2。

作为第一时间间隔TI1表示这样的时间间隔，在该时间间隔中当前检测到的系统状态或状态走势SZ1以状态数据的形式存在。第二时间间隔TI2在时间上布置在第一时间间隔TI1之后。在第一时间间隔TI1期间，在第二时间间隔TI2中出现的系统状态SZ2还未知并且应该通过训练过的控制装置CTL参照检测到的系统状态SZ1作为其后续状态尽可能准确地被预测到。之后，在第二时间间隔TI2结束时，也在该时间间隔TI2中实际出现的系统状态SZ2以状态数据的形式被检测到并且可以与预测的后续状态进行比较，用以获知预测品质。

基础模型BM设置成，参照当前检测到的系统状态SZ1预测后续状态PZ。为了为此目的训练基础模型BM，由技术系统TS向基础模型BM传输从第一时间间隔TI1中实际检测到的系统状态SZ1作为输入参数。系统状态SZ1尤其是包括主导的影响变量EG，例如当前测量到的风速。如上所述，影响变量EG主导控制动作SA对于技术系统TS的影响。此外，为了训练基础模型BM由技术系统TS向控制装置CTL传输来自第二时间间隔TI2的实际出现的系统状态SZ2。

基础模型BM在该实施例中通过神经元网络NNB实现。神经元网络NNB从系统状态SZ1作为输入参数导出预测的后续状态PZ作为目标参数，该后续状态与系统状态SZ2进行比较，方式为，获知针对预测的后续状态PZ和系统状态SZ2之间的距离的距离值D。距离值D代表基础模型BM的预测误差并且在该实施例中作为差值D=SZ2-PZ被获知。获知距离值D的绝对值|D|并且被反馈至基础模型BM。作为距离绝对值|D|可以例如使用所示出的向量的欧几里德距离或者另一种形式的标量积或者另一种矢量空间范数。参照反馈的绝对值|D|，神经元网络NNB-如虚线箭头所示-这样被训练，使得在预测的后续状态、这里是PZ与在第二时间间隔TI2中实际出现的系统状态、这里是SZ2之间的距离的统计平均值最小化，也就是说，在统计平均值上尽可能好地预测后续状态。统计平均值可以在此情况下尤其是必要时加权的算术或几何平均值，其优选在时间窗口上形成，例如作为滑动平均值。优选在训练基础模型BM时不考虑控制动作SA。控制动作SA的影响在训练基础模型BM时作为很小的统计干扰变量存在，其相对于影响变量EG的统计波动通常是可忽略的。该忽略通常对基础模型BM的训练成果或预告品质不具有影响。

以前述的方式这样训练基础模型BM，即检测主导的影响变量EG、这里例如风速和由此引起的系统行为之间的主要相关性。

替选地或附加地，也可以参照例如相同或类似类型的风力涡轮机的不同于技术系统TS的训练系统（未示出）的系统状态训练基础模型BM。这种训练常常也被称作“迁移学习”。

在基础模型BM训练结束之后训练残差模型RM。残差模型RM在该实施例中通过神经元网络NNR实现。残差模型RM用于参照当前检测到的系统状态SZ1和控制动作SA尽可能准确地预测借助于训练过的基础模型BM确定的距离值D。为了为此目的训练残差模型RM，由技术系统TS获知来自第一时间间隔TI1的当前检测到的系统状态SZ1以及来自第二时间间隔TI2的控制动作SA用于残差模型RM。控制动作SA在此情况下配属于第二时间间隔TI2，如果来自第二时间间隔TI2的系统状态SZ2通过控制动作引起的话。

为了训练残差模型RM，已经训练过的基础模型BM用于参照系统状态SZ1预测后续状态PZ。在通过训练过的基础模型BM的预测中，-如已经在训练基础模型BM中那样-不考虑控制动作SA。通过基础模型BM预测的后续状态PZ与系统状态SZ2进行比较且在此如上所述获知距离值D。与此平行地，神经元网络NNR从系统状态SZ1和控制动作SA作为输入参数导出预测的距离值PD作为目标参数。预测的距离值PD与实际的借助于基础模型BM确定的距离值D进行比较，方式为，获知距离值D和预测的距离值PD之间的距离，例如作为差值D-PD。该距离的绝对值|D-PD|被反馈至残差模型RM，用以参照反馈的绝对值-如通过虚线箭头所示-这样训练其神经元网络NNR：使得预测的和实际的距离值之间的距离最小化，也就是说尽可能好地预测距离值D。

已被证明，控制动作SA的影响在距离值D中通常比在由影响变量EG主导的系统状态中明显更好地被检测到。这可以归因于，主导的效果与训练过的基础模型BM已分开。通过技术系统TS的建模分开到基础模型BM和残差模型RM中，通常可以大大提高控制装置CTL的训练成果。此外通常需要较少的训练数据和较短的训练时间。

图3在示意图中示出了借助于训练过的控制装置CTL、也就是说借助于基础模型BM和残差模型RM控制技术系统TS。图2中所示的元件在图3中通过相同的附图标记表示。为了清楚起见，同一个技术系统TS在控制装置CTL的两侧分开示出。附加于图2，在图3中示出了控制装置CTL的优化模块OM。

该优化模块OM用于针对相应的当前系统状态或状态走势SZ获知在预定的控制标准方面优化的控制动作OSA用于控制技术系统TS。该控制标准可以例如涉及技术系统TS的产额、性能、资源消耗和/或磨损并且可以通过适当的成本函数或奖励函数来实现，其将产额、性能、资源消耗和/或磨损返回作为系统状态SZ的函数。

在控制技术系统TS的框架中，通过技术系统TS的控制装置CTL检测当前的系统状态SZ并且供给给基础模型BM以及残差模型RM。此外，通过优化模块OM生成多个控制动作SA1、...、SAN并且传输给残差模型RM。然后，训练过的基础模型BM参照供给的系统状态SZ预测后续状态PZ并且训练过的残差模型RM参照传输的系统状态SZ和控制动作SA1、...、SAN针对相应的控制动作SA1、...或SAN，如上所述，预测由此分别获得的距离值PD1、..或PDN。预测的后续状态PZ然后参照预测的距离值PD1、...、PDN分别被修改用以如此地获知修改后的后续状态MZ1、...或MZN。修改后的后续状态MZ1、...、MZN分别配属于所获得的控制动作SA1、..或SAN。优选这样进行修改，即预测的距离值PD1、...、PDN分别被添加到预测的后续状态PZ，根据MZl = PZ + PDl、…、MZN=PZ + PDN。所得出的修改后的后续状态MZ1、...、MZN被传输至优化模块OM。

通过优化模块OM从修改后的后续状态MZ1、...、MZN中选择这一或这些后续状态作为目标状态，该后续状态优化预定的控制标准。替选地或附加地可以通过优化模块OM实施数字的优化方法，该优化方法根据迄今所生成的控制动作以及选择的后续状态生成其他的优选的控制动作，传输至残差模型RM，借助于控制标准评价所得出的修改后的后续状态并且相应地重新选择。这种优化方法可以优选重复地实施。

为了最后选择的、优化控制标准的修改后的后续状态，然后确定配属于其的控制动作并且作为优化的控制动作OSA通过优化模块OM输出。

替选于或附加于优化模块OM，可以设置第三控制模块PM（未示出），其借助于训练过的基础模型BM和训练过的残差模型RM这样被训练，即参照当前的系统状态SZ输出这样的优化的控制动作OSA，该控制动作优化上述的控制标准。优选地借助于被强化的学习（强化学习）的方法训练第三控制模型PM。这种第三控制模型常常也被称作政策模型。

由优化模块OM或由第三控制模块PM输出的优化的控制动作OSA最后由控制装置CTL用于控制技术系统TS。

Claims

1.用于控制技术系统（TS）的方法，其中，

a）连续地检测所述技术系统（TS）的系统状态（SZ、SZ1、SZ2），

b）借助于训练过的第一控制模型（BM）参照检测到的系统状态（SZ、SZ1）预测所述技术系统（TS）的后续状态（PZ），

c）获知针对预测的后续状态（PZ）和实际出现的系统状态（SZ2）之间的距离的距离值（D），

d）借助于训练过的第一控制模型（BM）训练第二控制模型（RM）从而参照检测到的系统状态（SZ、SZ1）和用于控制所述技术系统（TS）的控制动作（SA、SA1、...、SAN）预测所述距离值，

e）参照通过训练过的第二控制模型预测的距离值（PD、PD1、...、PDN）修改通过所述第一控制模型（BM）预测的后续状态（PZ），以及

f）输出修改后的后续状态（MZ1、...、MZN）用于控制所述技术系统（TS）。

2.根据权利要求1所述的方法，其特征在于，所述第一和/或所述第二控制模型（BM、RM）包括神经元网络、高斯过程、支持向量机、数据驱动的可训练的回归模型、物理模型和/或决策树。

3.根据前述权利要求中任一项所述的方法，其特征在于，

所述系统状态（SZ、SZ1、SZ2）包括影响变量（EG），其对所述技术系统（TS）的影响主导所述控制动作（SA、SA1、...、SAN）对所述技术系统（TS）的影响。

4.根据权利要求3所述的方法，其特征在于，

所述技术系统（TS）是风力涡轮机并且所述影响变量（EG）包括风速、涡轮机功率、转速和/或发动机舱的加速度。

5.根据权利要求3所述的方法，其特征在于，所述影响变量（EG）经受统计波动，并且这样训练所述第一控制模型（BM）：优化在预测的后续状态（PZ）和实际出现的系统状态（SZ2）之间的距离的统计平均值。

6.根据权利要求1所述的方法，其特征在于，

b）参照检测到的所述技术系统（TS）的系统状态（SZ、SZ1、SZ2）训练所述第一控制模型（BM）。

7.根据权利要求1所述的方法，其特征在于，

参照检测到的不同于所述技术系统（TS）的训练系统的系统状态训练所述第一控制模型（BM）。

8.根据权利要求1所述的方法，其特征在于，

在训练所述第一控制模型（BM）时和/或在预测所述后续状态（PZ）时不考虑所述控制动作（SA、SA1、...、SAN）。

9.根据权利要求1所述的方法，其特征在于，

针对多个控制动作（SA1、...、SAN）借助于训练过的第二控制模型（RM）分别预测距离值（PD1、...、PDN）并且由此修改预测的后续状态（PZ）并配设给相应的控制动作（SA1、...、SAN），

从所得出的修改后的后续状态（MZ1、...、MZN）中选择目标状态，并且

参照配设给选择的目标状态的控制动作（OSA）控制所述技术系统（TS）。

10.根据权利要求1所述的方法，其特征在于，

借助于训练过的第一控制模型（BM）和训练过的第二控制模型（RM）训练第三控制模型（PM）从而参照检测到的系统状态（SZ、SZ1、SZ2）输出优化的控制动作（OSA）用于控制所述技术系统（TS）。

11.根据权利要求10所述的方法，其特征在于，借助于被强化的学习的方法训练所述第三控制模型（PM）。

12.用于控制技术系统（TS）的控制装置（CTL），其设置用于实施根据前述权利要求中任一项所述的方法。

13.计算机可读的存储器介质，其具有计算机程序产品，其设置用于实施根据权利要求1至11中任一项所述的方法。