CN115668228A

CN115668228A - 用于控制技术系统的控制装置和用于配置该控制装置的方法

Info

Publication number: CN115668228A
Application number: CN202180041457.5A
Authority: CN
Inventors: S·奥伯迈尔; V·斯特辛; M·托基克; S·乌德鲁夫; M·C·韦伯
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2020-04-09
Filing date: 2021-04-09
Publication date: 2023-01-31
Also published as: EP3893161A1; EP4111382A1; WO2021204983A1

Abstract

记录控制信号（CS）的时间序列和技术系统（TS）的测量到的状态数据（SD）的时间序列。将所述控制信号（CS）的时间序列馈入到神经网络（NN）中并且将神经网络（NN）的输出数据（PD）作为仿真输入数据馈入到仿真模块（SIM）中。通过仿真模块（SIM）根据所述神经网络（NN）的输出数据（PD）执行物理仿真，其中确定所述技术系统（TS）的所仿真的状态数据（SSD）。所述神经网络（NN）然后被训练为减小测量到的状态数据（SD）与所仿真的状态数据（SSD）之间的距离。经训练的神经网络（NN）与仿真模块（SIM）形成混合仿真器（HSIM）。生成多个不同的其他控制信号（CSG）并且馈入到混合仿真器（HSIM）和另一神经网络（NNS）中。所述另一神经网络（NNS）被训练为减小技术系统（TS）的由混合仿真器（HSIM）所仿真的状态数据（SSO）与所述另一神经网络（NNS）的输出数据（NNO）之间的距离。这样训练的另一神经网络（NNS）现在可以被控制装置（CTL）用于预测技术系统（TS）对任意控制信号（CS）的预期反应。由此使控制装置（CTL）能够在考虑针对任意控制信号的预测的情况下前瞻性地控制技术系统（TS），而没有预测误差的大的散布。

Description

用于控制技术系统的控制装置和用于配置该控制装置的方法

背景技术

在诸如风力涡轮机、燃气轮机、发动机、生产设施、供暖设施或机器人的复杂技术系统的控制中，越来越多地使用仿真方法，所述仿真方法仿真要控制的技术系统的物理行为。经常在此情况下力求提供该技术系统的所谓的数字孪生，该数字孪生在仿真中的表现基本上与该技术系统一样。这样的数字孪生于是尤其可以被用于根据该技术系统的按照仿真可预期的行为对技术系统进行优化控制、测试以及优化。

基于数据的机器学习方法经常被用于创建这种仿真模型。在此情况下，尤其将人工神经网络训练为，基于要仿真的技术系统的运行数据再现并且因此仿真该技术系统的产生的物理行为。然而，为了成功的训练，通常需要该技术系统的大量的运行数据作为训练数据。此外，这些训练数据应尽可能代表性地涵盖该技术系统的运行状态和运行条件。

然而，在许多情况下表明，这种以数据驱动的方式训练的仿真仅仅在这样的运行状态和运行条件下提供有意义的结果，所述结果被所使用的训练数据涵盖。而在这种运行状态或运行条件之外，这样的仿真常常导致不现实的或严重偏离的仿真结果。

发明内容

本发明的任务是说明一种用于控制技术系统的控制装置以及一种用于配置该控制装置的方法，其允许更好地或更有效地仿真该技术系统。

该任务通过以下的方法1至8、控制装置9、计算机程序产品10和存储介质11来解决。

1.一种计算机实施的用于配置用于技术系统（TS）的控制装置（CTL）的方法，其中a）提供仿真模块（SIM），用于根据该技术系统（TS）的作为仿真输入数据馈入的物理变量对该技术系统（TS）进行物理仿真，

b）记录该技术系统（TS）的控制信号（CS）的时间序列和测量到的状态数据（SD）的时间序列，

c）将控制信号（CS）的时间序列馈入到神经网络（NN）中，

d）将该神经网络（NN）的输出数据（PD）作为仿真输入数据馈入到仿真模块（SIM）中，e）通过仿真模块（SIM）根据该神经网络（NN）的输出数据（PD）执行物理仿真并且在此情况下确定该技术系统（TS）的所仿真的状态数据（SSD），

f）将该神经网络（NN）训练为减小测量到的状态数据（SD）与所仿真的状态数据（SSD）之间的距离（D），以及

g）该控制装置（CTL）通过该训练被设立为根据该技术系统（TS）的控制信号（CS）仿真该技术系统（TS）。

2.根据方法1所述的方法，其特征在于，

通过经训练的神经网络（NN）和所述仿真模型（SIM）根据所述技术系统（TS）的控制信号（CS）形成用于仿真所述技术系统（TS）的混合仿真器（HSIM），并且

根据所述混合仿真器（HSIM）的仿真来控制所述技术系统（TS）。

3.根据方法2所述的方法，其特征在于，

将不同的控制信号变体馈入到所述混合仿真器（HSIM）中并且分别评估所述技术系统（TS）的所仿真的反应，

根据评估结果选择所述控制信号变体之一，并且

借助所选择的控制信号变体来操控所述技术系统（TS）。

4.根据方法2或3所述的方法，其特征在于，

生成多个控制信号（CSG）并且借助所述混合仿真器（HSIM）分别确定所述技术系统（TS）的所仿真的反应，

根据多个控制信号（CSG）和所仿真的反应将另一神经网络（NNS）训练为根据控制信号再现所仿真的反应，并且

所述混合仿真器（HSIM）至少部分地通过经训练的另一神经网络（NNS）来代替。

5.根据上述方法1至4中任一项所述的方法，其特征在于，

- 测量到的状态数据（SD），

- 所仿真的状态数据（SSD），

- 关于外部系统的状态的外部状态数据（ESD），和/或

- 关于所述技术系统（TS）的环境的环境数据（ENV）

作为输入数据被馈入到所述神经网络（NN）中。

6.根据上述方法1至5中任一项所述的方法，其特征在于，

将粒子群优化、基于梯度的优化方法、随机梯度下降法和/或遗传优化方法用于训练所述神经网络（NN）。

7.根据上述方法1至6中任一项所述的方法，其特征在于，

所述神经网络（NN）实现递归神经网络、卷积神经网络、贝叶斯神经网络、自动编码器和/或深度学习架构。

8.根据上述方法1至7中任一项所述的方法，其特征在于，

所述技术系统（TS）是涡轮机、太阳能发电站、内燃机、发动机、机动车、生产设施、交通诱导系统、用于建筑物的能量控制装置、供暖设施、机器人、能量传输网或其他机器、其他设备或其他设施。

9.一种用于控制技术系统（TS）的控制装置（CTL），该控制装置设立为执行根据上述方法1至8中任一项所述的方法。

10.一种计算机程序产品，该计算机程序产品设立为执行方法1至8中任一项。

11.一种计算机可读的存储介质，该存储介质具有计算机程序产品10。

其他解决方案通过专利权利要求中所描述的方法、控制装置、计算机程序产品和计算机可读的存储介质来提供。

为了配置用于技术系统的控制装置，提供用于根据技术系统的作为仿真输入数据馈入的物理变量对技术系统进行物理仿真的仿真模块。此外，记录控制信号的时间序列和技术系统的测量到的状态数据的时间序列。控制信号的时间序列被馈入到神经网络中，并且神经网络的输出数据作为仿真输入数据被馈入到仿真模块中。通过该仿真模块根据神经网络的输出数据执行物理仿真，其中确定技术系统的所仿真的状态数据。然后，神经网络被训练为减小测量到的状态数据与所仿真的状态数据之间的距离。通过该训练，控制装置设立为根据控制信号仿真所述技术系统。

为了执行根据本发明的方法，提供了相应的控制装置、计算机程序产品以及计算机可读的、优选地非易失性的存储介质。

根据本发明的方法以及根据本发明的控制装置例如可以借助一个或多个处理器、专用集成电路（ASIC）、数字信号处理器（DSP）和/或所谓的“现场可编程门阵列（FPGA）”来执行或实施。

通过该方法可以将神经网络自动地训练为根据技术系统的控制信号确定由仿真模块作为仿真输入数据所需的物理变量。与纯数据驱动的仿真器相比，基于物理的仿真模块的使用通常允许对技术系统的更精确的和相对于干扰影响或运行条件的变换不太敏感的仿真。此外，与为了训练完全数据驱动的仿真器相比，为了使神经网络有能力根据控制信号确定物理变量，通常需要显著更少的训练数据。此外，变换的物理影响可以通过基于物理的仿真模块大多以简单的方式予以考虑，而纯数据驱动的仿真器经常必须被重新训练。由于基于物理的仿真可以具有不同的参数化，所以其通常可以被多次重新使用并且在技术系统的小变化的情况下不必重新被创建。

本发明的另一优点在于，借助于根据本发明形成的混合仿真器针对多个所生成的不同的控制信号基于混合仿真器的结构和在该混合仿真器中所包含的用于执行物理仿真的基于物理的仿真模块，可以非常精确地仿真技术系统对各个控制信号的预期反应。

这尤其在如下情况下具有特别好的优点：控制信号的时间序列和技术系统的测量到的状态数据的时间序列包括用于训练神经网络的过少的训练数据，应由该神经网络学习整个技术系统的功能。这可能导致所谓的过度拟合，在过度拟合的情况下，由这样被训练的神经网络不仅学习技术系统的功能，而且学习不希望的效果、如训练数据中的错误或噪声。在过度拟合的情况下于是不再能够区分：由神经网络输出技术系统的功能还是输出错误或噪声的功能作为仿真的结果。

根据本发明提供的混合仿真器由于其结构和所包含的基于物理的仿真模块明显不太易受过度拟合影响。在仿真模块上游的神经网络在此情况下不必记录整个技术系统的功能，而是仅仅使控制信号与由仿真模块作为仿真输入数据所需的物理变量相关。在暖气机的情况下，例如可以由神经网络只学习在控制阀上设定的控制信号（例如在1和5之间的值）和温水的由此产生的流量之间的相关性。这里所需的相关性常常更确切地说具有简单线性映射的特点，该简单线性映射与整个复杂技术系统的功能的明显更广泛的和更多层的仿真相比显著不太复杂并且显著不太易受过度拟合影响，在所述整个复杂技术系统中许多不同的物理效应相互叠加。

根据本发明的认识，由于该特点，如果控制信号的时间序列和技术系统的测量到的状态数据的可用的时间序列包括用于训练神经网络的过少的训练数据，则也已经可以以非常好的质量训练混合仿真器，整个技术系统的功能应由该神经网络来学习。

借助这样训练的混合仿真器，接着可以产生多个高质量的不同的其他训练数据。在此情况下高质量意味着：这样生成的训练数据非常好地与技术系统对所生成的控制信号的实际反应一致，并且如果有的话，只包含非常小的错误或非常小的噪声。在此，生成不同的控制信号，并且由混合仿真器分别确定例如所仿真的状态数据（SSD）形式的、技术系统的相关的所仿真的反应。

所生成的训练数据可以均匀地分布在技术系统的已知/可能/许可/允许的控制信号的整个范围上。视应用情况而定，其他分布模式也是可设想的，诸如随机分布、高斯分布或泊松分布。

此外，借助根据本发明形成的混合仿真器可能的是，非常精确地仿真技术系统对控制信号的预期反应，这些控制信号位于可用于技术系统的具体测量到的状态数据的范围之外。这可能是如下范围：在这些范围中例如由于可用于确定具体测量数据的技术系统的限制而不能确定具体的测量值。

在将这些所生成的训练数据用于下游的另一神经网络时，另一神经网络的外插行为可以显著改善或才能完全实现，其中整个技术系统的功能应由该另一神经网络学习。有利地，因此可以实现控制的一般化，所述一般化没有本发明在仅使用现有的实际测量到的训练数据的情况下将是不可能的。

本发明的有利的实施方式和改进方案在从属权利要求中说明。

根据本发明的一种有利的实施方式，可以通过经训练的神经网络和仿真模块形成用于根据技术系统的控制信号仿真所述技术系统的混合仿真器。然后可以根据混合仿真器的仿真来控制所述技术系统。该混合仿真器尤其可以被用作所述技术系统的数字孪生。

有利地，可以将不同的控制信号变体馈入到混合仿真器中并且分别评估技术系统的所仿真的反应。根据评估结果，于是可以选择控制信号变体之一，以便借助所选择的控制信号变体来操控技术系统。优选地，在此情况下可以选择导致技术系统的特别有利的或在其他方面最优的所仿真的反应的控制信号变体。以这种方式，可以实现技术系统的例如在模型预测控制（MPC：Model Predictive Control）的范围内的优化控制。

根据本发明的一个有利的改进方案，可以生成多个控制信号并借助混合仿真器分别确定技术系统的所仿真的反应。根据多个控制信号和所仿真的反应，可以将另一神经网络训练为根据控制信号再现所仿真的反应。于是，混合仿真器可以至少部分地通过经训练的另一神经网络来代替。这是有利的，因为与基于物理的仿真相比，经训练的神经网络经常可以以显著更少的计算耗费来评估。

根据本发明的其他有利的实施变型方案，测量到的状态数据、所仿真的状态数据、关于外部系统的状态的外部状态数据和/或关于技术系统的环境的环境数据可以作为附加的输入数据被馈入到神经网络中。只要技术系统的物理变量经常也取决于该技术系统的环境或外部系统，如果影响变量同样被馈入到神经网络中，则通常就可以显著改善训练成功。通过馈入所仿真的状态数据，尤其技术系统相对于仿真的变化可以被考虑、检测和/或补偿。

附图说明

以下根据附图更详细地解释本发明的实施例。在此分别以示意图：

图1示出处于配置阶段中的根据本发明的控制装置，

图2示出在控制技术系统时的该控制装置，以及

图3示出处于另一配置阶段中的该控制装置。

具体实施方式

在图1中示意性地示出了处于配置阶段中的根据本发明的控制装置CTL。该控制装置CTL用于控制技术系统TS、例如燃气轮机、风力涡轮机、太阳能发电站、内燃机、发动机、机动车、生产设施、交通诱导系统、用于建筑物的能源控制装置、机器人或能量传输网。该技术系统尤其也应被理解为指复合技术系统的部件或子系统。在当前的实施例中，用于建筑物的供暖设施被认为是技术系统TS。

该控制装置CTL具有一个或多个处理器PROC，用于执行该控制装置CTL的方法步骤，以及一个或多个与处理器PROC耦合的存储器MEM，用于存储要由该控制装置CTL处理的数据。

该控制装置CTL在图1中被示出为在该技术系统TS外部并且与该技术系统耦合。替代地或附加地，该控制装置CTL也可以完全地或部分地集成到该技术系统TS中。

该技术系统TS具有传感器系统S，用于测量或记录测量变量，所述测量变量量化该技术系统TS的状态。所述测量变量以测量到的状态数据SD的形式从该传感器系统S被传送到控制装置CTL并由该控制装置记录。测量到的状态数据SD例如可以包括关于该技术系统TS中的温度、压力或摩擦的数据或其他物理数据。此外，可以包含关于该技术系统TS的利用率或资源消耗的数据。在供暖设施的情况下，该传感器系统S例如可以具有温度传感器，用于测量室温或水温。

技术系统TS借助并且根据控制信号CS来控制。控制信号CS可以包括调节信号、控制数据或其他对于技术系统TS的控制而言相关的信号，并涉及不同的控制变量。这种控制信号例如可以通过操作旋转按钮、开关、加速器或通过其他用户动作产生，或者可以被用于操控技术系统TS的部件。控制信号CS可以在技术系统TS中被记录并传送到控制装置CTL，例如由用户进行的恒温器设定，或者可以由控制装置CTL产生并传输到技术系统，用于控制技术系统TS，例如用于泵的接通信号。此外，控制信号CS也可以包括来自外部部件的控制信号。

控制信号CS连续地按时间顺序、例如每百毫秒进行记录。此外，测量到的状态数据SD由控制装置CTL连续地按对应的时间顺序记录。在供暖设施的情况下，例如可以将用于恒温器的调节信号作为控制信号进行记录并且将室温或水温作为测量到的状态数据进行记录。

根据本发明，控制装置CTL具有仿真模块SIM，用于对技术系统TS进行物理仿真。仿真模块SIM执行基于物理的、基于机械、热力学或其他物理模型的仿真。物理模型在此情况下反映技术系统的物理的、符合自然规律的因果关系。仿真模块SIM例如通过对技术系统TS的元件的运动方程、热力学方程或其他统计或动态方程的数值求解来评估这些因果关系。多个足够精确的物理模型可用于这种基于物理的仿真。

通过仿真模块SIM根据对于技术系统TS的物理行为而言决定性的或至少影响该行为的物理变量执行仿真。这种物理变量例如可以包括技术系统TS的具有物理意义的温度、力、热流、流量或其他物理特性。为了执行仿真，仿真模块SIM需要量化这些物理变量的物理仿真输入数据PD。

然而，在实践中，经常出现如下问题：物理仿真模型基于只能困难地测量的物理变量。因此，机器内部的温度、力或热流尽管可能对于该机器的行为而言并且因此对于该机器的仿真而言是决定性的，但是只能非常困难地被测量。如果这种物理变量不可用或者仅仅不精确地可用，那么仿真的精确度可能显著地受影响。

与有些物理变量不同，技术系统的控制信号经常能够更容易地被记录。然而，可用的控制信号经常不能直接被用于物理仿真模型中，因为这些控制信号与仿真模型的物理变量不匹配并且不能用于基础物理方程中。如果控制信号与物理变量之间的关系不是先验地已知的，则不能使用这些物理方程。如果例如暖气机可以通过可旋转的恒温器在1到5的范围内调节，那么量化数字1到5的控制信号通常不能直接被使用在用于暖气机的热力学仿真的物理方程中。

此外，在许多情况下，技术系统TS的行为不仅取决于内部控制信号，而且还取决于技术系统的环境和/或外部系统。因此，例如对于暖气机中的热流而言不仅热水的流量而且水的温度都是决定性的，该温度也许可能不是由暖气装置确定，而是由外部热发生器确定。在这样的情况下，对于仿真而言决定性的物理变量可能以非常复杂的方式取决于多个控制信号或外部影响因素，这使在基于物理的仿真模型中的直接使用显著地变得困难。

根据本发明，现在代替基于可以困难地或不精确地测量的物理变量的仿真，训练人工神经网络NN，目标是确定对于仿真模型SIM而言所需的物理变量或至少确定导致准确的仿真结果的数据。所需的物理变量应通过经训练的神经网络NN从所记录的控制信号CS和其他可以容易地记录的数据中确定。

为了训练神经网络NN，控制信号CS的时间序列和测量到的状态数据SD的时间序列通过控制装置CTL来记录并作为输入数据被馈入到神经网络NN中。作为其他输入数据，关于技术系统TS的环境的环境数据ENV以及关于外部系统的状态的外部状态数据ESD通过控制装置CTL来记录并被馈入到神经网络NN中。环境数据ENV尤其可以包括环境温度、天气数据、时间说明和/或日期数据。外部状态数据ESD例如可以涉及油箱的液位或外部热发生器中的温度。只要技术系统TS的物理变量可以显著地取决于其环境和耦合的外部系统，通过附加地考虑环境数据ENV和外部状态数据ESD通常就显著地改善训练成功。

神经网络NN的训练优选地借助机器强化学习方法来进行。训练在此情况下一般来说应被理解为对神经网络（这里NN）的输入数据（这里CS、SD、ENV和ESD）到输出数据（这里PD）的映射的优化。该映射根据预先给定的、学习到的和/或要学习的标准在训练阶段期间被优化。作为标准，在此情况下例如可以在控制模型的情况下使用控制动作的成功，在预测模型的情况下使用预测误差，或在仿真模型的情况下如在当前的情况下使用仿真误差。

通过该训练，例如可以调节或优化神经网络的神经元的联网结构和/或神经元之间的连接的权重，使得尽可能好地满足预先给定的标准。因此，该训练可以被理解为优化问题。对于机器学习领域的这种优化问题而言，多种高效的优化方法可用。

在当前的情况下，神经网络NN的输出数据PD作为仿真输入数据被馈入到仿真模块SIM中。输出数据PD在此可以直接或经由中间处理步骤被馈入到仿真模块SIM中。根据仿真输入数据PD，仿真模块SIM执行物理仿真，其中尤其技术系统TS的所仿真的状态数据SSD被确定。所仿真的状态数据尤其作为输入数据被反馈到仿真模块SIM中，以便根据当前的所仿真的状态在下一时间步中确定所仿真的后续状态。此外，所仿真的状态数据SSD优选地作为附加的输入数据被馈入到神经网络NN中。以此方式，技术系统TS的变化可以在训练时被考虑，所述变化经常在测量到的状态数据SD和所仿真的状态数据SSD之间的越来越大的差异中反映出来。

通过该训练力求：所仿真的状态SSD尽可能好地与实际测量到的状态数据SD一致。为此，确定测量到的状态数据SD和与其对应的所仿真的状态数据SSD之间的距离D。该距离D在此情况下代表与神经网络NN共同作用的仿真模块SIM的仿真误差。

该距离D如在图1中通过虚线箭头所表明的那样反馈到神经网络NN。根据所反馈的距离D，将神经网络NN训练为使距离D最小化并且因此使仿真误差最小化。如果状态数据SD和SSD通过数据向量来表示，则该距离D例如可以被确定为这些数据向量之间的欧氏距离或加权欧氏距离。

为了使该距离D最小化，多种高效的优化方法可用，例如基于梯度的优化方法，尤其随机梯度下降法、粒子群优化和/或遗传优化方法。在基于梯度的优化方法中，基于物理的仿真的微商或差商可以被确定并在训练中以提高效率的方式被考虑。如果该仿真的微商或差商不可用，则粒子群优化或遗传优化方法被证明是有利的。

通过使该距离D最小化，神经网络NN自动地被训练为从神经网络NN的输入数据CS、SD、ENV和ESD中确定由仿真模块SIM作为仿真输入数据所需的物理变量。这基于如下考虑：只要神经网络NN未以足够的精确度确定由仿真模块SIM所需的物理变量，基于此的所仿真的状态数据SSD就不会与测量到的现实一致。但是正好通过上面所描述的训练使与现实的偏差最小化。

通过神经网络NN的该训练，控制装置CTL被配置为根据技术系统的控制信号CS和其他可容易地记录的数据（这里SD、ENV和SSD）来仿真技术系统TS。

相对于纯数据驱动的仿真器，基于物理的仿真模块SIM的使用允许更精确的且相对于干扰影响或运行条件的变换不太敏感的仿真。通过经训练的神经网络NN也可以以足够的精确度确定可困难地测量的物理变量，这些物理变量对于仿真模块SIM的基于物理的仿真而言被需要或者至少是提高精确度的。被证明的是，物理变量的数据驱动的确定通常可以比完全数据驱动的仿真显著更稳定地来训练。此外，大多需要显著更少的训练数据。尤其，控制信号和其他可容易地记录的数据可以作为输入数据被用于仿真，而不舍弃基于物理的仿真的优点。

图2以示意图示出在控制技术系统TS时的控制装置CTL。只要在图2中使用与在图1中相同或对应的附图标记，这些附图标记就表示相同或对应的实体，所述实体尤其可以如上面所描述的那样来实施或设计。

通过仿真模块SIM和上游的、经训练的神经网络NN形成混合仿真器HSIM。代替根据可能可困难地测量的、但是由仿真模块SIM所需的物理变量，该混合仿真器HSIM根据控制信号CS和其他可容易地记录的数据（这里SD、ENV和ESD）来仿真技术系统TS。只要混合仿真器HSIM在许多方面的表现与技术系统TS一样，混合仿真器HSIM就尤其可以被用作技术系统TS的数字孪生。

如上面所描述的，通过经训练的神经网络NN从控制信号CS、测量到的状态数据SD、环境数据ENV和外部状态数据ESD中导出技术系统TS的物理变量，这些物理变量作为仿真输入数据PD被馈入到仿真模块SIM中。仿真模块SIM从中确定所仿真的状态数据SSD，所述状态数据被传送到控制装置CTL的控制信号输出装置CSO。控制信号输出装置CSO根据所仿真的状态数据SSD产生用于控制技术系统TS的控制信号CS。这些控制信号CS被传送到技术系统TS并操控该技术系统。

必要时，可以通过控制信号发生器（未示出）生成控制信号变体并分别馈入到混合仿真器HSIM中。混合仿真器HSIM针对控制信号变体分别确定技术系统TS对各个控制信号变体的所仿真的反应。根据所仿真的反应，然后优选地通过控制信号输出装置CSO选择导致技术系统的尽可能有利的反应的控制信号变体。然后可以通过控制信号输出装置CSO借助所选择的控制信号变体以优化的方式操控技术系统TS。

除了控制技术系统TS之外，混合仿真器HSIM也可以被用于在设计过程期间的测试以及设计优化。由于根据本发明的混合仿真的更大的稳健性，所以也可以在不寻常的运行条件下执行仿真测试，所述不寻常的运行条件在真实的技术系统上将与风险相联系，将是非常复杂的或不可能的。

图3以示意图示出处于另一配置阶段中的控制装置CTL。只要在图3中使用与在前述图中相同的或对应的附图标记，这些附图标记就表示相同的或对应的实体。

在另一配置阶段中，包含经训练的神经网络NN的混合仿真器HSIM被用于将控制装置CTL的另一人工神经网络NNS训练为根据控制信号和其他可容易地记录的数据再现通过混合仿真器HSIM所仿真的反应。该训练优选地可以借助基于模型的强化学习方法来执行。

为了训练另一神经网络NNS，通过控制装置CTL的发生器GEN生成多个控制信号CSG和多个状态数据SDG并且作为输入数据不仅馈入到经训练的混合仿真器HSIM中而且馈入到要训练的另一神经网络NNS中。附加地，如上面所描述的，多个环境数据ENV和/或多个外部状态数据ESD也还可以通过该发生器GEN生成并且作为输入数据被馈入到混合仿真器HSIM和另一神经网络NNS中。

发生器GEN特定地设立为生成控制信号、状态数据以及必要时生成环境数据和外部状态数据，其尽可能涵盖技术系统TS的所有可达到的运行状态或运行条件。根据所生成的输入数据，通过混合仿真器HSIM如上面所描述的那样产生所述技术系统TS的所仿真的状态数据SSD，并且通过另一神经网络NNS产生输出数据NNO。类似于神经网络NN的上面所描述的训练，通过控制装置CTL确定所仿真的状态数据SSD与另一神经网络NNS的输出数据NNO之间的距离D。所确定的距离D如通过虚线箭头所图示的那样被反馈到另一神经网络NNS，以便将该另一神经网络训练为使距离D最小化。针对该最小化，如上面已经提及的，多种优化方法、尤其强化学习可用。

另一神经网络NNS通过该训练被配置为根据控制信号和其他可容易地记录的变量仿真所述技术系统TS。因此，另一神经网络NNS获得混合仿真器HSIM的用于所述技术系统TS的基于控制信号的仿真的能力。

在该训练之后，通过经训练的另一神经网络NNS至少部分地代替混合仿真器HSIM。这在经训练的神经网络（这里NNS）的评估可以在许多情况下比基于物理的仿真显著更快地进行的范围内是有利的。因此，在图2中所示出的因果关系中，可以使用经训练的另一神经网络NNS代替混合仿真器HSIM来控制技术系统TS。由于相对于混合仿真器HSIM通常显著更低的计算耗费，实时性要求例如在模型预测控制的范围内通常可以更好地被满足。

Claims

1.一种计算机实施的用于配置用于技术系统（TS）的控制装置（CTL）的方法，其中

a）提供仿真模块（SIM），用于根据所述技术系统（TS）的作为仿真输入数据馈入的物理变量对所述技术系统（TS）进行物理仿真，

b）记录控制信号（CS）的时间序列和所述技术系统（TS）的测量到的状态数据（SD）的时间序列，

c）将所述控制信号（CS）的时间序列馈入到神经网络（NN）中，

d）将所述神经网络（NN）的输出数据（PD）作为仿真输入数据馈入到所述仿真模块（SIM）中，

e）通过所述仿真模块（SIM）根据所述神经网络（NN）的输出数据（PD）执行物理仿真并且在此确定所述技术系统（TS）的所仿真的状态数据（SSD），

f）将所述神经网络（NN）训练为减小测量到的状态数据（SD）与所仿真的状态数据（SSD）之间的距离，

g）通过这样训练的神经网络（NN）和所述仿真模块（SIM）形成用于根据所述技术系统（TS）的控制信号（CS）仿真所述技术系统（TS）的混合仿真器（HSIM），

h）生成多个不同的其他控制信号（CSG），

i）将所述其他控制信号（CSG）馈入到所述混合仿真器（HSIM）中和另一神经网络（NNS）中，

j）借助所述混合仿真器（HSIM）从中分别以所仿真的状态数据（SSD）的形式确定所述技术系统（TS）的相关的所仿真的反应，并且由所述另一神经网络（NNS）确定其他输出数据（NNO），

k）将所述另一神经网络（NN）训练为减小由所述混合仿真器（HSIM）确定的所仿真的状态数据（SSD）与所述其他输出数据（NNO）之间的距离，

l）通过以下方式配置所述控制装置（CTL），即所述控制装置包括这样训练的另一神经网络（NNS）。

2.根据权利要求1所述的方法，其特征在于，

由所述控制装置（CTL）根据所述另一神经网络（NNS）的至少一个仿真来控制所述技术系统（TS）。

3.根据权利要求2所述的方法，其特征在于，

将不同的控制信号变体馈入到所述另一神经网络（NNS）中并且分别评估所述技术系统（TS）的所仿真的反应，

根据评估结果选择所述控制信号变体之一，并且

借助所选择的控制信号变体来操控所述技术系统（TS）。

4.根据权利要求2或3所述的方法，其特征在于，

所述控制装置还包括所述混合仿真器（HSIM）并且通过所述混合仿真器至少部分地代替经训练的另一神经网络（NNS）。

5.根据上述权利要求中任一项所述的方法，其特征在于，

- 测量到的状态数据（SD），

- 所仿真的状态数据（SSD），

- 关于外部系统的状态的外部状态数据（ESD），和/或

- 关于所述技术系统（TS）的环境的环境数据（ENV）

作为输入数据被馈入到所述神经网络（NN）中。

6.根据上述权利要求中任一项所述的方法，其特征在于，

其中粒子群优化、基于梯度的优化方法、随机梯度下降法和/或遗传优化方法被用于训练所述神经网络（NN）和/或所述另一神经网络（NNS）。

7.根据上述权利要求中任一项所述的方法，其特征在于，

所述神经网络（NN）和/或所述另一神经网络（NNS）实现递归神经网络、卷积神经网络、贝叶斯神经网络、自动编码器和/或深度学习架构。

8.根据上述权利要求中任一项所述的方法，其特征在于，

9.根据上述权利要求中任一项所述的方法，其特征在于，

所述其他控制信号（CSG）以分布在所述控制信号（CS）的范围上或在所述技术系统的已知的、可能的、许可的或允许的控制信号的范围上的方式生成。

10.根据上述权利要求中任一项所述的方法，其特征在于，

生成其他控制信号（CSG），所述其他控制信号位于所述技术系统（TS）的状态数据（SD）能够被确定或可用的范围之外。

11.根据上述两个权利要求中任一项所述的方法，其特征在于，

所生成的其他控制信号（CSG）具有均匀分布、随机分布、高斯分布或泊松分布。

12.一种用于控制技术系统（TS）的控制装置（CTL），所述控制装置设立为执行根据上述方法权利要求中任一项所述的方法。

13.一种计算机程序产品，所述计算机程序产品设立为执行根据上述方法权利要求中任一项所述的方法。

14.一种计算机可读的存储介质，所述存储介质具有根据上一权利要求所述的计算机程序产品。