CN114967431A

CN114967431A - 用于控制技术系统的控制装置和用于配置控制装置的方法

Info

Publication number: CN114967431A
Application number: CN202210173836.6A
Authority: CN
Inventors: D·海因; M·C·韦伯; H·舍纳; S·乌德卢夫特; V·施特青格; K·希舍
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2021-02-24
Filing date: 2022-02-24
Publication date: 2022-08-30
Also published as: US20220269226A1; EP4050430A1

Abstract

本发明涉及用于控制技术系统的控制装置和用于配置控制装置的方法。为了配置用于技术系统（TS）的控制装置（CTL），通过安全模块（SM）读入关于控制动作信号的允许性的状态特定的安全信息（SI）。此外，将说明技术系统（TS）的状态的状态信号（ZS）馈入到机器学习模块（NN）中以及安全模块（SM）中。此外，将所述机器学习模块（NN）的输出信号（OS）馈入到安全模块（SM）中。通过安全模块（SM）借助安全信息（SI）根据状态信号（ZS）将输出信号（OS）转换为允许的控制动作信号（AS）。此外，确定通过允许的控制动作信号（AS）控制技术系统(TS)的性能，并将机器学习模块（NN）训练为优化性能。然后通过经训练的机器学习模块（NN）配置控制装置（CTL）。

Description

用于控制技术系统的控制装置和用于配置控制装置的方法

背景技术

在控制复杂的技术系统、诸如机器人、生产设备、燃气轮机、风力涡轮机、内燃机或电网时越来越多地使用机器学习的方法。借助这种学习方法，可以根据训练数据将控制装置的机器学习模型训练为，基于技术系统的当前运行信号确定用于控制技术系统的如下控制动作，所述控制动作具体而言引起技术系统的期望的或优化的行为并且因此优化该技术系统的性能。这种用于控制技术系统的机器学习模型经常也被称为策略或控制模型。大量已知的训练方法、诸如强化学习方法可用于训练这样的策略。强化学习经常也被称为Reinforcement-Learning。

然而，在应用基于学习的策略时，经常无法确保：由经训练的策略输出的控制动作在所有情况下都遵守预先给定的极限值或其他技术约束。这尤其在安全关键应用中经常是一个问题。已知的是，为了避免误差控制，首先验证由经训练的策略输出的控制动作并且仅利用经验证的控制动作来操控技术系统。然而，以这种方式受限制的策略在许多情况下并非最优地起作用。

发明内容

本发明的任务是，说明一种用于控制技术系统的控制装置以及一种用于配置该控制装置的方法，通过该控制装置和该方法可以改进对技术系统的控制。

该任务通过具有专利权利要求1的特征的方法、具有专利权利要求11的特征的控制装置、具有专利权利要求12的特征的计算机程序产品以及具有专利权利要求13的特征的计算机可读存储介质来解决。

为了配置用于技术系统的控制装置，通过安全模块读入对于技术系统的状态而言特定的关于控制动作信号的允许性的安全信息。此外，说明技术系统的状态的状态信号被馈入到机器学习模块中以及安全模块中。这里以及在下文中，信号也将被理解为数据信号、尤其数字信号，其例如可以对浮点数或整数进行编码。术语“状态”优选地也可以包括状态范围。此外，机器学习模块的输出信号被馈入到安全模块中。输出信号通过安全模块借助安全信息根据状态信号被转换为允许的控制动作信号。此外，确定通过允许的控制动作信号控制技术系统的性能，并且机器学习模块被训练为优化性能。然后，控制装置借助经训练的机器学习模块被设立用于根据由安全模块输出的允许的控制动作信号来控制技术系统。

为了执行根据本发明的方法，设置控制装置、计算机程序产品以及优选地非易失性的计算机可读存储介质。

根据本发明的方法以及根据本发明的控制装置例如可以借助一个或多个计算机、处理器、专用集成电路（ASIC）、数字信号处理器（DSP）和/或所谓的“现场可编程门阵列（FPGA）”执行或实施。

通过本发明，机器学习模块可以已经在学习阶段中被训练为，在控制动作信号的由安全性决定的通过安全模块进行的修改的情况下以优化的方式起作用。这里以及在下文中，优化也将被理解为最优值的近似。这样在许多情况下可以保证通过根据本发明所配置的控制装置控制的技术系统的不仅符合安全性的（sicherheitskonform）而且优化的运行。此外，可以借助状态特定的安全信息以简单的方式在训练过程中考虑特定的专家知识和/或领域知识。

本发明的有利的实施方式和改进方案在从属权利要求中说明。

根据本发明的一种有利的实施方式，可以使用反向传播方法来训练机器学习模块。在该反向传播方法中，量化所述性能的性能信号可以从安全模块的输出端被反向传播到安全模块的输入端，并且得到的性能信号可以进一步从机器学习模块的输出端被反向传播到机器学习模块的输入端。在此情况下，反向传播在一定程度上可以穿过安全模块进行。反向传播经常也被称为Backpropagation或误差反馈。在当前情况下，性能信号可以作为误差信号被反向传播，具有如下特点：更高的性能对应于更小的误差。为了执行这种反向传播方法，在机器学习领域中已知许多高效的方法。只要安全模块和/或机器学习模块的输入信号到输出信号的映射是可区分的（differenzierbar），就可以使用基于梯度的反向传播方法、例如梯度下降法。为了该目的，通过安全模块进行的转换可以作为可区分的映射实施并且这样可以在一定程度上是梯度递送的（gradientendurchlässig）。优选地，安全模块可以借助TensorFlow图来实施。替代地或附加地，也可以使用梯度自由的反向传播方法、诸如遗传优化方法。

根据另一有利的实施方式，可以通过安全模块借助安全信息来检查：输出信号是否作为控制动作信号是允许的。然后可以根据检查结果进行输出信号的转换。检查可以根据一个或多个安全标准的描述进行，所述安全标准尤其说明要遵守的极限值或约束。这样的描述可以在安全信息中被编码或说明。

如果输出信号作为控制动作信号是允许的，则输出信号可以通过安全模块作为允许的控制动作信号输出。否则，可以将输出信号转换为允许的控制动作信号。例如，可以检查：是否遵守极限值，并且只有当情况不是如此时才促使转换。

根据本发明的另一有利的实施方式，安全信息可以说明或编码允许的、状态特定的默认控制动作信号。然后可以根据检查结果将输出信号转换为允许的默认控制动作信号。以这种方式即使在没有产生有利的或有意义的输出信号或仅被训练数据稀疏地覆盖的情况下也可以保证技术系统的默认操控和/或默认行为。

根据本发明的另一有利的实施方式，可以针对技术系统的通过状态信号指定的状态确定可用于该状态的训练数据的集合。然后可以根据所确定的集合进行对输出信号的允许性的检查。原则上，机器学习模型的训练成功大大取决于训练数据的可用集合。因此通常可以预期，机器学习模块的从仅被训练数据稀疏地覆盖的状态导出的输出信号有比较大的不确定性。因此，显得有利的是，将针对技术系统的仅被训练数据稀疏地覆盖的状态的输出信号优选地评估为不允许的。

相应地，可以针对通过状态信号指定的状态确定机器学习模块的预测误差或建模误差。然后可以根据所确定的预测误差或建模误差进行对输出信号的允许性的检查。尤其，可以将针对具有比较大的预测或建模误差的状态的输出信号优选地评估为不允许的。

尤其可以以直接的方式或借助变分自动编码器、贝叶斯神经网络或借助已知的基于集群的方法确定状态特定的训练数据的集合的度量或状态特定的预测或建模误差的度量。

根据本发明的另一有利的实施方式，可以通过安全信息配置、说明或编码变换函数。输出信号以及状态信号可以被馈入到变换函数中。然后，输出信号可以借助变换函数根据状态信号被转换为允许的控制动作信号。

此外，可以通过允许的控制动作信号来控制技术系统，其中可以检测这样被控制的技术系统的行为。然后可以从所检测的行为中导出性能。以这种方式例如可以测量技术系统的功率或产量并作为性能输出。

此外，通过允许的控制动作信号控制的技术系统的行为可以被仿真、预测和/或从数据库中读入。然后可以从所仿真的、预测的和/或所读入的行为中导出性能。

附图说明

随后根据附图更详细地解释本发明的实施例。在此，分别以示意图：

图1图示具有根据本发明的控制装置的燃气轮机，

图2图示处于训练阶段中的根据本发明的控制装置，

图3图示原始控制动作信号到允许的控制动作信号的转换，以及

图4图示处于训练阶段中的根据本发明的控制装置的另一实施例。

具体实施方式

图1示例性地图示作为具有控制装置CTL的技术系统TS的燃气轮机。替代地或附加地，技术系统TS也可以包括风力涡轮机、内燃机、生产设备、化学、冶金或医药制造过程、机器人、机动车、能量传输网络、3D打印机或其他机器、其他仪器或其他设备。控制装置CTL优选地构成为机器控制器。

技术系统TS与控制装置CTL耦合，该控制装置可以作为技术系统TS的一部分或完全或部分地在技术系统TS外部实施。在图1、2和4中，为了清楚起见，控制装置CTL在技术系统TS外部示出。

控制装置CTL用于控制技术系统TS，并为了该目的而借助机器学习方法被训练了。控制技术系统TS在此情况下也将被理解为调节技术系统TS以及输出和使用与控制相关的、即有助于控制技术系统TS的数据或信号。

这种与控制相关的数据或信号尤其可以包括控制动作信号、预测数据、监控信号、状态信号和/或分类数据，其尤其可以被用于技术系统TS的运行优化、监控或维护和/或被用于磨损或损坏识别。

技术系统TS具有传感器S，所述传感器连续地测量技术系统TS的一个或多个运行参数并将所述运行参数作为测量值输出。传感器S的测量值以及必要时技术系统TS的其他所检测的运行参数作为状态信号ZS从技术系统TS被传送给控制装置CTL。通过状态信号ZS尤其说明、指定或编码技术系统TS的当前状态或状态范围。

状态信号ZS尤其可以包括物理的、化学的、面向控制的（regelungstechnisch）、面向效果的（wirkungstechnisch）和/或由结构型式决定的运行参数、特性数据、功率数据、效果数据、行为信号、系统数据、控制数据、控制动作信号、传感器数据、测量值、环境数据、监控数据、预测数据、分析数据和/或其他在技术系统TS的运行中产生的和/或描述技术系统TS的运行状态或控制动作的数据。这可以例如是关于技术系统TS的温度、压力、排放、振动、振荡状态或资源消耗的数据。特别在燃气轮机的情况下，运行信号BS可以涉及涡轮机功率、旋转速度、振动频率、振动幅度、燃烧动力学、燃烧交变压力幅度或氮氧化物浓度。

根据状态信号ZS，经训练的控制装置CTL确定优化技术系统TS的性能并且同时在技术系统TS的当前状态下允许的控制动作。要优化的性能在此尤其可以涉及技术系统TS的功率、产量、速度、运行时间、精度、误差率、误差范围（Fehlerausmaß）、资源需求、效率、污染物排放、稳定性、磨损、使用寿命和/或其他目标参数。

所确定的、优化性能的和允许的控制动作由控制装置CTL通过将相应的允许的控制动作信号AS传送到技术系统TS来促使。通过控制动作信号 AS可以例如在燃气轮机的情况下调整气体输送、气体分配或空气输送。

图2以示意图示出处于训练阶段中的根据本发明的基于学习的控制装置CTL、优选地机器控制器。控制装置CTL应被配置用于控制技术系统TS。只要在这些图中使用相同的或对应的附图标记，这些附图标记就表示相同的或对应的实体。

在本实施例中，控制装置CTL耦合到技术系统TS上以及到数据库DB上。控制装置CTL包括一个或多个用于执行根据本发明的方法的处理器PROC以及一个或多个用于存储方法数据的存储器MEM。

如已经结合图1所描述的，指定技术系统TS的相应的当前状态的状态信号ZS从技术系统TS被传送到控制装置CTL。控制装置根据状态信号ZS确定在技术系统TS的相应的当前状态中允许的控制动作信号AS。允许的控制动作信号AS从控制装置CTL被传送到技术系统TS，以便以优化的和符合安全性的方式控制该技术系统。

状态信号ZS至少部分地也可以从与该技术系统TS类似的技术系统、从具有所存储的该技术系统TS或与该技术系统TS类似的技术系统的状态信号的数据库和/或从该技术系统TS或与该技术系统TS类似的技术系统的仿真中接收或来自与该技术系统TS类似的技术系统、具有所存储的该技术系统TS或与该技术系统TS类似的技术系统的状态信号的数据库和/或该技术系统TS或与该技术系统TS类似的技术系统的仿真。

为了优化控制，通过允许的控制动作信号AS引起的该技术系统TS的行为被检测并以行为信号VS的形式被编码，该行为信号从技术系统TS被传送到控制装置CTL。替代地或附加地，行为信号VS也可以是状态信号ZS的一部分和/或可以至少部分地从该状态信号中提取。

行为信号VS尤其可以指定技术系统TS的功率、产量、速度、运行时间、精度、误差率、误差范围、资源需求、效率、污染物排放、稳定性、磨损、使用寿命和/或其他目标参数。特别在燃气轮机的情况下，行为信号VS可以指定燃气轮机的燃烧交变压力幅度的改变、转速或温度。作为行为信号VS，尤其可以检测对于技术系统TS的性能而言相关的该技术系统TS的状态信号。

在本实施例中，控制装置CTL包括可训练的机器学习模块NN、与该机器学习模块耦合的安全模块SM以及与该安全模块SM耦合的性能评估器EV。

状态信号ZS被用作用于机器学习模块NN的训练数据，并且尤其包含指定技术系统TS在时间变化过程中的状态的时间序列。

在本实施例中，机器学习模块NN被设计为人工神经网络，所述人工神经网络具有神经输入层N1作为机器学习模块NN的输入端和神经输出层N2作为机器学习模块NN的输出端。机器学习模块NN在此尤其可以作为或借助TensorFlow图来实施。

替代地或附加地，机器学习模块可以使用或实施循环神经网络、卷积神经网络、贝叶斯神经网络、自动编码器、深度学习架构、支持向量机、数据驱动的可训练回归模型、k最近邻分类器、物理模型、决策树和/或随机森林。大量高效的实施方案可用于所说明的变型方案及其训练。

训练在此情况下通常将被理解为输入信号到输出信号的映射的优化。该映射在训练阶段期间根据预先给定的、经学习的和/或要学习的标准进行优化。作为标准在此情况下例如可以在预测模型的情况下使用预测误差、在分类模型的情况下使用分类误差或在控制模型的情况下使用控制动作的成功或性能。通过训练，例如可以调整或优化神经网络的神经元的联网结构和/或神经元之间的连接的权重，使得尽可能好地满足预先给定的标准。因此，训练可以被理解为优化问题。大量高效的优化方法可用于在机器学习领域中的这种优化问题。尤其，可以使用梯度下降法、粒子群优化和/或遗传优化方法。

为了训练机器学习模块NN，将相应的状态信号ZS馈入到机器学习模块NN的输入层N1中。然后，机器学习模块NN从相应的状态信号ZS产生得到的输出信号OS，该输出信号被馈入到安全模块SM中。此外，指定技术系统TS的相应状态的状态信号ZS也被馈入到安全模块SM中。

一方面，安全模块SM用于如下目的：检查所馈入的信号、这里输出信号OS在技术系统TS的相应状态中是否允许作为控制动作信号。另一方面，所馈入的信号应通过安全模块SM被转换为在相应状态中允许的控制动作信号AS。优选地，所馈入的信号通过安全模块SM的转换仅在所馈入的信号被证实为不允许的情况下才进行。否则，所馈入的信号未改变地作为允许的控制动作信号AS输出。

作为在相应状态中控制动作信号的允许性的标准可以设置在技术系统TS的运行中符合安全性的行为或预先给定的状态特定的极限值或其他状态特定的约束的遵守。

所设置的允许性标准通过状态特定的安全信息SI来编码或说明。在本实施例中，安全信息SI例如以配置文件的形式存储在数据库DB中，并通过安全模块SM读入。安全模块SM通过安全信息SI来配置。

安全信息SI可以包括用于技术系统TS的符合安全性的行为或控制动作信号的状态特定的规则、条件和/或极限值；例如运行或控制参数的最大或最小值或变化速度。这样，通过安全模块SM可以检查：在当前状态中在应用所馈入的控制动作信号的情况下是否将超过运行参数的极限值。在超过的情况下，可以转换所馈入的控制动作信号，否则不转换。以此方式，可以在训练机器学习模块NN时考虑显性专家知识或领域知识。

替代地或附加地，对在相应状态中的允许性的检查也可以根据可用于该状态的训练数据的集合来进行。此外，对在相应状态中的允许性的检查也可以根据在该状态中机器学习模块NN的预测或建模误差来执行。

此外，通过安全模块SM来配置在那里实施的变换函数F，用于通过安全信息SI将所馈入的信号转换为允许的控制动作信号。在本实施例中，变换函数F被实施为状态信号ZS、所馈入的信号（这里OS）以及安全信息SI的函数，并且根据 AS=F（ZS，OS；SI）返回在相关的状态中允许的控制动作信号（这里AS）。

如上所述，通过变换函数F可以首先检查：所馈入的信号OS是否是允许的。如果情况如此，则所馈入的信号OS未改变地作为允许的控制动作信号AS输出，否则进行转换。在转换的情况下，于是例如可以限制超过极限值的信号分量，或者可以输出默认控制动作信号。

针对本实施例将假设：变换函数F促成所馈入的信号OS向所输出的信号AS的可区分的映射。

安全模块SM优选地包括多个串联的层的序列，所述层例如可以作为或借助于TensorFlow图来实施。在本实施例中，安全模块SM具有作为安全模块SM的输入端的输入层S1以及具有作为安全模块SM的输出端的输出层S2。安全模块SM尤其可以被理解为用于控制动作信号的过滤器或修改器。

借助安全模块 SM，机器学习模块NN应在强化学习的意义上被训练为将输出信号OS输出，所述输出信号在通过安全模块SM的可能转换之后以优化技术系统的性能的方式控制技术系统TS。在这方面，输出信号OS可以在一定程度上被理解为原始控制动作信号。

在训练的范围内，技术系统TS通过由安全模块SM输出的控制动作信号AS来控制。通过该控制引起的技术系统TS的行为以行为信号VS的形式被编码。该行为信号被传送到控制装置CTL并在那里被馈入到性能评估器EV中。

性能评估器EV用于如下目的：针对相应的控制动作根据行为信号VS确定通过该控制动作触发的技术系统TS的行为的性能。性能在此情况下可以如结合图1所解释的那样来定义。

为了该目的，行为信号VS通过性能评估器EV优选地借助所谓的报酬函数来评估。在此情况下，报酬函数确定和量化当前系统行为的性能作为报酬。这样的报酬函数经常也被称为成本函数、损失函数、目标函数、Reward-Function或价值函数。

替代地或附加地，性能也可以从技术系统TS的所仿真的或所预测的行为中导出。此外，也可以从数据库中读入技术系统TS的行为。例如借助状态特定的和控制动作特定的数据库查询。

优选地通过性能评估器EV确定折现到未来的性能。在此情况下，未来性能值的加权和利用朝未来的方向降低的加权因子形成。

除了行为信号VS之外，性能评估器EV也可以在评估中考虑运行状态、当前控制动作和/或系统行为的一个或多个额定值。

如上面已经表明的那样，作为用于性能的度量尤其可以使用技术系统TS的功率、产量、速度、运行时间、精度、误差率、误差范围、资源需求、效率、污染物排放、稳定性、磨损、使用寿命和/或其他目标参数。

所确定的性能通过性能评估器EV以性能信号PS的形式量化。借助性能信号PS，机器学习模块NN应被训练为优化性能。为了该目的，原则上大量机器学习方法、尤其强化学习方法和反向传播方法可用。在当前情况下，本身已知的反向传播方法以特别高效的方式适配于与安全模块SM耦合的机器学习模块NN的训练。

为了训练的目的，性能信号PS从性能评估器EV被传送到安全模块SM，并在那里被馈入到输出层S2中。在变换函数F促成可区分的映射的范围内，性能信号PS可以通过应用已知的且高效的基于梯度的反向传播方法从输出层S2被反向传播到输入层S1。性能信号PS在此可以作为误差信号被反向传播，其具有以下特点：更高的性能对应于更小的误差。在通过安全模块SM进行反向传播时，安全模块的转换行为和检查行为未被改变，而是仅仅被反向传播的性能信号被改变。

得到的、被反向传播到输入层S1的性能信号RPS紧接着被馈入到机器学习模块NN的输出层N2中。通过应用已知的基于梯度的反向传播方法，得到的性能信号RPS从输出层N2进一步被反向传播到输入层N1。在此情况下，得到的性能信号RPS也可以作为误差信号被反向传播，其具有以下特点：更高的性能对应于更小的误差。机器学习模块NN借助反向传播被训练，其方式是，在反向传播的过程中，机器学习模块NN的学习参数、诸如神经权重关于最大性能的训练目标被优化。与在安全模块SM的情况下不同，机器学习模块NN的转换行为因此通过反向传播被改变。

在安全模块SM和机器学习模块NN借助TensorFlow图来实施的范围内，反向传播可以在TensorFlow环境中以简单的且按规定的方式执行。

通过机器学习模块NN的训练来配置控制装置CTL。经训练的机器学习模块NN和下游的安全模块SM的串联可以被理解为混合策略HP，该混合策略根据馈入到混合策略HP中的状态信号ZS仅输出允许的和优化性能的控制动作信号AS。这样被训练或配置的控制装置CTL然后可以如结合图1所描述的那样被用于技术系统TS的优化的且符合安全性的控制。

图3借助两个图表图示原始控制动作信号OS通过安全模块SM到允许的控制动作信号AS的转换。

在上面的图表中，相对于相应状态ST示意性地绘制了可用于相应状态ST的训练数据的集合TD。相应状态ST在此情况下尤其可以通过状态信号的相应值、例如污染物值或转速值来表示。

显然，在右边的状态范围中仅仅非常少的训练数据可用。因此不能期望机器学习模块NN在该状态范围中输出优化的或甚至仅仅有利的控制动作信号AS。

在下面的图表中，分别相对于状态ST绘制了作为原始控制动作信号的输出信号OS和由该原始控制动作信号通过安全模块SM的转换得到的允许的控制动作信号AS。输出信号OS和允许的控制动作信号AS在状态范围B1中一致，并且在状态范围B2中不同。

在状态范围B2中，通过安全模块SM借助安全信息SI一方面检测了：仅仅相对少的训练数据可用。另一方面确定了：在将输出信号OS未经过滤地应用于技术系统TS时将达到临界的或其他不允许的系统状态。因此，通过安全模块SM在状态范围B2中修改输出信号OS，以便这样获得允许的控制动作信号AS。在当前情况下，输出信号OS通过其信号值的状态相关移位来修改。

而在状态范围B1中输出信号OS通过安全模块SM被评估为允许的并且因此未改变地作为允许的控制动作信号AS输出。

图4以示意图示出处于训练阶段中的根据本发明的控制装置CTL的另一实施例。通过训练，控制设备CTL应被配置用于控制技术系统TS。在此，混合策略HP应被训练为根据技术系统TS的状态信号ZS生成用于控制技术系统TS的优化性能的和允许的控制动作信号AS。混合策略HP在此包括优选地如上所述的那样实施并且起作用的要训练的机器学习模块NN以及下游的安全模块SM。机器学习模块NN在与安全模块SM的特定共同作用中的训练也优选地如上面所阐述的那样进行。

为了训练混合策略HP，控制装置CTL从技术系统TS接收技术系统TS的状态信号ZS作为训练数据。为了所述训练，此外使用第二机器学习模块NN2以及第三机器学习模块NN3。

第二机器学习模块NN2事先优选地利用监督学习的标准方法被训练为，根据技术系统TS的状态信号ZS来预测或再现技术系统TS的行为，该行为将在没有当前应用控制动作的情况下发展。该训练例如可以进行，使得将第二机器学习模块NN2的通过状态信号ZS所引起的输出信号与技术系统TS的实际的在没有当前应用控制动作的情况下形成的行为信号进行比较。然后可以优化第二机器学习模块NN2，使得使所引起的输出信号和实际的行为信号之间的偏差最小化。

经训练的第二机器学习模块NN2因此可以根据状态信号ZS以高的精度再现技术系统TS的如在没有当前应用控制动作的情况下将形成的行为信号VSR2。

第三机器学习模块NN3事先优选地利用监督学习的标准方法被训练为，根据控制动作信号AS和技术系统TS的状态信号ZS来预测或再现技术系统TS的通过相应控制动作引起的行为。该训练例如可以进行，使得将第三机器学习模块NN3的通过控制动作信号AS和状态信号ZS所引起的输出信号与技术系统TS的实际的控制动作引起的行为信号进行比较。然后可以优化第三机器学习模块NN3，使得使所引起的输出信号和实际的控制动作引起的行为信号之间的偏差最小化。

经训练的第三机器学习模块NN3因此可以根据控制动作信号AS和状态信号ZS以高的精度再现技术系统TS的控制动作引起的行为信号VSR3。优选地，可以在第三机器学习模块NN3的训练中和应用中附加地使用第二机器学习模块NN2的行为信号VSR2作为输入数据。这通常提高第三机器学习模块NN3的预测精度。

在本实施例中，在训练机器学习模块NN时机器学习模块NN2和NN3的训练已经结束。

除了机器学习模块NN、NN2和NN3之外，控制装置CTL此外包括性能评估器EV，该性能评估器与机器学习模块NN、NN2和NN3耦合并且优选地如上所述地实施并且起作用。此外，第二机器学习模块NN2与机器学习模块NN和NN3耦合并且第三机器学习模块NN3与机器学习模块NN耦合。

如上面已经表明的，性能评估器EV用于针对相应的控制动作根据行为信号确定技术系统TS的通过该控制动作触发的行为的性能。在本实施例中，根据所预测的行为信号VSR2和VSR3来确定性能。性能通过性能评估器EV以性能信号PS的形式量化。

为了训练机器学习模块NN，将状态信号ZS作为输入信号馈入到经训练的机器学习模块NN2和NN3中、要训练的机器学习模块NN中以及安全模块SM中。

根据状态信号ZS，经训练的第二机器学习模块NN2再现技术系统TS的如在没有当前应用控制动作的情况下将形成的行为信号VSR2。所再现的行为信号VSR2从第二机器学习模块NN2被馈入到机器学习模块NN中、第三机器学习模块NN3中以及性能评估器EV中。

由状态信号ZS和所再现的行为信号VSR2得到的机器学习模块NN的输出信号OS此外被馈入到安全模块SM中，该安全模块将输出信号OS如上所述的那样转换为允许的控制动作信号AS。该允许的控制动作信号作为输入信号被馈入到经训练的第三机器学习模块NN3中。根据允许的控制动作信号AS、所再现的行为信号VSR2以及状态信号ZS，经训练的第三机器学习模块NN3再现技术系统TS的控制动作引起的行为信号VSR3，该行为信号从经训练的第三机器学习模块NN3被馈入到性能评估器EV中。

性能评估器EV根据所再现的行为信号VSR3在考虑所再现的行为信号VSR2的情况下量化技术系统TS的当前性能。在此优选地确定控制动作引起的行为信号VSR3和行为信号VSR2之间的偏差。根据该偏差，可以通过性能评估器 EV 评估：在应用控制动作的情况下的系统行为与在没有应用该控制动作的情况下的系统行为有何区别。已证实，在许多情况下通过该区别可以显著改善性能评估。

得到的量化性能的性能信号PS如在图4中通过虚线箭头所表明的那样被引回到混合策略HP，并且在那里如上面所阐述的那样通过安全模块SM和机器学习模块NN反向传播。根据被反向传播的性能信号 PS，将机器学习模块NN训练为使控制动作性能最大化。为了使控制动作性能最大化，可以如上面多次提及的那样使用大量已知的反向传播方法和优化方法。

通过除了状态信号ZS之外也使用所再现的行为信号VSR2来训练机器学习模块NN，可以特别高效地训练该机器学习模块，因为关于没有控制动作的系统行为的特定信息可用于机器学习模块NN。

通过训练机器学习模块NN，控制装置CTL被设立用于借助经训练的混合策略HP的控制动作信号AS以不仅允许的而且优化性能的方式控制技术系统TS。

Claims

1.一种计算机实施的用于配置用于技术系统（TS）的控制装置（CTL）的方法，其中

a）通过安全模块（SM）读入对于所述技术系统（TS）的状态而言特定的关于控制动作信号的允许性的安全信息（SI），

b）将说明所述技术系统（TS）的状态的状态信号（ZS）馈入到机器学习模块（NN）中以及所述安全模块（SM）中，

c）将所述机器学习模块（NN）的输出信号（OS）馈入到所述安全模块（SM）中，

d）通过所述安全模块（SM）借助所述安全信息（SI）根据所述状态信号（ZS）将所述输出信号（OS）转换为允许的控制动作信号（AS），

e）确定通过所述允许的控制动作信号（AS）控制所述技术系统（TS）的性能，

f）将所述机器学习模块（NN)训练为优化所述性能，以及

g）所述控制装置（CTL）借助经训练的机器学习模块（NN）被设立用于根据由所述安全模块（SM）输出的允许的控制动作信号（AS）控制所述技术系统（TS）。

2.根据权利要求1所述的方法，其特征在于，

为了训练所述机器学习模块（NN），使用反向传播方法，在该反向传播方法中量化所述性能的性能信号（PS）从所述安全模块（SM）的输出端（S2）被反向传播到所述安全模块（SM）的输入端（S1）并且得到的性能信号（RPS）进一步从所述机器学习模块（NN）的输出端（N2）被反向传播到所述机器学习模块（NN）的输入端（N1）。

3.根据上述权利要求中任一项所述的方法，其特征在于，

通过所述安全模块（SM）借助所述安全信息（SI）来检查：所述输出信号（OS）是否作为控制动作信号是允许的，以及

根据检查结果将所述输出信号（OS）转换为所述允许的控制动作信号（AS）。

4.根据权利要求3所述的方法，其特征在于，

如果所述输出信号（OS）作为控制动作信号是允许的，则所述输出信号（OS）通过所述安全模块（SM）作为允许的控制动作信号（AS）输出，以及

否则所述输出信号（OS）被转换为所述允许的控制动作信号（AS）。

5.根据权利要求3或4所述的方法，其特征在于，

所述安全信息（SI）说明或编码允许的、状态特定的默认控制动作信号，以及

根据检查结果将所述输出信号（OS）转换为所述允许的默认控制动作信号。

6.根据权利要求3至5中任一项所述的方法，其特征在于，

针对通过所述状态信号（ZS）指定的状态，确定可用于所述状态的训练数据的集合，以及

根据所确定的集合进行对所述输出信号（OS）的允许性的检查。

7.根据权利要求3至6中任一项所述的方法，其特征在于，

针对通过所述状态信号（ZS）指定的状态，确定所述机器学习模块（NN）的预测误差或建模误差，以及

根据所确定的预测误差或建模误差进行对所述输出信号（OS）的允许性的检查。

8.根据上述权利要求中任一项所述的方法，其特征在于，

通过所述安全信息（SI）配置、说明或编码变换函数（F），

将所述输出信号（OS）以及所述状态信号（ZS）馈入到所述变换函数（F）中，以及

借助所述变换函数（F）根据所述状态信号（ZS）将所述输出信号（OS）转换为所述允许的控制动作信号（AS）。

9.根据上述权利要求中任一项所述的方法，其特征在于，

通过所述允许的控制动作信号（AS）来控制所述技术系统（TS），

检测这样被控制的技术系统（TS）的行为，以及

从所检测的行为中导出所述性能。

10.根据上述权利要求中任一项所述的方法，其特征在于，

通过所述允许的控制动作信号（AS）控制的技术系统（TS）的行为被仿真、预测和/或从数据库中读入，以及

从所仿真的、所预测的和/或所读入的行为中导出所述性能。

11.一种用于控制技术系统（TS）的控制装置（CTL），被设立用于执行根据上述权利要求中任一项所述的方法。

12.一种计算机程序产品，被设立用于执行根据权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，具有根据权利要求12所述的计算机程序产品。