CN102792234A

CN102792234A - 用于计算机辅助地控制和/或调节技术系统的方法

Info

Publication number: CN102792234A
Application number: CN2011800136186A
Authority: CN
Inventors: S.迪尔; V.施特青格; S.乌德卢夫特
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2010-03-12
Filing date: 2011-02-15
Publication date: 2012-11-21
Anticipated expiration: 2031-02-15
Also published as: WO2011110404A1; DK2519861T3; DE102010011221A1; EP2519861A1; EP2519861B1; DE102010011221B4; US20130013543A1; CN102792234B

Abstract

本发明涉及一种用于计算机辅助地调节和/或控制技术系统的方法。在该方法中，使用回归神经网络来对技术系统的动态行为进行建模，该回归神经网络的输入层包含技术系统的状态以及在技术系统处执行的动作，所述状态和动作被输送给回归隐藏层。在此，回归神经网络的输出层由评价信号来表示，该评价信号再现技术系统的动态特性。必要时也可以作为输出层的状态而仅仅使用技术系统的状态的影响评价信号的状态变量或在技术系统处执行的动作的影响评价信号的动作变量。利用该回归神经网络生成的隐藏状态被用于基于学习和/或优化方法控制或调节技术系统。根据本发明的方法所具有的优点是，可以以合适方式减小回归隐藏层的状态空间的维数，并且仍然良好地对技术系统的动态特性进行建模。由此可以实现对技术系统的计算高效和精确的控制或调节。

Description

用于计算机辅助地控制和/或调节技术系统的方法

技术领域

本发明涉及一种用于计算机辅助地控制和/或调节技术系统的方法以及一种相应的计算机程序产品。

背景技术

如今，技术系统通常具有高复杂度，也就是说，技术系统由具有大量状态变量的状态来描述。另外，可以基于相应的动作变量在技术系统处执行大量不同的动作。在此，状态变量尤其是技术系统的可测量的状态参量，例如物理参量，如压力、温度、功率等等。动作变量尤其是技术系统的可调整的参量，例如燃料到燃气涡轮机中的燃烧室的输送。

在控制复杂技术系统时常常使用计算机辅助的方法，这些方法在考虑到预定标准的情况下优化技术系统的动态时间行为。这种方法的示例是学习方法，如从现有技术中充分公知的增强型学习方法（Reinforcement Learning（强化学习））。这样的学习方法的变型在文献DE 10 2007 001 025 B4中予以了描述。这些公知的方法通过确定在技术系统处执行的合适动作来优化技术系统的动态行为，其中所述动作包括技术系统中的确定的调整参量的变化，如阀门位置的变化、压力的升高等等。在此，每个动作都以合适的方式通过以奖励或惩罚形式的评价信号例如在考虑到成本函数的情况下被评价，由此可以实现技术系统的最优的动态行为。

在上述用于控制或优化技术系统的动态行为的标准方法中所存在的问题是，这样的方法仅能以有限的规模用于具有大量状态变量和动作变量的技术系统（即在由状态和动作构成的高维状态空间中）。

为了减少状态变量，从文献DE 10 2007 001 026 B4中公知基于回归神经网络对技术系统进行建模，其中回归隐藏层中的状态数目比输入层或输出层中小。在此，隐藏状态被用作为用于调节和/或控制技术系统的相应学习或优化方法的输入。该文献的方法尽管减小了隐藏层的状态空间的维数，但是未考虑到：为了对技术系统的动态行为建模实际上需要哪种信息内容。尤其是在输出层中在那里建模的动态特性的情况下总是从输入层中预测所有状态变量，而不分析为了对技术系统的动态行为进行建模实际上需要哪些状态变量。因此，该文献的方法尽管在缩小的状态空间上工作，但是并不保证：在该缩小的状态空间中正确地对技术系统的动态特性建模。这在建模时或在计算机辅助地控制和/或调节技术系统时导致较大的误差。

发明内容

本发明的任务是，提供一种用于控制和/或调节技术系统的方法，该方法以高的计算效率和精度对技术系统的动态行为进行建模。

该任务通过根据权利要求1的方法及根据权利要求15的计算机程序产品来解决。本发明的改进方案在从属权利要求中定义。

根据本发明的方法用于计算机辅助地控制或调节技术系统，该技术系统在多个时刻分别由具有多个状态变量的状态和在技术系统处执行的具有多个动作变量的动作以及所述状态和所述动作的评价信号来表征。

在根据本发明的方法中，利用包括输入层、回归隐藏层和输出层的回归神经网络基于来自已知状态、动作和评价信号的训练数据来对技术系统的动态行为进行建模，其中：

i）输入层由具有第一维数的第一状态空间构成，该第一状态空间包括技术系统的状态和在技术系统处执行的动作；

ii）回归隐藏层由具有第二维数的第二状态空间构成，该第二状态空间包括具有多个隐藏状态变量的隐藏状态；

iii）输出层由具有第三维数的第三状态空间构成，该第三状态空间被确定为使得其状态表示评价信号或者仅仅表示影响评价信号的状态变量和/或动作变量。

第一状态空间的维数因此对应于输入层中的状态变量和动作变量的数目。第二状态空间的维数由隐藏状态变量的数目给定。第三状态空间的维数对应于评价信号的维数（通常为一维）或影响该信号的状态变量和/或动作变量的数目。

对技术系统的动态行为建模以后，在根据本发明的方法中，在第二状态空间中的隐藏状态上通过在技术系统处实施动作来执行用于控制和/或调节技术系统的学习和/或优化方法。

根据本发明的方法的特征在于，使用回归神经网络，该回归神经网络的输出层受评价信号或仅受确定评价信号的参量影响。通过这种方式保证了：在回归神经网络中仅仅对实际上影响技术系统的动态特性的参量进行建模。由此，甚至在第二状态空间的第二维数降低的情况下也可以非常良好地对技术系统的动态行为进行建模。因此，使得能够基于隐藏层中的隐藏状态精确和计算高效地调节和/或控制技术系统。

优选地在根据本发明的方法中，技术系统的动态行为的建模这样进行，使得回归神经网络基于训练数据被训练为使得从一个或多个过去时刻为一个或多个未来时刻预测输出层的状态。这例如通过如下方式来实现：使预测状态与根据训练数据的状态之间的误差最小化。优选地在预测时预测输出层的状态的预期值以及特别优选地预测评价信号的预期值。

为了利用本发明的回归神经网络实现合适的预测，在一个优选的变型方案中，隐藏层中的隐藏状态通过权重被连接为使得未来时刻的权重不同于过去时刻的权重。也就是说，在回归神经网络中允许与过去时刻不同地选择未来时刻的权重。在此，权重可以是矩阵，但是必要时也可以由多层感知器形式的神经网络来表示。神经网络中的各个层之间的权重也可以由矩阵或者必要时也由多层感知器来实现。

根据本发明的方法尤其具有的优点是，可以控制或调节具有非线性动态特性的技术系统。另外，在根据本发明的方法中使用具有非线性激活函数的回归神经网络。

作为应用于回归神经网络的回归隐藏层的隐藏状态的学习或优化方法，可以使用从现有技术中公知的任意方法。例如，可以使用在上面提到的文献DE 10 2007 001 025 B4中描述的方法。一般而言，对于学习或优化方法使用机器学习方法并且尤其是增强型学习方法。这样的学习方法的示例是动态编程和/或优先扫描和/或Q学习。

为了适当地调整回归神经网络中的第二状态空间的第二维数，在根据本发明方法的另一优选变型方案中，第二状态空间的第二维数变化，直到找到满足一个或多个预先给定的标准的第二维数。该找到的第二维数然后被用于回归隐藏层的第二状态空间。在此，在一个优选的变型方案中，只要输出层的利用回归神经网络确定的状态与根据训练数据的已知状态之间的偏差小于预先确定的阈值，就逐步地减小第二状态空间的第二维数。由此，以合适的方式找到具有减少的维数的第二状态空间，该第二状态空间实现了技术系统的动态行为的建模。

在根据本发明方法的另一变型方案中，评价信号由取决于状态变量和/或动作变量的一部分的评价函数表示。状态变量和/或动作变量的该部分因此同样可以构成输出层的状态。

在根据本发明方法的特别优选的实施方式中，在回归神经网络中所使用的评价信号还用在与其联系的学习和/或优化方法中，以便关于最优的评价信号实施动作。在此，最优是指，该动作导致根据评价信号的高回报或小成本。

根据本发明的方法可以在任意技术系统中用于其控制或调节。在一个特别优选的变型方案中，将根据本发明的方法用于控制涡轮机、尤其是燃气涡轮机或风力涡轮机。对于燃气涡轮机，评价信号例如至少由涡轮机的效率和/或废物排放和/或涡轮机的燃烧室的机械载荷来确定。在此，优化的目的是燃烧室的高效率或少的废物排放或小的机械载荷。在将该方法用于调节或控制风力涡轮机的情况下，评价信号可以例如至少是风力涡轮机的一个或多个转子叶片上的（动态）力载荷和所产生的电功率。

除了上述方法以外，本发明还包括具有存储在机器可读载体上的程序代码的计算机程序产品，所述程序代码用于在该程序在计算机上运行时执行根据本发明的方法。

附图说明

下面根据附图详细描述本发明的实施例。

图1示出了一般地说明技术系统的动态行为的建模的示意图；

图2示出了在本发明的实施方式中用于计算隐藏状态的回归神经网络的示意图；

图3示出了风力涡轮机形式的技术系统的示意图，其中基于该系统的数据测试了根据本发明方法的实施方式；

图4示出了基于根据图3的风力涡轮机的数据来说明根据本发明方法的实施方式的结果的图表；

图5示出了基于本身公知的Cart-Pole问题再现根据本发明方法的实施方式的结果的图表。

具体实施方式

图1示意性地示出了在本发明中考察的技术系统的动态特性，该技术系统由具有附图标记T的框来表示。在此，该技术系统在相应时刻t由可观察的状态或可观测量z_t和在技术系统处执行的动作

Figure 2011800136186100002DEST_PATH_IMAGE002A

来描述。在此，该系统包含内部或隐藏状态s_t，该状态是不可观察的。在此，隐藏状态s_t由于动作而改变，并且转变到状态s_t+1。状态s_t+1取决于动作

以及在先状态s_t。技术系统T另外由合适的评价信号（图1中不可见）来规定，该评价信号定义：在技术系统的状态中执行的动作在技术系统的最优运行方面以何种程度被归为良好的。这样的评价信号的示例是技术系统的废物排放或者技术系统在运行中的机械载荷和交变载荷，其中控制或调节技术系统的目标设定是小的排放或小的机器载荷。

在根据本发明的方法中，在考虑到评价信号的情况下首先基于包括在多个时刻的状态和动作的训练数据来执行技术系统的动态行为的合适的建模。接着，将经常也被称为奖励（Reward）并且在技术系统的运行中应当尽可能大的回报信号看成为评价信号。出发点是，对技术系统的描述基于状态和动作是所谓的马尔可夫（Markov）决策过程，其中针对该决策过程，只有该回报信号示出了相关信息。马尔可夫决策过程是从现有技术中公知的，并且例如在文献DE 10 2007 001 025 B4中被详细定义。

利用根据本发明的方法，对于通过回报定义的马尔可夫决策过程重要的信息被编码到隐藏状态s_t中，其中－与公知方法不同－不考虑对于马尔可夫决策过程不重要的信息。为了实现这一点，用于对技术系统的动态行为建模的回归神经网络被构造为使得在输出层中包含回报信号或仅仅包含影响回报信号的参量，这将在下面更进一步描述。

如上面提到的，首先执行对技术系统的动态行为的建模，由此获得技术系统的合适的隐藏状态。在这些状态上可以接着应用合适的、用于控制或调节技术系统的学习方法或优化方法来。这些方法于是在技术系统的实际运行中提供技术系统在特定状态下的分别最优的动作，其中该最优化是通过上面提到的回报信号来确定的。

为了更好的理解，首先阐述：如何能够以常规方式借助于回归神经网络来对技术系统的动态行为进行建模以及由此能够获得相应的隐藏状态。一般而言，按下式来描述技术系统在彼此相继的时刻的动态特性：

在常规方法中，使用动态一致的回归神经网络来描述马尔可夫状态空间。在此，该网络的目标是与所测量的状态

相比最小化技术系统的预测状态

的误差。在数学上，这可以按下式来描述：

因此，寻找对函数f和g的合适的参数化，使得预测的状态与实际的观察状态之间的偏差最小。在文献DE 10 2007 001 025 B4和DE 10 2007 001 026 B4中示出了这种基于回归神经网络对技术系统进行的建模。在此，该网络中的输出层如已经在上面提到的那样包含要预测的可观测量。

可观测量通常由来自多个状态变量的矢量

来描述。类似地，动作由具有多个动作变量的矢量

来描述。现在已经认识到，为了对技术系统的动态特性建模，在许多情况下不是必须考虑矢量z_t或

的所有项。这通过下面描述的马尔可夫决策过程提取网络来实现，该网络在下面亦称MPEN网络。在此，相对于常规的动态一致回归神经网络而言进行几个改变。

图2中示出了MPEN网络的特殊实施方式。在此，该图的MPEN网络的输入层用I来表示，隐藏层用V来表示，并且输出层用O来描述。当前时刻是时刻t。可以认识到，输入层包括状态z_t-2、z_t-1、z_t以及相应的动作

、

、

，它们以合适的方式引入到隐藏层V中的相应隐藏状态中。在图2的实施方式中，针对过去存在两种类型的隐藏状态，即

、

及

、

。除此之外，网络在当前时刻t包含隐藏状态

和

。另外，已经在上面提到的回报与一状态以及在该状态中实施的动作耦合，该回报针对图1中的时刻t用r_t来表示。在此，在图2中针对输出层再现了在当前时刻t要预测的回报。通常，输出层还包含另外的、处于未来的回报r_t+1、r_t+2等等，这些回报由该网络预测。

图2的网络的虚线部分说明在时刻t对回报r_t的预测，该回报与内部回报

耦合。与公知网络不同，现在输出层O通过回报信号而不是通过状态矢量来描述。这需要图2的网络被划分成两个部分网络，其中第一部分网络处于图2的线L的左方并且描述过去和现在，而第二部分网络处于线L的右方并且将来自第一部分网络的信息用于回报的预测。在此应当考虑，图2的网络的目标不是预测动作序列、即预先给定所示动作

以及另外（未示出）的未来动作。基于预先给定的动作仅仅预测回报。以合适的方式通过用大写字母表示的权重矩阵将这些层中的各个状态彼此连接，其中图2的网络的动态特性可以通过下列等式来描述：

其中粗体印刷的符号表示实值矢量，所有大写字母表示实值矩阵，所有θ表示实值标量阈值，并且

表示任意的至少反曲（sigmoidal）的激活函数。

替代于使用权重矩阵，必要时也可以使用多层感受器来描述加权。

图2的网络中的重要方面在于，针对过去使用不同于未来（即

）的其他权重矩阵（即

）。这通过上述到第一和第二部分网络的划分来实现。一般而言，到部分网络的划分可以被描述为使得形成针对过去状态的部分网络和针对未来状态的部分网络，使得针对要预测的隐藏状态有下列条件成立：

通过相应的函数

、

、

，一般地描述在图2中通过矩阵再现的相应耦合。根据本发明，现在替代于所有观察的状态变量将回报信号本身用作为目标参量。也就是说，预测下列状态参量：

在此应当注意，当前隐藏状态s_t和所实施的动作a_t足以描述所有相关回报函数的预期值，因为在自变数中必然包含了关于后继状态s_t+1的所有信息。利用作为目标参量的回报信号，可以如下地描述通过MPEN网络执行的优化：

可以认识到，与等式（3）不同，现在基于来自训练数据的已知回报信号

寻求针对f、g的参数化，该参数化对预测的回报信号与已知的回报信号之间的误差进行最小化。这样的回归神经网络从第一部分网络中的过去观察序列中积累了马尔可夫特性所需的所有信息，而第二部分网络优化状态转变。

在前述MPEN网络中所基于的经证明的认识是，回归神经网络可以用于逼近马尔可夫决策过程，其方式是，基于观察的历史来预测所有预期的未来后继状态。由于回归神经网络，每个状态必须将所有所需的信息编码，以便估计通过执行动作得出的后继状态。出于该原因，回归神经网络必须能够针对每个未来状态估计预期的回报信号，因为回报函数仅能将一个状态、一个动作以及一个后继状态用作自变数。由此导致：针对利用回归神经网络的增强型学习足够的是，对能够预测所有未来时刻的回报信号的动态特性进行建模。基于该预测已经构建了上述以及在图2中示例性示出的MPEN网络。

在本发明的范围内，相应地利用训练数据学习的MPEN网络作为隐藏状态s_t+1。该状态于是用作为用于另一学习和/或优化方法的输入。在该方面中，根据本发明的方法对应于在文献DE 10 2007 001 026 B4中所描述的方法，但是其中根据本发明，将其他建模用于技术系统的动态行为。作为后续的学习和/或优化方法使用从现有技术中公知的机器学习方法，例如可以使用文献DE 10 2007 001 025 B4中的增强型学习方法。同样可以使用公知的学习方法、动态编程、优先扫描以及Q学习。

图3说明风力涡轮机形式的技术系统，其中基于风力涡轮机的运行数据测试了根据本发明方法的实施方式。风力涡轮机在图1中用附图标记1来表示，并且包括三个转子叶片1a、1b和1c。风力涡轮机的动态行为利用常规的回归神经网络以及利用根据本发明的MPEN网络被建模，其中作为回报信号使用作用于转子叶片的要最小化的负荷。在此，要在风力涡轮机处执行的动作通过改变各个转子叶片的安装角来规定，其中该改变在图3中通过相应的圆圈C来表示。

在所执行的试验中，作为输入变量、即作为输入层的状态考察总共46个变量。在常规的回归神经网络中，也用该46个变量来描述输出层。与此相对地，在根据本发明的MPEN网络中，作为要预测的输出仅考察回报信号。在此，利用不同的许多过去状态以及未来要预测的状态或回报来考察不同的回归神经网络。同样，不同地选择相应隐藏状态的维数（即隐藏状态的状态变量的数目）。

图4示出这样的图表，该图表再现了转子叶片上的负荷的平均预测误差PE与未来的预测时间步长TS的关系。在此，线L1和L2示出了常规神经网络的误差，其中分别利用20个状态变量来考察隐藏状态。另外针对根据线L2的网络，替代于46个变量在输入层中使用仅仅26个变量。与此相对地，图3示出了具有由4个状态变量构成的隐藏状态的MPEN网络，并且线L4示出了具有由20个状态变量构成的隐藏状态的MPEN网络。可以认识到，尽管MPEN网络使用具有仅仅4个变量的隐藏状态空间，MPEN网络也比常规的回归神经网络提供更佳的预测。根据本发明的预测回报信号的MPEN网络因此非常好地描述了风力涡轮机形式的技术系统的动态特性。在此，该方法是非常有计算效率的，因为小数目的隐藏状态变量就足以对系统进行建模。因此可以假定，基于利用MPEN网络预测的隐藏状态随动地控制或调节风力涡轮机实现了风力涡轮机以转子叶片上尽可能小的负荷进行的经优化的运行。

另外，按照从现有技术中充分公知的Cart-Pole问题测试了根据本发明的方法。该问题例如在文献DE 10 2007 001 025 B4中被详细阐述。经典的Cart-Pole问题涉及一个杆（Stab），该杆以可转动的方式固定于在平面中运动的车辆上，其中该车辆可以在两个界限之间来回运动。该杆被向前定向，并且目标是，通过将车辆在界限内移动来尽可能长地平衡该杆，而不到达所述界限或者杆相对于垂直方向倾斜不超过12°。于是，当杆在大于100000个步骤中平衡时该问题得到解决，其中所述步骤分别表示车辆的预先确定的运动。在此，当达到极限时，相应的回报信号由值－1来定义。否则，回报信号为0。Cart-Pole问题在每个时刻t的马尔可夫状态完全由车辆的位置

、车辆的速度、垂直于车辆的杆的角度

以及杆的角度速

来描述。在此，可能的动作包括车辆以恒定的力F或不施加力向左或向右的运动。

为了测试根据本发明的方法，在MPEN网络的输入层中仅仅考察3个可观测量，即车辆的位置和速度以及杆的角度。由此，违反了马尔可夫条件。然后基于以表格为基础的动态编程，利用MPEN网络获得的隐藏状态被输送给学习方法。尽管通过考察仅仅3个可观测量而违反了马尔可夫条件，但是可以利用MPEN网络以合适方式提取马尔可夫决策过程并且令人满意地解决Cart-Pole问题。

这通过图5来表明，该图示出了再现所学习的动作选择规则的图表。图5的线L′说明了利用MPEN网络和接着的动态编程所获得的彼此相继的平衡步骤BS的数目与用来学习动态编程的观察B的数目的关系。与此相对地，图5中的线L′′表示在没有前置MPEN网络的情况下基于原始4个可观测量的动态编程的彼此相继的平衡步骤的数目。MPEN网络利用25000个训练数据被训练，其中－如上面提到的－仅仅考虑到3个可观测量。从图5中可认识到，尽管省略了针对Cart-Pole问题的可观测量，但是利用大量的平衡步骤实现了非常良好的结果。

如从上面的阐述中得出的，根据本发明的方法具有一系列优点。尤其是实现了高的预测质量，该预测质量明显比常规的递归神经网络中更好。另外，在对技术系统的动态特性进行建模时，可以使用具有少的隐藏状态变量的紧凑的内部状态空间。该状态空间开拓了这样的可能性，即针对应用于隐藏状态的学习和/或优化方法，也使用作为输入数据需要具有小维数的状态空间的方法。

在根据本发明的方法中，通过将评价信号或仅仅影响评级信号的参量用作为要预测的目标值而仅仅考虑对于系统的动态特性重要的方面。由此可以使用隐藏层中具有最小维数的状态，该状态可以接着作为用于相应学习方法或模型精确的调节或其他优化方法的状态被用于在动作空间中进行寻找，以便因此解决基于评级信号的优化控制问题。

Claims

1.用于计算机辅助地控制和/或调节技术系统（T）的方法，其中：

a）技术系统（T）在多个时刻（t）分别由具有多个状态变量的状态（x_t）和在技术系统处执行的具有多个动作变量的动作（a_t）以及所述状态（x_t）和所述动作（a_t）的评价信号（r_t）来表征；

b）利用包括输入层（I）、回归隐藏层（H）和输出层（O）的回归神经网络基于由已知状态（x_t）、动作（a_t）和评价信号（r_t）构成的训练数据来对技术系统（T）的动态行为进行建模，其中：

i）输入层（I）由具有第一维数的第一状态空间构成，该第一状态空间包括技术系统（T）的状态（x_t）和在技术系统（T）处执行的动作（a_t）；

ii）回归隐藏层（V）由具有第二维数的第二状态空间构成，该第二状态空间包括具有多个隐藏状态变量的隐藏状态（

Figure 2011800136186100001DEST_PATH_IMAGE002

）；

iii）输出层（O）由具有第三维数的第三状态空间构成，该第三状态空间被确定为使得其状态表示评价信号（r_t）或者仅仅表示影响评价信号（r_t）的状态变量和/或动作变量；

c）在第二状态空间中的隐藏状态（s_t）上通过在技术系统（T）处实施动作（a_t）来执行用于控制和/或调节技术系统（T）的学习和/或优化方法。

2.根据权利要求1所述的方法，其中在步骤b）中对技术系统的动态行为进行建模时基于训练数据这样训练回归神经网络，即从一个或多个过去时刻中为一个或多个未来时刻预测输出层（O）的状态（r_t）。

3.根据权利要求2所述的方法，其中隐藏层（V）中的隐藏状态（

）通过权重（

Figure 2011800136186100001DEST_PATH_IMAGE004

）被连接为使得针对未来时刻的权重（

Figure 2011800136186100001DEST_PATH_IMAGE006

）不同于针对过去时刻的权重（

Figure 2011800136186100001DEST_PATH_IMAGE008

）。

4.根据前述权利要求之一所述的方法，其中所述技术系统具有非线性的动态特性。

5.根据前述权利要求之一所述的方法，其中在步骤b）中，所述回归神经网络使用非线性的激活函数。

6.根据前述权利要求之一所述的方法，其中步骤c）中的学习和/或优化方法是机器学习方法并且尤其是增强型学习方法。

7.根据权利要求6所述的方法，其中所述学习和/或优化方法包括动态编程和/或优先扫描和/或Q学习。

8.根据前述权利要求之一所述的方法，其中在步骤b）中，第二状态空间的第二维数改变，直到找到满足一个或多个预先给定的标准的第二维数。

9.根据权利要求8所述的方法，其中在步骤b）中，只要输出层（O）的利用回归神经网络确定的状态（r_t）与根据训练数据的已知状态的偏差小于预先确定的阈值，就逐步减小第二状态空间的第二维数。

10.根据前述权利要求之一所述的方法，其中评价信号（r_t）由评价函数来表示，所述评价函数取决于状态变量和/或动作变量的一部分。

11.根据前述权利要求之一所述的方法，其中步骤c）中的学习和/或优化方法使用评价信号（r_t）来关于最优评价信号（r_t）实施动作（a_t）。

12.根据前述权利要求之一所述的方法，其中所述技术系统（T）是涡轮机，尤其是燃气涡轮机或风力涡轮机。

13.根据前述权利要求之一所述的方法，其中所述技术系统（T）是燃气涡轮机，其中评价信号（r_t）至少由所述燃气涡轮机的效率和/或废物排放和/或所述燃气涡轮机的燃烧室的交变压力和/或机械载荷来确定。

14.根据前述权利要求之一所述的方法，其中所述技术系统是风力涡轮机，其中评价信号（r_t）至少由所述风力涡轮机的一个或多个转子叶片上的力载荷和/或交变载荷来确定。

15.具有存储在机器可读载体上的程序代码的计算机程序产品，所述程序代码用于在该程序在计算机上运行时执行根据前述权利要求之一所述的方法。