CN101573667A

CN101573667A - 用于对技术系统、尤其是燃气轮机进行计算机辅助的调节和/或控制的方法

Info

Publication number: CN101573667A
Application number: CNA2007800490916A
Authority: CN
Inventors: V·斯特津格; S·尤德卢夫特
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2007-01-02
Filing date: 2007-12-19
Publication date: 2009-11-04
Anticipated expiration: 2027-12-19
Also published as: WO2008080862A1; EP2108139A1; JP2010514986A; DE102007001024B4; JP5448841B2; EP2108139B1; DE502007004293D1; DE102007001024A1; US20100070098A1; ATE472757T1; US8099181B2; CN101573667B

Abstract

本发明涉及一种用于对技术系统进行计算机辅助的调节和/或控制的方法。在该方法中，首先建立该技术系统的仿真模型，紧接着将多种学习方法和/或优化方法应用于该仿真模型。根据这些方法的结果来选出最适合于该技术系统的方法。然后利用该选出的学习方法和/或优化方法来对该技术系统进行调节或控制。因此，通过本发明方法能够根据仿真模型来学习初始调节器，该初始调节器例如能够被用作学习完毕的调节器，该学习完毕的调节器在对该技术系统进行进一步的调节或控制时不被改变。

Description

用于对技术系统、尤其是燃气轮机进行计算机辅助的调节和/或控制的方法

技术领域

本发明涉及一种用于对技术系统、尤其是燃气轮机进行计算机辅助的调节和/或控制的方法以及一种相应的计算机程序产品。

背景技术

在控制复杂的技术系统时通常所期望的是，对要在该技术系统处执行的改变进行选择，使得获得该技术系统的所期望的有利的动态行为。但是，在复杂技术系统中通常不能容易地预测该动态行为，从而需要相应的计算机辅助的预测方法，以便估计该技术系统的未来行为并与之相应地选择合适的动作来调节或控制该技术系统。

通常，技术系统的状态不能容易地被测量，并由于系统行为的随机成分而只能从统计上加以描述。因此，在调节这样的技术系统时，通常不存在用于进行相应的调节的额定值或指令量，以及也不存在相应的目标量，在这些目标量的映射上能够训练相应的仿真模型(比如神经网络)。因为复杂技术系统的不同测量量与调节量之间的可能的相关性通常是不清楚的，所以只能困难地或通过对该技术系统的动态行为进行极长时间的观察来为该系统开发最佳的自动调节。

由现有技术公知了用于调节或控制并且用于优化技术系统的工作点的不同的方法。这些方法要么使用用于描述该技术系统的分析模型，要么基于该技术系统的过去的测量数据或基于以关于该系统的知识为基础的对该技术系统的建模，其中该建模例如借助于贝叶斯网络(Bayes-Netz)或模糊神经网络(Neuro-Fuzzy-Netzen)来实现。

所述公知的用于调节或控制技术系统的方法所具有的缺点是，所述方法为了对技术系统进行建模通常需要大量的测量数据，且事先也不清楚所述方法是否适于该被专门使用的技术系统。

发明内容

因此，本发明的任务是：提供一种用于对技术系统进行计算机辅助的调节和/或控制的方法，该方法使得能够根据少量的测量数据对该技术系统进行有效且准确的调节或控制。

该任务通过独立权利要求来解决。本发明的改进方案在从属权利要求中被限定。

在本发明方法中，在步骤a)中，基于该技术系统的所测量的、在时间上彼此相继的状态来建立该技术系统的仿真模型。紧接着，在步骤b)中，将多种学习方法和/或优化方法应用于所建立的仿真模型，其中所述学习方法和/或优化方法分别提供所学习的参数以及状态与分配给所述状态的动作的序列作为结果，且分配给状态的动作导致状态与动作序列中的新的状态。最后，根据所述多种学习方法和/或优化方法的结果，按照预先给定的标准从所述多种学习方法和/或优化方法中选出一种学习方法和/或优化方法，其中根据这些预先给定的标准，所选出的方法适于调节和/或控制该技术系统。最后，在步骤d)中利用所选出的学习方法和/或优化方法来调节和/或控制该技术系统，其中所述调节和/或控制根据该技术系统的状态来说明随后要在该技术系统处执行的动作。

利用本发明方法，根据少量测量数据就已经能够建立仿真模型，然后利用该仿真模型确定哪种学习方法或优化方法特别适于控制或调节该系统。因此，所述学习方法和/或优化方法不是直接在实际的技术系统处、而是事先在仿真模型处被选出和学习。以这种方式来保证在对该实际的技术系统进行实际调节或控制以前提取出特别适合的学习方法。因此，在对该技术系统进行实际的通常花费非常高的调节或控制时避免错误。在此，该方法非常灵活，并且尤其是能够以简单的方式通过在该方法的步骤b)中所考虑的新颖的学习方法或优化方法来补充。发明人也能够通过相应的实验来证明该方法非常好地适于调节或控制燃气轮机。

在此，本发明方法能够在步骤d)中使用不同类型的调节或控制。这些不同种类的调节或控制也能够相互组合。尤其是能够从一种调节类型变换为另一种。在一种实施方式中，在步骤d)中，利用所选出的学习方法基于在步骤b)中所学习的参数来调节或控制该技术系统，其中在对该技术系统进行调节或控制时不改变所学习的参数。以这种方式，提供一种初始调节器，该初始调节器在实际的技术系统处的整个调节或控制期间不被改变。因此，涉及一种学习完毕的调节器，该学习完毕的调节器在调节或控制期间对存储器需求或对计算机辅助方法的计算效率提出较低的要求。

在本发明方法的一种变型方案中，在步骤d)中，利用所选出的学习方法来调节和控制该技术系统，使得在该调节或控制开始时使用在步骤b)中所学习的参数，这些参数在该调节或控制期间借助于在进行该调节或控制时得出的新的状态和动作而被进一步学习。以这种方式，提供一种自适应调节器，该自适应调节器在该技术系统的实际运行中进行该调节或控制期间持续地被改善。

在本发明的另一变型方案中，也可能的是：利用所述学习方法和/或优化方法在步骤b)中所学习的参数被复位(即被设置为预先确定的预先给定的值)，并在调节或控制该技术系统时被重新学习。

在本发明方法的步骤a)中，可以以任意的方式来建立该仿真模型，且为此优选地使用递归神经网络，比如例如在参照图1的详细描述中所说明的递归神经网络。

在本发明方法的步骤c)中所述学习方法和/或优化方法的选出优选地根据评价来进行，所述评价由该仿真模型输出和/或依赖于相应的学习方法或优化方法的结果。在此，该评价优选地是该学习方法在评价函数(Bewertungsfunktion)或报酬函数(Belohnungsfunktion)方面的品质的度量。也就是说，在将相应的学习方法或优化方法应用于该仿真模型时根据该报酬函数的报酬越高，该学习方法或优化方法用于调节该技术系统的适宜性就被认为越好。

所述多种被应用于该仿真模型的学习方法或优化方法尤其是包括一种或多种强化学习方法(Reinforcement-Learning，还请参见文献[2])、尤其是基于表格的强化学习方法。例如，所述学习方法和/或优化方法可以包括自适应启发式批评算法、和/或Q学习算法、和/或优先扫除算法(Prioritized-Sweeping-Algorithmus)。这些算法由现有技术充分公知，因此在此不再赘述。

在本发明的另一特别优选的实施方式中，在所述多种学习方法或优化方法中也能够包含新颖的学习方法。该学习方法被构造为使得：

-利用递归神经网络借助于训练数据来对该技术系统的动态行为进行建模，所述训练数据包括利用该仿真模型所确定的在多个时刻的状态和动作，其中该递归神经网络由以下部分构成：至少一个输入层，所述至少一个输入层包括在所述多个时刻该技术系统的状态和在该技术系统处执行的动作；至少一个隐含递归层，所述至少一个隐含递归层包括隐含状态；和至少一个输出层，所述至少一个输出层包括该技术系统在所述多个时刻的状态；

-通过如下方式来学习动作选择规则：该递归神经网络针对当前和未来时刻与另一神经网络相耦合，所述另一神经网络包括：至少一个输入层、至少一个包括隐含状态的隐含层、和至少一个输出层，其中在相应时刻所述另一神经网络的输入层包括在该相应时刻该递归神经网络的隐含状态的至少一部分，且在该相应时刻所述另一神经网络的输出层包括在该相应时刻在该技术系统处执行的动作；

-由与所述另一神经网络相耦合的递归神经网络利用所学习的动作选择规则来确定该技术系统的状态和所分配的动作。

该新颖的学习方法的特征在于两个步骤，即基于递归神经网络借助于历史数据来学习该技术系统的动态特性，以及紧接着通过将该递归神经网络与另一神经网络相耦合来学习最佳调节。

在本发明方法中，该技术系统的状态通常是高维数的，也就是说，该状态由具有第一维数的第一状态空间中的多个状态变量来表征。优选地，被分配给该技术系统的状态的动作也分别由多个动作变量来表征。

在另一特别优选的实施方式中，相应的被分配给状态的动作由该技术系统的一个或多个调节量的改变来表征。在此，调节量是在对该技术系统进行调节期间的调节参数，其中所述调节量优选地也可以对应于该技术系统的状态变量。因此，状态的改变必要时也可以对应于调节量的改变。

在本发明的优选的变型方案中，在执行步骤b)之前，针对所述多种学习方法或优化方法中的学习方法或优化方法的至少一部分，执行所述状态的第一状态空间的最小化，这所具有的优点是：也能够采用通常只对低维数的状态空间起作用的学习方法。在此，第一状态空间的最小化如下进行：

利用包括输入层、递归隐含层和输出层的递归神经网络，借助于作为训练数据的已知状态来对第一状态空间的状态进行建模，其中：

i)所述输入层和输出层分别由多个时刻的所述第一状态空间中的状态构成，

ii)所述递归隐含层由隐含状态构成，所述隐含状态具有在具有第二维数的第二状态空间中的多个隐含状态变量，其中第二维数低于第一维数。

在进行了该最小化之后，然后在所述隐含状态的减小的第二状态空间中执行相应的学习方法或优化方法。

在本发明方法的另一扩展方案中，在步骤b)中，根据预先确定的标准来离散化该技术系统的状态和/或所分配的动作。通过相应的与该问题匹配的离散化能够实现：该技术系统的状态或动作只采用对于相应问题而言被认为可望成功的这种量。

在本发明的另一特别优选的实施方式中，为该技术系统的状态和/或所分配的动作确定或学习一个或多个值域，在步骤b)中在应用所述学习方法和/或优化方法的情况下所述状态和/或动作的值必须处于所述值域之内。以这种方式，提供对所述状态和动作的空间的合适的探查，使得不会选出被禁止的系统状态。这能够明确地通过参数选择中的界限来实现，或者该系统能够自己学会避免差的系统状态并找出对于该技术系统来说特定的、界限的位置。

在本发明的特别优选的实施方式中，在步骤b)中在将相应的学习方法和/或优化方法应用于该仿真模型的情况下通过惩罚信号(Bestrafungssignal)来学习所述值域，其中利用该学习方法和/或优化方法而确定的状态和/或动作与所测量的或所允许的状态和/或动作的偏差越大，惩罚信号就越大，其中所允许的状态或动作被事先定义，并表征该技术系统的优选值域。

本发明的特别优选的应用领域是涡轮机、更确切地说尤其是燃气轮机的控制。在此，该技术系统的状态和/或分配给这些状态的动作包括以下量中的一个或多个：

燃气轮机的总功率；燃气轮机中的或者燃气轮机的环境中的一个或多个压力和/或温度；燃气轮机中的燃烧室加速度；燃气轮机处的一个或多个调节参数、尤其是阀门调节和/或燃料比和/或进口导向叶片。

在步骤b)中被应用于该仿真模型的学习方法或优化方法例如可以包括低的燃烧室加速度作为学习目标或优化目标。

除了上述方法以外，本发明此外还涉及一种计算机程序产品，所述计算机程序产品具有存储在机器可读载体上的程序代码，用于当程序运行在计算机上时执行本发明方法。

附图说明

下面根据附图对本发明的实施例进行详细说明。

图1示出递归神经网络的示意图，该递归神经网络在本发明的实施方式中被用于建立该技术系统的仿真模型；

图2示出显示递归神经网络的示意图，该递归神经网络被用在能够根据本发明从多个学习方法和/或优化方法中选择的学习方法中；以及

图3示出通过图2的递归神经网络结合前馈网络来再现动作选择规则的学习的示意图。

具体实施方式

本发明方法的下面所说明的实施方式能够应用于任意的技术系统。但是下面的实施方式特别优选地被用于燃气轮机，其中该燃气轮机例如通过状态矢量来表示，该状态矢量包含以下十一个状态变量：

GtLstg＝燃气轮机功率

PrDFi＝在进气过滤器处的压力损失

VerdPr＝压缩机最终压力

VerdT＝压缩机最终温度

Schaufel＝进口导向叶片位置

DrVBr＝燃烧室中的压力损失

PilotG＝辅助气(Pilotgas)调节阀升程

GasDr＝气体压力

GasT＝气体温度

AbgasT＝废气温度

BkB＝燃烧室加速度

在特别优选的实施方式中，本发明方法被构造为使得学习目标或优化目标是变量BkB的尽可能小的值，该变量可等同于低的燃烧室加速度或低的轮机哼声(Brummen)。

在本发明方法中，该技术系统的状态变量在不同时刻的测量值被用作输入量。在本发明方法的步骤a)中，使用这些测量值以便以计算机辅助的方式来仿真该技术系统。在此，也可以使用任意的由现有技术公知的方法，以便建立该技术系统的相应的仿真模型。在此，神经网络被证明是特别适合的。

下面根据图1来说明基于递归神经网络的用于建立本发明方法的步骤a)中的仿真模型的方法。在此，该技术系统的状态分别由第一状态空间中的状态来表征，其中第一状态空间具有维数，该维数由在相应时刻t该技术系统的状态x_t的状态变量的数目来表征。在上述例子中燃气轮机是具有维数11的状态空间，因为存在11个状态变量。因此，状态x_t是具有技术系统的状态变量项的状态矢量，其中所述状态变量的值能够被测量。

图1中的网络包括输入层I，该输入层在所观察的时刻t由相应的状态x_t和过去的状态x_t-1、x_t-2、x_t-3等构成。该输入层的状态通过矩阵B而与隐含层H的隐含状态以及偏置(Bias)/阈值θ相耦合，其中在时刻t的状态x_t被分配隐含层H中的在同一时刻的相应的隐含状态s_t。在此，隐含层H是递归层，在该递归层中，隐含状态s_t是具有预先给定数目的隐含状态变量的状态矢量，由此根据该数目的隐含状态变量构成具有第二维数的状态空间。在时刻t的状态s_t通过矩阵A和偏置θ而与在下一时刻的状态s_t+1相耦合。层H的各个隐含状态s_t又与输出层O相联系，类似于输入层I，该输出层由该技术系统的状态x_t来表示。在此，在相应时刻t的隐含状态s_t通过矩阵C而与在下一时刻t+1的状态x_t+1相耦合。

利用包括该技术系统的所测量的状态的训练数据来训练图1中所示的递归神经网络，从而利用该网络来对相应技术系统的动态时间行为进行建模。在此，根据图1的递归网络是在考虑未来状态的情况下具有动态一致时间展开(dynamische konsistente zeitlicheEntfaltung)的网络，这在英语中被称为“Network with DynamicallyConsistent Overshooting(具有动态一致超调的网络)”。这意味着，在该网络中，在时刻t不仅考虑过去的状态x_t、x_t-1、…等，而且还考虑未来的状态x_t+1、x_t+2、…等，其中在输出层中该网络的自己的预测(即图1中状态x_t+1、x_t+2、x_t+3)又作为输入被用在该网络中。该递归神经网络尤其是利用17个过去的状态和8个未来的状态而被测试。在图1中，通过虚线表明输出层O的哪些状态与隐含层H的相应状态相耦合。因此，在根据图1的递归神经网络中，该系统的状态x_t自身被预测。以这种方式，能够对所基于的技术系统的动态特性进行建模。图1的网络在数学上由下列等式来表示：

s_τ＝tanh(As_τ-1+Bx_τ+θ)

x_τ+1＝Cs_τ

\underset{t}{Σ} \underset{τ}{Σ} {(x_{τ} - x_{τ}^{d})}^{2} &RightArrow; \min_{A, B, C, θ}

所述等式涉及在时刻t的该递归神经网络，其中在时刻t考虑时刻τ的值域，其中τ的值域包括时刻t以前的预先确定的m个时间步长和该时刻之后的预先确定的n个时刻(所谓的Overshooting Part(超调部分))。

在此，适用：

t∈{m，…，T-n}

其中T表示训练数据(即该技术系统的所测量的状态)存在的时刻的数目。

根据以上等式，矩阵A、B、C以及偏置θ作为该神经网络的参数被确定，其中这些参数被选择为使得通过该网络确定的状态x_τ与根据所述训练数据所测量的相应状态x_τd之间的平方误差最小。因此，由此得出该技术系统的仿真模型，所述仿真模型接下来能够被用于执行本发明方法的另外的步骤b)至d)。

在本发明方法的步骤b)中，所建立的仿真模型被使用以便将多种学习方法和/或优化方法应用于该模型。可选地，可以在执行步骤b)之前使用用于所谓的状态空间最小化的方法，在该方法中，状态矢量的状态变量的数目被减小。这所具有的优点是，应用于该仿真模型的学习方法和/或优化方法的数目被明显提高，因为许多已知的学习方法和/或优化方法只能用在具有有限维数的状态空间中。为了状态空间最小化，同样可以使用图1中所示的递归神经网络。但是，输入层的变量从现在起不再是该技术系统的所测量的状态，而是利用该仿真模型被仿真的状态。为了状态空间最小化，从现在起在隐含层H中选择其维数比输入层I的状态矢量的维数小的隐含状态矢量s_τ。在此，该维数被选择，使得该维数尽可能小，但是仍足够好地仿真该技术系统。这可以通过输入层I的状态矢量与输出层O的输入矢量(Zugangsvektor)之间的偏差来确定。该状态空间最小化提供隐含状态变量的新的状态空间作为结果，所述新的状态空间具有相对于原状态空间减小的维数。然后，一种或多种根据本发明方法的步骤b)的学习方法和/或优化方法能够应用于该减小的状态空间。如已经提到的那样，该状态空间最小化的步骤是可选的，且必要时也可以被省略。此外，该状态空间最小化可以只应用于在步骤b)中所使用的学习方法和/或优化方法的一部分。

在本发明方法的步骤b)中，可以使用任意类型的学习方法和/或优化方法，尤其是还可以使用由现有技术公知的学习方法和/或优化方法，比如自适应启发式批评算法、Q学习算法、或优先扫除算法。接下来对多种学习方法中的、但是仍未从现有技术中公知的可能的学习方法加以说明。在此涉及一种学习方法，在该学习方法中，递归神经网络与前馈网络相组合。下面根据图2和图3来说明该方法。

下述学习方法基于以状态空间X为基础以及以动作空间A为基础的该技术系统的描述，其中所述状态空间X包括利用该仿真模型所仿真的状态x_t，所述动作空间A表示根据状态x_t而要执行的动作a_t。在此，动作a_t优选地为具有多个项的矢量，其中每个项代表在该技术系统处的调节量的改变。

出发点是：该技术系统能够利用具有随机转移函数P的马尔可夫决策过程MDP(MDP＝Markov Decision Process)来描述。针对该过程存在报酬函数或价值函数c：X×A→R，其中R是该系统为了选择动作a_t在状态x_t中获得的报酬的空间。从现在起目标是：确定最佳的规则П：X→A，该规则为每个状态x_t最大化所期望的累加的或平均的报酬函数c。在此，报酬函数c的最大化对应于如在权利要求10中定义的、动作选择规则的可能的扩展方案。该报酬函数尤其是被确定为使得该报酬函数反映该技术系统的所期望的特性，其中如果该函数最大，则达到最佳状态。在最简单的情况下，该价值函数例如是该技术系统的所期望的有利的状态，如果该状态具有最大值，那么该状态为最佳的。下面，出发点是：该技术系统是具有离散的时间步长的确定性的马尔可夫决策过程，其中状态空间X和A是连续的。

在接下来所述的实施方式中，利用递归神经网络RNN来对马尔可夫决策过程进行建模，由此通过高维非线性系统方程对该技术系统的动态行为的映射(即传递函数P(·))进行映射。在此，在本发明的这里所述的变型方案中所使用的递归神经网络RNN在图2中示出。该递归神经网络包括输入层I，该输入层I示出在各个时刻的状态和动作。在图2中示例性地再现了状态x_t-1、x_t以及动作a_t-1、a_t、a_t+1。该输入层通过相应的矩阵B和D与隐含层H相耦合，这些矩阵随后还要进一步被定义。该隐含层具有每个时刻的隐含状态，其中在图1中示例性地再现了状态p_t-1、s_t-1、p_t、s_t、p_t+1和s_t+1。在此，隐含层H是递归的，因为各个隐含状态相互耦合，这在图2中通过相应的矩阵I(对应于单位矩阵)和A以及偏置θ来再现。此外，图2的递归神经网络具有输出层O，该输出层O由该技术系统的状态构成，其中在图2中再现了状态x_t、x_t+1和x_t+2。在此，这些状态分别通过矩阵C与隐含状态s_t-1、s_t和s_t+1相耦合。

类似于图1的网络，根据图2的神经网络是在考虑未来状态的情况下具有动态一致时间展开的网络(“Neural Network withDynamically Consistent Overshooting”)。这意味着，在对该神经网络进行建模时，不仅考虑过去的时刻τ，而且还考虑未来的时刻τ，并且在输出层中该网络的自己的预测状态作为未来状态的输入被用在该输入层中。参数τ受先前展开(zurückliegend Entfaltung)的长度m和所谓的超调(Overshooting)的长度n限制，因此对所有所观察的时刻t∈{m，…，T-n}适用：

t∈{t-m，…，t+n}，

其中T表示可供使用的时刻的数目，对于这些时刻存在用于学习该神经网络的训练数据。从图2中通过如下方式得出该超调：该神经网络在对该技术系统进行建模时也考虑未来的时刻τ＞t。因为这些未来的时刻不是已知的，所以通过该网络在该输出层中输出的状态也被再次用作下个时间步长的输入。这在图2中针对时刻t+1被示出，在该时刻，输出的状态x_t+1又被输送给隐含层H的隐含状态p_t+1。

因此，在本发明的这里所述的实施方式中，提供在该递归神经网络的输入侧的状态x_τ与动作a_τ的序列，其中该网络在时间上以考虑到过去和未来的预先给定的间隔展开。图1的递归神经网络能够在数学上通过如下等式来描述，其中在所述等式中包含了上面提到的矩阵I、A、B、C、D以及偏置θ：

s_τ＝tanh(Ip_τ+Da_τ+θ)

x_τ+1＝Cs_τ

其中：p_τ＝As_τ-1+Bx_τ

在此，状态p_τ被称为前状态(

-Zustand)，所述前状态聚合前一隐含状态s_τ-1的信息和外部状态x_τ的信息。在此，该隐含层中的非线性用双曲正切(Tangens Hyperbolicus)来表达。前状态p_τ具有与隐含状态s_τ相同的维数，且通过单位矩阵I与该隐含状态s_τ相联系，该单位矩阵I在训练该神经网络期间未被学习。隐含状态s_τ具有动作a_τ作为输入，并被用于计算该技术系统的下一期望状态x_τ+1。矩阵D是具有适当维数的附加的矩阵，该矩阵D考虑动作a_τ对状态s_τ的影响。动作a_τ也作为未来的输入(τ＞t)被提供给神经网络RNN，因为动作a_τ并不直接影响该技术系统的动态特性，所以不应被该网络学习。为了在该技术系统的状态空间X中覆盖多个可能的状态，应该利用训练数据来对用于对该技术系统进行建模的该递归神经网络进行建模，在所述训练数据中，动作a_τ被随机选择。否则，所学习的动态特性有可能依赖于确定的规则。在此，借助于在步骤a)中建立的仿真模型来确定所述训练数据。

从现在起目标是：将图2的利用训练数据所学习的神经网络与用于学习上述最佳规则П的强化学习(Reinforcement Learning)相组合。这通过如下方式来实现：图2的递归神经网络与另一所谓的控制网络相组合，由此在该神经网络中执行上述报酬函数c。

在这里所述的实施方式中，该附加的控制网络是三层神经前馈网络，其具有输入层、隐含层和输出层。即使可能存在另外的更复杂的拓扑，也可以利用这里所述的模型对每个任意类型的控制功能进行建模。因为应当预测最佳动作a_τ，所以该控制网络只针对未来的时刻(即τ＞t)与该递归神经网络相耦合。针对过去的时间展开(即τ＞t)，在该递归神经网络中使用以前被输送的动作。

图3示出与另一前馈网络相耦合的递归神经网络，该递归神经网络随后也被称为RCNN(RCNN＝Recurrent Control Neural Network(递归控制神经网络))。在此，该网络的与前馈控制网络有关的部分以虚线示出。该控制网络将与具有相应状态r_t、r_t+1等的隐含层R相耦合的隐含状态p_t、p_t+1、…等用作输入层。在此，隐含状态r_τ通过矩阵E以及偏置b与状态p_τ相耦合，也就是说，适用：

r_τ＝tanh(Ep_τ+b)

此外，隐含状态r_τ通过矩阵F与要建模的未来动作a_τ相耦合。另外，存在矩阵G，该矩阵G将未来状态x_t+1、x_t+2等与状态R_t+1、R_t+2等相耦合，其中后者是对于计算规则来说相关的状态。

神经网络RCNN必须完成两个不同的任务。一方面，它必须识别所基于的技术系统的动态特性，而另一方面，它必须借助于相应的动作选择规则或报酬规则来实现对该技术系统的最佳控制。因此，该网络在两个彼此相继的步骤中被训练：第一步骤，用于利用训练数据来学习该递归神经网络；和第二步骤，用于通过将该递归神经网络与前馈网络相耦合来学习报酬规则。该方法与常规的方法不同，在常规的方法中，在一个步骤中尝试两个任务的组合的学习。

在上述第一步骤中，首先对所基于的马尔可夫决策过程的动态特性进行建模，该马尔可夫决策过程对应于技术系统的动态行为。所以，网络RCNN被缩减为在考虑未来状态的情况下具有动态一致时间展开的递归神经网络RNN。第一步骤在数学上由如下等式来表示：

s_τ＝tanh(Ip_τ+Da_τ+θ)(1)

x_τ+1＝Cs_τ(2)

其中：p_τ＝As_τ-1+Bx_τ(3)

\underset{t}{Σ} \underset{τ}{Σ} {(x_{τ} - x_{τ}^{d})}^{2} &RightArrow; \min_{A, B, C, D, θ} - - - (4)

在此，最后的等式描述该训练的任务，在该训练中应当实现：由递归神经网络RNN确定的状态x_τ尽可能好地与所述训练数据的状态x_τ ^d相一致。在此，进行关于矩阵A、B、C和D和偏置θ的平方误差的最小化，矩阵A、B、C和D和偏置θ描述该递归神经网络的要确定的参数。

在对该技术系统的动态特性进行建模的第一步骤之后，在该步骤中确定的矩阵A、B、C和D以及偏置θ被固定，也就是说，它们的权重在进一步训练期间不变。从现在起，矩阵E和F以及偏置b被激活，它们在图3中被示出。这些是在学习动作选择规则的第二步骤期间仅有的参数。在该学习步骤中，该递归神经网络不是获得未来的动作作为外部输入，而是这些动作利用该前馈网络在考虑该报酬函数的情况下被学习。另外，针对过去的时间步长τ＜t省略输出群(Ausgabecluster)x_τ，因为只在第一步骤中为了对动态特性进行建模而需要它们。对于该网络的未来的时间步长τ＞t，根据等式(4)的误差函数被下面在等式(9)中所述的报酬函数或价值函数c(·)替代。在该体系结构中，这通过附加的报酬群R_τ来实现，所述报酬群R_τ通过问题特定的固定的矩阵G以及输出群X_τ之内的可能的激活函数h与所述输出群相联系，其中所述矩阵G依赖于上面提到的报酬函数c(·)。因此，在该神经体系结构之内通过网络RCNN对报酬函数c(·)进行编码。这意味着，报酬群R_τ不仅必须基于输出群x_τ来计算，而且报酬群R_τ还能够更一般地被描述，由此也能够实现更复杂的网络体系结构。例如，可以明确地学习该报酬函数，这尤其是在c(·)为未知的或者仅被不完整地指定时是有益的。这可以通过另一附加的、将RCNN的输出作为输入的三层神经网络来实现。

该前馈网络的权重只根据报酬群R_τ(τ＞t)的被反向传播的报酬来适配。这所对应的思想是：学习该动作选择规则的第二步骤并不用于识别动态特性，而是只用于学习将报酬最大化的规则，其中该系统的动态特性已经事先被建模。

学习该动作选择规则的第二步骤可以通过以下等式(5)至(9)在数学上再现。在此，矩阵E和F以及偏置b被学习。等式(5)至(9)如下：

s_τ＝tanh(Ip_τ+Da_τ+θ)(5)

对于所有的τ＞t：R_τ+1＝Gh(Cs_τ)(6)

其中：p_τ＝As_τ-1+Bx_τ(7)

以及对于所有τ＞t：a_τ＝f(Ftanh(Ep_τ+b))(8)

\underset{t}{Σ} \underset{τ > t}{Σ} c (R_{τ}) &RightArrow; \min_{E, F, b} - - - (9)

既在根据等式(1)至(4)对该技术系统的动态特性进行建模的情况下，又在根据(5)至(9)学习动作选择规则的情况下，利用相同的训练模式T并利用根据文献[1]的由现有技术充分公知的反向传播方法(Backpropagation-Verfahren)来训练该递归神经网络。在此，每个训练模式T都对应于一个时刻，向该时刻分配该技术系统的状态和在该时刻所执行的动作形式的相应训练数据。在此，学习该动作选择规则的步骤可以被看作报酬函数c(·)的误差的反向传播。

该递归神经控制网络RCNN的前面所述的实施方式理想地将用于识别所述动态特性的在考虑未来状态的情况下具有动态一致时间展开的递归神经网络RNN的优点与用于学习该动作选择规则的三层神经控制网络相结合。以这种方式达到高的近似精度，而且也能够以数据效率非常高的方式来控制复杂的动态系统。此外，能够以简单方式将该系统缩放到更高维数，并能够由该技术系统的状态重建只部分可观察的环境。另外，利用该网络能够非常好地处理连续的状态空间和动作空间。

前面说明了学习方法的一种变型方案，该学习方法是多种学习方法中的学习方法之一，该变型方案在本发明方法的步骤b)中被应用于所建立的仿真模型。至少还有另外一种学习方法被应用于所建立的仿真模型，其中该学习方法可以是任意的、例如由现有技术公知的方法，比如基于表格的强化学习方法。

在本发明方法的步骤c)中，从现在起根据预先给定的标准从所使用的学习方法或优化方法中选出合适的方法。所述预先给定的标准例如是各学习方法中的相应的报酬函数、尤其是那里所述的学习方法的根据等式(9)的累加价值函数的最小值。在步骤c)中，具有这种累加价值函数的最小的最小值的学习方法被识别为最合适的学习方法。所述预先给定的标准例如也可以被确定为使得基于在步骤b)中学习的学习方法来执行多个动作，并紧接着评价哪种学习方法导致了对所有被执行的动作进行平均的最小平均报酬。

在选出最合适的学习方法之后，最后在步骤d)中利用该选出的学习方法或优化方法来调节或控制实际的技术系统。在此，该学习方法或优化方法在该技术系统的预先给定的状态的情况下提供随后要在该技术系统处执行的动作，该动作导致新的状态，然后又能够利用该学习方法或优化方法针对该新的状态确定下一个要执行的动作。

在此，存在调节或控制的不同变型方案。例如可以将在步骤c)中被选出的学习方法或优化方法作为初始调节器来学习。也就是说，根据该仿真模型借助于所选出的学习方法或优化方法所学习的参数从一开始就在对该技术系统进行调节时被使用。替代地，也可能的是：所选出的学习方法或优化方法的所学习的参数被复位，并紧接着在实际的技术系统处从一开始就重新学习该选出的学习方法或优化方法。同样可以在对实际的技术系统进行调节和/或控制期间从已经学习的参数出发继续学习过程，并根据该实际的技术系统进一步改善所述参数。同样可能的是：在对实际的技术系统进行控制期间不再改变所述参数。

因此，本发明方法的学习过程的结果一方面可以是学习完毕的调节器，该学习完毕的调节器此后不再被改变，因此在存储器需求和计算效率方面提出比在该学习过程期间低得多的要求。另一方面，该结果也可以是调节器，该调节器通过持久的学习而不断地被进一步改善，或者通过持久的学习与该过程的改变或目标的改变相匹配。在此，该过程的改变可以是老化效应、季节影响或者在该燃气轮机的例子中可以是气体质量或气体成分的缓慢改变。各个过程成本或过程收益(

)的变化能够引起目标的改变，例如在燃气轮机的情况下与所产生的电流的收益相比排放成本被提高。

本发明方法具有一系列的优点。通过由机械的(maschinell)学习方法(例如强化学习方法)对技术系统的调节进行优化，不再需要手动地调节该技术系统。这所具有的优点是，该方法也能够解决对人类理解力而言只在某种条件下才能够理解的非常复杂的、高维数的并且尤其是随机的过程。另外，对合适的学习方法或优化方法的选择自主地在仿真模型上进行，并因此与比在实际的技术系统处的学习显著更小的花费相联系。在此，在优选的实施方式中，为在学习期间利用该学习方法或优化方法所接受的状态或动作确定或学习所允许的值域。处于该值域以外的状态或动作是禁止的系统状态。这例如能够在学习时通过相应的惩罚信号来加以考虑。以这种方式来保证对状态空间进行有针对性的探查，这有助于针对要解决的任务来优化数据库，在该数据库上事先学习调节方法。通过在调节或控制实际的技术系统时使用已经学习的参数来保证该方法的快速可使用性和可靠的运行。通过使用专门的方法(比如上述的对状态空间的最小化或者利用上述的神经网络RCNN的直接神经建模)也能够实现复杂技术系统的调节或控制(比如燃气轮机调节)。

参考文献目录：

[1]D.E.Rumelhart，G.E.Hinton，and R.J.Williams，“Learning internal representations by errorpropagation”，in Parallel Distributed Processing：Explorations in The Microstructure of Cognition，D.E.Rumelhart and J.L.M.et al.，Eds.Cambridge：MIT Press，1986年，卷1，第318-362页

[2]Leslie Pack Kaelbling；Michael L.Littman；Andrew W.Moore，Reinforcement Learning：A Survey，Journal ofArtificial Intelligence Research 4(1996)第237-285页

Claims

1.一种用于对技术系统、尤其是燃气轮机进行计算机辅助的调节和/或控制的方法，其中：

a)基于该技术系统的已知的、在时间上彼此相继的状态(x_t)来建立该技术系统的仿真模型；

b)将多种学习方法和/或优化方法应用于该仿真模型，其中所述学习方法和/或优化方法分别提供所学习的参数以及状态(x_t)与分配给所述状态(x_t)的动作(a_t)的序列作为结果，且分配给状态(x_t)的动作(a_t)导致所述序列中的新的状态(x_t+1)；

c)根据所述多种学习方法和/或优化方法的结果，按照预先给定的标准，从所述多种学习方法和/或优化方法中选出适于调节和/或控制该技术系统的学习方法和/或优化方法；

d)利用所选出的学习方法和/或优化方法来调节和/或控制该技术系统，其中所述调节和/或控制根据该技术系统的状态(x_t)来说明随后要在该技术系统处执行的动作(a_t)。

2.根据权利要求1所述的方法，其中，在步骤d)中，利用所选出的学习方法基于在步骤b)中所学习的参数来调节和/或控制该技术系统，其中在对该技术系统进行调节和/或控制的情况下不改变所学习的参数。

3.根据权利要求1或2所述的方法，其中，在步骤d)中，利用所选出的学习方法来调节和/或控制该技术系统，使得在该调节或控制开始时使用在步骤b)中所学习的参数，这些参数在该调节和/或控制期间借助于在进行该调节和/或控制的情况下得出的新的状态(x_t)和动作(a_t)被进一步学习。

4.根据权利要求1至3之一所述的方法，其中，在步骤d)中，利用所述学习方法和/或优化方法在步骤b)中所学习的参数被复位，并在调节和/或控制该技术系统的情况下被重新学习。

5.根据前述权利要求之一所述的方法，其中，在步骤a)中，基于递归神经网络来建立所使用的仿真模型。

6.根据前述权利要求之一所述的方法，其中，在步骤c)中，根据对所述学习方法和/或优化方法中的每一种的评价来进行学习方法和/或优化方法的选出，其中该评价由该仿真模型输出和/或通过相应的学习方法和/或优化方法的结果而被确定。

7.根据权利要求6所述的方法，其中，该评价是该学习方法和/或优化方法在评价或报酬函数方面的品质的度量。

8.根据前述权利要求之一所述的方法，其中，所述多种被应用于该仿真模型的学习方法和/或优化方法包括一种或多种强化学习方法、尤其是基于表格的强化学习方法。

9.根据前述权利要求之一所述的方法，其中，所述多种被应用于该仿真模型的学习方法和/或优化方法包括：自适应启发式批评算法、和/或Q学习算法、和/或优先扫除算法。

10.根据权利要求8、或者根据权利要求8和9所述的方法，其中，该强化学习方法或者所述强化学习方法之一被构造为使得：

-利用递归神经网络借助于训练数据来对该技术系统的动态行为进行建模，所述训练数据包括利用该仿真模型确定的在多个时刻(t)的状态(x_t)和动作(a_t)，其中该递归神经网络由以下部分构成：至少一个输入层(I)，该至少一个输入层包括在所述多个时刻(t)该技术系统的状态(x_t)和在该技术系统处执行的动作(a_t)；至少一个隐含递归层(H)，该至少一个隐含递归层包括隐含状态(s_t，p_t)；和至少一个输出层(O)，该至少一个输出层包括该技术系统在所述多个时刻(t)的状态(x_t)；

-通过如下方式来学习动作选择规则：当前和未来时刻(t)的该递归神经网络与另一神经网络相耦合，所述另一神经网络包括：至少一个输入层(H)、至少一个包括隐含状态(r_t)的隐含层(R)、和至少一个输出层(O′)，其中在相应时刻(t)所述另一神经网络的输入层(H)包括在该相应时刻(t)所述递归神经网络的隐含状态(p_t)的至少一部分，且在该相应时刻所述另一神经网络的输出层(O′)包括在该相应时刻在该技术系统处执行的动作(a_t)；

-由与所述另一神经网络相耦合的所述递归神经网络利用所学习的动作选择规则来确定该技术系统的状态(x_t)和所分配的动作(a_t)。

11.根据前述权利要求之一所述的方法，其中，该技术系统的相应的状态(x_t)由具有第一维数的第一状态空间中的多个状态变量来表征，和/或被分配给状态(x_t)的相应的动作(a_t)由多个动作变量来表征。

12.根据前述权利要求之一所述的方法，其中，被分配给状态(x_t)的相应的动作(a_t)由该技术系统的一个或多个调节量的改变来表征，其中所述调节量的至少一部分优选地对应于该技术系统的状态(x_t)。

13.根据权利要求11、或者根据权利要求11和12所述的方法，其中：

-在执行步骤b)之前，针对所述多种学习方法和/或优化方法中的学习方法和/或优化方法的至少一部分分别如下执行第一状态空间的最小化：

利用包括输入层(I)、递归隐含层(H)和输出层(O)的递归神经网络，借助于利用该仿真模型所确定的作为训练数据的状态来对第一状态空间的状态(x_t)进行建模，其中：

i)所述输入层(I)和输出层(O)分别由所述多个时刻(t)的第一状态空间中的状态(x_t)构成；

ii)所述递归隐含层(H)由隐含状态(s_t)构成，所述隐含状态(s_t)具有在具有第二维数的第二状态空间中的多个隐含状态变量，其中第二维数低于第一维数；

-在第二状态空间中的隐含状态(s_t)上根据步骤b)来执行所述学习方法和/或优化方法的至少一部分的相应学习方法和/或优化方法。

14.根据前述权利要求之一所述的方法，其中，在步骤b)中，根据预先确定的标准来使状态(x_t)和/或动作(a_t)离散化。

15.根据前述权利要求之一所述的方法，其中，为该技术系统的状态(x_t)和/或所分配的动作(a_t)确定或学习一个或多个值域，在步骤b)中在应用所述学习方法和/或优化方法的情况下所述状态(x_t)和/或动作(a_t)的值必须处于所述值域之内。

16.根据权利要求15所述的方法，其中，在步骤b)中在将相应的学习方法和/或优化方法应用于该仿真模型的情况下，通过惩罚信号来学习所述值域，其中利用该学习方法和/或优化方法而被确定的状态(x_t)和/或动作(a_t)与所测量的或所允许的状态(x_t)和/或动作(a_t)的偏差越大，惩罚信号就越大。

17.根据前述权利要求之一所述的方法，其中，利用该方法来调节和/或控制燃气轮机，其中该技术系统的状态和/或分配给这些状态(x_t)的动作(a_t)包括以下量中的一个或多个：

该燃气轮机的总功率；该燃气轮机中或者该燃气轮机的环境中的一个或多个压力和/或温度；该燃气轮机中的燃烧室加速度；该燃气轮机处的一个或多个调节参数、尤其是阀门调节和/或燃料比和/或进口导向叶片。

18.根据权利要求17所述的方法，其中，在步骤b)中被应用于该仿真模型的多种学习方法和/或优化方法包括低的燃烧室加速度作为学习目标和/或优化目标。

19.一种计算机程序产品，所述计算机程序产品具有存储在机器可读载体上的、用于当程序运行在计算机上时执行根据前述权利要求之一的方法的程序代码。