CN101566829B

CN101566829B - 针对技术系统的计算机辅助的开环和/或闭环控制的方法

Info

Publication number: CN101566829B
Application number: CN200910132162XA
Authority: CN
Inventors: A·M·沙弗; V·斯特津格; S·尤德卢夫特
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2008-04-23
Filing date: 2009-04-23
Publication date: 2013-06-19
Anticipated expiration: 2029-04-23
Also published as: US8160978B2; EP2112568B1; US20090271344A1; EP2112568A2; CN101566829A; EP2112568A3; DE102008020379A1

Abstract

本发明涉及一种针对技术系统的计算机辅助的开环和/或闭环控制的方法，特征在于两个步骤：基于递归神经网络借助历史数据进行技术系统的动态特性的学习以及通过使递归神经网络与另一神经网络耦合进行的最优控制的学习。根据本发明的方法使用具有特殊隐含层的递归神经网络，该隐含层在各时间点包括第一隐含状态和第二隐含状态。第一隐含状态通过待学习的矩阵与第二隐含状态耦合。通过使第一隐含状态的维度选择为小于第二隐含状态的维度或反过来形成瓶颈结构。由此在网络学习时更多考虑技术系统的本质的自主的动态特性并改善网络的逼近能力。本发明有广泛的技术应用领域并尤其应用于任意技术系统，以计算机辅助地最优控制系统。应用领域例如是控制燃气轮机。

Description

针对技术系统的计算机辅助的开环和/或闭环控制的方法

技术领域

本发明涉及一种针对技术系统的计算机辅助的开环和/或闭环控制的方法及其相应的计算机程序产品。

背景技术

在控制复杂的技术系统时，通常期望这样选择在技术系统上所执行的动作，使技术系统获得有利的期待的动态特性。然而对于复杂的技术系统而言，动态行为通常不能简单地预报，因此需要相应的计算机辅助的预报方法，以评估技术系统将来的行为并选择对技术系统进行闭环或开环控制的相应合适的动作。

如今技术系统的控制通常依靠专家知识，也就是说系统的自动控制是在专家知识的基础上建立起来的。然而也已知这样的构思，即借助所谓强化学习(Reinforcement Learning，见文献[2])的已知方法来控制技术系统。然而已知的方法不是对任意技术系统都是通用的，并且通常不能取得足够好的结果。

由德国专利申请DE 10 2007 001 025.9已知一种针对技术系统的计算机辅助的开环或闭环控制的方法，其中借助神经网络计算机辅助地学得了最优的动作选择规则。由此，借助递归神经网络对技术系统的动态特性建模，此递归神经网络又与另一前馈网络相耦合，通过该前馈网络来学习动作选择规则。

本发明内容

本发明的任务是，提供一种计算机辅助地预报技术系统的动态行为的方法，此方法能够普遍有效用于任意的技术系统，并且获得良好的结果。

在根据本发明的方法中，针对多个时间点分别通过技术系统的状态和在技术系统上所执行的动作来获取关于技术系统的动态行为的信息，其中各动作在各时间点引起技术系统在下一时间点的新的状态。技术系统在此可以是任意地构造的，从而所述状态可以是技术系统的任意的可测量的参数。在此所述动作可以是本来意义上的动作，也就是说，在技术系统上所执行的变化。然而，动作也能够通过技术系统的可调整的参数或控制变量来表示，其中动作代表了控制变量或参数的相应值。由此动作可以包括没有变化的控制变量。

技术系统的状态优选通过大量环境变量或状态变量来表征，其中每个状态变量都代表了技术系统的特定的测量值。所述状态因此通常是一种状态矢量。类似地，所述动作包括可能的多个待改变的控制变量，这些控制变量分别形成相应动作矢量中的一项。

在根据本发明的方法中，在第一步骤中，技术系统的动态行为通过递归神经网络借助包括了在多个时间点已知的状态和动作的训练数据来建模。在此所述递归神经网络通过至少一个包括了技术系统的状态和在多个时间点在技术系统上所执行的动作的输入层、至少一个包括隐含状态的隐含递归层以及至少一个包括技术系统在多个时间点的状态的输出层来形成。在这里，所述在神经网络中的递归通过系统的时间进展而发生，这通过隐含状态在不同时间点的耦合反映在隐含层中。

根据本发明的递归神经网络示出了在德国专利申请DE 10 2007 001025.9中描述的网络的改进方案。改进方案在于，递归神经网络的隐含层的隐含状态在各时间点包括第一隐含状态和第二隐含状态，其中技术系统的状态在各时间点自输入层起与所述第一隐含状态关联，并且所述动作在各时间点自输入层起与所述第二隐含状态关联。所述在各时间点的第一隐含状态此外与所述在各时间点的第二隐含状态通过矩阵耦合，此矩阵在对技术系统的动态行为建模时学习。在此矩阵的概念有宽泛的定义，并且必要时也可以包括标量(即1×1矩阵)。以此方式，技术系统的动态特性通过考虑了在相同时间点时隐含状态之间的相应矩阵而得到了更好的学习，好于德国专利申请DE 10 2007 001 025.9的方法。在DE 10 2007 001 025.9中，隐含状态在相同时间点通过恒等矩阵相互耦合。

接着在根据本发明方法的第二步骤中学习动作选择规则。上述学习在这里如此实现，即所述在第一步骤中通过训练数据被训练的递归神经网络对于当前和将来的时间点与另一神经网络耦合来学习动作选择规则，其中所述另一神经网络包括至少一个输入层、至少一个包括隐含状态的隐含层以及至少一个输出层。其中所述另一神经网络的输入层在各时间点包括在各时间点时所述递归神经网络的隐含状态的至少一部分，并且所述另一神经网络的输出层在各时间点包括在各时间点在技术系统上所执行的动作和/或在技术系统上执行的动作相对于时间上之前的动作的变化。如果所述动作是指本来意义上的动作，即通过执行动作引起技术系统的参数变化，则所述输出层包括在技术系统上所执行的动作本身。然而，如果所述动作通过技术系统的控制变量或者参数本身来表示，则所述输出层包括该动作(即控制变量)相对于时间上在前的动作(即在时间上先前的控制变量)的变化。

根据本发明，所述另一神经网络针对将来的动作，在考虑了在第一步骤中执行的技术系统的动态特性建模的情况下，承担了技术系统的最优控制的任务。

接着在根据本发明的方法中，通过与所述另一神经网络相耦合的并由该另一神经网络相学得了的动作选择规则的递归神经网络来确定技术系统的状态和/或在技术系统上执行的、优选最优的动作。在求出的状态或者动作的基础上，技术系统于是能够相应地闭环或开环控制。业已表明，这种网络体系结构能够数据高效地实现对技术系统的动态特性的学习。这种数据高效性具有有大意义，因为在大多技术系统中，可使用的或者重要的数据资料是非常有限的。

在根据本发明的方法的优选实施方式中，所述递归神经网络的隐含递归层的第一隐含状态分别包括第一数量的变量，并且隐含递归层的第二隐含状态包括第二数量的变量，其中所述第一数量与第二数量不同。尤其是第一数量小于第二数量，或者反过来。以此方式，产生一种瓶颈结构(英语：bottleneck)，通过该瓶颈结构，所述递归神经网络的学习能够集中在动态特性的本质的自主的结构上。这样就改善了技术系统的建模，这又进一步改善了通过所述另一神经网络进行的动作选择规则的学习。

类似于所述隐含状态，技术系统的状态和动作优选也包括多个变量。同样所述另一神经网络的隐含状态优选由多个隐含变量组成。在此，尤其是所述递归神经网络和/或所述另一神经网络的隐含状态的隐含变量的数量小于技术系统的状态的环境变量的数量。隐含状态的数量在此优选如此选择，即使得所述方法一方面是数据高效的，另一方面也取得良好的结果。

如上所述，动作也可以通过控制变量来表示，从而动作也可能包含没有变化的控制变量。替代地或者附加地，也可以设有多个离散的在技术系统上可执行的动作，其中所述另一神经网络的输出层在各时间点至少部分地包括所述在技术系统上执行的离散的动作，而不是所述动作的变化。

以一种特别优选的实施方式中，其中动作至少部分地通过控制变量来表示，在此所述在各时间点所执行的动作相对于时间上在前的动作的变化在所述另一神经网络的输出层中通过耦合矩阵与在各时间点在所述递归神经网络的输入层中的动作相耦合。这个矩阵也可能是标量(1×1矩阵)。借助这种耦合矩阵，能够实现对所述动作的可能值进行标定或限制，由此使动作选择规则的学习能根据技术系统尽可能高效地匹配，从而通过耦合矩阵仅能实现那些在技术系统中可能的或者有意义的动作。在此优选，动作在各时间点在所述递归神经网络的输入层中通过单位矩阵与时间上在前的动作相耦合。

在根据本发明的方法的其他改进方案中，所述另一神经网络的输入层在各时间点包括在各时间点时所述递归神经网络的第一隐含状态。在这种实施方式中，所述第二隐含状态不与所述另一神经网络相耦合。

在优选的实施方式中，所述动作选择规则根据评价函数来学习，其考虑到一个或者多个针对技术系统的状态的标准和/或在技术系统上所执行的动作，和/或其在对技术系统的动态特性建模的步骤中被学习。

在特别优选的实施方式中，使用前馈网络作为根据本发明的方法中的所述另一神经网络，在前馈神经网络下，在此所述隐含层的神经元在时间上不反馈。

在本发明的一种变型方案中，评价函数如此选择，即其使技术系统的最优的动态行为参数化。以此方式，通过相应选择评价函数就实现了技术系统的最优控制。在此评价函数例如可以通过待优化的价值函数来表示。

在一种优选的实施方式中，在根据本发明方法的第一步骤中通过所述递归神经网络对技术系统的动态行为建模时，将在通过所述递归神经网络确定出的状态和训练数据的状态之间的误差最小化。

在特别优选的实施方式中，根据本发明的方法被用于通过本方法对技术系统的非线性的动态行为进行建模，和/或用于学习非线性的动作选择规则。

在根据本发明方法的其他方案中，为了在本方法的第一步骤中通过递归神经网络对技术系统的动态行为进行建模，和/或为了在本方法的第二步骤中学习动作选择规则，使用了反向传播方法(backpropagationmethod)。这种反向传播方法由现有技术已经充分已知，并且尤其是使用在文献[1]中描述的方法。

所述借助其对技术系统的动态行为进行建模的递归神经网络优选是一种考虑了将来的状态和动作的具有动态的一致的时域反卷积的网络，其在英语中称为“Recurrent Neural Network with DynamicallyConsistent Overshooting(具有动态一致的超调的递归神经网络)”。在这种网络中，网络在输出层中的本身的预报被作为在输入层中的将来的输入的替代物。

在根据本发明的尤其优选的实施方式中，技术系统通过递归神经网络进行的建模通过下列公式来表示：

{\overset{&OverBar;}{s}}_{τ} = \tanh (\hat{A} {\hat{s}}_{τ} + D a_{τ}^{d} + θ)

x_τ+1＝Cs_τ

其中

{\hat{s}}_{τ} = \{\begin{matrix} A {\overset{&OverBar;}{s}}_{τ - 1} + B x_{τ}^{d} &ForAll; τ \leq t \\ A {\overset{&OverBar;}{s}}_{τ - 1} + {Bx}_{τ} &ForAll; τ > t \end{matrix}

\underset{t}{Σ} \underset{τ}{Σ} {(x_{τ} - x_{τ}^{d})}^{2} &RightArrow; \min_{A, \hat{A}, B, C, D, θ}

其中，τ的取值范围包括在时间点t前时间步长的预定的数量m和在时间点后t后时间步长的预定的数量n；

其中，t∈{m，...，T-n}，其中T是时间点的数量，对这些时间点存在训练数据；

其中，x_τ表示通过所述递归神经网络确定出的技术系统在时间点τ的状态；

其中，x_τ ^d表示根据训练数据技术系统在时间点τ的状态；

其中，a_τ表示通过所述递归神经网络确定出的在时间点τ的动作；

其中，a_τ ^d表示根据训练数据在技术系统上在时间点τ执行的动作；

其中，

表示所述递归神经网络的隐含层在时间点τ的第一隐含状态，s_τ表示所述递归神经网络的隐含层在时间点τ的第二隐含状态，

其中，I是单位矩阵，A，B，C，D是待确定的矩阵，θ是待确定的偏置。

借助所述公式作为结果得出了相应的矩阵A，B，C，D和相应的偏置θ，它们这样来选择，使得在预报的和实际的状态之间的二次误差最小化。

第二步骤中，矩阵A，

B，C，D以及参数θ被最终固定，然后优选借助下列公式进行报酬规则的学习：

{\overset{&OverBar;}{s}}_{τ} = \{\begin{matrix} \tanh (\hat{A} {\hat{s}}_{τ} + {Da}_{τ}^{d} + θ) &ForAll; τ > t \\ \tanh ({\hat{A} \hat{s}}_{τ} + {Da}_{τ} + θ) &ForAll; τ &GreaterEqual; t \end{matrix}

R_τ+1＝Gh(Cs_τ)对于所有τ≥t

其中

{\hat{s}}_{τ} = \{\begin{matrix} A {\overset{&OverBar;}{s}}_{τ - 1} + B x_{τ}^{d} &ForAll; τ \leq t \\ A {\overset{&OverBar;}{s}}_{τ - 1} + {Bx}_{τ} &ForAll; τ > t \end{matrix}

和

a_{τ} = a_{τ - 1} + Hf (F \tanh (E {\hat{s}}_{τ} + b))

对于所有τ≥t

\underset{t}{Σ} \underset{τ > t}{Σ} c (R_{τ}) &RightArrow; \min_{E, F, b}

其中，G是矩阵，h是任意的激活函数，它们将技术系统的状态x_τ+1反映在对于价值函数c(·)很重要的状态R_τ+1上；

其中，f是任意的激活函数；

其中，E和F是待确定的矩阵，b是待确定的偏置；

其中，H是任意的矩阵用于匹配动作在各时间点相对于时间上在前的动作的变化。

如前所述，函数f和h是任意的激活函数，尤其是它们也能表示恒等映射。

根据本发明的方法能够被用于任意的技术系统。一种应用情况例如是涡轮机，尤其是燃气轮机。

技术系统的控制如此实现，即在控制的开始时首先执行除了本来的动作选择步骤以外的根据本发明的方法的所有步骤。接着，将由此获得的与所述另一神经网络相耦合的具有学得的动作选择规则的递归神经网络用于选择动作，这些动作被执行用于控制技术系统。由此控制规则一次性地确定，并在控制技术系统期间不再变化。

替代地也可以在控制技术系统期间以规则的间隔执行根据本发明的方法的所有步骤(除了本来的动作选择)，其中在执行该步骤时，那些在控制期间新产生的状态和动作考虑作为新的和/或另外的训练数据。在执行了根据本发明的方法的这些步骤后，接着将由此获得的与所述另一神经网络相耦合的具有学得的动作选择规则的递归神经网络用于选择另外的动作。以此方式，在控制技术系统期间确保在线地学习规则。

前面基于对技术系统的开环或者闭环控制描述了本发明。然而，根据本发明基于具有通过待学习的矩阵相耦合第一和第二隐含状态的递归神经网络对技术系统的动态特性进行建模，也能够用于计算机辅助地仿真模拟技术系统。其中在对技术系统的动态特性建模之后对其行为进行仿真模拟，其方式是针对在各时间点执行的动作，基于所实施的建模来确定技术系统在下一时间点的新的状态。

除了上述方法，本发明还包括计算机程序产品，其具有存储在机器可读的载体上的程序代码，当程序在计算机上运行时，用于执行根据本发明的方法。

接下来通过附图详细的对本发明的实施例进行描述。

附图说明

图1以示意图示出了通过根据本发明的一种实施方式的递归神经网络对技术系统的建模；

图2以示意图表现了通过图1中的递归神经网络结合根据本发明的一种实施方式的前馈网络进行的动作选择规则的学习；

具体实施方式

接下来对根据本发明的方法进行详细的描述。该方法在这里可应用于任意类型的技术系统，其动态行为能够通过具有(随机)传递函数P(x_t，a_t，x_t+1)的状态空间X和动作空间A来描述。这里x_t，x_t+1∈X是技术系统在时间点t或t+1的状态。其中每个状态通过多个状态变量或环境变量来表征。所述环境变量是技术系统的可测量的状态参数，例如气体压力、气体温度、燃烧室加速度和诸如此类燃气轮机的参数。这里，动作a_t∈ A是技术系统的控制变量在时间点t的变化，其会影响技术系统以后的状态。类似于状态x_t，动作a_t也包括多个动作变量，并且动作因此能够通过多个控制变量的变化来表征。一个在技术系统上可变化的控制变量的例子是燃气轮机中的阀的调整。技术系统通常也这样构造，使状态空间和动作空间彼此交叠，也就是说，技术系统中的控制变量也表征了技术系统的状态。

上述借助状态空间X、动作空间A和随机传递函数P对技术系统的描述相当于由现有技术已知的马尔可夫决策过程MDP(MDP＝MarkovDecision Process)。在此假定技术系统能够通过该过程来描述。为此过程，存在报酬函数或者价值函数c：XxA→R，其中R表示了报酬空间，其由系统获得用于在状态x_t中选择动作a_t。从现在起的目标为，确定最优的规则∏：X→A，此规则对于每个状态x_t最大化了预期的累积的或者平均的报酬函数C。报酬函数C的最大化在此相当于动作选择规则的一种可能的方案，正如其在权利要求中定义的那样。报酬函数尤其如此确定，使得其反映技术系统的期望的特性，其中当函数最大时，达到最优。在最简单的状况中，价值函数可以是例如技术系统的有利的期望的状态，当其具有最大值时，则是最佳的。接着假定技术系统是具有离散时间步长的决定马尔可夫决策过程，其中，状态空间X和A是连续的。

根据本发明，通过递归神经网络RNN对马尔可夫决策过程建模，由此通过高维的非线性的系统方程描绘技术系统的动态行为的映射，也就是传递函数P(·)。在这里描述的本发明的变型方案中所使用的递归神经网络RNN如图1所示。递归神经网络包括输入层I，其示出了在单个时间点的状态和动作。在图1中作为实例表示了状态x_t-2 ^d、x_t-1 ^d和x_t ^d以及动作a_t-2 ^d、a_t-1 ^d、a_t和a_t+1。状态x_t-1 ^d、x_t ^d以及动作a_t-2 ^d、a_t-1 ^d是来自递归神经网络的训练数据记录的已知状态或动作。在这里描述的实施方式中，单个动作来表示成控制变量，也就是说动作表示了控制变量的设定。在这个意义上，当控制变量的值从之前的到后续的时间步长没有变化时，动作也可以包含控制变量没有发生变化。在这个意义上，动作也包括所谓的“零动作”，其包含控制变量没有发生变化。在本发明的意义上，控制变量是任意的参数，其大小或值能够在技术系统上被直接影响。控制变量的变化会影响技术系统的状态。其中状态与控制变量的区别在于，不必直接对状态施加影响。在这个意义上，控制变量也能被看作技术系统的状态的子集，其值能直接通过动作来影响。

图1中网络的输入层I通过相应的矩阵B和D与隐含层HI相耦合。矩阵B和D在后面被详细地定义。隐含递归层HI对于每个时间点都具有隐含状态。其中图1中示例性地了描述状态s_t-2，s_t-1，

s_t，

和s_t+1。那些在字母s上带有折杠的状态在此相当于权利要求1意义中的第一隐含状态，那些在字母s上带有横杠的状态相当于权利要求1意义中的第二隐含状态。第一和第二状态在各时间点通过矩阵

相互耦合。其中，此矩阵在学习技术系统的动态特性时被同时学习。在图1网络的实施方式中，第一隐含状态的维度与第二隐含状态的维度不同，优选各第一隐含状态的维度小于第二隐含状态的维度，但是也可以使反过来的。通过使用附加的待学习的矩阵

产生了一种瓶颈结构，这种瓶颈结构在根据德国专利申请DE 10 2007 001 025.9的递归神经网络中是不存在的，在那里使用单位矩阵来替代矩阵

瓶颈结构迫使网络集中在动态特性的本质的自主的结构上。除了由此取得的对动态特性的较好的逼近外，这尤其加强了对动作的考虑。瓶颈结构一方面提高了动作对系统动态特性的实时影响。另一方面也改进了动作选择，因为这建立在对动态特性更好地逼近的基础上。

在隐含层HI中，在一个时间点的第二隐含状态此外与在下一时间点的第一隐含状态通过矩阵A耦合。此外，对于每个第二隐含状态还考虑偏置θ。图1的递归神经网络此外还具有由技术系统的状态所形成的输出层O。其中，在图1中示出了状态x_t-1，x_t，x_t+1和x_t+2。这些状态分别通过矩阵C与隐含状态s_t-2，s_t-1，s_t和s_t+1耦合。

根据图1的神经网络是一种考虑了将来状态的具有动态的一致的时域反卷积的网络，这在英语中描述为“Neural Network with DynamicallyConsistent Overshooting”。这意味着，在神经网络的建模时不仅仅考虑了过去的时间点τ，而且也考虑了将来的时间点τ，并且网络在输出层中本身的预报的状态被用作输入层中将来状态的输入。参数τ通过之前的反卷积m的长度和所谓超调量n的长度来限定，从而有：

τ∈{t-m，...，t+n}用于所有被考察的时间点t∈{m，...，T-n}，其中T表示可用的时间点的数量，为此存在训练数据用于神经网络的学习。超调量从图1由此得出，即在技术系统建模时也通过神经网络来考虑将来的时间点τ＞t。因为这些将来的时间点不是已知的，于是那些通过网络在输出层中输出的状态也再次用作下一时间步长的输入。这在图1中针对时间点t+1示出，此时，输出的状态xt+1再次被输送给隐含层HI的第一隐含状态

这里描述的本发明的实施方式中，状态x_τ和动作a_τ的序列在递归神经网络的输入端建立。其中，网络在时间上以考虑了过去和将来的预定的间隔被反卷积。图1的递归神经网络通过下列公式在数学上描述，其中，公式中包含了上述矩阵

A，B，C，D以及偏置θ：

{\overset{&OverBar;}{s}}_{τ} = \tanh (\hat{A} {\hat{s}}_{τ} + D a_{τ}^{d} + θ)

x_τ+1＝Cs_τ

其中

{\hat{s}}_{τ} = \{\begin{matrix} {As}_{τ - 1} + {Bx}_{τ}^{d} &ForAll; τ \leq t \\ A {\overset{&OverBar;}{s}}_{τ - 1} + {Bx}_{τ} &ForAll; τ > t \end{matrix}

在此第一隐含状态

是主状态，此主状态合计了之前第二隐含状态s_t-1和外部状态x_τ ^d的信息。隐含层中的非线性这里通过正切双曲函数(Tangens Hyperbolicus)来表达。在此处描述的实施方式中，主状态

具有比第二隐含状态s_τ更低的维度，并且此主状态与第二隐含状态s_τ通过矩阵

关联。其中，矩阵

在神经网络训练期间被学习。以此方式建立有利的瓶颈结构。

第二隐含状态s_τ具有动作a_τ ^d或a_τ作为输入，并且被应用于计算技术系统的预期的下一状态x_τ+1。矩阵D是具有合适的维度的附加的矩阵，此矩阵考虑了动作a_τ ^d或a_τ对状态s_τ的影响。动作a_τ被提供给神经网络RNN作为将来的输入(τ＞t)，因为其不直接影响技术系统的动态特性，因此不用被网络所学习。为了覆盖技术系统的状态空间X中多个可能状态，用于给系统建模建模的所述递归神经网络应该通过训练数据来建模，其中所述动作a_τ ^d随机地选择。否则学得的动态特性也可能是特定规则的函数。

根据本发明的方法的目标从现在起是，将图1的学得了训练数据的神经网络与用于学习上述最优的规则II的增强学习(ReinforcementLearning)相结合。根据本发明这由此实现，即图1的递归神经网络与另外的所谓的控制网络相结合，由此上述报酬函数C在神经网络中实施。

在这里描述的实施方式中，所述附加的控制网络是具有输入层、隐含层和输出层的三层的前馈神经网络。如果能够实现另外的复杂的拓扑，则通过这里所述的建模就能够对任意类型的控制函数进行建模。因为最优动作a_τ要被预报，控制网络只是对于将来的时间点(即τ＞t)与递归神经网络相耦合。对于过去的时间上的反卷积(即τ＜t)，在递归神经网络中使用之前输入的动作。

图2示出了与所述另外的前馈网络相耦合的递归神经网络，该递归神经网络接下来被称为RCNN(RCNN＝Recurrent Control Neural Network(递归控制神经网络))。基于所述前馈控制网络的网络部分这里以虚线示出。控制网络使用所述第一隐含状态

等作为输入层，这些第一隐含状态与具有相应状态r_t，r_t+1等的隐含层R相耦合。所述隐含状态r_τ在这里与状态

通过矩阵E以及偏置b相耦合，即有：

r_{τ} = \tanh (E {\hat{s}}_{τ} + b)

隐含状态r_τ此外与待建模的将来的动作变化Δa_τ通过矩阵F相耦合。其中，在所述实施方式中，所述动作变化相当于控制变量变化。动作变化Δa_t或Δa_t+1与要预报的动作a_t或a_t+1通过矩阵H相耦合，其中通过矩阵H能够实现对动作变化进行相应的限制或标定。尤其是由此以简单方式确保了，只有那些在考察的系统上实际可能发生的动作变化才是可能的。那些在技术系统的常规运行中不会出现的或没有意义的动作变化(因为它们例如会导致破坏和损害系统)由此被矩阵H所阻止。因为新的动作a_τ(τ≥t)由在前的动作a_τ-1 ^d或a_τ-1和相应的动作变化Δa_t组成，根据图2在前的动作a_τ-1 ^d或a_τ-1通过恒等矩阵I也包括到动作a_t中。此外存在矩阵G，该矩阵G使将来的状态x_t+1，x_t+2等与状态R_t+1，R_t+2等相耦合，其中，后者是对于计算规则十分重要的状态。

根据本发明所使用的神经网络RCNN必须实现两个不同的任务。一方面必须识别作为基础的技术系统的动态特性，另一方面必须借助相应的动作选择规则或者报酬规则实现技术系统的最优控制。网络因此在两个相继的步骤中进行训练，即在一个递归神经网络使用训练数据进行学习的步骤以及一个通过使递归神经网络与前馈网络相耦合进行的报酬规则的学习的步骤。根据本发明创新式的构思与常规方法不同，即在此将两个任务的组合学习在一个步骤中进行。

在根据本发明的方法的第一步骤中，首先将作为基础的马尔可夫决策过程的动态特性建模，此过程相当于技术系统的动态行为。该网络RCNN接着被简化为具有动态的一致的时域反卷积的考虑了将来状态的递归神经网络。这个第一步骤通过下列公式数学的表示：

{\overset{&OverBar;}{s}}_{τ} = \tanh (A {\hat{s}}_{τ} + D a_{τ}^{d} + θ) - - - (1)

x_τ+1＝Cs_τ (2)

其中

{\hat{s}}_{τ} = \{\begin{matrix} A {\overset{&OverBar;}{s}}_{τ - 1} + B x_{τ}^{d} &ForAll; τ \leq t \\ A {\overset{&OverBar;}{s}}_{τ - 1} + {Bx}_{τ} &ForAll; τ > t \end{matrix} - - - (3)

\underset{t}{Σ} \underset{τ}{Σ} {(x_{τ} - x_{τ}^{d})}^{2} &RightArrow; \min_{A, \hat{A}, B, C, D, θ} - - - (4)

最后的公式在这里示出了训练的任务，在训练中应该实现所述通过递归神经网络RNN确定出的状态x_τ尽可能好地与训练数据的状态x_τ ^d相符。这里二次误差相对于矩阵A，

B，C和D以及偏置θ被最小化，这些矩阵和偏置表示了递归神经网络的待确定的参数。

在技术系统的动态特性建模的第一步骤之后，在这个步骤中确定出的矩阵A、B、C和D以及偏置θ被固定，也就是说在其他训练期间它们的权重不变化。从现在起矩阵E和F以及偏置b被激活，这些矩阵和偏置在图2中被示出。它们是在报酬规则的学习的第二步骤期间仅有的参数。在这个学习步骤中，递归神经网络不获得将来的动作作为外部输入，而是这些动作同前馈网络在考虑了报酬规则的情况下被学习。此外，对于过去的时间步长τ＜t，输出聚类Xt被忽略，因为输出聚类仅仅对于在第一步骤中的动态特性的建模是必要的。对于网络的将来的时间步长τ＞t，根据公式(4)的误差函数被报酬函数或价值函数c(·)所替代，其会在之后的公式(9)中说明。这在体系结构中通过附加的报酬聚类R_τ来实现，此报酬聚类通过作为上述报酬函数c(·)的函数的、问题特定的固定的矩阵G以及在输出聚类X_τ内的可能的激活函数h与输出聚类相关联。由此通过网络RCNN，报酬函数c(·)在神经体系结构中被编码。这意味着，报酬聚类R_τ不必只在输出聚类X_τ的基础上进行计算，而且其也能更通用地进行描述，由此也能实现复杂的网络体系结构。例如报酬函数能够被清楚地学习，当c(·)不是已知的或者没有被完整地说明时，这是尤其有帮助的。这能够通过另外的附加的三层的神经网络以RCNN的输出作为输入来达到。

前馈网络的权重仅根据报酬聚类R_τ(τ＞t)的反向传播的报酬进行适配。这相当于这样的构思，即进行了动作选择规则学习的第二步骤不用于识别动态特性，而只是用于学习使报酬最大化的规则，其中系统的动态特性已经在之前就建模了。

进行了报酬规则学习的第二步骤能够通过下列公式(5)到(9)在数学上描述。其中矩阵E和F以及偏置θ被学习。公式(5)到(9)如下：

{\overset{&OverBar;}{s}}_{τ} = \{\begin{matrix} \tanh (\hat{A} {\hat{s}}_{τ} + {Da}_{τ}^{d} + θ) &ForAll; τ < t \\ \tanh ({\hat{A} s}_{τ} + {Da}_{τ} + θ) &ForAll; τ &GreaterEqual; t \end{matrix} - - - (5)

R_τ+1＝Gh(Cs_τ)对于所有 τ≥t (6)

其中

{\hat{s}}_{τ} = \{\begin{matrix} A {\overset{&OverBar;}{s}}_{τ - 1} + B x_{τ}^{d} &ForAll; τ \leq t \\ A {\overset{&OverBar;}{s}}_{τ - 1} + {Bx}_{τ} &ForAll; τ > t \end{matrix} - - - (7)

以及

a_{τ} = a_{τ - 1} + Hf (F \tanh (E {\hat{s}}_{τ} + b))

对于所有τ≥t (8)

\underset{t}{Σ} \underset{τ > t}{Σ} c (R_{τ}) &RightArrow; \min_{E, F, b} - - - (9)

在根据公式(1)到(4)对技术系统的动态特性建模时以及在根据公式(5)到(9)学习报酬规则时，递归神经网络通过相同的训练样本T以及通过由现有技术充分地已知的根据文献[1]的反向传播方法进行训练。每个训练样本T在此对应于一个时间点，该时间点配属有呈技术系统的状态的形式的相应的训练数据和在该时间点所执行的动作。报酬规则学习的步骤在这里能够被看作报酬函数C(.)的误差的反向传播。

在前面描述的递归神经控制网络RCNN的实施方式以理想的方式将具有动态的一致的时域反卷积的考虑了将来状态用于识别带有三层神经控制网络的动态特性的递归神经网络RNN的优点与报酬规则的学习相结合。以此方式达到高的逼近精度，并且也能以数据高效的方式控制复杂的动态系统。此外系统也能以简单的方式构建成高维度，并且仅部分观测的环境就能够由技术系统的状态进行再构建。此外通过上述网络能够非常好地处理连续的状态空间和动作空间。

相对于在专利申请DE 10 2007 001 025.9中描述的实施方式，依据图1和图2描述的本发明的实施方式具有下述优点，即通过包括待学习的权重矩阵在隐含状态之间产生瓶颈，这种瓶颈强迫网络集中在动态特性的本质的自主的结构上。此外通过考虑呈控制变量或操控变量形式的动作，其必要时也包括“零动作”(即控制变量没有变化)，还提供了这样的可能性：通过使用特定的矩阵H，使得控制变量的变化的值匹配于或者相应地限制于技术系统的特征。尤其在燃气轮机的仿真模拟中，控制变量的限制是十分重要的，因为控制变量在每个时间步长中仅在受限的间隔内是可变的。

参考文献：

[1]D.E.Rumelhart，G.E.Hinton和R.J.Willliams，“Learninginternalrepresentations by error propagation(通过误差传递学习内部表示)”，在并行分布过程中：认知微观结构中的开发，D.E.Rumelhart和J.L.M.等，Eds.Cambridge：MIT出版社，1986，第1卷，318-362页

[2]Leslie Rack Kaelbing；Michael L.Littman；Andrew W.Moore，Reinforcement Learning(强化学习)：概览，人工智能研究期刊4(1996)237-285页

Claims

1.针对技术系统的计算机辅助的开环和/或闭环控制的方法，其中：

a)技术系统的动态行为对于多个时间点(t)分别通过技术系统的状态(x_t)和在技术系统上所执行的动作(a_t)来表征，其中各动作(a_t)在各时间点(t)引起技术系统在下一时间点(t+1)的新的状态(x_t+1)；

b)技术系统的动态行为通过递归神经网络借助训练数据来建模，该训练数据包括在多个时间点(t)已知的状态(x_t ^d)和动作(a_t ^d)，其中所述递归神经网络通过至少一个包括技术系统的状态(x_t)和在多个时间点(t)在技术系统上所执行的动作(a_t)的输入层(I)、至少一个包括隐含状态

的隐含递归层(HI)以及至少一个包括技术系统在多个时间点(t)的状态(x_t)的输出层(O)来形成，其中，

-所述隐含状态

在各时间点(t)包括第一隐含状态

和第二隐含状态

其中技术系统的状态(x_t)在各时间点(t)自输入层(I)起与所述第一隐含状态

关联，并且所述动作(a_t)在各时间点(t)自输入层(I)起与所述第二隐含状态

关联，

-所述在各时间点(t)的第一隐含状态

与所述在各时间点的第二隐含状态通过矩阵

耦合，此矩阵在技术系统的动态行为建模时学习；

c)通过所述递归神经网络对于当前和将来的时间点(t)与另一神经网络相耦合来学习动作选择规则，所述另一神经网络包括至少一个输入层(HI)、至少一个包括隐含状态(r_t)的隐含层(R)以及至少一个输出层(O′)，其中所述另一神经网络的输入层(HI)在各时间点(t)包括在各时间点(t)时所述递归神经网络的隐含状态的至少一部分，并且所述另一神经网络的输出层(O′)在各时间点包括在技术系统上所执行的动作(a_t)和/或在技术系统上执行的动作(a_t)相对于时间上之前的动作(a_t-1)的变化(Δa_t)；

d)技术系统的状态(x_t)和/或在技术系统上所执行的动作(a_t)通过与所述另一神经网络相耦合的具有学得的动作选择规则的递归神经网络来确定。

2.根据权利要求1所述的方法，其中所述递归神经网络的隐含递归层(HI)的第一隐含状态

分别包括第一数量的变量，并且所述递归神经网络的隐含递归层(HI)的第二隐含状态

分别包括第二数量的变量，其中所述第一数量与第二数量不同。

3.根据权利要求2所述的方法，其中所述第一数量小于第二数量或反过来。

4.根据前述权利要求1-3中任一项所述的方法，其中技术系统的状态(x_t)包括一个或者多个环境变量，和/或在技术系统上所执行的动作(a_t)包括一个或者多个动作变量，和/或所述另一神经网络的隐含状态(r_t)包括一个或者多个隐含变量。

5.根据权利要求4所述的方法，其中所述递归神经网络和/或所述另一神经网络的隐含状态(

r_t)的隐含变量的数量小于技术系统的状态(x_t)的环境变量的数量。

6.根据前述权利要求1-3中任一项所述的方法，其中所述动作(a_t)的至少一部分动作中的一个动作(a_t)通过技术系统的可变化的控制变量来表示，其中所述另一神经网络的输出层(O′)至少部分地在各时间点(t)包括在各时间点(t)所执行的动作(a_t)相对于时间上在前的动作(a_t-1)的变化(Δa_t)，该变化(Δa_t)呈控制变量的变化的形式。

7.根据权利要求6所述的方法，其中在各时间点(t)所执行的动作(a_t)相对于时间上在前的动作(a_t-1)的变化(Δa_t)在所述另一神经网络的输出层(O′)中通过耦合矩阵(H)与在各时间点在所述递归神经网络的输入层(I)中的动作(a_t)相耦合。

8.根据权利要求7所述的方法，其中所述动作(a_t)在各时间点在所述递归神经网络的输入层(I)中通过单位矩阵与时间上在前的动作(a_t-1)相耦合。

9.根据权利要求7或8所述的方法，其中通过所述耦合矩阵(H)来限制和/或标定在各时间点(t)所执行的动作(a_t)相对于时间上在前的动作的变化(Δa_t)。

10.根据前述权利要求1-3中任一项所述的方法，其中设有多个离散的在技术系统上可执行的动作(a_t)，其中所述另一神经网络的输出层(O′)在各时间点(t)至少部分地包括所述在技术系统上执行的离散的动作(a_t)。

11.根据前述权利要求1-3中任一项所述的方法，其中所述另一神经网络的输入层(HI)在各时间点包括所述递归神经网络在各时间点(t)的第一隐含状态

12.根据前述权利要求1-3中任一项所述的方法，其中所述选择规则根据评价函数来学习，其考虑到一个或者多个针对技术系统的状态(x_t)的标准和/或在技术系统上所执行的动作(a_t)，和/或其在步骤b)中被学习。

13.根据权利要求12所述的方法，其中评价函数这样被选择，即使技术系统的最优的动态行为参数化。

14.根据权利要求13所述的方法，其中评价函数通过待优化的价值函数来表示。

15.根据前述权利要求1-3中任一项所述的方法，其中为了借助递归神经网络对技术系统的动态行为建模，将通过所述递归神经网络确定出的状态(x_t)与训练数据的状态(x_t ^d)之间的误差最小化。

16.根据前述权利要求1-3中任一项所述的方法，其中在权利要求1的步骤b)中，对技术系统的非线性的动态行为建模，和/或在权利要求1的步骤c)中，学习非线性的动作选择规则。

17.根据前述权利要求1-3中任一项所述的方法，其中为了在步骤b)中借助递归神经网络对技术系统的动态行为建模，和/或为了在步骤c)中学习动作选择规则，使用反向传播方法。

18.根据前述权利要求1-3中任一项所述的方法，其中所述递归神经网络是一种具有动态的一致的时域反卷积的考虑了将来的状态(x_t)和动作(a_t)的网络。

19.根据前述权利要求1-3中任一项所述的方法，其中借助递归神经网络对技术系统的动态行为的建模通过下列公式表示：

{\overset{&OverBar;}{s}}_{τ} = \tanh (\hat{A} {\hat{s}}_{τ} + D a_{τ}^{d} + θ)

x_{τ + 1} = C {\overset{&OverBar;}{s}}_{τ}

其中

{\hat{s}}_{τ} = \{\begin{matrix} A {\overset{&OverBar;}{s}}_{τ - 1} + B x_{τ}^{d} &ForAll; τ \leq t \\ A {\overset{&OverBar;}{s}}_{τ - 1} + B x_{τ} &ForAll; τ > t \end{matrix}

\underset{t}{Σ} \underset{τ}{Σ} {(x_{τ} - x_{τ}^{d})}^{2} &RightArrow; \min_{A, \hat{A}, B, C, D, θ}

其中，

表示根据训练数据技术系统在时间点τ的状态；

其中，α_τ表示通过所述递归神经网络确定出的在时间点τ的动作；

其中，

表示根据训练数据在技术系统上在时间点τ执行的动作；

其中，表示所述递归神经网络的隐含层(HI)在时间点τ的第一隐含状态，

表示所述递归神经网络的隐含层(HI)在时间点τ的第二隐含状态，

其中，I是单位矩阵，

A，B，C，D是待确定的矩阵，θ是待确定的偏置。

20.根据权利要求19所述的方法，其中所述动作选择规则的学习通过下列公式来表示：

{\overset{&OverBar;}{s}}_{τ} = \{\begin{matrix} \tanh (\hat{A} {\hat{s}}_{τ} + D a_{τ}^{d} + θ) &ForAll; τ < t \\ \tanh (\hat{A} {\hat{s}}_{τ} + D a_{τ} + θ) &ForAll; τ &GreaterEqual; t \end{matrix}

R_{τ + 1} = Gh (C {\overset{&OverBar;}{s}}_{τ})

对于所有τ≥t

其中

{\hat{s}}_{τ} = \{\begin{matrix} A {\overset{&OverBar;}{s}}_{τ - 1} + B x_{τ}^{d} &ForAll; τ \leq t \\ A {\overset{&OverBar;}{s}}_{τ - 1} + B x_{τ} &ForAll; τ > t \end{matrix}

和

a_{τ} = a_{τ - 1} + Hf (F \tanh (E {\hat{s}}_{τ} + b))

对于所有τ≥t

\underset{t}{Σ} \underset{τ > t}{Σ} c (R_{τ}) &RightArrow; \min_{E, F, b}

其中，G是矩阵，h是任意的激活函数，它们将技术系统的状态x_τ+1反映在对于价值函数c(·)重要的状态R_τ+1上；

其中，f是任意的激活函数；

其中，E和F是待确定的矩阵，b是待确定的偏置；

其中，H是任意的矩阵用于匹配动作(a_t)在各时间点相对于时间上在前的动作(a_t-1)的变化。

21.根据前述权利要求1-3中任一项所述的方法，其中所述技术系统是涡轮机。

22.根据前述权利要求1-3中任一项所述的方法，其中在控制方法开始时，首先执行权利要求1的步骤a)到步骤d)，接着将由此获得的与所述另一神经网络相耦合的具有学得的动作选择规则的递归神经网络用于确定动作(a_t)。

23.根据权利要求1-3中任一项所述的方法，其中在控制方法期间以规则的间隔来执行权利要求1的步骤a)至d)，其中在执行上述步骤时，将在控制期间新得到的状态(x_t)和动作(a_t)考虑作为新的和/或另外的训练数据，并且其中在执行了这些步骤之后，将从中得出的与所述另一神经网络相耦合的具有学得的动作选择规则的递归神经网络用于选择另外的动作(a_t)。

24.计算机辅助地仿真模拟技术系统的方法，其中：

-所述隐含状态

在各时间点(t)包括第一隐含状态

和第二隐含状态

关联，

-所述在各时间点(t)的第一隐含状态

与所述在各时间点的第二隐含状态通过矩阵

耦合，此矩阵在对技术系统的动态行为建模时学习；

c)通过针对在各时间点(t)执行的动作，基于在步骤b)中所执行的建模来确定技术系统在下一时间点(t+1)的新的状态(x_t+1)，由此对技术系统的动态行为进行仿真模拟。

25.根据权利要求21所述的方法，其中所述技术系统是燃气轮机。