CN101566830A

CN101566830A - 用于计算机支持地学习技术系统的控制和/或调节的方法

Info

Publication number: CN101566830A
Application number: CNA2009101321691A
Authority: CN
Inventors: D·施尼加斯; S·尤德卢夫特
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2008-04-23
Filing date: 2009-04-23
Publication date: 2009-10-28
Anticipated expiration: 2029-04-23
Also published as: EP2112569B1; US8250014B2; DE102008020380A1; CN101566830B; US20090271340A1; EP2112569A2; DE102008020380B4; EP2112569A3

Abstract

本发明涉及一种用于计算机支持地学习技术系统的控制和/或调节的方法，其中技术系统的运行的特征在于技术系统在运行中能够呈现的状态以及在技术系统的运行中被执行并且将技术系统的相应状态转化到随后状态中的行为。本发明方法的特征在于，在学习技术系统的控制时适当地考虑在学习中使用的训练数据的统计不确定性。这通过如下方式进行：对技术系统的最优运行进行建模的质量函数的统计不确定性借助不确定性传播来确定，并且在学习时并入行为选择规则。通过相应地可选的确定性参数，学习方法可以与在统计要求方面不同的应用情况匹配。本发明方法可以被用于学习任意技术系统的控制或调节。在优选变型方案中，该方法被用于控制或调节涡轮机的运行。

Description

用于计算机支持地学习技术系统的控制和/或调节的方法

技术领域

本发明涉及一种用于计算机支持地学习技术系统的控制和/或调节的方法以及一种用于运行技术系统的相应方法和一种计算机程序产品。

背景技术

由现有技术已知不同的方法，利用这些方法可以基于预先确定的、代表技术系统的运行的训练数据来对该系统的最优运行进行建模。在此，技术系统通过状态、行为和随后状态来描述，其中状态是技术系统的确定的技术参数或者所观察的状态变量，而行为代表相应的操纵变量，这些操纵变量在技术系统上可以被改变。由现有技术已知一般强化学习方法(英语：Reinforcement Learning)，这些方法针对技术系统基于训练数据根据最优性标准来学习最优的行为选择规则。已知的方法具有以下缺点，即它们不提供关于所学习的行为选择规则的统计不确定性的任何陈述。这种不确定性特别是在少量的训练数据的情况下非常大。

发明内容

因此本发明的任务在于，提出一种用于学习技术运行的控制和/或调节的方法，该方法考虑在学习中所使用的训练数据的统计不确定性。

该任务通过独立权利要求解决。本发明的改进方案在从属权利要求中进行限定。

在根据本发明的方法中，计算机支持地学习技术系统的控制或调节，其中技术系统的运行的特征在于：状态，技术系统在运行中能够呈现该状态；以及行为，这些行为在技术系统的运行中被执行并且将技术系统的相应状态转化到随后状态中。在根据本发明的方法中，基于在技术系统的运行中所采集的、包括状态、行为和随后状态的训练数据来学习质量函数和行为选择规则，其中特别是利用强化学习方法来进行学习。在此，质量函数鉴于对于技术系统来说特定的标准来对技术系统的最优运行进行建模，并且行为选择规则说明在技术系统的运行中针对技术系统的相应状态应优选地执行或应执行的行为。

在根据本发明的方法中，在学习质量函数和行为选择规则期间，借助不确定性传播来确定质量函数的统计不确定性的度量，并且根据统计不确定性的度量和对应于质量函数的统计最低要求的确定性参数来确定修改后的质量函数。统计不确定性的度量特别被理解为统计方差或者标准偏差的度量，优选的是统计方差或者标准偏差本身。本发明将学习方法与统计不确定性结合，其中基于本身已知的不确定性传播(英语：uncertainty propagation)来确定质量函数的统计不确定性的度量，其中该不确定性传播也称为高斯误差传播。基于由此确定的修改后的质量函数，学习行为选择规则。

根据本发明的方法具有的优点是，考虑统计不确定性，其中可以通过相应地改变确定性参数来设置用于运行技术系统的不同情况。该方法特别是提供一种新的确定性最优的行为选择规则，该行为选择规则在考虑统计不确定性的情况下将技术系统的性能最大化。

在根据本发明的方法的一个优选的变型方案中，学习质量函数和行为选择规则在考虑评价和状态-行为概率的情况下进行。相应的评价在此在考虑到技术系统的最优运行的情况下对状态、在该状态中执行的行为以及随后状态的组合的质量进行评价，并且通常也被称为奖励(Reward)。状态-行为概率根据状态和在该状态中执行的行为说明随后状态的概率。优选地，在此，状态-行为概率作为状态-行为概率分布来建模和/或评价作为评价概率分布来建模。在根据本发明的方法的一个变型方案中，状态-行为概率分布或评价概率分布的建模作为相对频率根据训练数据来进行。如果在学习时考虑评价，则在训练数据中包含这些评价，或者存在函数，该函数根据状态、行为和随后状态输出相应的评价。

替代基于用于对概率分布建模的相对频率的频率论方法，在本发明的另一变型方案中也可以选择贝叶斯方法，其中状态-行为概率分布和/或评价概率分布基于具有后验参数的先验分布来估计，其中后验参数取决于训练数据。特别是Dirichlet分布和/或正态分布可以被用作先验分布。

在一个特别优选的实施形式中，使用本身已知的Bellman迭代来学习质量函数和行为选择规则。在已知的Bellman迭代中，在每个迭代步骤中确定新的质量函数，其中根据本发明现在附加地在相应的迭代步骤中确定质量函数的统计不确定性的新的度量，并且由此确定新的修改后的质量函数。在此，确定统计不确定性的新的度量特别是通过如下方式来进行：在Bellman迭代的每个迭代步骤中，根据在迭代步骤中确定的质量函数、状态-行为概率和评价来确定协方差矩阵。

在本发明的一个特别优选的变型方案中，要学习的行为选择规则是随机的行为选择规则，该行为选择规则针对技术系统的状态说明可执行的行为的概率分布。如果为了学习而使用上面提及的Bellman迭代，则在每个迭代步骤中确定一种概率分布作为可执行的行为的新的概率分布，该概率分布修改最后的迭代步骤的概率分布，使得将更高的概率分配给将修改后的质量函数的值最大化的行为。

在本发明的另一特别优选的实施形式中，基于确定性参数，该方法还提供对质量函数的统计最低要求。虽然已知确定性参数与统计最低要求相关，但是这种相互关系并未被明确地说明。然而本发明的一种实施形式能够实现明确地计算该相互关系。在此，统计最低要求优选地通过最小质量函数值以及概率值来代表，其中概率值说明质量函数的值以何种概率大于或等于最小质量函数值。优选地，为了确定对质量函数的统计最低要求，假设质量函数的高斯正态分布。

根据本发明的方法可以被用于任意的技术系统。在一个特别优选的变型方案中，使用该方法来学习涡轮机、特别是燃气涡轮机的控制或调节。燃气涡轮机的状态在此例如是所输送的燃料的量和/或涡轮机的噪声(Brummen)。在此，行为例如是改变所输送的燃料量或者改变涡轮机的叶片的设置。

除了上面描述的学习方法之外，本发明此外还包括一种用于运行技术系统的方法，其中该技术系统基于控制或调节来运行，该控制或调节利用上面描述的学习方法的任意变型方案来进行学习。在此，利用所学习的行为选择规则在技术系统的相应状态中选择要执行的行为。在随机的行为选择规则的情况下，这例如通过根据相应的概率对行为的随机选择来进行。在该运行的一个优选的变型方案中，上述学习方法在此以间隔重复，其中在每次重复时，技术系统新呈现的状态和所执行的行为被考虑作为训练数据。

除了上面所描述的方法之外，本发明此外还涉及一种计算机程序产品，该计算机程序产品具有存储于机器可读载体上的程序代码，用于当该程序在计算机上运行时执行根据本发明的方法。

附图说明

下面借助附图来详细地描述本发明的实施例。

图1示出说明在本发明的一个实施形式中Q函数的确定性参数的含义的图；以及

图2示出表格，该表格示出针对燃气涡轮机的实例根据本发明的方法的实施形式的结果。

具体实施方式

下面借助技术系统的离子来阐述本发明，该技术系统的特征在于状态空间S和行为空间A。状态空间是技术系统的参数形式的多个离散或连续的状态，这些状态在技术系统的运行期间表征技术系统。在燃气涡轮机的情况下，这些参数例如可以是所输送的燃料燃料的量或者涡轮机的噪声。行为空间表示在技术系统上可执行的可能的行为，其中可以利用行为来改变技术系统的状态。行为可以是改变技术系统的操纵变量，例如改变燃气涡轮机的导向叶片的位置，改变燃料输送等等。

技术系统的动态在这里所描述的实施形式中作为马尔可夫决策过程通过转移概率分布P_T：S×A×S→[0，1]来表征，该转移概率分布取决于技术系统的当前状态、在当前状态中执行的行为以及由此得出的技术系统的随后状态。在根据本发明的方法的这里所描述的实施形式中，以计算机支持的方式基于训练数据来学习行为选择规则，其中行为选择规则一般说明在技术系统的预先给定的状态中应优选地执行哪个行为。在此，行为选择规则可以是确定性的，即通过规则确定某一行为，然而行为选择规则也可以是随机的，也即行为选择规则说明基于状态要执行的行为的概率分布。根据本发明的方法的目的在于学习所谓的确定性最优的行为选择规则，该行为选择规则不一定在期望性能方面是最优的，而是满足对行为选择规则的统计上的最低要求。以这种方式，可以学习行为选择规则，这些行为选择规则虽然并不满足最大期望性能的最优性标准(Optimalittskriterium)，然而将保证性能最大化。

下面首先阐述根据现有技术的强化学习方法，其中基于相应的最优性标准学习行为选择规则。最优性标准在此通过相应的评价R代表，其中该评价针对状态、在该状态中执行的行为a和随后状态s′说明：考虑到技术系统的最优运行，所执行的行为a有多值得。最优运行可以根据所观察的技术系统来任意地确定，例如这种运行的标准是没有导致损害或损坏技术系统的状态出现，或者在技术系统的运行中达到最优效率。在燃气涡轮机的情况下，最优运行例如可以通过如下方式来规定：达到高的效率，而没有出现涡轮机的噪声。

在最优行为选择规则的强化学习的情况下，考虑将来的评价的期望折扣和(erwartete diskontierte Summe)，该期望折扣和内容如下：

V^{π} (s) = E_{s}^{π} (Σ_{i = 0}^{\infty} γ^{i} R (s^{(i)}, π (s^{(i)}), s^{(i + 1)}))

这种所谓的值函数必须在行为选择规则的空间∏∈(S→A)上针对所有可能的状态s被最大化，其中0＜γ＜1是折扣因子，s′是s的随后状态，而π∈∏是所使用的行为选择规则。此外适用s＝{s′，s″，...，s⁽ⁱ⁾，...}。作为中间步骤，构造所谓的Q函数Q^π(s，a)，该函数对应于在权利要求1的意义上的质量函数的一种实施形式。Q函数取决于技术系统的当前状态和在该状态中选择的行为。最优质量函数

Q^{*} = Q^{π^{*}}

被确定为所谓的Bellman最优性方程的解，其内容如下：

Q^{*} (s, a) = E_{s^{'}} (R (s, a, s^{'}) + γ V^{*} (s^{'})) = E_{s^{'}} (R (s, a, s^{'}) + γ \max_{a^{'}} Q^{*} (s^{'}, a^{'}))

由此，考虑到所观察的最优性标准，通过下式给出最佳的行为选择规则：

π^*(s)＝argmax_a Q^*(s，a)

Bellman最优性方程通过由现有技术充分已知的Bellman迭代来求解，Bellman迭代在下面还将更详细阐述。以下将T定义为Bellman算子，其针对每个任意的质量函数Q内容如下：

(TQ)(s，a)＝E_s′(R(s，a，s′)+γmax_a′Q(s′，a′))

在下面所描述的本发明的实施形式中，附加地考虑统计不确定性，该统计不确定性由技术系统中的测量的不确定性得到，这些测量被作为训练数据用于确定技术系统的行为选择规则。

该统计不确定性导致所观察的Q函数的不确定性，并且由此导致所学习的行为选择规则的不确定性。在强化学习中存在的不确定性是由于不知道技术系统的真正特性，即由于技术系统所基于的真正的马尔可夫决策过程。关于技术系统的训练数据形式的观察越多，则具有关于马尔可夫决策过程的更多信息。随机性越大，则对于预先给定的观察数目，关于马尔可夫决策过程更大的不确定性继续存在。

在下面所描述的本发明的变型方案中，基于训练数据的测量的不确定性、即在使用行为和与此关联的评价的情况下从一个状态向下一个状态转变的不确定性传播到Q函数中，更确切地说，通过不确定性传播。不确定性传播(也称为不确定性的高斯传播或者高斯误差传播)的原理在现有技术中被充分公开，并且基于围绕相应的估计点的一阶泰勒展开。在此，基于以下协方差来计算函数值f(x)的不确定性(其中在自变量x的预先给定的不确定性情况下f：

)：

Cov(f)＝Cov(f，f)＝DCov(x)D^T

在此，

D_{i, j} = \frac{{&PartialD; f}_{i}}{&PartialD; x_{j}}

表示f根据其自变量x的雅科比矩阵。利用Cov(x)＝Cov(x，x)表示自变量x的协方差，该协方差又取决于x的不确定性。于是，函数f具有对称的和正定的协方差和不确定性Cov(f)。

在根据本发明的方法的这里所描述的实施形式中，测量中存在的不确定性通过将高斯误差传播应用于Bellman迭代而在强化学习中实现。

通常，对于第m个迭代步骤，Bellman迭代内容如下：

Q^{m} (s_{i}, a_{j}) = ({TQ}^{m - 1}) (s_{i}, a_{j}) = Σ_{k = 1}^{| S |} P (s_{k} | s_{i}, a_{j}) (R (s_{i}, a_{j}, s_{k}) + γ V^{m - 1} (s_{k}))

在此考虑离散的马尔可夫决策过程，然而本发明也可以应用于非离散的马尔可夫决策过程。为了确定最优的行为选择规则，寻找具有最大Q值的行为。也就是说，适用：V^m(s)＝Q^m(s，π(s))，其中π是所使用的行为选择规则，并且适用V^m(s)＝max_a∈AQ^m(s，a)。在此，假设有限数目的状态s_i，i∈{1，...，|S|}和行为a_i，i∈{1，...，|A|}。Bellman迭代对于m→∞收敛为估计的状态-行为概率分布P(对应于在给定状态和给定行为的情况下到随后状态的转移概率分布)和评价概率分布R的最优Q函数。在一般的随机情况下(其中π代表在状态s中可执行的行为a_i的概率分布)，适用：

V^{m} (s) = Σ_{i = 1}^{| A |} π (s, a_{i}) Q^{m} (s, a_{i}),

其中π(s，a)是在状态s中选择行为a的概率。

为了现在将存在的不确定性实现到Q函数中，如上面已经提及的那样，与Bellman迭代并行地应用不确定性传播或高斯误差传播技术。利用给定的针对转移概率P和评价R的协方差矩阵Cov(P)、Cov(R)和Cov(P，R)，得到以下初始的完整的协方差矩阵：

Cov (Q^{0}, P, R) = (\begin{matrix} 0 & 0 & 0 \\ 0 & Cov (P) & Cov (P, R) \\ 0 & Cov {(P, R)}^{T} & Cov (R) \end{matrix})

在第m个Bellman迭代步骤之后，基于高斯误差传播的完整的协方差矩阵内容如下：

Cov(Q^m，P，R)＝D^m-1Cov(Q^m-1，P，R)(D^m-1)^T

在此，D^m是雅科比矩阵，其内容如下：

D^{m} = (\begin{matrix} D_{Q, Q}^{m} & D_{Q, P}^{m} & D_{Q, R}^{m} \\ 0 & I & 0 \\ 0 & 0 & I \end{matrix})

{(D_{Q, Q}^{m})}_{(i, j), (k, l)} = γπ (s_{k}, a_{l}) P (s_{k} | s_{i}, a_{j})

{(D_{Q, P}^{m})}_{(i, j), (l, n, k)} = δ_{il} δ_{jn} (R (s_{i}, a_{j}, s_{k}) + γ V^{m} (s_{k}))

{(D_{Q, R}^{m})}_{(i, j), (l, n, k)} = δ_{il} δ_{jn} (s_{k} | s_{i}, a_{j})

以这种方式，针对每个Bellman迭代步骤，确定Q函数、转移概率P和评价R之间的相应的协方差。为了现在适当地考虑技术系统中的测量的不确定性，必须预先给定合适的、初始的协方差矩阵Cov((P，R))。下面，不同的状态-行为对的所有转移及其评价被假设为彼此独立，使得这些转移可以作为多项式分布来建模。在一个实施形式中，使用用于多项式分布的建模的贝叶斯方法。在此，基于针对预先给定的i和j的、在参数空间上的先验分布P(s_k|s_i，a_j)。在一个特别的实施形式中，使用具有以下密度(Dichte)的Dirichlet分布作为先验分布：

P {(P (s_{1} | s_{i}, a_{j}), . . ., P (s_{| S |} | s_{i}, a_{j}))}_{α_{1, i, j}, . . ., α_{| S |, i, j}} = \frac{Γ (α_{i, j})}{Π_{k = 1}^{| S |} Γ (α_{k, i, j})} Π_{k = 1}^{| S |} P {(s_{k} | s_{i}, a_{j})}^{α_{k, i, j} - 1}

α_{i, j} = Σ_{k = 1}^{| S |} α_{k, i, j}

是所谓的“共轭先验”，其具有以下的后验参数：

α_{k, i, j}^{d} = α_{k, i, j} + n_{s_{k} | s_{i}, a_{j}} .

在此情况下，根据训练数据存在在执行行为a_j时所观察到的从s_i向s_k的转移。于是，P的初始的协方差矩阵内容如下：

{(Cov (P))}_{(i, j, k), (l, m, n)} = δ_{i, l} δ_{j, m} \frac{α_{k, i, j}^{d} (δ_{k, n} α_{i, j}^{d} - α_{n, i, j}^{d})}{{(α_{i, j}^{d})}^{2} (α_{i, j}^{d} + 1)}

在此，以转移概率的后验估计量

P (s_{k} | s_{i}, a_{j}) = α_{k, i, j}^{d} / α_{i, j}^{d}

为出发点。以类似的方式，将评价假设为正态分布，其中正态Gamma分布作为共轭先验。

替代基于贝叶斯方法确定初始的协方差，也可以使用频率论方法来确定初始的协方差。在频率论方法中，P(s′|s，a)通过所观察的转移的相对频率来建模，即适用：

P (s_{k} | s_{i}, a_{j}) = \frac{n_{s_{k} | s_{i}, a_{j}}}{n_{s_{i}, a_{j}}} .

于是协方差得出为：

{(Cov (P))}_{(i, j, k), (l, m, n)} = δ_{i, l} δ_{j, m} \frac{P (s_{k} | s_{i}, a_{j}) (δ_{k, n} - P (s_{n} | s_{i}, a_{j}))}{n_{s_{i}, a_{j}} - 1}

在此，Poisson近似是必要的简化，因为Cov(P(·|s_i，a_j))由此变为对角矩阵。Poisson近似在于以下的估计：

{(Cov (P))}_{(i, j, k), (l, m, n)} = δ_{i, l} δ_{j, m} δ_{k, n} \frac{P (s_{k} | s_{i}, a_{j})}{n_{s_{i}, a_{j}} - 1}

该近似譬如对于大的状态空间来说可能是令人感兴趣的，因为不确定性传播可以明显更快地进行。

为了对评价建模，在频率论方法中出发点是，从相同的状态-行为对出发的不同转移的评价在统计上彼此独立。于是，频率论近似在于平均观察的评价，其中Cov(R)变为对角矩阵并且呈现以下形式：

Cov (R (s_{i}, a_{j}, s_{k})) = \frac{var (R (s_{i}, a_{j}, s_{k}))}{n_{s_{k} | s_{i}, a_{j}} - 1}

使用共轭先验的贝叶斯方法以及频率论方法具有的优点是，它们可以以计算机支持的方式较好地处理。然而根据本发明的方法并不限于这些方法，并且任何有说服力的协方差矩阵Cov((P，R))都是允许的。特别地，如果在状态-行为空间中存在邻近(Nachbarschaft)的度量时，使用在以不同状态-行为对开始的转移之间以及在状态和评价之间的协方差可以是有意义并且有说服力的。

现在可以针对具有折扣因子0＜γ＜1的有限马尔可夫决策过程M＝(S，A，P，R)和作为任意的初始的对称的并且正定的协方差矩阵C⁰来证明，函数

(Q^m，C^m)＝(TQ^m-1，D^m-1C^m-1(D^m-1)^T)

几乎总是与初始的Q无关地为Bellman迭代提供唯一的固定点(Q^＊，C^＊)。

如果因此达到了Bellman迭代的固定点，即收敛的Q函数Q^＊，则也得到针对协方差的固定点，该固定点通过Cov(Q^＊)给出。现在通过协方差矩阵的对角项来说明通过Bellman迭代确定的Q函数Q^＊的不确定性，因为对角线示出Q值的方差。由此，对于Q^＊说明以下的不确定性：

σ Q^{*} = \sqrt{diag (Cov (Q^{*}))}

根据本发明规定了可调节的确定性参数ξ，该确定性参数代表根据应用情况所期望的、对Q函数的统计上的最低要求。基于该参数ξ(该参数根据Q的分布代表概率)，现在考虑以下的修改过的Q函数：

Q_{u}^{*} (s, a) = (Q^{*} - ξσ Q^{*}) (s, a)

该Q函数是根据本发明的方法的一个重要结果。当严格遵循行为选择规则π^*(s)＝arg max_a Q^*(s，a)时，该函数在状态s_i中执行行为a_j时提供所保证的期望性能。如果从Q的正态分布出发，则在选择ξ＝2的情况下得到概率P(2)≈0.977的保证性能Q^＊ _u。这意味着，Q函数以97.7％的概率呈现如下的值：在正态分布中在比期望值Q^＊小两个标准偏差的位置处，该值至少与Q函数的值一样大。

在图1中示例性地再现了Q函数的假设的正态分布。图1示出ξ的一个值，该值对应于该分布的标准偏差σ的两倍。在期望值Q^＊左边两个标准偏差的值Q^＊ _u于是如下对应于保证性能，即以P＝0.977的概率(该概率通过图1中的阴影面积表明)，质量函数的值大于或等于Q^＊ _u。通过改变参数ξ，由此可以改变所保证的最低性能。借助利用参数ξ来修改Q函数，现在可以确定合适的、确定性最优的行为选择规则，这将保证性能最大化。

由此，寻找行为选择规则，该行为选择规则关于事先规定的置信水平P(ξ)将保证性能Z(s，a)最大化。也就是说，寻找行为选择规则π，使得Z变得最大，并且适用：

&ForAll; s, a : P ({\overset{&OverBar;}{Q}}^{π} (s, a) > Z (s, a)) > P (ξ)

在此，Q^π表示π的真实性能函数，而P(ξ)是基于确定性参数ξ的预先确定的概率。根据本发明，可以通过以下方式来得到这种解，即通过Q_u ^π对Z进行近似以及在

Q^{π^{ξ}} = Q^{ξ}

是π^ξ的有效Q函数、即适用

&ForAll; i, j : Q^{ξ} (s_{i}, a_{j}) = Σ_{k = 1}^{| S |} P (s_{k} | s_{i}, a_{j}) (R (s_{i}, a_{j}, s_{k}) + γ Q^{ξ} (s_{k}, π^{ξ} (s_{k})))

的条件下，求解以下关系式

π^{ξ} (s) = \arg \max_{π} \max_{a} Q_{u}^{π} (s, a) = \arg \max_{π} \max_{a} (Q^{π} - ξσQπ) (s, a)

关于Bellman迭代，因此Q应当是固定点，不是相对于值函数作为所有可能的Q值的最大值，而是作为Q值的最大值减去其加权的不确定性。由此，在每个迭代步骤中，行为选择规则被选择为：

π^{m} (s) = \arg \max_{a^{'}} (Q^{m} - ξσ Q^{m}) (s, a^{'}),

更确切地说，与关于π^m的不确定性的更新一同通过应用不确定性传播来进行。以这种方式，产生由Bellman迭代和不确定性传播得到的交叠迭代。

为了确定行为选择规则π^m应考虑的是，行为选择规则可以是确定的或者随机的。可以证明，使Q函数最大化的最优行为选择规则对于马尔可夫决策过程始终是确定的。然而对于上面的确定性最优的行为选择规则，情况并非如此。特别地，如果π是所确定的行为选择规则，则对于ξ＞0，与ξσQ(s，a)，a≠π(s)相比存在有利于ξσQ(s，π(s))的高度的偏差，因为与R(s，a，s′)，a≠π(s)相比，评价R(s，π(s)，s′)更强地取决于V(s′)＝Q(s′，π(s′))。值函数暗示针对所有将来出现的状态s的行为的选择。因此，在使用确定的行为选择规则时，并不确保收敛。也就是说，行为选择规则π至π′的变化(其中Q(s，π′(s))-ξσQ(s，π′(s))＞Q(s，π(s))-ξσQ(s，π(s)))会导致在状态s上π′的更大的不确定性，这在下一迭代步骤中对于Q′导致Q′(s，π′(s))-ξσQ′(s，π′(s))＜Q′(s，π(s))-ξσQ′(s，π(s))。这引起振荡，该振荡可以通过使用随机的行为选择规则来避免。

可以直观地看出，确定性最优的行为选择规则通常必须是随机的，因为性能的增益及其不确定性必须被均衡。最后，也通过将行为选择规则分散到合适的行为的集合上来降低差的行为选择规则的风险。最后，确定性参数ξ决定确定性的成本。当ξ＞0为大时，确定性最优的行为选择规则更可能是随机的，然而由此实现的确定性的增益导致更低的性能，而ξ≤0保证确定的确定性最优的行为选择规则。然而这些行为选择规则关于性能不太确定，然而具有更大的实现更好的性能的机会。在这里所描述的实施形式中，随机的不确定性作为随机的行为选择规则在Bellman迭代中如下实现：

(\begin{matrix} Q^{m} \\ C^{m} \\ π^{m} \end{matrix}) = (\begin{matrix} {TQ}^{m - 1} \\ D_{m - 1} C^{m - 1} D_{m - 1}^{T} \\ Λ (π^{m - 1}, {TQ}^{m - 1}, m) \end{matrix})

其中

Λ (π, Q, t) (s, a) = \{\begin{matrix} \min (π (s, a) + \frac{1}{t}, 1) : a = a_{Q} (s) \\ \frac{\max (1 - π (s, a_{Q} (s)) - \frac{1}{t}, 0)}{1 - π (s, a_{Q} (s))} π (s, a) : sonst \end{matrix}\}

并且a_Q(s)＝arg max_a(Q-ξσQ)(s，a)。一致地减小的改变行为选择概率的速率保证每个随机的行为选择规则的可实现性以及收敛。

下面再次总结前面描述的、Q函数以及行为选择规则的学习：

初始化：基于训练数据预先给定了转移概率P和评价R的估计以及初始的协方差矩阵Cov(P)、Cov(R)和Cov(P，R)。此外，确定了确定性参数ξ。

在假设通过Cov(P)、Cov(R)和Cov(P，R)给出的观察和后验参数的情况下，执行确定性最优的Q函数和行为选择规则π的如下计算：

设

C = (\begin{matrix} 0 & 0 & 0 \\ 0 & Cov (P) & Cov (P, R) \\ 0 & Cov {(P, R)}^{T} & Cov (R) \end{matrix})

设

&ForAll; i, j : Q (s_{i}, a_{j}) = 0, &ForAll; i, j : π (s_{i}, a_{j}) = \frac{1}{| A |}, t = 0

重复以下循环，直到达到了期望精度：

设t＝t+1

设

&ForAll; i, j : (σQ) (s_{i}, a_{j}) = \sqrt{C_{i | A | + j, i | A | + j}}

得到

&ForAll; i : a_{i, \max} = \arg \max_{a_{j}} (Q - ξσQ) (s_{i}, a_{j})

设

&ForAll; i : d_{i, diff} = \min (\frac{1}{t}, 1 - π (s_{i}, a_{i, \max}))

设

&ForAll; i : π (s_{i}, a_{i, \max}) = π (s_{i}, a_{i, \max}) + d_{i, diff}

设

&ForAll; i : &ForAll; α_{j} &NotEqual; α_{i, \max} : π (s_{i}, a_{j}) = \frac{1 - π (s_{i}, a_{i, \max})}{1 - π (s, a_{i, \max}) + d_{i, diff}} π (s_{i}, a_{j})

设

&ForAll; i, j : Q^{'} (s_{i}, a_{j}) = Σ_{k = 1}^{| S |} P (s_{k} | s_{i}, a_{j}) (R (s_{i}, a_{j}, s_{k}) + γ Σ_{l = 1}^{| A |} π (s_{k}, a_{l}) Q (s_{k}, a_{l}))

设Q＝Q′

设

D = (\begin{matrix} D_{Q, Q} & D_{Q, P} & D_{Q, R} \\ 0 & I & 0 \\ 0 & 0 & I \end{matrix})

设C＝DCD^T

循环结束

返回：Q-ξσQ和π。

上述方法的时间复杂性比在标准Bellman迭代的情况下更高，针对离散马尔可夫决策过程，该时间复杂性为O(|S|²|A|)。花费最高的过程在于利用Ω((|S||A|)²log((|S||A|)))和O((|S||A|)^2.376)之间的时间复杂性来更新协方差矩阵，因为Q的每项取决于P和R中的最多Ω(|S|)个项。然而由此时间复杂性总体上仍然通过这些数量级来限制。如果将行为的数目视为通过常数来限制，则与标准Bellman迭代相比，这里所描述的方法至少慢Ω(log(|S|))，然而最多慢O(|S|^0.376)。

如果在行为a_j之后遵循随机的行为选择规则π^ξ，则在使用行为a_j的情况下以及在由先验假设和观察得到的后验假设的情况下，函数

Q_{u}^{ξ} (s_{i}, a_{j}) = (Q^{ξ} - ξσ Q^{ξ}) (s_{i}, a_{j})

(其中(Q^ξ，C^ξ，π^ξ)作为针对给定的确定性参数ξ∈R的随机交叠Bellman迭代的固定点)在状态s_i提供保证的期望性能(具有概率P(ξ))。特别地，该性能对于确定性参数ξ的特殊选择而言是最大的。

在前面针对离散情况、即针对具有有限的状态空间的马尔可夫决策过程描述了根据本发明的方法。然而，该方法也可以以简单的方式应用于其他应用情况，在这些情况中状态或行为是连续的，并且状态空间或者行为空间不受限制。

利用前面所描述的方法，可以根据应用情况针对技术系统实现不同类型的控制方案或调节方案。

一种应用情况是通过不确定性传播的质量保证。对于给定的或者最优的行为选择规则，利用正的ξ来确定保证的最低性能。此外，确定性最优的方案能够实现对该最低性能进行优化。对此的主要动机在于，利用根据本发明的方法不产生低质量的行为选择规则，并且减小尽管看起来性能良好但得到不合适的行为选择规则的风险。正是对不确定性的具体量化的访问能够实现对结果的可信性(Vertrauenswuerdigkeit)的判断。如果在规定的起始状态的保证性能不够，则必须从技术系统收集训练数据形式的其他观察。

如果研究昂贵，然而要控制的技术系统是确定性关键的，使得必须决定性地满足某一性能概率，则有意义的是，利用确定性最优的方案。为了有利于规定的百分位(即可能的改进的Q值的确定百分比)的最优性，放弃期望值的最优性。

第二种应用情况是竞赛和研究的对称情况。在此，对于负的ξ，通过利用高性能的机会以相反方式来使用不确定性。这对于有目的性的研究而言是特别感兴趣的，使得加强地研究状态-行为对，对于这些状态-行为对Q_u ^ξ(s，a)是大的，因为对于相应的Q值而言估计量已经是大的，但是真实性能还可以明显更好。

另一应用领域是竞赛情况，这些竞赛情况可以与质量保证准确对称地来描述。在此应当遵循一种行为选择规则，该行为选择规则提供极好地切断(abschneiden)并且最终赢得竞赛的机会。在这种情况下，确定性最优的方案也开始起作用，因为不是期望性能而是百分位性能为决定性的标准并且应当被最大化。

另一应用情况是在实际应用中提高信息效率。除了质量保证之外，这里所描述的方法的一个主要目的在于改进信息效率。考虑不确定性在强化学习方法的情况下甚至可以改进在许多实际的和工业的应用中具体马尔可夫决策过程的期望性能，其中在这些应用中研究昂贵并且只能在规定的工作点附近的有限范围中进行。因此，可用的数据集是小的并且研究以部分极其不对称的方式进行，使得仅仅在如下状态范围内收集数据，对于这些状态范围在技术系统中已经优选地进行了操作。许多这些不充分地研究的所谓的边缘状态虽然在期望值中是不受欢迎的，但是在个别情况中并非必然如此。当边缘足够大时，则离群值(Ausreisser)之一假冒高的评价至少发生数次。要注意的是，边缘区的大小随着状态空间的维数而增大。因此，对不确定性的谨慎考虑导致：该方法使这种离群值在其行为选择规则中不被考虑，并且执行可靠地导致高性能的行为。

根据本发明的方法的上述实施形式被应用于具有连续状态空间和有限行为集合的燃气涡轮机控制。内部的状态空间根据三个精确度、即精确度C＝粗糙(对应于256个状态)、精确度M＝中等(对应于625个状态)和精确度F＝精细(对应于1296个状态)来应用。高维数的状态空间在此被降低到近似的四维马尔可夫状态空间。在出版物[1]中可以找到对最小马尔可夫状态空间的问题和结构的准确的描述。

所确定的性能(具有短的随机事件(Episode)的50次运行，这些事件在不同的工作点开始)在根据图2的表格中被再现为平均的评价。在此，在行L1中使用了转移概率的频率论建模，而在行L2中使用了贝叶斯建模。评价利用均匀的正态Gamma分布被估计为共轭先验，其中σ＝∞并且α＝β＝0。在相应的行L1和L2中可以找到粗离散化C、中等离散化M和精细离散化F的结果。在列0中给出了观察的数目，其始终为10⁴。在列0的右边的列中以针对确定性参数ξ的不同值的平均评价的形式再现了平均性能，其中ξ＝0对应于根据标准Bellman迭代对行为选择规则的传统确定。利用粗离散化C，性能最高。如果对所有离散化求平均，则频率论方法的结果好于贝叶斯方法的结果。总体上最佳的性能在ξ＝5的情况下利用频率论方法的粗离散化C来实现，然而在ξ＝3的情况下贝叶斯方法也提供可比较的结果。由图2特别可以看出，利用根据本发明的方法(即ξ≠0)实现的性能好于利用传统方法(ξ＝0)实现的性能。

文献索引：

[1]2007年关于神经网络的国际联合会议的论文集(Proc.Of theInternational Joint Conference on Neural Networks，2007)中由AntonMaximilian Schaefer，Daniel Schneegass，Volkmar Sterzing和SteffenUdluft所著的：A neural reinforcement learning approach to gas turbinecontrol。

Claims

1.一种用于计算机支持地学习技术系统的控制和/或调节的方法，其中所述技术系统的运行的特征在于：状态(s)，所述技术系统在运行中能够呈现该状态；以及行为，这些行为在所述技术系统的运行中被执行并且将所述技术系统的相应状态(s)转化到随后状态中，其中：

-基于在所述技术系统的运行中所采集的、包括状态(s)、行为(a)和随后状态(s′)的训练数据来学习质量函数(Q)和行为选择规则(π(s))，其中所述质量函数(Q)对所述技术系统的最优运行进行建模，并且所述行为选择规则(π(s))说明在所述技术系统的运行中针对所述技术系统的相应状态(s)应优选地执行的行为(a)或应执行的行为(a)；

-在学习所述质量函数(Q)和所述行为选择规则(π(s))期间，借助不确定性传播来确定所述质量函数(Q)的统计不确定性的度量(σQ)，并且根据所述统计不确定性的度量(σQ)和对应于对所述质量函数(Q)的统计最低要求的确定性参数(ξ)来确定修改后的质量函数；

-其中基于所述修改后的质量函数来学习所述行为选择规则(π(s))。

2.根据权利要求1所述的方法，其中在考虑评价(R)和状态-行为概率(P)的情况下学习所述质量函数(Q)，其中相应的评价(R)鉴于所述技术系统的最优运行对状态(s)、在该状态中执行的行为(a)以及随后状态(s′)的组合的质量进行评价，并且相应的状态-行为概率(P)根据状态和在该状态中执行的行为(a)说明随后状态(s′)的概率(P)。

3.根据权利要求2所述的方法，其中所述状态-行为概率(P)作为状态-行为概率分布来建模和/或所述评价(R)作为评价概率分布来建模。

4.根据权利要求3所述的方法，其中所述状态-行为概率分布和/或所述评价概率分布作为相对频率根据所述训练数据来建模。

5.根据权利要求3或4所述的方法，其中所述状态-行为概率分布和/或所述评价概率分布基于具有后验参数的先验分布来估计，其中所述后验参数取决于所述训练数据。

6.根据权利要求5所述的方法，其中所述先验分布是Dirichlet分布和/或正态分布。

7.根据上述权利要求之一所述的方法，其中基于Bellman迭代来学习所述质量函数(Q)和所述行为选择规则(π(s))，其中在每个迭代步骤中确定新的质量函数(Q)以及该质量函数(Q)的统计不确定性的新的度量，并且由此确定新的修改后的质量函数。

8.根据权利要求7结合权利要求2至6之一所述的方法，其中在Bellman迭代的每个迭代步骤中，为了确定统计不确定性的新的度量，根据在迭代步骤中确定的质量函数(Q)、状态-行为概率(P)和评价(R)来确定协方差矩阵。

9.根据上述权利要求之一所述的方法，其中要学习的行为选择规则是随机的行为选择规则(π(s))，该行为选择规则针对所述技术系统的状态(s)说明可执行的行为(a)的概率分布。

10.根据权利要求9结合权利要求7或8所述的方法，其中在Bellman迭代的每个迭代步骤中确定一种概率分布作为可执行的行为(a)的新的概率分布，该概率分布修改最后的迭代步骤的概率分布，使得将更高的概率分配给使修改后的质量函数的值最大化的行为(a)。

11.根据上述权利要求之一所述的方法，其中基于所述确定性参数(ξ)确定对所述质量函数(Q)的统计最低要求。

12.根据权利要求11所述的方法，其中对所述质量函数(Q)的统计最低要求通过最小质量函数值以及概率值来代表，其中所述概率值说明所述质量函数的值以何种概率大于或等于所述最小质量函数值。

13.根据权利要求11或12所述的方法，其中为了确定对所述质量函数(Q)的统计最低要求，假设所述质量函数(Q)的高斯分布。

14.根据上述权利要求之一所述的方法，其中利用该方法来学习涡轮机、特别是燃气涡轮机的控制和/或调节。

15.一种用于运行技术系统的方法，其中该技术系统基于利用根据上述权利要求之一所述的方法来学习的控制和/或调节通过以下方式来运行，即利用所学习的行为选择规则在所述技术系统的相应状态(s)中选择要执行的行为(a)。

16.根据权利要求15所述的方法，其中在所述技术系统的运行期间重复根据权利要求1至14之一所述的方法，其中在每次重复时，所述技术系统新呈现的状态(s)和所执行的行为(a)被考虑作为训练数据。

17.一种计算机程序产品，该计算机程序产品具有存储于机器可读载体上的程序代码，用于当该程序在计算机上运行时执行根据上述权利要求之一所述的方法。