CN105074586A

CN105074586A - 用于计算机辅助地控制和/或调节技术系统的方法

Info

Publication number: CN105074586A
Application number: CN201480018380.XA
Authority: CN
Inventors: S.迪尔; A.亨切尔; S.尤德卢夫特
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2013-03-26
Filing date: 2014-01-22
Publication date: 2015-11-18
Also published as: EP2943841B1; WO2014154375A1; US9926853B2; US20160040603A1; EP2943841A1

Abstract

本发明涉及一种用于计算机辅助地控制和/或调节技术系统的方法。在根据本发明的方法的范围内确定行动选择策略（PO’），所述行动选择策略具有低的复杂性，但是却较好地适合于调节或控制所述技术系统。在此在确定所述行动选择策略（PO’）时使用评估尺度（EM），在距离尺度或奖励尺度或行动选择策略-评估方法的基础上确定所述评估尺度。随后将所述行动选择策略用于控制或调节所述技术系统。根据本发明的方法具有以下优点：所述行动选择策略可被人类专家所理解。优选将根据本发明的方法用于调节或控制燃气涡轮机和/或风力涡轮机。

Description

用于计算机辅助地控制和/或调节技术系统的方法

技术领域

本发明涉及一种用于计算机辅助地控制和/或调节技术系统的方法以及一种相应的计算机程序产品。

背景技术

经常在计算机辅助的方法的基础上调节复杂的技术系统、比如燃气涡轮机或风力涡轮机，所述计算机辅助的方法在训练数据和相应的优化准则的基础上确定行动选择策略（英语：Policy）。该行动选择策略指明，在所述系统的相应的状态中应该在所述技术系统上实施何种行动。由此比如可以实现以较高的效率来运行所述技术系统。对于燃气涡轮机来说，此外必要时可以降低燃烧室动力或排放。对于风力涡轮机来说，比如也可以对吊舱关于风的定向进行优化。

为了确定相应的、用于技术系统的行动选择策略，通常使用麻烦的回归法、比如神经网络。但是，这些回归法具有以下缺点：它们产生复杂的行动选择策略，所述复杂的行动选择策略不再能够被人类专家所解释或理解。因此，缺乏可理解性的复杂的行动选择策略有时候不被使用在技术系统的运行中。从现有技术中已知一些方法，利用这些方法来产生具有更小的复杂性的行动选择策略，比如方法是：通过具有较小规模的状态来表示所述技术系统或者使用更加简单的回归法。但是，这些方案经常导致对于所述对技术系统的控制或调节来说非最优的行动选择策略。

发明内容

因此，本发明的任务是，提供一种用于计算机辅助地控制和/或调节技术系统的方法，所述方法使用具有较小的复杂性的、较好地适合于所述技术系统的行动选择策略。

该任务通过独立权利要求来解决。本发明的改进方案在从属权利要求中被阐明。

下面在步骤a）到c）的基础上对根据本发明的方法进行解释。这些步骤的名称仅仅用于更好参照其中所包含的特征，并且没有规定实施的顺序。特别地，特定的步骤也可以并行地实施或交织到彼此当中。

根据本发明的方法用于计算机辅助地控制和/或调节技术系统。按照步骤a），就多个时刻而言所述技术系统的动态行为分别以所述技术系统的状态和在所述技术系统上所执行的行动为特征，其中在相应的时刻的相应的行动引起所述技术系统在接下来的时刻的新的状态。术语“状态”或“行动”在此要广义地来理解。状态特别地可以包括具有一个或多个状态变量的状态矢量。在相应的（当前的）时刻的状态除了在当前时刻的状态矢量之外还可以可选地包括一个或多个在一个或多个先前的时刻的状态矢量，由此对在有限的时间水平范围内的状态的历史加以考虑。同样，行动可以是由多个行动变量构成的矢量。

在根据本发明的方法的步骤b）中提供和/或产生（多个）行动选择策略，其中相应的行动选择策略至少根据所述技术系统在相应的时刻的状态指定在相应的时刻有待在所述技术系统上执行的行动，并且其中为每个行动选择策略分配了一个复杂性尺度，所述复杂性尺度描述了相应的行动选择策略的复杂性，所述复杂性小于或者小于等于预先确定的复杂性阈值。所述复杂性尺度在此可以以不同的方式来定义，其中下面进一步给出了这样的复杂性尺度的实例。

在根据本发明的方法的步骤c）中，借助于对于评估尺度的计算从所提供的和/或所产生的行动选择策略中确定所提供的和/或所产生的行动选择策略的具有最高评估尺度的行动选择策略，其中所述评估尺度相应地描述了行动选择策略用于对所述技术系统进行调节和/或控制的适宜性。更高的评估尺度在此描述所述行动选择策略用于对技术系统进行调节和/或控制的更好的适宜性。在特定的实施方式中，可以并行地或彼此交织地实施所述步骤b）和c）。比如可以首先产生特定的行动选择策略，并且随后可以抛弃具有较差的评估尺度的行动选择策略的一部分。随后又产生新的行动选择策略，并且以相同的方式又抛弃相应的行动选择策略。特别地，在使用进一步在下面描述的基因编程或粒子群优化时所述步骤b）和c）交织在彼此当中。

按照本发明，相应的行动选择策略的、在步骤c）的范围内所计算的评估尺度可以取决于以下三个参量中的一个或多个参量：

-所述相应的行动选择策略与预先给定的最佳的行动选择策略之间的距离尺度，其中减小的距离尺度表示更高的评估尺度，并且其中所述预先给定的最佳的行动选择策略优选建立在神经网络（比如循环神经网络）的基础上；

-奖励尺度，在执行所述相应的行动选择策略时在对于所述技术系统的模拟中产生所述奖励尺度，其中更高的奖励尺度引起更高的评估尺度，并且其中所述模拟优选建立在神经网络（比如循环神经网络）的基础上；

-用于所述相应的行动选择策略的质量尺度，借助于行动选择策略-评估方法（英语：PolicyEvaluationMethod）来确定所述质量尺度，其中更高的质量尺度引起更高的评估尺度。

上面所描述的奖励尺度根据所述技术系统的运行的、预先确定的最佳化准则来确定，其中鉴于所述最佳化准则更高的奖励尺度确定了对于所述技术系统的更好的控制或调节。在行动选择策略-评估方法的基础上确定质量尺度，这一点本身从现有技术中已知。特别地，已知不同种类的行动选择策略-评估方法。在一种优选的实施方式中，使用“合适策略评估方法（FittedPolicyEvaluationMethod）”（参见文献[1]）。

在步骤c）中确定所述行动选择策略之后，最后用该行动选择策略在步骤d）中对所述技术系统进行调节和/或控制。

根据本发明的方法能够用具有较小的复杂性的行动选择策略来对技术系统进行调节或控制，另外所述行动选择策略通过确定合适的评估尺度保证所述技术系统的尽可能最佳的运行。由于降低了所述行动选择策略的复杂性，所述行动选择策略能够更为容易地被人所理解，从而更容易接受利用这种行动选择策略对所述技术系统进行的计算机辅助的控制或调节。

在一种特别优选的实施方式中，相应地通过函数关系来表示所提供的或所产生的行动选择策略，所述函数关系至少基于所述技术系统在相应的时刻的状态提供有待在相应的时刻执行的行动。术语“函数关系”在此应该广义地来理解，并且可以包括每种任意类型的函数或函数组合或数学表达式。特别地，所述函数关系可以包括可调节的参数，其中通过对于相应的参数值的确定来定义行动选择策略。

在根据本发明的方法中所使用的复杂性尺度可以通过不同的方式和方法来定义。不同的、用于确定复杂性尺度的方法在此从现有技术中已知（比如参见文献[2]）。在一种特别优选的实施方式中，通过所述函数关系的描述长度来表示所述复杂性尺度，其中所述描述长度越小，根据所述复杂性尺度的复杂性就越小。所述描述长度在一种特别优选的实施方式中包括所述函数关系的二进制表示或者ASCII表示的长度和/或通过所述函数关系来表示的分析树中的节点的数目和/或所述函数关系的可调节的参数的数目。在此，所述函数关系的二进制表示或者ASCII表示的长度越小或者说所述分析树中的节点的数目越小或者说所述可调节的参数的数目越小，根据所述复杂性尺度的复杂性就越小。在此通过相应的二进制代码或ASCII码的长度来表示所述二进制表示或ASCII表示的长度。从函数关系中编制分析树，这一点本身从现有技术中为人所知并且因此不作详细解释。

在根据本发明的方法的另一种变型方案中，在步骤b）中所提供的行动选择策略建立在专家知识的基础上。也就是说，由专家来预先给定所述行动选择策略。这些行动选择策略被保存在存储器中并且在所述方法的步骤b）中被读出。

在根据本发明的方法的另一种特别优选的变型方案中，借助于基因编程和/或在粒子群优化的基础上实施所述步骤b）和c）。在这些方法中，逐步地产生新的行动选择策略，并且将其添加到总体中，其中又将具有较差的评估尺度的行动选择策略从所述总体中抛弃。用于进行基因编程或粒子群优化的方法在现有技术中被充分公开，并且因此不再进一步详细描述。

在根据本发明的方法的另一种设计方案中，在步骤b）中如此产生所述行动选择策略，从而从预先确定的最佳的行动选择策略中推导出所述行动选择策略。所述预先确定的最佳的行动选择策略在此可以相当于来自根据本发明的方法的步骤c）的、预先给定的最佳的行动选择策略。所述预先确定的最佳的行动选择策略通常具有相应的复杂性尺度，所述复杂性尺度的复杂性显著高于所述预先确定的复杂性阈值。优选通过借助于函数关系来近似所述预先确定的最佳的行动选择策略的方式推导出所述行动选择策略，所述函数关系表示具有相应的复杂性的复杂性尺度，所述相应的复杂性小于或者小于等于预先确定的复杂性阈值。

在根据本发明的方法的另一种变型方案中，在步骤c）中如此确定所述距离尺度，从而从所述预先给定的最佳的行动选择策略中产生一个或多个行动，并且从所述相应的行动选择策略中产生一个或多个行动，并且确定从最佳的行动选择策略中产生的一个或多个行动与从相应的行动选择策略中产生的一个或多个行动之间的偏差。更大的偏差在此表示更大的距离尺度，并且由此表示更低的评估尺度。所述偏差比如可以是平方偏差。

根据本发明的方法尤其适合于对构造为燃气涡轮机和/或风力涡轮机的形式的技术系统进行调节或控制。

在燃气涡轮机的情况下，所述燃气涡轮机的状态优选包括以下参量中的一个或多个参量：

-所述燃气涡轮机上一个或多个位置上的温度和/或压力，尤其是环境温度和/或环境压力和/或压缩机温度和/或压缩机压力和/或燃烧室中的温度和/或燃烧室中的压力；

-所述燃气涡轮机上一个或多个位置上的空气湿度；

-所述燃气涡轮机中的燃烧室加速度；

-所述燃气涡轮机的有害物质排放、尤其是氧化氮排放；

-由所述燃气涡轮机产生的功率。

相对于此，有待在所述燃气涡轮机上执行的行动优选包括对一个或多个燃料喷射阀进行的调节的变化和/或所述燃气涡轮机的一个或多个叶片、比如进口导向叶片的位置的变化。

在所述技术系统是风力涡轮机的情况下，所述风力涡轮机的状态优选包括以下参量中的一个或多个参量：

-所述风力涡轮机上一个或多个位置上的温度和/或压力和/或空气湿度、尤其是环境温度和/或环境压力和/或环境空气湿度；

-所述风力涡轮机上的风力；

-由所述风力涡轮机产生的功率。

相对于此，有待在所述风力涡轮机上执行的行动优选包括所述风力涡轮机的转子的转子叶片的迎角的变化和/或所述风力涡轮机的转子相对于风的定向的变化。

除了上面所描述的方法之外，本发明此外涉及一种计算机程序产品，该计算机程序产品具有被保存在机器可读的载体上的程序，所述程序用于当其在计算机上运行时实施根据本发明的方法或根据本发明的方法的一个或多个优选的变型方案。

附图说明

下面借助于附图1来对本发明的一种实施例进行描述。该图以示意性的图示示出了根据本发明的方法的一种变型方案的流程图。

具体实施方式

下面所描述的实施方式能够确定用于对技术系统进行控制或调节的行动选择策略，所述行动选择策略具有较低的复杂性并且由此可以被所述技术系统的操作者或人类专家所理解。此外，所述行动选择策略具有高的评估尺度，该评估尺度表示行动选择策略用于对所述技术系统进行调节或控制的适宜性。如已经在前面所描述的那样，所述方法尤其适合于对燃气涡轮机或风力涡轮机进行调节和/或控制。

图1的方法的、用附图标记S（S=开始）表示的起点是对有待调节或控制的技术系统关于在相应的时刻的状态x的动态行为的描述以及在该时刻所实施的、导致后续状态x’的行动a的描述。所述状态在此可以是具有大量的状态变量的状态矢量。同样，行动可以通过具有多个行动变量的矢量来表示。

在图1的方法的步骤S1中提供了大量的行动选择策略PO，为所述行动选择策略分别分配了一个低于预先给定的复杂性阈值CT的复杂性尺度CM。在这里所描述的变型方案中，所述行动选择策略由专家来预先给定，并且在此通过具有预先确定数目的自由的（即可调节的）参数的函数来表示，其中参数的数目决定所述复杂性尺度CM。在此将所述自由的参数的数目选择得如此之小，从而从中产生低于所述复杂性阈值CT的复杂性尺度。

最后在步骤S2中借助于粒子群优化（简称PSO）从步骤S1的所提供的行动选择策略中产生另外的行动选择策略PO。在此，新的行动选择策略通过改变所述自由的参数来产生，所述自由的参数被添加到所述行动选择策略的总体中。随后在评估尺度EM的基础上对所述新的行动选择策略进行评估。更高的评估尺度在此表示行动选择策略用于调节或控制所述技术系统的更好的适宜性。因为仅仅对由专家预先给定的行动选择策略中的自由的参数进行优化，所以保证了所有新的行动选择策略都具有低于所述复杂性阈值CT的复杂性尺度CM。在所述粒子群优化的范围内，逐步地抛弃具有较低的评估尺度的行动选择策略，并且又总是将新的行动选择策略添加到所述总体中，直至最后在中止准则的基础上从所述总体中确定具有最高的评估尺度的行动选择策略PO’。

刚刚所解释的步骤S1和S2可以被概括如下：

-专家确定具有自由的参数的行动选择策略（函数）。

例如：x是系统的状态变量。专家认为，最佳的行动选择策略（a是行动）通过以下公式来描述：

a=sin(k*x)-g*x²

其中k、g是自由的参数。

-PSO在所述评估尺度的基础上寻找用于这些自由的参数的、最佳的（数字的）数值。

例如：PSO发现K=2.704并且g=-0.629为最佳。

-具有被PSO判定为最佳的参数-数值的行动选择策略成为行动选择策略PO’（对于上述事例来说即a=sin(2.704*x)+0.629*x²）。

最后在步骤S3中将所确定的行动选择策略PO’用于对所述技术系统进行调节或控制。也就是说，在所述技术系统的、当前的状态以及必要时附加的过去的状态的基础上，借助于所述行动选择策略PO’来确定在当前时刻在所述技术系统上执行的行动。

可以通过不同的方式和方法来确定在步骤S2中所计算的评估尺度EM。在一种变型方案中，所述评估尺度表示在相应的行动选择策略与预先给定的最佳的行动选择策略之间的、上面所描述的距离尺度。同样，所述评估尺度可以表示上面所描述的奖励尺度或上面所描述的质量尺度或由所述距离尺度、所述奖励尺度和所述质量尺度构成的组合。也可以取代粒子群优化而在上面所描述的方法的步骤S2中将其他方法用于确定所述行动选择策略PO’。比如可以使用本身已知的基因编程。

下面对用于借助于基因编程来确定行动选择策略的步骤S1和S2的一种变型方案进行解释。

在步骤S1中，由专家来预先给定函数的组成部分，比如sin(x)、exp(x)，其中x表示具有相应的状态变量的技术系统的状态。通过在所述状态变量的基础上将函数的组成部分随机组合成有效的数学公式的这种方式，来产生开始的行动选择策略PO。所述产生过程在此保证了，仅仅产生相应的行动选择策略，所述行动选择策略的复杂性尺度不超过所述复杂性阈值CT。最后，在步骤S2中借助于所述基因编程从所述步骤S1的、所提供的行动选择策略中确定另外的行动选择策略PO。在此产生新的行动选择策略，将所述新的行动选择策略添加到所述行动选择策略的总体中。随后在评估尺度EM的基础上对所述新的行动选择策略进行评估。更高的评估尺度在此表示行动选择策略用于对所述技术系统进行调节或控制的更好的适宜性。通过所述基因编程来保证，所有新的行动选择策略都具有低于所述复杂性阈值CT的复杂性尺度CM。在所述基因编程的范围内，逐步地抛弃具有较低的评估尺度的行动选择策略，并且又总是将新的行动选择策略添加到所述总体中，直至最后在中止准则的基础上从所述总体中确定具有最高的评估尺度的行动选择策略PO’。

刚刚所解释的步骤S1和S2可以被概括如下：

-专家确定具有自由的参数的行动选择策略的函数的组成部分。

例如：专家定义，在用于所述行动a的行动选择策略中可以使用以下数学的组成部分：

乘法、加法、减法,

正弦、余弦，

状态变量x，

用数字表示的常数（即任意的固定的数字）。

-所述基因编程企图由所述数学的组成部分组成用于行动选择策略的公式，所述行动选择策略具有尽可能高的评估尺度并且不超过预先给定的复杂性尺度。

例如：基因编程确定了，下面的行动选择策略为最佳：a=sin(2.704*x)+0.629*x*x。

-而后该行动选择策略成为所述行动选择策略PO’。

本发明的、前面所描述的实施方式具有一系列优点。特别是用具有较小的复杂性的行动选择策略实现了对于技术系统的调节或控制。所述行动选择策略由此能够被所述技术系统的操作者或人类专家所理解，并且引起了对于所述技术系统的通过行动选择策略来实施的调节或控制的更高的可接受性。此外还保证了，虽然所述行动选择策略复杂性较小但是其仍十分好地适合于控制或调节所述技术系统。

参考文献：

[1]L.Busoniu,D.Ernst,B.DeSchutter,R.Babu?ka,"ApproximateReinforcementLearning:AnOverview",AdaptiveDynamicProgrammingAndReinforcementLearning,IEEEConferenceProceedings,2011

[2]S.Silva,M.Castelli,L.Vanneschi,"MeasuringBloat,OverfittingandFunctionalComplexityinGeneticProgramming",Proceedingsofthe12thannualconferenceonGeneticandevolutionarycomputation,pages877-884,ACMNewYork,NY,2010。

Claims

1.用于计算机辅助地控制和/或调节技术系统的方法，其中：

a）就多个时刻而言所述技术系统的动态行为分别以所述技术系统的状态（x）和在所述技术系统上所执行的行动（a）为特征，其中在相应的时刻的相应的行动（a）引起所述技术系统在接下来的时刻的新的状态（x’）；

b）提供和/或产生行动选择策略（PO），其中相应的行动选择策略（PO）至少根据所述技术系统在相应的时刻的状态指定在相应的时刻有待在所述技术系统上执行的行动（a），并且其中为每个行动选择策略（PO）分配了一个复杂性尺度（CM），所述复杂性尺度描述了相应的行动选择策略（PO）的复杂性，所述复杂性小于或者小于等于预先确定的复杂性阈值（CT）；

c）借助对于评估尺度（EM）的计算从所提供的和/或所产生的行动选择策略（PO）中确定所提供的和/或所产生的行动选择策略（PO）的具有最高的评估尺度（EM）的行动选择策略（PO’），其中所述评估尺度相应地描述了行动选择策略（PO）用于对所述技术系统进行调节和/或控制的适宜性，其中更高的评估尺度（EM）描述了所述行动选择策略（PO）用于对所述技术系统进行调节和/或控制的更好的适宜性，并且其中相应的行动选择策略（PO）的评估尺度（EM）取决于

-所述相应的行动选择策略（PO）与预先给定的最佳的行动选择策略之间的距离尺度，其中减小的距离尺度表示更高的评估尺度（EM）；和/或

-奖励尺度，在执行所述相应的行动选择策略（PO）时在所述技术系统的模拟中产生所述奖励尺度，其中更高的奖励尺度引起更高的评估尺度；和/或

-用于所述相应的行动选择策略（PO）的质量尺度，借助于行动选择策略-评估方法来确定所述质量尺度，其中更高的质量尺度引起更高的评估尺度（EM）；

d）基于在步骤c）中所确定的行动选择策略（PO’）来调节和/或控制所述技术系统。

2.根据权利要求1所述的方法，其中通过函数关系来表示所提供的和/或所产生的行动选择策略（PO），所述函数关系至少基于所述技术系统在相应的时刻的状态提供在所述相应的时刻有待执行的行动（a）。

3.根据权利要求2所述的方法，其中通过所述函数关系的描绘长度来表示所述复杂性尺度（CM），其中所述描述长度越小，根据所述复杂性尺度的复杂性就越小，其中所述描述长度包括所述函数关系的二进制表示或者ASCII表示的长度和/或通过所述函数关系来表示的分析树中的节点的数目和/或所述函数关系的可调节的参数的数目，其中所述函数关系的二进制表示或者ASCII表示的长度越小或者说所述分析树中的节点的数目越小或者说所述可调节的参数的数目越小，根据所述复杂性尺度（CM）的复杂性就越小。

4.根据前述权利要求中任一项所述的方法，其中在步骤b）中所提供的行动选择策略建立在专家知识的基础上。

5.根据前述权利要求中任一项所述的方法，其中借助于基因编程和/或在粒子群优化的基础上实施所述步骤b）和c）。

6.根据前述权利要求中任一项所述的方法，其中在步骤b）中如此产生所述行动选择策略（PO），从而从预先确定的最佳的行动选择策略中推导出所述行动选择策略（PO）。

7.根据权利要求6所述的方法，其中通过借助于函数关系来近似所述预先确定的最佳的行动选择策略的方式来推导出所述行动选择策略（PO），所述函数关系表示具有以下复杂性的复杂性尺度（CM），所述复杂性小于或者小于等于所述预先确定的复杂性阈值（CT）。

8.根据前述权利要求中任一项所述的方法，其中在步骤c）中如此确定所述距离尺度，从而从预先给定的最佳的行动选择策略中产生一个或多个行动（a），并且从所述相应的行动选择策略中产生一个或多个行动（a），并且确定从最佳的行动选择策略中产生的一个或多个行动与从相应的行动选择策略（PO）中产生的一个或多个行动（a）之间的偏差，其中更大的偏差在此表示更大的距离尺度。

9.根据前述权利要求中任一项所述的方法，其中在步骤c）中所述技术系统的模拟建立在神经网络的基础上。

10.根据前述权利要求中任一项所述的方法，其中使用“合适策略评估方法”作为行动选择策略-评估方法。

11.根据前述权利要求中任一项所述的方法，其中所述技术系统是燃气涡轮机和/或风力涡轮机。

12.根据权利要求11所述的方法，其中所述燃气涡轮机的状态（x）包括以下参量中的一个或多个参量：

-所述燃气涡轮机上一个或多个位置上的空气湿度；

-所述燃气涡轮机中的燃烧室加速度；

-所述燃气涡轮机的有害物质排放、尤其是氧化氮排放；

-由所述燃气涡轮机产生的功率。

13.根据权利要求11或12所述的方法，其中有待在所述燃气涡轮机上执行的行动（a）包括对一个或多个燃料喷射阀进行的调节的变化和/或所述燃气涡轮机中的一个或多个叶片的位置的变化。

14.根据权利要求11至13中任一项所述的方法，其中所述风力涡轮机的状态（x）包括以下参量中的一个或多个参量：

-所述风力涡轮机上一个或多个位置上的温度和/或压力和/或空气湿度，尤其是环境温度和/或环境压力和/或环境空气湿度；

-所述风力涡轮机上的风力；

-由所述风力涡轮机产生的功率。

15.根据权利要求11至14中任一项所述的方法，其中有待在所述风力涡轮机上执行的行动（a）包括所述风力涡轮机的转子的转子叶片的迎角的变化和/或所述风力涡轮机的转子相对于风的定向的变化。

16.具有被保存在机器可读的载体上的程序的计算机程序产品，当所述程序在计算机上运行时，所述程序用于实施根据前述权利要求中任一项所述的方法。