CN111279276A - 用于控制复杂系统的随机化加强学习 - Google Patents

用于控制复杂系统的随机化加强学习 Download PDF

Info

Publication number
CN111279276A
CN111279276A CN201880070857.7A CN201880070857A CN111279276A CN 111279276 A CN111279276 A CN 111279276A CN 201880070857 A CN201880070857 A CN 201880070857A CN 111279276 A CN111279276 A CN 111279276A
Authority
CN
China
Prior art keywords
control
state space
state
set point
control strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880070857.7A
Other languages
English (en)
Other versions
CN111279276B (zh
Inventor
S.迪尔
K.黑舍
R.S.诺德伦德
S.乌德卢夫特
M.C.韦伯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN111279276A publication Critical patent/CN111279276A/zh
Application granted granted Critical
Publication of CN111279276B publication Critical patent/CN111279276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/029Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks and expert systems
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02CGAS-TURBINE PLANTS; AIR INTAKES FOR JET-PROPULSION PLANTS; CONTROLLING FUEL SUPPLY IN AIR-BREATHING JET-PROPULSION PLANTS
    • F02C9/00Controlling gas-turbine plants; Controlling fuel supply in air- breathing jet-propulsion plants
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F05INDEXING SCHEMES RELATING TO ENGINES OR PUMPS IN VARIOUS SUBCLASSES OF CLASSES F01-F04
    • F05DINDEXING SCHEME FOR ASPECTS RELATING TO NON-POSITIVE-DISPLACEMENT MACHINES OR ENGINES, GAS-TURBINES OR JET-PROPULSION PLANTS
    • F05D2270/00Control
    • F05D2270/30Control parameters, e.g. input parameters
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F05INDEXING SCHEMES RELATING TO ENGINES OR PUMPS IN VARIOUS SUBCLASSES OF CLASSES F01-F04
    • F05DINDEXING SCHEME FOR ASPECTS RELATING TO NON-POSITIVE-DISPLACEMENT MACHINES OR ENGINES, GAS-TURBINES OR JET-PROPULSION PLANTS
    • F05D2270/00Control
    • F05D2270/70Type of control algorithm
    • F05D2270/709Type of control algorithm with neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Combustion & Propulsion (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Feedback Control In General (AREA)

Abstract

提供了一种控制复杂系统(50)的方法(10a,10b)以及在受所述方法(10a,10b)控制的燃气轮机(50)。所述方法(10a,10b)包括:提供(11)训练数据(40),所述训练数据(40)表示系统(50)的状态空间(S)的至少一部分;设置(12)针对系统(50)的通用控制目标(32)以及对应的设定点(33);以及使用加强学习针对用于系统(50)的、最大化预期总回报的控制策略来探索(13)状态空间(S)。预期总回报取决于通用控制目标(32)与对应设定点(33)的随机化偏离(31)。

Description

用于控制复杂系统的随机化加强学习
技术领域
本发明的各种实施例涉及控制复杂系统的方法,并且涉及通过所述方法被控制的燃气轮机。
背景技术
复杂系统可以通过以下来被表征:通过多个关键操作参数而建立的多维状态空间,以及响应于改变系统状态和/或控制动作而在这些系统状态之间的潜在转变。
对这样的系统的控制可能需要控制策略,所述控制策略对应于适当的控制动作到系统状态的映射,或者换言之,根据所述映射而在状态空间内行进的“代理”(即操作点的一般化)的轨迹。
诸如燃气轮机的复杂系统——其系统状态包括涡轮机以及周围条件——通常在一些有限控制策略之一下引起操作。由于涡轮机条件还可以包括涡轮机的单独参数、诸如磨损水平,所以每个燃气轮机需要专用的控制策略。
确定最优控制策略在具有大状态空间的系统中可能是太耗时的,或者在具有部分已知状态空间的系统中是不可能的。因此,诸如具有函数近似的自适应动态规划或加强学习(RL)之类的近似技术已经被用于根据给定的训练数据来学习最佳可能的控制策略。
在燃气轮机的部署期间改变通用控制目标、诸如以排放换取燃烧过程的动力学通常涉及在这些有限控制策略之间的或多或少的“硬”切换。这可能引起:等待正确的时刻来这样做,以最小化对操作的影响;停止系统控制以用于替代控制策略,在所述时间段期间,没有任何控制可以被施加;和/或提供多个有限控制策略以用于通用控制目标之间的分级。
另外,有时难以区分改变系统状态与所执行的控制动作的效应,这由于它们的高度相关性所致。这可以引起执行不适当的控制动作。在现有技术中,该问题已经如下被解决:通过在控制的手动扫掠期间获取训练数据而同时维持其它涡轮机和周围条件,或通过基于时间范围和/或操作条件而对涡轮机状态的手动选择,或通过对来自多年工厂操作的涡轮机状态进行二次采样(subsampling)。
发明内容
鉴于上文,在本领域中存在对于一种控制复杂系统的方法的持续需要,所述复杂系统诸如被这样的方法控制的燃气轮机,所述方法解决上述需要中的一些。
本发明的这些底层目标各自通过如由独立权利要求1所限定的方法、如由独立权利要求14所限定的计算机程序产品以及如由独立权利要求15所限定的燃气轮机来被解决。在从属权利要求中阐明本发明的优选实施例。
根据第一方面,提供一种方法。所述方法包括:提供训练数据,所述训练数据表示复杂系统的状态空间的至少一部分;设置针对系统的通用控制目标以及对应的设定点;以及使用加强学习针对用于系统的、最大化预期总回报的控制策略来探索状态空间。预期总回报取决于通用控制目标与对应设定点的随机化偏离。
有利地,所述方法改进预期总回报的函数的近似,或等同地改进在多个方面中关于所想要的控制策略的控制设备的训练。具体地,相同的训练数据集用于在具有改变的通用控制目标的情况下进行训练,从而导致训练数据集由于改变的控制目标而被更高效地探索,并且因而改进训练期间的数据效率。训练还变得更稳定,因为随机化施行针对用于相同系统状态的不同通用控制目标的优化。具体地,控制策略一旦被确定就可以在操作期间容易地被适配于改变的通用控制目标。例如,在不替代实际策略的情况下,以排放换取燃烧稳定性变得可能。具体地,控制策略一旦被确定就可以更好地在相应地通过所执行的控制动作与通过改变系统状态所引起的效应之间进行区分,因为改变通用控制目标独立于改变的系统状态而影响预期总回报以及所想要的控制策略。
例如,控制燃气轮机的废气中的NOx浓度的通用控制目标可以涉及30 ppm的通用控制目标的实际值,以及在25 ppm下的对应设定点。对于随机化,提供+/-10 ppm的随机项。然后,随机化的偏离可以总计为30ppm – 25 ppm +/- 10ppm = 15 ...(- 5) ppm。可以同时控制多个通用控制目标。另外,可以存在用于通用控制目标的若干设定点。
如本文中所使用的术语“状态空间”是指复杂控制问题的多维定义空间S,如通过控制下的复杂系统的条件(即系统条件)以及系统的环境的条件(即周围条件)所定义的那样。在时刻t处,系统采用特定的状态st∈S,并且在部署期间,系统可以由于改变的系统条件和/或改变的周围条件而经历状态空间中的状态转变的序列。例如,对于不同类型和种类的控制系统,可遇到不同种类和类型的状态空间。具体地,状态空间的维度可以变化。例如,如果复杂系统由燃气轮机实现,则状态空间的维度可以包括以下中的一个或多个:燃气轮机的操作温度;燃气轮机的旋转速率;每时间单位的流量;功率消耗;输出功率。通常,状态空间的维度可以包括:速度;温度;压力;流量;吞吐量;输入功率;输出功率;等等。
如本文中所使用的术语“复杂系统”是指如下系统:所述系统的行为在本质上难以建模,这例如由于固有非线性、混沌行为和/或在系统与其环境之间的相互作用所致。复杂系统可以包括多个致动器和/或传感器。复杂系统可以是物理系统或经计算机实现的系统。换言之,复杂系统可能难以控制。本文中所考虑的复杂系统可以被描述为马尔可夫决策过程(MDP),其表示网络,在所述网络中节点(状态)通过链接(状态转变)而被互连,并且状态转变根据仅仅取决于系统所采用的当前状态的概率而发生。
如本文中所使用的术语“通用控制目标”或“标的”是指在控制下的系统的过程值,其代表总体控制目标。例如,在燃气轮机的情况中,这些可以包括减少排放、维持燃烧动力学、增大效率或维持涡轮机负载。
如本文中所使用的术语“设定点”是指针对在控制下的系统的过程值的所期望的值。
如本文中所使用的术语“探索状态空间”是指基于给定的训练数据来探索复杂系统的底层MDP网络,所述给定的训练数据通常表示状态空间S的子集。
如本文中所使用的术语“加强学习”(RL)是指与如下有关的机器学习的领域:“代理”(即一般化的操作点)应如何在环境(即状态空间)中采取潜在地导致状态转变的行动以便最大化某个概念的累积回报。在最优控制的领域中,环境典型地被公式化为MDP,所述MDP可以通过动态规划技术来被最优地求解。加强学习以其中确切的方法变得不可行的大MDP为目标,并且还被称为近似动态规划。
如本文中所使用的术语“预期总回报”是指从状态空间内的整体未来状态转变所产生的累积回报。在MDP中,预期总回报可以被递归地计算为针对当前状态转变st→st+1的回报以及针对其余的未来状态转变的回报的总和。
取决于特定种类和类型的复杂系统,有可能考虑不同种类和类型的回报。例如,如果复杂系统是电力工厂、例如燃气轮机或核电工厂,则总回报可以涉及所产生的电力和/或排放。可以存在最大化所产生的电力并且最小化排放的倾向。例如,如果复杂系统是海底工厂,则总回报可以是“故障之间的均值时间”。通常,总回报可以从包括以下各项的组选择:故障之间的均值时间;磨损;能量消耗;所产生的电力;以任意单位的所产生的输出;所处理的零件,其例如在工厂中等等;操作的可靠性;等等。
如本文中所使用的术语“控制策略”是指来自可用控制动作的集合A的适当控制动作a∈A到状态空间S的单独系统状态s∈S的映射a(s)。换言之,开始于给定的系统状态s0,控制策略限定根据所述映射而在状态空间内行进的“代理”(即操作点的一般化)的轨迹。
如本文中所使用的术语“最大化”是指获得预期总回报,其获得极值或至少来接近于极值。例如,预期总回报的所述最大化可以服从一个或多个约束;在没有这样的约束的情况下,可以获得甚至更极端的值,但是由于所述约束,最大化被限界以保持在某个阈值处。
如本文中所使用的术语“随机化的”是指添加一项,该项表示在以原点(即零点)为中心的值范围中的随机数。该术语包括伪随机化技术。
如本文中所使用的术语“偏离”是指在两项之间的数学差。例如,在项A与项B之间的偏离可以通过项A-B来被表述。可以应用其它度量来对所述差进行量化。
具体地,在多个通用控制目标的情况下,预期的总回报可以取决于相应的通用控制目标与相应的对应设定点的多个随机化偏离。
根据一些实施例,通用控制目标与对应设定点的随机化偏离包括经缩放的随机数。
如本文中所使用的术语“经缩放的随机数”是指所添加的项,其表示在以原点(即零点)为中心的值范围中的一随机数,并且被缩放以匹配针对该值范围的给定上界和下界。例如,由于从随机数生成器吸取随机数通常产生实数r ∈ [0; 1[,所以在+/-S的值范围中的经缩放的随机数可以通过项2·S·(r – 0.5)而被获得。吸取一系列相继的经缩放的随机数结果是时间序列,所述时间序列具有类噪声性质,并且因而可以被视为经缩放的随机噪声。
根据一些实施例,经缩放的随机数的最大量值是对应的设定点的量值的分数。
例如,经缩放的随机数的最大量值可以是对应的设定点的量值的+/- 0.3倍。
如本文中所使用的术语“量值”是指数学量值函数当被应用到输入变量的时候的输出值。例如,在输入标量的情况中,量值函数返回没有其符号的标量。在输入向量的情况中,量值函数返回向量的长度。
有利地,使偏离随机化可以取决于经缩放的随机数的量值而施行随机化偏离的符号的改变。因此,针对所想要的控制策略而探索状态空间可以引起在不同的方向上探索状态空间。这在多个通用控制目标的情况中尤其为真。具体地,固定经缩放的随机数与对应的设定点的量值的比使得能够改变随机化偏离的符号。
根据一些实施例,针对系统的通用控制目标与对应的设定点在量值方面是可缩放的。
有利地,这通过使相应的通用控制目标归一化而使得能够并入多个通用控制目标。
根据一些实施例,控制策略包括状态空间中状态转变的序列,所述状态转变中的每一个引起对应的回报,并且预期的总回报包括控制策略的状态转变的序列的对应回报的总和。
有利地,这使得能够将预期总回报的近似函数的训练分解成多个训练步骤,每个训练步骤与确定所想要的控制策略的状态转变的序列中的单独状态转变的回报有关。
根据一些实施例,通过神经网络(由程序代码和/或硬件实现的人工神经网络)来近似针对状态转变的序列的每个状态转变的对应回报。例如,可以使用卷积神经网络。可以采用深度学习的技术。神经网络可以包括多个层,所述多个层包括隐藏层、池化层、全连接的层、卷积层等等。
有利地,使用神经网络来用于训练预期总回报的近似函数使得能够使用用于函数近似的公知的方法,诸如后向传播。
根据一些实施例,使用策略梯度方法来执行系统的状态空间的探索。
有利地,策略梯度方法是无模型的,其意味着它们不需要建模作为中间步骤来用于得到所想要的控制策略。
如本文中所使用的术语“策略梯度方法”是指从底层MDP直接得到所想要的控制策略的一类方法。
根据一些实施例,使用策略梯度神经回报回归来执行系统的状态空间的探索。
如本文中所使用的术语“策略梯度神经回报回归”是指得到预期总回报的近似函数的直接表示(并且因此所想要的控制策略)的一类方法。具体地,通过神经网络来学习近似函数。
根据一些实施例,系统的状态空间的探索包括将通用控制目标与对应设定点的随机化偏离供给作为神经网络的输入。有利地,神经网络依靠通用控制目标与对应设定点的随机化偏离来近似预期总回报的函数。
根据一些实施例,所述方法此外包括部署控制策略以控制系统,其中部署控制策略包括将通用控制目标与对应设定点的偏离供给作为神经网络的输入。换言之,在所想要的控制策略的训练期间,所计算的偏离被随机化。
有利地,神经网络依靠通用控制目标与对应设定点的偏离来呈递预期总回报的近似函数。换言之,在控制策略的部署期间,所计算的偏离不被随机化。
如本文中所使用的术语“部署控制策略”以及“系统的部署”是指将控制策略或系统置于实况操作中,以用于递送商业价值。
根据一些实施例,部署控制策略以控制系统此外包括将设定点设置成固定值。
有利地,将设定点设置成固定值,或在多个通用控制目标的情况中将多个对应的设定点设置成固定值确保对于已知实现方式的最大兼容性。
根据一些实施例,训练数据包括系统条件、周围条件以及所执行的控制动作,所述所执行的控制动作被记录为在系统的部署期间以离散时刻的时间序列。
如本文中所使用的术语“系统条件”是指在控制下的系统的多个关键操作参数,所述多个关键操作参数可以借助于测量来被获取,诸如负载和磨损水平。
如本文中所使用的术语“周围条件”是指在控制下的系统的环境的多个关键操作参数,例如空气温度和湿度。
有利地,以表或被逗号分离的值的形式的可用训练数据可以用于训练所想要的控制策略。
根据第二方面,提供一种计算机程序产品。所述产品包括软件代码,所述软件代码用于当所述产品在计算机上运行的时候执行各种实施例的方法的步骤。
有利地,以上关于所述方法描述的技术效果和优点等同地适用于具有对应特征的计算机程序产品。
根据第三方面,提供一种燃气轮机。所述燃气轮机包括控制设备,所述控制设备被配置成执行前述权利要求中任一项的方法。
附图说明
将参考附图来描述本发明的实施例,在所述附图中相同或相似的参考标号指明相同或相似的元素。
图1是用于图示根据实施例的方法的示意图。
图2是用于图示根据另外的实施例的方法的示意图。
图3是用于图示根据现有技术的神经网络拓扑的示意图。
图4是用于图示在根据各种实施例的方法中部署的神经网络拓扑的示意图。
图5是用于图示在根据各种实施例的方法中使用的示例性训练数据的示意图。
图6是图示了根据实施例的燃气轮机的示意图。
具体实施方式
现在将参考附图来描述本发明的示例性实施例。虽然将在申请的特定领域的上下文中描述一些实施例,但是实施例不被限制到申请的该领域。此外,各种实施例的特征可以彼此组合,除非另行特别声明。
附图要被视为是示意性表示,并且在附图中所图示的元素不一定按比例被示出。相反,各种元素被表示使得其功能和一般目的对于本领域技术人员而言变得清楚。
图1是用于图示根据实施例的方法10a的示意图。
方法10a包括如下步骤:提供11训练数据40,所述训练数据40表示复杂系统50的状态空间S的至少一部分;设置12针对系统50的通用控制目标32以及对应的设定点33;以及使用加强学习针对用于系统50的、最大化预期总回报的控制策略来探索13状态空间S。预期总回报取决于通用控制目标32与对应设定点33的随机化偏离31。
控制策略包括状态空间S中的状态转变的序列,所述状态转变中的每一个引起对应的回报。预期的总回报包括控制策略的状态转变的序列的对应回报的总和。
图2是用于图示根据另外的实施例的方法10b的示意图。
除了方法10a之外,方法10b此外还包括如下步骤:部署控制策略以控制系统。该步骤包括供给通用控制目标32与对应设定点33的偏离作为神经网络30的输入,并且可以选择性地包括将设定点33设置到固定值。换言之,通用控制目标32与对应设定点33的偏离——一旦它被确定——就不通过在控制策略的部署期间添加经缩放的随机数来被随机化。
图3是用于图示根据现有技术的神经网络拓扑20的示意图。
拓扑20如在图3的下端所示出的那样具有状态st、动作
Figure DEST_PATH_IMAGE001
和后继的状态st' = st+1作为输入,以及所谓的品质函数Q作为输出。输入和输出经由权重矩阵A-E以及作为激活函数的双曲正切而被互连。
品质函数Q测量状态-动作对的优度。例如,图3的左手侧表示时刻t处的状态-动作对st
Figure 816662DEST_PATH_IMAGE002
的优度,并且右手侧表示状态-动作对st' = st+1
Figure DEST_PATH_IMAGE003
的优度,其中指标t和t+1相应地代表时刻t(当前状态)下以及时刻t+1(后继的状态)下的变量。
换言之,图3的左手侧和右手侧标示在所想要的控制策略
Figure 530540DEST_PATH_IMAGE004
下相继步骤st和st+1的相应优度,所述所想要的控制策略
Figure 109945DEST_PATH_IMAGE004
确定要从特定的状态s中选择可用动作A中的哪个动作
Figure DEST_PATH_IMAGE005
因而,从拓扑20中清楚的是每个状态转变st→st+1引起在图3的顶部所示出的对应的回报,其通过在图3的左手侧与右手侧之间的差异来被给出。折现因子(discountfactor)
Figure 895367DEST_PATH_IMAGE006
仅仅负责确保收敛。
图4是用于图示在根据各种实施例的方法中部署的神经网络拓扑30的示意图。
图4示出了拓扑30具有关于图3的拓扑20的附加输入。
附加的输入表示随机化偏离31,从所述随机化偏离31中,权重矩阵F-G导致相应的激活函数。作为结果,通过拓扑30而近似的预期总回报还取决于随机化偏离31。
图4中所描绘的每个随机化偏离31包括通用控制目标(或标的)32与对应的设定点33的偏离,以及经缩放的随机数34(其表现得像噪声的时间序列),所述经缩放的随机数34的最大量值是对应的设定点33的量值的分数。例如,经缩放的随机数34的最大量值可以是对应的设定点33的量值的+/- 0.3倍。
在多个通用控制目标32的情况中,针对系统50的相应通用控制目标32与相应的对应设定点33在量值方面是可缩放的。
神经网络拓扑30通过如下来近似所想要的控制策略的状态转变的序列的每个状态转变的对应回报:使用策略梯度方法、特别是使用策略梯度神经回报回归来探索13系统50的状态空间S。
为此,系统50的状态空间S的探索13包括将通用控制目标32与对应设定点33的随机化偏离31供给作为神经网络30的输入。
另一方面,控制策略的部署包括将通用控制目标32与对应设定点33的偏离供给作为神经网络30的输入,所述偏离没有任何随机化。
图5是用于图示在根据各种实施例的方法中使用的示例性训练数据40的示意图。
所描绘的表是除了经逗号分离的值或数据库存储之外的训练数据40的一个可能的表示。
训练数据40包括待控制的系统50的系统条件42和周围条件43,以及所执行的控制动作44,所述所执行的控制动作44被记录为在系统50的部署期间以离散时刻41的时间序列42、43、44。系统条件42和周围条件43共同表示状态空间S的所获取的部分,从其中将确定所想要的控制策略。
图6是图示了根据实施例的燃气轮机50的示意图。
燃气轮机50包括控制设备51,所述控制设备51被配置成执行根据各种实施例的方法10a、10b。
包括图4中所示出的神经网络30的控制设备51可以基于图5中所示的训练数据40来被训练,以便确定使预期总回报最大化的所想要的控制策略。控制策略一旦被确定就限定来自可用控制动作A的集合的控制动作a∈A到状态空间S的单独系统状态s∈S的映射。换言之,控制设备51于是具有信息,所述信息控制在每个状态s中并且在一个或多个通用控制目标下要执行的动作,以便最大化预期总回报,或等同地,最优地控制底层燃气轮机50。
尽管已经关于某些优选实施例而示出并且描述了本发明,但是本领域其他技术人员在阅读和理解说明书时将想到等同物和修改。本发明包括所有这样的等同物和修改,并且仅由所附权利要求书的范围来被限制。
为了说明,虽然已经针对由燃气轮机实现的复杂系统而描述了以上各种示例,但是本文中所述的技术可以容易地被应用到其它种类和类型的复杂系统。复杂系统的示例包括:海底装备和工厂;通信网络;医学装备,其包括诸如磁共振成像设备或计算机断层摄影设备之类的成像工具;电力工厂,诸如核电工厂或煤电工厂;等等。

Claims (14)

1.一种方法(10a,10b),包括:
- 提供(11)训练数据(40),所述训练数据(40)表示复杂系统(50)的状态空间(S)的至少一部分;
- 使用加强学习针对用于所述系统(50)的、最大化预期总回报的控制策略来探索(13)所述状态空间(S);
其特征在于:
- 在探索(13)所述状态空间(S)之前,设置(12)针对所述系统(50)的通用控制目标(32)以及对应设定点(33);以及
- 所述预期总回报取决于所述通用控制目标(32)与所述对应设定点(33)的随机化偏离(31)。
2.根据权利要求1所述的方法(10a,10b),其中:
所述通用控制目标(32)与所述对应设定点(33)的所述随机化偏离(31)包括经缩放的随机数(34)。
3.根据权利要求2所述的方法(10a,10b),其中:
所述经缩放的随机数(34)的最大量值是所述对应设定点(33)的量值的分数。
4.根据权利要求1至3中任一项所述的方法(10a,10b),其中针对所述系统(50)的所述通用控制目标(32)以及所述对应设定点(33)在量值方面是可缩放的。
5.根据权利要求1至4中任一项所述的方法(10a,10b),其中所述控制策略包括所述状态空间(S)中的状态转变的序列,所述状态转变中的每一个引起对应的回报,并且所述预期总回报包括所述控制策略的所述状态转变的序列的对应回报的总和。
6.根据权利要求5所述的方法(10a,10b),其中:
针对所述状态转变的序列的每个状态转变的所述对应回报通过神经网络(30)来被近似。
7.根据权利要求6所述的方法(10a,10b),其中:
使用策略梯度方法来执行所述系统(50)的所述状态空间(S)的所述探索(13)。
8.根据权利要求7所述的方法(10a,10b),其中:
使用策略梯度神经回报回归来执行所述系统(50)的所述状态空间(S)的所述探索(13)。
9.根据权利要求8所述的方法(10a,10b),其中:
所述系统(50)的所述状态空间(S)的所述探索(13)包括将所述通用控制目标(32)与所述对应设定点(33)的所述随机化偏离(31)供给作为所述神经网络(30)的输入。
10.根据权利要求1至9中任一项所述的方法(10a,10b),此外包括:
- 部署所述控制策略以控制所述系统,其中部署所述控制策略以控制所述系统包括将所述通用控制目标(32)与所述对应设定点(33)的偏离供给作为所述神经网络(30)的输入。
11.根据权利要求10所述的方法(10a,10b),其中:
部署所述控制策略以控制所述系统此外包括将所述设定点(33)设置成固定值。
12.根据权利要求1至11中任一项所述的方法(10a,10b),其中:
所述训练数据(40)包括系统条件(42)、周围条件(43)以及所执行的控制动作(44),所述所执行的控制动作(44)被记录为在所述系统(50)的部署期间以离散时刻(41)的时间序列(42,43,44)。
13.一种包括软件代码的计算机程序产品,所述软件代码用于当所述产品在计算机上运行的时候执行前述权利要求中任一项所述的方法(10a,10b)的步骤。
14.一种燃气轮机(50),包括:
- 控制设备(51),所述控制设备(51)被配置成执行前述权利要求中任一项所述的方法(10a,10b)。
CN201880070857.7A 2017-11-02 2018-10-16 用于控制复杂系统的随机化加强学习 Active CN111279276B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/801,582 US11164077B2 (en) 2017-11-02 2017-11-02 Randomized reinforcement learning for control of complex systems
US15/801582 2017-11-02
PCT/EP2018/078285 WO2019086243A1 (en) 2017-11-02 2018-10-16 Randomized reinforcement learning for control of complex systems

Publications (2)

Publication Number Publication Date
CN111279276A true CN111279276A (zh) 2020-06-12
CN111279276B CN111279276B (zh) 2024-05-31

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046683A (zh) * 2006-03-27 2007-10-03 株式会社日立制作所 具有燃烧装置的控制对象物的控制装置及具有锅炉的成套设备的控制装置
CN101573667A (zh) * 2007-01-02 2009-11-04 西门子公司 用于对技术系统、尤其是燃气轮机进行计算机辅助的调节和/或控制的方法
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN103065191A (zh) * 2011-10-19 2013-04-24 西安邮电学院 一种快速的神经网络学习方法
US8943008B2 (en) * 2011-09-21 2015-01-27 Brain Corporation Apparatus and methods for reinforcement learning in artificial neural networks
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046683A (zh) * 2006-03-27 2007-10-03 株式会社日立制作所 具有燃烧装置的控制对象物的控制装置及具有锅炉的成套设备的控制装置
CN101573667A (zh) * 2007-01-02 2009-11-04 西门子公司 用于对技术系统、尤其是燃气轮机进行计算机辅助的调节和/或控制的方法
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
US8943008B2 (en) * 2011-09-21 2015-01-27 Brain Corporation Apparatus and methods for reinforcement learning in artificial neural networks
CN103065191A (zh) * 2011-10-19 2013-04-24 西安邮电学院 一种快速的神经网络学习方法
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏莹莹 等: "基于神经网络增强学习算法的工艺任务分配方法", 《东北大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
KR102212384B1 (ko) 2021-02-04
EP3682301B1 (en) 2021-09-15
US11164077B2 (en) 2021-11-02
US20190130263A1 (en) 2019-05-02
ES2897014T3 (es) 2022-02-28
KR20200066740A (ko) 2020-06-10
EP3682301A1 (en) 2020-07-22
WO2019086243A1 (en) 2019-05-09

Similar Documents

Publication Publication Date Title
US11544530B2 (en) Self-attentive attributed network embedding
Hota et al. Short-term hydrothermal scheduling through evolutionary programming technique
Zimmermann et al. Forecasting with recurrent neural networks: 12 tricks
Kubalík et al. Symbolic regression methods for reinforcement learning
CN109100975A (zh) 一种参数优化方法及系统
Huang et al. Genetic algorithm for rotary machine scheduling with dependent processing times
CN113614743A (zh) 用于操控机器人的方法和设备
EP3682301B1 (en) Randomized reinforcement learning for control of complex systems
Razmi et al. Neural network based on a genetic algorithm for power system loading margin estimation
Parnianifard et al. New adaptive surrogate-based approach combined swarm optimizer assisted less tuning cost of dynamic production-inventory control system
Alashti et al. Vector mutable smart bee algorithm for engineering optimisation
CN111279276B (zh) 用于控制复杂系统的随机化加强学习
Valluru et al. Modified TLBO technique for economic dispatch problem
WO2023072528A1 (de) Verfahren und steuereinrichtung zum steuern eines technischen systems
Fujita Deep Reinforcement Learning Approach for Maintenance Planning in a Flow-Shop Scheduling Problem
Nascimento et al. Analysis of the solution for the economic load dispatch by different mathematical methods and genetic algorithms: Case Study (5-13)
Saen The use of artificial neural networks for technology selection in the presence of both continuous and categorical data
Ulusoy et al. A Q-Learning-Based Approach for Simple and Multi-Agent Systems
Sumanas et al. Implementation of Machine Learning Method for Positioning Accuracy Improvement in Industrial Robot
Giacometto et al. Short-term load forecasting using Cartesian Genetic Programming: An efficient evolutive strategy: Case: Australian electricity market
CN112734286B (zh) 一种基于多策略深度强化学习的车间调度方法
Borges et al. Comparison of several Genetic Algorithm strategies on a nonlinear GAPID controller optimization applied to a Buck converter
Balázs et al. Comparative analysis of various evolutionary and memetic algorithms
Kawaji Hybrid soft computing approaches to identification of nonlinear systems
Giacometto et al. Short term load forecasting using Cartesian genetic programming: an efficient evolutive strategy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant