JP5448841B2 - 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法 - Google Patents

技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法 Download PDF

Info

Publication number
JP5448841B2
JP5448841B2 JP2009544385A JP2009544385A JP5448841B2 JP 5448841 B2 JP5448841 B2 JP 5448841B2 JP 2009544385 A JP2009544385 A JP 2009544385A JP 2009544385 A JP2009544385 A JP 2009544385A JP 5448841 B2 JP5448841 B2 JP 5448841B2
Authority
JP
Japan
Prior art keywords
state
learning
technical system
loop control
optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009544385A
Other languages
English (en)
Other versions
JP2010514986A (ja
Inventor
シュテルツィング フォルクマール
ウードルフト シュテフェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2010514986A publication Critical patent/JP2010514986A/ja
Application granted granted Critical
Publication of JP5448841B2 publication Critical patent/JP5448841B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Feedback Control In General (AREA)
  • Control Of Eletrric Generators (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法、ならびに相応するコンピュータプログラム製品に関する。
複雑な技術システムを制御する際、技術システムの所望の有利な動特性が得られるように、実行すべき変更を技術システムにおいて選択することが望ましいという場合がよくある。しかし、複雑な技術システムでは、動特性を簡単に予測できない場合が多い。したがって、技術システムの将来の挙動を推定し、それに応じて技術システムの閉ループ制御または開ループ制御のために適切な行動を選択するために、相応の計算機支援予測方法が必要である。
大抵、技術システムの状態は簡単には測定できず、システム挙動に確率的な部分があるために統計的にしか記述することができない。したがって、このような技術システムを閉ループ制御する場合、相応する閉ループ制御の理想値ないし規定値も、例えばニューラルネットワークのようなシミュレーションモデルの訓練に使用できる相応する目標値も存在していないことが多い。複雑な技術システムの種々の測定量と操作量の間に存在しうる依存関係は不明であるから、このシステムの最適な自動制御を開発することは困難であるか、技術システムの動特性を非常に長期にわたって観察することによってしか可能でない。
先行技術からは、技術システムの動作点の閉ループ制御もしくは開ループ制御および最適化の様々な方法が公知である。これらの方法は、技術システムを記述するために解析的なモデルを使用するか、技術システムの過去の測定データまたは技術システムに関する情報に基づいた技術システムのモデル化に依拠している。なお、モデル化は例えばベイジアンネットワークやニューロファジーネットワークを用いて行われる。
技術システムを閉ループ制御または開ループ制御するための公知の方法は、技術システムをモデル化するために、多数の測定データを必要とする場合が多く、また専用の技術システムに適しているか否かも予め明らかではない。
文献EP 1 016 981 A1には、エージェントを学習する装置が示されている。この装置では、強化学習に基づいた多数の学習モジュールによって、技術システム上で実行されるべき行動が学習される。個々の学習モジュールの行動は、求められた予測誤差に依存して相応に重み付けされ、互いに結合される。
文献US 5 485 545 Aからは、リカレントニューラルネットワークに基づいて制御を学習する技術システムの学習方法が公知である。適用例としては、電力システムの電圧の制御が記載されている。
それゆえ、本発明の課題は、少ない測定データに基づいて技術システムの効率的で正確な閉ループ制御または開ループ制御を可能にする、技術システムの計算機支援による閉ループ制御および/またはかイループ制御の方法を提供することである。
この課題は独立請求項により解決される。本発明の展開形態は従属請求項に記載されている。
本発明による方法は、ステップa)において、技術システムの時間的に連続した測定された状態に基づいて技術システムのシミュレーションモデルを構築する。次に、ステップb)において、構築されたシミュレーションモデルに複数の学習法および/または最適化法を適用する。ここで、これらの学習法および/または最適化法は、結果として、それぞれの学習したパラメータと、状態および状態に割り当てられた行動のシーケンスを提供し、ある1つの状態に割り当てられた行動は状態と行動のシーケンスの中の新たな状態をもたらす。複数の学習法および/または最適化法の結果に基づき、最終的に所定の基準に従って、複数の学習法および/または最適化法の中から1つの学習法および/または最適化法が選択される。なお、選択された方法はこの所定の基準に従って技術システムの閉ループ制御および/または開ループ制御に適したものである。ステップc)における学習法ないし最適化法の選択は、シミュレーションモデルから出力される評価および/またはそれぞれの学習法ないし最適化法の結果に依存する評価に依存して行われる。最後に、技術システムは、ステップd)において、選択された学習法および/または最適化法により閉ループ制御または開ループ制御される。この閉ループ制御または開ループ制御は、技術システムの状態に依存して、後に技術システム上で実行されるべき行動を指定する。
本発明による方法を用いれば、少ない測定データに基づいてシミュレーションモデルを構築することができ、このシミュレーションモデルを用いて、システムの開ループ制御ないし閉ループ制御にはどの学習法ないし最適化法が特に適しているのかを求めることができる。それゆえ、学習法ないし最適化法は直に実際の技術システム上で選択および学習されるのではなく、予めシミュレーションモデル上で選択および学習される。このようにして、実際の技術システムの本来の閉ループ制御ないし開ループ制御に先立って、特に適切な学習法が抽出される。技術システムの実際の閉ループ制御ないし開ループ制御は時として非常にコストがかかるが、これにより、実際の閉ループ制御ないし開ループ制御の際のエラーが防止される。上記の方法は非常に柔軟であり、新種の学習法ないし最適化法によって非常に容易に補完することができる。なお、新種の学習法ないし最適化法は上記方法のステップb)で考慮される。発明者は、適切な実験により、上記方法がガスタービンの閉ループ制御ないし開ループ制御に特に適していることを立証することができた。
本発明による方法では、ステップd)において、種々の閉ループ制御ないし開ループ制御を使用することができる。また、これら種々の閉ループ制御ないし開ループ制御を互いに組み合わせてもよい。とりわけ、あるタイプの制御から別のタイプの制御へと切り替えることができるようにしてよい。1つの実施形態では、ステップd)において、ステップb)で学習したパラメータに基づき、選択された学習法を用いて技術システムが閉ループ制御ないし開ループ制御される。なお、学習されたパラメータは技術システムの閉ループ制御ないし開ループ制御の際に変更されることはない。このようにして、実際の技術システムでの閉ループ制御ないし開ループ制御の全体を通して変更されることのない初期コントローラが得られる。つまり、これは既に学習済みのコントローラであり、閉ループ制御ないし開ループ制御の際に、計算機支援による方法に対して大量の所要メモリや高い計算能力を要求しない。
本発明の1つの実施形態によれば、技術システムは、ステップd)において、閉ループ制御ないし開ループ制御の初めにステップb)で学習したパラメータが使用されるように、選択された学習法を用いて閉ループ制御ないし開ループ制御される。なお、ステップb)で学習したパラメータは、閉ループ制御ないし開ループ制御のあいだ、閉ループ制御ないし開ループ制御中に生じた新たな状態および行動によってさらに学習される。このようにして、技術システムの実際稼働時における閉ループ制御ないし開ループ制御の最中に連続的に改善される適応型コントローラが得られる。
本発明の別の実施形態では、選択された学習法ないし最適化法を用いてステップb)で学習されたパラメータをリセットし(すなわち、予め決められた所定値にセットし)、技術システムの閉ループ制御ないし開ループ制御の際に新たに学習することもまた可能である。
本発明による方法のステップa)では、任意の方法でシミュレーションモデルを構築してよい。このために、有利には、例えば詳細な説明で図1を参照して説明されているように、リカレントニューラルネットワークが使用される。
本発明の方法において学習法および/または最適化法の選択に使用される評価は有利には、評価関数または報酬関数による、前記学習法および/または最適化法の品質の決定により行われる。すなわち、それぞれの学習法ないし最適化法をシミュレーションモデルに適用する際に報酬関数による報酬が高ければ高いほど、技術システムの制御に関する学習法ないし最適化法の適格性は高く格付けされる。
シミュレーションモデルに適用される複数の学習法ないし最適化法には、特に1つまたは複数の強化学習法(Reinforcement-Learning、文献[2]参照、特にテーブルベースの強化学習法)が含まれている。例えば、これらの学習法および/または最適化法には、適応型発見的クリティック(Adaptive Heuristic Critic)アルゴリズムおよび/またはQ学習アルゴリズムおよび/または優先順位付きスウィープアルゴリズムが含まれていてよい。これらのアルゴリズムは先行技術から十分に公知であるから、ここではこれ以上説明しない。
本発明の特に有利な別の実施形態では、上記複数の学習法ないし最適化法に新種の学習法が含まれていてよい。この学習法は次のように構成されている。
技術システムの動特性が、シミュレーションモデルで求めた状態および行動を含む訓練データを用いてリカレントニューラルネットワークにより複数の時点でモデル化される。なお、リカレントニューラルネットワークは、複数の時点における技術システムの状態と技術システムで行われる行動とを含む少なくとも1つの入力層、隠れ状態を含む少なくとも1つの隠れリカレント層、および複数の時点における技術システムの状態を含む少なくとも1つの出力層により形成されている。
リカレントニューラルネットワークが、現在および将来の時点について、少なくとも1つの入力層、隠れ状態を含む少なくとも1つの隠れ層、少なくとも1つの出力層を含む別のニューラルネットワークと結合されることにより、行動選択規則が学習される。ここで、別のニューラルネットワークの各時点の入力層はリカレントニューラルネットワークの各時点の隠れ状態の少なくとも一部を含んでおり、別のニューラルネットワークの各時点の出力層は技術システムにおいて各時点に実行される行動を含んでいる。
技術システムの状態および対応する行動は、別のニューラルネットワークと結合したリカレントニューラルネットワークにより、学習された行動選択規則を用いて決定される。
この新種の学習法は、2つのステップ、すなわち、技術システムの動特性をリカレントニューラルネットワークに基づいて履歴データを用いて学習するステップと、続いてリカレントニューラルネットワークを別のニューラルネットワークと結合することにより最適な制御を学習するステップを特徴としている。
本発明による方法では、技術システムの状態は大抵は高次元である。すなわち、技術システムの状態は第1の次元を有する第1の状態空間内の複数の状態変数によって規定される。有利には、技術システムの状態に対応する行動もそれぞれ複数の行動変数により規定される。
特に有利な別の実施形態では、状態に対応する各行動は技術システムの1つまたは複数の操作量の変化によって規定される。ここで、操作量は技術システムを制御する際の調整パラメータであり、操作量は有利には技術システムの状態変数であってよい。したがって、状態の変化は場合によっては操作量の変化にも相当する。
本発明の有利な実施形態では、ステップb)の実行前に、複数の学習法ないし最適化法のうちの少なくとも一部の学習法ないし最適化法に関して、状態の第1の状態空間の最小化が行われる。これには、通常は低次元の状態空間でしか機能しない学習法も使用できるという利点がある。第1の状態空間の最小化は次のようにして行われる。
第1の状態空間の状態が、入力層、隠れリカレント層、および出力層を有するリカレントニューラルネットワークにより、既知の状態を訓練データとしてモデル化される。その際、
i)前記複数の時点について、入力層と出力層がそれぞれ第1の状態空間内の状態により形成される。
ii)隠れリカレント層は、第2の次元を有する第2の状態空間内の複数の隠れ状態変数をもつ隠れ状態により形成される。ただし、第2の次元は第1の次元よりも低い。
この最小化の後、それぞれの学習法ないし最適化法は、隠れ状態の縮退した第2の状態空間の中で実行される。
本発明による方法の別の実施形態では、ステップb)において、技術システムの状態および/または対応する行動が予め決められた基準に従って離散化される。問題に即応した適切な離散化により、技術システムの状態ないし行動がそれぞれの問題にとって有望と見なされるような値のみをとるようにすることができる。
本発明の特に有利な別の実施形態では、技術システムの状態および/または対応する行動に関して、1つまたは複数の値域が定められる、または学習される。ステップb)における学習法および/または最適化法を適用する際、状態および/または行動の値はこの値域内になければならない。このようにして、禁じられたシステム状態が選択されないように、状態および行動の空間を適切に探査することができる。これはパラメータ選択を限定することで明示的に達成することもできるが、システム自体が不適当なシステム状態を回避し、技術システムに固有の限度の状態を見つけだすことを学習してもよい。
本発明の特に有利な実施形態では、上記値域はステップb)においてそれぞれの学習法ないし最適化法をシミュレーションモデルに適用する際にペナルティ信号により学習される。ただし、ペナルティ信号は、学習法および/または最適化法で求められた状態および/または行動が、測定されたまたは許容される状態および/または行動から偏差すればするほど、大きくなる。ここで、許容される状態ないし行動は前もって定義されるものであり、技術システムの望ましい動作範囲を規定する。
本発明の特に有利な適用分野はタービンの制御、それも特にガスタービンの制御である。なお、技術システムの状態および/またはこれらの状態に対応する行動は以下の量のうちの1つまたは複数を含む。
ガスタービンの総出力、ガスタービンまたはガスタービン周辺の1つまたは複数の圧力および/または温度、ガスタービン内の燃焼室加速度、ガスタービンの1つまたは複数の調整パラメータ、とりわけ、バルブ調節および/または燃料比および/または入口案内翼の調節。
例えば、ステップb)でシミュレーションモデルに適用される学習法ないし最適化法は、学習目標ないし最適化目標として、低い燃焼室加速度を含んでいてよい。
本発明はさらに、上記方法の他に、コンピュータ上で走らせたときに本発明による方法を実行するプログラムコードをコンピュータ可読媒体に記憶させたコンピュータプログラム製品にも関している。
以下では本発明の実施例を添付図面に基づき詳細に説明する。
本発明の実施形態で技術システムのシミュレーションモデルを構築するために使用されるリカレントニューラルネットワークの概略図である。 本発明に従って複数の学習法および/または最適化法から選択される学習法において使用されるリカレントニューラルネットワークの概略図である。 図2のリカレントニューラルネットワークとフィードフォワードネットワークの組合せによる行動選択規則の学習を示した概略図である。
本発明による方法の下記の実施形態は任意の技術システムに適用可能である。しかし、以下の実施形態はガスタービンに適用するのが特に好ましい。なお、ガスタービンは例えば以下の11個の状態変数を含む状態ベクトルによって表される。
GtLstg=ガスタービン出力
PrDFi=吸気フィルタでの圧力損失
VerdPr=コンプレッサ終圧
VerdT=コンプレッサ終温
Schaufel=入口案内翼位置
DrVBr=燃焼室内での圧力損失
PilotG=パイロットガス調整バルブの弁揚程
GasDr=ガス圧
GasT=ガス温度
AbgasT=廃ガス温度
BkB=燃焼室加速度
特に有利な実施形態では、本発明による方法は、学習ないし最適化の目標が、低い燃焼室加速度ないしはタービンの小さなうなり音と同一視しうる変数BkBのできるだけ小さな値であるように構成されている。
本発明による方法では、入力量として、様々な時点における技術システムの状態変数の測定値が用いられる。本発明による方法のステップa)では、計算機支援により技術システムをシミュレートするためにこれらの測定値が使用される。なお、先行技術から公知の任意の方法を使用して、技術システムの相応のシミュレーションモデルを構築してもよい。これに関しては、ニューラルネットワークが特に適していることが判明している。
以下では、図1に基づき、本発明による方法のステップa)においてシミュレーションモデルを構築するリカレントニューラルネットワークに基づいた方法を説明する。技術システムの状態はそれぞれ第1の状態空間内の状態によって規定される。なお、第1の状態空間は、技術システムの各時点tにおける状態xtの状態変数の個数により決まる次元を有している。ガスタービンに関する上の例では、11個の状態変数があるので、11次元の状態空間である。したがって、状態xtは技術システムの状態変数を成分とする状態ベクトルである。状態変数の値は測定してもよい。
図1のネットワークは入力層Iを含んでいる。入力層Iは、観察時点tにおいて、相応する状態xtと過去の状態xt-1,xt-2,xt-3等から形成されている。入力層の状態は行列Bを介して隠れ層Hの隠れ状態およびバイアス/閾値θと結合されている。ただし、時点tにおける状態xtは隠れ層Hの同じ時点における相応する隠れ状態stに対応付けられている。隠れ層Hはリカレント層であり、隠れ状態stは所定数の隠れ状態変数を有する状態ベクトルである。これにより、隠れ状態変数の個数に相当する第2の次元を有する状態空間が形成される。時点tにおける状態stは行列Aとバイアスθとを介して後続の時点における状態st+1と結合されている。層Hの個々の隠れ状態stは再び−入力層Iと同様に−技術システムの状態xtによって表される出力層Oと結合されている。各時点tにおける隠れ状態stは行列Cを介して次の時点t+1における状態xt+1と結合されている。
図1に示されているリカレントニューラルネットワークは、技術システムの測定された状態を含む訓練データを用いて訓練される。したがって、相応する技術システムの時間的な動特性がこのネットワークによりモデル化される。図1によるリカレントネットワークは、将来の状態を考慮した動的かつ整合的な時間発展をもつネットワークであり、英語では"Network with Dynamically Consistent Overshooting"と呼ばれる。これは、ネットワーク内で時点tに過去の状態xt,xt-1,...等だけでなく、将来の状態xt+1,xt+2,...等も考慮されることを意味する。出力層におけるネットワークの固有の予測、すなわち、図1の状態xt+1,xt+2およびxt+3は再びネットワークへの入力として使用される。このリカレントニューラルネットワークは特に17個の過去の状態と8個の将来の状態とでテストしてある。図1では、隠れ層Hの相応する状態が出力層Oのどの状態と結合するかが破線で示されている。それゆえ、図1によるリカレントニューラルネットワークでは、システム自体の状態xτが予測される。このようにして、基礎となる技術システムの動特性をモデル化することができる。数学的には、図1のネットワークは以下の式により表される。
Figure 0005448841
これらの式は時点tにおけるリカレントニューラルネットワークに関係している。時点tには、時点τの値域が考慮される。τの値域は時点tより前の所定数mの時間ステップと時点tより後の所定数nの時点(いわゆるオーバーシュート部分)とを含んでいる。
ここで、次の式が成り立つ。
t∈{m,...,T−n}
ただし、Tは、訓練データが存続する時点の個数、すなわち、技術システムの測定された状態が存続する時点の個数を表している。
上記の式によれば、ニューラルネットワークのパラメータとして、行列A,B,Cおよびバイアスθが求められる。なお、これらのパラメータは、ネットワークによって求められた状態xτと相応する測定された状態xτ dとの間の平方誤差が訓練データに従って最小となるように選択されている。したがって、これらから、本発明による方法のさらなるステップb)〜d)を実行するために使用しうるシミュレートされた技術システムのモデルが得られる。
本発明による方法のステップb)では、このモデルに複数の学習法および/または最適化法を適用するために、構築されたシミュレーションモデルが使用される。任意選択的に、ステップb)を実行する前に、状態ベクトルの状態変数の数を減らすいわゆる状態空間最小化の方法を使用してもよい。これには、シミュレーションモデルに適用される学習法および/または最適化法の数が明らかに多くなるという利点がある。なぜならば、公知の多くの学習法および/または最適化法は限られた次元の状態空間内でしか使用することができないからである。同様に、状態空間最小化のために、図1に示されているリカレントニューラルネットワークを使用してもよい。しかし、今や入力層の変数はもはや技術システムの測定された状態ではなく、シミュレーションモデルによってシミュレートされた状態である。次に、状態空間最小化のために、隠れ層Hにおいて、入力層Oにおける状態ベクトルの次元よりも低い次元を有する隠れ状態ベクトルstが選択される。その際、次元はできるだけ低く、しかしながら技術システムを十分良くシミュレートするように選ばれる。これは入力層Iの状態ベクトルが出力層Oの状態ベクトルからどれだけ偏差しているかによって決まる。状態空間最小化は、結果として、元の状態空間に比べて次元の縮退した隠れ状態変数の新しい状態空間をもたらす。本発明による方法のステップb)による1つまたは複数の学習法および/または最適化法はこの縮退した状態空間に適用することができる。既に述べたように、状態空間最小化のステップは任意選択的なものであり、場合によってはなくてもよい。さらに、状態空間最小化はステップb)で使用される学習法および/または最適化法の一部にしか適用できない。
本発明による方法のステップb)では、どのような学習法および/または最適化法でも、特に、例えば適応型発見的クリティック(Adaptive Heuristic Critic)アルゴリズム、Q学習アルゴリズムまたは優先順位付きスウィープアルゴリズムのような先行技術から公知の学習法および/または最適化法でも使用することができる。以下では、多数の学習法の中から、先行技術からはまだ公知でない可能な学習法について説明する。この学習法はリカレントニューラルネットワークをフィードフォワードネットワークと組み合わせた学習法である。以下では、この方法を図2および図3を基に説明する。
以下に説明する学習法は、シミュレーションモデルによってシミュレートされた状態xtを含む状態空間Xと状態xtに依存して実行される行動atを表す行動空間Aとに基づいた技術システムの記述に依拠している。なお、行動atは有利には複数の成分を有するベクトルであり、各成分は技術システム上での操作量の変化を表している。
ここでは、技術システムは確率遷移関数Pをもつマルコフ決定過程MDP(MDP=Markov Decision Process)により記述できるものと仮定する。この過程に対して、報酬関数または費用関数c:X×A→Rが存在する。ここで、Rは状態xtにおける行動atの選択に対してシステムが得る報酬の空間を表している。今や、目標は、各状態xtについて期待される累積報酬関数または平均報酬関数cを最大化する最適な規則Π:X→Aを求めることである。報酬関数cの最大化は、請求項規定されているように、行動選択規則の1つの可能な具体化に相当する。報酬関数は、とりわけ、技術システムの所望の特性を反映するように決められ、最適値には関数が最大となったときに到達する。単純なケースでは、費用関数は例えば技術システムの有利な所望の状態、すなわち、費用関数が最大値をとったときに最適となるような状態としてよい。以下では、技術システムは離散的な時間ステップを有する決定性マルコフ決定過程であると仮定する。ただし、状態空間XおよびAは連続である。
以下に説明する実施形態では、マルコフ決定過程はリカレントニューラルネットワークRNNによってモデル化される。これにより、技術システムの動特性、すなわち、遷移関数P(・)が、高次元の非線形システム方程式によりモデル化される。なお、ここに説明する本発明の実施形態で使用されるリカレントニューラルネットワークRNNは図2に示されている。リカレントニューラルネットワークは個々の時点における状態と行動を示す入力層Iを含んでいる。例えば、図2には、状態xt-1,xtおよび行動at-1,at,at+1が示されている。入力層は相応の行列BおよびDを介して隠れ層Hと結合されている。なお、行列BおよびDについては、以下でさらに詳しく定義する。隠れ層は各時点について隠れ状態を有しており、図1には、例として、状態pt-1,st-1,pt,st,pt+1およびst+1が示されている。隠れ層Hはリカレントである。というのも、個々の隠れ状態が相互に結合されているからである。このことは図2において相応の行列I(単位行列に相当)およびAならびにバイアスθによって示されている。図2のリカレントニューラルネットワークはさらに技術システムの状態によって形成された出力層Oを有しており、図2には、状態xt,xt+1およびxt+2が示されている。これらの状態はそれぞれ行列Cにより隠れ状態st-1,stおよびst+1と結合されている。
図2によるニューラルネットワークは−図1のネットワークと同様に−将来の状態を考慮した動的かつ整合的な時間発展をもつネットワーク("Neural Network with Dynamically Consistent Overshooting")である。このことは、ニューラルネットワークのモデル化の際には、過去の時点τだけでなく、将来の時点τも考慮され、ネットワークの予測された固有の状態は入力層において将来の状態のための入力として使用されるということを意味している。パラメータτは過去の展開mといわゆるオーバーシューティングの長さnとによって制限されるので、すべての観察時点t∈{m,...,T−n}について、τ∈{t−m,...,t+n}が成り立つ。ここで、Tは使用できる時点の数であり、これらの時点についてニューラルネットワークの学習のための訓練データが存在する。図2から、オーバーシューティングは、ニューラルネットワークが技術システムのモデル化の際に将来の時点τ>tも考慮することにより生じる。これら将来の時点は既知ではないため、ネットワークを介して出力層に出力された状態がまた次の時間ステップのための入力として再び使用される。図2では、このことが時点t+1に関して図示されている。ここで、出力された状態xt+1は再び隠れ層の隠れ状態pt+1に渡されている。
それゆえ、ここに説明した本発明の実施形態では、リカレントニューラルネットワークの入力側で状態xτと行動aτのシーケンスが形成される。その際、ネットワークは過去と未来を考慮した所定の期間内に時間発展する。数学的には、図1のリカレントニューラルネットワークは以下の方程式により記述される。なお、方程式中には、上で述べた行列I,A,B,C,Dおよびバイアスθが含まれている。
Figure 0005448841
状態pτは前状態と呼ばれる。前状態は直前の隠れ状態sτ-1と外部の状態xτの情報をまとめたものである。隠れ層における非線形性はここでは双曲線正接によって表現される。前状態pτは隠れ状態sτと同じ次元を有しており、単位行列Iを介して隠れ状態sτと結合されている。なお、単位行列Iはニューラルネットワークの学習中に学習されない。隠れ状態sτは入力として行動aτを有しており、技術システムの期待される次の状態xt+1の計算に使用される。行列Dは行動aτの状態sτへの影響を考慮した適切な次元を有する補助的な行列である。行動aτはまたニューラルネットワークRNNに将来の入力(τ>t)として供給される。というのも、行動aτは技術システムの動特性には直接影響を及ぼさず、したがってネットワークによって学習されるべきではないからである。技術システムの状態空間X内で多数の可能な状態をカバーするには、技術システムをモデル化するリカレントニューラルネットワークを訓練データでモデル化しなければならない。ただし、訓練データにおいて、行動aτはランダムに選択されている。あるいは、学習される動特性が所定の規則に依存していてもよい。訓練データはここではステップa)で構築されたシミュレーションモデルを用いて決定される。
今や、目標は、訓練データで学習した図2のニューラルネットワークを強化学習(Reinforcement Learning)と組み合わせて、上で述べた最適な規則を学習することである。これは、図2のリカレントニューラルネットワークを別のいわゆるコントロールネットワークと組合せ、それにより上記報酬関数cをニューラルネットワーク内に実現することによって達成される。
ここに説明した実施形態では、補助的なコントロールネットワークは、入力層、隠れ層および出力層を有する3層のニューラルフィードフォワードネットワークである。より複雑な別のトポロジーが可能なときでさえ、ここに説明したモデルを用いて、どのような種類のコントロール機能でもモデル化することができる。最適な行動aτを予測しなければならないため、コントロールネットワークは将来の時点(すなわち、τ>t)についてのみリカレントニューラルネットワークと結合される。過去の時間発展(すなわち、τ<t)については、以前に供給された行動がリカレントニューラルネットワーク内で使用される。
図3には、別のフィードフォワードネットワークに結合されたリカレントニューラルネットワークが示されている。このリカレントニューラルネットワークは以下ではRCNN(RCNN=Recurrent Control Neural Network)とも呼ばれる。なお、ネットワークの一部で、フィードフォワードネットワークに関連している部分は、破線で示されている。コントロールネットワークは入力層として隠れ状態pt,pt+1,...を使用する。隠れ状態pt,pt+1,...は相応する状態rt,rt+1等を有する隠れ層Rと結合されている。隠れ状態rτは行列Eとバイアスbを介して状態pτに結合されている、すなわち
t=tanh(Epτ+b)
隠れ状態rτはさらに行列Fを介してモデル化されるべき将来の行動aτと結合されている。また、将来の状態xt+1,xt+2等を状態Rt+1,Rt+2等と結合する行列Gも存在している。ただし、状態Rt+1,Rt+2等は計算規則に関連した状態である。
ニューラルネットワークRCNNは2つの異なるタスクを履行しなければならない。一方では、基礎となる技術システムの動特性を特定せねばならず、他方では、適切な行動選択規則ないし報酬規則によって技術システムの最適な制御を達成しなければならない。それゆえ、このネットワークは、連続する2つのステップ、すなわち、訓練データによるリカレントニューラルネットワークの学習をする第1のステップと、リカレントニューラルネットワークをフィードフォワードネットワークと結合することにより報酬規則の学習をする第2のステップとにおいて訓練される。このアプローチは、この2つのタスクの組合せ学習を1つのステップで行おうとする従来の方法とは異なっている。
上記第1のステップではまず、技術システムの動的挙動に対応する基礎となるマルコフ決定過程の動特性がモデル化される。したがって、ネットワークRCNNは、将来の状態を考慮した動的かつ整合的な時間発展をもつリカレントニューラルネットワークへと還元される。この第1のステップは数学的には次の式で表される。
Figure 0005448841
ここで、最後の式は、リカレントニューラルネットワークRNNによって求められた状態xτをできるだけ訓練データの状態xτ dと一致させるという訓練の課題を表している。これに関しては、リカレントニューラルネットワークの決定すべきパラメータを表す行列A,B,CおよびDならびにバイアスθに関する2乗誤差の最小化が行われる。
技術システムの動特性をモデル化する第1のステップの後、このステップで求められた行列A,B,CおよびDならびにバイアスθは維持される、すなわち、さらなる訓練の間、その重みが変化しない。次に、図3に示されている行列EおよびFならびにバイアスbが活動化する。これらは行動選択規則を学習する第2のステップの間の唯一のパラメータである。この学習ステップでは、リカレントニューラルネットワークが外部入力として将来の行動を受け取るのではなく、むしろこれらの行動がフィードフォワードネットワークによって報酬関数を考慮しつつ学習される。さらに、過去の時間ステップτ<tについては、出力クラスタxτは省かれる。というのも、出力クラスタxτは第1のステップにおける動特性のモデル化にしか必要でないからである。ネットワークの将来の時間ステップτ>tについては、式(4)による誤差関数は、以下に式(9)で示す報酬関数ないし費用関数c(・)に取って代わられる。これは、アーキテクチャで言えば、補助的な報酬クラスタRτによって達成される。なお、報酬クラスタRτは、上記の報酬関数c(・)と出力クラスタXτ内の可能な活動化関数hとに依存する特定問題向けの固定行列Gにより出力クラスタXτと結合されている。こうして、ネットワークRCNNにより、ニューラルアーキテクチャ内で報酬関数c(・)がコード化される。このことは、報酬クラスタRτは出力クラスタXτに基づいて計算されなくてもよく、より一般的に記述しうることを意味している。これにより、より複雑なネットワークアーキテクチャが可能になる。例えば、報酬関数が明示的に学習されるようにしてもよい。これは特にc(・)が既知でない、または不完全にしか規定されていない場合に役立つ。これはRCNNの出力を入力とする別の補助的な三層ニューラルネットワークによっても達成することができる。
フィードフォワードネットワークの重みは報酬クラスタRτ(τ>t)の逆伝播した報酬に従ってしか適応調整されない。このことは、行動選択規則を学習する第2のステップは動特性の特定のために使用されるのではなく、報酬を最大化する規則を学習するために使用されるという考えに相応している。ただし、システムの動特性は既に前もってモデル化されている。
行動選択規則を学習する第2のステップは下記の式(5)〜(9)によって数学的に表現することができる。なお、行列EおよびFならびにバイアスbは学習される。式(5)〜(9)は次の通りである。
Figure 0005448841
式(1)〜(4)に従って技術システムの動特性をモデル化する場合も、式(5)〜(9)に従って行動選択規則を学習する場合も、リカレントニューラルネットワークは同じ訓練サンプルTと先行技術から十分に知られている文献[1]による逆伝播法とによって訓練される。ここで、各訓練サンプルTは、技術システムの状態という形での相応する訓練データと実行される行動とが割り当てられた時点に相当する。行動選択規則を学習するステップは報酬関数c(・)の誤差の逆伝播と見なすことができる。
上に述べたリカレントニューラルコントロールネットワークRCNNの実施形態は、将来の状態を考慮した動的かつ整合的な時間発展をもつ動特性を特定するためのリカレントニューラルネットワークRNNの利点と行動選択規則を学習するための三層ニューラルコントロールネットワークの利点を理想的に組み合わせている。このようにして高い近似精度が達成され、複雑な動的システムでも非常に高いデータ効率性をもって制御することができる。また、システムを簡単に高次元へとスケーリングすることができ、部分的にしか観察可能でない環境を技術システムの状態から再構成することができる。さらに、このネットワークを用いれば、連続的な状態空間と行動空間を非常に良く処理することができる。
以上に、本発明による方法のステップb)で構築されたシミュレーションモデルに適用される複数の学習法のうちの1つである学習法の実施形態を説明した。構築されたシミュレーションモデルにはさらに別の少なくとも1つの学習法が適用される。なお、この学習法は、例えばテーブルベースの強化学習法のような先行技術から公知の任意の学習法であってよい。
次に本発明による方法のステップc)では、使用している学習法ないし最適化法から、所定の基準に従った適切な方法が選択される。この所定の基準は、例えば、個々の学習法における相応の報酬関数、とりわけ、式(9)で記述されている学習法に関する式(9)による費用関数の総和の極小値である。このような費用関数の総和の最小の極小値を有する学習法がステップc)において最も適した学習法として識別される。また、上記所定の基準は次のように定めてもよい。すなわち、ステップb)で学習した学習法に基づいて複数の行動が実行され、続いてどの学習法が実行されたすべての行動の最小平均報酬をもたらすかが評価されるように、上記所定の基準を定めてもよい。
最も適した学習法が選択された後、最後にステップd)において、実際の技術システムの閉ループ制御ないし開ループ制御がこの選択された学習法ないし最適化法を用いて行われる。学習法ないし最適化法は、技術システムの所定の状態において、後で技術システムにおいて実行されるべき行動を提供する。この行動は新たな状態をもたらすが、この新たな状態に対しても、学習法ないし最適化法により、次に実行されるべき行動を再び決定することができる。
閉ループ制御ないし開ループ制御には様々な実施形態が存在する。例えば、ステップc)で選択された学習法ないし最適化法を初期コントローラとして学習してもよい。すなわち、選択された学習法ないし最適化法によりシミュレーションモデルに基づいて学習されたパラメータが技術システムの制御時に始めから使用される。あるいは、選択された学習法ないし最適化法の学習したパラメータをリセットし、選択された学習法ないし最適化法を実際の技術システム上で最初から新たに学習し直すことも考えられる。同様に、既に学習したパラメータを基に、実際の技術システムの閉ループ制御および/または開ループ制御のあいだ学習過程を継続させ、実際の技術システムに基づいてパラメータをさらに改善してもよい。同様に、実際の技術システムの開ループ制御のあいだパラメータをもはや変更しないことも考えられる。
本発明による方法の学習過程の結果は一方では既に学習されたコントローラ、つまり、それ以上変更されず、したがってまた学習過程中に比べて非常に少ないメモリ要求と計算能力しか要さないコントローラであってよい。また他方では、恒常的な学習により常に改善される、または恒常的な学習により過程もしくは目標設定の変化に適応するコントローラであってもよい。ここで、過程の変化とは、経年劣化、季節影響、または、ガスタービンの場合であれば、ガス品質もしくはガス組成の緩慢な変化であってよい。目標設定の変化は個々の過程のコストと収益の変化、例えばガスタービンの場合であれば、発生する電流の収益に比べて排気ガスのコストが高くなるというような変化に起因するものでありうる。
本発明による方法は一連の利点を有している。技術システムの制御を、例えば強化学習法などの機械学習法によって最適化することにより、技術システムを手動で制御する必要がなくなる。このため、本発明による方法は、人間の理解力ではある程度しか理解できない非常に複雑な高次元の、とりわけ確率的な、過程を解くことができるという利点を有する。さらには、適切な学習法ないし最適化法の選択がシミュレーションモデルにおいて自律的に行われるので、実際の技術システムにおいての学習に比べてコストが格段に低い。有利な実施形態では、学習法ないし最適化法による学習中にとられる状態ないし行動に関して、許される値域が設定ないし学習される。値域外の状態ないし行動は禁止されたシステム状態を表す。これについては、例えば、学習時に相応のペナルティ信号により考慮するようにしてよい。このようにして、状態空間の局限的な探索が保証される。このことは、制御法を予め学習するためのデータベースを解決すべき課題に合わせて最適化するのに役立つ。既に学習したパラメータを技術システムの閉ループ制御ないし開ループ制御の際に使用することにより、本発明による方法はすぐに使うことができ、また高い信頼性をもって動作する。上に述べた状態空間の最小化または上記ニューラルネットワークRCNNによる直接的なニューラルモデリングのような特殊な方法を使用することにより、例えばガスタービン制御のような、複雑な技術システムの閉ループ制御ないし開ループ制御も可能になる。
文献一覧
[l] D.E. Rumelhart, G.E. Hinton, and R.J. Williams, "Learn-ing internal representations by error propagation", in Parallel Diskributed Processing: Exploratlons In The Microstructure of Cognikion, D.E. Rumelhart and J.L.M. et al., Eds. Cambridge: MIT Press, 1986, vol. l, pp. 318-362
[2] Leslie Pack Kaelbling; Michael L. Littman; Andrew W.
Moore, Reinforcement Learning: A Survey, Journal of Ar-tificial Intelligence Research 4 (1996) pp. 237-285

Claims (21)

  1. 技術システムの計算機支援による閉ループ制御および/または開ループ制御のための方法において、
    a)前記技術システムの時間的に連続する複数の既知の状態(x)に基づいて前記技術システムのシミュレーションモデルを構築し、
    b)前記シミュレーションモデルに複数の学習法および/または最適化法を適用し、なお、当該学習法および/または最適化法はそれぞれの学習したパラメータと、前記状態(x)および前記状態(x)に割り当てられた行動(a)のシーケンスを結果として提供し、ある1つの状態(x)に割り当てられた行動(a)は前記シーケンス中の新たな状態(xt+1)をもたらし、
    c)前記複数の学習法および/または最適化法の結果に基づき、所定の基準に従って、前記複数の学習法および/または最適化法の中から、前記技術システムの閉ループ制御および/または開ループ制御に適した1つの学習法および/または最適化法を選択し、その際、学習法および/または最適化法の選択を前記学習法および/または最適化法の各々の評価に依存して行う、ただし、前記評価は、前記シミュレーションモデルから出力される、および/または各学習法および/または最適化法の結果を介して求められ、
    d)選択した学習法および/または最適化法を用いて前記技術システムを閉ループ制御または開ループ制御し、その際、前記閉ループ制御または開ループ制御が、前記技術システムの状態(x)に依存して、後で技術システムにおいて実行されるべき行動(a)を指定する、ことを特徴とする方法。
  2. 前記技術システムは、ガスタービンである、請求項1記載の方法。
  3. 前記ステップd)において、前記ステップb)で学習したパラメータに基づき、選択された学習法を用いて前記技術システムが閉ループ制御ないし開ループ制御する、その際、前記学習されたパラメータは前記技術システムの閉ループ制御ないし開ループ制御の際に変更されることはない、請求項1または2記載の方法。
  4. 前記ステップd)において、閉ループ制御ないし開ループ制御の初めに前記ステップb)で学習したパラメータが使用されるように、選択された学習法により前記技術システムを閉ループ制御ないし開ループ制御する、ただし、前記学習したパラメータは、閉ループ制御ないし開ループ制御の間、閉ループ制御ないし開ループ制御の間に生じた新たな状態(x)および行動(a)によりさらに学習される、請求項1または2記載の方法。
  5. 前記ステップd)において、選択された学習法ないし最適化法を用いてステップb)で学習したパラメータをリセットし、前記技術システムの閉ループ制御ないし開ループ制御の際に新たに学習する、請求項1または2記載の方法。
  6. 使用するシミュレーションモデルを前記ステップa)においてリカレントニューラルネットワークに基づいて構築する、請求項1から5のいずれか1項記載の方法。
  7. 前記評価は、評価関数または報酬関数による、前記学習法および/または最適化法の品質の決定により行われる、請求項1から6のいずれか1項記載の方法。
  8. 前記シミュレーションモデルに適用される複数の学習法および/または最適化法には、1つまたは複数の強化学習法が含まれている、請求項1から7のいずれか1項記載の方法。
  9. 前記強化学習法は、テーブルベースの強化学習法である、請求項8記載の方法。
  10. 前記シミュレーションモデルに適用される複数の学習法および/または最適化には、適応型発見的クリティックアルゴリズムおよび/またはQ学習アルゴリズムおよび/または優先順位付きスウィープアルゴリズムが含まれている、請求項1から9のいずれか1項記載の方法。
  11. 前記強化学習法または前記強化学習法のうちの1つは、
    − 前記技術システムの動特性を前記シミュレーションモデルで求めた状態(x)および行動(a)を含む訓練データを用いてリカレントニューラルネットワークにより複数の時点(t)でモデル化し、ただし、前記リカレントニューラルネットワークは、前記複数の時点(t)における前記技術システムの状態(x)と前記技術システム上で行われる行動(a)とを含む少なくとも1つの入力層(I)、隠れ状態(s,p)を含む少なくとも1つの隠れリカレント層(H)、および前記複数の時点(t)における前記技術システムの状態(x)を含む少なくとも1つの出力層(O)により形成されており、
    − 前記リカレントニューラルネットワークを、現在および将来の時点(t)について、少なくとも1つの入力層(H)、隠れ状態(r)を含む少なくとも1つの隠れ層(R)、少なくとも1つの出力層(O’)を含む別のニューラルネットワークと結合させて、行動選択規則を学習し、ただし、前記別のニューラルネットワークの各時点(t)の入力層(H)は前記リカレントニューラルネットワークの各時点(t)の隠れ状態(p)の少なくとも一部を含んでおり、前記別のニューラルネットワークの各時点の出力層(O’)は前記技術システム上で各時点に実行される行動(a)を含んでおり、
    − 前記技術システムの状態(x)および割り当てられた行動(a)を前記別のニューラルネットワークと結合した前記リカレントニューラルネットワークにより学習した行動選択規則を用いて決定する
    ように構成されている、請求項8から10のいずれか1項記載の方法。
  12. 前記技術システムの各状態(x)を第1の次元を有する第1の状態空間内の複数の状態変数により表す、および/またはある1つの状態(x)に割り当てられた各行動(a)を複数の行動変数により表す、請求項1から11のいずれか1項記載の方法。
  13. ある1つの状態(x)に割り当てられた前記各行動(a)を前記技術システムの1つまたは複数の操作量の変化により表す、その際、前記操作量の少なくとも一部は前記技術システムの状態(x)に相当する、請求項1から12のいずれか1項記載の方法。
  14. 前記ステップb)を実行する前に、前記複数の学習法および/または最適化法のうちの少なくとも一部について、それぞれ以下のように前記第1の状態空間の最小化を行う、すなわち、
    − 前記第1の状態空間の状態(x)を、入力層(I)、隠れリカレント層(H)、および出力層(O)を有するリカレントニューラルネットワークにより、前記シミュレーションモデルで求めた状態を訓練データとしてモデル化し、その際、
    i)前記複数の時点(t)について、前記入力層(I)と前記出力層(O)をそれぞれ前記第1の状態空間内の状態(x)により形成し、
    ii)前記隠れリカレント層(H)を、第2の次元を有する第2の状態空間内の複数の隠れ状態変数をもつ隠れ状態(s)により形成し、ただし、第2の次元は第1の次元よりも低く、
    − 前記第2の状態空間内の前記隠れ状態(s)に対して、前記学習法および/または最適化法の少なくとも一部の各学習法および/または最適化法を前記ステップb)に従って実行することにより、前記第1の状態空間の最小化を行う、
    請求項12または13記載の方法。
  15. 前記ステップb)において、前記状態(x)および/または前記行動( )を所定の基準に従って離散化する、請求項1から14のいずれか1項記載の方法。
  16. 前記技術システムの状態(x)および/または割り当てられた行動(a)に関して、1つまたは複数の値域を定めるか、または学習する、ただし、前記状態(x)および/または前記行動(a)の値は、前記ステップb)において学習法および/または最適化法を適用する際、前記値域内になければならない、請求項1から15のいずれか1項記載の方法。
  17. 前記ステップb)において各学習法および/または最適化法を前記シミュレーションモデルに適用する際に、前記値域をペナルティ信号によって学習する、ただし、該ペナルティ信号は、前記学習法および/または最適化法で求められた状態(x)および/または行動(a)が測定されたまたは許容される状態(x)および/または行動(a)から偏差すればするほど大きい、請求項16記載の方法。
  18. 前記方法によりガスタービンを閉ループ制御および/または開ループ制御する、その際、前記技術システムの状態および/または当該状態(x)に割り当てられた行動(a)は、ガスタービンの総出力、ガスタービンまたはガスタービン周辺の1つまたは複数の圧力および/または温度、ガスタービン内の燃焼室加速度、ガスタービンの1つまたは複数の調整パラメータ、のうちの1つ又は複数を含む、請求項1から17のいずれか1項記載の方法。
  19. 前記ガスタービンの1つまたは複数の調整パラメータは、バルブ調節および/または燃料比および/または入口案内翼の調節のうちの1つまたは複数を含む、請求項18記載の方法。
  20. 前記ステップb)において前記シミュレーションモデルに適用される複数の学習法および/または最適化は、学習目標および/または最適化目標として、低い燃焼室加速度を含む、請求項18または19記載の方法。
  21. 技術システムの計算機支援による閉ループ制御および/または開ループ制御のために、
    コンピュータに以下の
    a)前記技術システムの時間的に連続する複数の既知の状態(x)に基づいて前記技術システムのシミュレーションモデルを構築し、
    b)前記シミュレーションモデルに複数の学習法および/または最適化法を適用し、なお、当該学習法および/または最適化法はそれぞれの学習したパラメータと、前記状態(x)および前記状態(x)に割り当てられた行動(a)のシーケンス結果として提供し、ある1つの状態(x)に割り当てられた行動(a)は前記シーケンス中の新たな状態(xt+1)をもたらし、
    c)前記複数の学習法および/または最適化法の結果に基づき、所定の基準に従って、前記複数の学習法および/または最適化法の中から、前記技術システムの閉ループ制御および/または開ループ制御に適した1つの学習法および/または最適化法を選択し、その際、学習法および/または最適化法の選択を前記学習法および/または最適化法の各々の評価に依存して行う、ただし、前記評価は、前記シミュレーションモデルから出力される、および/または各学習法および/または最適化法の結果を介して求められ、
    d)選択した学習法および/または最適化法を用いて前記技術システムを閉ループ制御または開ループ制御し、その際、前記閉ループ制御または開ループ制御が、前記技術システムの状態(x)に依存して、後で技術システムにおいて実行されるべき行動(a)を指定する、
    手順を実行させるためのコンピュータプログラム。
JP2009544385A 2007-01-02 2007-12-19 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法 Expired - Fee Related JP5448841B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102007001024A DE102007001024B4 (de) 2007-01-02 2007-01-02 Verfahren zur rechnergestützten Regelung und/oder Steuerung eines technischen Systems insbesondere einer Gasturbine
DE102007001024.0 2007-01-02
PCT/EP2007/064262 WO2008080862A1 (de) 2007-01-02 2007-12-19 Verfahren zur rechnergestützten regelung und/oder steuerung eines technischen systems, insbesondere einer gasturbine

Publications (2)

Publication Number Publication Date
JP2010514986A JP2010514986A (ja) 2010-05-06
JP5448841B2 true JP5448841B2 (ja) 2014-03-19

Family

ID=39325593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009544385A Expired - Fee Related JP5448841B2 (ja) 2007-01-02 2007-12-19 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法

Country Status (7)

Country Link
US (1) US8099181B2 (ja)
EP (1) EP2108139B1 (ja)
JP (1) JP5448841B2 (ja)
CN (1) CN101573667B (ja)
AT (1) ATE472757T1 (ja)
DE (2) DE102007001024B4 (ja)
WO (1) WO2008080862A1 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008020379A1 (de) 2008-04-23 2009-10-29 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102008020380B4 (de) * 2008-04-23 2010-04-08 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
US9671797B2 (en) 2009-05-08 2017-06-06 Gas Turbine Efficiency Sweden Ab Optimization of gas turbine combustion systems low load performance on simple cycle and heat recovery steam generator applications
US9354618B2 (en) 2009-05-08 2016-05-31 Gas Turbine Efficiency Sweden Ab Automated tuning of multiple fuel gas turbine combustion systems
US8437941B2 (en) 2009-05-08 2013-05-07 Gas Turbine Efficiency Sweden Ab Automated tuning of gas turbine combustion systems
US9267443B2 (en) 2009-05-08 2016-02-23 Gas Turbine Efficiency Sweden Ab Automated tuning of gas turbine combustion systems
DE102010011221B4 (de) * 2010-03-12 2013-11-14 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
EP2558910B1 (en) 2010-04-12 2018-12-05 Siemens Aktiengesellschaft Method for computer-aided closed-loop and/or open-loop control of a technical system
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
EP2649567B1 (de) * 2010-12-10 2016-08-17 Siemens Aktiengesellschaft Verfahren zur rechnergestützten modellierung eines technischen systems
DE102011075337A1 (de) * 2011-05-05 2012-11-08 Siemens Ag Verfahren und Vorrichtung zur Ansteuerung einer Anlage
DE102012202111A1 (de) * 2012-02-13 2013-08-14 Krones Ag Verfahren zur Steuerung und/oder Regelung von Filteranlagen zur Ultrafiltration
DE102012206651A1 (de) 2012-04-23 2013-10-24 Siemens Aktiengesellschaft Verfahren zur Regelung einer Turbine
DE102012209387A1 (de) * 2012-06-04 2013-12-05 Robert Bosch Gmbh Verfahren und Vorrichtung zum Überwachen eines Stellgebersystems
EP2693279B1 (en) * 2012-08-01 2018-02-21 Fujitsu Limited Method and program for generating a simulator
DE102013205356B4 (de) * 2013-03-26 2016-07-07 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
US9581086B2 (en) * 2013-12-20 2017-02-28 General Electric Company Turbine operational flexibility
US10330018B2 (en) 2014-03-24 2019-06-25 Rolls-Royce Corporation Integrating design and field management of gas turbine engine components with a probabilistic model
DE102014212747A1 (de) * 2014-07-01 2016-01-07 Siemens Aktiengesellschaft Interaktives Assistenzsystem und Verfahren zur rechnergestützten Steuerungsoptimierung für ein technisches System
CN104196639B (zh) * 2014-08-07 2017-12-01 北京华清燃气轮机与煤气化联合循环工程技术有限公司 燃气轮机控制方法及装置
RU2612462C1 (ru) * 2016-02-17 2017-03-09 ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ КАЗЕННОЕ ВОЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "Военная академия Ракетных войск стратегического назначения имени Петра Великого" МИНИСТЕРСТВА ОБОРОНЫ РОССИЙСКОЙ ФЕДЕРАЦИИ Способ моделирования целевых программ создания технических систем
DE102016203855B4 (de) * 2016-03-09 2023-11-02 Siemens Aktiengesellschaft Verfahren und Vorrichtung zum Steuern eines technischen Systems anhand von Steuermodellen
CN105843037B (zh) * 2016-04-11 2019-05-10 中国科学院自动化研究所 基于q学习的智能楼宇温度控制方法
US9869611B1 (en) 2016-08-19 2018-01-16 Siemens Industry, Inc. System and method for testing a building control system that controls and monitors environmental conditions in a building
JP6612716B2 (ja) 2016-11-16 2019-11-27 株式会社東芝 パターン識別装置、パターン識別方法およびプログラム
JP6645994B2 (ja) * 2017-03-02 2020-02-14 ファナック株式会社 ゲインの最適化を学習する機械学習装置及び機械学習装置を備えた電動機制御装置並びに機械学習方法
US10255909B2 (en) * 2017-06-29 2019-04-09 Intel IP Corporation Statistical-analysis-based reset of recurrent neural networks for automatic speech recognition
CN107315573B (zh) * 2017-07-19 2020-06-16 北京上格云技术有限公司 建筑机电系统的控制方法、存储介质和终端设备
US11164077B2 (en) * 2017-11-02 2021-11-02 Siemens Aktiengesellschaft Randomized reinforcement learning for control of complex systems
EP3489773A1 (de) 2017-11-24 2019-05-29 Siemens Aktiengesellschaft Verfahren zum rechnergestützten steuern eines technischen systems, insbesondere einer energieerzeugungsanlage
DE102018108106B4 (de) 2018-04-05 2020-01-23 Nolden Regelsysteme GmbH Verfahren zum Regeln einer Temperatur einer Spritzgießmaschine und Regelsystem
CN108805348B (zh) * 2018-06-05 2020-06-23 京东数字科技控股有限公司 一种交叉口信号配时控制优化的方法和装置
US20190385091A1 (en) * 2018-06-15 2019-12-19 International Business Machines Corporation Reinforcement learning exploration by exploiting past experiences for critical events
EP3587046A1 (de) * 2018-06-28 2020-01-01 Siemens Aktiengesellschaft Verfahren und vorrichtung zum rechnergestützten ermitteln von regelparametern für eine günstige handlung eines technischen systems
CN110837223A (zh) * 2018-08-15 2020-02-25 大唐南京发电厂 一种燃气轮机燃烧优化控制方法及系统
JP7011239B2 (ja) * 2018-08-17 2022-01-26 横河電機株式会社 装置、方法、プログラム、および、記録媒体
EP3894965A1 (en) 2018-12-13 2021-10-20 Andritz, Inc. Industrial plant controller
JP6850313B2 (ja) * 2019-02-08 2021-03-31 エヌ・ティ・ティ・コミュニケーションズ株式会社 シミュレーション装置、シミュレーション方法およびシミュレーションプログラム
CN110017184B (zh) * 2019-04-01 2024-02-27 华电电力科学研究院有限公司 一种基于强化学习算法的分布式余压发电系统及其控制方法
EP3726139A1 (de) * 2019-04-16 2020-10-21 Siemens Aktiengesellschaft Verfahren und anordnung zum steuern einer verbrennungskraftmaschine mit mehreren brennern
DE102019208263A1 (de) * 2019-06-06 2020-12-10 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ermitteln einer Regelungsstrategie für ein technisches System
JP7331660B2 (ja) * 2019-11-26 2023-08-23 横河電機株式会社 装置、方法およびプログラム
FR3106862B1 (fr) * 2020-02-04 2022-02-04 Arianegroup Sas Procédé de mise en froid utilisant un réseau neuronal artificiel
JP7484382B2 (ja) 2020-04-24 2024-05-16 横河電機株式会社 制御装置、制御方法および制御プログラム
US11203986B1 (en) 2020-06-08 2021-12-21 General Electric Company Systems and methods for extended emissions compliant operation of a gas turbine engine
US11333082B2 (en) 2020-06-12 2022-05-17 General Electric Company Systems and methods for determination of gas turbine fuel split for head end temperature control
CN113940776B (zh) * 2021-10-27 2023-06-02 深圳市千誉科技有限公司 一种自适应控制方法及电动牙刷
US20230129189A1 (en) * 2021-10-27 2023-04-27 Yokogawa Electric Corporation Apparatus, method, and computer readable medium
CN114611300A (zh) * 2022-03-14 2022-06-10 西安热工研究院有限公司 一种重型燃气轮机关键部件效能参数软测量方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0395666A (ja) * 1989-09-07 1991-04-22 Fujitsu Ltd パターン学習装置
US5485545A (en) * 1991-06-20 1996-01-16 Mitsubishi Denki Kabushiki Kaisha Control method using neural networks and a voltage/reactive-power controller for a power system using the control method
JPH07501643A (ja) * 1991-12-09 1995-02-16 シーメンス アクチエンゲゼルシヤフト 制御パラメータに依存する実際値特性を有するシステムに対する制御パラメータの最適化方法
JP3303032B2 (ja) * 1992-04-24 2002-07-15 株式会社日立製作所 ニューラルネット学習装置
JPH06314105A (ja) * 1993-04-30 1994-11-08 Ishikawajima Harima Heavy Ind Co Ltd ニューラルネットコントローラシステム
JP3515267B2 (ja) * 1996-02-29 2004-04-05 株式会社東芝 多層神経回路網学習装置
US5857321A (en) * 1996-06-11 1999-01-12 General Electric Company Controller with neural network for estimating gas turbine internal cycle parameters
JPH11353295A (ja) * 1998-06-09 1999-12-24 Fujitsu Ltd 内部モデル学習方法及び装置
JP3086206B2 (ja) * 1998-07-17 2000-09-11 科学技術振興事業団 エージェント学習装置
GB0126298D0 (en) * 2001-11-01 2002-01-02 Rolls Royce Plc Fault diagnosis
US6873887B2 (en) * 2001-11-13 2005-03-29 Goodrich Pump & Engine Control Systems, Inc. Rotor torque anticipator
US7216071B2 (en) * 2002-04-23 2007-05-08 United Technologies Corporation Hybrid gas turbine engine state variable model
ES2264766T3 (es) * 2002-09-26 2007-01-16 Siemens Aktiengesellschaft Dispositivo y procedimiento para la supervision de una instalacion tecnica que comprende varios sistemas, especialmente de una central electrica.
DE10345440A1 (de) * 2003-09-30 2005-05-12 Siemens Ag Verfahren, Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Analyse von Einflussgrößen auf einen Brennvorgang in einer Brennkammer unter Verwendung eines trainierbaren, statistischen Modells
US7490027B2 (en) * 2003-11-06 2009-02-10 Theodora Retsina Method and system for linear optimization of a continuous or semi-continuous process
US7383167B2 (en) * 2004-01-29 2008-06-03 General Electric Company Methods and systems for modeling power plants
WO2005081076A2 (de) * 2004-02-24 2005-09-01 Siemens Aktiengesellschaft Verfahren, zur prognose eines brennkammerzustandes unter verwendung eines rekurrenten, neuronalen netzes
EP1724528A1 (de) * 2005-05-13 2006-11-22 Siemens Aktiengesellschaft Verfahren und Vorrichtung zum Regeln der Fahrlinie einer Gasturbinenbrennkammer
CN1746797A (zh) * 2005-08-09 2006-03-15 东华大学 智能优化参数自整定控制方法
US7660636B2 (en) * 2006-01-04 2010-02-09 Accelerated Care Plus Corp. Electrical stimulation device and method for the treatment of dysphagia

Also Published As

Publication number Publication date
DE102007001024A1 (de) 2008-07-03
ATE472757T1 (de) 2010-07-15
US8099181B2 (en) 2012-01-17
US20100070098A1 (en) 2010-03-18
EP2108139B1 (de) 2010-06-30
WO2008080862A1 (de) 2008-07-10
EP2108139A1 (de) 2009-10-14
DE102007001024B4 (de) 2008-10-02
CN101573667A (zh) 2009-11-04
DE502007004293D1 (de) 2010-08-12
CN101573667B (zh) 2012-07-04
JP2010514986A (ja) 2010-05-06

Similar Documents

Publication Publication Date Title
JP5448841B2 (ja) 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法
US8554707B2 (en) Method for the computer-assisted control and/or regulation of a technical system where the dynamic behavior of the technical system is modeled using a recurrent neural network
US8160978B2 (en) Method for computer-aided control or regulation of a technical system
US8260441B2 (en) Method for computer-supported control and/or regulation of a technical system
JP5345551B2 (ja) 計算機支援による技術システムの開ループ制御および/または閉ループ制御のための方法
US5781700A (en) Trained Neural network air/fuel control system
US8447706B2 (en) Method for computer-aided control and/or regulation using two neural networks wherein the second neural network models a quality function and can be used to control a gas turbine
KR101920251B1 (ko) 기술 시스템의 컴퓨터-도움 제어 및/또는 조절을 위한 방법
JPH03164804A (ja) プロセス制御システム及び発電プラントプロセス制御システム
US8340789B2 (en) System for monitoring and optimizing controllers for process performance
Duell et al. Solving partially observable reinforcement learning problems with recurrent neural networks
CN113614743A (zh) 用于操控机器人的方法和设备
Schaefer et al. A neural reinforcement learning approach to gas turbine control
Ellis Machine learning enhanced grey-box modeling for building thermal modeling
CN116880191A (zh) 一种基于时序预测的过程工业生产系统的智能控制方法
EP4292945A1 (en) Hybrid online policy adaptation strategy for attitude pointing performance
CN116227558A (zh) 针对多次连续推理的神经网络动态退出轻量化方法和系统
Ibrahem et al. An ensemble of recurrent neural networks for real time performance modelling of three-spool aero-derivative gas turbine engine
CN111356959B (zh) 用于计算机辅助地控制技术系统的方法
Naug Deep learning methods applied to modeling and policy optimization in large buildings
Lennox et al. Neural network control of a gasoline engine with rapid sampling
Baccouri et al. An Iterative Approach to Automate the Tuning of Continuous Controller Parameters
US20230359154A1 (en) Method and control device for controlling a machine
JP2001188602A (ja) 排気ガス制御システム
AU2022391985A1 (en) Controlling a swarm of agents

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110128

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110426

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110509

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110525

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110601

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110628

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110726

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111125

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130730

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130805

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130829

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130903

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130927

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131224

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees