JP5448841B2

JP5448841B2 - 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および／または開ループ制御のための方法

Info

Publication number: JP5448841B2
Application number: JP2009544385A
Authority: JP
Inventors: シュテルツィングフォルクマール; ウードルフトシュテフェン
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2007-01-02
Filing date: 2007-12-19
Publication date: 2014-03-19
Anticipated expiration: 2027-12-19
Also published as: DE102007001024A1; ATE472757T1; US8099181B2; US20100070098A1; EP2108139B1; WO2008080862A1; EP2108139A1; DE102007001024B4; CN101573667A; DE502007004293D1; CN101573667B; JP2010514986A

Description

本発明は、技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および／または開ループ制御のための方法、ならびに相応するコンピュータプログラム製品に関する。

複雑な技術システムを制御する際、技術システムの所望の有利な動特性が得られるように、実行すべき変更を技術システムにおいて選択することが望ましいという場合がよくある。しかし、複雑な技術システムでは、動特性を簡単に予測できない場合が多い。したがって、技術システムの将来の挙動を推定し、それに応じて技術システムの閉ループ制御または開ループ制御のために適切な行動を選択するために、相応の計算機支援予測方法が必要である。

大抵、技術システムの状態は簡単には測定できず、システム挙動に確率的な部分があるために統計的にしか記述することができない。したがって、このような技術システムを閉ループ制御する場合、相応する閉ループ制御の理想値ないし規定値も、例えばニューラルネットワークのようなシミュレーションモデルの訓練に使用できる相応する目標値も存在していないことが多い。複雑な技術システムの種々の測定量と操作量の間に存在しうる依存関係は不明であるから、このシステムの最適な自動制御を開発することは困難であるか、技術システムの動特性を非常に長期にわたって観察することによってしか可能でない。

先行技術からは、技術システムの動作点の閉ループ制御もしくは開ループ制御および最適化の様々な方法が公知である。これらの方法は、技術システムを記述するために解析的なモデルを使用するか、技術システムの過去の測定データまたは技術システムに関する情報に基づいた技術システムのモデル化に依拠している。なお、モデル化は例えばベイジアンネットワークやニューロファジーネットワークを用いて行われる。

技術システムを閉ループ制御または開ループ制御するための公知の方法は、技術システムをモデル化するために、多数の測定データを必要とする場合が多く、また専用の技術システムに適しているか否かも予め明らかではない。
文献EP 1 016 981 A1には、エージェントを学習する装置が示されている。この装置では、強化学習に基づいた多数の学習モジュールによって、技術システム上で実行されるべき行動が学習される。個々の学習モジュールの行動は、求められた予測誤差に依存して相応に重み付けされ、互いに結合される。
文献US 5 485 545 Aからは、リカレントニューラルネットワークに基づいて制御を学習する技術システムの学習方法が公知である。適用例としては、電力システムの電圧の制御が記載されている。

それゆえ、本発明の課題は、少ない測定データに基づいて技術システムの効率的で正確な閉ループ制御または開ループ制御を可能にする、技術システムの計算機支援による閉ループ制御および／またはかイループ制御の方法を提供することである。

この課題は独立請求項により解決される。本発明の展開形態は従属請求項に記載されている。

本発明による方法は、ステップａ）において、技術システムの時間的に連続した測定された状態に基づいて技術システムのシミュレーションモデルを構築する。次に、ステップｂ）において、構築されたシミュレーションモデルに複数の学習法および／または最適化法を適用する。ここで、これらの学習法および／または最適化法は、結果として、それぞれの学習したパラメータと、状態および状態に割り当てられた行動のシーケンスを提供し、ある１つの状態に割り当てられた行動は状態と行動のシーケンスの中の新たな状態をもたらす。複数の学習法および／または最適化法の結果に基づき、最終的に所定の基準に従って、複数の学習法および／または最適化法の中から１つの学習法および／または最適化法が選択される。なお、選択された方法はこの所定の基準に従って技術システムの閉ループ制御および／または開ループ制御に適したものである。ステップｃ）における学習法ないし最適化法の選択は、シミュレーションモデルから出力される評価および／またはそれぞれの学習法ないし最適化法の結果に依存する評価に依存して行われる。最後に、技術システムは、ステップｄ）において、選択された学習法および／または最適化法により閉ループ制御または開ループ制御される。この閉ループ制御または開ループ制御は、技術システムの状態に依存して、後に技術システム上で実行されるべき行動を指定する。

本発明による方法を用いれば、少ない測定データに基づいてシミュレーションモデルを構築することができ、このシミュレーションモデルを用いて、システムの開ループ制御ないし閉ループ制御にはどの学習法ないし最適化法が特に適しているのかを求めることができる。それゆえ、学習法ないし最適化法は直に実際の技術システム上で選択および学習されるのではなく、予めシミュレーションモデル上で選択および学習される。このようにして、実際の技術システムの本来の閉ループ制御ないし開ループ制御に先立って、特に適切な学習法が抽出される。技術システムの実際の閉ループ制御ないし開ループ制御は時として非常にコストがかかるが、これにより、実際の閉ループ制御ないし開ループ制御の際のエラーが防止される。上記の方法は非常に柔軟であり、新種の学習法ないし最適化法によって非常に容易に補完することができる。なお、新種の学習法ないし最適化法は上記方法のステップｂ）で考慮される。発明者は、適切な実験により、上記方法がガスタービンの閉ループ制御ないし開ループ制御に特に適していることを立証することができた。

本発明による方法では、ステップｄ）において、種々の閉ループ制御ないし開ループ制御を使用することができる。また、これら種々の閉ループ制御ないし開ループ制御を互いに組み合わせてもよい。とりわけ、あるタイプの制御から別のタイプの制御へと切り替えることができるようにしてよい。１つの実施形態では、ステップｄ）において、ステップｂ）で学習したパラメータに基づき、選択された学習法を用いて技術システムが閉ループ制御ないし開ループ制御される。なお、学習されたパラメータは技術システムの閉ループ制御ないし開ループ制御の際に変更されることはない。このようにして、実際の技術システムでの閉ループ制御ないし開ループ制御の全体を通して変更されることのない初期コントローラが得られる。つまり、これは既に学習済みのコントローラであり、閉ループ制御ないし開ループ制御の際に、計算機支援による方法に対して大量の所要メモリや高い計算能力を要求しない。

本発明の１つの実施形態によれば、技術システムは、ステップｄ）において、閉ループ制御ないし開ループ制御の初めにステップｂ）で学習したパラメータが使用されるように、選択された学習法を用いて閉ループ制御ないし開ループ制御される。なお、ステップｂ）で学習したパラメータは、閉ループ制御ないし開ループ制御のあいだ、閉ループ制御ないし開ループ制御中に生じた新たな状態および行動によってさらに学習される。このようにして、技術システムの実際稼働時における閉ループ制御ないし開ループ制御の最中に連続的に改善される適応型コントローラが得られる。

本発明の別の実施形態では、選択された学習法ないし最適化法を用いてステップｂ）で学習されたパラメータをリセットし（すなわち、予め決められた所定値にセットし）、技術システムの閉ループ制御ないし開ループ制御の際に新たに学習することもまた可能である。

本発明による方法のステップａ）では、任意の方法でシミュレーションモデルを構築してよい。このために、有利には、例えば詳細な説明で図１を参照して説明されているように、リカレントニューラルネットワークが使用される。

本発明の方法において学習法および／または最適化法の選択に使用される評価は有利には、評価関数または報酬関数による、前記学習法および／または最適化法の品質の決定により行われる。すなわち、それぞれの学習法ないし最適化法をシミュレーションモデルに適用する際に報酬関数による報酬が高ければ高いほど、技術システムの制御に関する学習法ないし最適化法の適格性は高く格付けされる。

シミュレーションモデルに適用される複数の学習法ないし最適化法には、特に１つまたは複数の強化学習法（Reinforcement-Learning、文献［２］参照、特にテーブルベースの強化学習法）が含まれている。例えば、これらの学習法および／または最適化法には、適応型発見的クリティック（Adaptive Heuristic Critic）アルゴリズムおよび／またはＱ学習アルゴリズムおよび／または優先順位付きスウィープアルゴリズムが含まれていてよい。これらのアルゴリズムは先行技術から十分に公知であるから、ここではこれ以上説明しない。

本発明の特に有利な別の実施形態では、上記複数の学習法ないし最適化法に新種の学習法が含まれていてよい。この学習法は次のように構成されている。
技術システムの動特性が、シミュレーションモデルで求めた状態および行動を含む訓練データを用いてリカレントニューラルネットワークにより複数の時点でモデル化される。なお、リカレントニューラルネットワークは、複数の時点における技術システムの状態と技術システムで行われる行動とを含む少なくとも１つの入力層、隠れ状態を含む少なくとも１つの隠れリカレント層、および複数の時点における技術システムの状態を含む少なくとも１つの出力層により形成されている。
リカレントニューラルネットワークが、現在および将来の時点について、少なくとも１つの入力層、隠れ状態を含む少なくとも１つの隠れ層、少なくとも１つの出力層を含む別のニューラルネットワークと結合されることにより、行動選択規則が学習される。ここで、別のニューラルネットワークの各時点の入力層はリカレントニューラルネットワークの各時点の隠れ状態の少なくとも一部を含んでおり、別のニューラルネットワークの各時点の出力層は技術システムにおいて各時点に実行される行動を含んでいる。

技術システムの状態および対応する行動は、別のニューラルネットワークと結合したリカレントニューラルネットワークにより、学習された行動選択規則を用いて決定される。

この新種の学習法は、２つのステップ、すなわち、技術システムの動特性をリカレントニューラルネットワークに基づいて履歴データを用いて学習するステップと、続いてリカレントニューラルネットワークを別のニューラルネットワークと結合することにより最適な制御を学習するステップを特徴としている。

本発明による方法では、技術システムの状態は大抵は高次元である。すなわち、技術システムの状態は第１の次元を有する第１の状態空間内の複数の状態変数によって規定される。有利には、技術システムの状態に対応する行動もそれぞれ複数の行動変数により規定される。

特に有利な別の実施形態では、状態に対応する各行動は技術システムの１つまたは複数の操作量の変化によって規定される。ここで、操作量は技術システムを制御する際の調整パラメータであり、操作量は有利には技術システムの状態変数であってよい。したがって、状態の変化は場合によっては操作量の変化にも相当する。

本発明の有利な実施形態では、ステップｂ）の実行前に、複数の学習法ないし最適化法のうちの少なくとも一部の学習法ないし最適化法に関して、状態の第１の状態空間の最小化が行われる。これには、通常は低次元の状態空間でしか機能しない学習法も使用できるという利点がある。第１の状態空間の最小化は次のようにして行われる。

第１の状態空間の状態が、入力層、隠れリカレント層、および出力層を有するリカレントニューラルネットワークにより、既知の状態を訓練データとしてモデル化される。その際、
ｉ）前記複数の時点について、入力層と出力層がそれぞれ第１の状態空間内の状態により形成される。
ｉｉ）隠れリカレント層は、第２の次元を有する第２の状態空間内の複数の隠れ状態変数をもつ隠れ状態により形成される。ただし、第２の次元は第１の次元よりも低い。

この最小化の後、それぞれの学習法ないし最適化法は、隠れ状態の縮退した第２の状態空間の中で実行される。

本発明による方法の別の実施形態では、ステップｂ）において、技術システムの状態および／または対応する行動が予め決められた基準に従って離散化される。問題に即応した適切な離散化により、技術システムの状態ないし行動がそれぞれの問題にとって有望と見なされるような値のみをとるようにすることができる。

本発明の特に有利な別の実施形態では、技術システムの状態および／または対応する行動に関して、１つまたは複数の値域が定められる、または学習される。ステップｂ）における学習法および／または最適化法を適用する際、状態および／または行動の値はこの値域内になければならない。このようにして、禁じられたシステム状態が選択されないように、状態および行動の空間を適切に探査することができる。これはパラメータ選択を限定することで明示的に達成することもできるが、システム自体が不適当なシステム状態を回避し、技術システムに固有の限度の状態を見つけだすことを学習してもよい。

本発明の特に有利な実施形態では、上記値域はステップｂ）においてそれぞれの学習法ないし最適化法をシミュレーションモデルに適用する際にペナルティ信号により学習される。ただし、ペナルティ信号は、学習法および／または最適化法で求められた状態および／または行動が、測定されたまたは許容される状態および／または行動から偏差すればするほど、大きくなる。ここで、許容される状態ないし行動は前もって定義されるものであり、技術システムの望ましい動作範囲を規定する。

本発明の特に有利な適用分野はタービンの制御、それも特にガスタービンの制御である。なお、技術システムの状態および／またはこれらの状態に対応する行動は以下の量のうちの１つまたは複数を含む。
ガスタービンの総出力、ガスタービンまたはガスタービン周辺の１つまたは複数の圧力および／または温度、ガスタービン内の燃焼室加速度、ガスタービンの１つまたは複数の調整パラメータ、とりわけ、バルブ調節および／または燃料比および／または入口案内翼の調節。
例えば、ステップｂ）でシミュレーションモデルに適用される学習法ないし最適化法は、学習目標ないし最適化目標として、低い燃焼室加速度を含んでいてよい。

本発明はさらに、上記方法の他に、コンピュータ上で走らせたときに本発明による方法を実行するプログラムコードをコンピュータ可読媒体に記憶させたコンピュータプログラム製品にも関している。

以下では本発明の実施例を添付図面に基づき詳細に説明する。

本発明の実施形態で技術システムのシミュレーションモデルを構築するために使用されるリカレントニューラルネットワークの概略図である。本発明に従って複数の学習法および／または最適化法から選択される学習法において使用されるリカレントニューラルネットワークの概略図である。図２のリカレントニューラルネットワークとフィードフォワードネットワークの組合せによる行動選択規則の学習を示した概略図である。

本発明による方法の下記の実施形態は任意の技術システムに適用可能である。しかし、以下の実施形態はガスタービンに適用するのが特に好ましい。なお、ガスタービンは例えば以下の１１個の状態変数を含む状態ベクトルによって表される。
ＧｔＬｓｔｇ＝ガスタービン出力
ＰｒＤＦｉ＝吸気フィルタでの圧力損失
ＶｅｒｄＰｒ＝コンプレッサ終圧
ＶｅｒｄＴ＝コンプレッサ終温
Ｓｃｈａｕｆｅｌ＝入口案内翼位置
ＤｒＶＢｒ＝燃焼室内での圧力損失
ＰｉｌｏｔＧ＝パイロットガス調整バルブの弁揚程
ＧａｓＤｒ＝ガス圧
ＧａｓＴ＝ガス温度
ＡｂｇａｓＴ＝廃ガス温度
ＢｋＢ＝燃焼室加速度
特に有利な実施形態では、本発明による方法は、学習ないし最適化の目標が、低い燃焼室加速度ないしはタービンの小さなうなり音と同一視しうる変数ＢｋＢのできるだけ小さな値であるように構成されている。

本発明による方法では、入力量として、様々な時点における技術システムの状態変数の測定値が用いられる。本発明による方法のステップａ）では、計算機支援により技術システムをシミュレートするためにこれらの測定値が使用される。なお、先行技術から公知の任意の方法を使用して、技術システムの相応のシミュレーションモデルを構築してもよい。これに関しては、ニューラルネットワークが特に適していることが判明している。

以下では、図１に基づき、本発明による方法のステップａ）においてシミュレーションモデルを構築するリカレントニューラルネットワークに基づいた方法を説明する。技術システムの状態はそれぞれ第１の状態空間内の状態によって規定される。なお、第１の状態空間は、技術システムの各時点ｔにおける状態ｘ_tの状態変数の個数により決まる次元を有している。ガスタービンに関する上の例では、１１個の状態変数があるので、１１次元の状態空間である。したがって、状態ｘ_tは技術システムの状態変数を成分とする状態ベクトルである。状態変数の値は測定してもよい。

図１のネットワークは入力層Ｉを含んでいる。入力層Ｉは、観察時点ｔにおいて、相応する状態ｘ_tと過去の状態ｘ_t-1，ｘ_t-2，ｘ_t-3等から形成されている。入力層の状態は行列Ｂを介して隠れ層Ｈの隠れ状態およびバイアス／閾値θと結合されている。ただし、時点ｔにおける状態ｘ_tは隠れ層Ｈの同じ時点における相応する隠れ状態ｓ_tに対応付けられている。隠れ層Ｈはリカレント層であり、隠れ状態ｓ_tは所定数の隠れ状態変数を有する状態ベクトルである。これにより、隠れ状態変数の個数に相当する第２の次元を有する状態空間が形成される。時点ｔにおける状態ｓ_tは行列Ａとバイアスθとを介して後続の時点における状態ｓ_t+1と結合されている。層Ｈの個々の隠れ状態ｓ_tは再び−入力層Ｉと同様に−技術システムの状態ｘ_tによって表される出力層Ｏと結合されている。各時点ｔにおける隠れ状態ｓ_tは行列Ｃを介して次の時点ｔ＋１における状態ｘ_t+1と結合されている。

図１に示されているリカレントニューラルネットワークは、技術システムの測定された状態を含む訓練データを用いて訓練される。したがって、相応する技術システムの時間的な動特性がこのネットワークによりモデル化される。図１によるリカレントネットワークは、将来の状態を考慮した動的かつ整合的な時間発展をもつネットワークであり、英語では"Network with Dynamically Consistent Overshooting"と呼ばれる。これは、ネットワーク内で時点ｔに過去の状態ｘ_t，ｘ_t-1，．．．等だけでなく、将来の状態ｘ_t+1，ｘ_t+2，．．．等も考慮されることを意味する。出力層におけるネットワークの固有の予測、すなわち、図１の状態ｘ_t+1，ｘ_t+2およびｘ_t+3は再びネットワークへの入力として使用される。このリカレントニューラルネットワークは特に１７個の過去の状態と８個の将来の状態とでテストしてある。図１では、隠れ層Ｈの相応する状態が出力層Ｏのどの状態と結合するかが破線で示されている。それゆえ、図１によるリカレントニューラルネットワークでは、システム自体の状態ｘ_τが予測される。このようにして、基礎となる技術システムの動特性をモデル化することができる。数学的には、図１のネットワークは以下の式により表される。

これらの式は時点ｔにおけるリカレントニューラルネットワークに関係している。時点ｔには、時点τの値域が考慮される。τの値域は時点ｔより前の所定数ｍの時間ステップと時点ｔより後の所定数ｎの時点（いわゆるオーバーシュート部分）とを含んでいる。
ここで、次の式が成り立つ。
ｔ∈｛ｍ,...,Ｔ−ｎ}
ただし、Ｔは、訓練データが存続する時点の個数、すなわち、技術システムの測定された状態が存続する時点の個数を表している。

上記の式によれば、ニューラルネットワークのパラメータとして、行列Ａ，Ｂ，Ｃおよびバイアスθが求められる。なお、これらのパラメータは、ネットワークによって求められた状態ｘ_τと相応する測定された状態ｘ_τ ^dとの間の平方誤差が訓練データに従って最小となるように選択されている。したがって、これらから、本発明による方法のさらなるステップｂ）〜ｄ）を実行するために使用しうるシミュレートされた技術システムのモデルが得られる。

本発明による方法のステップｂ）では、このモデルに複数の学習法および／または最適化法を適用するために、構築されたシミュレーションモデルが使用される。任意選択的に、ステップｂ）を実行する前に、状態ベクトルの状態変数の数を減らすいわゆる状態空間最小化の方法を使用してもよい。これには、シミュレーションモデルに適用される学習法および／または最適化法の数が明らかに多くなるという利点がある。なぜならば、公知の多くの学習法および／または最適化法は限られた次元の状態空間内でしか使用することができないからである。同様に、状態空間最小化のために、図１に示されているリカレントニューラルネットワークを使用してもよい。しかし、今や入力層の変数はもはや技術システムの測定された状態ではなく、シミュレーションモデルによってシミュレートされた状態である。次に、状態空間最小化のために、隠れ層Ｈにおいて、入力層Ｏにおける状態ベクトルの次元よりも低い次元を有する隠れ状態ベクトルｓ_tが選択される。その際、次元はできるだけ低く、しかしながら技術システムを十分良くシミュレートするように選ばれる。これは入力層Ｉの状態ベクトルが出力層Ｏの状態ベクトルからどれだけ偏差しているかによって決まる。状態空間最小化は、結果として、元の状態空間に比べて次元の縮退した隠れ状態変数の新しい状態空間をもたらす。本発明による方法のステップｂ）による１つまたは複数の学習法および／または最適化法はこの縮退した状態空間に適用することができる。既に述べたように、状態空間最小化のステップは任意選択的なものであり、場合によってはなくてもよい。さらに、状態空間最小化はステップｂ）で使用される学習法および／または最適化法の一部にしか適用できない。

本発明による方法のステップｂ）では、どのような学習法および／または最適化法でも、特に、例えば適応型発見的クリティック（Adaptive Heuristic Critic）アルゴリズム、Ｑ学習アルゴリズムまたは優先順位付きスウィープアルゴリズムのような先行技術から公知の学習法および／または最適化法でも使用することができる。以下では、多数の学習法の中から、先行技術からはまだ公知でない可能な学習法について説明する。この学習法はリカレントニューラルネットワークをフィードフォワードネットワークと組み合わせた学習法である。以下では、この方法を図２および図３を基に説明する。

以下に説明する学習法は、シミュレーションモデルによってシミュレートされた状態ｘ_tを含む状態空間Ｘと状態ｘ_tに依存して実行される行動ａ_tを表す行動空間Ａとに基づいた技術システムの記述に依拠している。なお、行動ａ_tは有利には複数の成分を有するベクトルであり、各成分は技術システム上での操作量の変化を表している。

ここでは、技術システムは確率遷移関数Ｐをもつマルコフ決定過程ＭＤＰ（ＭＤＰ＝Markov Decision Process）により記述できるものと仮定する。この過程に対して、報酬関数または費用関数ｃ：Ｘ×Ａ→Ｒが存在する。ここで、Ｒは状態ｘ_tにおける行動ａ_tの選択に対してシステムが得る報酬の空間を表している。今や、目標は、各状態ｘ_tについて期待される累積報酬関数または平均報酬関数ｃを最大化する最適な規則Π：Ｘ→Ａを求めることである。報酬関数ｃの最大化は、請求項に規定されているように、行動選択規則の１つの可能な具体化に相当する。報酬関数は、とりわけ、技術システムの所望の特性を反映するように決められ、最適値には関数が最大となったときに到達する。単純なケースでは、費用関数は例えば技術システムの有利な所望の状態、すなわち、費用関数が最大値をとったときに最適となるような状態としてよい。以下では、技術システムは離散的な時間ステップを有する決定性マルコフ決定過程であると仮定する。ただし、状態空間ＸおよびＡは連続である。

以下に説明する実施形態では、マルコフ決定過程はリカレントニューラルネットワークＲＮＮによってモデル化される。これにより、技術システムの動特性、すなわち、遷移関数Ｐ（・）が、高次元の非線形システム方程式によりモデル化される。なお、ここに説明する本発明の実施形態で使用されるリカレントニューラルネットワークＲＮＮは図２に示されている。リカレントニューラルネットワークは個々の時点における状態と行動を示す入力層Ｉを含んでいる。例えば、図２には、状態ｘ_t-1，ｘ_tおよび行動ａ_t-1，ａ_t，ａ_t+1が示されている。入力層は相応の行列ＢおよびＤを介して隠れ層Ｈと結合されている。なお、行列ＢおよびＤについては、以下でさらに詳しく定義する。隠れ層は各時点について隠れ状態を有しており、図１には、例として、状態ｐ_t-1，ｓ_t-1，ｐ_t，ｓ_t，ｐ_t+1およびｓ_t+1が示されている。隠れ層Ｈはリカレントである。というのも、個々の隠れ状態が相互に結合されているからである。このことは図２において相応の行列Ｉ（単位行列に相当）およびＡならびにバイアスθによって示されている。図２のリカレントニューラルネットワークはさらに技術システムの状態によって形成された出力層Ｏを有しており、図２には、状態ｘ_t，ｘ_t+1およびｘ_t+2が示されている。これらの状態はそれぞれ行列Ｃにより隠れ状態ｓ_t-1，ｓ_tおよびｓ_t+1と結合されている。

図２によるニューラルネットワークは−図１のネットワークと同様に−将来の状態を考慮した動的かつ整合的な時間発展をもつネットワーク（"Neural Network with Dynamically Consistent Overshooting"）である。このことは、ニューラルネットワークのモデル化の際には、過去の時点τだけでなく、将来の時点τも考慮され、ネットワークの予測された固有の状態は入力層において将来の状態のための入力として使用されるということを意味している。パラメータτは過去の展開ｍといわゆるオーバーシューティングの長さｎとによって制限されるので、すべての観察時点ｔ∈｛ｍ,...,Ｔ−ｎ｝について、τ∈｛ｔ−ｍ,...,ｔ＋ｎ｝が成り立つ。ここで、Ｔは使用できる時点の数であり、これらの時点についてニューラルネットワークの学習のための訓練データが存在する。図２から、オーバーシューティングは、ニューラルネットワークが技術システムのモデル化の際に将来の時点τ＞ｔも考慮することにより生じる。これら将来の時点は既知ではないため、ネットワークを介して出力層に出力された状態がまた次の時間ステップのための入力として再び使用される。図２では、このことが時点ｔ＋１に関して図示されている。ここで、出力された状態ｘ_t+1は再び隠れ層の隠れ状態ｐ_t+1に渡されている。

それゆえ、ここに説明した本発明の実施形態では、リカレントニューラルネットワークの入力側で状態ｘ_τと行動ａ_τのシーケンスが形成される。その際、ネットワークは過去と未来を考慮した所定の期間内に時間発展する。数学的には、図１のリカレントニューラルネットワークは以下の方程式により記述される。なお、方程式中には、上で述べた行列Ｉ，Ａ，Ｂ，Ｃ，Ｄおよびバイアスθが含まれている。

状態ｐ_τは前状態と呼ばれる。前状態は直前の隠れ状態ｓ_τ-1と外部の状態ｘ_τの情報をまとめたものである。隠れ層における非線形性はここでは双曲線正接によって表現される。前状態ｐ_τは隠れ状態ｓ_τと同じ次元を有しており、単位行列Ｉを介して隠れ状態ｓ_τと結合されている。なお、単位行列Ｉはニューラルネットワークの学習中に学習されない。隠れ状態ｓ_τは入力として行動ａ_τを有しており、技術システムの期待される次の状態ｘ_t+1の計算に使用される。行列Ｄは行動ａ_τの状態ｓ_τへの影響を考慮した適切な次元を有する補助的な行列である。行動ａ_τはまたニューラルネットワークＲＮＮに将来の入力（τ＞ｔ）として供給される。というのも、行動ａ_τは技術システムの動特性には直接影響を及ぼさず、したがってネットワークによって学習されるべきではないからである。技術システムの状態空間Ｘ内で多数の可能な状態をカバーするには、技術システムをモデル化するリカレントニューラルネットワークを訓練データでモデル化しなければならない。ただし、訓練データにおいて、行動ａ_τはランダムに選択されている。あるいは、学習される動特性が所定の規則に依存していてもよい。訓練データはここではステップａ）で構築されたシミュレーションモデルを用いて決定される。

今や、目標は、訓練データで学習した図２のニューラルネットワークを強化学習（Reinforcement Learning）と組み合わせて、上で述べた最適な規則を学習することである。これは、図２のリカレントニューラルネットワークを別のいわゆるコントロールネットワークと組合せ、それにより上記報酬関数ｃをニューラルネットワーク内に実現することによって達成される。

ここに説明した実施形態では、補助的なコントロールネットワークは、入力層、隠れ層および出力層を有する３層のニューラルフィードフォワードネットワークである。より複雑な別のトポロジーが可能なときでさえ、ここに説明したモデルを用いて、どのような種類のコントロール機能でもモデル化することができる。最適な行動ａ_τを予測しなければならないため、コントロールネットワークは将来の時点（すなわち、τ＞ｔ）についてのみリカレントニューラルネットワークと結合される。過去の時間発展（すなわち、τ＜ｔ）については、以前に供給された行動がリカレントニューラルネットワーク内で使用される。

図３には、別のフィードフォワードネットワークに結合されたリカレントニューラルネットワークが示されている。このリカレントニューラルネットワークは以下ではＲＣＮＮ（ＲＣＮＮ＝Recurrent Control Neural Network）とも呼ばれる。なお、ネットワークの一部で、フィードフォワードネットワークに関連している部分は、破線で示されている。コントロールネットワークは入力層として隠れ状態ｐ_t，ｐ_t+1，．．．を使用する。隠れ状態ｐ_t，ｐ_t+1，．．．は相応する状態ｒ_t，ｒ_t+1等を有する隠れ層Ｒと結合されている。隠れ状態ｒ_τは行列Ｅとバイアスｂを介して状態ｐ_τに結合されている、すなわち
ｒ_t＝ｔａｎｈ(Ｅｐ_τ＋ｂ)
隠れ状態ｒ_τはさらに行列Ｆを介してモデル化されるべき将来の行動ａ_τと結合されている。また、将来の状態ｘ_t+1，ｘ_t+2等を状態Ｒ_t+1，Ｒ_t+2等と結合する行列Ｇも存在している。ただし、状態Ｒ_t+1，Ｒ_t+2等は計算規則に関連した状態である。

ニューラルネットワークＲＣＮＮは２つの異なるタスクを履行しなければならない。一方では、基礎となる技術システムの動特性を特定せねばならず、他方では、適切な行動選択規則ないし報酬規則によって技術システムの最適な制御を達成しなければならない。それゆえ、このネットワークは、連続する２つのステップ、すなわち、訓練データによるリカレントニューラルネットワークの学習をする第１のステップと、リカレントニューラルネットワークをフィードフォワードネットワークと結合することにより報酬規則の学習をする第２のステップとにおいて訓練される。このアプローチは、この２つのタスクの組合せ学習を１つのステップで行おうとする従来の方法とは異なっている。

上記第１のステップではまず、技術システムの動的挙動に対応する基礎となるマルコフ決定過程の動特性がモデル化される。したがって、ネットワークＲＣＮＮは、将来の状態を考慮した動的かつ整合的な時間発展をもつリカレントニューラルネットワークへと還元される。この第１のステップは数学的には次の式で表される。

ここで、最後の式は、リカレントニューラルネットワークＲＮＮによって求められた状態ｘ_τをできるだけ訓練データの状態ｘ_τ ^dと一致させるという訓練の課題を表している。これに関しては、リカレントニューラルネットワークの決定すべきパラメータを表す行列Ａ，Ｂ，ＣおよびＤならびにバイアスθに関する２乗誤差の最小化が行われる。

技術システムの動特性をモデル化する第１のステップの後、このステップで求められた行列Ａ，Ｂ，ＣおよびＤならびにバイアスθは維持される、すなわち、さらなる訓練の間、その重みが変化しない。次に、図３に示されている行列ＥおよびＦならびにバイアスｂが活動化する。これらは行動選択規則を学習する第２のステップの間の唯一のパラメータである。この学習ステップでは、リカレントニューラルネットワークが外部入力として将来の行動を受け取るのではなく、むしろこれらの行動がフィードフォワードネットワークによって報酬関数を考慮しつつ学習される。さらに、過去の時間ステップτ＜ｔについては、出力クラスタｘ_τは省かれる。というのも、出力クラスタｘ_τは第１のステップにおける動特性のモデル化にしか必要でないからである。ネットワークの将来の時間ステップτ＞ｔについては、式（４）による誤差関数は、以下に式（９）で示す報酬関数ないし費用関数ｃ（・）に取って代わられる。これは、アーキテクチャで言えば、補助的な報酬クラスタＲ_τによって達成される。なお、報酬クラスタＲ_τは、上記の報酬関数ｃ（・）と出力クラスタＸ_τ内の可能な活動化関数ｈとに依存する特定問題向けの固定行列Ｇにより出力クラスタＸ_τと結合されている。こうして、ネットワークＲＣＮＮにより、ニューラルアーキテクチャ内で報酬関数ｃ（・）がコード化される。このことは、報酬クラスタＲ_τは出力クラスタＸ_τに基づいて計算されなくてもよく、より一般的に記述しうることを意味している。これにより、より複雑なネットワークアーキテクチャが可能になる。例えば、報酬関数が明示的に学習されるようにしてもよい。これは特にｃ（・）が既知でない、または不完全にしか規定されていない場合に役立つ。これはＲＣＮＮの出力を入力とする別の補助的な三層ニューラルネットワークによっても達成することができる。

フィードフォワードネットワークの重みは報酬クラスタＲ_τ（τ＞ｔ）の逆伝播した報酬に従ってしか適応調整されない。このことは、行動選択規則を学習する第２のステップは動特性の特定のために使用されるのではなく、報酬を最大化する規則を学習するために使用されるという考えに相応している。ただし、システムの動特性は既に前もってモデル化されている。

行動選択規則を学習する第２のステップは下記の式（５）〜（９）によって数学的に表現することができる。なお、行列ＥおよびＦならびにバイアスｂは学習される。式（５）〜（９）は次の通りである。

式（１）〜（４）に従って技術システムの動特性をモデル化する場合も、式（５）〜（９）に従って行動選択規則を学習する場合も、リカレントニューラルネットワークは同じ訓練サンプルＴと先行技術から十分に知られている文献［１］による逆伝播法とによって訓練される。ここで、各訓練サンプルＴは、技術システムの状態という形での相応する訓練データと実行される行動とが割り当てられた時点に相当する。行動選択規則を学習するステップは報酬関数ｃ（・）の誤差の逆伝播と見なすことができる。

上に述べたリカレントニューラルコントロールネットワークＲＣＮＮの実施形態は、将来の状態を考慮した動的かつ整合的な時間発展をもつ動特性を特定するためのリカレントニューラルネットワークＲＮＮの利点と行動選択規則を学習するための三層ニューラルコントロールネットワークの利点を理想的に組み合わせている。このようにして高い近似精度が達成され、複雑な動的システムでも非常に高いデータ効率性をもって制御することができる。また、システムを簡単に高次元へとスケーリングすることができ、部分的にしか観察可能でない環境を技術システムの状態から再構成することができる。さらに、このネットワークを用いれば、連続的な状態空間と行動空間を非常に良く処理することができる。

以上に、本発明による方法のステップｂ）で構築されたシミュレーションモデルに適用される複数の学習法のうちの１つである学習法の実施形態を説明した。構築されたシミュレーションモデルにはさらに別の少なくとも１つの学習法が適用される。なお、この学習法は、例えばテーブルベースの強化学習法のような先行技術から公知の任意の学習法であってよい。

次に本発明による方法のステップｃ）では、使用している学習法ないし最適化法から、所定の基準に従った適切な方法が選択される。この所定の基準は、例えば、個々の学習法における相応の報酬関数、とりわけ、式（９）で記述されている学習法に関する式（９）による費用関数の総和の極小値である。このような費用関数の総和の最小の極小値を有する学習法がステップｃ）において最も適した学習法として識別される。また、上記所定の基準は次のように定めてもよい。すなわち、ステップｂ）で学習した学習法に基づいて複数の行動が実行され、続いてどの学習法が実行されたすべての行動の最小平均報酬をもたらすかが評価されるように、上記所定の基準を定めてもよい。

最も適した学習法が選択された後、最後にステップｄ）において、実際の技術システムの閉ループ制御ないし開ループ制御がこの選択された学習法ないし最適化法を用いて行われる。学習法ないし最適化法は、技術システムの所定の状態において、後で技術システムにおいて実行されるべき行動を提供する。この行動は新たな状態をもたらすが、この新たな状態に対しても、学習法ないし最適化法により、次に実行されるべき行動を再び決定することができる。

閉ループ制御ないし開ループ制御には様々な実施形態が存在する。例えば、ステップｃ）で選択された学習法ないし最適化法を初期コントローラとして学習してもよい。すなわち、選択された学習法ないし最適化法によりシミュレーションモデルに基づいて学習されたパラメータが技術システムの制御時に始めから使用される。あるいは、選択された学習法ないし最適化法の学習したパラメータをリセットし、選択された学習法ないし最適化法を実際の技術システム上で最初から新たに学習し直すことも考えられる。同様に、既に学習したパラメータを基に、実際の技術システムの閉ループ制御および／または開ループ制御のあいだ学習過程を継続させ、実際の技術システムに基づいてパラメータをさらに改善してもよい。同様に、実際の技術システムの開ループ制御のあいだパラメータをもはや変更しないことも考えられる。

本発明による方法の学習過程の結果は一方では既に学習されたコントローラ、つまり、それ以上変更されず、したがってまた学習過程中に比べて非常に少ないメモリ要求と計算能力しか要さないコントローラであってよい。また他方では、恒常的な学習により常に改善される、または恒常的な学習により過程もしくは目標設定の変化に適応するコントローラであってもよい。ここで、過程の変化とは、経年劣化、季節影響、または、ガスタービンの場合であれば、ガス品質もしくはガス組成の緩慢な変化であってよい。目標設定の変化は個々の過程のコストと収益の変化、例えばガスタービンの場合であれば、発生する電流の収益に比べて排気ガスのコストが高くなるというような変化に起因するものでありうる。

本発明による方法は一連の利点を有している。技術システムの制御を、例えば強化学習法などの機械学習法によって最適化することにより、技術システムを手動で制御する必要がなくなる。このため、本発明による方法は、人間の理解力ではある程度しか理解できない非常に複雑な高次元の、とりわけ確率的な、過程を解くことができるという利点を有する。さらには、適切な学習法ないし最適化法の選択がシミュレーションモデルにおいて自律的に行われるので、実際の技術システムにおいての学習に比べてコストが格段に低い。有利な実施形態では、学習法ないし最適化法による学習中にとられる状態ないし行動に関して、許される値域が設定ないし学習される。値域外の状態ないし行動は禁止されたシステム状態を表す。これについては、例えば、学習時に相応のペナルティ信号により考慮するようにしてよい。このようにして、状態空間の局限的な探索が保証される。このことは、制御法を予め学習するためのデータベースを解決すべき課題に合わせて最適化するのに役立つ。既に学習したパラメータを技術システムの閉ループ制御ないし開ループ制御の際に使用することにより、本発明による方法はすぐに使うことができ、また高い信頼性をもって動作する。上に述べた状態空間の最小化または上記ニューラルネットワークＲＣＮＮによる直接的なニューラルモデリングのような特殊な方法を使用することにより、例えばガスタービン制御のような、複雑な技術システムの閉ループ制御ないし開ループ制御も可能になる。
文献一覧
[l] D.E. Rumelhart, G.E. Hinton, and R.J. Williams, "Learn-ing internal representations by error propagation", in Parallel Diskributed Processing: Exploratlons In The Microstructure of Cognikion, D.E. Rumelhart and J.L.M. et al., Eds. Cambridge: MIT Press, 1986, vol. l, pp. 318-362
[2] Leslie Pack Kaelbling; Michael L. Littman; Andrew W.
Moore, Reinforcement Learning: A Survey, Journal of Ar-tificial Intelligence Research 4 (1996) pp. 237-285

Claims

技術システムの計算機支援による閉ループ制御および／または開ループ制御のための方法において、
ａ）前記技術システムの時間的に連続する複数の既知の状態（ｘ_ｔ）に基づいて前記技術システムのシミュレーションモデルを構築し、
ｂ）前記シミュレーションモデルに複数の学習法および／または最適化法を適用し、なお、当該学習法および／または最適化法はそれぞれの学習したパラメータと、前記状態（ｘ_ｔ）および前記状態（ｘ_ｔ）に割り当てられた行動（ａ_ｔ）のシーケンスとを結果として提供し、ある１つの状態（ｘ_ｔ）に割り当てられた行動（ａ_ｔ）は前記シーケンス中の新たな状態（ｘ_ｔ＋１）をもたらし、
ｃ）前記複数の学習法および／または最適化法の結果に基づき、所定の基準に従って、前記複数の学習法および／または最適化法の中から、前記技術システムの閉ループ制御および／または開ループ制御に適した１つの学習法および／または最適化法を選択し、その際、学習法および／または最適化法の選択を前記学習法および／または最適化法の各々の評価に依存して行う、ただし、前記評価は、前記シミュレーションモデルから出力される、および／または各学習法および／または最適化法の結果を介して求められ、
ｄ）選択した学習法および／または最適化法を用いて前記技術システムを閉ループ制御または開ループ制御し、その際、前記閉ループ制御または開ループ制御が、前記技術システムの状態（ｘ_ｔ）に依存して、後で技術システムにおいて実行されるべき行動（ａ_ｔ）を指定する、ことを特徴とする方法。
前記技術システムは、ガスタービンである、請求項１記載の方法。
前記ステップｄ）において、前記ステップｂ）で学習したパラメータに基づき、選択された学習法を用いて前記技術システムが閉ループ制御ないし開ループ制御する、その際、前記学習されたパラメータは前記技術システムの閉ループ制御ないし開ループ制御の際に変更されることはない、請求項１または２記載の方法。
前記ステップｄ）において、閉ループ制御ないし開ループ制御の初めに前記ステップｂ）で学習したパラメータが使用されるように、選択された学習法により前記技術システムを閉ループ制御ないし開ループ制御する、ただし、前記学習したパラメータは、閉ループ制御ないし開ループ制御の間、閉ループ制御ないし開ループ制御の間に生じた新たな状態（ｘ_ｔ）および行動（ａ_ｔ）によりさらに学習される、請求項１または２記載の方法。
前記ステップｄ）において、選択された学習法ないし最適化法を用いてステップｂ）で学習したパラメータをリセットし、前記技術システムの閉ループ制御ないし開ループ制御の際に新たに学習する、請求項１または２記載の方法。
使用するシミュレーションモデルを前記ステップａ）においてリカレントニューラルネットワークに基づいて構築する、請求項１から５のいずれか１項記載の方法。
前記評価は、評価関数または報酬関数による、前記学習法および／または最適化法の品質の決定により行われる、請求項１から６のいずれか１項記載の方法。
前記シミュレーションモデルに適用される複数の学習法および／または最適化法には、１つまたは複数の強化学習法が含まれている、請求項１から７のいずれか１項記載の方法。
前記強化学習法は、テーブルベースの強化学習法である、請求項８記載の方法。
前記シミュレーションモデルに適用される複数の学習法および／または最適化には、適応型発見的クリティックアルゴリズムおよび／またはＱ学習アルゴリズムおよび／または優先順位付きスウィープアルゴリズムが含まれている、請求項１から９のいずれか１項記載の方法。
前記強化学習法または前記強化学習法のうちの１つは、
− 前記技術システムの動特性を前記シミュレーションモデルで求めた状態（ｘ_ｔ）および行動（ａ_ｔ）を含む訓練データを用いてリカレントニューラルネットワークにより複数の時点（ｔ）でモデル化し、ただし、前記リカレントニューラルネットワークは、前記複数の時点（ｔ）における前記技術システムの状態（ｘ_ｔ）と前記技術システム上で行われる行動（ａ_ｔ）とを含む少なくとも１つの入力層（Ｉ）、隠れ状態（ｓ_ｔ，ｐ_ｔ）を含む少なくとも１つの隠れリカレント層（Ｈ）、および前記複数の時点（ｔ）における前記技術システムの状態（ｘ_ｔ）を含む少なくとも１つの出力層（Ｏ）により形成されており、
− 前記リカレントニューラルネットワークを、現在および将来の時点（ｔ）について、少なくとも１つの入力層（Ｈ）、隠れ状態（ｒ_ｔ）を含む少なくとも１つの隠れ層（Ｒ）、少なくとも１つの出力層（Ｏ’）を含む別のニューラルネットワークと結合させて、行動選択規則を学習し、ただし、前記別のニューラルネットワークの各時点（ｔ）の入力層（Ｈ）は前記リカレントニューラルネットワークの各時点（ｔ）の隠れ状態（ｐ_ｔ）の少なくとも一部を含んでおり、前記別のニューラルネットワークの各時点の出力層（Ｏ’）は前記技術システム上で各時点に実行される行動（ａ_ｔ）を含んでおり、
− 前記技術システムの状態（ｘ_ｔ）および割り当てられた行動（ａ_ｔ）を前記別のニューラルネットワークと結合した前記リカレントニューラルネットワークにより学習した行動選択規則を用いて決定する
ように構成されている、請求項８から１０のいずれか１項記載の方法。
前記技術システムの各状態（ｘ_ｔ）を第１の次元を有する第１の状態空間内の複数の状態変数により表す、および／またはある１つの状態（ｘ_ｔ）に割り当てられた各行動（ａ_ｔ）を複数の行動変数により表す、請求項１から１１のいずれか１項記載の方法。
ある１つの状態（ｘ_ｔ）に割り当てられた前記各行動（ａ_ｔ）を前記技術システムの１つまたは複数の操作量の変化により表す、その際、前記操作量の少なくとも一部は前記技術システムの状態（ｘ_ｔ）に相当する、請求項１から１２のいずれか１項記載の方法。
前記ステップｂ）を実行する前に、前記複数の学習法および／または最適化法のうちの少なくとも一部について、それぞれ以下のように前記第１の状態空間の最小化を行う、すなわち、
− 前記第１の状態空間の状態（ｘ_ｔ）を、入力層（Ｉ）、隠れリカレント層（Ｈ）、および出力層（Ｏ）を有するリカレントニューラルネットワークにより、前記シミュレーションモデルで求めた状態を訓練データとしてモデル化し、その際、
ｉ）前記複数の時点（ｔ）について、前記入力層（Ｉ）と前記出力層（Ｏ）をそれぞれ前記第１の状態空間内の状態（ｘ_ｔ）により形成し、
ｉｉ）前記隠れリカレント層（Ｈ）を、第２の次元を有する第２の状態空間内の複数の隠れ状態変数をもつ隠れ状態（ｓ_ｔ）により形成し、ただし、第２の次元は第１の次元よりも低く、
− 前記第２の状態空間内の前記隠れ状態（ｓ_ｔ）に対して、前記学習法および／または最適化法の少なくとも一部の各学習法および／または最適化法を前記ステップｂ）に従って実行することにより、前記第１の状態空間の最小化を行う、
請求項１２または１３記載の方法。
前記ステップｂ）において、前記状態（ｘ_ｔ）および／または前記行動（ａ _ｔ）を所定の基準に従って離散化する、請求項１から１４のいずれか１項記載の方法。
前記技術システムの状態（ｘ_ｔ）および／または割り当てられた行動（ａ_ｔ）に関して、１つまたは複数の値域を定めるか、または学習する、ただし、前記状態（ｘ_ｔ）および／または前記行動（ａ_ｔ）の値は、前記ステップｂ）において学習法および／または最適化法を適用する際、前記値域内になければならない、請求項１から１５のいずれか１項記載の方法。
前記ステップｂ）において各学習法および／または最適化法を前記シミュレーションモデルに適用する際に、前記値域をペナルティ信号によって学習する、ただし、該ペナルティ信号は、前記学習法および／または最適化法で求められた状態（ｘ_ｔ）および／または行動（ａ_ｔ）が測定されたまたは許容される状態（ｘ_ｔ）および／または行動（ａ_ｔ）から偏差すればするほど大きい、請求項１６記載の方法。
前記方法によりガスタービンを閉ループ制御および／または開ループ制御する、その際、前記技術システムの状態および／または当該状態（ｘ_ｔ）に割り当てられた行動（ａ_ｔ）は、ガスタービンの総出力、ガスタービンまたはガスタービン周辺の１つまたは複数の圧力および／または温度、ガスタービン内の燃焼室加速度、ガスタービンの１つまたは複数の調整パラメータ、のうちの１つ又は複数を含む、請求項１から１７のいずれか１項記載の方法。
前記ガスタービンの１つまたは複数の調整パラメータは、バルブ調節および／または燃料比および／または入口案内翼の調節のうちの１つまたは複数を含む、請求項１８記載の方法。
前記ステップｂ）において前記シミュレーションモデルに適用される複数の学習法および／または最適化は、学習目標および／または最適化目標として、低い燃焼室加速度を含む、請求項１８または１９記載の方法。
技術システムの計算機支援による閉ループ制御および／または開ループ制御のために、
コンピュータに以下の
ａ）前記技術システムの時間的に連続する複数の既知の状態（ｘ_ｔ）に基づいて前記技術システムのシミュレーションモデルを構築し、
ｂ）前記シミュレーションモデルに複数の学習法および／または最適化法を適用し、なお、当該学習法および／または最適化法はそれぞれの学習したパラメータと、前記状態（ｘ_ｔ）および前記状態（ｘ_ｔ）に割り当てられた行動（ａ_ｔ）のシーケンスとを結果として提供し、ある１つの状態（ｘ_ｔ）に割り当てられた行動（ａ_ｔ）は前記シーケンス中の新たな状態（ｘ_ｔ＋１）をもたらし、
ｃ）前記複数の学習法および／または最適化法の結果に基づき、所定の基準に従って、前記複数の学習法および／または最適化法の中から、前記技術システムの閉ループ制御および／または開ループ制御に適した１つの学習法および／または最適化法を選択し、その際、学習法および／または最適化法の選択を前記学習法および／または最適化法の各々の評価に依存して行う、ただし、前記評価は、前記シミュレーションモデルから出力される、および／または各学習法および／または最適化法の結果を介して求められ、
ｄ）選択した学習法および／または最適化法を用いて前記技術システムを閉ループ制御または開ループ制御し、その際、前記閉ループ制御または開ループ制御が、前記技術システムの状態（ｘ_ｔ）に依存して、後で技術システムにおいて実行されるべき行動（ａ_ｔ）を指定する、
手順を実行させるためのコンピュータプログラム。