JP2010524104A

JP2010524104A - 技術システムをコンピュータ支援により制御および／または調整するための方法

Info

Publication number: JP2010524104A
Application number: JP2010502494A
Authority: JP
Inventors: シュネーガスダニエル; ウードルフトシュテフェン
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2007-04-12
Filing date: 2008-04-04
Publication date: 2010-07-15
Anticipated expiration: 2028-04-04
Also published as: EP2135140B1; JP5183732B2; DE102007017259A1; US8260441B2; WO2008125522A2; DE102007017259B4; WO2008125522A3; ATE529788T1; EP2135140A2; CN101689044A; US20100257866A1; CN101689044B

Abstract

本発明は、技術システムのコンピュータ支援による制御および／または調整に関する。本方法においては教科学習方法および人工ニューラルネットワークが使用される。有利な実施形態においては、アーキテクチャが全体で１つの最適性判定基準を満たすように並列なフィードフォワードネットワークが相互に結合される。ネットワークは観察される報酬を期待される報酬に近似させる。このようにして実際に行われる観察が最適に利用され、品質関数が決定される。内的にネットワークから取得される品質関数は所定の制御問題に関して最適な動作選択規則を提供する。本発明を任意の制御システムに使用することができる。有利な適用分野はタービン、殊にガスタービンの制御ないし調整である。

Description

本発明は、技術システムをコンピュータ支援により制御および／または調整するための方法と、相応のコンピュータプログラム製品に関する。

複雑な技術システムを制御する際にしばしば望ましいのは、この技術システムの所望の有利な動的特性が得られるように、この技術システムにおいて実行すべき動作が選択されていることである。しかしながら技術システムが複雑な場合、この動的特性は容易に予測できないことが多いため、この技術システムの未来の特性を推定し、したがって適切な動作をこの技術システムの制御ないしは調整のために選択するためには相応のコンピュータ支援による予測方法が必要になる。

今日では、技術システムの制御は専門知識に基づいていることが多い。すなわちシステムの自動的な調整は、この専門知識に基づいて行われる。しかしながらいわゆる強化学習（Reinforcement Learning）の公知の手法を用いて技術システムを制御するアプローチも公知である。しかしながら公知の方法は任意の技術システムに汎用に適用することはできず、また十分に良好な結果が得られないことが多い。

したがって本発明の課題は、一般的に任意の技術システムに適用することができ、且つ良好な結果が得られる、技術システムの動的特性をコンピュータ支援により制御および／または調整するための方法を提供することである。

本発明による方法においては、複数の時点に対し技術システムの動的特性が考察され、各時点に対する動的特性が技術システムの状態およびこの技術システムにおいて実行される動作によって特徴付けられ、それぞれの時点におけるそれぞれの動作が技術システムの次の時点における技術システムの追従状態になる。

技術システムの最適な制御ないし調整を達成するために、動作選択規則がデータセットに基づき学習され、各データセットはそれぞれの時点における技術システムの状態、その時点において実行される動作ならびに追従状態を含み、また各データセットには１つの評価が対応付けられている。

殊に、技術システムの状態は１つまたは複数の変数を有する状態ベクトルであり、変数は例えば技術システムの観察される状態量である。同様に、技術システムにおいて実行すべき動作も、複数の動作変数を有する相応のベクトルによって構成することができ、動作変数は殊に技術システムにおいて調整可能なパラメータを表す。

本発明による方法は、動作選択規則の学習の別個の変数によって特徴付けられ、前述の動作選択規則は以下のステップを有する：
ｉ）パラメータとして技術システムの状態および動作を含む、１つまたは複数のニューラルネットワークによって品質関数をモデリングするステップ；
ｉｉ）データセットおよび品質関数の評価に依存する最適性判定基準に基づき１つまたは複数のニューラルネットワークを学習するステップ。

この種の方法でもって、ニューラルネットワークの適切な学習により、データセットの評価に依存する最適な動作選択規則が簡単且つ効率的に求められる。この動作選択規則は１つの状態において最高の評価を有する動作が常に可能な限り選択されるように構成されている。学習された動作選択規則でもって技術システムの本来の制御ないし調整が以下のことによって行われる。すなわち、技術システムにおいて実行すべき動作が学習された動作選択規則により１つまたは複数の学習されたニューラルネットワークに基づき選択されることによって行われる。本発明による方法はテストデータセットに基づき検査されており、この方法により非常に良好な結果が達成されることを証明した。

本発明による方法の有利な実施形態においては、評価関数がデータセットの評価に適合されるように、品質関数が１つまたは複数のニューラルネットワークによってモデリングされる。

本発明の有利なヴァリエーションにおいては、学習された動作選択規則を用いて技術システムを制御ないし調整する際に、１つまたは複数の学習されたニューラルネットワークによって品質関数の最大値が形成される動作がそれぞれの状態において有利には選択される。

本発明による方法の殊に有利な実施形態においては、品質関数が複数のニューラルネットワークを用いてモデリングされる。複数のニューラルネットワークの各ネットワークは以下の層を含むフィードフォワードネットワークである：
−技術システムのそれぞれの状態を含む入力層；
−隠れ変数を有する１つまたは複数の隠れ層；
−品質関数を含む出力層。

複数のニューラルネットワークの各ネットワークはそれぞれの状態において実行すべき考えられる動作をパラメータ化する。

本発明の１つのヴァリエーションにおいては、品質関数をモデリングするために複数のニューラルネットワークを使用する代わりに、品質関数を単一のニューラルネットワークによってモデリングすることも可能である。この場合のニューラルネットワークもやはり以下の層を含むフィードフォワードネットワークである：
−技術システムのそれぞれの状態およびそれぞれの状態において実行可能な動作を含む入力層；
−隠れ変数を有する１つまたは複数の隠れ層；
−品質関数を含む出力層。

したがって単一のニューラルネットワークが使用される場合には、動作自体も入力層の変数を表し、複数のフィードフォワードネットワークを考えられる各動作値に関して生成することはもはや必要ない。上述のフィードフォワードネットワークは多層パーセプトロンとも称され、従来技術から十分に公知の人工ニューラルネットワークの構造である。

本発明による方法において１つまたは複数のニューラルネットワークを学習するために、有利には、従来技術から十分に公知のバックプロパゲーション（Backpropagation）方法が使用される。

本発明による方法においては最適性判定基準を種々に選択することができる。有利には、技術システムの最適な動的特性をパラメータ化する最適性判定基準が使用される。考えられる最適性判定基準は例えばベルマン留数（Bellman-Residuum）の最小化ないしベルマン反復（Bellman-Iteration）の不動点への到達である。ベルマン留数ないしベルマン反復は強化学習（英語：Reinforcement Learning）の分野の当業者には既知であるので、ここではこれ以上説明しない。しかしながら詳細な説明においては、これら２つの最適性判定基準の数学的な定義は明示的に示されている。

本発明による方法の殊に有利な実施形態においては、最適性判定基準は調整可能なパラメータを含み、このパラメータの変化によって最適性判定基準が適合される。これによって、本発明による方法を所定のデータセットにとって最も適した最適性判定基準に適合させるフレキシブルな可能性が得られる。

本発明による方法の別の実施形態においては、技術システムの過去の状態および動作の履歴も適切に考慮することができる。このことは、状態が、リカレントニューラルネットワークによってソースデータセットを用いて生成される技術システムのデータセットに隠された状態であることによって行われる。ソースデータセットはそれぞれ、技術システムの観察される状態、この観察される状態において実行される動作ならびにそれにより生じる追従状態を含む。殊に、リカレントニューラルネットワークによって技術システムの動的特性がモデリングされる。リカレントニューラルネットワークは、技術システムの観察される状態および技術システムにおいて実行される動作を含む少なくとも１つの入力層と、技術システムの隠れ状態を含む少なくとも１つの隠れリカレント層と、技術システムの観察される状態を含む少なくとも１つの出力層とから形成されている。リカレントニューラルネットワークはやはり適切な学習方法によって学習され、殊に既知のバックプロパゲーション方法も用いて学習される。

本発明による方法により任意の技術システムを制御および調整することができるが、有利な適用分野はタービン、殊にガスタービンである。ガスタービンの制御ないし調整においては、技術システムの状態および／またはそれぞれの状態において実行可能な動作は以下の１つまたは複数の量を含む：
ガスタービンの総出力；ガスタービンまたはガスタービン周辺における１つまたは複数の圧力および／または温度；ガスタービン内の燃焼室加速度；殊にバルブ調節および／または燃料比および／または吸気翼調節。

本発明はさらに、上述の方法の他に、コンピュータにおいて実行されるときに本発明による方法を実施し、コンピュータ読出可能担体上に記憶されているプログラムコードを備えたコンピュータプログラム製品にも関する。

以下では本発明の実施例を添付の図面に基づき詳細に説明する。

本発明による方法の第１の実施形態の概略図を示す。本発明による方法の第２の実施形態の概略図を示す。

以下において説明する本発明による方法の実施形態は、任意の技術システムに関して観察、すなわち測定ないし実験により求められた大量のデータセットを基礎としている。技術システムの殊に有利な適用事例はガスタービンの制御であり、この制御に関してデータはタービンの状態量、例えばガスタービンの総出力、ガスタービンにおける１つまたは複数の圧力および／または温度、燃焼室加速度などの形態で存在する。連続する複数の時点についてのデータセットが存在する。各データセットは、通常の場合には複数の状態量を有する状態ベクトルである状態によって、状態量の変化または技術システムの他の調整可能なパラメータを表す動作によって、また動作の実行後の状態量の値を表す追従状態によって特徴付けられている。さらには各データセットに対して評価ないし報酬が存在し、それらは技術システムの制御のためのそれぞれの時点における動作の質を表す。ここで有利には、評価は、技術システムの最善または最適な制御が技術システムの動作中の種々の時点において高い評価ないし報酬を有する動作によって達成されるように構成されている。

以下において説明する本発明による方法の実施形態においては、技術システムの観察されるデータセットに基づき、強化学習（英語：Reinforcement Learning）方法を用いて動作選択規則が学習され、続けてこの動作学習規則を用いて技術システムを適切に作動させることができる。動作選択規則は技術システムの１つの状態について、この状態において実行すべき最善の動作が何であるかを表す。技術システムは確率的な動的システムとみなされる。動作選択規則を求めるための強化学習方法は、報酬関数が観察されるデータセットに適合される回帰タスクとみなされる。

以下において説明する学習方法においては、動作選択規則に従い、技術システムの制御に何を最適に使用することができるかが調べられる。数学的には、状態、動作および追従状態はいわゆるマルコフ決定過程とみなされる。一般的に、マルコフ決定過程は状態空間Sと、種々の状態において選択することができる動作Aのセットと、瞬時状態s、選択された動作ａおよび追従状態s’に依存する遷移確率分布P_T:S×A×S→[0,1]とみなされる動的特性とによって表されている。ある状態から追従状態への遷移はいわゆる報酬R(s,a,s’)によって特徴付けられ、この報酬は瞬時状態、動作および追従状態の関数である。報酬はこの報酬の期待値

を持つ報酬確率分布P_Rによって規定される。

以下において説明する本発明による方法の実施形態によれば、ディスカウンティング（discounting）Ｑ関数の最大値が調べられ、このＱ関数は特許請求に範囲における品質関数に対応し、また従来技術から十分に公知であるベルマン方程式によって以下のように定義されている。

最大化は全ての考えられる状態sおよび動作aにわたるいわゆる制御空間

において行われる。ただし、0<γ<1はディスカウンティング係数であり、s’はsの追従状態であり、

は使用される動作選択規則である。最適な動作選択規則は、（最善の）Ｑ関数を最大化する動作を使用する動作選択規則であり、最善のＱ関数は以下の式によって表されている。

この式は以下の動作選択規則の探索と同義である。

さらには以下の記述について、Ｓに関するいわゆる価値関数がV(s)= max_aQ(s,a)として定義される。

以下において記述する本発明による方法の実施形態においては、システムの状態が連続的であり、且つそれぞれの状態において実行可能な動作の離散的なセットが存在する技術システムが考察される。システムの動的特性は確率的である。

図１および図２の実施形態においては、上述のＱ関数が技術システムのそれぞれの状態において考えられる動作に関して、いわゆるフィードフォワードネットワークないし多層パーセプトロンN_a(s) = Q(s,a)によって表される。したがって、ここで説明する実施形態において適合すべき報酬関数は式（１）に従い次式によって表されている：

ここで最大値オペレータ（Max-Operator）が適切なアーキテクチャによってモデリングされ、この種のモデリングは当業者には十分に公知である。以下の実施形態においては、式（２）に従い報酬関数をモデリングするために従来技術から十分に公知のバックプロパゲーションアルゴリズムが使用され、最適化の問題は全ての１の観察される遷移にわたる（二次）ベルマン留数の最小化によって解決される。したがって１は技術システムの観察されるデータにおけるデータセットの数である。この最小化は特許請求の範囲における最適性判定基準を表す。数学的に二次ベルマン留数は以下の式によって表されている：

ここでΘは未来のニューラルフィードフォワードネットワークのパラメータであり、殊にフィードフォワードネットワークにおける個々のニューロン層間の重み付けマトリクスを含む。Ωは適切な調整項である。r_iはデータセットからの状態s_iにおける観察される報酬ないし評価を表し、またs_i+1は追従状態の状態量の期待値の公平な推定量である。誤差関数の勾配は以下の式によって表されている。

この勾配は目下のＱ関数および追従状態の価値関数に依存する。二次ベルマン留数の最小値が求められる上述の最適性判定基準を必要に応じて、ベルマン反復の不動点が調べられる最適性判定基準に置換することができる。これによりしばしばより良い解が得られる。ベルマン反復によれば、反復的に以下の式がＱの集束まで最小化される：

ここでは次式が成り立つ：

この場合、勾配は以下の式によって表されている。

さらには、y_iの後退代入によって以下の等式系が得られる。

この場合、この等式系の解は（調整された）ベルマン反復の不動点である。上述の２つの勾配はその方向項においてのみ区別され、誤差項においては区別されない。したがって、ネットワークの価値関数成分によって勾配流をブロックすることにより後者の勾配が形成される。このようにして別のパラメータρが最適性判定基準に挿入され、２つの最適性判定基準間ではベルマン留数およびベルマン反復の不動点の最小化に従い変更される。したがって最適性判定基準を一般的に以下のように表すことができる。

この場合、ρ=1についてはベルマン留数の古典的な最小化に従う最適性判定基準によって得られ、これに対しρ=0についてはベルマン反復の不動点への到達によって得られる。

要約すると、本発明による方法の上記の実施形態においては、Ｑ関数がニューラルネットワークによってモデリングされ、個々のニューラルネットワークのパラメータが最適性判定基準に基づく強化学習法によって決定される。この構成を再び図１に示す。図１において、円はニューロンのそれぞれのクラスタを表し、これらのニューロンは重み付けマトリクスを介して接続されている。クラスタR、QおよびVは上述の式による相応の関数値であり、V’はV(s’)を表す。ここで図１の右側の分岐は式（１１）によるパラメータを介してクラスタRと結合される。同様に式（１１）に含まれている上述のパラメータρも同様に勾配流制御として導入される。

先ず、技術システムのそれぞれの状態に対応するニューラルネットワークN₁(s),..., N_n(s)において考えられる全ての動作a_tについて初期化が行われ、ネットワークは入力層Ｉとしてその都度それぞれの状態を有し、また出力層Ｏとしてそれぞれの動作1,..., nに関してモデリングされたＱ関数Q₁,..., Q_nを有する。入力層Iと出力層Oとの間には隠れ層Hが設けられており、そのような中間層を複数設けることができる。見やすくするために図１においては１つの層しか示していない。例示的に、ネットワークのパラメータに関してそれぞれ重み付けマトリクスA₁,...,A_nならびに相応の重み付けベクトルw₁,...,w_nが示されている。

ニューラルネットワークN₁(s)〜N_n(s)の各々に関して、図１のチャートの右側の分岐内には相応のペンダントが設けられており、ここでは入力量がそれぞれの追従状態s’の相応のペンダントである。したがってQ₁',..., Q_n'は時点s’におけるそれぞれの品質関数Q₁',...,Q_n'に対応する。左側の分岐および右側の分岐は上述の報酬関数Rを介して相互に結合されている。本方法は、データセットに従い所属の動作を有するそれぞれの状態sに関して、そのデータセットに従いそれぞれの状態に対応付けられている動作に対応する、図１の左側の分岐におけるフィードフォワードネットワークがアクティブ化されるように実行される。図１の左側の部分におけるそれぞれのニューラルネットワークのアクティブ化は、円内に示されたｘの文字によって表される。この場合、相応の追従状態s'に関して、図１の右側の分岐においては左側の分岐のニューラルネットワークのコピーを用いて相応のＶ関数が最大値オペレータによって算出される。

図１に示した方法においては、Ｑ関数が考えられる各動作a_tについて別個に１つのニューラルネットワークによってモデリングされる。しかしながら１つのヴァリエーションにおいては、入力量として入力層において状態sの他に動作aも含む単一のニューラルネットワークによってＱ関数をモデリングすることも可能である。この場合には、図１の右側の部分において、図１の左側の部分のニューラルネットワークのそれぞれn個のコピーが形成され、各コピーが入力層において追従状態s'ならびに動作の考えられる値を含む。

図１による上述の学習方法の実施後には、結果としてn個の学習されたニューラルネットワークが得られる。続いて、この学習されたニューラルネットワークを用いて、n個の全てのネットワークN₁〜N_nに関するシステムの目下の状態に対してＱ関数が算出されるように技術システムの最適制御が実施される。最大Ｑ関数値を有するニューラルネットワークの動作が次の動作として選択される。これにより得られる追従状態でもって、どのニューラルネットワークがＱ関数の最大値を有するかという判定基準に従い、再び同一のパターンを用いて次の状態が選択される。

上述の方法は過去の状態の履歴を考慮しないので、これによりマルコフ決定過程が存在しない場合には、機能が保証されない可能性がある。しかしながら、本発明による方法の第２の実施形態においては、この履歴も考慮することができる。これは、ニューラルネットワークを学習するために使用されるデータセット自体がやはりソースデータセットから形成されていることによって生じる。ここでソースデータセットはとは、図１の実施形態において１つまたは複数のニューラルネットワークの学習に直接的に導入されるデータセットである。図２に示されている第２の実施形態においては、このソースデータセットが、入力層I’、隠れ層H’および出力層O’を備えたリカレントニューラルネットワークRNNを有する技術システムの動的特性をモデリングするために使用される。このニューラルネットワークは内部状態x_t, z_t, t∈t - τ,...,t + 1ならびに重み付けマトリクスF,G,H,Jを有する。状態間の遷移は以下の式によって定義される：

内部の状態を外部の状態に結像するマトリクスMを用いることによって、以下の条件を満たすことにより追従状態に達することができる。

既知のアルゴリズムを用いることにより、上述の式に従い、リカレントニューラルネットワークがそれぞれの時点において観察されるデータセットを非常に良好に生成するように、リカレントニューラルネットワークのパラメータ（すなわちネットワークの重み付けマトリクス）が決定される。リカレントニューラルネットワークはここでもまた従来技術から十分に公知のバックプロパゲーション方法を用いて学習される。リカレントニューラルネットワークRNNを用いる動的特性のモデリングは当業者には十分に公知であるので、ここでは詳細に説明しない。図１の方法とは異なり、隠れ状態x_tないしx_t+1が入力量として状態sないしs'の代わりに入力層Iに導入される。それ以外の点に関しては、図２の学習方法は図１の学習方法に相当し、このことはリカレントニューラルネットワークRNNの上側の部分が図１と同じであることからも分かる。したがってニューラルネットワークN_i〜N_nの学習についての再度の説明は省略する。図２によるリカレントニューラルネットワークにおいては、さらに別のパラメータμが導入されており、このパラメータμを用いて個々のフィードフォワードネットワークの学習率に対するリカレントニューラルネットワークの学習率が適合される。さらにはマトリクスNが使用される。このマトリクスNを以下においてさらに説明する。

図２に示されているアーキテクチャにより、ただ１つのリカレントニューラルネットワークがＱ関数に対しても価値関数に対しても使用される。リカレントニューラルネットワークは決定的な動的システムを任意に正確に近似させることができるが、このことは確率的な動的システムに対しては不可能である。しかしながらこのことは制限を表すものではない。何故ならば、内部の隠れ層の構成をフィードフォワードネットワークによる確率的な強化学習方法にとっての最適な指標空間への変換形態と見なすことができるからである。決定的な動的システムの場合には、この指標空間は未来を決定する全ての情報の正確な記述と一致し、これに対して、一般的な確率的な動的システムの場合には、期待される未来が予測されるように内部状態が生成されなければならない。したがって図２のリカレントニューラルネットワークにおいては、内部状態がマルコフ過程からの観察なしで予測される場合には、自律的な未来部分が使用される。図２においてこれは状態x_t、ただしt>i+1であり、次式が成り立つ。

このことはマルコフ特性を期待される未来の状態に関する知識によって復元することができるので十分である。図２による上述のリカレントアーキテクチャによって、原則として任意の次数の基礎となるマルコフ過程の自動的な復元が実現される。したがって本発明による方法の使用者はデータからより多くの情報を利用することができ、専門知識はあまり必要とされない。

図１および図２に示した本発明による方法の上述の実施形態は従来技術から公知の問題に基づき試験された。殊に本方法は、平面において移動する車において棒が可能な限り長くバランスを取るべき既知のカート・ポール問題に適用された。カート・ポール問題は本発明により学習されたニューラルネットワークを用いて非常に良好に解決できることが証明された。ρ=0が選択された場合に最善の結果が得られた。しかしながらρ>0に関しても良好な結果が得られた。

上記において説明した方法は、任意の技術分野における一般的な最適制御問題に関する情報効率的な解決アプローチを提供する。提供されるデータセットの数が少なくても、古典的な方法では満足に解決することができない複雑な制御問題を解決することができる。

Claims

技術システムをコンピュータ支援により制御および／または調整するための方法において、
ａ）複数の時点（t）に対して前記技術システムの動的特性を、該技術システムの状態（s_t，x_t）および該技術システムにおいて実行される動作（a_t）によってそれぞれ特徴付け、それぞれの時点（t）におけるそれぞれの動作（a_t）を前記技術システムの次の時点（t+1）における追従状態（s_t+1，x_t+1）にし、
ｂ）動作選択規則を複数のデータセットを用いて学習し、各データセットはそれぞれの時点（ｔ）における前記技術システムの状態（s_t，x_t）と、前記状態（s_t，x_t）において実行される動作（a_t）と、追従状態（s_t+1，x_t+1）とを含み、各データセットには１つの評価（r_i）が対応付けられており、
前記動作選択規則の学習は以下のステップを有する：
ｉ）パラメータとして前記技術システムの前記状態（s_t，x_t）および動作（a_t）を含む、１つまたは複数のニューラルネットワーク（N_a(s)）によって品質関数（Q(s,a)）をモデリングするステップ；
ｉｉ）前記データセットおよび前記品質関数（Q(s,a)）の前記評価（r_i）に依存する最適性判定基準に基づき１つまたは複数の前記ニューラルネットワーク（N_a(s)）を学習するステップ；
ｃ）１つまたは複数の学習された前記ニューラルネットワーク（N_a(s)）に基づき、学習された前記動作選択規則を用いて、前記技術システムにおいて実行すべき動作（a_t）が選択されるように前記技術システムを制御および／または調整することを特徴とする、方法。
評価関数（R(s,a,s')）が前記データセットの評価に適合されるように、前記品質関数（Q(s,a)）を１つまたは複数のニューラルネットワーク（N_a(s)）によってモデリングする、請求項１記載の方法。
前記ステップｃ）において、１つまたは複数のニューラルネットワーク（N_a(s)）によって前記品質関数（Q(s,a)）の最大値が形成される動作（a_t）をそれぞれの状態（s_t，x_t）において選択する、請求項１または２記載の方法。
前記品質関数（Q(s,a)）を複数のニューラルネットワーク（N_a(s)）を用いてモデリングし、複数のニューラルネットワーク（N_a(s)）の各ネットワークは、前記技術システムのそれぞれの状態（s_t，x_t）を含む入力層（I）と、１つまたは複数の隠れ層（H）と、前記品質関数（Q(s,a)）を含む出力層（O）とを有するフィードフォワードを形成し、各ニューラルネットワーク（N_a(s)）はそれぞれの状態（s_t，x_t）において考えられる実行すべき動作（a_t）をパラメータ化する、請求項１から３までのいずれか１項記載の方法。
前記品質関数（Q(s,a)）を単一のニューラルネットワークを用いてモデリングし、該ニューラルネットワークは、前記技術システムのそれぞれの状態（s_t，x_t）および該それぞれの状態（s_t，x_t）において実行可能な動作（a_t）を含む入力層（I）と、１つまたは複数の隠れ層（H）と、前記品質関数（Q(s,a)）を含む出力層（O）とを有するフィードフォワードを形成する、請求項１から３までのいずれか１項記載の方法。
１つまたは複数の前記ニューラルネットワーク（N_a(s)）を学習するためにバックプロパゲーション方法を使用する、請求項１から５までのいずれか１項記載の方法。
前記最適性判定基準は、前記技術システムの最適な動特性をパラメータ化するように選択されている、請求項１から６までのいずれか１項記載の方法。
前記最適性判定基準はベルマン留数の最小化である、請求項１から７までのいずれか１項記載の方法。
前記最適性判定基準はベルマン反復の不動点への到達である、請求項１から８までのいずれか１項記載の方法。
前記最適性判定基準は調整可能なパラメータ（ρ）を含み、該パラメータ（ρ）の変化によって前記最適性判定基準を適合させる、請求項１から９までのいずれか１項記載の方法。
前記技術システムの状態（ｘ_t）は１つまたは複数の変数、例えば前記技術システムの観察される状態量を含む、および／または前記技術システムにおいて実行すべき動作（a_t）は１つまたは複数の動作変数を含む、請求項１から１０までのいずれか１項記載の方法。
前記状態（s_t，x_t）は、リカレントニューラルネットワーク（RNN）によってソースデータセットを用いて生成される、前記技術システムのデータセットにおける隠れ状態（x_t）であり、前記ソースデータセットはそれぞれ、前記技術システムの観察される状態（s_t）、該観察される状態（s_t）において実行される動作（a_t）ならびに該動作（a_t）により生じる追従状態（s_t+1）を含む、請求項１から１１までのいずれか１項記載の方法。
前記リカレントニューラルネットワーク（RNN）によって前記技術システムの動的特性をモデリングし、前記リカレントニューラルネットワーク（RNN）は、前記技術システムの前記観察される状態（s_t）および前記技術システムにおいて実行される動作（a_t）を含む少なくとも１つの入力層（I'）と、前記隠れ状態（x_t）を含む少なくとも１つの隠れリカレント層（H）と、前記技術システムの前記観察される状態（s_t）を含む少なくとも１つの出力層（O'）とから形成されている、請求項１２記載の方法。
前記リカレントニューラルネットワーク（RNN）は学習方法、例えばバックプロパゲーション方法でもって学習される、請求項１３記載の方法。
前記技術システムはタービン、例えばガスタービンである、請求項１から１４までのいずれか１項記載の方法。
ガスタービンを制御および／または調整し、前記技術システムの前記状態（s_t，x_t）および／またはそれぞれの状態（s_t，x_t）において実行可能な動作（a_t）は１つまたは複数の量、すなわち、前記ガスタービンの総出力；前記ガスタービンまたは該ガスタービン周辺における１つまたは複数の圧力および／または温度；前記ガスタービン内の燃焼室加速度；例えばバルブ調節および／または燃料比および／または吸気翼調節を含む、請求項１５記載の方法。
コンピュータにおいて実行されるときに請求項１から１６までのいずれか１項記載の方法を実施し、コンピュータ読出可能担体上に記憶されているプログラムコードを備えたコンピュータプログラム製品。