JP2010515182A

JP2010515182A - コンピュータ支援によって技術システムを制御および／または調整する方法

Info

Publication number: JP2010515182A
Application number: JP2009544387A
Authority: JP
Inventors: マキシミリアンシェーファーアントン; ウードルフトシュテフェン; ツィマーマンハンス−ゲオルク
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2007-01-02
Filing date: 2007-12-19
Publication date: 2010-05-06
Anticipated expiration: 2027-12-19
Also published as: DE102007001025A1; US8554707B2; JP5300739B2; EP2106576B1; WO2008080864A1; ATE552536T1; DE102007001025B4; EP2106576A1; US20100094788A1

Abstract

本発明はコンピュータ支援によって技術システムを制御および／または調整する方法に関する。本方法は２つのステップ、すなわち、技術システムの動特性をリカレントニューラルネットワークに基づいて履歴データを用いて学習するステップと、続いてリカレントニューラルネットワークを別のニューラルネットワークと結合することにより最適な制御を学習するステップを特徴としている。本発明は別の技術適用領域も有しており、特に任意の技術システムにおいてこの技術システムをコンピュータ支援により最適に制御するために使用することができる。適用領域は例えばガスタービンの制御である。本方法は先行技術から公知の台車-棒問題に関してテストされ、公知の方法よりも格段に良い結果をもたらした。

Description

本発明は、技術システムをコンピュータ支援で制御および／または調整する方法と、相応するコンピュータプログラム製品に関する。

複雑技術システムを制御する際にしばしば望ましいのは、この技術システムにおいて実行されるアクションを選択して、この技術システムの所望の有利な動的特性を得ることである。しかしながら複雑技術システムにおいて上記の動的特性は簡単には予測できないことが多いため、この技術システムの未来の特性を推定しまたこれに相応して適切なアクションを選択してこの技術システムを制御ないしは調整するためには相応のコンピュータ支援による予測方法が必要になるのである。

今日、技術システムの制御は、専門知識に基づいていることが多い。すなわちシステムの自動制御は、専門知識に基づいて行われるのである。しかしながらいわゆる強化学習（Reinforcement Learning 文献[2]を参照されたい）の公知の手法を用いして技術システムを制御するアプローチも知られている。しかしながら公知の方法は任意の技術システムに汎用に適用することはできず、また十分に良好な結果が得られないことが多い。

したがって本発明の課題は、技術システムの動的特性をコンピュータ支援によって予測する方法を提供して、この方法が任意の技術システムに共通にして有効でありまたこの方法によって良好な結果が得られるようにすることである。

本発明による方法では、複数の時点に対し、技術システムの動特性についての情報が、それぞれこの技術システムの状態およびこの技術システムにおいて実行されるアクションの状態によって得られる。ここで各時点における各アクションにより、つぎの時点におけるこの技術システムの新たな状態になる。ここでこの技術システムは任意に構成することができるため、上記の複数の状態は、この技術システムの任意の測定可能なパラメタとすることが可能である。ここで上記のアクションは、技術システムの任意の変化であり、この変化は、この技術システムにおける相応の操作量の変化によって特徴付けられるものである。ここでは状態が有利には多数の環境変数ないしは状態変数によって特徴付けられ、各状態変数は、技術システムの所定の測定量を表す。したがってこの状態は状態ベクトルであることが多い。同様に上記のアクションには場合によっては、変化させるべき多数の操作量が含まれており、これらの操作量は、相応するアクションベクトルの１つずつのエントリを形成する。

本発明による方法では、第１のステップにおいて、複数の時点における既知の状態およびアクションを含んだトレーニングデータを用いて、リカレントニューラルネットを有する上記の技術システムの動的特性をモデル化する。ここでこのリカレントニューラルネットワークは、複数の時点において上記の技術システムで実行されるアクションおよび技術システムの状態を含む少なくとも１つの入力層と、隠れ状態を含む少なくとも１つの隠れリカレント層と、複数の時点における技術システムの状態を含む少なくとも１つの出力層とによって形成される。上記のニューラルネットワークにおけるリカレント性は、上記のシステムの時間的な展開によって発生する。この時間的な展開は、隠れ層において種々異なる時点における隠れ状態を結合することによって表される。

引き続いて第２ステップにおいてアクション選択ルールが学習される。上記の学習は、上記の第１ステップにおいてトレーニングデータによってトレーニングされたリカレントニューラルネットワークが、目下の時点および未来の時点に対して、別のニューラルネットワークと結合されることによって行われる。ここでこの別のニューラルネットワークは、少なくとも１つの入力層と、隠れ状態を含む隠れ層と、少なくとも１つの出力層とを有する。上記の別のニューラルネットワークの入力層には、各時点に、この各時点におけるリカレントニューラルネットワークの隠れ状態の少なくとも１つの部分が含まれており、またこの別のニューラルネットワークの出力層には、各時点に、この各時点に上記の技術システムで実行されるアクションが含まれている。したがって上記の別のニューラルネットワークは、上記の技術システムのモデル化した動的特性を考慮して、未来のアクションについてこの技術システムの最適な制御を行うのであり、ここでこの動的特性は第１ステップで行われたものである。

有利な実施形態では、アクション選択ルールを評価関数にしたがって学習し、ここでこの評価関数は、技術システムの状態において１つまたは複数の判定基準および／またはこの技術システムにおいて実行されるアクションを考慮し、および／またはこれは、技術システムの動的特性のモデリングのステップにおいて学習される。

最後に、リカレントニューラルネットワークを有する本発明の方法では、上記の技術システムの状態および／またはこの技術システムにおいて実行される有利には最適なアクションが決定される。ここで上記のリカレントニューラルネットワークは、別のニューラルネットワークに結合されまたこのリカレントニューラルネットワークによって上記のアクション選択ルールが学習される。つぎに求めた状態ないしはアクションに基づいて、この技術システムを相応に制御ないしは調整することができる。ここで示されたのは、上記のようなネットワークアーキテクチャにより、技術システムの動的特性をデータ効率的（dateneffzient）に学習できることである。データ効率は大きな意味がある。それは、多くの技術システムにおいて利用可能ないしは関連するデータ材料は大きく制限されているからである。特別な説明において、本発明の方法と、台車（Cart）−棒（Pole）問題の例における公知の学習方法とを比較して示されたのは、本発明の方法により、公知の方法と比べて極めて良好な結果が得られることである。

殊に有利な実施形態では、本発明による方法の別のニューラルネットワークとして、フィードフォワードネットワークを使用する。このネットワークでは隠れ層のニューロンを時間的にフィードバックしない。

本発明の別の変形実施形態では、上記の評価関数を選択して、この評価関数により、技術システムの最適な動的特性がパラメタ化されるようにする。これにより、上記の評価関数を相応に選択することによって技術システムの最適な制御を実現することができる。ここでは上記の評価関数を例えば、最適化すべきコスト関数によって表すことができる。

すでに上で説明したように、上記の技術システムの状態およびアクションには有利には複数の変数が含まれる。同様に上記のリカレントないしは別のニューラルネットワークの隠れ状態も有利には複数の隠れ変数からなる。ここで例えば上記のリカレントおよび／または別のニューラルネットワークの隠れ状態の隠れ変数の数は、技術システムの状態の環境変数の数以下である。ここで上記の隠れ状態の数を有利に選択して、上記の方法が一方ではデータ効率的であるように、また他方では良好な結果が得られるようにする。

本発明の第１ステップにおいてリカレントニューラルネットワークによって技術システムの動的特性をモデリングする際、殊に有利な実施形態では、リカレントニューラルネットワークによって決まる状態と、トレーニングデータの状態との間の誤差を最小化する。

殊に有利な実施形態では、本発明の方法を使用して、技術システムの非線形の動的特性の振る舞いをこの方法によってモデル化し、および／または非線形のアクション選択ルールを学習する。

本発明による方法の別の実施形態では、この方法の第１ステップにおいてリカレントニューラルネットワークによって技術システムの動的特性をモデリングするため、および／またはこの方法の第２ステップにおいてアクション選択ルールを選択するため、バックプロパゲーション法を使用する。このようなバックプロパゲーション法は従来技術から十分に公知であり、ここでは例えば刊行物[１]に記載された方法を使用する。

上記の技術システムの動的特性をモデル化するリカレントニューラルネットワークは、有利には未来の状態およびアクションの考慮の下に動学的一致のある時間的なアンフォールディング（Entfaltung）を有するネットワークであり、英語では"Recurrent Neural Network with Dynamically Consistent Overshooting"と称される。このようなネットワークでは、入力層における未来の入力値の代わりに、出力層におけるこのネットワークの固有の予想を使用する。

本発明による方法の殊に有利な実施形態では、上記のリカレントニューラルネットワークによる技術システムのモデル化をつぎの式によって表す。すなわち、

ただしτの値域には、時点ｔの前のあらかじめ定めた個数ｍの時間ステップと、時点ｔの後のあらかじめ定め個数ｎの時間ステップとが含まれており、
ｔ∈｛m,...,T-n｝、ここでＴは、トレーニングデータが存在する時点の個数であり、
ｘ_τは時点τにおいてリカレントニューラルネットワークによって決定される技術システムの状態を表し、
ｘ_τ ^dはトレーニングデータによる時点τにおける技術システムの状態を表しており、
ａ_τは時点τにおけるアクションを表しており、
ｓ_τおよびｐ_τは、リカレントニューラルネットワークの隠れ層の時点τにおける隠れ状態を表しており、
また、Ｉは単位行列、Ａ，Ｂ，Ｃ，Ｄは求めるべき行列、θは求めるべきバイアスである。

上記の式により、結果として、相応する行列Ａ，Ｂ，Ｃ，Ｄと、相応するバイアスθが得られ、ここでこれらは、予想した状態と、実際の状態との間の２乗誤差が最小になるように選択される。

最後に第２のステップにおいて行列Ａ，Ｂ，ＣおよびＤならびにパラメタθが決定され、つぎに報酬ルールの学習がつぎの式によって行われる。すなわち、

ただし、Ｇは行列またｈは任意の活性化関数であり、これらは、技術システムの状態ｘ_τ+1を、コスト関数c(・)に関連する状態Ｒ_τ+1にマッピングする。

ｆは任意の活性化関数であり、
ＥおよびＦは求めようとする行列、またｂは求めようとするバイアスである。

すでに述べたように上記の関数ｆおよびｈは任意の活性化関数とすることができ、例えばこれらは恒等写像とすることも可能である。

本発明による方法は任意の技術システムに使用可能である。１つの適用事例は、例えばタービン、殊にガスタービンである。

上記の技術システムの制御はつぎのように行われる。すなわち、この制御の始めにまず、本来のアクション選択ステップを除いて本発明による方法のすべてのステップが実行され、引き続き、ここから得られかつ上記の別のニューラルネットワークに結合されたリカレントニューラルネットワークと、学習したアクション選択ルールとがアクションの選択に使用される。ここでアクションは、技術システムを制御するために実行される制御である。したがってこの制御ルールは一回決定され、技術システムの制御中にはもはや変更されないのである。

択一的に可能であるのは、技術システムの調整を実行中に、規則的な間隔で本発明の方法の（本来のアクション選択以外の）すべてのステップを実行することであり、ここではこれらのステップを実行する際には、調整中に新たに発生した状態およびアクションが新たなトレーニングデータおよび／または別のトレーニングデータとして考慮される。本発明による方法のこれらのステップを実行した後、引き続いてここから得られかつ別のニューラルネットワークに結合されたリカレントニューラルネットワークと、学習したアクション選択ルールとを別のアクションの選択に使用する。これによって上記の技術システムの調整中に制御のオンライン学習が保証される。

上記の方法の他に本発明にはさらに、機械読み出し可能な担体に記憶されたプログラムコードを有するコンピュータプログラム製品が含まれており、ここでこのプログラムコードは、プログラムが計算機で動作する場合に本発明による制御方法を実施するためのものである。

以下では添付の図面に基づいて本発明の実施例を詳細に説明する。

本発明の１実施形態にしたがってリカレントニューラルネットワークによる技術システムのモデル化を示す概略図を示す。本発明の１実施形態にしたがい、フィードフォワードネットワークと組み合わせた図１のリカレントニューラルネットワークによるアクション選択ルールの学習を示す概略図を示す。本発明による方法をテストした台車−棒問題を示す概略図を示す。台車−棒問題に対する本発明のよる方法の結果と、別の方法の結果とを比較する表を示しており、図４の表による結果をグラフ表示する線図を示す。図４の表による結果をグラフ表示する線図を示す。

以下では本発明による方法を詳しく説明する。ここでこの方法は、任意の形態の技術システムに適用可能であり、その動的な振る舞いは、（確率）伝達関数P(x_t，a_t，x_t+1)を有する状態空間Ｘおよびアクション空間Ａによって表すことができる。ここで態x_t，ｘ_t+1∈Xは、時点ｔないしはt+1における技術システムの状態であり、各状態は、多数の状態変数ないしは環境変数によって特徴付けられる。これらの環境変数は技術システムの測定可能な状態量であり、例えばガスタービンにおけるガス圧、ガス温度、燃焼室加速度（Brennkammerbeschleunigung）などである。ここでアクションa_t∈Aは時点ｔにおける技術システムの操作量の変化がであり、この操作量そのものは、技術システムの後の状態に影響を与える。状態ｘ_tと同様に上記のアクションａ_tも多数のアクション変数を含むことが可能であり、したがって１つのアクションは複数の操作量の変化によって特徴付けることができる。技術システムにおいて変更可能な操作量の例は、ガスタービンにおける弁の調整である。しばしば技術システムを設計して、上記の状態空間とアクション空間とが重なるようにする。すなわち、技術システムにおける操作量が、この技術システムの状態も特徴付けるようにするのである。

状態空間Ｘと、アクション空間Ａと、確率論的な伝達関数とを用いた技術システムの上記の説明は、従来技術から公知のマルコフ決定過程ＭＤＰ（MDP＝Markov Decision Process）に相応する。ここで出発点とするのは、技術システムが上記のような過程によって表されることである。この過程に対して、報酬関数またはコスト関数ｃ:Ｘ×Ａ→Ｒが存在し、ただしＲは、報酬の空間を表し、ここでこの関数は、この状態ｘ_tにおいてアクションａ_tを選択するためのシステムを得る。ここでの目的は、最適なルールΠ:Ｘ→Ａを決定するとことであり、この最適なルールは、状態ｘt毎に期待される累積のまたは平均の報酬関数ｃを最大化するものである。ここで上記の報酬関数ｃの最大化は、アクション選択ルールの考えられ得る１実施形態に相当し、これは特許請求の範囲に定められている通りである。上記の報酬関数は、例えばこの報酬関数が上記の技術システムの所望の特性を反映するように決定され、ここでは最適値は、上記の関数が最大の場合に得られる。最も簡単なケースでは上記のコスト関数は例えば技術システムの有利な所望の状態とすることができ、この状態は、これが最大値を有する場合に最適である。以下で出発点とするのは、上記の技術システムが、離散の時間ステップを有する決定的マルコフ決定過程であることであり、ここでは状態空間ＸおよびＡは連続である。

本発明では、マルコフ決定過程をリカレントニューラルネットワークＲＮＮによってモデル化する。これによって技術システムの動的な挙動を表す、すなわち伝達関数Ｐ（・）を高次元の非線形の方程式系によって表すのである。ここで説明している本発明の変形実施形態において使用しているリカレントニューラルネットワークＲＮＮは図１に示されている。このリカレントニューラルネットワークには、入力層Ｉが含まれており、これは個々の時点における状態およびアクションを示す。図１では例示的に状態ｘ_t-1，ｘ_ｔならびにアクションａ_t-1，ａ_t，ａ_t+1が示されている。この入力層は、相応する行列ＢおよびＤを介して隠れ層Ｈに結合されている。これらの行列については以下でさらに詳しく定義する。この隠れ層は、時点毎の隠れ状態を有しており、図１では例示的に状態ｐ_t-1，ｓ_t-1，ｐ_t，ｓ_t，ｐ_t+1およびｓ_t+1が示されている。ここで隠れ層Ｈはリカレントである。それは、個々の隠れ状態が違いに結合されているからである。このことは相応する行列Ｉ（単位行列に相当する）および図１のバイアスθならびにＡによって表されている。さらに図１のリカレントニューラルネットワークは出力層Ｏを有しており、これは技術システムの複数の状態によって形成されており、図１には状態ｘ_t，ｘ_t+1，ｘ_t+2が示されている。これらの状態は、それぞれ行列Ｃにより、隠れ状態ｓ_t-1，ｓ_tおよびｓ_t+1に結合される。

図１のニューラルネットワークは、未来の状態を考慮した動学的一致の時間的なアンフォールディングを有するネットワークであり、英語では"Neural Network with Dynamically Consistent Overshooting"と称される。このことが意味するのは、ニューラルネットワークをモデル化する際には、過去の時点τだけではなく、未来の時点τも考慮され、また出力層におけるネットワークの予想した固有の状態が、入力層における未来の状態に対する入力として使用されることである。パラメタτは、行われたアンフォールディングの長さｍと、いわゆるオーバシュートの長さｎとによって制限されるため、すべての観察した時点ｔ∈{m,...,T-n}に対してτ∈{t-m,…,t+n}が成り立ち、ここでＴは得られた時点の数Ｔを表し、これらの時点に対して上記のニューラルネットワークを学習させるためのトレーニングデータがある。上記のオーバシュートは、図１から、未来の時点τ＞ｔも技術システムをモデル化する際にニューラルネットワークによって考慮されることによって得られる。これらの未来の時点は未知であるため、このネットワークを介して出力層において出力される状態が、つぎのタイムステップに対する入力として再び使用される。このことは図１において時点t+1に対して示されており、ここでは出力される状態ｘ_t+1そのものが、隠れ層の隠れ状態Ｐ_t+1に供給される。

したがってここで説明する本発明の実施形態では、リカレントニューラルネットワークの入力側におけるa_τおよび状態ｘ_τのシーケンスが得られ、ここでこのネットワークは、過去および未来を考慮するあらかじめ設定された区間において時間的に展開される。図１のリカレントニューラルネットワークは数学的につぎの式によって表すことができ、ここでこれらの式において上記の行列Ｉ，Ａ，Ｂ，Ｃ，Ｄならびにバイアスθが含まれている。すなわち、
ｓ_τ＝tanh（Ｉｐ_τ＋Ｄａ_τ＋θ）
ｘ_τ+1＝Ｃｓ_τ
ただしｐ_τ＝Ａｓ_τ-1＋Ｂｘ_τ
である。

状態ｐ_τはプレ状態と称され、これは、先行する隠れ状態ｓ_τ-1からの情報および外部状態ｘ_τからの情報とを統合する。ここで隠れ層の非線形性は、双曲線正接にらって表される。プレ状態ｐ_τは、隠れ状態ｓ_τと次元が同じであり、また単位行列Ｉを介して接続される。ここでこれはニューラルネットワークの学習中には学習されないものである。この隠れ状態ｓ_τは、入力としてアクションａ_τを有しており、また技術システムの予想されるつぎの状態ｘ_τ+1の計算に使用される。行列Ｄは、有利な次元を有する付加的な行列であり、この行列は、アクションａ_τが状態ｓ_τに与える影響を考慮する。アクションａ_τは、未来の入力値（τ＞ｔ）としても上記のニューラルネットワークＲＮＮに供給される。それは、これらが技術システムの動的特性に直接影響を与えず、したがってこのネットワークによって学習すべきでないからである。技術システムの状態空間において発生し得る多数の状態をカバーするため、上記のリカレントニューラルネットワークをトレーニングデータによってモデル化して技術システムをモデル化する。ここでアクションａ_τはランダムに選択される。そうでなければ、上記の学習される動的特性は、例えば、所定のルールに依存することが可能である。

本発明による方法の目的は、トレーニングデータで学習した図１のニューラルネットワークと、強化された学習（Reinforcement Learning）とを組み合わせて、上記の最適なルールΠを習得することである。これは本発明により、図１のリカレントニューラルネットワークと、別のいわゆるコントロールネットワークとを組み合わせることによって行われ、これにより、上記の報酬関数ｃがニューラルネットワークに実現される。

ここで説明する実施形態において上記の付加的なコントロールネットワークは、入力層と、隠れ層と、出力層とを有する３層のニューラルフィードフォワードネットワークである。別のより複雑なトポロジが考えられる場合であっても、ここで説明するモデルにより、任意のコントロール関数をすべてモデル化することができる。最適なアクションａ_τを予測しようとするため、未来の時点（すなわちτ＞ｔ）に対してだけ、上記のコントロールネットワークと、リカレントニューラルネットワークとを結合する。過去の時間的なアンフォールディング（すなわちτ＜ｔ）に対して、リカレントニューラルネットワークにおいて前に供給したアクションを使用する。

図２には別のフィードフォワードネットワークに結合されるリカレントニューラルネットワークが示されており、ここでこのネットワークは、以下ではＲＣＮＮ（ＲＣＮＮ＝Recurrent Control Neural Network）とも称される。フィードフォワードコントロールネットワークに関係するネットワークの部分はここでは破線で示されている。上記のコントロールネットワークは入力層として隠れ状態ｐ_t，ｐ_t+1，…などを使用し、これらは相応する状態ｒ_t，ｒ_t+1などを有する隠れ層Ｒに結合される。ここで隠れ状態ｒ_τは、行列Ｅならびにバイアスｂを介して状態ｐ_τに結合される。すなわち、
ｒ_τ＝tanh(Ｅｐ_τ＋ｂ）
が成り立つ。

さらに上記の隠れ状態ｒ_τは、行列Ｆを介して、モデル化すべき未来のアクションａτに結合される。さらに未来の状態Ｘ_t+1，Ｘ_t+2などと、状態R_t+1，R_t+2などとを結合する行列Ｇが存在する。ここで後者の状態は、上記の計算ルールに関連する状態である。

本発明にしたがって使用されるニューラルネットワークＲＣＮＮは、相異なる２つの役割を果たさなければならない。一方では元になる技術システムの動的特性を識別しなければならず、他方では相応するアクション選択ルールないしは報酬ルールによってこの技術システムの最適な制御を得なければならない。したがってこのネットワークは連続する２つのステップによってトレーニングされる。すなわち、リカレントニューラルネットワークをトレーニングデータで学習させるステップと、このリカレントニューラルネットワークとフィードフォワードネットワークとを結合することによって報酬ルールを学習するステップによってトレーニングされる。本発明によるこのアプローチは、１つのステップで２つの役割を組み合わせて学習させようとする慣用の方法とは異なる。

本発明による方法の第１ステップではまず基礎となるマルコフ決定過程の動的特性をモデル化する。ここでこのマルコフ決定過程は、技術システムの動的な特性に相応する。したがってネットワークＲＣＮＮは、未来の状態を考慮して、動学的一致の時間的なアンフォールディングを有するリカレントニューラルネットワークに還元される。この第１ステップは数学的にはつぎの式によって表される。すなわち、

ここで最後の数式はトレーニングの役割を示しており、ここで達成しなければならないのは、リカレントニューラルネットワークＲＮＮによって決定される状態ｘ_τと、トレーニングデータの状態ｘ_τ ^dとをできるだけ良好に一致させることである。ここではリカレントニューラルネットワークの決定すべきパラメタを表す行列Ａ，Ｂ，ＣおよびＤならびにバイアスθについて２乗誤差が最小化される。

上記の技術システムの動的特性をモデル化するステップの後、このステップで決定した行列Ａ，Ｂ，ＣおよびＤならびにバイアスθを固定する。すなわちその重み付け、別のトレーニング中に変更しないのである。つぎに図２に示されている行列ＥおよびＦならびにバイアスｂをアクティブ化する。これらだけが、報酬ルールを学習する第２ステップ中のパラメタである。この学習ステップではリカレントニューラルネットワークは、外部入力として未来のアクションを受け取らず、これらのアクションは、報酬ルールを考慮してフィードフォワードネットワークによって学習される。さらに過去の時間ステップτ＜ｔに対して出力クラスタｘ_τを取り除く。それはこれらが、第１ステップの動的特性のモデル化だけに必要だったからである。上記のネットワークの未来の時間ステップτ＞ｔに対し、式（４）による誤差関数を報酬関数ないしはコスト関数ｃ（・）によって置き換える。これらの関数は、さらに先に式（９）で言及する。これは上記のアーキテクチャにおいて付加的な報酬クラスタＲ_τによって達成される。このクラスタは、上記の報酬関数ｃ（・）に依存しかつ問題に固有の行列Ｇによって出力クラスタに、また出力クラスタX_τ内の考えられ得るアクティブ化関数hに接続される。これによってネットワークＲＣＮＮにより、上記の報酬関数ｃ（・）がニューラルアーキテクチャ内でコーディングされる。このことが意味するのは、報酬クラスタＲ_τを出力クラスタｘ_τだけに基づいて計算しなければならないのではなく、これをより一般的に表すことができ、これによって一層複雑なネットワークアーキテクチャも可能になることができる。例えば上記の報酬関数は明示的に学習することができ、このことは殊に、ｃ（・）が既知でないかまたは詳細化が不完全な場合に役に立つ。これは上記のＲＣＮＮの出力を入力として有する別の付加的な３層ニューラルネットワークによって得ることができる。

上記のフィードフォワードネットワークの重み付けは、報酬クラスタＲ_τ(τ＞ｔ）による報酬のバックプロパゲーションだけにしたがって適合化される。このことは、アクション選択ルールの学習の第２ステップが、動的特性の識別に使用されるのではなく、報酬を最大にするルールの学習だけに使用するというアイデアに相応する。この際にはシステムの動的特性はすでにあらかじめモデル化されているのである。

報酬ルールの学習の第２ステップは、以下の式（５）〜（９）によって数学的に表すことができる。ここでは行列ＥおよびＦならびにバイアスｂが学習される。式（５）〜（９）はつぎのようになる。すなわち、

である。

式（１）〜（４）にしたがって技術システムの動的特性をモデル化する際にも、また式（５）〜（９）にしたがって報酬ルールを学習する際にも上記のリカレントニューラルネットワークを同じトレーニングパターンＴによって、また従来技術から十分に知られておりかつ刊行物[１]に記載されたバックプロパゲーション法によってトレーニングが行われる。ここで各トレーニングパターンＴは時点に相応しており、この時点には、技術システムの状態およびこの時点に実行されるアクションの形態の相応するトレーニングデータが対応付けられている。報酬ルールを学習するステップは、報酬関数ｃ（・）のエラーのバックプロパゲーションとみなすことができる。

上で説明したリカレントニューラルコントロールネットワークＲＣＮＮの実施形態により、理想的にも、未来の状態を考慮した動学的一致の時間的なアンフォールディングを有しかつ動的特性を識別するためのリカレントニューラルネットワークＲＮＮの利点と、報酬ルールを学習するための３層ニューラルコントロールネットワークとが組み合わせられる。これによって高い近似精度が得られ、また複雑な動的システムを極めてデータ効率的に制御することもできる。付加的には上記のシステムを簡単により高い次元にスケーリングすることができ、技術システムの複数の状態から部分的にだけ観察可能な周囲状況を再構成できる。さらにこのネットワークによって極めて良好に連続的の状態空間およびアクション空間を処理することができる。

リカレントニューラルネットワークの上記の実施形態を、従来技術から十分に知られている台車−棒問題の例でテストした。この台車−棒問題は図３に示されている。これは、垂直の壁２ａによって区切られたくぼみ２において水平方向に運動する台車１からなる。この台車の位置は、くぼみの中央を基準にして変数χで表される。この台車は、その上側で棒３をバランスさせる。この棒の位置は垂線を基準にして角度αで表される。したがってこのシステムは、相応する時点ｔ＝１，…，Ｔにおける以下の４つの変数によって表される。すなわち、

このシステムの動的特性は、つぎの物理学的な式によって得られる。すなわち、

である。

ここでＭは台車１の質量であり、ｍは棒３の質量である。lは棒の半分の長さであり、ｇは重力加速度、Ｆはこの台車に水平方向に作用する力である。力も図３に示されている。

台車−棒問題の目標は、できるだけ長い時間ステップの列の間、台車が壁２ａにぶつかることなく棒を台車上でバランスさせることである。可能なアクションは、一定の力Ｆで台車を右または左にずらすことである。オリジナルの台車−棒問題では、台車が壁２ａに接触する場合ないしは棒が１２°以上に傾いた場合、システムは、マイナスの強化信号によって罰せられる。その他のすべての場合にはゼロの報酬が与えられる。この台車−棒問題は、既知の強化学習法によって完全に解決されたが、このためには大きな数のトレーニングデータが必要であった。以下では本発明のネットワークＲＣＮＮに基づいて台車−棒問題の解決を説明する。ここでは未来の状態を考慮した動学的一致の時間的なアンフォールディングを有するリカレントニューラルネットワークを使用し、１０ステップを過去にまた３０ステップを未来にアンフォールディングした。これによってネットワークにまず記憶を与え、ここでこの記憶は、システムの動的特性を識別するのに十分な記憶である。また他方ではネットワークに未来の過剰を与える。ここの過剰は、選択したアクションの結果を予想できるようにするものである。上記のリカレントニューラルネットワークにおける隠れ層の状態に対する大きさは２０個のニューロンとし、またコントロールネットワークの隠れ層Ｒに対する大きさを４０個のニューロンとする。すでに上で説明したように、双曲線正接をクラスタａ_τの活性化関数として使用した（式（８））。これによってネットワークＲＣＮＮのアクション空間が[-1，1]に制限される。

上記のリカレントニューラルネットワークを学習させるため、大きさの異なるデータを式（１０）にしたがって形成する。ここではアクション（すなわち力Ｆ）をランダムに選択した。コスト関数として、棒の傾きないしは台車が壁２ａに衝突するのを回避するという上記の目的を表す関数を選択した。報酬関数はつぎのように選択した。すなわち、

である。

ここでｇは、２つの変数χ_τおよびα_τのエラー値をバランスさせるスケーリングファクタである。ここではｇ＝0.1とした。これにより、式（６）が行列Ｇがつぎのように得られる。すなわち、

である。

式（６）の活性化関数ｈとして恒等関数を使用した。上記のリカレントニューラルネットワークならびにフィードフォワードネットワークは、刊行物[１］に記載された上記のバックプロパゲーション法によって学習させた。

以下では台車−棒問題を解決するための本発明による方法の結果と、別の学習方法による結果との比較を検討する。

本発明によるニューラルネットワークＲＣＮＮを種々異なるトレーニングデータによってトレーニングした。これによって学習した式（１１）による報酬ルールを台車−棒問題に対してテストした。各テストにおいてステップの数Ｎを求めた。ここでこのステップは、台車が壁２ａに衝突することになしに棒３が台車１においてバランスしている長さのステップ数に相応する。報酬ルールを学習するため、300，1000，3000，10000，30000および100000のトレーニング値を有する３つずつのデータセットを使用した。引き続いてテスト中に台車および棒の１００個の異なるランダムな初期化についてデータセットサイズ毎に中央値ＭＥおよびステップＮの平均値ＡＶを求めた。上記の中央値、すべての求めたのＮ個を昇順の列に並びた際のこの列における中央の値である。平均は、すべての求めたＮ個の算術平均である。ステップＮの最大数をmax＝100000に決定した。これは上記の台車−棒問題がこのテストにおいて解決するまで評価したものである。

図４には表が示されており、この表では個々のデータセットサイズＤＳについて中央値ＭＥおよび平均値ＡＶが、ネットワークＲＣＮＮを有する本発明の方法に対して、ならびに別の公知のアルゴリズムに対して、すなわちアダプティブヒューリスティッククリティックアルゴリズムＡＨＣおよびＱ学習アルゴリズムＱ−Ｌに対して示されている。上記の台車−棒問題においてＡＨＣアルゴリズムによって良好な結果が得られることが知られている。Ｑ学習アルゴリズムは、強化学習に対する標準的な手法である。

図４の表からわかるように、ニューラルネットワークＲＣＮＮを有する本発明の方法により、台車−棒問題は極めてデータ効率的に、また別の方法より格段に良好に解決される。例えば、すでに1000個のトレーニング値において、棒がバランスしたステップの平均数は極めて大きく、その数は33573である。複数のトレーニングデータセットのうちの１つにより、1000個のデータセットサイズにおいてすでに報酬ルールが学習することができた。これと比較して上記のＡＨＣアルゴリズムには、良好な解決手段を得るために少なくとも100000個のデータ値からなるデータセットサイズが必要であった。Ｑ学習法の結果はさらに格段に悪く、この方法では、ステップの最大数maxに到達するデータセットはなかった。をわかり易くするため、図４の表の結果を再度、対数目盛で図５および図６にグラフで示す。図５には横座標に沿ってデータセットサイズＤＳと、縦座標に沿って中央値ＭＥが上記の３つの学習法について示されており、本発明による方法ＲＣＮＮは実線で、ＡＨＣ法は点線で、Ｑ学習法は破線で示されている。図６は図５に相応し、ただ１つの違いは、横座標に沿って平均ＡＶがプロットされていることである。２つの図５および６から明らかにわかるのは、本発明による方法により、従来技術による方法よりも良好な結果が得られることである。

本発明による方法を台車−棒問題だけに関連してテストしたが、この方法はこの問題に制限されるものではない。本発明による方法は、任意の形態の状態を測定することができ、また任意の形態のアクションを操作量の変化という形態で実行することができる任意のすべの技術システムに適用可能である。

文献リスト：
[1] D.E. Rumelhart, G.E. Hinton, and R. J. Williams, "Learning internal representations by error propagation" , in Parallel Distributed Processing: Explorations in The Microstructure of Cognition, D.E. Rumelhart and J. L. M. et al., Eds. Cambridge: MIT Press, 1986, vol. 1, pp. 318-362
[2] Leslie Pack Kaelbling; Michael L. Littman; Andrew W. Moore, Reinforcement Learning: A Survey, Journal of Artificial Intelligence Research 4 (1996) pp. 237-285

Claims

コンピュータ支援によって技術システムを制御および／または調整する方法において、
ａ）複数の時点に対し、技術システムの動特性についての情報を、それぞれ前記技術システムの状態および前記技術システムにおいて実行されるアクションの状態によって特徴付け、ここで、各時点における各アクションはつぎの時点における前記技術システムの新たな状態をもたらし、
ｂ）前記技術システムの動特性は複数の時点（ｔ）における既知の状態（ｘ_t）およびアクション（ａ_t）を含んだトレーニングデータを用いてモデル化し、ここで、リカレントニューラルネットワークは前記複数の時点（ｔ）において前記技術システムで実行されるアクション（ａ_t）および前記技術システムの状態（ｘ_t）を含む少なくとも１つの入力層（Ｉ）と、隠れ状態（ｓ_t，ｐ_t）を含む少なくとも１つの隠れリカレント層（Ｈ）と、前記複数の時点（ｔ）における技術システムの状態（ｘ_t）を含む少なくとも１つの出力層（Ｏ）とによって形成されており、
ｃ）前記リカレントニューラルネットワークを、現在および将来の時点（ｔ）について、少なくとも１つの入力層（Ｈ）、隠れ状態（ｒ_t）を含む少なくとも１つの隠れ層（Ｒ）、少なくとも１つの出力層（Ｏ’）を含む別のニューラルネットワークと結合させて、アクション選択ルールを学習し、ただし、前記別のニューラルネットワークの各時点（ｔ）の入力層（Ｈ）は前記リカレントニューラルネットワークの各時点（ｔ）の隠れ状態（ｐt）の少なくとも一部を含んでおり、前記別のニューラルネットワークの各時点の出力層（Ｏ’）は前記技術システム上で各時点に実行されるアクション（ａ_t）を含んでおり、
ｄ）前記技術システムの状態（ｘ_t）および割り当てられた行動（ａ_t）を前記別のニューラルネットワークと結合した前記リカレントニューラルネットワークにより学習したアクション選択ルールを用いて決定する、
ことを特徴とするコンピュータ支援によって技術システムを制御および／または調整する方法。
前記アクション選択ルールは、前記技術システムの状態（ｘ_t）および／または前記技術システム上で実行されるアクション（ａ_t）に関する１つまたは複数の基準を考慮した、および／または前記ステップｂ）で学習された評価関数に従って学習される、請求項１記載の方法。
前記評価関数は前記技術システムの最適な動特性をパラメータ化するように選ばれている、請求項２記載の方法。
前記評価関数は最適化されるべきコスト関数によって表される、請求項３記載の方法。
前記技術システムの状態（ｘ_t）は１つまたは複数の環境変数を含む、および／または前記技術システム上で実行されるべきアクション（ａ_t）は１つまたは複数のアクション変数を含む、および／または前記リカレントニューラルネットワークおよび／または前記別のニューラルネットワークの隠れ状態（ｓ_t，ｐ_t，ｒ_t）は１つまたは複数の隠れ変数を含む、請求項１から４のいずれか１項記載の方法。
前記リカレントニューラルネットワークおよび／または前記別のニューラルネットワークの隠れ状態（ｓ_t，ｐ_t，ｒ_t）の隠れ変数の数は前記技術システムの状態（ｘ_t）の環境変数の数よりも少ない、請求項５記載の方法。
前記技術システムの動特性を前記リカレントニューラルネットワークを用いてモデル化するために、前記リカレントニューラルネットワークにより求められた状態（ｘ_t）と前記トレーニングデータの状態（ｘ_t）との誤差を最小化する、請求項１から６のいずれか１項記載の方法。
請求項１のステップｂ）において、前記技術システムの非線形の動特性をモデル化する、および／または請求項１のステップｃ）において、非線形のアクション選択ルールを学習する、請求項１から７のいずれか１項記載の方法。
前記ステップｂ）において前記技術システムの動特性を前記リカレントニューラルネットワークを用いてモデル化するために、および／または前記ステップｃ）においてアクション選択ルールを学習するために、バックプロパゲーション法を使用する、請求項１から８のいずれか１項記載の方法。
前記リカレントニューラルネットワークは未来の状態（ｘ_t）およびアクション（ａ_t）の考慮の下に動学的一致のある時間的なアンフォールディングを有するネットワークである、請求項１から９のいずれか１項記載の方法。
前記リカレントニューラルネットワークによる前記技術システムの動特性のモデル化は以下の式により表される、

ただし、τの値域には、時点ｔの前のあらかじめ定めた個数ｍの時間ステップと、時点ｔの後のあらかじめ定め個数ｎの時間ステップとが含まれており、
ｔ∈｛m,...,T-n｝、ここでＴはトレーニングデータが存在する時点の個数であり、
ｘ_τは時点τにおいてリカレントニューラルネットワークによって決定される技術システムの状態を表し、
ｘ_τ ^dはトレーニングデータによる時点τにおける技術システムの状態を表しており、
ａ_τは時点τにおけるアクションを表しており、
ｓ_τおよびｐ_τは、リカレントニューラルネットワークの隠れ層の時点τにおける隠れ状態を表しており、
Ｉは単位行列、Ａ，Ｂ，Ｃ，Ｄは求めるべき行列、θは求めるべきバイアスである、
請求項１から１０のいずれか１項記載の方法。
前記アクション選択ルールの学習は以下の式によって表される、

ただし、Ｇは行列またｈは任意の活性化関数であり、これらは、技術システムの状態ｘ_τ+1を、コスト関数c(・)に関連する状態Ｒ_τ+1にマッピングするものであり、
ｆは任意の活性化関数であり、
ＥおよびＦは求めようとする行列、またｂは求めようとするバイアスである、
請求項１１記載の方法。
前記技術システムはタービン、とりわけガスタービンである、請求項１から１２のいずれか１項記載の方法。
制御方法の始めに、まず請求項１のステップａ）〜ｄ）を実行され、引き続き、ここから得られかつ前記別のニューラルネットワークに結合されたリカレントニューラルネットワークと学習したアクション選択ルールとがアクションの決定に使用される、請求項１から１３のいずれか１項記載の方法。
制御方法のあいだ、規則的な間隔で請求項１のステップａ）〜ｄ）を実行する、ただし、これらステップを実行する際、制御中に新たに生じた状態（ｘ_t）およびアクション（ａ_t）は新しいおよび／または別のトレーニングデータとして考慮され、これらステップを実行した後、ここから得られかつ前記別のニューラルネットワークに結合されたリカレントニューラルネットワークと、学習したアクション選択ルールとが別のアクション（ａ_t）の選択に使用される、請求項１から１３のいずれか１項記載の方法。
計算機上で実行したときに請求項１から１５のいずれか１項記載の方法を実行するプログラムコードを機械可読媒体上に記憶させたコンピュータプログラム製品。