JP2010515182A - コンピュータ支援によって技術システムを制御および/または調整する方法 - Google Patents

コンピュータ支援によって技術システムを制御および/または調整する方法 Download PDF

Info

Publication number
JP2010515182A
JP2010515182A JP2009544387A JP2009544387A JP2010515182A JP 2010515182 A JP2010515182 A JP 2010515182A JP 2009544387 A JP2009544387 A JP 2009544387A JP 2009544387 A JP2009544387 A JP 2009544387A JP 2010515182 A JP2010515182 A JP 2010515182A
Authority
JP
Japan
Prior art keywords
technical system
neural network
state
recurrent neural
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009544387A
Other languages
English (en)
Other versions
JP5300739B2 (ja
Inventor
マキシミリアン シェーファー アントン
ウードルフト シュテフェン
ツィマーマン ハンス−ゲオルク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2010515182A publication Critical patent/JP2010515182A/ja
Application granted granted Critical
Publication of JP5300739B2 publication Critical patent/JP5300739B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33011Link between hidden and input layer is sigmoid, and between output is linear
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33021Connect plural macrocircuits, neural network modules in a larger network
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33025Recurrent artificial neural network
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33036Error back propagation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Feedback Control In General (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本発明はコンピュータ支援によって技術システムを制御および/または調整する方法に関する。本方法は2つのステップ、すなわち、技術システムの動特性をリカレントニューラルネットワークに基づいて履歴データを用いて学習するステップと、続いてリカレントニューラルネットワークを別のニューラルネットワークと結合することにより最適な制御を学習するステップを特徴としている。本発明は別の技術適用領域も有しており、特に任意の技術システムにおいてこの技術システムをコンピュータ支援により最適に制御するために使用することができる。適用領域は例えばガスタービンの制御である。本方法は先行技術から公知の台車-棒問題に関してテストされ、公知の方法よりも格段に良い結果をもたらした。

Description

本発明は、技術システムをコンピュータ支援で制御および/または調整する方法と、相応するコンピュータプログラム製品に関する。
複雑技術システムを制御する際にしばしば望ましいのは、この技術システムにおいて実行されるアクションを選択して、この技術システムの所望の有利な動的特性を得ることである。しかしながら複雑技術システムにおいて上記の動的特性は簡単には予測できないことが多いため、この技術システムの未来の特性を推定しまたこれに相応して適切なアクションを選択してこの技術システムを制御ないしは調整するためには相応のコンピュータ支援による予測方法が必要になるのである。
今日、技術システムの制御は、専門知識に基づいていることが多い。すなわちシステムの自動制御は、専門知識に基づいて行われるのである。しかしながらいわゆる強化学習(Reinforcement Learning 文献[2]を参照されたい)の公知の手法を用いして技術システムを制御するアプローチも知られている。しかしながら公知の方法は任意の技術システムに汎用に適用することはできず、また十分に良好な結果が得られないことが多い。
したがって本発明の課題は、技術システムの動的特性をコンピュータ支援によって予測する方法を提供して、この方法が任意の技術システムに共通にして有効でありまたこの方法によって良好な結果が得られるようにすることである。
本発明による方法では、複数の時点に対し、技術システムの動特性についての情報が、それぞれこの技術システムの状態およびこの技術システムにおいて実行されるアクションの状態によって得られる。ここで各時点における各アクションにより、つぎの時点におけるこの技術システムの新たな状態になる。ここでこの技術システムは任意に構成することができるため、上記の複数の状態は、この技術システムの任意の測定可能なパラメタとすることが可能である。ここで上記のアクションは、技術システムの任意の変化であり、この変化は、この技術システムにおける相応の操作量の変化によって特徴付けられるものである。ここでは状態が有利には多数の環境変数ないしは状態変数によって特徴付けられ、各状態変数は、技術システムの所定の測定量を表す。したがってこの状態は状態ベクトルであることが多い。同様に上記のアクションには場合によっては、変化させるべき多数の操作量が含まれており、これらの操作量は、相応するアクションベクトルの1つずつのエントリを形成する。
本発明による方法では、第1のステップにおいて、複数の時点における既知の状態およびアクションを含んだトレーニングデータを用いて、リカレントニューラルネットを有する上記の技術システムの動的特性をモデル化する。ここでこのリカレントニューラルネットワークは、複数の時点において上記の技術システムで実行されるアクションおよび技術システムの状態を含む少なくとも1つの入力層と、隠れ状態を含む少なくとも1つの隠れリカレント層と、複数の時点における技術システムの状態を含む少なくとも1つの出力層とによって形成される。上記のニューラルネットワークにおけるリカレント性は、上記のシステムの時間的な展開によって発生する。この時間的な展開は、隠れ層において種々異なる時点における隠れ状態を結合することによって表される。
引き続いて第2ステップにおいてアクション選択ルールが学習される。上記の学習は、上記の第1ステップにおいてトレーニングデータによってトレーニングされたリカレントニューラルネットワークが、目下の時点および未来の時点に対して、別のニューラルネットワークと結合されることによって行われる。ここでこの別のニューラルネットワークは、少なくとも1つの入力層と、隠れ状態を含む隠れ層と、少なくとも1つの出力層とを有する。上記の別のニューラルネットワークの入力層には、各時点に、この各時点におけるリカレントニューラルネットワークの隠れ状態の少なくとも1つの部分が含まれており、またこの別のニューラルネットワークの出力層には、各時点に、この各時点に上記の技術システムで実行されるアクションが含まれている。したがって上記の別のニューラルネットワークは、上記の技術システムのモデル化した動的特性を考慮して、未来のアクションについてこの技術システムの最適な制御を行うのであり、ここでこの動的特性は第1ステップで行われたものである。
有利な実施形態では、アクション選択ルールを評価関数にしたがって学習し、ここでこの評価関数は、技術システムの状態において1つまたは複数の判定基準および/またはこの技術システムにおいて実行されるアクションを考慮し、および/またはこれは、技術システムの動的特性のモデリングのステップにおいて学習される。
最後に、リカレントニューラルネットワークを有する本発明の方法では、上記の技術システムの状態および/またはこの技術システムにおいて実行される有利には最適なアクションが決定される。ここで上記のリカレントニューラルネットワークは、別のニューラルネットワークに結合されまたこのリカレントニューラルネットワークによって上記のアクション選択ルールが学習される。つぎに求めた状態ないしはアクションに基づいて、この技術システムを相応に制御ないしは調整することができる。ここで示されたのは、上記のようなネットワークアーキテクチャにより、技術システムの動的特性をデータ効率的(dateneffzient)に学習できることである。データ効率は大きな意味がある。それは、多くの技術システムにおいて利用可能ないしは関連するデータ材料は大きく制限されているからである。特別な説明において、本発明の方法と、台車(Cart)−棒(Pole)問題の例における公知の学習方法とを比較して示されたのは、本発明の方法により、公知の方法と比べて極めて良好な結果が得られることである。
殊に有利な実施形態では、本発明による方法の別のニューラルネットワークとして、フィードフォワードネットワークを使用する。このネットワークでは隠れ層のニューロンを時間的にフィードバックしない。
本発明の別の変形実施形態では、上記の評価関数を選択して、この評価関数により、技術システムの最適な動的特性がパラメタ化されるようにする。これにより、上記の評価関数を相応に選択することによって技術システムの最適な制御を実現することができる。ここでは上記の評価関数を例えば、最適化すべきコスト関数によって表すことができる。
すでに上で説明したように、上記の技術システムの状態およびアクションには有利には複数の変数が含まれる。同様に上記のリカレントないしは別のニューラルネットワークの隠れ状態も有利には複数の隠れ変数からなる。ここで例えば上記のリカレントおよび/または別のニューラルネットワークの隠れ状態の隠れ変数の数は、技術システムの状態の環境変数の数以下である。ここで上記の隠れ状態の数を有利に選択して、上記の方法が一方ではデータ効率的であるように、また他方では良好な結果が得られるようにする。
本発明の第1ステップにおいてリカレントニューラルネットワークによって技術システムの動的特性をモデリングする際、殊に有利な実施形態では、リカレントニューラルネットワークによって決まる状態と、トレーニングデータの状態との間の誤差を最小化する。
殊に有利な実施形態では、本発明の方法を使用して、技術システムの非線形の動的特性の振る舞いをこの方法によってモデル化し、および/または非線形のアクション選択ルールを学習する。
本発明による方法の別の実施形態では、この方法の第1ステップにおいてリカレントニューラルネットワークによって技術システムの動的特性をモデリングするため、および/またはこの方法の第2ステップにおいてアクション選択ルールを選択するため、バックプロパゲーション法を使用する。このようなバックプロパゲーション法は従来技術から十分に公知であり、ここでは例えば刊行物[1]に記載された方法を使用する。
上記の技術システムの動的特性をモデル化するリカレントニューラルネットワークは、有利には未来の状態およびアクションの考慮の下に動学的一致のある時間的なアンフォールディング(Entfaltung)を有するネットワークであり、英語では"Recurrent Neural Network with Dynamically Consistent Overshooting"と称される。このようなネットワークでは、入力層における未来の入力値の代わりに、出力層におけるこのネットワークの固有の予想を使用する。
本発明による方法の殊に有利な実施形態では、上記のリカレントニューラルネットワークによる技術システムのモデル化をつぎの式によって表す。すなわち、
Figure 2010515182
ただしτの値域には、時点tの前のあらかじめ定めた個数mの時間ステップと、時点tの後のあらかじめ定め個数nの時間ステップとが含まれており、
t∈{m,...,T-n}、ここでTは、トレーニングデータが存在する時点の個数であり、
τは時点τにおいてリカレントニューラルネットワークによって決定される技術システムの状態を表し、
τ dはトレーニングデータによる時点τにおける技術システムの状態を表しており、
τは時点τにおけるアクションを表しており、
τおよびpτは、リカレントニューラルネットワークの隠れ層の時点τにおける隠れ状態を表しており、
また、Iは単位行列、A,B,C,Dは求めるべき行列、θは求めるべきバイアスである。
上記の式により、結果として、相応する行列A,B,C,Dと、相応するバイアスθが得られ、ここでこれらは、予想した状態と、実際の状態との間の2乗誤差が最小になるように選択される。
最後に第2のステップにおいて行列A,B,CおよびDならびにパラメタθが決定され、つぎに報酬ルールの学習がつぎの式によって行われる。すなわち、
Figure 2010515182
ただし、Gは行列またhは任意の活性化関数であり、これらは、技術システムの状態xτ+1を、コスト関数c(・)に関連する状態Rτ+1にマッピングする。
fは任意の活性化関数であり、
EおよびFは求めようとする行列、またbは求めようとするバイアスである。
すでに述べたように上記の関数fおよびhは任意の活性化関数とすることができ、例えばこれらは恒等写像とすることも可能である。
本発明による方法は任意の技術システムに使用可能である。1つの適用事例は、例えばタービン、殊にガスタービンである。
上記の技術システムの制御はつぎのように行われる。すなわち、この制御の始めにまず、本来のアクション選択ステップを除いて本発明による方法のすべてのステップが実行され、引き続き、ここから得られかつ上記の別のニューラルネットワークに結合されたリカレントニューラルネットワークと、学習したアクション選択ルールとがアクションの選択に使用される。ここでアクションは、技術システムを制御するために実行される制御である。したがってこの制御ルールは一回決定され、技術システムの制御中にはもはや変更されないのである。
択一的に可能であるのは、技術システムの調整を実行中に、規則的な間隔で本発明の方法の(本来のアクション選択以外の)すべてのステップを実行することであり、ここではこれらのステップを実行する際には、調整中に新たに発生した状態およびアクションが新たなトレーニングデータおよび/または別のトレーニングデータとして考慮される。本発明による方法のこれらのステップを実行した後、引き続いてここから得られかつ別のニューラルネットワークに結合されたリカレントニューラルネットワークと、学習したアクション選択ルールとを別のアクションの選択に使用する。これによって上記の技術システムの調整中に制御のオンライン学習が保証される。
上記の方法の他に本発明にはさらに、機械読み出し可能な担体に記憶されたプログラムコードを有するコンピュータプログラム製品が含まれており、ここでこのプログラムコードは、プログラムが計算機で動作する場合に本発明による制御方法を実施するためのものである。
以下では添付の図面に基づいて本発明の実施例を詳細に説明する。
本発明の1実施形態にしたがってリカレントニューラルネットワークによる技術システムのモデル化を示す概略図を示す。 本発明の1実施形態にしたがい、フィードフォワードネットワークと組み合わせた図1のリカレントニューラルネットワークによるアクション選択ルールの学習を示す概略図を示す。 本発明による方法をテストした台車−棒問題を示す概略図を示す。 台車−棒問題に対する本発明のよる方法の結果と、別の方法の結果とを比較する表を示しており、 図4の表による結果をグラフ表示する線図を示す。 図4の表による結果をグラフ表示する線図を示す。
以下では本発明による方法を詳しく説明する。ここでこの方法は、任意の形態の技術システムに適用可能であり、その動的な振る舞いは、(確率)伝達関数P(xt,at,xt+1)を有する状態空間Xおよびアクション空間Aによって表すことができる。ここで態xt,xt+1∈Xは、時点tないしはt+1における技術システムの状態であり、各状態は、多数の状態変数ないしは環境変数によって特徴付けられる。これらの環境変数は技術システムの測定可能な状態量であり、例えばガスタービンにおけるガス圧、ガス温度、燃焼室加速度(Brennkammerbeschleunigung)などである。ここでアクションat∈Aは時点tにおける技術システムの操作量の変化がであり、この操作量そのものは、技術システムの後の状態に影響を与える。状態xtと同様に上記のアクションatも多数のアクション変数を含むことが可能であり、したがって1つのアクションは複数の操作量の変化によって特徴付けることができる。技術システムにおいて変更可能な操作量の例は、ガスタービンにおける弁の調整である。しばしば技術システムを設計して、上記の状態空間とアクション空間とが重なるようにする。すなわち、技術システムにおける操作量が、この技術システムの状態も特徴付けるようにするのである。
状態空間Xと、アクション空間Aと、確率論的な伝達関数とを用いた技術システムの上記の説明は、従来技術から公知のマルコフ決定過程MDP(MDP=Markov Decision Process)に相応する。ここで出発点とするのは、技術システムが上記のような過程によって表されることである。この過程に対して、報酬関数またはコスト関数c:X×A→Rが存在し、ただしRは、報酬の空間を表し、ここでこの関数は、この状態xtにおいてアクションatを選択するためのシステムを得る。ここでの目的は、最適なルールΠ:X→Aを決定するとことであり、この最適なルールは、状態xt毎に期待される累積のまたは平均の報酬関数cを最大化するものである。ここで上記の報酬関数cの最大化は、アクション選択ルールの考えられ得る1実施形態に相当し、これは特許請求の範囲に定められている通りである。上記の報酬関数は、例えばこの報酬関数が上記の技術システムの所望の特性を反映するように決定され、ここでは最適値は、上記の関数が最大の場合に得られる。最も簡単なケースでは上記のコスト関数は例えば技術システムの有利な所望の状態とすることができ、この状態は、これが最大値を有する場合に最適である。以下で出発点とするのは、上記の技術システムが、離散の時間ステップを有する決定的マルコフ決定過程であることであり、ここでは状態空間XおよびAは連続である。
本発明では、マルコフ決定過程をリカレントニューラルネットワークRNNによってモデル化する。これによって技術システムの動的な挙動を表す、すなわち伝達関数P(・)を高次元の非線形の方程式系によって表すのである。ここで説明している本発明の変形実施形態において使用しているリカレントニューラルネットワークRNNは図1に示されている。このリカレントニューラルネットワークには、入力層Iが含まれており、これは個々の時点における状態およびアクションを示す。図1では例示的に状態xt-1,xならびにアクションat-1,at,at+1が示されている。この入力層は、相応する行列BおよびDを介して隠れ層Hに結合されている。これらの行列については以下でさらに詳しく定義する。この隠れ層は、時点毎の隠れ状態を有しており、図1では例示的に状態pt-1,st-1,pt,st,pt+1およびst+1が示されている。ここで隠れ層Hはリカレントである。それは、個々の隠れ状態が違いに結合されているからである。このことは相応する行列I(単位行列に相当する)および図1のバイアスθならびにAによって表されている。さらに図1のリカレントニューラルネットワークは出力層Oを有しており、これは技術システムの複数の状態によって形成されており、図1には状態xt,xt+1,xt+2が示されている。これらの状態は、それぞれ行列Cにより、隠れ状態st-1,stおよびst+1に結合される。
図1のニューラルネットワークは、未来の状態を考慮した動学的一致の時間的なアンフォールディングを有するネットワークであり、英語では"Neural Network with Dynamically Consistent Overshooting"と称される。このことが意味するのは、ニューラルネットワークをモデル化する際には、過去の時点τだけではなく、未来の時点τも考慮され、また出力層におけるネットワークの予想した固有の状態が、入力層における未来の状態に対する入力として使用されることである。パラメタτは、行われたアンフォールディングの長さmと、いわゆるオーバシュートの長さnとによって制限されるため、すべての観察した時点t∈{m,...,T-n}に対してτ∈{t-m,…,t+n}が成り立ち、ここでTは得られた時点の数Tを表し、これらの時点に対して上記のニューラルネットワークを学習させるためのトレーニングデータがある。上記のオーバシュートは、図1から、未来の時点τ>tも技術システムをモデル化する際にニューラルネットワークによって考慮されることによって得られる。これらの未来の時点は未知であるため、このネットワークを介して出力層において出力される状態が、つぎのタイムステップに対する入力として再び使用される。このことは図1において時点t+1に対して示されており、ここでは出力される状態xt+1そのものが、隠れ層の隠れ状態Pt+1に供給される。
したがってここで説明する本発明の実施形態では、リカレントニューラルネットワークの入力側におけるaτおよび状態xτのシーケンスが得られ、ここでこのネットワークは、過去および未来を考慮するあらかじめ設定された区間において時間的に展開される。図1のリカレントニューラルネットワークは数学的につぎの式によって表すことができ、ここでこれらの式において上記の行列I,A,B,C,Dならびにバイアスθが含まれている。すなわち、
τ=tanh(Ipτ+Daτ+θ)
τ+1=Csτ
ただし pτ=Asτ-1+Bxτ
である。
状態pτはプレ状態と称され、これは、先行する隠れ状態sτ-1からの情報および外部状態xτからの情報とを統合する。ここで隠れ層の非線形性は、双曲線正接にらって表される。プレ状態pτは、隠れ状態sτと次元が同じであり、また単位行列Iを介して接続される。ここでこれはニューラルネットワークの学習中には学習されないものである。この隠れ状態sτは、入力としてアクションaτを有しており、また技術システムの予想されるつぎの状態xτ+1の計算に使用される。行列Dは、有利な次元を有する付加的な行列であり、この行列は、アクションaτが状態sτに与える影響を考慮する。アクションaτは、未来の入力値(τ>t)としても上記のニューラルネットワークRNNに供給される。それは、これらが技術システムの動的特性に直接影響を与えず、したがってこのネットワークによって学習すべきでないからである。技術システムの状態空間において発生し得る多数の状態をカバーするため、上記のリカレントニューラルネットワークをトレーニングデータによってモデル化して技術システムをモデル化する。ここでアクションaτはランダムに選択される。そうでなければ、上記の学習される動的特性は、例えば、所定のルールに依存することが可能である。
本発明による方法の目的は、トレーニングデータで学習した図1のニューラルネットワークと、強化された学習(Reinforcement Learning)とを組み合わせて、上記の最適なルールΠを習得することである。これは本発明により、図1のリカレントニューラルネットワークと、別のいわゆるコントロールネットワークとを組み合わせることによって行われ、これにより、上記の報酬関数cがニューラルネットワークに実現される。
ここで説明する実施形態において上記の付加的なコントロールネットワークは、入力層と、隠れ層と、出力層とを有する3層のニューラルフィードフォワードネットワークである。別のより複雑なトポロジが考えられる場合であっても、ここで説明するモデルにより、任意のコントロール関数をすべてモデル化することができる。最適なアクションaτを予測しようとするため、未来の時点(すなわちτ>t)に対してだけ、上記のコントロールネットワークと、リカレントニューラルネットワークとを結合する。過去の時間的なアンフォールディング(すなわちτ<t)に対して、リカレントニューラルネットワークにおいて前に供給したアクションを使用する。
図2には別のフィードフォワードネットワークに結合されるリカレントニューラルネットワークが示されており、ここでこのネットワークは、以下ではRCNN(RCNN=Recurrent Control Neural Network)とも称される。フィードフォワードコントロールネットワークに関係するネットワークの部分はここでは破線で示されている。上記のコントロールネットワークは入力層として隠れ状態pt,pt+1,…などを使用し、これらは相応する状態rt,rt+1などを有する隠れ層Rに結合される。ここで隠れ状態rτは、行列Eならびにバイアスbを介して状態pτに結合される。すなわち、
τ=tanh(Epτ+b)
が成り立つ。
さらに上記の隠れ状態rτは、行列Fを介して、モデル化すべき未来のアクションaτに結合される。さらに未来の状態Xt+1,Xt+2などと、状態Rt+1,Rt+2などとを結合する行列Gが存在する。ここで後者の状態は、上記の計算ルールに関連する状態である。
本発明にしたがって使用されるニューラルネットワークRCNNは、相異なる2つの役割を果たさなければならない。一方では元になる技術システムの動的特性を識別しなければならず、他方では相応するアクション選択ルールないしは報酬ルールによってこの技術システムの最適な制御を得なければならない。したがってこのネットワークは連続する2つのステップによってトレーニングされる。すなわち、リカレントニューラルネットワークをトレーニングデータで学習させるステップと、このリカレントニューラルネットワークとフィードフォワードネットワークとを結合することによって報酬ルールを学習するステップによってトレーニングされる。本発明によるこのアプローチは、1つのステップで2つの役割を組み合わせて学習させようとする慣用の方法とは異なる。
本発明による方法の第1ステップではまず基礎となるマルコフ決定過程の動的特性をモデル化する。ここでこのマルコフ決定過程は、技術システムの動的な特性に相応する。したがってネットワークRCNNは、未来の状態を考慮して、動学的一致の時間的なアンフォールディングを有するリカレントニューラルネットワークに還元される。この第1ステップは数学的にはつぎの式によって表される。すなわち、
Figure 2010515182
ここで最後の数式はトレーニングの役割を示しており、ここで達成しなければならないのは、リカレントニューラルネットワークRNNによって決定される状態xτと、トレーニングデータの状態xτ dとをできるだけ良好に一致させることである。ここではリカレントニューラルネットワークの決定すべきパラメタを表す行列A,B,CおよびDならびにバイアスθについて2乗誤差が最小化される。
上記の技術システムの動的特性をモデル化するステップの後、このステップで決定した行列A,B,CおよびDならびにバイアスθを固定する。すなわちその重み付け、別のトレーニング中に変更しないのである。つぎに図2に示されている行列EおよびFならびにバイアスbをアクティブ化する。これらだけが、報酬ルールを学習する第2ステップ中のパラメタである。この学習ステップではリカレントニューラルネットワークは、外部入力として未来のアクションを受け取らず、これらのアクションは、報酬ルールを考慮してフィードフォワードネットワークによって学習される。さらに過去の時間ステップτ<tに対して出力クラスタxτを取り除く。それはこれらが、第1ステップの動的特性のモデル化だけに必要だったからである。上記のネットワークの未来の時間ステップτ>tに対し、式(4)による誤差関数を報酬関数ないしはコスト関数c(・)によって置き換える。これらの関数は、さらに先に式(9)で言及する。これは上記のアーキテクチャにおいて付加的な報酬クラスタRτによって達成される。このクラスタは、上記の報酬関数c(・)に依存しかつ問題に固有の行列Gによって出力クラスタに、また出力クラスタXτ内の考えられ得るアクティブ化関数hに接続される。これによってネットワークRCNNにより、上記の報酬関数c(・)がニューラルアーキテクチャ内でコーディングされる。このことが意味するのは、報酬クラスタRτを出力クラスタxτだけに基づいて計算しなければならないのではなく、これをより一般的に表すことができ、これによって一層複雑なネットワークアーキテクチャも可能になることができる。例えば上記の報酬関数は明示的に学習することができ、このことは殊に、c(・)が既知でないかまたは詳細化が不完全な場合に役に立つ。これは上記のRCNNの出力を入力として有する別の付加的な3層ニューラルネットワークによって得ることができる。
上記のフィードフォワードネットワークの重み付けは、報酬クラスタRτ(τ>t)による報酬のバックプロパゲーションだけにしたがって適合化される。このことは、アクション選択ルールの学習の第2ステップが、動的特性の識別に使用されるのではなく、報酬を最大にするルールの学習だけに使用するというアイデアに相応する。この際にはシステムの動的特性はすでにあらかじめモデル化されているのである。
報酬ルールの学習の第2ステップは、以下の式(5)〜(9)によって数学的に表すことができる。ここでは行列EおよびFならびにバイアスbが学習される。式(5)〜(9)はつぎのようになる。すなわち、
Figure 2010515182
である。
式(1)〜(4)にしたがって技術システムの動的特性をモデル化する際にも、また式(5)〜(9)にしたがって報酬ルールを学習する際にも上記のリカレントニューラルネットワークを同じトレーニングパターンTによって、また従来技術から十分に知られておりかつ刊行物[1]に記載されたバックプロパゲーション法によってトレーニングが行われる。ここで各トレーニングパターンTは時点に相応しており、この時点には、技術システムの状態およびこの時点に実行されるアクションの形態の相応するトレーニングデータが対応付けられている。報酬ルールを学習するステップは、報酬関数c(・)のエラーのバックプロパゲーションとみなすことができる。
上で説明したリカレントニューラルコントロールネットワークRCNNの実施形態により、理想的にも、未来の状態を考慮した動学的一致の時間的なアンフォールディングを有しかつ動的特性を識別するためのリカレントニューラルネットワークRNNの利点と、報酬ルールを学習するための3層ニューラルコントロールネットワークとが組み合わせられる。これによって高い近似精度が得られ、また複雑な動的システムを極めてデータ効率的に制御することもできる。付加的には上記のシステムを簡単により高い次元にスケーリングすることができ、技術システムの複数の状態から部分的にだけ観察可能な周囲状況を再構成できる。さらにこのネットワークによって極めて良好に連続的の状態空間およびアクション空間を処理することができる。
リカレントニューラルネットワークの上記の実施形態を、従来技術から十分に知られている台車−棒問題の例でテストした。この台車−棒問題は図3に示されている。これは、垂直の壁2aによって区切られたくぼみ2において水平方向に運動する台車1からなる。この台車の位置は、くぼみの中央を基準にして変数χで表される。この台車は、その上側で棒3をバランスさせる。この棒の位置は垂線を基準にして角度αで表される。したがってこのシステムは、相応する時点t=1,…,Tにおける以下の4つの変数によって表される。すなわち、
Figure 2010515182
このシステムの動的特性は、つぎの物理学的な式によって得られる。すなわち、
Figure 2010515182
である。
ここでMは台車1の質量であり、mは棒3の質量である。lは棒の半分の長さであり、gは重力加速度、Fはこの台車に水平方向に作用する力である。力も図3に示されている。
台車−棒問題の目標は、できるだけ長い時間ステップの列の間、台車が壁2aにぶつかることなく棒を台車上でバランスさせることである。可能なアクションは、一定の力Fで台車を右または左にずらすことである。オリジナルの台車−棒問題では、台車が壁2aに接触する場合ないしは棒が12°以上に傾いた場合、システムは、マイナスの強化信号によって罰せられる。その他のすべての場合にはゼロの報酬が与えられる。この台車−棒問題は、既知の強化学習法によって完全に解決されたが、このためには大きな数のトレーニングデータが必要であった。以下では本発明のネットワークRCNNに基づいて台車−棒問題の解決を説明する。ここでは未来の状態を考慮した動学的一致の時間的なアンフォールディングを有するリカレントニューラルネットワークを使用し、10ステップを過去にまた30ステップを未来にアンフォールディングした。これによってネットワークにまず記憶を与え、ここでこの記憶は、システムの動的特性を識別するのに十分な記憶である。また他方ではネットワークに未来の過剰を与える。ここの過剰は、選択したアクションの結果を予想できるようにするものである。上記のリカレントニューラルネットワークにおける隠れ層の状態に対する大きさは20個のニューロンとし、またコントロールネットワークの隠れ層Rに対する大きさを40個のニューロンとする。すでに上で説明したように、双曲線正接をクラスタaτの活性化関数として使用した(式(8))。これによってネットワークRCNNのアクション空間が[-1,1]に制限される。
上記のリカレントニューラルネットワークを学習させるため、大きさの異なるデータを式(10)にしたがって形成する。ここではアクション(すなわち力F)をランダムに選択した。コスト関数として、棒の傾きないしは台車が壁2aに衝突するのを回避するという上記の目的を表す関数を選択した。報酬関数はつぎのように選択した。すなわち、
Figure 2010515182
である。
ここでgは、2つの変数χτおよびατのエラー値をバランスさせるスケーリングファクタである。ここではg=0.1とした。これにより、式(6)が行列Gがつぎのように得られる。すなわち、
Figure 2010515182
である。
式(6)の活性化関数hとして恒等関数を使用した。上記のリカレントニューラルネットワークならびにフィードフォワードネットワークは、刊行物[1]に記載された上記のバックプロパゲーション法によって学習させた。
以下では台車−棒問題を解決するための本発明による方法の結果と、別の学習方法による結果との比較を検討する。
本発明によるニューラルネットワークRCNNを種々異なるトレーニングデータによってトレーニングした。これによって学習した式(11)による報酬ルールを台車−棒問題に対してテストした。各テストにおいてステップの数Nを求めた。ここでこのステップは、台車が壁2aに衝突することになしに棒3が台車1においてバランスしている長さのステップ数に相応する。報酬ルールを学習するため、300,1000,3000,10000,30000および100000のトレーニング値を有する3つずつのデータセットを使用した。引き続いてテスト中に台車および棒の100個の異なるランダムな初期化についてデータセットサイズ毎に中央値MEおよびステップNの平均値AVを求めた。上記の中央値、すべての求めたのN個を昇順の列に並びた際のこの列における中央の値である。平均は、すべての求めたN個の算術平均である。ステップNの最大数をmax=100000に決定した。これは上記の台車−棒問題がこのテストにおいて解決するまで評価したものである。
図4には表が示されており、この表では個々のデータセットサイズDSについて中央値MEおよび平均値AVが、ネットワークRCNNを有する本発明の方法に対して、ならびに別の公知のアルゴリズムに対して、すなわちアダプティブヒューリスティッククリティックアルゴリズムAHCおよびQ学習アルゴリズムQ−Lに対して示されている。上記の台車−棒問題においてAHCアルゴリズムによって良好な結果が得られることが知られている。Q学習アルゴリズムは、強化学習に対する標準的な手法である。
図4の表からわかるように、ニューラルネットワークRCNNを有する本発明の方法により、台車−棒問題は極めてデータ効率的に、また別の方法より格段に良好に解決される。例えば、すでに1000個のトレーニング値において、棒がバランスしたステップの平均数は極めて大きく、その数は33573である。複数のトレーニングデータセットのうちの1つにより、1000個のデータセットサイズにおいてすでに報酬ルールが学習することができた。これと比較して上記のAHCアルゴリズムには、良好な解決手段を得るために少なくとも100000個のデータ値からなるデータセットサイズが必要であった。Q学習法の結果はさらに格段に悪く、この方法では、ステップの最大数maxに到達するデータセットはなかった。をわかり易くするため、図4の表の結果を再度、対数目盛で図5および図6にグラフで示す。図5には横座標に沿ってデータセットサイズDSと、縦座標に沿って中央値MEが上記の3つの学習法について示されており、本発明による方法RCNNは実線で、AHC法は点線で、Q学習法は破線で示されている。図6は図5に相応し、ただ1つの違いは、横座標に沿って平均AVがプロットされていることである。2つの図5および6から明らかにわかるのは、本発明による方法により、従来技術による方法よりも良好な結果が得られることである。
本発明による方法を台車−棒問題だけに関連してテストしたが、この方法はこの問題に制限されるものではない。本発明による方法は、任意の形態の状態を測定することができ、また任意の形態のアクションを操作量の変化という形態で実行することができる任意のすべの技術システムに適用可能である。
文献リスト:
[1] D.E. Rumelhart, G.E. Hinton, and R. J. Williams, "Learning internal representations by error propagation" , in Parallel Distributed Processing: Explorations in The Microstructure of Cognition, D.E. Rumelhart and J. L. M. et al., Eds. Cambridge: MIT Press, 1986, vol. 1, pp. 318-362
[2] Leslie Pack Kaelbling; Michael L. Littman; Andrew W. Moore, Reinforcement Learning: A Survey, Journal of Artificial Intelligence Research 4 (1996) pp. 237-285

Claims (16)

  1. コンピュータ支援によって技術システムを制御および/または調整する方法において、
    a)複数の時点に対し、技術システムの動特性についての情報を、それぞれ前記技術システムの状態および前記技術システムにおいて実行されるアクションの状態によって特徴付け、ここで、各時点における各アクションはつぎの時点における前記技術システムの新たな状態をもたらし、
    b)前記技術システムの動特性は複数の時点(t)における既知の状態(xt)およびアクション(at)を含んだトレーニングデータを用いてモデル化し、ここで、リカレントニューラルネットワークは前記複数の時点(t)において前記技術システムで実行されるアクション(at)および前記技術システムの状態(xt)を含む少なくとも1つの入力層(I)と、隠れ状態(st,pt)を含む少なくとも1つの隠れリカレント層(H)と、前記複数の時点(t)における技術システムの状態(xt)を含む少なくとも1つの出力層(O)とによって形成されており、
    c)前記リカレントニューラルネットワークを、現在および将来の時点(t)について、少なくとも1つの入力層(H)、隠れ状態(rt)を含む少なくとも1つの隠れ層(R)、少なくとも1つの出力層(O’)を含む別のニューラルネットワークと結合させて、アクション選択ルールを学習し、ただし、前記別のニューラルネットワークの各時点(t)の入力層(H)は前記リカレントニューラルネットワークの各時点(t)の隠れ状態(pt)の少なくとも一部を含んでおり、前記別のニューラルネットワークの各時点の出力層(O’)は前記技術システム上で各時点に実行されるアクション(at)を含んでおり、
    d)前記技術システムの状態(xt)および割り当てられた行動(at)を前記別のニューラルネットワークと結合した前記リカレントニューラルネットワークにより学習したアクション選択ルールを用いて決定する、
    ことを特徴とするコンピュータ支援によって技術システムを制御および/または調整する方法。
  2. 前記アクション選択ルールは、前記技術システムの状態(xt)および/または前記技術システム上で実行されるアクション(at)に関する1つまたは複数の基準を考慮した、および/または前記ステップb)で学習された評価関数に従って学習される、請求項1記載の方法。
  3. 前記評価関数は前記技術システムの最適な動特性をパラメータ化するように選ばれている、請求項2記載の方法。
  4. 前記評価関数は最適化されるべきコスト関数によって表される、請求項3記載の方法。
  5. 前記技術システムの状態(xt)は1つまたは複数の環境変数を含む、および/または前記技術システム上で実行されるべきアクション(at)は1つまたは複数のアクション変数を含む、および/または前記リカレントニューラルネットワークおよび/または前記別のニューラルネットワークの隠れ状態(st,pt,rt)は1つまたは複数の隠れ変数を含む、請求項1から4のいずれか1項記載の方法。
  6. 前記リカレントニューラルネットワークおよび/または前記別のニューラルネットワークの隠れ状態(st,pt,rt)の隠れ変数の数は前記技術システムの状態(xt)の環境変数の数よりも少ない、請求項5記載の方法。
  7. 前記技術システムの動特性を前記リカレントニューラルネットワークを用いてモデル化するために、前記リカレントニューラルネットワークにより求められた状態(xt)と前記トレーニングデータの状態(xt)との誤差を最小化する、請求項1から6のいずれか1項記載の方法。
  8. 請求項1のステップb)において、前記技術システムの非線形の動特性をモデル化する、および/または請求項1のステップc)において、非線形のアクション選択ルールを学習する、請求項1から7のいずれか1項記載の方法。
  9. 前記ステップb)において前記技術システムの動特性を前記リカレントニューラルネットワークを用いてモデル化するために、および/または前記ステップc)においてアクション選択ルールを学習するために、バックプロパゲーション法を使用する、請求項1から8のいずれか1項記載の方法。
  10. 前記リカレントニューラルネットワークは未来の状態(xt)およびアクション(at)の考慮の下に動学的一致のある時間的なアンフォールディングを有するネットワークである、請求項1から9のいずれか1項記載の方法。
  11. 前記リカレントニューラルネットワークによる前記技術システムの動特性のモデル化は以下の式により表される、
    Figure 2010515182
    ただし、τの値域には、時点tの前のあらかじめ定めた個数mの時間ステップと、時点tの後のあらかじめ定め個数nの時間ステップとが含まれており、
    t∈{m,...,T-n}、ここでTはトレーニングデータが存在する時点の個数であり、
    τは時点τにおいてリカレントニューラルネットワークによって決定される技術システムの状態を表し、
    τ dはトレーニングデータによる時点τにおける技術システムの状態を表しており、
    τは時点τにおけるアクションを表しており、
    τおよびpτは、リカレントニューラルネットワークの隠れ層の時点τにおける隠れ状態を表しており、
    Iは単位行列、A,B,C,Dは求めるべき行列、θは求めるべきバイアスである、
    請求項1から10のいずれか1項記載の方法。
  12. 前記アクション選択ルールの学習は以下の式によって表される、
    Figure 2010515182
    ただし、Gは行列またhは任意の活性化関数であり、これらは、技術システムの状態xτ+1を、コスト関数c(・)に関連する状態Rτ+1にマッピングするものであり、
    fは任意の活性化関数であり、
    EおよびFは求めようとする行列、またbは求めようとするバイアスである、
    請求項11記載の方法。
  13. 前記技術システムはタービン、とりわけガスタービンである、請求項1から12のいずれか1項記載の方法。
  14. 制御方法の始めに、まず請求項1のステップa)〜d)を実行され、引き続き、ここから得られかつ前記別のニューラルネットワークに結合されたリカレントニューラルネットワークと学習したアクション選択ルールとがアクションの決定に使用される、請求項1から13のいずれか1項記載の方法。
  15. 制御方法のあいだ、規則的な間隔で請求項1のステップa)〜d)を実行する、ただし、これらステップを実行する際、制御中に新たに生じた状態(xt)およびアクション(at)は新しいおよび/または別のトレーニングデータとして考慮され、これらステップを実行した後、ここから得られかつ前記別のニューラルネットワークに結合されたリカレントニューラルネットワークと、学習したアクション選択ルールとが別のアクション(at)の選択に使用される、請求項1から13のいずれか1項記載の方法。
  16. 計算機上で実行したときに請求項1から15のいずれか1項記載の方法を実行するプログラムコードを機械可読媒体上に記憶させたコンピュータプログラム製品。
JP2009544387A 2007-01-02 2007-12-19 コンピュータ支援によって技術システムを制御および/または調整する方法 Expired - Fee Related JP5300739B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102007001025.9 2007-01-02
DE102007001025A DE102007001025B4 (de) 2007-01-02 2007-01-02 Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
PCT/EP2007/064265 WO2008080864A1 (de) 2007-01-02 2007-12-19 Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems

Publications (2)

Publication Number Publication Date
JP2010515182A true JP2010515182A (ja) 2010-05-06
JP5300739B2 JP5300739B2 (ja) 2013-09-25

Family

ID=39166895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009544387A Expired - Fee Related JP5300739B2 (ja) 2007-01-02 2007-12-19 コンピュータ支援によって技術システムを制御および/または調整する方法

Country Status (6)

Country Link
US (1) US8554707B2 (ja)
EP (1) EP2106576B1 (ja)
JP (1) JP5300739B2 (ja)
AT (1) ATE552536T1 (ja)
DE (1) DE102007001025B4 (ja)
WO (1) WO2008080864A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017211913A (ja) * 2016-05-27 2017-11-30 日本電信電話株式会社 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
JP2018533789A (ja) * 2015-11-06 2018-11-15 エフアンドピー ロボテックス アクチェンゲゼルシャフト 意思決定を自動的に行う方法
JP2021501433A (ja) * 2017-11-01 2021-01-14 キュリオス アーイー オーイー ターゲットシステム用制御システムの生成

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008007700A1 (de) 2007-10-31 2009-05-07 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Exploration von Zuständen eines technischen Systems
DE102008020379A1 (de) 2008-04-23 2009-10-29 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
EP2296062B1 (de) 2009-09-09 2021-06-23 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
US9323639B2 (en) 2009-09-10 2016-04-26 International Business Machines Corporation Dynamic recommendation framework for information technology management
DE102010011221B4 (de) * 2010-03-12 2013-11-14 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
US9043254B2 (en) 2010-04-12 2015-05-26 Siemens Aktiengesellschaft Method for computer-aided closed-loop and/or open-loop control of a technical system
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9489619B2 (en) * 2010-12-10 2016-11-08 Siemens Aktiengesellschaft Method for the computer-assisted modeling of a technical system
CN103597413B (zh) * 2011-06-03 2017-01-18 西门子公司 用于在计算机支持下生成技术系统尤其燃气轮机或风力轮机的数据驱动的模型的方法
DE102012206651A1 (de) 2012-04-23 2013-10-24 Siemens Aktiengesellschaft Verfahren zur Regelung einer Turbine
DE102012216574A1 (de) 2012-09-17 2014-03-20 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102013205356B4 (de) * 2013-03-26 2016-07-07 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
EP3022611B1 (de) 2013-09-25 2019-07-10 Siemens Aktiengesellschaft Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
US9679258B2 (en) 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US10685288B2 (en) 2014-08-20 2020-06-16 Cassantec Ag Configuration of malfunction prediction for components and units of technical entities
EP3183698A1 (en) 2014-08-20 2017-06-28 Cassantec AG Malfunction prediction for components and units of technical entities
US10387775B2 (en) * 2015-09-09 2019-08-20 Emerson Process Management Power & Water Solutions, Inc. Model-based characterization of pressure/load relationship for power plant load control
DE102015226656B4 (de) 2015-12-23 2019-10-10 Siemens Aktiengesellschaft Verfahren und Softsensor zum Ermitteln einer Leistung eines Energieerzeugers
US11670420B2 (en) 2017-04-12 2023-06-06 Koninklijke Philips N.V. Drawing conclusions from free form texts with deep reinforcement learning
US10853724B2 (en) 2017-06-02 2020-12-01 Xerox Corporation Symbolic priors for recurrent neural network based semantic parsing
JP7402165B2 (ja) 2018-02-19 2023-12-20 ブラウン ゲーエムベーハー 可動式処置デバイスの位置特定を実施するための装置及び方法
US11775982B2 (en) * 2018-02-26 2023-10-03 Accenture Global Solutions Limited Augmented intelligence assistant for agents
DE102018108106B4 (de) 2018-04-05 2020-01-23 Nolden Regelsysteme GmbH Verfahren zum Regeln einer Temperatur einer Spritzgießmaschine und Regelsystem
EP3588211A1 (de) * 2018-06-27 2020-01-01 Siemens Aktiengesellschaft Steuereinrichtung zum steuern eines technischen systems und verfahren zum konfigurieren der steuereinrichtung
US20210318661A1 (en) * 2018-08-14 2021-10-14 Siemens Aktiengesellschaft Process controller and method and system therefor
US10789511B2 (en) 2018-10-12 2020-09-29 Deepmind Technologies Limited Controlling agents over long time scales using temporal value transport
CN110017184B (zh) * 2019-04-01 2024-02-27 华电电力科学研究院有限公司 一种基于强化学习算法的分布式余压发电系统及其控制方法
WO2021220241A1 (en) * 2020-04-30 2021-11-04 Visa International Service Association System, method, and computer program product for dynamic user interfaces for rnn-based deep reinforcement machine-learning models
US11883746B2 (en) * 2021-02-23 2024-01-30 Electronic Arts Inc. Adversarial reinforcement learning for procedural content generation and improved generalization

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2533942B2 (ja) * 1989-03-13 1996-09-11 株式会社日立製作所 知識抽出方法およびプロセス運転支援システム
US5857321A (en) * 1996-06-11 1999-01-12 General Electric Company Controller with neural network for estimating gas turbine internal cycle parameters
DE19742902A1 (de) * 1997-09-29 1999-04-15 Abb Patent Gmbh Verfahren zur Planung und Durchführung von Versuchen
WO2003061318A1 (de) * 2002-01-16 2003-07-24 Siemens Aktiengesellschaft Neuronales modellbasiertes verfahren und vorrichtung zur minimierung von störungen bei variierenden uplink/downlink timeslots in benachbarten zellen
DE102004011426B3 (de) * 2004-03-09 2005-05-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNC200902269566; 横矢 龍之介 外: 'ロボットの身体経験に基づくRNNPBを用いた模倣動作の自律的獲得' 第24回日本ロボット学会学術講演会予稿集[CD-ROM] , 20060914, pp.1-4 *
JPN6012015410; LONG-JI LIN: Reinforcement Learning for Robots Using Neural Networks , 19930106, pp.1,14-15,28,109-114 *
JPN6012015412; 横矢 龍之介 外: 'ロボットの身体経験に基づくRNNPBを用いた模倣動作の自律的獲得' 第24回日本ロボット学会学術講演会予稿集[CD-ROM] , 20060914, pp.1-4 *
JPN6012015414; ニューラルネットワークの設計と応用 第4巻 初版, 19990630, 第42-45頁, 株式会社昭晃堂 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018533789A (ja) * 2015-11-06 2018-11-15 エフアンドピー ロボテックス アクチェンゲゼルシャフト 意思決定を自動的に行う方法
JP2017211913A (ja) * 2016-05-27 2017-11-30 日本電信電話株式会社 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
JP2021501433A (ja) * 2017-11-01 2021-01-14 キュリオス アーイー オーイー ターゲットシステム用制御システムの生成
US11669056B2 (en) 2017-11-01 2023-06-06 Canary Capital Llc Generation of a control system for a target system

Also Published As

Publication number Publication date
DE102007001025A1 (de) 2008-07-03
US8554707B2 (en) 2013-10-08
JP5300739B2 (ja) 2013-09-25
EP2106576B1 (de) 2012-04-04
WO2008080864A1 (de) 2008-07-10
ATE552536T1 (de) 2012-04-15
DE102007001025B4 (de) 2008-11-20
EP2106576A1 (de) 2009-10-07
US20100094788A1 (en) 2010-04-15

Similar Documents

Publication Publication Date Title
JP5300739B2 (ja) コンピュータ支援によって技術システムを制御および/または調整する方法
US8160978B2 (en) Method for computer-aided control or regulation of a technical system
JP5448841B2 (ja) 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法
Shakya et al. Reinforcement learning algorithms: A brief survey
Cruz et al. Path planning of multi-agent systems in unknown environment with neural kernel smoothing and reinforcement learning
Sanz-García et al. GA-PARSIMONY: A GA-SVR approach with feature selection and parameter optimization to obtain parsimonious solutions for predicting temperature settings in a continuous annealing furnace
Bai et al. Prediction of SARS epidemic by BP neural networks with online prediction strategy
Li et al. Forecasting tanker freight rate using neural networks
CN101452258A (zh) 一种与模型无关的自适应控制器及其控制方法
Ünal et al. Trajectory tracking performance comparison between genetic algorithm and ant colony optimization for PID controller tuning on pressure process
Subrahmanya et al. Constructive training of recurrent neural networks using hybrid optimization
Bush et al. Modeling reward functions for incomplete state representations via echo state networks
Senn et al. Reducing the computational effort of optimal process controllers for continuous state spaces by using incremental learning and post-decision state formulations
CN113614743A (zh) 用于操控机器人的方法和设备
Mahmoud et al. Direct adaptive control for nonlinear systems using a TSK fuzzy echo state network based on fractional-order learning algorithm
Köker Design and performance of an intelligent predictive controller for a six-degree-of-freedom robot using the Elman network
Bakker Reinforcement learning by backpropagation through an LSTM model/critic
Schaefer et al. A recurrent control neural network for data efficient reinforcement learning
Liang et al. Nonlinear MPC based on elastic autoregressive fuzzy neural network with roasting process application
Zhang et al. A deep reinforcement learning based human behavior prediction approach in smart home environments
Anuradha et al. Direct inverse neural network control of a continuous stirred tank reactor (CSTR)
Poczeta et al. Application of fuzzy cognitive maps with evolutionary learning algorithm to model decision support systems based on real-life and historical data
Hoo et al. Improvements in the predictive capability of neural networks
Caamaño et al. Introducing synaptic delays in the NEAT algorithm to improve modelling in cognitive robotics
Suykens et al. Neural control theory: an overview

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120328

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120625

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120702

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120726

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120802

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120827

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120926

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130318

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130618

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees