JP2010524104A - 技術システムをコンピュータ支援により制御および/または調整するための方法 - Google Patents

技術システムをコンピュータ支援により制御および/または調整するための方法 Download PDF

Info

Publication number
JP2010524104A
JP2010524104A JP2010502494A JP2010502494A JP2010524104A JP 2010524104 A JP2010524104 A JP 2010524104A JP 2010502494 A JP2010502494 A JP 2010502494A JP 2010502494 A JP2010502494 A JP 2010502494A JP 2010524104 A JP2010524104 A JP 2010524104A
Authority
JP
Japan
Prior art keywords
technical system
state
neural network
data set
quality function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010502494A
Other languages
English (en)
Other versions
JP5183732B2 (ja
Inventor
シュネーガス ダニエル
ウードルフト シュテフェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2010524104A publication Critical patent/JP2010524104A/ja
Application granted granted Critical
Publication of JP5183732B2 publication Critical patent/JP5183732B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本発明は、技術システムのコンピュータ支援による制御および/または調整に関する。本方法においては教科学習方法および人工ニューラルネットワークが使用される。有利な実施形態においては、アーキテクチャが全体で1つの最適性判定基準を満たすように並列なフィードフォワードネットワークが相互に結合される。ネットワークは観察される報酬を期待される報酬に近似させる。このようにして実際に行われる観察が最適に利用され、品質関数が決定される。内的にネットワークから取得される品質関数は所定の制御問題に関して最適な動作選択規則を提供する。本発明を任意の制御システムに使用することができる。有利な適用分野はタービン、殊にガスタービンの制御ないし調整である。

Description

本発明は、技術システムをコンピュータ支援により制御および/または調整するための方法と、相応のコンピュータプログラム製品に関する。
複雑な技術システムを制御する際にしばしば望ましいのは、この技術システムの所望の有利な動的特性が得られるように、この技術システムにおいて実行すべき動作が選択されていることである。しかしながら技術システムが複雑な場合、この動的特性は容易に予測できないことが多いため、この技術システムの未来の特性を推定し、したがって適切な動作をこの技術システムの制御ないしは調整のために選択するためには相応のコンピュータ支援による予測方法が必要になる。
今日では、技術システムの制御は専門知識に基づいていることが多い。すなわちシステムの自動的な調整は、この専門知識に基づいて行われる。しかしながらいわゆる強化学習(Reinforcement Learning)の公知の手法を用いて技術システムを制御するアプローチも公知である。しかしながら公知の方法は任意の技術システムに汎用に適用することはできず、また十分に良好な結果が得られないことが多い。
したがって本発明の課題は、一般的に任意の技術システムに適用することができ、且つ良好な結果が得られる、技術システムの動的特性をコンピュータ支援により制御および/または調整するための方法を提供することである。
本発明による方法においては、複数の時点に対し技術システムの動的特性が考察され、各時点に対する動的特性が技術システムの状態およびこの技術システムにおいて実行される動作によって特徴付けられ、それぞれの時点におけるそれぞれの動作が技術システムの次の時点における技術システムの追従状態になる。
技術システムの最適な制御ないし調整を達成するために、動作選択規則がデータセットに基づき学習され、各データセットはそれぞれの時点における技術システムの状態、その時点において実行される動作ならびに追従状態を含み、また各データセットには1つの評価が対応付けられている。
殊に、技術システムの状態は1つまたは複数の変数を有する状態ベクトルであり、変数は例えば技術システムの観察される状態量である。同様に、技術システムにおいて実行すべき動作も、複数の動作変数を有する相応のベクトルによって構成することができ、動作変数は殊に技術システムにおいて調整可能なパラメータを表す。
本発明による方法は、動作選択規則の学習の別個の変数によって特徴付けられ、前述の動作選択規則は以下のステップを有する:
i)パラメータとして技術システムの状態および動作を含む、1つまたは複数のニューラルネットワークによって品質関数をモデリングするステップ;
ii)データセットおよび品質関数の評価に依存する最適性判定基準に基づき1つまたは複数のニューラルネットワークを学習するステップ。
この種の方法でもって、ニューラルネットワークの適切な学習により、データセットの評価に依存する最適な動作選択規則が簡単且つ効率的に求められる。この動作選択規則は1つの状態において最高の評価を有する動作が常に可能な限り選択されるように構成されている。学習された動作選択規則でもって技術システムの本来の制御ないし調整が以下のことによって行われる。すなわち、技術システムにおいて実行すべき動作が学習された動作選択規則により1つまたは複数の学習されたニューラルネットワークに基づき選択されることによって行われる。本発明による方法はテストデータセットに基づき検査されており、この方法により非常に良好な結果が達成されることを証明した。
本発明による方法の有利な実施形態においては、評価関数がデータセットの評価に適合されるように、品質関数が1つまたは複数のニューラルネットワークによってモデリングされる。
本発明の有利なヴァリエーションにおいては、学習された動作選択規則を用いて技術システムを制御ないし調整する際に、1つまたは複数の学習されたニューラルネットワークによって品質関数の最大値が形成される動作がそれぞれの状態において有利には選択される。
本発明による方法の殊に有利な実施形態においては、品質関数が複数のニューラルネットワークを用いてモデリングされる。複数のニューラルネットワークの各ネットワークは以下の層を含むフィードフォワードネットワークである:
−技術システムのそれぞれの状態を含む入力層;
−隠れ変数を有する1つまたは複数の隠れ層;
−品質関数を含む出力層。
複数のニューラルネットワークの各ネットワークはそれぞれの状態において実行すべき考えられる動作をパラメータ化する。
本発明の1つのヴァリエーションにおいては、品質関数をモデリングするために複数のニューラルネットワークを使用する代わりに、品質関数を単一のニューラルネットワークによってモデリングすることも可能である。この場合のニューラルネットワークもやはり以下の層を含むフィードフォワードネットワークである:
−技術システムのそれぞれの状態およびそれぞれの状態において実行可能な動作を含む入力層;
−隠れ変数を有する1つまたは複数の隠れ層;
−品質関数を含む出力層。
したがって単一のニューラルネットワークが使用される場合には、動作自体も入力層の変数を表し、複数のフィードフォワードネットワークを考えられる各動作値に関して生成することはもはや必要ない。上述のフィードフォワードネットワークは多層パーセプトロンとも称され、従来技術から十分に公知の人工ニューラルネットワークの構造である。
本発明による方法において1つまたは複数のニューラルネットワークを学習するために、有利には、従来技術から十分に公知のバックプロパゲーション(Backpropagation)方法が使用される。
本発明による方法においては最適性判定基準を種々に選択することができる。有利には、技術システムの最適な動的特性をパラメータ化する最適性判定基準が使用される。考えられる最適性判定基準は例えばベルマン留数(Bellman-Residuum)の最小化ないしベルマン反復(Bellman-Iteration)の不動点への到達である。ベルマン留数ないしベルマン反復は強化学習(英語:Reinforcement Learning)の分野の当業者には既知であるので、ここではこれ以上説明しない。しかしながら詳細な説明においては、これら2つの最適性判定基準の数学的な定義は明示的に示されている。
本発明による方法の殊に有利な実施形態においては、最適性判定基準は調整可能なパラメータを含み、このパラメータの変化によって最適性判定基準が適合される。これによって、本発明による方法を所定のデータセットにとって最も適した最適性判定基準に適合させるフレキシブルな可能性が得られる。
本発明による方法の別の実施形態においては、技術システムの過去の状態および動作の履歴も適切に考慮することができる。このことは、状態が、リカレントニューラルネットワークによってソースデータセットを用いて生成される技術システムのデータセットに隠された状態であることによって行われる。ソースデータセットはそれぞれ、技術システムの観察される状態、この観察される状態において実行される動作ならびにそれにより生じる追従状態を含む。殊に、リカレントニューラルネットワークによって技術システムの動的特性がモデリングされる。リカレントニューラルネットワークは、技術システムの観察される状態および技術システムにおいて実行される動作を含む少なくとも1つの入力層と、技術システムの隠れ状態を含む少なくとも1つの隠れリカレント層と、技術システムの観察される状態を含む少なくとも1つの出力層とから形成されている。リカレントニューラルネットワークはやはり適切な学習方法によって学習され、殊に既知のバックプロパゲーション方法も用いて学習される。
本発明による方法により任意の技術システムを制御および調整することができるが、有利な適用分野はタービン、殊にガスタービンである。ガスタービンの制御ないし調整においては、技術システムの状態および/またはそれぞれの状態において実行可能な動作は以下の1つまたは複数の量を含む:
ガスタービンの総出力;ガスタービンまたはガスタービン周辺における1つまたは複数の圧力および/または温度;ガスタービン内の燃焼室加速度;殊にバルブ調節および/または燃料比および/または吸気翼調節。
本発明はさらに、上述の方法の他に、コンピュータにおいて実行されるときに本発明による方法を実施し、コンピュータ読出可能担体上に記憶されているプログラムコードを備えたコンピュータプログラム製品にも関する。
以下では本発明の実施例を添付の図面に基づき詳細に説明する。
本発明による方法の第1の実施形態の概略図を示す。 本発明による方法の第2の実施形態の概略図を示す。
以下において説明する本発明による方法の実施形態は、任意の技術システムに関して観察、すなわち測定ないし実験により求められた大量のデータセットを基礎としている。技術システムの殊に有利な適用事例はガスタービンの制御であり、この制御に関してデータはタービンの状態量、例えばガスタービンの総出力、ガスタービンにおける1つまたは複数の圧力および/または温度、燃焼室加速度などの形態で存在する。連続する複数の時点についてのデータセットが存在する。各データセットは、通常の場合には複数の状態量を有する状態ベクトルである状態によって、状態量の変化または技術システムの他の調整可能なパラメータを表す動作によって、また動作の実行後の状態量の値を表す追従状態によって特徴付けられている。さらには各データセットに対して評価ないし報酬が存在し、それらは技術システムの制御のためのそれぞれの時点における動作の質を表す。ここで有利には、評価は、技術システムの最善または最適な制御が技術システムの動作中の種々の時点において高い評価ないし報酬を有する動作によって達成されるように構成されている。
以下において説明する本発明による方法の実施形態においては、技術システムの観察されるデータセットに基づき、強化学習(英語:Reinforcement Learning)方法を用いて動作選択規則が学習され、続けてこの動作学習規則を用いて技術システムを適切に作動させることができる。動作選択規則は技術システムの1つの状態について、この状態において実行すべき最善の動作が何であるかを表す。技術システムは確率的な動的システムとみなされる。動作選択規則を求めるための強化学習方法は、報酬関数が観察されるデータセットに適合される回帰タスクとみなされる。
以下において説明する学習方法においては、動作選択規則に従い、技術システムの制御に何を最適に使用することができるかが調べられる。数学的には、状態、動作および追従状態はいわゆるマルコフ決定過程とみなされる。一般的に、マルコフ決定過程は状態空間Sと、種々の状態において選択することができる動作Aのセットと、瞬時状態s、選択された動作aおよび追従状態s’に依存する遷移確率分布PT:S×A×S→[0,1]とみなされる動的特性とによって表されている。ある状態から追従状態への遷移はいわゆる報酬R(s,a,s’)によって特徴付けられ、この報酬は瞬時状態、動作および追従状態の関数である。報酬はこの報酬の期待値
Figure 2010524104
を持つ報酬確率分布PRによって規定される。
以下において説明する本発明による方法の実施形態によれば、ディスカウンティング(discounting)Q関数の最大値が調べられ、このQ関数は特許請求に範囲における品質関数に対応し、また従来技術から十分に公知であるベルマン方程式によって以下のように定義されている。
Figure 2010524104
最大化は全ての考えられる状態sおよび動作aにわたるいわゆる制御空間
Figure 2010524104
において行われる。ただし、0<γ<1はディスカウンティング係数であり、s’はsの追従状態であり、
Figure 2010524104
は使用される動作選択規則である。最適な動作選択規則は、(最善の)Q関数を最大化する動作を使用する動作選択規則であり、最善のQ関数は以下の式によって表されている。
Figure 2010524104
この式は以下の動作選択規則の探索と同義である。
Figure 2010524104
さらには以下の記述について、Sに関するいわゆる価値関数がV(s)= maxaQ(s,a)として定義される。
以下において記述する本発明による方法の実施形態においては、システムの状態が連続的であり、且つそれぞれの状態において実行可能な動作の離散的なセットが存在する技術システムが考察される。システムの動的特性は確率的である。
図1および図2の実施形態においては、上述のQ関数が技術システムのそれぞれの状態において考えられる動作に関して、いわゆるフィードフォワードネットワークないし多層パーセプトロンNa(s) = Q(s,a)によって表される。したがって、ここで説明する実施形態において適合すべき報酬関数は式(1)に従い次式によって表されている:
Figure 2010524104
ここで最大値オペレータ(Max-Operator)が適切なアーキテクチャによってモデリングされ、この種のモデリングは当業者には十分に公知である。以下の実施形態においては、式(2)に従い報酬関数をモデリングするために従来技術から十分に公知のバックプロパゲーションアルゴリズムが使用され、最適化の問題は全ての1の観察される遷移にわたる(二次)ベルマン留数の最小化によって解決される。したがって1は技術システムの観察されるデータにおけるデータセットの数である。この最小化は特許請求の範囲における最適性判定基準を表す。数学的に二次ベルマン留数は以下の式によって表されている:
Figure 2010524104
ここでΘは未来のニューラルフィードフォワードネットワークのパラメータであり、殊にフィードフォワードネットワークにおける個々のニューロン層間の重み付けマトリクスを含む。Ωは適切な調整項である。riはデータセットからの状態siにおける観察される報酬ないし評価を表し、またsi+1は追従状態の状態量の期待値の公平な推定量である。誤差関数の勾配は以下の式によって表されている。
Figure 2010524104
この勾配は目下のQ関数および追従状態の価値関数に依存する。二次ベルマン留数の最小値が求められる上述の最適性判定基準を必要に応じて、ベルマン反復の不動点が調べられる最適性判定基準に置換することができる。これによりしばしばより良い解が得られる。ベルマン反復によれば、反復的に以下の式がQの集束まで最小化される:
Figure 2010524104
ここでは次式が成り立つ:
Figure 2010524104
この場合、勾配は以下の式によって表されている。
Figure 2010524104
さらには、yiの後退代入によって以下の等式系が得られる。
Figure 2010524104
この場合、この等式系の解は(調整された)ベルマン反復の不動点である。上述の2つの勾配はその方向項においてのみ区別され、誤差項においては区別されない。したがって、ネットワークの価値関数成分によって勾配流をブロックすることにより後者の勾配が形成される。このようにして別のパラメータρが最適性判定基準に挿入され、2つの最適性判定基準間ではベルマン留数およびベルマン反復の不動点の最小化に従い変更される。したがって最適性判定基準を一般的に以下のように表すことができる。
Figure 2010524104
この場合、ρ=1についてはベルマン留数の古典的な最小化に従う最適性判定基準によって得られ、これに対しρ=0についてはベルマン反復の不動点への到達によって得られる。
要約すると、本発明による方法の上記の実施形態においては、Q関数がニューラルネットワークによってモデリングされ、個々のニューラルネットワークのパラメータが最適性判定基準に基づく強化学習法によって決定される。この構成を再び図1に示す。図1において、円はニューロンのそれぞれのクラスタを表し、これらのニューロンは重み付けマトリクスを介して接続されている。クラスタR、QおよびVは上述の式による相応の関数値であり、V’はV(s’)を表す。ここで図1の右側の分岐は式(11)によるパラメータを介してクラスタRと結合される。同様に式(11)に含まれている上述のパラメータρも同様に勾配流制御として導入される。
先ず、技術システムのそれぞれの状態に対応するニューラルネットワークN1(s),..., Nn(s)において考えられる全ての動作atについて初期化が行われ、ネットワークは入力層Iとしてその都度それぞれの状態を有し、また出力層Oとしてそれぞれの動作1,..., nに関してモデリングされたQ関数Q1,..., Qnを有する。入力層Iと出力層Oとの間には隠れ層Hが設けられており、そのような中間層を複数設けることができる。見やすくするために図1においては1つの層しか示していない。例示的に、ネットワークのパラメータに関してそれぞれ重み付けマトリクスA1,...,Anならびに相応の重み付けベクトルw1,...,wnが示されている。
ニューラルネットワークN1(s)〜Nn(s)の各々に関して、図1のチャートの右側の分岐内には相応のペンダントが設けられており、ここでは入力量がそれぞれの追従状態s’の相応のペンダントである。したがってQ1',..., Qn'は時点s’におけるそれぞれの品質関数Q1',...,Qn'に対応する。左側の分岐および右側の分岐は上述の報酬関数Rを介して相互に結合されている。本方法は、データセットに従い所属の動作を有するそれぞれの状態sに関して、そのデータセットに従いそれぞれの状態に対応付けられている動作に対応する、図1の左側の分岐におけるフィードフォワードネットワークがアクティブ化されるように実行される。図1の左側の部分におけるそれぞれのニューラルネットワークのアクティブ化は、円内に示されたxの文字によって表される。この場合、相応の追従状態s'に関して、図1の右側の分岐においては左側の分岐のニューラルネットワークのコピーを用いて相応のV関数が最大値オペレータによって算出される。
図1に示した方法においては、Q関数が考えられる各動作atについて別個に1つのニューラルネットワークによってモデリングされる。しかしながら1つのヴァリエーションにおいては、入力量として入力層において状態sの他に動作aも含む単一のニューラルネットワークによってQ関数をモデリングすることも可能である。この場合には、図1の右側の部分において、図1の左側の部分のニューラルネットワークのそれぞれn個のコピーが形成され、各コピーが入力層において追従状態s'ならびに動作の考えられる値を含む。
図1による上述の学習方法の実施後には、結果としてn個の学習されたニューラルネットワークが得られる。続いて、この学習されたニューラルネットワークを用いて、n個の全てのネットワークN1〜Nnに関するシステムの目下の状態に対してQ関数が算出されるように技術システムの最適制御が実施される。最大Q関数値を有するニューラルネットワークの動作が次の動作として選択される。これにより得られる追従状態でもって、どのニューラルネットワークがQ関数の最大値を有するかという判定基準に従い、再び同一のパターンを用いて次の状態が選択される。
上述の方法は過去の状態の履歴を考慮しないので、これによりマルコフ決定過程が存在しない場合には、機能が保証されない可能性がある。しかしながら、本発明による方法の第2の実施形態においては、この履歴も考慮することができる。これは、ニューラルネットワークを学習するために使用されるデータセット自体がやはりソースデータセットから形成されていることによって生じる。ここでソースデータセットはとは、図1の実施形態において1つまたは複数のニューラルネットワークの学習に直接的に導入されるデータセットである。図2に示されている第2の実施形態においては、このソースデータセットが、入力層I’、隠れ層H’および出力層O’を備えたリカレントニューラルネットワークRNNを有する技術システムの動的特性をモデリングするために使用される。このニューラルネットワークは内部状態xt, zt, t∈t - τ,...,t + 1ならびに重み付けマトリクスF,G,H,Jを有する。状態間の遷移は以下の式によって定義される:
Figure 2010524104
内部の状態を外部の状態に結像するマトリクスMを用いることによって、以下の条件を満たすことにより追従状態に達することができる。
Figure 2010524104
既知のアルゴリズムを用いることにより、上述の式に従い、リカレントニューラルネットワークがそれぞれの時点において観察されるデータセットを非常に良好に生成するように、リカレントニューラルネットワークのパラメータ(すなわちネットワークの重み付けマトリクス)が決定される。リカレントニューラルネットワークはここでもまた従来技術から十分に公知のバックプロパゲーション方法を用いて学習される。リカレントニューラルネットワークRNNを用いる動的特性のモデリングは当業者には十分に公知であるので、ここでは詳細に説明しない。図1の方法とは異なり、隠れ状態xtないしxt+1が入力量として状態sないしs'の代わりに入力層Iに導入される。それ以外の点に関しては、図2の学習方法は図1の学習方法に相当し、このことはリカレントニューラルネットワークRNNの上側の部分が図1と同じであることからも分かる。したがってニューラルネットワークNi〜Nnの学習についての再度の説明は省略する。図2によるリカレントニューラルネットワークにおいては、さらに別のパラメータμが導入されており、このパラメータμを用いて個々のフィードフォワードネットワークの学習率に対するリカレントニューラルネットワークの学習率が適合される。さらにはマトリクスNが使用される。このマトリクスNを以下においてさらに説明する。
図2に示されているアーキテクチャにより、ただ1つのリカレントニューラルネットワークがQ関数に対しても価値関数に対しても使用される。リカレントニューラルネットワークは決定的な動的システムを任意に正確に近似させることができるが、このことは確率的な動的システムに対しては不可能である。しかしながらこのことは制限を表すものではない。何故ならば、内部の隠れ層の構成をフィードフォワードネットワークによる確率的な強化学習方法にとっての最適な指標空間への変換形態と見なすことができるからである。決定的な動的システムの場合には、この指標空間は未来を決定する全ての情報の正確な記述と一致し、これに対して、一般的な確率的な動的システムの場合には、期待される未来が予測されるように内部状態が生成されなければならない。したがって図2のリカレントニューラルネットワークにおいては、内部状態がマルコフ過程からの観察なしで予測される場合には、自律的な未来部分が使用される。図2においてこれは状態xt、ただしt>i+1であり、次式が成り立つ。
Figure 2010524104
このことはマルコフ特性を期待される未来の状態に関する知識によって復元することができるので十分である。図2による上述のリカレントアーキテクチャによって、原則として任意の次数の基礎となるマルコフ過程の自動的な復元が実現される。したがって本発明による方法の使用者はデータからより多くの情報を利用することができ、専門知識はあまり必要とされない。
図1および図2に示した本発明による方法の上述の実施形態は従来技術から公知の問題に基づき試験された。殊に本方法は、平面において移動する車において棒が可能な限り長くバランスを取るべき既知のカート・ポール問題に適用された。カート・ポール問題は本発明により学習されたニューラルネットワークを用いて非常に良好に解決できることが証明された。ρ=0が選択された場合に最善の結果が得られた。しかしながらρ>0に関しても良好な結果が得られた。
上記において説明した方法は、任意の技術分野における一般的な最適制御問題に関する情報効率的な解決アプローチを提供する。提供されるデータセットの数が少なくても、古典的な方法では満足に解決することができない複雑な制御問題を解決することができる。

Claims (17)

  1. 技術システムをコンピュータ支援により制御および/または調整するための方法において、
    a)複数の時点(t)に対して前記技術システムの動的特性を、該技術システムの状態(st,xt)および該技術システムにおいて実行される動作(at)によってそれぞれ特徴付け、それぞれの時点(t)におけるそれぞれの動作(at)を前記技術システムの次の時点(t+1)における追従状態(st+1,xt+1)にし、
    b)動作選択規則を複数のデータセットを用いて学習し、各データセットはそれぞれの時点(t)における前記技術システムの状態(st,xt)と、前記状態(st,xt)において実行される動作(at)と、追従状態(st+1,xt+1)とを含み、各データセットには1つの評価(ri)が対応付けられており、
    前記動作選択規則の学習は以下のステップを有する:
    i)パラメータとして前記技術システムの前記状態(st,xt)および動作(at)を含む、1つまたは複数のニューラルネットワーク(Na(s))によって品質関数(Q(s,a))をモデリングするステップ;
    ii)前記データセットおよび前記品質関数(Q(s,a))の前記評価(ri)に依存する最適性判定基準に基づき1つまたは複数の前記ニューラルネットワーク(Na(s))を学習するステップ;
    c)1つまたは複数の学習された前記ニューラルネットワーク(Na(s))に基づき、学習された前記動作選択規則を用いて、前記技術システムにおいて実行すべき動作(at)が選択されるように前記技術システムを制御および/または調整することを特徴とする、方法。
  2. 評価関数(R(s,a,s'))が前記データセットの評価に適合されるように、前記品質関数(Q(s,a))を1つまたは複数のニューラルネットワーク(Na(s))によってモデリングする、請求項1記載の方法。
  3. 前記ステップc)において、1つまたは複数のニューラルネットワーク(Na(s))によって前記品質関数(Q(s,a))の最大値が形成される動作(at)をそれぞれの状態(st,xt)において選択する、請求項1または2記載の方法。
  4. 前記品質関数(Q(s,a))を複数のニューラルネットワーク(Na(s))を用いてモデリングし、複数のニューラルネットワーク(Na(s))の各ネットワークは、前記技術システムのそれぞれの状態(st,xt)を含む入力層(I)と、1つまたは複数の隠れ層(H)と、前記品質関数(Q(s,a))を含む出力層(O)とを有するフィードフォワードを形成し、各ニューラルネットワーク(Na(s))はそれぞれの状態(st,xt)において考えられる実行すべき動作(at)をパラメータ化する、請求項1から3までのいずれか1項記載の方法。
  5. 前記品質関数(Q(s,a))を単一のニューラルネットワークを用いてモデリングし、該ニューラルネットワークは、前記技術システムのそれぞれの状態(st,xt)および該それぞれの状態(st,xt)において実行可能な動作(at)を含む入力層(I)と、1つまたは複数の隠れ層(H)と、前記品質関数(Q(s,a))を含む出力層(O)とを有するフィードフォワードを形成する、請求項1から3までのいずれか1項記載の方法。
  6. 1つまたは複数の前記ニューラルネットワーク(Na(s))を学習するためにバックプロパゲーション方法を使用する、請求項1から5までのいずれか1項記載の方法。
  7. 前記最適性判定基準は、前記技術システムの最適な動特性をパラメータ化するように選択されている、請求項1から6までのいずれか1項記載の方法。
  8. 前記最適性判定基準はベルマン留数の最小化である、請求項1から7までのいずれか1項記載の方法。
  9. 前記最適性判定基準はベルマン反復の不動点への到達である、請求項1から8までのいずれか1項記載の方法。
  10. 前記最適性判定基準は調整可能なパラメータ(ρ)を含み、該パラメータ(ρ)の変化によって前記最適性判定基準を適合させる、請求項1から9までのいずれか1項記載の方法。
  11. 前記技術システムの状態(xt)は1つまたは複数の変数、例えば前記技術システムの観察される状態量を含む、および/または前記技術システムにおいて実行すべき動作(at)は1つまたは複数の動作変数を含む、請求項1から10までのいずれか1項記載の方法。
  12. 前記状態(st,xt)は、リカレントニューラルネットワーク(RNN)によってソースデータセットを用いて生成される、前記技術システムのデータセットにおける隠れ状態(xt)であり、前記ソースデータセットはそれぞれ、前記技術システムの観察される状態(st)、該観察される状態(st)において実行される動作(at)ならびに該動作(at)により生じる追従状態(st+1)を含む、請求項1から11までのいずれか1項記載の方法。
  13. 前記リカレントニューラルネットワーク(RNN)によって前記技術システムの動的特性をモデリングし、前記リカレントニューラルネットワーク(RNN)は、前記技術システムの前記観察される状態(st)および前記技術システムにおいて実行される動作(at)を含む少なくとも1つの入力層(I')と、前記隠れ状態(xt)を含む少なくとも1つの隠れリカレント層(H)と、前記技術システムの前記観察される状態(st)を含む少なくとも1つの出力層(O')とから形成されている、請求項12記載の方法。
  14. 前記リカレントニューラルネットワーク(RNN)は学習方法、例えばバックプロパゲーション方法でもって学習される、請求項13記載の方法。
  15. 前記技術システムはタービン、例えばガスタービンである、請求項1から14までのいずれか1項記載の方法。
  16. ガスタービンを制御および/または調整し、前記技術システムの前記状態(st,xt)および/またはそれぞれの状態(st,xt)において実行可能な動作(at)は1つまたは複数の量、すなわち、前記ガスタービンの総出力;前記ガスタービンまたは該ガスタービン周辺における1つまたは複数の圧力および/または温度;前記ガスタービン内の燃焼室加速度;例えばバルブ調節および/または燃料比および/または吸気翼調節を含む、請求項15記載の方法。
  17. コンピュータにおいて実行されるときに請求項1から16までのいずれか1項記載の方法を実施し、コンピュータ読出可能担体上に記憶されているプログラムコードを備えたコンピュータプログラム製品。
JP2010502494A 2007-04-12 2008-04-04 技術システムをコンピュータ支援により制御および/または調整するための方法 Active JP5183732B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102007017259A DE102007017259B4 (de) 2007-04-12 2007-04-12 Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102007017259.3 2007-04-12
PCT/EP2008/054099 WO2008125522A2 (de) 2007-04-12 2008-04-04 Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems

Publications (2)

Publication Number Publication Date
JP2010524104A true JP2010524104A (ja) 2010-07-15
JP5183732B2 JP5183732B2 (ja) 2013-04-17

Family

ID=39595812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010502494A Active JP5183732B2 (ja) 2007-04-12 2008-04-04 技術システムをコンピュータ支援により制御および/または調整するための方法

Country Status (7)

Country Link
US (1) US8260441B2 (ja)
EP (1) EP2135140B1 (ja)
JP (1) JP5183732B2 (ja)
CN (1) CN101689044B (ja)
AT (1) ATE529788T1 (ja)
DE (1) DE102007017259B4 (ja)
WO (1) WO2008125522A2 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007042440B3 (de) 2007-09-06 2009-01-29 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102008020380B4 (de) * 2008-04-23 2010-04-08 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
WO2010045272A1 (en) * 2008-10-14 2010-04-22 Honda Motor Co., Ltd. Smoothed sarsa: reinforcement learning for robot delivery tasks
US20100185426A1 (en) * 2009-01-16 2010-07-22 Rajesh Ganesan Predicting Aircraft Taxi-Out Times
US8529189B2 (en) * 2009-01-30 2013-09-10 Honeywell International Inc. Linear quadratic regulator control for bleed air system fan air valve
EP2558910B1 (en) 2010-04-12 2018-12-05 Siemens Aktiengesellschaft Method for computer-aided closed-loop and/or open-loop control of a technical system
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
EP2649567B1 (de) * 2010-12-10 2016-08-17 Siemens Aktiengesellschaft Verfahren zur rechnergestützten modellierung eines technischen systems
US8504493B2 (en) * 2011-02-15 2013-08-06 Sigma Space Corporation Self-organizing sequential memory pattern machine and reinforcement learning method
US9466032B2 (en) 2011-06-03 2016-10-11 Siemens Aktiengesellschaft Method for the computer-supported generation of a data-driven model of a technical system, in particular of a gas turbine or wind turbine
US9043263B2 (en) 2012-07-24 2015-05-26 General Electric Company Systems and methods for control reliability operations using TMR
US9665090B2 (en) 2012-07-24 2017-05-30 General Electric Company Systems and methods for rule-based control system reliability
US9218233B2 (en) 2012-07-24 2015-12-22 Paul Venditti Systems and methods for control reliability operations
DE102012216574A1 (de) 2012-09-17 2014-03-20 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
WO2014088634A1 (en) 2012-12-03 2014-06-12 Hrl Laboratories, Llc Neural model for reinforcement learning
US9201113B2 (en) 2012-12-17 2015-12-01 General Electric Company Systems and methods for performing redundancy tests on turbine controls
CA2907961C (en) * 2013-03-25 2020-09-22 Yuyama Mfg. Co., Ltd. Pharmaceutical packaging apparatus, method of determining remaining quantity of pharmaceutical packaging paper and pharmaceutical packaging paper roll
CN105074586A (zh) * 2013-03-26 2015-11-18 西门子公司 用于计算机辅助地控制和/或调节技术系统的方法
DE102013205356B4 (de) * 2013-03-26 2016-07-07 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
KR101920251B1 (ko) * 2013-09-25 2018-11-20 지멘스 악티엔게젤샤프트 기술 시스템의 컴퓨터-도움 제어 및/또는 조절을 위한 방법
FR3019592B1 (fr) * 2014-04-03 2016-04-22 Snecma Procede et dispositif de surveillance d'un parametre d'un moteur de fusee
US9507365B2 (en) 2014-06-24 2016-11-29 Woodward, Inc. Adaptive PID control system for industrial turbines
DE102014212747A1 (de) * 2014-07-01 2016-01-07 Siemens Aktiengesellschaft Interaktives Assistenzsystem und Verfahren zur rechnergestützten Steuerungsoptimierung für ein technisches System
US9912733B2 (en) 2014-07-31 2018-03-06 General Electric Company System and method for maintaining the health of a control system
EP3012694A1 (en) * 2014-10-22 2016-04-27 Siemens Aktiengesellschaft Method for determining an emission behaviour
US10839302B2 (en) 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
DE102017218811A1 (de) * 2017-10-20 2019-04-25 Robert Bosch Gmbh Verfahren und Vorrichtung zum Betreiben eines Aktorregelungssystems, Computerprogramm und maschinenlesbares Speichermedium
US11488035B2 (en) 2017-11-08 2022-11-01 Siemens Aktiengesellschaft Method and device for machine learning in a computing unit
DE102018216561A1 (de) * 2018-09-27 2020-04-02 Robert Bosch Gmbh Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Strategie eines Agenten
EP3748518A1 (en) * 2019-06-06 2020-12-09 Siemens Aktiengesellschaft Designing and building an automation system to perform rule-based transformations on complex technical systems
CN110501983B (zh) * 2019-07-31 2021-03-26 农业农村部南京农业机械化研究所 基于批次式包衣机的专家控制系统及控制方法
CN110643485A (zh) * 2019-09-24 2020-01-03 天津科技大学 一种具有智能预测补偿器的粮食发酵过程温度场自动控制系统与方法
CN112528626B (zh) * 2020-12-15 2023-11-21 中国联合网络通信集团有限公司 一种检测恶意语言的方法、装置、设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5402519A (en) * 1990-11-26 1995-03-28 Hitachi, Ltd. Neural network system adapted for non-linear processing
US5857321A (en) * 1996-06-11 1999-01-12 General Electric Company Controller with neural network for estimating gas turbine internal cycle parameters
DE69919673T2 (de) * 1998-04-01 2005-09-15 Mitsubishi Heavy Industries, Ltd. Zahnradfräsverfahren und- vorrichtung, und messerkopf für spiralkegelräder
US6678640B2 (en) * 1998-06-10 2004-01-13 Matsushita Electric Industrial Co., Ltd. Method and apparatus for parameter estimation, parameter estimation control and learning control
US6415272B1 (en) * 1998-10-22 2002-07-02 Yamaha Hatsudoki Kabushiki Kaisha System for intelligent control based on soft computing
US6170156B1 (en) * 1999-03-24 2001-01-09 General Motors Corporation Gear tooth smoothing and shaping process
US6882992B1 (en) * 1999-09-02 2005-04-19 Paul J. Werbos Neural networks for intelligent control
DE10021929A1 (de) * 2000-05-05 2001-11-15 Siemens Ag Verfahren und Fuzzy-Steuervorrichtung zum rechnergestützten Ermitteln einer Steuerungsstrategie für ein technisches System, Computerlesbares Speichermedium und Computerprogramm-Element
AT409466B (de) * 2000-11-30 2002-08-26 Miba Sintermetall Ag Verfahren und vorrichtung zum herstellen eines zahnrades
SG103906A1 (en) * 2002-03-13 2004-05-26 Toshiba Kk Method and apparatus for head positioning control in a disk drive
DE10345440A1 (de) * 2003-09-30 2005-05-12 Siemens Ag Verfahren, Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Analyse von Einflussgrößen auf einen Brennvorgang in einer Brennkammer unter Verwendung eines trainierbaren, statistischen Modells
WO2005081076A2 (de) * 2004-02-24 2005-09-01 Siemens Aktiengesellschaft Verfahren, zur prognose eines brennkammerzustandes unter verwendung eines rekurrenten, neuronalen netzes
US7552005B2 (en) * 2004-03-16 2009-06-23 Honeywell International Inc. Method for fault diagnosis of a turbine engine

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CSNG200000099028; 児島 徹郎, 他2名: 'Q-learningの行動制御における学習効率に関する考察' 電子情報通信学会技術研究報告 第93巻, 第537号, 19940325, p.229-236, 社団法人電子情報通信学会 *
CSNG200202446005; 銅谷 賢治, 他2名: '強化学習と最適制御' システム/制御/情報 第45巻, 第4号, 20010415, p.30-40, システム制御情報学会 *
JPN6012021804; 児島 徹郎, 他2名: 'Q-learningの行動制御における学習効率に関する考察' 電子情報通信学会技術研究報告 第93巻, 第537号, 19940325, p.229-236, 社団法人電子情報通信学会 *
JPN6012021805; Anton Maximilian Schafer, et al.: 'Solving partially observable reinforcement learning problems with recurrent neural networks' In Workshop Proc. of the European Conference on Machine Learning , 2005 *
JPN6012021808; 銅谷 賢治, 他2名: '強化学習と最適制御' システム/制御/情報 第45巻, 第4号, 20010415, p.30-40, システム制御情報学会 *

Also Published As

Publication number Publication date
EP2135140B1 (de) 2011-10-19
JP5183732B2 (ja) 2013-04-17
DE102007017259A1 (de) 2008-10-16
US8260441B2 (en) 2012-09-04
WO2008125522A2 (de) 2008-10-23
DE102007017259B4 (de) 2009-04-09
WO2008125522A3 (de) 2009-04-16
ATE529788T1 (de) 2011-11-15
EP2135140A2 (de) 2009-12-23
CN101689044A (zh) 2010-03-31
US20100257866A1 (en) 2010-10-14
CN101689044B (zh) 2012-03-21

Similar Documents

Publication Publication Date Title
JP5183732B2 (ja) 技術システムをコンピュータ支援により制御および/または調整するための方法
JP5243543B2 (ja) ニューラルネットワークを用いてコンピュータ支援によって閉ループ制御および/または開ループ制御を行う方法
He et al. Reinforcement learning neural-network-based controller for nonlinear discrete-time systems with input constraints
KR101899101B1 (ko) 인공 신경망 기반 예측 모델 생성 장치 및 방법
JP5345551B2 (ja) 計算機支援による技術システムの開ループ制御および/または閉ループ制御のための方法
JP5448841B2 (ja) 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法
US20070150424A1 (en) Neural network model with clustering ensemble approach
JPH03164804A (ja) プロセス制御システム及び発電プラントプロセス制御システム
Svetozarevic et al. Data-driven control of room temperature and bidirectional EV charging using deep reinforcement learning: Simulations and experiments
Abrazeh et al. Virtual hardware-in-the-loop FMU co-simulation based digital twins for heating, ventilation, and air-conditioning (HVAC) systems
Kosmatopoulos Control of unknown nonlinear systems with efficient transient performance using concurrent exploitation and exploration
Vladov et al. Modified Helicopters Turboshaft Engines Neural Network On-board Automatic Control System Using the Adaptive Control Method.
Hein et al. Generating interpretable fuzzy controllers using particle swarm optimization and genetic programming
US20230120256A1 (en) Training an artificial neural network, artificial neural network, use, computer program, storage medium and device
KR20200059796A (ko) 제어 파라미터 학습 기반 제어 시스템 및 방법
Emsia et al. Economic growth prediction using optimized support vector machines
CN116880191A (zh) 一种基于时序预测的过程工业生产系统的智能控制方法
Wang et al. A learning-based tune-free control framework for large scale autonomous driving system deployment
Abraham et al. Neuro-fuzzy approximation of multi-criteria decision-making QFD methodology
Liu et al. An LMI approach to design H∞ controllers for discrete-time nonlinear systems based on unified models
Dan et al. A comparative study: Adaptive fuzzy inference systems for energy prediction in urban buildings
JP7236061B2 (ja) 情報処理装置、情報処理方法およびプログラム
Outanoute et al. Modeling Key Parameters for Greenhouse using Neural Network Algorithms
Sanusi Optimal and adaptive control frameworks using reinforcement learning for time-varying dynamical systems
Zhang et al. Soft Decomposed Policy-Critic: Bridging the Gap for Effective Continuous Control with Discrete RL

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120502

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120730

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120806

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120830

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120906

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121001

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130115

R150 Certificate of patent or registration of utility model

Ref document number: 5183732

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250