JP2007233634A - 強化学習制御装置 - Google Patents

強化学習制御装置 Download PDF

Info

Publication number
JP2007233634A
JP2007233634A JP2006053671A JP2006053671A JP2007233634A JP 2007233634 A JP2007233634 A JP 2007233634A JP 2006053671 A JP2006053671 A JP 2006053671A JP 2006053671 A JP2006053671 A JP 2006053671A JP 2007233634 A JP2007233634 A JP 2007233634A
Authority
JP
Japan
Prior art keywords
value
model
evaluation value
signal
operation signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006053671A
Other languages
English (en)
Other versions
JP4974330B2 (ja
Inventor
Takao Sekiai
孝朗 関合
Satoru Shimizu
悟 清水
Eiichi Kaminaga
栄一 神永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006053671A priority Critical patent/JP4974330B2/ja
Priority to US11/624,416 priority patent/US8095479B2/en
Priority to CNB2007100042324A priority patent/CN100483275C/zh
Priority to CN2008101844505A priority patent/CN101477332B/zh
Publication of JP2007233634A publication Critical patent/JP2007233634A/ja
Application granted granted Critical
Publication of JP4974330B2 publication Critical patent/JP4974330B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

【課題】
学習初期段階でも制御対象を安全に運転可能な操作信号の生成方法を学習することのできる制御技術を提供する。
【解決手段】
制御対象100および制御対象の特性を模擬するモデル400に印加する操作信号を生成し、前記制御対象および前記モデルへ前記操作信号を印加した結果得られる計測信号に基づいて算出される評価値信号を受信し、現状態から将来状態までに得られる前記評価値信号の総和の期待値が最大または最小となるように前記操作信号の生成方法を学習する機能を備える制御装置において、
前記モデルからの計測信号205と目標値との偏差に基づいて求めた第1の評価値206と、前記モデルと制御対象の特性の相違に基づいて求めた第2の評価値207とを加算して、モデルからの計測信号に基づいて算出される前記評価値信号208を計算する。
【選択図】図1

Description

本発明は、強化学習制御技術に係り、特に、学習初期段階でも安全に制御対象を運転操作することのできる強化学習制御技術に関する。
近年、教師なし学習の分野で、強化学習と呼ばれる手法が盛んに研究されている。強化学習とは、制御対象などの環境との試行錯誤的な相互作用を通じて、環境から得られる計測信号が望ましいものとなるように、環境への操作信号の生成方法を学習する学習制御の枠組みとして知られている。
強化学習では、環境から得られる計測信号に基づいて計算されるスカラー量の評価値(強化学習では、報酬と呼ばれている)を手がかりに、現状態から将来までに得られる評価値の期待値が最大または最小となるような環境への操作信号の生成方法を学習する。このような学習機能を実装する方法として、例えば、非特許文献1に述べられているActor-Critic、Q学習、実時間Dynamic Programmingなどのアルゴリズムが知られている。
また、上述の手法を発展させた強化学習の枠組みとして、Dyna-アーキテクチャと呼ばれる枠組みが上記文献に紹介されている。これは、制御対象を模擬するモデルを対象にどのような操作信号を生成するのが良いかを予め学習し、この学習結果を用いて制御対象に印加する操作信号を決定する方法である。また、制御対象とモデルの誤差を小さくするように、制御対象への操作信号と計測信号を用いて、モデルを調整する機能を持っている。
また、強化学習を適用した技術として、特許文献1に述べられている技術が挙げられる。これは、モデルと学習機能を有するシステムの組である強化学習モジュールを複数備えておき、各強化学習モジュールにおけるモデルと制御対象との予測誤差が少ないものほど大きな値を取る責任信号を求め、この責任信号に比例して各強化学習モジュールから生成される制御対象への操作信号を重み付けし、制御対象に印加する操作信号を決定する技術である。
強化学習(Reinforcement Learning)、三上貞芳・皆川雅章共訳、森北出版株式会社、2000年12月20日出版 特開2000−35956号公報
上述のDyna-アーキテクチャ、あるいは特許文献1に述べられている技術を用いて、制御対象との試行錯誤による相互作用を通した学習を実施すると、学習を進めるに従って制御対象に対して良好な操作信号の生成方法を学習できる。しかし、学習の初期段階では、いずれの手法も試行錯誤的な操作信号を制御対象に与える必要があり、その間は、制御対象を安全に運転できない可能性がある。
また、制御対象とモデルの特性が大きく異なる場合、モデルに対して有効な操作信号が、制御対象に対しても有効となるとは限らない。そのため、制御対象を良好に制御できない可能性がある。
そこで、本発明では、学習初期段階でも制御対象を安全に運転可能な操作信号の生成方法を学習することのできる制御技術を提供する。また、制御対象とモデルの特性が異なる領域で操作信号を生成せずに、特性が近い領域においてのみ操作信号を生成することのできる制御技術を提供する。
本発明は上記課題を解決するため、次のような手段を採用した。
制御対象および制御対象の特性を模擬するモデルに印加する操作信号を生成し、前記制御対象および前記モデルへ前記操作信号を印加した結果得られる計測信号に基づいて算出される評価値信号を受信し、現状態から将来状態までに得られる前記評価値信号の総和の期待値が最大または最小となるように前記操作信号の生成方法を学習する機能を備える制御装置において、前記モデルからの計測信号と目標値との偏差に基づいて求めた第1の評価値と、前記モデルと制御対象の特性の相違に基づいて求めた第2の評価値とを加算して、モデルからの計測信号に基づいて算出される前記評価値信号を計算する。
本発明は、以上の構成を備えるため、モデル誤差が小さい領域での操作信号の生成方法を学習することができる。このため学習初期段階においても制御対象を安全に運転することができる。
以下、最良の実施形態を添付図面を参照しながら説明する。図1は、本実施形態に係る制御装置200を制御対象100に適用した例について説明する図である。
制御装置200は、学習部300を備える。学習部300は、制御対象100に印加する操作信号201を生成する。また、制御対象100からの計測信号202および計測信号202を入力とした実評価値計算部500の出力信号である実評価値信号203を受信する。なお、学習部300は、現状態から将来までの実評価値信号203の期待値の総和が最大(または最小)となるような操作信号201の生成方法を学習する機能を備えている。
実評価値計算部500は、例えば、計測信号202が所望の値に近い程、大きな値となる実評価値信号203を出力する機能を有している。例えば、計測信号202が所望の値と一致する場合には、実評価値信号203を”1”を出力し、一致しない場合には”0”を出力する。なお、計測信号202と所望の値との偏差に反比例するような実評価値信号203を出力してもよい。
学習部300が実装する機能として、強化学習を挙げることができる。強化学習では、学習の初期段階においては試行錯誤的に操作信号201を生成する。このため実評価値信号203は小さい値となる可能性が高い。その後、試行錯誤の経験を積み、学習を進めるに従って、実評価値信号203が大きくなるような操作信号201の生成方法を学習する。このような学習アルゴリズムとして、例えば、前記非特許文献1に述べられているActor-Critic、Q学習、実時間Dynamic Programmingなどのアルゴリズムを用いることができる。この文献に紹介されているDyna-アーキテクチャと呼ばれる枠組みでは、制御対象を模擬するモデル400を対象に操作信号の生成方法を学習し、この学習結果を用いて操作信号201を生成する。
学習部300は、モデル400に対する操作信号204を生成し、モデル400からの計測信号205と評価値信号208を受信する機能を備える。評価値信号208は、モデル400からの計測信号205に基づいて第1の評価値計算部600で計算される第1の評価値信号206と、第2の評価値計算部700で計算される第2の評価値信号207を加算して計算する。
第1の評価値計算部600は、例えば、モデルからの計測信号205が所望の値に近い程、大きな値の第1の評価値信号206を出力する機能を有しており、これは実評価値計算部500と同様である。
第2の評価値計算部700は、モデル誤差特性データベース800、評価値データベース900、プロセス値データベース1000を参照しながら第2の評価値信号207を計算する。第2の評価値計算部700は、制御対象100とモデル400の特性が近いほど大きな値となる第2の評価値信号207を出力する。
なお、図1に示す例では、学習部300、モデル400、実評価値計算部500、第1の評価値計算部600、第2の評価値計算部700、モデル誤差特性データベース800、評価値データベース900、プロセス値データベース1000を制御装置200の内部に配置しているが、これらの機能の一部を制御装置の外部に配置することもできる。
図2は、第2の評価値信号の生成方法を説明する図である。第2の評価値信号207(R)は、前記モデルの誤差、すなわち事前評価モデル誤差のバイアスE1、事前評価モデル誤差の分散σ1、評価値予測誤差E2、モデル誤差のバイアスE3で構成される4次元の誤差評価ベクトルX、および4次元の重みベクトルWを用い、式1ないし式3を用いて計算する。ここで、前記重みベクトルW(w1,w2,w3,w4)は、設計者が予め設定する。
Figure 2007233634
Figure 2007233634
Figure 2007233634
なお、前記事前評価モデル誤差のバイアスE1、事前評価モデル誤差の分散σ1は、モデル誤差特性データベース800を参照して求める。また、評価値予測誤差は、評価値データベース900、計測値誤差のバイアスはプロセス値データベース1000を参照して求める。
モデル誤差特性データベース800には、モデル構築時に判明している、同一操作入力に対する制御対象100出力とモデル400出力の誤差特性が保存されている。すなわちある範囲の操作入力に対して精度のよいモデルを構築し、前記操作範囲を逸脱する操作入力に対するモデル誤差に関する知見、例えば、事前のモデル検証で判明した操作入力に対するモデル誤差のバイアスや分散が保存されている。
また、経時変化により、制御対象100とモデル400の特性が相違してくる場合がある。このような経時変化に伴うモデル誤差に関する事前の知見も、モデル誤差特性データベース800に保存しておくことができる。
第2の評価値計算部700は、モデル誤差が大きいほど、小さくなるような第2の評価値信号207を出力する。すなわち、重み係数を負の値に設定することにより、このような出力を生成することができる。
評価値データベース900には、操作信号201に対する実評価値信号203、および操作信号204に対する第1の評価値信号206の関係が保存されている。制御対象100とモデル400の特性に誤差がある場合、同一の操作信号を与えても計測信号の値が異なる。このため前記評価値信号203と第1の評価値信号206とには誤差が生ずる。このため、第2の評価値計算部700では、評価値データベース900を参照して、モデル誤差に起因する評価値の予測誤差を計算する。
この予測誤差は、操作信号201と操作信号204が同一である場合において、実評価値信号203の予測値から、第1の評価値信号206を減算した値であり、実評価値信号203の予測値の方が第1の評価値信号206よりも大きい場合には正の値、逆の場合には負の値となる。重み係数は正の値に設定する。
第1の評価値計算部600で計算された第1の評価値信号206より、実評価値計算部500で計算された評価値信号203の方が大きいということは、モデル400に対して有効であると学習した操作信号を制御対象100に印加した場合、予想していたよりも優れた結果が得られたことを意味している。このような現象は、制御対象100とモデル400誤差の特性に違いがあることによるが、このような操作方法を学習することは有益である。
このように、評価値データベース900を参照して得た評価信号を第2の評価信号207の要素として加えることにより、以上のような操作方法を学習部300で学習させることができる。
プロセス値データベース1000には、操作信号201に対する計測信号202の関係、および操作信号204に対する計測信号205の関係が保存されている。重み係数を負の値に設定することにより、事前評価モデル誤差と同様に、モデル誤差が大きいほど第2の評価値信号207は小さな値となる。
図3は、第2の評価値計算部700の処理を説明する図である。第2の評価計算部700は、モデル誤差バイアス計算処理710、モデル誤差分散計算処理720、評価値予測誤差計算処理730、計測値誤差計算処理740、第2の評価値計算処理の各ステップを備える。なお、モデル誤差バイアス計算処理710、モデル誤差分散計算処理720、評価値予測誤差計算処理730、計測値誤差計算処理740の各処理の処理順序は、任意に変更することができる。
なお、本実施の形態では、第2の評価値計算部700において第2の評価値信号207を計算する際に、事前評価モデル誤差のバイアスおよび分散、評価値予測誤差、モデル誤差のバイアスの4項目を評価の対象としているが、これらすべてを対象とする必要は必ずしもない。また、上述した例の外に、モデル誤差特性データベース800、評価値データベース900、プロセス値データベース1000を参照して得られる様々統計量(例えば実評価値予測値の分散)などを評価の対象に追加することも可能である。また、図1には図示していないが、画像表示手段を制御装置200内、あるいは外部に設置し、操作員が画像表示手段を介して制御装置200の動作を確認できるようにしてもよい。
図7は、学習部300が、モデル400を対象に制御対象100の操作方法を学習する方法について説明する図である。図7では学習方法としてQ-Learningを使用した場合を例に説明する。
Q-Learningでは、状態sにおいて行動aを実行することの価値を表現する関数を使用する。この価値関数をQ(s,a)と表記する。状態sは、操作信号204と出力205によって定義される。
まず、ステップ310において、価値関数Q(s,a)を任意に初期化する。次に、ステップ320において、モデル400の操作信号204の初期値を決定し、そのときのモデル400の出力205を計算する。
ステップ330では、価値関数Q(s,a)を用いて状態sにおける行動aを決定する。ここでは、非特許文献1に記載されているε−Greedy方策などを用いて、行動を決定する。この行動によって、操作信号204が更新される。次に、ステップ340において、更新された操作信号204に対するモデル出力205を計算する。これにより、状態がsからs’に遷移する。
次に、ステップ350では、第1の評価値計算部600と、第2の評価値計算部700にて評価値を計算し、これらを加算して評価値信号208を算出する。
ステップ360では、式6を用いて価値関数Q(s,a)を更新する。
Figure 2007233634
ここで、rは評価値信号208の値、α及びγは設計パラメータであり、制御対象100の運転員が設定する値である。
終了判定370では、モデル出力205が予め定められた条件を満足した場合にはYESとなり、ステップ320に戻る。それ以外の場合はステップ330に戻る。
なお、図1には図示していないが、画像表示手段を制御装置200の内部あるいは制御装置200の外部に設置することにより、操作員は、この画像表示手段を介して制御装置200の動作を確認することができる。
図4は、前記画像表示手段に表示する画面を説明する図である。表示する画像250は、図2に示すように、モデル誤差特性データベース800、評価値データベース900、プロセス値データベース1000を参照して得られる様々なグラフとすることができる。
画像260は、モデル誤差特性データベース800、評価値データベース900、プロセス値データベース1000を参照して得られる誤差評価ベクトルの値、操作員が設定する重みベクトルの値、および第2の評価値とすることができる。操作員は、画像250、および画像260を確認しながら、重みベクトルの値を設定、調整することができる。
次に、本実施形態による効果について説明する。本実施形態では、第2の評価値計算部700で計算された第2の評価値信号207を第1の評価信号206に加算して学習部300に供給している。このとき、第2の評価値信号207は、モデル誤差が小さい程、大きな値となる。このため、学習部300は、モデル400を対象にモデル誤差が小さい領域で操作信号を生成するように学習する。
従来手法では、モデル誤差が大きい領域であっても、モデル400に対して有効となる操作信号204の生成方法を学習する。この場合、この生成方法で生成した操作信号を制御対象100に印加しても所望の性能が得られない可能性がある。また、本実施形態では、モデル誤差が小さい領域、あるいはモデルからの評価値信号206よりも実評価値信号203の予測値が大きくなる領域での操作信号の生成方法を学習するので、従来手法と比べて良好な性能が得られることが期待できる。また、従来手法と比べて制御対象100の安全性が向上する効果もある。
図5は、前記制御対象としての火力発電プラントを説明する図である。まず、火力発電プラントにおける発電の仕組みについて説明する。
ボイラ101に備え付けられているバーナー102に、燃料となる石炭と石炭搬送用の1次空気、および燃焼調整用の2次空気を供給し、石炭を燃焼させる。石炭と1次空気は配管134から、2次空気は配管141から導かれる。また、2段燃焼用のアフタエアは、アフタエアポート103を介してボイラ101に投入される。このアフタエアは、配管142から導かれる。
前記石炭の燃焼により発生した高温のガスは、ボイラ101の排気経路に沿って流れ、エアーヒーター104を通過し、排ガス処理した後、煙突を介して大気に放出される。
ボイラ101を循環する給水は、給水ポンプ105を介してボイラ101に導かれ、熱交換器106においてガスにより過熱され、高温高圧の蒸気となる。本実施形態では熱交換器を1つとしているが、複数の熱交換器を配置することも可能である。
熱交換器106を通過した高温高圧の蒸気は、タービンガバナ107を介して蒸気タービン108に導かれる。蒸気の持つエネルギーによって蒸気タービン108を駆動し、発電機109により発電する。
次に、バーナー102から投入される1次空気および2次空気、アフタエアポート103から投入されるアフタエアの経路について説明する。
1次空気は、ファン120を介して配管130に導かれ、途中でエアーヒーターを通過する配管132と通過しない配管131に分岐し、再び配管133にて合流し、ミル110に導かれる。エアーヒーターを通過する空気は、ガスにより加熱される。この1次空気を用いて、ミル110で生成される石炭(微粉炭)をバーナー102に搬送する。
2次空気およびアフタエアは、ファン121を介して配管140に導かれ、エアーヒーター104で加熱された後、2次空気用の配管141とアフタエア用の配管142とに分岐し、それぞれバーナー102とアフタエアポート103に導かれる。
図6は、1次空気、2次空気、およびアフタエアが通過する配管部、並びにエアーヒーター104の拡大図である。
図6に示すように、配管にはエアダンパ150、151、152、153が配置されている。エアダンパを操作することにより、配管における空気が通過する面積を変更することでき、これにより配管を通過する空気流量を調整することが可能となる。ここでは、エアダンパ150、151、152、153の制御により、ガスに含まれるNOxを目標値以下に抑制することを目的に制御装置200を導入する場合について説明する。
2段燃焼方式は、サーマルNOxおよびフューエルNOxの低減に効果がある方式として知られており、バーナーからは理論空気量より少ない空気量を投入し、アフタエアポートから不足分の空気を投入して完全燃焼させる。これにより、急激な燃焼を抑制し、火炎温度の上昇を抑えると共に、酸素濃度を低下させることによりNOx生成を抑制することができる。
すなわち、制御装置200は、NOx低減のため、バーナーから投入する空気量とアフタエアポートから投入する空気量の比率が最適となるように、エアダンパ150、151、152、153を操作する操作信号を生成する。
このような動作を実行させるため、図1における実評価値計算部500および第1の評価値計算部600は、式4あるいは式5を用いて実評価値信号203および第1の評価値信号206を計算する。ここで、Rは評価値信号、YNOxはNOxの計測信号、DNOxはNOxの目標値である。
Figure 2007233634
Figure 2007233634
なお、本実施形態では、NOx成分に着目して評価値信号を計算する構成としたが、その他のガス成分であるCOなどを加えて、複数の計測信号に基づいて評価値を計算することもできる。
モデル400は、ボイラ101の特性を模擬したものであり、バーナーおよびエアポートから投入する石炭、空気の諸条件を設定し計算を実行することで、NOx濃度を求めることができる。また、対象とするボイラ101以外のボイラの運転実績を用いて、事前にモデル400の精度を検証した知見が、モデル誤差特性データベース800に保存されている。
すなわち、ボイラは、石炭の燃焼により発生した灰が熱交換器やボイラの壁に付着することにより燃焼特性が変化し、これがNOxの生成量にも影響を与える。このため、この灰を除去するためにスートブロワが実施される。例えば、前記モデル400として、スートブロワ実施後1時間の特性を模擬するように構築すると、それ以外の経過時間では灰付着による影響により、モデルによるNOxの計算値とボイラから計測されるNOxの値が異なることが予想される。
しかし、このようなモデル誤差特性は、ボイラの運転実績から事前に分かっていることが多く、このような運転時間とモデル誤差特性に関する情報をモデル誤差特性データベース800に保存しておく。また、計測器のノイズ特性(例えば、ノイズによる計測値の分散)が事前に分かっている場合には、この特性も前評価モデル誤差特性データベース800に蓄積しておく。このように設定しておくことにより、制御対象100が火力発電プラントである場合においても、制御装置200によりのプラントの排ガスに含まれるNOxを目標値以下に抑制することができる。
以上説明したように、本実施形態によれば、モデル誤差が小さい領域での操作信号の生成方法を学習するので、従来手法と比べて良好な制御を実施することができる。また、従来手法と比べて制御対象の安全性が向上する。すなわち、前述のDyna-アーキテクチャあるいは特許文献1に述べられている従来手法によれば、モデル誤差が大きい領域において、モデルに対して有効となる操作信号の生成方法を学習する。このため、この学習結果を制御対象に印加しても有効とならない可能性がある。これに対して、本実施形態によれば、前記第1の評価値信号に第2の評価値信号を加算するので、制御対象とモデルの特性が異なる領域で操作信号を生成せずに、特性が近い領域においてのみ操作信号の生成方法を学習する。このため、運転開始直後における制御対象の安全性が向上する。
本発明の実施形態に係る制御装置を制御対象に適用した例について説明する図である。 第2の評価値信号の生成方法を説明する図である。 第2の評価値計算部の処理を説明する図である。 画像表示手段に表示する画面を説明する図である。 制御対象としての火力発電プラントを説明する図である。 1次空気等が通過する配管部、およびエアーヒーター104の拡大図である。 学習部300が、モデル400を対象に制御対象100の操作方法を学習する方法について説明する図である
符号の説明
100 制御対象
200 制御装置
300 学習部
400 モデル
500 実評価値計算部
600 第1の評価値計算部
700 第2の評価値計算部
800 モデル誤差特性データベース
900 評価値データベース
1000 プロセス値データベース

Claims (10)

  1. 制御対象および制御対象の特性を模擬するモデルに印加する操作信号を生成し、前記制御対象および前記モデルへ前記操作信号を印加した結果得られる計測信号に基づいて算出される評価値信号を受信し、現状態から将来状態までに得られる前記評価値信号の総和の期待値が最大または最小となるように前記操作信号の生成方法を学習する機能を備える制御装置において、
    前記モデルからの計測信号と目標値との偏差に基づいて求めた第1の評価値と、前記モデルと制御対象の特性の相違に基づいて求めた第2の評価値とを加算して、モデルからの計測信号に基づいて算出される前記評価値信号を計算することを特徴とする制御装置。
  2. 請求項1記載の制御装置において、
    前記第2の評価値は、操作信号とモデル化誤差の関係が保存されたモデル誤差特性データベースを参照して算出する値と、
    操作信号と該操作信号を制御対象に印加した結果得られる計測信号に基づいて算出された評価値信号との関係が保存されたプロセス値データベースを参照して算出する値と、
    事前のモデル化誤差特性が保存されたデータベースを参照して算出する値のうち、少なくとも1つを含むことを特徴とする制御装置。
  3. 制御対象および制御対象の特性を模擬するモデルに印加する操作信号を生成し、生成した操作信号を前記制御対象およびモデルへ印加した結果得られる計測信号に基づいて算出される評価値信号を受信し、
    現状態から将来状態までに得られる前記評価値信号の総和の期待値が最大または最小となるように前記操作信号の生成方法を学習する機能を備える制御方法において、
    モデルからの計測信号と目標値との偏差のもとに求めた第1の評価値と、モデルと制御対象の特性の相違に基づいて求めた第2の評価値とを加算して、モデルからの計測信号に基づいて算出される前記評価値信号を計算することを特徴とする制御方法。
  4. 請求項3記載の制御方法において、
    前記第2の評価値は、操作信号とモデル化誤差の関係が保存されたモデル誤差特性データベースを参照して算出する値と、
    操作信号と該操作信号を制御対象に印加した結果得られる計測信号に基づいて算出された評価値信号との関係が保存されたプロセス値データベースを参照して算出する値と
    事前のモデル化誤差特性が保存されたデータベースを参照して算出する値のうち、少なくとも1つを含むことを特徴とする制御方法。
  5. 請求項1記載の制御装置において、
    操作信号と出力によって決定される状態において特定の行動を実行することの価値を表現する価値関数を初期化する手段と、
    モデルの操作信号の初期値を決定し、そのときのモデルの出力を計算する手段と、
    前記価値関数を用いて前記行動を決定し、該行動に基づいて操作信号を更新する手段と、
    更新された操作信号に対するモデル出力を計算する手段と、
    第1の評価値計算部により計算した前記第1の評価値および第2の評価値計算部により計算した前記第2の評価値をもとに評価値信号を算出する手段と、
    算出された評価値信号を用いて前記価値関数を更新する手段を備えたことを特徴とする制御装置。
  6. 請求項3記載の制御方法において、
    操作信号と出力によって決定される状態において特定の行動を実行することの価値を表現する価値関数を初期化するステップと、
    モデルの操作信号の初期値を決定し、そのときのモデルの出力を計算するステップと、
    前記価値関数を用いて前記行動を決定し、該行動に基づいて操作信号を更新するステップと、
    更新された操作信号に対するモデル出力を計算するステップと、
    モデルからの計測信号と目標値との偏差にもとに求めた前記第1の評価値およびモデルと制御対象の特性の相違に基づいて求めた前記第2の評価値をもとに評価値信号を算出するステップと、
    算出された評価値信号を用いて前記価値関数を更新するステップを備え、
    前記各ステップを前記モデルの出力が予め定めた条件を満足するまで繰り返し実行することを特徴とする制御方法。
  7. 請求項2記載の制御装置において、
    第2の評価計算部は、モデル誤差バイアス計算処理、モデル誤差分散計算処理、評価値予測誤差計算処理、計測値誤差計算処理、および第2の評価値計算処理の各処理を実行することを特徴とする制御装置。
  8. 請求項4記載の制御方法において、
    第2の評価計算部は、モデル誤差バイアス計算処理、モデル誤差分散計算処理、評価値予測誤差計算処理、計測値誤差計算処理、および第2の評価値計算処理の各処理を実行することを特徴とする制御方法。
  9. 請求項7記載の制御装置において、
    画像表示手段を備え、該手段には、モデル誤差特性データベース、評価値データベース、プロセス値データベースを参照して得られる誤差評価ベクトルの値、操作員が設定する重みベクトルの値、および第2の評価値を表示することを特徴とする制御装置。
  10. 請求項8記載の制御装置において、
    画像表示手段を備え、該手段には、モデル誤差特性データベース、評価値データベース、プロセス値データベースを参照して得られる誤差評価ベクトルの値、操作員が調整して設定する重みベクトルの値、および第2の評価値を表示することを特徴とする制御方法。
JP2006053671A 2006-02-28 2006-02-28 制御装置 Expired - Fee Related JP4974330B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006053671A JP4974330B2 (ja) 2006-02-28 2006-02-28 制御装置
US11/624,416 US8095479B2 (en) 2006-02-28 2007-01-18 Plant control apparatus and method having functions of determining appropriate learning constraint conditions
CNB2007100042324A CN100483275C (zh) 2006-02-28 2007-01-18 控制装置及控制方法
CN2008101844505A CN101477332B (zh) 2006-02-28 2007-01-18 工厂的控制装置及工厂的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006053671A JP4974330B2 (ja) 2006-02-28 2006-02-28 制御装置

Publications (2)

Publication Number Publication Date
JP2007233634A true JP2007233634A (ja) 2007-09-13
JP4974330B2 JP4974330B2 (ja) 2012-07-11

Family

ID=38554175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006053671A Expired - Fee Related JP4974330B2 (ja) 2006-02-28 2006-02-28 制御装置

Country Status (2)

Country Link
JP (1) JP4974330B2 (ja)
CN (2) CN101477332B (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135653B2 (en) 2007-11-20 2012-03-13 Hitachi, Ltd. Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal
US8214062B2 (en) 2008-03-28 2012-07-03 Hitachi, Ltd. Plant control system and thermal power generation plant control system
CN103676822A (zh) * 2012-09-10 2014-03-26 株式会社日立制作所 火力发电厂的控制装置以及控制方法
US10353351B2 (en) 2015-09-30 2019-07-16 Fanuc Corporation Machine learning system and motor control system having function of automatically adjusting parameter
CN113015981A (zh) * 2018-11-16 2021-06-22 华为技术有限公司 利用第一原则和约束进行有效、连续和安全学习的系统和方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014212479A (ja) 2013-04-19 2014-11-13 ソニー株式会社 制御装置、制御方法及びコンピュータプログラム
JP6281884B1 (ja) * 2016-10-28 2018-02-21 株式会社レゾネスト 機械制御装置、機械制御プログラムおよび機械制御方法
CN108700852B (zh) * 2017-01-27 2021-07-16 三菱动力株式会社 模型参数值推定装置及推定方法、记录介质、模型参数值推定系统
JP6715800B2 (ja) * 2017-06-09 2020-07-01 出光興産株式会社 燃料削減率出力システム、燃料削減率出力方法、および燃料削減率出力プログラム
JP6836540B2 (ja) * 2018-04-12 2021-03-03 ファナック株式会社 情報処理装置及び情報処理方法
JP6952018B2 (ja) * 2018-10-03 2021-10-20 株式会社日立製作所 制御装置および制御方法
JP7374590B2 (ja) * 2019-02-12 2023-11-07 株式会社日立製作所 Kpi改善支援システム及びkpi改善支援方法
JP7216566B2 (ja) * 2019-02-19 2023-02-01 日立造船株式会社 情報処理装置、情報処理方法、および情報処理プログラム
CN113080499A (zh) * 2021-02-26 2021-07-09 红云红河烟草(集团)有限责任公司 一种基于策略的Q-Learning算法控制松散回潮热风温度的方法
JP2023002081A (ja) * 2021-06-22 2023-01-10 オムロン株式会社 予測システム、情報処理装置および情報処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266404A (ja) * 1993-03-12 1994-09-22 Toshiba Corp 非線形対象制御システム及び同システム構築用ニューラルネットワークの学習システム
JPH08276354A (ja) * 1995-04-06 1996-10-22 Nissan Motor Co Ltd カム研削装置
JPH1074188A (ja) * 1996-05-23 1998-03-17 Hitachi Ltd データ学習装置およびプラント制御装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2907672B2 (ja) * 1993-03-12 1999-06-21 株式会社日立製作所 プロセスの適応制御方法およびプロセスの制御システム
JP3350841B2 (ja) * 1995-07-24 2002-11-25 オムロン株式会社 プラント制御装置、操作量決定装置、プラント制御方法および操作量決定方法
JP3541166B2 (ja) * 2000-07-19 2004-07-07 川崎重工業株式会社 管の接合方法
JP2004038428A (ja) * 2002-07-02 2004-02-05 Yamatake Corp 制御対象モデル生成方法、制御パラメータ調整方法、制御対象モデル生成プログラムおよび制御パラメータ調整プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266404A (ja) * 1993-03-12 1994-09-22 Toshiba Corp 非線形対象制御システム及び同システム構築用ニューラルネットワークの学習システム
JPH08276354A (ja) * 1995-04-06 1996-10-22 Nissan Motor Co Ltd カム研削装置
JPH1074188A (ja) * 1996-05-23 1998-03-17 Hitachi Ltd データ学習装置およびプラント制御装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135653B2 (en) 2007-11-20 2012-03-13 Hitachi, Ltd. Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal
US8554706B2 (en) 2007-11-20 2013-10-08 Hitachi, Ltd. Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal
US8214062B2 (en) 2008-03-28 2012-07-03 Hitachi, Ltd. Plant control system and thermal power generation plant control system
CN103676822A (zh) * 2012-09-10 2014-03-26 株式会社日立制作所 火力发电厂的控制装置以及控制方法
CN103676822B (zh) * 2012-09-10 2016-11-23 株式会社日立制作所 火力发电厂的控制装置以及控制方法
US10353351B2 (en) 2015-09-30 2019-07-16 Fanuc Corporation Machine learning system and motor control system having function of automatically adjusting parameter
CN113015981A (zh) * 2018-11-16 2021-06-22 华为技术有限公司 利用第一原则和约束进行有效、连续和安全学习的系统和方法

Also Published As

Publication number Publication date
CN101477332A (zh) 2009-07-08
CN101030074A (zh) 2007-09-05
CN100483275C (zh) 2009-04-29
JP4974330B2 (ja) 2012-07-11
CN101477332B (zh) 2011-02-09

Similar Documents

Publication Publication Date Title
JP4974330B2 (ja) 制御装置
US8095479B2 (en) Plant control apparatus and method having functions of determining appropriate learning constraint conditions
JP4627553B2 (ja) プラントの制御装置および火力発電プラントの制御装置
US8185216B2 (en) Plant controlling device and method, thermal power plant, and its control method
US8554706B2 (en) Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal
JP4876057B2 (ja) プラントの制御装置、及び火力発電プラントの制御装置
US7219040B2 (en) Method and system for model based control of heavy duty gas turbine
US8355996B2 (en) Plant control apparatus that uses a model to simulate the plant and a pattern base containing state information
EP1921280A2 (en) Systems and methods for multi-level optimizing control systems for boilers
JP2008171152A (ja) プラント制御装置
JP2008146371A (ja) ボイラプラントの制御装置
JP4741968B2 (ja) プラントの制御装置
JP5503563B2 (ja) プラントの制御装置及び火力発電プラントの制御装置
US20120040299A1 (en) Dynamic matrix control of steam temperature with prevention of saturated steam entry into superheater
JP2012053505A (ja) プラントの制御装置及び火力発電プラントの制御装置
JP2007272646A (ja) プラントの制御装置
Aalrebei et al. Ammonia-hydrogen-air gas turbine cycle and control analyses
KR102216860B1 (ko) Egr 밸브 제어 장치 및 제어 방법
JP4627509B2 (ja) プラントの制御装置及びプラントの制御方法
JP4989421B2 (ja) プラントの制御装置および火力発電プラントの制御装置
JP2009222332A (ja) ボイラを備えたプラントの制御装置、及びボイラを備えたプラントの制御方法
Alrebei et al. Lightweight methane-air gas turbine controller and simulator
JP4333766B2 (ja) ボイラの制御装置、及び制御方法
JP2010127475A (ja) 燃焼炉の燃焼制御システムおよびその燃焼制御方法
JP2010146068A (ja) プラントの制御装置及び火力発電プラントの制御装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110818

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111228

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120409

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4974330

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees