JP2007233634A

JP2007233634A - 強化学習制御装置

Info

Publication number: JP2007233634A
Application number: JP2006053671A
Authority: JP
Inventors: Takao Sekiai; 孝朗関合; Satoru Shimizu; 悟清水; Eiichi Kaminaga; 栄一神永
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-02-28
Filing date: 2006-02-28
Publication date: 2007-09-13
Anticipated expiration: 2026-02-28
Also published as: CN101030074A; CN101477332A; CN101477332B; CN100483275C; JP4974330B2

Abstract

【課題】
学習初期段階でも制御対象を安全に運転可能な操作信号の生成方法を学習することのできる制御技術を提供する。
【解決手段】
制御対象１００および制御対象の特性を模擬するモデル４００に印加する操作信号を生成し、前記制御対象および前記モデルへ前記操作信号を印加した結果得られる計測信号に基づいて算出される評価値信号を受信し、現状態から将来状態までに得られる前記評価値信号の総和の期待値が最大または最小となるように前記操作信号の生成方法を学習する機能を備える制御装置において、
前記モデルからの計測信号２０５と目標値との偏差に基づいて求めた第１の評価値２０６と、前記モデルと制御対象の特性の相違に基づいて求めた第２の評価値２０７とを加算して、モデルからの計測信号に基づいて算出される前記評価値信号２０８を計算する。
【選択図】図１

Description

本発明は、強化学習制御技術に係り、特に、学習初期段階でも安全に制御対象を運転操作することのできる強化学習制御技術に関する。

近年、教師なし学習の分野で、強化学習と呼ばれる手法が盛んに研究されている。強化学習とは、制御対象などの環境との試行錯誤的な相互作用を通じて、環境から得られる計測信号が望ましいものとなるように、環境への操作信号の生成方法を学習する学習制御の枠組みとして知られている。

強化学習では、環境から得られる計測信号に基づいて計算されるスカラー量の評価値（強化学習では、報酬と呼ばれている）を手がかりに、現状態から将来までに得られる評価値の期待値が最大または最小となるような環境への操作信号の生成方法を学習する。このような学習機能を実装する方法として、例えば、非特許文献１に述べられているActor-Critic、Q学習、実時間Dynamic Programmingなどのアルゴリズムが知られている。

また、上述の手法を発展させた強化学習の枠組みとして、Dyna-アーキテクチャと呼ばれる枠組みが上記文献に紹介されている。これは、制御対象を模擬するモデルを対象にどのような操作信号を生成するのが良いかを予め学習し、この学習結果を用いて制御対象に印加する操作信号を決定する方法である。また、制御対象とモデルの誤差を小さくするように、制御対象への操作信号と計測信号を用いて、モデルを調整する機能を持っている。

また、強化学習を適用した技術として、特許文献１に述べられている技術が挙げられる。これは、モデルと学習機能を有するシステムの組である強化学習モジュールを複数備えておき、各強化学習モジュールにおけるモデルと制御対象との予測誤差が少ないものほど大きな値を取る責任信号を求め、この責任信号に比例して各強化学習モジュールから生成される制御対象への操作信号を重み付けし、制御対象に印加する操作信号を決定する技術である。
強化学習(Reinforcement Learning)、三上貞芳・皆川雅章共訳、森北出版株式会社、2000年12月20日出版特開２０００−３５９５６号公報

上述のDyna-アーキテクチャ、あるいは特許文献１に述べられている技術を用いて、制御対象との試行錯誤による相互作用を通した学習を実施すると、学習を進めるに従って制御対象に対して良好な操作信号の生成方法を学習できる。しかし、学習の初期段階では、いずれの手法も試行錯誤的な操作信号を制御対象に与える必要があり、その間は、制御対象を安全に運転できない可能性がある。

また、制御対象とモデルの特性が大きく異なる場合、モデルに対して有効な操作信号が、制御対象に対しても有効となるとは限らない。そのため、制御対象を良好に制御できない可能性がある。

そこで、本発明では、学習初期段階でも制御対象を安全に運転可能な操作信号の生成方法を学習することのできる制御技術を提供する。また、制御対象とモデルの特性が異なる領域で操作信号を生成せずに、特性が近い領域においてのみ操作信号を生成することのできる制御技術を提供する。

本発明は上記課題を解決するため、次のような手段を採用した。

制御対象および制御対象の特性を模擬するモデルに印加する操作信号を生成し、前記制御対象および前記モデルへ前記操作信号を印加した結果得られる計測信号に基づいて算出される評価値信号を受信し、現状態から将来状態までに得られる前記評価値信号の総和の期待値が最大または最小となるように前記操作信号の生成方法を学習する機能を備える制御装置において、前記モデルからの計測信号と目標値との偏差に基づいて求めた第１の評価値と、前記モデルと制御対象の特性の相違に基づいて求めた第２の評価値とを加算して、モデルからの計測信号に基づいて算出される前記評価値信号を計算する。

本発明は、以上の構成を備えるため、モデル誤差が小さい領域での操作信号の生成方法を学習することができる。このため学習初期段階においても制御対象を安全に運転することができる。

以下、最良の実施形態を添付図面を参照しながら説明する。図１は、本実施形態に係る制御装置２００を制御対象１００に適用した例について説明する図である。

制御装置２００は、学習部３００を備える。学習部３００は、制御対象１００に印加する操作信号２０１を生成する。また、制御対象１００からの計測信号２０２および計測信号２０２を入力とした実評価値計算部５００の出力信号である実評価値信号２０３を受信する。なお、学習部３００は、現状態から将来までの実評価値信号２０３の期待値の総和が最大（または最小）となるような操作信号２０１の生成方法を学習する機能を備えている。

実評価値計算部５００は、例えば、計測信号２０２が所望の値に近い程、大きな値となる実評価値信号２０３を出力する機能を有している。例えば、計測信号２０２が所望の値と一致する場合には、実評価値信号２０３を”１”を出力し、一致しない場合には”０”を出力する。なお、計測信号２０２と所望の値との偏差に反比例するような実評価値信号２０３を出力してもよい。

学習部３００が実装する機能として、強化学習を挙げることができる。強化学習では、学習の初期段階においては試行錯誤的に操作信号２０１を生成する。このため実評価値信号２０３は小さい値となる可能性が高い。その後、試行錯誤の経験を積み、学習を進めるに従って、実評価値信号２０３が大きくなるような操作信号２０１の生成方法を学習する。このような学習アルゴリズムとして、例えば、前記非特許文献１に述べられているActor-Critic、Q学習、実時間Dynamic Programmingなどのアルゴリズムを用いることができる。この文献に紹介されているDyna-アーキテクチャと呼ばれる枠組みでは、制御対象を模擬するモデル４００を対象に操作信号の生成方法を学習し、この学習結果を用いて操作信号２０１を生成する。

学習部３００は、モデル４００に対する操作信号２０４を生成し、モデル４００からの計測信号２０５と評価値信号２０８を受信する機能を備える。評価値信号２０８は、モデル４００からの計測信号２０５に基づいて第１の評価値計算部６００で計算される第１の評価値信号２０６と、第２の評価値計算部７００で計算される第２の評価値信号２０７を加算して計算する。

第１の評価値計算部６００は、例えば、モデルからの計測信号２０５が所望の値に近い程、大きな値の第１の評価値信号２０６を出力する機能を有しており、これは実評価値計算部５００と同様である。

第２の評価値計算部７００は、モデル誤差特性データベース８００、評価値データベース９００、プロセス値データベース１０００を参照しながら第２の評価値信号２０７を計算する。第２の評価値計算部７００は、制御対象１００とモデル４００の特性が近いほど大きな値となる第２の評価値信号２０７を出力する。

なお、図１に示す例では、学習部３００、モデル４００、実評価値計算部５００、第１の評価値計算部６００、第２の評価値計算部７００、モデル誤差特性データベース８００、評価値データベース９００、プロセス値データベース１０００を制御装置２００の内部に配置しているが、これらの機能の一部を制御装置の外部に配置することもできる。

図２は、第２の評価値信号の生成方法を説明する図である。第２の評価値信号２０７（Ｒ）は、前記モデルの誤差、すなわち事前評価モデル誤差のバイアスＥ１、事前評価モデル誤差の分散σ１、評価値予測誤差Ｅ２、モデル誤差のバイアスＥ３で構成される４次元の誤差評価ベクトルＸ、および４次元の重みベクトルＷを用い、式１ないし式３を用いて計算する。ここで、前記重みベクトルＷ（ｗ１，ｗ２，ｗ３，ｗ４）は、設計者が予め設定する。

なお、前記事前評価モデル誤差のバイアスＥ１、事前評価モデル誤差の分散σ１は、モデル誤差特性データベース８００を参照して求める。また、評価値予測誤差は、評価値データベース９００、計測値誤差のバイアスはプロセス値データベース１０００を参照して求める。

モデル誤差特性データベース８００には、モデル構築時に判明している、同一操作入力に対する制御対象１００出力とモデル４００出力の誤差特性が保存されている。すなわちある範囲の操作入力に対して精度のよいモデルを構築し、前記操作範囲を逸脱する操作入力に対するモデル誤差に関する知見、例えば、事前のモデル検証で判明した操作入力に対するモデル誤差のバイアスや分散が保存されている。

また、経時変化により、制御対象１００とモデル４００の特性が相違してくる場合がある。このような経時変化に伴うモデル誤差に関する事前の知見も、モデル誤差特性データベース８００に保存しておくことができる。

第２の評価値計算部７００は、モデル誤差が大きいほど、小さくなるような第２の評価値信号２０７を出力する。すなわち、重み係数を負の値に設定することにより、このような出力を生成することができる。

評価値データベース９００には、操作信号２０１に対する実評価値信号２０３、および操作信号２０４に対する第１の評価値信号２０６の関係が保存されている。制御対象１００とモデル４００の特性に誤差がある場合、同一の操作信号を与えても計測信号の値が異なる。このため前記評価値信号２０３と第１の評価値信号２０６とには誤差が生ずる。このため、第２の評価値計算部７００では、評価値データベース９００を参照して、モデル誤差に起因する評価値の予測誤差を計算する。

この予測誤差は、操作信号２０１と操作信号２０４が同一である場合において、実評価値信号２０３の予測値から、第１の評価値信号２０６を減算した値であり、実評価値信号２０３の予測値の方が第１の評価値信号２０６よりも大きい場合には正の値、逆の場合には負の値となる。重み係数は正の値に設定する。

第１の評価値計算部６００で計算された第１の評価値信号２０６より、実評価値計算部５００で計算された評価値信号２０３の方が大きいということは、モデル４００に対して有効であると学習した操作信号を制御対象１００に印加した場合、予想していたよりも優れた結果が得られたことを意味している。このような現象は、制御対象１００とモデル４００誤差の特性に違いがあることによるが、このような操作方法を学習することは有益である。

このように、評価値データベース９００を参照して得た評価信号を第２の評価信号２０７の要素として加えることにより、以上のような操作方法を学習部３００で学習させることができる。

プロセス値データベース１０００には、操作信号２０１に対する計測信号２０２の関係、および操作信号２０４に対する計測信号２０５の関係が保存されている。重み係数を負の値に設定することにより、事前評価モデル誤差と同様に、モデル誤差が大きいほど第２の評価値信号２０７は小さな値となる。

図３は、第２の評価値計算部７００の処理を説明する図である。第２の評価計算部７００は、モデル誤差バイアス計算処理７１０、モデル誤差分散計算処理７２０、評価値予測誤差計算処理７３０、計測値誤差計算処理７４０、第２の評価値計算処理の各ステップを備える。なお、モデル誤差バイアス計算処理７１０、モデル誤差分散計算処理７２０、評価値予測誤差計算処理７３０、計測値誤差計算処理７４０の各処理の処理順序は、任意に変更することができる。

なお、本実施の形態では、第２の評価値計算部７００において第２の評価値信号２０７を計算する際に、事前評価モデル誤差のバイアスおよび分散、評価値予測誤差、モデル誤差のバイアスの４項目を評価の対象としているが、これらすべてを対象とする必要は必ずしもない。また、上述した例の外に、モデル誤差特性データベース８００、評価値データベース９００、プロセス値データベース１０００を参照して得られる様々統計量(例えば実評価値予測値の分散)などを評価の対象に追加することも可能である。また、図１には図示していないが、画像表示手段を制御装置２００内、あるいは外部に設置し、操作員が画像表示手段を介して制御装置２００の動作を確認できるようにしてもよい。

図７は、学習部３００が、モデル４００を対象に制御対象１００の操作方法を学習する方法について説明する図である。図７では学習方法としてQ-Learningを使用した場合を例に説明する。

Q-Learningでは、状態ｓにおいて行動ａを実行することの価値を表現する関数を使用する。この価値関数をＱ（ｓ，ａ）と表記する。状態ｓは、操作信号２０４と出力２０５によって定義される。
まず、ステップ３１０において、価値関数Ｑ（ｓ，ａ）を任意に初期化する。次に、ステップ３２０において、モデル４００の操作信号２０４の初期値を決定し、そのときのモデル４００の出力２０５を計算する。

ステップ３３０では、価値関数Ｑ（ｓ，ａ）を用いて状態ｓにおける行動ａを決定する。ここでは、非特許文献１に記載されているε−Greedy方策などを用いて、行動を決定する。この行動によって、操作信号２０４が更新される。次に、ステップ３４０において、更新された操作信号２０４に対するモデル出力２０５を計算する。これにより、状態がｓからｓ’に遷移する。

次に、ステップ３５０では、第１の評価値計算部６００と、第２の評価値計算部７００にて評価値を計算し、これらを加算して評価値信号２０８を算出する。

ステップ３６０では、式６を用いて価値関数Ｑ（ｓ，ａ）を更新する。

ここで、ｒは評価値信号２０８の値、α及びγは設計パラメータであり、制御対象１００の運転員が設定する値である。

終了判定３７０では、モデル出力２０５が予め定められた条件を満足した場合にはYESとなり、ステップ３２０に戻る。それ以外の場合はステップ３３０に戻る。

なお、図１には図示していないが、画像表示手段を制御装置２００の内部あるいは制御装置２００の外部に設置することにより、操作員は、この画像表示手段を介して制御装置２００の動作を確認することができる。

図４は、前記画像表示手段に表示する画面を説明する図である。表示する画像２５０は、図２に示すように、モデル誤差特性データベース８００、評価値データベース９００、プロセス値データベース１０００を参照して得られる様々なグラフとすることができる。

画像２６０は、モデル誤差特性データベース８００、評価値データベース９００、プロセス値データベース１０００を参照して得られる誤差評価ベクトルの値、操作員が設定する重みベクトルの値、および第２の評価値とすることができる。操作員は、画像２５０、および画像２６０を確認しながら、重みベクトルの値を設定、調整することができる。

次に、本実施形態による効果について説明する。本実施形態では、第２の評価値計算部７００で計算された第２の評価値信号２０７を第１の評価信号２０６に加算して学習部３００に供給している。このとき、第２の評価値信号２０７は、モデル誤差が小さい程、大きな値となる。このため、学習部３００は、モデル４００を対象にモデル誤差が小さい領域で操作信号を生成するように学習する。

従来手法では、モデル誤差が大きい領域であっても、モデル４００に対して有効となる操作信号２０４の生成方法を学習する。この場合、この生成方法で生成した操作信号を制御対象１００に印加しても所望の性能が得られない可能性がある。また、本実施形態では、モデル誤差が小さい領域、あるいはモデルからの評価値信号２０６よりも実評価値信号２０３の予測値が大きくなる領域での操作信号の生成方法を学習するので、従来手法と比べて良好な性能が得られることが期待できる。また、従来手法と比べて制御対象１００の安全性が向上する効果もある。

図５は、前記制御対象としての火力発電プラントを説明する図である。まず、火力発電プラントにおける発電の仕組みについて説明する。

ボイラ１０１に備え付けられているバーナー１０２に、燃料となる石炭と石炭搬送用の１次空気、および燃焼調整用の２次空気を供給し、石炭を燃焼させる。石炭と１次空気は配管１３４から、２次空気は配管１４１から導かれる。また、２段燃焼用のアフタエアは、アフタエアポート１０３を介してボイラ１０１に投入される。このアフタエアは、配管１４２から導かれる。

前記石炭の燃焼により発生した高温のガスは、ボイラ１０１の排気経路に沿って流れ、エアーヒーター１０４を通過し、排ガス処理した後、煙突を介して大気に放出される。

ボイラ１０１を循環する給水は、給水ポンプ１０５を介してボイラ１０１に導かれ、熱交換器１０６においてガスにより過熱され、高温高圧の蒸気となる。本実施形態では熱交換器を１つとしているが、複数の熱交換器を配置することも可能である。

熱交換器１０６を通過した高温高圧の蒸気は、タービンガバナ１０７を介して蒸気タービン１０８に導かれる。蒸気の持つエネルギーによって蒸気タービン１０８を駆動し、発電機１０９により発電する。

次に、バーナー１０２から投入される１次空気および２次空気、アフタエアポート１０３から投入されるアフタエアの経路について説明する。

１次空気は、ファン１２０を介して配管１３０に導かれ、途中でエアーヒーターを通過する配管１３２と通過しない配管１３１に分岐し、再び配管１３３にて合流し、ミル１１０に導かれる。エアーヒーターを通過する空気は、ガスにより加熱される。この１次空気を用いて、ミル１１０で生成される石炭（微粉炭）をバーナー１０２に搬送する。

２次空気およびアフタエアは、ファン１２１を介して配管１４０に導かれ、エアーヒーター１０４で加熱された後、２次空気用の配管１４１とアフタエア用の配管１４２とに分岐し、それぞれバーナー１０２とアフタエアポート１０３に導かれる。

図６は、１次空気、２次空気、およびアフタエアが通過する配管部、並びにエアーヒーター１０４の拡大図である。

図６に示すように、配管にはエアダンパ１５０、１５１、１５２、１５３が配置されている。エアダンパを操作することにより、配管における空気が通過する面積を変更することでき、これにより配管を通過する空気流量を調整することが可能となる。ここでは、エアダンパ１５０、１５１、１５２、１５３の制御により、ガスに含まれるＮＯｘを目標値以下に抑制することを目的に制御装置２００を導入する場合について説明する。

２段燃焼方式は、サーマルＮＯｘおよびフューエルＮＯｘの低減に効果がある方式として知られており、バーナーからは理論空気量より少ない空気量を投入し、アフタエアポートから不足分の空気を投入して完全燃焼させる。これにより、急激な燃焼を抑制し、火炎温度の上昇を抑えると共に、酸素濃度を低下させることによりＮＯｘ生成を抑制することができる。

すなわち、制御装置２００は、ＮＯｘ低減のため、バーナーから投入する空気量とアフタエアポートから投入する空気量の比率が最適となるように、エアダンパ１５０、１５１、１５２、１５３を操作する操作信号を生成する。

このような動作を実行させるため、図１における実評価値計算部５００および第１の評価値計算部６００は、式４あるいは式５を用いて実評価値信号２０３および第１の評価値信号２０６を計算する。ここで、Ｒは評価値信号、Ｙ_ＮＯｘはＮＯｘの計測信号、Ｄ_ＮＯｘはＮＯｘの目標値である。

なお、本実施形態では、ＮＯｘ成分に着目して評価値信号を計算する構成としたが、その他のガス成分であるＣＯなどを加えて、複数の計測信号に基づいて評価値を計算することもできる。

モデル４００は、ボイラ１０１の特性を模擬したものであり、バーナーおよびエアポートから投入する石炭、空気の諸条件を設定し計算を実行することで、ＮＯｘ濃度を求めることができる。また、対象とするボイラ１０１以外のボイラの運転実績を用いて、事前にモデル４００の精度を検証した知見が、モデル誤差特性データベース８００に保存されている。

すなわち、ボイラは、石炭の燃焼により発生した灰が熱交換器やボイラの壁に付着することにより燃焼特性が変化し、これがＮＯｘの生成量にも影響を与える。このため、この灰を除去するためにスートブロワが実施される。例えば、前記モデル４００として、スートブロワ実施後１時間の特性を模擬するように構築すると、それ以外の経過時間では灰付着による影響により、モデルによるＮＯｘの計算値とボイラから計測されるＮＯｘの値が異なることが予想される。

しかし、このようなモデル誤差特性は、ボイラの運転実績から事前に分かっていることが多く、このような運転時間とモデル誤差特性に関する情報をモデル誤差特性データベース８００に保存しておく。また、計測器のノイズ特性（例えば、ノイズによる計測値の分散）が事前に分かっている場合には、この特性も前評価モデル誤差特性データベース８００に蓄積しておく。このように設定しておくことにより、制御対象１００が火力発電プラントである場合においても、制御装置２００によりのプラントの排ガスに含まれるＮＯｘを目標値以下に抑制することができる。

以上説明したように、本実施形態によれば、モデル誤差が小さい領域での操作信号の生成方法を学習するので、従来手法と比べて良好な制御を実施することができる。また、従来手法と比べて制御対象の安全性が向上する。すなわち、前述のDyna-アーキテクチャあるいは特許文献１に述べられている従来手法によれば、モデル誤差が大きい領域において、モデルに対して有効となる操作信号の生成方法を学習する。このため、この学習結果を制御対象に印加しても有効とならない可能性がある。これに対して、本実施形態によれば、前記第１の評価値信号に第２の評価値信号を加算するので、制御対象とモデルの特性が異なる領域で操作信号を生成せずに、特性が近い領域においてのみ操作信号の生成方法を学習する。このため、運転開始直後における制御対象の安全性が向上する。

本発明の実施形態に係る制御装置を制御対象に適用した例について説明する図である。第２の評価値信号の生成方法を説明する図である。第２の評価値計算部の処理を説明する図である。画像表示手段に表示する画面を説明する図である。制御対象としての火力発電プラントを説明する図である。１次空気等が通過する配管部、およびエアーヒーター１０４の拡大図である。学習部３００が、モデル４００を対象に制御対象１００の操作方法を学習する方法について説明する図である

符号の説明

１００制御対象
２００制御装置
３００学習部
４００モデル
５００実評価値計算部
６００第１の評価値計算部
７００第２の評価値計算部
８００モデル誤差特性データベース
９００評価値データベース
１０００プロセス値データベース

Claims

制御対象および制御対象の特性を模擬するモデルに印加する操作信号を生成し、前記制御対象および前記モデルへ前記操作信号を印加した結果得られる計測信号に基づいて算出される評価値信号を受信し、現状態から将来状態までに得られる前記評価値信号の総和の期待値が最大または最小となるように前記操作信号の生成方法を学習する機能を備える制御装置において、
前記モデルからの計測信号と目標値との偏差に基づいて求めた第１の評価値と、前記モデルと制御対象の特性の相違に基づいて求めた第２の評価値とを加算して、モデルからの計測信号に基づいて算出される前記評価値信号を計算することを特徴とする制御装置。
請求項１記載の制御装置において、
前記第２の評価値は、操作信号とモデル化誤差の関係が保存されたモデル誤差特性データベースを参照して算出する値と、
操作信号と該操作信号を制御対象に印加した結果得られる計測信号に基づいて算出された評価値信号との関係が保存されたプロセス値データベースを参照して算出する値と、
事前のモデル化誤差特性が保存されたデータベースを参照して算出する値のうち、少なくとも１つを含むことを特徴とする制御装置。
制御対象および制御対象の特性を模擬するモデルに印加する操作信号を生成し、生成した操作信号を前記制御対象およびモデルへ印加した結果得られる計測信号に基づいて算出される評価値信号を受信し、
現状態から将来状態までに得られる前記評価値信号の総和の期待値が最大または最小となるように前記操作信号の生成方法を学習する機能を備える制御方法において、
モデルからの計測信号と目標値との偏差のもとに求めた第１の評価値と、モデルと制御対象の特性の相違に基づいて求めた第２の評価値とを加算して、モデルからの計測信号に基づいて算出される前記評価値信号を計算することを特徴とする制御方法。
請求項３記載の制御方法において、
前記第２の評価値は、操作信号とモデル化誤差の関係が保存されたモデル誤差特性データベースを参照して算出する値と、
操作信号と該操作信号を制御対象に印加した結果得られる計測信号に基づいて算出された評価値信号との関係が保存されたプロセス値データベースを参照して算出する値と
事前のモデル化誤差特性が保存されたデータベースを参照して算出する値のうち、少なくとも１つを含むことを特徴とする制御方法。
請求項１記載の制御装置において、
操作信号と出力によって決定される状態において特定の行動を実行することの価値を表現する価値関数を初期化する手段と、
モデルの操作信号の初期値を決定し、そのときのモデルの出力を計算する手段と、
前記価値関数を用いて前記行動を決定し、該行動に基づいて操作信号を更新する手段と、
更新された操作信号に対するモデル出力を計算する手段と、
第１の評価値計算部により計算した前記第１の評価値および第２の評価値計算部により計算した前記第２の評価値をもとに評価値信号を算出する手段と、
算出された評価値信号を用いて前記価値関数を更新する手段を備えたことを特徴とする制御装置。
請求項３記載の制御方法において、
操作信号と出力によって決定される状態において特定の行動を実行することの価値を表現する価値関数を初期化するステップと、
モデルの操作信号の初期値を決定し、そのときのモデルの出力を計算するステップと、
前記価値関数を用いて前記行動を決定し、該行動に基づいて操作信号を更新するステップと、
更新された操作信号に対するモデル出力を計算するステップと、
モデルからの計測信号と目標値との偏差にもとに求めた前記第１の評価値およびモデルと制御対象の特性の相違に基づいて求めた前記第２の評価値をもとに評価値信号を算出するステップと、
算出された評価値信号を用いて前記価値関数を更新するステップを備え、
前記各ステップを前記モデルの出力が予め定めた条件を満足するまで繰り返し実行することを特徴とする制御方法。
請求項２記載の制御装置において、
第２の評価計算部は、モデル誤差バイアス計算処理、モデル誤差分散計算処理、評価値予測誤差計算処理、計測値誤差計算処理、および第２の評価値計算処理の各処理を実行することを特徴とする制御装置。
請求項４記載の制御方法において、
第２の評価計算部は、モデル誤差バイアス計算処理、モデル誤差分散計算処理、評価値予測誤差計算処理、計測値誤差計算処理、および第２の評価値計算処理の各処理を実行することを特徴とする制御方法。
請求項７記載の制御装置において、
画像表示手段を備え、該手段には、モデル誤差特性データベース、評価値データベース、プロセス値データベースを参照して得られる誤差評価ベクトルの値、操作員が設定する重みベクトルの値、および第２の評価値を表示することを特徴とする制御装置。
請求項８記載の制御装置において、
画像表示手段を備え、該手段には、モデル誤差特性データベース、評価値データベース、プロセス値データベースを参照して得られる誤差評価ベクトルの値、操作員が調整して設定する重みベクトルの値、および第２の評価値を表示することを特徴とする制御方法。