JP4811997B2

JP4811997B2 - 状態推定装置、状態推定システム及びコンピュータプログラム

Info

Publication number: JP4811997B2
Application number: JP2005320988A
Authority: JP
Inventors: 淳森本; 賢治銅谷
Original assignee: Japan Science and Technology Agency; ATR Advanced Telecommunications Research Institute International; National Institute of Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency; ATR Advanced Telecommunications Research Institute International; National Institute of Japan Science and Technology Agency
Priority date: 2005-11-04
Filing date: 2005-11-04
Publication date: 2011-11-09
Anticipated expiration: 2025-11-04
Also published as: JP2007128318A

Description

本発明は、観測対象の状態を観測した観測値に基づいて前記観測対象の状態を推定する状態推定装置、該状態推定装置を用いた状態推定システム、及び前記状態推定装置を実現するためのコンピュータプログラムに関し、特に線形又は非線形な動きを示し、その動きを観測することで観測対象の状態を推定する状態推定装置、状態推定システム及びコンピュータプログラムに関する。

ロボット等の制御対象を制御する場合、制御対象に組み込まれた各種センサがノイズにより、又はセンサそのものを組み込むことができないことにより、必要な状態変数を直接測定することができない状態が生じうる。また例えば市場予測を行う場合においても、価格変動の要因となる株価等の変数は直接観測することができない。

状態変数を直接観測することができない場合、状態観測器（オブザーバ）（非特許文献１参照）、カルマンフィルタ（非特許文献２、３参照）等の方法が一般に用いられている。
ディー．ジー．ルエンバーガー（D.G.Luenberger），Anintroduction to observers，IEEETrans.,AC,Vol.16，P.596-602，1971 アール．イー．カルマン、アール．エス．ビューシー（R.E.Kalman and R.S.Bucy），New results in linear filtering and prediction theory，Trans.,ASME,Series D,J.ofBasic Engineering,Vol.83,No.1，P.95-108，1961 エフ．エル．ルイス（F.L.Lewis），Optimal Estimation:with an Introduction to Stochastic Control Theory，John Wilkey & Sons，1977

しかしながら非特許文献１の状態観測器及び非特許文献２、３のカルマンフィルタでは、対象のダイナミクスが非線形である場合に、隠れ状態の推定が困難になるという問題がある。

本発明は斯かる事情に鑑みてなされたものであり、観測対象の状態を模する模擬モデル、模擬モデルによる観測対象の状態の推定結果等に基づき状態推定の方策を示すフィードバック値を算出する強化学習モジュール、強化学習モジュールが算出したフィードバック値及び観測対象の観測結果等に基づき報酬値を算出する報酬関数等のプログラムモジュール及び関数を用い、強化学習モジュールでは、フィードバック値が適正な値になる様に報酬値に基づく強化学習を行うことで、線形のダイナミクスだけでなく、非線形のダイナミクスへも容易に適用することが可能な状態推定装置、該状態推定装置を用いた状態推定システム、及び前記状態推定装置を実現するためのコンピュータプログラムの提供を目的とする。

第１発明に係る状態推定装置は、観測対象の状態を観測した観測結果に基づいて前記観測対象の状態を推定する状態推定装置において、前記観測対象の状態を推定する模擬モデルと、該模擬モデルによる状態の推定結果に基づいて、観測結果を推定した推定観測結果を算出する手段と、推定観測結果及び観測結果、並びに推定観測結果及び観測結果の差を用いて、強化学習モジュールにおける状態推定の方策に基づくフィードバック値を算出する強化学習モジュールと、推定観測結果及び観測結果の差並びにフィードバック値に基づいて、報酬値を算出する手段と、算出した報酬値を用いて強化学習モジュールの方策を更新する更新手段と、前記強化学習モジュールにて算出されたフィードバック値に基づいて、前記模擬モデルの観測対象の状態を推定する手段とを備え、前記更新手段は、報酬値に応じて更新される学習パラメータに基づく平均値及び標準偏差にて示される正規分布に従って分布するように方策を更新することを特徴とする。

本発明では、強化学習モジュールが、フィードバック値が適正な値になる様に報酬値に基づく強化学習を行うことで、線形のダイナミクスだけでなく、非線形のダイナミクスへも容易に適用することが可能である。

本発明では、状態推定の方策を示すフィードバック値を、学習パラメータに基づく分布関数に従って様々な方策をとるべく展開させることにより、模擬モデルの推定観測結果が観測対象の観測結果に近付く様に、分布関数の平均値及び標準偏差が更新されながら強化学習が繰り返されるので、観測対象の実際の状態を正確に推定することができる様に、フィードバック値が収束していき、非線形のダイナミクスへも容易に展開することが可能である。

第２発明に係る状態推定装置は、第１発明において、前記学習パラメータは、報酬値の移動平均を用いた関数に基づいて更新される様に構成してあることを特徴とする。

本発明では、強化学習を用いて学習パラメータを更新することにより、ある瞬間での推定誤差を小さくするのではなく、タスクを行っている期間を通じての推定誤差を小さくし、模擬モデルと強化学習モジュールにより推定される状態を適切に観測対象の状態に近付けることが可能である。

第３発明に係る状態推定システムは、観測対象と、該観測対象の状態を推定する第１発明又は第２発明に記載の状態推定装置と、前記観測対象を制御する制御装置とを備え、前記状態推定装置の模擬モデルは、前記観測対象の状態の推定結果を前記制御装置へ出力する手段を更に備え、前記制御装置は、受け付けた推定結果に基づいて、観測対象を制御する制御命令を生成する手段と、生成した制御命令を前記観測対象へ出力する手段とを備え、前記観測対象は、受け付けた制御命令に従って動作する手段を備えることを特徴とする。

本発明では、強化学習モジュールが、フィードバック値が適正な値になる様に報酬値に基づく強化学習を行うことで、線形のダイナミクスだけでなく、非線形のダイナミクスへも容易に適用することが可能であり、しかも強化学習モジュールの学習結果に基づき模擬モデルにて推定された推定結果に基づいて、観測対象を制御することにより、ロボットの制御等の様々な分野への展開が可能である。

第４発明に係るコンピュータプログラムは、観測対象の状態を観測した観測結果の入力を受け付けるコンピュータに、受け付けた観測結果に基づいて、前記制御対象の状態を推定させるコンピュータプログラムにおいて、コンピュータに、前記観測対象の状態を模する模擬モデルを用いて、前記観測対象の状態を推定させる手順と、コンピュータに、前記模擬モデルによる状態の推定結果に基づいて、観測結果を推定した推定観測結果を算出させる手順と、コンピュータに、推定観測結果及び観測結果、並びに推定観測結果及び観測結果の差を用いて、強化学習モジュールにおける状態推定の方策に基づくフィードバック値を算出させる手順と、コンピュータに、推定観測結果及び観測結果の差並びにフィードバック値に基づいて、報酬値を算出させる手順と、コンピュータに、算出した報酬値を用いて強化学習モジュールの方策を更新させる手順と、コンピュータに、前記強化学習モジュールにて算出されたフィードバック値に基づいて、前記模擬モデルの観測対象の状態を推定させる手順とを実行させ、前記更新させる手順は、報酬値に応じて更新される学習パラメータに基づく平均値及び標準偏差にて示される正規分布に従って分布するように方策を更新することを特徴とする。

本発明では、汎用コンピュータ等のコンピュータにて実行することにより、コンピュータが状態推定装置として動作し、強化学習モジュールが、フィードバック値が適正な値になる様に報酬値に基づく強化学習を行うことで、線形のダイナミクスだけでなく、非線形のダイナミクスへも容易に適用することが可能である。

本発明に係る状態推定装置、状態推定システム及びコンピュータプログラムは、様々な装置、自然現象、更には経済現象等の線形又は非線形な動きを示し、その状態の一部又は全部を観測することが可能な観測対象と、該観測対象の状態を観測した観測結果に基づいて前記観測対象の状態を推定する状態推定装置とを備え、特に制御可能な様々な装置等の観測対象を観測する場合に、該観測対象を制御する制御装置を更に備える。そして前記観測対象の状態を模する模擬モデルを用いて、前記観測対象の状態を推定し、前記模擬モデルによる状態の推定結果に基づいて、観測結果を推定した推定観測結果を算出し、推定観測結果及び観測結果、並びに推定観測結果及び観測結果の差を用いて推定結果を評価した報酬値に基づいて、状態推定の方策を示すフィードバック値を算出し、推定観測結果及び観測結果の差並びにフィードバック値に基づいて、報酬値を算出し、フィードバック値に基づいて、前記模擬モデルの観測対象の状態推定方法を更新する。

この構成により、本発明では、強化学習モジュールが、フィードバック値が適正な値になる様に報酬値に基づく強化学習を行うことで、線形のダイナミクスだけでなく、非線形のダイナミクスへも容易に適用することが可能である等、優れた効果を奏する。

さらに前記強化学習モジュールは、報酬値に応じて更新される学習パラメータに基づく平均値及び標準偏差にて示される正規分布に従って分布するフィードバック値を算出する様に構成してあり、報酬値の移動平均を用いた関数に基づいて学習パラメータを更新する様に構成してある。

この構成により、本発明では、強化学習に基づいて学習パラメータを更新するため、ある瞬間での推定誤差を小さくするのではなく、タスクを行っている期間を通じての推定誤差を小さくし、模擬モデルと強化学習モジュールにより推定される状態を適切に観測対象の状態に近付けることが可能である等、優れた効果を奏する。

以下、本発明をその実施の形態を示す図面に基づいて詳述する。図１は、本発明の状態推定方法の構成例を概念的に示すブロック図である。図１中１は、観測対象（Ｐｌａｎｔ）であり、本発明の状態推定方法は、観測対象１の状態を推定することを目的とする。観測対象１は、様々な装置、自然現象、更には経済現象等の線形又は非線形な動きを示し、その状態の一部又は全部を観測することが可能である。なお本実施の形態では、観測対象１は、制御装置（Ｃｏｎｔｒｏｌｌｅｒ）２により制御することが可能な装置として以降の説明を行う。また観測対象１の状態は、強化学習状態推定装置（ＲＬＳＥ：ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＳｔａｔｅＥｓｔｉｍａｔｏｒ）３により推定される。

強化学習状態推定装置３は、例えば汎用コンピュータにて構成されており、観測対象１の状態を推定する模擬モデル（ＰｌａｎｔＭｏｄｅｌ）３ａとして機能するモジュールと、模擬モデル３ａに正確な状態を推定させるべく状態推定のための方策を出力する強化学習モジュール（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＭｏｄｕｌｅ）３ｂとを有している。強化学習モジュール３ｂは本発明の状態推定方法において主要な処理を行うプログラムモジュールであり、後述する様々な関数、定数、その他設定値を用いて強化学習を行い、模擬モデル３ａの動きを観測対象１に近付ける方策を展開する。

さらに強化学習状態推定装置３は、模擬モデル３ａが推定した状態から観測結果を推定した推定観測結果を算出する出力関数３ｃ、模擬モデル３ａの推定結果を評価する報酬値を算出する報酬関数３ｄ等の様々な関数を有している。

この様に構成される本発明の状態推定方法において、観測対象１は、制御装置２からの制御命令に基づく制御により動作し、また観測対象１の状態を観測した観測結果は、強化学習状態推定装置３へ入力される。

強化学習状態推定装置３の模擬モデル３ａは、設定されている推定のためのモデルに従って観測対象１の状態を推定し、観測対象１の推定結果として制御装置２へ出力する。なお模擬モデル３ａは、強化学習モジュール３ｂにおける状態推定の方策から出力されたフィードバック値の入力に基づいて、状態の推定を行う。そして制御装置２は、入力を受け付けた推定結果に基づいて観測対象１を制御する制御命令を生成し、生成した制御命令を観測対象１及び強化学習状態推定装置３へ出力する。

なお模擬モデル３ａから出力される推定結果は、強化学習状態推定装置３内の出力関数３ｃ及び強化学習モジュール３ｂでも用いられる。強化学習状態推定装置３では、模擬モデル３ａにより推定した観測対象の状態を示す推定結果から、出力関数３ｃにより、観測対象１の観測結果を推定した推定観測結果を算出し、算出した推定観測結果を報酬関数３ｄへ渡す。

報酬関数３ｄは、観測対象１の観測結果、及び出力関数３ｃにて算出された推定観測結果、並びに強化学習モジュール３ｂにおける状態推定の方策から出力されたフィードバック値に基づいて推定を行い、その結果を評価した報酬値を算出し、算出した報酬値を強化学習モジュール３ｂへ渡す。

強化学習モジュール３ｂは、観測対象１の観測結果及び制御装置２から出力された制御命令、並びに模擬モデル３ａによる推定結果及び報酬関数３ｄにて算出した報酬値に基づいて、状態推定の方策を更新し、更新した方策から出力されるフィードバック値を模擬モデル３ａ及び報酬関数３ｄへ渡す。

図２は、本発明の強化学習状態推定装置３の構成例を示すブロック図である。汎用コンピュータ等のコンピュータを用いた強化学習状態推定装置３は、装置全体を制御するＣＰＵ等の制御手段３１と、本発明の強化学習状態推定装置用のコンピュータプログラム３００及びデータ等の各種情報を記録したＣＤ−ＲＯＭ等の記録媒体３０１から各種情報を読み取るＣＤ−ＲＯＭドライブ等の補助記憶手段３２と、補助記憶手段３２により読み取った各種情報を記録するハードディスク等の記録手段３３と、制御手段３１の制御により一時的に発生するデータを記憶するＲＡＭ等の記憶手段３４とを備えている。そして記録手段３３に記録したコンピュータプログラム３００を記憶手段３４に記憶して制御手段３１の制御により実行することで、汎用コンピュータは、本発明の強化学習状態推定装置３として動作する。さらに強化学習状態推定装置３は、観測対象１の観測結果及び制御装置２の制御命令の入力を受け付ける入力手段３５並びに制御装置２へ推定結果を出力する出力手段３６を備えている。

さらに強化学習状態推定装置３が備える記録手段３３には、模擬モデル３ａ、強化学習モジュール３ｂ、出力関数３ｃ、報酬関数３ｄ等の様々なプログラムモジュール及び関数が記録されている。

次に本発明の強化学習状態推定装置３を用いた状態推定方法について説明する。本発明の状態推定方法は、観測対象１の推定すべき真の状態ｘ及び観測対象１の観測結果（出力値）ｙを用いた下記の式１〜式３にて示される。

なお上記式１において、ノイズ入力ｎ（ｔ）は、下記の式４となる性質を有している。

また上記式２において、観測ノイズｖ（ｔ）は、下記の式５となる性質を有している。

上記式１において、観測対象１のダイナミクスｆ（ｘ，ｕ）は、観測対象１の観測結果ｙに基づいて、観測対象１の推定状態x^（以降の文章中において、観測対象１の推定状態（推定結果）を示す記号をx^と表記する。）と真の状態ｘとの差異を小さくすべく強化学習することにより取得する関数である。但し、予め既知のダイナミクスｆ（ｘ，ｕ）を設定しておく様にしても良い。なお本発明の状態推定方法では、模擬モデル３ａにより推定した観測対象の状態ｘの推定結果x^から算出した推定観測結果y^（以降の文章中において、推定観測結果を示す記号をy^と表記する。）と、観測対象１の実際の観測結果ｙとの差異が小さい程、高い評価となる下記の式６の報酬関数を用いることにより、推定結果x^を実際の状態ｘに近付けるべく強化学習を行う。

式６中の推定結果の正確さを評価する関数ｅ（）は、実際の観測結果ｙと、出力関数３ｃとの差異が小さい程、大きい値をとり、関数ｃ（ａ）は、強化学習モジュール３ｂにおける方策の出力の大きさが大きい程、大きい値をとるように設定される。

強化学習モジュール３ｂでは、式６に示す報酬関数ｒに基づく学習処理を繰り返すことで、模擬モデル３ａの状態推定の方策を更新し、更新した状態推定の方策からフィードバック値ａを算出し、模擬モデル３ａへ出力する。なお状態推定の方策を示すフィードバック値ａは、不明な状態から下記の式７に示す確率分布に従って様々な方策をとるべく展開され、模擬モデル３ａの推定観測結果y^が観測対象１の観測結果ｙに近付く様に、強化学習の繰り返しにて収束する。

式７にて示される様にフィードバック値ａは、平均値μ、分散σ² の正規分布を示し、分散σ² が小さい程、方策のバラツキが小さくなる。

式７中の平均値μは、下記の式８〜式１０にて示され、学習すべきパラメータを更新していくことにより学習が行われる。

式７中の分散σ² の平方根である標準偏差σは、下記の式１１にて示され、学習すべきパラメータを更新していくことにより学習が行われる。

一方、強化学習においては、式７及び式８のパラメータを更新するために下記の式１２にて示される価値関数Ｑが用いられる。

次に学習すべきパラメータの更新方法について説明する。強化学習状態推定装置３の強化学習モジュール３ｂでは、報酬関数３ｄにて算出された報酬値Ｒ（ｔ）に基づき、予め設定されている時定数τを用いた直近の移動平均値を下記の式１５にて計算する。

また平均報酬の近似誤差Δ（ｔ）を下記の式１６にて計算する。

式１６の右辺の第１項は、報酬ｒを式１５にて示した報酬値Ｒ（ｔ）の平均値の差であり、右辺の第２項に示した価値関数Ｑ（ｔ）の時間微分（Ｑの上方にドットを付与した記号にパラメータ（ｔ）を付して表記）が大きく近似誤差Δ（ｔ）が大きいほど、現在の状態推定の方策が正しいことになる。更に近似誤差Δ（ｔ）を修正するための価値関数Ｑのパラメータの更新方法を下記の式１７及び式１８に示す。

また式１７及び式１８に示した関数の出力の時間に関する加重平均値の更新は下記の式１９及び式２０を用いて行われる。

そして式１３及び式１４にて示した関数の出力を用い下記の式２１及び式２２により学習すべきパラメータを更新する。

図３は、本発明の強化学習状態推定装置３の処理を示すフローチャートである。上述した様に本発明の強化学習状態推定装置３は、コンピュータプログラム３００を実行する制御手段３１の制御により、強化学習モジュール３ｂにより、上述した様々な関数及び数式にて、状態推定の方策に基づくフィードバック値を算出し（ステップＳ１）、模擬モデル３ａにて式１を用いて観測対象の状態を推定し（ステップＳ２）、模擬モデル３ａによる状態の推定結果に基づいて、出力関数３ｃにより、観測結果を推定した推定観測結果を算出し（ステップＳ３）、式６を用いて推定観測結果及び観測結果の差並びに強化学習モジュール３ｂにて算出されるフィードバック値に基づいて報酬値を算出し（ステップＳ４）、算出した報酬値を用いて強化学習モジュール３ｂの方策を更新する（ステップＳ５）。そして強化学習状態推定装置３は、制御手段３１の制御に基づいて、強化学習モジュール３ｂにより、算出したフィードバック値に基づいて模擬モデル３ａによる観測対象の状態を推定する（ステップＳ６）。

次に本発明の状態推定方法を用いて行った実験結果について説明する。図４は、本発明の状態推定方法の実験に用いた観測対象である単振り子を示す模式図である。観測対象である単振り子の重りの質量はｍ、振り子長はｌであり、外力Ｔを加えることにより支点ｏを中心とする揺動を開始する。なお図４に示した単振り子の力学モデルは、下記の式２３にて示される。

なお当実験において、μ＝０．０１、ｍ＝１．０kg、ｌ＝１．０ｍ、そしてｇ＝９．８m/s²である。

ここで観測対象である振り子の状態を示す状態ベクトルをｘ＝（θ，ω）T とし、ｕ＝Ｔとすると、上述した式１及び式２は、下記の式２４及び式２５として示される。

なお式２４及び式２５において、ノイズｎ（ｔ）及びノイズｖ（ｔ）は、上述した式４及び式５に対し、Ｕ＝ｄｉａｇ｛０．０１、０．０１｝、Ｓ＝１．０を代入することにより表現することができる。

また上述した式３の観測対象の推定状態は、当実験において下記の式２６にて示される。

なお式２６において、右辺の第３項は、状態推定のフィードバック値である。

そして上述した式６に示す報酬関数ｒは、当実験において下記の式２７にて示される。

なお当実験においてσr ＝０．５である。また式２７中において、知識の正確さに依存した関数ｃ（ａj ）は、フィードバック値ａの最大値であるａ^max＝（ａ₁ ^max，ａ₂ ^max）＝（５．０，５．０）を用いた下記の式２８にて示される。

当実験に際し、学習率は、下記の式２９及び式３０にて示される値を用いた。

さらに当実験に際し、時定数τ＝０．２sec 及びeligibility trace の時定数κ＝０．２sec との条件設定を行った。

また強化学習によるフィードバック値の更新周期は、０．０２sec である。

図５乃至図７は、本発明の状態推定方法の実験結果を示すグラフである。なお図５乃至図６において（ａ）は、角度θのみが観測される場合、（ｂ）は、角速度ωのみが観測される場合、そして（ｃ）は、角度及び角速度ωの線形和θ＋ωのみが観測される場合の結果を示している。図５は、上述した条件に基づく実験において、時間と観測値との関係を示しており、図５（ａ）は、角度θの観測値の経時変化を示しており、図５（ｂ）は、角速度ωの観測値の経時変化を示しており、そして図５（ｃ）は、観測値がθ＋ωである場合の経時変化を示している。図５は、いずれも横軸に時間をとり、縦軸に観測値をとって、その関係を示している。図５に示す様に観測値はいずれも非線形に変動する。

図６は、横軸に時間をとり、縦軸に角度θをとって、実際の角度及び推定した角度の経時変化を示している。図６（ａ）は、図５（ａ）に示した角度の観測値に基づいて推定した角度と、実際の角度との関係を示している。この実験では、図６（ａ）に示す様に１秒程度で推定した角度が実際の角度に一致している。図６（ｂ）は、図５（ｂ）に示した角速度の観測値に基づいて推定した角度と、実際の角度との関係を示している。この実験では、図６（ｂ）に示す様に３秒程度で推定した角度が実際の角度に一致している。図６（ｃ）は、図５（ｃ）に示した角度及び角速度の和の観測値に基づいて推定した角度と、実際の角度との関係を示している。この実験では、図６（ｃ）に示す様に２秒程度で推定した角度が実際の角度に一致している。

図７は、横軸に時間をとり、縦軸に角速度ωをとって、実際の角速度及び推定した角速度の経時変化を示している。図７（ａ）は、図５（ａ）に示した角度の観測値に基づいて推定した角速度と、実際の角速度との関係を示している。この実験では、図７（ａ）に示す様に２秒程度で推定した角速度が実際の角速度に一致している。図７（ｂ）は、図５（ｂ）に示した角速度の観測値に基づいて推定した角速度と、実際の角速度との関係を示している。この実験では、図７（ｂ）に示す様に２秒程度で推定した角速度が実際の角速度に一致している。図７（ｃ）は、図５（ｃ）に示した角度及び角速度の和の観測値に基づいて推定した角速度と、実際の角速度との関係を示している。この実験では、図７（ｃ）に示す様に２秒程度で推定した角度が実際の角度に一致している。

この様に本発明では、非線形のダイナミクスの状態を容易に推定することが可能である。

前記実施の形態では、単振り子を観測対象とする実験を示したが、本発明はこれに限らず、様々な装置、自然現象、更には経済現象等の線形又は非線形な動きを示す観測対象の状態推定に適用することが可能である。

本発明の状態推定方法の構成例を概念的に示すブロック図である。本発明の強化学習状態推定装置の構成例を示すブロック図である。本発明の強化学習状態推定装置の処理を示すフローチャートである。本発明の状態推定方法の実験に用いた観測対象である単振り子を示す模式図である。本発明の状態推定方法の実験結果を示すグラフである。本発明の状態推定方法の実験結果を示すグラフである。本発明の状態推定方法の実験結果を示すグラフである。

符号の説明

１観測対象
２制御装置
３強化学習状態推定装置
３ａ模擬モデル
３ｂ強化学習モジュール
３ｃ出力関数
３ｄ報酬関数
３００コンピュータプログラム
３０１記録媒体

Claims

観測対象の状態を観測した観測結果に基づいて前記観測対象の状態を推定する状態推定装置において、
前記観測対象の状態を推定する模擬モデルと、
該模擬モデルによる状態の推定結果に基づいて、観測結果を推定した推定観測結果を算出する手段と、
推定観測結果及び観測結果、並びに推定観測結果及び観測結果の差を用いて、強化学習モジュールにおける状態推定の方策に基づくフィードバック値を算出する強化学習モジュールと、
推定観測結果及び観測結果の差並びにフィードバック値に基づいて、報酬値を算出する手段と、
算出した報酬値を用いて強化学習モジュールの方策を更新する更新手段と、
前記強化学習モジュールにて算出されたフィードバック値に基づいて、前記模擬モデルの観測対象の状態を推定する手段と
を備え、
前記更新手段は、報酬値に応じて更新される学習パラメータに基づく平均値及び標準偏差にて示される正規分布に従って分布するように方策を更新する
ことを特徴とする状態推定装置。
前記学習パラメータは、報酬値の移動平均を用いた関数に基づいて更新される様に構成してあることを特徴とする請求項１に記載の状態推定装置。
観測対象と、
該観測対象の状態を推定する請求項１又は請求項２に記載の状態推定装置と、
前記観測対象を制御する制御装置と
を備え、
前記状態推定装置の模擬モデルは、前記観測対象の状態の推定結果を前記制御装置へ出力する手段を更に備え、
前記制御装置は、
受け付けた推定結果に基づいて、観測対象を制御する制御命令を生成する手段と、
生成した制御命令を前記観測対象へ出力する手段と
を備え、
前記観測対象は、受け付けた制御命令に従って動作する手段を備える
ことを特徴とする状態推定システム。
観測対象の状態を観測した観測結果の入力を受け付けるコンピュータに、受け付けた観測結果に基づいて、前記制御対象の状態を推定させるコンピュータプログラムにおいて、
コンピュータに、前記観測対象の状態を模する模擬モデルを用いて、前記観測対象の状態を推定させる手順と、
コンピュータに、前記模擬モデルによる状態の推定結果に基づいて、観測結果を推定した推定観測結果を算出させる手順と、
コンピュータに、推定観測結果及び観測結果、並びに推定観測結果及び観測結果の差を用いて、強化学習モジュールにおける状態推定の方策に基づくフィードバック値を算出させる手順と、
コンピュータに、推定観測結果及び観測結果の差並びにフィードバック値に基づいて、
報酬値を算出させる手順と、
コンピュータに、算出した報酬値を用いて強化学習モジュールの方策を更新させる手順と、
コンピュータに、前記強化学習モジュールにて算出されたフィードバック値に基づいて、前記模擬モデルの観測対象の状態を推定させる手順と
を実行させ、
前記更新させる手順は、報酬値に応じて更新される学習パラメータに基づく平均値及び標準偏差にて示される正規分布に従って分布するように方策を更新する
ことを特徴とするコンピュータプログラム。