JP4811997B2 - 状態推定装置、状態推定システム及びコンピュータプログラム - Google Patents

状態推定装置、状態推定システム及びコンピュータプログラム Download PDF

Info

Publication number
JP4811997B2
JP4811997B2 JP2005320988A JP2005320988A JP4811997B2 JP 4811997 B2 JP4811997 B2 JP 4811997B2 JP 2005320988 A JP2005320988 A JP 2005320988A JP 2005320988 A JP2005320988 A JP 2005320988A JP 4811997 B2 JP4811997 B2 JP 4811997B2
Authority
JP
Japan
Prior art keywords
observation
state
result
estimated
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005320988A
Other languages
English (en)
Other versions
JP2007128318A (ja
Inventor
淳 森本
賢治 銅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
ATR Advanced Telecommunications Research Institute International
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
ATR Advanced Telecommunications Research Institute International
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, ATR Advanced Telecommunications Research Institute International, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2005320988A priority Critical patent/JP4811997B2/ja
Publication of JP2007128318A publication Critical patent/JP2007128318A/ja
Application granted granted Critical
Publication of JP4811997B2 publication Critical patent/JP4811997B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、観測対象の状態を観測した観測値に基づいて前記観測対象の状態を推定する状態推定装置、該状態推定装置を用いた状態推定システム、及び前記状態推定装置を実現するためのコンピュータプログラムに関し、特に線形又は非線形な動きを示し、その動きを観測することで観測対象の状態を推定する状態推定装置、状態推定システム及びコンピュータプログラムに関する。
ロボット等の制御対象を制御する場合、制御対象に組み込まれた各種センサがノイズにより、又はセンサそのものを組み込むことができないことにより、必要な状態変数を直接測定することができない状態が生じうる。また例えば市場予測を行う場合においても、価格変動の要因となる株価等の変数は直接観測することができない。
状態変数を直接観測することができない場合、状態観測器(オブザーバ)(非特許文献1参照)、カルマンフィルタ(非特許文献2、3参照)等の方法が一般に用いられている。
ディー.ジー.ルエンバーガー(D.G.Luenberger),Anintroduction to observers,IEEETrans.,AC,Vol.16,P.596-602,1971 アール.イー.カルマン、アール.エス.ビューシー(R.E.Kalman and R.S.Bucy),New results in linear filtering and prediction theory,Trans.,ASME,Series D,J.ofBasic Engineering,Vol.83,No.1,P.95-108,1961 エフ.エル.ルイス(F.L.Lewis),Optimal Estimation:with an Introduction to Stochastic Control Theory,John Wilkey & Sons,1977
しかしながら非特許文献1の状態観測器及び非特許文献2、3のカルマンフィルタでは、対象のダイナミクスが非線形である場合に、隠れ状態の推定が困難になるという問題がある。
本発明は斯かる事情に鑑みてなされたものであり、観測対象の状態を模する模擬モデル、模擬モデルによる観測対象の状態の推定結果等に基づき状態推定の方策を示すフィードバック値を算出する強化学習モジュール、強化学習モジュールが算出したフィードバック値及び観測対象の観測結果等に基づき報酬値を算出する報酬関数等のプログラムモジュール及び関数を用い、強化学習モジュールでは、フィードバック値が適正な値になる様に報酬値に基づく強化学習を行うことで、線形のダイナミクスだけでなく、非線形のダイナミクスへも容易に適用することが可能な状態推定装置、該状態推定装置を用いた状態推定システム、及び前記状態推定装置を実現するためのコンピュータプログラムの提供を目的とする。
第1発明に係る状態推定装置は、観測対象の状態を観測した観測結果に基づいて前記観測対象の状態を推定する状態推定装置において、前記観測対象の状態を推定する模擬モデルと、該模擬モデルによる状態の推定結果に基づいて、観測結果を推定した推定観測結果を算出する手段と、推定観測結果及び観測結果、並びに推定観測結果及び観測結果の差を用いて、強化学習モジュールにおける状態推定の方策に基づくフィードバック値を算出する強化学習モジュールと、推定観測結果及び観測結果の差並びにフィードバック値に基づいて、報酬値を算出する手段と、算出した報酬値を用いて強化学習モジュールの方策を更新する更新手段と、前記強化学習モジュールにて算出されたフィードバック値に基づいて、前記模擬モデルの観測対象の状態を推定する手段とを備え、前記更新手段は、報酬値に応じて更新される学習パラメータに基づく平均値及び標準偏差にて示される正規分布に従って分布するように方策を更新することを特徴とする。
本発明では、強化学習モジュールが、フィードバック値が適正な値になる様に報酬値に基づく強化学習を行うことで、線形のダイナミクスだけでなく、非線形のダイナミクスへも容易に適用することが可能である。
本発明では、状態推定の方策を示すフィードバック値を、学習パラメータに基づく分布関数に従って様々な方策をとるべく展開させることにより、模擬モデルの推定観測結果が観測対象の観測結果に近付く様に、分布関数の平均値及び標準偏差が更新されながら強化学習が繰り返されるので、観測対象の実際の状態を正確に推定することができる様に、フィードバック値が収束していき、非線形のダイナミクスへも容易に展開することが可能である。
第2発明に係る状態推定装置は、第1発明において、前記学習パラメータは、報酬値の移動平均を用いた関数に基づいて更新される様に構成してあることを特徴とする。
本発明では、強化学習を用いて学習パラメータを更新することにより、ある瞬間での推定誤差を小さくするのではなく、タスクを行っている期間を通じての推定誤差を小さくし、模擬モデルと強化学習モジュールにより推定される状態を適切に観測対象の状態に近付けることが可能である。
発明に係る状態推定システムは、観測対象と、該観測対象の状態を推定する第1発明又は第2発明に記載の状態推定装置と、前記観測対象を制御する制御装置とを備え、前記状態推定装置の模擬モデルは、前記観測対象の状態の推定結果を前記制御装置へ出力する手段を更に備え、前記制御装置は、受け付けた推定結果に基づいて、観測対象を制御する制御命令を生成する手段と、生成した制御命令を前記観測対象へ出力する手段とを備え、前記観測対象は、受け付けた制御命令に従って動作する手段を備えることを特徴とする。
本発明では、強化学習モジュールが、フィードバック値が適正な値になる様に報酬値に基づく強化学習を行うことで、線形のダイナミクスだけでなく、非線形のダイナミクスへも容易に適用することが可能であり、しかも強化学習モジュールの学習結果に基づき模擬モデルにて推定された推定結果に基づいて、観測対象を制御することにより、ロボットの制御等の様々な分野への展開が可能である。
第4発明に係るコンピュータプログラムは、観測対象の状態を観測した観測結果の入力を受け付けるコンピュータに、受け付けた観測結果に基づいて、前記制御対象の状態を推定させるコンピュータプログラムにおいて、コンピュータに、前記観測対象の状態を模する模擬モデルを用いて、前記観測対象の状態を推定させる手順と、コンピュータに、前記模擬モデルによる状態の推定結果に基づいて、観測結果を推定した推定観測結果を算出させる手順と、コンピュータに、推定観測結果及び観測結果、並びに推定観測結果及び観測結果の差を用いて、強化学習モジュールにおける状態推定の方策に基づくフィードバック値を算出させる手順と、コンピュータに、推定観測結果及び観測結果の差並びにフィードバック値に基づいて、報酬値を算出させる手順と、コンピュータに、算出した報酬値を用いて強化学習モジュールの方策を更新させる手順と、コンピュータに、前記強化学習モジュールにて算出されたフィードバック値に基づいて、前記模擬モデルの観測対象の状態を推定させる手順とを実行させ、前記更新させる手順は、報酬値に応じて更新される学習パラメータに基づく平均値及び標準偏差にて示される正規分布に従って分布するように方策を更新することを特徴とする。
本発明では、汎用コンピュータ等のコンピュータにて実行することにより、コンピュータが状態推定装置として動作し、強化学習モジュールが、フィードバック値が適正な値になる様に報酬値に基づく強化学習を行うことで、線形のダイナミクスだけでなく、非線形のダイナミクスへも容易に適用することが可能である。
本発明に係る状態推定装置、状態推定システム及びコンピュータプログラムは、様々な装置、自然現象、更には経済現象等の線形又は非線形な動きを示し、その状態の一部又は全部を観測することが可能な観測対象と、該観測対象の状態を観測した観測結果に基づいて前記観測対象の状態を推定する状態推定装置とを備え、特に制御可能な様々な装置等の観測対象を観測する場合に、該観測対象を制御する制御装置を更に備える。そして前記観測対象の状態を模する模擬モデルを用いて、前記観測対象の状態を推定し、前記模擬モデルによる状態の推定結果に基づいて、観測結果を推定した推定観測結果を算出し、推定観測結果及び観測結果、並びに推定観測結果及び観測結果の差を用いて推定結果を評価した報酬値に基づいて、状態推定の方策を示すフィードバック値を算出し、推定観測結果及び観測結果の差並びにフィードバック値に基づいて、報酬値を算出し、フィードバック値に基づいて、前記模擬モデルの観測対象の状態推定方法を更新する。
この構成により、本発明では、強化学習モジュールが、フィードバック値が適正な値になる様に報酬値に基づく強化学習を行うことで、線形のダイナミクスだけでなく、非線形のダイナミクスへも容易に適用することが可能である等、優れた効果を奏する。
さらに前記強化学習モジュールは、報酬値に応じて更新される学習パラメータに基づく平均値及び標準偏差にて示される正規分布に従って分布するフィードバック値を算出する様に構成してあり、報酬値の移動平均を用いた関数に基づいて学習パラメータを更新する様に構成してある。
この構成により、本発明では、強化学習に基づいて学習パラメータを更新するため、ある瞬間での推定誤差を小さくするのではなく、タスクを行っている期間を通じての推定誤差を小さくし、模擬モデルと強化学習モジュールにより推定される状態を適切に観測対象の状態に近付けることが可能である等、優れた効果を奏する。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。図1は、本発明の状態推定方法の構成例を概念的に示すブロック図である。図1中1は、観測対象(Plant)であり、本発明の状態推定方法は、観測対象1の状態を推定することを目的とする。観測対象1は、様々な装置、自然現象、更には経済現象等の線形又は非線形な動きを示し、その状態の一部又は全部を観測することが可能である。なお本実施の形態では、観測対象1は、制御装置(Controller)2により制御することが可能な装置として以降の説明を行う。また観測対象1の状態は、強化学習状態推定装置(RLSE:Reinforcement Learning State Estimator)3により推定される。
強化学習状態推定装置3は、例えば汎用コンピュータにて構成されており、観測対象1の状態を推定する模擬モデル(Plant Model)3aとして機能するモジュールと、模擬モデル3aに正確な状態を推定させるべく状態推定のための方策を出力する強化学習モジュール(Reinforcement Learning Module)3bとを有している。強化学習モジュール3bは本発明の状態推定方法において主要な処理を行うプログラムモジュールであり、後述する様々な関数、定数、その他設定値を用いて強化学習を行い、模擬モデル3aの動きを観測対象1に近付ける方策を展開する。
さらに強化学習状態推定装置3は、模擬モデル3aが推定した状態から観測結果を推定した推定観測結果を算出する出力関数3c、模擬モデル3aの推定結果を評価する報酬値を算出する報酬関数3d等の様々な関数を有している。
この様に構成される本発明の状態推定方法において、観測対象1は、制御装置2からの制御命令に基づく制御により動作し、また観測対象1の状態を観測した観測結果は、強化学習状態推定装置3へ入力される。
強化学習状態推定装置3の模擬モデル3aは、設定されている推定のためのモデルに従って観測対象1の状態を推定し、観測対象1の推定結果として制御装置2へ出力する。なお模擬モデル3aは、強化学習モジュール3bにおける状態推定の方策から出力されたフィードバック値の入力に基づいて、状態の推定を行う。そして制御装置2は、入力を受け付けた推定結果に基づいて観測対象1を制御する制御命令を生成し、生成した制御命令を観測対象1及び強化学習状態推定装置3へ出力する。
なお模擬モデル3aから出力される推定結果は、強化学習状態推定装置3内の出力関数3c及び強化学習モジュール3bでも用いられる。強化学習状態推定装置3では、模擬モデル3aにより推定した観測対象の状態を示す推定結果から、出力関数3cにより、観測対象1の観測結果を推定した推定観測結果を算出し、算出した推定観測結果を報酬関数3dへ渡す。
報酬関数3dは、観測対象1の観測結果、及び出力関数3cにて算出された推定観測結果、並びに強化学習モジュール3bにおける状態推定の方策から出力されたフィードバック値に基づいて推定を行い、その結果を評価した報酬値を算出し、算出した報酬値を強化学習モジュール3bへ渡す。
強化学習モジュール3bは、観測対象1の観測結果及び制御装置2から出力された制御命令、並びに模擬モデル3aによる推定結果及び報酬関数3dにて算出した報酬値に基づいて、状態推定の方策を更新し、更新した方策から出力されるフィードバック値を模擬モデル3a及び報酬関数3dへ渡す。
図2は、本発明の強化学習状態推定装置3の構成例を示すブロック図である。汎用コンピュータ等のコンピュータを用いた強化学習状態推定装置3は、装置全体を制御するCPU等の制御手段31と、本発明の強化学習状態推定装置用のコンピュータプログラム300及びデータ等の各種情報を記録したCD−ROM等の記録媒体301から各種情報を読み取るCD−ROMドライブ等の補助記憶手段32と、補助記憶手段32により読み取った各種情報を記録するハードディスク等の記録手段33と、制御手段31の制御により一時的に発生するデータを記憶するRAM等の記憶手段34とを備えている。そして記録手段33に記録したコンピュータプログラム300を記憶手段34に記憶して制御手段31の制御により実行することで、汎用コンピュータは、本発明の強化学習状態推定装置3として動作する。さらに強化学習状態推定装置3は、観測対象1の観測結果及び制御装置2の制御命令の入力を受け付ける入力手段35並びに制御装置2へ推定結果を出力する出力手段36を備えている。
さらに強化学習状態推定装置3が備える記録手段33には、模擬モデル3a、強化学習モジュール3b、出力関数3c、報酬関数3d等の様々なプログラムモジュール及び関数が記録されている。
次に本発明の強化学習状態推定装置3を用いた状態推定方法について説明する。本発明の状態推定方法は、観測対象1の推定すべき真の状態x及び観測対象1の観測結果(出力値)yを用いた下記の式1〜式3にて示される。
Figure 0004811997
なお上記式1において、ノイズ入力n(t)は、下記の式4となる性質を有している。
Figure 0004811997
また上記式2において、観測ノイズv(t)は、下記の式5となる性質を有している。
Figure 0004811997
上記式1において、観測対象1のダイナミクスf(x,u)は、観測対象1の観測結果yに基づいて、観測対象1の推定状態x^(以降の文章中において、観測対象1の推定状態(推定結果)を示す記号をx^と表記する。)と真の状態xとの差異を小さくすべく強化学習することにより取得する関数である。但し、予め既知のダイナミクスf(x,u)を設定しておく様にしても良い。なお本発明の状態推定方法では、模擬モデル3aにより推定した観測対象の状態xの推定結果x^から算出した推定観測結果y^(以降の文章中において、推定観測結果を示す記号をy^と表記する。)と、観測対象1の実際の観測結果yとの差異が小さい程、高い評価となる下記の式6の報酬関数を用いることにより、推定結果x^を実際の状態xに近付けるべく強化学習を行う。
Figure 0004811997
式6中の推定結果の正確さを評価する関数e()は、実際の観測結果yと、出力関数3cとの差異が小さい程、大きい値をとり、関数c(a)は、強化学習モジュール3bにおける方策の出力の大きさが大きい程、大きい値をとるように設定される。
強化学習モジュール3bでは、式6に示す報酬関数rに基づく学習処理を繰り返すことで、模擬モデル3aの状態推定の方策を更新し、更新した状態推定の方策からフィードバック値aを算出し、模擬モデル3aへ出力する。なお状態推定の方策を示すフィードバック値aは、不明な状態から下記の式7に示す確率分布に従って様々な方策をとるべく展開され、模擬モデル3aの推定観測結果y^が観測対象1の観測結果yに近付く様に、強化学習の繰り返しにて収束する。
Figure 0004811997
式7にて示される様にフィードバック値aは、平均値μ、分散σ2 の正規分布を示し、分散σ2 が小さい程、方策のバラツキが小さくなる。
式7中の平均値μは、下記の式8〜式10にて示され、学習すべきパラメータを更新していくことにより学習が行われる。
Figure 0004811997
式7中の分散σ2 の平方根である標準偏差σは、下記の式11にて示され、学習すべきパラメータを更新していくことにより学習が行われる。
Figure 0004811997
一方、強化学習においては、式7及び式8のパラメータを更新するために下記の式12にて示される価値関数Qが用いられる。
Figure 0004811997
次に学習すべきパラメータの更新方法について説明する。強化学習状態推定装置3の強化学習モジュール3bでは、報酬関数3dにて算出された報酬値R(t)に基づき、予め設定されている時定数τを用いた直近の移動平均値を下記の式15にて計算する。
Figure 0004811997
また平均報酬の近似誤差Δ(t)を下記の式16にて計算する。
Figure 0004811997
式16の右辺の第1項は、報酬rを式15にて示した報酬値R(t)の平均値の差であり、右辺の第2項に示した価値関数Q(t)の時間微分(Qの上方にドットを付与した記号にパラメータ(t)を付して表記)が大きく近似誤差Δ(t)が大きいほど、現在の状態推定の方策が正しいことになる。更に近似誤差Δ(t)を修正するための価値関数Qのパラメータの更新方法を下記の式17及び式18に示す。
Figure 0004811997
また式17及び式18に示した関数の出力の時間に関する加重平均値の更新は下記の式19及び式20を用いて行われる。
Figure 0004811997
そして式13及び式14にて示した関数の出力を用い下記の式21及び式22により学習すべきパラメータを更新する。
Figure 0004811997
図3は、本発明の強化学習状態推定装置3の処理を示すフローチャートである。上述した様に本発明の強化学習状態推定装置3は、コンピュータプログラム300を実行する制御手段31の制御により、強化学習モジュール3bにより、上述した様々な関数及び数式にて、状態推定の方策に基づくフィードバック値を算出し(ステップS1)、模擬モデル3aにて式1を用いて観測対象の状態を推定し(ステップS2)、模擬モデル3aによる状態の推定結果に基づいて、出力関数3cにより、観測結果を推定した推定観測結果を算出し(ステップS3)、式6を用いて推定観測結果及び観測結果の差並びに強化学習モジュール3bにて算出されるフィードバック値に基づいて報酬値を算出し(ステップS4)、算出した報酬値を用いて強化学習モジュール3bの方策を更新する(ステップS5)。そして強化学習状態推定装置3は、制御手段31の制御に基づいて、強化学習モジュール3bにより、算出したフィードバック値に基づいて模擬モデル3aによる観測対象の状態を推定する(ステップS6)。
次に本発明の状態推定方法を用いて行った実験結果について説明する。図4は、本発明の状態推定方法の実験に用いた観測対象である単振り子を示す模式図である。観測対象である単振り子の重りの質量はm、振り子長はlであり、外力Tを加えることにより支点oを中心とする揺動を開始する。なお図4に示した単振り子の力学モデルは、下記の式23にて示される。
Figure 0004811997
なお当実験において、μ=0.01、m=1.0kg、l=1.0m、そしてg=9.8m/s2である。
ここで観測対象である振り子の状態を示す状態ベクトルをx=(θ,ω)T とし、u=Tとすると、上述した式1及び式2は、下記の式24及び式25として示される。
Figure 0004811997
なお式24及び式25において、ノイズn(t)及びノイズv(t)は、上述した式4及び式5に対し、U=diag{0.01、0.01}、S=1.0を代入することにより表現することができる。
また上述した式3の観測対象の推定状態は、当実験において下記の式26にて示される。
Figure 0004811997
なお式26において、右辺の第3項は、状態推定のフィードバック値である。
そして上述した式6に示す報酬関数rは、当実験において下記の式27にて示される。
Figure 0004811997
なお当実験においてσr =0.5である。また式27中において、知識の正確さに依存した関数c(aj )は、フィードバック値aの最大値であるamax=(a1 max,a2 max)=(5.0,5.0)を用いた下記の式28にて示される。
Figure 0004811997
当実験に際し、学習率は、下記の式29及び式30にて示される値を用いた。
Figure 0004811997
さらに当実験に際し、時定数τ=0.2sec 及びeligibility trace の時定数κ=0.2sec との条件設定を行った。
また強化学習によるフィードバック値の更新周期は、0.02sec である。
図5乃至図7は、本発明の状態推定方法の実験結果を示すグラフである。なお図5乃至図6において(a)は、角度θのみが観測される場合、(b)は、角速度ωのみが観測される場合、そして(c)は、角度及び角速度ωの線形和θ+ωのみが観測される場合の結果を示している。図5は、上述した条件に基づく実験において、時間と観測値との関係を示しており、図5(a)は、角度θの観測値の経時変化を示しており、図5(b)は、角速度ωの観測値の経時変化を示しており、そして図5(c)は、観測値がθ+ωである場合の経時変化を示している。図5は、いずれも横軸に時間をとり、縦軸に観測値をとって、その関係を示している。図5に示す様に観測値はいずれも非線形に変動する。
図6は、横軸に時間をとり、縦軸に角度θをとって、実際の角度及び推定した角度の経時変化を示している。図6(a)は、図5(a)に示した角度の観測値に基づいて推定した角度と、実際の角度との関係を示している。この実験では、図6(a)に示す様に1秒程度で推定した角度が実際の角度に一致している。図6(b)は、図5(b)に示した角速度の観測値に基づいて推定した角度と、実際の角度との関係を示している。この実験では、図6(b)に示す様に3秒程度で推定した角度が実際の角度に一致している。図6(c)は、図5(c)に示した角度及び角速度の和の観測値に基づいて推定した角度と、実際の角度との関係を示している。この実験では、図6(c)に示す様に2秒程度で推定した角度が実際の角度に一致している。
図7は、横軸に時間をとり、縦軸に角速度ωをとって、実際の角速度及び推定した角速度の経時変化を示している。図7(a)は、図5(a)に示した角度の観測値に基づいて推定した角速度と、実際の角速度との関係を示している。この実験では、図7(a)に示す様に2秒程度で推定した角速度が実際の角速度に一致している。図7(b)は、図5(b)に示した角速度の観測値に基づいて推定した角速度と、実際の角速度との関係を示している。この実験では、図7(b)に示す様に2秒程度で推定した角速度が実際の角速度に一致している。図7(c)は、図5(c)に示した角度及び角速度の和の観測値に基づいて推定した角速度と、実際の角速度との関係を示している。この実験では、図7(c)に示す様に2秒程度で推定した角度が実際の角度に一致している。
この様に本発明では、非線形のダイナミクスの状態を容易に推定することが可能である。
前記実施の形態では、単振り子を観測対象とする実験を示したが、本発明はこれに限らず、様々な装置、自然現象、更には経済現象等の線形又は非線形な動きを示す観測対象の状態推定に適用することが可能である。
本発明の状態推定方法の構成例を概念的に示すブロック図である。 本発明の強化学習状態推定装置の構成例を示すブロック図である。 本発明の強化学習状態推定装置の処理を示すフローチャートである。 本発明の状態推定方法の実験に用いた観測対象である単振り子を示す模式図である。 本発明の状態推定方法の実験結果を示すグラフである。 本発明の状態推定方法の実験結果を示すグラフである。 本発明の状態推定方法の実験結果を示すグラフである。
符号の説明
1 観測対象
2 制御装置
3 強化学習状態推定装置
3a 模擬モデル
3b 強化学習モジュール
3c 出力関数
3d 報酬関数
300 コンピュータプログラム
301 記録媒体

Claims (4)

  1. 観測対象の状態を観測した観測結果に基づいて前記観測対象の状態を推定する状態推定装置において、
    前記観測対象の状態を推定する模擬モデルと、
    該模擬モデルによる状態の推定結果に基づいて、観測結果を推定した推定観測結果を算出する手段と、
    推定観測結果及び観測結果、並びに推定観測結果及び観測結果の差を用いて、強化学習モジュールにおける状態推定の方策に基づくフィードバック値を算出する強化学習モジュールと、
    推定観測結果及び観測結果の差並びにフィードバック値に基づいて、報酬値を算出する手段と、
    算出した報酬値を用いて強化学習モジュールの方策を更新する更新手段と、
    前記強化学習モジュールにて算出されたフィードバック値に基づいて、前記模擬モデルの観測対象の状態を推定する手段と
    を備え、
    前記更新手段は、報酬値に応じて更新される学習パラメータに基づく平均値及び標準偏差にて示される正規分布に従って分布するように方策を更新する
    ことを特徴とする状態推定装置。
  2. 前記学習パラメータは、報酬値の移動平均を用いた関数に基づいて更新される様に構成してあることを特徴とする請求項1に記載の状態推定装置。
  3. 観測対象と、
    該観測対象の状態を推定する請求項1又は請求項2に記載の状態推定装置と、
    前記観測対象を制御する制御装置と
    を備え、
    前記状態推定装置の模擬モデルは、前記観測対象の状態の推定結果を前記制御装置へ出力する手段を更に備え、
    前記制御装置は、
    受け付けた推定結果に基づいて、観測対象を制御する制御命令を生成する手段と、
    生成した制御命令を前記観測対象へ出力する手段と
    を備え、
    前記観測対象は、受け付けた制御命令に従って動作する手段を備える
    ことを特徴とする状態推定システム。
  4. 観測対象の状態を観測した観測結果の入力を受け付けるコンピュータに、受け付けた観測結果に基づいて、前記制御対象の状態を推定させるコンピュータプログラムにおいて、
    コンピュータに、前記観測対象の状態を模する模擬モデルを用いて、前記観測対象の状態を推定させる手順と、
    コンピュータに、前記模擬モデルによる状態の推定結果に基づいて、観測結果を推定した推定観測結果を算出させる手順と、
    コンピュータに、推定観測結果及び観測結果、並びに推定観測結果及び観測結果の差を用いて、強化学習モジュールにおける状態推定の方策に基づくフィードバック値を算出させる手順と、
    コンピュータに、推定観測結果及び観測結果の差並びにフィードバック値に基づいて、
    報酬値を算出させる手順と、
    コンピュータに、算出した報酬値を用いて強化学習モジュールの方策を更新させる手順と、
    コンピュータに、前記強化学習モジュールにて算出されたフィードバック値に基づいて、前記模擬モデルの観測対象の状態を推定させる手順と
    を実行させ、
    前記更新させる手順は、報酬値に応じて更新される学習パラメータに基づく平均値及び標準偏差にて示される正規分布に従って分布するように方策を更新する
    ことを特徴とするコンピュータプログラム。
JP2005320988A 2005-11-04 2005-11-04 状態推定装置、状態推定システム及びコンピュータプログラム Expired - Fee Related JP4811997B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005320988A JP4811997B2 (ja) 2005-11-04 2005-11-04 状態推定装置、状態推定システム及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005320988A JP4811997B2 (ja) 2005-11-04 2005-11-04 状態推定装置、状態推定システム及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2007128318A JP2007128318A (ja) 2007-05-24
JP4811997B2 true JP4811997B2 (ja) 2011-11-09

Family

ID=38150926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005320988A Expired - Fee Related JP4811997B2 (ja) 2005-11-04 2005-11-04 状態推定装置、状態推定システム及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4811997B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928556B2 (en) * 2018-12-29 2024-03-12 International Business Machines Corporation Removing unnecessary history from reinforcement learning state

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7067895B2 (ja) * 2017-10-25 2022-05-16 株式会社東芝 末端圧力制御支援装置、末端圧力制御支援方法及びコンピュータプログラム
CN110895876B (zh) * 2018-09-11 2021-07-20 深圳云天励飞技术有限公司 一种车辆监控方法、装置及存储介质
CN109447422A (zh) * 2018-10-08 2019-03-08 北京百分点信息科技有限公司 一种基于系统动力学模型的政策模拟系统及方法
JP7302226B2 (ja) * 2019-03-27 2023-07-04 株式会社ジェイテクト 研削盤の支援装置及び支援方法
CN110837231A (zh) * 2019-11-15 2020-02-25 清华大学 在环仿真方法、装置及控制平台
JP7331660B2 (ja) * 2019-11-26 2023-08-23 横河電機株式会社 装置、方法およびプログラム
JP7368725B2 (ja) 2020-01-10 2023-10-25 日本製鉄株式会社 溶鋼流動制御装置、溶鋼流動制御方法、およびプログラム
JP7484382B2 (ja) 2020-04-24 2024-05-16 横河電機株式会社 制御装置、制御方法および制御プログラム
WO2022249335A1 (ja) * 2021-05-26 2022-12-01 日本電気株式会社 情報処理装置、情報処理方法、情報処理システム、およびプログラム
CN113878588B (zh) * 2021-11-12 2023-03-31 哈尔滨工业大学(深圳) 面向卡扣式连接的基于触觉反馈的机器人柔顺装配方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928556B2 (en) * 2018-12-29 2024-03-12 International Business Machines Corporation Removing unnecessary history from reinforcement learning state

Also Published As

Publication number Publication date
JP2007128318A (ja) 2007-05-24

Similar Documents

Publication Publication Date Title
JP4811997B2 (ja) 状態推定装置、状態推定システム及びコンピュータプログラム
US10120396B2 (en) Control device for machine apparatus and gain determination method for friction compensation
EP3379349B1 (en) Control device, control program, and control system
JP4952025B2 (ja) 運転制御方法,運転制御装置及び運転制御システム
Pereira et al. Adaptive input shaping for single-link flexible manipulators using an algebraic identification
CN111433689B (zh) 用于目标系统的控制系统的生成
US10591876B2 (en) Method and system for adaptive compensation of dry friction
Li et al. Global finite-time adaptive control for uncalibrated robot manipulator based on visual servoing
KR100696751B1 (ko) 프로세스 제어장치의 조정방법, 그 조정 툴 및 이를사용한 프로세스 제어장치
JP4453526B2 (ja) サーボ制御装置
JP2006127079A (ja) 制御対象モデル生成装置および生成方法
JP2009175917A (ja) 制御パラメータ調整方法および制御パラメータ調整プログラム
US20190138886A1 (en) System state prediction
JP5740433B2 (ja) 遅延補償装置、方法、プログラム及び記録媒体
US20130018612A1 (en) Device and method for observing or controlling a non-linear system
JP2014117787A (ja) 制御装置
JP7115654B1 (ja) 制御装置、制御方法及びプログラム
JP2020140641A (ja) 情報処理装置及び情報処理方法
JPWO2019142728A1 (ja) 制御装置、制御方法およびプログラム
JP5561519B2 (ja) プラントシミュレータ
WO2020162200A1 (ja) 制御装置および制御プログラム
Zhao et al. Robust output tracking control for a class of uncertain nonlinear systems using extended state observer
CN113219842A (zh) 基于自适应动态规划的机械臂最优跟踪控制方法、系统、处理设备、存储介质
CN101943889A (zh) 使电气传动系统调节器自动启动和/或运行的方法及装置
JP2020003893A (ja) ロバスト調整装置及びモデル作成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080820

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110517

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110726

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110819

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140902

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees