JP2012208902A

JP2012208902A - 最適制御システム

Info

Publication number: JP2012208902A
Application number: JP2011076025A
Authority: JP
Inventors: Takumi Kamioka; 拓未上岡; Masanori Takeda; 政宣武田; Mitsuhide Kuroda; 貢秀黒田; Hide Kanzaki; 秀神崎
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2011-03-30
Filing date: 2011-03-30
Publication date: 2012-10-25
Anticipated expiration: 2031-03-30
Also published as: JP5677167B2; US8732099B2; US20120254081A1

Abstract

【課題】制御対象の行動態様を定める最適解の探索精度向上を図ることができる最適制御システムを提供する。
【解決手段】方策記憶要素１２０が、状態推定要素１１０による確率分布ｐ（ｘ）の今回更新結果と、行動探索要素２００による条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果とに基づき、同時確率分布ｐ（ｕ，ｘ）の今回更新結果を取得する。一方、行動探索要素２００が、状態指定要素１１０による確率分布ｐ（ｘ）の今回更新結果と、方策記憶要素１２０による同時確率分布ｐ（ｕ，ｘ）の前回更新結果とに基づき、条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果を取得するための今回基準となる条件付き確率分布ｐ（ｕ｜ｘ）を定める。
【選択図】図１

Description

本発明は、制御対象の行動を決定するための最適制御システムに関する。

評価関数によってロボットなどの制御対象の最適行動を探索する技術が提案されている（特許文献１〜２参照）。最適行動は最適化問題を解くことによって制御入力が決定される。最適化問題は、制御対象の動作または行動態様ｕの適切さを表わす評価関数ｆ（ｕ）が最大値を示すような当該制御対象の行動態様（最適解）ｕ^*を探索するという形式（ｆｉｎｄｕ^*＝ａｒｇｍａｘｆ（ｕ））で定義される。

特開２００２−２３０５１４号公報特開平０８−３１４８８３号公報

しかし、限られたサンプリング周期の中で解が探索されるため、暫定的な解が得られるにとどまり、最適解を探索すること、ひいては制御対象の実際の制御に適用することは困難であった。

そこで、本発明は、制御対象の行動態様を定める最適解の探索精度向上を図ることができる最適制御システムを提供することを解決課題とする。

本発明は、制御対象の行動を決定するための最適制御システムであって、前記制御対象の状態ｘの各回の測定結果に応じて、状態ｘの確率分布ｐ（ｘ）を更新するように構成されている状態推定要素と、前記制御対象の状態ｘの各回の測定結果に応じて、状態ｘおよび行動ｕの同時確率分布ｐ（ｕ，ｘ）を更新するように構成されている方策記憶要素と、条件付き確率分布ｐ（ｕ｜ｘ）に応じた複数の行動候補ｕ_iの生成と、当該複数の行動候補のそれぞれの評価関数ｆ（ｕ｜ｘ）に鑑みた適合度ｆ_iの評価と、当該評価結果に応じた行動候補の選定と、当該選定行動候補の分布特性を評価関数ｆ（ｕ｜ｘ）の形状特性に近似させるような条件付き確率分布ｐ（ｕ｜ｘ）の更新とを繰り返すことにより、条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果を取得するとともに、適合度に鑑みて適当な最適行動ｕ^*を前記制御対象がしたがうべき行動として決定するように構成されている行動探索要素とを備え、前記方策記憶要素が、確率分布ｐ（ｘ）の今回更新結果と、前記行動探索要素による条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果とに基づき、同時確率分布ｐ（ｕ，ｘ）の今回更新結果を取得するように構成され、前記行動探索要素が、前記状態推定要素による確率分布ｐ（ｘ）の今回更新結果と、前記方策記憶要素による同時確率分布ｐ（ｕ，ｘ）の前回更新結果とに基づき、条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果を取得するための今回基準となる条件付き確率分布ｐ（ｕ｜ｘ）を定めるように構成されていることを特徴とする。

本発明の最適制御システムによれば、状態ｘに関する演算処理を主担当する状態推定要素と、行動ｕに関する演算処理を主担当する行動探索要素とのそれぞれにより、相手方の演算処理結果が相互利用される。

具体的には、方策記憶要素が、状態推定要素による確率分布ｐ（ｘ）の今回更新結果と、行動探索要素による条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果とに基づき、同時確率分布ｐ（ｕ，ｘ）の今回更新結果を取得する。その一方、行動探索要素が、状態推定要素による確率分布ｐ（ｘ）の今回更新結果と、方策記憶要素による同時確率分布ｐ（ｕ，ｘ）の前回更新結果とに基づき、条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果を取得するための今回基準となる条件付き確率分布ｐ（ｕ｜ｘ）を定める。すなわち、方策記憶要素による前回までの学習結果の蓄積である同時確率分布ｐ（ｕ，ｘ）が利用されることにより、条件付き確率分布ｐ（ｕ｜ｘ）の更新が繰り返される。

このため、条件付き確率分布ｐ（ｕ｜ｘ）の更新が繰り返されるたびに、状態ｘおよび行動ｕの相関関係を表わす同時確率分布ｐ（ｕ，ｘ）が、その形状特性が評価関数ｆ（ｕ｜ｘ）の形状特性に徐々に近似するように更新されうる。

これにより、状態ｘおよびこれに応じた行動ｕのそれぞれの確率変数としての分布特性が未知である制御対象について、各時点における最適な解が探索され、かつ、解の探索が繰り返されるたびに解の最適化が図られる。たとえば、初期段階では最適ではないもののこれに可能な限り近い行動ｕ^*が、状態ｘの今回測定結果に応じて限られたサンプリング周期の中でも決定されうる。そして、初期段階以降の段階に進み、同時確率分布ｐ（ｕ，ｘ）の更新が繰り返されるたびに、この制御対象がしたがうべき行動ｕ^*の最適化が図られる。

同時確率分布ｐ（ｕ，ｘ）の今回更新結果と前回更新結果との差異が小さく、ある程度安定した段階での同時確率分布ｐ（ｕ，ｘ）が記憶装置に格納されることにより、その後、状態ｘの測定値に基づき、当該同時確率分布ｐ（ｕ，ｘ）にしたがって、制御対象の動作を制御するために最適な行動が出力されうる。

前記状態推定要素が、単峰性の複数の確率分布の線形結合として定義される確率分布ｐ（ｘ）を更新するように構成され、前記行動探索要素が、状態ｘに対する平均値の依存性が異なる複数の条件付き確率分布の線形結合として定義される条件付き確率分布ｐ（ｕ｜ｘ）を更新するように構成されていることが好ましい。

当該構成の最適制御システムによれば、状態確率分布が複数の極大値を有する多峰性を示す制御対象についても、状態ｘの測定結果に応じて更新される確率分布ｐ（ｘ）が整合するように更新されうる。これにより、上記のように確率分布ｐ（ｘ）の更新結果に応じて更新される同時確率分布ｐ（ｕ，ｘ）に基づき、この制御対象の制御にとってその時点における最適行動ｕ^*が決定されうる。

前記行動探索要素が、評価関数ｆ（ｕ｜ｘ）と、条件付き確率分布ｐ（ｕ｜ｘ）との積の積分値としての期待値Ｅが最高となるように条件付き確率分布ｐ（ｕ｜ｘ）を更新するように構成されていることが好ましい。

当該構成の最適制御システムによれば、評価関数ｆ（ｕ｜ｘ）の形状特性と、同時確率分布ｐ（ｕ，ｘ）の形状特性との類似度を表わす期待値Ｅが最高となるように条件付き確率分布ｐ（ｕ｜ｘ）が更新される。これにより、同時確率分布ｐ（ｕ，ｘ）の形状特性を評価関数ｆ（ｕ｜ｘ）の形状特性に近似させ、上記のように状態ｘおよびこれに応じた行動ｕのそれぞれの分布特性が未知である制御対象についても、同時確率分布ｐ（ｕ，ｘ）の更新が繰り返されるたびに、この制御対象がしたがうべき行動の最適化が図られる。

本発明の最適制御システムの構成説明図。本発明の最適制御方法に関する説明図。状態確率分布およびその更新に関する説明図。条件付き確率分布およびその更新に関する説明図。状態線型関数および条件付き確率分布の関係に関する説明図。評価関数に関する説明図。行動生成および条件付き確率分布の更新に関する説明図。

（最適制御システムの構成）
図１に示されている本発明の一実施形態としての最適制御システムはコンピュータにより構成されている。最適制御システムは、状態推定要素１１０と、方策記憶要素１２０と、行動探索要素２００とを備えている。行動探索要素２００は、第１行動探索要素２１０と、第２行動探索要素２２０とを備えている。

最適制御システムの当該構成要素のすべてが、物理的に共通のハードウェア資源により構成されていてもよいし、物理的に別個のハードウェア資源により構成されていてもよい。たとえば、状態推定要素１１０および方策記憶要素１２０が制御対象を構成するコンピュータにより構成される一方、行動探索要素２００がこの制御対象とは別個のコンピュータにより構成されてもよい。

状態推定要素１１０は、制御対象の状態ｘの各回の測定結果に応じて、状態ｘの確率分布ｐ（ｘ）を更新するように構成されている。

方策記憶要素１２０は、制御対象の状態ｘの各回の測定結果に応じて、状態ｘおよび行動ｕの同時確率分布ｐ（ｕ，ｘ）を更新するように構成されている。詳細には、方策記憶要素１２０は、状態推定要素１１０による確率分布ｐ（ｘ）の今回更新結果と、行動探索要素２００による条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果とに基づき、同時確率分布ｐ（ｕ，ｘ）の今回更新結果を取得するように構成されている。

第１行動探索要素２１０は、状態推定要素１１０による確率分布ｐ（ｘ）の今回更新結果と、方策記憶要素１２０による同時確率分布ｐ（ｕ，ｘ）の前回更新結果とに基づき、条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果を取得するための今回基準となる条件付き確率分布ｐ（ｕ｜ｘ）を定めるように構成されている。第１行動探索要素２１０は、条件付き確率分布ｐ（ｕ｜ｘ）に応じた複数の行動候補ｕ_iを生成するように構成されている。

第２行動探索要素２２０は、複数の行動ｕ_iのそれぞれの評価関数ｆ（ｕ｜ｘ）に鑑みた適合度ｆ_iを評価するように構成されている。

第１行動探索要素２１０は、第２行動探索要素２２０による当該評価結果に応じた行動候補を選定するように構成されている。また、第１行動探索要素２１０は、当該選定行動候補の分布特性を評価関数ｆ（ｕ｜ｘ）の形状特性に近似させるように条件付き確率分布ｐ（ｕ｜ｘ）を更新するように構成されている。

複数の行動候補ｕ_iの生成と、各行動候補ｕ_iの適合度ｆ_iの評価と、当該評価結果に応じた行動候補の選定と、条件付き確率分布ｐ（ｕ｜ｘ）の更新とが繰り返された結果、第１行動探索要素２１０が、条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果を取得するように構成されている。また、第１行動探索要素２１０が、適合度に鑑みて適当な行動ｕ^*が、制御対象がしたがうべき行動として決定するように構成されている。

本発明の構成要素がその担当演算処理を実行するように「構成されている」とは、最適制御システムを構成するＣＰＵが、記憶装置からプログラム（ソフトウェア）を読み出し、読み出したプログラムにしたがって当該担当演算処理を実行するようにプログラムされていることを意味する。

最適制御システムの学習結果に基づき、ロボットまたは車両など、さまざまな機器が制御対象としてその動作が制御されうる。

たとえば、制御対象が再表０３／０９０９７８号公報または再表０３／０９０９７９号公報等に記載されている脚式移動ロボットである場合、入力信号（状態）ｘとして基体の傾斜角度など、ロボットの歩容安定性等を表わす一または複数のパラメータの測定値が採用され、出力信号（行動）ｕとして脚体の関節角度などロボットの歩容を安定に維持するための動作を定義する一または複数のパラメータの制御指令値が採用されうる。

また、制御対象が車両である場合、入力信号ｘとして車体の加速度などの車両の走行安定性等に関する一または複数のパラメータの測定値が採用され、出力信号ｕとしてパワートレインの構成要素としてのクラッチの変位量等、車両の走行安定性を維持するための動作を定義する一または複数のパラメータの制御指令値が採用されうる。

（最適制御システムの機能）
式（０１）により表わされる１状態１入力の状態遷移モデルについて考察する。

x[k+1]=x[k]-Δt(u[k]+ε),if x[k]<0, x[k+1]=x[k]+Δt(u[k]+ε),if 0≦x[k] ..(01)

このモデルは、今回状態ｘ［ｋ］に応じた行動ｕ［ｋ］にしたがって制御対象の動作が制御された場合、サンプリング周期時間における今回状態ｘ［ｋ］から次回状態ｘ［ｋ＋１］の変化量を表わしている。この変化量は、今回行動ｕ［ｋ］およびノイズε（たとえば０以上１以下の任意の数）の和に比例している。

また、評価関数ｆが式（０２）により表現されていると仮定する。

f(u|x)=-exp{-(x-Δtu)²}, if x<0, f(u|x)=-exp{-(x+Δtu)²}, if 0≦x ..(02)

この場合、評価関数ｆ（ｕ｜ｘ）は、図６に示されているように平面ｘ＝０に関して対称性を有している。また、評価関数ｆ（ｕ｜ｘ）は、ｕの値が負の範囲（ｕ＜０）で低いほど、ｘ方向の間隔が大きい一対の線分を稜線ｆ（Ｌ）として有している。図５（ａ）〜（ｃ）に実線で示されているように、ｘ−ｕ平面に対する当該稜線ｆ（Ｌ）の投影線Ｌは、（ｘ，ｕ）＝（０，０）において屈曲するとともに、直線ｘ＝０に対して対称性を有する略Ｖ字形状を示す。

後述するように、行動探索要素２００により条件付き確率分布ｐ（ｘ｜ｕ）が逐次更新されることにより、同時確率分布ｐ（ｘ，ｕ）が、図４（ａ）、図４（ｂ）および図４（ｃ）のそれぞれに示されている状態を順に遷移し、図６に示されている評価関数ｆ（ｘ｜ｕ）に徐々に近似するように逐次更新される。これは、サンプリング周期ごとに測定される状態ｘに応じて、評価関数ｆ（ｘ｜ｕ）に鑑みてその段階で最も適当な行動ｕを出力させるためである。

確率分布ｐ（ｘ）はＭ個のガウス分布の線型結合として式（０３）により定義されている。この線型結合は、Ｍ個のガウス分布のうち状態ｘがしたがうガウス分布を表わす離散隠れ変数ｚがｉである確率ｐ_z（ｉ）＝ω_i,xを結合係数としている。

p(x)=Σ_i=1-Mω_i,x{1/(2π)^D/2|Σ_i|^1/2}exp{-(1/2)(x-μi)^TΣ_i ^-1(x-μi)}
=Σ_i=1-Mω_i,xN(x|μ_i,xΣ_i,x) (0≦ω_i≦1、Σ_i=1-mω_i=1) ..(03)

たとえば、Ｍ＝２の場合、確率分布ｐ（ｘ）は式（０３’）により定義される。

p(x)=ω_1,xN(x|μ_1,xΣ_1,x)+ω_2,xN(x|μ_2,xΣ_2,x) ..(03’)

この場合、図３（ａ）に示されているように、状態確率分布ｐ（ｘ）（実線）は、第１ガウス分布ｐ₁（ｘ）＝Ｎ（ｘ｜μ_1,x，Σ_1,x）（一点鎖線）および第２ガウス分布ｐ₂（ｘ）＝Ｎ（ｘ｜μ_2,x，Σ_2,x）（二点鎖線）の線型結合により定義される。ここで、第１ガウス分布の平均値μ_1,xは正値であり、第２ガウス分布の平均値μ_2,xは負値である。また、状態ｘは図示のために１次元の変数として表現されているが、複数次元の変数（ベクトル）であってもよい。

図３（ａ）から明らかなように、確率変数としての状態（または状態変数）ｘの確率分布が、Ｍ個のガウス分布の線型結合により、１つの極大値のみを有する単峰性の確率分布ではなく、複数の極大値を有する多峰性の確率分布として表現されうる。

条件付き確率ｐ（ｕ｜ｘ）は、平均が状態ｘの線型関数ａ_iｘ＋ｂ_iにより表わされ、分散Σ_i,xを有するＭ個の線形ガウスモデルＮ（ｘ｜ａ_iｘ＋ｂ_i，Σ_i,x）の重み付け和として式（０４）により定義されている。

Ｍ＝２の場合、条件付き確率分布ｐ（ｕ｜ｘ）は、第１線形ガウスモデルＮ（ｘ｜ａ₁ｘ＋ｂ₁，Σ_1,x）および第２線形ガウスモデルＮ（ｘ｜ａ₂ｘ＋ｂ₂，Σ_2,x）の重み付け和として式（０４’）により定義される。

p(u|x)=ω_1,u|xN(x|a₁x+b₁,Σ_1,x)+ω_2,u|xN(x|a₂x+b₂,Σ_2,x),
ω_i,u|x=ω_ixN(x|μ_i,xΣ_i,x)/{ω_1xN(x|μ_2,xΣ_2,x)+ω_2xN(x|a₂x+b₂,Σ_2,x)} ..(04’)

条件付き確率分布ｐ（ｕ｜ｘ）は、後述するように同時確率分布ｐ（ｘ，ｕ）を用いて更新される。同時確率分布ｐ（ｘ，ｕ）は、確率分布ｐ（ｘ）および条件付き確率分布ｐ（ｕ｜ｘ）に基づき、式（０５）にしたがって定義される。

p(u,x)=p(x)p(u|x)= Σ_i=1-Mω_i,xN(u,x|μ_i,uxΣ_i,ux),
μ_i,ux=^t(a_iμ_i,x+b_i, μ_i,x),
Σ_i,ux={Q_ij}, Q₁₁=Σ_i,u|x+a_iΣ_i,x ^-1a_i ^T, Q₁₂=Σ_i,xa_i ^T, Q₂₁=a_iΣ_i,x, Q₂₂=Σ_i,x ..(05)

Ｍ＝２の場合、同時確率分布ｐ（ｕ，ｘ）には、第１稜線ｆ（Ｌ₁）と、第２稜線ｆ（Ｌ₂）とが存在する（図４（ａ）〜（ｃ）参照）。ここで、行動ｕは図示のために１次元の変数として表現されているが、複数次元の変数（ベクトル）であってもよい。第１稜線ｆ（Ｌ₁）は、第１線形ガウスモデルＮ（ｘ｜ａ₁ｘ＋ｂ₁，Σ_1,x）の寄与により、同時確率分布ｐ（ｕ，ｘ）が極大値を示す位置を表わしている。第２稜線ｆ（Ｌ₂）は、第２線形ガウスモデルＮ（ｘ｜ａ₂ｘ＋ｂ₂，Σ_2,x）の寄与により、同時確率分布ｐ（ｕ，ｘ）が極大値を示す位置を表わしている。

第１線型関数ａ₁ｘ＋ｂ₁は、ｘ−ｕ平面に対する第１稜線ｆ（Ｌ₁）の投影線Ｌ₁を表わしている（図５（ａ）〜（ｃ）参照）。第２線型関数ａ₂ｘ＋ｂ₂は、ｘ−ｕ平面に対する第２稜線ｆ（Ｌ₂）の投影線Ｌ₂を表わしている（図５（ａ）〜（ｃ）参照）。なお、第１線形ガウスモデルおよび第２線形ガウスモデルのそれぞれの平均値は、状態ｘの１次関数ではなく、状態ｘの２次以上の関数により表現されてもよい。

Ｍ＝２であって、初期化によりたとえばａ₁＝０，ｂ₁＝０，ａ₂＝０，ｂ₂＝０とされた場合、同時確率分布ｐ（ｘ，ｕ）は、初期段階では図４（ａ）に示されているように、ｘ方向に幅を有する帯が、ｕ方向についてｕ＝０付近で隆起したような形状になっている。この段階では、第１稜線ｆ（Ｌ₁）および第２稜線ｆ（Ｌ₂）は一致しており、図５（ａ）に示されているように第１投影線Ｌ₁および第２投影線Ｌ₂も一致している。

サンプリング時刻ｔにおいて、状態ｘ（ｔ）が周期的に測定または観測される（図２／ＳＴＥＰ００４）。

測定された状態ｘ（ｔ）に応じて、パラメータθ_xの値および十分統計量の推定値Ｓ_x^が更新されることにより、確率分布ｐ（ｘ）が更新される（図２／ＳＴＥＰ００６）。

これにより、たとえば、状態ｘの測定値として、正値の出現頻度が、負値の出現頻度よりも高い場合、平均値μ_1,xが正である第１ガウス分布ｐ₁（ｘ）の重み係数ω_1xの値が増やされる一方、平均値μ_2,xが負である第２ガウス分布ｐ₂（ｘ）の重み係数ω_2xの値が減らされる。また、状態ｘの測定値が特定の正値の周辺に集中した場合、第１ガウス分布ｐ₁（ｘ）は、その平均値μ_1,xが当該特定の正値に近づき、かつ、分散Σ_1,xが小さくなるように更新される。

なお、線形結合される確率分布としてはガウス分布のほか、ラプラス分布、レイリー分布、三角分布またはロジスティック分布など、単峰性の（唯一の極大値を有する）任意の確率分布が採用されてもよい。

確率分布ｐ（ｘ）は、図３（ａ）に示されている状態から更新が繰り返されることにより、図３（ｂ）に示されている状態に遷移する。

続いて、条件付き確率分布ｐ（ｕ｜ｘ）の更新回数を表わすフラグｇが「１」に初期化され（図２／ＳＴＥＰ００８）、その上で条件付き確率分布ｐ（ｕ｜ｘ）の更新処理が実行される。

具体的には、まず、条件付き確率分布ｐ（ｕ｜ｘ）が、確率分布ｐ（ｘ）の今回更新結果および同時確率分布ｐ（ｕ，ｘ）の前回更新結果に基づき、式（０６）にしたがって初期更新される（図２／ＳＴＥＰ０１０）。ここで「前回」および「今回」とは、前回および今回のサンプリング周期中に得られた結果であることを示している。同時確率分布ｐ（ｕ，ｘ）の前回更新結果は、状態ｘの前回測定値に応じた、確率分布ｐ（ｘ）の前回更新結果および条件付き確率分布ｐ（ｕ｜ｘ）の前回更新結果に基づき、式（０５）にしたがって計算された上で、システムを構成する記憶装置に格納されている。

p(u|x)=p(u,x)/p(x) ..(06)

続いて、条件付き確率ｐ（ｕ｜ｘ（ｔ））にしたがって、Ｎ個の行動候補ｕ_i（ｔ）（ｉ＝１，２，‥，Ｎ）が生成される（図２／ＳＴＥＰ０１２）。

たとえば、図７（ａ）に示されているように条件付き確率分布ｐ（ｕ｜ｘ（ｔ））が極大値を示す位置（たとえばｕ＝０）は、最初は評価関数ｆ（ｕ｜ｘ（ｔ））が極大値を示す位置からずれている。このため、初期段階では条件付き確率分布ｐ（ｕ｜ｘ）が極大値を示す位置付近に多数の行動候補ｕ_i（ｔ）（ｉ＝１，２，‥，Ｎ）が生成される。

さらに、測定された状態ｘ（ｔ）および評価関数ｆ（ｕ｜ｘ）に基づき、Ｎ個の行動候補ｕ₁（ｔ），‥，ｕ_N（ｔ）のそれぞれの適応度ｆ₁（ｔ），‥，ｆ_N（ｔ）が評価された上で、当該適応度が高い上位ｎ個（ｎ＜Ｎ。たとえばｎ＝０．２５Ｎ）の行動候補ｕ_i（ｔ）が選択される（図２／ＳＴＥＰ０１４）。

たとえば、図７（ａ）に×印で示されている複数の行動候補ｕ_i（ｔ）のうち、条件付き確率分布ｐ（ｕ｜ｘ（ｔ））が極大値を示す位置よりも左側（負側）にある行動候補は、その適応度ｆが比較的高く評価されるため、優先的に選択される。

そして、条件付き確率分布ｐ（ｕ｜ｘ）が、選択された行動候補の分布ｐ（ｕ）に近づくように更新される（図２／ＳＴＥＰ０１６）。

具体的には、条件付き確率分布ｐ（ｕ｜ｘ）のパラメータθ_u|xおよび十分統計量の推定値Ｓ_u|x^が、期待値Ｅを最大化するという基準にしたがって更新される。期待値Ｅは、測定された状態ｘ＝ｘ（ｔ）に応じた評価関数ｆ（ｕ｜ｘ）および条件付き確率分布ｐ（ｕ｜ｘ）の積の積分値として計算される。このため、期待値Ｅは、条件付き確率分布ｐ（ｕ｜ｘ）の形状特性と、評価関数ｆ（ｕ｜ｘ）の形状特性との類似度の高低を表わす指標となりうる。

異なる変数値の組み合わせ（θ_u|x，Ｓ_u|x^）のそれぞれについて複数の期待値Ｅが計算され、当該複数の計算値のうち最高の計算値を示す変数値の組み合わせ（θ_u|x，Ｓ_u|x^）によって条件付き確率ｐ（ｕ｜ｘ）が更新される。

これにより、条件付き確率分布ｐ（ｕ｜ｘ）が、状態ｘ＝ｘ（ｔ）に応じた適応度ｆが比較的高かった行動候補群が存在する領域にその極大値が移動するように、図７（ａ）の初期状態から、図７（ｂ）および図７（ｃ）のそれぞれに示されている状態を順に遷移しながら更新される。換言すると、条件付き確率分布ｐ（ｕ｜ｘ）が、図７（ｄ）に示されているようにその極大値を示す位置が、評価関数ｆ（ｕ｜ｘ）が極大値を示す位置に対して最終的に一致またはほぼ一致するように更新される。

条件付き確率分布ｐ（ｕ｜ｘ）の極大値を移動させるため、線形ガウスモデルＮ（ｘ｜ａ_iｘ＋ｂ_i，Σ_i,x）の平均値のｘ依存度を定めるパラメータ（傾きａ_iおよび切片ｂ_i（ｉ＝１，２））のうち少なくとも１つの値が更新される。

たとえば、図５（ｃ）に示されているように第１投影線Ｌ₁がｘの正領域において、評価関数ｆ（ｘ｜ｕ）の稜線投影線Ｌにほぼ一致するように、傾きａ₁および切片ｂ₁の値が逐次更新される。これにより、図５（ｂ）に両矢印で示されているように第１投影線Ｌ₁の傾き（姿勢）および位置（切片）が逐次調節される。

同様に、図５（ｃ）に示されているように第２投影線Ｌ₂がｘの負領域において、評価関数ｆ（ｘ｜ｕ）の稜線投影線Ｌにほぼ一致するように、傾きａ₂および切片ｂ₂の値が逐次更新される。これにより、図５（ｂ）に両矢印で示されているように第２投影線Ｌ₂の傾き（姿勢）および位置（切片）が逐次調節される。

フラグｇが、指定回数Ｇ（たとえば「１０」）以上であるか否かが判定される（図２／ＳＴＥＰ０１８）。指定回数Ｇは、１サンプリング周期の間に条件付き確率分布ｐ（ｕ｜ｘ）の更新処理が可能な回数に応じて定められる。

当該判定結果が否定的である場合（図２／ＳＴＥＰ０１８‥ＮＯ）、すなわち、条件付き確率分布ｐ（ｕ｜ｘ）の更新処理回数が指定回数未満である場合、フラグｇが１だけ増やされ（図２／ＳＴＥＰ０２０）、Ｎ個の行動候補ｕ_i（ｔ）の生成以降の処理が繰り返される（図２／ＳＴＥＰ０１２〜ＳＴＥＰ０１８参照）。

一方、当該判定結果が肯定的である場合（図２／ＳＴＥＰ０１８‥ＹＥＳ）、すなわち、条件付き確率分布ｐ（ｕ｜ｘ）の更新処理回数が指定回数に到った場合、その段階での条件付き確率分布ｐ（ｕ｜ｘ）の極大値またはこれに最も近い値を示す行動候補が、制御対象がしたがうべき今回行動ｕ^*（ｔ）として出力される（図２／ＳＴＥＰ０２２）。

そして、確率分布ｐ（ｘ）の今回更新結果（図２／ＳＴＥＰ００６参照）および条件付き確率分布ｐ（ｘ｜ｕ）の今回更新結果（図２／ＳＴＥＰ０１６参照）に基づき、式（０５）にしたがって今回の同時確率分布ｐ（ｕ，ｘ）が更新される（図２／ＳＴＥＰ０２４（図４（ａ）〜（ｃ）参照））。

上記のように第１線形ガウスモデルＮ（ｘ｜ａ₁ｘ＋ｂ₁，Σ_1,x）および第２線形ガウスモデルＮ（ｘ｜ａ₂ｘ＋ｂ₂，Σ_2,x）の更新が繰り返されることにより（図５（ｂ）参照）、図４（ｂ）に両矢印で示されているように同時確率分布ｐ（ｕ，ｘ）もその位置、姿勢および形状（高さ）を変化させながら更新されうる。

さらに、同時確率分布ｐ（ｕ，ｘ）の今回更新結果は、条件付き確率分布ｐ（ｕ｜ｘ）の次回更新に際して利用される（図２／ＳＴＥＰ０１０参照）。

以下、サンプリング時刻ｔごとに、状態ｘの測定から行動ｕ^*（ｔ）の出力までの一連の処理が繰り返し実行される（図２／ＳＴＥＰ００４〜ＳＴＥＰ０２４参照）。

（本発明の作用効果）
本発明の最適制御システムによれば、状態ｘに関する演算処理を主担当する状態推定要素１１０および方策記憶要素１２０と、行動ｕに関する演算処理を主担当する行動探索要素２００とのそれぞれにより、相手方の演算処理結果が相互利用される。

具体的には、方策記憶要素１２０が、状態推定要素１１０による確率分布ｐ（ｘ）の今回更新結果（図２／ＳＴＥＰ００６参照）と、行動探索要素２００による条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果（図２／ＳＴＥＰ０１６参照）とに基づき、同時確率分布ｐ（ｕ，ｘ）の今回更新結果を取得する（図２／ＳＴＥＰ０２４参照）。

その一方、行動探索要素２００が、状態推定要素１１０による確率分布ｐ（ｘ）の今回更新結果（図２／ＳＴＥＰ００６参照）と、方策記憶要素１２０による同時確率分布ｐ（ｕ，ｘ）の前回更新結果（図２／ＳＴＥＰ０２４参照）とに基づき、条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果を取得するための今回基準となる条件付き確率分布ｐ（ｕ｜ｘ）を定める（図２／ＳＴＥＰ０１０参照）。

すなわち、方策記憶要素１１０による前回までの学習結果の蓄積である同時確率分布ｐ（ｕ，ｘ）が利用されることにより、行動探索要素２００による条件付き確率分布ｐ（ｕ｜ｘ）の更新が繰り返される。前記実施例でいうと、第１稜線投影線Ｌ₁および第２稜線投影線Ｌ₂のそれぞれの位置および姿勢が、サンプリング周期ごとに初期状態（図５（ａ）参照）にリセットされることなく、前回サンプリング周期の終了時点の状態（図５（ｂ）参照）を基準として、今回サンプリング周期中にＧ回にわたり変更されうる。

その結果、同時確率分布ｐ（ｕ，ｘ）が、サンプリング周期ごとに初期状態（図４（ａ）参照）にリセットされることなく、前回サンプリング周期の終了時点の状態（図４（ｂ）参照）を基準として、今回サンプリング周期中に変更されうる。

このため、方策記憶要素１１０による条件付き確率分布ｐ（ｕ｜ｘ）の更新が繰り返されるたびに、状態ｘおよび行動ｕの相関関係を表わす同時確率分布ｐ（ｕ，ｘ）が、その形状特性が評価関数ｆ（ｕ｜ｘ）の形状特性に徐々に近似するように行動探索要素２００により更新されうる（図４（ａ）〜（ｃ）および図６参照）。

これにより、状態ｘおよびこれに応じた行動ｕのそれぞれの確率変数としての分布特性が未知である制御対象について、各時点（各サンプリング時刻）における最適な解が探索され、かつ、解の探索が繰り返されるたびに解（行動ｕ^*）の最適化が図られる。たとえば、初期段階では最適ではないもののこれに可能な限り近い行動ｕ^*が、状態ｘの今回測定結果に応じて限られたサンプリング周期の中でも決定されうる。そして、初期段階以降の段階に進み、同時確率分布ｐ（ｕ，ｘ）の更新が繰り返されるたびに、この制御対象がしたがうべき行動ｕ^*の最適化が図られる。

また、確率分布ｐ（ｘ）が、単峰性の複数の確率分布の線形結合として定義されている（式（０３）、図３（ａ）（ｂ）参照）。さらに、条件付き確率分布ｐ（ｕ｜ｘ）が、状態ｘに対する平均値の依存性が異なる複数の条件付き確率分布の線形結合として定義されている（式（０４）、図４（ａ）〜（ｃ）、図５（ａ）〜（ｃ）参照）。

このため、状態確率分布が複数の極大値を有する多峰性を示す制御対象についても、状態ｘの測定結果に応じて更新される確率分布ｐ（ｘ）が整合するように更新されうる（図３（ａ）（ｂ）参照）。これにより、上記のように確率分布ｐ（ｘ）の更新結果に応じて更新される同時確率分布ｐ（ｕ，ｘ）に基づき、この制御対象の制御にとってその時点における最適行動ｕ^*が決定されうる。

１１０‥状態推定要素、１２０‥方策記憶要素、２００‥行動探索要素。

Claims

制御対象の最適行動を決定するための最適制御システムであって、
前記制御対象の状態ｘの各回の測定結果に応じて、状態ｘの確率分布ｐ（ｘ）を更新するように構成されている状態推定要素と、
前記制御対象の状態ｘの各回の測定結果に応じて、状態ｘおよび行動ｕの同時確率分布ｐ（ｕ，ｘ）を更新するように構成されている方策記憶要素と、
条件付き確率分布ｐ（ｕ｜ｘ）に応じた複数の行動候補ｕ_iの生成と、当該複数の行動候補のそれぞれの評価関数ｆ（ｕ｜ｘ）に鑑みた適合度ｆ_iの評価と、当該評価結果に応じた行動候補の選定と、当該選定行動候補の分布特性を評価関数ｆ（ｕ｜ｘ）の形状特性に近似させるような条件付き確率分布ｐ（ｕ｜ｘ）の更新とを繰り返すことにより、条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果を取得するとともに、適合度に鑑みて適当な最適行動ｕ^*を前記制御対象がしたがうべき行動として決定するように構成されている行動探索要素とを備え、
前記方策記憶要素が、確率分布ｐ（ｘ）の今回更新結果と、前記行動探索要素による条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果とに基づき、同時確率分布ｐ（ｕ，ｘ）の今回更新結果を取得するように構成され、
前記行動探索要素が、前記状態推定要素による確率分布ｐ（ｘ）の今回更新結果と、前記方策記憶要素による同時確率分布ｐ（ｕ，ｘ）の前回更新結果とに基づき、条件付き確率分布ｐ（ｕ｜ｘ）の今回更新結果を取得するための今回基準となる条件付き確率分布ｐ（ｕ｜ｘ）を定めるように構成されていることを特徴とする最適制御システム。
請求項１記載の最適制御システムにおいて、
前記状態推定要素が、単峰性の複数の確率分布の線形結合として定義される確率分布ｐ（ｘ）を更新するように構成され、
前記行動探索要素が、状態ｘに対する平均値の依存性が異なる複数の条件付き確率分布の線形結合として定義される条件付き確率分布ｐ（ｕ｜ｘ）を更新するように構成されていることを特徴とする最適制御システム。
請求項１または２記載の最適制御システムにおいて、
前記行動探索要素が、評価関数ｆ（ｕ｜ｘ）と、条件付き確率分布ｐ（ｕ｜ｘ）との積の積分値としての期待値Ｅが最高となるように条件付き確率分布ｐ（ｕ｜ｘ）を更新するように構成されていることを特徴とする最適制御システム。