JP2012208902A - 最適制御システム - Google Patents

最適制御システム Download PDF

Info

Publication number
JP2012208902A
JP2012208902A JP2011076025A JP2011076025A JP2012208902A JP 2012208902 A JP2012208902 A JP 2012208902A JP 2011076025 A JP2011076025 A JP 2011076025A JP 2011076025 A JP2011076025 A JP 2011076025A JP 2012208902 A JP2012208902 A JP 2012208902A
Authority
JP
Japan
Prior art keywords
probability distribution
state
conditional probability
update
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011076025A
Other languages
English (en)
Other versions
JP5677167B2 (ja
Inventor
Takumi Kamioka
拓未 上岡
Masanori Takeda
政宣 武田
Mitsuhide Kuroda
貢秀 黒田
Hide Kanzaki
秀 神崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2011076025A priority Critical patent/JP5677167B2/ja
Priority to US13/421,206 priority patent/US8732099B2/en
Publication of JP2012208902A publication Critical patent/JP2012208902A/ja
Application granted granted Critical
Publication of JP5677167B2 publication Critical patent/JP5677167B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/024Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

【課題】制御対象の行動態様を定める最適解の探索精度向上を図ることができる最適制御システムを提供する。
【解決手段】方策記憶要素120が、状態推定要素110による確率分布p(x)の今回更新結果と、行動探索要素200による条件付き確率分布p(u|x)の今回更新結果とに基づき、同時確率分布p(u,x)の今回更新結果を取得する。一方、行動探索要素200が、状態指定要素110による確率分布p(x)の今回更新結果と、方策記憶要素120による同時確率分布p(u,x)の前回更新結果とに基づき、条件付き確率分布p(u|x)の今回更新結果を取得するための今回基準となる条件付き確率分布p(u|x)を定める。
【選択図】 図1

Description

本発明は、制御対象の行動を決定するための最適制御システムに関する。
評価関数によってロボットなどの制御対象の最適行動を探索する技術が提案されている(特許文献1〜2参照)。最適行動は最適化問題を解くことによって制御入力が決定される。最適化問題は、制御対象の動作または行動態様uの適切さを表わす評価関数f(u)が最大値を示すような当該制御対象の行動態様(最適解)u*を探索するという形式(find u*=argmax f(u))で定義される。
特開2002−230514号公報 特開平08−314883号公報
しかし、限られたサンプリング周期の中で解が探索されるため、暫定的な解が得られるにとどまり、最適解を探索すること、ひいては制御対象の実際の制御に適用することは困難であった。
そこで、本発明は、制御対象の行動態様を定める最適解の探索精度向上を図ることができる最適制御システムを提供することを解決課題とする。
本発明は、制御対象の行動を決定するための最適制御システムであって、前記制御対象の状態xの各回の測定結果に応じて、状態xの確率分布p(x)を更新するように構成されている状態推定要素と、前記制御対象の状態xの各回の測定結果に応じて、状態xおよび行動uの同時確率分布p(u,x)を更新するように構成されている方策記憶要素と、条件付き確率分布p(u|x)に応じた複数の行動候補uiの生成と、当該複数の行動候補のそれぞれの評価関数f(u|x)に鑑みた適合度fiの評価と、当該評価結果に応じた行動候補の選定と、当該選定行動候補の分布特性を評価関数f(u|x)の形状特性に近似させるような条件付き確率分布p(u|x)の更新とを繰り返すことにより、条件付き確率分布p(u|x)の今回更新結果を取得するとともに、適合度に鑑みて適当な最適行動u*を前記制御対象がしたがうべき行動として決定するように構成されている行動探索要素とを備え、前記方策記憶要素が、確率分布p(x)の今回更新結果と、前記行動探索要素による条件付き確率分布p(u|x)の今回更新結果とに基づき、同時確率分布p(u,x)の今回更新結果を取得するように構成され、前記行動探索要素が、前記状態推定要素による確率分布p(x)の今回更新結果と、前記方策記憶要素による同時確率分布p(u,x)の前回更新結果とに基づき、条件付き確率分布p(u|x)の今回更新結果を取得するための今回基準となる条件付き確率分布p(u|x)を定めるように構成されていることを特徴とする。
本発明の最適制御システムによれば、状態xに関する演算処理を主担当する状態推定要素と、行動uに関する演算処理を主担当する行動探索要素とのそれぞれにより、相手方の演算処理結果が相互利用される。
具体的には、方策記憶要素が、状態推定要素による確率分布p(x)の今回更新結果と、行動探索要素による条件付き確率分布p(u|x)の今回更新結果とに基づき、同時確率分布p(u,x)の今回更新結果を取得する。その一方、行動探索要素が、状態推定要素による確率分布p(x)の今回更新結果と、方策記憶要素による同時確率分布p(u,x)の前回更新結果とに基づき、条件付き確率分布p(u|x)の今回更新結果を取得するための今回基準となる条件付き確率分布p(u|x)を定める。すなわち、方策記憶要素による前回までの学習結果の蓄積である同時確率分布p(u,x)が利用されることにより、条件付き確率分布p(u|x)の更新が繰り返される。
このため、条件付き確率分布p(u|x)の更新が繰り返されるたびに、状態xおよび行動uの相関関係を表わす同時確率分布p(u,x)が、その形状特性が評価関数f(u|x)の形状特性に徐々に近似するように更新されうる。
これにより、状態xおよびこれに応じた行動uのそれぞれの確率変数としての分布特性が未知である制御対象について、各時点における最適な解が探索され、かつ、解の探索が繰り返されるたびに解の最適化が図られる。たとえば、初期段階では最適ではないもののこれに可能な限り近い行動u*が、状態xの今回測定結果に応じて限られたサンプリング周期の中でも決定されうる。そして、初期段階以降の段階に進み、同時確率分布p(u,x)の更新が繰り返されるたびに、この制御対象がしたがうべき行動u*の最適化が図られる。
同時確率分布p(u,x)の今回更新結果と前回更新結果との差異が小さく、ある程度安定した段階での同時確率分布p(u,x)が記憶装置に格納されることにより、その後、状態xの測定値に基づき、当該同時確率分布p(u,x)にしたがって、制御対象の動作を制御するために最適な行動が出力されうる。
前記状態推定要素が、単峰性の複数の確率分布の線形結合として定義される確率分布p(x)を更新するように構成され、前記行動探索要素が、状態xに対する平均値の依存性が異なる複数の条件付き確率分布の線形結合として定義される条件付き確率分布p(u|x)を更新するように構成されていることが好ましい。
当該構成の最適制御システムによれば、状態確率分布が複数の極大値を有する多峰性を示す制御対象についても、状態xの測定結果に応じて更新される確率分布p(x)が整合するように更新されうる。これにより、上記のように確率分布p(x)の更新結果に応じて更新される同時確率分布p(u,x)に基づき、この制御対象の制御にとってその時点における最適行動u*が決定されうる。
前記行動探索要素が、評価関数f(u|x)と、条件付き確率分布p(u|x)との積の積分値としての期待値Eが最高となるように条件付き確率分布p(u|x)を更新するように構成されていることが好ましい。
当該構成の最適制御システムによれば、評価関数f(u|x)の形状特性と、同時確率分布p(u,x)の形状特性との類似度を表わす期待値Eが最高となるように条件付き確率分布p(u|x)が更新される。これにより、同時確率分布p(u,x)の形状特性を評価関数f(u|x)の形状特性に近似させ、上記のように状態xおよびこれに応じた行動uのそれぞれの分布特性が未知である制御対象についても、同時確率分布p(u,x)の更新が繰り返されるたびに、この制御対象がしたがうべき行動の最適化が図られる。
本発明の最適制御システムの構成説明図。 本発明の最適制御方法に関する説明図。 状態確率分布およびその更新に関する説明図。 条件付き確率分布およびその更新に関する説明図。 状態線型関数および条件付き確率分布の関係に関する説明図。 評価関数に関する説明図。 行動生成および条件付き確率分布の更新に関する説明図。
(最適制御システムの構成)
図1に示されている本発明の一実施形態としての最適制御システムはコンピュータにより構成されている。最適制御システムは、状態推定要素110と、方策記憶要素120と、行動探索要素200とを備えている。行動探索要素200は、第1行動探索要素210と、第2行動探索要素220とを備えている。
最適制御システムの当該構成要素のすべてが、物理的に共通のハードウェア資源により構成されていてもよいし、物理的に別個のハードウェア資源により構成されていてもよい。たとえば、状態推定要素110および方策記憶要素120が制御対象を構成するコンピュータにより構成される一方、行動探索要素200がこの制御対象とは別個のコンピュータにより構成されてもよい。
状態推定要素110は、制御対象の状態xの各回の測定結果に応じて、状態xの確率分布p(x)を更新するように構成されている。
方策記憶要素120は、制御対象の状態xの各回の測定結果に応じて、状態xおよび行動uの同時確率分布p(u,x)を更新するように構成されている。詳細には、方策記憶要素120は、状態推定要素110による確率分布p(x)の今回更新結果と、行動探索要素200による条件付き確率分布p(u|x)の今回更新結果とに基づき、同時確率分布p(u,x)の今回更新結果を取得するように構成されている。
第1行動探索要素210は、状態推定要素110による確率分布p(x)の今回更新結果と、方策記憶要素120による同時確率分布p(u,x)の前回更新結果とに基づき、条件付き確率分布p(u|x)の今回更新結果を取得するための今回基準となる条件付き確率分布p(u|x)を定めるように構成されている。第1行動探索要素210は、条件付き確率分布p(u|x)に応じた複数の行動候補uiを生成するように構成されている。
第2行動探索要素220は、複数の行動uiのそれぞれの評価関数f(u|x)に鑑みた適合度fiを評価するように構成されている。
第1行動探索要素210は、第2行動探索要素220による当該評価結果に応じた行動候補を選定するように構成されている。また、第1行動探索要素210は、当該選定行動候補の分布特性を評価関数f(u|x)の形状特性に近似させるように条件付き確率分布p(u|x)を更新するように構成されている。
複数の行動候補uiの生成と、各行動候補uiの適合度fiの評価と、当該評価結果に応じた行動候補の選定と、条件付き確率分布p(u|x)の更新とが繰り返された結果、第1行動探索要素210が、条件付き確率分布p(u|x)の今回更新結果を取得するように構成されている。また、第1行動探索要素210が、適合度に鑑みて適当な行動u*が、制御対象がしたがうべき行動として決定するように構成されている。
本発明の構成要素がその担当演算処理を実行するように「構成されている」とは、最適制御システムを構成するCPUが、記憶装置からプログラム(ソフトウェア)を読み出し、読み出したプログラムにしたがって当該担当演算処理を実行するようにプログラムされていることを意味する。
最適制御システムの学習結果に基づき、ロボットまたは車両など、さまざまな機器が制御対象としてその動作が制御されうる。
たとえば、制御対象が再表03/090978号公報または再表03/090979号公報等に記載されている脚式移動ロボットである場合、入力信号(状態)xとして基体の傾斜角度など、ロボットの歩容安定性等を表わす一または複数のパラメータの測定値が採用され、出力信号(行動)uとして脚体の関節角度などロボットの歩容を安定に維持するための動作を定義する一または複数のパラメータの制御指令値が採用されうる。
また、制御対象が車両である場合、入力信号xとして車体の加速度などの車両の走行安定性等に関する一または複数のパラメータの測定値が採用され、出力信号uとしてパワートレインの構成要素としてのクラッチの変位量等、車両の走行安定性を維持するための動作を定義する一または複数のパラメータの制御指令値が採用されうる。
(最適制御システムの機能)
式(01)により表わされる1状態1入力の状態遷移モデルについて考察する。
x[k+1]=x[k]-Δt(u[k]+ε),if x[k]<0, x[k+1]=x[k]+Δt(u[k]+ε),if 0≦x[k] ..(01)
このモデルは、今回状態x[k]に応じた行動u[k]にしたがって制御対象の動作が制御された場合、サンプリング周期時間における今回状態x[k]から次回状態x[k+1]の変化量を表わしている。この変化量は、今回行動u[k]およびノイズε(たとえば0以上1以下の任意の数)の和に比例している。
また、評価関数fが式(02)により表現されていると仮定する。
f(u|x)=-exp{-(x-Δtu)2}, if x<0, f(u|x)=-exp{-(x+Δtu)2}, if 0≦x ..(02)
この場合、評価関数f(u|x)は、図6に示されているように平面x=0に関して対称性を有している。また、評価関数f(u|x)は、uの値が負の範囲(u<0)で低いほど、x方向の間隔が大きい一対の線分を稜線f(L)として有している。図5(a)〜(c)に実線で示されているように、x−u平面に対する当該稜線f(L)の投影線Lは、(x,u)=(0,0)において屈曲するとともに、直線x=0に対して対称性を有する略V字形状を示す。
後述するように、行動探索要素200により条件付き確率分布p(x|u)が逐次更新されることにより、同時確率分布p(x,u)が、図4(a)、図4(b)および図4(c)のそれぞれに示されている状態を順に遷移し、図6に示されている評価関数f(x|u)に徐々に近似するように逐次更新される。これは、サンプリング周期ごとに測定される状態xに応じて、評価関数f(x|u)に鑑みてその段階で最も適当な行動uを出力させるためである。
まず、状態確率分布p(x)および条件付き確率分布p(u|x)が初期化される(図2/STEP002)。具体的には、確率分布p(x)のパラメータθx={ωi,x,μi,x,Σi,x}の値および十分統計量の推定値Sx^={s^i,k,x}(k=1,2,3)が初期化される。また、条件付き確率分布p(u|x)のパラメータθu|x={ωi,u|x,μi,u|x,Σi,u|x}の値および十分統計量の推定値Su|x^={s^i,k,u|x}(k=1,2,3)が初期化される。
確率分布p(x)はM個のガウス分布の線型結合として式(03)により定義されている。この線型結合は、M個のガウス分布のうち状態xがしたがうガウス分布を表わす離散隠れ変数zがiである確率pz(i)=ωi,xを結合係数としている。
p(x)=Σi=1-Mωi,x{1/(2π)D/2i|1/2}exp{-(1/2)(x-μi)TΣi -1(x-μi)}
i=1-Mωi,xN(x|μi,xΣi,x) (0≦ωi≦1、Σi=1-mωi=1) ..(03)
たとえば、M=2の場合、確率分布p(x)は式(03’)により定義される。
p(x)=ω1,xN(x|μ1,xΣ1,x)+ω2,xN(x|μ2,xΣ2,x) ..(03’)
この場合、図3(a)に示されているように、状態確率分布p(x)(実線)は、第1ガウス分布p1(x)=N(x|μ1,x,Σ1,x)(一点鎖線)および第2ガウス分布p2(x)=N(x|μ2,x,Σ2,x)(二点鎖線)の線型結合により定義される。ここで、第1ガウス分布の平均値μ1,xは正値であり、第2ガウス分布の平均値μ2,xは負値である。また、状態xは図示のために1次元の変数として表現されているが、複数次元の変数(ベクトル)であってもよい。
図3(a)から明らかなように、確率変数としての状態(または状態変数)xの確率分布が、M個のガウス分布の線型結合により、1つの極大値のみを有する単峰性の確率分布ではなく、複数の極大値を有する多峰性の確率分布として表現されうる。
条件付き確率p(u|x)は、平均が状態xの線型関数aix+biにより表わされ、分散Σi,xを有するM個の線形ガウスモデルN(x|aix+bi,Σi,x)の重み付け和として式(04)により定義されている。
p(u|x)=Σi=1-Mωi,u|xN(x|aix+bi, Σi,x),
ωi,u|xixN(x|μi,xΣi,x)/Σj=1-MωjxN(x|μj,xΣj,x) ..(04)
M=2の場合、条件付き確率分布p(u|x)は、第1線形ガウスモデルN(x|a1x+b1,Σ1,x)および第2線形ガウスモデルN(x|a2x+b2,Σ2,x)の重み付け和として式(04’)により定義される。
p(u|x)=ω1,u|xN(x|a1x+b11,x)+ω2,u|xN(x|a2x+b22,x),
ωi,u|xixN(x|μi,xΣi,x)/{ω1xN(x|μ2,xΣ2,x)+ω2xN(x|a2x+b22,x)} ..(04’)
条件付き確率分布p(u|x)は、後述するように同時確率分布p(x,u)を用いて更新される。同時確率分布p(x,u)は、確率分布p(x)および条件付き確率分布p(u|x)に基づき、式(05)にしたがって定義される。
p(u,x)=p(x)p(u|x)= Σi=1-Mωi,xN(u,x|μi,uxΣi,ux),
μi,ux=t(aiμi,x+bi, μi,x),
Σi,ux={Qij}, Q11i,u|x+aiΣi,x -1ai T, Q12i,xai T, Q21=aiΣi,x, Q22i,x ..(05)
M=2の場合、同時確率分布p(u,x)には、第1稜線f(L1)と、第2稜線f(L2)とが存在する(図4(a)〜(c)参照)。ここで、行動uは図示のために1次元の変数として表現されているが、複数次元の変数(ベクトル)であってもよい。第1稜線f(L1)は、第1線形ガウスモデルN(x|a1x+b1,Σ1,x)の寄与により、同時確率分布p(u,x)が極大値を示す位置を表わしている。第2稜線f(L2)は、第2線形ガウスモデルN(x|a2x+b2,Σ2,x)の寄与により、同時確率分布p(u,x)が極大値を示す位置を表わしている。
第1線型関数a1x+b1は、x−u平面に対する第1稜線f(L1)の投影線L1を表わしている(図5(a)〜(c)参照)。第2線型関数a2x+b2は、x−u平面に対する第2稜線f(L2)の投影線L2を表わしている(図5(a)〜(c)参照)。なお、第1線形ガウスモデルおよび第2線形ガウスモデルのそれぞれの平均値は、状態xの1次関数ではなく、状態xの2次以上の関数により表現されてもよい。
M=2であって、初期化によりたとえばa1=0,b1=0,a2=0,b2=0とされた場合、同時確率分布p(x,u)は、初期段階では図4(a)に示されているように、x方向に幅を有する帯が、u方向についてu=0付近で隆起したような形状になっている。この段階では、第1稜線f(L1)および第2稜線f(L2)は一致しており、図5(a)に示されているように第1投影線L1および第2投影線L2も一致している。
サンプリング時刻tにおいて、状態x(t)が周期的に測定または観測される(図2/STEP004)。
測定された状態x(t)に応じて、パラメータθxの値および十分統計量の推定値Sx^が更新されることにより、確率分布p(x)が更新される(図2/STEP006)。
これにより、たとえば、状態xの測定値として、正値の出現頻度が、負値の出現頻度よりも高い場合、平均値μ1,xが正である第1ガウス分布p1(x)の重み係数ω1xの値が増やされる一方、平均値μ2,xが負である第2ガウス分布p2(x)の重み係数ω2xの値が減らされる。また、状態xの測定値が特定の正値の周辺に集中した場合、第1ガウス分布p1(x)は、その平均値μ1,xが当該特定の正値に近づき、かつ、分散Σ1,xが小さくなるように更新される。
なお、線形結合される確率分布としてはガウス分布のほか、ラプラス分布、レイリー分布、三角分布またはロジスティック分布など、単峰性の(唯一の極大値を有する)任意の確率分布が採用されてもよい。
確率分布p(x)は、図3(a)に示されている状態から更新が繰り返されることにより、図3(b)に示されている状態に遷移する。
続いて、条件付き確率分布p(u|x)の更新回数を表わすフラグgが「1」に初期化され(図2/STEP008)、その上で条件付き確率分布p(u|x)の更新処理が実行される。
具体的には、まず、条件付き確率分布p(u|x)が、確率分布p(x)の今回更新結果および同時確率分布p(u,x)の前回更新結果に基づき、式(06)にしたがって初期更新される(図2/STEP010)。ここで「前回」および「今回」とは、前回および今回のサンプリング周期中に得られた結果であることを示している。同時確率分布p(u,x)の前回更新結果は、状態xの前回測定値に応じた、確率分布p(x)の前回更新結果および条件付き確率分布p(u|x)の前回更新結果に基づき、式(05)にしたがって計算された上で、システムを構成する記憶装置に格納されている。
p(u|x)=p(u,x)/p(x) ..(06)
続いて、条件付き確率p(u|x(t))にしたがって、N個の行動候補ui(t)(i=1,2,‥,N)が生成される(図2/STEP012)。
たとえば、図7(a)に示されているように条件付き確率分布p(u|x(t))が極大値を示す位置(たとえばu=0)は、最初は評価関数f(u|x(t))が極大値を示す位置からずれている。このため、初期段階では条件付き確率分布p(u|x)が極大値を示す位置付近に多数の行動候補ui(t)(i=1,2,‥,N)が生成される。
さらに、測定された状態x(t)および評価関数f(u|x)に基づき、N個の行動候補u1(t),‥,uN(t)のそれぞれの適応度f1(t),‥,fN(t)が評価された上で、当該適応度が高い上位n個(n<N。たとえばn=0.25N)の行動候補ui(t)が選択される(図2/STEP014)。
たとえば、図7(a)に×印で示されている複数の行動候補ui(t)のうち、条件付き確率分布p(u|x(t))が極大値を示す位置よりも左側(負側)にある行動候補は、その適応度fが比較的高く評価されるため、優先的に選択される。
そして、条件付き確率分布p(u|x)が、選択された行動候補の分布p(u)に近づくように更新される(図2/STEP016)。
具体的には、条件付き確率分布p(u|x)のパラメータθu|xおよび十分統計量の推定値Su|x^が、期待値Eを最大化するという基準にしたがって更新される。期待値Eは、測定された状態x=x(t)に応じた評価関数f(u|x)および条件付き確率分布p(u|x)の積の積分値として計算される。このため、期待値Eは、条件付き確率分布p(u|x)の形状特性と、評価関数f(u|x)の形状特性との類似度の高低を表わす指標となりうる。
異なる変数値の組み合わせ(θu|x,Su|x^)のそれぞれについて複数の期待値Eが計算され、当該複数の計算値のうち最高の計算値を示す変数値の組み合わせ(θu|x,Su|x^)によって条件付き確率p(u|x)が更新される。
これにより、条件付き確率分布p(u|x)が、状態x=x(t)に応じた適応度fが比較的高かった行動候補群が存在する領域にその極大値が移動するように、図7(a)の初期状態から、図7(b)および図7(c)のそれぞれに示されている状態を順に遷移しながら更新される。換言すると、条件付き確率分布p(u|x)が、図7(d)に示されているようにその極大値を示す位置が、評価関数f(u|x)が極大値を示す位置に対して最終的に一致またはほぼ一致するように更新される。
条件付き確率分布p(u|x)の極大値を移動させるため、線形ガウスモデルN(x|aix+bi,Σi,x)の平均値のx依存度を定めるパラメータ(傾きaiおよび切片bi(i=1,2))のうち少なくとも1つの値が更新される。
たとえば、図5(c)に示されているように第1投影線L1がxの正領域において、評価関数f(x|u)の稜線投影線Lにほぼ一致するように、傾きa1および切片b1の値が逐次更新される。これにより、図5(b)に両矢印で示されているように第1投影線L1の傾き(姿勢)および位置(切片)が逐次調節される。
同様に、図5(c)に示されているように第2投影線L2がxの負領域において、評価関数f(x|u)の稜線投影線Lにほぼ一致するように、傾きa2および切片b2の値が逐次更新される。これにより、図5(b)に両矢印で示されているように第2投影線L2の傾き(姿勢)および位置(切片)が逐次調節される。
フラグgが、指定回数G(たとえば「10」)以上であるか否かが判定される(図2/STEP018)。指定回数Gは、1サンプリング周期の間に条件付き確率分布p(u|x)の更新処理が可能な回数に応じて定められる。
当該判定結果が否定的である場合(図2/STEP018‥NO)、すなわち、条件付き確率分布p(u|x)の更新処理回数が指定回数未満である場合、フラグgが1だけ増やされ(図2/STEP020)、N個の行動候補ui(t)の生成以降の処理が繰り返される(図2/STEP012〜STEP018参照)。
一方、当該判定結果が肯定的である場合(図2/STEP018‥YES)、すなわち、条件付き確率分布p(u|x)の更新処理回数が指定回数に到った場合、その段階での条件付き確率分布p(u|x)の極大値またはこれに最も近い値を示す行動候補が、制御対象がしたがうべき今回行動u*(t)として出力される(図2/STEP022)。
そして、確率分布p(x)の今回更新結果(図2/STEP006参照)および条件付き確率分布p(x|u)の今回更新結果(図2/STEP016参照)に基づき、式(05)にしたがって今回の同時確率分布p(u,x)が更新される(図2/STEP024(図4(a)〜(c)参照))。
上記のように第1線形ガウスモデルN(x|a1x+b1,Σ1,x)および第2線形ガウスモデルN(x|a2x+b2,Σ2,x)の更新が繰り返されることにより(図5(b)参照)、図4(b)に両矢印で示されているように同時確率分布p(u,x)もその位置、姿勢および形状(高さ)を変化させながら更新されうる。
さらに、同時確率分布p(u,x)の今回更新結果は、条件付き確率分布p(u|x)の次回更新に際して利用される(図2/STEP010参照)。
以下、サンプリング時刻tごとに、状態xの測定から行動u*(t)の出力までの一連の処理が繰り返し実行される(図2/STEP004〜STEP024参照)。
(本発明の作用効果)
本発明の最適制御システムによれば、状態xに関する演算処理を主担当する状態推定要素110および方策記憶要素120と、行動uに関する演算処理を主担当する行動探索要素200とのそれぞれにより、相手方の演算処理結果が相互利用される。
具体的には、方策記憶要素120が、状態推定要素110による確率分布p(x)の今回更新結果(図2/STEP006参照)と、行動探索要素200による条件付き確率分布p(u|x)の今回更新結果(図2/STEP016参照)とに基づき、同時確率分布p(u,x)の今回更新結果を取得する(図2/STEP024参照)。
その一方、行動探索要素200が、状態推定要素110による確率分布p(x)の今回更新結果(図2/STEP006参照)と、方策記憶要素120による同時確率分布p(u,x)の前回更新結果(図2/STEP024参照)とに基づき、条件付き確率分布p(u|x)の今回更新結果を取得するための今回基準となる条件付き確率分布p(u|x)を定める(図2/STEP010参照)。
すなわち、方策記憶要素110による前回までの学習結果の蓄積である同時確率分布p(u,x)が利用されることにより、行動探索要素200による条件付き確率分布p(u|x)の更新が繰り返される。前記実施例でいうと、第1稜線投影線L1および第2稜線投影線L2のそれぞれの位置および姿勢が、サンプリング周期ごとに初期状態(図5(a)参照)にリセットされることなく、前回サンプリング周期の終了時点の状態(図5(b)参照)を基準として、今回サンプリング周期中にG回にわたり変更されうる。
その結果、同時確率分布p(u,x)が、サンプリング周期ごとに初期状態(図4(a)参照)にリセットされることなく、前回サンプリング周期の終了時点の状態(図4(b)参照)を基準として、今回サンプリング周期中に変更されうる。
このため、方策記憶要素110による条件付き確率分布p(u|x)の更新が繰り返されるたびに、状態xおよび行動uの相関関係を表わす同時確率分布p(u,x)が、その形状特性が評価関数f(u|x)の形状特性に徐々に近似するように行動探索要素200により更新されうる(図4(a)〜(c)および図6参照)。
これにより、状態xおよびこれに応じた行動uのそれぞれの確率変数としての分布特性が未知である制御対象について、各時点(各サンプリング時刻)における最適な解が探索され、かつ、解の探索が繰り返されるたびに解(行動u*)の最適化が図られる。たとえば、初期段階では最適ではないもののこれに可能な限り近い行動u*が、状態xの今回測定結果に応じて限られたサンプリング周期の中でも決定されうる。そして、初期段階以降の段階に進み、同時確率分布p(u,x)の更新が繰り返されるたびに、この制御対象がしたがうべき行動u*の最適化が図られる。
同時確率分布p(u,x)の今回更新結果と前回更新結果との差異が小さく、ある程度安定した段階での同時確率分布p(u,x)が記憶装置に格納されることにより、その後、状態xの測定値に基づき、当該同時確率分布p(u,x)にしたがって、制御対象の動作を制御するために最適な行動が出力されうる。
また、確率分布p(x)が、単峰性の複数の確率分布の線形結合として定義されている(式(03)、図3(a)(b)参照)。さらに、条件付き確率分布p(u|x)が、状態xに対する平均値の依存性が異なる複数の条件付き確率分布の線形結合として定義されている(式(04)、図4(a)〜(c)、図5(a)〜(c)参照)。
このため、状態確率分布が複数の極大値を有する多峰性を示す制御対象についても、状態xの測定結果に応じて更新される確率分布p(x)が整合するように更新されうる(図3(a)(b)参照)。これにより、上記のように確率分布p(x)の更新結果に応じて更新される同時確率分布p(u,x)に基づき、この制御対象の制御にとってその時点における最適行動u*が決定されうる。
110‥状態推定要素、120‥方策記憶要素、200‥行動探索要素。

Claims (3)

  1. 制御対象の最適行動を決定するための最適制御システムであって、
    前記制御対象の状態xの各回の測定結果に応じて、状態xの確率分布p(x)を更新するように構成されている状態推定要素と、
    前記制御対象の状態xの各回の測定結果に応じて、状態xおよび行動uの同時確率分布p(u,x)を更新するように構成されている方策記憶要素と、
    条件付き確率分布p(u|x)に応じた複数の行動候補uiの生成と、当該複数の行動候補のそれぞれの評価関数f(u|x)に鑑みた適合度fiの評価と、当該評価結果に応じた行動候補の選定と、当該選定行動候補の分布特性を評価関数f(u|x)の形状特性に近似させるような条件付き確率分布p(u|x)の更新とを繰り返すことにより、条件付き確率分布p(u|x)の今回更新結果を取得するとともに、適合度に鑑みて適当な最適行動u*を前記制御対象がしたがうべき行動として決定するように構成されている行動探索要素とを備え、
    前記方策記憶要素が、確率分布p(x)の今回更新結果と、前記行動探索要素による条件付き確率分布p(u|x)の今回更新結果とに基づき、同時確率分布p(u,x)の今回更新結果を取得するように構成され、
    前記行動探索要素が、前記状態推定要素による確率分布p(x)の今回更新結果と、前記方策記憶要素による同時確率分布p(u,x)の前回更新結果とに基づき、条件付き確率分布p(u|x)の今回更新結果を取得するための今回基準となる条件付き確率分布p(u|x)を定めるように構成されていることを特徴とする最適制御システム。
  2. 請求項1記載の最適制御システムにおいて、
    前記状態推定要素が、単峰性の複数の確率分布の線形結合として定義される確率分布p(x)を更新するように構成され、
    前記行動探索要素が、状態xに対する平均値の依存性が異なる複数の条件付き確率分布の線形結合として定義される条件付き確率分布p(u|x)を更新するように構成されていることを特徴とする最適制御システム。
  3. 請求項1または2記載の最適制御システムにおいて、
    前記行動探索要素が、評価関数f(u|x)と、条件付き確率分布p(u|x)との積の積分値としての期待値Eが最高となるように条件付き確率分布p(u|x)を更新するように構成されていることを特徴とする最適制御システム。
JP2011076025A 2011-03-30 2011-03-30 最適制御システム Active JP5677167B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011076025A JP5677167B2 (ja) 2011-03-30 2011-03-30 最適制御システム
US13/421,206 US8732099B2 (en) 2011-03-30 2012-03-15 Optimization control system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011076025A JP5677167B2 (ja) 2011-03-30 2011-03-30 最適制御システム

Publications (2)

Publication Number Publication Date
JP2012208902A true JP2012208902A (ja) 2012-10-25
JP5677167B2 JP5677167B2 (ja) 2015-02-25

Family

ID=46928582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011076025A Active JP5677167B2 (ja) 2011-03-30 2011-03-30 最適制御システム

Country Status (2)

Country Link
US (1) US8732099B2 (ja)
JP (1) JP5677167B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021512398A (ja) * 2018-01-22 2021-05-13 ディー−ウェイブ システムズ インコーポレイテッド アナログプロセッサの性能を向上させるシステム及び方法
JPWO2020137019A1 (ja) * 2018-12-27 2021-11-04 日本電気株式会社 方策作成装置、制御装置、方策作成方法、及び、方策作成プログラム
WO2022071257A1 (ja) * 2020-09-29 2022-04-07 ダイキン工業株式会社 組合せ決定システム
WO2022215270A1 (ja) * 2021-04-09 2022-10-13 日本電気株式会社 予測モデル生成装置、予測モデル生成方法及び非一時的なコンピュータ可読媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287523B (zh) * 2019-05-16 2023-07-18 中国人民解放军海军工程大学 模块化贮存模式下多批次部件的备件方案优化方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314883A (ja) 1995-05-12 1996-11-29 Fujitsu Ltd 最適化問題解決方法および最適化装置
US7058617B1 (en) * 1996-05-06 2006-06-06 Pavilion Technologies, Inc. Method and apparatus for training a system model with gain constraints
EP1205877A1 (en) 2000-11-14 2002-05-15 Honda R&D Europe (Deutschland) GmbH Approximate fitness functions

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200100779005; 吉本潤一郎,他2名: 'オンラインEM強化学習法を用いた連続システムの自動制御' 電子情報通信学会技術研究報告 第100巻,第88号, 20000518, pp.29-36, 社団法人電子情報通信学会 *
JPN6014050698; 吉本潤一郎,他2名: 'オンラインEM強化学習法を用いた連続システムの自動制御' 電子情報通信学会技術研究報告 第100巻,第88号, 20000518, pp.29-36, 社団法人電子情報通信学会 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021512398A (ja) * 2018-01-22 2021-05-13 ディー−ウェイブ システムズ インコーポレイテッド アナログプロセッサの性能を向上させるシステム及び方法
JP7220222B2 (ja) 2018-01-22 2023-02-09 ディー-ウェイブ システムズ インコーポレイテッド アナログプロセッサの性能を向上させるシステム及び方法
JPWO2020137019A1 (ja) * 2018-12-27 2021-11-04 日本電気株式会社 方策作成装置、制御装置、方策作成方法、及び、方策作成プログラム
JP7201958B2 (ja) 2018-12-27 2023-01-11 日本電気株式会社 方策作成装置、制御装置、方策作成方法、及び、方策作成プログラム
US11841689B2 (en) 2018-12-27 2023-12-12 Nec Corporation Policy creation apparatus, control apparatus, policy creation method, and non-transitory computer readable medium storing policy creation program
WO2022071257A1 (ja) * 2020-09-29 2022-04-07 ダイキン工業株式会社 組合せ決定システム
JP2022056130A (ja) * 2020-09-29 2022-04-08 ダイキン工業株式会社 組合せ決定システム
JP7111997B2 (ja) 2020-09-29 2022-08-03 ダイキン工業株式会社 組合せ決定システム
CN116324785A (zh) * 2020-09-29 2023-06-23 大金工业株式会社 组合决定系统
WO2022215270A1 (ja) * 2021-04-09 2022-10-13 日本電気株式会社 予測モデル生成装置、予測モデル生成方法及び非一時的なコンピュータ可読媒体

Also Published As

Publication number Publication date
JP5677167B2 (ja) 2015-02-25
US8732099B2 (en) 2014-05-20
US20120254081A1 (en) 2012-10-04

Similar Documents

Publication Publication Date Title
JP5677167B2 (ja) 最適制御システム
US10207407B1 (en) Robotic operation libraries
JP6513015B2 (ja) 機械の動作を制御する方法、および機械の動作を反復的に制御する制御システム
US20150100194A1 (en) Trajectory generation device, moving object, trajectory generation method
Du et al. Applying particle swarm optimization algorithm to roundness error evaluation based on minimum zone circle
Lin et al. Parameter determination and feature selection for C4. 5 algorithm using scatter search approach
JP7215077B2 (ja) 予測プログラム、予測方法及び予測装置
US9384448B2 (en) Action-based models to identify learned tasks
JP6529096B2 (ja) シミュレートシステム、シミュレート方法およびシミュレート用プログラム
Cosenza et al. Autotuning stencil computations with structural ordinal regression learning
Collins et al. Traversing the reality gap via simulator tuning
Zhu et al. Model identification via physics engines for improved policy search
JP6947029B2 (ja) 制御装置、それを使用する情報処理装置、制御方法、並びにコンピュータ・プログラム
Bardsiri et al. Towards improvement of analogy-based software development effort estimation: A review
Van Heerden et al. A combination of particle swarm optimization and model predictive control on graphics hardware for real-time trajectory planning of the under-actuated nonlinear Acrobot
Le et al. Importance sampling policy gradient algorithms in reproducing kernel hilbert space
EP3536467A1 (en) Action transfer device, action transfer method, and non-temporary computer readable medium having action transfer program stored thereon
Fountain et al. Motivated reinforcement learning for improved head actuation of humanoid robots
Theodoropoulos et al. Cyber-physical systems in non-rigid assemblies: A methodology for the calibration of deformable object reconstruction models
JP2022011858A (ja) 予測モデルの学習方法、予測モデルの学習装置、及び、プラント制御システム
Wang et al. Jacobian estimation with adaptive Kalman filter for uncalibrated visual servoing
García et al. Incremental reinforcement learning for multi-objective robotic tasks
JP6368212B2 (ja) 高分子材料のシミュレーション方法
Sisikoglu et al. A sampled fictitious play based learning algorithm for infinite horizon markov decision processes
Branke et al. Optimization in dynamic environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141226

R150 Certificate of patent or registration of utility model

Ref document number: 5677167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150