JP4630553B2 - 動的制御装置および動的制御装置を用いた2足歩行移動体 - Google Patents

動的制御装置および動的制御装置を用いた2足歩行移動体 Download PDF

Info

Publication number
JP4630553B2
JP4630553B2 JP2004008130A JP2004008130A JP4630553B2 JP 4630553 B2 JP4630553 B2 JP 4630553B2 JP 2004008130 A JP2004008130 A JP 2004008130A JP 2004008130 A JP2004008130 A JP 2004008130A JP 4630553 B2 JP4630553 B2 JP 4630553B2
Authority
JP
Japan
Prior art keywords
state
control
control device
feedback
dynamic control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004008130A
Other languages
English (en)
Other versions
JP2005199383A (ja
Inventor
淳 森本
崇充 松原
雅昭 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Sony Corp
Original Assignee
ATR Advanced Telecommunications Research Institute International
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International, Sony Corp filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004008130A priority Critical patent/JP4630553B2/ja
Publication of JP2005199383A publication Critical patent/JP2005199383A/ja
Application granted granted Critical
Publication of JP4630553B2 publication Critical patent/JP4630553B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Manipulator (AREA)

Description

本発明は、非線形の制御対象に関し、2足歩行等の周期運動や、状態観測器を実現する上で有効となる動的制御装置と動的制御装置を用いた2足歩行移動体とに関する。
ロボットなどを制御しようとするとき、センサノイズや、そもそもセンサを配置することができないことによって、制御のために必要な状態変数を直接的には測定できない状況が考えられる。
そのような場合、状態観測器(オブザーバ)(たとえば、非特許文献1を参照)やカルマンフィルタ(たとえば、非特許文献2、非特許文献3を参照)を用いることが一般的である。しかしながら、対象のダイナミクスが非線形である場合、これらの手法では隠れ状態の推定は困難な場合がある。近年、非線形系に適用可能なオブザーバの提案がなされているものの、それぞれ特定の条件を満たさなければ適用できないなどの問題がある(たとえば、非特許文献4、非特許文献5を参照)。
また、拡張カルマンフィルタ(局所線形モデルを用いて状態分布の更新を行なう)(たとえば、非特許文献3を参照)やモンテカルロフィルタ(モンテカルロ法により生成した多数の粒子により状態分布を近似する)(たとえば、非特許文献6を参照)などの手法が非線形系での状態推定法として知られているが、いずれも状態分布を陽に求めなければならない。
すなわち、従来の制御器は、基本的には、現在の状態を観測し、そこからの直接の写像によって制御出力を与える必要がある。
D.G. Luenberger著、"An introduction to observers"、IEEE Trans., AC, Vol.16, pp. 596--602, 1971. R.E. Kalman and R.S. Bucy著、"New results in linear filtering and prediction theory"、Trans., ASME, Series D, J. of Basic Engineering, Vol.83, No.1, pp. 95--108, 1961. F.L. Lewis著、"Optimal Estimation: with an Introduction to Stochastic Control Theory"、John Wiley \& Sons, 1977. 志水清孝, 鈴木俊輔, 田中哲史著、"こう配降下法による非線形オブザーバ(非線形システムの状態観測器)"、電子情報通信学会論文誌 A, Vol. J83-A, No.8, pp. 956--964, 2000. H.Nijimeijer and T.L. Fossen著、"Directions in Nonlinear Observer Design"、Springer-Verlag, London, 1999. G.Kitagawa著、"Monte Carlo Filter and Smoother for Non-Gaussian Nonlinear State Models"、Journal of Computational and Graphical Statistics, Vol.5, pp. 1--25, 1996.
本発明の目的は、制御器に内部状態とダイナミクスを持たせることで、周期運動に対し状態観測器の学習を容易とすることが可能な動的制御装置およびこのような動的制御装置を用いた2足歩行移動体を提供することである。
本発明では、学習の目的は、ある瞬間での推定誤差を少なくするのではなく、タスクを行なっている期間を通じての推定誤差を少なくすることである。そこで、方策勾配法(強化学習)の枠組みを用いて非線形状態観測器の構築を行なっている。
本発明の1つの局面では、状態観測器のダイナミクスへの入力を学習器の行動と考え、現在の観測可能な状態(観測出力)、状態観測器の状態、制御器の出力から、適切に状態観測器の状態を制御対象の状態へと導く行動則を方策勾配法によって獲得している。
したがって、この発明の1つの局面に従うと、御対象に対する制御信号を生成するための動的制御装置であって、制御対象の状態情報を検知するためのセンサ群と、周期的な時間発展を行なう内部状態を有し、制御対象の状態推定を行なって、制御対象に対する制御信号を生成する制御手段を備え、制御手段は、センサ群から得られる状態情報のみで構成される状態空間を用いた方策勾配法による強化学習を行い、制御対象から得られる状態情報と制御信号により規定される報酬に基づく価値関数と強化学習中に得られる報酬系列とに基づいて、フィードバックパラメータを更新し、更新されたフィードバックパラメータにより規定される確率分布により出力値を決定するフィードバック制御器と、周期的な時間発展を行なう内部状態を有し、フィードバック制御器からの出力値に応じて変化する内部状態に基づき、内部状態に対応する目標値に対するPDサーボ系の出力として、制御信号を生成するためのセントラルパターンジェネレータとを含み、制御信号に基づいて、制御対象を駆動するための駆動手段とを備える。
好ましくは、確率分布は、フィードバックパラメータにより決定される平均値と分散とを有する正規分布により表され、価値関数は、正規化ガウスネットワークで表現される。
好ましくは、平均値は、フィードバックパラメータを重みとする正規化ガウス関数ネットワークで表現され、分散は、フィードバックパラメータによるシグモイド関数として表現され、フィードバックパラメータは、各フィードバックパラメータに対応する学習率とテンポラル・ディファレンス誤差とエリジビリティ・トレースとに応じて更新される。
好ましくは、フィードバック制御器は、出力値を所定のレベル以下に制限するための出力飽和手段を含む。
好ましくは、この発明の2足歩行移動体は、上記動的制御装置により、2足歩行制御が行なわれる。
本発明では、行動則自体が内部変数とその微分方程式によって表わされるダイナミクスを持つため、行動則と物理系の引き込みの性質を利用することができ、周期運動に対して状態推定を行なう場合に、状態観測器の学習を容易とすることが可能である。さらに、センサ入力のノイズや時間遅れに対しても、ロバストな性質を持つ制御器を実現することができる。
以下、図面を参照して本発明の実施の形態について説明する。
以下の説明では、一例として、本発明を2足歩行の制御に適用する場合を説明するが、本発明は、必ずしもこのような場合に限定されるものではなく、たとえば、より一般的に周期運動を行なう系に対して有効な制御システムを提供するものである。特に、本発明は、周期運動を行なう劣駆動(機械)系に適用するのに適した制御システムを提供する。
[実施の形態1]
(本発明のシステム構成)
図1は、本発明の動的制御装置を用いた2足歩行移動システム1000の一例を示す概念図である。
図1を参照して、システム1000は、動的制御装置100と、動的制御装置100の上部に設けられる胴部40と、動的制御装置100により駆動制御される脚部とを備える。脚部は、右脚10rと左脚10lとを有し、各脚は、接地面近傍に設けられるセンサ20rおよび20lとを備える。一方、胴部40には、センサ30が設けられる。
センサ20rは、胴部40の中心線4に対する右脚の角度θr、角速度dθr/dtという情報を検出し、また、センサ20lは、中心線4に対する左脚の角度θl、角速度dθl/dtという情報を検出し、それぞれ、動的制御装置100に通知する。さらに、センサ30は、鉛直方向2に対する胴部40のピッチ角θp、角速度dθp/dtという情報を検出し、それぞれ、動的制御装置100に通知する。
動的制御装置100は、センサ20r、センサ20l、センサ30からの情報に基づいて、右脚10rおよび左脚10lの動作を制御する。
図2は、図1に示した動的制御装置100の構成を示すブロック図である。
図2を参照して、動的制御装置100は、センサ20r、センサ20l、センサ30からの信号を受け取る通信インタフェース106と、後に説明する制御パラメータやセンサからの情報を格納しておくための記憶装置104と、センサ20r、センサ20l、センサ30からの情報を用いて学習して獲得した動的行動則に基づき、制御信号を生成する演算処理部102と、演算処理部102からの制御信号に基づいて、右脚10rおよび左脚10lの駆動制御を行なうための駆動部108とを備える。
以下では、動的制御装置100の制御動作のための準備の処理および制御動作について説明する。
(1−1.動的行動則)
まず、本発明の制御動作を説明する前提として、「動的行動則」について説明する。
図3は、このような動的行動則を説明するための概念図である。
「動的行動則」とは、図3(1)に示すような行動則自体が内部変数とその微分方程式によって表わされるダイナミクスを持つ枠組である。
これをより具体的に表現すると、図3(2)に示すように観測器が内部変数及びその微分方程式を持つようなものや、図3(3)に示すような制御器が内部変数及びその微分方程式を持つようなものである場合が考えられる。
このような「動的行動則」に基づいて、制御対象を制御するような制御装置を「動的制御装置」と呼ぶことにする。
以下では、まず、図3(3)の枠組を用いることで、動的制御装置100により、2足歩行運動を実現する場合を考える。
行動則が内部状態を持つことによって、行動則と物理系の引き込みの性質を利用することが出来るため、周期運動や状態推定を行なう場合に有効であると考えられる。さらに、センサ入力のノイズや時間遅れに対しても、ある程度ロバストな性質を持つことが期待できる。
このような行動則を学習によって獲得する場合、行動則の内部状態が隠れ変数となることは問題となる。しかし、行動則の内部状態が物理系の状態に対して引き込むことで、それぞれの状態は一意に対応するようになる。ただし、過渡的な状態では隠れ状態を扱う必要がある。
そこで本発明では、動的行動則の獲得手法として、後に説明するように、隠れ変数が存在する環境においても適用可能な方策勾配法を用いる。
以下では、本発明の学習システムおよび、動的行動則を構成するセントラルパターンジェネレータ(central pattern generator:CPG)とCPGへのフィードバック制御器について説明を行なう。
(1−2.学習システム)
以下の説明では、周期運動の例として、3リンク2足歩行ロボットモデルを用いた2足歩行運動に対して動的行動則を適用する。
図4は、図2で説明した演算処理部102の行なう処理を示す機能ブロック図である。以下に説明するとおり、演算処理部102は、学習システムとして機能する。
図4に示すとおり、この学習システムは、基本的に、CPG処理部1026とフィードバック制御器1022によって動的行動則を構成する。学習に用いる状態xは、以下の式で表わされる。
Figure 0004630553
ただし、上述のとおり、θr、θlは、それぞれロボットの鉛直方向からの左右の脚10r、10lの角度であり、θpは胴体40のピッチ角である。
つまり、学習システムはロボットから直接得られる信号のみで状態空間を構成しており、CPGの内部状態を用いていないという特徴を有している。
また、ここでは全状態観測を仮定し、y=xであるとする。
(1−3.セントラルパターンジェネレータ(CPG))
演算処理部102により実現される学習システムで、動的行動則を構成するCPG処理部1022の構成として、以下の式で表わされる神経振動子モデルを用いる。なお、このような神経振動子モデルについては、たとえば、文献:Kiyoshi Matsuoka著、“Sustained oscillations generated by mutually inhibiting neurons with adaptation.”、Biologial Cybernetics, Vol.52, pp. 367-376, 1985に開示がある。
Figure 0004630553
ここで、変数:z,pはニューロン内の状態、qはニューロンの出力、z0は持続入力、定数βはニューロンの疲労係数、τ、τ´は、z,pの時定数、ωは拮抗ニューロン間の結合係数である。また、aは、後に説明するフィードバック制御器からの出力項である。
図5は、式(1)〜(12)で表わされる神経振動子モデルによるCPGを示す概念図である。図5においては、ニューロン内の状態z、pの間で、相互に正の結合を行なうものは白丸で、負の結合を行なうものは黒丸で示している。
図6は、このようなCPGの出力qを構成する変数z1、z2の波形を示す図である。なお、この計算では、例として、τ=0.05、τ´=0.6、β=2.5、ω=2.0、z0=0.1、a=0を用いた。
式(1)〜(12)で表わされるモデルにしたがって、CPGの内部状態変数z1、z2が周期的に変化していることがわかる。
さらに、図4の学習システムのPDサーボ処理部1028では、以下に示すとおり、各ニューロンの出力の差を両脚のサーボ系の目標関節角θdとした。
Figure 0004630553
ただし、θl dは左脚の目標関節角、θr dは右脚の目標関節角である。
PDサーボ処理部1028の結果出力されるロボットへのトルク入力uは、次に示すPDサーボ系の出力を用いる。
Figure 0004630553
ただし、ulは左脚に対するトルク入力、urは右脚に対するトルク入力である。また、Kpは位置ゲイン、Kdは速度ゲインである。
(1−4.フィードバック制御器1022)
上述のCPGへのフィードバック制御器1022は、次の確率分布(17)によって表わされる。
Figure 0004630553
ただし、xは制御対象の状態ベクトル、wはパラメータベクトルである。
従ってj番目の出力の実現値vjは、以下の式(18)によって与えられる。
Figure 0004630553
ただし、nj(t)〜N(0,1)であり、N(0,1)は平均0、分散1の正規分布を表わす。
ここでは出力を飽和させるために、出力飽和処理部1024において、関数d()を用いて以下の式(19)のように、最終的な制御器の出力aj(t)を決定する。
Figure 0004630553
ただし、以下の説明では、一例として、d()としては、以下の式を用いる。
Figure 0004630553
ここでのaj(j=1〜4)は、式(1)の左右の脚の神経振動子の伸筋、屈筋にそれぞれ対応する。
(2.方策勾配法)
「方策勾配法」とは、パラメータ化された確率的方策に従って行動選択を行ない、方策を改善する方向に方策のパラメータを少しずつ更新する強化学習手法の1種である。以下に方策勾配法を用いた行動則の学習方法について述べる。
(2−1.連続時間・状態系でのテンポラル・ディファレンス(Temporal Difference)誤差)
連続時間・状態系のダイナミクスを以下の式(20)で表わす。
Figure 0004630553
ただし、x∈X⊂Rnは状態、u∈U⊂Rmは制御入力を表わす。
報酬は状態と制御入力の関数として、以下の式(21)で与えられるとする。
Figure 0004630553
ある制御則π(u(t)|x(t))のもとで、状態x(t)の価値関数を以下の式(22)で定義する。
Figure 0004630553
ただし、τは価値関数の時定数である。また、式(22)の両辺の時間微分から、以下の式(23)という拘束条件が与えられる。
Figure 0004630553
V(x(t))=V(x(t);w)を価値関数の予測値とする。ただし、wは評価値の予測値のパラメータである。
予測が正しければ、式(23)を満たす。予測が正しくない場合、下式(24)に示した予測誤差を減らすように学習を行なう。
Figure 0004630553
上式は連続時間系でのTD誤差である。
(2−2.方策勾配法の一般論)
動的計画法やグリーディ方策(greedy policy)などの価値関数の評価を基に学習を行なう場合では、環境がマルコフ決定過程である必要があるが、実問題に適用する場合には、ノイズやセンサの能力によってマルコフ決定過程を保証することは困難である。しかし、方策勾配法は、価値関数と共に、試行中に得られた累積報酬系列を考慮することで、環境が非マルコフ決定過程(POMDP)でも適用することが出来る。
ここで、パラメータwを持つ方策πwを用いた場合、以下の式(25)が成り立つ。
Figure 0004630553
ただし、以下の式(26)が成り立つ。
Figure 0004630553
ここで、κはエリジビリティ・トレース(eligibility trace)の時定数である。テンポラル・ディファレンス誤差δと方策のエリジビリティ・トレースe(t)により、価値関数の方策パラメータwに関する勾配の不偏推定量を求めることが出来ることが与えられている。このような方策勾配法については、たとえば、文献:木村元, 小林重信、“Actorに適正度の履歴を用いたactor-criticアルゴリズム-不完全なvalue-functionのもとでの強化学習”、人工知能学会誌, Vol.15, No.2, pp. 267-275, 2000に記載がある。
よって、パラメータの更新則は次の式(27)のようになる。
Figure 0004630553
ただし、ηは学習率である。
(2−3.動的行動則の学習)
以下では、上述の方策勾配法を用いて、動的行動則の獲得を行なう。
ここでは、式(17)に示したフィードバック制御器の学習を行なうことで望みの動的行動則を獲得することを考える。
(2−3−1.価値関数の更新)
まず、価値関数処理部1032において演算される、連続状態における価値関数の表現方法として、以下の式(28)による正規化ガウス関数ネットワーク(normalized Gaussian network: NGnet)を用いる。なお、正規化ガウス関数ネットワークについては、後に説明する。
Figure 0004630553
ただし、bi c()は、正規化処理部1030においてxに施される基底関数であり、wi cは価値関数のパラメータである。
パラメータwi cに対するエリジビリティ・トレースei cと、TD誤差を用いたパラメータwi cの更新式は、それぞれ以下の式(29)および(30)のようになる。
Figure 0004630553
ただし、αは価値関数の学習率、κcはエリジビリティ・トレースの時定数である。
(2−3−2.フィードバック制御器の更新)
式(17)に示した確率的なフィードバック制御器1022を用いる場合、そのj番目の出力の平均μjと標準偏差σjに関するエリジビリティは式(26)右辺第2項と同様、それぞれ以下のように与えられる。
Figure 0004630553
ここではさらに、以下の式(33)および(34)のように、平均μを正規化ガウス関数ネットワークによって表わし、標準偏差σをシグモイド関数によって表わす。
Figure 0004630553
ただし、ノーテーションとしては以下のとおりである。
Figure 0004630553
これらのパラメータに対応するエリジビリティは以下の式(35)および(36)のように求められる。
Figure 0004630553
上式(35)(36)と式(26)(27)を考慮すると、以下の式(37)および(38)のようなフィードバックパラメータの更新則が得られる。
Figure 0004630553
ただし、ノーテーションとしては以下のとおりである。
Figure 0004630553
また、式(35)(36)において、パラメータσが分母となっていることにより、σが0へと近付くとエリジビリティが発散することが問題となる。そこでエリジビリティ・トレースの更新には式(26)の代わりに次式を用いる。
Figure 0004630553
ただし、ノーテーションとしては以下のとおりである。
Figure 0004630553
(2−4.具体例)
図4に示した学習システムにおいて、数値シミュレーションを行なった結果について以下説明する。
このシミュレーションにおいて、図1に示した2足歩行移動システム1000(2足歩行ロボット)は、脚長が0.2m、両脚の質量がそれぞれ0.5kgとし、胴体が0.1kgであるものとした。さらに、膝関節がないことを考慮して、遊脚を振り出す場合は足先が地面を通過出来るように設定した。
それぞれの学習パラメータは、以下のとおりである。
Figure 0004630553
また、NGnetの基底関数は、実際にロボットが歩行運動を行なう際に必要であると予想される状態空間に格子状に均等に配置することを考え、以下のようにする。
Figure 0004630553
この結果、計5184(=12×6×12×6)個をそれぞれ、以下の範囲に均等に配置した。
Figure 0004630553
報酬関数は以下の式で表わす。
Figure 0004630553
ただし、それぞれがロボットの腰の高さに関する項rH(t)、歩行速度に関する項rS(t)は、以下の式で表わされる。
Figure 0004630553
ここで、h1はロボットの腰の高さ、h´は腰の高さのオフセット、fl,frは左右の脚の高さである。したがって、式(41)の右辺第1項は、ロボットの位置エネルギーに関連する量であり、右辺第2項はロボットの運動エネルギーに関連する量である。
以下に説明するシミュレーションでは各パラメータは、ks=0.06、kH=0.5、h´=0.15とした。また、CPGのパラメータは(1−2.学習システム)で述べたものを用いている。
計算機上でのロボット及びCPGのダイナミクスの時間刻みは1msec、学習システムの時間刻みは10msecとした。
また、シミュレーションにおいて、1学習試行の終了条件は以下のようにした。
i)17700msec経過(約100歩の歩行終了後)
ii)転倒時(ただし、同時にr=−1の報酬を与える)
(2−5.平地歩行の獲得及び、環境変化に対するロバスト性)
図7は、1試行で獲得した報酬の総和を、試行回数ごとに取った学習曲線を示す図である。図7においては、地面の傾斜0°のときの学習曲線を示している。
図7より、学習は約350回で収束しており、定常歩行運動を獲得出来ていることが分かる。
図8は、図7の学習曲線に対応する歩行の軌跡を示す図である。
図8において、(1)は学習前の歩行軌跡、(2)は600回学習後の歩行軌跡を示す。600回の学習後では、歩幅が大きくなり歩行速度も向上して、良好な歩行軌跡が得られていることがわかる。
また、600回学習試行を行なうことによって学習した各学習パラメータを用い、数度の
傾斜を付けることによって環境を変化させた場合でも、ある程度歩行動作を維持することが可能である。さらに、数回の学習試行を行なうことによって、新しい環境に適応することが出来る。これは、行動則の内部状態(ここではCPGの内部状態)と、ロボットの状態が引き込みを行なうことのよって、ロバストなリミットサイクルを構成しているからであると考えられる。
図9は、図7で獲得した歩行において、CPGの内部状態とロボットの状態の間のリミットサイクルを、CPGの内部状態z1と脚角度の時間変化として示す図である。
また、図10は、図7で獲得した歩行において、CPGの内部状態とロボットの状態の間のリミットサイクルを、脚角度、脚の角速度、CPGの内部状態z1の関係として示す図である。
外部からの擾乱に対しても、本発明の制御システムは、周期運動を継続させることが可能なことがわかる。
(2−6.報酬と獲得した運動の関係)
式(41)の報酬関数中の、速度項係数ksを変化させた場合の、ロボットの歩行速度の関係を表1に示す。
Figure 0004630553
ここで、ロボットの腰の高さに関する項の係数は、前節と同様kH=0.5とした。
表1より、速度項を増加させるとロボットの歩行速度も増加することが分かり、よってロボットのダイナミクスから構成するようなコントローラを陽に用いることなく、学習の報酬を変化させることによって、ロボットを制御出来ることが確認出来る。
(2−7.センサノイズ・時間遅れに対するロバスト性)
図7で獲得された歩行を教師信号として学習した各パラメータを初期値として用い、さらに図4の学習システムからCPGを取り除いたものを用いて、150回学習試行を行なうことによって、内部状態を持たない行動則によって2足歩行運動を獲得した。これと、図7の学習によって獲得した歩行運動を用いて、コントローラのセンサノイズ及び時間遅れに対するロバスト性について比較を行なった。
センサノイズはx1、x3に対しては、N(0,0.01)、x2、x4に対しては、N(0,0.09)を用い、時間遅れは20msecとしてシミュレーションを行なった。
図11は、センサノイズ・時間遅れに対するシミュレーション結果を示す図である。
図11において、(1)はCPG有り、(2)はCPG無しのコントローラで構成された歩行を示す。また、図11において、(a)は通常の条件での歩行、(b)はセンサノイズのある状態での歩行、(c)は時間遅れがある場合の歩行であり,また、図11中で、“→”はロボットの進行方向を表わしている。
CPGを持たない行動則で構成された歩行は、ノイズ及び時間遅れのどちらの場合についても歩行動作を保つ事は出来なかったが、図4に示した学習システムでは、ノイズ及び時間遅れがある場合でも歩行が可能であることがわかる。
よって内部状態を持つ行動則を構成することによって、センサノイズや時間遅れに対してロバストなコントローラを構成出来ることが分かる。
(3.正規化ガウス関数ネットワークによる関数近似)
2−3−1で述べた価値関数、フィードバック制御器を表現するために用いた、正規化ガウス関数ネットワークについて、以下説明する。
NGnetは3層のネットワークで構成されており、中間素子は正規化ガウス関数である。
入力ベクトルx=(x1,…,xn)Tに対して、k番目のユニットの活性化関数は、以下の式のようになる。
Figure 0004630553
ただし、ckは活性化関数の中心であり、Mkは活性化関数の形状を決定する行列である。ここで、活性化関数φk(x)を各点で総和が1になるように以下の式(43)のように正規化したものを、基底関数bk(x)とする。
Figure 0004630553
ただし、Kは基底関数の個数である。
このような正規化を行なうことによって、中心点ckが密に配置されている部分では、bk(x)は局所的な基底関数となり、ckの分布の端の部分ではbk(x)はシグモイド関数のような大域的な基底関数になる。
ネットワークの出力は、基底関数と重みの内積によって以下の式(44)ようになる。
Figure 0004630553
この出力が、図4の正規化処理部1030の出力となる。
[実施の形態1の変形例]
以上の説明では、図3(3)の構成による制御について説明した。以下では、実施の形態1の変形例として、図3(2)の構成による制御について説明する。
図12は、図3(2)の構成に相当するシステムであって、制御器と制御対象を含めたシステム全体の構成を示す図である。
図12において、状態観測器2002は、状態観測器のダイナミクス2004と、方策勾配法(強化学習)に基づいた強化学習器2006によって構成される。
状態観測器2002中の強化学習器2006は、以下に説明するとおり、制御対象の観測出力yと、状態観測器のダイナミクス2004に基づく出力と、制御器2010の制御出力uとに基づいて、学習器出力Uを出力する。出力関数処理部2030は、状態観測器2002からの推定状態に基づいて、状態観測器2002の出力を報酬演算部2020に与える。報酬演算部2020は、状態観測器2002の出力と観測対象からの観測出力yと学習器出力Uとに基づいて、報酬を計算し、強化学習器2006に与える。
(方策勾配法を用いた状態観測器の学習)
以下では、実施の形態1の変形例の状態観測器2002の構造について説明する。
状態の推定値を、xの頭部に“^”を付加して表現(=xi)(以下、本文中では「xハット」と呼ぶ)したとき、つぎのような状態観測器を考える。
Figure 0004630553
ここではまず、通常のオブザーバやカルマンフィルタ同様、対象のダイナミクスf(x,u)は既知または学習によって獲得可能であるとし、対象システムの観測出力yを基にして、現在の推定状態xハットと制御出力uから、推定状態を真の状態にどのように近づけるべきかを方策勾配法を用いて学習する。
ここでは学習器の目的を、状態観測器の出力yハット(yの頭部に“^”を付加したもの)と対象システムの出力yとの誤差を最小にすることとする。
よって、報酬演算部2020により演算される報酬関数は次のようになる。
Figure 0004630553
ただし、Q,Rは報酬関数の形を決めるパラメータである。この結果、学習器は状態観測器のダイナミクス2004への以下のようなノーテーションのフィードバック入力Uを獲得することになる。
Figure 0004630553
ここで、フィードバック入力Uは次の確率分布により表現される。
Figure 0004630553
したがって、j番目の出力の実現値Ujは、以下の式により与えられる。
Figure 0004630553
ただし、nj(t)〜N(0,1)であり、N(0,1)は、上述のとおり、平均0、分散1の正規分布を表わす。フィードバック入力Uを生成する確率分布πの更新は、二足歩行運動の学習の場合と同様に行なわれる。
このような構成によっても、周期運動に対し状態観測器の学習を容易とすることが可能な動的制御装置およびこのような動的制御装置を用いた2足歩行移動体を提供することができる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明の動的制御装置を用いた2足歩行移動システム1000の一例を示す概念図である。 図1に示した動的制御装置100の構成を示すブロック図である。 動的行動則を説明するための概念図である。 演算処理部102の行なう処理を示す機能ブロック図である。 神経振動子モデルによるCPGを示す概念図である。 CPGの出力qを構成する変数z1、z2の波形を示す図である。 1試行で獲得した報酬の総和を、試行回数ごとに取った学習曲線を示す図である。 図7の学習曲線に対応する歩行の軌跡を示す図である。 CPGの内部状態とロボットの状態の間のリミットサイクルを、CPGの内部状態z1と脚角度の時間変化として示す図である。 CPGの内部状態とロボットの状態の間のリミットサイクルを、脚角度、脚の角速度、CPGの内部状態z1の関係として示す図である。 センサノイズ・時間遅れに対するシミュレーション結果を示す図である。 制御器と制御対象を含めたシステム全体の構成を示す図である。
符号の説明
10r,10l 脚部、20r,20l,30 センサ、40 胴部、100 動的制御装置、102 演算処理部、104 記憶装置、106 通信インタフェース、108 駆動部、1000 2足歩行移動システム。

Claims (5)

  1. 御対象に対する制御信号を生成するための動的制御装置であって、
    前記制御対象の状態情報を検知するためのセンサ群と、
    周期的な時間発展を行なう内部状態を有し、前記制御対象の状態推定を行なって、前記制御対象に対する前記制御信号を生成する制御手段を備え、
    前記制御手段は、
    前記センサ群から得られる前記状態情報のみで構成される状態空間を用いた方策勾配法による強化学習を行い、前記制御対象から得られる前記状態情報と前記制御信号により規定される報酬に基づく価値関数と前記強化学習中に得られる報酬系列とに基づいて、フィードバックパラメータを更新し、更新された前記フィードバックパラメータにより規定される確率分布により出力値を決定するフィードバック制御器と、
    前記周期的な時間発展を行なう前記内部状態を有し、前記フィードバック制御器からの前記出力値に応じて変化する前記内部状態に基づき、前記内部状態に対応する目標値に対するPDサーボ系の出力として、前記制御信号を生成するためのセントラルパターンジェネレータとを含み、
    前記制御信号に基づいて、前記制御対象を駆動するための駆動手段とを備える、動的制御装置。
  2. 前記確率分布は、前記フィードバックパラメータにより決定される平均値と分散とを有する正規分布により表され、
    前記価値関数は、正規化ガウスネットワークで表現される、請求項1記載の動的制御装置。
  3. 前記平均値は、前記フィードバックパラメータを重みとする正規化ガウス関数ネットワークで表現され、
    前記分散は、前記フィードバックパラメータによるシグモイド関数として表現され、
    前記フィードバックパラメータは、各前記フィードバックパラメータに対応する学習率とテンポラル・ディファレンス誤差とエリジビリティ・トレースとに応じて更新される、請求項2記載の動的制御装置。
  4. 前記フィードバック制御器は、前記出力値を所定のレベル以下に制限するための出力飽和手段を含む、請求項2記載の動的制御装置。
  5. 請求項1〜のいずれか1項に記載される動的制御装置により、2足歩行制御が行なわれる、2足歩行移動体。
JP2004008130A 2004-01-15 2004-01-15 動的制御装置および動的制御装置を用いた2足歩行移動体 Expired - Fee Related JP4630553B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004008130A JP4630553B2 (ja) 2004-01-15 2004-01-15 動的制御装置および動的制御装置を用いた2足歩行移動体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004008130A JP4630553B2 (ja) 2004-01-15 2004-01-15 動的制御装置および動的制御装置を用いた2足歩行移動体

Publications (2)

Publication Number Publication Date
JP2005199383A JP2005199383A (ja) 2005-07-28
JP4630553B2 true JP4630553B2 (ja) 2011-02-09

Family

ID=34821588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004008130A Expired - Fee Related JP4630553B2 (ja) 2004-01-15 2004-01-15 動的制御装置および動的制御装置を用いた2足歩行移動体

Country Status (1)

Country Link
JP (1) JP4630553B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916071B (zh) * 2010-08-04 2012-05-02 中国科学院自动化研究所 仿生机器鱼运动的cpg反馈控制方法
CN102375412B (zh) * 2010-08-13 2013-05-01 同济大学 基于韵律模式的机器人未知环境下行走学习信息处理方法
JP6522488B2 (ja) * 2015-07-31 2019-05-29 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
DE102016015936B4 (de) 2015-07-31 2024-08-29 Fanuc Corporation Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsysem zum Lernen eines Werkstückaufnahmevorgangs
JP6240689B2 (ja) 2015-07-31 2017-11-29 ファナック株式会社 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
JP6662746B2 (ja) * 2016-10-07 2020-03-11 ファナック株式会社 機械学習部を備えた作業補助システム
JP7133533B2 (ja) * 2019-11-11 2022-09-08 本田技研工業株式会社 二足歩行ロボット、および二足歩行ロボットの制御方法
WO2023044878A1 (zh) * 2021-09-26 2023-03-30 西门子股份公司 运动控制方法及装置

Also Published As

Publication number Publication date
JP2005199383A (ja) 2005-07-28

Similar Documents

Publication Publication Date Title
JP4644833B2 (ja) 2足歩行移動装置
Nakamura et al. Reinforcement learning for a biped robot based on a CPG-actor-critic method
Sartoretti et al. Distributed learning of decentralized control policies for articulated mobile robots
Van de Panne et al. Sensor-actuator networks
Wang et al. Machine learning algorithms in bipedal robot control
Semwal et al. Less computationally intensive fuzzy logic (type-1)-based controller for humanoid push recovery
Chew et al. Dynamic bipedal walking assisted by learning
Baydin Evolution of central pattern generators for the control of a five-link bipedal walking mechanism
JP4630553B2 (ja) 動的制御装置および動的制御装置を用いた2足歩行移動体
Sartoretti et al. Distributed learning for the decentralized control of articulated mobile robots
Solomon et al. Fully interconnected, linear control for limit cycle walking
Kim et al. Learning and generalization of dynamic movement primitives by hierarchical deep reinforcement learning from demonstration
Brakel et al. Learning coordinated terrain-adaptive locomotion by imitating a centroidal dynamics planner
Rose et al. End-to-end deep reinforcement learning for exoskeleton control
CN114740875B (zh) 基于神经振荡器的机器人节律运动控制方法及系统
Laud et al. Reinforcement learning and shaping: Encouraging intended behaviors
Schumacher et al. Natural and robust walking using reinforcement learning without demonstrations in high-dimensional musculoskeletal models
Shirwatkar et al. Force control for robust quadruped locomotion: A linear policy approach
Zhang et al. Teach biped robots to walk via gait principles and reinforcement learning with adversarial critics
Lee et al. Combining GRN modeling and demonstration-based programming for robot control
Jiang et al. Motion sequence learning for robot walking based on pose optimization
Wawrzyński Autonomous reinforcement learning with experience replay for humanoid gait optimization
Takase et al. Evolving spiking neural network for robot locomotion generation
Sharma et al. Incorporating forgetting mechanism in Q, learning algorithm for locomotion of bipedal walking robot
Yang et al. Truncated Fourier series formulation for bipedal walking balance control

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4630553

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees