JP5921979B2 - 制御システム - Google Patents

制御システム Download PDF

Info

Publication number
JP5921979B2
JP5921979B2 JP2012156025A JP2012156025A JP5921979B2 JP 5921979 B2 JP5921979 B2 JP 5921979B2 JP 2012156025 A JP2012156025 A JP 2012156025A JP 2012156025 A JP2012156025 A JP 2012156025A JP 5921979 B2 JP5921979 B2 JP 5921979B2
Authority
JP
Japan
Prior art keywords
value
variable
action command
learning
hyperparameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012156025A
Other languages
English (en)
Other versions
JP2014016972A (ja
Inventor
拓未 上岡
拓未 上岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2012156025A priority Critical patent/JP5921979B2/ja
Publication of JP2014016972A publication Critical patent/JP2014016972A/ja
Application granted granted Critical
Publication of JP5921979B2 publication Critical patent/JP5921979B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、ロボット等の制御対象の動作を制御するように構成されているシステムに関する。
任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させるための技術的手法が提案されている(特許文献1参照)。周波数帯域の高低に応じて階層化されている複数のモジュールのそれぞれが、自己モジュールが主担当する主目的を他のモジュールが主担当する副目的よりも優先させながら、主目的及び副目的に適合するロボットの行動形態の候補である行動候補を探索するように構成されている。低周波の第j+1モジュールにより探索されたロボットの行動候補よりも、高周波の第jモジュールにより探索されたロボットの行動候補を優先的に反映させた形でロボットの行動が制御される。
連続状態変数及び離散状態変数の組み合わせ最適化問題の解導出の高速化を図るための技術的手法が提案されている(特許文献2参照)。内部モジュールによる行動候補の探索範囲(第1探索範囲)を、低周波の外部モジュールによる外部行動候補の探索範囲(第2探索範囲)よりも狭くする分だけ演算処理が早くなる。これにより、ロボットの状態測定値に鑑みて、ロボットが外乱に緊急に対応する必要がある場合、低周波の外部モジュールの演算処理結果を待たずに、高周波の内部モジュールの演算処理結果にしたがってロボットの動作が制御される。
特開2011−051088号公報 特開2011−240475号公報
しかし、周波数の高低が異なる複数のモジュールが具備されていない場合、前記手法は適用されえない。特に、当該複数のモジュールのうち一部が、制御対象の外部に別個に設けられている外部モジュールである場合、外部モジュールが存在しない環境下では前記手法は適用されえない。
そこで、本発明は、周波数の高低が異なる複数のモジュールが存在しない状況でも、制御対象の状態に応じて、演算処理負荷の軽減を図りながら、当該制御対象の行動を適当に制御することができるシステムを提供することを課題とする。
本発明の制御システムは、予め収集されている制御対象の状態を表わす状態変数の測定値と、前記制御対象の行動態様を表わす行動変数の最適値とに基づき、前記状態変数の測定値から前記行動変数の最適値を予測する因子を学習結果として取得するように構成されている学習要素と前記因子をもとに、前記状態変数の新たな測定値に対しての最適値と予測される前記行動変数の値を第1行動指令値として生成するように構成されている第1行動指令要素とを備えている制御システムであって、前記制御システムが、前記第1行動指令値にしたがって、前記制御対象の動作を制御するように構成され、前記学習要素が、前記予め収集されている状態変数の測定値と、行動変数の最適値とに基づき、前記状態変数を主変数とする基底関数の線形結合により前記行動変数が表現され、かつ、前記基底関数としてカーネル関数が用いられている回帰学習モデルにしたがって、前記線形結合の結合係数を前記学習結果である前記因子として取得するように構成されていることを特徴とする。
本発明の制御システムによれば、予め収集されている状態変数の測定値及び行動変数の最適値に基づき、両者の相関関係を表わす因子が学習結果として取得される。そして、学習結果及び新たな状態変数の測定値が用いられて第1行動指令値が生成され、この第1行動指令値にしたがって制御対象の動作が制御される。行動変数の最適値をリアルタイムで計算する必要がない分だけ演算処理負荷が軽減されながらも、当該最適値が反映された形態で、制御対象の動作が新たな状態変数の測定値に応じて適当に制御されうる。
前記制御システムが、前記状態変数の新たな測定値に基づき、前記第1行動指令値とは別の前記行動変数の指令値を第2行動指令値として生成するように構成されている第2行動指令要素と、前記第1行動指令値及び前記第2行動指令値のそれぞれについて、前記制御対象の所定の行動目的に鑑みた適合度を評価する評価要素と、を備え、前記第1行動指令値及び前記第2行動指令値のうち、前記適合度が高い一方の行動指令値にしたがって、前記制御対象の動作を制御するように構成されていることが好ましい。
当該構成の制御システムによれば、状態変数の測定値及び行動変数の最適値が予め収集された際に制御対象が接した外乱等の状況が再現されたかいないかに応じて、制御対象の動作が適応的に制御されうる。具体的には、当該状況が再現された場合には第1行動指令値にしたがって制御対象の動作が制御されうる一方、当該状況が再現されていない通常状態においては第2行動指令値にしたがって制御対象の動作が制御されうる。
当該構成の制御システムによれば、行動変数を探索することなく、新たな状態変数の測定値に対する行動変数の最適値を予測しうる。これにより、制御対象の動作が新たな状態変数の測定値に応じて適当に制御されうる。
当該構成の制御システムによれば、基底関数が過度に複雑な形であることに由来する因子の過学習が回避され、推定精度の向上が図られる。カーネル関数としては、ガウスカーネルのほか、多項式カーネルなどが採用されうる。
前記学習要素が、ベイズモデル選択にしたがって、前記行動変数の証拠の最大化の結果から、
前記行動変数の最適値Uと、前記基底関数Φと、確率変数として定義されている前記結合係数の事前確率分布を制御するための第1ハイパーパラメータαの成分α i (i=1〜N)と、確率変数として定義されている前記結合係数の事後確率分布を前記第1ハイパーパラメータαと協働して制御するための第2ハイパーパラメータβの成分β i (i=1〜N)と、前記第1ハイパーパラメータαの成分を対角要素とする対角行列A=diag(α 1 ,‥α i ,‥α n )、前記第2ハイパーパラメータβおよび前記基底関数Φを用いて表わされる行列Σ=(A+βΦ T Φ) -1 の対角要素Σ ii と、前記第2ハイパーパラメータβ、前記カーネル関数の幅σ、前記基底関数Φおよび前記行動変数の最適値Uを用いて表わされるベクトルm=βσΦ T Uの成分m i と、を用いた関係式(10)により表わされる演算処理を所定の収束条件が満足されるまで繰り返し、
α i (new) =(1−α i Σ ii )/m i 2 ,
β i (new) =||U−Φm|| 2 /{N−Σ i=1〜N (1−α i Σ ii )/m i 2 } ..(10)
これにより、前記第1ハイパーパラメータαの収束値α*および前記第2ハイパーパラメータβの収束値β*を前記学習結果として取得するように構成されていることが好ましい。
当該構成の制御システムによれば、要素の大部分が0である疎ベクトルになるように結合係数が学習結果として計算されるので、カーネル基底関数の推定精度を下げることなく当該計算量を削減できる。これにより、演算処理負荷が軽減されながらも、当該因子が反映された形態で、制御対象の動作が新たな状態変数の測定値に応じて適当に制御されうる。
本発明の一実施形態としての制御システムの構成説明図。 制御システムの機能説明図。 制御対象としてのロボットの構成説明図。 外乱(内側踏み、中央踏み及び外側踏み)に関する説明図。 状態変数xの定義に関する説明図。 取得された状態変数x(測定値)に関する説明図。 取得された行動変数u(最適値)に関する説明図。 学習結果に基づく第1行動指令値の生成結果に関する説明図。 行動変数uの評価方法に関する説明図。 学習結果(中央踏み)の適用結果に関する説明図。 学習結果(内側踏み)の適用結果に関する説明図。 学習結果(外側踏み)の適用結果に関する説明図。
(構成)
図1に示されている本発明の一実施形態としての制御システム1は、制御対象2に搭載されているコンピュータにより構成されている。制御システム1は、学習要素10と、第1行動指令要素11と、第2行動指令要素12と、評価要素14とを備えている。制御対象2には、後述するように脚式移動ロボットのほか、歩行補助装置又は車両等、アクチュエータの動作によりその行動が制御されうるあらゆる機器が含まれる。
学習要素10は、予め収集されている制御対象2の状態変数xの測定値X=(x1,‥xi,‥xnT(「T」は転置を表わす。)と、行動変数uの最適値U=(u1,‥ui,‥unTとに基づき、回帰モデルのパラメータ(因子)w=(w、・・wを学習結果として取得するように構成されている。
第1行動指令要素11は、状態変数xの新たな測定値に応じて、回帰モデルの出力から得られる行動変数uの値を第1行動指令値u1_cmdとして生成するように構成されている。第2行動指令要素12は、状態変数xの新たな測定値に基づき、第1行動指令値u1_cmdとは別の行動変数uの指令値を第2行動指令値u2_cmdとして生成するように構成されている。
評価要素14は、第1行動指令値u1_cmd及び第2行動指令値u2_cmdのそれぞれについて、制御対象2の所定の行動目的に鑑みた適合度eを評価するように構成されている。制御システム1は、第1行動指令値u1_cmd及び第2行動指令値u2_cmdのうち、適合度eが高い一方の行動指令値にしたがって、制御対象2の動作を制御するように構成されている。
(機能)
(回帰学習)
前記構成の制御システム1によれば、学習要素10が、関連ベクトルマシンとして構成される。具体的には、状態変数xの測定値X=(x1,‥xi,‥xnと、制御対象2が当該測定結果に応じて出力した行動変数uの最適値U=(u1,‥ui,‥unとを「訓練データ」として取得する(図2(a)/STEP11)。例えば、制御システム1とは別個の外部コンピュータ(クラウドコンピュータ)に対して状態変数xの測定値Xが入力され、制御対象2の厳密な運動モデル等にしたがって、行動変数uの最適値Uが計算される。当該入力X及び計算結果Uが外部コンピュータから制御システム1に対して送信又は移転される。状態変数xは、例えば制御対象2に搭載されている適当なセンサの出力信号に基づいて測定される。
学習要素10が、線形回帰モデルにしたがって、結合係数(重み係数)w*を計算する(図2(a)/STEP12)。カーネル線形回帰学習モデルによれば、関係式(02)により表現されているように、状態変数xにより定義される状態変数空間(ヒルベルト空間)における基底関数φ(x)=[k(x1,x),‥k(xn,x)]の線形結合により行動変数uが表現されている。
u=wφ(x) ..(02)。
また、当該線形結合の結合係数wiが、関係式(04)及び(06)のそれぞれにより表現されているように、ハイパーパラメータα,βに応じて事前及び事後確率分布が変化する確率変数として定義されている。第1ハイパーパラメータαは、結合係数w=(w1,‥wi,‥wnの事前確率分布を制御する目的で導入されている。第2ハイパーパラメータβは、結合係数wの事後確率分布を第1ハイパーパラメータαと共同で制御する目的で導入されている。
p(w|α1, .. αi, .. αn)=Πi=1~nN(wi|0, αi -1) ..(04)。
p(w|U, X, α, β)=N(w|m, Σ),
m=βσΦTU, Σ=(A+βΦTΦ)-1, A=diag(α1, .. αi, .. αn) ..(06)。
カーネル関数k(xi,x)としては、関係式(08)により表現されるように、状態変数空間における2点間のノルムに応じて変動するガウスカーネル関数が採用される。カーネル関数k(xi,x)としては、多項式カーネル関数等が採用されてもよい。
k(xi, x)=exp(-||x-xi||22) (i=1, .., n) ..(08)。
学習要素10が、ベイズモデル選択にしたがって、行動変数uの証拠(evidence)p(u)の最大化の結果から、関係式(10)により表わされる演算処理を、所定の収束条件が満足されるまで繰り返す。そして、第1ハイパーパラメータαの収束値α*及び第2ハイパーパラメータβの収束値β*が学習結果として取得される。
αi (new)=(1-αiΣii)/mi 2,
βi (new)=||U-Φm||2/{N-Σi=1~N(1-αiΣii)/mi 2} ..(10)。
行動変数uの証拠の最大化に基づくハイパーパラメータの最適化により、第1ハイパーパラメータαiは理論的に無限大となり、結合係数wiの確率p(wi)がN(w|0,0)に一致することになるため、結合重み係数wiが0に収束する。すなわち、結合係数wが、疎ベクトル(多くの要素が0であるベクトル)となるように計算される。実装上は十分に大きい上限値αmaxより大きな値を無限大として扱う。よって、αi<αmaxという条件が満たされる状態変数xi(関連ベクトル(relevance vector))が評価されればよい。
(学習結果を用いた行動制御)
第1行動指令要素11及び第2行動指令要素12のそれぞれが、状態変数xの新たな測定値を取得する(図2(b)/STEP20)。
第1行動指令要素11が、学習要素10による学習結果(w*)を用いて、関係式(02)により、状態変数xの新たな測定値に応じた第1行動指令値u1_cmdを生成する(図2(b)/STEP21)。
第2行動指令要素12が、状態変数xの新たな測定値と、制御対象2の適当な運動モデル等とに基づき、第1行動指令値u1_cmdとは別個の第2行動指令値u2_cmdを生成する(図2(b)/STEP22)。
評価要素14が、第1行動指令値u1_cmd及び第2行動指令値u2_cmdのそれぞれについて、制御対象2の所定の行動目的に鑑みた適合度e(u1)及びe(u2)を評価する(図2(b)/STEP24)。例えば、行動指令値uに応じて予測される制御対象2の状態が、当該所定の行動目的に鑑みて適当なものであるほど適合度e(u)が高く評価される。
そして、制御システム1が、第1行動指令値u1_cmd及び第2行動指令値u2_cmdのうち、適合度eが高い一方の行動指令値にしたがって制御対象2の動作を制御する(図2(b)/STEP26)。
(計算例)
制御対象として、図3に示されているロボット2の歩行中に外乱があった場合における着床位置が学習された。ロボット2は脚式移動ロボット2であり、人間と同様に、基体20と、基体20の上方に配置された頭部21と、基体20の上部に上部両側から延設された左右の腕体22と、左右の腕体22のそれぞれの先端に設けられているハンド225と、基体20の下部から下方に延設された左右の脚体24とを備えている。
基体20はヨー軸回りに相対的に回動しうるように上下に連結された上部及び下部により構成されている。頭部21は基体20に対してヨー軸回りに回動する等、動くことができる。
腕体22は第1腕体リンク222と、第2腕体リンク224とを備えている。基体20と第1腕体リンク222とは肩関節機構(第1腕関節機構)221を介して連結され、第1腕体リンク222と第2腕体リンク224とは肘関節機構(第2腕関節機構)223を介して連結され、第2腕体リンク224とハンド23とは手首関節機構(第3腕関節機構)225を介して連結されている。肩関節機構221はロール、ピッチ及びヨー軸回りの回動自由度を有し、肘関節機構223はピッチ軸回りの回動自由度を有し、手首関節機構225はロール、ピッチ、ヨー軸回りの回動自由度を有している。
脚体24は第1脚体リンク242と、第2脚体リンク244と、足部25とを備えている。基体20と第1脚体リンク242とは股関節機構(第1脚関節機構)241を介して連結され、第1脚体リンク242と第2脚体リンク244とは膝関節機構(第2脚関節機構)243を介して連結され、第2脚体リンク244と足部25とは足関節機構(第3脚関節機構)245を介して連結されている。
股関節機構241はロール、ピッチ及びロール軸回りの回動自由度を有し、膝関節機構243はピッチ軸回りの回動自由度を有し、足関節機構245はロール及びピッチ軸回りの回動自由度を有している。股関節機構241、膝関節機構243及び足関節機構245は「脚関節機構群」を構成する。
脚関節機構群に含まれる各関節機構の並進及び回転自由度は適宜変更されてもよい。股関節機構241、膝関節機構243及び足関節機構245のうち任意の1つの関節機構が省略された上で、残りの2つの関節機構の組み合わせにより脚関節機構群が構成されていてもよい。脚体24が膝関節とは別の第2脚関節機構を有する場合、当該第2脚関節機構が含まれるように脚関節機構群が構成されてもよい。足部25の底には着床時の衝撃緩和のため、特開2001−129774号公報に開示されているような弾性素材252が設けられている。
ロボット2には、ロボット2の世界座標系における位置及び姿勢などの内部状態を測定するための複数の内部状態センサが搭載されている。ロボット2の各関節機構の屈曲角度(関節角度)に応じた信号を出力するエンコーダ(図示略)、基体20の姿勢(方位角及び仰角により特定される。)に応じた信号を出力する傾斜センサ、及び、足部25及び着床及び離床の別を判定するための圧力センサなどが内部状態センサに該当する。ロボット2の周囲の様子を撮像し、当該撮像座標に基づいて世界座標系に固定されている標識の位置を認識することにより、世界座標系におけるロボット2の位置を認識するための撮像装置が内部状態センサS1に該当する。
たとえば、頭部21に搭載され、ロボット2の前方を撮像範囲とするCCDカメラ、赤外線カメラ等、種々の周波数帯域における光を感知しうる左右一対の頭カメラが撮像装置として採用されうる。また、基体20の前側下部に搭載され、ロボット2の前方下方に向けて発せられた近赤外レーザー光の物体による反射光を検知することによりこの物体の位置や方位等を測定するための腰カメラ(アクティブセンサ)が撮像装置として採用されうる。ロボット2には、その周辺における物体の位置などの外部状態を測定するための外部状態センサが搭載されている。前記のような撮像装置が外部状態センサに該当する。
ロボット2は制御システム1を構成するコンピュータと、複数の関節機構のそれぞれを動かすための複数のアクチュエータとを備えている。ロボット2の内部状態及び外部状態に応じて制御システム1から出力される制御指令にしたがってアクチュエータのそれぞれの動作が制御されることにより、ロボット2がさまざまな態様で適応的に行動することができる。
(訓練データの収集)
平坦な床面を前進する旨の歩行指令が与えられたロボット2が、2歩目で当該床面上の物体(例えば厚さ10[mm]の板)を踏むという外乱に接した際の学習結果が計算された。ロボット2の足底における物体との当接箇所である内側部分、中央部分及び外側部分の別に応じて、外乱が内側踏み(図4(a)参照)、中央踏み(図4(b)参照)及び外側踏み(図4(c)参照)に区別される。カーネル関数k(xi,x)として、カーネルパラメータσ=0.05のガウスカーネル関数が採用された(関係式(08)参照)。
ロボット2の次の2歩分の着床予定位置p1=(p1x,p1y)及びp2=(p2x,p2y)が行動変数u(4次元ベクトル)として定義されている。ロボット2のZMPに対する重心位置pG=(pGx,pGy)及びその変位速度vG=(vGx,vGy)が状態変数x(4次元ベクトル)として定義されている。
行動変数u及び状態変数xはともに支持脚の足に対して位置及び姿勢が固定されている支持脚座標系において定義されている。ロボット2が歩行している場合、一方の脚が離床状態から着床状態に遷移してから、他方の脚が離床状態から着床状態に遷移するまでの間、当該一方の脚が支持脚として定義される。
右脚24Rが支持脚である場合、支持脚座標系は、図5(a)に示されているように右足部25Rの所定箇所(例えば後側左隅箇所)が原点として定義され、前方が+x方向として定義され、かつ、右方向が+y方向として定義されている。左脚24Lが支持脚である場合、支持脚座標系は、図5(b)に示されているように左足部25Lの所定箇所(例えば後側右隅箇所)が原点として定義され、前方が+x方向として定義され、かつ、左方向が+y方向として定義されている。すなわち、支持脚の左右の別に応じて、支持脚座標系の+x方向は同方向又は略同方向である一方、+y方向は逆方向又は略逆方向になる。
ロボット2が内側踏み、中央部分及び外側踏みのそれぞれに接する過程で、状態変数x=(PGx,PGy,VGx,VGy)及び行動変数u=(P1x,P1y,P2x,P2y)が測定された。当該測定結果は、最小値が「0」となり、最大値が「1」となるように正規化されている。「*」は正規化されていることを意味する。元のデータ数(すべての測定プロット数)は「2604」であり、訓練データの数n(学習基礎となった測定プロット数)は「485」である。
図6には、正規化された状態変数x*の測定値が示されている。低明度のプロットは学習基礎とされた状態変数xの測定値を表わし、高明度のプロットは、それ以外の状態変数xの測定値を表わしている。
支持脚座標系の切り替えに由来して、図6第1段に示されているようにロボット2の重心のx座標値PGx*が断続的に変化している。これに応じて図6第2段に示されているように重心変位速度のx成分VGx*がジグザグ状に変化している。連続しているひとかたまりのPGx*プロットが、ロボット2が1歩分だけ前進する期間の重心のx座標値PGx*の変化態様を表わしている。
同様に、支持脚座標系の切り替えに由来して、図6第3段に示されているようにロボット2の重心のy座標値PGy*が断続的に変化している。これに応じて図6第4段に示されているように重心変位速度のy成分VGy*も断続的に変化している。連続しているひとかたまりのPGy*プロットが、ロボット2が1歩分だけ前進する期間の重心のy座標値PGy*の変化態様を表わしている。
図6左側に示されているように歩行開始から2歩目での外乱(内側踏み)に応じて、3〜5歩目のロボット2の重心位置PG*=(PGx*,PGy*)(低明度プロット参照)が、その前後におけるロボット2の重心位置PG*(高明度プロット参照)よりも大きく変動している。これは、内側踏みに応じて基体が通常よりも大きく前後方向及び左右方向に揺動し、姿勢が不安定になっていることを意味する。
図6中央に示されているように歩行開始から2歩目での外乱(中央踏み)に応じて、3歩目のロボット2の重心位置PG*(低明度プロット参照)は、その前後におけるロボット2の重心位置PG*(高明度プロット参照)とほぼ同様である。これは、中央踏みに応じて基体が通常よりも大きく前後方向及び左右方向に揺動することはなく、姿勢が安定に維持されていることを意味する。
図6右側に示されているように歩行開始から2歩目での外乱(外側踏み)に応じて、3及び4歩目のロボット2の重心位置PG*(特にPGy*)(低明度プロット参照)が、その前後におけるロボット2の重心位置PG*(高明度プロット参照)よりも大きく変動している。これは、外側踏みに応じて基体が通常よりも大きく左右方向に揺動し、姿勢が不安定になっていることを意味する。
図7には、正規化された行動変数u*の最適値が示されている。低明度のプロットは学習基礎となる行動変数u*の最適値を表わし、高明度のプロットは、それ以外の行動変数u*の最適値を表わしている。
図7左側に示されているように歩行開始から2歩目での外乱(内側踏み)に応じて、3〜5歩目におけるロボット2の次の2歩分の着床予定位置P1*=(P1x*,P1y*)及びP2*=(P2x*,P2y*)(低明度プロット参照)が、その前後の歩数における着床予定位置P1*及びP2*(高明度プロット参照)よりも大きく変動している。
図7中央に示されているように歩行開始から2歩目での外乱(中央踏み)に応じて、3歩目におけるロボット2の次の2歩分の着床予定位置P1*及びP2*(低明度プロット参照)は、その前後の歩数における着床予定位置P1*及びP2*(高明度プロット参照)と比較してさほど変化していない。
図7右側に示されているように歩行開始から2歩目での外乱(外側踏み)に応じて、3及び4歩目におけるロボット2の次の2歩分の着床予定位置P1*及びP2*(低明度プロット参照)が、その前後におけるロボット2の着床予定位置P1*及びP2*(高明度プロット参照)よりも大きく変動している。
(学習結果)
図8には、学習結果が用いられて生成された第1行動指令値u1_cmd(図2(b)/STEP21参照)としての、正規化された行動変数u*の値が示されている。正規化された行動変数u*の値のうち、測定値に対する第1行動指令値の平均二乗誤差MSEtrain(u*)は(1.40e-4,1.22e-4,3.82e-4,1.01e-3)であった。行動変数uの測定結果のうち、測定値に対する第1行動指令値の平均二乗誤差MSEtrain(u)は(0.0625,0.0227,0.154,0.125[mm])であった。
正規化された行動変数u*のすべての測定値に対する第1行動指令値の平均二乗誤差MSEall(u*)は(5.75e-2,8.18e-4,1.25e-1,1.1e-3)であった。行動変数uのすべての測定値に対する第1行動指令値の平均二乗誤差MSEall(u)は(25.7,0.152,50.7,0.14[mm])であった。アルゴリズムによって削減された測定結果の数である関連ベクトルの数Mは、M(p1x)=97,M(p1y)=121,M(p2x)=35,M(p2y)=38であった。
(評価方法)
ロボット2の所定の行動目的に鑑みた、行動指令値uの適合度e(u)の評価方法について説明する(図2(b)/STEP24参照)。所定の行動目的として、ロボット2の姿勢が安定に維持されながら移動する、という目的が採用された。適合度e(u)は、図9(a)に示されている予測ZMPの目標ZMPからのずれzmpbias(u)と、目標ZMPから予測ZMPに向かう方位について、目標ZMP及び足部25の縁の間隔Lfootとに基づいて算出された。
評価式としては図9(b)に一点鎖線で変化特性が示されている関係式(141)又は図9(b)に二点鎖線で変化特性が示されている関係式(142)が採用される。例えば足部25の着床面(たとえば矩形状)の中心位置が目標ZMPとして定義される。
e(u)=1 if zmpbias(u)≦αLfoot(0<α<1), or
exp(-((zmpbias(u)-αLfoot)/Lfoot)2), if αLfoot<zmpbias(u) ..(141)。
関係式(141)から明らかなように、ロボット2の予測ZMPと目標ZMPとの間隔が閾値αLfoot以下の範囲である場合、すなわち、ロボット2の姿勢がある程度以上の確度で安定になると予測される行動変数uであれば適合度e(u)は一定値(=1)に評価される。その一方、ロボット2の予測ZMPが第1閾値αLfootを超えて目標ZMPから遠いほど、すなわち、ロボット2の姿勢が不安定になる可能性が高い行動変数uであるほど適合度e(u)が低く評価される。
e(u)=exp(-(zmpbias(u)/Lfoot)2) ..(142)。
関係式(142)から明らかなように、ロボット2の予測ZMPが目標ZMPに近いほど、すなわち、ロボット2の姿勢が安定になる可能性が高い行動変数uであるほど適合度e(u)が高く評価される。
(適用結果)
図10〜図11のそれぞれには、前記のように姿勢が不安定な状況における測定結果を基礎として得られた学習結果が適用されたロボット2が、歩行開始から2歩目で「中央踏み」、「内側踏み」及び「外側踏み」のそれぞれに接した場合の着床予定位置P1*及びP2*が示されている。最下段において曲線が立ち上がっている期間において、学習結果が適用されて着床予定位置P1*及びP2*が計算されたことを表わしている。
中央踏みの場合、図10に示されているように、着床予定位置P1*及びP2*が安定している計算結果が得られた。内側踏みの場合、図11に示されているように、中央踏みの場合よりも学習結果の適用頻度(第1行動指令値u1_cmdの採用頻度)が高く、かつ、当該外乱に応じて3〜6歩目における次の2歩分の着床予定位置P1*及びP2*が大きく変動するような計算結果が得られた。外側踏みの場合、図12に示されているように、内側踏みの場合よりも学習結果の適用頻度がさらに高く、かつ、当該外乱に応じて3〜6歩目における次の2歩分の着床予定位置P1*及びP2*がさらに大きく変動するような計算結果が得られた。
1‥制御システム、2‥ロボット(制御対象)、10‥学習要素、11‥第1行動指令要素、12‥第2行動指令要素、14‥評価要素。

Claims (3)

  1. 予め収集されている制御対象の状態を表わす状態変数の測定値と、前記制御対象の行動態様を表わす行動変数の最適値とに基づき、前記状態変数の測定値から前記行動変数の最適値を予測する因子を学習結果として取得するように構成されている学習要素と
    前記因子をもとに、前記状態変数の新たな測定値に対しての最適値と予測される前記行動変数の値を第1行動指令値として生成するように構成されている第1行動指令要素と、を備えている制御システムであって、
    前記制御システムが、前記第1行動指令値にしたがって、前記制御対象の動作を制御するように構成され、
    前記学習要素が、前記予め収集されている状態変数の測定値と、行動変数の最適値とに基づき、前記状態変数を主変数とする基底関数の線形結合により前記行動変数が表現され、かつ、前記基底関数としてカーネル関数が用いられている回帰学習モデルにしたがって、前記線形結合の結合係数を前記学習結果である前記因子として取得するように構成されていることを特徴とする制御システム。
  2. 請求項1記載の制御システムにおいて、
    前記状態変数の新たな測定値に基づき、前記第1行動指令値とは別の前記行動変数の指令値を第2行動指令値として生成するように構成されている第2行動指令要素と、
    前記第1行動指令値及び前記第2行動指令値のそれぞれについて、前記制御対象の所定の行動目的に鑑みた適合度を評価する評価要素と、を備え、
    前記第1行動指令値及び前記第2行動指令値のうち、前記適合度が高い一方の行動指令値にしたがって、前記制御対象の動作を制御するように構成されていることを特徴とする制御システム。
  3. 請求項1または2記載の制御システムにおいて、
    前記学習要素が、ベイズモデル選択にしたがって、前記行動変数の証拠の最大化の結果から、
    前記行動変数の最適値Uと、前記基底関数Φと、確率変数として定義されている前記結合係数の事前確率分布を制御するための第1ハイパーパラメータαの成分α i (i=1〜N)と、確率変数として定義されている前記結合係数の事後確率分布を前記第1ハイパーパラメータαと協働して制御するための第2ハイパーパラメータβの成分β i (i=1〜N)と、前記第1ハイパーパラメータαの成分を対角要素とする対角行列A=diag(α 1 ,‥α i ,‥α n )、前記第2ハイパーパラメータβおよび前記基底関数Φを用いて表わされる行列Σ=(A+βΦ T Φ) -1 の対角要素Σ ii と、前記第2ハイパーパラメータβ、前記カーネル関数の幅σ、前記基底関数Φおよび前記行動変数の最適値Uを用いて表わされるベクトルm=βσΦ T Uの成分m i と、を用いた関係式(10)により表わされる演算処理を所定の収束条件が満足されるまで繰り返し、
    α i (new) =(1−α i Σ ii )/m i 2 ,
    β i (new) =||U−Φm|| 2 /{N−Σ i=1〜N (1−α i Σ ii )/m i 2 } ..(10)
    これにより、前記第1ハイパーパラメータαの収束値α*および前記第2ハイパーパラメータβの収束値β*を前記学習結果として取得するように構成されていることを特徴とする制御システム。
JP2012156025A 2012-07-11 2012-07-11 制御システム Active JP5921979B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012156025A JP5921979B2 (ja) 2012-07-11 2012-07-11 制御システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012156025A JP5921979B2 (ja) 2012-07-11 2012-07-11 制御システム

Publications (2)

Publication Number Publication Date
JP2014016972A JP2014016972A (ja) 2014-01-30
JP5921979B2 true JP5921979B2 (ja) 2016-05-24

Family

ID=50111556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012156025A Active JP5921979B2 (ja) 2012-07-11 2012-07-11 制御システム

Country Status (1)

Country Link
JP (1) JP5921979B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112596531B (zh) * 2021-03-04 2021-06-22 德鲁动力科技(成都)有限公司 一种四足机器人自适应负载参数调整方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11179412A (ja) * 1997-12-24 1999-07-06 Kawasaki Steel Corp 板材圧延におけるエッジドロップ制御方法
US7577252B2 (en) * 2004-12-06 2009-08-18 Mitsubishi Electric Research Laboratories, Inc. Method for secure object detection in images
JP2010086397A (ja) * 2008-10-01 2010-04-15 Toshiba Storage Device Corp 制御装置、制御プログラム及び方法

Also Published As

Publication number Publication date
JP2014016972A (ja) 2014-01-30

Similar Documents

Publication Publication Date Title
US8392346B2 (en) Reinforcement learning system
US20190299407A1 (en) Apparatus and methods for training path navigation by robots
US20180079076A1 (en) Machine learning device, robot system, and machine learning method for learning operation program of robot
US9152915B1 (en) Apparatus and methods for encoding vector into pulse-code output
JP7339029B2 (ja) モーション認識モデルを用いた自体運動推定装置及び方法並びにモーション認識モデルトレーニング装置及び方法
US8805580B2 (en) Robot and control system
WO2011016280A1 (ja) ロボットおよび制御システム
JP2003269937A (ja) 障害物認識装置、障害物認識方法、及び障害物認識プログラム並びに移動型ロボット装置
JP2017211913A (ja) 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
JP2008149436A (ja) 移動装置、ならびにその制御システム、制御プログラムおよび監督システム
JP2003271975A (ja) 平面抽出方法、その装置、そのプログラム、その記録媒体及び平面抽出装置搭載型ロボット装置
JP2008009999A (ja) 平面抽出方法、その装置、そのプログラム、その記録媒体及び撮像装置
Saeedvand et al. Hierarchical deep reinforcement learning to drag heavy objects by adult-sized humanoid robot
JP5930892B2 (ja) 接触状態推定装置及び軌道生成装置
JP5921979B2 (ja) 制御システム
JP6026393B2 (ja) 移動装置
Ferreira et al. Adaptive PD controller modeled via support vector regression for a biped robot
JP5306934B2 (ja) ロボットおよび制御システム
JP3946562B2 (ja) 行動制御装置及び方法
US11372475B2 (en) Information processing apparatus, information processing method, and floor modeling system
JP7358108B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP4193098B2 (ja) トラッキング装置、トラッキング装置のトラッキング方法及びロボット装置
JP6647143B2 (ja) 機能装置ならびにその制御装置および制御方法
JP5306933B2 (ja) ロボットおよび制御システム
Ferreira et al. Sagittal stability PD controllers for a biped robot using a neurofuzzy network and an SVR

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150929

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160413

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5921979

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150