JP5921979B2

JP5921979B2 - 制御システム

Info

Publication number: JP5921979B2
Application number: JP2012156025A
Authority: JP
Inventors: 拓未上岡
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2012-07-11
Filing date: 2012-07-11
Publication date: 2016-05-24
Anticipated expiration: 2032-07-11
Also published as: JP2014016972A

Description

本発明は、ロボット等の制御対象の動作を制御するように構成されているシステムに関する。

任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させるための技術的手法が提案されている（特許文献１参照）。周波数帯域の高低に応じて階層化されている複数のモジュールのそれぞれが、自己モジュールが主担当する主目的を他のモジュールが主担当する副目的よりも優先させながら、主目的及び副目的に適合するロボットの行動形態の候補である行動候補を探索するように構成されている。低周波の第ｊ＋１モジュールにより探索されたロボットの行動候補よりも、高周波の第ｊモジュールにより探索されたロボットの行動候補を優先的に反映させた形でロボットの行動が制御される。

連続状態変数及び離散状態変数の組み合わせ最適化問題の解導出の高速化を図るための技術的手法が提案されている（特許文献２参照）。内部モジュールによる行動候補の探索範囲（第１探索範囲）を、低周波の外部モジュールによる外部行動候補の探索範囲（第２探索範囲）よりも狭くする分だけ演算処理が早くなる。これにより、ロボットの状態測定値に鑑みて、ロボットが外乱に緊急に対応する必要がある場合、低周波の外部モジュールの演算処理結果を待たずに、高周波の内部モジュールの演算処理結果にしたがってロボットの動作が制御される。

特開２０１１−０５１０８８号公報特開２０１１−２４０４７５号公報

しかし、周波数の高低が異なる複数のモジュールが具備されていない場合、前記手法は適用されえない。特に、当該複数のモジュールのうち一部が、制御対象の外部に別個に設けられている外部モジュールである場合、外部モジュールが存在しない環境下では前記手法は適用されえない。

そこで、本発明は、周波数の高低が異なる複数のモジュールが存在しない状況でも、制御対象の状態に応じて、演算処理負荷の軽減を図りながら、当該制御対象の行動を適当に制御することができるシステムを提供することを課題とする。

本発明の制御システムは、予め収集されている制御対象の状態を表わす状態変数の測定値と、前記制御対象の行動態様を表わす行動変数の最適値とに基づき、前記状態変数の測定値から前記行動変数の最適値を予測する因子を学習結果として取得するように構成されている学習要素と、前記因子をもとに、前記状態変数の新たな測定値に対しての最適値と予測される前記行動変数の値を第１行動指令値として生成するように構成されている第１行動指令要素と、を備えている制御システムであって、前記制御システムが、前記第１行動指令値にしたがって、前記制御対象の動作を制御するように構成され、前記学習要素が、前記予め収集されている状態変数の測定値と、行動変数の最適値とに基づき、前記状態変数を主変数とする基底関数の線形結合により前記行動変数が表現され、かつ、前記基底関数としてカーネル関数が用いられている回帰学習モデルにしたがって、前記線形結合の結合係数を前記学習結果である前記因子として取得するように構成されていることを特徴とする。

本発明の制御システムによれば、予め収集されている状態変数の測定値及び行動変数の最適値に基づき、両者の相関関係を表わす因子が学習結果として取得される。そして、学習結果及び新たな状態変数の測定値が用いられて第１行動指令値が生成され、この第１行動指令値にしたがって制御対象の動作が制御される。行動変数の最適値をリアルタイムで計算する必要がない分だけ演算処理負荷が軽減されながらも、当該最適値が反映された形態で、制御対象の動作が新たな状態変数の測定値に応じて適当に制御されうる。

前記制御システムが、前記状態変数の新たな測定値に基づき、前記第１行動指令値とは別の前記行動変数の指令値を第２行動指令値として生成するように構成されている第２行動指令要素と、前記第１行動指令値及び前記第２行動指令値のそれぞれについて、前記制御対象の所定の行動目的に鑑みた適合度を評価する評価要素と、を備え、前記第１行動指令値及び前記第２行動指令値のうち、前記適合度が高い一方の行動指令値にしたがって、前記制御対象の動作を制御するように構成されていることが好ましい。

当該構成の制御システムによれば、状態変数の測定値及び行動変数の最適値が予め収集された際に制御対象が接した外乱等の状況が再現されたかいないかに応じて、制御対象の動作が適応的に制御されうる。具体的には、当該状況が再現された場合には第１行動指令値にしたがって制御対象の動作が制御されうる一方、当該状況が再現されていない通常状態においては第２行動指令値にしたがって制御対象の動作が制御されうる。

当該構成の制御システムによれば、行動変数を探索することなく、新たな状態変数の測定値に対する行動変数の最適値を予測しうる。これにより、制御対象の動作が新たな状態変数の測定値に応じて適当に制御されうる。

当該構成の制御システムによれば、基底関数が過度に複雑な形であることに由来する因子の過学習が回避され、推定精度の向上が図られる。カーネル関数としては、ガウスカーネルのほか、多項式カーネルなどが採用されうる。

前記学習要素が、ベイズモデル選択にしたがって、前記行動変数の証拠の最大化の結果から、
前記行動変数の最適値Ｕと、前記基底関数Φと、確率変数として定義されている前記結合係数の事前確率分布を制御するための第１ハイパーパラメータαの成分α _i （ｉ＝１〜Ｎ）と、確率変数として定義されている前記結合係数の事後確率分布を前記第１ハイパーパラメータαと協働して制御するための第２ハイパーパラメータβの成分β _i （ｉ＝１〜Ｎ）と、前記第１ハイパーパラメータαの成分を対角要素とする対角行列Ａ＝ｄｉａｇ（α ₁ ，‥α _i ，‥α _n ）、前記第２ハイパーパラメータβおよび前記基底関数Φを用いて表わされる行列Σ＝（Ａ＋βΦ ^T Φ） ^-1 の対角要素Σ _ii と、前記第２ハイパーパラメータβ、前記カーネル関数の幅σ、前記基底関数Φおよび前記行動変数の最適値Ｕを用いて表わされるベクトルｍ＝βσΦ ^T Ｕの成分ｍ _i と、を用いた関係式（１０）により表わされる演算処理を所定の収束条件が満足されるまで繰り返し、
α _i ^(new) ＝（１−α _i Σ _ii ）／ｍ _i ² ,
β _i ^(new) ＝||Ｕ−Φｍ|| ² /{Ｎ−Σ _i=1〜N （１−α _i Σ _ii ）／ｍ _i ² } ..（１０）
これにより、前記第１ハイパーパラメータαの収束値α*および前記第２ハイパーパラメータβの収束値β*を前記学習結果として取得するように構成されていることが好ましい。

当該構成の制御システムによれば、要素の大部分が０である疎ベクトルになるように結合係数が学習結果として計算されるので、カーネル基底関数の推定精度を下げることなく当該計算量を削減できる。これにより、演算処理負荷が軽減されながらも、当該因子が反映された形態で、制御対象の動作が新たな状態変数の測定値に応じて適当に制御されうる。

本発明の一実施形態としての制御システムの構成説明図。制御システムの機能説明図。制御対象としてのロボットの構成説明図。外乱（内側踏み、中央踏み及び外側踏み）に関する説明図。状態変数ｘの定義に関する説明図。取得された状態変数ｘ（測定値）に関する説明図。取得された行動変数ｕ（最適値）に関する説明図。学習結果に基づく第１行動指令値の生成結果に関する説明図。行動変数ｕの評価方法に関する説明図。学習結果（中央踏み）の適用結果に関する説明図。学習結果（内側踏み）の適用結果に関する説明図。学習結果（外側踏み）の適用結果に関する説明図。

（構成）
図１に示されている本発明の一実施形態としての制御システム１は、制御対象２に搭載されているコンピュータにより構成されている。制御システム１は、学習要素１０と、第１行動指令要素１１と、第２行動指令要素１２と、評価要素１４とを備えている。制御対象２には、後述するように脚式移動ロボットのほか、歩行補助装置又は車両等、アクチュエータの動作によりその行動が制御されうるあらゆる機器が含まれる。

学習要素１０は、予め収集されている制御対象２の状態変数ｘの測定値Ｘ＝（ｘ₁，‥ｘ_i，‥ｘ_n）^T（「^T」は転置を表わす。）と、行動変数ｕの最適値Ｕ＝（ｕ₁，‥ｕ_i，‥ｕ_n）^Tとに基づき、回帰モデルのパラメータ（因子）ｗ^＊＝（ｗ_１、・・ｗ_ｍ）^Ｔを学習結果として取得するように構成されている。

第１行動指令要素１１は、状態変数ｘの新たな測定値に応じて、回帰モデルの出力から得られる行動変数ｕの値を第１行動指令値ｕ1_cmdとして生成するように構成されている。第２行動指令要素１２は、状態変数ｘの新たな測定値に基づき、第１行動指令値ｕ1_cmdとは別の行動変数ｕの指令値を第２行動指令値ｕ2_cmdとして生成するように構成されている。

評価要素１４は、第１行動指令値ｕ1_cmd及び第２行動指令値ｕ2_cmdのそれぞれについて、制御対象２の所定の行動目的に鑑みた適合度ｅを評価するように構成されている。制御システム１は、第１行動指令値ｕ1_cmd及び第２行動指令値ｕ2_cmdのうち、適合度ｅが高い一方の行動指令値にしたがって、制御対象２の動作を制御するように構成されている。

（機能）
（回帰学習）
前記構成の制御システム１によれば、学習要素１０が、関連ベクトルマシンとして構成される。具体的には、状態変数ｘの測定値Ｘ＝（ｘ₁，‥ｘ_i，‥ｘ_n）^Ｔと、制御対象２が当該測定結果に応じて出力した行動変数ｕの最適値Ｕ＝（ｕ₁，‥ｕ_i，‥ｕ_n）^Ｔとを「訓練データ」として取得する（図２（ａ）／ＳＴＥＰ１１）。例えば、制御システム１とは別個の外部コンピュータ（クラウドコンピュータ）に対して状態変数ｘの測定値Ｘが入力され、制御対象２の厳密な運動モデル等にしたがって、行動変数ｕの最適値Ｕが計算される。当該入力Ｘ及び計算結果Ｕが外部コンピュータから制御システム１に対して送信又は移転される。状態変数ｘは、例えば制御対象２に搭載されている適当なセンサの出力信号に基づいて測定される。

学習要素１０が、線形回帰モデルにしたがって、結合係数（重み係数）ｗ*を計算する（図２（ａ）／ＳＴＥＰ１２）。カーネル線形回帰学習モデルによれば、関係式（０２）により表現されているように、状態変数ｘにより定義される状態変数空間（ヒルベルト空間）における基底関数φ（ｘ）＝［ｋ（ｘ₁，ｘ），‥ｋ（ｘ_n，ｘ）］^Ｔの線形結合により行動変数ｕが表現されている。

u=w^＊φ(x) ..(02)。

また、当該線形結合の結合係数ｗ_iが、関係式（０４）及び（０６）のそれぞれにより表現されているように、ハイパーパラメータα，βに応じて事前及び事後確率分布が変化する確率変数として定義されている。第１ハイパーパラメータαは、結合係数ｗ＝（ｗ₁，‥ｗ_i，‥ｗ_n）^Ｔの事前確率分布を制御する目的で導入されている。第２ハイパーパラメータβは、結合係数ｗの事後確率分布を第１ハイパーパラメータαと共同で制御する目的で導入されている。

p(w|α₁, .. α_i, .. α_n)=Π_i=1~nN(w_i|0, α_i ^-1) ..(04)。

p(w|U, X, α, β)=N(w|m, Σ),
m=βσΦ^TU, Σ=(A+βΦ^TΦ)^-1, A=diag(α₁, .. α_i, .. α_n) ..(06)。

カーネル関数ｋ（ｘ_i，ｘ）としては、関係式（０８）により表現されるように、状態変数空間における２点間のノルムに応じて変動するガウスカーネル関数が採用される。カーネル関数ｋ（ｘ_i，ｘ）としては、多項式カーネル関数等が採用されてもよい。

k(x_i, x)=exp(-||x-x_i||²/σ²) (i=1, .., n) ..(08)。

学習要素１０が、ベイズモデル選択にしたがって、行動変数ｕの証拠（evidence）ｐ（ｕ）の最大化の結果から、関係式（１０）により表わされる演算処理を、所定の収束条件が満足されるまで繰り返す。そして、第１ハイパーパラメータαの収束値α*及び第２ハイパーパラメータβの収束値β*が学習結果として取得される。

α_i ^(new)=(1-α_iΣ_ii)/m_i ²,
β_i ^(new)=||U-Φm||²/{N-Σ_i=1~N(1-α_iΣ_ii)/m_i ²} ..(10)。

行動変数ｕの証拠の最大化に基づくハイパーパラメータの最適化により、第１ハイパーパラメータα_iは理論的に無限大となり、結合係数ｗ_iの確率ｐ（ｗ_i）がＮ（ｗ｜０，０）に一致することになるため、結合重み係数ｗ_iが０に収束する。すなわち、結合係数ｗが、疎ベクトル（多くの要素が０であるベクトル）となるように計算される。実装上は十分に大きい上限値α_maxより大きな値を無限大として扱う。よって、α_i＜α_maxという条件が満たされる状態変数ｘ_i（関連ベクトル（relevance vector））が評価されればよい。

（学習結果を用いた行動制御）
第１行動指令要素１１及び第２行動指令要素１２のそれぞれが、状態変数ｘの新たな測定値を取得する（図２（ｂ）／ＳＴＥＰ２０）。

第１行動指令要素１１が、学習要素１０による学習結果（ｗ*）を用いて、関係式（０２）により、状態変数ｘの新たな測定値に応じた第１行動指令値ｕ1_cmdを生成する（図２（ｂ）／ＳＴＥＰ２１）。

第２行動指令要素１２が、状態変数ｘの新たな測定値と、制御対象２の適当な運動モデル等とに基づき、第１行動指令値ｕ1_cmdとは別個の第２行動指令値ｕ2_cmdを生成する（図２（ｂ）／ＳＴＥＰ２２）。

評価要素１４が、第１行動指令値ｕ1_cmd及び第２行動指令値ｕ2_cmdのそれぞれについて、制御対象２の所定の行動目的に鑑みた適合度ｅ（ｕ1）及びｅ（ｕ2）を評価する（図２（ｂ）／ＳＴＥＰ２４）。例えば、行動指令値ｕに応じて予測される制御対象２の状態が、当該所定の行動目的に鑑みて適当なものであるほど適合度ｅ（ｕ）が高く評価される。

そして、制御システム１が、第１行動指令値ｕ1_cmd及び第２行動指令値ｕ2_cmdのうち、適合度ｅが高い一方の行動指令値にしたがって制御対象２の動作を制御する（図２（ｂ）／ＳＴＥＰ２６）。

（計算例）
制御対象として、図３に示されているロボット２の歩行中に外乱があった場合における着床位置が学習された。ロボット２は脚式移動ロボット２であり、人間と同様に、基体２０と、基体２０の上方に配置された頭部２１と、基体２０の上部に上部両側から延設された左右の腕体２２と、左右の腕体２２のそれぞれの先端に設けられているハンド２２５と、基体２０の下部から下方に延設された左右の脚体２４とを備えている。

基体２０はヨー軸回りに相対的に回動しうるように上下に連結された上部及び下部により構成されている。頭部２１は基体２０に対してヨー軸回りに回動する等、動くことができる。

腕体２２は第１腕体リンク２２２と、第２腕体リンク２２４とを備えている。基体２０と第１腕体リンク２２２とは肩関節機構（第１腕関節機構）２２１を介して連結され、第１腕体リンク２２２と第２腕体リンク２２４とは肘関節機構（第２腕関節機構）２２３を介して連結され、第２腕体リンク２２４とハンド２３とは手首関節機構（第３腕関節機構）２２５を介して連結されている。肩関節機構２２１はロール、ピッチ及びヨー軸回りの回動自由度を有し、肘関節機構２２３はピッチ軸回りの回動自由度を有し、手首関節機構２２５はロール、ピッチ、ヨー軸回りの回動自由度を有している。

脚体２４は第１脚体リンク２４２と、第２脚体リンク２４４と、足部２５とを備えている。基体２０と第１脚体リンク２４２とは股関節機構（第１脚関節機構）２４１を介して連結され、第１脚体リンク２４２と第２脚体リンク２４４とは膝関節機構（第２脚関節機構）２４３を介して連結され、第２脚体リンク２４４と足部２５とは足関節機構（第３脚関節機構）２４５を介して連結されている。

股関節機構２４１はロール、ピッチ及びロール軸回りの回動自由度を有し、膝関節機構２４３はピッチ軸回りの回動自由度を有し、足関節機構２４５はロール及びピッチ軸回りの回動自由度を有している。股関節機構２４１、膝関節機構２４３及び足関節機構２４５は「脚関節機構群」を構成する。

脚関節機構群に含まれる各関節機構の並進及び回転自由度は適宜変更されてもよい。股関節機構２４１、膝関節機構２４３及び足関節機構２４５のうち任意の１つの関節機構が省略された上で、残りの２つの関節機構の組み合わせにより脚関節機構群が構成されていてもよい。脚体２４が膝関節とは別の第２脚関節機構を有する場合、当該第２脚関節機構が含まれるように脚関節機構群が構成されてもよい。足部２５の底には着床時の衝撃緩和のため、特開２００１−１２９７７４号公報に開示されているような弾性素材２５２が設けられている。

ロボット２には、ロボット２の世界座標系における位置及び姿勢などの内部状態を測定するための複数の内部状態センサが搭載されている。ロボット２の各関節機構の屈曲角度（関節角度）に応じた信号を出力するエンコーダ（図示略）、基体２０の姿勢（方位角及び仰角により特定される。）に応じた信号を出力する傾斜センサ、及び、足部２５及び着床及び離床の別を判定するための圧力センサなどが内部状態センサに該当する。ロボット２の周囲の様子を撮像し、当該撮像座標に基づいて世界座標系に固定されている標識の位置を認識することにより、世界座標系におけるロボット２の位置を認識するための撮像装置が内部状態センサＳ₁に該当する。

たとえば、頭部２１に搭載され、ロボット２の前方を撮像範囲とするＣＣＤカメラ、赤外線カメラ等、種々の周波数帯域における光を感知しうる左右一対の頭カメラが撮像装置として採用されうる。また、基体２０の前側下部に搭載され、ロボット２の前方下方に向けて発せられた近赤外レーザー光の物体による反射光を検知することによりこの物体の位置や方位等を測定するための腰カメラ（アクティブセンサ）が撮像装置として採用されうる。ロボット２には、その周辺における物体の位置などの外部状態を測定するための外部状態センサが搭載されている。前記のような撮像装置が外部状態センサに該当する。

ロボット２は制御システム１を構成するコンピュータと、複数の関節機構のそれぞれを動かすための複数のアクチュエータとを備えている。ロボット２の内部状態及び外部状態に応じて制御システム１から出力される制御指令にしたがってアクチュエータのそれぞれの動作が制御されることにより、ロボット２がさまざまな態様で適応的に行動することができる。

（訓練データの収集）
平坦な床面を前進する旨の歩行指令が与えられたロボット２が、２歩目で当該床面上の物体（例えば厚さ１０［ｍｍ］の板）を踏むという外乱に接した際の学習結果が計算された。ロボット２の足底における物体との当接箇所である内側部分、中央部分及び外側部分の別に応じて、外乱が内側踏み（図４（ａ）参照）、中央踏み（図４（ｂ）参照）及び外側踏み（図４（ｃ）参照）に区別される。カーネル関数ｋ（ｘ_i，ｘ）として、カーネルパラメータσ＝０．０５のガウスカーネル関数が採用された（関係式（０８）参照）。

ロボット２の次の２歩分の着床予定位置ｐ₁＝（ｐ_1x，ｐ_1y）及びｐ₂＝（ｐ_2x，ｐ_2y）が行動変数ｕ（４次元ベクトル）として定義されている。ロボット２のＺＭＰに対する重心位置ｐ_G＝（ｐ_Gx，ｐ_Gy）及びその変位速度ｖ_G＝（ｖ_Gx，ｖ_Gy）が状態変数ｘ（４次元ベクトル）として定義されている。

行動変数ｕ及び状態変数ｘはともに支持脚の足に対して位置及び姿勢が固定されている支持脚座標系において定義されている。ロボット２が歩行している場合、一方の脚が離床状態から着床状態に遷移してから、他方の脚が離床状態から着床状態に遷移するまでの間、当該一方の脚が支持脚として定義される。

右脚２４Ｒが支持脚である場合、支持脚座標系は、図５（ａ）に示されているように右足部２５Ｒの所定箇所（例えば後側左隅箇所）が原点として定義され、前方が＋ｘ方向として定義され、かつ、右方向が＋ｙ方向として定義されている。左脚２４Ｌが支持脚である場合、支持脚座標系は、図５（ｂ）に示されているように左足部２５Ｌの所定箇所（例えば後側右隅箇所）が原点として定義され、前方が＋ｘ方向として定義され、かつ、左方向が＋ｙ方向として定義されている。すなわち、支持脚の左右の別に応じて、支持脚座標系の＋ｘ方向は同方向又は略同方向である一方、＋ｙ方向は逆方向又は略逆方向になる。

ロボット２が内側踏み、中央部分及び外側踏みのそれぞれに接する過程で、状態変数ｘ＝（Ｐ_Gx，Ｐ_Gy，Ｖ_Gx，Ｖ_Gy）及び行動変数ｕ＝（Ｐ_1x，Ｐ_1y，Ｐ_2x，Ｐ_2y）が測定された。当該測定結果は、最小値が「０」となり、最大値が「１」となるように正規化されている。「*」は正規化されていることを意味する。元のデータ数（すべての測定プロット数）は「２６０４」であり、訓練データの数ｎ（学習基礎となった測定プロット数）は「４８５」である。

図６には、正規化された状態変数ｘ*の測定値が示されている。低明度のプロットは学習基礎とされた状態変数ｘの測定値を表わし、高明度のプロットは、それ以外の状態変数ｘの測定値を表わしている。

支持脚座標系の切り替えに由来して、図６第１段に示されているようにロボット２の重心のｘ座標値Ｐ_Gx*が断続的に変化している。これに応じて図６第２段に示されているように重心変位速度のｘ成分Ｖ_Gx*がジグザグ状に変化している。連続しているひとかたまりのＰ_Gx*プロットが、ロボット２が１歩分だけ前進する期間の重心のｘ座標値Ｐ_Gx*の変化態様を表わしている。

同様に、支持脚座標系の切り替えに由来して、図６第３段に示されているようにロボット２の重心のｙ座標値Ｐ_Gy*が断続的に変化している。これに応じて図６第４段に示されているように重心変位速度のｙ成分Ｖ_Gy*も断続的に変化している。連続しているひとかたまりのＰ_Gy*プロットが、ロボット２が１歩分だけ前進する期間の重心のｙ座標値Ｐ_Gy*の変化態様を表わしている。

図６左側に示されているように歩行開始から２歩目での外乱（内側踏み）に応じて、３〜５歩目のロボット２の重心位置Ｐ_G*＝（Ｐ_Gx*，Ｐ_Gy*）（低明度プロット参照）が、その前後におけるロボット２の重心位置Ｐ_G*（高明度プロット参照）よりも大きく変動している。これは、内側踏みに応じて基体が通常よりも大きく前後方向及び左右方向に揺動し、姿勢が不安定になっていることを意味する。

図６中央に示されているように歩行開始から２歩目での外乱（中央踏み）に応じて、３歩目のロボット２の重心位置Ｐ_G*（低明度プロット参照）は、その前後におけるロボット２の重心位置Ｐ_G*（高明度プロット参照）とほぼ同様である。これは、中央踏みに応じて基体が通常よりも大きく前後方向及び左右方向に揺動することはなく、姿勢が安定に維持されていることを意味する。

図６右側に示されているように歩行開始から２歩目での外乱（外側踏み）に応じて、３及び４歩目のロボット２の重心位置Ｐ_G*（特にＰ_Gy*）（低明度プロット参照）が、その前後におけるロボット２の重心位置Ｐ_G*（高明度プロット参照）よりも大きく変動している。これは、外側踏みに応じて基体が通常よりも大きく左右方向に揺動し、姿勢が不安定になっていることを意味する。

図７には、正規化された行動変数ｕ*の最適値が示されている。低明度のプロットは学習基礎となる行動変数ｕ*の最適値を表わし、高明度のプロットは、それ以外の行動変数ｕ*の最適値を表わしている。

図７左側に示されているように歩行開始から２歩目での外乱（内側踏み）に応じて、３〜５歩目におけるロボット２の次の２歩分の着床予定位置Ｐ₁*＝（Ｐ_1x*，Ｐ_1y*）及びＰ₂*＝（Ｐ_2x*，Ｐ_2y*）（低明度プロット参照）が、その前後の歩数における着床予定位置Ｐ₁*及びＰ₂*（高明度プロット参照）よりも大きく変動している。

図７中央に示されているように歩行開始から２歩目での外乱（中央踏み）に応じて、３歩目におけるロボット２の次の２歩分の着床予定位置Ｐ₁*及びＰ₂*（低明度プロット参照）は、その前後の歩数における着床予定位置Ｐ₁*及びＰ₂*（高明度プロット参照）と比較してさほど変化していない。

図７右側に示されているように歩行開始から２歩目での外乱（外側踏み）に応じて、３及び４歩目におけるロボット２の次の２歩分の着床予定位置Ｐ₁*及びＰ₂*（低明度プロット参照）が、その前後におけるロボット２の着床予定位置Ｐ₁*及びＰ₂*（高明度プロット参照）よりも大きく変動している。

（学習結果）
図８には、学習結果が用いられて生成された第１行動指令値ｕ1_cmd（図２（ｂ）／ＳＴＥＰ２１参照）としての、正規化された行動変数ｕ*の値が示されている。正規化された行動変数ｕ*の値のうち、測定値に対する第１行動指令値の平均二乗誤差MSEtrain（ｕ*）は（１．４０ｅ^-4，１．２２ｅ^-4，３．８２ｅ^-4，１．０１ｅ^-3）であった。行動変数ｕの測定結果のうち、測定値に対する第１行動指令値の平均二乗誤差MSEtrain（ｕ）は（０．０６２５，０．０２２７，０．１５４，０．１２５［ｍｍ］）であった。

正規化された行動変数ｕ*のすべての測定値に対する第１行動指令値の平均二乗誤差MSEall（ｕ*）は（５．７５ｅ^-2，８．１８ｅ^-4，１．２５ｅ^-1，１．１ｅ^-3）であった。行動変数ｕのすべての測定値に対する第１行動指令値の平均二乗誤差MSEall（ｕ）は（２５．７，０．１５２，５０．７，０．１４［ｍｍ］）であった。アルゴリズムによって削減された測定結果の数である関連ベクトルの数Ｍは、Ｍ（ｐ_1x）＝９７，Ｍ（ｐ_1y）＝１２１，Ｍ（ｐ_2x）＝３５，Ｍ（ｐ_2y）＝３８であった。

（評価方法）
ロボット２の所定の行動目的に鑑みた、行動指令値ｕの適合度ｅ（ｕ）の評価方法について説明する（図２（ｂ）／ＳＴＥＰ２４参照）。所定の行動目的として、ロボット２の姿勢が安定に維持されながら移動する、という目的が採用された。適合度ｅ（ｕ）は、図９（ａ）に示されている予測ＺＭＰの目標ＺＭＰからのずれzmp_bias（ｕ）と、目標ＺＭＰから予測ＺＭＰに向かう方位について、目標ＺＭＰ及び足部２５の縁の間隔Ｌ_footとに基づいて算出された。

評価式としては図９（ｂ）に一点鎖線で変化特性が示されている関係式（１４１）又は図９（ｂ）に二点鎖線で変化特性が示されている関係式（１４２）が採用される。例えば足部２５の着床面（たとえば矩形状）の中心位置が目標ＺＭＰとして定義される。

e(u)=1 if zmp_bias(u)≦αL_foot(0<α<1), or
exp(-((zmp_bias(u)-αL_foot)/L_foot)²), if αL_foot<zmp_bias(u) ..(141)。

関係式（１４１）から明らかなように、ロボット２の予測ＺＭＰと目標ＺＭＰとの間隔が閾値αＬ_foot以下の範囲である場合、すなわち、ロボット２の姿勢がある程度以上の確度で安定になると予測される行動変数ｕであれば適合度ｅ（ｕ）は一定値（＝１）に評価される。その一方、ロボット２の予測ＺＭＰが第１閾値αＬ_footを超えて目標ＺＭＰから遠いほど、すなわち、ロボット２の姿勢が不安定になる可能性が高い行動変数ｕであるほど適合度ｅ（ｕ）が低く評価される。

e(u)=exp(-(zmp_bias(u)/L_foot)²) ..(142)。

関係式（１４２）から明らかなように、ロボット２の予測ＺＭＰが目標ＺＭＰに近いほど、すなわち、ロボット２の姿勢が安定になる可能性が高い行動変数ｕであるほど適合度ｅ（ｕ）が高く評価される。

（適用結果）
図１０〜図１１のそれぞれには、前記のように姿勢が不安定な状況における測定結果を基礎として得られた学習結果が適用されたロボット２が、歩行開始から２歩目で「中央踏み」、「内側踏み」及び「外側踏み」のそれぞれに接した場合の着床予定位置Ｐ₁*及びＰ₂*が示されている。最下段において曲線が立ち上がっている期間において、学習結果が適用されて着床予定位置Ｐ₁*及びＰ₂*が計算されたことを表わしている。

中央踏みの場合、図１０に示されているように、着床予定位置Ｐ₁*及びＰ₂*が安定している計算結果が得られた。内側踏みの場合、図１１に示されているように、中央踏みの場合よりも学習結果の適用頻度（第１行動指令値ｕ1_cmdの採用頻度）が高く、かつ、当該外乱に応じて３〜６歩目における次の２歩分の着床予定位置Ｐ₁*及びＰ₂*が大きく変動するような計算結果が得られた。外側踏みの場合、図１２に示されているように、内側踏みの場合よりも学習結果の適用頻度がさらに高く、かつ、当該外乱に応じて３〜６歩目における次の２歩分の着床予定位置Ｐ₁*及びＰ₂*がさらに大きく変動するような計算結果が得られた。

１‥制御システム、２‥ロボット（制御対象）、１０‥学習要素、１１‥第１行動指令要素、１２‥第２行動指令要素、１４‥評価要素。

Claims

予め収集されている制御対象の状態を表わす状態変数の測定値と、前記制御対象の行動態様を表わす行動変数の最適値とに基づき、前記状態変数の測定値から前記行動変数の最適値を予測する因子を学習結果として取得するように構成されている学習要素と、
前記因子をもとに、前記状態変数の新たな測定値に対しての最適値と予測される前記行動変数の値を第１行動指令値として生成するように構成されている第１行動指令要素と、を備えている制御システムであって、
前記制御システムが、前記第１行動指令値にしたがって、前記制御対象の動作を制御するように構成され、
前記学習要素が、前記予め収集されている状態変数の測定値と、行動変数の最適値とに基づき、前記状態変数を主変数とする基底関数の線形結合により前記行動変数が表現され、かつ、前記基底関数としてカーネル関数が用いられている回帰学習モデルにしたがって、前記線形結合の結合係数を前記学習結果である前記因子として取得するように構成されていることを特徴とする制御システム。
請求項１記載の制御システムにおいて、
前記状態変数の新たな測定値に基づき、前記第１行動指令値とは別の前記行動変数の指令値を第２行動指令値として生成するように構成されている第２行動指令要素と、
前記第１行動指令値及び前記第２行動指令値のそれぞれについて、前記制御対象の所定の行動目的に鑑みた適合度を評価する評価要素と、を備え、
前記第１行動指令値及び前記第２行動指令値のうち、前記適合度が高い一方の行動指令値にしたがって、前記制御対象の動作を制御するように構成されていることを特徴とする制御システム。
請求項１または２記載の制御システムにおいて、
前記学習要素が、ベイズモデル選択にしたがって、前記行動変数の証拠の最大化の結果から、
前記行動変数の最適値Ｕと、前記基底関数Φと、確率変数として定義されている前記結合係数の事前確率分布を制御するための第１ハイパーパラメータαの成分α _i （ｉ＝１〜Ｎ）と、確率変数として定義されている前記結合係数の事後確率分布を前記第１ハイパーパラメータαと協働して制御するための第２ハイパーパラメータβの成分β _i （ｉ＝１〜Ｎ）と、前記第１ハイパーパラメータαの成分を対角要素とする対角行列Ａ＝ｄｉａｇ（α ₁ ，‥α _i ，‥α _n ）、前記第２ハイパーパラメータβおよび前記基底関数Φを用いて表わされる行列Σ＝（Ａ＋βΦ ^T Φ） ^-1 の対角要素Σ _ii と、前記第２ハイパーパラメータβ、前記カーネル関数の幅σ、前記基底関数Φおよび前記行動変数の最適値Ｕを用いて表わされるベクトルｍ＝βσΦ ^T Ｕの成分ｍ _i と、を用いた関係式（１０）により表わされる演算処理を所定の収束条件が満足されるまで繰り返し、
α _i ^(new) ＝（１−α _i Σ _ii ）／ｍ _i ² ,
β _i ^(new) ＝||Ｕ−Φｍ|| ² /{Ｎ−Σ _i=1〜N （１−α _i Σ _ii ）／ｍ _i ² } ..（１０）
これにより、前記第１ハイパーパラメータαの収束値α*および前記第２ハイパーパラメータβの収束値β*を前記学習結果として取得するように構成されていることを特徴とする制御システム。