JP2011031349A

JP2011031349A - ロボットおよび制御システム

Info

Publication number: JP2011031349A
Application number: JP2009181070A
Authority: JP
Inventors: Masanori Takeda; 政宣武田; Mitsuhide Kuroda; 貢秀黒田; Hide Kanzaki; 秀神崎; Takahide Yoshiike; 孝英吉池
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2009-08-03
Filing date: 2009-08-03
Publication date: 2011-02-17
Anticipated expiration: 2029-08-03
Also published as: JP5306933B2

Abstract

【課題】任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させることができる制御システム等を提供する。
【解決手段】周波数帯域の高低に応じて階層化されている複数のモジュールｍｏｄｉのそれぞれが、自己モジュールが主担当する主目的を他のモジュールが主担当する副目的よりも優先させながら、主目的および副目的に適合するロボットＲの行動形態の候補である行動候補を探索するように構成されている。低周波の第ｊ＋１モジュールにより探索されたロボットＲの行動候補よりも、高周波の第ｊモジュールにより探索されたロボットＲの行動候補を優先的に反映させた形でロボットＲの行動が制御される。
【選択図】図１４

Description

本発明は、制御システムおよびその制御対象の１つであるロボットに関する。

物体との予期せぬ接触等の高速の外乱に対して適応的にロボットを行動させる手法が提案されている（特許文献１参照）。この手法によれば、統括制御系の制御指令値と、統括制御系と比較して演算周期が短い高速の局所制御系の制御指令値との構成比率または配分が調整される。たとえば、高速の外乱が発生した直後においては、局所制御系の制御指令値の比率が高くなるように調節されることにより、外乱に対してロボットの反射的な行動態様の実現が図られている。

そして、外乱発生から時間が経つにつれ、統括制御系の制御指令値の比率が徐々に高くなるように調整されることにより、外乱がない通常状態におけるロボットの動作態様の回復が図られている。ここで、各制御指令値の構成比率の変化曲線が時間経過とともに変更されうる。

特開２００４−１６７６６６号公報

しかし、外乱の形態によってはロボットの行動形態が、ロボットの目的に鑑みて不適当な行動形態になる可能性がある。

そこで、本発明は、任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させることができる制御システム等を提供することを解決課題とする。

前記課題を解決するための本発明の制御システムは、周波数帯域の高低に応じて階層化されている複数のモジュールを備え、前記モジュールのそれぞれが、自己が主担当する主目的を他のモジュールが主担当する副目的よりも優先させながら、前記主目的および前記副目的に適合する制御対象の行動形態の候補である行動候補を探索するように構成され、低周波の下位モジュールにより探索された前記制御対象の行動候補よりも、高周波の上位モジュールにより探索された前記制御対象の行動候補を優先的に反映させた形で前記制御対象の行動を制御するように構成されていることを特徴とする（第１発明）。

第１発明の制御システムによれば、複数のモジュールのそれぞれに自己モジュールが主担当する主目的を優先させながらも、他のモジュールの目的をも勘案した形で、制御対象の行動候補が探索される。このように、異なるモジュール間で目的が緩やかに共有された形で制御対象の行動候補が探索されうる。そして、高周波の上位モジュールが主担当する上位目的が、低周波の下位モジュールが主担当する下位目的よりも優先して反映された態様で制御対象の行動が制御される。

このため、外乱が発生した場合、当初は応答が速い上位モジュールが主担当する上位目的が制御対象の行動形態に反映され、この外乱による影響の迅速な低減が図られる。さらに、時間経過とともに応答が遅い下位モジュールが主担当する下位目的も制御対象の行動形態に反映され、複数の目的のすべてに適合するような制御対象の行動形態の回復が図られる。これにより、任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させることができる。

第１発明の制御システムにおいて、前記モジュールのそれぞれが、前記制御対象の行動候補の自己の前回探索結果を、前記他のモジュールによる前記制御対象の行動候補の前回探索結果よりも優先させながら、前記自己の前回探索結果と、前記他のモジュールによる前記制御対象の行動候補の前回探索結果とに応じた探索戦略にしたがって前記制御対象の行動候補の今回探索を実行するように構成されていてもよい（第２発明）。

第２発明の制御システムによれば、一のモジュールによる行動候補の前回探索結果と、他のモジュールによる行動候補の探索結果に基づき、当該一のモジュールによる行動候補の今回探索が実行される。一のモジュールの行動候補の前回探索結果は、当該一のモジュールが主担当する目的に加えて、他のモジュールが主担当する副目的に適合している。したがって、前記のように異なるモジュール間で目的が緩やかに共有された形で制御対象の行動候補が探索されうる。

第２発明の制御システムにおいて、前記モジュールのそれぞれが、自ら探索した前記制御対象の行動候補のそれぞれについて、前記主目的および前記副目的に対する総合適合度を評価し、前回探索された前記行動候補の一部を、前回評価された前記総合適合度が高いほど高確率で選択し、前記行動候補により定義される状態空間における、当該選択された前記行動候補の周辺領域において前記行動候補の今回探索を実行するように構成されていてもよい（第３発明）。

第３発明の制御システムによれば、前回探索された行動候補の一部が、自己モジュールおよび他モジュールのそれぞれが主担当する目的に応じた総合適合度が高いほど高確率で選択され、当該選択行動候補の周辺領域において行動候補の今回探索が実行される。このため、前回探索結果に過度に拘束されることがない多様性がある形態で主目的および副目的に対して、より適合する行動候補が探索されうる。その結果、行動候補の探索が繰り返されることにより、前記のように任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させることができる。

第３発明の制御システムにおいて、前記モジュールのそれぞれが、前記状態空間において、前回探索された前記行動候補のうち選択された前記行動候補を基準として、前回評価された前記総合適合度が高いほど狭い周辺領域において前記行動候補の今回探索を実行するように構成されていてもよい（第４発明）。

第４発明の制御システムによれば、状態空間における行動候補の今回探索領域である前回選択行動候補の周辺領域の広狭が、自己モジュールおよび他モジュールのそれぞれが主担当する目的に応じた当該前回選択行動候補の総合適合度の高低により定まる。このため、前回探索結果を踏まえ、前回探索結果と著しく乖離した無駄がない収束性のある形態で主目的および副目的に対して、より適合する行動候補が探索されうる。その結果、行動候補の探索が繰り返されることにより、前記のように任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で当該制御対象を行動させることができる。

第３または第４発明の制御システムにおいて、前記モジュールのそれぞれが、前回探索された前記行動候補のうち選択された前記行動候補の周辺領域に加えて、前記状態空間において不規則に選択された点の周辺領域において前記行動候補の今回探索を実行するように構成されていてもよい（第５発明）。

第５発明の制御システムによれば、状態空間において不規則に配置された点の周辺領域も行動候補の今回探索対象とされる。このため、前回探索結果に過度に拘束されることがない多様性がある形態で主目的および副目的に対して、より適合する行動候補が探索されうる。

第１〜第５発明のうちいずれか１つの制御システムにおいて、前記モジュールのそれぞれが、自己よりも１階位だけ上位のモジュールが存在する場合には当該上位モジュールを前記他のモジュールとするとともに、自己よりも１階位だけ下位のモジュールが存在する場合には当該下位モジュールを前記他のモジュールとして、前記制御対象の行動候補を探索するように構成されていてもよい（第６発明）。

第６発明の制御システムによれば、１階位だけ異なる複数のモジュール間で目的が緩やかに共有された形で制御対象の行動候補が探索される。すなわち、最上位モジュールにより、それよりも１階位だけ下位のモジュールが主担当する目的（副目的）と、自己が主担当する主目的とに適合する行動候補が探索される。また、最下位モジュールにより、それよりも１階位だけ上位のモジュールが主担当する目的（副目的）と、自己が主担当する主目的とに適合する行動候補が探索される。さらに、最上位モジュールおよび最下位モジュールを除く中間モジュールにより、それよりも１階位だけ上位が主担当するモジュールおよび１階位だけ下位のモジュールのそれぞれが主担当する目的と、自己が主担当する主目的とに適合する行動候補が探索される。

第１〜第６発明のうちいずれか１つの制御システムにおいて、前記モジュールのそれぞれが、前記制御対象としての移動装置の位置または位置および姿勢を定めるような前記行動候補を探索するように構成され、高周波の上位モジュールであるほど、低周波の下位モジュールと比較して、前記移動装置の短期間にわたる前記行動候補を探索するように構成されていてもよい（第７発明）。

第７発明の制御システムによれば、各モジュールにその周波数帯域の高低、または、演算周期の長短に応じた適当な目的に応じて、適当な長さの期間にわたる制御対象としての移動装置の位置または位置および姿勢（以下、適宜「位置等」という。）を定める行動候補の探索を実行させることができる。その結果、任意形態の外乱に対して、移動装置の行動目的に鑑みてその位置等が適当に制御されるように当該移動装置を行動させることができる。

第７発明の制御システムにおいて、基体と、前記基体から延設された複数の脚体とを有する前記移動装置としてのロボットの位置軌道および姿勢軌道を前記行動候補として探索するように構成されている第１モジュール、第２モジュールおよび第３モジュールを前記複数のモジュールとして備え、前記第１モジュールが前記ロボットに姿勢を安定させるための前記ロボットの第１指定歩数にわたる歩容を第１行動候補として探索するように構成され、前記第２モジュールが前記ロボットに物体との接触を回避させるための前記第１指定歩数よりも多い第２指定歩数にわたる歩容を定める局所経路を第２行動候補として探索するように構成され、前記第３モジュールが前記ロボットに目標位置に到達させるための大局経路を第３行動候補として探索するように構成されていてもよい（第８発明）。

第８発明の制御システムによれば、最高周波の第１モジュールに他のモジュールが主担当する副目的（副目的）を反映させながらも「ロボットにその姿勢を安定させる」という第１行動目的を主目的として、外乱発生時の短期間にわたる第１行動候補を探索させることができる。また、中間周波の第２モジュールに他のモジュールが主担当する副目的（副目的）を反映させながらも「ロボットに物体との接触を回避させる」という第２行動目的を主目的として、第１行動候補と比較して長い期間にわたる第２行動候補を探索させることができる。さらに、最低周波の第３モジュールに他のモジュールが主担当する副目的（副目的）を反映させながらも「ロボットに目標位置に到達させる」という第３行動目的を主目的として、第２行動候補と比較して長い期間にわたる第３行動候補を探索させることができる。

第１モジュールからみた「他のモジュール」には、第２モジュールおよび第３モジュールの一方または両方が該当しうる。同様に、第２モジュールからみた「他のモジュール」には、第１モジュールおよび第３モジュールの一方または両方が該当しうる。また、第３モジュールからみた「他のモジュール」には、第１モジュールおよび第２モジュールの一方または両方が該当しうる。

そして、高周波の上位モジュールが主担当する上位目的が、低周波の下位モジュールが主担当する下位目的よりも優先して反映された態様で制御対象の行動が制御される。その結果、任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させることができる。

前記課題を解決するための本発明のロボットは、基体と、前記基体から延設されている複数の脚体とを備え、前記複数の脚体の動作により移動するロボットであって、第１〜第８発明のうちいずれか１つの制御システムを備えていることを特徴とする（第９発明）。

第９発明のロボットによれば、外乱が発生した場合、当初は応答が速い上位モジュールが主担当する上位目的が制御対象としてのロボットの行動形態に反映され、この外乱による影響の迅速な低減が図られる。さらに、時間経過とともに応答が遅い下位モジュールが主担当する下位目的も制御対象の行動形態に反映され、複数の目的のすべてに適合するような制御対象としてのロボットの行動形態の回復が図られる。これにより、任意形態の外乱に対して、ロボットがその行動目的に鑑みて適当な形態で行動することができる。

本発明の一実施形態としてのロボットの構成説明図。ロボットの制御システムの構成説明図。並列モジュール間の信号のやり取りに関する説明図。並列モジュールの連携処理に関する説明図。各モジュールによる行動探索方法に関する説明図。第１適合度の評価方法に関する説明図。第２適合度の評価方法に関する説明図。第３適合度の評価方法に関する説明図。行動探索方法の多様性および収束性に関する説明図。行動探索方法の多様性に関する説明図。行動探索方法の多様性に関する説明図。ロボットの挙動状態および倒立振子の挙動状態の関係に関する説明図。倒立振子による実験結果の説明図。ロボットの行動に関する説明図。

本発明の制御システムおよびその制御対象の実施形態について図面を用いて説明する。

（ロボットの構成）
まず、本発明の一実施形態としてのロボットの構成について説明する。

図１に示されているロボットＲは脚式移動ロボットであり、人間と同様に、基体Ｂ０と、基体Ｂ０の上方に配置された頭部Ｂ１と、基体Ｂ０の上部に上部両側から延設された左右の腕体Ｂ２と、左右の腕体Ｂ２のそれぞれの先端に設けられているハンドＨと、基体Ｂ０の下部から下方に延設された左右の脚体Ｂ４とを備えている。

基体Ｂ０はヨー軸回りに相対的に回動しうるように上下に連結された上部および下部により構成されている。頭部Ｂ１は基体Ｂ０に対してヨー軸回りに回動する等、動くことができる。

腕体Ｂ２は第１腕体リンクＢ２２と、第２腕体リンクＢ２４とを備えている。基体Ｂ０と第１腕体リンクＢ２１とは肩関節機構（第１腕関節機構）Ｂ２１を介して連結され、第１腕体リンクＢ２２と第２腕体リンクＢ２４とは肘関節機構（第２腕関節機構）Ｂ２３を介して連結され、第２腕体リンクＢ２４とハンドＨとは手首関節機構（第３腕関節機構）Ｂ２５を介して連結されている。肩関節機構Ｂ２１はロール、ピッチおよびヨー軸回りの回動自由度を有し、肘関節機構Ｂ２３はピッチ軸回りの回動自由度を有し、手首関節機構Ｂ２５はロール、ピッチ、ヨー軸回りの回動自由度を有している。

脚体Ｂ４は第１脚体リンクＢ４２と、第２脚体リンクＢ４４と、足部Ｂ５とを備えている。基体Ｂ０と第１脚体リンクＢ４２とは股関節機構（第１脚関節機構）Ｂ４１を介して連結され、第１脚体リンクＢ４２と第２脚体リンクＢ４４とは膝関節機構（第２脚関節機構）Ｂ４３を介して連結され、第２脚体リンクＢ４４と足部Ｂ５とは足関節機構（第３脚関節機構）Ｂ４５を介して連結されている。

股関節機構Ｂ４１はロール、ピッチおよびロール軸回りの回動自由度を有し、膝関節機構Ｂ４３はピッチ軸回りの回動自由度を有し、足関節機構Ｂ４５はロールおよびピッチ軸回りの回動自由度を有している。股関節機構Ｂ４１、膝関節機構Ｂ４３および足関節機構Ｂ４５は「脚関節機構群」を構成する。なお、脚関節機構群に含まれる各関節機構の並進および回転自由度は適宜変更されてもよい。また、股関節機構Ｂ４１、膝関節機構Ｂ４３および足関節機構Ｂ４５のうち任意の１つの関節機構が省略された上で、残りの２つの関節機構の組み合わせにより脚関節機構群が構成されていてもよい。さらに、脚体Ｂ４が膝関節とは別の第２脚関節機構を有する場合、当該第２脚関節機構が含まれるように脚関節機構群が構成されてもよい。足部Ｂ５の底には着床時の衝撃緩和のため、特開２００１−１２９７７４号公報に開示されているような弾性素材Ｂ５２が設けられている。

ロボットＲには、ロボットＲの世界座標系における位置および姿勢などの内部状態を測定するための複数の内部状態センサＳ₁が搭載されている。ロボットＲの各関節機構の屈曲角度（関節角度）に応じた信号を出力するエンコーダ（図示略）、基体Ｂ０の姿勢（方位角および仰角により特定される。）に応じた信号を出力する傾斜センサ、および、足部Ｂ５および着床および離床の別を判定するための圧力センサなどが内部状態センサＳ₁に該当する。ロボットＲの周囲の様子を撮像し、当該撮像座標に基づいて世界座標系に固定されている標識の位置を認識することにより、世界座標系におけるロボットＲの位置を認識するための撮像装置が内部状態センサＳ₁に該当する。

たとえば、頭部Ｂ１に搭載され、ロボットＲの前方を撮像範囲とするＣＣＤカメラ、赤外線カメラ等、種々の周波数帯域における光を感知しうる左右一対の頭カメラＣ１が撮像装置として採用されうる。また、基体Ｂ０の前側下部に搭載され、ロボットＲの前方下方に向けて発せられた近赤外レーザー光の物体による反射光を検知することによりこの物体の位置や方位等を測定するための腰カメラ（アクティブセンサ）Ｃ２が撮像装置として採用されうる。

ロボットＲには、その周辺における物体の位置などの外部状態を測定するための外部状態センサＳ₂が搭載されている。前記のような撮像装置が外部状態センサＳ₂に該当する。

ロボットＲは制御システム１と、前記の複数の関節機構のそれぞれを動かすための複数のアクチュエータ２とを備えている。ロボットＲの内部状態および外部状態に応じて制御システム１から出力される制御指令にしたがってアクチュエータ２のそれぞれの動作が制御されることにより、ロボットＲがさまざまな態様で適応的に行動することができる。

（制御システムの構成）
図２に示されている制御システム１は、制御モジュールｍｏｄ０と、第１モジュール（安定化モジュール）ｍｏｄ１と、第２モジュール（障害物回避モジュール）ｍｏｄ２と、第３モジュール（経路生成モジュール）ｍｏｄ３とを備えている。

（第１モジュールの構成）
第１モジュールｍｏｄ１はロボットＲの姿勢を安定させることを主目的（第１行動目的）として主担当する。第１モジュールｍｏｄ１は第１演算周期Ｔ₁ごとに入力信号を演算処理することにより出力信号の生成を繰り返すように構成されている。

（第２モジュールの構成）
第２モジュールｍｏｄ２はロボットＲに物体との接触を回避させることを主目的（第２行動目的）として主担当する。第２モジュールｍｏｄ２は第１演算周期Ｔ₁より長い第２演算周期Ｔ₂（たとえばＴ₂＝２Ｔ₁）ごとに入力信号を演算処理することにより出力信号の生成を繰り返すように構成されている。

（第３モジュールの構成）
第３モジュールｍｏｄ３はロボットＲを目標位置まで移動させることを主目的（第３行動目的）として主担当する。第３モジュールｍｏｄ３は第２演算周期Ｔ₂より長い第３演算周期Ｔ₃（たとえばＴ₃＝２Ｔ₂）ごとに入力信号を演算処理することにより出力信号の生成を繰り返すように構成されている。

（ロボットの機能）
前記構成のロボットＲの機能について説明する。

（制御システムによる演算処理手順）
制御システム１により、次の手順にしたがってアクチュエータ２の動作およびロボットＲの行動が制御される。

具体的には、まず、制御モジュールｍｏｄ０によりロボットＲの現在状態が認識される。具体的には、内部状態センサＳ₁からの出力信号に基づき、ロボットＲの世界座標系における位置（着地位置およびＺＭＰ位置など）および姿勢（基体Ｂ０の姿勢）などの内部状態が認識される。また、外部状態センサＳ₂からの出力信号に基づき、ロボットＲの周囲にある物体のサイズおよび世界座標系における位置などの外部状態が認識される。なお、物体のサイズおよび位置などの外部状態を表わすデータがロボットＲの外部から制御システム１に入力または送信されることにより、制御モジュールｍｏｄ０が外部状態の一部または全部を認識してもよい。

ロボットＲの「現在状態」は第１演算周期Ｔ₁ごとに制御モジュールｍｏｄ０から第１モジュールｍｏｄ１に入力される（図３／矢印Ｄ₁₊参照）。さらに、第２行動探索処理の実行により得られる「第２探索戦略」および「第２行動指針」が第２演算周期Ｔ₂ごとに第２モジュールｍｏｄ２から第１モジュールｍｏｄ１に入力される（図３／矢印Ｄ_2-参照）。

当該入力信号に応じて、第１モジュールｍｏｄ１により第１演算周期Ｔ₁ごとに「第１行動探索処理」が実行される。第１行動探索処理の実行により得られる「第１行動指針」は第１演算周期Ｔ₁ごとに第１モジュールｍｏｄ１から制御モジュールｍｏｄ０に入力される（図３／矢印Ｄ_1-参照）。

なお、第１モジュールｍｏｄ１の今回サイクルの開始時刻において第２モジュールｍｏｄ２から入力信号がない場合、第１モジュールｍｏｄ１の最近の過去サイクルの開始時刻における第２モジュールｍｏｄ２からの入力信号が用いられて第１行動探索処理が実行される。

現在状態、または、当該現在状態に応じた直近未来におけるロボットＲの最新予測状態が第２演算周期Ｔ₂ごとに第１モジュールｍｏｄ１から第２モジュールｍｏｄ２に入力される（図３／矢印Ｄ₂₊参照）。さらに、第１行動探索処理の実行により得られる「第１探索戦略（第１行動予約を含む。）」が第２演算周期Ｔ₂ごとに第１モジュールｍｏｄ１から第２モジュールｍｏｄ２に入力される（図３／矢印Ｄ₂₊参照）。また、第３行動探索処理の実行により得られる「第３探索戦略」および「第３行動指針」が第３演算周期Ｔ₃ごとに第３モジュールｍｏｄ３から第２モジュールｍｏｄ２に入力される（図３／矢印Ｄ_3-参照）。

当該入力信号に応じて、第２モジュールｍｏｄ２により第２演算周期Ｔ₂ごとに「第２行動探索処理」が実行される。これにより得られる「第２探索戦略」および「第２行動指針」は第２演算周期Ｔ₂ごとに第２モジュールｍｏｄ２から第１モジュールｍｏｄ１に入力される（図３／矢印Ｄ_2-参照）。また、「第２探索戦略」および「第２行動指針」は第２演算周期Ｔ₂ごとに第２モジュールｍｏｄ２から第３モジュールｍｏｄ３にも入力される（図３／矢印Ｄ₂₊参照）。

なお、第２モジュールｍｏｄ２の今回サイクルの開始時刻において第３モジュールｍｏｄ３から入力信号がない場合、第２モジュールｍｏｄ２の最近の過去サイクルの開始時刻における第３モジュールｍｏｄ３からの入力信号が用いられて第２行動探索処理が実行される。

現在状態、または、当該現在状態に応じた直近未来におけるロボットＲの最新予測状態が第３演算周期Ｔ₃ごとに第２モジュールｍｏｄ２から第３モジュールｍｏｄ３に入力される（図３／矢印Ｄ₃₊参照）。さらに、第２行動探索処理の実行により得られる「第２探索戦略（第２行動予約を含む。）」が第３演算周期Ｔ₃ごとに第２モジュールｍｏｄ２から第３モジュールｍｏｄ３に入力される（図３／矢印Ｄ₃₊参照）。

当該入力信号に応じて、第３モジュールｍｏｄ３により第３演算周期Ｔ₂ごとに「第３行動探索処理」が実行される。これにより得られる「第３探索戦略」および「第３行動指針」は、前記のように第３演算周期Ｔ₃ごとに第３モジュールｍｏｄ３から第２モジュールｍｏｄ２に入力される（図３／矢印Ｄ_3-参照）。

第１演算周期Ｔ₁ごとの第１モジュールｍｏｄ１からの入力信号（図３／矢印Ｄ_1-参照）に応じて指令信号が制御モジュールｍｏｄ０により逐次生成される。そして、この指令信号が制御モジュールｍｏｄ０からアクチュエータ２に送信されることにより、アクチュエータ２が指令信号に応じて駆動され、その結果、ロボットＲが最新の第１行動指針にしたがって行動する。

（並列モジュールの連携処理）
外乱発生直後における各モジュールによる並列処理の手順について説明する。

ロボットＲの外乱の影響を受けた「現在状態」が時刻ｔ＝ｔ₀において最初に制御モジュールｍｏｄ０から第１モジュールｍｏｄ１に入力された場合を考える（図５／矢印Ｄ₁₊（ｔ₀）参照）。

まず、第１モジュールｍｏｄ１により「第１行動探索処理」が実行されることにより、時刻ｔ＝ｔ₁（＝ｔ₀＋Ｔ₁）において「第１行動指針（＝第１行動予約）」が第１モジュールｍｏｄ１から制御モジュールｍｏｄ０に出力される（図５／矢印Ｄ₁₊（ｔ₁）参照）。この出力に応じてアクチュエータ２の動作が制御されることにより、外乱の影響を受けた現在状態を勘案して、ロボットＲが第１行動目的（＝ロボットＲに姿勢を安定化させる）に適合するように行動しうる。

また、時刻ｔ＝ｔ₁において「第１探索戦略」が第１モジュールｍｏｄ１から第２モジュールｍｏｄ２に出力される（図５／矢印Ｄ₂₊（ｔ₁）参照）。さらに、第２モジュールｍｏｄ２により「第２行動探索処理」が実行されることにより、時刻ｔ＝ｔ₀＋Ｔ₁＋Ｔ₂において「第２探索戦略（第２行動指針を含む。）」が第２モジュールｍｏｄ２から第１モジュールｍｏｄ１に出力される（図５／矢印Ｄ_2-（ｔ₀＋Ｔ₁＋Ｔ₂）参照）。

そして、第１モジュールｍｏｄ１により「第１行動探索処理」が実行されることにより、時刻ｔ＝ｔ₂（＝ｔ₀＋Ｔ₂＋２Ｔ₁）において「第１行動指針」が第１モジュールｍｏｄ１から制御モジュールｍｏｄ０に出力される（図５／矢印Ｄ₁₊（ｔ₂）参照）。この出力に応じて、アクチュエータ２の動作が制御されることにより、外乱の影響を受けた現在状態を勘案して、ロボットＲが第１行動目的に加えて、第２行動目的（＝ロボットＲに物体との接触を回避させる）に適合するように行動しうる。

また、時刻ｔ＝ｔ₀＋Ｔ₁＋Ｔ₂において「第２探索戦略（第２行動予約を含む。）」およびが第２モジュールｍｏｄ２から第３モジュールｍｏｄ３に出力される（図５／矢印Ｄ₃₊（ｔ₀＋Ｔ₁＋Ｔ₂）参照）。さらに、第３モジュールｍｏｄ３により「第３行動探索処理」が実行されることにより、時刻ｔ＝ｔ₀＋Ｔ₁＋Ｔ₂＋Ｔ₃において「第３探索戦略（第３行動指針を含む。）」が第３モジュールｍｏｄ３から第２モジュールｍｏｄ２に出力される（図５／矢印Ｄ_3-（ｔ₀＋Ｔ₁＋Ｔ₂＋Ｔ₃）参照）。

さらに、第２モジュールｍｏｄ２により「第２行動探索処理」が実行されることにより、時刻ｔ＝ｔ₀＋Ｔ₁＋２Ｔ₂＋Ｔ₃において「第２探索戦略（第２行動指針を含む。）」が第２モジュールｍｏｄ２から第１モジュールｍｏｄ１に出力される（図５／矢印Ｄ_2-（ｔ₀＋Ｔ₁＋２Ｔ₂＋Ｔ₃）参照）。

そして、第１モジュールｍｏｄ１により「第１行動探索処理」が実行されることにより、時刻ｔ＝ｔ₃（＝ｔ₀＋２Ｔ₁＋２Ｔ₂＋Ｔ₃）において「第１行動指針」が第１モジュールｍｏｄ１から制御モジュールｍｏｄ０に出力される（図５／矢印Ｄ₁₊（ｔ₃）参照）。この出力に応じて、アクチュエータ２の動作が制御されることにより、外乱の影響を受けた現在状態を勘案して、ロボットＲが第１行動目的および第２行動目的に加えて、第３行動目的（＝ロボットＲを目標位置に到達させる）に適合するように行動しうる。

並列された第１モジュールｍｏｄ１、第２モジュールｍｏｄ２および第３モジュールｍｏｄ３の前記のような連携処理により、外乱発生から２Ｔ₁＋２Ｔ₂＋Ｔ₃程度の時間内に、外乱を勘案した上で第１行動目的、第２行動目的および第３行動目的のすべてに適合するようにロボットＲの行動が制御されうる。たとえばＴ₁＝Ｔ，Ｔ₂＝２Ｔ，Ｔ₃＝４Ｔとすると、外乱発生から１０Ｔ程度の時間内に、外乱を勘案した上で複数の目的のすべてに適合するようにロボットＲの行動が制御されうる。

（各行動探索処理の内容）
第１モジュールｍｏｄ１により実行される「第１行動探索処理」、第２モジュールｍｏｄ２により実行される「第２行動探索処理」および第３モジュールｍｏｄ３により実行される「第３行動探索処理」の詳細について説明する。

（第１行動探索処理の手順）
まず、現在状態に基づき、ロボットＲの挙動を表わす挙動予測モデルにしたがって、ロボットＲの直近未来状態が予測される（図５／ＳＴＥＰ１００）。これにより、たとえば、ロボットＲが現在位置から１歩進んだときの着地位置が予測される。

また、第１探索戦略および第２探索戦略（図３／矢印Ｄ_2-参照）にしたがってロボットＲの複数の第１行動候補｛ａ_i1｜ｉ₁＝１，２，‥，ｎ₁｝が探索される（図５／ＳＴＥＰ１１０）。具体的には、第１総合適合度ｆ₁の評価結果および第２総合適合度ｆ₂の評価結果に応じた進化的探索の世代交代手法にしたがって第１行動候補ａ_i1が探索される。この探索方法については後述する。

これにより、たとえば、ロボットＲの１歩先の予測着地位置から、第１指定歩数ｑ₁（たとえばｑ₁＝２）にわたる歩容を定める着地位置pos（ａ_i1；ｋ₁）（ｋ₁＝１〜ｑ₁）が第１行動候補ａ_i1として探索される。「歩容」とは、着地タイミングに着目した脚移動の繰り返しパターンを意味する。

さらに、複数の第１行動候補ａ_i1のそれぞれに基づき、第１状態予測モデルにしたがってロボットＲの複数の第１未来状態｛ｓ_i1｜ｉ₁＝１，２，‥，ｎ₁｝が予測される（図５／ＳＴＥＰ１２０）。これにより、たとえば、ロボットＲの１歩先の予測着地位置から、第１行動候補ａ_i1にしたがって第１指定歩数ｑ₁だけ移動した時点におけるロボットＲのＺＭＰ（Zero Moment Point）が第１未来状態ｓ_i1として予測される。

そして、複数の第１行動候補ａ_i1のそれぞれについて、次の手順にしたがって第１総合適合度ｆ₁（ａ_i1）が評価される（図５／ＳＴＥＰ１３０）。

まず、第１未来状態ｓ_i1に基づき、第１行動目的に鑑みた適合性を表わす第１適合度ｅ₁（ａ_i1）が評価される。第１適合度ｅ₁（ａ_i1）は、たとえば、図６（ａ）に示されている予測ＺＭＰの目標ＺＭＰからのずれzmp_bias（ａ_i1）と、目標ＺＭＰから予測ＺＭＰに向かう方位について、目標ＺＭＰおよび足部Ｂ５の縁の間隔Ｌ_footとに基づき、図６（ｂ）に変化特性が示されている評価式（１１０）にしたがって算出される。たとえば、足部Ｂ５の着地面（たとえば矩形状）の中心位置が目標ＺＭＰとして定義される。

ｅ₁（ａ_i1）＝ｅｘｐ（−（zmp_bias（ａ_i1）／Ｌ_foot）²） ‥（１１０）

評価式（１１０）から明らかなように、ロボットＲの予測ＺＭＰが目標ＺＭＰに近いほど、すなわち、ロボットＲの姿勢が安定になると予測される第１行動候補ａ_i1であるほど第１適合度ｅ₁（ａ_i1）が高く評価される。

さらに、複数の第１行動候補ａ_i1のそれぞれについて、第２モジュールｍｏｄ２から受け取った第２行動指針（図３／矢印Ｄ_2-参照）に基づき、第２適合度ｅ₂（ａ_i1）の推定値（第２推定適合度）ｅ₂^（ａ_i1）が評価される。第２推定適合度ｅ₂^（ａ_i1）は、たとえば、ロボットＲの着地位置pos（ａ_i1；ｋ₁）と、第２行動指針としての局所経路との間隔pos_err（ａ_i1；ｋ₁）と、ロボットＲの歩幅（最大歩幅）Ｌ_stepとに基づき、評価式（１２０）にしたがって算出される。
ｅ₂^（ａ_i1）＝Π_1=1~q1ｅｘｐ（−pos_err（ａ_i1；ｋ₁）／Ｌ_step） ‥（１２０）

評価式（１２）から明らかなように、ロボットＲの着地位置pos（ａ_i1；ｋ₁）が局所経路に近いほど、すなわち、ロボットＲが物体との接触を回避しうると予測される第１行動候補ａ_i1であるほど第２推定適合度ｅ₂^（ａ_i1）が高く評価される。

なお、第２行動目的が「ロボットＲの物体に対する相対姿勢を目標相対姿勢に維持しながら、ロボットＲに当該物体との接触を回避させる」という目的である場合、第１行動候補ａ_i1としての歩容により定まるロボットＲの局所経路に対する相対姿勢（たとえば、局所経路に対する基体Ｂ０の相対方位により特定される。）と目標相対姿勢との偏差（相対姿勢偏差）が小さいほど、第２推定適合度ｅ₂^（ａ_i1）が高く評価されるように定義されていてもよい（評価式（１２０）参照）。このような第２行動目的は、ロボットＲの姿勢を物体としての人間に視認させ、この姿勢に基づいてロボットＲの挙動を人間に予測させることにより、人間による偶発的な動作によるロボットＲとの接触を回避させる観点から有意義である。

そして、第１適合度ｅ₁（ａ_i1）および第２推定適合度ｅ₂^（ａ_i1）に基づき、評価式（１４１）または（１４２）にしたがって第１総合適合度ｆ₁（ａ_i1）が評価される。

ｆ₁（ａ_i1）＝ｅ₁（ａ_i1）（ｅ₂^（ａ_i1）＋１） ‥（１４１）
ｆ₁＝ｗ₁ｅ₁（ｗ₂ｅ₂^＋１） ‥（１４２）
ここで「ｗ₂」および「ｗ₁（＝（ｗ₂＋１）^-1）」は重み係数である。

第１総合適合度ｆ₁（ａ_i1）の評価結果が、第１行動候補ａ_i1および第２行動候補ａ_i2のそれぞれを探索するための収束性および多様性がある「第１探索戦略」として定義される。第１探索戦略には、第１総合適合度ｆ₁（ａ_i1）の評価が最高であった一の第１行動候補ａ_i1としての「第１行動予約」が含まれている。第１行動予約と第１行動指針とは共通であってもよい。

評価式（１４１）および（１４２）から明らかなように第１総合適合度ｆ₁（ａ_i1）に対する寄与度は、第１適合度ｅ₁（ａ_i1）のほうが第２推定適合度ｅ₂^（ａ_i1）よりも高い。たとえば、第１適合度ｅ₁（ａ_i1）が０に近づくと、第２推定適合度ｅ₂^（ａ_i1）の高低とは無関係に第１総合適合度ｆ₁（ａ_i1）も０に近づく。その一方、第２推定適合度ｅ₂^（ａ_i1）が０に近づいても、第１総合適合度ｆ₁（ａ_i1）は０ではなく第１適合度ｅ₁（ａ_i1）に近づき、第１適合度ｅ₁（ａ_i1）の高低が第１総合適合度ｆ₁（ａ_i1）に直接反映されるようになる。

ここで、第２適合度ｅ₂（ａ_i1）ではなくその推定値である第２推定適合度ｅ₂^（ａ_i1）が用いられるのは、第２モジュールｍｏｄ２（第１モジュールｍｏｄ１よりも１階位下位のモジュール）が有する第２行動目的のみならず、第３モジュールｍｏｄ３（第１モジュールｍｏｄ１よりも２階位下位のモジュール）が有する第３行動目的をも踏まえて第１探索戦略が定義されるようにするためである。

すなわち、前記のように第２行動指針としての局所経路を基準として、第１行動候補ａ_i1のそれぞれの第２行動目的に対する適合度が評価される（評価式（１２０）参照）。しかるに、後述するように第２行動指針は第３行動指針が反映された形で第２モジュールｍｏｄ２により探索される。このため、第２推定適合度ｅ₂^（ａ_i1）が算出されることにより、第１行動候補ａ_i1の第３行動目的に対する適合度が間接的に評価される。そして、第２推定適合度ｅ₂^（ａ_i1）に基づいて第１総合適合度ｆ₁（ａ_i1）が評価されることにより（評価式（１４１）（１４２）参照）、当該評価結果としての第１探索戦略には、第２行動目的が直接的に反映されるのみならず、第３行動目的も間接的に反映されうる。

（第２行動探索処理の手順）
まず、現在状態に基づき、ロボットＲの挙動を表わす挙動予測モデルにしたがって、ロボットＲの直近未来状態が予測される（図５／ＳＴＥＰ２００）。これにより、たとえば、ロボットＲが現在位置から１歩進んだときの着地位置が予測される。なお、第１モジュールｍｏｄ１により予測されたロボットＲの直近未来状態が、第１モジュールｍｏｄ１から第２モジュールｍｏｄ２に出力されてもよい（図３／矢印Ｄ₂₊参照）。

また、第１探索戦略、第２探索戦略および第３探索戦略にしたがってロボットＲの複数の第２行動候補｛ａ_i2｜ｉ₂＝１，２，‥，ｎ₂｝が探索される（図５／ＳＴＥＰ２１０）。具体的には、第１総合適合度ｆ₁の評価結果、第２総合適合度ｆ₂の評価結果および第３総合適合度ｆ₃の評価結果に応じた個体の世代交代方法にしたがって第２行動候補ａ_i2が探索される。この探索方法については後述する。

これにより、たとえば、図７（ａ）に示されているように、第２指定歩数ｑ₂（たとえばｑ₂＝３＜ｑ₁）にわたる歩容を定めるロボットＲの着地位置pos（ａ_i2；ｋ₂）（ｋ₂＝１〜ｑ₂）を含む局所経路が第２行動候補ａ_i2として探索される。たとえば、前記のように予測されたロボットＲの１歩先の着地位置が局所経路の始点とされる。なお、ロボットＲの１歩先の着地位置を起点として、第１行動予約（図３／矢印Ｄ₂₊参照）としての第１指定歩数ｑ₁にわたる歩容を経た時点におけるロボットＲの予測着地位置が局所経路の始点とされてもよい。「局所経路」は、外部状態としての物体の位置等に基づいて定められる、ロボットＲが当該物体との接触を回避するための経路を意味する。

また、複数の第２行動候補ａ_i2のそれぞれに基づき、第２状態予測モデルにしたがってロボットＲの複数の第２未来状態｛ｓ_i2｜ｉ₂＝１，２，‥，ｎ₂｝が予測される（図５／ＳＴＥＰ２２０）。これにより、たとえば、ロボットＲが第２行動候補ａ_i2としての局所経路にしたがって移動した場合の、ロボットＲと物体との最短距離Ｃ（ａ_i2）が第２未来状態ｓ_i2として予測される（図７（ａ）参照）。

そして、複数の第２行動候補ａ_i2のそれぞれについて、次の手順にしたがって第２総合適合度ｆ₂（ａ_i2）が評価される（図５／ＳＴＥＰ２３０）。

まず、第２未来状態ｓ_i2に基づき、第２行動目的に鑑みた適合性を表わす第２適合度ｅ₂（ａ_i2）が評価される。第２適合度ｅ₂（ａ_i2）は、たとえば、図７（ａ）に示されている局所経路と物体との最短距離Ｃ（ａ_i2）と、物体のサイズＲ_objectとに基づき、図７（ｂ）に変化特性が示されている評価式（２２０）にしたがって算出される。たとえば、物体の輪郭が平面上の円に近似された場合における当該円の半径が物体のサイズＲ_objectとして定義される。

ｅ₂（ａ_i2）＝ｅｘｐ（−（Ｃ（ａ_i2）／Ｒ_object）²） ‥（２２０）

評価式（２２０）から明らかなように、ロボットＲが物体から遠いほど、すなわち、ロボットＲが物体との接触を回避しうると予測される第２行動候補ａ_i2であるほど第２適合度ｅ₂（ａ_i2）が高く評価される。

なお、第２行動目的が「ロボットＲの物体に対する相対姿勢を目標相対姿勢に維持しながら、ロボットＲに当該物体との接触を回避させる」という目的である場合、第２行動候補ａ_i2としての局所経路の姿勢に対するロボットの相対姿勢（たとえば、局所経路に対する基体Ｂ０の相対方位により特定される。）と目標相対姿勢との偏差（相対姿勢偏差）が小さいほど、第２適合度ｅ₂（ａ_i２）が高く評価されるように定義されていてもよい（評価式（２２０）参照）。

また、複数の第２行動候補ａ_i2のそれぞれについて、第３モジュールｍｏｄ３から受け取った第３行動指針（図３／矢印Ｄ_3-参照）に基づき、第３適合度ｅ₃（ａ_i2）の推定値（第３推定適合度）ｅ₃^（ａ_i2）が評価される。第３推定適合度ｅ₃^（ａ_i2）は、たとえば、ロボットＲの着地位置pos（ａ_i2；ｋ₂）と、第３行動指針としての大局経路との間隔pos_err（ａ_i2；ｋ₂）と、ロボットＲの歩幅（最大歩幅）Ｌ_stepとに基づき、評価式（２３０）にしたがって算出される。
ｅ₃^（ａ_i2）＝Π_k2=2~q2ｅｘｐ（−pos_err（ａ_i2；ｋ₂）／Ｌ_step） ‥（２３０）

評価式（２３０）から明らかなように、ロボットＲの着地位置pos（ａ_i2；ｋ₂）が大局経路に近いほど、すなわち、ロボットＲが目標位置に到達するための大局経路にしたがって移動すると予測される第２行動候補ａ_i2であるほど第３推定適合度ｅ₃^（ａ_i2）が高く評価される。

なお、第３行動目的が「ロボットＲを目標姿勢で目標位置に到達させる」という目的である場合、第２行動候補ａ_i2としての局所経路に応じて定まるロボットＲの姿勢（たとえば、基体Ｂ０の方位により特定される。）と大局経路の姿勢との偏差（姿勢偏差）が小さいほど、第３推定適合度ｅ₃^（ａ_i2）が高く評価されるように定義されていてもよい（評価式（２３０）参照）。このような第３行動目的は、ロボットＲが目標位置に到着したときまたは到着した後、物体の把持等、その姿勢に応じて難易度が変化する作業をロボットＲに実行させる観点から有意義である。

そして、第２適合度ｅ₂（ａ_i2）および第３推定適合度ｅ₃^（ａ_i2）に加えて、第１モジュールｍｏｄ１により評価された第１適合度ｅ₁（ａ_i2）に基づき、評価式（２４１）または（２４２）にしたがって第２総合適合度ｆ₂（ａ_i2）が評価される。

ｆ₂（ａ_i1）＝ｅ₂（ａ_i2）（ｅ₁（ａ_i2）（ｅ₃^（ａ_i2）＋１）＋１） ‥（２４１）
ｆ₂＝ｗ₂ｅ₂（ｗ₁ｅ₁（ｗ₃ｅ₃^＋１）＋１） ‥（２４２）
ここで「ｗ₁」「ｗ₃」および「ｗ₂（＝｛ｗ₁（ｗ₃＋１）＋１｝^-1」は重み係数である。

第２総合適合度ｆ₂（ａ_i2）の評価結果が、第１行動候補ａ_i1、第２行動候補ａ_i2および第３行動候補ａ_i3のそれぞれを探索するための収束性および多様性がある「第２探索戦略」として定義される。第２探索戦略には、第２総合適合度ｆ₂（ａ_i2）の評価が最高であった一の第２行動候補ａ_i2としての「第２行動予約」が含まれている。第２行動予約と第２行動指針とは共通であってもよい。

評価式（２４１）および（２４２）から明らかなように、第２総合適合度ｆ₂（ａ_i2）に対する寄与度は、第２適合度ｅ₂（ａ_i2）のほうが、第１適合度ｅ₁（ａ_i2）および第３推定適合度ｅ₃^（ａ_i2）のそれぞれよりも高い。たとえば、第２適合度ｅ₂（ａ_i2）が０に近づくと、第１適合度ｅ₁（ａ_i2）および第３推定適合度ｅ₃^（ａ_i2）の高低とは無関係に第２総合適合度ｆ₂（ａ_i2）も０に近づく。その一方、第１適合度ｅ₁（ａ_i2）および第３推定適合度ｅ₃^（ａ_i2）が０に近づいても、第２総合適合度ｆ₂（ａ_i2）は０ではなく第２適合度ｅ₂（ａ_i2）に近づき、第２適合度ｅ₂（ａ_i2）の高低が第２総合適合度ｆ₂（ａ_i2）に直接反映されるようになる。

さらに、第２総合適合度ｆ₂（ａ_i2）に対する寄与度は、第１適合度ｅ₁（ａ_i2）のほうが第３推定適合度ｅ₃^（ａ_i2）よりも高い。たとえば、第１適合度ｅ₁（ａ_i2）が０に近づくと、第３推定適合度ｅ₃^（ａ_i2）の高低とは無関係に第２総合適合度ｆ₂（ａ_i2）が小さくなる。その一方、第３推定適合度ｅ₃^（ａ_i3）が０に近づいても第２総合適合度ｆ₂（ａ_i2）はｅ₂（ａ_i2）・ｅ₁（ａ_i1）に近づき、第１適合度ｅ₁（ａ_i1）の高低が第３推定適合度ｅ₃^（ａ_i2）に反映されうる。

ここで、第３適合度ｅ₃（ａ_i2）ではなくその推定値である第３推定適合度ｅ₃^（ａ_i2）が用いられるのは、第３モジュールｍｏｄ３（第２モジュールｍｏｄ２よりも１階位下位のモジュール）が有する第２行動目的のみならず、（本実施形態では存在しないものの存在する場合には）第４モジュールｍｏｄ４（第２モジュールｍｏｄ２よりも２階位下位のモジュール）が有する第４行動目的（たとえば、ロボットＲを目標位置まで移動させた後、さらに第２の目標位置まで移動させるという目的）をも踏まえて第２探索戦略が定義されるようにするためである。

すなわち、前記のように第３行動指針としての大局経路を基準として、第２行動候補ａ_i2のそれぞれの第３行動目的に対する適合度が評価される（評価式（２３０）参照）。しかるに、第３行動指針は第４行動指針が反映された形で第３モジュールｍｏｄ３により探索されうる。このため、第３推定適合度ｅ₃^（ａ_i2）が算出されることにより、第２行動候補ａ_i2の第４行動目的に対する適合度が間接的に評価される。そして、第３推定適合度ｅ₃^（ａ_i2）に基づいて第２総合適合度ｆ₁（ａ_i1）が評価されることにより（評価式（２４１）（２４２）参照）、当該評価結果としての第２探索戦略には、第３行動目的が直接的に反映されるのみならず、第４行動目的も間接的に反映されうる。

（第３行動探索処理の手順）
まず、現在状態に基づき、ロボットＲの挙動を表わす挙動予測モデルにしたがって、ロボットＲの直近未来状態が予測される（図５／ＳＴＥＰ３００）。これにより、たとえば、ロボットＲが現在位置から１歩進んだときの着地位置が予測される。なお、第１モジュールｍｏｄ１または第２モジュールｍｏｄ２により予測されたロボットＲの直近未来状態が、第２モジュールｍｏｄ２から第３モジュールｍｏｄ３に出力されてもよい（図３／矢印Ｄ₃₊参照）。

また、第２探索戦略および第３探索戦略にしたがってロボットＲの複数の第３行動候補｛ａ_i3｜ｉ₃＝１，２，‥，ｎ₃｝が探索される（図５／ＳＴＥＰ３１０）。具体的には、第２総合適合度ｆ₂の評価結果および第３総合適合度ｆ₃の評価結果に応じた個体の世代交代方法にしたがって第３行動候補ａ_i3が探索される。この方法については後述する。

これにより、たとえば、図８（ａ）に示されているようにロボットＲが目標位置に向かう歩容を定める大局経路が第３行動候補ａ_i3として探索される。たとえば、前記のように予測されたロボットＲの１歩先の着地位置が大局経路の始点とされる。なお、第２行動予約（図３／矢印Ｄ₃₊参照）としての局所経路の終点が、大局経路の始点とされる。ロボットＲの目標位置はロボットＲの外部から制御システムに入力または送信されるほか、制御システム１により外部状態の認識結果に基づいて計算されてもよい。

また、複数の第３行動候補ａ_i1のそれぞれに基づき、第３状態予測モデルにしたがってロボットＲの複数の第３未来状態｛ｓ_i3｜ｉ₃＝１，２，‥，ｎ₃｝が予測される（図５／ＳＴＥＰ３２０）。これにより、たとえば、ロボットＲがその１歩先の予測着地位置から、大局経路にしたがって移動した場合の移動距離Ｌ（ａ_i3）が第３未来状態ｓ_i3として予測される。

そして、複数の第３行動候補ａ_i3のそれぞれについて、次の手順にしたがって第３総合適合度ｆ₃（ａ_i3）が評価される（図５／ＳＴＥＰ３３０）。

まず、第３未来状態ｓ_i3に基づき、第３行動目的に鑑みた適合性を表わす第３適合度ｅ₃（ａ_i3）が評価される。第３適合度ｅ₃（ａ_i3）は、たとえば、図８（ａ）に示されているロボットＲの予測移動距離Ｌ（ａ_i3）と、大局経路の始点と目標位置との直線距離Ｌ_destとに基づき、図８（ｂ）に変化特性が示されている評価式（３３０）にしたがって算出される。

ｅ₃（ａ_i3）＝Ｌ_dest／Ｌ（ａ_i3） ‥（３３０）

評価式（３３０）から明らかなように、ロボットＲが直線的に目標位置に向かうほど、すなわち、ロボットＲが目標位置に到達すると予測される第３行動候補ａ_i3であるほど第３適合度ｅ₃（ａ_i3）が高く評価される。

なお、第３行動目的が「ロボットＲを目標姿勢で目標位置に到達させる」という目的である場合、第３行動候補ａ_i3としての大局経路に応じて定まるロボットＲの目標位置における姿勢（たとえば、基体Ｂ０の方位により特定される。）と目標姿勢との偏差（姿勢偏差）が小さいほど、第３適合度ｅ₃（ａ_i3）が高く評価されるように定義されていてもよい（評価式（３３０）参照）。

そして、第３適合度ｅ₃（ａ_i3）に加えて、第２モジュールｍｏｄ２により評価された第２適合度ｅ₂（ａ_i3）に基づき、評価式（３４１）または（３４２）にしたがって第３総合適合度ｆ₃（ａ_i3）が評価される。

ｆ₃（ａ_i3）＝ｅ₃（ａ_i3）（ｅ₂（ａ_i3）＋１） ‥（３４１）
ｆ₃＝ｗ₃ｅ₃（ｗ₂ｅ₂＋１） ‥（３４２）

ここで「ｗ₂」および「ｗ₃（＝（ｗ₂＋１）^-1）」は重み係数である。

第３総合適合度ｆ₃（ａ_i3）の評価結果が、第２行動候補ａ_i2および第３行動候補ａ_i3のそれぞれを探索するための収束性および多様性がある「第３探索戦略」として定義される。

評価式（３４１）および（３４２）から明らかなように、第３総合適合度ｆ₃（ａ_i3）に対する寄与度は、第３適合度ｅ₃（ａ_i3）のほうが第２適合度ｅ₂（ａ_i3）よりも高い。たとえば、第３適合度ｅ₃（ａ_i3）が０に近づくと、第２適合度ｅ₂（ａ_i3）の高低とは無関係に第３総合適合度ｆ₃（ａ_i3）も０に近づく。その一方、第２適合度ｅ₂（ａ_i3）が０に近づいても第３総合適合度ｆ₃（ａ_i3）は０ではなく第３適合度ｅ₃（ａ_i3）に近づき、第３適合度ｅ₃（ａ_i3）の高低が、第３総合適合度ｆ₃（ａ_i3）に直接反映されるようになる。

（探索戦略にしたがった行動候補の探索方法）
行動候補の探索方法について説明する。探索方法としては「収束性」および「多様性」がある方法が採用される。「収束性」がある方法により、探索範囲（行動候補により定義される空間における範囲を意味する。）のうち前回評価が高かった行動候補の近くにおいて、今回評価がより高くなるような行動候補が探索されうる。「多様性」がある当該方法により、前回評価に拘泥されすぎることなく、今回評価がよりより高くなるような行動候補が広範囲で探索されうる。

収束性および多様性がある行動候補の探索方法として、進化的探索手法が採用されうる。
まず、図９（ａ）に示されている複数の親個体（行動候補ａに対応している。「●」により表現されている。）のうち、円で囲まれた親個体が選択される。選択確率は適合度ｆ（ａ）（実線で示されている評価曲線にしたがって評価される。）が高いほど高い。

そして、図９（ｂ）に示されているように適合度ｆ（ａ）が高い親個体ほど当該親個体に比較的小さいノイズ（ノイズは適合度ｆ（ａ）が高いほど小さくなる。）が加えられた結果として子個体（「○」により表現されている。）が当該親個体の周囲の比較的狭い範囲に高確率で分布するように生成される。その一方、適合度ｆ（ａ）が低い親個体ほど当該親個体に比較的大きいノイズ（ノイズは適合度ｆ（ａ）が低いほど大きくなる。）が加えられた結果として子個体が当該親個体の周囲の比較的広い範囲に高確率で分布するように生成される。そのほか、図示しないが不規則に個体が生成される。すべての個体に対する不規則な個体の占有率はたとえば０．３０程度に設定される。

前記のような世代交代手法が採用されることにより、世代を経るに連れて適合度ｆ（ａ）が大きい領域に個体が集中していく。これにより、モジュールの目的への適合性が高い行動候補ａが適応的に求められる。

さらに、探索方法の多様性について説明するため、２つのモジュールＡおよびモジュールＢを対象として考察する。モジュールＡはその目的に鑑みた行動候補ａの適合性を表わす適合度ｆ_A（ａ）を評価し、その評価結果に応じて探索戦略を設定してモジュールＢに出力するように構成されている。モジュールＢはモジュールＡから探索戦略を受け取り、この探索戦略にしたがってその目的に鑑みた適合性を表わす適合度ｆ_B（ａ）が高い行動候補ａを探索するように構成されている。

まず、図１０（ａ）上側に示されているようにモジュールＡにより適合度ｆ_A（ａ）が最大値を示す「１つの行動候補ａ₁」が探索戦略として設定された場合を考える。この場合、たとえば、図１０（ａ）下側に示されているようにモジュールＢにより探索戦略としての行動候補ａ₁を起点として、適合度ｆ_B（ａ）が極大値を示す行動候補ａ_2-が探索される。しかし、この解は適合度ｆ_B（ａ）が最高となる最適解ではなく、局所的な解にしか過ぎない可能性がある。

そこで、図１０（ｂ）上側に示されているようにモジュールＡにより適合度ｆ_A（ａ）が最大値（または極大値）を示す「１つの行動候補ａ₁の周辺範囲」が探索戦略として設定される。これに応じて、たとえば、図１０（ｂ）下側に示されているようにモジュールＢにより探索戦略としての範囲において適合度ｆ_B（ａ）が最高となるような行動候補ａ₂₊（≠ａ_2-）が探索される。このように探索範囲が広げられた結果、最適解が得られる可能性を高くすることができる。

また、図１１（ａ）上側に示されているようにモジュールＡにより適合度ｆ_A（ａ）が最高値を示す「１つの行動候補ａ₁」が探索戦略として設定された場合を考える。この場合、たとえば、図１１（ａ）下側に示されているようにモジュールＢにより探索戦略としての１つの行動候補ａ₁の周辺の単一範囲において適合度ｆ_B（ａ）が極大値を示す行動候補ａ_2-が探索される。しかし、この解は適合度ｆ_B（ａ）が最高となる最適解ではなく、局所的な解にしか過ぎない可能性がある。

そこで、図１１（ｂ）上側に示されているようにモジュールＡにより適合度ｆ_A（ａ）が極大値を示す「複数の行動候補ａ_1-およびａ₁₊」が探索戦略として設定される。これに応じて、たとえば、図１１（ｂ）下側に示されているようにモジュールＢにより探索戦略としての複数の行動候補ａ_1-およびａ₁₊のそれぞれの周囲範囲において適合度ｆ_B（ａ）が最高となるような行動候補ａ₂₊（≠ａ_2-）が探索される。このように探索範囲が広げられた結果、最適解が得られる可能性を高くすることができる。

（実施例）
図１２（ａ）〜（ｃ）のそれぞれの下側に示されているロボットＲのＺＭＰおよび重心位置（「◎」により表現されている。）により表現される当該ロボットＲの挙動状態は、図１２（ａ）〜（ｃ）のそれぞれの上側に示されている倒立振子の着地位置および重心位置（「◎」により表現されている。）により表現される当該倒立振子の挙動状態にモデル化して考えることができる。

そこで、倒立振子をその上部を変移自在に上方から吊り下げた状態で移動させて実験を行った。まず、図１３（ａ）に示されているように倒立振子にその出発位置から移動を開始させ（時刻ｔ＝０）、その後、外乱（物体との接触により受けた力）が倒立振子に与えられた（時刻ｔ＝ｔ₀）。これに応じて倒立振子が安定化を図りながら新たな経路に沿って移動し（時刻ｔ＝ｔ₁）、物体との接触を回避しながらさらに移動し（時刻ｔ＝ｔ₂）、目標位置に到達する（時刻ｔ＝ｔ₃）。

この際、図１３（ｂ）に示されているように個体フィルタを用いた第１行動候補としての離散的な着地位置の探索のための計算が実行された。個体は升目が付された地面の上方にある雲状の塊を構成する個々の点により表現され、その地面からの高さは第１総合指数ｆ₁の大きさを表わしている。この場合、当該雲の尾根に沿って並んでいる点が地面に垂直に投影された点が、第１行動予約または第１行動指針としての着地位置を表わしている。

前記のようにロボットＲの挙動状態は倒立振子の挙動状態にモデル化されることから、当該モデルを用いてロボットＲの行動が制御されうる。これにより、図１４に示されているようにロボットＲを倒立振子と同様に行動させることができる。すなわち、まず、ロボットＲにその出発位置から移動を開始させ（時刻ｔ＝０）、その後、外乱がロボットＲに与えられる（時刻ｔ＝ｔ₀）。これに応じて、ロボットＲは安定化を図りながら新たな経路に沿って移動し（時刻ｔ＝ｔ₁）、物体との接触を回避しながらさらに移動し（時刻ｔ＝ｔ₂）、目標位置に到達する（時刻ｔ＝ｔ₃）。

前記機能を発揮するロボットＲによれば、複数のモジュールｍｏｄｉ（ｉ＝１，２，３）のそれぞれに自己が主担当する主目的を優先させながらも、他のモジュールが主担当する副目的をも勘案した形で、制御対象であるロボットＲの行動候補が探索される（図５／ＳＴＥＰ１１０，ＳＴＥＰ２１０，ＳＴＥＰ３１０参照）。このように、異なるモジュール間で目的が緩やかに共有された形で制御対象の行動候補が探索されうる。

また、上位モジュール（少なくとも制御モジュールｍｏｄ０）により予測された制御対象の未来状態に続く、探索された行動候補に応じた制御対象の複数の未来状態が予測される（図５／ＳＴＥＰ１２０，ＳＴＥＰ２２０，ＳＴＥＰ３２０参照）。

そして、未来状態のそれぞれに基づき、高周波の上位モジュールが主担当する上位目的が、低周波の下位モジュールが主担当する下位目的よりも優先され、自己が主担当する主目的および副目的に対する総合適合度が評価される（図５／ＳＴＥＰ１３０，ＳＴＥＰ２３０，ＳＴＥＰ３３０参照）。これにより、高周波の上位モジュールが主担当する上位目的が、低周波の下位モジュールが主担当する下位目的よりも優先して反映された態様でロボットＲの行動が制御される。

このため、外乱が発生した場合（図４／時刻ｔ＝ｔ₀参照）、当初は応答が速い上位モジュールが主担当する上位目的が制御対象の行動形態に反映され、この外乱による影響の迅速な低減が図られる（図４／時刻ｔ＝ｔ₁参照）。さらに、時間経過とともに応答が遅い下位モジュールが主担当する下位目的も制御対象の行動形態に反映され、複数の目的のすべてに適合するような制御対象の行動形態の回復が図られる（図４／時刻ｔ＝ｔ₂，ｔ＝ｔ₃参照）。これにより、任意形態の外乱に対して、ロボットＲがその行動目的に鑑みて適当な形態で行動することができる。

なお、制御対象はロボットＲ（図１参照）のほか、車両等、アクチュエータを備えているあらゆる装置であってもよい。

前記実施形態では、行動探索用のモジュールは３つであったが、２つであってもよく、４つ以上であってもよい。

第１モジュールｍｏｄ１および第２モジュールｍｏｄ２のみが制御システム１に含まれる場合、第２総合適合度ｆ₂（ａ_i2）は第２適合度ｅ₂（ａ_i2）および第１適合度ｅ₁（ａ_i2）に基づき、評価式（２４４）にしたがって評価される。

ｆ₂（ａ_i1）＝ｅ₂（ａ_i2）（ｅ₁（ａ_i2）＋１） ‥（２４４）

また、第３モジュールｍｏｄ３より上位の（演算周期が長い）第４モジュールｍｏｄ４が制御システム１の構成要素としてさらに含まれている場合、第３総合適合度ｆ₃（ａ_i3）は、第２総合適合度ｆ₂（ａ_i2）の評価式（２４１）と同様の評価式（３４３）にしたがって評価される。

ｆ₃（ａ_i3）＝ｅ₃（ａ_i3）（ｅ₂（ａ_i3）（ｅ₄^（ａ_i3）＋１）＋１） ‥（３４３）
この場合、第４モジュールｍｏｄ４により第４総合適合度ｆ₄（ａ_i4）は、第３総合適合度ｆ₃（ａ_i3）の評価式（３４）と同様の評価式にしたがって評価される。

さらに、４つの行動探索モジュールが制御システム１の構成要素として含まれている場合、第２適合度ｅ₂（ａ_i2）、第１適合度ｅ₁（ａ_i2）および第３推定適合度ｅ₃^（ａ_i2）に加えて、さらに第４推定適合度ｅ₄^（ａ_i2）に基づき、評価式（２４４）にしたがって第２総合適合度ｆ₂（ａ_i2）が評価されてもよい。

ｆ₂（ａ_i2）＝ｅ₂（ａ_i2）
×（ｅ₁（ａ_i2）（ｅ₃^（ａ_i2）（ｅ₄^（ａ_i2）＋１）＋１）＋１） ‥（２４４）

５つ以上の行動探索モジュールが構成要素として制御システム１に含まれる場合も、同様の考え方にしたがって中間モジュールの総合適合度が算出されうる。

１‥制御システム。２‥アクチュエータ。ｍｏｄ１‥第１モジュール、ｍｏｄ２‥第２モジュール、ｍｏｄ３‥第３モジュール。Ｒ‥ロボット（制御対象）。

Claims

周波数帯域の高低に応じて階層化されている複数のモジュールを備え、
前記モジュールのそれぞれが、自己が主担当する主目的を他のモジュールが主担当する副目的よりも優先させながら、前記主目的および前記副目的に適合する制御対象の行動形態の候補である行動候補を探索するように構成され、
低周波の下位モジュールにより探索された前記制御対象の行動候補よりも、高周波の上位モジュールにより探索された前記制御対象の行動候補を優先的に反映させた形で前記制御対象の行動を制御するように構成されていることを特徴とする制御システム。
請求項１記載の制御システムにおいて、
前記モジュールのそれぞれが、前記制御対象の行動候補の自己の前回探索結果を、前記他のモジュールによる前記制御対象の行動候補の前回探索結果よりも優先させながら、前記自己の前回探索結果と、前記他のモジュールによる前記制御対象の行動候補の前回探索結果とに応じた探索戦略にしたがって前記制御対象の行動候補の今回探索を実行するように構成されていることを特徴とする制御システム。
請求項２記載の制御システムにおいて、
前記モジュールのそれぞれが、自ら探索した前記制御対象の行動候補のそれぞれについて、前記主目的および前記副目的に対する総合適合度を評価し、
前回探索された前記行動候補の一部を、前回評価された前記総合適合度が高いほど高確率で選択し、前記行動候補により定義される状態空間における、当該選択された前記行動候補の周辺領域において前記行動候補の今回探索を実行するように構成されていることを特徴とする制御システム。
請求項３記載の制御システムにおいて、
前記モジュールのそれぞれが、前記状態空間において、前回探索された前記行動候補のうち選択された前記行動候補を基準として、前回評価された前記総合適合度が高いほど狭い周辺領域において前記行動候補の今回探索を実行するように構成されていることを特徴とする制御システム。
請求項３または４記載の制御システムにおいて、
前記モジュールのそれぞれが、前回探索された前記行動候補のうち選択された前記行動候補の周辺領域に加えて、前記状態空間において不規則に選択された点の周辺領域において前記行動候補の今回探索を実行するように構成されていることを特徴とする制御システム。
請求項１〜５のうちいずれか１つに記載の制御システムにおいて、
前記モジュールのそれぞれが、自己よりも１階位だけ上位のモジュールが存在する場合には当該上位モジュールを前記他のモジュールとするとともに、自己よりも１階位だけ下位のモジュールが存在する場合には当該下位モジュールを前記他のモジュールとして、前記制御対象の行動候補を探索するように構成されていることを特徴とする制御システム。
請求項１〜６のうちいずれか１つに記載の制御システムにおいて、
前記モジュールのそれぞれが、前記制御対象としての移動装置の位置または位置および姿勢を定めるような前記行動候補を探索するように構成され、
高周波の上位モジュールであるほど、低周波の下位モジュールと比較して前記移動装置の短期間にわたる前記行動候補を探索するように構成されていることを特徴とする制御システム。
請求項７記載の制御システムにおいて、
基体と、前記基体から延設された複数の脚体とを有する前記移動装置としてのロボットの位置軌道および姿勢軌道を前記行動候補として探索するように構成されている第１モジュール、第２モジュールおよび第３モジュールを前記複数のモジュールとして備え、
前記第１モジュールが前記ロボットに姿勢を安定させるための前記ロボットの第１指定歩数にわたる歩容を第１行動候補として探索するように構成され、
前記第２モジュールが前記ロボットに物体との接触を回避させるための前記第１指定歩数よりも多い第２指定歩数にわたる歩容を定める局所経路を第２行動候補として探索するように構成され、
前記第３モジュールが前記ロボットに目標位置に到達させるための大局経路を第３行動候補として探索するように構成されていることを特徴とする制御システム。
基体と、前記基体から延設されている複数の脚体とを備え、前記複数の脚体の動作により移動するロボットであって、
請求項１〜８のうちいずれか１つに記載の制御システムを備えていることを特徴とする前記制御対象としてのロボット。