JP5313562B2

JP5313562B2 - 行動制御システム

Info

Publication number: JP5313562B2
Application number: JP2008169533A
Authority: JP
Inventors: 総司射場
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2008-06-27
Filing date: 2008-06-27
Publication date: 2013-10-09
Anticipated expiration: 2028-06-27
Also published as: JP2010005761A; US8078321B2; US20090326710A1

Description

本発明はインストラクタがタスクを実行する際の行動を手本として、エージェントにこのタスクを実行させるためのシステムに関する。

基準となる状態変数の軌道に基づいて実際の状況に適したエージェントの状態変数の軌道を生成するための手法として多項式、ベジエまたはアトラクタ等が利用されている。たとえば、力学系の状態空間においてアトラクタを設計し、エージェントとしてのヒューマノイドロボットの状態変数軌道がこのアトラクタに引き込まれることでロボットの安定な自律的運動が実現されることが報告されている（非特許文献１参照）。
岡田昌史大里健太中村仁彦「非線形力学系のアトラクタ設計によるヒューマノイドロボットの運動創発」計測自動学会論文集ｖｏｌ．４１，Ｎｏ．６，５３３／５４０（２００５）

しかし、エージェントがインストラクタの動きの外形特徴を維持するという束縛条件下で行動する場合、エージェントの動作の滑らかさが損なわれてしまう可能性がある。このため、エージェントがタスクを実行するための動作がぎこちなくなり、インストラクタと同様に円滑にタスクを実行することが困難となる可能性がある。

そこで、本発明は、エージェントに円滑な動作によりタスクを実行させることができるシステムを提供することを解決課題とする。

第１発明の行動制御システムは、インストラクタがタスクを実行する際の行動を手本として、エージェントに前記タスクを実行させるためのシステムであって、
前記インストラクタの動きにより変位する第１状態変数の位置を時系列的に表わす基準軌道に基づいてアトラクタを定義し、第１モデルと、第２モデルとに基づき、ダイナミクスベイジアンネットワークにより表現される確率遷移モデルを定義し、前記確率遷移モデルにしたがって前記第１状態変数に対応する第２状態変数の位置を時系列的に表わす学習軌道を生成する軌道生成要素を備え、
前記第１モデルが、前記アトラクタの引き込み点を基準とする前記第２状態変数の位置の各時点における偏差の大小と、アトラクタ行列と、確率分布で表わされる揺らぎまたは不確定要素とに応じて前記第２状態変数の位置の各時点における変位速度が連続確率変数として定義され、かつ、前記アトラクタの引き込み点が確率分布で表わされる不確定要素を有する連続確率変数として定義されているモデルであり、
前記第２モデルが、前記第２状態変数の今回位置が前記第２状態変数の前回位置および今回速度により表わされ、前記第２状態変数の１または各ｎ階時間微分の今回値（ｎ＝１，２，‥）が、前記第２状態変数の１または各ｎ階時間微分の前回値と、前記第２状態変数の２または各ｎ＋１階時間微分の今回値とにより表わされ、かつ、前記第２状態変数の位置及びその１または各ｎ階時間微分値のそれぞれが確率分布で表わされる不確定要素を有する連続確率変数として定義されているモデルであり、前記軌道生成要素により生成された前記学習軌道にしたがって前記エージェントの行動を制御することを特徴とする。

第１発明の行動制御システムによれば、第１モデルおよび第２モデルにしたがって、第２状態変数の位置を時系列的に表わす「学習軌道」が生成される。「第１モデル」はインストラクタの動きにより変位する第１状態変数の位置を時系列的に表わす基準軌道の標準的な形状特性を表わしている。このため、第１モデルにしたがって学習軌道が生成されることにより、基準軌道の標準的な形状特性、すなわち、タスクを実行する際のインストラクタの動作の特徴を学習軌道に持たせることができる。「第２モデル」は第１状態変数に対応する第２状態変数の位置および一または複数のｎ階時間微分値（ｎ＝１，２，‥）が連続的に変化するようなエージェントの動作を表わしている。このため、第２モデルにしたがって学習軌道が生成されることにより、第２状態変数の位置および一または複数のｎ階時間微分値が連続的に変化するような変位特性をも学習軌道に持たせることができる。したがって、学習軌道にしたがってエージェントの行動が制御されることにより、エージェントに、インストラクタの動作特性を模倣または再現させながら、第２状態変数の時間微分値に不連続が生じないような円滑な動作によりタスクを実行させることができる。なお「状態変数」とは、スカラーおよびベクトルを包含する概念であり、確率分布変数を包含する概念である。状態変数の「位置」とは、当該状態変数により定義される空間における位置を意味する。

第２発明の行動制御システムは、第１発明の行動制御システムにおいて、前記軌道生成要素が前記第１モデルおよび前記第２モデルにしたがって各時点における前記第２状態変数の推定位置を表わす推定軌道を生成し、前記推定軌道を基準として各時点における前記第２状態変数の位置の許容通過範囲を設定し、各時点における前記第２状態変数の位置が前記各時点における前記許容通過範囲に収まるように前記学習軌道を生成することを特徴とする。

第２発明の行動制御システムによれば、各時点における第２状態変数の推定位置の時系列的な変化態様を表わす推定軌道が生成されるが、この推定軌道は第１モデルおよび第２モデルにしたがって生成されている。このため、推定軌道は基準軌道の標準的な形状特性のみならず、第２状態変数の位置および一または複数のｎ階時間微分値が連続的に変化するような変位特性をも併せ持っている。そして、各時点における第２状態変数の位置が許容通過範囲に収まるように、すなわち、許容通過範囲の広狭によって定義される程度の揺らぎまたはふらつきが許容された形で学習軌道が生成される。したがって、学習軌道にタスク実行のために必要な程度に基準軌道の標準的な形状特性を持たせるという条件下で、学習軌道にエージェントの円滑な動作の実現に必要な程度に連続的な第２状態変数の位置の変位特性をも持たせることができる。

第３発明の行動制御システムは、第２発明の行動制御システムにおいて、前記軌道生成要素が、前記エージェントに前記タスクを実行させる観点から前記基準軌道に追従させる必要性が高い基準時点における前記第２状態変数の位置の前記許容通過範囲が狭くまたは小さくなるように前記許容通過範囲を設定することを特徴とする。

第３発明の行動制御システムによれば、許容通過範囲の広狭または大小がエージェントにタスクを実行させる観点から設定されるので、インストラクタの動作特性を反映させながらエージェントにタスクを実行させる観点から適当な学習軌道が生成されうる。

第４発明の行動制御システムは、第２または第３発明の行動制御システムにおいて、前記軌道生成要素が、各時点における前記第２状態変数の位置を時系列的に順方向に推定することにより順方向の前記推定軌道を生成し、各時点における前記第２状態変数の位置を時系列的に逆方向に推定することにより逆方向の前記推定軌道を生成し、前記順方向推定軌道の前記許容通過範囲と、前記逆方向推定軌道の前記許容通過範囲とを合成した結果としての合成存在許容範囲に各時点における前記第２状態変数の値が収まるように前記学習軌道を生成することを特徴とする。

第４発明の行動制御システムによれば、順方向推定軌道は時系列的に順方向について基準軌道の標準的な形状特性のみならず、第２状態変数の位置およびその一または複数のｎ階時間微分値が連続的に変化するような変位特性をも併せ持っている。逆方向推定軌道は時系列的に逆方向について基準軌道の標準的な形状特性のみならず、第２状態変数の位置およびその一または複数のｎ階時間微分値が連続的に変化するような変位特性をも併せ持っている。そして、各時点における第２状態変数の位置が順方向推定軌道の許容通過範囲および逆方向推定軌道の許容通過範囲が合成された結果としての合成許容通過範囲に収まるように、すなわち、合成許容通過範囲の広狭によって定義される程度の揺らぎまたはふらつきが許容された形で学習軌道が生成される。したがって、タスク実行のために必要な程度に時系列的に順方向および逆方向のそれぞれについて基準軌道の標準的な形状特性を学習軌道に持たせるという条件下で、エージェントの円滑な動作の実現に必要な程度に連続的な第２状態変数の位置の変位特性をも学習軌道に持たせることができる。

第５発明の行動制御システムは、第１〜第４発明のうちいずれか１つの行動制御システムにおいて、前記軌道生成要素が、異なる複数の前記アトラクタを用いて、単一の前記第１モデルの性質が途中の時点で変化するように当該第１モデルを定義することを特徴とする。

第５発明の行動制御システムによれば、学習軌道が有する基準軌道の標準的な形状特性と、連続的な第２状態変数の位置の変位特性とのバランスが調節されうる。したがって、エージェントに、第２状態変数の位置に要求される基準軌道への追従性の高低が異なる等、性質の異なる行動を円滑に連続させることによりタスクを実行させることができる。

第６発明の行動制御システムは、第１〜第５発明のうちいずれか１つの行動制御システムにおいて、前記第１状態変数の位置を時系列的に表わす基準軌道を認識する状態認識要素を備え、前記軌道生成要素が前記インストラクタが前記タスクを実行するたびに前記状態認識要素により認識された複数の前記基準軌道に基づき、前記第１モデルを定義することを特徴とする。

第６発明の行動制御システムによれば、インストラクタが複数回にわたりタスクを繰り返すたびに、第１状態変数の位置を時系列的に表わす「基準軌道」が認識または測定される。このため、複数の基準軌道に基づき、基準軌道の標準的な形状特性、すなわち、タスクを実行する際のインストラクタの動作の特徴が再現または模倣される基礎として適当な第１モデルが生成されうる。

第７発明の行動制御システムは、第１〜第６発明のうちいずれか１つの行動制御システムにおいて、前記軌道生成要素が前記タスクの実行進捗状況に応じて前記アトラクタの引き込み点を変位させることを特徴とする。

第７発明の行動制御システムによれば、アトラクタの引き込み点の揺らぎまたは変位が許容されている。このため、学習軌道にタスク実行のために必要な程度に基準軌道の標準的な形状特性を持たせるという条件下で、学習軌道にエージェントの円滑な動作の実現に必要な程度に連続的な第２状態変数の位置の変位特性をも持たせることができる。

本発明の行動制御システムの実施形態について図面を用いて説明する。まず、行動制御システムの構成について説明する。図１に示されている行動制御システム１００は、図２に示されているエージェントとしてのロボット１に搭載されているアクチュエータ１０００の動作を制御することによりロボット１の行動を制御する。

ロボット１は脚式移動ロボットであり、人間と同様に基体１０と、基体１０の上部に設けられた頭部１１と、基体１０の上部左右両側から延設された左右の腕部１２と、腕部１２の先端部に設けられた手部１３と、基体１０の下部から下方に延設された左右の脚部１４と、脚部１４の先端部に取り付けられている足部１５とを備えている。ロボット１は、再表０３／０９０９７８号公報や、再表０３／０９０９７９号公報に開示されているように、アクチュエータ１０００から伝達される力によって、人間の肩関節、肘関節、手根関節、股関節、膝関節、足関節等の複数の関節に相当する複数の関節機構において腕部１２や脚部１４を屈伸運動させることができる。腕部１２は肩関節機構を介して基体１０に連結された第１腕リンクと、一端が第１腕リンクの端部に肘関節機構を介して連結され、他端が手根関節を介して手部１３の付根部に連結されている第２腕リンクとを備えている。脚部１４は股関節機構を介して基体１０に連結された第１脚リンクと、一端が第１脚リンクの端部に膝関節機構を介して連結され、他端が足関節を介して足部１５に連結されている第２脚リンクとを備えている。ロボット１は、左右の脚部１４のそれぞれの離床および着床の繰り返しを伴う動きによって自律的に移動することができる。

行動制御システム１００はロボット１に搭載されている電子制御ユニット（ＣＰＵ，ＲＯＭ，ＲＡＭ，Ｉ／Ｏ回路等により構成されている。）またはコンピュータにより構成されている。

行動制御システム１００は状態認識要素１１０と、軌道生成要素１２０とを備えている。状態認識要素１１０は内部状態センサ群１１１および外部状態センサ群１１２のそれぞれの出力信号に基づいて種々の状態変数の値を認識する。内部状態センサ群１１１にはロボット１の位置（重心位置）を測定するためのＧＰＳ測定装置または加速度センサのほか、基体１０の姿勢を測定するためのジャイロセンサ、各関節機構の屈曲角度等を測定するロータリーエンコーダ等が含まれている。外部状態センサ群１１２にはロボット１とは別個独立のモーションキャプチャーシステム（図示略）のほか、ボール等のタスク実行に関連する物体の位置軌道を測定するため、頭部１１に搭載されているステレオイメージセンサや、基体１０に搭載されている赤外光を用いたアクティブ型センサ等が含まれる。状態認識要素１１０はインストラクタの動きにより変位する「第１状態変数」の位置を時系列的に表わす「基準軌道」を認識する。軌道生成要素１２０はインストラクタがタスクを実行するたびに状態認識要素１１０により認識された複数の基準軌道に基づき、基準軌道の標準的な形状を表わす「第１モデル」を定義する。軌道生成要素１２０は第１モデルと、第１状態変数に相当する「第２状態変数」の一または複数のｎ階時間微分値（ｎ＝１，２，‥）が連続的に変化するようなロボット１の動作を表わす「第２モデル」とに基づき、第１状態変数に対応するエージェントとしてのロボット１の動きにより変位する「第２状態変数」の位置を時系列的に表わす「学習軌道」を生成する。行動制御システム１００は軌道生成要素１２０により生成された学習軌道にしたがってロボット２が行動するようにアクチュエータ群１０００の動作を制御する。

なお、本発明を構成する「要素」は物理的にはメモリ（ＲＯＭ，ＲＡＭ）と、このメモリからプログラムを読み出して担当する演算処理を実行する演算処理装置（ＣＰＵ）とにより構成されている。プログラムはＣＤやＤＶＤ等のソフトウェア記録媒体を通じてコンピュータにインストールされてもよいが、ロボット１からサーバに要求信号が送信されたことに応じて当該サーバによってネットワークや人工衛星を介して当該コンピュータにダウンロードされてもよい。本発明の構成要素が情報を「認識する」とは、当該構成要素が情報をデータベースから検索すること、メモリ等の記憶装置から情報を読み取ること、センサ等の出力信号に基づき情報を測定、算定、推定、判定すること、測定等された情報をメモリに格納すること等、当該情報をさらなる演算処理のために準備または用意するのに必要なあらゆる情報処理を実行することを意味する。行動制御システム１００のうち一部（たとえば、状態認識要素１１０および軌道生成要素１２０）がロボット１の外部コンピュータにより構成され、残りの部分（たとえばロボット１の行動を制御するための要素）が当該外部コンピュータから演算結果を無線または有線方式で受信可能なコンピュータにより構成されていてもよい。

前記構成の行動制御システム１００の機能について説明する。

まず、本発明の第１実施形態としての行動制御システム１００について説明する。第１実施形態の行動制御システム１００は、図４（ａ）〜（ｃ）に順に示されているようにインストラクタとしての人間が片手で持っているラケットを振るというタスクを実行する様子を手本として、図５（ａ）〜（ｃ）に示されているようにエージェントとしてのロボット１に同じタスクを実行させるようにその行動を制御する。図４（ａ）（ｂ）および（ｃ）のそれぞれは、インストラクタがラケットを動かし始める直前の状態、ラケットを動かしている途中の状態、および、ラケットの動きを止めた状態のそれぞれを示している。

まず、状態認識要素１１０によりインストラクタがタスクを繰り返すたび「第１状態変数」の位置を時系列的に表わす「基準軌道」が認識される（図３／Ｓ００２）。具体的には、ラケット位置（トップの位置）が第１状態変数として測定される。なお、ラケット位置に代えてまたは加えてインストラクタの手、肘、肩、膝等の指定箇所（ラケットなどその身につけているものを含む。）の位置が第１状態変数として測定されてもよく、特徴部分の変位速度または加速度等が第１状態変数として測定されてもよい。さらに、肩関節、肘関節、手根関節、膝関節等のインストラクタの指定関節の角度、角速度または角加速度が第１状態変数として測定されてもよい。また、指定箇所の位置、変位速度および加速度と、指定関節の角度、角速度および角加速度のうち任意の組み合わせが第１状態変数として認識されてもよい。これにより、基準軌道Ｑ_i＝［ｑ_i（０），‥ｑ_i（ｋ），‥ｑ_i（Ｎ）］（ｉ＝１，２，‥，Ｘ）が認識される。「ｑ_i（ｋ）」は、第ｉの基準軌道Ｑ_iにおける時点ｋにおける第１状態変数の位置を意味しており、スカラーまたはベクトルによって表現される。第１状態変数として測定されたラケット位置は３次元の状態変数空間において定義されるので、第１状態変数は３次元空間において位置が定義される。基準軌道Ｑ_iの形状特性は図４（ｂ）および（ｃ）に矢印で示されているラケット位置の軌跡の形状特性と実質的に同一である。なお、ラケット位置に加えて手位置が第１状態変数として測定された場合、第１状態変数の位置は６次元空間において定義される。第１状態変数として２つの指定箇所の位置が測定され、かつ、当該２つの指定箇所のｘ成分がほぼ一定の関係にある場合、一方の指定箇所のｘ成分が他方の指定箇所のｘ成分に繰り込まれて省略されることにより、第１状態変数の位置が５次元空間において定義されてもよい。

第１状態変数の位置は、外部状態センサ１１２としての光学式モーションキャプチャーシステムにより測定される。光学式モーションキャプチャーシステムによれば、インストラクタの周囲に配置された一または複数のカメラ（トラッカー）による、ラケット等の指定箇所に付されたマークの検出結果に基づいてラケット位置が測定される。なお、機械式、磁気式または慣性式モーションキャプチャーシステムにより第１状態変数の位置が測定されてもよい。機械式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数のポテンショメータからの当該インストラクタの各関節角度を表す出力信号に基づいて第１状態変数の位置が測定される。磁気式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数の磁気センサからの出力信号に基づいて第１状態変数の位置が測定される。慣性式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数の慣性モーメントセンサからの腕等の慣性モーメントを表す出力信号に基づいて第１状態変数の位置が測定される。

続いて状態認識要素１１０により認識された基準軌道Ｑ_iに基づき、軌道生成要素１２０により第１モデルが定義される（図３／Ｓ００４）。具体的には、まず基準軌道Ｑ_iに基づき、関係式（１０）にしたがってアトラクタ行列Ｒが算定される。このアトラクタ行列の算定方法は、たとえば「Trajectory Representation Using Sequenced Linear Dynamical Systems, K.R.Dixon and P.K.Khosla, Proceeding of the IEEE International Conference on Robotics and Automation(2004)」に記載されている。なお、第１モデルがあらかじめ設定され、かつ、記憶装置に保存されている場合には、状態認識要素１１０による状態認識が省略され、軌道生成要素１２０によりこの記憶装置から第１モデルを表わすデータまたは情報が読み出されてもよい。

R=(Q^(k+1)-Q^(k))(Q^(k)-Q^(N))⁺,
Q^(k)≡[q₁(1)..q₁(N_1-1)..q_i(1)..q_i(N_i-1)..q_x(1)..q_x(N_x-1)],
Q^(k+1)≡[q₁(2)..q₁(N_1)..q_i(2)..q_i(N_i)..q_x(2)..q_x(N_x)],
Q^(N)≡[q₁(N_1)..q₁(N_1)..q_i(N_i)..q_i(N_i)..q_x(N_x)..q_x(N_x)] ..(10)

ここで「＋」は擬似逆行列を表わし、「Ｎ_i」はｉ個目の軌道の軌道長を表わしている。そして、アトラクタ行列Ｒにより関係式（１１）〜（１２）により表現される第１モデルが定義される。

v(k)=Rp(k)-Ru(k)+N(μ_v,Σ_v) ..(11)
u(k+1)=u(k)+ε(k)+N(μ_u,Σ_u) ..(12)

関係式（１１）はアトラクタの時点ｋにおける引き込み点ｕ（ｋ）を基準とする第２状態変数の位置ｐ（ｋ）の偏差の大小と、アトラクタ行列Ｒとに応じて時点ｋにおける第２状態変数の位置の変位速度ｖ（ｋ）の高低が定まることと、第２状態変数の位置の変位速度ｖ（ｋ）が確率分布（一般的にはガウス分布）Ｎ（μ_v，Σ_v）（μ_v＝０，Σ_v：共分散行列）で表わされる揺らぎまたは不確定要素を有する連続確率変数であることとを表わしている。すなわち、第１モデルにしたがって時点ｋにおける第２状態変数の変位速度ｖ（ｋ）の高低および揺らぎの程度が定められる。関係式（１２）はアトラクタの引き込み点ｕ（ｋ）が変位量ε（ｋ）だけ変位することが許容されていることと、引き込み点ｕ（ｋ）が確率分布Ｎ（μ_u，Σ_u）（μ_u＝０，Σ_u：共分散行列）で表わされる不確定要素を有する連続確率変数であることとを表わしている。なお、関係式（１２）において右辺第２項が省略されてもよい。

さらに、第１モデルとメモリに保存されている関係式（２１）〜（２３）により表現される「第２モデル」とに基づき、確率遷移モデルが定義される（図３／Ｓ００６）。第２モデルは、ロボット１が第１状態変数に相当する第２状態変数の位置ｐおよびその１階時間微分値（変位速度ｖ＝ｄｐ／ｄｔ）および２階時間微分値（加速度α＝ｄ²ｐ／ｄｔ²）のそれぞれが円滑または連続的に変化するようなロボット１の動作を表わすモデルである。なお、第２状態変数の位置ｐおよびその１階時間微分値および２階時間微分値が連続的に変化するようなロボット１の動作を表わす第２モデルに代えて、第２状態変数の位置ｐおよびその１階時間微分値、または、その２階時間微分値および３階時間微分値が連続的に変化する等、第２状態変数の位置ｐおよび１または複数のｎ階時間微分値が連続的に変化するようなロボット１の動作を表わす第２モデルが採用されてもよい。第２状態変数は第１状態変数に相当しており、手部１３により握られているラケット位置等、指定箇所の位置を意味している。なお、前記のように指定箇所の位置およびその時間微分値と、特徴関数の角度およびその時間微分値との任意の組み合わせが第１状態変数として測定された場合、ロボット１の指定箇所の位置およびその時間微分値と、特徴関数の角度およびその時間微分値との任意の組み合わせが第２状態変数として定義される。

p(k+1)=p(k)+v(k+1)+N(μ_p,Σ_p) ..(21)
v(k+1)=v(k)+α(k+1)+N(μ_v,Σ_v) ..(22)
α(k+1)= α(k)+β(k+1)+N(μ_α,Σ_α) ..(23)

関係式（２１）は第２状態変数の位置ｐ（ｋ）が滑らかに変化するという第２モデルの一側面を表わし、かつ、当該位置ｐ（ｋ）が確率分布Ｎ（μ_p，Σ_p）（μ_p＝０，Σ_p：共分散行列）で表わされる不確定要素を有する連続確率変数であることを表わしている。また、関係式（２２）は第２状態変数の位置の変位速度（位置の１階時間微分値）ｖ（ｋ）が滑らかに変化するという第２モデルの一側面を表わし、かつ、当該変位速度ｖ（ｋ）が確率分布Ｎ（μ_v，Σ_v）（μ_v＝０，Σ_v：共分散行列）で表わされる不確定要素を有する連続確率変数であることを表わしている。さらに、関係式（２３）は第２状態変数の位置の変位加速度（位置の２階時間微分値）α（ｋ）が滑らかに変化するという第２モデルの一側面を表わし、かつ、当該変位加速度α（ｋ）が確率分布Ｎ（μ_α，Σ_α）（μ_α＝０，Σ_α：共分散行列）で表わされる不確定要素を有する連続確率変数であることを表わしている。ここで、β（ｋ）は第２状態変数の位置の加加速度（位置の３階時間微分値（＝ｄ³ｐ／ｄｔ³））である。なお、関係式（２３）において右辺第２項が省略されてもよい。

確率遷移モデルは、図６に示されているダイナミクスベイジアンネットワーク（ＤＢＮ）により表現される。ＤＢＮによれば関係式（１１）（１２）（２１）〜（２３）が、各時点ｔにおける第２状態変数の位置ｐおよびアトラクタの引き込み点ｕ等の状態変数を表わすノード（円）および条件確率によりこれらをつなぐ矢印により表現されている。また、関係式（１１）（１２）（２１）〜（２３）のそれぞれに対応する条件付確率は関係式（１１１）（１１２）（１２２）〜（１２３）のそれぞれにより表現される。

関係式（１１２）における状態変数ノードεは関係式（２１２）により表現される。関係式（１２３）における状態変数ノードβは関係式（２２３）により表現される。

P(ε(k))=N(0,Σ_ε) ..(212)
P(β(k))=N(0,Σ_β) ..(223)

続いて確率遷移モデルにしたがって「学習軌道」が生成される（図３／Ｓ００８）。具体的には、図６に示されているＤＢＮにおいて、前記のように第１基準時点ｔ＝０および第２基準時点ｔ＝Ｎのそれぞれにおける第２状態変数の位置ｐ、速度ｖ、加速度αおよび加加速度βが設定される。たとえば図５（ａ）に示されているようにロボット１がラケットを動かし始める時点（ｔ＝０）における第２状態変数の位置（学習軌道の始点）ｐ（０）が設定される。具体的には、ロボット１がラケットを持って静止している（または構えている）ときのラケット位置が第１基準時点ｔ＝０における第２状態変数の位置ｐ（０）として設定される。第１基準時点ｔ＝０における第２状態変数の位置ｐ（０）の変位速度ｖ（０）、加速度α（０）および加加速度β（０）はすべて「０」に設定される。さらに、図５（ｃ）に示されているようにロボット１がラケットの動きを止めるときのラケットの目標位置が、第２基準時点ｔ＝Ｎにおける第２状態変数の位置ｐ（Ｎ）として設定される。第２基準時点ｔ＝Ｎにおける第２状態変数の位置ｐ（Ｎ）は第１基準時点ｔ＝０におけるアトラクタの引き込み点ｕ（０）の近傍範囲内に設定されてもよい。第２基準時点ｔ＝Ｎにおける第２状態変数の速度ｖ（Ｎ）、加速度α（Ｎ）および加加速度β（Ｎ）はすべて「０」に設定される。

また、第１基準時点ｔ＝０から第２基準時点ｔ＝Ｎまでのノードが、関係式（１１）（１２）（２１）〜（２３）により表現される確率遷移モデルにしたがって、時系列的に順方向（先時点から後時点に向かう方向）に順次推定される。これにより、時系列順方向について第２状態変数の推定位置の変化態様を表わす「順方向推定軌道」が生成される。同様に第２基準時点ｔ＝Ｎから第１基準時点ｔ＝０までのノードが、確率遷移モデルにしたがって、時系列的に逆方向（後時点から先時点に向かう方向）に順次推定される。これにより、時系列的に逆方向について第２状態変数の推定位置の変化態様を表わす「逆方向推定軌道」が生成される。さらに、順方向推定軌道を基準として広がる許容通過範囲が設定され、かつ、逆方向推定軌道を基準として広がる許容通過範囲が設定される。そして、当該両方の許容通過範囲が合成されることにより合成許容範囲が設定され、各時点における第２状態変数の位置ｐ（ｋ）が合成許容通過範囲に治まるように学習軌道Ｐが生成される。

なお、ＤＢＮにおけるノードの推定方法としては前記方法（Belief Propagationと呼ばれている手法）のほか、Loopy Belief Propagation, variable elimination, Junction Tree, Impartance sampling, Hugin Algorithm, Shafer-Shanoy Algorithm, variational message passing, gibbs sampling等の方法が採用されてもよい。

学習軌道Ｐの生成方法の理解の簡単のため、第２状態変数の位置ｐ（ｋ）が１次元（スカラー）であり、ｐ（ｋ＋１）＝Ａｐ（ｋ）（Ａ＝１．５０）という関係式にしたがって推定される状況を考える。この状況において第１基準時点ｔ＝０における第２状態変数の測定位置ｐ（０）が１．００であり、かつ、第２基準時点ｔ＝３における第２状態変数の目標位置ｐ（３）が５．００であると仮定する。この場合、ｐ⁺（０）（＝ｐ（０）），ｐ⁺（１）（＝Ａｐ（０）），ｐ⁺（２）（＝Ａ²ｐ（０））およびｐ⁺（３）（＝Ａ³ｐ（０））を順に経由する軌道が「順方向推定軌道」として生成される。そして、図７（ａ）に示されているように時系列順方向について各時点における第２状態変数の推定位置ｐ⁺（ｋ）の条件付確率分布（一点鎖線）Ｐ（ｐ⁺（ｋ）｜ｐ（０）＝１．００）（ｋ＝１，２，３）が、順方向推定軌道を基準として広がる各時点における許容通過範囲として算定される。その一方、ｐ^-（３）（＝ｐ（３）），ｐ^-（２）（＝Ａ^-1ｐ（０）），ｐ^-（１）（＝Ａ^-2ｐ（０））およびｐ^-（０）（＝Ａ^-3ｐ（０））を順に経由する軌道が「逆方向推定軌道」として生成される。そして、図７（ｂ）に示されているように時系列逆方向について各時点における第２状態変数の推定位置ｐ^-（ｋ）の条件付確率分布（二点鎖線）Ｐ（ｐ^-（ｋ）｜ｐ（３）＝５．００）（ｋ＝２，１，０）が、逆方向推定軌道を基準として広がる各時点における許容通過範囲として算定される。そして、これら２つの条件付確率分布が合成され、その結果として条件付確率分布Ｐ（ｐ（ｋ）｜ｐ（０）＝１．００，ｐ（３）＝５．００）（ｋ＝１，２）が合成許容通過範囲として算定される。これにより、図７（ｃ）に示されているように各時点ｋにおける条件付確率が最高の位置ｐ（０）＝１．００、ｐ（１）＝１．８４２、ｐ（２）＝３．１４９およびｐ（３）＝５．００を順に遷移する軌道が学習軌道Ｐとして生成される。

具体的には、図８（ａ）に示されているように第１基準時点ｔ＝０から第２基準時点ｔ＝Ｎまで、第２状態変数の推定位置ｐ⁺（０）（＝ｐ（０）），ｐ⁺（１），ｐ⁺（２），‥，ｐ⁺（Ｎ）が時系列順方向（白矢印参照）に順次推定される。これにより、第２状態変数の推定位置ｐ⁺（０），ｐ⁺（１），ｐ⁺（２），‥，ｐ⁺（Ｎ）を順に経由する軌道が順方向推定軌道として生成される。また、図８（ａ）に示されているように第２基準時点ｔ＝Ｎから第１基準時点ｔ＝０まで、第２状態変数の推定位置ｐ^-（Ｎ）（＝ｐ（Ｎ）），ｐ^-（Ｎ−１），ｐ^-（Ｎ−２），‥，ｐ^-（０）が時系列逆方向（黒矢印参照）に推定される。これにより、第２状態変数の推定位置ｐ^-（Ｎ），ｐ^-（Ｎ−１），ｐ^-（Ｎ−２），‥，ｐ^-（０）を順に経由する軌道が逆方向推定軌道として生成される。さらに、図８（ｂ）に示されているように順方向推定軌道の各点ｐ⁺（０），ｐ⁺（１），ｐ⁺（２），‥，ｐ⁺（Ｎ）を中心とする確率分布（関係式（２１）右辺第３項参照）と、逆方向推定軌道の各点ｐ^-（Ｎ），ｐ^-（Ｎ−１），ｐ^-（Ｎ−２），‥，ｐ^-（０）を中心とする確率分布とが重ね合わせられるまたは合成されることにより合成許容通過範囲が設定される。そして、斜線付矢印で示されているように第２状態変数の位置が各時点における合成許容通過範囲に収まるように学習軌道Ｐが生成される。図８（ａ）に一点鎖線で示されているように順方向推定軌道の各点を中心として許容通過範囲（確率分布範囲）が広がっている（図７（ａ）参照）。図８（ａ）に二点鎖線で示されているように逆方向推定軌道の各点を中心として許容通過範囲（確率分布範囲）が広がっている（図７（ｂ）参照）。これら確率分布の重ね合わせの広がり度合が学習軌道Ｐの「許容通過範囲」に相当する（図７（ｃ）参照）。

なお、順方向および逆方向の許容通過範囲がすべての時点において合成されるのではなく、たとえば、第１期間ｔ＝０〜ｋでは順方向の許容通過範囲を通過する第１部分軌道が生成され、第１期間に続く第２期間ｔ＝ｋ＋１〜Ｎでは逆方向の許容分布範囲を通過する第２部分軌道が生成され、当該第１部分軌道および第２部分軌道が円滑に接続されることにより学習軌道Ｐが生成されてもよい。また、第１期間ｔ＝０〜ｋでは順方向の許容通過範囲を通過する第１部分軌道が生成され、第１期間よりも後の第２期間ｔ＝ｋ＋ｃ（ｃ＞１）〜Ｎでは逆方向の許容通過範囲を通過する第２部分軌道が生成され、当該第１部分軌道および第２部分軌道を円滑に接続するように期間ｔ＝ｋ＋１〜ｋ＋ｃ−１での中間部分軌道が生成され、第１部分軌道、中間部分軌道および第２部分軌道が順に接続されることにより学習軌道Ｐが生成されてもよい。

そして、軌道生成要素１３０により生成された学習軌道にしたがって、行動制御システム１００によりロボット１の動作が制御される（図３／Ｓ０１０）。具体的には、第２状態変数としてのラケットの位置が学習軌道Ｐにしたがって変位するようにアクチュエータ１０００の動作が制御される。これにより、図５（ａ）〜（ｃ）に順に示されているように腕部１２および脚部１４等が動かされ、ロボット１が片方の手部１３で持っているラケットを振るというタスクを実行する。

なお、インストラクタの動作スケールに対するロボット１の動作スケールの比率に一致するように、基準軌道Ｑのスケールに対する学習軌道Ｐのスケールの比率が調節されてもよい。たとえば、インストラクタの腕の長さに対する、ロボット１の腕部１２の長さの比率がアトラクタ行列Ｒに乗じられることにより、インストラクタの手の位置の時系列的な変化態様を表す基準軌道Ｑのスケールに対する、ロボット１の手部１３の位置の時系列的な変化態様を表わす学習軌道Ｐのスケールが調節されてもよい。また、インストラクタの腕の長さとインストラクタが用いるラケットの長さとの和に対する、ロボット１の腕部１２の長さとロボット１が用いるラケットの長さとの和の比率がアトラクタ行列Ｒ_iに乗じられることにより、インストラクタが持っているラケットの位置の時系列的な変化態様を表す基準軌道Ｑのスケールに対する、ロボット１が把持するラケット位置の時系列的な変化態様を表わす学習軌道Ｐのスケールが調節されてもよい。

次に、本発明の第２実施形態としての行動制御システム１００について説明する。第２実施形態の行動制御システム１００は、図９（ａ）〜（ｃ）に順に示されているようにインストラクタとしての人間がその前方から向かってくるボールを、片手で持っているラケットを使ってフォアハンドで前方に打ち返すというタスクを実行する様子を手本として、図１０（ａ）〜（ｃ）に示されているようにエージェントとしてのロボット１に同じタスクを実行させるようにその行動を制御する。図９（ａ）（ｂ）および（ｃ）のそれぞれは、インストラクタがラケットを動かし始める直前の状態、ラケットをボールに当てた状態、および、ラケットの動きを止めた状態のそれぞれを示している。

ラケットにボールを当てる必要があるというタスクの性質のため、基準軌道の認識に際して（図３／Ｓ００２参照）、状態認識要素１１０によりインストラクタがラケットにボールを当てた時点（図９（ｂ）参照）ｔ＝ｈにおける第１状態変数の位置およびボールの位置が測定される。モーションキャプチャーシステムを構成するカメラを通じて得られる画像解析によって測定されるボールの速度変化が閾値を超えた時点が、ラケットによりボールが打ち返された時点として認識される。ラケットにボールが当たったときに生じる音がマイクロホン（図示略）により検出された時点が、ラケットにボールが当たった時点として認識されてもよい。

また、第２状態変数位置軌道の生成に際して（図３／Ｓ００８参照）、状態認識要素１１０によりロボット１に向かって飛んでくるボールの位置および速度が測定され、この測定結果に基づいてラケットに当たるときのボールの位置が予測される。さらに、ボールがラケットに当たる位置と、インストラクタがラケットでボールを打った時点における第１状態変数の位置およびボールの位置の相関関係とに基づき、ロボット１がラケットにボールを当てる中間基準時点ｔ＝ｈにおける第２状態変数位置ｐ（ｈ）が予測される。なお、中間基準時点ｔ＝ｈは、インストラクタがラケットにボールを当てた時点ｔ＝ｈと異なっていてもよい。中間基準時点ｔ＝ｈは、ラケットの振り始めからラケットにボールが当たるまでの標準的な時間間隔に基づいて画一的に設定されてもよい。

その上で、図１１（ａ）に示されているように第１基準時点ｔ＝０から中間基準時点ｔ＝ｈの直前時点ｔ＝ｈ−１まで、第２状態変数の位置ｐ⁺（０）（＝ｐ（０）），ｐ⁺（１），ｐ⁺（２），‥，ｐ⁺（ｈ−１）が時系列順方向（白矢印参照）に順次推定される。また、同じく図１１（ａ）に示されているように中間基準時点ｔ＝ｈから第２基準時点ｔ＝Ｎまで、第２状態変数の位置ｐ⁺（ｈ）（＝ｐ（ｈ）），ｐ⁺（ｈ＋１），ｐ⁺（ｈ＋２），‥，ｐ⁺（Ｎ）が時系列順方向（白矢印参照）に順次推定される。これにより、第２状態変数の推定位置ｐ⁺（０），ｐ⁺（１），‥，ｐ⁺（ｈ−１），ｐ⁺（ｈ），ｐ⁺（ｈ＋１），‥，ｐ⁺（Ｎ）を順に経由する軌道が順方向推定軌道として生成される。その一方、図１１（ａ）に示されているように第２基準時点ｔ＝Ｎから中間基準時点ｔ＝ｈの直後時点ｔ＝ｈ＋１まで、第２状態変数の位置ｐ^-（Ｎ）（＝ｐ（Ｎ）），ｐ^-（Ｎ−１），ｐ^-（Ｎ−２），‥，ｐ（ｈ＋１）が時系列逆方向（黒矢印参照）に順次推定される。さらに、同じく図１１（ａ）に示されているように中間基準時点ｔ＝ｈから第１基準時点ｔ＝０まで、第２状態変数の位置ｐ^-（ｈ）（＝ｐ（ｈ）），ｐ^-（ｈ−１），ｐ^-（ｈ−２），‥，ｐ^-（０）が時系列逆方向（黒矢印参照）に順次推定される。これにより、第２状態変数の推定位置ｐ^-（Ｎ），ｐ^-（Ｎ−１），‥，ｐ^-（ｈ＋１），ｐ^-（ｈ），ｐ^-（ｈ−１），‥，ｐ^-（０）を順に経由する軌道が逆方向推定軌道として生成される。そして、図１１（ｂ）に示されているように順方向推定軌道の各点ｐ⁺（０），‥，ｐ⁺（ｈ−１），ｐ⁺（ｈ），ｐ⁺（ｈ＋１），‥，ｐ⁺（Ｎ）を中心とする確率分布と、逆方向推定軌道の各点ｐ^-（Ｎ），‥，ｐ^-（ｈ＋１），ｐ^-（ｈ），ｐ^-（ｈ−１），‥，ｐ^-（０）を中心とする確率分布とが重ね合わせられるまたは合成されることにより合成許容通過範囲が設定される。そして、斜線付矢印で示されているように第２状態変数の位置が各時点における合成許容通過範囲に収まるように学習軌道Ｐが生成される。図１１（ａ）に一点鎖線で示されているように順方向推定軌道の各点を中心として許容通過範囲（確率分布範囲）が広がっている（図７（ａ）参照）。図１１（ａ）に二点鎖線で示されているように逆方向推定軌道の各点を中心として許容通過範囲（確率分布範囲）が広がっている（図７（ｂ）参照）。これら確率分布の重ね合わせの広がり度合が学習軌道Ｐの「許容通過範囲」に相当する（図７（ｃ）参照）。

そして、軌道生成要素１３０により生成された学習軌道にしたがって、行動制御システム１００によりロボット１の動作が制御される（図３／Ｓ０１０）。具体的には、第２状態変数としてのラケットの位置が学習軌道にしたがって変化するようにアクチュエータ１０００の動作が制御される。これにより、図１０（ａ）〜（ｃ）に順に示されているようにロボット１がその前方から向かってくるボールを、片方の手部１３で把持しているラケットを使ってフォアハンドで前方に打ち返すタスクを実行する。

前記機能を発揮する第１および第２実施形態の行動制御システム１００によれば、インストラクタが複数回にわたりタスクを繰り返すたびに、第１状態変数の位置を時系列的に表わす基準軌道Ｑ_iが認識または測定される（図３／Ｓ００２、図４（ａ）〜（ｃ）、図９（ａ）〜（ｃ）参照）。このため、複数の基準軌道Ｑⁱに基づき、基準軌道Ｑ_iの標準的な形状特性、すなわち、タスクを実行する際のインストラクタの動作の特徴が再現または模倣される基礎として適当な第１モデルが生成されうる。

また、第１モデルおよび第２モデルにしたがって、第２状態変数の位置を時系列的に表わす学習軌道Ｐが生成される。具体的には、第２状態変数の時系列順方向への推定位置の変化態様を時系列的に表わす順方向推定軌道が生成される（図８（ａ）／白矢印、図１１（ａ）／白矢印参照）。その一方、第２状態変数の時系列逆方向への推定位置の変化態様を時系列的に表わす逆方向推定軌道が生成される（図８（ａ）／黒矢印、図１１（ａ）／黒矢印参照）。

「第１モデル」はインストラクタの動きにより変位する第１状態変数の位置ｑを時系列的に表わす基準軌道Ｑ_iの標準的な形状特性を表わしている（図４（ａ）〜（ｃ），図９（ａ）〜（ｃ）参照）。このため、第１モデルにしたがって各推定軌道が生成され、各推定軌道に基づいて学習軌道Ｐが生成されることにより、基準軌道Ｑ_iの標準的な形状特性、すなわち、タスクを実行する際のインストラクタの動作の特徴を学習軌道Ｐに持たせることができる（図５（ａ）〜（ｃ），図１０（ａ）〜（ｃ）参照）。「第２モデル」は第１状態変数に対応する第２状態変数の位置ｐおよび一または複数のｎ階時間微分値（ｎ＝１，２，‥）が連続的に変化するようなエージェントの動作を表わしている（図６参照）。このため、第２モデルにしたがって各推定軌道が生成されることにより、第２状態変数の位置ｐおよび一または複数のｎ階時間微分値（前記実施形態では１階時間微分値（変位速度ｖ）および２階時間微分値（加速度α））が連続的に変化するような変位特性を順方向および逆方向推定軌道に持たせることができる。

そして、順方向推定軌道を基準として広がる許容通過範囲（図８（ｂ）／一点鎖線、図１１（ｂ）／一点鎖線参照）と、逆方向推定軌道を基準として広がる許容通過範囲（図８（ｂ）／二点鎖線、図１１（ｂ）／二点鎖線参照）とを合成した結果としての合成存在許容範囲に各時点における第２状態変数の位置ｐが収まるように学習軌道Ｐが生成される（図８（ｂ）／斜線矢印、図１１（ｂ）／斜線矢印参照）。すなわち、合成許容通過範囲の広狭によって定義される程度の揺らぎまたはふらつきが許容された形で学習軌道Ｐが生成される。また、エージェントにタスクを実行させる観点から学習軌道Ｐを基準軌道Ｑ_iに追従させる必要性が高い時点であるほど、この時点における第２状態変数の位置ｐの許容通過範囲が狭くまたは小さく設定されている。たとえば、第１実施形態ではｔ＝０（図４（ａ）参照）における学習軌道Ｐの許容通過範囲は「０」または十分に狭くまたは小さく設定されている一方、その他の時点における許容通過範囲は確率遷移モデルにより定まる確率分布の広がりによってある程度広くまたは大きく設定されている（図８（ａ）（ｂ）参照）。また、第２実施形態ではｔ＝０（図９（ａ）参照）およびラケットにボールが当たった時点ｔ＝ｈ（図９（ｂ）参照）における学習軌道Ｐの許容通過範囲は「０」または十分に狭くまたは小さく設定されている一方、その他の時点における許容通過範囲は確率遷移モデルにより定まる確率分布の広がりによってある程度広くまたは大きく設定されている（図１１（ａ）（ｂ）参照）。このような柔軟性のある許容通過可能範囲の広狭の調節が可能になっているのは、アトラクタＲの引き込み点ｕのふらつきまたは変位が許容されているためである（関係式（１２）参照）。

前記のように許容通過範囲の広狭または大小がエージェントにタスクを実行させる観点から設定されるので、インストラクタの動作特性を反映させながらロボット１にタスクを実行させる観点から適当な学習軌道が生成されうる。したがって、タスク実行のために必要な程度に基準軌道の時系列的に順方向および逆方向のそれぞれについて標準的な形状特性を学習軌道Ｐに持たせるという条件下で、ロボット１の円滑な動作の実現に必要な程度に連続的な第２状態変数の位置ｐの変位特性をも学習軌道Ｐに持たせることができる。そして、各時点における第２状態変数の位置ｐが許容通過範囲に収まるように、すなわち、許容通過範囲の広狭によって定義される程度の揺らぎまたはふらつきが許容された形で学習軌道Ｐが生成される。したがって、タスク実行のために必要な程度に基準軌道の標準的な形状特性（図４（ａ）〜（ｃ）、図９（ａ）〜（ｃ）参照）を学習軌道Ｐに持たせるという条件下で、にエージェントの円滑な動作の実現に必要な程度に連続的な第２状態変数の位置の変位特性をも学習軌道Ｐに持たせることができる（図５（ａ）〜（ｃ）参照）。たとえば、第２実施形態において、ラケットにボールが当たる前（ｔ＝０〜ｈ−１）および後（ｔ＝ｈ〜Ｎ）において、引き込み点が大きく変化することにより、図１１（ａ）に示されているように第２状態変数の推定位置軌道が不連続となることが許容される。このため、ラケットにボールを当てるようにロボット１が動く必要があるという空間軌道に関する束縛条件下でも、学習軌道Ｐにロボット１の円滑な動作の実現に必要な程度に連続的な第２状態変数の変位特性をも持たせることができる（図１１（ｂ）参照）。

したがって、学習軌道Ｐにしたがってエージェントの行動が制御されることにより、エージェントとしてのロボット１に、インストラクタの動作特性を模倣または再現させながら、第２状態変数の時間微分値に不連続が生じないような円滑な動作によりタスクを実行させることができる（図５（ａ）〜（ｃ），図１０（ａ）〜（ｃ）参照）。

比較例として図６に示されているＤＢＮにおいて加速度αおよび加加速度βのノードが省略された上で学習軌道Ｐが生成された場合を考える。当該比較例によれば、図１２（ａ）および（ｂ）左側に示されているように第２状態変数としてのラケット位置ｐの変位速度ｖおよび加速度αが一時的に不連続となるような学習軌道Ｐが生成される。このため、ロボット１がこの学習軌道Ｐにしたがって腕部１２等を動かした場合、腕部１２および脚部１４の動きの速度が急に変化する等、円滑さに欠けた動作を示すことになる。これに対して、本発明の行動制御システムによれば、図１２（ａ）および（ｂ）右側に示されているように第２状態変数としてのラケット位置ｐの変位速度ｖおよび加速度αが連続となるような学習軌道Ｐが生成される。したがって、ロボット１がこの学習軌道にしたがって腕部１２および脚部１４等を円滑に動かすことによりタスクを実行することができる。

なお、性質が異なるアトラクタＲにより途中から性質が異なる行動モデルが定義されてもよい。たとえば、第２実施形態においてロボット１がラケットにボールを当てる前後で性質が異なる第１アトラクタＲ₁および第２アトラクタＲ₂のそれぞれにより第１モデルさらには確率遷移モデルが定義されてもよい（図６参照）。第１アトラクタＲ₁は「ラケットを強い勢いで振る」という動作の性質を表わすように定義され、第２アトラクタＲ₂は「ラケットを弱い勢いで振る」という動作の性質を表わすように定義されてもよい。これにより、学習軌道Ｐが有する基準軌道Ｑ_iの標準的な形状特性と、連続的な第２状態変数の変位特性とのバランスが調節されうる。したがって、ロボット１に、第２状態変数に要求される基準軌道への追従性の高低が異なる等、性質の異なる行動を円滑に連続させることによりタスクを実行させることができる。

また、ラケットを振る、または、ラケットでボールを打ち返すというタスクのほか、腕部１２および脚部１４の動きを伴うダンス、物体の運搬等、さまざまなタスクをインストラクタの動作を見本としてロボット１に実行させてもよい。

本発明の行動制御システムの構成説明図エージェントとしてのロボットの構成説明図ロボットの軌道生成および行動制御方法を示すフローチャートインストラクタの動作に関する説明図（第１実施形態）ロボットの動作に関する説明図（第１実施形態）確率遷移モデル（ＤＢＮ）に関する説明図確率遷移モデルにおけるノードを埋める方法に関する説明図学習軌道の生成方法に関する説明図（第１実施形態）インストラクタの動作に関する説明図（第２実施形態）ロボットの動作に関する説明図（第２実施形態）学習軌道の生成方法に関する説明図（第２実施形態）本発明の行動制御システムの効果に関する説明図

符号の説明

１‥ロボット（エージェント）、１００‥行動制御システム、１１０‥状態認識要素、１２０‥軌道生成要素、１０００‥アクチュエータ

Claims

インストラクタがタスクを実行する際の行動を手本として、エージェントに前記タスクを実行させるためのシステムであって、
前記インストラクタの動きにより変位する第１状態変数の位置を時系列的に表わす基準軌道に基づいてアトラクタを定義し、第１モデルと、第２モデルとに基づき、ダイナミクスベイジアンネットワークにより表現される確率遷移モデルを定義し、前記確率遷移モデルにしたがって前記第１状態変数に対応する第２状態変数の位置を時系列的に表わす学習軌道を生成する軌道生成要素を備え、
前記第１モデルが、前記アトラクタの引き込み点を基準とする前記第２状態変数の位置の各時点における偏差の大小と、アトラクタ行列と、確率分布で表わされる揺らぎまたは不確定要素とに応じて前記第２状態変数の位置の各時点における変位速度が連続確率変数として定義され、かつ、前記アトラクタの引き込み点が確率分布で表わされる不確定要素を有する連続確率変数として定義されているモデルであり、
前記第２モデルが、前記第２状態変数の今回位置が前記第２状態変数の前回位置および今回速度により表わされ、前記第２状態変数の１または各ｎ階時間微分の今回値（ｎ＝１，２，‥）が、前記第２状態変数の１または各ｎ階時間微分の前回値と、前記第２状態変数の２または各ｎ＋１階時間微分の今回値とにより表わされ、かつ、前記第２状態変数の位置及びその１または各ｎ階時間微分値のそれぞれが確率分布で表わされる不確定要素を有する連続確率変数として定義されているモデルであり、
前記軌道生成要素により生成された前記学習軌道にしたがって前記エージェントの行動を制御することを特徴とする行動制御システム。
請求項１記載の行動制御システムにおいて、前記軌道生成要素が、前記第１モデルおよび前記第２モデルにしたがって各時点における前記第２状態変数の推定位置を表わす推定軌道を生成し、前記推定軌道を基準として各時点における前記第２状態変数の位置の許容通過範囲を設定し、各時点における前記第２状態変数の位置が前記各時点における前記許容通過範囲に収まるように前記学習軌道を生成することを特徴とする行動制御システム。
請求項２記載の行動制御システムにおいて、前記軌道生成要素が、前記エージェントに前記タスクを実行させる観点から前記基準軌道に追従させる必要性が高い基準時点における前記第２状態変数の位置の前記許容通過範囲が狭くまたは小さくなるように前記許容通過範囲を設定することを特徴とする行動制御システム。
請求項２または３記載の行動制御システムにおいて、前記軌道生成要素が、各時点における前記第２状態変数の位置を時系列的に順方向に推定することにより順方向の前記推定軌道を生成し、各時点における前記第２状態変数の位置を時系列的に逆方向に推定することにより逆方向の前記推定軌道を生成し、前記順方向推定軌道の前記許容通過範囲と、前記逆方向推定軌道の前記許容通過範囲とを合成した結果としての合成存在許容範囲に各時点における前記第２状態変数の値が収まるように前記学習軌道を生成することを特徴とする行動制御システム。
請求項１〜４のうちいずれか１つに記載の行動制御システムにおいて、前記軌道生成要素が、異なる複数の前記アトラクタを用いて、単一の前記第１モデルの性質が途中の時点で変化するように当該第１モデルを定義することを特徴とする行動制御システム。
請求項１〜５のうちいずれか１つに記載の行動制御システムにおいて、前記第１状態変数の位置を時系列的に表わす基準軌道を認識する状態認識要素を備え、前記軌道生成要素が、前記インストラクタが前記タスクを実行するたびに前記状態認識要素により認識された複数の前記基準軌道に基づき、前記第１モデルを定義することを特徴とする行動制御システム。
請求項１〜６のうちいずれか１つに記載の行動制御システムにおいて、前記軌道生成要素が前記タスクの実行進捗状況に応じて前記アトラクタの引き込み点を変位させることを特徴とする行動制御システム。