JP2010005762A

JP2010005762A - 行動推定システム

Info

Publication number: JP2010005762A
Application number: JP2008169534A
Authority: JP
Inventors: Nobumoto Iba; 総司射場
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2008-06-27
Filing date: 2008-06-27
Publication date: 2010-01-14
Anticipated expiration: 2028-06-27
Also published as: US8099374B2; US20090326679A1; JP5329856B2

Abstract

【課題】インストラクタの行動態様の推定精度の向上を図ることができるシステムを提供する。
【解決手段】行動推定システム１００によれば、インストラクタの動きを表わす基準軌道Ｐの特徴点の位置と、基準軌道Ｐ_iの複数の形状特性のそれぞれを表わす複数の「第１モデル」のそれぞれとに加えて、状態変数の位置ｐ（ｋ）、変位速度ｖ（ｋ）およびその時間微分値α（ｋ）が連続的に変化するようなインストラクタの動作を表わす「第２モデル」に基づき、エージェントの行動制御基礎となる推定軌道Ｑ_iが生成される。また、推定軌道Ｑ_iが特徴状態変数またはその近傍範囲を通過するという条件が満たされるように許容されている第１モデルの揺らぎが最小で安定度が最高の第１モデルに対応する行動態様がインストラクタの行動態様として推定される。
【選択図】図１

Description

本発明はインストラクタの行動態様を推定するためのシステムに関する。

基準となる状態変数の軌道に基づいて実際の状況に適したエージェントの状態変数の軌道を生成するための手法として多項式、ベジエまたはアトラクタ等が利用されている。たとえば、力学系の状態空間においてアトラクタを設計し、エージェントとしてのヒューマノイドロボットの軌道がこのアトラクタに引き込まれることでロボットの安定な自律的運動が実現されることが報告されている（非特許文献１参照）。
岡田昌史大里健太中村仁彦「非線形力学系のアトラクタ設計によるヒューマノイドロボットの運動創発」計測自動学会論文集ｖｏｌ．４１，Ｎｏ．６，５３３／５４０（２００５）

しかし、インストラクタの行動を手本としてエージェントの行動が制御されるにもかかわらず、このインストラクタの行動態様が誤って推定された場合、エージェントが指定されたタスクを実行することが困難となる。

そこで、本発明は、インストラクタの行動態様の推定精度の向上を図ることができるシステムを提供することを解決課題とする。

第１発明の行動推定システムは、インストラクタの行動態様を推定するためのシステムであって、前記インストラクタの動きに伴って変位する状態変数の一または複数の基準時点における位置を、一または複数の基準点の位置として認識する状態認識要素と、前記状態認識要素により認識された前記基準点の位置に基づき、前記インストラクタの複数の行動態様のそれぞれに対応する、前記状態変数の位置の時系列的な変化態様を表わす基準軌道のそれぞれの形状特性を表わす複数の第１モデルのそれぞれと、前記状態変数の位置およびその一または複数のｎ階時間微分値（ｎ＝１，２，‥）が連続的に変化するような前記インストラクタの動作を表わす第２モデルとにしたがって、前記状態変数の推定位置を時系列的に表わす複数の推定軌道を、前記推定軌道が前記基準点またはその近傍範囲を通過するという条件下で生成する軌道生成要素とを備え、前記第１モデルの揺らぎが許容され、前記軌道生成要素により前記複数の推定軌道が生成される過程における前記複第１モデルの安定度を前記累積揺らぎ量の多少に応じて評価し、前記安定度が最高である一の前記第１モデルに対応する行動態様を、前記インストラクタの行動態様として推定することを特徴とする。

第１発明の行動推定システムによれば、基準点の位置に基づき、それぞれの第１モデルと第２モデルとにしたがって状態変数の推定位置の時系列的な変化態様を表わす推定軌道が生成される。「基準点」の位置とはインストラクタの動きに伴って変位する状態変数の基準時点における位置を意味する。なお「状態変数」とはスカラーおよびベクトルを包含する概念であり、確率分布変数を包含する概念である。状態変数の「位置」とは当該状態変数により定義される空間における位置を意味する。「第１モデル」はインストラクタの異なる行動態様のそれぞれに対応する、状態変数の位置の時系列的な変化態様を表わす「基準軌道」のそれぞれの形状特性を表わしている。「第２モデル」は状態変数の位置およびその一または複数のｎ階時間微分値（ｎ＝１，２，‥）が連続的に変化するような前記インストラクタの動作を表わしている。このため、各推定軌道は、インストラクタが状態変数の位置およびその一または複数のｎ階時間微分値が連続になるような円滑な動きにより、ある行動態様をとったと仮定した場合における状態変数の位置の時系列的な変化態様を表わしている。推定軌道が基準点またはその近傍範囲を通過するように生成されるという条件下で第１モデルに揺らぎが許容されている。この累積揺らぎ量が小さい（すなわち安定度が高い）第１モデルは、インストラクタが行動したときの状態変数の位置の時系列的な変化態様を最も無理なくまたは円滑に再現しうるモデルである蓋然性が高い。したがって、安定度が高い第１モデルに対応する行動態様は、インストラクタの実際の行動態様に対応している蓋然性が高い。このため、安定度が最高の第１モデルに対応する行動態様がインストラクタの行動態様として推定されることにより、その推定精度の向上が図られる。

第２発明の行動推定システムは、第１発明の行動推定システムにおいて、前記軌道生成要素が、各時点における前記状態変数の位置を時系列的に順方向に推定することにより前記推定軌道として順方向推定軌道を生成するとともに、各時点における前記第２状態変数の位置を時系列的に逆方向に推定することにより前記推定軌道として逆方向推定軌道とを生成することを特徴とする。

第２発明の行動推定システムによれば、時系列順方向および逆方向のそれぞれについて、状態変数の推定位置の時系列的な変化態様を表わす順方向および逆方向推定軌道が生成される。当該２つの推定軌道のそれぞれはインストラクタが状態変数の位置およびその一または複数のｎ階時間微分値が連続になるような円滑な動きにより、ある行動態様をとったと仮定した場合における状態変数の位置の時系列的な順方向および逆方向のそれぞれへの変化態様を表わしている。前記のように累積揺らぎ量が小さい（すなわち安定度が高い）第１モデルは、インストラクタが行動したときの状態変数の位置の時系列的な変化態様を最も無理なくまたは円滑に再現しうるモデルである蓋然性が高い。したがって、順方向および逆方向推定軌道の生成に際して安定度が最高の第１モデルに対応する行動態様がインストラクタの行動態様として推定されることにより、その推定精度の向上が図られる。

第３発明の行動推定システムは、第１または第２発明の行動推定システムにおいて、前記軌道生成要素が、第１行動態様から第２行動態様に異なるタイミングで変化するような前記インストラクタの複数の行動態様のそれぞれに対応する前記複数の第１モデルのそれぞれに基づいて前記複数の推定軌道を生成することを特徴とする。

第３発明の行動推定システムによれば、行動態様が途中で変化する点で共通する一方、その変化タイミングが相違するさまざまな行動態様に対応する複数の第１モデルのそれぞれに基づき、複数の推定軌道が生成される。そして、前記のように当該複数の推定軌道のそれぞれが生成される際の安定度が最高の第１モデルに対応する行動態様がインストラクタの行動態様として推定される。これにより、第１行動態様から第２行動態様への変化タイミングの相違により区別されるインストラクタの行動態様の推定精度の向上が図られる。

第４発明の行動推定システムは、第３発明の行動推定システムにおいて、前記軌道生成要素が、前記軌道生成要素が、異なる時点で前記インストラクタが物体に力を作用させるための前記第１行動態様から、前記インストラクタが前記物体に力を作用させた後における前記第２行動態様に変化するような前記インストラクタの複数の行動態様のそれぞれに対応する前記複数の第１モデルのそれぞれに基づいて前記複数の推定軌道を生成することを特徴とする。

第４発明の行動推定システムによれば、前記のように複数の推定軌道のそれぞれが生成される際の第１モデルの安定度に基づき、第１行動態様から第２行動態様への変化タイミング、すなわち、インストラクタが物体に力を作用させたタイミングの相違により区別される行動態様の推定精度の向上が図られる。

第５発明の行動推定システムは、第１〜第４発明のうちいずれか１つの行動推定システムにおいて、前記軌道生成要素が、アトラクタおよびその引き込み点の位置により前記基準軌道の形状特性が定義され、かつ、前記引き込み点の変位により揺らぐ前記第１モデルを用いて前記推定軌道を生成し、前記行動推定システムが、前記アトラクタの引き込み点の累積変位量が少ないほど前記第１モデルの前記安定度を高く評価することを特徴とする。

第５発明の行動推定システムによれば、アトラクタの引き込み点の累積変位量が小さく安定度が高い第１モデルは、インストラクタが行動したときの状態変数の位置の時系列的な変化態様を最も無理なくまたは円滑に再現しうるモデルである蓋然性が高い。したがって、安定度が最高の第１モデルにしたがって生成された推定軌道に対応する行動態様がインストラクタの行動態様として推定されることにより、その推定精度の向上が図られる。

本発明の行動推定システムの実施形態について図面を用いて説明する。まず行動推定システムの構成について説明する。図１に示されている行動推定システム１１０は人間等のインストラクタの行動態様を推定するためのシステムである。図１に示されている行動制御システム１２０は行動推定システム１１０による推定結果に基づき、図２に示されているエージェントとしてのロボット１に搭載されているアクチュエータ１０００の動作を制御することによりロボット１の行動を制御する。

ロボット１は脚式移動ロボットであり、人間と同様に基体１０と、基体１０の上部に設けられた頭部１１と、基体１０の上部左右両側から延設された左右の腕部１２と、腕部１２の先端部に設けられた手部１４と、基体１０の下部から下方に延設された左右の脚部１３と、脚部１３の先端部に取り付けられている足部１５とを備えている。ロボット１は、再表０３／０９０９７８号公報や、再表０３／０９０９７９号公報に開示されているように、アクチュエータ１０００から伝達される力によって、人間の肩関節、肘関節、手根関節、股関節、膝関節、足関節等の複数の関節に相当する複数の関節機構において腕部１２や脚部１３を屈伸運動させることができる。腕部１２は肩関節機構を介して基体１０に連結された第１腕リンクと、一端が第１腕リンクの端部に肘関節機構を介して連結され、他端が手根関節を介して手部１４の付根部に連結されている第２腕リンクとを備えている。脚部１３は股関節機構を介して基体１０に連結された第１脚リンクと、一端が第１脚リンクの端部に膝関節機構を介して連結され、他端が足関節を介して足部１５に連結されている第２脚リンクとを備えている。ロボット１は、左右の脚部１３のそれぞれの離床および着床の繰り返しを伴う動きによって自律的に移動することができる。

行動推定システム１１０および行動制御システム１２０はロボット１に搭載されている電子制御ユニット（ＣＰＵ，ＲＯＭ，ＲＡＭ，Ｉ／Ｏ回路等により構成されている。）またはコンピュータにより構成されている。なお、行動推定システム１１０がロボット１の外部コンピュータにより構成されている一方、行動制御システム１２０がこの外部コンピュータと無線または有線通信が可能なロボット１に搭載されているコンピュータにより構成されていてもよい。

行動推定システム１１０は状態認識要素１１１と、軌道生成要素１１２とを備えている。状態認識要素１１１は状態センサ１０２の出力信号に基づいて種々の状態変数の値を認識する。状態センサ１０２にはロボット１とは別個独立のモーションキャプチャーシステム（図示略）が含まれている。状態センサ１０２にはボール等のタスク実行に関連する物体の位置軌道を測定するため、頭部１１に搭載されているステレオイメージセンサや、基体１０に搭載されている赤外光を用いたアクティブ型センサ等が含まれる。

状態認識要素１１１は状態センサ１０２の出力信号に基づき、インストラクタの動きにより変位する状態変数の基準時点における位置を「基準点」の位置として認識する。軌道生成要素１１２は状態認識要素１１１により認識された「基準点」の位置と、複数の「第１モデル」のそれぞれと、「第２モデル」とに基づき、ロボット１の行動の制御基礎となる状態変数の位置を時系列的に表わす複数の「推定軌道」を生成する。行動推定システム１１０は軌道生成要素１１２により複数の推定軌道が生成される過程において、複数の第１モデルのそれぞれの安定度を評価し、安定度が最高の第１モデルに対応する行動態様をインストラクタの行動態様として推定する。行動推定システム１１０による推定結果は行動制御システム１２０に対して出力される。

なお、本発明を構成する「要素」は物理的には担当演算処理を実行するためのプログラムが保存または格納されているメモリと、このメモリからプログラムを読み出して当該担当演算処理を実行する演算処理装置（ＣＰＵ）とにより構成されている。プログラムはＣＤやＤＶＤ等のソフトウェア記録媒体を通じてコンピュータにインストールされてもよいが、ロボット１からサーバに要求信号が送信されたことに応じて当該サーバによってネットワークや人工衛星を介して当該コンピュータにダウンロードされてもよい。本発明の構成要素が情報を「認識する」とは、当該構成要素が情報をデータベースから検索すること、メモリ等の記憶装置から情報を読み取ること、センサ等の出力信号に基づき情報を測定、算定、推定、判定すること、測定等された情報をメモリに格納すること等、当該情報をさらなる演算処理のために準備または用意するのに必要なあらゆる情報処理を実行することを意味する。行動推定システム１１０のうち一部（たとえば、状態認識要素１１１および軌道生成要素１１２）がロボット１の外部コンピュータにより構成されてもよい。

前記構成の行動推定システム１１０の機能について説明する。

まず本発明の第１実施形態としての行動推定システム１１０について説明する。第１実施形態の行動推定システム１１０は、図４（ａ）〜（ｃ）に順に示されているようにインストラクタとしての人間が片手で持っているラケットをさまざまな様式で振るという複数の行動態様のうち、インストラクタが実際にとった行動態様を推定する。図４（ａ）（ｂ）および（ｃ）のそれぞれは、インストラクタがラケットを動かし始める直前の状態、ラケットを動かしている途中の状態、および、ラケットの動きを止めた状態のそれぞれを示している。

まず、状態認識要素１１１により、インストラクタの動きに伴って変位する状態変数の基準時点における位置が基準点の位置ｐ_Cとして認識される（図３／Ｓ００２）。具体的には、図４（ａ）に示されているようにインストラクタがラケットを振り始める直前の時点（速度および加速度が０から変化する直前の時点）ｔ＝０における状態変数の位置ｐ（０）が基準点の位置ｐ_Cとして認識される。また、図４（ｃ）に示されているようにインストラクタがラケットを振り終わった直後の時点（速度および加速度が０に変化した時点）ｔ＝Ｎにおける状態変数の位置ｐ（Ｎ）が基準点の位置ｐ_Cとして測定される。

状態変数としてはたとえばラケット位置（トップの位置）が測定される。なお、ラケット位置に代えてまたは加えてインストラクタの手、肘、肩、膝等の指定箇所（ラケットなどその身につけているものを含む。）の位置が状態変数として測定されてもよく、特徴部分の変位速度または加速度等が状態変数として測定されてもよい。さらに、肩関節、肘関節、手根関節、膝関節等のインストラクタの指定関節の角度、角速度または角加速度が状態変数として測定されてもよい。また、指定箇所の位置、変位速度および加速度と、指定関節の角度、角速度および角加速度のうち任意の組み合わせが状態変数として認識されてもよい。

状態変数の位置は、状態センサ１０２としての光学式モーションキャプチャーシステムにより測定される。光学式モーションキャプチャーシステムによれば、インストラクタの周囲に配置された一または複数のカメラ（トラッカー）による、ラケット等の指定箇所に付されたマークの検出結果に基づいて状態変数の位置が測定される。なお、機械式、磁気式または慣性式モーションキャプチャーシステムにより状態変数の位置が測定されてもよい。機械式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数のポテンショメータからの当該インストラクタ人の各関節角度を表す出力信号に基づいて状態変数の位置が測定される。磁気式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数の磁気センサからの出力信号に基づいて状態変数の位置が測定される。慣性式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数の慣性モーメントセンサからの腕等の慣性モーメントを表す出力信号に基づいて状態変数の位置が測定される。

続いて、状態認識要素１１１により認識された基準点の位置ｐと、複数の「第１モデル」のそれぞれと「第２モデル」とに基づき、軌道生成要素１１２により複数の推定軌道Ｐ_i ⁺およびＰ_i ^-（ｉ＝１，２，‥，Ｙ）が生成される（図３／Ｓ００４）。「＋」は擬似逆行列を意味する。

「第１モデル」はインストラクタの第ｉ行動態様のそれぞれに対応する、状態変数の位置ｐの時系列的な変化態様を表わす基準軌道のそれぞれの形状特性を表わすモデルであり、具体的には、第ｉアトラクタ行列Ｒ_iおよび第ｉアトラクタの引き込み点ｕ_iにより関係式（１１）〜（１２）にしたがって定義されている。

v(k)=R_ip(k)-R_iu(k)+N_i(μ_v,Σ_v) ..(11)
u(k+1)=u(k)+ε_i(k)+N_i(μ_u,Σ_u) ..(12)

関係式（１１）はアトラクタの時点ｋにおける引き込み点ｕ（ｋ）を基準とする第２状態変数の位置ｐ（ｋ）の偏差の大小と、アトラクタ行列Ｒ_iとに応じて時点ｋにおける第２状態変数の位置の変位速度ｖ（ｋ）の高低が定まることと、第２状態変数の位置の変位速度ｖ（ｋ）が確率分布（一般的にはガウス分布）Ｎ_i（μ_v，Σ_v）（μ_v＝０，Σ_v：共分散行列）で表わされる揺らぎまたは不確定要素を有する連続確率変数であることとを表わしている。すなわち、第１モデルにしたがって時点ｋにおける第２状態変数の変位速度ｖ（ｋ）の高低および揺らぎの程度が定められる。関係式（１２）はアトラクタの引き込み点ｕ（ｋ）が変位量ε_i（ｋ）だけ変位することが許容されていることと、引き込み点ｕ（ｋ）が確率分布Ｎ_i（μ_u，Σ_u）（μ_u＝０，Σ_u：共分散行列）で表わされる不確定要素を有する連続確率変数であることとを表わしている。なお、関係式（１２）において右辺第２項が省略されてもよい。

「第２モデル」は、状態変数の位置ｐ（ｋ）、変位速度（位置の１回時間微分値）ｖ（ｋ）および加速度（位置の２階時間微分値）α（ｋ）のそれぞれが円滑または連続的に変化するようなインストラクタの動作を表わすモデルであり、具体的には、関係式（２１）〜（２３）にしたがって定義されている。

p(k+1)=p(k)+v(k+1)+N(μ_p,Σ_p) ..(21)
v(k+1)=v(k)+α(k+1)+N(μ_v,Σ_v) ..(22)
α(k+1)= α(k)+β(k+1)+N(μ_α,Σ_α) ..(23)

関係式（２１）は状態変数の位置ｐ（ｋ）が滑らかに変化するという第２モデルの一側面を表わし、かつ、当該位置ｐ（ｋ）が確率分布Ｎ（μ_p，Σ_p）（μ_p＝０，Σ_p：共分散行列）で表わされる不確定要素を有する連続確率変数であることを表わしている。また、関係式（２２）は状態変数の位置の変位速度（位置の１階時間微分値）ｖ（ｋ）が滑らかに変化するという第２モデルの一側面を表わし、かつ、当該変位速度ｖ（ｋ）が確率分布Ｎ（μ_v，Σ_v）（μ_v＝０，Σ_v：共分散行列）で表わされる不確定要素を有する連続確率変数であることを表わしている。さらに、関係式（２３）は状態変数の位置の変位加速度（位置の２階時間微分値）α（ｋ）が滑らかに変化するという第２モデルの一側面を表わし、かつ、当該変位加速度α（ｋ）が確率分布Ｎ（μ_a，Σ_a）（μ_a＝０，Σ_a：共分散行列）で表わされる不確定要素を有する連続確率変数であることを表わしている。ここで、β（ｋ）は状態変数の位置の加加速度（位置の３階時間微分値（＝ｄ³ｐ／ｄｔ³））である。なお、関係式（２３）において右辺第２項が省略されてもよい。

第１モデルおよび第２モデルは、図６に示されているダイナミクスベイジアンネットワーク（ＤＢＮ）により表現される確率遷移モデルを定義する。ＤＢＮによれば関係式（１１）（１２）（２１）〜（２３）が、各時点ｔにおける第２状態変数の位置ｐおよびアトラクタの引き込み点ｕ等の状態変数を表わすノード（円）および条件確率によりこれらをつなぐ矢印により表現されている。また、関係式（１１）（１２）（２１）〜（２３）のそれぞれに対応する条件付確率は関係式（１１１）（１１２）（１２２）〜（１２３）のそれぞれにより表現される。

関係式（１１２）における状態変数ノードεは関係式（２１２）により表現される。関係式（１２３）における状態変数ノードβは関係式（２２３）により表現される。

P(ε(k))=N(0,Σ_ε) ..(212)
P(β(k))=N(0,Σ_β) ..(223)

続いて確率遷移モデルにしたがって複数の第ｉ推定軌道Ｑ_iが生成される。具体的には、図６に示されているＤＢＮにおいて、基準時点ｔ＝０およびｔ＝Ｎのそれぞれにおける状態変数の位置ｐ、速度ｖ、加速度αおよび加加速度βが設定される。図４（ａ）に示されているようにインストラクタがラケットを動かし始める時点ｔ＝０におけるラケット位置等の指定箇所の測定位置が第１基準時点ｔ＝０の位置ｐ（０）として決定される。また、第１基準時点ｔ＝０における速度ｖ（０）、加速度α（０）および加加速度β（０）のノードはすべて「０」に設定される。図４（ａ）に示されているようにインストラクタがラケットの動きを止めた時点ｔ＝Ｎにおける指定箇所の測定位置が、第２基準時点ｔ＝Ｎの位置ｐ（Ｎ）として設定される。また、第２基準時点ｔ＝Ｎにおける速度ｖ（Ｎ）、加速度α（Ｎ）および加加速度β（Ｎ）はすべて「０」に設定される。

また、第１基準時点ｔ＝０から第２基準時点ｔ＝Ｎまでのノードが、関係式（１１）（１２）（２１）〜（２３）により表現される確率遷移モデルにしたがって、時系列的に順方向（先時点から後時点に向かう方向）に順次推定される。これにより、時系列順方向について状態変数の推定位置の変化態様を表わす順方向推定軌道Ｐ_i ⁺が生成される。同様に第２基準時点ｔ＝Ｎから第１基準時点ｔ＝０までのノードが、確率遷移モデルにしたがって、時系列的に逆方向（後時点から先時点に向かう方向）に順次推定される。これにより、時系列的に逆方向について状態変数の推定位置の変化態様を表わす逆方向推定軌道Ｐ_i ^-が生成される。さらに、順方向推定軌道Ｐ_i ⁺を基準として広がる許容通過範囲が設定され、かつ、逆方向推定軌道Ｐ_i ^-を基準として広がる許容通過範囲が設定される。そして、当該両方の許容通過範囲が合成されることにより合成許容範囲が設定され、各時点における状態変数の位置ｐ（ｋ）が合成許容通過範囲に収まるように学習軌道Ｐ_iが生成される。

なお、ＤＢＮにおけるノードの推定方法としては前記方法（Belief Propagationと呼ばれている手法）のほか、Loopy Belief Propagation, variable elimination, Junction Tree, Impartance sampling, Hugin Algorithm, Shafer-Shanoy Algorithm, variational message passing, gibbs sampling等の方法が採用されてもよい。

推定軌道Ｑ_iの生成方法の理解の簡単のため、状態変数の位置ｐ（ｋ）が１次元（スカラー）であり、ｐ（ｋ＋１）＝Ａｐ（ｋ）（Ａ＝１．５０）という関係式にしたがって推定される状況を考える。この状況においてｔ＝０における状態変数の測定位置ｐ（０）が１．００であり、かつ、ｔ＝３における状態変数の目標位置ｐ（３）が５．００であると仮定する。この場合、図７（ａ）に示されているようにｐ⁺（０）（＝ｐ（０）），ｐ⁺（１）（＝Ａｐ（０）），ｐ⁺（２）（＝Ａ²ｐ（０））およびｐ⁺（３）（＝Ａ³ｐ（０））を順に経由する軌道が順方向指定軌道Ｐ_i ⁺として生成される。その一方、図７（ｂ）に示されているようにｐ^-（３）（＝ｐ（３）），ｐ^-（２）（＝Ａ^-1ｐ（０）），ｐ^-（１）（＝Ａ^-2ｐ（０））およびｐ^-（０）（＝Ａ^-3ｐ（０））を順に経由する軌道が逆方向推定軌道Ｐ_i ^-として生成される。

なお、図７（ａ）に示されているように時系列順方向について各時点における状態変数の推定位置ｐ⁺（ｋ）の条件付確率分布（一点鎖線）Ｐ（ｐ⁺（ｋ）｜ｐ（０）＝１．００）（ｋ＝１，２，３）が、順方向推定軌道Ｐ_i ⁺を基準として広がる各時点における許容通過範囲として算定される。また、図７（ｂ）に示されているように時系列逆方向について各時点における第２状態変数の推定位置ｐ^-（ｋ）の条件付確率分布（二点鎖線）Ｐ（ｐ^-（ｋ）｜ｐ（３）＝５．００）（ｋ＝２，１，０）が、逆方向推定軌道Ｐ_i ^-を基準として広がる各時点における許容通過範囲として算定される。そして、これら２つの条件付確率分布が合成され、その結果として条件付確率分布Ｐ（ｐ（ｋ）｜ｐ（０）＝１．００，ｐ（３）＝５．００）（ｋ＝１，２）が合成許容通過範囲として算定される。これにより、図７（ｃ）に示されているように各時点ｋにおける条件付確率が最高の位置ｐ（０）＝１．００、ｐ（１）＝１．８４２、ｐ（２）＝３．１４９およびｐ（３）＝５．００を順に遷移する軌道が学習軌道Ｐ_iとして派生的に生成される。この学習軌道Ｐ_iは、後述するようにエージェントとしてのロボット１の行動制御の基礎となる。

具体的には、図８（ａ）に示されているように第１基準時点ｔ＝０から第２基準時点ｔ＝Ｎまで、第２状態変数の推定位置ｐ⁺（０）（＝ｐ（０）），ｐ⁺（１），ｐ⁺（２），‥，ｐ⁺（Ｎ）が時系列順方向（白矢印参照）に順次推定される。これにより、第２状態変数の推定位置ｐ⁺（０），ｐ⁺（１），ｐ⁺（２），‥，ｐ⁺（Ｎ）を順に経由する軌道が順方向推定軌道として生成される。また、図８（ａ）に示されているように第２基準時点ｔ＝Ｎから第１基準時点ｔ＝０まで、第２状態変数の推定位置ｐ^-（Ｎ）（＝ｐ（Ｎ）），ｐ^-（Ｎ−１），ｐ^-（Ｎ−２），‥，ｐ^-（０）が時系列逆方向（黒矢印参照）に推定される。これにより、第２状態変数の推定位置ｐ^-（Ｎ），ｐ^-（Ｎ−１），ｐ^-（Ｎ−２），‥，ｐ^-（０）を順に経由する軌道が逆方向推定軌道として生成される。

さらに、図８（ｂ）に示されているように順方向推定軌道の各点ｐ⁺（０），ｐ⁺（１），ｐ⁺（２），‥，ｐ⁺（Ｎ）を中心とする確率分布（関係式（２１）右辺第３項参照）と、逆方向推定軌道の各点ｐ^-（Ｎ），ｐ^-（Ｎ−１），ｐ^-（Ｎ−２），‥，ｐ^-（０）を中心とする確率分布とが重ね合わせられるまたは合成されることにより合成許容通過範囲が設定される。そして、斜線付矢印で示されているように状態変数の位置が各時点における合成許容通過範囲に収まるように学習軌道Ｐ_iが生成される。図８（ａ）に一点鎖線で示されているように順方向推定軌道Ｐ_i ⁺の各点を中心として許容通過範囲（確率分布範囲）が広がっている（図７（ａ）参照）。図８（ａ）に二点鎖線で示されているように逆方向推定軌道Ｐ_i ^-の各点を中心として許容通過範囲（確率分布範囲）が広がっている（図７（ｂ）参照）。これら確率分布の重ね合わせの広がり度合が学習軌道Ｐ_iの「許容通過範囲」に相当する（図７（ｃ）参照）。

なお、順方向および逆方向の許容通過範囲がすべての時点において合成されるのではなく、たとえば、第１期間ｔ＝０〜ｋでは順方向の許容通過範囲を通過する第１部分軌道が生成され、第１期間に続く第２期間ｔ＝ｋ＋１〜Ｎでは逆方向の許容分布範囲を通過する第２部分軌道が生成され、当該第１部分軌道および第２部分軌道が円滑に接続されることにより学習軌道Ｐ_iが生成されてもよい。また、第１期間ｔ＝０〜ｋでは順方向の許容通過範囲を通過する第１部分軌道が生成され、第１期間よりも後の第２期間ｔ＝ｋ＋ｃ（ｃ＞１）〜Ｎでは逆方向の許容通過範囲を通過する第２部分軌道が生成され、当該第１部分軌道および第２部分軌道を円滑に接続するように期間ｔ＝ｋ＋１〜ｋ＋ｃ−１での中間部分軌道が生成され、第１部分軌道、中間部分軌道および第２部分軌道が順に接続されることにより学習軌道Ｐ_iが生成されてもよい。

さらに、軌道生成要素１１２により複数の順方向推定軌道Ｐ_i ⁺および逆方向推定軌道Ｐ_i ^-の組み合わせが生成される過程において、行動推定システム１１０により複数の第１モデルのそれぞれの安定度が評価される（図３／Ｓ００６）。具体的には、順方向推定軌道Ｐ_i ⁺および逆方向推定軌道Ｐ_i ^-の生成過程において図８（ｂ）に示されているように引き込み点が徐々に変位するが（関係式（１２）参照）、この累積変位量または累積揺らぎ量が少ないほど第１モデルの安定度ｓ_iが高く評価される。そして、安定度ｓ_iが最高である一の第１モデルに対応する行動態様が、インストラクタの行動態様として推定される（図３／Ｓ００８）。たとえば「ラケットをゆっくりと振る」または「ラケットを速く振る」等、状態変数位置の変位速度および加速度の高低により区別される行動態様や、「ラケットを大きく振る」または「ラケットを小さく振る」等、状態変数位置の変位量の多少により区別される行動態様や、「インストラクタの上から見て円弧を描くようにラケットを振る」「インストラクタを上から見てＳ字を描くようにラケットを振る」または「インストラクタを上から見て直線を描くようにラケットを振る」等、状態変数位置の軌道形状により区別される行動態様がインストラクタの行動態様として推定される。

また、軌道生成要素１１２により安定度ｓ_iが最高の第１モデルに基づいて生成された学習軌道Ｐ_iが行動制御システム１２０に出力される。そして、行動制御システム１１０により、状態変数の位置ｐ（ｋ）が学習軌道Ｐ_iにしたがって変位するようにロボット１の動作が制御される（図３／Ｓ０１０）。具体的には、状態変数としてのラケット位置が学習軌道Ｐ_iにしたがった態様で変位するようにアクチュエータ１０００の動作が制御される。これにより、図５（ａ）〜（ｃ）に順に示されているようにロボット１が片方の手部１３で持っているラケットを振るように行動する。なお、インストラクタの動作スケールに対するロボット１の動作スケールの比率に基づき、学習軌道Ｐ_iのスケールが調節されてもよい。たとえば、インストラクタの腕の長さに対する、ロボット１の腕部１２の長さの比率がアトラクタ行列Ｒ_iに乗じられることにより、学習軌道Ｐ_iのスケールが調節されてもよい。また、インストラクタの腕の長さとインストラクタが用いるラケットの長さとの和に対する、ロボット１の腕部１２の長さとロボット１が用いるラケットの長さとの和の比率がアトラクタ行列Ｒ_iに乗じられることにより、学習軌道Ｐ_iのスケールが調節されてもよい。

次に、本発明の第２実施形態としての行動推定システム１１０について説明する。第２実施形態の行動推定システム１１０は、図９（ａ）〜（ｃ）に順に示されているようにインストラクタとしての人間がその前方から向かってくるボールを、片手で持っているラケットを使ってさまざまなタイミングで前方に打ち返すという複数の行動態様のうち、インストラクタのとった行動態様が推定される。図９（ａ）（ｂ）および（ｃ）のそれぞれは、インストラクタがラケットを動かし始める直前の状態、ラケットをボールに当てた状態、および、ラケットの動きを止めた状態のそれぞれを示している。

このような行動態様は、インストラクタがラケットにボールを当てた時点（インパクトの瞬間）、すなわち、インストラクタがボール（物体）に力を作用させる前後で行動態様が異なる可能性がある。このため、第２実施形態においては、インストラクタがラケットにボールを当てるための「第１行動態様」から、インストラクタがラケットにボールを当てた後の「第２行動態様」にさまざまな時点で遷移するようなインストラクタの行動態様を表わす複数の第１モデルが採用される。第１基準時点ｔ＝０から中間基準時点ｔ＝ｈまでの第１期間［ｔ｜０〜ｈ（＜Ｎ）］において「第１行動態様」に対応する第１アトラクタ行列Ｒ₁および第１引き込み点ｕ₁（ｋ）により基準軌道Ｐ_iの形状特性が表わされるとともに、第１期間に続く第２基準時点ｔ＝Ｎまでの第２期間［ｔ｜ｈ＋１〜Ｎ］において「第２行動態様」に対応する第２アトラクタ行列Ｒ₂および第２引き込み点ｕ₂（ｋ）により基準軌道Ｐ_iの形状特性が表わされるような第１モデルが採用される。複数の基準軌道Ｐ_iは、第１行動態様から第２行動態様への遷移時点ｋ＝ｈの相違により区別される。これにより、図１１に示されているようにさまざまな時点ｋ＝ｈを境としてアトラクタ行列が第１アトラクタ行列Ｒ₁から第２アトラクタ行列Ｒ₂に変化する確率遷移モデルが定義される。

その上で図１２（ａ）に示されているように第１基準時点ｔ＝０から中間基準時点ｔ＝ｈの直前時点ｔ＝ｈ−１まで、第２状態変数の位置ｐ⁺（０）（＝ｐ（０）），ｐ⁺（１），ｐ⁺（２），‥，ｐ⁺（ｈ−１）が時系列順方向（白矢印参照）に順次推定される。また、同じく図１２（ａ）に示されているように中間基準時点ｔ＝ｈから第２基準時点ｔ＝Ｎまで、第２状態変数の位置ｐ⁺（ｈ）（＝ｐ（ｈ）），ｐ⁺（ｈ＋１），ｐ⁺（ｈ＋２），‥，ｐ⁺（Ｎ）が時系列順方向（白矢印参照）に順次推定される。これにより、第２状態変数の推定位置ｐ⁺（０），ｐ⁺（１），‥，ｐ⁺（ｈ−１），ｐ⁺（ｈ），ｐ⁺（ｈ＋１），‥，ｐ⁺（Ｎ）を順に経由する軌道が順方向推定軌道として生成される。その一方、図１２（ａ）に示されているように第２基準時点ｔ＝Ｎから中間基準時点ｔ＝ｈの直後時点ｔ＝ｈ＋１まで、第２状態変数の位置ｐ^-（Ｎ）（＝ｐ（Ｎ）），ｐ^-（Ｎ−１），ｐ^-（Ｎ−２），‥，ｐ（ｈ＋１）が時系列逆方向（黒矢印参照）に順次推定される。さらに、同じく図１２（ａ）に示されているように中間基準時点ｔ＝ｈから第１基準時点ｔ＝０まで、第２状態変数の位置ｐ^-（ｈ）（＝ｐ（ｈ）），ｐ^-（ｈ−１），ｐ^-（ｈ−２），‥，ｐ^-（０）が時系列逆方向（黒矢印参照）に順次推定される。これにより、第２状態変数の推定位置ｐ^-（Ｎ），ｐ^-（Ｎ−１），‥，ｐ^-（ｈ＋１），ｐ^-（ｈ），ｐ^-（ｈ−１），‥，ｐ^-（０）を順に経由する軌道が順方向推定軌道として生成される。そして、図１２（ｂ）に示されているように順方向推定軌道の各点ｐ⁺（０），‥，ｐ⁺（ｈ−１），ｐ⁺（ｈ），ｐ⁺（ｈ＋１），‥，ｐ⁺（Ｎ）を中心とする確率分布と、逆方向推定軌道の各点ｐ^-（Ｎ），‥，ｐ^-（ｈ＋１），ｐ^-（ｈ），ｐ^-（ｈ−１），‥，ｐ^-（０）を中心とする確率分布とが重ね合わせられるまたは合成されることにより合成許容通過範囲が設定される。そして、斜線付矢印で示されているように第２状態変数の位置が各時点における合成許容通過範囲に収まるように推定軌道Ｐが生成される。図１２（ａ）に一点鎖線で示されているように順方向推定軌道の各点を中心として許容通過範囲（確率分布範囲）が広がっている（図７（ａ）参照）。図１２（ａ）に二点鎖線で示されているように逆方向推定軌道の各点を中心として許容通過範囲（確率分布範囲）が広がっている（図７（ｂ）参照）。これら確率分布の重ね合わせの広がり度合が推定軌道Ｐの「許容通過範囲」に相当する（図７（ｃ）参照）。

さらに、軌道生成要素１１２により複数の推定軌道Ｑ_iが生成される過程において、行動推定システム１１０により複数の第１モデルのそれぞれの安定度が評価される（図３／Ｓ００６）。具体的には、推定軌道Ｑ_iの生成過程における第ｉアトラクタの引き込み点ｕ_i（ｋ）の累積変位量が少ないほど第１モデルの安定度ｓ_iが高く評価される。そして、安定度ｓ_iが最高である一の第１モデルに対応する行動態様が、インストラクタの行動態様として推定される（図３／Ｓ００８）。たとえば「ボールを打つ前はゆっくりと加速されるようにラケットを振り、ボールを打った後はゆっくりと減速されるようにラケットを振る」または「ボールを打つ前は急に加速された後でその速度が維持されるようにラケットを振り、ボールを打った後は急に減速されるようにラケットを振る」等、状態変数位置の変位速度および加速度の高低により区別される行動態様や、「ラケットを途中までは小さく振り、途中から大きく振る」または「ラケットを途中までは大きく振り、途中から小さく振る」等、状態変数位置の変位量の多少により区別される行動態様や、「インストラクタの上から見て途中まで直線を描くようにラケットを振り、途中から円弧を描くようにラケットを振る」または「インストラクタを上から見て途中まで円弧を描くようにラケットを振り、途中から直線を描くようにラケットを振る」等、状態変数位置の軌道形状により区別される行動態様がインストラクタの行動態様として推定される。

また、軌道生成要素１１２により安定度ｓ_iが最高の第１モデルに基づいて生成された推定軌道Ｑ_iが行動制御システム１２０に出力される。そして、行動制御システム１１０により、状態変数の位置が学習軌道としての推定軌道Ｑ_iにしたがって変位するようにロボット１の動作が制御される（図３／Ｓ０１０）。具体的には、モーションキャプチャーシステムまたはロボット１に搭載されているイメージセンサによるボールの検知結果に基づき、ロボット１に向かって飛んでくるボールの位置および速度が測定され、この測定結果に基づいてラケットにボールを当てる中間基準時点ｔ＝ｈにおける状態変数の位置ｐ（ｈ）が予測される。また、学習軌道Ｐ_iにおいて行動態様が変化する時点における状態変数の位置ｐ（ｈ）が当該予測状態変数位置に一致するようにロボット１の位置および姿勢が適宜調節される。その上で、状態変数としてのラケット位置が学習軌道Ｐ_iにしたがった態様で変位するようにアクチュエータ１０００の動作が制御される。これにより、図１０（ａ）〜（ｃ）に順に示されているようにロボット１がその前方から向かってくるボールを、片手で持っているラケットを使ってフォアハンドで前方に打ち返すように行動する。

前記機能を発揮する第１および第２実施形態の行動推定システム１１０によれば、基準点の位置ｐ_Cに基づき、それぞれの第１モデルと第２モデルとにしたがって状態変数の推定位置の時系列的な変化態様を表わす推定軌道Ｐ_i ⁺およびＰ_i ^-が生成される（図３／Ｓ００４，図８（ａ）／白矢印および黒矢印、図１２（ａ）／白矢印および黒矢印参照）。「第１モデル」はインストラクタの異なる行動態様のそれぞれに対応する、状態変数の位置の時系列的な変化態様を表わす「基準軌道」のそれぞれの形状特性を表わしている（関係式（１１）（１２）、図６参照）。「第２モデル」は状態変数の位置およびその一または複数のｎ階時間微分値（ｎ＝１，２，‥）（前記実施形態では１階時間微分値（速度ｖ（ｋ））および２階時間微分値（加速度α（ｋ）））が連続的に変化するような前記インストラクタの動作を表わしている（関係式（２１）〜（２３）、図６参照）。このため、各推定軌道Ｐ_i ⁺およびＰ_i ^-は、インストラクタが状態変数の位置ｐ（ｋ）、速度ｖ（ｋ）および加速度α（ｋ）が連続になるような円滑な動きにより、ある行動態様をとったと仮定した場合における状態変数の位置ｐ（ｋ）の時系列的な変化態様を表わしている。推定軌道Ｐ_i ⁺およびＰ_i ^-が基準点ｐ_Cまたはその近傍範囲を通過するように生成されるという条件下で第１モデルに揺らぎが許容されている（関係式（１２）参照）。この累積揺らぎ量が小さい（すなわち安定度ｓ_iが高い）第１モデルは、インストラクタが行動したときの状態変数の位置の時系列的な変化態様を最も無理なくまたは円滑に再現しうるモデルである蓋然性が高い。したがって、安定度ｓ_iが高い第１モデルに対応する行動態様は、インストラクタの実際の行動態様に対応している蓋然性が高い。このため、安定度ｓ_iが最高の第１モデルに対応する行動態様がインストラクタの行動態様として推定されることにより、その推定精度の向上が図られる。

また、第２実施形態の行動推定システムによれば、行動態様が途中で変化する点で共通する一方、その変化タイミングｋ＝ｈが相違するさまざまな行動態様に対応する複数の第１モデルのそれぞれに基づき、複数の推定軌道Ｐ_iが生成される（図１１、図１２（ａ）（ｂ）参照）。そして、前記のように当該複数の推定軌道Ｐ_iのそれぞれが生成される際の安定度ｓ_iが最高の第１モデルに対応する行動態様がインストラクタの行動態様として推定される。これにより、第１行動態様から第２行動態様への変化タイミング、具体的には、インストラクタが物体に力を作用させたタイミングの相違により区別される行動態様の推定精度の向上が図られる。

なお、ラケットを振る、または、ラケットでボールを打ち返すという行動態様のほか、腕および脚の動きを伴うダンス、物体の運搬等、さまざまなインストラクタの行動態様が推定されてもよい。また、物体に力を作用させる前と、物体に力を作用させた後とで行動態様が変化するようなインストラクタの行動態様として、インストラクタがラケットにボール（物体）を当てるという行動態様のほか、インストラクタが片手または両手の柱などの物体への接触および離反を繰り返すような作業をする、あるいは、インストラクタが片脚または両脚の着床および離床を繰り返すように床（物体）の上で歩行、走行またはタップダンスをする等の行動態様が推定されてもよい。

本発明の行動推定システムの構成説明図エージェントとしてのロボットの構成説明図行動推定方法を示すフローチャートインストラクタの動作に関する説明図（第１実施形態）ロボットの動作に関する説明図（第１実施形態）確率遷移モデル（ＤＢＮ）に関する説明図（第１実施形態）確率遷移モデルにおけるノードを埋める方法に関する説明図推定軌道の生成方法に関する説明図（第１実施形態）インストラクタの動作に関する説明図（第２実施形態）ロボットの動作に関する説明図（第２実施形態）確率遷移モデル（ＤＢＮ）に関する説明図（第２実施形態）推定軌道の生成方法に関する説明図（第２実施形態）

符号の説明

１‥ロボット（エージェント）、１１０‥行動推定システム、１１１‥状態認識要素、１１２‥軌道生成要素、１２０‥行動制御システム、１０００‥アクチュエータ

Claims

インストラクタの行動態様を推定するためのシステムであって、
前記インストラクタの動きに伴って変位する状態変数の一または複数の基準時点における位置を、一または複数の基準点の位置として認識する状態認識要素と、
前記状態認識要素により認識された前記基準点の位置に基づき、前記インストラクタの複数の行動態様のそれぞれに対応する、前記状態変数の位置の時系列的な変化態様を表わす基準軌道のそれぞれの形状特性を表わす複数の第１モデルのそれぞれと、前記状態変数の位置およびその一または複数のｎ階時間微分値（ｎ＝１，２，‥）が連続的に変化するような前記インストラクタの動作を表わす第２モデルとにしたがって、前記状態変数の推定位置を時系列的に表わす複数の推定軌道を、前記推定軌道が前記基準点またはその近傍範囲を通過するという条件下で生成する軌道生成要素とを備え、
前記第１モデルの揺らぎが許容され、前記軌道生成要素により前記複数の推定軌道が生成される過程における前記複第１モデルの安定度を前記累積揺らぎ量の多少に応じて評価し、前記安定度が最高である一の前記第１モデルに対応する行動態様を、前記インストラクタの行動態様として推定することを特徴とする行動推定システム。
請求項１記載の行動推定システムにおいて、前記軌道生成要素が、各時点における前記状態変数の位置を時系列的に順方向に推定することにより前記推定軌道として順方向推定軌道を生成するとともに、各時点における前記第２状態変数の位置を時系列的に逆方向に推定することにより前記推定軌道として逆方向推定軌道とを生成することを特徴とする行動推定システム。
請求項１または２記載の行動推定システムにおいて、前記軌道生成要素が、異なる時点で第１行動態様から第２行動態様に変化するような前記インストラクタの複数の行動態様のそれぞれに対応する前記複数の第１モデルのそれぞれに基づいて前記複数の推定軌道を生成することを特徴とする行動推定システム。
請求項３記載の行動推定システムにおいて、
前記軌道生成要素が、異なる時点で前記インストラクタが物体に力を作用させるための前記第１行動態様から、前記インストラクタが前記物体に力を作用させた後における前記第２行動態様に変化するような前記インストラクタの複数の行動態様のそれぞれに対応する前記複数の第１モデルのそれぞれに基づいて前記複数の推定軌道を生成することを特徴とする行動推定システム。
請求項１〜４のうちいずれか１つに記載の行動推定システムにおいて、前記軌道生成要素が、アトラクタおよびその引き込み点の位置により前記基準軌道の形状特性が定義され、かつ、前記引き込み点の変位により揺らぐ前記第１モデルを用いて前記推定軌道を生成し、
前記行動推定システムが、前記アトラクタの引き込み点の累積変位量が少ないほど前記第１モデルの前記安定度を高く評価することを特徴とする行動推定システム。