JP5313562B2 - 行動制御システム - Google Patents

行動制御システム Download PDF

Info

Publication number
JP5313562B2
JP5313562B2 JP2008169533A JP2008169533A JP5313562B2 JP 5313562 B2 JP5313562 B2 JP 5313562B2 JP 2008169533 A JP2008169533 A JP 2008169533A JP 2008169533 A JP2008169533 A JP 2008169533A JP 5313562 B2 JP5313562 B2 JP 5313562B2
Authority
JP
Japan
Prior art keywords
trajectory
state variable
model
control system
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008169533A
Other languages
English (en)
Other versions
JP2010005761A (ja
Inventor
総司 射場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2008169533A priority Critical patent/JP5313562B2/ja
Priority to US12/487,211 priority patent/US8078321B2/en
Publication of JP2010005761A publication Critical patent/JP2010005761A/ja
Application granted granted Critical
Publication of JP5313562B2 publication Critical patent/JP5313562B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J5/00Manipulators mounted on wheels or on carriages
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/021Optical sensing devices
    • B25J19/023Optical sensing devices including video camera means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39298Trajectory learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40264Human like, type robot arm

Description

本発明はインストラクタがタスクを実行する際の行動を手本として、エージェントにこのタスクを実行させるためのシステムに関する。
基準となる状態変数の軌道に基づいて実際の状況に適したエージェントの状態変数の軌道を生成するための手法として多項式、ベジエまたはアトラクタ等が利用されている。たとえば、力学系の状態空間においてアトラクタを設計し、エージェントとしてのヒューマノイドロボットの状態変数軌道がこのアトラクタに引き込まれることでロボットの安定な自律的運動が実現されることが報告されている(非特許文献1参照)。
岡田昌史 大里健太 中村仁彦「非線形力学系のアトラクタ設計によるヒューマノイドロボットの運動創発」計測自動学会論文集 vol.41,No.6,533/540(2005)
しかし、エージェントがインストラクタの動きの外形特徴を維持するという束縛条件下で行動する場合、エージェントの動作の滑らかさが損なわれてしまう可能性がある。このため、エージェントがタスクを実行するための動作がぎこちなくなり、インストラクタと同様に円滑にタスクを実行することが困難となる可能性がある。
そこで、本発明は、エージェントに円滑な動作によりタスクを実行させることができるシステムを提供することを解決課題とする。
第1発明の行動制御システムは、インストラクタがタスクを実行する際の行動を手本として、エージェントに前記タスクを実行させるためのシステムであって、
前記インストラクタの動きにより変位する第1状態変数の位置を時系列的に表わす基準軌道に基づいてアトラクタを定義し、第1モデルと、第2モデルとに基づき、ダイナミクスベイジアンネットワークにより表現される確率遷移モデルを定義し、前記確率遷移モデルにしたがって前記第1状態変数に対応する第2状態変数の位置を時系列的に表わす学習軌道を生成する軌道生成要素を備え、
前記第1モデルが、前記アトラクタの引き込み点を基準とする前記第2状態変数の位置の各時点における偏差の大小と、アトラクタ行列と、確率分布で表わされる揺らぎまたは不確定要素とに応じて前記第2状態変数の位置の各時点における変位速度が連続確率変数として定義され、かつ、前記アトラクタの引き込み点が確率分布で表わされる不確定要素を有する連続確率変数として定義されているモデルであり、
前記第2モデルが、前記第2状態変数の今回位置が前記第2状態変数の前回位置および今回速度により表わされ、前記第2状態変数のまたは各n階時間微分の今回値(n=1,2,‥)が、前記第2状態変数のまたは各n階時間微分の前回値と、前記第2状態変数のまたは各n+1時間微分の今回値とにより表わされ、かつ、前記第2状態変数の位置及びそのまたは各n階時間微分値のそれぞれが確率分布で表わされる不確定要素を有する連続確率変数として定義されているモデルであり、前記軌道生成要素により生成された前記学習軌道にしたがって前記エージェントの行動を制御することを特徴とする。
第1発明の行動制御システムによれば、第1モデルおよび第2モデルにしたがって、第2状態変数の位置を時系列的に表わす「学習軌道」が生成される。「第1モデル」はインストラクタの動きにより変位する第1状態変数の位置を時系列的に表わす基準軌道の標準的な形状特性を表わしている。このため、第1モデルにしたがって学習軌道が生成されることにより、基準軌道の標準的な形状特性、すなわち、タスクを実行する際のインストラクタの動作の特徴を学習軌道に持たせることができる。「第2モデル」は第1状態変数に対応する第2状態変数の位置および一または複数のn階時間微分値(n=1,2,‥)が連続的に変化するようなエージェントの動作を表わしている。このため、第2モデルにしたがって学習軌道が生成されることにより、第2状態変数の位置および一または複数のn階時間微分値が連続的に変化するような変位特性をも学習軌道に持たせることができる。したがって、学習軌道にしたがってエージェントの行動が制御されることにより、エージェントに、インストラクタの動作特性を模倣または再現させながら、第2状態変数の時間微分値に不連続が生じないような円滑な動作によりタスクを実行させることができる。なお「状態変数」とは、スカラーおよびベクトルを包含する概念であり、確率分布変数を包含する概念である。状態変数の「位置」とは、当該状態変数により定義される空間における位置を意味する。
第2発明の行動制御システムは、第1発明の行動制御システムにおいて、前記軌道生成要素が前記第1モデルおよび前記第2モデルにしたがって各時点における前記第2状態変数の推定位置を表わす推定軌道を生成し、前記推定軌道を基準として各時点における前記第2状態変数の位置の許容通過範囲を設定し、各時点における前記第2状態変数の位置が前記各時点における前記許容通過範囲に収まるように前記学習軌道を生成することを特徴とする。
第2発明の行動制御システムによれば、各時点における第2状態変数の推定位置の時系列的な変化態様を表わす推定軌道が生成されるが、この推定軌道は第1モデルおよび第2モデルにしたがって生成されている。このため、推定軌道は基準軌道の標準的な形状特性のみならず、第2状態変数の位置および一または複数のn階時間微分値が連続的に変化するような変位特性をも併せ持っている。そして、各時点における第2状態変数の位置が許容通過範囲に収まるように、すなわち、許容通過範囲の広狭によって定義される程度の揺らぎまたはふらつきが許容された形で学習軌道が生成される。したがって、学習軌道にタスク実行のために必要な程度に基準軌道の標準的な形状特性を持たせるという条件下で、学習軌道にエージェントの円滑な動作の実現に必要な程度に連続的な第2状態変数の位置の変位特性をも持たせることができる。
第3発明の行動制御システムは、第2発明の行動制御システムにおいて、前記軌道生成要素が、前記エージェントに前記タスクを実行させる観点から前記基準軌道に追従させる必要性が高い基準時点における前記第2状態変数の位置の前記許容通過範囲が狭くまたは小さくなるように前記許容通過範囲を設定することを特徴とする。
第3発明の行動制御システムによれば、許容通過範囲の広狭または大小がエージェントにタスクを実行させる観点から設定されるので、インストラクタの動作特性を反映させながらエージェントにタスクを実行させる観点から適当な学習軌道が生成されうる。
第4発明の行動制御システムは、第2または第3発明の行動制御システムにおいて、前記軌道生成要素が、各時点における前記第2状態変数の位置を時系列的に順方向に推定することにより順方向の前記推定軌道を生成し、各時点における前記第2状態変数の位置を時系列的に逆方向に推定することにより逆方向の前記推定軌道を生成し、前記順方向推定軌道の前記許容通過範囲と、前記逆方向推定軌道の前記許容通過範囲とを合成した結果としての合成存在許容範囲に各時点における前記第2状態変数の値が収まるように前記学習軌道を生成することを特徴とする。
第4発明の行動制御システムによれば、順方向推定軌道は時系列的に順方向について基準軌道の標準的な形状特性のみならず、第2状態変数の位置およびその一または複数のn階時間微分値が連続的に変化するような変位特性をも併せ持っている。逆方向推定軌道は時系列的に逆方向について基準軌道の標準的な形状特性のみならず、第2状態変数の位置およびその一または複数のn階時間微分値が連続的に変化するような変位特性をも併せ持っている。そして、各時点における第2状態変数の位置が順方向推定軌道の許容通過範囲および逆方向推定軌道の許容通過範囲が合成された結果としての合成許容通過範囲に収まるように、すなわち、合成許容通過範囲の広狭によって定義される程度の揺らぎまたはふらつきが許容された形で学習軌道が生成される。したがって、タスク実行のために必要な程度に時系列的に順方向および逆方向のそれぞれについて基準軌道の標準的な形状特性を学習軌道に持たせるという条件下で、エージェントの円滑な動作の実現に必要な程度に連続的な第2状態変数の位置の変位特性をも学習軌道に持たせることができる。
第5発明の行動制御システムは、第1〜第4発明のうちいずれか1つの行動制御システムにおいて、前記軌道生成要素が、異なる複数の前記アトラクタを用いて、単一の前記第1モデルの性質が途中の時点で変化するように当該第1モデルを定義することを特徴とする。
第5発明の行動制御システムによれば、学習軌道が有する基準軌道の標準的な形状特性と、連続的な第2状態変数の位置の変位特性とのバランスが調節されうる。したがって、エージェントに、第2状態変数の位置に要求される基準軌道への追従性の高低が異なる等、性質の異なる行動を円滑に連続させることによりタスクを実行させることができる。
第6発明の行動制御システムは、第1〜第5発明のうちいずれか1つの行動制御システムにおいて、前記第1状態変数の位置を時系列的に表わす基準軌道を認識する状態認識要素を備え、前記軌道生成要素が前記インストラクタが前記タスクを実行するたびに前記状態認識要素により認識された複数の前記基準軌道に基づき、前記第1モデルを定義することを特徴とする。
第6発明の行動制御システムによれば、インストラクタが複数回にわたりタスクを繰り返すたびに、第1状態変数の位置を時系列的に表わす「基準軌道」が認識または測定される。このため、複数の基準軌道に基づき、基準軌道の標準的な形状特性、すなわち、タスクを実行する際のインストラクタの動作の特徴が再現または模倣される基礎として適当な第1モデルが生成されうる。
発明の行動制御システムは、第1〜第6発明のうちいずれか1つの行動制御システムにおいて、前記軌道生成要素が前記タスクの実行進捗状況に応じて前記アトラクタの引き込み点を変位させることを特徴とする。
発明の行動制御システムによれば、アトラクタの引き込み点の揺らぎまたは変位が許容されている。このため、学習軌道にタスク実行のために必要な程度に基準軌道の標準的な形状特性を持たせるという条件下で、学習軌道にエージェントの円滑な動作の実現に必要な程度に連続的な第2状態変数の位置の変位特性をも持たせることができる。
本発明の行動制御システムの実施形態について図面を用いて説明する。まず、行動制御システムの構成について説明する。図1に示されている行動制御システム100は、図2に示されているエージェントとしてのロボット1に搭載されているアクチュエータ1000の動作を制御することによりロボット1の行動を制御する。
ロボット1は脚式移動ロボットであり、人間と同様に基体10と、基体10の上部に設けられた頭部11と、基体10の上部左右両側から延設された左右の腕部12と、腕部12の先端部に設けられた手部1と、基体10の下部から下方に延設された左右の脚部1と、脚部1の先端部に取り付けられている足部15とを備えている。ロボット1は、再表03/090978号公報や、再表03/090979号公報に開示されているように、アクチュエータ1000から伝達される力によって、人間の肩関節、肘関節、手根関節、股関節、膝関節、足関節等の複数の関節に相当する複数の関節機構において腕部12や脚部14を屈伸運動させることができる。腕部12は肩関節機構を介して基体10に連結された第1腕リンクと、一端が第1腕リンクの端部に肘関節機構を介して連結され、他端が手根関節を介して手部13の付根部に連結されている第2腕リンクとを備えている。脚部14は股関節機構を介して基体10に連結された第1脚リンクと、一端が第1脚リンクの端部に膝関節機構を介して連結され、他端が足関節を介して足部15に連結されている第2脚リンクとを備えている。ロボット1は、左右の脚部1のそれぞれの離床および着床の繰り返しを伴う動きによって自律的に移動することができる。
行動制御システム100はロボット1に搭載されている電子制御ユニット(CPU,ROM,RAM,I/O回路等により構成されている。)またはコンピュータにより構成されている。
行動制御システム100は状態認識要素110と、軌道生成要素120とを備えている。状態認識要素110は内部状態センサ群111および外部状態センサ群112のそれぞれの出力信号に基づいて種々の状態変数の値を認識する。内部状態センサ群111にはロボット1の位置(重心位置)を測定するためのGPS測定装置または加速度センサのほか、基体10の姿勢を測定するためのジャイロセンサ、各関節機構の屈曲角度等を測定するロータリーエンコーダ等が含まれている。外部状態センサ群112にはロボット1とは別個独立のモーションキャプチャーシステム(図示略)のほか、ボール等のタスク実行に関連する物体の位置軌道を測定するため、頭部11に搭載されているステレオイメージセンサや、基体10に搭載されている赤外光を用いたアクティブ型センサ等が含まれる。状態認識要素110はインストラクタの動きにより変位する「第1状態変数」の位置を時系列的に表わす「基準軌道」を認識する。軌道生成要素120はインストラクタがタスクを実行するたびに状態認識要素110により認識された複数の基準軌道に基づき、基準軌道の標準的な形状を表わす「第1モデル」を定義する。軌道生成要素120は第1モデルと、第1状態変数に相当する「第2状態変数」の一または複数のn階時間微分値(n=1,2,‥)が連続的に変化するようなロボット1の動作を表わす「第2モデル」とに基づき、第1状態変数に対応するエージェントとしてのロボット1の動きにより変位する「第2状態変数」の位置を時系列的に表わす「学習軌道」を生成する。行動制御システム100は軌道生成要素120により生成された学習軌道にしたがってロボット2が行動するようにアクチュエータ群1000の動作を制御する。
なお、本発明を構成する「要素」は物理的にはメモリ(ROM,RAM)と、このメモリからプログラムを読み出して担当する演算処理を実行する演算処理装置(CPU)とにより構成されている。プログラムはCDやDVD等のソフトウェア記録媒体を通じてコンピュータにインストールされてもよいが、ロボット1からサーバに要求信号が送信されたことに応じて当該サーバによってネットワークや人工衛星を介して当該コンピュータにダウンロードされてもよい。本発明の構成要素が情報を「認識する」とは、当該構成要素が情報をデータベースから検索すること、メモリ等の記憶装置から情報を読み取ること、センサ等の出力信号に基づき情報を測定、算定、推定、判定すること、測定等された情報をメモリに格納すること等、当該情報をさらなる演算処理のために準備または用意するのに必要なあらゆる情報処理を実行することを意味する。行動制御システム100のうち一部(たとえば、状態認識要素110および軌道生成要素120)がロボット1の外部コンピュータにより構成され、残りの部分(たとえばロボット1の行動を制御するための要素)が当該外部コンピュータから演算結果を無線または有線方式で受信可能なコンピュータにより構成されていてもよい。
前記構成の行動制御システム100の機能について説明する。
まず、本発明の第1実施形態としての行動制御システム100について説明する。第1実施形態の行動制御システム100は、図4(a)〜(c)に順に示されているようにインストラクタとしての人間が片手で持っているラケットを振るというタスクを実行する様子を手本として、図5(a)〜(c)に示されているようにエージェントとしてのロボット1に同じタスクを実行させるようにその行動を制御する。図4(a)(b)および(c)のそれぞれは、インストラクタがラケットを動かし始める直前の状態、ラケットを動かしている途中の状態、および、ラケットの動きを止めた状態のそれぞれを示している。
まず、状態認識要素110によりインストラクタがタスクを繰り返すたび「第1状態変数」の位置を時系列的に表わす「基準軌道」が認識される(図3/S002)。具体的には、ラケット位置(トップの位置)が第1状態変数として測定される。なお、ラケット位置に代えてまたは加えてインストラクタの手、肘、肩、膝等の指定箇所(ラケットなどその身につけているものを含む。)の位置が第1状態変数として測定されてもよく、特徴部分の変位速度または加速度等が第1状態変数として測定されてもよい。さらに、肩関節、肘関節、手根関節、膝関節等のインストラクタの指定関節の角度、角速度または角加速度が第1状態変数として測定されてもよい。また、指定箇所の位置、変位速度および加速度と、指定関節の角度、角速度および角加速度のうち任意の組み合わせが第1状態変数として認識されてもよい。これにより、基準軌道Qi=[qi(0),‥qi(k),‥qi(N) ](i=1,2,‥,X)が認識される。「qi(k)」は、第iの基準軌道Qiにおける時点kにおける第1状態変数の位置を意味しており、スカラーまたはベクトルによって表現される。第1状態変数として測定されたラケット位置は3次元の状態変数空間において定義されるので、第1状態変数は3次元空間において位置が定義される。基準軌道Qiの形状特性は図4(b)および(c)に矢印で示されているラケット位置の軌跡の形状特性と実質的に同一である。なお、ラケット位置に加えて手位置が第1状態変数として測定された場合、第1状態変数の位置は6次元空間において定義される。第1状態変数として2つの指定箇所の位置が測定され、かつ、当該2つの指定箇所のx成分がほぼ一定の関係にある場合、一方の指定箇所のx成分が他方の指定箇所のx成分に繰り込まれて省略されることにより、第1状態変数の位置が5次元空間において定義されてもよい。
第1状態変数の位置は、外部状態センサ112としての光学式モーションキャプチャーシステムにより測定される。光学式モーションキャプチャーシステムによれば、インストラクタの周囲に配置された一または複数のカメラ(トラッカー)による、ラケット等の指定箇所に付されたマークの検出結果に基づいてラケット位置が測定される。なお、機械式、磁気式または慣性式モーションキャプチャーシステムにより第1状態変数の位置が測定されてもよい。機械式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数のポテンショメータからの当該インストラクタの各関節角度を表す出力信号に基づいて第1状態変数の位置が測定される。磁気式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数の磁気センサからの出力信号に基づいて第1状態変数の位置が測定される。慣性式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数の慣性モーメントセンサからの腕等の慣性モーメントを表す出力信号に基づいて第1状態変数の位置が測定される。
続いて状態認識要素110により認識された基準軌道Q i に基づき、軌道生成要素120により第1モデルが定義される(図3/S004)。具体的には、まず基準軌道Q i に基づき、関係式(10)にしたがってアトラクタ行列Rが算定される。このアトラクタ行列の算定方法は、たとえば「Trajectory Representation Using Sequenced Linear Dynamical Systems, K.R.Dixon and P.K.Khosla, Proceeding of the IEEE International Conference on Robotics and Automation(2004)」に記載されている。なお、第1モデルがあらかじめ設定され、かつ、記憶装置に保存されている場合には、状態認識要素110による状態認識が省略され、軌道生成要素120によりこの記憶装置から第1モデルを表わすデータまたは情報が読み出されてもよい。
R=(Q^(k+1)-Q^(k))(Q^(k)-Q^(N))+,
Q^(k)≡[q1(1)..q1(N_1-1)..qi(1)..qi(N_i-1)..qx(1)..qx(N_x-1)],
Q^(k+1)≡[q1(2)..q1(N_1)..qi(2)..qi(N_i)..qx(2)..qx(N_x)],
Q^(N)≡[q1(N_1)..q1(N_1)..qi(N_i)..qi(N_i)..qx(N_x)..qx(N_x)] ..(10)
ここで「+」は擬似逆行列を表わし、「N_i」はi個目の軌道の軌道長を表わしている。そして、アトラクタ行列Rにより関係式(11)〜(12)により表現される第1モデルが定義される。
v(k)=Rp(k)-Ru(k)+N(μvv) ..(11)
u(k+1)=u(k)+ε(k)+N(μuu) ..(12)
関係式(11)はアトラクタの時点kにおける引き込み点u(k)を基準とする第2状態変数の位置p(k)の偏差の大小と、アトラクタ行列Rとに応じて時点kにおける第2状態変数の位置の変位速度v(k)の高低が定まることと、第2状態変数の位置の変位速度v(k)が確率分布(一般的にはガウス分布)N(μv,Σv)(μv=0,Σv:共分散行列)で表わされる揺らぎまたは不確定要素を有する連続確率変数であることとを表わしている。すなわち、第1モデルにしたがって時点kにおける第2状態変数の変位速度v(k)の高低および揺らぎの程度が定められる。関係式(12)はアトラクタの引き込み点u(k)が変位量ε(k)だけ変位することが許容されていることと、引き込み点u(k)が確率分布N(μu,Σu)(μu=0,Σu:共分散行列)で表わされる不確定要素を有する連続確率変数であることとを表わしている。なお、関係式(12)において右辺第2項が省略されてもよい。
さらに、第1モデルとメモリに保存されている関係式(21)〜(23)により表現される「第2モデル」とに基づき、確率遷移モデルが定義される(図3/S006)。第2モデルは、ロボット1が第1状態変数に相当する第2状態変数の位置pおよびその1階時間微分値(変位速度v=dp/dt)および2階時間微分値(加速度α=d2p/dt2)のそれぞれが円滑または連続的に変化するようなロボット1の動作を表わすモデルである。なお、第2状態変数の位置pおよびその1階時間微分値および2階時間微分値が連続的に変化するようなロボット1の動作を表わす第2モデルに代えて、第2状態変数の位置pおよびその1階時間微分値、または、その2階時間微分値および3階時間微分値が連続的に変化する等、第2状態変数の位置pおよびまたは複数のn階時間微分値が連続に変化するようなロボット1の動作を表わす第2モデルが採用されてもよい。第2状態変数は第1状態変数に相当しており、手部13により握られているラケット位置等、指定箇所の位置を意味している。なお、前記のように指定箇所の位置およびその時間微分値と、特徴関数の角度およびその時間微分値との任意の組み合わせが第1状態変数として測定された場合、ロボット1の指定箇所の位置およびその時間微分値と、特徴関数の角度およびその時間微分値との任意の組み合わせが第2状態変数として定義される。
p(k+1)=p(k)+v(k+1)+N(μpp) ..(21)
v(k+1)=v(k)+α(k+1)+N(μvv) ..(22)
α(k+1)= α(k)+β(k+1)+N(μαα) ..(23)
関係式(21)は第2状態変数の位置p(k)が滑らかに変化するという第2モデルの一側面を表わし、かつ、当該位置p(k)が確率分布N(μp,Σp)(μp=0,Σp:共分散行列)で表わされる不確定要素を有する連続確率変数であることを表わしている。また、関係式(22)は第2状態変数の位置の変位速度(位置の1階時間微分値)v(k)が滑らかに変化するという第2モデルの一側面を表わし、かつ、当該変位速度v(k)が確率分布N(μv,Σv)(μv=0,Σv:共分散行列)で表わされる不確定要素を有する連続確率変数であることを表わしている。さらに、関係式(23)は第2状態変数の位置の変位加速度(位置の2階時間微分値)α(k)が滑らかに変化するという第2モデルの一側面を表わし、かつ、当該変位加速度α(k)が確率分布N(μα,Σα)(μα=0,Σα:共分散行列)で表わされる不確定要素を有する連続確率変数であることを表わしている。ここで、β(k)は第2状態変数の位置の加加速度(位置の3階時間微分値(=d3p/dt3))である。なお、関係式(23)において右辺第2項が省略されてもよい。
確率遷移モデルは、図6に示されているダイナミクスベイジアンネットワーク(DBN)により表現される。DBNによれば関係式(11)(12)(21)〜(23)が、各時点tにおける第2状態変数の位置pおよびアトラクタの引き込み点u等の状態変数を表わすノード(円)および条件確率によりこれらをつなぐ矢印により表現されている。また、関係式(11)(12)(21)〜(23)のそれぞれに対応する条件付確率は関係式(111)(112)(122)〜(123)のそれぞれにより表現される。
P(0|v(k),p(k),u(k))=N(v(k)-Rp(k)+Ru(k),0)=N(0,0) ..(111)
P(u(k+1)|u(k),ε(k))=N(u(k)+ε(k),Σu) ..(112)
P(p(k+1)|p(k),v(k+1))=N(p(k)+v(k+1),Σp) ..(121)
P(v(k+1)|v(k),α(k))=N(v(k)+α(k+1),Σv) ..(122)
P(α(k+1)|α(k),β(k))=N(α(k)+β(k+1),Σa) ..(123)
関係式(112)における状態変数ノードεは関係式(212)により表現される。関係式(123)における状態変数ノードβは関係式(223)により表現される。
P(ε(k))=N(0,Σε) ..(212)
P(β(k))=N(0,Σβ) ..(223)
続いて確率遷移モデルにしたがって「学習軌道」が生成される(図3/S008)。具体的には、図6に示されているDBNにおいて、前記のように第1基準時点t=0および第2基準時点t=Nのそれぞれにおける第2状態変数の位置p、速度v、加速度αおよび加加速度βが設定される。たとえば図5(a)に示されているようにロボット1がラケットを動かし始める時点(t=0)における第2状態変数の位置(学習軌道の始点)p(0)が設定される。具体的には、ロボット1がラケットを持って静止している(または構えている)ときのラケット位置が第1基準時点t=0における第2状態変数の位置p(0)として設定される。第1基準時点t=0における第2状態変数の位置p(0)の変位速度v(0)、加速度α(0)および加加速度β(0)はすべて「0」に設定される。さらに、図5(c)に示されているようにロボット1がラケットの動きを止めるときのラケットの目標位置が、第2基準時点t=Nにおける第2状態変数の位置p(N)として設定される。第2基準時点t=Nにおける第2状態変数の位置p(N)は第1基準時点t=0におけるアトラクタの引き込み点u(0)の近傍範囲内に設定されてもよい。第2基準時点t=Nにおける第2状態変数の速度v(N)、加速度α(N)および加加速度β(N)はすべて「0」に設定される。
また、第1基準時点t=0から第2基準時点t=Nまでのノードが、関係式(11)(12)(21)〜(23)により表現される確率遷移モデルにしたがって、時系列的に順方向(先時点から後時点に向かう方向)に順次推定される。これにより、時系列順方向について第2状態変数の推定位置の変化態様を表わす「順方向推定軌道」が生成される。同様に第2基準時点t=Nから第1基準時点t=0までのノードが、確率遷移モデルにしたがって、時系列的に逆方向(後時点から先時点に向かう方向)に順次推定される。これにより、時系列的に逆方向について第2状態変数の推定位置の変化態様を表わす「逆方向推定軌道」が生成される。さらに、順方向推定軌道を基準として広がる許容通過範囲が設定され、かつ、逆方向推定軌道を基準として広がる許容通過範囲が設定される。そして、当該両方の許容通過範囲が合成されることにより合成許容範囲が設定され、各時点における第2状態変数の位置p(k)が合成許容通過範囲に治まるように学習軌道Pが生成される。
なお、DBNにおけるノードの推定方法としては前記方法(Belief Propagationと呼ばれている手法)のほか、Loopy Belief Propagation, variable elimination, Junction Tree, Impartance sampling, Hugin Algorithm, Shafer-Shanoy Algorithm, variational message passing, gibbs sampling等の方法が採用されてもよい。
学習軌道Pの生成方法の理解の簡単のため、第2状態変数の位置p(k)が1次元(スカラー)であり、p(k+1)=Ap(k)(A=1.50)という関係式にしたがって推定される状況を考える。この状況において第1基準時点t=0における第2状態変数の測定位置p(0)が1.00であり、かつ、第2基準時点t=3における第2状態変数の目標位置p(3)が5.00であると仮定する。この場合、p+(0)(=p(0)),p+(1)(=Ap(0)),p+(2)(=A2p(0))およびp+(3)(=A3p(0))を順に経由する軌道が「順方向定軌道」として生成される。そして、図7(a)に示されているように時系列順方向について各時点における第2状態変数の推定位置p+(k)の条件付確率分布(一点鎖線)P(p+(k)|p(0)=1.00)(k=1,2,3)が、順方向推定軌道を基準として広がる各時点における許容通過範囲として算定される。その一方、p-(3)(=p(3)),p-(2)(=A-1p(0)),p-(1)(=A-2p(0))およびp-(0)(=A-3p(0))を順に経由する軌道が「逆方向推定軌道」として生成される。そして、図7(b)に示されているように時系列逆方向について各時点における第2状態変数の推定位置p-(k)の条件付確率分布(二点鎖線)P(p-(k)|p(3)=5.00)(k=2,1,0)が、逆方向推定軌道を基準として広がる各時点における許容通過範囲として算定される。そして、これら2つの条件付確率分布が合成され、その結果として条件付確率分布P(p(k)|p(0)=1.00,p(3)=5.00)(k=1,2)が合成許容通過範囲として算定される。これにより、図7(c)に示されているように各時点kにおける条件付確率が最高の位置p(0)=1.00、p(1)=1.842、p(2)=3.149およびp(3)=5.00を順に遷移する軌道が学習軌道Pとして生成される。
具体的には、図8(a)に示されているように第1基準時点t=0から第2基準時点t=Nまで、第2状態変数の推定位置p+(0)(=p(0)),p+(1),p+(2),‥,p+(N)が時系列順方向(白矢印参照)に順次推定される。これにより、第2状態変数の推定位置p+(0),p+(1),p+(2),‥,p+(N)を順に経由する軌道が順方向推定軌道として生成される。また、図8(a)に示されているように第2基準時点t=Nから第1基準時点t=0まで、第2状態変数の推定位置p-(N)(=p(N)),p-(N−1),p-(N−2),‥,p-(0)が時系列逆方向(黒矢印参照)に推定される。これにより、第2状態変数の推定位置p-(N),p-(N−1),p-(N−2),‥,p-(0)を順に経由する軌道が逆方向推定軌道として生成される。さらに、図8(b)に示されているように順方向推定軌道の各点p+(0),p+(1),p+(2),‥,p+(N)を中心とする確率分布(関係式(21)右辺第3項参照)と、逆方向推定軌道の各点p-(N),p-(N−1),p-(N−2),‥,p-(0)を中心とする確率分布とが重ね合わせられるまたは合成されることにより合成許容通過範囲が設定される。そして、斜線付矢印で示されているように第2状態変数の位置が各時点における合成許容通過範囲に収まるように学習軌道Pが生成される。図8(a)に一点鎖線で示されているように順方向推定軌道の各点を中心として許容通過範囲(確率分布範囲)が広がっている(図7(a)参照)。図8(a)に二点鎖線で示されているように逆方向推定軌道の各点を中心として許容通過範囲(確率分布範囲)が広がっている(図7(b)参照)。これら確率分布の重ね合わせの広がり度合が学習軌道Pの「許容通過範囲」に相当する(図7(c)参照)。
なお、順方向および逆方向の許容通過範囲がすべての時点において合成されるのではなく、たとえば、第1期間t=0〜kでは順方向の許容通過範囲を通過する第1部分軌道が生成され、第1期間に続く第2期間t=k+1〜Nでは逆方向の許容分布範囲を通過する第2部分軌道が生成され、当該第1部分軌道および第2部分軌道が円滑に接続されることにより学習軌道Pが生成されてもよい。また、第1期間t=0〜kでは順方向の許容通過範囲を通過する第1部分軌道が生成され、第1期間よりも後の第2期間t=k+c(c>1)〜Nでは逆方向の許容通過範囲を通過する第2部分軌道が生成され、当該第1部分軌道および第2部分軌道を円滑に接続するように期間t=k+1〜k+c−1での中間部分軌道が生成され、第1部分軌道、中間部分軌道および第2部分軌道が順に接続されることにより学習軌道Pが生成されてもよい。
そして、軌道生成要素130により生成された学習軌道にしたがって、行動制御システム100によりロボット1の動作が制御される(図3/S010)。具体的には、第2状態変数としてのラケットの位置が学習軌道Pにしたがって変位するようにアクチュエータ1000の動作が制御される。これにより、図5(a)〜(c)に順に示されているように腕部12および脚部14等が動かされ、ロボット1が片方の手部13で持っているラケットを振るというタスクを実行する。
なお、インストラクタの動作スケールに対するロボット1の動作スケールの比率に一致するように、基準軌道Qのスケールに対する学習軌道Pのスケールの比率が調節されてもよい。たとえば、インストラクタの腕の長さに対する、ロボット1の腕部12の長さの比率がアトラクタ行列Rに乗じられることにより、インストラクタの手の位置の時系列的な変化態様を表す基準軌道Qのスケールに対する、ロボット1の手部13の位置の時系列的な変化態様を表わす学習軌道Pのスケールが調節されてもよい。また、インストラクタの腕の長さとインストラクタが用いるラケットの長さとの和に対する、ロボット1の腕部12の長さとロボット1が用いるラケットの長さとの和の比率がアトラクタ行列Riに乗じられることにより、インストラクタが持っているラケットの位置の時系列的な変化態様を表す基準軌道Qのスケールに対する、ロボット1が把持するラケット位置の時系列的な変化態様を表わす学習軌道Pのスケールが調節されてもよい。
次に、本発明の第2実施形態としての行動制御システム100について説明する。第2実施形態の行動制御システム100は、図9(a)〜(c)に順に示されているようにインストラクタとしての人間がその前方から向かってくるボールを、片手で持っているラケットを使ってフォアハンドで前方に打ち返すというタスクを実行する様子を手本として、図10(a)〜(c)に示されているようにエージェントとしてのロボット1に同じタスクを実行させるようにその行動を制御する。図9(a)(b)および(c)のそれぞれは、インストラクタがラケットを動かし始める直前の状態、ラケットをボールに当てた状態、および、ラケットの動きを止めた状態のそれぞれを示している。
ラケットにボールを当てる必要があるというタスクの性質のため、基準軌道の認識に際して(図3/S002参照)、状態認識要素110によりインストラクタがラケットにボールを当てた時点(図9(b)参照)t=hにおける第1状態変数の位置およびボールの位置が測定される。モーションキャプチャーシステムを構成するカメラを通じて得られる画像解析によって測定されるボールの速度変化が閾値を超えた時点が、ラケットによりボールが打ち返された時点として認識される。ラケットにボールが当たったときに生じる音がマイクロホン(図示略)により検出された時点が、ラケットにボールが当たった時点として認識されてもよい。
また、第2状態変数位置軌道の生成に際して(図3/S008参照)、状態認識要素110によりロボット1に向かって飛んでくるボールの位置および速度が測定され、この測定結果に基づいてラケットに当たるときのボールの位置が予測される。さらに、ボールがラケットに当たる位置と、インストラクタがラケットでボールを打った時点における第1状態変数の位置およびボールの位置の相関関係とに基づき、ロボット1がラケットにボールを当てる中間基準時点t=hにおける第2状態変数位置p(h)が予測される。なお、中間基準時点t=hは、インストラクタがラケットにボールを当てた時点t=hと異なっていてもよい。中間基準時点t=hは、ラケットの振り始めからラケットにボールが当たるまでの標準的な時間間隔に基づいて画一的に設定されてもよい。
その上で、図11(a)に示されているように第1基準時点t=0から中間基準時点t=hの直前時点t=h−1まで、第2状態変数の位置p+(0)(=p(0)),p+(1),p+(2),‥,p+(h−1)が時系列順方向(白矢印参照)に順次推定される。また、同じく図11(a)に示されているように中間基準時点t=hから第2基準時点t=Nまで、第2状態変数の位置p+(h)(=p(h)),p+(h+1),p+(h+2),‥,p+(N)が時系列順方向(白矢印参照)に順次推定される。これにより、第2状態変数の推定位置p+(0),p+(1),‥,p+(h−1),p+(h),p+(h+1),‥,p+(N)を順に経由する軌道が順方向推定軌道として生成される。その一方、図11(a)に示されているように第2基準時点t=Nから中間基準時点t=hの直後時点t=h+1まで、第2状態変数の位置p-(N)(=p(N)),p-(N−1),p-(N−2),‥,p(h+1)が時系列逆方向(黒矢印参照)に順次推定される。さらに、同じく図11(a)に示されているように中間基準時点t=hから第1基準時点t=0まで、第2状態変数の位置p-(h)(=p(h)),p-(h−1),p-(h−2),‥,p-(0)が時系列逆方向(黒矢印参照)に順次推定される。これにより、第2状態変数の推定位置p-(N),p-(N−1),‥,p-(h+1),p-(h),p-(h−1),‥,p-(0)を順に経由する軌道が方向推定軌道として生成される。そして、図11(b)に示されているように順方向推定軌道の各点p+(0),‥,p+(h−1),p+(h),p+(h+1),‥,p+(N)を中心とする確率分布と、逆方向推定軌道の各点p-(N),‥,p-(h+1),p-(h),p-(h−1),‥,p-(0)を中心とする確率分布とが重ね合わせられるまたは合成されることにより合成許容通過範囲が設定される。そして、斜線付矢印で示されているように第2状態変数の位置が各時点における合成許容通過範囲に収まるように学習軌道Pが生成される。図11(a)に一点鎖線で示されているように順方向推定軌道の各点を中心として許容通過範囲(確率分布範囲)が広がっている(図7(a)参照)。図11(a)に二点鎖線で示されているように逆方向推定軌道の各点を中心として許容通過範囲(確率分布範囲)が広がっている(図7(b)参照)。これら確率分布の重ね合わせの広がり度合が学習軌道Pの「許容通過範囲」に相当する(図7(c)参照)。
そして、軌道生成要素130により生成された学習軌道にしたがって、行動制御システム100によりロボット1の動作が制御される(図3/S010)。具体的には、第2状態変数としてのラケットの位置が学習軌道にしたがって変化するようにアクチュエータ1000の動作が制御される。これにより、図10(a)〜(c)に順に示されているようにロボット1がその前方から向かってくるボールを、片方の手部13で把持しているラケットを使ってフォアハンドで前方に打ち返すタスクを実行する。
前記機能を発揮する第1および第2実施形態の行動制御システム100によれば、インストラクタが複数回にわたりタスクを繰り返すたびに、第1状態変数の位置を時系列的に表わす基準軌道Qiが認識または測定される(図3/S002、図4(a)〜(c)、図9(a)〜(c)参照)。このため、複数の基準軌道Qiに基づき、基準軌道Qiの標準的な形状特性、すなわち、タスクを実行する際のインストラクタの動作の特徴が再現または模倣される基礎として適当な第1モデルが生成されうる。
また、第1モデルおよび第2モデルにしたがって、第2状態変数の位置を時系列的に表わす学習軌道Pが生成される。具体的には、第2状態変数の時系列順方向への推定位置の変化態様を時系列的に表わす順方向推定軌道が生成される(図8(a)/白矢印、図11(a)/白矢印参照)。その一方、第2状態変数の時系列逆方向への推定位置の変化態様を時系列的に表わす逆方向推定軌道が生成される(図8(a)/黒矢印、図11(a)/黒矢印参照)。
「第1モデル」はインストラクタの動きにより変位する第1状態変数の位置qを時系列的に表わす基準軌道Qiの標準的な形状特性を表わしている(図4(a)〜(c),図9(a)〜(c)参照)。このため、第1モデルにしたがって各推定軌道が生成され、各推定軌道に基づいて学習軌道Pが生成されることにより、基準軌道Qiの標準的な形状特性、すなわち、タスクを実行する際のインストラクタの動作の特徴を学習軌道Pに持たせることができる(図5(a)〜(c),図10(a)〜(c)参照)。「第2モデル」は第1状態変数に対応する第2状態変数の位置pおよび一または複数のn階時間微分値(n=1,2,‥)が連続的に変化するようなエージェントの動作を表わしている(図6参照)。このため、第2モデルにしたがって各推定軌道が生成されることにより、第2状態変数の位置pおよび一または複数のn階時間微分値(前記実施形態では1階時間微分値(変位速度v)および2階時間微分値(加速度α))が連続的に変化するような変位特性を順方向および逆方向推定軌道に持たせることができる。
そして、順方向推定軌道を基準として広がる許容通過範囲(図8(b)/一点鎖線、図11(b)/一点鎖線参照)と、逆方向推定軌道を基準として広がる許容通過範囲(図8(b)/二点鎖線、図11(b)/二点鎖線参照)とを合成した結果としての合成存在許容範囲に各時点における第2状態変数の位置pが収まるように学習軌道Pが生成される(図8(b)/斜線矢印、図11(b)/斜線矢印参照)。すなわち、合成許容通過範囲の広狭によって定義される程度の揺らぎまたはふらつきが許容された形で学習軌道Pが生成される。また、エージェントにタスクを実行させる観点から学習軌道Pを基準軌道Qiに追従させる必要性が高い時点であるほど、この時点における第2状態変数の位置pの許容通過範囲が狭くまたは小さく設定されている。たとえば、第1実施形態ではt=0(図4(a)参照)における学習軌道Pの許容通過範囲は「0」または十分に狭くまたは小さく設定されている一方、その他の時点における許容通過範囲は確率遷移モデルにより定まる確率分布の広がりによってある程度広くまたは大きく設定されている(図8(a)(b)参照)。また、第2実施形態ではt=0(図9(a)参照)およびラケットにボールが当たった時点t=h(図9(b)参照)における学習軌道Pの許容通過範囲は「0」または十分に狭くまたは小さく設定されている一方、その他の時点における許容通過範囲は確率遷移モデルにより定まる確率分布の広がりによってある程度広くまたは大きく設定されている(図11(a)(b)参照)。このような柔軟性のある許容通過可能範囲の広狭の調節が可能になっているのは、アトラクタRの引き込み点uのふらつきまたは変位が許容されているためである(関係式(12)参照)。
前記のように許容通過範囲の広狭または大小がエージェントにタスクを実行させる観点から設定されるので、インストラクタの動作特性を反映させながらロボット1にタスクを実行させる観点から適当な学習軌道が生成されうる。したがって、タスク実行のために必要な程度に基準軌道の時系列的に順方向および逆方向のそれぞれについて標準的な形状特性を学習軌道Pに持たせるという条件下で、ロボット1の円滑な動作の実現に必要な程度に連続的な第2状態変数の位置pの変位特性をも学習軌道Pに持たせることができる。そして、各時点における第2状態変数の位置pが許容通過範囲に収まるように、すなわち、許容通過範囲の広狭によって定義される程度の揺らぎまたはふらつきが許容された形で学習軌道Pが生成される。したがって、タスク実行のために必要な程度に基準軌道の標準的な形状特性(図4(a)〜(c)、図9(a)〜(c)参照)を学習軌道Pに持たせるという条件下で、にエージェントの円滑な動作の実現に必要な程度に連続的な第2状態変数の位置の変位特性をも学習軌道Pに持たせることができる(図5(a)〜(c)参照)。たとえば、第2実施形態において、ラケットにボールが当たる前(t=0〜h−1)および後(t=h〜N)において、引き込み点が大きく変化することにより、図11(a)に示されているように第2状態変数の推定位置軌道が不連続となることが許容される。このため、ラケットにボールを当てるようにロボット1が動く必要があるという空間軌道に関する束縛条件下でも、学習軌道Pにロボット1の円滑な動作の実現に必要な程度に連続的な第2状態変数の変位特性をも持たせることができる(図11(b)参照)。
したがって、学習軌道Pにしたがってエージェントの行動が制御されることにより、エージェントとしてのロボット1に、インストラクタの動作特性を模倣または再現させながら、第2状態変数の時間微分値に不連続が生じないような円滑な動作によりタスクを実行させることができる(図5(a)〜(c),図10(a)〜(c)参照)。
比較例として図6に示されているDBNにおいて加速度αおよび加加速度βのノードが省略された上で学習軌道Pが生成された場合を考える。当該比較例によれば、図12(a)および(b)左側に示されているように第2状態変数としてのラケット位置pの変位速度vおよび加速度αが一時的に不連続となるような学習軌道Pが生成される。このため、ロボット1がこの学習軌道Pにしたがって腕部12等を動かした場合、腕部12および脚部14の動きの速度が急に変化する等、円滑さに欠けた動作を示すことになる。これに対して、本発明の行動制御システムによれば、図12(a)および(b)右側に示されているように第2状態変数としてのラケット位置pの変位速度vおよび加速度αが連続となるような学習軌道Pが生成される。したがって、ロボット1がこの学習軌道にしたがって腕部12および脚部14等を円滑に動かすことによりタスクを実行することができる。
なお、性質が異なるアトラクタRにより途中から性質が異なる行動モデルが定義されてもよい。たとえば、第2実施形態においてロボット1がラケットにボールを当てる前後で性質が異なる第1アトラクタR1および第2アトラクタR2のそれぞれにより第1モデルさらには確率遷移モデルが定義されてもよい(図6参照)。第1アトラクタR1は「ラケットを強い勢いで振る」という動作の性質を表わすように定義され、第2アトラクタR2は「ラケットを弱い勢いで振る」という動作の性質を表わすように定義されてもよい。これにより、学習軌道Pが有する基準軌道Qiの標準的な形状特性と、連続的な第2状態変数の変位特性とのバランスが調節されうる。したがって、ロボット1に、第2状態変数に要求される基準軌道への追従性の高低が異なる等、性質の異なる行動を円滑に連続させることによりタスクを実行させることができる。
また、ラケットを振る、または、ラケットでボールを打ち返すというタスクのほか、腕部12および脚部14の動きを伴うダンス、物体の運搬等、さまざまなタスクをインストラクタの動作を見本としてロボット1に実行させてもよい。
本発明の行動制御システムの構成説明図 エージェントとしてのロボットの構成説明図 ロボットの軌道生成および行動制御方法を示すフローチャート インストラクタの動作に関する説明図(第1実施形態) ロボットの動作に関する説明図(第1実施形態) 確率遷移モデル(DBN)に関する説明図 確率遷移モデルにおけるノードを埋める方法に関する説明図 学習軌道の生成方法に関する説明図(第1実施形態) インストラクタの動作に関する説明図(第2実施形態) ロボットの動作に関する説明図(第2実施形態) 学習軌道の生成方法に関する説明図(第2実施形態) 本発明の行動制御システムの効果に関する説明図
符号の説明
1‥ロボット(エージェント)、100‥行動制御システム、110‥状態認識要素、120‥軌道生成要素、1000‥アクチュエータ

Claims (7)

  1. インストラクタがタスクを実行する際の行動を手本として、エージェントに前記タスクを実行させるためのシステムであって、
    前記インストラクタの動きにより変位する第1状態変数の位置を時系列的に表わす基準軌道に基づいてアトラクタを定義し、第1モデルと、第2モデルとに基づき、ダイナミクスベイジアンネットワークにより表現される確率遷移モデルを定義し、前記確率遷移モデルにしたがって前記第1状態変数に対応する第2状態変数の位置を時系列的に表わす学習軌道を生成する軌道生成要素を備え、
    前記第1モデルが、前記アトラクタの引き込み点を基準とする前記第2状態変数の位置の各時点における偏差の大小と、アトラクタ行列と、確率分布で表わされる揺らぎまたは不確定要素とに応じて前記第2状態変数の位置の各時点における変位速度が連続確率変数として定義され、かつ、前記アトラクタの引き込み点が確率分布で表わされる不確定要素を有する連続確率変数として定義されているモデルであり、
    前記第2モデルが、前記第2状態変数の今回位置が前記第2状態変数の前回位置および今回速度により表わされ、前記第2状態変数のまたは各n階時間微分の今回値(n=1,2,‥)が、前記第2状態変数のまたは各n階時間微分の前回値と、前記第2状態変数のまたは各n+1時間微分の今回値とにより表わされ、かつ、前記第2状態変数の位置及びそのまたは各n階時間微分値のそれぞれが確率分布で表わされる不確定要素を有する連続確率変数として定義されているモデルであり、
    前記軌道生成要素により生成された前記学習軌道にしたがって前記エージェントの行動を制御することを特徴とする行動制御システム。
  2. 請求項1記載の行動制御システムにおいて、前記軌道生成要素が、前記第1モデルおよび前記第2モデルにしたがって各時点における前記第2状態変数の推定位置を表わす推定軌道を生成し、前記推定軌道を基準として各時点における前記第2状態変数の位置の許容通過範囲を設定し、各時点における前記第2状態変数の位置が前記各時点における前記許容通過範囲に収まるように前記学習軌道を生成することを特徴とする行動制御システム。
  3. 請求項2記載の行動制御システムにおいて、前記軌道生成要素が、前記エージェントに前記タスクを実行させる観点から前記基準軌道に追従させる必要性が高い基準時点における前記第2状態変数の位置の前記許容通過範囲が狭くまたは小さくなるように前記許容通過範囲を設定することを特徴とする行動制御システム。
  4. 請求項2または3記載の行動制御システムにおいて、前記軌道生成要素が、各時点における前記第2状態変数の位置を時系列的に順方向に推定することにより順方向の前記推定軌道を生成し、各時点における前記第2状態変数の位置を時系列的に逆方向に推定することにより逆方向の前記推定軌道を生成し、前記順方向推定軌道の前記許容通過範囲と、前記逆方向推定軌道の前記許容通過範囲とを合成した結果としての合成存在許容範囲に各時点における前記第2状態変数の値が収まるように前記学習軌道を生成することを特徴とする行動制御システム。
  5. 請求項1〜4のうちいずれか1つに記載の行動制御システムにおいて、前記軌道生成要素が、異なる複数の前記アトラクタを用いて、単一の前記第1モデルの性質が途中の時点で変化するように当該第1モデルを定義することを特徴とする行動制御システム。
  6. 請求項1〜5のうちいずれか1つに記載の行動制御システムにおいて、前記第1状態変数の位置を時系列的に表わす基準軌道を認識する状態認識要素を備え、前記軌道生成要素が、前記インストラクタが前記タスクを実行するたびに前記状態認識要素により認識された複数の前記基準軌道に基づき、前記第1モデルを定義することを特徴とする行動制御システム。
  7. 請求項1〜6のうちいずれか1つに記載の行動制御システムにおいて、前記軌道生成要素が前記タスクの実行進捗状況に応じて前記アトラクタの引き込み点を変位させることを特徴とする行動制御システム。
JP2008169533A 2008-06-27 2008-06-27 行動制御システム Expired - Fee Related JP5313562B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008169533A JP5313562B2 (ja) 2008-06-27 2008-06-27 行動制御システム
US12/487,211 US8078321B2 (en) 2008-06-27 2009-06-18 Behavior control system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008169533A JP5313562B2 (ja) 2008-06-27 2008-06-27 行動制御システム

Publications (2)

Publication Number Publication Date
JP2010005761A JP2010005761A (ja) 2010-01-14
JP5313562B2 true JP5313562B2 (ja) 2013-10-09

Family

ID=41448397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008169533A Expired - Fee Related JP5313562B2 (ja) 2008-06-27 2008-06-27 行動制御システム

Country Status (2)

Country Link
US (1) US8078321B2 (ja)
JP (1) JP5313562B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9508268B2 (en) 2006-05-22 2016-11-29 Koninklijke Philips N.V. System and method of training a dysarthric speaker

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5109098B2 (ja) * 2007-06-14 2012-12-26 本田技研工業株式会社 運動制御システム、運動制御方法および運動制御プログラム
DE102009023307A1 (de) * 2009-05-29 2010-12-02 Kuka Roboter Gmbh Verfahren und Vorrichtung zur Steuerung eines Manipulators
US8527217B2 (en) * 2009-09-08 2013-09-03 Dynamic Athletic Research Institute, Llc Apparatus and method for physical evaluation
JP5489965B2 (ja) * 2009-12-24 2014-05-14 本田技研工業株式会社 行動制御システムおよびロボット
JP5456557B2 (ja) * 2010-04-26 2014-04-02 本田技研工業株式会社 ロボット、制御システムおよび制御プログラム
JP5465129B2 (ja) * 2010-08-16 2014-04-09 本田技研工業株式会社 ロボットおよび行動制御システム
JP5465142B2 (ja) 2010-09-27 2014-04-09 本田技研工業株式会社 ロボットおよびその行動制御システム
KR20130067376A (ko) * 2011-12-14 2013-06-24 한국전자통신연구원 로봇 응용프로그램 에뮬레이션 장치 및 방법
US9573276B2 (en) * 2012-02-15 2017-02-21 Kenneth Dean Stephens, Jr. Space exploration with human proxy robots
JP5908350B2 (ja) 2012-06-21 2016-04-26 本田技研工業株式会社 行動制御システム
US10152117B2 (en) * 2014-08-07 2018-12-11 Intel Corporation Context dependent reactions derived from observed human responses
US10166680B2 (en) 2015-07-31 2019-01-01 Heinz Hemken Autonomous robot using data captured from a living subject
US9676098B2 (en) 2015-07-31 2017-06-13 Heinz Hemken Data collection from living subjects and controlling an autonomous robot using the data
US20200160210A1 (en) * 2018-11-20 2020-05-21 Siemens Industry Software Ltd. Method and system for predicting a motion trajectory of a robot moving between a given pair of robotic locations
CN112054738A (zh) * 2020-09-09 2020-12-08 福安市高博特电机科技有限公司 一种自动调节式变频控制器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3194395B2 (ja) * 1992-05-18 2001-07-30 日本電信電話株式会社 経路関数逐次生成方法
JPH11198075A (ja) * 1998-01-08 1999-07-27 Mitsubishi Electric Corp 行動支援装置
JP2002127058A (ja) * 2000-10-26 2002-05-08 Sanyo Electric Co Ltd 訓練ロボット、訓練ロボットシステムおよび訓練ロボットの制御方法
JP2003094363A (ja) * 2001-09-27 2003-04-03 Honda Motor Co Ltd 多関節ロボットの姿勢決定方法および装置
JP2006146435A (ja) * 2004-11-17 2006-06-08 Univ Waseda 動作伝達システムおよび動作伝達方法
JP4853997B2 (ja) * 2005-08-17 2012-01-11 株式会社国際電気通信基礎技術研究所 エージェント学習装置、エージェント学習方法及びエージェント学習プログラム
JP2007125645A (ja) * 2005-11-04 2007-05-24 Hitachi Ltd ロボット動作編集システム
JP2007280054A (ja) * 2006-04-06 2007-10-25 Sony Corp 学習装置および学習方法、並びにプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9508268B2 (en) 2006-05-22 2016-11-29 Koninklijke Philips N.V. System and method of training a dysarthric speaker

Also Published As

Publication number Publication date
JP2010005761A (ja) 2010-01-14
US8078321B2 (en) 2011-12-13
US20090326710A1 (en) 2009-12-31

Similar Documents

Publication Publication Date Title
JP5313562B2 (ja) 行動制御システム
JP5329856B2 (ja) 行動推定システム
JP5489965B2 (ja) 行動制御システムおよびロボット
CN108876815B (zh) 骨骼姿态计算方法、人物虚拟模型驱动方法及存储介质
US8392346B2 (en) Reinforcement learning system
US9019278B2 (en) Systems and methods for animating non-humanoid characters with human motion data
JP5306313B2 (ja) ロボット制御装置
JP5465142B2 (ja) ロボットおよびその行動制御システム
JP5109098B2 (ja) 運動制御システム、運動制御方法および運動制御プログラム
JP5904635B2 (ja) 制御装置、制御方法及びロボット装置
JP6321905B2 (ja) 関節システムの制御方法、記憶媒体、制御システム
CN112428278A (zh) 机械臂的控制方法、装置及人机协同模型的训练方法
JP2010011926A (ja) ゴルフクラブのスイングシミュレーション方法
Koutras et al. A correct formulation for the orientation dynamic movement primitives for robot control in the cartesian space
JP2022543926A (ja) ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計
Koutras et al. Dynamic movement primitives for moving goals with temporal scaling adaptation
CN113070878B (zh) 基于脉冲神经网络的机器人控制方法、机器人及存储介质
Miyazaki et al. Learning to dynamically manipulate: A table tennis robot controls a ball and rallies with a human being
Seekircher et al. Motion capture and contemporary optimization algorithms for robust and stable motions on simulated biped robots
WO2019095108A1 (zh) 机器人的模仿学习方法、装置、机器人及存储介质
Yi et al. Active stabilization of a humanoid robot for real-time imitation of a human operator
JP5465129B2 (ja) ロボットおよび行動制御システム
JP2005271137A (ja) ロボット装置及びその制御方法
Qin et al. Distributed multiagent for NAO robot joint position control based on echo state network
CN117260701A (zh) 训练机器学习模型以实现控制规则的方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120726

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130415

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130704

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5313562

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees