JP2010005762A - 行動推定システム - Google Patents

行動推定システム Download PDF

Info

Publication number
JP2010005762A
JP2010005762A JP2008169534A JP2008169534A JP2010005762A JP 2010005762 A JP2010005762 A JP 2010005762A JP 2008169534 A JP2008169534 A JP 2008169534A JP 2008169534 A JP2008169534 A JP 2008169534A JP 2010005762 A JP2010005762 A JP 2010005762A
Authority
JP
Japan
Prior art keywords
behavior
trajectory
instructor
estimated
state variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008169534A
Other languages
English (en)
Other versions
JP5329856B2 (ja
Inventor
Nobumoto Iba
総司 射場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2008169534A priority Critical patent/JP5329856B2/ja
Priority to US12/487,225 priority patent/US8099374B2/en
Publication of JP2010005762A publication Critical patent/JP2010005762A/ja
Application granted granted Critical
Publication of JP5329856B2 publication Critical patent/JP5329856B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39254Behaviour controller, robot have feelings, learns behaviour

Abstract

【課題】インストラクタの行動態様の推定精度の向上を図ることができるシステムを提供する。
【解決手段】行動推定システム100によれば、インストラクタの動きを表わす基準軌道Pの特徴点の位置と、基準軌道Piの複数の形状特性のそれぞれを表わす複数の「第1モデル」のそれぞれとに加えて、状態変数の位置p(k)、変位速度v(k)およびその時間微分値α(k)が連続的に変化するようなインストラクタの動作を表わす「第2モデル」に基づき、エージェントの行動制御基礎となる推定軌道Qiが生成される。また、推定軌道Qiが特徴状態変数またはその近傍範囲を通過するという条件が満たされるように許容されている第1モデルの揺らぎが最小で安定度が最高の第1モデルに対応する行動態様がインストラクタの行動態様として推定される。
【選択図】 図1

Description

本発明はインストラクタの行動態様を推定するためのシステムに関する。
基準となる状態変数の軌道に基づいて実際の状況に適したエージェントの状態変数の軌道を生成するための手法として多項式、ベジエまたはアトラクタ等が利用されている。たとえば、力学系の状態空間においてアトラクタを設計し、エージェントとしてのヒューマノイドロボットの軌道がこのアトラクタに引き込まれることでロボットの安定な自律的運動が実現されることが報告されている(非特許文献1参照)。
岡田昌史 大里健太 中村仁彦「非線形力学系のアトラクタ設計によるヒューマノイドロボットの運動創発」計測自動学会論文集 vol.41,No.6,533/540(2005)
しかし、インストラクタの行動を手本としてエージェントの行動が制御されるにもかかわらず、このインストラクタの行動態様が誤って推定された場合、エージェントが指定されたタスクを実行することが困難となる。
そこで、本発明は、インストラクタの行動態様の推定精度の向上を図ることができるシステムを提供することを解決課題とする。
第1発明の行動推定システムは、インストラクタの行動態様を推定するためのシステムであって、前記インストラクタの動きに伴って変位する状態変数の一または複数の基準時点における位置を、一または複数の基準点の位置として認識する状態認識要素と、前記状態認識要素により認識された前記基準点の位置に基づき、前記インストラクタの複数の行動態様のそれぞれに対応する、前記状態変数の位置の時系列的な変化態様を表わす基準軌道のそれぞれの形状特性を表わす複数の第1モデルのそれぞれと、前記状態変数の位置およびその一または複数のn階時間微分値(n=1,2,‥)が連続的に変化するような前記インストラクタの動作を表わす第2モデルとにしたがって、前記状態変数の推定位置を時系列的に表わす複数の推定軌道を、前記推定軌道が前記基準点またはその近傍範囲を通過するという条件下で生成する軌道生成要素とを備え、前記第1モデルの揺らぎが許容され、前記軌道生成要素により前記複数の推定軌道が生成される過程における前記複第1モデルの安定度を前記累積揺らぎ量の多少に応じて評価し、前記安定度が最高である一の前記第1モデルに対応する行動態様を、前記インストラクタの行動態様として推定することを特徴とする。
第1発明の行動推定システムによれば、基準点の位置に基づき、それぞれの第1モデルと第2モデルとにしたがって状態変数の推定位置の時系列的な変化態様を表わす推定軌道が生成される。「基準点」の位置とはインストラクタの動きに伴って変位する状態変数の基準時点における位置を意味する。なお「状態変数」とはスカラーおよびベクトルを包含する概念であり、確率分布変数を包含する概念である。状態変数の「位置」とは当該状態変数により定義される空間における位置を意味する。「第1モデル」はインストラクタの異なる行動態様のそれぞれに対応する、状態変数の位置の時系列的な変化態様を表わす「基準軌道」のそれぞれの形状特性を表わしている。「第2モデル」は状態変数の位置およびその一または複数のn階時間微分値(n=1,2,‥)が連続的に変化するような前記インストラクタの動作を表わしている。このため、各推定軌道は、インストラクタが状態変数の位置およびその一または複数のn階時間微分値が連続になるような円滑な動きにより、ある行動態様をとったと仮定した場合における状態変数の位置の時系列的な変化態様を表わしている。推定軌道が基準点またはその近傍範囲を通過するように生成されるという条件下で第1モデルに揺らぎが許容されている。この累積揺らぎ量が小さい(すなわち安定度が高い)第1モデルは、インストラクタが行動したときの状態変数の位置の時系列的な変化態様を最も無理なくまたは円滑に再現しうるモデルである蓋然性が高い。したがって、安定度が高い第1モデルに対応する行動態様は、インストラクタの実際の行動態様に対応している蓋然性が高い。このため、安定度が最高の第1モデルに対応する行動態様がインストラクタの行動態様として推定されることにより、その推定精度の向上が図られる。
第2発明の行動推定システムは、第1発明の行動推定システムにおいて、前記軌道生成要素が、各時点における前記状態変数の位置を時系列的に順方向に推定することにより前記推定軌道として順方向推定軌道を生成するとともに、各時点における前記第2状態変数の位置を時系列的に逆方向に推定することにより前記推定軌道として逆方向推定軌道とを生成することを特徴とする。
第2発明の行動推定システムによれば、時系列順方向および逆方向のそれぞれについて、状態変数の推定位置の時系列的な変化態様を表わす順方向および逆方向推定軌道が生成される。当該2つの推定軌道のそれぞれはインストラクタが状態変数の位置およびその一または複数のn階時間微分値が連続になるような円滑な動きにより、ある行動態様をとったと仮定した場合における状態変数の位置の時系列的な順方向および逆方向のそれぞれへの変化態様を表わしている。前記のように累積揺らぎ量が小さい(すなわち安定度が高い)第1モデルは、インストラクタが行動したときの状態変数の位置の時系列的な変化態様を最も無理なくまたは円滑に再現しうるモデルである蓋然性が高い。したがって、順方向および逆方向推定軌道の生成に際して安定度が最高の第1モデルに対応する行動態様がインストラクタの行動態様として推定されることにより、その推定精度の向上が図られる。
第3発明の行動推定システムは、第1または第2発明の行動推定システムにおいて、前記軌道生成要素が、第1行動態様から第2行動態様に異なるタイミングで変化するような前記インストラクタの複数の行動態様のそれぞれに対応する前記複数の第1モデルのそれぞれに基づいて前記複数の推定軌道を生成することを特徴とする。
第3発明の行動推定システムによれば、行動態様が途中で変化する点で共通する一方、その変化タイミングが相違するさまざまな行動態様に対応する複数の第1モデルのそれぞれに基づき、複数の推定軌道が生成される。そして、前記のように当該複数の推定軌道のそれぞれが生成される際の安定度が最高の第1モデルに対応する行動態様がインストラクタの行動態様として推定される。これにより、第1行動態様から第2行動態様への変化タイミングの相違により区別されるインストラクタの行動態様の推定精度の向上が図られる。
第4発明の行動推定システムは、第3発明の行動推定システムにおいて、前記軌道生成要素が、前記軌道生成要素が、異なる時点で前記インストラクタが物体に力を作用させるための前記第1行動態様から、前記インストラクタが前記物体に力を作用させた後における前記第2行動態様に変化するような前記インストラクタの複数の行動態様のそれぞれに対応する前記複数の第1モデルのそれぞれに基づいて前記複数の推定軌道を生成することを特徴とする。
第4発明の行動推定システムによれば、前記のように複数の推定軌道のそれぞれが生成される際の第1モデルの安定度に基づき、第1行動態様から第2行動態様への変化タイミング、すなわち、インストラクタが物体に力を作用させたタイミングの相違により区別される行動態様の推定精度の向上が図られる。
第5発明の行動推定システムは、第1〜第4発明のうちいずれか1つの行動推定システムにおいて、前記軌道生成要素が、アトラクタおよびその引き込み点の位置により前記基準軌道の形状特性が定義され、かつ、前記引き込み点の変位により揺らぐ前記第1モデルを用いて前記推定軌道を生成し、前記行動推定システムが、前記アトラクタの引き込み点の累積変位量が少ないほど前記第1モデルの前記安定度を高く評価することを特徴とする。
第5発明の行動推定システムによれば、アトラクタの引き込み点の累積変位量が小さく安定度が高い第1モデルは、インストラクタが行動したときの状態変数の位置の時系列的な変化態様を最も無理なくまたは円滑に再現しうるモデルである蓋然性が高い。したがって、安定度が最高の第1モデルにしたがって生成された推定軌道に対応する行動態様がインストラクタの行動態様として推定されることにより、その推定精度の向上が図られる。
本発明の行動推定システムの実施形態について図面を用いて説明する。まず行動推定システムの構成について説明する。図1に示されている行動推定システム110は人間等のインストラクタの行動態様を推定するためのシステムである。図1に示されている行動制御システム120は行動推定システム110による推定結果に基づき、図2に示されているエージェントとしてのロボット1に搭載されているアクチュエータ1000の動作を制御することによりロボット1の行動を制御する。
ロボット1は脚式移動ロボットであり、人間と同様に基体10と、基体10の上部に設けられた頭部11と、基体10の上部左右両側から延設された左右の腕部12と、腕部12の先端部に設けられた手部14と、基体10の下部から下方に延設された左右の脚部13と、脚部13の先端部に取り付けられている足部15とを備えている。ロボット1は、再表03/090978号公報や、再表03/090979号公報に開示されているように、アクチュエータ1000から伝達される力によって、人間の肩関節、肘関節、手根関節、股関節、膝関節、足関節等の複数の関節に相当する複数の関節機構において腕部12や脚部13を屈伸運動させることができる。腕部12は肩関節機構を介して基体10に連結された第1腕リンクと、一端が第1腕リンクの端部に肘関節機構を介して連結され、他端が手根関節を介して手部14の付根部に連結されている第2腕リンクとを備えている。脚部13は股関節機構を介して基体10に連結された第1脚リンクと、一端が第1脚リンクの端部に膝関節機構を介して連結され、他端が足関節を介して足部15に連結されている第2脚リンクとを備えている。ロボット1は、左右の脚部13のそれぞれの離床および着床の繰り返しを伴う動きによって自律的に移動することができる。
行動推定システム110および行動制御システム120はロボット1に搭載されている電子制御ユニット(CPU,ROM,RAM,I/O回路等により構成されている。)またはコンピュータにより構成されている。なお、行動推定システム110がロボット1の外部コンピュータにより構成されている一方、行動制御システム120がこの外部コンピュータと無線または有線通信が可能なロボット1に搭載されているコンピュータにより構成されていてもよい。
行動推定システム110は状態認識要素111と、軌道生成要素112とを備えている。状態認識要素111は状態センサ102の出力信号に基づいて種々の状態変数の値を認識する。状態センサ102にはロボット1とは別個独立のモーションキャプチャーシステム(図示略)が含まれている。状態センサ102にはボール等のタスク実行に関連する物体の位置軌道を測定するため、頭部11に搭載されているステレオイメージセンサや、基体10に搭載されている赤外光を用いたアクティブ型センサ等が含まれる。
状態認識要素111は状態センサ102の出力信号に基づき、インストラクタの動きにより変位する状態変数の基準時点における位置を「基準点」の位置として認識する。軌道生成要素112は状態認識要素111により認識された「基準点」の位置と、複数の「第1モデル」のそれぞれと、「第2モデル」とに基づき、ロボット1の行動の制御基礎となる状態変数の位置を時系列的に表わす複数の「推定軌道」を生成する。行動推定システム110は軌道生成要素112により複数の推定軌道が生成される過程において、複数の第1モデルのそれぞれの安定度を評価し、安定度が最高の第1モデルに対応する行動態様をインストラクタの行動態様として推定する。行動推定システム110による推定結果は行動制御システム120に対して出力される。
なお、本発明を構成する「要素」は物理的には担当演算処理を実行するためのプログラムが保存または格納されているメモリと、このメモリからプログラムを読み出して当該担当演算処理を実行する演算処理装置(CPU)とにより構成されている。プログラムはCDやDVD等のソフトウェア記録媒体を通じてコンピュータにインストールされてもよいが、ロボット1からサーバに要求信号が送信されたことに応じて当該サーバによってネットワークや人工衛星を介して当該コンピュータにダウンロードされてもよい。本発明の構成要素が情報を「認識する」とは、当該構成要素が情報をデータベースから検索すること、メモリ等の記憶装置から情報を読み取ること、センサ等の出力信号に基づき情報を測定、算定、推定、判定すること、測定等された情報をメモリに格納すること等、当該情報をさらなる演算処理のために準備または用意するのに必要なあらゆる情報処理を実行することを意味する。行動推定システム110のうち一部(たとえば、状態認識要素111および軌道生成要素112)がロボット1の外部コンピュータにより構成されてもよい。
前記構成の行動推定システム110の機能について説明する。
まず本発明の第1実施形態としての行動推定システム110について説明する。第1実施形態の行動推定システム110は、図4(a)〜(c)に順に示されているようにインストラクタとしての人間が片手で持っているラケットをさまざまな様式で振るという複数の行動態様のうち、インストラクタが実際にとった行動態様を推定する。図4(a)(b)および(c)のそれぞれは、インストラクタがラケットを動かし始める直前の状態、ラケットを動かしている途中の状態、および、ラケットの動きを止めた状態のそれぞれを示している。
まず、状態認識要素111により、インストラクタの動きに伴って変位する状態変数の基準時点における位置が基準点の位置pCとして認識される(図3/S002)。具体的には、図4(a)に示されているようにインストラクタがラケットを振り始める直前の時点(速度および加速度が0から変化する直前の時点)t=0における状態変数の位置p(0)が基準点の位置pCとして認識される。また、図4(c)に示されているようにインストラクタがラケットを振り終わった直後の時点(速度および加速度が0に変化した時点)t=Nにおける状態変数の位置p(N)が基準点の位置pCとして測定される。
状態変数としてはたとえばラケット位置(トップの位置)が測定される。なお、ラケット位置に代えてまたは加えてインストラクタの手、肘、肩、膝等の指定箇所(ラケットなどその身につけているものを含む。)の位置が状態変数として測定されてもよく、特徴部分の変位速度または加速度等が状態変数として測定されてもよい。さらに、肩関節、肘関節、手根関節、膝関節等のインストラクタの指定関節の角度、角速度または角加速度が状態変数として測定されてもよい。また、指定箇所の位置、変位速度および加速度と、指定関節の角度、角速度および角加速度のうち任意の組み合わせが状態変数として認識されてもよい。
状態変数の位置は、状態センサ102としての光学式モーションキャプチャーシステムにより測定される。光学式モーションキャプチャーシステムによれば、インストラクタの周囲に配置された一または複数のカメラ(トラッカー)による、ラケット等の指定箇所に付されたマークの検出結果に基づいて状態変数の位置が測定される。なお、機械式、磁気式または慣性式モーションキャプチャーシステムにより状態変数の位置が測定されてもよい。機械式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数のポテンショメータからの当該インストラクタ人の各関節角度を表す出力信号に基づいて状態変数の位置が測定される。磁気式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数の磁気センサからの出力信号に基づいて状態変数の位置が測定される。慣性式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数の慣性モーメントセンサからの腕等の慣性モーメントを表す出力信号に基づいて状態変数の位置が測定される。
続いて、状態認識要素111により認識された基準点の位置pと、複数の「第1モデル」のそれぞれと「第2モデル」とに基づき、軌道生成要素112により複数の推定軌道Pi +およびPi -(i=1,2,‥,Y)が生成される(図3/S004)。「+」は擬似逆行列を意味する。
「第1モデル」はインストラクタの第i行動態様のそれぞれに対応する、状態変数の位置pの時系列的な変化態様を表わす基準軌道のそれぞれの形状特性を表わすモデルであり、具体的には、第iアトラクタ行列Riおよび第iアトラクタの引き込み点uiにより関係式(11)〜(12)にしたがって定義されている。
v(k)=Rip(k)-Riu(k)+Nivv) ..(11)
u(k+1)=u(k)+εi(k)+Niuu) ..(12)
関係式(11)はアトラクタの時点kにおける引き込み点u(k)を基準とする第2状態変数の位置p(k)の偏差の大小と、アトラクタ行列Riとに応じて時点kにおける第2状態変数の位置の変位速度v(k)の高低が定まることと、第2状態変数の位置の変位速度v(k)が確率分布(一般的にはガウス分布)Ni(μv,Σv)(μv=0,Σv:共分散行列)で表わされる揺らぎまたは不確定要素を有する連続確率変数であることとを表わしている。すなわち、第1モデルにしたがって時点kにおける第2状態変数の変位速度v(k)の高低および揺らぎの程度が定められる。関係式(12)はアトラクタの引き込み点u(k)が変位量εi(k)だけ変位することが許容されていることと、引き込み点u(k)が確率分布Ni(μu,Σu)(μu=0,Σu:共分散行列)で表わされる不確定要素を有する連続確率変数であることとを表わしている。なお、関係式(12)において右辺第2項が省略されてもよい。
「第2モデル」は、状態変数の位置p(k)、変位速度(位置の1回時間微分値)v(k)および加速度(位置の2階時間微分値)α(k)のそれぞれが円滑または連続的に変化するようなインストラクタの動作を表わすモデルであり、具体的には、関係式(21)〜(23)にしたがって定義されている。
p(k+1)=p(k)+v(k+1)+N(μpp) ..(21)
v(k+1)=v(k)+α(k+1)+N(μvv) ..(22)
α(k+1)= α(k)+β(k+1)+N(μαα) ..(23)
関係式(21)は状態変数の位置p(k)が滑らかに変化するという第2モデルの一側面を表わし、かつ、当該位置p(k)が確率分布N(μp,Σp)(μp=0,Σp:共分散行列)で表わされる不確定要素を有する連続確率変数であることを表わしている。また、関係式(22)は状態変数の位置の変位速度(位置の1階時間微分値)v(k)が滑らかに変化するという第2モデルの一側面を表わし、かつ、当該変位速度v(k)が確率分布N(μv,Σv)(μv=0,Σv:共分散行列)で表わされる不確定要素を有する連続確率変数であることを表わしている。さらに、関係式(23)は状態変数の位置の変位加速度(位置の2階時間微分値)α(k)が滑らかに変化するという第2モデルの一側面を表わし、かつ、当該変位加速度α(k)が確率分布N(μa,Σa)(μa=0,Σa:共分散行列)で表わされる不確定要素を有する連続確率変数であることを表わしている。ここで、β(k)は状態変数の位置の加加速度(位置の3階時間微分値(=d3p/dt3))である。なお、関係式(23)において右辺第2項が省略されてもよい。
第1モデルおよび第2モデルは、図6に示されているダイナミクスベイジアンネットワーク(DBN)により表現される確率遷移モデルを定義する。DBNによれば関係式(11)(12)(21)〜(23)が、各時点tにおける第2状態変数の位置pおよびアトラクタの引き込み点u等の状態変数を表わすノード(円)および条件確率によりこれらをつなぐ矢印により表現されている。また、関係式(11)(12)(21)〜(23)のそれぞれに対応する条件付確率は関係式(111)(112)(122)〜(123)のそれぞれにより表現される。
P(0|v(k),p(k),u(k))=N(v(k)-Rp(k)+Ru(k),0)=N(0,0) ..(111)
P(u(k+1)|u(k),ε(k))=N(u(k)+ε(k),Σu) ..(112)
P(p(k+1)|p(k),v(k+1))=N(p(k)+v(k+1),Σp) ..(121)
P(v(k+1)|v(k),α(k))=N(v(k)+α(k+1),Σv) ..(122)
P(α(k+1)|α(k),β(k))=N(α(k)+β(k+1),Σa) ..(123)
関係式(112)における状態変数ノードεは関係式(212)により表現される。関係式(123)における状態変数ノードβは関係式(223)により表現される。
P(ε(k))=N(0,Σε) ..(212)
P(β(k))=N(0,Σβ) ..(223)
続いて確率遷移モデルにしたがって複数の第i推定軌道Qiが生成される。具体的には、図6に示されているDBNにおいて、基準時点t=0およびt=Nのそれぞれにおける状態変数の位置p、速度v、加速度αおよび加加速度βが設定される。図4(a)に示されているようにインストラクタがラケットを動かし始める時点t=0におけるラケット位置等の指定箇所の測定位置が第1基準時点t=0の位置p(0)として決定される。また、第1基準時点t=0における速度v(0)、加速度α(0)および加加速度β(0)のノードはすべて「0」に設定される。図4(a)に示されているようにインストラクタがラケットの動きを止めた時点t=Nにおける指定箇所の測定位置が、第2基準時点t=Nの位置p(N)として設定される。また、第2基準時点t=Nにおける速度v(N)、加速度α(N)および加加速度β(N)はすべて「0」に設定される。
また、第1基準時点t=0から第2基準時点t=Nまでのノードが、関係式(11)(12)(21)〜(23)により表現される確率遷移モデルにしたがって、時系列的に順方向(先時点から後時点に向かう方向)に順次推定される。これにより、時系列順方向について状態変数の推定位置の変化態様を表わす順方向推定軌道Pi +が生成される。同様に第2基準時点t=Nから第1基準時点t=0までのノードが、確率遷移モデルにしたがって、時系列的に逆方向(後時点から先時点に向かう方向)に順次推定される。これにより、時系列的に逆方向について状態変数の推定位置の変化態様を表わす逆方向推定軌道Pi -が生成される。さらに、順方向推定軌道Pi +を基準として広がる許容通過範囲が設定され、かつ、逆方向推定軌道Pi -を基準として広がる許容通過範囲が設定される。そして、当該両方の許容通過範囲が合成されることにより合成許容範囲が設定され、各時点における状態変数の位置p(k)が合成許容通過範囲に収まるように学習軌道Piが生成される。
なお、DBNにおけるノードの推定方法としては前記方法(Belief Propagationと呼ばれている手法)のほか、Loopy Belief Propagation, variable elimination, Junction Tree, Impartance sampling, Hugin Algorithm, Shafer-Shanoy Algorithm, variational message passing, gibbs sampling等の方法が採用されてもよい。
推定軌道Qiの生成方法の理解の簡単のため、状態変数の位置p(k)が1次元(スカラー)であり、p(k+1)=Ap(k)(A=1.50)という関係式にしたがって推定される状況を考える。この状況においてt=0における状態変数の測定位置p(0)が1.00であり、かつ、t=3における状態変数の目標位置p(3)が5.00であると仮定する。この場合、図7(a)に示されているようにp+(0)(=p(0)),p+(1)(=Ap(0)),p+(2)(=A2p(0))およびp+(3)(=A3p(0))を順に経由する軌道が順方向指定軌道Pi +として生成される。その一方、図7(b)に示されているようにp-(3)(=p(3)),p-(2)(=A-1p(0)),p-(1)(=A-2p(0))およびp-(0)(=A-3p(0))を順に経由する軌道が逆方向推定軌道Pi -として生成される。
なお、図7(a)に示されているように時系列順方向について各時点における状態変数の推定位置p+(k)の条件付確率分布(一点鎖線)P(p+(k)|p(0)=1.00)(k=1,2,3)が、順方向推定軌道Pi +を基準として広がる各時点における許容通過範囲として算定される。また、図7(b)に示されているように時系列逆方向について各時点における第2状態変数の推定位置p-(k)の条件付確率分布(二点鎖線)P(p-(k)|p(3)=5.00)(k=2,1,0)が、逆方向推定軌道Pi -を基準として広がる各時点における許容通過範囲として算定される。そして、これら2つの条件付確率分布が合成され、その結果として条件付確率分布P(p(k)|p(0)=1.00,p(3)=5.00)(k=1,2)が合成許容通過範囲として算定される。これにより、図7(c)に示されているように各時点kにおける条件付確率が最高の位置p(0)=1.00、p(1)=1.842、p(2)=3.149およびp(3)=5.00を順に遷移する軌道が学習軌道Piとして派生的に生成される。この学習軌道Piは、後述するようにエージェントとしてのロボット1の行動制御の基礎となる。
具体的には、図8(a)に示されているように第1基準時点t=0から第2基準時点t=Nまで、第2状態変数の推定位置p+(0)(=p(0)),p+(1),p+(2),‥,p+(N)が時系列順方向(白矢印参照)に順次推定される。これにより、第2状態変数の推定位置p+(0),p+(1),p+(2),‥,p+(N)を順に経由する軌道が順方向推定軌道として生成される。また、図8(a)に示されているように第2基準時点t=Nから第1基準時点t=0まで、第2状態変数の推定位置p-(N)(=p(N)),p-(N−1),p-(N−2),‥,p-(0)が時系列逆方向(黒矢印参照)に推定される。これにより、第2状態変数の推定位置p-(N),p-(N−1),p-(N−2),‥,p-(0)を順に経由する軌道が逆方向推定軌道として生成される。
さらに、図8(b)に示されているように順方向推定軌道の各点p+(0),p+(1),p+(2),‥,p+(N)を中心とする確率分布(関係式(21)右辺第3項参照)と、逆方向推定軌道の各点p-(N),p-(N−1),p-(N−2),‥,p-(0)を中心とする確率分布とが重ね合わせられるまたは合成されることにより合成許容通過範囲が設定される。そして、斜線付矢印で示されているように状態変数の位置が各時点における合成許容通過範囲に収まるように学習軌道Piが生成される。図8(a)に一点鎖線で示されているように順方向推定軌道Pi +の各点を中心として許容通過範囲(確率分布範囲)が広がっている(図7(a)参照)。図8(a)に二点鎖線で示されているように逆方向推定軌道Pi -の各点を中心として許容通過範囲(確率分布範囲)が広がっている(図7(b)参照)。これら確率分布の重ね合わせの広がり度合が学習軌道Piの「許容通過範囲」に相当する(図7(c)参照)。
なお、順方向および逆方向の許容通過範囲がすべての時点において合成されるのではなく、たとえば、第1期間t=0〜kでは順方向の許容通過範囲を通過する第1部分軌道が生成され、第1期間に続く第2期間t=k+1〜Nでは逆方向の許容分布範囲を通過する第2部分軌道が生成され、当該第1部分軌道および第2部分軌道が円滑に接続されることにより学習軌道Piが生成されてもよい。また、第1期間t=0〜kでは順方向の許容通過範囲を通過する第1部分軌道が生成され、第1期間よりも後の第2期間t=k+c(c>1)〜Nでは逆方向の許容通過範囲を通過する第2部分軌道が生成され、当該第1部分軌道および第2部分軌道を円滑に接続するように期間t=k+1〜k+c−1での中間部分軌道が生成され、第1部分軌道、中間部分軌道および第2部分軌道が順に接続されることにより学習軌道Piが生成されてもよい。
さらに、軌道生成要素112により複数の順方向推定軌道Pi +および逆方向推定軌道Pi -の組み合わせが生成される過程において、行動推定システム110により複数の第1モデルのそれぞれの安定度が評価される(図3/S006)。具体的には、順方向推定軌道Pi +および逆方向推定軌道Pi -の生成過程において図8(b)に示されているように引き込み点が徐々に変位するが(関係式(12)参照)、この累積変位量または累積揺らぎ量が少ないほど第1モデルの安定度siが高く評価される。そして、安定度siが最高である一の第1モデルに対応する行動態様が、インストラクタの行動態様として推定される(図3/S008)。たとえば「ラケットをゆっくりと振る」または「ラケットを速く振る」等、状態変数位置の変位速度および加速度の高低により区別される行動態様や、「ラケットを大きく振る」または「ラケットを小さく振る」等、状態変数位置の変位量の多少により区別される行動態様や、「インストラクタの上から見て円弧を描くようにラケットを振る」「インストラクタを上から見てS字を描くようにラケットを振る」または「インストラクタを上から見て直線を描くようにラケットを振る」等、状態変数位置の軌道形状により区別される行動態様がインストラクタの行動態様として推定される。
また、軌道生成要素112により安定度siが最高の第1モデルに基づいて生成された学習軌道Piが行動制御システム120に出力される。そして、行動制御システム110により、状態変数の位置p(k)が学習軌道Piにしたがって変位するようにロボット1の動作が制御される(図3/S010)。具体的には、状態変数としてのラケット位置が学習軌道Piにしたがった態様で変位するようにアクチュエータ1000の動作が制御される。これにより、図5(a)〜(c)に順に示されているようにロボット1が片方の手部13で持っているラケットを振るように行動する。なお、インストラクタの動作スケールに対するロボット1の動作スケールの比率に基づき、学習軌道Piのスケールが調節されてもよい。たとえば、インストラクタの腕の長さに対する、ロボット1の腕部12の長さの比率がアトラクタ行列Riに乗じられることにより、学習軌道Piのスケールが調節されてもよい。また、インストラクタの腕の長さとインストラクタが用いるラケットの長さとの和に対する、ロボット1の腕部12の長さとロボット1が用いるラケットの長さとの和の比率がアトラクタ行列Riに乗じられることにより、学習軌道Piのスケールが調節されてもよい。
次に、本発明の第2実施形態としての行動推定システム110について説明する。第2実施形態の行動推定システム110は、図9(a)〜(c)に順に示されているようにインストラクタとしての人間がその前方から向かってくるボールを、片手で持っているラケットを使ってさまざまなタイミングで前方に打ち返すという複数の行動態様のうち、インストラクタのとった行動態様が推定される。図9(a)(b)および(c)のそれぞれは、インストラクタがラケットを動かし始める直前の状態、ラケットをボールに当てた状態、および、ラケットの動きを止めた状態のそれぞれを示している。
このような行動態様は、インストラクタがラケットにボールを当てた時点(インパクトの瞬間)、すなわち、インストラクタがボール(物体)に力を作用させる前後で行動態様が異なる可能性がある。このため、第2実施形態においては、インストラクタがラケットにボールを当てるための「第1行動態様」から、インストラクタがラケットにボールを当てた後の「第2行動態様」にさまざまな時点で遷移するようなインストラクタの行動態様を表わす複数の第1モデルが採用される。第1基準時点t=0から中間基準時点t=hまでの第1期間[t|0〜h(<N)]において「第1行動態様」に対応する第1アトラクタ行列R1および第1引き込み点u1(k)により基準軌道Piの形状特性が表わされるとともに、第1期間に続く第2基準時点t=Nまでの第2期間[t|h+1〜N]において「第2行動態様」に対応する第2アトラクタ行列R2および第2引き込み点u2(k)により基準軌道Piの形状特性が表わされるような第1モデルが採用される。複数の基準軌道Piは、第1行動態様から第2行動態様への遷移時点k=hの相違により区別される。これにより、図11に示されているようにさまざまな時点k=hを境としてアトラクタ行列が第1アトラクタ行列R1から第2アトラクタ行列R2に変化する確率遷移モデルが定義される。
その上で図12(a)に示されているように第1基準時点t=0から中間基準時点t=hの直前時点t=h−1まで、第2状態変数の位置p+(0)(=p(0)),p+(1),p+(2),‥,p+(h−1)が時系列順方向(白矢印参照)に順次推定される。また、同じく図12(a)に示されているように中間基準時点t=hから第2基準時点t=Nまで、第2状態変数の位置p+(h)(=p(h)),p+(h+1),p+(h+2),‥,p+(N)が時系列順方向(白矢印参照)に順次推定される。これにより、第2状態変数の推定位置p+(0),p+(1),‥,p+(h−1),p+(h),p+(h+1),‥,p+(N)を順に経由する軌道が順方向推定軌道として生成される。その一方、図12(a)に示されているように第2基準時点t=Nから中間基準時点t=hの直後時点t=h+1まで、第2状態変数の位置p-(N)(=p(N)),p-(N−1),p-(N−2),‥,p(h+1)が時系列逆方向(黒矢印参照)に順次推定される。さらに、同じく図12(a)に示されているように中間基準時点t=hから第1基準時点t=0まで、第2状態変数の位置p-(h)(=p(h)),p-(h−1),p-(h−2),‥,p-(0)が時系列逆方向(黒矢印参照)に順次推定される。これにより、第2状態変数の推定位置p-(N),p-(N−1),‥,p-(h+1),p-(h),p-(h−1),‥,p-(0)を順に経由する軌道が順方向推定軌道として生成される。そして、図12(b)に示されているように順方向推定軌道の各点p+(0),‥,p+(h−1),p+(h),p+(h+1),‥,p+(N)を中心とする確率分布と、逆方向推定軌道の各点p-(N),‥,p-(h+1),p-(h),p-(h−1),‥,p-(0)を中心とする確率分布とが重ね合わせられるまたは合成されることにより合成許容通過範囲が設定される。そして、斜線付矢印で示されているように第2状態変数の位置が各時点における合成許容通過範囲に収まるように推定軌道Pが生成される。図12(a)に一点鎖線で示されているように順方向推定軌道の各点を中心として許容通過範囲(確率分布範囲)が広がっている(図7(a)参照)。図12(a)に二点鎖線で示されているように逆方向推定軌道の各点を中心として許容通過範囲(確率分布範囲)が広がっている(図7(b)参照)。これら確率分布の重ね合わせの広がり度合が推定軌道Pの「許容通過範囲」に相当する(図7(c)参照)。
さらに、軌道生成要素112により複数の推定軌道Qiが生成される過程において、行動推定システム110により複数の第1モデルのそれぞれの安定度が評価される(図3/S006)。具体的には、推定軌道Qiの生成過程における第iアトラクタの引き込み点ui(k)の累積変位量が少ないほど第1モデルの安定度siが高く評価される。そして、安定度siが最高である一の第1モデルに対応する行動態様が、インストラクタの行動態様として推定される(図3/S008)。たとえば「ボールを打つ前はゆっくりと加速されるようにラケットを振り、ボールを打った後はゆっくりと減速されるようにラケットを振る」または「ボールを打つ前は急に加速された後でその速度が維持されるようにラケットを振り、ボールを打った後は急に減速されるようにラケットを振る」等、状態変数位置の変位速度および加速度の高低により区別される行動態様や、「ラケットを途中までは小さく振り、途中から大きく振る」または「ラケットを途中までは大きく振り、途中から小さく振る」等、状態変数位置の変位量の多少により区別される行動態様や、「インストラクタの上から見て途中まで直線を描くようにラケットを振り、途中から円弧を描くようにラケットを振る」または「インストラクタを上から見て途中まで円弧を描くようにラケットを振り、途中から直線を描くようにラケットを振る」等、状態変数位置の軌道形状により区別される行動態様がインストラクタの行動態様として推定される。
また、軌道生成要素112により安定度siが最高の第1モデルに基づいて生成された推定軌道Qiが行動制御システム120に出力される。そして、行動制御システム110により、状態変数の位置が学習軌道としての推定軌道Qiにしたがって変位するようにロボット1の動作が制御される(図3/S010)。具体的には、モーションキャプチャーシステムまたはロボット1に搭載されているイメージセンサによるボールの検知結果に基づき、ロボット1に向かって飛んでくるボールの位置および速度が測定され、この測定結果に基づいてラケットにボールを当てる中間基準時点t=hにおける状態変数の位置p(h)が予測される。また、学習軌道Piにおいて行動態様が変化する時点における状態変数の位置p(h)が当該予測状態変数位置に一致するようにロボット1の位置および姿勢が適宜調節される。その上で、状態変数としてのラケット位置が学習軌道Piにしたがった態様で変位するようにアクチュエータ1000の動作が制御される。これにより、図10(a)〜(c)に順に示されているようにロボット1がその前方から向かってくるボールを、片手で持っているラケットを使ってフォアハンドで前方に打ち返すように行動する。
前記機能を発揮する第1および第2実施形態の行動推定システム110によれば、基準点の位置pCに基づき、それぞれの第1モデルと第2モデルとにしたがって状態変数の推定位置の時系列的な変化態様を表わす推定軌道Pi +およびPi -が生成される(図3/S004,図8(a)/白矢印および黒矢印、図12(a)/白矢印および黒矢印参照)。「第1モデル」はインストラクタの異なる行動態様のそれぞれに対応する、状態変数の位置の時系列的な変化態様を表わす「基準軌道」のそれぞれの形状特性を表わしている(関係式(11)(12)、図6参照)。「第2モデル」は状態変数の位置およびその一または複数のn階時間微分値(n=1,2,‥)(前記実施形態では1階時間微分値(速度v(k))および2階時間微分値(加速度α(k)))が連続的に変化するような前記インストラクタの動作を表わしている(関係式(21)〜(23)、図6参照)。このため、各推定軌道Pi +およびPi -は、インストラクタが状態変数の位置p(k)、速度v(k)および加速度α(k)が連続になるような円滑な動きにより、ある行動態様をとったと仮定した場合における状態変数の位置p(k)の時系列的な変化態様を表わしている。推定軌道Pi +およびPi -が基準点pCまたはその近傍範囲を通過するように生成されるという条件下で第1モデルに揺らぎが許容されている(関係式(12)参照)。この累積揺らぎ量が小さい(すなわち安定度siが高い)第1モデルは、インストラクタが行動したときの状態変数の位置の時系列的な変化態様を最も無理なくまたは円滑に再現しうるモデルである蓋然性が高い。したがって、安定度siが高い第1モデルに対応する行動態様は、インストラクタの実際の行動態様に対応している蓋然性が高い。このため、安定度siが最高の第1モデルに対応する行動態様がインストラクタの行動態様として推定されることにより、その推定精度の向上が図られる。
また、第2実施形態の行動推定システムによれば、行動態様が途中で変化する点で共通する一方、その変化タイミングk=hが相違するさまざまな行動態様に対応する複数の第1モデルのそれぞれに基づき、複数の推定軌道Piが生成される(図11、図12(a)(b)参照)。そして、前記のように当該複数の推定軌道Piのそれぞれが生成される際の安定度siが最高の第1モデルに対応する行動態様がインストラクタの行動態様として推定される。これにより、第1行動態様から第2行動態様への変化タイミング、具体的には、インストラクタが物体に力を作用させたタイミングの相違により区別される行動態様の推定精度の向上が図られる。
なお、ラケットを振る、または、ラケットでボールを打ち返すという行動態様のほか、腕および脚の動きを伴うダンス、物体の運搬等、さまざまなインストラクタの行動態様が推定されてもよい。また、物体に力を作用させる前と、物体に力を作用させた後とで行動態様が変化するようなインストラクタの行動態様として、インストラクタがラケットにボール(物体)を当てるという行動態様のほか、インストラクタが片手または両手の柱などの物体への接触および離反を繰り返すような作業をする、あるいは、インストラクタが片脚または両脚の着床および離床を繰り返すように床(物体)の上で歩行、走行またはタップダンスをする等の行動態様が推定されてもよい。
本発明の行動推定システムの構成説明図 エージェントとしてのロボットの構成説明図 行動推定方法を示すフローチャート インストラクタの動作に関する説明図(第1実施形態) ロボットの動作に関する説明図(第1実施形態) 確率遷移モデル(DBN)に関する説明図(第1実施形態) 確率遷移モデルにおけるノードを埋める方法に関する説明図 推定軌道の生成方法に関する説明図(第1実施形態) インストラクタの動作に関する説明図(第2実施形態) ロボットの動作に関する説明図(第2実施形態) 確率遷移モデル(DBN)に関する説明図(第2実施形態) 推定軌道の生成方法に関する説明図(第2実施形態)
符号の説明
1‥ロボット(エージェント)、110‥行動推定システム、111‥状態認識要素、112‥軌道生成要素、120‥行動制御システム、1000‥アクチュエータ

Claims (5)

  1. インストラクタの行動態様を推定するためのシステムであって、
    前記インストラクタの動きに伴って変位する状態変数の一または複数の基準時点における位置を、一または複数の基準点の位置として認識する状態認識要素と、
    前記状態認識要素により認識された前記基準点の位置に基づき、前記インストラクタの複数の行動態様のそれぞれに対応する、前記状態変数の位置の時系列的な変化態様を表わす基準軌道のそれぞれの形状特性を表わす複数の第1モデルのそれぞれと、前記状態変数の位置およびその一または複数のn階時間微分値(n=1,2,‥)が連続的に変化するような前記インストラクタの動作を表わす第2モデルとにしたがって、前記状態変数の推定位置を時系列的に表わす複数の推定軌道を、前記推定軌道が前記基準点またはその近傍範囲を通過するという条件下で生成する軌道生成要素とを備え、
    前記第1モデルの揺らぎが許容され、前記軌道生成要素により前記複数の推定軌道が生成される過程における前記複第1モデルの安定度を前記累積揺らぎ量の多少に応じて評価し、前記安定度が最高である一の前記第1モデルに対応する行動態様を、前記インストラクタの行動態様として推定することを特徴とする行動推定システム。
  2. 請求項1記載の行動推定システムにおいて、前記軌道生成要素が、各時点における前記状態変数の位置を時系列的に順方向に推定することにより前記推定軌道として順方向推定軌道を生成するとともに、各時点における前記第2状態変数の位置を時系列的に逆方向に推定することにより前記推定軌道として逆方向推定軌道とを生成することを特徴とする行動推定システム。
  3. 請求項1または2記載の行動推定システムにおいて、前記軌道生成要素が、異なる時点で第1行動態様から第2行動態様に変化するような前記インストラクタの複数の行動態様のそれぞれに対応する前記複数の第1モデルのそれぞれに基づいて前記複数の推定軌道を生成することを特徴とする行動推定システム。
  4. 請求項3記載の行動推定システムにおいて、
    前記軌道生成要素が、異なる時点で前記インストラクタが物体に力を作用させるための前記第1行動態様から、前記インストラクタが前記物体に力を作用させた後における前記第2行動態様に変化するような前記インストラクタの複数の行動態様のそれぞれに対応する前記複数の第1モデルのそれぞれに基づいて前記複数の推定軌道を生成することを特徴とする行動推定システム。
  5. 請求項1〜4のうちいずれか1つに記載の行動推定システムにおいて、前記軌道生成要素が、アトラクタおよびその引き込み点の位置により前記基準軌道の形状特性が定義され、かつ、前記引き込み点の変位により揺らぐ前記第1モデルを用いて前記推定軌道を生成し、
    前記行動推定システムが、前記アトラクタの引き込み点の累積変位量が少ないほど前記第1モデルの前記安定度を高く評価することを特徴とする行動推定システム。
JP2008169534A 2008-06-27 2008-06-27 行動推定システム Expired - Fee Related JP5329856B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008169534A JP5329856B2 (ja) 2008-06-27 2008-06-27 行動推定システム
US12/487,225 US8099374B2 (en) 2008-06-27 2009-06-18 Behavior estimating system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008169534A JP5329856B2 (ja) 2008-06-27 2008-06-27 行動推定システム

Publications (2)

Publication Number Publication Date
JP2010005762A true JP2010005762A (ja) 2010-01-14
JP5329856B2 JP5329856B2 (ja) 2013-10-30

Family

ID=41448386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008169534A Expired - Fee Related JP5329856B2 (ja) 2008-06-27 2008-06-27 行動推定システム

Country Status (2)

Country Link
US (1) US8099374B2 (ja)
JP (1) JP5329856B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013143134A (ja) * 2012-01-11 2013-07-22 Honda Research Inst Europe Gmbh 交通に参加するオブジェクトを監視し、予測するコンピュータを備える乗り物
USD812122S1 (en) * 2016-01-29 2018-03-06 Softbank Robotics Europe Robot hand
CN111195906A (zh) * 2018-11-20 2020-05-26 西门子工业软件有限公司 用于预测机器人的运动轨迹的方法和系统

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5109098B2 (ja) * 2007-06-14 2012-12-26 本田技研工業株式会社 運動制御システム、運動制御方法および運動制御プログラム
TW201031507A (en) * 2009-02-25 2010-09-01 Micro Star Int Co Ltd Control apparatus of a multi-axial joint and control method thereof
US8527217B2 (en) * 2009-09-08 2013-09-03 Dynamic Athletic Research Institute, Llc Apparatus and method for physical evaluation
JP5489965B2 (ja) * 2009-12-24 2014-05-14 本田技研工業株式会社 行動制御システムおよびロボット
JP5465142B2 (ja) * 2010-09-27 2014-04-09 本田技研工業株式会社 ロボットおよびその行動制御システム
US9573276B2 (en) * 2012-02-15 2017-02-21 Kenneth Dean Stephens, Jr. Space exploration with human proxy robots
US8843236B2 (en) * 2012-03-15 2014-09-23 GM Global Technology Operations LLC Method and system for training a robot using human-assisted task demonstration
JP5908350B2 (ja) 2012-06-21 2016-04-26 本田技研工業株式会社 行動制御システム
CN105009027B (zh) * 2012-12-03 2018-09-04 纳维森斯有限公司 用于估计对象的运动的系统和方法
US9283678B2 (en) * 2014-07-16 2016-03-15 Google Inc. Virtual safety cages for robotic devices
US10676022B2 (en) 2017-12-27 2020-06-09 X Development Llc Visually indicating vehicle caution regions
CN112395542B (zh) * 2020-11-19 2024-02-20 西安电子科技大学 全轨迹位置误差的评估方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324036A (ja) * 1992-05-18 1993-12-07 Nippon Telegr & Teleph Corp <Ntt> 経路関数逐次生成方法
JPH11198075A (ja) * 1998-01-08 1999-07-27 Mitsubishi Electric Corp 行動支援装置
JP2002127058A (ja) * 2000-10-26 2002-05-08 Sanyo Electric Co Ltd 訓練ロボット、訓練ロボットシステムおよび訓練ロボットの制御方法
JP2003094363A (ja) * 2001-09-27 2003-04-03 Honda Motor Co Ltd 多関節ロボットの姿勢決定方法および装置
JP2006146435A (ja) * 2004-11-17 2006-06-08 Univ Waseda 動作伝達システムおよび動作伝達方法
JP2007052589A (ja) * 2005-08-17 2007-03-01 Advanced Telecommunication Research Institute International エージェント学習装置、エージェント学習方法及びエージェント学習プログラム
JP2007125645A (ja) * 2005-11-04 2007-05-24 Hitachi Ltd ロボット動作編集システム
JP2007280054A (ja) * 2006-04-06 2007-10-25 Sony Corp 学習装置および学習方法、並びにプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324036A (ja) * 1992-05-18 1993-12-07 Nippon Telegr & Teleph Corp <Ntt> 経路関数逐次生成方法
JPH11198075A (ja) * 1998-01-08 1999-07-27 Mitsubishi Electric Corp 行動支援装置
JP2002127058A (ja) * 2000-10-26 2002-05-08 Sanyo Electric Co Ltd 訓練ロボット、訓練ロボットシステムおよび訓練ロボットの制御方法
JP2003094363A (ja) * 2001-09-27 2003-04-03 Honda Motor Co Ltd 多関節ロボットの姿勢決定方法および装置
JP2006146435A (ja) * 2004-11-17 2006-06-08 Univ Waseda 動作伝達システムおよび動作伝達方法
JP2007052589A (ja) * 2005-08-17 2007-03-01 Advanced Telecommunication Research Institute International エージェント学習装置、エージェント学習方法及びエージェント学習プログラム
JP2007125645A (ja) * 2005-11-04 2007-05-24 Hitachi Ltd ロボット動作編集システム
JP2007280054A (ja) * 2006-04-06 2007-10-25 Sony Corp 学習装置および学習方法、並びにプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6013031230; Ross, S.; Chaib-draa, B.; Pineau, J.: 'Bayesian reinforcement learning in continuous POMDPs with application to robot navigation' Robotics and Automation, 2008. ICRA 2008. IEEE International Conference on , 20080523, 2845 - 2851 *
JPN6013031231; 稲邑 哲也: 'ロボティクスにおけるベイジアンネットの応用' 人工知能学会誌 17(5), 20020901, 546-552 *
JPN6013031233; 小川原 光一、射場 総司、田貫 富和、木村 浩、池内 克史: '9眼ステレオとデータグローブを用いたロボットによる人間行動の認識と再現' 情報処理学会研究報告. CVIM, [コンピュータビジョンとイメージメディア] 2000(50), 20000531, 57-64 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013143134A (ja) * 2012-01-11 2013-07-22 Honda Research Inst Europe Gmbh 交通に参加するオブジェクトを監視し、予測するコンピュータを備える乗り物
USD812122S1 (en) * 2016-01-29 2018-03-06 Softbank Robotics Europe Robot hand
CN111195906A (zh) * 2018-11-20 2020-05-26 西门子工业软件有限公司 用于预测机器人的运动轨迹的方法和系统
CN111195906B (zh) * 2018-11-20 2023-11-28 西门子工业软件有限公司 用于预测机器人的运动轨迹的方法和系统

Also Published As

Publication number Publication date
US8099374B2 (en) 2012-01-17
US20090326679A1 (en) 2009-12-31
JP5329856B2 (ja) 2013-10-30

Similar Documents

Publication Publication Date Title
JP5329856B2 (ja) 行動推定システム
JP5313562B2 (ja) 行動制御システム
JP5489965B2 (ja) 行動制御システムおよびロボット
US8392346B2 (en) Reinforcement learning system
JP5465142B2 (ja) ロボットおよびその行動制御システム
JP5109098B2 (ja) 運動制御システム、運動制御方法および運動制御プログラム
JP6321905B2 (ja) 関節システムの制御方法、記憶媒体、制御システム
CN112428278A (zh) 机械臂的控制方法、装置及人机协同模型的训练方法
JP2007061121A (ja) 身体の動作解析方法、システムおよびプログラム
Krug et al. Model predictive motion control based on generalized dynamical movement primitives
JP2022543926A (ja) ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計
Koutras et al. Dynamic movement primitives for moving goals with temporal scaling adaptation
Miyazaki et al. Learning to dynamically manipulate: A table tennis robot controls a ball and rallies with a human being
Obo et al. Imitation learning for daily exercise support with robot partner
Vogt et al. Learning two-person interaction models for responsive synthetic humanoids
WO2019095108A1 (zh) 机器人的模仿学习方法、装置、机器人及存储介质
Seekircher et al. Motion capture and contemporary optimization algorithms for robust and stable motions on simulated biped robots
US20220143822A1 (en) Method for robotic training based on randomization of surface damping
US20220143821A1 (en) Method for robotic training based on randomization of surface stiffness
JP5465129B2 (ja) ロボットおよび行動制御システム
Zimmerman Neural network based obstacle avoidance using simulated sensor data
JP2009245195A (ja) 自律移動ロボット及びその障害物識別方法
Taniguchi et al. Simultaneous localization, mapping and self-body shape estimation by a mobile robot
Bormann et al. Developing a reactive and dynamic kicking engine for humanoid robots
de Jong et al. Learning to walk with a soft actor-critic approach

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130725

R150 Certificate of patent or registration of utility model

Ref document number: 5329856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees