JP5329856B2 - 行動推定システム - Google Patents

行動推定システム Download PDF

Info

Publication number
JP5329856B2
JP5329856B2 JP2008169534A JP2008169534A JP5329856B2 JP 5329856 B2 JP5329856 B2 JP 5329856B2 JP 2008169534 A JP2008169534 A JP 2008169534A JP 2008169534 A JP2008169534 A JP 2008169534A JP 5329856 B2 JP5329856 B2 JP 5329856B2
Authority
JP
Japan
Prior art keywords
behavior
state variable
instructor
estimated
trajectory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008169534A
Other languages
English (en)
Other versions
JP2010005762A (ja
Inventor
総司 射場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2008169534A priority Critical patent/JP5329856B2/ja
Priority to US12/487,225 priority patent/US8099374B2/en
Publication of JP2010005762A publication Critical patent/JP2010005762A/ja
Application granted granted Critical
Publication of JP5329856B2 publication Critical patent/JP5329856B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39254Behaviour controller, robot have feelings, learns behaviour

Description

本発明はインストラクタの行動態様を推定するためのシステムに関する。
基準となる状態変数の軌道に基づいて実際の状況に適したエージェントの状態変数の軌道を生成するための手法として多項式、ベジエまたはアトラクタ等が利用されている。たとえば、力学系の状態空間においてアトラクタを設計し、エージェントとしてのヒューマノイドロボットの軌道がこのアトラクタに引き込まれることでロボットの安定な自律的運動が実現されることが報告されている(非特許文献1参照)。
岡田昌史 大里健太 中村仁彦「非線形力学系のアトラクタ設計によるヒューマノイドロボットの運動創発」計測自動学会論文集 vol.41,No.6,533/540(2005)
しかし、インストラクタの行動を手本としてエージェントの行動が制御されるにもかかわらず、このインストラクタの行動態様が誤って推定された場合、エージェントが指定されたタスクを実行することが困難となる。
そこで、本発明は、インストラクタの行動態様の推定精度の向上を図ることができるシステムを提供することを解決課題とする。
第1発明の行動推定システムは、
インストラクタの行動態様を推定するためのシステムであって、前記インストラクタの動きに伴って変位する状態変数の一または複数の基準時点における位置を、一または複数の基準点の位置として認識する状態認識要素と、前記状態認識要素により認識された前記基準点の位置と、前記インストラクタの複数の行動態様のそれぞれに対応する複数の第1モデルのそれぞれと、第2モデルとに基づき、前記状態変数の推定位置を時系列的に表わす複数の推定軌道を、前記推定軌道が前記基準点またはその近傍範囲を通過するという条件下で生成する軌道生成要素とを備え、前記複数の第1モデルのそれぞれが、アトラクタの引き込み点を基準とする前記状態変数の位置の各時点における偏差の大小と、アトラクタ行列と、確率分布であらわされる不確定要素とに応じて前記状態変数の位置の各時点における変位速度が連続確率変数として定義され、かつ、前記アトラクタの引き込み点が確率分布で表わされる不確定要素を有する連続確率変数として定義されているモデルであり、前記第2モデルが、前記状態変数の今回位置が前記状態変数の前回位置および今回速度により表わされ、前記状態変数の1または各n階時間微分の今回値(n=1,2,‥)が、前記状態変数の1または各n階時間微分の前回値と、前記状態変数の2または各n+1階時間微分の今回値とにより表わされ、かつ、前記状態変数の位置及びその1または各n階時間微分値のそれぞれが確率分布で表わされる不確定要素を有する連続確率変数として定義されているモデルであり、前記軌道生成要素により前記複数の推定軌道が生成される過程における前記引き込み点の時間的な累積変位量が少ないほど前記第1モデルの安定度が高くなるように前記複数の第1モデルのそれぞれの安定度を評価し、前記安定度が最高である一の前記第1モデルに対応する行動態様を、前記インストラクタの行動態様として推定することを特徴とする。
第1発明の行動推定システムによれば、基準点の位置複数の第1モデルのそれぞれ第2モデルとに基づき、状態変数の推定位置の時系列的な変化態様を表わす推定軌道が生成される。「基準点」の位置とはインストラクタの動きに伴って変位する状態変数の基準時点における位置を意味する。なお「状態変数」とはスカラーおよびベクトルを包含する概念であり、確率分布変数を包含する概念である。状態変数の「位置」とは当該状態変数により定義される空間における位置を意味する。
「第1モデル」はインストラクタの異なる行動態様のそれぞれに対応する、状態変数の位置の時系列的な変化態様を表わす「基準軌道」のそれぞれの形状特性を表わしている。「第2モデル」は状態変数の位置およびその一または複数のn階時間微分値(n=1,2,‥)が連続的に変化するような前記インストラクタの動作を表わしている。このため、各推定軌道は、インストラクタが状態変数の位置およびその一または複数のn階時間微分値が連続になるような円滑な動きにより、ある行動態様をとったと仮定した場合における状態変数の位置の時系列的な変化態様を表わしている。
推定軌道が基準点またはその近傍範囲を通過するように生成されるという条件下で第1モデルに揺らぎ、具体的にはアトラクタの引き込み点の変位が許容されている。この引き込み点の時間的な累積変位量が小さい(すなわち安定度が高い)第1モデルは、インストラクタが行動したときの状態変数の位置の時系列的な変化態様を最も無理なくまたは円滑に再現しうるモデルである蓋然性が高い。したがって、安定度が高い第1モデルに対応する行動態様は、インストラクタの実際の行動態様に対応している蓋然性が高い。このため、安定度が最高の第1モデルに対応する行動態様がインストラクタの行動態様として推定されることにより、その推定精度の向上が図られる。
第2発明の行動推定システムは、第1発明の行動推定システムにおいて、前記軌道生成要素が、各時点における前記状態変数の位置を時系列的に順方向に推定することにより前記推定軌道として順方向推定軌道を生成するとともに、各時点における前記状態変数の位置を時系列的に逆方向に推定することにより前記推定軌道として逆方向推定軌道とを生成することを特徴とする。
第2発明の行動推定システムによれば、時系列順方向および逆方向のそれぞれについて、状態変数の推定位置の時系列的な変化態様を表わす順方向および逆方向推定軌道が生成される。当該2つの推定軌道のそれぞれはインストラクタが状態変数の位置およびその一または複数のn階時間微分値が連続になるような円滑な動きにより、ある行動態様をとったと仮定した場合における状態変数の位置の時系列的な順方向および逆方向のそれぞれへの変化態様を表わしている。前記のように累積揺らぎ量が小さい(すなわち安定度が高い)第1モデルは、インストラクタが行動したときの状態変数の位置の時系列的な変化態様を最も無理なくまたは円滑に再現しうるモデルである蓋然性が高い。したがって、順方向および逆方向推定軌道の生成に際して安定度が最高の第1モデルに対応する行動態様がインストラクタの行動態様として推定されることにより、その推定精度の向上が図られる。
第3発明の行動推定システムは、第1または第2発明の行動推定システムにおいて、前記軌道生成要素が、前記インストラクタの第1行動態様から第2行動態様への変化を伴う行動態様であって、前記第1行動態様から前記第2行動態様に変化する時点が異なる複数の行動態様のそれぞれに対応する前記複数の第1モデルのそれぞれに基づいて前記複数の推定軌道を生成することを特徴とする。
第3発明の行動推定システムによれば、行動態様が途中で変化する点で共通する一方、その変化タイミングが相違するさまざまな行動態様に対応する複数の第1モデルのそれぞれに基づき、複数の推定軌道が生成される。そして、前記のように当該複数の推定軌道のそれぞれが生成される際の安定度が最高の第1モデルに対応する行動態様がインストラクタの行動態様として推定される。これにより、第1行動態様から第2行動態様への変化タイミングの相違により区別されるインストラクタの行動態様の推定精度の向上が図られる。
第4発明の行動推定システムは、第3発明の行動推定システムにおいて、前記軌道生成要素が、前記インストラクタの第1行動態様から第2行動態様への変化を伴う行動態様であって、前記インストラクタが物体に力を作用させるための前記第1行動態様から、前記インストラクタが前記物体に力を作用させた後における前記第2行動態様に変化する時点が異なる複数の行動態様のそれぞれに対応する前記複数の第1モデルのそれぞれに基づいて前記複数の推定軌道を生成することを特徴とする。
第4発明の行動推定システムによれば、前記のように複数の推定軌道のそれぞれが生成される際の第1モデルの安定度に基づき、第1行動態様から第2行動態様への変化タイミング、すなわち、インストラクタが物体に力を作用させたタイミングの相違により区別される行動態様の推定精度の向上が図られる。
本発明の行動推定システムの実施形態について図面を用いて説明する。まず行動推定システムの構成について説明する。図1に示されている行動推定システム110は人間等のインストラクタの行動態様を推定するためのシステムである。図1に示されている行動制御システム120は行動推定システム110による推定結果に基づき、図2に示されているエージェントとしてのロボット1に搭載されているアクチュエータ1000の動作を制御することによりロボット1の行動を制御する。
ロボット1は脚式移動ロボットであり、人間と同様に基体10と、基体10の上部に設けられた頭部11と、基体10の上部左右両側から延設された左右の腕部12と、腕部12の先端部に設けられた手部13と、基体10の下部から下方に延設された左右の脚部14と、脚部14の先端部に取り付けられている足部15とを備えている。ロボット1は、再表03/090978号公報や、再表03/090979号公報に開示されているように、アクチュエータ1000から伝達される力によって、人間の肩関節、肘関節、手根関節、股関節、膝関節、足関節等の複数の関節に相当する複数の関節機構において腕部12や脚部14を屈伸運動させることができる。
腕部12は肩関節機構を介して基体10に連結された第1腕リンクと、一端が第1腕リンクの端部に肘関節機構を介して連結され、他端が手根関節を介して手部13の付根部に連結されている第2腕リンクとを備えている。脚部14は股関節機構を介して基体10に連結された第1脚リンクと、一端が第1脚リンクの端部に膝関節機構を介して連結され、他端が足関節を介して足部15に連結されている第2脚リンクとを備えている。ロボット1は、左右の脚部14のそれぞれの離床および着床の繰り返しを伴う動きによって自律的に移動することができる。
行動推定システム110および行動制御システム120はロボット1に搭載されている電子制御ユニット(CPU,ROM,RAM,I/O回路等により構成されている。)またはコンピュータにより構成されている。なお、行動推定システム110がロボット1の外部コンピュータにより構成されている一方、行動制御システム120がこの外部コンピュータと無線または有線通信が可能なロボット1に搭載されているコンピュータにより構成されていてもよい。
行動推定システム110は状態認識要素111と、軌道生成要素112とを備えている。状態認識要素111は状態センサ102の出力信号に基づいて種々の状態変数の値を認識する。状態センサ102にはロボット1とは別個独立のモーションキャプチャーシステム(図示略)が含まれている。状態センサ102にはボール等のタスク実行に関連する物体の位置軌道を測定するため、頭部11に搭載されているステレオイメージセンサや、基体10に搭載されている赤外光を用いたアクティブ型センサ等が含まれる。
状態認識要素111は状態センサ102の出力信号に基づき、インストラクタの動きにより変位する状態変数の基準時点における位置を「基準点」の位置として認識する。軌道生成要素112は状態認識要素111により認識された「基準点」の位置と、複数の「第1モデル」のそれぞれと、「第2モデル」とに基づき、ロボット1の行動の制御基礎となる状態変数の位置を時系列的に表わす複数の「推定軌道」を生成する。行動推定システム110は軌道生成要素112により複数の推定軌道が生成される過程において、複数の第1モデルのそれぞれの安定度を評価し、安定度が最高の第1モデルに対応する行動態様をインストラクタの行動態様として推定する。行動推定システム110による推定結果は行動制御システム120に対して出力される。
なお、本発明を構成する「要素」は物理的には担当演算処理を実行するためのプログラムが保存または格納されているメモリと、このメモリからプログラムを読み出して当該担当演算処理を実行する演算処理装置(CPU)とにより構成されている。プログラムはCDやDVD等のソフトウェア記録媒体を通じてコンピュータにインストールされてもよいが、ロボット1からサーバに要求信号が送信されたことに応じて当該サーバによってネットワークや人工衛星を介して当該コンピュータにダウンロードされてもよい。
本発明の構成要素が情報を「認識する」とは、当該構成要素が情報をデータベースから検索すること、メモリ等の記憶装置から情報を読み取ること、センサ等の出力信号に基づき情報を測定、算定、推定、判定すること、測定等された情報をメモリに格納すること等、当該情報をさらなる演算処理のために準備または用意するのに必要なあらゆる情報処理を実行することを意味する。行動推定システム110のうち一部(たとえば、状態認識要素111および軌道生成要素112)がロボット1の外部コンピュータにより構成されてもよい。
前記構成の行動推定システム110の機能について説明する。
まず本発明の第1実施形態としての行動推定システム110について説明する。第1実施形態の行動推定システム110は、図4(a)〜(c)に順に示されているようにインストラクタとしての人間が片手で持っているラケットをさまざまな様式で振るという複数の行動態様のうち、インストラクタが実際にとった行動態様を推定する。図4(a)(b)および(c)のそれぞれは、インストラクタがラケットを動かし始める直前の状態、ラケットを動かしている途中の状態、および、ラケットの動きを止めた状態のそれぞれを示している。
まず、状態認識要素111により、インストラクタの動きに伴って変位する状態変数の基準時点における位置が基準点の位置pCとして認識される(図3/S002)。具体的には、図4(a)に示されているようにインストラクタがラケットを振り始める直前の時点(速度および加速度が0から変化する直前の時点)t=0における状態変数の位置p(0)が基準点の位置pCとして認識される。また、図4(c)に示されているようにインストラクタがラケットを振り終わった直後の時点(速度および加速度が0に変化した時点)t=Nにおける状態変数の位置p(N)が基準点の位置pCとして測定される。
状態変数としてはたとえばラケット位置(トップの位置)が測定される。なお、ラケット位置に代えてまたは加えてインストラクタの手、肘、肩、膝等の指定箇所(ラケットなどその身につけているものを含む。)の位置が状態変数として測定されてもよく、特徴部分の変位速度または加速度等が状態変数として測定されてもよい。さらに、肩関節、肘関節、手根関節、膝関節等のインストラクタの指定関節の角度、角速度または角加速度が状態変数として測定されてもよい。また、指定箇所の位置、変位速度および加速度と、指定関節の角度、角速度および角加速度のうち任意の組み合わせが状態変数として認識されてもよい。
状態変数の位置は、状態センサ102としての光学式モーションキャプチャーシステムにより測定される。光学式モーションキャプチャーシステムによれば、インストラクタの周囲に配置された一または複数のカメラ(トラッカー)による、ラケット等の指定箇所に付されたマークの検出結果に基づいて状態変数の位置が測定される。なお、機械式、磁気式または慣性式モーションキャプチャーシステムにより状態変数の位置が測定されてもよい。
機械式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数のポテンショメータからの当該インストラクタ人の各関節角度を表す出力信号に基づいて状態変数の位置が測定される。磁気式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数の磁気センサからの出力信号に基づいて状態変数の位置が測定される。慣性式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数の慣性モーメントセンサからの腕等の慣性モーメントを表す出力信号に基づいて状態変数の位置が測定される。
続いて、状態認識要素111により認識された基準点の位置pと、複数の「第1モデル」のそれぞれと「第2モデル」とに基づき、軌道生成要素112により複数の推定軌道Pi +およびPi -(i=1,2,‥,Y)が生成される(図3/S004)。「+」は擬似逆行列を意味する。
「第1モデル」はインストラクタの第i行動態様のそれぞれに対応する、状態変数の位置pの時系列的な変化態様を表わす基準軌道のそれぞれの形状特性を表わすモデルであり、具体的には、第iアトラクタ行列Riおよび第iアトラクタの引き込み点uiにより関係式(11)〜(12)にしたがって定義されている。
v(k)=Rip(k)-Riu(k)+Nivv) ..(11)
u(k+1)=u(k)+εi(k)+Niuu) ..(12)
関係式(11)はアトラクタの時点kにおける引き込み点u(k)を基準とする状態変数の位置p(k)の偏差の大小と、アトラクタ行列Riとに応じて時点kにおける状態変数の位置の変位速度v(k)の高低が定まることと、状態変数の位置の変位速度v(k)が確率分布(一般的にはガウス分布)Ni(μv,Σv)(μv=0,Σv:共分散行列)で表わされる揺らぎまたは不確定要素を有する連続確率変数であることとを表わしている。すなわち、第1モデルにしたがって時点kにおける状態変数の変位速度v(k)の高低および揺らぎの程度が定められる。関係式(12)はアトラクタの引き込み点u(k)が変位量εi(k)だけ変位することが許容されていることと、引き込み点u(k)が確率分布Ni(μu,Σu)(μu=0,Σu:共分散行列)で表わされる不確定要素を有する連続確率変数であることとを表わしている。なお、関係式(12)において右辺第2項が省略されてもよい。
「第2モデル」は、状態変数の位置p(k)、変位速度(位置の1回時間微分値)v(k)および加速度(位置の2階時間微分値)α(k)のそれぞれが円滑または連続的に変化するようなインストラクタの動作を表わすモデルであり、具体的には、関係式(21)〜(23)にしたがって定義されている。
p(k+1)=p(k)+v(k+1)+N(μpp) ..(21)
v(k+1)=v(k)+α(k+1)+N(μvv) ..(22)
α(k+1)= α(k)+β(k+1)+N(μαα) ..(23)
関係式(21)は状態変数の位置p(k)が滑らかに変化するという第2モデルの一側面を表わし、かつ、当該位置p(k)が確率分布N(μp,Σp)(μp=0,Σp:共分散行列)で表わされる不確定要素を有する連続確率変数であることを表わしている。また、関係式(22)は状態変数の位置の変位速度(位置の1階時間微分値)v(k)が滑らかに変化するという第2モデルの一側面を表わし、かつ、当該変位速度v(k)が確率分布N(μv,Σv)(μv=0,Σv:共分散行列)で表わされる不確定要素を有する連続確率変数であることを表わしている。さらに、関係式(23)は状態変数の位置の変位加速度(位置の2階時間微分値)α(k)が滑らかに変化するという第2モデルの一側面を表わし、かつ、当該変位加速度α(k)が確率分布N(μa,Σa)(μa=0,Σa:共分散行列)で表わされる不確定要素を有する連続確率変数であることを表わしている。ここで、β(k)は状態変数の位置の加加速度(位置の3階時間微分値(=d3p/dt3))である。なお、関係式(23)において右辺第2項が省略されてもよい。
第1モデルおよび第2モデルは、図6に示されているダイナミクスベイジアンネットワーク(DBN)により表現される確率遷移モデルを定義する。DBNによれば関係式(11)(12)(21)〜(23)が、各時点tにおける状態変数の位置pおよびアトラクタの引き込み点u等の状態変数を表わすノード(円)および条件確率によりこれらをつなぐ矢印により表現されている。また、関係式(11)(12)(21)〜(23)のそれぞれに対応する条件付確率は関係式(111)(112)(122)〜(123)のそれぞれにより表現される。
P(0|v(k),p(k),u(k))=N(v(k)-Rp(k)+Ru(k),0)=N(0,0) ..(111)
P(u(k+1)|u(k),ε(k))=N(u(k)+ε(k),Σu) ..(112)
P(p(k+1)|p(k),v(k+1))=N(p(k)+v(k+1),Σp) ..(121)
P(v(k+1)|v(k),α(k))=N(v(k)+α(k+1),Σv) ..(122)
P(α(k+1)|α(k),β(k))=N(α(k)+β(k+1),Σa) ..(123)
関係式(112)における状態変数ノードεは関係式(212)により表現される。関係式(123)における状態変数ノードβは関係式(223)により表現される。
P(ε(k))=N(0,Σε) ..(212)
P(β(k))=N(0,Σβ) ..(223)
続いて確率遷移モデルにしたがって複数の第i推定軌道 i が生成される。具体的には、図6に示されているDBNにおいて、基準時点t=0およびt=Nのそれぞれにおける状態変数の位置p、速度v、加速度αおよび加加速度βが設定される。図4(a)に示されているようにインストラクタがラケットを動かし始める時点t=0におけるラケット位置等の指定箇所の測定位置が第1基準時点t=0の位置p(0)として決定される。また、第1基準時点t=0における速度v(0)、加速度α(0)および加加速度β(0)のノードはすべて「0」に設定される。図4(a)に示されているようにインストラクタがラケットの動きを止めた時点t=Nにおける指定箇所の測定位置が、第2基準時点t=Nの位置p(N)として設定される。また、第2基準時点t=Nにおける速度v(N)、加速度α(N)および加加速度β(N)はすべて「0」に設定される。
また、第1基準時点t=0から第2基準時点t=Nまでのノードが、関係式(11)(12)(21)〜(23)により表現される確率遷移モデルにしたがって、時系列的に順方向(先時点から後時点に向かう方向)に順次推定される。これにより、時系列順方向について状態変数の推定位置の変化態様を表わす順方向推定軌道Pi +が生成される。
同様に第2基準時点t=Nから第1基準時点t=0までのノードが、確率遷移モデルにしたがって、時系列的に逆方向(後時点から先時点に向かう方向)に順次推定される。これにより、時系列的に逆方向について状態変数の推定位置の変化態様を表わす逆方向推定軌道Pi -が生成される。さらに、順方向推定軌道Pi +を基準として広がる許容通過範囲が設定され、かつ、逆方向推定軌道Pi -を基準として広がる許容通過範囲が設定される。そして、当該両方の許容通過範囲が合成されることにより合成許容範囲が設定され、各時点における状態変数の位置p(k)が合成許容通過範囲に収まるように推定軌道iが生成される。
なお、DBNにおけるノードの推定方法としては前記方法(Belief Propagationと呼ばれている手法)のほか、Loopy Belief Propagation, variable elimination, Junction Tree, Impartance sampling, Hugin Algorithm, Shafer-Shanoy Algorithm, variational message passing, gibbs sampling等の方法が採用されてもよい。
推定軌道 i の生成方法の理解の簡単のため、状態変数の位置p(k)が1次元(スカラー)であり、p(k+1)=Ap(k)(A=1.50)という関係式にしたがって推定される状況を考える。この状況においてt=0における状態変数の測定位置p(0)が1.00であり、かつ、t=3における状態変数の目標位置p(3)が5.00であると仮定する。この場合、図7(a)に示されているようにp+(0)(=p(0)),p+(1)(=Ap(0)),p+(2)(=A2p(0))およびp+(3)(=A3p(0))を順に経由する軌道が順方向推定軌道Pi +として生成される。その一方、図7(b)に示されているようにp-(3)(=p(3)),p-(2)(=A-1p(0)),p-(1)(=A-2p(0))およびp-(0)(=A-3p(0))を順に経由する軌道が逆方向推定軌道Pi -として生成される。
なお、図7(a)に示されているように時系列順方向について各時点における状態変数の推定位置p+(k)の条件付確率分布(一点鎖線)P(p+(k)|p(0)=1.00)(k=1,2,3)が、順方向推定軌道Pi +を基準として広がる各時点における許容通過範囲として算定される。また、図7(b)に示されているように時系列逆方向について各時点における状態変数の推定位置p-(k)の条件付確率分布(二点鎖線)P(p-(k)|p(3)=5.00)(k=2,1,0)が、逆方向推定軌道Pi -を基準として広がる各時点における許容通過範囲として算定される。そして、これら2つの条件付確率分布が合成され、その結果として条件付確率分布P(p(k)|p(0)=1.00,p(3)=5.00)(k=1,2)が合成許容通過範囲として算定される。これにより、図7(c)に示されているように各時点kにおける条件付確率が最高の位置p(0)=1.00、p(1)=1.842、p(2)=3.149およびp(3)=5.00を順に遷移する軌道が推定軌道iとして派生的に生成される。この推定軌道iは、後述するようにエージェントとしてのロボット1の行動制御の基礎となる。
具体的には、図8(a)に示されているように第1基準時点t=0から第2基準時点t=Nまで、状態変数の推定位置 i + (0)(=p(0)),p i + (1),p i + (2),‥,p i + (N)が時系列順方向(白矢印参照)に順次推定される。これにより、状態変数の推定位置 i + (0),p i + (1),p i + (2),‥,p i + (N)を順に経由する軌道が順方向推定軌道 i + として生成される。
また、図8(a)に示されているように第2基準時点t=Nから第1基準時点t=0まで、状態変数の推定位置 i - (N)(=p(N)),p i - (N−1),p i - (N−2),‥,p i - (0)が時系列逆方向(黒矢印参照)に推定される。これにより、状態変数の推定位置 i - (N),p i - (N−1),p i - (N−2),‥,p i - (0)を順に経由する軌道が逆方向推定軌道 i - として生成される。
さらに、図8(b)に示されているように順方向推定軌道 i + の各点 i + (0),p i + (1),p i + (2),‥,p i + (N)を中心とする確率分布(関係式(21)右辺第3項参照)と、逆方向推定軌道 i - の各点 i - (N),p i - (N−1),p i - (N−2),‥,p i - (0)を中心とする確率分布とが重ね合わせられるまたは合成されることにより合成許容通過範囲が設定される。そして、斜線付矢印で示されているように状態変数の位置が各時点における合成許容通過範囲に収まるように推定軌道iが生成される。図8(a)に一点鎖線で示されているように順方向推定軌道Pi +の各点を中心として許容通過範囲(確率分布範囲)が広がっている(図7(a)参照)。図8(a)に二点鎖線で示されているように逆方向推定軌道Pi -の各点を中心として許容通過範囲(確率分布範囲)が広がっている(図7(b)参照)。これら確率分布の重ね合わせの広がり度合が推定軌道iの「許容通過範囲」に相当する(図7(c)参照)。
なお、順方向および逆方向の許容通過範囲がすべての時点において合成されるのではなく、たとえば、第1期間t=0〜kでは順方向の許容通過範囲を通過する第1部分軌道が生成され、第1期間に続く第2期間t=k+1〜Nでは逆方向の許容分布範囲を通過する第2部分軌道が生成され、当該第1部分軌道および第2部分軌道が円滑に接続されることにより推定軌道iが生成されてもよい。また、第1期間t=0〜kでは順方向の許容通過範囲を通過する第1部分軌道が生成され、第1期間よりも後の第2期間t=k+c(c>1)〜Nでは逆方向の許容通過範囲を通過する第2部分軌道が生成され、当該第1部分軌道および第2部分軌道を円滑に接続するように期間t=k+1〜k+c−1での中間部分軌道が生成され、第1部分軌道、中間部分軌道および第2部分軌道が順に接続されることにより推定軌道iが生成されてもよい。
さらに、軌道生成要素112により複数の順方向推定軌道Pi +および逆方向推定軌道Pi -の組み合わせが生成される過程において、行動推定システム110により複数の第1モデルのそれぞれの安定度が評価される(図3/S006)。具体的には、順方向推定軌道Pi +および逆方向推定軌道Pi -の生成過程において図8(b)に示されているように引き込み点が徐々に変位するが(関係式(12)参照)、この累積変位量または累積揺らぎ量が少ないほど第1モデルの安定度siが高く評価される。
そして、安定度siが最高である一の第1モデルに対応する行動態様が、インストラクタの行動態様として推定される(図3/S008)。たとえば「ラケットをゆっくりと振る」または「ラケットを速く振る」等、状態変数位置の変位速度および加速度の高低により区別される行動態様や、「ラケットを大きく振る」または「ラケットを小さく振る」等、状態変数位置の変位量の多少により区別される行動態様や、「インストラクタの上から見て円弧を描くようにラケットを振る」「インストラクタを上から見てS字を描くようにラケットを振る」または「インストラクタを上から見て直線を描くようにラケットを振る」等、状態変数位置の軌道形状により区別される行動態様がインストラクタの行動態様として推定される。
また、軌道生成要素112により安定度siが最高の第1モデルに基づいて生成された推定軌道iが行動制御システム120に出力される。そして、行動制御システム120により、状態変数の位置p(k)が推定軌道iにしたがって変位するようにロボット1の動作が制御される(図3/S010)。具体的には、状態変数としてのラケット位置が推定軌道iにしたがった態様で変位するようにアクチュエータ1000の動作が制御される。これにより、図5(a)〜(c)に順に示されているようにロボット1が片方の手部13で持っているラケットを振るように行動する。
なお、インストラクタの動作スケールに対するロボット1の動作スケールの比率に基づき、推定軌道iのスケールが調節されてもよい。たとえば、インストラクタの腕の長さに対する、ロボット1の腕部12の長さの比率がアトラクタ行列Riに乗じられることにより、推定軌道iのスケールが調節されてもよい。また、インストラクタの腕の長さとインストラクタが用いるラケットの長さとの和に対する、ロボット1の腕部12の長さとロボット1が用いるラケットの長さとの和の比率がアトラクタ行列Riに乗じられることにより、推定軌道iのスケールが調節されてもよい。
次に、本発明の第2実施形態としての行動推定システム110について説明する。第2実施形態の行動推定システム110は、図9(a)〜(c)に順に示されているようにインストラクタとしての人間がその前方から向かってくるボールを、片手で持っているラケットを使ってさまざまなタイミングで前方に打ち返すという複数の行動態様のうち、インストラクタのとった行動態様が推定される。図9(a)(b)および(c)のそれぞれは、インストラクタがラケットを動かし始める直前の状態、ラケットをボールに当てた状態、および、ラケットの動きを止めた状態のそれぞれを示している。
このような行動態様は、インストラクタがラケットにボールを当てた時点(インパクトの瞬間)、すなわち、インストラクタがボール(物体)に力を作用させる前後で行動態様が異なる可能性がある。このため、第2実施形態においては、インストラクタがラケットにボールを当てるための「第1行動態様」から、インストラクタがラケットにボールを当てた後の「第2行動態様」にさまざまな時点で遷移するようなインストラクタの行動態様を表わす複数の第1モデルが採用される。第1基準時点t=0から中間基準時点t=hまでの第1期間[t|0〜h(<N)]において「第1行動態様」に対応する第1アトラクタ行列R1および第1引き込み点u1(k)により基準軌道Piの形状特性が表わされるとともに、第1期間に続く第2基準時点t=Nまでの第2期間[t|h+1〜N]において「第2行動態様」に対応する第2アトラクタ行列R2および第2引き込み点u2(k)により基準軌道Piの形状特性が表わされるような第1モデルが採用される。複数の基準軌道Piは、第1行動態様から第2行動態様への遷移時点k=hの相違により区別される。これにより、図11に示されているようにさまざまな時点k=hを境としてアトラクタ行列が第1アトラクタ行列R1から第2アトラクタ行列R2に変化する確率遷移モデルが定義される。
その上で図12(a)に示されているように第1基準時点t=0から中間基準時点t=hの直前時点t=h−1まで、状態変数の位置 i + (0)(=p(0)),p i + (1),p i + (2),‥,p i + (h−1)が時系列順方向(白矢印参照)に順次推定される。
また、同じく図12(a)に示されているように中間基準時点t=hから第2基準時点t=Nまで、状態変数の位置 i + (h)(=p(h)),p i + (h+1),p i + (h+2),‥,p i + (N)が時系列順方向(白矢印参照)に順次推定される。これにより、状態変数の推定位置 i + (0),p i + (1),‥,p i + (h−1),p i + (h),p i + (h+1),‥,p i + (N)を順に経由する軌道が順方向推定軌道 i + として生成される。
その一方、図12(a)に示されているように第2基準時点t=Nから中間基準時点t=hの直後時点t=h+1まで、状態変数の位置 i - (N)(=p(N)),p i - (N−1),p i - (N−2),‥,p i - (h+1)が時系列逆方向(黒矢印参照)に順次推定される。
さらに、同じく図12(a)に示されているように中間基準時点t=hから第1基準時点t=0まで、状態変数の位置 i - (h)(=p(h)),p i - (h−1),p i - (h−2),‥,p i - (0)が時系列逆方向(黒矢印参照)に順次推定される。これにより、状態変数の推定位置 i - (N),p i - (N−1),‥,p i - (h+1),p i - (h),p i - (h−1),‥,p i - (0)を順に経由する軌道が方向推定軌道 i - として生成される。
そして、図12(b)に示されているように順方向推定軌道の各点 i + (0),‥,p i + (h−1),p i + (h),p i + (h+1),‥,p i + (N)を中心とする確率分布と、逆方向推定軌道の各点 i - (N),‥,p i - (h+1),p i - (h),p i - (h−1),‥,p i - (0)を中心とする確率分布とが重ね合わせられるまたは合成されることにより合成許容通過範囲が設定される。そして、斜線付矢印で示されているように状態変数の位置が各時点における合成許容通過範囲に収まるように推定軌道P i が生成される。
図12(a)に一点鎖線で示されているように順方向推定軌道 i + の各点を中心として許容通過範囲(確率分布範囲)が広がっている(図17(a)参照)。図12(a)に二点鎖線で示されているように逆方向推定軌道 i - の各点を中心として許容通過範囲(確率分布範囲)が広がっている(図7(b)参照)。これら確率分布の重ね合わせの広がり度合が推定軌道P i の「許容通過範囲」に相当する(図7(c)参照)。
さらに、軌道生成要素112により複数の推定軌道 i が生成される過程において、行動推定システム110により複数の第1モデルのそれぞれの安定度が評価される(図3/S006)。具体的には、推定軌道 i の生成過程における第iアトラクタの引き込み点ui(k)の累積変位量が少ないほど第1モデルの安定度siが高く評価される。そして、安定度siが最高である一の第1モデルに対応する行動態様が、インストラクタの行動態様として推定される(図3/S008)。
たとえば「ボールを打つ前はゆっくりと加速されるようにラケットを振り、ボールを打った後はゆっくりと減速されるようにラケットを振る」または「ボールを打つ前は急に加速された後でその速度が維持されるようにラケットを振り、ボールを打った後は急に減速されるようにラケットを振る」等、状態変数位置の変位速度および加速度の高低により区別される行動態様や、「ラケットを途中までは小さく振り、途中から大きく振る」または「ラケットを途中までは大きく振り、途中から小さく振る」等、状態変数位置の変位量の多少により区別される行動態様や、「インストラクタの上から見て途中まで直線を描くようにラケットを振り、途中から円弧を描くようにラケットを振る」または「インストラクタを上から見て途中まで円弧を描くようにラケットを振り、途中から直線を描くようにラケットを振る」等、状態変数位置の軌道形状により区別される行動態様がインストラクタの行動態様として推定される。
また、軌道生成要素112により安定度siが最高の第1モデルに基づいて生成された推定軌道 i が行動制御システム120に出力される。そして、行動制御システム120により、状態変数の位置が推定軌道としての推定軌道 i にしたがって変位するようにロボット1の動作が制御される(図3/S010)。
具体的には、モーションキャプチャーシステムまたはロボット1に搭載されているイメージセンサによるボールの検知結果に基づき、ロボット1に向かって飛んでくるボールの位置および速度が測定され、この測定結果に基づいてラケットにボールを当てる中間基準時点t=hにおける状態変数の位置p(h)が予測される。
また、推定軌道iにおいて行動態様が変化する時点における状態変数の位置p(h)が当該予測状態変数位置に一致するようにロボット1の位置および姿勢が適宜調節される。その上で、状態変数としてのラケット位置が推定軌道iにしたがった態様で変位するようにアクチュエータ1000の動作が制御される。
これにより、図10(a)〜(c)に順に示されているようにロボット1がその前方から向かってくるボールを、片手で持っているラケットを使ってフォアハンドで前方に打ち返すように行動する。
前記機能を発揮する第1および第2実施形態の行動推定システム110によれば、基準点の位置pCに基づき、それぞれの第1モデルと第2モデルとにしたがって状態変数の推定位置の時系列的な変化態様を表わす推定軌道Pi +およびPi -が生成される(図3/S004,図8(a)/白矢印および黒矢印、図12(a)/白矢印および黒矢印参照)。
「第1モデル」はインストラクタの異なる行動態様のそれぞれに対応する、状態変数の位置の時系列的な変化態様を表わす「基準軌道」のそれぞれの形状特性を表わしている(関係式(11)(12)、図6参照)。「第2モデル」は状態変数の位置およびその一または複数のn階時間微分値(n=1,2,‥)(前記実施形態では1階時間微分値(速度v(k))および2階時間微分値(加速度α(k)))が連続的に変化するような前記インストラクタの動作を表わしている(関係式(21)〜(23)、図6参照)。
このため、各推定軌道Pi +およびPi -は、インストラクタが状態変数の位置p(k)、速度v(k)および加速度α(k)が連続になるような円滑な動きにより、ある行動態様をとったと仮定した場合における状態変数の位置p(k)の時系列的な変化態様を表わしている。推定軌道Pi +およびPi -が基準点pCまたはその近傍範囲を通過するように生成されるという条件下で第1モデルに揺らぎが許容されている(関係式(12)参照)。
この累積揺らぎ量が小さい(すなわち安定度siが高い)第1モデルは、インストラクタが行動したときの状態変数の位置の時系列的な変化態様を最も無理なくまたは円滑に再現しうるモデルである蓋然性が高い。したがって、安定度siが高い第1モデルに対応する行動態様は、インストラクタの実際の行動態様に対応している蓋然性が高い。このため、安定度siが最高の第1モデルに対応する行動態様がインストラクタの行動態様として推定されることにより、その推定精度の向上が図られる。
また、第2実施形態の行動推定システムによれば、行動態様が途中で変化する点で共通する一方、その変化タイミングk=hが相違するさまざまな行動態様に対応する複数の第1モデルのそれぞれに基づき、複数の推定軌道Piが生成される(図11、図12(a)(b)参照)。そして、前記のように当該複数の推定軌道Piのそれぞれが生成される際の安定度siが最高の第1モデルに対応する行動態様がインストラクタの行動態様として推定される。これにより、第1行動態様から第2行動態様への変化タイミング、具体的には、インストラクタが物体に力を作用させたタイミングの相違により区別される行動態様の推定精度の向上が図られる。
なお、ラケットを振る、または、ラケットでボールを打ち返すという行動態様のほか、腕および脚の動きを伴うダンス、物体の運搬等、さまざまなインストラクタの行動態様が推定されてもよい。また、物体に力を作用させる前と、物体に力を作用させた後とで行動態様が変化するようなインストラクタの行動態様として、インストラクタがラケットにボール(物体)を当てるという行動態様のほか、インストラクタが片手または両手の柱などの物体への接触および離反を繰り返すような作業をする、あるいは、インストラクタが片脚または両脚の着床および離床を繰り返すように床(物体)の上で歩行、走行またはタップダンスをする等の行動態様が推定されてもよい。
本発明の行動推定システムの構成説明図。 エージェントとしてのロボットの構成説明図。 行動推定方法を示すフローチャート。 インストラクタの動作に関する説明図(第1実施形態)。 ロボットの動作に関する説明図(第1実施形態)。 確率遷移モデル(DBN)に関する説明図(第1実施形態)。 確率遷移モデルにおけるノードを埋める方法に関する説明図。 推定軌道の生成方法に関する説明図(第1実施形態)。 インストラクタの動作に関する説明図(第2実施形態)。 ロボットの動作に関する説明図(第2実施形態)。 確率遷移モデル(DBN)に関する説明図(第2実施形態)。 推定軌道の生成方法に関する説明図(第2実施形態)。
1‥ロボット(エージェント)、110‥行動推定システム、111‥状態認識要素、112‥軌道生成要素、120‥行動制御システム、1000‥アクチュエータ。

Claims (4)

  1. インストラクタの行動態様を推定するためのシステムであって、
    前記インストラクタの動きに伴って変位する状態変数の一または複数の基準時点における位置を、一または複数の基準点の位置として認識する状態認識要素と、
    前記状態認識要素により認識された前記基準点の位置と、前記インストラクタの複数の行動態様のそれぞれに対応する複数の第1モデルのそれぞれと、第2モデルとに基づき、前記状態変数の推定位置を時系列的に表わす複数の推定軌道を、前記推定軌道が前記基準点またはその近傍範囲を通過するという条件下で生成する軌道生成要素とを備え、
    前記複数の第1モデルのそれぞれが、アトラクタの引き込み点を基準とする前記状態変数の位置の各時点における偏差の大小と、アトラクタ行列と、確率分布であらわされる不確定要素とに応じて前記状態変数の位置の各時点における変位速度が連続確率変数として定義され、かつ、前記アトラクタの引き込み点が確率分布で表わされる不確定要素を有する連続確率変数として定義されているモデルであり、
    前記第2モデルが、前記状態変数の今回位置が前記状態変数の前回位置および今回速度により表わされ、前記状態変数の1または各n階時間微分の今回値(n=1,2,‥)が、前記状態変数の1または各n階時間微分の前回値と、前記状態変数の2または各n+1階時間微分の今回値とにより表わされ、かつ、前記状態変数の位置及びその1または各n階時間微分値のそれぞれが確率分布で表わされる不確定要素を有する連続確率変数として定義されているモデルであり、
    前記軌道生成要素により前記複数の推定軌道が生成される過程における前記引き込み点の時間的な累積変位量が少ないほど前記第1モデルの安定度が高くなるように前記複数の第1モデルのそれぞれの安定度を評価し、前記安定度が最高である一の前記第1モデルに対応する行動態様を、前記インストラクタの行動態様として推定することを特徴とする行動推定システム。
  2. 請求項1記載の行動推定システムにおいて、前記軌道生成要素が、各時点における前記状態変数の位置を時系列的に順方向に推定することにより前記推定軌道として順方向推定軌道を生成するとともに、各時点における前記状態変数の位置を時系列的に逆方向に推定することにより前記推定軌道として逆方向推定軌道とを生成することを特徴とする行動推定システム。
  3. 請求項1または2記載の行動推定システムにおいて、
    前記軌道生成要素が、前記インストラクタの第1行動態様から第2行動態様への変化を伴う行動態様であって、前記第1行動態様から前記第2行動態様に変化する時点が異なる複数の行動態様のそれぞれに対応する前記複数の第1モデルのそれぞれに基づいて前記複数の推定軌道を生成することを特徴とする行動推定システム。
  4. 請求項3記載の行動推定システムにおいて、
    前記軌道生成要素が、前記インストラクタの第1行動態様から第2行動態様への変化を伴う行動態様であって、前記インストラクタが物体に力を作用させるための前記第1行動態様から、前記インストラクタが前記物体に力を作用させた後における前記第2行動態様に変化する時点が異なる複数の行動態様のそれぞれに対応する前記複数の第1モデルのそれぞれに基づいて前記複数の推定軌道を生成することを特徴とする行動推定システム。
JP2008169534A 2008-06-27 2008-06-27 行動推定システム Expired - Fee Related JP5329856B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008169534A JP5329856B2 (ja) 2008-06-27 2008-06-27 行動推定システム
US12/487,225 US8099374B2 (en) 2008-06-27 2009-06-18 Behavior estimating system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008169534A JP5329856B2 (ja) 2008-06-27 2008-06-27 行動推定システム

Publications (2)

Publication Number Publication Date
JP2010005762A JP2010005762A (ja) 2010-01-14
JP5329856B2 true JP5329856B2 (ja) 2013-10-30

Family

ID=41448386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008169534A Expired - Fee Related JP5329856B2 (ja) 2008-06-27 2008-06-27 行動推定システム

Country Status (2)

Country Link
US (1) US8099374B2 (ja)
JP (1) JP5329856B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5109098B2 (ja) * 2007-06-14 2012-12-26 本田技研工業株式会社 運動制御システム、運動制御方法および運動制御プログラム
TW201031507A (en) * 2009-02-25 2010-09-01 Micro Star Int Co Ltd Control apparatus of a multi-axial joint and control method thereof
US8527217B2 (en) * 2009-09-08 2013-09-03 Dynamic Athletic Research Institute, Llc Apparatus and method for physical evaluation
JP5489965B2 (ja) * 2009-12-24 2014-05-14 本田技研工業株式会社 行動制御システムおよびロボット
JP5465142B2 (ja) * 2010-09-27 2014-04-09 本田技研工業株式会社 ロボットおよびその行動制御システム
EP2615598B1 (en) * 2012-01-11 2017-12-06 Honda Research Institute Europe GmbH Vehicle with computing means for monitoring and predicting traffic participant objects
US9573276B2 (en) * 2012-02-15 2017-02-21 Kenneth Dean Stephens, Jr. Space exploration with human proxy robots
US8843236B2 (en) * 2012-03-15 2014-09-23 GM Global Technology Operations LLC Method and system for training a robot using human-assisted task demonstration
JP5908350B2 (ja) 2012-06-21 2016-04-26 本田技研工業株式会社 行動制御システム
WO2014089119A1 (en) * 2012-12-03 2014-06-12 Navisens, Inc. Systems and methods for estimating the motion of an object
US9283678B2 (en) * 2014-07-16 2016-03-15 Google Inc. Virtual safety cages for robotic devices
JP1573749S (ja) * 2016-01-29 2017-04-10
US10676022B2 (en) 2017-12-27 2020-06-09 X Development Llc Visually indicating vehicle caution regions
US20200160210A1 (en) * 2018-11-20 2020-05-21 Siemens Industry Software Ltd. Method and system for predicting a motion trajectory of a robot moving between a given pair of robotic locations
CN112395542B (zh) * 2020-11-19 2024-02-20 西安电子科技大学 全轨迹位置误差的评估方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3194395B2 (ja) * 1992-05-18 2001-07-30 日本電信電話株式会社 経路関数逐次生成方法
JPH11198075A (ja) * 1998-01-08 1999-07-27 Mitsubishi Electric Corp 行動支援装置
JP2002127058A (ja) * 2000-10-26 2002-05-08 Sanyo Electric Co Ltd 訓練ロボット、訓練ロボットシステムおよび訓練ロボットの制御方法
JP2003094363A (ja) * 2001-09-27 2003-04-03 Honda Motor Co Ltd 多関節ロボットの姿勢決定方法および装置
JP2006146435A (ja) * 2004-11-17 2006-06-08 Univ Waseda 動作伝達システムおよび動作伝達方法
JP4853997B2 (ja) * 2005-08-17 2012-01-11 株式会社国際電気通信基礎技術研究所 エージェント学習装置、エージェント学習方法及びエージェント学習プログラム
JP2007125645A (ja) * 2005-11-04 2007-05-24 Hitachi Ltd ロボット動作編集システム
JP2007280054A (ja) * 2006-04-06 2007-10-25 Sony Corp 学習装置および学習方法、並びにプログラム

Also Published As

Publication number Publication date
US8099374B2 (en) 2012-01-17
JP2010005762A (ja) 2010-01-14
US20090326679A1 (en) 2009-12-31

Similar Documents

Publication Publication Date Title
JP5329856B2 (ja) 行動推定システム
JP5313562B2 (ja) 行動制御システム
JP5489965B2 (ja) 行動制御システムおよびロボット
CN108115681B (zh) 机器人的模仿学习方法、装置、机器人及存储介质
JP5330138B2 (ja) 強化学習システム
Hurmuzlu et al. Modeling, stability and control of biped robots—a general framework
JP5109098B2 (ja) 運動制御システム、運動制御方法および運動制御プログラム
JP5465142B2 (ja) ロボットおよびその行動制御システム
JP6321905B2 (ja) 関節システムの制御方法、記憶媒体、制御システム
CN111580385A (zh) 基于深度强化学习的机器人行走控制方法、系统及介质
Teixeira et al. Humanoid robot kick in motion ability for playing robotic soccer
Miyazaki et al. Learning to dynamically manipulate: A table tennis robot controls a ball and rallies with a human being
Melo et al. Learning humanoid robot running motions with symmetry incentive through proximal policy optimization
Obo et al. Imitation learning for daily exercise support with robot partner
KR20130067856A (ko) 손가락 동작을 기반으로 하는 가상 악기 연주 장치 및 방법
Vogt et al. Learning two-person interaction models for responsive synthetic humanoids
Seekircher et al. Motion capture and contemporary optimization algorithms for robust and stable motions on simulated biped robots
CN114296539B (zh) 方向预测方法、虚拟实境装置及非暂态计算机可读取媒体
US20220143822A1 (en) Method for robotic training based on randomization of surface damping
US20220143821A1 (en) Method for robotic training based on randomization of surface stiffness
JP5465129B2 (ja) ロボットおよび行動制御システム
Taniguchi et al. Simultaneous localization, mapping and self-body shape estimation by a mobile robot
Kim et al. Online footprint imitation of a humanoid robot by walking motion parameterization
Danner Qbot: Quadrupedal Ambulation via Reinforcement Learning
Kober et al. Learning new basic Movements for Robotics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130725

R150 Certificate of patent or registration of utility model

Ref document number: 5329856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees