JP2009276886A

JP2009276886A - 動作学習装置

Info

Publication number: JP2009276886A
Application number: JP2008125720A
Authority: JP
Inventors: Tadahiro Taniguchi; 忠大谷口; Naoto Iwahashi; 直人岩橋
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2008-05-13
Filing date: 2008-05-13
Publication date: 2009-11-26
Anticipated expiration: 2028-05-13
Also published as: JP5252393B2

Abstract

【課題】人間の行動の分節化に時系列ダイナミクスの局所的な情報しか用いないために、必ずしも人間が考えるような意味を持った単位としての行動の分節化ができなく、連続動作を確実に分節化して学習できる動作学習装置を提供する。
【解決手段】ロボットシステムでは、ロボットが、ユーザが提示した連続動作を示す３次元モーションキャプチャデータのような時系列データからＳＡＲＭを用いて離散的な文字列を含む文書を生成し、辞書を用いないキーワード抽出方法によって、意味のある分節をキーワードとして抽出して、保存する。キーワードを評価するとき、キーワードからＳＡＲＭのＡＲモデルをキーワードに沿い順次起動することによって、ロボットが獲得した動作を再現してユーザに提示する。ユーザのリアクション動作に主動作が含まれるかどうか判断、その結果に応じて信頼度を増減する。
【選択図】図６

Description

この発明は、動作学習装置に関し、特に分節化されていない連続動作または連続行動を分節化して学習する、動作学習装置などに関する。

人間社会において共生的に活動可能な自律ロボットを生み出すためには、彼らが私たちと共に生活する中で自然に様々な概念や振舞いを獲得することが望まれる。しかしながら、まだ、そのような能力をロボットに与えることのできる方法はほとんど存在しない。私たちが、もし日常生活の中で必要なすべての振舞いを全て直接的にロボットに教え込まないといけないとするならば、それは手間がかかり過ぎる。したがって、人間の子供が行うように親の動作をみて「勝手に」見まねを通じて学習するような枠組み（模倣学習）を持ったロボットまたはその学習方法が求められる。

従来のロボットの模倣学習では、たとえば非特許文献１に示すように、その多くの先行技術において、学習する対象となる時系列情報が予め分節化され与えられ、ロボットはそれら各々の分節化された時系列情報を学習することによって動作学習を行なう。しかし、実際に家庭にロボットが現われる状況を考えると、我々がロボットとインタラクションする中でロボットに新たな行動パターンを学習させようとするときには、覚えさせようとする行動パターン毎にスイッチを押すなり、事前に準備された行動の開始と終了の合図を指定する(主には静止状態にするものが多い)などして行動パターンの分節を明示的に提示しなければならない。前者の場合ではスイッチを押すモーションが行動パターンの前後にノイズとして加わるし、後者の場合では静止状態から静止状態へ移る行動パターンしか学習対象とできないなどの問題点がある。また、そのような不自然な動作を挿入することが、人間とロボットとの自然なインタラクションを妨げる要因ともなると考えられる。

一方、たとえば非特許文献２および非特許文献３などにおいて、複数の行動パターンを複数の学習器の切り替え（ＤＢＳＯＭなど）や学習パラメータに冗長性を持たせることによって、複数の行動パターンを分節化されていない行動系列から学習する方法（ＲＮＮＰＢ：recurrent neural network with parametric biasなど）が提案されている。
稲邑哲也、中村仁彦、戸嶋巌樹、江崎英明「ミメシス理論に基づく見まね学習とシンボル創発の統合モデル」日本ロボット学会誌Vil.22 No. 2, pp.256-263, 2004 中村大介、岡田昌史、中村仁彦「力学的情報処理における自己組織的シンボル獲得と運動生成」第１８回日本人口知能学会全国大会講演、2004 M. Ito, K. Noda, Y. Hoshino, and J. Tani. "Dynamic and interactive generation of object handling behaviors by a small humanoid robot using a dynamic neural network model". Neural Networks, 19(3):323.337, 2006.

非特許文献１や非特許文献２で提案されている従来の手法では、行動の分節化に時系列ダイナミクスの局所的な情報しか用いないために、分節化に力学情報しか用いず、必ずしも人間が考えるような意味を持った単位としての行動の分節化を行なうことができないといった問題点がある。

それゆえに、この発明の主たる目的は、新規な、動作学習装置を提供することである。

この発明の他の目的は、連続動作を確実に分節化して学習できる、動作学習装置を提供することである。

この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために記述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。

第１の発明は、各々が連続する動作を示す複数の時系列データからモデルを獲得することによって、モデルが示す離散的な文字列を含む文書を生成する文書列生成手段、および文書に含まれる文字列から意味のある分節を抽出して保存する分節抽出手段を備える、動作学習装置である。

第１の発明では、たとえば、ユーザ（２８。実施例で相当する要素を例示する参照符号。以下同じ。）とロボット（１２）との複数回のセッションを通して、ロボット（１２）が複数の時系列データを取得する。文書生成手段である、ロボット（１２）のコンピュータ（３６）または他のコンピュータは、それらの時系列データをＳＡＲＭ（Switching AR(autoregression) Model）を用いて、モデル化することによって、各モデルに固有の文字からなる離散的な文字列を生成する。同じく、ロボット（１２）のコンピュータ（３６）（または他のコンピュータであってよい）は、分節抽出手段として「辞書を用いないキーワード抽出手法」を用いて、キーワードすなわち有意な分節をその文字列から抽出して保存する。

このようにして、第１の発明によれば、連続する動作を分節化して、その分節化した動作を学習することができる。

第２の発明は、第１の発明に従属し、文書列生成手段は、時系列データをモデル化することによって各時系列の隠れ状態示す文字列およびスコアを含む文書を生成し、そのスコアの和（積や重み付け和、その他非線形和など合計スコアを計算する他の計算式でも構わない）が最大になるように文字列を分節化する、動作学習装置である。

第２の発明では、文書生成手段は、たとえばＳＡＲＭを用い、ＡＲモデルの切り替わりにより時系列を文字列として生成する。その際、スコアを考慮して、スコアが最大になるように分節化する。

第３の発明は、第１の発明または第２の発明に従属し、意味のある分節とモデルを利用して動作を生成する動作生成手段をさらに備える、動作学習装置である。

第３の発明では、動作生成手段（Ｓ７）が、抽出した意味のある分節およびモデルを用いて動作を生成する。したがって、動作学習装置が学習した動作を、たとえば、ユーザに対して提示して、そのリアクションを引き出すことができる。

第４の発明は、第３の発明に従属し、ユーザのリアクションに基づいて動作生成手段が生成した動作を評価する評価手段をさらに備える、動作学習装置である。

第４の発明によれば、動作生成手段によってユーザに、キーモーション（主動作）と思われる、学習した動作を再現して提示したとき、ユーザがリアクションを返すが、評価手段（Ｓ９，Ｓ１１）がそのユーザリアクションに基づいて、生成した動作を評価する。たとえば、ユーザが主動作を含む動作系列をリアクションとして返した場合、学習は成功したのであり、高い評価が与えられる。

第５の発明は、第４の発明に従属し、評価手段による評価が低いとき、保存した分節を破棄する破棄手段をさらに備える、動作学習装置である。

第５の発明では、破棄手段（Ｓ１９）によって、評価の低かった提示動作すなわち保存したキーワード（分節）を破棄するので、効率よく動作を学習することができる。

第６の発明は、第１ないし第４の発明のずれかに従属し、文書生成手段はＳＡＲＭを用いる、動作学習装置である。

第６の発明によれば、文書生成手段は、自己回帰（ＡＲ）モデルを用いて、時系列データを文書に変換する。

第７の発明は、第１ないし第５の発明の動作学習装置を備える、ロボットである。

第７の発明によれば、ロボットが非分節化されていない連続動作から、確実に動作を学習することができる。

第８の発明は、ユーザが提示する、各々が連続する動作を示す複数の時系列データからモデルを獲得することによって、モデルが示す離散的な文字列を含む文書を生成する文書列生成手段、文書に含まれる文字列から意味のある分節を抽出して保存する分節抽出手段、意味のある分節とモデルを利用して動作を生成しユーザに提示する動作生成手段、および動作生成手段が提示した動作に対するユーザのリアクションを認識することによって応答戦略を獲得する獲得手段を備える、ロボットである。

第８の発明では、たとえば、ユーザ（２８）とロボット（１２）との複数回のセッションを通して、ロボット（１２）が複数の時系列データを取得する。文書生成手段である、ロボット（１２）のコンピュータ（３６）または他のコンピュータは、それらの時系列データをＳＡＲＭを用いて、モデル化することによって、各モデルに固有の文字からなる離散的な文字列を生成する。同じく、ロボット（１２）のコンピュータ（３６）（または他のコンピュータであってよい）は、分節抽出手段として「辞書を用いないキーワード抽出手法」を用いて、キーワードすなわち有意な分節をその文字列から抽出して保存する。

そして、動作生成手段（Ｓ７）が、抽出した意味のある分節およびモデルを用いて、学習したキーモーション（主動作）と思われる動作を生成し、ユーザに対して提示して、そのリアクションを引き出す。

獲得手段（Ｓ９，Ｓ１１）がそのユーザリアクションに基づいて、生成した動作を認識し、学習する。もし、ユーザ（２８）がいつもロボット（１２）のある動作Ａに対して動作Ｂを返しているとすれば、その動作Ｂは動作Ａへの応答として用いるものであることをロボットは認識することができる。この対を観測することで、ロボットはユーザが動作Ａを行ったときの返答として動作Ｂを用いることができるようになる。つまり、ユーザがＡ動作を示したときにはＢ動作をそれに対する返答として生成すべきだというルールすなわち応答戦略を獲得する。

この発明によれば、連続動作を確実に分節化でき、有意な動作系列を抽出することができる。また、その動作系列によって動作学習を行なうことができる。

この発明の上述の目的、その他の目的、特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

実施例の詳細な説明に先だって、実施例を概説すると、ユーザおよびロボットの間における非分節な相互作用（セッション）からの役割反転模倣を実現するために、ＳＡＲＭ（Switching AR(autoregression) Model）を用い、連続な時系列を分節化し、分節化された時系列をＡＲモデルとしてモデル化した（これらはＳＡＲＭを用いることで同時に行われる）。ＳＡＲＭは時系列情報を１つの分節化の単位は線形ダイナミクスで記述されるという条件の下で、単にダイナミカルな情報のみを用いて分節化すると同時に、各ＡＲモデルを推定する。多くの場合、単にダイナミクス情報のみを用いて分節化された時系列はユーザにとって必ずしも意味ある単位を表さない。しかし、その一方で、ある一連の分節のつながりは意味ある動作系列を意味する可能性がある。ＳＡＲＭにおいて各時刻で最大の事後確率（Ｐｒ）を持つと推定された隠れ状態の列によって分節化された時系列が記述されたとすると、時系列は隠れ状態を表すラベルによって記述されたある種の文書（document）に変換されることになる。

そこで以下の実施例では、人間の動作系列における意味ある部分動作系列は，自然言語で記述された文書（日本語，中国語，英語などの文書）におけるキーワードと同様の分布特徴を持つものという大胆な仮定を導入する。つまり、意味あるユーザの動作から変換されて生成されたn-gram、つまりユーザの動作系列に含まれる主動作（キーモーション）を表象するn-gramが自然言語文書中のキーワードを示すn-gramと類似した分布における偏りを持っているという仮定である。その仮定に立って、その文書中からキーワードを抽出する。ただし、その方法としては、「辞書を用いないキーワード抽出」の手法を用いる。

このキーワード抽出手法で抽出されたキーワード集合はユーザにとっていくらかの意味がないように見える動作を含む。そこで、これらの動作候補を取り除くために、ロボットが獲得した動作を提示した場合におけるユーザのリアクションを利用する。ユーザは通常、ロボットが意味ある動作をしたときには意味ある応答を返すと想定した。したがって、ロボットは人間に意味あるリアクションを引き出させる動作を意味ある動作と認識するようになる。このようにしてユーザのリアクションをキーワード選択フィルタとして利用することによって、ロボットが無意味な動作の候補を除去でき、それによってユーザとロボットとの間の非分節なセッションを通じてロボットがユーザから有意な動作を学習することができる。

図１を参照して、この実施例のロボットシステム１０は、腕型ロボット１２を含む。この腕型ロボット１２は、土台ないしベース１４の上に垂直に固定された、人間の腕でいえば上腕に相当する第１コラム１６と、前腕に相当する第２コラム１８とを有する。第１コラム１６と第２コラム１８とは肘関節に相当する第１関節２０によって連結され、第２コラム１８は、第１コラム１６に対して１つの回転軸（φ１）で回転可能であり、３軸（Ｘ，Ｙ，Ｚ）方向に角度可変である。すなわち、第１関節２０は４自由度であり、図示しないが、４つのモータを有する。第２コラム１８の先端には、手首関節に相当する第２関節２２が設けられ、この第２関節２２を介して、第２コラム１８にハンド２４が連結される。ハンド２４は、第２コラム１６に対して１つの回転軸（φ２）で回転可能であり、３軸（Ｘ，Ｙ，Ｚ）方向に角度可変である。第２関節２２もまた、４つのモータ（図示せず）を有する４自由度関節である。

この腕型ロボット１２とテーブル２６を挟んでユーザ２８が対面し、実施例のロボットシステム１０では、ユーザ２８が提示する動作を先に述べた自己組織化的な学習過程を通して、腕型ロボット１２が模倣する。その意味で実施例のロボットシステム１０は動作模倣装置ないし動作学習装置ということができる。ただし、実施例では、ロボットとして腕型ロボット１２を用いているので、ユーザ２８はその腕３０だけを動かす動作を提示することとする。

しかしながら、模倣主体として実施例の腕型ロボット１２に代えて別の形式のロボット、たとえば人間とほぼ同じ可動部分を有するヒューマノイドロボットを用いることもでき、ヒューマノイドロボットを用いる場合には、ユーザ２８は腕の動きだけでなく、全身の可動要素を使って動作を提示でき、ヒューマノイドロボットはその全身動作を自律的に模倣し学習することになる。

ユーザ２８の提示する動作は、腕だけの動作であっても、全身動作であっても、実施例では、３次元光学モーションキャプチャカメラ３２で捕捉される。このモーションキャプチャカメラ３２で撮影した３次元映像信号はサーバ３４に入力される。サーバ３４は３次元映像信号を処理して、モーションキャプチャデータを作成する。モーションキャプチャデータは、ユーザ２８が提示する連続動作を示す時系列データであり、このモーションキャプチャデータすなわち時系列データは、このサーバ３４から、たとえば無線ＬＡＮ（図示せず）を介して、ロボット１２に与えられる。

腕型ロボット１２は、図２に示すように、コンピュータ３６を含み、コンピュータ３６は、バス３８を介して、メモリ４０，モータ制御ボード４２，センサ入力／出力ボード４４および音声入力／出力ボード４６に接続される。

メモリ４０は、図示しないが、ＲＯＭ，ＨＤＤおよびＲＡＭなど任意のメモリ素子を含む。ＲＯＭやＨＤＤには、ロボット１２の動作を制御するための制御プログラムが予め記憶される。たとえば、各センサの出力（センサ情報）を検知するための検知プログラムや、外部コンピュータ、たとえばサーバ３４などとの間で必要なデータや情報を授受するための通信プログラム、さらにＳＡＲＭなどのモデル化手段を構築するためのプログラムなどが記録される。また、ＲＡＭは、ワークメモリやバッファメモリとして用いられる。メモリ４０内のフラッシュメモリのようなＲＯＭやＨＤＤは、後述のようにした獲得または学習した有意な動作系列（キーワード）を保存するために利用される。

モータ制御ボード４２は、たとえばＤＳＰで構成され、図１に示す第１関節２０および第２関節２２の各軸モータの駆動を制御する。モータ制御ボード４２は、コンピュータ３６からの制御データを受け、第１関節２０の１つの回転角および３つの関節角、すなわち４つのモータを制御する。同様にして、モータ制御ボード４２は、コンピュータ３６からの制御データを受け、第２関節２２の１つの回転角および３つの関節角すなわち４つのモータを制御する。これらのモータはステッピングモータや直流モータであってよい。

つまり、腕型ロボット１２が第１関節２０および第２関節２２を制御してハンド２４を動かす場合、コンピュータ３６がハンド２４の座標を指定してその座標データをモータ制御ボード４２に出力することによって、ハンド２４を指定した座標位置に動かすように設計している。ロボット１２（のコンピュータ３６）は、上述のようにモーションキャプチャを通して、ユーザ２８の手先、実施例では特に右手の手先の座標位置を観測できる。そして、ロボット１２がユーザ２８の提示した動作を理解した上でその動作を再現する場合、コンピュータ３６はユーザ２８の手先座標をそのままモータ制御ボード４２に設定することによって、ハンド２４をその手先座標位置に動かすことができる。つまり、ロボット１２はユーザ２８の手先座標を自らの手先座標に直接的に写像することができる。ただし、モータ制御ボード４２では、目標位置が連続して与えられたり、外れ値が与えられた際には、前後の座標位置とともに平滑化することによって、ハンド２４をスムーズに動かすように指定している。

センサ入力／出力ボード４４は、モータ制御ボード４２と同様に、ＤＳＰで構成され、各センサからの信号を取り込んでコンピュータ３６に与える。接触センサ４８は図１では図示していないが、たとえばハンド２４の表面に設置され、ユーザ２８が接触したことを検知できる。カメラ５０はユーザ２８などを撮影するもので、映像信号を出力する。接触センサ４８およびカメラ５０の映像信号はコンピュータ３６に入力され、コンピュータ３６は、それらの信号を処理または分析して、ユーザ２８からロボット１２に対して与えられた返答（後述)が肯定を意味するのか、否定を意味するのかなどを判断することができる。

音声入力／出力ボード４６もまた、同様に、ＤＳＰで構成され、コンピュータ３６から与えられる音声合成データに従った音声または声がスピーカ５２から出力される。また、マイク５４からの音声入力が、音声入力／出力ボード４６を介してコンピュータ３６に与えられる。マイク５４からの音声信号はコンピュータ３６に入力される。したがって、後述のようにロボット１２が動作を提示した後に、ユーザ２８からロボット１２に対して音声で返答（リアクション）を返すこともできる。

また、コンピュータ３６は、バス３８を介して通信ＬＡＮボード５６に接続される。通信ＬＡＮボード５６は、たとえばＤＳＰで構成され、コンピュータ３６から与えられた送信データを無線通信装置５８に与え、無線通信装置５８は送信データを、ネットワークを介して外部コンピュータ（たとえばサーバ３４）に送信する。また、通信ＬＡＮボード５６は、無線通信装置５８を介して、たとえばサーバ３４から送信されたモーションキャプチャデータ（時系列データ）を受信し、受信した時系列データをコンピュータ３６に与える。

図１および図２に示す実施例のロボットシステム１０において、ユーザ２８は、たとえば手で何か目印になる物体を持つなどした状態で、自分の腕３０を動かして、腕型ロボット１２に向かって、厳密には、３次元モーションキャプチャカメラ３２に向かって、動作を提示する。発明者等が実験で採用した、ユーザ２８が提示する動作の一例が図３および図４の写真で示されている。図３の動作は、手先（物体)を上下に動かす（１→２）「上下動作(Up-down motion)」であり、図４に示す動作は、手先（物体)で四角形を描くように動かす（１→２→３→４）「四角形動作(Square motion)」である。

このような動作を含んでユーザ２８は、セッションの中で図５に例示する動作系列をロボット１２に対して提示する。ただし、ユーザ２８は、このとき、動作はこれらの特徴的な動作を含む形で他の動作と連続的に提示してもかまわない。

ユーザ２８とロボット１２とがことのように相互作用（やりとり）をしている一連の時間を「セッション」と呼ぶ。１つのセッションは、たとえば、ユーザ２８がロボット１２の存在する部屋に入ってきたときから始まり、その部屋からユーザ２８が出るまで続き、あるいは、ロボット１２が人間２８の動作を観察し始めてそれが終わるまでを１つのセッションとすることもある。

セッションの時間中、ユーザ２８がたとえば図５のように提示した動作系列が、３次元モーションキャプチャカメラ３２で撮影され、その結果、サーバ３４がその一連の動作系列に応じた時系列データを作成する。この時系列データは、上で説明したように、たとえば無線によって、腕型ロボット１２のコンピュータ３６に与えられる。時系列データがサーバ３４から与えられると、ロボット１２のコンピュータ３６は、図６の最初のステップＳ１でその時系列データをメモリ４０（図２）のＲＡＭに一時記憶する。

つまり、セッションが行われている間、３次元モーションキャプチャカメラ３２がユーザ２８の示す動作系列を取得し、サーバ３４が、その動作系列をベクトル値に変換して時系列データを得る。ただし、実際のセッションで起こりうる人間（ユーザ）の動作すべては有限次元ベクトルですべて捉えられるものでもないので、サーバ３４では、特徴量を有限次元ベクトルとして得て、時系列的に保存することによって、時系列データを生成する。したロボット１２では、複数のセッションを通じて複数の時系列データが入手できる。そして、各セッションはそれ自体のトピックをある程度保持している。

続いて、コンピュータ３６は、ステップＳ３において、以下に詳細に説明するように、ＳＡＲＭを用いて文書を生成する。ＳＡＲＭは、多次元の時系列を複数の自己回帰（AR:autoregressive model）モデル（線形モデル）とその切り替わりによりモデル化する手法であり、これによって、連続的な時系列が各個別の時系列へ分割される。

各ＡＲモデルを表す隠れ状態はマルコフ過程に基づいて遷移するとものする。ＳＡＲＭはＭ個の隠れ状態を持つ。時刻ｔにおける隠れ状態をｓ_ｔとしたとき、隠れ状態ｊ=s_tは数１で示すＡＲモデルを持つ。

ここで、ｘ_ｔは時刻ｔにおける時系列情報の状態量、すなわちロボット１２が獲得したユーザ２８の腕の関節角などの情報であり、ｖ_ｔ〜Ｎ（０，Ｑ_ｔ）はノイズを表す。

まず、ロボット１２が時系列データｘ_{１：Ｔ（ｔ＝１〜ｔ＝}Ｔまでの時系列情報）を観測した際に、どのＡＲモデルから生成されたものとして認識されるかについての計算機構について説明する。このためには、事後確率Ｐｒ（ｓ_ｔ＝ｊ｜ｘ_１：Ｔ）を計算する必要がある。隠れ状態遷移がマルコフ過程に従うとすると、事後確率Ｐｒは数２で計算される。

ここで、ｃは正規化定数であり、Ｚは隠れ状態の遷移確率行列である。Ｚ（ｉ，ｊ）が隠れ状態ｉからｊの遷移確率を表す。数３は、ｊ番目のＡＲモデルによる時刻ｔにおける予測誤差に基づく尤度を表わす。

ここで、Ｎは中心をＡ_ｊｘ_ｔ−１、そして分散共分散行列をＱ_ｊとした多次元正規分布を表す。backward（バックワード）の計算により以下のように計算される。

ここでの導出は、ほとんどＨＭＭ（hidden Markov model：隠れマルコフモデル）と同様である。パラメータＡ_ｊ、Ｑ_ｊ、Ｚも以下のＥＭアルゴリズム（expectation-maximization algorithm）を用いることで推定することができる。

ここで、Ｗ_ｔ ^ｊ≡Ｐｒ（ｓ_ｔ＝ｊ｜ｘ_１：Ｔ）、Ｐ_ｔ≡ｘ_ｔｘ’_ｔ、かつＰ_ｔ≡ｘ_ｔｘ’_ｔ−１。ただし、Ｚは固定とした。しかしながら、初期の分布Ｐ（s_１＝ｊ)＝π_ｊを推定し、さらには、Ｚ（ｉ、ｊ）も推定するようにしてもよい。

次に、計算された事後確率から最大のＡＲモデルを選ぶことで、時系列データを文字列、すなわち文書に変換する。つまり、ステップＳ３では、多次元時系列データの各時系列（セグメント）をモデル化し、同じモデルを同じ文字で表すことによって、時系列データを離散的な文字列、すなわち文書に変換する。

ここで、ｓ_ｔ ^＊は最も尤もらしい隠れ状態を指す。隣接する同じ隠れ状態を無視することで、図７に示すように、隣接する文字は必ず異なる文書へ圧縮される。これにより、セッション数と同じだけの文書を獲得することができる。このようにして、ステップＳ３において時系列に基づいて文字列（文書）を生成する。したがって、このステップＳ３が文書または文字列生成手段として機能する。

この後に、ロボット１２すなわちコンピュータ３６は、図６のステップＳ５において、図５に示す一見意味のない文字列からキーワード（有意な分節）を抽出する。したがって、このステップＳ５が有意な分節またはキーワード抽出手段として機能する。

一般的に、隠れ状態の列により形成されるn-gram（n-gramは文書中で連続するｎ個の文字を意味する。たとえば、［１，３，４，５］、や［２，１，２，１］など）はある種の動作系列を表象するが、そのほとんどの動作はユーザにとって意味がない。たとえば、隠れ状態が１０存在するとした場合、4-gramにより動作モーションが形成されると、主動作の候補は組み合わせから約７０００に上る。この非常に多い候補をユーザのリアクションを通じた教示のみにより絞っていくことは困難である。そこで、その中から全セッション通じてのインタラクションで得られた統計的な情報を用いてキーワードを抽出することが重要となる。

キーワードを抽出する手法として、実施例では、たとえば梅村氏の「辞書を用いないキーワード抽出法」（梅村恭司「未踏テキスト情報中のキーワード抽出し開発」IPA未踏ソフトウェア創造事業平成１２年度開発成果論文http://www.ipa.go.jp/archive/NBP/12nendo/12mito/mdata/10-36h/10-36h.pdf 2000.)を利用する。

辞書を使わずに未知の文書から意味のある分節を切り出すことは日本語のような空白で単語が区切られていない言語では難しい。多くのキーワード抽出手法では形態素解析を用いたり、辞書を用いるアプローチがなされていた。

これに対して梅村氏は、キーワードが文書中に偏って現れる性質に着目して新規なキーワード抽出手法を提案した。人間によってかかれた文書群では、もし、文書のトピックがキーワードに関係するならば、キーワードは文書中に複数回現われ易い傾向があることが知られている。この興味深い定量的な傾向性は自然言語で書かれた文書において示されている（K. Church. Empirical estimates of adaptation: the chance of two noriegas is closer to p/2 than p 2. Proceedings of the 17th conference on Computational linguistics-Volume 1, pages）。一方で、キーワードとなる語は他の文書中では殆ど出てこない。この仮定に基づき、梅村氏はn-gramがキーワードかどうかをスコアリングする非常に簡単な手法を提案した。スコアが高いほどそのn-gramはキーワードである可能性が高いと見なされる。

統計量に基づいたそのスコアは“positive adaptation”と呼ばれる。Church氏はpositive adaptationを以下で定義した。

ここで、ＤＦ_ｋ（Document Frequency k）は指定のn-gramをｋ個かそれ以上含む文書の数を示す。ＤＦ_ｋは文書検索などの領域で有名なdocument frequency ＤＦを一般化したものである。ＤＦは指定のn-gramを含む文書の数（文書頻度）である。

しかし、positive adaptationだけではキーワードかどうかを特定するのに不十分である。なぜならば、部分文字列も元の文字列とほぼ同じpositive adaptationを持つからである。たとえば、「パイナップル」と「パイナップ」は殆ど同じ頻度で同じように現れる。

この問題を解決するために、梅村氏は、このスコアの和が最大になるように文書を分節化することで、n-gramの境界を求めた。n-gramのスコアは以下で表される。

ここで、ＵＢ（Upper Bound）は設計者により決定されるメタパラメータである。一般的に、ＵＢが１．０に近いと、対象の文書は細かく分節化され、ＵＢが０．０に近いと、対象の文書は粗く分節化されることになる。

もし、ＤＦ_２＞ＭＡならばn-gramは「ワードリスト」（word list）にそのスコアと共に登録されることにした（図８参照）。ＭＡ（Minimum Appearance最小出現頻度）はワードリストの大きさを決めるメタパラメータである。図８に示すワードリストは、ワードスコア表であり、時系列データをモデルで分節化した結果得られた文書の集合から統計的に計算されるものであり、ＳＡＲＭで求めたＡＲモデルとともに、メモリ４０に保存される。つまり、このワードリストは、ＡＲモデルが示す文字を含む文字列（ワード）のスコアを計算したものであり、後述のキーワード抽出の際に利用する。

梅村氏の研究では、これらのパラメータ、ＵＢやＭＡは発見的に定められていた。しか
し、実験結果は明白にこれらの値に依存する。もし、対象のn-gramがランダムに文書中に分布しているならばＰｒ(+adapt)＝ＤＦ_１／ＤＮとなる。ここで、ＤＮ（Document Number）は文書の総数を示す。実施例では、Ｐｒ(+adapt)にスケーリングのためのlogをかけたものを単純にキーワードかどうかのスコアとした。

また、梅村氏の方法と同じく、文書の最適な分節を特定するために、各n-gramのスコアを文書の分節の基準として用い、分節化した後の文書に含まれる語のスコアが最大になるように分節化を行なった。最適な分節の計算においては、Viterbi search（ビタビ探索)を用いた。これは計算量を減らすためである。ワードリストに登録されていない語のスコアは、−１００００とした。

このようにして、ステップＳ３で時系列データの分節化を行った後に、ステップＳ５で、分節化された文書からキーワード（意味のある文節）を抽出する。ただし、発明者等の実験では、以下の条件を満たすものをキーワードとして抽出した。
１．ＤＦ２／ＤＮ＜Ｆ_max
２．score＞score_min
３．１つより多くの文字を含むこと。

このキーワード抽出手法は最終的に４つのメタパラメータを含む。ＵＢ、ＭＡ、Ｆ_maxとscore_minである。これらは実施例において発見的に決定されているが、将来的にはその決定手法についても検討する必要がある。

このようにして、キーワード（有意な分節）を獲得したら、コンピュータ３６は、そのキーワードをメモリ４０に保存する。

ここまでのステップＳ１-Ｓ５を実行することによって、ユーザ２８とのセッションを通じて取得した非分節な時系列データを分節化でき、ステップＳ５が終わった時点で、有意な分節（キーワード）が保存できる。したがって、一連の動作としてはこのステップＳ７で一旦終了する。

その後、ロボット１２が別途、図６のステップＳ７以降に示す処理を実行することによって、ロボット１２が上述のようにして学習した動作の評価をする。したがって、本来的には、ステップＳ５までの処理とステップＳ７以降の処理とは連続する必要はないのであるが、他方、その連続処理を排除するものでもない。したがって、図６に示す実施例では、これらの処理を連続して実行するものとし、以下説明する。

ステップＳ７で、ロボット１２は、ステップＳ５で保存したキーワードを用いて動くことによって、ユーザ２８に対して、キーワードに基づいて再現した動作を提示する。つまり、コンピュータ３６がキーワードに含まれた文字に従って、ステップＳ３で用いたＳＡＲＭに含まれるＡＲモデルを起動することによって、モータ制御データを獲得し、ロボット１２の第１関節２０および第２関節２２を動かす。詳しくいうと、キーワードを抽出した後に、コンピュータ３６は、元の時系列データから、そのキーワードが用いられていたときに、それぞれの隠れ状態にどれだけの時間滞在したかの平均を算出する。また、コンピュータ３６は、キーワードに相当する動作が開始される初期位置についても同様にして求める。これらの情報を用いることによって、コンピュータ３６がモータ制御データを生成して、モータ制御ボード４２（図２）へ与える。それによって、ロボット１２が、文字で書かれたキーワードに従って実世界の連続値の動作系列を生成する。

ロボットがインタラクションにおいて意味のある動作をした場合、たとえば、「手を振る」、「バイバイ」、「お辞儀をする」などをした場合は、その前にいるユーザ２８も何かしらかの意味のある動作を返す可能性が高まるものと仮定する。そうすると、その応答に意味のある動作が含まれているかどうかは、獲得したＳＡＲＭとワードリストを用いることで認識することができる(図９参照)。

実施例では、ロボット１２が、抽出したキーワードに基づいて主動作（key motion）であると考えるものをユーザ２８に提示した後に、ユーザ２８は、ロボット１２に対してリアクション（返答動作）を返す。そこで、ステップＳ９で、先に説明したステップＳ１‐Ｓ３を再度実行することによって、ロボット１２がユーザ２８のリアクションに含まれる動作系列を再度観測するようにした。

この再度の観測の結果、ステップＳ１１で、ユーザ２８が再提示した動作系列の中に上記した主動作が含まれていることを検知すれば、そのときのロボット１２の動作は、ユーザ２８にとって意味あるものであったと考えることができる（正のフィードバック）ので、ステップＳ１１で“ＹＥＳ”が判断され、ステップＳ１３において、ロボット１２がステップＳ７で提示した動作の信頼度を増加または加算する。逆に、ユーザ２８のリアクション中の動作系列に上記した主動作が含まれていることが検知できなければ、その提示動作はユーザ２８にとって意味のない動作であった（負のフィードバック）と判断できる。したがって、ステップＳ１１で“ＮＯ”が判断され、ステップＳ１５において、提示動作の信頼度を減少または減算する。つまり、提示動作の信頼度がユーザのリアクションによって評価される。

続いて、ステップＳ１７において、コンピュータ３６は、ステップＳ１３またはＳ１５で増減した信頼度が、予め設定してある閾値より小さいかどうか判断する。ステップＳ１７で“ＮＯ”が判断されたとき、つまり、提示動作に一定の信頼性があった場合には、そのまま終了する。ただし、ステップＳ１７で“ＹＥＳ”が判断されたとき、つまり、提示動作に信頼性がなかった場合には、ステップＳ１９で、先のステップＳ５でメモリ４０に保存したキーワード（分節）を破棄して終了する。ただし、ステップＳ９‐Ｓ１９の評価は、１回だけのユーザのリアクションで判断してもいいし、数回のリアクションを通じて判断するようにしてもよい。さらに多くの試行を経て統計的な情報を獲得してから判断することもできる。このように、提示動作の評価を行ない、その評価が一定以上であるときはキーワードやワードリスなどをそのまま保存しておき、評価が低い場合には、保存したキーワードやワードリスなどを破棄することによって、ロボット１２が正しい動作を学習することができる。

先に述べたように、ロボット１２は、獲得したＳＡＲＭ、ワードリストおよびキーワードを用いて主動作と考える動作をユーザ２８に提示し、それに対するユーザ２８のリアクションを認識する。もし、ユーザ２８がいつもロボット１２のある動作Ａに対して動作Ｂを返しているとすれば、その動作Ｂは動作Ａへの応答として用いるものであることをロボットは認識することができる。この対を観測することで、ロボットはユーザが動作Ａを行ったときの返答として動作Ｂを用いることができるようになる。つまり、ロボット１２とユーザ２８との間で役割反転が生じ、ロボット１２はそれによってユーザ２８の動作を模倣学習することができる。このように、ロボット１２（のコンピュータ３６）は、先のステップＳ７で生成してユーザ２８に提示した提示動作に対するユーザの応答動作をステップＳ９およびＳ１１で認識することによって、ユーザがＡ動作を示したときにはＢ動作をそれに対する返答として生成すべきだというルールすなわち応答戦略を獲得することができる。つまり、これによって、応答戦略獲得手段が形成される。
実験
発明者等は、提案手法の有効性を確かめるために図１に示すようなユーザ２８とロボット１２とのインタラクションのための環境を構築した。実験ではユーザ２８の右手先のＸ軸、Ｙ軸、Ｚ軸が３Ｄモーションキャプチャカメラ３２によって観測し、それぞれの時刻ｔにおける値を、ｘ_ｔ、ｙ_ｔ、ｚ_ｔとした。実験では、簡単のため手先の模倣だけを論じる。

先に説明したように、ロボット１２はコンピュータ３６によってハンド座標を指定することでそのハンド２４が動かされるように設計してある。目標位置が連続して与えられたり、外れ値が与えられた際には、時系列情報を平滑化することで動く。ロボット１２は、モーションキャプチャを通して、ユーザ２８の手先座標を観測できる。状態変数はｘ_ｔ＝（ｘ^o _ｔ、ｙ^o _ｔ、ｚ^o _ｔ、ｃ）と定義した（ここで、ｃ＝１００は定数）。また、各次元の単位は［mm］である。さらに、ロボット１２はユーザ２８の手先座標を自らの手先座標に直接的に写像することができるものとする。

実験ではユーザ２８はロボット１２に２１セッション分の動作を提示した。１セッションは約２０秒ほどの時間であった。モーションキャプチャにおけるサンプリングレートは、２５［Ｈｚ］であった。それぞれのセッションでは、それぞれのセッションに特徴的な動作が中心的に示された。図３および図４に示す２種類のターゲット動作を準備した。どれだけの長さのインタラクションを行うかは、そのときの実験者（ユーザ２８）に委ねた。

セッション１−７では実験者(ユーザ２８)は、主にup-down motionを提示した。またセッション８‐１４では主にsquare motionを提示した。他のセッションではこれらの動作や他の動作がランダムに提示された。これらの時系列を実験者は明示的には分節化せずに、他の動作も混ぜながら連続して与えた。したがって、ロボット１２はどこからどこまでがup-down motionなのか、どこからどこまでかsquare motionかは自ら発見しなければならない。また、いくつのどのような動作が学習対象なのかすらロボットは自ら発見しなければならない。さらに、ロボット１２は何通りの動作をユーザ２８が教えようとしているのかについても教えられていない。図５にユーザが提示した動作（セッション）の一例を示す。

この実験では意味ある動作が連続して繰り返し提示される必要もないし、その間に意味のない動作が挿入されてもかまわない。

これらの後にＳＡＲＭのパラメータ（｛Ａ_ｊ、Ｑ_ｊ}）が２１回のセッション情報を基に推定された。Ｚは一定とした。Ｚの直行成分の０．９６４、その他の成分は０．００４とした。隠れ状態の数は発見的に１０と定めた。ＡＲモデルの初期値は乱数を用いて決定した。ＥＭアルゴリズムは５回繰り返し適用してＡＲモデルのパラメータを決定した。これらのパラメータを用いて、ＳＡＲＭは事後確率Ｐｒ(ｓ_ｔ＝ｊ｜ｘ_１：Ｔ）をそれぞれのセッションに対して求めた(数４)。

最も尤もらしい隠れ状態の系列｛ｓ_ｔ ^＊｝がその事後確率から決定された(数８)。

この系列を圧縮することでロボットは２１の文書を得た。

この後にキーワード抽出手法を用いて、最終的にいくつかのキーワードとワードリストを獲得した。実験ではパラメータは｛ＵＢ＝０．９、ＭＡ＝２、Ｆmax=０．４、score_min＝０．５}とした。
結果
学習結果としてＳＡＲＭのパラメータが推定され、ワードリストが計算された。

キーワード抽出が行われ、７つのキーワードが抽出された。それらは［７，９，０，５，３，０，７］，［９，０，５，３，０，７］、［９、０，５，３］、［７，９，４，３］、［０，７，９，０，５］、［３，０，７］、［９，４，３］（ただし、各数値はＳＡＲＭの隠れ状態を表している。）であった。

これらの意味を理解するために、ロボット１２にそれぞれに従って上述のようにして動作を生成させたところ、［７，９，４，３］と［９，４，３］がup-down motionに相当していた。この２つの違いは［７，９，４，３］が一度テーブルの上に手を止めてから腕を挙げるのに対し、［９，４，３］は直接手を挙げるというものであった。［７，９，４，３］により生成された動作を図１０に示す。

さらに、［７，９，０，５，３，０，７］がsquare motion に相当することが分かった。さらに、［９，０，５，３，０，７］と［９，０，５，３］がsquare motion の部分であることが分かった。このことは、キーワード抽出器（ステップＳ７）が完全には部分文字列を排除できていないことを示している。［７，９，０，５，３，０，７］から生成された動作を図１１に示す。［３，０，７］は手を置いた位置から少し手を右に動かす動作であった。

対して、［０，７，９，０，５］は実験者（ユーザ）にとって説明しがたい動作であった。しかしながら、このような動作もこの実施例では抽出されうる。実施例の手法が自己組織化型学習であり、教師あり学習ではないため、このような想定外の学習結果を含むことは大いにあり得る。［０，７，９，０，５]により生成された動作系列を図１２に示す。これらはユーザにとって意味ある動作ではないので、ロボットは自らそれに気づく必要がある。

獲得の後に、ロボットに５回づつ各動作を提示させた。実験者はロボットが意味ある動作（つまり、[７，９，０，５，３，０，７](square motion)、［７，９，４，３］か［７，４，３］(up-down motion)をした際には、返答としてup-down motionを返した。しかし、それ以外の動作に対しては実験者はロボットに何も返さなかった。

ロボットに動作を提示した後５秒間実験者の動作を観測させた。実験者がup-down motionを提示しなかったときでもユーザの動作時系列情報は持続的にロボットが得ている点は注意すべきである。

もしロボットにロボットの動作に対する応答としてup-down motionが返ってきたとしたら十分な確率でロボットはその動作を意味ある動作［７，９，４，３］もしくは［７，４，３］として認識することができる。そして、ロボットは自らの動作が実験者にとって有意味であったと知ることができる。逆に意味ある応答を得られなかった場合には。ロボットは自らの動作がユーザにとって無意味だったことを知る。このユーザのリアクション（返答)を用いることで、最終的にロボットはユーザが意味ある動作とした、２つの意味ある動作を獲得することができた。

これらの結果は、実施例の模倣学習の枠組みがロボットがいくつかの動作を獲得し、それらを認識し、さらに実験者にとって有意味なキーワードを特定できることを示している。

ロボットはこのプロセスで［７，９，４，３］が［７，４，３］提示されたときはup-down motionを返答として出すべきだというルール（応答戦略）を獲得することもできる。これは最も簡単な役割反転模倣（role-reversal imitation）の枠組みである。それゆえ、実施例の枠組みは非分節な人間ロボット相互作用から最も簡単なレベルではあるが、役割反転模倣を可能にする枠組みであると言うことができる。

なお、上述の実施例ではユーザ２８が提示する動作を表現している時系列をステップＳ５でのモデリングの手法として、ＳＡＲＭを利用したが、このモデリング手法としては、これに限らず、たとえば、ＨＭＭ（隠れマルコフ）でもよいし、適当な時間幅の窓をと時系列をＡＲ(自己回帰)モデルでモデル化したものをパラメータ空間中でk‐means法、混合正規分布などでクラスタリングしてもよい。また、mixture of expertsを用いてもよい。

さらに、他にも複数の学習器からなる競合モデルを用いてもかまわない。

たとえば、有限個の統計モデルの切り替わりにより時系列をモデル化し、統計的計算からそれぞれの各時刻でのモデルの貢献度合い（事後確率や責任信号、ファジィ真理値など）を計算可能で、それらの情報を用いて（基本的にはそれらの値が最大となるモデルを選択する）各時刻の担当モデルを決定することによって、結果として時系列を分節化しつつ、モデル化し、また、それらの情報を用いて時系列を生成できるものならなんでもよい。

また、３次元モーションキャプチャを用いてユーザ２８の動作系列の時系列を作成してロボット１２に与えるようにしたが、時系列の入力装置は、人間の動作情報を有限次元のベクトルの時系列情報として得られるものならなんでもよい。そして、その動作は、実施例のような手先の動作であってもかまわないし、ロボット１２がヒューマノイドロボットのように全身構造を有する場合には、全身の動作であってもかまわない。

また、動作を表現するベクトルは、手先などの指定部位の空間座標でも、関節角度の情報であっても、ユーザの部屋の中の位置情報であってもよく、ユーザ２８の動きを表象する情報であればよい。さらに、その情報は位置や速度といった力学的なものである必要もなく、多次元ベクトルとしての映像情報や音情報であっても、ある種の特徴変換を用いても用いずとも結果として有限次元のベクトルとして時系列的に得られるものであれば構わない。

また、それはユーザの部屋の中の位置といったような俯瞰的な情報であっても構わない。

それゆえに、時系列データを入力するための入力装置は実施例のようなカメラ式のモーションキャプチャであってもよく、ジャイロ式のモーションキャプチャであっても構わないし、通常のビデオカメラであっても、ユーザの位置を特定するＧＰＳであっても、センサネットワークであっても構わない。

ステップＳ５でのキーワード抽出のために実施例では、梅村氏の提唱する「辞書を用いないキーワード抽出」の手法を採用したが、その際、各パラメータは異なる値であってもよく、また、特に梅村氏の手法に限らず、各シンボルの分布情報を用いて、文書を分節化し、キーワード抽出を行う手法であれば何であっても構わない。

ロボット１２は、実施例のような腕型ロボットやヒューマノイドロボットの他、他の任意の形式のロボット、たとえば犬型ロボットなど、人間の動作を模倣した結果を出力できるものなら何でも構わない。また、コンピュータやテレビ、ゲーム機のディスプレイ上やプロジェクタ上に映し出される仮想空間上のロボットや仮想生命体、その他のエージェントでも構わない。

さらに、ステップＳ９においてロボット１２が獲得した動作を再現してユーザ２８に提示したとき、実施例では、ユーザ２８が主動作を再提示するユーザリアクションをステップＳ１１の前に行うことによって、ロボット１２は自分が獲得した動作が正しかったかどうか、つまりステップＳ１３で「提示動作がユーザリアクション中に見えたかどうか」を判断するようにした。しかしながら、より明示的なフィルタリングであっても構わない。たとえば、事前に設計した強化信号、つまり、頭をたたく動作や、音声によって「めっ！」「違う」などで候補を除去し、さらには、頭をなでたり、「よし」という言葉で強化を行うのでも構わない。そのために実施例の接触センサ４８やマイク５４（いずれも図２）が利用できる。これらを用いない場合、当然、接触センサ４８やマイク５４を設ける必要はない。

ただし、このようなユーザによるフィルタリングは特にはなくても構わない。

なお、学習順序についていえば、たとえばＳＡＲＭを用いて離散的な文字列を生成するのは、ユーザとのセッション毎でも構わないし、数セッションをためてからでも構わない。これは、文字列からキーワードを抽出する場合についても同様である。

実施例では、ロボット１２がサーバ３４から無線によってモーションキャプチャデータを時系列情報として受け取るようにしたが、ロボット１２自身が３次元モーションキャプチャカメラ３２の映像信号を処理することによって、自身でモーションキャプチャデータを作成するようにしてもよい。さらには、３次元モーションキャプチャカメラをロボットに組み込んでしまうこともできる。その場合には、ユーザ動作を取得するときには一定の姿勢を保持しておく必要がある。

さらに、ロボット１２内のコンピュータ３６がロボットの動作を制御するようにしたが、ロボットとしては関節など必要な機械的構造とそれらを直接制御する電気回路構造だけを有するものとし、実施例のコンピュータ３６に相当するコンピュータはロボットとは別に設けたものでよい。その場合には、ユーザ動作を表現したモーションキャプチャデータ（時系列)はその別のコンピュータに与えられる。したがって、前述のようにした獲得または学習した有意な動作系列（キーワード）はその別のコンピュータに保存されることになる。

図１はこの発明の一実施例を示すロボットシステムの概要を示す図解図である。図２は図１に示すロボットの電気的な構成を示すブロック図である。図３は図１システムにおいてユーザが提示する動作の一例を示す写真である。図４は図１システムにおいてユーザが提示する動作の他の例を示す写真である。図５は図１システムにおいてセッションの過程でユーザが提示する動作系列の一例を示す写真である。図６は図１の実施例におけるロボットの動作を示すフロー図である。図７は時系列を分節化して離散的な文字列を生成することを示す図解図である。図８はキーワードの決定の際のスコアを例示する図解図である。図９(ａ)は図１システムにおいてユーザが提示する動作をＳＡＲＭで推定した隠れ状態を示すグラフであり、図９(ｂ)はロボットがユーザに提示した動作の時系列を例示するグラフである。図１０は図１システムにおいてロボットがUp-down motionについて獲得したキーワードを使ってユーザに提示した動作例を示す写真である。図１１は図１システムにおいてロボットがSquare motionについて獲得したキーワードを使ってユーザに提示した動作例を示す写真である。図１２は図１システムにおいてロボットが不明動作について獲得したキーワードを使ってユーザに提示した動作例を示す写真である。

符号の説明

１０ …ロボットシステム
１２ …腕型ロボット
２０ …第１関節
２２ …第２関節
２８ …ユーザ
３２ …３次元モーションキャプチャカメラ
３４ …サーバ
３６ …コンピュータ
４０ …メモリ
４２ …モータ制御ボード

Claims

各々が連続する動作を示す複数の時系列データからモデルを獲得することによって、モデルが示す離散的な文字列を含む文書を生成する文書列生成手段、および
前記文書に含まれる文字列から意味のある分節を抽出して保存する分節抽出手段を備える、動作学習装置。
前記文書列生成手段は、前記時系列データをモデル化することによって各時系列の隠れ状態示す文字列およびスコアを含む文書を生成し、そのスコアの和が最大になるように文字列を分節化する、請求項１記載の動作学習装置。
前記意味のある分節と前記モデルを利用して動作を生成する動作生成手段をさらに備える、請求項１または２記載の動作学習装置。
ユーザのリアクションに基づいて前記動作生成手段が生成した動作を評価する評価手段をさらに備える、請求項３記載の動作学習装置。
前記評価手段による評価が低いとき、前記保存した分節を破棄する破棄手段をさらに備える、請求項４記載の動作学習装置。
前記文書生成手段はＳＡＲＭを用いる、請求項１ないし５のいずれかに記載の動作学習装置。
請求項１ないし６のいずれかに記載の動作学習装置を備える、ロボット。
ユーザが提示する、各々が連続する動作を示す複数の時系列データからモデルを獲得することによって、モデルが示す離散的な文字列を含む文書を生成する文書列生成手段、
前記文書に含まれる文字列から意味のある分節を抽出して保存する分節抽出手段、
前記意味のある分節と前記モデルを利用して動作を生成しユーザに提示する動作生成手段、および
前記動作生成手段が提示した動作に対するユーザのリアクションを認識することによって応答戦略を獲得する獲得手段を備える、ロボット。