JP4296736B2

JP4296736B2 - ロボット装置

Info

Publication number: JP4296736B2
Application number: JP2001317315A
Authority: JP
Inventors: 雅博藤田; 剛高木; 里香堀中; 順横野; コスタガブリエル; 秀樹下村; 活樹南野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-10-13
Filing date: 2001-10-15
Publication date: 2009-07-15
Anticipated expiration: 2021-10-15
Also published as: JP2002219677A

Description

【０００１】
【発明の属する技術分野】
本発明は、ロボット装置やそのようなロボット装置の行動制御方法に関する。
【０００２】
【従来の技術】
近年、外観形状が犬等の動物に模して形成されたロボット装置が提供されている。このロボット装置は、例えば、外部からの情報や内部の状態（例えば、感情状態）等に応じて、動物のように行動する。そして、このようなロボット装置には、ボールを蹴るなどの行動をするものがある。さらに、このようなロボット装置には、学習機能を備えているものもある。例えば、学習機能としては、言語学習機能が挙げられる。
【０００３】
【発明が解決しようとする課題】
ところで、ペット型のロボット装置における１つの究極の目標はライフライク（Life-like）なロボット装置を構成することである。これは換言すれば、オープンエンディット（OPEN-ENDED）なシステムを構築することといえる。
【０００４】
従来は、いかに複雑度を増して見せるか、ということでライフライク（life-like）なロボット装置を構成するという目標に近づけている。その中には、学習や成長といった要素も考慮されている。
【０００５】
しかし、その実装は行動生成のために固定的に設定してある確率的ステートマシンの確率を強化学習により変更或いはステートマシン全体の取り替えにより実現している。
【０００６】
行動の生成頻度やそのパターンはユーザーや外界とのインタラクションにより変化し、ロボット装置がもつ複雑度を増してはいるものの、設計者（プログラマー）が最初に想定した行動、反応を超えるものではない。同じく、ロボット装置により認識可能とされる対象物は限定的なものとされており、これにより、プログラマーが設定した以外のものを認識することができない。これらは、未知刺激に対してどのように行動するかを決定する能力を欠いていることを意味している。
【０００７】
設計者の設定を超えるオープンエンディット（OPEN-ENDED）なシステムを作るために必要なことは、以下のことである。
（１）未知刺激を認識できる能力
（２）新たな行動を創生する能力
（３）未知刺激に対する適切な行動を選択する能力
さらに、ペット型のロボット装置であることを考慮した場合、人間とインタラクションする能力は特に重要である。様々な未知の事柄を学習する場合も、人間とのインタラクションを通じて学習することが多いのも事実である。
【０００８】
人間とのインタラクションにおいて最も重要になるものが言語によるコミュニケーションである。上述の（１）の未知刺激を認識する能力に関しては、適切なカテゴライズとそのシンボル（Symbol）としての名前を獲得することや、その行動の名前を獲得することがその第１歩になると考えられる。これはいわゆる言語獲得といわれる研究分野であるが、特にそれらのシンボルは物理的に関連付け或いは接地（Ground）していることが重要であることが指摘されている。
【０００９】
これ関しては、例えば、Kaplanによる報告（Kaplan, F. Talking AIBO: First experimentation of verbal interactions with an autonomous four-legged robot. In proceedings of the CELE-Twente workshop on interacting agents, October, 2000、以下、文献１という。）、Royらによる報告（Roy, D. and Pentland A. Learning words from natural audio-visual input, in proceedings of International Conference on Spoken Language Processing, 1998、以下、文献２という。）、或いはSteelsによる報告（Steels, L. Perceptually Grounded Meaning Creation, In proceedings of the International Conference on Multi-Agent Systems, 1996、以下、文献３という。）で挙げられている。
【００１０】
また、上述の（２）の行動獲得に関しては、イミテーション（imitation）によるもの、補強学習（reinforcement learning）によるもの、Evolutionary Computingによるものなどがある。
【００１１】
これに関しては、Damasioによる報告（Damasio, A. Descartes' Error: Emotion, Reason, and the Human Brain, Putman Publishing Group, 1994、以下、文献４という。）やMataricによる報告（Mataric, M., Sensory-motor primitives as a basis for imitation: Linking perception to action and biology to robotics, Imitation in Animals and Artifacts, C. Nehniv and K. Dautenhalm (eds), The MIT Press, 2000、以下、文献５という。）等に挙げられている。
【００１２】
しかしながら、上述の（３）の未知刺激に対する適切な行動に関しては、実世界においては非常にプリミティブなものが報告されているだけである。或いは仮想的な世界でいくつかの関連するものがあるだけである。
【００１３】
この上述の（３）の意味するところは、その物体がロボット装置に対してどのような意味を持つのかをいかにして獲得するか、にある。例えばそれが食べ物なのか、遊び道具なのか、怖いものなのか、等である。そのためには認識対象物を物理的に関連付け或いは接地（ground）するだけでなく、ロボット装置の内的状態にどのように影響を及ぼすか、すなわち内的状態(例えば、primary emotion、secondary emotion等)に関連付け（ground）することが必要になる。
【００１４】
そこで、本発明は、上述の実情に鑑みてなされたものであり、よりライフライク（Life-like）に近づけられたロボット装置及びそのようなロボット装置の行動制御方法を提供することを目的としている。
【００１７】
【課題を解決するための手段】
本発明に係るロボット装置は、上述の課題を解決するために、自律行動するロボット装置であって、対象物を検出するセンサと、上記センサからの入力信号を評価する知覚用評価部と、上記知覚用評価部の評価結果が入力され、上記評価結果に基づいて変化する擬似的内部状態を管理する内部状態管理部と、上記対象物と当該対象物に基づく上記内部状態の変化との関係を記憶する記憶手段と、行動生成部とを備え、対象物が検出された際に、検出された対象物に基づく上記内部状態の変化と上記対象物とを関連させて上記記憶手段に記憶し、上記内部状態管理部は、上記内部状態の変化因子としての情報獲得欲に関連し経時的に減少する変数が新規情報の学習量である情報獲得欲求変数を有し、上記内部状態を一定に保つようにする内部状態の恒常性に基づいて上記内部状態を管理するとともに、上記恒常性が乱れたときには上記行動生成部に第１の信号を送信し、上記情報獲得欲求変数の値に基づいて上記行動生成部に第２の信号を送信し、上記行動生成部は、上記第１の信号に基づいて上記恒常性を保つための行動を生成し、上記第２の信号に基づいて上記情報獲得変数が欠乏状態を示す所定の閾値以下となったとき、該情報獲得変数を該閾値より大きくするための情報獲得行動を生成する。
【００２８】
【発明の実施の形態】
以下、本発明の実施の形態について図面を用いて詳しく説明する。この実施の形態は、周囲環境（或いは外部刺激）や内部状態に応じて自律行動をする自律型のロボット装置である。
【００２９】
実施の形態では、先ず、ロボット装置の構成について説明して、その後、ロボット装置における本発明の適用部分について詳細に説明する。
【００３０】
（１）本実施の形態によるロボット装置の構成
図１に示すように、「犬」等の動物を模した形状のいわゆるペット型ロボットとされ、胴体部ユニット２の前後左右にそれぞれ脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄが連結されると共に、胴体部ユニット２の前端部及び後端部にそれぞれ頭部ユニット４及び尻尾部ユニット５が連結されて構成されている。
【００３１】
胴体部ユニット２には、図２に示すように、ＣＰＵ（Central Processing Unit）１０、ＤＲＡＭ（Dynamic Random Access Memory）１１、フラッシュＲＯＭ（Read ０nly Memory）１２、ＰＣ（Personal Computer）カードインターフェース回路１３及び信号処理回路１４が内部バス１５を介して相互に接続されることにより形成されたコントロール部１６と、このロボット装置１の動力源としてのバッテリ１７とが収納されている。また、胴体部ユニット２には、ロボット装置１の向きや動きの加速度を検出するための角速度センサ１８及び加速度センサ１９なども収納されている。
【００３２】
また、頭部ユニット４には、外部の状況を撮像するためのＣＣＤ（Charge Coupled Device）カメラ２０と、使用者からの「撫でる」や「叩く」といった物理的な働きかけにより受けた圧力を検出するためのタッチセンサ２１と、前方に位置する物体までの距離を測定するための距離センサ２２と、外部音を集音するためのマイクロホン２３と、鳴き声等の音声を出力するためのスピーカ２４と、ロボット装置１の「目」に相当するＬＥＤ（Light Emitting Diode）（図示せず）などがそれぞれ所定位置に配置されている。
【００３３】
さらに、各脚部ユニット３Ａ〜３Ｄの関節部分や各脚部ユニット３Ａ〜３Ｄ及び胴体部ユニット２の各連結部分、頭部ユニット４及び胴体部ユニット２の連結部分、並びに尻尾部ユニット５の尻尾５Ａの連結部分などにはそれぞれ自由度数分のアクチュエータ２５_１〜２５_ｎ及びポテンショメータ２６_１〜２６_ｎが配設されている。例えば、アクチュエータ２５_１〜２５_ｎはサーボモータを構成として有している。サーボモータの駆動により、脚部ユニット３Ａ〜３Ｄが制御されて、目標の姿勢或いは動作に遷移する。
【００３４】
そして、これら角速度センサ１８、加速度センサ１９、タッチセンサ２１、距離センサ２２、マイクロホン２３、スピーカ２４及び各ポテンショメータ２６_１〜２６_ｎなどの各種センサ並びにＬＥＤ及び各アクチュエータ２５_１〜２５_ｎは、それぞれ対応するハブ２７_１〜２７_ｎを介してコントロール部１６の信号処理回路１４と接続され、ＣＣＤカメラ２０及びバッテリ１７は、それぞれ信号処理回路１４と直接接続されている。
【００３５】
信号処理回路ｌ４は、上述の各センサから供給されるセンサデータや画像データ及び音声データを順次取り込み、これらをそれぞれ内部バス１５を介してＤＲＡＭ１１内の所定位置に順次格納する。また信号処理回路１４は、これと共にバッテリ１７から供給されるバッテリ残量を表すバッテリ残量データを順次取り込み、これをＤＲＡＭ１１内の所定位置に格納する。
【００３６】
このようにしてＤＲＡＭ１１に格納された各センサデータ、画像データ、音声データ及びバッテリ残量データは、この後ＣＰＵ１０がこのロボット装置１の動作制御を行う際に利用される。
【００３７】
実際上ＣＰＵ１０は、ロボット装置１の電源が投入された初期時、胴体部ユニット２の図示しないＰＣカードスロットに装填されたメモリカード２８又はフラッシュＲＯＭ１２に格納された制御プログラムをＰＣカードインターフェース回路１３を介して又は直接読み出し、これをＤＲＡＭ１１に格納する。
【００３８】
また、ＣＰＵ１０は、この後上述のように信号処理回路１４よりＤＲＡＭ１１に順次格納される各センサデータ、画像データ、音声データ及びバッテリ残量データに基づいて自己及び周囲の状況や、使用者からの指示及び働きかけの有無などを判断する。
【００３９】
さらに、ＣＰＵ１０は、この判断結果及びＤＲＡＭ１１に格納した制御プログラムに基づいて続く行動を決定すると共に、当該決定結果に基づいて必要なアクチュエータ２５_１〜２５_ｎを駆動させることにより、頭部ユニット４を上下左右に振らせたり、尻尾部ユニット５の尻尾５Ａを動かせたり、各脚部ユニット３Ａ〜３Ｄを駆動させて歩行させるなどの行動を行わせる。
【００４０】
また、この際ＣＰＵ１０は、必要に応じて音声データを生成し、これを信号処理回路１４を介して音声信号としてスピーカ２４に与えることにより当該音声信号に基づく音声を外部に出力させたり、上述のＬＥＤを点灯、消灯又は点滅させる。
【００４１】
このようにしてこのロボット装置１においては、自己及び周囲の状況や、使用者からの指示及び働きかけに応じて自律的に行動し得るようになされている。
【００４２】
（２）制御プログラムのソフトウェア構成
ここで、ロボット装置１における上述の制御プログラムのソフトウェア構成は、図３に示すようになる。この図３において、デバイス・ドライバ・レイヤ３０は、この制御プログラムの最下位層に位置し、複数のデバイス・ドライバからなるデバイス・ドライバ・セット３１から構成されている。この場合、各デバイス・ドライバは、ＣＣＤカメラ２０（図２）やタイマ等の通常のコンピュータで用いられるハードウェアに直接アクセスすることを許されたオブジェクトであり、対応するハードウェアからの割り込みを受けて処理を行う。
【００４３】
また、ロボティック・サーバ・オブジェクト３２は、デバイス・ドライバ・レイヤ３０の最下位層に位置し、例えば上述の各種センサやアクチュエータ２５_１〜２５_ｎ等のハードウェアにアクセスするためのインターフェースを提供するソフトウェア群でなるバーチャル・ロボット３３と、電源の切換えなどを管理するソフトウェア群でなるバワーマネージャ３４と、他の種々のデバイス・ドライバを管理するソフトウェア群でなるデバイス・ドライバ・マネージャ３５と、ロボット装置１の機構を管理するソフトウェア群でなるデザインド・ロボット３６とから構成されている。
【００４４】
マネージャ・オブジェクト３７は、オブジェクト・マネージャ３８及びサービス・マネージャ３９から構成されている。オブジェクト・マネージャ３８は、ロボティック・サーバ・オブジェクト３２、ミドル・ウェア・レイヤ４０、及びアプリケーション・レイヤ４１に含まれる各ソフトウェア群の起動や終了を管理するソフトウェア群であり、サービス・マネージャ３９は、メモリカード２８（図２）に格納されたコネクションファイルに記述されている各オブジェクト間の接続情報に基づいて各オブジェクトの接続を管理するソフトウェア群である。
【００４５】
ミドル・ウェア・レイヤ４０は、ロボティック・サーバ・オブジェクト３２の上位層に位置し、画像処理や音声処理などのこのロボット装置１の基本的な機能を提供するソフトウェア群から構成されている。また、アプリケーション・レイヤ４１は、ミドル・ウェア・レイヤ４０の上位層に位置し、当該ミドル・ウェア・レイヤ４０を構成する各ソフトウェア群によって処理された処理結果に基づいてロボット装置１の行動を決定するためのソフトウェア群から構成されている。
【００４６】
なお、ミドル・ウェア・レイヤ４０及びアプリケーション・レイヤ４１の具体なソフトウェア構成をそれぞれ図４に示す。
【００４７】
ミドル・ウェア・レイヤ４０は、図４に示すように、騒音検出用、温度検出用、明るさ検出用、音階認識用、距離検出用、姿勢検出用、タッチセンサ用、動き検出用及び色認識用の各信号処理モジュール５０〜５８並びに入力セマンティクスコンバータモジュール５９などを有する認識系６０と、出力セマンティクスコンバータモジュール６８並びに姿勢管理用、トラッキング用、モーション再生用、歩行用、転倒復帰用、ＬＥＤ点灯用及び音再生用の各信号処理モジュール６１〜６７などを有する出力系６９とから構成されている。
【００４８】
認識系６０の各信号処理モジュール５０〜５８は、ロボティック・サーバ・オブジェクト３２のバーチャル・ロボット３３によりＤＲＡＭ１１（図２）から読み出される各センサデータや画像データ及び音声データのうちの対応するデータを取り込み、当該データに基づいて所定の処理を施して、処理結果を入力セマンティクスコンバータモジュール５９に与える。ここで、例えば、バーチャル・ロボット３３は、所定の通信規約によって、信号の授受或いは変換をする部分として構成されている。
【００４９】
入力セマンティクスコンバータモジュール５９は、これら各信号処理モジュール５０〜５８から与えられる処理結果に基づいて、「うるさい」、「暑い」、「明るい」、「ボールを検出した」、「転倒を検出した」、「撫でられた」、「叩かれた」、「ドミソの音階が聞こえた」、「動く物体を検出した」又は「障害物を検出した」などの自己及び周囲の状況や、使用者からの指令及び働きかけを認識し、認識結果をアプリケーション・レイヤ４１（図２）に出力する。
【００５０】
アプリケーション・レイヤ４ｌは、図５に示すように、行動モデルライブラリ７０、行動切換モジュール７１、学習モジュール７２、感情モデル７３及び本能モデル７４の５つのモジュールから構成されている。
【００５１】
行動モデルライブラリ７０には、図６に示すように、「バッテリ残量が少なくなった場合」、「転倒復帰する」、「障害物を回避する場合」、「感情を表現する場合」、「ボールを検出した場合」などの予め選択されたいくつかの条件項目にそれぞれ対応させて、それぞれ独立した行動モデル７０_１〜７０_ｎが設けられている。
【００５２】
そして、これら行動モデル７０_１〜７０_ｎは、それぞれ入力セマンティクスコンバータモジュール５９から認識結果が与えられたときや、最後の認識結果が与えられてから一定時間が経過したときなどに、必要に応じて後述のように感情モデル７３に保持されている対応する情動のパラメータ値や、本能モデル７４に保持されている対応する欲求のパラメータ値を参照しながら続く行動をそれぞれ決定し、決定結果を行動切換モジュール７１に出力する。
【００５３】
なお、この実施の形態の場合、各行動モデル７０_１〜７０_ｎは、次の行動を決定する手法として、図７に示すような１つのノード（状態）ＮＯＤＥ_０〜ＮＯＤＥ_ｎから他のどのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに遷移するかを各ノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに間を接続するアークＡＲＣ_１〜ＡＲＣ_ｎに対してそれぞれ設定された遷移確率Ｐ_１〜Ｐ_ｎに基づいて確率的に決定する有限確率オートマトンと呼ばれるアルゴリズムを用いる。
【００５４】
具体的に、各行動モデル７０_１〜７０_ｎは、それぞれ自己の行動モデル７０_１〜７０_ｎを形成するノードＮＯＤＥ_０〜ＮＯＤＥ_ｎにそれぞれ対応させて、これらノードＮＯＤＥ_０〜ＮＯＤＥ_ｎごとに図８に示すような状態遷移表８０を有している。
【００５５】
この状態遷移表８０では、そのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎにおいて遷移条件とする入力イベント（認識結果）が「入力イベント名」の列に優先順に列記され、その遷移条件についてのさらなる条件が「データ名」及び「データ範囲」の列における対応する行に記述されている。
【００５６】
したがって、図８の状態遷移表８０で表されるノードＮＯＤＥ_１００では、「ボールを検出（ＢＡＬＬ）」という認識結果が与えられた場合に、当該認識結果と共に与えられるそのボールの「大きさ（ＳＩＺＥ）」が「0から1000」の範囲であることや、「障害物を検出（ＯＢＳＴＡＣＬＥ）」という認識結果が与えられた場合に、当該認識結果と共に与えられるその障害物までの「距離（ＤＩＳＴＡＮＣＥ）」が「0から100」の範囲であることが他のノードに遷移するための条件となっている。
【００５７】
また、このノードＮＯＤＥ_１００では、認識結果の入力がない場合においても、行動モデル７０_１〜７０_ｎが周期的に参照する感情モデル７３及び本能モデル７４にそれぞれ保持された各情動及び各欲求のパラメータ値のうち、感情モデル７３に保持された「喜び（ＪＯＹ）」、「驚き（ＳＵＲＰＲＩＳＥ）」若しくは「悲しみ（ＳＵＤＮＥＳＳ）」のいずれかのパラメータ値が「50から100」の範囲であるときには他のノードに遷移することができるようになっている。
【００５８】
また、状態遷移表８０では、「他のノードヘの遷移確率」の欄における「遷移先ノード」の行にそのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎから遷移できるノード名が列記されていると共に、「入力イベント名」、「データ値」及び「データの範囲」の列に記述された全ての条件が揃ったときに遷移できる他の各ノードＮＯＤＥ_０〜ＮＯＤＥ_ｎへの遷移確率が「他のノードヘの遷移確率」の欄内の対応する箇所にそれぞれ記述され、そのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに遷移する際に出力すべき行動が「他のノードヘの遷移確率」の欄における「出力行動」の行に記述されている。なお、「他のノードヘの遷移確率」の欄における各行の確率の和は１００［％］となっている。
【００５９】
したがって、図８の状態遷移表８０で表されるノードＮＯＤＥ_１００では、例えば「ボールを検出（ＢＡＬＬ）」し、そのボールの「ＳＩＺＥ（大きさ）」が「0から1000」の範囲であるという認識結果が与えられた場合には、「30［％］」の確率で「ノードＮＯＤＥ_１２０（node 120）」に遷移でき、そのとき「ＡＣＴＩＯＮ１」の行動が出力されることとなる。
【００６０】
各行動モデル７０_１〜７０_ｎは、それぞれこのような状態遷移表８０として記述されたノードＮＯＤＥ_０〜ＮＯＤＥ_ｎがいくつも繋がるようにして構成されており、入力セマンティクスコンバータモジュール５９から認識結果が与えられたときなどに、対応するノードＮＯＤＥ_０〜ＮＯＤＥ_ｎの状態遷移表を利用して確率的に次の行動を決定し、決定結果を行動切換モジュール７１に出力するようになされている。
【００６１】
図５に示す行動切換モジュール７１は、行動モデルライブラリ７０の各行動モデル７０_１〜７０_ｎからそれぞれ出力される行動のうち、予め定められた優先順位の高い行動モデル７０_１〜７０_ｎから出力された行動を選択し、当該行動を実行すべき旨のコマンド（以下、これを行動コマンドという。）をミドル・ウェア・レイヤ４０の出力セマンティクスコンバータモジュール６８に送出する。なお、この実施の形態においては、図６において下側に表記された行動モデル７０_１〜７０_ｎほど優先順位が高く設定されている。
【００６２】
また、行動切換モジュール７１は、行動完了後に出力セマンティクスコンバータモジュール６８から与えられる行動完了情報に基づいて、その行動が完了したことを学習モジュール７２、感情モデル７３及び本能モデル７４に通知する。
【００６３】
一方、学習モジュール７２は、入力セマンティクスコンバータモジュール５９から与えられる認識結果のうち、「叩かれた」や「撫でられた」など、使用者からの働きかけとして受けた教示の認識結果を入力する。
【００６４】
そして、学習モジュール７２は、この認識結果及び行動切換モジュール７１からの通知に基づいて、「叩かれた（叱られた）」ときにはその行動の発現確率を低下させ、「撫でられた（誉められた）」ときにはその行動の発現確率を上昇させるように、行動モデルライブラリ７０における対応する行動モデル７０_１〜７０_ｎの対応する遷移確率を変更する。
【００６５】
他方、感情モデル７３は、「喜び（joy）」、「悲しみ（sadness）」、「怒り（anger）」、「驚き（surprise）」、「嫌悪（disgust）」及び「恐れ（fear）」の合計６つの情動について、各情動ごとにその情動の強さを表すパラメータを保持している。そして、感情モデル７３は、これら各情動のパラメータ値を、それぞれ入力セマンティクスコンバータモジュール５９から与えられる「叩かれた」及び「撫でられた」などの特定の認識結果と、経過時間及び行動切換モジュール７１からの通知などに基づいて周期的に更新する。
【００６６】
具体的には、感情モデル７３は、入力セマンティクスコンバータモジュール５９から与えられる認識結果と、そのときのロボット装置１の行動と、前回更新してからの経過時間などに基づいて所定の演算式により算出されるそのときのその情動の変動量を△Ｅ［ｔ］、現在のその情動のパラメータ値をＥ［ｔ］、その情動の感度を表す係数をｋ_ｅとして、（１）式によって次の周期におけるその情動のパラメータ値Ｅ［ｔ＋１］を算出し、これを現在のその情動のパラメータ値Ｅ［ｔ］と置き換えるようにしてその情動のパラメータ値を更新する。また、感情モデル７３は、これと同様にして全ての情動のパラメータ値を更新する。
【００６７】
【数１】

【００６８】
なお、各認識結果や出力セマンティクスコンバータモジュール６８からの通知が各情動のパラメータ値の変動量△Ｅ［ｔ］にどの程度の影響を与えるかは予め決められており、例えば「叩かれた」といった認識結果は「怒り」の情動のパラメータ値の変動量△Ｅ［ｔ］に大きな影響を与え、「撫でられた」といった認識結果は「喜び」の情動のパラメータ値の変動量△Ｅ［ｔ］に大きな影響を与えるようになっている。
【００６９】
ここで、出力セマンティクスコンバータモジュール６８からの通知とは、いわゆる行動のフィードバック情報（行動完了情報）であり、行動の出現結果の情報であり、感情モデル７３は、このような情報によっても感情を変化させる。これは、例えば、「吠える」といった行動により怒りの感情レベルが下がるといったようなことである。なお、出力セマンティクスコンバータモジュール６８からの通知は、上述した学習モジュール７２にも入力されており、学習モジュール７２は、その通知に基づいて行動モデル７０_１〜７０_ｎの対応する遷移確率を変更する。
【００７０】
なお、行動結果のフィードバックは、行動切換モジュレータ７１の出力（感情が付加された行動）によりなされるものであってもよい。
【００７１】
一方、本能モデル７４は、「運動欲（exercise）」、「愛情欲（affection）」、「食欲（appetite）」及び「好奇心（curiosity）」の互いに独立した４つの欲求について、これら欲求ごとにその欲求の強さを表すパラメータを保持している。そして、本能モデル７４は、これらの欲求のパラメータ値を、それぞれ入力セマンティクスコンバータモジュール５９から与えられる認識結果や、経過時間及び行動切換モジュール７１からの通知などに基づいて周期的に更新する。
【００７２】
具体的には、本能モデル７４は、「運動欲」、「愛情欲」及び「好奇心」については、認識結果、経過時間及び出力セマンティクスコンバータモジュール６８からの通知などに基づいて所定の演算式により算出されるそのときのその欲求の変動量をΔＩ［ｋ］、現在のその欲求のパラメータ値をＩ［ｋ］、その欲求の感度を表す係数ｋ_ｉとして、所定周期で（２）式を用いて次の周期におけるその欲求のパラメータ値Ｉ［ｋ＋１］を算出し、この演算結果を現在のその欲求のパラメータ値Ｉ［ｋ］と置き換えるようにしてその欲求のパラメータ値を更新する。また、本能モデル７４は、これと同様にして「食欲」を除く各欲求のパラメータ値を更新する。
【００７３】
【数２】

【００７４】
なお、認識結果及び出力セマンティクスコンバータモジュール６８からの通知などが各欲求のパラメータ値の変動量△Ｉ［ｋ］にどの程度の影響を与えるかは予め決められており、例えば出力セマンティクスコンバータモジュール６８からの通知は、「疲れ」のパラメータ値の変動量△Ｉ［ｋ］に大きな影響を与えるようになっている。
【００７５】
なお、本実施の形態においては、各情動及び各欲求（本能）のパラメータ値がそれぞれ0から100までの範囲で変動するように規制されており、また係数ｋ_ｅ、ｋ_ｉの値も各情動及び各欲求ごとに個別に設定されている。
【００７６】
一方、ミドル・ウェア・レイヤ４０の出力セマンティクスコンバータモジュール６８は、図４に示すように、上述のようにしてアプリケーション・レイヤ４１の行動切換モジュール７１から与えられる「前進」、「喜ぶ」、「鳴く」又は「トラッキング（ボールを追いかける）」といった抽象的な行動コマンドを出力系６９の対応する信号処理モジュール６１〜６７に与える。
【００７７】
そしてこれら信号処理モジュール６１〜６７は、行動コマンドが与えられると当該行動コマンドに基づいて、その行動を行うために対応するアクチュエータ２５_１〜２５_ｎ（図２）に与えるべきサーボ指令値や、スピーカ２４（図２）から出力する音の音声データ及び又は「目」のＬＥＤに与える駆動データを生成し、これらのデータをロボティック・サーバ・オブジェクト３２のバーチャル・ロボット３３及び信号処理回路１４（図２）を順次介して対応するアクチュエータ２５_１〜２５_ｎ又はスピーカ２４又はＬＥＤに順次送出する。
【００７８】
このようにしてロボット装置１においては、制御プログラムに基づいて、自己（内部）及び周囲（外部）の状況や、使用者からの指示及び働きかけに応じた自律的な行動を行うことができるようになされている。
【００７９】
（３）ロボット装置への本発明の適用
ここで、説明する技術は、本発明をロボット装置に適用するための原理となる技術である。
【００８０】
（３−１）システム構造の概要
先ず、情動関連シンボル獲得（Emotinally Gounded Symbol Acquisition）を実現するシステム構造の概要を説明する。
【００８１】
ここで、先ず、システムを構築するにあたり以下の問題を提起し、本発明を適用したシステムではこれを解決し、従来において達成できなかった、ライフライク（life-like）なロボット装置の実現を図っている。
（Req-１）言語獲得行動をどのようにロボット装置１のような自律行動システムに埋め込むか。
（Req-２）情動関連シンボル（Emotionally Grounded Symbol）をどのようにして構成するか。
（Req-３）実世界における認識対象物をどのようにカテゴライズするか。
（Req-４）ロボット装置１と人の間でどのようにして、同じ対象物に注意をはらうか。すなわち、共同注意（Shared Attention）の問題をどう解決するか。
【００８２】
以上のように先ず問題を提起した。先ず、（Req-１）に対しては、動物行動学的モデル（Ethological Model）による自律行動生成と物理関連シンボル獲得（Physically Grounded Symbol Acquisition）の方法とを統合することで解決した。
【００８３】
ここで、動物行動学的モデル（Ethological Model）による自律行動生成は、例えばArkinらの報告（Arkin, R.C., Fujita, M., Takagi, T., and Hasegawa, R. Ethological Model..., submitted to ICRA-2001、以下、文献６という。）やBatesの報告（Bates, J. The nature of character in interactive worlds and the oz project. Technical Report CMU-CS-92-200, Carnegie Mellon Unversity, Oct. 1992、以下、文献６という。）において提唱されている技術である。
【００８４】
また、物理関連シンボル獲得（Physically Grounded Symbol Acquisition）の方法は、例えば、上述の文献１、文献２及び文献３において提唱されている技術である。
【００８５】
特に、自律行動の１つとして情報に関する飢餓感を満たすような行動としての情報獲得行動を定義し、食物を食べる行動と同様なサブシステムとして、情報を「食べる」といった情報獲得行動を実現している。獲得対象とされる情報としては、対象物の呼び名や意味である。
【００８６】
ここで、サブシステムは、ロボット装置１の行動を規定するシステムであって、ロボット装置１は、このサブシステムを行動の種類に応じて複数種類もっている。そして、サブシステムは、主に知覚や内部状態によって決定するようになされている。
【００８７】
さらに、上述の（Req-２）の情動関連シンボル（Emotionally Grounded Symbol）に関しては、それらの行動の動機を生成している内部状態の変化とその時の入力、行動とを関連付けることで解決する。具体的には、入力のあったときの内部状態そのものではなく、入力に対しての内部状態の変化を関連づけることで、その対象物の個体への意味とその内部状態が満たされたときに情動想起との関連が可能にしている。
【００８８】
また、（Req-３）に関しては、対象物を知覚（Perception）で認識（Categorize）し、知覚として検出した色等のカテゴライザー（Categorizer）として統計的なモデル等を用いることで、実世界の認識対象物を適切にカテゴライズしている。
【００８９】
例えば、コンピューター内に構築された仮想的（Virtual）な世界で提案されているEl-Nasrらの報告（El-Nasr,M., Loeger, T., and Yen, J., PETEEI: A Pet with Evolving Emotionaly Intelligence, in proceedings of International Conference on Autonomous Agents, 2000、以下、文献８という。）のおいて提唱されているSynthesis Creaturとの違いは、ロボット装置が実世界で動作できなければならない点である。実世界の物体においては、色や形状といったものがそれぞれの特徴空間において連続的に分布している。さらに、それを見ただけでは現実にはどのような意味を持つものかをあらかじめプログラムされていなければ知ることができない。このようなことから、上述の（Req-３）に関しては、知覚（Perception）のカテゴライザー（Categorizer）として統計的なモデルなどを用いて解決した。
【００９０】
上述の（Req-４）の共同注意の問題に関しては、この動物行動学的モデル（Ethological Model）の行動選択の中に、ある対象物に注目した行動をとる、という部分を利用して自然な形で実行することで解決している。
【００９１】
実世界におけるシンボル獲得（Symbol Acquisition）で重要な機能にShared Attention（共同注意）或いはJoint Attentionといわれるものがある。Brunerの報告（Bruner, J. Learning how to do things with words, in J. Bruner and A. Garton (Eds.) Human growth and development, Wolfson College Lectures, Claredon Press, 1978、以下、文献９という。）においては、共同注意（Shared Attention）は、幼児の学習過程において重要な働きをすることが認知心理学などより指摘されている。例えば、指をさした方向や視線の方向を幼児が自然に見ることにより、教える側と教わる側が注意をむける対象物を共有する、という能力である。
【００９２】
このような共同注意を、動物行動学的モデル（Ethological Model）の行動選択の中に、ある対象物に注目した行動をとる、という部分を利用して自然な形で自律行動に取り入れている。
【００９３】
以下、まず最初に、動物行動学の研究（Ethological Study）を考慮した行動制御（Behavior Control）に関して簡単に説明する。例えば、動物行動学の動作制御の技術としては、上述の文献６が挙げられる。
【００９４】
ついで、構造全体といかに情報獲得行動を自律型のロボット装置１のソフトウエアに統合するかに関して述べ、共同注意に関しての解決方法について説明する。
【００９５】
（３−２）外的刺激と内的状態との関連付け（Fusion of External Stimuli and Internal Variables）
動物行動学的モデル（Ethological Model）における重要点は、行動が内部状態及び外的刺激の両者によって選択される、という点と、内部状態からのモチベーション（Motivation）生成と外的刺激からの知覚刺激（Release signal）はそれぞれ独立に評価され、行動評価値（Behavior Value）生成時に関連づけ（fusion）される、という点にある。これにより、内部状態をある範囲内に止めるようなホメオスタシス行動を生成することができる。ここで、ホメスタシス行動とは、例えば内部状態を一定に保つように表出される行動である。
【００９６】
図９には、ある行動に対して、対応する内部状態と外的刺激とを独立に評価するための構成を示している。また、図１０には、ホメスタシス行動を実現するための構成であって、具体的には、行動が体系的に構成され、外部環境を解して外的刺激を得て、内部状態を一定に保つ行動が選択されるための構成を示している。
【００９７】
図９について、摂食行動（ingestive）の場合を例に挙げて説明する。モチベーション生成部（Motivation Creator）１０１は、空腹度等の内部状態から摂食行動のモチベーション値（motivation value）を評価して出力する。一方、リリースメカニズム（release mechanism）１０２は、摂食行動に関係する外的刺激、例えば、食物があればその摂食行動の知覚信号（release signal）を評価して出力する。そして、モチベーション値（motivation value）とリリース信号或いは知覚信号（release signal）とは独立に評価されている。
【００９８】
行動評価部（Behavior evaluator）１０３では、モチベーション値（motivation value）とリリース信号（release signal）とを評価して、この行動そのものの評価値を行動評価値（behavior value）として出力する。このような行動が複数存在し、それぞれが独立に行動評価値（behavior value）を計算し、後述する行動選択部（Action selection）に出力する。行動選択部（Action selection）では、もっとも高い評価を与えた行動を選択して、その行動を実行する。
【００９９】
ここで、モチベーション生成部（motivation creator）１０１を内部状態が適当な範囲からずれた場合に、それをもとの範囲に戻すことが出来る行動にするように定義させることで、その行動の対象物が外界に存在すればそれを獲得にいくという一般的な行動定義が実現され、これによりホメオスタシス行動が実現されるようになる。
【０１００】
（３−３）情動関連シンボル獲得の構築（Emotionally Grounded Symbol Acquisition Architecture）
情動関連シンボル獲得（Emotionally Grounded Symbol Acquisition）により、自律行動の一部としての未知の対象物に対する情報獲得行動を実現している。情動関連シンボル獲得（Emotionally Grounded Symbol Acquisition）が自律行動の一部として実現される構成は、例えば図１２に示すような構成になる。このシステム構築におけるポイントは以下のようになる。
（i）未知入力か既知入力かを判別できる各チャンネルのカテゴライザー。
（ii）各チャンネルのカテゴライズの結果を内部状態の変化するタイミングで記憶する連想記憶。
（iii）内部状態と外部刺激の動物行動学的モデル（Ethological Model）による統合。
【０１０１】
以上がシステム構築におけるポイントになる。なお、外部刺激が既知の刺激であれば、通常の動物行動学的（Ethological Model）によるホメオスタシス行動を基本とする自律行動を起こすようにしている。
【０１０２】
また、本発明を適用して実現した情動関連シンボル獲得（Emotionally Grounded Symbol Acquisition）では、その対象物が内部状態の何に対して重要であるかを記憶することも特徴であり、この点で、通常の物理関連シンボル獲得（Physically Grounded Symbol Acquisition）と大きく異なっている。
【０１０３】
このように、情動関連シンボル獲得（Emotionally Grounded Symbol Acquisition）では、対象物に情動関連（Emotionally Grounded）情報を関連付けており、このように対象物に情動を関連付けることにより、新しい対象物に対しても、どの行動（Action）をするべきかをリリースメカニズム（Release Mechanism）で評価することを可能としている。
【０１０４】
また、内部状態の変化を対象物との関係において連想記憶として持つことで、学習済みの入力が提示されたとき、連想記憶から２次情動（secondary emotion）に記憶してある内部状態（internal variables）の変化を出力し、それにより２次情動の生成をすることもできる。例えば、喜びや恐怖などを情動（emotion）として作り出す。
【０１０５】
これにより、対象物等を見たことに対応して、情動表出行動として表情をつくったり、行動選択に影響を及ぼしたり、動作に変調を与えることができるようになる。
【０１０６】
（３−４）情報獲得行動（Information Eating Behavior）
自律行動の一部としての情報獲得行動を実現するために、内部状態を示すモデルとして、内部状態の因子としての情報獲得欲求に関連する変数（以下、情報獲得変数という。）を有したサブシステム（以下、情報獲得行動サブシステムという。）を定義する。
【０１０７】
例えば、情報獲得行動サブシステムは、その情報獲得変数が、連想記憶が未知の入力に対して学習を行った場合に増加し、時間とともに減少するような内部モデルとして定義する。この情報獲得行動サブシステムは、情報獲得変数が欠乏状態になると、情報獲得行動に対するモチベーション（Motivation）を生成する。
【０１０８】
さらに、この場合において、リリースメカニズム（Release Mechanism）は、入力（情報）が未知のものであればリリース信号（release signal）を生成するようにする。これにより、食物を食べるのと同じように、情報を獲得する行動を内部状態及び外部刺激の関連付け（fusion）として生成することができるようになる。
【０１０９】
情報獲得行動として表出される具体的な行動としては、典型的なものとして、情報獲得欲が大きくなると、未知の物体を探す行動を発生し、さらにそれに対して“これは何？”などの質問行動をとること等が挙げられる。そして、一般に、このような行動はユーザーとの間での対話として形成されるものである。
【０１１０】
このようなシステムを構築することにより、好奇心をベースにした対話による情報獲得を実現することができ、さらにそのような情報獲得行動が自律行動の中に自然に埋め込むことができるようになる。すなわち、ロボット装置１において自律行動として実現されているインタラクションの新しい要素として情報獲得行動が実現される。
【０１１１】
（３−５）共同注意（Shared Attention）
システムの中にはShared Attention或いはJoint Attentionを自然なかたちとして埋め込まれている。システム構造において、共同注意に基づく情報獲得（Information Eating）の行動は以下のように実行される。
【０１１２】
上述のように内部状態と外部刺激との関連づけ（fusion）により情報獲得行動が行動選択部（Action selection）１１６により選択されたとする。
【０１１３】
リリースメカニズム（Release Mechanism）１０２がリリース信号を出す起因となった対象物が情報獲得を行うターゲットである。また、内部状態の飢餓感だけからこの行動が選択されたとすれば、探索が行われて、その結果として、ある対象物が情報獲得行動のターゲットになる。このように情報獲得を行うターゲットが、共同注意（Shared Attention）のターゲットになる。
【０１１４】
ロボット中心の場合は、すなわち、内部状態の飢餓感に起因する情報獲得行動の場合、ロボット装置１は、そのターゲットに近づき、指をさし、“これは何？”といった質問で人間の注意をその対象物に払ってもらうことにより共同注意（Shared Attention）が達成される。
【０１１５】
一方、ユーザが主導権を握っている場合、すなわち、リリースメカニズム（Release Mechanism）１０２が出したリリース信号を要因としてターゲットを特定する場合、先ずロボット装置１は、音や対象物を動かすことで、ユーザに注意を促すようにする。これに対応して、ユーザーは例えば指でターゲットを指しながら、“これは何？”と質問をすることが想定されるが、ロボット装置１では、この指や質問により行動獲得行動が選択された場合、指でさされた物をその対象物として特定する。これにより、ユーザが主導権を握っている場合においても、同じ対象物に対しての共同注意（Shared Attention）が達成される。
【０１１６】
このように、本発明では、システムに、注意が内部状態として欲しているもの、或いは外部刺激の強いものに対して払われる、という一般的な考え方の一部として共同注意（Shared Attention）を取り込んでいる。
【０１１７】
（３−５）内部状態変化と情動（INTERNAL VARIABLES AND EMOTIONS）
図１２に示すように、感情部（Emotion part）１３０は、大きく分けて、知覚用内部状態部１３１、内部状態部１３２及び情動部１３３とから構成されている。
【０１１８】
１つ目の内部状態部１３２は、内部状態そのもののダイナミクスを管理する部分である。ここでいう内部状態には、後述するように栄養素、水分、疲労、好奇心等が擬似的に変数として存在している（図２３）。ただし、これらの内部状態は、上述した他に、生物又は動物に見受けられる他の内部状態であってもよい。内部状態部１３２は、その個体保持に必要な状態をモニターし、それが適切な値から外れることを検知する。さらに、内部状態部１３２は、その内部状態を一定に保つため、すなわち、恒常性を保つために必要な行動に対するモチベーション生成部（Motivation Creator）に対して、内部状態を保持するために必要な行動を促す信号を送信する部分である。
【０１１９】
２つ目の知覚用内部状態部１３１は、内部センサー或いは外部センサーからの入力を解析し、内部状態管理部へ解析結果を入力する部分である。ここで、センサー信号解析は、本来の動物であれば、血液中の糖分の割合等から検出される食事に関する情報や疲労に関する情報等にあたる。ロボット装置１においては、バッテリ残量解析等がそれにあたるが、ロボット装置１においては、擬似的な食欲などを想定し、適当な行動（Action）を行うことで擬似的に内部状態を一定に保つための入力信号を作り出している。
【０１２０】
３つ目の情動部１３３は、内部状態の変化より快、不快などを生成し、喜び、怒りなどに対応する情動（emotions）を生成する部分である。この情動部１３３は、２次情動とも呼ばれ、内部情動（これを１次情動という。）の満たされ具合により快、不快信号などを発生する。さらに情動部１３３では、この快、不快信号と覚醒度、確信度などからいわゆる喜び、悲しみ、怒りなどの情動を生成する。２次情動は、情動表出のための動作、例えば顔の表情生成やそれに対応するＬＥＤの光パターン生成等に利用される。
【０１２１】
この内部状態の変化は、図１２に示すように、学習用メモリ（Associative Memory）１４０の学習のタイミングに使用される。これは換言すれば、学習は、内部状態が大きく変化したときに行うということである。また、内部状態と情動状態とはそれぞれ行動（Behavior）生成部のモチベーション生成部（Motivation Creator）に入力され、それぞれの行動動機の起因として利用される。
【０１２２】
（３−６）未知刺激の知覚（PERCEPTION FOR UNKNOWN STIMULI）
実世界におけるロボット装置１の開発において「認識」は大きな課題とされている。特に、実環境下における実時間認識では、様々な要因で変化する入力を既に学習してある情報と同一視すべきか、それとも新規な刺激と判断するかが大きな問題を生じる。
【０１２３】
近年、このような認識の分野において大きな成果を得ている手法として、統計的パターン認識（Statistical (or probabilistic) Pattern Classification）がある。これは、特徴空間に分布する入力サンプルをリスク関数最小化を統計的問題として扱い、そのためのパラメータを求める認識手法である。後述する発話認識として現在主流とされているHidden-Markov-Model（以下、ＨＭＭという。）もこの範疇の認識手法であり、また、画像認識においても代表的な認識手法である。
【０１２４】
本システムでは、この統計的パターン認識手法を用いて入力が未知のオブジェクトなのか、それとも既知のオブジェクトなのかを判断している。
【０１２５】
統計的パターン認識では、オブジェクトがそのプロトタイプであるか否かを確率或いは尤度を与えており、この確率或いは尤度を用いて、オブジェクトが未知刺激なのか既知の刺激なのかの識別を行っている。さらに、あるセンサーチャンネルの特徴空間における距離が近く、このチャンネルだけでの判別が困難な場合でも、他のチャンネルを用いた場合、優位な差が観測され、もとの空間における識別パラメータの調節を行うことなどもできる。
【０１２６】
（３−７）感情が記憶される学習用メモリ（ASSOCIATIVE MEMORY WITH EMOTIONS）
学習用メモリ（Associative Memory）は、各知覚用チャンネル（Perceptual Channel）の出力により内部状態が変化したことをトリガーに学習を行うためのものである。ここで、学習とは、具体的には、そのようにトリガーとされた内部状態の変化と、内部状態を変化させた、すなわち内部状態に影響を与えた対象物とを連想記憶することである。
【０１２７】
ここで、内部状態の変化は、例えば上述の「（３−５）内部状態変化と情動（INTERNAL VARIABLES AND EMOTIONS）」において述べた、センサー信号解析において実際にセンスできる量（関節で消費される電流等）と擬似的にセンスする量（擬似的な食べ物に対して食べるという動作をしていることの検出）をもとに生じるものである。ここで、関節で消費される電流とは、例えば動作された回数等により決定されるもので、例えば、「疲れ」の要因を構成する。
【０１２８】
連想としては、知覚チャンネル（Perception Channel）から送られてくるプロトタイプ（prototype）の番号とそのプロトタイプ（prototype）に属する確率或いは尤度をもとに、同時に生じている事象の結び付きを学習している。ここでいう事象の中には、行動生成を介して送られてくる対象物に対する名称等のいわゆる物理関連シンボル（Physically Grounded Symbol）も含まれており、これも学習として獲得する。
【０１２９】
さらに、同時に、トリガーとなる内部状態の変化と対象物に対して行った行動を同じく連想記憶する。これにより、その対象物にどのような行動をとれば、どのような内部状態の変化が起こるかが記憶されたことになる。このような学習が情動関連シンボル（Emotionally Grounded Symbol）の獲得になる。
【０１３０】
ここで、情動（Emotion）とは、直接的には内部状態の変化であるため１次情動と称されるものであるが、１次情動の変化により２次情動を生じさせることができるため、恐怖などにも関連付け（Grounded）されたシンボル（Symbol）である。
【０１３１】
（３−８）サブシステム及び行動（SUBSYSTEMS AND BEHAVIORS）
行動は、図１０に示すような分類可能な複数の行動群とされるサブシステム（subsystem）１１５_１〜１１５_ｎに基づいて制御されている。サブシステム１１５_１〜１１５_ｎは、階層構造でかつツリー構造をもつものであり、最上位層が実際のサブシステムになる。
【０１３２】
例えば、上述の文献６にてArkinらが報告している動物行動学の研究において、canny behaviorとして必要十分と思われるサブシステムを挙げている。文献６にて報告されている技術の特徴は、図１１に示すように、サブシステムの１つである摂食行動（Investigative）を情報を食べる、という行動として定義していることである。例えば、摂食行動（ingestive）というサブシステムは、食べ物（電気）を食べる、という行動として定義されている。これにより、理想的にはバッテリー残量を内部状態として、それをある範囲内に保つような行動を生成し、バッテリーが少なくなれば、充電場所の探索、充電欲求、あるいは自動充電という行動を生成するモチベーション（Motivation）を生成することが可能とされている。
【０１３３】
本システムでは、このような考え方を情報獲得のステップにおいて導入し、内部状態の項目として“新規情報の学習量”に対応するものを設け、時間等の因子により、減少するような内部状態のダイナミクスを定義している。そして、このような内部状態のダイナミクスでは、バッテリの場合と同様に“学習量”に応じた行動を生成するようにする。すなわち例えば、ロボット装置１は、“学習量”をある範囲内に保つように行動し、また、“学習量”が少なくなれば新規情報を獲得するために、未知対象物の探索、未知対象物が外的刺激として存在すれば、それに接近して、指をさし、"what is this?（これは何？）”という行動をし、或いは人が発話した名前を連想記憶で学習する、という行動を生成するようにする。ここで、学習量は、例えば、その学習対象物の特徴に応じて決定されたり、また、学習量は経時的に減少するようにする変化量である。
【０１３４】
さらに、もし対象物の名前を学習したが、それが内部状態に対してどのような意味があるかを獲得する行動を定義することもできる。これは、その対象物にある行動を試して、内部状態が変化したときにその行動（action）と内部状態変化を連想学習する、ということで実現することができる。
【０１３５】
（４）実際のロボット装置への適用（IMPLEMENTATION）
（４−１）４足歩行型のロボット装置の構造（Enhanced Four-legged Robot Platform）
上述のシステムが実装された４足歩行型のロボット装置１について説明する。図１３には、ロボット装置１を構成として備えたネットワークシステムの一例を示している。
【０１３６】
このネットワークシステムにおいて、ロボット装置１は、無線ＬＡＮ用カード（wireless LAN card）１６１を用いることにより、ＴＣＰ／ＩＰ（Transmission Control Protocol/Internet Prorocol）のプロトコルを用いてネットワークに接続している。
【０１３７】
ロボット装置１は、例えば、MIPS R4XXXの約１００MIPSの特性を持つＣＰＵと１６ＭＢのメインメモリーとを備えている。そして、このロボット装置１は、出力としてprimitive behaviors（basic posture transition, to search an object, to track an object, to close to an object, to kick an object. to eat an object, etc）等の実行するソフトウエアと発音記号列を入力とするSpeechのオブジェクト（object）とを備えている。また、ロボット装置１は、目に対応するＬＥＤを用いていくつかの表情をつくるコマンドも用意されている。
【０１３８】
このようなロボット装置１において、上述したようなシステムが構築されており、ロボット装置１は、例えば、自律行動の一部として情報獲得行動が表出する。
【０１３９】
さらに、このようなロボット装置１が接続されているネットワークシステムにより、ワークステーション１６３上においてもロボット装置１における処理と同様な処理を実行することができる。例えば、これにより、ワークステーション１６３上において、ロボット装置１における動作確認をすることができるようになる。ワークステーション１６３上において処理を行う場合については以下のようになされる。
【０１４０】
ロボット装置１は、入力は画像信号をキャプチャー（capture）し、無線ＬＡＮ用カード１６１によって、無線ＬＡＮ（wireless ＬＡＮ）を介して画像をアクセスポイント１６２に送信する。そして、画像は、アクセスポイント１６２からイーサネット（ethernet）（登録商標）を介してワークステーション１６３に転送される。
【０１４１】
また、このようなロボット装置１からワークステーション１６３へ画像を転送する場合と同様に、ロボット装置１における関節角度検出やタッチセンサー、加速度センサー等によるセンサー検出情報がワークステーション１６３に転送される。また、例えば、このようにワークステーション１６３において処理する場合には、音に関してはロボット装置１のマイクを使わずに、ワークステーション１６３のマイクで入力することもできる。
【０１４２】
ワークステーション１６３上では、上述の画像等の入力信号を用いて上述のPerception, Evaluation for internal variable, Behavior subsystem, action selection等を実行する。これらの機能は、例えばLinux上に実装されたＯＰＥＮ−Ｒ（ソニー株式会社が提供するシステム）によりワークステーション上にもロボット装置内と同じようにＯＰＥＮ−Ｒオブジェクト（OPEN-R objects）を設計し、それらをネットワーク上で自由に結合することで実現される。例えば、現在はMatlabプログラムとOPEN-R objects on Linuxの混在で動作をしている。
【０１４３】
（４−２）実機の機能と実験結果（Implemented Functions and Experimental Results）
ロボット装置１は、本発明が適用されることにより、最終的には、自律行動の一部としての共同注意による情報獲得行動又は情動確認行動を表出するようになされている。具体的には、ロボット装置１は、図１４に示すように、大別して、自律行動（ステップＳ１）、対象物の入力（ステップＳ２）及び行動選択（ステップＳ３）に段階を踏んで、最終的に、共同注意による情報獲得行動や情報確認行動を表出させている（ステップＳ４）。そして、ロボット装置１は、このような各段階を自律行動の一部として処理している。
【０１４４】
（４−２−１）知覚部（Perception Part）
図１０に示すように、知覚部１１１は、ロボット装置１内に備えられている。具体的には、図１２に示すように、知覚部１２１は、画像を知覚するための色知覚部１２２及び型知覚部１２３と、接触を知覚する接触知覚部（触覚部）１２４と、音を知覚する音声知覚部１２５とを備えている。
【０１４５】
具体的には、色知覚部１２２は、対象物の情報から後述の自動カラーセグメンテーションを行う部分であり、型知覚部１２３は、画像情報に基づいて対象物の型を分析を行う部分であり、また、音声知覚部１２５は、マイクからの発話入力に対して発話認識をする部分である。以下の説明は、このような各知覚部においてなされる処理についての説明になる。
【０１４６】
また、接触知覚部１２４は、例えば、ロボット装置１の足裏に備えられたいわゆる肉球形状とされたいわゆる肉球センサからの信号によって対象物への接触を検出する。
【０１４７】
（４−２−１−１）自動カラーセグメンテーション（Automatic Color Segmentation）
色を用いたカラーセグメンテーションが知覚刺激の入力において先ず行われる。カラーセグメンテーションでは、任意の単一色からなる複数のオブジェクトを切り分けることが可能とされている。また、カラーセグメンテーションでは教師なし学習によるクラスタリングアルゴリズムによるものを使用する。
【０１４８】
図１５には、人工的に塗ったオブジェクト（図中Ａ）と、そのカラーセグメンテーションの結果（図中（Ｂ））を示している。また、図１６には、人間の手を含む自然画像、人の顔を含む自然画像（図中Ａ）とそのカラーセグメンテーションの結果（図中Ｂ）を示している。
【０１４９】
ここで、入力画像は、比較的狭い視野角(53 x 41 度)のカメラよりシステムへの入力時に既にLow pass filterを通り88 x 60 pixelsに落とされたものである。これを考慮に入れ、セグメンテーションは画素（pixel）毎に独立した処理だけで行っている。このようにすることで、図１５中Ｂ及び図１６中Ｂに示すような良好な結果をほぼリアルタイムに得ることができる。
【０１５０】
また、通常、カラーセグメンテーションは、ＲＧＢ或いは正規化したＲＧＢ空間で行うことが多いが、カメラの信号がＹ，Ｃｒ，Ｃｂフォーマットであることから、(Nr, Nb) = (atan(Cr/Y) ,atan(Cb/Y))の２次元空間を色空間とする。ＲＧＢ空間に写像する際に生じる計算量と量子化する際の誤差等を考慮すると非常に効率的な処理である。
【０１５１】
なお、このようなカラーセグメンテーションは、形状解析のための初期処理として用いられる。
【０１５２】
以下に、上述のカラーセグメンテーションにおけるクラスタリングのアルゴリズムの処理ステップ（ｉ）〜（vi）の例を示す。
【０１５３】
ステップ（ｉ）では、適当な数のプロトタイプ（prototype）を一様に配置する。
【０１５４】
ステップ（ii）では、下記の（３）式を距離としてすべての画素に対し最も近いプロトタイプ（prototype）へのクラスラベルをつける。
【０１５５】
【数３】

【０１５６】
ここで、σhue，σsatは、図１７に示すように、それぞれhueとsaturationに対応する分布であり、これらは予め適当なサンプル画像の分布より求めたものであり、一般にσhue＜σsatである。すなわち、hue方向の誤差に重みを持たせた距離と考えることができる。
【０１５７】
ステップ（iii）では、もしそのプロトタイプに属する画素が少ない場合はそのプロトタイプを変更する。
【０１５８】
ステップ（iv）では、同じクラスラベルのついた平均位置にそのプロトタイプを移動する。
【０１５９】
ステップ（ｖ）では、もし２つ以上のプロトタイプがある距離以下の場合は１つにまとめる。
【０１６０】
ステップ（vi）では、プロトタイプの位置の更新が少なくなってきたら、或いは適当な回数になったら終了する。それ以外は上述のステップ（ii）に戻って再び処理を開始する。
【０１６１】
なお、図１８には、入力画像に対するクラスタリングの様子を示している。図１８に示す例では、予め記憶してある肌色領域を分析し、指をさしている方向の検出とその延長線上にある物体の剥き出しを行っている場合を示している。例えば、この情報は、後述の共同注意（Shared Attention）において使用される。
【０１６２】
（４−２−１−２）型分析（Shape Analysis）
型分析（Shape Analysis）は、大きさ、回転の普遍特徴量であるフーリエ記述子（ＦＤ）を用い行っている。例えば、この型分析において、カテゴライズは、Fourier Descriptorの空間（６４次元）でのL2ノルムを用いる。入力された物体をＦＤ空間であらわし、もっとも近いプロトタイプとの距離を用いて新規プロトタイプとするかどうかを決定する。なお、図１９には、カラーセグメンテーションで切り出された物体の形状分析の結果を示している。
【０１６３】
（４−２−１−３）発話認識（Speech Recognition）
発話認識（Speech Recognition）としてＨＭＭを用いた連続発話認識を用いている。この技術としては、上述の文献５において提唱する技術がある。
【０１６４】
このシステムは、図２０に示すように、音声入力部１７１、複数のＨＭＭを備えたＨＭＭレジスタ１７２、未知語入力用ＨＭＭ１７３及び比較部１７４を備えている。
【０１６５】
ＨＭＭレジスタ１７２のＨＭＭは、日本語の音韻学習をしたＨＭＭであって、予め必要な単語が登録されている。また、ＨＭＭレジスタ１７２のＨＭＭには、後発的に獲得された単語が学習されているものも含まれている。ここで、例えば、登録されている或いは獲得された単語としては、名詞及び動詞等が挙げられる。入力された音韻系列は、このようなＨＭＭレジスタ１７２のＨＭＭにおいて確信度として評価される。
【０１６６】
未知語入力用ＨＭＭ１７３は、未知語獲得のためのＨＭＭである。この未知語入力用ＨＭＭ１７３は、図２１に示すように、全ての音韻モデルをステートとし、全ての音韻ステートに結合している。例えば、未知語入力用ＨＭＭ１７３は、図２１に示すように、“bouruu”という発話入力がなされた場合には、“booru”として認識する。
【０１６７】
入力された音韻系列は、既に登録或いは獲得された単語のＨＭＭと、この未知語入力用ＨＭＭ１７３とにおいて評価されるが、このとき、確信度（verification value）を用いて最大にマッチしたＨＭＭとの距離が比較部１７４において評価される。そして、確信度（verification value）がある値以上であれば新規音韻系列として新たなラベルをつけ、それがＨＭＭレジスタ１７２のＨＭＭとして登録される。
【０１６８】
例として、ＨＭＭレジスタ１７２が、ＨＭＭとして、“tomare （stop）”と“kere (kick)”という２つの単語が登録されているもののみを有する場合について説明する。図２２には、このようなシステムを使用した場合の結果を示している。
【０１６９】
図２２において、右側には登録してある単語に対する入力信号の確信度（verification）の値を示している。なお、この確信度（verification）の値は低いほど確信度が高い。
【０１７０】
例えば、“tomare”という発話に対して、システムは、”tomoare”という音韻系列の入力であると推定し、その確信度（verification）の値は0.136である。
【０１７１】
一方、図２２において上から３番目の”booru (ball)”という未知語の入力に対しては、最もあうモデルは“tomare”であり、その確信度（verification）は4.835と非常に大きいためunknown-1という新しいシンボルが割り当てられて、登録される。これにより、システムは、次回の発話入力である図２２において上から４番目に示す“booru （ball）”の発話入力に対しては、unknown-1に対応するＨＭＭが最も近く、その確信度（verification）は0.41と小さい値をとり、正しくunknown-1により”booru（ball）”が獲得されるようになる。
【０１７２】
また、このシステムでは、ＨＭＭが連続発話認識が可能なため、図２２において上から７番目の発話のように”booru kere”に対し、先に獲得した”booru”に対するラベルunknown-1に続き、kereというシンボルを認識することが可能とされている。
【０１７３】
このような発話認識のシステムによって、例えば、けれ、とまれなどである。もし、“ボール”という名詞を獲得すれば、“ボールけれ”という命令によりロボット装置１はボールをけることができるようになる。
【０１７４】
（４−２−１−４）感情部（Emotion Part）
図２３には、内部状態（Internal Variables）及びそれに関連する行動(subsystem)の関係を示している。
【０１７５】
この例では、摂食行動の生理学モデルなどを参考にして、一般的な内部状態保持のために、仮想的な体内栄養貯蔵バッファと排泄用バッファを想定し、その貯蔵量を内部状態として定義している。それらは、例えばEnergy-2（疑似食物、Fake Food）の量とFake 排泄物（excrement）の量である。
【０１７６】
例えば、図２４に示すように、仮想的な胃（体内栄養貯蔵バッファ）と仮想的な膀胱又は腸（排泄用バッファ）とを関連付けることにより、仮想的な胃の貯蔵量の減少が、仮想的な膀胱等の貯蔵量の増加をもたらすようにしている。
【０１７７】
図２３に示すように、ある要因で増加或いは減少するようなダイナミクスを持っている。モチベーション生成部（Motivation Creator）の基本的な動作は、この内部状態変数をある許容範囲に保つために、対応する行動群（subsystem）のモチベーション（Motivation）を上げることになる。
【０１７８】
また、擬似的（Fake）な食物や水は主としてロボット装置１の娯楽性（Entertainment）の目的に実装されると考えられるが、その他に、本来の意味での電気Energyや疲労に相当する内的状態変数も存在している。これらも図２３に示す増加、減少要因によりダイナミクスを構成し、対応するサブシステム（subsystem）のモチベーション生成部（motivation creator）はこれを一定に保つように行動の動機を与えるようになされている。ただし、ロボット装置１がいわゆる充電装置に自律行動として装着するような自動充電行動も考えられるが、このような自動充電行動を備えていない場合には、ロボット装置１は、充電に関してはそれを要求する行動を出し、他者（人間）に充電してもらうようにする。
【０１７９】
また、連想記憶に獲得される情報においても同様な内部状態変数を用意する。連想記憶で仮想的な意味の内部獲得情報量を計算し送られてくる。この場合、忘却がなければ連想記憶の内部情報量は増加するのみであるが、忘却を実装してなくても良い。適当な時間範囲内の各情報量の積分を増加要因、時間的減少要因の簡単なダイナミクスを構築して情報獲得行動サブシステムの動機を構成している。
【０１８０】
（４−２−１−５）学習用メモリ部（Associative Memory Part）
図２５には、ロボット装置１が情報獲得に使用する学習用メモリ（Associative Memory）１４０の具体的な構成を示している。学習用メモリ１４０は、図２５に示すように、短期用メモリ１８１、長期用メモリ１８２及び注意対象用メモリ１８３を備えている。この学習用メモリ１４０は、具体的には、図１２に示すように備えられている。
【０１８１】
学習用メモリ（Associative Memory）１４０は、このような構成により、ある色とある形で１つの名前をもつ記憶部として機能し、さらに、そのものがロボット装置１の内的状態に対してどのような意味を持つかの記憶部として機能する。
【０１８２】
短期記憶用メモリ（Short Term Memory、ＳＴＭ）１８１において、画像内のＩＤ番号付けられた物体の情報が貯蔵される。このとき物体の情報は、色のプロトタイプ番号（CP-i）と形状のプロトタイプ番号（SP-j）の情報である。また、短期用メモリ（Short Term Memory）１８１には、音声処理から入力される１発話分の単語系列が入力される。
【０１８３】
画像からのデータは、色のプロトタイプ番号（CP-i）及び形状のプロトタイプ番号（SP-j）を入力として、物体の名称（HMM-k）と内部状態への影響（Delta-I）を得て、これらをひとまとめとされて図１２に示すように、行動生成部（Behavior Generator）１５０に送られる。もし、物体の名称（HMM-k）と内部状態への影響（Delta-I）が得られない場合は、そこを空白（nil）情報をして送られる。発話データはそのまま行動生成部（Behavior Generator）１５０に送られる。
【０１８４】
一方、行動選択部（Action Selection）１１６において行動（Action）とその対象物体（Obj-ID）が選択されるが、この情報は後述する行動ステートマシン（Behavior State Machine）から学習用メモリ（Associative Memory）１４０に送られてくる。この対象物体（Obj-ID）に対応する情報は、短期用メモリ（Short Term Memory）１８１から注意対象用メモリ（Attention Object Memory、ＡＯＭ）１８３に貯蔵される。なお、そのとき短期用メモリ（Short Term Memory）１８１に入っている発話された単語系列はそのまま注意対象用メモリ（Attention Object Memory）１８３に送られる。
【０１８５】
注意対象用メモリ（Attention Object Memory）１８３から本来の学習用メモリ（Associative Memory）として機能する長期用メモリ（Long Term Memory）１８２に対する学習のタイミングは、内部状態変化をトリガーとして行われる。これにより、ある対象物（Object）に対するあるアクションをしている際に内部状態が変化することにより、その対象物に関連付けて内部状態変化が記憶される。
【０１８６】
（４−２−１−６）行動生成部（Behavior Generation Part）
ここでは、ロボット装置１の行動を規定するサブシステムのうちの情報獲得行動サブシステムについて説明する。図２６に示すように、情報獲得行動サブシステム１５１_ｎは、階層構造を有するものとして構成されている。
【０１８７】
行動のサブシステム層に１つのソフトウェアオブジェクト（software object）が存在する。
【０１８８】
このソフトウェアオブジェクト（software object）のモチベーション生成部（Motivation Creator）１０１は、上述の１次的内部記憶量が適当な範囲から外れるとモチベーション値（motivation value）が出力されるように構成されている。
【０１８９】
【数４】

【０１９０】
一方、リリースメカニズム（Release Mechanism）１０２は、学習用メモリ（Associative Memory）１４０から送られてくる対象物（Object）を調べることによってなされる。リリースメカニズム（Release Mechanism）１０２では、現在未知のもの、と人間による指さしに関する知覚（release）因子を考慮している。ここで、例えば、知覚因子は、対象物（Object）の名前（Obj:Name）、Colorの名前（Color:Name）、Shapeの名前（Shape:Name）、その対象物（Object）の内部状態変化への影響（Act:Delta-I）である。
【０１９１】
リリースメカニズム（Release Mechanism）１０２は、知覚因子として得られたものに、情報の定義がなされていなければリリース信号（Release signal）を創出する。そして、リリースメカニズム（Release Mechanism）１０２が出力するリリース信号（release signal）の値は、１つの対象物に対しての未定義の数を累積したものとしてその物体に対応されて決定されている。例えば、対象物の名前（Obj:Name）と内部状態変化への影響（Act:Delta-I）のみを対象とすることもできる。
【０１９２】
そして、リリースメカニズム（Release Mechanism）１０２は、存在している対象物に対してリリース信号（release signal）を評価し、その値が最も大きな対象物を選択して、その選択した対象物（Obj）を特定するIDとリリース信号（release signal）を出力する。
【０１９３】
例えば、対象物としてリンゴが特定した場合には、ロボット装置１には、上述したような型分析やカラーセグメンテーションを使ってその型や色を分析して、知覚因子としてのColorの名前（Color:Name）、Shapeの名前（Shape:Name）を評価する。リンゴが予め登録されているような場合には、評価値が高いものもとして得られ、これにより対象物がリンゴであることが認識される。そして、その選択した対象物とされるリンゴを特定するIDとそのときのリリース信号（release signal）が出力される。また、リンゴが予め登録されていない場合には、未定義の数を累積し、これを、未知の対象物としてのリンゴに対応させる。
【０１９４】
一方、リリースメカニズム（Release Mechanism）１０２は、人間による指さしに関しては、さらに大きなリリース信号（release signal）を生成するように設定されている。そして、リリースメカニズム（Release Mechanism）１０２は、指差しによる物体検出がなされた場合には、その物体が未知であるか既知であるかにかかわらずリリース信号（release signal）を生成している。これは、指さしが明らかに人間から情報獲得或いは情報確認の要求であり、内部状態に大きく依存せずに情報獲得行動を誘引させたい、或いは既知のものに対して確認行動をとらせる、という考えによるものである。
【０１９５】
そして、情報獲得行動サブシステム１５１_ｎでは、このリリース信号（release signal）とモチベーション値（motivation value）とを乗算したものを行動評価値（behavior value）として得る。また、同様にして、Eating等を規定する他の各サブシステム（subsystem）においても、情報獲得行動サブシステム１５１_ｎに入力されたリリース信号（release signal）とモチベーション値（motivation value）とを用いて、行動評価値（behavior value）を得る。
【０１９６】
そして、行動選択部１１６において、各サブシステム（subsystem）からの行動評価値（behavior value）を比較し、最も大きな行動評価値（behavior value）を持つサブシステム（subsystem）が実行するサブシステムとして選択される。こここで説明では、このような評価値の比較により、情報獲得行動サブシステム１５１_ｎにおける行動評価値（behavior value）が最大とされた場合となる。
【０１９７】
なお、選択されたサブシステム（subsystem）は、しばらく選び続ける必要があるが、これは、例えば、相互抑制や疲労要因（fatigue factor）などによって実現することができる。
【０１９８】
情報獲得行動サブシステム１５１_ｎが選択されると、図２６に示すように、次にモード（Mode）ＭＤと呼ばれる階層に進む。モード（Mode）ＭＤでは、同様に、情報の選択処理がなされるが、具体的には、モード（Mode）では、上位層の選択が指さしによる物体か、自ら選択した物体、すなわち未知の物体か、が区別される。このモード（Mode）ＭＤにおいて、区別がなされると、図２６に示すように、その下層とされるモジュール（Module）ＭＪといわれる層において、具体的な行動に対する評価がなされる。この評価に基づいて、行動選択部１１６において、具体的な行動の選択がなされる。
【０１９９】
これにより、ロボット装置１は、例えば、対象物が既知のものであれば、その確認行動をとるようになり、対象物が未知のものであれば、獲得行動をとるようになる。例えば、情報獲得行動は、対象物の名前（Obj:Name）と内部状態変化への影響（Act:Delta-Int）とで２種類の情報獲得がなされた場合には、サブシステム（subsystem）のところで最大値評価を与えた対象物を調べどちらかが選択されるようにすることもできる。
【０２００】
例えば、確認行動を実行する場合の処理としては、その確認行動に対応するステートマシンに命令が送られ、その名前の確認行動が実行される。そして、ロボット装置１は、人間が指でさした物体を視覚的なトラッキング（Visual Tracking）をしながら近づき、それからその物体を指でさし、すなわち前脚でさし、“これはXXですね？”等といったような行動を表出させる。このような行動は、そのような行動を規定する行動シーケンスが記述されたステートマシンにより制御することにより実現される。
【０２０１】
対象物の名前（Obj:Name）の獲得行動をする場合の処理としては、その出力が対応する対象物の名前（Obj:Name）の獲得のためのステートマシンに送られる。
対象物の名前（Obj:Name）の獲得行動においては、その対象物に対して視覚的トラッキング（Visual Tracking）をしながら接近し、指をさし、“これはなんという名前？”等という行動を表出させる。また、このとき、対象物との距離を用いて適切な行動制御がなされる。このような行動は、そのような行動を規定する行動シーケンスが記述されたステートマシンにより制御することにより実現される。
【０２０２】
そして、“これはなんという名前？”に引き続き、入力された発話認識部からの出力に有効なものがあれば、その音韻系列を繰り返して確認するようなステートマシンを組み込むこともできる。
【０２０３】
一方、内部状態変化への影響（Act:Delta-Int）による獲得行動、すなわち、内部状態変化に基づく未知の対象物に対する獲得行動が選択されると、その対象物に対していくつかの行動をランダムに選択して実行する。そして、そのときに生じる内部状態変化への影響（Delta-Int）を連想記憶で評価する。これにより、この対象物が内部状態に関連付け（Grounding）されるので、新たな対象物に対する内部状態変化への影響が意味獲得としてなされるようになる。
【０２０４】
例えば、リンゴを見て、そのときに内部状態が「快」に変化した場合には、その内部状態の変化を、対象物であるリンゴに対応させてる。以後、ロボット装置１は、リンゴを快として意味解釈するようになり、これにより、リンゴの意味獲得がロボット装置１においてなされたことになる。
以上のように、ロボット装置１は、本発明が適用されることにより、自律行動の一部として情報獲得行動を表出させて、最適な挙動としての共同注意を実行し、さらには、そのような情報獲得行動において、内部状態の変化として得られる未知の対象物の意味を獲得することができる。これにより、ロボット装置１は、よりライフライク（Life-like）に近づけられたものとなる。
【０２０５】
なお、上述したような、ロボット装置１への本発明の適用は、例えばソフトウェアとよって実現可能とされるものである。
【０２０６】
【発明の効果】
本発明に係るロボット装置は、自律行動の一行動として情報獲得行動をさせる行動制御手段を備えることにより、自律行動の一行動として情報獲得行動を表出することができる。
【０２０７】
また、本発明に係るロボット装置の行動制御方法は、ロボット装置の自律的行動の一行動として情報獲得行動をさせることにより、ロボット装置は、自律的行動の一行動として情報獲得行動を表出することができる。
【０２０８】
また、本発明に係るロボット装置は、対象物の意味を獲得する意味獲得手段を備えることにより、対象物の意味を獲得することができるようになる。
【０２０９】
また、本発明に係るロボット装置の行動制御方法は、内部状態に基づいて行動をしているロボット装置が対象物に対する行動をしたときの、内部状態の変化を当該対象物の意味として獲得することにより、ロボット装置は、内部状態に基づいて行動をし、対象物に対する行動をしたときの内部状態の変化を当該対象物の意味として獲得することができる。
【０２１０】
また、本発明に係るロボット装置は、音声入力手段と、発話した際の単語系列の特徴量に基づいて区分けされた複数の単語系列特徴モデルと、音声入力手段になされた発話入力を、単語系列特徴モデルに基づいて評価する発話入力評価手段と、発話入力評価手段の評価値に基づいて、発話入力の単語系列を特定する単語系列特定手段とを備えることにより、音声入力手段になされた発話入力を、発話した際の単語系列の特徴量に基づいて区分けされた複数の単語系列特徴モデルに基づいて発話入力評価手段により評価し、発話入力評価手段の評価値に基づいて、発話入力の単語系列を単語系列特定手段により特定することができる。これにより、ロボット装置は、入力された発話を最適な単語系列として特定することができる。
【０２１１】
また、本発明に係るロボット装置の行動制御方法は、音声入力工程と、音声入力工程にてなされた発話入力を、発話した際の単語系列の特徴量に基づいて区分けされた複数の単語系列特徴モデルに基づいて評価する発話入力評価工程と、発話入力評価工程にて得た評価値に基づいて、発話入力の単語系列を特定する単語系列特定工程とを有することにより、ロボット装置は、入力された発話を最適な単語系列として特定することができる。
【０２１２】
また、本発明に係るロボット装置は、自己の学習対象物を指し示す行動制御をする制御手段を備えることにより、自己の学習対象物を指し示す行動をすることができる。これにより、ロボット装置とユーザとの間の共同注意が確実なものとされるようになる。
【０２１３】
また、本発明に係るロボット装置の行動制御方法は、自律行動するロボット装置が自己の学習対象物を指し示すようにロボット装置の行動を制御することにより、ロボット装置は、自己の学習対象物を指し示す行動をすることができる。これにより、ロボット装置とユーザとの間の共同注意が確実なものとされるようになる。
【０２１４】
また、本発明に係るロボット装置は、対象物を検出するセンサと、センサからの入力信号を評価する知覚用評価部と、知覚用評価部の評価結果が入力され、当該評価結果に基づいて変化する擬似的内部状態を管理する内部状態管理部と、対象物と当該対象物に基づく内部状態の変化との関係を記憶する記憶手段とを備えることにより、対象物が検出された際に、検出された対象物に基づく上記内部状態の変化と上記対象物とを関連させて上記記憶手段に記憶することができる。
【０２１５】
また、本発明に係るロボット装置の行動制御方法は、対象物を検出するセンサからの入力信号を評価する知覚評価工程と、知覚評価工程における評価結果に基づいて変化する擬似的内部状態を管理する内部状態管理工程と、対象物と当該対象物に基づく内部状態の変化との関係を記憶手段に記憶する記憶工程とを有することにより、ロボット装置は、対象物が検出された際に、検出された対象物に基づく上記内部状態の変化と上記対象物とを関連させて上記記憶手段に記憶することができる。
【図面の簡単な説明】
【図１】本発明の実施の形態であるロボット装置の外観構成を示す斜視図である。
【図２】上述のロボット装置の回路構成を示すブロック図である。
【図３】上述のロボット装置のソフトウェア構成を示すブロック図である。
【図４】上述のロボット装置のソフトウェア構成におけるミドル・ウェア・レイヤの構成を示すブロック図である。
【図５】上述のロボット装置のソフトウェア構成におけるアプリケーション・レイヤの構成を示すブロック図である。
【図６】上述のアプリケーション・レイヤの行動モデルライブラリの構成を示すブロック図である。
【図７】ロボット装置の行動決定のための情報となる有限確率オートマトンを説明するために使用した図である。
【図８】有限確率オートマトンの各ノードに用意された状態遷移表を示す図である。
【図９】行動を選択する構成部を示すブロック図である。
【図１０】知覚によって行動を選択する構成部を示すブロック図である。
【図１１】サブシステムの具体例を示す図である。
【図１２】行動を選択する構成のより具体的な構成部を示すブロック図である。
【図１３】ロボット装置が共同注意により、情報獲得行動又は情報確認行動を表出するまでの一連の手順を示すフローチャートである。
【図１４】ロボット装置を含むネットワークシステムの構成を示す図である。
【図１５】任意の単一色からなる入力画像のカラーセグメンテーションについての説明に使用した図である。
【図１６】人間が含まれた入力画像のカラーセグメンテーションについての説明に使用した図である。
【図１７】カラーセグメンテーションのクラスタリングの説明に使用した図である。
【図１８】入力画像のクラスタリングの様子を示す図である。
【図１９】カラーセグメンテーションにより切り出された外形分析の結果を示す図である。
【図２０】発話認識を実現する構成部を示すブロック図である。
【図２１】未知語入力用ＨＭＭの構成例を示す図である。
【図２２】発話認識の結果を示す図である。
【図２３】内部状態に関する情報を示す図である。
【図２４】仮想的な胃と仮想的な膀胱等の関係を示す図である。
【図２５】学習用メモリの構成を示すブロック図である。
【図２６】外部刺激、内部状態に基づく情報から、共同注意による情報獲得行動又は情報確認行動を表出するまでの処理を示す図である。
【符号の説明】
１ロボット装置、１０ＣＰＵ、１０１モチベーション生成部、１０２リリースメカニズム、１０３動作評価部、１１１知覚部、１１２知覚用内部状態部、１１３内部状態部、１１４情動部、１１５サブシステム、１１６行動選択部、１４０学習用メモリ

Claims

自律行動するロボット装置であって、
対象物を検出するセンサと、
上記センサからの入力信号を評価する知覚用評価部と、
上記知覚用評価部の評価結果が入力され、上記評価結果に基づいて変化する擬似的内部状態を管理する内部状態管理部と、
上記対象物と当該対象物に基づく上記内部状態の変化との関係を記憶する記憶手段と、
行動生成部とを備え、
対象物が検出された際に、検出された対象物に基づく上記内部状態の変化と上記対象物とを関連させて上記記憶手段に記憶し、
上記内部状態管理部は、上記内部状態の変化因子としての情報獲得欲に関連し経時的に減少する変数が新規情報の学習量である情報獲得変数を有し、上記内部状態を一定に保つようにする内部状態の恒常性に基づいて上記内部状態を管理するとともに、上記恒常性が乱れたときには上記行動生成部に第１の信号を送信し、上記情報獲得変数の値に基づいて上記行動生成部に第２の信号を送信し、
上記行動生成部は、上記第１の信号に基づいて上記恒常性を保つための行動を生成し、上記第２の信号に基づいて上記情報獲得変数が欠乏状態を示す所定の閾値以下となったとき、該情報獲得変数を該閾値より大きくするための情報獲得行動を生成するロボット装置。
上記内部状態の変化と上記恒常性を保つための行動とを上記記憶手段に連想記憶する請求項１記載のロボット装置。
上記情報獲得行動が、情報として言語を獲得する言語獲得行動である請求項１記載のロボット装置。