JP2011115944A

JP2011115944A - ロボット装置、ロボット装置の行動制御方法及びプログラム

Info

Publication number: JP2011115944A
Application number: JP2011047594A
Authority: JP
Inventors: Masahiro Fujita; 雅博藤田; Takeshi Takagi; 剛高木; Rika Hasegawa; 里香長谷川; Osamu Hanagata; 理花形; Jun Yokono; 順横野; Gabriel Costa; コスタガブリエル; Hideki Shimomura; 秀樹下村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-03-31
Filing date: 2011-03-04
Publication date: 2011-06-16
Also published as: KR20020008848A; EP1195231A4; US20020158599A1; EP1195231A1; US6754560B2; CN1380846A; CN1283428C; WO2001072478A1

Abstract

【課題】学習対象物の共有（共同注意）を可能として、適切に学習対象物を特定することを可能にする。
【解決手段】ロボット装置は、学習対象物を特定する学習対象物特定手段として機能するセグメンテーション処理部１３２及び学習対象物検出部１３３が特定した学習対象物の情報を連想想起記憶部に記憶し、行動制御部により、新たな検出した物と連想想起記憶部に記憶した学習対象物の情報とに基づいて行動をする。
【選択図】図３６

Description

本発明は、ロボット装置、ロボット装置の行動を制御するロボット装置の行動制御方法及びプログラムに関する。

従来、知識獲得或いは言語獲得と呼ばれる分野においては、主に視覚情報と聴覚情報の連想記憶を基本とするものであった。

「LEARNING WORDS FROM NATURAL AUDIO-VISUAL INPUT」（Deb Roy, Alex Pentland）（以下「非特許文献１」という。）では、入力音声と入力画像から言語を学習する研究を行っている。この非特許文献１での学習手法は、概略は次のようなものである。

画像信号と音声信号（音響信号）とを同時或いは時間を前後して学習システムに入力させる。上記非特許文献１では、このように同時或いは時間を前後して入力された画像と音声のペアのイベント（Event）をＡＶイベント（AV‐Event）と呼んでいる。

このように入力された画像信号及び音声信号について、画像処理により画像信号から色と形を検出し、一方で、音声処理により音声信号から音声区間検出（リカレントニューラルネット）及び音韻分析を行う。具体的には、画像特徴空間における特徴（距離等）から入力された画像を各クラス（特定画像を認識するためのクラス、認識クラス。）に分類する一方、音特徴空間における特徴（距離等）から入力された音を各クラス（特定の音を認識するためのクラス、認識クラス。）に分類する。特徴空間は、図１に示すように、複数の要素によって構成される空間であり、例えば、画像信号であれば、色差信号や輝度信号を要素とした２次元或いはそれ以上の多次元空間として構成されている。そして、入力された画像はそのような特徴空間において所定の分布を示すことから、そのような分布に基づいて色の認識が可能になる。例えば、このような特徴空間において、距離関係からクラス分類して、色を認識する。

例えば、音の認識では、連続認識ＨＭＭ（Hidden Markov Model）法を採用する。連続認識ＨＭＭ法（以下、単にＨＭＭという。）は、音声信号を音韻系列として認識可能とするものである。また、上述のリカレントニューラルネットとは、信号が入力層側へ戻るような流れのニューラルネットワークである。

そして、同時発生に関する相関（相関学習）をもとに、画像処理でクラス分類される刺激（画像）に対してクラス分類された音韻を結びつけ（関連づけ）、学習を行っている。すなわち、画像で示されたものの名前や形容を学習結果として獲得している。

例えば、上述のような学習によれば、図２に示すように、画像情報からなる「赤いもの」、「青いもの」、・・・等に分類されている画像クラスにより入力画像が特定（認識）され、また、音情報からなる“ａ−ｋａ”、“ａ−ｏ”，“ｋｉ”、・・・等に分類されているクラスにより入力音声が特定（認識）される。

そして、そのようなクラス分類された画像や音声が相関学習により関連づけされる。これにより、“赤色のもの”が画像入力された場合には、その相関学習の結果として、学習システム２００は、“ａ−ｋａ”の音韻系列を出力することができる。

従来技術として、下記の文献が知られている。

特開平１１−１４３８４９号公報

「LEARNING WORDS FROM NATURAL AUDIO-VISUAL INPUT」（Deb Roy, Alex Pentland）「Perceptually grounded meaning creation」（Luc Steels, ICMAS, Kyoto 1996）「The Spontaneous Self-organization of an Adaptive Language」（Luc Steels, Muggleton, S.（ed.）（1996）Machine, Intelligence 15.）「知覚情報からの概念構造にもとづく音声入力による言語獲得」（岩崎、田村、ソニーコンピュータサイエンス研究所）

ところで、近年、周囲の環境（外的要因）や内部状態（内的要因、例えば、感情、本能等の状態）に応じて自律的に行動するロボット装置が提案されている。このようなロボット装置は、人間或いは環境とインタラクション（対話）をするようなものとして構成されている。例えば、ロボット装置として、動物に模した形状及び動物のような仕草をする、いわゆるペットロボット等が提案されている。

例えば、このようなロボット装置においては、種々の情報を学習させることはその娯楽性の向上に繋がる。特に、行動を学習させることができれば、娯楽性は高まると言える。

しかし、上述した学習手法（文献１）を、行動を引き起こすことを目的として構成されているロボット装置に応用する場合、以下のような問題が生じる。

先ず、上述したような学習手法では、行動を引き起こすことを適切に設定されていない。

上述の文献１では、発話は、入力信号に対する記憶した単語を発生するか、或いは新規な信号と判断されれば、適当な音韻の系列を発生させて出力している。しかし、ロボット装置には、人間或いは環境とのインタラクション（対話）として、入力信号をそのまま表現する出力（発話）が求められるわけではなく、入力に対して適切な行動が引き起こされることが要求されている。

また、画像特徴空間及び音特徴空間での距離関係をもとにクラス分類する場合、取得した画像及び音声については、画像特徴空間及び音特徴空間で近い情報となるが、それに対する行動が異なる場合、或いはそれに対する行動を異ならせたい場合も想定される。このような場合、最適な行動がなされるようにクラス分類に反映しなければならない。しかし、従来の手法はこのような状況に対処できるものではない。

また、従来の知識獲得或いは言語獲得は主として次のような事柄から構成されている。
（１）．画像信号のクラス分類と新しいクラスを生成する手段。
（２）．音響信号のクラス分類と新しいクラスを生成する手段。
（３）．項目（１）と項目（２）との結果を結びつける手段。或いは画像と音とを相関学習する手段。

もちろん、これ以外の機能が付加されているものもある。しかし、少なくともこの３つが構成要素となっている。

この項目（１）及び項目（２）のクラス分類の手法としては、特徴空間へのマッピング、意味のある信号に対する先見的知識を用いたパラメトリックな識別法、確率的なクラス分類結果など様様な手法が存在する。

画像については、例えば、色空間において赤色、青色、緑色、黄色などの色テンプレートにおける閾値を制御することで行ったり、提示される色刺激に対して既にある色の記憶領域と入力色の特徴空間での距離より、各色としての確率を求めるなど、一般的な画像認識手法を用いることができる。例えば、図１に示すような特徴空間においてある特徴量として既にクラス分類されている領域に対して、入力された画像の特徴量が示す領域の距離から、そのようなクラスである確率を求めるようにである。また、ニューラルネットなどの手法も有効である。

一方、音声については、音韻検出、ＨＭＭによる入力された音韻系列と記憶されている音韻系列とを比較し、それに基づいた確率的単語認識などが用いられる。

また、上記項目（１）、項目（２）の新しいクラスを生成する手段としては、次のようなものがある。

入力信号に対し、既存のクラスに所属するかどうかの評価をし、既存のクラスに所属すると判断すれば、その入力信号をそのクラスに所属させ、クラス所属の評価方法に反映させたりする。もし、既存のどのクラスにも所属しないと判断されれば、新しいクラスを生成し、そのクラス所属の評価はその入力刺激をもとに行うように学習を行う。

例えば、新しいクラスの生成としては、画像クラスについて既存のクラス（画像Ａのクラス、画像Ｂのクラス、・・・）に所属しないと判断した場合、図３中（Ａ）に示すように、いまあるクラス（例えば、画像Ａのクラス）を分割して新たな画像のクラスを生成し、或いは音クラスについては、既存のクラス（音αのクラス、音βのクラス、・・・）に所属しないと判断した場合、図３中（Ｂ）に示すように、いまあるクラス（音βのクラス）を分割して新たな音のクラスを生成する。

また、上記項目（３）の画像と音のクラスを結びつける手法には、例えば連想記憶等がある。

画像の識別クラスをベクトル（以下、画像識別ベクトルという。）ＩＣ［ｉ］（ｉ＝０，１，・・・，NIC−１）、音の識別クラスのベクトル（以下、音識別ベクトルという。）ＳＣ［ｊ］（ｊ＝０，１，・・・，NSC−１）とする。提示（学習のために入力）された画像と音信号に対して、各認識クラスの確率或いは評価結果値をそれぞれのベクトル値に設定する。

自己想起型の連想記憶では、画像識別ベクトルＩＣと音識別ベクトルＳＣとを、（１）式及び（２）式で示すことができる１つのベクトルとする。

なお、自己想起型の連想記憶としては、ホップフィールドの提唱するいわゆるホップフィールドネットが有名である。

各ベクトルは、次のように１つのベクトルになされる。今、ベクトルＣＶを列ベクトルとすると自己想起型の連想記憶は、（３）式のdelta_Wというマトリクスを現状の記憶しているマトリクスＷに足すことでなされる。

これにより、画像刺激（入力された画像）をあるクラスとみなし、そのクラスに音声認識結果の単語（これは例えばＨＭＭのクラス）と結びつけることが可能となる。新しい画像（例えば赤）を提示し、音声“ａ−ｋａ”を入力することにより、画像刺激の赤色に各クラスが特徴空間上の刺激度或いは距離によって適当な大きさを示し、同様に音声“ａ−ｋａ”という音韻系列に各クラスが適当な大きさで反応するが、それらを上記の式で相関行列として扱い、統計的に平均化することによって、同じ刺激には同じ画像と音声のクラスが高い値を示すため、高い相関を示すことになる。これにより、画像として赤色を提示すれば、“ａ−ｋａ”というＨＭＭのクラスが連想記憶される。

一方、「Perceptually grounded meaning creation」（Luc Steels, ICMAS, Kyoto 1996）（「非特許文献２」）では、ディスクリミネーションゲーム（Discrimination Game）と呼ぶ実験で意味獲得を行っている。ディスクリミネーションゲームは概略として次のようなものである。

システムは、上述のように画像と音響とは限らずに一般的なセンサチャンネルと特微量検出器とを複数して構成されている。そして、それらの特微量検出器により、エージェント（agent）とよぶ物（例えば、ソフトウェアにより構成）が、提示されたオブジェクト（object）に対し、他のオブジェクト（既に認知しているオブジェクト）とを区別しようと試み、例えば、特徴量に基づいて区別化を図ろうとし、もし区別できる特徴量がなければ、その新たに提示されたオブジェクトに対応される新しい特微量検出器を作り出していくというものである。そして、区別できる特徴量をもっていない場合、すなわち対応する特徴量検出器を持ってない場合は負け、持っていれば勝ちといった評価をしていく。

そして、システム全体は、セレクショニストの原理により動作する。すなわち、ゲームに勝てば生き残る確率をあげ、負ければ新しい特徴量検出器を作り出す。ただし、その新しい特徴量検出器は次回のゲームで使われ、正しい結果を出すかどうかはわからない。このような動作により、区別をより良くするエージェントが生き残るようになる。

以上がディスクリミネーションゲームの概略であり、このようなディスクリミネーションゲームは、換言すれば、選択淘汰により、よりよい特微量検出器を作り出す手法とみることもできる。

また、「The Spontaneous Self-organization of an Adaptive Language」（Luc Steels, Muggleton, S.（ed.）（1996）Machine, Intelligence 15.）（「非特許文献３」）では、ランゲージゲーム（Language Game）という手法で言語の発生を論じている。ランゲージゲームは次の３つのステップからなる。

第１ステップ、プロパゲーション（propagation）。
第２ステップ、クリエーション（creation）。このステップでは、エージェント（agent）が新しい単語を作り、それに対して新しい特徴を連想づける。
第３ステップ、セルフオーガナイゼーション（self-organization）。このステップでは、淘汰と選択によりシステムが自己組織化していく。

このランゲージゲームは、いわゆる画像処理にあたる第１ステップの部分と、言語処理に関係する単語に対応する第２ステップの部分（ただし、実際には音声認識をせずいわゆる文字を入力する部分）、それとその単語からステップ１において取得している画像を連想させる第３ステップからなる。上述したディスクリミネーションゲームは、第２ステップに相当する部分はなく、既存の特徴空間での区別だけを対象としている。

また、「知覚情報からの概念構造にもとづく音声入力による言語獲得」（岩崎、田村、ソニーコンピュータサイエンス研究所）（「非特許文献４」）では、音声認識にＨＭＭを使用し、画像はコンピュータのモニター上の色がついた典型的なパターン（丸、三角等の形状、及び赤、青等の色のもの）を用いて文法獲得を行っている。

上記非特許文献４では、図４に示すように、ユーザはモニター２１０上のパターン（ある物体）をマウスでクリックし（ポインタ２１２で指示し）、同時に音声で“赤い丸”などと発話する。そして、色画像のディスクリミネータゲームの理論とＨＭＭの音声認識を用い、上述した上記非特許文献３のランゲージゲームにおける第１ステップ〜第３ステップを確率的に行っている。

新しいクラスの生成は、所定の手法によるベリフィケーション（verification）により行っている。上記非特許文献４では、音声認識にＨＭＭを用いてベリフィケーションで新しいクラスをつくると判断したとき、そのＨＭＭをさらに分割することで新しいクラスを生成している。

さらに、図４中の矢印方向として示すように、マウスで選んだパターン２１１を動かすことにより、“第１のオブジェクト（Obj１）２１１を第２のオブジェクト（Obj２）２１３の上へ移動”という動作と同時に、”上にのせる”という音声を入力することにより、そのようなモニター２１０内でしたパターンの動きを認識させることができる。そして、このような認識された動作については、ＨＭＭによりクラス分けをしている。

以上のように、知識獲得或いは言語獲得についての技術が種々提案されている。しかし、このような手法についても、ロボット装置における行動獲得（行動学習）といった面から以下のような問題が存在する。
（１）．入力信号の特徴空間内の距離とクラス所属評価についての問題。
（２）．行動生成とその評価についての問題。
（３）．学習対象物をインタラクションを行う両者で共有することについての問題。いわゆる学習対象物の共有の問題。

上述の問題（１）は、例えば入力された画像信号に対してクラス所属評価が画像信号にかかわる情報だけ、若しくは同時に入力された音信号、又はその２つにより想起された記憶情報に影響されるだけでは難しい状況がある、というものである。なお、ここで、クラス所属評価とは、どのクラスに該当するかの指標となるものである。

例えば、既存のクラスの特徴空間で非常に近いとされる画像信号が入力されたと仮定する。例えば、図５中（Ａ）に示すように、クラスＡとクラスＢとが画像特徴空間において近接している場合である。しかし、ここで入力された画像信号は、実は新しいクラスの生成をするべき信号とされているものとする。

一方、このような条件の下で、この画像信号に対応する対象物の他の情報として、同時に音声信号が入力され、この入力された音声信号が既存のクラスとは非常に離れているという判断がなされれば、当該対象物について音についての新たなクラスが生成されることになる。例えば、図５中（Ｂ）に示すように、クラスα（画像のクラスＡに対応付けされる音クラス）とクラスβ（画像のクラスＢに対応付けされる音クラス）とが音特徴空間において、分布が異なり、閾値Ｓ_２を設定できるものとする。

よって、画像のクラス所属評価に、音についての特徴空間に基づいてしたクラス所属評価を反映させることができれば、画像についても新しいクラスを生成することができる。例えば、音特徴空間におけるクラス所属評価を反映させることにより、図５中（Ａ）に示すように、特徴の近似のクラスＡとクラスＢとの間に両者を区別する閾値Ｓ_１を設定することができる。すなわち、他方のクラス所属評価を参照することにより、クラスの所属評価が適切になされるようになるというものである。

しかし、もし画像信号及び音声信号の両方についてもクラスが非常に近かった場合、これだけでは画像及び音声について新しいクラスを発生させることは難しい。これは、例えば、図６中（Ａ）及び（Ｂ）に示すように、画像及び音の特徴空間においてクラスが近似している場合において、第３の特徴空間からみて全く異なる特徴を有しているときであっても、それらを区別化ができないということである。例えば、第３の特徴空間としては、行動の特徴を示すものが考えられる。

そこで、本発明は、上述の実情に鑑みてなされたものであり、対象物を、各特徴空間において適切に判別することができるロボット装置及びロボット装置の行動制御方法の提供を目的としている。

また、上述の問題（２）については、例えば新しいクラス所属と判断するべき信号が入力されたとき、いかにロボット装置の新しい行動を生成し、それを評価するのか、ということである。

従来の手法では、言語発生の評価が、生成した行動の評価に対応するとも考えられるが、文献３では、任意の音韻列を生成している。それが、入力信号おそらくは画像信号に含まれているオブジェクトの名前等になるのである。しかしながら、行動の生成として、任意の動き列を発生させるわけにはいかない。

例えば、４本の各脚が３自由度のロボット装置の各関節角の任意列を発生してもほとんどの場合、意味のある動きにならない。また、言語発生ではその音韻系列がそのオブジェクト（対象物）の名前になっていくだけであるが、行動生成では、そのようにして生成した行動についての善し悪しの評価をどうするかが問題になる。

また、本発明は、このような実情に鑑みてなされたものであり、入力に対して、適切な行動を生成することができるロボット装置及びロボット装置の行動制御方法の提供を目的としている。

また、上述の問題（３）については、いわゆる学習対象物の共有（共同注意）の問題であり、ロボット装置が知覚している情報が多様であることに起因する。例えば、ロボット装置の画像信号入力部（例えば、ＣＣＤカメラ）と全く異なる方向に人間がオレンジのボールをもって、“オレンジのボール”を発言し、教育しても、ロボット装置の視野に入っているオブジェクト（対象物）がピンクの箱であれば、それを“オレンジのボール”を結びつけてしまう。

また、上述した文献４の手法においては、モニター２１０上のパターン２１１をマウスでクリックして学習対象物（教育対象物）として指定しているが、実世界ではこのような学習対象物の指定手段がない。また、上述の文献２及び文献３の理論をロボット装置に適用したと仮定した場合でも、ロボット装置のなす行動は、視覚に入っているいくつかの対象物のうち、言い手が適当に選んだ対象物に対して、自分の記憶に従ってその名前を発話し、その発話に基づいて言い手が学習対象物を選ぶ、というものになる。これでは、実世界においてなされているような、学習対象物を特定した学習とはなっていない。

また、本発明は、このような実情に鑑みてなされたものであり、学習対象物の共有（共同注意）を可能として、適切に学習対象物を特定することができるロボット装置及びロボット装置の行動制御方法の提供を目的としている。

本発明に係るロボット装置は、上述の課題を解決するために、学習対象物を特定する学習対象物特定手段と、学習対象物特定手段が特定した学習対象物の情報を記憶する記憶手段と、新たな検出した物と記憶手段に記憶した学習対象物の情報とに基づいて、行動をする行動制御手段と備える。

このような構成を備えたロボット装置は、学習対象物を特定する学習対象物特定手段が特定した学習対象物の情報を記憶手段に記憶し、行動制御手段により、新たな検出した物と記憶手段に記憶した学習対象物の情報とに基づいて行動をする。

これにより、ロボット装置は、学習対象物を記憶して、再び同一の対象物が入力された際には、所定の行動をする。

また、本発明に係るロボット装置の行動制御方法は、上述の課題を解決するために、学習対象物を特定する学習対象物特定工程と、学習対象物特定工程にて特定した学習対象物の情報を記憶手段に記憶する記憶工程と、新たな検出した物と記憶手段に記憶した学習対象物の情報とに基づいて、行動をする行動制御工程とを有する。

このようなロボット装置の行動制御方法により、ロボット装置は、学習対象物を記憶して、再び同一の対象物が入力された際には、所定の行動をする。

本発明に係るロボット装置は、学習対象物を特定する学習対象物特定手段が特定した学習対象物の情報を記憶手段に記憶し、行動制御手段により、新たな検出した物と記憶手段に記憶した学習対象物の情報とに基づいて行動をすることにより、学習対象物を記憶して、再び同一の対象物が入力された際には、所定の行動をすることができる。

また、本発明に係るロボット装置の行動制御方法は、学習対象物を特定する学習対象物特定工程と、学習対象物特定工程にて特定した学習対象物の情報を記憶手段に記憶する記憶工程と、新たな検出した物と記憶手段に記憶した学習対象物の情報とに基づいて、行動をする行動制御工程とを有する。

この発明が適用されたロボット装置は、学習対象物を記憶して、再び同一の対象物が入力された際には、所定の行動をすることができる。

入力信号の特徴量を検出するための特徴量空間を示す図である。画像及び音についての認識クラス等を備えた学習システムを示すブロック図である。新たな認識クラスの生成についての説明に使用した図である。先行文献（文献４、岩橋ら）を説明するために使用した図である。画像特徴空間と音特徴空間との関係を説明するために使用した図である。画像特徴空間、音特徴空間、及び第３の特徴空間との関係を説明するために使用した図である。本発明の実施の形態であるロボット装置の外観構成を示す斜視図である。上述のロボット装置の回路構成を示すブロック図である。上述のロボット装置のソフトウェア構成を示すブロック図である。上述のロボット装置のソフトウェア構成におけるミドル・ウェア・レイヤの構成を示すブロック図である。上述のロボット装置のソフトウェア構成におけるアプリケーション・レイヤの構成を示すブロック図である。上述のアプリケーション・レイヤの行動モデルライブラリの構成を示すブロック図である。ロボット装置の行動決定のための情報となる有限確率オートマトンを説明するために使用した図である。有限確率オートマトンの各ノードに用意された状態遷移表を示す図である。上述のロボット装置における本発明に係る部分の構成を示すブロック図である。ロボット装置への動作の教示を説明するために使用した図である。ロボット装置の動作を教示する識別部を示すブロック図である。動作の学習をする識別器を示すブロック図である。動作の学習に使用するパルス幅を示す図であって、立ち姿勢におけるパルス幅の特性図である。動作の学習に使用するパルス幅を示す図であって、立ち姿勢から背中を前方向に押したときのパルス幅を示す特性図である。動作の学習に使用するパルス幅を示す図であって、立ち姿勢から背中を後ろ方向に押したときのパルス幅を示す特性図である。動作の学習に使用するパルス幅を示す図であって、立ち姿勢において、頭を上方向に押したときのパルス幅を示す特性図である。動作の学習に使用するパルス幅を示す図であって、立ち姿勢において、頭を下方向に押したときのパルス幅を示す特性図である。動作の学習に使用するパルス幅を示す図であって、座り姿勢において、頭を右上方向に押したときのパルス幅を示す特性図である。動作の学習に使用するパルス幅を示す図であって、座り姿勢において、頭を左上方向に押したときのパルス幅を示す特性図である。ロボット装置の快及び不快判定部を示すブロック図である。ニューラルネットワークを説明するために使用した図である。本発明の実施の形態であって、ロボット装置が外力を学習するために備える構成を示すブロック図である。３層バックプロパゲーションによるニューラルネットワークを示す図である。３層バックプロパゲーションによるニューラルネットワークにおける各層のニューロンの構成を示す図である。シグモイド関数を示す特性図である。学習回数と平均２乗誤差との関係を示す特性図である。ロボット装置の音声認識部を具体的構成を示すブロック図である。ロボット装置の連想想起記憶部及び行動生成部を示すブロック図である。具体的な処理を説明するために使用した連想想起記憶部を示すブロック図である。ロボット装置のセンサ処理部の具体的構成を示すブロック図である。指により学習対象物を特定する共同学習を説明するために使用した図である。連想記憶システムの具体例の概略構成を示すブロック図である。連想記憶システムに用いられる２層の階層型の競合学習ニューラルネットワークの例を示す図である。ある入力パターンにより発火した入力ニューロン及び発火していない入力ニューロンと、競合層のニューロンとの結合について、提示回数に伴う変化の例を示す図である。ロボット装置の行動決定動作のテストを行うために使用した階層構造の行動決定システムのコンテンツツリーを示す図である。第１の動作テストにおける本能（instinct）の内のHunger（摂食欲）及びSleepy（睡眠欲）の時間変化を示す図である。第１の動作テストにおける感情（emotion）としての覚醒度（Activation）、快度（Pleasantness）、確信度（Certainly）の時間変化を示す図である。第１の動作テストにおけるモチベーション（Motivation）としての睡眠（Sleep）と食べる（Eat）の時間変化を示す図である。第２の動作テストにおける本能（instinct）の時間変化を示す図である。第２の動作テストにおける感情（emotion）の時間変化を示す図である。第２の動作テストにおけるリリースメカニズム（Release Mechanism）の時間変化を示す図である。

以下、本発明の実施の形態について図面を用いて詳しく説明する。この実施の形態は、周囲の環境（外的要因）や内部の状態（内的要因）に応じて自律的に行動をする自律型のロボット装置である。

実施の形態では、先ず、ロボット装置の構成について説明して、その後、ロボット装置における本発明の適用部分について詳細に説明する。

（１）本実施の形態によるロボット装置の構成
図７に示すように、「犬」を模した形状のいわゆるペットロボットとされ、胴体部ユニット２の前後左右にそれぞれ脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄが連結されると共に、胴体部ユニット２の前端部及び後端部にそれぞれ頭部ユニット４及び尻尾部ユニット５が連結されて構成されている。

胴体部ユニット２には、図８に示すように、ＣＰＵ（Central Processing Unit）１０、ＤＲＡＭ（Dynamic Random Access Memory）１１、フラッシュＲＯＭ（Read ０nly Memory）１２、ＰＣ（Personal Computer）カードインターフェース回路１３及び信号処理回路１４が内部バス１５を介して相互に接続されることにより形成されたコントロール部１６と、このロボット装置１の動力源としてのバッテリ１７とが収納されている。また、胴体部ユニット２には、ロボット装置１の向きや動きの加速度を検出するための角速度センサ１８及び加速度センサ１９なども収納されている。

また、頭部ユニット４には、外部の状況を撮像するためのＣＣＤ（Charge Coupled Device）カメラ２０と、使用者からの「撫でる」や「叩く」といった物理的な働きかけにより受けた圧力を検出するためのタッチセンサ２１と、前方に位置する物体までの距離を測定するための距離センサ２２と、外部音を集音するためのマイクロホン２３と、鳴き声等の音声を出力するためのスピーカ２４と、ロボット装置１の「目」に相当するＬＥＤ（Light Emitting Diode）（図示せず）となどがそれぞれ所定位置に配置されている。

さらに、各脚部ユニット３Ａ〜３Ｄの関節部分や各脚部ユニット３Ａ〜３Ｄ及び胴体部ユニット２の各連結部分、頭部ユニット４及び胴体部ユニット２の連結部分、並びに尻尾部ユニット５の尻尾５Ａの連結部分などにはそれぞれ自由度数分のアクチュエータ２５_１〜２５_ｎ及びポテンショメータ２６_１〜２６_ｎが配設されている。例えば、アクチュエータ２５_１〜２５_ｎはサーボモータを構成として有している。サーボモータの駆動により、脚部ユニット３Ａ〜３Ｄが制御されて、目標の姿勢或いは動作に遷移する。

そして、これら角速度センサ１８、加速度センサ１９、タッチセンサ２１、距離センサ２２、マイクロホン２３、スピーカ２４及び各ポテンショメータ２６_１〜２６_ｎなどの各種センサ並びにＬＥＤ及び各アクチュエータ２５_１〜２５_ｎは、それぞれ対応するハブ２７_１〜２７_ｎを介してコントロール部１６の信号処理回路１４と接続され、ＣＣＤカメラ２０及びバッテリ１７は、それぞれ信号処理回路１４と直接接続されている。

なお、後述するように、動作（行動）の学習において、この角速度センサ１８、加速度センサ１９、ポテンショメータ２６_１〜２６_ｎ等の信号が使用される。

信号処理回路ｌ４は、上述の各センサから供給されるセンサデータや画像データ及び音声データを順次取り込み、これらをそれぞれ内部バス１５を介してＤＲＡＭ１１内の所定位置に順次格納する。また信号処理回路１４は、これと共にバッテリ１７から供給されるバッテリ残量を表すバッテリ残量データを順次取り込み、これをＤＲＡＭ１１内の所定位置に格納する。

このようにしてＤＲＡＭ１１に格納された各センサデータ、画像データ、音声データ及びバッテリ残量データは、この後ＣＰＵ１０がこのロボット装置１の動作制御を行う際に利用される。

実際上ＣＰＵ１０は、ロボット装置１の電源が投入された初期時、胴体部ユニット２の図示しないＰＣカードスロットに装填されたメモリカード２８又はフラッシュＲＯＭ１２に格納された制御プログラムをＰＣカードインターフェース回路１３を介して又は直接読み出し、これをＤＲＡＭ１１に格納する。

また、ＣＰＵ１０は、この後上述のように信号処理回路１４よりＤＲＡＭ１１に順次格納される各センサデータ、画像データ、音声データ及びバッテリ残量データに基づいて自己及び周囲の状況や、使用者からの指示及び働きかけの有無などを判断する。

さらに、ＣＰＵ１０は、この判断結果及びＤＲＡＭ１１に格納した制御プログラムに基づいて続く行動を決定すると共に、当該決定結果に基づいて必要なアクチュエータ２５_１〜２５_ｎを駆動させることにより、頭部ユニット４を上下左右に振らせたり、尻尾部ユニット５の尻尾５Ａを動かせたり、各脚部ユニット３Ａ〜３Ｄを駆動させて歩行させるなどの行動を行わせる。

また、この際ＣＰＵ１０は、必要に応じて音声データを生成し、これを信号処理回路１４を介して音声信号としてスピーカ２４に与えることにより当該音声信号に基づく音声を外部に出力させたり、上述のＬＥＤを点灯、消灯又は点滅させる。

このようにしてこのロボット装置１においては、自己及び周囲の状況や、使用者からの指示及び働きかけに応じて自律的に行動し得るようになされている。

（２）制御プログラムのソフトウェア構成
ここで、ロボット装置１における上述の制御プログラムのソフトウェア構成は、図９に示すようになる。この図９において、デバイス・ドライバ・レイヤ３０は、この制御プログラムの最下位層に位置し、複数のデバイス・ドライバからなるデバイス・ドライバ・セット３１から構成されている。この場合、各デバイス・ドライバは、ＣＣＤカメラ２０（図８）やタイマ等の通常のコンピュータで用いられるハードウェアに直接アクセスするごとを許されたオブジェクトであり、対応するハードウェアからの割り込みを受けて処理を行う。

また、ロボティック・サーバ・オブジェクト３２は、デバイス・ドライバ・レイヤ３０の最下位層に位置し、例えば上述の各種センサやアクチュエータ２５_１〜２５_ｎ等のハードウェアにアクセスするためのインターフェースを提供するソフトウェア群でなるバーチャル・ロボット３３と、電源の切換えなどを管理するソフトウェア群でなるバワーマネージャ３４と、他の種々のデバイス・ドライバを管理するソフトウェア群でなるデバイス・ドライバ・マネージャ３５と、ロボット装置１の機構を管理するソフトウェア群でなるデザインド・ロボット３６とから構成されている。

マネージャ・オブジェクト３７は、オブジェクト・マネージャ３８及びサービス・マネージャ３９から構成されている。オブジェクト・マネージャ３８は、ロボティック・サーバ・オブジェクト３２、ミドル・ウェア・レイヤ４０、及びアプリケーション・レイヤ４１に含まれる各ソフトウェア群の起動や終了を管理するソフトウェア群であり、サービス・マネージャ３９は、メモリカード２８（図８）に格納されたコネクションファイルに記述されている各オブジェクト間の接続情報に基づいて各オブジェクトの接続を管理するソフトウェア群である。

ミドル・ウェア・レイヤ４０は、ロボティック・サーバ・オブジェクト３２の上位層に位置し、画像処理や音声処理などのこのロボット装置１の基本的な機能を提供するソフトウェア群から構成されている。また、アプリケーション・レイヤ４１は、ミドル・ウェア・レイヤ４０の上位層に位置し、当該ミドル・ウェア・レイヤ４０を構成する各ソフトウェア群によって処理された処理結果に基づいてロボット装置１の行動を決定するためのソフトウェア群から構成されている。

なお、ミドル・ウェア・レイヤ４０及びアプリケーション・レイヤ４１の具体なソフトウェア構成をそれぞれ図１０に示す。

ミドル・ウェア・レイヤ４０は、図１０に示すように、騒音検出用、温度検出用、明るさ検出用、音階認識用、距離検出用、姿勢検出用、タッチセンサ用、動き検出用及び色認識用の各信号処理モジュール５０〜５８並びに入力セマンティクスコンバータモジュール５９などを有する認識系６０と、出力セマンティクスコンバータモジュール６８並びに姿勢管理用、トラッキング用、モーション再生用、歩行用、転倒復帰用、ＬＥＤ点灯用及び音再生用の各信号処理モジュール６１〜６７などを有する出力系６９とから構成されている。

認識系６０の各信号処理モジュール５０〜５８は、ロボティック・サーバ・オブジェクト３２のバーチャル・ロボット３３によりＤＲＡＭ１１（図８）から読み出される各センサデータや画像データ及び音声データのうちの対応するデータを取り込み、当該データに基づいて所定の処理を施して、処理結果を入力セマンティクスコンバータモジュール５９に与える。ここで、例えば、バーチャル・ロボット３３は、所定の通信規約によって、信号の授受或いは変換をする部分として構成されている。

入力セマンティクスコンバータモジュール５９は、これら各信号処理モジュール５０〜５８から与えられる処理結果に基づいて、「うるさい」、「暑い」、「明るい」、「ボールを検出した」、「転倒を検出した」、「撫でられた」、「叩かれた」、「ドミソの音階が聞こえた」、「動く物体を検出した」又は「障害物を検出した」などの自己及び周囲の状況や、使用者からの指令及び働きかけを認識し、認識結果をアプリケーション・レイヤ４１（図８）に出力する。

アプリケーション・レイヤ４ｌは、図１１に示すように、行動モデルライブラリ７０、行動切換えモジュール７１、学習モジュール７２、感情モデル７３及び本能モデル７４の５つのモジュールから構成されている。

行動モデルライブラリ７０には、図１２に示すように、「バッテリ残量が少なくなった場合」、「転倒復帰する」、「障害物を回避する場合」、「感情を表現する楊命」、「ボールを検出した場合」などの予め選択されたいくつかの条件項目にそれぞれ対応させて、それぞれ独立した行動モデル７０_１〜７０_ｎが設けられている。

そして、これら行動モデル７０_１〜７０_ｎは、それぞれ入力セマンティクスコンバータモジュール５９から認識結果が与えられたときや、最後の認識結果が与えられてから一定時間が経過したときなどに、必要に応じて後述のように感情モデル７３に保持されている対応する情動のパラメータ値や、本能モデル７４に保持されている対応する欲求のパラメータ値を参照しながら続く行動をそれぞれ決定し、決定結果を行動切換えモジュール７１に出力する。

なお、この実施の形態の場合、各行動モデル７０_１〜７０_ｎは、次の行動を決定する手法として、図１３に示すような１つのノード（状態）ＮＯＤＥ_０〜ＮＯＤＥ_ｎから他のどのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに遷移するかを各ノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに間を接続するアークＡＲＣ_１〜ＡＲＣ_ｎに対してそれぞれ設定された遷移確率Ｐ_１〜Ｐ_ｎに基づいて確率的に決定する有限確率オートマトンと呼ばれるアルゴリズムを用いる。

具体的に、各行動モデル７０_１〜７０_ｎは、それぞれ自己の行動モデル７０_１〜７０_ｎを形成するノードＮＯＤＥ_０〜ＮＯＤＥ_ｎにそれぞれ対応させて、これらノードＮＯＤＥ_０〜ＮＯＤＥ_ｎごとに図１４に示すような状態遷移表８０を有している。

この状態遷移表８０では、そのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎにおいて遷移条件とする入力イベント（認識結果）が「入力イベント名」の行に優先順に列記され、その遷移条件についてのさらなる条件が「データ名」及び「データ範囲」の行における対応する列に記述されている。

したがって、図１４の状態遷移表８０で表されるノードＮＯＤＥ_１００では、「ボールを検出（ＢＡＬＬ）」という認識結果が与えられた場合に、当該認識結果と共に与えられるそのボールの「大きさ（ＳＩＺＥ）」が「0から1000」の範囲であることや、「障害物を検出（ＯＢＳＴＡＣＬＥ）」という認識結果が与えられた場合に、当該認識結果と共に与えられるその障害物までの「距離（ＤＩＳＴＡＮＣＥ）」が「0から100」の範囲であることが他のノードに遷移するための条件となっている。

また、このノードＮＯＤＥ_１００では、認識結果の入力がない場合においても、行動モデル７０_１〜７０_ｎが周期的に参照する感情モデル７３及び本能モデル７４にそれぞれ保持された各情動及び各欲求のパラメータ値のうち、感情モデル７３に保持された「喜び（ＪＯＹ）」、「驚き（ＳＵＲＰＲＩＳＥ）」若しくは「悲しみ（ＳＡＤＮＥＳＳ）」のいずれかのパラメータ値が「50から100」の範囲であるときには他のノードに遷移することができるようになっている。

また、状態遷移表８０では、「他のノードヘの遷移確率」の欄における「遷移先ノード」の列にそのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎから遷移できるノード名が列記されていると共に、「入力イベント名」、「データ値」及び「データの範囲」の行に記述された全ての条件が揃ったときに遷移できる他の各ノードＮＯＤＥ_０〜ＮＯＤＥ_ｎへの遷移確率が「他のノードヘの遷移確率」の欄内の対応する箇所にそれぞれ記述され、そのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに遷移する際に出力すべき行動が「他のノードヘの遷移確率」の欄における「出力行動」の行に記述されている。なお、「他のノードヘの遷移確率」の欄における各行の確率の和は１００［％］となっている。

したがって、図１４の状態遷移表８０で表されるノードＮＯＤＥ_１００では、例えば「ボールを検出（ＢＡＬＬ）」し、そのボールの「ＳＩＺＥ（大きさ）」が「0から1000」の範囲であるという認識結果が与えられた場合には、「30［％］」の確率で「ノードＮＯＤＥ_１２０（node 120）」に遷移でき、そのとき「ＡＣＴＩＯＮ１」の行動が出力されることとなる。

各行動モデル７０_１〜７０_ｎは、それぞれこのような状態遷移表８０として記述されたノードＮＯＤＥ_０〜ＮＯＤＥ_ｎがいくつも繋がるようにして構成されており、入力セマンティクスコンバータモジュール５９から認識結果が与えられたときなどに、対応するノードＮＯＤＥ_０〜ＮＯＤＥ_ｎの状態遷移表を利用して確率的に次の行動を決定し、決定結果を行動切換えモジュール７１に出力するようになされている。

図１１に示す行動切換えモジュール７１は、行動モデルライブラリ７０の各行動モデル７０_１〜７０_ｎからそれぞれ出力される行動のうち、予め定められた優先順位の高い行動モデル７０_１〜７０_ｎから出力された行動を選択し、当該行動を実行すべき旨のコマンド（以下、これを行動コマンドという。）をミドル・ウェア・レイヤ４０の出力セマンティクスコンバータモジュール６８に送出する。なお、この実施の形態においては、図１２において下側に表記された行動モデル７０_１〜７０_ｎほど優先順位が高く設定されている。

また、行動切換えモジュール７１は、行動完了後に出力セマンティクスコンバータモジュール６８から与えられる行動完了情報に基づいて、その行動が完了したことを学習モジュール７２、感情モデル７３及び本能モデル７４に通知する。

一方、学習モジュール７２は、入力セマンティクスコンバータモジュール５９から与えられる認識結果のうち、「叩かれた」や「撫でられた」など、使用者からの働きかけとして受けた教示の認識結果を入力する。

そして、学習モジュール７２は、この認識結果及び行動切換えモジュール７１からの通知に基づいて、「叩かれた（叱られた）」ときにはその行動の発現確率を低下させ、「撫でられた（誉められた）」ときにはその行動の発現確率を上昇させるように、行動モデルライブラリ７０における対応する行動モデル７０_１〜７０_ｎの対応する遷移確率を変更する。

他方、感情モデル７３は、「喜び（joy）」、「悲しみ（sadness）」、「怒り（anger）」、「驚き（surprise）」、「嫌悪（disgust）」及び「恐れ（fear）」の合計６つの情動について、各情動ごとにその情動の強さを表すパラメータを保持している。そして、感情モデル７３は、これら各情動のパラメータ値を、それぞれ入力セマンティクスコンバータモジュール５９から与えられる「叩かれた」及び「撫でられた」などの特定の認識結果と、経過時間及び行動切換えモジュール７１からの通知となどに基づいて周期的に更新する。

具体的には、感情モデル７３は、入力セマンティクスコンバータモジュール５９から与えられる認識結果と、そのときのロボット装置１の行動と、前回更新してからの経過時間となどに基づいて所定の演算式により算出されるそのときのその情動の変動量を△Ｅ［ｔ］、現在のその情動のパラメータ値をＥ［ｔ］、その情動の感度を表す係数をｋ_ｅとして、（４）式によって次の周期におけるその情動のパラメータ値Ｅ［ｔ＋１］を算出し、これを現在のその情動のパラメータ値Ｅ［ｔ］と置き換えるようにしてその情動のパラメータ値を更新する。また、感情モデル７３は、これと同様にして全ての情動のパラメータ値を更新する。

なお、各認識結果や出力セマンティクスコンバータモジュール６８からの通知が各情動のパラメータ値の変動量△Ｅ［ｔ］にどの程度の影響を与えるかは予め決められており、例えば「叩かれた」といった認識結果は「怒り」の情動のパラメータ値の変動量△Ｅ［ｔ］に大きな影響を与え、「撫でられた」といった認識結果は「喜び」の情動のパラメータ値の変動量△Ｅ［ｔ］に大きな影響を与えるようになっている。

ここで、出力セマンティクスコンバータモジュール６８からの通知とは、いわゆる行動のフィードバック情報（行動完了情報）であり、行動の出現結果の情報であり、感情モデル７３は、このような情報によっても感情を変化させる。これは、例えば、「吠える」といった行動により怒りの感情レベルが下がるといったようなことである。なお、出力セマンティクスコンバータモジュール６８からの通知は、上述した学習モジュール７２にも入力されており、学習モジュール７２は、その通知に基づいて行動モデル７０_１〜７０_ｎの対応する遷移確率を変更する。

なお、行動結果のフィードバックは、行動切換えモジュレータ７１の出力（感情が付加された行動）によりなされるものであってもよい。

一方、本能モデル７４は、「運動欲（exercise）」、「愛情欲（affection）」、「食欲（appetite）」及び「好奇心（curiosity）」の互いに独立した４つの欲求について、これら欲求ごとにその欲求の強さを表すパラメータを保持している。そして、本能モデル７４は、これらの欲求のパラメータ値を、それぞれ入力セマンティクスコンバータモジュール５９から与えられる認識結果や、経過時間及び行動切換えモジュール７１からの通知などに基づいて周期的に更新する。

具体的には、本能モデル７４は、「運動欲」、「愛情欲」及び「好奇心」については、認識結果、経過時間及び出力セマンティクスコンバータモジュール６８からの通知などに基づいて所定の演算式により算出されるそのときのその欲求の変動量をΔＩ［ｋ］、現在のその欲求のパラメータ値をＩ［ｋ］、その欲求の感度を表す係数ｋ_ｉとして、所定周期で（５）式を用いて次の周期におけるその欲求のパラメータ値Ｉ［ｋ＋１］を算出し、この演算結果を現在のその欲求のパラメータ値Ｉ［ｋ］と置き換えるようにしてその欲求のパラメータ値を更新する。また、本能モデル７４は、これと同様にして「食欲」を除く各欲求のパラメータ値を更新する。

なお、認識結果及び出力セマンティクスコンバータモジュール６８からの通知などが各欲求のパラメータ値の変動量△Ｉ［ｋ］にどの程度の影響を与えるかは予め決められており、例えば出力セマンティクスコンバータモジュール６８からの通知は、「疲れ」のパラメータ値の変動量△Ｉ［ｋ］に大きな影響を与えるようになっている。

なお、本実施の形態においては、各情動及び各欲求（本能）のパラメータ値がそれぞれ0から100までの範囲で変動するように規制されており、また係数ｋ_ｅ、ｋ_ｉの値も各情動及び各欲求ごとに個別に設定されている。

一方、ミドル・ウェア・レイヤ４０の出力セマンティクスコンバータモジュール６８は、図１０に示すように、上述のようにしてアプリケーション・レイヤ４１の行動切換えモジュール７１から与えられる「前進」、「喜ぶ」、「鳴く」又は「トラッキング（ボールを追いかける）」といった抽象的な行動コマンドを出力系６９の対応する信号処理モジュール６１〜６７に与える。

そしてこれら信号処理モジュール６１〜６７は、行動コマンドが与えられると当該行動コマンドに基づいて、その行動を行うために対応するアクチュエータ２５_１〜２５_ｎ（図８）に与えるべきサーボ指令値や、スピーカ２４（図８）から出力する音の音声データ及び又は「目」のＬＥＤに与える駆動データを生成し、これらのデータをロボティック・サーバ・オブジェクト３２のバーチャル・ロボット３３及び信号処理回路１４（図８）を順次介して対応するアクチュエータ２５_１〜２５_ｎ又はスピーカ２４又はＬＥＤに順次送出する。

このようにしてロボット装置１においては、制御プログラムに基づいて、自己（内部）及び周囲（外部）の状況や、使用者からの指示及び働きかけに応じた自律的な行動を行うことができるようになされている。

（３）環境に応じた本能及び感情の変化
ロボット装置１は、さらに、例えば、周囲が「明るい」ときには陽気になり、これに対して周囲が「暗い」ときには物静かになるなど、周囲の環境のうちの「騒音」、「温度」及び「照度」の３つの条件（以下、環境条件という。）の度合いに応じて感情・本能を変化させるようになされている。

すなわち、ロボット装置１には、周囲の状況を検出するための外部センサとして、上述したＣＣＤカメラ２０、距離センサ２２、タッチセンサ２１及びマイクロホン２３などに加えて周囲の温度を検出するための温度センサ（図示せず）が所定位置に設けられている。対応する構成として、ミドル・ウェア・レイヤ４０の認識系６０には、騒音検出用、温度検出用及び明るさ検出用の各信号処理モジュール５０〜５２が設けられている。

騒音検出用の信号処理モジュール５０は、ロボティック・サーバ・オブジェクト３２のバーチャル・ロボット３３を介して与えられるマイクロホン２３（図８）からの音声データに基づいて周囲の騒音レベルを検出し、検出結果を入力セマンティクスコンバータモジュール５９に出力する。

温度検出用の信号処理モジュール５１は、バーチャル・ロボット３３を介して与えられる温度センサからのセンサデータに基づいて周囲の温度を検出し、検出結果を入力セマンティクスコンバータモジュール５９に出力する。

明るさ検出用の信号処理モジュール５２は、バーチャル・ロボット３３を介して与えられるＣＣＤカメラ２０（図８）からの画像データに基づいて周囲の照度を検出し、検出結果を入力セマンティクスコンバータモジュール５９に出力する。

入力セマンティクスコンバータモジュール５９は、これら各信号処理モジュール５０〜５２の出力に基づいて周囲の「騒音」、「温度」及び「照度」の度合いを認識し、当該認識結果を上述のようにアプリケーション・モジュール４１（図１１）の内的状態モデル部に出力する。

具体的に、入力セマンティクスコンバータモジュール５９は、騒音検出用の信号処理モジュール５０の出力に基づいて周囲の「騒音」の度合いを認識し、「うるさい」又は「静か」といった認識結果を感情モデル７３及び本能モデル７４等に出力する。

また、入力セマンティクスコンバータモジュール５９は、温度検出用の信号処理モジュール５１の出力に基づいて周囲の「温度」の度合いを認識し、「暑い」又は「寒い」といった認識結果を感情モデル７３及び本能モデル７４等に出力する。

さらに、入力セマンティクスコンバータモジュール５９は、明るさ検出用の信号処理モジュール５２の出力に基づいて周囲の「照度」の度合いを認識し、「明るい」又は「暗い」といった認識結果を、感情モデル７３及び本能モデル７４等に出力する。

感情モデル７３は、上述のように、入力セマンティクスコンバータモジュール５９から与えられる各種認識結果に基づき（４）式に従って各パラメータ値を周期的に変更する。

そして、感情モデル７３は、入力セマンティクスコンバータモジュール５９から与えられる「騒音」、「温度」及び「照度」についての認識結果に基づいて、予め定められた対応する情動についての（４）式の係数ｋ_ｅの値を増減させる。

具体的には、感情モデル７３は、例えば「うるさい」といった認識結果が与えられた場合には「怒り」の情動に対する係数ｋ_ｅの値を所定数増加させ、これに対して「静か」といった認識結果が与えられた場合には「怒り」の情動に対する係数ｋ_ｅの値を所定数減少させる。これにより、周囲の「騒音」に影響されて「怒り」のパラメータ値が変化することになる。

また、感情モデル７３は、「暑い」といった認識結果が与えられた場合には「喜び」の情動に対する係数ｋ_ｅの値を所定数減少させ、これに対して「寒い」といった認識結果が与えられた場合には「悲しみ」の情動に対する係数ｋ_ｅの値を所定数増加させる。これにより、周囲の「温度」に影響されて「悲しみ」のパラメータ値が変化することになる。

さらに、感情モデル７３は、「明るい」といった認識結果が与えられた場合には「喜び」の情動に対する係数ｋ_ｅの値を所定数増加させ、これに対して［暗い」といった認識結果が与えられた場合には「恐れ」の情動に対する係数ｋ_ｅの値を所定数増加させる。これにより、周囲の「照度」に影響されて「恐れ」のパラメータ値が変化することになる。

これと同様にして、本能モデル７４は、上述のように、入力セマンティクスコンバータモジュール５９から与えられる各種認識結果等に基づき（５）式に従って各欲求のパラメータ値を周期的に変更する。

また、本能モデル７４は、入力セマンティクスコンバータモジュール５９から与えられる「騒音」、「温度」及び「照度」の度合いについての認識結果に基づいて、予め定められた対応する欲求の（５）式の係数ｋ_ｉの値を増減させる。

具体的には、本能モデル７４は、例えば「うるさい」や「明るい」といった認識結果が与えられた場合には、「疲れ」に対する係数ｋ_ｉの値を所定数減少させ、これに対して「静か」や「暗い」といった認識結果が与えられた場合には「疲れ」に対する係数ｋ_ｉの値を所定数増加させる。また、本能モデル７４は、「暑い」又は「寒い」といった認識結果が与えられた場合には「疲れ」に対する係数ｋ_ｉの値を所定数増加させる。

この結果、ロボット装置１の行動は、例えば周囲が「うるさい」ときには、「怒り」のパラメータ値が増加しやすく、「疲れ」のパラメータ値が減少しやすくなるために、全体として行動が「いらいら」したような行動となり、これに対して周囲が「静か」なときには、「怒り」のパラメータ値が減少しやすく、「疲れ」のパラメータ値が増加しやすくなるために、全体として行動が「おちついた」行動となる。

また、ロボット装置１の行動は、周囲が「暑い」ときには、「喜び」のパラメータ値が減少しやすく、「疲れ」のパラメータ値が増加しやすくなるために、全体として行動が「だらけた」ような行動となり、これに対して周囲が「寒い」ときには、「悲しみ」のパラメータ値が増加しやすく、「疲れ」のパラメータ値が増加しやすくなるために、全体として行動が「寒がっている」行動となる。

また、ロボット装置１の行動は、周囲が「明るい」ときには、「喜び」のパラメータ値が増加しやすく、「疲れ」のパラメータ値が減少しやすくなるために、全体として行動が「陽気」な行動となり、これに対して周囲が「暗い」ときには、「喜び」のパラメータ値が増加しやすく、「疲れ」のパラメータ値が増加しやすくなるために、全体として行動が「物静か」な行動となる。

以上のようにロボット装置１は構成されており、ロボット装置１は、環境に応じて、感情及び本能を変化させ、その感情及び本能の状態に応じて自律的に行動することができる。

（４）本発明の適用
（４−１）全体の説明
上述のロボット装置１において本発明が適用された要部を説明する。ロボット装置１は、画像信号や音声信号（音響信号）等に結びつけて（関連づけて）行動を学習し、学習後は、結びつけられた画像信号や音声信号により行動を引き起こすように構成されている。以下の説明では、学習として行動に音声を結びつける例について主に説明するが、行動に画像を結びつけることもできることはいうまでもない。具体的には、ロボット装置１は本発明の実現のために次のような構成を有している。
ロボット装置１は、図１５に示すように、音声認識部１０１、センサ処理部１０２、本能情動部１０３、連想想起記憶部１０４及び行動生成部１０５を備えている。

ここで、音声認識部１０１は、接触を検出する接触検出手段とされるタッチセンサ（図８に示すタッチセンサ２１等）による接触検出と同時又は時間的前後に入力された情報を検出する入力情報検出手段として機能し、連想想起記憶部１０４は、接触に応じて出現した行動と、音声認識部１０１が検出した入力情報（音声信号）とを結びつけて記憶する記憶手段として機能し、行動生成部１０５は、新たに得られた入力情報（音声信号）に基づいて、連想想起記憶部１０４により連想された行動をする行動制御手段として機能する。また、センサ処理部１０２は、例えば、図示しないタッチセンサによる接触検出に応じて行動を出現させる行動出現手段としての機能を有する。具体的には、各構成部分は、次のように機能する。

音声認識部１０１は、外部（マイクロホン２３）から入力された音声信号を音声処理して、所定の言語として認識する。具体的には、音声認識部１０１は、ＨＭＭを採用して構成されており、ＨＭＭによる複数の認識クラスにより、入力された音声を音韻系列として認識する。

また、音声認識部１０１では、既存のクラスから学習によりクラスを増加させることも可能である。例えば、図９中（Ｂ）に示したように、認識できない音声の入力がなされた場合には、既存のクラスを分割して新たなクラスを生成する。具体的には、入力された音声に対して確信度（所属評価）の高い既存のクラスを分割して、新たなクラスを生成する。例えば、クラスの分割では、当該クラスにおいて特徴性の低い部分を新たなクラスとして分割する。これにより、予め登録してある言語を認識することができるばかりではなく、新規言語を認識できるようにもなる。

センサ処理部１０２は、センサ信号の変化に基づいて、教示された動作（行動）の信号を生成する。すなわち、センサ処理部１０２は、入力された行動情報を認識する。

例えば、教示される動作については、予め設定されている動作によるものでもよく、使用者により新規に設定される動作によるものでも良い。また、既に設定されている行動のうちのどれか選択して生成することができる。

予め設定されている動作の教示とは、例えば、タッチセンサからのセンサ信号の入力をトリガー（発火）として動作が教示される、といったようなものである。例えば、「立ち姿勢」において背中後方に設けられた所定のタッチセンサを押したときに、「座り姿勢」に遷移させることを予め設定しておいて、実際の場面において、「立ち姿勢」においてそのような背中後方に設けられているタッチセンサが押されたときに、「座り姿勢」への遷移が、動作として教示される、というようにである。

なお、このような動作を教示するためのセンサを設ける位置については、例えは、頭部、脚部先端等であってもよい。このようにセンサを任意に設けることで、種々の動作を教示することが可能になる。

また、新規に設定して行う動作の教示としては、例えば、動作部（関節部）を制御する信号の変化を使用して行うことなどが挙げられる。動作部とは、例えば、上述したように、各脚部ユニット３Ａ〜３Ｄの関節部分や各脚部ユニット３Ａ〜３Ｄ及び胴体部ユニット２の各連結部分、頭部ユニット４及び胴体部ユニット２の連結部分、並びに尻尾部ユニット５の尻尾５Ａの連結部分などに設けられているアクチュエータ（サーボモータ等）２５_１〜２５_ｎである。

例えば、使用者がロボット装置１の動作部を強制的に動かした際には、当該動作部に負荷が発生する。このとき動作部への負荷により通常の動作（外部負荷のない動作）とは異なる信号、例えば、当該動作部へのサーボ信号が発生する。このような信号に基づけば、姿勢の遷移、すなわち動作を把握することが可能である。このようなことから、このような信号を記憶することにより、使用者に強制的に遷移させられた動作を新規の動作として学習することができる。このような新規動作の教示については、後で詳述する。なお、さらに後で詳述することであるが、本発明によりロボット装置１は、このような信号の変化から外力（外部負荷）を検出して、当該外力を学習するといったこともできるようになされている。

さらに、センサ処理部１０２は、学習する行動をクラス認識することもできる。例えば、入力された行動情報を、行動特徴空間における特徴量からクラス認識して、学習することもできる。

本能情動部１０３は、上述したような音声や行動に結びつけられる情動の情報が格納されている部分である。すなわち、本能情報部１０３は、上述したように、本能モデルや感情モデルにより、入力されるセンサ信号等によりその本能や感情を変化させている。

連想想起記憶部１０４は、上述したような音声認識部１０１、センサ処理部１０２及び本能情動部１０３からの情報に基づいて学習をして、さらに学習後においては、その学習に基づいて、入力された音声や画像に対応される行動情報を生成する。例えば、連想想起記憶部１０４は、（１）式及び（２）式を用いて説明した画像と音のクラスとを相関行列として結びつける従来手法の連想記憶を採用し、各情報を連想記憶している。

例えば、連想想起記憶部１０４は、センサ処理部１０２が上述したように、センサ出力から「立ち姿勢」から「座り姿勢」への遷移の動作の教示を検出して、同時或いは時間を前後して音声認識部１０１が“おすわり”の言語を認識した場合には、連想想起記憶部１０４は、「立ち姿勢」から「座り姿勢」への遷移の動作と、“おすわり”の発言とを結びつけて記憶（学習）する。これは、一般的に動物の犬に対する「お座り」の教示としてなされているようなことである。

また、連想想起記憶部１０４は、入力された動作と入力された言語とが対として予め設定されているときにのみ、その動作と言語とを結びつけて（発火して）学習するようにすることもできる。例えば、上述したようないわゆる「お座り」の動作の教示と同時或いは時間を前後して“おすわり”の言語が入力されれば、その動作を学習（結びつけて記憶）するが、それ以外の言語に対しては、動作を学習しないというようにである。

また、連想想起記憶部１０４は、認識された動作或いは言語に、本能情動部１０３から出力される本能や感情をも関連づけして学習することもできる。例えば、学習時において、音声（言語）が入力された際に、恐怖を感じていたとした場合にはそのような音声に、そのような感情を結びつけて学習することもできる。

以上のように連想想起記憶部１０４は、音声、動作或いは感情を関連づけして（結びつけて）学習し、学習後には、そのような学習結果に基づいて、入力された画像や音声等に対応して、行動情報を生成するようになる。

行動生成部１０５は、そのような連想想起記憶部１０４から出力される行動情報に基づいて行動を生成する。例えば、上述したような「お座り」の教示の学習後において、連想想起記憶部１０４が“おすわり”の言語が入力された場合には、「立ち姿勢」から「座り姿勢」への遷移させる行動を出現させる（引き起こさせる）。

このように、ロボット装置１は、音声情報とセンサ信号の変化とを結びつけて、動作を学習して、学習結果として、入力されてくる音声に基づいて行動（動作）を発現することができるようになる。

例えば、「お座り」の動作を学習して、出力するまでのロボット装置１における一連の処理は次のようになる。

学習時には、図１６中（Ａ）に示すように、ロボット装置１は、音声信号（音響信号）と同時或いは時間を前後して接触信号が与えられる。音声信号としては、例えば、“おすわり”が入力される。また、接触信号を与えるとは、「立ち姿勢」から「座り姿勢」への遷移の動作の教示により、その動作に関与する動作部のセンサ信号に変化を与えることと等価である。なお、上述したように所定箇所にタッチセンサ或いは押圧ボタン（例えば、お座り教示ボタン）を設けて、このタッチセンサの操作（押圧）により、そのような動作を教示することもでき、この場合には、接触信号を与えることとは、そのようなタッチセンサの操作による信号の発生をいう。

このような学習操作により、ロボット装置１は、図１６中（Ａ−１）から同図中（Ａ−２）に示すように遷移する動作が教示される。

そして、ロボット装置１は、学習後には、図１６中（Ｂ）の（Ｂ−１）に示すように、学習時に教示した言葉（音響信号）、例えば、“おすわり”を与えることにより、図１６中（Ｂ−２）に示すように、学習時に教示した図１６中（Ａ−２）と同様な姿勢とされる「お座り」の姿勢に遷移するようになる。

また、教示する動作については、上述したような動作に限定されない。すなわち、音声入力（発話）と同時或いは時間を前後して、例えば、ロボット装置１の背中を前方に押す、首の下を上方向に押す若しくは下方向に押す又は前脚を持ち上げる等の動作を教示することもできる。このような動作の教示と、入力言語を結びつけることにより、「伏せ」、「立て」或いは「お手」等の動作の教示となる。

また、例えば、ロボット装置１は、次のような学習をすることもできる。

先ず、ロボット装置１は、行動の学習として、「蹴る」動作を学習する。具体的には、使用者（教示者）により前脚部が操作されて、物を「蹴る」の動作が学習される。動作の学習は、予め設定されている動作によるものでもよく、新規な動作によるものでもよい。一方で、言語認識により得た言葉“ａ−ｋａ”と画像認識された赤とを対応させて記憶する。

このような学習結果として、ロボット装置１は、“あか、けれ”の発話を音声認識して、“赤”の物体に対して、行動生成により蹴る動作を生成する。例えば、赤の対象物の特定は、入力画像をセグメンテーションして、赤色の部分を特定することにより行う。すなわち、赤色に相当するセグメントした物体を対象物として特定する。

また、上述の実施の形態では、行動と結びつける情報を音声情報としているがこれに限定されるものではない。例えば、画像情報を行動情報に結びつけることができる。この場合、例えば、ＣＣＤカメラ２０等の撮像手段からの画像信号から特定画像を認識するための画像認識部を備える。

また、上述の実施の形態では、本能情動部１０３から出力される本能或いは情動を学習された行動や言語に結びつけられている場合について説明しているが、これに限定されるものではない。例えば、予め設定されている行動や言語に対し、後発的に発生された本能や情動をリンクさせることもできる。

さらに、ロボット装置１は、出力（実際の行動）により引き起こされた情動とそのきっかけとなった入力（例えば、言語や画像等）と、当該出力とを記憶（学習）することもできる。これにより、ロボット装置１は、学習後の実際の場面において、言語等の入力から、対応される記憶した情動を想起して、本来であればそのような入力に対応される出力をすべきところ、出力（行動）をすることなく、所定の行動を出現させることもできる。

例えば、ロボット装置１が、ある赤いもの（入力）に触った（行動）時に引き起こされた情動、例えば、熱さを感じたことによる恐怖感（情動）を記憶（学習）することにより、後に赤いものをみる（入力があった）だけで、恐怖を想起して、その恐怖を行動として表出させる（所定の行動を起こす）ことができる。すなわち、赤いものに触るといった過去の動作を出現することなく、他の適切な動作を出現させる。

例えば、このような場合、上述の連想想起記憶部１０４が、音声認識部１０１が検出した音声信号に応じて行動した結果を示す行動結果情報と、当該音声信号とを結びつけて記憶する記憶手段として機能し、行動生成部１０５が、新たに入力された音声信号に基づいて、連想想起記憶部１０４が特定した行動結果情報に基づいて行動をする行動制御手段として機能する。

また、ロボット装置１は、入力信号の特徴空間に、他の入力、情動、行動の空間の影響を与え、当該入力信号のクラス分類に影響を与えることもできる。すなわち、例えば、図１２中（Ａ）及び（Ｂ）に示すように、画像及び音の特徴空間においてクラスが近似している場合、第３の特徴空間（例えば、行動の特徴空間）を参照して、画像及び音のクラス分類をする。

具体的には、画像信号で特徴づけられている第１のオブジェクト（画像）の入力に対して、第１の行動をとったとき報償（例えば、「撫でられた」）を得て、画像特徴空間において第１のオブジェクトに非常に近い第２のオブジェクトに対してもクラス分類の結果（画像特徴空間においては近似している旨）として同様に第１の行動をとったときに罰（例えば、「殴られた」）を得た場合には、次回以降の第２のオブジェクトの入力に際しては、第１の行動以外をとるようにする。すなわち、他の特徴空間におけるクラス分類の結果（ここでは行動結果）を利用して、他のクラスの分類に影響を及ぼす、或いはクラス分類の戦略を変更する。

例えば、このような場合、音声認識部１０１が、入力情報検出手段、入力情報検出手段が検出した音声信号の特徴量を検出する特徴量検出手段、及び特徴量に基づいて、音声信号を分類する情報分類手段としての機能を有する。ここで、特徴量に基づく音声信号の分類とは、ＨＭＭによるクラス分類に該当する。なお、特徴量検出手段としての機能は、後で詳述する図３３に示す特徴量抽出部１２２により実現され、情報分類手段としての機能は、図３３に示すＨＭＭ部１２３により実現される。

さらに、音声認識部１０１は、行動生成部１０５に制御されて行動した結果を示す行動結果情報（例えば、報償、罰）に基づいて、当該行動を引き起こした音声信号の分類（認識クラス）を変更する分類変更手段としての機能を有することになる。なお、連想記憶による学習については、誉められたときにとった行動と刺激（音声、画像、行動等）が結びつけるような学習を行うこともできる。

以上、ロボット装置１における本発明に係る部分の全体について説明した。次に各部についてさらに具体的に説明する。

（４−２）任意の動作の学習（センサ処理部の具体例）
ロボット装置１は、上述したように、学習する動作（行動）を、予め設定されている動作や任意の動作としている。ここでは、任意の動作の学習、すなわち新規動作の学習について説明する。

ロボット装置１は、上述したように、サーボモータで各関節が制御されている。ロボット装置１は、ＣＰＵ１０からの角度指定（角度指定情報）により各関節の角度時系列を発生して、その結果として動作を出力している。

また、サーボ制御部からの信号として、関節につけられたポテンショメータにより実際の関節の角度、及びモータに与えているパルス信号等を得ることができる。任意の動作の教示は、このようなパルス信号を、上述したような予め設定されている動作を教示するタッチセンサ等のセンサ信号の代わりに使用して実行するものである。

ロボット装置１は、このような任意の動作の学習をするための具体的な構成として図１７中（Ａ）に示すように、識別部１１１を備えている。ここで、識別部１１１は、図１５に示したセンサ処理部１０２が任意の動作を学習するために構成されている場合の具体例となる。識別部１１１は、各関節モータへの制御信号のパルス幅に基づいて動作を学習する。

ところで、ロボット装置１は、各姿勢に遷移するようになされているいることから、動作の学習の際には、一定の姿勢に留まっていることはない。この場合、「立ち姿勢」や「座り姿勢」等の各姿勢において、同様な動作を学習させる必要がある。よって、動作部（関節部）を制御するパルス幅によって動作を教示するような場合、各姿勢を把握した上で行うことが必要になる。

このようなことから識別部１１１は、図１７中（Ｂ）に示すように、各姿勢に応じて複数の識別器１１１_１，１１１_２，・・・を備えている。例えば、第１の識別器１１１_１は、「座り姿勢」時の動作学習用、第２の識別器１１１_２は、「立ち姿勢」時の動作学習用というようにである。

識別部１１１は、このように複数の識別器１１１_１，１１１_２，・・・から、現在の姿勢情報に基づいて、所望の一の識別器に切換えて、任意姿勢における動作の学習をする。

なお、現在の姿勢の情報である姿勢情報は、各ポテンショメータ２６_１〜２６_ｎ、角速度センサ１８或いは加速度センサ１９から得られる情報、例えば重力情報から認識することができる。また、行動生成部１０５から動作部の制御信号として出力されるコマンドに基づいて、現在の姿勢情報を得ることもできる。

学習については、外力を与えていない状態のパルス幅との比較によって行う。
これは、通常の状態で各関節がとるパルス幅はある程度の誤差範囲内で決まったパターンとなっているが、外力が加わっているとそのパターンは通常のものと異なるものになる。このような関係を利用し、通常の動作と、外力を加えて動作を教示する際のパターンとの差異から、学習される動作の情報を得る。具体的には、次のようにして動作を学習する。

例えば、姿勢情報から立ち姿勢であると認識された場合、第１の識別器１１１_１に対して、動作学習のために外力を加えたときのパルス幅を情報として与え、同時に、その動作に割り当てられる情報を与える。例えば、動作学習において使用するパルス幅は、（６）式に示すように、いわゆるＰＩＤ制御として使用する信号を使用する。そして、具体的には、ＰＷＭ制御されたパルス幅を使用する。

ここで、ｅ_ｉは、時刻ｉでのエラー値（ポテンショメータの目標角度と現在角度（実際の角度）の差分）であり、Ｐ_ｇ，Ｉ_ｇ，Ｄ_ｇは定数であり、このような（６）式のＰ値を使用する。

例えば、与えるパルス幅及び動作の情報としては、ベクトル値とする。例えば、学習する動作に割り当てられる情報として、５次元のベクトル［Ｖ_０，Ｖ_１，Ｖ_２，Ｖ_３，Ｖ_４］とする。ここで、ベクトルの要素をＶ_０，Ｖ_１，Ｖ_２，Ｖ_３，Ｖ_４の５個にすることにより、５種類の刺激を認識することができるようになる。具体的には、以下のようにして学習を行う。

背中を後ろ方向に押したとき（backward）には、そのときに発生したパルス幅で構成したベクトルＰ_１及び対応される動作の情報としてＯ_１＝［０，１，０，０，０］を与える。例えば、図１８に示すように、識別器１１１_１に、パルス幅のベクトル値（backward）Ｐ_１及び［０，１，０，０，０］を与える。

ここで、各値Ｖ_０，Ｖ_１，Ｖ_２，Ｖ_３，Ｖ_４は、０から１の間の実数（浮動小数点）として学習され、その刺激（学習）される部分が大きいほど１とされる。例えば、Ｏ_１＝［０，１，０，０，０］による行動の取得による結果としてベクトルが［0.1,0.9，0.2，0.1，0.3］といった実数として得られる。

また、背中を前方向に押したときには、そのときに発生したパルス幅で構成したベクトルＰ_２及び対応される動作の情報としてＯ_２＝［０，０，１，０，０］を与え、首を下方向に押したときには、そのときに発生したパルス幅で構成したベクトルＰ_３及び対応される動作の情報としてＯ_３＝［０，０，０，１，０］を与え、首を上に押し上げたときには、そのときに発生したパルス幅で構成したベクトルＰ4及び対応される動作の情報としてＯ_４＝［０，０，０，０，１］を与える。そして、例えば、姿勢の初期値として、外力が加わっていないときのパルス幅のベクトルＰ_０及びそれに対応される動作の情報としてＯ_０＝［１，０，０，０，０］を与え、これと上述した値と比較して動作を学習する。

例えば、パルス幅の例を図１９乃至図２５に示す。この図１９乃至図２５では、横軸に各関節の位置を示し、縦軸にいわゆるＰＷＭパルスの値を示す。

図１９は、立ち姿勢におけるパルス幅（パルス信号の値）の値を示している。ここで、図中、「ＦＲ１」は、右前脚の第１関節（肩の関節）の位置、「ＦＲ２」は、その第２関節（膝の関節）の位置、「ＦＲ３」は、その第３関節（足首の関節）の位置である。また、「ＦＬ１」は、左前脚の第１関節（肩の関節）の位置、「ＦＬ２」は、その第２関節（膝の関節）の位置、「ＦＬ３」は、その第３関節（足首の関節）の位置である。また、「ＨＲ１」は、右後脚の第１関節（肩の関節）の位置、「ＨＲ２」は、その第２関節（膝の関節）の位置、「ＨＲ３」は、その第３関節（足首の関節）の位置である。また、「ＨＬ１」は、後左脚の第１関節（肩の関節）の位置、「ＨＬ２」は、その第２関節（膝の関節）の位置、「ＨＬ３」は、その第３関節（足首の関節）の位置である。また、「Ｈｅａｄ１」、「Ｈｅａｄ２」、「Ｈｅａｄ３」は、首が多関節からなりそれぞれに対応される位置を示す。以下の図２０乃至図２５においても同様である。このように、ある状態（姿勢或いは動作）において、全１５個のパルス幅の値を得ることができ、すなわち、上述した学習に使用するベクトル値Ｐを、１５次元の要素からなるベクトル値として得ることができる。

立ち姿勢において背中を前方向に押したときには、図２０に示すようなパルス幅となり、立ち姿勢において背中を後方に押したときには、図２１に示すようなパルス幅となり、立ち姿勢において頭を上方向に押したときには、図２２に示すようなパルス幅となり、立ち姿勢において頭を下方向に押したときには、図２３に示すようなパルス幅となり、座り姿勢において右脚を持たれたときには、図２４に示すようなパルス幅となり、座り姿勢において左脚を持たれたときには、図２５に示すようなパルス幅となる。識別部は、このようなパルス幅に基づいて、姿勢を把握して、動作を学習する。

また、ロボット装置１は、図２６に示すように、快及び不快判定部１１２を備えることにより、実際の動物に行うと同様に、動作を学習することができる。

快及び不快判定部１１２は、センサ処理部１０２からの出力に対して、快或いは不快を規定する情動の値の判別をする。そして、それに応じて行動情動を出力する。例えば、快及び不快判定部１１２は、感情モデル７３における不快を規定する情動の値が大きいとき、不快を回避する行動を引き起こす行動情報を出力する。例えば、背中を後方向に押されたら、不快と判断して、「座り姿勢」に遷移する行動情報を出力する。また、背中を前方向に押され、或いは頭を下方向に押されたら、不快と判断して、「伏せ姿勢」に遷移する行動情報を出力する。また、伏せ姿勢から首を上方向に持ち上げられたら、不快と判断して、「座り姿勢」に遷移する行動情報を出力する。また、座り姿勢から首を上方向に持ち上げられたら、不快と判断して、「立ち姿勢」に遷移する行動情報を出力する。すなわち、上述のような動作は、外部からの負荷が大きく、不快と感じることにより発現される動作である。このような行動情報に基づいて行動生成部１０５は行動を生成する。

このように動作を発現させることにより、実際の犬等に姿勢の学習をさせると同様に、不快と感じたロボット装置１は自ら姿勢を遷移し、このよう遷移動作を学習する。

なお、上述したような動作の学習は複数回の入力をすることにより行う。また、他の姿勢（他の識別器）についても、学習を行う。そして、各識別器の構成については、例えば、階層型ニューラルネットワークを採用した学習がなせるように構成する。例えば、３層のニューラルネットワークの場合は、図２７に示すように、入力層、中間層及び出力層から構成する。このような場合、概略として次のような手順により学習がなされる。

入力層では、当該入力層に対応された形態されたセンサ信号等が各ニューロンに入力される。中間層では、入力層の各ニューロンから伝えられたデータの特徴量を抽出する。具体的には、中間層の各ニューロンは、入力データの何らかの特徴に着目して、その特徴量を抽出して評価する。そして、出力層は、中間層の各ニューロンから与えられる特徴を組み合わせることによって最終的な決定を行う。

また、例えば、上述したような３層のニューラルネットワークにおいては、バックプロパゲーションによる学習が確立されており、例えばこれを採用して識別器を構成する。これにより、背中を後ろ方向に押して、Ｏ_１＝［０，１，０，０，０］が入力させて、出力として［０，１，０，０，０］に近い値（実数）が出力されるようになる。

以上のようにして、ロボット装置１は、識別部１１１により、任意の動作を学習することができる。これにより、画像信号や音声信号を結びつけて学習することにより、ロボット装置１は、所定の発話（音声信号）に対して、当該発話に対応して学習した動作を発現するようになる。

（４−３）ロボット装置に与えられた外力の学習
上述の任意の動作の学習においては、外力を与えて強制的に変化した際の姿勢を学習することで、所定の発話等に結びつけて発現する動作（姿勢）を学習する場合について説明した。ここでは、そのような外力の種類の学習について説明する。ロボット装置１は、外力の種類を学習することにより、学習した外力が入力された際には、所定の動作を発現することができる。具体的には、ロボット装置１は、腰に与えられる外力を学習して、学習後において腰に対して学習した外力が与えられた場合に、この外部からの力入力を認識し、所定の動作としてお座りを出現するようなことができる。以下、具体的に、外力の学習について説明する。

ロボット装置１は、外力の学習のための構成として、図２８に示すように、動作部材１５１と、動作部材１５１を動作させるための関節部１５２と、動作部材１５１を介して外力が作用している関節部１５２の状態を検出する検出手段１５３と、検出手段１５３が検出した関節部１５２の状態と外力とを対応させて学習する学習手段１６０とを備えている。そして、学習後においては、ロボット装置１は、外力が与えられた場合、関節部１５２の状態からその種類を特定することができる。ここで、動作部材１５１は、ここで、ロボット装置１は、図７及び図８に示すように、胴体部ユニット２、脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄ、胴体部ユニット２及び頭部ユニット４等のアクチュエータ２５_１〜２５_ｎによって駆動される部分である。また、関節部１５２は、そのようなアクチュエータ２５_１〜２５_ｎであって、具体的には、アクチュエータ２５_１〜２５_ｎを構成しているモータである。

このような構成とすることにより、ロボット装置１は、モータに与えられるＰＷＭのパルス信号を使用して外力の学習を行えるようになされている。ロボット装置１は、上述したように、胴体部ユニット２、脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄ、胴体部ユニット２及び頭部ユニット４等が関節（ジョイント）を介した動作部材とされ、さらに、脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄが複数の関節（肩関節、膝関節、足首関節）を介した複数の動作部材からなり、胴体部ユニット２の前後左右にそれぞれ脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄが関節を介して連結されると共に、胴体部ユニット２の前端部及び後端部にそれぞれ頭部ユニット４及び尻尾部ユニット５が関節を介して連結されて構成されている。そして、これら動作部材を動作可能に接合する関節は、アクチュエータ２５_１〜２５_ｎによって構成されており、ＰＷＭのパルス信号は、このアクチュエータ２５_１〜２５_ｎを構成しているモータに与えられる信号である。

ＰＷＭのパルス信号のその幅の値は、動作部材（各種ユニット）１５１を介して外力が作用している関節部（モータ）１５２の状態によって決定されるものであり、すなわち各ジョイント（モータ）の目標角度と実際の角度とのエラー値として計算されるものであり、このようなことから、ロボット装置１に力が加われば、エラー値が大きくなり、これによりパルス幅の値も大きくなる。すなわち、ＰＷＭのパルス幅の値は、ロボット装置１に加わる外力に従って大きくなる。ロボット装置１は、外力の学習を、このようなＰＷＭのパルス信号を使用して行っている。検出手段１５３は、具体的にはこのようなＰＷＭのパルス幅の値を、動作部材１５１を介して外力が作用している関節部１５２の状態として検出している。なお、上述したように、ＰＷＭのパルス信号のその幅の値は、各ジョイント（モータ）の目標角度と実際の角度とのエラー値（差分）として計算されるものであることから、検出手段１５３が検出する関節部１５２の状態とは、各ジョイント（モータ）の目標角度と実際の角度とのエラー値である言うこともできる。なお、検出手段１５３は、例えば、図８等に示す信号処理回路１４の一機能として実現され、又はソフトウェア或いはオブジェクトプログラムによって実現される。

ここで、実施の形態では、後で詳述するが、外力の学習用のＰＷＭのパルス信号として、脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄの関節となるモータに与えられるＰＷＭのパルス信号と、胴体部ユニット２と頭部ユニット４の関節となるモータに与えられるＰＷＭのパルス信号とを使用している。上述した図１９〜図２５は、様々な外力が加わった場合のそのような外力の学習に使用される各関節部（モータ）のＰＷＭのパルス信号の変化を示すものであり、様々な外力に応じたパターン変化を示すものである。なお、図２０に示す「前方へ押す」の際のパターンと図２１に示す「後方に押す」の際のパターンとを比較してみてもわかるように、ＰＷＭパルス幅の値が０（ｘ軸）について略対象となっている。

外力の学習では、上述したような様々な外力が加えた際のこのようなパターン（詳しくはベクトル値）を学習用のデータとして利用して、学習手段１６０においてニューラルネットワークを利用した学習を行っている。例えば、学習手段１６０は、ソフトウェア或いはオブジェクトプログラムによって実現される。

ニューラルネットワークとして、階層結合型ネットワークの、特にバックプロパゲーションによるニューラルネットワークを利用して学習している。バックプロパゲーションによるニューラルネットワークは、パターン認識への適応性が高く、実施の形態では、図２９及び図３０に示すように、入力層１６１、隠れ層（中間層）１６２及び出力層１６３の３層からなる３層バックプロパゲーションによるニューラルネットワークによる学習を行っている。

このような３層バックプロパゲーションによるニューラルネットワークにより、学習後においては、センサからの情報（パルス幅の値）Ｄ_ｉｎが入力層１６１に入力されると、出力層１６３からそのようなセンサからの情報Ｄ_ｉｎに対応される学習された外力の種類の情報Ｄ_ｏｕｔが出力されるようになる。

このような３層バックプロパゲーションによるニューラルネットワークにおける入力層１６１、隠れ層１６２及び出力層１６３は具体的には次のように構成されている。

入力層１６１は、複数のニューロンを有しており、実施の形態では１８個のニューロンを有している。すなわち、入力層１６１には、外力の学習のために１８のデータが入力される。例えば、ロボット装置１は、現在の姿勢として「立ち姿勢（Standing）」、「座り姿勢（お座り姿勢、Sitting）」、「寝姿勢（Sleeping）」といった３種類あり、各ジョイント（各関節部のモータ）のＰＷＭパルス幅の値が１５種類（４脚×３＝１２種類と頭部には３種類があり計１５種類）あり、このようなことから、その総計の１８種類が入力データとされている。

ここで、現在の姿勢の入力をも外力の学習に用いているのは、ジョイント（関節）の状態が姿勢に依存するからであり、すなわちそのパルス幅の値が姿勢に依存するからである。

このような入力層１６１に、各パルス幅の値からなるベクトル値とされたパターンがセンサからの情報Ｄ_ｉｎとして入力される。なお、実施の形態では、入力値であるパルス幅の値は、［−５１２，５１２］の範囲内で値をとるため、（７）式により正規化している。

ここで、Ｐは実測されたパルス幅の値であり、Ｐ_ｍａｘは最大値（５１２）であり、Ｐ_ｍｉｎは最小値（−５１２）である。また、姿勢に関しての入力データは、［０，１］のため（０又は１のどちらかの値をとるため）、正規化は必要ない。

隠れ層１６２は、複数のニューロンを有しており、実施の形態では１７個のニューロンを有している。このニューロンの数は、いわゆるタンブ法により決定している。すなわち、入力層１６１のニューロンの数と出力層１６３のニューロンの数との平均をとり、得られた値のスムージングを行うことにより決定した。タンブ法による隠れ層１６２のニューロン数numOfHiddenは、式で表すと（８）式のようになる。

ここで、numOfInputは入力層１６１のニューロン数であり、numOfOutputは出力層１５３のニューロン数であり、αはスムージングにより増減する値となる。この（８）式に入力層１６１のニューロン数numOfInputとして１８、後述の出力層１５３のニューロン数numOfOutputとして１０を代入すると、隠れ層１６２のニューロン数numOfHiddenは１７になる。

出力層１６３は、複数のニューロンを有しており、実施の形態では１０個のニューロンを有している。ここで出力層１６３のニューロン数が１０個とあるが、これは、１０種類の外力を学習により認識することができることを示唆し、例えば、前に押された（ForceForward、図２０に示した外力）、後ろに押された（ForceBakward、図２１に示した外力）、右手を持たれた（RightHandUp、図２４に示した外力）、左手を持たれた（LeftHandUp、図２５に示した外力）、両手を持たれた（BothHandUp、図示なし）、頭を上に押された（HeadUp、図２２に示した外力）、頭を下に押された（HeadDown、図２３に示した外力）、頭を右に押された（HeadRight、図示なし）、頭を左に押された（HeadLeft、図示なし）、押されていない（NoForce、例えば図９に示した状態）等として１０種類の外力を認識することができる。

このように入力層１６１、隠れ層１６２及び出力層１６３が構成されており、隠れ層１６２及び出力層１６３で使用される入出力関数については種々挙げられるが、実施の形態ではいわゆるシグモイド関数を使用している。シグモイド関数は、例えば、図３１に示すように、いわゆる閾値関数等と異なり入力和に対して出力がなめらかに変化する特性を有している。

このような３層バックプロパゲーションによるニューラルネットワークを使用して、種々の外力の学習が次のようになされる。

学習は、図３０に示すように、入力ベクトルデータ及び教示信号ベクトルデータの対をネットワーク（学習手段１６０）に与えることにより行う。教師ベクトルデータは、ある特定のニューロンの出力が１で、それ以外は０になるように与える。すなわち例えば、認識させたい種類の外力を１として、認識する必要がない外力の種類を全て０として与える。

このとき、中間層１６２が入力和により得られる出力ｙ_ｊ ^（１）は（９）式に示されるようなシグモイド関数sigmoid（）よって得られ、また、出力層１６３が入力和により得られる出力ｙ_ｊ ^（２）は（１０）式に示されるようなシグモイド関数sigmoid（）よって得られる。そして、重みの更新、すなわち重みの学習は、（１１）式によってなされる。ここで、シグモイド関数sigmoid（）は（１２）式のように示される関数である。

ここで、ａ_ｉは入力される各パルス幅の値であり、ｚ_ｉは誤差逆伝播出力であり、εは学習関数であり、βはモーメント係数である。ε（学習関数）及びβ（モーメント係数）は、学習速度に大きく影響する因子であり、例えば、実施の形態のように構成されたロボット装置１の場合には、ε＝０．２、β＝０．４とすることで学習速度を最適なものとすることができる。

そして、複数回の入力ベクトルデータの入力と教師ベクトルデータの入力とを行い、ニューラルネットワークに入力された入力ベクトルデータと教師ベクトルデータとの誤差がある閾値以下に収束したとき学習を終了する。例えば、（１３）式に示すような平均２乗誤差errorがある閾値以下に収束したときに学習を終了する。

ここで、ａは入力ベクトルデータであり、ｔｅは教師ベクトルデータである。

例えば、学習手順は、オンライン学習（逐次学習）で、同じデータを１０回繰り返し学習するようにする。また、同じパターンのデータも略２０個連続で学習させる。これにより、総計略８００サンプルによる学習がなされることになる。

図３２には、学習回数と平均２乗誤差との関係の一例を示している。この図３２に示す結果は、学習回数が約５０回で上述の平均２乗誤差が極小になっており、これは、学習が約５０回で収束していることを示している。なお、通常、重み係数の初期値はランダムに与えるので、その初期値によっては学習が収束の程度が異なってくる。すなわち、初期値によっては、このように約５０回で学習が収束することもあるが、場合によっては、学習を収束させるまで１５０回程度要する場合もあるということである。

以上のような手順により３層バックプロパゲーションによるニューラルネットワークを使用した学習がなされる。これにより、ロボット装置１は、複数種類の外力の入力（複数回の入力）により、関節部１５２の状態（例えば、ＰＷＭパルス幅の値）に対応させて当該複数種類の外力を学習して、外力をカテゴライゼーション（分類化）することができる。なお、例えば、うまくカテゴライゼーションされているか否か或いは過学習しているか否かは、ロボット装置１によるいわゆる汎化性テストを行うことにより確認することができる。

具体的には、このような外力の学習により、ロボット装置１は、腰に外力が与えられた場合、学習した複数種類の外力から当該外力が腰に作用していることを認識して、具体的には各関節部１５２に与えられる各ＰＷＭパルス幅の値（パターン）から当該外力が腰に作用していることを認識して、対応される所定の動作としてのお座りを出現することができるようになる。このようにロボット装置１は、任意の外力を学習することができ、これにより、ユーザからの接触（外力）によるインタラクションの自由度を高くして、多くの動作を出現させることができるようになる。

なお、ここでは、学習部における学習を３層バックプロパゲーションによるニューラルネットワークを利用して行う場合について説明したが、学習部では他の学習手法を利用することができることはいうまでもない。例えば、ＳＶＭ（Support Vector Machine）を用いて、外力をカテゴライゼーションすることもできる。ＳＶＭは、パーセプトロンと同様に線形分類する方法であるが、データを非線形な空間に一度写像し、その空間内で分離する超平面を求めるため、事実上非線形な問題を解くことができる。以下にその原理を示す計算式を示す。

通常、パターン認識の問題は、テストサンプルｘ＝（ｘ_１，ｘ_２，ｘ_３，・・・・，ｘ_ｎ）とした場合に対して、（１４）式に示す認識関数ｆ（ｘ）を求めることができる。

ここで、教師ラベルをｙ＝（ｙ_１，ｙ_２，ｙ_３，・・・，ｙ_ｎ）とすると、（１５）式のような制約条件の下で、‖ｖ‖^２を最小化する問題を考えれば良い。

このような制約のついた問題は、ラグランジュの未定乗数法を用いて解くことができる。ラグランジュ乗数を導入すると、（１６）式のように示すことができる。

ここで、ｂ及びｖについて（１７）式のように編微分すると、（１８）式に示すような二次計画問題を落とすことができる。（１９）式には制約条件を示している。

特徴空間の次元数が、訓練サンプルの数よりも少ない場合は、スラック変数ξ≧０を導入して、制約条件を（２０）式のように変更する。

最適化については、（２１）式の目的関数を最適化する。

ここで、Ｃは、制約条件をどこまで緩めるかを指定する係数で、実験的に値を決定する必要がある。ラグランジュ乗数αに関する問題は、（２２）式のように示すように変更される。（２３）式には制約条件を示している。

しかし、ここまででは、非線形の問題を解くことはできないため、非線形な写像関数であるカーネル関数Ｋ（ｘ，ｘ’）を導入し、一度高次元の空間に写像してその空間で線形分離することを考える。こうすることによって、元の次元では、非線形分離をしていることと同等になる。カーネル関数は、ある写像Φを用いて、（２４）式のように示すことができる。そして、識別関数は、（２５）式に示すようになる。

学習に関しても、（２６）式に示すようになる。（２７）式には制約条件を示している。

カーネル関数としては、ガウシアンカーネルの（２８）式等を用いることができる。

以上のような原理により、ＳＶＭによる行動のカテゴライゼーションが可能になる。

また、ここでは、ロボット装置１がジョイント（関節部）の状態に基づいて外力を学習する場合について説明したが、ジョイントの状態からロボット装置１に作用する外力を検出することに留まるだけでも良い。すなわち、この場合、ロボット装置１は、動作部材を動作させるための関節部の状態を検出する検出手段と、検出手段が検出した関節部の状態に基づいて動作部材に作用する外力を検出する外力検出手段とを備える。例えば、ここでいう検出手段は、上述の図２８に示した検出手段１５３である。

このようなロボット装置１は、関節部の状態に基づいて外力があったことを検出することができる。そして、例えば、検出手段と外力検出手段とはソフトウェア或いはオブジェクトプログラムとして実現可能であり、よって、このようなロボット装置１は、特別（専用）なセンサを装備することなく、外力が加わっていることを検出することができるようになる。また、ロボット装置１は、上述したような外力を学習する場合に際しても新たな構成を備えることなく外力の学習が達成されていると言える。

なお、ロボット装置１におけるこのような外力を検出する構成は、いわゆる外力検出装置としての構成であり、この外力検出装置としての構成は、ロボット装置１に適応されることに限定されないことはいうまでもない。

また、本例では、外力の学習用のＰＷＭのパルス信号として、脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄの関節となるモータに与えられるＰＷＭのパルス信号と、胴体部ユニット２と頭部ユニット４の関節となるモータに与えられるＰＷＭのパルス信号とを使用した場合を説明したが、これに限定されるものではなく、他の関節を構成するモータのＰＷＭのパルス信号を外力の学習用に使用することもできる。

また、本例では、ＰＷＭのパルス信号を外力の学習用に使用している場合について説明したが、これに限定されるものではなく、外力に応じて変化する信号を外力の学習用に使用することができる。

（４−４）音声信号の認識（音声認識部の具体例）
次に、音声信号の認識について具体的に説明する。ロボット装置１は、図３３に示すように、音声信号を認識する部分として、音声信号入力部１２１、特徴量抽出部１２２、ＨＭＭ部１２３を備えている。ここで、特徴量抽出部１２２及びＨＭＭ部１２３からなる構成は、図１５に示した音声認識部１０１の具体例となる。

音響信号入力部１２１は、周囲の音等が入力される部分である。例えば、上述のマイクロホン２３である。この音響信号入力部１２１からの音響信号（音声信号）は、特徴量抽出部１２２に出力される。

特徴量抽出部１２２は、音響信号の特徴量を検出して、後段のＨＭＭ部１２３に出力する。

ＨＭＭ部１２３は、Hidden Markov Modelを採用し、特徴量に基づいて、入力されてきた音響信号のクラス分類をする。例えば、複数に分類されているクラスに基づいて、音響信号を識別する。そして、ＨＭＭ部１２３は、各クラスにおける認識結果を、例えば、各クラスに対応される単語と思われる確率として出力する。例えば、ベクトル値として出力する。

以上のような構成により、ロボット装置１は、マイクロホン２３等から入力される音声を音韻系列として識別する。

そして、図３４に示すように、音声認識部１０１によりＨＭＭにより認識された言語の情報［Ｓ_０，Ｓ_１，Ｓ_２］が、センサ認識部１０２により取得した動作の情報［Ｖ_０，Ｖ_１，Ｖ_２，Ｖ_３，Ｖ_４］とともに、連想想起記憶部１０４に入力される。

連想想起記憶部１０４では、学習時において、これらの情報を結びつけて記憶する。そして、連想想起記憶部１０４は、学習後には、入力された情報に基づいて行動情報を出力する。例えば、ベクトル値の行動情報［Ｂ_０，Ｂ_１，Ｂ_２，Ｂ_３］を出力する。

例えば、学習において、図３５に示すように音声認識結果としての“おすわり（backward）”の言語と、行動の取得による結果としてベクトル［0.1，0.9，0.2，0.1，0.3］が入力されている場合において、学習後に、“おすわり（backward）”が入力されたときには、「お座り」の動作［０，１，０，０，０］を行動情報として出力する。

以上、ロボット装置１における連想想起による学習について説明した。次に、学習対象物の特定を容易にする共同注意を取り入れた学習について説明する。

（５）共同注意
ロボット装置１による音声や画像を学習する場合、周囲のノイズから特定の音や画像を特定して、これを学習の対象（学習対象物、ターゲットオブジェクト）とすることが前提とされる。共同注意は、そのような学習対象物を特定を容易にするものである。例えば、共同注意は、学習対象物を振る或いは揺する（視覚刺激）、又は声を発して指示する（聴覚刺激）等の被教示者が学習対象物を特定させるための刺激を発生させることにより可能となる。

ロボット装置１は、共同注意のための構成として、図３６に示すように、画像信号入力部１３１、セグメンテーション処理部１３２及び学習対象物検出部１３３を備えている。ここでセグメンテーション処理部１３２及び学習対象物検出部１３３は、学習対象物を特定する学習対象物特定手段として機能する。そして、上述の行動生成部１０５が、そのような学習対象物特定手段が特定した学習対象物の情報が記憶された連想想起記憶部１０４の当該学習対象物の情報と、新たな検出した物の情報とに基づいて行動をする行動制御手段として機能する。

画像信号入力部１３１は、周囲を撮像する部分であり、具体的には、図８に示したＣＣＤカメラ２０である。この画像信号入力部１３１から入力された画像信号はセグメンテーション処理部１３２に入力される。

セグメンテーション処理部１３２は、画像信号からセグメンテーションを行う。例えば、色によるセグメンテーションを行う。セグメンテーションとは、画像内において領域を特定し、それの特微量を調べる、或いは特徴空間に写像することを意味する。このセグメンテーションにより、撮像した画像内において、学習対象物と周囲の画像との差別化が可能となる。セグメンテーション処理部１３２においてセグメンテーションされた画像信号は、後段の学習対象物検出部１３３に入力される。

学習対象物検出部１３３は、セグメンテーションされた画像情報から注意部分（学習対象物）を検出（特定）する。例えば、セグメンテーションされた画像情報から動きのある部分、すなわち時間系列において変化のある部分を特定領域として、ある条件を満たしたとき学習対象物として検出する。具体的には、次のように、学習対象物の検出がなされる。

先ず、セグメンテーションされた画像において、動きのある部分（時間的に変化している部分）を特定領域として、注意量を設定する。ここで、注意量は、学習対象物特定のための指標となるものである。動きにより学習対象物を特定する場合には、注意量は動きにより変化する量となる。

そして、その特定領域を追尾して、注意量により学習対象物か否かを判別する。その注意量がある条件を満たせば、学習対象物として特定、すなわちロボット装置１が“注意を払う”ようにする。

動きにより学習対象物を特定することについては、人間世界でもそうであるが、教示者は、学習対象物を教示する際には、当該学習対象物を振って或いは揺すって被教示者に教示するからである。例えば、「コップ」であることを教示する際には、教示者は、「コップ」を振りながら、被教示者に“コップ”と言って教示するようにである。

学習対象物検出部１３３は、特定領域を追尾して注意量が所定の値、例えば、動きが所定量の変化を示したとき、学習対象物として特定して、注意を払うようにする。具体的には、注意量がある閾値（ステップ）以上を超えた場合に注意を払うようにする。

このように、学習対象物検出部１３３は、セグメンテーション処理部１３２によって特定領域に注意量を設定して、学習対象物を検出（特定）している。

以上のような画像信号入力部１３１、セグメンテーション処理部１３２及び学習対象物検出部１３３を備えることにより、ロボット装置１は共同注意を可能としている。

これにより、ロボット装置１は、学習対象物を適切に特定して、上述したように、画像情報或いは行動と結びつけた学習を適切にすることができる。

なお、上述の実施の形態では、ロボット装置１の行う共同注意について、対象（物体）の動きから学習対象物として特定することについて説明した。しかし、これに限定されるものではない。例えば、音声により学習対象物を特定することもできる。この場合、例えば、ロボット装置１は、音声が発せられている方向に向き、対象物を学習対象物として特定する。例えば、音声、例えば発生している方向及び大きさに対して注意量を設定して、ある条件を満たした際に、学習対象物として特定するようにする。

また、学習対象物に対する注意は、時間により減衰するものとするものとしてもよい。或いは、連想が安定すると減衰するものとしてもよい。これにより、新たな刺激（画像入力、音声入力）に対して注意を払い、学習を発火（開始）させることができる。

また、注意を払った時点でステップ上に大きな値をとり、ある条件により減衰するようにすることとしてもよい。例えば、ある条件を時間として、時間の経過により減衰するようにする。また一方で、同時に２つ以上の対象に対して、注意の量を設定することもできる。例えば、注意量の設定は、対象の動き、或いは音声に対して行う。例えば、一方の対象の動きに対してして注意量を設定し、他方の対象については音声に対して注意量を設定する。

これにより、注意を払っている対象（特定領域）を調査（例えば、色、形等の特徴量を調査）しているときに、他の刺激（例えば、音声、画像）により他の対象に注意量を設定することができる。ここで、現在注意を払っている対象については、上述したように、ステップ上に大きな値とされるので、このような他の刺激により違う対象に注意量が設定されても、しばらくは先に選択した対象の調査を続けることができる。

そして、現在注意を払っている対象の”注意”が減衰してきた場合は、他の刺激のある対象、すなわち注意量が増加してきた対象に注意を移すことができる。

また、共同注意は、刺激として学習対象物の動きによるものの他に、人間の指により行うこともできる。すなわち、その指の指す方向の物体を学習対象物として特定するというものである。

このような共同注意とは、通常の人と人のインタラクションで想定される共同注意の例である。例えば、この場合には、セグメンテーションにより得た肌色の領域を特定領域として、注意を払う。図３７を用いて説明する。

図３７中（Ａ）に示すように、ある環境において、円錐体１４１を手１４２により指し示している撮像画像が得られたとする。なお、以下の処理において対象物を画像処理により、例えば、計算速度等を考慮して撮像画像にローパスフィルタをかけてもよい。

そして、画像内における肌色部分を抜き取る。この場合、色特徴空間を使用して、肌色部分の特徴を得て、画像内における肌色部分を抜き取る。これにより、図３７中（Ｂ）に示すように、手１４２の部分が抜き取られる。

そして、図３７中（Ｃ）に示すように、その手１４２の部分の長手方向を特定する。これは、対象物を指し示したときの手の形状が対象物に向かって略長方形状となるからである。例えば、長手方向は、図中の線１４３に示すように特定される。

そして、図３７中（Ｄ）に示すように、原画像に求めた長手方向を合わせ込み、図３７中（Ｅ）に示すように、対象物を特定する。すなわち、指によって指し示されている円錐体１４１が特定される。例えば、指の先端近傍の画像をサンプルとして取り出し、色特徴空間において色を特定して、該当する色によって構成されている領域を特定する。これにより同一色とされている、例えば、黄色の円錐体１４１を特定することができる。

また、共同注意については、上述のような手法によるものに限定されるものではない。例えば、人間の視線の先のものに注意を払う、というような共同注意とすることもできる。

また、ロボット装置１が共同注意を行っているか否かを確認する手段を備えてもよい。すなわち、共同注意により学習対象を特定した場合には、所定の行動を出現させる。例えば、ロボット装置１は、対象が振られて教示がなされている場合に、学習対象を特定（追尾）したときには、頭部を振る等の行動を出現させて、特定した旨を使用者に知らせる。これにより、教示物は、自己が教示している物をロボット装置１が学習対象物として捕らえているかを確認することができる。

以上のようにロボット装置１は、人間とインタラクションを通じて、自身が行動を評価し、自身にとって適切な行動を獲得していくことができる。

また、ロボット装置１は、その行動を音声などの他のセンサ刺激と連想記憶することにより、音声のみでその行動を出せるように学習することができる。

次に、上述した連想記憶システムの具体例について、図３８を参照しながら説明する。この図３８に示す連想記憶システムの具体例においては、４つの知覚チャンネル入力パターン（色、形、音声、本能）を記憶、連想するものを想定している。この図３８において、色（Color）認識器２０１、形（Shape）認識器２０２、音声（Speech）認識器２０３の各チャンネルの入力に対しては、予めいくつかのパターンあるいはプロトタイプを用意し、各プロトタイプ毎に例えば２値のＩＤ（識別情報）を付しておき、各認識器２０１〜２０３では入力パターンがこれらのいずれのプロトタイプに対応するかを認識して、そのＩＤ、すなわち、色プロトタイプＩＤ、形プロトタイプＩＤ、音声プロトタイプＩＤをそれぞれ出力し、連想記憶部２１０の短期記憶部２１１に送るようにしている。ここで、音声（Speech）認識器２０３からの出力は、意味や文法に従ったタグ付けを行うセマンティクス・コンバータ（ＳＣ）２０４を介して音声プロトタイプＩＤが短期記憶部２１１に送られ、同時に音素記号列（Phoneme Sequence）も短期記憶部２１１に送られる。また、本能に関しては、本能情報部（ＩＳＭ：Internal States Model）２０５からは本能（例えば好奇心）の変化値（デルタ値）がアナログ量として出力され、連想記憶部２１０の短期記憶部２１１に送られる。

連想記憶部（Associative Memory）２１０は、短期記憶部（Short Term Memory）２１１、長期記憶部（Long Term Memory）２１２及び注意記憶部（Attention Memory）２１３を有して構成されている。さらに、この連想記憶システムにおいては、短期記憶部２１１に関連して、リリースメカニズム（ＲＭ）２２１及び行動（behavior）ネットワーク（ＢeNet）２２２が設けられている。ＲＭ（リリースメカニズム）２２１及びＢeNet（行動ネットワーク）２２２は行動生成部とも称される。

この図３８に示す連想記憶システムにおいて、色認識器２０１では、カラーセグメンテーション・モジュールによりセグメンテーションされた各オブジェクトは、色プロトタイプＩＤを付加されて連想記憶部２１０に入力される。音声認識器２０３からは、ユーザの発話により単語のプロトタイプＩＤが出力され、このとき、発話の音素記号列（Phoneme Sequence）も連想記憶部２１０に送られる。これによって、記憶・連想の処理で、ロボットに発話させることが可能となる。入力された各チャンネルの情報は、連想記憶部２１０内の短期記憶部（Short Term Memory）２１１に貯蔵され、ある一定の時間、例えば１００オブジェクト分程度保存される。

連想記憶部２１０では、入力パターンに関して、過去に記憶したものであるかどうか連想（recall）する。連想が不可能な場合は、入力パターンをそのままリリースメカニズム（ＲＭ）２２１及び行動ネットワーク（ＢeNet）２２２に送信する。連想可能な場合は、連想の方向を付加してＲＭ２２１及びＢeNet２２２に送信する。

ＢeNet２２２では、色認識器２０１のカラーセグメンテーション・モジュールからのフラグ（Shared Attention Flag）をチェックし、上述したようなユーザからの指差し等による共同注意の有無をラッチコマンドに変換して、連想記憶部２１０に送信する。連想記憶部２１０では、ＢeNet２２２からラッチコマンドを受信すると、フレームナンバによる検索を行い、マッチするオブジェクトを注意記憶部（Attention Memory）２１３に格納する。この状態で、本能の変化値（デルタ値）が十分大きければ、注意記憶部（Attention Memory）から２１３長期記憶部（Long Term Memory）２１２への記憶（memory）を行う。本能の変化値（デルタ値）は、例えば０〜１００のようなアナログ的な値をとることができ、本能のデルタ値を例えば８０で記憶しておけば、連想により８０という値を得ることが可能である。

次に、連想記憶の詳細について説明する。図３９は、連想記憶に用いられる２層の階層型ニューラルネットワークの例を示している。この図３９においては、第一層を入力層（Input Layer）２３１、第二層を競合層（Competitive Layer）２３２とする競合学習ネットワークの例を示しており、入力層２３１の第ｉユニット（ニューロン）と、競合層２３２の第ｊユニットとの間の結合重みをＷ_ｊｉとしている。動作としては、記憶モードと連想（あるいは想起）モードの２モード存在し、記憶モードでは入力パターンを競合的に記憶し、想起モードでは、ある部分的な入力パターンから、過去に記憶したパターンを想起する。入力側には、上記色、形、音声及び本能の入力ｘ_１,ｘ_２,...,ｘ_ｍに対応してｍ個のニューロンが存在しており、例えば色プロトタイプＩＤ、形プロトタイプＩＤ、音声プロトタイプＩＤをそれぞれ２０個ずつとし、本能の種類を６個とするとき、入力ニューロン数は、２０＋２０＋２０＋６＝６６より、６６個となる。競合ニューロンは、それぞれのニューロンが１つのシンボルを表し、競合ニューロンの数は、記憶できるシンボルあるいはパターンの数に等しい。上記の具体例では、各プロトタイプＩＤ及び本能の種類の全ての組み合わせパターンが、２０×２０×２０×６で４８０００となるが、例えば３００程度を実装することが挙げられる。

次に、記憶モードについて説明する。入力層２３１と競合層２３２との結合重みＷ_ｊｉは、０から１までの間の値をとるものとする。初期結合重みはランダムに決定する。記憶は、先ず競合層で勝ち抜いたニューロンを選択し、そのニューロンと入力ニューロンとの結合力（結合重みＷ_ｊｉ）を強めることで行う。入力パターンベクトル［ｘ_１,ｘ_２,...,ｘ_ｎ］については、例えばニューロンｘ_１に対応するプロトタイプＩＤ（例えば第１番目の色プロトタイプＩＤ）が認識されたときに、当該ニューロンｘ_１を発火させ、順次、形、音声も同様に認識されたニューロンを発火させることとする。発火したニューロンは＋１、発火しないニューロンは−１の値をとる。

出力（競合）ニューロンｙ_ｊの値は、入力側のニューロンｘ_１について、次の（２９）式により求める。

また、競合に勝ち抜くニューロンは、
ｍａｘ｛ｙ_ｊ｝
により求める。

競合に勝ち抜いたニューロン（winner neuron）と入力ニューロンとの結合の更新は、Kohonen の更新規則により、
ΔＷ_ｊｉ＝ α（ｘ_１−Ｗ_ｊｉ） α：学習率
Ｗ_ｊｉ(new) ＝ ΔＷ_ｊｉ＋Ｗ_ｊｉ(old)
により求める。これをL2Normで正規化して、次の（３０）式とする。

この結合力がいわゆる学習の強さを表し、記憶力になる。

ここで、具体例としては、上記学習率α＝０．５を用いており、一度記憶させれば忘却することはなく、次回同じようなパターンを提示すれば、ほぼ間違いなく記憶したパターンを連想することができる。

なお、本来、逐次的に学習させていく過程で、提示回数の多いパターンに関しては記憶力が強くなり、あまり提示されないパターンに対しては記憶力の弱くなるような仕組みが連想記憶に対して求められ、本実施の形態に適用することも可能である。すなわち、学習率と連想記憶のチューニングにより対応でき、例えば、学習率を低く設定しておけば、それだけ記憶力が強くなるまでに提示回数を必要とする。また、提示回数に応じて学習率を低くさせていく、例えば最初の１回は学習率が高いが、提示回数が増えるほど学習率を低くする、といったこともできる。これにより、提示回数が少ないパターンに関して記憶力の更新があまり行われず、その結果、記憶があいまいになり、記憶したのとは違うパターンを連想したり、また、連想閾値に達せず連想できなかったりすることが生じる。ただし、その分、新しいシンボルあるいはパターンを獲得できる可能性があるため、容量が限られていても柔軟な連想記憶システムを実現できることになる。

次に、想起（連想）モードについて説明する。
いま、ある入力パターンベクトル［ｘ_１,ｘ_２,...,ｘ_ｎ］がこの連想記憶システムに提示されたとする。この入力ベクトルは、プロトタイプＩＤでも、プロトタイプＩＤに対する尤度や確率でもよい。出力（競合）ニューロンｙ_ｊの値は、入力側のニューロンｘ_１について、上記（２９）式により計算されるが、各チャンネルの尤度に応じて、競合ニューロンの発火値も一種の尤度を表す。ここで重要なのは、複数チャンネルからの尤度入力に対して、それらをコネクションして全体的な尤度を求めることができるという点である。本実施の形態の具体例では、連想するものは唯一で、競合に勝ち抜くニューロンを、
ｍａｘ｛ｙ_ｊ｝
により求める。求めたニューロンの番号がシンボルの番号に対応し、逆行列演算により入力パターンを想起する。すなわち、
Ｙ＝Ｗ・Ｘ
Ｘ＝Ｗ^−１・Ｙ＝Ｗ^Ｔ・Ｙ
である。

次に、入力パターンの提示回数と結合係数について説明する。
本実施の形態の具体例では、学習率を高く設定しておき、提示されたパターンを一度で記憶するようにチューニングしている。この場合の学習回数と結合係数との関係を調べる。ある入力パターンと競合層のシンボルニューロンとの結合係数は、上記（２９）式を調べることと等価である。

ここで、図４０は、ある入力パターンにより発火したニューロンとシンボルを獲得した競合層のニューロンとの結合の関係（active input）及び発火していない入力ニューロンと結合層のニューロンとの結合の関係（non-active input）について、横軸を提示回数（epoch）、縦軸をニューロン発火値（activation）として表している。この図４０より、active inputの場合には、提示回数が増えるほど入力パターンとシンボルニューロンとの結合が強まっているのが分かる。提示２回目で結合が急激に強まっているのは、１回目の提示で大きく更新されたからであり、学習率を低く設定すれば緩やかなカーブになる。これとは対照的に、non-active inputの場合の入力パターンで発火していないニューロンとの結合は弱まっている。

なお、提示回数のみでなく、提示頻度も考慮した連想記憶システムを構築することも挙げられる。これは、記憶容量が固定（有限）であることから、よく提示されるパターンを優先的に記憶することが好ましいからである。このことと関連して、忘却関数も導入することが好ましい。例えば、認識器のノイズ等の非線形要素により、間違えて記憶してしまったパターンを、一度の提示のみで保存する必要はなく、提示回数が少なく、しかも提示頻度も低いパターンに関しては、忘却するようにし、新しく提示された重要なパターンを記憶する方が好ましい。

ここで、本実施の形態の具体例においては、学習率を固定し、新しい入力パターンか否かの識別を、ある閾値を用いて行っているが、学習率を変化させることも可能であり、また、閾値の決め方に関しては、定式化も可能である。

次に、多数の入力パターンに対する応答について説明する。
様々なパターンを入力として提示したときの連想記憶システムの動作についてテストを行った結果を次の表１に示す。

この表１において、色（Color）、形（Shape）、音声（Speech）及び本能（instinct）についての各プロトタイプＩＤを１，２，・・・等の数字で表し、連想されたプロトタイプＩＤを○つきの数字、（１），（２），・・・等で表している。

この表２から明らかなように、最初に入力パターン［１，１，１，１］が記憶（memory）された後に、５番目の提示で、色１，形３のパターンが入力されると、色１のみに基づいて［１，３，（１），（１）］が連想（recall）されるが、次の６番目の提示で［１，３，３，１］のパターンが記憶された後の７番目の提示では、色１，形３のパターンの入力に対して［１，３，（３），（１）］が連想（recall）されている。

ここで、記憶容量を２０シンボルとするとき、次の表２に示すような２０の入力パターンの記憶は正常に行われるが、次の表３に示すような２０より多くの入力パターン（合計４００パターン）の提示に対しては、あとから学習したものを記憶として保持し、［１，１，１，１］等のように初期に記憶したシンボルは上書きされることになる。

表３の場合に獲得（保持）できるシンボルは、最後に学習したものから２０シンボル前までのみである。

ところで、新しいシンボルであるか否かの判断条件として、「２つ以上のニューロンの発火値の異なる入力パターンが提示されたとき」を採用すると、例えば、色、形のいずれかのみが異なる複数物体に対して同じ名前を付けることはできないが、色、形共に異なる場合には、同じ名前を付けることが可能である。すなわち、［１，１，１，１］と［２，１，１，１］とを同時に記憶することはできないが、［１，１，１，１］と［２，２，１，１］とは記憶可能である。この場合、次の表４に示すような入力パターンは全て記憶可能である。

以上説明したような連想記憶システムにおいては、記憶容量が限られているため、効率よく利用していく必要がある。そのためには、よく提示されるパターンを優先的に記憶する、あるいは、頻度の高いパターンを優先的に記憶するようにすることが好ましい。

また、記憶容量と関連して、記憶する必要のないパターンは忘却し、新たな重要なパターンが入力されたときに記憶可能とすることが好ましい。このために、次のような結合係数忘却関数ｆ、すなわち、
Ｗ_ｎｅｗ＝ｆ（Ｗ_ｏｌｄ）
を用いることが挙げられる。なお、Ｗ_ｎｅｗは新しい結合係数、Ｗ_ｏｌｄは古い結合係数を示す。最も簡単な忘却関数は、パターンが提示される毎に、競合層で敗北者ニューロンとの結合係数を弱める方法である。例えば、新しい結合係数Ｗ_ｎｅｗは、古い結合係数Ｗ_ｏｌｄと、忘却結合係数Ｗ_{ｆｏｒｇｅｔ}を用いて
Ｗ_ｎｅｗ＝ｆ（Ｗ_ｏｌｄ）＝Ｗ_ｏｌｄ − Ｗ_{ｆｏｒｇｅｔ}
とすることが挙げられる。これにより、提示されないパターンに対する結合は弱まり、重要でない頻度の低いパターンを忘却することができる。ここで、ヒューマノイド・ロボットの場合には、人間の脳生理学の知見に基づいた忘却関数ｆを設定するのが自然であり、好ましい。

また、上述した実施の形態の具体例では、単語（名詞）の記憶について採り上げたが、意味記憶やエピソード記憶、動詞の獲得についても考慮することが好ましい。例えば、「蹴る」という行動を獲得して「蹴る」という言葉を獲得できるようにする等である。

また、新しい入力パターンの判断は、競合層の勝者ニューロンの発火値に閾値を設けて行っているが、入力チャンネルの増加に伴いチューニングし直す必要があり、定量的に設定できる、例えばプログラム中で自動的に計算するようにすることが好ましい。

さらに、入力チャンネル数が増加してマルチモーダルになった場合に、各チャンネルの正規化についても考慮することが好ましい。

次に、上記図３８の本能情報部（ＩＳＭ：Internal States Model）２０５に関連して、ロボット装置の行動決定方法の実現例について説明する。すなわち、外的原因因子及び内的原因因子に基づいて、実行する行動を決定する動物行動学的アプローチを適用したロボット装置における動作生成を調べるための動作テストの具体例を説明する。

本実施の形態の具体例においては、ロボットの内部状態（Internal States）及び本能について、８つのゲージ（gauge）と８つの本能（instinct）とを用いている。すなわち、ロボットの内部状態を表す８つのゲージとして、Nourishment（養分）、Movement（大便）、Moisture（水分）、Urine（小便）、Tiredness（疲労）、Affection（愛情）、Curiosity（興味）及びSleepy（眠気）を用い、これらのそれぞれに対して、Hunger（摂食欲）、Defecation（排便欲）、Thirst（摂水欲）、Urination（排尿欲）、Exercise（運動欲）、Affection（愛情欲）、Curiosity（好奇心）及びSleepy（睡眠欲）の８つの本能（instinct）を対応させている。

内部状態は、例えばバイオリズム（Biorhythm）より通知される時間経過により変化し、また、センサ入力と行動の成功／失敗によっても変化する。変化幅は０〜１００、変化の度合いは、例えばpersonality_gauge.cfg 及びpersonality_perception.cfgにある係数によって決定する。

また、Frustration （欲求不満）は、欲求が最大値MAX に達しても行動を出せないときに生成され、行動によってゲージ（gauge）が期待通りに変化した場合にクリアされるように設定している。

ここで、今回の動作テストにおいては、動物行動学的なアプローチによる行動選択・決定システムとして、複数の行動が階層構造（ツリー構造）にて構築された図４１に示すようなコンテンツツリー（contents tree）を用いている。このコンテンツツリーでは、上位から順に、システム（system）、サブシステム（subsystem）、モード（mode）、モジュール（module）とされ、上位層の行動が願望のような抽象的な行動とされ、下位層の行動がそのような願望を実現するための具体的な行動とされている。図４１のツリーでは、生態学モデル（Ethological Model）として最低限の行動をし、音声認識を使用したツリーへの切り替え及び動作のテストと、学習についてのテストが可能なものを採用している。また、今回の動作テストでは、図４１のツリーに対応した本能（instinct）、すなわち、Hunger（摂食欲）、Affection（愛情欲）、Curiosity（好奇心）、Sleepy（睡眠欲）を使用しており、これらの本能（instinct）に対応したゲージ（gauge）、すなわち、Nourishment（養分）、Affection（愛情）、Curiosity（興味）、Sleepy（眠気）のみを使用している。なお、実際の動作テストでは、モジュール（module）を実行したときに具体的に何を成功とし何を失敗とするかをコード上に記述しており、また、ゲージ（gauge）と本能（instinct）の対応については、線形対応としているが、これに限定されるものではない。

本実施の形態において、感情（emotion）については複数軸による表現を用いており、具体的には、覚醒度（Activation）と快度（Pleasantness）とを用い、さらにもう１軸の確信度（Certainly）を用いて、３軸による３次元空間に感情を表現している。覚醒度（Activation）とは、主に生物に存在するバイオリズムによって決定する起きているか寝ているかの度合いであり、快度（Pleasantness）とは、本能がどれだけ満たされたか又は満たされていないかを示す度合いであり、確信度（Certainly）とは、現在注目しているものがどれだけ自分自身で確信できるものかを示す度合いである。快度（Pleasantness）を求めるのに必要な本能として、上述した８gauge,８instinct（ただし、動作テストでは上述した４ゲージ、４本能まで）を使用している。覚醒度（Activation）、快度（Pleasantness）、確信度（Certainly）については、各々−１００〜１００の範囲内の値をとるものとし、快度（Pleasantness）と確信度（Certainly）については常に０を保持するように時間変動する。また、覚醒度（Activation）も、本能（instinct）要因の場合は０を保持するようにし、バイオリズム（Biorhythm）に関しては値をそのまま使用するようにしている。

本能（instinct）の満足の度合いは快度（Pleasantness）に反映させる。確信度（Certainly）は、注意（Attention）しているものがある場合、ビジョンオブジェクト（Vision Object）によるそのものの確信度をそのまま使用する。覚醒度（Activation）は、基本的にバイオリズム（Biorhythm）の値によるが、睡眠（Sleep）に変動があった場合にはその結果を用いて変化させている。

今回の動作テストにおける制限事項として、バイオリズム（Biorhythm）は覚醒度（Activation）のみに反映させ、この場合の確信度（Certainly）を０〜１００の範囲で変化させているが、これに限定されないことは勿論である。

次に、動作テストの第１の具体例として、睡眠（Sleep）と食べる（Eat）についてのテスト結果を図４２〜図４４を参照しながら説明する。この第１の動作テストでは、Hunger（摂食欲）とSleepy（睡眠欲）以外の本能（instinct）を固定とし、図４１のコンテンツツリーのモジュール（module）による探す（Search）／食べる（eat）と、眠る（Sleeping）の移り変わりを調べる。図４２は、本能（instinct）の内のHunger（摂食欲）及びSleepy（睡眠欲）の時間変化を示し、図４３は、感情（emotion）として覚醒度（Activation）、快度（Pleasantness）、確信度（Certainly）の時間変化を示し、図４４は、モチベーション（Motivation）としての睡眠（Sleep）と食べる（Eat）の時間変化を示している。

これらの図４２〜図４４から明らかなように、PAT（なでる）によるSleepツリーへの切り替えが可能であり、図示しないがHIT（叩く）によるSleepツリーからの切り替えも可能である。Hunger（摂食欲）が高まることによるEatツリーへの切り替え、Hungerが満たされることによるSleepへの切り替えも可能である。叩かれたときに覚醒度（Activation）に変化がないのは、Sleepが最小（MIN）、すなわち−１００であるため、本能（instinct）が変更されないためである。Hungerが最大（MAX）、すなわち１００になった後、欲求不満（Frustration）（図示せず）の値が増加するため、快度（Pleasantness）の増加が少し緩やかになる。

次に、動作テストの第２の具体例として、上記４つ全てのゲージ（gauge）、すなわち、Nourishment（養分）、Affection（愛情）、Curiosity（興味）、Sleepy（眠気）、これらに対応する４つの本能（instinct）を用い、図４１のコンテンツツリーを用いた場合のふるまい（behavior）の移り変わりと、本能（instinct）等を値の変化を図４５〜図４７に示す。図４５は、本能（instinct）の時間変化を示し、図４６は、感情（emotion）の時間変化を示し、図４７は、リリースメカニズム（Release Mechanism）の時間変化を示している。

これらの図４５〜図４７において、PAT（なでる）によるSleepへの切り替え、Hunger（摂食欲）によるEatへの切り替え、Curiosity（好奇心）による情報獲得（Information Acquisition）の切り替えがそれぞれ有効に動作している。また、本能（instinct）のCuriosity（好奇心）が最大（１００）になっているのに動作が発現していない状態では、快度（Pleasantness）が不快方向（欲求不満）に振れているのが分かる。さらに、PAT（なでる）によりSleepが増加すると、快度（Pleasantness）が快方向に変化し、それに伴って安らぎを求める（Comfort Seeking）が変化している様子が分かる。

以上の動作テストにより、図４１のコンテンツツリーに基づく動物行動学的なアプローチによる行動選択・決定システムが有効に動作していることが確認できた。

なお、本発明は、上述した実施の形態のみに限定されるものではなく、例えば、連想記憶システムの具体的な構成例や、動作テストのためのコンテンツツリー等は図示の例に限定されず、種々の構成が可能である。この他、本発明の要旨を逸脱しない範囲で種々の構成が可能であることは勿論である。

本発明に係るロボット装置は、接触検出手段による接触検出の時間的前後に入力された情報を入力情報検出手段により検出し、接触検出手段による接触検出に応じて出現した行動と、入力情報検出手段が検出した入力情報とを結びつけて記憶手段に記憶し、行動制御手段により、新たに得られた入力情報に基づいて、記憶手段における情報から行動を連想して、その行動をすることにより、入力情報とその際に出現した行動とを結びつけて記憶して、再び同一の入力情報が入力された際には、対応される行動を再び出現させることができる。

また、本発明に係るロボット装置の行動制御方法は、接触を検出する接触検出工程と、接触検出工程による接触検出の時間的前後に入力された情報を検出する入力情報検出工程と、接触検出工程による接触検出に応じて出現した行動と、入力情報検出工程にて検出した入力情報とを結びつけて記憶手段に記憶する記憶工程と、新たに得られた入力情報に基づいて、記憶手段における情報から行動を連想して、その行動をする行動制御工程とを有する。

この発明が適用されたロボット装置は、入力情報とその際に出現した行動とを結びつけて記憶して、再び同一の入力情報が入力された際には、対応される行動を再び出現させることができる。

また、本発明に係るロボット装置は、入力情報検出手段が検出した入力情報に応じて行動した結果を示す行動結果情報と、当該入力情報とを結びつけて記憶手段に記憶し、行動制御手段により、新たに入力された入力情報に基づいて、記憶手段における行動結果情報を特定し、当該行動結果情報に基づいて行動をすることにより、入力情報とその入力情報に応じて行動した結果の行動結果情報とを結びつけて記憶して、再び同一の入力情報が入力された際には、対向される行動結果情報に基づき過去の行動を想起して、適切な行動を出現させることができる。

また、本発明に係るロボット装置の行動制御方法は、入力情報検出手段が検出した入力情報に応じて行動した結果を示す行動結果情報と、当該入力情報とを結びつけて記録手段に記憶する記憶工程と、新たに入力された入力情報に基づいて、上記記憶手段における行動結果情報を特定し、当該行動結果情報に基づいて行動をする行動制御工程とを有する。

この発明が適用されたロボット装置は、入力情報とその入力情報に応じて行動した結果の行動結果情報とを結びつけて記憶して、再び同一の入力情報が入力された際には、対向される行動結果情報に基づき過去の行動を想起して、適切な行動を出現させることができる。

また、本発明に係るロボット装置は、入力情報検出手段が検出した入力情報の特徴量を特徴量検出手段により検出し、特徴量に基づいて、入力情報を情報分類手段により分類し、行動制御手段により、入力情報の分類に基づいて行動をして、行動制御手段により制御されて行動した結果を示す行動結果情報に基づいて、当該行動を引き起こした入力情報の分類を分類変更手段により変更することにより、入力情報の分類に応じて行動をして、その行動した結果に基づいてその分類を変更することができる。

また、本発明に係るロボット装置の行動制御方法は、入力情報検出手段が検出した入力情報の特徴量を検出する特徴量検出工程と、特徴量検出工程にて検出した特徴量に基づいて、入力情報を分類する情報分類工程と、情報分類工程における入力情報の分類に基づいて行動をする行動制御工程と、行動制御工程にて制御されて行動した結果を示す行動結果情報に基づいて、当該行動を引き起こした入力情報の分類を変更する分類変更工程とを有する。

この発明が適用されたロボット装置は、入力情報の分類に応じて行動をして、その行動した結果に基づいてその分類を変更することができる。

また、本発明に係るロボット装置は、学習対象物を特定する学習対象物特定手段が特定した学習対象物の情報を記憶手段に記憶し、行動制御手段により、新たな検出した物と記憶手段に記憶した学習対象物の情報とに基づいて行動をすることにより、学習対象物を記憶して、再び同一の対象物が入力された際には、所定の行動をすることができる。

また、本発明に係るロボット装置は、動作部材と、動作部材を動作させるための関節部と、動作部材を介して外力が作用している関節部の状態を検出する検出手段と、検出手段が検出した関節部の状態と外力とを対応させて学習する学習手段とを備えることにより、動作部材を介して外力が作用している関節部の状態を検出手段により検出し、検出手段が検出した関節部の状態と外力とを対応させて学習手段により学習することができる。すなわち、ロボット装置は、動作部材に作用する外力に応じて変化する関節部の状態に対応させて当該外力を学習することができる。

また、本発明に係る外力検出装置は、動作部材を動作させるための関節部の状態を検出する検出手段と、検出手段が検出した関節部の状態に基づいて動作部材に作用する外力を検出する外力検出手段とを備えることにより、動作部材を動作させるための関節部の状態を検出手段により検出し、検出手段が検出した関節部の状態に基づいて動作部材に作用する外力を検出することができる。すなわち、外力検出装置は、動作部材に作用する外力を、当該動作部材を動作させる関節部の状態に基づいて検出することができる。

また、本発明に係る外力検出方法は、動作部材を動作させるための関節部の状態を検出し、検出した関節部の状態に基づいて動作部材に作用する外力を検出することにより、動作部材に作用する外力を、当該動作部材を動作させる関節部の状態に基づいて検出することができる。

１ロボット装置、１０１音声認識部、１０２センサ処理部、１０３本能情動部、１０４連想想起記憶部、１０５行動生成部、１１１識別部、１２２特徴量抽出部、１２３ＨＭＭ部、１３１画像信号入力部、１３２セグメンテーション処理部、１３３学習対象物検出部、１５１動作部材、１５２関節部、１５３検出手段、１６０学習手段

Claims

学習対象物を特定する学習対象物特定手段と、
上記学習対象物特定手段が特定した学習対象物の情報を記憶する記憶手段と、
新たな検出した物と上記記憶手段に記憶した学習対象物の情報とに基づいて、行動をする行動制御手段と
を備えるロボット装置。
上記学習対象物特定手段は、入力画像情報をセグメントして、セグメントした領域の時間的変化を検出して、時間的変化が所定量になった領域に対応する対象物を学習対象物として特定する
請求項１記載のロボット装置。
上記学習対象物特定手段は、入力音声情報に基づいて、学習対象物を特定する
請求項１記載のロボット装置。
上記学習対象物特定手段は、入力音声情報の少なくとも音量又は方向の情報のうちの一の情報から学習対象物を特定する
請求項３記載のロボット装置。
上記学習対象物特定手段は、学習対象対象物を教示する教示者の視線を検出して、当該視線から学習対象物を特定する
請求項１記載のロボット装置。
学習対象物を特定する学習対象物特定工程と、
上記学習対象物特定工程にて特定した学習対象物の情報を記憶手段に記憶する記憶工程と、
新たな検出した物と上記記憶手段に記憶した学習対象物の情報とに基づいて、行動をする行動制御工程と
を有するロボット装置の行動制御方法。
コンピュータに、
学習対象物を特定する学習対象物特定手順と、
上記学習対象物特定工程にて特定した学習対象物の情報を記憶手段に記憶する記憶手順と、
新たな検出した物と上記記憶手段に記憶した学習対象物の情報とに基づいて、ロボット装置の行動を制御する行動制御手順と
を実行させるためのプログラム。