JP2004268235A

JP2004268235A - ロボット装置、その行動制御方法及びプログラム

Info

Publication number: JP2004268235A
Application number: JP2003065587A
Authority: JP
Inventors: Tsutomu Sawada; 務澤田; Masahiro Fujita; 雅博藤田; Takeshi Takagi; 剛高木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-03-11
Filing date: 2003-03-11
Publication date: 2004-09-30
Also published as: CN1758991A; US20060184273A1; US7853357B2; EP1602457A4; EP1602457A1; WO2004080665A1; CN100364731C; EP1602457B1

Abstract

【課題】エンターテイメントロボットとしてユーザを飽きさせない行動を発現する。
【解決手段】行動選択制御システム１００は、選択されると行動を出力する複数の要素行動と、内部状態管理部９１及び外部刺激認識部８０からの情報に基づき、データベースを参照して各要素行動の行動価値ＡＬを算出する行動価値算出部１２０と、行動価値ＡＬが最も大きい要素行動を発現する行動として選択する行動選択部１３０とを有する。各行動には、所定の内部状態及び外部刺激が対応付けられ、行動価値算出部１２０は、入力された内部状態に対応する行動に対する欲求値と、入力された外部刺激により変化すると予想される予想内部状態変化に基づく予想満足度変化とから、各行動に対する行動価値ＡＬを算出する。
【選択図】図４

Description

【０００１】
【発明の属する技術分野】
本発明は、自律的に行動を発現するロボット装置、その行動制御方法及びプログラムに関し、特に、自身の内部状態と外部刺激とから発現する行動を選択するロボット装置、その行動制御方法及びプログラムに関する。
【０００２】
【従来の技術】
近年、産業用ロボット装置に代わり、新しいロボット装置の分野として人間共存型ロボット装置やエンターテインメントロボット装置の研究が進められている。このようなロボット装置は、センサ等からの外部刺激の情報を使用して行動を発現するようになされている。
【０００３】
例えば、下記非特許文献１にはロボット装置の自己保存の観点からの評価に基づきロボットの行動を生成する方法が開示されている。自己保存の観点からの評価とは、自己のハードウェアの耐久性、故障率の観点からこれを評価するもので、具体的には、外界情報（視覚・聴覚のセンサ入力）だけでなく、自己のバッテリ状態や消費電力、回路温度等の情報からなる入力情報を身体の耐久性の評価値（故障率）に変換する自己保存評価関数を計算し、複数の動作形態のうち、行動を行っている状態から、実際に他の行動に指令を与えて行動状態を変移させるために、内外感覚情報及び自己保存評価関数の値を監視することで、行動状態を変移させる。これにより、ロボット装置の行動は、自己保存評価が良くなる方へ近づき、悪くなる方は避けるという自己保存の評価から生まれる志向性（好き嫌い）を反映したものとすることができる。
【０００４】
また、このロボット装置は、「情」のモデル化のために自己保存評価関数を導入し、例えば充電されると喜びの反応として黄色の表出をしたり、放電されると恐怖の反のとして青色を表出したりすることで、情動表出を行うことができる。
【０００５】
【非特許文献１】
尾形哲也、菅野重樹、「自己保存に基づくロボットの行動生成−方法論と機械モデルの実現化−」、日本ロボット学会誌、１９９７年、第１５巻、第５号、ｐ．７１０−７２１
【０００６】
【発明が解決しようとする課題】
しかしながら、この非特許文献１に記載のロボット装置の「自己の保存」に基づいた価値観は、充電なら良、放電なら悪、というような単純なものであり、人間に対して一方向のコミュニケーションしか実現できていない。
【０００７】
また、このような人間共存型ロボット装置や、エンターテインメントロボット装置のような玩具機械的な位置づけのロボット装置は、外部刺激のみを行動選択のトリガとしているものが多く、ユーザ操作と応答動作との関係が固定的であった。その結果、ユーザは同じ外部刺激に対して、同じ動作しか繰り返さない玩具に対し、容易に飽きを感じてしまうことが多かった。
【０００８】
近時、本能や感情といった情動をモデル化してシステムの内部状態を管理し、内部状態の変化に応じて行動を選択するシステムが提案されているものの、内部状態と外部刺激に対して選択される行動は固定的なものが多く、ユーザや環境とのインタラクションを通じてそれを変えることは困難であった。
【０００９】
ロボット装置が現在の状況に応じた最適な次の行動及び動作を行わせる機能や、過去の経験に基づいて次の行動及び動作を変化させる機能を搭載することができれば、より一層の親近感や満足感をユーザに与えて、ロボット装置としてのアミューズメント性をより向上させると共に、ユーザとのインタラクションを円滑に行うことができて便利である。
【００１０】
本発明は、このような従来の実情に鑑みて提案されたものであり、エンターテイメントロボットとしてユーザを飽きさせない行動を発現することができるロボット装置、その行動制御方法及びプログラムを提供することを目的とする。
【００１１】
【課題を解決するための手段】
上述した目的を達成するために、本発明に係るロボット装置は、内部状態及び外部刺激に基づき自律的に行動を選択し発現するロボット装置において、行動が記述された複数の行動記述モジュールと、上記内部状態及び外部刺激から上記複数の行動記述モジュールに記述された各行動の行動価値を算出する行動価値算出手段と、上記行動価値に基づき上記行動記述モジュールを選択し、当該行動記述モジュールに記述された行動を発現させる行動選択手段とを有し、各上記行動記述モジュールに記述された行動には所定の内部状態及び外部刺激が対応付けられ、上記行動価値算出手段は、内部状態に対応付けられた行動に対する欲求値及び内部状態に基づく満足度を求め、現在の内部状態から求まる欲求値と、上記現在の内部状態及び入力された外部刺激に基づき変化すると予想される予想内部状態から求まる予想満足度変化とに基づき、各行動に対する上記行動価値を算出することを特徴とする。
【００１２】
本発明においては、現在の内部状態に対応する行動に対する欲求値を求め、また、現在の内部状態に対する満足度と、外部刺激が入力され、行動を発現した後に変化すると予想される予想内部状態に対応する予想満足度と差である予想満足度変化を求め、これらから行動価値を算出し、この行動価値に基づき発現する行動を選択するので、環境やユーザとのコミュニケーションに応じて変化する内部状態及び種々の外部刺激に対して一義的ではない様々な行動を発現することができる。
【００１３】
また、上記行動価値算出手段は、上記現在の内部状態から求まる上記欲求値と、該現在の内部状態から求まる上記満足度と、上記予想満足度変化とに基づき、各行動に対する上記行動価値を算出してもよい。
【００１４】
更に、上記行動価値算出手段は、入力される外部刺激と、上記予想内部状態変化とが対応付けられた行動価値算出データベースを有し、この行動価値算出データベースを参照して上記行動価値を算出することができ、コミュニケーションをとるユーザや、環境に応じて異なるデータベースを用意することができる。
【００１５】
更にまた、上記行動価値算出データベースは、上記外部刺激の値に対応付けられた上記予想内部状態変化を有し、行動価値算出データベースにはない値が入力された場合は、線形モデルを使用し線形補間を行って予想内部状態変化を算出することができ、各外部刺激が有する値全てに対応する予想内部状態変化を持つ必要がなくデータ量を低減することができる。
【００１６】
本発明に係るロボット装置の行動制御方法は、内部状態及び外部刺激に基づき自律的に行動を選択して発現するような制御を行うロボット装置の行動制御方法において、上記内部状態及び外部刺激から複数の行動記述モジュールに記述された各行動の行動価値を算出する行動価値算出工程と、上記行動価値に基づき上記行動記述モジュールを選択し、当該行動記述モジュールに記述された行動を発現させる行動選択工程とを有し、各上記行動記述モジュールに記述された行動には所定の内部状態及び外部刺激が対応付けられ、上記行動価値算出工程では、内部状態に対応付けられた行動に対する欲求値及び内部状態に基づく満足度を求め、現在の内部状態から求まる欲求値と、上記現在の内部状態及び入力された外部刺激に基づき変化すると予想される予想内部状態から求まる予想満足度変化とに基づき、各行動に対する上記行動価値が算出されることを特徴とする。
【００１７】
また、本発明に係るプログラムは、上述した内部状態及び外部刺激に基づき自律的に行動を選択して発現するような制御をコンピュータに実行させるものである。
【００１８】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、ペット型エージェント、人間型エージェント等生命を模擬し、ユーザとのインタラクションを可能とするロボット装置に適用したものであるが、ここでは先ず、このようなロボット装置の構成について説明し、次にロボット装置の制御システムのうち、行動選択を行う行動選択制御システムについて説明し、最後にそのような行動選択制御システムを含むロボット装置の制御システムについて説明する。
【００１９】
（Ａ）ロボット装置の構成
図１は、本実施の形態のロボット装置の外観を示す斜視図である。図１に示すように、ロボット装置１は、体幹部ユニット２の所定の位置に頭部ユニット３が連結されると共に、左右２つの腕部ユニット４Ｒ／Ｌと、左右２つの脚部ユニット５Ｒ／Ｌが連結されて構成されている（但し、Ｒ及びＬの各々は、右及び左の各々を示す接尾辞である。以下において同じ。）。
【００２０】
図２は、本実施の形態におけるロボット装置１の機能構成を模式的に示すブロック図である。図２に示すように、ロボット装置１は、全体の動作の統括的制御及びその他のデータ処理を行う制御ユニット２０と、入出力部４０と、駆動部５０と、電源部６０とで構成される。以下、各部について説明する。
【００２１】
入出力部４０は、入力部として人間の目に相当し、外部の状況を撮影するＣＣＤカメラ１５、及び耳に相当するマイクロフォン１６や頭部や背中等の部位に配設され、所定の押圧を受けるとこれを電気的に検出することで、ユーザの接触を感知するタッチ・センサ１８、前方に位置する物体までの距離を測定するための距離センサ、五感に相当するその他、ジャイロセンサ等、各種のセンサを含む。また、出力部として、頭部ユニット３に備えられ、人間の口に相当するスピーカ１７、及び人間の目の位置に設けられ、感情表現や視覚認識状態を表現する例えばＬＥＤインジケータ（目ランプ）１９等を装備しており、これら出力部は、音声やＬＥＤインジケータ１９の点滅等、脚等による機械運動パターン以外の形式でもロボット装置１からのユーザ・フィードバックを表現することができる。
【００２２】
例えば頭部ユニットの頭頂部の所定箇所に複数のタッチ・センサ１８を設け、各タッチ・センサ１８における接触検出を複合的に活用して、ユーザからの働きかけ、例えばロボット装置１の頭部を「撫でる」「叩く」「軽く叩く」等を検出することができ、例えば、押圧センサのうちの幾つかが所定時間をおいて順次接触したことを検出した場合、これを「撫でられた」と判別し、短時間のうちに接触を検出した場合、「叩かれた」と判別する等場合分けし、これに応じて内部状態も変化し、このような内部状態の変化を上述の出力部等により表現することができる。
【００２３】
駆動部５０は、制御ユニット２０が指令する所定の運動パターンに従ってロボット装置１の機体動作を実現する機能ブロックであり、行動制御による制御対象である。駆動部５０は、ロボット装置１の各関節における自由度を実現するための機能モジュールであり、それぞれの関節におけるロール、ピッチ、ヨー等各軸毎に設けられた複数の駆動ユニット５４１〜５４ｎで構成される。各駆動ユニット５４１〜５４ｎは、所定軸回りの回転動作を行うモータ５１１〜５１ｎと、モータ５１１〜５１ｎの回転位置を検出するエンコーダ５２１〜５２ｎと、エンコーダ５２１〜５２ｎの出力に基づいてモータ５１１〜５１ｎの回転位置や回転速度を適応的に制御するドライバ５３１〜５３ｎとの組み合わせで構成される。
【００２４】
本ロボット装置１は、２足歩行としたが、駆動ユニットの組み合わせ方によって、ロボット装置１を例えば４足歩行等の脚式移動ロボット装置として構成することもできる。
【００２５】
電源部６０は、その字義通り、ロボット装置１内の各電気回路等に対して給電を行う機能モジュールである。本参考例に係るロボット装置１は、バッテリを用いた自律駆動式であり、電源部６０は、充電バッテリ６１と、充電バッテリ６１の充放電状態を管理する充放電制御部６２とで構成される。
【００２６】
充電バッテリ６１は、例えば、複数本のリチウムイオン２次電池セルをカートリッジ式にパッケージ化した「バッテリ・パック」の形態で構成される。
【００２７】
また、充放電制御部６２は、バッテリ６１の端子電圧や充電／放電電流量、バッテリ６１の周囲温度等を測定することでバッテリ６１の残存容量を把握し、充電の開始時期や終了時期等を決定する。充放電制御部６２が決定する充電の開始及び終了時期は制御ユニット２０に通知され、ロボット装置１が充電オペレーションを開始及び終了するためのトリガとなる。
【００２８】
制御ユニット２０は、「頭脳」に相当し、例えばロボット装置１の機体頭部あるいは胴体部に搭載されている。
【００２９】
図３は、制御ユニット２０の構成を更に詳細に示すブロック図である。図３に示すように、制御ユニット２０は、メイン・コントローラとしてのＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１が、メモリ及びその他の各回路コンポーネントや周辺機器とバス接続された構成となっている。バス２８は、データ・バス、アドレス・バス、コントロール・バス等を含む共通信号伝送路である。バス２８上の各装置にはそれぞれに固有のアドレス（メモリ・アドレス又はＩ／Ｏアドレス）が割り当てられている。ＣＰＵ２１は、アドレスを指定することによってバス２８上の特定の装置と通信することができる。
【００３０】
ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２２は、ＤＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）等の揮発性メモリで構成された書き込み可能メモリであり、ＣＰＵ２１が実行するプログラム・コードをロードしたり、実行プログラムによる作業データの一時的に保存そたりするために使用される。
【００３１】
ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２３は、プログラムやデータを恒久的に格納する読み出し専用メモリである。ＲＯＭ２３に格納されるプログラム・コードには、ロボット装置１の電源投入時に実行する自己診断テスト・プログラムや、ロボット装置１の動作を規定する動作制御プログラム等が挙げられる。
【００３２】
ロボット装置１の制御プログラムには、カメラ１５やマイクロフォン１６等のセンサ入力を処理してシンボルとして認識する「センサ入力・認識処理プログラム」、短期記憶や長期記憶等の記憶動作（後述）を司りながらセンサ入力と所定の行動制御モデルとに基づいてロボット装置１の行動を制御する「行動制御プログラム」、行動制御モデルに従って各関節モータの駆動やスピーカ１７の音声出力等を制御する「駆動制御プログラム」等が含まれる。
【００３３】
不揮発性メモリ２４は、例えばＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）のように電気的に消去再書き込みが可能なメモリ素子で構成され、逐次更新すべきデータを不揮発的に保持するために使用される。逐次更新すべきデータには、暗号鍵やその他のセキュリティ情報、出荷後にインストールすべき装置制御プログラム等が挙げられる。
【００３４】
インターフェース２５は、制御ユニット２０外の機器と相互接続し、データ交換を可能にするための装置である。インターフェース２５は、例えば、カメラ１５、マイクロフォン１６、又はスピーカ１７等との間でデータ入出力を行う。また、インターフェース２５は、駆動部５０内の各ドライバ５３１〜５３ｎとの間でデータやコマンドの入出力を行う。
【００３５】
また、インターフェース２５は、ＲＳ（ＲｅｃｏｍｍｅｎｄｅｄＳｔａｎｄａｒｄ）−２３２Ｃ等のシリアル・インターフェース、ＩＥＥＥ（ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄｅｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ）１２８４等のパラレル・インターフェース、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）インターフェース、ｉ−Ｌｉｎｋ（ＩＥＥＥ１３９４）インターフェース、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）インターフェース、ＰＣカードやメモリ・スティックを受容するメモリ・カード・インターフェース（カード・スロット）等のような、コンピュータの周辺機器接続用の汎用インターフェースを備え、ローカル接続された外部機器との間でプログラムやデータの移動を行うようにしてもよい。
【００３６】
また、インターフェース２５の他の例として、赤外線通信（ＩｒＤＡ）インターフェースを備え、外部機器と無線通信を行うようにしてもよい。
【００３７】
更に、制御ユニット２０は、無線通信インターフェース２６やネットワーク・インターフェース・カード（ＮＩＣ）２７等を含み、Ｂｌｕｅｔｏｏｔｈのような近接無線データ通信や、ＩＥＥＥ８０２．１１ｂのような無線ネットワーク、あるいはインターネット等の広域ネットワークを経由して、外部のさまざまなホスト・コンピュータとデータ通信を行うことができる。
【００３８】
このようなロボット装置１とホスト・コンピュータ間におけるデータ通信により、遠隔のコンピュータ資源を用いて、ロボット装置１の複雑な動作制御を演算したり、リモート・コントロールしたりすることができる。
【００３９】
（Ｂ）ロボット装置の行動制御方法
次に、本実施の形態におけるロボット装置の行動制御方法について詳細に説明する。上述したロボット装置１は、自己及び周囲の状況や、使用者からの指示及び働きかけに応じて自律的に行動し得るようになされている。即ち、ロボット装置１は、外部刺激及び内部状態に応じて自律的に行動を選択して発現することができる。本実施の形態におけるロボット装置の行動制御方法では、ロボット装置は、行動に対する行動価値ＡＬ（アクティベーションレベル：ＡｃｔｉｖａｔｉｏｎＬｅｖｅｌ）に基づき選択され発現されることで行動が生成される。ここでは、特に、ロボット装置の行動制御のうち、自身の内部状態と外部からの刺激に対して発現する行動を選択して出力するまでの行動選択制御について説明するが、先ず、行動選択の基準となる行動価値ＡＬの算出方法について説明する。なお、ロボット装置の制御システムの全体の構成についての詳細は後述する。
【００４０】
（１）ロボット装置の行動選択
図４は、ロボット装置の制御システムにおいて、各行動に対応する行動価値を算出してこれに基づき行動出力する処理を行う行動選択制御システム部分を示す模式図である。図４に示すように、行動選択制御システム１００は、本能や感情といった数種類の情動を数式モデル化して管理する内部状態管理部９１と、外部環境におけるセンサ入力等の外部刺激を認識する外部刺激認識部８０と、内部状態及び外部刺激に基づき選択されると行動を出力するモジュールである複数の要素行動（図４では、要素行動Ａ乃至Ｄのみ図示）１３２と、各要素行動１３２の行動価値ＡＬを算出する行動価値算出部１２０と、行動価値ＡＬに基づき、発現する要素行動１３２を選択する行動選択部１３０とを有し、選択された要素行動１３２が行動を出力することでロボット装置が行動を発現するようになされている。
【００４１】
要素行動１３２とは、内部状態及び外部刺激から行動出力を決定するモジュールであり、各モジュール毎にステートマシンを用意しており、それ以前の行動（動作）や状況に依存して、センサ入力された外部情報の認識結果を分類し、動作を機体上で発現する。このモジュール（行動記述モジュール）は、外部刺激や内部状態に応じた状況判断を行ない、行動価値ＡＬを算出するＭｏｎｉｔｏｒ機能と、行動実行に伴う状態遷移（ステートマシン）を実現するＡｃｔｉｏｎ機能とを備えたスキーマ（Ｓｃｈｅｍａ）１２１として記述されるが、スキーマの詳細については後述する。各要素行動１３２には、自身に記述された行動に応じて所定の内部状態及び外部刺激が定義されている。
【００４２】
ここで外部刺激とは、外部刺激認識部８０におけるロボット装置の知覚情報等であり、例えばカメラから入力された画像に対して処理された色情報、形情報、顔情報等の対象物情報等が挙げられる。具体的には、例えば、色、形、顔、３Ｄ一般物体、及びハンドジェスチャー、その他、動き、音声、接触、距離、場所、時間、及びユーザとのインタラクション回数等が挙げられる。
【００４３】
また、内部状態とは、上述した如く、内部状態管理部９１にて管理される本能や感情といった情動であり、例えば、疲れ（ＦＡＴＩＧＵＥ）、痛み（ＰＡＩＮ）、栄養状態（ＮＯＵＲＩＳＨＭＥＮＴ）、乾き（ＴＨＵＲＳＴ）、愛情（ＡＦＦＥＣＴＩＯＮ）、好奇心（ＣＵＲＩＯＳＩＴＹ）等がある。
【００４４】
そして、例えば行動出力が「食べる」である要素行動Ａは、外部刺激として対象物の種類（ＯＢＪＥＣＴ＿ＩＤ）、対象物の大きさ（ＯＢＪＥＣＴ＿ＳＩＺＥという。）、対象物の距離（ＯＢＪＥＣＴ＿ＤＩＳＴＡＮＣＥ）等を扱い、内部状態として「ＮＯＵＲＩＳＨＭＥＮＴ」（「栄養状態」）、「ＦＡＴＩＧＵＥ」（「疲れ」）等を扱う。このように、各要素行動毎に、扱う外部刺激及び内部状態の種類が定義され、該当する外部刺激及び内部状態に対応する行動（要素行動）に対する行動価値が算出される。なお、１つの内部状態、又は外部刺激は、１つの要素行動だけでなく、複数の要素行動に対応付けられていてもよいことはもちろんである。
【００４５】
また、内部状態管理部９１は、外部刺激並びに例えば自身のバッテリの残量及びモータの回転角等の情報を入力とし、上述のような複数の内部状態に対応した内部状態の値（内部状態ベクトルＩｎｔＶ）を算出、管理する。具体的には、例えば、内部状態「栄養状態」は、バッテリの残量を基に決定し、内部状態「疲れ」は、消費電力を基に決定することができる。
【００４６】
行動価値算出部１２０は、後述する行動価値算出データベース１２１を参照し、ある時刻での外部刺激と内部状態とからその時刻での各要素行動Ａ〜Ｄにおける行動価値ＡＬを算出する。この行動価値算出部１２０は、本実施の形態においては各要素行動Ａ〜Ｄ毎に個別に設けられるものとするが、行動価値算出部１２０により全ての要素行動についての行動価値を算出するようにしてもよい。
【００４７】
行動価値ＡＬとは、その要素行動をロボット装置がどれくらいやりたいか（実行優先度）を示すもので、行動選択部１３０がこの行動価値ＡＬに基づき、要素行動を選択し、選択された要素行動は自身に記述された行動を出力する。即ち、各要素行動が自身の行動価値算出部１２０により、行動価値ＡＬの算出を行い、その行動価値ＡＬが例えば最も高い要素行動を行動選択部１３０が選択する。
【００４８】
各要素行動に対する行動価値ＡＬは、現在の各内部状態に対応する各行動に対する欲求値と、現在の各内部状態に基づく満足度と、外部刺激により変化すると予想される内部状態の変化量、即ち、外部刺激が入力され行動を発現した結果、変化すると予想される内部状態の変化量を示す予想内部状態変化に基づく予想満足度変化とに基づき、算出される。
【００４９】
ここでは、ある「種類」、「大きさ」の対象物がある「距離」に存在するとき、行動出力が「食べる」である要素行動Ａの行動価値ＡＬを、内部状態「栄養状態」、「疲れ」とから算出する例をとって、所定の要素行動Ａにおける行動価値ＡＬを算出する方法について具体的に説明する。
【００５０】
（２）行動価値算出部
図５は、行動価値算出部１２０が内部状態及び外部刺激から行動価値ＡＬを算出する処理の流れを示す模式図である。本実施の形態においては、各要素行動毎に、１以上の内部状態を成分として有する内部状態ベクトルＩｎｔＶ（ＩｎｔｅｒｎａｌＶａｒｉａｂｌｅ）が定義されており、内部状態管理部９１から各要素行動に応じた内部状態ベクトルＩｎｔＶを得る。即ち、内部状態ベクトルＩｎｔＶの各成分は、例えば上述した情動等を示す１つの内部状態の値（内部状態パラメータ）を示すもので、内部状態ベクトルＩｎｔＶが有する各成分に応じた要素行動の行動価値算出に使用される。具体的には、上記行動出力「食べる」を有する要素行動Ａは、例えば内部状態ベクトルＩｎｔＶ｛ＩｎｔＶ＿ＮＯＵＲＩＳＨＭＥＮＴ「栄養状態」，ＩｎｔＶ＿ＦＡＴＩＧＵＥ「疲れ」｝が定義される。
【００５１】
また、各内部状態毎に、１以上の外部刺激の値を成分として有する外部刺激ベクトルＥｘＳｔｍｌ（ＥｘｔｅｒｎａｌＳｔｉｍｕｌｕｓ）が定義されており、外部刺激認識部８０から各内部状態、即ち各要素行動に応じた外部刺激ベクトルＥｘＳｔｍｌを得る。即ち、外部刺激ベクトルＥｘＳｔｍｌの各成分は、例えば上述した対象物の大きさ、対象物の種類、対象物までの距離等の認識情報を示すもので、外部刺激ベクトルＥｘＳｔｍｌが有する各成分に応じた内部状態値の算出に使用される。具体的には、内部状態ＩｎｔＶ＿ＮＯＵＲＩＳＨＭＥＮＴ「栄養状態」には、例えば、外部刺激ベクトルＥｘＳｔｍｌ｛ＯＢＪＥＣＴ＿ＩＤ「対象物の種類」，ＯＢＪＥＣＴ＿ＳＩＺＥ「対象物の大きさ」｝が定義され、内部状態ＩｎｔＶ＿ＦＡＴＩＧＵＥ「疲れ」には、例えば外部刺激ベクトルＥｘＳｔｍｌ｛ＯＢＪＥＣＴ＿ＤＩＳＴＡＮＣＥ「対象物までの距離」｝が定義される。
【００５２】
行動価値算出部１２０は、この内部状態ベクトルＩｎｔＶ及び外部刺激ベクトルＥｘＳｔｍｌを入力とし、行動価値ＡＬを算出する。具体的には、行動価値算出部１２０は、内部状態ベクトルＩｎｔＶから、該当する要素行動について、どれだけやりたいかを示すモチベーションベクトル（ＭｏｔｉｖａｔｉｏｎＶｅｃｔｏｒ）を求める第１の算出部ＭＶと、内部状態ベクトルＩｎｔＶ及び外部刺激ベクトルＥｘＳｔｍｌから、該当する要素行動をやれるか否か示すリリーシングベクトル（ＲｅｌｅａｓｉｎｇＶｅｃｔｏｒ）を求める第２の算出部ＲＶとを有し、これら２つのベクトルから行動価値ＡＬを算出する。
【００５３】
（２−１）モチベーションベクトルの算出
行動価値ＡＬを算出する一方の要素であるモチベーションベクトルは、要素行動に定義されている内部状態ベクトルＩｎｔＶから、その要素行動に対する欲求を示す欲求値ベクトルＩｎｓＶ（ＩｎｓｔｉｎｃｔＶａｒｉａｂｌｅ）として求められる。例えば、行動出力「食べる」を有する要素行動Ａは、内部状態ベクトルＩｎｔＶ｛ＩｎｔＶ＿ＮＯＵＲＩＳＨＭＥＮＴ，ＩｎｔＶ＿ＦＡＴＩＧＵＥ｝を有し、これより、欲求値ベクトルＩｎｓＶ｛ＩｎｓＶ＿ＮＯＵＲＩＳＨＭＥＮＴ，ＩｎｓＶ＿ＦＡＴＩＧＵＥ｝をモチベーションベクトルとして求める。即ち、欲求値ベクトルＩｎｓＶは、行動価値ＡＬを算出するためのモチベーションベクトルとなる。
【００５４】
欲求値ベクトルＩｎｓＶの計算方法としては、例えば内部状態ベクトルＩｎｔＶの値が大きいほど、欲求が満たされているものと判断され欲求値は小さくなり、内部状態ベクトルＩｎｔＶがある値より大きくなると欲求値は負になるような関数を用いることができる。
【００５５】
具体的には、下記式（１）及び図６に示すような関数が挙げられる。図６は、横軸に内部状態ベクトルＩｎｔＶの各成分をとり、縦軸に欲求値ベクトルＩｎｓＶの各成分をとって、下記式（１）で示される内部状態と欲求値との関係を示すグラフ図である。
【００５６】
【数１】

【００５７】
欲求値ベクトルＩｎｓＶは、上記式（１）及び図６に示すように、内部状態ベクトルＩｎｔＶの値のみで決まる。ここでは、内部状態の大きさを０乃至１００とし、そのときの欲求値の大きさが−１乃至１となるような関数を示す。例えば内部状態が８割満たされているときに、欲求値が０となるような内部状態−欲求値曲線Ｌ１を設定することで、ロボット装置は、常に内部状態が８割の状態を維持するように行動を選択するようになる。これにより、例えば、内部状態「栄養状態」（ＩｎｔＶ＿ＮＯＲＩＳＨＭＥＮＴ）に対応する欲求が「食欲」（ＩｎｓＶ＿ＮＯＲＩＳＦＭＥＮＴ）である場合、お腹が減っていれば食欲が大きくなり、腹八分目以上では食欲がなくなることを示し、これを利用すればそのような情動を表出するような行動を発現させるようにすることができる。
【００５８】
上記式（１）における定数Ａ乃至Ｆを種々変更することで、各内部状態毎に異なる欲求値が求まる。例えば、内部状態が０乃至１００の間において、欲求値が１乃至０に変化するようにしてもよいし、また、各内部状態毎に上記式（１）とは異なる内部状態−欲求値関数を用意してもよい。
【００５９】
（２−２）リリーシングベクトルの算出
一方、行動価値ＡＬを算出する他方の要素であるリリーシングベクトルは、内部状態ベクトルＩｎｔＶから求められる満足度ベクトルＳ（Ｓａｔｉｓｆａｃｔｉｏｎ）と、外部刺激ベクトルＥｘＳｔｍｌから求められる予想満足度変化ベクトルとから算出される。
【００６０】
先ず、各要素行動に定義されている内部状態と、この内部状態に定義されている外部刺激とから、行動発現後に得られるであろう内部状態と現在の内部状態との差を示す下記（２）に示す予想内部状態変化ベクトルを求める。
【００６１】
【数２】

【００６２】
予想内部状態変化ベクトルとは、現在の内部状態ベクトルからの、行動発現後に変化すると予想される変化量を示すもので、行動価値算出部１２０が参照可能な行動価値算出データベース１２１の行動価値算出データを参照して求めることができる。行動価値算出データは、外部刺激ベクトルと行動発現後に変化すると予想される予想内部状態変化ベクトルとの対応が記述されたものであり、このデータベースを参照することで、行動価値算出部１２０は、入力された外部刺激ベクトルに応じた予想内部状態変化ベクトルを取得することができる。
【００６３】
なお、行動価値算出データベース１２１の構成についての詳細は後述する。ここでは、先ず、行動価値算出データベースから予想内部状態変化、予想欲求度変化を求める方法について説明する。
【００６４】
行動価値算出データベースに登録される行動価値算出データとしては、図７（ａ）及び図７（ｂ）に示すものが考えられる。即ち、図７（ａ）に示すように、内部状態「栄養状態」（「ＮＯＵＲＩＳＨＭＥＮＴ」）に関しては、その要素行動の行動出力である「食べる」を発現した結果、対象物の大きさ（ＯＢＪＥＣＴ＿ＳＩＺＥ）が大きいほど、また対象物の種類（ＯＢＪＥＣＴ＿ＩＤ）がＯＢＪＥＣＴ＿ＩＤ＝０に対応する対象物Ｍ１より、ＯＢＪＥＣＴ＿ＩＤ＝１に対応する対象物Ｍ２が、また、ＯＢＪＥＣＴ＿ＩＤ＝１に対応する対象物Ｍ２より、ＯＢＪＥＣＴ＿ＩＤ＝２に対応する対象物Ｍ３の方が内部状態「栄養状態」が満たされる量が大きく、栄養を満たすであろうと予想される場合を示している。
【００６５】
また、図７（ｂ）に示すように、内部状態「疲れ」（「ＦＡＴＩＧＵＥ」）に関しては、その要素行動の行動出力である「食べる」を発現した結果、対象物の距離「ＯＢＪＥＣＴ＿ＤＩＳＴＡＮＣＥ」が大きいほど、内部状態「ＦＡＴＩＧＵＥ」が満たされる量が大きく、疲れるであろうと予想される場合を示している。
【００６６】
即ち、上述した如く、各行動要素に対して内部状態ベクトルＩｎｔＶ及び外部刺激ベクトルＥｘＳｔｍｌが定義されているため、外部刺激ベクトルＥｘＳｔｍｌの各成分として対象物の大きさ及び対象物の種類を有するベクトルが供給された場合、この外部刺激ベクトルＥｘＳｔｍｌが定義されている内部状態ＩｎｔＶ＿ＮＯＵＲＩＳＨＭＥＮＴ（「栄養状態」）を有する内部状態ベクトルが定義されている要素行動Ａの行動結果に対する予想内部状態変化が求められ、対象物の距離を有するベクトルが供給された場合、この外部刺激ベクトルＥｘＳｔｍｌが定義されている内部状態ＩｎｔＶ＿ＦＡＴＩＧＵＥ（「疲れ」）を有する内部状態ベクトルが定義されている要素行動Ａの行動結果に対する予想内部状態変化が求められる。
【００６７】
次に、内部状態ベクトルＩｎｔＶから下記（３）に示す満足度ベクトルＳを算出し、上記（２）に示す予想内部状態変化ベクトルから、下記（４）に示す予想満足度変化ベクトルを求める。
【００６８】
【数３】

【００６９】
【数４】

【００７０】
内部状態ベクトルＩｎｔＶに対する満足度ベクトルＳの計算法としては、要素行動Ａに定義されている内部状態ベクトル｛ＩｎｔＶ＿ＮＯＵＲＩＳＨＭＥＮＴ，ＩｎｔＶ＿ＦＡＴＩＧＵＥ｝の各成分ＩｎｔＶ＿ＮＯＵＲＩＳＨＭＥＮＴ「栄養状態」及びＩｎｔＶ＿ＦＡＴＩＧＵＥ「疲れ」に対して、夫々下記式（５−１）及び（５−２）に示すような関数が考えられる。
【００７１】
【数５】

【００７２】
図８及び図９は、夫々上記式（５−１）及び（５−２）に示す関数を示すグラフ図である。図８は、横軸にＩｎｔＶ＿ＮＯＵＲＩＳＨＭＥＮＴ「栄養状態」、縦軸に内部状態「栄養状態」に対する満足度Ｓ＿ＮＯＵＲＩＳＨＭＥＮＴをとり、図９は、横軸にＩｎｔＶ＿ＦＡＴＩＧＵＥ「疲れ」、縦軸に内部状態「疲れ」に対する満足度Ｓ＿ＦＡＴＩＧＵＥをとって、内部状態と満足度との関係を示すグラフ図である。
【００７３】
図８に示す関数は、内部状態「栄養状態」の値ＩｎｔＶ＿ＮＯＵＲＩＳＨＭＥＮＴが０乃至１００の値を有し、これに対応する満足度Ｓ＿ＮＯＵＲＩＳＨＭＥＮＴが０乃至１で全て正の値を有するものであって、内部状態の値が０から８０近傍までは満足度が０から増加し、それ以降は減少して内部状態の値が１００で再び満足度０になるような曲線Ｌ２を示す関数である。即ち、内部状態「栄養状態」に関しては、現在（ある時刻）の内部状態「栄養状態」の値（ＩｎｔＶ＿ＮＯＵＲＩＳＨＭＥＮＴ＝４０）から計算される満足度Ｓ＿ＮＯＵＲＩＳＨＭＥＮＴ、図７（ａ）によって得られる内部状態「栄養状態」の予想内部状態変化（４０から８０までの２０）に対応する予想満足度変化は、共に正である。
【００７４】
また、上述の図５には関数Ｌ２のみを示しているが、図９に示すような関数を用いることもできる。即ち、図９に示す関数は、内部状態「疲れ」の値ＩｎｔＶ＿ＦＡＴＩＧＵＥが０乃至１００の値を有し、これに対応する満足度Ｓ＿ＦＡＴＩＧＵＥが０乃至−１で全て負の値をするものであって、内部状態が大きくなるほど、満足度が小さくなるような曲線Ｌ３を示す関数である。現在の内部状態「疲れ」の内部状態の値から計算される満足度Ｓ＿ＦＡＴＩＧＵＥは負であり、図７（ａ）によって得られる内部状態「疲れ」の予想内部状態変化が正であれば、予想満足度変化ベクトルは負になる。
【００７５】
上記式（５−１）、（５−２）に示される関数において、各定数Ａ〜Ｆを可変に設定することで、種々の内部状態に対応して異なる満足度を得るための関数を設定することができる。
【００７６】
そして、下記式（６）によって、外部刺激により、行動発現後にどのくらい内部状態を満足させるかの値を決定することで、行動価値ＡＬを算出するための他方の要素であるリリーシングベクトルを求めることができる。
【００７７】
【数６】

【００７８】
ここで、上記式（６）におけるαが大きいと、リリーシングベクトルは予想満足度変化、即ち、行動を発現した結果、どれくらいの満足度が得られるか、即ちどれくらい満足度が増えるかを示す値に強く依存し、αが小さいと、予想満足度、即ち、行動を発現した結果、満足度がどのくらいになるかを示す値に強く依存するという傾向を有することになる。
【００７９】
（２−３）行動価値ＡＬの算出
以上のようにして求められたモチベーションベクトルと、リリーシングベクトルとから、最終的に行動価値ＡＬが下記式（７）のように算出される。
【００８０】
【数７】

【００８１】
ここで、βが大きいと、行動価値ＡＬは内部状態（欲求値）に強く依存し、βが小さいと外部刺激（予想満足度変化及び予想満足度）に強く依存する傾向を有する。このようにして、内部状態の値（内部状態ベクトルＩｎｔＶ）と外部刺激の値（外部刺激ベクトルＥｘＳｔｍｌ）とから欲求値、満足度、予想満足度を計算し、これら欲求値、満足度、予想満足度に基づいて行動価値ＡＬを算出することができる。
【００８２】
そして、この行動価値ＡＬに基づいて、行動選択部１３０が行動を選択することにより、例えば同じ外部刺激が入力された場合であっても、そのときの内部状態の値によって異なる行動が選択される。
【００８３】
（２−４）行動価値算出データベース
次に、行動価値算出データベース１２１の行動価値算出データの構造及び、データベースの参照方法（予想内部状態変化の求め方）について説明する。上述したように、行動価値算出データは、入力された外部刺激に対して予想内部状態変化ベクトルを求めるためのデータであり、各要素行動に定義された内部状態に対して、外部刺激ベクトル空間上に代表点（外部刺激の値）が定義されている。そして、その代表点上に予想される内部状態の変化量を示す予想内部状態変化が定義されている。そして、入力された外部刺激が、定義された外部刺激ベクトル空間の代表点上の値であった場合、予想内部状態変化はその代表点上に定義された値となる。
【００８４】
図１０（ａ）及び図１０（ｂ）は、行動価値算出データ構造の一例を示すグラフ図である。図１０（ａ）に示すように、内部状態「栄養状態」（「ＮＯＵＲＩＳＨＭＥＮＴ」）の予想内部状態変化を求める場合、外部刺激ベクトル空間上の代表点｛ＯＢＪＥＣＴ＿ＩＤ，ＯＢＪＥＣＴ＿ＳＩＺＥ｝及びこの代表点に対応する予想内部状態変化を例えば下記表１のように定義しておく。
【００８５】
【表１】

【００８６】
また、図１０（ｂ）に示すように、内部状態「疲れ」（「ＦＡＴＩＧＵＥ」）の予想内部状態変化ベクトルを求める場合、外部刺激ベクトル空間上の代表点｛ＯＢＪＥＣＴ＿ＤＩＳＴＡＮＣＥ｝及びこの代表点に対応する予想内部状態変化を例えば下記表２のように定義しておく。
【００８７】
【表２】

【００８８】
このように、予想内部状態変化は、外部刺激ベクトル空間上の代表点にのみ定義されているため、外部刺激の種類（例えば、ＯＢＪＥＣＴ＿ＤＩＳＴＡＮＣＥやＯＢＪＥＣＴ＿ＳＩＺＥ等）によっては、定義された外部刺激ベクトル空間の代表点以外の値が入力されることが考えられる。その場合、予想内部状態変化は、入力された外部刺激の近傍の代表点から線形補間により求めることができる。
【００８９】
図１１及び図１２は、夫々１次元及び２次元の外部刺激の線形補間方法を説明する図である。上述の図１０（ｂ）に示すように１つの外部刺激（ＯＢＪＥＣＴ＿ＤＩＳＴＡＮＣＥ）から予想内部状態変化を求める場合、即ち、内部状態に１つの外部刺激が定義されている場合、図１１に示すように、横軸に外部刺激をとり、縦軸にこの外部刺激に対する予想内部状態変化をとって、外部刺激（ＯＢＪＥＣＴ＿ＤＩＳＴＡＮＣＥ）のパラメータである代表点Ｄ１及び代表点Ｄ２に定義された予想内部状態変化となるような直線Ｌ４により、入力される外部刺激Ｄｎの予想内部状態変化量Ｉｎを求めることができる。
【００９０】
また、図１２に示すように、内部状態に対して入力となる外部刺激が２つの成分から外部刺激ベクトルとして、例えば図１１に示すＯＢＪＥＣＴ＿ＤＩＳＴＡＮＣＥに加え、ＯＢＪＥＣＴ＿ＷＥＩＧＨＴが定義されている場合に、各外部刺激の所定のパラメータである代表点（Ｄ１，Ｗ１），（Ｄ１，Ｗ２），（Ｄ２，Ｗ１），（Ｄ２，Ｗ２）が定義され、これに対応する予想内部状態変化を有している場合において、上記の４つの代表点とは異なる外部刺激Ｅｎｍ（Ｄｎ，Ｗｎ）が入力された場合、例えば先ず、ＯＢＪＥＣＴ＿ＤＩＳＴＡＮＣＥ＝Ｄ１において、ＯＢＪＥＣＴ＿ＷＥＩＧＨＴの代表点Ｗ１，Ｗ２に定義された予想内部状態変化を通る直線Ｌ５を求め、同じく、ＯＢＪＥＣＴ＿ＤＩＳＴＡＮＣＥ＝Ｄ２において、ＯＢＪＥＣＴ＿ＷＥＩＧＨＴの代表点Ｗ１，Ｗ２に定義された予想内部状態変化を通る直線Ｌ６を求める。そして、入力される外部刺激Ｅｎｍの２つの入力のうち、例えばＷｎに対応する２つの直線Ｌ５及びＬ６における予想内部状態変化を求め、更にこの２つの予想内部状態変化を結んだ直線Ｌ７を求め、この直線Ｌ７において入力される外部刺激Ｅｎｍの他方の外部刺激Ｄｎに対応する予想内部状態変化を求めることで、外部刺激Ｅｎｍに対応した予想内部状態変化量Ｉｎｍを線形補間により求めることができる。
【００９１】
（２−５）行動価値算出方法
次に、図５に示す行動価値算出部１２０における行動価値算出方法について、図１３に示すフローチャートを参照して説明する。
【００９２】
図１３に示すように、先ず、図４に示す外部刺激認識部８０により外部刺激が認識されると、これが行動価値算出部１２０に供給される。この際、例えば外部刺激認識部８０からの通知により、内部状態管理部９１から各内部状態が供給されるようになされている（ステップＳ１）。
【００９３】
次に、上述したように、供給された各内部状態から、例えば上記式（１）等の関数を使用して対応する欲求値を算出することで、内部状態ベクトルＩｎｔＶからモチベーションベクトルとなる欲求値ベクトルを算出する（ステップＳ２）。
【００９４】
また、行動価値算出部１２０は、供給された各内部状態から上記式（５−１），（５−２）等の関数を使用して対応する満足度を算出することで、内部状態ベクトルＩｎｔＶから、満足度ベクトルＳを算出する（ステップＳ３）。
【００９５】
一方、供給された外部刺激（外部刺激ベクトル）から、上述したように、行動を発現した結果、得られると予想される予想内部状態変化を求める（ステップＳ４）。そして、ステップＳ３と同様の関数を用いて、この予想内部状態変化に対応する予想満足度変化を求め（ステップＳ５）、得られた予想満足度変化と、ステップＳ３で求めた満足度ベクトルとから上記式（６）により、リリーソングベクトルを算出する（ステップＳ６）。
【００９６】
最後に、ステップＳ２にて求めたモチベーションベクトルと、ステップＳ６にて求めたリリーシングベクトルとから、上記式（７）より行動価値ＡＬを算出する。
【００９７】
なお、上記ステップＳ１乃至ステップＳ７における行動価値算出部１２０における行動価値ＡＬの算出は、外部刺激を認識する毎に行うものとして説明したが、例えば所定のタイミングで行動価値を算出するようにしてもよい。また、外部刺激が認識され、行動価値算出が行われる際は、認識された外部刺激に関する内部状態についての欲求値及び満足度のみを算出するようにしてもよいし、全ての内部状態について欲求値及び満足度を算出するようにしてもよい。
【００９８】
本実施の形態においては、内部状態及び外部刺激に基づいて行動価値ＡＬを算出することにより、行動価値ＡＬを算出してこれに基づき行動を選択することにより、エンターテインメントロボット装置としてユーザを飽きさせない行動を発現させることができる。
【００９９】
また、センサから入力される外部刺激の値にはノイズ等の原因で、代表点以外の値が入力されることがある。そのような場合でも、予想内部状態変化量の計算を線形補間法で行うことにより、代表点からの離れ度合いに比例して、近傍代表点の予想内部状態変化量を更新することができると共に少ない計算量で予想内部状態変化量を求めることができる。
【０１００】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。例えば、上述の行動価値算出データベースを更新する学習手段を設けることができる。即ち、学習手段を設けて、行動価値算出データにおける内部状態変化ベクトルから予想内部状態変化ベクトルを学習してもよい。
【０１０１】
（３）行動価値算出データベースの学習
以下では、このような行動価値算出データにおける予想内部状態変化ベクトルを、行動発現後の内部状態変化ベクトルから学習する学習方法について説明する。行動価値算出データベースにおけるデータベースの学習手段を設けることで、行動価値算出データベースがユーザとのインタラクションや、外部環境に応じて随時更新され、従って、ロボット装置の学習結果によっては、同じ外部刺激を受けても異なる行動を発現する等、更にユーザを飽きさせない行動生成が実現される。このような行動価値算出データの学習を行うためには教師信号が必要であるが、例えば行動結果から決定される実際の内部状態変化量を教師信号として、外部刺激に対する予想内部状態変化を学習することができる。
【０１０２】
図１４は、外部刺激が入力されてから行動価値算出データベースの学習を行うまでの流れを示す模式図である。上述の図５に示した如く、行動価値算出データベース１２１を参照して、予想した予測内部状態変化ベクトルを生徒信号とし、行動価値ＡＬを算出し、この値に基づき、例えば行動価値ＡＬが最も大きい要素行動を行動選択部が選択する。選択された要素行動は、行動を出力し、ロボット装置は行動を発現する。
【０１０３】
ロボット装置が実際に行動を発現した結果、図４に示す内部状態管理部９１は、自身の内部状態を変化させる。即ち、例えば行動発現後の時間経過に応じて内部状態を変更したり、行動の結果に応じて内部状態を変更する。具体的には、例えば、上述したように、内部状態「栄養状態」はバッテリの残量を基に決定され、内部状態「疲れ」は消費電力を基に決定されるものとすると、行動を発現した結果、バッテリの残量が減少することで内部状態「栄養状態」も減少し、また、行動を発現することにより消費された消費電力量の大きさに比例して内部状態「疲れ」が増大する等が挙げられる。
【０１０４】
こうして実際に行動を発現した結果、ロボット装置の内部状態が変化し、実際の行動発現前後の内部状態の変化量を求めることができる。そして、図１４に示すように、行動発現後に得られた内部状態変化ベクトルｄＩｎｔＶが教師信号となり、学習部１４０にて行動発現前に予想される予想内部状態変化ベクトルの学習が行われ、行動価値算出データベース１２１が学習に応じて更新される。
【０１０５】
ここで入力された外部刺激が代表点上の値であるか否かで学習方法が異なる。先ず、ある選択された要素行動において、行動価値を算出するにあたって必要とした外部刺激が、代表点上の値であった場合、下記式（８）によって実際の内部状態変化量をもとに代表点上の予想内部状態変化を更新する。
【０１０６】
【数８】

【０１０７】
また、ある選択された要素行動において、行動価値を算出するにあたって必要とした外部刺激が代表点以外の値の場合、外部刺激近傍の代表点、即ち、線形補間に使用した代表点における予想内部状態変化が学習対象となる。各外部刺激について、外部刺激と代表点までの距離の比が上記式（８）に乗じられ、予想内部状態変化を更新する。
【０１０８】
図１５及び図１６は、１次元及び２次元外部刺激の予想内部状態変化の更新例を説明する模式図である。図１５に示すように、外部刺激Ｄｎが入力され、外部刺激Ｄｎが代表点上にない場合は、上述したように、外部刺激Ｄｎ近傍の代表点Ｄ１，Ｄ２を使用して線形補間されることで行動発現前の予想内部状態変化Ｉｎが求められる。そして、行動発現後に、実際の内部状態変化量（ｄＩｎｔＶ＿Ｆａｔｉｇｕｒｅ）が求められ、代表点Ｄ１，Ｄ２と外部刺激Ｄｎとの間の距離と学習率γとから、代表点Ｄ１，Ｄ２における予想内部状態変化の学習が行われ、下記式（９−１）及び（９−２）に従って夫々代表点Ｄ１及びＤ２の予想内部状態変化が更新される。
【０１０９】
【数９】

【０１１０】
また、２つの外部刺激が入力される場合も上述したように、線形補間により行動発現前の外部刺激Ｅｎｍ（Ｄｎ，Ｗｎ）に対応する予想内部状態変化量Ｉｎｍを求める際に使用した、入力される外部刺激の近傍の代表点（Ｄ１，Ｗ１）（Ｄ１，Ｗ２）、（Ｄ２，Ｗ１）、（Ｄ２，Ｗ２）に対応する予想内部状態変化が、下記式（１０−１）乃至（１０−４）により学習され更新される。即ち、行動発現後に求められる実際の内部状態変化ベクトル、代表点と外部刺激との距離及び学習率αにより、学習が行われ、各代表点に対応する予想内部状態変化が更新される。
【０１１１】
【数１０】

【０１１２】
（４）行動価値算出データベースの学習方法
次に、図１４に示す学習部１４０により、発現された行動に応じて行動価値算出データベースを更新する方法について、図１７に示すフローチャートを参照して説明する。
【０１１３】
先ず、図４に示す行動価値算出部１２０により算出された行動価値ＡＬに基づき、図１７に示すように、行動選択部１３０が例えば全ての要素行動に対する行動価値算出結果をモニタし、例えば最も行動価値ＡＬが高い要素行動を選択することで、当該要素行動から行動が出力される（ステップＳ８）。
【０１１４】
ロボット装置は、行動を発現することによって例えばバッテリの残量が変化し、これに基づき算出される内部状態が行動前に比べて変化する。また、行動を発現した際に使用された消費電力等に基づき算出される内部状態が行動発現前に比べて変化する。図４に示す内部状態管理部９１は、このような行動前後の内部状態の変化を算出し、学習部１４０に供給する（ステップＳ９）。学習部１４０は、上述したように、行動前後の内部状態の実際の変化と、行動価値算出データベースに保存されている予想内部状態変化とから、上記式（９−１），（９−２）又は（１０−１）乃至（１０−４）により、新しく予想内部状態変化を算出し、行動価値算出データベースを更新する（ステップＳ１０）。
【０１１５】
このように、学習手段を設けて実際の内部状態変化量を予想内部状態変化量にフィードバックさせて学習を行うことにより、環境やユーザとのインタラクションの結果を行動選択に反映させることができる。
【０１１６】
（５）ロボット装置の制御システム
次に、上述した行動価値ＡＬを算出して行動を出力する処理を行う行動選択制御システムをロボット装置の制御システムに適応した具体例について詳細に説明する。図１８は、上述の行動選択制御システム１００を含む制御システム１０の機能構成を示す模式図である。本具体例におけるロボット装置１は、上述したように、外部刺激の認識結果や内部状態の変化に応じて、行動制御を行なうことができるものである。更には、長期記憶機能を備え、外部刺激から内部状態の変化を連想記憶することにより、外部刺激の認識結果や内部状態の変化に応じて行動制御を行うことができる。
【０１１７】
即ち、上述したように、例えば、図２に示すカメラ１５から入力された画像に対して処理された色情報、形情報、顔情報等であり、より具体的には、色、形、顔、３Ｄ一般物体、ハンドジェスチャー、動き、音声、接触、匂い、味等の構成要素からなる外部刺激と、ロボット装置の身体に基づいた本能や感情等の情動を指す内部状態とに応じて行動価値ＡＬを算出し、行動を選択（生成）し、発現する。
【０１１８】
内部状態の本能的要素は、例えば、疲れ（ｆａｔｉｇｕｅ）、熱あるいは体内温度（ｔｅｍｐｅｒａｔｕｒｅ）、痛み（ｐａｉｎ）、食欲あるいは飢え（ｈｕｎｇｅｒ）、乾き（ｔｈｉｒｓｔ）、愛情（ａｆｆｅｃｔｉｏｎ）、好奇心（ｃｕｒｉｏｓｉｔｙ）、排泄（ｅｌｉｍｉｎａｔｉｏｎ）又は性欲（ｓｅｘｕａｌ）のうちの少なくとも１つである。また、情動的要素は、幸せ（ｈａｐｐｉｎｅｓｓ）、悲しみ（ｓａｄｎｅｓｓ）、怒り（ａｎｇｅｒ）、驚き（ｓｕｒｐｒｉｓｅ）、嫌悪（ｄｉｓｇｕｓｔ）、恐れ（ｆｅａｒ）、苛立ち（ｆｒｕｓｔｒａｔｉｏｎ）、退屈（ｂｏｒｅｄｏｍ）、睡眠（ｓｏｍｎｏｌｅｎｃｅ）、社交性（ｇｒｅｇａｒｉｏｕｓｎｅｓｓ）、根気（ｐａｔｉｅｎｃｅ）、緊張（ｔｅｎｓｅ）、リラックス（ｒｅｌａｘｅｄ）、警戒（ａｌｅｒｔｎｅｓｓ）、罪（ｇｕｉｌｔ）、悪意（ｓｐｉｔｅ）、誠実さ（ｌｏｙａｌｔｙ）、服従性（ｓｕｂｍｉｓｓｉｏｎ）又は嫉妬（ｊｅａｌｏｕｓｙ）等が挙げられる。
【０１１９】
図示の制御システム１０には、オブジェクト指向プログラミングを採り入れて実装することができる。この場合、各ソフトウェアは、データとそのデータに対する処理手続きとを一体化させた「オブジェクト」というモジュール単位で扱われる。また、各オブジェクトは、メッセージ通信と共有メモリを使ったオブジェクト間通信方法によりデータの受け渡しとＩｎｖｏｋｅを行なうことができる。
【０１２０】
行動制御システム１０は、外部環境（Ｅｎｖｉｒｏｎｍｅｎｔｓ）７０を認識するために、視覚認識機能部８１、聴覚認識機能部８２、及び接触認識機能部８３等からなる機能モジュールである上述の図４に示す外部刺激認識部８０を備えている。
【０１２１】
視覚認識機能部（Ｖｉｄｅｏ）８１は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ：電荷結合素子）カメラのような画像入力装置を介して入力された撮影画像を基に、顔認識や色認識等の画像認識処理や特徴抽出を行う。
【０１２２】
また、聴覚認識機能部（Ａｕｄｉｏ）８２は、マイク等の音声入力装置を介して入力される音声データを音声認識して、特徴抽出したり、単語セット（テキスト）認識を行ったりする。
【０１２３】
更に、接触認識機能部（Ｔａｃｔｉｌｅ）８３は、例えば機体の頭部等に内蔵された接触センサによるセンサ信号を認識して、「なでられた」とか「叩かれた」という外部刺激を認識する。
【０１２４】
内部状態管理部（ＩＳＭ：ＩｎｔｅｒｎａｌＳｔａｔｕｓＭａｎａｇｅｒ）９１は、本能や感情といった数種類の情動を数式モデル化して管理しており、上述の視覚認識機能部８１、聴覚認識機能部８２、及び接触認識機能部８３によって認識された外部刺激（ＥＳ：ＥｘｔｅｒｎａｌＳｔｉｍｕｌａ）に応じてロボット装置１の本能や情動といった内部状態を管理する。
【０１２５】
感情モデル及び本能モデル（感情・本能モデル）は、それぞれ認識結果と行動履歴を入力に持ち、夫々感情値と本能値を管理している。行動モデルは、これら感情値や本能値を参照することができる。
【０１２６】
また、外部刺激の認識結果や内部状態の変化に応じて行動制御を行なうために、時間の経過とともに失われる短期的な記憶を行なう短期記憶部（ＳＴＭ：ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）９２と、情報を比較的長期間保持するための長期記憶部（ＬＴＭ：ＬｏｎｇＴｅｒｍＭｅｍｏｒｙ）９３を備えている。短期記憶と長期記憶という記憶メカニズムの分類は神経心理学に依拠する。
【０１２７】
短期記憶部９２は、上述の視覚認識機能部８１、聴覚認識機能部８２及び接触認識機能部８３によって外部環境から認識されたターゲットやイベントを短期間保持する機能モジュールである。例えば、図２に示すカメラ１５からの入力画像を約１５秒程度の短い期間だけ記憶する。
【０１２８】
長期記憶部９３は、物の名前等学習により得られた情報を長期間保持するために使用される。長期記憶部９３は、例えば、ある行動記述モジュールにおいて外部刺激から内部状態の変化を連想記憶することができる。
【０１２９】
また、本ロボット装置１の行動制御は、反射行動部（ＲｅｆｌｅｘｉｖｅＳｉｔｕａｔｅｄＢｅｈａｖｉｏｒｓＬａｙｅｒ）１０３によって実現される「反射行動」と、状況依存行動階層（ＳＢＬ：ＳｉｔｕａｔｅｄＢｅｈａｖｉｏｒｓＬａｙｅｒ）１０２によって実現される「状況依存行動」と、熟考行動階層（ＤｅｌｉｂｅｒａｔｉｖｅＬａｙｅｒ）１０１によって実現される「熟考行動」に大別される。
【０１３０】
反射行動部１０３は、上述の視覚認識機能部８１、聴覚認識機能部８２、及び接触認識機能部８３によって認識された外部刺激に応じて反射的な機体動作を実現する機能モジュールである。反射行動とは、基本的に、センサ入力された外部情報の認識結果を直接受けて、これを分類して、出力行動を直接決定する行動のことである。例えば、人間の顔を追いかけたり、うなずいたりといった振る舞いは反射行動として実装することが好ましい。
【０１３１】
状況依存行動階層１０２は、短期記憶部９２及び長期記憶部９３の記憶内容や、内部状態管理部９１によって管理される内部状態を基に、ロボット装置１が現在置かれている状況に即応した行動を制御する。
【０１３２】
この状況依存行動階層１０２は、各行動（要素行動）毎にステートマシンを用意しており、それ以前の行動や状況に依存して、センサ入力された外部情報の認識結果を分類して、行動を機体上で発現する。また、状況依存行動階層１０２は、内部状態をある範囲に保つための行動（「ホメオスタシス行動」とも呼ぶ）も実現し、内部状態が指定した範囲内を越えた場合には、その内部状態を当該範囲内に戻すための行動が出現し易くなるようにその行動を活性化させる（実際には、内部状態と外部環境の両方を考慮した形で行動が選択される）。状況依存行動は、反射行動に比し、反応時間が遅い。この状況依存行動階層１０２が上述した図４に示す行動選択制御システム１００における要素行動１３２、行動価値算出部１２０、行動選択部１３０に相当し、上述した如く、内部状態と外部刺激とから行動価値ＡＬを算出し、これに基づき行動出力を行う。
【０１３３】
熟考行動階層１０１は、短期記憶部９２及び長期記憶部９３の記憶内容に基づいて、ロボット装置１の比較的長期にわたる行動計画等を行う。熟考行動とは、与えられた状況あるいは人間からの命令により、推論やそれを実現するための計画を立てて行われる行動のことである。例えば、ロボット装置の位置と目標の位置から経路を探索することは熟考行動に相当する。このような推論や計画は、ロボット装置１がインタラクションを保つための反応時間よりも処理時間や計算負荷を要する（すなわち処理時間がかかる）可能性があるので、上記の反射行動や状況依存行動がリアルタイムで反応を返しながら、熟考行動は推論や計画を行う。
【０１３４】
熟考行動階層１０１、状況依存行動階層１０２、及び反射行動部１０３は、ロボット装置１のハードウェア構成に非依存の上位のアプリケーション・プログラムとして記述することができる。これに対し、ハードウェア依存層制御部（ＣｏｎｆｉｇｕｒａｔｉｏｎＤｅｐｅｎｄｅｎｔＡｃｔｉｏｎｓＡｎｄＲｅａｃｔｉｏｎｓ）１０４は、これら上位アプリケーション、即ち、行動記述モジュール（スキーマ）からの命令に応じて、関節アクチュエータの駆動等の機体のハードウェア（外部環境）を直接操作する。このような構成により、ロボット装置１は、制御プログラムに基づいて自己及び周囲の状況を判断し、使用者からの指示及び働きかけに応じて自律的に行動できる。
【０１３５】
次に、行動制御システム１０について更に詳細に説明する。図１９は、本具体例における行動制御システム１０のオブジェクト構成を示す模式図である。
【０１３６】
図１９に示すように、視覚認識機能部８１は、ＦａｃｅＤｅｔｅｃｔｏｒ１１４、ＭｕｌｉｔＣｏｌｏｒＴｒａｃｋｅｒ１１３、ＦａｃｅＩｄｅｎｔｉｆｙ１１５という３つのオブジェクトで構成される。
【０１３７】
ＦａｃｅＤｅｔｅｃｔｏｒ１１４は、画像フレーム中から顔領域を検出するオブジェクトであり、検出結果をＦａｃｅＩｄｅｎｔｉｆｙ１１５に出力する。ＭｕｌｉｔＣｏｌｏｒＴｒａｃｋｅｒ１１３は、色認識を行うオブジェクトであり、認識結果をＦａｃｅＩｄｅｎｔｉｆｙ１１５及びＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ（ＳＴＭ）９２に出力する。また、ＦａｃｅＩｄｅｎｔｉｆｙ１１５は、検出された顔画像を手持ちの人物辞書で検索する等して人物の識別を行ない、顔画像領域の位置、大きさ情報とともに人物のＩＤ情報をＳＴＭ９２に出力する。
【０１３８】
聴覚認識機能部８２は、ＡｕｄｉｏＲｅｃｏｇ１１１とＳｐｅｅｃｈＲｅｃｏｇ１１２という２つのオブジェクトで構成される。ＡｕｄｉｏＲｅｃｏｇ１１１は、マイク等の音声入力装置からの音声データを受け取って、特徴抽出と音声区間検出を行うオブジェクトであり、音声区間の音声データの特徴量及び音源方向をＳｐｅｅｃｈＲｅｃｏｇ１１２やＳＴＭ９２に出力する。ＳｐｅｅｃｈＲｅｃｏｇ１１２は、ＡｕｄｉｏＲｅｃｏｇ１１１から受け取った音声特徴量と音声辞書及び構文辞書を使って音声認識を行うオブジェクトであり、認識された単語のセットをＳＴＭ９２に出力する。
【０１３９】
触覚認識記憶部８３は、接触センサからのセンサ入力を認識するＴａｃｔｉｌｅＳｅｎｓｏｒ１１９というオブジェクトで構成され、認識結果はＳＴＭ９２や内部状態を管理するオブジェクトであるＩｎｔｅｒｎａｌＳｔａｔｅＭｏｄｅｌ（ＩＳＭ）９１に出力する。
【０１４０】
ＳＴＭ９２は、短期記憶部を構成するオブジェクトであり、上述の認識系の各オブジェクトによって外部環境から認識されたターゲットやイベントを短期間保持（例えばカメラ１５からの入力画像を約１５秒程度の短い期間だけ記憶する）する機能モジュールであり、ＳＴＭクライアントであるＳＢＬ１０２に対して外部刺激の通知（Ｎｏｔｉｆｙ）を定期的に行なう。
【０１４１】
ＬＴＭ９３は、長期記憶部を構成するオブジェクトであり、物の名前等学習により得られた情報を長期間保持するために使用される。ＬＴＭ９３は、例えば、ある行動記述モジュール（スキーマ）において外部刺激から内部状態の変化を連想記憶することができる。
【０１４２】
ＩＳＭ９１は、内部状態管理部を構成するオブジェクトであり、本能や感情といった数種類の情動を数式モデル化して管理しており、上述の認識系の各オブジェクトによって認識された外部刺激（ＥＳ：ＥｘｔｅｒｎａｌＳｔｉｍｕｌａ）に応じてロボット装置１の本能や情動といった内部状態を管理する。
【０１４３】
ＳＢＬ１０２は状況依存型行動階層を構成するオブジェクトである。ＳＢＬ１０２は、ＳＴＭ９２のクライアント（ＳＴＭクライアント）となるオブジェクトであり、ＳＴＭ９２からは定期的に外部刺激（ターゲットやイベント）に関する情報の通知（Ｎｏｔｉｆｙ）を受け取ると、スキーマ（Ｓｃｈｅｍａ）すなわち実行すべき行動記述モジュールを決定する（後述）。
【０１４４】
ＲｅｆｌｅｘｉｖｅＳＢＬ（ＳｉｔｕａｔｅｄＢｅｈａｖｉｏｒｓＬａｙｅｒ）１０３は、反射的行動部を構成するオブジェクトであり、上述した認識系の各オブジェクトによって認識された外部刺激に応じて反射的・直接的な機体動作を実行する。例えば、人間の顔を追いかけたり、うなずく、障害物の検出により咄嗟に避けるといった振る舞いを行なう。
【０１４５】
ＳＢＬ１０２は外部刺激や内部状態の変化等の状況に応じた動作を選択する。これに対し、ＲｅｆｌｅｘｉｖｅＳＢＬ１０３は、外部刺激に応じて反射的な動作を選択する。これら２つのオブジェクトによる行動選択は独立して行なわれるため、互いに選択された行動記述モジュール（スキーマ）を機体上で実行する場合に、ロボット装置１のハードウェア・リソースが競合して実現不可能なこともある。ＲＭ（ＲｅｓｏｕｒｃｅＭａｎａｇｅｒ）１１６というオブジェクトは、ＳＢＬ１０２とＲｅｆｌｅｘｉｖｅＳＢＬ１０３とによる行動選択時のハードウェアの競合を調停する。そして、調停結果に基づいて機体動作を実現する各オブジェクトに通知することにより機体が駆動する。
【０１４６】
ＳｏｕｎｄＰｅｒｆｏｒｍｅｒ１７２、ＭｏｔｉｏｎＣｏｎｔｒｏｌｌｅｒ１７３、ＬＥＤＣｏｎｔｒｏｌｌｅｒ１７４は、機体動作を実現するオブジェクトである。ＳｏｕｎｄＰｅｒｆｏｒｍｅｒ１７２は、音声出力を行うためのオブジェクトであり、ＲＭ１１６経由でＳＢＬ１０２から与えられたテキスト・コマンドに応じて音声合成を行い、ロボット装置１の機体上のスピーカから音声出力を行う。また、ＭｏｔｉｏｎＣｏｎｔｒｏｌｌｅｒ１７３は、機体上の各関節アクチュエータの動作を行なうためのオブジェクトであり、ＲＭ１１６経由でＳＢＬ１０２から手や脚等を動かすコマンドを受けたことに応答して、該当する関節角を計算する。また、ＬＥＤＣｏｎｔｒｏｌｌｅｒ１７４は、ＬＥＤ１９の点滅動作を行なうためのオブジェクトであり、ＲＭ１１６経由でＳＢＬ１０２からコマンドを受けたことに応答してＬＥＤ１９の点滅駆動を行なう。
【０１４７】
（５−１）状況依存行動制御
次に、上述の具体例において説明したように、行動価値ＡＬを算出し、発現する行動を選択する状況依存行動階層について更に詳細に説明する。図２０には、状況依存行動階層（ＳＢＬ）（但し、反射行動部を含む）による状況依存行動制御の形態を模式的に示している。視覚認識機能部８１、聴覚認識機能部８２、及び接触認識機能部８３からなる外部刺激認識部８０における外部環境７０の認識結果（センサ情報）１８２は、外部刺激１８３として状況依存行動階層（反射行動部１０３を含む）１０２ａに与えられる。また、外部刺激認識部８０による外部環境７０の認識結果に応じた内部状態の変化１８４も状況依存行動階層１０２ａに与えられる。そして、状況依存行動階層１０２ａでは、外部刺激１８３や内部状態の変化１８４に応じて状況を判断して、行動選択を実現することができる。状況依存行動階層１０２ａでは、上述した如く、外部刺激１８３や内部状態の変化１８４によって各行動記述モジュール（スキーマ）の行動価値ＡＬを算出して、行動価値ＡＬの大きさに応じてスキーマを選択して行動（動作）を実行する。行動価値ＡＬの算出には、例えばライブラリを利用することにより、すべてのスキーマについて統一的な計算処理を行なうことができる。ライブラリには、例えば上述したように、内部状態ベクトルから欲求ベクトルを算出する関数、内部状態ベクトルから満足度ベクトルを算出する関数、及び外部刺激から予想内部状態変化ベクトルを予想するための行動評価データベース等が保存されている。
【０１４８】
（５−２）スキーマ
図２１には、状況依存行動階層１０２が複数のスキーマ１３２によって構成されている様子を模式的に示している。状況依存行動階層１０２は、上述した要素行動として、行動記述モジュールを有し、各行動記述モジュール毎にステートマシンを用意しており、それ以前の行動（動作）や状況に依存して、センサ入力された外部情報の認識結果を分類し、動作を機体上で発現する。要素行動となる行動記述モジュールは、外部刺激や内部状態に応じた状況判断を行なうＭｏｎｉｔｏｒ機能と、行動実行に伴う状態遷移（ステートマシン）を実現するＡｃｔｉｏｎ機能とを備えたスキーマ（Ｓｃｈｅｍａ）１３２として記述される。
【０１４９】
状況依存行動階層１０２ｂ（より厳密には、状況依存行動階層１０２のうち、通常の状況依存行動を制御する階層）は、複数のスキーマ１３２が階層的に連結されたツリー構造として構成され、外部刺激や内部状態の変化に応じてより最適なスキーマ１３２を統合的に判断して行動制御を行なうようになっている。このツリー１３１は、例えば動物行動学的（Ｅｔｈｏｌｏｇｉｃａｌ）な状況依存行動を数式化した行動モデルや、感情表現を実行するためのサブツリー等、複数のサブツリー（又は枝）を含んでいる。
【０１５０】
図２２には、状況依存行動階層１０２におけるスキーマのツリー構造を模式的に示している。同図に示すように、状況依存行動階層１０２は、短期記憶部９２から外部刺激の通知（Ｎｏｔｉｆｙ）を受けるルート・スキーマ２０１_１、２０２_１、２０３_１を先頭に、抽象的な行動カテゴリから具体的な行動カテゴリに向かうように、各階層毎にスキーマが配設されている。例えば、ルート・スキーマの直近下位の階層では、「探索する（Ｉｎｖｅｓｔｉｇａｔｅ）」、「食べる（Ｉｎｇｅｓｔｉｖｅ）」、「遊ぶ（Ｐｌａｙ）」というスキーマ２０１_２、２０２_２、２０３_２が配設される。そして、スキーマ２０１_２「探索する（Ｉｎｖｅｓｔｉｇａｔｅ）」の下位には、「ＩｎｖｅｓｔｉｇａｔｉｖｅＬｏｃｏｍｏｔｉｏｎ」、「ＨｅａｄｉｎＡｉｒＳｎｉｆｆｉｎｇ」、「ＩｎｖｅｓｔｉｇａｔｉｖｅＳｎｉｆｆｉｎｇ」というより具体的な探索行動を記述した複数のスキーマ２０１_３が配設されている。同様に、スキーマ２０２_２「食べる（Ｉｎｇｅｓｔｉｖｅ）」の下位には「Ｅａｔ」や「Ｄｒｉｎｋ」等のより具体的な飲食行動を記述した複数のスキーマ２０２_３が配設され、スキーマ２０３_２「遊ぶ（Ｐｌａｙ）」の下位には「ＰｌａｙＢｏｗｉｎｇ」、「ＰｌａｙＧｒｅｅｔｉｎｇ」、「ＰｌａｙＰａｗｉｎｇ」等のより具体的な遊ぶ行動を記述した複数のスキーマ２０３_３が配設されている。
【０１５１】
図示の通り、各スキーマは外部刺激１８３と内部状態（の変化）１８４を入力している。また、各スキーマは、少なくともＭｏｎｉｔｏｒ関数とＡｃｔｉｏｎと関数を備えている。
【０１５２】
ここで、Ｍｏｎｉｔｏｒ関数とは、外部刺激１８３と内部状態１８４に応じて当該スキーマの行動価値ＡＬを算出する関数であり、各スキーマは、このような行動価値算出手段としてのＭｏｎｉｔｏｒ機能を有する。図２２に示すようなツリー構造を構成する場合、上位（親）のスキーマは外部刺激１８３と内部状態１８４を引数として下位（子供）のスキーマのＭｏｎｉｔｏｒ関数をコールすることができ、子供のスキーマは行動価値ＡＬを返り値とする。また、スキーマは自分の行動価値ＡＬを算出するために、更に子供のスキーマのＭｏｎｉｔｏｒ関数をコールすることができる。そして、ルートのスキーマには各サブツリーからの行動価値ＡＬが返されるので、外部刺激と内部状態の変化に応じた最適なスキーマすなわち行動を統合的に判断することができる。ここで、ルート・スキーマを上述の行動選択部とし、これにより、スキーマを選択するようにしてもよい。なお、例えば後述するリソース・マネージャＲＭ１１６や、別に設けた行動選択部により、各スキーマの行動価値ＡＬを観察し、各行動価値ＡＬの値に基づき行動を選択してもよいことはもちろんである。
【０１５３】
行動選択部では、上述したように、例えば行動価値ＡＬが最も高いスキーマを選択したり、行動価値ＡＬが所定の閾値を越えた２以上のスキーマを選択して並列的に行動実行するようにしてもよい（但し、並列実行するときは各スキーマどうしでハードウェア・リソースの競合がないことを前提とする）。
【０１５４】
また、Ａｃｔｉｏｎ関数は、スキーマ自身が持つ行動を記述したステートマシンを備えている。図２２に示すようなツリー構造を構成する場合、親スキーマは、Ａｃｔｉｏｎ関数をコールして、子供スキーマの実行を開始したり中断させたりすることができる。本具体例では、ＡｃｔｉｏｎのステートマシンはＲｅａｄｙにならないと初期化されない。言い換えれば、中断しても状態はリセットされず、スキーマが実行中の作業データを保存することから、中断再実行が可能である。
【０１５５】
図２３には、状況依存行動階層１０２において通常の状況依存行動を制御するためのメカニズムを模式的に示している。
【０１５６】
同図に示すように、状況依存行動階層（ＳＢＬ）１０２には、短期記憶部（ＳＴＭ）９２から外部刺激１８３が入力（Ｎｏｔｉｆｙ）されるとともに、内部状態管理部９１から内部状態の変化１８４が入力される。状況依存行動階層１０２は、例えば動物行動学的（Ｅｔｈｏｌｏｇｉｃａｌ）な状況依存行動を数式化した行動モデルや、感情表現を実行するためのサブツリー等、複数のサブツリーで構成されており、ルート・スキーマは、外部刺激１８３の通知（Ｎｏｔｉｆｙ）に応答して、各サブツリーのＭｏｎｉｔｏｒ関数をコールし、その返り値としての行動価値ＡＬを参照して、統合的な行動選択を行ない、選択された行動を実現するサブツリーに対してＡｃｔｉｏｎ関数をコールする。また、状況依存行動階層１０２において決定された状況依存行動は、リソース・マネージャＲＭ１１６により反射行動部１０３による反射的行動とのハードウェア・リソースの競合の調停を経て、機体動作（ＭｏｔｉｏｎＣｏｎｔｒｏｌｌｅｒ）に適用される。
【０１５７】
また、反射的行動部１０３は、上述した認識系の各オブジェクトによって認識された外部刺激１８３に応じて、例えば、障害物の検出により咄嗟に避ける等、反射的・直接的な機体動作を実行する。このため、図２２に示す通常の状況依存行動を制御する場合とは相違し、図２１に示すように、認識系の各オブジェクトからの信号を直接入力する複数のスキーマ１３３が階層化されずに並列的に配置されている。
【０１５８】
図２４には、反射行動部１０３におけるスキーマの構成を模式的に示している。同図に示すように、反射行動部１０３には、聴覚系の認識結果に応答して動作するスキーマとしてＡｖｏｉｄＢｉｇＳｏｕｎｄ２０４、ＦａｃｅｔｏＢｉｇＳｏｕｎｄ２０５及びＮｏｄｄｉｎｇＳｏｕｎｄ２０９、視覚系の認識結果に応答して動作するスキーマとしてＦａｃｅｔｏＭｏｖｉｎｇＯｂｊｅｃｔ２０６及びＡｖｏｉｄＭｏｖｉｎｇＯｂｊｅｃｔ２０７、並びに、触覚系の認識結果に応答して動作するスキーマとして手を引っ込める２０８が、それぞれ対等な立場で（並列的に）配設されている。
【０１５９】
図示の通り、反射的行動を行なう各スキーマは外部刺激１８３を入力に持つ。また、各スキーマは、少なくともＭｏｎｉｔｏｒ関数とＡｃｔｉｏｎ関数を備えている。Ｍｏｎｉｔｏｒ関数は、外部刺激１８３に応じて当該スキーマの行動価値ＡＬを算出して、これに応じて該当する反射的行動を発現すべきかどうかが判断される。また、Ａｃｔｉｏｎ関数は、スキーマ自身が持つ反射的行動を記述したステートマシン（後述）を備えており、コールされることにより、該当する反射的行動を発現するとともにＡｃｔｉｏｎの状態を遷移させていく。
【０１６０】
図２５には、反射行動部１０３において反射的行動を制御するためのメカニズムを模式的に示している。図２４にも示したように、反射行動部１０３内には、反応行動を記述したスキーマや、即時的な応答行動を記述したスキーマが並列的に存在している。認識系の機能モジュール８０を構成する各オブジェクトから認識結果が入力されると、対応する反射行動スキーマがＡｏｎｉｔｏｒ関数により行動価値ＡＬを算出し、その値に応じてＡｃｔｉｏｎを軌道すべきかどうかが判断される。そして、反射行動部１０３において起動が決定された反射的行動は、リソース・マネージャＲＭ１１６により状況依存行動階層１０２による状況依存行動とのハードウェア・リソースの競合の調停を経て、機体動作（ＭｏｔｉｏｎＣｏｎｔｒｏｌｌｅｒ１７３）に適用される。
【０１６１】
このような状況依存行動階層１０２及び反射行動部１０３を構成するスキーマは、例えばＣ＋＋言語ベースで記述される「クラス・オブジェクト」として記述することができる。図２６には、状況依存行動階層１０２において使用されるスキーマのクラス定義を模式的に示している。同図に示されている各ブロックはそれぞれ１つのクラス・オブジェクトに相当する。
【０１６２】
図示の通り、状況依存行動階層（ＳＢＬ）１０２は、１以上のスキーマと、ＳＢＬ１０２の入出力イベントに対してＩＤを割り振るＥｖｅｎｔＤａｔａＨａｎｄｌｅｒ（ＥＤＨ）２１１と、ＳＢＬ１０２内のスキーマを管理するＳｃｈｅｍａＨａｎｄｌｅｒ（ＳＨ）２１２と、外部オブジェクト（ＳＴＭやＬＴＭ、リソース・マネージャ、認識系の各オブジェクト等）からデータを受信する１以上のＲｅｃｅｉｖｅＤａｔａＨａｎｄｌｅｒ（ＲＤＨ）２１３と、外部オブジェクトにデータを送信する１以上のＳｅｎｄＤａｔａＨａｎｄｌｅｒ（ＳＤＨ）２１４とを備えている。
【０１６３】
ＳｃｈｅｍａＨａｎｄｌｅｒ２１２は、状況依存行動階層（ＳＢＬ）１０２や反射行動部１０３を構成する各スキーマやツリー構造等の情報（ＳＢＬのコンフィギュレーション情報）をファイルとして保管している。例えばシステムの起動時等に、ＳｃｈｅｍａＨａｎｄｌｅｒ２１２は、このコンフィギュレーション情報ファイルを読み込んで、図２２に示したような状況依存行動階層１０２のスキーマ構成を構築（再現）して、メモリ空間上に各スキーマのエンティティをマッピングする。
【０１６４】
各スキーマは、スキーマのベースとして位置付けられるＯｐｅｎＲ＿Ｇｕｅｓｔ２１５を備えている。ＯｐｅｎＲ＿Ｇｕｅｓｔ２１５は、スキーマが外部にデータを送信するためのＤｓｕｂｊｅｃｔ２１６、並びに、スキーマが外部からデータを受信するためのＤＯｂｊｅｃｔ２１７というクラス・オブジェクトをそれぞれ１以上備えている。例えば、スキーマが、ＳＢＬ１０２の外部オブジェクト（ＳＴＭやＬＴＭ、認識系の各オブジェクト等）にデータを送るときには、Ｄｓｕｂｊｅｃｔ２１６はＳｅｎｄＤａｔａＨａｎｄｌｅｒ２１４に送信データを書き込む。また、ＤＯｂｊｅｃｔ２１７は、ＳＢＬ１０２の外部オブジェクトから受信したデータをＲｅｃｅｉｖｅＤａｔａＨａｎｄｌｅｒ２１３から読み取ることができる。
【０１６５】
ＳｃｈｅｍａＭａｎａｇｅｒ２１８及びＳｃｈｅｍａＢａｓｅ２１９は、ともにＯｐｅｎＲ＿Ｇｕｅｓｔ２１５を継承したクラス・オブジェクトである。クラス継承は、元のクラスの定義を受け継ぐことであり、この場合、ＯｐｅｎＲ＿Ｇｕｅｓｔ２１５で定義されているＤｓｕｂｊｅｃｔ２１６やＤＯｂｊｅｃｔ２１７等のクラス・オブジェクトをＳｃｈｅｍａＭａｎａｇｅｒＢａｓｅ２１８やＳｃｈｅｍａＢａｓｅ２１９も備えていることを意味する（以下、同様）。例えば図２２に示すように複数のスキーマがツリー構造になっている場合、ＳｃｈｅｍａＭａｎａｇｅｒＢａｓｅ２１８は、子供のスキーマのリストを管理するクラス・オブジェクトＳｃｈｅｍａＬｉｓｔ２２０を持ち（子供のスキーマへのポインタを持ち）、子供スキーマの関数をコールすることができる。また、ＳｃｈｅｍａＢａｓｅ２１９は、親スキーマへのポインタを持ち、親スキーマからコールされた関数の返り値を戻すことができる。
【０１６６】
ＳｃｈｅｍａＢａｓｅ２１９は、ＳｔａｔｅＭａｃｈｉｎｅ２２１及びＰｒｏｎｏｍｅ２２２という２つのクラス・オブジェクトを持つ。ＳｔａｔｅＭａｃｈｉｎｅ２２１は当該スキーマの行動（Ａｃｔｉｏｎ関数）についてのステートマシンを管理している。親スキーマは子供スキーマのＡｃｔｉｏｎ関数のステートマシンを切り替える（状態遷移させる）ことができる。また、Ｐｒｏｎｏｍｅ２２２には、当該スキーマが行動（Ａｃｔｉｏｎ関数）を実行又は適用するターゲットを代入する。後述するように、スキーマはＰｒｏｎｏｍｅ２２２に代入されたターゲットによって占有され、行動（動作）が終了（完結、異常終了等）するまでスキーマは解放されない。新規のターゲットのために同じ行動を実行するためには同じクラス定義のスキーマをメモリ空間上に生成する。この結果、同じスキーマをターゲット毎に独立して実行することができ（個々のスキーマの作業データが干渉し合うことはなく）、後述する行動のＲｅｅｎｔｒａｎｃｅ性が確保される。
【０１６７】
ＰａｒｅｎｔＳｃｈｅｍａＢａｓｅ２２３は、ＳｃｈｅｍａＭａｎａｇｅｒ２１８及びＳｃｈｅｍａＢａｓｅ２１９を多重継承するクラス・オブジェクトであり、スキーマのツリー構造において、当該スキーマ自身についての親スキーマ及び子供スキーマすなわち親子関係を管理する。
【０１６８】
ＩｎｔｅｒｍｅｄｉａｔｅＰａｒｅｎｔＳｃｈｅｍａＢａｓｅ２２４は、ＰａｒｅｎｔＳｃｈｅｍａＢａｓｅ２２３を継承するクラス・オブジェクトであり、各クラスのためのインターフェース変換を実現する。また、ＩｎｔｅｒｍｅｄｉａｔｅＰａｒｅｎｔＳｃｈｅｍａＢａｓｅ２２４は、ＳｃｈｅｍａＳｔａｔｕｓＩｎｆｏ２２５を持つ。このＳｃｈｅｍａＳｔａｔｕｓＩｎｆｏ２２５は、当該スキーマ自身のステートマシンを管理するクラス・オブジェクトである。親スキーマは、子供スキーマのＡｃｔｉｏｎ関数をコールすることによってそのステートマシンの状態を切り換えることができる。また、子供スキーマのＭｏｎｉｔｏｒ関数をコールしてそのステートマシンの常態に応じた行動価値ＡＬを問うことができる。但し、スキーマのステートマシンは、前述したＡｃｔｉｏｎ関数のステートマシンとは異なるということを留意されたい。
【０１６９】
ＡｎｄＰａｒｅｎｔＳｃｈｅｍａ２２６、ＮｕｍＯｒＰａｒｅｎｔＳｃｈｅｍａ２２７、ＯｒＰａｒｅｎｔＳｃｈｅｍａ２２８は、ＩｎｔｅｒｍｅｄｉａｔｅＰａｒｅｎｔＳｃｈｅｍａＢａｓｅ２２４を継承するクラス・オブジェクトである。ＡｎｄＰａｒｅｎｔＳｃｈｅｍａ２２６は、同時実行する複数の子供スキーマへのポインタを持つ。ＯｒＰａｒｅｎｔＳｃｈｅｍａ２２８は、いずれか択一的に実行する複数の子供スキーマへのポインタを持つ。また、ＮｕｍＯｒＰａｒｅｎｔＳｃｈｅｍａ２２７は、所定数のみを同時実行する複数の子供スキーマへのポインタを持つ。
【０１７０】
ＰａｒｅｎｔＳｃｈｅｍａ２２９は、これらＡｎｄＰａｒｅｎｔＳｃｈｅｍａ２２６、ＮｕｍＯｒＰａｒｅｎｔＳｃｈｅｍａ２２７、ＯｒＰａｒｅｎｔＳｃｈｅｍａ２２８を多重継承するクラス・オブジェクトである。
【０１７１】
図２７には、状況依存行動階層（ＳＢＬ）１０２内のクラスの機能的構成を模式的に示している。状況依存行動階層（ＳＢＬ）１０２は、ＳＴＭやＬＴＭ、リソース・マネージャ、認識系の各オブジェクト等外部オブジェクトからデータを受信する１以上のＲｅｃｅｉｖｅＤａｔａＨａｎｄｌｅｒ（ＲＤＨ）２１３と、外部オブジェクトにデータを送信する１以上のＳｅｎｄＤａｔａＨａｎｄｌｅｒ（ＳＤＨ）２１４とを備えている。
【０１７２】
ＥｖｅｎｔＤａｔａＨａｎｄｌｅｒ（ＥＤＨ）２１１は、ＳＢＬ１０２の入出力イベントに対してＩＤを割り振るためのクラス・オブジェクトであり、ＲＤＨ２１３やＳＤＨ２１４から入出力イベントの通知を受ける。
【０１７３】
ＳｃｈｅｍａＨａｎｄｌｅｒ２１２は、スキーマを管理するためのクラス・オブジェクトであり、ＳＢＬ１０２を構成するスキーマのコンフィギュレーション情報をファイルとして保管している。例えばシステムの起動時等に、ＳｃｈｅｍａＨａｎｄｌｅｒ２１２は、このコンフィギュレーション情報ファイルを読み込んで、ＳＢＬ１０２内のスキーマ構成を構築する。
【０１７４】
各スキーマは、図２６に示したクラス定義に従って生成され、メモリ空間上にエンティティがマッピングされる。各スキーマは、ＯｐｅｎＲ＿Ｇｕｅｓｔ２１５をベースのクラス・オブジェクトとし、外部にデータ・アクセスするためのＤＳｕｂｊｅｃｔ２１６やＤＯｂｊｅｃｔ２１７等のクラス・オブジェクトを備えている。
【０１７５】
スキーマが主に持つ関数とステートマシンを以下に示しておく。以下の関数は、ＳｃｈｅｍａＢａｓｅ２１９で記述されている。
ＡｃｔｉｖａｔｉｏｎＭｏｎｉｔｏｒ（）：スキーマがＲｅａｄｙ時にＡｃｔｉｖｅになるための評価関数
Ａｃｔｉｏｎｓ（）：Ａｃｔｉｖｅ時の実行用ステートマシン
Ｇｏａｌ（）：Ａｃｔｉｖｅ時にスキーマがＧｏａｌに達したかを評価する関数
Ｆａｉｌ（）：Ａｃｔｉｖｅ時にスキーマがｆａｉｌ状態かを判定する関数
ＳｌｅｅｐＡｃｔｉｏｎｓ（）：Ｓｌｅｅｐ前に実行されるステートマシン
ＳｌｅｅｐＭｏｎｉｔｏｒ（）：Ｓｌｅｅｐ時にＲｅｓｕｍｅするための評価関数
ＲｅｓｕｍｅＡｃｔｉｏｎｓ（）：Ｒｅｓｕｍｅ前にＲｅｓｕｍｅするためのステートマシン
ＤｅｓｔｒｏｙＭｏｎｉｔｏｒ（）：Ｓｌｅｅｐ時にスキーマがｆａｉｌ状態か判定する評価関数
ＭａｋｅＰｒｏｎｏｍｅ（）：ツリー全体のターゲットを決定する関数
（５−３）状況依存行動階層の機能
状況依存行動階層（ＳＢＬ）１０２は、短期記憶部９２及び長期記憶部９３の記憶内容や、内部状態管理部９１によって管理される内部状態を基に、ロボット装置１が現在置かれている状況に即応した動作を制御する。
【０１７６】
前項で述べたように、本具体例における状況依存行動階層１０２は、スキーマのツリー構造（図２２を参照のこと）で構成されている。各スキーマは、自分の子供と親の情報を知っている状態で独立性を保っている。このようなスキーマ構成により、状況依存行動階層１０２は、Ｃｏｎｃｕｒｒｅｎｔな評価、Ｃｏｎｃｕｒｒｅｎｔな実行、Ｐｒｅｅｍｐｔｉｏｎ、Ｒｅｅｎｔｒａｎｔという主な特徴を持っている。以下、これらの特徴について詳解する。
【０１７７】
（５−３−１）Ｃｏｎｃｕｒｒｅｎｔな評価：
行動記述モジュールとしてのスキーマは外部刺激や内部状態の変化に応じた状況判断を行なうＭｏｎｉｔｏｒ機能を備えていることは既に述べた。Ｍｏｎｉｔｏｒ機能は、スキーマがクラス・オブジェクトＳｃｈｅｍａＢａｓｅでＭｏｎｉｔｏｒ関数を備えていることにより実装されている。Ｍｏｎｉｔｏｒ関数とは、外部刺激と内部状態に応じて当該スキーマの行動価値ＡＬを算出する関数である。
【０１７８】
図２２に示すようなツリー構造を構成する場合、上位（親）のスキーマは外部刺激１８３と内部状態の変化１８４を引数として下位（子供）のスキーマのＭｏｎｉｔｏｒ関数をコールすることができ、子供のスキーマは行動価値ＡＬを返り値とする。また、スキーマは自分の行動価値ＡＬを算出するために、更に子供のスキーマのＭｏｎｉｔｏｒ関数をコールすることができる。そして、ルートのスキーマ２０１_１〜２０３_１には各サブツリーからの行動価値ＡＬが返されるので、外部刺激１８３と内部状態の変化１８４に応じた最適なスキーマすなわち動作を統合的に判断することができる。
【０１７９】
このようにツリー構造になっていることから、外部刺激１８３と内部状態の変化１８４による各スキーマの評価は、まずツリー構造の下から上に向かってＣｏｎｃｕｒｒｅｎｔに行なわれる。即ち、スキーマに子供スキーマがある場合には、選択した子供のＭｏｎｉｔｏｒ関数をコールしてから、自身のＭｏｎｉｔｏｒ関数を実行する。次いで、ツリー構造の上から下に向かって評価結果としての実行許可を渡していく。評価と実行は、その動作が用いるリソースの競合を解きながら行なわれる。
【０１８０】
本具体例における状況依存行動階層１０２は、スキーマのツリー構造を利用して、並列的に行動の評価を行なうことができるので、外部刺激１８３や内部状態の変化１８４等の状況に対しての適応性がある。また、評価時には、ツリー全体に関しての評価を行ない、このとき算出される行動価値ＡＬによりツリーが変更されるので、スキーマすなわち実行する動作を動的にプライオリタイズすることができる。
【０１８１】
（５−３−２）Ｃｏｎｃｕｒｒｅｎｔな実行：
ルートのスキーマには各サブツリーからの行動価値ＡＬが返されるので、外部刺激１８３と内部状態の変化１８４に応じた最適なスキーマすなわち動作を統合的に判断することができる。例えば行動価値ＡＬが最も高いスキーマを選択したり、行動価値ＡＬが所定の閾値を越えた２以上のスキーマを選択して並列的に行動実行するようにしてもよい（但し、並列実行するときは各スキーマどうしでハードウェア・リソースの競合がないことを前提とする）。
【０１８２】
選択され、実行許可をもらったスキーマは実行される。すなわち、実際にそのスキーマは更に詳細の外部刺激１８３や内部状態の変化１８４を観測して、コマンドを実行する。実行に関しては、ツリー構造の上から下に向かって順次すなわちＣｏｎｃｕｒｒｅｎｔに行なわれる。即ち、スキーマに子供スキーマがある場合には、子供のＡｃｔｉｏｎｓ関数を実行する。
【０１８３】
Ａｃｔｉｏｎ関数は、スキーマ自身が持つ行動（動作）を記述したステートマシンを備えている。図２２に示すようなツリー構造を構成する場合、親スキーマは、Ａｃｔｉｏｎ関数をコールして、子供スキーマの実行を開始したり中断させたりすることができる。
【０１８４】
本具体例における状況依存行動階層（ＳＢＬ）１０２は、スキーマのツリー構造を利用して、リソースが競合しない場合には、余ったリソースを使う他のスキーマを同時に実行することができる。但し、Ｇｏａｌまでに使用するリソースに対して制限を加えないと、ちぐはぐな行動出現が起きる可能性がある。状況依存行動階層１０２において決定された状況依存行動は、リソース・マネージャにより反射行動部（ＲｅｆｌｅｘｉｖｅＳＢＬ）１０３による反射的行動とのハードウェア・リソースの競合の調停を経て、機体動作（ＭｏｔｉｏｎＣｏｎｔｒｏｌｌｅｒ）に適用される。
【０１８５】
（５−３−３）Ｐｒｅｅｍｐｔｉｏｎ：
１度実行に移されたスキーマであっても、それよりも重要な（優先度の高い）行動があれば、スキーマを中断してそちらに実行権を渡さなければならない。また、より重要な行動が終了（完結又は実行中止等）したら、元のスキーマを再開して実行を続けることも必要である。
【０１８６】
このような優先度に応じたタスクの実行は、コンピュータの世界におけるＯＳ（オペレーティング・システム）のＰｒｅｅｍｐｔｉｏｎと呼ばれる機能に類似している。ＯＳでは、スケジュールを考慮するタイミングで優先度のより高いタスクを順に実行していくという方針である。
【０１８７】
これに対し、本具体例におけるロボット装置１の制御システム１０は、複数のオブジェクトにまたがるため、オブジェクト間での調停が必要になる。例えば反射行動を制御するオブジェクトである反射行動部１０３は、上位の状況依存行動を制御するオブジェクトである状況依存行動階層１０２の行動評価を気にせずに物を避けたり、バランスをとったりする必要がある。これは、実際に実行権を奪い取り実行を行なう訳であるが、上位の行動記述モジュール（ＳＢＬ）に、実行権利が奪い取られたことを通知して、上位はその処理を行なうことによってＰｒｅｅｍｐｔｉｖｅな能力を保持する。
【０１８８】
また、状況依存行動層１０２内において、外部刺激１８３と内部状態の変化１８４に基づく行動価値ＡＬの評価の結果、あるスキーマに実行許可がなされたとする。更に、その後の外部刺激１８３と内部状態の変化１８４に基づく行動価値ＡＬの評価により、別のスキーマの重要度の方がより高くなったとする。このような場合、実行中のスキーマのＡｃｔｉｏｎｓ関数を利用してＳｌｅｅｐ状態にして中断することにより、Ｐｒｅｅｍｐｔｉｖｅな行動の切り替えを行なうことができる。
【０１８９】
実行中のスキーマのＡｃｔｉｏｎｓ（）の状態を保存して、異なるスキーマのＡｃｔｉｏｎｓ（）を実行する。また、異なるスキーマのＡｃｔｉｏｎｓ（）が終了した後、中断されたスキーマのＡｃｔｉｏｎｓ（）を再度実行することができる。
【０１９０】
また、実行中のスキーマのＡｃｔｉｏｎｓ（）を中断して、異なるスキーマに実行権が移動する前に、ＳｌｅｅｐＡｃｔｉｏｎｓ（）を実行する。例えば、ロボット装置１は、対話中にサッカーボールを見つけると、「ちょっと待ってね」と言って、サッカーすることができる。
【０１９１】
（５−３−４）Ｒｅｅｎｔｒａｎｔ：
状況依存行動階層１０２を構成する各スキーマは、一種のサブルーチンである。スキーマは、複数の親からコールされた場合には、その内部状態を記憶するために、それぞれの親に対応した記憶空間を持つ必要がある。
【０１９２】
これは、コンピュータの世界では、ＯＳが持つＲｅｅｎｔｒａｎｔ性に類似しており、本明細書ではスキーマのＲｅｅｎｔｒａｎｔ性と呼ぶ。図２７に示したように、スキーマはクラス・オブジェクトで構成されており、クラス・オブジェクトのエンティティすなわちインスタンスをターゲット（Ｐｒｏｎｏｍｅ）毎に生成することによりＲｅｅｎｔｒａｎｔ性が実現される。
【０１９３】
スキーマのＲｅｅｎｔｒａｎｔ性について、図２８を参照しながらより具体的に説明する。ＳｃｈｅｍａＨａｎｄｌｅｒ２１２は、スキーマを管理するためのクラス・オブジェクトであり、ＳＢＬ１０２を構成するスキーマのコンフィギュレーション情報をファイルとして保管している。システムの起動時に、ＳｃｈｅｍａＨａｎｄｌｅｒ２１２は、このコンフィギュレーション情報ファイルを読み込んで、ＳＢＬ１０２内のスキーマ構成を構築する。図２８に示す例では、Ｅａｔ２２１やＤｉａｌｏｇ２２２等の行動（動作）を規定するスキーマのエンティティがメモリ空間上にマッピングされているとする。
【０１９４】
ここで、外部刺激１８３と内部状態の変化１８４に基づく行動価値ＡＬの評価により、スキーマＤｉａｌｏｇ２２２に対してＡというターゲット（Ｐｒｏｎｏｍｅ）が設定されて、Ｄｉａｌｏｇ２２２が人物Ａとの対話を実行するようになったとする。
【０１９５】
そこに、人物Ｂがロボット装置１と人物Ａとの対話に割り込み、その後、外部刺激１８３と内部状態の変化１８４に基づく行動価値ＡＬの評価を行なった結果、Ｂとの対話を行なうスキーマ２２３の方がより優先度が高くなったとする。
【０１９６】
このような場合、ＳｃｈｅｍａＨａｎｄｌｅｒ２１２は、Ｂとの対話を行なうためのクラス継承した別のＤｉａｌｏｇエンティティ（インスタンス）をメモリ空間上にマッピングする。別のＤｉａｌｏｇエンティティを使用して、先のＤｉａｌｏｇエンティティとは独立して、Ｂとの対話を行なうことから、Ａとの対話内容は破壊されずに済む。従って、ＤｉａｌｏｇＡはデータの一貫性を保持することができ、Ｂとの対話が終了すると、Ａとの対話を中断した時点から再開することができる。
【０１９７】
Ｒｅａｄｙリスト内のスキーマは、その対象物（外部刺激１８３）に応じて評価すなわち行動価値ＡＬの計算が行なわれ、実行権が引き渡される。その後、Ｒｅａｄｙリスト内に移動したスキーマのインスタンスを生成して、これ以外の対象物に対して評価を行なう。これにより、同一のスキーマをａｃｔｉｖｅ又はｓｌｅｅｐ状態にすることができる。
【０１９８】
以上のような制御システムを実現する制御プログラムは、上述したように、予めフラッシュＲＯＭ２３に格納されており、ロボット装置１の電源投入初期時において読み出される。このようにしてこのロボット装置１においては、自己及び周囲の状況や、使用者からの指示及び働きかけに応じて自律的に行動し得るようになされている。
【０１９９】
【発明の効果】
以上詳細に説明したように、本発明に係るロボット装置は、内部状態及び外部刺激に基づき自律的に行動を選択し発現するロボット装置において、行動が記述された複数の行動記述モジュールと、上記内部状態及び外部刺激から上記複数の行動記述モジュールに記述された各行動の行動価値を算出する行動価値算出手段と、上記行動価値に基づき上記行動記述モジュールを選択し、当該行動記述モジュールに記述された行動を発現させる行動選択手段とを有し、各上記行動記述モジュールに記述された行動には所定の内部状態及び外部刺激が対応付けられ、上記行動価値算出手段は、内部状態に対応付けられた行動に対する欲求値及び内部状態に基づく満足度を求め、現在の内部状態から得られる欲求値と、上記現在の内部状態と入力された外部刺激に基づき変化すると予想される予想内部状態とから求まる予想満足度変化とに基づき、各行動に対する上記行動価値を算出するので、自身の内部状態から発現する行動の欲求度を求め、また、現在の内部状態に基づく満足度からの行動発現後に予想される変化量を予想満足度として求め、これらから行動価値を算出し、この行動価値に基づいて行動選択することにより、同じ外部刺激でも内部状態の値によって異なる行動が選択されるので、環境やユーザとのコミュニケーションに応じて変化する内部状態及び種々の外部刺激に対して一義的ではない様々なユーザを飽きさせない行動を発現させることができる。
【図面の簡単な説明】
【図１】本発明の実施の形態のロボット装置の外観を示す斜視図である。
【図２】本発明の実施の形態におけるロボット装置の機能構成を模式的に示すブロック図である。
【図３】本発明の実施の形態における制御ユニットの構成を更に詳細に示すブロック図である。
【図４】本発明の実施の形態におけるロボット装置の制御システムにおいて、各行動に対応する行動価値を算出してこれに基づき行動出力する処理を行う行動選択制御システム部分を示す模式図である。
【図５】上図の行動価値算出部が内部状態及び外部刺激から行動価値ＡＬを算出する処理の流れを示す模式図である。
【図６】横軸に内部状態ベクトルＩｎｔＶの各成分をとり、縦軸に欲求ベクトルＩｎｓＶの各成分をとって、内部状態と欲求との関係を示すグラフ図である。
【図７】行動価値算出データベースにおける行動価値算出データを示す図である。
【図８】横軸にＩｎｔＶ＿ＮＯＵＲＩＳＨＭＥＮＴ「栄養状態」、縦軸に内部状態「栄養状態」に対する満足度Ｓ＿ＮＯＵＲＩＳＨＭＥＮＴをとり、内部状態と満足度との関係を示すグラフ図である。
【図９】横軸にＩｎｔＶ＿ＦＡＴＩＧＵＥ「疲れ」、縦軸に内部状態「疲れ」に対する満足度Ｓ＿ＦＡＴＩＧＵＥをとって、内部状態と満足度との関係を示すグラフ図である。
【図１０】（ａ）及び（ｂ）は夫々内部状態「栄養状態」（「ＮＯＵＲＩＳＨＭＥＮＴ」）及び「疲れ」（「ＦＡＴＩＧＵＥ」）の予想内部状態変化量を求める場合の行動価値算出データ構造の一例を示す図である。
【図１１】１次元の外部刺激の線形補間方法を説明する図である。
【図１２】２次元の外部刺激の線形補間方法を説明する図である。
【図１３】行動価値算出部における行動価値算出方法を示すフローチャートである。
【図１４】本発明の実施の形態におけるロボット装置の制御システムにおいて、外部刺激が入力されてから行動価値算出データベースの学習を行うまでの流れを示す模式図である。
【図１５】１次元外部刺激の予想内部状態変化量の更新例を説明する図である。
【図１６】２次元外部刺激の予想内部状態変化量の更新例を説明する図である。
【図１７】学習により、発現された行動結果に応じて行動価値算出データベースを更新する方法を示すフローチャートである。
【図１８】本発明の具体例におけるロボット装置の行動制御システムの機能構成を示す模式図である。
【図１９】本発明の具体例における行動制御システムのオブジェクト構成を示す模式図である。
【図２０】本発明の具体例における状況依存行動階層による状況依存行動制御の形態を示す模式図である。
【図２１】状況依存行動階層が複数のスキーマによって構成されている様子を示す模式図である。
【図２２】状況依存行動階層におけるスキーマのツリー構造を示す模式図である。
【図２３】状況依存行動階層において通常の状況依存行動を制御するためのメカニズムを示す模式図である。
【図２４】反射行動部におけるスキーマの構成を示す模式図である。
【図２５】反射行動部により反射的行動を制御するためのメカニズムを示す模式図である。
【図２６】状況依存行動階層において使用されるスキーマのクラス定義を示す模式図である。
【図２７】状況依存行動階層内のクラスの機能的構成を示す模式図である。
【図２８】スキーマのＲｅｅｎｔｒａｎｔ性を説明する図である。
【符号の説明】
１ロボット装置、１０制御システム、１５ＣＣＤカメラ、１６マイクロフォン、１７スピーカ、１８タッチ・センサ、１９ＬＥＤインジケータ、２０制御部、２１ＣＰＵ、２２ＲＡＭ、２３ＲＯＭ、２４不揮発メモリ、２５インターフェース、２６無線通信インターフェース、２７ネットワーク・インターフェース・カード、２８バス、２９キーボード、４０入出力部、５０駆動部、５１モータ、５２エンコーダ、５３ドライバ、８１視覚認識機能部、８２聴覚認識機能部、８３接触認識機能部、９１内部状態管理部、９２短期記憶部（ＳＴＭ）、９３長期記憶部（ＬＴＭ）、１００行動選択制御システム、１０１熟考行動階層、１０２状況依存行動階層（ＳＢＬ）、１０３反射行動部、１２０行動価値算出部、１２１行動価値算出データベース、１３０行動選択部、１３２要素行動

Claims

内部状態及び外部刺激に基づき自律的に行動を選択し発現するロボット装置において、
行動が記述された複数の行動記述モジュールと、
上記内部状態及び外部刺激から上記複数の行動記述モジュールに記述された各行動の行動価値を算出する行動価値算出手段と、
上記行動価値に基づき上記行動記述モジュールを選択し、当該行動記述モジュールに記述された行動を発現させる行動選択手段とを有し、
各上記行動記述モジュールに記述された行動には所定の内部状態及び外部刺激が対応付けられ、
上記行動価値算出手段は、内部状態に対応付けられた行動に対する欲求値及び内部状態に基づく満足度を求め、現在の内部状態から求まる欲求値と、上記現在の内部状態及び入力された外部刺激に基づき変化すると予想される予想内部状態から求まる予想満足度変化とに基づき、各行動に対する上記行動価値を算出する
ことを特徴とするロボット装置。
上記行動価値算出手段は、上記現在の内部状態から求まる上記欲求値と、該現在の内部状態から求まる上記満足度と、上記予想満足度変化とに基づき、各行動に対する上記行動価値を算出する
ことを特徴とする請求項１記載のロボット装置。
上記行動価値算出手段は、入力される外部刺激と、上記予想内部状態変化とが対応付けられた行動価値算出データベースを有し、この行動価値算出データベースを参照して上記行動価値を算出することを特徴とする請求項１記載のロボット装置。
上記行動価値算出データベースは、上記外部刺激の値に対応付けられた上記予想内部状態変化を有する
ことを特徴とする請求項３記載のロボット装置。
上記行動価値算出手段は、行動価値算出データベースにはない値が入力された場合は、線形モデルを使用し線形補間を行って予想内部状態変化を算出する
ことを特徴とする請求項４記載のロボット装置。
内部状態及び外部刺激に基づき自律的に行動を選択して発現するような制御を行うロボット装置の行動制御方法において、
上記内部状態及び外部刺激から複数の行動記述モジュールに記述された各行動の行動価値を算出する行動価値算出工程と、
上記行動価値に基づき上記行動記述モジュールを選択し、当該行動記述モジュールに記述された行動を発現させる行動選択工程とを有し、
各上記行動記述モジュールに記述された行動には所定の内部状態及び外部刺激が対応付けられ、
上記行動価値算出工程では、内部状態に対応付けられた行動に対する欲求値及び内部状態に基づく満足度を求め、現在の内部状態から求まる欲求値と、上記現在の内部状態及び入力された外部刺激に基づき変化すると予想される予想内部状態から求まる予想満足度変化とに基づき、各行動に対する上記行動価値が算出される
ことを特徴とするロボット装置の行動制御方法。
上記行動価値算出工程では、上記現在の内部状態から求まる上記欲求値と、該現在の内部状態から求まる上記満足度と、上記予想満足度変化とに基づき、各行動に対する上記行動価値が算出される
ことを特徴とする請求項６記載のロボット装置の行動制御方法。
上記行動価値算出工程では、入力される外部刺激と、上記予想内部状態変化とが対応付けられた行動価値算出データベースを参照して上記行動価値が算出されることを特徴とする請求項６記載のロボット装置の行動制御方法。
上記行動価値算出データベースは、上記外部刺激の値に対応付けられた上記予想内部状態変化を有する
ことを特徴とする請求項８記載のロボット装置の行動制御方法。
上記行動価値算出工程では、行動価値算出データベースにはない値が入力された場合は、線形モデルを使用し線形補間を行って予想内部状態変化が算出される
ことを特徴とする請求項９記載のロボット装置の行動制御方法。
ロボット装置の内部状態及び外部刺激に基づき自律的に行動を選択して発現するような制御を行う動作をコンピュータに実行させるためのプログラムにおいて、
上記内部状態及び外部刺激から複数の行動記述モジュールに記述された各行動の行動価値を算出する行動価値算出工程と、
上記行動価値に基づき上記行動記述モジュールを選択し、当該行動記述モジュールに記述された行動を発現させる行動選択工程とを有し、
各上記行動記述モジュールに記述された行動には所定の内部状態及び外部刺激が対応付けられ、
上記行動価値算出工程では、内部状態に対応付けられた行動に対する欲求値及び内部状態に基づく満足度を求め、現在の内部状態から求まる欲求値と、上記現在の内部状態及び入力された外部刺激に基づき変化すると予想される予想内部状態から求まる予想満足度変化とに基づき、各行動に対する上記行動価値が算出される
ことを特徴とするロボット装置のプログラム。