JP2003039363A

JP2003039363A - ロボット装置、ロボット装置の行動学習方法、ロボット装置の行動学習プログラム、及びプログラム記録媒体

Info

Publication number: JP2003039363A
Application number: JP2002127374A
Authority: JP
Inventors: Frederic Kaplan; フレデリックカプラン; Pierre-Yves Oudeyer; イブスオードェピエール; Osamu Hanagata; 理花形
Original assignee: Sony France SA; Sony Corp
Current assignee: Sony France SA; Sony Corp
Priority date: 2001-04-30
Filing date: 2002-04-26
Publication date: 2003-02-13
Also published as: EP1254688A1; DE60118317D1; EP1254688B1; US20020183895A1; US6760645B2; DE60118317T2

Abstract

(57)【要約】【課題】複雑で連続的な行動等を効率的に学習する。【解決手段】ロボット装置では、行動決定部１０４で
確率的に決定された行動に基づいて、行動出力部１０６
がその行動を実行させるコマンドを出力する。所望の行
動に近づくと、訓練者は、ロボット装置に２次強化因子
を与え、所望の行動に近づくための標識とする。２次強
化因子が検出されると、行動決定部１０４は、所望の行
動への遷移確率を変化させる。最終的にロボット装置が
所望の行動を行うと、訓練者は、ロボット装置に１次強
化因子を与える。所望の行動に至る一連の行動とコマン
ドとを関連づける場合には、行動記憶部１０５から読み
出された一連の行動と音声認識部１０７で認識されたコ
マンドとが、連想記憶部１０８にて連想記憶される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自律的に行動する
ロボット装置、そのようなロボット装置が所望の行動を
学習するロボット装置の行動学習方法、ロボット装置の
行動学習プログラム、及び当該ロボット装置の行動学習
プログラムの記録されたプログラム記録媒体に関する。

【０００２】

【従来の技術】従来より、犬等の動物を飼い慣らすため
に、調教が行われている。例えば、犬の飼い主は、「お
手」や「お座り」等の行動を犬に対して教示する。しか
し、多くの犬の飼主は、犬を所望の位置につかせようと
しながら、同時に命令するという間違いを犯している。
例えば、訓練者は、「お座り」という言葉を繰り返しな
がら、犬のお尻を地面に向かって押下げる。この方法が
成功しないのは、以下のような理由からである。

【０００３】（１）動物は、訓練者の言葉か学習行動の
いずれかに注意を払う選択を強いられる。

【０００４】（２）命令を複数回繰り返すため、動物は
そのうちのどの部分が行動と関連しているのかわからな
い。

【０００５】（３）行動する前に命令される場合が非常
に多い。例えば、動物がまだ立っているうちに「お座
り」と命令してしまうため、「お座り」を座った状態と
関連させることができない。

【０００６】このような理由により、多くの訓練者は命
令と行動とを別々に教える。実際には最初に行動を教
え、次に命令を教える。

【０００７】動物に行動を教えるための方法には、代表
的なものとして、モデリング（Modelling）、ルアーリ
ング（Ruring）、キャプチャリング（Capturing）、イ
ミテーション（Imitating）等があり、それぞれ図１４
に示すような特徴を有する。以下、簡単に説明する。

【０００８】モデリングは、多くの犬の飼い主が試行す
る方法であるが、専門家である調教師が行うことは決し
てない。この方法は、動物を所望のポジションへ物理的
に操り、そのポジションにつくことができたら褒めてあ
げるというものである。この方法では、動物は受身のま
まである。そのため、多くの場合において行動学習の成
果が上がらない。また、静止ポジションへ達する以上の
複雑な動きをこの方法により実現するのは容易ではな
い。

【０００９】ルアリングは、動物との物理的な接触がな
い点を除いてモデリングと類似している。訓練者は、玩
具や食べ物を動物の鼻の前に置き、これを使って動物を
所望のポジションに誘導することができる。この方法
は、実際の動物の場合には良い成果が得られるが、その
使用は、あるポジションや非常に単純な動作を教えると
きに限定される。

【００１０】キャプチャリングは、上述したモデリング
やルアリングとは異なり、動物の自発的な行動を利用し
たものである。例えば、訓練者は、動物が所望のポジシ
ョンについている、又は正確な行動をとっていると認識
する毎に、ポジティブな強化因子を動物に与える。この
方法についても、実際の動物の場合には良い成果が得ら
れるが、訓練者は、動物が所望のポジションにつくまで
待つ必要がある。例えば、「お座り」を教えるときに
は、訓練者は、動物が自発的に座るのを待つ必要があ
る。また、この方法は、動物の自発的な行動を利用した
ものであるため、連続的な動作や珍しい動作を教えるこ
とが困難である。

【００１１】イミテーションは、動物に訓練者と同じ動
作を模倣させるものであるが、訓練者がイミテーション
に基づいた方法を用いることは滅多にない。この方法で
は、連続的な動作や珍しい動作についても教えることが
できるが、この方法は、霊長類や海洋哺乳動物等の高等
動物についてしか確認されていない。

【００１２】

【発明が解決しようとする課題】ところで、近年、動物
を模した形状とされたロボット装置、いわゆるペットロ
ボットが提案されている。このようなロボット装置は、
一般家庭において飼育される犬や猫に似た形状を有し、
ユーザ（飼い主）からの「叩く」や「撫でる」といった
働きかけや、周囲の環境等に応じて自律的に行動する。
例えば、自律的な行動として、実際の動物と同様に、
「吠える」、「寝る」等といった行動をする。

【００１３】このようなロボット装置が実際の動物のよ
うな行動に、より近づくことができれば、ロボット装置
の生物感が一層増し、ユーザ（飼い主）は、ロボット装
置に一層の親近感や満足感を感じる。これにより、ロボ
ット装置のアミューズメント性が向上する。

【００１４】例えば、実際の動物に対するのと同様に、
ユーザ（飼い主）が自らの所有するロボット装置に対し
て所望の動作を教示し、ロボット装置を“飼い慣らす”
ことができれば、ユーザ（飼い主）は、ロボット装置に
一層の親近感や満足感を感じるようになると考えられ
る。

【００１５】しかし、上述したような実際の動物に行動
を教えるための方法を、自律的に行動するロボット装置
に適用するには、種々の問題が存在する。

【００１６】例えば、上述したモデリングは、産業界に
おいてロボット装置にポジションを教えるために多く用
いられてきたが、ロボット装置が自律的に行動し、常時
活発になると問題が生じてくる。すなわち、ロボット装
置は、例えば、訓練者が背中を押していることを感知す
ることができ、また、プログラムされていれば座る判断
を下すことができる。しかし、静止ポジションへ達する
以上の複雑な動きをこの方法により実現するのは容易で
はないという問題がある。

【００１７】また、上述したルアリングは、ロボット工
学ではあまり使用されていない。ロボット装置が自動的
に所定のもの、例えば赤いものに興味を示すようにプロ
グラムされていれば、訓練者は、この特性を利用してロ
ボット装置を所望のポジションにつかせることができ
る。しかし、これも使用範囲が限られるという問題があ
る。

【００１８】上述したキャプチャリングは、この方法を
用いて、ロボット装置が信号（例えば言葉）と関連した
所望の行動をとる毎に、その信号を後から発信するとい
うモデルを作成することができる。しかし、ロボット装
置に「お座り」のような言葉を教えるには、訓練者は、
ロボット装置が自発的に座るのを待つ必要があるという
問題がある。また、名前をつけることができる動作の数
が多過ぎるという問題や、動物の自発的な行動を利用し
たものであるため、連続的な動作や珍しい動作を教える
ことが困難であるといった問題がある。

【００１９】上述したイミテーションは、例えば、「Y.
Kuniyoshi et al.,"Learning by watching:Extracting
reusable task knowledge from visual observation of
human performance.",IEEE Transactions on Robotics
and Automation,10(6):799-822,1994」等に記載されて
いるように、ロボット工学において、いくつかの研究グ
ループが取り組んできた。この方法では、原理的に、連
続した動作や非常に珍しい動作を教えることができる
が、多大な量の計算能力を必要とするため、この方法を
既存の自律的に行動するロボット装置に適用することは
困難である。

【００２０】本発明は、このような従来の実情に鑑みて
提案されたものであり、複雑で連続的な行動等を修得す
ることのできるロボット装置、このようなロボット装置
の行動学習方法、ロボット装置の行動学習プログラム、
及び当該ロボット装置の行動学習プログラムの記録され
たプログラム記録媒体を提供することを目的とする。

【００２１】

【課題を解決するための手段】上述した目的を達成する
ために、本発明に係るロボット装置は、動作部を制御し
て行動を出現させるロボット装置であって、行動の出現
傾向に基づいて、一の行動を決定する行動決定手段と、
上記行動決定手段が決定した行動に基づいて、上記動作
部を制御して、当該決定された行動を出現させる行動出
力手段と、外部情報を入力する入力手段と、上記入力手
段が入力した上記外部情報から予め設定された１次強化
因子を検出する１次強化因子検出手段と、上記入力手段
が入力した上記外部情報から２次強化因子を検出する２
次強化因子検出手段と、上記行動決定手段が決定した行
動を記憶する行動記憶手段とを備え、上記行動決定手段
は、上記２次強化因子が検出される毎に、当該２次強化
因子が検出された行動の出現傾向を高め、上記行動記憶
手段は、上記１次強化因子が検出されると、少なくとも
当該１次強化因子が検出された行動を記憶することを特
徴としている。

【００２２】ここで、２次強化因子が検出された行動
は、１次強化因子が検出された行動に至るまでの行動で
ある。

【００２３】このようなロボット装置は、行動の学習時
に、２次強化因子が検出される毎に、当該２次強化因子
が検出された行動の出現傾向を高め、１次強化因子が検
出されると、少なくとも当該１次強化因子が検出された
行動を記憶する。

【００２４】また、上述した目的を達成するために、本
発明に係るロボット装置の行動学習方法は、動作部を制
御して行動を出現させるロボット装置の行動学習方法で
あって、行動の出現傾向に基づいて、一の行動を決定す
る行動決定工程と、上記行動決定工程で決定された行動
に基づいて、上記動作部を制御して、当該決定された行
動を出現させる行動出力工程と、外部情報を入力する入
力手段が入力した上記外部情報から予め設定された１次
強化因子を検出する１次強化因子検出工程と、上記入力
手段が入力した上記外部情報から２次強化因子を検出す
る２次強化因子検出工程と、上記行動決定工程で決定さ
れた行動を記憶する行動記憶工程とを有し、上記行動決
定工程では、上記２次強化因子が検出される毎に、当該
２次強化因子が検出された行動の出現傾向が高められ、
上記行動記憶工程では、上記１次強化因子が検出される
と、少なくとも当該１次強化因子が検出された行動が記
憶されることを特徴としている。

【００２５】ここで、２次強化因子が検出された行動
は、１次強化因子が検出された行動に至るまでの行動で
ある。

【００２６】このようなロボット装置の行動学習方法で
は、行動の学習時に、２次強化因子が検出される毎に、
当該２次強化因子が検出された行動の出現傾向が高めら
れ、１次強化因子が検出されると、少なくとも当該１次
強化因子が検出された行動が記憶される。

【００２７】また、上述した目的を達成するために、本
発明に係るロボット装置の行動学習プログラムは、動作
部を制御して行動を出現させるロボット装置の行動学習
プログラムであって、行動の出現傾向に基づいて、一の
行動を決定する行動決定工程と、上記行動決定工程で決
定された行動に基づいて、上記動作部を制御して、当該
決定された行動を出現させる行動出力工程と、外部情報
を入力する入力手段が入力した上記外部情報から予め設
定された１次強化因子を検出する１次強化因子検出工程
と、上記入力手段が入力した上記外部情報から２次強化
因子を検出する２次強化因子検出工程と、上記行動決定
工程で決定された行動を記憶する行動記憶工程とを有
し、上記行動決定工程では、上記２次強化因子が検出さ
れる毎に、当該２次強化因子が検出された行動の出現傾
向が高められ、上記行動記憶工程では、上記１次強化因
子が検出されると、少なくとも当該１次強化因子が検出
された行動が記憶されることを特徴としている。

【００２８】ここで、２次強化因子が検出された行動
は、１次強化因子が検出された行動に至るまでの行動で
ある。

【００２９】このようなロボット装置の行動学習プログ
ラムでは、行動の学習時に、２次強化因子が検出される
毎に、当該２次強化因子が検出された行動の出現傾向が
高められ、１次強化因子が検出されると、少なくとも当
該１次強化因子が検出された行動が記憶される。

【００３０】また、上述した目的を達成するために、本
発明に係るプログラム記録媒体は、動作部を制御して行
動を出現させるロボット装置の行動学習プログラムが記
録されたコンピュータ制御可能なプログラム記録媒体で
あって、上記ロボット装置の行動学習プログラムは、行
動の出現傾向に基づいて、一の行動を決定する行動決定
工程と、上記行動決定工程で決定された行動に基づい
て、上記動作部を制御して、当該決定された行動を出現
させる行動出力工程と、外部情報を入力する入力手段が
入力した上記外部情報から予め設定された１次強化因子
を検出する１次強化因子検出工程と、上記入力手段が入
力した上記外部情報から２次強化因子を検出する２次強
化因子検出工程と、上記行動決定工程で決定された行動
を記憶する行動記憶工程とを有し、上記行動決定工程で
は、上記２次強化因子が検出される毎に、当該２次強化
因子が検出された行動の出現傾向が高められ、上記行動
記憶工程では、上記１次強化因子が検出されると、少な
くとも当該１次強化因子が検出された行動が記憶される
ことを特徴とするロボット装置の行動学習プログラムが
記録されたものである。

【００３１】ここで、２次強化因子が検出された行動
は、１次強化因子が検出された行動に至るまでの行動で
ある。

【００３２】このようなプログラム記録媒体に記録され
ているロボット装置の行動学習プログラムでは、行動の
学習時に、２次強化因子が検出される毎に、当該２次強
化因子が検出された行動の出現傾向が高められ、１次強
化因子が検出されると、少なくとも当該１次強化因子が
検出された行動が記憶される。

【００３３】

【発明の実施の形態】以下、本発明を適用した具体的な
実施の形態について、図面を参照しながら詳細に説明す
る。この実施の形態は、本発明を、周囲の環境（外的要
因）や内部の状態（内的要因）に応じて自律的に行動を
するロボット装置に適用したものである。

【００３４】実施の形態では、先ず、ロボット装置の構
成について説明して、その後、ロボット装置における本
発明の適用部分について詳細に説明する。

【００３５】（１）本実施の形態におけるロボット装置
の構成図１に示すように、「犬」を模した形状のいわゆるペッ
トロボットとされ、胴体部ユニット２の前後左右にそれ
ぞれ脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄが連結される
と共に、胴体部ユニット２の前端部及び後端部にそれぞ
れ頭部ユニット４及び尻尾部ユニット５が連結されて構
成されている。

【００３６】胴体部ユニット２には、図２に示すよう
に、ＣＰＵ（Central Processing Unit）１０、ＤＲＡ
Ｍ（Dynamic Random Access Memory）１１、フラッシュ
ＲＯＭ（Read Only Memory）１２、ＰＣ（Personal Com
puter）カードインターフェース回路１３及び信号処理
回路１４が内部バス１５を介して相互に接続されること
により形成されたコントロール部１６と、このロボット
装置の動力源としてのバッテリ１７とが収納されてい
る。また、胴体部ユニット２には、ロボット装置１の向
きや動きの加速度を検出するための角速度センサ１８及
び加速度センサ１９なども収納されている。

【００３７】また、頭部ユニット４には、外部の状況を
撮像するためのＣＣＤ（Charge Coupled Device）カメ
ラ２０と、ユーザからの「撫でる」や「叩く」といった
物理的な働きかけにより受けた圧力を検出するためのタ
ッチセンサ２１と、前方に位置する物体までの距離を測
定するための距離センサ２２と、外部音を集音するため
のマイクロホン２３と、鳴き声等の音声を出力するため
のスピーカ２４と、ロボット装置１の「目」に相当する
ＬＥＤ（Light Emitting Diode）（図示せず）となどが
それぞれ所定位置に配置されている。

【００３８】さらに、各脚部ユニット３Ａ〜３Ｄの関節
部分や各脚部ユニット及び胴体部ユニット２の各連結部
分、頭部ユニット４及び胴体部ユニット２の連結部分、
並びに尻尾部ユニット５の尻尾５Ａの連結部分などには
それぞれ自由度数分のアクチュエータ２５_１，２５_２，
・・・及びポテンショメータ２６_１，２６_２，・・・が
配設されている。例えば、アクチュエータ２５_１，２５
_２，・・・は、サーボモータを構成として有している。
サーボモータの駆動により、脚部ユニット３Ａ〜３Ｄが
制御されて、目的の姿勢或いは動作に遷移する。

【００３９】そして、これら角速度センサ１８、加速度
センサ１９、タッチセンサ２１、距離センサ２２、マイ
クロホン２３、スピーカ２４及び各ポテンショメータ２
６_１，２６_２，・・・などの各種センサ並びにＬＥＤ及
び各アクチュエータ２５_１，２５_２，・・・は、それぞ
れ対応するハブ２７_１〜２７_ｎを介してコントロール部
１６の信号処理回路１４と接続され、ＣＣＤカメラ２０
及びバッテリ１７は、それぞれ信号処理回路１４と直接
接続されている。

【００４０】信号処理回路１４は、上述の各センサから
供給されるセンサデータや画像データ及び音声データを
順次取り込み、これらをそれぞれ内部バス１５を介して
ＤＲＡＭ１１内の所定位置に順次格納する。また、信号
処理回路１４は、これと共にバッテリ１７から供給され
るバッテリ残量を表すバッテリ残量データを順次取り込
み、これをＤＲＡＭ１１内の所定位置に格納する。

【００４１】このようにしてＤＲＡＭ１１内に格納され
た各センサデータ、画像データ、音声データ及びバッテ
リ残量データは、この後ＣＰＵ１０がこのロボット装置
１の動作制御を行う際に利用される。

【００４２】実際上ＣＰＵ１０は、ロボット装置１の電
源が投入された初期時、胴体部ユニット２の図示しない
ＰＣカードスロットに装填されたメモリカード２８又は
フラッシュＲＯＭ１２に格納された制御プログラムをＰ
Ｃカードインターフェース回路１３を介して又は直接読
み出し、これをＤＲＡＭ１１に格納する。

【００４３】また、ＣＰＵ１０は、この後上述のように
信号処理回路１４よりＤＲＡＭ１１に順次格納される各
センサデータ、画像データ、音声データ及びバッテリ残
量データの基づいて自己及び周囲の状況や、ユーザから
の指令及び働きかけの有無などを判断する。

【００４４】さらに、ＣＰＵ１０は、この判断結果及び
ＤＲＡＭ１１に格納した制御プログラムに基づいて続く
行動を決定すると共に、当該決定結果に基づいて必要な
アクチュエータ２５_１，２５_２，・・・を駆動させるこ
とにより、頭部ユニット４を上下左右に振らせたり、尻
尾部ユニット５の尻尾５Ａを動かせたり、各脚部ユニッ
ト３Ａ〜３Ｄを駆動させて歩行させるなどの行動を行わ
せる。

【００４５】また、この際ＣＰＵ１０は、必要に応じて
音声データを生成し、これを信号処理回路１４を介して
音声信号としてスピーカ２４に与えることにより、当該
音声信号に基づく音声を外部に出力させたり、上述のＬ
ＥＤを点灯又は点滅させる。

【００４６】このようにして、このロボット装置１にお
いては、自己及び周囲の状況や、ユーザからの指令及び
働きかけに応じて自律的に行動し得るようになされてい
る。

【００４７】（２）制御プログラムのソフトウェア構成ここで、ロボット装置１における上述の制御プログラム
のソフトウェア構成は、図３に示すようになる。この図
３において、デバイス・ドライバ・レイヤ３０は、この
制御プログラムの最下位層に位置し、複数のデバイス・
ドライバからなるデバイス・ドライバ・セット３１から
構成されている。この場合、各デバイス・ドライバは、
ＣＣＤカメラ２０（図２）や、タイマ等の通常のコンピ
ュータで用いられるハードウェアに直接アクセスするこ
とを許されたオブジェクトであり、対応するハードウェ
アからの割り込みを受けて処理を行う。

【００４８】また、ロボティック・サーバ・オブジェク
ト３２は、デバイス・ドライバ・レイヤ３０の最下位層
に位置し、例えば上述の各種センサやアクチュエータ２
５_１，２５_２，・・・等のハードウェアにアクセスする
ためのインターフェースを提供するソフトウェア群でな
るバーチャル・ロボット３３と、電源の切り換えなどを
管理するソフトウェア群でなるパワーマネージャ３４
と、他の種々のデバイス・ドライバを管理するソフトウ
ェア群でなるデバイス・ドライバ・マネージャ３５と、
ロボット装置１の機構を管理するソフトウェア群でなる
デザインド・ロボット３６とから構成されている。

【００４９】マネージャ・オブジェクト３７は、オブジ
ェクト・マネージャ３８及びサービス・マネージャ３９
から構成されている。この場合、オブジェクト・マネー
ジャ３８は、ロボティック・サーバ・オブジェクト３
２、ミドル・ウェア・レイヤ４０、及びアプリケーショ
ン・レイヤ４１に含まれる各ソフトウェア群の起動や終
了を管理するソフトウェア群であり、サービス・マネー
ジャ３９は、メモリカード２８（図２）に格納されたコ
ネクションファイルに記述されている各オブジェクト間
の接続情報に基づいて各オブジェクトの接続を管理する
ソフトウェア群である。

【００５０】ミドル・ウェア・レイヤ４０は、ロボティ
ック・サーバ・オブジェクト３２の上位層に位置し、画
像処理や音声処理などのこのロボット装置１の基本的な
機能を提供するソフトウェア群から構成されている。ま
た、アプリケーション・レイヤ４１は、ミドル・ウェア
・レイヤ４０の上位層に位置し、当該ミドル・ウェア・
レイヤ４０を構成する各ソフトウェア群によって処理さ
れた処理結果に基づいてロボット装置１の行動を決定す
るためのソフトウェア群から構成されている。

【００５１】なお、ミドル・ウェア・レイヤ４０及びア
プリケーション・レイヤ４１の具体的なソフトウェア構
成を図４に示す。

【００５２】ミドル・ウェア・レイヤ４０においては、
図４に示すように、騒音検出用、温度検出用、明るさ検
出用、音階認識用、距離検出用、姿勢検出用、タッチセ
ンサ用、動き検出用及び色認識用の各信号処理モジュー
ル５０〜５８並びに入力セマンティクスコンバータモジ
ュール５９などを有する認識系６０と、出力セマンティ
クスコンバータモジュール６８並びに姿勢管理用、トラ
ッキング用、モーション再生用、歩行用、転倒復帰用、
ＬＥＤ点灯用及び音再生用の各信号処理モジュール６１
〜６７などを有する出力系６９とから構成されている。

【００５３】認識系６０の各信号処理モジュール５０〜
５８は、ロボティック・サーバ・オブジェクト３２のバ
ーチャル・ロボット３３によりＤＲＡＭ１１（図２）か
ら読み出される各センサデータや画像データ及び音声デ
ータのうちの対応するデータを取り込み、当該データに
基づいて所定の処理を施して、処理結果を入力セマンテ
ィクスコンバータモジュール５９に与える。ここで、例
えば、バーチャル・ロボット３３は、所定の通信規約に
よって、信号の授受或いは変換をする部分として構成さ
れている。

【００５４】入力セマンティクスコンバータモジュール
５９は、これら信号処理モジュール５０〜５８から与え
られる処理結果に基づいて、「うるさい」、「暑い」、
「明るい」、「ボールを検出した」、「転倒を検出し
た」、「撫でられた」、「叩かれた」、「ドミソの音階
が聞こえた」、「動く物体を検出した」又は「障害物を
検出した」などの自己及び周囲の状況や、、ユーザから
の指令及び働きかけを認識し、認識結果をアプリケーシ
ョン・レイヤ４１（図３）に出力する。

【００５５】アプリケーション・レイヤ４１は、図５に
示すように、行動モデルライブラリ７０、行動切替モジ
ュール７１、学習モジュール７２、感情モデル７３及び
本能モデル７４の５つのモジュールから構成されてい
る。

【００５６】行動モデルライブラリ７０には、図６に示
すように、「バッテリ残量が少なくなった場合」、「転
倒復帰する場合」、「障害物を回避する場合」、「感情
を表現する場合」、「ボールを検出した場合」などの予
め選択されたいくつかの条件項目にそれぞれ対応させ
て、それぞれ独立した行動モデル７０_１〜７０_ｎが設け
られている。

【００５７】そして、これら行動モデル７０_１〜７０_ｎ
は、それぞれ入力セマンティクスコンバータモジュール
５９から認識結果が与えられたときや、最後の認識結果
が与えられてから一定時間が経過したときなどに、必要
に応じて後述のように感情モデル７３に保持されている
対応する情動のパラメータ値や、本能モデル７４に保持
されている対応する欲求のパラメータ値を参照しながら
続く行動をそれぞれ決定し、決定結果を行動切替モジュ
ール７１に出力する。

【００５８】なお、この実施の形態の場合、各行動モデ
ル７０_１〜７０_ｎは、次の行動を決定する手法として、
図７に示すような１つのノード（状態）ＮＯＤＥ_０〜Ｎ
ＯＤＥ_ｎから他のどのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに
遷移するかを各ノードＮＯＤＥ_０〜ＮＯＤＥ_ｎの間を接
続するアークＡＲＣ_１〜ＡＲＣ_ｎに対してぞれぞれ設定
された遷移確率Ｐ_１〜Ｐ_ｎに基づいて確率的に決定する
有限確率オートマトンと呼ばれるアルゴリズムを用い
る。

【００５９】具体的に、各行動モデル７０_１〜７０
_ｎは、それぞれ自己の行動モデル７０_１〜７０_ｎを形成
するノードＮＯＤＥ_０〜ＮＯＤＥ_ｎにそれぞれ対応させ
て、これらノードＮＯＤＥ_０〜ＮＯＤＥ_ｎ毎に図８に示
すような状態遷移表８０を有している。

【００６０】この状態遷移表８０では、そのノードにお
いて遷移条件とする入力イベント（認識結果）が「入力
イベント名」の列に優先順に列記され、その遷移条件に
ついてのさらなる条件が「データ名」及び「データ範
囲」の列における対応する行に記述されている。

【００６１】したがって、図８の状態遷移表８０で表さ
れるノードＮＯＤＥ_１００では、「ボールを検出（ＢＡ
ＬＬ）」という認識結果が与えられた場合に、当該認識
結果と共に与えられるそのボールの「大きさ（ＳＩＺ
Ｅ）」が「０から１０００」の範囲であることや、「障
害物を検出（ＯＢＳＴＡＣＬＥ）」という認識結果が与
えられた場合に、当該認識結果と共に与えられるその障
害物までの「距離（ＤＩＳＴＡＮＣＥ）」が「０から１
００」の範囲であることが他のノードに遷移するための
条件となっている。

【００６２】また、このノードＮＯＤＥ_１００では、認
識結果の入力がない場合においても、行動モデル７０_１
〜７０_ｎが周期的に参照する感情モデル７３及び本能モ
デル７４にそれぞれ保持された各情動及び各欲求のパラ
メータ値のうち、感情モデル７３に保持された「喜び
（ＪＯＹ）」、「驚き（ＳＵＲＰＲＩＳＥ）」若しくは
「悲しみ（ＳＡＤＮＥＳＳ）」のいずれかのパラメータ
値が「５０から１００」の範囲であるときは他のノード
に遷移することができるようになっている。

【００６３】また、状態遷移表８０では、「他のノード
への遷移確率」の欄における「遷移先ノード」の行にそ
のノードＮＯＤＥ_０〜ＮＯＤＥ_ｎから遷移できるノード
名が列記されていると共に、「入力イベント名」、「デ
ータ値」及び「データの範囲」の列に記述された全ての
条件が揃ったときに遷移できる他の各ノードＮＯＤＥ _０
〜ＮＯＤＥ_ｎへの遷移確率が「他のノードへの遷移確
率」の欄内の対応する箇所にそれぞれ記述され、そのノ
ードＮＯＤＥ_０〜ＮＯＤＥ_ｎに遷移する際に出力すべき
行動が「他のノードへの遷移確率」の欄における「出力
行動」の行に記述されている。なお、「他のノードへの
遷移確率」の欄における各行の確率の和は１００［％］
となっている。

【００６４】したがって、図８の状態遷移表８０で表さ
れるノードＮＯＤＥ_１００では、例えば「ボールを検出
（ＢＡＬＬ）」し、そのボールの「大きさ（ＳＩＺ
Ｅ）」が「０から１０００」の範囲であるという認識結
果が与えられた場合には、「３０［％］」の確率で「ノ
ードＮＯＤＥ_１２０（node 120）」に遷移でき、そのと
き「ＡＣＴＩＯＮ１」の行動が出力されることとな
る。

【００６５】各行動モデル７０_１〜７０_ｎは、それぞれ
このような状態遷移表８０として記述されたノードＮＯ
ＤＥ_０〜ＮＯＤＥ_ｎがいくつも繋がるようにして構成さ
れており、入力セマンティクスコンバータモジュール５
９から認識結果が与えられたときなどに、対応するノー
ドＮＯＤＥ_０〜ＮＯＤＥ_ｎの状態遷移表８０を利用して
確率的に次の行動を決定し、決定結果を行動切替モジュ
ール７１に出力するようになされている。

【００６６】図５に示す行動切替モジュール７１は、行
動モデルライブラリ７０の各行動モデル７０_１〜７０_ｎ
からそれぞれ出力される行動のうち、予め定められた優
先順位の高い行動モデル７０_１〜７０_ｎから出力された
行動を選択し、当該行動を実行すべき旨のコマンド（以
下、これを行動コマンドという。）をミドル・ウェア・
レイヤ４０の出力セマンティクスコンバータモジュール
６８に送出する。なお、この実施の形態においては、図
６において下側に表記された行動モデル７０_１〜７０_ｎ
ほど優先順位が高く設定されている。

【００６７】また、行動切替モジュール７１は、行動完
了後に出力セマンティクスコンバータモジュール６８か
ら与えられる行動完了情報に基づいて、その行動が完了
したことを学習モジュール７２、感情モデル７３及び本
能モデル７４に通知する。

【００６８】一方、学習モジュール７２は、入力セマン
ティクスコンバータモジュール５９から与えられる認識
結果のうち、「叩かれた」や「撫でられた」など、使用
者からの働きかけとして受けた教示の認識結果を入力す
る。

【００６９】そして、学習モジュール７２は、この認識
結果及び行動切替モジュール７１からの通知に基づい
て、「叩かれた（叱られた）」ときにはその行動の発現
確率を低下させ、「撫でられた（誉められた）」ときに
はその行動の発現確率を上昇させるように、行動モデル
ライブラリ７０における行動モデル７０_１〜７０_ｎの対
応する遷移確率を変更する。

【００７０】他方、感情モデル７３は、「喜び（jo
y）」、「悲しみ（sadness）」、「怒り（anger）」、
「驚き（surprise）」、「嫌悪（disgust）」及び「恐
れ（fear）」の合計６つの情動について、各情動ごとに
その情動の強さを表すパラメータを保持している。そし
て、感情モデル７３は、これら各情動のパラメータ値
を、それぞれ入力セマンティクスコンバータモジュール
５９から与えられる「叩かれた」及び「撫でられた」な
どの特定の認識結果と、経過時間及び行動切替モジュー
ル７１からの通知などに基づいて周期的に更新する。

【００７１】具体的には、感情モデル７３は、入力セマ
ンティクスコンバータモジュール５９から与えられる認
識結果と、そのときのロボット装置１の行動と、前回更
新してからの経過時間などに基づいて所定の演算式によ
り算出されるそのときのその情動の変化量をΔＥ
［ｔ］、現在のその情動のパラメータ値をＥ［ｔ］、そ
の情動の感度を表す係数をｋ_ｅとして、（１）式によっ
て次の周期におけるその情動のパラメータ値Ｅ［ｔ＋
１］を算出し、これを現在のその情動のパラメータ値Ｅ
［ｔ］と置き換えるようにしてその情動のパラメータ値
を更新する。また、感情モデル７３は、これと同様にし
て全ての情動のパラメータ値を更新する。

【００７２】

【数１】

【００７３】なお、各認識結果や出力セマンティクスコ
ンバータモジュール６８からの通知が各情動のパラメー
タ値の変動量ΔＥ［ｔ］にどの程度影響を与えるかは予
め決められており、例えば「叩かれた」といった認識結
果は「怒り」の情動のパラメータ値の変動量ΔＥ［ｔ］
に大きな影響を与え、「撫でられた」といった認識結果
は「喜び」の情動のパラメータ値の変動量ΔＥ［ｔ］に
大きな影響を与えるようになっている。

【００７４】ここで、出力セマンティクスコンバータモ
ジュール６８からの通知とは、いわゆる行動のフィード
バック情報（行動完了情報）であり、行動の出現結果の
情報であり、感情モデル７３は、このような情報によっ
ても感情を変化させる。これは、例えば、「吠える」と
いった行動により怒りの感情レベルが下がるといったよ
うなことである。なお、出力セマンティクスコンバータ
モジュール６８からの通知は、上述した学習モジュール
７２にも入力されており、学習モジュール７２は、その
通知に基づいて行動モデル７０_１〜７０_ｎの対応する遷
移確率を変更する。

【００７５】なお、行動結果のフィードバックは、行動
切替モジュール７１の出力（感情が付加された行動）に
よりなされるものであってもよい。

【００７６】一方、本能モデル７４は、「運動欲（exer
cize）」、「愛情欲（affection）」、「食欲（appetit
e ）」及び「好奇心（curiosity）」の互いに独立した
４つの欲求について、これら欲求ごとにその欲求の強さ
を表すパラメータを保持している。そして、本能モデル
７４は、これらの欲求のパラメータ値を、それぞれ入力
セマンティクスコンバータモジュール５９から与えられ
る認識結果や、経過時間及び行動切替モジュール７１か
らの通知などに基づいて周期的に更新する。

【００７７】具体的には、本能モデル７４は、「運動
欲」、「愛情欲」及び「好奇心」については、認識結
果、経過時間及び出力セマンティクスコンバータモジュ
ール６８からの通知などに基づいて所定の演算式により
算出されるそのときのその欲求の変動量をΔＩ［ｋ］、
現在のその欲求のパラメータ値をＩ［ｋ］、その欲求の
感度を表す係数をｋ_ｉとして、所定周期で（２）式を用
いて次の周期におけるその欲求のパラメータ値Ｉ［ｋ＋
１］を算出し、この演算結果を現在のその欲求のパラメ
ータ値Ｉ［ｋ］と置き換えるようにしてその欲求のパラ
メータ値を更新する。また、本能モデル７４は、これと
同様にして「食欲」を除く各欲求のパラメータ値を更新
する。

【００７８】

【数２】

【００７９】なお、認識結果及び出力セマンティクスコ
ンバータモジュール６８からの通知などが各欲求のパラ
メータ値の変動量ΔＩ［ｋ］にどの程度影響を与えるか
は予め決められており、例えば出力セマンティクスコン
バータモジュール６８からの通知は、「疲れ」のパラメ
ータ値の変動量ΔＩ［ｋ］に大きな影響を与えるように
なっている。

【００８０】なお、本実施の形態においては、各情動及
び各欲求（本能）のパラメータ値がそれぞれ０から１０
０までの範囲で変動するように規制されており、また、
係数ｋ_ｅ、ｋ_ｉの値も各情動及び各欲求ごとに個別に設
定されている。

【００８１】一方、ミドル・ウェア・レイヤ４０の出力
セマンティクスコンバータモジュール６８は、図４に示
すように、上述のようにして、アプリケーション・レイ
ヤ４１の行動切替モジュール７１から与えられる「前
進」、「喜ぶ」、「鳴く」又は「トラッキング（ボール
を追いかける）」といった抽象的な行動コマンドを出力
系６９の対応する信号処理モジュール６１〜６７に与え
る。

【００８２】そしてこれら信号処理モジュール６１〜６
７は、行動コマンドが与えられると当該行動コマンドに
基づいて、この行動を行うために対応するアクチュエー
タ２５_１〜２５_ｎ（図２）に与えるべきサーボ指令値
や、スピーカ２４（図２）から出力する音の音声データ
及び／又は「目」のＬＥＤに与える駆動データを生成
し、これらのデータをロボティック・サーバ・オブジェ
クト３２のバーチャル・ロボット３３及び信号処理回路
１４（図２）を順次介して対応するアクチュエータ２５
_１〜２５_ｎ又はスピーカ２４又はＬＥＤに順次送出す
る。

【００８３】このようにしてロボット装置１において
は、制御プログラムに基づいて、自己（内部）及び周囲
（外部）の状況や、使用者からの指示及び働きかけに応
じた自律的な行動を行うことができるようになされてい
る。

【００８４】（３）本実施の形態で用いる行動教示方法本実施の形態では、ロボット装置１に行動を教示する方
法として、シェーピング（Shaping）と呼ばれる方法を
用いる。この方法では、行動の形成を行うために、行動
を連続した達成可能な小さなレスポンスに分割し、最終
的に所望の行動へ導く。すなわち、この方法は、適切な
行動に向けて段階的に誘導するものである。各段階を実
行するには種々の技術を用いることができるが、本実施
の形態では、動物の訓練方法として普及しているクリッ
カートレーニングと呼ばれる方法を用いる。以下、この
クリッカートレーニングについて説明する。

【００８５】クリッカートレーニングは、「B.F.Skinne
r,"The Behavior of Organisms.,Appleton Century Cro
fs,New York,NY.,1938」に記載されているB.F.Skinner
のオペラント条件付けの理論に基づいている。このクリ
ッカートレーニングに基づいた犬の訓練方法は、１９８
０年代に、行動主義心理学者のGary Wilkesと、イルカ
の訓練者であるKaren Pryorが共同で普及させた。クリ
ッカートレーニングでは、従来よりイルカの訓練に使用
されている笛の代わりに、金属製の小型玩具であるクリ
ッカーを使用している。

【００８６】クリッカーを押すと短く鋭い音を発する。
この音だけでは動物にとって何の意味もない。しかし、
訓練者は、この音を１次強化因子と関連づける。１次強
化因子とは、餌や玩具等のように動物が本能的に報酬と
感じるものである。クリッカーの音は、１次強化因子と
多数回関連づけすることで２次強化因子（条件性強化因
子）となる。この第２強化因子は、動物にとって、もう
すぐ報酬が貰えるというポジティブなヒントの役割をす
る。クリッカー自体は、動物にとって報酬ではなく、動
物を所望の行動に導くために利用される。また、このク
リッカーにより、どの行動が強化されるべきかを動物に
知らせることができる。訓練者は、動物が所望の行動を
した際にのみ１次強化因子を与える。これは、所望の行
動へと導く一連の誘導工程の終了を示す合図である。

【００８７】クリッカートレーニングは、少なくとも以
下に示す４つのステップで構成されている。

【００８８】第１ステップ：クリッカーをチャージアッ
プする。このステップにおいて、動物は、クリッカーの
音をご褒美（餌等）と連鎖付ける必要がある。それに
は、クリッカーを鳴らし、続いて報酬を与えることを連
続して多数回、例えば２０〜５０回ほど、動物がクリッ
カーの音で明らかに興奮するようになるまで繰り返す。

【００８９】第２ステップ：行動を捕える。次に、動物
を所望の動作をとるよう誘導する。例えば、訓練者が動
物に右回りに円を描いて回って欲しいと思った場合に
は、動物の頭が右に若干動いた時点でクリッカーを鳴ら
すことから始まる。動物が何度も頭を動かすようになっ
たら、今度は身体を右に動かし始めた時だけにクリッカ
ーを鳴らす。徐々にクリッカーを鳴らす基準を上げてい
き、完全に身体が１回転すると報酬を与える。

【００９０】第３ステップ：コマンドワードを与える。
動物が所望の行動を学習したらコマンドワードを１度だ
け言う。コマンドワードを言うタイミングは、動物がそ
の行動を行った直後または直前である。

【００９１】第４ステップ：行動を試す。次に、学習し
た行動を試し、洗練する必要がある。動物が正確な行動
をとった時にだけ、コマンドワードを言い、報酬を与え
る。

【００９２】以上説明したように、クリッカートレーニ
ングは、動物を所望の行動に導くためのものである。さ
らに、このクリッカートレーニングは、動物が自発的に
行うことは滅多にない稀な行動を学習させるためや、連
続した一連の行動を学習させるために使用することがで
きる。

【００９３】以下では、このクリッカートレーニングの
原理を用いることで上述したロボット装置１が行動を学
習する方法について説明する。

【００９４】（４）ロボット装置への適用上述のロボット装置１において本発明が適用された要部
を説明する。ロボット装置１は、画像信号や音声信号
（音響信号）に関連づけて行動を学習し、学習後は、関
連づけられた画像信号や音声信号により行動を引き起こ
すように構成されている。以下の説明では、学習として
行動に音声を関連づける例について主に説明するが、行
動に画像を関連づけることもできることはいうまでもな
い。具体的には、ロボット装置１は、本発明の実現のた
めに次のような構成を有している。

【００９５】ロボット装置１は、図９に示すように、入
力部１０１と、１次強化因子検出部１０２と、２次強化
因子連想部１０３と、行動決定部１０４と、行動記憶部
１０５と、行動出力部１０６と、音声認識部１０７と、
連想記憶部１０８とを備えている。

【００９６】ここで、入力部１０１は、図２に示すマイ
クロホン２３やタッチセンサ２１である。入力部１０１
は、音声信号又はセンサ信号を１次強化因子検出部１０
２及び２次強化因子連想部１０３に供給する。また、入
力部１０１は、音声信号を音声認識部１０７に供給す
る。

【００９７】１次強化因子検出部１０２は、入力部１０
１から供給された音声信号又はセンサ信号から１次強化
因子を検出する。１次強化因子は、予めロボット装置１
が報酬と感じるように設定されているものであり、例え
ば、ロボット装置１の頭部への圧力（頭を軽くたたくこ
とによるもの）の検出や、おめでとうを表す音声信号等
が挙げられる。以下では、１次強化因子として「ブラボ
ー」という音声信号を用いる。１次強化因子検出部１０
２は、１次強化因子を検出すると、１次強化信号を行動
決定部１０４及び行動記憶部１０５に供給する。

【００９８】２次強化因子連想部１０３は、入力部１０
１から供給された音声信号又はセンサ信号から２次強化
因子を連想して検出する。２次強化因子は、１次強化因
子と同様に予めロボット装置１に設定されているもので
あってもよく、また、訓練者が１次強化因子に関連づけ
て設定するようにしてもよい。訓練者が２次強化因子を
設定する場合には、例えば、ロボット装置１を２次強化
因子設定モードとし、図１０に示すようにして設定を行
う。

【００９９】図１０に示すように、２次強化因子を設定
する際には、先ずステップＳ１において、２次強化因子
とする刺激を与える。この刺激は、接触刺激であっても
音声刺激であっても構わない。

【０１００】続いてステップＳ２において、１次強化因
子を与え、ステップＳ３において、ステップＳ１で与え
られた刺激を１次強化因子と関連づけて２次強化因子と
して記憶する。

【０１０１】なお、２次強化因子の設定手法は、この例
に限定されず、例えば、ロボット装置１がある刺激の後
に１次強化因子が与えられたことを多数回、例えば３０
回以上検出すると、その刺激を２次強化因子として記憶
するように予め設定しておいてもよい。また、設定した
２次強化因子を変更可能とすることもできる。この際、
例えば、２次強化因子変更コマンドを与えながら任意の
刺激を与えることにより、２次強化因子を変更すること
ができる。

【０１０２】なお、この２次強化因子は、ロボット装置
１を適当な行動へ誘導するための優れた標識として機能
できるように、素早く与えることができ、且つ、検出し
易いものでなくてはならない。以下では、２次強化因子
として「グッド」という音声信号を用いる。

【０１０３】２次強化因子連想部１０３は、２次強化因
子を検出すると、２次強化信号を行動決定部１０４及び
行動記憶部１０５に供給する。

【０１０４】行動決定部１０４は、あるノード（状態）
から他のノードへの遷移確率に基づいて確率的に次の行
動を決定し、決定結果を行動出力部１０６に供給する。
また、行動決定部１０４は、決定された行動の履歴を行
動記憶部１０５に供給して記憶させる。さらに、行動決
定部１０４は、１次強化因子検出部１０２及び２次強化
因子連想部１０３から供給された１次強化信号及び２次
強化信号に基づいて、後述するように、あるノード（状
態）の選択確率が高くなるように遷移確率を更新する
か、又は直前のノード（状態）からそのノード（状態）
に遷移しやすくなるように遷移確率を更新する。

【０１０５】行動記憶部１０５は、行動決定部１０４に
おいて決定された行動の履歴を記憶する。また、行動記
憶部１０４には、１次強化因子検出部１０２及び２次強
化因子連想部１０３からの１次強化信号及び２次強化信
号が供給され、行動学習モードになってから１次強化信
号が供給されるまでに２次強化信号が与えられた行動を
一連の行動として記憶する。

【０１０６】行動出力部１０６は、行動決定部１０５か
ら供給された行動の決定結果に基づいて、上述した行動
コマンドを図４に示す出力セマンティクスコンバータモ
ジュール６８に送出する。

【０１０７】音声認識部１０７は、入力部１０１から入
力された音声信号を音声処理して、所定の言語として認
識する。具体的には、音声認識部１０７は、ＨＭＭ（Hi
ddenMarkov Model）を採用して構成されており、ＨＭＭ
による複数の認識クラスにより、入力された音声を音韻
系列として認識する。

【０１０８】連想記憶部１０８は、行動学習モードにな
ってから１次強化信号が供給されるまでに２次強化信号
が与えられた一連の行動と音声認識部１０７で認識され
た当該行動を表すコマンドとを関連づけて連想記憶す
る。コマンドと関連づけて連想記憶された一連の行動
は、行動記憶部１０４に記憶される。

【０１０９】ロボット装置１が以上のような構成を有す
ることで、訓練者は、２次強化因子を使ってロボット装
置１を所望の行動へ誘導することができる。すなわち、
訓練者は、ロボット装置１が所望の行動に近づくと２次
強化因子を与え、その行動に近づくための標識とする。
ロボット装置１が最終的に所望の行動を行うと、訓練者
は、１次強化因子を与え、ロボット装置は、それまでの
２次強化因子の与えられた一連の行動を記憶する。そし
て、訓練者がコマンドを発声すると、ロボット装置は、
記憶した一連の動作を順に出力する。なお、記憶された
一連の行動を後述するようにして絞り込むことも可能で
ある。

【０１１０】この行動学習方法の一連の手順を図１１に
示す。図１１に示すように、先ずステップＳ１０におい
て、行動学習モードに設定される。

【０１１１】次にステップＳ１１において、ノードから
ノードへの遷移確率が初期化され、ステップＳ１２にお
いて、ロボット装置１は、現在の遷移確率に応じて行動
を決定し、その行動を出力する。

【０１１２】ステップＳ１３では、ステップＳ１２で出
力した行動によって１次強化因子が与えられたか否かが
判別される。１次強化因子が与えられた場合には、ステ
ップＳ１７に進む。ステップＳ１３において、１次強化
因子が与えられていない場合には、ステップＳ１４に進
む。

【０１１３】ステップＳ１４では、ステップＳ１２で出
力した行動によって２次強化因子が与えられたか否かが
判別される。２次強化因子が与えられていない場合に
は、所望の行動に近づくための行動ではないとし、ステ
ップＳ１２に戻って再び次の行動を決定する。ステップ
Ｓ１４において、２次強化因子が与えられた場合には、
ステップＳ１５に進む。

【０１１４】ステップＳ１５では、ステップＳ１２で出
力した行動を所望の行動に至る行動として記憶し、ステ
ップＳ１６に進む。

【０１１５】ステップＳ１６では、２次強化信号が与え
られた行動の選択確率が高くなるように遷移確率を更新
してステップＳ１２に戻る。

【０１１６】ステップＳ１７では、１次強化信号が与え
られた信号と関連づけるためのコマンドを発声する。

【０１１７】ステップＳ１８では、１次強化信号が与え
られた行動とその行動に至るまでに２次強化信号が与え
られた行動とを一連の行動として、ステップＳ１７で発
声したコマンドと関連づけて記憶して終了する。

【０１１８】本実施の形態における行動学習方法では、
以上のような手順により、ロボット装置１が所望の行動
へ誘導され、その行動を学習する。

【０１１９】なお、図１１のフローチャートでは、遷移
確率を初期化した後に所望の行動と関連づけるコマンド
を発声するようにしたが、これに限定されるものではな
く、ロボット装置１が所望の行動を行った直後に、その
行動と関連づけるコマンドを発声するようにしても構わ
ない。

【０１２０】また、図１１のフローチャートでは、ステ
ップＳ１６において、２次強化信号が与えられた行動の
選択確率が高くなるように遷移確率を更新するものとし
て説明したが、これに限定されるものではなく、例えば
直前の行動から２次強化信号が与えられた行動に遷移し
やすくなるように遷移確率を更新するようにしても構わ
ない。

【０１２１】ところで、訓練者は、２次強化因子を使っ
てロボット装置１を所望の動作へと誘導することができ
るが、これにはまず、ロボット装置１の行動の「位相」
を定義しておく必要がある。すなわち、ロボット装置１
は、ある行動をとった後にはそれと「類似した」行動へ
の切替えが可能でなければならない。現存する行動の位
相を定義するための方法として、以下に２つの例を挙げ
る。

【０１２２】先ず１番目の方法は、各行動を説明的特性
と志向的特性とに分類される１組の特性を用いて説明す
るというものである。

【０１２３】説明的特性は、例えば開始姿勢（立つ、座
る、横たわる）であり、実際、これにはロボットの頭、
脚、またはその他の部分、あるいは音を発するか否かが
関連している。

【０１２４】志向的特性は、行動を起こさせる目的、例
えば、移動するためのものであるか、何かを掴むための
ものであるか、あるいは注目を得るためのものであるか
を表す。各行動は、これらの次元によって定義された空
間中の点としてみることができる。この特性に従って全
ての行動を形式化し、２つの行動間の「距離」を定義す
ることで、ある行動から「類似した」行動へと誘導する
ことができる。

【０１２５】この方法では、一旦特性が選択されると全
ての行動をかなり短時間で表現できるが、行動間の遷移
が予測し難い。

【０１２６】次に２番目の方法は、各行動間の遷移を示
すグラフを作成するものである。この方法によれば、ロ
ボット装置１がとる行動の遷移をより有効に把握するこ
とができる。第１番目の方法と同様に、行動間の客観的
な類似点を、「志向性」と関連した何らかの基準と組合
わせることが可能である。さらに、一般的な行動（座
る、立つ等）と稀な行動（特別なダンスを踊る、体操を
する）とをより明確に区別することができる。図１２
に、グラフフォーマリズムで定義した位相の一部を示
す。また、ロボット装置１が図１２に挙げられた行動を
とった状態の一部を図１３に示す。

【０１２７】図１２を用いて、訓練者が、ロボット装置
１が滅多にとらない特別な行動である穴掘り行動のため
の言葉を教える場合について具体的に説明する。この行
動では、図１３（Ｇ）に示すように、ロボット装置１は
座っており、地面を引掻くのに左前脚を使用する。ま
た、頭はその脚を見ており、その動きを追う。この行動
は、図１２のノード［ＤＩＧ］の状態に対応する。

【０１２８】最初に、ロボット装置１は、図１３（Ａ）
に示すように立ち上がっている、すなわちノード［ＳＴ
ＡＮＤ］の状態にあるとする。ロボット装置１は、先ず
図１３（Ｂ）に示すように歩行を始める、すなわち、ノ
ード［ＳＴＡＮＤ］の状態からノード［ＷＡＬＫ］の状
態に遷移する。このノード［ＷＡＬＫ］への遷移は、所
望の状態であるノード［ＤＩＧ］に近づくものではない
ので、訓練者は、何の強化因子も与えない。そこでロボ
ット装置１は、別の行動をノード［ＳＴＡＮＤ］の状態
から開始する。なお、この際、自動的にノード［ＳＴＡ
ＮＤ］の状態に戻るようにしてもよく、また、遷移確率
に従って戻るようにしてもよい。

【０１２９】次にロボット装置１は、図１３（Ｄ）に示
すように座る、すなわちノード［ＳＩＴ］に遷移する。
このノード［ＳＩＴ］への遷移は、所望の状態であるノ
ード［ＤＩＧ］に近づくものであるため、訓練者は、
「グッド」と言い、ロボット装置１に対して２次強化因
子を与える。この２次強化因子が与えられることで遷移
確率が更新され、ロボット装置１は、２次強化因子の与
えられた行動である座る行動（ノード［ＳＩＴ］）と関
連づけられた行動をとろうとする。

【０１３０】続いてロボット装置１は、図１３（Ｅ）に
示すように、２本の前脚で押し始める。すなわちノード
［ＰＵＳＨ］に遷移する。しかし、このノード［ＰＵＳ
Ｈ］への遷移は、所望の状態であるノード［ＤＩＧ］に
近づくものではないので、訓練者は何の強化因子も与え
ない。そこでロボット装置１は、別の行動をノード［Ｓ
ＩＴ］の状態から開始する。この際にも、自動的にノー
ド［ＳＩＴ］の状態に戻るようにしてもよく、また、遷
移確率に従って戻るようにしてもよい。

【０１３１】続いてロボット装置１は、ノード［ＨＥＬ
ＬＯ］に遷移し、図１３（Ｆ）に示すように左前脚を上
げて「ハロー」の動作を行う。この行動は、穴掘りに使
用する左前脚が関連しているため、訓練者は、ロボット
装置１に「グッド」と言い、２次強化因子を与える。

【０１３２】以上のような訓練者とロボット装置１との
やりとりを経て、ロボット装置１がノード［ＤＩＧ］に
遷移して穴掘り行動を開始すると、訓練者は、「ブラボ
ー」と言い、ロボット装置１に対して１次強化因子を与
える。この１次強化因子は、ロボット装置１が所望の行
動を行ったことを表す。以上の結果、ロボット装置１
は、［ＳＩＴ］−［ＨＥＬＬＯ］−［ＤＩＧ］という一
連の行動を記憶する。

【０１３３】なお、上述した［ＳＩＴ］−［ＨＥＬＬ
Ｏ］−［ＤＩＧ］という経路に限らず、別の経路を使っ
ても、ロボット装置１を所望の行動へと誘導することが
できる。例えば、訓練者は、図１３（Ｃ）に示すような
蹴る行動、すなわちノード［ＫＩＣＫ］を介してロボッ
ト装置１に左脚を移動させ、次に座るように誘導するこ
とができる。

【０１３４】所望の行動が実行され１次強化因子を与え
ると、訓練者は、即座に行動と関連づけるコマンドワー
ドをロボット装置１に与える。その際、ロボット装置１
がコマンドワードを確かに理解したことを確認するため
に、何らかのフィードバックを採用することが好まし
い。フィードバックとしては、例えば、ロボット装置１
が図２に示したスピーカ２４を介してそのコマンドを真
似して繰返し、確認を要求するようにしてもよく、ま
た、「目」であるＬＥＤを点滅させる等により、何かを
理解した旨を示し、コマンドが再度繰り返されるのを待
つようにしてもよい。ロボット装置１が、訓練者により
再び与えられたコマンドを検出できない場合には、訓練
者にもう一度同一のことをさせようとするための特別な
行動（例えば、頭を振る等）により、コマンドを理解で
きなかったことを表すようにしてもよい。

【０１３５】ロボット装置１は、このコマンドワードと
上述した一連の行動とを関連づけて記憶し、再度コマン
ドワードが与えられた際には、記憶した一連の行動、例
えば上述した［ＳＩＴ］−［ＨＥＬＬＯ］−［ＤＩＧ］
という一連の行動を行う。

【０１３６】ここで、訓練者が一連の行動のうちの穴掘
り行動とのみコマンドワードを関連づけたい場合には、
その一連の行動を絞り込む必要がある。このため、コマ
ンドワードが与えられると、ロボット装置１は、記憶し
た一連の動作を自発的に繰り返すようにすることができ
る。ロボット装置１が一連の動作を再び実行した後に１
次強化因子が与えられた場合には、ロボット装置１は、
そのコマンドが一連の行動と関連していると判断する。
そうでない場合には、ロボット装置１は、前に行った一
連の行動に由来するがそれよりも段階数の少ない新しい
一連の行動を作り出し、その新しい一連の行動を行う。
このようにして、最終的に、ロボット装置１は、そのコ
マンドワードが穴掘り行動のみに関連したものであると
判断することができる。

【０１３７】以上説明したように、本実施の形態におけ
るロボット装置１は、訓練者が動物や人に行動を教える
ときと同様にして行動を教示することで、その行動を効
率的に学習することができる。また、その際、２次強化
因子を標識として所望の行動へ誘導されるため、複雑な
動作や稀にしか行わない行動を学習するときの試行錯誤
の回数を減らすことができる。さらに、２次強化因子が
与えられた際に遷移確率を更新することによって、所望
の行動に遷移する確率が高くなり、所望の行動により早
く達することが可能となる。

【０１３８】このような機能がロボット装置１に組み込
まれることで、ユーザ（飼い主）とロボット装置１とが
自然なコミュニケーションを図ることができる。なお、
この制御プログラムは、図２のメモリカード２８又はフ
ラッシュＲＯＭ１２に格納される。

【０１３９】なお、本発明は上述した実施の形態のみに
限定されるものではなく、本発明の要旨を逸脱しない範
囲において種々の変更が可能であることは勿論である。

【０１４０】例えば、上述した実施の形態では、行動と
関連づけるコマンドとして音声情報を用いたが、これに
限定されるものではなく、例えばタッチセンサを介した
接触情報やＣＣＤを介した画像情報であっても構わな
い。

【０１４１】また、上述した実施の形態では、クリッカ
ートレーニングをロボット装置に行動を教示する際に用
いたが、これに限定されるものではなく、他の目的にも
用いることができる。すなわち、物体の名前を教える場
合に、ロボット装置が対象物に近づく際に２次強化因子
を与えることで、ロボット装置は、その対象物に誘導さ
れる。これにより、共同注意といった困難な問題を軽減
することができる。

【０１４２】また、クリッカートレーニングと上述した
ルアーリングとを組み合わせるようにしても構わない。
これにより、ある段階の行動が自発的に実行されるのを
待つ必要がなくなる。

【０１４３】

【発明の効果】以上詳細に説明したように本発明に係る
ロボット装置は、動作部を制御して行動を出現させるロ
ボット装置であって、行動の出現傾向に基づいて、一の
行動を決定する行動決定手段と、上記行動決定手段が決
定した行動に基づいて、上記動作部を制御して、当該決
定された行動を出現させる行動出力手段と、外部情報を
入力する入力手段と、上記入力手段が入力した上記外部
情報から予め設定された１次強化因子を検出する１次強
化因子検出手段と、上記入力手段が入力した上記外部情
報から２次強化因子を検出する２次強化因子検出手段
と、上記行動決定手段が決定した行動を記憶する行動記
憶手段とを備え、上記行動決定手段は、上記２次強化因
子が検出される毎に、当該２次強化因子が検出された行
動の出現傾向を高め、上記行動記憶手段は、上記１次強
化因子が検出されると、少なくとも当該１次強化因子が
検出された行動を記憶することを特徴としている。

【０１４４】ここで、２次強化因子が検出された行動
は、１次強化因子が検出された行動に至るまでの行動で
ある。

【０１４５】このようなロボット装置は、行動の学習時
に、２次強化因子が検出される毎に、当該２次強化因子
が検出された行動の出現傾向を高め、１次強化因子が検
出されると、少なくとも当該１次強化因子が検出された
行動を記憶する。

【０１４６】この発明が適用されたロボット装置は、２
次強化因子を標識として学習しようとする行動に達する
ことができ、行動を効率的に学習することができる。

【０１４７】また、上述した目的を達成するために、本
発明に係るロボット装置の行動学習方法は、動作部を制
御して行動を出現させるロボット装置の行動学習方法で
あって、行動の出現傾向に基づいて、一の行動を決定す
る行動決定工程と、上記行動決定工程で決定された行動
に基づいて、上記動作部を制御して、当該決定された行
動を出現させる行動出力工程と、外部情報を入力する入
力手段が入力した上記外部情報から予め設定された１次
強化因子を検出する１次強化因子検出工程と、上記入力
手段が入力した上記外部情報から２次強化因子を検出す
る２次強化因子検出工程と、上記行動決定工程で決定さ
れた行動を記憶する行動記憶工程とを有し、上記行動決
定工程では、上記２次強化因子が検出される毎に、当該
２次強化因子が検出された行動の出現傾向が高められ、
上記行動記憶工程では、上記１次強化因子が検出される
と、少なくとも当該１次強化因子が検出された行動が記
憶されることを特徴としている。

【０１４８】ここで、２次強化因子が検出された行動
は、１次強化因子が検出された行動に至るまでの行動で
ある。

【０１４９】このようなロボット装置の行動学習方法で
は、行動の学習時に、２次強化因子が検出される毎に、
当該２次強化因子が検出された行動の出現傾向が高めら
れ、１次強化因子が検出されると、少なくとも当該１次
強化因子が検出された行動が記憶される。

【０１５０】この発明が適用されたロボット装置は、２
次強化因子を標識として学習しようとする行動に達する
ことができ、行動を効率的に学習することができる。

【０１５１】また、上述した目的を達成するために、本
発明に係るロボット装置の行動学習プログラムは、動作
部を制御して行動を出現させるロボット装置の行動学習
プログラムであって、行動の出現傾向に基づいて、一の
行動を決定する行動決定工程と、上記行動決定工程で決
定された行動に基づいて、上記動作部を制御して、当該
決定された行動を出現させる行動出力工程と、外部情報
を入力する入力手段が入力した上記外部情報から予め設
定された１次強化因子を検出する１次強化因子検出工程
と、上記入力手段が入力した上記外部情報から２次強化
因子を検出する２次強化因子検出工程と、上記行動決定
工程で決定された行動を記憶する行動記憶工程とを有
し、上記行動決定工程では、上記２次強化因子が検出さ
れる毎に、当該２次強化因子が検出された行動の出現傾
向が高められ、上記行動記憶工程では、上記１次強化因
子が検出されると、少なくとも当該１次強化因子が検出
された行動が記憶されることを特徴としている。

【０１５２】ここで、２次強化因子が検出された行動
は、１次強化因子が検出された行動に至るまでの行動で
ある。

【０１５３】このようなロボット装置の行動学習プログ
ラムでは、行動の学習時に、２次強化因子が検出される
毎に、当該２次強化因子が検出された行動の出現傾向が
高められ、１次強化因子が検出されると、少なくとも当
該１次強化因子が検出された行動が記憶される。

【０１５４】この発明が適用されたロボット装置は、２
次強化因子を標識として学習しようとする行動に達する
ことができ、行動を効率的に学習することができる。

【０１５５】また、上述した目的を達成するために、本
発明に係るプログラム記録媒体は、動作部を制御して行
動を出現させるロボット装置の行動学習プログラムが記
録されたコンピュータ制御可能なプログラム記録媒体で
あって、上記ロボット装置の行動学習プログラムは、行
動の出現傾向に基づいて、一の行動を決定する行動決定
工程と、上記行動決定工程で決定された行動に基づい
て、上記動作部を制御して、当該決定された行動を出現
させる行動出力工程と、外部情報を入力する入力手段が
入力した上記外部情報から予め設定された１次強化因子
を検出する１次強化因子検出工程と、上記入力手段が入
力した上記外部情報から２次強化因子を検出する２次強
化因子検出工程と、上記行動決定工程で決定された行動
を記憶する行動記憶工程とを有し、上記行動決定工程で
は、上記２次強化因子が検出される毎に、当該２次強化
因子が検出された行動の出現傾向が高められ、上記行動
記憶工程では、上記１次強化因子が検出されると、少な
くとも当該１次強化因子が検出された行動が記憶される
ことを特徴とするロボット装置の行動学習プログラムが
記録されたものである。

【０１５６】ここで、２次強化因子が検出された行動
は、１次強化因子が検出された行動に至るまでの行動で
ある。

【０１５７】このようなプログラム記録媒体に記録され
ているロボット装置の行動学習プログラムでは、行動の
学習時に、２次強化因子が検出される毎に、当該２次強
化因子が検出された行動の出現傾向が高められ、１次強
化因子が検出されると、少なくとも当該１次強化因子が
検出された行動が記憶される。

【０１５８】この発明が適用されたロボット装置は、２
次強化因子を標識として学習しようとする行動に達する
ことができ、行動を効率的に学習することができる。

【図面の簡単な説明】

【図１】本発明の実施の形態におけるロボット装置の外
観構成を示す斜視図である。

【図２】同ロボット装置の回路構成を示すブロック図で
ある。

【図３】同ロボット装置のソフトウェア構成を示すブロ
ック図である。

【図４】同ロボット装置のソフトウェア構成におけるミ
ドル・ウェア・レイヤの構成を示すブロック図である。

【図５】同ロボット装置のソフトウェア構成におけるア
プリケーション・レイヤの構成を示すブロック図であ
る。

【図６】同アプリケーション・レイヤの行動モデルライ
ブラリの構成を示すブロック図である。

【図７】同ロボット装置の行動決定のための情報となる
有限確率オートマトンを説明する図である。

【図８】有限確率オートマトンの各ノードに用意された
状態遷移表を示す図である。

【図９】同ロボット装置における本発明に係る部分の構
成を示すブロック図である。

【図１０】２次強化因子を設定する場合の手順を説明す
るフローチャートである。

【図１１】同ロボット装置の行動学習方法の一連の手順
を説明するフローチャートである。

【図１２】同ロボット装置が行う行動間の遷移を説明す
る図である。

【図１３】同ロボット装置が行う行動の一部を説明する
図である。

【図１４】従来の動物に対する行動教示方法の例を説明
する図である。

【符号の説明】

１ロボット装置、１０１入力部、１０２１次強化
因子検出部、１０３２次強化因子連想部、１０４行動
決定部、１０５行動記憶部、１０６行動出力部、１
０７音声認識部、１０８連想記憶部

フロントページの続き (72)発明者カプランフレデリックフランス国、75005 パリ市アミヨ通り６番地ソニーコンピュータサイエンス研究所パリオフィス内 (72)発明者ピエールイブスオードェフランス国、75005 パリ市アミヨ通り６番地ソニーコンピュータサイエンス研究所パリオフィス内 (72)発明者花形理東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 2C150 CA02 DA05 DA24 DA25 DA26 DA27 DA28 DF03 DF04 DF06 DF33 ED10 ED39 ED42 ED47 ED52 EF07 EF09 EF16 EF17 EF22 EF23 EF28 EF29 EF33 EF36 3C007 AS36 CS08 LW12 MT14 WA04 WA14 WB18

Claims

【特許請求の範囲】

【請求項１】動作部を制御して行動を出現させるロボ
ット装置であって、行動の出現傾向に基づいて、一の行動を決定する行動決
定手段と、上記行動決定手段が決定した行動に基づいて、上記動作
部を制御して、当該決定された行動を出現させる行動出
力手段と、外部情報を入力する入力手段と、上記入力手段が入力した上記外部情報から予め設定され
た１次強化因子を検出する１次強化因子検出手段と、上記入力手段が入力した上記外部情報から２次強化因子
を検出する２次強化因子検出手段と、上記行動決定手段が決定した行動を記憶する行動記憶手
段とを備え、上記行動決定手段は、上記２次強化因子が検出される毎
に、当該２次強化因子が検出された行動の出現傾向を高
め、上記行動記憶手段は、上記１次強化因子が検出される
と、少なくとも当該１次強化因子が検出された行動を記
憶することを特徴とするロボット装置。
【請求項２】上記２次強化因子が検出された行動は、
上記１次強化因子が検出された行動に至るまでの行動で
あることを特徴とする請求項１記載のロボット装置。
【請求項３】上記行動記憶手段は、上記１次強化因子
が検出された行動を、当該行動前に上記２次強化因子が
検出された行動との関連性のもとに記憶することを特徴
とする請求項１記載のロボット装置。
【請求項４】上記行動記憶手段は、上記１次強化因子
が検出された行動までに上記２次強化因子が検出された
行動をシーケンス行動として記憶することを特徴とする
請求項３記載のロボット装置。
【請求項５】上記行動決定手段は、上記シーケンス行
動に含まれる各行動の出現傾向を高めることを特徴とす
る請求項４記載のロボット装置。
【請求項６】上記１次強化因子が検出されると、上記
シーケンス行動を順に再現するようになされており、上記行動出力手段は、上記シーケンス行動に含まれる各
行動を順に出現させ、その結果、上記１次強化因子が検
出された場合には、上記行動記憶手段は、上記シーケン
ス行動を確定して記憶し、上記１次強化因子が検出され
なかった場合には、上記行動出力手段は、上記１次強化
因子が検出されるまで上記シーケンス行動に含まれる各
行動の数を減らして順に出現させることを特徴とする請
求項４記載のロボット装置。
【請求項７】上記入力手段が入力した所定の外部情報
と上記行動記憶手段が記憶した上記１次強化因子が検出
された行動とを関連づけて連想記憶する連想記憶手段を
備えることを特徴とする請求項１記載のロボット装置。
【請求項８】上記入力手段が入力した音声情報を音声
処理して所定の言語として認識する音声認識手段を備
え、上記連想記憶手段は、上記音声処理により認識された所
定のコマンドと上記行動記憶手段が記憶した上記１次強
化因子が検出された行動とを関連づけて連想記憶するこ
とを特徴とする請求項７記載のロボット装置。
【請求項９】上記所定のコマンドは、上記１次強化因
子が検出された後に入力されたものであることを特徴と
する請求項８記載のロボット装置。
【請求項１０】上記入力手段が入力した音声情報を音
声処理して所定の言語として認識する音声認識手段と、上記音声処理により認識された上記シーケンス行動に関
わる所定のコマンドと上記行動記憶手段が記憶した上記
シーケンス行動とを関連づけて連想記憶する連想記憶手
段とを備えることを特徴とする請求項４記載のロボット
装置。
【請求項１１】行動を学習するための行動学習モード
を有し、上記行動記憶手段は、上記行動学習モードにおいて上記
１次強化因子が検出されると、少なくとも当該１次強化
因子が検出された行動を記憶することを特徴とする請求
項８記載のロボット装置。
【請求項１２】上記所定のコマンドは、上記行動学習
モードとされた直後に入力されたものであることを特徴
とする請求項１１記載のロボット装置。
【請求項１３】２次強化因子を設定するための２次強
化因子設定モードを有し、上記２次強化因子設定モードにおいて、任意の外部情報
が入力された後に上記１次強化因子が検出されると、当
該外部情報が上記２次強化因子とされることを特徴とす
る請求項１記載のロボット装置。
【請求項１４】任意の外部情報が入力された後に上記
１次強化因子が検出されたことが所定回数以上連続する
と、当該外部情報が上記２次強化因子とされることを特
徴とする請求項１記載のロボット装置。
【請求項１５】上記１次強化因子及び上記２次強化因
子は、上記入力手段が入力した音声情報であることを特
徴とする請求項１記載のロボット装置。
【請求項１６】動作部を制御して行動を出現させるロ
ボット装置の行動学習方法であって、行動の出現傾向に基づいて、一の行動を決定する行動決
定工程と、上記行動決定工程で決定された行動に基づいて、上記動
作部を制御して、当該決定された行動を出現させる行動
出力工程と、外部情報を入力する入力手段が入力した上記外部情報か
ら予め設定された１次強化因子を検出する１次強化因子
検出工程と、上記入力手段が入力した上記外部情報から２次強化因子
を検出する２次強化因子検出工程と、上記行動決定工程で決定された行動を記憶する行動記憶
工程とを有し、上記行動決定工程では、上記２次強化因子が検出される
毎に、当該２次強化因子が検出された行動の出現傾向が
高められ、上記行動記憶工程では、上記１次強化因子が検出される
と、少なくとも当該１次強化因子が検出された行動が記
憶されることを特徴とするロボット装置の行動学習方
法。
【請求項１７】上記２次強化因子が検出された行動
は、上記１次強化因子が検出された行動に至るまでの行
動であることを特徴とする請求項１６記載のロボット装
置の行動学習方法。
【請求項１８】上記行動記憶工程では、上記１次強化
因子が検出された行動が、当該行動前に上記２次強化因
子が検出された行動との関連性のもとに記憶されること
を特徴とする請求項１７記載のロボット装置の行動学習
方法。
【請求項１９】上記行動記憶工程では、上記１次強化
因子が検出された行動までに上記２次強化因子が検出さ
れた行動がシーケンス行動として記憶されることを特徴
とする請求項１８記載のロボット装置の行動学習方法。
【請求項２０】上記行動決定工程では、上記シーケン
ス行動に含まれる各行動の出現傾向が高められることを
特徴とする請求項１９記載のロボット装置の行動学習方
法。
【請求項２１】上記１次強化因子が検出されると、上
記シーケンス行動を順に再現するようになされており、上記行動出力工程では、上記シーケンス行動に含まれる
各行動が順に出現され、その結果、上記１次強化因子が
検出された場合には、上記行動記憶工程では、上記シー
ケンス行動を確定して記憶し、上記１次強化因子が検出
されなかった場合には、上記行動出力工程では、上記１
次強化因子が検出されるまで上記シーケンス行動に含ま
れる各行動の数が減らされて順に出現されることを特徴
とする請求項１９記載のロボット装置の行動学習方法。
【請求項２２】上記入力手段が入力した所定の外部情
報と上記行動記憶工程で記憶された上記１次強化因子が
検出された行動とを関連づけて連想記憶する連想記憶工
程を有することを特徴とする請求項１６記載のロボット
装置の行動学習方法。
【請求項２３】上記入力手段が入力した音声情報を音
声処理して所定の言語として認識する音声認識工程を有
し、上記連想記憶工程では、上記音声処理により認識された
所定のコマンドと上記行動記憶工程で記憶された上記１
次強化因子が検出された行動とを関連づけて連想記憶す
ることを特徴とする請求項２２記載のロボット装置の行
動学習方法。
【請求項２４】上記所定のコマンドは、上記１次強化
因子が検出された後に入力されたものであることを特徴
とする請求項２３記載のロボット装置の行動学習方法。
【請求項２５】上記入力手段が入力した音声情報を音
声処理して所定の言語として認識する音声認識工程と、上記音声処理により認識された上記シーケンス行動に関
わる所定のコマンドと上記行動記憶工程で記憶された上
記シーケンス行動とを関連づけて連想記憶する連想記憶
工程とを有することを特徴とする請求項１９記載のロボ
ット装置の行動学習方法。
【請求項２６】行動を学習するための行動学習モード
を有し、上記行動記憶工程では、上記行動学習モードにおいて上
記１次強化因子が検出されると、少なくとも当該１次強
化因子が検出された行動が記憶されることを特徴とする
請求項２３記載のロボット装置の行動学習方法。
【請求項２７】上記所定のコマンドは、上記行動学習
モードとされた直後に入力されたものであることを特徴
とする請求項２６記載のロボット装置の行動学習方法。
【請求項２８】２次強化因子を設定するための２次強
化因子設定モードを有し、上記２次強化因子設定モードにおいて、任意の外部情報
が入力された後に上記１次強化因子が検出されると、当
該外部情報が上記２次強化因子とされることを特徴とす
る請求項１６記載のロボット装置の行動学習方法。
【請求項２９】任意の外部情報が入力された後に上記
１次強化因子が検出されたことが所定回数以上連続する
と、当該外部情報が上記２次強化因子とされることを特
徴とする請求項１６記載のロボット装置の行動学習方
法。
【請求項３０】上記１次強化因子及び上記２次強化因
子は、上記入力手段が入力した音声情報であることを特
徴とする請求項１６記載のロボット装置の行動学習方
法。
【請求項３１】動作部を制御して行動を出現させるロ
ボット装置の行動学習プログラムであって、行動の出現傾向に基づいて、一の行動を決定する行動決
定工程と、上記行動決定工程で決定された行動に基づいて、上記動
作部を制御して、当該決定された行動を出現させる行動
出力工程と、外部情報を入力する入力手段が入力した上記外部情報か
ら予め設定された１次強化因子を検出する１次強化因子
検出工程と、上記入力手段が入力した上記外部情報から２次強化因子
を検出する２次強化因子検出工程と、上記行動決定工程で決定された行動を記憶する行動記憶
工程とを有し、上記行動決定工程では、上記２次強化因子が検出される
毎に、当該２次強化因子が検出された行動の出現傾向が
高められ、上記行動記憶工程では、上記１次強化因子が検出される
と、少なくとも当該１次強化因子が検出された行動が記
憶されることを特徴とするロボット装置の行動学習プロ
グラム。
【請求項３２】動作部を制御して行動を出現させるロ
ボット装置の行動学習プログラムが記録されたコンピュ
ータ制御可能なプログラム記録媒体であって、上記ロボット装置の行動学習プログラムは、行動の出現傾向に基づいて、一の行動を決定する行動決
定工程と、上記行動決定工程で決定された行動に基づいて、上記動
作部を制御して、当該決定された行動を出現させる行動
出力工程と、外部情報を入力する入力手段が入力した上記外部情報か
ら予め設定された１次強化因子を検出する１次強化因子
検出工程と、上記入力手段が入力した上記外部情報から２次強化因子
を検出する２次強化因子検出工程と、上記行動決定工程で決定された行動を記憶する行動記憶
工程とを有し、上記行動決定工程では、上記２次強化因子が検出される
毎に、当該２次強化因子が検出された行動の出現傾向が
高められ、上記行動記憶工程では、上記１次強化因子が検出される
と、少なくとも当該１次強化因子が検出された行動が記
憶されることを特徴とするロボット装置の行動学習プロ
グラムが記録されたプログラム記録媒体。