JP2003039363A - ロボット装置、ロボット装置の行動学習方法、ロボット装置の行動学習プログラム、及びプログラム記録媒体 - Google Patents

ロボット装置、ロボット装置の行動学習方法、ロボット装置の行動学習プログラム、及びプログラム記録媒体

Info

Publication number
JP2003039363A
JP2003039363A JP2002127374A JP2002127374A JP2003039363A JP 2003039363 A JP2003039363 A JP 2003039363A JP 2002127374 A JP2002127374 A JP 2002127374A JP 2002127374 A JP2002127374 A JP 2002127374A JP 2003039363 A JP2003039363 A JP 2003039363A
Authority
JP
Japan
Prior art keywords
behavior
action
detected
factor
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002127374A
Other languages
English (en)
Inventor
Frederic Kaplan
フレデリック カプラン
Pierre-Yves Oudeyer
イブス オードェ ピエール
Osamu Hanagata
理 花形
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony France SA
Sony Corp
Original Assignee
Sony France SA
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony France SA, Sony Corp filed Critical Sony France SA
Publication of JP2003039363A publication Critical patent/JP2003039363A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H11/00Self-movable toy figures
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H2200/00Computerized interactive toys, e.g. dolls

Abstract

(57)【要約】 【課題】 複雑で連続的な行動等を効率的に学習する。 【解決手段】 ロボット装置では、行動決定部104で
確率的に決定された行動に基づいて、行動出力部106
がその行動を実行させるコマンドを出力する。所望の行
動に近づくと、訓練者は、ロボット装置に2次強化因子
を与え、所望の行動に近づくための標識とする。2次強
化因子が検出されると、行動決定部104は、所望の行
動への遷移確率を変化させる。最終的にロボット装置が
所望の行動を行うと、訓練者は、ロボット装置に1次強
化因子を与える。所望の行動に至る一連の行動とコマン
ドとを関連づける場合には、行動記憶部105から読み
出された一連の行動と音声認識部107で認識されたコ
マンドとが、連想記憶部108にて連想記憶される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自律的に行動する
ロボット装置、そのようなロボット装置が所望の行動を
学習するロボット装置の行動学習方法、ロボット装置の
行動学習プログラム、及び当該ロボット装置の行動学習
プログラムの記録されたプログラム記録媒体に関する。
【0002】
【従来の技術】従来より、犬等の動物を飼い慣らすため
に、調教が行われている。例えば、犬の飼い主は、「お
手」や「お座り」等の行動を犬に対して教示する。しか
し、多くの犬の飼主は、犬を所望の位置につかせようと
しながら、同時に命令するという間違いを犯している。
例えば、訓練者は、「お座り」という言葉を繰り返しな
がら、犬のお尻を地面に向かって押下げる。この方法が
成功しないのは、以下のような理由からである。
【0003】(1)動物は、訓練者の言葉か学習行動の
いずれかに注意を払う選択を強いられる。
【0004】(2)命令を複数回繰り返すため、動物は
そのうちのどの部分が行動と関連しているのかわからな
い。
【0005】(3)行動する前に命令される場合が非常
に多い。例えば、動物がまだ立っているうちに「お座
り」と命令してしまうため、「お座り」を座った状態と
関連させることができない。
【0006】このような理由により、多くの訓練者は命
令と行動とを別々に教える。実際には最初に行動を教
え、次に命令を教える。
【0007】動物に行動を教えるための方法には、代表
的なものとして、モデリング(Modelling)、ルアーリ
ング(Ruring)、キャプチャリング(Capturing)、イ
ミテーション(Imitating)等があり、それぞれ図14
に示すような特徴を有する。以下、簡単に説明する。
【0008】モデリングは、多くの犬の飼い主が試行す
る方法であるが、専門家である調教師が行うことは決し
てない。この方法は、動物を所望のポジションへ物理的
に操り、そのポジションにつくことができたら褒めてあ
げるというものである。この方法では、動物は受身のま
まである。そのため、多くの場合において行動学習の成
果が上がらない。また、静止ポジションへ達する以上の
複雑な動きをこの方法により実現するのは容易ではな
い。
【0009】ルアリングは、動物との物理的な接触がな
い点を除いてモデリングと類似している。訓練者は、玩
具や食べ物を動物の鼻の前に置き、これを使って動物を
所望のポジションに誘導することができる。この方法
は、実際の動物の場合には良い成果が得られるが、その
使用は、あるポジションや非常に単純な動作を教えると
きに限定される。
【0010】キャプチャリングは、上述したモデリング
やルアリングとは異なり、動物の自発的な行動を利用し
たものである。例えば、訓練者は、動物が所望のポジシ
ョンについている、又は正確な行動をとっていると認識
する毎に、ポジティブな強化因子を動物に与える。この
方法についても、実際の動物の場合には良い成果が得ら
れるが、訓練者は、動物が所望のポジションにつくまで
待つ必要がある。例えば、「お座り」を教えるときに
は、訓練者は、動物が自発的に座るのを待つ必要があ
る。また、この方法は、動物の自発的な行動を利用した
ものであるため、連続的な動作や珍しい動作を教えるこ
とが困難である。
【0011】イミテーションは、動物に訓練者と同じ動
作を模倣させるものであるが、訓練者がイミテーション
に基づいた方法を用いることは滅多にない。この方法で
は、連続的な動作や珍しい動作についても教えることが
できるが、この方法は、霊長類や海洋哺乳動物等の高等
動物についてしか確認されていない。
【0012】
【発明が解決しようとする課題】ところで、近年、動物
を模した形状とされたロボット装置、いわゆるペットロ
ボットが提案されている。このようなロボット装置は、
一般家庭において飼育される犬や猫に似た形状を有し、
ユーザ(飼い主)からの「叩く」や「撫でる」といった
働きかけや、周囲の環境等に応じて自律的に行動する。
例えば、自律的な行動として、実際の動物と同様に、
「吠える」、「寝る」等といった行動をする。
【0013】このようなロボット装置が実際の動物のよ
うな行動に、より近づくことができれば、ロボット装置
の生物感が一層増し、ユーザ(飼い主)は、ロボット装
置に一層の親近感や満足感を感じる。これにより、ロボ
ット装置のアミューズメント性が向上する。
【0014】例えば、実際の動物に対するのと同様に、
ユーザ(飼い主)が自らの所有するロボット装置に対し
て所望の動作を教示し、ロボット装置を“飼い慣らす”
ことができれば、ユーザ(飼い主)は、ロボット装置に
一層の親近感や満足感を感じるようになると考えられ
る。
【0015】しかし、上述したような実際の動物に行動
を教えるための方法を、自律的に行動するロボット装置
に適用するには、種々の問題が存在する。
【0016】例えば、上述したモデリングは、産業界に
おいてロボット装置にポジションを教えるために多く用
いられてきたが、ロボット装置が自律的に行動し、常時
活発になると問題が生じてくる。すなわち、ロボット装
置は、例えば、訓練者が背中を押していることを感知す
ることができ、また、プログラムされていれば座る判断
を下すことができる。しかし、静止ポジションへ達する
以上の複雑な動きをこの方法により実現するのは容易で
はないという問題がある。
【0017】また、上述したルアリングは、ロボット工
学ではあまり使用されていない。ロボット装置が自動的
に所定のもの、例えば赤いものに興味を示すようにプロ
グラムされていれば、訓練者は、この特性を利用してロ
ボット装置を所望のポジションにつかせることができ
る。しかし、これも使用範囲が限られるという問題があ
る。
【0018】上述したキャプチャリングは、この方法を
用いて、ロボット装置が信号(例えば言葉)と関連した
所望の行動をとる毎に、その信号を後から発信するとい
うモデルを作成することができる。しかし、ロボット装
置に「お座り」のような言葉を教えるには、訓練者は、
ロボット装置が自発的に座るのを待つ必要があるという
問題がある。また、名前をつけることができる動作の数
が多過ぎるという問題や、動物の自発的な行動を利用し
たものであるため、連続的な動作や珍しい動作を教える
ことが困難であるといった問題がある。
【0019】上述したイミテーションは、例えば、「Y.
Kuniyoshi et al.,"Learning by watching:Extracting
reusable task knowledge from visual observation of
human performance.",IEEE Transactions on Robotics
and Automation,10(6):799-822,1994」等に記載されて
いるように、ロボット工学において、いくつかの研究グ
ループが取り組んできた。この方法では、原理的に、連
続した動作や非常に珍しい動作を教えることができる
が、多大な量の計算能力を必要とするため、この方法を
既存の自律的に行動するロボット装置に適用することは
困難である。
【0020】本発明は、このような従来の実情に鑑みて
提案されたものであり、複雑で連続的な行動等を修得す
ることのできるロボット装置、このようなロボット装置
の行動学習方法、ロボット装置の行動学習プログラム、
及び当該ロボット装置の行動学習プログラムの記録され
たプログラム記録媒体を提供することを目的とする。
【0021】
【課題を解決するための手段】上述した目的を達成する
ために、本発明に係るロボット装置は、動作部を制御し
て行動を出現させるロボット装置であって、行動の出現
傾向に基づいて、一の行動を決定する行動決定手段と、
上記行動決定手段が決定した行動に基づいて、上記動作
部を制御して、当該決定された行動を出現させる行動出
力手段と、外部情報を入力する入力手段と、上記入力手
段が入力した上記外部情報から予め設定された1次強化
因子を検出する1次強化因子検出手段と、上記入力手段
が入力した上記外部情報から2次強化因子を検出する2
次強化因子検出手段と、上記行動決定手段が決定した行
動を記憶する行動記憶手段とを備え、上記行動決定手段
は、上記2次強化因子が検出される毎に、当該2次強化
因子が検出された行動の出現傾向を高め、上記行動記憶
手段は、上記1次強化因子が検出されると、少なくとも
当該1次強化因子が検出された行動を記憶することを特
徴としている。
【0022】ここで、2次強化因子が検出された行動
は、1次強化因子が検出された行動に至るまでの行動で
ある。
【0023】このようなロボット装置は、行動の学習時
に、2次強化因子が検出される毎に、当該2次強化因子
が検出された行動の出現傾向を高め、1次強化因子が検
出されると、少なくとも当該1次強化因子が検出された
行動を記憶する。
【0024】また、上述した目的を達成するために、本
発明に係るロボット装置の行動学習方法は、動作部を制
御して行動を出現させるロボット装置の行動学習方法で
あって、行動の出現傾向に基づいて、一の行動を決定す
る行動決定工程と、上記行動決定工程で決定された行動
に基づいて、上記動作部を制御して、当該決定された行
動を出現させる行動出力工程と、外部情報を入力する入
力手段が入力した上記外部情報から予め設定された1次
強化因子を検出する1次強化因子検出工程と、上記入力
手段が入力した上記外部情報から2次強化因子を検出す
る2次強化因子検出工程と、上記行動決定工程で決定さ
れた行動を記憶する行動記憶工程とを有し、上記行動決
定工程では、上記2次強化因子が検出される毎に、当該
2次強化因子が検出された行動の出現傾向が高められ、
上記行動記憶工程では、上記1次強化因子が検出される
と、少なくとも当該1次強化因子が検出された行動が記
憶されることを特徴としている。
【0025】ここで、2次強化因子が検出された行動
は、1次強化因子が検出された行動に至るまでの行動で
ある。
【0026】このようなロボット装置の行動学習方法で
は、行動の学習時に、2次強化因子が検出される毎に、
当該2次強化因子が検出された行動の出現傾向が高めら
れ、1次強化因子が検出されると、少なくとも当該1次
強化因子が検出された行動が記憶される。
【0027】また、上述した目的を達成するために、本
発明に係るロボット装置の行動学習プログラムは、動作
部を制御して行動を出現させるロボット装置の行動学習
プログラムであって、行動の出現傾向に基づいて、一の
行動を決定する行動決定工程と、上記行動決定工程で決
定された行動に基づいて、上記動作部を制御して、当該
決定された行動を出現させる行動出力工程と、外部情報
を入力する入力手段が入力した上記外部情報から予め設
定された1次強化因子を検出する1次強化因子検出工程
と、上記入力手段が入力した上記外部情報から2次強化
因子を検出する2次強化因子検出工程と、上記行動決定
工程で決定された行動を記憶する行動記憶工程とを有
し、上記行動決定工程では、上記2次強化因子が検出さ
れる毎に、当該2次強化因子が検出された行動の出現傾
向が高められ、上記行動記憶工程では、上記1次強化因
子が検出されると、少なくとも当該1次強化因子が検出
された行動が記憶されることを特徴としている。
【0028】ここで、2次強化因子が検出された行動
は、1次強化因子が検出された行動に至るまでの行動で
ある。
【0029】このようなロボット装置の行動学習プログ
ラムでは、行動の学習時に、2次強化因子が検出される
毎に、当該2次強化因子が検出された行動の出現傾向が
高められ、1次強化因子が検出されると、少なくとも当
該1次強化因子が検出された行動が記憶される。
【0030】また、上述した目的を達成するために、本
発明に係るプログラム記録媒体は、動作部を制御して行
動を出現させるロボット装置の行動学習プログラムが記
録されたコンピュータ制御可能なプログラム記録媒体で
あって、上記ロボット装置の行動学習プログラムは、行
動の出現傾向に基づいて、一の行動を決定する行動決定
工程と、上記行動決定工程で決定された行動に基づい
て、上記動作部を制御して、当該決定された行動を出現
させる行動出力工程と、外部情報を入力する入力手段が
入力した上記外部情報から予め設定された1次強化因子
を検出する1次強化因子検出工程と、上記入力手段が入
力した上記外部情報から2次強化因子を検出する2次強
化因子検出工程と、上記行動決定工程で決定された行動
を記憶する行動記憶工程とを有し、上記行動決定工程で
は、上記2次強化因子が検出される毎に、当該2次強化
因子が検出された行動の出現傾向が高められ、上記行動
記憶工程では、上記1次強化因子が検出されると、少な
くとも当該1次強化因子が検出された行動が記憶される
ことを特徴とするロボット装置の行動学習プログラムが
記録されたものである。
【0031】ここで、2次強化因子が検出された行動
は、1次強化因子が検出された行動に至るまでの行動で
ある。
【0032】このようなプログラム記録媒体に記録され
ているロボット装置の行動学習プログラムでは、行動の
学習時に、2次強化因子が検出される毎に、当該2次強
化因子が検出された行動の出現傾向が高められ、1次強
化因子が検出されると、少なくとも当該1次強化因子が
検出された行動が記憶される。
【0033】
【発明の実施の形態】以下、本発明を適用した具体的な
実施の形態について、図面を参照しながら詳細に説明す
る。この実施の形態は、本発明を、周囲の環境(外的要
因)や内部の状態(内的要因)に応じて自律的に行動を
するロボット装置に適用したものである。
【0034】実施の形態では、先ず、ロボット装置の構
成について説明して、その後、ロボット装置における本
発明の適用部分について詳細に説明する。
【0035】(1)本実施の形態におけるロボット装置
の構成 図1に示すように、「犬」を模した形状のいわゆるペッ
トロボットとされ、胴体部ユニット2の前後左右にそれ
ぞれ脚部ユニット3A,3B,3C,3Dが連結される
と共に、胴体部ユニット2の前端部及び後端部にそれぞ
れ頭部ユニット4及び尻尾部ユニット5が連結されて構
成されている。
【0036】胴体部ユニット2には、図2に示すよう
に、CPU(Central Processing Unit)10、DRA
M(Dynamic Random Access Memory)11、フラッシュ
ROM(Read Only Memory)12、PC(Personal Com
puter)カードインターフェース回路13及び信号処理
回路14が内部バス15を介して相互に接続されること
により形成されたコントロール部16と、このロボット
装置の動力源としてのバッテリ17とが収納されてい
る。また、胴体部ユニット2には、ロボット装置1の向
きや動きの加速度を検出するための角速度センサ18及
び加速度センサ19なども収納されている。
【0037】また、頭部ユニット4には、外部の状況を
撮像するためのCCD(Charge Coupled Device)カメ
ラ20と、ユーザからの「撫でる」や「叩く」といった
物理的な働きかけにより受けた圧力を検出するためのタ
ッチセンサ21と、前方に位置する物体までの距離を測
定するための距離センサ22と、外部音を集音するため
のマイクロホン23と、鳴き声等の音声を出力するため
のスピーカ24と、ロボット装置1の「目」に相当する
LED(Light Emitting Diode)(図示せず)となどが
それぞれ所定位置に配置されている。
【0038】さらに、各脚部ユニット3A〜3Dの関節
部分や各脚部ユニット及び胴体部ユニット2の各連結部
分、頭部ユニット4及び胴体部ユニット2の連結部分、
並びに尻尾部ユニット5の尻尾5Aの連結部分などには
それぞれ自由度数分のアクチュエータ25,25
・・・及びポテンショメータ26,26,・・・が
配設されている。例えば、アクチュエータ25,25
,・・・は、サーボモータを構成として有している。
サーボモータの駆動により、脚部ユニット3A〜3Dが
制御されて、目的の姿勢或いは動作に遷移する。
【0039】そして、これら角速度センサ18、加速度
センサ19、タッチセンサ21、距離センサ22、マイ
クロホン23、スピーカ24及び各ポテンショメータ2
,26,・・・などの各種センサ並びにLED及
び各アクチュエータ25,25,・・・は、それぞ
れ対応するハブ27〜27を介してコントロール部
16の信号処理回路14と接続され、CCDカメラ20
及びバッテリ17は、それぞれ信号処理回路14と直接
接続されている。
【0040】信号処理回路14は、上述の各センサから
供給されるセンサデータや画像データ及び音声データを
順次取り込み、これらをそれぞれ内部バス15を介して
DRAM11内の所定位置に順次格納する。また、信号
処理回路14は、これと共にバッテリ17から供給され
るバッテリ残量を表すバッテリ残量データを順次取り込
み、これをDRAM11内の所定位置に格納する。
【0041】このようにしてDRAM11内に格納され
た各センサデータ、画像データ、音声データ及びバッテ
リ残量データは、この後CPU10がこのロボット装置
1の動作制御を行う際に利用される。
【0042】実際上CPU10は、ロボット装置1の電
源が投入された初期時、胴体部ユニット2の図示しない
PCカードスロットに装填されたメモリカード28又は
フラッシュROM12に格納された制御プログラムをP
Cカードインターフェース回路13を介して又は直接読
み出し、これをDRAM11に格納する。
【0043】また、CPU10は、この後上述のように
信号処理回路14よりDRAM11に順次格納される各
センサデータ、画像データ、音声データ及びバッテリ残
量データの基づいて自己及び周囲の状況や、ユーザから
の指令及び働きかけの有無などを判断する。
【0044】さらに、CPU10は、この判断結果及び
DRAM11に格納した制御プログラムに基づいて続く
行動を決定すると共に、当該決定結果に基づいて必要な
アクチュエータ25,25,・・・を駆動させるこ
とにより、頭部ユニット4を上下左右に振らせたり、尻
尾部ユニット5の尻尾5Aを動かせたり、各脚部ユニッ
ト3A〜3Dを駆動させて歩行させるなどの行動を行わ
せる。
【0045】また、この際CPU10は、必要に応じて
音声データを生成し、これを信号処理回路14を介して
音声信号としてスピーカ24に与えることにより、当該
音声信号に基づく音声を外部に出力させたり、上述のL
EDを点灯又は点滅させる。
【0046】このようにして、このロボット装置1にお
いては、自己及び周囲の状況や、ユーザからの指令及び
働きかけに応じて自律的に行動し得るようになされてい
る。
【0047】(2)制御プログラムのソフトウェア構成 ここで、ロボット装置1における上述の制御プログラム
のソフトウェア構成は、図3に示すようになる。この図
3において、デバイス・ドライバ・レイヤ30は、この
制御プログラムの最下位層に位置し、複数のデバイス・
ドライバからなるデバイス・ドライバ・セット31から
構成されている。この場合、各デバイス・ドライバは、
CCDカメラ20(図2)や、タイマ等の通常のコンピ
ュータで用いられるハードウェアに直接アクセスするこ
とを許されたオブジェクトであり、対応するハードウェ
アからの割り込みを受けて処理を行う。
【0048】また、ロボティック・サーバ・オブジェク
ト32は、デバイス・ドライバ・レイヤ30の最下位層
に位置し、例えば上述の各種センサやアクチュエータ2
,25,・・・等のハードウェアにアクセスする
ためのインターフェースを提供するソフトウェア群でな
るバーチャル・ロボット33と、電源の切り換えなどを
管理するソフトウェア群でなるパワーマネージャ34
と、他の種々のデバイス・ドライバを管理するソフトウ
ェア群でなるデバイス・ドライバ・マネージャ35と、
ロボット装置1の機構を管理するソフトウェア群でなる
デザインド・ロボット36とから構成されている。
【0049】マネージャ・オブジェクト37は、オブジ
ェクト・マネージャ38及びサービス・マネージャ39
から構成されている。この場合、オブジェクト・マネー
ジャ38は、ロボティック・サーバ・オブジェクト3
2、ミドル・ウェア・レイヤ40、及びアプリケーショ
ン・レイヤ41に含まれる各ソフトウェア群の起動や終
了を管理するソフトウェア群であり、サービス・マネー
ジャ39は、メモリカード28(図2)に格納されたコ
ネクションファイルに記述されている各オブジェクト間
の接続情報に基づいて各オブジェクトの接続を管理する
ソフトウェア群である。
【0050】ミドル・ウェア・レイヤ40は、ロボティ
ック・サーバ・オブジェクト32の上位層に位置し、画
像処理や音声処理などのこのロボット装置1の基本的な
機能を提供するソフトウェア群から構成されている。ま
た、アプリケーション・レイヤ41は、ミドル・ウェア
・レイヤ40の上位層に位置し、当該ミドル・ウェア・
レイヤ40を構成する各ソフトウェア群によって処理さ
れた処理結果に基づいてロボット装置1の行動を決定す
るためのソフトウェア群から構成されている。
【0051】なお、ミドル・ウェア・レイヤ40及びア
プリケーション・レイヤ41の具体的なソフトウェア構
成を図4に示す。
【0052】ミドル・ウェア・レイヤ40においては、
図4に示すように、騒音検出用、温度検出用、明るさ検
出用、音階認識用、距離検出用、姿勢検出用、タッチセ
ンサ用、動き検出用及び色認識用の各信号処理モジュー
ル50〜58並びに入力セマンティクスコンバータモジ
ュール59などを有する認識系60と、出力セマンティ
クスコンバータモジュール68並びに姿勢管理用、トラ
ッキング用、モーション再生用、歩行用、転倒復帰用、
LED点灯用及び音再生用の各信号処理モジュール61
〜67などを有する出力系69とから構成されている。
【0053】認識系60の各信号処理モジュール50〜
58は、ロボティック・サーバ・オブジェクト32のバ
ーチャル・ロボット33によりDRAM11(図2)か
ら読み出される各センサデータや画像データ及び音声デ
ータのうちの対応するデータを取り込み、当該データに
基づいて所定の処理を施して、処理結果を入力セマンテ
ィクスコンバータモジュール59に与える。ここで、例
えば、バーチャル・ロボット33は、所定の通信規約に
よって、信号の授受或いは変換をする部分として構成さ
れている。
【0054】入力セマンティクスコンバータモジュール
59は、これら信号処理モジュール50〜58から与え
られる処理結果に基づいて、「うるさい」、「暑い」、
「明るい」、「ボールを検出した」、「転倒を検出し
た」、「撫でられた」、「叩かれた」、「ドミソの音階
が聞こえた」、「動く物体を検出した」又は「障害物を
検出した」などの自己及び周囲の状況や、、ユーザから
の指令及び働きかけを認識し、認識結果をアプリケーシ
ョン・レイヤ41(図3)に出力する。
【0055】アプリケーション・レイヤ41は、図5に
示すように、行動モデルライブラリ70、行動切替モジ
ュール71、学習モジュール72、感情モデル73及び
本能モデル74の5つのモジュールから構成されてい
る。
【0056】行動モデルライブラリ70には、図6に示
すように、「バッテリ残量が少なくなった場合」、「転
倒復帰する場合」、「障害物を回避する場合」、「感情
を表現する場合」、「ボールを検出した場合」などの予
め選択されたいくつかの条件項目にそれぞれ対応させ
て、それぞれ独立した行動モデル70〜70が設け
られている。
【0057】そして、これら行動モデル70〜70
は、それぞれ入力セマンティクスコンバータモジュール
59から認識結果が与えられたときや、最後の認識結果
が与えられてから一定時間が経過したときなどに、必要
に応じて後述のように感情モデル73に保持されている
対応する情動のパラメータ値や、本能モデル74に保持
されている対応する欲求のパラメータ値を参照しながら
続く行動をそれぞれ決定し、決定結果を行動切替モジュ
ール71に出力する。
【0058】なお、この実施の形態の場合、各行動モデ
ル70〜70は、次の行動を決定する手法として、
図7に示すような1つのノード(状態)NODE〜N
ODEから他のどのノードNODE〜NODE
遷移するかを各ノードNODE〜NODEの間を接
続するアークARC〜ARCに対してぞれぞれ設定
された遷移確率P〜Pに基づいて確率的に決定する
有限確率オートマトンと呼ばれるアルゴリズムを用い
る。
【0059】具体的に、各行動モデル70〜70
は、それぞれ自己の行動モデル70〜70を形成
するノードNODE〜NODEにそれぞれ対応させ
て、これらノードNODE〜NODE毎に図8に示
すような状態遷移表80を有している。
【0060】この状態遷移表80では、そのノードにお
いて遷移条件とする入力イベント(認識結果)が「入力
イベント名」の列に優先順に列記され、その遷移条件に
ついてのさらなる条件が「データ名」及び「データ範
囲」の列における対応する行に記述されている。
【0061】したがって、図8の状態遷移表80で表さ
れるノードNODE100では、「ボールを検出(BA
LL)」という認識結果が与えられた場合に、当該認識
結果と共に与えられるそのボールの「大きさ(SIZ
E)」が「0から1000」の範囲であることや、「障
害物を検出(OBSTACLE)」という認識結果が与
えられた場合に、当該認識結果と共に与えられるその障
害物までの「距離(DISTANCE)」が「0から1
00」の範囲であることが他のノードに遷移するための
条件となっている。
【0062】また、このノードNODE100では、認
識結果の入力がない場合においても、行動モデル70
〜70が周期的に参照する感情モデル73及び本能モ
デル74にそれぞれ保持された各情動及び各欲求のパラ
メータ値のうち、感情モデル73に保持された「喜び
(JOY)」、「驚き(SURPRISE)」若しくは
「悲しみ(SADNESS)」のいずれかのパラメータ
値が「50から100」の範囲であるときは他のノード
に遷移することができるようになっている。
【0063】また、状態遷移表80では、「他のノード
への遷移確率」の欄における「遷移先ノード」の行にそ
のノードNODE〜NODEから遷移できるノード
名が列記されていると共に、「入力イベント名」、「デ
ータ値」及び「データの範囲」の列に記述された全ての
条件が揃ったときに遷移できる他の各ノードNODE
〜NODEへの遷移確率が「他のノードへの遷移確
率」の欄内の対応する箇所にそれぞれ記述され、そのノ
ードNODE〜NODEに遷移する際に出力すべき
行動が「他のノードへの遷移確率」の欄における「出力
行動」の行に記述されている。なお、「他のノードへの
遷移確率」の欄における各行の確率の和は100[%]
となっている。
【0064】したがって、図8の状態遷移表80で表さ
れるノードNODE100では、例えば「ボールを検出
(BALL)」し、そのボールの「大きさ(SIZ
E)」が「0から1000」の範囲であるという認識結
果が与えられた場合には、「30[%]」の確率で「ノ
ードNODE120(node 120)」に遷移でき、そのと
き「ACTION 1」の行動が出力されることとな
る。
【0065】各行動モデル70〜70は、それぞれ
このような状態遷移表80として記述されたノードNO
DE〜NODEがいくつも繋がるようにして構成さ
れており、入力セマンティクスコンバータモジュール5
9から認識結果が与えられたときなどに、対応するノー
ドNODE〜NODEの状態遷移表80を利用して
確率的に次の行動を決定し、決定結果を行動切替モジュ
ール71に出力するようになされている。
【0066】図5に示す行動切替モジュール71は、行
動モデルライブラリ70の各行動モデル70〜70
からそれぞれ出力される行動のうち、予め定められた優
先順位の高い行動モデル70〜70から出力された
行動を選択し、当該行動を実行すべき旨のコマンド(以
下、これを行動コマンドという。)をミドル・ウェア・
レイヤ40の出力セマンティクスコンバータモジュール
68に送出する。なお、この実施の形態においては、図
6において下側に表記された行動モデル70〜70
ほど優先順位が高く設定されている。
【0067】また、行動切替モジュール71は、行動完
了後に出力セマンティクスコンバータモジュール68か
ら与えられる行動完了情報に基づいて、その行動が完了
したことを学習モジュール72、感情モデル73及び本
能モデル74に通知する。
【0068】一方、学習モジュール72は、入力セマン
ティクスコンバータモジュール59から与えられる認識
結果のうち、「叩かれた」や「撫でられた」など、使用
者からの働きかけとして受けた教示の認識結果を入力す
る。
【0069】そして、学習モジュール72は、この認識
結果及び行動切替モジュール71からの通知に基づい
て、「叩かれた(叱られた)」ときにはその行動の発現
確率を低下させ、「撫でられた(誉められた)」ときに
はその行動の発現確率を上昇させるように、行動モデル
ライブラリ70における行動モデル70〜70の対
応する遷移確率を変更する。
【0070】他方、感情モデル73は、「喜び(jo
y)」、「悲しみ(sadness)」、「怒り(anger)」、
「驚き(surprise)」、「嫌悪(disgust)」及び「恐
れ(fear)」の合計6つの情動について、各情動ごとに
その情動の強さを表すパラメータを保持している。そし
て、感情モデル73は、これら各情動のパラメータ値
を、それぞれ入力セマンティクスコンバータモジュール
59から与えられる「叩かれた」及び「撫でられた」な
どの特定の認識結果と、経過時間及び行動切替モジュー
ル71からの通知などに基づいて周期的に更新する。
【0071】具体的には、感情モデル73は、入力セマ
ンティクスコンバータモジュール59から与えられる認
識結果と、そのときのロボット装置1の行動と、前回更
新してからの経過時間などに基づいて所定の演算式によ
り算出されるそのときのその情動の変化量をΔE
[t]、現在のその情動のパラメータ値をE[t]、そ
の情動の感度を表す係数をkとして、(1)式によっ
て次の周期におけるその情動のパラメータ値E[t+
1]を算出し、これを現在のその情動のパラメータ値E
[t]と置き換えるようにしてその情動のパラメータ値
を更新する。また、感情モデル73は、これと同様にし
て全ての情動のパラメータ値を更新する。
【0072】
【数1】
【0073】なお、各認識結果や出力セマンティクスコ
ンバータモジュール68からの通知が各情動のパラメー
タ値の変動量ΔE[t]にどの程度影響を与えるかは予
め決められており、例えば「叩かれた」といった認識結
果は「怒り」の情動のパラメータ値の変動量ΔE[t]
に大きな影響を与え、「撫でられた」といった認識結果
は「喜び」の情動のパラメータ値の変動量ΔE[t]に
大きな影響を与えるようになっている。
【0074】ここで、出力セマンティクスコンバータモ
ジュール68からの通知とは、いわゆる行動のフィード
バック情報(行動完了情報)であり、行動の出現結果の
情報であり、感情モデル73は、このような情報によっ
ても感情を変化させる。これは、例えば、「吠える」と
いった行動により怒りの感情レベルが下がるといったよ
うなことである。なお、出力セマンティクスコンバータ
モジュール68からの通知は、上述した学習モジュール
72にも入力されており、学習モジュール72は、その
通知に基づいて行動モデル70〜70の対応する遷
移確率を変更する。
【0075】なお、行動結果のフィードバックは、行動
切替モジュール71の出力(感情が付加された行動)に
よりなされるものであってもよい。
【0076】一方、本能モデル74は、「運動欲(exer
cize)」、「愛情欲(affection)」、「食欲(appetit
e )」及び「好奇心(curiosity)」の互いに独立した
4つの欲求について、これら欲求ごとにその欲求の強さ
を表すパラメータを保持している。そして、本能モデル
74は、これらの欲求のパラメータ値を、それぞれ入力
セマンティクスコンバータモジュール59から与えられ
る認識結果や、経過時間及び行動切替モジュール71か
らの通知などに基づいて周期的に更新する。
【0077】具体的には、本能モデル74は、「運動
欲」、「愛情欲」及び「好奇心」については、認識結
果、経過時間及び出力セマンティクスコンバータモジュ
ール68からの通知などに基づいて所定の演算式により
算出されるそのときのその欲求の変動量をΔI[k]、
現在のその欲求のパラメータ値をI[k]、その欲求の
感度を表す係数をkとして、所定周期で(2)式を用
いて次の周期におけるその欲求のパラメータ値I[k+
1]を算出し、この演算結果を現在のその欲求のパラメ
ータ値I[k]と置き換えるようにしてその欲求のパラ
メータ値を更新する。また、本能モデル74は、これと
同様にして「食欲」を除く各欲求のパラメータ値を更新
する。
【0078】
【数2】
【0079】なお、認識結果及び出力セマンティクスコ
ンバータモジュール68からの通知などが各欲求のパラ
メータ値の変動量ΔI[k]にどの程度影響を与えるか
は予め決められており、例えば出力セマンティクスコン
バータモジュール68からの通知は、「疲れ」のパラメ
ータ値の変動量ΔI[k]に大きな影響を与えるように
なっている。
【0080】なお、本実施の形態においては、各情動及
び各欲求(本能)のパラメータ値がそれぞれ0から10
0までの範囲で変動するように規制されており、また、
係数k、kの値も各情動及び各欲求ごとに個別に設
定されている。
【0081】一方、ミドル・ウェア・レイヤ40の出力
セマンティクスコンバータモジュール68は、図4に示
すように、上述のようにして、アプリケーション・レイ
ヤ41の行動切替モジュール71から与えられる「前
進」、「喜ぶ」、「鳴く」又は「トラッキング(ボール
を追いかける)」といった抽象的な行動コマンドを出力
系69の対応する信号処理モジュール61〜67に与え
る。
【0082】そしてこれら信号処理モジュール61〜6
7は、行動コマンドが与えられると当該行動コマンドに
基づいて、この行動を行うために対応するアクチュエー
タ25〜25(図2)に与えるべきサーボ指令値
や、スピーカ24(図2)から出力する音の音声データ
及び/又は「目」のLEDに与える駆動データを生成
し、これらのデータをロボティック・サーバ・オブジェ
クト32のバーチャル・ロボット33及び信号処理回路
14(図2)を順次介して対応するアクチュエータ25
〜25又はスピーカ24又はLEDに順次送出す
る。
【0083】このようにしてロボット装置1において
は、制御プログラムに基づいて、自己(内部)及び周囲
(外部)の状況や、使用者からの指示及び働きかけに応
じた自律的な行動を行うことができるようになされてい
る。
【0084】(3)本実施の形態で用いる行動教示方法 本実施の形態では、ロボット装置1に行動を教示する方
法として、シェーピング(Shaping)と呼ばれる方法を
用いる。この方法では、行動の形成を行うために、行動
を連続した達成可能な小さなレスポンスに分割し、最終
的に所望の行動へ導く。すなわち、この方法は、適切な
行動に向けて段階的に誘導するものである。各段階を実
行するには種々の技術を用いることができるが、本実施
の形態では、動物の訓練方法として普及しているクリッ
カートレーニングと呼ばれる方法を用いる。以下、この
クリッカートレーニングについて説明する。
【0085】クリッカートレーニングは、「B.F.Skinne
r,"The Behavior of Organisms.,Appleton Century Cro
fs,New York,NY.,1938」に記載されているB.F.Skinner
のオペラント条件付けの理論に基づいている。このクリ
ッカートレーニングに基づいた犬の訓練方法は、198
0年代に、行動主義心理学者のGary Wilkesと、イルカ
の訓練者であるKaren Pryorが共同で普及させた。クリ
ッカートレーニングでは、従来よりイルカの訓練に使用
されている笛の代わりに、金属製の小型玩具であるクリ
ッカーを使用している。
【0086】クリッカーを押すと短く鋭い音を発する。
この音だけでは動物にとって何の意味もない。しかし、
訓練者は、この音を1次強化因子と関連づける。1次強
化因子とは、餌や玩具等のように動物が本能的に報酬と
感じるものである。クリッカーの音は、1次強化因子と
多数回関連づけすることで2次強化因子(条件性強化因
子)となる。この第2強化因子は、動物にとって、もう
すぐ報酬が貰えるというポジティブなヒントの役割をす
る。クリッカー自体は、動物にとって報酬ではなく、動
物を所望の行動に導くために利用される。また、このク
リッカーにより、どの行動が強化されるべきかを動物に
知らせることができる。訓練者は、動物が所望の行動を
した際にのみ1次強化因子を与える。これは、所望の行
動へと導く一連の誘導工程の終了を示す合図である。
【0087】クリッカートレーニングは、少なくとも以
下に示す4つのステップで構成されている。
【0088】第1ステップ:クリッカーをチャージアッ
プする。このステップにおいて、動物は、クリッカーの
音をご褒美(餌等)と連鎖付ける必要がある。それに
は、クリッカーを鳴らし、続いて報酬を与えることを連
続して多数回、例えば20〜50回ほど、動物がクリッ
カーの音で明らかに興奮するようになるまで繰り返す。
【0089】第2ステップ:行動を捕える。次に、動物
を所望の動作をとるよう誘導する。例えば、訓練者が動
物に右回りに円を描いて回って欲しいと思った場合に
は、動物の頭が右に若干動いた時点でクリッカーを鳴ら
すことから始まる。動物が何度も頭を動かすようになっ
たら、今度は身体を右に動かし始めた時だけにクリッカ
ーを鳴らす。徐々にクリッカーを鳴らす基準を上げてい
き、完全に身体が1回転すると報酬を与える。
【0090】第3ステップ:コマンドワードを与える。
動物が所望の行動を学習したらコマンドワードを1度だ
け言う。コマンドワードを言うタイミングは、動物がそ
の行動を行った直後または直前である。
【0091】第4ステップ:行動を試す。次に、学習し
た行動を試し、洗練する必要がある。動物が正確な行動
をとった時にだけ、コマンドワードを言い、報酬を与え
る。
【0092】以上説明したように、クリッカートレーニ
ングは、動物を所望の行動に導くためのものである。さ
らに、このクリッカートレーニングは、動物が自発的に
行うことは滅多にない稀な行動を学習させるためや、連
続した一連の行動を学習させるために使用することがで
きる。
【0093】以下では、このクリッカートレーニングの
原理を用いることで上述したロボット装置1が行動を学
習する方法について説明する。
【0094】(4)ロボット装置への適用 上述のロボット装置1において本発明が適用された要部
を説明する。ロボット装置1は、画像信号や音声信号
(音響信号)に関連づけて行動を学習し、学習後は、関
連づけられた画像信号や音声信号により行動を引き起こ
すように構成されている。以下の説明では、学習として
行動に音声を関連づける例について主に説明するが、行
動に画像を関連づけることもできることはいうまでもな
い。具体的には、ロボット装置1は、本発明の実現のた
めに次のような構成を有している。
【0095】ロボット装置1は、図9に示すように、入
力部101と、1次強化因子検出部102と、2次強化
因子連想部103と、行動決定部104と、行動記憶部
105と、行動出力部106と、音声認識部107と、
連想記憶部108とを備えている。
【0096】ここで、入力部101は、図2に示すマイ
クロホン23やタッチセンサ21である。入力部101
は、音声信号又はセンサ信号を1次強化因子検出部10
2及び2次強化因子連想部103に供給する。また、入
力部101は、音声信号を音声認識部107に供給す
る。
【0097】1次強化因子検出部102は、入力部10
1から供給された音声信号又はセンサ信号から1次強化
因子を検出する。1次強化因子は、予めロボット装置1
が報酬と感じるように設定されているものであり、例え
ば、ロボット装置1の頭部への圧力(頭を軽くたたくこ
とによるもの)の検出や、おめでとうを表す音声信号等
が挙げられる。以下では、1次強化因子として「ブラボ
ー」という音声信号を用いる。1次強化因子検出部10
2は、1次強化因子を検出すると、1次強化信号を行動
決定部104及び行動記憶部105に供給する。
【0098】2次強化因子連想部103は、入力部10
1から供給された音声信号又はセンサ信号から2次強化
因子を連想して検出する。2次強化因子は、1次強化因
子と同様に予めロボット装置1に設定されているもので
あってもよく、また、訓練者が1次強化因子に関連づけ
て設定するようにしてもよい。訓練者が2次強化因子を
設定する場合には、例えば、ロボット装置1を2次強化
因子設定モードとし、図10に示すようにして設定を行
う。
【0099】図10に示すように、2次強化因子を設定
する際には、先ずステップS1において、2次強化因子
とする刺激を与える。この刺激は、接触刺激であっても
音声刺激であっても構わない。
【0100】続いてステップS2において、1次強化因
子を与え、ステップS3において、ステップS1で与え
られた刺激を1次強化因子と関連づけて2次強化因子と
して記憶する。
【0101】なお、2次強化因子の設定手法は、この例
に限定されず、例えば、ロボット装置1がある刺激の後
に1次強化因子が与えられたことを多数回、例えば30
回以上検出すると、その刺激を2次強化因子として記憶
するように予め設定しておいてもよい。また、設定した
2次強化因子を変更可能とすることもできる。この際、
例えば、2次強化因子変更コマンドを与えながら任意の
刺激を与えることにより、2次強化因子を変更すること
ができる。
【0102】なお、この2次強化因子は、ロボット装置
1を適当な行動へ誘導するための優れた標識として機能
できるように、素早く与えることができ、且つ、検出し
易いものでなくてはならない。以下では、2次強化因子
として「グッド」という音声信号を用いる。
【0103】2次強化因子連想部103は、2次強化因
子を検出すると、2次強化信号を行動決定部104及び
行動記憶部105に供給する。
【0104】行動決定部104は、あるノード(状態)
から他のノードへの遷移確率に基づいて確率的に次の行
動を決定し、決定結果を行動出力部106に供給する。
また、行動決定部104は、決定された行動の履歴を行
動記憶部105に供給して記憶させる。さらに、行動決
定部104は、1次強化因子検出部102及び2次強化
因子連想部103から供給された1次強化信号及び2次
強化信号に基づいて、後述するように、あるノード(状
態)の選択確率が高くなるように遷移確率を更新する
か、又は直前のノード(状態)からそのノード(状態)
に遷移しやすくなるように遷移確率を更新する。
【0105】行動記憶部105は、行動決定部104に
おいて決定された行動の履歴を記憶する。また、行動記
憶部104には、1次強化因子検出部102及び2次強
化因子連想部103からの1次強化信号及び2次強化信
号が供給され、行動学習モードになってから1次強化信
号が供給されるまでに2次強化信号が与えられた行動を
一連の行動として記憶する。
【0106】行動出力部106は、行動決定部105か
ら供給された行動の決定結果に基づいて、上述した行動
コマンドを図4に示す出力セマンティクスコンバータモ
ジュール68に送出する。
【0107】音声認識部107は、入力部101から入
力された音声信号を音声処理して、所定の言語として認
識する。具体的には、音声認識部107は、HMM(Hi
ddenMarkov Model)を採用して構成されており、HMM
による複数の認識クラスにより、入力された音声を音韻
系列として認識する。
【0108】連想記憶部108は、行動学習モードにな
ってから1次強化信号が供給されるまでに2次強化信号
が与えられた一連の行動と音声認識部107で認識され
た当該行動を表すコマンドとを関連づけて連想記憶す
る。コマンドと関連づけて連想記憶された一連の行動
は、行動記憶部104に記憶される。
【0109】ロボット装置1が以上のような構成を有す
ることで、訓練者は、2次強化因子を使ってロボット装
置1を所望の行動へ誘導することができる。すなわち、
訓練者は、ロボット装置1が所望の行動に近づくと2次
強化因子を与え、その行動に近づくための標識とする。
ロボット装置1が最終的に所望の行動を行うと、訓練者
は、1次強化因子を与え、ロボット装置は、それまでの
2次強化因子の与えられた一連の行動を記憶する。そし
て、訓練者がコマンドを発声すると、ロボット装置は、
記憶した一連の動作を順に出力する。なお、記憶された
一連の行動を後述するようにして絞り込むことも可能で
ある。
【0110】この行動学習方法の一連の手順を図11に
示す。図11に示すように、先ずステップS10におい
て、行動学習モードに設定される。
【0111】次にステップS11において、ノードから
ノードへの遷移確率が初期化され、ステップS12にお
いて、ロボット装置1は、現在の遷移確率に応じて行動
を決定し、その行動を出力する。
【0112】ステップS13では、ステップS12で出
力した行動によって1次強化因子が与えられたか否かが
判別される。1次強化因子が与えられた場合には、ステ
ップS17に進む。ステップS13において、1次強化
因子が与えられていない場合には、ステップS14に進
む。
【0113】ステップS14では、ステップS12で出
力した行動によって2次強化因子が与えられたか否かが
判別される。2次強化因子が与えられていない場合に
は、所望の行動に近づくための行動ではないとし、ステ
ップS12に戻って再び次の行動を決定する。ステップ
S14において、2次強化因子が与えられた場合には、
ステップS15に進む。
【0114】ステップS15では、ステップS12で出
力した行動を所望の行動に至る行動として記憶し、ステ
ップS16に進む。
【0115】ステップS16では、2次強化信号が与え
られた行動の選択確率が高くなるように遷移確率を更新
してステップS12に戻る。
【0116】ステップS17では、1次強化信号が与え
られた信号と関連づけるためのコマンドを発声する。
【0117】ステップS18では、1次強化信号が与え
られた行動とその行動に至るまでに2次強化信号が与え
られた行動とを一連の行動として、ステップS17で発
声したコマンドと関連づけて記憶して終了する。
【0118】本実施の形態における行動学習方法では、
以上のような手順により、ロボット装置1が所望の行動
へ誘導され、その行動を学習する。
【0119】なお、図11のフローチャートでは、遷移
確率を初期化した後に所望の行動と関連づけるコマンド
を発声するようにしたが、これに限定されるものではな
く、ロボット装置1が所望の行動を行った直後に、その
行動と関連づけるコマンドを発声するようにしても構わ
ない。
【0120】また、図11のフローチャートでは、ステ
ップS16において、2次強化信号が与えられた行動の
選択確率が高くなるように遷移確率を更新するものとし
て説明したが、これに限定されるものではなく、例えば
直前の行動から2次強化信号が与えられた行動に遷移し
やすくなるように遷移確率を更新するようにしても構わ
ない。
【0121】ところで、訓練者は、2次強化因子を使っ
てロボット装置1を所望の動作へと誘導することができ
るが、これにはまず、ロボット装置1の行動の「位相」
を定義しておく必要がある。すなわち、ロボット装置1
は、ある行動をとった後にはそれと「類似した」行動へ
の切替えが可能でなければならない。現存する行動の位
相を定義するための方法として、以下に2つの例を挙げ
る。
【0122】先ず1番目の方法は、各行動を説明的特性
と志向的特性とに分類される1組の特性を用いて説明す
るというものである。
【0123】説明的特性は、例えば開始姿勢(立つ、座
る、横たわる)であり、実際、これにはロボットの頭、
脚、またはその他の部分、あるいは音を発するか否かが
関連している。
【0124】志向的特性は、行動を起こさせる目的、例
えば、移動するためのものであるか、何かを掴むための
ものであるか、あるいは注目を得るためのものであるか
を表す。各行動は、これらの次元によって定義された空
間中の点としてみることができる。この特性に従って全
ての行動を形式化し、2つの行動間の「距離」を定義す
ることで、ある行動から「類似した」行動へと誘導する
ことができる。
【0125】この方法では、一旦特性が選択されると全
ての行動をかなり短時間で表現できるが、行動間の遷移
が予測し難い。
【0126】次に2番目の方法は、各行動間の遷移を示
すグラフを作成するものである。この方法によれば、ロ
ボット装置1がとる行動の遷移をより有効に把握するこ
とができる。第1番目の方法と同様に、行動間の客観的
な類似点を、「志向性」と関連した何らかの基準と組合
わせることが可能である。さらに、一般的な行動(座
る、立つ等)と稀な行動(特別なダンスを踊る、体操を
する)とをより明確に区別することができる。図12
に、グラフフォーマリズムで定義した位相の一部を示
す。また、ロボット装置1が図12に挙げられた行動を
とった状態の一部を図13に示す。
【0127】図12を用いて、訓練者が、ロボット装置
1が滅多にとらない特別な行動である穴掘り行動のため
の言葉を教える場合について具体的に説明する。この行
動では、図13(G)に示すように、ロボット装置1は
座っており、地面を引掻くのに左前脚を使用する。ま
た、頭はその脚を見ており、その動きを追う。この行動
は、図12のノード[DIG]の状態に対応する。
【0128】最初に、ロボット装置1は、図13(A)
に示すように立ち上がっている、すなわちノード[ST
AND]の状態にあるとする。ロボット装置1は、先ず
図13(B)に示すように歩行を始める、すなわち、ノ
ード[STAND]の状態からノード[WALK]の状
態に遷移する。このノード[WALK]への遷移は、所
望の状態であるノード[DIG]に近づくものではない
ので、訓練者は、何の強化因子も与えない。そこでロボ
ット装置1は、別の行動をノード[STAND]の状態
から開始する。なお、この際、自動的にノード[STA
ND]の状態に戻るようにしてもよく、また、遷移確率
に従って戻るようにしてもよい。
【0129】次にロボット装置1は、図13(D)に示
すように座る、すなわちノード[SIT]に遷移する。
このノード[SIT]への遷移は、所望の状態であるノ
ード[DIG]に近づくものであるため、訓練者は、
「グッド」と言い、ロボット装置1に対して2次強化因
子を与える。この2次強化因子が与えられることで遷移
確率が更新され、ロボット装置1は、2次強化因子の与
えられた行動である座る行動(ノード[SIT])と関
連づけられた行動をとろうとする。
【0130】続いてロボット装置1は、図13(E)に
示すように、2本の前脚で押し始める。すなわちノード
[PUSH]に遷移する。しかし、このノード[PUS
H]への遷移は、所望の状態であるノード[DIG]に
近づくものではないので、訓練者は何の強化因子も与え
ない。そこでロボット装置1は、別の行動をノード[S
IT]の状態から開始する。この際にも、自動的にノー
ド[SIT]の状態に戻るようにしてもよく、また、遷
移確率に従って戻るようにしてもよい。
【0131】続いてロボット装置1は、ノード[HEL
LO]に遷移し、図13(F)に示すように左前脚を上
げて「ハロー」の動作を行う。この行動は、穴掘りに使
用する左前脚が関連しているため、訓練者は、ロボット
装置1に「グッド」と言い、2次強化因子を与える。
【0132】以上のような訓練者とロボット装置1との
やりとりを経て、ロボット装置1がノード[DIG]に
遷移して穴掘り行動を開始すると、訓練者は、「ブラボ
ー」と言い、ロボット装置1に対して1次強化因子を与
える。この1次強化因子は、ロボット装置1が所望の行
動を行ったことを表す。以上の結果、ロボット装置1
は、[SIT]−[HELLO]−[DIG]という一
連の行動を記憶する。
【0133】なお、上述した[SIT]−[HELL
O]−[DIG]という経路に限らず、別の経路を使っ
ても、ロボット装置1を所望の行動へと誘導することが
できる。例えば、訓練者は、図13(C)に示すような
蹴る行動、すなわちノード[KICK]を介してロボッ
ト装置1に左脚を移動させ、次に座るように誘導するこ
とができる。
【0134】所望の行動が実行され1次強化因子を与え
ると、訓練者は、即座に行動と関連づけるコマンドワー
ドをロボット装置1に与える。その際、ロボット装置1
がコマンドワードを確かに理解したことを確認するため
に、何らかのフィードバックを採用することが好まし
い。フィードバックとしては、例えば、ロボット装置1
が図2に示したスピーカ24を介してそのコマンドを真
似して繰返し、確認を要求するようにしてもよく、ま
た、「目」であるLEDを点滅させる等により、何かを
理解した旨を示し、コマンドが再度繰り返されるのを待
つようにしてもよい。ロボット装置1が、訓練者により
再び与えられたコマンドを検出できない場合には、訓練
者にもう一度同一のことをさせようとするための特別な
行動(例えば、頭を振る等)により、コマンドを理解で
きなかったことを表すようにしてもよい。
【0135】ロボット装置1は、このコマンドワードと
上述した一連の行動とを関連づけて記憶し、再度コマン
ドワードが与えられた際には、記憶した一連の行動、例
えば上述した[SIT]−[HELLO]−[DIG]
という一連の行動を行う。
【0136】ここで、訓練者が一連の行動のうちの穴掘
り行動とのみコマンドワードを関連づけたい場合には、
その一連の行動を絞り込む必要がある。このため、コマ
ンドワードが与えられると、ロボット装置1は、記憶し
た一連の動作を自発的に繰り返すようにすることができ
る。ロボット装置1が一連の動作を再び実行した後に1
次強化因子が与えられた場合には、ロボット装置1は、
そのコマンドが一連の行動と関連していると判断する。
そうでない場合には、ロボット装置1は、前に行った一
連の行動に由来するがそれよりも段階数の少ない新しい
一連の行動を作り出し、その新しい一連の行動を行う。
このようにして、最終的に、ロボット装置1は、そのコ
マンドワードが穴掘り行動のみに関連したものであると
判断することができる。
【0137】以上説明したように、本実施の形態におけ
るロボット装置1は、訓練者が動物や人に行動を教える
ときと同様にして行動を教示することで、その行動を効
率的に学習することができる。また、その際、2次強化
因子を標識として所望の行動へ誘導されるため、複雑な
動作や稀にしか行わない行動を学習するときの試行錯誤
の回数を減らすことができる。さらに、2次強化因子が
与えられた際に遷移確率を更新することによって、所望
の行動に遷移する確率が高くなり、所望の行動により早
く達することが可能となる。
【0138】このような機能がロボット装置1に組み込
まれることで、ユーザ(飼い主)とロボット装置1とが
自然なコミュニケーションを図ることができる。なお、
この制御プログラムは、図2のメモリカード28又はフ
ラッシュROM12に格納される。
【0139】なお、本発明は上述した実施の形態のみに
限定されるものではなく、本発明の要旨を逸脱しない範
囲において種々の変更が可能であることは勿論である。
【0140】例えば、上述した実施の形態では、行動と
関連づけるコマンドとして音声情報を用いたが、これに
限定されるものではなく、例えばタッチセンサを介した
接触情報やCCDを介した画像情報であっても構わな
い。
【0141】また、上述した実施の形態では、クリッカ
ートレーニングをロボット装置に行動を教示する際に用
いたが、これに限定されるものではなく、他の目的にも
用いることができる。すなわち、物体の名前を教える場
合に、ロボット装置が対象物に近づく際に2次強化因子
を与えることで、ロボット装置は、その対象物に誘導さ
れる。これにより、共同注意といった困難な問題を軽減
することができる。
【0142】また、クリッカートレーニングと上述した
ルアーリングとを組み合わせるようにしても構わない。
これにより、ある段階の行動が自発的に実行されるのを
待つ必要がなくなる。
【0143】
【発明の効果】以上詳細に説明したように本発明に係る
ロボット装置は、動作部を制御して行動を出現させるロ
ボット装置であって、行動の出現傾向に基づいて、一の
行動を決定する行動決定手段と、上記行動決定手段が決
定した行動に基づいて、上記動作部を制御して、当該決
定された行動を出現させる行動出力手段と、外部情報を
入力する入力手段と、上記入力手段が入力した上記外部
情報から予め設定された1次強化因子を検出する1次強
化因子検出手段と、上記入力手段が入力した上記外部情
報から2次強化因子を検出する2次強化因子検出手段
と、上記行動決定手段が決定した行動を記憶する行動記
憶手段とを備え、上記行動決定手段は、上記2次強化因
子が検出される毎に、当該2次強化因子が検出された行
動の出現傾向を高め、上記行動記憶手段は、上記1次強
化因子が検出されると、少なくとも当該1次強化因子が
検出された行動を記憶することを特徴としている。
【0144】ここで、2次強化因子が検出された行動
は、1次強化因子が検出された行動に至るまでの行動で
ある。
【0145】このようなロボット装置は、行動の学習時
に、2次強化因子が検出される毎に、当該2次強化因子
が検出された行動の出現傾向を高め、1次強化因子が検
出されると、少なくとも当該1次強化因子が検出された
行動を記憶する。
【0146】この発明が適用されたロボット装置は、2
次強化因子を標識として学習しようとする行動に達する
ことができ、行動を効率的に学習することができる。
【0147】また、上述した目的を達成するために、本
発明に係るロボット装置の行動学習方法は、動作部を制
御して行動を出現させるロボット装置の行動学習方法で
あって、行動の出現傾向に基づいて、一の行動を決定す
る行動決定工程と、上記行動決定工程で決定された行動
に基づいて、上記動作部を制御して、当該決定された行
動を出現させる行動出力工程と、外部情報を入力する入
力手段が入力した上記外部情報から予め設定された1次
強化因子を検出する1次強化因子検出工程と、上記入力
手段が入力した上記外部情報から2次強化因子を検出す
る2次強化因子検出工程と、上記行動決定工程で決定さ
れた行動を記憶する行動記憶工程とを有し、上記行動決
定工程では、上記2次強化因子が検出される毎に、当該
2次強化因子が検出された行動の出現傾向が高められ、
上記行動記憶工程では、上記1次強化因子が検出される
と、少なくとも当該1次強化因子が検出された行動が記
憶されることを特徴としている。
【0148】ここで、2次強化因子が検出された行動
は、1次強化因子が検出された行動に至るまでの行動で
ある。
【0149】このようなロボット装置の行動学習方法で
は、行動の学習時に、2次強化因子が検出される毎に、
当該2次強化因子が検出された行動の出現傾向が高めら
れ、1次強化因子が検出されると、少なくとも当該1次
強化因子が検出された行動が記憶される。
【0150】この発明が適用されたロボット装置は、2
次強化因子を標識として学習しようとする行動に達する
ことができ、行動を効率的に学習することができる。
【0151】また、上述した目的を達成するために、本
発明に係るロボット装置の行動学習プログラムは、動作
部を制御して行動を出現させるロボット装置の行動学習
プログラムであって、行動の出現傾向に基づいて、一の
行動を決定する行動決定工程と、上記行動決定工程で決
定された行動に基づいて、上記動作部を制御して、当該
決定された行動を出現させる行動出力工程と、外部情報
を入力する入力手段が入力した上記外部情報から予め設
定された1次強化因子を検出する1次強化因子検出工程
と、上記入力手段が入力した上記外部情報から2次強化
因子を検出する2次強化因子検出工程と、上記行動決定
工程で決定された行動を記憶する行動記憶工程とを有
し、上記行動決定工程では、上記2次強化因子が検出さ
れる毎に、当該2次強化因子が検出された行動の出現傾
向が高められ、上記行動記憶工程では、上記1次強化因
子が検出されると、少なくとも当該1次強化因子が検出
された行動が記憶されることを特徴としている。
【0152】ここで、2次強化因子が検出された行動
は、1次強化因子が検出された行動に至るまでの行動で
ある。
【0153】このようなロボット装置の行動学習プログ
ラムでは、行動の学習時に、2次強化因子が検出される
毎に、当該2次強化因子が検出された行動の出現傾向が
高められ、1次強化因子が検出されると、少なくとも当
該1次強化因子が検出された行動が記憶される。
【0154】この発明が適用されたロボット装置は、2
次強化因子を標識として学習しようとする行動に達する
ことができ、行動を効率的に学習することができる。
【0155】また、上述した目的を達成するために、本
発明に係るプログラム記録媒体は、動作部を制御して行
動を出現させるロボット装置の行動学習プログラムが記
録されたコンピュータ制御可能なプログラム記録媒体で
あって、上記ロボット装置の行動学習プログラムは、行
動の出現傾向に基づいて、一の行動を決定する行動決定
工程と、上記行動決定工程で決定された行動に基づい
て、上記動作部を制御して、当該決定された行動を出現
させる行動出力工程と、外部情報を入力する入力手段が
入力した上記外部情報から予め設定された1次強化因子
を検出する1次強化因子検出工程と、上記入力手段が入
力した上記外部情報から2次強化因子を検出する2次強
化因子検出工程と、上記行動決定工程で決定された行動
を記憶する行動記憶工程とを有し、上記行動決定工程で
は、上記2次強化因子が検出される毎に、当該2次強化
因子が検出された行動の出現傾向が高められ、上記行動
記憶工程では、上記1次強化因子が検出されると、少な
くとも当該1次強化因子が検出された行動が記憶される
ことを特徴とするロボット装置の行動学習プログラムが
記録されたものである。
【0156】ここで、2次強化因子が検出された行動
は、1次強化因子が検出された行動に至るまでの行動で
ある。
【0157】このようなプログラム記録媒体に記録され
ているロボット装置の行動学習プログラムでは、行動の
学習時に、2次強化因子が検出される毎に、当該2次強
化因子が検出された行動の出現傾向が高められ、1次強
化因子が検出されると、少なくとも当該1次強化因子が
検出された行動が記憶される。
【0158】この発明が適用されたロボット装置は、2
次強化因子を標識として学習しようとする行動に達する
ことができ、行動を効率的に学習することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態におけるロボット装置の外
観構成を示す斜視図である。
【図2】同ロボット装置の回路構成を示すブロック図で
ある。
【図3】同ロボット装置のソフトウェア構成を示すブロ
ック図である。
【図4】同ロボット装置のソフトウェア構成におけるミ
ドル・ウェア・レイヤの構成を示すブロック図である。
【図5】同ロボット装置のソフトウェア構成におけるア
プリケーション・レイヤの構成を示すブロック図であ
る。
【図6】同アプリケーション・レイヤの行動モデルライ
ブラリの構成を示すブロック図である。
【図7】同ロボット装置の行動決定のための情報となる
有限確率オートマトンを説明する図である。
【図8】有限確率オートマトンの各ノードに用意された
状態遷移表を示す図である。
【図9】同ロボット装置における本発明に係る部分の構
成を示すブロック図である。
【図10】2次強化因子を設定する場合の手順を説明す
るフローチャートである。
【図11】同ロボット装置の行動学習方法の一連の手順
を説明するフローチャートである。
【図12】同ロボット装置が行う行動間の遷移を説明す
る図である。
【図13】同ロボット装置が行う行動の一部を説明する
図である。
【図14】従来の動物に対する行動教示方法の例を説明
する図である。
【符号の説明】
1 ロボット装置、101 入力部、102 1次強化
因子検出部、1032次強化因子連想部、104 行動
決定部、105 行動記憶部、106 行動出力部、1
07 音声認識部、108 連想記憶部
フロントページの続き (72)発明者 カプラン フレデリック フランス国、75005 パリ市 アミヨ通り 6番地 ソニーコンピュータサイエンス 研究所 パリオフィス内 (72)発明者 ピエール イブス オードェ フランス国、75005 パリ市 アミヨ通り 6番地 ソニーコンピュータサイエンス 研究所 パリオフィス内 (72)発明者 花形 理 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 2C150 CA02 DA05 DA24 DA25 DA26 DA27 DA28 DF03 DF04 DF06 DF33 ED10 ED39 ED42 ED47 ED52 EF07 EF09 EF16 EF17 EF22 EF23 EF28 EF29 EF33 EF36 3C007 AS36 CS08 LW12 MT14 WA04 WA14 WB18

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 動作部を制御して行動を出現させるロボ
    ット装置であって、 行動の出現傾向に基づいて、一の行動を決定する行動決
    定手段と、 上記行動決定手段が決定した行動に基づいて、上記動作
    部を制御して、当該決定された行動を出現させる行動出
    力手段と、 外部情報を入力する入力手段と、 上記入力手段が入力した上記外部情報から予め設定され
    た1次強化因子を検出する1次強化因子検出手段と、 上記入力手段が入力した上記外部情報から2次強化因子
    を検出する2次強化因子検出手段と、 上記行動決定手段が決定した行動を記憶する行動記憶手
    段とを備え、 上記行動決定手段は、上記2次強化因子が検出される毎
    に、当該2次強化因子が検出された行動の出現傾向を高
    め、 上記行動記憶手段は、上記1次強化因子が検出される
    と、少なくとも当該1次強化因子が検出された行動を記
    憶することを特徴とするロボット装置。
  2. 【請求項2】 上記2次強化因子が検出された行動は、
    上記1次強化因子が検出された行動に至るまでの行動で
    あることを特徴とする請求項1記載のロボット装置。
  3. 【請求項3】 上記行動記憶手段は、上記1次強化因子
    が検出された行動を、当該行動前に上記2次強化因子が
    検出された行動との関連性のもとに記憶することを特徴
    とする請求項1記載のロボット装置。
  4. 【請求項4】 上記行動記憶手段は、上記1次強化因子
    が検出された行動までに上記2次強化因子が検出された
    行動をシーケンス行動として記憶することを特徴とする
    請求項3記載のロボット装置。
  5. 【請求項5】 上記行動決定手段は、上記シーケンス行
    動に含まれる各行動の出現傾向を高めることを特徴とす
    る請求項4記載のロボット装置。
  6. 【請求項6】 上記1次強化因子が検出されると、上記
    シーケンス行動を順に再現するようになされており、 上記行動出力手段は、上記シーケンス行動に含まれる各
    行動を順に出現させ、その結果、上記1次強化因子が検
    出された場合には、上記行動記憶手段は、上記シーケン
    ス行動を確定して記憶し、上記1次強化因子が検出され
    なかった場合には、上記行動出力手段は、上記1次強化
    因子が検出されるまで上記シーケンス行動に含まれる各
    行動の数を減らして順に出現させることを特徴とする請
    求項4記載のロボット装置。
  7. 【請求項7】 上記入力手段が入力した所定の外部情報
    と上記行動記憶手段が記憶した上記1次強化因子が検出
    された行動とを関連づけて連想記憶する連想記憶手段を
    備えることを特徴とする請求項1記載のロボット装置。
  8. 【請求項8】 上記入力手段が入力した音声情報を音声
    処理して所定の言語として認識する音声認識手段を備
    え、 上記連想記憶手段は、上記音声処理により認識された所
    定のコマンドと上記行動記憶手段が記憶した上記1次強
    化因子が検出された行動とを関連づけて連想記憶するこ
    とを特徴とする請求項7記載のロボット装置。
  9. 【請求項9】 上記所定のコマンドは、上記1次強化因
    子が検出された後に入力されたものであることを特徴と
    する請求項8記載のロボット装置。
  10. 【請求項10】 上記入力手段が入力した音声情報を音
    声処理して所定の言語として認識する音声認識手段と、 上記音声処理により認識された上記シーケンス行動に関
    わる所定のコマンドと上記行動記憶手段が記憶した上記
    シーケンス行動とを関連づけて連想記憶する連想記憶手
    段とを備えることを特徴とする請求項4記載のロボット
    装置。
  11. 【請求項11】 行動を学習するための行動学習モード
    を有し、 上記行動記憶手段は、上記行動学習モードにおいて上記
    1次強化因子が検出されると、少なくとも当該1次強化
    因子が検出された行動を記憶することを特徴とする請求
    項8記載のロボット装置。
  12. 【請求項12】 上記所定のコマンドは、上記行動学習
    モードとされた直後に入力されたものであることを特徴
    とする請求項11記載のロボット装置。
  13. 【請求項13】 2次強化因子を設定するための2次強
    化因子設定モードを有し、 上記2次強化因子設定モードにおいて、任意の外部情報
    が入力された後に上記1次強化因子が検出されると、当
    該外部情報が上記2次強化因子とされることを特徴とす
    る請求項1記載のロボット装置。
  14. 【請求項14】 任意の外部情報が入力された後に上記
    1次強化因子が検出されたことが所定回数以上連続する
    と、当該外部情報が上記2次強化因子とされることを特
    徴とする請求項1記載のロボット装置。
  15. 【請求項15】 上記1次強化因子及び上記2次強化因
    子は、上記入力手段が入力した音声情報であることを特
    徴とする請求項1記載のロボット装置。
  16. 【請求項16】 動作部を制御して行動を出現させるロ
    ボット装置の行動学習方法であって、 行動の出現傾向に基づいて、一の行動を決定する行動決
    定工程と、 上記行動決定工程で決定された行動に基づいて、上記動
    作部を制御して、当該決定された行動を出現させる行動
    出力工程と、 外部情報を入力する入力手段が入力した上記外部情報か
    ら予め設定された1次強化因子を検出する1次強化因子
    検出工程と、 上記入力手段が入力した上記外部情報から2次強化因子
    を検出する2次強化因子検出工程と、 上記行動決定工程で決定された行動を記憶する行動記憶
    工程とを有し、 上記行動決定工程では、上記2次強化因子が検出される
    毎に、当該2次強化因子が検出された行動の出現傾向が
    高められ、 上記行動記憶工程では、上記1次強化因子が検出される
    と、少なくとも当該1次強化因子が検出された行動が記
    憶されることを特徴とするロボット装置の行動学習方
    法。
  17. 【請求項17】 上記2次強化因子が検出された行動
    は、上記1次強化因子が検出された行動に至るまでの行
    動であることを特徴とする請求項16記載のロボット装
    置の行動学習方法。
  18. 【請求項18】 上記行動記憶工程では、上記1次強化
    因子が検出された行動が、当該行動前に上記2次強化因
    子が検出された行動との関連性のもとに記憶されること
    を特徴とする請求項17記載のロボット装置の行動学習
    方法。
  19. 【請求項19】 上記行動記憶工程では、上記1次強化
    因子が検出された行動までに上記2次強化因子が検出さ
    れた行動がシーケンス行動として記憶されることを特徴
    とする請求項18記載のロボット装置の行動学習方法。
  20. 【請求項20】 上記行動決定工程では、上記シーケン
    ス行動に含まれる各行動の出現傾向が高められることを
    特徴とする請求項19記載のロボット装置の行動学習方
    法。
  21. 【請求項21】 上記1次強化因子が検出されると、上
    記シーケンス行動を順に再現するようになされており、 上記行動出力工程では、上記シーケンス行動に含まれる
    各行動が順に出現され、その結果、上記1次強化因子が
    検出された場合には、上記行動記憶工程では、上記シー
    ケンス行動を確定して記憶し、上記1次強化因子が検出
    されなかった場合には、上記行動出力工程では、上記1
    次強化因子が検出されるまで上記シーケンス行動に含ま
    れる各行動の数が減らされて順に出現されることを特徴
    とする請求項19記載のロボット装置の行動学習方法。
  22. 【請求項22】 上記入力手段が入力した所定の外部情
    報と上記行動記憶工程で記憶された上記1次強化因子が
    検出された行動とを関連づけて連想記憶する連想記憶工
    程を有することを特徴とする請求項16記載のロボット
    装置の行動学習方法。
  23. 【請求項23】 上記入力手段が入力した音声情報を音
    声処理して所定の言語として認識する音声認識工程を有
    し、 上記連想記憶工程では、上記音声処理により認識された
    所定のコマンドと上記行動記憶工程で記憶された上記1
    次強化因子が検出された行動とを関連づけて連想記憶す
    ることを特徴とする請求項22記載のロボット装置の行
    動学習方法。
  24. 【請求項24】 上記所定のコマンドは、上記1次強化
    因子が検出された後に入力されたものであることを特徴
    とする請求項23記載のロボット装置の行動学習方法。
  25. 【請求項25】 上記入力手段が入力した音声情報を音
    声処理して所定の言語として認識する音声認識工程と、 上記音声処理により認識された上記シーケンス行動に関
    わる所定のコマンドと上記行動記憶工程で記憶された上
    記シーケンス行動とを関連づけて連想記憶する連想記憶
    工程とを有することを特徴とする請求項19記載のロボ
    ット装置の行動学習方法。
  26. 【請求項26】 行動を学習するための行動学習モード
    を有し、 上記行動記憶工程では、上記行動学習モードにおいて上
    記1次強化因子が検出されると、少なくとも当該1次強
    化因子が検出された行動が記憶されることを特徴とする
    請求項23記載のロボット装置の行動学習方法。
  27. 【請求項27】 上記所定のコマンドは、上記行動学習
    モードとされた直後に入力されたものであることを特徴
    とする請求項26記載のロボット装置の行動学習方法。
  28. 【請求項28】 2次強化因子を設定するための2次強
    化因子設定モードを有し、 上記2次強化因子設定モードにおいて、任意の外部情報
    が入力された後に上記1次強化因子が検出されると、当
    該外部情報が上記2次強化因子とされることを特徴とす
    る請求項16記載のロボット装置の行動学習方法。
  29. 【請求項29】 任意の外部情報が入力された後に上記
    1次強化因子が検出されたことが所定回数以上連続する
    と、当該外部情報が上記2次強化因子とされることを特
    徴とする請求項16記載のロボット装置の行動学習方
    法。
  30. 【請求項30】 上記1次強化因子及び上記2次強化因
    子は、上記入力手段が入力した音声情報であることを特
    徴とする請求項16記載のロボット装置の行動学習方
    法。
  31. 【請求項31】 動作部を制御して行動を出現させるロ
    ボット装置の行動学習プログラムであって、 行動の出現傾向に基づいて、一の行動を決定する行動決
    定工程と、 上記行動決定工程で決定された行動に基づいて、上記動
    作部を制御して、当該決定された行動を出現させる行動
    出力工程と、 外部情報を入力する入力手段が入力した上記外部情報か
    ら予め設定された1次強化因子を検出する1次強化因子
    検出工程と、 上記入力手段が入力した上記外部情報から2次強化因子
    を検出する2次強化因子検出工程と、 上記行動決定工程で決定された行動を記憶する行動記憶
    工程とを有し、 上記行動決定工程では、上記2次強化因子が検出される
    毎に、当該2次強化因子が検出された行動の出現傾向が
    高められ、 上記行動記憶工程では、上記1次強化因子が検出される
    と、少なくとも当該1次強化因子が検出された行動が記
    憶されることを特徴とするロボット装置の行動学習プロ
    グラム。
  32. 【請求項32】 動作部を制御して行動を出現させるロ
    ボット装置の行動学習プログラムが記録されたコンピュ
    ータ制御可能なプログラム記録媒体であって、 上記ロボット装置の行動学習プログラムは、 行動の出現傾向に基づいて、一の行動を決定する行動決
    定工程と、 上記行動決定工程で決定された行動に基づいて、上記動
    作部を制御して、当該決定された行動を出現させる行動
    出力工程と、 外部情報を入力する入力手段が入力した上記外部情報か
    ら予め設定された1次強化因子を検出する1次強化因子
    検出工程と、 上記入力手段が入力した上記外部情報から2次強化因子
    を検出する2次強化因子検出工程と、 上記行動決定工程で決定された行動を記憶する行動記憶
    工程とを有し、 上記行動決定工程では、上記2次強化因子が検出される
    毎に、当該2次強化因子が検出された行動の出現傾向が
    高められ、 上記行動記憶工程では、上記1次強化因子が検出される
    と、少なくとも当該1次強化因子が検出された行動が記
    憶されることを特徴とするロボット装置の行動学習プロ
    グラムが記録されたプログラム記録媒体。
JP2002127374A 2001-04-30 2002-04-26 ロボット装置、ロボット装置の行動学習方法、ロボット装置の行動学習プログラム、及びプログラム記録媒体 Withdrawn JP2003039363A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01401127A EP1254688B1 (en) 2001-04-30 2001-04-30 autonomous robot
EP01401127.4 2001-04-30

Publications (1)

Publication Number Publication Date
JP2003039363A true JP2003039363A (ja) 2003-02-13

Family

ID=8182709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002127374A Withdrawn JP2003039363A (ja) 2001-04-30 2002-04-26 ロボット装置、ロボット装置の行動学習方法、ロボット装置の行動学習プログラム、及びプログラム記録媒体

Country Status (4)

Country Link
US (1) US6760645B2 (ja)
EP (1) EP1254688B1 (ja)
JP (1) JP2003039363A (ja)
DE (1) DE60118317T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421313B2 (en) 2003-02-19 2008-09-02 Sony Corporation Robot apparatus and control method thereof
JP2009276886A (ja) * 2008-05-13 2009-11-26 National Institute Of Information & Communication Technology 動作学習装置
CN109195754A (zh) * 2016-05-20 2019-01-11 夏普株式会社 机器人、机器人的动作方法以及程序

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7114555B2 (en) * 2002-05-31 2006-10-03 Hewlett-Packard Development Company, L.P. Controlled cooling of a data center
US7024277B2 (en) * 2002-11-11 2006-04-04 Alfred Schurmann Determination and control of activities of an emotional system
JP4406615B2 (ja) * 2005-02-23 2010-02-03 任天堂株式会社 コマンド処理装置およびコマンド処理プログラム
US7456596B2 (en) * 2005-08-19 2008-11-25 Cisco Technology, Inc. Automatic radio site survey using a robot
US8073564B2 (en) * 2006-07-05 2011-12-06 Battelle Energy Alliance, Llc Multi-robot control interface
US8355818B2 (en) * 2009-09-03 2013-01-15 Battelle Energy Alliance, Llc Robots, systems, and methods for hazard evaluation and visualization
US7668621B2 (en) * 2006-07-05 2010-02-23 The United States Of America As Represented By The United States Department Of Energy Robotic guarded motion system and method
US8965578B2 (en) 2006-07-05 2015-02-24 Battelle Energy Alliance, Llc Real time explosive hazard information sensing, processing, and communication for autonomous operation
US7974738B2 (en) * 2006-07-05 2011-07-05 Battelle Energy Alliance, Llc Robotics virtual rail system and method
US7587260B2 (en) * 2006-07-05 2009-09-08 Battelle Energy Alliance, Llc Autonomous navigation system and method
US7584020B2 (en) * 2006-07-05 2009-09-01 Battelle Energy Alliance, Llc Occupancy change detection system and method
US7620477B2 (en) * 2006-07-05 2009-11-17 Battelle Energy Alliance, Llc Robotic intelligence kernel
US8271132B2 (en) * 2008-03-13 2012-09-18 Battelle Energy Alliance, Llc System and method for seamless task-directed autonomy for robots
US7801644B2 (en) * 2006-07-05 2010-09-21 Battelle Energy Alliance, Llc Generic robot architecture
US8414350B2 (en) * 2008-08-18 2013-04-09 Rehco, Llc Figure with controlled motorized movements
KR100968944B1 (ko) * 2009-12-14 2010-07-14 (주) 아이알로봇 로봇 동기화 장치 및 그 방법
JP5526942B2 (ja) * 2010-03-31 2014-06-18 ソニー株式会社 ロボット装置、ロボット装置の制御方法およびプログラム
US9906838B2 (en) 2010-07-12 2018-02-27 Time Warner Cable Enterprises Llc Apparatus and methods for content delivery and message exchange across multiple content delivery networks
US9566710B2 (en) 2011-06-02 2017-02-14 Brain Corporation Apparatus and methods for operating robotic devices using selective state space training
US8447419B1 (en) 2012-05-02 2013-05-21 Ether Dynamics Corporation Pseudo-genetic meta-knowledge artificial intelligence systems and methods
US20130343640A1 (en) 2012-06-21 2013-12-26 Rethink Robotics, Inc. Vision-guided robots and methods of training them
US9186793B1 (en) 2012-08-31 2015-11-17 Brain Corporation Apparatus and methods for controlling attention of a robot
WO2014134606A1 (en) 2013-03-01 2014-09-04 Cleverpet Llc Animal interaction device, system, and method
US8996177B2 (en) * 2013-03-15 2015-03-31 Brain Corporation Robotic training apparatus and methods
US9764468B2 (en) 2013-03-15 2017-09-19 Brain Corporation Adaptive predictor apparatus and methods
US9242372B2 (en) 2013-05-31 2016-01-26 Brain Corporation Adaptive robotic interface apparatus and methods
US9792546B2 (en) 2013-06-14 2017-10-17 Brain Corporation Hierarchical robotic controller apparatus and methods
US9314924B1 (en) 2013-06-14 2016-04-19 Brain Corporation Predictive robotic controller apparatus and methods
US9579789B2 (en) 2013-09-27 2017-02-28 Brain Corporation Apparatus and methods for training of robotic control arbitration
US9597797B2 (en) 2013-11-01 2017-03-21 Brain Corporation Apparatus and methods for haptic training of robots
US9463571B2 (en) 2013-11-01 2016-10-11 Brian Corporation Apparatus and methods for online training of robots
US9358685B2 (en) 2014-02-03 2016-06-07 Brain Corporation Apparatus and methods for control of robot actions based on corrective user inputs
US9987743B2 (en) 2014-03-13 2018-06-05 Brain Corporation Trainable modular robotic apparatus and methods
US9533413B2 (en) 2014-03-13 2017-01-03 Brain Corporation Trainable modular robotic apparatus and methods
US9364950B2 (en) * 2014-03-13 2016-06-14 Brain Corporation Trainable modular robotic methods
US9346167B2 (en) 2014-04-29 2016-05-24 Brain Corporation Trainable convolutional network apparatus and methods for operating a robotic vehicle
US9630318B2 (en) 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
US9426946B2 (en) 2014-12-02 2016-08-30 Brain Corporation Computerized learning landscaping apparatus and methods
US9717387B1 (en) 2015-02-26 2017-08-01 Brain Corporation Apparatus and methods for programming and training of robotic household appliances
US9840003B2 (en) 2015-06-24 2017-12-12 Brain Corporation Apparatus and methods for safe navigation of robotic devices
EP3332923A4 (en) * 2015-08-04 2019-04-10 Beijing Evolver Robotics Co., Ltd MULTIFUNCTIONAL HOUSE ROBOT
US10241514B2 (en) 2016-05-11 2019-03-26 Brain Corporation Systems and methods for initializing a robot to autonomously travel a trained route
US9987752B2 (en) 2016-06-10 2018-06-05 Brain Corporation Systems and methods for automatic detection of spills
US10282849B2 (en) 2016-06-17 2019-05-07 Brain Corporation Systems and methods for predictive/reconstructive visual object tracker
US10016896B2 (en) 2016-06-30 2018-07-10 Brain Corporation Systems and methods for robotic behavior around moving bodies
US10274325B2 (en) 2016-11-01 2019-04-30 Brain Corporation Systems and methods for robotic mapping
US10001780B2 (en) 2016-11-02 2018-06-19 Brain Corporation Systems and methods for dynamic route planning in autonomous navigation
US10723018B2 (en) 2016-11-28 2020-07-28 Brain Corporation Systems and methods for remote operating and/or monitoring of a robot
US10377040B2 (en) 2017-02-02 2019-08-13 Brain Corporation Systems and methods for assisting a robotic apparatus
US10852730B2 (en) 2017-02-08 2020-12-01 Brain Corporation Systems and methods for robotic mobile platforms
US10293485B2 (en) 2017-03-30 2019-05-21 Brain Corporation Systems and methods for robotic path planning
JP1622874S (ja) * 2017-12-29 2019-01-28 ロボット
AU2020257165A1 (en) 2019-10-28 2021-05-13 The Raymond Corporation Systems and methods for transferring routes between material handling devices

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4657104A (en) * 1983-07-23 1987-04-14 Cybermation, Inc. Concentric shaft mobile base for robots and the like
US5742738A (en) * 1988-05-20 1998-04-21 John R. Koza Simultaneous evolution of the architecture of a multi-part program to solve a problem using architecture altering operations
US5983161A (en) * 1993-08-11 1999-11-09 Lemelson; Jerome H. GPS vehicle collision avoidance warning and control system and method
US5963712A (en) * 1996-07-08 1999-10-05 Sony Corporation Selectively configurable robot apparatus
US5832189A (en) * 1996-09-26 1998-11-03 Interval Research Corporation Affect-based robot communication methods and systems
JP3765356B2 (ja) * 1997-12-22 2006-04-12 ソニー株式会社 ロボツト装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421313B2 (en) 2003-02-19 2008-09-02 Sony Corporation Robot apparatus and control method thereof
JP2009276886A (ja) * 2008-05-13 2009-11-26 National Institute Of Information & Communication Technology 動作学習装置
CN109195754A (zh) * 2016-05-20 2019-01-11 夏普株式会社 机器人、机器人的动作方法以及程序

Also Published As

Publication number Publication date
EP1254688A1 (en) 2002-11-06
DE60118317D1 (de) 2006-05-18
EP1254688B1 (en) 2006-03-29
US20020183895A1 (en) 2002-12-05
US6760645B2 (en) 2004-07-06
DE60118317T2 (de) 2006-12-14

Similar Documents

Publication Publication Date Title
JP2003039363A (ja) ロボット装置、ロボット装置の行動学習方法、ロボット装置の行動学習プログラム、及びプログラム記録媒体
US7117190B2 (en) Robot apparatus, control method thereof, and method for judging character of robot apparatus
TW581959B (en) Robotic (animal) device and motion control method for robotic (animal) device
KR100843822B1 (ko) 로봇 장치, 로봇 장치의 동작 제어 방법 및 로봇 장치의동작 제어 시스템
US6362589B1 (en) Robot apparatus
US6347261B1 (en) User-machine interface system for enhanced interaction
US6519506B2 (en) Robot and control method for controlling the robot's emotions
US20050240412A1 (en) Robot behavior control system and method, and robot apparatus
JP3211186B2 (ja) ロボット、ロボットシステム、ロボットの学習方法、ロボットシステムの学習方法および記録媒体
JP2003036090A (ja) 音声合成方法及び装置、並びにロボット装置
JP2011115944A (ja) ロボット装置、ロボット装置の行動制御方法及びプログラム
US6512965B2 (en) Robot and control method for entertainment
JP2001191281A (ja) 編集装置、編集方法及び記録媒体
JP4296736B2 (ja) ロボット装置
WO2002030629A1 (fr) Appareil robot, systeme d"affichage d"information et procede d"affichage d"information
JP2002205289A (ja) ロボット装置の動作制御方法、プログラム、記録媒体及びロボット装置
Kaplan et al. Taming robots with clicker training: a solution for teaching complex behaviors
JP2002239952A (ja) ロボット装置、ロボット装置の行動制御方法、プログラム及び記録媒体
JP2002163631A (ja) 疑似生物装置及び擬似生物装置における疑似生物の行動形成方法、及び疑似生物装置に行動形成を行わせるプログラムを記載したコンピュータ読み取り可能な記憶媒体
JP2001157982A (ja) ロボット装置及びその制御方法
JP4016316B2 (ja) ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
JP2001157980A (ja) ロボット装置及びその制御方法
JP2001157981A (ja) ロボット装置及びその制御方法
JP2001157979A (ja) ロボット装置及びその制御方法
JP2001154707A (ja) ロボット装置及びその制御方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050705