JP2005071265A - 学習装置および方法、並びにロボットのカスタマイズ方法 - Google Patents

学習装置および方法、並びにロボットのカスタマイズ方法 Download PDF

Info

Publication number
JP2005071265A
JP2005071265A JP2003303428A JP2003303428A JP2005071265A JP 2005071265 A JP2005071265 A JP 2005071265A JP 2003303428 A JP2003303428 A JP 2003303428A JP 2003303428 A JP2003303428 A JP 2003303428A JP 2005071265 A JP2005071265 A JP 2005071265A
Authority
JP
Japan
Prior art keywords
behavior
action
state
robot
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003303428A
Other languages
English (en)
Inventor
Koji Morikawa
幸治 森川
Natsuki Oka
夏樹 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2003303428A priority Critical patent/JP2005071265A/ja
Publication of JP2005071265A publication Critical patent/JP2005071265A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Manipulator (AREA)

Abstract

【課題】 学習装置において、カスタマイズのために煩雑な作業を必要とせずに、学習速度を向上させる。
【解決手段】 行動観察部3は所定の環境2において、人間1の行動を観察する。状態観察部6は環境2の状態を観察する。行動ルール作成部4は観察された行動と状態から、状態と行動との対応付けを規定する行動ルールを作成し、行動ルール記憶部5に格納する。行動決定部8は行動ルール記憶部5を参照して行動を決定し、報酬観察部7は行動の結果得られた報酬を観察する。行動ルール修正部9は観察された報酬に基づいて、行動ルール記憶部5に蓄えられた行動ルールを修正する
【選択図】 図4

Description

本発明は、人間と環境を共有し、人間や環境について学習を行い、作業や情報の提供を行う、例えば家庭用ロボットのような学習装置に関する。
近年、産業上利用されるシステムに対して、個々のユーザのニーズに応えてカスタマイズ可能であることが強く望まれている。そしてユーザのニーズは、ますます多様化する傾向にある。またシステムの利用環境となる情報ネットワークも、急速な発展を続けており、システムはこのような環境変化にも対応しなければならない。
このような背景から、システムの開発時に、必要となる全ての機能を予め設計しておくことは、困難になりつつある。このため、システムが自らユーザや環境に適応できるようにする、いわゆる学習技術の研究がなされている。本願明細書および特許請求の範囲では、学習技術を用いてユーザや環境に適応するシステムのことを、「学習装置」と呼ぶ。具体的には例えば、掃除ロボットなどの家庭用ロボットや、操作機能を持つソフトエージェントが組み込まれた家電機器などが、この学習装置に該当する。
従来の学習技術は、学習の際に利用する情報の種類の観点から、教師信号に基づく学習と、報酬に基づく学習とに分類される。教師信号に基づく学習としては、ニューラルネットワークを用いる方法(非特許文献1を参照)や、決定木を用いる方法(非特許文献2を参照)などが知られている。また、報酬に基づく学習としては、強化学習(非特許文献3を参照)が知られている。
ルメルハート(D.E.Rumelhart)他著、「並列分散処理(Parallel distributed processing: Explorations in the microstructure of cognition)」,(米国),エムアイティー・プレス(The MIT Press),1986年8月1日
クインラン(J.R.Quinlan)他著,「機械学習プログラム(C4.5:Programs for machine learning)」,(米国),モーガン・カウフマン(Morgan Kaufmann)、1993年1月15日
サットン(R.S.Sutton),バート(A.Barto)著,「強化学習入門(Reinforcement Learning: An Introduction)」,(米国),エムアイティー・プレス(The MIT Press),1998年3月
ここで、学習装置の例として、家庭内で移動して掃除や片付け、情報提供などを行う移動ロボットを考える。この移動ロボットについて、移動能力や人間との対話能力等は、工場での製造段階において事前に与えることができる。しかしながら、ロボットを購入した各家庭の情報、例えば、部屋の間取りや家具配置、設備、各人の嗜好やライフスタイル等については、各家庭やユーザによって異なっており、事前に与えることはできない。このため、ロボットは、購入された後に、家庭の個別情報を何らかの手法によって学習しなければならない。
ところが、従来の学習方法では、次のような問題があった。
まず教師信号に基づく学習方法では、学習に必要となる教師信号を全て作成してシステムに与える必要がある。このため、上述の移動ロボットのように個別ユーザへの適応が必要な場合には、情報を取得するために必要な全ての教師信号を、ユーザ自身が(あるいはロボットをカスタマイズするサービス担当者が)作成する必要がある。すなわち、ロボットをユーザのニーズに合わせてカスタマイズするために、極めて煩雑な作業が必要となる。
また報酬に基づく学習では、試行錯誤によって学習が行われるため、学習の試行回数が多くなる傾向がある。学習の試行回数が多いということは、システムが十分な性能を発揮できるまでに時間がかかることを意味する。しかも試行中は、システムはユーザの要求に必ずしも合わないような試行錯誤的な動作を繰り返すため、これを許容する必要がある。
前記の問題に鑑み、本発明は、学習装置において、カスタマイズのために煩雑な作業を必要としないで、しかも、学習速度を向上できるようにすることを課題とする。
本発明では、次のような点に着目している。すなわち、上述の移動ロボットのような個別のユーザに適応する必要がある学習装置について言えば、ユーザは、すでに自分の家の間取りや家具の配置、機器の構成などの環境に関する知識を常識として持っている。一方、学習装置自体はこのような常識的な知識を持っていない。すなわち、ユーザと学習装置との間で、知識差が存在する。このため学習装置は、ユーザの行動系列を参照することによって、ユーザとの知識差を減らすことができ、家庭内の環境について学習することができる。なぜなら、ユーザの行動は家庭内の環境に合うように決定されているはずであり、その行動には環境に関する情報が含まれているからである。
一方、観察したユーザの行動をそのまま模倣して行動決定を行う、というだけでは、十分な学習性能は得られない。というのは、ユーザは、全ての状態に対して見本となる行動を示すとは限らないからである。
そこで、本発明では、ユーザの行動系列を参照するだけでなく、これに加えて、ユーザの行動観察が不十分な状態であっても行動決定できるように、試行錯誤的な報酬に基づく学習を行うものとする。
すなわち、本発明は、学習装置において行動を決定するための学習方法として、所定の環境におけるユーザの行動を観察し、ユーザの行動を表す行動データを取得し、取得した行動データから行動決定のための知識を得て、得た知識を基にして報酬に基づく学習を行い、行動決定のためのルールを求めるものである。
本発明によると、人間の行動の観察による学習と、外部からの報酬による学習とが、相互補完的に行われるので、家庭用移動ロボットのような個別のニーズに適応する必要があるシステムにおいて、学習がより効率的に行われる。しかも、システムに教師信号を与える必要がないので、カスタマイズのために煩雑な作業を必要としない。
本発明の第1態様によれば、学習装置として、所定の環境において人間の行動を観察する行動観察部と、前記環境の状態を観察する状態観察部と、前記行動観察部によって観察された人間の行動と、前記状態観察部によって観察された状態とから、状態と行動との対応付けを規定する行動ルールを作成する行動ルール作成部と、前記行動ルール作成部によって作成された行動ルールを格納する行動ルール記憶部と、前記行動ルール記憶部を参照して、前記状態観察部によって観察された状態から行動を決定する行動決定部と、前記行動決定部によって決定された行動を実行した結果、得られた報酬を観察する報酬観察部と、前記報酬観察部によって観察された報酬に基づいて、前記行動ルール記憶部に蓄えられた行動ルールを修正する行動ルール修正部とを備えたものを提供する。
本発明の第2態様によれば、前記行動ルール記憶部は、行動ルールを、状態が離散的に表現され、各状態に行動が対応付けられた表現形式によって、記憶している第1態様の学習装置を提供する。
本発明の第3態様によれば、前記表現形式は、各状態の境界が行動の分布に従って変更可能である第2態様の学習装置を提供する。
本発明の第4態様によれば、前記行動ルール作成部は、前記行動観察部によって観察された人間の行動と前記状態観察部によって観察された状態との組を蓄積する行動・状態記憶部を備え、前記行動・状態記憶部に蓄積された行動と状態との組から統計処理を用いて行動ルールを作成する第1態様の学習装置を提供する。
本発明の第5態様によれば、前記行動ルール記憶部は、行動ルールを、Radial Basis Functionを用いた表現形式によって、記憶している第1態様の学習装置を提供する。
本発明の第6態様によれば、前記行動ルール記憶部は、行動ルールを、Fuzzy Ruleを用いた表現形式によって、記憶している第1態様の学習装置を提供する。
本発明の第7態様によれば、学習装置において行動を決定するための学習方法として、所定の環境におけるユーザの行動を観察し、ユーザの行動を表す行動データを取得し、 取得した行動データから行動決定のための知識を得て、得た知識を基にして報酬に基づく学習を行い、行動決定のためのルールを求めるものを提供する。
本発明の第8態様によれば、ロボットのカスタマイズ方法として、前記ロボットに行動決定のための知識について初期値を与え、センシング手段が所定の環境におけるユーザの行動を表す行動データを取得し、前記ロボットが、取得された行動データから前記初期値を基にして行動決定のための知識を得て、前記ロボットが、得た知識を基にして報酬に基づく学習を行い、行動決定のためのルールを定めるものを提供する。
本発明の第9態様によれば、質問に対するユーザの回答に基づいて、前記初期値を決定する第8態様のロボットのカスタマイズ方法を提供する。
本発明の第10態様によれば、ユーザの引越時において、引越先の前の住人が用いていたロボットのルールを取得し、前記初期値として用いる第8態様のロボットのカスタマイズ方法を提供する。
本発明の第11態様によれば、ユーザと部屋の構成またはライフスタイルが共通する人が用いるロボットのルールを取得し、前記初期値として用いる第8態様のロボットのカスタマイズ方法を提供する。
まず、本発明について、家庭用ロボットが移動可能経路を学習する場合を例にとって、概念的に説明する。
図1は家庭用ロボットRが例えば掃除などの作業を行う部屋を模式的に示す図である。図1に示す部屋100には、ドア101がついており、またテーブル、椅子、棚などいくつかの家具102が置いてある。ロボットRは、家具102のある場所は通過することができない。
ここで、従来の報酬に基づく強化学習を行うものとすると、ロボットRは、基本的には直進し、部屋100の壁や家具102等の障害物に接触したとき、または接触しそうになったとき、これを距離センサや接触センサによって検出して向きを変える。そして、障害物に接触したこと、または接触しそうになったことを、負の報酬として取得する。このような試行錯誤の結果、ロボットRは例えば経路RRのように進む。すなわち、ロボットRは部屋100の形や家具102の配置等の情報を試行錯誤によって獲得しなければならず、適切な経路を学習するまでに時間がかかるという問題が生じる。
ところが、家庭用ロボットが必要とする知識、例えば部屋100の形や家具102の配置等は、その家に住んでいるユーザにとっては自明の知識である。本発明は、このような知識を、明示的にロボットに入力せずに、普段のユーザの行動を観察させることによって獲得させるものである。
図2は図1の部屋におけるユーザの移動軌跡の例を示す。図2に示すように、ユーザU1はドア101から入ってきていすに座り、またドア101から出て行く、という経路RU1を通っている。またユーザU2も同様に、経路RU2を通っている。このようなユーザの移動経路は、例えば天井に設置したカメラの映像から、容易に得ることができる。
図3は本発明によって、図2のようなユーザの経路を基にして得られたロボットRの経路RRaを示す。図3に示すように、ロボットRは、ユーザの経路RU1,RU2は移動可能であることを知ることによって、経路RU1,RU2の近辺については、余分な探索を行わないですむ。一方、部屋100の奥の壁近くのルートに関しては、知識がないため、従来のような試行錯誤的な学習を行う。このような方法によって、学習速度は大幅に向上し、しかも、ユーザは明示的な入力を行う必要がない。
以下、本発明の実施の形態について、図面を参照して説明する。
(第1の実施形態)
図4は本発明の第1の実施形態に係る学習装置の構成を示すブロック図である。図4に示す学習装置10は、所定の環境2における人間1(ユーザ)の行動を観察し、人間1の行動を表す行動データを取得する。そして、取得した行動データから行動決定のための知識を得て、得た知識を基にして、報酬に基づく学習を行い、行動決定のためのルールを求める。具体的には例えば、ユーザのために様々な作業を行う家庭用ロボットや、操作のためのソフトウェアエージェントが搭載された家電機器が、装置10に該当する。
図4において、学習装置10は、所定の環境2における人間1の行動を観察する行動観察部3、環境2の状態を観察する状態観察部6、行動観察部3によって観察された人間1の行動と状態観察部6によって観察された状態とから、状態と行動との対応付けを規定する行動ルールを作成する行動ルール作成部4、行動ルールを格納する行動ルール記憶部5、行動ルール記憶部5を参照して行動を決定する行動決定部8、決定した行動を実行した結果得られた報酬を観察する報酬観察部7、および行動ルールを修正するルール修正部9を備えている。
本実施形態では、図5に示すようなゲームを課題の例として用いて、装置10の動作の詳細を説明する。この課題では、ボールがピンポンのように移動し、このボールをパドルで跳ね返すと報酬が得られる。これは、サッカーゲームにおけるボールを取りに行く行動、移動ロボットにおける接近物の回避等と同様の設定とみなすことができ、実世界において見られる問題を簡略化したものと考えることができる。
図5では、座標(0,0)−(1,1)の空間20において、ボールBが直進運動をしている。空間20の上下左右の壁に当たったとき、ボールBは反射する。また21は学習装置10が操作するパドル、22は人間1が操作するパドルである。すなわち、空間20は人間1と学習装置10とが共有している環境に該当する。ボールBの状態は、位置座標(Bx,By)と向きBθによって表現される。パドル21,22の状態は、位置座標(Cx,Cy),(Px,Py)によってそれぞれ与えられる。なお、パドル21,22は空間20の下壁に沿って移動するものとし、Cy,Py=0で固定されている。
各時刻ステップにおいて、パドル21,22の操作Mc,Mpとしてそれぞれ、{LEFT(左に動く)、RIGHT(右に動く)、STAY(そのまま)}の3種類の操作のうちいずれか1つが選択される。そして、パドル21がボールBを受けたときはパドル21に、パドル22がボールBを受けたときはパドル22に、それぞれ+1の報酬が与えられるものとする。
ここでのタスクは、得られる報酬をより多くすることである。これを行動決定問題として見た場合、各ステップ毎に、ボールBおよびパドル21の状態(Bx,By,Bθ,Cx)が与えられ、かつ、人間1が操作するパドル22の状態Pxおよび操作Mpも観察可能であるとき、より多くの報酬が得られるように、パドル21の操作Mcを決定する、ということになる。
図6〜図8は図4の学習装置10の動作を示すフローチャートである。図6に示すように、本実施形態に係る処理は、大きく、2つの部分に分けられる。1つは、人間1の行動観察を基にして行動ルールを作成する処理(S01)、もう1つは、強化学習によって行動ルールを修正する処理(S02)である。
まず、行動ルール作成処理S01について、図7のフローを参照して説明する。この処理S01では、人間1の行動(パドル22の操作Mp)を行動観察部3によって観察し、また環境2の状態(ボールBおよびパドル22の状態Bx,By,Bθ,Px)を状態観察部6によって観察する。そして、行動ルール作成部4が、行動と状態とを関連付けて行動ルールを作成し、行動ルール記憶部5に格納する。
まずステップS11において、行動観察部3が人間1の行動を観察する。図5の例では、人間1が操作するパドル22の操作Mpが人間1の行動に相当し、(LEFT,RIGHT,STAY)のうちいずれかの信号が、人間1の行動として観察される。
次にステップS12において、状態観察部6が環境2の現在の状態を観察する。図5の例では、ボールBの位置および向き(Bx,By,Bθ)、並びに人間1が操作するパドル22の位置(Px,Py)が、環境2の状態として観察される。ただし、Py=0である。
次にステップS13において、行動ルール作成部4が、行動観察部3によって観察された行動と状態観察部6によって観察された状態との対応関係を、行動ルールとして規定する。図5の例では、ボールBの位置および向き(Bx,By,Bθ)とパドル22の位置(Px,Py)に対して、人間1がどのような操作Mpを取ったかという対応関係を、行動ルールとして求める。そしてステップS14において、行動ルール作成部4は、作成した行動ルールを行動ルール記憶部5に格納する。
ここで、行動ルールの表現形式としては、様々なものが考えられる。例えば、IF−THEN形式によって表現したり、入力を(Bx,By,Bθ,Px,Py)、出力をMpとする関数近似によって表現したりすればよい。また、状態と行動の組み合わせに対して、強化学習における状態行動価値を割り当ててもよい。例えば、ある状態と行動の組合せが観察されたとき、その組合せに対して高い価値を割り当てるようにする。
そしてステップS15において、終了条件を満たすか否かを判断し、満たすときは(Yes)処理S01を終了し、満たさないときは(No)ステップS11に戻る。ここでの終了条件としては例えば、人間1の観察が十分になされたとみなせる所定回数の観察が行われたこと、または、十分な個数の行動ルールが作成されたこと、などを用いればよい。ここで示した2つの終了条件は、一見似通ってはいるが、複数回の観察において状態と行動が同一であることもあり得るため、観察回数と作成される行動ルールの個数とは必ずしも一致しない。
図9は本実施形態における行動ルールの表現形式の一例を示す図である。図9(a)において、取りうる状態は、ボールBの座標(Bx,By)および向きBθ、パドル22の座標(Px,Py)の5つの変数によって表現される。すなわち、状態は5次元の空間をなす。各次元は離散化されており、ボールBの座標(Bx,By)およびパドル22のx座標Pxはそれぞれ例えば10分割されるものとする。また、ボールBの向きは右上、右下、左上、左下の4通り、パドル22のy座標Pyは0に固定されているので、取りうる状態の個数は4000(=10x10x4x10x1)となる。
図9(b)はある状態における状態行動価値を表す表現である。図9(b)では、5次元の状態を2次元上に表現するために、ボールBのx座標Bxをx方向に、y座標Byをy方向に表している。ボールBの向きBθは左下、パドル22のx座標Pxは5である。状態行動価値とは、各状態に対してどのような行動が価値が高いかを表すものであり、例えばボールBが座標(5,7)にある状態において、各動作に対する価値の例が円A内に示されている。円Aでは、パドル22の3種類の操作(LEFT、STAY、RIGHT)に対して、価値がそれぞれ(0.6,0.2,0.2)であることが示されている。これは、図9(a)の状態では、左に移動する操作の価値が高いということを意味している。すなわち、このような状態行動価値を参照することによって、各状態に対する適切な行動が決定される。
図10は本実施形態において人間1の行動を実際に観察した結果、得られた知識の一例を示す図である。図10(a),(b)において、x座標、Y座標は、ボールBの位置(Bx,By)に対応している。そして、各座標毎に、動かない行動(STAY)を取ることに対する状態価値が、色の濃淡によって示されており、状態価値が高い座標ほど色が薄くなっている。なお、パドル22のx座標Pxは5(下壁の中心あたり)とし、ボールBの進行方向Bθは全ての方向を考慮している。
図10(a)は人間1の行動を観察する前のものであり、どの状態に対しても、同じ0という値が状態価値として割り当てられている。これに対して図10(b)は、人間1の行動を50エピソードにわたり観察して、観察した状態と行動の組に対して価値を割り当てたものである。ここで、エピソードとは、ボールBが下壁で跳ね返ってから次に下壁で跳ね返るまでの、報酬がもらえたか否かの判断を下すことができる一連の行動のことをさし、50エピソードとは、50回ボールが下壁に達するまでの期間に相当する。
図10(b)から、パドル22が中心付近にあるとき、動かないという行動が高い状態価値を有するのは、ボールBが、V字状に広がった,斜めに落ちてくるコースにあるときであることが分かる。逆に、ボールBがそれ以外の位置にある場合は、動かないという行動に対する状態価値は低くなっている。これは、ボールBを受けるためには適当な場所に動く必要があるためと考えられる。
次に、行動ルールを修正する処理S02について、図8のフローを参照して説明する。この処理S02では、環境2の状態を状態観察部6によって観察し、観察した状態から、行動決定部8が行動ルール記憶部5の内容を参照して、装置10の行動(パドル21の操作Mc)を決定する。この行動の結果得られた報酬を報酬観察部7によって観察し、観察した報酬から、行動ルール修正部9が行動ルール記憶部5に格納された行動ルールを修正する。
まずステップS21において、状態観察部6が環境2の状態を観察する。図5の例では、ボールBの位置および向き(Bx,By,Bθ)、並びに装置10自体が操作するパドル21の座標(Cx,Cy)が、環境2の状態として観察される。ただし、Cy=0である。
次にステップS22において、行動決定部8が環境2に対する行動を決定する。ここでは、状態観察部6によって観察された状態を基にして、行動ルール記憶部5に格納された行動ルールを参照して、適切な行動を決定する。例えば図9(b)に示すように、各状態に対して状態行動価値が割り当てられているものとすると、行動決定部8は、適切な状態における各行動の価値を比較し、その状態において最も価値の高い行動を、出力すべき行動として決定する。もしくは、価値の値に比例した確率で出力すべき行動を決定する。
次にステップS23において、行動決定部8は、決定した行動を環境2に対して出力する。図5の例では、パドル21の操作Mcがここでの行動に相当する。
次にステップS24において、報酬観察部7が、環境2から返される報酬を取得する。図5の例では、パドル21の操作McによってボールBを受けることができたとき、+1の報酬を得る。
次にステップS25において、行動ルール修正部9が、行動ルール記憶部5に格納された行動ルールを修正する。ここでの修正は、例えば次に示すような強化学習におけるQの更新式等を用いればよい。Qとは上述した状態行動価値のことであり、ある状態sで行動aを取ったときにどのような価値が得られるかを示したものである。すなわち、状態観察部6で観察された行動前の状態s、行動後の状態s’、行動決定部8によって決定された行動a、報酬観察部7によって観察された報酬rを用いて、行動ルール記憶部5のルールQ(s,a)を修正する。
Figure 2005071265
上の式は、Q学習と呼ばれる強化学習の手法に標準的に用いられるものである。ここで、αは学習率と呼ばれ、ルール修正の大きさを調整するパラメータであり、γは割引率と呼ばれ、将来の報酬をどの程度重要とみなすかを調整するパラメータである。
そしてステップS26において、終了条件を満たすか否かを判断し、満たすときは(Yes)処理S02を終了し、満たさないときは(No)ステップS21に戻る。ここでの終了条件としては例えば、所定回数の計算が行われたこと、または、所定の報酬が得られたこと、などを用いればよい。
ここで説明した処理S02は、従来の強化学習の手法に従って実行される。本実施形態が従来の強化学習と異なるのは、強化学習を行う前に、人間1の行動を観察することによって作成した知識が、すでに行動ルールとして入力されている点である。
図11は本実施形態のシミュレーション結果を示すグラフである。図11のグラフでは、ボールBが下壁で跳ね返ってから次に下壁に達するまでの動作を1回の試行(エピソード)とし、試行毎の学習到達度(ボールBを打ち返せた確率)をプロットしている。横軸は試行回数、縦軸は学習到達度である。すなわち、学習到達度が1に近いほど、学習能力が高く、少ない試行回数で学習到達度が1に近づくものほど、学習速度が速いと解釈される。
図11において、D1は本実施形態すなわち人間の行動の観察を利用したもの、D2は従来の強化学習によるもの、D3は強化学習によるもので初期値をランダムに決定したものである。図11から、本実施形態D1によると、学習の初期から速やかに到達度が上がり、その後も高い到達度が維持されていることが分かる。すなわち本実施形態は、学習性能および学習速度の両方において、他の手法よりも有効である。なお、D1では、人間の行動を観察した期間Tはわずか50エピソードであり、一部の状態における行動しか観察していないが、それでも学習性能は大きく改善される。
このように本実施形態によると、人間が学習装置よりも豊富に知識を持っており、学習装置が人間の行動を観察可能な場合は、観察によって人間の知識を装置に蓄えた後に、学習装置自身が試行錯誤等により学習することによって、学習速度と学習性能の両方を向上させることができる。
また図11から分かるように、初期値をランダムに設定した場合(D3)は、初期値を全て0に設定した場合(D2)と比較すると、最終的な学習能力が高い。これは、初期値をランダムに設定したことによって、様々な行動が環境に対して出力されるので、その結果、報酬を受け取るチャンスが大きくなるためである。
また本実施形態では、行動ルールを、例えば、各状態が離散的に表現され、各状態に行動が対応付けられた形式によって表現するものとしたが、この表現形式において、各状態の境界は、必ずしも固定されている必要はなく、例えば人間の行動分布に従って、変更可能にしてもよい。
すなわち、人間の行動分布においてよく観察される状態は、人間にとって重要なものと考えられるので、その部分は状態を細かく分けて、より高い分解能を持って行動を割り当てるのが好ましい。一方、あまり観察されない状態は、人間にとってはさほど重要でないものと考えられるので、情報量を減らすために、状態の分割を荒くしてもかまわない。すなわち、重要度に応じた分割が可能になる。
また、行動ルールの表現は、様々に工夫することができる。例えば、ニューラルネットワークを用いると、行動ルールを汎用的に表現することができ、離散化された全ての状態に価値を割り当てなくても、何らかの値が出力される。また、Radial Basis Functionを用いることによって、ニューラルネットワークと同様に、汎用的なルール表現が可能になり、全ての状態に価値を割り当てなくても何らかの値が出力される。
また、行動ルールを、Fuzzy Ruleを用いて表現することによって、状態を離散的に分割せずに、境界にあいまい性を持たせて表現することが可能になる。
図12は本実施形態に係る学習装置の変形例を示すブロック図であり、図4と共通の構成要素には図4と同一の符号を付している。図12では、行動観察部3によって観察された人間1の行動と、状態観察部6によって観察された状態との組を、蓄積する行動・状態記憶部11が追加されている。行動ルール作成部4Aは、行動・状態記憶部11に蓄積された行動と状態との組から、統計処理によって、行動ルールを作成する。行動ルール作成部4Aおよび行動・状態記憶部11によって、本発明に係る行動ルール作成部が構成されている。
実際には、状態観察部6によって観察した状態が同じ場合でも、人間1のとる行動、すなわち行動観察部3による観察結果が、様々に異なる場合がある。この場合、観察の度に行動ルールを作成すると、互いに矛盾した行動ルールが作成されてしまうおそれがある。なお、同じ状態であっても同じ行動が必ずしも観察されないのは、人間の行動は一定ではないこと、観察している状態だけでは情報が不足していること、人間の行動は過去の行動にも依存すること、等の理由が考えられる。
このため、図12の構成では、行動・状態記憶部11において一旦、観察された状態と行動の組合せを記憶する。そして、観察が終了した後に、行動ルール作成部4Aが、各状態に対する行動を確率で表現する等の統計処理を施してから、行動ルールを作成する。これにより、互いに矛盾した行動ルールの作成を回避することができる。
(第2の実施形態)
第1の実施形態では、コンピュータ内でのシミュレーション環境を用いて、本発明に係る学習装置の動作について説明を行った。本発明の第2の実施形態では、家庭用移動ロボットにおける本発明の適用例について、説明を行う。
ここでの家庭用移動ロボットとは、ロボット本体に備え付けられた距離センサや視覚センサ、マイクなどによって環境の状態を捉えることができ、各種アクチュエータに制御コマンドを送ることによって、移動、物体の把持・移動、音声の発話などを行うことができるロボットであって、人間の指示による行動ができ、また、人間の行動を予測した上での作業や情報等を提供できるものとする。
家庭用移動ロボットがユーザの家に来て、ユーザにサービスを提供しようとするとき、例えば家の間取り、家具の配置、家電製品の種類、ユーザの好み、家族構成など、学習すべき事項が数多く存在する。これらの知識がないと、ロボットは、ユーザに対して適切なサービスを提供することができない。言い換えると、家の間取りなどのユーザ個別の情報を取得してはじめて、ロボットは適切なサービスを提供することができる。
このようなユーザ個別の情報を、学習ではなくロボットに獲得させる場合は、例えばユーザが、初期設定として各種の情報をそれぞれ入力しなければならず、ユーザの負担が大きくなる。また、最初から全ての情報を試行錯誤的に学習させるのは、例えば室内を歩き回ってマップを作成したりする必要があるため、膨大な時間がかかる。
これに対して、本発明によると、ユーザの行動を観察することによってある程度の行動ルールを取得した上で、報酬に基づく学習を行うので、ユーザ個別の情報を短時間で取得することができ、しかもユーザの負担は生じない。
すでに説明したとおり、図2のようなユーザの移動経路を基にして、図3のようなロボットRの移動可能経路RRaを効率よく学習することができる。なお、ユーザの移動経路の計測は、いくつかの方法によって行うことができるが、主に部屋に備えられたセンサによって実現できる。例えば、(1)天井等に設置したカメラ等のセンサによって、ユーザの移動を追跡する、(2)床下に重量センサや接触センサを埋め込んでおき、ユーザをセンサによる計測値によって追跡する、(3)ユーザが持っているリモコンや携帯電話、PDAなどの機器、またはユーザの衣服等に付されたタグ等から発信された信号を周辺の受信機によってセンシングすることによって、ユーザの位置を直接計測する、などの方法が考えられる。
これらの方法は、現在、いずれも研究レベルではすでに実現されており、将来、ロボットが家庭で本格的に利用されるときの前提技術として想定することは、特に問題ないと考えられる。このような方法によって得られたユーザの位置情報は、例えば通信手段によって、ロボットに伝達すればよい。
図13は本実施形態における知識の表現の一例であり、図1の部屋に対して、図2のようなユーザの移動軌跡が観察された場合の知識を表してている。移動可能経路を探索する問題では、部屋のどの位置が移動可能であるかを表現できればよい。図13(a)は移動可能か否かを離散的に表現したものである。図13(a)では、図1の部屋に相当する空間を格子状に分割しており、各升目には、「○」(移動可能)か「×」(移動不能)を示している。空いている升目は、移動可能か否かがまだ不明な所である。
また図13(b)は移動可能な所と移動不能な所とを連続した領域として表現したものである。図13(b)において、「○」が付されて破線で囲まれた領域は移動可能な領域、「×」が付されて実線で囲まれた領域は移動不能な領域、それ以外のところは移動可能か否かがまだ不明な領域である。
図13のように知識が表現されれば、試行錯誤的な学習を行う前にすでに一部の解の候補を事前に作成することができ、その後は、移動可能か否かが不明な領域について学習を行えばよい。すなわち、ユーザは、ロボットRに教示を与える等の負担は一切なく、普段どおりに生活するだけで、ロボットRの学習速度は大幅に向上する。
ここまでは、家庭用ロボットが移動可能範囲を探索する、という場合について説明を行ったが、家庭用ロボットが学習しなければならない他の事項についても、本発明は適用可能である。
例えば、ドアの前の位置ではいつもユーザがノブをまわす動作をしていた場合、このようなユーザの動作を観察することによって、ドアの前に来たらドアノブをまわす、という行動ルールを獲得することができる。同様に、冷蔵庫の前でドアを開ける、ある部屋に入る前に照明のスイッチを入れる、といった動作等も学習可能である。
また、ユーザの動作速度を学習することによって、ロボット側のハンド等の動作速度を、ユーザの動作に合わせることもできる。また、ユーザの表情認識が可能になれば、ロボットの表情表出もそれに合わせることができる。
ただし、観察した人間の行動をそのまま行動ルールとして取得した場合、ロボットの知識としては必ずしも適切ではない場合がある。例えば、ロボットと人間とでは体のサイズや動作機構等が異なっているため、家の中で移動可能な場所が必ずしも一致しない。このため、図6のS02に示すような第2段階の自律的な学習によって、ロボット専用の知識として追加や修正が必要になる。
<ロボットのカスタマイズ方法>
また、ユーザの行動を観察して知識を得る前の段階において、予め想定できる知識や行動ルールは、初期値として、ロボットに与えておくのが好ましい。これにより、学習でしか得られない知識についてのみ学習を行えばよくなるため、学習のための試行回数が大幅に低減される。この結果、ロボットは、ユーザが購入してから早期に通常使用が可能となる。
図14は本実施形態に係るロボットのカスタマイズ方法を示すフローチャートである。図14のフローでは、図6の学習方法における処理S01,S02の前工程として、ステップSZ1,SZ2を実行する。
まずステップSZ1において、ロボットの製造段階において、予め、想定される汎用的な知識を作成しておく。例えば移動可能範囲を探索する問題については、想定される各種の部屋に対して汎用性の高い行動ルール群を準備する。もちろん、ロボットに対して、各センサの信号前処理、ハンド等のアクチュエータ制御、移動制御、障害物判定などの設定も行う。
次にステップSZ2において、ユーザがロボットを購入する際に、行動決定のための知識について初期値を決定し、ロボットに与える。例えばユーザはロボットの購入時に、ロボットの製造者からのいくつかの簡単な質問に回答する。この回答を受けて、ロボットの製造者は、想定されていた汎用的な行動ルール群の中から適切なものを選択したり、いずれかの行動ルールを修正したりすることによって、知識の初期値を設定する。
例えばユーザが、ロボットをリビングルームに置くものと回答すると、ロボットの製造者は、リビングルームにおいてありがちなソファやテーブルなどを想定した行動ルールを初期値として設定する。また、ユーザの年齢や性別によって、ロボットの移動速度やハンドの動きのスピード、話すスピードなどを適宜設定する。
このような前工程を得た後に、第1の実施形態で説明したような処理S01,S02を実行することによって、必要最小限の学習時間によって、ロボットが適切に活動可能になる。すなわち、カメラやセンサ等のセンシング手段が、所定の環境におけるユーザの行動を表す行動データを取得し、ロボットが、センシング手段によって取得された行動データから、初期値を基にして行動決定のための知識を得て、さらに、得た知識を基にして報酬に基づく学習を行い、行動決定のためのルールを定める。
なおここでは、行動決定のための知識の初期値の決定は、質問に対するユーザの回答に応じて行うものとしたが、これ以外の方法も可能である。例えば、同じような間取りの家に住む人や、同じようなライフスタイルの人が用いるロボットの行動ルールを、初期値として採用してもよい。このように、各種の共通項がある人の知識を初期値として用いることによっても、同様に、学習回数の削減という効果が得られる。
またここでは、行動決定のための知識の初期値の決定を、ロボットの購入時に行うものとしたが、購入時以外でも、例えばユーザが引越ししたときや家を改築したとき等においても、初期値の再設定を行うのが好ましい。例えば引越し時には、引越先の前の住人が用いていたロボットのルールを、そのまま初期値として用いてもよい。これにより、部屋の間取りなどは最初にロボットの知識として取得されるので、細かな家具の置き場所の変化などを学習するだけですむ。また引越し時に、引越し前の住居において用いていたロボットの行動ルールをそのまま用いると、ユーザの生活習慣や行動パターンについてはルールの修正が少なくてすむ。
(第3の実施形態)
本発明の第3の実施形態では、家庭用のソフトウェアエージェントへの適用例について説明する。
将来の家庭内の電化機器は、ネットワークによって相互に接続され、各機器の状態が特定の場所で一括して把握することができ、また、各機器の操作が一括して可能になると考えられる。この場合、各機器の状態を本発明における状態と考え、各機器の操作を本発明における行動と考えると、本発明の適用が可能になる。
例えば、ユーザが帰宅後、照明のスイッチを入れて、テレビのスイッチを入れ、冷蔵庫から何かを取り出し、次に電子レンジのスイッチを入る、などと行動したとする。このとき、エージェントは、各機器の電源の有無や、設定状態(例えばテレビでいうと現在のチャンネルや音量など)などを状態として観察し、機器の操作を行動として観察する。そして本発明により、エージェントは、ユーザがどの状態でどのような操作をしたかという操作履歴を行動ルールとして記憶して、ユーザと同様の行動を再現する能力を自律的に獲得できる。さらに、上述の処理S02のようなユーザからの報酬を基にした強化学習を行うことによって、ユーザが行わなかった機器操作の提案も可能になる。
一般に、各家庭に備え付けられた電化製品の組合せは様々であり、各ユーザにとって必要な操作系列を、製品開発段階で事前にプログラムしておくことはきわめて困難である。しかし、ユーザは必要な操作系列に関してはすでに知識として持っているので、エージェントがそれを観察して取得することによって、各機器の設定の手間を削減できる。
図15は各実施形態で示したそれぞれの環境について、本発明の状態、行動および報酬に該当する事項をまとめた図である。どの環境においても、取り扱う信号は異なるものの、第1の実施形態で詳細に説明した手法を適用して、人間の知識を観察によって取込むことができ、さらに自律的な学習によって性能を向上することができる。
本発明は、人間と環境を共有し、人間や環境について学習を行い、作業や情報の提供を行う学習装置において、煩雑な作業を要することなく、学習速度を向上させるものであり、例えば家庭用ロボットのカスタマイズを速やかに行うのに有用である。
本発明を概念的に説明するための図であり、家庭用ロボットが作業を行う部屋を模式的に示す図である。 図1の部屋におけるユーザの移動軌跡の例である。 図2の移動軌跡を基にして得られたロボットの移動可能経路である。 本発明の第1の実施形態に係る学習装置の構成を示すブロック図である。 本発明の第1の実施形態における課題を示す図である。 図4の学習装置の動作を示すフローチャートである。 図6における行動ルール作成処理の詳細を示すフローチャートである。 図6における行動ルール修正処理の詳細を示すフローチャートである。 本発明の第1の実施形態における行動ルールの表現形式の一例を示す図である。 人間の行動の観察から得られた知識の一例である。 シミュレーション結果を示すグラフである。 図4の学習装置の変形例を示すブロック図である。 本発明の第2の実施形態における知識の表現の一例である。 本発明の第2の実施形態に係るロボットのカスタマイズ方法を示すフローチャートである。 各実施形態について、本発明の状態、行動および報酬に該当する事項をまとめた図である。
符号の説明
1 人間
2 環境
3 行動観察部
4,4A 行動ルール作成部
5 行動ルール記憶部
6 状態観察部
7 報酬観察部
8 行動決定部
9 行動ルール修正部
10,10A 学習装置
11 行動・状態記憶部

Claims (11)

  1. 所定の環境において、人間の行動を観察する行動観察部と、
    前記環境の状態を観察する状態観察部と、
    前記行動観察部によって観察された人間の行動と、前記状態観察部によって観察された状態とから、状態と行動との対応付けを規定する行動ルールを作成する行動ルール作成部と、
    前記行動ルール作成部によって作成された行動ルールを格納する行動ルール記憶部と、
    前記行動ルール記憶部を参照して、前記状態観察部によって観察された状態から、行動を決定する行動決定部と、
    前記行動決定部によって決定された行動を実行した結果、得られた報酬を観察する報酬観察部と、
    前記報酬観察部によって観察された報酬に基づいて、前記行動ルール記憶部に蓄えられた行動ルールを修正する行動ルール修正部とを備えた
    ことを特徴とする学習装置。
  2. 請求項1において、
    前記行動ルール記憶部は、行動ルールを、状態が離散的に表現され、各状態に行動が対応付けられた表現形式によって、記憶している
    ことを特徴とする学習装置。
  3. 請求項2において、
    前記表現形式は、各状態の境界が、行動の分布に従って、変更可能である
    ことを特徴とする学習装置。
  4. 請求項1において、
    前記行動ルール作成部は、
    前記行動観察部によって観察された人間の行動と前記状態観察部によって観察された状態との組を、蓄積する行動・状態記憶部を備え、
    前記行動・状態記憶部に蓄積された行動と状態との組から、統計処理を用いて、行動ルールを作成するものである
    ことを特徴とする学習装置。
  5. 請求項1において、
    前記行動ルール記憶部は、行動ルールを、Radial Basis Functionを用いた表現形式によって、記憶している
    ことを特徴とする学習装置。
  6. 請求項1において、
    前記行動ルール記憶部は、行動ルールを、Fuzzy Ruleを用いた表現形式によって、記憶している
    ことを特徴とする学習装置。
  7. 学習装置において、行動を決定するための学習方法であって、
    所定の環境におけるユーザの行動を観察し、ユーザの行動を表す行動データを取得し、 取得した行動データから、行動決定のための知識を得て、
    得た知識を基にして、報酬に基づく学習を行い、行動決定のためのルールを求める
    ことを特徴とする学習方法。
  8. ロボットのカスタマイズ方法であって、
    前記ロボットに、行動決定のための知識について、初期値を与え、
    センシング手段が、所定の環境におけるユーザの行動を表す行動データを取得し、
    前記ロボットが、取得された行動データから、前記初期値を基にして、行動決定のための知識を得て、
    前記ロボットが、得た知識を基にして報酬に基づく学習を行い、行動決定のためのルールを定める
    ことを特徴とするロボットのカスタマイズ方法。
  9. 請求項8において、
    質問に対するユーザの回答に基づいて、前記初期値を決定する
    ことを特徴とするロボットのカスタマイズ方法。
  10. 請求項8において、
    ユーザの引越時において、引越先の前の住人が用いていたロボットのルールを取得し、前記初期値として用いる
    ことを特徴とするロボットのカスタマイズ方法。
  11. 請求項8において、
    ユーザと部屋の構成またはライフスタイルが共通する人が用いるロボットのルールを取得し、前記初期値として用いる
    ことを特徴とするロボットのカスタマイズ方法。
JP2003303428A 2003-08-27 2003-08-27 学習装置および方法、並びにロボットのカスタマイズ方法 Pending JP2005071265A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003303428A JP2005071265A (ja) 2003-08-27 2003-08-27 学習装置および方法、並びにロボットのカスタマイズ方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003303428A JP2005071265A (ja) 2003-08-27 2003-08-27 学習装置および方法、並びにロボットのカスタマイズ方法

Publications (1)

Publication Number Publication Date
JP2005071265A true JP2005071265A (ja) 2005-03-17

Family

ID=34407429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003303428A Pending JP2005071265A (ja) 2003-08-27 2003-08-27 学習装置および方法、並びにロボットのカスタマイズ方法

Country Status (1)

Country Link
JP (1) JP2005071265A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109991987A (zh) * 2019-04-29 2019-07-09 北京智行者科技有限公司 自动驾驶决策方法及装置
WO2019155618A1 (ja) * 2018-02-09 2019-08-15 日本電気株式会社 関連情報改善装置、関連情報改善方法、および関連情報改善プログラムが記録された記録媒体
JP2020149095A (ja) * 2019-03-11 2020-09-17 本田技研工業株式会社 倒立振子型ロボット
JP2020149096A (ja) * 2019-03-11 2020-09-17 本田技研工業株式会社 倒立振子型ロボット
JP2020149097A (ja) * 2019-03-11 2020-09-17 本田技研工業株式会社 倒立振子型ロボット
WO2020217727A1 (ja) * 2019-04-22 2020-10-29 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
WO2020246075A1 (ja) * 2019-06-04 2020-12-10 ソニー株式会社 行動制御装置と行動制御方法およびプログラム
JP2021009466A (ja) * 2019-06-28 2021-01-28 トヨタ自動車株式会社 機械学習方法および移動ロボット

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019155618A1 (ja) * 2018-02-09 2021-01-07 日本電気株式会社 関連情報改善装置、関連情報改善方法、および関連情報改善プログラム
WO2019155618A1 (ja) * 2018-02-09 2019-08-15 日本電気株式会社 関連情報改善装置、関連情報改善方法、および関連情報改善プログラムが記録された記録媒体
JP7250573B2 (ja) 2019-03-11 2023-04-03 本田技研工業株式会社 倒立振子型ロボット
JP2020149096A (ja) * 2019-03-11 2020-09-17 本田技研工業株式会社 倒立振子型ロボット
JP2020149097A (ja) * 2019-03-11 2020-09-17 本田技研工業株式会社 倒立振子型ロボット
JP2020149095A (ja) * 2019-03-11 2020-09-17 本田技研工業株式会社 倒立振子型ロボット
JP7250571B2 (ja) 2019-03-11 2023-04-03 本田技研工業株式会社 倒立振子型ロボット
JP7250572B2 (ja) 2019-03-11 2023-04-03 本田技研工業株式会社 倒立振子型ロボット
US11669096B2 (en) 2019-03-11 2023-06-06 Honda Motor Co., Ltd. Route determination method
US11693416B2 (en) 2019-03-11 2023-07-04 Honda Motor Co., Ltd. Route determination method
WO2020217727A1 (ja) * 2019-04-22 2020-10-29 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
CN109991987A (zh) * 2019-04-29 2019-07-09 北京智行者科技有限公司 自动驾驶决策方法及装置
CN109991987B (zh) * 2019-04-29 2023-08-04 北京智行者科技股份有限公司 自动驾驶决策方法及装置
WO2020246075A1 (ja) * 2019-06-04 2020-12-10 ソニー株式会社 行動制御装置と行動制御方法およびプログラム
JP2021009466A (ja) * 2019-06-28 2021-01-28 トヨタ自動車株式会社 機械学習方法および移動ロボット

Similar Documents

Publication Publication Date Title
KR102255273B1 (ko) 청소 공간의 지도 데이터를 생성하는 장치 및 방법
Aubret et al. A survey on intrinsic motivation in reinforcement learning
KR102640420B1 (ko) 홈 로봇 장치의 동작 운용 방법 및 이를 지원하는 홈 로봇 장치
US20210334671A1 (en) Learning Agent
CN110327624B (zh) 一种基于课程强化学习的游戏跟随方法和系统
KR20080074758A (ko) 소프트웨어 로봇 장치와 그 장치에서 소프트웨어 로봇의행동 발현 방법
JP7128736B2 (ja) ロボット制御装置、ロボットシステム及びロボット制御方法
JP2010179454A5 (ja)
JP2005071265A (ja) 学習装置および方法、並びにロボットのカスタマイズ方法
JP2013058120A (ja) 情報処理装置、情報処理方法、及び、プログラム
Nguyen et al. A framework for learning to request rich and contextually useful information from humans
Zare et al. A survey of imitation learning: Algorithms, recent developments, and challenges
Pandey et al. Towards human-level semantics understanding of human-centered object manipulation tasks for hri: Reasoning about effect, ability, effort and perspective taking
Santos et al. A deep reinforcement learning approach with visual semantic navigation with memory for mobile robots in indoor home context
KR20090007972A (ko) 소프트웨어 로봇의 유전자 코드 구성 방법
Goel et al. Analogy and metareasoning: Cognitive strategies for robot learning
US20220305647A1 (en) Future prediction, using stochastic adversarial based sampling, for robotic control and/or other purpose(s)
Butz et al. Benefits of anticipations in cognitive agents
EP3572987A1 (en) Information processing device and information processing method
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
Zhang et al. Good Time to Ask: A Learning Framework for Asking for Help in Embodied Visual Navigation
Abdo et al. Inferring what to imitate in manipulation actions by using a recommender system
Cuayáhuitl et al. Hierarchical dialogue policy learning using flexible state transitions and linear function approximation
Hussein Deep learning based approaches for imitation learning.
Nicolescu et al. Fusing robot behaviors for human-level tasks