JP2005071265A

JP2005071265A - 学習装置および方法、並びにロボットのカスタマイズ方法

Info

Publication number: JP2005071265A
Application number: JP2003303428A
Authority: JP
Inventors: Koji Morikawa; 幸治森川; Natsuki Oka; 夏樹岡
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2003-08-27
Filing date: 2003-08-27
Publication date: 2005-03-17

Abstract

【課題】学習装置において、カスタマイズのために煩雑な作業を必要とせずに、学習速度を向上させる。
【解決手段】行動観察部３は所定の環境２において、人間１の行動を観察する。状態観察部６は環境２の状態を観察する。行動ルール作成部４は観察された行動と状態から、状態と行動との対応付けを規定する行動ルールを作成し、行動ルール記憶部５に格納する。行動決定部８は行動ルール記憶部５を参照して行動を決定し、報酬観察部７は行動の結果得られた報酬を観察する。行動ルール修正部９は観察された報酬に基づいて、行動ルール記憶部５に蓄えられた行動ルールを修正する
【選択図】図４

Description

本発明は、人間と環境を共有し、人間や環境について学習を行い、作業や情報の提供を行う、例えば家庭用ロボットのような学習装置に関する。

近年、産業上利用されるシステムに対して、個々のユーザのニーズに応えてカスタマイズ可能であることが強く望まれている。そしてユーザのニーズは、ますます多様化する傾向にある。またシステムの利用環境となる情報ネットワークも、急速な発展を続けており、システムはこのような環境変化にも対応しなければならない。

このような背景から、システムの開発時に、必要となる全ての機能を予め設計しておくことは、困難になりつつある。このため、システムが自らユーザや環境に適応できるようにする、いわゆる学習技術の研究がなされている。本願明細書および特許請求の範囲では、学習技術を用いてユーザや環境に適応するシステムのことを、「学習装置」と呼ぶ。具体的には例えば、掃除ロボットなどの家庭用ロボットや、操作機能を持つソフトエージェントが組み込まれた家電機器などが、この学習装置に該当する。

従来の学習技術は、学習の際に利用する情報の種類の観点から、教師信号に基づく学習と、報酬に基づく学習とに分類される。教師信号に基づく学習としては、ニューラルネットワークを用いる方法（非特許文献１を参照）や、決定木を用いる方法（非特許文献２を参照）などが知られている。また、報酬に基づく学習としては、強化学習（非特許文献３を参照）が知られている。

ルメルハート（D．E．Rumelhart）他著、「並列分散処理（Parallel distributed processing： Explorations in the microstructure of cognition）」，（米国），エムアイティー・プレス（The MIT Press），１９８６年８月１日

クインラン（J．R．Quinlan）他著，「機械学習プログラム（C4.5:Programs for machine learning）」，（米国），モーガン・カウフマン（Morgan Kaufmann）、１９９３年１月１５日

サットン（R.S.Sutton），バート（A.Barto）著，「強化学習入門（Reinforcement Learning: An Introduction）」，（米国），エムアイティー・プレス（The MIT Press），１９９８年３月

ここで、学習装置の例として、家庭内で移動して掃除や片付け、情報提供などを行う移動ロボットを考える。この移動ロボットについて、移動能力や人間との対話能力等は、工場での製造段階において事前に与えることができる。しかしながら、ロボットを購入した各家庭の情報、例えば、部屋の間取りや家具配置、設備、各人の嗜好やライフスタイル等については、各家庭やユーザによって異なっており、事前に与えることはできない。このため、ロボットは、購入された後に、家庭の個別情報を何らかの手法によって学習しなければならない。

ところが、従来の学習方法では、次のような問題があった。

まず教師信号に基づく学習方法では、学習に必要となる教師信号を全て作成してシステムに与える必要がある。このため、上述の移動ロボットのように個別ユーザへの適応が必要な場合には、情報を取得するために必要な全ての教師信号を、ユーザ自身が（あるいはロボットをカスタマイズするサービス担当者が）作成する必要がある。すなわち、ロボットをユーザのニーズに合わせてカスタマイズするために、極めて煩雑な作業が必要となる。

また報酬に基づく学習では、試行錯誤によって学習が行われるため、学習の試行回数が多くなる傾向がある。学習の試行回数が多いということは、システムが十分な性能を発揮できるまでに時間がかかることを意味する。しかも試行中は、システムはユーザの要求に必ずしも合わないような試行錯誤的な動作を繰り返すため、これを許容する必要がある。

前記の問題に鑑み、本発明は、学習装置において、カスタマイズのために煩雑な作業を必要としないで、しかも、学習速度を向上できるようにすることを課題とする。

本発明では、次のような点に着目している。すなわち、上述の移動ロボットのような個別のユーザに適応する必要がある学習装置について言えば、ユーザは、すでに自分の家の間取りや家具の配置、機器の構成などの環境に関する知識を常識として持っている。一方、学習装置自体はこのような常識的な知識を持っていない。すなわち、ユーザと学習装置との間で、知識差が存在する。このため学習装置は、ユーザの行動系列を参照することによって、ユーザとの知識差を減らすことができ、家庭内の環境について学習することができる。なぜなら、ユーザの行動は家庭内の環境に合うように決定されているはずであり、その行動には環境に関する情報が含まれているからである。

一方、観察したユーザの行動をそのまま模倣して行動決定を行う、というだけでは、十分な学習性能は得られない。というのは、ユーザは、全ての状態に対して見本となる行動を示すとは限らないからである。

そこで、本発明では、ユーザの行動系列を参照するだけでなく、これに加えて、ユーザの行動観察が不十分な状態であっても行動決定できるように、試行錯誤的な報酬に基づく学習を行うものとする。

すなわち、本発明は、学習装置において行動を決定するための学習方法として、所定の環境におけるユーザの行動を観察し、ユーザの行動を表す行動データを取得し、取得した行動データから行動決定のための知識を得て、得た知識を基にして報酬に基づく学習を行い、行動決定のためのルールを求めるものである。

本発明によると、人間の行動の観察による学習と、外部からの報酬による学習とが、相互補完的に行われるので、家庭用移動ロボットのような個別のニーズに適応する必要があるシステムにおいて、学習がより効率的に行われる。しかも、システムに教師信号を与える必要がないので、カスタマイズのために煩雑な作業を必要としない。

本発明の第１態様によれば、学習装置として、所定の環境において人間の行動を観察する行動観察部と、前記環境の状態を観察する状態観察部と、前記行動観察部によって観察された人間の行動と、前記状態観察部によって観察された状態とから、状態と行動との対応付けを規定する行動ルールを作成する行動ルール作成部と、前記行動ルール作成部によって作成された行動ルールを格納する行動ルール記憶部と、前記行動ルール記憶部を参照して、前記状態観察部によって観察された状態から行動を決定する行動決定部と、前記行動決定部によって決定された行動を実行した結果、得られた報酬を観察する報酬観察部と、前記報酬観察部によって観察された報酬に基づいて、前記行動ルール記憶部に蓄えられた行動ルールを修正する行動ルール修正部とを備えたものを提供する。

本発明の第２態様によれば、前記行動ルール記憶部は、行動ルールを、状態が離散的に表現され、各状態に行動が対応付けられた表現形式によって、記憶している第１態様の学習装置を提供する。

本発明の第３態様によれば、前記表現形式は、各状態の境界が行動の分布に従って変更可能である第２態様の学習装置を提供する。

本発明の第４態様によれば、前記行動ルール作成部は、前記行動観察部によって観察された人間の行動と前記状態観察部によって観察された状態との組を蓄積する行動・状態記憶部を備え、前記行動・状態記憶部に蓄積された行動と状態との組から統計処理を用いて行動ルールを作成する第１態様の学習装置を提供する。

本発明の第５態様によれば、前記行動ルール記憶部は、行動ルールを、Radial Basis Functionを用いた表現形式によって、記憶している第１態様の学習装置を提供する。

本発明の第６態様によれば、前記行動ルール記憶部は、行動ルールを、Fuzzy Ruleを用いた表現形式によって、記憶している第１態様の学習装置を提供する。

本発明の第７態様によれば、学習装置において行動を決定するための学習方法として、所定の環境におけるユーザの行動を観察し、ユーザの行動を表す行動データを取得し、取得した行動データから行動決定のための知識を得て、得た知識を基にして報酬に基づく学習を行い、行動決定のためのルールを求めるものを提供する。

本発明の第８態様によれば、ロボットのカスタマイズ方法として、前記ロボットに行動決定のための知識について初期値を与え、センシング手段が所定の環境におけるユーザの行動を表す行動データを取得し、前記ロボットが、取得された行動データから前記初期値を基にして行動決定のための知識を得て、前記ロボットが、得た知識を基にして報酬に基づく学習を行い、行動決定のためのルールを定めるものを提供する。

本発明の第９態様によれば、質問に対するユーザの回答に基づいて、前記初期値を決定する第８態様のロボットのカスタマイズ方法を提供する。

本発明の第１０態様によれば、ユーザの引越時において、引越先の前の住人が用いていたロボットのルールを取得し、前記初期値として用いる第８態様のロボットのカスタマイズ方法を提供する。

本発明の第１１態様によれば、ユーザと部屋の構成またはライフスタイルが共通する人が用いるロボットのルールを取得し、前記初期値として用いる第８態様のロボットのカスタマイズ方法を提供する。

まず、本発明について、家庭用ロボットが移動可能経路を学習する場合を例にとって、概念的に説明する。

図１は家庭用ロボットＲが例えば掃除などの作業を行う部屋を模式的に示す図である。図１に示す部屋１００には、ドア１０１がついており、またテーブル、椅子、棚などいくつかの家具１０２が置いてある。ロボットＲは、家具１０２のある場所は通過することができない。

ここで、従来の報酬に基づく強化学習を行うものとすると、ロボットＲは、基本的には直進し、部屋１００の壁や家具１０２等の障害物に接触したとき、または接触しそうになったとき、これを距離センサや接触センサによって検出して向きを変える。そして、障害物に接触したこと、または接触しそうになったことを、負の報酬として取得する。このような試行錯誤の結果、ロボットＲは例えば経路ＲＲのように進む。すなわち、ロボットＲは部屋１００の形や家具１０２の配置等の情報を試行錯誤によって獲得しなければならず、適切な経路を学習するまでに時間がかかるという問題が生じる。

ところが、家庭用ロボットが必要とする知識、例えば部屋１００の形や家具１０２の配置等は、その家に住んでいるユーザにとっては自明の知識である。本発明は、このような知識を、明示的にロボットに入力せずに、普段のユーザの行動を観察させることによって獲得させるものである。

図２は図１の部屋におけるユーザの移動軌跡の例を示す。図２に示すように、ユーザＵ１はドア１０１から入ってきていすに座り、またドア１０１から出て行く、という経路ＲＵ１を通っている。またユーザＵ２も同様に、経路ＲＵ２を通っている。このようなユーザの移動経路は、例えば天井に設置したカメラの映像から、容易に得ることができる。

図３は本発明によって、図２のようなユーザの経路を基にして得られたロボットＲの経路ＲＲａを示す。図３に示すように、ロボットＲは、ユーザの経路ＲＵ１，ＲＵ２は移動可能であることを知ることによって、経路ＲＵ１，ＲＵ２の近辺については、余分な探索を行わないですむ。一方、部屋１００の奥の壁近くのルートに関しては、知識がないため、従来のような試行錯誤的な学習を行う。このような方法によって、学習速度は大幅に向上し、しかも、ユーザは明示的な入力を行う必要がない。

以下、本発明の実施の形態について、図面を参照して説明する。

（第１の実施形態）
図４は本発明の第１の実施形態に係る学習装置の構成を示すブロック図である。図４に示す学習装置１０は、所定の環境２における人間１（ユーザ）の行動を観察し、人間１の行動を表す行動データを取得する。そして、取得した行動データから行動決定のための知識を得て、得た知識を基にして、報酬に基づく学習を行い、行動決定のためのルールを求める。具体的には例えば、ユーザのために様々な作業を行う家庭用ロボットや、操作のためのソフトウェアエージェントが搭載された家電機器が、装置１０に該当する。

図４において、学習装置１０は、所定の環境２における人間１の行動を観察する行動観察部３、環境２の状態を観察する状態観察部６、行動観察部３によって観察された人間１の行動と状態観察部６によって観察された状態とから、状態と行動との対応付けを規定する行動ルールを作成する行動ルール作成部４、行動ルールを格納する行動ルール記憶部５、行動ルール記憶部５を参照して行動を決定する行動決定部８、決定した行動を実行した結果得られた報酬を観察する報酬観察部７、および行動ルールを修正するルール修正部９を備えている。

本実施形態では、図５に示すようなゲームを課題の例として用いて、装置１０の動作の詳細を説明する。この課題では、ボールがピンポンのように移動し、このボールをパドルで跳ね返すと報酬が得られる。これは、サッカーゲームにおけるボールを取りに行く行動、移動ロボットにおける接近物の回避等と同様の設定とみなすことができ、実世界において見られる問題を簡略化したものと考えることができる。

図５では、座標（０，０）−（１，１）の空間２０において、ボールＢが直進運動をしている。空間２０の上下左右の壁に当たったとき、ボールＢは反射する。また２１は学習装置１０が操作するパドル、２２は人間１が操作するパドルである。すなわち、空間２０は人間１と学習装置１０とが共有している環境に該当する。ボールＢの状態は、位置座標（Ｂｘ，Ｂｙ）と向きＢθによって表現される。パドル２１，２２の状態は、位置座標（Ｃｘ，Ｃｙ），（Ｐｘ，Ｐｙ）によってそれぞれ与えられる。なお、パドル２１，２２は空間２０の下壁に沿って移動するものとし、Ｃｙ，Ｐｙ＝０で固定されている。

各時刻ステップにおいて、パドル２１，２２の操作Ｍｃ，Ｍｐとしてそれぞれ、｛ＬＥＦＴ（左に動く）、ＲＩＧＨＴ（右に動く）、ＳＴＡＹ（そのまま）｝の３種類の操作のうちいずれか１つが選択される。そして、パドル２１がボールＢを受けたときはパドル２１に、パドル２２がボールＢを受けたときはパドル２２に、それぞれ＋１の報酬が与えられるものとする。

ここでのタスクは、得られる報酬をより多くすることである。これを行動決定問題として見た場合、各ステップ毎に、ボールＢおよびパドル２１の状態（Ｂｘ，Ｂｙ，Ｂθ，Ｃｘ）が与えられ、かつ、人間１が操作するパドル２２の状態Ｐｘおよび操作Ｍｐも観察可能であるとき、より多くの報酬が得られるように、パドル２１の操作Ｍｃを決定する、ということになる。

図６〜図８は図４の学習装置１０の動作を示すフローチャートである。図６に示すように、本実施形態に係る処理は、大きく、２つの部分に分けられる。１つは、人間１の行動観察を基にして行動ルールを作成する処理（Ｓ０１）、もう１つは、強化学習によって行動ルールを修正する処理（Ｓ０２）である。

まず、行動ルール作成処理Ｓ０１について、図７のフローを参照して説明する。この処理Ｓ０１では、人間１の行動（パドル２２の操作Ｍｐ）を行動観察部３によって観察し、また環境２の状態（ボールＢおよびパドル２２の状態Ｂｘ，Ｂｙ，Ｂθ，Ｐｘ）を状態観察部６によって観察する。そして、行動ルール作成部４が、行動と状態とを関連付けて行動ルールを作成し、行動ルール記憶部５に格納する。

まずステップＳ１１において、行動観察部３が人間１の行動を観察する。図５の例では、人間１が操作するパドル２２の操作Ｍｐが人間１の行動に相当し、（ＬＥＦＴ，ＲＩＧＨＴ，ＳＴＡＹ）のうちいずれかの信号が、人間１の行動として観察される。

次にステップＳ１２において、状態観察部６が環境２の現在の状態を観察する。図５の例では、ボールＢの位置および向き（Ｂｘ，Ｂｙ，Ｂθ）、並びに人間１が操作するパドル２２の位置（Ｐｘ，Ｐｙ）が、環境２の状態として観察される。ただし、Ｐｙ＝０である。

次にステップＳ１３において、行動ルール作成部４が、行動観察部３によって観察された行動と状態観察部６によって観察された状態との対応関係を、行動ルールとして規定する。図５の例では、ボールＢの位置および向き（Ｂｘ，Ｂｙ，Ｂθ）とパドル２２の位置（Ｐｘ，Ｐｙ）に対して、人間１がどのような操作Ｍｐを取ったかという対応関係を、行動ルールとして求める。そしてステップＳ１４において、行動ルール作成部４は、作成した行動ルールを行動ルール記憶部５に格納する。

ここで、行動ルールの表現形式としては、様々なものが考えられる。例えば、ＩＦ−ＴＨＥＮ形式によって表現したり、入力を（Ｂｘ，Ｂｙ，Ｂθ，Ｐｘ，Ｐｙ）、出力をＭｐとする関数近似によって表現したりすればよい。また、状態と行動の組み合わせに対して、強化学習における状態行動価値を割り当ててもよい。例えば、ある状態と行動の組合せが観察されたとき、その組合せに対して高い価値を割り当てるようにする。

そしてステップＳ１５において、終了条件を満たすか否かを判断し、満たすときは（Ｙｅｓ）処理Ｓ０１を終了し、満たさないときは（Ｎｏ）ステップＳ１１に戻る。ここでの終了条件としては例えば、人間１の観察が十分になされたとみなせる所定回数の観察が行われたこと、または、十分な個数の行動ルールが作成されたこと、などを用いればよい。ここで示した２つの終了条件は、一見似通ってはいるが、複数回の観察において状態と行動が同一であることもあり得るため、観察回数と作成される行動ルールの個数とは必ずしも一致しない。

図９は本実施形態における行動ルールの表現形式の一例を示す図である。図９（ａ）において、取りうる状態は、ボールＢの座標（Ｂｘ，Ｂｙ）および向きＢθ、パドル２２の座標（Ｐｘ，Ｐｙ）の５つの変数によって表現される。すなわち、状態は５次元の空間をなす。各次元は離散化されており、ボールＢの座標（Ｂｘ，Ｂｙ）およびパドル２２のｘ座標Ｐｘはそれぞれ例えば１０分割されるものとする。また、ボールＢの向きは右上、右下、左上、左下の４通り、パドル２２のｙ座標Ｐｙは０に固定されているので、取りうる状態の個数は４０００（＝１０ｘ１０ｘ４ｘ１０ｘ１）となる。

図９（ｂ）はある状態における状態行動価値を表す表現である。図９（ｂ）では、５次元の状態を２次元上に表現するために、ボールＢのｘ座標Ｂｘをｘ方向に、ｙ座標Ｂｙをｙ方向に表している。ボールＢの向きＢθは左下、パドル２２のｘ座標Ｐｘは５である。状態行動価値とは、各状態に対してどのような行動が価値が高いかを表すものであり、例えばボールＢが座標（５，７）にある状態において、各動作に対する価値の例が円Ａ内に示されている。円Ａでは、パドル２２の３種類の操作（ＬＥＦＴ、ＳＴＡＹ、ＲＩＧＨＴ）に対して、価値がそれぞれ（０．６，０．２，０．２）であることが示されている。これは、図９（ａ）の状態では、左に移動する操作の価値が高いということを意味している。すなわち、このような状態行動価値を参照することによって、各状態に対する適切な行動が決定される。

図１０は本実施形態において人間１の行動を実際に観察した結果、得られた知識の一例を示す図である。図１０（ａ），（ｂ）において、ｘ座標、Ｙ座標は、ボールＢの位置（Ｂｘ，Ｂｙ）に対応している。そして、各座標毎に、動かない行動（ＳＴＡＹ）を取ることに対する状態価値が、色の濃淡によって示されており、状態価値が高い座標ほど色が薄くなっている。なお、パドル２２のｘ座標Ｐｘは５（下壁の中心あたり）とし、ボールＢの進行方向Ｂθは全ての方向を考慮している。

図１０（ａ）は人間１の行動を観察する前のものであり、どの状態に対しても、同じ０という値が状態価値として割り当てられている。これに対して図１０（ｂ）は、人間１の行動を５０エピソードにわたり観察して、観察した状態と行動の組に対して価値を割り当てたものである。ここで、エピソードとは、ボールＢが下壁で跳ね返ってから次に下壁で跳ね返るまでの、報酬がもらえたか否かの判断を下すことができる一連の行動のことをさし、５０エピソードとは、５０回ボールが下壁に達するまでの期間に相当する。

図１０（ｂ）から、パドル２２が中心付近にあるとき、動かないという行動が高い状態価値を有するのは、ボールＢが、Ｖ字状に広がった，斜めに落ちてくるコースにあるときであることが分かる。逆に、ボールＢがそれ以外の位置にある場合は、動かないという行動に対する状態価値は低くなっている。これは、ボールＢを受けるためには適当な場所に動く必要があるためと考えられる。

次に、行動ルールを修正する処理Ｓ０２について、図８のフローを参照して説明する。この処理Ｓ０２では、環境２の状態を状態観察部６によって観察し、観察した状態から、行動決定部８が行動ルール記憶部５の内容を参照して、装置１０の行動（パドル２１の操作Ｍｃ）を決定する。この行動の結果得られた報酬を報酬観察部７によって観察し、観察した報酬から、行動ルール修正部９が行動ルール記憶部５に格納された行動ルールを修正する。

まずステップＳ２１において、状態観察部６が環境２の状態を観察する。図５の例では、ボールＢの位置および向き（Ｂｘ，Ｂｙ，Ｂθ）、並びに装置１０自体が操作するパドル２１の座標（Ｃｘ，Ｃｙ）が、環境２の状態として観察される。ただし、Ｃｙ＝０である。

次にステップＳ２２において、行動決定部８が環境２に対する行動を決定する。ここでは、状態観察部６によって観察された状態を基にして、行動ルール記憶部５に格納された行動ルールを参照して、適切な行動を決定する。例えば図９（ｂ）に示すように、各状態に対して状態行動価値が割り当てられているものとすると、行動決定部８は、適切な状態における各行動の価値を比較し、その状態において最も価値の高い行動を、出力すべき行動として決定する。もしくは、価値の値に比例した確率で出力すべき行動を決定する。

次にステップＳ２３において、行動決定部８は、決定した行動を環境２に対して出力する。図５の例では、パドル２１の操作Ｍｃがここでの行動に相当する。

次にステップＳ２４において、報酬観察部７が、環境２から返される報酬を取得する。図５の例では、パドル２１の操作ＭｃによってボールＢを受けることができたとき、＋１の報酬を得る。

次にステップＳ２５において、行動ルール修正部９が、行動ルール記憶部５に格納された行動ルールを修正する。ここでの修正は、例えば次に示すような強化学習におけるＱの更新式等を用いればよい。Ｑとは上述した状態行動価値のことであり、ある状態ｓで行動ａを取ったときにどのような価値が得られるかを示したものである。すなわち、状態観察部６で観察された行動前の状態ｓ、行動後の状態ｓ’、行動決定部８によって決定された行動ａ、報酬観察部７によって観察された報酬ｒを用いて、行動ルール記憶部５のルールＱ（ｓ，ａ）を修正する。

上の式は、Ｑ学習と呼ばれる強化学習の手法に標準的に用いられるものである。ここで、αは学習率と呼ばれ、ルール修正の大きさを調整するパラメータであり、γは割引率と呼ばれ、将来の報酬をどの程度重要とみなすかを調整するパラメータである。

そしてステップＳ２６において、終了条件を満たすか否かを判断し、満たすときは（Ｙｅｓ）処理Ｓ０２を終了し、満たさないときは（Ｎｏ）ステップＳ２１に戻る。ここでの終了条件としては例えば、所定回数の計算が行われたこと、または、所定の報酬が得られたこと、などを用いればよい。

ここで説明した処理Ｓ０２は、従来の強化学習の手法に従って実行される。本実施形態が従来の強化学習と異なるのは、強化学習を行う前に、人間１の行動を観察することによって作成した知識が、すでに行動ルールとして入力されている点である。

図１１は本実施形態のシミュレーション結果を示すグラフである。図１１のグラフでは、ボールＢが下壁で跳ね返ってから次に下壁に達するまでの動作を１回の試行（エピソード）とし、試行毎の学習到達度（ボールＢを打ち返せた確率）をプロットしている。横軸は試行回数、縦軸は学習到達度である。すなわち、学習到達度が１に近いほど、学習能力が高く、少ない試行回数で学習到達度が１に近づくものほど、学習速度が速いと解釈される。

図１１において、Ｄ１は本実施形態すなわち人間の行動の観察を利用したもの、Ｄ２は従来の強化学習によるもの、Ｄ３は強化学習によるもので初期値をランダムに決定したものである。図１１から、本実施形態Ｄ１によると、学習の初期から速やかに到達度が上がり、その後も高い到達度が維持されていることが分かる。すなわち本実施形態は、学習性能および学習速度の両方において、他の手法よりも有効である。なお、Ｄ１では、人間の行動を観察した期間Ｔはわずか５０エピソードであり、一部の状態における行動しか観察していないが、それでも学習性能は大きく改善される。

このように本実施形態によると、人間が学習装置よりも豊富に知識を持っており、学習装置が人間の行動を観察可能な場合は、観察によって人間の知識を装置に蓄えた後に、学習装置自身が試行錯誤等により学習することによって、学習速度と学習性能の両方を向上させることができる。

また図１１から分かるように、初期値をランダムに設定した場合（Ｄ３）は、初期値を全て０に設定した場合（Ｄ２）と比較すると、最終的な学習能力が高い。これは、初期値をランダムに設定したことによって、様々な行動が環境に対して出力されるので、その結果、報酬を受け取るチャンスが大きくなるためである。

また本実施形態では、行動ルールを、例えば、各状態が離散的に表現され、各状態に行動が対応付けられた形式によって表現するものとしたが、この表現形式において、各状態の境界は、必ずしも固定されている必要はなく、例えば人間の行動分布に従って、変更可能にしてもよい。

すなわち、人間の行動分布においてよく観察される状態は、人間にとって重要なものと考えられるので、その部分は状態を細かく分けて、より高い分解能を持って行動を割り当てるのが好ましい。一方、あまり観察されない状態は、人間にとってはさほど重要でないものと考えられるので、情報量を減らすために、状態の分割を荒くしてもかまわない。すなわち、重要度に応じた分割が可能になる。

また、行動ルールの表現は、様々に工夫することができる。例えば、ニューラルネットワークを用いると、行動ルールを汎用的に表現することができ、離散化された全ての状態に価値を割り当てなくても、何らかの値が出力される。また、Radial Basis Functionを用いることによって、ニューラルネットワークと同様に、汎用的なルール表現が可能になり、全ての状態に価値を割り当てなくても何らかの値が出力される。

また、行動ルールを、Fuzzy Ruleを用いて表現することによって、状態を離散的に分割せずに、境界にあいまい性を持たせて表現することが可能になる。

図１２は本実施形態に係る学習装置の変形例を示すブロック図であり、図４と共通の構成要素には図４と同一の符号を付している。図１２では、行動観察部３によって観察された人間１の行動と、状態観察部６によって観察された状態との組を、蓄積する行動・状態記憶部１１が追加されている。行動ルール作成部４Ａは、行動・状態記憶部１１に蓄積された行動と状態との組から、統計処理によって、行動ルールを作成する。行動ルール作成部４Ａおよび行動・状態記憶部１１によって、本発明に係る行動ルール作成部が構成されている。

実際には、状態観察部６によって観察した状態が同じ場合でも、人間１のとる行動、すなわち行動観察部３による観察結果が、様々に異なる場合がある。この場合、観察の度に行動ルールを作成すると、互いに矛盾した行動ルールが作成されてしまうおそれがある。なお、同じ状態であっても同じ行動が必ずしも観察されないのは、人間の行動は一定ではないこと、観察している状態だけでは情報が不足していること、人間の行動は過去の行動にも依存すること、等の理由が考えられる。

このため、図１２の構成では、行動・状態記憶部１１において一旦、観察された状態と行動の組合せを記憶する。そして、観察が終了した後に、行動ルール作成部４Ａが、各状態に対する行動を確率で表現する等の統計処理を施してから、行動ルールを作成する。これにより、互いに矛盾した行動ルールの作成を回避することができる。

（第２の実施形態）
第１の実施形態では、コンピュータ内でのシミュレーション環境を用いて、本発明に係る学習装置の動作について説明を行った。本発明の第２の実施形態では、家庭用移動ロボットにおける本発明の適用例について、説明を行う。

ここでの家庭用移動ロボットとは、ロボット本体に備え付けられた距離センサや視覚センサ、マイクなどによって環境の状態を捉えることができ、各種アクチュエータに制御コマンドを送ることによって、移動、物体の把持・移動、音声の発話などを行うことができるロボットであって、人間の指示による行動ができ、また、人間の行動を予測した上での作業や情報等を提供できるものとする。

家庭用移動ロボットがユーザの家に来て、ユーザにサービスを提供しようとするとき、例えば家の間取り、家具の配置、家電製品の種類、ユーザの好み、家族構成など、学習すべき事項が数多く存在する。これらの知識がないと、ロボットは、ユーザに対して適切なサービスを提供することができない。言い換えると、家の間取りなどのユーザ個別の情報を取得してはじめて、ロボットは適切なサービスを提供することができる。

このようなユーザ個別の情報を、学習ではなくロボットに獲得させる場合は、例えばユーザが、初期設定として各種の情報をそれぞれ入力しなければならず、ユーザの負担が大きくなる。また、最初から全ての情報を試行錯誤的に学習させるのは、例えば室内を歩き回ってマップを作成したりする必要があるため、膨大な時間がかかる。

これに対して、本発明によると、ユーザの行動を観察することによってある程度の行動ルールを取得した上で、報酬に基づく学習を行うので、ユーザ個別の情報を短時間で取得することができ、しかもユーザの負担は生じない。

すでに説明したとおり、図２のようなユーザの移動経路を基にして、図３のようなロボットＲの移動可能経路ＲＲａを効率よく学習することができる。なお、ユーザの移動経路の計測は、いくつかの方法によって行うことができるが、主に部屋に備えられたセンサによって実現できる。例えば、（１）天井等に設置したカメラ等のセンサによって、ユーザの移動を追跡する、（２）床下に重量センサや接触センサを埋め込んでおき、ユーザをセンサによる計測値によって追跡する、（３）ユーザが持っているリモコンや携帯電話、ＰＤＡなどの機器、またはユーザの衣服等に付されたタグ等から発信された信号を周辺の受信機によってセンシングすることによって、ユーザの位置を直接計測する、などの方法が考えられる。

これらの方法は、現在、いずれも研究レベルではすでに実現されており、将来、ロボットが家庭で本格的に利用されるときの前提技術として想定することは、特に問題ないと考えられる。このような方法によって得られたユーザの位置情報は、例えば通信手段によって、ロボットに伝達すればよい。

図１３は本実施形態における知識の表現の一例であり、図１の部屋に対して、図２のようなユーザの移動軌跡が観察された場合の知識を表してている。移動可能経路を探索する問題では、部屋のどの位置が移動可能であるかを表現できればよい。図１３（ａ）は移動可能か否かを離散的に表現したものである。図１３（ａ）では、図１の部屋に相当する空間を格子状に分割しており、各升目には、「○」（移動可能）か「×」（移動不能）を示している。空いている升目は、移動可能か否かがまだ不明な所である。

また図１３（ｂ）は移動可能な所と移動不能な所とを連続した領域として表現したものである。図１３（ｂ）において、「○」が付されて破線で囲まれた領域は移動可能な領域、「×」が付されて実線で囲まれた領域は移動不能な領域、それ以外のところは移動可能か否かがまだ不明な領域である。

図１３のように知識が表現されれば、試行錯誤的な学習を行う前にすでに一部の解の候補を事前に作成することができ、その後は、移動可能か否かが不明な領域について学習を行えばよい。すなわち、ユーザは、ロボットＲに教示を与える等の負担は一切なく、普段どおりに生活するだけで、ロボットＲの学習速度は大幅に向上する。

ここまでは、家庭用ロボットが移動可能範囲を探索する、という場合について説明を行ったが、家庭用ロボットが学習しなければならない他の事項についても、本発明は適用可能である。

例えば、ドアの前の位置ではいつもユーザがノブをまわす動作をしていた場合、このようなユーザの動作を観察することによって、ドアの前に来たらドアノブをまわす、という行動ルールを獲得することができる。同様に、冷蔵庫の前でドアを開ける、ある部屋に入る前に照明のスイッチを入れる、といった動作等も学習可能である。

また、ユーザの動作速度を学習することによって、ロボット側のハンド等の動作速度を、ユーザの動作に合わせることもできる。また、ユーザの表情認識が可能になれば、ロボットの表情表出もそれに合わせることができる。

ただし、観察した人間の行動をそのまま行動ルールとして取得した場合、ロボットの知識としては必ずしも適切ではない場合がある。例えば、ロボットと人間とでは体のサイズや動作機構等が異なっているため、家の中で移動可能な場所が必ずしも一致しない。このため、図６のＳ０２に示すような第２段階の自律的な学習によって、ロボット専用の知識として追加や修正が必要になる。

＜ロボットのカスタマイズ方法＞
また、ユーザの行動を観察して知識を得る前の段階において、予め想定できる知識や行動ルールは、初期値として、ロボットに与えておくのが好ましい。これにより、学習でしか得られない知識についてのみ学習を行えばよくなるため、学習のための試行回数が大幅に低減される。この結果、ロボットは、ユーザが購入してから早期に通常使用が可能となる。

図１４は本実施形態に係るロボットのカスタマイズ方法を示すフローチャートである。図１４のフローでは、図６の学習方法における処理Ｓ０１，Ｓ０２の前工程として、ステップＳＺ１，ＳＺ２を実行する。

まずステップＳＺ１において、ロボットの製造段階において、予め、想定される汎用的な知識を作成しておく。例えば移動可能範囲を探索する問題については、想定される各種の部屋に対して汎用性の高い行動ルール群を準備する。もちろん、ロボットに対して、各センサの信号前処理、ハンド等のアクチュエータ制御、移動制御、障害物判定などの設定も行う。

次にステップＳＺ２において、ユーザがロボットを購入する際に、行動決定のための知識について初期値を決定し、ロボットに与える。例えばユーザはロボットの購入時に、ロボットの製造者からのいくつかの簡単な質問に回答する。この回答を受けて、ロボットの製造者は、想定されていた汎用的な行動ルール群の中から適切なものを選択したり、いずれかの行動ルールを修正したりすることによって、知識の初期値を設定する。

例えばユーザが、ロボットをリビングルームに置くものと回答すると、ロボットの製造者は、リビングルームにおいてありがちなソファやテーブルなどを想定した行動ルールを初期値として設定する。また、ユーザの年齢や性別によって、ロボットの移動速度やハンドの動きのスピード、話すスピードなどを適宜設定する。

このような前工程を得た後に、第１の実施形態で説明したような処理Ｓ０１，Ｓ０２を実行することによって、必要最小限の学習時間によって、ロボットが適切に活動可能になる。すなわち、カメラやセンサ等のセンシング手段が、所定の環境におけるユーザの行動を表す行動データを取得し、ロボットが、センシング手段によって取得された行動データから、初期値を基にして行動決定のための知識を得て、さらに、得た知識を基にして報酬に基づく学習を行い、行動決定のためのルールを定める。

なおここでは、行動決定のための知識の初期値の決定は、質問に対するユーザの回答に応じて行うものとしたが、これ以外の方法も可能である。例えば、同じような間取りの家に住む人や、同じようなライフスタイルの人が用いるロボットの行動ルールを、初期値として採用してもよい。このように、各種の共通項がある人の知識を初期値として用いることによっても、同様に、学習回数の削減という効果が得られる。

またここでは、行動決定のための知識の初期値の決定を、ロボットの購入時に行うものとしたが、購入時以外でも、例えばユーザが引越ししたときや家を改築したとき等においても、初期値の再設定を行うのが好ましい。例えば引越し時には、引越先の前の住人が用いていたロボットのルールを、そのまま初期値として用いてもよい。これにより、部屋の間取りなどは最初にロボットの知識として取得されるので、細かな家具の置き場所の変化などを学習するだけですむ。また引越し時に、引越し前の住居において用いていたロボットの行動ルールをそのまま用いると、ユーザの生活習慣や行動パターンについてはルールの修正が少なくてすむ。

（第３の実施形態）
本発明の第３の実施形態では、家庭用のソフトウェアエージェントへの適用例について説明する。

将来の家庭内の電化機器は、ネットワークによって相互に接続され、各機器の状態が特定の場所で一括して把握することができ、また、各機器の操作が一括して可能になると考えられる。この場合、各機器の状態を本発明における状態と考え、各機器の操作を本発明における行動と考えると、本発明の適用が可能になる。

例えば、ユーザが帰宅後、照明のスイッチを入れて、テレビのスイッチを入れ、冷蔵庫から何かを取り出し、次に電子レンジのスイッチを入る、などと行動したとする。このとき、エージェントは、各機器の電源の有無や、設定状態（例えばテレビでいうと現在のチャンネルや音量など）などを状態として観察し、機器の操作を行動として観察する。そして本発明により、エージェントは、ユーザがどの状態でどのような操作をしたかという操作履歴を行動ルールとして記憶して、ユーザと同様の行動を再現する能力を自律的に獲得できる。さらに、上述の処理Ｓ０２のようなユーザからの報酬を基にした強化学習を行うことによって、ユーザが行わなかった機器操作の提案も可能になる。

一般に、各家庭に備え付けられた電化製品の組合せは様々であり、各ユーザにとって必要な操作系列を、製品開発段階で事前にプログラムしておくことはきわめて困難である。しかし、ユーザは必要な操作系列に関してはすでに知識として持っているので、エージェントがそれを観察して取得することによって、各機器の設定の手間を削減できる。

図１５は各実施形態で示したそれぞれの環境について、本発明の状態、行動および報酬に該当する事項をまとめた図である。どの環境においても、取り扱う信号は異なるものの、第１の実施形態で詳細に説明した手法を適用して、人間の知識を観察によって取込むことができ、さらに自律的な学習によって性能を向上することができる。

本発明は、人間と環境を共有し、人間や環境について学習を行い、作業や情報の提供を行う学習装置において、煩雑な作業を要することなく、学習速度を向上させるものであり、例えば家庭用ロボットのカスタマイズを速やかに行うのに有用である。

本発明を概念的に説明するための図であり、家庭用ロボットが作業を行う部屋を模式的に示す図である。図１の部屋におけるユーザの移動軌跡の例である。図２の移動軌跡を基にして得られたロボットの移動可能経路である。本発明の第１の実施形態に係る学習装置の構成を示すブロック図である。本発明の第１の実施形態における課題を示す図である。図４の学習装置の動作を示すフローチャートである。図６における行動ルール作成処理の詳細を示すフローチャートである。図６における行動ルール修正処理の詳細を示すフローチャートである。本発明の第１の実施形態における行動ルールの表現形式の一例を示す図である。人間の行動の観察から得られた知識の一例である。シミュレーション結果を示すグラフである。図４の学習装置の変形例を示すブロック図である。本発明の第２の実施形態における知識の表現の一例である。本発明の第２の実施形態に係るロボットのカスタマイズ方法を示すフローチャートである。各実施形態について、本発明の状態、行動および報酬に該当する事項をまとめた図である。

符号の説明

１人間
２環境
３行動観察部
４，４Ａ行動ルール作成部
５行動ルール記憶部
６状態観察部
７報酬観察部
８行動決定部
９行動ルール修正部
１０，１０Ａ学習装置
１１行動・状態記憶部

Claims

所定の環境において、人間の行動を観察する行動観察部と、
前記環境の状態を観察する状態観察部と、
前記行動観察部によって観察された人間の行動と、前記状態観察部によって観察された状態とから、状態と行動との対応付けを規定する行動ルールを作成する行動ルール作成部と、
前記行動ルール作成部によって作成された行動ルールを格納する行動ルール記憶部と、
前記行動ルール記憶部を参照して、前記状態観察部によって観察された状態から、行動を決定する行動決定部と、
前記行動決定部によって決定された行動を実行した結果、得られた報酬を観察する報酬観察部と、
前記報酬観察部によって観察された報酬に基づいて、前記行動ルール記憶部に蓄えられた行動ルールを修正する行動ルール修正部とを備えた
ことを特徴とする学習装置。
請求項１において、
前記行動ルール記憶部は、行動ルールを、状態が離散的に表現され、各状態に行動が対応付けられた表現形式によって、記憶している
ことを特徴とする学習装置。
請求項２において、
前記表現形式は、各状態の境界が、行動の分布に従って、変更可能である
ことを特徴とする学習装置。
請求項１において、
前記行動ルール作成部は、
前記行動観察部によって観察された人間の行動と前記状態観察部によって観察された状態との組を、蓄積する行動・状態記憶部を備え、
前記行動・状態記憶部に蓄積された行動と状態との組から、統計処理を用いて、行動ルールを作成するものである
ことを特徴とする学習装置。
請求項１において、
前記行動ルール記憶部は、行動ルールを、Radial Basis Functionを用いた表現形式によって、記憶している
ことを特徴とする学習装置。
請求項１において、
前記行動ルール記憶部は、行動ルールを、Fuzzy Ruleを用いた表現形式によって、記憶している
ことを特徴とする学習装置。
学習装置において、行動を決定するための学習方法であって、
所定の環境におけるユーザの行動を観察し、ユーザの行動を表す行動データを取得し、取得した行動データから、行動決定のための知識を得て、
得た知識を基にして、報酬に基づく学習を行い、行動決定のためのルールを求める
ことを特徴とする学習方法。
ロボットのカスタマイズ方法であって、
前記ロボットに、行動決定のための知識について、初期値を与え、
センシング手段が、所定の環境におけるユーザの行動を表す行動データを取得し、
前記ロボットが、取得された行動データから、前記初期値を基にして、行動決定のための知識を得て、
前記ロボットが、得た知識を基にして報酬に基づく学習を行い、行動決定のためのルールを定める
ことを特徴とするロボットのカスタマイズ方法。
請求項８において、
質問に対するユーザの回答に基づいて、前記初期値を決定する
ことを特徴とするロボットのカスタマイズ方法。
請求項８において、
ユーザの引越時において、引越先の前の住人が用いていたロボットのルールを取得し、前記初期値として用いる
ことを特徴とするロボットのカスタマイズ方法。
請求項８において、
ユーザと部屋の構成またはライフスタイルが共通する人が用いるロボットのルールを取得し、前記初期値として用いる
ことを特徴とするロボットのカスタマイズ方法。