JP2004227208A

JP2004227208A - ユーザ適応型行動決定装置および行動決定方法

Info

Publication number: JP2004227208A
Application number: JP2003013009A
Authority: JP
Inventors: Koji Morikawa; 幸治森川; Natsuki Oka; 夏樹岡
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2003-01-22
Filing date: 2003-01-22
Publication date: 2004-08-12

Abstract

【課題】複数のユーザが利用する場合であっても、これに適応して適切な行動を決定可能なユーザ適応型行動決定装置を提供する。
【解決手段】ユーザ行動予測部１４は、環境１１の状態値ＳＤに基づき、ユーザモデル記憶部１３に格納された複数のユーザモデルを参照して、各候補ユーザの行動ａｉを予測する。ユーザモデル選択部１６は予測された行動ａｉと環境１１内のユーザの行動値ＡＤとに基づいて、各ユーザモデルの予測性能を評価し、環境内に存在すると推定されるユーザに係るユーザモデルを選択する。行動決定部１８は推定ユーザの次の予測行動と、状態値ＳＤとに基づき、状態価値記憶部１７を参照して、次の行動を決定する。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、外部から入力を受け、その入力から当該機器を使用しているユーザを識別し、識別したユーザに適した様式で外部への出力を決定する行動決定に関する技術に属する。
【０００２】
【従来の技術】
近年、家庭用ロボットや情報端末など、ユーザに対して複雑な情報処理やサービスを提供可能な機器が求められており、実用化が進められている。これらの機器においては、提供可能な情報やサービスは多岐に渡るため、ユーザの好みに合わせて動作できる機能を有することが求められる。この場合、いかにユーザに適した行動を行い得るかが機器の性能を決める重要な指標となる。本願明細書では、ユーザに合った情報やサービスを提供できる装置を総称して、「ユーザ適応型行動決定装置」と呼ぶ。具体的には、ユーザに応じた応答をする必要がある家庭用ロボットや情報端末、家電機器などが、このユーザ適応型行動決定装置に該当する。
【０００３】
ユーザの特性に応じて出力を変更する従来技術として、特許文献１および特許文献２に開示されたものがある。特許文献１では、筋電位を図る電極によってユーザ固有の筋肉の活動を測定し、その測定結果によって、機器の出力を変更する技術が示されている。これにより、各ユーザ固有の操作時の力の強さに適した、力のフィードバックがかけられる。また、特許文献２では、音声認識において話者の特定を行う技術が示されており、具体的には、話者を識別するための複数のテンプレートを予め準備し、話者から得られた特徴量を各テンプレートと比較して、最も適合したテンプレートに係る話者を実際の話者として特定する。
【０００４】
また、ユーザに適応しながら学習を行う従来技術としては、非特許文献１に開示されたものがある。非特許文献１では、強化学習（非特許文献２を参照）を拡張した手法が示されている。強化学習とは、環境からの報酬信号を用いて試行錯誤によって学習を行う手法であり、報酬の最大化を目的として行動決定を行う学習アルゴリズムである。すなわち、非特許文献１では、相手の行動を予測するモジュールを内部状態として持ち、相手の行動を予測した上で、システムの行動を決定する。これにより、現時点の相手の行動から、将来の相手の行動を考慮でき、行動の質を向上させることができる。特に、相手との協調行動などをタスクとした場合には、この従来技術は有効である。
【０００５】
【特許文献１】
特開２００１−５１７２６号公報
【特許文献２】
特開２００１−５４８７号公報
【非特許文献１】
ナガユキ（Ｙ．Ｎａｇａｙｕｋｉ），イシイ（Ｓ．Ｉｓｈｉｉ），ドウヤ（Ｋ．Ｄｏｙａ），“マルチエージェントの強化学習：他のエージェントの内部モデルに基づくアプローチ（Ｍｕｌｔｉ−ａｇｅｎｔｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ：ａｎａｐｐｒｏａｃｈｂａｓｅｄｏｎｔｈｅｏｔｈｅｒａｇｅｎｔ’ｓｉｎｔｅｒｎａｌｍｏｄｅｌ）”，（米国），マルチエージェントに関する第４回国際会議（ＦｏｕｒｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉＡｇｅｎｔＳｙｓｔｅｍ（ＩＣＭＡＳ２０００）），ＬｏｓＡｌａｍｉｔｏｓ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，２０００年８月，ｐ．２１５−２２１
【非特許文献２】
サットン（Ｒ．Ｓ．Ｓｕｔｔｏｎ），バート（Ａ．Ｂａｒｔｏ）著，「強化学習入門（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＡｎＩｎｔｒｏｄｕｃｔｉｏｎ）」，（米国），ＡＢｒａｄｆｏｒｄＢｏｏｋ，ＴｈｅＭＩＴＰｒｅｓｓ，１９９８年３月
【０００６】
【発明が解決しようとする課題】
ところで、家庭用ロボットや、デジタルテレビ等の家電機器、カーナビ等の情報端末は、携帯電話等の個人向けの端末と対比すると、同じ機器が複数のユーザに利用される、という点に１つの特徴がある。このため、ユーザ適応型行動決定装置でも、複数のユーザによる利用を想定しておき、現在利用しているユーザを識別し、そのユーザに応じた行動決定を行う必要がある。
【０００７】
ところが、上述した従来技術では、複数のユーザの利用は想定されておらず、複数のユーザに適応・学習できる手法は示されていない。
【０００８】
また、複数のユーザに適応させるためには、全てのユーザを想定しておいて、各ユーザに適した行動を予めプログラムすることも考えられる。ところが、実際には、ユーザの種類をいくつかに限定できる場合はこのようなプログラムは可能であるものの、ユーザの種類が多かったり、またはユーザの多様性が高い場合は、プログラムの作成は事実上極めて困難になる。
【０００９】
前記の問題に鑑み、本発明は、ユーザ適応型行動決定装置において、複数のユーザが利用する場合であっても、これに適応して、適切な行動を容易に決定可能にすることを課題とする。
【００１０】
【課題を解決するための手段】
本発明は、ユーザに適応した行動を決定するために、ユーザの行動を予測するためのモデル、すなわちユーザモデルを用いる。そして、このユーザモデルを用いて、単に行動を決定するだけではなく、複数のユーザの識別を行う。これにより、複数のユーザに適応した行動決定が可能になる。また、現在のユーザの状態だけでなく、現在の状態から予測したユーザの次の行動にも適応して、行動を決定する。これにより、ユーザへの適応度がより一層向上する。
【００１１】
具体的には、本発明は、ユーザ適応型行動決定装置として、所定の環境について状態を観察し、状態値を取得する状態観察部と、前記環境内のユーザについて行動を観察し、行動値を取得する行動観察部と、複数の候補ユーザについて、各状態値における当該ユーザの行動傾向を表したユーザモデルをそれぞれ記憶するユーザモデル記憶部と、前記状態観察部によって取得した状態値に基づき、前記ユーザモデル記憶部に格納されたユーザモデルをそれぞれ参照して、前記複数の候補ユーザについて行動を予測するユーザ行動予測部と、前記ユーザ行動予測部によって予測された各候補ユーザの行動と、前記行動観察部によって取得された行動値とに基づいて、各ユーザモデルの予測性能を評価し、この評価結果から、前記環境内に存在すると推定されるユーザに係るユーザモデルを選択するユーザモデル選択部とを備え、前記ユーザモデル選択部によって選択されたユーザモデルを参照して予測したユーザの行動に基づいて、自己の行動を決定するものである。
【００１２】
また、本発明は、ユーザ適応型行動決定装置において、自己の行動を決定する方法として、所定の環境について状態を観察し、状態値を取得し、前記環境内のユーザについて行動を観察し、行動値を取得し、複数の候補ユーザについて、前記状態値に基づき、各状態値における当該ユーザの行動傾向を表したユーザモデルをそれぞれ参照して、行動を予測し、予測した各候補ユーザの行動と、前記行動値とに基づいて、各ユーザモデルの予測性能を評価し、この評価結果から、前記環境内に存在すると推定されるユーザに係るユーザモデルを選択し、選択したユーザモデルを参照して予測したユーザの行動に基づいて、自己の行動を決定するものである。
【００１３】
本発明によると、ユーザ適応型行動決定装置において、環境の状態値に基づき、複数のユーザモデルをそれぞれ参照して、複数の候補ユーザの行動が予測される。そして、予測された各候補ユーザの行動と、環境内のユーザの行動値とに基づいて、各ユーザモデルの予測性能が評価され、環境内に存在すると推定されるユーザに係るユーザモデルが選択される。そして、選択したユーザモデルを参照して予測したユーザの行動に基づいて、次の行動が決定される。すなわち、複数のユーザモデルを用いて、ユーザの識別がなされるとともに行動の決定が行われるので、複数のユーザへの適応が容易に実現可能になり、また、ユーザ識別のために特別のセンサ等を準備する必要がない。
【００１４】
【発明の実施の形態】
まず、本願発明に係る、相手の意図を考慮した行動決定のモデルについて、概念的に説明する。すなわち、本願発明では、人間は、自身の行動決定の際に相手の行動を評価していると考え、この評価のために、自身の内部に相手の行動を予測するための複数のモデルを持ち、その中で最も予測が合っている（言い換えると、その人の行動らしい）モデルを用いて行動決定を行う、という仮定に基づいている。
【００１５】
例えば長い机を２人で運ぶなど、相手と協力して作業を行うような場合には、コミュニケーションや行動の観察から相手の意図を推定して、自分の行動を決定することが重要である。相手が一方の端を持つために動き出したら、その行動を観察し、自分は反対側の端を持つために移動する。すなわち、自分はどちらの端を持っても目的は達成できるので、相手の行動から「どちらの端を持とうとしているのか」を読み取り、自身の行動を決定しなければならない。また、混雑した道を人にぶつからないように歩く場合でも、相手の行動に注意を払いつつ自分の行動を決定することによって、人にぶつからずにスムーズな歩行を実現している。このように、相手の意図を推定することによって、相手からの明確な意思表示がなくても協調作業を行うことが可能である。
【００１６】
相手の意図を考慮した行動決定のモデルについて、図１を用いて概念的に説明する。図１において、自分（ｓｅｌｆ）１はその内部に、相手（ｏｔｈｅｒ）２がいかなる行動を取ろうとしているかを予測する複数のモデル５を有している。自分１と相手２との関係において、まず相手２はなんらかの行動を企てようとする意図３を内部に持つものと仮定して、その意図３に基づいて行動４が外界に対して表出されるものとする。自分１は相手２の行動４を観察し、複数のモデル５のうちどのモデルが現在の相手２に最も適しているかを判定して、最適モデル６を選択する。そして、選択した最適モデル６を用いて、相手２が次に取る行動を予測し（７）、予測結果を用いて、相手２の意図３に基づく自分１の行動決定を行う（８）。このように、自分１は、内部に持つ相手モデル５を切り換えながら、自己の行動を決定する。
【００１７】
以下、本発明の実施の形態について、図面を参照して説明する。なお、本発明に係るユーザ適応型行動決定装置は、図１の概念図における自分１に該当するものであり、装置を利用する各ユーザが、相手２に該当する。また、本願明細書では、図１におけるモデル５のことを、ユーザの行動を予測するためのモデルという意味で、「ユーザモデル」と呼ぶ。
【００１８】
（第１の実施形態）
図２は本発明の第１の実施形態に係るユーザ適応型行動決定装置１０の構成を示すブロック図である。図２の装置１０は、所定の環境１１を観察して、その状態を表す状態値ＳＤと、環境１１内のユーザの行動を表す行動値ＡＤとを取得し、これら取得した状態値ＳＤおよび行動値ＡＤに基づいて、自己の行動を決定する。具体的には例えば、ユーザのために様々な作業を行う家庭内ロボットや、ユーザの操作に応じて情報提供を行う車載情報端末等が、装置１０に該当する。
【００１９】
本実施形態では、図３に示すような追跡問題（ｐｕｒｓｕｉｔｐｒｏｂｌｅｍ）を課題の例として用いて、装置１０の動作の詳細を説明する。この追跡問題は、上述の非特許文献１に記述されており、解決には協調が必要とされている。
【００２０】
図３において、世界５１（７×７の枡目）に、１個の獲物（Ｐｒｅｙ）Ｐ（三角形で示す）と２個のハンターＨＡ，ＨＢ（丸で示す）がいる。獲物ＰおよびハンターＨＡ，ＨＢは時間ステップ毎に、上下若しくは左右に桝目１個だけ移動する。ハンターＨＡ（自分：ｓｅｌｆ）は本装置１０によって行動が決定されるものとし、ハンターＨＢ（相手：ｏｔｈｅｒ）は所定の行動基準に従って行動するものとする。また、獲物ＰはハンターＨＡ，ＨＢからランダムに逃げ回るものとする。そして、この課題では、ハンターＨＡ，ＨＢが獲物Ｐを挟み撃ちにする位置に到達した場合に報酬が得られるものとする。具体的には、ハンターＨＡ，ＨＢがそれぞれ獲物Ｐの上下または左右に到達し、獲物Ｐを挟んだ状態になったときにのみ、正の報酬が得られる。
【００２１】
この追跡問題では、ハンターＨＢの動きを考慮しないと報酬が得られない状況にあり、このような状況下で、ハンターＨＡの行動決定をハンターＨＢに適応させながら行うことが必要である。またハンターＨＢも、報酬を得るために、例えば、獲物Ｐの上を目指すのか、あるいは右を目指すのかといった戦略に基づいて行動を決定する。ハンターＨＡは、こういったハンターＨＢの戦略の違いも考慮しなければならない。
【００２２】
以下、図２の装置１０の各ブロックの機能と動作について、図３の追跡問題を例にとって説明する。
【００２３】
状態観察部１２は、所定の環境１１について、その状態を観察し、状態値ＳＤを取得する。ここでは、図３の追跡問題において、ハンターＨＡと獲物Ｐとの相対座標とハンターＨＢと獲物Ｐとの相対座標とを並べたものを、状態値ＳＤとする。図３の例では、ハンターＨＡと獲物Ｐとの相対座標は［３，１］であり、ハンターＨＢと獲物Ｐとの相対座標は［−１，−２］であるので、状態値ＳＤ＝（［３，１］，［−１，−２］）のように表現される。
【００２４】
ユーザモデル記憶部１３は、所定の環境１１にいる可能性があると想定される複数の候補ユーザについて、それぞれ、ユーザモデルを記憶している。「ユーザモデル」とは、状態観察部１２によって観察されたある状態に対して、そのユーザであれば次のステップにおいてどのような行動をするかを予測するモデルのことをいい、すなわち、各状態値ＳＤにおける当該ユーザの行動傾向を表したものである。この意味で、「ユーザモデル」は「ユーザ行動予測モデル」とも呼ぶことができる。
【００２５】
図４はユーザモデルの一例である。説明を簡単にするために、図４では５×５の桝目で表現している。図４では、獲物Ｐを中心にした座標にそれぞれ矢印が記されている。各座標の矢印は、ハンターＨＢ（相手）がその位置に来たとき、次に取る確率が最も高い行動を示している。
【００２６】
ここで、相対するユーザの戦略が異なると、これに応じたユーザモデルがそれぞれ必要になる。図３の追跡問題の例では、相手側のハンターＨＢの戦略としては、獲物Ｐの上から挟み撃ちを狙うものや、逆に下から挟み撃ちを狙うもの等、様々なものが考えられる。このとき、各状態におけるハンターＨＡ（自分）の最適な行動も、相手側の戦略に応じて異なったものになる。図４において、（ａ）はハンターＨＢが上から挟む戦略を持つ場合のユーザモデルの例、（ｂ）はハンターＨＢが下から挟み撃ちを狙う戦略を持つ場合のユーザモデルの例である。
【００２７】
なお実際には、各座標において、円Ａ内に示すように、上下左右への各移動について確率が付された形式で、行動が表現されている。これを、本実施形態では、
Ｉｎ（ｓ，ａ）（ｎ＝ユーザの番号）
と表現する。ｓは状態であり、ここでは獲物ＰとハンターＨＢとの相対座標で表される。またａは行動であり、ここでは上下左右への各移動をそれぞれ表す。例えば、図４のＡに示す状態をｓ１とし、上への移動をａ１としたとき、
Ｉ１（ｓ１，ａ１）＝０．７
と表現される。また、ある状態ｓにおける各行動ａの確率の総和ΣＩｎ（ｓ，ａ）は１に正規化されている。このような表現の集合によって、各ユーザのユーザモデルが表わされる。本実施形態では、このユーザモデルは事前に与えられるものとする。
【００２８】
ユーザ行動予測部１４は、状態観察部１２からの状態値ＳＤを基に、ユーザモデル記憶部１３に蓄えられた複数のユーザモデルを用いて、各候補ユーザについて、それぞれ行動を予測する。その結果は、複数のユーザ行動予測結果ａｉ（ｉ＝１〜Ｎ：ｉはユーザモデル番号）として、ユーザモデル選択部１５に送られる。
【００２９】
図５のフローチャートを参照して、ユーザ行動予測部１４の動作を説明する。ユーザ行動予測部１４は、まず、状態観察部１２から状態値ＳＤを受ける（Ｓ１１）。ここでは状態値ＳＤは、ハンターＨＡと獲物Ｐとの相対座標、およびハンターＨＢと獲物Ｐとの相対座標を表現しており、４個の変数からなっている。そして、複数のモデルに対して同様の処理を行うためのループカウンタとしてｉを定義し、まずｉの初期値として１を与える（Ｓ１２）。その後、ｉをインクリメントしながら、全てのユーザモデルについて、次のステップＳ１３，Ｓ１４を実行する（Ｓ１５，Ｓ１６）。
【００３０】
ステップＳ１３において、第ｉのユーザモデルを用いて行動予測を行う。ここでは、上述した行動確率Ｉｉ（ｓ，ａ）を用いて、状態値ＳＤにおいて、確率Ｉが最も高くなる行動ａｉを求める。そして、ステップＳ１４において、求めた行動ａｉを、第ｉのユーザモデルを用いて予測した行動として蓄積する。
【００３１】
全てのユーザモデルに対して予測結果が得られたとき（Ｓ１５でＹＥＳ）、得られた行動予測結果ａｉ（ｉ＝１〜Ｎ）をユーザモデル選択部１６に出力し（Ｓ１７）、動作を終了する。
【００３２】
行動観察部１５は、所定の環境１１におけるユーザの行動を観察し、行動値ＡＤを取得する。ここでは、図３の追跡問題において、ハンターＨＢの行動（上下左右への移動）を、行動値ＡＤとして抽出する。
【００３３】
ユーザモデル選択部１６は、ユーザ行動予測部１４から送られた複数ユーザの行動予測結果ａｉ（ｉ＝１〜Ｎ）を、行動観察部１５によって取得された行動値ＡＤと照合して、各ユーザモデルの予測性能を評価し、この評価結果から、現在、環境１１内にいると推定されるユーザに係るユーザモデルを選択し、そのユーザモデル番号ｘを行動決定部１８に送る。
【００３４】
図６のフローチャートを参照して、ユーザモデル選択部１６の動作を説明する。ユーザモデル選択部１６はまず、ユーザ行動予測部１４から複数ユーザの行動予測結果ａｉ（ｉ＝１〜Ｎ）を受け、これらをメモリに蓄積する（Ｓ２１）。蓄積した予測結果ａｉ（ｉ＝１〜Ｎ）は、当たっているか否かはこの時点では不明である。そして、行動観察部１５から、現在のユーザの行動を示す行動値ＡＤを入力する（Ｓ２２）。そして、それぞれの行動予測結果に対して同様の検証処理を行うためのループカウンタとしてｉを定義し、まずｉの初期値として１を与える（Ｓ２３）。その後、ｉをインクリメントしながら、全ての行動予測結果について、次のステップＳ２４〜Ｓ２６を実行する（Ｓ２７，Ｓ２８）。
【００３５】
ステップＳ２４において、第ｉのユーザモデルについて、１ステップ前の予測行動と、行動観察部１５から得られた行動値ＡＤとを比較する。そして、一致しているときは「０」を、異なっているときは「１」を、誤差として求める。そして、求めた誤差をメモリに蓄積する（Ｓ２５）。
【００３６】
そしてステップＳ２６において、第ｉのユーザモデルについて、過去所定数のステップにおける誤差を積算する。ここでは、過去５ステップにおける誤差を積算するものとする。積算するステップ数は、行動や環境の複雑さに応じて設定すればよい。
【００３７】
全てのユーザモデルに対して誤差の積算計算が終了したとき（Ｓ２７でＹＥＳ）、誤差の和が最も少ないユーザモデルを、環境１１内にいると推定されるユーザを表すモデルとして選択し（Ｓ２９）、この選択したユーザモデルの番号ｘと、その行動予測結果ａｘを行動決定部１８に出力する（Ｓ２Ａ）。
【００３８】
状態価値記憶部１７は、行動決定のために用いる状態価値を記憶している。「状態価値」とは、状態と、自分の行動と、相手の予測された行動とによって決定される価値である。
【００３９】
図７は状態価値の一例である。図７では、ハンターＨＡ（自分）と獲物Ｐとの相対位置、およびハンターＨＢ（相手）と獲物Ｐとの相対位置が図示されたようになっており（すなわち、状態値ＳＤ＝（［２，２］，［−２，−２］））、かつ、ハンターＨＢの行動として左への移動ａｘが予測されているという条件を表している。そして、この条件下において、ハンターＨＡが各行動をとったときに期待される価値が円Ｂ内に示されている。
【００４０】
本実施形態では、この状態価値を、
Ｑ（ｓ，ａｓｅｌｆ，ａｕｓｅｒ）
と表現する。ｓは状態であり、ここではハンターＨＡと獲物Ｐとの相対座標、およびハンターＨＢと獲物Ｐとの相対座標で表される。またａｓｅｌｆはハンターＨＡの行動であり、ａｕｓｅｒはハンターＨＢの予測された行動である。例えば、図７に示された相対位置関係を状態ｓ２とし、ａｓｅｌｆ＝上への移動，ａｕｓｅｒ＝ａｘ（左への移動）とすると、
Ｑ（ｓ２，ａｓｅｌｆ，ａｕｓｅｒ）＝１．５
のように表現される。このような表現の集合によって、状態価値は表されている。本実施形態では、この状態価値は事前に与えられるものとする。
【００４１】
行動決定部１８は、状態価値記憶部１７を参照して、状態観察部１２から得た状態値ＳＤと、ユーザモデル選択部１６から得た、環境１１に現在いると推定したユーザの行動予測結果ａｘを基にして、自身の取る行動を決定する。例えば図７の場合、上下左右への移動のうち、上への移動について、最も大きい価値（１．５）が期待されるので、ハンターＨＡの行動として上への移動が選択される。
【００４２】
以上のように本実施形態によると、複数のユーザモデルを用いたユーザ行動予測によって、現在のユーザを特定し、特定したユーザの予測行動に対して、行動決定が行われる。したがって、ユーザ識別のためにセンサやボタン等の特定の手段を設けなくても、複数のユーザに適応させることができる。
【００４３】
なお、本実施形態では、状態価値は、状態と、自分の行動と、相手の予測された行動によって決定される価値とした。追跡問題では、相手が「誰か」ということに関係なく、行動を決定することができる。しかしながら、適応すべきタスクによっては、相手（ユーザ）の区別も必要になる。
【００４４】
例えば、家庭内ロボットに本発明を適用した場合を考えると、冷蔵庫の前に誰かが来ることを予測したとき、それだけでは最適な行動を決定することは必ずしもできない。冷蔵庫の前に来たのが父親のときはビールを提供し、子供のときはジュースを提供する、といったように、ロボットが取るべき行動はその相手に応じて異なる。このような場合は、状態価値を決める要素として、状態、自分の行動、相手の予測された行動に加え、相手（ユーザ）の種類ｕｓｅｒも加える必要がある。すなわち、状態価値は、
Ｑ（ｓ，ａｓｅｌｆ，ａｕｓｅｒ，ｕｓｅｒ）
などと表現すればよい。
【００４５】
なお、本実施形態では、ユーザモデル選択のための予測性能の評価に、誤差を用いたが、この代わりに例えば尤度を用いてもよい。尤度の計算式を、次のように与えられる。
【数１】

【００４６】
上式において、Ｉｘは第ｘのユーザモデルの尤度を表し、ｓｔはｔステップ前の状態、ａｔはｔステップ前の行動を示す。なお、この式では、過去５ステップ分の尤度を積算しているが、さかのぼるステップ数は、問題に応じて設定すればよい。
【００４７】
また、本実施形態では、追跡問題を例にとって説明を行ったが、適用できる課題はこれに限られるものではない。複数のユーザに対応する必要があり、ユーザの行動を予測することによって適応能力が高まる機器において、本発明は有効となる。このような機器としては、ユーザに様々な作業を提供したり、ユーザと協調して作業をしたり、ユーザの代わりに作業をしたりするロボット、ユーザに対して情報提供を行う情報機器、ユーザの好みに合わせて走行特性を変化させる車などが考えられる。
【００４８】
例えば、家庭内でユーザに様々な作業を提供するロボットを例にとると、そのユーザは、家族の構成員であり複数人の場合が多い。ロボットへの入力手段としては、画像センサ、マイク、距離センサ等のロボットに搭載されたセンサのみではなく、家に取り付けられたセンサ等も利用できる。
【００４９】
＜本発明が応用される具体例＞
（その１）リモコン操作から家族を識別
家族が共通で使用するテレビやオーディオ等のリモコン操作の情報を、本発明に係るユーザ適応型行動決定装置の入力として用いる。そして、本装置は、ユーザモデルを切り換えながら、次の操作を予測する。これにより、システムは、次の操作を代行したり、次の操作に関連する行動を行うことができる。すなわち、リモコンの操作から家族の違いを自動的に識別し、その予測行動に適した情報やサービスを提供できる。
【００５０】
例えば、ユーザが次に選択するチャンネルが予測できた場合、その番組に関連する情報をインターネット等から予め取得して表示しておくことができる。また例えば、ユーザが次にＨＤＤやＤＶＤによるビデオデッキを操作することが予測できた場合、すでに録画された番組のうち、そのユーザの指示によって録画した番組のみの一覧表を事前に作成しておくことができる。このように、インターネットからの情報取得や動画再編成画面の作成といった，若干時間を要する動作の準備が前もってなされることによって、ユーザはストレスを感じることなく機器を使用することができる。
【００５１】
（その２）家族の移動に応じたサービス提供
将来的には、家庭の各部屋に取り付けられ、ネットワークでつながったカメラや人間感知センサなどから、家族の移動に係る情報を取得することが可能になる。このような移動情報を、本発明に係るユーザ適応型行動決定装置の入力として用いることによって、家族の構成員の識別が可能になり、構成員の個性も考慮した精度の高い行動予測が実現される。これによって、家族の移動に即した情報やサービスの提供が可能になる。
【００５２】
例えば、冷蔵庫に内部の物を移動させる機能が備わっているとすると、これまでの行動系列からそのユーザが父親であり、次に冷蔵庫の前に行くことがわかっている場合、冷蔵庫に対して、ビールを取りやすい場所に移動するように指示する。もしそのユーザが子供のときは、ジュースを取りやすい場所に移動するように指示する。これにより、家族の誰が冷蔵庫の前に来ても、自分が欲しいものが取りやすい場所に来ていることになる。
【００５３】
（その３）ＧＰＳと連動した情報サービス
ＧＰＳによる位置情報の時系列情報を、本発明に係るユーザ適応型行動決定装置の入力とする。これにより、システムは、そのユーザの次時刻の位置を予測できるとともに、それまでの位置情報からユーザを特定できるので、特定したユーザに応じた情報サービスを提供することができる。例えば、予測される移動位置に面したディスプレイに、特定されたユーザに合った情報、例えば、好みに合った近所のレストランの広告や特定のイベントの案内などを表示させることが可能になる。
【００５４】
（その４）家庭用ロボットとの協調作業
本発明に係るユーザ適応型行動決定装置が家庭用ロボットとして実装された場合、ユーザの挙動が予測の対象となる。すなわち、何らかのセンサによってユーザの行動の時系列データが取得できれば、システムは、すでに有している複数のユーザモデルの中から最も近いユーザモデルを基にして、ユーザの次の行動を予測し、この予測した行動に対応した行動を行うことができる。
【００５５】
例えば、ユーザがコップを差し出したとき、ロボットはその差し出す行動から自分もコップを受け取る行動を開始し、これによりスムーズな受渡しを行うことができる。またユーザ毎に異なるコップの形状やコップを渡すときの高さに応じて、ロボットから手を差し伸べる動作の制御も変更できるし、受け取った後の動作、例えばおじいちゃんならお茶のお代わりをするのでもう一度お茶を入れる、お母さんなら紅茶を飲んだ後はお代わりなしですぐに片付ける、等の動作を次に行わせることができる。このように、ユーザがコップを片付けて欲しいと音声やボタンによって明示的に意思表示をしなくても、ユーザの動作の予測から行動を開始できるので、時間遅れが少なくなる。また、共同で机を運ぶ場合でも、人間の行動から人間がどちらの端を持つかを予測した上で、その反対側に移動するように行動ができる。このように、ユーザが次の行動を起こす前に、その行動を予測して事前に行動を起こすことによって、協調行動が容易になったり、ユーザに時間遅れによるストレスを感じさせないなどの効果が得られる。
【００５６】
（第２の実施形態）
第１の実施形態では、ユーザモデル記憶部１３内部に記憶されているユーザモデルは予め与えられるものとしたが、本発明の第２の実施形態では、ユーザモデルを学習によって更新するものとする。
【００５７】
図８は本実施形態に係るユーザ適応型行動決定装置１０Ａの構成を示すブロック図である。図８において、図２と共通の構成要素については図２と同一の符号を付しており、ここではその詳細な説明を省略する。図８の構成では、ユーザモデル記憶部１３に格納されたユーザモデルを更新するユーザモデル更新部２１が設けられている。
【００５８】
ユーザモデル更新部２１は、状態観察部１２から状態値ＳＤを受けるとともに、行動観察部１５から行動値ＡＤを受けて、ユーザモデル記憶部１３に格納されたユーザモデルを、より実際のユーザに近くなるように、学習によって更新する。ここで、ユーザモデルは、第１の実施形態で説明したように、ある状態ｓにおけるある行動ａの確率、すなわち、
Ｉｎ（ｓ，ａ）（ｎ＝ユーザの番号）
の集合によって、表現されているものとする。
【００５９】
図９のフローチャートを参照して、ユーザモデル更新部２１の動作を説明する。なお、学習の開始前には、確率Ｉｎ（ｓ，ａ）の値は初期化されているものとする。初期化の際には、例えば、すべて同じ値、またはランダムな値が割り付けられる。また、ある状態ｓにおけるＩｎ（ｓ，ａ）のａに関する総和は、１に正規化されるものとする。
【００６０】
まず、ユーザモデル選択部１６から、現在、環境１１内にいると推定されるユーザのユーザモデル番号ｘを受ける（Ｓ３１）。この結果、第ｘのユーザモデルが以下の更新動作の対象となる。
【００６１】
次に、行動観察部１５から現在のユーザの行動を示す行動値ＡＤを受けるとともに、状態観察部１２から現在の環境１１の状態を示す状態値ＳＤを受ける（Ｓ３２）。そして、第ｘのユーザモデルの状態値ＳＤにおける全ての行動に対して同様の更新処理を行うためのループカウンタとしてｕを定義し、まずｕの初期値として１を与える（Ｓ３３）。その後、ｕをインクリメントしながら、全ての行動について、次のステップＳ３４〜Ｓ３７を実行する（Ｓ３８，Ｓ３９）。
【００６２】
ステップＳ３４において、行動値ＡＤと、第ｘのユーザモデルの状態値ＳＤにおける行動ａｕとを比較する。そして、一致したとき（Ｓ３５でＹＥＳ）は、ユーザモデルの行動は現在観察された行動と一致したことになるので、その確率Ｉｘ（ＳＤ，ａｕ）を上げる（Ｓ３６）。例えば次式によって、Ｉｘ（ＳＤ，ａｕ）を更新する。
Ｉｘ（ＳＤ，ａｕ）←（１−θ）Ｉｘ（ＳＤ，ａｕ）＋θ
【００６３】
一方、行動値ＡＤと行動ａｕとが一致しなかったとき（Ｓ３５でＮＯ）は、ユーザモデルの行動は現在観察された行動と一致しなかったことになるので、その確率Ｉｘ（ＳＤ，ａｕ）を下げる（Ｓ３７）。例えば次式によって、Ｉｘ（ＳＤ，ａｕ）を更新する。
Ｉｘ（ＳＤ，ａｕ）←（１−θ）Ｉｘ（ＳＤ，ａｕ）
ここで、θは更新の程度を定めるパラメータであり、０＜θ＜１の範囲の値をとる。
【００６４】
全ての行動について更新が完了したとき（Ｓ３８でＹＥＳ）、ユーザモデル更新部２１はその動作を終了する。ここでは、行動の種類は、上下左右への移動の４種類であるので、ｕの値が４になったとき、処理を終了する。
【００６５】
このように本実施形態によると、ユーザモデルは、観察されたユーザの行動を教師信号として、実際のユーザにより近くなるように更新される。したがって、ユーザの行動予測を常に正確に行うことができる。また、更新機能を設けたことによって、正確なユーザモデルを予め準備する必要がなくなり、システムの初期設定が容易になる。
【００６６】
（第２の実施形態の変形例）
また、第２の実施形態について、次のような変形例も考えられる。
【００６７】
図１０は本変形例に係るユーザ適応型行動決定装置１０Ｂの構成を示すブロック図であり、図８の構成にさらにユーザモデル追加部２２が付加されている。
【００６８】
ユーザモデル追加部２２は、ユーザモデル選択部１６ａから最も適したユーザモデルの番号ｘを受け、第ｘのユーザモデルについてその妥当性を判断する。そして、最適な第ｘのユーザモデルであっても妥当でない場合、言い換えると、最適な第ｘのユーザモデルを用いた場合でも行動予測の精度が十分ではない場合に、ユーザモデル追加部２２は新しいユーザモデルをユーザモデル記憶部１３に追加する。
【００６９】
図１１のフローチャートを参照して、ユーザモデル追加部２２の動作を説明する。ユーザモデル追加部２２はまず、ユーザモデル選択部１６ａから、現在、環境１１内にいると推定されるユーザのユーザモデル番号ｘを受ける（Ｓ４１）。次に、ユーザモデル記憶部１３から第ｘのユーザモデルを取得する（Ｓ４２）。
【００７０】
そして、ステップＳ４３，Ｓ４４において、第ｘのユーザモデルについてその妥当性を判断する。ここでは、妥当性を判断するために、ユーザモデルにおける行動確率Ｉｘ（ｓ，ａ）の平均値を用いる。この値は、ユーザモデルに対する信頼度を示しており、所定の値よりも小さい場合は、最も適したユーザモデルを用いた場合でも十分な予測精度が得られない、ということになる。すなわち、最もよいユーザモデルを用いても、予測される行動の確率が低すぎるので、これまでにないユーザと接している、と判断して、新しいユーザモデルを生成する。
【００７１】
まず、過去所定のステップ数のＩｘ（ｓ，ａ）の平均値を求める（Ｓ４３）。ここでは、ステップ数を５にする。なお、ユーザモデル追加部２２には過去の行動値ＡＤおよび状態値ＳＤが蓄積されているものとし、Ｉｘ（ｓ，ａ）の合計演算には、これら蓄積された過去の行動値ＡＤおよび状態値ＳＤを用いるものとする。そして、ステップＳ４３で計算した行動確率Ｉｘ（ｓ，ａ）の平均値を所定の閾値と比較し（Ｓ４４）、閾値以下のときはステップＳ４５にすすむ一方、そうでないときは処理を終了する。
【００７２】
ステップＳ４５では、新しいユーザモデルを生成し、これをユーザモデル記憶部１３に格納する。新しいユーザモデルの作成には、全くランダムに作成する、または、最も良かったユーザモデルをコピーして用いる、等の手法を用いればよい。
【００７３】
このように本変形例によると、既存のユーザモデルでは行動予測の精度が不十分な場合に、新たにユーザモデルを追加して、別のユーザモデルを作成することができる。これにより、精度の高い行動予測を保証することができる。また、生成された新しいユーザモデルは、学習によって更新されるので、新しいユーザに容易に適応させることができる。
【００７４】
例えば、車や端末の操作というユーザの行動からユーザを識別して、ユーザに適した情報提示を行う車載情報端末に本実施形態を適用すると、ユーザの操作パターンが嗜好の変化等に起因して変化した場合であっても、これに応じてユーザモデルが更新されるので、適切な行動予測を常に行うことができる。また、新たなユーザが運転をするようになった場合でも、これに応じて新たなユーザモデルが追加されるので、そのユーザについて適切な行動予測を行うことができる。
【００７５】
（第３の実施形態）
第１および第２の実施形態では、状態価値記憶部１７内部に記憶される状態価値は予め与えられるものとしたが、本発明の第３の実施形態では、状態価値を学習によって更新するものとする。
【００７６】
本実施形態では、強化学習を状態価値の更新に適用する。強化学習とは、環境からの報酬信号を用いて試行錯誤によって学習を行う手法であり、報酬の最大化を目的として行動決定を行う学習アルゴリズムである（非特許文献２を参照）。すなわち、状態をｓ、報酬がどのくらいもらえそうかという見積もりを示す価値をＶ、環境に対する行動をａとし、ある状態ｓにおける状態価値をＶ（ｓ）、ある時刻ｔにおける状態をｓ（ｔ）としたとき、ｓ（ｔ）から、Ｖ（ｓ（ｔ）），Ｖ（ｓ（ｔ＋１））等を参照しながら行動ａを決定する、という手法である。
【００７７】
図１２は本実施形態に係るユーザ適応型行動決定装置１０Ｃの構成を示すブロック図である。図１２において、図１０と共通の構成要素には図１０と同一の符号を付しており、ここではその詳細な説明を省略する。
【００７８】
報酬観察部３０は、外部のユーザや環境１１から報酬に相当する情報を抽出し、報酬信号ｒとして出力する。例えば図３の追跡問題の例では、獲物Ｐを挟み撃ちにできたとき、環境１１から報酬が与えられるようにする。
【００７９】
なお、報酬信号は、人間や環境から得られる様々な情報から抽出可能であり、報酬観察部３０も、具体的には様々な構成が考えられる。例えば、○×ボタンのような人間が直接操作する手段を設けて、これによってユーザの意思を報酬として抽出したり、音声認識手段を設けてユーザの言葉による評価を報酬として抽出してもよい。または、ユーザの行動や表情等の反応から行動結果に対する評価を読み取り、これを報酬として抽出してもよい。例えば、ユーザが特定の場所を行ったり来たりしたら「イライラしている」と解釈したり、声の韻律情報の解析から快不快の状態を読み取ったり、カメラによる表情の画像認識からユーザの状態を読み取ったり、ユーザの発話内容から状態を読み取ったりすればよい。あるいは、環境から解釈してもよい。例えば、ロボットがユーザと衝突したので負の報酬と解釈したり、エネルギーが少なく移動できたので正の報酬として解釈したりしてもよい。
【００８０】
状態価値更新部３１は、基本的には強化学習のアルゴリズムに従って状態価値の更新を行う。状態価値の更新式を次に示す。
【数２】

【００８１】
ここで、ａ＊ｕｓｅｒは観察によって得られるユーザの行動、ａｓｅｌｆは装置１０ｃの出力する行動、αは学習の速度を制御するパラメータ、ｒは外部からの報酬、γは０＜γ＜１の範囲で値をとり、将来の報酬をどの程度重視するかを示す値である。また、ｓ’は行動ａｓｅｌｆによって状態ｓから遷移した後の状態、ａ’ｓｅｌｆおよびａ’ｕｓｅｒは状態ｓ’において想定される自分および相手の行動である。
【００８２】
行動決定部３２は、状態価値記憶部１７内部の状態価値とユーザ行動予測部１４ａによって予測されたユーザの行動とを参照して、装置１０Ｃ自身の行動を決定し、外部の環境１１に出力する。ユーザの行動は、次式により算出される条件付確率πに基づいて算出される。
【数３】

【００８３】
πはある状態ｓにおいてｉ番目の行動ａｉが選択される確率を記述しており、その確率πに基づいて状態ｓにおける行動ａｓｅｌｆが決定される。これはソフトマックスと呼ばれる行動決定方法である。なお、τは行動決定のランダム性を決定する値である。
【００８４】
このように本実施形態によると、行動決定のために参照する状態価値が、外部からの報酬信号ｒを用いて強化学習によって更新されるので、行動決定に柔軟性が増し、装置の適応能力が向上する。また、システムの初期設定の際に、状態価値の設定をさほど精度良く行う必要がなくなるので、初期設定が容易になる。
【００８５】
＜シミュレーション結果＞
（その１）
図１３は本発明のシミュレーション結果を示すグラフである。図１３のグラフでは、シミュレーションを開始してから獲物を捕まえて報酬が得られるまでの動作を１回の試行とし、この試行に要したステップ数をプロットしている。すなわち、ステップ数が少ないほど性能は高いということになる。横軸は試行回数、縦軸は報酬獲得までの平均ステップ数である。シミュレーションの条件は、図３の追跡問題において、ハンターＨＢが獲物Ｐを上から挟むか下から挟むかの２通りの戦略を持ち、これを１００試行回数ごとに切り替える、ものとしている。これは、ユーザが切り替わった場合の適応能力を評価するためである。
【００８６】
図１３において、Ｄ１が本発明すなわち複数のユーザモデルを持った場合、Ｄ２は比較例として、ユーザモデルを持たず、従来の強化学習による場合、そしてＤ３はユーザモデルを１種類だけ用いた場合である。また、Ｍ１は本発明のシミュレーションの際に、ユーザモデル数がどの程度増加したかを示している。グラフから、ユーザモデルの導入によって、報酬がより早く獲得できること、また、ユーザモデルを複数導入したことによって、１個の場合よりもさらに報酬獲得が早くなることが分かる。すなわち、このシミュレーションによって、本発明による行動決定性能の向上が確認された。また、Ｍ１を見ると、ユーザモデルの数は、計算開始後から増加を始め、予め規定された最大値である９に収束している。したがって、ユーザモデルの追加によって、性能の向上が実現された、と理解できる。
【００８７】
（その２）
ここでは、４種類のユーザがそれぞれ異なった戦略を持って登場するものとしてシミュレーションを行った。すなわち、試行回数１〜３０００回はユーザ１が、３００１〜８０００回はユーザ２が、８００１〜１３０００回はユーザ３が、そして１３００１〜１８０００回はユーザ４が相手をすることとした。また、システムにはユーザの交代は知らされないものとし、システムが自身で相手モデルの予測性能の違いから交代を判定することにした。また、システムが新しいモデルを作成した後に設けるモデル修正期間は３０００回試行とした。また、予測誤差の計算には、７４ステップ前までの予測結果と実際の行動との差の積算を用いた。
【００８８】
図１４はこのようなシミュレーションの結果を示すグラフであり、横軸が試行回数、縦軸が獲物を捕えるまでの平均ステップ数である。図１４において、Ｓ１が本発明すなわち複数のユーザモデルを持った場合、Ｓ２は比較例として、ユーザモデルを持たず、従来の強化学習による場合、そしてＳ３はユーザモデルを１種類だけ用いた場合である。また、Ｍ２は本発明のシミュレーションの際に、ユーザモデル数がどの程度増加したかを示している。グラフから分かるように、ユーザモデルを分化させることができる本発明Ｓ１の場合は、獲物を捕らえるまでに１５〜２０ステップを必要としている。これに対して、ユーザモデルを持たないＳ２の場合は、獲物を捕らえるまでに３０ステップ前後を一貫して必要としている。一方、ユーザモデルを１個だけ持つＳ３の場合は、最初のユーザに対しては適応することができ、本発明Ｓ２と同じ程度の性能が出ているが、３０００回試行後にユーザが切り替わった後は、新たなユーザに適応しきれず、獲物を捕らえるまでのステップ数が増加している。
【００８９】
図１５〜図１７はそれぞれユーザが交代したときのモデルの関数分化を示すグラフであり、図１５は３０００回試行の前後、図１６は８０００回試行の前後、図１７は１３０００回試行の前後における尤度変化をそれぞれ示している。
【００９０】
図１５に示すように、３０００回試行後において、モデル１の尤度が下がってきた（すなわち、予測の誤差が大きくなってきた）ために、新しいモデル２が生成され、その学習が進められている。生成された直後はモデル修正期間となり、モデル２の修正のみが行われ、モデル１の方は分化後も尤度が下がっているのが分かる。
【００９１】
また図１６に示すように、８０００回試行後において、それまで適応していたモデル２も尤度が低下したため、新しいモデル３が生成され、モデル３の学習が進められることによって、尤度が高いモデルが維持されている。
【００９２】
また図１７に示すように、１３０００回試行後において、それまで適応していたモデル３も尤度が低下したため、新しいモデル４が生成され、モデル４の学習が進められることによって、尤度が高いモデルが維持されている。
【００９３】
【発明の効果】
以上のように本発明によると、ユーザ適応型行動決定装置において、複数のユーザモデルを用いて、ユーザの識別がなされるとともに、行動の決定が行われるので、複数のユーザへの適応が容易に実現可能になる。
【図面の簡単な説明】
【図１】本発明に係る，相手の意図を考慮した行動決定モデルを概念的に説明するための図である。
【図２】本発明の第１の実施形態に係るユーザ適応型行動決定装置の構成を示すブロック図である。
【図３】各実施形態の説明のために用いる追跡問題を示す図である。
【図４】ユーザモデルの一例である。
【図５】図２の構成におけるユーザ行動予測部の動作を示すフローチャートである。
【図６】図２の構成におけるユーザモデル選択部の動作を示すフローチャートである。
【図７】状態価値の一例である。
【図８】本発明の第２の実施形態に係るユーザ適応型行動決定装置の構成を示すブロック図である。
【図９】図８の構成におけるユーザモデル更新部の動作を示すフローチャートである。
【図１０】本発明の第２の実施形態の変形例に係るユーザ適応型行動決定装置の構成を示すブロック図である。
【図１１】図１０の構成におけるユーザモデル追加部の動作を示すフローチャートである。
【図１２】本発明の第３の実施形態に係るユーザ適応型行動決定装置の構成を示すブロック図である。
【図１３】本発明のシミュレーション結果の一例を示すグラフである。
【図１４】本発明のシミュレーション結果の一例を示すグラフである。
【図１５】図１４のシミュレーションにおいて、ユーザが交代したときのモデルの関数分化を示すグラフである。
【図１６】図１４のシミュレーションにおいて、ユーザが交代したときのモデルの関数分化を示すグラフである。
【図１７】図１４のシミュレーションにおいて、ユーザが交代したときのモデルの関数分化を示すグラフである。
【符号の説明】
１０，１０Ａ，１０Ｂ，１０Ｃユーザ適応型行動決定装置
１１環境
１２状態観察部
１３ユーザモデル記憶部
１４，１４ａユーザ行動予測部
１５行動観察部
１６，１６ａユーザモデル選択部
１７状態価値記憶部
１８行動決定部
２１ユーザモデル更新部
２２ユーザモデル追加部
３０報酬観察部
３１状態価値更新部
ＳＤ状態値
ＡＤ行動値
ｒ報酬信号

Claims

所定の環境について状態を観察し、状態値を取得する状態観察部と、
前記環境内のユーザについて行動を観察し、行動値を取得する行動観察部と、
複数の候補ユーザについて、各状態値における当該ユーザの行動傾向を表したユーザモデルをそれぞれ記憶するユーザモデル記憶部と、
前記状態観察部によって取得した状態値に基づき、前記ユーザモデル記憶部に格納されたユーザモデルをそれぞれ参照して、前記複数の候補ユーザについて行動を予測するユーザ行動予測部と、
前記ユーザ行動予測部によって予測された各候補ユーザの行動と、前記行動観察部によって取得された行動値とに基づいて、各ユーザモデルの予測性能を評価し、この評価結果から、前記環境内に存在すると推定されるユーザに係るユーザモデルを選択するユーザモデル選択部とを備え、
前記ユーザモデル選択部によって選択されたユーザモデルを参照して予測したユーザの行動に基づいて、自己の行動を決定する
ことを特徴とするユーザ適応型行動決定装置。
請求項１において、
前記ユーザモデル記憶部内の、前記ユーザモデル選択部によって選択されたユーザモデルを、前記状態値および前記行動値を用いて、更新するユーザモデル更新部を備えた
ことを特徴とするユーザ適応型行動決定装置。
請求項１において、
前記ユーザモデル記憶部内の、前記ユーザモデル選択部によって選択されたユーザモデルについて、その妥当性を評価し、妥当性が不十分であると判断したとき、新たなユーザモデルを前記ユーザモデル記憶部に追加するユーザモデル追加部を備えた
ことを特徴とするユーザ適応型行動決定装置。
請求項１において、
状態価値を記憶する状態価値記憶部と、
前記ユーザモデル選択部によって選択されたユーザモデルを参照して予測したユーザの行動と、前記状態値とに基づき、前記状態価値記憶部に格納された状態価値を参照して、次の行動を決定する行動決定部とを備えた
ことを特徴とするユーザ適応型行動決定装置。
請求項４において、
前記環境から、報酬信号を取得する報酬観察部と、
前記報酬観察部によって取得された報酬信号と、前記ユーザ行動予測部によって予測された行動と、前記状態値とを用いて、前記状態価値記憶部に格納された状態価値を更新する状態価値更新部とを備えた
ことを特徴とするユーザ適応型行動決定装置。
請求項１において、
前記ユーザモデル記憶部に記憶されたユーザモデルは、前記候補ユーザの、各状態における行動確率によって、表現されたものである
ことを特徴とするユーザ適応型行動決定装置。
請求項１において、
前記ユーザモデル選択部は、予測性能の評価に、誤差または尤度を用いる
ことを特徴とするユーザ適応型行動決定装置。
ユーザ適応型行動決定装置において、自己の行動を決定する方法であって、
所定の環境について状態を観察し、状態値を取得し、
前記環境内のユーザについて行動を観察し、行動値を取得し、
複数の候補ユーザについて、前記状態値に基づき、各状態値における当該ユーザの行動傾向を表したユーザモデルをそれぞれ参照して、行動を予測し、
予測した各候補ユーザの行動と、前記行動値とに基づいて、各ユーザモデルの予測性能を評価し、この評価結果から、前記環境内に存在すると推定されるユーザに係るユーザモデルを選択し、
選択したユーザモデルを参照して予測したユーザの行動に基づいて、自己の行動を決定する
ことを特徴とする行動決定方法。