JP6642401B2

JP6642401B2 - 情報提供システム

Info

Publication number: JP6642401B2
Application number: JP2016239582A
Authority: JP
Inventors: 光古賀; 卓司山田; 鈴木　恵子; 恵子鈴木
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2020-02-05
Anticipated expiration: 2036-12-09
Also published as: JP2018097474A

Description

本発明は、提案に対するユーザの受け入れ結果を学習し、その学習結果に基づきユーザに提案を行なう情報提供システムに関する。

従来、この種の情報提供システムとして、例えば特許文献１に記載のナビゲーション装置が知られている。このナビゲーション装置は、当該装置が搭載された車両の走行予定経路から所定の提案距離以内に位置する施設を、立ち寄り地点としてユーザに提案する。提案距離は、提案対象となる施設のジャンルや環境毎に設定され、過去にユーザが提案を受け入れた度合いに基づいて修正される。例えば、提案回数に対する受け入れ回数が８０％以上である場合、提案距離を長くなる方向に修正する。提案回数に対する受け入れ回数が６０％未満である場合には、提案距離を短くなる方向に修正する。そして、次回の提案からは、そのように修正した提案距離が用いられることとなる。

特開２０１６−１２１８７９号公報

しかし、上記ナビゲーション装置は、ユーザに車両での走行予定があることを前提としている。一方、ユーザの中には、走行予定は無いもののドライブへの潜在的な要望があるユーザが存在しうる。このようなユーザにドライブ内容を提案できれば、有用性の高い内容の提案を行うことができると考えられる。

しかし、ユーザが乗車していないときに頻繁に提案が行われると、ユーザが外出したくないとき等、ユーザがドライブの要望を全く有していない場合にも提案が行われる可能性もある。このようにユーザの要望に相反するタイミングでドライブの提案が行われると、かえって有用性の低い提案が行われることとなる。

本発明は、このような実情に鑑みてなされたものであり、その目的は、提案結果を学習することにより適切なタイミングで提案を行うことのできる情報提供システムを提供することにある。

以下、上記課題を解決するための手段及びその作用効果について記載する。
上記課題を解決する情報提供システムは、ユーザに対する提案を取得する提案取得部と、前記ユーザの居場所及び当該居場所でのユーザ状態を特徴量として含む状態を特定する状態特定部と、提案が行なわれたときに、当該提案の受け入れ結果に応じて、当該提案が行なわれたときの前記状態に対して報酬を付与して学習情報とする提案結果学習部と、前記状態特定部により新たに特定された状態と、前記提案結果学習部により学習され前記特定された状態と同じ状態の学習情報とを参照して、前記特定した状態が提案に適したタイミングに相当するか否かを判定し、前記特定した状態が提案に適したタイミングに相当すると判定した際に、前記ユーザに対して提案を行なう提案タイミング判定部と、を備える。

上記構成によれば、過去に行われた提案の受け入れ結果を、ユーザの居場所やユーザ状態を特徴量として含む状態とともに学習する。そして、その学習結果に基づいて、提案に適したタイミングであるか否かが判定され、提案に適したタイミングであるときに提案が行われる。このため、ユーザに対し、有用性の高い提案を、提案が受け入れられやすいタイミングで行うことができる。

情報提供システムの一実施形態について、概略構成を示すブロック図。同実施形態における学習テーブルの概念図。同実施形態における状態特定の手順を示すフローチャート。同実施形態における強化学習の手順を示すフローチャート。同実施形態における提案タイミングの判定処理の手順を示すフローチャート。

以下、情報提供システムの一実施形態について説明する。
本実施形態の情報提供システムは、車両に持ち込み可能な装置であって、ユーザに対してドライブに関する提案を行うエージェントＥＣＵ（電子制御装置）を有している。エージェントＥＣＵは、提案内容を行ったときの受け入れ結果に基づき強化学習を行う。強化学習とは、エージェントＥＣＵが環境に基づきある行動を選択したとき、当該選択した行動に基づく環境の変化に伴って何らかの報酬をエージェントに与えることにより、試行錯誤を通じてエージェントＥＣＵを環境に適応させていく学習手法である。なお、本実施形態では、エージェントＥＣＵは、ユーザの居場所、居場所でのユーザの状態（ユーザ状態）等を含む「状態」によって、複数の状態の集合である状態空間を構成している。また、各状態でのユーザ提案の受け入れの可否が、強化学習でいうところの報酬に相当する。エージェントＥＣＵは、所定のタイミングで、状態空間を構成する状態を特定し、特定した状態と強化学習の結果とを照らし合わせ、特定した状態が提案の受け入れの可能性が高い状態であって、提案のタイミングとして適していると判定したときに、ユーザとの対話を通じて提案を行う。

図１を参照して、情報提供システム１０の構成について説明する。情報提供システム１０は、エージェントＥＣＵ１１、及びエージェントＥＣＵ１１に接続されたセンター１２のタイミング学習部３５を有している。本実施形態では、エージェントＥＣＵ１１は、車両に持込が可能な携帯情報端末に搭載されている。エージェントＥＣＵ１１は、通信部１５を介して、センター１２と接続されている。センター１２は、携帯情報端末を用いるユーザの属性や趣向に合わせたドライブ情報を取得する。センター１２は、ドライブ情報を取得すると、エージェントＥＣＵ１１にドライブ情報を送信する。ドライブ情報は、目的地、経由地等を含む情報であって、ユーザが車内に居る場合及び自宅に居る場合の両方において提供される。エージェントＥＣＵ１１は、ドライブ情報として、例えば目的地又は自宅へ向かう車両内に居るユーザに対し、ユーザの興味があると推定される場所であって車両で向かうことができる経由地を提供する。また、エージェントＥＣＵ１１は、ドライブ情報として、自宅にいるユーザに対し、ユーザの興味があると推定される場所であって車両で向かうことができる目的地を提供する。

エージェントＥＣＵ１１の構成について説明する。エージェントＥＣＵ１１は、カメラ５０から画像を取得して画像認識を行う画像認識部１６を備える。画像認識部１６は、携帯情報端末に設けられたカメラ５０から画像情報を取得する。カメラ５０が取得する画像は、ユーザ又はユーザの周辺環境の画像である。又は、画像認識部１６は、車内を撮像する車載カメラ、自宅内を撮像するカメラから画像情報を取得するようにしてもよい。画像認識部１６は、取得した画像に対して画像処理を行って、物体等の認識を行い、画像認識結果を、ユーザ状態推定部１７及びユーザ行動推定部１８に出力する。

ユーザ状態推定部１７は、画像認識結果を画像認識部１６から取得するほかに、車載機器５４から無線通信等を介して車両情報及び操作情報を取得し、家電機器５５から無線通信等を介して家電機器５５の操作情報を取得する。車載機器５４は、例えばナビゲーションシステムや、空調システムの操作装置等である。家電機器５５は、テレビ、オーディオシステム等である。ユーザ状態推定部１７は、画像認識結果、車両情報及び車載機器５４の操作情報、家電機器５５の操作情報を取得すると、それらの情報を統合してユーザ状態推定情報としてセンター１２に送信する。また、ユーザ状態推定部１７は、ユーザ状態推定情報に対するユーザ状態の学習結果を、センター１２から受信して、ユーザ状態を判定する。

具体的には、ユーザ状態推定部１７は、センター１２から取得したユーザ状態の学習結果に基づき、ユーザの居場所が、「車内」、「自宅」又はそれ以外のいずれであるかを判定する。また、ユーザ状態推定部１７は、ユーザの居場所が車内であると判定したとき、ユーザ状態の学習結果に基づき、車両の走行エリア及び車両の周辺状況を判定する。走行エリアは、例えば「高速道路」、「一般道」等の道路種別であってもよいし、自宅周辺（生活圏）、自宅から離れた遠方のエリア（生活圏外）であるか否かを示す情報であってもよい。車両の周辺状況は、「渋滞」、「道路規制中」、「それ以外」等といった交通情報である。また、ユーザ状態推定部１７は、ユーザの居場所が車内であると判定したとき、ユーザ状態の学習結果又は車両情報に基づき、例えば「前進」、「後進」、「停車」「乗降中」等の車両状態を判定する。「前進」、「後進」、「停車」及び「乗降中」は、例えばナビゲーションシステム等、車載ネットワークに接続された制御装置から取得することが可能である。また、ユーザ状態推定部１７は、ユーザの居場所が自宅であると判定したとき、ユーザ状態の学習結果に基づき、例えば「立ち」、「座り」、「歩き」、「寝そべり」等のユーザの自宅での状態を判定する。

ユーザ行動推定部１８は、ユーザ状態推定部１７と同様に、画像認識結果を画像認識部１６から取得するほかに、車載機器５４から無線通信等を介して車両情報及び操作情報を取得し、家電機器５５から無線通信等を介して家電機器５５の操作情報を取得する。ユーザ行動推定部１８は、画像認識結果、及び車載機器５４の操作情報、家電機器５５の操作情報を取得すると、それらの情報を統合してユーザ行動推定情報としてセンター１２に送信する。また、ユーザ行動推定部１８は、ユーザ行動推定情報に対するユーザ行動の学習結果を、センター１２から受信して、ユーザ行動を判定する。

具体的には、ユーザ行動推定部１８は、ユーザの居場所が車内であると判定されたとき、センター１２から取得したユーザ行動の学習結果に基づき、例えば「機器操作中」、「会話中」、「睡眠中」等の車内でのユーザの行動を判定する。一方、ユーザ行動推定部１８は、ユーザの居場所が自宅であると判定されたとき、センター１２から取得したユーザ行動の学習結果に基づき、例えば「飲食中」、「オーディオ視聴中」、「電話中」等の自宅でのユーザの行動を推定する。

また、エージェントＥＣＵ１１は、タイミング判定部２０を備える。タイミング判定部２０は、エージェントＥＣＵ１１がドライブ情報を受信したとき等の所定のタイミングで、ユーザ状態推定部１７からユーザの状態を取得するとともに、ユーザ行動推定部１８からユーザの行動を取得する。エージェントＥＣＵ１１は、取得したユーザ状態及びユーザ行動をセンター１２に送信する。また、タイミング判定部２０は、センター１２からタイミング判定状況の強化学習の結果を受信し、この強化学習結果に基づき、ユーザ状態及びユーザ行動で特定される状態Ｓ（ｉ）が、ドライブの提案を行うタイミングに適したものであるか否かを判定する。そして、タイミング判定部２０は、状態Ｓ（ｉ）が、ドライブを行うタイミングに適したものであると判定したとき、対話制御部２５に対してドライブ情報の出力要求を行う。対話制御部２５は、センター１２から受信したドライブ情報を、音声合成部２６に出力する。音声合成部２６は、ドライブ情報の内容を音声化し、携帯情報端末に設けられたスピーカ５２を介してドライブ情報を音声で出力する。

対話制御部２５は、ユーザが提案の受け入れの可否をユーザとの対話によって判定する。ユーザの発話による音声は、携帯情報端末のマイク５１を通じて信号化され、音声認識部２７に入力される。音声認識部２７は、入力した音声信号を解析して音声認識を行い、提案が受け入れられたか否かを判定する。そして、受け入れの可否を示す提案結果情報をセンター１２に送信する。

次に、センター１２の構成について説明する。センター１２は、エージェントＥＣＵ１１と通信を行う通信部３０と、ユーザ状態学習部３１及びユーザ行動学習部３２を備える。ユーザ状態学習部３１は、エージェントＥＣＵ１１が送信したユーザ状態推定情報やユーザとの対話を通じて得られた情報等を学習して、学習結果を学習結果記憶部３３に記録する。例えば、ユーザ状態学習部３１は、ユーザ状態を特定したとき、ユーザとの対話を通じて特定したユーザ状態が実際の状態に合致したものであるか否かを学習する。さらに、ユーザ状態学習部３１は、エージェントＥＣＵ１１からユーザ状態推定情報を受信した際に、学習結果記憶部３３に記憶された学習結果に基づき、ユーザ状態推定情報と類似度の高いユーザ状態をエージェントＥＣＵ１１に送信する。

ユーザ行動学習部３２は、エージェントＥＣＵ１１が送信したユーザ行動推定情報やユーザとの対話を通じて得られた情報等を学習して、学習結果を学習結果記憶部３３に記録する。さらに、ユーザ行動学習部３２は、エージェントＥＣＵ１１からユーザ行動推定情報を受信した際に、学習結果記憶部３３に記憶された学習結果に基づき、ユーザ行動推定情報と類似度の高いユーザ状態をエージェントＥＣＵ１１に送信する。

また、センター１２は、タイミング学習部３５を備える。タイミング学習部３５は、エージェントＥＣＵ１１から送信された提案結果情報を、提案履歴情報として提案履歴記憶部３６に記憶する。また、タイミング学習部３５は、一つの状態の提案履歴情報に基づき強化学習を行い、その状態の強化学習結果を状態と関連付けて学習結果記憶部３３に記録する。

さらに、センター１２は、提案取得部３８を備える。提案取得部３８は、ユーザの属性（年齢、性別、住所、居所…）、状況（天候、時間帯…）、ユーザの趣向等に基づき、ユーザに提案しうるドライブ情報を取得する。

次に、提案タイミングの強化学習について説明する。提案タイミングを判定するための状態Ｓ（ｉ）の特徴量Ｘ（ｊ）は、例えば以下のように定義される。
・Ｘ１：ユーザの居場所…車内、自宅
・Ｘ２：車両の居場所詳細…運転席、助手席、後席
・Ｘ３：自宅の居場所詳細…リビング、ダイニング、台所、寝室、浴室、トイレ
・Ｘ４：車両の走行エリア…高速道路、一般道路（生活圏）、一般道路（生活圏外）
・Ｘ５：車両の周辺状況…渋滞中、道路規制中、その他の状態
・Ｘ６：車両でのユーザ状態…前進中、後退中、停車中、乗降中
・Ｘ７：自宅でのユーザ状態…立ち姿勢、座り姿勢、歩行中、横臥
・Ｘ８：車両でのユーザ行動…機器操作中、会話中、睡眠中
・Ｘ９：自宅でのユーザ行動…飲食中、オーディオ視聴中、作業中、電話中、会話中、睡眠中、スマートフォン操作中
図２に示すように、学習情報としての強化学習情報１００は、学習結果記憶部３３に記録されている。タイミング学習部３５は、提案結果情報をエージェントＥＣＵ１１から取得したとき、その提案結果情報を提案履歴情報として提案履歴記憶部３６に記録する。また、その提案結果情報に対応するユーザ状態学習部３１により特定されたユーザ状態（Ｘ１〜Ｘ７）、ユーザ行動学習部３２により特定されたユーザ行動（Ｘ８，Ｘ９）で定められる状態Ｓ（ｉ）を特定する。状態Ｓ（ｉ）は、既に学習されている場合もあるし、新たに得られる場合もある。

タイミング学習部３５は、特定した状態Ｓ（ｉ）に対し、新たに取得された提案結果情報に基づき報酬Ｒ（Ｓｉ）を算出する。例えば状態Ｓ（ｉ）のときにドライブ情報に基づく提案を行った際に、受け入れられた場合の報酬をＲ（Ｓｉ）を高くし（例えば「１」）、受け入れられなかった場合の報酬Ｒ（Ｓｉ）を低くする（例えば「０」）。

そして、タイミング学習部３５は、算出した報酬Ｒ（Ｓｉ）に基づき、状態価値関数Ｖ（Ｓｉ）を算出する。タイミング学習部３５は、過去に算出した報酬Ｒ（Ｓｉ）´と、新たに算出した報酬Ｒ（Ｓｉ）との平均を、その状態Ｓ（ｉ）の状態価値関数Ｖ（Ｓｉ）とする。例えば、特定した状態Ｓ（ｉ）が過去に学習されていない場合には、算出した報酬Ｒ（Ｓｉ）が状態価値関数Ｖ（Ｓｉ）となる。一方、状態Ｓ（ｉ）に対し、既に報酬Ｒ（Ｓｉ）が付与されており、新たに報酬Ｒ（Ｓｉ）´を算出した場合には、報酬Ｒ（Ｓｉ）及びＲ（Ｓｉ）´の相加平均が状態価値関数Ｖ（Ｓｉ）となる。なお、過去の報酬Ｒ（Ｓｉ）を状態価値関数Ｖ（Ｓｉ）に反映できればよいため、報酬Ｒ（Ｓｉ）及びＲ（Ｓｉ）´の中央値、相乗平均等の相加平均以外の平均値を「平均」としてもよい。

図２に示す状態Ｓ（１）〜Ｓ（５）は、過去に提案が１回だけ行われたものである。例えば状態Ｓ（１）のときには提案が受け入れられなかったため（「失敗」）、状態価値関数Ｖ（Ｓｉ）は「０」等の低い値である。また、状態Ｓ（２）のときには提案が受け入れられたため（「成功」）、状態価値関数Ｖ（Ｓｉ）は「１」等の高い値である。

提案しうるドライブ情報が存在した時点から、状態Ｓ（ｉ）が、図２に示すＳ（３）、Ｓ（４）、Ｓ（５）のように遷移し、状態Ｓ（５）のときに提案がなされ、提案が受け入れられたとすると、報酬をＳ（３）、Ｓ（４）、Ｓ（５）の全てに高い報酬が付与される。その結果、各状態Ｓ（３）〜Ｓ（５）の状態価値関数Ｖ（Ｓｉ）が高くなる。

図２に示す状態Ｓ（６）は、平均化された報酬Ｒ（Ｓｉ）を状態価値関数Ｖ（Ｓｉ）としたものである。同じ状態Ｓ（ｉ）での提案回数が多い場合において、提案タイミングによって報酬Ｒ（Ｓｉ）が「０」や「１」等に変化しても、報酬Ｒ（Ｓｉ）が平均化されることによって、状態価値関数Ｖ（Ｓｉ）の値が過大又は過小となることを抑制することができる。

状態価値関数Ｖ（Ｓｉ）が高い状態Ｓ（ｉ）は、ユーザが提案を受け入れやすいと推定される状態であり、提案を行うタイミングとして適している。状態価値関数Ｖ（Ｓｉ）が低い状態Ｓ（ｉ）は、ユーザが提案を受け入れにくいと推定される状態であり、提案を行うタイミングとして適していない。エージェントＥＣＵ１１は、この強化学習結果に基づき、特定された状態Ｓ（ｉ）がドライブ情報に基づく提案を行うタイミングとして適しているか否かを判定する。

次に図３〜図５を参照して、センター１２及びエージェントＥＣＵ１１による処理手順を説明する。
まず図３を参照して、センター１２による状態Ｓ（ｉ）の特定処理を説明する。タイミング学習部３５は、エージェントＥＣＵ１１から取得したユーザ状態推定情報及びユーザ行動推定情報と、学習結果記憶部３３に記録された学習情報に基づき、ユーザの居場所を推定する（ステップＳ１０）。また、タイミング学習部３５は、居場所の推定結果に基づき、ユーザが車内にいるか否かを推定する（ステップＳ１１）。タイミング学習部３５は、ユーザが車内にいると推定すると（ステップＳ１１：ＹＥＳ）、エージェントＥＣＵ１１から取得した車両情報に基づき走行エリアを特定し（ステップＳ１２）、走行エリアの状況を特定する（ステップＳ１３）。また、タイミング学習部３５は、車両の状態を推定し（ステップＳ１４）、車内でのユーザの行動を推定する（ステップＳ１５）。

一方、タイミング学習部３５は、ユーザの居場所が車内ではないと推定すると（ステップＳ１１：ＮＯ）、ユーザの居場所が自宅であるか否かを推定する（ステップＳ１６）。タイミング学習部３５は、ユーザの居場所が自宅ではないと推定すると（ステップＳ１６：ＮＯ）、状態Ｓ（ｉ）が特定できない旨の通知をエージェントＥＣＵ１１に送信し、特定処理を終了する。タイミング学習部３５は、ユーザの居場所が自宅であると推定すると（ステップＳ１６：ＹＥＳ）、自宅でのユーザの状態を推定するとともに（ステップＳ１７）、自宅でのユーザの行動を推定する（ステップＳ１８）。

次に図４を参照して、センター１２による提案タイミングの強化学習の手順について説明する。この処理は、センター１２が、提案の受け入れ結果をエージェントＥＣＵ１１から受信した時に行われる。タイミング学習部３５は、エージェントＥＣＵ１１から送信された提案結果情報に基づき、状態Ｓ（ｉ）に対して報酬Ｒ（Ｓｉ）を付与する（ステップＳ２０）。例えばタイミング学習部３５は、提案が受け入れられたと判断すると「１」を報酬Ｒ（Ｓｉ）とし、提案が受け入れられていないと判断すると報酬Ｒ（Ｓｉ）を「０」とする。

次に、タイミング学習部３５は、状態価値関数Ｖ（Ｓｉ）を更新する（ステップＳ２１）。タイミング学習部３５は、状態Ｓ（ｉ）に対して算出した報酬と、状態Ｓ（ｉ）に既に付与されている報酬との平均「ｍｅａｎ（Ｒ（Ｓｉ））」を求めて、この平均を新たな状態価値関数Ｖ（Ｓｉ）とする。タイミング学習部３５は、状態価値関数Ｖ（Ｓｉ）を算出すると、強化学習情報１００として学習結果記憶部３３に記録する。

次に図５を参照して、エージェントＥＣＵ１１による提案タイミングの判定処理について説明する。エージェントＥＣＵ１１のタイミング判定部２０は、ドライブについて提案内容があるか否かを判断する（ステップＳ１）。このとき、エージェントＥＣＵ１１は、センター１２からドライブ情報を受信したか否かを判断する。例えば、ドライブ情報は、目的地又は経由地、出発地から目的地までの経路、所要時間等を含む。

エージェントＥＣＵ１１のタイミング判定部２０は、提案内容がないと判断すると（ステップＳ１：ＮＯ）、提案タイミングの判定処理を終了してステップＳ１に戻り、センター１２からのドライブ情報の提供を待機する。一方、エージェントＥＣＵ１１のタイミング判定部２０は、ドライブの提案内容があると判断すると（ステップＳ１：ＹＥＳ）、状態Ｓ（ｉ）を推定する（ステップＳ２）。具体的には、タイミング判定部２０は、ユーザ状態推定部１７及びユーザ行動推定部１８に対して推定情報の出力を要求する。ユーザ状態推定部１７及びユーザ行動推定部１８は、画像認識部１６から認識結果を取得し、車載機器５４及び家電機器５５から各種情報を取得する。タイミング判定部２０は、ユーザ状態推定部１７からユーザ状態推定情報を取得し、ユーザ行動推定部１８からユーザ行動推定情報を取得して、センター１２に送信する。

センター１２の通信部３０が、エージェントＥＣＵ１１からユーザ状態推定情報及びユーザ行動推定情報を取得すると、ユーザ状態学習部３１及びユーザ行動学習部３２が状態Ｓ（ｉ）を特定する。ユーザ状態学習部３１及びユーザ行動学習部３２により特定された状態Ｓ（ｉ）はタイミング学習部３５に出力される。タイミング学習部３５は、強化学習情報１００の中から、特定された状態Ｓ（ｉ）を検索する。タイミング学習部３５は、検索の結果、同じ状態Ｓ（ｉ）を抽出した場合には、その状態Ｓ（ｉ）の状態価値関数Ｖ（Ｓｉ）を強化学習結果としてエージェントＥＣＵ１１に送信する。一方、タイミング学習部３５は、同じ状態Ｓ（ｉ）を抽出できなかった場合には、同じ状態Ｓ（ｉ）がないことを示す検索結果を強化学習結果としてエージェントＥＣＵ１１に送信する。

エージェントＥＣＵ１１のタイミング判定部２０は、強化学習結果をセンター１２から取得したか否かを判断する（ステップＳ３）。タイミング判定部２０は、例えばユーザの居場所等が特定できなかった場合等、強化学習結果をセンター１２から取得できない場合には（ステップＳ３：ＮＯ）、ドライブ情報の提案内容に基づく提案を行う（ステップＳ５）。具体的には、タイミング判定部２０は、対話制御部２５に提案要求を出力する。対話制御部２５は、音声合成部２６を介して、スピーカ５２から提案内容に基づく音声を出力する。

一方、タイミング判定部２０は、強化学習結果を取得すると（ステップＳ３：ＹＥＳ）、取得した強化学習結果に基づき、特定された状態Ｓ（ｉ）が提案に適したタイミングである否かを判断する（ステップＳ４）。このとき、タイミング判定部２０は、強化学習結果である状態価値関数Ｖ（Ｓｉ）が所定値以上であるか否かを判断する。そして、状態価値関数Ｖ（Ｓｉ）が所定値以上である場合には、状態Ｓ（ｉ）が提案に適したタイミングであるとして、ドライブ情報の提案内容に基づく提案を行う（ステップＳ５）。一方、タイミング判定部２０は、状態価値関数Ｖ（Ｓｉ）が所定値未満である場合には、ドライブ情報の提案を行わず、一旦処理を終了して、ステップＳ１に戻る。さらに、タイミング判定部２０は、同じ状態Ｓ（ｉ）がないことを示す検索結果を受信した場合には、提案に適したタイミングであるとみなして、ドライブ情報の提案内容に基づく提案を行う（ステップＳ５）。

提案が実行されると、対話制御部２５は、ユーザとの対話を通じて提案結果を取得する（ステップＳ６）。音声認識部２７は、提案に対するユーザの発話音声を認識して、発話内容を対話制御部２５に出力する。対話制御部２５は、発話内容に基づき、ユーザが提案を受け入れたか否かを判断し、提案結果情報をセンター１２に送信する。センター１２は、提案結果情報を受信して、受信した提案結果情報に基づき提案タイミングの強化学習を行う（ステップＳ７、図４参照）。

このように、エージェントＥＣＵ１１は、常にドライブ情報が取得される都度、ユーザに提案を行うのではなく、ユーザが提案を受け入れやすいタイミングをユーザ毎に強化学習し、強化学習結果に基づき提案に適したタイミングのときに提案を行う。このため、ユーザは、ドライブ情報が取得される度に提案が行われる場合に比べ、煩わしさを感じない。また、潜在的にドライブの希望があるユーザに、提案に適したタイミングでドライブの提案を行うことで、ユーザにとって有用性の高い情報を提供できる。

以上説明したように、本実施形態によれば、以下の効果が得られるようになる。
（１）上記実施形態では、センター１２は、過去に行われた提案の受け入れ結果を、ユーザの居場所、居場所でのユーザ状態及びユーザ行動を特徴量として含む状態とともに強化学習する。そして、エージェントＥＣＵ１１によって、センター１２から取得された強化学習結果に基づいて、提案に適したタイミングであるか否かが判定され、提案に適したタイミングであるときに提案が行われる。このため、ユーザに対し、有用性の高い提案を、提案が受け入れられやすいタイミングで行うことができる。

（他の実施形態）
なお、上記実施形態は、以下のような形態をもって実施することもできる。
・上記実施形態では、対話制御部２５を介したユーザとの対話を通じて、提案が受け入れられたかを判断した。これに代えて、携帯情報端末のタッチパネルディスプレイ、又は操作ボタンが提案受け入れの際にオン操作されることによって、提案が受け入れられたかを判断するようにしてもよい。

・上記実施形態では、センター１２のタイミング学習部３５が、ユーザ状態の特徴量及びユーザ行動の特徴量で定められる状態を特定するようにした。これ以外に、ユーザ状態学習部３１及びユーザ行動学習部３２のいずれか一方が、それらの特徴量で定められる状態を特定するようにしてもよい。又は、エージェントＥＣＵ１１が、画像認識結果に基づきユーザ状態及びユーザ行動を学習し、ユーザ状態の特徴量及びユーザ行動の特徴量で定められる状態を特定してもよい。

・上記実施形態では、エージェントＥＣＵ１１は、センター１２から強化学習結果が得られない場合に（ステップＳ３：ＮＯ）、提案を実行するようにした（ステップＳ５）。これに代えて、センター１２から強化学習結果が得られない場合には（ステップＳ３：ＮＯ）、提案を実行しないようにしてもよい。この態様においては、例えば、強化学習結果に基づかないタイミングでの提案が所定回数繰り返され、その提案の受け入れ結果を学習した強化学習結果を蓄積する。

・上記実施形態では、ユーザの居場所が「車内」又は「自宅」である場合に提案を行うようにした。これに加えて、ユーザの居場所が「車内」又は「自宅」以外である場合に提案を行うようにしてもよい。例えば、ユーザの居場所が「会社」、「電車」であって所定の時間帯の場合において提案を行うようにしてもよい。

・上記実施形態では、タイミング学習部３５は、提案が受け入れられたときの報酬を例えば「１」として、状態Ｓ（ｉ）に対して付与するようにした。これ以外に、ユーザとの対話を通じて、提案に対するユーザの感情を推定し、ユーザの感情に応じて報酬を変更するようにしてもよい。例えば、提案が受け入れられたときの提案に対するユーザの感情が肯定的であって「喜び」等が含まれるものであれば報酬を高くし、提案を受け入れたものの提案に対するユーザの感情が「喜び」等の肯定的な感情が含まれないものであれば報酬を低くしてもよい。

・上記実施形態では、強化学習を行うタイミング学習部３５をセンター１２に設けたが、エージェントＥＣＵ１１が強化学習を行うようにしてもよい。
・上記実施形態では、エージェントＥＣＵ１１は、ドライブ情報を提案するようにしたが、電車、自転車、徒歩により目的地又は経由地に向かうための情報（おでかけ情報）を提供するようにしてもよい。

・上記実施形態では、状態空間を構成する状態を、ユーザ状態及びユーザ行動によって定めた。これに代えて、状態を、ユーザ状態のみで定めるようにしてもよい。
・上記実施形態では、強化学習を行うタイミング学習部３５をセンター１２に設けた。これに代えて、タイミング学習部３５を、エージェントＥＣＵ１１に設けるようにしてもよい。

・上記実施形態では、エージェントＥＣＵ１１を、携帯情報端末が備えるものとしたが、これに代えて、エージェントＥＣＵ１１を、車両に設けられたナビゲーションシステム等の車載機器５４に設けてもよい。この場合、車内でのユーザ状態及びユーザ行動と、提案結果とが学習される。又は、エージェントＥＣＵ１１を、家電機器５５に設けてもよい。この場合、自宅でのユーザ状態及びユーザ行動と、提案結果とが学習される。また、車載機器５４に設けられたエージェントＥＣＵ１１からの情報及び家電機器５５にも受けられたエージェントＥＣＵ１１からの情報をセンター１２が統合するようにしてもよい。若しくは、エージェントＥＣＵ１１を、携帯情報端末、車載機器５４、及び家電機器５５以外の装置又はシステムに設けるようにしてもよい。

１０…情報提供システム、１１…エージェントＥＣＵ、１２…センター、１５，３０…通信部、１６…画像認識部、１７…ユーザ状態推定部、１８…ユーザ行動推定部、２０…タイミング判定部、２５…対話制御部、２６…音声合成部、２７…音声認識部、３１…ユーザ状態学習部、３２…ユーザ行動学習部、３３…学習結果記憶部、３５…タイミング学習部、３６…提案履歴記憶部、３８…提案取得部、５０…カメラ、５１…マイク、５２…スピーカ、５４…車載機器、５５…家電機器、１００…強化学習情報。

Claims

ユーザに対する提案を取得する提案取得部と、
前記ユーザの居場所及び当該居場所でのユーザ状態を特徴量として含む状態を特定する状態特定部と、
提案が行なわれたときに、当該提案の受け入れ結果に応じて、当該提案が行なわれたときの前記状態に対して報酬を付与して学習情報とする提案結果学習部と、
前記状態特定部により新たに特定された状態と、前記提案結果学習部により学習され前記特定された状態と類似度の高い状態の学習情報とを参照して、前記特定した状態が提案に適したタイミングに相当するか否かを判定し、前記特定した状態が提案に適したタイミングに相当すると判定した際に、前記ユーザに対して提案を行なう提案タイミング判定部と、を備える
情報提供システム。