JP2022103675A

JP2022103675A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2022103675A
Application number: JP2020218449A
Authority: JP
Inventors: 和哉渡邉; Kazuya Watanabe
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-07-08
Also published as: CN114690896A; US20220208187A1

Abstract

【課題】音声ユーザインターフェースを介してユーザに通知される情報を、各ユーザに合わせた情報量に調整すること。【解決手段】実施形態の情報処理装置は、複数のコンテンツの其々についてユーザが重視する度合いを表す重要度と、前記複数のコンテンツの其々に付随するメタデータの情報量とに基づいて、前記メタデータの優先順位を決定する決定部と、前記決定部によって決定された前記優先順位に基づいて、前記メタデータを前記ユーザに通知する通知部と、を備える。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

音声認識技術を利用した音声ユーザインターフェースやそれに関連する技術が知られている（例えば、特許文献１－３参照）。

特開２０２０－８０１１０号公報特開２０１７－２２０２３８号公報特開２０２０－３０４８９号公報

しかしながら、従来の技術では、音声ユーザインターフェースを介してユーザに通知される情報に過不足が生じる場合があった。

本発明の態様は、このような事情を考慮してなされたものであり、音声ユーザインターフェースを介してユーザに通知される情報を、各ユーザに合わせた情報量に調整することができる情報処理装置、情報処理方法、及びプログラムを提供することを目的の一つとする。

この発明に係る情報処理装置、情報処理方法、及びプログラムは、以下の構成を採用した。
（１）本発明の第１の態様は、複数のコンテンツの其々についてユーザが重視する度合いを表す重要度と、前記複数のコンテンツの其々に付随するメタデータの情報量とに基づいて、前記メタデータの優先順位を決定する決定部と、前記決定部によって決定された前記優先順位に基づいて、前記メタデータを前記ユーザに通知する通知部と、を備える情報処理装置である。

（２）本発明の第２の態様は、第１の態様において、前記ユーザの発話による要求を取得する取得部と、前記取得部によって取得された前記要求を満たす一つ以上のコンテンツから前記メタデータを抽出する抽出部と、を更に備え、前記決定部は、前記抽出部によって抽出された前記メタデータの情報量と、前記抽出部によって抽出された前記メタデータが付随していたコンテンツに対する前記重要度とに基づいて、前記メタデータの優先順位を決定し、前記通知部は、前記要求に対する応答として、前記優先順位に基づき前記メタデータを前記ユーザに通知する情報処理装置である。

（３）本発明の第３の態様は、第２の態様において、前記ユーザが前記要求を発話したときの前記ユーザの周辺の環境に基づいて、前記重要度を推定する推定部を更に備える情報処理装置である。

（４）本発明の第４の態様は、第３の態様において、前記推定部は、更に、前記メタデータが通知された前記ユーザのフィードバックの結果に基づいて、前記重要度を推定する情報処理装置である。

（５）本発明の第５の態様は、第１から第４の態様のうちいずれか一つにおいて、前記メタデータには、テキストが含まれ、前記通知部は、前記メタデータに含まれる前記テキストを自動音声により読み上げることで、前記メタデータを前記ユーザに通知する情報処理装置である。

（６）本発明の第６の態様は、第５の態様において、前記決定部は、前記ユーザが目的地に到達するまでの期間内に、前記テキストの読み上げが完了するように、前記メタデータの優先順位を決定する情報処理装置である。

（７）本発明の第７の態様は、第１から第６の態様のうちいずれ一つにおいて、前記決定部は、付随先の前記コンテンツに対する前記重要度が高く、かつ前記情報量が少ない前記メタデータほど、前記優先順位を高くする情報処理装置である。

（８）本発明の第８の態様は、第１から第７の態様のうちいずれか一つにおいて、前記ユーザは、車両を運転するドライバーであり、前記決定部は、更に、前記ドライバーの運転負荷に基づいて、前記メタデータの優先順位を決定する情報処理装置である。

（９）本発明の第９の態様は、第８の態様において、前記決定部は、前記ドライバーの運転負荷が大きいほど、前記情報量が多い前記メタデータの優先順位を低くする情報処理装置である。

（１０）本発明の第１０の態様は、第８又は第９の態様において、前記通知部は、前記車両が自動運転モード下にある場合、前記車両が手動運転モード下にある場合に比べて、より多い数の前記メタデータを前記ユーザに通知する情報処理装置である。

（１１）本発明の第１１の態様は、第８から第１０の態様のうちいずれか一つにおいて、前記通知部は、前記車両が自動運転モード下にある場合、更に、前記コンテンツを前記ユーザに通知する情報処理装置である。

（１２）本発明の第１２の態様は、コンピュータが、複数のコンテンツの其々についてユーザが重視する度合いを表す重要度と、前記複数のコンテンツの其々に付随するメタデータの情報量とに基づいて、前記メタデータの優先順位を決定し、前記決定した優先順位に基づいて、前記メタデータを前記ユーザに通知する情報処理方法である。

（１３）本発明の第１３の態様は、コンピュータに、複数のコンテンツの其々についてユーザが重視する度合いを表す重要度と、前記複数のコンテンツの其々に付随するメタデータの情報量とに基づいて、前記メタデータの優先順位を決定すること、前記決定した優先順位に基づいて、前記メタデータを前記ユーザに通知すること、を実行させるためのプログラムである。

上記態様によれば、音声ユーザインターフェースを介してユーザに通知される情報を、各ユーザに合わせた情報量に調整することができる。

実施形態の情報提供システム１の構成図である。ユーザ認証情報１３２の内容について説明するための図である。実施形態の通信端末３００の構成図である。実施形態のエージェント装置５００が搭載された車両Ｍの概略構成の一例を示す図である。実施形態の情報提供装置１００による一連の処理の流れを表すフローチャートである。観点リスト１３４の一例を表す図である。重要度リストの一例を表す図である。ＰＯＩ情報１３６の一例を表す図である。メタデータリストの一例を表す図である。重要度観点付きリストの一例を表す図である。各メタデータの優先順位の一例を表す図である。応答文の一例を表す図である。本実施形態の技術を適用した場面例である。ユーザＵ１に提供される情報の一例を表す図である。ユーザＵ２に提供される情報の一例を表す図である。実施形態のエージェント装置５００が搭載された車両Ｍの概略構成の他の例を示す図である。

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。

図１は、実施形態の情報提供システム１の構成図である。情報提供システム１は、例えば、情報提供装置１００と、情報提供システム１のユーザＵ１が利用する通信端末３００と、情報提供システム１のユーザＵ２が利用する車両Ｍとを備える。これらの構成要素は、ネットワークＮＷを介して互いに通信可能である。ネットワークＮＷは、例えば、インターネット、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、電話回線、公衆回線、専用回線、プロバイダ装置、無線基地局等を含む。情報提供システム１には、通信端末３００または車両Ｍの一方または双方が複数含まれてもよい。車両Ｍは、例えば、エージェント装置５００を備える。情報提供装置１００は、「情報処理装置」の一例である。

情報提供装置１００は、通信端末３００からユーザＵ１の問い合わせや要求等を受け付け、受け付けた問い合わせや要求に応じた処理を行い、処理結果を通信端末３００に送信する。また、情報提供装置１００は、車両Ｍに搭載されたエージェント装置５００からユーザＵ２の問い合わせや要求等を受け付け、受け付けた問い合わせや要求に応じた処理を行い、処理結果をエージェント装置５００に送信する。情報提供装置１００は、例えば、通信端末３００およびエージェント装置５００と、ネットワークＮＷを介して互いに通信し、各種データを送受信するクラウドサーバとして機能してもよい。

通信端末３００は、例えば、スマートフォンやタブレット端末等の携帯型端末である。通信端末３００は、ユーザＵ１からの問い合わせや要求等の情報を受け付ける。通信端末３００は、ユーザＵ１から受け付けた情報を情報提供装置１００に送信し、送信した情報に対する回答として得られた情報を出力する。つまり、通信端末３００は、音声ユーザインターフェースとして機能する。

エージェント装置５００が搭載される車両Ｍは、例えば、二輪や三輪、四輪等の車両であり、その駆動源は、ディーゼルエンジンやガソリンエンジン等の内燃機関、電動機、或いはこれらの組み合わせである。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。また、車両Ｍは、自動運転車両であってもよい。自動運転とは、例えば、車両の操舵または速度のうち、一方または双方を自動的に制御することである。上述した車両の運転制御には、例えば、ＡＣＣ（Adaptive Cruise Control）や、ＡＬＣ（Auto Lane Changing）、ＬＫＡＳ（Lane Keeping Assistance System）といった種々の運転制御が含まれてよい。自動運転車両は、乗員（運転者）の手動運転によって運転が制御されることがあってもよい。

エージェント装置５００は、車両Ｍの乗員（例えば、ユーザＵ２）と対話したり、乗員から問い合わせや要求等に対する情報を提供したりする。エージェント装置５００は、例えば、ユーザＵ２からの問い合わせや要求等の情報を受け付け、その受け付けた情報を情報提供装置１００に送信し、送信した情報に対する回答として得られた情報を出力する。エージェント装置５００は、通信端末３００と同様に、音声ユーザインターフェースとして機能する。音声ユーザインターフェース（通信端末３００又はエージェント装置５００）と情報提供装置１００とを合わせたものは、「情報処理装置」の他の例である。

［情報提供装置］
以下、情報提供装置１００の構成を説明する。情報提供装置１００は、例えば、通信部１０２と、認証部１０４と、取得部１０６と、音声認識部１０８と、自然言語処理部１１０と、メタデータ抽出部１１２と、重要度推定部１１４と、優先順位決定部１１６と、発話情報生成部１１８と、通信制御部１２０と、記憶部１３０とを備える。取得部１０６、音声認識部１０８、及び自然言語処理部１１０を合わせたものは、「取得部」の一例である。メタデータ抽出部１１２は「抽出部」の一例であり、重要度推定部１１４は「推定部」の一例であり、優先順位決定部１１６は「決定部」の一例である。通信部１０２、発話情報生成部１１８、及び通信制御部１２０を合わせたもの、又は通信部１０２、発話情報生成部１１８、通信制御部１２０、及び音声ユーザインターフェースを合わせたものは、「通知部」の一例である。

認証部１０４と、取得部１０６と、音声認識部１０８と、自然言語処理部１１０と、メタデータ抽出部１１２と、重要度推定部１１４と、優先順位決定部１１６と、発話情報生成部１１８と、通信制御部１２０は、それぞれ、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリ等の記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭ等の着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置等に装着されることで情報提供装置１００の記憶装置にインストールされてもよい。

記憶部１３０は、上記の各種記憶装置、或いはＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、またはＲＡＭ（Random Access Memory）等により実現される。記憶部１３０には、上記のプロセッサによって参照されるプログラムに加えて、例えば、ユーザ認証情報１３２、観点リスト１３４、ＰＯＩ（Point of Interest）情報１３６、発話テンプレート１３８などが格納される。

ユーザ認証情報１３２には、例えば、情報提供装置１００を利用するユーザを識別する情報や認証部１０４による認証時に用いられる情報等が含まれる。ユーザ認証情報１３２は、例えば、ユーザＩＤ、パスワード、住所、氏名、年齢、性別、趣味、特技、その他情報等である。その他情報には、ユーザの趣味、特技、関心事などが含まれる。

観点リスト１３４は、ユーザが興味或いは関心を寄せ得る複数の観点がリスト化されたデータである。これら複数の観点は、ユーザの自己申告により決定されてもよいし、複数のユーザの申告結果から代表的なものが統計的に選び出されてもよい。

ＰＯＩ情報１３６は、店舗や施設といった特定の地点に関する情報である。ＰＯＩ情報１３６には、ＰＯＩに関するコンテンツや、そのコンテンツに付随するメタデータなどが含まれる。

発話テンプレート１３８は、後述する応答文を生成する際のテンプレート（定型書式）である。

［構成要素の説明］
以下、情報提供装置１００の各構成要素について説明する。通信部１０２は、ネットワークＮＷを介して通信端末３００、エージェント装置５００、その他の外部装置と通信するインターフェースである。例えば、通信部１０２は、ＮＩＣ（Network Interface Card）や、無線通信用のアンテナなどを備える。

認証部１０４は、情報提供システム１を利用するユーザ（例えば、ユーザＵ１、Ｕ２）に関する情報を、ユーザ認証情報１３２として記憶部１３０に登録する。例えば、認証部１０４は、音声ユーザインターフェース（通信端末３００又はエージェント装置５００）からユーザ登録要求を受け付けた場合に、ユーザ認証情報１３２に含まれる各種情報を入力するためのＧＵＩ（Graphical User Interface）を、登録要求を受け付けた装置に表示させる。ユーザがＧＵＩに各種情報を入力すると、認証部１０４は、その装置からユーザに関する情報を取得する。そして、認証部１０４は、音声ユーザインターフェース（通信端末３００又はエージェント装置５００）から取得したユーザに関する情報を記憶部１３０にユーザ認証情報１３２として登録する。

図２は、ユーザ認証情報１３２の内容について説明するための図である。ユーザ認証情報１３２は、例えば、ユーザの認証情報に対して、そのユーザの住所、氏名、年齢、性別、連絡先、その他情報などが対応付けられたものである。認証情報には、例えば、ユーザを識別する識別情報であるユーザＩＤやパスワード等が含まれる。また、認証情報には、指紋情報や虹彩情報等の生体認証情報が含まれてもよい。連絡先は、例えば、そのユーザによって使用される音声ユーザインターフェース（通信端末３００又はエージェント装置５００）と通信するためのアドレス情報であってもよいし、ユーザの電話番号やメールアドレス、端末識別情報等であってもよい。情報提供装置１００は、連絡先の情報に基づいて、各移動通信機器と通信し、各種情報を提供する。

認証部１０４は、予め登録しておいたユーザ認証情報１３２に基づいて情報提供システム１のサービスのユーザを認証する。例えば、認証部１０４は、通信端末３００またはエージェント装置５００からサービスの利用要求を受け付けたタイミングでユーザを認証する。具体的には、認証部１０４は、利用要求を受け付けた場合に、ユーザＩＤやパスワード等の認証情報を入力するためのＧＵＩを、要求のあった端末装置に表示させると共に、そのＧＵＩ上に入力された入力認証情報とユーザ認証情報１３２の認証情報とを比較する。認証部１０４は、ユーザ認証情報１３２の中に、入力認証情報に合致する認証情報が格納されているか否かを判定し、入力認証情報に合致する認証情報が格納されている場合、サービスの利用を許可する。一方、認証部１０４は、入力認証情報に合致する認証情報が格納されていない場合、サービスの利用を禁止したり、或いは新規登録を行わせるための処理を行う。

取得部１０６は、通信部１０２を介して（ネットワークＮＷを介して）、通信端末３００またはエージェント装置５００から、一人又は複数人のユーザの発話（utterance）を取得する。ユーザの発話は、音声データ（音響データや音響ストリームともいう）であってもよいし、その音声データから認識されたテキストデータであってもよい。

音声認識部１０８は、ユーザの発話音声を認識する音声認識（音声をテキスト化する処理）を行う。例えば、音声認識部１０８は、取得部１０６によって取得されたユーザの発話を表す音声データに対して音声認識を行い、音声データをテキスト化したテキストデータを生成する。テキストデータには、発話の内容が文字として記述された文字列が含まれる。

例えば、音声認識部１０８は、音響モデルと、自動音声認識のための辞書（以下、ＡＳＲ辞書と称する）とを用いて、音声データをテキスト化してよい。音響モデルは、入力された音声を周波数に応じて分離し、その分離した各音声を音素（スペクトログラム）に変換するよう予め学習又は調整されたモデルであり、例えば、ニューラルネットワークや隠れマルコフモデルなどである。ＡＳＲ辞書は、複数の音素の組み合わせに対して文字列が対応付けれており、更に、構文によって文字列を区切る位置が定義付けられたデータベースである。ＡＳＲ辞書は、いわゆるパターンマッチ辞書である。例えば、音声認識部１０８は、音声データを音響モデルに入力し、その音響モデルによって出力された音素の集合をＡＳＲ辞書の中から探し、その音素の集合に対応した文字列を取得する。音声認識部１０８は、このように得られた文字列の組み合わせをテキストデータとして生成する。なお、音声認識部１０８は、ＡＳＲ辞書を使用する代わりに、例えばｎ－ｇｒａｍモデル等によって実装された言語モデルを用いて、音響モデルの出力結果からテキストデータを生成してもよい。

自然言語処理部１１０は、テキストの構造や意味を理解する自然言語理解を行う。例えば、自然言語処理部１１０は、意味解釈のために予め用意された辞書（以下、ＮＬＵ辞書）を参照しながら、音声認識部１０８によって生成されたテキストデータの意味を解釈する。ＮＬＵ辞書は、テキストデータに対して抽象化された意味情報が対応付けられたデータベースである。ＮＬＵ辞書は、同義語や類義語などを含んでもよい。音声認識と自然言語理解は、必ずしも段階が明確に分かれる必要はなく、自然言語理解の結果を受けて音声認識の結果を修正するなど、相互に影響し合って行われてよい。

メタデータ抽出部１１２は、自然言語処理部１１０によって理解されたユーザの発話の意味が「要求」であった場合、その「要求」を満たす一つ又は複数のコンテンツのメタデータをＰＯＩ情報１３６から抽出する。例えば、ユーザが「近くの中華料理屋を探して」という「要求」を音声ユーザインターフェースに対して発話し、それが自然言語処理部１１０によって理解されたとする。この場合、メタデータ抽出部１１２は、「ユーザの現在位置に近い」という条件と、「中華料理屋」という条件を満たす飲食店に関するコンテンツをＰＯＩ情報１３６から探し、更に、そのコンテンツに付随するメタデータをＰＯＩ情報１３６から抽出する。コンテンツは、ＰＯＩのホームページ、レビュー（口コミ）投稿サイト、予約サイト、ＷｅｂＧＩＳ（Geographic Information System）などで扱われるコンテンツである。例えば、飲食店に関するコンテンツには、料理のメニューや価格、レビュー、写真、アクセス情報（例えば駐車場の有無）、営業時刻などが含まれる。

メタデータは、付随先のコンテンツを特定し得る程度の情報が含まれるものであり、典型的には文書タグである。文書タグは、ウェブクローラーなどにウェブページの情報を知らせるためのタグ情報であり、例えば、ＨＴＭＬ（HyperText Markup Language）のｍｅｔａタグのようなタグであってもよいし、そのウェブページのタイトルや要約文であってもよい。また、メタデータは、文書タグに加えて、或いは代えて、ディジタル写真や動画のファイルに付加されるタグやタイトルであってもよいし、コンテンツに関するレビュー（口コミ）文書であってもよい。例えば、ＷｅｂＧＩＳでは、地図上のＰＯＩの位置座標に加えて、そのＰＯＩへのアクセス方法や、営業時間、メニュー、不特定多数のユーザのレビュー（口コミ）などが併せて提供される場合がある。ＰＯＩの位置が対応付けられたマップや航空写真を一つのコンテンツとして捉えた場合、そのコンテンツのメタデータには、ＰＯＩへアクセス方法や、営業時間、メニュー、レビュー（口コミ）などが含まれることになる。

重要度推定部１１４は、観点リスト１３４に含まれる複数の観点の其々に対するユーザの重要度を推定する。重要度とは、ユーザが各観点をどの程度重視しているのかということを定量的に表した指標である。言い換えれば、重要度は、ユーザが各観点についてどの程度興味や関心を寄せているのかということを表している。例えば、重要度推定部１１４は、「要求」を発話したユーザの周辺の環境に基づいて、そのユーザの各観点に対する重要度を推定してよい。更に、重要度推定部１１４は、「要求」に対する「応答」が通知されたユーザのフィードバックの結果に基づいて、そのユーザの各観点に対する重要度を推定してもよい。

優先順位決定部１１６は、メタデータ抽出部１１２によって抽出された各メタデータの情報量と、重要度推定部１１４によって推定された各観点に対するユーザの重要度とに基づいて、各メタデータの優先順位を決定する。

発話情報生成部１１８は、優先順位決定部１１６によって決定されたメタデータの優先順位に基づいて、メタデータ抽出部１１２によって抽出された各コンテンツのメタデータの中から、優先的に通知すべきメタデータを選別し、その選別したメタデータを用いて、発話情報を生成する。発話情報とは、ユーザの「要求」に対する「応答」として、音声ユーザインターフェースに発話させる音声データそのもの、又はその音声データの元となるテキストデータである。

通信制御部１２０は、音声ユーザインターフェース（通信端末３００とエージェント装置５００とのうち、「要求」を受けた方の装置）に対して、発話情報生成部１１８によって生成された発話情報を、通信部１０２を介して送信する。これによって、メタデータが発話という手段によってユーザに通知される。

また、通信制御部１２０は、メタデータを発話させるための発話情報に加えて、更に、そのメタデータが付随したコンテンツを、音声ユーザインターフェースに通信部１０２を介して送信してもよい。

［通信端末］
次に、通信端末３００の構成について説明する。図３は、実施形態の通信端末３００の構成図である。通信端末３００は、例えば、端末側通信部３１０と、入力部３２０と、ディスプレイ３３０と、スピーカ３４０と、マイクロフォン（以下、マイク）３５０と、位置取得部３５５と、カメラ３６０と、アプリ実行部３７０と、出力制御部３８０と、端末側記憶部３９０とを備える。位置取得部３５５と、アプリ実行部３７０と、出力制御部３８０とは、例えば、ＣＰＵ等のハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵ等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤやフラッシュメモリ等の記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭ等の着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置やカードスロット等に装着されることで通信端末３００の記憶装置にインストールされてもよい。

端末側記憶部３９０は、上記の各種記憶装置、或いはＥＥＰＲＯＭ、ＲＯＭ、ＲＡＭ等により実現されてもよい。端末側記憶部３９０には、例えば、上記のプログラムや、情報提供アプリケーション３９２、その他の各種情報が格納される。

端末側通信部３１０は、例えば、ネットワークＮＷを利用して、情報提供装置１００、エージェント装置５００、その他の外部装置と通信を行う。

入力部３２０は、例えば、各種キーやボタン等の操作によるユーザＵ１の入力を受け付ける。ディスプレイ３３０は、例えば、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electro Luminescence）ディスプレイ等である。入力部３２０は、タッチパネルとしてディスプレイ３３０と一体に構成されていてもよい。ディスプレイ３３０は、出力制御部３８０の制御により、実施形態における各種情報を表示する。スピーカ３４０は、例えば、出力制御部３８０の制御により、所定の音声を出力する。マイク３５０は、例えば、出力制御部３８０の制御により、ユーザＵ１の音声の入力を受け付ける。

位置取得部３５５は、通信端末３００の位置情報を取得する。例えば、位置取得部３５５は、ＧＰＳ（Global Positioning System）などに代表されるＧＮＳＳ（Global Navigation Satellite System）受信機を含む。位置情報とは、例えば、二次元の地図座標でもよく、緯度経度情報でもよい。位置取得部３５５は、端末側通信部３１０を介して、取得した位置情報を情報提供装置１００に送信してよい。

カメラ３６０は、例えば、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）等の固体撮像素子（イメージセンサ）を利用したデジタルカメラである。例えば、ナビゲーション装置などの代用として通信端末３００が車両Ｍのインストルメントパネルに取り付けられた場合、その通信端末３００のカメラ３６０は、自動的に、又はユーザＵ１の操作に応じて、車両Ｍの車室内を撮像してよい。

アプリ実行部３７０は、端末側記憶部３９０に記憶された情報提供アプリケーション３９２を実行する。情報提供アプリケーション３９２は、情報提供装置１００から提供された画像（つまりコンテンツ）をディスプレイ３３０に出力させたり、情報提供装置１００から提供された情報（つまり発話情報）に対応する音声をスピーカ３４０から出力させたりするように、出力制御部３８０を制御するためのアプリケーションプログラムである。また、アプリ実行部３７０は、入力部３２０により入力された情報を、端末側通信部３１０を介して情報提供装置１００に送信する。情報提供アプリケーション３９２は、例えば、ネットワークＮＷを介して外部装置からダウンロードされたものが通信端末３００にインストールされてよい。

出力制御部３８０は、アプリ実行部３７０の制御により、ディスプレイ３３０に画像を表示させたり、スピーカ３４０に音声を出力させたりする。その際、出力制御部３８０は、ディスプレイ３３０に表示させる画像の内容や態様を制御したり、スピーカ３４０に出力させる音声の内容や態様を制御したりしてよい。

［車両］
次に、エージェント装置５００が搭載された車両Ｍの概略構成について説明する。図４は、実施形態のエージェント装置５００が搭載された車両Ｍの概略構成の一例を示す図である。図示のように、車両Ｍには、エージェント装置５００と、マイク６１０と、表示・操作装置６２０と、スピーカユニット６３０と、ナビゲーション装置６４０と、ＭＰＵ（Map Positioning Unit）６５０と、車両機器６６０と、車載通信装置６７０と、乗員認識装置６９０と、自動運転制御装置７００とが搭載される。また、スマートフォンなどの汎用通信装置６８０が車室内に持ち込まれ、通信装置として使用される場合がある。汎用通信装置６８０は、例えば、通信端末３００である。これらの装置は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。

先にエージェント装置５００以外の構成について説明する。マイク６１０は、車室内で発せられた音声を収集する。表示・操作装置６２０は、画像を表示すると共に、入力操作を受付可能な装置（或いは装置群）である。表示・操作装置６２０は、典型的には、タッチパネルである。表示・操作装置６２０は、更に、ＨＵＤ（Head Up Display）や機械式の入力装置を含んでもよい。スピーカユニット６３０は、例えば、車室内や車外に音声や警報音等を出力する。表示・操作装置６２０は、エージェント装置５００とナビゲーション装置６４０とで共用されてもよい。

ナビゲーション装置６４０は、ナビＨＭＩ（Human machine Interface）と、ＧＰＳなどの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置（ナビゲーションコントローラ）とを備える。マイク６１０、表示・操作装置６２０、およびスピーカユニット６３０のうち一部または全部がナビＨＭＩとして用いられてもよい。ナビゲーション装置６４０は、位置測位装置によって特定された車両Ｍの位置に基づいて地図情報を参照し、地図情報から車両Ｍの位置からユーザによって入力された目的地まで移動するための経路（ナビ経路）を探索し、経路に沿って車両Ｍが走行できるように、ナビＨＭＩを用いて案内情報を出力する。経路探索機能は、ネットワークＮＷを介してアクセス可能な情報提供装置１００やナビゲーションサーバにあってもよい。この場合、ナビゲーション装置６４０は、情報提供装置１００やナビゲーションサーバから経路を取得して案内情報を出力する。なお、エージェント装置５００は、ナビゲーションコントローラを基盤として構築されてもよく、その場合、ナビゲーションコントローラとエージェント装置５００は、ハードウェア上は一体に構成される。

ＭＰＵ６５０は、例えば、ナビゲーション装置６４０から提供された地図上経路を複数のブロックに分割し（例えば、車両進行方向に関して１００［ｍ］毎に分割し）、ブロックごとに推奨車線を決定する。例えば、ＭＰＵ６５０は、左から何番目の車線を走行するといった決定を行う。また、ＭＰＵ６５０は、ナビゲーション装置６４０の記憶装置に記憶された地図情報よりも高精度な地図情報（高精度地図）を用いて推奨車線を決定してもよい。高精度地図は、例えば、ＭＰＵ６５０の記憶装置に記憶されていてもよく、ナビゲーション装置６４０の記憶装置やエージェント装置５００の車両側記憶部５６０に記憶してもよい。高精度地図は、車線の中央の情報あるいは車線の境界の情報、交通規制情報、住所情報（住所・郵便番号）、施設情報、電話番号情報などが含まれてよい。

車両機器６６０は、例えば、カメラやレーダ装置、ＬＩＤＡＲ（Light Detection and Ranging）、物体認識装置である。カメラは、例えば、ＣＣＤやＣＭＯＳ等の固体撮像素子を利用したデジタルカメラである。カメラは、車両Ｍの任意の箇所に取り付けられる。レーダ装置は、車両Ｍの周辺にミリ波などの電波を放射すると共に、物体によって反射された電波（反射波）を検出して少なくとも物体の位置（距離および方位）を検出する。ＬＩＤＡＲは、車両Ｍの周辺に光を照射し、散乱光を測定する。ＬＩＤＡＲは、発光から受光までの時間に基づいて、対象までの距離を検出する。物体認識装置は、カメラ、レーダ装置、およびＬＩＤＡＲのうち一部または全部による検出結果に対してセンサフュージョン処理を行って、車両Ｍの周辺に存在する物体の位置、種類、速度などを認識する。物体認識装置は、認識結果をエージェント装置５００や自動運転制御装置７００に出力する。

また、車両機器６６０は、例えば、運転操作子や、走行駆動力出力装置、ブレーキ装置、ステアリング装置等を含む。運転操作子は、例えば、アクセルペダル、ブレーキペダル、シフトレバー、ステアリングホイール、異形ステア、ジョイスティックその他の操作子を含む。運転操作子には、操作量あるいは操作の有無を検出するセンサが取り付けられており、その検出結果は、エージェント装置５００や自動運転制御装置７００、もしくは、走行駆動力出力装置、ブレーキ装置、およびステアリング装置のうち一部または全部に出力される。走行駆動力出力装置は、車両Ｍが走行するための走行駆動力（トルク）を駆動輪に出力する。ブレーキ装置は、例えば、ブレーキキャリパーと、ブレーキキャリパーに油圧を伝達するシリンダと、シリンダに油圧を発生させる電動モータと、ブレーキＥＣＵとを備える。ブレーキＥＣＵは、自動運転制御装置７００から入力される情報、或いは運転操作子から入力される情報に従って電動モータを制御し、制動操作に応じたブレーキトルクが各車輪に出力されるようにする。ステアリング装置は、例えば、ステアリングＥＣＵと、電動モータとを備える。電動モータは、例えば、ラックアンドピニオン機構に力を作用させて転舵輪の向きを変更する。ステアリングＥＣＵは、自動運転制御装置７００から入力される情報、或いは運転操作子から入力される情報に従って、電動モータを駆動し、転舵輪の向きを変更させる。

また、車両機器６６０は、例えば、ドアロック装置、ドア開閉装置、窓、窓の開閉装置および窓の開閉制御装置、シート、シート位置の制御装置、ルームミラーおよびその角度位置制御装置、車両内外の照明装置およびその制御装置、ワイパーやデフォッガーおよびそれぞれの制御装置、方向指示灯およびその制御装置、空調装置などの車両情報装置などが含まれてもよい。

車載通信装置６７０は、例えば、セルラー網やＷｉ－Ｆｉ網を利用してネットワークＮＷにアクセス可能な無線通信装置である。

乗員認識装置６９０は、例えば、着座センサ、車室内カメラ、画像認識装置などを含む。着座センサは座席の下部に設けられた圧力センサ、シートベルトに取り付けられた張力センサなどを含む。車室内カメラは、車室内に設けられたＣＣＤカメラやＣＭＯＳカメラである。画像認識装置は、車室内カメラの画像を解析し、座席ごとのユーザの有無、ユーザの顔などを認識して、ユーザの着座位置を認識する。また、乗員認識装置６９０は、予め登録された顔画像とのマッチング処理を行うことで、画像に含まれる運転席や助手席等に着座するユーザを特定してもよい。

自動運転制御装置７００は、例えば、ＣＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより処理を行う。自動運転制御装置７００の構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵ等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め自動運転制御装置７００のＨＤＤやフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体に格納されており、記憶媒体（非一過性の記憶媒体）がドライブ装置に装着されることで自動運転制御装置７００のＨＤＤやフラッシュメモリにインストールされてもよい。

自動運転制御装置７００は、車両機器６６０の物体認識装置を介して入力された情報に基づいて、車両Ｍの周辺にある物体の位置、および速度、加速度等の状態を認識する。自動運転制御装置７００は、原則的にはＭＰＵ６５０により決定された推奨車線を走行し、更に、車両Ｍの周辺状況に対応できるように、車両Ｍが自動的に（運転者の操作に依らずに）将来走行する目標軌道を生成する。目標軌道は、例えば、速度要素を含んでいる。例えば、目標軌道は、車両Ｍの到達すべき地点（軌道点）を順に並べたものとして表現される。

自動運転制御装置７００は、目標軌道を生成するにあたり、自動運転のイベントを設定してよい。自動運転のイベントには、定速走行イベント、低速追従走行イベント、車線変更イベント、分岐イベント、合流イベント、テイクオーバーイベント、自動駐車イベントなどがある。自動運転制御装置７００は、起動させたイベントに応じた目標軌道を生成する。また、自動運転制御装置７００は、生成した目標軌道を、予定の時刻通りに車両Ｍが通過するように、車両機器６６０の走行駆動力出力装置、ブレーキ装置、およびステアリング装置を制御する。例えば、自動運転制御装置７００は、目標軌道（軌道点）に付随する速度要素に基づいて、走行駆動力出力装置またはブレーキ装置を制御したり、目標軌道の曲がり具合に応じて、ステアリング装置を制御する。

次に、エージェント装置５００について説明する。エージェント装置５００は、車両Ｍの乗員と対話を行う装置である。例えば、エージェント装置５００は、乗員の発話を情報提供装置１００に送信し、その発話に対する回答を情報提供装置１００から受信する。エージェント装置５００は、受信した回答を、音声や画像を用いて乗員に提示する。

エージェント装置５００は、例えば、管理部５２０と、エージェント機能部５４０と、車両側記憶部５６０とを備える。管理部５２０は、例えば、音響処理部５２２と、表示制御部５２４と、音声制御部５２６とを備える。図４において、これらの構成要素の配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部５４０と車載通信装置６０の間に管理部５２０が介在してもよく、その配置は任意に改変することができる。

エージェント装置５００の車両側記憶部５６０以外の各構成要素は、例えば、ＣＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵなどのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

車両側記憶部５６０は、上記の各種記憶装置、或いはＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現されてよい。車両側記憶部５６０には、例えば、プログラム、その他各種情報が格納される。

管理部５２０は、ＯＳ（Operating System）やミドルウェアなどのプログラムが実行されることで機能する。

音響処理部５２２は、車両Ｍの乗員（例えば、ユーザＵ２）から受け付けた各種音声のうち、問い合わせや要求等に関する情報を認識するのに適した状態になるように、入力された音に対して音響処理を行う。具体的には、音響処理部５２２は、ノイズ除去などの音響処理を行ってよい。

表示制御部５２４は、エージェント機能部５４０からの指示に応じて、表示・操作装置６２０等の出力装置に車両Ｍの乗員からの問い合わせや要求に対する回答結果に関する画像を生成する。回答結果に関する画像とは、例えば、問い合わせや要求等に対する回答結果を示す店舗や施設の一覧リストを示す画像や、各店舗や施設に関する画像、目的地までの走行経路を示す画像、その他レコメンド情報や処理の開始または終了を示す画像等である。また、表示制御部５２４は、エージェント機能部５４０からの指示に応じて、乗員とコミュニケーションを行う擬人化されたキャラクタ画像（以下、エージェント画像と称する）を生成してもよい。エージェント画像は、例えば、乗員に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者（乗員）によって表情や顔向きが認識される程度の顔画像を含んでよい。表示制御部５２４は、生成した画像を表示・操作装置６２０に出力させる。

音声制御部５２６は、エージェント機能部５４０からの指示に応じて、スピーカ６３０に含まれるスピーカのうち一部または全部に音声を出力させる。音声には、例えば、エージェント画像が乗員と対話を行うための音声や、表示制御部５２４により画像を表示・操作装置６２０に出力された画像に対応する音声が含まれる。また、音声制御部５２６は、複数のスピーカ６３０を用いて、エージェント画像の表示位置に対応する位置にエージェント音声の音像を定位させる制御を行ってもよい。エージェント画像の表示位置に対応する位置とは、例えば、エージェント画像がエージェント音声を喋っていると乗員が感じると予測される位置であり、具体的には、エージェント画像の表示位置付近（例えば、２～３［ｃｍ］以内）の位置である。また、音像が定位するとは、例えば、ユーザの左右の耳に伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。

エージェント機能部５４０は、管理部５２０により取得される各種情報に基づいて、情報提供装置１００と協働してエージェント画像等を出現させ、車両Ｍの乗員の発話に応じて、音声による応答を含むサービスを提供する。例えば、エージェント機能部５４０は、音響処理部５２２により処理された音声に含まれる起動ワードに基づいてエージェントを起動したり、終了ワードに基づいてエージェントを終了させたりする。また、エージェント機能部５４０は、音響処理部５２２により処理された音声データを、車載通信装置６７０を介して情報提供装置１００に送信したり、情報提供装置１００から得られる情報を乗員に提供したりする。また、エージェント機能部５４０は、汎用通信装置６８０と連携し、情報提供装置１００と通信する機能を備えていてもよい。この場合、エージェント機能部５４０は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）によって汎用通信装置６８０とペアリングを行い、エージェント機能部５４０と汎用通信装置６８０とを接続させる。また、エージェント機能部５４０は、ＵＳＢ（Universal Serial Bus）などを利用した有線通信によって汎用通信装置６８０に接続されるようにしてもよい。

［情報提供装置の処理フロー］
次に、情報提供装置１００による一連の処理の流れについてフローチャートを用いて説明する。図５は、実施形態の情報提供装置１００による一連の処理の流れを表すフローチャートである。

まず、取得部１０６は、通信部１０２を介して、音声ユーザインターフェース（通信端末３００又はエージェント装置５００）から、ある一人のユーザ（以下、対象ユーザという）の発話を取得する（ステップＳ１００）。対象ユーザは、車両Ｍに乗車し、移動しているものとする。

次に、音声認識部１０８は、対象ユーザの発話に対して音声認識を行い、その対象ユーザの発話からテキストデータを生成する（ステップＳ１０２）。通信端末３００またはエージェント装置５００において既に発話がテキスト化されていた場合、つまり、取得部１０６によって取得された対象ユーザの発話がテキストデータであった場合、Ｓ１０２の処理は省略されてよい。

次に、自然言語処理部１１０は、対象ユーザの発話から得られたテキストデータに対して自然言語理解を行い、そのテキストデータの意味を理解する（ステップＳ１０４）。

次に、重要度推定部１１４は、観点リスト１３４に含まれる複数の観点の其々に対する対象ユーザの重要度を推定する（ステップＳ１０６）。

図６は、観点リスト１３４の一例を表す図である。図示のように、観点リスト１３４は、「高評価レビュー」や、「人気がある」、「メニュー」、「禁煙」、「おしゃれ」、「駐車場」といった複数の観点が含まれてよい。

例えば、重要度推定部１１４は、「要求」が発話された時点における対象ユーザの周辺環境に基づいて、その対象ユーザの各観点に対する重要度を推定する。具体的には、重要度推定部１１４は、「要求」が発話された時点において、対象ユーザが会話中であったのか、対象ユーザが運転する車両Ｍの速度や加速度がどの程度であったのか、車両Ｍが停車や駐車していたのか、といったその当時の環境に基づいて重要度を推定してよい。このような「要求」が発話された時点において対象ユーザがどういった環境下にあったのかということを表す情報は、記憶部１３０に記憶されていてよい。

更に、重要度推定部１１４は、対象ユーザの「要求」に対して音声ユーザインターフェースから「応答」が発話されたときに、その「応答」に対する対象ユーザのフィードバック結果に基づいて、対象ユーザの各観点に対する重要度を推定してもよい。具体的には、重要度推定部１１４は、音声ユーザインターフェースから何らかの「提案」などがなされたときに、対象ユーザがその「提案」に対して「承諾（選択）」したのか、「拒否」したのか、或いは何もせず「無視」したのか、といったフィードバック結果に基づいて重要度を推定してもよい。このような「要求」が発話された時点おける対象ユーザのフィードバック結果は、記憶部１３０に記憶されていてよい。

更に、重要度推定部１１４は、ある母集団における対象ユーザのフィードバックの行動の傾向に基づいて重要度を推定してもよい。具体的には、重要度推定部１１４は、母集団全体に対する対象ユーザのフィードバック結果の統計的な確率に基づいて、重要度を推定してもよい。

重要度推定部１１４は、対象ユーザの各観点に対する重要度を推定すると、その結果をリスト化した重要度リストを生成する（ステップＳ１０８）。

図７は、重要度リストの一例を表す図である。例えば、重要度推定部１１４は、複数の観点のうち、対象ユーザの重要度が大きい観点から昇順でソートしたリストを重要度リストとして生成してよい。図示の例では、重要度が「最重要」、「重要」、「中程度」といった定性的な表現で表されているこれに限られず、「１．０」、「０．８」、「０．５」といったように定量的な表現で表されてもよい。

図５のフローチャートの説明に戻る。次に、メタデータ抽出部１１２は、自然言語処理部１１０によって対象ユーザの発話が「要求」であることが理解された場合、その「要求」を満たすＰＯＩのメタデータをＰＯＩ情報１３６から抽出する（ステップＳ１１０）。

図８は、ＰＯＩ情報１３６の一例を表す図である。ＰＯＩ情報１３６は、各ＰＯＩに、タグや、フリーフォーム、レビュー、写真、地理情報などが対応付けられた情報である。上述したように、タグには、ＨＴＭＬソースに記述されたタグが含まれてもよいし、テキストマイニングなどによって自動的に付与されたタグが含まれてもよい。具体的には、テキストマイニングによってＰＯＩのレビューに「おしゃれ」というキーワードが頻繁に抽出された場合、そのレビュー対象であるＰＯＩには、「おしゃれ」というタグが自動的に付与される。

例えば、メタデータ抽出部１１２は、これら複数のＰＯＩの中から、対象ユーザの「要求」を満たすＰＯＩを選択し、更にその選択したＰＯＩに対して対応付けられたタグなどの情報をメタデータとして抽出する。

次に、メタデータ抽出部１１２は、抽出したメタデータをリスト化したメタデータリストを生成する（ステップＳ１１２）。

図９は、メタデータリストの一例を表す図である。メタデータ抽出部１１２は、観点リスト１３４に含まれる複数の観点のそれぞれについてメタデータを抽出する。例えば、「おしゃれ」という１つの観点に対して、「レビュー」及び「写真タグ」の２種類のメタデータが存在していたとする。この場合、メタデータ抽出部１１２は、同一の観点について、互いに種類の異なる複数のメタデータを抽出してよい。

この際、メタデータ抽出部１１２は、メタデータの情報量を算出又は推定する。メタデータは、レビューやタグとして記述された文字列である。つまり、メタデータには、基本的にテキストデータが含まれる。従って、メタデータ抽出部１１２は、メタデータに含まれるテキストデータを自動音声により読み上げるときに要する時間を、そのメタデータの情報量として算出又は推定する。レビューやタグの文字列が長いほど、その情報量（時間）は大きくなる。

メタデータ抽出部１１２は、各メタデータの情報量を算出又は推定すると、各観点に対して、メタデータの種類やその情報量が対応付けられたリストを、メタデータリストとして生成する。

図５のフローチャートの説明に戻る。次に、優先順位決定部１１６は、重要度推定部１１４によって生成された重要度リストと、メタデータ抽出部１１２によって生成されたメタデータリストとを結合した重要度観点付きリストを生成する（ステップＳ１１４）。

図１０は、重要度観点付きリストの一例を表す図である。重要度観点付きリストは、各観点に対して、対象ユーザの重要度と、メタデータの種類と、メタデータの情報量とが対応付けられたリストである。

図５のフローチャートの説明に戻る。次に、優先順位決定部１１６は、重要度観点付きリストに含まれる各メタデータの優先順位を決定する（ステップＳ１１６）。

例えば、優先順位決定部１１６は、対象ユーザの「要求」を満たすＰＯＩに、その対象ユーザが到達するまでの期間内に、各メタデータに含まれるテキストデータの読み上げが完了するように、各メタデータの優先順位を決定する。

例えば、対象ユーザが「近くの中華料理屋を探して」という「要求」を音声ユーザインターフェースに対して発話し、この「要求」を満たすＰＯＩが「飲食店Ｂ」であったとする。この場合、優先順位決定部１１６は、対象ユーザが乗車した車両Ｍの速度が一定であると仮定し、「要求」が発話された位置から「飲食店Ｂ」の所在地までの区間を走行するのに要する時間（走行時間）を算出する。車両Ｍが既に「飲食店Ｂ」を通り過ぎてしまっている場合、優先順位決定部１１６は、「飲食店Ｂ」に引き返すことが可能な最も近いＵターン地点までの走行時間を算出してもよい。そして、優先順位決定部１１６は、重要度観点付きリストに含まれる複数のメタデータの中から、算出した走行時間以内に自動音声の読み上げが完了し得るメタデータの優先順位を高くする。

図１１は、各メタデータの優先順位の一例を表す図である。図示のように、優先順位決定部１１６は、対象ユーザの重要度が「最重要」の観点のメタデータの優先度を最も高くし、対象ユーザの重要度が「最重要」の次に高い観点（つまり「重要」の観点）のメタデータの優先度をその次に高くし、対象ユーザの重要度が「重要」の次に高い観点（つまり「中程度」の観点）のメタデータの優先度をその次に高くする。

この際、優先順位決定部１１６は、同一の観点に複数のメタデータが対応付けられている場合、その複数のメタデータの中で最も情報量の少ないものの優先順位を高くする。図１０の重要度観点付きリストでは、対象ユーザの重要度が「最重要」である「おしゃれ」という観点に対して、「レビュー」と「写真タグ」の２種類のメタデータが対応付けられており、対象ユーザの重要度が「重要」である「禁煙」という観点に対して、「文書タグ」と「レビュー」の２種類のメタデータが対応付けられている。このような場合、優先順位決定部１１６は、「おしゃれ」という観点については、より情報量の少ない「レビュー」のメタデータの優先順位を高くし、「禁煙」という観点については、より情報量の少ない「文書タグ」のメタデータの優先順位を高くする。情報量が多い方の「写真タグ」のメタデータや「文書タグ」のメタデータの優先順位は、同一観点においてメタデータが重複しないように、最下位などに下げられてよい。このように、優先順位決定部１１６は、重要度観点付きリストに含まれる複数のメタデータのうち、ユーザの重要度が高く、かつ情報量が少ないメタデータほど、優先順位を高くする。

また、優先順位決定部１１６は、対象ユーザの運転負荷が小さくなるほど、情報量が多いメタデータの優先順位を高くし、対象ユーザの運転負荷が大きくなるほど、情報量が多いメタデータの優先順位を低くしてよい。より具体的には、優先順位決定部１１６は、対象ユーザの重要度が高い観点に対応付けられたメタデータであっても、対象ユーザの運転負荷が所定以上大きくなる場合には、重要度に依らずに、そのメタデータの優先順位を最下位などに下げてよい。また、優先順位決定部１１６は、対象ユーザの運転負荷が小さくなる自動運転モード下では、対象ユーザの運転負荷が大きくなる手動運転モード下に比べて、情報量が多いメタデータの優先順位を高くしてよい。このように、対象ユーザの運転負荷を考慮してメタデータの優先順位を決定することにより、ドライバーディストラクションの発生を抑制しながら、対象ユーザに有益なＰＯＩ情報を通知することができる。

図５のフローチャートの説明に戻る。次に、発話情報生成部１１８は、優先順位決定部１１６によって決定されたメタデータの優先順位に基づいて、重要度観点付きリストに含まれる各メタデータの中から、優先的に対象ユーザに通知すべきメタデータを選別する（ステップＳ１１８）。

例えば、発話情報生成部１１８は、メタデータの情報量を優先順位が高いものから順番に加算していき、その総情報量（つまり総時間）が、「要求」を満たすＰＯＩに対象ユーザが到達するまでの時間を超えないように、メタデータを選別する。例えば、図１１の例において、「要求」を満たすＰＯＩまでの到達時間が１０秒であった場合、上から３番目までのメタデータが選択され、「要求」を満たすＰＯＩまでの到達時間が４５秒であった場合、上から４番目までのメタデータが選択される。

また、発話情報生成部１１８は、「要求」を満たすＰＯＩ（つまり一時的な目的地）までの区間において対象ユーザが情報を受け取りやすい時間を算出し、その時間内に各メタデータに含まれるテキストデータの読み上げが完了するように、メタデータを選別してもよい。「対象ユーザが情報を受け取りやすい時間」とは、例えば、車両Ｍが信号機で停止している時間や、渋滞などの影響により車両Ｍが一定の速度下で走行している時間などである。つまり、発話情報生成部１１８は、手動運転下において対象ユーザの運転負荷が相対的に低減される時間を算出し、その時間内にテキストデータの読み上げが完了するように、メタデータを選別してよい。これによって、例えば、「要求」を満たすＰＯＩまでの到達時間が４５秒であったとしても、対象ユーザの運転負荷が相対的に低減される時間が１０秒しかない場合、図１１の例において、上から３番目までのメタデータのみが選択され、４番目以降のメタデータは除外されることになる。

また、発話情報生成部１１８は、対象ユーザが乗車している車両Ｍが自動運転モード下にある場合、車両Ｍが手動運転モード下にある場合に比べて、より多い数のメタデータを選択してよい。これによって、対象ユーザの運転負荷が相対的に低い自動運転モード下では、対象ユーザにより多くの有益なＰＯＩ情報を通知することができる。

次に、発話情報生成部１１８は、選別したメタデータを用いて発話情報を生成する（ステップＳ１２０）。例えば、発話情報生成部１１８は、発話テンプレート１３８に基づいて、対象ユーザの「要求」に対する「応答文」を生成してよい。

図１２は、応答文の一例を表す図である。図示のように、同じ優先順位のメタデータは一つの応答文に纏められる。例えば、図１１の全てのメタデータが選択されたとする。これらメタデータのうち、「おしゃれ」や「禁煙」、「駐車場」といった観点のメタデータの優先順位は１位である。この場合、「要求」を満たすＰＯＩが「飲食店Ｂ」であれば、その「飲食店Ｂ」という固有名詞を主体にして、「おしゃれ」というレビューが多い、「禁煙」である、「駐車場」が存在している、などと形容するような第１の応答文が生成される。更に、図１１の例では、「高評価レビュー」という観点のメタデータの優先順位が２位である。この場合、「高評価レビュー」そのものが第２の応答文として生成される。更に、図１１の例では、「人気のある」や「メニュー」といった観点のメタデータの優先順位が３位である。この場合、「飲食店Ｂ」という固有名詞を主体に形容する文として、「人気」がある、「パスタ」や「ピザ」の写真がある、といった第３の応答文が生成される。これら３つの応答文は、メタデータの優先順位、つまり、第１の応答文、第２の応答文、第３の応答文の順で読み上げられる。

更に、発話情報生成部１１８は、生成した応答文に基づいて人工的な音声を合成してもよい。例えば、発話情報生成部１１８は、応答文に含まれる文字列を発音記号に変換し、波形接続型音声合成（Concatenative synthesis）や、フォルマント合成（Formant synthesis）を利用して、発音記号を読み上げる音声を合成する。

図５のフローチャートの説明に戻る。次に、通信制御部１２０は、通信部１０２を介して、音声ユーザインターフェースに対して、発話情報生成部１１８によって生成された発話情報、つまり応答文又は合成音声を送信する（ステップＳ１２２）。

この際、通信制御部１２０は、対象ユーザが乗車している車両Ｍが自動運転モード下にある場合、発話情報生成部１１８によって生成された応答文又は合成音声に加えて、更に、メタデータの付随先であるコンテンツ（例えば写真や地図など）を音声ユーザインターフェースに送信してもよい。これによって本フローチャートの処理が終了する。

例えば、音声ユーザインターフェースは、情報提供装置１００から応答文を受信した場合、その応答文を読み上げる音声を合成し、その合成した音声を発話として出力する。音声ユーザインターフェースが通信端末３００である場合、アプリ実行部３７０は、応答文を読み上げる音声を合成し、出力制御部３８０は、アプリ実行部３７０によって合成された音声をスピーカ３４０に出力させる。音声ユーザインターフェースがエージェント装置５００である場合、エージェント機能部５４０は、応答文を読み上げる音声を合成し、音声制御部５２６は、エージェント機能部５４０によって合成された音声をスピーカ６３０に出力させる。音声ユーザインターフェースは、情報提供装置１００から応答文を受信する代わりに、合成音声を受信した場合、その合成音声を発話として出力する。

また、音声ユーザインターフェースは、情報提供装置１００から応答文又は合成音声を受信する際に、メタデータの付随先であるコンテンツも併せた受信した場合、そのコンテンツをディスプレイに表示させてよい。

［場面例］
以下、本実施形態の技術を適用した場面について説明する。図１３は、本実施形態の技術を適用した場面例である。図中のＢはある飲食店であり、Ｍ１は、ユーザＵ１が乗車する車両であり、Ｍ２は、ユーザＵ２が乗車する車両である。図示の場面では、車両Ｍ２よりも車両Ｍ１の方が飲食店Ｂに近い。このような位置関係のときに、ユーザＵ１とＵ２がともに同じ観点を重視しており、更に音声ユーザインターフェースに対して「飲食店Ｂ」に関する問い合わせ（すなわち「飲食店Ｂ」に関する情報の要求）を行ったとする。この場合、ユーザＵ１に提供される「飲食店Ｂ」の情報量は、ユーザＵ２に提供される「飲食店Ｂ」の情報量に比べて少なくなる。

図１４は、ユーザＵ１に提供される情報の一例を表す図であり、図１５は、ユーザＵ２に提供される情報の一例を表す図である。例えば、車両Ｍ１が飲食店Ｂに到達するまでの時間が１０秒程度であり、車両Ｍ２が飲食店Ｂに到達するまでの時間が４５秒程度であったとする。この場合、ユーザＵ１の音声ユーザインターフェースは、第１の応答文のみを自動音声により読み上げ、ユーザＵ２の音声ユーザインターフェースは、第１の応答文、第２の応答文、及び第３の応答文を自動音声により読み上げることになる。このように、ユーザごとにＰＯＩの情報量やその種類を変えることで、ユーザの満足度を向上させたり、音声ユーザインターフェースの使い勝手を良くしたりすることができる。

以上説明した実施形態によれば、情報提供装置１００は、複数のＰＯＩ（コンテンツの一例）の其々についてユーザが重視する度合いを表す重要度と、複数のＰＯＩの其々に付随するメタデータの情報量とに基づいて、メタデータの優先順位を決定する。そして、情報提供装置１００は、決定したメタデータの優先順位に基づいて、メタデータを組み合わせたＰＯＩの説明文を応答文として生成し、その応答文を音声ユーザインターフェースに送信する。これを受けて、音声ユーザインターフェースは、ＰＯＩの説明文を自動音声によって読み上げる。このように、ユーザの重視度やメタデータの情報量に応じて、ユーザごとにＰＯＩの情報量やその種類を変えることができる。この結果、音声ユーザインターフェースを介してユーザに通知される情報を、各ユーザに合わせた情報量に調整することができる。

更に、上述した実施形態によれば、ユーザの運転負荷に基づいてメタデータの優先順位を決定するため、ユーザが心理的負担なく情報を受け入れることができる。心理的負担は、例えば、音声ユーザインターフェースの発話内容に対するドライバーの認知、判断、又は操作（発話による応答を含む）などに係る負担である。

［その他の実施形態］
以下、その他の実施形態について説明する。上述した実施形態では、重要度推定部１１４が、観点リスト１３４に含まれる複数の観点の其々に対するユーザの重要度を推定するものとして説明したがこれに限られない。例えば、ユーザが通信端末３００を用いて重要度を事前に入力してもよい。

また、上述した実施形態では、情報提供装置１００と、音声ユーザインターフェース（通信端末３００又はエージェント装置５００）とが、それぞれ別々の装置であるものとして説明したがこれに限られない。例えば、音声ユーザインターフェースは、情報提供装置１００の機能的構成要素を備えていてもよい。

図１６は、実施形態のエージェント装置５００が搭載された車両Ｍの概略構成の他の例を示す図である。図示のように、エージェント装置５００の管理部５２０は、音声認識部１０８、自然言語処理部１１０、メタデータ抽出部１１２、重要度推定部１１４、優先順位決定部１１６、及び発話情報生成部１１８といった情報提供装置１００の機能的構成要素を更に備えていてよい。また、車両側記憶部５６０には、観点リスト１３４、ＰＯＩ情報１３６、発話テンプレート１３８などが更に格納されてよい。このような構成の場合、エージェント装置５００は「情報処理装置」の他の例である。

上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶したメモリと、
プロセッサと、を備え、
前記プロセッサが前記プログラムを実行することにより、
複数のコンテンツの其々についてユーザが重視する度合いを表す重要度と、前記複数のコンテンツの其々に付随するメタデータの情報量とに基づいて、前記メタデータの優先順位を決定し、
前記決定した優先順位に基づいて、前記メタデータを前記ユーザに通知する、
ように構成されている、情報処理装置。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…情報提供システム、１００…情報提供装置、１０２…通信部、１０４…認証部、１０６…取得部、１０８…音声認識部、１１０…自然言語処理部、１１２…メタデータ抽出部、１１４…重要度推定部、１１６…優先順位決定部、１１８…発話情報生成部、１２０…通信制御部、１３０…記憶部、３００…通信端末、３１０…端末側通信部、３２０…入力部、３３０…ディスプレイ、３４０、６３０…スピーカ、３５０、６１０…マイク、３５５…位置取得部、３６０…カメラ、３７０…アプリ実行部、３８０…出力制御部、３９０…端末側記憶部、５００…エージェント装置、５２０…管理部、５４０…エージェント機能部、５６０…車両側記憶部、６２０…表示・操作装置、６４０…ナビゲーション装置６４０…ＭＰＵ、６６０…車両機器、６７０…車載通信装置、６８０…汎用通信装置、６９０…乗員認識装置、７００…自動運転制御装置、Ｍ…車両

Claims

複数のコンテンツの其々についてユーザが重視する度合いを表す重要度と、前記複数のコンテンツの其々に付随するメタデータの情報量とに基づいて、前記メタデータの優先順位を決定する決定部と、
前記決定部によって決定された前記優先順位に基づいて、前記メタデータを前記ユーザに通知する通知部と、
を備える情報処理装置。
前記ユーザの発話による要求を取得する取得部と、
前記取得部によって取得された前記要求を満たす一つ以上のコンテンツから前記メタデータを抽出する抽出部と、を更に備え、
前記決定部は、前記抽出部によって抽出された前記メタデータの情報量と、前記抽出部によって抽出された前記メタデータが付随していたコンテンツに対する前記重要度とに基づいて、前記メタデータの優先順位を決定し、
前記通知部は、前記要求に対する応答として、前記優先順位に基づき前記メタデータを前記ユーザに通知する、
請求項１に記載の情報処理装置。
前記ユーザが前記要求を発話したときの前記ユーザの周辺の環境に基づいて、前記重要度を推定する推定部を更に備える、
請求項２に記載の情報処理装置。
前記推定部は、更に、前記メタデータが通知された前記ユーザのフィードバックの結果に基づいて、前記重要度を推定する、
請求項３に記載の情報処理装置。
前記メタデータには、テキストが含まれ、
前記通知部は、前記メタデータに含まれる前記テキストを自動音声により読み上げることで、前記メタデータを前記ユーザに通知する、
請求項１から４のうちいずれか一項に記載の情報処理装置。
前記決定部は、前記ユーザが目的地に到達するまでの期間内に、前記テキストの読み上げが完了するように、前記メタデータの優先順位を決定する、
請求項５に記載の情報処理装置。
前記決定部は、付随先の前記コンテンツに対する前記重要度が高く、かつ前記情報量が少ない前記メタデータほど、前記優先順位を高くする、
請求項１から６のうちいずれか一項に記載の情報処理装置。
前記ユーザは、車両を運転するドライバーであり、
前記決定部は、更に、前記ドライバーの運転負荷に基づいて、前記メタデータの優先順位を決定する、
請求項１から７のうちいずれか一項に記載の情報処理装置。
前記決定部は、前記ドライバーの運転負荷が大きいほど、前記情報量が多い前記メタデータの優先順位を低くする、
請求項８に記載の情報処理装置。
前記通知部は、前記車両が自動運転モード下にある場合、前記車両が手動運転モード下にある場合に比べて、より多い数の前記メタデータを前記ユーザに通知する、
請求項８又は９に記載の情報処理装置。
前記通知部は、前記車両が自動運転モード下にある場合、更に、前記コンテンツを前記ユーザに通知する、
請求項８から１０のうちいずれか一項に記載の情報処理装置。
コンピュータが、
複数のコンテンツの其々についてユーザが重視する度合いを表す重要度と、前記複数のコンテンツの其々に付随するメタデータの情報量とに基づいて、前記メタデータの優先順位を決定し、
前記決定した優先順位に基づいて、前記メタデータを前記ユーザに通知する、
情報処理方法。
コンピュータに、
複数のコンテンツの其々についてユーザが重視する度合いを表す重要度と、前記複数のコンテンツの其々に付随するメタデータの情報量とに基づいて、前記メタデータの優先順位を決定すること、
前記決定した優先順位に基づいて、前記メタデータを前記ユーザに通知すること、
を実行させるためのプログラム。