JP7449852B2

JP7449852B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7449852B2
Application number: JP2020218112A
Authority: JP
Inventors: 和哉渡邉
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2024-03-14
Anticipated expiration: 2040-12-28
Also published as: JP2022103472A

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

音声認識技術を利用した音声ユーザインターフェースが知られている（例えば、特許文献１－４参照）。

特開２０１７－５８６７４号公報特表２０１９－５３６１７２号公報特開２０１４－１０６５２３号公報特表２００４－５０２９８５号公報

音声ユーザインターフェースに対するユーザの発話内容や、その発話に含まれる固有表現などは、ユーザの所属コミュニティや流行などに応じて変化している。発話の主体であるユーザや、その発話の情報源などが多様化しているのものの、従来の技術では、その多様化に対応できておらず、音声ユーザインターフェースのユーザビリティが十分でない場合があった。

本発明の態様は、このような事情を考慮してなされたものであり、音声ユーザインターフェースのユーザビリティを向上させることができる情報処理装置、情報処理方法、及びプログラムを提供することを目的の一つとする。

この発明に係る情報処理装置、情報処理方法、及びプログラムは、以下の構成を採用した。
（１）本発明の第１の態様は、複数の対象ユーザのそれぞれの発話から固有表現を抽出する抽出部と、前記対象ユーザの行動履歴に基づいて、訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定する判定部と、前記抽出部によって抽出された前記固有表現と、前記判定部による判定結果とを組み合わせた特徴量を、前記対象ユーザごとに生成する第１生成部と、前記第１生成部によって前記特徴量が生成された前記複数の対象ユーザのクラスタリングを行う解析部と、前記クラスタリングによって生成されたクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成する第２生成部と、を備える情報処理装置である。

（２）本発明の第２の態様は、第１の態様において、前記特定地点が、他のユーザによって訪問された回数が閾値以上の地点、又は前記他のユーザによって訪問された回数の所定期間あたりの増加率が閾値以上の地点である情報処理装置である。

（３）本発明の第３の態様は、第１の態様又は第２の態様において、前記クラスタに属する前記対象ユーザの発話から抽出された前記固有表現の共起表現を、前記クラスタごとに収集する収集部を更に備え、前記第２生成部が、前記クラスタごとに、前記収集部によって収集された前記共起表現を含む前記辞書を生成する情報処理装置である。

（４）本発明の第４の態様は、第１から第３の態様のうちいずれ一つにおいて、複数の前記クラスタのうちの特定クラスタに属する前記対象ユーザに、複数の前記辞書のうちの前記特定クラスタに対応した前記辞書の利用案内情報を提供する提供部を更に備える情報処理装置である。

（５）本発明の第５の態様は、第４の態様において、前記第２生成部が、前記クラスタごとに生成した前記辞書と既存辞書とを組み合わせた新辞書を生成し、前記提供部が、前記特定クラスタに属する前記対象ユーザに、前記特定クラスタに対応した前記辞書と前記既存辞書とが組み合わされた前記新辞書の利用案内情報を提供する情報処理装置である。

（６）本発明の第６の態様は、第１から第５の態様のうちいずれ一つにおいて、所定のユーザの集団内における前記対象ユーザの発話に基づいて、前記辞書を検証する検証部を更に備える情報処理装置である。

（７）本発明の第７の態様は、第１から第６の態様のうちいずれ一つにおいて、前記第１生成部が、前記固有表現に基づく第１特徴量と、前記判定部による判定結果に基づく第２特徴量との組み合わせを、前記特徴量として生成する情報処理装置である。

（８）本発明の第８の態様は、第７の態様において、前記第２特徴量には、前記特定地点への訪問の有無と、前記特定地点への訪問の回数とのうち一方又は双方を表す特徴量が含まれる情報処理装置である。

（９）本発明の第９の態様は、第１から第８の態様のうちいずれ一つにおいて、前記固有表現には、地名又は標章の言い回しが含まれる情報処理装置である。

（１０）本発明の第１０の態様は、コンピュータが、複数の対象ユーザのそれぞれの発話から固有表現を抽出し、前記対象ユーザの行動履歴に基づいて、訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定し、前記抽出した固有表現と、前記判定した結果とを組み合わせた特徴量を、前記対象ユーザごとに生成し、前記特徴量を生成した前記複数の対象ユーザのクラスタリングを行い、前記クラスタリングによって生成したクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成する情報処理方法である。

（１１）本発明の第１１の態様は、コンピュータに、複数の対象ユーザのそれぞれの発話から固有表現を抽出すること、前記対象ユーザの行動履歴に基づいて、訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定すること、前記抽出した固有表現と、前記判定した結果とを組み合わせた特徴量を、前記対象ユーザごとに生成すること、前記特徴量を生成した前記複数の対象ユーザのクラスタリングを行うこと、前記クラスタリングによって生成したクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成すること、を実行させるためのプログラムである。

上記態様によれば、音声ユーザインターフェースのユーザビリティを向上させることができる。

実施形態の情報提供システム１の構成図である。ユーザ認証情報１３２の内容について説明するための図である。個人発話履歴情報１３４Ａの内容について説明するための図である。集団発話履歴情報１３４Ｂの内容について説明するための図である。個人行動履歴情報１３６Ａの内容について説明するための図である。集団行動履歴情報１３６Ｂの内容について説明するための図である。実施形態の通信端末３００の構成図である。エージェント装置５００が搭載された車両Ｍの概略構成の一例を示す図である。実施形態の情報提供装置１００による一連の処理の流れを表すフローチャートである。実施形態の情報提供装置１００による一連の処理の流れを表すフローチャートである。訪問回数が急増した地点とそうでない地点とを説明するための図である。ユーザベクトルのクラスタリング結果の一例を表す図である。情報処理辞書の生成方法を説明するための図である。情報処理辞書の利用案内情報が提供される場面を模式的に表す図である。

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。

図１は、実施形態の情報提供システム１の構成図である。情報提供システム１は、例えば、情報提供装置１００と、情報提供システム１のユーザＵ１が利用する通信端末３００と、情報提供システム１のユーザＵ２が利用する車両Ｍとを備える。これらの構成要素は、ネットワークＮＷを介して互いに通信可能である。ネットワークＮＷは、例えば、インターネット、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、電話回線、公衆回線、専用回線、プロバイダ装置、無線基地局等を含む。情報提供システム１には、通信端末３００または車両Ｍの一方または双方が複数含まれてもよい。車両Ｍは、例えば、エージェント装置５００を備える。情報提供装置１００は、「情報処理装置」の一例である。

情報提供装置１００は、通信端末３００からユーザＵ１の問い合わせや要求等を受け付け、受け付けた問い合わせや要求に応じた処理を行い、処理結果を通信端末３００に送信する。また、情報提供装置１００は、車両Ｍに搭載されたエージェント装置５００からユーザＵ２の問い合わせや要求等を受け付け、受け付けた問い合わせや要求に応じた処理を行い、処理結果をエージェント装置５００に送信する。情報提供装置１００は、例えば、通信端末３００およびエージェント装置５００と、ネットワークＮＷを介して互いに通信し、各種データを送受信するクラウドサーバとして機能してもよい。

通信端末３００は、例えば、スマートフォンやタブレット端末等の携帯型端末である。通信端末３００は、ユーザＵ１からの問い合わせや要求等の情報を受け付ける。通信端末３００は、ユーザＵ１から受け付けた情報を情報提供装置１００に送信し、送信した情報に対する回答として得られた情報を出力する。つまり、通信端末３００は、音声ユーザインターフェースとして機能する。

エージェント装置５００が搭載される車両Ｍは、例えば、二輪や三輪、四輪等の車両であり、その駆動源は、ディーゼルエンジンやガソリンエンジン等の内燃機関、電動機、或いはこれらの組み合わせである。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。また、車両Ｍは、自動運転車両であってもよい。自動運転とは、例えば、車両の操舵または速度のうち、一方または双方を自動的に制御することである。上述した車両の運転制御には、例えば、ＡＣＣ（Adaptive Cruise Control）や、ＡＬＣ（Auto Lane Changing）、ＬＫＡＳ（Lane Keeping Assistance System）といった種々の運転制御が含まれてよい。自動運転車両は、乗員（運転者）の手動運転によって運転が制御されることがあってもよい。

エージェント装置５００は、車両Ｍの乗員（例えば、ユーザＵ２）と対話したり、乗員から問い合わせや要求等に対する情報を提供したりする。エージェント装置５００は、例えば、ユーザＵ２からの問い合わせや要求等の情報を受け付け、その受け付けた情報を情報提供装置１００に送信し、送信した情報に対する回答として得られた情報を出力する。つまり、エージェント装置５００は、通信端末３００と同様に、音声ユーザインターフェースとして機能する。

［情報提供装置］
以下、情報提供装置１００の構成を説明する。情報提供装置１００は、例えば、通信部１０２と、認証部１０４と、取得部１０６と、音声認識部１０８と、自然言語処理部１１０と、判定部１１２と、ユーザベクトル生成部１１４と、解析部１１６と、収集部１１８と、辞書生成部１２０と、検証部１２２と、提供部１２４と、記憶部１３０とを備える。音声認識部１０８と自然言語処理部１１０とを合わせたものは、「抽出部」の一例である。ユーザベクトル生成部１１４は「第１生成部」の一例である。辞書生成部１２０は「第２生成部」の一例である。

認証部１０４と、取得部１０６と、音声認識部１０８と、自然言語処理部１１０と、判定部１１２と、ユーザベクトル生成部１１４と、解析部１１６と、収集部１１８と、辞書生成部１２０と、検証部１２２と、提供部１２４は、それぞれ、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリ等の記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭ等の着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置等に装着されることで情報提供装置１００の記憶装置にインストールされてもよい。

記憶部１３０は、上記の各種記憶装置、或いはＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、またはＲＡＭ（Random Access Memory）等により実現される。記憶部１３０には、上記のプロセッサによって参照されるプログラムに加えて、例えば、ユーザ認証情報１３２、発話履歴情報１３４、行動履歴情報１３６などが格納される。

ユーザ認証情報１３２には、例えば、情報提供装置１００を利用するユーザを識別する情報や認証部１０４による認証時に用いられる情報等が含まれる。ユーザ認証情報１３２は、例えば、ユーザＩＤ、パスワード、住所、氏名、年齢、性別、趣味、特技、指向情報等である。指向情報とは、ユーザの指向性を示す情報であり、例えば、ユーザの考え方を示す情報や、好みなどを示す情報（嗜好性の情報）、ユーザが重視する事項を示す情報等である。

発話履歴情報１３４は、音声ユーザインターフェースとして機能する通信端末３００又はエージェント装置５００に対して、ユーザが話しかけた言葉（つまり発話）の履歴情報である。発話履歴情報１３４には、一人のユーザの発話履歴である個人発話履歴情報１３４Ａと、複数のユーザの発話履歴である集団発話履歴情報１３４Ｂとが含まれる。例えば、エージェント装置５００が搭載された車両Ｍに一人のユーザのみが乗車している場合（エージェント装置５００によって一人のユーザの発話のみが収音された場合）、そのユーザの発話履歴は、個人発話履歴情報１３４Ａとして記録される。一方、車両Ｍに複数のユーザが集団で乗車している場合（エージェント装置５００によって複数のユーザの発話が収音された場合）、それら複数のユーザの発話履歴は、集団発話履歴情報１３４Ｂとして記録される。

行動履歴情報１３６は、観光地への訪問やインターネット検索といったユーザの行動の履歴情報である。行動履歴情報１３６には、一人のユーザの行動履歴である個人行動履歴情報１３６Ａと、複数のユーザの行動履歴である集団行動履歴情報１３６Ｂとが含まれる。例えば、エージェント装置５００が搭載された車両Ｍに一人のユーザのみが乗車している場合、そのユーザを乗せた車両Ｍの位置の遷移履歴（移動履歴）は、個人発話履歴情報１３４Ａとして記録される。一方、車両Ｍに複数のユーザが集団で乗車している場合、それら複数のユーザを乗せた車両Ｍの位置の遷移履歴（移動履歴）は、集団発話履歴情報１３４Ｂとして記録される。また、一人のユーザが通信端末３００を携行して移動した場合、その通信端末３００の位置の遷移履歴（移動履歴）は、個人発話履歴情報１３４Ａとして記録される。一方、複数のユーザのそれぞれが通信端末３００を携行して移動した場合、それら複数の通信端末３００の位置の遷移履歴（移動履歴）は、集団発話履歴情報１３４Ｂとして記録される。

通信部１０２は、ネットワークＮＷを介して通信端末３００、エージェント装置５００、その他の外部装置と通信するインターフェースである。例えば、通信部１０２は、ＮＩＣ（Network Interface Card）や、無線通信用のアンテナなどを備える。

認証部１０４は、情報提供システム１を利用するユーザ（例えば、ユーザＵ１、Ｕ２）に関する情報を、ユーザ認証情報１３２として記憶部１３０に登録する。例えば、認証部１０４は、通信端末３００又はエージェント装置５００からユーザ登録要求を受け付けた場合に、ユーザ認証情報１３２に含まれる各種情報を入力するためのＧＵＩ（Graphical User Interface）を、登録要求を受け付けた装置に表示させる。ユーザがＧＵＩに各種情報を入力すると、認証部１０４は、その装置からユーザに関する情報を取得する。そして、認証部１０４は、通信端末３００又はエージェント装置５００から取得したユーザに関する情報を記憶部１３０にユーザ認証情報１３２として登録する。

図２は、ユーザ認証情報１３２の内容について説明するための図である。ユーザ認証情報１３２は、例えば、ユーザの認証情報に対して、そのユーザの住所、氏名、年齢、性別、連絡先、指向情報等の情報が対応付けられたものである。認証情報には、例えば、ユーザを識別する識別情報であるユーザＩＤやパスワード等が含まれる。また、認証情報には、指紋情報や虹彩情報等の生体認証情報が含まれてもよい。連絡先は、例えば、そのユーザによって使用される音声ユーザインターフェース（通信端末３００又はエージェント装置５００）と通信するためのアドレス情報であってもよいし、ユーザの電話番号やメールアドレス、端末識別情報等であってもよい。情報提供装置１００は、連絡先の情報に基づいて、各移動通信機器と通信し、各種情報を提供する。

認証部１０４は、予め登録しておいたユーザ認証情報１３２に基づいて情報提供システム１のサービスのユーザを認証する。例えば、認証部１０４は、通信端末３００またはエージェント装置５００からサービスの利用要求を受け付けたタイミングでユーザを認証する。具体的には、認証部１０４は、利用要求を受け付けた場合に、ユーザＩＤやパスワード等の認証情報を入力するためのＧＵＩを、要求のあった端末装置に表示させると共に、そのＧＵＩ上に入力された入力認証情報とユーザ認証情報１３２の認証情報とを比較する。認証部１０４は、ユーザ認証情報１３２の中に、入力認証情報に合致する認証情報が格納されているか否かを判定し、入力認証情報に合致する認証情報が格納されている場合、サービスの利用を許可する。一方、認証部１０４は、入力認証情報に合致する認証情報が格納されていない場合、サービスの利用を禁止したり、或いは新規登録を行わせるための処理を行う。

取得部１０６は、通信部１０２を介して（ネットワークＮＷを介して）、通信端末３００またはエージェント装置５００から、一人又は複数人のユーザの発話を取得し、それを発話履歴情報１３４として記憶部１３０に格納する。ユーザの発話は、音声データ（音響データや音響ストリームともいう）であってもよいし、その音声データから認識されたテキストデータであってもよい。また、取得部１０６は、通信部１０２を介して（ネットワークＮＷを介して）、通信端末３００またはエージェント装置５００から、一人又は複数人のユーザの行動履歴を取得し、それを行動履歴情報１３６として記憶部１３０に格納する。

図３は、個人発話履歴情報１３４Ａの内容について説明するための図である。個人発話履歴情報１３４Ａは、例えば、ユーザが発話した日時に、その発話がなされた場所、その発話の内容発話、および提供情報が対応付けられたものである。発話内容は、ユーザが発話した音声であってもよいし、後述する音声認識部１０８による音声認識によって得られたテキストであってもよい。提供情報は、ユーザの発話に対するレスポンスとして提供部１２４により提供された情報である。提供情報には、例えば、対話用の音声情報や、画像や動作等の表示情報が含まれる。

図４は、集団発話履歴情報１３４Ｂの内容について説明するための図である。集団発話履歴情報１３４Ｂは、例えば、ユーザが発話した日時に対して、その発話がなされた場所、その発話の内容発話、提供情報といった情報に加えて、更に、集団メンバ情報が対応付けられたものである。集団メンバ情報とは、例えば、同じ車両Ｍに乗車した他のユーザや、同じ場所に同行した他のユーザ、位置情報から同時刻に同じ場所にいたとみなせる他のユーザに関する情報（例えばユーザＩＤ等）である。

図５は、個人行動履歴情報１３６Ａの内容について説明するための図である。個人行動履歴情報１３６Ａは、例えば、ユーザＩＤおよびに日時に対して、行動履歴が対応付けられたものである。行動履歴には、例えば、ユーザが訪問先や、その移動手段などが含まれる。上述したように、行動履歴には、インターネット上の行動履歴が含まれていてもよい。

図６は、集団行動履歴情報１３６Ｂの内容について説明するための図である。集団行動履歴情報１３６Ｂは、例えば、ユーザＩＤおよびに日時に対して、行動履歴と、集団メンバ情報とが対応付けられたものである。

音声認識部１０８は、ユーザの発話音声を認識する音声認識（音声をテキスト化する処理）を行う。例えば、音声認識部１０８は、取得部１０６によって取得されたユーザの発話を表す音声データに対して音声認識を行い、音声データをテキスト化したテキストデータを生成する。テキストデータには、発話の内容が文字として記述された文字列が含まれる。

例えば、音声認識部１０８は、音響モデルと、自動音声認識のための辞書（以下、ＡＳＲ辞書と称する）とを用いて、音声データをテキスト化してよい。音響モデルは、入力された音声を周波数に応じて分離し、その分離した各音声を音素（スペクトログラム）に変換するよう予め学習又は調整されたモデルであり、例えば、ニューラルネットワークや隠れマルコフモデルなどである。ＡＳＲ辞書は、複数の音素の組み合わせに対して文字列が対応付けれており、更に、構文によって文字列の区切る位置が定義付けられたデータベースである。ＡＳＲ辞書は、いわゆるパターンマッチ辞書である。例えば、音声認識部１０８は、音声データを音響モデルに入力し、その音響モデルによって出力された音素の集合をＡＳＲ辞書の中から探し、その音素の集合に対応した文字列を取得する。音声認識部１０８は、このように得られた文字列の組み合わせをテキストデータとして生成する。なお、音声認識部１０８は、ＡＳＲ辞書を使用する代わりに、例えばｎ－ｇｒａｍモデル等によって実装された言語モデルを用いて、音響モデルの出力結果からテキストデータを生成してもよい。

自然言語処理部１１０は、テキストの構造や意味を理解する自然言語理解を行う。例えば、自然言語処理部１１０は、意味解釈のために予め用意された辞書（以下、ＮＬＵ辞書）を参照しながら、音声認識部１０８によって生成されたテキストデータの意味を解釈する。ＮＬＵ辞書は、テキストデータに対して抽象化された意味情報が対応付けられたデータベースである。例えば、ＮＬＵ辞書は、「私」という単語と「同僚」という単語が互いに関係性が高く、「ハンバーガー」という単語と「食べる」という単語が互いに関係性が高い、といったことを定義している。これにより例えば、「私は同僚とハンバーガーを食べた」という文章が、「私」という単一の主体が「同僚」及び「ハンバーガー」という２つの客体に対して、「食べる」という行為を行ったという意味で解釈されるのではなく、「私」及び「同僚」という２つの主体が「ハンバーガー」という単一の客体に対して、「食べる」という行為を行ったという意味で解釈されることになる。ＮＬＵ辞書は、同義語や類義語などを含んでもよい。音声認識と自然言語理解は、必ずしも段階が明確に分かれる必要はなく、自然言語理解の結果を受けて音声認識の結果を修正するなど、相互に影響し合って行われてよい。

また、自然言語処理部１１０は、音声認識部１０８によって生成されたテキストデータから固有表現を抽出する。例えば、自然言語処理部１１０は、ＴＦ（Term Frequency）－ＩＤＦ（Inverse Document Frequency）などを用いて、固有表現を抽出してよい。

固有表現とは、例えば、名詞のような一つの単語（ワード）であってもよいし、名詞と名詞とが他の品詞（例えば助詞）で接続された一つの句（フレーズ）であってもよいし、名詞や動詞、助詞、助動詞などの種々の品詞を含む一つの文（センテンス）であってもよい。

例えば、固有表現には、ある地名や、その地名の言い回し、ある標章や、その標章の言い回しなどが含まれる。標章には、例えば、企業名、ブランド名、店舗名などが含まれる。例えば、ある企業の公式名称が「本田技研工業株式会社」であり、その「本田技研工業株式会社」という企業の本社が存在する地域のユーザが、その企業のことを親しみをこめて「本田技研」などとを呼称していたとする。この場合、「本田技研」という固有表現は、「本田技研工業株式会社」という固有表現の言い回しとして扱われる。また、ある飲食店の公式名称が「ＡＢＣＤＥＦ」であるときに、ある地域のユーザがその飲食店のことを「ＡＢＣ」と省略して呼称しているのに対して、別の地域のユーザがその飲食店のことを「ＤＥＦ」と省略して呼称していたとする。この場合、「ＡＢＣ」や「ＤＥＦ」のように地域で呼び方が異なる固有表現は、「ＡＢＣＤＥＦ」という固有表現の言い回しとして扱われる。また、固有表現とその言い回しとの関係は、地域に限らず、若者と大人といったように年齢や世代の違いのなかにも存在していてよいし、コミュニティや派閥などの違いのなかにも存在していてよい。このような関係は、例えば、広く一般的に知られているメジャーな名称と、メジャーな名称と同一の意味で使用されるマイナーな名称との間にも存在していてよい。このように、自然言語処理部１１０は、文字列的に互いに異なる表現であるものの、その意味する対象が同一である表現を、それぞれ固有表現として抽出する。

判定部１１２は、行動履歴情報１３６に含まれる複数のユーザのそれぞれの行動履歴に基づいて、各々のユーザが訪問回数が急増した地点を訪問したか否かを判定する。「訪問回数が急増した地点」とは、例えば、他のユーザによって訪問された回数が閾値以上の地点、又は他のユーザによって訪問された回数の所定期間あたりの増加率が閾値以上の地点である。

ユーザベクトル生成部１１４は、自然言語処理部１１０によって抽出された固有表現と、判定部１１２による判定結果とを組み合わせた多次元の特徴量を、ユーザごとに生成する。例えば、ユーザベクトル生成部１１４は、ＴＦ－ＩＤＦなどを用いて得られた固有表現のベクトル（以下、「発話ベクトル」という）と、判定部１１２による判定結果に基づくベクトル（以下、「行動ベクトル」という）とを組み合わせ、それらの組み合わせを一つのベクトルとして生成する。以下、発話ベクトルと行動ベクトルとを組み合わせたベクトルのことを、「ユーザベクトル」と称して説明する。発話ベクトルは「第１特徴量」の一例であり、行動ベクトルは「第２特徴量」の一例である。

解析部１１６は、ユーザベクトルが生成された複数のユーザのクラスタリングを行い、発話内容や訪問地点といった特徴が類似するユーザ同士を同一のクラスタに分類する。この際、解析部１１６は、ユーザベクトルの次元を圧縮してよい。次元圧縮には、例えば、主成分分析や、ＬＤＡ（Latent Dirichlet Allocation）に代表されるようなトピックモデル、Ｗｏｒｄ２Ｖｅｃなどのニューラルネットワークなどが利用されてよい。また、次元圧縮には、正則化回帰の一つであるＬＡＳＳＯ（Least Absolute Shrinkage and Selection Operator）や、ＮＭＦ（Nonnegative Matrix Factorization）などが利用されてもよい。

収集部１１８は、クラスタリングによって生成されたクラスタごとに、そのクラスタに属するユーザの発話から抽出された固有表現の共起表現を収集する。共起表現とは、例えば、ウェブサイトなどにおいて、ユーザの発話から抽出された固有表現とともに出現しやすい単語などである。例えば、収集部１１８は、通信部１０２を介してウェブサーバ等にアクセスし、そのウェブサーバによって提供されるウェブサイトをクロールし、コンテンツを収集する。収集部１１８は、アソシエーション分析等を利用して、収集したコンテンツから共起表現を抽出する。このように、収集部１１８は、Ｗｅｂクローラーのように機能してよい。

辞書生成部１２０は、クラスタリングによって生成されたクラスタごとに、音声認識や自然言語理解といった各情報処理のための辞書（以下、情報処理辞書と称する）を生成する。情報処理辞書とは、上述した音声認識（音声のテキスト化）の際に参照されるＡＳＲ辞書と、自然言語理解（テキストの意味解釈）の際に参照されるＮＬＵ辞書とのうち、いずれか一方又は双方の辞書である。例えば、音声認識の際にＡＳＲ辞書ではなく言語モデルが利用される場合、情報処理辞書には、ＮＬＵ辞書のみが含まれる。情報処理辞書には、収集部１１８によって収集された共起表現が包含される。

検証部１２２は、辞書生成部１２０によって生成された情報処理辞書の精度を検証する。検証方法の詳細については後述する。

提供部１２４は、通信部１０２を介して、音声ユーザインターフェースである通信端末３００又はエージェント装置５００に各種情報を提供（送信）する。例えば、取得部１０６が通信端末３００又はエージェント装置５００から問い合わせや要求を発話として取得した場合、提供部１２４は、その問い合わせや要求のレスポンスとなる情報を生成する。例えば、「今日の天気を教えて」という意味の発話が取得された場合、提供部１２４は、「今日」と「天気」という固有表現に対応したコンテンツ（天気予報の結果を表す画像や映像、音声など）を生成してよい。そして、提供部１２４は、通信部１０２を介して、生成した情報を問い合わせや要求のあった音声ユーザインターフェースに返信する。

また、提供部１２４は、辞書生成部１２０によって生成された情報処理辞書の利用案内情報を、通信端末３００又はエージェント装置５００に提供する。利用案内情報とは、例えば、ＡＳＲ辞書が音声認識の際に新たに参照（使用）されるようユーザに設定を推奨したり、或いは、ＮＬＵ辞書が自然言語理解の際に新たに参照（使用）されるようユーザに設定を推奨したりする情報である。

［通信端末］
次に、通信端末３００の構成について説明する。図７は、実施形態の通信端末３００の構成図である。通信端末３００は、例えば、端末側通信部３１０と、入力部３２０と、ディスプレイ３３０と、スピーカ３４０と、マイクロフォン（以下、マイク）３５０と、位置取得部３５５と、カメラ３６０と、アプリ実行部３７０と、出力制御部３８０と、端末側記憶部３９０とを備える。位置取得部３５５と、アプリ実行部３７０と、出力制御部３８０とは、例えば、ＣＰＵ等のハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵ等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤやフラッシュメモリ等の記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭ等の着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置やカードスロット等に装着されることで通信端末３００の記憶装置にインストールされてもよい。

端末側記憶部３９０は、上記の各種記憶装置、或いはＥＥＰＲＯＭ、ＲＯＭ、ＲＡＭ等により実現されてもよい。端末側記憶部３９０には、例えば、上記のプログラムや、情報提供アプリケーション３９２、その他の各種情報が格納される。

端末側通信部３１０は、例えば、ネットワークＮＷを利用して、情報提供装置１００、エージェント装置５００、その他の外部装置と通信を行う。

入力部３２０は、例えば、各種キーやボタン等の操作によるユーザＵ１の入力を受け付ける。ディスプレイ３３０は、例えば、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electro Luminescence）ディスプレイ等である。入力部３２０は、タッチパネルとしてディスプレイ３３０と一体に構成されていてもよい。ディスプレイ３３０は、出力制御部３８０の制御により、実施形態における各種情報を表示する。スピーカ３４０は、例えば、出力制御部３８０の制御により、所定の音声を出力する。マイク３５０は、例えば、出力制御部３８０の制御により、ユーザＵ１の音声の入力を受け付ける。

位置取得部３５５は、通信端末３００の位置情報を取得する。例えば、位置取得部３５５は、ＧＰＳ（Global Positioning System）などに代表されるＧＮＳＳ（Global Navigation Satellite System）受信機を含む。位置情報とは、例えば、二次元の地図座標でもよく、緯度経度情報でもよい。位置取得部３５５は、端末側通信部３１０を介して、取得した位置情報を情報提供装置１００に送信してよい。

カメラ３６０は、例えば、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）等の固体撮像素子（イメージセンサ）を利用したデジタルカメラである。例えば、ナビゲーション装置などの代用として通信端末３００が車両Ｍのインストルメントパネルに取り付けられた場合、その通信端末３００のカメラ３６０は、自動的に、又はユーザＵ１の操作に応じて、車両Ｍの車室内を撮像してよい。

アプリ実行部３７０は、端末側記憶部３９０に記憶された情報提供アプリケーション３９２を実行する。情報提供アプリケーション３９２は、情報提供装置１００から提供された画像をディスプレイ３３０に出力させたり、情報提供装置１００から提供された情報に対応する音声をスピーカ３４０から出力させたりするように、出力制御部３８０を制御するためのアプリケーションプログラムである。また、アプリ実行部３７０は、入力部３２０により入力された情報を、端末側通信部３１０を介して情報提供装置１００に送信する。情報提供アプリケーション３９２は、例えば、ネットワークＮＷを介して外部装置からダウンロードされたものが通信端末３００にインストールされてよい。

出力制御部３８０は、アプリ実行部３７０の制御により、ディスプレイ３３０に画像を表示させたり、スピーカ３４０に音声を出力させたりする。その際、出力制御部３８０は、ディスプレイ３３０に表示させる画像の内容や態様を制御したり、スピーカ３４０に出力させる音声の内容や態様を制御したりしてよい。

［車両］
次に、エージェント装置５００が搭載された車両Ｍの概略構成について説明する。図８は、エージェント装置５００が搭載された車両Ｍの概略構成の一例を示す図である。図８に示す車両Ｍには、エージェント装置５００と、マイク６１０と、表示・操作装置６２０と、スピーカユニット６３０と、ナビゲーション装置６４０と、ＭＰＵ（Map Positioning Unit）６５０と、車両機器６６０と、車載通信装置６７０と、乗員認識装置６９０と、自動運転制御装置７００とが搭載される。また、スマートフォンなどの汎用通信装置６８０が車室内に持ち込まれ、通信装置として使用される場合がある。汎用通信装置６８０は、例えば、通信端末３００である。これらの装置は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。

先にエージェント装置５００以外の構成について説明する。マイク６１０は、車室内で発せられた音声を収集する。表示・操作装置６２０は、画像を表示すると共に、入力操作を受付可能な装置（或いは装置群）である。表示・操作装置６２０は、典型的には、タッチパネルである。表示・操作装置６２０は、更に、ＨＵＤ（Head Up Display）や機械式の入力装置を含んでもよい。スピーカユニット６３０は、例えば、車室内や車外に音声や警報音等を出力する。表示・操作装置６２０は、エージェント装置５００とナビゲーション装置６４０とで共用されてもよい。

ナビゲーション装置６４０は、ナビＨＭＩ（Human machine Interface）と、ＧＰＳなどの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置（ナビゲーションコントローラ）とを備える。マイク６１０、表示・操作装置６２０、およびスピーカユニット６３０のうち一部または全部がナビＨＭＩとして用いられてもよい。ナビゲーション装置６４０は、位置測位装置によって特定された車両Ｍの位置に基づいて地図情報を参照し、地図情報から車両Ｍの位置からユーザによって入力された目的地まで移動するための経路（ナビ経路）を探索し、経路に沿って車両Ｍが走行できるように、ナビＨＭＩを用いて案内情報を出力する。経路探索機能は、ネットワークＮＷを介してアクセス可能な情報提供装置１００やナビゲーションサーバにあってもよい。この場合、ナビゲーション装置６４０は、情報提供装置１００やナビゲーションサーバから経路を取得して案内情報を出力する。なお、エージェント装置５００は、ナビゲーションコントローラを基盤として構築されてもよく、その場合、ナビゲーションコントローラとエージェント装置５００は、ハードウェア上は一体に構成される。

ＭＰＵ６５０は、例えば、ナビゲーション装置６４０から提供された地図上経路を複数のブロックに分割し（例えば、車両進行方向に関して１００［ｍ］毎に分割し）、ブロックごとに推奨車線を決定する。例えば、ＭＰＵ６５０は、左から何番目の車線を走行するといった決定を行う。また、ＭＰＵ６５０は、ナビゲーション装置６４０の記憶装置に記憶された地図情報よりも高精度な地図情報（高精度地図）を用いて推奨車線を決定してもよい。高精度地図は、例えば、ＭＰＵ６５０の記憶装置に記憶されていてもよく、ナビゲーション装置６４０の記憶装置やエージェント装置５００の車両側記憶部５６０に記憶してもよい。高精度地図は、車線の中央の情報あるいは車線の境界の情報、交通規制情報、住所情報（住所・郵便番号）、施設情報、電話番号情報などが含まれてよい。

車両機器６６０は、例えば、カメラやレーダ装置、ＬＩＤＡＲ（Light Detection and Ranging）、物体認識装置である。カメラは、例えば、ＣＣＤやＣＭＯＳ等の固体撮像素子を利用したデジタルカメラである。カメラは、車両Ｍの任意の箇所に取り付けられる。レーダ装置は、車両Ｍの周辺にミリ波などの電波を放射すると共に、物体によって反射された電波（反射波）を検出して少なくとも物体の位置（距離および方位）を検出する。ＬＩＤＡＲは、車両Ｍの周辺に光を照射し、散乱光を測定する。ＬＩＤＡＲは、発光から受光までの時間に基づいて、対象までの距離を検出する。物体認識装置は、カメラ、レーダ装置、およびＬＩＤＡＲのうち一部または全部による検出結果に対してセンサフュージョン処理を行って、車両Ｍの周辺に存在する物体の位置、種類、速度などを認識する。物体認識装置は、認識結果をエージェント装置５００や自動運転制御装置７００に出力する。

また、車両機器６６０は、例えば、運転操作子や、走行駆動力出力装置、ブレーキ装置、ステアリング装置等を含む。運転操作子は、例えば、アクセルペダル、ブレーキペダル、シフトレバー、ステアリングホイール、異形ステア、ジョイスティックその他の操作子を含む。運転操作子には、操作量あるいは操作の有無を検出するセンサが取り付けられており、その検出結果は、エージェント装置５００や自動運転制御装置７００、もしくは、走行駆動力出力装置、ブレーキ装置、およびステアリング装置のうち一部または全部に出力される。走行駆動力出力装置は、車両Ｍが走行するための走行駆動力（トルク）を駆動輪に出力する。ブレーキ装置は、例えば、ブレーキキャリパーと、ブレーキキャリパーに油圧を伝達するシリンダと、シリンダに油圧を発生させる電動モータと、ブレーキＥＣＵとを備える。ブレーキＥＣＵは、自動運転制御装置７００から入力される情報、或いは運転操作子から入力される情報に従って電動モータを制御し、制動操作に応じたブレーキトルクが各車輪に出力されるようにする。ステアリング装置は、例えば、ステアリングＥＣＵと、電動モータとを備える。電動モータは、例えば、ラックアンドピニオン機構に力を作用させて転舵輪の向きを変更する。ステアリングＥＣＵは、自動運転制御装置７００から入力される情報、或いは運転操作子から入力される情報に従って、電動モータを駆動し、転舵輪の向きを変更させる。

また、車両機器６６０は、例えば、ドアロック装置、ドア開閉装置、窓、窓の開閉装置および窓の開閉制御装置、シート、シート位置の制御装置、ルームミラーおよびその角度位置制御装置、車両内外の照明装置およびその制御装置、ワイパーやデフォッガーおよびそれぞれの制御装置、方向指示灯およびその制御装置、空調装置などの車両情報装置などが含まれてもよい。

車載通信装置６７０は、例えば、セルラー網やＷｉ－Ｆｉ網を利用してネットワークＮＷにアクセス可能な無線通信装置である。

乗員認識装置６９０は、例えば、着座センサ、車室内カメラ、画像認識装置などを含む。着座センサは座席の下部に設けられた圧力センサ、シートベルトに取り付けられた張力センサなどを含む。車室内カメラは、車室内に設けられたＣＣＤカメラやＣＭＯＳカメラである。画像認識装置は、車室内カメラの画像を解析し、座席ごとのユーザの有無、ユーザの顔などを認識して、ユーザの着座位置を認識する。また、乗員認識装置６９０は、予め登録された顔画像とのマッチング処理を行うことで、画像に含まれる運転席や助手席等に着座するユーザを特定してもよい。

自動運転制御装置７００は、例えば、ＣＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより処理を行う。自動運転制御装置７００の構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵ等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め自動運転制御装置７００のＨＤＤやフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体に格納されており、記憶媒体（非一過性の記憶媒体）がドライブ装置に装着されることで自動運転制御装置７００のＨＤＤやフラッシュメモリにインストールされてもよい。

自動運転制御装置７００は、車両機器６６０の物体認識装置を介して入力された情報に基づいて、車両Ｍの周辺にある物体の位置、および速度、加速度等の状態を認識する。自動運転制御装置７００は、原則的にはＭＰＵ６５０により決定された推奨車線を走行し、更に、車両Ｍの周辺状況に対応できるように、車両Ｍが自動的に（運転者の操作に依らずに）将来走行する目標軌道を生成する。目標軌道は、例えば、速度要素を含んでいる。例えば、目標軌道は、車両Ｍの到達すべき地点（軌道点）を順に並べたものとして表現される。

自動運転制御装置７００は、目標軌道を生成するにあたり、自動運転のイベントを設定してよい。自動運転のイベントには、定速走行イベント、低速追従走行イベント、車線変更イベント、分岐イベント、合流イベント、テイクオーバーイベント、自動駐車イベントなどがある。自動運転制御装置７００は、起動させたイベントに応じた目標軌道を生成する。また、自動運転制御装置７００は、生成した目標軌道を、予定の時刻通りに車両Ｍが通過するように、車両機器６６０の走行駆動力出力装置、ブレーキ装置、およびステアリング装置を制御する。例えば、自動運転制御装置７００は、目標軌道（軌道点）に付随する速度要素に基づいて、走行駆動力出力装置またはブレーキ装置を制御したり、目標軌道の曲がり具合に応じて、ステアリング装置を制御する。

次に、エージェント装置５００について説明する。エージェント装置５００は、車両Ｍの乗員と対話を行う装置である。例えば、エージェント装置５００は、乗員の発話を情報提供装置１００に送信し、その発話に対する回答を情報提供装置１００から受信する。エージェント装置５００は、受信した回答を、音声や画像を用いて乗員に提示する。

エージェント装置５００は、例えば、管理部５２０と、エージェント機能部５４０と、車両側記憶部５６０とを備える。管理部５２０は、例えば、音響処理部５２２と、表示制御部５２４と、音声制御部５２６とを備える。図８において、これらの構成要素の配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部５４０と車載通信装置６０の間に管理部５２０が介在してもよく、その配置は任意に改変することができる。

エージェント装置５００の車両側記憶部５６０以外の各構成要素は、例えば、ＣＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵなどのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

車両側記憶部５６０は、上記の各種記憶装置、或いはＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現されてよい。車両側記憶部５６０には、例えば、プログラム、その他各種情報が格納される。

管理部５２０は、ＯＳ（Operating System）やミドルウェアなどのプログラムが実行されることで機能する。

音響処理部５２２は、車両Ｍの乗員（例えば、ユーザＵ２）から受け付けた各種音声のうち、問い合わせや要求等に関する情報を認識するのに適した状態になるように、入力された音に対して音響処理を行う。具体的には、音響処理部５２２は、ノイズ除去などの音響処理を行ってよい。

表示制御部５２４は、エージェント機能部５４０からの指示に応じて、表示・操作装置６２０等の出力装置に車両Ｍの乗員からの問い合わせや要求に対する回答結果に関する画像を生成する。回答結果に関する画像とは、例えば、問い合わせや要求等に対する回答結果を示す店舗や施設の一覧リストを示す画像や、各店舗や施設に関する画像、目的地までの走行経路を示す画像、その他レコメンド情報や処理の開始または終了を示す画像等である。また、表示制御部５２４は、エージェント機能部５４０からの指示に応じて、乗員とコミュニケーションを行う擬人化されたキャラクタ画像（以下、エージェント画像と称する）を生成してもよい。エージェント画像は、例えば、乗員に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者（乗員）によって表情や顔向きが認識される程度の顔画像を含んでよい。表示制御部５２４は、生成した画像を表示・操作装置６２０に出力させる。

音声制御部５２６は、エージェント機能部５４０からの指示に応じて、スピーカ６３０に含まれるスピーカのうち一部または全部に音声を出力させる。音声には、例えば、エージェント画像が乗員と対話を行うための音声や、表示制御部５２４により画像を表示・操作装置６２０に出力された画像に対応する音声が含まれる。また、音声制御部５２６は、複数のスピーカ６３０を用いて、エージェント画像の表示位置に対応する位置にエージェント音声の音像を定位させる制御を行ってもよい。エージェント画像の表示位置に対応する位置とは、例えば、エージェント画像がエージェント音声を喋っていると乗員が感じると予測される位置であり、具体的には、エージェント画像の表示位置付近（例えば、２～３［ｃｍ］以内）の位置である。また、音像が定位するとは、例えば、ユーザの左右の耳に伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。

エージェント機能部５４０は、管理部５２０により取得される各種情報に基づいて、情報提供装置１００と協働してエージェント画像等を出現させ、車両Ｍの乗員の発話に応じて、音声による応答を含むサービスを提供する。例えば、エージェント機能部５４０は、音響処理部５２２により処理された音声に含まれる起動ワードに基づいてエージェントを起動したり、終了ワードに基づいてエージェントを終了させたりする。また、エージェント機能部５４０は、音響処理部５２２により処理された音声データを、車載通信装置６７０を介して情報提供装置１００に送信したり、情報提供装置１００から得られる情報を乗員に提供したりする。また、エージェント機能部５４０は、汎用通信装置６８０と連携し、情報提供装置１００と通信する機能を備えていてもよい。この場合、エージェント機能部５４０は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）によって汎用通信装置６８０とペアリングを行い、エージェント機能部５４０と汎用通信装置６８０とを接続させる。また、エージェント機能部５４０は、ＵＳＢ（Universal Serial Bus）などを利用した有線通信によって汎用通信装置６８０に接続されるようにしてもよい。

［情報処理装置の処理フロー］
次に、情報提供装置１００による一連の処理の流れについてフローチャートを用いて説明する。図９及び１０は、実施形態の情報提供装置１００による一連の処理の流れを表すフローチャートである。

まず、取得部１０６は、通信部１０２を介して、通信端末３００またはエージェント装置５００から、複数のユーザの発話及び行動履歴を取得する（ステップＳ１００）。取得部１０６は、ユーザの発話及び行動履歴を取得すると、それらを発話履歴情報１３４及び行動履歴情報１３６として記憶部１３０に記憶させる。

次に、音声認識部１０８は、音声認識により複数のユーザのそれぞれの発話からテキストデータを生成する（ステップＳ１０２）。通信端末３００またはエージェント装置５００において既に発話がテキスト化されていた場合、つまり、取得部１０６によって取得されたユーザの発話がテキストデータであった場合、Ｓ１０２の処理は省略されてよい。

次に、自然言語処理部１１０は、音声認識部１０８によって生成された各ユーザの発話のテキストデータの中から、一人の対象ユーザの発話由来のテキストデータを選択し、その選択したテキストデータから固有表現を抽出する（ステップＳ１０４）。つまり、自然言語処理部１１０は、不特定多数のユーザの中から対象ユーザを選択し、その対象ユーザの発話から固有表現を抽出する。

次に、判定部１１２は、複数のユーザの行動履歴に基づいて、それら複数のユーザが訪れた地点の中に訪問回数が急増した地点が存在するか否かを判定する（ステップＳ１０６）。

図１１は、訪問回数が急増した地点とそうでない地点とを説明するための図である。図示の例では、地図上に観光地のような３つの候補地Ｘ１～Ｘ３が存在している。例えば、候補地Ｘ１では、訪問数が急増しており、ユーザの訪問回数が閾値以上、又はユーザの訪問回数の所定期間あたりの増加率が閾値以上となっている。一方、候補地Ｘ２やＸ３では、訪問数に変動がなく、ユーザの訪問回数が閾値未満、又はユーザの訪問回数の所定期間あたりの増加率が閾値未満となっている。このような場合、判定部１１２は、候補地Ｘ１が訪問回数が急増した地点であり、候補地Ｘ２やＸ３が訪問回数が急増していない地点であると判定する。

また、判定部１１２は、観光地のような人が集まりやすい地点でなくとも、ユーザの訪問回数が閾値以上、又はユーザの訪問回数の所定期間あたりの増加率が閾値以上の地点を、訪問回数が急増した地点として判定してよい。例えば、判定部１１２は、不特定多数のユーザの位置情報を参照し、とある地点に多数のユーザが集まっており、その地点におけるユーザの訪問回数が閾値以上、又はその増加率が閾値以上である場合には、当該地点を訪問回数が急増した地点として判定してよい。つまり、何らかの理由によって多数のユーザを感化させている地点が存在する場合、その地点が訪問回数が急増した地点として判定される。

図９及び１０のフローチャートの説明に戻る。次に、判定部１１２は、対象ユーザが訪問回数が急増した地点を実際に訪問したか否かを判定する（ステップＳ１０８）。

例えば、判定部１１２は、地図上において、対象ユーザの位置座標と、訪問回数が急増した地点を訪問した他のユーザの位置座標とを比較し、それらユーザ同士の位置座標が同じ場合、対象ユーザが訪問回数が急増した地点を訪問したと判定してよい。また、訪問回数が急増した地点として判定された施設（例えば商業ビルや駐車場）内において無料Ｗｉ－Ｆｉなどの通信サービスが提供されており、そこで対象ユーザと他のユーザとが共にその通信サービスを利用したとする。この場合、対象ユーザ及び他のユーザのそれぞれの位置情報には、Ｗｉ－Ｆｉのアクセスポイントの位置情報が含まれる。従って、判定部１１２は、対象ユーザ及び他のユーザのそれぞれの位置情報の中に共通のアクセスポイントの位置情報が含まれる場合、対象ユーザが訪問回数が急増した地点を訪問したと判定してよい。

ユーザベクトル生成部１１４は、対象ユーザが訪問回数が急増した地点を訪問したと判定部１１２によって判定された場合、「訪問した」ということを表す対象ユーザの行動ベクトルを生成する（ステップＳ１１０）。

一方、ユーザベクトル生成部１１４は、訪問回数が急増した地点が存在しない、又は対象ユーザが訪問回数が急増した地点を訪問していないと判定部１１２によって判定された場合、「訪問していない」ということを表す対象ユーザの行動ベクトルを生成する（ステップＳ１１２）。

例えば、ユーザベクトル生成部１１４は、「訪問した」ということを「１」とし、「訪問していない」ということを「０」とした一次元のベクトル（スカラ）を行動ベクトルとして生成してよい。また、ユーザベクトル生成部１１４は、対象ユーザが何度も繰り返し訪問回数が急増した地点を訪問している場合、訪問回数Ｎを要素とした行動ベクトルを生成してもよい。

次に、ユーザベクトル生成部１１４は、対象ユーザの発話から抽出された固有表現がベクトル化された発話ベクトルと、対象ユーザの行動ベクトルとを組み合わせて、対象ユーザのユーザベクトルを生成する（ステップＳ１１４）。例えば、発話ベクトルが１０次元であり、行動ベクトルが１次元である場合、ユーザベクトルは１１次元のベクトルとなる。ユーザベクトルは、対象ユーザのユーザＩＤ等に対応付けられてよい。

次に、自然言語処理部１１０は、発話及び行動履歴が取得された全ユーザについてユーザベクトルが生成されたか否かを判定する（ステップＳ１１６）。全ユーザについてユーザベクトルが生成されていない場合、自然言語処理部１１０は、Ｓ１０４に処理を戻し、前回対象ユーザとして選択したユーザと異なる他のユーザを新たな対象ユーザとして選択し直し、その新たな対象ユーザの発話から固有表現を抽出する。以降、新たな対象ユーザに関してＳ１０６からＳ１１４の処理が行われ、新たな対象ユーザのユーザベクトルが生成される。このようにしてユーザベクトルが繰り返し生成される。

一方、全ユーザについてユーザベクトルが生成された場合、解析部１１６は、それら複数のユーザベクトルのそれぞれの次元を圧縮する（ステップＳ１１８）。例えば、解析部１１６は、ユーザベクトルが１１次元である場合、１０次元又はそれ以下まで圧縮する（ベクトルの要素数を減らす）。

次に、解析部１１６は、次元を圧縮した複数のユーザベクトルのクラスタリングを行い、発話内容や訪問地点といった特徴が類似するユーザ同士を同一のクラスタに分類する（ステップＳ１２０）。

次に、収集部１１８は、クラスタリングによって生成されたクラスタごとに、そのクラスタに属するユーザの発話から抽出された固有表現の共起表現を収集する（ステップＳ１２２）。

図１２は、ユーザベクトルのクラスタリング結果の一例を表す図である。図示の例では、複数のユーザベクトルが、Ａ、Ｂ、Ｃの３つのクラスタに分類されている。この場合、収集部１１８は、クラスタＡにユーザベクトルが属するユーザ（以下、ユーザ群Ａという）の固有表現に対する共起表現をウェブサイトなどから収集する。クラスタＡ、Ｂ、Ｃのうちいずれか一つは「特定クラスタ」の一例である。

同様に、収集部１１８は、クラスタＢにユーザベクトルが属するユーザ（以下、ユーザ群Ｂという）の固有表現に対する共起表現と、クラスタＣにユーザベクトルが属するユーザ（以下、ユーザ群Ｃという）の固有表現に対する共起表現とを、ウェブサイトなどから収集する。

例えば、ユーザ群Ａでは、「ＡＢＣＤＥＦ」という飲食店の言い回しである「ＡＢＣ」が頻繁に発話されていたとする。この場合、収集部１１８は、ウェブページなどにおいて「ＡＢＣ」という表現とともに出現しやすい表現を、ユーザ群Ａの共起表現として収集する。一方、ユーザ群Ｂでは、「ＡＢＣＤＥＦ」という飲食店の言い回しである「ＤＥＦ」が頻繁に発話されていたとする。この場合、収集部１１８は、ウェブページなどにおいて「ＤＥＦ」という表現とともに出現しやすい表現を、ユーザ群Ｂの共起表現として収集する。

図９及び１０のフローチャートの説明に戻る。次に、辞書生成部１２０は、クラスタリングによって生成されたクラスタごとに、音声認識のためのＡＳＲ辞書や自然言語理解のためのＮＬＵ辞書を含む情報処理辞書を生成する（ステップＳ１２４）。

図１３は、情報処理辞書の生成方法を説明するための図である。図示のように、辞書生成部１２０は、クラスタＡについて、ユーザ群Ａの固有表現や共起表現が互いに対応付けられた情報処理辞書ＤＩＣＴ＿Ａを生成してよい。同様に、辞書生成部１２０は、クラスタＢについて、ユーザ群Ｂの固有表現や共起表現が互いに対応付けられた情報処理辞書ＤＩＣＴ＿Ｂを生成し、クラスタＣについて、ユーザ群Ｃの固有表現や共起表現が互いに対応付けられた情報処理辞書ＤＩＣＴ＿Ｃを生成してよい。このように、辞書生成部１２０は、クラスタごとに情報処理辞書を生成する。

図９及び１０のフローチャートの説明に戻る。次に、辞書生成部１２０は、通信端末３００又はエージェント装置５００の各記憶装置の中に既存辞書が存在するか否かを判定するか否かを判定する（ステップＳ１２６）。既存辞書とは、例えば、携帯電話やパーソナルコンピュータなどにおいて利用される文字の予測変換機能や入力予測機能（サジェスト機能）を実現するための各種辞書である。

辞書生成部１２０は、既存辞書が存在すると判定した場合、情報処理辞書と既存辞書とを組み合わせた新情報処理辞書を生成する（ステップＳ１２８）。新情報処理辞書には、音声認識のためのＡＳＲ辞書及び／又は自然言語理解のためのＮＬＵ辞書に加えて、更に既存辞書が含まれる。新情報処理辞書は「新辞書」の一例である。

次に、検証部１２２は、辞書生成部１２０によって生成された情報処理辞書（新情報処理辞書を含む）の精度を検証する（ステップＳ１３０）。例えば、検証部１２２は、ユーザ群Ａの発話に基づいて、クラスタＡの情報処理辞書の精度を検証する。より具体的には、検証部１２２は、ユーザ群Ａ（クラスタＡにユーザベクトルが所属するユーザ）における発話頻度に対するカバレッジ（被覆率）とユーザに対するカバレッジとが、予め設定された閾値以上である場合、クラスタＡの情報処理辞書の精度が閾値以上であると判定する。同様に、検証部１２２は、ユーザ群Ｂの発話に基づいて、クラスタＢの情報処理辞書の精度を検証し、ユーザ群Ｃの発話に基づいて、クラスタＣの情報処理辞書の精度を検証する。

次に、提供部１２４は、情報処理辞書の精度が閾値以上である場合、その情報処理辞書の利用案内情報を、通信端末３００又はエージェント装置５００に提供する（ステップＳ１３２）。これによって本フローチャートの処理が終了する。

図１４は、情報処理辞書の利用案内情報が提供される場面を模式的に表す図である。図中のＵ３は、クラスタリングの特徴空間上において、ユーザベクトルがクラスタＡに近いユーザである。つまり、ユーザＵ３は、ユーザ群Ａと発話内容や行動履歴といった特徴が類似しているユーザである。このようなユーザＵ３には、例えば、ユーザ群Ａの固有表現や共起表現を含む情報処理辞書ＤＩＣＴ＿Ａと既存辞書ＤＩＣＴ＿Ｘとの組み合わせである新情報処理辞書ＤＩＣＴ＿ＮＥＷを音声ユーザインターフェース上において設定するよう推奨される。例えば、ユーザＵ３が、音声ユーザインターフェース上において、推奨された新情報処理辞書ＤＩＣＴ＿ＮＥＷの利用を設定したとする。この場合、音声ユーザインターフェースは、新情報処理辞書ＤＩＣＴ＿ＮＥＷの利用が許可された旨の情報を情報提供装置１００に送信する。情報提供装置１００は、この許可情報を受けると、ユーザＵ３によって許可された新情報処理辞書ＤＩＣＴ＿ＮＥＷを用いて、ユーザＵ３の発話に対して音声認識を行ったり、認識した音声の意味を解釈したりする。これによって、ユーザＵ３が日常的に使用している固有表現の言い回しの意味を解釈できるようになり、その言い回しの問い合わせや要求に対して適切な回答を提供することができる。この結果、ユーザが親しみをもって音声ユーザインターフェースを利用することができる。

以上説明した実施形態によれば、情報提供装置１００は、複数のユーザの発話をテキスト化し、そのテキストデータから固有表現を抽出する。情報提供装置１００は、複数のユーザのそれぞれの行動履歴に基づいて、各々のユーザが訪問回数が急増した地点を訪問したか否かを判定する。情報提供装置１００は、各ユーザのテキストデータから抽出した固有表現をベクトル化した発話ベクトルと、訪問回数が急増した地点への各ユーザによる訪問の有無やその回数の結果をベクトル化した行動ベクトルとを組み合わせて、各ユーザのユーザベクトルを生成する。情報提供装置１００は、ユーザベクトルが生成された複数のユーザのクラスタリングを行い、発話内容や訪問地点といった特徴が類似するユーザ同士を同一のクラスタに分類する。情報提供装置１００は、クラスタリングによって生成されたクラスタごとに、音声認識のためのＡＳＲ辞書や自然言語理解のためのＮＬＵ辞書を含む情報処理辞書を生成する。そして、情報提供装置１００は、複数のクラスタのうち、例えばクラスタＡのユーザに、そのクラスタＡに対応した情報処理辞書の利用案内情報を提供する。

これによって、地域や年齢、流行などに応じて変化し得る発話の多様性に対応することができる。この結果、音声ユーザインターフェースのユーザビリティが向上し、例えば、ユーザが親しみのある言い回しなどを用いて音声ユーザインターフェースを利用することができる。また、辞書に登録された言葉が廃れてしまったり、或いは辞書に登録されていない新たな言葉が流行り出したりしても、その辞書を自動的に更新することができる。

上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶したメモリと、
プロセッサと、を備え、
前記プロセッサが前記プログラムを実行することにより、
複数の対象ユーザのそれぞれの発話から固有表現を抽出し、
前記対象ユーザの行動履歴に基づいて、訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定し、
前記抽出した固有表現と、前記判定した結果とを組み合わせた多次元の特徴量を、前記対象ユーザごとに生成し、
前記特徴量を生成した前記複数の対象ユーザのクラスタリングを行い、
前記クラスタリングによって生成したクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成する、
ように構成されている、情報処理装置。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…情報提供システム、１００…情報提供装置、１０２…通信部、１０４…認証部、１０６…取得部、１０８…音声認識部、１１０…自然言語処理部、１１２…判定部、１１４…ユーザベクトル生成部、１１６…解析部、１１８…収集部、１２０…辞書生成部、１２２…検証部、１２４…提供部、１３０…記憶部、３００…通信端末、３１０…端末側通信部、３２０…入力部、３３０…ディスプレイ、３４０、６３０…スピーカ、３５０、６１０…マイク、３５５…位置取得部、３６０…カメラ、３７０…アプリ実行部、３８０…出力制御部、３９０…端末側記憶部、５００…エージェント装置、５２０…管理部、５４０…エージェント機能部、５６０…車両側記憶部、６２０…表示・操作装置、６４０…ナビゲーション装置６４０…ＭＰＵ、６６０…車両機器、６７０…車載通信装置、６８０…汎用通信装置、６９０…乗員認識装置、７００…自動運転制御装置、Ｍ…車両

Claims

複数の対象ユーザのそれぞれの発話から固有表現を抽出する抽出部と、
前記対象ユーザの行動履歴に基づいて、他のユーザによる訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定する判定部と、
前記抽出部によって抽出された前記固有表現と、前記判定部による判定結果とを組み合わせた特徴量を、前記対象ユーザごとに生成する第１生成部と、
前記第１生成部によって前記特徴量が生成された前記複数の対象ユーザのクラスタリングを行う解析部と、
前記クラスタリングによって生成されたクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成する第２生成部と、
を備える情報処理装置。
前記特定地点は、前記他のユーザによって訪問された回数が閾値以上の地点、又は前記他のユーザによって訪問された回数の所定期間あたりの増加率が閾値以上の地点である、
請求項１に記載の情報処理装置。
前記クラスタに属する前記対象ユーザの発話から抽出された前記固有表現の共起表現を、前記クラスタごとに収集する収集部を更に備え、
前記第２生成部は、前記クラスタごとに、前記収集部によって収集された前記共起表現を含む前記辞書を生成する、
請求項１又は２に記載の情報処理装置。
複数の前記クラスタのうちの特定クラスタに属する前記対象ユーザに、複数の前記辞書のうちの前記特定クラスタに対応した前記辞書の利用案内情報を提供する提供部を更に備える、
請求項１から３のうちいずれか一項に記載の情報処理装置。
前記第２生成部は、前記クラスタごとに生成した前記辞書と既存辞書とを組み合わせた新辞書を生成し、
前記提供部は、前記特定クラスタに属する前記対象ユーザに、前記特定クラスタに対応した前記辞書と前記既存辞書とが組み合わされた前記新辞書の利用案内情報を提供する、
請求項４に記載の情報処理装置。
所定のユーザの集団内における前記対象ユーザの発話に基づいて、前記辞書を検証する検証部を更に備える、
請求項１から５のうちいずれか一項に記載の情報処理装置。
前記第１生成部は、前記固有表現に基づく第１特徴量と、前記判定部による判定結果に基づく第２特徴量との組み合わせを、前記特徴量として生成する、
請求項１から６のうちいずれか一項に記載の情報処理装置。
前記第２特徴量には、前記特定地点への訪問の有無と、前記特定地点への訪問の回数とのうち一方又は双方を表す特徴量が含まれる、
請求項７に記載の情報処理装置。
前記固有表現には、地名又は標章の言い回しが含まれる、
請求項１から８のうちいずれか一項に記載の情報処理装置。
コンピュータが、
複数の対象ユーザのそれぞれの発話から固有表現を抽出し、
前記対象ユーザの行動履歴に基づいて、他のユーザによる訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定し、
前記抽出した固有表現と、前記判定した結果とを組み合わせた特徴量を、前記対象ユーザごとに生成し、
前記特徴量を生成した前記複数の対象ユーザのクラスタリングを行い、
前記クラスタリングによって生成したクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成する、
情報処理方法。
コンピュータに、
複数の対象ユーザのそれぞれの発話から固有表現を抽出すること、
前記対象ユーザの行動履歴に基づいて、他のユーザによる訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定すること、
前記抽出した固有表現と、前記判定した結果とを組み合わせた特徴量を、前記対象ユーザごとに生成すること、
前記特徴量を生成した前記複数の対象ユーザのクラスタリングを行うこと、
前記クラスタリングによって生成したクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成すること、
を実行させるためのプログラム。