JP2013238499A

JP2013238499A - 応答生成装置、応答生成方法および応答生成プログラム

Info

Publication number: JP2013238499A
Application number: JP2012111966A
Authority: JP
Inventors: Miharu Nagata; 美晴永田; Yoshikatsu Funasaka; 吉克舩坂; Tomomi Ichiyanagi; 友美一柳; Futoshi Iwasebari; 太士岩瀬張; Tetsuya Mizukami; 哲也水上
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2012-05-15
Filing date: 2012-05-15
Publication date: 2013-11-28
Anticipated expiration: 2032-05-15
Also published as: JP5461615B2

Abstract

【課題】ユーザの要望に合致した、より適切な応答を生成することを課題とする。
【解決手段】第１の実施形態に係る応答生成サーバ１０は、ユーザが発話した情報である発話情報と、ユーザ端末２０が保持する位置情報とを取得し、取得された発話情報に位置を特定可能な情報が含まれる場合には、該情報から特定される位置と取得された位置情報にかかる位置との距離を算出し、算出された距離に応じて、応答情報を生成する。これにより、応答生成サーバ１０は、ユーザ端末２０の現在位置とユーザが目標とする位置との距離に応じて、質問に対する応答メッセージやサービスの検索結果の応答内容を変化させることができる。
【選択図】図１

Description

本発明は、応答生成装置、応答生成方法および応答生成プログラムに関する。

従来、ユーザからの発話を受け付けたユーザ端末から音声に関するデータを受信し、音声に関するデータを用いてユーザが要求する情報を特定し、ユーザの発話に対する応答を生成する応答生成サーバが知られている。例えば、応答生成サーバは、ユーザからの目的地への行き方に関する質問の音声データをユーザ端末から受け付けると、現在地から目的地までの経路を応答情報として生成する方法が知られている。

特開平１０−１９７２７７号公報特開２００８−２３４４２７号公報

しかしながら、上記の従来技術では、ユーザの要望に合致した、適切な応答情報を生成することができない場合があるという課題があった。例えば、現在地と目的地が近いような場合には、経路を示すことがユーザにとって必ずしも適切な応答とはいえず、ユーザの要望に合致した、適切な応答情報を生成することができない場合があった。

本願は、上記に鑑みてなされたものであって、ユーザの要望に合致した、より適切な応答情報を生成することを目的とする。

本願に係る応答生成装置は、ユーザが発話した情報である発話情報と、ユーザ端末が保持する位置情報とを取得する取得手段と、前記取得手段によって取得された発話情報に位置を特定可能な情報が含まれる場合には、該情報から特定される位置と前記取得手段によって取得された位置情報にかかる位置との距離を算出する算出手段と、前記算出手段によって算出された距離に応じて、応答情報を生成する生成手段と、を備えることを特徴とする。

本願に係る応答生成装置、応答生成方法および応答生成プログラムは、ユーザの要望に合致した、より適切な応答情報を生成することができるという効果を奏する。

図１は、第１の実施形態に係るネットワークシステムの構成例を示す図である。図２は、第１の実施形態に係る応答生成サーバの構成例を示す図である。図３は、ｆ第１の実施形態に係る応答生成サーバの記憶部によって記憶される質問応答対応表データの一例を示す図である。図４は、第１の実施形態に係るユーザ端末の構成例を示す図である。図５は、第１の実施形態に係るネットワークシステムによる処理の手順を示すシーケンス図である。図６は、第１の実施形態に係る応答生成サーバによる処理の手順を示すフローチャートである。図７は、第１の実施形態に係るユーザ端末の応答画像の一例を説明するための図である。

以下に、本願に係る応答生成装置、応答生成方法および応答生成プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る応答生成装置、応答生成方法および応答生成プログラムが限定されるものではない。

（第１の実施形態）
図１〜図７を用いて、本願に係る応答生成装置、応答生成方法および応答生成プログラムの第１の実施形態について説明する。

〔１−１．構成〕
まず、図１を用いて、第１の実施形態に係る応答生成サーバが含まれるネットワークシステムの構成について説明する。図１は、第１の実施形態に係るネットワークシステムの構成例を示す図である。図１に例示するように、第１の実施形態に係るネットワークシステムには、応答生成サーバ１０と、ユーザ端末２０と、音声認識サーバ３０と、路線ＡＰＩ（Application Program Interface）サーバ４１、天気ＡＰＩサーバ４２と、Ｗｅｂ検索ＡＰＩサーバ４３と、音声合成サーバ５０とが含まれる。

応答生成サーバ１０と、ユーザ端末２０と、音声認識サーバ３０と、路線ＡＰＩサーバ４１、天気ＡＰＩサーバ４２と、Ｗｅｂ検索ＡＰＩサーバ４３と、音声合成サーバ５０とは、ネットワーク６０を介して、無線通信又は有線通信を行う。なお、以下の説明では、路線ＡＰＩサーバ４１、天気ＡＰＩサーバ４２と、Ｗｅｂ検索ＡＰＩサーバ４３を区別する必要がない場合には、これらを総称して「ＡＰＩサーバ４０」と表記する場合がある。また、路線ＡＰＩサーバ４１、天気ＡＰＩサーバ４２、Ｗｅｂ検索ＡＰＩサーバ４３は、ＡＰＩサーバの一例であり、これらに限定されない。

〔１−１（１）．応答生成サーバ１０の構成〕
次に、図２を用いて、応答生成サーバ１０の構成について説明する。図２は、第１の実施形態に係る応答生成サーバの構成例を示す図である。応答生成サーバ１０は、ユーザ端末２０によって送信される発話のテキストデータと、ユーザ端末２０が保持する情報（例えば、現在位置を示す位置情報など）とに応じて、ユーザの発話に対する応答生成情報をユーザ端末２０に送信するコンピュータである。応答生成サーバ１０は、通信部１１と、制御部１２と、記憶部１３とを有する。なお、以下の説明では、応答生成サーバ１０が、ＡＰＩサーバ４０からＸＭＬ（Extensible Markup Language）形式のデータを取得する場合を例にして説明するが、これに限定されるものではなく、例えば、ＪＳＯＮ（Java（登録商標） Script Object Notation）形式のデータやＰＨＰ（Personal Home Page）シリアライズ形式のデータをＡＰＩサーバ４０から取得するようにしてもよい。

通信部１１は、ネットワーク６０を介してユーザ端末２０、ＡＰＩサーバ４０および音声合成サーバ５０との間で各種データを送受信する。通信部１１０は、例えば、ＮＩＣ等に該当する。

記憶部１３は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置である。記憶部１３は、図３に例示する質問応答対応表データを記憶する。ここで、質問応答対応表データとは、現在地から目的地までの距離や質問の内容に対応付けて、応答するメッセージの内容や実行するサービス（アクセス先ＡＰＩサーバ）を記憶する。図３は、第１の実施形態に係る応答生成サーバの記憶部によって記憶される質問応答対応表データの一例を示す図である。

例えば、図３に例示するように、記憶部１３は、質問応答対応表データとして、ユーザが発話した質問の内容である「質問内容」と、現在地から目的地との距離を示す「距離」と、ユーザの質問に対するサービスを実現するためのアクセス先ＡＰＩサーバを示す「サービス」と、ユーザからの質問に対する応答メッセージの内容である「応答」とが対応付けて記憶されている。

例えば、図３の質問応答対応表データに示すように、ユーザが発話した質問文（テキストデータ）に「東京スカイツリーって」が含まれており、且つ、「現在地から東京タワー（緯度：３５．６５８６１、経度：１３９．７４５４４７）から１ｋｍ圏内」である場合には、サービスを提供するための情報を取得するためのアクセス先を「ｗｅｂ検索ＡＰＩ」に決定し、アクセス先ＡＰＩサーバから取得した検索結果を応答情報に含めるとともに、「あなたの近くにあるのは東京タワーです。東京スカイツリーの検索結果はこちらです」というメッセージを応答情報に含める。

また、図３の質問応答対応表データに示すように、ユーザが発話した質問文（テキストデータ）に「東京スカイツリーの場所」、「東京スカイツリーはどこ」、「東京スカイツリーはどっち」、「東京スカイツリー、どこ」または「東京スカイツリーはどのへん」のいずれかが含まれている場合であって、且つ、「現在地が東京スカイツリーから１ｋｍ以内」である場合には、サービスを提供するための情報を取得するためのアクセス先を「地図ＡＰＩ」に決定し、アクセス先ＡＰＩサーバから取得した地図情報を応答情報に含めるとともに、「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。詳しい地図はこちらです。」というメッセージを応答情報に含める。

また、図３の質問応答対応表データに示すように、ユーザが発話した質問文（テキストデータ）に「東京スカイツリーの場所」、「東京スカイツリーはどこ」、「東京スカイツリーはどっち」、「東京スカイツリー、どこ」または「東京スカイツリーはどのへん」のいずれかが含まれている場合であって、且つ、「現在地が東京スカイツリーから３ｋｍ以内」である場合には、サービスを提供するための情報を取得するためのアクセス先を「地図ＡＰＩ」に決定し、アクセス先ＡＰＩサーバから取得した地図情報を応答情報に含めるとともに、「○のほうにあります。詳しい地図はこちらです。」というメッセージを応答情報に含める。なお、「○」には、現在地から目的地の方角として、北、南、西、東のいずれかが入る。この現在地から目的地の方角については、現在地と目的地との位置関係から応答生成サーバ１０が特定する。

また、図３の質問応答対応表データに示すように、ユーザが発話した質問文（テキストデータ）に「東京スカイツリーの場所」、「東京スカイツリーはどこ」、「東京スカイツリーはどっち」、「東京スカイツリー、どこ」または「東京スカイツリーはどのへん」のいずれかが含まれている場合であって、且つ、「現在地が東京スカイツリーから３ｋｍを超える」場合には、サービスを提供するための情報を取得するためのアクセス先を「地図ＡＰＩ」に決定し、アクセス先ＡＰＩサーバから取得した地図情報を応答情報に含めるとともに、「詳しい地図はこちらです。」というメッセージを応答情報に含める。

また、図３の質問応答対応表データに示すように、ユーザが発話した質問文（テキストデータ）に「東京スカイツリーが見たい」、「東京スカイツリーを見たい」、「東京スカイツリー、見たい」、「東京スカイツリーが見てみたい」または「東京スカイツリーを見てみたい」のいずれかが含まれている場合であって、且つ、「現在地が東京スカイツリーから１ｋｍ以内」である場合には、サービスを提供するための情報を取得するためのアクセス先を「地図ＡＰＩ」に決定し、アクセス先ＡＰＩサーバから取得した地図情報を応答情報に含めるとともに、「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。詳しい地図はこちらです。」というメッセージを応答情報に含める。

また、図３の質問応答対応表データに示すように、ユーザが発話した質問文（テキストデータ）に「東京スカイツリーが見たい」、「東京スカイツリーを見たい」、「東京スカイツリー、見たい」、「東京スカイツリーが見てみたい」または「東京スカイツリーを見てみたい」のいずれかが含まれている場合であって、且つ、「現在地が東京スカイツリーから５ｋｍ以内」である場合には、サービスを提供するための情報を取得するためのアクセス先を「地図ＡＰＩ」に決定し、アクセス先ＡＰＩサーバから取得した地図情報を応答情報に含めるとともに、○のほうにあります。詳しい地図はこちらです。」というメッセージを応答情報に含める。なお、ここで、上記したように、「○」には、現在地から目的地の方角として、北、南、西、東のいずれかが入る。

また、図３の質問応答対応表データに示すように、ユーザが発話した質問文（テキストデータ）に「東京スカイツリーが見たい」、「東京スカイツリーを見たい」、「東京スカイツリー、見たい」、「東京スカイツリーが見てみたい」または「東京スカイツリーを見てみたい」のいずれかが含まれている場合であって、且つ、「現在地が東京スカイツリーから５ｋｍを超える」場合には、サービスを提供するための情報を取得するためのアクセス先を「画像ＡＰＩ」に決定し、アクセス先ＡＰＩサーバから取得した画像検索結果を応答情報に含めるとともに、「画像検索結果はこちらです。」というメッセージを応答情報に含める。

図２に戻って、制御部１２は、ユーザが今回発話したテキストデータと、ユーザ端末２０が保持する情報（位置情報や対話履歴、利用履歴等）とを取得し、取得されたテキストデータに位置を特定可能な情報が含まれる場合には、該情報から特定される位置と位置情報にかかる位置との距離を算出し、算出された距離に応じて、応答情報を生成する。

制御部１２は、例えば、ＣＰＵやＭＰＵ等により実現され、記憶部１３に予め記憶されているコンピュータプログラムを実行することにより、取得部１２ａ、算出部１２ｂ、要求生成部１２ｃ、変換部１２ｄ、音声合成指示部１２ｅ、応答生成部１２ｆによる処理を実現する。

なお、応答生成サーバ１０が有する各処理部は、以下に説明する情報処理の機能や作用を実現又は実行する。

〔１−１（２）．ユーザ端末２０の構成〕
次に、図４を用いて、ユーザ端末２０の構成について説明する。図４は、第１の実施形態に係るユーザ端末２０の構成例を示す図である。図４に示すように、ユーザ端末２０は、携帯電話機、スマートフォン、ＰＤＡ（Personal Digital Assistant）、タブレット型ＰＣ、ノート型ＰＣ、デスクトップ型ＰＣ等の情報処理装置である。ユーザ端末２０は、図４に例示するように、通信部２１と、マイク２２と、スピーカ２３と、表示部２４と、アプリ２５と、メモリ２６とを有する。

通信部２１は、ネットワーク６０を介して応答生成サーバ１０および音声認識サーバ３０との間で各種データを送受信する。通信部２１は、例えば、携帯端末やスマートフォンの場合には、アンテナや通信制御を行う電子回路等である。例えば、ユーザ端末２０がノート型ＰＣやデスクトップ型ＰＣである場合には、ＮＩＣ（Network Interface Card）等に該当する。通信部２１は、例えば、ユーザ端末２０がタブレット型ＰＣである場合には、アンテナや通信制御を行う電子回路等である。

マイク２２は、ユーザ端末２０の利用者が発話した音声入力を受け付ける入力デバイスである。スピーカ２３は、ユーザ端末２０の利用者が発話した音声入力に対する応答音声を出力する出力デバイスである。また、表示部２４は、各種情報を表示する表示デバイスであり、例えばタッチパネルや液晶ディスプレイ等である。表示部２４は、例えば、応答発話表示用のテキストデータと発話意図に応じてＨＴＭＬデータとを表示する。

アプリ２５は、利用者が発話した音声入力を受け付けると、音声データを音声認識サーバ３０に送信し、音声認識サーバ３０から発話のテキストデータを受信する。また、アプリ２５は、発話のテキストデータや過去の発話情報を応答生成サーバ１０に送信し、応答生成サーバ１０からＨＴＭＬ（Hyper Text Markup Language）等の言語で記述されたデータ、応答発話用の中間表記および応答発話表示用のテキストデータなどを受信する。また、アプリ２５は、ユーザ端末２０の利用者が発話した音声入力に対する応答音声を出力したり、ＨＴＭＬ等の言語で記述されたデータを表示したりする。アプリ２５は、ＣＰＵやＭＰＵ等により実現され、音声データ送信部２５ａ、テキストデータ受信部２５ｂ、テキストデータ送信部２５ｃ、ＨＴＭＬデータ受信部２５ｄ、表示制御部２５ｅによる処理を実現する。

メモリ２６は、履歴記憶部２６ａおよび位置情報記憶部２６ｂを有する。メモリ２６は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子等の記憶装置である。履歴記憶部２６ａは、発話のテキストデータとともに送信される、過去の発話に関する履歴情報を記憶する。位置情報記憶部２６ｂは、発話のテキストデータとともに送信される、ユーザ端末１０の現在位置を示す位置情報を記憶する。なお、メモリ２６は、履歴情報や位置情報のほかに、データの閲覧や検索の利用履歴に関する利用履歴情報やユーザの自宅の住所などの個人情報を記憶していてもよい。これらの情報は、位置情報と同様に、発話のテキストデータとともに応答生成サーバ１０に送信してもよい。

なお、ユーザ端末２０が有する各処理部は、以下に説明する情報処理の機能や作用を実現又は実行する。

〔１−２（１）．作用（ネットワークシステム）〕
次に、図５を用いて、第１の実施形態に係るネットワークシステムによる全体の処理手順について説明する。図５は、第１の実施形態に係るネットワークシステムによる処理の手順を示すシーケンス図である。図５に例示するように、ユーザ端末２０は、アプリケーションの起動指示を受け付けると、アプリケーションを起動する（ステップＳ１）。そして、ユーザ端末２０の音声データ送信部２５ａは、ユーザの発話を検知すると、発話の音声データをｓｏｃｋｅｔ通信により音声認識サーバ３０へ送信する（ステップＳ２）。例えば、ユーザ端末２０の音声データ送信部２５ａは、発話の音声データとして、位置を特定可能な情報が含まれる「とうきょうすかいつりーのばしょはどこですか」を送信する。

そして、音声認識サーバ３０は、発話の音声データを受信すると、音声データをテキストデータに変換する（ステップＳ３）。そして、音声認識サーバ３０は、変換した発話のテキストデータをユーザ端末２０に送信する（ステップＳ４）。例えば、音声認識サーバ３０のテキストデータ送信部２５ｃは、テキストデータとして、位置を特定可能な情報が含まれる「東京スカイツリーの場所はどこですか」を送信する。

続いて、ユーザ端末２０のテキストデータ受信部２５ｂが、音声認識サーバ３０から発話のテキストデータを受信すると、テキストデータ送信部２５ｃは、発話のテキストデータや、過去３回分の発話に関する履歴情報や位置情報等のユーザ端末２０が保持する情報を応答生成サーバ１０に送信する（ステップＳ５）。

続いて、応答生成サーバ１０の取得部１２ａが、発話のテキストデータやユーザ端末２０が保持する位置情報等を受け付けると、算出部１２ｂは、取得手段によって取得された発話のテキストデータに位置を特定可能な情報が含まれる場合には、該情報から特定される位置とユーザ端末２０が保持する位置情報にかかる位置（ユーザ端末２０の現在位置）との距離を算出する。例えば、発話のテキストデータに「東京スカイツリー」が含まれている場合には、東京スカイツリーの位置とユーザ端末２０の現在位置との距離を算出する。

そして、応答生成サーバ１０の要求生成部１２ｃは、応答の生成に必要なデータの検索条件を指定し、ＡＰＩサーバ４０に対してデータの要求を行う（ステップＳ６）。具体的には、応答生成サーバ１０の要求生成部１２ｃは、ユーザからの質問内容と、算出した距離を用いて、今回の発話によりユーザが求めるサービスを特定し、ＡＰＩサーバ４０に対して発話に対する応答を生成するための情報を要求する検索条件を生成し、検索条件をＡＰＩサーバ４０に送信して応答生成に必要なデータを要求する。例えば、応答生成サーバ１０の要求生成部１２ｃは、ユーザから予め登録されている「東京スカイツリーが見たい」などの質問を受け付けた際に、算出した距離が５ｋｍ以内であれば、地図情報を生成するための情報を地図ＡＰＩサーバに対して要求し、応答生成サーバ１０の要求生成部１２ｃは、算出した距離が５ｋｍを超える場合であれば、経路情報を生成するための情報を路線ＡＰＩサーバに対して要求する。また、ユーザが発話した質問の内容が、予め登録された質問の内容と異なるような場合には、質問内容の言語解析とともに、距離とから最適なサービスを特定することができる。このように、質問内容だけでなく、距離を用いることにより、本来ならば応答すべきサービスが複数考えられる場合（例えば、地図情報の提示や経路検索のサービスなどの複数のサービスが候補に挙がる場合）であっても、最適なサービスを特定できる。

続いて、応答生成サーバ１０の要求生成部１２ｃは、検索条件をＡＰＩサーバ４０に送信して応答生成に必要なデータを要求する（ステップＳ７）。そして、ＡＰＩサーバ４０は、受信した検索条件に従って、ＸＭＬデータを取得する処理を行う（ステップＳ８）。例えば、応答生成サーバ１０は、東京スカイツリー周辺の地図情報や、現在地から東京スカイツリーまでの経路情報などを取得する処理を行う。そして、ＡＰＩサーバ４０は、取得したＸＭＬデータを応答生成サーバ１０に送信する（ステップＳ９）。

そして、応答生成サーバ１０の変換部１２ｄは、ＡＰＩサーバ４０からＸＭＬデータを受信すると、予め記憶されたフォーマットに従って、ＸＭＬデータからデータを抽出し、ＸＭＬデータをＨＴＭＬデータに変換する（ステップＳ１０）。例えば、応答生成サーバ１０の変換部１２ｄは、路線検索に関するＸＭＬデータを受信すると、乗り換えに関するフォーマットに従って、ＸＭＬデータから駅名や乗車時間の情報を抽出し、ＸＭＬデータをＨＴＭＬデータに変換する。

続いて、応答生成サーバ１０の音声合成指示部１２ｅは、応答発話表示用のテキストデータを音声合成サーバ５０に送信する（ステップＳ１１）。ここで、応答発話表示用のテキストデータは、上述した質問応答対応表データを参照されて、取得されるデータである。例えば、「東京スカイツリーの場所はどこですか」という質問がユーザから発話された場合に、現在地からスカイツリーから「１ｋｍ」以内であれば、「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。詳しい地図はこちらです。」というメッセージが取得される。そして、応答生成サーバ１０の音声合成指示部１２ｅは、応答発話表示用のテキストデータとして、「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。詳しい地図はこちらです。」を音声合成サーバ５０に送信する。

続いて、音声合成サーバ５０は、応答発話表示用のテキストデータから音声を合成する音声合成処理を行って、応答発話用の中間表記を生成する（ステップＳ１２）。そして、音声合成サーバ５０は、応答発話用の中間表記を応答生成サーバ１０に送信する（ステップＳ１３）。

続いて、応答生成サーバ１０の応答生成部１２ｆは、応答発話用の中間表記と応答発話表示用のテキストデータとＨＴＭＬデータとをユーザ端末２０に送信する（ステップＳ１４）。そして、ユーザ端末２０のＨＴＭＬデータ受信部２５ｄは、受信した応答発話表示用のテキストデータの履歴情報とＨＴＭＬデータの履歴情報とを格納する（ステップＳ１５）。続いて、ユーザ端末２０の表示制御部２５ｅは、応答発話用の中間表記を用いて、応答の音声を出力するとともに、応答発話表示用のテキストデータとＨＴＭＬデータとを用いて、応答内容を表示する（ステップＳ１６）。

〔１−２（２）．作用（応答生成サーバ）〕
次に、図６を用いて、第１の実施形態に係る応答生成サーバ１０による処理手順について説明する。図６は、第１の実施形態に係る応答生成サーバ１０による処理の手順を示すフローチャートである。図６に例示するように、応答生成サーバ１０の取得部１２ａは、ユーザが今回発話したテキストデータ及びユーザ端末２０の現在位置を示す位置情報等を受信したか否かを判定する（ステップＳ１０１）。なお、取得部１２ａは、今回発話されたテキストデータやユーザ端末２０の現在位置を示す位置情報の他にも、ユーザが発話した過去３回分の発話情報、過去にＡＰＩサーバを利用した利用履歴に関する利用履歴などを受信する。

そして、取得部１２ａは、ユーザにより今回発話されたテキストデータ及び位置情報等を受信したと判定すると（ステップＳ１０１肯定）、算出部１２ｂは、テキストデータに含まれる場所と位置情報に示される現在位置との距離を算出する（ステップＳ１０２）。例えば、算出部１２ｂは、テキストデータに「東京スカイツリー」が含まれる場合に、スカイツリーの位置と、ユーザ端末２０の位置情報に示される現在位置との距離を算出する。

続いて、要求生成部１２ｃは、算出した距離等に基づいて、ＡＰＩサーバ４０に発話に対する応答を生成するためのＸＭＬ形式のデータを要求する（ステップＳ１０３）。具体的には、要求生成部１２ｃは、算出した距離が５ｋｍ以内である場合には、ＡＰＩサーバ４０に地図に関するデータを要求し、また、算出した距離が５ｋｍを超える場合には、ＡＰＩサーバ４０に経路に関するデータを要求する。

そして、応答生成サーバ１０の応答生成部１２ｆは、ＡＰＩサーバ４０から受信した、ＸＭＬデータから応答情報を生成する（ステップＳ１０４）。続いて、応答生成サーバ１０は、ＸＭＬデータをＨＴＭＬデータに変換し、音声合成サーバ５０から応答発話用の中間表記を受信した後に、応答発話用の中間表記と応答発話表示用のテキストデータとＨＴＭＬデータとをユーザ端末２０に送信する（ステップＳ１０５）。

その後、ユーザ端末２０の表示制御部２５ｅは、応答発話用の中間表記と応答発話表示用のテキストデータとＨＴＭＬデータとを受信すると、応答発話用の中間表記を用いて、応答の音声を出力するとともに、応答発話表示用のテキストデータとＨＴＭＬデータとを用いて、応答内容を表示する。ここで、図７の例を用いて、ユーザの発話に対してユーザ端末２０の表示部２４に表示される応答画像の一例を説明する。図７は、第１の実施形態に係るユーザ端末２０の応答画像の一例を説明するための図である。

図７の（１）は、上記のステップＳ１０２において算出した距離が「１ｋｍ未満」の場合に表示される応答画像の例であり、図７の（２）は、算出した距離が「１ｋｍ以上５ｋｍ未満」の場合に表示される応答画像の例であり、図７の（３）は、算出した距離が「５ｋｍ以上」または位置情報取得不可の場合に表示される応答画像の例である。また、図７（１）〜（３）の全ての例は、ユーザから「東京スカイツリーが見たい」という発話があった場合において、表示される応答画像の例を示している。

まず、図７（１）の例を用いて説明すると、応答画像の上部に、テキストデータが表示され、テキストデータの下部に地図情報を表示可能な操作部が表示されている。具体的には、図７に例示するように、発話用のテキストデータとして「東京スカイツリーが見たい」が表示されている。また、その下部に、応答発話表示用のテキストデータとして「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。詳しい地図はこちらです」が表示されるとともに、応答発話用の中間表記が用いられて、応答の音声が出力される。そして、その下部に、地図情報を表示可能な操作部が表示されている。なお、図７（１）の例では、地図情報が表示されていないが、操作部をタッチすることで、地図情報が画面上に表示される。このように、現在地から「東京スカイツリー」の位置までの距離が近い場合には、「東京スカイツリー」が目視可能であることから、「東京スカイツリー」が目視可能であることを応答画像に表示するとともに、音声を出力することで、単に地図情報や経路情報を出力するよりも、より自然な対話を実現することができ、ユーザの要望に合致した、より適切な応答情報を生成することが可能となる。

また、図７の（２）の例では、発話用のテキストデータとして「東京スカイツリーが見たい」が表示され、その下部に、応答発話表示用のテキストデータとして「北のほうにあります。詳しい地図はこちらです。」が表示されるとともに、応答発話用の中間表記が用いられて、応答の音声が出力される。そして、その下部に、地図情報を表示可能な操作部が表示されている。なお、図７（２）の例では、地図情報が表示されていないが、操作部をタッチすることで、地図情報が画面上に表示される。このように、現在地から「東京スカイツリー」の位置までの距離が１ｋｍ以上５ｋｍ未満である場合には、「東京スカイツリー」がある方角を見れば東京スカイツリーを確認することが可能であることから、「東京スカイツリー」の方角を応答画像に表示するとともに、音声を出力することで、単に地図情報や経路情報を出力するよりも、より自然な対話を実現することができ、ユーザの要望に合致した、より適切な応答情報を生成することが可能となる。

また、図７の（３）の例では、発話用のテキストデータとして「東京スカイツリーが見たい」が表示され、その下部に、応答発話表示用のテキストデータとして「画像検索結果はこちらです」が表示されるとともに、応答発話用の中間表記が用いられて、応答の音声が出力される。そして、その下部に、東京スカイツリーの画像検索結果が表示可能な操作部が表示されている。なお、図７（３）の例では、画像検索結果が表示されていないが、操作部をタッチすることで、画像検索結果が画面上に表示される。このように、現在地から「東京スカイツリー」の位置までの距離が５ｋｍ以上である場合には、「東京スカイツリー」を目視により確認することが難しいことから、「東京スカイツリー」の画像検索結果を表示することで、ユーザの「東京スカイツリーが見たい」という要望を適切に実現することができる。

〔１−３．効果〕
上述してきたように、第１の実施形態に係る応答生成サーバ１０は、ユーザが発話した情報である発話情報と、ユーザ端末２０が保持する位置情報とを取得し、取得された発話情報に位置を特定可能な情報が含まれる場合には、該情報から特定される位置と取得された位置情報にかかる位置との距離を算出し、算出された距離に応じて、応答情報を生成する。

これにより、応答生成サーバ１０は、ユーザ端末２０の現在位置とユーザが目標とする位置との距離に応じて、質問に対する応答メッセージやサービスの検索結果の応答内容を変化させることができる結果、より自然な対話を実現することができ、ユーザの要望に合致した、より適切な応答情報を生成することが可能となる。

また、第１の実施形態に係る応答生成サーバ１０は、算出された距離が所定の閾値（例えば、５ｋｍ）よりも小さい場合には、地図情報に基づいて応答情報を生成し、算出された距離が所定の閾値（例えば、５ｋｍ）よりも大きい場合には、経路情報に基づいて応答情報を生成する。

これにより、応答生成サーバ１０は、ユーザ端末２０の現在位置とユーザが目標とする位置との距離がある程度近い場合には、地図情報を応答情報として生成して、ユーザに対して現在地から目的地までの位置関係を把握できるようにし、一方、ユーザ端末２０の現在位置とユーザが目標とする位置との距離がある遠い場合には、ユーザに対して目的地までの経路を知らせる。これにより、ユーザの要望に合致した、より適切な応答を生成することが可能となる。

また、第１の実施形態に係る応答生成サーバ１０は、算出された距離が所定の閾値（例えば、１ｋｍ）よりも小さい場合には、目的地が目視可能である旨のメッセージを含む応答情報を生成し、算出された距離が所定の閾値（例えば、１ｋｍ）よりも大きい場合には、目的地の方角に関するメッセージを含む応答情報を生成する。

これにより、応答生成サーバ１０は、目的地が近くにある場合には、辺りを見回すように促すメッセージを応答情報に含め、目的地からある程度距離がある場合には、目的地の方角をユーザに知らせるメッセージを応答情報に含めることができる結果、ユーザの要望に合致した、より適切な応答を生成することが可能となる。

また、第１の実施形態に係る応答生成サーバ１０は、算出された距離とともに、取得された発話情報の内容に応じて、応答情報を生成する。これにより、例えば、ユーザからの発話が「東京スカイツリーが見たい」であって、現在位置がスカイツリーから５ｋｍ以上離れている場合には、ユーザが東京スカイツリーの画像を見たいものと解釈して、東京スカイツリーの画像を応答情報に含めることが出来る。このように、応答生成サーバ１０は、距離に加えて、さらにユーザの発話の内容を加味した応答情報を生成することができる結果、よりユーザの要望に合致した、より適切な応答を生成することが可能となる。

（第２の実施形態）
本願に係る応答生成装置、応答生成方法および応答生成プログラムは、上述した第１の実施形態以外にも種々の異なる形態にて実施されてよい。第２の実施形態では、他の実施形態について説明する。

〔２−１．現在の時刻〕
ところで、上述した第１の実施形態においては、現在地から目的地までの距離に応じて、応答情報を生成する場合を説明したが、実施形態はこれに限定されるものではなく、例えば、現在地から目的地までの距離とともに、現在の時刻に応じて、応答情報を生成するようにしてもよい。

例えば、ユーザが「東京スカイツリーを見たい」と発話した際に、現在の時刻が昼の「１２：００」であって、目的地が近くにある場合には、辺りを見回すように促すメッセージを応答情報に含める。また、現在の時刻が夜中の「２：００」である場合には、目的地が近くにある場合であっても、暗くて見えない旨のメッセージや、イルミネーションにより明るくなっている旨のメッセージを応答情報に含める。

このように、現在地から目的地までの距離に加えて、さらに現在の時刻を加味した応答情報を生成することができる結果、よりユーザの要望に合致した、より適切な応答を生成することが可能となる。

また、質問内容および距離に加え、時間情報に応じて、最適なサービスを特定することが可能である。例えば、ユーザが「東京スカイツリーはどこ？」と質問した場合に、距離が１０ｋｍ以上であれば、地図の提示又は電車の路線検索のいずれのサービスを提供するか判断が難しいこところであるが、時間情報により現在時刻が「深夜２時」で交通機関が営業を終了している場合には、今から車（徒歩）で行く、或いは場所を知りたいことをユーザが求めるサービスと特定することができ、路線検索ではなく、地図情報の提示が応答するサービスとして最適であると特定することが可能となる。

〔２−２．天気〕
ところで、上述した第１の実施形態においては、現在地から目的地までの距離に応じて、応答情報を生成する場合を説明したが、実施形態はこれに限定されるものではなく、例えば、現在地から目的地までの距離とともに、目的地の天気に応じて、応答情報を生成するようにしてもよい。

例えば、ユーザが「東京スカイツリーを見たい」と発話した際に、東京の天気が晴れであって、目的地が近くにある場合には、晴れて東京スカイツリーが良く見える旨のメッセージを応答情報に含める。また、東京の天気が曇りである場合には、目的地が近くにある場合であっても、曇っていて東京スカイツリーが見え難い旨のメッセージを応答情報に含める。

これにより、現在地から目的地までの距離に加えて、さらに目的地の天気を加味した応答情報を生成することができる結果、よりユーザの要望に合致した、より適切な応答を生成することが可能となる。

〔２−３．方言〕
ところで、上述した第１の実施形態においては、現在地から目的地までの距離に応じて、応答情報を生成する場合を説明したが、実施形態はこれに限定されるものではなく、例えば、現在地から目的地までの距離とともに、目的地の方言に応じて、応答情報を生成するようにしてもよい。

例えば、ユーザが「通天閣を見たい」と発話した際に、関西弁のメッセージを応答情報に含める。これにより、現在地から目的地までの距離に加えて、さらに目的地の方言を加味した応答情報を生成することができる結果、ユーザが目的地に対する興味を惹かれる応答を生成することが可能となる。

〔２−４．履歴情報〕
ところで、上述した第１の実施形態においては、現在地から目的地までの距離に応じて、応答情報を生成する場合を説明したが、実施形態はこれに限定されるものではなく、例えば、現在地から目的地までの距離とともに、ユーザ端末が保持する履歴情報に応じて、応答情報を生成するようにしてもよい。

例えば、ユーザ端末が保持する履歴情報から、過去の発話の内容に目的地の近くの場所に関する単語が含まれている場合には、その場所の近くに目的地がある旨のメッセージや、過去に目的地の近くに行ったことがある旨のメッセージを応答情報に含める。これにより、現在地から目的地までの距離に加えて、さらに履歴情報を加味した応答情報を生成することができる結果、よりユーザの要望に合致した、より適切な応答を生成することが可能となる。

〔２−５．所要時間〕
ところで、上述した第１の実施形態においては、現在地から目的地までの距離に応じて、応答情報を生成する場合を説明したが、実施形態はこれに限定されるものではなく、例えば、現在地から目的地までの距離とともに、目的地までの所要時間に応じて、応答情報を生成するようにしてもよい。

例えば、ユーザが「東京スカイツリーに行きたい」と発話した際に、現在地から目的地までの徒歩などによる移動時間と、現在地から目的地までの交通機関を用いた経路による移動時間とを比較し、徒歩などによる移動時間が短い場合には、地図情報を応答情報に含め、交通機関を用いた経路による移動時間が短い場合には、経路情報を応答情報に含める。

これにより、現在地から目的地までの距離に加えて、さらに目的地までの所要時間を加味した応答情報を生成することができる結果、よりユーザの要望に合致した、より適切な応答を生成することが可能となる。

〔２−６．ランドマーク〕
ところで、上述した第１の実施形態においては、目的地の方角をメッセージとして応答情報に含めることで、目的地の場所をユーザに知らせる例を説明したが、実施形態はこれに限定されるものではなく、目的地の方角にある目印となる建物等を応答情報に含めて、目的地の場所をユーザに知らせるようにしてもよい。例えば、ユーザが「東京スカイツリーが見たい」と発話した際に、「東京スカイツリーは、国会議事堂のある方向にあります」などのメッセージを応答情報に含めるようにしてもよい。

これにより、よりユーザに対して、目的地の方向、位置を分かりやすく伝えることができる結果、よりユーザの要望に合致した、より適切な応答を生成することが可能となる。

〔２−７．画像情報〕
また、対象物までの距離が近距離である場合に、ユーザは、対象物の形が分からなくて質問するケースが考えられる。そこで、対象物までの距離が近距離である場合には、対象物の画像検索結果とともに「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。」と音声で出力するようにしてもよい。例えば、ユーザが「居酒屋○○」に対する質問を発話した場合には、居酒屋○○が入っているビルの画像を表示するとともに、「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。」と音声で出力する。

〔２−８．その他〕
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述した応答生成サーバ１０は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。

また、特許請求の範囲に記載した「手段」は、「部（section、module、unit）」や「回路」などに読み替えることができる。例えば、応答生成手段は、応答生成部や応答生成回路に読み替えることができる。

１０応答生成サーバ
１１通信部
１２制御部
１２ａ取得部
１２ｂ算出部
１２ｃ要求生成部
１２ｄ変換部
１２ｅ音声合成指示部
１２ｆ応答生成部
１３記憶部
２０ユーザ端末
２１マイク
２２スピーカ
２３アプリ
２３ａ音声データ送信部
２３ｂテキストデータ受信部
２３ｃテキストデータ送信部
２３ｄＨＴＭＬデータ受信部
２３ｅ表示制御部
２４メモリ
２４ａ履歴記憶部
２４ｂ位置情報記憶部
３０音声認識サーバ
４１路線ＡＰＩサーバ
４２天気ＡＰＩサーバ
４３Ｗｅｂ検索ＡＰＩサーバ

Claims

ユーザが発話した情報である発話情報と、ユーザ端末が保持する位置情報とを取得する取得手段と、
前記取得手段によって取得された発話情報に位置を特定可能な情報が含まれる場合には、該情報から特定される位置と前記取得手段によって取得された位置情報にかかる位置との距離を算出する算出手段と、
前記算出手段によって算出された距離に応じて、応答情報を生成する生成手段と、
を備えることを特徴とする応答生成装置。
前記生成手段は、前記算出手段によって算出された距離が第一の閾値よりも小さい場合には、地図情報に基づいて応答情報を生成し、前記算出手段によって算出された距離が前記第一の閾値よりも大きい場合には、経路情報に基づいて応答情報を生成することを特徴とする請求項１に記載の応答生成装置。
前記生成手段は、前記算出手段によって算出された距離が第二の閾値よりも小さい場合には、前記情報から特定される位置が目視可能である旨のメッセージを含む応答情報を生成し、前記算出手段によって算出された距離が前記第二の閾値よりも大きい場合には、前記情報から特定される位置の方角に関するメッセージを含む応答情報を生成することを特徴とする請求項１または２に記載の応答生成装置。
前記生成手段は、前記算出手段によって算出された距離とともに、前記取得手段によって取得された発話情報の内容に応じて、応答情報を生成することを特徴とする請求項１〜３のいずれか一つに記載の応答生成装置。
前記生成手段は、前記算出手段によって算出された距離とともに、現在の時刻、前記情報から特定される位置の天気、前記情報から特定される位置で用いられる方言、前記ユーザ端末が保持する履歴情報、前記情報から特定される位置に到達するまでの所要時間のいずれか一つまたは複数に応じて、応答情報を生成することを特徴とする請求項１〜４のいずれか一つに記載の応答生成装置。
コンピュータで実行される応答生成方法であって、
ユーザが発話した情報である発話情報と、ユーザ端末が保持する位置情報とを取得する取得工程と、
前記取得工程によって取得された発話情報に位置を特定可能な情報が含まれる場合には、該情報から特定される位置と前記取得工程によって取得された位置情報にかかる位置との距離を算出する算出工程と、
前記算出工程によって算出された距離に応じて、応答情報を生成する生成工程と、
を含んだことを特徴とする応答生成方法。
ユーザが発話した情報である発話情報と、ユーザ端末が保持する位置情報とを取得する取得手順と、
前記取得手順によって取得された発話情報に位置を特定可能な情報が含まれる場合には、該情報から特定される位置と前記取得手順によって取得された位置情報にかかる位置との距離を算出する算出手順と、
前記算出手順によって算出された距離に応じて、応答情報を生成する生成手順と、
をコンピュータに実行させることを特徴とする応答生成プログラム。