JP2013238499A - 応答生成装置、応答生成方法および応答生成プログラム - Google Patents

応答生成装置、応答生成方法および応答生成プログラム Download PDF

Info

Publication number
JP2013238499A
JP2013238499A JP2012111966A JP2012111966A JP2013238499A JP 2013238499 A JP2013238499 A JP 2013238499A JP 2012111966 A JP2012111966 A JP 2012111966A JP 2012111966 A JP2012111966 A JP 2012111966A JP 2013238499 A JP2013238499 A JP 2013238499A
Authority
JP
Japan
Prior art keywords
information
response
user
utterance
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012111966A
Other languages
English (en)
Other versions
JP5461615B2 (ja
Inventor
Miharu Nagata
美晴 永田
Yoshikatsu Funasaka
吉克 舩坂
Tomomi Ichiyanagi
友美 一柳
Futoshi Iwasebari
太士 岩瀬張
Tetsuya Mizukami
哲也 水上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2012111966A priority Critical patent/JP5461615B2/ja
Publication of JP2013238499A publication Critical patent/JP2013238499A/ja
Application granted granted Critical
Publication of JP5461615B2 publication Critical patent/JP5461615B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】ユーザの要望に合致した、より適切な応答を生成することを課題とする。
【解決手段】第1の実施形態に係る応答生成サーバ10は、ユーザが発話した情報である発話情報と、ユーザ端末20が保持する位置情報とを取得し、取得された発話情報に位置を特定可能な情報が含まれる場合には、該情報から特定される位置と取得された位置情報にかかる位置との距離を算出し、算出された距離に応じて、応答情報を生成する。これにより、応答生成サーバ10は、ユーザ端末20の現在位置とユーザが目標とする位置との距離に応じて、質問に対する応答メッセージやサービスの検索結果の応答内容を変化させることができる。
【選択図】 図1

Description

本発明は、応答生成装置、応答生成方法および応答生成プログラムに関する。
従来、ユーザからの発話を受け付けたユーザ端末から音声に関するデータを受信し、音声に関するデータを用いてユーザが要求する情報を特定し、ユーザの発話に対する応答を生成する応答生成サーバが知られている。例えば、応答生成サーバは、ユーザからの目的地への行き方に関する質問の音声データをユーザ端末から受け付けると、現在地から目的地までの経路を応答情報として生成する方法が知られている。
特開平10−197277号公報 特開2008−234427号公報
しかしながら、上記の従来技術では、ユーザの要望に合致した、適切な応答情報を生成することができない場合があるという課題があった。例えば、現在地と目的地が近いような場合には、経路を示すことがユーザにとって必ずしも適切な応答とはいえず、ユーザの要望に合致した、適切な応答情報を生成することができない場合があった。
本願は、上記に鑑みてなされたものであって、ユーザの要望に合致した、より適切な応答情報を生成することを目的とする。
本願に係る応答生成装置は、ユーザが発話した情報である発話情報と、ユーザ端末が保持する位置情報とを取得する取得手段と、前記取得手段によって取得された発話情報に位置を特定可能な情報が含まれる場合には、該情報から特定される位置と前記取得手段によって取得された位置情報にかかる位置との距離を算出する算出手段と、前記算出手段によって算出された距離に応じて、応答情報を生成する生成手段と、を備えることを特徴とする。
本願に係る応答生成装置、応答生成方法および応答生成プログラムは、ユーザの要望に合致した、より適切な応答情報を生成することができるという効果を奏する。
図1は、第1の実施形態に係るネットワークシステムの構成例を示す図である。 図2は、第1の実施形態に係る応答生成サーバの構成例を示す図である。 図3は、f第1の実施形態に係る応答生成サーバの記憶部によって記憶される質問応答対応表データの一例を示す図である。 図4は、第1の実施形態に係るユーザ端末の構成例を示す図である。 図5は、第1の実施形態に係るネットワークシステムによる処理の手順を示すシーケンス図である。 図6は、第1の実施形態に係る応答生成サーバによる処理の手順を示すフローチャートである。 図7は、第1の実施形態に係るユーザ端末の応答画像の一例を説明するための図である。
以下に、本願に係る応答生成装置、応答生成方法および応答生成プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る応答生成装置、応答生成方法および応答生成プログラムが限定されるものではない。
(第1の実施形態)
図1〜図7を用いて、本願に係る応答生成装置、応答生成方法および応答生成プログラムの第1の実施形態について説明する。
〔1−1.構成〕
まず、図1を用いて、第1の実施形態に係る応答生成サーバが含まれるネットワークシステムの構成について説明する。図1は、第1の実施形態に係るネットワークシステムの構成例を示す図である。図1に例示するように、第1の実施形態に係るネットワークシステムには、応答生成サーバ10と、ユーザ端末20と、音声認識サーバ30と、路線API(Application Program Interface)サーバ41、天気APIサーバ42と、Web検索APIサーバ43と、音声合成サーバ50とが含まれる。
応答生成サーバ10と、ユーザ端末20と、音声認識サーバ30と、路線APIサーバ41、天気APIサーバ42と、Web検索APIサーバ43と、音声合成サーバ50とは、ネットワーク60を介して、無線通信又は有線通信を行う。なお、以下の説明では、路線APIサーバ41、天気APIサーバ42と、Web検索APIサーバ43を区別する必要がない場合には、これらを総称して「APIサーバ40」と表記する場合がある。また、路線APIサーバ41、天気APIサーバ42、Web検索APIサーバ43は、APIサーバの一例であり、これらに限定されない。
〔1−1(1).応答生成サーバ10の構成〕
次に、図2を用いて、応答生成サーバ10の構成について説明する。図2は、第1の実施形態に係る応答生成サーバの構成例を示す図である。応答生成サーバ10は、ユーザ端末20によって送信される発話のテキストデータと、ユーザ端末20が保持する情報(例えば、現在位置を示す位置情報など)とに応じて、ユーザの発話に対する応答生成情報をユーザ端末20に送信するコンピュータである。応答生成サーバ10は、通信部11と、制御部12と、記憶部13とを有する。なお、以下の説明では、応答生成サーバ10が、APIサーバ40からXML(Extensible Markup Language)形式のデータを取得する場合を例にして説明するが、これに限定されるものではなく、例えば、JSON(Java(登録商標) Script Object Notation)形式のデータやPHP(Personal Home Page)シリアライズ形式のデータをAPIサーバ40から取得するようにしてもよい。
通信部11は、ネットワーク60を介してユーザ端末20、APIサーバ40および音声合成サーバ50との間で各種データを送受信する。通信部110は、例えば、NIC等に該当する。
記憶部13は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置である。記憶部13は、図3に例示する質問応答対応表データを記憶する。ここで、質問応答対応表データとは、現在地から目的地までの距離や質問の内容に対応付けて、応答するメッセージの内容や実行するサービス(アクセス先APIサーバ)を記憶する。図3は、第1の実施形態に係る応答生成サーバの記憶部によって記憶される質問応答対応表データの一例を示す図である。
例えば、図3に例示するように、記憶部13は、質問応答対応表データとして、ユーザが発話した質問の内容である「質問内容」と、現在地から目的地との距離を示す「距離」と、ユーザの質問に対するサービスを実現するためのアクセス先APIサーバを示す「サービス」と、ユーザからの質問に対する応答メッセージの内容である「応答」とが対応付けて記憶されている。
例えば、図3の質問応答対応表データに示すように、ユーザが発話した質問文(テキストデータ)に「東京スカイツリーって」が含まれており、且つ、「現在地から東京タワー(緯度:35.65861、経度:139.745447)から1km圏内」である場合には、サービスを提供するための情報を取得するためのアクセス先を「web検索API」に決定し、アクセス先APIサーバから取得した検索結果を応答情報に含めるとともに、「あなたの近くにあるのは東京タワーです。東京スカイツリーの検索結果はこちらです」というメッセージを応答情報に含める。
また、図3の質問応答対応表データに示すように、ユーザが発話した質問文(テキストデータ)に「東京スカイツリーの場所」、「東京スカイツリーはどこ」、「東京スカイツリーはどっち」、「東京スカイツリー、どこ」または「東京スカイツリーはどのへん」のいずれかが含まれている場合であって、且つ、「現在地が東京スカイツリーから1km以内」である場合には、サービスを提供するための情報を取得するためのアクセス先を「地図API」に決定し、アクセス先APIサーバから取得した地図情報を応答情報に含めるとともに、「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。詳しい地図はこちらです。」というメッセージを応答情報に含める。
また、図3の質問応答対応表データに示すように、ユーザが発話した質問文(テキストデータ)に「東京スカイツリーの場所」、「東京スカイツリーはどこ」、「東京スカイツリーはどっち」、「東京スカイツリー、どこ」または「東京スカイツリーはどのへん」のいずれかが含まれている場合であって、且つ、「現在地が東京スカイツリーから3km以内」である場合には、サービスを提供するための情報を取得するためのアクセス先を「地図API」に決定し、アクセス先APIサーバから取得した地図情報を応答情報に含めるとともに、「○のほうにあります。詳しい地図はこちらです。」というメッセージを応答情報に含める。なお、「○」には、現在地から目的地の方角として、北、南、西、東のいずれかが入る。この現在地から目的地の方角については、現在地と目的地との位置関係から応答生成サーバ10が特定する。
また、図3の質問応答対応表データに示すように、ユーザが発話した質問文(テキストデータ)に「東京スカイツリーの場所」、「東京スカイツリーはどこ」、「東京スカイツリーはどっち」、「東京スカイツリー、どこ」または「東京スカイツリーはどのへん」のいずれかが含まれている場合であって、且つ、「現在地が東京スカイツリーから3kmを超える」場合には、サービスを提供するための情報を取得するためのアクセス先を「地図API」に決定し、アクセス先APIサーバから取得した地図情報を応答情報に含めるとともに、「詳しい地図はこちらです。」というメッセージを応答情報に含める。
また、図3の質問応答対応表データに示すように、ユーザが発話した質問文(テキストデータ)に「東京スカイツリーが見たい」、「東京スカイツリーを見たい」、「東京スカイツリー、見たい」、「東京スカイツリーが見てみたい」または「東京スカイツリーを見てみたい」のいずれかが含まれている場合であって、且つ、「現在地が東京スカイツリーから1km以内」である場合には、サービスを提供するための情報を取得するためのアクセス先を「地図API」に決定し、アクセス先APIサーバから取得した地図情報を応答情報に含めるとともに、「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。詳しい地図はこちらです。」というメッセージを応答情報に含める。
また、図3の質問応答対応表データに示すように、ユーザが発話した質問文(テキストデータ)に「東京スカイツリーが見たい」、「東京スカイツリーを見たい」、「東京スカイツリー、見たい」、「東京スカイツリーが見てみたい」または「東京スカイツリーを見てみたい」のいずれかが含まれている場合であって、且つ、「現在地が東京スカイツリーから5km以内」である場合には、サービスを提供するための情報を取得するためのアクセス先を「地図API」に決定し、アクセス先APIサーバから取得した地図情報を応答情報に含めるとともに、○のほうにあります。詳しい地図はこちらです。」というメッセージを応答情報に含める。なお、ここで、上記したように、「○」には、現在地から目的地の方角として、北、南、西、東のいずれかが入る。
また、図3の質問応答対応表データに示すように、ユーザが発話した質問文(テキストデータ)に「東京スカイツリーが見たい」、「東京スカイツリーを見たい」、「東京スカイツリー、見たい」、「東京スカイツリーが見てみたい」または「東京スカイツリーを見てみたい」のいずれかが含まれている場合であって、且つ、「現在地が東京スカイツリーから5kmを超える」場合には、サービスを提供するための情報を取得するためのアクセス先を「画像API」に決定し、アクセス先APIサーバから取得した画像検索結果を応答情報に含めるとともに、「画像検索結果はこちらです。」というメッセージを応答情報に含める。
図2に戻って、制御部12は、ユーザが今回発話したテキストデータと、ユーザ端末20が保持する情報(位置情報や対話履歴、利用履歴等)とを取得し、取得されたテキストデータに位置を特定可能な情報が含まれる場合には、該情報から特定される位置と位置情報にかかる位置との距離を算出し、算出された距離に応じて、応答情報を生成する。
制御部12は、例えば、CPUやMPU等により実現され、記憶部13に予め記憶されているコンピュータプログラムを実行することにより、取得部12a、算出部12b、要求生成部12c、変換部12d、音声合成指示部12e、応答生成部12fによる処理を実現する。
なお、応答生成サーバ10が有する各処理部は、以下に説明する情報処理の機能や作用を実現又は実行する。
〔1−1(2).ユーザ端末20の構成〕
次に、図4を用いて、ユーザ端末20の構成について説明する。図4は、第1の実施形態に係るユーザ端末20の構成例を示す図である。図4に示すように、ユーザ端末20は、携帯電話機、スマートフォン、PDA(Personal Digital Assistant)、タブレット型PC、ノート型PC、デスクトップ型PC等の情報処理装置である。ユーザ端末20は、図4に例示するように、通信部21と、マイク22と、スピーカ23と、表示部24と、アプリ25と、メモリ26とを有する。
通信部21は、ネットワーク60を介して応答生成サーバ10および音声認識サーバ30との間で各種データを送受信する。通信部21は、例えば、携帯端末やスマートフォンの場合には、アンテナや通信制御を行う電子回路等である。例えば、ユーザ端末20がノート型PCやデスクトップ型PCである場合には、NIC(Network Interface Card)等に該当する。通信部21は、例えば、ユーザ端末20がタブレット型PCである場合には、アンテナや通信制御を行う電子回路等である。
マイク22は、ユーザ端末20の利用者が発話した音声入力を受け付ける入力デバイスである。スピーカ23は、ユーザ端末20の利用者が発話した音声入力に対する応答音声を出力する出力デバイスである。また、表示部24は、各種情報を表示する表示デバイスであり、例えばタッチパネルや液晶ディスプレイ等である。表示部24は、例えば、応答発話表示用のテキストデータと発話意図に応じてHTMLデータとを表示する。
アプリ25は、利用者が発話した音声入力を受け付けると、音声データを音声認識サーバ30に送信し、音声認識サーバ30から発話のテキストデータを受信する。また、アプリ25は、発話のテキストデータや過去の発話情報を応答生成サーバ10に送信し、応答生成サーバ10からHTML(Hyper Text Markup Language)等の言語で記述されたデータ、応答発話用の中間表記および応答発話表示用のテキストデータなどを受信する。また、アプリ25は、ユーザ端末20の利用者が発話した音声入力に対する応答音声を出力したり、HTML等の言語で記述されたデータを表示したりする。アプリ25は、CPUやMPU等により実現され、音声データ送信部25a、テキストデータ受信部25b、テキストデータ送信部25c、HTMLデータ受信部25d、表示制御部25eによる処理を実現する。
メモリ26は、履歴記憶部26aおよび位置情報記憶部26bを有する。メモリ26は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子等の記憶装置である。履歴記憶部26aは、発話のテキストデータとともに送信される、過去の発話に関する履歴情報を記憶する。位置情報記憶部26bは、発話のテキストデータとともに送信される、ユーザ端末10の現在位置を示す位置情報を記憶する。なお、メモリ26は、履歴情報や位置情報のほかに、データの閲覧や検索の利用履歴に関する利用履歴情報やユーザの自宅の住所などの個人情報を記憶していてもよい。これらの情報は、位置情報と同様に、発話のテキストデータとともに応答生成サーバ10に送信してもよい。
なお、ユーザ端末20が有する各処理部は、以下に説明する情報処理の機能や作用を実現又は実行する。
〔1−2(1).作用(ネットワークシステム)〕
次に、図5を用いて、第1の実施形態に係るネットワークシステムによる全体の処理手順について説明する。図5は、第1の実施形態に係るネットワークシステムによる処理の手順を示すシーケンス図である。図5に例示するように、ユーザ端末20は、アプリケーションの起動指示を受け付けると、アプリケーションを起動する(ステップS1)。そして、ユーザ端末20の音声データ送信部25aは、ユーザの発話を検知すると、発話の音声データをsocket通信により音声認識サーバ30へ送信する(ステップS2)。例えば、ユーザ端末20の音声データ送信部25aは、発話の音声データとして、位置を特定可能な情報が含まれる「とうきょうすかいつりーのばしょはどこですか」を送信する。
そして、音声認識サーバ30は、発話の音声データを受信すると、音声データをテキストデータに変換する(ステップS3)。そして、音声認識サーバ30は、変換した発話のテキストデータをユーザ端末20に送信する(ステップS4)。例えば、音声認識サーバ30のテキストデータ送信部25cは、テキストデータとして、位置を特定可能な情報が含まれる「東京スカイツリーの場所はどこですか」を送信する。
続いて、ユーザ端末20のテキストデータ受信部25bが、音声認識サーバ30から発話のテキストデータを受信すると、テキストデータ送信部25cは、発話のテキストデータや、過去3回分の発話に関する履歴情報や位置情報等のユーザ端末20が保持する情報を応答生成サーバ10に送信する(ステップS5)。
続いて、応答生成サーバ10の取得部12aが、発話のテキストデータやユーザ端末20が保持する位置情報等を受け付けると、算出部12bは、取得手段によって取得された発話のテキストデータに位置を特定可能な情報が含まれる場合には、該情報から特定される位置とユーザ端末20が保持する位置情報にかかる位置(ユーザ端末20の現在位置)との距離を算出する。例えば、発話のテキストデータに「東京スカイツリー」が含まれている場合には、東京スカイツリーの位置とユーザ端末20の現在位置との距離を算出する。
そして、応答生成サーバ10の要求生成部12cは、応答の生成に必要なデータの検索条件を指定し、APIサーバ40に対してデータの要求を行う(ステップS6)。具体的には、応答生成サーバ10の要求生成部12cは、ユーザからの質問内容と、算出した距離を用いて、今回の発話によりユーザが求めるサービスを特定し、APIサーバ40に対して発話に対する応答を生成するための情報を要求する検索条件を生成し、検索条件をAPIサーバ40に送信して応答生成に必要なデータを要求する。例えば、応答生成サーバ10の要求生成部12cは、ユーザから予め登録されている「東京スカイツリーが見たい」などの質問を受け付けた際に、算出した距離が5km以内であれば、地図情報を生成するための情報を地図APIサーバに対して要求し、応答生成サーバ10の要求生成部12cは、算出した距離が5kmを超える場合であれば、経路情報を生成するための情報を路線APIサーバに対して要求する。また、ユーザが発話した質問の内容が、予め登録された質問の内容と異なるような場合には、質問内容の言語解析とともに、距離とから最適なサービスを特定することができる。このように、質問内容だけでなく、距離を用いることにより、本来ならば応答すべきサービスが複数考えられる場合(例えば、地図情報の提示や経路検索のサービスなどの複数のサービスが候補に挙がる場合)であっても、最適なサービスを特定できる。
続いて、応答生成サーバ10の要求生成部12cは、検索条件をAPIサーバ40に送信して応答生成に必要なデータを要求する(ステップS7)。そして、APIサーバ40は、受信した検索条件に従って、XMLデータを取得する処理を行う(ステップS8)。例えば、応答生成サーバ10は、東京スカイツリー周辺の地図情報や、現在地から東京スカイツリーまでの経路情報などを取得する処理を行う。そして、APIサーバ40は、取得したXMLデータを応答生成サーバ10に送信する(ステップS9)。
そして、応答生成サーバ10の変換部12dは、APIサーバ40からXMLデータを受信すると、予め記憶されたフォーマットに従って、XMLデータからデータを抽出し、XMLデータをHTMLデータに変換する(ステップS10)。例えば、応答生成サーバ10の変換部12dは、路線検索に関するXMLデータを受信すると、乗り換えに関するフォーマットに従って、XMLデータから駅名や乗車時間の情報を抽出し、XMLデータをHTMLデータに変換する。
続いて、応答生成サーバ10の音声合成指示部12eは、応答発話表示用のテキストデータを音声合成サーバ50に送信する(ステップS11)。ここで、応答発話表示用のテキストデータは、上述した質問応答対応表データを参照されて、取得されるデータである。例えば、「東京スカイツリーの場所はどこですか」という質問がユーザから発話された場合に、現在地からスカイツリーから「1km」以内であれば、「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。詳しい地図はこちらです。」というメッセージが取得される。そして、応答生成サーバ10の音声合成指示部12eは、応答発話表示用のテキストデータとして、「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。詳しい地図はこちらです。」を音声合成サーバ50に送信する。
続いて、音声合成サーバ50は、応答発話表示用のテキストデータから音声を合成する音声合成処理を行って、応答発話用の中間表記を生成する(ステップS12)。そして、音声合成サーバ50は、応答発話用の中間表記を応答生成サーバ10に送信する(ステップS13)。
続いて、応答生成サーバ10の応答生成部12fは、応答発話用の中間表記と応答発話表示用のテキストデータとHTMLデータとをユーザ端末20に送信する(ステップS14)。そして、ユーザ端末20のHTMLデータ受信部25dは、受信した応答発話表示用のテキストデータの履歴情報とHTMLデータの履歴情報とを格納する(ステップS15)。続いて、ユーザ端末20の表示制御部25eは、応答発話用の中間表記を用いて、応答の音声を出力するとともに、応答発話表示用のテキストデータとHTMLデータとを用いて、応答内容を表示する(ステップS16)。
〔1−2(2).作用(応答生成サーバ)〕
次に、図6を用いて、第1の実施形態に係る応答生成サーバ10による処理手順について説明する。図6は、第1の実施形態に係る応答生成サーバ10による処理の手順を示すフローチャートである。図6に例示するように、応答生成サーバ10の取得部12aは、ユーザが今回発話したテキストデータ及びユーザ端末20の現在位置を示す位置情報等を受信したか否かを判定する(ステップS101)。なお、取得部12aは、今回発話されたテキストデータやユーザ端末20の現在位置を示す位置情報の他にも、ユーザが発話した過去3回分の発話情報、過去にAPIサーバを利用した利用履歴に関する利用履歴などを受信する。
そして、取得部12aは、ユーザにより今回発話されたテキストデータ及び位置情報等を受信したと判定すると(ステップS101肯定)、算出部12bは、テキストデータに含まれる場所と位置情報に示される現在位置との距離を算出する(ステップS102)。例えば、算出部12bは、テキストデータに「東京スカイツリー」が含まれる場合に、スカイツリーの位置と、ユーザ端末20の位置情報に示される現在位置との距離を算出する。
続いて、要求生成部12cは、算出した距離等に基づいて、APIサーバ40に発話に対する応答を生成するためのXML形式のデータを要求する(ステップS103)。具体的には、要求生成部12cは、算出した距離が5km以内である場合には、APIサーバ40に地図に関するデータを要求し、また、算出した距離が5kmを超える場合には、APIサーバ40に経路に関するデータを要求する。
そして、応答生成サーバ10の応答生成部12fは、APIサーバ40から受信した、XMLデータから応答情報を生成する(ステップS104)。続いて、応答生成サーバ10は、XMLデータをHTMLデータに変換し、音声合成サーバ50から応答発話用の中間表記を受信した後に、応答発話用の中間表記と応答発話表示用のテキストデータとHTMLデータとをユーザ端末20に送信する(ステップS105)。
その後、ユーザ端末20の表示制御部25eは、応答発話用の中間表記と応答発話表示用のテキストデータとHTMLデータとを受信すると、応答発話用の中間表記を用いて、応答の音声を出力するとともに、応答発話表示用のテキストデータとHTMLデータとを用いて、応答内容を表示する。ここで、図7の例を用いて、ユーザの発話に対してユーザ端末20の表示部24に表示される応答画像の一例を説明する。図7は、第1の実施形態に係るユーザ端末20の応答画像の一例を説明するための図である。
図7の(1)は、上記のステップS102において算出した距離が「1km未満」の場合に表示される応答画像の例であり、図7の(2)は、算出した距離が「1km以上5km未満」の場合に表示される応答画像の例であり、図7の(3)は、算出した距離が「5km以上」または位置情報取得不可の場合に表示される応答画像の例である。また、図7(1)〜(3)の全ての例は、ユーザから「東京スカイツリーが見たい」という発話があった場合において、表示される応答画像の例を示している。
まず、図7(1)の例を用いて説明すると、応答画像の上部に、テキストデータが表示され、テキストデータの下部に地図情報を表示可能な操作部が表示されている。具体的には、図7に例示するように、発話用のテキストデータとして「東京スカイツリーが見たい」が表示されている。また、その下部に、応答発話表示用のテキストデータとして「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。詳しい地図はこちらです」が表示されるとともに、応答発話用の中間表記が用いられて、応答の音声が出力される。そして、その下部に、地図情報を表示可能な操作部が表示されている。なお、図7(1)の例では、地図情報が表示されていないが、操作部をタッチすることで、地図情報が画面上に表示される。このように、現在地から「東京スカイツリー」の位置までの距離が近い場合には、「東京スカイツリー」が目視可能であることから、「東京スカイツリー」が目視可能であることを応答画像に表示するとともに、音声を出力することで、単に地図情報や経路情報を出力するよりも、より自然な対話を実現することができ、ユーザの要望に合致した、より適切な応答情報を生成することが可能となる。
また、図7の(2)の例では、発話用のテキストデータとして「東京スカイツリーが見たい」が表示され、その下部に、応答発話表示用のテキストデータとして「北のほうにあります。詳しい地図はこちらです。」が表示されるとともに、応答発話用の中間表記が用いられて、応答の音声が出力される。そして、その下部に、地図情報を表示可能な操作部が表示されている。なお、図7(2)の例では、地図情報が表示されていないが、操作部をタッチすることで、地図情報が画面上に表示される。このように、現在地から「東京スカイツリー」の位置までの距離が1km以上5km未満である場合には、「東京スカイツリー」がある方角を見れば東京スカイツリーを確認することが可能であることから、「東京スカイツリー」の方角を応答画像に表示するとともに、音声を出力することで、単に地図情報や経路情報を出力するよりも、より自然な対話を実現することができ、ユーザの要望に合致した、より適切な応答情報を生成することが可能となる。
また、図7の(3)の例では、発話用のテキストデータとして「東京スカイツリーが見たい」が表示され、その下部に、応答発話表示用のテキストデータとして「画像検索結果はこちらです」が表示されるとともに、応答発話用の中間表記が用いられて、応答の音声が出力される。そして、その下部に、東京スカイツリーの画像検索結果が表示可能な操作部が表示されている。なお、図7(3)の例では、画像検索結果が表示されていないが、操作部をタッチすることで、画像検索結果が画面上に表示される。このように、現在地から「東京スカイツリー」の位置までの距離が5km以上である場合には、「東京スカイツリー」を目視により確認することが難しいことから、「東京スカイツリー」の画像検索結果を表示することで、ユーザの「東京スカイツリーが見たい」という要望を適切に実現することができる。
〔1−3.効果〕
上述してきたように、第1の実施形態に係る応答生成サーバ10は、ユーザが発話した情報である発話情報と、ユーザ端末20が保持する位置情報とを取得し、取得された発話情報に位置を特定可能な情報が含まれる場合には、該情報から特定される位置と取得された位置情報にかかる位置との距離を算出し、算出された距離に応じて、応答情報を生成する。
これにより、応答生成サーバ10は、ユーザ端末20の現在位置とユーザが目標とする位置との距離に応じて、質問に対する応答メッセージやサービスの検索結果の応答内容を変化させることができる結果、より自然な対話を実現することができ、ユーザの要望に合致した、より適切な応答情報を生成することが可能となる。
また、第1の実施形態に係る応答生成サーバ10は、算出された距離が所定の閾値(例えば、5km)よりも小さい場合には、地図情報に基づいて応答情報を生成し、算出された距離が所定の閾値(例えば、5km)よりも大きい場合には、経路情報に基づいて応答情報を生成する。
これにより、応答生成サーバ10は、ユーザ端末20の現在位置とユーザが目標とする位置との距離がある程度近い場合には、地図情報を応答情報として生成して、ユーザに対して現在地から目的地までの位置関係を把握できるようにし、一方、ユーザ端末20の現在位置とユーザが目標とする位置との距離がある遠い場合には、ユーザに対して目的地までの経路を知らせる。これにより、ユーザの要望に合致した、より適切な応答を生成することが可能となる。
また、第1の実施形態に係る応答生成サーバ10は、算出された距離が所定の閾値(例えば、1km)よりも小さい場合には、目的地が目視可能である旨のメッセージを含む応答情報を生成し、算出された距離が所定の閾値(例えば、1km)よりも大きい場合には、目的地の方角に関するメッセージを含む応答情報を生成する。
これにより、応答生成サーバ10は、目的地が近くにある場合には、辺りを見回すように促すメッセージを応答情報に含め、目的地からある程度距離がある場合には、目的地の方角をユーザに知らせるメッセージを応答情報に含めることができる結果、ユーザの要望に合致した、より適切な応答を生成することが可能となる。
また、第1の実施形態に係る応答生成サーバ10は、算出された距離とともに、取得された発話情報の内容に応じて、応答情報を生成する。これにより、例えば、ユーザからの発話が「東京スカイツリーが見たい」であって、現在位置がスカイツリーから5km以上離れている場合には、ユーザが東京スカイツリーの画像を見たいものと解釈して、東京スカイツリーの画像を応答情報に含めることが出来る。このように、応答生成サーバ10は、距離に加えて、さらにユーザの発話の内容を加味した応答情報を生成することができる結果、よりユーザの要望に合致した、より適切な応答を生成することが可能となる。
(第2の実施形態)
本願に係る応答生成装置、応答生成方法および応答生成プログラムは、上述した第1の実施形態以外にも種々の異なる形態にて実施されてよい。第2の実施形態では、他の実施形態について説明する。
〔2−1.現在の時刻〕
ところで、上述した第1の実施形態においては、現在地から目的地までの距離に応じて、応答情報を生成する場合を説明したが、実施形態はこれに限定されるものではなく、例えば、現在地から目的地までの距離とともに、現在の時刻に応じて、応答情報を生成するようにしてもよい。
例えば、ユーザが「東京スカイツリーを見たい」と発話した際に、現在の時刻が昼の「12:00」であって、目的地が近くにある場合には、辺りを見回すように促すメッセージを応答情報に含める。また、現在の時刻が夜中の「2:00」である場合には、目的地が近くにある場合であっても、暗くて見えない旨のメッセージや、イルミネーションにより明るくなっている旨のメッセージを応答情報に含める。
このように、現在地から目的地までの距離に加えて、さらに現在の時刻を加味した応答情報を生成することができる結果、よりユーザの要望に合致した、より適切な応答を生成することが可能となる。
また、質問内容および距離に加え、時間情報に応じて、最適なサービスを特定することが可能である。例えば、ユーザが「東京スカイツリーはどこ?」と質問した場合に、距離が10km以上であれば、地図の提示又は電車の路線検索のいずれのサービスを提供するか判断が難しいこところであるが、時間情報により現在時刻が「深夜2時」で交通機関が営業を終了している場合には、今から車(徒歩)で行く、或いは場所を知りたいことをユーザが求めるサービスと特定することができ、路線検索ではなく、地図情報の提示が応答するサービスとして最適であると特定することが可能となる。
〔2−2.天気〕
ところで、上述した第1の実施形態においては、現在地から目的地までの距離に応じて、応答情報を生成する場合を説明したが、実施形態はこれに限定されるものではなく、例えば、現在地から目的地までの距離とともに、目的地の天気に応じて、応答情報を生成するようにしてもよい。
例えば、ユーザが「東京スカイツリーを見たい」と発話した際に、東京の天気が晴れであって、目的地が近くにある場合には、晴れて東京スカイツリーが良く見える旨のメッセージを応答情報に含める。また、東京の天気が曇りである場合には、目的地が近くにある場合であっても、曇っていて東京スカイツリーが見え難い旨のメッセージを応答情報に含める。
これにより、現在地から目的地までの距離に加えて、さらに目的地の天気を加味した応答情報を生成することができる結果、よりユーザの要望に合致した、より適切な応答を生成することが可能となる。
〔2−3.方言〕
ところで、上述した第1の実施形態においては、現在地から目的地までの距離に応じて、応答情報を生成する場合を説明したが、実施形態はこれに限定されるものではなく、例えば、現在地から目的地までの距離とともに、目的地の方言に応じて、応答情報を生成するようにしてもよい。
例えば、ユーザが「通天閣を見たい」と発話した際に、関西弁のメッセージを応答情報に含める。これにより、現在地から目的地までの距離に加えて、さらに目的地の方言を加味した応答情報を生成することができる結果、ユーザが目的地に対する興味を惹かれる応答を生成することが可能となる。
〔2−4.履歴情報〕
ところで、上述した第1の実施形態においては、現在地から目的地までの距離に応じて、応答情報を生成する場合を説明したが、実施形態はこれに限定されるものではなく、例えば、現在地から目的地までの距離とともに、ユーザ端末が保持する履歴情報に応じて、応答情報を生成するようにしてもよい。
例えば、ユーザ端末が保持する履歴情報から、過去の発話の内容に目的地の近くの場所に関する単語が含まれている場合には、その場所の近くに目的地がある旨のメッセージや、過去に目的地の近くに行ったことがある旨のメッセージを応答情報に含める。これにより、現在地から目的地までの距離に加えて、さらに履歴情報を加味した応答情報を生成することができる結果、よりユーザの要望に合致した、より適切な応答を生成することが可能となる。
〔2−5.所要時間〕
ところで、上述した第1の実施形態においては、現在地から目的地までの距離に応じて、応答情報を生成する場合を説明したが、実施形態はこれに限定されるものではなく、例えば、現在地から目的地までの距離とともに、目的地までの所要時間に応じて、応答情報を生成するようにしてもよい。
例えば、ユーザが「東京スカイツリーに行きたい」と発話した際に、現在地から目的地までの徒歩などによる移動時間と、現在地から目的地までの交通機関を用いた経路による移動時間とを比較し、徒歩などによる移動時間が短い場合には、地図情報を応答情報に含め、交通機関を用いた経路による移動時間が短い場合には、経路情報を応答情報に含める。
これにより、現在地から目的地までの距離に加えて、さらに目的地までの所要時間を加味した応答情報を生成することができる結果、よりユーザの要望に合致した、より適切な応答を生成することが可能となる。
〔2−6.ランドマーク〕
ところで、上述した第1の実施形態においては、目的地の方角をメッセージとして応答情報に含めることで、目的地の場所をユーザに知らせる例を説明したが、実施形態はこれに限定されるものではなく、目的地の方角にある目印となる建物等を応答情報に含めて、目的地の場所をユーザに知らせるようにしてもよい。例えば、ユーザが「東京スカイツリーが見たい」と発話した際に、「東京スカイツリーは、国会議事堂のある方向にあります」などのメッセージを応答情報に含めるようにしてもよい。
これにより、よりユーザに対して、目的地の方向、位置を分かりやすく伝えることができる結果、よりユーザの要望に合致した、より適切な応答を生成することが可能となる。
〔2−7.画像情報〕
また、対象物までの距離が近距離である場合に、ユーザは、対象物の形が分からなくて質問するケースが考えられる。そこで、対象物までの距離が近距離である場合には、対象物の画像検索結果とともに「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。」と音声で出力するようにしてもよい。例えば、ユーザが「居酒屋○○」に対する質問を発話した場合には、居酒屋○○が入っているビルの画像を表示するとともに、「建物で隠れていなければ、すぐ近くに見えるはず。辺りを見回してみてください。」と音声で出力する。
〔2−8.その他〕
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述した応答生成サーバ10は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
また、特許請求の範囲に記載した「手段」は、「部(section、module、unit)」や「回路」などに読み替えることができる。例えば、応答生成手段は、応答生成部や応答生成回路に読み替えることができる。
10 応答生成サーバ
11 通信部
12 制御部
12a 取得部
12b 算出部
12c 要求生成部
12d 変換部
12e 音声合成指示部
12f 応答生成部
13 記憶部
20 ユーザ端末
21 マイク
22 スピーカ
23 アプリ
23a 音声データ送信部
23b テキストデータ受信部
23c テキストデータ送信部
23d HTMLデータ受信部
23e 表示制御部
24 メモリ
24a 履歴記憶部
24b 位置情報記憶部
30 音声認識サーバ
41 路線APIサーバ
42 天気APIサーバ
43 Web検索APIサーバ

Claims (7)

  1. ユーザが発話した情報である発話情報と、ユーザ端末が保持する位置情報とを取得する取得手段と、
    前記取得手段によって取得された発話情報に位置を特定可能な情報が含まれる場合には、該情報から特定される位置と前記取得手段によって取得された位置情報にかかる位置との距離を算出する算出手段と、
    前記算出手段によって算出された距離に応じて、応答情報を生成する生成手段と、
    を備えることを特徴とする応答生成装置。
  2. 前記生成手段は、前記算出手段によって算出された距離が第一の閾値よりも小さい場合には、地図情報に基づいて応答情報を生成し、前記算出手段によって算出された距離が前記第一の閾値よりも大きい場合には、経路情報に基づいて応答情報を生成することを特徴とする請求項1に記載の応答生成装置。
  3. 前記生成手段は、前記算出手段によって算出された距離が第二の閾値よりも小さい場合には、前記情報から特定される位置が目視可能である旨のメッセージを含む応答情報を生成し、前記算出手段によって算出された距離が前記第二の閾値よりも大きい場合には、前記情報から特定される位置の方角に関するメッセージを含む応答情報を生成することを特徴とする請求項1または2に記載の応答生成装置。
  4. 前記生成手段は、前記算出手段によって算出された距離とともに、前記取得手段によって取得された発話情報の内容に応じて、応答情報を生成することを特徴とする請求項1〜3のいずれか一つに記載の応答生成装置。
  5. 前記生成手段は、前記算出手段によって算出された距離とともに、現在の時刻、前記情報から特定される位置の天気、前記情報から特定される位置で用いられる方言、前記ユーザ端末が保持する履歴情報、前記情報から特定される位置に到達するまでの所要時間のいずれか一つまたは複数に応じて、応答情報を生成することを特徴とする請求項1〜4のいずれか一つに記載の応答生成装置。
  6. コンピュータで実行される応答生成方法であって、
    ユーザが発話した情報である発話情報と、ユーザ端末が保持する位置情報とを取得する取得工程と、
    前記取得工程によって取得された発話情報に位置を特定可能な情報が含まれる場合には、該情報から特定される位置と前記取得工程によって取得された位置情報にかかる位置との距離を算出する算出工程と、
    前記算出工程によって算出された距離に応じて、応答情報を生成する生成工程と、
    を含んだことを特徴とする応答生成方法。
  7. ユーザが発話した情報である発話情報と、ユーザ端末が保持する位置情報とを取得する取得手順と、
    前記取得手順によって取得された発話情報に位置を特定可能な情報が含まれる場合には、該情報から特定される位置と前記取得手順によって取得された位置情報にかかる位置との距離を算出する算出手順と、
    前記算出手順によって算出された距離に応じて、応答情報を生成する生成手順と、
    をコンピュータに実行させることを特徴とする応答生成プログラム。
JP2012111966A 2012-05-15 2012-05-15 応答生成装置、応答生成方法および応答生成プログラム Active JP5461615B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012111966A JP5461615B2 (ja) 2012-05-15 2012-05-15 応答生成装置、応答生成方法および応答生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012111966A JP5461615B2 (ja) 2012-05-15 2012-05-15 応答生成装置、応答生成方法および応答生成プログラム

Publications (2)

Publication Number Publication Date
JP2013238499A true JP2013238499A (ja) 2013-11-28
JP5461615B2 JP5461615B2 (ja) 2014-04-02

Family

ID=49763653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012111966A Active JP5461615B2 (ja) 2012-05-15 2012-05-15 応答生成装置、応答生成方法および応答生成プログラム

Country Status (1)

Country Link
JP (1) JP5461615B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022252938A1 (zh) * 2021-05-31 2022-12-08 华为技术有限公司 一种语音交互应答方法和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053132A (ja) * 2004-07-13 2006-02-23 Matsushita Electric Ind Co Ltd 移動先表示装置および移動先表示方法
JP2011221804A (ja) * 2010-04-09 2011-11-04 Ntt Docomo Inc 情報提供システム、情報提供サーバ、情報提供方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053132A (ja) * 2004-07-13 2006-02-23 Matsushita Electric Ind Co Ltd 移動先表示装置および移動先表示方法
JP2011221804A (ja) * 2010-04-09 2011-11-04 Ntt Docomo Inc 情報提供システム、情報提供サーバ、情報提供方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022252938A1 (zh) * 2021-05-31 2022-12-08 华为技术有限公司 一种语音交互应答方法和电子设备

Also Published As

Publication number Publication date
JP5461615B2 (ja) 2014-04-02

Similar Documents

Publication Publication Date Title
JP5965175B2 (ja) 応答生成装置、応答生成方法および応答生成プログラム
KR102369605B1 (ko) 장치들에 걸쳐 디지털 개인 비서 에이전트를 스케일링하기 위한 기법
JP5616390B2 (ja) 応答生成装置、応答生成方法および応答生成プログラム
US8682640B2 (en) Self-configuring language translation device
US20140025371A1 (en) Method and apparatus for recommending texts
RU2010132214A (ru) Способы и устройства для осуществления распределенных многомодальных приложений
JP2021108094A (ja) 対話モデルを生成するための方法及び装置
JP5886103B2 (ja) 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム
BR112017013524B1 (pt) Dispositivo de computação, método e dispositivo de armazenamento legível por computador para conclusão de tarefas sem orientação dentro de assistentes pessoais digitais
WO2019000880A1 (zh) 实景导航方法、装置、设备及计算机可读存储介质
US20150006182A1 (en) Systems and Methods for Dynamic Download of Embedded Voice Components
US11270690B2 (en) Method and apparatus for waking up device
WO2020186897A1 (zh) 信息处理方法和装置
KR20200080400A (ko) 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치
KR20140142116A (ko) 텍스트 변환 서비스를 제공하는 전자장치 및 방법
WO2019000881A1 (zh) 导航方法、装置、设备及计算机可读存储介质
KR20180131155A (ko) 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램
WO2019000879A1 (zh) 导航方法、装置、设备及计算机可读存储介质
CN112422614B (zh) 用于设备交互的方法、装置和介质
JP5461615B2 (ja) 応答生成装置、応答生成方法および応答生成プログラム
US20160364383A1 (en) Multi-channel cross-modality system for providing language interpretation/translation services
US11854422B2 (en) Method and device for information interaction
JP2014123353A (ja) ヘルプを提供する方法、コンピュータプログラム及びコンピュータ
US10831429B2 (en) Display mode adjustment based on number of estimated functions of a recommended content
CN115066908A (zh) 用户终端及其控制方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140115

R150 Certificate of patent or registration of utility model

Ref document number: 5461615

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350