JP5886103B2 - 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム - Google Patents

応答生成装置、応答生成システム、応答生成方法および応答生成プログラム Download PDF

Info

Publication number
JP5886103B2
JP5886103B2 JP2012072555A JP2012072555A JP5886103B2 JP 5886103 B2 JP5886103 B2 JP 5886103B2 JP 2012072555 A JP2012072555 A JP 2012072555A JP 2012072555 A JP2012072555 A JP 2012072555A JP 5886103 B2 JP5886103 B2 JP 5886103B2
Authority
JP
Japan
Prior art keywords
information
response
utterance
user terminal
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012072555A
Other languages
English (en)
Other versions
JP2013205524A (ja
Inventor
衣織 西田
衣織 西田
吉克 舩坂
吉克 舩坂
輝喜 津田
輝喜 津田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2012072555A priority Critical patent/JP5886103B2/ja
Publication of JP2013205524A publication Critical patent/JP2013205524A/ja
Application granted granted Critical
Publication of JP5886103B2 publication Critical patent/JP5886103B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Description

本発明は応答生成装置、応答生成システム、応答生成方法および応答生成プログラムに関する。
従来、ユーザからの発話を受け付け、ユーザの発話の内容に応じた応答画面や音声を出力する対話アプリケーションが知られている。このような対話アプリケーションとして、例えば、「Siri」(以下、従来技術1と称する)や「しゃべってコンシェル」(以下、従来技術2と称する)などが実用化されている。
例えば、従来技術1では、ユーザからの音声入力を受け付けると、ユーザが求めているサービスを提供できるアプリを特定し、特定したアプリを利用することを勧める画面を表示したり、特定したアプリを自動的に起動させたりする。具体的な例を挙げて説明すると、従来技術1では、例えば、路線検索の質問に係る音声入力を受け付けた場合には、路線検索サービスを提供できる路線検索アプリを特定し、路線検索アプリを利用することを勧める画面を表示する。
また、従来技術2の場合には、ユーザ端末は、ユーザからの音声入力を受け付けると、ユーザが要求する情報を特定し、特定した情報を提供するサーバに対して情報の要求を行う。そして、ユーザ端末は、情報のアクセス先を示すURL(Uniform Resource Locator)をサーバから取得し、取得したURLを用いてデータを取得する。具体的な例を挙げて説明すると、従来技術2では、例えば、料理に係る音声入力を受け付けた場合には、ユーザ端末は、料理の情報を提供するサーバに対して料理の情報の要求を行い、料理の情報のURLを取得し、取得したURLを用いて料理の情報を取得する。
また、ユーザ端末がサーバから情報を取得する方法として、ユーザ端末が、URLではなくXML(Extensible Markup Language)形式のデータをサーバから受信し、XML形式のデータをアプリケーションで加工して応答画面として表示する方法が知られている(例えば、特許文献1)。
特開2011−81510号公報
しかしながら、従来技術1では、ユーザが求めているサービスを提供できるアプリを特定するが、ユーザが求めているサービスを提供できるアプリがサーバ端末内に存在しない場合には、発話に対する応答を適切に行えない。このため、アプリケーションの追加や改善を行わなければならず、ユーザの要望に応えることができない。
また、従来技術2では、サーバから取得したURLを用いてサーバにアクセスするので、URLを受け取った後に再びサーバにアクセスを行う必要がある。このため、通信トラヒックの増大を招くおそれがあるだけでなく、ユーザからの発話を受け付けてから速やかに回答することが難しい。
なお、ユーザ端末が、URLではなくXML形式のデータをサーバから受信し、XML形式のデータをアプリケーションで加工して応答画面として表示する方法も考えられる。しかしながら、この方法では、アプリケーションがXML形式のデータを加工するので、画面レイアウトや画面表示項目の追加がある場合には、アプリケーション側をアップデートなどにより改善する必要があり、ユーザの要望に応えることができない。
本願は、上記に鑑みてなされたものであって、ユーザの発話に対して速やかに回答することを目的とする。
本願に係る応答生成装置は、ユーザの発話に対する応答をHTML形式の情報に従って表示する対話アプリケーションを有するユーザ端末から、前記ユーザが発話した情報である発話情報を取得する取得手段と、前記取得手段によって取得された発話情報を用いて、サービスに対する要求情報を生成する要求生成手段と、前記要求情報に基づいて取得したサービス情報を受信すると、該サービス情報をHTML形式のサービス情報に変換して前記発話情報に対する応答情報を生成し、該応答情報を前記ユーザ端末に送信する応答生成手段と、を備えたことを特徴とする。
本願に係る応答生成装置、応答生成システム、応答生成方法および応答生成プログラムは、画ユーザの発話に対して速やかに回答することができるという効果を奏する。
図1は、第1の実施形態に係るネットワークシステムの構成例を示す図である。 図2は、第1の実施形態に係る応答生成サーバの構成例を示す図である。 図3は、第1の実施形態に係るユーザ端末の構成例を示す図である。 図4は、第1の実施形態に係るユーザ端末の応答画像の一例を示す図である。 図5は、第1の実施形態に係るユーザ端末の応答画像の一例を示す図である。 図6は、第1の実施形態に係るユーザ端末の応答画像の一例を示す図である。 図7は、第1の実施形態に係るネットワークシステムによる処理の手順を示すシーケンス図である。 図8は、第1の実施形態に係る応答生成サーバによる変換処理を説明する図である。 図9は、第1の実施形態に係る応答生成サーバによる処理の手順を示すフローチャートである。 図10は、第1の実施形態に係るユーザ端末による処理の手順を示すフローチャートである。
(第1の実施形態)
図1〜図10を用いて、本願に係る応答生成装置、応答生成システム、応答生成方法および応答生成プログラムの第1の実施形態について説明する。
〔1−1.構成〕
まず、図1を用いて、第1の実施形態に係る応答生成サーバが含まれるネットワークシステムの構成について説明する。図1は、第1の実施形態に係るネットワークシステム1の構成例を示す図である。図1に例示するように、第1の実施形態に係るネットワークシステム1には、応答生成サーバ10と、ユーザ端末20と、音声認識サーバ30と、路線API(Application Program Interface)サーバ41、天気APIサーバ42と、Web検索APIサーバ43と、音声合成サーバ50とが含まれる。
応答生成サーバ10と、ユーザ端末20と、音声認識サーバ30と、路線APIサーバ41、天気APIサーバ42と、Web検索APIサーバ43と、音声合成サーバ50とは、ネットワーク60を介して、無線通信又は有線通信を行う。なお、以下の説明では、路線APIサーバ41、天気APIサーバ42と、Web検索APIサーバ43を区別する必要がない場合には、これらを総称して「APIサーバ40」と表記する場合がある。また、路線APIサーバ41、天気APIサーバ42、Web検索APIサーバ43は、APIサーバの一例であり、これらに限定されない。
〔1−1(1).応答生成サーバ10の構成〕
次に、図2を用いて、応答生成サーバ10の構成について説明する。図2は、第1の実施形態に係る応答生成サーバの構成例を示す図である。応答生成サーバ10は、ユーザ端末20によって送信される今回の発話のテキストデータと、過去の発話(例えば、過去3回分の発話)に関する情報とに応じて、APIサーバ40からXML形式のデータを取得し、取得したXML形式のデータをHTML(Hyper Text Markup Language)形式のデータに変換してユーザの発話に対する応答情報を生成し、応答情報をユーザ端末20に送信するコンピュータである。応答生成サーバ10は、通信部11と、制御部12と、記憶部13とを有する。なお、以下の説明では、応答生成サーバ10が、APIサーバ40からXML形式のデータを取得する場合を例にして説明するが、これに限定されるものではなく、例えば、JSON(Java(登録商標) Script Object Notation)形式のデータやPHP(Personal Home Page)シリアライズ形式のデータをAPIサーバ40から取得するようにしてもよい。
通信部11は、ネットワーク60を介してユーザ端末20、APIサーバ40および音声合成サーバ50との間で各種データを送受信する。通信部11は、例えば、NIC等に該当する。
記憶部13は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置である。記憶部13は、例えば、先読みリストを記憶する。ここで先読みリストとは、ユーザ端末20が対話アプリケーションを起動させた際に、事前に取得しておくべきデータ(以下、先読みデータという)のリストである。この先読みデータとは、ユーザ端末20における表示に用いられる表示用データである。また、先読みデータは、対話アプリケーションにおいて頻繁に使用される表示用データであり、例えば、天気情報を表示する画面において使用される天気のアイコンの画像データや、乗り換え情報を表示する際に使用されるスタイルシートのデータなどである。
制御部12は、応答生成サーバ10を対話サーバとして動作させる制御部であり、ユーザが今回発話したテキストデータ及びユーザが発話した過去の発話の履歴情報に応じて、APIサーバからXML形式のデータを取得し、XML形式のデータをHTML形式のデータに変換する。そして、制御部12は、変換したHTMLデータと応答発話用の中間表記と応答発話表示用のテキストデータとをユーザ端末20に送信する。
具体的には、制御部12は、ユーザが今回発話したテキストデータと、ユーザが発話した過去3回分の発話の履歴情報とを用いて、ユーザの発話の意図を推定して検索条件を生成し、生成した検索条件でAPIサーバ40に対してデータを要求する。そして、制御部12は、APIサーバからXML形式のデータを受け付けると、XML形式のデータをHTML形式のデータに変換する。そして、制御部12は、ユーザの発話に対する応答発話用の中間表記(音声情報)と応答発話表示用のテキストデータとHTML形式のデータとをユーザ端末20に送信する。制御部12は、例えば、CPUやMPU等により実現され、記憶部13に予め記憶されているコンピュータプログラムを実行することにより、取得部12a、送信部12b、要求生成部12c、変換部12d、音声合成指示部12e、応答生成部12fによる処理を実現する。
なお、応答生成サーバ10が有する各処理部は、以下に説明する情報処理の機能や作用を実現又は実行する。
〔1−1(2).ユーザ端末20の構成〕
次に、図3を用いて、ユーザ端末20の構成について説明する。図3は、第1の実施形態に係るユーザ端末20の構成例を示す図である。図3に示すように、ユーザ端末20は、携帯電話機、スマートフォン、PDA(Personal Digital Assistant)、タブレット型PC、ノート型PC、デスクトップ型PC等の情報処理装置である。ユーザ端末20は、図3に例示するように、通信部21と、マイク22と、スピーカ23と、表示部24と、アプリ25と、メモリ26とを有する。
通信部21は、ネットワーク60を介して応答生成サーバ10および音声認識サーバ30との間で各種データを送受信する。通信部21は、例えば、携帯端末やスマートフォンの場合には、アンテナや通信制御を行う電子回路等である。また、通信部21は、例えば、ユーザ端末20がノート型PCやデスクトップ型PCである場合には、NIC(Network Interface Card)等に該当する。通信部21は、例えば、ユーザ端末20がタブレット型PCである場合には、アンテナや通信制御を行う電子回路等である。
マイク22は、ユーザ端末20の利用者が発話した音声入力を受け付ける入力デバイスである。スピーカ23は、ユーザ端末20の利用者が発話した音声入力に対する応答音声を出力する出力デバイスである。また、表示部24は、各種情報を表示する表示デバイスであり、例えばタッチパネルや液晶ディスプレイ等である。
表示部24は、例えば、応答発話表示用のテキストデータと発話意図に応じたHTML形式のデータとを表示する。ここで、図4〜図6の例を用いて、表示部24によって表示される画面について説明する。図4〜図6は、第1の実施形態に係るユーザ端末の応答画像の一例を示す図である。
まず、図4の例を用いて説明すると、応答画像の上部に、発話用のテキストデータ(音声認識サーバ30から受信したデータ)および応答発話表示用のテキストデータ(応答生成サーバ10から受信したデータ)が表示され、応答発話表示用のテキストデータの下部に乗り換え情報に関するHTMLデータ(応答生成サーバ10から受信したデータ)が表示されている。
具体的には、図4に例示するように、発話用のテキストデータとして「六本木から浅草駅」と表示され、応答発話表示用のテキストデータ「六本木から東京メトロ日比谷線・東武動物公園行、17時1分出発の電車にお乗りください。」が表示されている。これは、ユーザが「六本木から浅草駅」と発話し、その応答として「六本木から東京メトロ日比谷線・東武動物公園行、17時1分出発の電車にお乗りください。」と表示していることを示している。また、図4に例示する画像を表示するとともに、「六本木から東京メトロ日比谷線・東武動物公園行、17時1分出発の電車にお乗りください。」という音声がスピーカ23から出力される。また、応答発話表示用のテキストデータの下部に、乗り換え情報に関するHTMLデータとして、「六本木駅」から「浅草駅」までの乗り換え情報が表示されている。
また、図5の例についても同様に、応答画像の上部に、発話用のテキストデータおよび応答発話表示用のテキストデータが表示され、応答発話表示用のテキストデータの下部に天気情報に関するHTMLデータが表示されている。具体的には、図5に例示するように、発話用のテキストデータとして「東京の天気は?」と表示され、応答発話表示用のテキストデータ「今日の東京の天気は、晴れ後曇りでしょう。」が表示されている。これは、ユーザが「東京の天気は?」と発話し、その応答として「今日の東京の天気は、晴れ後曇りでしょう。」と表示していることを示している。また、図5に例示する画像を表示するとともに、「今日の東京の天気は、晴れ後曇りでしょう。」という音声がスピーカ23から出力される。また、応答発話表示用のテキストデータの下部に、天気情報に関するHTMLデータとして、東京の1月10日火曜日の天気情報が表示されている。なお、天気情報として表示されている晴れのアイコンは、応答生成サーバ10から先読みした先読みデータが用いられている。
また、図6の例についても同様に、応答画像の上部に、発話用のテキストデータおよび応答発話表示用のテキストデータが表示され、応答発話表示用のテキストデータの下部に天気情報に関するHTMLデータが表示されている。具体的には、図6に例示するように、発話用のテキストデータとして「ミッドタウンを検索。」と表示され、応答発話表示用のテキストデータ「ミッドタウンを検索しました。」が表示されている。これは、ユーザが「ミッドタウンを検索。」と発話し、その応答として「ミッドタウンを検索しました。」と表示していることを示している。また、図6に例示する画像を表示するとともに、「ミッドタウンを検索しました。」という音声がスピーカ23から出力される。また、応答発話表示用のテキストデータの下部に、ウェブ検索に関するHTMLデータとして、東京ミッドタウンに関する検索結果の画面が表示されている。
アプリ25は、対話アプリケーションであって、起動の指示を受け付けると、まず、先読みデータを応答生成サーバ10に要求する。続いて、アプリ25は、応答生成サーバ10から先読みデータを受信すると、先読みデータ記憶部26cに先読みデータを格納する。そして、アプリ25は、利用者が発話した音声入力を受け付けると、音声データを音声認識サーバ30に送信し、音声認識サーバ30から発話のテキストデータを受信する。また、アプリ25は、発話のテキストデータや過去の発話情報を応答生成サーバ10に送信し、応答生成サーバ10からHTMLの言語で記述されたデータ、応答発話用の中間表記および応答発話表示用のテキストデータなどを受信する。
アプリ25は、HTML形式のデータ、中間表記および応答発話表示用のテキストデータを受信すると、HTML形式のデータを履歴情報として履歴記憶部26aに記憶する。また、アプリ25は、発話に対する応答画面を生成するためのデータであって、応答生成サーバ10から取得する必要があるデータ(画像ファイルやスタイルシートなど)がある場合には、そのデータが先読みデータ記憶部26cに記憶されているか否かを判定し、記憶されている場合には、応答生成サーバ10から取得せずに、先読みデータ記憶部26cから取得する。また、先読みデータ記憶部26cに記憶されていない場合には、応答生成サーバ10と通信を行って、データを取得する。また、アプリ25は、ユーザ端末20の利用者が発話した音声入力に対する応答音声を出力したり、HTML等の言語で記述されたデータを表示したりする。アプリ25は、CPUやMPU等により実現され、先読み要求生成部25a、音声データ送信部25b、テキストデータ受信部25c、テキストデータ送信部25d、HTMLデータ受信部25e、表示制御部25fによる処理を実現する。
メモリ26は、履歴記憶部26a、位置情報記憶部26bおよび先読みデータ記憶部26cを有する。メモリ26は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子等の記憶装置である。履歴記憶部26aは、発話のテキストデータとともに送信される、過去の発話に関する履歴情報を記憶する。位置情報記憶部26bは、発話のテキストデータとともに送信される、ユーザ端末10の現在位置を示す位置情報を記憶する。先読みデータ記憶部26cは、対話アプリケーションを起動させた際に行われる先読み処理によって取得された先読みデータを記憶する。なお、メモリ26は、履歴情報や位置情報のほかに、ユーザの自宅の住所などの個人情報を記憶していてもよい。これらの情報は、履歴情報や位置情報と同様に、発話のテキストデータとともに応答生成サーバ10に送信してもよい。
なお、ユーザ端末20が有する各処理部は、以下に説明する情報処理の機能や作用を実現又は実行する。
〔1−2(1).作用(ネットワークシステム)〕
次に、図7を用いて、第1の実施形態に係るネットワークシステムによる全体の処理手順について説明する。図7は、第1の実施形態に係るネットワークシステムによる処理の手順を示すシーケンス図である。図7に例示するように、ユーザ端末20は、アプリケーションの起動指示を受け付けると、アプリケーションを起動する(ステップS1)。そして、ユーザ端末20の先読み要求部25aは、先読みデータを応答生成サーバ10に要求する(ステップS2)。
続いて、応答生成サーバ10の送信部12bは、先読みデータの要求を応答生成サーバ10から受け付けると、記憶部13に記憶された先読みリストを参照し、先読みデータをユーザ端末20に送信する(ステップS3)。なお、応答生成サーバ10は、先読みデータを予め記憶していてもよいし、先読みデータをAPIサーバ40から取得するようにしてもよい。
そして、ユーザ端末20の音声データ送信部25bは、ユーザの発話を検知すると、発話の音声データをsocket通信により音声認識サーバ30へ送信する(ステップS4)。そして、音声認識サーバ30は、発話の音声データを受信すると、音声データをテキストデータに変換する(ステップS5)。そして、音声認識サーバ30は、変換した発話のテキストデータをユーザ端末20に送信する(ステップS6)。
続いて、ユーザ端末20のテキストデータ受信部25cが、音声認識サーバ30から発話のテキストデータを受信すると、テキストデータ送信部25dは、発話のテキストデータや過去3回分の発話に関する履歴情報等を応答生成サーバ10に送信する(ステップS7)。なお、ユーザ端末20のテキストデータ送信部25dは、発話のテキストデータ、ユーザが発話した過去3回分の発話情報のほかに、ユーザ端末20の現在位置を示す位置情報、予めユーザに登録されたユーザの住所などを応答生成サーバ10に送信してもよい。
このように、ユーザが発話するたびにユーザ端末20から今回発話したテキストデータとともに、ユーザが発話した過去の発話の履歴情報を受信することができるため、応答生成サーバ10がセッション管理のために、履歴情報を記憶する必要がなくなり、応答生成サーバ10の処理負荷を軽減することができる。
続いて、応答生成サーバ10の取得部12aが、発話のテキストデータや過去3回分の発話に関する履歴情報等を受け付けると、応答生成サーバ10の要求生成部12cは、応答の生成に必要なデータの検索条件を指定し、APIサーバ40に対してデータの要求を行う(ステップS8)。具体的には、応答生成サーバ10の要求生成部12cは、発話のテキストデータや過去3回分の発話に関する履歴情報等を受信すると、発話のテキストデータや過去3回分の発話に関する履歴情報等を用いて、今回の発話によりユーザが求めるサービスを特定し、APIサーバ40に対して発話に対する応答を生成するための情報を要求する検索条件を生成し、検索条件をAPIサーバ40に送信して応答生成に必要なデータを要求する(ステップS9)。
そして、APIサーバ40は、受信した検索条件に従って、XMLデータを取得する処理を行う(ステップS10)。例えば、応答生成サーバ10は、出発地「六本木駅」、目的地「浅草駅」で経路探索する検索条件を受け付けると、六本木駅から浅草駅までの乗り換え情報や、電車賃に関する情報などを取得する処理を行う。そして、APIサーバ40は、取得したXMLデータを応答生成サーバ10に送信する(ステップS11)。
そして、応答生成サーバ10の変換部12dは、APIサーバ40からXMLデータを受信すると、発話情報から特定される応答フォーマットに従って、XMLデータからデータを抽出することで、XMLデータをHTMLデータに変換する(ステップS12)。
ここで、図8を用いて、XMLデータをHTMLデータに変換する処理について説明する。図8は、第1の実施形態に係る応答生成サーバによる変換処理を説明する図である。例えば、応答生成サーバ10の変換部12dは、路線検索に関するXMLデータを受信すると、乗り換えに関する路線テンプレートに従って、XMLデータから駅名や乗車時間の情報を抽出し、XMLデータをHTMLデータに変換する。また、変換部12dは、例えば、料金テンプレートに従って、路線検索に関するXMLデータから電車賃に関する情報を抽出し、XMLデータをHTMLデータに変換する。
続いて、応答生成サーバ10の音声合成指示部12eは、応答発話表示用のテキストデータを音声合成サーバ50に送信する(ステップS13)。そして、音声合成サーバ50は、応答発話表示用のテキストデータから音声を合成する音声合成処理を行って、応答発話用の中間表記を生成する(ステップS14)。そして、音声合成サーバ50は、応答発話用の中間表記を応答生成サーバ10に送信する(ステップS15)。
続いて、応答生成サーバ10の応答生成部12fは、応答発話用の中間表記と応答発話表示用のテキストデータとHTMLデータとをユーザ端末20に送信する(ステップS16)。そして、ユーザ端末20のHTMLデータ受信部25eは、受信した応答発話表示用のテキストデータの履歴情報とHTMLデータの履歴情報とを格納する(ステップS17)。
続いて、ユーザ端末20のHTMLデータ受信部25eは、発話に対する応答画面を生成するためのデータであって、応答生成サーバ10から取得する必要があるデータ(画像ファイルやスタイルシートなど)がある場合には、そのデータが先読みデータ記憶部26cに記憶されているか否かを判定する(ステップS18)。この結果、HTMLデータ受信部25eは、先読みデータ記憶部26cに記憶されている場合には、応答生成サーバ10から取得せずに、先読みデータ記憶部26cから取得する。また、HTMLデータ受信部25eは、先読みデータ記憶部26cに記憶されていない場合には、応答生成サーバ10と通信を行って、データを取得する。
そして、ユーザ端末20の表示制御部25fは、応答発話用の中間表記を用いて、応答の音声を出力するとともに、応答発話表示用のテキストデータとHTMLデータとを用いて、応答内容を表示する(ステップS19)。
〔1−2(2).作用(応答生成サーバ)〕
次に、図9を用いて、第1の実施形態に係る応答生成サーバ10による処理手順について説明する。図9は、第1の実施形態に係る応答生成サーバ10による処理の手順を示すフローチャートである。図9に例示するように、応答生成サーバ10の取得部12aは、ユーザが今回発話したテキストデータ及びユーザが発話した過去3回分の発話の履歴情報を受信したか否かを判定する(ステップS101)。なお、取得部12aは、今回発話されたテキストデータ、ユーザが発話した過去3回分の発話情報の他にも、ユーザ端末20の現在位置を示す位置情報、予めユーザに登録されたユーザの住所などを受信する。
そして、取得部12aは、ユーザが今回発話されたテキストデータ及びユーザが発話した過去3回分の発話の履歴情報を受信したと判定すると(ステップS101肯定)、要求生成部12cは、ユーザが今回発話したテキストデータ及びユーザが発話した過去3回分の発話の履歴情報に基づいて、APIサーバ40に発話に対する応答を生成するためのXML形式のデータを要求する(ステップS102)。
続いて、変換部12dは、XML形式のデータを受信すると、XML形式のデータをHTMLデータに変換する(ステップS103)。例えば、変換部12dは、路線検索に関するXMLデータを受信すると、乗り換えに関する路線テンプレートに従って、XMLデータから駅名や乗車時間の情報を抽出し、XMLデータをHTMLデータに変換する。
そして、音声合成サーバ50から応答発話用の中間表記を受信した後に(図7のステップS13〜S15参照)、HTML形式のデータと応答発話用の中間表記と応答発話表示用のテキストデータとをユーザ端末20に送信する(ステップS104)。
〔1−2(3).作用(ユーザ端末)〕
次に、図10を用いて、第1の実施形態に係るユーザ端末20による処理手順について説明する。図10は、第1の実施形態に係るユーザ端末20による処理の手順を示すフローチャートである。図10に例示するように、ユーザ端末20のHTMLデータ受信部25eは、HTML形式のデータと応答発話用の中間表記と応答発話表示用のテキストデータとを応答生成サーバ10から受信したか否かを判定する(ステップS201)。
この結果、HTMLデータ受信部25eは、HTML形式のデータと応答発話用の中間表記と応答発話表示用のテキストデータとを応答生成サーバ10から受信したと判定した場合には(ステップS201肯定)、応答画面を生成するために必要な画像データやスタイルシートに関する情報が先読みデータ記憶部26cに記憶された先読みデータに含まれているか否かを判定する(ステップS202)。この結果、HTMLデータ受信部25eは、画像データやスタイルシートに関する情報が先読みデータ記憶部26cに記憶された先読みデータに含まれていないと判定した場合には(ステップS202否定)、画像データやスタイルシートに関する情報を応答生成サーバ10に要求して取得する(ステップS204)。
一方、HTMLデータ受信部25eは、画像データやスタイルシートに関する情報が先読みデータ記憶部26cに記憶された先読みデータに含まれていると判定した場合には(ステップS202肯定)、画像データやスタイルシートに関する情報を先読みデータ記憶部26cに記憶された先読みデータから取得する(ステップS203)。このように、対話アプリケーションを起動させた際に、事前に先読みデータを取得することで、応答生成サーバ10との通信回数を減らすことができ、発話に対する応答画面を表示する速度を向上させることが可能である。なお、この先読みデータの内容は、応答生成サーバ側で適宜変更することができるが、対話アプリケーションにおいて頻繁に使用されるデータであることが好ましい。
そして、表示制御部25fは、発話に関する部分がテキストデータで構成され、その他の部分をHTMLデータで構成される画面データを作成する(ステップS205)。例えば、前述した図4の画面例を用いて説明すると、ユーザの発話した内容である「六本木から浅草駅」がテキストデータで構成され、ユーザの発話に対する応答の内容である「六本木から東京メトロ日比谷線・東武動物公園行、17時1分出発の電車にお乗りください。」もテキストデータで構成され、「六本木駅」から「浅草駅」までの乗り換え情報がHTMLデータで構成されている。その後、表示制御部25fは、作成した画面データを表示部24に表示する(ステップS206)。
〔1−3.効果〕
上述してきたように、第1の実施形態に係る応答生成サーバ10は、ユーザの発話に対する応答をHTML形式のデータに従って表示する対話アプリケーションを有するユーザ端末20から、ユーザが発話した情報である発話情報を取得する。そして、応答生成サーバ10は、取得された発話情報を用いて、サービスに対する検索条件を生成する。続いて、応答生成サーバ10は、検索条件に基づいて取得したデータを受信すると、該データをHTML形式のデータに変換して発話情報に対する応答情報を生成し、該応答情報をユーザ端末20に送信する。
これにより、第1の実施形態に係る応答生成サーバ10では、HTML形式のデータをユーザ端末20に送信するので、HTML形式のデータを受け付けたユーザ端末20がHTML形式のデータに従って画面を表示することができ、ユーザからの発話を受け付けてから速やかに回答することを可能にする。また、画面レイアウトや画面表示項目の追加等のアプリケーションの機能追加がある場合でも、該機能追加については、応答生成サーバ10で対応するため、ユーザ端末20のアプリケーションを改善する必要がない。従って、ユーザにアプリケーションのバージョンアップ等、不要な作業を発生させず、また、バージョンアップ等の為の通信等にかかるコスト等を低減しつつ、ユーザからの発話を受け付けてから速やかに画面を表示することを可能にする。
また、第1の実施形態に係る応答生成サーバ10は、発話情報から特定される応答フォーマットに応じて、検索条件に基づいてAPIサーバ40から取得したデータから応答に必要な情報を抽出することで、検索条件に基づいてAPIサーバ40から取得したデータをHTML形式のデータに変換する。
これにより、第1の実施形態に係る応答生成サーバ10では、検索条件に基づいてAPIサーバ40から取得したデータから応答に必要な情報を抽出することで、検索条件に基づいてAPIサーバ40から取得したデータをHTML形式のデータに適切に変換することを可能にする。
また、第1の実施形態に係る応答生成サーバ10は、ユーザ端末20における表示に用いられる表示用データを先読みデータとして記憶する。そして、応答生成サーバ10は、対話アプリケーションを起動したユーザ端末20に対して、表示用データを送信する。そして、応答生成サーバ10は、ユーザ端末20に送信された表示用データを表示させる命令が記述されたHTML形式のデータに変換する。
これにより、第1の実施形態に係る応答生成サーバ10では、対話アプリケーションを起動したユーザ端末20に対して、予め表示用データを送信するので、発話に対する応答画面に表示用データが必要な場合であっても、ユーザの操作に応じて、都度、ユーザ端末20が応答生成サーバ10にアクセスする処理を行う必要がないので、ユーザからの発話を受け付けてから速やかに画面を表示することを可能にする。
また、第1の実施形態に係る応答生成サーバ10は、発話情報とともに、発話情報と同じ発話者であるユーザの過去の発話情報に関する履歴情報をユーザ端末20から取得し、取得された発話情報および履歴情報を用いて、サービスに対する検索条件を生成する。
これにより、第1の実施形態に係る応答生成サーバ10は、発話情報および履歴情報を用いて、サービスに対する検索条件を生成するので、今回の発話から必要最小限の情報しか得られない場合であっても、ユーザの発話の意図を的確に把握し、適切な応答を行うことを可能にする。また、ユーザが発話するたびにユーザ端末20から今回発話したテキストデータとともに、ユーザが発話した過去の発話の履歴情報を受信することができるため、応答生成サーバ10がセッション管理のために、履歴情報を記憶する必要がなくなり、応答生成サーバ10の処理負荷を軽減することができる。
(第2の実施形態)
本願に係る応答生成装置、応答生成方法および応答生成プログラムは、上述した第1の実施形態以外にも種々の異なる形態にて実施されてよい。第2の実施形態では、他の実施形態について説明する。
〔2−1.応答画面〕
上述した第1の実施形態においては、発話に対する応答画像は、テキストデータで構成される部分と、HTMLデータで構成される部分とが含まれる場合を説明した。しかしながら、実施形態はこれに限定されるものではなく、例えば、応答画像は、全てHTMLデータで構成されるようにしてもよい。
〔2−2.その他〕
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述した応答生成サーバ10は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
また、特許請求の範囲に記載した「手段」は、「部(section、module、unit)」や「回路」などに読み替えることができる。例えば、応答生成手段は、応答生成部や応答生成回路に読み替えることができる。
10 応答生成サーバ
11 通信部
12 制御部
12a 取得部
12b 送信部
12c 要求生成部
12d 変換部
12e 音声合成指示部
12f 応答生成部
13 記憶部
20 ユーザ端末
21 通信部
22 マイク
23 スピーカ
24 表示部
25 アプリ
25a 先読み要求部
25b 音声データ送信部
25c テキストデータ受信部
25d テキストデータ送信部
25e HTMLデータ受信部
25f 表示制御部
26 メモリ
26a 履歴記憶部
26b 位置情報記憶部
26c 先読みデータ記憶部
30 音声認識サーバ
41 路線APIサーバ
42 天気APIサーバ
43 Web検索APIサーバ

Claims (6)

  1. ユーザの発話に対する応答をHTML形式の情報に従って表示する対話アプリケーションを有するユーザ端末における表示に用いられる表示用データを記憶する記憶手段と、
    前記対話アプリケーションが起動されるたびに前記ユーザ端末に対して、前記表示用データを送信する送信手段と、
    前記ユーザ端末から、前記ユーザが発話した情報である発話情報を取得する取得手段と、
    前記取得手段によって取得された発話情報を用いて、該発話情報に対応するサービスに対する要求情報を生成し、前記サービスを提供するサービス提供サーバに前記要求情報を送信する要求生成手段と、
    前記要求情報に基づいて取得したサービス情報を受信すると、前記発話情報に応じて複数の応答フォーマットのなかから一つの応答フォーマットを特定し、該応答フォーマットに従って、前記要求情報に基づいて取得したサービス情報から応答に必要な情報を抽出し、該サービス情報をHTML形式のサービス情報であって前記ユーザ端末に送信された表示用データを表示させる命令が記述されたHTML形式のサービス情報に変換して前記発話情報に対する応答情報を生成し、該応答情報を前記ユーザ端末に送信する応答生成手段と、
    を備えたことを特徴とする応答生成装置。
  2. 前記取得手段は、前記発話情報とともに、前記発話情報と同じ発話者であるユーザの過去の発話情報に関する履歴情報をユーザ端末から取得し、
    前記要求生成手段は、前記取得手段によって取得された発話情報および履歴情報を用いて、サービスに対する要求情報を生成することを特徴とする請求項1に記載の応答生成装置。
  3. 前記応答生成手段は、発話用のテキストデータおよび応答発話表示用のテキストデータが上部に含まれ、前記HTMLデータ形式のサービス情報が下部に含まれる応答画面を前記ユーザ端末に表示させることを特徴とする請求項1または2に記載の応答生成装置。
  4. ユーザの発話に対する応答をHTML形式の情報に従って表示する対話アプリケーションを有するユーザ端末と、前記ユーザが発話した情報である発話情報に対する応答情報を生成する応答生成サーバと含む応答生成システムにおいて、
    前記応答生成サーバは、
    前記ユーザ端末における表示に用いられる表示用データを記憶する記憶手段と、
    前記対話アプリケーションが起動されるたびに前記ユーザ端末に対して、前記表示用データを送信する送信手段と、
    前記ユーザ端末から、前記ユーザが発話した情報である発話情報を取得する取得手段と、
    前記取得手段によって取得された発話情報を用いて、該発話情報に対応するサービスに対する要求情報を生成し、前記サービスを提供するサービス提供サーバに前記要求情報を送信する要求生成手段と、
    前記要求情報に基づいて取得したサービス情報を受信すると、前記発話情報に応じて複数の応答フォーマットのなかから一つの応答フォーマットを特定し、該応答フォーマットに従って、前記要求情報に基づいて取得したサービス情報から応答に必要な情報を抽出し、該サービス情報をHTML形式のサービス情報であって前記ユーザ端末に送信された表示用データを表示させる命令が記述されたHTML形式のサービス情報に変換して前記発話情報に対する応答情報を生成し、該応答情報を前記ユーザ端末に送信する応答生成手段と、
    を備え、
    前記ユーザ端末は、
    前記応答生成サーバに前記発話情報を送信する送信手段と、
    前記応答生成サーバから前記応答情報を受信する受信手段と、
    前記受信手段によって受信された応答情報に含まれるHTML形式のサービス情報に従って、前記発話に対する応答を表示するように制御する表示制御手段と、
    を備えたことを特徴とする応答生成システム。
  5. コンピュータで実行される応答生成方法であって、
    ユーザの発話に対する応答をHTML形式の情報に従って表示する対話アプリケーションを有するユーザ端末における表示に用いられる表示用データを、前記対話アプリケーションが起動されるたびに前記ユーザ端末に対して送信する送信工程と、
    前記ユーザ端末から、前記ユーザが発話した情報である発話情報を取得する取得工程と、
    前記取得工程によって取得された発話情報を用いて、該発話情報に対応するサービスに対する要求情報を生成し、前記サービスを提供するサービス提供サーバに前記要求情報を送信する要求生成工程と、
    前記要求情報に基づいて取得したサービス情報を受信すると、前記発話情報に応じて複数の応答フォーマットのなかから一つの応答フォーマットを特定し、該応答フォーマットに従って、前記要求情報に基づいて取得したサービス情報から応答に必要な情報を抽出し、該サービス情報をHTML形式のサービス情報であって前記ユーザ端末に送信された表示用データを表示させる命令が記述されたHTML形式のサービス情報に変換して前記発話情報に対する応答情報を生成し、該応答情報を前記ユーザ端末に送信する応答生成工程と、
    を含んだことを特徴とする応答生成方法。
  6. ユーザの発話に対する応答をHTML形式の情報に従って表示する対話アプリケーションを有するユーザ端末における表示に用いられる表示用データを、前記対話アプリケーションが起動されるたびに前記ユーザ端末に対して送信する送信手順と、
    前記ユーザ端末から、前記ユーザが発話した情報である発話情報を取得する取得手順と、
    前記取得手順によって取得された発話情報を用いて、該発話情報に対応するサービスに対する要求情報を生成し、前記サービスを提供するサービス提供サーバに前記要求情報を送信する要求生成手順と、
    前記要求情報に基づいて取得したサービス情報を受信すると、前記発話情報に応じて複数の応答フォーマットのなかから一つの応答フォーマットを特定し、該応答フォーマットに従って、前記要求情報に基づいて取得したサービス情報から応答に必要な情報を抽出し、該サービス情報をHTML形式のサービス情報であって前記ユーザ端末に送信された表示用データを表示させる命令が記述されたHTML形式のサービス情報に変換して前記発話情報に対する応答情報を生成し、該応答情報を前記ユーザ端末に送信する応答生成手順と、
    をコンピュータに実行させることを特徴とする応答生成プログラム。
JP2012072555A 2012-03-27 2012-03-27 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム Active JP5886103B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012072555A JP5886103B2 (ja) 2012-03-27 2012-03-27 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012072555A JP5886103B2 (ja) 2012-03-27 2012-03-27 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム

Publications (2)

Publication Number Publication Date
JP2013205524A JP2013205524A (ja) 2013-10-07
JP5886103B2 true JP5886103B2 (ja) 2016-03-16

Family

ID=49524695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012072555A Active JP5886103B2 (ja) 2012-03-27 2012-03-27 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム

Country Status (1)

Country Link
JP (1) JP5886103B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101309794B1 (ko) * 2012-06-27 2013-09-23 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
JP6570169B2 (ja) * 2015-02-23 2019-09-04 Kddi株式会社 ユーザ対話システムと共にユーザ操作を支援する対話支援プログラム、サーバ及び方法
JP6918255B1 (ja) * 2018-06-27 2021-08-11 グーグル エルエルシーGoogle LLC 局所的なテキスト応答マップを利用する、ユーザの口頭発話への応答のレンダリング
JP6786005B1 (ja) * 2020-04-09 2020-11-18 日鉄エンジニアリング株式会社 情報出力装置、情報出力システム、情報出力方法、プログラム、サーバ装置及びデータ出力方法
JP6786001B1 (ja) * 2020-04-09 2020-11-18 日鉄エンジニアリング株式会社 情報出力装置、情報出力システム、情報出力方法、プログラム、サーバ装置及びデータ出力方法
JP7200189B2 (ja) * 2020-10-06 2023-01-06 楽天グループ株式会社 検索補助システム、情報提供サーバ、情報提供方法、ならびに、プログラム
CN112269607A (zh) 2020-11-17 2021-01-26 北京百度网讯科技有限公司 小程序的控制方法、系统、服务器以及终端设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3789535B2 (ja) * 1996-01-31 2006-06-28 ソニー株式会社 情報処理装置および情報処理方法
JP2000259640A (ja) * 1999-03-04 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 構造化文書カスタマイズ表示方法及びシステム及びサーバ装置及びクライアント装置構造化文書カスタマイズ表示プログラムを格納した記憶媒体
JP2004094687A (ja) * 2002-08-30 2004-03-25 Nippon Telegraph & Telephone East Corp 情報提供装置、プログラム及び記録媒体
JP2009224819A (ja) * 2006-07-07 2009-10-01 Sharp Corp 携帯通信端末、情報提供プログラム、及び情報提供プログラムを記録したコンピュータ読取り可能な記録媒体
JP5152314B2 (ja) * 2010-12-16 2013-02-27 沖電気工業株式会社 対話管理装置、方法及びプログラム、並びに意識抽出システム

Also Published As

Publication number Publication date
JP2013205524A (ja) 2013-10-07

Similar Documents

Publication Publication Date Title
JP5965175B2 (ja) 応答生成装置、応答生成方法および応答生成プログラム
JP5886103B2 (ja) 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム
KR102490776B1 (ko) 디지털 개인 비서 내에서 헤드리스로 작업을 완료하기 위한 기법
EP3241213B1 (en) Discovering capabilities of third-party voice-enabled resources
TWI585744B (zh) 用於操作虛擬助理之方法、系統及電腦可讀取儲存媒體
CN106462380B (zh) 用于对于语音命令提供提示的系统和方法
JP5616390B2 (ja) 応答生成装置、応答生成方法および応答生成プログラム
JP2005149484A (ja) 逐次的なマルチモーダル入力
US9680963B2 (en) In-vehicle web presentation
JP2005149485A (ja) 逐次的なマルチモーダル入力
JP2014049140A (ja) 使用者デバイスで入力文字を利用した知能型サービス提供方法及び装置
EP3694196A1 (en) System and method for providing service via application
US11163377B2 (en) Remote generation of executable code for a client application based on natural language commands captured at a client device
US10235133B2 (en) Tooltip surfacing with a screen reader
KR102321361B1 (ko) 애플리케이션을 통하여 서비스를 제공하는 시스템 및 방법
CN110618811A (zh) 信息呈现方法和装置
JP5461615B2 (ja) 応答生成装置、応答生成方法および応答生成プログラム
US20140101284A1 (en) System and method for customization of web content
CA3158979C (en) Headless task completion within digital personal assistants
Pascual Espada et al. Method Based on Context-Information to Improve User Experience on Mobile Web-Based Applications
CN111899575A (zh) 听写内容发布方法、装置、设备和存储介质
KR20090050501A (ko) 홈네트워크에서의 멀티모달 인터페이스 시스템 및 방법
KR20150131786A (ko) 음성 통화 시 시각적인 부가 서비스를 제공하기 위한 장치, 방법 및 모바일 서비스 시스템

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140325

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140526

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150319

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150327

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20150529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160210

R150 Certificate of patent or registration of utility model

Ref document number: 5886103

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250