JP5616390B2 - 応答生成装置、応答生成方法および応答生成プログラム - Google Patents

応答生成装置、応答生成方法および応答生成プログラム Download PDF

Info

Publication number
JP5616390B2
JP5616390B2 JP2012072554A JP2012072554A JP5616390B2 JP 5616390 B2 JP5616390 B2 JP 5616390B2 JP 2012072554 A JP2012072554 A JP 2012072554A JP 2012072554 A JP2012072554 A JP 2012072554A JP 5616390 B2 JP5616390 B2 JP 5616390B2
Authority
JP
Japan
Prior art keywords
information
utterance
response
user
response generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012072554A
Other languages
English (en)
Other versions
JP2013205523A (ja
Inventor
颯々野 学
学 颯々野
新田 清
清 新田
健一 磯
健一 磯
衣織 西田
衣織 西田
美晴 永田
美晴 永田
吉克 舩坂
吉克 舩坂
輝喜 津田
輝喜 津田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2012072554A priority Critical patent/JP5616390B2/ja
Publication of JP2013205523A publication Critical patent/JP2013205523A/ja
Application granted granted Critical
Publication of JP5616390B2 publication Critical patent/JP5616390B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は応答生成装置、応答生成方法および応答生成プログラムに関する。
従来、ユーザからの発話を受け付けたユーザ端末から音声に関するデータを受信し、音声に関するデータを用いてユーザが要求する情報を特定し、ユーザの発話に対する応答を生成する応答生成サーバが知られている。例えば、応答生成サーバは、ユーザからの質問に係る音声に関するデータをユーザ端末から受け付け、受け付けた音声に関するデータと定型の質問文を用いて、質問の意味を理解し、質問に対する応答を生成する。
特開2009−193532号公報 特開2007−11674号公報
しかしながら、上述した従来の技術では、ユーザの発話の意図を的確に判定することが出来ず、適切な応答ができない場合がある。例えば、ユーザが、前回の発話を考慮して必要最小限の言葉しか発話しなかった場合には、応答生成サーバは、ユーザからの質問について適格な意味理解ができず、適切な応答ができない場合がある。
本願は、上記に鑑みてなされたものであって、ユーザの発話の意図を的確に把握し、適切な応答を行うことを目的とする。
本願に係る応答生成装置は、ユーザが発話した情報である発話情報を取得する取得手段と、前記取得手段によって取得された発話情報に応じて、前記発話情報、または、前記発話情報および前記発話情報と同じ発話者であるユーザの過去の発話情報に関する履歴情報を用いて、サービスに対する要求情報を生成する要求生成手段と、前記要求情報に基づいて取得したサービス情報を用いて、前記発話情報に対する応答情報を生成する応答生成手段と、を備えたことを特徴とする。
本願に係る応答生成装置、応答生成方法および応答生成プログラムは、ユーザの発話の意図を的確に把握し、適切な応答を行うことができるという効果を奏する。
図1は、第1の実施形態に係るネットワークシステムの構成例を示す図である。 図2は、第1の実施形態に係る応答生成サーバの構成例を示す図である。 図3は、第1の実施形態に係る応答生成サーバの記憶部によって記憶される条件表の一例を示す図である。 図4は、第1の実施形態に係る応答生成サーバの記憶部によって記憶されるコマンド表の一例を示す図である。 図5は、第1の実施形態に係る応答生成サーバの記憶部によって記憶される条件表の一例を示す図である。 図6は、第1の実施形態に係る応答生成サーバの記憶部によって記憶されるコマンド表の一例を示す図である。 図7は、第1の実施形態に係るユーザ端末の構成例を示す図である。 図8は、第1の実施形態に係るネットワークシステムによる処理の手順を示すシーケンス図である。 図9は、第1の実施形態に係る応答生成サーバによる処理の手順を示すフローチャートである。 図10は、第1の実施形態に係るユーザ端末の応答画像の一例を説明するための図である。 図11は、第1の実施形態に係るユーザ端末の応答画像の一例を示す図である。 図12は、第1の実施形態に係るユーザ端末の応答画像の一例を示す図である。
以下に、本願に係る応答生成装置、応答生成方法および応答生成プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る応答生成装置、応答生成方法および応答生成プログラムが限定されるものではない。
(第1の実施形態)
図1〜図12を用いて、本願に係る応答生成装置、応答生成方法および応答生成プログラムの第1の実施形態について説明する。
〔1−1.構成〕
まず、図1を用いて、第1の実施形態に係る応答生成サーバが含まれるネットワークシステムの構成について説明する。図1は、第1の実施形態に係るネットワークシステムの構成例を示す図である。図1に例示するように、第1の実施形態に係るネットワークシステムには、応答生成サーバ10と、ユーザ端末20と、音声認識サーバ30と、路線API(Application Program Interface)サーバ41、天気APIサーバ42と、Web検索APIサーバ43と、音声合成サーバ50とが含まれる。
応答生成サーバ10と、ユーザ端末20と、音声認識サーバ30と、路線APIサーバ41、天気APIサーバ42と、Web検索APIサーバ43と、音声合成サーバ50とは、ネットワーク60を介して、無線通信又は有線通信を行う。なお、以下の説明では、路線APIサーバ41、天気APIサーバ42と、Web検索APIサーバ43を区別する必要がない場合には、これらを総称して「APIサーバ40」と表記する場合がある。また、路線APIサーバ41、天気APIサーバ42、Web検索APIサーバ43は、APIサーバの一例であり、これらに限定されない。
〔1−1(1).応答生成サーバ10の構成〕
次に、図2を用いて、応答生成サーバ10の構成について説明する。図2は、第1の実施形態に係る応答生成サーバの構成例を示す図である。応答生成サーバ10は、ユーザ端末20によって送信される発話のテキストデータと、ユーザ端末20から応答サーバ10に送信された過去の発話(例えば、過去3回分の発話)に関する情報とに応じて、ユーザの発話に対する応答生成情報をユーザ端末20に送信するコンピュータである。応答生成サーバ10は、通信部11と、制御部12と、記憶部13とを有する。なお、以下の説明では、応答生成サーバ10が、APIサーバ40からXML(Extensible Markup Language)形式のデータを取得する場合を例にして説明するが、これに限定されるものではなく、例えば、JSON(Java(登録商標) Script Object Notation)形式のデータやPHP(Personal Home Page)シリアライズ形式のデータをAPIサーバ40から取得するようにしてもよい。
通信部11は、ネットワーク60を介してユーザ端末20、APIサーバ40および音声合成サーバ50との間で各種データを送受信する。通信部11は、例えば、NIC等に該当する。
記憶部13は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置である。記憶部13は、図3〜図6に例示するように、複数の条件表および複数のコマンド表を記憶し、各条件表と各コマンド表とをそれぞれ一対一で対応付けて記憶する。ここで、条件表とは、ユーザが今回発話したテキストデータ及びユーザが発話した過去3回分の発話の履歴情報が所定の条件を満たしているか否かを定義する表である。また、コマンド表とは、テキストデータ及び履歴情報が条件表に定義された条件を満たしている場合に、APIサーバ40から情報を取得するための検索条件及びユーザの発話に対する応答を生成する際に使用される情報が規定された表である。図3および図5は、第1の実施形態に係る応答生成サーバの記憶部によって記憶される条件表の一例を示す図である。図4および図6は、第1の実施形態に係る応答生成サーバの記憶部によって記憶されるコマンド表の一例を示す図である。
例えば、図3に例示するように、記憶部13は、条件表として、路線探索用の条件表であるTRANSIT条件表を記憶する。図3の例を挙げて具体的に説明すると、図3に例示するTRANSIT条件表には、条件識別子「any−cond−0110」〜「any−cond−0112」の条件が定義されている。「any−cond−0110」〜「any−cond−0112」の条件として、過去3回の話題「METHOD_PREV1〜3」のいずれかが電車乗り換え「TRANSIT」であって、質問文(INTEXT)が電車到着に関する話題を示唆する語のパターンであることが定義されている。
また、記憶部13は、図4に例示するように、上記した条件識別子「any−cond−0110」〜「any−cond−0112」に対応するコマンド表として、TRANSITコマンド表のコマンド識別子「any−comm−0110」〜「any−comm−0112」を記憶する。このTRANSITコマンド表のコマンド識別子「any−comm−0110」〜「any−comm−0112」は、条件識別子「any−cond−0110」〜「any−cond−0112」のいずれかの条件を満たすと選択され、今回の質問の話題が電車乗り換えの話題「METHOD:TRANSIT_ARRIVAL_01」であるものとして設定される。つまり、ユーザが希望するサービスが電車乗り換えに関する情報の提示であるものと推定され、路線APIサーバ41から情報が取得される。
また、例えば、図5に例示するように、記憶部13は、条件表として、検索指示(Web検索)用の条件表であるSEARCH条件表を記憶する。図5の例を挙げて具体的に説明すると、図5に例示するSEARCH条件表には、条件識別子「search−cond−2120」の条件が定義されている。「search−cond−2120」の条件として、過去3回の話題「METHOD_PREV1〜3」が全て電車乗り換え「TRANSIT」であって、今回の質問文(INTEXT)が検索指示(METHOD=SEARCH)であって、且つ、検索クエリ(PARAM_QUERY)が「カレー」であるとき、図5に例示する条件識別子「search−cond−2120」の条件が発動する。
また、記憶部12は、図6に例示するように、上記した条件識別子「search−cond−2120」に対応するコマンド表として、SEARCHコマンド表のコマンド識別子「search−comm−2120」を記憶する。このSEARCHコマンド表のコマンド識別子「search−comm−2120」は、条件識別子「search−cond−2120」の条件が発動すると選択され、今回の質問の話題が飲食店の検索(SEARCH_RESTAURANT_01)であるものとして設定される。つまり、ユーザが希望するサービスが飲食店の検索により検索された情報の提示であるものと推定され、Web検索APIサーバ43から情報が取得される。なお、記憶部13は、条件表として、他の複数のTRANSIT条件表やSEARCH条件表、コマンド表も記憶しており、また、上記で例示していない他のAPIサーバ40に関する条件表やコマンド表も同様に記憶している。
図2に戻って、制御部12は、応答生成サーバ10を対話サーバとして動作させる制御部であり、ユーザが今回発話したテキストデータ及びユーザが発話した過去3回分の発話の履歴情報に応じて、APIサーバ40から情報を取得し、応答発話用の中間表記と応答発話表示用のテキストデータとHTMLデータをユーザ端末20に送信する。
具体的には、制御部12は、ユーザが今回発話したテキストデータと、ユーザが発話した過去3回分の発話の履歴情報を用いて、ユーザの発話の意図を推定し、ユーザの発話の意図からユーザが求めているサービスの内容を特定する。さらに、制御部12は、ユーザの今回の発話に含まれない情報を履歴情報から取得して検索条件を生成して、ユーザの発話に対する応答発話用の中間表記(音声情報)と応答発話表示用のテキストデータとHTMLデータとをユーザ端末20に送信する。制御部12は、例えば、CPUやMPU等により実現され、記憶部13に予め記憶されているコンピュータプログラムを実行することにより、取得部12a、要求生成部12b、変換部12c、音声合成指示部12d、応答生成部12eによる処理を実現する。
なお、応答生成サーバ10が有する各処理部は、以下に説明する情報処理の機能や作用を実現又は実行する。
〔1−1(2).ユーザ端末20の構成〕
次に、図7を用いて、ユーザ端末20の構成について説明する。図7は、第1の実施形態に係るユーザ端末20の構成例を示す図である。図7に示すように、ユーザ端末20は、携帯電話機、スマートフォン、PDA(Personal Digital Assistant)、タブレット型PC、ノート型PC、デスクトップ型PC等の情報処理装置である。ユーザ端末20は、図7に例示するように、通信部21と、マイク22と、スピーカ23と、表示部24と、アプリ25と、メモリ26とを有する。
通信部21は、ネットワーク60を介して応答生成サーバ10および音声認識サーバ30との間で各種データを送受信する。通信部21は、例えば、携帯端末やスマートフォンの場合には、アンテナや通信制御を行う電子回路等である。例えば、ユーザ端末20がノート型PCやデスクトップ型PCである場合には、NIC(Network Interface Card)等に該当する。通信部21は、例えば、ユーザ端末20がタブレット型PCである場合には、アンテナや通信制御を行う電子回路等である。
マイク22は、ユーザ端末20の利用者が発話した音声入力を受け付ける入力デバイスである。スピーカ23は、ユーザ端末20の利用者が発話した音声入力に対する応答音声を出力する出力デバイスである。また、表示部24は、各種情報を表示する表示デバイスであり、例えばタッチパネルや液晶ディスプレイ等である。表示部24は、例えば、応答発話表示用のテキストデータと発話意図に応じてHTMLデータとを表示する。
アプリ25は、利用者が発話した音声入力を受け付けると、音声データを音声認識サーバ30に送信し、音声認識サーバ30から発話のテキストデータを受信する。また、アプリ25は、発話のテキストデータや過去の発話情報を応答生成サーバ10に送信し、応答生成サーバ10からHTML(Hyper Text Markup Language)等の言語で記述されたデータ、応答発話用の中間表記および応答発話表示用のテキストデータなどを受信する。また、アプリ25は、ユーザ端末20の利用者が発話した音声入力に対する応答音声を出力したり、HTML等の言語で記述されたデータを表示したりする。アプリ25は、CPUやMPU等により実現され、音声データ送信部25a、テキストデータ受信部25b、テキストデータ送信部25c、HTMLデータ受信部25d、表示制御部25eによる処理を実現する。
メモリ26は、履歴記憶部26aおよび位置情報記憶部26bを有する。メモリ26は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子等の記憶装置である。履歴記憶部26aは、発話のテキストデータとともに送信される、過去の発話に関する履歴情報を記憶する。位置情報記憶部26bは、発話のテキストデータとともに送信される、ユーザ端末10の現在位置を示す位置情報を記憶する。なお、メモリ26は、履歴情報や位置情報のほかに、ユーザの自宅の住所などの個人情報を記憶していてもよい。これらの情報は、位置情報と同様に、発話のテキストデータとともに応答生成サーバ10に送信してもよい。
なお、ユーザ端末20が有する各処理部は、以下に説明する情報処理の機能や作用を実現又は実行する。
〔1−2(1).作用(ネットワークシステム)〕
次に、図8を用いて、第1の実施形態に係るネットワークシステムによる全体の処理手順について説明する。図8は、第1の実施形態に係るネットワークシステムによる処理の手順を示すシーケンス図である。図8に例示するように、ユーザ端末20は、アプリケーションの起動指示を受け付けると、アプリケーションを起動する(ステップS1)。そして、ユーザ端末20の音声データ送信部25aは、ユーザの発話を検知すると、発話の音声データをsocket通信により音声認識サーバ30へ送信する(ステップS2)。
そして、音声認識サーバ30は、発話の音声データを受信すると、音声データをテキストデータに変換する(ステップS3)。そして、音声認識サーバ30のテキストデータ送信部25cは、変換した発話のテキストデータをユーザ端末20に送信する(ステップS4)。
続いて、ユーザ端末20のテキストデータ受信部25bが、音声認識サーバ30から発話のテキストデータを受信すると、テキストデータ送信部25cは、発話のテキストデータや過去3回分の発話に関する履歴情報等を応答生成サーバ10に送信する(ステップS5)。なお、ユーザ端末20のテキストデータ送信部25cは、発話のテキストデータ、ユーザが発話した過去3回分の発話情報のほかに、ユーザ端末20の現在位置を示す位置情報、予めユーザに登録されたユーザの住所などを応答生成サーバ10に送信してもよい。
続いて、応答生成サーバ10の取得部12aが、発話のテキストデータや過去3回分の発話に関する履歴情報等を取得すると、応答生成サーバ10の要求生成部12bは、応答の生成に必要なデータの検索条件を指定し、APIサーバ40に対してデータの要求を行う(ステップS6)。具体的には、応答生成サーバ10の要求生成部12bは、発話のテキストデータや過去3回分の発話に関する履歴情報等を受信すると、発話のテキストデータや過去3回分の発話に関する履歴情報等を用いて、今回の発話によりユーザが求めるサービスを特定する。例えば、過去3回までの質問が全て電車乗り換えの質問であって、且つ、今回「カレーの検索」と質問されたときは、単なるカレーのウェブ検索ではなく、目的地のカレー飲食店の検索を行うサービスをユーザが求めていると特定する。
また、応答生成サーバ10の要求生成部12bは、応答の生成に必要なデータを検索するためのパラメータを取得する。例えば、応答生成サーバ10の要求生成部12bは、過去3回までの質問に電車乗り換えの話題が1つでもあって、今回の質問も電車乗り換えの話題であるとき、今回特に指定されなかった乗り換え検索条件のパラメータについては、過去の発話情報からパラメータを引き継ぐ。例えば、過去3回までの質問では目的地を浅草駅とする電車乗り換えの質問であって、今回「六本木駅からの経路は?」と質問され、目的地が指定されていない場合には、履歴情報から目的地のパラメータ「浅草駅」を取得し、出発地「六本木駅」、目的地「浅草駅」に関する経路情報を検索する検索条件で、APIサーバ40から情報を取得する。また、例えば、上述したカレー飲食店の検索を行う処理では、履歴情報から最も直近の電車乗り換えの質問における目的地「六本木」を取得し、「六本木」周辺のカレー飲食店を検索する検索条件で、APIサーバ40から情報を取得する。
図8の説明に戻って、応答生成サーバ10の要求生成部12bは、検索条件をAPIサーバ40に送信して応答生成に必要なデータを要求する(ステップS7)。そして、APIサーバ40は、受信した検索条件に従って、XMLデータを取得する処理を行う(ステップS8)。例えば、応答生成サーバ10は、出発地「六本木駅」、目的地「浅草駅」で経路探索する検索条件を受け付けると、六本木駅から浅草駅までの乗り換え情報や、電車賃に関する情報などを取得する処理を行う。そして、APIサーバ40は、取得したXMLデータを応答生成サーバ10に送信する(ステップS9)。
そして、応答生成サーバ10の変換部12cは、APIサーバ40からXMLデータを受信すると、予め記憶されたフォーマットに従って、XMLデータからデータを抽出し、XMLデータをHTMLデータに変換する(ステップS10)。例えば、応答生成サーバ10の変換部12cは、路線検索に関するXMLデータを受信すると、乗り換えに関するフォーマットに従って、XMLデータから駅名や乗車時間の情報を抽出し、XMLデータをHTMLデータに変換する。続いて、応答生成サーバ10の音声合成指示部12dは、応答発話表示用のテキストデータを音声合成サーバ50に送信する(ステップS11)。そして、音声合成サーバ50は、応答発話表示用のテキストデータから音声を合成する音声合成処理を行って、応答発話用の中間表記を生成する(ステップS12)。そして、音声合成サーバ50は、応答発話用の中間表記を応答生成サーバ10に送信する(ステップS13)。
続いて、応答生成サーバ10の応答生成部12eは、応答発話用の中間表記と応答発話表示用のテキストデータとHTMLデータとをユーザ端末20に送信する(ステップS14)。そして、ユーザ端末20のHTMLデータ受信部25dは、受信した応答発話表示用のテキストデータの履歴情報とHTMLデータの履歴情報とを格納する(ステップS15)。続いて、ユーザ端末20の表示制御部25eは、応答発話用の中間表記を用いて、応答の音声を出力するとともに、応答発話表示用のテキストデータとHTMLデータとを用いて、応答内容を表示する(ステップS16)。
〔1−2(2).作用(応答生成サーバ)〕
次に、図9を用いて、第1の実施形態に係る応答生成サーバ10による処理手順について説明する。図9は、第1の実施形態に係る応答生成サーバ10による処理の手順を示すフローチャートである。図9に例示するように、応答生成サーバ10の取得部12aは、ユーザが今回発話したテキストデータ及びユーザが発話した過去3回分の発話の履歴情報を受信したか否かを判定する(ステップS101)。なお、取得部12aは、今回発話されたテキストデータ、ユーザが発話した過去3回分の発話情報の他にも、ユーザ端末20の現在位置を示す位置情報、予めユーザに登録されたユーザの住所などを受信する。
そして、取得部12aは、ユーザが今回発話されたテキストデータ及びユーザが発話した過去3回分の発話の履歴情報を受信したと判定すると(ステップS101肯定)、要求生成部12bは、ユーザが今回発話したテキストデータ及びユーザが発話した過去3回分の発話の履歴情報に適合する条件表を検索する(ステップS102)。
ここで、図3および図5の例を用いて説明すると、要求生成部12bは、過去3回の話題「METHOD_PREV1〜3」のいずれかが電車乗り換え「TRANSIT」であって、今回の発話の質問文(INTEXT)が電車到着に関する話題を示唆する語のパターンである場合には、検索の結果、今回発話したテキストデータ及び発話の履歴情報に適合する条件表として図3に例示する条件表を取得する。また、要求生成部12bは、過去3回の話題「METHOD_PREV1〜3」が全て電車乗り換え「TRANSIT」であって、今回の質問文(INTEXT)が検索指示(METHOD=SEARCH)であって、且つ、検索クエリ(PARAM_QUERY)が「カレー」である場合には、今回発話したテキストデータ及び発話の履歴情報に適合する条件表として図5に例示する条件表を取得する。
図9の説明に戻って、要求生成部12bは、今回発話したテキストデータ及び発話の履歴情報に適合する条件表に対応するコマンド表を取得する(ステップS103)。例えば、図4の例を用いて説明すると、今回発話したテキストデータ及び発話の履歴情報に適合する条件表の条件識別子が「any−cond−0110」〜「any−cond−0112」である場合には、TRANSITコマンド表のコマンド識別子「any−comm−0110」〜「any−comm−0112」を対応するコマンド表として取得する。
そして、要求生成部12bは、取得したコマンド表に従って、応答の生成に必要なデータの検索条件を生成して、路線APIサーバ41にデータを要求する(ステップS104)。例えば、要求生成部12bは、図4に例示するコマンド識別子「any−comm−0110」〜「any−comm−0112」のTRANSITコマンド表を取得した場合には、今回の質問の話題が電車乗り換えの話題「METHOD:TRANSIT_ARRIVAL_01」であると設定され、今回ユーザの要求するサービスが電車乗り換え検索のサービスであるとして、路線APIサーバ41に検索条件を送信することを決定する。
また、要求生成部12bは、過去3回までの質問に電車乗り換えの話題があって、今回の質問も電車乗り換えの話題であるとき、今回特に指定されなかった乗り換え検索条件については、過去の発話情報からパラメータを引き継ぐ。例えば、過去3回までの質問では目的地を浅草駅とする電車乗り換えの質問であって、今回「六本木からの乗り換えは?」と質問され、目的地が指定されていない場合には、履歴情報から目的地のパラメータ「浅草駅」を取得し、出発地「六本木」とし目的地「浅草駅」とした路線検索の検索条件を指定して、路線APIサーバ41にデータを要求する。
また、要求生成部12bは、図6に例示するコマンド識別子「search−comm−2120」のSEARCHコマンド表を取得した場合には、今回の質問の話題が飲食店の検索(SEARCH_RESTAURANT_01)であると設定され、今回ユーザの要求するサービスが飲食店の検索のサービスであるとし、飲食店検索の検索条件を指定して、飲食店検索のAPIサーバ40にデータを要求する。
そして、応答生成サーバ10は、APIサーバ40からXMLデータを受信してXMLデータをHTMLデータに変換し、音声合成サーバ50から応答発話用の中間表記を受信した後に(図8のステップS10〜S13参照)、応答発話用の中間表記と応答発話表示用のテキストデータとHTMLデータとをユーザ端末20に送信する(ステップS105)。
その後、ユーザ端末20の表示制御部25eは、応答発話用の中間表記と応答発話表示用のテキストデータとHTMLデータとを受信すると、応答発話用の中間表記を用いて、応答の音声を出力するとともに、応答発話表示用のテキストデータとHTMLデータとを用いて、応答内容を表示する。ここで、図10〜図12の例を用いて、ユーザの発話に対してユーザ端末20の表示部24に表示される応答画像の一例を説明する。図10〜図12は、第1の実施形態に係るユーザ端末20の応答画像の一例を説明するための図である。
まず、図10の例を用いて説明すると、応答画像の上部に、発話用のテキストデータ(音声認識サーバ30から受信したデータ)および応答発話表示用のテキストデータ(対話サーバ10から受信したデータ)が表示され、応答発話表示用のテキストデータの下部に乗り換え情報に関するHTMLデータが表示されている。具体的には、図10に例示するように、発話用のテキストデータとして「六本木駅からの乗り換えは?」と表示され、応答発話表示用のテキストデータ「六本木駅から東京メトロ日比谷線・東武動物公園行、17時1分出発の電車にお乗りください。」が表示されている。これは、ユーザが「六本木からの乗り換えは?」と発話し、その応答として「六本木駅から東京メトロ日比谷線・東武動物公園行、17時1分出発の電車にお乗りください。」と表示していることを示している。また、図10に例示する画像を表示するとともに、「六本木駅から東京メトロ日比谷線・東武動物公園行、17時1分出発の電車にお乗りください。」という音声がスピーカ23から出力される。また、応答発話表示用のテキストデータの下部に、乗り換え情報に関するHTMLデータとして、「六本木駅」から「浅草駅」までの乗り換え情報が表示されている。
ここで、図10の例では、ユーザにとって目的地が浅草であることは今までの発話の内容から明白であるものとして、目的地を言わずに単に「六本木駅からの乗り換えは?」とだけ発話した場合には、今回の発話だけでは、六本木からどこまでの乗り換えについての質問であるかが分からない。このような場合に、第1の実施の形態に係る応答生成サーバ10では、例えば、ユーザ端末20から受信した過去の発話情報から目的地のパラメータが「浅草駅」であることを推定し、出発地を「六本木駅」とし目的地を「浅草駅」とした乗り換え情報を生成する。このため、ユーザ端末20が出発地「六本木駅」とし目的地「浅草駅」とした乗り換え情報を表示させることができる結果、ユーザの発話の意図を的確に把握し、適切な応答を行うことが可能である。
また、図11に例示するように、発話用のテキストデータ「天気は?」および応答発話表示用のテキストデータ「今日の東京の天気は、晴れ後曇りでしょう。」が表示されている。また、天気情報に関するHTMLデータとして、1月10日火曜日の東京の天気情報が表示されている。ここで、図11の例では、どこの天気に関する質問か発話せずに、単に「天気は?」とだけ発話した場合には、今回の発話だけでは、どこの天気に関する質問かが分からない。このような場合に、第1の実施の形態に係る応答生成サーバ10では、例えば、ユーザ端末20から受信した過去の発話情報から現在地や目的地が「東京」であることを推定し、東京に関する天気情報を生成する。このため、ユーザ端末20が東京に関する天気情報を表示させることができる結果、ユーザの発話の意図を的確に把握し、適切な応答を行うことが可能である。
また、図12に例示するように、発話用のテキストデータ「カレーを検索」および応答発話表示用のテキストデータ「六本木のカレー店を検索しました。」が表示されている。また、地域検索に関するHTMLデータとして、六本木のカレー店位置を示すマップ情報が表示されている。ユーザが六本木周辺のお店を検索したいことが今までの発話の内容から明白であるものとして、単に「カレーを検索」とだけ発話した場合には、今回の発話だけでは、カレーについて何を検索していいか分からない。このような場合に、第1の実施の形態に係る応答生成サーバ10では、ユーザ端末20から受信した過去の発話情報から電車乗り換えの話題があり目的地が六本木であれば、ユーザが知りたい情報が六本木にあるカレー店の情報であると推定し、六本木のカレー店位置を示すマップ情報を生成するので、ユーザ端末20に六本木のカレー店位置を示すマップ情報を表示させることができる結果、ユーザの発話の意図を的確に把握し、適切な応答を行うことが可能である。
〔1−3.効果〕
上述してきたように、第1の実施形態に係る応答生成サーバ10は、ユーザが発話した情報である発話情報を取得し、取得された発話情報に応じて、発話情報、または、発話情報および発話情報と同じ発話者であるユーザの過去の発話情報に関する履歴情報を用いて、サービスに対する検索条件を生成する。そして、応答生成サーバ10は、検索条件に基づいて取得したデータを用いて、発話情報に対する応答情報を生成する。
これにより、第1の実施形態に係る応答生成サーバ10は、ユーザから必要最小限の情報しか得られない場合であっても、ユーザの発話の意図を的確に把握し、適切な応答を行うことを可能にする。
また、第1の実施形態に係る応答生成サーバ10は、発話情報および履歴情報を用いて、ユーザが発話により要求するサービスの内容を特定し、特定したサービスの内容に対応するAPIサーバ40に対して情報を要求する。
これにより、第1の実施形態に係る応答生成サーバ10は、ユーザから必要最小限の情報しか得られない場合であっても、ユーザの発話の意図を把握し、ユーザが希望するサービスを的確に特定することができる結果、適切な応答を行うことを可能にする。
また、第1の実施形態に係る応答生成サーバ10は、履歴情報から要求情報を生成するためのパラメータを履歴情報から抽出し、該抽出したパラメータと発話情報とを用いて検索条件を生成し、該検索条件をAPIサーバ40に送信する。
これにより、第1の実施形態に係る応答生成サーバ10は、ユーザから必要最小限の情報しか得られない場合であっても、過去の発話情報からパラメータを補完し、APIサーバ40から適切に情報を取得することができる結果、適切な応答を行うことを可能にする。
また、第1の実施形態に係る応答生成サーバ10は、発話情報および履歴情報が所定の条件に適合するか否かを判定するための条件表と、所定の条件に適合した場合に検索条件を生成するためのコマンド表とを対応付けて記憶する。そして、第1の実施形態に係る応答生成サーバ10は、発話情報および履歴情報が所定の条件に適合する場合には、適合する条件表に対応するコマンド表に従って、検索条件を生成し、該検索条件をAPIサーバ40に送信する。
これにより、第1の実施形態に係る応答生成サーバ10は、条件表およびコマンド表を用いて、検索条件の生成を簡易にするとともに、適切な応答を行うことを可能にする。
(第2の実施形態)
本願に係る応答生成装置、応答生成方法および応答生成プログラムは、上述した第1の実施形態以外にも種々の異なる形態にて実施されてよい。第2の実施形態では、他の実施形態について説明する。
〔2−1.発話内容の推定〕
上述した第1の実施形態においては、今回発話されたテキストデータ及びユーザが発話した過去3回分の発話情報を用いて、ユーザの発話の意図を推定し、ユーザの発話の意図からユーザが求めているサービスの内容を特定する場合について説明した。しかしながら、実施形態はこれに限定されるものではなく、例えば、今回発話されたテキストデータ及びユーザが発話した過去3回分の発話情報の他にも、ユーザ端末20の現在位置を示す位置情報、予めユーザに登録されたユーザの住所などを用いて、ユーザの発話の意図を推定し、ユーザの発話の意図からユーザが求めているサービスの内容を特定してもよい。
例えば、要求生成部12bは、過去3回までの質問が全て電車乗り換えの質問であって、今回「カレーを検索」と質問されたときは、現在位置を示す位置情報を取得し、現在位置周辺のカレー屋を検索するサービスをユーザが求めているものとして特定する。また、特に出発地が指定されずに電車乗り換えの質問があった場合には、自宅から最寄りの駅を特定し、自宅から最寄りの駅から目的地への電車乗り換え情報を検索するサービスをユーザが求めているものとして特定する。これにより、ユーザの発話の意図をより的確に把握し、より適切な応答を行うことができる。
〔2−2.履歴情報〕
上述した第1の実施形態においては、応答生成サーバ10が履歴情報をユーザ端末20から受信する場合を説明した。しかしながら、実施形態はこれに限定されるものではなく、応答生成サーバ10が履歴情報を管理するようにしてもよい。例えば、応答生成サーバ10は、ユーザ端末20を一意に識別する識別情報などを用いて、ユーザ端末20ごとに履歴情報を管理するようにしてもよい。
〔2−3.その他〕
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述した応答生成サーバ10は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
また、特許請求の範囲に記載した「手段」は、「部(section、module、unit)」や「回路」などに読み替えることができる。例えば、応答生成手段は、応答生成部や応答生成回路に読み替えることができる。
10 応答生成サーバ
11 通信部
12 制御部
12a 取得部
12b 要求生成部
12c 変換部
12d 音声合成指示部
12e 応答生成部
13 記憶部
20 ユーザ端末
21 通信部
22 マイク
23 スピーカ
24 表示部
25 アプリ
25a 音声データ送信部
25b テキストデータ受信部
25c テキストデータ送信部
25d HTMLデータ受信部
25e 表示制御部
26 メモリ
26a 履歴記憶部
26b 位置情報記憶部
30 音声認識サーバ
41 路線APIサーバ
42 天気APIサーバ
43 Web検索APIサーバ

Claims (6)

  1. ユーザが発話した情報である発話情報を取得する取得手段と、
    前記取得手段によって取得された発話情報に応じて、前記発話情報および前記発話情報と同じ発話者であるユーザの過去の発話情報に関する履歴情報を用いて、前記発話情報のみ又は前記履歴情報のみによって指定されるサービスと異なる、過去の話題から前記発話情報に含まれる質問の内容に対応するサービスの内容を特定し、該特定したサービスに対する要求情報を生成する要求生成手段と、
    前記要求情報に基づいて取得したサービス情報を用いて、前記発話情報に対する応答情報を生成する応答生成手段と、
    を備えたことを特徴とする応答生成装置。
  2. 前記要求生成手段は、前記要求情報を生成するためのパラメータを前記履歴情報から抽出し、該抽出したパラメータと前記発話情報とを用いて前記要求情報を生成することを特徴とする請求項1に記載の応答生成装置。
  3. 前記発話情報および前記履歴情報が所定の条件に適合するか否かを判定するための条件情報と、前記所定の条件に適合した場合に前記要求情報を生成するための命令情報とを対応付けて記憶する記憶手段と、をさらに備え、
    前記要求生成手段は、前記発話情報および前記履歴情報が前記記憶手段に記憶された前記所定の条件に適合する場合には、該所定の条件に対応する命令情報に従って、前記要求情報を生成することを特徴とする請求項1または2に記載の応答生成装置。
  4. 前記取得手段は、前記発話情報とともに、所定回数分の過去の発話情報に関する履歴情報をユーザ端末から取得することを特徴とする請求項1〜3のいずれか一つに記載の応答生成装置。
  5. コンピュータで実行される応答生成方法であって、
    ユーザが発話した情報である発話情報を取得する取得工程と、
    前記取得工程によって取得された発話情報に応じて、前記発話情報および前記発話情報と同じ発話者であるユーザの過去の発話情報に関する履歴情報を用いて、前記発話情報のみ又は前記履歴情報のみによって指定されるサービスと異なる、過去の話題から前記発話情報に含まれる質問の内容に対応するサービスの内容を特定し、該特定したサービスに対する要求情報を生成する要求生成工程と、
    前記要求情報に基づいて取得したサービス情報を用いて、前記発話情報に対する応答情報を生成する応答生成工程と、
    を含んだことを特徴とする応答生成方法。
  6. ユーザが発話した情報である発話情報を取得する取得手順と、
    前記取得手順によって取得された発話情報に応じて、前記発話情報および前記発話情報と同じ発話者であるユーザの過去の発話情報に関する履歴情報を用いて、前記発話情報のみ又は前記履歴情報のみによって指定されるサービスと異なる、過去の話題から前記発話情報に含まれる質問の内容に対応するサービスの内容を特定し、該特定したサービスに対する要求情報を生成する要求生成手順と、
    前記要求情報に基づいて取得したサービス情報を用いて、前記発話情報に対する応答情報を生成する応答生成手順と、
    をコンピュータに実行させることを特徴とする応答生成プログラム。
JP2012072554A 2012-03-27 2012-03-27 応答生成装置、応答生成方法および応答生成プログラム Expired - Fee Related JP5616390B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012072554A JP5616390B2 (ja) 2012-03-27 2012-03-27 応答生成装置、応答生成方法および応答生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012072554A JP5616390B2 (ja) 2012-03-27 2012-03-27 応答生成装置、応答生成方法および応答生成プログラム

Publications (2)

Publication Number Publication Date
JP2013205523A JP2013205523A (ja) 2013-10-07
JP5616390B2 true JP5616390B2 (ja) 2014-10-29

Family

ID=49524694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012072554A Expired - Fee Related JP5616390B2 (ja) 2012-03-27 2012-03-27 応答生成装置、応答生成方法および応答生成プログラム

Country Status (1)

Country Link
JP (1) JP5616390B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105659318B (zh) * 2013-12-26 2019-08-30 松下知识产权经营株式会社 声音识别处理装置、声音识别处理方法以及显示装置
JP6255274B2 (ja) * 2014-02-19 2017-12-27 シャープ株式会社 情報処理装置、音声対話装置、および制御プログラム
CN109074364A (zh) * 2016-05-12 2018-12-21 索尼公司 信息处理装置、信息处理方法和程序
JP7059929B2 (ja) * 2016-05-30 2022-04-26 ソニーグループ株式会社 情報処理装置
KR102079979B1 (ko) * 2017-12-28 2020-02-21 네이버 주식회사 인공지능 기기에서의 복수의 호출 용어를 이용한 서비스 제공 방법 및 그 시스템
JP7091807B2 (ja) 2018-04-23 2022-06-28 トヨタ自動車株式会社 情報提供システムおよび情報提供方法
CN109637519B (zh) * 2018-11-13 2020-01-21 百度在线网络技术(北京)有限公司 语音交互实现方法、装置、计算机设备及存储介质
CN112559714B (zh) 2020-12-24 2024-04-12 北京百度网讯科技有限公司 对话生成方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089194B1 (en) * 1999-06-17 2006-08-08 International Business Machines Corporation Method and apparatus for providing reduced cost online service and adaptive targeting of advertisements
JP3843008B2 (ja) * 2001-12-19 2006-11-08 アルゼ株式会社 ナビゲーションサービスを提供するサーバー、同サーバーに利用されるプログラム記憶媒体、及びカーナビゲーション装置に利用されるプログラム記憶媒体
JP4451166B2 (ja) * 2004-03-08 2010-04-14 三菱電機株式会社 音声対話システム
JP4486413B2 (ja) * 2004-06-10 2010-06-23 日本電信電話株式会社 音声対話方法、音声対話装置、音声対話プログラム、これを記録した記録媒体
JP5118431B2 (ja) * 2007-10-01 2013-01-16 株式会社エヌ・ティ・ティ・ドコモ 情報提供システム、情報提供装置、携帯端末、情報提供方法及びプログラム

Also Published As

Publication number Publication date
JP2013205523A (ja) 2013-10-07

Similar Documents

Publication Publication Date Title
JP5616390B2 (ja) 応答生成装置、応答生成方法および応答生成プログラム
JP5965175B2 (ja) 応答生成装置、応答生成方法および応答生成プログラム
JP6942841B2 (ja) ダイアログ・システムにおけるパラメータ収集および自動ダイアログ生成
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
RU2637874C2 (ru) Генерирование диалоговых рекомендаций для чатовых информационных систем
CN107112013B (zh) 用于创建可定制对话系统引擎的平台
KR102490776B1 (ko) 디지털 개인 비서 내에서 헤드리스로 작업을 완료하기 위한 기법
EP3389044A1 (en) Management layer for multiple intelligent personal assistant services
CN105592343B (zh) 针对问题和回答的显示装置和方法
US9674331B2 (en) Transmitting data from an automated assistant to an accessory
US8515766B1 (en) Voice application finding and user invoking applications related to a single entity
JP2020521164A (ja) デバイス間ハンドオフ
US20160259767A1 (en) Annotations in software applications for invoking dialog system functions
CN106663427A (zh) 用于服务语音发音的高速缓存设备
CN103377028A (zh) 用于以语音启动人机界面的方法和系统
JP5886103B2 (ja) 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム
JP2014106523A (ja) 音声入力対応装置及び音声入力対応プログラム
US20160098994A1 (en) Cross-platform dialog system
EP3671733A1 (en) Information processing device, information processing method, and program
JP2019179116A (ja) 音声理解プログラム、音声理解装置および音声理解方法
CN110232920A (zh) 语音处理方法和装置
CN106571143B (zh) 智能设备的控制方法及装置
CN112242143B (zh) 一种语音交互方法、装置、终端设备及存储介质
JP2016066983A (ja) 通訳サービスシステム及び通訳サービス方法
US20180107657A1 (en) Interpretation distributing device, control device, terminal device, interpretation distributing method, control method, information processing method, and program

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130911

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140325

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140618

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140819

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140911

R150 Certificate of patent or registration of utility model

Ref document number: 5616390

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350