JP2017107078A - 音声対話方法、音声対話装置及び音声対話プログラム - Google Patents

音声対話方法、音声対話装置及び音声対話プログラム Download PDF

Info

Publication number
JP2017107078A
JP2017107078A JP2015241049A JP2015241049A JP2017107078A JP 2017107078 A JP2017107078 A JP 2017107078A JP 2015241049 A JP2015241049 A JP 2015241049A JP 2015241049 A JP2015241049 A JP 2015241049A JP 2017107078 A JP2017107078 A JP 2017107078A
Authority
JP
Japan
Prior art keywords
response
voice
response sentence
utterance
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015241049A
Other languages
English (en)
Inventor
田中 敬一
Keiichi Tanaka
敬一 田中
勇次 國武
Yuji Kunitake
勇次 國武
大戸 英隆
Hidetaka Oto
英隆 大戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2015241049A priority Critical patent/JP2017107078A/ja
Publication of JP2017107078A publication Critical patent/JP2017107078A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】ユーザの発話と装置からの応答との間の待ち時間を短縮するとともに、ユーザと装置とのスムーズな対話を実現する。【解決手段】音声対話方法は、音声対話装置において発話に対する応答の回答部分を含む回答応答文を生成可能であるか否かを判断するステップと、音声対話装置において回答応答文を生成不可能であると判断された場合、テキストデータに含まれる所定の品詞の単語に基づき、発話に対する応答の冒頭部分を構成する第1の応答文を生成するステップと、第1の応答文を音声により出力するステップと、第1の応答文の音声出力と並行して、テキストデータに関連する情報を取得し、取得した情報に基づき、発話に対する応答の回答部分を構成する第2の応答文を生成するステップと、第1の応答文の音声出力が完了した後に、第2の応答文を音声により出力するステップとを含む。【選択図】図4

Description

本開示は、音声対話によりユーザが所望する情報を提供する音声対話方法、音声対話装置及び音声対話プログラムに関するものである。
従来、音声対話によりインターネット上から所望の情報を検索したり、宅内の家電機器の状態を確認したり、宅内の家電機器を制御したりするシステムがある。このシステムでは、ユーザからの質問又は指示に対して応答するには、インターネットを介したサーバとの間の情報検索のための通信、又は宅内の家電機器との間の通信が必要となる。そのため、ユーザの発話終了からシステムの応答までに通信処理が行われ、通信環境によってはユーザが体感できるレベルの応答の遅延が生じる。
この応答の遅延による対話の不自然さを解消するため、例えば特許文献1には、音声認識機能を有するサーバへ音声に関する情報を送信してから、サーバ側認識結果を受信するまでの待ち時間が所定の待ち時間以上である場合、予め音声認識端末内に用意された応答文を音声出力する処理を行う音声認識端末が開示されている。しかしながら、この処理は、相槌又は特定の単語など決められたパターンでしか応答できないので、ユーザが所望する回答を得るためには、結局、サーバ側認識結果が受信されるのを待つ必要がある。
また、例えば、特許文献2では、予め用意された文言で応答するのではなく、ユーザの発話を解析し、述語及びそれに対応する格要素を抽出し、抽出された述語又は格要素を確認するための応答を生成することで、ユーザとの対話を継続する方法が開示されている。しかしながら、この応答方法は、ユーザの発話内容を確認するだけにすぎず、ユーザの所望する情報が得られるわけではない。
特開2014−191030号公報 特開2007−206888号公報
音声対話により、インターネット上から所望の情報を検索したり、宅内の家電機器の状態を確認したり、宅内の家電機器を制御したりするシステムにおいては、システムからの応答に通信による遅延が発生し、ユーザとシステムとが円滑に対話することができないおそれがある。上記の特許文献1の方法では、ユーザの発話とシステムからの応答との間の待ち時間に、相槌又は予め決められた所定の応答文を音声出力することはできるものの、ユーザが所望する情報がシステムから遅延なく得られるわけではない。また、上記の特許文献2の方法では、予め決められた所定の応答文ではなく、ユーザの発話文に応じた応答が生成されるものの、この応答はユーザの発話内容を確認するだけにすぎず、質問に対する回答がシステムから遅延なく得られるわけではない。
本開示は、上記の問題を解決するためになされたもので、ユーザの発話と装置からの応答との間の待ち時間を短縮することができるとともに、ユーザと装置とのスムーズな対話を実現することができる音声対話方法、音声対話装置及び音声対話プログラムを提供することを目的とするものである。
本開示の一態様に係る音声対話方法は、音声対話によりユーザが所望する情報を提供する音声対話装置における音声対話方法であって、前記ユーザが発話した音声から変換されたテキストデータに基づき、前記音声対話装置において前記発話に対する応答の回答部分を含む回答応答文を生成可能であるか否かを判断し、前記音声対話装置において前記回答応答文を生成不可能であると判断された場合、前記テキストデータに含まれる所定の品詞の単語に基づき、前記発話に対する応答の前記回答部分より前に含まれる冒頭部分を構成する第1の応答文を生成し、生成された前記第1の応答文を音声により出力し、前記第1の応答文の音声出力と並行して、前記テキストデータに関連する情報を取得し、取得した前記情報に基づき、前記発話に対する応答の前記回答部分を構成する第2の応答文を生成し、前記第1の応答文の音声出力が完了した後に、生成された前記第2の応答文を音声により出力する。
本開示によれば、発話に対する応答の冒頭部分を構成する第1の応答文が音声により出力され、第1の応答文の音声出力と並行して、発話に対する応答の冒頭部分に続く回答部分を構成する第2の応答文が生成され、第1の応答文の音声出力が完了した後に、生成された第2の応答文が音声により出力されるので、ユーザの発話と装置からの応答との間の待ち時間を短縮することができるとともに、ユーザと装置とのスムーズな対話を実現することができる。
本実施の形態1における音声対話システムの全体構成を示す図である。 本実施の形態1における音声対話装置及び音声対話サーバの構成を示す図である。 本実施の形態1における音声対話サーバにおいて得られる意図理解結果の一例を示す図である。 本実施の形態1における先行応答と後続応答との関連を示す図である。 先行応答文を生成しない従来の音声対話処理による応答待ち時間を説明するための模式図である。 本実施の形態1における先行応答文を生成する音声対話処理による応答待ち時間を説明するための模式図である。 本実施の形態1の音声対話システムにおける音声対話処理の一例を示す第1のフローチャートである。 本実施の形態1の音声対話システムにおける音声対話処理の一例を示す第2のフローチャートである。 図7のステップS5における応答文生成処理について説明するためのフローチャートである。 本実施の形態2における先行応答と後続応答との関連を示す図である。 本実施の形態2における音声対話サーバにおいて得られる意図理解結果の一例を示す図である。 本実施の形態2における音声対話装置及び音声対話サーバの構成を示す図である。 本実施の形態2の音声対話システムにおける音声対話処理の一例を示すフローチャートである。 図13のステップS31における機器制御処理の一例を示すフローチャートである。 本実施の形態2において、発話内容に応じて変更される先行応答文のフォーマットの一例を示す図である。 日本語、英語及び中国語の発話を比較するための図である。
(本開示の基礎となった知見)
音声対話により、インターネット上の様々な情報を簡単に取得できるサービスと、宅内の家電機器を簡単に制御するサービスと、宅内の家電機器の状態を簡単に確認するサービスとを提供する音声対話システムが検討されている。これらのサービスが実現される際には、通信による遅延の発生により、人間同士の対話に比べると不自然な待ち時間が発生することが課題となっている。通信による遅延を回避するために、システム内に予め予測される回答を構築及びキャッシュすることも可能であるが、あらゆる質問に答えるためにはクラウドコンピューティングのような大規模システムの活用が不可欠である。また、宅内の家電機器の状態を確認する際も、全ての家電機器の最新の状態を常にキャッシュする場合、キャッシュのための通信が頻発し、家電機器に余分な負荷を与えることになる。応答文を生成するまでの待ち時間に、相槌を表す応答文又は予め記憶された所定の応答文を音声出力したり、効果音を出力したりすることも考えられるが、これらの手法でも、ユーザが所望する情報が早く得られるわけではなく、回答が得られるまでの待ち時間は変わらない。
上記のような課題を解決するために、本開示の一態様に係る音声対話方法は、音声対話によりユーザが所望する情報を提供する音声対話装置における音声対話方法であって、前記ユーザが発話した音声から変換されたテキストデータに基づき、前記音声対話装置において前記発話に対する応答の回答部分を含む回答応答文を生成可能であるか否かを判断し、前記音声対話装置において前記回答応答文を生成不可能であると判断された場合、前記テキストデータに含まれる所定の品詞の単語に基づき、前記発話に対する応答の前記回答部分より前に含まれる冒頭部分を構成する第1の応答文を生成し、生成された前記第1の応答文を音声により出力し、前記第1の応答文の音声出力と並行して、前記テキストデータに関連する情報を取得し、取得した前記情報に基づき、前記発話に対する応答の前記回答部分を構成する第2の応答文を生成し、前記第1の応答文の音声出力が完了した後に、生成された前記第2の応答文を音声により出力する。
この構成によれば、ユーザが発話した音声から変換されたテキストデータに基づき、音声対話装置において発話に対する応答の回答部分を含む回答応答文が生成可能であるか否かが判断される。音声対話装置において回答応答文が生成不可能であると判断された場合、テキストデータに含まれる所定の品詞の単語に基づき、発話に対する応答の回答部分より前に含まれる冒頭部分を構成する第1の応答文が生成され、生成された第1の応答文が音声により出力される。第1の応答文の音声出力と並行して、テキストデータに関連する情報が取得され、取得された情報に基づき、発話に対する応答の回答部分を構成する第2の応答文が生成される。第1の応答文の音声出力が完了した後に、生成された第2の応答文が音声により出力される。
したがって、発話に対する応答の冒頭部分を構成する第1の応答文が音声により出力され、第1の応答文の音声出力と並行して、発話に対する応答の冒頭部分に続く回答部分を構成する第2の応答文が生成され、第1の応答文の音声出力が完了した後に、生成された第2の応答文が音声により出力されるので、ユーザの発話と装置からの応答との間の待ち時間を短縮することができるとともに、ユーザと装置とのスムーズな対話を実現することができる。
また、上記の音声対話方法において、前記所定の品詞は、名詞であってもよい。この構成によれば、テキストデータに含まれる名詞の単語に基づき、発話に対する応答の冒頭部分を構成する第1の応答文を生成することができる。
また、上記の音声対話方法において、前記第1の応答文は、前記名詞の単語を含む名詞句を含んでもよい。この構成によれば、テキストデータに含まれる名詞の単語を含む名詞句を含む第1の応答文が生成されるので、名詞句で構成される応答の冒頭部分を音声により出力することができる。
また、上記の音声対話方法において、前記テキストデータに関連する情報は、ネットワークを介して取得されてもよい。
この構成によれば、テキストデータに関連する情報は、ネットワークを介して取得されるので、ネットワークを介して情報を取得する際の通信による遅延を短縮することができる。
また、上記の音声対話方法において、前記音声対話装置は、前記テキストデータに対応する前記回答応答文を生成するためのルールを記憶する辞書データベースを備え、前記辞書データベースに記憶された前記ルールに基づき前記ユーザの発話に対する前記回答応答文を生成不可能である場合、前記音声対話装置において前記回答応答文を生成不可能であると判断してもよい。
この構成によれば、音声対話装置は、テキストデータに対応する回答応答文を生成するためのルールを記憶する辞書データベースを備える。辞書データベースに記憶されたルールに基づきユーザの発話に対する回答応答文が生成不可能である場合、音声対話装置において回答応答文が生成不可能であると判断される。
したがって、予め記憶されているルールに基づいてテキストデータから回答応答文が生成される場合、テキストデータに関連する情報を待つ必要なく、音声対話装置内で回答応答文を生成することができる。
また、上記の音声対話方法において、前記回答応答文を生成不可能であると判断された場合、前記テキストデータから前記所定の品詞の単語を抽出可能であるか否かを判断し、前記テキストデータから前記所定の品詞の単語を抽出不可能であると判断された場合、前記第1の応答文を生成しないと判断してもよい。
この構成によれば、回答応答文が生成不可能であると判断され、かつテキストデータから所定の品詞の単語が抽出不可能であると判断された場合、第1の応答文を生成しないと判断することができる。
また、上記の音声対話方法において、前記第1の応答文を生成しないと判断された場合、前記第2の応答文を生成せずに、前記テキストデータに関連する情報を取得し、取得された前記情報に基づき、前記発話に対する応答の前記冒頭部分と前記回答部分とを構成する第3の応答文を生成し、生成された前記第3の応答文を音声により出力してもよい。
この構成によれば、第1の応答文を生成しないと判断された場合、第2の応答文を生成せずに、テキストデータに関連する情報が取得され、取得された情報に基づき、発話に対する応答の冒頭部分と回答部分とを構成する第3の応答文が生成される。生成された第3の応答文が音声により出力される。
したがって、第1の応答文を生成しないと判断された場合、第2の応答文を生成せずに、発話に対する応答の冒頭部分と回答部分とを構成する第3の応答文が生成され、生成された第3の応答文が音声により出力されるので、発話に対する応答の冒頭部分を生成することができない場合、発話に対する応答の冒頭部分と回答部分とを構成する第3の応答文が生成されてから、応答することができる。
また、上記の音声対話方法において、前記第1の応答文を生成しないと判断された場合、前記第1の応答文に替えて、間投詞を含む第4の応答文を生成し、生成された前記第4の応答文を音声により出力し、前記第4の応答文の音声出力と並行して、前記第3の応答文を生成し、前記第4の応答文の音声出力が完了した後に、生成された前記第3の応答文を音声により出力してもよい。
この構成によれば、第1の応答文を生成しないと判断された場合、第1の応答文に替えて、間投詞を含む第4の応答文が生成され、生成された第4の応答文が音声により出力される。第4の応答文の音声出力と並行して、第3の応答文が生成され、第4の応答文の音声出力が完了した後に、生成された第3の応答文が音声により出力される。
したがって、発話に対する応答の冒頭部分を生成することができない場合であっても、発話に対する応答の冒頭部分と回答部分とを構成する第3の応答文の音声出力に先行して、間投詞で構成される簡易な応答文を音声により出力することができる。
また、上記の音声対話方法において、前記第1の応答文の音声出力と並行して、前記テキストデータに関連する情報を取得し、取得した前記情報に基づき、前記発話に対する応答の前記冒頭部分と前記回答部分とを構成する第3の応答文を生成し、生成した前記第3の応答文から前記第1の応答文を削除することにより前記第2の応答文を生成してもよい。
この構成によれば、第1の応答文の音声出力と並行して、テキストデータに関連する情報が取得される。取得した情報に基づき、発話に対する応答の冒頭部分と回答部分とを構成する第3の応答文が生成される。生成された第3の応答文から第1の応答文を削除することにより第2の応答文が生成される。
したがって、第3の応答文から第1の応答文を削除することにより第2の応答文が生成されるので、既に音声出力された第1の応答文に後続する内容の第2の応答文を音声出力することができる。
また、上記の音声対話方法において、前記発話は、ユーザによって使用される機器を制御するための指示内容を含み、前記テキストデータに基づき、制御の対象となる前記機器を特定するとともに、前記指示内容に対応する制御コマンドを生成し、特定された前記機器に対して前記制御コマンドを発行し、前記制御コマンドによる制御結果を前記機器から取得し、前記制御結果の内容に基づき前記第2の応答文を生成してもよい。
この構成によれば、発話は、ユーザによって使用される機器を制御するための指示内容を含む。テキストデータに基づき、制御の対象となる機器が特定されるとともに、指示内容に対応する制御コマンドが生成される。特定された機器に対して制御コマンドが発行され、制御コマンドによる制御結果が機器から取得される。そして、制御結果の内容に基づき第2の応答文が生成される。
したがって、機器の制御結果が取得される前に、応答を開始することができ、ユーザの発話と装置からの応答との間の待ち時間を短縮することができるとともに、ユーザと装置とのスムーズな対話を実現することができる。
また、上記の音声対話方法において、前記テキストデータに基づき、発話内容が質問に関する発話であるか否かを判断し、前記発話内容が質問に関する発話であるか否かに応じて前記第1の応答文の構成を変更してもよい。
この構成によれば、テキストデータに基づき、発話内容が質問に関する発話であるか否かが判断され、発話内容が質問に関する発話であるか否かに応じて第1の応答文の構成が変更されるので、第1の応答文と第2の応答文とを違和感なく結合させることができる。
本開示の他の態様に係る音声対話装置は、音声対話によりユーザが所望する情報を提供する音声対話装置であって、前記ユーザが発話した音声から変換されたテキストデータに基づき、前記音声対話装置において前記発話に対する応答の回答部分を含む回答応答文を生成可能であるか否かを判断する判断部と、前記判断部によって前記音声対話装置において前記回答応答文を生成不可能であると判断された場合、前記テキストデータに含まれる所定の品詞の単語に基づき、前記発話に対する応答の前記回答部分より前に含まれる冒頭部分を構成する第1の応答文を生成する第1の生成部と、前記第1の生成部によって生成された前記第1の応答文を音声により出力する第1の音声出力部と、前記第1の応答文の音声出力と並行して、前記テキストデータに関連する情報を取得し、取得した前記情報に基づき、前記発話に対する応答の前記回答部分を構成する第2の応答文を生成する第2の生成部と、前記第1の応答文の音声出力が完了した後に、前記第2の生成部によって生成された前記第2の応答文を音声により出力する第2の音声出力部と、を備える。
この構成によれば、ユーザが発話した音声から変換されたテキストデータに基づき、音声対話装置において発話に対する応答の回答部分を含む回答応答文が生成可能であるか否かが判断される。音声対話装置において回答応答文が生成不可能であると判断された場合、テキストデータに含まれる所定の品詞の単語に基づき、発話に対する応答の回答部分より前に含まれる冒頭部分を構成する第1の応答文が生成され、生成された第1の応答文が音声により出力される。第1の応答文の音声出力と並行して、テキストデータに関連する情報が取得され、取得された情報に基づき、発話に対する応答の回答部分を構成する第2の応答文が生成される。第1の応答文の音声出力が完了した後に、生成された第2の応答文が音声により出力される。
したがって、発話に対する応答の冒頭部分を構成する第1の応答文が音声により出力され、第1の応答文の音声出力と並行して、発話に対する応答の冒頭部分に続く回答部分を構成する第2の応答文が生成され、第1の応答文の音声出力が完了した後に、生成された第2の応答文が音声により出力されるので、ユーザの発話と装置からの応答との間の待ち時間を短縮することができるとともに、ユーザと装置とのスムーズな対話を実現することができる。
本開示の他の態様に係る音声対話プログラムは、音声対話によりユーザが所望する情報を提供する音声対話プログラムであって、コンピュータを、前記ユーザが発話した音声から変換されたテキストデータに基づき、前記音声対話装置において前記発話に対する応答の回答部分を含む回答応答文を生成可能であるか否かを判断する判断部と、前記判断部によって前記音声対話装置において前記回答応答文を生成不可能であると判断された場合、前記テキストデータに含まれる所定の品詞の単語に基づき、前記発話に対する応答の前記回答部分より前に含まれる冒頭部分を構成する第1の応答文を生成する第1の生成部と、前記第1の生成部によって生成された前記第1の応答文の音声出力と並行して、前記テキストデータに関連する情報を取得し、取得した前記情報に基づき、前記発話に対する応答の前記回答部分を構成する第2の応答文を生成する第2の生成部として機能させる。
この構成によれば、ユーザが発話した音声から変換されたテキストデータに基づき、音声対話装置において発話に対する応答の回答部分を含む回答応答文が生成可能であるか否かが判断される。音声対話装置において回答応答文が生成不可能であると判断された場合、テキストデータに含まれる所定の品詞の単語に基づき、発話に対する応答の回答部分より前に含まれる冒頭部分を構成する第1の応答文が生成される。生成された第1の応答文の音声出力と並行して、テキストデータに関連する情報が取得され、取得された情報に基づき、発話に対する応答の回答部分を構成する第2の応答文が生成される。
したがって、発話に対する応答の冒頭部分を構成する第1の応答文が音声により出力され、第1の応答文の音声出力と並行して、発話に対する応答の冒頭部分に続く回答部分を構成する第2の応答文が生成され、第1の応答文の音声出力が完了した後に、生成された第2の応答文が音声により出力されるので、ユーザの発話と装置からの応答との間の待ち時間を短縮することができるとともに、ユーザと装置とのスムーズな対話を実現することができる。
また、本開示は、以上のような特徴的な処理を実行する音声対話装置として実現することができるだけでなく、音声対話装置に含まれる特徴的な機能を実行するための処理手段を備える音声対話方法などとして実現することもできる。また、このような音声対話装置に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、CD−ROM等のコンピュータ読み取り可能な非一時的な記録媒体又はインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ及びステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることも出来る。
(実施の形態1)
本実施の形態1では、ユーザが音声対話システムから所望の情報を対話により取得する例について説明する。
図1は、本実施の形態1における音声対話システムの全体構成を示す図である。
図1に示す音声対話システムは、音声対話装置100、音声対話サーバ101及びサービス提供サーバ102を備える。音声対話装置100と音声対話サーバ101とは、ネットワークを介して互いに通信可能に接続される。音声対話サーバ101とサービス提供サーバ102とは、ネットワークを介して互いに通信可能に接続される。なお、ネットワークは、例えばインターネットである。音声対話装置100は、ユーザが発話した音声を取得し、ユーザの発話に対する応答文を音声出力する。ユーザは、音声対話装置100に向かって欲しい情報を問い合わせると、音声対話装置100から音声での回答を得ることができる。音声対話装置100は、音声対話によりユーザが所望する情報を提供する。
音声対話装置100は、ユーザの発話内容の音声認識を行い、音声認識結果を音声対話サーバ101へ送信する。図1の例においては、ユーザの発話内容である「今日の天気教えて」が音声認識によりテキスト化され、テキスト化された文字列が音声対話サーバ101へ送信される。音声対話サーバ101は、音声対話装置100から受信した文字列の意図を理解し、対応するサービス提供サーバ102から、応答文の生成に必要な情報を取得する。サービス提供サーバ102は、天気情報サービス、交通情報サービス又はニュースサービスなど、様々なクラウドサービスを提供するサービス提供サーバ群である。図1の例では、ユーザの発話が「今日の天気教えて」であるので、音声対話サーバ101は、天気情報サービスを提供するサービス提供サーバ102から、現在の日付の天気情報を取得する。得られた天気情報が「晴れのち曇り」であれば、音声対話サーバ101は、応答文として「今日の天気は、晴のち曇です」という文字列を生成し、音声対話装置100に送信する。音声対話装置100は、音声対話サーバ101から得られた応答文を音声合成により読み上げる。これにより、音声対話装置100は、ユーザの質問に対して回答することができる。
図2は、本実施の形態1における音声対話装置及び音声対話サーバの構成を示す図である。図2に示す音声対話装置100は、音声入力部201、音声認識部202、通信部203、意図理解部204、辞書データベース(DB)207、先行応答生成部208、応答出力部209、音声合成部210及び音声出力部211を備える。
音声入力部201は、ユーザが発話した音声を収音し、収音したアナログデータをデジタルデータに変換し、音声認識部202にデジタルデータ化された音声データを出力する。音声入力部201は、例えばパルス符号変調(PCM:Pulse Code Modulation)等を用いてアナログの音声をデジタル化する。
なお、音声入力部201は、音声対話装置100に組み込まれた例えば指向性マイクなどを用いて収音してもよい。また、音声入力部201は、音声対話装置100に有線又は無線で接続された例えばハンドマイク、ピンマイク又は卓上マイクなどの任意の収音デバイスを用いて収音してもよい。また、音声入力部201は、例えばスマートフォン又はタブレット型コンピュータなどの収音機能及び通信機能を有するデバイスを用いて収音してもよい。
音声認識部202は、デジタル化された音声データを音声入力部201から受け取り、音響モデル又は言語モデルを用いて音声データをテキスト情報(テキストデータ)に変換する。音声認識部202は、音声対話装置100内に記憶された音響モデル又は言語モデルを用いてもよいし、クラウドサーバ上に記憶された音響モデル又は言語モデルを用いてもよい。クラウドサーバ上に記憶された音響モデル又は言語モデルを利用する場合は、音声対話装置100は、デジタル化された音声データをクラウドサーバに送信し、クラウドサーバ上で変換されたテキスト情報を受信する。
また、音声認識部202は、クラウドサーバ上に記憶された音響モデル又は言語モデルと、音声対話装置100内に記憶された音響モデル又は言語モデルとの両方を利用してもよい。この場合は、音声認識部202は、クラウドサーバからのテキスト情報と、音声認識部202で変換されたテキスト情報とのうちの先に取得されたテキスト情報を採用する。また、音声認識部202は、クラウドサーバからのテキスト情報と、音声認識部202で変換されたテキスト情報とのうちの確からしさの高い方のテキスト情報を採用してもよい。音声認識部202によって得られるテキスト情報(ユーザが発話した内容をテキスト化した情報)は、意図理解部204及び通信部203に送られる。
通信部203は、音声認識部202から得られたテキスト情報を音声対話サーバ101に送信し、テキスト情報を意図理解した意図理解結果に基づいて生成された応答文を音声対話サーバ101から受信する。
図3は、本実施の形態1における音声対話サーバにおいて得られる意図理解結果の一例を示す図である。音声対話サーバ101において得られる意図理解結果は、ユーザの発話文(入力テキスト)、ユーザの発話文に対する応答文(出力テキスト)、及びユーザの発話の意図を示す意図情報を含む。意図情報は、ユーザが実行又は問い合わせしているタスク(機能)を示す情報と、タスクを呼び出す属性及び当該属性の値を示す情報(スロット)とを含む。図3の例では、ユーザの発話である「今日の天気教えて」に対する意図情報において、タスクは“weather”であり、スロットは“date”属性と“parameter”属性とを含む。“date”属性に対する値は“today”であり、“parameter”属性に対する値は“weather”である。また、それぞれの属性には、ユーザの発話文の中からどの単語が割り当てられたのかを示す情報も含まれる。図3の例では、“date”属性には“今日”という単語が割り当てられ、“parameter”属性には“天気”という単語が割り当てられている。意図理解結果に含まれるこれらの情報を用いて、音声対話装置100は対応する処理を実行する。
意図理解部204は、音声対話サーバ101で行われる意図理解と同様、上述の図3に示す例のように意図理解結果を算出する。なお、意図理解部204は、完全な意図理解結果を算出する必要はない。意図理解部204は、外部と通信せずに、装置内に記憶された辞書データベース207だけを用いて意図理解を行う。そのため、例えば「今日の天気教えて」というユーザの発話文に対し、現在の天気情報が辞書データベース207に記憶されていなければ、意図理解部204は応答文を生成することができず、不完全な意図理解結果しか生成することができない。また、辞書データベース207に記憶されていない未知の単語が発話文に含まれている場合も、意図理解部204はスロット情報を導き出せず、不完全な意図理解結果を生成する。つまり、意図理解部204は、限定的な意図理解処理を担うブロックである。意図理解部204は、先行応答判断部205及び名詞句抽出部206を備える。
先行応答判断部205は、ユーザが発話した音声から変換されたテキストデータに基づき、音声対話装置100において発話に対する応答の回答部分を含む回答応答文を生成可能であるか否かを判断する。辞書データベース207は、テキストデータに対応する回答応答文を生成するためのルールを記憶する。先行応答判断部205は、辞書データベース207に記憶されたルールに基づきユーザの発話に対する回答応答文を生成不可能である場合、音声対話装置100において回答応答文を生成不可能であると判断する。
先行応答判断部205は、ユーザの発話文に対して、音声対話装置100内の辞書データベース207を用いて、完全な応答が可能であるか否かを判断する。また、先行応答判断部205は、ユーザの発話文に対して、名詞句抽出部206を用いて、先行部分の応答が可能であるか否かを判断する。例えば、ユーザの発話文「おはよう」に対し、「おはようございます」という応答を返すルールが辞書データベース207に記憶されていれば、先行応答判断部205は、完全な応答が可能であると判断する。一方、外部との通信が必要となる問い合わせ、例えば「今日の天気教えて」等に対する応答は、予めルールとして辞書データベース207に登録することができない。そのため、先行応答判断部205は、完全な応答が不可能であると判断する。
完全な応答が不可能であると判断された場合、先行応答判断部205は、先行部分の応答が可能であるか否かを判断する。先行部分の応答が可能であるか否かの判断は、名詞句抽出部206によってユーザの発話文から名詞句が抽出可能であるか否かにより判断される。ユーザの発話文から名詞句が抽出された場合、先行応答判断部205は、先行部分の応答が可能であると判断し、ユーザの発話文から名詞句が抽出されない場合、先行応答判断部205は、先行部分の応答が不可能であると判断する。
名詞句抽出部206は、音声認識部202から入力されたテキスト情報を形態素解析し、テキスト情報から名詞句を抽出する。形態素解析では、テキスト文が、言語として意味を持つ最小単位の単語(文字列)に分割され、分割された各単語の品詞が判別される。例えば「今日の天気教えて」というテキスト情報を形態素解析した場合、単語「今日」の品詞は名詞であり、単語「の」の品詞は助詞であり、単語「天気」の品詞は名詞であり、単語「教え」の品詞は動詞であり、単語「て」の品詞は助詞であると判別される。名詞句抽出部206は、形態素解析された単語の中から名詞句を抽出する。日本語の名詞句は、「名詞」と「助詞」とが連続する節、又は「名詞」と「助詞」と「形容詞」とが連続する節を指す。上記の例では、名詞+助詞+名詞で構成される節「今日の天気」が名詞句として抽出される。「京都の美味しいレストラン教えて」というテキスト文の場合は、名詞である「京都」、助詞である「の」、形容詞である「美味しい」及び名詞である「レストラン」で構成される節「京都の美味しいレストラン」が名詞句となる。名詞句抽出部206により、名詞句が抽出された場合、先行応答判断部205は、先行部分の応答が可能であると判断する。
先行応答生成部208は、音声対話装置100において回答応答文を生成不可能であると判断された場合、テキストデータに含まれる所定の品詞の単語に基づき、発話に対する応答の回答部分より前に含まれる冒頭部分を構成する先行応答文を生成する。なお、所定の品詞は名詞である。また、先行応答文は、テキストデータに含まれる名詞の単語を含む名詞句を含む。
先行応答生成部208は、意図理解部204の意図理解結果に基づいて、先行応答文又は回答応答文を生成する。音声対話装置100内の辞書データベース207に予め用意されたルールに発話文が合致し、発話に対する応答の回答部分を含む完全な応答文が生成可能である場合、先行応答生成部208は、意図理解部204から得られた応答文をそのまま音声合成部210に送り、応答生成処理が完結したことを応答出力部209に通知する。音声対話装置100内の辞書データベース207に予め用意されたルールに発話文が合致しなかったが、発話文から名詞句が抽出された場合、先行応答生成部208は、名詞句から発話に対する応答の冒頭部分を構成する先行応答文を生成する。先行応答生成部208は、生成した先行応答文を音声合成部210に送り、先行応答文の内容と先行応答文を出力済みであることとを応答出力部209に通知する。音声対話装置100内の辞書データベース207に予め用意されたルールに発話文が合致せず、発話文から名詞句が抽出されなかった場合、先行応答生成部208は、先行応答文を出力しないことを応答出力部209に通知する。
音声合成部210は、先行応答生成部208及び応答出力部209から受け取ったテキスト情報である応答文を音声合成処理することで音声データを生成する。音声出力部211は、例えばスピーカ等であり、音声合成部210によって生成された音声データを出力する。音声出力部211は、先行応答生成部208によって生成された先行応答文を音声により出力する。音声出力部211は、音声対話装置100に組み込まれていてもよいし、有線又は無線によって音声対話装置100に接続されていてもよい。少なくとも1つ以上の音声出力部211が音声対話装置100に接続されていればよい。
応答出力部209は、先行応答生成部208から受け取った先行応答文と音声対話サーバ101から得られた完全応答文とから、最終的な応答文を生成して出力する。先行応答文が出力済みである場合、応答出力部209は、音声対話サーバ101から得られた完全応答文から、先行応答文の内容を除いた後続応答文を生成し、生成した後続応答文を音声合成部210に送る。例えば、「今日の天気は」という内容の先行応答文がすでに出力済みである場合、応答出力部209は、音声対話サーバ101から得られた完全応答文「今日の天気は晴れのち曇りです」から、先行応答文の内容を除いた後続応答文「晴れのち曇りです」を音声合成部210に送る。また、先行応答文が出力されていない場合、応答出力部209は、音声対話サーバ101から得られた完全応答文を音声合成部210に送る。
応答出力部209は、先行応答文の音声出力と並行して、テキストデータに関連する情報を取得し、取得した情報に基づき、発話に対する応答の回答部分を構成する後続応答文を生成する。なお、テキストデータに関連する情報は、ネットワークを介して取得される。また、応答出力部209は、先行応答文の音声出力が終了するまでに、テキストデータに関連する情報を取得し、取得した情報に基づき、発話に対する応答の回答部分を構成する後続応答文を生成することが好ましい。音声出力部211は、先行応答文の音声出力が完了した後に、応答出力部209によって生成された後続応答文を音声により出力する。
なお、先行応答生成部208は、回答応答文を生成不可能であると判断され、かつテキストデータから所定の品詞の単語を抽出不可能であると判断された場合、先行応答文を生成しないと判断する。また、先行応答文を生成しないと判断された場合、先行応答生成部208は、先行応答文に替えて、間投詞を含む応答文を生成する。音声出力部211は、生成された間投詞を含む応答文を音声により出力する。応答出力部209は、間投詞を含む応答文の音声出力と並行して、完全応答文を生成する。なお、応答出力部209は、間投詞を含む応答文の音声出力が終了するまでに、完全応答文を生成することが好ましい。音声出力部211は、間投詞を含む応答文の音声出力が完了した後に、生成された完全応答文を音声により出力する。
また、応答出力部209は、先行応答文を生成しないと判断された場合、後続応答文を生成せずに、テキストデータに関連する情報を取得し、取得された情報に基づき、発話に対する応答の冒頭部分と回答部分とを構成する完全応答文を生成してもよい。そして、音声出力部211は、生成された完全応答文を音声により出力してもよい。
続いて、音声対話サーバ101の構成について説明する。音声対話サーバ101は、通信部212、意図理解部213、辞書データベース(DB)214及び応答生成部215を備える。
通信部212は、音声対話装置100によって送信されたテキスト化されたユーザの発話文を示すテキスト情報を受信する。なお、音声対話装置100は、テキスト化されたユーザの発話文を送信するのではなく、デジタル化された音声データを音声対話サーバ101に送信してもよい。その場合は、音声対話サーバ101は音声認識部を備え、音声対話サーバ101の音声認識部が、デジタル化された音声データをテキスト化する。
意図理解部213は、受信したユーザの発話文を解析し、ユーザが実行又は問い合わせしているタスク(機能)を特定するとともに、タスクを呼び出す属性及び値を導き出す意図理解処理を行う。意図理解処理には、音声対話サーバ101内の辞書データベース214が用いられる。辞書データベース214には、様々な入力文に対する意図理解ルールが記憶されている。意図理解部213は、辞書データベース214に記憶されているルールに従い意図理解処理を行う。なお、音声対話サーバ101内の辞書データベース214のデータ量は、音声対話装置100内の辞書データベース207のデータ量より多いことが好ましい。
意図理解処理により、ユーザの発話文から実行すべきタスクと、属性の値とが導かれる。図3に示す意図情報は、意図理解処理によって得られる結果の一例である。図3の例では、意図情報のタスクは“weather”であり、スロットの属性は“date”及び“parameter”の2種類である。また、各スロットの属性のうち、“date”属性の値は“today”であり、“parameter”属性の値は“weather”である。また、それぞれの属性には、ユーザの発話文の中からどの単語が割り当てられたのかを示す情報も含まれる。図3の例では、“date”属性には“今日”という単語が割り当てられ、“parameter”属性には“天気”という単語が割り当てられている。
応答生成部215は、意図理解部213から得られた意図情報に基づいて応答文を生成する。図3の例では、意図情報から、ユーザは天気についてのタスクを実行しようとしており、日時は「今日」であり、知りたい情報は「天気」であることがわかる。この意図情報から、応答生成部215は、「今日」の「天気」をサービス提供サーバ102に問い合わせ、ユーザが所望する情報を取得する。ユーザのタスクが「交通情報」であれば、応答生成部215は、サービス提供サーバ102に交通情報を問い合わせる。応答生成部215は、サービス提供サーバ102から得られた情報に基づいて、応答文を生成する。例えば、天気情報が晴れのち曇りであれば、図3の出力テキストの例のように「今日の天気は晴れのち曇りです」という完全応答文を生成する。通信部212は、応答生成部215によって生成された完全応答文を音声対話装置100へ送信する。
応答生成部215は、先行応答文の音声出力と並行して、テキストデータに関連する情報を取得し、取得した情報に基づき、発話に対する応答の冒頭部分と回答部分とを構成する完全応答文を生成する。応答出力部209は、応答生成部215によって生成された完全応答文から先行応答文を削除することにより後続応答文を生成する。
なお、音声対話サーバ101の意図理解部213は、音声対話装置100の意図理解部204と同様に、先行応答文を生成してもよい。その場合、音声対話サーバ101では、2つの応答文が生成されることになる。例えば、図3の例では、出力テキストは、ユーザの発話に対する応答の冒頭部分を構成する先行応答文#1と、ユーザの発話に対する応答の回答部分を構成する後続応答文#2とを含む。音声対話サーバ101からは、2つの出力結果が送信される。まず、応答生成部215は、先行応答文#1を生成し、通信部212は、生成された先行応答文#1を先行して音声対話装置100に送信する。そして、応答生成部215は、サービス提供サーバ102から情報が得られたタイミングで後続応答文#2を生成し、通信部212は、生成された後続応答文#2を音声対話装置100に送信する。
なお、応答生成部215は、後続応答文のみを生成してもよい。通信部212は、生成された後続応答文を音声対話装置100へ送信してもよい。すなわち、音声対話装置100において先行応答文が生成される場合、音声対話サーバ101から送信される完全応答文のうちの先行応答文に対応する冒頭部分は、音声対話装置100にとって不要な情報である。そこで、音声対話サーバ101は後続応答文のみを生成して送信することにより、音声対話装置100は、受信した後続応答文を先行応答文に続けて音声出力することができ、応答の待ち時間をより短縮することができる。
図4は、本実施の形態1における先行応答と後続応答との関連を示す図である。ユーザが音声対話装置100に対して「今日の天気教えて」と発話すると、音声対話装置100は、音声対話装置100内で意図理解処理を行うとともに、音声対話サーバ101に音声認識により得られたテキスト情報を送信する。音声対話装置100内での意図理解処理は外部と通信しないため、意図理解可能な範囲及び回答可能な範囲は制限されるが、通信による遅延が発生しないため、素早く応答を返すことができる。
ユーザの発話が「今日の天気教えて」である場合、天気情報は、ネットワークを介して外部から取得する必要があり、音声対話装置100内での意図理解処理だけでは完全な応答文を生成することができない。そのため、音声対話装置100は、ユーザの発話文から名詞句を抽出し、名詞句から生成される先行応答文「今日の天気は」を先行して音声出力する。音声対話装置100は、先行応答文を音声合成し、音声として出力している間に音声対話サーバ101によって完全応答文が生成されるのを待つ。
音声対話サーバ101は、サービス提供サーバ102と通信し、ユーザの発話に対する応答の冒頭部分と回答部分とを含む完全応答文を生成する。音声対話サーバ101内での意図理解及び応答文生成が完了すると、音声対話サーバ101は、完全応答文を音声対話装置100に送信する。音声対話装置100は、先行応答文を音声出力している間に、音声対話サーバ101から完全応答文を受信する。そして、音声対話装置100は、先行応答文の音声出力が終了した後、続いて完全応答文から先行応答文を削除した後続応答文を音声出力する。
図5は、先行応答文を生成しない従来の音声対話処理による応答待ち時間を説明するための模式図である。ユーザの発話終了からシステムの応答開始までの応答待ち時間は、ユーザの発話の音声認識に要する処理時間t1と、音声対話サーバ101による意図理解処理及び完全応答文の生成に要する処理時間t2との和となる。処理時間t2には、音声対話装置100と音声対話サーバ101との間の通信時間、及び音声対話サーバ101とサービス提供サーバ102との間の通信時間も含まれる。そのため、処理時間t2は通信環境によっては大きな遅延要素となる。
図6は、本実施の形態1における先行応答文を生成する音声対話処理による応答待ち時間を説明するための模式図である。ユーザの発話終了からシステムの応答開始までの応答待ち時間は、ユーザの発話の音声認識に要する処理時間t1と、音声対話装置100内で行われる先行応答文の生成に要する処理時間t4との和となる。処理時間t4は、ネットワークを介して外部と通信しないため、通信時間が含まれる音声対話サーバ101による完全応答文の生成に要する処理時間t2より短くなる。先行応答文が生成された後、システムからの先行応答文の音声出力が開始され、続いて音声対話サーバ101からの完全応答文に基づいて後続応答文の音声出力が行われる。先行応答文の音声出力完了前に音声対話サーバ101から完全応答文を受信した場合、先行応答文の音声出力の完了を待ってから後続応答文の音声出力が開始される。ユーザの応答待ち時間は、図5と比較し、t2−t4時間分、短縮することになる。音声対話サーバ101から完全応答文を受信する前に、先行応答文を先に音声出力することで、音声対話サーバ101から応答結果を待つ時間を有効利用し、ユーザの応答待ち時間の短縮を図ることができる。
図7は、本実施の形態1の音声対話システムにおける音声対話処理の一例を示す第1のフローチャートであり、図8は、本実施の形態1の音声対話システムにおける音声対話処理の一例を示す第2のフローチャートである。
まず、音声入力部201は、ユーザの発話を検知したか否かを判断する(ステップS1)。ユーザの発話を検知していないと判断された場合(ステップS1でNO)、音声入力部201は、ユーザの発話を検知するまで待機する。
一方、ユーザの発話を検知したと判断された場合(ステップS1でYES)、音声入力部201は、ユーザの発話を収音する(ステップS2)。音声入力部201は、収音したアナログデータの音声をデジタルデータに変換し、デジタル化された音声データを音声認識部202に出力する。音声認識部202によって発話の終端が検知されるまで、音声入力部201は収音を続ける。発話の終端は、例えば無音状態が一定時間以上検知されること、又はユーザにより明示的に発話終了ボタンが押下されることにより検知される。
発話の終端が検知されると、音声認識部202は、音声入力部201からの音声データに対して音声認識処理を実行する(ステップS3)。すなわち、音声認識部202は、音声入力部201から入力されたデジタル化された音声データを、音響モデル又は言語モデルを用いてテキスト情報に変換する。音声データをテキスト化したテキスト情報(ユーザの入力発話文)は、意図理解部204及び通信部203へ出力される。
次に、通信部203は、音声認識部202によって変換されたテキスト情報を音声対話サーバ101に送信する(ステップS4)。
次に、意図理解部204及び先行応答生成部208は、応答文を生成する応答文生成処理を実行する(ステップS5)。意図理解部204は、音声認識部202から入力されたユーザの発話文に対して意図理解処理を行う。先行応答生成部208は、意図理解結果に応じて、回答応答文、先行応答文又は間投詞を含む応答文を生成する。
ここで、図7のステップS5における応答文生成処理について説明する。
図9は、図7のステップS5における応答文生成処理について説明するためのフローチャートである。
音声認識部202によってユーザの入力発話文がテキスト化された後、先行応答判断部205は、テキスト化された入力発話文に対し、辞書データベース207を用いて意図理解処理を実行する(ステップS21)。具体的には、先行応答判断部205は、ユーザの入力発話文に合致する応答/タスク実行ルールを辞書データベース207から検索する。例えば、「おはよう」という入力発話文に対する応答/タスク実行ルールは、出力「おはようございます」及び実行タスク「greeting」等になる。
次に、先行応答判断部205は、ローカルで意図理解処理が完結したか否かを判断する(ステップS22)。ユーザの入力発話文に対する応答及び実行すべきタスクのルールが辞書データベース207に存在すれば、先行応答判断部205は、音声対話装置100内のローカルで意図理解処理が完結したと判断する。先行応答判断部205は、辞書データベース207から得られた応答/タスク実行ルールに従い、応答文を生成し、生成した応答文及び応答文が回答応答文であることを先行応答生成部208に通知する。音声対話装置100内のローカルで意図理解処理が完結したと判断された場合(ステップS22でYES)、先行応答生成部208は、先行応答判断部205から入力された応答文を回答応答文として生成する(ステップS23)。
一方、ステップS22において、先行応答判断部205はユーザの入力発話文に対する応答及び実行すべきタスクのルールが辞書データベース207に存在しなければ、先行応答判断部205は、音声対話装置100内のローカルで意図理解処理が完結しないと判断する。音声対話装置100内のローカルで意図理解処理が完結しないと判断された場合(ステップS22でNO)、名詞句抽出部206は、テキスト化された入力発話文を形態素解析し、名詞句を抽出する(ステップS24)。日本語の名詞句は、「名詞」と「助詞」とが連続する節、又は「名詞」と「助詞」と「形容詞」とが連続する節を指す。
次に、先行応答生成部208は、ユーザの入力発話文から名詞句が抽出されたか否かを判断する(ステップS25)。ここで、ユーザの入力発話文から名詞句が抽出されたと判断された場合(ステップS25でYES)、先行応答生成部208は、名詞句抽出部206によって抽出された名詞句を主語とする先行応答文を生成する(ステップS26)。例えば、抽出された名詞句が「今日の天気」である場合、先行応答生成部208は、「今日の天気」を主語とし、主語に続く助詞である「は」を加えた、「今日の天気は」を先行応答文として生成する。
一方、ステップS25において、ユーザの入力発話文から名詞句が抽出されなかったと判断された場合(ステップS25でNO)、先行応答生成部208は、「えっと」又は「はい」などの間投詞を含む応答文を生成する(ステップS27)。
なお、ユーザの入力発話文から名詞句が抽出されなかったと判断された場合、先行応答生成部208は、間投詞を含む応答文を生成しなくてもよい。間投詞を含む応答文が生成されない場合、先行応答文及び間投詞を含む応答文が音声出力されることはなく、音声対話装置100は、音声対話サーバ101によって生成された完全応答文を受信するまで待機することになる。
なお、間投詞を含む応答文を生成するか否かの判断は、ランダムに変化させてもよいし、予めシステム側で決められたパターンで判断してもよい。また、間投詞は、ユーザによって設定されてもよい。さらに、間投詞を含む応答文を生成するか否かは、ユーザによって設定されてもよい。
図7に戻り、次に、音声合成部210は、先行応答生成部208によって生成された回答応答文、先行応答文又は間投詞を含む応答文を音声合成し、音声データを生成する(ステップS6)。
次に、音声出力部211は、音声データを音声として出力する(ステップS7)。これにより、応答文が読み上げられる。なお、ステップS5〜ステップS7の処理は、音声対話サーバ101からの応答を待つことなく実行される。
一方、音声対話サーバ101の通信部212は、音声対話装置100の通信部203によって送信されたテキスト情報を受信する(ステップS8)。
次に、音声対話サーバ101の意図理解部213は、通信部212によって受信されたテキスト情報に対して意図理解処理を実行する(ステップS9)。意図理解処理は、音声対話サーバ101の辞書データベース214を用いて行われる。意図理解部213は、ユーザの発話文から実行すべきタスクと、属性の値とを含む意図情報を導出する。意図理解処理によって導出された意図情報は、応答生成部215に出力される。
次に、応答生成部215は、意図情報に基づいて完全応答文を生成する(ステップS10)。応答生成部215は、意図情報に含まれるタスク内容に応じて、ユーザが所望する情報をサービス提供サーバ102に問い合わせ、サービス提供サーバ102から得た情報に基づいて完全応答文を生成する。
次に、通信部212は、応答生成部215によって生成された完全応答文を音声対話装置100に送信する(ステップS11)。なお、通信部212は、完全応答文のみだけではなく、完全応答文を含む図3に示す意図理解結果を音声対話装置100に送信してもよい。以上のステップS8からステップS11までの処理が、音声対話サーバ101で行われる処理となる。
次に、音声対話装置100の通信部203は、音声対話サーバ101によって送信された完全応答文を受信する(ステップS12)。応答出力部209は、先行応答生成部208から受け取った先行応答文と、音声対話サーバ101から得られた完全応答文とに基づいて、最終的な応答文を生成する。
次に、応答出力部209は、音声対話装置100内のローカルで意図理解処理が完結したか否かを判断する(ステップS13)。先行応答生成部208によって回答応答文が既に生成済みであれば、応答出力部209は、音声対話装置100内のローカルで意図理解処理が完結したと判断する。ここで、音声対話装置100内のローカルで意図理解処理が完結したと判断された場合(ステップS13でYES)、応答出力部209は、音声対話サーバ101から受信した完全応答文を破棄し、音声対話処理を終了する(ステップS14)。
一方、先行応答生成部208によって回答応答文が生成されていなければ、応答出力部209は、音声対話装置100内のローカルで意図理解処理が完結しないと判断する。音声対話装置100内のローカルで意図理解処理が完結しないと判断された場合(ステップS13でNO)、応答出力部209は、先行応答文が音声出力されているか否かを判断する(ステップS15)。
ここで、先行応答文が音声出力されていないと判断された場合(ステップS15でNO)、応答出力部209は、音声対話サーバ101から受信した完全応答文を音声合成部210に出力し、音声合成部210は、応答出力部209によって出力された完全応答文を音声合成し、音声データを生成する(ステップS16)。
一方、先行応答文が音声出力されていると判断された場合(ステップS15でYES)、応答出力部209は、音声対話サーバ101から受信した完全応答文から、先行応答生成部208によって生成された先行応答文を除去した後続応答文を生成し、生成した後続応答文を音声合成部210に出力する(ステップS17)。例えば、「今日の天気は」という先行応答文がすでに出力開始済みである場合、応答出力部209は、音声対話サーバ101から受信した「今日の天気は晴れのち曇りです」という完全応答文から、先行応答文を除いた「晴れのち曇りです」という後続応答文を音声合成部210に出力する。
次に、音声合成部210は、応答出力部209から入力された後続応答文を音声合成し、音声データを生成する(ステップS18)。
次に、音声出力部211は、先行応答文の音声出力が完了したか否かを判断する(ステップS19)。先行応答文の音声出力が完了していない場合(ステップS19でNO)、先行応答文の音声出力が完了するまで待機する。
一方、先行応答文の音声出力が完了したと判断された場合(ステップS19でYES)、音声出力部211は、後続応答文又は完全応答文の音声データを音声として出力する(ステップS20)。これにより、音声対話サーバ101から受信した完全応答文又は音声対話装置100で生成された後続応答文が読み上げられる。
本実施の形態1の音声対話装置100によれば、音声対話サーバ101での情報検索結果に依存しない応答文の冒頭部分を構成する先行応答文が、音声対話サーバ101での結果を待つことなく音声出力される。そして、音声対話サーバ101での情報検索結果に依存する回答部分を構成する後続応答文が、音声対話サーバ101での情報検索結果を受理してから、先行応答文に続いて音声出力される。したがって、音声対話装置100に対するユーザの発話内容が、音声対話サーバ101での情報検索を必要とし、かつ応答までに時間を要するリクエストであった場合においても、音声対話サーバ101での情報検索に要する時間中に、先行応答文を音声出力することができ、ユーザの発話リクエストに対する応答遅延を、応答文に含まれる情報量を維持したまま短縮することができる。
(実施の形態2)
実施の形態1では、外部サービスを活用して音声対話により情報を検索する際の音声対話装置の構成について説明したが、本実施の形態2では、音声対話により宅内の家電機器を操作する際の音声対話装置の構成について説明する。なお、以下の説明では、上記実施の形態1と同様の構成については同一の符号を付して説明を簡略化している。
図10は、本実施の形態2における先行応答と後続応答との関連を示す図である。本実施の形態2では、音声対話装置100は、ユーザの発話内容に応じた機器302の制御指示をホームゲートウェイ301に送信する。ホームゲートウェイ301は、受信した制御指示に従い機器302を制御し、制御結果を音声対話装置100に送信する。音声対話装置100は、ホームゲートウェイ301から得られた制御結果を音声出力することによりユーザの発話に対して応答する。
ホームゲートウェイ301と機器302とは、宅内ネットワークを介して接続される。ホームゲートウェイ301は、機器302の状態を管理するとともに、機器302の動作を制御する。また、ホームゲートウェイ301は、宅内ネットワークを介して接続された別の機器からの制御指示を受け付ける機器制御インターフェースを備える。音声対話装置100は、ホームゲートウェイ301の機器制御インターフェースを呼び出し、同じ宅内ネットワークに接続されている機器302の動作を制御する。
機器302は、インターネットと接続可能な機器(例えば、スマートフォン、パーソナルコンピュータ(PC)又はテレビ等)、及びそれ自身ではインターネットと接続不可能な機器(例えば、照明、エアコン、洗濯機又は冷蔵庫等)を含む。機器302は、それ自身ではインターネットと接続不可能であっても、ホームゲートウェイ301を介してインターネットと接続可能となる機器を含んでもよい。また、音声対話装置100は、ホームゲートウェイ301を介さずに、機器302へ直接制御指示を送信してもよい。この場合、機器302は、音声対話装置100へ制御結果を直接送信してもよい。
ユーザが音声対話装置100に対して「エアコンの設定温度は?」と発話すると、音声対話装置100は、音声対話装置100内で意図理解処理を行うとともに、音声対話サーバ101に音声認識により得られたテキスト情報を送信する。音声対話装置100内での意図理解処理は外部と通信しないため、意図理解可能な範囲及び回答可能な範囲は制限されるが、通信による遅延が発生しないため、素早く応答を返すことができる。
ユーザの発話が「エアコンの設定温度は?」である場合、現在のエアコンの設定温度を機器302に問い合わせる必要があり、音声対話装置100内での意図理解処理だけでは完全な応答文を生成することができない。そのため、音声対話装置100は、ユーザの発話文から名詞句を抽出し、名詞句から生成される先行応答文「エアコンの設定温度は」を先行して音声出力する。音声対話装置100は、先行応答文を音声合成し、音声として出力している間に音声対話サーバ101から意図理解結果が送信されるのを待つ。
図11は、本実施の形態2における音声対話サーバにおいて得られる意図理解結果の一例を示す図である。意図理解結果に含まれる意図情報のタスクが機器制御(deviceControl)である場合、音声対話装置100は、意図理解結果に含まれる意図情報のスロットの内容に従い、ホームゲートウェイ301に対し機器制御指示を送信する。図11の場合、“device”属性に対する値は“airconditioner”となっており、制御指示が、エアコンに対する制御であることを示している。また、“parameter”属性に対する値は“temperature”となっており、“action”属性に対する値は“get”となっており、制御指示が、設定温度を取得する命令であることを示している。
意図理解結果に含まれる出力テキストは、ユーザの発話に対する応答の冒頭部分を構成する先行応答文#1と、ユーザの発話に対する応答の回答部分を構成する後続応答文#2とを含む。意図理解結果の後続応答文#2は、“%temperature%度です”となっており、この“%temperature%”は、制御対象機器のパラメータ“temperature”の値が代入されることを示している。例えば、エアコンから設定温度パラメータ値として“28”が取得された場合、音声対話装置100は、後続応答文の“%temperature%”を“28”に置き換え、「28度です」という後続応答文を生成する。
音声対話装置100は、先行応答文を音声出力している間に、音声対話サーバ101から得られる意図理解結果の意図情報に基づいて、ホームゲートウェイ301に対し、機器制御指示を送信し、ホームゲートウェイ301から得られた制御結果と意図理解結果に含まれる応答文とから完全応答文を生成する。そして、音声対話装置100は、先行応答文の音声出力が終了した後、続いて完全応答文から先行応答文を削除した後続応答文を音声出力する。
図12は、本実施の形態2における音声対話装置及び音声対話サーバの構成を示す図である。図12に示す音声対話装置100は、音声入力部201、音声認識部202、通信部203、意図理解部204、辞書データベース(DB)207、先行応答生成部208、応答出力部209、音声合成部210、音声出力部211及び機器制御指示部401を備える。
機器制御指示部401は、意図理解処理の結果に基づいてホームゲートウェイ301に対し機器302の動作を制御するための機器制御指示を送信する。機器制御指示部401は、音声対話装置100内の意図理解部204での意図理解処理の結果、又は音声対話サーバ101内の意図理解部213での意図理解処理の結果を、応答出力部209を介して取得する。意図理解結果に含まれる意図情報のタスクが機器制御(deviceControl)である場合、機器制御指示部401は、意図情報のスロットの内容に従い、ホームゲートウェイ301に対して機器制御指示を送信する。
すなわち、ユーザの発話は、ユーザによって使用される機器302を制御するための指示内容を含む。機器制御指示部401は、テキストデータに対する意図理解処理結果に基づき、制御の対象となる機器302を特定するとともに、指示内容に対応する制御コマンドを生成する。機器制御指示部401は、特定された機器302に対して制御コマンドを発行する。機器制御指示部401は、制御コマンドによる制御結果を機器302から取得する。
ホームゲートウェイ301は機器制御部402を備える。機器制御部402は、音声対話装置100によって送信された機器制御指示を受信する。機器制御部402は、音声対話装置100からの機器制御指示に従い、指定された機器302を指定された制御パラメータで制御し、制御結果を音声対話装置100に通知する。機器制御指示部401は、ホームゲートウェイ301によって送信された機器302の制御結果を受信する。
例えば、機器制御部402は、機器302の設定温度を取得する制御コマンドを機器制御指示部401から受信した場合、機器302のメモリに記憶されている設定温度を読み出し、読み出した設定温度を制御結果として機器制御指示部401へ送信する。
応答出力部209は、音声対話装置100内の意図理解部204で意図理解処理が完結され、意図理解結果が得られれば、音声対話装置100内での意図理解結果を機器制御指示部401に通知する。また、応答出力部209は、音声対話装置100内の意図理解部204で意図理解処理が完結されなかった場合、すなわち、音声対話装置100内の辞書データベース207に、ユーザの発話文に対応するルールが存在しなかった場合、音声対話サーバ101からの意図理解結果を待ち、音声対話サーバ101から得られた意図理解結果を機器制御指示部401に通知する。
先行応答生成部208は、意図理解部204の意図理解結果に基づいて、先行応答文又は回答応答文を生成する。音声対話装置100内の辞書データベース207に予め用意されたルールに発話文が合致し、ユーザの発話に対する応答の回答部分を含む回答応答文が生成された場合、先行応答生成部208は、意図理解部204から得られた回答応答文をそのまま音声合成部210に出力し、応答生成処理が完結したことを応答出力部209に通知する。
回答応答文とは、未確定パラメータがなく、文字列として全て読み上げ可能な応答文を示す。例えば、図11に示す意図理解結果に含まれる応答文は、“エアコンの設定温度は%temperature%度です”であり、この応答文には、未確定パラメータ“%temperature%”が存在する。この場合は、意図理解結果に含まれる応答文は回答応答文とはみなされず、音声対話装置100は先行応答文を出力する。すなわち、辞書データベース207に予め用意されたルールに、ユーザの発話が合致したとしても、得られた応答文に未確定パラメータが存在する場合は、音声対話装置100は先行応答文を出力する。
応答出力部209は、制御結果の内容に基づき後続応答文を生成する。すなわち、応答出力部209は、制御結果の内容に基づき完全応答文を生成し、生成した完全応答文から先行応答文を削除することにより、後続応答文を生成する。
図13は、本実施の形態2の音声対話システムにおける音声対話処理の一例を示すフローチャートである。実施の形態1の音声対話処理と異なる点は、ステップS31の機器制御処理が追加されている点である。なお、ステップS31より前の処理は、図7に示すステップS1〜ステップS12の処理と同じであるので、説明を省略する。また、ステップS31以降のステップS32〜ステップS39の処理は、図8に示すステップS13〜ステップS20の処理と同じであるので、説明を省略する。
機器制御指示部401は、ユーザによって使用される機器を制御する機器制御処理を実行する(ステップS31)。機器制御指示部401は、音声対話サーバ101から得られた意図理解結果に基づいて、機器を制御すべきか否かを判断し、機器を制御する必要がある場合、すなわち、意図理解結果に含まれる意図情報のタスクが機器制御(deviceControl)である場合、機器を制御した後、応答文を生成する。
図14は、図13のステップS31における機器制御処理の一例を示すフローチャートである。
まず、機器制御指示部401は、音声対話サーバ101からの意図理解結果に含まれる意図情報のタスクが機器制御(deviceControl)であるか否かを判断する(ステップS41)。ここで、意図情報のタスクが機器制御ではないと判断された場合(ステップS41でNO)、機器制御指示部401は、意図理解結果に含まれる回答応答文をそのまま応答文として採用する(ステップS42)。
一方、意図情報のタスクが機器制御であると判断された場合(ステップS41でYES)、機器制御指示部401は、意図情報のスロットの内容に従い、制御の対象となる機器を特定するとともに、機器制御コマンドを生成する(ステップS43)。
次に、機器制御指示部401は、ホームゲートウェイ301に対し制御コマンドを発行する(ステップS44)。例えば、図11に示す意図理解結果の場合、“device”属性に対する値は“airconditioner”となっており、制御対象機器がエアコンであることを示している。また、“parameter”属性に対する値は“temperature”となっており、“action”属性に対する値は“get”となっており、制御内容が、設定温度を取得する命令であることを示している。以上のことから、機器制御指示部401は、エアコンに対して設定温度を取得する制御コマンドをホームゲートウェイ301に対して発行する。
次に、機器制御指示部401は、ホームゲートウェイ301から機器制御結果を受信する(ステップS45)。
次に、応答出力部209は、ホームゲートウェイ301から受信した機器制御結果から完全応答文を生成する(ステップS46)。例えば、図11に示す意図理解結果の場合、意図理解結果に含まれる出力テキスト文#2は、“%temperature%度です”となっており、この“%temperature%”は、制御対象機器のパラメータ“temperature”の値が代入されることを示している。例えば、エアコンから設定温度パラメータ値として“28”が取得された場合、応答出力部209は、出力テキスト文#2の“%temperature%”を“28”に置き換え、「エアコンの設定温度は28度です」という完全応答文を生成する。
図15は、本実施の形態2において、発話内容に応じて変更される先行応答文のフォーマットの一例を示す図である。
上記の実施の形態2において、先行応答生成部208は、例えば、「エアコンの設定温度は」のように、名詞句に助詞である「は」を加えた文字列(<名詞句>+「は」)を先行応答文のフォーマットとして採用している。しかしながら、先行応答生成部208は、発話内容に応じて先行応答文のフォーマットを変更してもよい。例えば、ユーザの発話が「エアコンつけて」であれば、「エアコンは運転を開始しました」という応答文より「エアコンの運転を開始しました」という応答文の方がより自然な応答文となる。そのため、ユーザの発話内容に応じて適切な先行応答文のフォーマットを選択することが望ましい。しかしながら、先行応答文は、メモリ、CPU(中央演算処理装置)又はストレージが制限された音声対話装置で生成する必要があるため、先行応答文を生成するために複雑な解析又は大規模なパターンマッチングを行うのは避けた方がよい。そのため、先行応答生成部208は、汎用的に違和感なく利用できる先行応答文のフォーマットを採用するのが望ましい。
この場合、先行応答生成部208は、テキストデータに基づき、発話内容が質問に関する発話であるか否かを判断し、発話内容が質問に関する発話であるか否かに応じて先行応答文の構成を変更する。
例えば、先行応答生成部208は、ユーザの発話が問い合わせに関する発話であるか否かを判断し、ユーザの発話が問い合わせに関する発話であるか、問い合わせ以外に関する発話であるかに応じて適用する先行応答文のフォーマットを変更してもよい。問い合わせに関する発話とは、ユーザが情報の取得を求めている発話を指し、例えば語尾が、「教えて」で終わる発話、「調べて」で終わる発話、「は?」で終わる発話又は名詞句だけで終わる発話(例:「エアコンの設定温度」)などが挙げられる。典型的な問い合わせに関する発話の表現パターンを予め音声対話装置100内に登録しておき、登録された表現パターンに合致したユーザの発話には、<名詞句>+「は」をフォーマットとする先行応答文が採用される。また、問い合わせに関する発話の表現パターンに合致しなかったユーザ発話には、より汎用的な返答である<名詞句>+「ですね」をフォーマットとする先行応答文が採用される。
以下、上述のルールに基づいた例について説明する。
例えば、ユーザの発話が、問い合わせに関する発話である「今日の天気教えて」である場合、音声対話装置100は、「今日の天気は」という先行応答文を生成し、「晴れのち曇りです」という後続応答文を生成する。また、例えば、ユーザの発話が、問い合わせに関する発話である「エアコンの設定温度は」である場合、音声対話装置100は、「エアコンの設定温度は」という先行応答文を生成し、「20度です」という後続応答文を生成する。
また、例えば、ユーザの発話が、問い合わせ以外に関する発話である「エアコン消して」である場合、音声対話装置100は、「エアコンですね」という先行応答文を生成し、「運転を停止しました」という後続応答文を生成する。また、例えば、ユーザの発話が、問い合わせ以外に関する発話である「照明つけて」である場合、音声対話装置100は、「照明ですね」という先行応答文を生成し、「点灯しました」という後続応答文を生成する。
上述の例のように、ユーザの発話が問い合わせに関する発話であるか否かによって適用する先行応答文のフォーマットを変更することで、後続応答文を自然な流れで先行応答文と結合させることができる。なお、本実施の形態では、ユーザの発話が問い合わせに関する発話であるか否かを判断することを例に説明したが、音声対話装置100の計算パワー及びストレージに余裕があれば、ユーザの発話内容をさらに詳細に区分して、複数の先行応答文のフォーマットを使用してもよい。
本実施の形態2の音声対話装置100によれば、音声対話装置100に対するユーザの発話内容が、宅内の機器制御に関する発話内容であり、機器との通信及び制御結果待ちにより応答までに或る程度の時間を要するリクエストであった場合においても、音声対話装置100は、機器制御結果に依存しない内容の先行応答文を生成し、機器制御の結果を待つことなく先行応答文の音声出力を開始する。そして、機器制御結果に依存する残りの後続応答文は、機器制御結果を取得してから、先行応答文に続けて音声出力することで、機器制御に要する時間中に、先行応答文を音声出力することができ、ユーザの発話リクエストに対する応答遅延を、応答文に含まれる情報量を維持したまま短縮することができる。
なお、本実施の形態1,2では、主に日本語の発話に対する応答について説明しているが、本開示は特にこれに限定されず、英語及び中国語の発話に対する応答にも本開示の音声対話システムを利用することができる。
図16は、日本語、英語及び中国語の発話を比較するための図である。図16に示すように、日本語で「今日の天気教えて。」という文が発話された場合、音声対話装置100は、「今日の天気」という名詞を含む名詞句を抽出し、抽出した名詞句を用いて先行応答文を生成する。また、英語で「Tell me today’s weather.」という文(sentence)が発話された場合、音声対話装置100は、「today’s weather」という名詞を含む句(phrase)を抽出し、抽出した句を用いて先行応答文を生成する。さらに、中国語で「今日の天気教えて。」(中国語表記は図16参照)という文(中国語では句)が発話された場合、音声対話装置100は、「今天的天気」という名詞を含む短句(名詞短句)を抽出し、抽出した短句を用いて先行応答文を生成する。
このように、日本語だけでなく、英語及び中国語でも、テキストデータに含まれる所定の品詞の単語に基づき、発話に対する応答の冒頭部分を構成する先行応答文を生成することができ、ユーザの発話と装置からの応答との間の待ち時間を短縮することができるとともに、ユーザと装置とのスムーズな対話を実現することができる。
本開示に係る音声対話方法、音声対話装置及び音声対話プログラムは、ユーザの発話と装置からの応答との間の待ち時間を短縮することができるとともに、ユーザと装置とのスムーズな対話を実現することができ、音声対話によりユーザが所望する情報を提供する音声対話方法、音声対話装置及び音声対話プログラムとして有用である。
100 音声対話装置
101 音声対話サーバ
102 サービス提供サーバ
201 音声入力部
202 音声認識部
203,212 通信部
204,213 意図理解部
205 先行応答判断部
206 名詞句抽出部
207,214 辞書データベース
208 先行応答生成部
209 応答出力部
210 音声合成部
211 音声出力部
215 応答生成部
301 ホームゲートウェイ
302 機器
401 機器制御指示部
402 機器制御部

Claims (13)

  1. 音声対話によりユーザが所望する情報を提供する音声対話装置における音声対話方法であって、
    前記ユーザが発話した音声から変換されたテキストデータに基づき、前記音声対話装置において前記発話に対する応答の回答部分を含む回答応答文を生成可能であるか否かを判断し、
    前記音声対話装置において前記回答応答文を生成不可能であると判断された場合、前記テキストデータに含まれる所定の品詞の単語に基づき、前記発話に対する応答の前記回答部分より前に含まれる冒頭部分を構成する第1の応答文を生成し、
    生成された前記第1の応答文を音声により出力し、
    前記第1の応答文の音声出力と並行して、前記テキストデータに関連する情報を取得し、取得した前記情報に基づき、前記発話に対する応答の前記回答部分を構成する第2の応答文を生成し、
    前記第1の応答文の音声出力が完了した後に、生成された前記第2の応答文を音声により出力する、
    音声対話方法。
  2. 前記所定の品詞は、名詞である、
    請求項1記載の音声対話方法。
  3. 前記第1の応答文は、前記名詞の単語を含む名詞句を含む、
    請求項2記載の音声対話方法。
  4. 前記テキストデータに関連する情報は、ネットワークを介して取得される、
    請求項1〜3のいずれか1項に記載の音声対話方法。
  5. 前記音声対話装置は、前記テキストデータに対応する前記回答応答文を生成するためのルールを記憶する辞書データベースを備え、
    前記辞書データベースに記憶された前記ルールに基づき前記ユーザの発話に対する前記回答応答文を生成不可能である場合、前記音声対話装置において前記回答応答文を生成不可能であると判断する、
    請求項1〜4のいずれか1項に記載の音声対話方法。
  6. 前記回答応答文を生成不可能であると判断された場合、前記テキストデータから前記所定の品詞の単語を抽出可能であるか否かを判断し、
    前記テキストデータから前記所定の品詞の単語を抽出不可能であると判断された場合、前記第1の応答文を生成しないと判断する、
    請求項1〜5のいずれか1項に記載の音声対話方法。
  7. 前記第1の応答文を生成しないと判断された場合、前記第2の応答文を生成せずに、前記テキストデータに関連する情報を取得し、取得された前記情報に基づき、前記発話に対する応答の前記冒頭部分と前記回答部分とを構成する第3の応答文を生成し、
    生成された前記第3の応答文を音声により出力する、
    請求項6記載の音声対話方法。
  8. 前記第1の応答文を生成しないと判断された場合、前記第1の応答文に替えて、間投詞を含む第4の応答文を生成し、
    生成された前記第4の応答文を音声により出力し、
    前記第4の応答文の音声出力と並行して、前記第3の応答文を生成し、
    前記第4の応答文の音声出力が完了した後に、生成された前記第3の応答文を音声により出力する、
    請求項7記載の音声対話方法。
  9. 前記第1の応答文の音声出力と並行して、前記テキストデータに関連する情報を取得し、取得した前記情報に基づき、前記発話に対する応答の前記冒頭部分と前記回答部分とを構成する第3の応答文を生成し、生成した前記第3の応答文から前記第1の応答文を削除することにより前記第2の応答文を生成する、
    請求項1〜6のいずれか1項に記載の音声対話方法。
  10. 前記発話は、ユーザによって使用される機器を制御するための指示内容を含み、
    前記テキストデータに基づき、制御の対象となる前記機器を特定するとともに、前記指示内容に対応する制御コマンドを生成し、
    特定された前記機器に対して前記制御コマンドを発行し、
    前記制御コマンドによる制御結果を前記機器から取得し、
    前記制御結果の内容に基づき前記第2の応答文を生成する、
    請求項1〜9のいずれか1項に記載の音声対話方法。
  11. 前記テキストデータに基づき、発話内容が質問に関する発話であるか否かを判断し、
    前記発話内容が質問に関する発話であるか否かに応じて前記第1の応答文の構成を変更する、
    請求項1〜10のいずれか1項に記載の音声対話方法。
  12. 音声対話によりユーザが所望する情報を提供する音声対話装置であって、
    前記ユーザが発話した音声から変換されたテキストデータに基づき、前記音声対話装置において前記発話に対する応答の回答部分を含む回答応答文を生成可能であるか否かを判断する判断部と、
    前記判断部によって前記音声対話装置において前記回答応答文を生成不可能であると判断された場合、前記テキストデータに含まれる所定の品詞の単語に基づき、前記発話に対する応答の前記回答部分より前に含まれる冒頭部分を構成する第1の応答文を生成する第1の生成部と、
    前記第1の生成部によって生成された前記第1の応答文を音声により出力する第1の音声出力部と、
    前記第1の応答文の音声出力と並行して、前記テキストデータに関連する情報を取得し、取得した前記情報に基づき、前記発話に対する応答の前記回答部分を構成する第2の応答文を生成する第2の生成部と、
    前記第1の応答文の音声出力が完了した後に、前記第2の生成部によって生成された前記第2の応答文を音声により出力する第2の音声出力部と、
    を備える音声対話装置。
  13. 音声対話によりユーザが所望する情報を提供する音声対話プログラムであって、
    コンピュータを、
    前記ユーザが発話した音声から変換されたテキストデータに基づき、前記音声対話装置において前記発話に対する応答の回答部分を含む回答応答文を生成可能であるか否かを判断する判断部と、
    前記判断部によって前記音声対話装置において前記回答応答文を生成不可能であると判断された場合、前記テキストデータに含まれる所定の品詞の単語に基づき、前記発話に対する応答の前記回答部分より前に含まれる冒頭部分を構成する第1の応答文を生成する第1の生成部と、
    前記第1の生成部によって生成された前記第1の応答文の音声出力と並行して、前記テキストデータに関連する情報を取得し、取得した前記情報に基づき、前記発話に対する応答の前記回答部分を構成する第2の応答文を生成する第2の生成部として機能させる、
    音声対話プログラム。
JP2015241049A 2015-12-10 2015-12-10 音声対話方法、音声対話装置及び音声対話プログラム Pending JP2017107078A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015241049A JP2017107078A (ja) 2015-12-10 2015-12-10 音声対話方法、音声対話装置及び音声対話プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015241049A JP2017107078A (ja) 2015-12-10 2015-12-10 音声対話方法、音声対話装置及び音声対話プログラム

Publications (1)

Publication Number Publication Date
JP2017107078A true JP2017107078A (ja) 2017-06-15

Family

ID=59060783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015241049A Pending JP2017107078A (ja) 2015-12-10 2015-12-10 音声対話方法、音声対話装置及び音声対話プログラム

Country Status (1)

Country Link
JP (1) JP2017107078A (ja)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109506349A (zh) * 2017-09-15 2019-03-22 夏普株式会社 网络系统、信息处理方法以及服务器
WO2019069597A1 (ja) * 2017-10-03 2019-04-11 東芝ライフスタイル株式会社 家電システム
WO2019069596A1 (ja) * 2017-10-03 2019-04-11 東芝ライフスタイル株式会社 家電システム
CN109785830A (zh) * 2017-11-15 2019-05-21 丰田自动车株式会社 信息处理装置
KR20190084566A (ko) * 2018-01-08 2019-07-17 엘지전자 주식회사 음성인식을 이용한 세탁물 처리기기 제어시스템 및 동작방법
JP2019144831A (ja) * 2018-02-20 2019-08-29 トヨタ自動車株式会社 情報処理装置および情報処理方法
CN110322885A (zh) * 2018-03-28 2019-10-11 塞舌尔商元鼎音讯股份有限公司 人工智能语音互动的方法、电脑程序产品及其近端电子装置
JP2019194759A (ja) * 2018-05-01 2019-11-07 国立研究開発法人情報通信研究機構 対話システム補強装置及びコンピュータプログラム
CN110688191A (zh) * 2019-10-12 2020-01-14 苏州思必驰信息科技有限公司 用于语音对话平台的问答生成方法及系统
JP2020017872A (ja) * 2018-07-25 2020-01-30 パナソニックIpマネジメント株式会社 処理装置、遠隔操作システム、プログラム
CN110741362A (zh) * 2018-05-03 2020-01-31 谷歌有限责任公司 音频查询的重叠处理的协调
WO2020070888A1 (ja) * 2018-10-05 2020-04-09 三菱電機株式会社 音声操作支援システム、音声操作システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム
CN111414453A (zh) * 2020-03-05 2020-07-14 北京声智科技有限公司 结构化文本生成方法、装置、电子设备及计算机可读存储介质
KR20200114079A (ko) * 2019-03-27 2020-10-07 주식회사 포시에스 다수의 의도가 포함된 문장으로부터 의도 및 의도에 대응되는 내용을 검출하는 전자문서 시스템
WO2020217318A1 (ja) * 2019-04-23 2020-10-29 三菱電機株式会社 機器制御装置、および、機器制御方法
CN111966803A (zh) * 2020-08-03 2020-11-20 深圳市欢太科技有限公司 对话模拟方法、装置、存储介质及电子设备
CN111968632A (zh) * 2020-07-14 2020-11-20 招联消费金融有限公司 通话语音获取方法、装置、计算机设备和存储介质
CN112084313A (zh) * 2020-07-30 2020-12-15 联想(北京)有限公司 一种信息处理方法、装置及设备
JP2021140088A (ja) * 2020-03-06 2021-09-16 アルパイン株式会社 データ処理システム
JP2022017239A (ja) * 2018-10-05 2022-01-25 三菱電機株式会社 音声操作支援システム、音声操作システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム
JP2023504809A (ja) * 2019-12-26 2023-02-07 エーアイ スピーチ カンパニー リミテッド 音声対話プラットフォームの機能ディスパッチ方法および装置
US11749270B2 (en) 2020-03-19 2023-09-05 Yahoo Japan Corporation Output apparatus, output method and non-transitory computer-readable recording medium
US11763831B2 (en) 2020-03-19 2023-09-19 Yahoo Japan Corporation Output apparatus, output method and non-transitory computer-readable recording medium
JP7411303B1 (ja) 2023-05-01 2024-01-11 株式会社大正スカイビル 対象物の管理システム
CN118366458A (zh) * 2024-06-18 2024-07-19 摩尔线程智能科技(北京)有限责任公司 一种全双工对话系统及方法、电子设备和存储介质

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019052797A (ja) * 2017-09-15 2019-04-04 シャープ株式会社 ネットワークシステム、情報処理方法、およびサーバ
CN109506349A (zh) * 2017-09-15 2019-03-22 夏普株式会社 网络系统、信息处理方法以及服务器
JP7036561B2 (ja) 2017-10-03 2022-03-15 東芝ライフスタイル株式会社 家電システム
WO2019069597A1 (ja) * 2017-10-03 2019-04-11 東芝ライフスタイル株式会社 家電システム
WO2019069596A1 (ja) * 2017-10-03 2019-04-11 東芝ライフスタイル株式会社 家電システム
JP2019068321A (ja) * 2017-10-03 2019-04-25 東芝ライフスタイル株式会社 家電システム
CN111183416B (zh) * 2017-10-03 2024-03-01 东芝生活电器株式会社 家电系统
CN111183478B (zh) * 2017-10-03 2023-09-08 东芝生活电器株式会社 家电系统
CN111183416A (zh) * 2017-10-03 2020-05-19 东芝生活电器株式会社 家电系统
CN111183478A (zh) * 2017-10-03 2020-05-19 东芝生活电器株式会社 家电系统
CN109785830A (zh) * 2017-11-15 2019-05-21 丰田自动车株式会社 信息处理装置
CN109785830B (zh) * 2017-11-15 2023-09-12 丰田自动车株式会社 信息处理装置
KR102498007B1 (ko) * 2018-01-08 2023-02-08 엘지전자 주식회사 음성인식을 이용한 세탁물 처리기기 제어시스템 및 동작방법
KR20190084566A (ko) * 2018-01-08 2019-07-17 엘지전자 주식회사 음성인식을 이용한 세탁물 처리기기 제어시스템 및 동작방법
US11269936B2 (en) 2018-02-20 2022-03-08 Toyota Jidosha Kabushiki Kaisha Information processing device and information processing method
JP2019144831A (ja) * 2018-02-20 2019-08-29 トヨタ自動車株式会社 情報処理装置および情報処理方法
CN110322885A (zh) * 2018-03-28 2019-10-11 塞舌尔商元鼎音讯股份有限公司 人工智能语音互动的方法、电脑程序产品及其近端电子装置
CN110322885B (zh) * 2018-03-28 2023-11-28 达发科技股份有限公司 人工智能语音互动的方法、电脑程序产品及其近端电子装置
JP7044245B2 (ja) 2018-05-01 2022-03-30 国立研究開発法人情報通信研究機構 対話システム補強装置及びコンピュータプログラム
JP2019194759A (ja) * 2018-05-01 2019-11-07 国立研究開発法人情報通信研究機構 対話システム補強装置及びコンピュータプログラム
CN110741362B (zh) * 2018-05-03 2024-05-14 谷歌有限责任公司 音频查询的重叠处理的协调
CN110741362A (zh) * 2018-05-03 2020-01-31 谷歌有限责任公司 音频查询的重叠处理的协调
JP7439186B2 (ja) 2018-05-03 2024-02-27 グーグル エルエルシー オーディオクエリのオーバーラップ処理の協調
JP2022172090A (ja) * 2018-05-03 2022-11-15 グーグル エルエルシー オーディオクエリのオーバーラップ処理の協調
US11989229B2 (en) 2018-05-03 2024-05-21 Google Llc Coordination of overlapping processing of audio queries
JP7162169B2 (ja) 2018-07-25 2022-10-28 パナソニックIpマネジメント株式会社 処理装置、遠隔操作システム、プログラム
JP2020017872A (ja) * 2018-07-25 2020-01-30 パナソニックIpマネジメント株式会社 処理装置、遠隔操作システム、プログラム
CN112823341A (zh) * 2018-10-05 2021-05-18 三菱电机株式会社 语音操作支援系统、语音操作系统、语音处理装置、语音操作支援装置、语音操作支援方法以及程序
JP7284793B2 (ja) 2018-10-05 2023-05-31 三菱電機株式会社 音声操作支援システム、音声操作システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム
JP2022017239A (ja) * 2018-10-05 2022-01-25 三菱電機株式会社 音声操作支援システム、音声操作システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム
WO2020070888A1 (ja) * 2018-10-05 2020-04-09 三菱電機株式会社 音声操作支援システム、音声操作システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム
GB2591918A (en) * 2018-10-05 2021-08-11 Mitsubishi Electric Corp Voice operation assistance system, voice operation system, voice processing device, voice operation assistance device
JPWO2020070888A1 (ja) * 2018-10-05 2021-02-15 三菱電機株式会社 音声操作支援システム、音声操作システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム
KR20200114079A (ko) * 2019-03-27 2020-10-07 주식회사 포시에스 다수의 의도가 포함된 문장으로부터 의도 및 의도에 대응되는 내용을 검출하는 전자문서 시스템
KR102189567B1 (ko) 2019-03-27 2020-12-11 주식회사 포시에스 다수의 의도가 포함된 문장으로부터 의도 및 의도에 대응되는 내용을 검출하는 전자문서 시스템
JPWO2020217318A1 (ja) * 2019-04-23 2021-10-14 三菱電機株式会社 機器制御装置、および、機器制御方法
WO2020217318A1 (ja) * 2019-04-23 2020-10-29 三菱電機株式会社 機器制御装置、および、機器制御方法
CN113711307A (zh) * 2019-04-23 2021-11-26 三菱电机株式会社 设备控制装置及设备控制方法
US20230326456A1 (en) * 2019-04-23 2023-10-12 Mitsubishi Electric Corporation Equipment control device and equipment control method
CN113711307B (zh) * 2019-04-23 2023-06-27 三菱电机株式会社 设备控制装置及设备控制方法
CN110688191A (zh) * 2019-10-12 2020-01-14 苏州思必驰信息科技有限公司 用于语音对话平台的问答生成方法及系统
JP2023504809A (ja) * 2019-12-26 2023-02-07 エーアイ スピーチ カンパニー リミテッド 音声対話プラットフォームの機能ディスパッチ方法および装置
JP7293512B2 (ja) 2019-12-26 2023-06-19 エーアイ スピーチ カンパニー リミテッド 音声対話プラットフォームの機能ディスパッチ方法および装置
CN111414453A (zh) * 2020-03-05 2020-07-14 北京声智科技有限公司 结构化文本生成方法、装置、电子设备及计算机可读存储介质
JP2021140088A (ja) * 2020-03-06 2021-09-16 アルパイン株式会社 データ処理システム
JP7451033B2 (ja) 2020-03-06 2024-03-18 アルパイン株式会社 データ処理システム
US11763831B2 (en) 2020-03-19 2023-09-19 Yahoo Japan Corporation Output apparatus, output method and non-transitory computer-readable recording medium
US11749270B2 (en) 2020-03-19 2023-09-05 Yahoo Japan Corporation Output apparatus, output method and non-transitory computer-readable recording medium
CN111968632A (zh) * 2020-07-14 2020-11-20 招联消费金融有限公司 通话语音获取方法、装置、计算机设备和存储介质
CN111968632B (zh) * 2020-07-14 2024-05-10 招联消费金融股份有限公司 通话语音获取方法、装置、计算机设备和存储介质
CN112084313A (zh) * 2020-07-30 2020-12-15 联想(北京)有限公司 一种信息处理方法、装置及设备
CN111966803A (zh) * 2020-08-03 2020-11-20 深圳市欢太科技有限公司 对话模拟方法、装置、存储介质及电子设备
CN111966803B (zh) * 2020-08-03 2024-04-12 深圳市欢太科技有限公司 对话模拟方法、装置、存储介质及电子设备
JP7411303B1 (ja) 2023-05-01 2024-01-11 株式会社大正スカイビル 対象物の管理システム
CN118366458A (zh) * 2024-06-18 2024-07-19 摩尔线程智能科技(北京)有限责任公司 一种全双工对话系统及方法、电子设备和存储介质

Similar Documents

Publication Publication Date Title
JP2017107078A (ja) 音声対話方法、音声対話装置及び音声対話プログラム
US11887604B1 (en) Speech interface device with caching component
US11373645B1 (en) Updating personalized data on a speech interface device
US11676575B2 (en) On-device learning in a hybrid speech processing system
KR100679043B1 (ko) 음성 대화 인터페이스 장치 및 방법
KR101683944B1 (ko) 음성번역 시스템, 제어장치, 및 제어방법
US11257487B2 (en) Dynamic and/or context-specific hot words to invoke automated assistant
JP6819988B2 (ja) 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
JP6084654B2 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
KR20170033722A (ko) 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치
US10706845B1 (en) Communicating announcements
CN106030698B (zh) 用于智能个人助理应用的方法、系统和计算机可读介质
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
KR20180046780A (ko) 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치
KR20100111164A (ko) 사용자의 발화의도를 파악하는 음성 대화 처리장치 및 음성 대화 처리방법
JP2003263188A (ja) 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体
KR20200084260A (ko) 전자 장치 및 이의 제어 방법
JP2018120202A (ja) 情報処理方法及びプログラム
JP2017120616A (ja) 機械翻訳方法、及び、機械翻訳システム
US20220161131A1 (en) Systems and devices for controlling network applications
US11024303B1 (en) Communicating announcements
JP2009294269A (ja) 音声認識システム
JP2020077272A (ja) 会話システムおよび会話プログラム
KR20180045633A (ko) 음성 인식 서비스 제공 방법 및 이를 위한 장치
KR20200028158A (ko) 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램