JP2018004976A - 音声対話方法、音声対話装置及び音声対話プログラム - Google Patents

音声対話方法、音声対話装置及び音声対話プログラム Download PDF

Info

Publication number
JP2018004976A
JP2018004976A JP2016132208A JP2016132208A JP2018004976A JP 2018004976 A JP2018004976 A JP 2018004976A JP 2016132208 A JP2016132208 A JP 2016132208A JP 2016132208 A JP2016132208 A JP 2016132208A JP 2018004976 A JP2018004976 A JP 2018004976A
Authority
JP
Japan
Prior art keywords
word
correction
user
registered
correction candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016132208A
Other languages
English (en)
Inventor
裕士 神田
Yuji Kanda
裕士 神田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2016132208A priority Critical patent/JP2018004976A/ja
Publication of JP2018004976A publication Critical patent/JP2018004976A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】ユーザの意図に反して訂正される可能性を低減し、ユーザの利便性を向上させることができる音声対話方法、音声対話装置及び音声対話プログラムを提供する。【解決手段】音声対話方法は、誤認識訂正辞書を参照し、テキストデータに含まれる単語である認識単語のうち誤認識単語と合致する訂正対象単語を特定し、誤認識訂正辞書を参照し、訂正対象単語に対応付けられている正解単語である訂正候補単語を特定し、ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、訂正対象単語を訂正候補単語に置換するか否かを判断し、訂正対象単語を訂正候補単語に置換すると判断した場合、置換した訂正候補単語を含む第1応答文のテキストデータを出力し、訂正対象単語を訂正候補単語に置換しないと判断した場合、訂正対象単語を含む第2応答文のテキストデータを出力する。【選択図】図6

Description

本開示は、ユーザの発話に対する応答文を出力する音声対話方法、音声対話装置及び音声対話プログラムに関するものである。
近年、家電において音声認識処理を利用したサービスが検討されている。このようなサービスの一例として、音声入力を用いて買い物用のメモを作成するサービスがある。例えば冷蔵庫にこのようなサービスが搭載されていれば、ユーザは冷蔵庫の庫内を確認しながら不足している商品名を発話することにより買い物用のメモを作成できる。しかし、現状の音声認識処理では少なからず誤認識が発生するため、誤認識を訂正する必要がある。
例えば、特許文献1では、ユーザが誤認識を訂正した場合に、誤認識した単語とユーザが訂正した正解の単語とを対応付けて記憶しておき、次に同じ誤認識が発生した場合に記憶されている正解の単語を提示する技術が開示されている。
特開2004−333703号公報
しかしながら、ある機会には誤認識として判断された単語であっても、別の機会には商品名として登録したい場合もあることから、誤認識した単語を訂正するか否かをより適切に判定することが求められる。
本開示は、上記の問題を解決するためになされたもので、ユーザの意図に反して訂正される可能性を低減し、ユーザの利便性を向上させることができる音声対話方法、音声対話装置及び音声対話プログラムを提供することを目的とするものである。
本開示の一態様に係る音声対話方法は、ユーザの発話に対する応答文を出力する音声対話装置における音声対話方法であって、前記ユーザによる発話の音声データから変換された、1以上の単語からなるテキストデータを受信し、過去に前記ユーザにより訂正された単語である誤認識単語と前記誤認識単語から置換された単語である正解単語とを対応付けた誤認識訂正辞書を参照し、前記テキストデータに含まれる単語である認識単語のうち前記誤認識単語と合致する訂正対象単語を特定し、前記誤認識訂正辞書を参照し、前記訂正対象単語に対応付けられている正解単語である訂正候補単語を特定し、前記ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、前記訂正対象単語を前記訂正候補単語に置換するか否かを判断し、前記訂正対象単語を前記訂正候補単語に置換すると判断した場合、前記訂正対象単語を前記訂正候補単語に置換し、前記訂正候補単語を含む第1応答文のテキストデータを出力し、前記訂正対象単語を前記訂正候補単語に置換しないと判断した場合、前記訂正対象単語を含む第2応答文のテキストデータを出力する。
本開示によれば、ユーザの意図に反して訂正される可能性を低減し、ユーザの利便性を向上させることができる。
本実施の形態における音声対話システムが提供するサービスの全体像を示す図である。 本実施の形態において機器メーカがデータセンタ運営会社に該当する例を示す図である。 本実施の形態において機器メーカ及び管理会社の両者又はいずれか一方がデータセンタ運営会社に該当する例を示す図である。 本実施の形態1における音声対話システムの構成を示す図である。 本実施の形態1における音声対話サーバ及び第1の機器の詳細な構成を示すブロック図である。 本実施の形態1における誤認識訂正辞書の一例を示す図である。 本実施の形態1におけるメモ登録情報リストの一例を示す図である。 本実施の形態1における音声対話システムの動作の一例を示すフローチャートである。 図6のステップS6における誤認識訂正処理の動作を示すフローチャートである。 図7のステップS22の訂正候補単語抽出処理を説明するためのフローチャートである。 図7のステップS24における誤認識訂正実施判断処理の動作を示すフローチャートである。 図6のステップS14における登録処理の動作を示すフローチャートである。 図6のステップS15における辞書更新処理の動作を示すフローチャートである。 本実施の形態2における音声対話サーバの詳細な構成を示すブロック図である。 本実施の形態2における商品在庫リストの一例を示す図である。 図7のステップS24における誤認識訂正実施判断処理の動作を示すフローチャートである。 第1の変形例における音声対話システムの構成を示す図である。 第2の変形例における音声対話システムの構成を示す図である。 第3の変形例における音声対話システムの構成を示す図である。 サービスの類型1(自社データセンタ型クラウドサービス)における音声対話システムが提供するサービスの全体像を示す図である。 サービスの類型2(IaaS利用型クラウドサービス)における音声対話システムが提供するサービスの全体像を示す図である。 サービスの類型3(PaaS利用型クラウドサービス)における音声対話システムが提供するサービスの全体像を示す図である。 サービスの類型4(SaaS利用型クラウドサービス)における音声対話システムが提供するサービスの全体像を示す図である。
(本開示の基礎となった知見)
音声をテキストに変換する音声認識技術を用いて、ユーザの発話を記録したメモを作成するサービスの提供が検討されている。このようなシステムは、雑音が含まれる可能性も高い生活環境での利用が想定されていることから、音声の誤認識による誤入力が少なからず発生すると考えられる。そのため、誤認識を訂正するための技術が求められる。
誤認識を訂正するための手法として、事前に想定される入力単語について実際に音声認識を適用して得られた結果に基づいて、誤認識された単語を正解単語として認識できるように予め辞書を構築することが考えられる。しかし、想定される入力単語は、例えば食品に限定したとしても数千語におよぶことから、事前に辞書を構築するには膨大な工数が必要となる。また、誤認識の傾向には個人差があることから、全ての誤認識をカバーするのは困難であると言える。
そのため、自動的に誤認識を学習し、訂正する手法が必要となる。そのような手法として、実際にユーザがサービスを利用中に誤認識を訂正した際に、誤認識と判断された単語と訂正された後の正解単語とを対応付けて記憶させておき、次に同じ誤認識単語が認識された場合、記憶されている正解単語に自動的に変換する手法がある。例えば、ユーザが「きゅうり」と発話した際に「有利」と誤認識され、ユーザが再度「きゅうり」と発話して訂正されたとする。この場合、システムは、「有利」という誤認識単語と「きゅうり」という正解単語とを対応付けて記憶しておく。そして、次に、システムは、「有利」という単語を認識した際には、記憶しているデータから「有利」は「きゅうり」の誤認識であると判断し、自動的に「有利」を「きゅうり」へと変換する。このようにして、システムは、誤認識を自動的に訂正できる。
しかしながら、例えば、「きゅうり」が「キウイ」と誤認識され、ユーザが「キウイ」を「きゅうり」に訂正した場合を考える。この場合、別の機会にユーザが実際に「キウイ」を意図して発話した場合でも、システムは「キウイ」を「きゅうり」の誤認識と判断して変換してしまい、ユーザの利便性を損なう可能性がある。
このような課題を解決するために、本開示の一態様に係る音声対話方法は、ユーザの発話に対する応答文を出力する音声対話装置における音声対話方法であって、前記ユーザによる発話の音声データから変換された、1以上の単語からなるテキストデータを受信し、過去に前記ユーザにより訂正された単語である誤認識単語と前記誤認識単語から置換された単語である正解単語とを対応付けた誤認識訂正辞書を参照し、前記テキストデータに含まれる単語である認識単語のうち前記誤認識単語と合致する訂正対象単語を特定し、前記誤認識訂正辞書を参照し、前記訂正対象単語に対応付けられている正解単語である訂正候補単語を特定し、前記ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、前記訂正対象単語を前記訂正候補単語に置換するか否かを判断し、前記訂正対象単語を前記訂正候補単語に置換すると判断した場合、前記訂正対象単語を前記訂正候補単語に置換し、前記訂正候補単語を含む第1応答文のテキストデータを出力し、前記訂正対象単語を前記訂正候補単語に置換しないと判断した場合、前記訂正対象単語を含む第2応答文のテキストデータを出力する。
この構成によれば、ユーザによる発話の音声データから変換された、1以上の単語からなるテキストデータが受信される。過去にユーザにより訂正された単語である誤認識単語と誤認識単語から置換された単語である正解単語とを対応付けた誤認識訂正辞書が参照され、テキストデータに含まれる単語である認識単語のうち誤認識単語と合致する訂正対象単語が特定される。誤認識訂正辞書が参照され、訂正対象単語に対応付けられている正解単語である訂正候補単語が特定される。ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、訂正対象単語を訂正候補単語に置換するか否かが判断される。訂正対象単語を訂正候補単語に置換すると判断された場合、訂正対象単語が訂正候補単語に置換され、訂正候補単語を含む第1応答文のテキストデータが出力される。訂正対象単語を訂正候補単語に置換しないと判断された場合、訂正対象単語を含む第2応答文のテキストデータが出力される。
したがって、ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、訂正対象単語を訂正候補単語に置換するか否かが判断されるので、過去に誤認識と判断されて訂正された単語であっても、必ずしも置換されるのではなく、ユーザの意図に反して訂正される可能性を低減し、ユーザの利便性を向上させることができる。
また、上記の音声対話方法において、前記訂正対象単語を前記訂正候補単語に置換するか否かの判断において、前記履歴テーブルに基づいた所定の計算方法により、前記訂正候補単語が前記単語一時記録テーブルに登録される確からしさを示す第1値を算出し、前記履歴テーブルを参照し、前記認識単語のうち、過去に前記単語一時記録テーブルに登録された登録単語を特定し、前記所定の計算方法により、前記登録単語が前記単語一時記録テーブルに登録される確からしさを示す第2値を算出し、前記第1値と前記第2値とを比較してもよい。
この構成によれば、訂正対象単語を訂正候補単語に置換するか否かの判断において、履歴テーブルに基づいた所定の計算方法により、訂正候補単語が単語一時記録テーブルに登録される確からしさを示す第1値が算出される。履歴テーブルが参照され、認識単語のうち、過去に単語一時記録テーブルに登録された登録単語が特定される。所定の計算方法により、登録単語が単語一時記録テーブルに登録される確からしさを示す第2値が算出される。第1値と第2値とが比較される。
したがって、訂正候補単語が単語一時記録テーブルに登録される確からしさを示す第1値と、過去に単語一時記録テーブルに登録された登録単語が単語一時記録テーブルに登録される確からしさを示す第2値とが比較されるので、比較結果に応じて訂正対象単語を訂正候補単語に置換するか否かを判断することができる。
また、上記の音声対話方法において、前記第2値が前記第1値より大きい場合、前記訂正対象単語を前記訂正候補単語に置換しないと判断し、前記第2値が前記第1値以下である場合、前記訂正対象単語を前記訂正候補単語に置換すると判断してもよい。
この構成によれば、第2値が第1値より大きい場合、訂正対象単語を訂正候補単語に置換しないと判断され、第2値が第1値以下である場合、訂正対象単語を訂正候補単語に置換すると判断される。
したがって、登録単語が単語一時記録テーブルに登録される確からしさを示す第2値が、訂正候補単語が単語一時記録テーブルに登録される確からしさを示す第1値以下である場合に、訂正対象単語が訂正候補単語に置換されるので、訂正対象単語を訂正候補単語に置換するか否かを容易に判断することができる。
また、上記の音声対話方法において、複数の訂正候補単語を特定した場合、前記複数の訂正候補単語のそれぞれに対して前記第1値を算出し、前記複数の訂正候補単語のうちの前記第1値が最も大きい前記訂正候補単語を、前記置換に用いる単語として選択してもよい。
この構成によれば、複数の訂正候補単語が特定された場合、複数の訂正候補単語のそれぞれに対して第1値が算出される。複数の訂正候補単語のうちの第1値が最も大きい訂正候補単語が、置換に用いる単語として選択される。
したがって、複数の訂正候補単語が特定された場合でも、どの訂正候補単語に置換すべきかを適切に選択することができる。
また、上記の音声対話方法において、前記訂正候補単語に対応する前記認識単語が前記単語一時記録テーブルに最後に登録されたときから現在までの期間を、同一の前記訂正候補単語に対応する前記認識単語が前記単語一時記録テーブルに登録される平均的な時間間隔で除算した値を、前記第1値として算出し、前記登録単語に対応する前記認識単語が前記単語一時記録テーブルに最後に登録されたときから現在までの期間を、同一の前記登録単語に対応する前記認識単語が前記単語一時記録テーブルに登録される平均的な時間間隔で除算した値を、前記第2値として算出してもよい。
この構成によれば、訂正候補単語に対応する認識単語が単語一時記録テーブルに最後に登録されたときから現在までの期間を、同一の訂正候補単語に対応する認識単語が単語一時記録テーブルに登録される平均的な時間間隔で除算した値が、第1値として算出される。登録単語に対応する認識単語が単語一時記録テーブルに最後に登録されたときから現在までの期間を、同一の登録単語に対応する認識単語が単語一時記録テーブルに登録される平均的な時間間隔で除算した値が、第2値として算出さる。
したがって、認識単語が単語一時記録テーブルに登録される過去の傾向を用いて、訂正対象単語を訂正候補単語に置換するか否かを判断することができる。
また、上記の音声対話方法において、前記単語一時記録テーブルに登録される前記認識単語は前記ユーザが購入すべき商品の商品名を示す単語であり、前記ユーザが保有する商品の商品名の一覧を示すリスト情報に前記登録単語が含まれない場合、前記第2値を算出してもよい。
この構成によれば、単語一時記録テーブルに登録される認識単語はユーザが購入すべき商品の商品名を示す単語である。ユーザが保有する商品の商品名の一覧を示すリスト情報に登録単語が含まれない場合、第2値が算出される。
したがって、ユーザが保有していない商品は購入される可能性が高いため、ユーザが保有する商品の商品名の一覧を示すリスト情報の中に、登録単語が含まれない場合に、第2値が算出され、訂正対象単語を訂正候補単語に置換するか否かを判断することができる。
また、上記の音声対話方法において、前記第1応答文に含まれる前記訂正候補単語又は前記第2応答文に含まれる前記訂正対象単語を承認する旨の前記ユーザによる指示を受信した場合、前記訂正候補単語又は前記訂正対象単語を前記単語一時記録テーブルに登録してもよい。
この構成によれば、第1応答文に含まれる訂正候補単語又は第2応答文に含まれる訂正対象単語を承認する旨のユーザによる指示が受信された場合、訂正候補単語又は訂正対象単語が単語一時記録テーブルに登録される。
したがって、ユーザによって承認された場合、訂正候補単語又は訂正対象単語を単語一時記録テーブルに登録することができる。
また、上記の音声対話方法において、前記訂正候補単語又は前記訂正対象単語を前記単語一時記録テーブルに登録した場合、前記訂正候補単語又は前記訂正対象単語を前記単語一時記録テーブルに登録した時刻を前記履歴テーブルに記憶し、前記単語一時記録テーブルに登録した前記訂正候補単語又は前記訂正対象単語と同一の認識単語の前記履歴テーブルに記憶されている時刻に基づき、同一の前記認識単語が前記単語一時記録テーブルに登録される平均的な時間間隔を算出してもよい。
この構成によれば、訂正候補単語又は訂正対象単語が単語一時記録テーブルに登録された場合、訂正候補単語又は訂正対象単語を単語一時記録テーブルに登録した時刻が履歴テーブルに記憶され、単語一時記録テーブルに登録された訂正候補単語又は訂正対象単語と同一の認識単語の履歴テーブルに記憶されている時刻に基づき、同一の認識単語が単語一時記録テーブルに登録される平均的な時間間隔が算出される。
したがって、訂正候補単語又は訂正対象単語が単語一時記録テーブルに登録された場合に履歴テーブルを更新することができる。
また、上記の音声対話方法において、前記第1応答文に含まれる前記訂正候補単語又は前記第2応答文に含まれる前記訂正対象単語を訂正単語に訂正するための前記ユーザによる指示を受信した場合、前記訂正単語に基づき前記誤認識訂正辞書を更新してもよい。
この構成によれば、第1応答文に含まれる訂正候補単語又は第2応答文に含まれる訂正対象単語を訂正単語に訂正するためのユーザによる指示を受信した場合、訂正単語に基づき誤認識訂正辞書が更新される。
したがって、訂正候補単語又は訂正対象単語を訂正単語に訂正するためのユーザによる指示が受診された場合、訂正単語に基づき誤認識訂正辞書が更新されるので、誤認識訂正辞書に正解単語を登録することができる。
また、上記の音声対話方法において、前記訂正単語と、前記訂正候補単語又は前記訂正対象単語の少なくとも一方とを対応付けた組合せが前記誤認識訂正辞書に記憶されているか否かを判断し、記憶されていないと判断した場合、前記訂正候補単語又は前記訂正対象単語の少なくとも一方を前記誤認識単語とし、前記訂正単語を前記正解単語としてそれぞれを対応付けて前記誤認識訂正辞書に記憶してもよい。
この構成によれば、訂正単語と、訂正候補単語又は訂正対象単語の少なくとも一方とを対応付けた組合せが誤認識訂正辞書に記憶されているか否かが判断される。記憶されていないと判断された場合、訂正候補単語又は訂正対象単語の少なくとも一方を誤認識単語とし、訂正単語を正解単語としてそれぞれを対応付けて誤認識訂正辞書に記憶される。
したがって、誤認識単語と正解単語とを誤認識訂正辞書に新たに登録することができる。
本開示の他の態様に係る音声対話装置は、ユーザの発話に対する応答文を出力する音声対話装置であって、前記ユーザによる発話の音声データから変換された、1以上の単語からなるテキストデータを受信する受信部と、過去に前記ユーザにより訂正された単語である誤認識単語と前記誤認識単語から置換された単語である正解単語とを対応付けた誤認識訂正辞書を参照し、前記テキストデータに含まれる単語である認識単語のうち前記誤認識単語と合致する訂正対象単語を特定する第1特定部と、前記誤認識訂正辞書を参照し、前記訂正対象単語に対応付けられている正解単語である訂正候補単語を特定する第2特定部と、前記ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、前記訂正対象単語を前記訂正候補単語に置換するか否かを判断する判断部と、前記訂正対象単語を前記訂正候補単語に置換すると判断された場合、前記訂正対象単語を前記訂正候補単語に置換し、前記訂正候補単語を含む第1応答文のテキストデータを出力し、前記訂正対象単語を前記訂正候補単語に置換しないと判断された場合、前記訂正対象単語を含む第2応答文のテキストデータを出力する出力部と、を備える。
この構成によれば、ユーザによる発話の音声データから変換された、1以上の単語からなるテキストデータが受信される。過去にユーザにより訂正された単語である誤認識単語と誤認識単語から置換された単語である正解単語とを対応付けた誤認識訂正辞書が参照され、テキストデータに含まれる単語である認識単語のうち誤認識単語と合致する訂正対象単語が特定される。誤認識訂正辞書が参照され、訂正対象単語に対応付けられている正解単語である訂正候補単語が特定される。ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、訂正対象単語を訂正候補単語に置換するか否かが判断される。訂正対象単語を訂正候補単語に置換すると判断された場合、訂正対象単語が訂正候補単語に置換され、訂正候補単語を含む第1応答文のテキストデータが出力される。訂正対象単語を訂正候補単語に置換しないと判断された場合、訂正対象単語を含む第2応答文のテキストデータが出力される。
したがって、ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、訂正対象単語を訂正候補単語に置換するか否かが判断されるので、過去に誤認識と判断されて訂正された単語であっても、必ずしも置換されるのではなく、ユーザの意図に反して訂正される可能性を低減し、ユーザの利便性を向上させることができる。
本開示の他の態様に係る音声対話プログラムは、ユーザの発話に対する応答文を出力する音声対話プログラムであって、コンピュータを、前記ユーザによる発話の音声データから変換された、1以上の単語からなるテキストデータを受信する受信部と、過去に前記ユーザにより訂正された単語である誤認識単語と前記誤認識単語から置換された単語である正解単語とを対応付けた誤認識訂正辞書を参照し、前記テキストデータに含まれる単語である認識単語のうち前記誤認識単語と合致する訂正対象単語を特定する第1特定部と、前記誤認識訂正辞書を参照し、前記訂正対象単語に対応付けられている正解単語である訂正候補単語を特定する第2特定部と、前記ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、前記訂正対象単語を前記訂正候補単語に置換するか否かを判断する判断部と、前記訂正対象単語を前記訂正候補単語に置換すると判断された場合、前記訂正対象単語を前記訂正候補単語に置換し、前記訂正候補単語を含む第1応答文のテキストデータを出力し、前記訂正対象単語を前記訂正候補単語に置換しないと判断された場合、前記訂正対象単語を含む第2応答文のテキストデータを出力する出力部として機能させる。
この構成によれば、ユーザによる発話の音声データから変換された、1以上の単語からなるテキストデータが受信される。過去にユーザにより訂正された単語である誤認識単語と誤認識単語から置換された単語である正解単語とを対応付けた誤認識訂正辞書が参照され、テキストデータに含まれる単語である認識単語のうち誤認識単語と合致する訂正対象単語が特定される。誤認識訂正辞書が参照され、訂正対象単語に対応付けられている正解単語である訂正候補単語が特定される。ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、訂正対象単語を訂正候補単語に置換するか否かが判断される。訂正対象単語を訂正候補単語に置換すると判断された場合、訂正対象単語が訂正候補単語に置換され、訂正候補単語を含む第1応答文のテキストデータが出力される。訂正対象単語を訂正候補単語に置換しないと判断された場合、訂正対象単語を含む第2応答文のテキストデータが出力される。
したがって、ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、訂正対象単語を訂正候補単語に置換するか否かが判断されるので、過去に誤認識と判断されて訂正された単語であっても、必ずしも置換されるのではなく、ユーザの意図に反して訂正される可能性を低減し、ユーザの利便性を向上させることができる。
以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(提供するサービスの全体像)
まず、本実施の形態における音声対話システムが提供するサービスの全体像について説明する。
図1Aは、本実施の形態における音声対話システムが提供するサービスの全体像を示す図である。音声対話システムは、グループ1100、データセンタ運営会社1110及びサービスプロバイダ1120を備える。
グループ1100は、例えば企業、団体又は家庭等であり、その規模を問わない。グループ1100は、第1の機器及び第2の機器を含む複数の機器1101及びホームゲートウェイ1102を備える。複数の機器1101は、インターネットと接続可能な機器(例えば、スマートフォン、パーソナルコンピュータ(PC)又はテレビ等)、及びそれ自身ではインターネットと接続不可能な機器(例えば、照明、洗濯機又は冷蔵庫等)を含む。複数の機器1101は、それ自身ではインターネットと接続不可能であっても、ホームゲートウェイ1102を介してインターネットと接続可能となる機器を含んでもよい。また、ユーザ1010は、グループ1100内の複数の機器1101を使用する。
データセンタ運営会社1110は、クラウドサーバ1111を備える。クラウドサーバ1111は、インターネットを介して様々な機器と連携する仮想化サーバである。クラウドサーバ1111は、主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ(ビッグデータ)等を管理する。データセンタ運営会社1110は、データの管理、クラウドサーバ1111の管理、及びそれらを行うデータセンタの運営等を行っている。データセンタ運営会社1110が行っている役務の詳細については後述する。
ここで、データセンタ運営会社1110は、データの管理又はクラウドサーバ1111の管理のみを行っている会社に限らない。例えば、図1Bに示すように、複数の機器1101のうちの一つの機器を開発又は製造している機器メーカが、データの管理又はクラウドサーバ1111の管理等を行っている場合は、機器メーカがデータセンタ運営会社1110に該当する。また、データセンタ運営会社1110は一つの会社に限らない。例えば、図1Cに示すように、機器メーカ及び管理会社が共同又は分担してデータの管理又はクラウドサーバ1111の管理を行っている場合は、両者又はいずれか一方がデータセンタ運営会社1110に該当する。
サービスプロバイダ1120は、サーバ1121を備える。ここで言うサーバ1121とは、その規模は問わず、例えば、個人用PC内のメモリ等も含む。また、サービスプロバイダ1120がサーバ1121を備えていない場合もある。
なお、上記の音声対話システムにおいて、ホームゲートウェイ1102は必須ではない。例えば、クラウドサーバ1111が全てのデータ管理を行っている場合等は、ホームゲートウェイ1102は不要となる。また、家庭内の全ての機器がインターネットに接続されている場合のように、それ自身ではインターネットと接続不可能な機器は存在しない場合もある。
次に、上記の音声対話システムにおける情報の流れを説明する。
まず、グループ1100の第1の機器又は第2の機器は、各ログ情報をデータセンタ運営会社1110のクラウドサーバ1111にそれぞれ送信する。クラウドサーバ1111は、第1の機器又は第2の機器のログ情報を集積する(図1Aの矢印1131)。ここで、ログ情報とは、複数の機器1101の例えば運転状況又は動作日時等を示す情報である。例えば、ログ情報は、テレビの視聴履歴、レコーダーの録画予約情報、洗濯機の運転日時、洗濯物の量、冷蔵庫の開閉日時、又は冷蔵庫の開閉回数などを含むが、これらの情報に限らず、種々の機器から取得が可能な種々の情報を含んでもよい。なお、ログ情報は、インターネットを介して複数の機器1101自体から直接クラウドサーバ1111に提供されてもよい。また、ログ情報は、複数の機器1101から一旦ホームゲートウェイ1102に集積され、ホームゲートウェイ1102からクラウドサーバ1111に提供されてもよい。
次に、データセンタ運営会社1110のクラウドサーバ1111は、集積したログ情報を一定の単位でサービスプロバイダ1120に提供する。ここで、一定の単位とは、データセンタ運営会社1110が集積した情報を整理してサービスプロバイダ1120に提供することのできる単位でもよいし、サービスプロバイダ1120が要求する単位でもよい。また、一定の単位で提供するとしているが、一定の単位でなくてもよく、状況に応じて提供する情報量が変化してもよい。ログ情報は、必要に応じてサービスプロバイダ1120が保有するサーバ1121に保存される(図1Aの矢印132)。
そして、サービスプロバイダ1120は、ログ情報をユーザに提供するサービスに適合する情報に整理し、ユーザに提供する。情報が提供されるユーザは、複数の機器1101を使用するユーザ1010でもよいし、外部のユーザ1020でもよい。ユーザ1010,1020への情報提供方法としては、例えば、サービスプロバイダ1120から直接ユーザ1010,1020へ情報が提供されてもよい(図1Aの矢印1133,1134)。また、ユーザ1010への情報提供方法としては、例えば、データセンタ運営会社1110のクラウドサーバ1111を再度経由して、ユーザ1010に情報が提供されてもよい(図1Aの矢印1135,1136)。また、データセンタ運営会社1110のクラウドサーバ1111は、ログ情報をユーザに提供するサービスに適合する情報に整理し、サービスプロバイダ1120に提供してもよい。
なお、ユーザ1010は、ユーザ1020と異なっていても同一であってもよい。
(実施の形態1)
本実施の形態1では、ユーザが音声入出力機能を持つ機器を利用して、ユーザの発話を記録した買い物用のメモを作成する例を示す。
本実施の形態1では、ユーザの過去のメモ登録傾向から得た、ある商品名をメモに登録してから次に同じ商品名をメモに登録するまでの平均的な時間間隔に対する、最後にその商品名をメモに登録してから現在までの期間の比率を、その商品名が現時点でメモに登録される確度として算出し、算出した確度に基づいて認識結果を訂正すべきか否かを判断する。
図2は、本実施の形態1における音声対話システムの構成を示す図である。音声対話システムは、グループ1100内の第1の機器2011と、データセンタ運営会社1110内の音声対話サーバ2100とを含む。第1の機器2011と、音声対話サーバ2100とはネットワーク2020を経由して接続されている。ネットワーク2020は、光ファイバ、無線又は公衆電話回線など任意のネットワークを使用してもよいし、それらを組み合わせてもよい。
グループ1100は、第1の機器2011を含む。第1の機器2011は、例えば冷蔵庫等の家電機器であり、音声入力によるメモ記録機能が搭載された機器である。
以下、各機器の構成及び動作の一例を詳細に説明する。
図2に示すように、第1の機器2011は、音声入力部2111及び音声出力部2112を備える。音声入力部2111は、ユーザの発話音声を含む周辺の音声を取得する。音声入力部2111は、例えば、指向性マイクなどであり、機器内に組み込まれてもよい。また、音声入力部2111は、例えば、ハンドマイク、ピンマイク又は卓上マイクなど任意の集音デバイスでもよく、有線又は無線で第1の機器2011に接続されてもよい。また、音声入力部2111は、スマートフォン又はタブレット型コンピュータなどの集音及び通信機能を持つデバイスを用いて音声を取得してもよい。音声出力部2112は、例えばスピーカであり、ユーザの発話に対する音声対話システムの応答音声を出力する。音声出力部2112は、機器に組み込まれていてもよいし、有線又は無線によって機器に接続されてもよく、少なくとも1つ以上接続されていればよい。
音声対話サーバ2100は、クラウドサーバ1111の一つであり、音声認識部2101、誤認識訂正部2102及び誤認識訂正辞書2103を備える。音声対話サーバ2100は、ユーザの発話音声を認識し、得られたテキストを必要に応じて訂正し、ユーザへの応答を決定する。また、認識結果をユーザが承認した場合、音声対話サーバ2100は、認識結果である商品名を買い物メモ2104(単語一時記録テーブル)に登録する。
音声認識部2101は、ユーザの発話音声データに音声認識処理を適用し、1以上の認識単語からなるテキストデータに変換する。誤認識訂正部2102は、誤認識訂正辞書2103を用いて、認識単語を訂正するか否かを判断し、訂正すると判断した場合には、認識単語を訂正する。誤認識訂正辞書2103には、過去にユーザが認識単語を訂正した際の、訂正される前の認識単語(誤認識単語)と、訂正された後の認識単語(正解単語)とが、対応付けられて記載されている。誤認識訂正辞書2103は、過去にユーザにより訂正された単語である誤認識単語と、誤認識単語から置換された単語である正解単語とを対応付けている。
なお、誤認識訂正辞書2103は、互いに異なる複数のユーザのそれぞれに応じた複数の誤認識訂正辞書を含んでもよい。この場合、音声対話サーバ2100は、音声データとともに、ユーザを識別するためのユーザIDを受信し、ユーザIDに対応する誤認識訂正辞書を用いてもよい。
図3は、本実施の形態1における音声対話サーバ及び第1の機器の詳細な構成を示すブロック図である。
音声対話サーバ2100は、音声認識部2101、誤認識訂正部2102、データ更新部2105、応答生成部2106、通信部2108及び記憶部2110を備える。記憶部2110は、誤認識訂正辞書2103、買い物メモ2104及びメモ登録情報リスト2107を備える。
データ更新部2105は、ユーザが誤認識を訂正した場合、又はメモに登録する商品名が確定した場合に、その内容に合わせて誤認識訂正辞書2103、買い物メモ2104及びメモ登録情報リスト2107の情報を更新する。
メモ登録情報リスト2107は、ユーザによる発話に含まれる単語を買い物メモ2104に登録した履歴を示す。メモ登録情報リスト2107は、買い物メモ2104に登録された各商品名について、その商品名が最後に買い物メモ2104に登録された日、及びその商品名が買い物メモ2104に登録される頻度に関する情報を記憶している。
通信部2108は、ユーザによる発話の音声データを第1の機器2011から受信する。また、通信部2108は、応答音声データを第1の機器2011へ送信する。
また、誤認識訂正部2102は、訂正候補抽出部2121及び訂正実施判断部2122を含む。訂正候補抽出部2121は、音声認識部2101で取得した認識単語を利用して誤認識訂正辞書2103から訂正候補となる商品名を抽出する。訂正候補抽出部2121は、誤認識訂正辞書を参照し、テキストデータに含まれる単語である認識単語のうち誤認識単語と合致する訂正対象単語を特定する。また、訂正候補抽出部2121は、誤認識訂正辞書を参照し、訂正対象単語に対応付けられている正解単語である訂正候補単語を特定する。
訂正実施判断部2122は、メモ登録情報リスト2107の情報などを基に、認識単語を訂正するか否かを判断する。すなわち、訂正実施判断部2122は、メモ登録情報リスト2107に基づき、訂正対象単語を訂正候補単語に置換するか否かを判断する。
訂正実施判断部2122は、メモ登録情報リスト2107(履歴テーブル)に基づいた所定の計算方法により、訂正候補単語が買い物メモ2104に登録される確からしさを示す第1の登録確度(第1値)を算出する。訂正実施判断部2122は、メモ登録情報リスト2107(履歴テーブル)を参照し、認識単語のうち、過去に買い物メモ2104に登録された登録単語を特定する。訂正実施判断部2122は、所定の計算方法により、登録単語が買い物メモ2104に登録される確からしさを示す第2の登録確度(第2値)を算出する。訂正実施判断部2122は、第1の登録確度(第1値)と第2の登録確度(第2値)とを比較する。
訂正実施判断部2122は、第2の登録確度(第2値)が第1の登録確度(第1値)より大きい場合、訂正対象単語を訂正候補単語に置換しないと判断する。また、訂正実施判断部2122は、第2の登録確度(第2値)が第1の登録確度(第1値)以下である場合、訂正対象単語を訂正候補単語に置換すると判断する。
訂正実施判断部2122は、複数の訂正候補単語を特定した場合、複数の訂正候補単語のそれぞれに対して第1の登録確度(第1値)を算出し、複数の訂正候補単語のうちの第1の登録確度(第1値)が最も大きい訂正候補単語を、置換に用いる単語として選択する。
訂正実施判断部2122は、訂正候補単語に対応する認識単語が買い物メモ2104に最後に登録されたときから現在までの期間を、同一の訂正候補単語に対応する認識単語が買い物メモ2104に登録される平均的な時間間隔で除算した値を、第1の登録確度(第1値)として算出する。また、訂正実施判断部2122は、登録単語に対応する認識単語が買い物メモ2104に最後に登録されたときから現在までの期間を、同一の登録単語に対応する認識単語が買い物メモ2104に登録される平均的な時間間隔で除算した値を、第2の登録確度(第2値)として算出する。
応答生成部2106は、音声認識部2101及び誤認識訂正部2102で特定したユーザの発話内容を基に、ユーザに対する応答音声データを生成する。応答生成部2106は、訂正対象単語を訂正候補単語に置換すると判断された場合、訂正対象単語を訂正候補単語に置換し、訂正候補単語を含む第1応答文のテキストデータを出力する。また、応答生成部2106は、訂正対象単語を訂正候補単語に置換しないと判断された場合、訂正対象単語を含む第2応答文のテキストデータを出力する。
データ更新部2105は、第1応答文に含まれる訂正候補単語又は第2応答文に含まれる訂正対象単語を承認する旨のユーザによる指示を受信した場合、訂正候補単語又は訂正対象単語を買い物メモ2104に登録する。また、データ更新部2105は、訂正候補単語又は訂正対象単語を買い物メモ2104に登録した場合、訂正候補単語又は訂正対象単語を買い物メモ2104に登録した時刻をメモ登録情報リスト2107に記憶し、買い物メモ2104に登録した訂正候補単語又は訂正対象単語と同一の認識単語のメモ登録情報リスト2107に記憶されている時刻に基づき、同一の認識単語が買い物メモ2104に登録される平均的な時間間隔を算出する。
また、データ更新部2105は、第1応答文に含まれる訂正候補単語又は第2応答文に含まれる訂正対象単語を訂正単語に訂正するためのユーザによる指示を受信した場合、訂正単語に基づき誤認識訂正辞書2103を更新する。さらに、データ更新部2105は、訂正単語と、訂正候補単語又は訂正対象単語の少なくとも一方とを対応付けた組合せが誤認識訂正辞書2103に記憶されているか否かを判断する。データ更新部2105は、記憶されていないと判断した場合、訂正候補単語又は訂正対象単語の少なくとも一方を誤認識単語とし、訂正単語を正解単語としてそれぞれを対応付けて誤認識訂正辞書2103に記憶する。
第1の機器2011は、音声入力部2111、音声出力部2112、通信部2113及び訂正受付部2114を備える。
通信部2113は、ホームゲートウェイ1102を経由して、音声入力部2111で取得したユーザによる発話の音声データを音声対話サーバ2100へ送信する。また、通信部2113は、ホームゲートウェイ1102を経由して、音声対話サーバ2100によって生成された応答音声データを受信する。
訂正受付部2114は、応答音声データに対して、ユーザが訂正を要求するための操作を受け付ける。第1の機器2011は、例えば、訂正の要求を受け付けるためのボタンを備えてもよく、ボタンが押された場合に訂正操作を受け付けてもよい。また、訂正受付部2114は、簡易の音声認識機能を備えてもよく、「OK」又は「いいえ」といった意図を示す発話が入力された場合に、訂正操作を受け付けてもよい。
図4は、本実施の形態1における誤認識訂正辞書の一例を示す図である。
誤認識訂正辞書2103は、ユーザの発話を認識して得られたが、誤認識として訂正された単語である誤認識単語と、誤認識単語を訂正した結果である正解単語とを含む。
例えば、ユーザが「きゅうり」と発話した際に誤認識が発生し、認識単語として「キウイ」が得られたとする。その後、ユーザが「キウイ」を「きゅうり」と訂正して買い物メモ2104に登録された場合、誤認識訂正辞書2103の誤認識単語として「キウイ」が記録され、当該誤認識単語に対応する正解単語として「きゅうり」が記録される。
また、誤認識訂正辞書2103は、誤認識単語を正解単語に訂正したことを示す適用済フラグを含む。
図5は、本実施の形態1におけるメモ登録情報リストの一例を示す図である。
メモ登録情報リスト2107は、過去に買い物メモ2104に登録された商品名と、その商品名が最後に買い物メモ2104に登録された年月日を示す最終メモ登録日と、その商品名が買い物メモ2104に登録される頻度を示す平均登録間隔とを含む。
例えば、ユーザが買い物メモ2104に「きゅうり」という商品名を登録した場合、メモ登録情報リスト2107の商品名として「きゅうり」が登録される。その時点で最終メモ登録日が更新される。また、過去に、「きゅうり」が買い物メモ2104に登録されてから、次の機会に「きゅうり」が買い物メモ2104に登録されるまでの間隔(日数)の平均値が平均登録間隔として記録される。平均登録間隔は、例えば、1人のユーザの買い物履歴を基に求めてもよいし、同様のサービスを利用しているユーザ全体の買い物履歴を基に求めてもよい。
また、メモ登録情報リスト2107は、商品名が買い物メモ2104に登録された回数を記憶してもよい。データ更新部2105は、商品名が買い物メモ2104に登録された回数と、既に記憶されている平均登録間隔と、前回登録されてから今回登録されるまでの登録間隔とに基づいて、平均登録間隔を新たに算出してもよい。
また、記憶部2110は、買い物メモ2104に登録された全ての商品名と登録日とを記憶してもよい。データ更新部2105は、記憶部2110に記憶されている商品名及び登録日に基づいて、平均登録間隔を新たに算出してもよい。
また、本実施の形態1では、通信部2108が、ユーザによる発話の音声データを受信し、音声認識部2101が、通信部2108によって受信された音声データを1以上の単語からなるテキストデータに変換しているが、本開示は特にこれに限定されず、通信部2108が、ユーザによる発話の音声データから変換された、1以上の単語からなるテキストデータを受信してもよい。この場合、音声対話サーバ2100は、音声認識部2101を備えていなくてもよい。
図6は、本実施の形態1における音声対話システムの動作の一例を示すフローチャートである。
まず、第1の機器2011の音声入力部2111は、ユーザの発話を検出したか否かを判断する(ステップS1)。ここで、ユーザの発話を検出していないと判断した場合(ステップS1でNO)、音声入力部2111は、ユーザの発話を検出するまで待機する。
一方、ユーザの発話を検出したと判断した場合(ステップS1でYES)、音声入力部2111は、ユーザの発話音声データを取得する(ステップS2)。例えば、第1の機器2011は冷蔵庫であり、ユーザは第1の機器2011の音声入力機能を起動し、「きゅうり」と発話したとする。このとき、音声入力部2111は、「きゅうり」と発話したユーザの発話音声データを取得する。
次に、通信部2113は、発話音声データを音声対話サーバ2100へ送信する(ステップS3)。
次に、音声対話サーバ2100の通信部2108は、第1の機器2011によって送信された発話音声データを受信する(ステップS4)。
次に、音声認識部2101は、発話音声データに対して音声認識処理を実施し、発話音声データをテキストデータに変換する(ステップS5)。音声認識処理の結果、音声認識部2101は、発話音声データに含まれる「きゅうり」という単語をテキストデータに変換することにより、「キウイ」という認識単語を取得したとする。
次に、誤認識訂正部2102は、認識単語に対して誤認識訂正処理を実施する(ステップS6)。誤認識訂正処理の詳細は後述するが、ここでは、認識単語「キウイ」が「きゅうり」に訂正されたとする。その結果、誤認識訂正部2102は、ユーザの発話内容を「きゅうり」に特定する。
次に、応答生成部2106は、応答音声データを生成する(ステップS7)。ここで、応答生成部2106は、訂正対象単語を訂正候補単語に置換した場合、訂正候補単語を含む第1応答文のテキストデータを生成し、テキストデータを応答音声データに変換する。また、応答生成部2106は、訂正対象単語を訂正候補単語に置換しなかった場合、訂正対象単語を含む第2応答文のテキストデータを生成し、テキストデータを応答音声データに変換する。応答音声データは、例えば「きゅうりを買い物メモに登録します」等の、上述の処理で特定したユーザの発話内容を確認する音声データである。
次に、通信部2108は、応答音声データを第1の機器2011に送信する(ステップS8)。
次に、第1の機器2011の通信部2113は、音声対話サーバ2100によって送信された応答音声データを受信する(ステップS9)。
次に、音声出力部2112は、通信部2113によって受信された応答音声データを音声出力する(ステップS10)。
次に、訂正受付部2114は、出力された応答音声に対してユーザによる訂正を受け付けたか否かを判断する(ステップS11)。訂正受付部2114は、例えば、応答内容を承認するための承認ボタンと、応答内容を訂正するための訂正ボタンとのユーザによる押下を受け付けてもよい。訂正受付部2114は、訂正ボタンが押下された場合、ユーザによる応答内容の訂正を受け付けたと判断し、承認ボタンが押下された場合、ユーザによる応答内容の訂正を受け付けなかったと判断してもよい。
ここで、ユーザによる応答内容の訂正を受け付けなかったと判断された場合、すなわち、応答内容がユーザにより承認されたと判断された場合(ステップS11でNO)、通信部2113は、応答文に含まれる単語を承認するための承認信号を音声対話サーバ2100へ送信する(ステップS12)。
次に、音声対話サーバ2100の通信部2108は、第1の機器2011によって送信された承認信号を受信する(ステップS13)。
次に、データ更新部2105は、応答文に含まれる単語を商品名として買い物メモ2104に登録する登録処理を行う(ステップS14)。ここでは、データ更新部2105は、「きゅうり」を買い物メモ2104に登録する。また、データ更新部2105は、メモ登録情報リスト2107も同時に更新する。
次に、データ更新部2105は、誤認識訂正辞書2103を更新する辞書更新処理を行う(ステップS15)。上記の例では、ユーザによる認識単語の訂正を受け付けていないため、データ更新部2105は、誤認識訂正辞書2103を更新しない。
一方、ステップS6の誤認識訂正処理において、認識単語「キウイ」が訂正されなかった場合について説明する。この場合、応答生成部2106は、例えば「キウイを買い物メモに登録します」という応答音声データを生成する。応答音声データを聞いたユーザは、応答文に含まれる「キウイ」という単語を承認せず、応答文に含まれる単語を訂正する操作を行った後、訂正した単語を発話する。
すなわち、ユーザによる応答内容の訂正を受け付けたと判断された場合(ステップS11でYES)、ステップS1の処理に戻り、音声入力部2111は、ユーザの発話を検出したと判断し、ユーザの発話音声データを再度取得する。以降、先述と同様の処理を実施する。ここで、訂正された発話音声データは、正しく「きゅうり」と認識される。応答生成部2106は、例えば「きゅうりを買い物メモに登録します」という応答音声データを生成する。ユーザが応答文に含まれる単語を承認すると、ステップS15の辞書更新処理において、データ更新部2105は、「キウイ」を「きゅうり」に訂正するルールを誤認識訂正辞書2103に登録する。すなわち、データ更新部2105は、「キウイ」を誤認識単語とし、「きゅうり」を正解単語として、両者を対応付けて誤認識訂正辞書2103に記録する。
以上の処理により、ユーザによる誤認識の訂正内容を自動的に学習し、ユーザは同じ誤認識を繰り返し訂正する必要がなくなるため、ユーザの利便性を向上させることができる。
次に、図6のステップS6における誤認識訂正処理の詳細を説明する。図7は、図6のステップS6における誤認識訂正処理の動作を示すフローチャートである。
まず、音声対話サーバ2100の訂正候補抽出部2121は、図6のステップS5の音声認識処理において得られた認識単語が、誤認識訂正辞書2103内に誤認識単語として登録済みであるか否かを判断する(ステップS21)。ここで、認識単語が誤認識訂正辞書2103内に登録済みであると判断した場合(ステップS21でYES)、訂正候補抽出部2121は、誤認識訂正辞書2103に登録されている誤認識単語に対応付けられた正解単語を、訂正候補単語として抽出する訂正候補単語抽出処理を行う(ステップS22)。
ここで、図7のステップS22の訂正候補単語抽出処理について説明する。図8は、図7のステップS22の訂正候補単語抽出処理を説明するためのフローチャートである。
まず、訂正候補抽出部2121は、認識単語に対応する未参照の組合せが誤認識訂正辞書2103に存在するか否かを判断する(ステップS31)。ここで、訂正候補抽出部2121は、誤認識訂正辞書2103にテーブル形式で記載されている誤認識単語と正解単語との複数の組合せを1行目から順番に参照し、認識単語と一致する誤認識単語を含む組合せが存在するか否かを判断する。
認識単語に対応する未参照の組合せが誤認識訂正辞書2103に存在しないと判断し場合(ステップS31でNO)、訂正候補抽出部2121は、訂正候補単語抽出処理を終了する。ステップS31では、訂正候補抽出部2121は、誤認識訂正辞書2103内の全ての組合せについて、認識単語と一致する誤認識単語を含む組合せが存在するか否かの判断が終了すると、訂正候補単語抽出処理を終了する。
一方、認識単語に対応する未参照の組合せが誤認識訂正辞書2103に存在すると判断した場合(ステップS31でYES)、当該組合せに適用済フラグが付与されているか否かを判断する(ステップS32)。
当該組合せに適用済フラグが付与されていると判断した場合(ステップS32でYES)、ステップS31の処理に戻る。
一方、当該組合せに適用済フラグが付与されていないと判断した場合(ステップS32でNO)、訂正候補抽出部2121は、当該組合せにおける正解単語を訂正候補単語として抽出する(ステップS33)。その後、ステップS31の処理に戻る。
図7に戻って、訂正候補抽出部2121は、1以上の訂正候補単語が抽出されたか否かを判断する(ステップS23)。ここで、訂正候補単語が抽出されていないと判断した場合(ステップS23でNO)、ステップS28の処理へ移行する。
一方、1以上の訂正候補単語が抽出されたと判断した場合(ステップS23でYES)、音声対話サーバ2100の訂正実施判断部2122は、認識単語について、誤認識の訂正を実施するか否かを判断するとともに、誤認識の訂正を実施するのであれば訂正候補単語の内のいずれに訂正するかを決定する誤認識訂正実施判断処理を行う(ステップS24)。なお、誤認識訂正実施判断処理の詳細については後述するが、訂正実施判断部2122は、認識単語をそのまま商品名として買い物メモ2104に登録するか、抽出した訂正候補単語のいずれかに認識単語を訂正して買い物メモ2104に登録するかをメモ登録情報リスト2107の情報等を利用して判断する。
次に、訂正実施判断部2122は、認識単語の訂正が必要であるか否かを判断する(ステップS25)。
ここで、認識単語の訂正が必要であると判断した場合(ステップS25でYES)、応答生成部2106は、ステップS24の誤認識訂正実施判断処理で判断した訂正結果である訂正候補単語を含む応答文を作成する(ステップS26)。
次に、データ更新部2105は、誤認識訂正辞書2103において、訂正した認識単語に一致する誤認識単語と、正解単語との組合せに適用済フラグを付与する(ステップS27)。
一方、認識単語の訂正が不要であると判断した場合(ステップS25でNO)、又は訂正候補単語が抽出されていないと判断した場合(ステップS23でNO)、応答生成部2106は、認識単語をそのまま含む応答文を作成する(ステップS28)。
以上により、認識単語をそのまま買い物メモ2104に登録するか、又は過去の誤認識訂正内容を基に認識単語の誤認識を訂正して買い物メモ2104に登録するかを判断し、判断結果に基づいてユーザへの応答音声データを生成する。これにより、一度誤認識として訂正されたテキストを、訂正することなく商品名として登録したい場合でも、ユーザの意図に反して訂正されてしまう可能性を低減し、ユーザの利便性を向上させることができる。
図9は、図7のステップS24における誤認識訂正実施判断処理の動作を示すフローチャートである。
まず、訂正実施判断部2122は、図7のステップS22の訂正候補単語抽出処理で抽出された1つ以上の訂正候補単語が買い物メモ2104に登録される確からしさを示す第1の登録確度を算出する(ステップS41)。
ここで、第1の登録確度の具体的な算出方法について説明する。本実施の形態1においては、訂正実施判断部2122は、ある商品名の訂正候補単語が買い物メモ2104に登録される第1の登録確度を、その商品名の訂正候補単語が買い物メモ2104に登録される平均的な時間間隔と、実際に前回その商品名の訂正候補単語が買い物メモ2104に登録されたときから現在までの時間間隔とに基づいて算出する。すなわち、ある商品名の訂正候補単語についてメモ登録情報リスト2107に記録された最終メモ登録日から現在までに経過した未登録期間をP1とし、平均登録間隔をI1とすると、訂正候補単語が買い物メモ2104に登録される第1の登録確度R1は、下記の式(1)を用いて算出される。
R1=P1/I1・・・(1)
第1の登録確度R1の値が大きいほど、未登録期間P1が平均登録間隔I1に近く、今回買い物メモ2104に登録される第1の登録確度R1が高いと考える。
次に、訂正実施判断部2122は、認識単語がメモ登録情報リスト2107内に商品名として登録されているか否かを判断する(ステップS42)。認識単語が商品名としてメモ登録情報リスト2107内に登録されていると判断した場合(ステップS42でYES)、訂正実施判断部2122は、認識単語が買い物メモ2104に登録される確からしさを示す第2の登録確度を算出する(ステップS43)。
ここで、第2の登録確度の具体的な算出方法について説明する。本実施の形態1においては、訂正実施判断部2122は、ある商品名の認識単語が買い物メモ2104に登録される第2の登録確度を、その商品名の認識単語が買い物メモ2104に登録される平均的な時間間隔と、実際に前回その商品名の認識単語が買い物メモ2104に登録されたときから現在までの時間間隔とに基づいて算出する。すなわち、ある商品名の認識単語についてメモ登録情報リスト2107に記録された最終メモ登録日から現在までに経過した未登録期間をP2とし、平均登録間隔をI2とすると、認識単語が買い物メモ2104に登録される第2の登録確度R2は、下記の式(2)を用いて算出される。
R2=P2/I2・・・(2)
次に、訂正実施判断部2122は、認識単語の第2の登録確度と1以上の訂正候補単語の第1の登録確度とを比較し、認識単語の第2の登録確度が1以上の訂正候補単語の第1の登録確度より高いか否かを判断する(ステップS44)。
ここで、認識単語の第2の登録確度が1以上の訂正候補単語の第1の登録確度より高いと判断された場合(ステップS44でYES)、訂正実施判断部2122は、認識単語の訂正は不要であると判断して処理を終了する。
一方、認識単語の第2の登録確度が1以上の訂正候補単語の第1の登録確度以下であると判断された場合(ステップS44でNO)、訂正実施判断部2122は、1以上の訂正候補単語のうち、第1の登録確度が最も高い訂正候補単語を、置換に用いる訂正候補単語として選択し(ステップS45)、処理を終了する。また、認識単語が商品名としてメモ登録情報リスト2107に登録されていないと判断した場合(ステップS42でNO)、認識単語の第2の登録確度が算出できないため、訂正実施判断部2122は、1以上の訂正候補単語のうち、第1の登録確度が最も高い訂正候補単語を、置換に用いる訂正候補単語として選択し(ステップS45)、処理を終了する。
上述の第1の登録確度及び第2の登録確度の算出処理について、具体例を用いて説明する。まず、図6のステップS5の音声認識処理で得られた認識単語が「キウイ」であったとする。また、誤認識訂正辞書2103及びメモ登録情報リスト2107は、それぞれ図4及び図5のような内容であり、ユーザが発話した日付は2016年2月4日であるとする。
このとき、まず、誤認識訂正辞書2103が参照され、認識単語である「キウイ」に対応付けられた正解単語「きゅうり」が訂正候補単語として抽出される。そして、「キウイ」はメモ登録情報リスト2107の商品名として登録されており、最終メモ登録日が2016年2月1日であることから、買い物メモ2104に登録されていない未登録期間P2は3日となる。また、平均登録間隔I2は7日であることから、認識単語の第2の登録確度R2は3/7となる。
一方、訂正候補単語である「きゅうり」はメモ登録情報リスト2107の商品名として登録されており、最終メモ登録日が2016年2月2日であることから、買い物メモ2104に登録されていない未登録期間P1は2日となる。また、平均登録間隔I1は3日であることから、訂正候補単語の第1の登録確度R1は2/3となる。この場合、訂正候補単語の第1の登録確度が認識単語の第2の登録確度より高いため、訂正実施判断部2122は、「きゅうり」に対応する第1の登録確度がより高いと判断し、「きゅうり」を訂正結果として確定する。
なお、音声対話システムの使用を開始した当初など、過去の買い物メモ2104への登録傾向が正しく求められない場合も考えられるため、未登録期間の長さのみを使用して認識単語を訂正候補単語に置換するか否かを決定してもよい。この場合、直近で買い物メモ2104に登録された単語が再び買い物メモ2104に登録される可能性は低い。そのため、訂正実施判断部2122は、認識単語の未登録期間が訂正候補単語の未登録期間より長い場合、認識単語を訂正候補単語に置換しないと判断し、認識単語の未登録期間が訂正候補単語の未登録期間以下である場合、認識単語を訂正候補単語に置換すると判断してもよい。
また、本実施の形態1では、未登録期間P1,P2を平均登録間隔I1,I2で除算することで第1の登録確度R1(R1=P1/I1)及び第2の登録確度R2(R2=P2/I2)を算出しているが、本開示は特にこれに限定されず、平均登録間隔I1,I2から未登録期間P1,P2を減算することで第1の登録確度R1(R1=I1−P1)及び第2の登録確度R2(R2=I2−P2)を算出してもよい。この場合、訂正実施判断部2122は、認識単語の第2の登録確度が1以上の訂正候補単語の第1の登録確度より低いか否かを判断する。認識単語の第2の登録確度が1以上の訂正候補単語の第1の登録確度より低いと判断された場合、訂正実施判断部2122は、認識単語の訂正は不要であると判断して処理を終了する。一方、認識単語の第2の登録確度が1以上の訂正候補単語の第1の登録確度以上であると判断された場合、訂正実施判断部2122は、1以上の訂正候補単語のうち、第1の登録確度が最も低い訂正候補単語を、置換に用いる訂正候補単語として選択する。
続いて、図6のステップS14の登録処理の詳細について説明する。図10は、図6のステップS14における登録処理の動作を示すフローチャートである。
まず、音声対話サーバ2100のデータ更新部2105は、ユーザによって承認された単語(商品名)を買い物メモ2104に登録する(ステップS51)。
次に、データ更新部2105は、メモ登録情報リスト2107において、買い物メモ2104に登録した商品名に対応する最終メモ登録日を現在の日付に更新する(ステップS52)。
次に、データ更新部2105は、メモ登録情報リスト2107において、買い物メモ2104に登録した商品名に対応する平均登録間隔を更新する(ステップS53)。
続いて、図6のステップS15における辞書更新処理の動作について説明する。図11は、図6のステップS15における辞書更新処理の動作を示すフローチャートである。
まず、データ更新部2105は、商品名が買い物メモ2104に登録されるまでの一連の処理において、ユーザにより応答文に含まれる単語を訂正する発話があったか否かを判断する(ステップS61)。
ユーザにより単語を訂正する発話があったと判断された場合(ステップS61でYES)、データ更新部2105は、訂正された結果として買い物メモ2104に登録された商品名と、訂正前の認識単語(誤認識単語)との組が、誤認識訂正辞書2103に未登録であるか否かを判断する(ステップS62)。
買い物メモ2104に登録された商品名と誤認識単語との組が誤認識訂正辞書2103に未登録であると判断された場合(ステップS62でYES)、データ更新部2105は、買い物メモ2104に登録された商品名を正解単語とし、正解単語とした商品名と誤認識単語との組を誤認識訂正辞書2103に新規に登録する(ステップS63)。
これにより、ユーザによる誤認識訂正の内容を、次回の発話以降、音声対話システムが自動的に反映させることが可能になる。
次に、データ更新部2105は、誤認識訂正辞書2103内の適用済フラグを全て初期化する(ステップS64)。
一方、ユーザにより単語を訂正する発話がなかったと判断された場合(ステップS61でNO)、又は買い物メモ2104に登録された商品名と誤認識単語との組が誤認識訂正辞書2103に既に登録されていると判断された場合(ステップS62でNO)、データ更新部2105は、誤認識訂正辞書2103を更新せずに処理を終了する。
(実施の形態2)
本実施の形態2に係る音声対話システムについて説明する。なお、以下の実施の形態2では、実施の形態1と重複する説明は省略し、主に相違点を説明する。本実施の形態2では、音声対話サーバ2100は、さらに、ユーザが所有する商品の在庫の有無を示す商品在庫リストを記憶し、商品在庫リストと第1の登録確度と第2の登録確度とを組み合わせて誤認識訂正の実施を判断する。
図12は、本実施の形態2における音声対話サーバの詳細な構成を示すブロック図である。音声対話サーバ2100の記憶部2110は、ユーザが商品を保有しているか否かの情報を記載した商品在庫リスト2109をさらに記憶する。商品の在庫状況に関する情報は、ユーザが商品を購入したり使用したりした際にユーザにより入力を受け付けてもよいし、例えば冷蔵庫内にカメラを設置し、商品を出し入れした際に自動的に入力されてもよい。
図13は、本実施の形態2における商品在庫リストの一例を示す図である。商品在庫リスト2109は、商品の名称を示す商品名と、当該商品についてのユーザの在庫の有無を示す情報とを含む。図13に示す商品在庫リスト2109の例では、商品名としてきゅうり及びキウイが記載されており、きゅうりの在庫はあり、キウイの在庫はないことが記載されている。なお、商品在庫リスト2109に記載する情報は、図13の例のように商品の在庫の有無のみを示してもよいし、より詳細な商品の残量を示してもよい。
買い物メモ2104に登録される認識単語はユーザが購入すべき商品の商品名を示す単語である。訂正実施判断部2122は、ユーザが保有する商品の商品名の一覧を示す商品在庫リスト2109(リスト情報)に登録単語が含まれない場合、第2の登録確度(第2値)を算出する。
図14は、図7のステップS24における誤認識訂正実施判断処理の動作を示すフローチャートである。なお、誤認識訂正実施判断処理以外の処理は、実施の形態1と同様である。図14における処理は、図9に示す誤認識訂正実施判断処理に対してステップS71及びステップS73の処理が追加されており、以下では、追加部分を中心に説明する。
まず、訂正実施判断部2122は、商品在庫リスト2109を参照し、1以上の訂正候補単語の中から、在庫のない商品名に対応する訂正候補単語のみを抽出する(ステップS71)。すなわち、在庫のある商品よりも、在庫のない商品の方が購入する優先度が高いと予想される。
次に、訂正実施判断部2122は、抽出した訂正候補単語が買い物メモ2104に登録される確からしさを示す第1の登録確度を算出する(ステップS72)。なお、第1の登録確度の算出方法は先述の実施の形態1と同様である。また、ステップS71で在庫のない商品名に対応する訂正候補単語が抽出されなかった場合、訂正実施判断部2122は、訂正候補単語の第1の登録確度を0と算出してもよい。
次に、訂正実施判断部2122は、商品在庫リスト2109を参照し、認識単語に対応する商品の在庫がないか否かを判断する(ステップS73)。ここで、認識単語に対応する商品の在庫がないと判断した場合(ステップS73でYES)、訂正実施判断部2122は、認識単語がメモ登録情報リスト2107内に商品名として登録されているか否かを判断する(ステップS74)。認識単語が商品名としてメモ登録情報リスト2107内に登録されていると判断した場合(ステップS74でYES)、訂正実施判断部2122は、認識単語が買い物メモ2104に登録される確からしさを示す第2の登録確度を算出する(ステップS75)。なお、第2の登録確度の算出方法は先述の実施の形態1と同様である。
次に、訂正実施判断部2122は、認識単語の第2の登録確度と、抽出した訂正候補単語の第1の登録確度とを比較し、認識単語の第2の登録確度が、抽出した訂正候補単語の第1の登録確度より高いか否かを判断する(ステップS76)。
ここで、認識単語の第2の登録確度が1以上の訂正候補単語の第1の登録確度より高いと判断された場合(ステップS76でYES)、訂正実施判断部2122は、認識単語の訂正は不要であると判断して処理を終了する。
一方、認識単語に対応する商品の在庫があると判断された場合(ステップS73でNO)、認識単語が商品名としてメモ登録情報リスト2107に登録されていないと判断した場合(ステップS74でNO)、又は認識単語の第2の登録確度が、抽出した訂正候補単語の第1の登録確度以下であると判断された場合(ステップS76でNO)、訂正実施判断部2122は、抽出した訂正候補単語のうち、第1の登録確度が最も高い訂正候補単語を、置換に用いる訂正候補単語として選択し(ステップS77)、処理を終了する。
本実施の形態2における誤認識訂正実施判断処理の具体例を、図4、図5及び図13の例を用いて説明する。ユーザの発話に対する認識単語が「キウイ」であったとする。図4に示す誤認識訂正辞書2103より、訂正実施判断部2122は、訂正候補単語として「きゅうり」を抽出する。次に、訂正実施判断部2122は、商品在庫リスト2109を参照し、抽出した1以上の訂正候補単語の中から、在庫のない商品名に対応する訂正候補単語のみを抽出する。図13の例では、「きゅうり」は在庫があるため、訂正候補単語「きゅうり」は抽出されず、「きゅうり」の第1の登録確度は算出されない。
一方、認識単語である「キウイ」は在庫がなく、かつメモ登録情報リスト2107内に登録されているため、「キウイ」の第2の登録確度は算出される。その結果、訂正実施判断部2122は、認識単語である「キウイ」の第2の登録確度が、抽出した訂正候補単語の第1の登録確度(訂正候補単語は抽出されなかったため、第1の登録確度は0とする)より高いと判断し、誤認識を訂正する必要はないと判断し、処理を終了する。
なお、訂正候補単語に対応する商品の在庫があり、かつ認識単語に対応する商品の在庫がある場合、すなわち、ステップS71で在庫のない商品名に対応する訂正候補単語が抽出されず、かつステップS73で認識単語に対応する商品の在庫があると判断された場合は、図9に示す誤認識訂正実施判断処理を行ってもよい。
(変形例)
なお、上記実施の形態1,2において説明された技術は、例えば以下の構成によっても実現されうる。
図15は、第1の変形例における音声対話システムの構成を示す図である。
図15に示す音声対話システムは、家電機器である第1の機器2011とは独立に、音声入力部2111及び音声出力部2112を備えた音声対話モジュール2012を備える。音声対話モジュール2012は、音声対話サーバ2100と通信する。このような構成により、第1の機器2011が、音声入出力機能、及び音声対話サーバ2100との通信機能を有していなくとも、ユーザは、音声対話システムを利用することができる。
図16は、第2の変形例における音声対話システムの構成を示す図である。
図16に示す音声対話システムは、ホームゲートウェイ1102をさらに備える。第1の機器2011は、宅内のネットワーク2021を介してホームゲートウェイ1102と通信可能に接続され、ホームゲートウェイ1102は、宅外のネットワーク2020を介して音声対話サーバ2100と通信可能に接続されている。第1の機器2011は、ホームゲートウェイ1102を介して音声対話サーバ2100と通信する。このような構成により、第1の機器2011が単体でインターネットに接続不可能な機器であっても、音声入力によるメモへの記録を実現することができる。
図17は、第3の変形例における音声対話システムの構成を示す図である。
図17に示す音声対話システムは、ホームゲートウェイ1102をさらに備え、音声対話サーバ2100を備えていない。ホームゲートウェイ1102は、音声認識部2101、誤認識訂正部2102、誤認識訂正辞書2103及び買い物メモ2104等を備える。なお、ホームゲートウェイ1102は、図3に示す音声対話サーバ2100の構成を備える。第1の機器2011は、宅内のネットワーク2021を介してホームゲートウェイ1102と通信可能に接続される。このような構成により、インターネットに接続していない環境であっても、音声入力によるメモへの記録を実現することができる。
また、音声対話装置が、図3に示す第1の機器2011の構成のうちの通信部2113以外の構成と、図3に示す音声対話サーバ2100の構成のうちの通信部2108以外の構成とを備えてもよい。
なお、上記実施の形態において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現されるクラウドサービスの類型はこれらに限られるものでない。
(サービスの類型1:自社データセンタ型クラウドサービス)
図18は、サービスの類型1(自社データセンタ型クラウドサービス)における音声対話システムが提供するサービスの全体像を示す図である。本類型では、サービスプロバイダ1120がグループ1100から情報を取得し、ユーザに対してサービスを提供する。本類型では、サービスプロバイダ1120が、データセンタ運営会社の機能を有している。すなわち、サービスプロバイダ1120が、ビッグデータを管理するクラウドサーバ1203を保有している。したがって、データセンタ運営会社は存在しない。
本類型では、サービスプロバイダ1120は、データセンタ(クラウドサーバ)1203を運営及び管理している。また、サービスプロバイダ1120は、オペレーティングシステム(OS)1202及びアプリケーション1201を管理する。サービスプロバイダ1120は、サービスプロバイダ1120が管理するOS1202及びアプリケーション1201を用いてサービスを提供する(矢印1204)。
(サービスの類型2:IaaS利用型クラウドサービス)
図19は、サービスの類型2(IaaS利用型クラウドサービス)における音声対話システムが提供するサービスの全体像を示す図である。ここで、IaaSとは、インフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築及び稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社1110が、データセンタ(クラウドサーバ)1203を運営及び管理している。また、サービスプロバイダ1120は、OS1202及びアプリケーション1201を管理する。サービスプロバイダ1120は、サービスプロバイダ1120が管理するOS1202及びアプリケーション1201を用いてサービスを提供する(矢印1204)。
(サービスの類型3:PaaS利用型クラウドサービス)
図20は、サービスの類型3(PaaS利用型クラウドサービス)における音声対話システムが提供するサービスの全体像を示す図である。ここで、PaaSとは、プラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築及び稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社1110は、OS1202を管理し、データセンタ(クラウドサーバ)1203を運営及び管理している。また、サービスプロバイダ1120は、アプリケーション1201を管理する。サービスプロバイダ1120は、データセンタ運営会社1110が管理するOS1202及びサービスプロバイダ1120が管理するアプリケーション1201を用いてサービスを提供する(矢印1204)。
(サービスの類型4:SaaS利用型クラウドサービス)
図21は、サービスの類型4(SaaS利用型クラウドサービス)における音声対話システムが提供するサービスの全体像を示す図である。ここで、SaaSとは、ソフトウェア・アズ・ア・サービスの略である。SaaS利用型クラウドサービスは、例えば、データセンタ(クラウドサーバ)を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ(クラウドサーバ)を保有していない会社又は個人などの利用者がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社1110は、アプリケーション1201を管理し、OS1202を管理し、データセンタ(クラウドサーバ)1203を運営及び管理している。また、サービスプロバイダ1120は、データセンタ運営会社1110が管理するOS1202及びアプリケーション1201を用いてサービスを提供する(矢印1204)。
以上、いずれのクラウドサービスの類型においても、サービスプロバイダ1120がサービスを提供する。また、例えば、サービスプロバイダ又はデータセンタ運営会社は、OS、アプリケーション又はビックデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。
本開示において、ユニット、装置、部材又は部の全部又は一部、又はブロック図の機能ブロックの全部又は一部は、半導体装置、半導体集積回路(IC)、又はLSI(Large Scale Integration)を含む一つ又は複数の電子回路によって実行されてもよい。LSI又はICは、一つのチップに集積されてもよいし、複数のチップを組み合わせて構成されてもよい。例えば、記憶素子以外の機能ブロックは、一つのチップに集積されてもよい。ここでは、LSIやICと呼んでいるが、集積の度合いによって呼び方が変わり、システムLSI、VLSI(Very Large Scale Integration)、若しくはULSI(Ultra Large Scale Integration)と呼ばれるものであってもよい。LSIの製造後にプログラムされる、Field Programmable Gate Array(FPGA)、又はLSI内部の接合関係の再構成又はLSI内部の回路区画のセットアップができるReconfigurable Logic Deviceも同じ目的で使うことができる。
さらに、ユニット、装置、部材又は部の全部又は一部の機能又は操作は、ソフトウエア処理によって実行することが可能である。この場合、ソフトウエアは一つ又は複数のROM、光学ディスク、ハードディスクドライブなどの非一時的記録媒体に記録され、ソフトウエアが処理装置(Processor)によって実行されたときに、そのソフトウエアで特定された機能が処理装置(Processor)および周辺装置によって実行される。システム又は装置は、ソフトウエアが記録されている一つ又は複数の非一時的記録媒体、処理装置(Processor)、及び必要とされるハードウエアデバイス、例えばインターフェース、を備えていてもよい。
本開示に係る音声対話方法、音声対話装置及び音声対話プログラムは、ユーザの意図に反して訂正される可能性を低減し、ユーザの利便性を向上させることができ、ユーザの発話に対する応答文を出力する音声対話方法、音声対話装置及び音声対話プログラムとして有用である。
1010,1020 ユーザ
1100 グループ
1101 複数の機器
1102 ホームゲートウェイ
1110 データセンタ運営会社
1111 クラウドサーバ
1120 サービスプロバイダ
1121 サーバ
1201 アプリケーション
1202 OS
1203 データセンタ
2011 第1の機器
2012 音声対話モジュール
2020,2021 ネットワーク
2100 音声対話サーバ
2101 音声認識部
2102 誤認識訂正部
2103 誤認識訂正辞書
2104 買い物メモ
2105 データ更新部
2106 応答生成部
2107 メモ登録情報リスト
2108 通信部
2109 商品在庫リスト
2110 記憶部
2111 音声入力部
2112 音声出力部
2113 通信部
2114 訂正受付部
2121 訂正候補抽出部
2122 訂正実施判断部

Claims (12)

  1. ユーザの発話に対する応答文を出力する音声対話装置における音声対話方法であって、
    前記ユーザによる発話の音声データから変換された、1以上の単語からなるテキストデータを受信し、
    過去に前記ユーザにより訂正された単語である誤認識単語と前記誤認識単語から置換された単語である正解単語とを対応付けた誤認識訂正辞書を参照し、前記テキストデータに含まれる単語である認識単語のうち前記誤認識単語と合致する訂正対象単語を特定し、
    前記誤認識訂正辞書を参照し、前記訂正対象単語に対応付けられている正解単語である訂正候補単語を特定し、
    前記ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、前記訂正対象単語を前記訂正候補単語に置換するか否かを判断し、
    前記訂正対象単語を前記訂正候補単語に置換すると判断した場合、前記訂正対象単語を前記訂正候補単語に置換し、前記訂正候補単語を含む第1応答文のテキストデータを出力し、
    前記訂正対象単語を前記訂正候補単語に置換しないと判断した場合、前記訂正対象単語を含む第2応答文のテキストデータを出力する、
    音声対話方法。
  2. 前記訂正対象単語を前記訂正候補単語に置換するか否かの判断において、
    前記履歴テーブルに基づいた所定の計算方法により、前記訂正候補単語が前記単語一時記録テーブルに登録される確からしさを示す第1値を算出し、
    前記履歴テーブルを参照し、前記認識単語のうち、過去に前記単語一時記録テーブルに登録された登録単語を特定し、
    前記所定の計算方法により、前記登録単語が前記単語一時記録テーブルに登録される確からしさを示す第2値を算出し、
    前記第1値と前記第2値とを比較する、
    請求項1記載の音声対話方法。
  3. 前記第2値が前記第1値より大きい場合、前記訂正対象単語を前記訂正候補単語に置換しないと判断し、前記第2値が前記第1値以下である場合、前記訂正対象単語を前記訂正候補単語に置換すると判断する、
    請求項2記載の音声対話方法。
  4. 複数の訂正候補単語を特定した場合、前記複数の訂正候補単語のそれぞれに対して前記第1値を算出し、前記複数の訂正候補単語のうちの前記第1値が最も大きい前記訂正候補単語を、前記置換に用いる単語として選択する、
    請求項2記載の音声対話方法。
  5. 前記訂正候補単語に対応する前記認識単語が前記単語一時記録テーブルに最後に登録されたときから現在までの期間を、同一の前記訂正候補単語に対応する前記認識単語が前記単語一時記録テーブルに登録される平均的な時間間隔で除算した値を、前記第1値として算出し、
    前記登録単語に対応する前記認識単語が前記単語一時記録テーブルに最後に登録されたときから現在までの期間を、同一の前記登録単語に対応する前記認識単語が前記単語一時記録テーブルに登録される平均的な時間間隔で除算した値を、前記第2値として算出する、
    請求項2記載の音声対話方法。
  6. 前記単語一時記録テーブルに登録される前記認識単語は前記ユーザが購入すべき商品の商品名を示す単語であり、
    前記ユーザが保有する商品の商品名の一覧を示すリスト情報に前記登録単語が含まれない場合、前記第2値を算出する、
    請求項2記載の音声対話方法。
  7. 前記第1応答文に含まれる前記訂正候補単語又は前記第2応答文に含まれる前記訂正対象単語を承認する旨の前記ユーザによる指示を受信した場合、前記訂正候補単語又は前記訂正対象単語を前記単語一時記録テーブルに登録する、
    請求項1記載の音声対話方法。
  8. 前記訂正候補単語又は前記訂正対象単語を前記単語一時記録テーブルに登録した場合、前記訂正候補単語又は前記訂正対象単語を前記単語一時記録テーブルに登録した時刻を前記履歴テーブルに記憶し、前記単語一時記録テーブルに登録した前記訂正候補単語又は前記訂正対象単語と同一の認識単語の前記履歴テーブルに記憶されている時刻に基づき、同一の前記認識単語が前記単語一時記録テーブルに登録される平均的な時間間隔を算出する、
    請求項7記載の音声対話方法。
  9. 前記第1応答文に含まれる前記訂正候補単語又は前記第2応答文に含まれる前記訂正対象単語を訂正単語に訂正するための前記ユーザによる指示を受信した場合、前記訂正単語に基づき前記誤認識訂正辞書を更新する、
    請求項1記載の音声対話方法。
  10. 前記訂正単語と、前記訂正候補単語又は前記訂正対象単語の少なくとも一方とを対応付けた組合せが前記誤認識訂正辞書に記憶されているか否かを判断し、
    記憶されていないと判断した場合、前記訂正候補単語又は前記訂正対象単語の少なくとも一方を前記誤認識単語とし、前記訂正単語を前記正解単語としてそれぞれを対応付けて前記誤認識訂正辞書に記憶する、
    請求項9記載の音声対話方法。
  11. ユーザの発話に対する応答文を出力する音声対話装置であって、
    前記ユーザによる発話の音声データから変換された、1以上の単語からなるテキストデータを受信する受信部と、
    過去に前記ユーザにより訂正された単語である誤認識単語と前記誤認識単語から置換された単語である正解単語とを対応付けた誤認識訂正辞書を参照し、前記テキストデータに含まれる単語である認識単語のうち前記誤認識単語と合致する訂正対象単語を特定する第1特定部と、
    前記誤認識訂正辞書を参照し、前記訂正対象単語に対応付けられている正解単語である訂正候補単語を特定する第2特定部と、
    前記ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、前記訂正対象単語を前記訂正候補単語に置換するか否かを判断する判断部と、
    前記訂正対象単語を前記訂正候補単語に置換すると判断された場合、前記訂正対象単語を前記訂正候補単語に置換し、前記訂正候補単語を含む第1応答文のテキストデータを出力し、前記訂正対象単語を前記訂正候補単語に置換しないと判断された場合、前記訂正対象単語を含む第2応答文のテキストデータを出力する出力部と、
    を備える音声対話装置。
  12. ユーザの発話に対する応答文を出力する音声対話プログラムであって、
    コンピュータを、
    前記ユーザによる発話の音声データから変換された、1以上の単語からなるテキストデータを受信する受信部と、
    過去に前記ユーザにより訂正された単語である誤認識単語と前記誤認識単語から置換された単語である正解単語とを対応付けた誤認識訂正辞書を参照し、前記テキストデータに含まれる単語である認識単語のうち前記誤認識単語と合致する訂正対象単語を特定する第1特定部と、
    前記誤認識訂正辞書を参照し、前記訂正対象単語に対応付けられている正解単語である訂正候補単語を特定する第2特定部と、
    前記ユーザによる発話に含まれる単語を単語一時記録テーブルに登録した履歴を示す履歴テーブルに基づき、前記訂正対象単語を前記訂正候補単語に置換するか否かを判断する判断部と、
    前記訂正対象単語を前記訂正候補単語に置換すると判断された場合、前記訂正対象単語を前記訂正候補単語に置換し、前記訂正候補単語を含む第1応答文のテキストデータを出力し、前記訂正対象単語を前記訂正候補単語に置換しないと判断された場合、前記訂正対象単語を含む第2応答文のテキストデータを出力する出力部として機能させる、
    音声対話プログラム。
JP2016132208A 2016-07-04 2016-07-04 音声対話方法、音声対話装置及び音声対話プログラム Pending JP2018004976A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016132208A JP2018004976A (ja) 2016-07-04 2016-07-04 音声対話方法、音声対話装置及び音声対話プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016132208A JP2018004976A (ja) 2016-07-04 2016-07-04 音声対話方法、音声対話装置及び音声対話プログラム

Publications (1)

Publication Number Publication Date
JP2018004976A true JP2018004976A (ja) 2018-01-11

Family

ID=60944967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016132208A Pending JP2018004976A (ja) 2016-07-04 2016-07-04 音声対話方法、音声対話装置及び音声対話プログラム

Country Status (1)

Country Link
JP (1) JP2018004976A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877792A (zh) * 2018-05-30 2018-11-23 北京百度网讯科技有限公司 用于处理语音对话的方法、装置、电子设备以及计算机可读存储介质
JP6836094B1 (ja) * 2020-08-03 2021-02-24 富士通クライアントコンピューティング株式会社 情報処理装置および情報処理プログラム
JP2021056392A (ja) * 2019-09-30 2021-04-08 日本電気株式会社 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体
JP2021097386A (ja) * 2019-12-19 2021-06-24 Necプラットフォームズ株式会社 発信制御システム、発信制御方法及び発信制御プログラム
WO2021130892A1 (ja) * 2019-12-25 2021-07-01 日本電気株式会社 変換テーブル生成装置、音声対話システム、変換テーブル生成方法、音声対話方法および記録媒体
US11620981B2 (en) 2020-03-04 2023-04-04 Kabushiki Kaisha Toshiba Speech recognition error correction apparatus
WO2023113784A1 (en) * 2021-12-14 2023-06-22 Google Llc Lattice speech corrections

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877792A (zh) * 2018-05-30 2018-11-23 北京百度网讯科技有限公司 用于处理语音对话的方法、装置、电子设备以及计算机可读存储介质
CN108877792B (zh) * 2018-05-30 2023-10-24 北京百度网讯科技有限公司 用于处理语音对话的方法、装置、电子设备以及计算机可读存储介质
JP2021056392A (ja) * 2019-09-30 2021-04-08 日本電気株式会社 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体
JP7363307B2 (ja) 2019-09-30 2023-10-18 日本電気株式会社 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体
JP2021097386A (ja) * 2019-12-19 2021-06-24 Necプラットフォームズ株式会社 発信制御システム、発信制御方法及び発信制御プログラム
WO2021130892A1 (ja) * 2019-12-25 2021-07-01 日本電気株式会社 変換テーブル生成装置、音声対話システム、変換テーブル生成方法、音声対話方法および記録媒体
JP7414078B2 (ja) 2019-12-25 2024-01-16 日本電気株式会社 変換テーブル生成装置、音声対話システム、変換テーブル生成方法、およびコンピュータプログラム
US11620981B2 (en) 2020-03-04 2023-04-04 Kabushiki Kaisha Toshiba Speech recognition error correction apparatus
JP6836094B1 (ja) * 2020-08-03 2021-02-24 富士通クライアントコンピューティング株式会社 情報処理装置および情報処理プログラム
JP2022028436A (ja) * 2020-08-03 2022-02-16 富士通クライアントコンピューティング株式会社 情報処理装置および情報処理プログラム
WO2023113784A1 (en) * 2021-12-14 2023-06-22 Google Llc Lattice speech corrections

Similar Documents

Publication Publication Date Title
JP2018004976A (ja) 音声対話方法、音声対話装置及び音声対話プログラム
AU2021277693B2 (en) Data driven speech enabled self-help systems and methods of operating thereof
CN107644638B (zh) 语音识别方法、装置、终端和计算机可读存储介质
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
US11030400B2 (en) System and method for identifying and replacing slots with variable slots
WO2020065840A1 (ja) コンピュータシステム、音声認識方法及びプログラム
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
US20130132086A1 (en) Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local sr performance
US11915693B2 (en) System and method for rule based modifications to variable slots based on context
US10170122B2 (en) Speech recognition method, electronic device and speech recognition system
JP2018063271A (ja) 音声対話装置、音声対話システム、および、音声対話装置の制御方法
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
US11056103B2 (en) Real-time utterance verification system and method thereof
JP6696803B2 (ja) 音声処理装置および音声処理方法
US11416555B2 (en) Data structuring device, data structuring method, and program storage medium
JP2018010110A (ja) サーバ装置、制御システム、方法、情報処理端末、および制御プログラム
JPWO2019103006A1 (ja) 情報処理装置及び情報処理方法
KR20200082240A (ko) 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법
CN114360549A (zh) 语音识别纠错方法、装置及电子设备、存储介质
JP2017090660A (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP6244731B2 (ja) 情報処理装置及び情報処理プログラム
JP2015087555A (ja) 音声認識装置とその方法とプログラムとその記録媒体
US20220284887A1 (en) Electronic device for correcting speech input of user and operating method thereof
US20220358557A1 (en) System and method for identifying a target order item
JP3883066B2 (ja) 音声対話システム及び方法、音声対話プログラム並びにその記録媒体