JP6391925B2

JP6391925B2 - 音声対話装置、方法およびプログラム

Info

Publication number: JP6391925B2
Application number: JP2013196143A
Authority: JP
Inventors: 祐一宮村; 山崎　智弘; 智弘山崎; 尚義永江; 憲治岩田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-09-20
Filing date: 2013-09-20
Publication date: 2018-09-19
Anticipated expiration: 2033-09-20
Also published as: JP2015060210A; CN104464731A

Description

本発明の実施形態は、データ収集装置、音声対話装置、方法およびプログラムに関する。

近年、携帯電話、スマートフォンなどの高機能携帯端末に搭載されるアプリケーションとして、ユーザと音声で対話を行なう音声対話システムが増えている。音声対話システムでは、ユーザが質問またはアプリケーションの実行を発話によってシステムに依頼すると、ユーザの発話に対する応答を音声出力や画像表示によって行なう。

特開２００４−１４５０１４号公報

システムから音声出力によりユーザへ応答する場合は、応答文の表記文字列から応答文の読みを推定し、音声合成処理によって読みを合成音声に変換して出力することが一般的である。よって、誤った読みを推定した場合、正しい応答音声を出力できず、誤った情報を伝えてしまう可能性がある。特に、１つの表記で複数の読みを有する単語の読み分けは困難である。

そこで、音声合成処理を行なう際に、直前のユーザの発話の音声認識結果から作成した読み情報を用いることで、複数の読みを持つ単語の読み誤りを防ぐ手法がある。

しかし、この手法は直前のユーザ発話に含まれる人名などの単語を応答文に再利用することを想定しており、再利用する単語をユーザ発話の発した読みと同じように読み上げることで読み誤りを防ぐものである。よって、直前のユーザ発話に含まれない単語については、読み誤りを防ぐことができない。

本発明は、上述した課題を解決するためになされたものであり、高精度に読みを推定することができるデータ収集装置、音声対話装置、方法およびプログラムを提供することを目的とする。

本発明の一実施形態に係る音声対話装置は、音声対話で用いられるデータを、対話の所定の分類ごとに対応付けて収集するデータ収集装置であって、音声認識部、対話判定部および格納部を含む。音声認識部は、発話された音声を音声認識し、該音声に対応する表記文字列と該表記文字列の読みとを生成する。対話判定部は、前記表記文字列および前記読みの少なくともどちらか一方を用いて前記音声対話が成功したかどうかを判定する。格納部は、前記音声対話が成功したと判定される場合、前記表記文字列および前記読みを前記分類に対応付けて格納する。

第１の実施形態に係る音声対話装置を示すブロック図。ドメインおよび対話ステップの概念を示す図。シナリオＤＢに格納されるデータの一例を示す図。表記読みＤＢに格納される表記読みおよび読みの一例を示す図。データ収集装置の動作を示すフローチャート。対話判定部における対判定処理の具体例を示すフローチャート。第１の実施形態に係る音声対話装置の動作を示すフローチャート。第２の実施形態に係る音声対話装置を示すブロック図。第２の実施形態に係る音声対話装置の動作を示すフローチャート。

以下、図面を参照しながら本開示の一実施形態に係るデータ収集装置、音声対話装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行なうものとして、重ねての説明を省略する。
（第１の実施形態）
第１の実施形態に係る音声対話装置について図１のブロック図を参照して説明する。
第１の実施形態に係る音声対話装置１００は、音声認識部１０１、対話判定部１０２、シナリオデータベース１０３（以下、シナリオＤＢ１０３という）、表記読みデータベース１０４（以下、表記読みＤＢ１０４という）、応答文生成部１０５、中間言語化部１０６および音声合成部１０７を含む。

なお、音声認識部１０１、対話判定部１０２、シナリオＤＢ１０３および表記読みＤＢ１０４をまとめてデータ収集装置とも呼ぶ。

音声認識部１０１は、ユーザにより発話された音声を入力音声として受け取り、入力音声に対して音声認識処理を行い、入力音声に対応した表記文字列と表記文字列に対応する読みとを生成する。表記文字列と読みとは、単語単位で生成してもよいし、節単位、一文単位で生成してもよい。表記文字列は、本実施形態では１文字である場合も含む。また、読みは音素列でもよい。音声認識処理は、例えば、隠れマルコフモデル（Hidden Markov Model:ＨＭＭ）を利用するなど、一般的な方法で行えばよいのでここでの詳細な説明は省略する。

対話判定部１０２は、音声認識部１０１から表記文字列と読みとの少なくともどちらか一方を受け取り、表記文字列と読みとの少なくともどちらか一方と後述のシナリオＤＢ１０３とを参照して、対話が成功したかどうかを判定する。
対話が成功したかどうかの判定は、例えば、現在の判定対象となる発話の次の発話中に予め用意した言い直し表現が含まれていなければ成功、含まれていなければ失敗と判定すればよい。言い直し表現としては、例えば、「そうじゃなくて」、「いやいや」、「ちがうちがう」といった表現が挙げられる。また、別の判定方法としては、音声認識部１０１から受け取った表記文字列に必要な情報が含まれるかどうかで判定してもよい。例えば、表記文字列に日時表現が含まれれば対話が成功、含まれていなければ失敗と判定すればよい。また、本実施形態では、表記文字列を用いて対話が成功したかどうかを判定する例を示すが、これに限らず、読みを用いて対話が成功したかどうかを判定してもよい。なお、対話の成否判定を言い直し表現による方法のみで行う場合には、成否判定時にシナリオＤＢ１０３はなくてもよい。

シナリオＤＢ１０３は、ユーザと装置との間の対話の順序などを定める対話ステップの集合を格納する。シナリオＤＢ１０３に格納されている対話ステップは、１以上のグループに分類しておく。このグループのことをドメインと呼ぶ。シナリオＤＢ１０３の詳細については、図３を参照して後述する。

表記読みＤＢ１０４は、単語の表記文字列と単語の１以上の読みとを対応付けて格納する。単語の読みは、予め与えておいてもよいし、対話判定部１０２において成功と判定された単語の表記文字列と読みとを対話判定部１０２から受けとり、それぞれ対応付けて格納して蓄積してもよい。表記読みＤＢ１０４の詳細については、図４を参照して後述する。

応答文生成部１０５は、対話判定部１０２から判定結果を受け取り、シナリオＤＢ１０３を参照して、判定結果に応じたユーザへの応答文を作成する。応答文の生成方法としては様々な方法が考えられるが、本実施形態では、シナリオＤＢ１０３における現在判定中の対話ステップを参照して応答文を作成する。

中間言語化部１０６は、応答文生成部１０５から応答文を受け取り、表記読みＤＢ１０４に格納される表記文字列および読みを参照して、応答文に含まれる単語の読みを推定する。

音声合成部１０７は、中間言語化部１０６から単語の読みが推定された応答文を受け取り、読みが推定された応答文を音声合成して応答音声を作成する。なお、応答音声の作成は、一般的な音声合成システムを用いればよいため、ここでの説明を省略する。

次に、シナリオＤＢ１０３に格納されるドメインおよび対話ステップの概念について図２を参照して説明する。
本実施形態の対話システムでは、１つまたは複数の対話ステップを遷移することでユーザとシステムとの対話が行われると想定する。

図２では、対話全体のドメインである対話全体ドメイン２０１の下位ドメインとして、百貨店案内ドメイン２０２、旅行予約ドメイン２０３を含む。また、各対話ステップがそれぞれドメインに対応付けられる。具体的には、例えば、ステップ２５１「Ｓ１：あいさつ」は、対話全体ドメイン２０１に属し、ステップ２５３「Ｓ２：目的または行き先を確認」は、旅行予約ドメイン２０３およびその上位ドメインである対話全体ドメイン２０１に属する。

図２の対話シナリオの遷移例としては、対話シナリオの各対話ステップとして、はじめにステップ２５１「Ｓ１：あいさつ」があり、次の遷移としてステップ２５２「Ｓ２：要求の聞き取り」があり、ユーザの発話が旅行に関する発話であれば、ステップ２５３「Ｓ３：目的または行き先を確認」に遷移する。さらに、ユーザの発話が旅行の目的であれば、ステップ２５４「Ｓ４：旅行プラン紹介」に遷移し、ユーザの発話が旅行先であれば、ステップ２５５「Ｓ５：日時を確認」に遷移することになる。
各対話ステップの遷移順や各対話ステップにおける処理は、予め設計しておいてもよいし、ユーザとの対話中に遷移順を変更するようにしてもよい。

次に、シナリオＤＢ１０３に格納されるデータの一例について図３を参照して説明する。
シナリオＤＢ１０３に格納されるテーブル３００は、ステップ名３０１、応答文３０２、遷移条件３０３、遷移先ステップ３０４およびドメイン３０５を含み、それぞれ対応付けられる。

ステップ名３０１は、対話ステップを示す識別子である。応答文３０２は、ユーザへの応答として出力する応答文の文例を示す文字列である。遷移条件３０３は、次の対話ステップへ遷移するための条件を示す。遷移先ステップ３０４は、遷移先となる対話ステップを示す。ドメイン３０５は、ステップ名３０１で示される対話ステップが属するドメインを示す。また、対話ステップの遷移条件に応じて、１つのステップ名３０１に、複数の遷移条件３０３および遷移先ステップ３０４が対応付けられることもある。
例えば、ステップ名３０１「Ｓ３（目的または行き先を確認）」、応答文３０２「ご希望の旅行先は？」、遷移条件３０３「場所表現」および遷移先ステップ３０４「Ｓ５（日時を確認）」、遷移条件３０３「目的表現」および遷移先ステップ３０４「Ｓ４（旅行プラン紹介）」、および、ドメイン３０５「旅行予約、対話全体」が対応付けられる。

すなわち、ステップ名３０１「Ｓ３（目的または行き先を確認）」における処理では、ユーザの発話に場所を示す単語が含まれていれば、「Ｓ５（日時を確認）」に遷移し、ユーザの発話に目的を示す単語が含まれていれば、「Ｓ４（旅行プラン紹介）」に遷移することがわかる。

なお、１つのステップが複数のドメインに属する場合は、下位のドメインを先に記述することで、ドメインの従属関係を判別できるようにしておくことが望ましい。例えば、ステップ名３０１「Ｓ３」の場合は、対話全体ドメインの下位ドメインに旅行予約ドメインが存在することがわかる。

また、図３の例では、対話ステップの遷移先を遷移条件で決定するが、これに限らず、ランダムでもよいし、確率に基づいて決定してもよい。

次に、表記読みＤＢ１０４に格納される表記文字列および読みの一例について図４を参照して説明する。
図４に示すテーブル４００には、表記４０１ごとに、読み４０２、読み頻度スコア４０３がそれぞれ対応付けられて格納される。

表記４０１は、単語の表記文字列を示す。読み４０２は、表記文字列の読みを示す。読み頻度スコア４０３は、ドメインごとに算出される、読み４０２としての確からしさを示すスコアである。ここでは、特定のドメインにおける対話で、表記４０１の読みとして読み４０２が出現した頻度が読み頻度スコア４０３である。また、対話全体ドメインの読み頻度スコア４０３には、対話全体ドメインの下位ドメインにて算出された頻度を合計した値が格納される。

具体的には、例えば、表記４０１「便」には、２つの読み４０２が対応付けられる。読み４０２「べん」に対して、対話全体ドメインの読み頻度スコア４０３「６」、旅行予約ドメインの読み頻度スコア「１」および百貨店ドメインの読み頻度スコア「５」がそれぞれ対応付けられる。また、別の読み４０２「びん」に対して、対話全体の読み頻度スコア４０３「４」、旅行予約ドメインの読み頻度スコア４０３「４」および百貨店ドメインの読み頻度スコア４０３「０」がそれぞれ対応付けられる。

なお、本実施形態では、表記読みＤＢ１０４に単一の表記読みテーブルを保持している場合を想定するが、対話システム利用者や利用者グループごとに表記読みＤＢを用意しておいてもよい。例えば、「Ａさんの表記読みデータベース」や「Ｃ社社員用の表記読みデータベース」が挙げられる。これにより、例えば、「Ａさん」の知り合いには「長田（ながた）さん」より「長田（おさだ）さん」が多い、といった情報が表記読みデータベースのスコアに反映されることとなり、利用者に合わせた読み分けが可能になる。なお、利用者を特定する方法としては、様々な方法が考えられる。例えば、対話システムにカメラを付けておき、カメラに映る利用者が誰であるかを顔認識技術で特定する方法が挙げられる。

さらに、利用者ごとに表記読みデータベースを用意するのではなく、利用者ごとのドメインを用意することでも同等の効果を得ることができる。例えば、表記読みＤＢ１０４に「Ａさんのドメイン」といったドメインを用意すればよい。

次に、音声対話装置に含まれるデータ収集装置の動作について図５のフローチャートを参照して説明する。
ステップＳ５０１では、音声認識部１０１が、入力信号を受け取り、入力信号から表記文字列と読みとを生成する。
ステップＳ５０２では、音声認識部１０１が、表記文字列と読みとを１組のペアとして生成する。

ステップＳ５０３では、対話判定部１０２が、ユーザとの対話が成功したかどうかを判定する。対話が成功していればステップＳ５０４へ進み、対話が失敗した場合は処理を終了する。
ステップＳ５０４では、対話判定部１０２が、表記読みＤＢ１０４を更新する。以上でデータ収集装置の処理を終了する。

次に、データ収集装置のデータ収集処理について具体例を挙げて説明する。

ここでは、現在の対話ステップが「Ｓ５：日時を確認」であり、入力音声として「新千歳便の・・・」が入力される場合を想定する。
音声認識部１０１の音声認識処理により、表記文字列「新千歳便の・・・」と読み「しんちとせびん・・・」とを得る。続いて、表記文字列の単語とこの単語の読みとの組である、「（便、びん）」を得る。次に、対話判定部１０２が、現在の対話ステップにおいて、入力音声に「新千歳便」という地名が含まれているので、対話は成功であると判定する。対話判定部１０２は、この判定結果に基づき、シナリオＤＢ１０３における対話ステップ「日時を確認」は、旅行予約ドメインおよび対話全体ドメインに属するので、表記読みＤＢ１０４に格納されるテーブルの「表記：便、読み：びん」において、対話全体ドメインと旅行予約ドメインとの読み頻度スコアを１つずつインクリメントする。

なお、一度の更新で変動させるスコアの値は、必ずしも１である必要はなく、音声認識結果の信頼度や、対話が成功したかどうかを判定する根拠に応じて変動させてもよい。
例えば、ユーザ発話において言い直し表現として「いやいや」が含まれる場合、上述の例では対話が失敗したと判定するが、「いやいや」という発話は必ずしも言い直し表現とは限らないため、対話が成功したと判定して、スコアの値を０．５として読み頻度スコアにインクリメントするといった処理を行なってもよい。

別例として、入力音声として「円からドル・・・」が入力され、音声認識部１０１において表記文字列「便からドル・・・」、読み「べんからドル・・・」と誤認識した場合を想定する。
この場合は、表記文字列の単語とこの単語の読みとの組として、「（便、べん）」を得る。音声対話装置は、誤認識結果「便からドル・・・」に基いて対話ステップの遷移や、応答文生成を行うため、ユーザの意図と異なる挙動をすることになる。このとき、ユーザが「そうじゃなくて」などと否定する内容の発話をしたとすると、対話判定部１０２は対話が失敗した場合と判定し、表記読みＤＢ１０４の更新を行わずに処理を終了する。

次に、対話判定部１０２における具体的な対話判定処理の一例について図６のフローチャートを参照して説明する。
ここでは、現在の対話ステップが「日時を確認」である場合の判定処理を示す。
ステップＳ６０１では、応答文生成部１０５が、図３に示すシナリオＤＢ１０３に格納されるステップ名３０１「Ｓ２（日時を確認）」に対応する応答文３０２を参照して、応答文「出発日はいつですか？」を生成し、音声合成部１０７からこの応答文の応答音声の出力がユーザになされる。

ステップＳ６０２では、音声認識部１０１が、ユーザからの発話を取得する。
ステップＳ６０３では、対話判定部１０２が、ユーザからの発話に日時を示す表現が含まれるかどうかを判定する。日時を示す表現が含まれているかどうかを判定する方法としては、正規表現によるマッチングを使用する方法が考えられる。

例えば、ユーザ発話の表記文字列の一部が正規表現「￥ｄ日．＊￥ｄ￥ｄ：￥ｄ￥ｄ」にマッチすれば日時表現を含んでいると判定する。なお、「￥ｄ」は０〜９の任意の数字を、「．」は任意の文字を表し、「＊」はゼロまたは１回以上の繰り返しを表す。これ以外の方法として、日時表現や場所表現といったラベルを予め単語に付与した単語辞書を活用する方法でもよく、ユーザ発話内に日時表現のラベルが付いた単語が出現するかどうかで日時表現を含むかどうかを判定してもよい。さらに、統計モデルを用いて、日時表現を含むかどうかの判定をおこなってもよい。

日時を示す表現が含まれる場合は、ステップＳ６０４に進み、日時を示す表現が含まれない場合は、ステップＳ６０１に戻り、同じ応答文で同様の処理を繰り返す。

ステップＳ６０４では、対話が成功したと考えられるので、シナリオＤＢ１０３を参照して、現在の対話ステップから遷移先となる対話ステップへ遷移する。その後、シナリオＤＢ１０３を参照して、各対話ステップの遷移条件に基づいて、同様の処理を行なう。以上で、対話判定部１０２の対話判定処理を終了する。

次に、第１の実施形態に係る音声対話装置１００の動作について図７のフローチャートを参照して説明する。
ステップＳ７０１では、音声認識部１０１が、入力音声から表記文字列と読みとを生成する。

ステップＳ７０２では、応答文生成部１０５が、表記文字列およびシナリオＤＢ１０３に格納されるシナリオに基づいて、応答文を生成する。応答文の生成は、本実施形態では、シナリオＤＢ１０３から現在の対話ステップの応答文３０２を用いればよいが、これに限らず、予め応答文のテンプレートを作成しておき、ユーザの発話内容に応じてテンプレートに情報を埋めて応答文を作成してもよい。

ステップＳ７０３では、中間言語化部１０６が、表記読みＤＢ１０４を参照して、応答文の読みを推定する。
ステップＳ７０４では、音声合成部１０７が、応答文の読みから音声合成処理し、応答音声を生成する。以上で音声対話装置１００の動作を終了する。

次に、図７のステップＳ７０３に示す中間言語化部１０６の動作について具体例を挙げて説明する。ここでは、音声対話装置からユーザへの応答文「新千歳便は１７時です」の読みを推定する場合を想定する。

まず、応答文である「新千歳便は１７時です」を形態素解析し、単語列として「新千歳」「便」「は」「１７」「時」「です」を得る。そして各単語の読みを表記読みＤＢ１０４を参照して推定する。例えば、単語「便」の場合、現在の対話ステップの属するドメインを参照し、現在の対話ステップが属するドメインのうち最も下位にあるドメインのスコアを参照する。ここでは、対話ステップ「日時を確認」が属するドメインのうちの最も下位にあるドメインは、「旅行予約ドメイン」であるので、旅行予約ドメインの読み頻度スコアを参照する。図４を参照すると、旅行予約ドメインでは単語「便」に対し、読み４０２「べん」の読み頻度スコア４０３が１、読み４０２「びん」の読み頻度スコア４０３が４であるので、単語「便」の読みとして「びん」が推定される。他の単語に対しても同様に処理すればよい。

以上に示した第１の実施形態によれば、ユーザの発話の音声認識結果から作成した単語の表記と読みとを対応付けをドメインに対応付けてデータベースに格納することで、読み分けが必要な単語の読みの尤度情報を蓄積することができ、ドメインに応じて読み分けが可能となる。これによって、高精度に読みを推定することができる。

（第２の実施形態）
第２の実施形態では、読みの信頼度に応じて応答文の読みを画面に表示する点が異なる。

第２の実施形態に係る音声対話装置のブロック図について図８を参照して説明する。
第２の実施形態に係る音声対話装置８００は、音声認識部１０１、対話判定部１０２、シナリオＤＢ１０３、表記読みＤＢ１０４、応答文生成部１０５、音声合成部１０７、中間言語化部８０１および画像表示部８０２を含む。

音声認識部１０１、対話判定部１０２、シナリオＤＢ１０３、表記読みＤＢ１０４、応答文生成部１０５および音声合成部１０７は、第１の実施形態と同様の動作を行なうので、ここでの説明を省略する。

中間言語化部８０１は、応答文生成部１０５から応答文を受け取り、第１の実施形態と同様に応答文の読みを推定することに加え、応答文の読みが正しいかどうかを示す信頼度を算出し、信頼度に基づいて応答文を音声出力するか画像表示するかを決定する。

画像表示部８０２は、中間言語化部１０６から応答文を受け取り、ディスプレイに応答文の文字列を表示する。応答文を表示する際、応答文の表記文字列をそのまま表示してもよいし、画面に表示する際には応答文を変換して表示してもよい。例えば、応答文を音声で出力する場合は、口語調の文であることが多いため、画面に表示する際に書き言葉に変換して表示する。具体的には、応答文の文末が「〜だよ」という文であれば、「〜です」といった丁寧語に変換するといった手法を用いればよい。

次に、第２の実施形態に係る音声対話装置８００の動作について図９のブロック図を参照して説明する。
ステップＳ７０１からステップＳ７０４までの処理については、図７に示すステップと同様であるのでここでの説明は省略する。

ステップＳ９０１では、中間言語化部１０６が、応答文の読みに関する信頼度を算出する。信頼度の算出方法としては、例えば、表記読みＤＢ１０４に格納される読みの第１位と第２位とのスコア差を用いればよい。信頼度が閾値以上であれば、ステップＳ７０４に進み、信頼度が閾値未満であれば、ステップＳ９０２へ進む。

ステップＳ９０２では、応答文の読みの信頼度が低いと判定されているので、画像表示部８０２が、応答文の表記文字列を画面に表示する。以上で第２の実施形態にかかる音声対話装置８００の動作を終了する。

つぎに、信頼度の算出方法の具体例について説明する。図４に示す表記読みＤＢ１０４の場合、旅行予約ドメインにおける表記４０１「長田」の読みは、第１位の読み４０２が「おさだ」で読み頻度スコア４０３が３、第２位の読み４０２が「ながた」で読み頻度スコア４０３が２であるため、スコア差は１となる。ここで、応答文に含まれる単語の中で最も小さいスコア差を応答文の読みの推定信頼度とし、スコア差が２以下を推定信頼度が低いと定義した場合、応答文に「長田」が含まれれば、音声出力をせずに画像を出力する。なお、信頼度として、第１位の読みと第２位の読みとのスコアの比を用いてもよいし、信頼度が閾値未満であると判定された場合に、応答文の音声出力と画像表示とを両方行なってもよい。

以上に示した第２の実施形態によれば、信頼度に基づいて音声出力と画像表示とを選択することで、応答文を正確にユーザに伝えることができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述したデータ収集装置および音声対話装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態のデータ収集装置および音声対話装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００，８００・・・音声対話装置、１０１・・・音声認識部、１０２・・・対話判定部、１０３・・・シナリオデータベース（シナリオＤＢ）、１０４・・・表記読みデータベース（表記読みＤＢ）、１０５・・・応答文生成部、１０６，８０１・・・中間言語化部、１０７・・・音声合成部、２０１・・・対話全体ドメイン、２０２・・・百貨店案内ドメイン、２０３・・・旅行予約ドメイン、２５１〜２５５・・・ステップ、３００，４００・・・テーブル、３０１・・・ステップ名、３０２・・・応答文、３０３・・・遷移条件、３０４・・・遷移先ステップ、３０５・・・ドメイン、４０１・・・表記、４０２・・・読み、４０３・・・読み頻度スコア、８０２・・・画像表示部。

Claims

発話された音声を音声認識し、該音声に対応する表記文字列と該表記文字列の読みとを生成する音声認識部と、
前記表記文字列および前記表記文字列の読みの少なくともどちらか一方と音声対話で用いられるシナリオとを用いて前記音声対話が成功したかどうかを判定し、前記音声対話が成功したと判定した場合、前記表記文字列および前記表記文字列の読みの少なくともどちらか一方を更新する対話判定部と、
前記発話された音声に対する応答である応答文を生成する生成部と、
前記表記文字列および前記表記文字列の読みに基づいて、前記応答文の読みを得る中間言語化部と、
前記応答文の読みを用いて該応答文を音声合成し応答音声を生成する音声合成部と、を具備する音声対話装置。
前記対話判定部は、前記表記文字列の読みとしての確からしさを示すスコアを、前記表記文字列の読みに対して算出し、
前記中間言語化部は、前記スコアに基づいて前記応答文の読みを推定する請求項１に記載の音声対話装置。
画像を表示する表示部をさらに具備し、
前記中間言語化部は、前記スコアに基づいて前記応答文の読みの信頼度を算出し、
前記表示部は、前記信頼度が閾値未満であれば、前記応答文の文字列を表示する請求項２に記載の音声対話装置。
発話された音声を音声認識し、該音声に対応する表記文字列と該表記文字列の読みとを生成し、
前記表記文字列および前記表記文字列の読みの少なくともどちらか一方と音声対話で用いられるシナリオとを用いて前記音声対話が成功したかどうかを判定し、
前記音声対話が成功したと判定される場合、前記表記文字列および前記表記文字列の読みの少なくともどちらか一方を更新し、
前記発話された音声に対する応答である応答文を生成し、
前記表記文字列および前記表記文字列の読みに基づいて、前記応答文の読みを得、
前記応答文の読みを用いて該応答文を音声合成し応答音声を生成する音声対話方法。
コンピュータを、
発話された音声を音声認識し、該音声に対応する表記文字列と該表記文字列の読みとを生成する音声認識手段と、
前記表記文字列および前記表記文字列の読みの少なくともどちらか一方と音声対話で用いられるシナリオとを用いて前記音声対話が成功したかどうかを判定し、前記音声対話が成功したと判定される場合、前記表記文字列および前記表記文字列の読みの少なくともどちらか一方を更新する対話判定手段と、
前記発話された音声に対する応答である応答文を生成する生成手段と、
前記表記文字列および前記表記文字列の読みに基づいて、前記応答文の読みを得る中間言語化手段と、
前記応答文の読みを用いて該応答文を音声合成し応答音声を生成する音声合成手段として機能させるための音声対話プログラム。