JP2006113439A

JP2006113439A - 音声自動応答装置及びプログラム

Info

Publication number: JP2006113439A
Application number: JP2004302785A
Authority: JP
Inventors: Kumiko Omori; 久美子大森; Shohei Sugawara; 昌平菅原; Atsushi Endo; 淳遠藤
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2004-10-18
Filing date: 2004-10-18
Publication date: 2006-04-27

Abstract

【課題】入力音声について誤認識が生じた場合に、誤認識を解消するための適切な応答を行うことが可能な音声自動応答装置等を提供する。
【解決手段】音声自動応答装置１は、音声入力を受け付け、入力音声に対応する音声データを生成する音声入力部１１と、音声データについて音声認識処理を行う音声認識部１２と、音声認識部１２による音声認識処理において音声データの誤認識が生じた場合、音声入力の有無と、音声入力のタイミングと、発話音量と、発話速度と、発話長と、の少なくとも１つに基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを音声出力部１４から出力させる対話制御部１３と、を備える。
【選択図】図１

Description

この発明は、利用者の入力音声について音声認識を行い、認識結果に基づいた応答動作を行う音声自動応答装置に関する。

利用者から音声の入力を受け付け、これに対して自動応答を行う音声自動応答装置が知られている。音声自動応答装置には、利用者により入力された音声について音声認識を行い、認識結果に基づいた応答動作を行う音声自動応答装置もある。

例えば、操作者の熟練度、或るいは熟知度に応じて、口調、声色、発声速度、発声内容を適宜変更するような装置もある（特許文献１参照）。
特開平０９−２１２５６８号公報（第３，４頁、第１図）

従来の音声自動応答装置では、入力された音声データの認識処理において誤認識が生じた場合には、誤認識の要因が異なるケースであっても、再度入力を促す同一の応答メッセージを出力するものが殆どであった。このため、誤認識の要因に応じて、誤認識を解消するための適切な応答を行うことができなかった。

本発明は、上記実状に鑑みてなされたものであり、入力音声について誤認識が生じた場合に、誤認識を解消するための適切な応答を行うことが可能な音声自動応答装置等を提供することを目的とする。

上記目的を達成するため、この発明の第１の観点に係る音声自動応答装置は、
利用者の音声入力を受け付け、入力音声に対応する音声データを生成する音声入力手段と、
前記音声データについて音声認識処理を行う音声認識手段と、
前記音声認識手段による音声認識処理において音声データの誤認識が生じた場合、音声入力の有無と、音声入力のタイミングと、発話音量と、発話速度と、発話長と、の少なくとも１つに基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力する制御手段と、
を備える。

前記制御手段は、複数の誤認識要因を検出した場合、検出した複数の誤認識要因から一つの誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力してもよい。

過去に生じた誤認識について誤認識要因毎の誤認識回数を示す履歴データを記憶する履歴記憶手段をさらに備えてもよく、
前記制御手段は、前記履歴記憶手段に記憶される履歴データを参照し、誤認識要因を特定する手段をさらに備えてもよい。

前記履歴記憶手段に記憶される前記履歴データは、利用者毎の誤認識要因毎の誤認識回数を示してもよく、
前記制御手段は、前記利用者を識別するための識別情報に基づいて、前記利用者の履歴データを前記履歴情報記憶手段から読み出し、読み出した履歴データに基づいて、誤認識要因を特定してもよい。

また、この発明の第２の観点に係るプログラムは、
コンピュータを、
音声入力を受け付け、入力音声に対応する音声データを生成する音声入力手段、
前記音声データについて音声認識処理を行う音声認識手段、
前記音声認識手段による音声認識処理において音声データの誤認識が生じた場合、音声入力の有無と、音声入力のタイミングと、発話音量と、発話速度と、発話長と、の少なくとも１つに基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力する制御手段、
として機能させる。

本発明によれば、入力音声について誤認識が生じた場合に、誤認識を解消するための適切な応答を行うことができる。

以下、本発明の実施の形態に係る音声自動応答装置について図面を参照して説明する。本実施形態では、例えば、所定の複数の項目（例えば、氏名、住所、電話番号等）について利用者から音声入力を受け付ける装置を例に説明する。

本実施形態に係る音声自動応答装置は、例えば、マイク、Ａ／Ｄ変換器、スピーカ、Ｄ／Ａ変換器、ＣＰＵ、ＲＯＭ、ＲＡＭ、外部記憶装置、入力部等を備えるコンピュータから構成される。本実施形態に係る音声自動応答装置のブロック図を図１に示す。図示されるように、この音声自動応答装置１は、音声入力部１１、音声認識部１２、対話制御部１３、音声出力部１４、データベース１５、を備える。

音声入力部１１は、マイク、Ａ／Ｄ変換器などから実現され、利用者の音声の入力を受け付けて音声信号を生成し、音声信号をアナログ／デジタル変換した音声データを音声認識部１２に供給するとともに、音声データと、音声信号に基づいて取得した音量と発話速度のデータを対話制御部１３に供給する。

音声認識部１２は、ＣＰＵがハードディスク等の記憶装置から読み出したプログラムを実行することにより実現されるものである。音声認識部１２は、音声入力部１１からの音声データについて音声認識処理を行い、認識できたか否かを示す成否データと、認識できた場合の認識結果を示す認識結果データと、を対話制御部１３に供給する。音声認識処理では、例えば、音声認識部１２が、音声データから特徴量を抽出し、データベース１５における語彙データベース１５１に登録されている各単語の特徴量のパターンと比較して類似度を算出し、類似度が所定値以上の場合に、認識成功と判定し、類似度が最も大きい特徴量データを特定し、その特徴量データに関連付けられている単語を認識結果と判定する。そして、認識処理が成功したか否かを示す成否データと、認識結果データと、を対話制御部１３に供給する。

対話制御部１３は、ＣＰＵがハードディスク等の記憶装置から読み出したプログラムを実行することにより実現される。対話制御部１３は、状態判断部１３１、対話誘導部１３２、質問・応答管理部１３３を備える。

状態判断部１３１は、音声入力部１１から音声データ、音量データ、発話速度データなどを受け取り、「入力の有無」、「ガイダンスを最後まで聞いたか」、「発話音量が所定範囲内か」、「発話速度が所定範囲内か」、「発話長が所定範囲内か」、等のチェック項目についてそれぞれチェックを行い、各チェック結果（”ＯＫ”又は”ＮＧ”）のデータをＲＡＭ等のチェック結果記憶領域に記憶する。また、チェック結果として”ＮＧ”が設定された場合には、ＲＡＭ等に記憶されるカウンタ値（初期値＝０）に１だけ加算する。各項目についての具体的なチェック方法は任意である。「入力の有無」については、例えば、音声出力部１４にガイダンスの出力指示を出してから所定時間（例えば、１分など）が経過するまでに音声入力部１１において音声入力が検出された場合にはチェック結果として”ＯＫ”を設定し、検出されなかった場合にはチェック結果に”ＮＧ”を設定してもよい。また、「ガイダンスを最後まで聞いたか」については、音声入力部１１において検出した音声入力のタイミングが、音声出力部１４によるガイダンスの出力完了時よりも前かを判別し、前の場合にはチェック結果に”ＮＧ”を設定し、後の場合にはチェック結果に”ＯＫ”を設定してもよい。また、「発話音量が所定範囲内か」と「発話速度が所定範囲内か」については、音声入力部１１から受け取った各値が、予め設定された下限値以上且つ上限値以下であるかをチェックし、これを満たす場合にはチェック結果に”ＯＫ”を設定し、満たさない場合にはチェック結果に”ＮＧ”を設定してもよい。また、「発話長が所定範囲内か」については、音声入力部１１により検出された音声入力の開始時から終了時までの時間が、予め設定された下限値以上且つ上限値以下であるかをチェックし、これを満たす場合にはチェック結果に”ＯＫ”を設定し、満たさない場合にはチェック結果に”ＮＧ”を設定してもよい。

また、状態判断部１３１は、音声認識部１２から、成否データや認識結果データを受け取り、成否データが認識成功を示す場合、認識結果データを外部記憶装置に記憶し、成否データを対話誘導部１３２に供給する。また、成否データが失敗、即ち誤認識を示す場合、チェック結果記憶領域に記憶されている各チェック結果に基づいて誤認識要因を特定し、特定した誤認識要因の情報と成否データとを対話誘導部１３２に供給する。誤認識要因を特定する処理では、チェック結果”ＮＧ”が設定されている項目に対応する要因を誤認識要因とみなす。例えば、チェック項目「入力の有無」には要因「入力が無い」が対応し、チェック項目「ガイダンスを最後まで聞いたか」には、要因「ガイダンスを最後まで聞いていない」が対応し、チェック項目「発話音量が所定範囲内か」には要因「発話音量が不適正」が対応し、チェック項目「発話速度が所定範囲内か」には要因「発話速度が不適正」が対応し、チェック項目「発話長が所定範囲内か」には要因「発話長が不適正」が対応する。誤認識要因が複数ある場合にはそれらの中から１つの要因を選択して特定する。具体的な特定方法としては、例えば、利用者情報データベース１５３に記憶された履歴データを用いてもよい。履歴データは、各利用者について、過去の誤認識回数を利用者毎、要因毎に集計したデータであり、この履歴データを参照し、誤認識の回数が最も多い誤認識要因を選択してもよい。履歴データの一例を図２に示す。また、利用者の履歴データが存在しない場合には、利用者情報データベース１５３に登録されている全履歴データに基づいて誤認識要因を決定してもよい（例えば、全利用者についての要因毎の合計値が最も多い誤認識要因を選択する等）。また、成否データが誤認識を示す場合であって、いずれのチェック結果にも”ＮＧ”が設定されていない場合には、例えば、利用者情報データベース１５３を参照し、その利用者の履歴データにおいて、誤認識の回数が最も多い誤認識要因を選択してもよく、利用者の履歴データが存在しない場合には、利用者情報データベース１５３に登録されている全履歴データに基づいて誤認識要因を決定してもよい（例えば、全利用者についての要因毎の合計値が最も多い誤認識要因を選択する等）。なお、音声入力が無かった場合には、「入力の有無」以外の各チェック項目についてのチェックは不要であるため、「入力の有無」について入力が無いと判定された場合には、この項目に対応する要因を誤認識要因と特定し、他のチェックは行わなくてもよい。

また、状態判断部１３１は、音声データについて誤認識が生じた場合に、各チェック項目のチェック結果に基づいて、利用者情報データベース１５３の履歴データを更新する。具体的には、対話制御部１３は、履歴データにおいて、入力された利用者ＩＤに対応する履歴データを読み出し、読み出した履歴データについて、入力項目名と、チェック結果が示す誤認識要因と、に対応するデータ値（誤認識回数）に１を加算して記憶更新する。これにより、各利用者の誤認識の回数を要因毎に計数する。

対話誘導部１３２は、データベース１５における対話シナリオデータベース１５４に登録されているシナリオデータと、音声認識処理の成否と、に基づいて、次に出力するガイダンスに関する情報を質問・応答管理部１３３に通知する。シナリオデータは、例えば図３に示すように、入力対象の項目について、入力の順番等のデータを示す。対話誘導部１３２は、状態判断部１３１からの成否データが成功を示す場合、シナリオデータにおける入力の順番に従って、次の入力項目を質問・応答管理部１３３に通知する。また、成否データが失敗を示す場合、誤認識要因を質問・応答管理部１３３に通知する。

質問・応答管理部１３３は、対話誘導部１３２からの通知に応答して、その通知に対応するガイダンスの音声データをデータベース１５の状態対応データベース１５２や対話シナリオデータベース１５４から読み出して音声出力部１４に供給する。例えば、入力項目を示す通知を受けた場合には、その入力項目に対応するガイダンスの音声データ（例えば「ピーという音の後に○○を入力してください」など）を対話シナリオデータベース１５４から読み出して音声出力部１４に供給する。また、誤認識要因を示す通知を受けた場合には、その誤認識要因に対応するガイダンスの音声データを状態対応データベース１５２から読み出して音声出力部１４に供給する。各誤認識要因に対応付けて登録されているガイダンスデータの内容の一例を図４に示す。

音声出力部１４は、スピーカ、Ｄ／Ａ変換器などから実現され、対話制御部１３からの音声データをデジタル／アナログ変換し、スピーカから出力させる。

データベース１５は、ハードディスク装置等の記憶装置から実現され、語彙データベース１５１、状態対応データベース１５２、利用者情報データベース１５３、対話シナリオデータベース１５４を備える。
語彙データベース１５１は、各種語彙について、音声データの特徴量パターンと、文字データと、が関連付けて登録されている。
状態対応データベース１５２は、各誤認識要因にそれぞれ対応するガイダンスの音声データ（ガイダンスデータ）を記憶する。
利用者情報データベース１５３は、各利用者について過去の誤認識の回数を要因毎に示す履歴データ（図２参照）が登録されている。なお、履歴データは、全利用者について要因毎の誤認識回数の合計値データを含む。
対話シナリオデータベース１５４は、各入力項目について、項目名と入力の順番とを示すシナリオデータ（図３参照）を記憶する。また、対話シナリオデータベース１５４は、各入力項目に対応するガイダンスデータを記憶する。

次に、本発明の実施形態に係る音声自動応答装置１による音声自動応答処理について図５のフローチャートを参照して説明する。本処理の実行タイミングは任意であり、例えば、所定のキーが押下されるなど、入力部から本処理の実行要求が入力されたことに応じて実行されてもよい。

まず、対話制御部１３は、メモリの各カウンタ値を”０”に設定するなどの所定の初期化処理を行い（ステップＳ１）、対話シナリオデータベース１５４のシナリオデータを参照して、入力順番に基づいて入力項目を特定し、特定した入力項目に対応する音声ガイダンスを音声出力部１４を介して出力させる（ステップＳ２）。一方、音声入力部１１は、音声の入力を受け付けた場合、音声信号についてアナログ／デジタル変換を行った音声データを音声認識部１２に供給し、音声データ、音量データ、発話速度データを対話制御部１３に供給する。

対話制御部１３は、音声入力があったかを判定する（ステップＳ３）。音声入力部１１から音声データなどを受け取ると、音声入力があったと判定し（ステップＳ３：ＹＥＳ）、チェック結果”ＯＫ”を記憶してステップＳ４に進む。また、音声入力がなかった場合には、チェック結果”ＮＧ”を記憶して、後述する要因特定処理のステップＳ２３に進む。

ステップＳ４では、入力された音声の発話長が所定範囲内かを判定する。発話長が所定範囲内の場合（ステップＳ４：ＹＥＳ）、チェック結果”ＯＫ”を記憶してステップＳ６に進む。また、発話長が所定範囲内にない場合（ステップＳ４：ＮＯ）、チェック結果”ＮＧ”を記憶して、カウンタ値に１だけ加算して更新し（ステップＳ５）、ステップＳ６に進む。

ステップＳ６では、対話制御部１３は、発話音量が所定範囲内かを判定する。発話音量が所定範囲内の場合（ステップＳ６：ＹＥＳ）、チェック結果”ＯＫ”を記憶してステップＳ８に進む。また、発話音量が所定範囲内にない場合（ステップＳ６：ＮＯ）、チェック結果”ＮＧ”を記憶して、カウンタ値に１だけ加算して更新し（ステップＳ７）、ステップＳ８に進む。
ステップＳ８では、対話制御部１３は、発話速度が所定範囲内かを判定する。発話速度が所定範囲内の場合（ステップＳ８：ＹＥＳ）、チェック結果”ＯＫ”を記憶してステップＳ１０に進む。また、発話速度が所定範囲内にない場合（ステップＳ８：ＮＯ）、チェック結果”ＮＧ”を記憶して、カウンタ値に１だけ加算して更新し（ステップＳ９）、ステップＳ１０に進む。
ステップＳ１０では、対話制御部１３は、利用者がガイダンスを最後まで聞いたかを判定する。最後まで聞いた場合（ステップＳ１０：ＹＥＳ）、チェック結果”ＯＫ”を記憶してステップＳ１２に進む。また、最後まで聞いていない場合（ステップＳ１０：ＮＯ）、カウンタ値に１だけ加算して更新し（ステップＳ１１）、ステップＳ１２に進む。

ステップＳ１２では、対話制御部１３は、音声入力された項目について音声認識結果がＯＫか否かを判定する。具体的には、音声認識部１２からの成否データがＯＫを示すかを判定する。そして、認識結果がＯＫの場合（ステップＳ１２：ＹＥＳ）、対話制御部１３は、認識結果データを記憶し（ステップＳ１３）、対話シナリオデータベース１５４のシナリオデータを参照して、全項目の入力が完了したかを判定する（ステップＳ１４）。全項目の入力が完了していない場合（ステップＳ１４：ＮＯ）、シナリオデータに基づいて次の入力項目を特定し、ステップＳ２に戻って、次の入力項目のガイダンスを出力させて、音声入力を受け付ける処理を行う。

また、全項目の入力が完了した場合（ステップＳ１４：ＹＥＳ）、所定の最終処理（例えば、入力が完了したなどの音声メッセージを出力する等）を行って（ステップＳ１５）、本処理を終了する。

また、ステップＳ１２において、音声認識処理の結果がＮＧの場合（ステップＳ１２：ＮＯ）、対話制御部１３は、要因特定処理を行って誤認識要因を特定し（ステップＳ１６）、ステップＳ１に戻って、特定された誤認識要因に対応するガイダンスを出力させて、音声入力を再度受け付ける処理を行う。

要因特定処理について図６のフローチャートを参照して説明する。
対話制御部１３は、カウンタ値が”１”かを判別し（ステップＳ２１）、カウンタ値が”１”の場合（ステップＳ２１：ＹＥＳ）、チェック結果に”ＮＧ”が設定されている項目に対応する誤認識要因を特定し（ステップＳ２２）、利用者情報データベース１５３を更新して（ステップＳ２３）、メインフローに戻る。

また、カウンタ値が”１”でない場合（ステップＳ２１：ＮＯ）、対話制御部１３は、カウンタ値が”０”かを判別する（ステップＳ２４）。
カウンタ値が”０”でない場合、すなわち、チェック結果”ＮＧ”のチェック項目が複数ある場合、（ステップＳ２４：ＮＯ）、先に入力された利用者ＩＤに対応する履歴データが利用者情報データベース１５３に存在するかを判別する（ステップＳ２５）。
該当する履歴データが存在する場合（ステップＳ２５：ＹＥＳ）、複数の誤認識要因（チェック結果”ＮＧ”のチェック項目に対応する誤認識要因）のうち、履歴データにおいて誤認識回数が最も多い誤認識要因を特定する（ステップＳ２６）。そして、ステップＳ２３に進んで利用者情報データベース１５３の更新を行い、メインフローに戻る。また、該当する履歴データが存在しない場合（ステップＳ２５：ＮＯ）、例えば、履歴データにおける、全利用者の要因毎の誤認識回数の合計値のデータを参照し、検出された複数の誤認識要因のうち、誤認識回数が最も多い誤認識要因を特定し（ステップＳ２７）、ステップＳ２３に進み、利用者情報データベース１５３の更新を行い（この場合、利用者の履歴データがないため、利用者ＩＤに基づいて履歴データを生成し、各誤認識要因の回数の値に１だけ加算して更新する）、メインフローに戻る。

また、ステップＳ２４においてカウンタ値が”０”の場合、すなわち、チェック結果”ＮＧ”のチェック項目が無い場合（ステップＳ２４：ＹＥＳ）、対話制御部１３は、先に入力された利用者ＩＤに対応する履歴データが利用者情報データベース１５３に存在するかを判別する（ステップＳ２８）。
該当する履歴データが存在する場合（ステップＳ２８：ＹＥＳ）、履歴データにおいて誤認識回数が最も多い誤認識要因を特定し（ステップＳ２９）、メインフローに戻る。また、該当する履歴データが存在しない場合（ステップＳ２８：ＮＯ）、例えば、履歴データにおける、全利用者の要因毎の誤認識回数の合計値のデータを参照し、誤認識回数が最も多い誤認識要因を特定し（ステップＳ３０）、メインフローに戻る。

以上説明したように、本発明によれば、音声自動応答装置が、音声入力において、音声入力の有無、音声入力のタイミング、発話音量、発話速度、発話長等に関するチェックを行い、チェック結果に基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力することにより、誤認識を解消するための適切な対応動作をとることができる。また、各利用者の誤認識要因の履歴データを用いることにより、個人の特性を考慮して誤認識要因を特定することができる。これにより、単に再発話の要求、再提示を何度も繰り返すことがなくなり、システムの要求に合致した再発話が自然になされる方向へ利用者を導くことができる。また、これにより、音声インタフェースのユーザビリティ向上に繋がると同時に、年齢や性別などの個人特性に合わせたユニバーサルなサービス提供が可能となる。

なお、本発明は種々の変形及び応用が可能である。
上記実施形態では、例えば、氏名、住所、電話番号等について利用者から音声入力を受け付ける装置を例に説明したが、入力項目等はこれに限定されず任意であり、種々の入力項目に適用可能である。例えば、商品やサービスの購入に関する情報の音声入力を受け付ける装置に適用してもよい。

また、上記実施形態に係る音声自動応答装置が、公衆回線、インターネット等に接続し、各種ネットワークを介して音声信号を受信し、受信した音声信号について上述の音声認識処理、音声自動応答処理を行ってもよい。この場合、音声自動応答装置は、ネットワークを介して通信を行うための通信制御部を備える。音声自動応答装置の通信制御部は、電話機等の端末から送信される音声信号をネットワークを介して受信し、音声入力部１１に渡して、上述の音声認識処理、音声自動応答処理等を行ってもよい。そして音声出力部１４がガイダンスの音声信号を通信制御部に渡して、ネットワークを介して利用者の端末等に送信してもよい。

なお、誤認識要因を特定する方法は上述した履歴データを用いる方法に限定されず任意である。例えば、複数の誤認識要因について優先度を設定しておき、この優先度に基づいて特定してもよい。例えば、誤認識要因の優先度を、入力が無い＞発話長が不適切＞発話音量が不適切＞発話速度が不適切＞ガイダンスを最後まで聞いていない、の順で設定した場合で、「発話長が不適切」、「発話速度が不適切」、「ガイダンスを最後まで聞いていない」の誤認識要因が検知されたときには、優先度のデータに従って、「発話長が不適切」の誤認識要因が選択される。
また、上記実施形態では、複数の誤認識要因がある場合、その中から一の誤認識要因を特定するために、利用者の履歴データがある場合に、その履歴データにおいて誤認識回数が最多の誤認識要因を選択するようにしているが、このときに、入力項目に対応する履歴データの中から、誤認識回数が最多の誤認識要因を選択してもよい。また、利用者の履歴データがない場合に、全利用者の要因毎の誤認識回数の合計値のデータを用いて、誤認識回数が最多の誤認識要因を選択しているが、このときに、入力項目に対応する合計値データから、誤認識回数が最多の誤認識要因を選択してもよい。

また、上記実施形態では、誤認識要因がない場合、一の誤認識要因を特定するために、利用者の履歴データがある場合に、その履歴データにおいて誤認識回数が最多の誤認識要因を選択するようにしているが、このときに、入力項目に対応する履歴データの中から、誤認識回数が最多の誤認識要因を選択してもよい。また、利用者の履歴データがない場合に、全利用者の要因毎の誤認識回数の合計値のデータを用いて、誤認識回数が最多の誤認識要因を選択しているが、このときに、入力項目に対応する合計値データから、誤認識回数が最多の誤認識要因を選択してもよい。
また、各利用者の操作履歴に関する値（例えば、利用回数等）のデータを記憶しておき、その値が閾値以上の場合には、誤認識要因の特定において、履歴データを用いることとし、閾値以下の場合には、上記の優先度を用いるようにしてもよい。
また、同一の入力項目についての２回以降の入力においては、誤認識要因の特定する際、前回の入力について検知された誤認識要因と重複するものがあれば、それを優先するようにしてもよい。重複する誤認識要因が複数ある場合には、上述のように、優先度や履歴データを用いて一の誤認識要因を特定してもよい。

また、ガイダンスを表示部に文字で表示するようにしてもよい。この場合、音声自動応答装置は、表示部をさらに備え、状態対応データベース１５２や対話シナリオデータベース１５４にはガイダンスのテキストデータ等が記憶されている。対話制御部１３は、上述のようにして、次に出力すべきガイダンスを特定すると、それに対応するテキストデータ等を読み出して、表示部に表示してもよい。

なお、この発明のシステムは、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、上述の動作を実行するためのプログラムをコンピュータ読み取り可能な記録媒体（ＦＤ、ＣＤ−ＲＯＭ、ＤＶＤ等）に格納して配布し、該プログラムを、音声入力装置と音声出力装置等が接続されたコンピュータにインストールすることにより、上述の処理を実行する音声自動応答装置を構成してもよい。また、インターネット等のネットワーク上のサーバ装置が有するディスク装置に格納しておき、音声入力装置と音声出力装置が接続されたコンピュータにダウンロード等するようにしてもよい。
また、上述の機能を、ＯＳが分担又はＯＳとアプリケーションの共同により実現する場合等には、ＯＳ以外の部分のみを媒体に格納して配布してもよく、また、コンピュータにダウンロード等してもよい。

本発明の実施形態の音声自動応答装置のブロック図である。履歴データの一例を示す図である。シナリオデータの一例を示す図である。各誤認識要因に対応付けて登録されているガイダンスデータの内容の一例を示す図である。音声自動応答処理を説明するためのフローチャートである。要因特定処理を説明するためのフローチャートである。

符号の説明

１音声自動応答装置
１１音声入力部
１２音声認識部
１３対話制御部
１４音声出力部
１５データベース
１３１状態判断部
１３２対話誘導部
１３３質問・応答管理部
１５１語彙データベース
１５２状態対応データベース
１５３利用者情報データベース
１５４対話シナリオデータベース

Claims

利用者の音声入力を受け付け、入力音声に対応する音声データを生成する音声入力手段と、
前記音声データについて音声認識処理を行う音声認識手段と、
前記音声認識手段による音声認識処理において音声データの誤認識が生じた場合、音声入力の有無と、音声入力のタイミングと、発話音量と、発話速度と、発話長と、の少なくとも１つに基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力する制御手段と、
を備える音声自動応答装置。
前記制御手段は、複数の誤認識要因を検出した場合、検出した複数の誤認識要因から一つの誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力する、
ことを特徴とする請求項１に記載の音声自動応答装置。
過去に生じた誤認識について誤認識要因毎の誤認識回数を示す履歴データを記憶する履歴記憶手段をさらに備え、
前記制御手段は、前記履歴記憶手段に記憶される履歴データを参照し、誤認識要因を特定する手段をさらに備える、
ことを特徴とする請求項１又は２に記載の音声自動応答装置。
前記履歴記憶手段に記憶される前記履歴データは、利用者毎の誤認識要因毎の誤認識回数を示し、
前記制御手段は、前記利用者を識別するための識別情報に基づいて、前記利用者の履歴データを前記履歴情報記憶手段から読み出し、読み出した履歴データに基づいて、誤認識要因を特定する、
ことを特徴とする請求項３に記載の音声自動応答装置。
コンピュータを、
音声入力を受け付け、入力音声に対応する音声データを生成する音声入力手段、
前記音声データについて音声認識処理を行う音声認識手段、
前記音声認識手段による音声認識処理において音声データの誤認識が生じた場合、音声入力の有無と、音声入力のタイミングと、発話音量と、発話速度と、発話長と、の少なくとも１つに基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力する制御手段、
として機能させるためのプログラム。