JP2006113439A - 音声自動応答装置及びプログラム - Google Patents

音声自動応答装置及びプログラム Download PDF

Info

Publication number
JP2006113439A
JP2006113439A JP2004302785A JP2004302785A JP2006113439A JP 2006113439 A JP2006113439 A JP 2006113439A JP 2004302785 A JP2004302785 A JP 2004302785A JP 2004302785 A JP2004302785 A JP 2004302785A JP 2006113439 A JP2006113439 A JP 2006113439A
Authority
JP
Japan
Prior art keywords
speech
voice
input
misrecognition
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004302785A
Other languages
English (en)
Inventor
Kumiko Omori
久美子 大森
Shohei Sugawara
昌平 菅原
Atsushi Endo
淳 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2004302785A priority Critical patent/JP2006113439A/ja
Publication of JP2006113439A publication Critical patent/JP2006113439A/ja
Pending legal-status Critical Current

Links

Images

Abstract


【課題】 入力音声について誤認識が生じた場合に、誤認識を解消するための適切な応答を行うことが可能な音声自動応答装置等を提供する。
【解決手段】 音声自動応答装置1は、音声入力を受け付け、入力音声に対応する音声データを生成する音声入力部11と、音声データについて音声認識処理を行う音声認識部12と、音声認識部12による音声認識処理において音声データの誤認識が生じた場合、音声入力の有無と、音声入力のタイミングと、発話音量と、発話速度と、発話長と、の少なくとも1つに基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを音声出力部14から出力させる対話制御部13と、を備える。
【選択図】 図1

Description

この発明は、利用者の入力音声について音声認識を行い、認識結果に基づいた応答動作を行う音声自動応答装置に関する。
利用者から音声の入力を受け付け、これに対して自動応答を行う音声自動応答装置が知られている。音声自動応答装置には、利用者により入力された音声について音声認識を行い、認識結果に基づいた応答動作を行う音声自動応答装置もある。
例えば、操作者の熟練度、或るいは熟知度に応じて、口調、声色、発声速度、発声内容を適宜変更するような装置もある(特許文献1参照)。
特開平09−212568号公報(第3,4頁、第1図)
従来の音声自動応答装置では、入力された音声データの認識処理において誤認識が生じた場合には、誤認識の要因が異なるケースであっても、再度入力を促す同一の応答メッセージを出力するものが殆どであった。このため、誤認識の要因に応じて、誤認識を解消するための適切な応答を行うことができなかった。
本発明は、上記実状に鑑みてなされたものであり、入力音声について誤認識が生じた場合に、誤認識を解消するための適切な応答を行うことが可能な音声自動応答装置等を提供することを目的とする。
上記目的を達成するため、この発明の第1の観点に係る音声自動応答装置は、
利用者の音声入力を受け付け、入力音声に対応する音声データを生成する音声入力手段と、
前記音声データについて音声認識処理を行う音声認識手段と、
前記音声認識手段による音声認識処理において音声データの誤認識が生じた場合、音声入力の有無と、音声入力のタイミングと、発話音量と、発話速度と、発話長と、の少なくとも1つに基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力する制御手段と、
を備える。
前記制御手段は、複数の誤認識要因を検出した場合、検出した複数の誤認識要因から一つの誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力してもよい。
過去に生じた誤認識について誤認識要因毎の誤認識回数を示す履歴データを記憶する履歴記憶手段をさらに備えてもよく、
前記制御手段は、前記履歴記憶手段に記憶される履歴データを参照し、誤認識要因を特定する手段をさらに備えてもよい。
前記履歴記憶手段に記憶される前記履歴データは、利用者毎の誤認識要因毎の誤認識回数を示してもよく、
前記制御手段は、前記利用者を識別するための識別情報に基づいて、前記利用者の履歴データを前記履歴情報記憶手段から読み出し、読み出した履歴データに基づいて、誤認識要因を特定してもよい。
また、この発明の第2の観点に係るプログラムは、
コンピュータを、
音声入力を受け付け、入力音声に対応する音声データを生成する音声入力手段、
前記音声データについて音声認識処理を行う音声認識手段、
前記音声認識手段による音声認識処理において音声データの誤認識が生じた場合、音声入力の有無と、音声入力のタイミングと、発話音量と、発話速度と、発話長と、の少なくとも1つに基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力する制御手段、
として機能させる。
本発明によれば、入力音声について誤認識が生じた場合に、誤認識を解消するための適切な応答を行うことができる。
以下、本発明の実施の形態に係る音声自動応答装置について図面を参照して説明する。本実施形態では、例えば、所定の複数の項目(例えば、氏名、住所、電話番号等)について利用者から音声入力を受け付ける装置を例に説明する。
本実施形態に係る音声自動応答装置は、例えば、マイク、A/D変換器、スピーカ、D/A変換器、CPU、ROM、RAM、外部記憶装置、入力部等を備えるコンピュータから構成される。本実施形態に係る音声自動応答装置のブロック図を図1に示す。図示されるように、この音声自動応答装置1は、音声入力部11、音声認識部12、対話制御部13、音声出力部14、データベース15、を備える。
音声入力部11は、マイク、A/D変換器などから実現され、利用者の音声の入力を受け付けて音声信号を生成し、音声信号をアナログ/デジタル変換した音声データを音声認識部12に供給するとともに、音声データと、音声信号に基づいて取得した音量と発話速度のデータを対話制御部13に供給する。
音声認識部12は、CPUがハードディスク等の記憶装置から読み出したプログラムを実行することにより実現されるものである。音声認識部12は、音声入力部11からの音声データについて音声認識処理を行い、認識できたか否かを示す成否データと、認識できた場合の認識結果を示す認識結果データと、を対話制御部13に供給する。音声認識処理では、例えば、音声認識部12が、音声データから特徴量を抽出し、データベース15における語彙データベース151に登録されている各単語の特徴量のパターンと比較して類似度を算出し、類似度が所定値以上の場合に、認識成功と判定し、類似度が最も大きい特徴量データを特定し、その特徴量データに関連付けられている単語を認識結果と判定する。そして、認識処理が成功したか否かを示す成否データと、認識結果データと、を対話制御部13に供給する。
対話制御部13は、CPUがハードディスク等の記憶装置から読み出したプログラムを実行することにより実現される。対話制御部13は、状態判断部131、対話誘導部132、質問・応答管理部133を備える。
状態判断部131は、音声入力部11から音声データ、音量データ、発話速度データなどを受け取り、「入力の有無」、「ガイダンスを最後まで聞いたか」、「発話音量が所定範囲内か」、「発話速度が所定範囲内か」、「発話長が所定範囲内か」、等のチェック項目についてそれぞれチェックを行い、各チェック結果(”OK”又は”NG”)のデータをRAM等のチェック結果記憶領域に記憶する。また、チェック結果として”NG”が設定された場合には、RAM等に記憶されるカウンタ値(初期値=0)に1だけ加算する。各項目についての具体的なチェック方法は任意である。「入力の有無」については、例えば、音声出力部14にガイダンスの出力指示を出してから所定時間(例えば、1分など)が経過するまでに音声入力部11において音声入力が検出された場合にはチェック結果として”OK”を設定し、検出されなかった場合にはチェック結果に”NG”を設定してもよい。また、「ガイダンスを最後まで聞いたか」については、音声入力部11において検出した音声入力のタイミングが、音声出力部14によるガイダンスの出力完了時よりも前かを判別し、前の場合にはチェック結果に”NG”を設定し、後の場合にはチェック結果に”OK”を設定してもよい。また、「発話音量が所定範囲内か」と「発話速度が所定範囲内か」については、音声入力部11から受け取った各値が、予め設定された下限値以上且つ上限値以下であるかをチェックし、これを満たす場合にはチェック結果に”OK”を設定し、満たさない場合にはチェック結果に”NG”を設定してもよい。また、「発話長が所定範囲内か」については、音声入力部11により検出された音声入力の開始時から終了時までの時間が、予め設定された下限値以上且つ上限値以下であるかをチェックし、これを満たす場合にはチェック結果に”OK”を設定し、満たさない場合にはチェック結果に”NG”を設定してもよい。
また、状態判断部131は、音声認識部12から、成否データや認識結果データを受け取り、成否データが認識成功を示す場合、認識結果データを外部記憶装置に記憶し、成否データを対話誘導部132に供給する。また、成否データが失敗、即ち誤認識を示す場合、チェック結果記憶領域に記憶されている各チェック結果に基づいて誤認識要因を特定し、特定した誤認識要因の情報と成否データとを対話誘導部132に供給する。誤認識要因を特定する処理では、チェック結果”NG”が設定されている項目に対応する要因を誤認識要因とみなす。例えば、チェック項目「入力の有無」には要因「入力が無い」が対応し、チェック項目「ガイダンスを最後まで聞いたか」には、要因「ガイダンスを最後まで聞いていない」が対応し、チェック項目「発話音量が所定範囲内か」には要因「発話音量が不適正」が対応し、チェック項目「発話速度が所定範囲内か」には要因「発話速度が不適正」が対応し、チェック項目「発話長が所定範囲内か」には要因「発話長が不適正」が対応する。誤認識要因が複数ある場合にはそれらの中から1つの要因を選択して特定する。具体的な特定方法としては、例えば、利用者情報データベース153に記憶された履歴データを用いてもよい。履歴データは、各利用者について、過去の誤認識回数を利用者毎、要因毎に集計したデータであり、この履歴データを参照し、誤認識の回数が最も多い誤認識要因を選択してもよい。履歴データの一例を図2に示す。また、利用者の履歴データが存在しない場合には、利用者情報データベース153に登録されている全履歴データに基づいて誤認識要因を決定してもよい(例えば、全利用者についての要因毎の合計値が最も多い誤認識要因を選択する等)。また、成否データが誤認識を示す場合であって、いずれのチェック結果にも”NG”が設定されていない場合には、例えば、利用者情報データベース153を参照し、その利用者の履歴データにおいて、誤認識の回数が最も多い誤認識要因を選択してもよく、利用者の履歴データが存在しない場合には、利用者情報データベース153に登録されている全履歴データに基づいて誤認識要因を決定してもよい(例えば、全利用者についての要因毎の合計値が最も多い誤認識要因を選択する等)。なお、音声入力が無かった場合には、「入力の有無」以外の各チェック項目についてのチェックは不要であるため、「入力の有無」について入力が無いと判定された場合には、この項目に対応する要因を誤認識要因と特定し、他のチェックは行わなくてもよい。
また、状態判断部131は、音声データについて誤認識が生じた場合に、各チェック項目のチェック結果に基づいて、利用者情報データベース153の履歴データを更新する。具体的には、対話制御部13は、履歴データにおいて、入力された利用者IDに対応する履歴データを読み出し、読み出した履歴データについて、入力項目名と、チェック結果が示す誤認識要因と、に対応するデータ値(誤認識回数)に1を加算して記憶更新する。これにより、各利用者の誤認識の回数を要因毎に計数する。
対話誘導部132は、データベース15における対話シナリオデータベース154に登録されているシナリオデータと、音声認識処理の成否と、に基づいて、次に出力するガイダンスに関する情報を質問・応答管理部133に通知する。シナリオデータは、例えば図3に示すように、入力対象の項目について、入力の順番等のデータを示す。対話誘導部132は、状態判断部131からの成否データが成功を示す場合、シナリオデータにおける入力の順番に従って、次の入力項目を質問・応答管理部133に通知する。また、成否データが失敗を示す場合、誤認識要因を質問・応答管理部133に通知する。
質問・応答管理部133は、対話誘導部132からの通知に応答して、その通知に対応するガイダンスの音声データをデータベース15の状態対応データベース152や対話シナリオデータベース154から読み出して音声出力部14に供給する。例えば、入力項目を示す通知を受けた場合には、その入力項目に対応するガイダンスの音声データ(例えば「ピーという音の後に○○を入力してください」など)を対話シナリオデータベース154から読み出して音声出力部14に供給する。また、誤認識要因を示す通知を受けた場合には、その誤認識要因に対応するガイダンスの音声データを状態対応データベース152から読み出して音声出力部14に供給する。各誤認識要因に対応付けて登録されているガイダンスデータの内容の一例を図4に示す。
音声出力部14は、スピーカ、D/A変換器などから実現され、対話制御部13からの音声データをデジタル/アナログ変換し、スピーカから出力させる。
データベース15は、ハードディスク装置等の記憶装置から実現され、語彙データベース151、状態対応データベース152、利用者情報データベース153、対話シナリオデータベース154を備える。
語彙データベース151は、各種語彙について、音声データの特徴量パターンと、文字データと、が関連付けて登録されている。
状態対応データベース152は、各誤認識要因にそれぞれ対応するガイダンスの音声データ(ガイダンスデータ)を記憶する。
利用者情報データベース153は、各利用者について過去の誤認識の回数を要因毎に示す履歴データ(図2参照)が登録されている。なお、履歴データは、全利用者について要因毎の誤認識回数の合計値データを含む。
対話シナリオデータベース154は、各入力項目について、項目名と入力の順番とを示すシナリオデータ(図3参照)を記憶する。また、対話シナリオデータベース154は、各入力項目に対応するガイダンスデータを記憶する。
次に、本発明の実施形態に係る音声自動応答装置1による音声自動応答処理について図5のフローチャートを参照して説明する。本処理の実行タイミングは任意であり、例えば、所定のキーが押下されるなど、入力部から本処理の実行要求が入力されたことに応じて実行されてもよい。
まず、対話制御部13は、メモリの各カウンタ値を”0”に設定するなどの所定の初期化処理を行い(ステップS1)、対話シナリオデータベース154のシナリオデータを参照して、入力順番に基づいて入力項目を特定し、特定した入力項目に対応する音声ガイダンスを音声出力部14を介して出力させる(ステップS2)。一方、音声入力部11は、音声の入力を受け付けた場合、音声信号についてアナログ/デジタル変換を行った音声データを音声認識部12に供給し、音声データ、音量データ、発話速度データを対話制御部13に供給する。
対話制御部13は、音声入力があったかを判定する(ステップS3)。音声入力部11から音声データなどを受け取ると、音声入力があったと判定し(ステップS3:YES)、チェック結果”OK”を記憶してステップS4に進む。また、音声入力がなかった場合には、チェック結果”NG”を記憶して、後述する要因特定処理のステップS23に進む。
ステップS4では、入力された音声の発話長が所定範囲内かを判定する。発話長が所定範囲内の場合(ステップS4:YES)、チェック結果”OK”を記憶してステップS6に進む。また、発話長が所定範囲内にない場合(ステップS4:NO)、チェック結果”NG”を記憶して、カウンタ値に1だけ加算して更新し(ステップS5)、ステップS6に進む。
ステップS6では、対話制御部13は、発話音量が所定範囲内かを判定する。発話音量が所定範囲内の場合(ステップS6:YES)、チェック結果”OK”を記憶してステップS8に進む。また、発話音量が所定範囲内にない場合(ステップS6:NO)、チェック結果”NG”を記憶して、カウンタ値に1だけ加算して更新し(ステップS7)、ステップS8に進む。
ステップS8では、対話制御部13は、発話速度が所定範囲内かを判定する。発話速度が所定範囲内の場合(ステップS8:YES)、チェック結果”OK”を記憶してステップS10に進む。また、発話速度が所定範囲内にない場合(ステップS8:NO)、チェック結果”NG”を記憶して、カウンタ値に1だけ加算して更新し(ステップS9)、ステップS10に進む。
ステップS10では、対話制御部13は、利用者がガイダンスを最後まで聞いたかを判定する。最後まで聞いた場合(ステップS10:YES)、チェック結果”OK”を記憶してステップS12に進む。また、最後まで聞いていない場合(ステップS10:NO)、カウンタ値に1だけ加算して更新し(ステップS11)、ステップS12に進む。
ステップS12では、対話制御部13は、音声入力された項目について音声認識結果がOKか否かを判定する。具体的には、音声認識部12からの成否データがOKを示すかを判定する。そして、認識結果がOKの場合(ステップS12:YES)、対話制御部13は、認識結果データを記憶し(ステップS13)、対話シナリオデータベース154のシナリオデータを参照して、全項目の入力が完了したかを判定する(ステップS14)。全項目の入力が完了していない場合(ステップS14:NO)、シナリオデータに基づいて次の入力項目を特定し、ステップS2に戻って、次の入力項目のガイダンスを出力させて、音声入力を受け付ける処理を行う。
また、全項目の入力が完了した場合(ステップS14:YES)、所定の最終処理(例えば、入力が完了したなどの音声メッセージを出力する等)を行って(ステップS15)、本処理を終了する。
また、ステップS12において、音声認識処理の結果がNGの場合(ステップS12:NO)、対話制御部13は、要因特定処理を行って誤認識要因を特定し(ステップS16)、ステップS1に戻って、特定された誤認識要因に対応するガイダンスを出力させて、音声入力を再度受け付ける処理を行う。
要因特定処理について図6のフローチャートを参照して説明する。
対話制御部13は、カウンタ値が”1”かを判別し(ステップS21)、カウンタ値が”1”の場合(ステップS21:YES)、チェック結果に”NG”が設定されている項目に対応する誤認識要因を特定し(ステップS22)、利用者情報データベース153を更新して(ステップS23)、メインフローに戻る。
また、カウンタ値が”1”でない場合(ステップS21:NO)、対話制御部13は、カウンタ値が”0”かを判別する(ステップS24)。
カウンタ値が”0”でない場合、すなわち、チェック結果”NG”のチェック項目が複数ある場合、(ステップS24:NO)、先に入力された利用者IDに対応する履歴データが利用者情報データベース153に存在するかを判別する(ステップS25)。
該当する履歴データが存在する場合(ステップS25:YES)、複数の誤認識要因(チェック結果”NG”のチェック項目に対応する誤認識要因)のうち、履歴データにおいて誤認識回数が最も多い誤認識要因を特定する(ステップS26)。そして、ステップS23に進んで利用者情報データベース153の更新を行い、メインフローに戻る。また、該当する履歴データが存在しない場合(ステップS25:NO)、例えば、履歴データにおける、全利用者の要因毎の誤認識回数の合計値のデータを参照し、検出された複数の誤認識要因のうち、誤認識回数が最も多い誤認識要因を特定し(ステップS27)、ステップS23に進み、利用者情報データベース153の更新を行い(この場合、利用者の履歴データがないため、利用者IDに基づいて履歴データを生成し、各誤認識要因の回数の値に1だけ加算して更新する)、メインフローに戻る。
また、ステップS24においてカウンタ値が”0”の場合、すなわち、チェック結果”NG”のチェック項目が無い場合(ステップS24:YES)、対話制御部13は、先に入力された利用者IDに対応する履歴データが利用者情報データベース153に存在するかを判別する(ステップS28)。
該当する履歴データが存在する場合(ステップS28:YES)、履歴データにおいて誤認識回数が最も多い誤認識要因を特定し(ステップS29)、メインフローに戻る。また、該当する履歴データが存在しない場合(ステップS28:NO)、例えば、履歴データにおける、全利用者の要因毎の誤認識回数の合計値のデータを参照し、誤認識回数が最も多い誤認識要因を特定し(ステップS30)、メインフローに戻る。
以上説明したように、本発明によれば、音声自動応答装置が、音声入力において、音声入力の有無、音声入力のタイミング、発話音量、発話速度、発話長等に関するチェックを行い、チェック結果に基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力することにより、誤認識を解消するための適切な対応動作をとることができる。また、各利用者の誤認識要因の履歴データを用いることにより、個人の特性を考慮して誤認識要因を特定することができる。これにより、単に再発話の要求、再提示を何度も繰り返すことがなくなり、システムの要求に合致した再発話が自然になされる方向へ利用者を導くことができる。また、これにより、音声インタフェースのユーザビリティ向上に繋がると同時に、年齢や性別などの個人特性に合わせたユニバーサルなサービス提供が可能となる。
なお、本発明は種々の変形及び応用が可能である。
上記実施形態では、例えば、氏名、住所、電話番号等について利用者から音声入力を受け付ける装置を例に説明したが、入力項目等はこれに限定されず任意であり、種々の入力項目に適用可能である。例えば、商品やサービスの購入に関する情報の音声入力を受け付ける装置に適用してもよい。
また、上記実施形態に係る音声自動応答装置が、公衆回線、インターネット等に接続し、各種ネットワークを介して音声信号を受信し、受信した音声信号について上述の音声認識処理、音声自動応答処理を行ってもよい。この場合、音声自動応答装置は、ネットワークを介して通信を行うための通信制御部を備える。音声自動応答装置の通信制御部は、電話機等の端末から送信される音声信号をネットワークを介して受信し、音声入力部11に渡して、上述の音声認識処理、音声自動応答処理等を行ってもよい。そして音声出力部14がガイダンスの音声信号を通信制御部に渡して、ネットワークを介して利用者の端末等に送信してもよい。
なお、誤認識要因を特定する方法は上述した履歴データを用いる方法に限定されず任意である。例えば、複数の誤認識要因について優先度を設定しておき、この優先度に基づいて特定してもよい。例えば、誤認識要因の優先度を、入力が無い>発話長が不適切>発話音量が不適切>発話速度が不適切>ガイダンスを最後まで聞いていない、の順で設定した場合で、「発話長が不適切」、「発話速度が不適切」、「ガイダンスを最後まで聞いていない」の誤認識要因が検知されたときには、優先度のデータに従って、「発話長が不適切」の誤認識要因が選択される。
また、上記実施形態では、複数の誤認識要因がある場合、その中から一の誤認識要因を特定するために、利用者の履歴データがある場合に、その履歴データにおいて誤認識回数が最多の誤認識要因を選択するようにしているが、このときに、入力項目に対応する履歴データの中から、誤認識回数が最多の誤認識要因を選択してもよい。また、利用者の履歴データがない場合に、全利用者の要因毎の誤認識回数の合計値のデータを用いて、誤認識回数が最多の誤認識要因を選択しているが、このときに、入力項目に対応する合計値データから、誤認識回数が最多の誤認識要因を選択してもよい。
また、上記実施形態では、誤認識要因がない場合、一の誤認識要因を特定するために、利用者の履歴データがある場合に、その履歴データにおいて誤認識回数が最多の誤認識要因を選択するようにしているが、このときに、入力項目に対応する履歴データの中から、誤認識回数が最多の誤認識要因を選択してもよい。また、利用者の履歴データがない場合に、全利用者の要因毎の誤認識回数の合計値のデータを用いて、誤認識回数が最多の誤認識要因を選択しているが、このときに、入力項目に対応する合計値データから、誤認識回数が最多の誤認識要因を選択してもよい。
また、各利用者の操作履歴に関する値(例えば、利用回数等)のデータを記憶しておき、その値が閾値以上の場合には、誤認識要因の特定において、履歴データを用いることとし、閾値以下の場合には、上記の優先度を用いるようにしてもよい。
また、同一の入力項目についての2回以降の入力においては、誤認識要因の特定する際、前回の入力について検知された誤認識要因と重複するものがあれば、それを優先するようにしてもよい。重複する誤認識要因が複数ある場合には、上述のように、優先度や履歴データを用いて一の誤認識要因を特定してもよい。
また、ガイダンスを表示部に文字で表示するようにしてもよい。この場合、音声自動応答装置は、表示部をさらに備え、状態対応データベース152や対話シナリオデータベース154にはガイダンスのテキストデータ等が記憶されている。対話制御部13は、上述のようにして、次に出力すべきガイダンスを特定すると、それに対応するテキストデータ等を読み出して、表示部に表示してもよい。
なお、この発明のシステムは、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、上述の動作を実行するためのプログラムをコンピュータ読み取り可能な記録媒体(FD、CD−ROM、DVD等)に格納して配布し、該プログラムを、音声入力装置と音声出力装置等が接続されたコンピュータにインストールすることにより、上述の処理を実行する音声自動応答装置を構成してもよい。また、インターネット等のネットワーク上のサーバ装置が有するディスク装置に格納しておき、音声入力装置と音声出力装置が接続されたコンピュータにダウンロード等するようにしてもよい。
また、上述の機能を、OSが分担又はOSとアプリケーションの共同により実現する場合等には、OS以外の部分のみを媒体に格納して配布してもよく、また、コンピュータにダウンロード等してもよい。
本発明の実施形態の音声自動応答装置のブロック図である。 履歴データの一例を示す図である。 シナリオデータの一例を示す図である。 各誤認識要因に対応付けて登録されているガイダンスデータの内容の一例を示す図である。 音声自動応答処理を説明するためのフローチャートである。 要因特定処理を説明するためのフローチャートである。
符号の説明
1 音声自動応答装置
11 音声入力部
12 音声認識部
13 対話制御部
14 音声出力部
15 データベース
131 状態判断部
132 対話誘導部
133 質問・応答管理部
151 語彙データベース
152 状態対応データベース
153 利用者情報データベース
154 対話シナリオデータベース

Claims (5)

  1. 利用者の音声入力を受け付け、入力音声に対応する音声データを生成する音声入力手段と、
    前記音声データについて音声認識処理を行う音声認識手段と、
    前記音声認識手段による音声認識処理において音声データの誤認識が生じた場合、音声入力の有無と、音声入力のタイミングと、発話音量と、発話速度と、発話長と、の少なくとも1つに基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力する制御手段と、
    を備える音声自動応答装置。
  2. 前記制御手段は、複数の誤認識要因を検出した場合、検出した複数の誤認識要因から一つの誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力する、
    ことを特徴とする請求項1に記載の音声自動応答装置。
  3. 過去に生じた誤認識について誤認識要因毎の誤認識回数を示す履歴データを記憶する履歴記憶手段をさらに備え、
    前記制御手段は、前記履歴記憶手段に記憶される履歴データを参照し、誤認識要因を特定する手段をさらに備える、
    ことを特徴とする請求項1又は2に記載の音声自動応答装置。
  4. 前記履歴記憶手段に記憶される前記履歴データは、利用者毎の誤認識要因毎の誤認識回数を示し、
    前記制御手段は、前記利用者を識別するための識別情報に基づいて、前記利用者の履歴データを前記履歴情報記憶手段から読み出し、読み出した履歴データに基づいて、誤認識要因を特定する、
    ことを特徴とする請求項3に記載の音声自動応答装置。
  5. コンピュータを、
    音声入力を受け付け、入力音声に対応する音声データを生成する音声入力手段、
    前記音声データについて音声認識処理を行う音声認識手段、
    前記音声認識手段による音声認識処理において音声データの誤認識が生じた場合、音声入力の有無と、音声入力のタイミングと、発話音量と、発話速度と、発話長と、の少なくとも1つに基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力する制御手段、
    として機能させるためのプログラム。
JP2004302785A 2004-10-18 2004-10-18 音声自動応答装置及びプログラム Pending JP2006113439A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004302785A JP2006113439A (ja) 2004-10-18 2004-10-18 音声自動応答装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004302785A JP2006113439A (ja) 2004-10-18 2004-10-18 音声自動応答装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2006113439A true JP2006113439A (ja) 2006-04-27

Family

ID=36381994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004302785A Pending JP2006113439A (ja) 2004-10-18 2004-10-18 音声自動応答装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2006113439A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007138741A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
JP2008122483A (ja) * 2006-11-08 2008-05-29 Canon Inc 情報処理装置及び方法並びにプログラム
JP2008157987A (ja) * 2006-12-20 2008-07-10 Toyota Motor Corp 対話制御装置、対話制御方法及び対話制御プログラム
JP2010186126A (ja) * 2009-02-13 2010-08-26 Nec Corp 入力音声評価装置、入力音声の評価方法および評価プログラム
US8117031B2 (en) 2006-12-26 2012-02-14 Yamaha Corporation Voice processing apparatus and program
WO2013175523A1 (ja) * 2012-05-22 2013-11-28 三菱電機株式会社 音声認識装置
JP2015184487A (ja) * 2014-03-24 2015-10-22 株式会社東芝 音声処理装置および音声処理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11126092A (ja) * 1997-10-22 1999-05-11 Toyota Motor Corp 音声認識装置および車両用音声認識装置
JPH11352995A (ja) * 1998-06-08 1999-12-24 Toshiba Tec Corp 音声認識装置
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2000352992A (ja) * 1999-06-11 2000-12-19 Fujitsu Ten Ltd 音声認識装置
JP2001268669A (ja) * 2000-03-21 2001-09-28 Ricoh Co Ltd 移動電話端末を利用した機器制御装置、方法、及び記録媒体
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11126092A (ja) * 1997-10-22 1999-05-11 Toyota Motor Corp 音声認識装置および車両用音声認識装置
JPH11352995A (ja) * 1998-06-08 1999-12-24 Toshiba Tec Corp 音声認識装置
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2000352992A (ja) * 1999-06-11 2000-12-19 Fujitsu Ten Ltd 音声認識装置
JP2001268669A (ja) * 2000-03-21 2001-09-28 Ricoh Co Ltd 移動電話端末を利用した機器制御装置、方法、及び記録媒体
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007138741A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
JPWO2007138741A1 (ja) * 2006-05-26 2009-10-01 日本電気株式会社 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
JP5018773B2 (ja) * 2006-05-26 2012-09-05 日本電気株式会社 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
US9135913B2 (en) 2006-05-26 2015-09-15 Nec Corporation Voice input system, interactive-type robot, voice input method, and voice input program
JP2008122483A (ja) * 2006-11-08 2008-05-29 Canon Inc 情報処理装置及び方法並びにプログラム
JP2008157987A (ja) * 2006-12-20 2008-07-10 Toyota Motor Corp 対話制御装置、対話制御方法及び対話制御プログラム
US8117031B2 (en) 2006-12-26 2012-02-14 Yamaha Corporation Voice processing apparatus and program
JP2010186126A (ja) * 2009-02-13 2010-08-26 Nec Corp 入力音声評価装置、入力音声の評価方法および評価プログラム
WO2013175523A1 (ja) * 2012-05-22 2013-11-28 三菱電機株式会社 音声認識装置
JP2015184487A (ja) * 2014-03-24 2015-10-22 株式会社東芝 音声処理装置および音声処理方法

Similar Documents

Publication Publication Date Title
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US8682676B2 (en) Voice controlled wireless communication device system
JP5042194B2 (ja) 話者テンプレートを更新する装置及び方法
JP2006154724A (ja) 対話システム、対話方法、及びコンピュータプログラム
EP1561204B1 (en) Method and system for speech recognition
JP2007529831A (ja) 音声対話型メッセージング方法及び装置
JP6296821B2 (ja) 業務支援システム
US20060020471A1 (en) Method and apparatus for robustly locating user barge-ins in voice-activated command systems
JP2018097029A (ja) 音声認識装置および音声認識方法
CN111768789A (zh) 电子设备及其语音发出者身份确定方法、装置和介质
JP2006113439A (ja) 音声自動応答装置及びプログラム
JP6640279B2 (ja) 音声認識結果の出力プログラム、通信装置及び音声認識結果の表示システム
JP6462291B2 (ja) 通訳サービスシステム及び通訳サービス方法
US20080046230A1 (en) Reception support system and program therefor
AU657064B2 (en) Speech recognition system
JP3614116B2 (ja) トランスクリプション装置、トランスクリプション方法、トランスクリプションプログラム、およびそのプログラムを記録した記録媒体
US20080256071A1 (en) Method And System For Selection Of Text For Editing
JP2010060729A (ja) 受付装置、受付方法、及び受付プログラム
JP2004029457A (ja) 音声対話装置、および音声対話プログラム
JP2003228393A (ja) 音声対話装置及び方法、音声対話プログラム並びにその記録媒体
JP2005062398A (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JP2006003413A (ja) 音声自動応答方法、この方法を実施する装置、音声自動応答プログラムおよびその記録媒体
JP2024520659A (ja) 対話型通信システムを動的にナビゲートするための方法、装置、及びシステム
JP2006133296A (ja) 音声対話装置
JP2021096293A (ja) 案内システム、案内システムの制御方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100817