JP2008256802A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2008256802A
JP2008256802A JP2007096725A JP2007096725A JP2008256802A JP 2008256802 A JP2008256802 A JP 2008256802A JP 2007096725 A JP2007096725 A JP 2007096725A JP 2007096725 A JP2007096725 A JP 2007096725A JP 2008256802 A JP2008256802 A JP 2008256802A
Authority
JP
Japan
Prior art keywords
utterance
user
command
voice
cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007096725A
Other languages
English (en)
Inventor
Kentaro Koga
健太郎 古賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2007096725A priority Critical patent/JP2008256802A/ja
Publication of JP2008256802A publication Critical patent/JP2008256802A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識が失敗した原因を特定し、ユーザが音声認識に失敗した原因を知り、適切な対処を取りうるようにする。
【解決手段】本発明の音声認識装置100は、音声認識失敗原因分析部104が、入力音声録音部102から受け渡された入力音声の録音内容を分析し、音声認識失敗の原因を判明させる。具体的には、雑音の推定や発話の態様(例えば音量や発話速度)を判定して、音声認識の失敗がいずれに起因するかを判明させ、その結果を音声認識失敗原因分析結果通知部105へと受け渡す。音声認識失敗原因分析結果通知部105は、音声認識失敗原因分析部104から受け渡された音声認識失敗の原因の分析結果に基づき、入力音声録音部102から受け渡された録音された入力音声とともに、該分析結果を報知する画像または音声を合成し、出力インターフェース部202を介してディスプレイ400またはスピーカ500から出力するように制御する。
【選択図】 図1

Description

本発明は、ユーザの発声を検知して該発声の内容を識別してコマンドへ変換する処理をおこなうコマンド変換手段を有し、該コマンド変換手段によって変換されたコマンドを、該コマンドに基づいて動作する装置へ受け渡す音声認識装置および音声認識方法に関する。
近年、ユーザの発話を音声認識して変換されたコマンドに基づいてさまざまな装置を動作させる音声操作システムが普及してきている。例えば、自動車に搭載されるカーナビゲーション装置は、このような音声操作システムによって動作する装置の一例である。
しかし、ユーザが装置のある動作を意図して発話したにもかかわらず、該装置が意図した動作をしない場合がある。このような場合、何らかの原因によって音声認識が失敗していることが考えられるが、その原因が判明しないままでは、ユーザは何度発話しても装置が動作しないこととなる。
そこで、例えば特許文献1に開示されるように、音声認識に失敗した場合に、その原因を特定し、特定された原因が周囲環境に起因する場合にその周囲環境を改善する音声認識装置が考案されている。この音声認識装置は、例えば、音声操作システムがカーナビゲーションシステムに適用される場合であって、自動車のパワーウィンドウが解放されているために周囲環境において騒音が多いと推定されるために、パワーウィンドウの解放を解除する処置をおこなう。このようにして、音声認識の失敗が周囲環境に起因する場合にその周囲環境を改善し、音声認識の精度を向上させることが可能となる。
また、特許文献2および3に開示されるように、ユーザの発話を音声認識すると、該音声認識の可否にかかわらず、発話内容を合成音声によって復唱することにより、少なくともユーザの発話が正しく音声認識されているか否かを報知することが可能である装置が考案されている。この装置によれば、報知によって発話が正しく音声認識されていないと判断できる場合には、ユーザは再度発話することにより、発話を正しく音声認識させることが可能となる。
なお、特許文献3には、音声認識したユーザの発話内容の音声認識結果が連続して音声認識が失敗であって、かつこれら音声認識した内容が一致する場合に、同一の内容で復唱すると再び音声認識結果が失敗となり、ユーザの苛立ちを招くおそれがあるため、連続して誤認識した場合に、表現内容を変えて合成音声による発話内容の復唱をおこなうことによって、ユーザの苛立ちを軽減する装置が開示されている。
また、特許文献4に開示されるように、音声認識に失敗する原因が、内蔵する冷却ファンによる騒音である場合が多いことから、音声認識の最中は該冷却ファンを停止するカーナビゲーション装置が考案されている。
特開平11−126092号公報 特開2002−189497号公報 特開平11−109989号公報 特開2002−268668号公報
しかしながら、上記特許文献1〜4に代表される従来技術では、ユーザの発話内容の音声認識に失敗した原因が、騒音などの外乱要因のみならず、ユーザの発話の態様自体にある場合があるにもかかわらず、これらを区別して原因を特定することができなかった。このため、音声認識が失敗した原因を厳密に特定しえず、したがってユーザはなぜ音声認識に失敗したのかを知ることができず、適切な対処を取りえなかった。これによって、音声認識がその機能を十分に発揮することができないのみならず、ユーザの苛立ちを増大させることとなっていた。
本発明は、上記問題点(課題)を解消するためになされたものであって、音声認識が失敗した原因を特定し、ユーザが音声認識に失敗した原因を知り、適切な対処を取りうる音声認識装置を提供することを目的とする。
上述した問題を解決し、目的を達成するため、本発明は、ユーザの発話を検知して該発話の内容を識別してコマンドへ変換する処理をおこなうコマンド変換手段を有し、該コマンド変換手段によって変換されたコマンドを、該コマンドに基づいて動作する装置へ受け渡す音声認識装置であって、前記発話を録音する発話録音手段と、前記コマンド変換手段が前記発話の内容を識別してコマンドへ変換する処理に失敗した場合に、前記発話録音手段によって録音された前記発話を前記ユーザが確認可能に再生する発話再生手段と、前記コマンド変換手段が前記発話の内容を識別してコマンドへ変換する処理に失敗した場合に、その原因を特定する原因特定手段と、前記原因特定手段によって特定された原因とともに該原因への対処法を前記ユーザに報知する報知手段とを備えたことを特徴とする。
また、本発明は、上記発明において、前記原因特定手段は、前記ユーザの発話の音声出力が一定時間以上所定閾値を越えるか否かを判定する発声出力手段を含み、前記報知手段は、前記発声出力手段により前記ユーザの発話の音声出力が一定時間以上にわたり所定閾値を越えると判定されなかった場合に、この判定結果を該ユーザに報知することを特徴とする。
また、本発明は、上記発明において、前記原因特定手段は、前記ユーザの発話が周囲の雑音を一定レベル以上含むか否かを判定する雑音判定手段を含み、前記報知手段は、前記雑音判定手段により前記ユーザの発話が周囲の雑音を前記一定レベル以上含むと判定された場合に、この判定結果を該ユーザに報知することを特徴とする。
また、本発明は、上記発明において、前記原因特定手段は、前記ユーザの発話の速度が所定範囲内であるか否かを判定する発話速度判定手段を含み、前記報知手段は、前記発話速度判定手段により前記ユーザの発話の速度が前記所定範囲内でないと判定された場合に、この判定結果を該ユーザに報知することを特徴とする。
また、本発明は、上記発明において、前記コマンド変換手段が前記発話の内容を識別してコマンドへ変換する処理に失敗したにもかかわらず、発声出力手段が前記ユーザの発話の音声出力が一定時間以上所定閾値を越えると判定し、かつ前記雑音判定手段が前記ユーザの発話が周囲の雑音を前記一定レベル以上含まないと判定し、かつ前記発話速度判定手段が前記ユーザの発話の速度が前記所定範囲内であると判定した場合に、前記報知手段は、コマンドに対応する発話を再びおこなうように促す報知をおこなうことを特徴とする。
また、本発明は、ユーザの発話を検知して該発話の内容を識別してコマンドへ変換する処理をおこなうコマンド変換工程を含み、該コマンド変換工程によって変換されたコマンドを、該コマンドに基づいて動作する装置へ受け渡す音声認識方法であって、前記発話を録音する発話録音工程と、前記コマンド変換工程において前記発話の内容を識別してコマンドへ変換する処理が失敗した場合に、前記発話録音工程によって録音された前記発話を前記ユーザが確認可能に再生する発話再生工程と、前記コマンド変換工程において前記発話の内容を識別してコマンドへ変換する処理が失敗した場合に、その原因を特定する原因特定工程と、前記原因特定工程によって特定された原因とともに該原因への対処法を前記ユーザに報知する報知工程とを含んだことを特徴とする。
本発明によれば、発話録音手段によって録音された発話をユーザが確認可能に再生するので、ユーザは、どのように発話すると正しく音声認識され、どのように発話すると正しく音声認識されないかを確認し、認識することが可能となるという効果を奏する。また、コマンド変換手段が発話の内容を識別してコマンドへ変換する処理に失敗した場合に、発話録音手段によって録音された発話をユーザが確認可能に再生するので、ユーザは、どのように発話したために正しく音声認識されなかったかを確認することが可能となるという効果を奏する。さらに、原因特定手段によって特定された原因とともに該原因への対処法をユーザに報知するので、ユーザは、どのように発話したために正しく音声認識されなかったかを知り、どのように発話すると正しく音声認識されるかを認識することが可能となるという効果を奏する。
また、本発明によれば、報知手段は、発声出力手段によりユーザの発話の音声出力が一定時間以上にわたり所定閾値を越えると判定されなかった場合に、この判定結果を該ユーザに報知するので、ユーザは、発話音声が小さかったために正しく音声認識されなかったことを知り、発話音声を大きくして発話すると正しく音声認識されることを認識することが可能となるという効果を奏する。
また、本発明によれば、報知手段は、雑音判定手段によりユーザの発話が周囲の雑音を一定レベル以上含むと判定された場合に、この判定結果を該ユーザに報知するので、ユーザは、周囲の雑音のために正しく音声認識されなかったことを知り、周囲の雑音が小さくなってから発話すると正しく音声認識されうる、あるいはさらに大きな音声で発話すると正しく音声認識されうることを認識することが可能となるという効果を奏する。
また、本発明によれば、報知手段は、発話速度判定手段によりユーザの発話の速度が所定範囲内でないと判定された場合に、この判定結果を該ユーザに報知するので、ユーザは、発話速度が適切でないために正しく音声認識されなかったことを知り、発話速度を適切にすると正しく音声認識されうることを認識することが可能となるという効果を奏する。
また、本発明によれば、ユーザの発話の音声出力、周囲の雑音または発話速度のいずれの要因にもよらず音声認識に失敗すると、報知手段は、コマンドに対応する発話を再びおこなうように促す報知をおこなうので、ユーザは、発話の音声出力が適切であり、周囲の雑音もなく発話速度も適切であったが正しく音声認識されなかったことを知り、これら例外の要因によって音声認識が失敗したと推定することができ、ある程度要因を絞った上で再び発話することとなるので、再び発話した際に音声認識が成功する可能性を高め、かつユーザの苛立ちを軽減するという効果を奏する。
以下に添付図面を参照し、本発明の音声認識装置および音声認識方法に係る実施例を詳細に説明する。なお、以下の実施例では、音声認識装置および音声認識方法を、音声を変換してカーナビゲーション装置へ制御コマンドを受け渡す場合に適用することとする。この場合は、ユーザは、カーナビゲーション装置を使用する自動車の搭乗者となる。しかし、これに限らず、本発明の音声認識装置および音声認識方法は、音声を変換した制御コマンドに基づいて動作する装置一般に適用可能である。
先ず、実施例にかかる音声認識装置の構成について説明する。図1は、実施例にかかる音声認識装置の構成を示す機能ブロック図である。同図に示すように、実施例にかかる音声認識装置100は、カーナビゲーション装置200の構成に含まれる。カーナビゲーション装置200は、音声認識装置100と、カーナビゲーション制御部201と、出力インターフェース部202とを有する。
カーナビゲーション装置200は、音声入力手段であるマイク300からユーザの発話による音声を受け付け、音声認識装置100へと入力する。また、カーナビゲーション装置200は、出力インターフェース部202を介して出力する信号に基づき、表示手段であるディスプレイ400に画像を表示し、音声出力手段であるスピーカ500から音声を発する。
音声認識装置100は、音声認識エンジン部101と、入力音声録音部102と、音声認識結果判定部103と、音声認識失敗原因分析部104と、音声認識失敗原因分析結果通知部105とを有する。これらの構成は、例えば所定の制御コードあるいはプログラムコードを解析実行するマイクロ・コンピュータなどによって実現される。
音声認識エンジン部101は、入力された発話内容を解析し、該発話内容に対して最も尤度が高い制御コマンドを対応付ける処理部である。ここで制御コマンドとは、カーナビゲーション制御部201が識別可能なコマンドであり、この制御コマンドに基づいてカーナビゲーション制御部201が対応する処理を開始する。また、音声認識エンジン部101は、マイク300からの音声入力を検知したならば、入力音声録音部102に対してこの入力音声の録音の開始を指示する。
音声認識エンジン部101は、入力された発話内容に対して制御コマンドの対応付けに成功したか失敗したかの処理結果とともに、対応付けに成功したならば、対応付け成功の情報とともに、発話内容に対応付けられた制御コマンドを音声認識結果判定部103へと受け渡す。一方、音声認識エンジン部101は、入力された発話内容に対する制御コマンドの対応付けに失敗したならば、対応付け失敗の情報を音声認識結果判定部103へと受け渡す。
入力音声録音部102は、音声認識エンジン部101からの録音開始指示に基づいて、マイク300からの入力音声を、所定の記憶手段へと記憶させることによって録音する処理をおこなう。そして、音声認識エンジン部101が音声認識に失敗した場合は、音声認識結果判定部103からの要求に応じて、録音した入力音声を音声認識失敗原因分析部104へと受け渡す。また、音声認識エンジン部101が音声認識に成功した場合は、音声認識結果判定部103からの要求に応じて、録音した入力音声を消去する。
音声認識結果判定部103は、音声認識エンジン部101から受け渡された音声認識結果が処理成功を示すものである場合に、発話内容に対応して取得された制御コマンドをカーナビゲーション制御部201へ受け渡す。一方、音声認識結果判定部103は、音声認識エンジン部101から受け渡された音声認識結果が処理失敗を示すものである場合に、入力音声録音部102に対して録音されている入力音声を音声認識失敗原因分析部104へ受け渡すように指示するとともに、音声認識失敗原因分析部104に対して、入力音声録音部102から受け渡された入力音声の録音内容に基づき、失敗の原因分析を指示する。
音声認識失敗原因分析部104は、音声認識結果判定部103からの指示に応じて、入力音声録音部102から受け渡された入力音声の録音内容を分析し、音声認識失敗の原因を判明させる。具体的には、雑音の推定や発話の態様(例えば音量や発話速度)を判定して、音声認識の失敗がいずれに起因するかを判明させ、その結果を音声認識失敗原因分析結果通知部105へと受け渡す。
ここで、雑音の推定には、発話直前の雑音のみの区間(非音声区間)から雑音を推定する手法や、雑音のみの区間から得られた情報を確率的に追跡して雑音を推定する手法などの周知の方法を用いる。例えば、最小統計量に基づく雑音推定法などを用いてもよい。
また、発話の態様の判定では、発話音声の出力の振幅が所定閾値を一定時間連続して越えるか否かに基づいて音量を判定し、音声認識モデルと比較して発話の一文字単位の発生時間が所定閾値以下となるか否かに基づいて発話速度が遅いと判定し、同様に、音声認識モデルと比較して発話の一文字単位の発生時間が所定閾値以上となるか否かに基づいて発話速度が速いと判定する。
音声認識失敗原因分析結果通知部105は、音声認識失敗原因分析部104から受け渡された音声認識失敗の原因の分析結果に基づき、該分析結果に対応してディスプレイ400に表示する画像またはスピーカ500から出力する音声を合成して、出力インターフェース部202へと受け渡す。また、音声認識失敗原因分析結果通知部105は、該分析結果に対応してスピーカ500から発する音声と、入力音声録音部102から音声認識失敗原因分析部104を経由して受け渡された録音された入力音声とを合成して、スピーカ500から出力するために出力インターフェース部202へと受け渡す。
カーナビゲーション制御部201は、カーナビゲーション装置200の制御をつかさどる処理部であり、実施例にかかる具体的な処理としては、音声認識結果判定部103から受け渡された制御コマンドに基づいて、ルート案内などのカーナビゲーションにかかる処理を実行する。
次に、図1に示した音声認識装置100で実行される音声認識処理について説明する。図2は、図1に示した音声認識装置100で実行される音声認識処理手順を示すフローチャートである。同図に示すように、先ず、音声認識エンジン部101は、マイク入力音声を検知したか否かを判定する(ステップS101)。マイク入力音声を検知したと判定される場合に(ステップS101肯定)、ステップS102へ移り、マイク入力音声を検知したと判定されない場合に(ステップS101否定)、ステップS101を繰り返す。
ステップS102では、入力音声録音部102は、マイク入力音声の録音を開始する。続いて、音声認識エンジン部101は、マイク入力音声の音声認識をおこない、該音声認識の結果を音声認識結果判定部103へと受け渡す(ステップS103)。続いて、音声認識結果判定部103は、音声認識の結果が成功であるか否かを判定する(ステップS104)。音声認識の結果が成功であると判定される場合に(ステップS104肯定)、ステップS105へ移り、音声認識の結果が成功であると判定されない場合に(ステップS104否定)、ステップS107へ移る。
ステップS105では、音声認識結果判定部103は、入力音声録音部102に対してマイク入力録音結果の破棄(消去)を指示する。そして、音声認識結果判定部103は、音声認識エンジン部101によって入力音声が変換された制御コマンドを、カーナビゲーション制御部201へと受け渡す(ステップS106)。この処理が終了すると、音声認識処理は終了する。
一方、ステップS107では、音声認識失敗原因分析部104は、音声認識結果判定部103からマイク入力音声認識失敗の信号を受信する。続いて、音声認識失敗原因分析部104は、入力音声録音部102から、録音されたマイク入力音声信号を受信する(ステップS108)。
続いて、音声認識失敗原因分析部104は、入力音声録音部102から受信した録音されたマイク入力音声信号に基づいて、音声認識失敗の原因が雑音要因であるか否かを判定する雑音要因分析処理をおこなう(ステップS109)。雑音要因分析処理の詳細については、図3を参照して後述する。
続いて、音声認識失敗原因分析部104は、入力音声録音部102から受信した録音されたマイク入力音声信号に基づいて、音声認識失敗の原因がユーザの発話態様要因であるか否かを判定するユーザ発話態様要因分析処理をおこなう(ステップS110)。ユーザ発話態様要因分析処理の詳細については、図4を参照して後述する。この処理が終了すると、音声認識処理は終了する。
次に、図2のステップS109に示した雑音要因分析処理の詳細について説明する。図3は、雑音要因分析処理手順を示すフローチャートである。なお、以下の説明で使用するX1(dB)およびX2(dB)(ただしX1<X2)は、音声認識失敗原因分析部104にあらかじめ設定される雑音の振幅レベルの平均の閾値である。同図に示すように、音声認識失敗原因分析部104は、先ず、雑音の振幅レベルの平均を算出し、その平均がX2以上か否かを判定する(ステップS111)。雑音の振幅レベルの平均がX2以上であると判定される場合に(ステップS111肯定)、ステップS112へ移り、雑音の振幅レベルの平均がX2以上であると判定されない場合に(ステップS111否定)、ステップS114へ移る。
ステップS112では、音声認識失敗原因分析結果通知部105は、音声認識失敗原因分析部104の指示により、出力インターフェース部202を介して、スピーカ500から、録音されているマイク入力音声を再生する。そして、音声認識失敗原因分析結果通知部105は、出力インターフェース部202を介して、ディスプレイ400に、例えば「周囲の雑音が大きすぎます。周囲が静かになってからお話ください」と表示し、またはスピーカ500から同様のメッセージの音声を出力する(ステップS113)。この処理が終了すると、雑音要因分析処理を終了し、音声認識処理へ復帰せずに音声認識処理も終了する。
なお、ステップS111が肯定となり、ステップS112およびステップS113が実行される場合は、周囲の雑音がきわめて大きいために音声認識に失敗したケースである。この場合は、ユーザが改めて発話したとしても、周囲の雑音が改善されない限りは、音声認識は成功しないレベルである。
一方、ステップS114では、音声認識失敗原因分析部104は、雑音の振幅レベルの平均がX1以上X2未満か否かを判定する。雑音の振幅レベルの平均がX1以上X2未満であると判定される場合に(ステップS114肯定)、ステップS115へ移り、雑音の振幅レベルの平均がX1以上X2未満であると判定されない場合に(ステップS115否定)、雑音要因分析処理を終了し音声認識処理へ復帰する。
ステップS115では、音声認識失敗原因分析結果通知部105は、音声認識失敗原因分析部104の指示により、出力インターフェース部202を介して、スピーカ500から、録音されているマイク入力音声を再生する。そして、音声認識失敗原因分析結果通知部105は、出力インターフェース部202を介して、ディスプレイ400に、例えば「周囲の雑音で聞き取れません。もう少し大きな声でお話いただくか、周囲が静かになってからお話ください」と表示し、またはスピーカ500から同様のメッセージの音声を出力する(ステップS116)。この処理が終了すると、雑音要因分析処理を終了し、音声認識処理へ復帰せずに音声認識処理も終了する。
なお、ステップS114が肯定となり、ステップS115およびステップS116が実行される場合は、周囲の雑音が大きいために音声認識に失敗したケースである。この場合は、ユーザが改めて大きな声で発話すると、音声認識に成功する可能性があるレベルである。
以上の処理によって、ユーザは、周囲の雑音が大きかったために発話が正しく音声認識されなかったかを知り、どのように対処して発話すると正しく音声認識されるかを知ることが可能となる。
次に、図2のステップS110に示したユーザ発話態様要因分析処理の詳細について説明する。図4は、ユーザ発話態様要因分析処理手順を示すフローチャートである。なお、以下の説明で使用するY(dB)は、音声認識失敗原因分析部104にあらかじめ設定される、入力音声の最大値の閾値である。また、Z1(dB)およびZ2(dB)(ただしZ1<Z2)は、音声認識失敗原因分析部104にあらかじめ設定される、音声認識モデルと比較した場合の一文字単位の発声時間の閾値である。
同図に示すように、音声認識失敗原因分析部104は、先ず、入力音声の振幅レベルの最大がY以上となる区間が一定の長さ以上存在するか否かを判定する(ステップS121)。入力音声の振幅レベルの最大がY以上となる区間が一定の長さ以上存在すると判定される場合に(ステップS121肯定)、ステップS122へ移り、入力音声の振幅レベルの最大がY以上となる区間が一定の長さ以上存在すると判定されない場合に(ステップS121否定)、ステップS124へ移る。
この処理によって、ユーザは、発話音声が小さかったために正しく音声認識されなかったことを知り、発話音声を大きくして発話すると正しく音声認識されることを認識することが可能となる。
ステップS122では、音声認識失敗原因分析結果通知部105は、音声認識失敗原因分析部104の指示により、出力インターフェース部202を介して、スピーカ500から、録音されているマイク入力音声を再生する。そして、音声認識失敗原因分析結果通知部105は、出力インターフェース部202を介して、ディスプレイ400に、例えば「お話が聞き取れません。もう少し大きな声でお話しください」と表示し、またはスピーカ500から同様のメッセージの音声を出力する(ステップS123)。この処理が終了すると、ユーザ発話態様要因分析処理を終了し、音声認識処理へ復帰する。
なお、ステップS121が肯定となり、ステップS122およびステップS123が実行される場合は、ユーザによる発話音声の出力レベルが小さい、すなわち発話音声が小さいために音声認識に失敗したケースである。
一方、ステップS124では、音声認識失敗原因分析部104は、音声認識モデルと比較した場合の一文字単位の発声時間がZ1以下となるか否かを判定する。音声認識モデルと比較した場合の一文字単位の発声時間がZ1以下となると判定される場合に(ステップS124肯定)、ステップS125へ移り、音声認識モデルと比較した場合の一文字単位の発声時間がZ1以下となると判定されない場合に(ステップS124否定)、ステップS127へ移る。
ステップS125では、音声認識失敗原因分析結果通知部105は、音声認識失敗原因分析部104の指示により、出力インターフェース部202を介して、スピーカ500から、録音されているマイク入力音声を再生する。そして、音声認識失敗原因分析結果通知部105は、出力インターフェース部202を介して、ディスプレイ400に、例えば「発話速度が速いため、お話が聞き取れません。もう少しゆっくりとお話しください」と表示し、またはスピーカ500から同様のメッセージの音声を出力する(ステップS126)。この処理が終了すると、ユーザ発話態様要因分析処理を終了し、音声認識処理へ復帰する。
なお、ステップS124が肯定となり、ステップS125およびステップS126が実行される場合は、ユーザによる発話速度が速い、すなわち早口で発話しているために音声認識に失敗したケースである。
一方、ステップS127では、音声認識失敗原因分析部104は、音声認識モデルと比較した場合の一文字単位の発声時間がZ2以上となるか否かを判定する。音声認識モデルと比較した場合の一文字単位の発声時間がZ2以上となると判定される場合に(ステップS127肯定)、ステップS128へ移り、音声認識モデルと比較した場合の一文字単位の発声時間がZ2以上となると判定されない場合に(ステップS127否定)、ステップS130へ移る。
ステップS128では、音声認識失敗原因分析結果通知部105は、音声認識失敗原因分析部104の指示により、出力インターフェース部202を介して、スピーカ500から、録音されているマイク入力音声を再生する。そして、音声認識失敗原因分析結果通知部105は、出力インターフェース部202を介して、ディスプレイ400に、例えば「発話速度が遅いため、お話が聞き取れません。もう少し速くお話しください」と表示し、またはスピーカ500から同様のメッセージの音声を出力する(ステップS129)。この処理が終了すると、ユーザ発話態様要因分析処理を終了し、音声認識処理へ復帰する。
なお、ステップS127が肯定となり、ステップS128およびステップS129が実行される場合は、ユーザによる発話速度が遅いために音声認識に失敗したケースである。
以上の処理によって、ユーザは、発話速度が適切でないために正しく音声認識されなかったことを知り、発話速度を適切にすると正しく音声認識されうることを知ることが可能となる。
一方、ステップS130では、音声認識失敗原因分析結果通知部105は、音声認識失敗原因分析部104の指示により、出力インターフェース部202を介して、スピーカ500から、録音されているマイク入力音声を再生する。そして、音声認識失敗原因分析結果通知部105は、出力インターフェース部202を介して、ディスプレイ400に、例えば「コマンドでない可能性があります。ヘルプで確認していただくか、コマンドである場合にはもう少しはっきりとお話ください」と表示し、またはスピーカ500から同様のメッセージの音声を出力する(ステップS131)。この処理が終了すると、ユーザ発話態様要因分析処理は終了し、音声認識処理へ復帰する。
なお、ステップS127が否定となり、ステップS130およびステップS131が実行される場合は、ユーザによる発話音声の出力レベルが十分であり、かつユーザによる発話速度も適切であるが、音声認識に失敗しているために、ユーザによってコマンドでない音声が発話されたために音声認識に失敗したか、ユーザによる発話が明瞭でないために音声認識に失敗したと推定されるケースである。このため、ユーザによってコマンドでない音声が発話されたケースを想定して、ヘルプを確認して、ヘルプに記載される正しいコマンドを発話するように促すことが有意義となる。
この処理によって、ユーザは、発話の音声出力が適切であり、周囲の雑音もなく発話速度も適切であったが正しく音声認識されなかったことを知り、これら例外の要因によって音声認識が失敗したと推定することができ、ある程度要因を絞った上で再び発話することとなるので、再び発話した際に音声認識が成功する可能性を高め、かつユーザの苛立ちを軽減することが可能となる。
なお、図4のステップS124およびステップS127で、ユーザの発話速度を検知する方法は次の通りである。例えば、音声認識のある段階で、音声入力により受け付け可能なコマンドを10文字以上20文字以下とし、一文字(一音)の発話にかかる時間を0.25秒以上0.5秒以下とする場合を想定する。この想定では、発話音声が音声認識される時間は、0.25秒×10文字=2.5秒から0.5秒×20文字=10秒までの範囲をとる。よって、この2.5秒を下回る場合に「発話速度が速い」と判定し、10秒を超える場合に「発話速度が遅い」と判定する。
あるいは、音素ごとのパワー(出力)のピーク分布を参照し、ピークの集中度を見て発話速度を判定する。例えば図5(1)に示すように、パワーのピーク幅が所定幅より短く、一定時間にパワーのピークが集中している場合に「発話速度が速い」と判定し、図5(2)に示すように、パワーのピーク幅が所定幅より長く、一定時間にパワーのピークが集中していない場合に「発話速度が遅い」と判定してもよい。
以上、本発明の実施例を説明したが、本発明は、これに限られるものではなく、特許請求の範囲に記載した技術的思想の範囲内で、更に種々の異なる実施例で実施されてもよいものである。また、実施例に記載した効果は、これに限定されるものではない。
上記実施例では、ユーザによる発話の音声認識に失敗したことを前提として録音された音声を再生するとしている。しかし、これに限らず、音声認識の成否にかかわらず録音された音声を再生するとしてもよい。これによって、ユーザは、どのように発話すると正しく音声認識され、どのように発話すると正しく音声認識されないかを確認し、認識することが可能となる。
また、上記実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記実施例で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)などのマイクロ・コンピュータ)および当該CPU(またはMPU、MCUなどのマイクロ・コンピュータ)にて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現されてもよい。
本発明は、音声認識が失敗した原因を特定し、ユーザに音声認識に失敗した原因を知らしめ、適切な対処を取らせるよう支援したい場合に有用である。
実施例にかかる音声認識装置の構成を示す機能ブロック図である。 音声認識処理手順を示すフローチャートである。 雑音要因分析処理手順を示すフローチャートである。 ユーザ発話態様要因分析処理手順を示すフローチャートである。 ユーザの発話速度の検知方法例の概略を示す図である。
符号の説明
100 音声認識装置
101 音声認識エンジン部
102 入力音声録音部
103 音声認識結果判定部
104 音声認識失敗原因分析部
105 音声認識失敗原因分析結果通知部
200 カーナビゲーション装置
201 カーナビゲーション制御部
202 出力インターフェース
202 出力インターフェース部
300 マイク
400 ディスプレイ
500 スピーカ

Claims (6)

  1. ユーザの発話を検知して該発話の内容を識別してコマンドへ変換する処理をおこなうコマンド変換手段を有し、該コマンド変換手段によって変換されたコマンドを、該コマンドに基づいて動作する装置へ受け渡す音声認識装置であって、
    前記発話を録音する発話録音手段と、
    前記コマンド変換手段が前記発話の内容を識別してコマンドへ変換する処理に失敗した場合に、前記発話録音手段によって録音された前記発話を前記ユーザが確認可能に再生する発話再生手段と、
    前記コマンド変換手段が前記発話の内容を識別してコマンドへ変換する処理に失敗した場合に、その原因を特定する原因特定手段と、
    前記原因特定手段によって特定された原因とともに該原因への対処法を前記ユーザに報知する報知手段と
    を備えたことを特徴とする音声認識装置。
  2. 前記原因特定手段は、前記ユーザの発話の音声出力が一定時間以上所定閾値を越えるか否かを判定する発声出力手段を含み、
    前記報知手段は、前記発声出力手段により前記ユーザの発話の音声出力が一定時間以上にわたり所定閾値を越えると判定されなかった場合に、この判定結果を該ユーザに報知することを特徴とする請求項1に記載の音声認識装置。
  3. 前記原因特定手段は、前記ユーザの発話が周囲の雑音を一定レベル以上含むか否かを判定する雑音判定手段を含み、
    前記報知手段は、前記雑音判定手段により前記ユーザの発話が周囲の雑音を前記一定レベル以上含むと判定された場合に、この判定結果を該ユーザに報知することを特徴とする請求項1または2に記載の音声認識装置。
  4. 前記原因特定手段は、前記ユーザの発話の速度が所定範囲内であるか否かを判定する発話速度判定手段を含み、
    前記報知手段は、前記発話速度判定手段により前記ユーザの発話の速度が前記所定範囲内でないと判定された場合に、この判定結果を該ユーザに報知することを特徴とする請求項1、2または3に記載の音声認識装置。
  5. 前記コマンド変換手段が前記発話の内容を識別してコマンドへ変換する処理に失敗したにもかかわらず、発声出力手段が前記ユーザの発話の音声出力が一定時間以上所定閾値を越えると判定し、かつ前記雑音判定手段が前記ユーザの発話が周囲の雑音を前記一定レベル以上含まないと判定し、かつ前記発話速度判定手段が前記ユーザの発話の速度が前記所定範囲内であると判定した場合に、前記報知手段は、コマンドに対応する発話を再びおこなうように促す報知をおこなうことを特徴とする請求項4に記載の音声認識装置。
  6. ユーザの発話を検知して該発話の内容を識別してコマンドへ変換する処理をおこなうコマンド変換工程を含み、該コマンド変換工程によって変換されたコマンドを、該コマンドに基づいて動作する装置へ受け渡す音声認識方法であって、
    前記発話を録音する発話録音工程と、
    前記コマンド変換工程において前記発話の内容を識別してコマンドへ変換する処理が失敗した場合に、前記発話録音工程によって録音された前記発話を前記ユーザが確認可能に再生する発話再生工程と、
    前記コマンド変換工程において前記発話の内容を識別してコマンドへ変換する処理が失敗した場合に、その原因を特定する原因特定工程と、
    前記原因特定工程によって特定された原因とともに該原因への対処法を前記ユーザに報知する報知工程と
    を含んだことを特徴とする音声認識方法。
JP2007096725A 2007-04-02 2007-04-02 音声認識装置および音声認識方法 Pending JP2008256802A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007096725A JP2008256802A (ja) 2007-04-02 2007-04-02 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007096725A JP2008256802A (ja) 2007-04-02 2007-04-02 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2008256802A true JP2008256802A (ja) 2008-10-23

Family

ID=39980457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007096725A Pending JP2008256802A (ja) 2007-04-02 2007-04-02 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP2008256802A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039222A (ja) * 2009-08-10 2011-02-24 Nec Corp 音声認識システム、音声認識方法および音声認識プログラム
WO2012001730A1 (ja) * 2010-06-28 2012-01-05 三菱電機株式会社 音声認識装置
US8650036B2 (en) 2011-12-30 2014-02-11 Samsung Electronics Co., Ltd. Electronic apparatus and method of controlling electronic apparatus
JP2014186713A (ja) * 2013-02-21 2014-10-02 Panasonic Corp 会話システムおよびその会話処理方法
JP2015184487A (ja) * 2014-03-24 2015-10-22 株式会社東芝 音声処理装置および音声処理方法
DE102014209499A1 (de) * 2014-05-20 2015-11-26 Continental Automotive Gmbh Verfahren zum Betreiben eines Sprachdialogsystems für ein Kraftfahrzeug
KR20160063148A (ko) * 2014-11-26 2016-06-03 현대자동차주식회사 차량 음성인식시스템을 위한 상황 분석 장치 및 방법
WO2017026239A1 (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
JP2018173752A (ja) * 2017-03-31 2018-11-08 本田技研工業株式会社 会議システム、会議システム制御方法、およびプログラム
JP2018202567A (ja) * 2017-06-07 2018-12-27 シャープ株式会社 動作制御装置およびその制御方法、ロボットならびに制御プログラム
JP2019074608A (ja) * 2017-10-13 2019-05-16 京セラドキュメントソリューションズ株式会社 画像形成装置
WO2019156101A1 (ja) * 2018-02-08 2019-08-15 日本電信電話株式会社 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
WO2019230065A1 (ja) 2018-05-31 2019-12-05 ソニー株式会社 情報処理装置、情報処理方法、プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02272495A (ja) * 1989-04-13 1990-11-07 Toshiba Corp 音声認識装置
JP2002202791A (ja) * 2000-12-28 2002-07-19 Canon Inc 通信装置、制御方法および記憶媒体
JP2004109563A (ja) * 2002-09-19 2004-04-08 Fujitsu Ltd 音声対話システム、音声対話のためのプログラムおよび音声対話方法
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02272495A (ja) * 1989-04-13 1990-11-07 Toshiba Corp 音声認識装置
JP2002202791A (ja) * 2000-12-28 2002-07-19 Canon Inc 通信装置、制御方法および記憶媒体
JP2004109563A (ja) * 2002-09-19 2004-04-08 Fujitsu Ltd 音声対話システム、音声対話のためのプログラムおよび音声対話方法
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039222A (ja) * 2009-08-10 2011-02-24 Nec Corp 音声認識システム、音声認識方法および音声認識プログラム
WO2012001730A1 (ja) * 2010-06-28 2012-01-05 三菱電機株式会社 音声認識装置
US8990092B2 (en) 2010-06-28 2015-03-24 Mitsubishi Electric Corporation Voice recognition device
US8650036B2 (en) 2011-12-30 2014-02-11 Samsung Electronics Co., Ltd. Electronic apparatus and method of controlling electronic apparatus
US9148688B2 (en) 2011-12-30 2015-09-29 Samsung Electronics Co., Ltd. Electronic apparatus and method of controlling electronic apparatus
JP2014186713A (ja) * 2013-02-21 2014-10-02 Panasonic Corp 会話システムおよびその会話処理方法
JP2015184487A (ja) * 2014-03-24 2015-10-22 株式会社東芝 音声処理装置および音声処理方法
DE102014209499A1 (de) * 2014-05-20 2015-11-26 Continental Automotive Gmbh Verfahren zum Betreiben eines Sprachdialogsystems für ein Kraftfahrzeug
KR20160063148A (ko) * 2014-11-26 2016-06-03 현대자동차주식회사 차량 음성인식시스템을 위한 상황 분석 장치 및 방법
KR101628109B1 (ko) * 2014-11-26 2016-06-08 현대자동차 주식회사 차량 음성인식시스템을 위한 상황 분석 장치 및 방법
WO2017026239A1 (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
JP2017037176A (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
US10540969B2 (en) 2015-08-10 2020-01-21 Clarion Co., Ltd. Voice operating system, server device, on-vehicle device, and voice operating method
JP2018173752A (ja) * 2017-03-31 2018-11-08 本田技研工業株式会社 会議システム、会議システム制御方法、およびプログラム
US10741172B2 (en) 2017-03-31 2020-08-11 Honda Motor Co., Ltd. Conference system, conference system control method, and program
JP2018202567A (ja) * 2017-06-07 2018-12-27 シャープ株式会社 動作制御装置およびその制御方法、ロボットならびに制御プログラム
JP2019074608A (ja) * 2017-10-13 2019-05-16 京セラドキュメントソリューションズ株式会社 画像形成装置
WO2019156101A1 (ja) * 2018-02-08 2019-08-15 日本電信電話株式会社 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
JP2019139010A (ja) * 2018-02-08 2019-08-22 日本電信電話株式会社 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
WO2019230065A1 (ja) 2018-05-31 2019-12-05 ソニー株式会社 情報処理装置、情報処理方法、プログラム

Similar Documents

Publication Publication Date Title
JP2008256802A (ja) 音声認識装置および音声認識方法
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
US7069221B2 (en) Non-target barge-in detection
US8428944B2 (en) System and method for performing compensated speech recognition
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JP5431282B2 (ja) 音声対話装置、方法、プログラム
TWI557722B (zh) 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2009175179A (ja) 音声認識装置、プログラム、及び発話信号抽出方法
JP3926242B2 (ja) 音声対話システム、音声対話のためのプログラムおよび音声対話方法
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP2005037615A (ja) クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体
JP2006208486A (ja) 音声入力装置
JP2011027757A (ja) オーディオ機器用音声認識装置
JP2007072331A (ja) 音声対話方法および音声対話システム
JP2002258882A (ja) 音声認識システム及び情報記録媒体
WO2019202351A1 (ja) 機器制御装置及び機器を制御する制御方法
JP2009025579A (ja) 音声認識装置および音声認識方法
US20210383808A1 (en) Control device, system, and control method
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JP2019176431A (ja) 音声認識装置
JP2023553994A (ja) ホットワード特性に基づいた自動音声認識パラメータの適応
JP4810343B2 (ja) 音声処理装置およびその制御方法
US20200098371A1 (en) Speech recognition device, speech recognition method, non-transitory computer-readable medium storing speech recognition program
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120221