JP2008256802A

JP2008256802A - 音声認識装置および音声認識方法

Info

Publication number: JP2008256802A
Application number: JP2007096725A
Authority: JP
Inventors: Kentaro Koga; 健太郎古賀
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2007-04-02
Filing date: 2007-04-02
Publication date: 2008-10-23

Abstract

【課題】音声認識が失敗した原因を特定し、ユーザが音声認識に失敗した原因を知り、適切な対処を取りうるようにする。
【解決手段】本発明の音声認識装置１００は、音声認識失敗原因分析部１０４が、入力音声録音部１０２から受け渡された入力音声の録音内容を分析し、音声認識失敗の原因を判明させる。具体的には、雑音の推定や発話の態様（例えば音量や発話速度）を判定して、音声認識の失敗がいずれに起因するかを判明させ、その結果を音声認識失敗原因分析結果通知部１０５へと受け渡す。音声認識失敗原因分析結果通知部１０５は、音声認識失敗原因分析部１０４から受け渡された音声認識失敗の原因の分析結果に基づき、入力音声録音部１０２から受け渡された録音された入力音声とともに、該分析結果を報知する画像または音声を合成し、出力インターフェース部２０２を介してディスプレイ４００またはスピーカ５００から出力するように制御する。
【選択図】図１

Description

本発明は、ユーザの発声を検知して該発声の内容を識別してコマンドへ変換する処理をおこなうコマンド変換手段を有し、該コマンド変換手段によって変換されたコマンドを、該コマンドに基づいて動作する装置へ受け渡す音声認識装置および音声認識方法に関する。

近年、ユーザの発話を音声認識して変換されたコマンドに基づいてさまざまな装置を動作させる音声操作システムが普及してきている。例えば、自動車に搭載されるカーナビゲーション装置は、このような音声操作システムによって動作する装置の一例である。

しかし、ユーザが装置のある動作を意図して発話したにもかかわらず、該装置が意図した動作をしない場合がある。このような場合、何らかの原因によって音声認識が失敗していることが考えられるが、その原因が判明しないままでは、ユーザは何度発話しても装置が動作しないこととなる。

そこで、例えば特許文献１に開示されるように、音声認識に失敗した場合に、その原因を特定し、特定された原因が周囲環境に起因する場合にその周囲環境を改善する音声認識装置が考案されている。この音声認識装置は、例えば、音声操作システムがカーナビゲーションシステムに適用される場合であって、自動車のパワーウィンドウが解放されているために周囲環境において騒音が多いと推定されるために、パワーウィンドウの解放を解除する処置をおこなう。このようにして、音声認識の失敗が周囲環境に起因する場合にその周囲環境を改善し、音声認識の精度を向上させることが可能となる。

また、特許文献２および３に開示されるように、ユーザの発話を音声認識すると、該音声認識の可否にかかわらず、発話内容を合成音声によって復唱することにより、少なくともユーザの発話が正しく音声認識されているか否かを報知することが可能である装置が考案されている。この装置によれば、報知によって発話が正しく音声認識されていないと判断できる場合には、ユーザは再度発話することにより、発話を正しく音声認識させることが可能となる。

なお、特許文献３には、音声認識したユーザの発話内容の音声認識結果が連続して音声認識が失敗であって、かつこれら音声認識した内容が一致する場合に、同一の内容で復唱すると再び音声認識結果が失敗となり、ユーザの苛立ちを招くおそれがあるため、連続して誤認識した場合に、表現内容を変えて合成音声による発話内容の復唱をおこなうことによって、ユーザの苛立ちを軽減する装置が開示されている。

また、特許文献４に開示されるように、音声認識に失敗する原因が、内蔵する冷却ファンによる騒音である場合が多いことから、音声認識の最中は該冷却ファンを停止するカーナビゲーション装置が考案されている。

特開平１１−１２６０９２号公報特開２００２−１８９４９７号公報特開平１１−１０９９８９号公報特開２００２−２６８６６８号公報

しかしながら、上記特許文献１〜４に代表される従来技術では、ユーザの発話内容の音声認識に失敗した原因が、騒音などの外乱要因のみならず、ユーザの発話の態様自体にある場合があるにもかかわらず、これらを区別して原因を特定することができなかった。このため、音声認識が失敗した原因を厳密に特定しえず、したがってユーザはなぜ音声認識に失敗したのかを知ることができず、適切な対処を取りえなかった。これによって、音声認識がその機能を十分に発揮することができないのみならず、ユーザの苛立ちを増大させることとなっていた。

本発明は、上記問題点（課題）を解消するためになされたものであって、音声認識が失敗した原因を特定し、ユーザが音声認識に失敗した原因を知り、適切な対処を取りうる音声認識装置を提供することを目的とする。

上述した問題を解決し、目的を達成するため、本発明は、ユーザの発話を検知して該発話の内容を識別してコマンドへ変換する処理をおこなうコマンド変換手段を有し、該コマンド変換手段によって変換されたコマンドを、該コマンドに基づいて動作する装置へ受け渡す音声認識装置であって、前記発話を録音する発話録音手段と、前記コマンド変換手段が前記発話の内容を識別してコマンドへ変換する処理に失敗した場合に、前記発話録音手段によって録音された前記発話を前記ユーザが確認可能に再生する発話再生手段と、前記コマンド変換手段が前記発話の内容を識別してコマンドへ変換する処理に失敗した場合に、その原因を特定する原因特定手段と、前記原因特定手段によって特定された原因とともに該原因への対処法を前記ユーザに報知する報知手段とを備えたことを特徴とする。

また、本発明は、上記発明において、前記原因特定手段は、前記ユーザの発話の音声出力が一定時間以上所定閾値を越えるか否かを判定する発声出力手段を含み、前記報知手段は、前記発声出力手段により前記ユーザの発話の音声出力が一定時間以上にわたり所定閾値を越えると判定されなかった場合に、この判定結果を該ユーザに報知することを特徴とする。

また、本発明は、上記発明において、前記原因特定手段は、前記ユーザの発話が周囲の雑音を一定レベル以上含むか否かを判定する雑音判定手段を含み、前記報知手段は、前記雑音判定手段により前記ユーザの発話が周囲の雑音を前記一定レベル以上含むと判定された場合に、この判定結果を該ユーザに報知することを特徴とする。

また、本発明は、上記発明において、前記原因特定手段は、前記ユーザの発話の速度が所定範囲内であるか否かを判定する発話速度判定手段を含み、前記報知手段は、前記発話速度判定手段により前記ユーザの発話の速度が前記所定範囲内でないと判定された場合に、この判定結果を該ユーザに報知することを特徴とする。

また、本発明は、上記発明において、前記コマンド変換手段が前記発話の内容を識別してコマンドへ変換する処理に失敗したにもかかわらず、発声出力手段が前記ユーザの発話の音声出力が一定時間以上所定閾値を越えると判定し、かつ前記雑音判定手段が前記ユーザの発話が周囲の雑音を前記一定レベル以上含まないと判定し、かつ前記発話速度判定手段が前記ユーザの発話の速度が前記所定範囲内であると判定した場合に、前記報知手段は、コマンドに対応する発話を再びおこなうように促す報知をおこなうことを特徴とする。

また、本発明は、ユーザの発話を検知して該発話の内容を識別してコマンドへ変換する処理をおこなうコマンド変換工程を含み、該コマンド変換工程によって変換されたコマンドを、該コマンドに基づいて動作する装置へ受け渡す音声認識方法であって、前記発話を録音する発話録音工程と、前記コマンド変換工程において前記発話の内容を識別してコマンドへ変換する処理が失敗した場合に、前記発話録音工程によって録音された前記発話を前記ユーザが確認可能に再生する発話再生工程と、前記コマンド変換工程において前記発話の内容を識別してコマンドへ変換する処理が失敗した場合に、その原因を特定する原因特定工程と、前記原因特定工程によって特定された原因とともに該原因への対処法を前記ユーザに報知する報知工程とを含んだことを特徴とする。

本発明によれば、発話録音手段によって録音された発話をユーザが確認可能に再生するので、ユーザは、どのように発話すると正しく音声認識され、どのように発話すると正しく音声認識されないかを確認し、認識することが可能となるという効果を奏する。また、コマンド変換手段が発話の内容を識別してコマンドへ変換する処理に失敗した場合に、発話録音手段によって録音された発話をユーザが確認可能に再生するので、ユーザは、どのように発話したために正しく音声認識されなかったかを確認することが可能となるという効果を奏する。さらに、原因特定手段によって特定された原因とともに該原因への対処法をユーザに報知するので、ユーザは、どのように発話したために正しく音声認識されなかったかを知り、どのように発話すると正しく音声認識されるかを認識することが可能となるという効果を奏する。

また、本発明によれば、報知手段は、発声出力手段によりユーザの発話の音声出力が一定時間以上にわたり所定閾値を越えると判定されなかった場合に、この判定結果を該ユーザに報知するので、ユーザは、発話音声が小さかったために正しく音声認識されなかったことを知り、発話音声を大きくして発話すると正しく音声認識されることを認識することが可能となるという効果を奏する。

また、本発明によれば、報知手段は、雑音判定手段によりユーザの発話が周囲の雑音を一定レベル以上含むと判定された場合に、この判定結果を該ユーザに報知するので、ユーザは、周囲の雑音のために正しく音声認識されなかったことを知り、周囲の雑音が小さくなってから発話すると正しく音声認識されうる、あるいはさらに大きな音声で発話すると正しく音声認識されうることを認識することが可能となるという効果を奏する。

また、本発明によれば、報知手段は、発話速度判定手段によりユーザの発話の速度が所定範囲内でないと判定された場合に、この判定結果を該ユーザに報知するので、ユーザは、発話速度が適切でないために正しく音声認識されなかったことを知り、発話速度を適切にすると正しく音声認識されうることを認識することが可能となるという効果を奏する。

また、本発明によれば、ユーザの発話の音声出力、周囲の雑音または発話速度のいずれの要因にもよらず音声認識に失敗すると、報知手段は、コマンドに対応する発話を再びおこなうように促す報知をおこなうので、ユーザは、発話の音声出力が適切であり、周囲の雑音もなく発話速度も適切であったが正しく音声認識されなかったことを知り、これら例外の要因によって音声認識が失敗したと推定することができ、ある程度要因を絞った上で再び発話することとなるので、再び発話した際に音声認識が成功する可能性を高め、かつユーザの苛立ちを軽減するという効果を奏する。

以下に添付図面を参照し、本発明の音声認識装置および音声認識方法に係る実施例を詳細に説明する。なお、以下の実施例では、音声認識装置および音声認識方法を、音声を変換してカーナビゲーション装置へ制御コマンドを受け渡す場合に適用することとする。この場合は、ユーザは、カーナビゲーション装置を使用する自動車の搭乗者となる。しかし、これに限らず、本発明の音声認識装置および音声認識方法は、音声を変換した制御コマンドに基づいて動作する装置一般に適用可能である。

先ず、実施例にかかる音声認識装置の構成について説明する。図１は、実施例にかかる音声認識装置の構成を示す機能ブロック図である。同図に示すように、実施例にかかる音声認識装置１００は、カーナビゲーション装置２００の構成に含まれる。カーナビゲーション装置２００は、音声認識装置１００と、カーナビゲーション制御部２０１と、出力インターフェース部２０２とを有する。

カーナビゲーション装置２００は、音声入力手段であるマイク３００からユーザの発話による音声を受け付け、音声認識装置１００へと入力する。また、カーナビゲーション装置２００は、出力インターフェース部２０２を介して出力する信号に基づき、表示手段であるディスプレイ４００に画像を表示し、音声出力手段であるスピーカ５００から音声を発する。

音声認識装置１００は、音声認識エンジン部１０１と、入力音声録音部１０２と、音声認識結果判定部１０３と、音声認識失敗原因分析部１０４と、音声認識失敗原因分析結果通知部１０５とを有する。これらの構成は、例えば所定の制御コードあるいはプログラムコードを解析実行するマイクロ・コンピュータなどによって実現される。

音声認識エンジン部１０１は、入力された発話内容を解析し、該発話内容に対して最も尤度が高い制御コマンドを対応付ける処理部である。ここで制御コマンドとは、カーナビゲーション制御部２０１が識別可能なコマンドであり、この制御コマンドに基づいてカーナビゲーション制御部２０１が対応する処理を開始する。また、音声認識エンジン部１０１は、マイク３００からの音声入力を検知したならば、入力音声録音部１０２に対してこの入力音声の録音の開始を指示する。

音声認識エンジン部１０１は、入力された発話内容に対して制御コマンドの対応付けに成功したか失敗したかの処理結果とともに、対応付けに成功したならば、対応付け成功の情報とともに、発話内容に対応付けられた制御コマンドを音声認識結果判定部１０３へと受け渡す。一方、音声認識エンジン部１０１は、入力された発話内容に対する制御コマンドの対応付けに失敗したならば、対応付け失敗の情報を音声認識結果判定部１０３へと受け渡す。

入力音声録音部１０２は、音声認識エンジン部１０１からの録音開始指示に基づいて、マイク３００からの入力音声を、所定の記憶手段へと記憶させることによって録音する処理をおこなう。そして、音声認識エンジン部１０１が音声認識に失敗した場合は、音声認識結果判定部１０３からの要求に応じて、録音した入力音声を音声認識失敗原因分析部１０４へと受け渡す。また、音声認識エンジン部１０１が音声認識に成功した場合は、音声認識結果判定部１０３からの要求に応じて、録音した入力音声を消去する。

音声認識結果判定部１０３は、音声認識エンジン部１０１から受け渡された音声認識結果が処理成功を示すものである場合に、発話内容に対応して取得された制御コマンドをカーナビゲーション制御部２０１へ受け渡す。一方、音声認識結果判定部１０３は、音声認識エンジン部１０１から受け渡された音声認識結果が処理失敗を示すものである場合に、入力音声録音部１０２に対して録音されている入力音声を音声認識失敗原因分析部１０４へ受け渡すように指示するとともに、音声認識失敗原因分析部１０４に対して、入力音声録音部１０２から受け渡された入力音声の録音内容に基づき、失敗の原因分析を指示する。

音声認識失敗原因分析部１０４は、音声認識結果判定部１０３からの指示に応じて、入力音声録音部１０２から受け渡された入力音声の録音内容を分析し、音声認識失敗の原因を判明させる。具体的には、雑音の推定や発話の態様（例えば音量や発話速度）を判定して、音声認識の失敗がいずれに起因するかを判明させ、その結果を音声認識失敗原因分析結果通知部１０５へと受け渡す。

ここで、雑音の推定には、発話直前の雑音のみの区間（非音声区間）から雑音を推定する手法や、雑音のみの区間から得られた情報を確率的に追跡して雑音を推定する手法などの周知の方法を用いる。例えば、最小統計量に基づく雑音推定法などを用いてもよい。

また、発話の態様の判定では、発話音声の出力の振幅が所定閾値を一定時間連続して越えるか否かに基づいて音量を判定し、音声認識モデルと比較して発話の一文字単位の発生時間が所定閾値以下となるか否かに基づいて発話速度が遅いと判定し、同様に、音声認識モデルと比較して発話の一文字単位の発生時間が所定閾値以上となるか否かに基づいて発話速度が速いと判定する。

音声認識失敗原因分析結果通知部１０５は、音声認識失敗原因分析部１０４から受け渡された音声認識失敗の原因の分析結果に基づき、該分析結果に対応してディスプレイ４００に表示する画像またはスピーカ５００から出力する音声を合成して、出力インターフェース部２０２へと受け渡す。また、音声認識失敗原因分析結果通知部１０５は、該分析結果に対応してスピーカ５００から発する音声と、入力音声録音部１０２から音声認識失敗原因分析部１０４を経由して受け渡された録音された入力音声とを合成して、スピーカ５００から出力するために出力インターフェース部２０２へと受け渡す。

カーナビゲーション制御部２０１は、カーナビゲーション装置２００の制御をつかさどる処理部であり、実施例にかかる具体的な処理としては、音声認識結果判定部１０３から受け渡された制御コマンドに基づいて、ルート案内などのカーナビゲーションにかかる処理を実行する。

次に、図１に示した音声認識装置１００で実行される音声認識処理について説明する。図２は、図１に示した音声認識装置１００で実行される音声認識処理手順を示すフローチャートである。同図に示すように、先ず、音声認識エンジン部１０１は、マイク入力音声を検知したか否かを判定する（ステップＳ１０１）。マイク入力音声を検知したと判定される場合に（ステップＳ１０１肯定）、ステップＳ１０２へ移り、マイク入力音声を検知したと判定されない場合に（ステップＳ１０１否定）、ステップＳ１０１を繰り返す。

ステップＳ１０２では、入力音声録音部１０２は、マイク入力音声の録音を開始する。続いて、音声認識エンジン部１０１は、マイク入力音声の音声認識をおこない、該音声認識の結果を音声認識結果判定部１０３へと受け渡す（ステップＳ１０３）。続いて、音声認識結果判定部１０３は、音声認識の結果が成功であるか否かを判定する（ステップＳ１０４）。音声認識の結果が成功であると判定される場合に（ステップＳ１０４肯定）、ステップＳ１０５へ移り、音声認識の結果が成功であると判定されない場合に（ステップＳ１０４否定）、ステップＳ１０７へ移る。

ステップＳ１０５では、音声認識結果判定部１０３は、入力音声録音部１０２に対してマイク入力録音結果の破棄（消去）を指示する。そして、音声認識結果判定部１０３は、音声認識エンジン部１０１によって入力音声が変換された制御コマンドを、カーナビゲーション制御部２０１へと受け渡す（ステップＳ１０６）。この処理が終了すると、音声認識処理は終了する。

一方、ステップＳ１０７では、音声認識失敗原因分析部１０４は、音声認識結果判定部１０３からマイク入力音声認識失敗の信号を受信する。続いて、音声認識失敗原因分析部１０４は、入力音声録音部１０２から、録音されたマイク入力音声信号を受信する（ステップＳ１０８）。

続いて、音声認識失敗原因分析部１０４は、入力音声録音部１０２から受信した録音されたマイク入力音声信号に基づいて、音声認識失敗の原因が雑音要因であるか否かを判定する雑音要因分析処理をおこなう（ステップＳ１０９）。雑音要因分析処理の詳細については、図３を参照して後述する。

続いて、音声認識失敗原因分析部１０４は、入力音声録音部１０２から受信した録音されたマイク入力音声信号に基づいて、音声認識失敗の原因がユーザの発話態様要因であるか否かを判定するユーザ発話態様要因分析処理をおこなう（ステップＳ１１０）。ユーザ発話態様要因分析処理の詳細については、図４を参照して後述する。この処理が終了すると、音声認識処理は終了する。

次に、図２のステップＳ１０９に示した雑音要因分析処理の詳細について説明する。図３は、雑音要因分析処理手順を示すフローチャートである。なお、以下の説明で使用するＸ₁（ｄＢ）およびＸ₂（ｄＢ）（ただしＸ₁＜Ｘ₂）は、音声認識失敗原因分析部１０４にあらかじめ設定される雑音の振幅レベルの平均の閾値である。同図に示すように、音声認識失敗原因分析部１０４は、先ず、雑音の振幅レベルの平均を算出し、その平均がＸ₂以上か否かを判定する（ステップＳ１１１）。雑音の振幅レベルの平均がＸ₂以上であると判定される場合に（ステップＳ１１１肯定）、ステップＳ１１２へ移り、雑音の振幅レベルの平均がＸ₂以上であると判定されない場合に（ステップＳ１１１否定）、ステップＳ１１４へ移る。

ステップＳ１１２では、音声認識失敗原因分析結果通知部１０５は、音声認識失敗原因分析部１０４の指示により、出力インターフェース部２０２を介して、スピーカ５００から、録音されているマイク入力音声を再生する。そして、音声認識失敗原因分析結果通知部１０５は、出力インターフェース部２０２を介して、ディスプレイ４００に、例えば「周囲の雑音が大きすぎます。周囲が静かになってからお話ください」と表示し、またはスピーカ５００から同様のメッセージの音声を出力する（ステップＳ１１３）。この処理が終了すると、雑音要因分析処理を終了し、音声認識処理へ復帰せずに音声認識処理も終了する。

なお、ステップＳ１１１が肯定となり、ステップＳ１１２およびステップＳ１１３が実行される場合は、周囲の雑音がきわめて大きいために音声認識に失敗したケースである。この場合は、ユーザが改めて発話したとしても、周囲の雑音が改善されない限りは、音声認識は成功しないレベルである。

一方、ステップＳ１１４では、音声認識失敗原因分析部１０４は、雑音の振幅レベルの平均がＸ₁以上Ｘ₂未満か否かを判定する。雑音の振幅レベルの平均がＸ₁以上Ｘ₂未満であると判定される場合に（ステップＳ１１４肯定）、ステップＳ１１５へ移り、雑音の振幅レベルの平均がＸ₁以上Ｘ₂未満であると判定されない場合に（ステップＳ１１５否定）、雑音要因分析処理を終了し音声認識処理へ復帰する。

ステップＳ１１５では、音声認識失敗原因分析結果通知部１０５は、音声認識失敗原因分析部１０４の指示により、出力インターフェース部２０２を介して、スピーカ５００から、録音されているマイク入力音声を再生する。そして、音声認識失敗原因分析結果通知部１０５は、出力インターフェース部２０２を介して、ディスプレイ４００に、例えば「周囲の雑音で聞き取れません。もう少し大きな声でお話いただくか、周囲が静かになってからお話ください」と表示し、またはスピーカ５００から同様のメッセージの音声を出力する（ステップＳ１１６）。この処理が終了すると、雑音要因分析処理を終了し、音声認識処理へ復帰せずに音声認識処理も終了する。

なお、ステップＳ１１４が肯定となり、ステップＳ１１５およびステップＳ１１６が実行される場合は、周囲の雑音が大きいために音声認識に失敗したケースである。この場合は、ユーザが改めて大きな声で発話すると、音声認識に成功する可能性があるレベルである。

以上の処理によって、ユーザは、周囲の雑音が大きかったために発話が正しく音声認識されなかったかを知り、どのように対処して発話すると正しく音声認識されるかを知ることが可能となる。

次に、図２のステップＳ１１０に示したユーザ発話態様要因分析処理の詳細について説明する。図４は、ユーザ発話態様要因分析処理手順を示すフローチャートである。なお、以下の説明で使用するＹ（ｄＢ）は、音声認識失敗原因分析部１０４にあらかじめ設定される、入力音声の最大値の閾値である。また、Ｚ₁（ｄＢ）およびＺ₂（ｄＢ）（ただしＺ₁＜Ｚ₂）は、音声認識失敗原因分析部１０４にあらかじめ設定される、音声認識モデルと比較した場合の一文字単位の発声時間の閾値である。

同図に示すように、音声認識失敗原因分析部１０４は、先ず、入力音声の振幅レベルの最大がＹ以上となる区間が一定の長さ以上存在するか否かを判定する（ステップＳ１２１）。入力音声の振幅レベルの最大がＹ以上となる区間が一定の長さ以上存在すると判定される場合に（ステップＳ１２１肯定）、ステップＳ１２２へ移り、入力音声の振幅レベルの最大がＹ以上となる区間が一定の長さ以上存在すると判定されない場合に（ステップＳ１２１否定）、ステップＳ１２４へ移る。

この処理によって、ユーザは、発話音声が小さかったために正しく音声認識されなかったことを知り、発話音声を大きくして発話すると正しく音声認識されることを認識することが可能となる。

ステップＳ１２２では、音声認識失敗原因分析結果通知部１０５は、音声認識失敗原因分析部１０４の指示により、出力インターフェース部２０２を介して、スピーカ５００から、録音されているマイク入力音声を再生する。そして、音声認識失敗原因分析結果通知部１０５は、出力インターフェース部２０２を介して、ディスプレイ４００に、例えば「お話が聞き取れません。もう少し大きな声でお話しください」と表示し、またはスピーカ５００から同様のメッセージの音声を出力する（ステップＳ１２３）。この処理が終了すると、ユーザ発話態様要因分析処理を終了し、音声認識処理へ復帰する。

なお、ステップＳ１２１が肯定となり、ステップＳ１２２およびステップＳ１２３が実行される場合は、ユーザによる発話音声の出力レベルが小さい、すなわち発話音声が小さいために音声認識に失敗したケースである。

一方、ステップＳ１２４では、音声認識失敗原因分析部１０４は、音声認識モデルと比較した場合の一文字単位の発声時間がＺ₁以下となるか否かを判定する。音声認識モデルと比較した場合の一文字単位の発声時間がＺ₁以下となると判定される場合に（ステップＳ１２４肯定）、ステップＳ１２５へ移り、音声認識モデルと比較した場合の一文字単位の発声時間がＺ₁以下となると判定されない場合に（ステップＳ１２４否定）、ステップＳ１２７へ移る。

ステップＳ１２５では、音声認識失敗原因分析結果通知部１０５は、音声認識失敗原因分析部１０４の指示により、出力インターフェース部２０２を介して、スピーカ５００から、録音されているマイク入力音声を再生する。そして、音声認識失敗原因分析結果通知部１０５は、出力インターフェース部２０２を介して、ディスプレイ４００に、例えば「発話速度が速いため、お話が聞き取れません。もう少しゆっくりとお話しください」と表示し、またはスピーカ５００から同様のメッセージの音声を出力する（ステップＳ１２６）。この処理が終了すると、ユーザ発話態様要因分析処理を終了し、音声認識処理へ復帰する。

なお、ステップＳ１２４が肯定となり、ステップＳ１２５およびステップＳ１２６が実行される場合は、ユーザによる発話速度が速い、すなわち早口で発話しているために音声認識に失敗したケースである。

一方、ステップＳ１２７では、音声認識失敗原因分析部１０４は、音声認識モデルと比較した場合の一文字単位の発声時間がＺ₂以上となるか否かを判定する。音声認識モデルと比較した場合の一文字単位の発声時間がＺ₂以上となると判定される場合に（ステップＳ１２７肯定）、ステップＳ１２８へ移り、音声認識モデルと比較した場合の一文字単位の発声時間がＺ₂以上となると判定されない場合に（ステップＳ１２７否定）、ステップＳ１３０へ移る。

ステップＳ１２８では、音声認識失敗原因分析結果通知部１０５は、音声認識失敗原因分析部１０４の指示により、出力インターフェース部２０２を介して、スピーカ５００から、録音されているマイク入力音声を再生する。そして、音声認識失敗原因分析結果通知部１０５は、出力インターフェース部２０２を介して、ディスプレイ４００に、例えば「発話速度が遅いため、お話が聞き取れません。もう少し速くお話しください」と表示し、またはスピーカ５００から同様のメッセージの音声を出力する（ステップＳ１２９）。この処理が終了すると、ユーザ発話態様要因分析処理を終了し、音声認識処理へ復帰する。

なお、ステップＳ１２７が肯定となり、ステップＳ１２８およびステップＳ１２９が実行される場合は、ユーザによる発話速度が遅いために音声認識に失敗したケースである。

以上の処理によって、ユーザは、発話速度が適切でないために正しく音声認識されなかったことを知り、発話速度を適切にすると正しく音声認識されうることを知ることが可能となる。

一方、ステップＳ１３０では、音声認識失敗原因分析結果通知部１０５は、音声認識失敗原因分析部１０４の指示により、出力インターフェース部２０２を介して、スピーカ５００から、録音されているマイク入力音声を再生する。そして、音声認識失敗原因分析結果通知部１０５は、出力インターフェース部２０２を介して、ディスプレイ４００に、例えば「コマンドでない可能性があります。ヘルプで確認していただくか、コマンドである場合にはもう少しはっきりとお話ください」と表示し、またはスピーカ５００から同様のメッセージの音声を出力する（ステップＳ１３１）。この処理が終了すると、ユーザ発話態様要因分析処理は終了し、音声認識処理へ復帰する。

なお、ステップＳ１２７が否定となり、ステップＳ１３０およびステップＳ１３１が実行される場合は、ユーザによる発話音声の出力レベルが十分であり、かつユーザによる発話速度も適切であるが、音声認識に失敗しているために、ユーザによってコマンドでない音声が発話されたために音声認識に失敗したか、ユーザによる発話が明瞭でないために音声認識に失敗したと推定されるケースである。このため、ユーザによってコマンドでない音声が発話されたケースを想定して、ヘルプを確認して、ヘルプに記載される正しいコマンドを発話するように促すことが有意義となる。

この処理によって、ユーザは、発話の音声出力が適切であり、周囲の雑音もなく発話速度も適切であったが正しく音声認識されなかったことを知り、これら例外の要因によって音声認識が失敗したと推定することができ、ある程度要因を絞った上で再び発話することとなるので、再び発話した際に音声認識が成功する可能性を高め、かつユーザの苛立ちを軽減することが可能となる。

なお、図４のステップＳ１２４およびステップＳ１２７で、ユーザの発話速度を検知する方法は次の通りである。例えば、音声認識のある段階で、音声入力により受け付け可能なコマンドを10文字以上20文字以下とし、一文字（一音）の発話にかかる時間を0.25秒以上0.5秒以下とする場合を想定する。この想定では、発話音声が音声認識される時間は、0.25秒×10文字＝2.5秒から0.5秒×20文字＝10秒までの範囲をとる。よって、この2.5秒を下回る場合に「発話速度が速い」と判定し、10秒を超える場合に「発話速度が遅い」と判定する。

あるいは、音素ごとのパワー（出力）のピーク分布を参照し、ピークの集中度を見て発話速度を判定する。例えば図５（１）に示すように、パワーのピーク幅が所定幅より短く、一定時間にパワーのピークが集中している場合に「発話速度が速い」と判定し、図５（２）に示すように、パワーのピーク幅が所定幅より長く、一定時間にパワーのピークが集中していない場合に「発話速度が遅い」と判定してもよい。

以上、本発明の実施例を説明したが、本発明は、これに限られるものではなく、特許請求の範囲に記載した技術的思想の範囲内で、更に種々の異なる実施例で実施されてもよいものである。また、実施例に記載した効果は、これに限定されるものではない。

上記実施例では、ユーザによる発話の音声認識に失敗したことを前提として録音された音声を再生するとしている。しかし、これに限らず、音声認識の成否にかかわらず録音された音声を再生するとしてもよい。これによって、ユーザは、どのように発話すると正しく音声認識され、どのように発話すると正しく音声認識されないかを確認し、認識することが可能となる。

また、上記実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記実施例で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵ（Central Processing Unit）（またはＭＰＵ（Micro Processing Unit）、ＭＣＵ（Micro Controller Unit）などのマイクロ・コンピュータ）および当該ＣＰＵ（またはＭＰＵ、ＭＣＵなどのマイクロ・コンピュータ）にて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現されてもよい。

本発明は、音声認識が失敗した原因を特定し、ユーザに音声認識に失敗した原因を知らしめ、適切な対処を取らせるよう支援したい場合に有用である。

実施例にかかる音声認識装置の構成を示す機能ブロック図である。音声認識処理手順を示すフローチャートである。雑音要因分析処理手順を示すフローチャートである。ユーザ発話態様要因分析処理手順を示すフローチャートである。ユーザの発話速度の検知方法例の概略を示す図である。

符号の説明

１００音声認識装置
１０１音声認識エンジン部
１０２入力音声録音部
１０３音声認識結果判定部
１０４音声認識失敗原因分析部
１０５音声認識失敗原因分析結果通知部
２００カーナビゲーション装置
２０１カーナビゲーション制御部
２０２出力インターフェース
２０２出力インターフェース部
３００マイク
４００ディスプレイ
５００スピーカ

Claims

ユーザの発話を検知して該発話の内容を識別してコマンドへ変換する処理をおこなうコマンド変換手段を有し、該コマンド変換手段によって変換されたコマンドを、該コマンドに基づいて動作する装置へ受け渡す音声認識装置であって、
前記発話を録音する発話録音手段と、
前記コマンド変換手段が前記発話の内容を識別してコマンドへ変換する処理に失敗した場合に、前記発話録音手段によって録音された前記発話を前記ユーザが確認可能に再生する発話再生手段と、
前記コマンド変換手段が前記発話の内容を識別してコマンドへ変換する処理に失敗した場合に、その原因を特定する原因特定手段と、
前記原因特定手段によって特定された原因とともに該原因への対処法を前記ユーザに報知する報知手段と
を備えたことを特徴とする音声認識装置。
前記原因特定手段は、前記ユーザの発話の音声出力が一定時間以上所定閾値を越えるか否かを判定する発声出力手段を含み、
前記報知手段は、前記発声出力手段により前記ユーザの発話の音声出力が一定時間以上にわたり所定閾値を越えると判定されなかった場合に、この判定結果を該ユーザに報知することを特徴とする請求項１に記載の音声認識装置。
前記原因特定手段は、前記ユーザの発話が周囲の雑音を一定レベル以上含むか否かを判定する雑音判定手段を含み、
前記報知手段は、前記雑音判定手段により前記ユーザの発話が周囲の雑音を前記一定レベル以上含むと判定された場合に、この判定結果を該ユーザに報知することを特徴とする請求項１または２に記載の音声認識装置。
前記原因特定手段は、前記ユーザの発話の速度が所定範囲内であるか否かを判定する発話速度判定手段を含み、
前記報知手段は、前記発話速度判定手段により前記ユーザの発話の速度が前記所定範囲内でないと判定された場合に、この判定結果を該ユーザに報知することを特徴とする請求項１、２または３に記載の音声認識装置。
前記コマンド変換手段が前記発話の内容を識別してコマンドへ変換する処理に失敗したにもかかわらず、発声出力手段が前記ユーザの発話の音声出力が一定時間以上所定閾値を越えると判定し、かつ前記雑音判定手段が前記ユーザの発話が周囲の雑音を前記一定レベル以上含まないと判定し、かつ前記発話速度判定手段が前記ユーザの発話の速度が前記所定範囲内であると判定した場合に、前記報知手段は、コマンドに対応する発話を再びおこなうように促す報知をおこなうことを特徴とする請求項４に記載の音声認識装置。
ユーザの発話を検知して該発話の内容を識別してコマンドへ変換する処理をおこなうコマンド変換工程を含み、該コマンド変換工程によって変換されたコマンドを、該コマンドに基づいて動作する装置へ受け渡す音声認識方法であって、
前記発話を録音する発話録音工程と、
前記コマンド変換工程において前記発話の内容を識別してコマンドへ変換する処理が失敗した場合に、前記発話録音工程によって録音された前記発話を前記ユーザが確認可能に再生する発話再生工程と、
前記コマンド変換工程において前記発話の内容を識別してコマンドへ変換する処理が失敗した場合に、その原因を特定する原因特定工程と、
前記原因特定工程によって特定された原因とともに該原因への対処法を前記ユーザに報知する報知工程と
を含んだことを特徴とする音声認識方法。