JP2011027757A

JP2011027757A - オーディオ機器用音声認識装置

Info

Publication number: JP2011027757A
Application number: JP2007303156A
Authority: JP
Inventors: Takahisa Aoyanagi; 貴久青柳; Makoto Kato; 真加藤; Atsuhito Yano; 敦仁矢野
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-11-22
Filing date: 2007-11-22
Publication date: 2011-02-10
Also published as: WO2009066401A1

Abstract

【課題】最終的に出力されるオーディオ信号の出力レベルに音声認識の結果を反映させることによりユーザの意向を車載用オーディオ機器に伝え、音声認識率の向上をはかる。
【解決手段】エコー減衰部２がマイク１によって集音され出力される信号に含まれるオーディオ信号を除去して音声認識処理を実行するオーディオ機器用音声認識装置において、音声認識結果判定部９が、音声認識部７により出力されるスコア、音声区間検出結果、およびユーザ操作を判定し、オーディオ出力制御量決定部８が、オーディオ信号の出力レベルを所定の値以下になるようにボリューム減衰量を決定し、オーディオ出力制御部１４が、決定されたボリューム減衰量にしたがいオーディオ再生部１２により出力されるオーディオ信号出力のレベル減衰制御を行なう。
【選択図】図１

Description

この発明は、マイクから入り込むオーディオ信号を含む雑音信号をエコーキャンセラにより減少させて音声認識を行なう、オーディオ機器用音声認識装置に関するものである。

マルチチャンネルオーディオを再生するＴＶ、ラジオ、複合ナビゲーションシステム等の車載用オーディオ機器を操作するにあたり、走行中の安全性の観点から音声認識による操作が広く導入されるようになった。
しかしながら、現状の音声認識装置は、音声認識率を低下させないために、音声認識操作のたびに車載用オーディオ機器から出力される音声信号を完全に遮断してしまう。このため、音声認識操作を行う毎にそれまでに聴取していた音楽等のオーディオ信号が途切れ、利用者の聴取を妨げるといった問題があった。特に、運転者等の利用者以外の同乗者にとっては音声認識操作とは無関係に音楽を聴取していることがほとんどであるため、音楽再生が頻繁に断続されると不快感が増すことになる。

上記した問題を解決するために、車載用オーディオ機器における音声認識装置のマイクから入り込む雑音信号（エコー成分）をエコーキャンセラにより減少させ、音声認識させる装置が知られている（例えば、特許文献１、特許文献２参照）。
また、上記した音声認識装置において、車載用オーディオ機器のオーディオ出力レベル、もしくはエコーキャンセル後の残量エコー量が所定閾値以下になるか、マイクに入力される発話者の音声とエコー成分のパワーの比が閾値以上になるように、オーディオ信号の出力レベルを制御することにより、車載オーディオ機器から出力されるオーディオ信号を完全に遮断させることなく音声認識を向上させた音声入力装置も知られている（例えば、特許文献３参照）。

特開２００１−１００７８５号公報特開平６−１４９２９０号公報特開２００１−２３６０９０号公報

上記した特許文献１〜３に開示された技術によれば、車載用オーディオ機器における音声認識装置のマイクから入り込む雑音信号（エコー成分）をエコーキャンセラにより減少させて音声認識させるため、入力音声以外のオーディオ音を必要以上に断続することなく入力音声を抽出することができる。
しかしながら、これによっても音声認識が成功するとは限らず、最終的に出力されるオーディオ信号の出力レベルに音声認識の結果が反映されていないため、ユーザの意向が車載用オーディオ機器に伝わらないという問題があった。

この発明は上記した課題を解決するためになされたものであり、最終的に出力されるオーディオ信号の出力レベルに音声認識の結果を反映させることによりユーザの意向を車載用オーディオ機器に伝え、音声認識率の向上をはかったオーディオ機器用音声認識装置を提供することを目的とする。

この発明に係るオーディオ機器用音声認識装置は、オーディオ再生部と、前記オーディオ再生部により再生されるオーディオ信号を所定の利得で減衰させてスピーカから出力するオーディオ出力制御部と、マイクロフォンに入力される音声を含む信号から前記信号に含まれる前記オーディオ信号に対応するエコー成分を除去するエコー減衰部と、前記エコー減衰部から出力される前記音声について音声認識処理を行う音声認識部と、前記音声認識部による音声認識処理の結果を判定する音声認識結果判定部と、前記音声認識結果判定部から出力される音声認識処理の判定結果により前記オーディオ出力制御部の減衰量を決定するオーディオ出力制御量決定部と、を備えたものである。

この発明のオーディオ機器用音声認識装置によれば、最終的に出力されるオーディオ信号の出力レベルに音声認識の結果を反映させることにより、ユーザの意向を車載用オーディオ機器に伝えることができ、音声認識率の向上をはかることができる。

実施の形態１．
図１は、この発明に係るオーディオ機器用音声認識装置の内部構成を示すブロック図である。

図１に示されるように、この発明に係るオーディオ機器用音声認識装置１００は、マイク１からの信号を入力する信号変換部２と、エコー減衰部３と、エコー減衰量測定部４と、騒音レベル検出部５と、騒音減衰部６と、音声認識部７と、オーディオ出力制御量決定部８と、音声認識結果判定部９と、ユーザインタフェース（Ｉ／Ｆ）部１０と、表示部１１と、オーディオ再生部１２と、記憶部１３と、オーディオ出力制御部１４と、スピーカ１５と、発話ボタンおよび操作ボタン１６と、により構成される。
なお、図１中、実線矢印は音声信号の流れを、点線矢印は制御信号の流れを、一点鎖線矢印はオーディオ信号の流れを示す。

上記した構成において、オーディオ再生部１２から出力されるオーディオ信号は、オーディオ出力制御装置１４でパワー（振幅）変換され、スピーカ１５から出力されるとともに、エコー減衰部３に入力される。
一方、マイク１は、発話者の発話音声、この発話音声に混入されたスピーカ１５から出力されるオーディオ信号、および周囲の背景雑音を集音して取り込み、信号変換部２に供給し、信号変換部２によりＡ／Ｄ（Analog／Digital）変換が行われる。

信号変換部２でＡ／Ｄ変換された信号は、エコー減衰部３で、スピーカ１５から出力されたオーディオ信号のエコー成分のみ除去され、エコー減衰量測定部４に入力される。
エコー減衰量測定部４は、スピーカ１５から出力されたオーディオ信号がどれだけ除去されたかを測定し、この測定結果をオーディオ出力制御量決定部８へ出力するとともに、入力信号をそのまま騒音レベル検出部５へ出力する。

騒音レベル検出部５は、入力された信号に対して発話者の発話音声以外の雑音成分（騒音）のレベルを測定し、この測定結果をオーディオ出力制御量決定部８へ出力するとともに、入力信号をそのまま騒音減衰部６へ出力する。
騒音減衰部６は、発話者の発話音声以外の雑音成分（騒音）のレベルを入力信号から除去し、音声認識部７へ出力する。音声認識部７は、入力された信号から発話信号を抽出し、音声認識処理を行うとともに、その音声認識結果を音声認識結果判定部９へ出力し、発話者の発話レベルをオーディオ出力制御量決定部８へ出力する。

ところで、ユーザは、音声認識処理を実施する際、発話ボタンおよび操作ボタン１６のうち、発話ボタンの押下により音声認識処理を開始し、その音声認識処理結果を音声案内としてスピーカ１５を介して出力するとともに、表示部１１にその結果を表示する。上記スピーカ１５から出力される音声案内は、オーディオ出力の音量に応じて応答音量を決定してもよい。

ユーザＩ／Ｆ部１０は、発話ボタンおよび操作ボタン１６の発話ボタンによる発話開始タイミング、発話ボタンおよび操作ボタン１６の操作ボタン押下による音声認識処理結果に対するキャンセルもしくは訂正などのユーザ指示を音声認識結果判定部９に出力するとともに、音声認識処理の結果を表示部１１に表示させる。このとき、音声認識結果判定部９は、音声認識部７による音声認識結果と、ユーザＩ／Ｆ部１０のユーザ操作結果とから、音声認識が失敗したか否かを判定し、この判定結果をオーディオ出力制御量決定部８へ出力する。

オーディオ出力制御量決定部８は、信号変換部２からの変換信号と、音声認識結果判定部９による音声認識処理の判定結果と、エコー減衰量測定部４で測定されたエコー量、およびエコー消去量と、音声認識部７で測定された発話レベルと、騒音レベル検出部５で測定された騒音レベルとから、オーディオ信号レベルの閾値を決定し、閾値オーディオ出力制御部１４へ出力する。
オーディオ出力制御部１４は、発話ボタンおよび操作ボタン１６の発話ボタンが押下された際、現在のオーディオ信号出力レベル（ボリューム値）と閾値とを比較し、ボリューム値が閾値より大きいと判定された場合には、オーディオ再生部１２から出力されるオーディオ信号出力レベルをボリューム制御により閾値まで減衰させ、音声認識処理が終了した時点でボリューム値を減衰前のレベルに戻す。

音声認識結果判定部９は、音声認識部７による音声認識処理結果と、ユーザＩ／Ｆ部１０のユーザ操作結果とから、音声認識が失敗したか否かを判定し、この判定結果をオーディオ出力制御量決定部８へ出力する。
音声認識結果判定部９による音声認識結果判定のために使用されるテーブルデータの一例が、図２、図３に表形式（それぞれ、＜表１＞、＜表２＞として）で示されている。

具体的に、図２の＜表１＞に示されるように、音声認識部７による音声認識処理結果において音声区間（音声が存在する区間）の検出が成功した場合、ユーザＩ／Ｆ部１０のユーザ操作結果（キャンセル操作、訂正操作、操作なし）と、音声認識部７で音声認識処理の結果生成される認識スコア（信頼度）とから、判定結果を、「認識失敗Ａ」、「認識失敗Ｂ」、「認識失敗Ｃ」、「認識成功」に分類する。
なお、信頼度は数値が高いほど信頼性が高いものとし、例えば、信頼度が７６〜１００でユーザ操作無しとし、このとき、音声認識結果判定部９は、信頼度が高く、ユーザも訂正やキャンセル操作を行っていないため、音声認識処理が成功したものと判定し、「認識成功」とする判定結果をオーディオ出力制御量決定部８へ出力する。

また、信頼度が５１〜７５で、ユーザＩ／Ｆ部１０により取り込まれるユーザ操作が訂正操作であった場合、音声認識結果判定部９は、信頼度は多少高いが、ユーザが訂正操作を行っているため認識が失敗したかもしれないと判定し、「認識失敗Ｃ」とする判定結果をオーディオ出力制御量決定部８へ出力する。
また、信頼度が０〜２５で、ユーザＩ／Ｆ部１０により取り込まれるユーザ操作が訂正操作であった場合、音声認識結果判定部９は、信頼度は低く、ユーザが訂正操作を行っているため認識が失敗した可能性が非常に高いものとし、「認識失敗Ａ」とする判定結果をオーディオ出力制御量決定部８へ出力する。

なお、上記したこの発明に係るオーディオ機器用音声認識装置において、認識が失敗である可能性は、認識失敗Ａ＞認識失敗Ｂ＞認識失敗Ｃとなっており、認識失敗Ａが失敗の確率が高いことになる。
また、音声認識部７による音声認識処理の結果、音声区間検出が失敗したと判定された場合、図３の＜表２＞に示されるように、音声区間検出が失敗した時点で音声認識処理が正常に行われなかったものとし、ユーザ操作に関わらず、「認識失敗Ａ」とする判定結果をオーディオ出力制御量決定部８へ出力する。

また、図２の＜表１＞、および図３の＜表２＞に示されるデータは、記憶部１３の所定の領域にテーブルデータとして割り付け記憶させることもでき、このことにより、過去の任意回数分の認識処理結果を記憶部１３に履歴として保持することが出来、演算により平均値を算出することも可能である。

なお、音声認識を行う音声処理系では、音声が存在する区間を正確に検出することは極めて重要であり、比較的静かな環境で明確に発話されている場合、信号レベルに適当な閾値を設けることで比較的容易に音声区間を検出できるが、ハンズフリーの状況で発話されている場合、周囲雑音や他の音声（環境音）が混入してしまうため、音声区間の検出が困難になる。音声区間を誤って検出すると、認識率の低下や品質の劣化等、深刻な問題が生じるため、ここでは、例えば、入力信号から抽出した特徴量の系列と、予め用意した音声と環境音のモデル、およびそれらを重畳したモデルとの照合を行なう「パターンマッチング」の枠組みで音声区間の検出を行なっている。

ところで、オーディオ出力制御量決定部８は、信号変換部２からの変換信号と、音声認識結果判定部９による判定結果と、エコー減衰量測定部４で測定されたエコー量およびエコー消去量と、音声認識部７で測定された発話レベルと、騒音レベル検出部５で測定された騒音レベルとから、オーディオ信号の出力レベルの閾値を決定し、この閾値をオーディオ出力制御部１４へ出力する。
オーディオ出力制御量決定部８による閾値決定のために使用されるテーブルデータの一例を、図４〜図７に表形式（それぞれ、＜表３＞、＜表４＞、＜表５＞、＜表６＞）で示している。

図４に示すテーブルデータ＜表３＞において、レベルＶ０、Ｖ１、Ｖ２、Ｖ３の各レベルの大小比較は、Ｖ０＜Ｖ１＜Ｖ２＜Ｖ３の関係であって、Ｖ０が一番小さく、Ｖ３が一番大きいレベルである。なお、閾値ＡＴＴ＊＊は、＊＊の数値が大きい程、閾値のレベルが大きい（つまり、減衰量は小さい）ものとする。
＜表３＞のテーブルデータにおいて、音声認識に失敗した場合、失敗の可能性が高い「認識失敗Ａ」のほうが、失敗の可能性が低い「認識失敗Ｃ」に比べて閾値のレベルは小さくなる。また、認識失敗の可能性が同じ場合でもボリューム値（Ｖ０、Ｖ１、Ｖ２、Ｖ３）が小さい程閾値のレベルは小さくなる。＜表４＞、＜表５＞、＜表６＞に示されるテーブルデータも同様である

以下、この発明に係るオーディオ機器用音声認識装置の動作について、オーディオ出力制御量決定部８が参照するテーブルデータ毎にそれぞれ説明する。

図８は、この発明の実施の形態１に係るオーディオ機器用音声認識装置の動作を示すフローチャートであり、図４に示す＜表３＞を参照しながら詳細に説明する。

図８のフローチャートにおいて、オーディオ出力制御量決定部８は、まず、閾値レベルを初期化する（ステップＳＴ８０１）。初期値は任意に設定でき、このため、平均的な話者の発話レベルで音声認識処理による認識率が高いときの音楽聴取レベルとしてもよい。
ユーザが発話ボタンおよび操作ボタン１６のうち発話ボタンを押下することにより音声認識を開始しようとすると（ステップＳＴ８０２“ＹＥＳ”）、オーディオ出力制御量決定部８は、まず、記憶部１３から過去の音声認識結果に関するテーブルデータを取得する（ステップＳＴ８０３）。

オーディオ出力制御量決定部８は、過去に音声認識していないか、あるいは音声認識が成功している場合、閾値レベルを変更せずに以前の閾値レベルを維持するが、過去の音声認識結果が、例えば、認識失敗である場合には（ステップＳＴ８０４“ＹＥＳ”）、図４に示す＜表３＞のテーブルデータにしたがいオーディオ出力信号レベルが閾値より大きいか否かを判定する（ステップＳＴ８０６）。具体的には、オーディオ出力信号レベル（ボリューム値）と、過去の認識結果である認識失敗の可能性（認識失敗Ａ、認識失敗Ｂ、認識失敗Ｃ）についてのデータとから、該当する閾値（ＡＴＴ＊＊）を決定する。

ここで決定された閾値は、オーディオ出力制御部１４へ出力され、オーディオ出力制御部１４は、現在のボリューム値と決定された閾値とを比較し、現在のボリューム値が閾値より大きい場合には（ステップＳＴ８０６“ＹＥＳ”）、オーディオ再生部１２から出力されるオーディオ信号をボリューム制御により閾値まで減衰させ（ステップＳＴ８０７）、音声認識が終了した時点で（ステップＳＴ８０８“ＹＥＳ”）、ボリュームを減衰前のレベルに戻す（ステップＳＴ８０９）。
なお、音声認識が終了した時点とは、認識結果が表示され、この認識結果に対するユーザ操作（決定、キャンセル、訂正等）があったタイミング、あるいは音声認識処理の結果、音声区間の検出成功、失敗が通知されたタイミングをいう。

なお、図４の＜表３＞に示すテーブルデータは、上記したように記憶部１３に保持することができ、この場合、過去の任意回数分の減衰量（ＡＴＴ）を履歴として記憶させることができるため、過去の減衰量の平均値を減衰量（ＡＴＴ）として決定することも出来る。

上記したこの発明の実施の形態１に係るオーディオ機器用音声認識装置は、エコー減衰部３がマイク１によって集音され出力される信号に含まれるオーディオ信号を除去して音声認識部７による音声認識処理を実行するオーディオ機器用音声認識装置であって、音声認識結果判定部９が、音声認識部７により出力されるスコア（信頼度）、音声区間検出結果、およびユーザ操作によるキャンセル操作あるいは訂正操作を判定し、また、オーディオ出力制御量決定部８が、スピーカ１５から出力されるオーディオ信号の出力レベルを所定の値以下になるようにボリューム減衰量を決定し、更に、オーディオ出力制御部１４が、決定されたボリューム減衰量にしたがいオーディオ再生部１２により出力されるオーディオ信号出力のレベル減衰制御を行なうものである。

上記構成により、スピーカ１５から出力される音量を必要以上に低下させることなく、発話者の発話音声のみを抽出することができ、かつ、認識率を低下させることなく音声認識を行なうことができる。また、記憶部１３を備えているため、過去の任意回数分の認識結果、あるいはその音声認識結果とオーディオ信号出力レベルとにより決定される減衰量をテーブルデータとして持たせることができ、演算によりその平均値を算出して適当な減衰量を決定することも出来る。このため、テーブル索引により簡単に過去の事例にしたがう最適減衰量を算出することができる。

実施の形態２．
図９は、この発明の実施の形態２に係るオーディオ機器用音声認識装置の動作を示すフローチャートであり、図５に示す＜表４＞を参照しながら詳細に説明する。

図９のフローチャートにおいて、オーディオ出力制御量決定部８は、まず、閾値レベルを初期化する（ステップＳＴ９０１）。初期値は任意に設定でき、このため、平均的な話者の発話レベルで音声認識処理による認識率が高いときの音楽聴取レベルとしてもよい。
ユーザが発話ボタンおよび操作ボタン１６の発話ボタンを押下することにより音声認識を開始しようとすると（ステップＳＴ９０２“ＹＥＳ”）、オーディオ出力制御量決定部８は、まず、記憶部１３から過去の音声認識結果に関するデータを取得する（ステップＳＴ９０３）。

オーディオ出力制御量決定部８は、過去に音声認識していないか、あるいは音声認識が成功している場合、閾値レベルを変更せずに以前の閾値レベルを維持するが、過去の音声認識結果が、例えば認識失敗である場合には（ステップＳＴ９０４“ＹＥＳ”）、エコー減衰量測定部４および騒音レベル検出部５からマイク入力エコーレベルおよび騒音レベルを取得し（ステップＳＴ９０５）、マイク入力エコーレベルによる音声認識の失敗の有無を判定する（ステップＳＴ９０６）。

ここで、マイク入力エコーレベルに比べて騒音レベルが大きいと判定された場合（ステップＳＴ９０６“ＮＯ”）、オーディオ出力制御量決定部８は、音声認識に失敗した理由がオーディオ信号のエコーによるものではなく騒音によるものであると判定し、スピーカ１５に出力される音量を低下させることなく騒音を減少させるメッセージ（騒音減少依頼通知）を生成して、例えば表示部１１に表示し（ステップＳＴ９０７）、ユーザに通知することができる。

一方、マイク入力エコーレベルに比べて騒音レベルが小さいと判定された場合（ステップＳＴ９０６“ＹＥＳ”）、オーディオ出力制御量決定部８は、音声認識に失敗した理由がオーディオ信号のエコーによるものであると判定し、図５に示す＜表４＞を参照して、マイク１に入力されるエコーレベルと認識失敗の可能性についてのデータ（認識失敗Ａ、認識失敗Ｂ、認識失敗Ｃ）とから、該当する閾値レベル（ＡＴＴ＊＊）を決定する（ステップＳＴ９０８）。

ここで決定された閾値は、オーディオ出力制御部１４へ出力され、オーディオ出力制御部１４は、現在のボリューム値と閾値とを比較して、オーディオ出力信号レベルが閾値より大きいか否かを判定する（ステップＳＴ９０９）。
ここで、オーディオ出力信号レベルが閾値より大きいと判定された場合（ステップＳＴ９０９“ＹＥＳ”）、オーディオ出力制御量決定部８は、オーディオ再生部１２から出力されるオーディオ信号レベルをボリューム制御により閾値まで減衰させ（ステップＳＴ９１０）、音声認識が終了した時点で（ステップＳＴ９１１“ＹＥＳ”）ボリュームを減衰前のレベルに戻す（ステップＳＴ９１２）。

なお、図５に＜表４＞として示すデータは、記憶部１３に保持することができ、過去の任意回数分の減衰量（ＡＴＴ量）を記憶部１３に記憶させることが出来るため、過去の減衰量の平均から減衰量（ＡＴＴ量）を決定することも出来る。

上記したこの発明の実施の形態２に係るオーディオ機器用音声認識装置によれば、エコー減衰量測定部４および騒音レベル検出部５を備え、マイク１に入力されるエコーレベルからオーディオ信号出力レベルの減衰量を決定することで、音声認識が失敗した場合に、その原因がスピーカ１５から出力されるオーディオ信号の出力レベルによるものか、オーディオ信号の出力レベルによるもの以外の騒音によるものかを推測することができ、したがって、原因がスピーカ１５から出力されるオーディオ信号の出力レベルによる場合のみスピーカ１５からの音量の所定の値以下になるように減衰させることができる。
このため、効率良く、スピーカ１５から出力される音量を必要以上に低下させることなく発話者の発話音声のみを抽出し、認識率を低下させずに音声認識を行なうことができる。さらに、原因がオーディオ信号の出力レベルによるもの以外の騒音によるものの場合には、スピーカ１５から出力される音量を低下させることなくユーザに対して騒音の減少を促すメッセージ（騒音減少依頼通知）を通知することができる。

また、記憶部１３を備えているため、音声認識結果、あるいは音声認識結果とマイク入力エコーレベルとにより決定される減衰量をテーブルデータとして持たせることができ、このため、テーブル索引により簡単に過去の事例にしたがう最適減衰量を算出することができる。

実施の形態３．
図１０は、この発明の実施の形態３に係るオーディオ機器用音声認識装置の動作を示すフローチャートであり、図６に示す＜表５＞を参照しながら詳細に説明する。

図１０のフローチャートにおいて、オーディオ出力制御量決定部８は、まず、閾値のレベルを初期化する（ステップＳＴ１０１）。初期値は任意に設定でき、このため、平均的な話者の発話レベルで音声認識処理による認識率が高いときの音楽聴取レベルとしてもよい。
ユーザが発話ボタンおよび操作ボタン１６の発話ボタンを押下することにより音声認識を開始しようとすると（ステップＳＴ１０２“ＹＥＳ”）、オーディオ出力制御量決定部８は、まず、記憶部１３から過去の音声認識結果に関するデータを取得する（ステップＳＴ１０３）。

オーディオ出力制御量決定部８は、過去に音声認識していないか、あるいは音声認識が成功しているのであれば、閾値レベルを変更せずに以前の閾値レベルを維持するが、過去の音声認識結果が、例えば認識失敗である場合には（ステップＳＴ１０４“ＹＥＳ”）、エコー減衰量測定部４および騒音レベル検出部５からエコー減衰レベルおよび騒音レベルを取得し（ステップＳＴ１０５）、エコー減衰レベルによる音声認識の失敗の有無を判定する（ステップＳＴ１０６）。

ここで、エコー減衰レベルに比べて騒音レベルが大きいと判定された場合（ステップＳＴ１０６“ＮＯ”）、オーディオ出力制御量決定部８は、音声認識に失敗した理由がオーディオ信号のエコーによるものではなく騒音によるものであると判定し、スピーカ１５に出力される音量を低下させることなく騒音を減少させるメッセージ（騒音減少依頼通知）を生成して例えば表示部１１に表示し（ステップＳＴ１０７）、このことにより、ユーザに通知することができる。

一方、エコー減衰レベルに比べて騒音レベルが小さいと判定された場合（ステップＳＴ１０６“ＹＥＳ”）、オーディオ出力制御量決定部８は、音声認識に失敗した理由がオーディオ信号のエコーによるものであると判定し、図６に示す＜表５＞を参照して、エコー減衰レベルと認識失敗の可能性についてのデータ（認識失敗Ａ、認識失敗Ｂ、認識失敗Ｃ）とから、該当する閾値レベル（ＡＴＴ＊＊）を決定する（ステップＳＴ１０８）。

ここで決定された閾値は、オーディオ出力制御部１４へ出力され、オーディオ出力制御部１４は、現在のボリューム値と閾値とを比較して、オーディオ出力信号レベルが閾値より大きいか否かを判定する（ステップＳＴ１０９）。
ここで、オーディオ出力信号レベルが閾値より大きいと判定された場合（ステップＳＴ１０９“ＹＥＳ”）、オーディオ出力制御量決定部８は、オーディオ再生部１２から出力されるオーディオ信号レベルをボリューム制御により閾値まで減衰させ（ステップＳＴ１１０）、音声認識が終了した時点で（ステップＳＴ１１１“ＹＥＳ”）ボリュームを減衰前のレベルに戻す（ステップＳＴ１１２）。

なお、図６に＜表５＞として示すデータは、記憶部１３に保持することができ、過去の任意回数分の減衰量（ＡＴＴ量）を記憶部１３に記憶させることが出来るため、過去の減衰量の平均から減衰量（ＡＴＴ量）を決定することも出来る。

上記したこの発明の実施の形態３に係るオーディオ機器用音声認識装置によれば、エコー減衰量測定部４および騒音レベル検出部５を備え、エコー減衰レベルからオーディオ信号出力レベルの減衰量を決定することで、音声認識が失敗した場合に、その原因がスピーカ１５から出力されるオーディオ信号の出力レベルによるものか、オーディオ信号の出力レベルによるもの以外の騒音によるものかを推測することができ、したがって、原因がスピーカ１５から出力されるオーディオ信号の出力レベルによる場合のみスピーカ１５からの音量が所定の値以下になるように減衰させることができる。このため、効率良く、スピーカ１５から出力される音量を必要以上に低下させることなく発話者の発話音声のみを抽出し、認識率を低下させずに音声認識を行なうことができる。
さらに、原因がオーディオ信号の出力レベルによるもの以外の騒音によるものの場合には、スピーカ１５から出力される音量を低下させることなくユーザに対して騒音の減少を促すメッセージを通知することができる。

実施の形態４．
図１１は、この発明の実施の形態４に係るオーディオ機器用音声認識装置の動作を示すフローチャートであり、図７に示す＜表６＞を参照しながら詳細に説明する。

オーディオ出力制御量決定部８は、まず、閾値のレベルを初期化する（ステップＳＴ１２１）。初期値は任意に設定でき、このため、平均的な話者の発話レベルで音声認識処理による認識率が高いときの音楽聴取レベルとしてもよい。
ユーザが発話ボタンおよび操作ボタン１６の発話ボタンを押下することにより音声認識を開始しようとすると（ステップＳＴ１２２“ＹＥＳ”）、オーディオ出力制御量決定部８は、まず、記憶部１３から過去の音声認識結果に関するデータを取得する（ステップＳＴ１２３）。

オーディオ出力制御量決定部８は、過去に音声認識していないか、あるいは音声認識が成功しているのであれば、閾値レベルを変更せずに以前の閾値レベルを維持するが、過去の音声認識結果が、例えば認識失敗である場合には（ステップＳＴ１２４“ＹＥＳ”）、音声認識部７および騒音レベル検出部５から発話者の発話レベルおよび騒音レベルを取得し（ステップＳＴ１２５）、発話レベルによる音声認識の失敗の有無を判定する（ステップＳＴ１２６）。

ここで、発話者の発話レベルに比べて騒音レベルが大きいと判定された場合（ステップＳＴ１２６“ＮＯ”）、オーディオ出力制御量決定部８は、音声認識に失敗した理由が発話者の発話レベルによるものではなく騒音によるものであると判定し、スピーカ１５に出力される音量を低下させることなく騒音を減少させるメッセージ（騒音減少依頼通知）を生成して表示部１１に表示し（ステップＳＴ１２７）、ユーザに通知することができる。

一方、発話者による発話レベルに比べて騒音レベルが小さいと判定された場合（ステップＳＴ１２６“ＹＥＳ”）、オーディオ出力制御量決定部８は、音声認識に失敗した理由が発話者による発話レベルに比べてエコーレベルが大きいことによるものであると判定し、図７に示す＜表６＞を参照して、発話者による発話レベルと認識失敗の可能性についてのデータ（認識失敗Ａ、認識失敗Ｂ、認識失敗Ｃ）とから、該当する閾値レベル（ＡＴＴ＊＊）を決定する（ステップＳＴ１２８）。

ここで決定された閾値は、オーディオ出力制御部１４へ出力され、オーディオ出力制御部１４は、現在のボリューム値と閾値とを比較して、オーディオ出力信号レベルが閾値より大きいか否かを判定する（ステップＳＴ１２９）。
ここで、オーディオ出力信号レベルが閾値より大きいと判定された場合（ステップＳＴ１２９“ＹＥＳ”）、オーディオ出力制御量決定部８は、オーディオ再生部１２から出力されるオーディオ信号レベルをボリューム制御により閾値まで減衰させ（ステップＳＴ１３０）、音声認識が終了した時点で（ステップＳＴ１３１“ＹＥＳ”）ボリュームを減衰前のレベルに戻す（ステップＳＴ１３２）。

なお、図７に＜表６＞として示すデータは、記憶部１３に保持することができ、過去の任意回数分の減衰量（ＡＴＴ量）を記憶部１３に記憶させることが出来るため、過去の減衰量の平均からＡＴＴ量を決定することも出来る。

また、図１２に、横軸を時間軸、縦軸をボリュームとしたグラフが示されるように、オーディオ出力制御部１４は、ボリューム制御によってオーディオ信号出力をＶ_αから閾値（Ｖ_θ）まで減衰させる際に時定数を用いて制御するのが好ましい。
すなわち、オーディオ出力制御部１４は、ボリュームを減衰させるタイミングＴ₀から任意の時間Ｔ_nの間において、時定数によりＡで示すパターン、あるいはＢ、Ｃのパターンにしたがうボリューム制御（減衰のパターン）が可能であり、このパターンは、ユーザによる選択が可能である。

上記したこの発明の実施の形態４に係るオーディオ機器用音声認識装置によれば、エコー減衰量測定部４および騒音レベル検出部５を備え、話者の発話レベルに応じてオーディオ信号出力レベルの減衰量を決定することで、音声認識が失敗した場合にその原因がスピーカ１５から出力されるオーディオ信号の出力レベルによるものか、あるいはオーディオ信号の出力レベルによるもの以外の騒音によるものかを推測することができ、したがって、原因がスピーカ１５から出力されるオーディオ信号の出力レベルによる場合にのみスピーカ１５からの音量の所定の値以下になるように減衰させることができる。
このため、効率良く、スピーカ１５から出力される音量を必要以上に低下させることなく発話者の発話音声のみを抽出し、認識率を低下させずに音声認識を行なうことができる。

また、原因がオーディオ信号の出力レベルによるもの以外の騒音によるものの場合には、スピーカ１５から出力される音量を低下させることなくユーザに対して騒音の減少を促すメッセージを通知することができる。
また、記憶部１３を備えているため、過去の音声認識処理結果、あるいは過去の音声認識処理結果と発話者の発話レベルとにより決定される減衰量をテーブルデータとして保持することができ、このため、テーブル索引により簡単に去の事例にしたがう最適減衰量を算出することができる。

更に、オーディオ出力制御部１４が、オーディオ出力制御量決定部８で決定された減衰量に基づきオーディオ信号出力を減衰する場合に任意の時定数にしたがい減衰させることで、ユーザの嗜好にあった自然なボリューム制御が可能になる。オーディオ出力制御部１４による時定数を用いたボリューム制御は、実施の形態４に限らず、実施の形態１から実施の形態４の全てにおいて共通である。

以上説明のようにこの発明の実施の形態１から実施の形態４に係るオーディオ機器用音声認識装置によれば、最終的に出力されるオーディオ信号の出力レベルに音声認識の結果を反映させることにより、ユーザの意向を車載用オーディオ機器に伝えることができ、音声認識率の向上をはかることができる。
なお、図１に示すオーディオ機器用音声認識装置が有する機能は、全てをハードウェアによって実現しても、あるいはその少なくとも一部をソフトウェアで実現してもよい。例えば、音声認識部７、オーディオ出力制御量決定部８、音声認識結果判定部９、ユーザＩ／Ｆ部１０におけるデータ処理は、１または複数のプログラムによりマイコンで実現してもよく、また、その少なくとも一部をハードウェアで実現してもよい。

この発明に係るオーディオ機器用音声認識装置の内部構成を示すブロック図である。この発明に係るオーディオ機器用音声認識装置が使用するテーブルデータを表形式で示した図である。この発明に係るオーディオ機器用音声認識装置が使用するテーブルデータを表形式で示した図である。この発明の実施の形態１に係るオーディオ機器用音声認識装置が使用するテーブルデータを表形式で示した図である。この発明の実施の形態２に係るオーディオ機器用音声認識装置が使用するテーブルデータを表形式で示した図である。この発明の実施の形態３に係るオーディオ機器用音声認識装置が使用するテーブルデータを表形式で示した図である。この発明の実施の形態４に係るオーディオ機器用音声認識装置が使用するテーブルデータを表形式で示した図である。この発明の実施の形態１に係るオーディオ機器用音声認識装置の動作を示すフローチャートである。この発明の実施の形態２に係るオーディオ機器用音声認識装置の動作を示すフローチャートである。この発明の実施の形態３に係るオーディオ機器用音声認識装置の動作を示すフローチャートである。この発明の実施の形態４に係るオーディオ機器用音声認識装置の動作を示すフローチャートである。この発明に係るオーディオ機器用音声認識装置のオーディオ信号出力のレベル減衰動作をグラフ表示した図である。

符号の説明

１マイク、２信号変換部、３エコー減衰部、４エコー減衰量測定部、５騒音レベル検出部、６騒音減衰部、７音声認識部、８オーディオ出力制御量決定部、９音声認識結果判定部、１０ユーザＩ／Ｆ部、１１表示部、１２オーディオ再生部、１３記憶部、１４オーディオ出力制御部、１５スピーカ、１６発話ボタンおよび操作ボタン、１００オーディオ機器用音声認識装置。

Claims

オーディオ再生部と、
前記オーディオ再生部により出力されるオーディオ信号を所定の利得で減衰させ、スピーカから出力するオーディオ出力制御部と、
マイクに入力される音声を含む信号から前記信号に含まれる前記オーディオ信号に対応するエコー成分を除去するエコー減衰部と、
前記エコー減衰部から出力される前記音声について音声認識処理を行う音声認識部と、
前記音声認識部による音声認識処理の結果を判定する音声認識結果判定部と、
前記音声認識結果判定部から出力される音声認識処理の判定結果により前記オーディオ出力制御部の減衰量を決定するオーディオ出力制御量決定部と、
を備えたことを特徴とするオーディオ機器用音声認識装置。
ユーザインタフェース部を備え、
前記オーディオ出力制御量決定部は、
前記音声認識部による音声認識処理の結果に対し、前記ユーザインタフェース部を介して取り込まれるユーザによる過去のキャンセル操作に基づき前記オーディオ出力制御部の減衰量を決定することを特徴とする請求項１記載のオーディオ機器用音声認識装置。
ユーザインタフェース部を備え、
前記オーディオ出力制御量決定部は、
前記音声認識部による音声認識処理の結果に対し、前記ユーザインタフェース部により取り込まれるユーザによる過去の訂正操作に基づき前記オーディオ出力制御部の減衰量を決定することを特徴とする請求項1記載のオーディオ機器用音声認識装置。
前記オーディオ出力制御量決定部は、
前記音声認識部による音声認識処理の結果生成される音声認識スコアに基づき、前記オーディオ出力制御部の減衰量を決定することを特徴とする請求項１から請求項３のうちのいずれか１項記載のオーディオ機器用音声認識装置。
前記オーディオ出力制御量決定部は、
前記音声認識部による音声認識処理の過去の音声区間検出結果に基づき、前記オーディオ出力制御部の減衰量を決定することを特徴とする請求項１から請求項４のうちのいずれか１項記載のオーディオ機器用音声認識装置。
前記決定された減衰量を蓄積する記憶部を備え、
前記オーディオ出力制御量決定部は、
前記記憶部を参照し、前記記憶部に蓄積された減衰量の平均値を減衰量として決定することを特徴とする請求項１から請求項５のうちのいずれか１項記載のオーディオ機器用音声認識装置。
前記オーディオ出力制御量決定部は、
前記音声認識部による音声認識処理の結果と、前記マイクに入力されるエコーレベルとにより前記減衰量を決定することを特徴とする請求項１から請求項６のうちのいずれか１項記載のオーディオ機器用音声認識装置。
前記オーディオ出力制御量決定部は、
前記音声認識部による音声認識処理の結果と、前記エコー減衰部によるエコー成分除去後のエコーレベルとにより前記減衰量を決定することを特徴とする請求項１から請求項７のうちのいずれか１項記載のオーディオ機器用音声認識装置。
前記オーディオ出力制御量決定部は、
前記音声認識部による音声認識処理の結果と、前記信号に含まれるオーディオ信号の出力レベルとにより前記減衰量を決定することを特徴とする請求項１から請求項８のうちのいずれか１項記載のオーディオ機器用音声認識装置。
前記オーディオ出力制御量決定部は、
前記音声認識部による音声認識処理の結果と、前記信号に含まれる音声成分とオーディオ成分とを除く騒音成分のレベルにより前記減衰量を決定することを特徴とする請求項１から請求項９のうちのいずれか１項記載のオーディオ機器用音声認識装置。
前記オーディオ出力制御量決定部は、
前記音声認識部による音声認識処理の結果と、前記信号に含まれる音声成分のレベルにより前記減衰量を決定することを特徴とする請求項１から請求項１０のうちのいずれか１項記載のオーディオ機器用音声認識装置。
前記決定された減衰量を蓄積する記憶部を備え、
前記オーディオ出力制御量決定部は、
前記記憶部を参照し、前記記憶部に蓄積された減衰量の平均値を減衰量として決定することを特徴とする請求項７から請求項１１のうちのいずれか１項記載のオーディオ機器用音声認識装置。
前記オーディオ出力制御部は、
前記オーディオ出力制御量決定部で決定された減衰量に基づき前記オーディオ信号を減衰する場合に、任意の時定数にしたがい減衰させることを特徴とする請求項１記載のオーディオ機器用音声認識装置。