JP2011027757A - オーディオ機器用音声認識装置 - Google Patents

オーディオ機器用音声認識装置 Download PDF

Info

Publication number
JP2011027757A
JP2011027757A JP2007303156A JP2007303156A JP2011027757A JP 2011027757 A JP2011027757 A JP 2011027757A JP 2007303156 A JP2007303156 A JP 2007303156A JP 2007303156 A JP2007303156 A JP 2007303156A JP 2011027757 A JP2011027757 A JP 2011027757A
Authority
JP
Japan
Prior art keywords
audio
unit
output control
speech recognition
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007303156A
Other languages
English (en)
Inventor
Takahisa Aoyanagi
貴久 青柳
Makoto Kato
真 加藤
Atsuhito Yano
敦仁 矢野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007303156A priority Critical patent/JP2011027757A/ja
Priority to PCT/JP2008/001343 priority patent/WO2009066401A1/ja
Publication of JP2011027757A publication Critical patent/JP2011027757A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

【課題】最終的に出力されるオーディオ信号の出力レベルに音声認識の結果を反映させることによりユーザの意向を車載用オーディオ機器に伝え、音声認識率の向上をはかる。
【解決手段】エコー減衰部2がマイク1によって集音され出力される信号に含まれるオーディオ信号を除去して音声認識処理を実行するオーディオ機器用音声認識装置において、音声認識結果判定部9が、音声認識部7により出力されるスコア、音声区間検出結果、およびユーザ操作を判定し、オーディオ出力制御量決定部8が、オーディオ信号の出力レベルを所定の値以下になるようにボリューム減衰量を決定し、オーディオ出力制御部14が、決定されたボリューム減衰量にしたがいオーディオ再生部12により出力されるオーディオ信号出力のレベル減衰制御を行なう。
【選択図】図1

Description

この発明は、マイクから入り込むオーディオ信号を含む雑音信号をエコーキャンセラにより減少させて音声認識を行なう、オーディオ機器用音声認識装置に関するものである。
マルチチャンネルオーディオを再生するTV、ラジオ、複合ナビゲーションシステム等の車載用オーディオ機器を操作するにあたり、走行中の安全性の観点から音声認識による操作が広く導入されるようになった。
しかしながら、現状の音声認識装置は、音声認識率を低下させないために、音声認識操作のたびに車載用オーディオ機器から出力される音声信号を完全に遮断してしまう。このため、音声認識操作を行う毎にそれまでに聴取していた音楽等のオーディオ信号が途切れ、利用者の聴取を妨げるといった問題があった。特に、運転者等の利用者以外の同乗者にとっては音声認識操作とは無関係に音楽を聴取していることがほとんどであるため、音楽再生が頻繁に断続されると不快感が増すことになる。
上記した問題を解決するために、車載用オーディオ機器における音声認識装置のマイクから入り込む雑音信号(エコー成分)をエコーキャンセラにより減少させ、音声認識させる装置が知られている(例えば、特許文献1、特許文献2参照)。
また、上記した音声認識装置において、車載用オーディオ機器のオーディオ出力レベル、もしくはエコーキャンセル後の残量エコー量が所定閾値以下になるか、マイクに入力される発話者の音声とエコー成分のパワーの比が閾値以上になるように、オーディオ信号の出力レベルを制御することにより、車載オーディオ機器から出力されるオーディオ信号を完全に遮断させることなく音声認識を向上させた音声入力装置も知られている(例えば、特許文献3参照)。
特開2001−100785号公報 特開平6−149290号公報 特開2001−236090号公報
上記した特許文献1〜3に開示された技術によれば、車載用オーディオ機器における音声認識装置のマイクから入り込む雑音信号(エコー成分)をエコーキャンセラにより減少させて音声認識させるため、入力音声以外のオーディオ音を必要以上に断続することなく入力音声を抽出することができる。
しかしながら、これによっても音声認識が成功するとは限らず、最終的に出力されるオーディオ信号の出力レベルに音声認識の結果が反映されていないため、ユーザの意向が車載用オーディオ機器に伝わらないという問題があった。
この発明は上記した課題を解決するためになされたものであり、最終的に出力されるオーディオ信号の出力レベルに音声認識の結果を反映させることによりユーザの意向を車載用オーディオ機器に伝え、音声認識率の向上をはかったオーディオ機器用音声認識装置を提供することを目的とする。
この発明に係るオーディオ機器用音声認識装置は、オーディオ再生部と、前記オーディオ再生部により再生されるオーディオ信号を所定の利得で減衰させてスピーカから出力するオーディオ出力制御部と、マイクロフォンに入力される音声を含む信号から前記信号に含まれる前記オーディオ信号に対応するエコー成分を除去するエコー減衰部と、前記エコー減衰部から出力される前記音声について音声認識処理を行う音声認識部と、前記音声認識部による音声認識処理の結果を判定する音声認識結果判定部と、前記音声認識結果判定部から出力される音声認識処理の判定結果により前記オーディオ出力制御部の減衰量を決定するオーディオ出力制御量決定部と、を備えたものである。
この発明のオーディオ機器用音声認識装置によれば、最終的に出力されるオーディオ信号の出力レベルに音声認識の結果を反映させることにより、ユーザの意向を車載用オーディオ機器に伝えることができ、音声認識率の向上をはかることができる。
実施の形態1.
図1は、この発明に係るオーディオ機器用音声認識装置の内部構成を示すブロック図である。
図1に示されるように、この発明に係るオーディオ機器用音声認識装置100は、マイク1からの信号を入力する信号変換部2と、エコー減衰部3と、エコー減衰量測定部4と、騒音レベル検出部5と、騒音減衰部6と、音声認識部7と、オーディオ出力制御量決定部8と、音声認識結果判定部9と、ユーザインタフェース(I/F)部10と、表示部11と、オーディオ再生部12と、記憶部13と、オーディオ出力制御部14と、スピーカ15と、発話ボタンおよび操作ボタン16と、により構成される。
なお、図1中、実線矢印は音声信号の流れを、点線矢印は制御信号の流れを、一点鎖線矢印はオーディオ信号の流れを示す。
上記した構成において、オーディオ再生部12から出力されるオーディオ信号は、オーディオ出力制御装置14でパワー(振幅)変換され、スピーカ15から出力されるとともに、エコー減衰部3に入力される。
一方、マイク1は、発話者の発話音声、この発話音声に混入されたスピーカ15から出力されるオーディオ信号、および周囲の背景雑音を集音して取り込み、信号変換部2に供給し、信号変換部2によりA/D(Analog/Digital)変換が行われる。
信号変換部2でA/D変換された信号は、エコー減衰部3で、スピーカ15から出力されたオーディオ信号のエコー成分のみ除去され、エコー減衰量測定部4に入力される。
エコー減衰量測定部4は、スピーカ15から出力されたオーディオ信号がどれだけ除去されたかを測定し、この測定結果をオーディオ出力制御量決定部8へ出力するとともに、入力信号をそのまま騒音レベル検出部5へ出力する。
騒音レベル検出部5は、入力された信号に対して発話者の発話音声以外の雑音成分(騒音)のレベルを測定し、この測定結果をオーディオ出力制御量決定部8へ出力するとともに、入力信号をそのまま騒音減衰部6へ出力する。
騒音減衰部6は、発話者の発話音声以外の雑音成分(騒音)のレベルを入力信号から除去し、音声認識部7へ出力する。音声認識部7は、入力された信号から発話信号を抽出し、音声認識処理を行うとともに、その音声認識結果を音声認識結果判定部9へ出力し、発話者の発話レベルをオーディオ出力制御量決定部8へ出力する。
ところで、ユーザは、音声認識処理を実施する際、発話ボタンおよび操作ボタン16のうち、発話ボタンの押下により音声認識処理を開始し、その音声認識処理結果を音声案内としてスピーカ15を介して出力するとともに、表示部11にその結果を表示する。上記スピーカ15から出力される音声案内は、オーディオ出力の音量に応じて応答音量を決定してもよい。
ユーザI/F部10は、発話ボタンおよび操作ボタン16の発話ボタンによる発話開始タイミング、発話ボタンおよび操作ボタン16の操作ボタン押下による音声認識処理結果に対するキャンセルもしくは訂正などのユーザ指示を音声認識結果判定部9に出力するとともに、音声認識処理の結果を表示部11に表示させる。このとき、音声認識結果判定部9は、音声認識部7による音声認識結果と、ユーザI/F部10のユーザ操作結果とから、音声認識が失敗したか否かを判定し、この判定結果をオーディオ出力制御量決定部8へ出力する。
オーディオ出力制御量決定部8は、信号変換部2からの変換信号と、音声認識結果判定部9による音声認識処理の判定結果と、エコー減衰量測定部4で測定されたエコー量、およびエコー消去量と、音声認識部7で測定された発話レベルと、騒音レベル検出部5で測定された騒音レベルとから、オーディオ信号レベルの閾値を決定し、閾値オーディオ出力制御部14へ出力する。
オーディオ出力制御部14は、発話ボタンおよび操作ボタン16の発話ボタンが押下された際、現在のオーディオ信号出力レベル(ボリューム値)と閾値とを比較し、ボリューム値が閾値より大きいと判定された場合には、オーディオ再生部12から出力されるオーディオ信号出力レベルをボリューム制御により閾値まで減衰させ、音声認識処理が終了した時点でボリューム値を減衰前のレベルに戻す。
音声認識結果判定部9は、音声認識部7による音声認識処理結果と、ユーザI/F部10のユーザ操作結果とから、音声認識が失敗したか否かを判定し、この判定結果をオーディオ出力制御量決定部8へ出力する。
音声認識結果判定部9による音声認識結果判定のために使用されるテーブルデータの一例が、図2、図3に表形式(それぞれ、<表1>、<表2>として)で示されている。
具体的に、図2の<表1>に示されるように、音声認識部7による音声認識処理結果において音声区間(音声が存在する区間)の検出が成功した場合、ユーザI/F部10のユーザ操作結果(キャンセル操作、訂正操作、操作なし)と、音声認識部7で音声認識処理の結果生成される認識スコア(信頼度)とから、判定結果を、「認識失敗A」、「認識失敗B」、「認識失敗C」、「認識成功」に分類する。
なお、信頼度は数値が高いほど信頼性が高いものとし、例えば、信頼度が76〜100でユーザ操作無しとし、このとき、音声認識結果判定部9は、信頼度が高く、ユーザも訂正やキャンセル操作を行っていないため、音声認識処理が成功したものと判定し、「認識成功」とする判定結果をオーディオ出力制御量決定部8へ出力する。
また、信頼度が51〜75で、ユーザI/F部10により取り込まれるユーザ操作が訂正操作であった場合、音声認識結果判定部9は、信頼度は多少高いが、ユーザが訂正操作を行っているため認識が失敗したかもしれないと判定し、「認識失敗C」とする判定結果をオーディオ出力制御量決定部8へ出力する。
また、信頼度が0〜25で、ユーザI/F部10により取り込まれるユーザ操作が訂正操作であった場合、音声認識結果判定部9は、信頼度は低く、ユーザが訂正操作を行っているため認識が失敗した可能性が非常に高いものとし、「認識失敗A」とする判定結果をオーディオ出力制御量決定部8へ出力する。
なお、上記したこの発明に係るオーディオ機器用音声認識装置において、認識が失敗である可能性は、認識失敗A>認識失敗B>認識失敗Cとなっており、認識失敗Aが失敗の確率が高いことになる。
また、音声認識部7による音声認識処理の結果、音声区間検出が失敗したと判定された場合、図3の<表2>に示されるように、音声区間検出が失敗した時点で音声認識処理が正常に行われなかったものとし、ユーザ操作に関わらず、「認識失敗A」とする判定結果をオーディオ出力制御量決定部8へ出力する。
また、図2の<表1>、および図3の<表2>に示されるデータは、記憶部13の所定の領域にテーブルデータとして割り付け記憶させることもでき、このことにより、過去の任意回数分の認識処理結果を記憶部13に履歴として保持することが出来、演算により平均値を算出することも可能である。
なお、音声認識を行う音声処理系では、音声が存在する区間を正確に検出することは極めて重要であり、比較的静かな環境で明確に発話されている場合、信号レベルに適当な閾値を設けることで比較的容易に音声区間を検出できるが、ハンズフリーの状況で発話されている場合、周囲雑音や他の音声(環境音)が混入してしまうため、音声区間の検出が困難になる。音声区間を誤って検出すると、認識率の低下や品質の劣化等、深刻な問題が生じるため、ここでは、例えば、入力信号から抽出した特徴量の系列と、予め用意した音声と環境音のモデル、およびそれらを重畳したモデルとの照合を行なう「パターンマッチング」の枠組みで音声区間の検出を行なっている。
ところで、オーディオ出力制御量決定部8は、信号変換部2からの変換信号と、音声認識結果判定部9による判定結果と、エコー減衰量測定部4で測定されたエコー量およびエコー消去量と、音声認識部7で測定された発話レベルと、騒音レベル検出部5で測定された騒音レベルとから、オーディオ信号の出力レベルの閾値を決定し、この閾値をオーディオ出力制御部14へ出力する。
オーディオ出力制御量決定部8による閾値決定のために使用されるテーブルデータの一例を、図4〜図7に表形式(それぞれ、<表3>、<表4>、<表5>、<表6>)で示している。
図4に示すテーブルデータ<表3>において、レベルV0、V1、V2、V3の各レベルの大小比較は、V0<V1<V2<V3の関係であって、V0が一番小さく、V3が一番大きいレベルである。なお、閾値ATT**は、**の数値が大きい程、閾値のレベルが大きい(つまり、減衰量は小さい)ものとする。
<表3>のテーブルデータにおいて、音声認識に失敗した場合、失敗の可能性が高い「認識失敗A」のほうが、失敗の可能性が低い「認識失敗C」に比べて閾値のレベルは小さくなる。また、認識失敗の可能性が同じ場合でもボリューム値(V0、V1、V2、V3)が小さい程閾値のレベルは小さくなる。<表4>、<表5>、<表6>に示されるテーブルデータも同様である
以下、この発明に係るオーディオ機器用音声認識装置の動作について、オーディオ出力制御量決定部8が参照するテーブルデータ毎にそれぞれ説明する。
図8は、この発明の実施の形態1に係るオーディオ機器用音声認識装置の動作を示すフローチャートであり、図4に示す<表3>を参照しながら詳細に説明する。
図8のフローチャートにおいて、オーディオ出力制御量決定部8は、まず、閾値レベルを初期化する(ステップST801)。初期値は任意に設定でき、このため、平均的な話者の発話レベルで音声認識処理による認識率が高いときの音楽聴取レベルとしてもよい。
ユーザが発話ボタンおよび操作ボタン16のうち発話ボタンを押下することにより音声認識を開始しようとすると(ステップST802“YES”)、オーディオ出力制御量決定部8は、まず、記憶部13から過去の音声認識結果に関するテーブルデータを取得する(ステップST803)。
オーディオ出力制御量決定部8は、過去に音声認識していないか、あるいは音声認識が成功している場合、閾値レベルを変更せずに以前の閾値レベルを維持するが、過去の音声認識結果が、例えば、認識失敗である場合には(ステップST804“YES”)、図4に示す<表3>のテーブルデータにしたがいオーディオ出力信号レベルが閾値より大きいか否かを判定する(ステップST806)。具体的には、オーディオ出力信号レベル(ボリューム値)と、過去の認識結果である認識失敗の可能性(認識失敗A、認識失敗B、認識失敗C)についてのデータとから、該当する閾値(ATT**)を決定する。
ここで決定された閾値は、オーディオ出力制御部14へ出力され、オーディオ出力制御部14は、現在のボリューム値と決定された閾値とを比較し、現在のボリューム値が閾値より大きい場合には(ステップST806“YES”)、オーディオ再生部12から出力されるオーディオ信号をボリューム制御により閾値まで減衰させ(ステップST807)、音声認識が終了した時点で(ステップST808“YES”)、ボリュームを減衰前のレベルに戻す(ステップST809)。
なお、音声認識が終了した時点とは、認識結果が表示され、この認識結果に対するユーザ操作(決定、キャンセル、訂正等)があったタイミング、あるいは音声認識処理の結果、音声区間の検出成功、失敗が通知されたタイミングをいう。
なお、図4の<表3>に示すテーブルデータは、上記したように記憶部13に保持することができ、この場合、過去の任意回数分の減衰量(ATT)を履歴として記憶させることができるため、過去の減衰量の平均値を減衰量(ATT)として決定することも出来る。
上記したこの発明の実施の形態1に係るオーディオ機器用音声認識装置は、エコー減衰部3がマイク1によって集音され出力される信号に含まれるオーディオ信号を除去して音声認識部7による音声認識処理を実行するオーディオ機器用音声認識装置であって、音声認識結果判定部9が、音声認識部7により出力されるスコア(信頼度)、音声区間検出結果、およびユーザ操作によるキャンセル操作あるいは訂正操作を判定し、また、オーディオ出力制御量決定部8が、スピーカ15から出力されるオーディオ信号の出力レベルを所定の値以下になるようにボリューム減衰量を決定し、更に、オーディオ出力制御部14が、決定されたボリューム減衰量にしたがいオーディオ再生部12により出力されるオーディオ信号出力のレベル減衰制御を行なうものである。
上記構成により、スピーカ15から出力される音量を必要以上に低下させることなく、発話者の発話音声のみを抽出することができ、かつ、認識率を低下させることなく音声認識を行なうことができる。また、記憶部13を備えているため、過去の任意回数分の認識結果、あるいはその音声認識結果とオーディオ信号出力レベルとにより決定される減衰量をテーブルデータとして持たせることができ、演算によりその平均値を算出して適当な減衰量を決定することも出来る。このため、テーブル索引により簡単に過去の事例にしたがう最適減衰量を算出することができる。
実施の形態2.
図9は、この発明の実施の形態2に係るオーディオ機器用音声認識装置の動作を示すフローチャートであり、図5に示す<表4>を参照しながら詳細に説明する。
図9のフローチャートにおいて、オーディオ出力制御量決定部8は、まず、閾値レベルを初期化する(ステップST901)。初期値は任意に設定でき、このため、平均的な話者の発話レベルで音声認識処理による認識率が高いときの音楽聴取レベルとしてもよい。
ユーザが発話ボタンおよび操作ボタン16の発話ボタンを押下することにより音声認識を開始しようとすると(ステップST902“YES”)、オーディオ出力制御量決定部8は、まず、記憶部13から過去の音声認識結果に関するデータを取得する(ステップST903)。
オーディオ出力制御量決定部8は、過去に音声認識していないか、あるいは音声認識が成功している場合、閾値レベルを変更せずに以前の閾値レベルを維持するが、過去の音声認識結果が、例えば認識失敗である場合には(ステップST904“YES”)、エコー減衰量測定部4および騒音レベル検出部5からマイク入力エコーレベルおよび騒音レベルを取得し(ステップST905)、マイク入力エコーレベルによる音声認識の失敗の有無を判定する(ステップST906)。
ここで、マイク入力エコーレベルに比べて騒音レベルが大きいと判定された場合(ステップST906“NO”)、オーディオ出力制御量決定部8は、音声認識に失敗した理由がオーディオ信号のエコーによるものではなく騒音によるものであると判定し、スピーカ15に出力される音量を低下させることなく騒音を減少させるメッセージ(騒音減少依頼通知)を生成して、例えば表示部11に表示し(ステップST907)、ユーザに通知することができる。
一方、マイク入力エコーレベルに比べて騒音レベルが小さいと判定された場合(ステップST906“YES”)、オーディオ出力制御量決定部8は、音声認識に失敗した理由がオーディオ信号のエコーによるものであると判定し、図5に示す<表4>を参照して、マイク1に入力されるエコーレベルと認識失敗の可能性についてのデータ(認識失敗A、認識失敗B、認識失敗C)とから、該当する閾値レベル(ATT**)を決定する(ステップST908)。
ここで決定された閾値は、オーディオ出力制御部14へ出力され、オーディオ出力制御部14は、現在のボリューム値と閾値とを比較して、オーディオ出力信号レベルが閾値より大きいか否かを判定する(ステップST909)。
ここで、オーディオ出力信号レベルが閾値より大きいと判定された場合(ステップST909“YES”)、オーディオ出力制御量決定部8は、オーディオ再生部12から出力されるオーディオ信号レベルをボリューム制御により閾値まで減衰させ(ステップST910)、音声認識が終了した時点で(ステップST911“YES”)ボリュームを減衰前のレベルに戻す(ステップST912)。
なお、図5に<表4>として示すデータは、記憶部13に保持することができ、過去の任意回数分の減衰量(ATT量)を記憶部13に記憶させることが出来るため、過去の減衰量の平均から減衰量(ATT量)を決定することも出来る。
上記したこの発明の実施の形態2に係るオーディオ機器用音声認識装置によれば、エコー減衰量測定部4および騒音レベル検出部5を備え、マイク1に入力されるエコーレベルからオーディオ信号出力レベルの減衰量を決定することで、音声認識が失敗した場合に、その原因がスピーカ15から出力されるオーディオ信号の出力レベルによるものか、オーディオ信号の出力レベルによるもの以外の騒音によるものかを推測することができ、したがって、原因がスピーカ15から出力されるオーディオ信号の出力レベルによる場合のみスピーカ15からの音量の所定の値以下になるように減衰させることができる。
このため、効率良く、スピーカ15から出力される音量を必要以上に低下させることなく発話者の発話音声のみを抽出し、認識率を低下させずに音声認識を行なうことができる。さらに、原因がオーディオ信号の出力レベルによるもの以外の騒音によるものの場合には、スピーカ15から出力される音量を低下させることなくユーザに対して騒音の減少を促すメッセージ(騒音減少依頼通知)を通知することができる。
また、記憶部13を備えているため、音声認識結果、あるいは音声認識結果とマイク入力エコーレベルとにより決定される減衰量をテーブルデータとして持たせることができ、このため、テーブル索引により簡単に過去の事例にしたがう最適減衰量を算出することができる。
実施の形態3.
図10は、この発明の実施の形態3に係るオーディオ機器用音声認識装置の動作を示すフローチャートであり、図6に示す<表5>を参照しながら詳細に説明する。
図10のフローチャートにおいて、オーディオ出力制御量決定部8は、まず、閾値のレベルを初期化する(ステップST101)。初期値は任意に設定でき、このため、平均的な話者の発話レベルで音声認識処理による認識率が高いときの音楽聴取レベルとしてもよい。
ユーザが発話ボタンおよび操作ボタン16の発話ボタンを押下することにより音声認識を開始しようとすると(ステップST102“YES”)、オーディオ出力制御量決定部8は、まず、記憶部13から過去の音声認識結果に関するデータを取得する(ステップST103)。
オーディオ出力制御量決定部8は、過去に音声認識していないか、あるいは音声認識が成功しているのであれば、閾値レベルを変更せずに以前の閾値レベルを維持するが、過去の音声認識結果が、例えば認識失敗である場合には(ステップST104“YES”)、エコー減衰量測定部4および騒音レベル検出部5からエコー減衰レベルおよび騒音レベルを取得し(ステップST105)、エコー減衰レベルによる音声認識の失敗の有無を判定する(ステップST106)。
ここで、エコー減衰レベルに比べて騒音レベルが大きいと判定された場合(ステップST106“NO”)、オーディオ出力制御量決定部8は、音声認識に失敗した理由がオーディオ信号のエコーによるものではなく騒音によるものであると判定し、スピーカ15に出力される音量を低下させることなく騒音を減少させるメッセージ(騒音減少依頼通知)を生成して例えば表示部11に表示し(ステップST107)、このことにより、ユーザに通知することができる。
一方、エコー減衰レベルに比べて騒音レベルが小さいと判定された場合(ステップST106“YES”)、オーディオ出力制御量決定部8は、音声認識に失敗した理由がオーディオ信号のエコーによるものであると判定し、図6に示す<表5>を参照して、エコー減衰レベルと認識失敗の可能性についてのデータ(認識失敗A、認識失敗B、認識失敗C)とから、該当する閾値レベル(ATT**)を決定する(ステップST108)。
ここで決定された閾値は、オーディオ出力制御部14へ出力され、オーディオ出力制御部14は、現在のボリューム値と閾値とを比較して、オーディオ出力信号レベルが閾値より大きいか否かを判定する(ステップST109)。
ここで、オーディオ出力信号レベルが閾値より大きいと判定された場合(ステップST109“YES”)、オーディオ出力制御量決定部8は、オーディオ再生部12から出力されるオーディオ信号レベルをボリューム制御により閾値まで減衰させ(ステップST110)、音声認識が終了した時点で(ステップST111“YES”)ボリュームを減衰前のレベルに戻す(ステップST112)。
なお、図6に<表5>として示すデータは、記憶部13に保持することができ、過去の任意回数分の減衰量(ATT量)を記憶部13に記憶させることが出来るため、過去の減衰量の平均から減衰量(ATT量)を決定することも出来る。
上記したこの発明の実施の形態3に係るオーディオ機器用音声認識装置によれば、エコー減衰量測定部4および騒音レベル検出部5を備え、エコー減衰レベルからオーディオ信号出力レベルの減衰量を決定することで、音声認識が失敗した場合に、その原因がスピーカ15から出力されるオーディオ信号の出力レベルによるものか、オーディオ信号の出力レベルによるもの以外の騒音によるものかを推測することができ、したがって、原因がスピーカ15から出力されるオーディオ信号の出力レベルによる場合のみスピーカ15からの音量が所定の値以下になるように減衰させることができる。このため、効率良く、スピーカ15から出力される音量を必要以上に低下させることなく発話者の発話音声のみを抽出し、認識率を低下させずに音声認識を行なうことができる。
さらに、原因がオーディオ信号の出力レベルによるもの以外の騒音によるものの場合には、スピーカ15から出力される音量を低下させることなくユーザに対して騒音の減少を促すメッセージを通知することができる。
また、記憶部13を備えているため、音声認識結果、あるいは音声認識結果とマイク入力エコーレベルとにより決定される減衰量をテーブルデータとして持たせることができ、このため、テーブル索引により簡単に過去の事例にしたがう最適減衰量を算出することができる。
実施の形態4.
図11は、この発明の実施の形態4に係るオーディオ機器用音声認識装置の動作を示すフローチャートであり、図7に示す<表6>を参照しながら詳細に説明する。
オーディオ出力制御量決定部8は、まず、閾値のレベルを初期化する(ステップST121)。初期値は任意に設定でき、このため、平均的な話者の発話レベルで音声認識処理による認識率が高いときの音楽聴取レベルとしてもよい。
ユーザが発話ボタンおよび操作ボタン16の発話ボタンを押下することにより音声認識を開始しようとすると(ステップST122“YES”)、オーディオ出力制御量決定部8は、まず、記憶部13から過去の音声認識結果に関するデータを取得する(ステップST123)。
オーディオ出力制御量決定部8は、過去に音声認識していないか、あるいは音声認識が成功しているのであれば、閾値レベルを変更せずに以前の閾値レベルを維持するが、過去の音声認識結果が、例えば認識失敗である場合には(ステップST124“YES”)、音声認識部7および騒音レベル検出部5から発話者の発話レベルおよび騒音レベルを取得し(ステップST125)、発話レベルによる音声認識の失敗の有無を判定する(ステップST126)。
ここで、発話者の発話レベルに比べて騒音レベルが大きいと判定された場合(ステップST126“NO”)、オーディオ出力制御量決定部8は、音声認識に失敗した理由が発話者の発話レベルによるものではなく騒音によるものであると判定し、スピーカ15に出力される音量を低下させることなく騒音を減少させるメッセージ(騒音減少依頼通知)を生成して表示部11に表示し(ステップST127)、ユーザに通知することができる。
一方、発話者による発話レベルに比べて騒音レベルが小さいと判定された場合(ステップST126“YES”)、オーディオ出力制御量決定部8は、音声認識に失敗した理由が発話者による発話レベルに比べてエコーレベルが大きいことによるものであると判定し、図7に示す<表6>を参照して、発話者による発話レベルと認識失敗の可能性についてのデータ(認識失敗A、認識失敗B、認識失敗C)とから、該当する閾値レベル(ATT**)を決定する(ステップST128)。
ここで決定された閾値は、オーディオ出力制御部14へ出力され、オーディオ出力制御部14は、現在のボリューム値と閾値とを比較して、オーディオ出力信号レベルが閾値より大きいか否かを判定する(ステップST129)。
ここで、オーディオ出力信号レベルが閾値より大きいと判定された場合(ステップST129“YES”)、オーディオ出力制御量決定部8は、オーディオ再生部12から出力されるオーディオ信号レベルをボリューム制御により閾値まで減衰させ(ステップST130)、音声認識が終了した時点で(ステップST131“YES”)ボリュームを減衰前のレベルに戻す(ステップST132)。
なお、図7に<表6>として示すデータは、記憶部13に保持することができ、過去の任意回数分の減衰量(ATT量)を記憶部13に記憶させることが出来るため、過去の減衰量の平均からATT量を決定することも出来る。
また、図12に、横軸を時間軸、縦軸をボリュームとしたグラフが示されるように、オーディオ出力制御部14は、ボリューム制御によってオーディオ信号出力をVαから閾値(Vθ)まで減衰させる際に時定数を用いて制御するのが好ましい。
すなわち、オーディオ出力制御部14は、ボリュームを減衰させるタイミングT0から任意の時間Tnの間において、時定数によりAで示すパターン、あるいはB、Cのパターンにしたがうボリューム制御(減衰のパターン)が可能であり、このパターンは、ユーザによる選択が可能である。
上記したこの発明の実施の形態4に係るオーディオ機器用音声認識装置によれば、エコー減衰量測定部4および騒音レベル検出部5を備え、話者の発話レベルに応じてオーディオ信号出力レベルの減衰量を決定することで、音声認識が失敗した場合にその原因がスピーカ15から出力されるオーディオ信号の出力レベルによるものか、あるいはオーディオ信号の出力レベルによるもの以外の騒音によるものかを推測することができ、したがって、原因がスピーカ15から出力されるオーディオ信号の出力レベルによる場合にのみスピーカ15からの音量の所定の値以下になるように減衰させることができる。
このため、効率良く、スピーカ15から出力される音量を必要以上に低下させることなく発話者の発話音声のみを抽出し、認識率を低下させずに音声認識を行なうことができる。
また、原因がオーディオ信号の出力レベルによるもの以外の騒音によるものの場合には、スピーカ15から出力される音量を低下させることなくユーザに対して騒音の減少を促すメッセージを通知することができる。
また、記憶部13を備えているため、過去の音声認識処理結果、あるいは過去の音声認識処理結果と発話者の発話レベルとにより決定される減衰量をテーブルデータとして保持することができ、このため、テーブル索引により簡単に去の事例にしたがう最適減衰量を算出することができる。
更に、オーディオ出力制御部14が、オーディオ出力制御量決定部8で決定された減衰量に基づきオーディオ信号出力を減衰する場合に任意の時定数にしたがい減衰させることで、ユーザの嗜好にあった自然なボリューム制御が可能になる。オーディオ出力制御部14による時定数を用いたボリューム制御は、実施の形態4に限らず、実施の形態1から実施の形態4の全てにおいて共通である。
以上説明のようにこの発明の実施の形態1から実施の形態4に係るオーディオ機器用音声認識装置によれば、最終的に出力されるオーディオ信号の出力レベルに音声認識の結果を反映させることにより、ユーザの意向を車載用オーディオ機器に伝えることができ、音声認識率の向上をはかることができる。
なお、図1に示すオーディオ機器用音声認識装置が有する機能は、全てをハードウェアによって実現しても、あるいはその少なくとも一部をソフトウェアで実現してもよい。例えば、音声認識部7、オーディオ出力制御量決定部8、音声認識結果判定部9、ユーザI/F部10におけるデータ処理は、1または複数のプログラムによりマイコンで実現してもよく、また、その少なくとも一部をハードウェアで実現してもよい。
この発明に係るオーディオ機器用音声認識装置の内部構成を示すブロック図である。 この発明に係るオーディオ機器用音声認識装置が使用するテーブルデータを表形式で示した図である。 この発明に係るオーディオ機器用音声認識装置が使用するテーブルデータを表形式で示した図である。 この発明の実施の形態1に係るオーディオ機器用音声認識装置が使用するテーブルデータを表形式で示した図である。 この発明の実施の形態2に係るオーディオ機器用音声認識装置が使用するテーブルデータを表形式で示した図である。 この発明の実施の形態3に係るオーディオ機器用音声認識装置が使用するテーブルデータを表形式で示した図である。 この発明の実施の形態4に係るオーディオ機器用音声認識装置が使用するテーブルデータを表形式で示した図である。 この発明の実施の形態1に係るオーディオ機器用音声認識装置の動作を示すフローチャートである。 この発明の実施の形態2に係るオーディオ機器用音声認識装置の動作を示すフローチャートである。 この発明の実施の形態3に係るオーディオ機器用音声認識装置の動作を示すフローチャートである。 この発明の実施の形態4に係るオーディオ機器用音声認識装置の動作を示すフローチャートである。 この発明に係るオーディオ機器用音声認識装置のオーディオ信号出力のレベル減衰動作をグラフ表示した図である。
符号の説明
1 マイク、2 信号変換部、3 エコー減衰部、4 エコー減衰量測定部、5 騒音レベル検出部、6 騒音減衰部、7 音声認識部、8 オーディオ出力制御量決定部、9 音声認識結果判定部、10 ユーザI/F部、11 表示部、12 オーディオ再生部、13 記憶部、14 オーディオ出力制御部、15 スピーカ、16 発話ボタンおよび操作ボタン、100 オーディオ機器用音声認識装置。

Claims (13)

  1. オーディオ再生部と、
    前記オーディオ再生部により出力されるオーディオ信号を所定の利得で減衰させ、スピーカから出力するオーディオ出力制御部と、
    マイクに入力される音声を含む信号から前記信号に含まれる前記オーディオ信号に対応するエコー成分を除去するエコー減衰部と、
    前記エコー減衰部から出力される前記音声について音声認識処理を行う音声認識部と、
    前記音声認識部による音声認識処理の結果を判定する音声認識結果判定部と、
    前記音声認識結果判定部から出力される音声認識処理の判定結果により前記オーディオ出力制御部の減衰量を決定するオーディオ出力制御量決定部と、
    を備えたことを特徴とするオーディオ機器用音声認識装置。
  2. ユーザインタフェース部を備え、
    前記オーディオ出力制御量決定部は、
    前記音声認識部による音声認識処理の結果に対し、前記ユーザインタフェース部を介して取り込まれるユーザによる過去のキャンセル操作に基づき前記オーディオ出力制御部の減衰量を決定することを特徴とする請求項1記載のオーディオ機器用音声認識装置。
  3. ユーザインタフェース部を備え、
    前記オーディオ出力制御量決定部は、
    前記音声認識部による音声認識処理の結果に対し、前記ユーザインタフェース部により取り込まれるユーザによる過去の訂正操作に基づき前記オーディオ出力制御部の減衰量を決定することを特徴とする請求項1記載のオーディオ機器用音声認識装置。
  4. 前記オーディオ出力制御量決定部は、
    前記音声認識部による音声認識処理の結果生成される音声認識スコアに基づき、前記オーディオ出力制御部の減衰量を決定することを特徴とする請求項1から請求項3のうちのいずれか1項記載のオーディオ機器用音声認識装置。
  5. 前記オーディオ出力制御量決定部は、
    前記音声認識部による音声認識処理の過去の音声区間検出結果に基づき、前記オーディオ出力制御部の減衰量を決定することを特徴とする請求項1から請求項4のうちのいずれか1項記載のオーディオ機器用音声認識装置。
  6. 前記決定された減衰量を蓄積する記憶部を備え、
    前記オーディオ出力制御量決定部は、
    前記記憶部を参照し、前記記憶部に蓄積された減衰量の平均値を減衰量として決定することを特徴とする請求項1から請求項5のうちのいずれか1項記載のオーディオ機器用音声認識装置。
  7. 前記オーディオ出力制御量決定部は、
    前記音声認識部による音声認識処理の結果と、前記マイクに入力されるエコーレベルとにより前記減衰量を決定することを特徴とする請求項1から請求項6のうちのいずれか1項記載のオーディオ機器用音声認識装置。
  8. 前記オーディオ出力制御量決定部は、
    前記音声認識部による音声認識処理の結果と、前記エコー減衰部によるエコー成分除去後のエコーレベルとにより前記減衰量を決定することを特徴とする請求項1から請求項7のうちのいずれか1項記載のオーディオ機器用音声認識装置。
  9. 前記オーディオ出力制御量決定部は、
    前記音声認識部による音声認識処理の結果と、前記信号に含まれるオーディオ信号の出力レベルとにより前記減衰量を決定することを特徴とする請求項1から請求項8のうちのいずれか1項記載のオーディオ機器用音声認識装置。
  10. 前記オーディオ出力制御量決定部は、
    前記音声認識部による音声認識処理の結果と、前記信号に含まれる音声成分とオーディオ成分とを除く騒音成分のレベルにより前記減衰量を決定することを特徴とする請求項1から請求項9のうちのいずれか1項記載のオーディオ機器用音声認識装置。
  11. 前記オーディオ出力制御量決定部は、
    前記音声認識部による音声認識処理の結果と、前記信号に含まれる音声成分のレベルにより前記減衰量を決定することを特徴とする請求項1から請求項10のうちのいずれか1項記載のオーディオ機器用音声認識装置。
  12. 前記決定された減衰量を蓄積する記憶部を備え、
    前記オーディオ出力制御量決定部は、
    前記記憶部を参照し、前記記憶部に蓄積された減衰量の平均値を減衰量として決定することを特徴とする請求項7から請求項11のうちのいずれか1項記載のオーディオ機器用音声認識装置。
  13. 前記オーディオ出力制御部は、
    前記オーディオ出力制御量決定部で決定された減衰量に基づき前記オーディオ信号を減衰する場合に、任意の時定数にしたがい減衰させることを特徴とする請求項1記載のオーディオ機器用音声認識装置。
JP2007303156A 2007-11-22 2007-11-22 オーディオ機器用音声認識装置 Pending JP2011027757A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007303156A JP2011027757A (ja) 2007-11-22 2007-11-22 オーディオ機器用音声認識装置
PCT/JP2008/001343 WO2009066401A1 (ja) 2007-11-22 2008-05-29 オーディオ機器用音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007303156A JP2011027757A (ja) 2007-11-22 2007-11-22 オーディオ機器用音声認識装置

Publications (1)

Publication Number Publication Date
JP2011027757A true JP2011027757A (ja) 2011-02-10

Family

ID=40667237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007303156A Pending JP2011027757A (ja) 2007-11-22 2007-11-22 オーディオ機器用音声認識装置

Country Status (2)

Country Link
JP (1) JP2011027757A (ja)
WO (1) WO2009066401A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019004394A (ja) * 2017-06-16 2019-01-10 株式会社ナカヨ ハウリング防止装置および電話装置
WO2021020430A1 (ja) * 2019-07-31 2021-02-04 日東電工株式会社 評価システム、評価装置、評価方法、プログラム、および遮音デバイス
KR20220128780A (ko) 2021-03-15 2022-09-22 주식회사 케이티 출력 음량을 제어하는 음성 인식 장치, 음성 인식 방법 및 컴퓨터 프로그램

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5372825B2 (ja) * 2010-03-31 2013-12-18 株式会社エヌ・ティ・ティ・ドコモ 端末装置、番組特定方法及びプログラム
CN103730032B (zh) * 2012-10-12 2016-12-28 李志刚 多媒体数据控制方法和系统
CN105427866A (zh) * 2015-10-29 2016-03-23 北京云知声信息技术有限公司 一种语音处理方法、装置及拾音电路

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2995959B2 (ja) * 1991-10-25 1999-12-27 松下電器産業株式会社 収音装置
JP4295372B2 (ja) * 1998-09-11 2009-07-15 パナソニック株式会社 音声符号化装置
JP2000132200A (ja) * 1998-10-27 2000-05-12 Matsushita Electric Ind Co Ltd 音声認識機能付きオーディオ/ビデオ装置および音声認識方法
JP4337451B2 (ja) * 2002-07-16 2009-09-30 啓二 島袋 葬祭運営方法およびその音声情報処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019004394A (ja) * 2017-06-16 2019-01-10 株式会社ナカヨ ハウリング防止装置および電話装置
WO2021020430A1 (ja) * 2019-07-31 2021-02-04 日東電工株式会社 評価システム、評価装置、評価方法、プログラム、および遮音デバイス
JP2021025800A (ja) * 2019-07-31 2021-02-22 日東電工株式会社 評価システム、評価装置、評価方法、プログラム、および遮音デバイス
KR20220128780A (ko) 2021-03-15 2022-09-22 주식회사 케이티 출력 음량을 제어하는 음성 인식 장치, 음성 인식 방법 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
WO2009066401A1 (ja) 2009-05-28

Similar Documents

Publication Publication Date Title
RU2439716C2 (ru) Детектирование автоответчика путем распознавания речи
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
US9734845B1 (en) Mitigating effects of electronic audio sources in expression detection
CN111540349B (zh) 一种语音的打断方法和装置
JP2011027757A (ja) オーディオ機器用音声認識装置
JP2008256802A (ja) 音声認識装置および音声認識方法
US8185400B1 (en) System and method for isolating and processing common dialog cues
US8457963B2 (en) Mechanism for providing user guidance and latency concealment for automatic speech recognition systems
JP6531776B2 (ja) 音声対話システムおよび音声対話方法
JP2018517919A (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
JP5431282B2 (ja) 音声対話装置、方法、プログラム
WO2006077626A1 (ja) 話速変換方法及び話速変換装置
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
WO2007138741A1 (ja) 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
JP4491438B2 (ja) 音声対話装置、音声対話方法、およびプログラム
JP3916861B2 (ja) 音声認識装置
JP6817386B2 (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
JP2005338454A (ja) 音声対話装置
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JP4810343B2 (ja) 音声処理装置およびその制御方法
JP2008249893A (ja) 音声応答装置及びその方法
JP2010164992A (ja) 音声対話装置
US20200098371A1 (en) Speech recognition device, speech recognition method, non-transitory computer-readable medium storing speech recognition program
US20200186924A1 (en) Method for switching mode and electronic device employing the method
JP2007086592A (ja) 音声出力装置および音声出力方法