JP2009069305A - 音響エコー削除装置および車載装置 - Google Patents

音響エコー削除装置および車載装置 Download PDF

Info

Publication number
JP2009069305A
JP2009069305A JP2007235858A JP2007235858A JP2009069305A JP 2009069305 A JP2009069305 A JP 2009069305A JP 2007235858 A JP2007235858 A JP 2007235858A JP 2007235858 A JP2007235858 A JP 2007235858A JP 2009069305 A JP2009069305 A JP 2009069305A
Authority
JP
Japan
Prior art keywords
acoustic echo
filter
likelihood
speech
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007235858A
Other languages
English (en)
Inventor
Kentaro Koga
健太郎 古賀
Yasuo Ariki
康雄 有木
Tetsuya Takiguchi
哲也 滝口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Kobe University NUC
Original Assignee
Denso Ten Ltd
Kobe University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd, Kobe University NUC filed Critical Denso Ten Ltd
Priority to JP2007235858A priority Critical patent/JP2009069305A/ja
Publication of JP2009069305A publication Critical patent/JP2009069305A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】必要な音声か否かを判定するのに際して、少人数の音声データのみを用いて、判定ミスを強固に防止し、判定精度を高くすることを課題とする。
【解決手段】音響エコーキャンセラは、入力された音声信号から音響エコーをフィルタ15により削除し、ホワイトノイズDB11に記憶される音響エコー消し残しとから、音響エコー消し残しの尤度を算出し、算出された尤度に応じて、フィルタ15を更新する更新度を算出し、算出された更新度に基づいて、フィルタ15を更新する。
【選択図】 図1

Description

この発明は、音声認識に必要な音声信号を抽出して、接続される音声認識装置に出力する音響エコー削除装置および車載装置に関する。
従来より、音声認識装置は、人間により発話された音声を認識する装置として様々な分野で利用されている。ところが、音声認識を行う環境下では、発話された音声以外にも雑音などの様々な音声が混入しており、高精度な音声認識を行うことができないことが多い。そこで、最近では、入力された音声信号から不必要な雑音(音響エコー)を削除する音響エコーキャンセラによって必要な音声のみが抽出され、抽出された音声のみを音声認識装置に音声認識させる音声認識システムが利用されている(特許文献1参照)。
また、車内などで利用される音声認識システムでは、車内で音楽がスピーカーから出力されている状況下で音声認識を行うと、音声認識マイクに認識対象の音声(運転席者などから発話された音声)と音響エコー(発話された以外の音声)とが混入し、音声認識の妨げとなる。そこで、音響エコーキャンセラによって音響エコーを除去し、SN比を改善することによって認識率を確保する試みがなされている。
例えば、図15に示すように、マイク観測信号「y(n)」から音響エコーを除去する音響エコーキャンセラがある。この音響エコーキャンセラでは、音楽の原信号「x(n)」を元に擬似エコー「x(n)H(n)」を推定して、マイク観測信号「y(n)」から擬似エコー「x(n)H(n)」を減算して推定誤差「e(n)」を生成し、この推定誤差「e(n)」を基に音響エコーを除去するフィルタ係数「H(n)」を更新する。このようにして、この音響エコーキャンセラでは、フィルタ係数「H(n)」を更新していくことで、マイク観測信号「y(n)」から音響エコーを除去する精度を上げていくことができる。なお、フィルタ係数「H(n)」の更新式は、射影法を用いた図16に示す式が用いられている。
ところが、この手法を用いると、認識対象音声が発生された場合、マイク入力信号「y(n)」には、音響エコー「z(n)」に加え、認識対象者音声「s(n)」が含まれる。そして、音響エコーキャンセル時に、音声「s(n)」がキャンセルされずに推定誤差「e(n)」に含まれ、この「s(n)」を含む推定誤差「e(n)」をそのまま適応フィルタに学習させてしまうために、音響エコーのみではなく音声もキャンセルするようなフィルタ更新が実行される。その結果、音響エコーキャンセル時に認識対象音声の欠落が生じ、音声認識率が低下する。
そこで、この適応フィルタのフィルタ係数「H(n)」の更新を正確に行うことで、音声認識率を向上させる様々な手法が開示されている。例えば、非特許文献1では、音響エコーがキャンセルされた推定誤差に対して、推定誤差のパワーとピッチなどの特徴から音声/非音声の判定を行う。そして、音声と判定された場合には、過去のフィルタ係数「H(n)」を用いてフィルタ係数を更新していくことで、フィルタ係数「H(n)」の更新を正確に行い、音声認識率を向上させる音声認識システム(図18参照)が開示されている。なお、この手法を用いた場合でも、図16と図17とに示した更新式および更新度を用いて、フィルタが更新される。
特開2003−99100号公報 庄境、中村、鹿野、電子情報通信学会論文誌 D−11、Vol.J81-D-11、No.6、pp.1074-1083、1998年6月
しかしながら、上記した従来の技術では、必要な音声か否かを判定するのに際して(音声/非音声の判定に際して)、推定誤差のパワーやピッチなどを用いて判定を行うには、推定誤差と比較するための平均的な音声の特徴モデル(音響モデル)を用意する必要があるため、膨大な人数の音声データが必要であるという課題があった。
また、音声または非音声の二値判定しか行っていないため、推定誤差のパワーやピッチなどの音声特徴が平均的な音声の音響モデルで音声と判定できないような推定誤差の場合、音声判定ミスが発生し、音声を検出できない。そして、検出できなかった音声をそのままフィルタに学習させる、言い換えれば、音声を含む推定誤差をフィルタに学習させてしまう。その結果、判定ミスを防止することができず、判定精度が悪くなるという課題があった。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、必要な音声か否かを判定するのに際して、少人数の音声データのみを用いて、判定ミスを強固に防止し、判定制度を高くすることが可能である音響エコー削除装置および車載装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明は、人から発話された発話音声以外の音声を示す音響エコーを削除するフィルタと、入力された音声信号から前記音響エコーを削除した後の音響エコー消し残しを記憶する音響エコー記憶手段と、前記フィルタにより音響エコーが削除された音声信号全体と、前記音響エコー記憶手段に記憶される音響エコー消し残しとから、前記音響エコー消し残しの尤度を算出する尤度算出手段と、前記尤度算出手段により算出された尤度が所定の閾値以上である場合に、前記音響エコーを削除する量が大きくなるように前記フィルタを更新するフィルタ更新手段と、備えたことを特徴とする。
本発明によれば、必要な音声か否かを判定するのに際して、少人数の音声データのみを用いて、判定ミスを強固に防止し、判定精度を高くすることが可能である。また、発話された音声またはそれ以外の音声の尤度(らしさ)を算出して、尤度に応じてフィルタの更新度を細かく算出することが可能であり、さらに、発話音声を含む誤差を高精度に検出することができる結果、高精度なフィルタ更新を行うことが可能である。
以下に添付図面を参照して、この発明に係る音響エコー削除装置および車載装置の実施例を詳細に説明する。なお、以下では、本実施例で用いる主要な用語、本実施例に係る音響エコー削除装置の概要および特徴、音響エコー削除装置の構成および処理の流れを順に説明し、最後に本実施例に対する種々の変形例を説明する。
[用語の説明]
まず最初に、本実施例で用いる主要な用語を説明する。本実施例で用いる「音響エコーキャンセラ(特許請求の範囲に記載の「音響エコー削除装置」に対応する。)」とは、入力された音声信号から不必要な音声を削除して、必要な音声信号のみを抽出して、接続される「音声識別装置」に出力する装置のことである。本実施例では、車載装置に適用された「音響エコーキャンセラ」を例にして説明する。
本実施例に係る「音響エコーキャンセラ」は、運転席者や助手席者から発話された「発話音声」とオーディオなどから出力される音楽などの「音響エコー」とが混在する車載装置などに利用され、マイクなどから受け付けた音声信号「発話音声+音響エコー」から、音声認識に必要としない「音響エコー」を削除して「発話音声」を抽出する。そして、「音響エコーキャンセラ」は、この抽出した「発話音声」を接続される「音声認識装置」に出力し、「音声認識装置」は、これを音声認識してカーナビなどに出力する。このように、精度良く音声認識を行うためには、車内に存在する音声信号から「発話音声」を精度良く抽出することが重要であるため、「音響エコー」を精度良く削除する「音響エコーキャンセラ」が切望されている。
[音響エコーキャンセラの概要および特徴]
次に、図1を用いて、実施例1に係る音響エコーキャンセラの概要および特徴を説明する。図1は、実施例1に係る音響エコーキャンセラの概要と特徴を説明するための図である。
図1に示すように、この音響エコーキャンセラは、原信号「x(n)」をスピーカから出力し、マイクからこの原信号と発話された音声とを受け付けて、音声認識に必要な音声信号を抽出して、接続される音声認識装置に出力することを概要とするものであり、特に、必要な音声か否かを判定するのに際して、少人数の音声データのみを用いて、判定ミスを強固に防止し、判定精度を高くすることが可能である点に主たる特徴がある。
この主たる特徴を具体的に説明すると、この音響エコーキャンセラは、人から発話された発話音声以外の音声を示す音響エコー消し残し(ホワイトノイズ)の特徴をホワイトノイズDBとして記憶する。具体的には、このホワイトノイズDBは、10種類程度の比較的少ないデータから抽出した、発話された発話音声以外の音声を示す音響エコーの特徴を記憶する。
そして、音響エコーキャンセラは、マイクにより受け付けられた音声信号に対して、フィルタにより不必要な音響エコーを削除する(図1の(1)参照)。具体的に例を挙げれば、音響エコーキャンセラは、スピーカから出力された音響エコー「z(n)」の元の信号である原信号「x(n)」に、音響エコーを削除するフィルタ「H(n)」を掛け合わせて、音響エコー「z(n)=x(n)H(n)」を推定する。その後、音響エコーキャンセラは、マイクにより受け付けられた音響エコー「z(n)=x(n)h(n)」と発話音声「s(n)」とから構成されるマイク観測信号「y(n)」から、推定した音響エコー「x(n)H(n)」を減算して、音声認識に必要な音声信号である推定誤差「e(n)」を生成する。
その後、音響エコーキャンセラは、フィルタにより音響エコーが削除された音声信号全体と、ホワイトノイズDBに記憶される音響エコー消し残しとから、音響エコー消し残しの尤度を算出する(図1の(2)参照)。上記した例で具体的に説明すると、音響エコーキャンセラで、フィルタにより音響エコーが削除された音声信号全体の短時間の範囲に対しケプストラム値を算出し、この算出したケプストラム値をどのくらい音響エコーに近いかを示す「らしさ」を示す音響エコーの消し残しの尤度「θ」として算出する。
そして、音響エコーキャンセラは、算出された尤度に応じて、フィルタを更新する更新度を算出し、算出された更新度に基づいて、フィルタを更新する(図1の(3)参照)。上記した例で具体的に説明すると、音響エコーキャンセラは、算出された尤度「θ」に応じて、フィルタを更新する更新度「μ」を算出し、算出された更新度をフィルタ更新式「H(n+1)=H(n)+μα、(αは図6参照)」に代入して、フィルタを更新する。つまり、音響エコーキャンセラは、算出された尤度「θ」が大きい場合には、フィルタにより音響エコーが削除された音声信号である推定誤差「e(n)」に、削除すべき音響エコーが多く含まれている(音声歪が大きい)と判定して、音響エコーを削除する量が大きくなるようにフィルタを更新する。また、音響エコーキャンセラは、算出された尤度「θ」が小さい場合には、フィルタにより音響エコーが削除された音声信号である推定誤差「e(n)」に、削除すべき音響エコーが高精度に削除されている(音声歪みが小さい)と判定して、フィルタの更新を小さくする。
その後、音響エコーキャンセラは、更新したフィルタを用いて、上記した手法と同様に、入力された音声信号から音響エコーを削除し、音響エコーが削除された音声信号から音響エコーの消し残しの尤度を算出して、フィルタを更新していく。
このように、実施例1に係る音響エコーキャンセラは、発話された音声またはそれ以外の音声の尤度(らしさ)を算出して、尤度に応じてフィルタの更新度を細かく算出して、フィルタを更新しながら音響エコーを削除することができる結果、上記した主たる特徴のごとく、必要な音声か否かを判定するのに際して、少人数の音声データのみを用いて、判定ミスを強固に防止し、判定精度を高くすることが可能である。
[音響エコーキャンセラの構成]
次に、図2を用いて、図1に示した音響エコーキャンセラの構成を説明する。図2は、実施例1に係る音響エコーキャンセラの構成を示すブロック図である。図2に示すように、この音響エコーキャンセラ10は、ホワイトノイズDB11と、原信号出力部12と、スピーカ13と、マイク14と、フィルタ15と、音声データ分岐部16と、音声認識データ出力部17と、尤度算出部19と、フィルタ更新部20とから構成される。
ホワイトノイズDB11は、人から発話された発話音声以外の音声を示す音響エコー消し残しの特徴を記憶する。具体的に例を挙げると、ホワイトノイズDB11は、10種類程度の比較的少ないデータから抽出した、発話された発話音声以外の音声を示す音響エコー消し残しの特徴を記憶する。このホワイトノイズDB11に記憶される情報は、図3の(1)に示すように、キャンセルした後の推定誤差「e(n)」の波形(図3の(2)参照)に比較的近い定常的な波形から抽出した音響エコー消し残しの特徴を記憶する。なお、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、図3は、ホワイトノイズと音響エコーとの関係を示す図である。また、ホワイトノイズDB11は、特許請求の範囲に記載の「音響エコー記憶手段」に対応する。
原信号出力部12は、後述するスピーカ13に対して音声を出力し、具体的に例を挙げれば、音楽などの原信号「x(n)」をスピーカ13に出力する。スピーカ13は、原信号出力部12から出力された音声を外部(例えば、車内)に出力し、具体的に例を挙げれば、原信号出力部12から出力された原信号「x(n)」を音声信号「z(n)」として出力する。
マイク14は、音響エコーキャンセラ10の周囲の音を集音する。上記した例で具体的に説明すると、マイク14は、スピーカ13により出力された音声信号「z(n):音響エコー」と、同じ時刻に運転席者や助手席者などから発話された発話音声「s(n)」を集音して、後述するフィルタ15に出力する。
フィルタ15は、入力された音声信号から音響エコーを削除するアルゴリズムである。上記した例で具体的に説明すると、フィルタ15は、スピーカ13から出力された音声信号「z(n)」の元の信号である原信号「x(n)」に、音響エコーを削除するフィルタ「H(n)」を掛け合わせて、発話音声「s(n)」と同時にマイク14により集音された音響エコー「z(n)=x(n)H(n)」を推定する。その後、音響エコーキャンセラ10は、マイク14により受け付けられた音響エコー「z(n)=x(n)h(n)」と発話音声「s(n)」とから構成されるマイク観測信号「y(n)」から、推定した音響エコー「x(n)H(n)」を減算して、音声認識に必要な音声信号である推定誤差「e(n)」を生成する。そして、フィルタ15は、生成した推定誤差「e(n)」を後述する音声データ分岐部16に出力する。なお、フィルタ15は、特許請求の範囲に記載の「フィルタ」に対応する。
音声データ分岐部16は、フィルタ15より入力された推定誤差「e(n)」を後述する音声認識データ出力部17に出力する。なお、この音声データ分岐部16では、入力された推定誤差「e(n)」と同じデータを、音声認識データ出力部17と尤度算出部19とにそれぞれ出力する。
音声認識データ出力部17は、フィルタ15により音声認識に不必要な音響エコーが削除された音声信号を接続される音声認識装置に出力する。上記した例で具体的に説明すると、音声認識データ出力部17は、音声データ分岐部16により入力されたフィルタ15によりマイク観測信号「y(n)」から音響エコー「x(n)H(n)」が削除された推定誤差「e(n)」を音声認識装置に出力する。
尤度算出部19は、フィルタ15により音響エコーが削除された音声信号全体と、ホワイトノイズDB11に記憶される音響エコー消し残しの特徴とから、音響エコーの尤度を算出する。上記した例で具体的に説明すると、尤度算出部19は、音響エコーが削除された音声信号全体のうちの短時間の範囲に対しケプストラム値を算出し、この算出したケプストラム値をどのくらい音響エコー消し残しに近いかを示す「らしさ」を音響エコー消し残しの尤度「θ」として算出する。そして、尤度算出部19は、算出した尤度「θ」を後述するフィルタ更新部20に出力する。なお、尤度算出部19は、特許請求の範囲に記載の「尤度算出手段」に対応する。
つまり、尤度算出部19は、音声データのケプストラム値と、ホワイトノイズDB11に記憶される音響エコー消し残しのモデルに記述されたケプストラム値を比較し、音声データが(モデルとして定義された)音響エコーにどれだけ近い、「らしい」かを示す値を尤度として算出する。言い換えれば、尤度算出部19は、フィルタ15によるエコーキャンセル後の推定誤差e(t)の一部区間から抽出したケプストラム値「α」とホワイトノイズDB11に記憶される音響エコー消し残しのモデルに記述されたケプストラム値「β」の比較により尤度「θ」を算出する。
ここで示したケプストラム値について具体的に説明すると、尤度算出部19は、音声データの一部区間に対して、「1.入力音声データx(t)の高域強調(プリエンファシス)を行う」、「2.高域強調した音声データに対して、窓関数を適用後、FFTを行う」、「3.FFT後の音声データ(周波数領域)に対し、三角フィルタ列のメルフィルタバンク処理を行う」、「4.3で算出されたパワースペクトル値に対し、自然対数をとる」、「5.パワースペクトル値に対し、離散コサイン変換(DCT−II)を行い、ケプストラム値を求める。なお、「3」では、三角フィルタの数に等しい、p個の出力mj(j=1・・・p) が算出される。
フィルタ更新部20は、尤度算出部19により算出された尤度に応じて、フィルタ15を更新する更新度を算出し、算出された更新度に基づいて、フィルタ15を更新する。上記した例で具体的に説明すると、フィルタ更新部20は、図4の(2)に示す尤度と更新度との関係図から、尤度算出部19により算出された尤度「θ」に対応する更新度(ステップサイズ:「μ」)を算出する。そして、フィルタ更新部20は、算出された更新度を、図5に示すフィルタ更新式に代入し、この更新式を用いてフィルタ15を更新する。
つまり、フィルタ更新部20は、尤度算出部19により算出された尤度「θ」が大きい場合には、フィルタ15により音響エコーが削除された音声信号である推定誤差「e(n)」が、音響エコーの消し残しであると判定して、音響エコーを削除する量が大きくなるようにフィルタ15を更新する。また、フィルタ更新部20は、尤度算出部19により算出された尤度「θ」が小さい場合には、フィルタ15により音響エコーが削除された音声信号である推定誤差「e(n)」ではフィルタに反映すべきでない音声が含まれていると判定して、フィルタ15の更新を小さくする。なお、図4は、尤度と更新度との関係を示す図であり、図5は、フィルタ更新式の例を示す図である。また、フィルタ更新部20は、特許請求の範囲に記載の「フィルタ更新手段」に対応する。
[音響エコーキャンセラによる処理]
次に、図6を用いて、実施例1に係る音響エコーキャンセラによる処理を説明する。図6は、実施例1に係る音響エコーキャンセラにおけるフィルタ更新処理の流れを示すフローチャートである。
図6に示すように、マイク14により音声信号が受け付けられると(ステップS101肯定)、音響エコーキャンセラ10のフィルタ15は、入力された音声信号から音響エコーを削除した音声信号(推定誤差「e(n)」)を生成する(ステップS102)。
そして、音声データ分岐部16は、フィルタ15より入力された音声信号(推定誤差「e(n))」)を後述する音声認識データ出力部17と、尤度算出部19とに出力する(ステップS103)。
続いて、音声認識データ出力部17は、音声データ分岐部16により分岐された音声認識に不必要な音響エコーが削除された音声信号を接続される音声認識装置に出力する(ステップS104)。
続いて、尤度算出部19は、フィルタ15により音響エコーが削除された音声信号全体と、ホワイトノイズDB11に記憶される音響エコー消し残しとから、音響エコー消し残しの尤度を算出する(ステップS105)。そして、フィルタ更新部20は、尤度算出部19により算出された尤度に応じて、フィルタ15を更新する更新度を算出し、算出された更新度に基づいて、フィルタ15を更新する(ステップS106)。
[実施例1による効果]
このように、実施例1によれば、入力された音声信号から音響エコーをフィルタ15により削除し、ホワイトノイズDB11に記憶される音響エコー消し残しとから、音響エコー消し残しの尤度を算出し、算出された尤度が所定の閾値以上である場合に、音響エコーを削除する量が大きくなるようにフィルタ15を更新するので、必要な音声か否かを判定するのに際して、少人数の音声データのみを用いて、判定ミスを強固に防止し、判定精度を高くすることが可能である。
例えば、発話データを用いて発話された音声かそれ以外の音声かを判定するには、発話データとして、一般的に2400種類程度のデータを用いないと特徴が抽出できないが、発話された音声以外のデータ(音響エコーデータ、ホワイトノイズ)を用いる場合には、10種類程度の比較的少ないデータからでも特徴を抽出することができるので、少人数の音声データのみを用いて、判定ミスを強固に防止し、判定制度を高くすることが可能である。また、発話データから得られる特徴(平均)からでは判定できない特徴のある発話音声であっても、非定常な特性を持つ音声であるため、定常に発話された音声以外のデータ(音響エコーデータ、ホワイトノイズ)を用いることで、検出することができる結果、判定ミスを強固に防止し、判定精度を高くすることが可能である。
また、実施例1によれば、算出された尤度に応じて、フィルタ15を更新する更新度であるステップサイズを算出し、算出されたステップサイズに基づいて、フィルタ15を更新するので、発話された音声またはそれ以外の音声の尤度(らしさ)を算出して、尤度に応じてフィルタ15の更新度を細かく算出することが可能であり、さらに、発話音声を含む誤差を高精度に検出することができる結果、高精度なフィルタ更新を行うことが可能である。
ところで、実施例1では、フィルタにより削除された音声信号から音響エコーが含まれる割合(尤度)を算出して、尤度に応じてフィルタを更新する手法について説明したが、実施例2では、実施例1で説明した手法の有効性を示す実験について説明する。
(実施例2に係る音響エコーキャンセラの概要図)
まず、実施例2に係る音響エコーキャンセラの概要図を図7に示す。図7に示すように、この音響エコーキャンセラは、推定誤差e(n)を用いて適応フィルタ(実施例1におけるフィルタ15)を更新する前に、音声区間検出を行い、e(n)の尤度を計算する。その結果、e(n)の雑音尤度が低い(音声尤度が高い)と判定された場合には、推定誤差e(n)の適応フィルタへの反映を抑止する。
(音声区間検出)
次に、音声区間検出について説明する。音声区間検出は、MFCC(Mel Frequency Cepstrum Coefficient)の比較により行う。分析対象となる音響信号のMFCCを計算した上で、(あらかじめ作成していた)音声のMFCCによるGMM(Gaussian Mixture Model)と比較することで、音声区間検出が可能になる。
図7において、音響エコーキャンセラ前の観測信号「y(n)」は、音声「s(n)」に音響エコー「n(n)」が重畳した状態であり、s(n)とn(n)との両方のGMMを用意する必要がある。しかし、n(n)のGMMは、スピーカから出力される音楽によって変更する必要があるため、実用的でないと言える。キャンセルした後の推定誤差「e(n)」は、音声に音響エコーの消し残しが重畳した状態であるが、この音響エコーの消し残しは、図3の(1)と(2)とに示す通り、定常的なホワイトノイズに比較的近い波形になっている。また、音声「s(n)」は、図8に示す通り、非定常波形になっている。そこで、定常なホワイトノイズを用意してGMMを学習し、推定誤差「e(n)」の定常性を調べることで、スピーカからどのような音楽が出力されていても精度の高い音声区間検出が可能と考える。なお、図8は、音声信号の非定常な波形を示す図である。
(適応フィルタの制御方法)
ホワイトノイズGMMの尤度「θ」に基づいて、適応フィルタ更新式(図6参照)のステップサイズ「μ:更新度」を調整することにより適応フィルタを制御する。「μ」が大きければ推定誤差「e(n)」の適応フィルタへの反映度合いは大きくなり、「μ」が小さければ推定誤差「e(n)」の適応フィルタへの反映度合いは小さくなる。「μ」は、図5に示した式によって決定する。なお、図5の式において、「θ2<θ<θ1、μはθについての一次関数」となり、θ1、θ2は、θ1>θ2を満たす閾値で、「μmax」、「μmin」は、それぞれステップサイズ(更新度)の上限値、下限値である。
(実験条件)
評価対象とする音響エコーキャンセラは、「項番、フィルタ更新手法、音声区間検出の有無」として「1.学習同定法、音声区間検出なし」と、「2.射影法、音声区間検出なし」と、「3.射影法、音声区間検出あり(音楽消し残しのGMMを使用)」と、本発明に係る「4.射影法、音声区間検出あり(ホワイトノイズのGMMを使用)」との4通りを比較する。また、タップ数はそれぞれ256、ステップサイズ「μmax、μmin」は「1.0、0.1」、音楽消し残しのGMMを用いた場合の閾値は「θ1、θ2」=「−7.0、−11.0」、ホワイトノイズのGMMを用いた場合の閾値は「θ1、θ2」=「−13.0、−30.0」とし、図9に示す評価データを用いて、音響エコーキャンセラによって生じた音声の歪みによって評価する。なお、図9は、実験に用いた評価データを示す図である。
歪みの度合いは、音声のケプストラム距離を比較することによって行う。音響エコーが重畳していない音声の時間tにおけるケプストラム値をc1(t)、音響エコーが重畳している状態でエコーをキャンセルした後の音声の時間tにおけるケプストラム値をc2(t)とした場合、図10に示される式によって求めた値「φ」が大きいほど、歪みが大きいものと判断する。なお、図10は、音声歪みを算出する式の例を示す図である。
(実験結果)
実験結果を図11に示す。図11では、音声区間の始点と終点とを手動で与え、音声区間で「μ=μmin」、非音声区間で「μ=μmax」とした場合の理論値として示している。音響エコーキャンセラのアルゴリズムを学習同定法から射影法に変更することにより、「φ」の値(ケプストラム値)が「3.5」程度減少し、歪みが改善されていることがわかる。また、射影法にGMMによる音声区間検出を追加することにより、「φ」の値がさらに「1.0」程度減少する。これは、提案手法により音声歪みが改善されていることを示している。このように、ホワイトノイズを用いて音声判別し、さらに、歪み(尤度)を算出して、算出した歪みに応じてフィルタの更新度合いを変えることで、従来手法よりも高精度に音響エコーを削除できることが示された。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に示すように、(1)更新度算出手法、(2)フィルタ更新手法、(3)システム構成等、にそれぞれ区分けして異なる実施例を説明する。
(1)更新度算出手法
例えば、実施例1と2とでは、更新度(ステップサイズ)の算出に一次関数を用いた場合(図4の(2)参照)について説明したが、本発明はこれに限定されるものではなく、様々な関数を用いてもよい。そこで、実施例3では、一次関数以外の適用例について説明するが、実施例3で説明する関数はあくまで例であり、これに限定されるものではない。
例を挙げれば、図12に示すように、更新度(ステップサイズ)の算出にルート関数を用いてもよく、また、図13に示すように、二次関数を用いてもよい。このように、更新度(ステップサイズ)の算出手法を音響エコーキャンセラの性能や価格にあわせて変更することにより、音響エコーキャンセラのフィルタ更新を柔軟に行うことが可能である。なお、図12は、ルート関数を用いた更新度の算出の例を示す図であり、図13は、二次関数を用いた更新度の算出の例を示す図である。
(2)フィルタ更新手法
また、実施例1と2とでは、フィルタ一つを用いて音響エコーを削除し、尤度に応じてフィルタを更新する場合について説明したが、本発明はこれに限定されるものではなく、フィルタを二つ用意し、尤度に応じていずれかのフィルタを更新するようにしてもよい。
具体的に例を挙げれば、図14に示すように、推定誤差e(n)から算出した尤度が高い(非音声(音響エコー)と判定)場合には、射影法でフィルタを更新し、推定誤差e(n)から算出した尤度が低い(音声と判定)場合には、最小二乗平均誤差アルゴリズムでフィルタを更新する。そして、尤度が高いと判定された場合には、次の音声信号に対して射影法アルゴリズムを用いたフィルタにより音響エコーを削除し、尤度が低いと判定された場合には、次の音声信号に対して最小二乗平均誤差アルゴリズムを用いたフィルタにより音響エコーを削除する。なお、図14は、二つのフィルタを用いた場合のフィルタ更新手法の例を示す図である。
また、ここで例示した関数は、これに限定されるものではなく、例えば、尤度が低い(音声と判定)場合には、フィルタ更新量を小さくするアルゴリズムを用いてフィルタを更新し、尤度が高い(非音声と判定)場合には、フィルタ更新量を大きくするアルゴリズムを用いるようにすればよい。
(3)システム構成等
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合(例えば、フィルタ15と音声データ分岐部16とを統合するなど)して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
なお、本実施例で説明した音響エコー削除方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
以上のように、本発明に係る音響エコー削除装置および車載装置は、音声認識に必要な音声信号を抽出して、接続される音声認識装置に出力することに有用であり、特に、必要な音声か否かを判定するのに際して、少人数の音声データのみを用いて、判定ミスを強固に防止し、判定精度を高くすることに適する。
実施例1に係る音響エコーキャンセラの概要と特徴を説明するための図である。 実施例1に係る音響エコーキャンセラの構成を示すブロック図である。 ホワイトノイズと音響エコーとの関係を示す図である。 尤度と更新度との関係を示す図である。 フィルタ更新式の例を示す図である。 実施例1に係る音響エコーキャンセラにおけるフィルタ更新処理の流れを示すフローチャートである。 実施例2に係る音響エコーキャンセラの概要図を示す図である。 音声信号の非定常な波形を示す図である。 実験に用いた評価データを示す図である。 音声歪みを算出する式の例を示す図である。 実験結果を示す図である。 ルート関数を用いた更新度の算出の例を示す図である。 二次関数を用いた更新度の算出の例を示す図である。 二つのフィルタを用いた場合のフィルタ更新手法の例を示す図である。 従来技術に係る音響エコーキャンセラの構成図を示す図である。 従来技術に係るフィルタ更新式を示す図である。 従来技術に係るフィルタ更新式における更新度算出の例を示す図である。 従来技術に係る音響エコーキャンセラの構成図を示す図である。
符号の説明
10 音響エコーキャンセラ
11 ホワイトノイズDB
12 原信号出力部
13 スピーカ
14 マイク
15 フィルタ
16 音声データ分岐部
17 音声認識データ出力部
19 尤度算出部
20 フィルタ更新部

Claims (4)

  1. 人から発話された発話音声以外の音声を示す音響エコーを削除するフィルタと、
    入力された音声信号から前記音響エコーを削除した後の音響エコー消し残しを記憶する音響エコー記憶手段と、
    前記フィルタにより音響エコーが削除された音声信号全体と、前記音響エコー記憶手段に記憶される音響エコー消し残しとから、前記音響エコー消し残しの尤度を算出する尤度算出手段と、
    前記尤度算出手段により算出された尤度が所定の閾値以上である場合に、前記音響エコーを削除する量が大きくなるように前記フィルタを更新するフィルタ更新手段と、
    を備えたことを特徴とする音響エコー削除装置。
  2. 前記フィルタ更新手段は、前記尤度算出手段により算出された尤度に応じて、前記フィルタを更新する更新度を算出し、算出された更新度に基づいて、前記フィルタを更新することを特徴とする請求項1に記載の音響エコー削除装置。
  3. 人から発話された発話音声以外の音声を示す音響エコーを削除するフィルタと、
    入力された音声信号から前記音響エコーを削除した後の音響エコー消し残しを記憶する音響エコー記憶手段と、
    前記フィルタにより音響エコーが削除された音声信号全体と、前記音響エコー記憶手段に記憶される音響エコー消し残しとから、前記音響エコー消し残しの尤度を算出する尤度算出手段と、
    前記尤度算出手段により算出された尤度が所定の閾値以上である場合に、前記音響エコーを削除する量が大きくなるように前記フィルタを更新するフィルタ更新手段と、
    を備えたことを特徴とする音響エコー削除装置を備えた車載装置
  4. 前記フィルタ更新手段は、前記尤度算出手段により算出された尤度に応じて、前記フィルタを更新する更新度を算出し、算出された更新度に基づいて、前記フィルタを更新することを特徴とする請求項3に記載の音響エコー削除装置を備えた車載装置。
JP2007235858A 2007-09-11 2007-09-11 音響エコー削除装置および車載装置 Withdrawn JP2009069305A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007235858A JP2009069305A (ja) 2007-09-11 2007-09-11 音響エコー削除装置および車載装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007235858A JP2009069305A (ja) 2007-09-11 2007-09-11 音響エコー削除装置および車載装置

Publications (1)

Publication Number Publication Date
JP2009069305A true JP2009069305A (ja) 2009-04-02

Family

ID=40605663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007235858A Withdrawn JP2009069305A (ja) 2007-09-11 2007-09-11 音響エコー削除装置および車載装置

Country Status (1)

Country Link
JP (1) JP2009069305A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011013543A (ja) * 2009-07-03 2011-01-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2013120467A (ja) * 2011-12-07 2013-06-17 National Institute Of Advanced Industrial & Technology 信号特徴抽出装置および信号特徴抽出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011013543A (ja) * 2009-07-03 2011-01-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2013120467A (ja) * 2011-12-07 2013-06-17 National Institute Of Advanced Industrial & Technology 信号特徴抽出装置および信号特徴抽出方法

Similar Documents

Publication Publication Date Title
US8027833B2 (en) System for suppressing passing tire hiss
Droppo et al. Environmental robustness
JP4283212B2 (ja) 雑音除去装置、雑音除去プログラム、及び雑音除去方法
EP1903560B1 (en) Sound signal correcting method, sound signal correcting apparatus and computer program
US10783899B2 (en) Babble noise suppression
WO2018049282A1 (en) Robust noise estimation for speech enhancement in variable noise conditions
Cohen Speech enhancement using super-Gaussian speech models and noncausal a priori SNR estimation
JP2009271359A (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
Chenchah et al. Speech emotion recognition in noisy environment
Kleinschmidt et al. The use of phase in complex spectrum subtraction for robust speech recognition
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
Jain et al. Marginal energy density over the low frequency range as a feature for voiced/non-voiced detection in noisy speech signals
WO2021152566A1 (en) System and method for shielding speaker voice print in audio signals
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
JP2009276365A (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法
JP2009069305A (ja) 音響エコー削除装置および車載装置
KR20070061216A (ko) Gmm을 이용한 음질향상 시스템
Hirsch HMM adaptation for applications in telecommunication
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
US9875755B2 (en) Voice enhancement device and voice enhancement method
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
JP4058521B2 (ja) 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム
JP7052008B2 (ja) 有声音声検出の複雑性低減およびピッチ推定
Lee et al. Signal and feature domain enhancement approaches for robust speech recognition
Gouda et al. Robust Automatic Speech Recognition system based on using adaptive time-frequency masking

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20101207