JP2007058237A - 雑音除去方法 - Google Patents
雑音除去方法 Download PDFInfo
- Publication number
- JP2007058237A JP2007058237A JP2006297627A JP2006297627A JP2007058237A JP 2007058237 A JP2007058237 A JP 2007058237A JP 2006297627 A JP2006297627 A JP 2006297627A JP 2006297627 A JP2006297627 A JP 2006297627A JP 2007058237 A JP2007058237 A JP 2007058237A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- microphone
- output signal
- noise removal
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Abstract
【課題】マイクロフォンの出力信号から雑音成分を適切に除去すること。
【解決手段】雑音除去装置10は、複数のマイクロフォンM1,M2の各出力信号を取得する。雑音抽出部15は、独立成分分析の手法により、マイクロフォンM1の出力信号に含まれる音声成分を、マイクロフォンM2の出力信号に基づいて除去し、マイクロフォンM1の出力信号から雑音成分を分離抽出する。雑音除去部17は、雑音抽出部にて抽出された雑音成分を所定の特徴量に変換し、マイクロフォンの出力信号を所定の特徴量と同一の特徴量に変換し、両変換結果を用いて、マイクロフォンM1の出力信号に含まれる雑音成分を除去し、雑音除去後の信号を出力する。
【選択図】図1
【解決手段】雑音除去装置10は、複数のマイクロフォンM1,M2の各出力信号を取得する。雑音抽出部15は、独立成分分析の手法により、マイクロフォンM1の出力信号に含まれる音声成分を、マイクロフォンM2の出力信号に基づいて除去し、マイクロフォンM1の出力信号から雑音成分を分離抽出する。雑音除去部17は、雑音抽出部にて抽出された雑音成分を所定の特徴量に変換し、マイクロフォンの出力信号を所定の特徴量と同一の特徴量に変換し、両変換結果を用いて、マイクロフォンM1の出力信号に含まれる雑音成分を除去し、雑音除去後の信号を出力する。
【選択図】図1
Description
本発明は、マイクロフォンの出力信号から雑音成分を除去するための雑音除去方法に関する。
従来より、ユーザから発せられた音声をマイクロフォンで集音し、これを予め認識語として記憶された音声のパターンと比較し、一致度の高い認識語をユーザが発声した語彙であると認識する音声認識装置が知られている。この種の音声認識装置は、例えばカーナビゲーション装置などに組み込まれている。
音声認識装置としては、マイクロフォンの出力信号から、その出力信号に含まれる雑音成分を除去するための雑音除去装置を備えたものがある。また、音声認識装置の音声認識率は、雑音除去装置の性能によって左右されることがよく知られている。
雑音除去装置としては、従来より、スペクトラムサブトラクション(SS)法を用いてマイクロフォンの出力信号から雑音成分を除去するものが知られている。スペクトラムサブトラクション法は、音声が発せられていない非音声区間におけるマイクロフォンの出力信号を雑音信号とし、音声が発せられている音声区間におけるマイクロフォンの出力信号から、その雑音信号を除去することにより、音声のスペクトルを得る方法である。
この他、上記雑音除去装置を含む機器としては、音声通信装置が知られている。このような雑音除去装置を内蔵する音声通信装置は、ハンドセット等に内蔵されたマイクロフォンの出力信号に含まれる雑音成分を雑音除去装置にて除去し、雑音除去後の信号を、公衆電話回線網(PSTN)等を介して外部の通信装置(電話機等)に送信する構成にされている。
しかしながら、上記従来の雑音除去装置では、非音声区間におけるマイクロフォンの出力信号から先行して得た雑音信号を、以後の雑音除去に用いるため、定常的に発生する雑音成分を、マイクロフォンの出力信号から取り除くことはできても、突発的に発生する非定常的な雑音成分をマイクロフォンの出力信号から適切に取り除けないという問題があった。
一方、上記問題の解決を図るために、特開平4−245300号公報に記載の発明では、第一のマイクロフォンを、主に音声を集音可能な位置に配置し、第二のマイクロフォンを、主に周囲雑音を集音可能な位置に配置することにより、非定常雑音の除去を行っている。
特開平4−245300号公報に記載の雑音除去装置では、第二のマイクロフォンの出力信号から第一のマイクロフォンの出力信号に含まれる雑音成分を推定し、この推定した雑音成分を、第一のマイクロフォンの出力信号から除去して音声信号を得る。
しかし、このような技術では、第二のマイクロフォンの出力信号に音声成分が含まれないようにしないと、雑音成分の推定時に大きな誤差を生むため、マイクロフォンの設置位置が非常に限定されていた。また、第二のマイクロフォンを第一のマイクロフォンから離して、第二のマイクロフォンに音声が入力されないようにすると、結果として、第一のマイクロフォンが集音する雑音と、第二のマイクロフォンが集音する雑音とに差異が生じるため、雑音除去の精度に関しては、一定度の限界があった。特に、車両内においては、車両(自動車等)の走行時と停止時で周囲雑音の発生状態が大きく変化することから、特開平4−245300号公報に記載の雑音除去装置では、適切に雑音成分を除去できないという問題があった。
本発明は、こうした問題に鑑みなされたものであって、マイクロフォンの出力信号から雑音成分を適切に除去することが可能な雑音除去装置及び、それを用いた音声認識装置並びに音声通信装置を提供することを目的とする。
従来のような雑音成分を推定して除去する手法では、突如ノイズ源が発生したりすると、複数のマイクロフォンを用いても、適切に雑音成分を推定して除去することができないといった問題がある。一方、音声成分は、ユーザの発話内容に基づく成分であるため雑音成分より適切に除去しやすいといった特徴がある。
上記目的を達成するためになされた請求項1に記載の雑音除去方法では、複数のマイクロフォンの各出力信号に共通して含まれる音声成分をマイクロフォンの出力信号から除去して、出力信号に含まれる雑音成分を抽出し、その抽出した雑音成分を用いて雑音除去するから、マイクロフォンの設置場所によらず、雑音除去すべきマイクロフォンの出力信号の雑音成分を適切に除去することができる。
また、音声成分を除去して雑音成分を抽出する手法であるため、成分抽出ステップを逐次動作させることによって、常に周囲雑音に従った雑音成分をマイクロフォンの出力信号から除去することができ、従来装置において除去し辛かった非定常雑音を適切にマイクロフォンの出力信号から除去することができる。したがって、マイクロフォンの出力信号の雑音成分を適切に除去することができる。尚、上記効果は、当該雑音除去方法を、車両用に適用することで一層発揮される。
また、請求項1に記載の雑音除去方法では、独立成分分析(ICA)を用いて、複数のマイクロフォンの出力信号に共通して含まれる音声成分をマイクロフォンの出力信号から除去し、その出力信号に含まれる雑音成分を抽出する方法を採用している。
独立成分分析は、複数のブラインド音源から生じる混合音声を、複数のマイクロフォンで集音し、その混合音声に含まれる各音源からの信号をマイクロフォンからの出力信号に基づいて分離する手法であるので、請求項1に記載の雑音除去方法によれば、独立成分分析の手法によって、マイクロフォンの出力信号から雑音成分を適切に分離抽出することができる。したがって、マイクロフォンの出力信号の雑音成分を適切に除去することができる。
また、請求項1に記載の雑音除去方法において、抽出した雑音成分を、所定の特徴量に変換し、取得した雑音除去すべきマイクロフォンの出力信号を、前記所定の特徴量と同一の特徴量に変換し、両変換結果を用いて、雑音除去すべきマイクロフォンの出力信号から、前記抽出した雑音成分を除去する。
このように、マイクロフォンの出力信号及び雑音成分を、音の特徴を表す所定の特徴量に変換することで、その出力信号及び抽出した雑音成分から、音に関する情報を抽出することができる。したがって、両変換結果を除算するなどすれば、マイクロフォンの出力信号から雑音成分を適切に除去することができる。
尚、特徴量としては、請求項2に記載のような、フーリエ変換による得られるスペクトルや、請求項3に記載のような、そのスペクトルの対数を(逆)フーリエ変換することにより得られるケプストラム等が挙げられる。
特に、請求項4に記載のような、周知のフィルタバンク分析の手法を用いて得られるメル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficient)や、請求項4に記載のような、線形予測符号化(LPC:Linear Predictive coding)の手法により得られるLPCケプストラムを特徴量として用いると、雑音成分除去後のマイクロフォンの出力信号として、音声の特徴を良く表す波形を得ることができる。このため、そのような雑音除去方法を音声認識装置に適用すれば、音声の認識率が向上する。
以下に本発明の実施例について、図面とともに説明する。尚、図1は、本発明が適用された雑音除去装置10を備える音声認識装置1の概略構成を表すブロック図である。
本実施例の音声認識装置1は、主に、マイクロフォンM1,M2と、雑音除去装置10と、音声認識部20と、から構成されており、目的地までの経路案内を車両乗員に対して行うことが可能な周知のナビゲーション機能を有するナビ制御部30に接続されている。この音声認識装置1は、マイクロフォンM1,M2から入力されたユーザの音声を認識して、ユーザが発した語彙に対応する指令信号をナビ制御部30に入力することにより、ユーザの音声に従う操作をナビ制御部30に対して施す。
マイクロフォンM1,M2は、車両内に複数(本実施例では二つ)設けられており、夫々は、雑音除去装置10の各入力端子に接続されている。
一方、雑音除去装置10は、車両内(自動車等)において発生する空調音、エンジン音、ロードノイズ、風切音などの雑音がマイクロフォンM1,M2に入力されて発生する雑音成分をマイクロフォンM1の出力信号から除去して音声の認識率を高めるために設けられている。この雑音除去装置10は、主に、アナログデジタル変換器11,13と、雑音抽出部15と、雑音除去部17と、を備えている。
アナログデジタル変換器11,13は、各マイクロフォンM1,M2に対応して設けられており、各マイクロフォンM1,M2の出力信号をデジタル信号(以下、これを「入力音声信号」とも表現する。)にして雑音抽出部15に入力する。
雑音抽出部15は、外部からの指令に基づいて動作を開始すると、各マイクロフォンM1,M2からの入力音声信号x(t),y(t)を、アナログデジタル変換器11,13を介して取得し、その入力音声信号x(t),y(t)に含まれる雑音成分n(t)を抽出する。ここで、図2は、雑音抽出部15にて実行される雑音抽出処理を表すフローチャートである。
図2に示すように、雑音抽出部15は、まずフィルタ係数W[j]、及び学習レートL(詳細後述)を初期化し(S110)、その後に、マイクロフォンM1からの入力音声信号x(t)及びマイクロフォンM2からの入力音声信号y(t)を夫々のアナログデジタル変換器11,13を介して取得する(S120)。また、取得した入力音声信号x(t),y(t)を用いて、式1及び式2に従い、入力音声信号x(t)から雑音成分n(t)を抽出し、その雑音成分n(t)を雑音除去部17に入力する(S130)。
n(t)=x(t)+F(t) …式2
即ち、雑音抽出部15は、フィルタ係数W[j]と入力音声信号y(t)とを畳み込み演算して演算結果F(t)を得る。その後、演算結果F(t)を入力音声信号x(t)に加算することにより、マイクロフォンM1,M2から得た入力音声信号x(t),y(t)に共通して含まれる音声成分−F(t)を、入力音声信号x(t)から除去し、入力音声信号x(t)に含まれる雑音成分n(t)を入力音声信号x(t)から抽出する。ここで、jは、入力音声信号x(t),y(t)のサンプリング数がJである場合に、1〜Jまでの整数値を採る(即ち、j=1,2,…J)。その他、値tは、入力音声信号x(t),y(t)のサンプリング周期T(例えば、T=62.5μs)を単位とする時間パラメータであって整数値を採るものである。
即ち、雑音抽出部15は、フィルタ係数W[j]と入力音声信号y(t)とを畳み込み演算して演算結果F(t)を得る。その後、演算結果F(t)を入力音声信号x(t)に加算することにより、マイクロフォンM1,M2から得た入力音声信号x(t),y(t)に共通して含まれる音声成分−F(t)を、入力音声信号x(t)から除去し、入力音声信号x(t)に含まれる雑音成分n(t)を入力音声信号x(t)から抽出する。ここで、jは、入力音声信号x(t),y(t)のサンプリング数がJである場合に、1〜Jまでの整数値を採る(即ち、j=1,2,…J)。その他、値tは、入力音声信号x(t),y(t)のサンプリング周期T(例えば、T=62.5μs)を単位とする時間パラメータであって整数値を採るものである。
この後、雑音抽出部15は、先程雑音抽出の際に用いたフィルタ係数W[j]と、抽出した雑音成分n(t)と、入力音声信号y(t)とに基づき、次に設定すべきフィルタ係数W’[j]を、学習レートLを含む式3に従って算出する(S140)。
W’[j]=W[j]−L・f(n(t))・y(t−j) …式3
ここで、f(n(t))は、非線形関数f(g)に雑音成分n(t)を代入した値を示すものである。即ち、雑音抽出部15は、非線形関数f(g)に、値g=n(t)を代入した後、その値f(n(t))を用いて式3によりW’[j]を算出する。
ここで、f(n(t))は、非線形関数f(g)に雑音成分n(t)を代入した値を示すものである。即ち、雑音抽出部15は、非線形関数f(g)に、値g=n(t)を代入した後、その値f(n(t))を用いて式3によりW’[j]を算出する。
尚、非線形関数f(g)としては、tanh(ハイパボリックタンジェント)関数や、sign関数、シグモイド関数(具体的には、f(g)=1/{1+exp(−g)}。)等が挙げられる。sign関数は、代入値が負値であるときに、−1を返し、代入値がゼロであるときに0を返し、代入値が正値であるときに、1を返す関数である。また、図2では、非線形関数として、tanh(ハイパボリックタンジェント)関数を用いた場合の例を示す。この他、上記学習レートLは、学習速度を調整するための定数である。
雑音抽出部15は、上式3に従ってフィルタ係数W’[j]を算出すると、このフィルタ係数W’[j]を次のフィルタ係数W[j]に設定することにより、フィルタ係数Wを更新する。
その後、雑音抽出部15は、学習レートLが更新時期になったか否か判断し(S150)、更新時期になったと判断すると(S150でYes)、学習レートLを更新する(S160)。例えば、入力音声信号x(t),y(t)の累積サンプリング数が一定数(例えば2000回)以上になると(S150でYes)、雑音抽出部15は、既に設定されている学習レートLに対して値Lc(例えば、Lc=0.98)を乗算することにより、学習レートLをLc倍した値Lc・Lを得て、これを次の学習レートLとして設定更新する。
このようにして学習レートLの更新が完了するか、学習レートLが更新時期ではないと判断すると(S150でNo)、雑音抽出部15は、自身に対し終了指令が入力されているか否か判断する(S170)。そして、終了指令が入力されていないと判断すると(S170でNo)、再び、入力音声信号x(t),y(t)をアナログデジタル変換器11,13を介してサンプリングし(S120)、上記動作(S130〜S170)を繰り返す。そして、終了指令が入力されていると判断すると(S170でYes)、当該処理を終了する。
一方、雑音除去部17は、雑音抽出部15が取得した入力音声信号x(t)と、雑音抽出部15が抽出した同時間帯の雑音成分n(t)と、を用いて、雑音除去すべきマイクロフォンM1の出力信号としての入力音声信号x(t)から雑音成分n(t)を除去する。ここで、図3は、雑音除去部17が実行する雑音除去処理を表すフローチャートである。
雑音除去部17は、雑音抽出部15により抽出された雑音成分n(t)がK個揃うと(S210でYes)、過去K個分の雑音成分n(t−K+1)〜n(t)を対象に、高速フーリエ変換(FFT)して、時間t−K+1〜tにおける雑音成分n(t)のパワースペクトルN(ω)を求める(S220)。ここでωは、周波数を表すパラメータである。
続いて、雑音除去部17は、過去K個分の入力音声信号x(t−K+1)〜x(t)を対象に、高速フーリエ変換(FFT)して、時間t−K+1〜tにおける入力音声信号x(t)のパワースペクトルX(ω)を求める(S230)。この後、雑音除去部17は、パワースペクトルX(ω)からパワースペクトルN(ω)を減算処理することによって雑音除去し、雑音除去後の入力音声信号u(t)に対応するパワースペクトルU(ω)を得る。そして、求めたパワースペクトルU(ω)を、音声認識部20に入力する(S240)。
|U(ω)|=|X(ω)|−|N(ω)| …式4
この後、雑音除去部17は、FFTによる変換対象範囲(雑音除去対象フレーム)を時間方向にK/2ずらして(S250)、今回の変換対象範囲t0−K+1〜t0に対する次回の変換対象範囲を、時間(t0+K/2)−K+1からt0+K/2までの範囲の入力音声信号x(t)及び雑音成分n(t)とする。そして、当該処理の終了指令が入力されていないと判断すると(S260でNo)、上記処理(S220〜S260)を再び実行する。
この後、雑音除去部17は、FFTによる変換対象範囲(雑音除去対象フレーム)を時間方向にK/2ずらして(S250)、今回の変換対象範囲t0−K+1〜t0に対する次回の変換対象範囲を、時間(t0+K/2)−K+1からt0+K/2までの範囲の入力音声信号x(t)及び雑音成分n(t)とする。そして、当該処理の終了指令が入力されていないと判断すると(S260でNo)、上記処理(S220〜S260)を再び実行する。
雑音除去部17は、このような動作を、終了指令が入力されるまで繰り返し、終了指令が入力されていると判断すると(S260でYes)、当該処理を終了する。
一方、音声認識部20は、雑音除去装置10の出力端子に接続されており、雑音除去装置10にて雑音除去されたマイクロフォンM1からの入力音声信号u(t)に対応するパワースペクトルU(ω)を、予め認識語として記憶された音声のパターンと比較し、一致度の高い認識語を、ユーザが発声しマイクロフォンM1に入力された音声(語彙)であると認識する。そして認識語に対応する指令信号をナビ制御部30に入力する。
以上、音声認識装置1の構成について説明したが、上述の式3は、独立成分分析(ICA)の一手法として知られるinfomax法に基づくフィルタ係数W[j]の学習方式を数式化したものである。本実施例の雑音抽出部15は、infomax法に基づく式3に従い、信号y(t)と信号n(t)とが相互に独立になる方向に、フィルタ係数W[j]の学習更新を繰り返すことによって、入力音声信号x(t),y(t)に共通して含まれる音声成分を除去するための信号F(t)を生成する。そして、F(t)を用いて、入力音声信号x(t)から、入力音声信号x(t),y(t)に共通して含まれる音声信号を除去することにより、入力音声信号x(t)に含まれる雑音成分n(t)を抽出する。
ユーザの発話中には、両マイクロフォンM1,M2にユーザが発した音声が入力されるから、入力音声信号x(t),y(t)には強い相関関係がある。したがって、この状態で発話が続くと、入力音声信号x(t)からユーザの音声を打ち消す方向にフィルタ係数W[j]が学習更新され、結果的に、入力音声信号x(t)からユーザの音声成分−F(t)だけが取り除かれて、雑音成分が抽出されるのである。
したがって、本実施例の雑音除去装置10によれば、雑音抽出部15で、マイクロフォンM1から雑音成分n(t)を適切に抽出することができ、その結果として、雑音除去部17で、入力音声信号x(t)から雑音成分n(t)を、定常雑音、非定常雑音にかかわらず適切に除去できる。つまり、突如ノイズ源が発生したり消滅したりするなど、走行時と停止時で周囲雑音の発生状態が大きく変化する車両(自動車等)内であっても、適切に雑音成分を除去することができる。
また、本実施例の音声認識装置1では、雑音除去装置10で適切にマイクロフォンの出力信号から雑音成分だけを除去することができるので、音声認識部20での音声認識率を向上させることができる。
尚、以上には説明しなかったが、雑音抽出部15及び雑音除去部17は、例えば、CPUや、DSP、ASICなどのLSIで構成することができる。また、雑音抽出部15及び雑音除去部17をCPU上で実現する場合には、図2,3に示したフローチャートに従うプログラムを作成して、これをCPUに実行させればよい。
ところで、音声認識装置1の雑音除去部17では、雑音抽出部15から得た雑音成分n(t)、及び、マイクロフォンM1からの入力音声信号x(t)を、LPCケプストラム、あるいは、メル周波数ケプストラム係数(MFCC)といった特徴量に変換し、その特徴量を減算することによって雑音除去を行っても良い。以下では、図4,図5を用いて音声認識装置1の第一変形例及び第二変形例を説明する。尚、第一変形例及び第二変形例においては雑音除去部17の処理動作が異なる程度であるので、上記実施例の音声認識装置1と同一構成の各部の説明については省略することにする。
図4は、特徴量としてLPCケプストラムを用いた場合における雑音除去部17の雑音除去処理を表すフローチャートである。
図4に示すように第一変形例の雑音除去部17は、雑音抽出部15により抽出された雑音成分n(t)がK個揃うと(S310でYes)、過去K個分の雑音成分n(t−K+1)〜n(t)を用いて、その雑音成分に対応するQ個のLPCケプストラムCn(Q)を求める(S320)と共に、同一時点におけるK個の入力音声信号x(t−K+1)〜x(t)を用いて、その入力音声信号に対応するQ個のLPCケプストラムCx(Q)を求める(S330)。
その後、雑音除去部17は、Cn(Q)及びCx(Q)と、所定の係数αcを含む次式(式5)とを用いて、雑音除去後の音声信号u(t)に対応するLPCケプストラムCu(Q)を求める。
Cu(Q)=Cx(Q)−αc・Cn(Q) …式5
また、雑音除去部17は、求めたLPCケプストラムCu(Q)を音声認識部20に入力する(S340)。この後、雑音除去部17は、変換対象範囲(雑音除去対象フレーム)を時間方向にK/2ずらす(S350)。
また、雑音除去部17は、求めたLPCケプストラムCu(Q)を音声認識部20に入力する(S340)。この後、雑音除去部17は、変換対象範囲(雑音除去対象フレーム)を時間方向にK/2ずらす(S350)。
そして、当該処理の終了指令が入力されていないと判断すると(S360でNo)、上記処理(S320〜S360)を再び実行する。雑音除去部17は、このような動作を、終了指令が入力されるまで繰り返し、終了指令が入力されていると判断すると(S360でYes)、当該処理を終了する。
続いて、図5を用いて音声認識装置1の第二変形例を説明する。図5は、特徴量としてメル周波数ケプストラム係数(MFCC)を用いた場合における雑音除去部17の雑音除去処理を表すフローチャートである。
図5に示すように第二変形例の雑音除去部17は、雑音抽出部15により抽出された雑音成分n(t)がK個揃うと(S410でYes)、過去K個分の雑音成分n(t−K+1)〜n(t)を用いて、その雑音成分に対応するQ個のメル周波数ケプストラム係数Mn(Q)を求める(S420)と共に、同一時点におけるK個の入力音声信号x(t−K+1)〜x(t)を用いて、その入力音声信号に対応するQ個のメル周波数ケプストラム係数Mx(Q)を求める(S430)。
その後、雑音除去部17は、Mn(Q)及びMx(Q)と、所定の係数αmを含む次式(式6)とを用いて、雑音除去後の音声信号u(t)に対応するメル周波数ケプストラム係数Mu(Q)を求める。
Mu(Q)=Mx(Q)−αm・Mn(Q) …式6
また、雑音除去部17は、求めたメル周波数ケプストラム係数Mu(Q)を音声認識部20に入力する(S440)。この後、雑音除去部17は、変換対象範囲(雑音除去対象フレーム)を時間方向にK/2ずらす(S450)。
また、雑音除去部17は、求めたメル周波数ケプストラム係数Mu(Q)を音声認識部20に入力する(S440)。この後、雑音除去部17は、変換対象範囲(雑音除去対象フレーム)を時間方向にK/2ずらす(S450)。
そして、当該処理の終了指令が入力されていないと判断すると(S460でNo)、上記処理(S420〜S460)を再び実行する。雑音除去部17は、このような動作を、終了指令が入力されるまで繰り返し、終了指令が入力されていると判断すると(S460でYes)、当該処理を終了する。
以上、第一変形例及び第二変形例について説明したが、これらの変形例によれば、マイクロフォンM1からの入力音声信号x(t)及び雑音成分n(t)を、音の特徴を表す特徴量としてのLPCケプストラム若しくはメル周波数ケプストラム係数に変換するので、マイクロフォンM1からの入力音声信号x(t)から雑音成分を適切に除去することができる。したがって、音声認識部20における音声の認識率を向上させることができる。
さて、以上では音声認識装置1に雑音除去装置10を組み込んだ例を示したが、上述のような雑音除去装置を電話機等に代表される音声通信装置に組み込めば、入力音声信号から、雑音成分を適切に取り除くことができて便利である。以下では、雑音除去装置10に類似する構成の雑音除去装置60を備える音声通信装置40について図6及び図7を用いて説明する。尚、以下では上記音声認識装置1と同一構成の部位についての詳しい説明を省略することにする。
図6に示すように、音声通信装置40は、複数のマイクロフォンM1,M2と、通信制御部50と、雑音除去装置60と、を備えており、通信制御部50を介して、外部の公衆電話回線網(PSTN)に接続されている。
通信制御部50は、雑音除去装置10の出力端子及び外部の通信回線LNに接続されており、図示しない外部通信装置から呼出信号が送信されてくると、呼出音をスピーカ41から出力する。また、通信制御部50は、ユーザが操作部43を操作することにより、操作部43から回線接続指令信号が入力されると、回線接続して、外部通信装置と自身とを音声通信可能にする。また回線接続後、通信制御部50は、外部通信装置から通信回線LNを介して送信されてきた音声信号をスピーカ41に入力すると共に、雑音除去装置10を介して取得した雑音除去後のマイクロフォンM1の出力信号u(t)を、通信回線LNを介して外部通信装置に送信する。
雑音除去装置60は、アナログデジタル変換器11,13と、雑音抽出部15と、雑音除去部61と、を備えている。雑音除去装置60は、各マイクロフォンM1,M2の出力信号を、対応するアナログデジタル変換器11,13に入力して、デジタル信号(入力音声信号)にする。そして、この入力音声信号x(t),y(t)を雑音抽出部15に入力する。
雑音抽出部15は、外部からの指令に基づいて動作を開始すると、図2に示すように、アナログデジタル変換器11,13を介して各マイクロフォンM1,M2からの入力音声信号x(t),y(t)を取得する(S120)。
また、雑音抽出部15は、独立成分分析(ICA)の一手法としてのinfomax法によるフィルタ係数W[j]の学習更新を実行することにより、複数のマイクロフォンM1,M2からの入力音声信号x(t),y(t)に共通して含まれる音声成分を除去し、入力音声信号x(t)に含まれる雑音成分n(t)を抽出する(S130)。尚、音声通信装置40における雑音抽出部15の動作は、上述の音声認識装置1における雑音抽出部15と同一であるので、これ以上の詳細な説明は省略する。
一方、雑音除去部61は、雑音抽出部15が取得したK個の入力音声信号x(t)と、雑音抽出部15が抽出したK個の雑音成分n(t)と、を用いて、雑音除去すべきマイクロフォンM1の出力信号としての入力音声信号x(t)から雑音成分n(t)を除去し、その雑音除去後の入力音声信号u(t)を通信制御部50に入力する。ここで、図7は、音声通信装置40における雑音除去部61が実行する雑音除去処理を表すフローチャートである。
雑音除去部61は、雑音抽出部15により抽出された雑音成分n(t)がK個揃うと(S510でYes)、過去K個分の雑音成分n(t−K+1)〜n(t)を対象に、高速フーリエ変換(FFT)して、時間t−K+1〜tにおける雑音成分n(t)のパワースペクトルN(ω)を求める(S520)と共に、過去K個分の入力音声信号x(t−K+1)〜x(t)を対象に高速フーリエ変換(FFT)して、時間t−K+1〜tにおける入力音声信号x(t)のパワースペクトルX(ω)を求める(S530)。
この後、雑音除去部61は、上述の式4に従いパワースペクトルX(ω)からパワースペクトルN(ω)を減算して、雑音除去後の入力音声信号u(t)に対応するパワースペクトルU(ω)を算出する(S540)。
そして、パワースペクトルU(ω)に対して、高速逆フーリエ変換(逆FFT)を施すことにより、雑音除去後の入力音声信号u(t)を求め、その後、入力音声信号u(t)を、デジタルアナログ変換器63に入力する(S550)。デジタルアナログ変換器63では、入力音声信号u(t)が、アナログ信号に変換されて、通信制御部50に入力される。
この後、雑音除去部61は、FFTによる変換対象範囲(雑音除去対象フレーム)を時間方向にK/2ずらし(S560)、当該処理の終了指令が入力されているか判断する(S570)。そして、終了指令が入力されていないと判断すると(S570でNo)、上記処理(S520〜S570)を再び行う。雑音除去部61は、このような動作を、終了指令が入力されるまで繰り返し、終了指令が入力されていると判断すると(S570でYes)、当該処理を終了する。
以上、音声通信装置40の構成について説明したが、本実施例の音声通信装置40によれば、上述の音声認識装置1と同様に式3に従って信号y(t)と信号n(t)とが相互に独立になる方向に、フィルタ係数W[j]の学習更新を繰り返すので、入力音声信号x(t)から、入力音声信号x(t),y(t)に共通して含まれる音声信号を除去することができ、この結果として、入力音声信号x(t)に含まれる雑音成分n(t)を適切に抽出することができる。
したがって、雑音除去部61で、マイクロフォンM1の出力信号から雑音成分n(t)を、定常雑音、非定常雑音にかかわらず適切に除去できる。この結果、音声通信装置40によれば、外部通信装置に雑音成分の少ない音声信号を送信することができて、外部通信装置にクリアな音声を再生させることができる。したがって、雑音が耳に入ることによりユーザに不快感が及ぶのを抑制することができる。
尚、本発明の信号取得手段は、雑音抽出部15がマイクロフォンM1,M2からの入力音声信号x(t),y(t)を取得する動作(S120)にて実現されている。また、成分抽出手段は、雑音抽出部15が入力音声信号x(t)から雑音成分n(t)を独立成分分析(ICA)を行うことにより分離抽出する動作(S130)にて実現されている。また、雑音除去手段は、雑音除去部17,61に相当する。
この他、第一特徴量変換手段は、雑音除去部17,61が実行するS220,S320,S420,S520の処理にて実現され、第二特徴量変換手段は、雑音除去部17,61が実行するS230,S330,S430,S530の処理にて実現されている。また、音声認識手段は、音声認識部20に相当し、通信制御手段は、通信制御部50に相当する。
以上、本発明の実施例について説明したが、本発明の雑音除去装置及び音声認識装置及び音声通信装置は、上記実施例に限定されるものではなく、種々の態様を採ることができる。
雑音抽出部15では、独立成分分析(ICA)の一手法であるinfomax法を用いて、雑音成分を抽出する構成としたが、その他の手法を用いて雑音成分を抽出してもよい。
1…音声認識装置、10,60…雑音除去装置、11,13…アナログデジタル変換器、15…雑音抽出部、17,61…雑音除去部、20…音声認識部、30…ナビ制御部、40…音声通信装置、41…スピーカ、43…操作部、50…通信制御部、63…デジタルアナログ変換器、LN…通信回線、M1,M2…マイクロフォン
Claims (5)
- マイクロフォンの出力信号に含まれる雑音成分を除去する雑音除去方法において、
複数のマイクロフォンの出力信号を取得する第1ステップと、
独立成分分析(ICA)を用いて、前記複数のマイクロフォンの各出力信号に共通して含まれる音声成分を前記マイクロフォンの出力信号から除去して、該出力信号に含まれる雑音成分を抽出する第2ステップと、
前記第2ステップで抽出した雑音成分を、所定の特徴量に変換する第3ステップと、
前記第1ステップで取得したマイクロフォンの出力信号を、前記所定の特徴量に変換する第4ステップと、
前記第3ステップの変換結果と前記第4ステップの変換結果を用いて、前記第1ステップで取得したマイクロフォンの出力信号から、前記第2ステップで抽出した雑音成分を除去する第5ステップと、
を備えることを特徴とする雑音除去方法。 - 前記所定の特徴量としてフーリエ変換により得られるスペクトルを用いることを特徴とする請求項1に記載の雑音除去方法。
- 前記所定の特徴量として、フーリエ変換により得られるスペクトルの対数を(逆)フーリエ変換することにより得られるケプストラムを用いることを特徴とする請求項1に記載の雑音除去方法。
- 前記ケプストラムとしてメル周波数ケプストラム係数を用いることを特徴とする請求項3に記載の雑音除去方法。
- 前記ケプストラムとして線形予測符号化の手法を用いることを特徴とする請求項3に記載の雑音除去方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006297627A JP2007058237A (ja) | 2006-11-01 | 2006-11-01 | 雑音除去方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006297627A JP2007058237A (ja) | 2006-11-01 | 2006-11-01 | 雑音除去方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002225064A Division JP4173978B2 (ja) | 2002-08-01 | 2002-08-01 | 雑音除去装置、及び、音声認識装置、並びに音声通信装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007058237A true JP2007058237A (ja) | 2007-03-08 |
Family
ID=37921728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006297627A Ceased JP2007058237A (ja) | 2006-11-01 | 2006-11-01 | 雑音除去方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007058237A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100917460B1 (ko) | 2007-08-07 | 2009-09-14 | 한국과학기술원 | 잡음제거 장치 및 방법 |
JP2010054954A (ja) * | 2008-08-29 | 2010-03-11 | Toyota Motor Corp | 音声強調装置及び音声強調方法 |
CN111261138A (zh) * | 2019-02-20 | 2020-06-09 | 北京安声浩朗科技有限公司 | 降噪系统确定方法及装置、噪声处理方法及装置 |
-
2006
- 2006-11-01 JP JP2006297627A patent/JP2007058237A/ja not_active Ceased
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100917460B1 (ko) | 2007-08-07 | 2009-09-14 | 한국과학기술원 | 잡음제거 장치 및 방법 |
JP2010054954A (ja) * | 2008-08-29 | 2010-03-11 | Toyota Motor Corp | 音声強調装置及び音声強調方法 |
CN111261138A (zh) * | 2019-02-20 | 2020-06-09 | 北京安声浩朗科技有限公司 | 降噪系统确定方法及装置、噪声处理方法及装置 |
CN111261138B (zh) * | 2019-02-20 | 2022-11-08 | 北京安声浩朗科技有限公司 | 降噪系统确定方法及装置、噪声处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4333369B2 (ja) | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 | |
US8666736B2 (en) | Noise-reduction processing of speech signals | |
JP5230103B2 (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
KR100870889B1 (ko) | 음신호 처리 방법, 음신호 처리 장치 및 기록 매체 | |
JP4283212B2 (ja) | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 | |
JP4753821B2 (ja) | 音信号補正方法、音信号補正装置及びコンピュータプログラム | |
US20060031067A1 (en) | Sound input device | |
CN110383798B (zh) | 声学信号处理装置、声学信号处理方法和免提通话装置 | |
JP3909709B2 (ja) | 雑音除去装置、方法、及びプログラム | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP3907194B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
Lee et al. | Statistical model‐based noise reduction approach for car interior applications to speech recognition | |
US20120197643A1 (en) | Mapping obstruent speech energy to lower frequencies | |
JP2007058237A (ja) | 雑音除去方法 | |
JP4173978B2 (ja) | 雑音除去装置、及び、音声認識装置、並びに音声通信装置 | |
JP2008299341A (ja) | 雑音除去方法 | |
JP3270866B2 (ja) | 雑音除去方法および雑音除去装置 | |
JP3039623B2 (ja) | 音声認識装置 | |
JP3250604B2 (ja) | 音声認識方法および装置 | |
JP2002023790A (ja) | 音声特徴量抽出装置 | |
JP2004198810A (ja) | 音声認識装置 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
JP4325044B2 (ja) | 音声認識システム | |
JP4924652B2 (ja) | 音声認識装置及びカーナビゲーション装置 | |
JP2009031809A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A072 | Dismissal of procedure [no reply to invitation to correct request for examination] |
Free format text: JAPANESE INTERMEDIATE CODE: A101 Effective date: 20071225 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A042 Effective date: 20080212 |