JP2010210728A - 音響信号処理方法及び装置 - Google Patents
音響信号処理方法及び装置 Download PDFInfo
- Publication number
- JP2010210728A JP2010210728A JP2009054478A JP2009054478A JP2010210728A JP 2010210728 A JP2010210728 A JP 2010210728A JP 2009054478 A JP2009054478 A JP 2009054478A JP 2009054478 A JP2009054478 A JP 2009054478A JP 2010210728 A JP2010210728 A JP 2010210728A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- target signal
- spectrum
- power spectrum
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】
背景雑音や残響環境下で特定方向から到来する目的信号を取得する。
【解決手段】
複数のマイクロフォンで受信された複数の観測信号間のクロススペクトルを取得するステップと、等方的な雑音場における雑音のクロススペクトルは実数であることに基づき、観測信号のクロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する。
【選択図】図4A
背景雑音や残響環境下で特定方向から到来する目的信号を取得する。
【解決手段】
複数のマイクロフォンで受信された複数の観測信号間のクロススペクトルを取得するステップと、等方的な雑音場における雑音のクロススペクトルは実数であることに基づき、観測信号のクロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する。
【選択図】図4A
Description
本発明は、音響信号処理に係り、詳しくは、マイクロフォンアレイ信号処理を用いた拡散性雑音環境下における雑音抑圧に関するものである。
マイクロフォンアレイを用いて、既知の方向から到来する目的信号を強調し、他の音響信号(以下「雑音」)を抑圧する技術は、補聴器、テレビ会議、音声認識、携帯電話を始めとして多様な応用があり、数多くの研究がなされてきた。
最も基本的な遅延和ビームフォーマは、アレイ開口を波長に対して十分大きくすれば、鋭いビームを形成して雑音を効果的に抑圧することができる。しかし、その際に空間的エリアシングを回避するためには、多数のマイクロフォンを用いる必要がある。また、多くの応用においては、比較的長い音波の波長に対して十分に大きな開口を取ることは困難である。
これに対し、適応ビームフォーマは、少数の点音源から発生する雑音に対しては、指向性の零点を向けることにより、原理的には開口サイズによらず効果的な除去が可能である。一方、多数の話者による背景雑音や室内の残響のようなあらゆる方向から到来する拡散性の雑音は、適応ビームフォーマでは十分に抑圧することができず、音響信号処理における課題の一つである。
これに対し、適応ビームフォーマは、少数の点音源から発生する雑音に対しては、指向性の零点を向けることにより、原理的には開口サイズによらず効果的な除去が可能である。一方、多数の話者による背景雑音や室内の残響のようなあらゆる方向から到来する拡散性の雑音は、適応ビームフォーマでは十分に抑圧することができず、音響信号処理における課題の一つである。
このような拡散性雑音を抑圧するための枠組みとして、ビームフォーマの出力を後処理するポストフィルタリング手法が知られている(非特許文献1乃至5)。例えば、非特許文献1乃至3には、適応ビームフォーマの1つである最小分散ビームフォーマの出力を時間周波数マスクにより後処理するWienerポストフィルタリングが開示されている(図1参照)。
Wienerポストフィルタを設計するには、雑音を含む観測信号から目的信号のパワースペクトルを推定する必要がある。
Wienerポストフィルタを設計するには、雑音を含む観測信号から目的信号のパワースペクトルを推定する必要がある。
拡散性の雑音環境における目的信号のパワースペクトルの推定に関して、Zelinskiは、異なるマイクロフォンにおける雑音が互いに無相関であるという仮定に基づく推定法を提案した(非特許文献5)。この仮定の下では、雑音共分散行列は対角行列となり、観測共分散行列の非対角成分はノイズフリーとなり、したがって、観測共分散行列の非対角成分からφssを取得することができる(図2参照)。しかしながら、上記近似は素子間隔が波長に対して十分大きいときのみ有効であり、アレイサイズを大きくする必要があるという欠点がある。
すなわち、マイクロフォン間の距離が波長に対して十分大きい場合には、この仮定は良い近似であり、精確な推定値を得ることができるが、マイクロフォン間の距離が小さい場合には、雑音はマイクロフォン間で大きな相関を持つため、大きな誤差要因となる。
すなわち、マイクロフォン間の距離が波長に対して十分大きい場合には、この仮定は良い近似であり、精確な推定値を得ることができるが、マイクロフォン間の距離が小さい場合には、雑音はマイクロフォン間で大きな相関を持つため、大きな誤差要因となる。
これに対し、本願の発明者等は、結晶型アレイと称する回転対称性を有するアレイを用いて拡散性雑音を無相関化することにより、マイクロフォン間距離が小さい場合でも精確に目的信号のパワースペクトルを推定する方法を提案している(非特許文献6)。しかしながら、この手法では、アレイ配置に対する制約がある。
したがって、小サイズで任意な配置のマイクロフォンアレイに適用可能であり、かつ、背景雑音や残響などの拡散性の雑音、すなわち、周囲の様々な方向から雑音が到来するような雑音環境を扱う有効な枠組みが求められていた。
K.U. Simmer, J. Bitzer, and C. Marro, "Post-filtering techniques," in MicrophoneArrays, M. Brandstein and D. Ward, Eds., Springer-Verlag, ch. 3, pp. 39-60,2001.
S.Lefkimmiatis and P. Maragos, "A generalized estimation approach for linear andnonlinear microphone array post-filters," Speech Commun., vol. 49, no. 7-8, pp.657-666, 2007.
I. A. McCowanand H. Bourlard, "Microphone array post-filter based on noise fieldcoherence," IEEE Trans. Speech Audio Process., vol. 11, no. 6, pp.709-716, Nov. 2003.
I. Cohen,"Multichannel post-filtering in nonstationary noise environments,"IEEE Trans. Signal Process., vol. 52, no. 5, pp. 1149-1160, May 2004.
R.Zelinski, "A microphone array with adaptive post-filtering for noise reductionin reverberant rooms," Proc. ICASSP, pp. 2578-2581, Apr. 1988.
N.Ito, N. Ono, and S. Sagayama, "A blind noise decorrelation approach withcrystal arrays on designing post-filters for diffuse noise suppression," Proc.ICASSP, pp. 317-320, Apr. 2008.
本発明は、背景雑音や残響環境下で特定方向から到来する目的信号を取得することを目的とするものである。
より具体的には、本発明の目的の1つは、小サイズで任意な配置のマイクロフォンアレイを用いた拡散性雑音抑圧方法及び装置を提供するものである。
より具体的には、本発明の目的の1つは、小サイズで任意な配置のマイクロフォンアレイを用いた拡散性雑音抑圧方法及び装置を提供するものである。
本発明が採用した技術手段は、
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得するステップと、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定するステップと、
を備えた音響信号処理方法、である。
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得するステップと、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定するステップと、
を備えた音響信号処理方法、である。
本発明は、複数の観測信号のチャネル間クロススペクトルの位相に着目した新しい方法であり、チャネル間クロススペクトルの虚部を用いた目的信号のパワースペクトルの推定に係るものである。拡散性雑音が等方的であれば、そのチャネル間クロススペクトルは実数値を取る点に基づき、観測信号のチャネル間クロススペクトルの虚部を用いることで、目的信号のパワースペクトルを推定する。雑音が等方的ならノイズフリーとなる観測信号間のクロススペクトルの虚部を用いることで、雑音の影響を軽減し、目的信号のパワースペクトルを精度よく推定することができる(図3、図4参照)。
ここで、雑音が等方的であるとは、雑音のチャネル間クロススペクトルがマイクロフォン間の距離のみで決まるということ、すなわち、Lmn=Lm'n'ならば雑音のチャネル間クロススペクトルについて、φvmvn(τ,ω)=φvm'vn'(τ,ω)が成り立つ。但し、Lmnはm番目とn番目のマイクロフォンの間の距離、φvmvnは雑音のチャネル間クロススペクトル、である。
このように、本発明は、「拡散性雑音に対しては、雑音のチャネル間クロススペクトルは実数である」というモデルに基づくものであって、複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、得られた観測信号のチャネル間クロススペクトルの虚部を、目的信号のチャネル間クロススペクトルの虚部の推定値とする、音響信号処理方法、として捉えることもできる。
ここで、雑音が等方的であるとは、雑音のチャネル間クロススペクトルがマイクロフォン間の距離のみで決まるということ、すなわち、Lmn=Lm'n'ならば雑音のチャネル間クロススペクトルについて、φvmvn(τ,ω)=φvm'vn'(τ,ω)が成り立つ。但し、Lmnはm番目とn番目のマイクロフォンの間の距離、φvmvnは雑音のチャネル間クロススペクトル、である。
このように、本発明は、「拡散性雑音に対しては、雑音のチャネル間クロススペクトルは実数である」というモデルに基づくものであって、複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、得られた観測信号のチャネル間クロススペクトルの虚部を、目的信号のチャネル間クロススペクトルの虚部の推定値とする、音響信号処理方法、として捉えることもできる。
観測信号のチャネル間クロススペクトルは、時間周波数領域の観測信号から計算できることは当業者に良く知られており、また、観測信号は、典型的には、短時間フーリエ変換によって時間領域(波形)から時間周波数領域(スペクトログラム)に変換される。
目的信号から各マイクロフォンで受信された観測信号への伝達関数を要素とするステアリングベクトルは、以下のように取得することができる。
ステアリングベクトルの第m成分dm(ω)は、目的音が球面波あるいは平面波伝播すると仮定して、
球面波の場合:dm(ω)=ame{-jωδm}
平面波の場合:dm(ω)=e{-jωδm}
により計算できる。
ここで、amはm番目のマイクロフォンに対する、基準点(アレイの重心など)を基準とした目的信号の減衰係数、eは自然対数の底、jは虚数単位、δmはm番目のマイクロフォンに対する、基準点(アレイの重心など)を基準とした目的信号の時間遅れ、ωは角周波数である。
amはam=d0/dmにより計算することができる。
ここで、dmは目的信号の音源からm番目のマイクロフォンまでの距離、d0は目的信号の音源から基準点(アレイの重心など)までの距離である。
マイクロフォン、目的信号の音源の位置が既知であれば、これらの距離を取得することができる。
また、δmは、
球面波の場合:δm=dm/c−d0/c
平面波の場合:δm=−L0mcosθm/c
により計算できる。
ここで、cは音速、θmは基準点から目的信号の音源とm番目のマイクロフォンを見込む角の大きさ、L0mは基準点とm番目のマイクロフォンの距離である。
このように、目的信号から各マイクロフォンで受信された観測信号への伝達関数を要素とするステアリングベクトルは、平面波の場合には、各マイクロフォンに対する目的信号の時間遅れδmから、球面波の場合には、時間遅れδmおよび減衰係数amから、計算することができる。
上記では、理想的なモデル(近似)に基づいたdm(ω)の計算方法について説明したが、実際にはdm(ω)は、残響等の効果により、使用される部屋に特有の関数となることが知られており、dm(ω)に実際に測定した値を用いることにより、特定の部屋に特化させてもよい。
ステアリングベクトルの第m成分dm(ω)は、目的音が球面波あるいは平面波伝播すると仮定して、
球面波の場合:dm(ω)=ame{-jωδm}
平面波の場合:dm(ω)=e{-jωδm}
により計算できる。
ここで、amはm番目のマイクロフォンに対する、基準点(アレイの重心など)を基準とした目的信号の減衰係数、eは自然対数の底、jは虚数単位、δmはm番目のマイクロフォンに対する、基準点(アレイの重心など)を基準とした目的信号の時間遅れ、ωは角周波数である。
amはam=d0/dmにより計算することができる。
ここで、dmは目的信号の音源からm番目のマイクロフォンまでの距離、d0は目的信号の音源から基準点(アレイの重心など)までの距離である。
マイクロフォン、目的信号の音源の位置が既知であれば、これらの距離を取得することができる。
また、δmは、
球面波の場合:δm=dm/c−d0/c
平面波の場合:δm=−L0mcosθm/c
により計算できる。
ここで、cは音速、θmは基準点から目的信号の音源とm番目のマイクロフォンを見込む角の大きさ、L0mは基準点とm番目のマイクロフォンの距離である。
このように、目的信号から各マイクロフォンで受信された観測信号への伝達関数を要素とするステアリングベクトルは、平面波の場合には、各マイクロフォンに対する目的信号の時間遅れδmから、球面波の場合には、時間遅れδmおよび減衰係数amから、計算することができる。
上記では、理想的なモデル(近似)に基づいたdm(ω)の計算方法について説明したが、実際にはdm(ω)は、残響等の効果により、使用される部屋に特有の関数となることが知られており、dm(ω)に実際に測定した値を用いることにより、特定の部屋に特化させてもよい。
本発明に係る目的信号のパワースペクトルの推定の具体的な手法としては、最小二乗法が挙げられるが、本発明に用いられる推定法は最小二乗法に限定されるものではなく、最尤法、その他の推定法を用い得ることは当業者に理解される。
本発明が採用した他の技術手段は、
複数のマイクロフォンで受信された複数の観測信号をビームフォーマで処理するステップと、
ビームフォーマの出力を時間周波数マスクで処理するステップと、
を備えた音響信号処理方法において、
前記時間周波数マスクを、少なくとも、ビームフォーマの出力のパワースペクトルの推定値と、上記の方法で推定された目的信号のパワースペクトルと、を用いて設計することを特徴とする音響信号処理方法、である。
1つの態様では、前記ビームフォーマは、適応ビームフォーマであるが、遅延和ビームフォーマでもよい。
1つの態様では、前記適応ビームフォーマは、最小分散ビームフォーマである。
1つの態様では、前記時間周波数マスクは、Wienerポストフィルタであるが、他の時間周波数マスクを用いてもよい。例えば、本発明は、非特許文献2に開示されている、"multichannel MMSE-STSA estimator"と"multichannel MMSE log-STSA estimator"のようなポストフィルタリングにも適用し得る。
複数のマイクロフォンで受信された複数の観測信号をビームフォーマで処理するステップと、
ビームフォーマの出力を時間周波数マスクで処理するステップと、
を備えた音響信号処理方法において、
前記時間周波数マスクを、少なくとも、ビームフォーマの出力のパワースペクトルの推定値と、上記の方法で推定された目的信号のパワースペクトルと、を用いて設計することを特徴とする音響信号処理方法、である。
1つの態様では、前記ビームフォーマは、適応ビームフォーマであるが、遅延和ビームフォーマでもよい。
1つの態様では、前記適応ビームフォーマは、最小分散ビームフォーマである。
1つの態様では、前記時間周波数マスクは、Wienerポストフィルタであるが、他の時間周波数マスクを用いてもよい。例えば、本発明は、非特許文献2に開示されている、"multichannel MMSE-STSA estimator"と"multichannel MMSE log-STSA estimator"のようなポストフィルタリングにも適用し得る。
本発明の1つの実施態様は、上記推定値を用いた多チャネルWienerフィルタ設計に係るものである。より具体的には、
複数のマイクロフォンで受信された複数の観測信号を最小分散ビームフォーマで処理するステップと、
最小分散ビームフォーマの出力をWienerポストフィルタで処理するステップと、
を備えた音響信号処理方法において、
Wienerポストフィルタを上記推定法によって推定された目的信号のパワースペクトルを用いて設計することを特徴とする。
複数のマイクロフォンで受信された複数の観測信号を最小分散ビームフォーマで処理するステップと、
最小分散ビームフォーマの出力をWienerポストフィルタで処理するステップと、
を備えた音響信号処理方法において、
Wienerポストフィルタを上記推定法によって推定された目的信号のパワースペクトルを用いて設計することを特徴とする。
拡散性雑音を抑圧しうる枠組みである多チャネルWienerフィルタは、最小分散ビームフォーマとWienerポストフィルタの2段に分解できるが、後者の設計においては目的信号のパワースペクトルの精確な推定が非常に重要である。上記のクロススペクトルの虚部を用いた推定法により得られる推定値を用いることで、Wienerポストフィルタの適切な設計が可能である。
本発明の推定法で得られた目的信号のパワースペクトルの推定値を用いて多チャネルWienerフィルタを設計する新しい手法を構築することで、波長に対して大きいアレイや、雑音コヒーレンスの事前知識を用いなくても拡散性雑音を効果的に抑圧することを可能とし、マイクロフォンアレイの適用範囲を大きく拡大するものと考えられる。
本発明の推定法で得られた目的信号のパワースペクトルの推定値を用いて多チャネルWienerフィルタを設計する新しい手法を構築することで、波長に対して大きいアレイや、雑音コヒーレンスの事前知識を用いなくても拡散性雑音を効果的に抑圧することを可能とし、マイクロフォンアレイの適用範囲を大きく拡大するものと考えられる。
本発明に係る推定法で推定された目的信号のパワースペクトルの適用は、「ビームフォーミング→時間周波数マスク」という音響信号処理(雑音抑圧)の枠組みに限定されるものではない。
1つの態様では、上記枠組みの順番を逆にして、時間周波数マスクを適用してから、ビームフォーミングを適用するものでもよく、推定された目的信号のパワースペクトルは当該時間周波数マスクの設計に用いられる。
1つの態様では、目的信号のパワースペクトル推定値を用いて時間周波数マスクを設計し、時間周波数マスクのみを用いて(ビームフォーミングを用いないで)雑音抑圧を行うことも可能である。
1つの態様では、上記枠組みの順番を逆にして、時間周波数マスクを適用してから、ビームフォーミングを適用するものでもよく、推定された目的信号のパワースペクトルは当該時間周波数マスクの設計に用いられる。
1つの態様では、目的信号のパワースペクトル推定値を用いて時間周波数マスクを設計し、時間周波数マスクのみを用いて(ビームフォーミングを用いないで)雑音抑圧を行うことも可能である。
本発明は、複数のマイクロフォンで受信された複数の観測信号の処理装置としても提供され、
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得する手段(クロススペクトル計算部)と、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する手段(パワースペクトル計算部)と、
を備えた音響信号処理装置、である(図4A参照)。
本発明の各ステップや各手段を実行するハードウエア構成としては、パーソナルコンピュータ等のコンピュータ(具体的には、入力部、出力部(表示部を含んでいても良い)、CPU、記憶装置(ROM、RAM等)、これらを接続するバス等、を備えている。)から構成することができる。
したがって、本発明は、
複数のマイクロフォンで受信された複数の観測信号から、目的信号のパワースペクトルを推定するためにコンピュータを、
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得する手段と、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する手段と、
して実行させるためのコンピュータプログラムとしても提供される。
後述する本発明の1つの実施形態では、目的信号の音源位置は既知と仮定し、その情報を用いて計算できるステアリングベクトルと、上記モデルに基づいて取得された目的信号のチャネル間クロススペクトルの虚部と、を用いて、目的信号のパワースペクトルを推定しているが、本発明の目的、精神を逸脱しない範囲で、数々の改良・変形を行なうことができ、これらの改良・変形が本発明の特許請求の範囲に含まれることが当業者に理解される。
例えば、目的信号の音源位置が未知の問題設定の下、目的信号の音源位置と共に目的信号のパワーススペクトルを推定してもよい。
また、本発明は、拡散性雑音の低減という精神に反しない範囲において、虚部以外の部分、すなわち実部を一部に用いることを排除するものではない。例えば、目的信号のパワースペクトルの推定において、虚部及び実部を用いる手法(例えば、非特許文献5)と組み合わせて目的信号のパワースペクトルを推定してもよい。
本発明に係る拡散性雑音を低減するという技術思想は、典型的には周波数領域において実施されるが、本発明に係るこの技術思想を時間領域で実施することもできる。すなわち、本発明の1つの態様は、
複数のマイクロフォンで受信された複数の観測信号のチャネル間相互相関関数を取得するステップと、
観測信号のチャネル間相互相関関数の奇関数成分を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間相互相関関数の奇関数成分と、目的信号から各マイクロフォンで受信された観測信号へのインパルス応答と、を用いて目的信号の自己相関関数を推定するステップと、
を備えた音響信号処理方法、である。
また、時間領域で実施する本発明は、
複数のマイクロフォンで受信された複数の観測信号のチャネル間相互相関関数を取得する手段と、
観測信号のチャネル間相互相関関数の奇関数成分を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間相互相関関数の奇関数成分と、目的信号から各マイクロフォンで受信された観測信号へのインパルス応答と、を用いて目的信号の自己相関関数を推定する手段と、
を備えた音響信号処理装置、及び、上記各ステップないし各手段を、実行させるためのコンピュータプログラムとしても提供される。
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得する手段(クロススペクトル計算部)と、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する手段(パワースペクトル計算部)と、
を備えた音響信号処理装置、である(図4A参照)。
本発明の各ステップや各手段を実行するハードウエア構成としては、パーソナルコンピュータ等のコンピュータ(具体的には、入力部、出力部(表示部を含んでいても良い)、CPU、記憶装置(ROM、RAM等)、これらを接続するバス等、を備えている。)から構成することができる。
したがって、本発明は、
複数のマイクロフォンで受信された複数の観測信号から、目的信号のパワースペクトルを推定するためにコンピュータを、
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得する手段と、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する手段と、
して実行させるためのコンピュータプログラムとしても提供される。
後述する本発明の1つの実施形態では、目的信号の音源位置は既知と仮定し、その情報を用いて計算できるステアリングベクトルと、上記モデルに基づいて取得された目的信号のチャネル間クロススペクトルの虚部と、を用いて、目的信号のパワースペクトルを推定しているが、本発明の目的、精神を逸脱しない範囲で、数々の改良・変形を行なうことができ、これらの改良・変形が本発明の特許請求の範囲に含まれることが当業者に理解される。
例えば、目的信号の音源位置が未知の問題設定の下、目的信号の音源位置と共に目的信号のパワーススペクトルを推定してもよい。
また、本発明は、拡散性雑音の低減という精神に反しない範囲において、虚部以外の部分、すなわち実部を一部に用いることを排除するものではない。例えば、目的信号のパワースペクトルの推定において、虚部及び実部を用いる手法(例えば、非特許文献5)と組み合わせて目的信号のパワースペクトルを推定してもよい。
本発明に係る拡散性雑音を低減するという技術思想は、典型的には周波数領域において実施されるが、本発明に係るこの技術思想を時間領域で実施することもできる。すなわち、本発明の1つの態様は、
複数のマイクロフォンで受信された複数の観測信号のチャネル間相互相関関数を取得するステップと、
観測信号のチャネル間相互相関関数の奇関数成分を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間相互相関関数の奇関数成分と、目的信号から各マイクロフォンで受信された観測信号へのインパルス応答と、を用いて目的信号の自己相関関数を推定するステップと、
を備えた音響信号処理方法、である。
また、時間領域で実施する本発明は、
複数のマイクロフォンで受信された複数の観測信号のチャネル間相互相関関数を取得する手段と、
観測信号のチャネル間相互相関関数の奇関数成分を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間相互相関関数の奇関数成分と、目的信号から各マイクロフォンで受信された観測信号へのインパルス応答と、を用いて目的信号の自己相関関数を推定する手段と、
を備えた音響信号処理装置、及び、上記各ステップないし各手段を、実行させるためのコンピュータプログラムとしても提供される。
本発明によれば、背景雑音や室内残響などの拡散性雑音を、特別なアレイ配置に依存することなく、実用性が高い小サイズのマイクロフォンアレイを用いて抑圧することができる。
本発明では、等方性の雑音のクロススペクトルは実数であることに基づき、観測信号のクロススペクトルの虚部を取ることによって雑音の寄与を排除し、目的信号のパワースペクトルを高精度に推定することができる。
例えば、Wienerポストフィルタを設計する際には、目的信号のパワースペクトルを精度よく推定することが重要であり、本発明に係る推定法で得られた目的信号のパワースペクトルは、Wienerポストフィルタ等の設計に良好に適用することができる。
本発明では、等方性の雑音のクロススペクトルは実数であることに基づき、観測信号のクロススペクトルの虚部を取ることによって雑音の寄与を排除し、目的信号のパワースペクトルを高精度に推定することができる。
例えば、Wienerポストフィルタを設計する際には、目的信号のパワースペクトルを精度よく推定することが重要であり、本発明に係る推定法で得られた目的信号のパワースペクトルは、Wienerポストフィルタ等の設計に良好に適用することができる。
[A]記法
本明細書においては、複素共役を*、転置をT、Hermite転置をHで表す。信号は短時間Fourier変換(STFT)領域で表現し、フレーム番号、角周波数をそれぞれτ、ωで表す。スカラーの信号α(τ,ω)、β(τ,ω)のクロススペクトルを、
零平均のベクトルの信号γ(τ,ω)の共分散行列を
と表記する(E[・]:期待値)。
本明細書においては、複素共役を*、転置をT、Hermite転置をHで表す。信号は短時間Fourier変換(STFT)領域で表現し、フレーム番号、角周波数をそれぞれτ、ωで表す。スカラーの信号α(τ,ω)、β(τ,ω)のクロススペクトルを、
[B]観測モデル
拡散性雑音の存在下で既知の方向から到来する目的信号をM素子からなるアレイで観測するとする。各マイクロフォンで受信された観測信号を並べたベクトルをx(τ,ω)∈CM、基準点(アレイの重心など)における目的信号成分をs(τ,ω)、ステアリングベクトル(既知)をd(ω)∈CM、各マイクロフォンにおける拡散性雑音成分を並べたベクトルをv(τ,ω)∈CMと書く。このとき観測モデルは
と書ける。
ここで、
である。但し、xm(τ,ω)はm番目のマイクロフォンで受信された観測信号を表す。d(ω)、v(τ,ω)の要素も上記のx(τ,ω)の場合と同様に定義される。ここで、d(ω)について言うと、ベクトルd(ω)がステアリングベクトルであり、その第m要素dm(ω)が目的信号からm番目のマイクロフォンで受信された観測信号への伝達関数となる。
s(τ,ω)とv(τ,ω)は零平均・無相関と仮定すると、x(τ,ω)は零平均で共分散行列は
となる。
ここで、φss(τ,ω)=E[|s(τ,ω)|2]は目的信号のパワースペクトルである。
拡散性雑音の存在下で既知の方向から到来する目的信号をM素子からなるアレイで観測するとする。各マイクロフォンで受信された観測信号を並べたベクトルをx(τ,ω)∈CM、基準点(アレイの重心など)における目的信号成分をs(τ,ω)、ステアリングベクトル(既知)をd(ω)∈CM、各マイクロフォンにおける拡散性雑音成分を並べたベクトルをv(τ,ω)∈CMと書く。このとき観測モデルは
ここで、
s(τ,ω)とv(τ,ω)は零平均・無相関と仮定すると、x(τ,ω)は零平均で共分散行列は
ここで、φss(τ,ω)=E[|s(τ,ω)|2]は目的信号のパワースペクトルである。
[C]多チャネルWienerフィルタ
[C−1]MVDRビームフォーマ(最小分散ビームフォーマ)
適応ビームフォーマの1つであるMVDR(Minimum Variance Distortionless Response)ビームフォーマの出力は、
で表される。
MVDRビームフォーマは、雑音が少数の点音源からのみ到来する場合には、指向性の零点をそれらに向けて非常に効果的に抑圧を行う。一方、あらゆる方向から雑音が到来する拡散性の雑音環境においては、性能は大きく低下する。
[C−1]MVDRビームフォーマ(最小分散ビームフォーマ)
適応ビームフォーマの1つであるMVDR(Minimum Variance Distortionless Response)ビームフォーマの出力は、
MVDRビームフォーマは、雑音が少数の点音源からのみ到来する場合には、指向性の零点をそれらに向けて非常に効果的に抑圧を行う。一方、あらゆる方向から雑音が到来する拡散性の雑音環境においては、性能は大きく低下する。
[C−2]Wienerポストフィルタ
多チャネルWienerフィルタ(multichannel Wiener filter)は、
で与えられる。
ここで、MVDRビームフォーマの出力
のパワースペクトルは、
で表され、
多チャネルWienerフィルタは、次のようにMVDRビームフォーマとWienerポストフィルタ(post-filter)と呼ばれる時間周波数マスクに分解することができることが知られている。
多チャネルWienerフィルタ(multichannel Wiener filter)は、
ここで、MVDRビームフォーマの出力
多チャネルWienerフィルタは、次のようにMVDRビームフォーマとWienerポストフィルタ(post-filter)と呼ばれる時間周波数マスクに分解することができることが知られている。
すなわち、多チャネルWienerフィルタは、最小分散ビームフォーマの出力を、Wienerポストフィルタ(時間周波数マスク)
で後処理する枠組みである。
このように、多チャネルWienerフィルタは、指向性制御による雑音抑圧の後、更に時間周波数マスキングによりSN比の低い時間周波数成分を抑圧する枠組みであり、指向性制御による抑圧が不十分な拡散性雑音に対しても有効であると考えられる。
拡散性雑音は指向性制御だけでは十分に抑圧できないが、最小分散ビームフォーマの出力を更にWienerポストフィルタ(時間周波数マスクの一種)により後処理する枠組みは効果的であり、平均二乗誤差規範で最適であることも示されている(非特許文献1)。
Wienerポストフィルタ(8)の設計においては、目的信号のパワースペクトルφss(τ,ω)を、雑音の重畳した観測信号から精度よく推定することが重要である。
拡散性雑音は指向性制御だけでは十分に抑圧できないが、最小分散ビームフォーマの出力を更にWienerポストフィルタ(時間周波数マスクの一種)により後処理する枠組みは効果的であり、平均二乗誤差規範で最適であることも示されている(非特許文献1)。
Wienerポストフィルタ(8)の設計においては、目的信号のパワースペクトルφss(τ,ω)を、雑音の重畳した観測信号から精度よく推定することが重要である。
[D]本実施形態に係るポストフィルタ設計法
[D−1]目的信号のパワースペクトルの推定
以下において、
φxmxn:観測信号のチャネル間クロススペクトル、
φssdmdn *:目的信号のチャネル間クロススペクトル、
φvmvn:雑音のチャネル間クロススペクトル、
とする。
拡散性雑音が等方的であり、チャネル間クロススペクトルがマイクロフォン間の距離のみで決まると仮定すると、任意のマイクロフォン対に対して、
が成り立つ。
[D−1]目的信号のパワースペクトルの推定
以下において、
φxmxn:観測信号のチャネル間クロススペクトル、
φssdmdn *:目的信号のチャネル間クロススペクトル、
φvmvn:雑音のチャネル間クロススペクトル、
とする。
拡散性雑音が等方的であり、チャネル間クロススペクトルがマイクロフォン間の距離のみで決まると仮定すると、任意のマイクロフォン対に対して、
これは拡散性雑音のクロススペクトルは実数でモデル化できることを意味する。一方、特定方向から到来する目的信号に対しては、クロススペクトルは到来時間差で決まる位相を持ち、実数とは限らないため、理想的には観測信号のクロススペクトルの虚部は、
のように目的信号成分のみからなる。ここで、
である。
式(10)から最小二乗法に基づき、φss(τ,ω)を
により推定する。
ここで、目的信号は平面波として伝搬するという仮定に基づき、dm(ω)=e{-jωδm}とした。また、Σはm、nに関する和、δmはm番目のマイクロフォンに対する、基準点(例えば、アレイの重心)を基準とした目的信号の時間遅れである。
ここで、目的信号は平面波として伝搬するという仮定に基づき、dm(ω)=e{-jωδm}とした。また、Σはm、nに関する和、δmはm番目のマイクロフォンに対する、基準点(例えば、アレイの重心)を基準とした目的信号の時間遅れである。
[D−2]Wienerポストフィルタの設計
上述のように、Wienerポストフィルタの分子である目的信号のパワースペクトルφss(τ,ω)が推定される。
一方、Wienerポストフィルタの分母であるビームフォーマの出力、すなわち、ポストフィルタの入力のパワースペクトルφyy(τ,ω)はZelinskiの推定法(非特許文献5参照)
により推定することができる。
したがって、
が本実施形態による提案法に係るポストフィルタ設計である。
なお、p(τ,ω)は0≦p(τ,ω)≦1を満たすから、上記ポストフィルタ設計p^(τ,ω)もこれを満たすように、次の簡単な後処理を行う。
上述のように、Wienerポストフィルタの分子である目的信号のパワースペクトルφss(τ,ω)が推定される。
一方、Wienerポストフィルタの分母であるビームフォーマの出力、すなわち、ポストフィルタの入力のパワースペクトルφyy(τ,ω)はZelinskiの推定法(非特許文献5参照)
したがって、
なお、p(τ,ω)は0≦p(τ,ω)≦1を満たすから、上記ポストフィルタ設計p^(τ,ω)もこれを満たすように、次の簡単な後処理を行う。
[F]実験
[F−1]実験条件
提案法の有効性を確認するためにシミュレーションを行った。図5に音源とアレイの配置を示す。マイクロフォンは直線上に等間隔に配置した。水平面内の等間隔64方向から平均パワーの等しい、異なる音声の平面波を重畳してカクテルパーティーの状況を模擬した。一方、目的信号としてアレイの軸方向から音声の平面波を加えた。音声データはATR音声データベースBセット(A. Kurematsu
et al., Speech Commun., vol. 9, no. 4, pp. 357-363, 1990.8)の連続音声を用いた。観測信号のSN比が1番目のマイクロフォンにおいて0.0dBとなるように、雑音と目的信号のパワー比を定めた。ここで、本明細書におけるSN比の定義は、波形をベクトルと見なしたときの目的信号方向成分とその直交成分のパワー比であり、雑音抑圧量だけでなく目的信号の歪みも考慮に入れた尺度であることに注意する。データ長は4.096sec、サンプリング周波数は16kHzとし、STFTにおいてはフレーム長512、フレームシフト16とし、窓関数はHamming窓を用いた。
最小分散ビームフォーマ(4)のためのΦxxは、x(τ,ω)xH(τ,ω)の全フレームに亘る時間平均により求めた。一方、ポストフィルタのためのφxmxn(τ,ω)は、xm(τ,ω)xn *(τ,ω)を32フレーム毎に時間平均して求めた。
目的信号はその到来方向から平面波として伝播すると仮定し、d(ω)は、既述の平面波の場合の計算法により計算した。
[F−1]実験条件
提案法の有効性を確認するためにシミュレーションを行った。図5に音源とアレイの配置を示す。マイクロフォンは直線上に等間隔に配置した。水平面内の等間隔64方向から平均パワーの等しい、異なる音声の平面波を重畳してカクテルパーティーの状況を模擬した。一方、目的信号としてアレイの軸方向から音声の平面波を加えた。音声データはATR音声データベースBセット(A. Kurematsu
et al., Speech Commun., vol. 9, no. 4, pp. 357-363, 1990.8)の連続音声を用いた。観測信号のSN比が1番目のマイクロフォンにおいて0.0dBとなるように、雑音と目的信号のパワー比を定めた。ここで、本明細書におけるSN比の定義は、波形をベクトルと見なしたときの目的信号方向成分とその直交成分のパワー比であり、雑音抑圧量だけでなく目的信号の歪みも考慮に入れた尺度であることに注意する。データ長は4.096sec、サンプリング周波数は16kHzとし、STFTにおいてはフレーム長512、フレームシフト16とし、窓関数はHamming窓を用いた。
最小分散ビームフォーマ(4)のためのΦxxは、x(τ,ω)xH(τ,ω)の全フレームに亘る時間平均により求めた。一方、ポストフィルタのためのφxmxn(τ,ω)は、xm(τ,ω)xn *(τ,ω)を32フレーム毎に時間平均して求めた。
目的信号はその到来方向から平面波として伝播すると仮定し、d(ω)は、既述の平面波の場合の計算法により計算した。
[F−2]結果
図6はアレイ長に対して出力SN比をプロットしたものである。マイクロフォン数は4とした。提案法、Zelinski法、最小分散ビームフォーマ単独(ポストフィルタなし)の3手法を比較した。また、実際には得られない、各マイクロフォンにおける目的信号及び雑音の情報を用いて設計した理想的なWienerポストフィルタの結果も参考のため示す。図6から分かるように、アレイ長が大きい場合(約30cm以上)には提案法とZelinski法は同等の性能を示すが、アレイ長が小さくなると、Zelinski法は性能が低下して最小分散ビームフォーマ単独の性能に近付いて行くのに対し、提案法の性能はほぼ不変である。これは、Zelinski法は雑音の無相関性を仮定しているため、アレイサイズが小さいと高い雑音相関のために上手く働かないと説明できる。
図6はアレイ長に対して出力SN比をプロットしたものである。マイクロフォン数は4とした。提案法、Zelinski法、最小分散ビームフォーマ単独(ポストフィルタなし)の3手法を比較した。また、実際には得られない、各マイクロフォンにおける目的信号及び雑音の情報を用いて設計した理想的なWienerポストフィルタの結果も参考のため示す。図6から分かるように、アレイ長が大きい場合(約30cm以上)には提案法とZelinski法は同等の性能を示すが、アレイ長が小さくなると、Zelinski法は性能が低下して最小分散ビームフォーマ単独の性能に近付いて行くのに対し、提案法の性能はほぼ不変である。これは、Zelinski法は雑音の無相関性を仮定しているため、アレイサイズが小さいと高い雑音相関のために上手く働かないと説明できる。
また、アレイサイズと並んでマイクロフォンの個数も実用上重要であるが、図7に示すように、提案手法はマイクロフォン数が小さい場合にも良好な性能を示す。(アレイ長は6cmとした。)
図8はスペクトログラムの例である。上から、(a)目的信号、(b)観測信号(SNR:0.0dB)、(c)最小分散ビームフォーマ(SNR:6.4dB)、(d)Zelinski法(SNR:6.6dB)、(e)本実施形態による提案法(SNR:7.8dB)、である。Zelinski法は雑音相関が高い低域では雑音抑圧が不十分であるが、提案法は全帯域で雑音を抑圧している。
以上述べてきたように、拡散性雑音抑圧のためのWienerポストフィルタの新しい設計法として、チャネル間クロススペクトルの虚部を用いた目的信号のパワースペクトルの推定に基づく方法を提案した。本手法は任意配置かつ小サイズのアレイに対して適用できる。実験により提案法がZelinski法よりも高いSN比を与えること、アレイサイズによらず有効であることが示された。
[G]その他の実施形態1
観測信号のチャネル間クロススペクトルの実部を一部に用いる推定法について説明する。
本セクションを含むその他の実施形態では数式番号はセクション毎に独立に付与する。
上記実施形態では、チャネル間クロススペクトルの間の関係式
において、雑音のチャネル間クロススペクトルφvmvn(τ,ω)が実数であるという仮定の下、両辺の虚部を取ると、雑音項が消え、
となる。式(2)の両辺の二乗誤差
を最小化するφss(τ,ω)を求めることにより、最小二乗推定値
を得る。
観測信号のチャネル間クロススペクトルの実部を一部に用いる推定法について説明する。
本セクションを含むその他の実施形態では数式番号はセクション毎に独立に付与する。
上記実施形態では、チャネル間クロススペクトルの間の関係式
Zelinski法では、チャネル間クロススペクトルの間の関係式(1)において、雑音のチャネル間クロススペクトルφvmvn(τ,ω)が0であると仮定すると、
となる。式(5)の両辺の二乗誤差
を最小化するφss(τ,ω)を求めることにより、最小二乗推定値
を得る。
上記の実施形態に係る手法では、虚部を取ることにより雑音の寄与を効果的に低減できるが、条件によっては分母が0になる(零割り)という問題が起きていた。一方、Zelinski法は虚部を取らない(つまり虚部も使うし、実部も使う)ので、雑音の影響を大きく受けるが零割りは起きない。そこで、雑音の寄与を効果的に低減できるという上記実施形態に係る手法の長所を活かしつつ、零割りが起きないというZelinski法の特徴を兼ね備えた、ハイブリッド型の手法を提案する。
式(5)の実部と虚部は、それぞれ
である。式(8)、(9)の両辺の二乗誤差は、それぞれ
である。
雑音の寄与を効果的に低減できるという上記実施形態に係る手法の長所を減殺しないためには、「主に虚部を見るが、実部も少しは見る」ような推定値を得ることが必要となり、例えば、
のように、式(11)に大きな重みをかけた評価関数を考えればよい。このような評価関数を考えることにより、虚部を重視し、実部を軽視する(全く考慮しないのではなく、少しは考慮する)ような推定値が得ることができる。
雑音の寄与を効果的に低減できるという上記実施形態に係る手法の長所を減殺しないためには、「主に虚部を見るが、実部も少しは見る」ような推定値を得ることが必要となり、例えば、
式(12)を一般化すると、
となる。ここで、aR、aIはそれぞれ、実部、虚部をどの程度重要視するかを表す係数であり、aI>aR>0である。
式(13)を最小化するφss(τ,ω)を求めることにより、ハイブリッド型推定法の推定値
を得る。
式(13)の評価関数は、aR=0とおくと、実部を全く見ない、即ち、虚部だけを見ることになり、評価関数(13)は評価関数(3)に定数倍を除き一致する。
本実施形態において、雑音の寄与を効果的に低減できるという長所を減殺しないためには、1つの望ましい態様では、係数aRと係数aIとの比率は、1:10であるが、拡散性雑音成分を低減できるという本発明の精神を損なわない範囲において、係数aRと係数aIとの比率を、aI>aR>0の範囲で適宜設定できることが当業者に理解される。
式(13)を最小化するφss(τ,ω)を求めることにより、ハイブリッド型推定法の推定値
式(13)の評価関数は、aR=0とおくと、実部を全く見ない、即ち、虚部だけを見ることになり、評価関数(13)は評価関数(3)に定数倍を除き一致する。
本実施形態において、雑音の寄与を効果的に低減できるという長所を減殺しないためには、1つの望ましい態様では、係数aRと係数aIとの比率は、1:10であるが、拡散性雑音成分を低減できるという本発明の精神を損なわない範囲において、係数aRと係数aIとの比率を、aI>aR>0の範囲で適宜設定できることが当業者に理解される。
式(14)の新しい推定法では零割りが起きないことを確認するために、式(14)の分母を次のように変形する:
これは、aR,aI>0より、必ず正であり、したがって、零割りは起きない。
本セクションで述べたハイブリッド型の推定法は、φxmxnの虚部を取って、I[φxmxn]を得ることに加えて、φxmxnの実部を取って、R[φxmxn]を得ることを含み、I[φxmxn]、R[φxmxn]を用いて、φssの推定値を式(14)に従って計算する際に、前者を後者より重視することで、拡散性雑音の寄与を低減するものである。すなわち、本セクションの推定法は、観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する方法において、部分的に観測信号のチャネル間クロススペクトルの実部を用いるものであって、請求項1の技術的範囲に属するものである。
本セクションで述べたハイブリッド型の推定法は、φxmxnの虚部を取って、I[φxmxn]を得ることに加えて、φxmxnの実部を取って、R[φxmxn]を得ることを含み、I[φxmxn]、R[φxmxn]を用いて、φssの推定値を式(14)に従って計算する際に、前者を後者より重視することで、拡散性雑音の寄与を低減するものである。すなわち、本セクションの推定法は、観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する方法において、部分的に観測信号のチャネル間クロススペクトルの実部を用いるものであって、請求項1の技術的範囲に属するものである。
[H]その他の実施形態2
multichannel MMSE-STSA/log-STSA estimatorのポストフィルタの設計法について説明する。
[H−1]multichannel MMSE-STSA estimator
multichannel MMSE-STSA estimatorは、
のように、MVDRビームフォーマの出力に対してポストフィルタpSTSA(τ,ω)を適用するポストフィルタリング手法である。ここで、ポストフィルタpSTSA(τ,ω)は次式で与えられる。
但し、Γ(・)はガンマ関数、I0(・),I1(・)はそれぞれ0次、1次の修正Bessel関数である。
また、
であり、式(4)の分母のφv´v´(τ,ω)について言えば、v´(τ,ω)はMVDRビームフォーマの出力における雑音成分
である。従って、pSTSA(τ,ω)を設計するためには、φss(τ,ω)、φyy(τ,ω)、φv´v´(τ,ω)を推定する必要がある。
multichannel MMSE-STSA/log-STSA estimatorのポストフィルタの設計法について説明する。
[H−1]multichannel MMSE-STSA estimator
multichannel MMSE-STSA estimatorは、
また、
[H−2]multichannel log-STSA estimator
multichannel log-STSA estimatorは、
のように、MVDRビームフォーマの出力に対してポストフィルタplog(τ,ω)を適用するポストフィルタリング手法である。ここで、ポストフィルタplog(τ,ω)は次式で与えられる。
従って、plog(τ,ω)を設計するためには、pSTSA(τ,ω)の場合と同様、φss(τ,ω)、φyy(τ,ω)、φv´v´(τ,ω)を推定する必要がある。
multichannel log-STSA estimatorは、
[H−3]設計法
φss(τ,ω)、φyy(τ,ω)は、Wienerポストフィルタの場合と同様に推定できる。そこで本節では、φv´v´(τ,ω)の推定法を述べる。
MVDRビームフォーマの出力y(τ,ω)は、
と表せる。従って、信号と雑音の無相関性より
が成り立つことに注意すると、次式のように、MVDRビームフォーマの出力のパワースペクトルは、目的信号のパワースペクトルと雑音成分v´(τ,ω)のパワースペクトルの和となる。
式(12)より、
であるから、
により推定する。ここで、φ^ss(τ,ω)、φ^yy(τ,ω)は、それぞれφss(τ,ω)、φyy(τ,ω)の推定値である。ここで、φss(τ,ω)、φyy(τ,ω)の推定については、Wienerポストフィルタの設計におけるφss(τ,ω)、φyy(τ,ω)の推定の記載を援用することができる。
φss(τ,ω)、φyy(τ,ω)は、Wienerポストフィルタの場合と同様に推定できる。そこで本節では、φv´v´(τ,ω)の推定法を述べる。
MVDRビームフォーマの出力y(τ,ω)は、
[I]その他の実施形態3
本発明について、周波数領域における実施に基づいて説明してきたが、本発明に係る技術思想を時間領域で実施することもできる。以下に、自己相関関数推定の実施の形態について説明する。
時間領域での観測モデルは、
と書ける。ここで、xm,l[t],sm,l[t],vm,l[t]は、それぞれm番目のマイクロフォンにおける観測信号、目的信号成分、拡散性雑音成分であり、lはフレーム番号、tはサンプル番号、Nはフレーム長である。フレーム内で信号は定常的であるとすると、観測信号、目的信号、拡散性雑音のチャネル間相互相関関数は、
のようにタイムラグτのみの関数であると仮定できる。但し、0≦t≦N-1,0≦t+τ≦N-1であり、Rxmxn,l[τ],Rsmsn,l[τ],Rvmvn,l[τ]の定義域は-(N-1)≦τ≦N-1であり、E{・}は期待値である。目的信号成分と拡散性雑音成分は無相関と仮定すると、
であるから、チャネル間相互相関関数の間には次の関係式が成立する。
式(4)より、
が成り立つ。一方、拡散性雑音は等方的であり、そのチャネル間相互相関関数は、対応するマイクロフォン間の距離のみで決まるとすると、次式が成り立つ。
式(9)、(10)より、
を得る。この式は、拡散性雑音のチャネル間相互相関関数は、偶関数でモデル化できることを意味する。
本発明について、周波数領域における実施に基づいて説明してきたが、本発明に係る技術思想を時間領域で実施することもできる。以下に、自己相関関数推定の実施の形態について説明する。
時間領域での観測モデルは、
が成り立つ。一方、拡散性雑音は等方的であり、そのチャネル間相互相関関数は、対応するマイクロフォン間の距離のみで決まるとすると、次式が成り立つ。
雑音のチャネル間相互相関関数は偶関数であるという上記のモデルに基づくと、式(6)の奇関数成分は次のようにノイズフリーとみなせる。
ここで、
は、奇関数成分を表し、例えば、
については、
となる。
は、奇関数成分を表し、例えば、
については、
Sm,l[t]は、基準点(アレイの重心など)における目的信号成分sl[t]を用いて、次のように近似できる。
ここで、hm[t](−N+1≦t≦N−1)は目的信号からm番目のマイクロフォンへのインパルス応答である。従って、τ≧0のとき、
となる。ここで、
は目的信号sl[t]の自己相関関数である。u=t´´−t´,u´=t´´と変数変換すると、
となる。一方、τ<0のとき、
となる。ここで、u=t´´−t´,u´=t´´と変数変換すると、
となる。
以上より、Rsmsn,l[τ]は次のように表される。
ここで、
である。式(28)の奇関数成分を取ると、
となる。但し、
である。
式(12)、(30)より、
を得る。この式を行列形式で書くと、
となる。ここで、
である。式(33)の両辺の二乗誤差を
により定義する。ここで||・||2は2ノルムである。上式をξlにより微分して0とおくと、
を得る。これをξlについて解くと、ξlの最小二乗推定値
を得る。Gmnは式(35)に従って、gmn[τ,u]から計算されるが、このgmn[τ,u]は、インパルス応答hm[t]から式(29)に従って計算される。また、ηmn,lは式(34)に従って、観測信号のチャネル間相互相関関数Rxmxn,l[τ]から計算されるが、このRxmxn,l[τ]は観測信号から計算できることは当業者に理解される。ξ^lの要素として、目的信号の自己相関関数Rss,l[τ](−N+1≦τ≦N−1)の推定値が得られる。
なお、本実施形態は、拡散性雑音の低減という精神に反しない範囲において、奇関数成分以外の部分、すなわち偶関数成分を一部に用いることを排除するものではない。
なお、本実施形態は、拡散性雑音の低減という精神に反しない範囲において、奇関数成分以外の部分、すなわち偶関数成分を一部に用いることを排除するものではない。
本発明は、周囲の様々な方向から雑音が到来するような環境で、目的方向から到来する信号を取得する枠組みを与えるものであり、空港、駅の構内、パーティ会場など、人がたくさん存在する環境や、工場のように機械音に囲まれている環境、車内など、壁や窓が常時振動し、大面積の雑音源に囲まれた空間など、従来のアレイ信号処理の適用が困難な環境での、音声認識や音によるモニタリングに大きな効用があると考えられる。
Claims (16)
- 複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得するステップと、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定するステップと、
を備えた音響信号処理方法。 - 前記伝達関数は、各マイクロフォンに対する目的信号の時間遅れから取得される、請求項1に記載の音響信号処理方法。
- 目的信号のパワースペクトルの推定は、最小二乗法で行なう、請求項1、2いずれかに記載の音響信号処理方法。
- 目的信号のパワースペクトルの推定は、最尤法で行なう、請求項1、2いずれかに記載の音響信号処理方法。
- 前記目的信号のパワースペクトルを推定するステップは、部分的に観測信号のチャネル間クロススペクトルの実部を用いることを含む、請求項1乃至4いずれかに記載の音響信号処理方法。
- 複数のマイクロフォンで受信された複数の観測信号をビームフォーマで処理するステップと、
ビームフォーマの出力を時間周波数マスクで処理するステップと、
を備えた音響信号処理方法において、
前記時間周波数マスクを、少なくとも、ビームフォーマの出力のパワースペクトルの推定値と、請求項1乃至5いずれかの方法で推定された目的信号のパワースペクトルと、を用いて設計することを特徴とする音響信号処理方法。 - 前記ビームフォーマは、適応ビームフォーマである、請求項6に記載の音響信号処理方法。
- 前記適応ビームフォーマは、最小分散ビームフォーマである、請求項7に記載の音響信号処理方法。
- 前記時間周波数マスクは、Wienerポストフィルタであり、
ここで、
φ^ss(τ,ω)は、目的信号のパワースペクトルの推定値であり、
φ^yy(τ,ω)は、ビームフォーマの出力のパワースペクトルの推定値である。 - 複数のマイクロフォンで受信された複数の観測信号を最小分散ビームフォーマで処理するステップと、
最小分散ビームフォーマの出力をWienerポストフィルタで処理するステップと、
を備えた音響信号処理方法において、
Wienerポストフィルタを、請求項1乃至5いずれかの方法で推定された目的信号のパワースペクトルを用いて、
ここで、
φ^ss(τ,ω)は、目的信号のパワースペクトルの推定値であり、
φ^yy(τ,ω)は、最小分散ビームフォーマの出力のパワースペクトルの推定値である。 - 複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得する手段と、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する手段と、
を備えた音響信号処理装置。 - 複数のマイクロフォンで受信された複数の観測信号から、目的信号のパワースペクトルを推定するためにコンピュータを、
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得する手段と、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する手段と、
して実行させるためのコンピュータプログラム。 - 複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、得られた観測信号のチャネル間クロススペクトルの虚部を、目的信号のチャネル間クロススペクトルの虚部の推定値とする、音響信号処理方法。
- さらに、前記観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する、
請求項13に記載の音響信号処理方法。 - 複数のマイクロフォンで受信された複数の観測信号のチャネル間相互相関関数を取得するステップと、
観測信号のチャネル間相互相関関数の奇関数成分を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間相互相関関数の奇関数成分と、目的信号から各マイクロフォンで受信された観測信号へのインパルス応答と、を用いて目的信号の自己相関関数を推定するステップと、
を備えた音響信号処理方法。 - 複数のマイクロフォンで受信された複数の観測信号のチャネル間相互相関関数の奇関数成分を取ることによって拡散性雑音の寄与を低減し、得られた観測信号のチャネル間相互相関関数の奇関数成分を、目的信号の自己相関関数の奇関数成分の推定値とする、音響信号処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009054478A JP2010210728A (ja) | 2009-03-09 | 2009-03-09 | 音響信号処理方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009054478A JP2010210728A (ja) | 2009-03-09 | 2009-03-09 | 音響信号処理方法及び装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010210728A true JP2010210728A (ja) | 2010-09-24 |
Family
ID=42970987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009054478A Pending JP2010210728A (ja) | 2009-03-09 | 2009-03-09 | 音響信号処理方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010210728A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019508719A (ja) * | 2016-02-03 | 2019-03-28 | グーグル エルエルシー | 音声強調のための全体最適化した最小二乗法ポストフィルタリング |
CN113362808A (zh) * | 2021-06-02 | 2021-09-07 | 云知声智能科技股份有限公司 | 一种目标方向语音提取方法、装置、电子设备和存储介质 |
CN113724727A (zh) * | 2021-09-02 | 2021-11-30 | 哈尔滨理工大学 | 基于波束形成的长短时记忆网络语音分离算法 |
-
2009
- 2009-03-09 JP JP2009054478A patent/JP2010210728A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019508719A (ja) * | 2016-02-03 | 2019-03-28 | グーグル エルエルシー | 音声強調のための全体最適化した最小二乗法ポストフィルタリング |
CN113362808A (zh) * | 2021-06-02 | 2021-09-07 | 云知声智能科技股份有限公司 | 一种目标方向语音提取方法、装置、电子设备和存储介质 |
CN113724727A (zh) * | 2021-09-02 | 2021-11-30 | 哈尔滨理工大学 | 基于波束形成的长短时记忆网络语音分离算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107039045B (zh) | 用于语音增强的全局优化最小二乘后滤波 | |
US8654990B2 (en) | Multiple microphone based directional sound filter | |
Krueger et al. | Speech enhancement with a GSC-like structure employing eigenvector-based transfer function ratios estimation | |
EP2647221B1 (en) | Apparatus and method for spatially selective sound acquisition by acoustic triangulation | |
JP6363213B2 (ja) | いくつかの入力オーディオ信号の残響を除去するための信号処理の装置、方法、およびコンピュータプログラム | |
Habets | Speech dereverberation using statistical reverberation models | |
Fahim et al. | PSD estimation and source separation in a noisy reverberant environment using a spherical microphone array | |
Ito et al. | Designing the Wiener post-filter for diffuse noise suppression using imaginary parts of inter-channel cross-spectra | |
Niwa et al. | Post-filter design for speech enhancement in various noisy environments | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
Peled et al. | Linearly-constrained minimum-variance method for spherical microphone arrays based on plane-wave decomposition of the sound field | |
Schwartz et al. | Joint maximum likelihood estimation of late reverberant and speech power spectral density in noisy environments | |
Koldovský et al. | Semi-blind noise extraction using partially known position of the target source | |
Huang et al. | Globally optimized least-squares post-filtering for microphone array speech enhancement | |
CN111681665A (zh) | 一种全向降噪方法、设备及存储介质 | |
Schwartz et al. | Multi-microphone speech dereverberation using expectation-maximization and kalman smoothing | |
JP2010210728A (ja) | 音響信号処理方法及び装置 | |
Peled et al. | Linearly constrained minimum variance method for spherical microphone arrays in a coherent environment | |
Bai et al. | Speech Enhancement by Denoising and Dereverberation Using a Generalized Sidelobe Canceller-Based Multichannel Wiener Filter | |
Zhu et al. | Sound source localization through optimal peak association in reverberant environments | |
Ji et al. | Coherence-Based Dual-Channel Noise Reduction Algorithm in a Complex Noisy Environment. | |
Pfeifenberger et al. | Blind source extraction based on a direction-dependent a-priori SNR. | |
Çöteli et al. | Acoustic source separation using rigid spherical microphone arrays via spatially weighted orthogonal matching pursuit | |
Leng et al. | On speech enhancement using microphone arrays in the presence of co-directional interference | |
Ito et al. | A blind noise decorrelation approach with crystal arrays on designing post-filters for diffuse noise suppression |