JP2010210728A

JP2010210728A - 音響信号処理方法及び装置

Info

Publication number: JP2010210728A
Application number: JP2009054478A
Authority: JP
Inventors: Junki Ono; 順貴小野; Shigeki Sagayama; 茂樹嵯峨山; Nobutaka Ito; 信貴伊藤
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2009-03-09
Filing date: 2009-03-09
Publication date: 2010-09-24

Abstract

【課題】
背景雑音や残響環境下で特定方向から到来する目的信号を取得する。
【解決手段】
複数のマイクロフォンで受信された複数の観測信号間のクロススペクトルを取得するステップと、等方的な雑音場における雑音のクロススペクトルは実数であることに基づき、観測信号のクロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する。
【選択図】図４Ａ

Description

本発明は、音響信号処理に係り、詳しくは、マイクロフォンアレイ信号処理を用いた拡散性雑音環境下における雑音抑圧に関するものである。

マイクロフォンアレイを用いて、既知の方向から到来する目的信号を強調し、他の音響信号(以下「雑音」)を抑圧する技術は、補聴器、テレビ会議、音声認識、携帯電話を始めとして多様な応用があり、数多くの研究がなされてきた。

最も基本的な遅延和ビームフォーマは、アレイ開口を波長に対して十分大きくすれば、鋭いビームを形成して雑音を効果的に抑圧することができる。しかし、その際に空間的エリアシングを回避するためには、多数のマイクロフォンを用いる必要がある。また、多くの応用においては、比較的長い音波の波長に対して十分に大きな開口を取ることは困難である。
これに対し、適応ビームフォーマは、少数の点音源から発生する雑音に対しては、指向性の零点を向けることにより、原理的には開口サイズによらず効果的な除去が可能である。一方、多数の話者による背景雑音や室内の残響のようなあらゆる方向から到来する拡散性の雑音は、適応ビームフォーマでは十分に抑圧することができず、音響信号処理における課題の一つである。

このような拡散性雑音を抑圧するための枠組みとして、ビームフォーマの出力を後処理するポストフィルタリング手法が知られている（非特許文献１乃至５）。例えば、非特許文献１乃至３には、適応ビームフォーマの１つである最小分散ビームフォーマの出力を時間周波数マスクにより後処理するWienerポストフィルタリングが開示されている（図１参照）。
Wienerポストフィルタを設計するには、雑音を含む観測信号から目的信号のパワースペクトルを推定する必要がある。

拡散性の雑音環境における目的信号のパワースペクトルの推定に関して、Zelinskiは、異なるマイクロフォンにおける雑音が互いに無相関であるという仮定に基づく推定法を提案した（非特許文献５）。この仮定の下では、雑音共分散行列は対角行列となり、観測共分散行列の非対角成分はノイズフリーとなり、したがって、観測共分散行列の非対角成分からφ_ｓｓを取得することができる（図２参照）。しかしながら、上記近似は素子間隔が波長に対して十分大きいときのみ有効であり、アレイサイズを大きくする必要があるという欠点がある。
すなわち、マイクロフォン間の距離が波長に対して十分大きい場合には、この仮定は良い近似であり、精確な推定値を得ることができるが、マイクロフォン間の距離が小さい場合には、雑音はマイクロフォン間で大きな相関を持つため、大きな誤差要因となる。

これに対し、本願の発明者等は、結晶型アレイと称する回転対称性を有するアレイを用いて拡散性雑音を無相関化することにより、マイクロフォン間距離が小さい場合でも精確に目的信号のパワースペクトルを推定する方法を提案している（非特許文献６）。しかしながら、この手法では、アレイ配置に対する制約がある。

したがって、小サイズで任意な配置のマイクロフォンアレイに適用可能であり、かつ、背景雑音や残響などの拡散性の雑音、すなわち、周囲の様々な方向から雑音が到来するような雑音環境を扱う有効な枠組みが求められていた。

K.U. Simmer, J. Bitzer, and C. Marro, "Post-filtering techniques," in MicrophoneArrays, M. Brandstein and D. Ward, Eds., Springer-Verlag, ch. 3, pp. 39-60,2001. S.Lefkimmiatis and P. Maragos, "A generalized estimation approach for linear andnonlinear microphone array post-filters," Speech Commun., vol. 49, no. 7-8, pp.657-666, 2007. I. A. McCowanand H. Bourlard, "Microphone array post-filter based on noise fieldcoherence," IEEE Trans. Speech Audio Process., vol. 11, no. 6, pp.709-716, Nov. 2003. I. Cohen,"Multichannel post-filtering in nonstationary noise environments,"IEEE Trans. Signal Process., vol. 52, no. 5, pp. 1149-1160, May 2004. R.Zelinski, "A microphone array with adaptive post-filtering for noise reductionin reverberant rooms," Proc. ICASSP, pp. 2578-2581, Apr. 1988. N.Ito, N. Ono, and S. Sagayama, "A blind noise decorrelation approach withcrystal arrays on designing post-filters for diffuse noise suppression," Proc.ICASSP, pp. 317-320, Apr. 2008.

本発明は、背景雑音や残響環境下で特定方向から到来する目的信号を取得することを目的とするものである。
より具体的には、本発明の目的の１つは、小サイズで任意な配置のマイクロフォンアレイを用いた拡散性雑音抑圧方法及び装置を提供するものである。

本発明が採用した技術手段は、
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得するステップと、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定するステップと、
を備えた音響信号処理方法、である。

本発明は、複数の観測信号のチャネル間クロススペクトルの位相に着目した新しい方法であり、チャネル間クロススペクトルの虚部を用いた目的信号のパワースペクトルの推定に係るものである。拡散性雑音が等方的であれば、そのチャネル間クロススペクトルは実数値を取る点に基づき、観測信号のチャネル間クロススペクトルの虚部を用いることで、目的信号のパワースペクトルを推定する。雑音が等方的ならノイズフリーとなる観測信号間のクロススペクトルの虚部を用いることで、雑音の影響を軽減し、目的信号のパワースペクトルを精度よく推定することができる（図３、図４参照）。
ここで、雑音が等方的であるとは、雑音のチャネル間クロススペクトルがマイクロフォン間の距離のみで決まるということ、すなわち、L_mn＝L_m'n'ならば雑音のチャネル間クロススペクトルについて、φ_vmvn(τ,ω)＝φ_vm'vn'(τ,ω)が成り立つ。但し、L_mnはｍ番目とｎ番目のマイクロフォンの間の距離、φ_vmvnは雑音のチャネル間クロススペクトル、である。
このように、本発明は、「拡散性雑音に対しては、雑音のチャネル間クロススペクトルは実数である」というモデルに基づくものであって、複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、得られた観測信号のチャネル間クロススペクトルの虚部を、目的信号のチャネル間クロススペクトルの虚部の推定値とする、音響信号処理方法、として捉えることもできる。

観測信号のチャネル間クロススペクトルは、時間周波数領域の観測信号から計算できることは当業者に良く知られており、また、観測信号は、典型的には、短時間フーリエ変換によって時間領域（波形）から時間周波数領域（スペクトログラム）に変換される。

目的信号から各マイクロフォンで受信された観測信号への伝達関数を要素とするステアリングベクトルは、以下のように取得することができる。
ステアリングベクトルの第ｍ成分ｄ_ｍ(ω)は、目的音が球面波あるいは平面波伝播すると仮定して、
球面波の場合：ｄ_ｍ(ω)＝ａ_ｍｅ^{-jωδm}
平面波の場合：ｄ_ｍ(ω)＝ｅ^{-jωδm}
により計算できる。
ここで、ａ_ｍはｍ番目のマイクロフォンに対する、基準点（アレイの重心など）を基準とした目的信号の減衰係数、ｅは自然対数の底、jは虚数単位、δ_ｍはｍ番目のマイクロフォンに対する、基準点（アレイの重心など）を基準とした目的信号の時間遅れ、ωは角周波数である。
ａ_ｍはａ_ｍ＝ｄ_０/ｄ_ｍにより計算することができる。
ここで、ｄ_ｍは目的信号の音源からｍ番目のマイクロフォンまでの距離、ｄ_０は目的信号の音源から基準点（アレイの重心など）までの距離である。
マイクロフォン、目的信号の音源の位置が既知であれば、これらの距離を取得することができる。
また、δ_ｍは、
球面波の場合：δ_ｍ＝ｄ_ｍ/ｃ−ｄ_０/ｃ
平面波の場合：δ_ｍ＝−L_0ｍcosθ_ｍ/ｃ
により計算できる。
ここで、ｃは音速、θ_ｍは基準点から目的信号の音源とｍ番目のマイクロフォンを見込む角の大きさ、L_0ｍは基準点とｍ番目のマイクロフォンの距離である。
このように、目的信号から各マイクロフォンで受信された観測信号への伝達関数を要素とするステアリングベクトルは、平面波の場合には、各マイクロフォンに対する目的信号の時間遅れδ_ｍから、球面波の場合には、時間遅れδ_ｍおよび減衰係数ａ_ｍから、計算することができる。
上記では、理想的なモデル（近似）に基づいたｄ_ｍ(ω)の計算方法について説明したが、実際にはｄ_ｍ(ω)は、残響等の効果により、使用される部屋に特有の関数となることが知られており、ｄ_ｍ(ω)に実際に測定した値を用いることにより、特定の部屋に特化させてもよい。

本発明に係る目的信号のパワースペクトルの推定の具体的な手法としては、最小二乗法が挙げられるが、本発明に用いられる推定法は最小二乗法に限定されるものではなく、最尤法、その他の推定法を用い得ることは当業者に理解される。

本発明が採用した他の技術手段は、
複数のマイクロフォンで受信された複数の観測信号をビームフォーマで処理するステップと、
ビームフォーマの出力を時間周波数マスクで処理するステップと、
を備えた音響信号処理方法において、
前記時間周波数マスクを、少なくとも、ビームフォーマの出力のパワースペクトルの推定値と、上記の方法で推定された目的信号のパワースペクトルと、を用いて設計することを特徴とする音響信号処理方法、である。
１つの態様では、前記ビームフォーマは、適応ビームフォーマであるが、遅延和ビームフォーマでもよい。
１つの態様では、前記適応ビームフォーマは、最小分散ビームフォーマである。
１つの態様では、前記時間周波数マスクは、Wienerポストフィルタであるが、他の時間周波数マスクを用いてもよい。例えば、本発明は、非特許文献２に開示されている、"multichannel MMSE-STSA estimator"と"multichannel MMSE log-STSA estimator"のようなポストフィルタリングにも適用し得る。

本発明の１つの実施態様は、上記推定値を用いた多チャネルWienerフィルタ設計に係るものである。より具体的には、
複数のマイクロフォンで受信された複数の観測信号を最小分散ビームフォーマで処理するステップと、
最小分散ビームフォーマの出力をWienerポストフィルタで処理するステップと、
を備えた音響信号処理方法において、
Wienerポストフィルタを上記推定法によって推定された目的信号のパワースペクトルを用いて設計することを特徴とする。

拡散性雑音を抑圧しうる枠組みである多チャネルWienerフィルタは、最小分散ビームフォーマとWienerポストフィルタの2段に分解できるが、後者の設計においては目的信号のパワースペクトルの精確な推定が非常に重要である。上記のクロススペクトルの虚部を用いた推定法により得られる推定値を用いることで、Wienerポストフィルタの適切な設計が可能である。
本発明の推定法で得られた目的信号のパワースペクトルの推定値を用いて多チャネルWienerフィルタを設計する新しい手法を構築することで、波長に対して大きいアレイや、雑音コヒーレンスの事前知識を用いなくても拡散性雑音を効果的に抑圧することを可能とし、マイクロフォンアレイの適用範囲を大きく拡大するものと考えられる。

本発明に係る推定法で推定された目的信号のパワースペクトルの適用は、「ビームフォーミング→時間周波数マスク」という音響信号処理（雑音抑圧）の枠組みに限定されるものではない。
１つの態様では、上記枠組みの順番を逆にして、時間周波数マスクを適用してから、ビームフォーミングを適用するものでもよく、推定された目的信号のパワースペクトルは当該時間周波数マスクの設計に用いられる。
１つの態様では、目的信号のパワースペクトル推定値を用いて時間周波数マスクを設計し、時間周波数マスクのみを用いて（ビームフォーミングを用いないで）雑音抑圧を行うことも可能である。

本発明は、複数のマイクロフォンで受信された複数の観測信号の処理装置としても提供され、
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得する手段（クロススペクトル計算部）と、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する手段（パワースペクトル計算部）と、
を備えた音響信号処理装置、である（図４Ａ参照）。
本発明の各ステップや各手段を実行するハードウエア構成としては、パーソナルコンピュータ等のコンピュータ（具体的には、入力部、出力部（表示部を含んでいても良い）、ＣＰＵ、記憶装置（ＲＯＭ、ＲＡＭ等）、これらを接続するバス等、を備えている。）から構成することができる。
したがって、本発明は、
複数のマイクロフォンで受信された複数の観測信号から、目的信号のパワースペクトルを推定するためにコンピュータを、
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得する手段と、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する手段と、
して実行させるためのコンピュータプログラムとしても提供される。
後述する本発明の１つの実施形態では、目的信号の音源位置は既知と仮定し、その情報を用いて計算できるステアリングベクトルと、上記モデルに基づいて取得された目的信号のチャネル間クロススペクトルの虚部と、を用いて、目的信号のパワースペクトルを推定しているが、本発明の目的、精神を逸脱しない範囲で、数々の改良・変形を行なうことができ、これらの改良・変形が本発明の特許請求の範囲に含まれることが当業者に理解される。
例えば、目的信号の音源位置が未知の問題設定の下、目的信号の音源位置と共に目的信号のパワーススペクトルを推定してもよい。
また、本発明は、拡散性雑音の低減という精神に反しない範囲において、虚部以外の部分、すなわち実部を一部に用いることを排除するものではない。例えば、目的信号のパワースペクトルの推定において、虚部及び実部を用いる手法（例えば、非特許文献５）と組み合わせて目的信号のパワースペクトルを推定してもよい。
本発明に係る拡散性雑音を低減するという技術思想は、典型的には周波数領域において実施されるが、本発明に係るこの技術思想を時間領域で実施することもできる。すなわち、本発明の１つの態様は、
複数のマイクロフォンで受信された複数の観測信号のチャネル間相互相関関数を取得するステップと、
観測信号のチャネル間相互相関関数の奇関数成分を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間相互相関関数の奇関数成分と、目的信号から各マイクロフォンで受信された観測信号へのインパルス応答と、を用いて目的信号の自己相関関数を推定するステップと、
を備えた音響信号処理方法、である。
また、時間領域で実施する本発明は、
複数のマイクロフォンで受信された複数の観測信号のチャネル間相互相関関数を取得する手段と、
観測信号のチャネル間相互相関関数の奇関数成分を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間相互相関関数の奇関数成分と、目的信号から各マイクロフォンで受信された観測信号へのインパルス応答と、を用いて目的信号の自己相関関数を推定する手段と、
を備えた音響信号処理装置、及び、上記各ステップないし各手段を、実行させるためのコンピュータプログラムとしても提供される。

本発明によれば、背景雑音や室内残響などの拡散性雑音を、特別なアレイ配置に依存することなく、実用性が高い小サイズのマイクロフォンアレイを用いて抑圧することができる。
本発明では、等方性の雑音のクロススペクトルは実数であることに基づき、観測信号のクロススペクトルの虚部を取ることによって雑音の寄与を排除し、目的信号のパワースペクトルを高精度に推定することができる。
例えば、Wienerポストフィルタを設計する際には、目的信号のパワースペクトルを精度よく推定することが重要であり、本発明に係る推定法で得られた目的信号のパワースペクトルは、Wienerポストフィルタ等の設計に良好に適用することができる。

非特許文献１に開示されたWienerポストフィルタリングを示す図である。非特許文献５に開示されたパワースペクトルφ_ssの推定法を示す図である。本発明のアプローチを示す概念図である。本発明に係るパワースペクトル推定を示す概念図である。本発明に係るパワースペクトル推定を示す概略図である。実験で用いた音源とマイクロフォンアレイの配置構成を示す図である。アレイ長の関数としての出力SN比を示す図である。マイクロフォン数の関数としての出力SN比を示す図である。本発明の実施形態に係る手法と従来手法による雑音抑制を、スペクトログラムを用いて比較する図である。上から、(a)目的信号、(b)観測信号（SNR:0.0dB）、(c)最小分散ビームフォーマ（SNR:6.4dB）、(d)Zelinski法（SNR:6.6dB）、(e)本実施形態による手法（SNR:7.8dB）、である。

[Ａ]記法
本明細書においては、複素共役を^＊、転置を^Ｔ、Hermite転置を^Ｈで表す。信号は短時間Fourier変換（STFT）領域で表現し、フレーム番号、角周波数をそれぞれτ、ωで表す。スカラーの信号α(τ，ω)、β(τ，ω)のクロススペクトルを、
零平均のベクトルの信号γ(τ，ω)の共分散行列を
と表記する（Ｅ[・]：期待値）。

［Ｂ］観測モデル
拡散性雑音の存在下で既知の方向から到来する目的信号をＭ素子からなるアレイで観測するとする。各マイクロフォンで受信された観測信号を並べたベクトルをｘ（τ，ω）∈Ｃ^Ｍ、基準点（アレイの重心など）における目的信号成分をｓ（τ，ω）、ステアリングベクトル（既知）をｄ（ω）∈Ｃ^Ｍ、各マイクロフォンにおける拡散性雑音成分を並べたベクトルをｖ（τ，ω）∈Ｃ^Ｍと書く。このとき観測モデルは
と書ける。
ここで、
である。但し、ｘ_m(τ,ω)はｍ番目のマイクロフォンで受信された観測信号を表す。ｄ（ω）、ｖ（τ，ω）の要素も上記のｘ（τ，ω）の場合と同様に定義される。ここで、ｄ（ω）について言うと、ベクトルd(ω)がステアリングベクトルであり、その第ｍ要素d_m(ω)が目的信号からｍ番目のマイクロフォンで受信された観測信号への伝達関数となる。
ｓ（τ，ω）とｖ（τ，ω）は零平均・無相関と仮定すると、ｘ（τ，ω）は零平均で共分散行列は
となる。
ここで、φ_ss(τ,ω)＝E[|s(τ,ω)|²]は目的信号のパワースペクトルである。

［Ｃ］多チャネルWienerフィルタ
［Ｃ−１］MVDRビームフォーマ（最小分散ビームフォーマ）
適応ビームフォーマの１つであるMVDR(Minimum Variance Distortionless Response)ビームフォーマの出力は、
で表される。
MVDRビームフォーマは、雑音が少数の点音源からのみ到来する場合には、指向性の零点をそれらに向けて非常に効果的に抑圧を行う。一方、あらゆる方向から雑音が到来する拡散性の雑音環境においては、性能は大きく低下する。

［Ｃ−２］Wienerポストフィルタ
多チャネルWienerフィルタ(multichannel Wiener filter)は、
で与えられる。
ここで、MVDRビームフォーマの出力
のパワースペクトルは、
で表され、
多チャネルWienerフィルタは、次のようにMVDRビームフォーマとWienerポストフィルタ(post-filter)と呼ばれる時間周波数マスクに分解することができることが知られている。

すなわち、多チャネルWienerフィルタは、最小分散ビームフォーマの出力を、Wienerポストフィルタ（時間周波数マスク）
で後処理する枠組みである。

このように、多チャネルWienerフィルタは、指向性制御による雑音抑圧の後、更に時間周波数マスキングによりSN比の低い時間周波数成分を抑圧する枠組みであり、指向性制御による抑圧が不十分な拡散性雑音に対しても有効であると考えられる。
拡散性雑音は指向性制御だけでは十分に抑圧できないが、最小分散ビームフォーマの出力を更にWienerポストフィルタ（時間周波数マスクの一種）により後処理する枠組みは効果的であり、平均二乗誤差規範で最適であることも示されている（非特許文献１）。
Wienerポストフィルタ(8)の設計においては、目的信号のパワースペクトルφ_ｓｓ（τ，ω）を、雑音の重畳した観測信号から精度よく推定することが重要である。

［Ｄ］本実施形態に係るポストフィルタ設計法
［Ｄ−１］目的信号のパワースペクトルの推定
以下において、
φ_xmxn：観測信号のチャネル間クロススペクトル、
φ_ssd_md_n ^*:目的信号のチャネル間クロススペクトル、
φ_vmvn:雑音のチャネル間クロススペクトル、
とする。
拡散性雑音が等方的であり、チャネル間クロススペクトルがマイクロフォン間の距離のみで決まると仮定すると、任意のマイクロフォン対に対して、
が成り立つ。

これは拡散性雑音のクロススペクトルは実数でモデル化できることを意味する。一方、特定方向から到来する目的信号に対しては、クロススペクトルは到来時間差で決まる位相を持ち、実数とは限らないため、理想的には観測信号のクロススペクトルの虚部は、
のように目的信号成分のみからなる。ここで、
である。

式(10)から最小二乗法に基づき、φ_ｓｓ（τ，ω）を
により推定する。
ここで、目的信号は平面波として伝搬するという仮定に基づき、d_m(ω)=e^{-jωδm}とした。また、Σはｍ、ｎに関する和、δ_ｍはｍ番目のマイクロフォンに対する、基準点（例えば、アレイの重心）を基準とした目的信号の時間遅れである。

［Ｄ−２］Wienerポストフィルタの設計
上述のように、Wienerポストフィルタの分子である目的信号のパワースペクトルφ_ｓｓ（τ，ω）が推定される。
一方、Wienerポストフィルタの分母であるビームフォーマの出力、すなわち、ポストフィルタの入力のパワースペクトルφ_ｙｙ(τ,ω)はZelinskiの推定法（非特許文献５参照）
により推定することができる。
したがって、
が本実施形態による提案法に係るポストフィルタ設計である。
なお、ｐ（τ，ω）は０≦ｐ（τ，ω）≦１を満たすから、上記ポストフィルタ設計ｐ＾（τ，ω）もこれを満たすように、次の簡単な後処理を行う。

［Ｆ］実験
［Ｆ−１］実験条件
提案法の有効性を確認するためにシミュレーションを行った。図５に音源とアレイの配置を示す。マイクロフォンは直線上に等間隔に配置した。水平面内の等間隔64方向から平均パワーの等しい、異なる音声の平面波を重畳してカクテルパーティーの状況を模擬した。一方、目的信号としてアレイの軸方向から音声の平面波を加えた。音声データはATR音声データベースBセット(A. Kurematsu
et al., Speech Commun., vol. 9, no. 4, pp. 357-363, 1990.8)の連続音声を用いた。観測信号のSN比が1番目のマイクロフォンにおいて0.0dBとなるように、雑音と目的信号のパワー比を定めた。ここで、本明細書におけるSN比の定義は、波形をベクトルと見なしたときの目的信号方向成分とその直交成分のパワー比であり、雑音抑圧量だけでなく目的信号の歪みも考慮に入れた尺度であることに注意する。データ長は4.096sec、サンプリング周波数は16kHzとし、STFTにおいてはフレーム長512、フレームシフト16とし、窓関数はHamming窓を用いた。
最小分散ビームフォーマ(4)のためのΦ_ｘｘは、ｘ（τ，ω）ｘ^Ｈ（τ，ω）の全フレームに亘る時間平均により求めた。一方、ポストフィルタのためのφ_ｘｍｘｎ（τ，ω）は、ｘ_ｍ（τ，ω）ｘ_ｎ ^＊（τ，ω）を32フレーム毎に時間平均して求めた。
目的信号はその到来方向から平面波として伝播すると仮定し、d(ω)は、既述の平面波の場合の計算法により計算した。

［Ｆ−２］結果
図６はアレイ長に対して出力SN比をプロットしたものである。マイクロフォン数は4とした。提案法、Zelinski法、最小分散ビームフォーマ単独（ポストフィルタなし）の3手法を比較した。また、実際には得られない、各マイクロフォンにおける目的信号及び雑音の情報を用いて設計した理想的なWienerポストフィルタの結果も参考のため示す。図６から分かるように、アレイ長が大きい場合（約30cm以上）には提案法とZelinski法は同等の性能を示すが、アレイ長が小さくなると、Zelinski法は性能が低下して最小分散ビームフォーマ単独の性能に近付いて行くのに対し、提案法の性能はほぼ不変である。これは、Zelinski法は雑音の無相関性を仮定しているため、アレイサイズが小さいと高い雑音相関のために上手く働かないと説明できる。

また、アレイサイズと並んでマイクロフォンの個数も実用上重要であるが、図７に示すように、提案手法はマイクロフォン数が小さい場合にも良好な性能を示す。（アレイ長は6cmとした。）

図８はスペクトログラムの例である。上から、(a)目的信号、(b)観測信号（SNR:0.0dB）、(c)最小分散ビームフォーマ（SNR:6.4dB）、(d)Zelinski法（SNR:6.6dB）、(e)本実施形態による提案法（SNR:7.8dB）、である。Zelinski法は雑音相関が高い低域では雑音抑圧が不十分であるが、提案法は全帯域で雑音を抑圧している。

以上述べてきたように、拡散性雑音抑圧のためのWienerポストフィルタの新しい設計法として、チャネル間クロススペクトルの虚部を用いた目的信号のパワースペクトルの推定に基づく方法を提案した。本手法は任意配置かつ小サイズのアレイに対して適用できる。実験により提案法がZelinski法よりも高いSN比を与えること、アレイサイズによらず有効であることが示された。

［Ｇ］その他の実施形態１
観測信号のチャネル間クロススペクトルの実部を一部に用いる推定法について説明する。
本セクションを含むその他の実施形態では数式番号はセクション毎に独立に付与する。
上記実施形態では、チャネル間クロススペクトルの間の関係式
において、雑音のチャネル間クロススペクトルφ_vmvn(τ,ω)が実数であるという仮定の下、両辺の虚部を取ると、雑音項が消え、
となる。式(2)の両辺の二乗誤差
を最小化するφ_ss(τ,ω)を求めることにより、最小二乗推定値
を得る。

Zelinski法では、チャネル間クロススペクトルの間の関係式(1)において、雑音のチャネル間クロススペクトルφ_vmvn(τ,ω)が0であると仮定すると、
となる。式(5)の両辺の二乗誤差
を最小化するφ_ss(τ,ω)を求めることにより、最小二乗推定値
を得る。

上記の実施形態に係る手法では、虚部を取ることにより雑音の寄与を効果的に低減できるが、条件によっては分母が0になる（零割り）という問題が起きていた。一方、Zelinski法は虚部を取らない（つまり虚部も使うし、実部も使う）ので、雑音の影響を大きく受けるが零割りは起きない。そこで、雑音の寄与を効果的に低減できるという上記実施形態に係る手法の長所を活かしつつ、零割りが起きないというZelinski法の特徴を兼ね備えた、ハイブリッド型の手法を提案する。

式(5)の実部と虚部は、それぞれ
である。式(8)、(9)の両辺の二乗誤差は、それぞれ
である。
雑音の寄与を効果的に低減できるという上記実施形態に係る手法の長所を減殺しないためには、「主に虚部を見るが、実部も少しは見る」ような推定値を得ることが必要となり、例えば、
のように、式(11)に大きな重みをかけた評価関数を考えればよい。このような評価関数を考えることにより、虚部を重視し、実部を軽視する（全く考慮しないのではなく、少しは考慮する）ような推定値が得ることができる。

式(12)を一般化すると、
となる。ここで、a_R、a_Iはそれぞれ、実部、虚部をどの程度重要視するかを表す係数であり、a_I＞a_R＞0である。
式(13)を最小化するφ_ss(τ,ω)を求めることにより、ハイブリッド型推定法の推定値
を得る。
式(13)の評価関数は、a_R＝0とおくと、実部を全く見ない、即ち、虚部だけを見ることになり、評価関数(13)は評価関数(3)に定数倍を除き一致する。
本実施形態において、雑音の寄与を効果的に低減できるという長所を減殺しないためには、１つの望ましい態様では、係数a_Rと係数a_Ｉとの比率は、1:10であるが、拡散性雑音成分を低減できるという本発明の精神を損なわない範囲において、係数a_Rと係数a_Ｉとの比率を、a_I＞a_R＞0の範囲で適宜設定できることが当業者に理解される。

式(14)の新しい推定法では零割りが起きないことを確認するために、式(14)の分母を次のように変形する：
これは、a_R，a_I＞0より、必ず正であり、したがって、零割りは起きない。
本セクションで述べたハイブリッド型の推定法は、φ_xmxnの虚部を取って、I[φ_xmxn]を得ることに加えて、φ_xmxnの実部を取って、R[φ_xmxn]を得ることを含み、I[φ_xmxn]、R[φ_xmxn]を用いて、φ_ssの推定値を式(14)に従って計算する際に、前者を後者より重視することで、拡散性雑音の寄与を低減するものである。すなわち、本セクションの推定法は、観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する方法において、部分的に観測信号のチャネル間クロススペクトルの実部を用いるものであって、請求項１の技術的範囲に属するものである。

［Ｈ］その他の実施形態２
multichannel MMSE-STSA/log-STSA estimatorのポストフィルタの設計法について説明する。
［Ｈ−１］multichannel MMSE-STSA estimator
multichannel MMSE-STSA estimatorは、
のように、MVDRビームフォーマの出力に対してポストフィルタp^STSA(τ,ω)を適用するポストフィルタリング手法である。ここで、ポストフィルタp^STSA(τ,ω)は次式で与えられる。
但し、Γ(・)はガンマ関数、I₀(・)，I₁(・)はそれぞれ0次、1次の修正Bessel関数である。
また、
であり、式(4)の分母のφ_v´v´(τ,ω)について言えば、v´(τ,ω)はMVDRビームフォーマの出力における雑音成分
である。従って、p^STSA(τ,ω)を設計するためには、φ_ss(τ,ω)、φ_yy(τ,ω)、φ_v´v´(τ,ω)を推定する必要がある。

［Ｈ−２］multichannel log-STSA estimator
multichannel log-STSA estimatorは、
のように、MVDRビームフォーマの出力に対してポストフィルタp^log(τ,ω)を適用するポストフィルタリング手法である。ここで、ポストフィルタp^log(τ,ω)は次式で与えられる。
従って、p^log(τ,ω)を設計するためには、p^STSA(τ,ω)の場合と同様、φ_ss(τ,ω)、φ_yy(τ,ω)、φ_v´v´(τ,ω)を推定する必要がある。

［Ｈ−３］設計法
φ_ss(τ,ω)、φ_yy(τ,ω)は、Wienerポストフィルタの場合と同様に推定できる。そこで本節では、φ_v´v´(τ,ω)の推定法を述べる。
MVDRビームフォーマの出力y(τ,ω)は、
と表せる。従って、信号と雑音の無相関性より
が成り立つことに注意すると、次式のように、MVDRビームフォーマの出力のパワースペクトルは、目的信号のパワースペクトルと雑音成分v´(τ,ω)のパワースペクトルの和となる。
式(12)より、
であるから、
により推定する。ここで、φ＾_ss(τ,ω)、φ＾_yy(τ,ω)は、それぞれφ_ss(τ,ω)、φ_yy(τ,ω)の推定値である。ここで、φ_ss(τ,ω)、φ_yy(τ,ω)の推定については、Wienerポストフィルタの設計におけるφ_ss(τ,ω)、φ_yy(τ,ω)の推定の記載を援用することができる。

［Ｉ］その他の実施形態３
本発明について、周波数領域における実施に基づいて説明してきたが、本発明に係る技術思想を時間領域で実施することもできる。以下に、自己相関関数推定の実施の形態について説明する。
時間領域での観測モデルは、
と書ける。ここで、x_m,l[t]，s_m,l[t]，v_m,l[t]は、それぞれm番目のマイクロフォンにおける観測信号、目的信号成分、拡散性雑音成分であり、lはフレーム番号、tはサンプル番号、Nはフレーム長である。フレーム内で信号は定常的であるとすると、観測信号、目的信号、拡散性雑音のチャネル間相互相関関数は、
のようにタイムラグτのみの関数であると仮定できる。但し、0≦t≦N-1，0≦t+τ≦N-1であり、R_xmxn,l[τ]，R_smsn,l[τ]，R_vmvn,l[τ]の定義域は-(N-1)≦τ≦N-1であり、E{・}は期待値である。目的信号成分と拡散性雑音成分は無相関と仮定すると、
であるから、チャネル間相互相関関数の間には次の関係式が成立する。
式(4)より、

が成り立つ。一方、拡散性雑音は等方的であり、そのチャネル間相互相関関数は、対応するマイクロフォン間の距離のみで決まるとすると、次式が成り立つ。
式(9)、(10)より、
を得る。この式は、拡散性雑音のチャネル間相互相関関数は、偶関数でモデル化できることを意味する。

雑音のチャネル間相互相関関数は偶関数であるという上記のモデルに基づくと、式(6)の奇関数成分は次のようにノイズフリーとみなせる。
ここで、
は、奇関数成分を表し、例えば、
については、
となる。

S_m,l[t]は、基準点（アレイの重心など）における目的信号成分s_l[t]を用いて、次のように近似できる。
ここで、h_m[t](−N＋1≦t≦N−1)は目的信号からm番目のマイクロフォンへのインパルス応答である。従って、τ≧0のとき、
となる。ここで、
は目的信号s_l[t]の自己相関関数である。u＝t´´−t´，u´＝t´´と変数変換すると、
となる。一方、τ＜0のとき、
となる。ここで、u＝t´´−t´，u´＝t´´と変数変換すると、
となる。

以上より、R_smsn,l[τ]は次のように表される。
ここで、
である。式(28)の奇関数成分を取ると、
となる。但し、
である。

式(12)、(30)より、
を得る。この式を行列形式で書くと、
となる。ここで、
である。式(33)の両辺の二乗誤差を
により定義する。ここで||・||₂は2ノルムである。上式をξ_lにより微分して0とおくと、
を得る。これをξ_lについて解くと、ξ_lの最小二乗推定値
を得る。G_mnは式(35)に従って、g_mn[τ,u]から計算されるが、このg_mn[τ,u]は、インパルス応答h_m[t]から式(29)に従って計算される。また、η_mn,lは式(34)に従って、観測信号のチャネル間相互相関関数R_xmxn,l[τ]から計算されるが、このR_xmxn,l[τ]は観測信号から計算できることは当業者に理解される。ξ＾_lの要素として、目的信号の自己相関関数R_ss,l[τ](−N＋1≦τ≦N−1)の推定値が得られる。
なお、本実施形態は、拡散性雑音の低減という精神に反しない範囲において、奇関数成分以外の部分、すなわち偶関数成分を一部に用いることを排除するものではない。

本発明は、周囲の様々な方向から雑音が到来するような環境で、目的方向から到来する信号を取得する枠組みを与えるものであり、空港、駅の構内、パーティ会場など、人がたくさん存在する環境や、工場のように機械音に囲まれている環境、車内など、壁や窓が常時振動し、大面積の雑音源に囲まれた空間など、従来のアレイ信号処理の適用が困難な環境での、音声認識や音によるモニタリングに大きな効用があると考えられる。

Claims

複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得するステップと、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定するステップと、
を備えた音響信号処理方法。
前記伝達関数は、各マイクロフォンに対する目的信号の時間遅れから取得される、請求項１に記載の音響信号処理方法。
目的信号のパワースペクトルの推定は、最小二乗法で行なう、請求項１、２いずれかに記載の音響信号処理方法。
目的信号のパワースペクトルの推定は、最尤法で行なう、請求項１、２いずれかに記載の音響信号処理方法。
前記目的信号のパワースペクトルを推定するステップは、部分的に観測信号のチャネル間クロススペクトルの実部を用いることを含む、請求項１乃至４いずれかに記載の音響信号処理方法。
複数のマイクロフォンで受信された複数の観測信号をビームフォーマで処理するステップと、
ビームフォーマの出力を時間周波数マスクで処理するステップと、
を備えた音響信号処理方法において、
前記時間周波数マスクを、少なくとも、ビームフォーマの出力のパワースペクトルの推定値と、請求項１乃至５いずれかの方法で推定された目的信号のパワースペクトルと、を用いて設計することを特徴とする音響信号処理方法。
前記ビームフォーマは、適応ビームフォーマである、請求項６に記載の音響信号処理方法。
前記適応ビームフォーマは、最小分散ビームフォーマである、請求項７に記載の音響信号処理方法。
前記時間周波数マスクは、Wienerポストフィルタであり、
で設計される請求項６乃至８いずれかに記載の方法。
ここで、
φ＾_ss(τ,ω)は、目的信号のパワースペクトルの推定値であり、
φ＾_yy(τ,ω)は、ビームフォーマの出力のパワースペクトルの推定値である。
複数のマイクロフォンで受信された複数の観測信号を最小分散ビームフォーマで処理するステップと、
最小分散ビームフォーマの出力をWienerポストフィルタで処理するステップと、
を備えた音響信号処理方法において、
Wienerポストフィルタを、請求項１乃至５いずれかの方法で推定された目的信号のパワースペクトルを用いて、
にしたがって設計することを特徴とする音響信号処理方法。
ここで、
φ＾_ss(τ,ω)は、目的信号のパワースペクトルの推定値であり、
φ＾_yy(τ,ω)は、最小分散ビームフォーマの出力のパワースペクトルの推定値である。
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得する手段と、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する手段と、
を備えた音響信号処理装置。
複数のマイクロフォンで受信された複数の観測信号から、目的信号のパワースペクトルを推定するためにコンピュータを、
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルを取得する手段と、
観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する手段と、
して実行させるためのコンピュータプログラム。
複数のマイクロフォンで受信された複数の観測信号のチャネル間クロススペクトルの虚部を取ることによって拡散性雑音の寄与を低減し、得られた観測信号のチャネル間クロススペクトルの虚部を、目的信号のチャネル間クロススペクトルの虚部の推定値とする、音響信号処理方法。
さらに、前記観測信号のチャネル間クロススペクトルの虚部と、目的信号から各マイクロフォンで受信された観測信号への伝達関数と、を用いて目的信号のパワースペクトルを推定する、
請求項１３に記載の音響信号処理方法。
複数のマイクロフォンで受信された複数の観測信号のチャネル間相互相関関数を取得するステップと、
観測信号のチャネル間相互相関関数の奇関数成分を取ることによって拡散性雑音の寄与を低減し、観測信号のチャネル間相互相関関数の奇関数成分と、目的信号から各マイクロフォンで受信された観測信号へのインパルス応答と、を用いて目的信号の自己相関関数を推定するステップと、
を備えた音響信号処理方法。
複数のマイクロフォンで受信された複数の観測信号のチャネル間相互相関関数の奇関数成分を取ることによって拡散性雑音の寄与を低減し、得られた観測信号のチャネル間相互相関関数の奇関数成分を、目的信号の自己相関関数の奇関数成分の推定値とする、音響信号処理方法。