JP2015019184A

JP2015019184A - ノイズ抑圧装置、ノイズ抑圧方法、及びそのプログラム

Info

Publication number: JP2015019184A
Application number: JP2013144099A
Authority: JP
Inventors: 江村　暁; Akira Emura; 暁江村; 祐介日和▲崎▼; Yuusuke Hiwazaki; 仲大室; Naka Omuro
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-07-10
Filing date: 2013-07-10
Publication date: 2015-01-29
Anticipated expiration: 2033-07-10
Also published as: JP5762478B2

Abstract

【課題】マルチチャネル信号処理におけるノイズ抑圧時に生じる歪みを従来よりも低減できるノイズ抑圧装置、ノイズ抑圧方法、及びそのプログラムを提供する。
【解決手段】ノイズ抑圧装置は、複数のマイクロホンを設置した地点で取得した音波面を、複数のスピーカを設置した地点で再合成するものとし、周波数と波数との組合せ毎に、波数領域の入力信号のノイズレベルを推定するノイズレベル推定部と、周波数と波数との組合せ毎に、波数領域の入力信号と、波数領域のノイズレベルの推定値との比に基づきノイズ抑圧ゲインを求め、波数領域の入力信号にノイズ抑圧ゲインを乗じ、波数領域のノイズ抑圧処理済みの出力信号を求めるノイズ抑圧ゲイン算出適用部とを含み、入力信号は複数のマイクロホンで収音する複数のチャネルの収音信号に対応する信号であり、出力信号は複数のスピーカで再生する複数のチャネルの再生信号に対応する信号である。
【選択図】図４

Description

本発明は、マルチチャネル信号処理においてノイズを抑圧するノイズ抑圧装置、ノイズ抑圧方法、及びそのプログラムに関する。

音声会議装置やテレビ会議装置では、マイクロホンで収音された信号（以下、「収音信号」ともいう）に、通常ノイズ抑圧処理を適用している。特許文献１がノイズ抑圧の従来技術として知られている。

ノイズ抑圧処理の概要を、図１を用いて説明する。収音信号ｕ（ｎ）は、短時間フーリエ変換部１１１により、時間領域から周波数領域へ変換される。なお、ｎはサンプル及びそのサンプルに対応する時刻のインデックスを表す。周波数のインデックスをｆ、フレームのインデックスをｉとし、周波数領域の収音信号をＵ（ｆ，ｉ）と表す。ここではＦ＋１個の周波数帯域に分割されるとし、ｆ＝１，２，…，Ｆ＋１である。特定周波数ノイズ抑圧部１１５_ｆ内では、ノイズレベル推定部１１５７において数秒〜数十秒間分の収音信号Ｕ（ｆ，ｉ）からノイズレベルＮ（ｆ，ｉ）を推定する。

そして、ノイズ抑圧ゲイン算出適用部１１５８では、ノイズレベルＮ（ｆ，ｉ）と収音信号Ｕ（ｆ，ｉ）の瞬時レベルとからノイズ抑圧ゲインＧ（ｆ，ｉ）を求める。ただし、０≦Ｇ（ｆ，ｉ）≦１となるように、ノイズ抑圧ゲインＧ（ｆ，ｉ）を求める。さらに、ノイズ抑圧ゲイン算出適用部１１５８は、収音信号Ｕ（ｆ，ｉ）にノイズ抑圧ゲインＧ（ｆ，ｉ）を乗じ、ノイズ抑圧処理を施した周波数領域の出力信号Ｖ（ｆ，ｉ）を出力する。短時間逆フーリエ変換部１１４では、Ｆ個の周波数領域の出力信号Ｖ（ｆ，ｉ）から、時間領域の出力信号ｖ（ｎ）を求める。この入力と出力のスペクトルの例を図２に示す。ノイズレベルＮ（ｆ，ｉ）が高精度に推定されていれば、出力信号Ｖ（ｆ，ｉ）のスペクトルはノイズを除いた本来のスペクトルに非常に近くなる。

マルチチャネル信号処理においてノイズを抑圧する場合、上記の１チャネル信号用のノイズ抑圧の構成をチャネル数分だけ用意して、チャネル毎にノイズ抑圧処理を行う方法が考えられる。

特開平９−２５８７９２号公報

近年、マルチチャネル再生技術は、チャネル数拡大の方向へ、例えば、ステレオ再生から５．１チャネル再生へと進んでいる。さらに高い立体感で音が再生されるリスニングエリアを大幅に拡大する技術として、波面合成法（Wave Field Synthesis （以下「ＷＦＳ」ともいう））の研究が進められている。ＷＦＳでは、数十以上のマイクロホン、数十以上のスピーカを用いて、ある地点での音波面を取得し、別の地点で再合成する。このようなＷＦＳ収音再生技術として、波面再構成フィルタが提案されている（参考文献１参照）。
（参考文献１）小山翔一著、「音場再現技術における数理問題 : 波面合成・高次アンビソニックスの数理」、日本音響学会誌、２０１２年、Ｖｏｌ．６８、Ｎｏ．１１，ｐｐ．５８４−５８９．

このＷＦＳ収音再生において、ノイズ抑圧を行なうことを考える。従来法を適用した場合、各チャネルは独立にノイズ抑圧処理されるために、チャネル毎にノイズ抑圧の効果がばらついてしまう。そのため再生信号の左右のバランス（もしくは空間的なバランス）は本来のバランスとは異なる。再生信号のバランスと本来のバランスとの乖離が大きいときに受聴者の知覚する音像が揺らいでしまう。

チャネル毎にノイズ抑圧の効果がばらついてしまうのは、ノイズレベルの推定の精度が均一でないためである。ノイズレベルの推定では、ノイズ成分として定常的な信号を仮定し、対象成分としてノイズレベルの変動の大きい信号を仮定する。そして、対象成分とノイズ成分が混在した信号のみからノイズレベルを推定する。

しかし、実際の対象信号（収音信号に対応する信号）は完全に定常的ではなく非定常な成分も含むために、ノイズレベルの真値と推定値は完全には一致しない。そして、ノイズレベルが実際よりも大きく推定される場合、ＳＮ比が低いチャネルほど対象成分が相対的に大きく削られて歪みが大きくなる。

本発明は、マルチチャネル信号処理におけるノイズ抑圧時に生じる歪みとチャネルごとのばらつきを従来よりも低減できるノイズ抑圧装置、ノイズ抑圧方法、及びそのプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、ノイズ抑圧装置は、複数のマイクロホンを設置した地点で取得した音波面を、複数のスピーカを設置した地点で再合成するものとし、周波数と波数との組合せ毎に、波数領域の入力信号のノイズレベルを推定するノイズレベル推定部と、周波数と波数との組合せ毎に、波数領域の入力信号と、波数領域のノイズレベルの推定値との比に基づきノイズ抑圧ゲインを求め、波数領域の入力信号にノイズ抑圧ゲインを乗じ、波数領域のノイズ抑圧処理済みの出力信号を求めるノイズ抑圧ゲイン算出適用部とを含み、入力信号は複数のマイクロホンで収音する複数のチャネルの収音信号に対応する信号であり、出力信号は複数のスピーカで再生する複数のチャネルの再生信号に対応する信号である。

上記の課題を解決するために、本発明の第二の態様によれば、ノイズ抑圧方法は、複数のマイクロホンを設置した地点で取得した音波面を、複数のスピーカを設置した地点で再合成するものとし、周波数と波数との組合せ毎に、波数領域の入力信号のノイズレベルを推定するノイズレベル推定ステップと、周波数と波数との組合せ毎に、波数領域の入力信号と、波数領域のノイズレベルの推定値との比に基づきノイズ抑圧ゲインを求め、波数領域の入力信号にノイズ抑圧ゲインを乗じ、波数領域のノイズ抑圧処理済みの出力信号を求めるノイズ抑圧ゲイン算出適用ステップとを含み、入力信号は複数のマイクロホンで収音する複数のチャネルの収音信号に対応する信号であり、出力信号は複数のスピーカで再生する複数のチャネルの再生信号に対応する信号である。

本発明によれば、マルチチャネル信号処理におけるノイズ抑圧時に生じる歪みを従来よりも低減できる。

ノイズ抑圧処理の概要を説明するための図。ノイズ抑圧処理の入力と出力のスペクトルを説明するための図。第一実施形態に係るノイズ抑圧装置の配置図。第一実施形態に係るノイズ抑圧装置の機能ブロック図。第一実施形態に係るノイズ抑圧装置の処理フローを示す図。第一実施形態の効果を説明するための図。第一実施形態に係るノイズ抑圧装置の第一変形例の機能ブロック図。第一実施形態に係るノイズ抑圧装置の第二変形例の配置図。第一実施形態に係るノイズ抑圧装置の第一変形例と第二変形例とを組み合わせた場合の機能ブロック図。第一実施形態に係るノイズ抑圧装置と伝送機能もしくは蓄積再現機能を組み合わせた場合の構成を説明するための図。第一実施形態に係るノイズ抑圧装置の第二変形例の構成と蓄積再現機能を組み合わせた場合の構成を説明するための図。単一周波数波の平面波のサンプリングの様子を示す図。空間エリアシングが生じる様子及び生じない様子を示す図。第三実施形態に係るノイズ抑圧装置の機能ブロック図。第三実施形態に係るノイズ抑圧装置の処理フローを示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、テキスト中で使用する記号「_」は、本来直前の文字の真下に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態に係るノイズ抑圧装置２００＞
本実施形態では、チャネル毎ではなく、方向毎にノイズを抑圧する。

図３は第一実施形態に係るノイズ抑圧装置２００の配置図を、図４は第一実施形態に係るノイズ抑圧装置２００の機能ブロック図を、図５はその処理フローを示す。

Ｐ個のマイクロホンｍ_ｐを用いて音場を収録する。ただし、ｐ＝１，２，…，Ｐである。ノイズ抑圧装置２００は、Ｐ個のマイクロホンで収音されたＰチャネルの収音信号ｕ（ｐ，ｎ）を受け取り、ノイズ抑圧処理を施し、Ｐチャネルの出力信号ｖ（ｐ，ｎ）を出力する。ｎは時刻を表す。

波面再構成フィルタ９０は、Ｐチャネルの出力信号ｖ（ｐ，ｎ）を受け取り、フィルタリングを行い、Ｐチャネルの再生信号ｙ（ｐ，ｎ）を出力する。Ｐ個のスピーカｓ_ｐで再生信号ｙ（ｐ，ｎ）を再生する。なお、波面再構成フィルタ９０は、Ｐチャネルの収音信号ｕ（ｐ，ｎ）に対応する信号（本実施形態では、Ｐチャネルの出力信号ｖ（ｐ，ｎ））から、ＷＦＳにより、各スピーカｓ_ｐの再生信号に対応する信号（本実施形態では、Ｐチャネルの再生信号ｙ（ｐ，ｎ））を得るものであればよく、例えば、参考文献１に記載の方法が考えられる。つまり、波面再構成フィルタ９０は、ある地点（複数のマイクロホンを設置した地点）で取得した音波面を、別の地点（複数のスピーカを設置した地点）で再合成するように、複数のマイクロホンで収音した収音信号をフィルタリングし、複数のスピーカで再生する複数の再生信号を求めるためのフィルタである。なお、本実施形態のノイズ抑圧装置２００は、チャネル毎ではなく、方向（波面、波数）毎にノイズを抑圧するため、ＷＦＳによる波面再構成フィルタとともに利用するときにのみその効果を生じる。

ノイズ抑圧装置２００は、多ＣＨ短時間フーリエ変換部２１１、空間フーリエ変換部２１２、（Ｆ＋１）個の特定周波数ノイズ抑圧部２１５_ｆ、空間逆フーリエ変換部２１３、多ＣＨ短時間逆フーリエ変換部２１４及びＰ個の合成部２１６_ｐを含む。

＜多ＣＨ短時間フーリエ変換部２１１＞
多ＣＨ短時間フーリエ変換部２１１は、Ｐチャネルの時間領域の収音信号ｕ（ｐ，ｎ）を受け取り、チャネルｐ毎に周波数領域の収音信号Ｕ（ｐ，ｉ）に変換し（ｓ１）、空間フーリエ変換部２１２に出力する。ただし、ｉはフレーム番号を表す。なお、周波数領域変換の方法としては、高速フーリエ変換（Fast Fourier Transform；以下「ＦＦＴ」ともいう）等が考えられる。

まず、多ＣＨ短時間フーリエ変換部２１１は、収音信号ｕ（ｐ，ｎ）をＦ／Ｄ個受け取る毎に（言い換えると、ｎ＝ｉＦ／Ｄの関係になる毎に）、２Ｆ個の収音信号ｕ（ｐ，ｎ−２Ｆ＋１），ｕ（ｐ，ｎ−２Ｆ＋２），…，ｕ（ｐ，ｎ）を１フレーム分としてブロック化し、フレーム単位の収音信号ｕ（ｐ，ｉ）を得る。ただし、Ｆは自然数であり、ＤはＦを割り切る自然数である。例えば、

である。ただし、^Ｔは転置を表す。以下、特に断りが無い限り、各信号を１フレーム＝２Ｆサンプル（フレーム長）、シフト量Ｆ／Ｄサンプル（シフト幅）でブロック化する。ＦＦＴ計算を簡略化・高速化するために、Ｆを２のべき乗にとることが多い。以下ではＤ≧２の場合を示す。

さらに、多ＣＨ短時間フーリエ変換部２１１は、フレーム単位の収音信号ｕ（ｐ，ｉ）を、次式のように周波数領域の収音信号Ｕ（ｐ，ｉ）に変換する。

なお、収音信号Ｕ（ｐ，ｉ）を含め、周波数領域の各信号は短時間スペクトルにより表される。なお、ｆは周波数のインデックスを表し、ｆ＝０，１，…，２Ｆ−１である。信号のサンプリング周波数をｆ_Ｓとすると、Ｕ_ｆ（ｐ，ｉ）はフレームｉにおけるチャネルｐの収音信号の周波数ｆ_Ｓｆ／２Ｆ［Ｈｚ］の成分を表す。

＜空間フーリエ変換部２１２＞
空間フーリエ変換部２１２は、Ｐチャネルの周波数領域の収音信号Ｕ（ｐ，ｉ）＝［Ｕ_０（ｐ，ｉ） … Ｕ_ｆ（ｐ，ｉ） … Ｕ_２F-1（ｐ，ｉ）］を受け取り、以下の式（３）や（４）により、周波数ｆ毎に波数領域の収音信号Ｕ__ｆ（ｉ）に変換し（ｓ２）、波数領域の収音信号Ｕ__ｆ（ｉ）を特定周波数ノイズ抑圧部２１５_ｆに出力する。ただし、ここでは、ｆ＝０，１，…，Ｆについて、波数領域の収音信号Ｕ__ｆ（ｉ）に変換する。Ｆ＜ｆ≦２Ｆ−１については、後述する空間逆フーリエ変換部２１３において説明する。また、ｋを波数のインデックス、Ｋを自然数とし、チャネル数Ｐが偶数でＰ＝２Ｋのときｋ＝−Ｋ＋１，−Ｋ＋２，…，−１，０，１，…，Ｋであり、チャネル数Ｐが奇数でＰ＝２Ｋ＋１のときｋ＝−Ｋ，−Ｋ＋１，…，−１，０，１，…，Ｋである。
（１）チャネル数Ｐが偶数でＰ＝２Ｋのとき、

である。
（２）チャネル数Ｐが奇数でＰ＝２Ｋ＋１のとき、

である。波数領域への変換は、２のべき乗の点数を持つＦＦＴで高速に行うため、以下、チャネル数Ｐが偶数の場合（Ｐ＝２Ｋ）について説明を進める。なお、収音信号Ｕ__ｆ（ｋ，ｉ）を含め、波数領域の各信号は短時間スペクトルにより表される。この処理により、収音信号は、進行方向毎に分解される。以下のノイズ抑圧処理は、チャネル毎ではなく、方向毎に行われる。

なお、空間フーリエ変換部２１２は、特定方向にビームを持つマイクロホンアレーをＰ個並べていると考えることもできる。そして、後述する空間逆フーリエ変換部２１３により、信号が元のＰチャネルの信号に戻ることから、このＰ個のマイクロホンアレーは逆変換を持つことが分かる。

＜特定周波数ノイズ抑圧部２１５_ｆ＞
特定周波数ノイズ抑圧部２１５_ｆは、波数領域の収音信号Ｕ__ｆ（ｉ）＝［Ｕ__ｆ（０，ｉ） … Ｕ__ｆ（ｋ，ｉ） … Ｕ__ｆ（Ｋ，ｉ）Ｕ__ｆ（−Ｋ，ｉ） … Ｕ__ｆ（−１，ｉ）］を受け取り（ただし、ｆ≦Ｆ）、周波数−波数空間で分割された各成分Ｕ__ｆ（ｋ，ｉ）に対してノイズ抑圧処理を施し（ｓ３）、波数領域のノイズ抑圧処理済みの出力信号Ｖ__ｆ（ｋ，ｉ）を空間逆フーリエ変換部２１３に出力する。特定周波数ノイズ抑圧部２１５_ｆは、ノイズレベル推定部２１５７及びノイズ抑圧ゲイン算出適用部２１５８を含む。

（ノイズレベル推定部２１５７）
ノイズレベル推定部２１５７は、Ｐ個の波数領域の収音信号Ｕ__ｆ（ｋ，ｉ）を受け取り、そのノイズレベルを推定し（ｓ３１）、その推定値Ｎ__ｆ（ｋ，ｉ）を出力する。その推定法としては参考文献２や参考文献３等に記載の方法を用いることができる。
（参考文献２）Rainer Martin, "Noise power spectral density estimation based on optimal smoothing and minimum statistics", IEEE Transactions on Speech and Audio Processing, 2001, Vol. 9, No. 5, pp. 504-512
（参考文献３）Mehrez Souden et al., "A new recursive approach for noise power spectral density tracking", 2012年, 日本音響学会秋季研究発表会講演論文集、pp.-741-742

例えば、参考文献２をベースに以下の方法でノイズレベルを推定できる。周波数インデックスｆ、波数インデックスｋの成分の振幅を

で求める。ただしαは０〜１の間の値をとる平滑化定数である。直近のＴｉ個のフレームの振幅、Ｌｅｖ（ｆ，ｋ，ｉ−Ｔｉ＋１）〜Ｌｅｖ（ｆ，ｋ，ｉ）を保持し、Ｔｉ個の振幅の最小値を求める。このＴｉ個の振幅の最小値をフレーム番号ｉにおける周波数インデックスｆ、波数インデックスｋでのノイズレベルの推定値Ｎ__ｆ（ｋ，ｉ）とする。

（ノイズ抑圧ゲイン算出適用部２１５８）
ノイズ抑圧ゲイン算出適用部２１５８は、Ｐ個の波数領域の収音信号Ｕ__ｆ（ｋ，ｉ）とＰ個のノイズレベルの推定値Ｎ__ｆ（ｋ，ｉ）とを受け取り、これらの値からノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）を求める（ｓ３２Ａ）。例えば、ノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）として、波数領域の収音信号Ｕ__ｆ（ｋ，ｉ）の振幅｜Ｕ__ｆ（ｋ，ｉ）｜とノイズレベルの推定値Ｎ__ｆ（ｋ，ｉ）とから、次式のように直接求められるレベル比を用いてもよい。

また、例えば、参考文献４のようにこの比を平滑化してノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）としてもよい。
（参考文献４）特開２００５−３４８１７３号公報

例えば、平滑化前のノイズ抑圧ゲインをＧ__ｆ’（ｋ，ｉ）とし、平滑化後のノイズ抑圧ゲインをＧ__ｆ（ｋ，ｉ）とすると、平滑化処理の１例は、以下の式で表すことができる。
Ｇ__ｆ（ｋ，ｉ）＝Σ_h,j ａ（ｈ）×Ｇ__ｊ’（ｋ，ｉ）／Σ_h ａ（ｈ）
この式は、インデックスｊで示されるｆ番目の周波数帯域に隣接する平滑化前のノイズ抑圧ゲインＧ__ｆ’（ｋ，ｉ）の平均値を求め、ｆ番目の周波数帯域のノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）とする平滑化処理を示す。和をとる際のｈとｊの総数は同数であり、またその総数は最も多くても周波数分析点数以下である。重み係数ａ（ｈ）は、平滑化前のノイズ抑圧ゲインをＧ__ｆ’（ｋ，ｉ）の断続性を緩和する。さらに、平滑化後のノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）の強調化を行ってもよい。強調化処理は平滑化後のノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）の値の大小によって、それぞれのゲイン係数を０もしくは１に近づける処理である。即ち、平滑化後のノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）が大きく１に近い場合は、より１に近づけて対象成分をより通し易くし、平滑化後のノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）が小さく０に近い場合は、より０に近づけて雑音成分をより大きく低減する様に平滑化後のノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）を強調する。この強調化処理の具体的な１例を以下に式で示す。
Ｇ__ｆ（ｋ，ｉ）がｔｈ１より大きい場合：
G__f(k,i)=th1×(G__f(k,i)/th1)^v1
Ｇ__ｆ（ｋ，ｉ）がｔｈ２より小さい場合：
G__f(k,i)=1-(1-th2){(1-G__f(k,i))/(1-th2)}^v2
ここで、ｖ１及びｖ２は１以上の整数とする。また、ｔｈ１とｔｈ２は、ｔｈ１≧ｔｈ２の関係を満たす０以上１以下の整数である。ノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）は０から１の範囲の値を持つので、ｔｈ１より大きい場合、より１に近づき、ｔｈ２より小さい場合、より０に近づく処理をこの式は実現する。

さらに、ノイズ抑圧ゲイン算出適用部２１５８は、次式のように、波数領域の収音信号Ｕ__ｆ（ｋ，ｉ）にノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）を適用し（ノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）を乗じ）（ｓ３２Ｂ）、波数領域のノイズ抑圧処理済みの出力信号Ｖ__ｆ（ｋ，ｉ）を求め、出力する。

＜空間逆フーリエ変換部２１３＞
空間逆フーリエ変換部２１３は、Ｐ×（Ｆ＋１）個の波数領域のノイズ抑圧処理済みの出力信号Ｖ__ｆ（ｋ，ｉ）を受け取り、周波数ｆ≦Ｆにおいて、次式のように周波数ｆ毎に周波数領域の出力信号Ｖ_ｆ（ｐ，ｉ）に変換し（ｓ４）、出力する。

なお、周波数Ｆ＜ｆ≦２Ｆ−１については、実数信号のＦＦＴ結果に関する対称性から、次式で周波数領域の出力信号Ｖ_ｆ（ｐ，ｉ）を求める。
V_f(p,i)=conj(V_2F-f(p,i))
ただし、ｃｏｎｊ（Ａ）はＡ内のスカラーあるいはベクトル、行列の個々の要素に対して複素共役をとることを示す。なお、本実施形態では、周波数Ｆ＜ｆ≦２Ｆ−１について、特定周波数ノイズ抑圧部２１５_ｆ等の処理を省略しているが、省略せずに全ての周波数０≦ｆ≦２Ｆ−１において処理を行ってもよい。

このようにして求めた合計Ｐ×２Ｆ個の周波数領域の出力信号Ｖ_ｆ（ｐ，ｉ）を多ＣＨ短時間逆フーリエ変換部２１４に出力する。ただし、このとき、ｆ＝０，１，…，２Ｆ−１である。なお、逆波数変換方法としては、空間フーリエ変換部２１２における波数領域変換方法に対応するものを用いればよい。

＜多ＣＨ短時間逆フーリエ変換部２１４＞
多ＣＨ短時間逆フーリエ変換部２１４は、Ｐ×２Ｆ個の周波数領域の出力信号Ｖ_ｆ（ｐ，ｉ）を受け取り、次式のように、チャネルｐ毎に周波数領域の出力信号Ｖ_ｆ（ｐ，ｉ）を逆ＦＦＴし（ｓ５）、時間領域の出力信号ベクトルｖ（ｐ，ｉ）（要素数は２Ｆ個）に変換し（ｓ５）、合成部２１６_ｐに出力する。

時間領域変換方法としては、多ＣＨ短時間フーリエ変換部２１１における周波数領域変換方法に対応するものを用いればよい。

＜合成部２１６_ｐ＞
合成部２１６_ｐは、時間領域の出力信号ベクトルｖ（ｐ，ｉ）を受け取り、時間領域の出力信号ベクトルｖ（ｐ，ｉ）を合成し、合成した信号をノイズ抑圧装置２００の出力値として出力する。例えば、多ＣＨ短時間フーリエ変換部２１１において、収音信号ｕ（ｐ，ｎ）をＤ≧２でフレーム化した場合には、合成部２１６_ｐは、フレームｉで求めた出力信号ｖ（ｐ，ｉ）と一つ前のフレームｉ−１で求めた出力信号ｖ（ｐ，ｉ−１）とに対して窓かけ処理を行った上で、合成し（ｓ６）、合成後の出力信号ベクトルｖ’（ｐ，ｉ）（要素数はＦ／Ｄ個）の要素ｖ（ｐ，ｎ−Ｆ／Ｄ＋１），ｖ（ｐ，ｎ−Ｆ／Ｄ＋２），…，ｖ（ｐ，ｎ）を逐次、出力値として出力する。ただし、ｎ＝ｉＦ／Ｄの関係にある。

＜効果＞
本実施形態の効果を図６で説明する。単一話者のターゲット音声ｘを対象とし、同時に拡散性のノイズｎがマイクロホンにより収音されるケースを考える。空間フーリエ変換部２１２が各周波数ｆでＰチャネルの収音信号Ｕ_ｆ（ｐ，ｉ）を方向毎に分解する。変換後のターゲット音すなわち対象成分は特定の方向に集中して抽出される。拡散性ノイズは全方向の成分をもち、そのごく一部の特定方向に含まれる分が抽出される。したがって、この特定方向でＳＮ比が良好になり、抑圧処理の歪みは大幅に小さくなる。この信号処理は波数領域で行われているため、ノイズ抑圧後の波面進行方向は抑圧前と同じであり、空間バランスの点で抑圧処理の影響をほとんど受けない。一方、その他の方向ではノイズ成分が大半を占め、非定常の音声成分が少なくなるため、ノイズレベル推定の精度が相対的に高くなり、ノイズが良好に抑圧される。その結果、従来法よりもノイズ抑圧処理の品質を上げることができる。

このような構成により生成した出力信号ｖ（ｐ，ｉ）を波面再構成フィルタ９０でフィルタリングし、フィルタリング後の再生信号ｙ（ｐ，ｎ）をスピーカｓ_ｐで再生することで、ノイズを抑圧しつつ、所望の音場を再現することができる。

上記の処理はマイクアレー処理の観点から見ることができる。各周波数において、多チャネル信号にアレー処理を適用して方向毎に分解して、方向毎に１入力１出力のノイズ抑圧処理を行っている。上記の多チャネル信号を方向毎に分解するアレー処理により、対象成分とノイズ成分の分離性が向上する。分離性を向上させた状態でノイズ抑圧を適用することで、その歪みを大幅に低減させることが可能になる。またノイズ抑圧の度合いを強めても、処理後の信号が歪みにくくなる。

なお、波面再構成フィルタ９０を、ノイズ抑圧装置２００の一部としてもよいし、本実施形態のように別装置としてもよい。

＜第一変形例＞
第一実施形態では、ノイズ抑圧装置２００と波面再構成フィルタ９０の間は時間領域の信号になるが、波面再構成フィルタのフィルタ係数を波数領域で適用することで、各処理を波数領域で連結し、演算量を削減してもよい。

図７は第一変形例の機能ブロック図を示す。

波面再構成フィルタ９０は、時間領域の出力信号ｖ（ｐ，ｉ）に代えて波数領域の出力信号Ｖ__ｆ（ｋ，ｉ）を入力とし、時間領域の再生信号ｙ（ｐ，ｎ）に代えて波数領域の再生信号Ｙ__ｆ（ｋ，ｉ）を出力する。

空間逆フーリエ変換部２１３、多ＣＨ短時間逆フーリエ変換部２１４及び合成部２１６_ｐは、それぞれ出力信号（Ｖ__ｆ（ｋ，ｉ）、Ｖ_ｆ（ｐ，ｉ）、ｖ（ｐ，ｉ））に代えて、再生信号（Ｙ__ｆ（ｋ，ｉ）、Ｙ_ｆ（ｐ，ｉ）、ｙ（ｐ，ｉ））を入力とし、出力信号（Ｖ_ｆ（ｐ，ｉ）、ｖ（ｐ，ｉ）、ｖ（ｐ、ｎ））に代えて、再生信号Ｙ_ｆ（ｐ，ｉ）、ｙ（ｐ，ｉ）、ｙ（ｐ，ｎ）を出力する。

このような構成により、第一実施形態と同様の効果を得つつ、演算量を削減することができる。

＜第二変形例＞
また、図８のように、ノイズ抑圧装置２００は、波面再構成フィルタ９０においてフィルタリングを行った後に、再生信号ｙ（ｐ，ｎ）に対してノイズ抑圧処理を行ってもよい。

この場合、ノイズ抑圧装置２００は、Ｐチャネルの収音信号ｕ（ｐ，ｎ）に代えてＰチャネルの再生信号ｙ（ｐ，ｎ）を受け取り、ノイズ抑圧処理を施し、Ｐチャネルの出力信号ｖ（ｐ，ｎ）を出力する。

第一変形例と組み合わせてもよい。つまり、図９のように、各処理を波数領域で連結し、演算量を削減してもよい。

ノイズ抑圧装置及び波面再構成フィルタの入力信号は、収音信号のみに限定されない。例えば、ノイズ抑圧装置は収音信号自体に加え、再生信号等を、波面再構成フィルタは収音信号自体に加え、ノイズ抑圧装置の出力信号等を入力信号として用いることができる。収音信号に対応する信号であればよく、例えば、収音信号からエコーを消去した信号を入力としてもよい。

＜第三変形例＞
なお図４の空間フーリエ変換部２１２における周波数領域から波数領域への変換について、式（３）では各周波ｆ数におけるＰチャネルの収音信号Ｕ_ｆ（ｐ，ｉ）を対象としてＰ（＝２Ｋ）点ＦＦＴを用いている。

この場合、空間フーリエ変換部２１２の入力から空間逆フーリエ変換部２１３の出力までは巡回畳み込みの処理と見ることができる。

巡回畳み込みはＰチャネルの空間信号を周期信号として扱うために、その悪影響が空間信号の両端に現れやすい。これを避けるために、次式のようにＰチャネルの信号の両脇にＰ／２個ずつ０詰めをして、２Ｐ（＝４Ｋ）点ＦＦＴを適用してもよい。

この場合、ノイズ抑圧ゲイン算出適用部２１５８では、処理対象となるｋの範囲が、−Ｋ＋１≦ｋ≦Ｋから−２Ｋ＋１≦ｋ≦２Ｋへと倍になる。

また空間逆フーリエ変換部２１３は、式（７）の代わりに次式を用い、２Ｐ（＝４Ｋ）点逆ＦＦＴを使用する。そして、その結果の中央のＰ点を抜き出して、チャネルｐ毎に短時間逆フーリエ変換を適用すればよい。

このような構成により、Ｐチャネルの空間信号を周期信号として扱う際に生じる悪影響を低減することができる。

＜第二実施形態＞
本実施形態の実施例２として、波面の伝送機能もしくは蓄積再現機能８０を組み合わせた構成を図１０に示す。伝送機能とは、インターネット等の通信回線を介して信号を伝送する機能を意味する。また、蓄積再現機能とは、自己の記憶部や記憶媒体に記憶した信号を読み取ることで収音した時刻とは異なるタイミングで再生し音場を再現する機能を意味する。

伝送機能もしくは蓄積再現機能８０を、（１）マイクロホンｍ_ｐとノイズ抑圧装置２００との間（図１０Ａ参照）、（２）ノイズ抑圧装置２００と波面再構成フィルタ９０との間（図１０Ｂ参照）、（３）波面再構成フィルタ９０とスピーカｓ_ｐとの間（図１０Ｃ参照）に設けることができる。

さらに、第一実施形態の第二変形例の構成（波面再構成フィルタ９０においてフィルタリングを行った後に、再生信号ｙ（ｐ，ｎ）に対してノイズ抑圧処理を行う構成）と伝送機能もしくは蓄積再現機能８０を組み合わせてもよい。その場合の構成を図１１に示す。このとき、伝送機能もしくは蓄積再現機能８０を、（１）マイクロホンｍ_ｐと波面再構成フィルタ９０との間（図１１Ａ参照）、（２）波面再構成フィルタ９０とノイズ抑圧装置２００との間（図１１Ｂ参照）、（３）ノイズ抑圧装置２００とスピーカｓ_ｐとの間（図１１Ｃ参照）に設けることができる。

＜第三実施形態＞
＜第三実施形態のポイント＞
第一実施形態と異なる部分についてのみ説明する。

本実施形態では、波を周波数−波数空間で見るとき、周波数が低いほど波の存在する範囲が狭いことを利用して、ノイズ抑圧処理の演算量を削減する。

参考文献５によれば、周波数−波数空間で見ると波の存在範囲は周波数に応じて限定される。
（参考文献５）T. Ajdler, L. Sbaiz, and M. Vetterli, "Dynamic measurement of room impulse responses using a moving microphone", The Journal of the Acoustical Society of America, 2007, vol. 122, issue 3, p. 1636-1645

図１２は、単一周波数波の平面波のサンプリングの様子を示す。マイクロホン素子列に角度αで入射する単一の周波数ｆ_０の平面波を考える。マイクロホン列をｘ軸にとると、ｔを時刻としてｘ軸上での音圧の時間変動ｐ(ｘ,ｔ)は、
p(x,t)=e^{j(ω0t+φ0xcosα)} (31)
になる。ただし、上付き添え字中のω０及びφ０はそれぞれω_０及びφ_０を表し、ω_０及びφ_０はそれぞれ周波数ｆ_０の角周波数及び波数を表し、音速をｖｅｌｏｃとして、φ_０は
φ₀=ω₀/veloc (32)
である。このｘ−ｔ軸上の音圧を周波数−波数領域に変換すると

になる。時間−空間領域で単一の周波数の平面波は、周波数−波数領域では１点になる。

全周波数で同一の周波数成分を持ち、時間―空間で

であらわされる平面波は、周波数−波数領域では、

のように直線になる。入射の角度αは０〜１８０度の範囲をとるため、周波数−波数領域で見ると波の成分は、

の範囲に存在する。

実際のマイクロホン列によるサンプリングは離散的である。時間方向について、サンプリング周波数をｆ_ｓ、フレーム長を２Ｆ、２Ｆ点−ＦＦＴを使用し、空間方向について、Ｐ個のマイクロホンは直線上に等間隔に配列されているものとし、マイクロホン間隔をｄ、マイクロホン数を２ＫとしてＫ点−ＦＦＴを使用する。このとき、周波数の範囲は０〜ｆ_ｓ／２であり、波数ｋの範囲は−π／ｄ〜π／ｄである。

なお、このサンプリングにおける最大の周波数ｆ＝ｆ_ｓ／２の波について、波数はπｆ_ｓ／ｖｅｌｏｃになる。マイクロホン間隔ｄが十分小さくπ／ｄがこの値より大きいとき空間エリアシングは生じない。しかしマイクロホン間隔ｄが相対的に長いために、π／ｄがこの値より小さい場合に空間エリアシングが生じる。この様子を図１３に示す。

第一実施形態では、全周波数及び全波数で処理を行っている。しかし上記の知見によれば、周波数−波数領域において信号成分の存在範囲は、音波の周波数が低いほど狭まっている。この信号成分の存在しない範囲で信号処理を省くことができ、その処理削減の効果は周波数が低いほど大きい。これが第三実施形態のポイントである。

＜特定周波数ノイズ抑圧部２１５_ｆ＞
図１４は第三実施形態に係るノイズ抑圧装置内の特定周波数ノイズ抑圧部２１５_ｆの機能ブロック図を、図１５はその処理フローを示す。第三実施形態と第一実施形態との相違は、特定周波数ノイズ抑圧部２１５_ｆの内部のみである。

特定周波数ノイズ抑圧部２１５_ｆは、ノイズレベル推定部２１５７及びノイズ抑圧ゲイン算出適用部２１５８を含み、さらに、波数限定部２１５４と波数０詰め部２１５５とを含む。

はじめに、波数限定部２１５４において、周波数ｆから波数ｋの有効範囲を求める。波数限定部２１５４は、ノイズレベル推定部２１５７及びノイズ抑圧ゲイン算出適用部２１５８の処理をこの波数ｋの範囲内に限定する。波数０詰め部２１５５は未処理の範囲に０を設定する。

上記処理のために、第一実施形態に加える変更の詳細を以下に示す。

(波数限定部２１５４)
波数限定部２１５４は、周波数ｆ≦Ｆにおいて、周波数ｆ毎に波数ｋの有効範囲を算出し（ｓ３０）、この有効範囲を特定周波数ノイズ抑圧部２１５_ｆ内の各部に出力する（ただし、図中各部への出力を省略する）。例えば、周波数ｆの一次関数で表す式（３７）により波数ｋの上限ｍａｘ＿ｋ（ｆ）を求める。

ただし、ｃｅｉｌ（Ａ）は、Ａを整数へ切り上げる関数である。また、ｆ_ｔｈはマイクロホン間隔ｄでのサンプリングするときに空間エリアシングが生じない最大周波数であり、次式で定義される。

なお、式（３６）（３７）は、波数ｋの範囲を周波数ｆの一次関数で表し、波数ｋの範囲の上限と下限は

で与えられるものであることを表している。言い換えると、式（３７）は、音速ｖｅｌｏｃとマイクロホン間隔ｄとサンプリング周波数ｆ_ｓとに基づき、周波数ｆに対する波数ｋの上限を求めている。

特定周波数ノイズ抑圧部２１５_ｆ内の各部では、周波数ｆ≦Ｆにおいて、波数限定部２１５４が周波数ｆについて求めた波数ｋの有効範囲
-max_k(f)≦k≦max_k(f) (39)
で、各処理（ｓ３１，ｓ３２Ａ，Ｓ３２Ｂ）を行い、ノイズ抑圧を図る。

なお、波数ｋの有効範囲を算出する際に、周波数ｆの一次関数を用いることは、一例であり、高周波領域に比べ低周波領域では波数の範囲が狭くなるように波数ｋの有効範囲を限定するものであれば他の方法により、有効範囲を算出してもよい。

また、波数限定部２１５４における処理は、ノイズ抑圧処理を開始時、または開始前に一度行い、各部に上限ｍａｘ＿ｋ（ｆ）を設定しておいてもよい。

(波数０詰め部２１５５)
波数０詰め部２１５５は、ノイズ抑圧ゲイン算出適用部２１５８から（Ｐ−２・ｍａｘ＿ｋ（ｆ））個の波数領域のノイズ抑圧処理済みの出力信号Ｖ__ｆ（ｋ，ｉ）を受け取り（ただし、周波数ｆ≦Ｆ、−ｍａｘ＿ｋ（ｆ）≦ｋ≦ｍａｘ＿ｋ（ｆ））、有効範囲外の波数、すなわちｋ＜−ｍａｘ＿ｋ（ｆ）及びｍａｘ＿ｋ（ｆ）＜ｋの範囲で、波数領域の出力信号Ｖ__ｆ（ｋ，ｉ）を０とし（ｓ３３）、空間逆フーリエ変換部２１３に出力する。

＜効果＞
このような構成により、第一実施形態と同様の効果を得ることができ、さらに、計算量を減らすことができるという効果を奏する。

なお、本実施形態と第一実施形態の変形例や第二実施形態、その他の変形例とを組合せてもよい。

＜その他の変形例＞
ノイズ抑圧装置を構成する各部は、マイクロホンｍ_ｐが配置された収音空間とスピーカｓ_ｐが配置された再生空間の何れに備えられていてもよい。換言すれば、多ＣＨ短時間フーリエ変換部２１１、空間フーリエ変換部２１２、特定周波数ノイズ抑圧部２１５_ｆ、空間逆フーリエ変換部２１３、多ＣＨ短時間逆フーリエ変換部２１４及び合成部２１６_ｐのそれぞれの処理は、収音空間で実行されてもよいし、再生空間で実行されてもよい。マイクロホンｍ_ｐで生成された収音信号は、波面再構成フィルタ９０及びノイズ抑圧装置２００を介して、スピーカｓ_ｐに送信される。

収音空間と再生空間の位置は、図３、図８、図１０、図１１等に示したものに限定されない。収音空間と再生空間は、隣接していても互いに離れた位置にあってもよい。また、収音空間と再生空間の向きもどのようなものであってもよい。

ノイズ抑圧装置は、特定周波数ノイズ抑圧部２１５_ｆを含みさえすれば、他の部を備えていなくてもよい。例えば、ノイズ抑圧装置は、特定周波数ノイズ抑圧部２１５_ｆ、空間逆フーリエ変換部２１３、多ＣＨ短時間逆フーリエ変換部２１４及び合成部２１６_ｐから構成されていてもよい。また、ノイズ抑圧装置は、多ＣＨ短時間フーリエ変換部２１１、空間フーリエ変換部２１２、特定周波数ノイズ抑圧部２１５_ｆから構成されていてもよい。

多ＣＨ短時間フーリエ変換部２１１の処理と空間フーリエ変換部２１２の処理とを同時に行ってもよい。同様に、空間逆フーリエ変換部２１３の処理と多ＣＨ短時間逆フーリエ変換部２１４の処理とを同時に行ってもよい。

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数のマイクロホンを設置した地点で取得した音波面を、複数のスピーカを設置した地点で再合成するものとし、
周波数と波数との組合せ毎に、波数領域の入力信号のノイズレベルを推定するノイズレベル推定部と、
周波数と波数との組合せ毎に、波数領域の入力信号と、波数領域のノイズレベルの推定値との比に基づきノイズ抑圧ゲインを求め、波数領域の入力信号にノイズ抑圧ゲインを乗じ、波数領域のノイズ抑圧処理済みの出力信号を求めるノイズ抑圧ゲイン算出適用部とを含み、
前記入力信号は前記複数のマイクロホンで収音する複数のチャネルの収音信号に対応する信号であり、前記出力信号は複数のスピーカで再生する複数のチャネルの再生信号に対応する信号である、
ノイズ抑圧装置。
請求項１記載のノイズ抑圧装置であって、
前記入力信号をチャネル毎に周波数領域の収音信号に変換する周波数領域変換部と、
前記周波数領域の収音信号を、周波数毎に波数領域の収音信号に変換する波数領域変換部と、をさらに含む、
ノイズ抑圧装置。
請求項１または請求項２記載のノイズ抑圧装置であって、
周波数毎に前記波数領域のノイズ抑圧処理済みの出力信号を周波数領域の出力信号に変換する逆波数領域変換部と、
チャネル毎に前記周波数領域の出力信号を時間領域の出力信号に変換する逆時間領域変換部と、をさらに含む、
ノイズ抑圧装置。
請求項１から請求項３の何れかに記載のノイズ抑圧装置であって、
前記周波数毎に波数の有効範囲を算出する波数限定部と、
前記有効範囲外の波数における波数領域のノイズ抑圧処理済みの出力信号を０とする波数０詰め部とをさらに含み、
前記波数限定部及び前記波数０詰め部を除く各部において、前記有効範囲内で処理を行う、
ノイズ抑圧装置。
複数のマイクロホンを設置した地点で取得した音波面を、複数のスピーカを設置した地点で再合成するものとし、
周波数と波数との組合せ毎に、波数領域の入力信号のノイズレベルを推定するノイズレベル推定ステップと、
周波数と波数との組合せ毎に、波数領域の入力信号と、波数領域のノイズレベルの推定値との比に基づきノイズ抑圧ゲインを求め、波数領域の入力信号にノイズ抑圧ゲインを乗じ、波数領域のノイズ抑圧処理済みの出力信号を求めるノイズ抑圧ゲイン算出適用ステップとを含み、
前記入力信号は前記複数のマイクロホンで収音する複数のチャネルの収音信号に対応する信号であり、前記出力信号は複数のスピーカで再生する複数のチャネルの再生信号に対応する信号である、
ノイズ抑圧方法。
請求項１から請求項４の何れかに記載のノイズ抑圧装置として、コンピュータを機能させるためのプログラム。