JP3831220B2

JP3831220B2 - 雑音抑圧方法及びその装置、雑音抑圧プログラム並びにそのプログラム記録媒体

Info

Publication number: JP3831220B2
Application number: JP2001291277A
Authority: JP
Inventors: 良向井; 章子荒木; 宏澤田; 昭二牧野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2001-09-25
Filing date: 2001-09-25
Publication date: 2006-10-11
Anticipated expiration: 2021-09-25
Also published as: JP2003099093A

Description

【０００１】
【発明の属する技術分野】
この発明は、複数の音源信号が混在した混合音を分離した分離信号に残留する雑音を抑圧する方法、その方法に用いる雑音抑圧装置、その方法をコンピュータにより実行するためのプログラムおよびそのプログラムを記録した記録媒体に関する。
【０００２】
【従来の技術】
複数の音源信号が混在した混合音から、元の音源信号を推定して分離する音源分離技術として、音源の独立性を仮定し、出力信号を互いに独立にすることで元の音源を推定する独立成分分析（Independent Component Analysis,ICA）による方法が知られている。ＩＣＡについては、例えば文献J.Herault and C.Jutten,“An Information-Maximization Approach to Blind Separation and Blind Deconvolution”,Neural Computation 7,1129-1159（1995）に記載されている。
空間において畳み込みの影響を受けながら混合された信号を分離するためには、信号をフーリエ変換によって周波数領域の信号に変換し、周波数領域の信号に対してＩＣＡを適用する、周波数領域ブラインド音源分離（Blind Source Separation：BSS）という技術が用いられる。周波数領域ＢＳＳについては、例えば文献S.Araki et. al.,“Fundamental limitation of frequency domain blind source separation for convolutive mixture of speech”，Proc.ICASSP2001，MULT-P2.1に記載されている。
【０００３】
【発明が解決しようとする課題】
周波数領域ＢＳＳは、妨害音の直接音部分はほぼ完全に除去できるが、残響を伴なう環境においては性能が著しく低下する。これは残響の影響によって分離信号中に雑音が残留しているためである。
この発明の目的は、残響を伴なう環境において混合された音源信号から、元の音源信号を分離する音源分離手段によって得られた出力信号に基づいて、出力信号に残留する雑音を推定し、推定した雑音に基づいて、分離信号に含まれる雑音を抑圧する方法、その装置、雑音抑圧プログラム及びその記録媒体を提供することにある。
【０００４】
【課題を解決するための手段】
この発明の雑音抑圧方法では、音源分離過程の後段で行う処理として、音源分離過程によって出力された第１の出力信号を用い、第１の出力信号自身に含まれる残留雑音を推定し、第１の出力信号から推定雑音を引き去ることによって、第１の出力信号に含まれる雑音を抑圧する。その残留雑音の推定は以下のようにして行う。
上記第１の出力信号の相互相関を最大にするような遅延を遅延推定過程によって求め、その遅延に基づいて第１の出力信号を遅延させて第２の出力信号を求め、係数推定過程により、第１の出力信号と第２の出力信号を用いて第１の出力信号中に含まれる雑音成分の係数を推定し、上記係数を第２の出力信号に乗じることにより、第１の出力信号に含まれる上記残留雑音を雑音推定過程で推定する。
【０００５】
【発明の実施の形態】
この発明の実施の形態を実施例により図面に基づいて説明する。
図１は、この発明による雑音抑圧装置におけるＮ個の第１の信号ｙ_i（１＜ｉ＜Ｎ）のうちのｙ₁に関する雑音抑圧部分の構成を示している。残りのｙ_i（２＜ｉ＜Ｎ）についても同様の構成で雑音を抑圧する。
時間領域において遅れや畳み込みの影響を受けながらの、複数の音源信号の混合は、周波数領域での瞬時混合に変換できる。このためこの実施例における雑音抑圧方法では、信号を周波数領域の信号として扱う。時間領域信号から周波数領域信号へは、例えば離散フーリエ変換（ＤＦＴ）によって変換し、周波数領域信号から時間領域信号へは、離散フーリエ逆変換（ＩＤＦＴ）によって互いに変換する。
【０００６】
まず、この実施例に使用する信号の名前および関係について説明する。
音源信号をＳ（ω，ｔ）＝［ｓ₁，ｓ₂，…，ｓ_N］^T，
混合信号をＸ（ω，ｔ）＝［ｘ₁，ｘ₂，…，ｘ_M］^T，
分離信号をＹ（ω，ｔ）＝［ｙ₁，ｙ₂，…，ｙ_N］^T，
混合行列をＨ（ω），分離行列をＷ（ω）
とすると、
Ｘ（ω，ｔ）＝Ｈ（ω）Ｓ（ω，ｔ）（１）
Ｙ（ω，ｔ）＝Ｗ（ω）Ｘ（ω，ｔ）＝Ｗ（ω）Ｈ（ω）Ｓ（ω，ｔ）（２）
という関係がある。［］^Tは転置行列を示す。
【０００７】
ここで、Ｇ＝ＷＨとすると、
ｙ_i＝Σ_j=1 ^Nｇ_ijｓ_j （３）
と書くことができる。
ｙ_iを、目的信号ｓ_iに起因する出力であるストレート成分ｙ_i ^(s)と、妨害音ｓ_j（ｊ≠ｉ）に起因するクロス成分ｙ_i ^(c)に分けて考えると、
ｙ_i＝ｙ_i ^(s)＋ｙ_i ^(c) （４）
ｙ_i ^(s)＝ｇ_iiｓ_i （５）
【０００８】
【数１】

となる。
この発明の実施例ではｙ_i ^(s)を抽出することを目標とする。すなわち、除去されるべき残留雑音はクロス成分ｙ_i ^(c)とする。ところでストレート成分は音源信号の直接音および残響、クロス成分は音源信号の残響に起因しており、両者のスペクトルには関連がある。２入力２出力のＩＣＡによる分離信号の狭帯域信号のパワースペクトルの例を図３に示す。これはｆ＝３２０Ｈｚのｙ₁ ^(s)とｙ₂ ^(c)の各パワーの経時変化である。この例を見ると、ストレート成分ｙ₁ ^(s)がある遅延と係数をかけられてクロス成分ｙ₂ ^(c)として漏洩して現われているということができる。そこで、これを複数信号の場合に拡張し、各周波数ビンおよびチャンネルの組合せごとの遅延τ_ij（ω）および係数α_ij（ω）をパラメータとしたモデル化を行う。係数は本来はフィルタであるが、推定を簡単にするためにスカラ値とする。この考えに基づき、以下のようにτ_ij（ω）および係数α_ij（ω）を求めてモデル化されたｙ_i ^(c)を求める。
【０００９】
次に、図１及び図２を参照してこの実施例の装置の各部の動作と、この装置の処理の手順を説明する。図１はｉ＝１の場合のみを示している。
（１）音源分離過程（図２、Ｓ１）
Ｎ個（Ｎは２以上の整数）の音源からの信号ｓ₁，ｓ₂，…，ｓ_Nは空間で遅れや畳み込みの影響を受けてＭ個（Ｍ＞Ｎ）の混合信号ｘ₁，ｘ₂，…，ｘ_Mとして音源分離装置１１に入力される。音源分離装置１１ではＩＣＡを用いた周波数領域ＢＳＳにより、混合信号ｘ_i(１＜ｉ＜Ｍ）から音源信号ｓ₁，ｓ₂，…，ｓ_Nと対応するＮ個の第１の出力信号ｙ_i(ω，ｔ）（１＜ｉ＜Ｎ）に分離される。
（２）遅延推定過程（図２、Ｓ２）
これからの処理がこの発明の実施例である。
【００１０】
第１の出力信号ｙ_i(ω，ｔ）の各周波数帯域ωに関して、｜ｙ_i ^(c)（ｔ）｜と｜ｙ_j ^(s)（ｔ−τ_ij）｜と（ｊ≠ｉ）との相関が大きくなるような遅延を求め、これをτ_ij（ω）とする。
ここで、ｙ_i ^(c)（ｔ）とｙ_j ^(s)（ｔ）は未知であるから、それぞれｙ_i(ｔ）とｙ_j(ｔ）で置き換えた以下の式を遅延推定手段１２によって演算してτ_ij（ω）を求める。
これは、音源信号として互いに独立な音声を想定した場合、狭帯域信号｜ｙ_i ^(s)｜と｜ｙ_j ^(s)｜が同時刻に値を持つことは少なく、ほとんどの時刻において｜ｙ_i(ｔ）｜｜ｙ_j(ｔ−τ）｜（τ＞０）で｜ｙ_i ^(c)（ｔ）｜｜ｙ_j ^(s)（ｔ−τ）｜を近似できるであろうという仮定による置き換えである。
【００１１】
τ_ij（ω）＝argmaxΣ｜ｙ_i(ω，ｔ）｜｜ｙ_j(ω，ｔ−τ）｜（７）
ここでΣは、系が時不変であるとみなせる適当な期間、かつ｜ｙ_i(ｔ）｜＜｜ｙ_j(ｔ−τ）｜が成り立っている時刻での総和とする。また、τ_maxは予想される残響時間の最大値から決まる定数である。argmaxは０＜τ＜τ_maxでΣの値が最大となるτを求めることを示す。
つまり各ｙ_i(ω，ｔ）ごとに他の各ｙ_j(ω，ｔ）との相関がそれぞれ最大となる各ｙ_i(ω，ｔ）に対する遅延τ_ij（ω）を求める。
（３）遅延過程（図２、Ｓ３）
上記遅延推定手段１２によって求めた各遅延τ_ij（ω）の分だけ対応する第１の出力信号ｙ_j(ω，ｔ）を遅延手段１３でそれぞれ遅延させ、第２の出力信号ｙ_j(ω，ｔ−τ_ij（ω））を得る。
（４）係数推定過程（図２、Ｓ４）
雑音推定のための係数α_ij（ω）を、｜ｙ_i ^(c)(ｔ）｜^bと｜ｙ_j ^(s)(ｔ−τ_ij）｜^bの相関の正規化値と｜ｙ_i ^(c)(ｔ）｜及び｜ｙ_j ^(s)(ｔ−τ_ij）｜の各総和の比との積として求める。ｂ＝１の場合は振幅スペクトル、ｂ＝２の場合はパワースペクトルによる処理になる。
【００１２】
ここでもやはりｙ_i ^(c)(ｔ）とｙ_j ^(s)(ｔ）は未知であるから、それぞれｙ_i(ｔ）とｙ_j(ｔ）で置き換え、係数推定手段１４で以下の式を演算してα_ij（ω）を求める。
【００１３】
【数２】

【００１４】
ここで、Σは、｜ｙ_i(ω，ｔ）｜が｜ｙ_j(ω，ｔ−τ_ij（ω））｜より小さい時刻の集合
Ｔ_ij（ω）＝｛ｔ｜｜ｙ_i(ω，ｔ）｜＜｜ｙ_j(ω，ｔ−τ_ij（ω））｜｝（９）
中の総てのｔ∈Ｔ_ij（ω）に関する総和である。
これは、ｙ_iとｙ_jのどちらがストレート成分の近似でどちらがクロス成分の近似とするかをスペクトルの大きさで判断していることに相当する。
（５）雑音推定過程（図２、Ｓ５）
先に述べたようにストレート成分は音源信号の直接音および残響、クロス成分は音源信号の残響に起因しており、両者のスペクトルには関連があり、ストレート成分がある遅延と係数をかけられてクロス成分に漏洩しているという見方ができる。そこで、これを複数信号の場合に拡張し、各周波数ビンおよびチャンネルの組合せごとの遅延τ_ij（ω）および係数α_ij（ω）をパラメータとしたモデル化を行う。また、ｙ_i ^(s)は未知であるため、ｙ_iをｙ_i ^(s)の近似値として用い、雑音推定手段１５で次式を計算して雑音のスペクトル｜ｙ_i＾^(c)(ω，ｔ）｜を求める。
【００１５】
【数３】

【００１６】
ｂ＝１の場合は振幅スペクトル、ｂ＝２の場合はパワースペクトルによる処理になる。
（６）雑音減算過程（図２、Ｓ６）
雑音推定手段１５によって推定した雑音を第１の出力信号ｙ_i(ω，ｔ）から減算器１６で次式の演算により引き去ることにより第３の出力信号ｙ_i＾^(s)を求める。
【００１７】
【数４】

【００１８】
ｂ＝１の場合は振幅スペクトル、ｂ＝２の場合はパワースペクトルによる処理になる。ｙ_i(ω，ｔ）／｜ｙ_i(ω，ｔ）｜の乗算は位相成分を与えるものである。
以上の過程により、第１の出力信号中の雑音が抑圧された第３の出力信号を得ることができる。
図１に示した雑音抑圧装置を、コンピュータによりプログラムを実行させて機能させることもできる。つまり図２に示したステップＳ２以下の処理をコンピュータに行わせる雑音抑圧プログラムをコンピュータに、ＣＤ−ＲＯＭ、可逆性磁気ディスクその他の記録媒体又は通信回線を介してインストールして、そのプログラムを実行させればよい。
【００１９】
【発明の効果】
この発明の効果を、Ｎ＝２の場合について実験によって評価した結果を示す。話者４名（男声２、女声２）、２通りの文の音声を用い、計２４通りの組み合わせについて音源分離過程により得た第１の出力信号の分離性能と、この発明によって雑音抑圧された第３の出力信号の分離性能とを比較した。
ストレート成分ｙ_i ^(s)をリファレンス信号として、
出力ＳＮＲ_i≡１０log（｜ｙ_i ^(s)｜²／｜ｙ＾_i ^(s)−ｙ_i ^(s)｜²）（ｄＢ）（12）
から雑音抑圧比（Noise Reduction Rate）ＮＲＲ_i≡出力ＳＮＲ_i−入力ＳＮＲ_iを求め、ＮＲＲ₁とＮＲＲ₂の平均値ＮＲＲを評価尺度として用いる。
【００２０】
実験結果を図４に示す。横軸は第１の出力信号のＮＲＲ、縦軸はこの発明による第３の出力信号のＮＲＲであり、音声の組合せごとに点をプロットしている。すべての組合せにおいてこの発明で処理した第３の出力信号の方が性能が向上しており、ＮＲＲ改善量は残響時間１５０ｍｓの場合に１．３〜６．３ｄＢ（平均３．９ｄＢ）、残響時間３００ｍｓの場合に１．７〜４．４ｄＢ（平均３．１ｄＢ）であり、第１の信号に含まれる雑音が抑圧されていることが確認できた。
以上説明したように、この発明によれば、音源分離過程によって出力された出力信号中に含まれる残留雑音を抑圧することができる。
【図面の簡単な説明】
【図１】この発明の実施例の機能構成を示す図。
【図２】この発明の実施例の処理手順を示す流れ図。
【図３】第１の出力信号の狭帯域信号のストレートおよびクロス成分の例を示す図。
【図４】この発明の効果を説明するための実験結果を示す図。

Claims

Ｎ（Ｎ≧２）個の音源信号が混在するＭ（Ｍ≧Ｎ）個の混合音を第１の入力信号とし、第１の入力信号から周波数領域独立成分分析を用いてＮ個の音源信号を推定して、第１の出力信号を出力する音源分離過程の後段で行う処理として、第１の出力信号に含まれる雑音を抑圧する雑音抑圧方法であって、
上記第１の出力信号の他の各第１の出力信号との相互相関を最大にするような遅延を求める遅延推定過程と、
上記遅延推定過程によって求めた遅延に基づいて対応する第１の出力信号を遅延させて第２の出力信号を出力する遅延過程と、
第１の出力信号と第２の出力信号を用いて第１の出力信号中に含まれる雑音成分の係数を推定する係数推定過程と、
上記係数を第２の出力信号に乗じて雑音を推定する雑音推定過程と、
推定した雑音を第１の出力信号から引き去ることにより第３の出力信号を得る雑音減算過程と、
を有することを特徴とする雑音抑圧方法。
請求項１記載の雑音抑圧方法において、上記係数推定過程は、
上記第１の出力信号の振幅スペクトルと、上記第２の出力信号の振幅スペクトルとの相関の正規化値と、
上記第２の出力信号の振幅スペクトルの総和に対する上記第１の出力信号の振幅スペクトルの総和の比との積として係数を推定する過程である、ここで上記総和は、上記第２の出力信号の振幅スペクトルが上記第１の出力信号の振幅スペクトルより大きい全ての時刻のことである、
ことを特徴とする雑音抑圧方法。
請求項１又は２記載の雑音抑圧方法において、上記雑音推定過程は、
上記係数を第２の出力信号の振幅スペクトルに乗じ、（Ｎ−１）個の和として、雑音の振幅スペクトルを推定する過程であることを、
特徴とする雑音抑圧方法。
請求項１記載の雑音抑圧方法において、上記係数推定過程は、
上記第１の出力信号のパワースペクトルと、上記第２の出力信号のパワースペクトルとの相関の正規化値と、
上記第２の出力信号のパワースペクトルの総和に対する上記第１の出力信号のパワースペクトルの総和の比との積として係数を推定する過程である、ここで上記総和は、上記第２の出力信号の振幅スペクトルが上記第１の出力信号の振幅スペクトルより大きい全ての時刻のことである、
ことを特徴とする雑音抑圧方法。
請求項１又は４記載の雑音抑圧方法において、上記雑音推定過程は、
上記係数を第２の出力信号のパワースペクトルに乗じ、（Ｎ−１）個の和として、雑音のパワースペクトルを推定する過程であることを、
特徴とする雑音抑圧方法。
Ｎ（Ｎ≧２）個の音源信号が混在するＭ（Ｍ≧Ｎ）個の混合音を第１の入力信号とし、第１の入力信号から周波数領域独立成分分析を用いてＮ個の音源信号を推定して、第１の出力信号を出力する音源分離装置よりの第１の出力信号に含まれる雑音を抑圧する雑音抑圧装置であって、
上記第１の出力信号の他の各第１の出力信号との相互相関を最大にするような遅延を求める遅延推定手段と、
上記遅延推定手段によって求めた遅延に基づいて対応する第１の出力信号を遅延させて第２の出力信号を出力する遅延手段と、
第１の出力信号と第２の出力信号を用いて第１の出力信号中に含まれる雑音成分の係数を推定する係数推定手段と、
上記係数を対応する第２の出力信号に乗じて雑音を推定する雑音推定手段と、
推定した雑音を第１の出力信号から引き去ることにより第３の出力信号を得る雑音減算手段と、
を備えることを特徴とする雑音抑圧装置。
請求項６記載の雑音抑圧装置において、上記係数推定手段は、
上記第１の出力信号の振幅スペクトルと、上記第２の出力信号の振幅スペクトルとの相関の正規化値と、
上記第２の出力信号の振幅スペクトルの総和に対する上記第１の出力信号の振幅スペクトルの総和の比との積として係数を推定する手段である、ここで上記総和は、上記第２の出力信号の振幅スペクトルが上記第１の出力信号の振幅スペクトルより大きい全ての時刻のことである、
ことを特徴とする雑音抑圧装置。
請求項６又は７記載の雑音抑圧装置において、上記雑音推定手段は、
上記係数を前記第２の出力信号の振幅スペクトルに乗じ、（Ｎ−１）個の和として、雑音の振幅スペクトルを推定する手段であることを、
特徴とする雑音抑圧装置。
請求項６記載の雑音抑圧装置において、上記係数推定手段は、
上記第１の出力信号のパワースペクトルと、上記第２の出力信号のパワースペクトルとの相関の正規化値と、
上記第２の出力信号のパワースペクトルの総和に対する上記第１の出力信号のパワースペクトルの総和の比との積として係数を推定する手段である、ここで上記総和は、上記第２の出力信号の振幅スペクトルが上記第１の出力信号の振幅スペクトルより大きい全ての時刻のことである、
ことを特徴とする雑音抑圧装置。
請求項６又は９記載の雑音抑圧装置において、上記雑音推定手段は、
上記係数を第２の出力信号のパワースペクトルに乗じ、（Ｎ−１）個の和として、雑音のパワースペクトルを推定する手段であることを、
特徴とする雑音抑圧装置。
請求項１〜５いずれかに記載した雑音推定方法の各過程を、コンピュータに実行させるための雑音抑圧プログラム。
請求項１１記載の雑音抑圧プログラムを記録したコンピュータにより読み出し可能な記録媒体。