JP5568530B2

JP5568530B2 - 音源分離装置とその方法とプログラム

Info

Publication number: JP5568530B2
Application number: JP2011193517A
Authority: JP
Inventors: ソウデンメレツ; 章子荒木; 慶介木下; 智広中谷; 宏澤田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-09-06
Filing date: 2011-09-06
Publication date: 2014-08-06
Anticipated expiration: 2031-09-06
Also published as: JP2013054258A

Description

この発明は、入力信号に複数の目的信号と加法性雑音が含まれている場合において、各目的信号を精度良く抽出する音源分離装置と、その方法とプログラムに関する。

複数の目的音源が存在する環境で音響信号を収音すると、しばしば目的信号同士が互いに重なり合った混合信号が観測される。この時、注目している目的音源が音声信号である場合、その他の音源信号がその目的信号に重畳した影響により、目的音声の明瞭度は大きく低下してしまう。その結果、本来の目的音声信号（以下、目的信号）の性質を抽出することが困難となり、自動音声認識（以下、音声認識）システムの認識率も著しく低下する。更に、目的信号以外に加法性雑音が存在する場合は、明瞭性や音声認識システムの認識率の低下も大きくなる。この認識率の低下を防ぐためには、複数の目的信号をそれぞれ分離することで、目的信号の明瞭度を回復する工夫（方法）が必要である。

この複数の目的信号をそれぞれ分離する要素技術は、さまざまな音響信号処理システムに用いることが可能である。例えば、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴器、目的信号を抽出することで音声の明瞭度を向上させるＴＶ会議システム、実環境で用いられる音声認識システム、機械制御インターフェースにおける機械と人間との対話装置、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。

図９に、例えば非特許文献１，２等で開示されている従来の音源分離装置９００の機能構成例を示してその動作を簡単に説明する。音源分離装置９００は、特徴ベクトル計算部９０、音声存在確率計算部９１、１chフィルタリング部９２、を備える。

特徴ベクトル計算部９０は、多チャネル入力信号の各時間周波数ビンを特徴付ける特徴ベクトルを計算する。音声存在確率計算部９１は、その特徴ベクトルを入力として、各時間周波数ビンで、入力信号に含まれるＮ個の目的音源の各々の存在確率を計算する。存在確率は、混合数Ｎの混合モデルのパラメータを最尤推定することで計算される。１chフィルタリング部９２は、入力信号の各時間周波数ビンの値に、音声存在確率計算部９１で計算された存在確率を０（信号が存在しないことを意味）か１（信号が存在することを意味）の値に変換した値を乗算することで、目的音源の目的信号の推定値を計算する。この方法を用いることで、入力信号に含まれる複数の目的信号を回復することができる。

H. Sawada, S. Araki, and S. Makino, "Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignement," IEEE Trans. Audio, Speech and Lang. Process., vol. 19, pp.516-527, March 2011. H. Sawada, S. Araki, and S. Makino, "A two-stage frequency domain blind source separation method for underdetermined convolutive mictures," in Proc. IEEE WASPAA, 2007, pp. 139-142.

しかし、従来の方法では、入力信号に加法性雑音が含まれていることが仮定されていなかった。したがって、入力信号に加法性雑音が含まれると、その抑圧が不能なため、効果的に目的信号を回復することができなかった。

この発明は、このような課題に鑑みてなされたものであり、入力信号に加法性雑音が含まれる場合でも、適切にその加法性雑音を抑圧し、複数の目的音源の各々の目的信号を回復することのできる音源分離装置と、その方法とプログラムを提供することを目的とする。

この発明の音源分離装置は、特徴ベクトル計算部と、音声・雑音存在確率計算部と、音声・雑音特徴計算部と、音声推定用フィルタ計算部と、多チャネルフィルタリング部と、を具備する。特徴ベクトル計算部は、多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する。音声・雑音存在確率計算部は、特徴ベクトルを入力として、その特徴量ベクトルをＮ個の目的音源と加法性雑音とに各々起因するＮ＋１個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する。音声・雑音特徴計算部は、各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と多チャネル観測信号とを入力として、ｎ番目の目的信号の共分散行列と観測信号に含まれる多チャネル観測信号の共分散行列を計算する。音声推定用フィルタ計算部は、ｎ番目の目的信号の共分散行列と、多チャネル観測信号の共分散行列を入力として、観測信号に含まれるｎ番目の目的信号以外の不要成分を求め、目的信号を回復する一般化多チャネルウィナーフィルタを計算する。多チャネルフィルタリング部は、多チャネル観測信号と一般化多チャネルウィナーフィルタと各目的音源に関する事後確率とを入力として、ｎ番目の目的信号の推定値を出力する。

この発明の音源分離装置によれば、多チャネル観測信号を、Ｎ個の目的音源の各々に起因する成分と、加法性雑音に起因する成分とに分類して処理するので、加法性雑音を効果的に抑圧することが出来る。評価実験で確認した具体的な効果については後述する。

この発明の音源分離装置１００の機能構成例を示す図。音源分離装置１００の動作フローを示す図。音声・雑音存在確率計算部２０の機能構成を示す図。音声・雑音存在確率計算部２０の動作フローを示す図。音声・雑音特徴計算部３０の機能構成例を示す図。音声・雑音特徴計算部３０の動作フローを示す図音声分離処理前の信号波形を示す図であり、（ａ）は話者１のクリーン音声、（ｂ）は話者２のクリーン音声、（ｃ）は混合信号の音声波形を示す図である。音声分離処理後の音声波形を示す図であり、（ａ）は従来法で分離した話者１の音声波形、（ｂ）は従来法で分離した話者２の音声波形、（ｃ）はこの発明の方法で分離した話者１の音声波形、（ｄ）はこの発明の方法で分離した話者２の音声波形を示す図である。従来の音声分離装置９００の機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、観測信号をモデル化する。

〔観測信号のモデル化〕
観測信号には、Ｎ（Ｎ≧１）個の点音源に起因する目的信号と、加法性雑音とが、共に存在する状況を仮定する。この場合、Ｍ個のマイクロホンを用いて観測された多チャネル観測信号ｙ（ｋ，ｔ）は、短時間窓での切り出し処理と短時間フーリエ変換を経て、複素スペクトル領域で式（１）に示すように表される。

ここで、ｔは時間フレームのインデックス、ｋは周波数インデックスを表す。観測信号ｙ（ｋ，ｔ）は、Ｍ個の混合信号であるｙ（ｋ，ｔ）＝[Ｙ_１（ｋ，ｔ）…Ｙ_Ｍ（ｋ，ｔ）]^Ｔであり、ｘ_ｎ（ｋ，ｔ）はｎ番目のチャネル応答を伴った信号成分ｘ_ｎ（ｋ，ｔ）＝ｈ_ｎ（ｋ）Ｓ_ｎ（ｋ，ｔ）である。Ｓ_ｎ（ｋ，ｔ）はｎ番目の目的信号である。

ｎ番目の音源と各マイクロホン間のチャネル応答ｈ_ｎ（ｋ）は、ｈ_ｎ（ｋ）＝[Ｈ_１ｎ（ｋ）…Ｈ_Ｍｎ（ｋ）]^Ｔとして表される。加法性雑音成分ｖ（ｋ，ｔ）は、ｖ（ｋ，ｔ）＝[Ｖ_１ｎ（ｋ）…Ｖ_Ｍ（ｋ）]^Ｔである。この発明では、対象とする加法性雑音は他の音源と比べ十分にゆっくりと変化すると仮定する。また、この発明では、チャネル応答は時不変とする。

この発明の各処理は、各周波数ｋごとに個別に行われるものであるため、以降の説明では簡単のため周波数インデックスｋは適宜省略して表記する。
また、観測信号には、ある時間周波数ビンでは多くとも一つの点音源に起因する音のみが存在し、それ以外の点音源に起因する音は存在しないとするスパース性の仮定を導入し、式（２）に示すように観測信号をモデル化する。

つまり、時間周波数ビンでは加法性雑音とｎ番目の目的音源に起因する音のみが存在すると仮定する。若しくは、式（３）に示すように、点音源に起因する音は存在せず、雑音のみが存在することを仮定する。

このようにスパース性の仮定を導入すれば、各時間周波数ビンは、Ｎ個中の何れかの目的音源に起因した特性か、雑音のみに起因した特性であるかを、大まかに切り分けることができる。観測信号ｙ（ｔ）を以上のようにモデル化した前提で、以下の実施例を説明する。

図１に、この発明の音源分離装置１００の機能構成例を示す。その動作フローを図２に示す。音源分離装置１００は、特徴ベクトル計算部１０と、音声・雑音存在確率計算部２０と、音声・雑音特徴計算部３０と、音声推定用フィルタ計算部４０と、多チャネルフィルタリング部５０と、を具備する。音源分離装置１００の各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

特徴ベクトル計算部１０は、多チャネル観測信号ｙ（ｔ）の各時間周波数ビンを特徴付ける特徴ベクトルψ（ｔ）を、複素領域の観測信号をそのノルムで正規化して計算する（ステップＳ１０）。音声・雑音存在確率計算部２０は、特徴ベクトルψ（ｔ）を入力として、その特徴ベクトルψ（ｔ）をＮ個の目的音源と加法性雑音に各々起因するＮ＋１個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する（ステップＳ２０）。

音声・雑音特徴計算部３０は、各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と多チャネル観測信号ｙ（ｔ）とを入力として、ｎ番目の目的信号の共分散行列＾Ｒ_ｘｎｘｎと観測信号に含まれる多チャネル観測信号ｙ（ｔ）の共分散行列＾Ｒ_ｙｙを計算する（ステップＳ３０）。音声推定用フィルタ計算部４０は、ｎ番目の目的信号の共分散行列＾Ｒ_ｘｎｘｎと、多チャネル観測信号ｙ（ｔ）の共分散行列＾Ｒ_ｙｙを入力として、観測信号に含まれるｎ番目の目的信号以外の不要成分を求め、目的信号を回復する一般化多チャネルウィナーフィルタｗ_ｎ ^（β）を計算する（ステップＳ４０）。多チャネルフィルタリング部５０は、多チャネル観測信号ｙ（ｔ）と一般化多チャネルウィナーフィルタｗ_ｎ ^（β）と各目的音源に関する事後確率とを入力として、ｎ番目の目的信号の推定値＾^〜Ｓ_ｎ ^（β）を出力する（ステップＳ５０）。制御部６０は、上記した各部間の時系列的な動作等を制御するものである。なお、＾^〜等の表記は、図及び式中に表記されているように変数の直上に位置するのが正しい表記である。

背景技術で説明した音声存在確率を１/０の２値で切り分ける従来のバイナリマスク処理では、目的信号が存在する時間周波数ビンにおける加法性雑音の除去は出来なかったのに対し、この実施例による方法によれば、観測信号に含まれる加法性雑音を抑圧し、Ｎ個の目的信号のそれぞれを分離して取り出すことが可能である。

以降において、音源分離装置１００の各部の機能を更に詳しく説明する。
〔特徴ベクトル計算部〕
Ｍ個のマイクロホンで観測された多チャネル観測信号ｙ（ｔ）のそれぞれは、短時間フーリエ変換処理によって複素スペクトル領域の信号に変換される。１番目のマイクロホンの複素スペクトルＹ_１（ｋ，ｔ）〜Ｍ番目のマイクロホンの複素スペクトルＹ_Ｍ（ｋ，ｔ）のベクトルが、ｙ（ｔ）＝[Ｙ_１（ｋ，ｔ）…Ｙ_Ｍ（ｋ，ｔ）]^Ｔである。
この複素領域の多チャネル観測信号ｙ（ｔ）を、そのノルムで正規化して特徴ベクトルψ（ｔ）を式（４）で計算する。

〔音声・雑音存在確率計算部〕
図３に、より具体的な音声・雑音存在確率計算部２０の機能構成例を示す。その動作フローを図４に示す。音声・雑音存在確率計算部２０は、クラスタ分類手段２０１と、初期化手段２０２と、期待値計算手段２０３と、最大化手段２０４と、収束判定手段２０５と、を備える。音声・雑音存在確率計算部２０は、特徴ベクトルψ（ｔ）を入力として、特徴ベクトルψ（ｔ）を、Ｎ個の「目的信号＋加法性雑音」と、「加法性雑音」のそれぞれの成分に起因するクラスタに自動分類し、各クラスタに関する事後確率ｐ[Ｃ_ｎ|ψ（ｔ），θ]を、期待値最大化法（ＥＭアルゴリズム）を用いて推定して音声存在確率として出力する。

クラスタ分類手段２０１は、特徴ベクトルψ（ｔ）を、式（５）を用いて確率密度関数でモデル化する（ステップＳ２０１）。つまり、クラスタ分類手段２０１は、特徴ベクトルψ（ｔ）を、Ｎ個の目的音源の各々に起因する成分と、加法性雑音に起因する成分とに分類し、Ｎ＋１個の確率密度関数でモデル化する。

密度関数を特徴付けるパラメータθ_ｎをθ_ｎ＝{ａ_ｎ，σ_ｎ}で表す。ａ_ｎはｎ番目のクラスタＣ_ｎの平均、σ_ｎ ^２はその分散である。

ここで、混合分布のパラメータθはθ＝{ａ_１，σ_１，…，ａ_Ｎ＋１，σ_Ｎ＋１}であり、ｎ番目の分布の重みパラメータα_ｎは、Σ_ｎα_ｎ＝１，０≦α_ｎ≦１の制約を満たす。

初期化手段２０２は、各混合分布パラメータθ_ｎを乱数で初期化する（ステップＳ２０２）。
期待値計算手段２０３は式（７）を用いて期待値（Ｅステップ）を計算する（ステップＳ２０３）。

ここで（ｑ）は、ＥＭアルゴリズムの繰り返し回数を表す。

最大化手段２０４は、式（８）を用いて特徴ベクトルψ（ｔ）に関する共分散行列Ｒを算出して、Ｒに関する固有値分解を行う。

そして、最大固有値に対応する固有ペクトルを平均パラメータａ_ｎ ^（ｑ）に代入して、分散パラメータσ_ｎ ^２を式（９）で更新し、混合重みパラメータα_ｎを式（１０）で更新（Ｍステップ）する（ステップＳ２０４）。

収束判定手段２０５は、分散パラメータσ_ｎ ^２と、混合重みパラメータα_ｎの更新幅が十分小さくなるまで、ステップＳ２０３とステップＳ２０４の処理を繰り返す（ステップＳ２０５の収束）。ＥＭアルゴリズムによる演算を収束するまで繰り返すことで、各時間周波数ビンにおける各信号成分の存在確率を計算することが可能となる。なお、この処理で得られたクラスタＣ_ｎに関する事後確率ｐ[Ｃ_ｎ|ψ（ｔ），θ]若しくは単純にｐ[Ｃ_ｎ|ψ（ｔ）]（ｎ＝１，…，Ｎ＋１）は、式（１１）に示す特性を満たすものとする。

式（１１）は、ある時間周波数ビンにおいてｎ番目の信号が存在する確率は、特徴ベクトルψ（ｔ）にて完全に規定されることを示している。なお、これらの音声存在確率の計算は、各周波数ｋで独立に行われるため、あるｎ番目の信号成分が、異なる周波数では異なるクラスタのインデックスを持つというパーミューテーション（入れ替わり）問題が起こる。周波数間で同じ信号を束ねるためのパーミューテーション問題の解決には、従来法（例えば非特許文献１）を用いることができる。

〔音声・雑音特徴計算部〕
図５に、より具体的な音声・雑音特徴計算部３０の機能構成例を示す。その動作フローを図６に示す。音声・雑音特徴計算部３０は、観測信号共分散行列計算手段３０１と、加法性雑音共分散行列計算手段３０２と、目的信号共分散行列計算手段３０３と、を備える。
観測信号共分散行列計算手段３０１は、多チャネル観測信号ｙ（ｔ）の共分散行列Ｒ_ｙｙを計算する。多チャネル観測信号ｙ（ｔ）の共分散行列Ｒ_ｙｙは、式（１２）で与えられる。

実際の計算としては、多チャネル観測信号のベクトルｙ（ｔ）とそのエルミート転置ｙ^Ｈ（ｔ）を乗じた値を総観測フレーム数Ｔで平均して求める（式（１３）、ステップＳ３０１）。

次に、加法性雑音の成分を含まない目的信号に関する共分散行列を算出する方法について説明する。音声・雑音存在確率計算部２０において多チャネル観測信号ｙ（ｔ）をＮ＋１個のクラスタに分類したことを考慮すると、式（１２）で示した観測信号の共分散行列Ｒ_ｙｙは、次のように各クラスタの和に分解できる。

ｎ番目の積分項は式（１５）で与えられる。

ｎ番目のクラスタに関する共分散行列は、加法性雑音に関する共分散行列Ｒ_ｖｖと、ｎ番目の目的信号の共分散行列Ｒ_ｘｎｘｎの和の形で表せる。Ｎ＋１番目のクラスタは、目的音源がＮ個であるので、加法性雑音に関する特徴を捉えることになる。つまり、Ｎ＋１番目のクラスタに関する共分散行列Ｒ_Ｎ＋１は、加法性雑音に関する共分散行列を表す（Ｒ_Ｎ＋１＝Ｒ_ｖｖ）。

この実施例で対象としている加法性雑音は、目的音源と比べて十分にゆっくりと変化する雑音を仮定しているため、１〜Ｎ番目のクラスタに含まれる加法性雑音成分とＮ＋１番目のクラスタで観測される加法性雑音成分とは、十分に近い特性を持っているものと考えることができる。したがって、加法性雑音に関する共分散行列＾Ｒ_ｖｖと、目的信号に関する共分散行列＾Ｒ_ｘｎｘｎは次のように計算することができる。

加法性雑音共分散行列計算手段３０２は、多チャネル観測信号ｙ（ｔ）と目的音源の事後確率ｐ[Ｃ_ｎ|ψ（ｔ），θ]を入力として、多チャネル観測信号ｙ（ｔ）のベクトルとそのエルミート転置ｙ^Ｈ（ｔ）と加法性雑音に関する事後確率ｐ[Ｃ_Ｎ＋１|ｙ（ｔ）]とを乗じた値を総観測フレーム数Ｔで平均して、加法性雑音の共分散行列＾Ｒ_ｖｖを計算する（式（１８）、ステップＳ３０２）。

目的信号共分散行列計算手段３０３は、多チャネル観測信号ｙ（ｔ）と目的音源の事後確率ｐ[Ｃ_ｎ|ψ（ｔ），θ]と加法性雑音の共分散行列＾Ｒ_ｖｖを入力として、多チャネル観測信号ｙ（ｔ）のベクトルとそのエルミート転置ｙ^Ｈ（ｔ）と各目的音源に関する事後確率ｐ[Ｃ_ｎ|ｙ（ｔ）]とを乗じた値を総観測フレーム数Ｔで平均した値から、加法性雑音の共分散行列＾Ｒ_ｖｖを減じて各々の目的信号に関する共分散行列＾Ｒ_ｘｎｘｎを計算する（式（１９）、ステップＳ３０３）。

〔音声推定用フィルタ計算部〕
音声推定用フィルタ計算部４０は、多チャネル観測信号ｙ（ｔ）の共分散行列Ｒ_ｙｙと、目的信号に関する共分散行列＾Ｒ_ｘｎｘｎを入力として、ｎ番目の目的信号に起因する信号成分を最小二乗誤差推定する。

ｎ番目の目的信号成分の最小二乗誤差推定は、以下のように与えられる。

式（２０）は、スパース性の仮定を導入することで導かれる。上式中のｎ番目のクラスタに関する事後確率は、最小二乗誤差推定値Ｅ｛^〜Ｓ_ｎ（ｔ）|ｙ（ｔ），Ｃ_ｎ｝を滑らかにマスクする効果を持つ。上式右辺第２項は、以下の二乗誤差ε_ｎ（ｗ）を最小化する多チャネルウィナーフィルタｗを求めることと等価である。

ε_ｎ（ｗ）を最小化するフィルタｗは、一般的に、以下のようなYule-walker方程式を解くことで導出される。

ここで、１番目のマイクロホンにおけるｎ番目の目的信号を回復しようとする場合は、ｕ_１はｕ_１＝[１０…０]^Ｔとなる。さらに、式（２２）のフィルタは、以下の式のように、ｎ番目の目的音源以外の成分をどの程度抑圧するかをβを用いて調節することのできるフィルタｗ_ｎ ^（β）に一般化することができる。

ここで、ｎ番目の目的信号以外の不要成分であるＲ_ｕｎは、次のように計算される。

音声推定用フィルタ計算部４０は、そのｎ番目の目的信号以外の不要成分Ｒ_ｕｎを、多チャネル観測信号ｙ（ｔ）の共分散行列Ｒ_ｙｙと、目的信号に関する共分散行列＾Ｒ_ｘｎｘｎを入力として求め、目的信号を回復する一般化多チャネルウィナーフィルタを式（２４）で計算して求める。

〔多チャネルフィルタリング部〕
多チャネルフィルタリング部５０は、多チャネル観測信号ｙ（ｔ）と、一般化多チャネルウィナーフィルタｗ_ｎ ^（β）と、各目的信号に関する事後確率ｐ[Ｃ_ｎ|ψ（ｔ），θ]と、を入力として、ｎ番目の目的信号の推定値を式（２６）でフィルタリングして出力する。

〔評価実験〕
この発明の音源分離装置１００の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。
目的信号を２つ（Ｎ＝２）とし、ＴＩＭＩＴデータベースからランダムに抽出した男女各１２名の話者のデータを用いた。混合の条件としては、女声２話者の混合、男性２話者の混合、女性話者１名と男声話者１名の混合、の３条件を模擬した。話者二人の位置は、マイクロホンアレーから2m離れ、互いに160度離れた位置とし、同程度の音量で混合した（SIR : Signal-to-Interference Ratio=0dB）。

加法性雑音としては、noisexデータベースから抽出したバブルノイズを用い、各マイクロホン信号のＳＮＲ（Signal-to-Noise Ratio）が5〜20dBとなるように加算した。この発明としては、多チャネルウィナーフィルタ（式（２４）のβ＝１）とＭＶＤＲ（Mininimum Variance Distortionless Responds、式（２４）のβ＝０）を作成し、非特許文献１と２に示された従来技術と比較を行った。マイクロホンの数としては、８と１６の２つの条件を用意した。

表１にＳＮＲの比較結果、表２にＳＩＲの比較結果を示す。

表１と２の比較結果から明らかなように、この発明の音源分離方法の方が、マイクロホンの数によらず高い性能を示した。

図７と図８に、この評価結果を信号波形で示す。図７は、処理前の波形を示し、（ａ）は話者１のクリーン音声、（ｂ）は話者２のクリーン音声、（ｃ）はそれぞれの話者音声と雑音を混合した音声である。図８に、音源分離後の信号波形を示す。（ａ）と（ｂ）は従来法で音源分離した話者１と話者２の信号波形、（ｃ）（ｄ）はこの発明の音源分離方法で音源分離した話者１と話者２の信号波形である。話者の信号が途切れる４秒付近の波形を比較すると、この発明の方法で音源分離した方がＳＮＲの良いことが分かる。このように、この発明の音源分離方法は、加法性雑音を効果的に抑圧した目的信号の抽出を可能にする。

上記した音声分離装置１００における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する特徴ベクトル計算部と、
上記特徴ベクトルを入力として、上記時間周波数ビンごとの観測信号が、それぞれ加法性雑音のみを含む、または、加法性雑音とＮ個の音源のうちのいずれか一つの音源に起因する目的信号とを含むと仮定したモデルに基づいて、当該特徴ベクトルをＮ個の目的音源と上記加法性雑音とに各々起因するＮ＋１個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する音声・雑音存在確率計算部と、
上記各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と、上記多チャネル観測信号とを入力として、ｎ番目の目的信号の共分散行列と観測信号に含まれる上記多チャネル観測信号の共分散行列を計算する音声・雑音特徴計算部と、
上記ｎ番目の目的信号の共分散行列と、上記多チャネル観測信号の共分散行列を入力として、上記多チャネル観測信号に含まれるｎ番目の目的信号以外の不要成分を求め、上記目的信号を回復する一般化多チャネルウィナーフィルタを計算する音声推定用フィルタ計算部と、
上記多チャネル観測信号と上記一般化多チャネルウィナーフィルタと上記各目的音源に関する事後確率とを入力として、ｎ番目の目的信号の推定値を出力する多チャネルフィルタリング部と、
を具備する音源分離装置。
多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する特徴ベクトル計算部と、
上記特徴ベクトルを入力として、当該特徴ベクトルをＮ個の目的音源と加法性雑音とに各々起因するＮ＋１個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する音声・雑音存在確率計算部と、
上記各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と、上記多チャネル観測信号とを入力として、ｎ番目の目的信号の共分散行列と観測信号に含まれる多チャネル観測信号の共分散行列を計算する音声・雑音特徴計算部と、
上記ｎ番目の目的信号の共分散行列と、上記多チャネル観測信号の共分散行列を入力として、観測信号に含まれるｎ番目の目的信号以外の不要成分を求め、上記目的信号を回復する一般化多チャネルウィナーフィルタを計算する音声推定用フィルタ計算部と、
上記多チャネル観測信号と上記一般化多チャネルウィナーフィルタと上記各目的音源に関する事後確率とを入力として、ｎ番目の目的信号の推定値を出力する多チャネルフィルタリング部と、
を具備し、
上記音声・雑音特徴計算部は、
上記多チャネル観測信号ｙ（ｔ）のベクトルとそのエルミート転置ｙ^Ｈ（ｔ）を乗じた値を、総観測フレーム数Ｔで平均して多チャネル観測信号ｙ（ｔ）の共分散行列Ｒ_ｙｙを計算する観測信号共分散行列計算手段と、
多チャネル観測信号ｙ（ｔ）と目的音源の事後確率ｐ[Ｃ_ｎ|ψ（ｔ），θ]を入力とし
て、多チャネル観測信号ｙ（ｔ）のベクトルとそのエルミート転置ｙ^Ｈ（ｔ）と加法性雑音に関する事後確率ｐ[Ｃ_Ｎ＋１|ｙ（ｔ）]とを乗じた値を総観測フレーム数Ｔで平均し
て、加法性雑音の共分散行列＾Ｒ_ｖｖを計算する加法性雑音共分散行列計算手段と、
多チャネル観測信号ｙ（ｔ）と目的音源の事後確率ｐ[Ｃ_ｎ|ψ（ｔ），θ]と上記加法
性雑音の共分散行列＾Ｒ_ｖｖを入力として、多チャネル観測信号ｙ（ｔ）のベクトルとそのエルミート転置ｙ^Ｈ（ｔ）と各目的音源に関する事後確率ｐ[Ｃ_ｎ|ｙ（ｔ）]とを乗じ
た値を観測信号Ｔで平均した値から、上記加法性雑音の共分散行列＾Ｒ_ｖｖを減じて各々の目的信号に関する共分散行列＾Ｒ_ｘｎｘｎを計算する目的信号共分散行列計算手段と、
を備えることを特徴とする音源分離装置。
多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する特徴ベクトル計算過程と、
上記特徴ベクトルを入力として、上記時間周波数ビンごとの観測信号が、それぞれ加法性雑音のみを含む、または、加法性雑音とＮ個の音源のうちのいずれか一つの音源に起因する目的信号とを含むと仮定したモデルに基づいて、当該特徴ベクトルをＮ個の目的音源と上記加法性雑音とに各々起因するＮ＋１個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する音声・雑音存在確率計算過程と、
上記各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と、上記多チャネル観測信号とを入力として、ｎ番目の目的信号の共分散行列と観測信号に含まれる上記多チャネル観測信号の共分散行列を計算する音声・雑音特徴計算過程と、
上記ｎ番目の目的信号の共分散行列と、上記多チャネル観測信号の共分散行列を入力として、上記多チャネル観測信号に含まれるｎ番目の目的信号以外の不要成分を求め、上記目的信号を回復する一般化多チャネルウィナーフィルタを計算する音声推定用フィルタ計算過程と、
上記多チャネル観測信号と上記一般化多チャネルウィナーフィルタと上記各目的音源に関する事後確率とを入力として、ｎ番目の目的信号の推定値を出力する多チャネルフィルタリング過程と、
を備える音源分離方法。
多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する特徴ベクトル計算過程と、
上記特徴ベクトルを入力として、当該特徴ベクトルをＮ個の目的音源と加法性雑音とに各々起因するＮ＋１個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する音声・雑音存在確率計算過程と、
上記各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と、上記多チャネル観測信号とを入力として、ｎ番目の目的信号の共分散行列と観測信号に含まれる多チャネル観測信号の共分散行列を計算する音声・雑音特徴計算過程と、
上記ｎ番目の目的信号の共分散行列と、上記多チャネル観測信号の共分散行列を入力として、観測信号に含まれるｎ番目の目的信号以外の不要成分を求め、上記目的信号を回復する一般化多チャネルウィナーフィルタを計算する音声推定用フィルタ計算過程と、
上記多チャネル観測信号と上記一般化多チャネルウィナーフィルタと上記各目的音源に関する事後確率とを入力として、ｎ番目の目的信号の推定値を出力する多チャネルフィルタリング過程と、
を備え、
上記音声・雑音特徴計算過程は、
上記多チャネル観測信号ｙ（ｔ）のベクトルとそのエルミート転置ｙ^Ｈ（ｔ）を乗じた値を、総観測フレーム数Ｔで平均して多チャネル観測信号ｙ（ｔ）の共分散行列Ｒ_ｙｙを計算する観測信号共分散行列計算ステップと、
多チャネル観測信号ｙ（ｔ）と目的音源の事後確率ｐ[Ｃ_ｎ|ψ（ｔ），θ]を入力とし
て、多チャネル観測信号ｙ（ｔ）のベクトルとそのエルミート転置ｙ^Ｈ（ｔ）と加法性雑音に関する事後確率ｐ[Ｃ_Ｎ＋１|ｙ（ｔ）]とを乗じた値を総観測フレーム数Ｔで平均し
て、加法性雑音の共分散行列＾Ｒ_ｖｖを計算する加法性雑音共分散行列計算ステップと、
多チャネル観測信号ｙ（ｔ）と目的音源の事後確率ｐ[Ｃ_ｎ|ψ（ｔ），θ]と上記加法
性雑音の共分散行列＾Ｒ_ｖｖを入力として、多チャネル観測信号ｙ（ｔ）のベクトルとそのエルミート転置ｙ^Ｈ（ｔ）と各目的音源に関する事後確率ｐ[Ｃ_ｎ|ｙ（ｔ）]とを乗じ
た値を総観測フレーム数Ｔで平均した値から、上記加法性雑音の共分散行列＾Ｒ_ｖｖを減じて各々の目的信号に関する共分散行列＾Ｒ_ｘｎｘｎを計算する目的信号共分散行列計算ステップと、
を含むことを特徴とする音源分離方法。
請求項１又は２に記載した音源分離装置としてコンピュータを機能させるためのプログラム。