JP2008026625A

JP2008026625A - マルチビン独立成分分析およびそれを用いたブラインド音源分離装置

Info

Publication number: JP2008026625A
Application number: JP2006199420A
Authority: JP
Inventors: Persia Leandro Ezequiel Di; レアンドロ・エセキエル・ディ・ペルシア; Diego Milone; ディエゴ・ミローネ; Masuzo Yanagida; 益造柳田
Original assignee: NACIONAL DE ENTRE RIOS, University of; NACIONAL DEL LITORAL, University of; Doshisha Co Ltd
Current assignee: NACIONAL DE ENTRE RIOS, University of; NACIONAL DEL LITORAL, University of; Doshisha Co Ltd
Priority date: 2006-07-21
Filing date: 2006-07-21
Publication date: 2008-02-07

Abstract

【課題】パーミュテーション問題をほとんど考慮する必要がなく、しかも、各周波数特性についてほぼ最適な分離を行うことのできるブラインド音源分離手法を提案する。
【解決手段】複数の音源から出力された音を複数の受音装置で受音して目的の音を分離する場合、まず、受音装置で受音した時間領域の信号を、分析フレーム毎にフーリエ変換して、時間周波数領域の信号を得る。そして、これから、全分析フレームにおけるスペクトルから、各周波数ビン毎のスペクトル成分の時間変化を抽出し、ある周波数ビンに隣接する複数の周波数ビンのスペクトル成分に対する時間変化を連結する。そして、各受音装置に対する連結信号を、各音源に対する当該周波数ビンにおける時間領域の信号に分離する。
【選択図】図５

Description

本発明は、独立成分分析を用いた音源分離方法においてパーミュテーション問題をほとんど考慮する必要のない手法に関するものである。

現在の音声認識システムは、マイクロホンに接近した位置からの音声に対してはそれなりに高い認識精度を有する。一方、マイクロホンから離れた位置からの音声に対しては、周囲の雑音や部屋の残響の影響を受けて認識率は著しく低下してしまう（非特許文献１）。実環境で音声認識を行うためには音声認識システムそのものの認識能力の向上とともに、それに入力される音声に対して何らか処理を行って認識しやすい形にしておくことが有効であると考えられる。その方法の一つがブラインド音源分離（BSS: Blind Source Separation）である。BSSとは、複数のマイクロホンへ線形に混合された信号が入力された時に、音源信号や混合過程を知ることなく、観測信号のみから音源信号を推定し分離する技術である。一般に、マイクロホン数をM、音源数をNとすると、マイクロホンM_mでの観測信号は、

と表される。数１において、観測可能な要素はx_m(t)だけで、h_mn(t)とs_n(t)は未知である。BSSはこのような状況において、s_n(t)を推定する問題である。しかし、時間領域のBSSでは、計算量が膨大になり、現実的な処理時間で分離フィルタを計算するのが困難であることが指摘されている。

そこで、一般に、このフィルタを直接求めずにその周波数特性を求める周波数領域BSSを用いることが多い。マイクロホン数M、音源数Nの混合モデルを求めるために、数１の両辺をフーリエ変換すると、X_m(f)=Σ_nH_mn(f)S_n(f)と表される。ここでX_m(f)、H_mn(f)、S_n(f) は、それぞれ x_m(t)、h_mn(t)、s_n(t) のフーリエ変換である。そして、m=1〜Mについてまとめると、周波数領域BSSの混合モデルは、

と表される。ただし、X(f)=(X₁(f),…,X_M(f))^Tは観測ベクトル、S(f)=(S₁(f) ,…,S_N(f))^Tは音源信号ベクトル、そして、H(f)は周波数fを変数とするＭ行Ｎ列の混合行列である。

BSSを解く手法として、各音源信号の独立性を仮定した独立成分分析（ICA）が一般的に用いられる。ICAには時間領域で処理する方法と周波数領域で処理する方法とがある。周波数領域ICAは、畳み込みを瞬時混合の問題に置き換えて解くことができるため、現在、実環境で使える手法として盛んに用いられている。

周波数領域ICAは、x_m(t)の標本化列に対する短時間フーリエ変換により得られた観測信号ベクトルX_m(f)の離散表現に対して、各周波数ビンにおいて学習されたW(f)を用いて分離を行う。ここで、Y(f)=(Y₁(f) ,…,Y_N(f))^Tを分離された信号のベクトル表現とすると分離過程は、連続領域で

と表される。

ICAは音源信号の独立性を最大にするという基準に基づいて分離を行っており、W(f)の行が入れ替わったとしてもY(f)の独立性は保たれるので、任意の周波数f₁とf₂において、Y_n(f₁)とY(f₂)が必ずしも同じ音源に対応しているとは限らない。従って、W(f)の行の並びをY_n(f₁)とY_n(f₂)が同じ音源に属するように並べ替える「パーミュテーション問題」を解決する必要がある。

パーミュテーション問題に対する従来の解決手法として、各周波数ビンでの指向特性を調べ、雑音源の方向を推定し、方向推定結果を基に並び替えを行う方法がある（非特許文献５）。しかし、すべての周波数において理想的なビームあるいは死角が形成できるわけではなく、特に低周波数における方向推定性能が低いと指摘されている。

そこで、パーミュテーション問題への対処法として各周波数ビンでの相関を用いた方法（非特許文献２）が提案されている。各周波数ビンのエンベロープは、同じ音源については、特に近傍の周波数で高い相関を持つと考えるのが妥当である。そのため、周波数差が比較的小さい範囲内で相関の和が最大になるように決定していくことが考えられるが、ある周波数で間違えると以降の周波数でも間違えてしまうため、安定性に欠けるといわれている。また、ICAによる分離性能が比較的良いと思われる周波数ビンからパーミュテーションを決定していく方法が提案されている（非特許文献２）が、この方法では、離れた周波数に対してもエンベロープの相関が高いことが仮定されているため適切ではない。

上述の欠点を補うために、方向推定と相関を統合した手法が提案されている（非特許文献６）。この方法では、まず指向特性を各周波数ビンに対して求め、確実に推定できる周波数に対してパーミュテーション問題を解決する。次に、未定の周波数ビンに対して周波数差が小さく、かつパーミュテーションが決定されている周波数ビンとの相関が最大になるように決定していく。しかし、この方法でも残響が強い場合に不安定になることが報告されている（非特許文献７）。

残響が強い場合に不安定になる原因として、低域での方向推定の困難さが挙げられている（非特許文献７）。そして、この問題を解決するために、調波構造を用いた方法が提案されている（非特許文献７）。有声音は基本周波数の整数倍のところで当該周波数ビンの成分の時間波形の相関が高くなる性質を持っており、調波構造性を用いることにより、より確実にパーミュテーション問題を解決することが可能となる。
中村哲:" 実音響環境に頑健な音声認識を目指して", 電子情報通信学会技術報告, SP2002-12, pp.31-36,2002. T.W.Lee: "Independent Component Analysis",Kluewer, 1998. S.Ikeda, and N.Murata: "A method of ICA in time-frequency domain", Proc WS on Independent Component Analysis and Blind Signal Separation (ICA’99), pp.365-371, Aussios, France, Jan., 1999. A.Hyvarinen, J.Karhunen, and E.Oja: "Independent Component Analysis", John Wiley, New York, 2001. S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura: "Evaluation of blind signal separation method using directivity pattern under reverberant conditions", Proc. ICASSP2000, pp3140-3143, Istanbul, Turkey, June, 2000. 澤田宏,向井良,荒木章子,牧野昭二, "周波数領域ブラインド音源分離におけるpermutation問題の解法",音響学会講演論文集,pp. 541-542,Sep, 2002. 澤田宏,向井良,荒木章子,牧野昭二, "周波数領域ブラインド音源分離におけるpermutation問題の頑健な解法",音響学会講演論文集,pp. 777-778,Mar, 2003.

しかし、これらの方法によっても本質的に並べ替えに失敗する可能性があり、パーミュテーション問題は解決されない。

さらに、周波数ビン毎に音声を分離する場合、分離される周波数ビンの標本点数が多ければ多いほど、その周波数特性に応じた最適な分離を行うことができるが、音声分離を行う際には、この分離の最適性を確保することが必要とされる。

そこで、本発明は上記課題に着目してなされたもので、パーミュテーション問題をほとんど考慮する必要がなく、しかも、各周波数特性についてほぼ最適な分離を行うことのできるブラインド音源分離手法を提案することを目的とする。

すなわち、本発明は上記課題を解決するために、複数の音源から出力された音を複数の受音装置で受音して目的の音を分離する場合、まず、受音装置で受音した時間領域の信号を、分析フレーム毎にフーリエ変換して、時間周波数領域の信号を得る。そして、これから、各周波数ビン毎のスペクトル成分の時間変化を抽出し、ある周波数ビンに隣接する複数の周波数ビンのスペクトル成分に対する時間変化を連結する。そして、各受音装置に対する連結信号を各音源に対する当該周波数ビンにおける時間領域の信号に分離するようにしたものである。

すなわち、従来の周波数領域BSSでは、受音した時間領域の信号を、図３に示すように分析フレーム毎にフーリエ変換し、これを図４に示すように、各周波数ビン毎のスペクトル成分の時間変化として抽出して、各周波数ビン毎の分離行列を用いて分離していたが、この手法では、各周波数ビン毎に異なる分離行列を用いるため、各分離された信号がいずれの音源の信号なのかを判別することができない。このため、組み合わせに自由度ができてしまい、いわゆるパーミュテーション問題を生じてしまっていた。さらに、学習された分離行列を用いて分離を行う場合、標本点の数が多ければ多いほど学習能力が高くなり、分離精度がよくなるが、従来の方法であれば分析フレームの数だけしか標本点を取ることができないため、分離の精度がよくならない。加えて、従来の手法では、周波数ビン毎に異なる分離行列を用いていたため、分離された信号の振幅に不確実性を生じてしまい、これを修正しなければならなくなる。これに対して、本発明によれば、各周波数ビン毎のスペクトル成分の時間変化を複数連結した後、一括して分離行列を用いて分離するようにしたので、組み合わせの自由度を少なくしてパーミュテーション問題をほとんど解決することができ、さらには、連結された周波数ビンに分析フレーム数を乗じた標本点の数に基づいて分離処理を行うので、分離精度もよくなる。

また、このような発明において、全周波数ビンを連結して一括分離するとともに、各受音装置について隣接周波数ビンのスペクトル成分の時間変化を部分的に連結して各音源毎の信号に分離する。そして、一括分離された結果を参照して、各音源毎に分離された時間領域の信号を並び替える。

このようにすれば、全周波数ビンについて連結して一括分離の結果を参照することで、パーミュテーション問題をほとんど考慮する必要がなくなり、しかも、複数の周波数ビン毎にその周波数特性を考慮して分離された信号を並び替えることで、パーミュテーション問題と分離の最適化の妥協点を見つけることができる。

本発明によれば、複数の周波数ビンを連結して分離処理を行うので、パーミュテーション問題における組み合わせの自由度を激減させることができ、また、連結された周波数ビンに分析フレーム数を乗じた数の標本点に基づいて分離処理を行うので分離精度もよくなる。

以下、本発明の一実施の形態について図面を参照して説明する。図１は、周波数領域BSS手法を用いた装置の機能ブロック図を示したものである。以下では、音源として２つの音源S1と音源S2を用い、集音装置として２つのマイクロホンM1、M2を設けた場合を例とする。ここで、音源の種類としては、人間の声などのような可聴周波数領域の音波を出力する音源を用いる。また、マイクロホンの数は音源の数以上であればよく、３個以上のマイクロホンを設けるようにしてもよい。

図１の機能ブロックについて説明すると、まず、受音装置１はマイクロホンやマイクロホンアレイなどの装置によって構成される。そして、図２に示す２つのビームを形成し、音源と雑音方向を推定する。このビームフォーマーを求めるために、推定音源の独立性を表す表か指標を用いる。

この受音装置１によって受音された信号は、まず、時間領域の信号として記憶部に格納される。そして、この信号を周波数領域変換部２にて時間周波数領域の信号に変換し、同様に記憶部に格納していく。時間領域の信号を時間周波数領域の信号に変換する場合、分析フレームをオーバーラップさせて少しずつずらしながら各分析フレーム内で短時間フーリエ変換（STFT)する。ここでは分析フレームの個数をm個としている。これにより、図３や図４に示すような時間周波数領域における離散的な信号が得られる。この領域のうち時間軸上においては、m個の分析フレームに基づく離散的な信号が存在し、また、周波数軸上においては、n個の離散的な信号が存在する。なお、図３と図４は同じ信号空間を示しており、図３は分析フレーム毎の周波数スペクトルとして、また、図４は各周波数ビンの成分の時間変化として示している。

第一の読取部３は、この記憶部に格納されている時間周波数領域内の信号から、各周波数ビン毎におけるスペクトル成分の時間変化を読み取る。すなわち、分析フレーム毎に図３のように並べられた離散的な信号を、今度は、図４に示すように周波数ビン毎の信号として読み取る。

連結部４では、この図５に示すように、各周波数ビン毎のスペクトルの時間変化を強制的に連結した信号を得る。この連結に際しては、ある周波数ビンに隣接する予め定められた個数の周波数ビンを連結する。このとき、ある周波数f_kのスペクトル成分におけるt=t₁〜t_mの時間変化を表す信号の前に、周波数f_k-1,f_k-2のスペクトル成分におけるt=t₁〜t_mの時間変化を表す信号を低周波数側から順に連結し、また、周波数f_kのスペクトル成分の時間波形の後に、周波数f_k+1, f_k+2のスペクトル成分の波形を順に連結する。そして、この連結された周波数ビンのスペクトル成分の時間は計を後述する分離部５によって分離処理し、その中心となる周波数f_kにおけるスペクトル成分の時間変化を各音源の独立性が最大となるようにして求める。また、同様にして、全ての周波数ビンのスペクトル成分の時間変化を連結し、一つの連結された信号とする。そして、次の分離部５を用いて一括した分離処理を行う。

分離部５は、連結された周波数ビンの時間信号を、各音源の時間信号に分離する。この分離手法としては、JADEやFAST ICAなどの手法が存在するが、JADEを用いた場合について説明する。

JADEとは、Cardosoらにより提案された手法で、4次クロスキュムラントを対角化する手法である。4次クロスキュムラントは次のように定義される。

観測信号x(t)を平均0として無相関化したものをz(t)とし、音源信号s(t)と無相関化された観測信号z(t)はある直交行列U = (u_1,…,u_N)により、

という関係で結ばれている。独立性の仮定から、

となる。ここで、N×N行列M=(m_ij)により縮約されたkurtosisの行列の第i, j要素

を考える。sのインデックスが全て同じ時だけがゼロでない値をもつから、κ_i = cum(s_i, s_i, s_i, s_i)として数７を変形すると

となる。ここで

とすると、

直交行列であるWで対角行列を挟んでいるので、C(M)は対称行列になっている。このC(M)を対角化するWを探すのがJADEである。行列の対角化にはJacobi法を用いることができる。Jacobi法は理想的には2次収束することが知られているので、JADEは収束の速いアルゴリズムといえる。ただし、JADEは4次元配列を用いるので、信号数があまり多くない時には問題がないが、信号数が多い時には計算上の問題がある。

周波数上でICAを行う場合は、各周波数ビンに対して分離行列W(f)を求める必要があり、通常はここで、パーミュテーションが問題となる。しかし、提案法において一括分離を行う場合は、分離行列を求めるのは一度でよいので、パーミュテーションは問題とならない。

分割部６は、分離部５によって分離された信号を周波数ビン毎のスペクトルの時間変化に戻す。すなわち、この処理においては、連結された信号を個々の周波数ビンの分離信号に分割し、そのうち中心となる周波数ビンの信号波形を抽出して記憶部に格納する。また、同様に、連結された信号波形に対して、それを個々の周波数ビンの時間信号に分割し、記憶部に格納する。

並び替え部７は、この一括分離された信号をもとに、必要ならば個々に分離された信号の入れ替え処理を行う。すなわち、一括分離された信号のうち、分析フレームにおける分離信号がどちらの音源に対応しているかを読み取り、これに類似するように個々に分離された信号を読み出して音源毎に並び替えていく。そして、この並び替えられた信号を、時間周波数領域に並べていく。

第二の読取部８は、この時間周波数領域に並べられた信号を周波数スペクトルの分析フレーム毎の変化として読み取り、これを時間領域変換部９にて分析フレーム毎にフーリエ逆変換することによって時間領域の信号に戻す。そして、この時間信号に戻された信号を、分析フレーム順に連結し、各音源毎に分離された信号として出力部１０から出力する。

次に、このように構成された周波数領域BSS手法を用いた処理のフローチャートについて図６を用いて説明する。

まず、受音装置１で受音された信号を（ステップS1)、時間領域の波形として記憶部に記憶する。そして、周波数領域変換部２により、分析フレーム毎に短時間フーリエ変換を行うとともに（ステップS2)、すべての分析フレームについて短時間フーリエ変換を行うまでこの処理を続ける（ステップS3)。このとき、図３に示すように、時間周波数領域内において分析フレーム分（m個）の離散的な周波数スペクトルが並べられる。次に、この並べられた信号を、図４に示すように、各周波数ビン毎のスペクトル成分の時間変化として読み出し（ステップS4)、各周波数ビンでのスペクトル成分の時間変化を全周波数ビンについて連結する（ステップS5)。その後、受音装置毎に連結された周波数成分の時間信号をJADEを用いて一括して各音源毎に分離し（ステップS6)、その分離された時間周波数領域での信号を各周波数ビンへの信号へ分割する（ステップS7)。

また、対象とする周波数ビンの左右に隣接する所定の個数（例えば、２個）の周波数ビンを連結し（ステップS8）、５個の連結された周波数ビンの信号を対象としてJADEを用いて分離する（ステップS9）。このとき、帯域の両側の周波数ビンにおける周波数ビンについては、左右に規定の同数の周波数ビンを連結することができないため、図５に示すように、利用可能な周波数ビンのみを連結するか、もしくは、図７に示すように、規定より小さい数で左右同一の周波数ビンだけを用いて分離処理を行う。この段階での分離結果は、対象とする周波数ビンに対するものと考えて、当該部分のみを各音源の周波数ビンに関する時間波形とみなす（ステップS10）。そして、この抽出された分離信号が、一括分離された信号においてどちらの音源に属しているのかを判定し、この判定結果に基づいて分離信号を各音源に並び替えていく（ステップS11）。そして、分離された時間周波数領域の信号を分析フレーム毎の周波数スペクトルの時間経過として読み出し、分析フレーム単位でフーリエ逆変換することによって時間領域の信号に戻す（ステップS12）。そして、このように分離された音声を連結して出力する（ステップS13）。

上述のように本実施の形態によれば、各周波数に隣接する周波数ビンを連結して分離するようにしたので、隣接周波数における標本点数を用いることによって実効的に時間軸上の標本点数（分析フレーム数）を多くした状態で分離処理することができ、周波数特性に応じた精度良い分離処理を行うことができるようになる。また、このとき、全周波数ビンを一括分離した結果を参照し、各分離された信号がいずれの音源に属するのかを振り分けるようにしたので、分離精度の維持を図りながらパーミュテーション問題を解決することができるようになる。

以下に、上記実施の形態を用いたシステムの評価結果について説明する。

１．評価データ
音声の収録は一般家庭のリビングルームを想定した部屋で行った。TSPにより測定した残響時間は310msである。音源（スピーカ）と観測点（マイクロホン）の配置を図８に示す。観測点は固定し、音源の配置は図中のθ=-30°,0 °（時計回りを正）となるようにし、それぞれの配置をL，Mとする。マイクロホンには素子間隔5cm の2素子アレイを用いた。音源信号は、男女各1名ずつで、女性(配置:M)による10フレーズ、男性(配置:L)による10フレーズの組み合わせで、合計100個の混合音声について考える。女性および男性の音声を個別に収録し、S/Nの調整を行うことなくそのまま加算した。

２．評価指標
S/N を用いて分離信号を評価する。S/N は以下のように定義した。

３．評価対象
比較対象のアルゴリズムは、JADE法によって周波数領域ICAを行い、パーミュテーションに関しては、周波数ビン間の相関を用いるIkeda et al.（非特許文献２）の手法である。

４．評価結果
評価は、比較対象のアルゴリズムでパーミュテーション問題の解決ができない例に対して、提案法では解決できていることを、スペクトログラムをスペクトル上での比較によって行う。音響分析条件を表1に示す。

図９の縦軸は分離処理後のS/N(信号対雑音比)で、値の大きい方が分離がいいことを示し、横軸は処理方式を表す。各方式に、左から女性、男性、平均の結果が示されている。左側は通常の周波数領域ICAで、パーミュテーション誤りがいくつかあるためにS/Nがそれほどよくない。その右は一括分離による方法で、各周波数ビンについての最適性が失われていることによってS/Nは男性ではむしろ下がっている。その右が本手法で、同時に処理する左右の周波数ビンの片側の数nを示す。図は512点FFTを用い、nを1,2,3,4,5,10,15,20としたときのS/Nとその平均である。男性については隣接高調波までの間隔が狭く、同時処理する周波数ビンの数nは多くなくてもいい（n=4〜5で最適）が、女性は基本周波数が高いため、nを多くしないと分離性能が上がらない。

本発明の一実施の形態におけるパーミュテーションフリー・ブラインド音源分離装置の機能ブロック図同形態において推定すべき指向特性を示す図同形態における分析フレーム区間毎にSTFTした値を並べた図図３における信号を各周波数ビン毎にみた図同形態における隣接する周波数ビンを連結した状態を示す図同形態における処理のフローチャートを示す図同形態における隣接する周波数ビンを連結した状態を示す図本発明の実施例におけるデータ収録環境を示す図同実施例における全分離結果のセグメンタルSNRの平均値の比較を示す図

符号の説明

１・・・受音装置
２・・・周波数領域変換部
３・・・第一の読取部
４・・・連結部
５・・・分離部
６・・・分割部
７・・・並び替え部
８・・・第二の読取部
９・・・時間領域変換部
１０・・・出力部

Claims

複数の音源から出力された音を複数の受音装置で受音し、目的の音を抽出するブラインド音源分離方法において、
受音装置によって受音した信号をフレームシフトさせながらフーリエ変換し、時間周波数領域の信号を得るステップと、
全分析フレームの周波数スペクトルから、各周波数ビン毎のスペクトル成分の時間変化を抽出するステップと、
ある周波数ビンに隣接する一定数の周波数ビンの成分に対する時間変化波形を連結して連結波形を得るステップと、
複数の受音装置についての当該連結波形を、各音源に対する周波数ビンの時間信号に分離するステップと、
当該分離された結果を各音源信号の時間周波数領域表現とみて、周波数スペクトルのフレーム毎の時間変化を得るステップと、
各音源についてのフレーム毎の時間変化をフーリエ逆変換することによって、時間領域の信号を得るステップと、
各音源についてのフレーム毎の時間波形を連結して全時間波形を得るステップを備えたことを特徴とするブラインド音源分離方法。
複数の音源から出力された音を複数の受音装置で受音し、目的の音を抽出するブラインド音源分離方法において、
受音装置によって受音した信号をフレームシフトさせながらフーリエ変換し、時間周波数領域の信号を得るステップと、
全分析フレームの周波数スペクトルから、各周波数ビン毎のスペクトル成分の時間変化を抽出するステップと、
全周波数ビンの成分に対する時間変化波形を連結し、当該連結された連結波形を各音源における時間周波数領域の信号に一括分離するステップと、
ある周波数ビンに隣接する一定数の周波数ビンの成分に対する時間変化波形を連結し、当該連結された連結波形を、各音源に対する周波数ビンの時間信号に分離するステップと、
当該分離された信号を、前記一括分離された信号をもとに周波数ビン毎に並び替えるステップと、
当該並び替えられた結果の信号を各音源信号の時間周波数領域表現とみて、周波数スペクトルのフレーム毎の時間変化を得るステップと、
各音源についてのフレーム毎の時間変化をフーリエ逆変換することによって、時間領域の信号を得るステップと、
各音源についてのフレーム毎の時間波形を連結して全時間波形を得るステップを備えたことを特徴とするブラインド音源分離方法。
複数の音源から出力された音を複数の受音装置で受音し、目的の音を抽出するブラインド音源分離装置において、
受音装置によって受音した信号をフレームシフトさせながらフーリエ変換し、時間周波数領域の信号を得る周波数領域変換部と、
全分析フレームの周波数スペクトルから、各周波数ビン毎のスペクトル成分の時間変化を読み取る第一の読取部と、
ある周波数ビンに隣接する一定数の周波数ビンの成分に対する時間変化波形を連結して連結波形を得る連結部と、
複数の受音装置についての当該連結波形を、各音源に対する周波数ビンの時間信号に分離する分離部と、
当該分離された結果を各音源信号の時間周波数領域表現とみて、周波数スペクトルのフレーム毎の時間変化を読み取る第二の読取部と、
各音源についてのフレーム毎の時間変化をフーリエ逆変換することによって、時間領域の信号を得る時間領域変換部と、
各音源についてのフレーム毎の時間波形を連結して全時間波形を得て出力する出力部とを備えたことを特徴とするブラインド音源分離装置。
複数の音源から出力された音を複数の受音装置で受音し、目的の音を抽出するブラインド音源分離装置において、
受音装置によって受音した信号をフレームシフトさせながらフーリエ変換し、時間周波数領域の信号を得る周波数領域変換部と、
全分析フレームの周波数スペクトルから、各周波数ビン毎のスペクトル成分の時間変化を読み取る第一の読取部と、
各周波数ビンを全周波数標本点について連結し、当該連結された全周波数ビンの信号を各音源における時間周波数領域の信号に一括分離するとともに、ある周波数ビンに隣接する一定数の周波数ビンの成分に対する時間変化波形を連結して連結波形を得る連結部と、
複数の受音装置についての当該連結波形を各音源に対する周波数ビンの時間信号に分離する分離部と、
該連結された連結波形を、各音源に対する周波数ビンの時間信号に分離するステップと、
当該分離された信号を、前記一括分離された信号をもとに周波数ビン毎に並び替える並び替え部と、
当該並び替えられた分離の信号を各音源信号の時間周波数領域表現とみて、周波数スペクトルのフレーム毎の時間変化を読み取る第二の読取部と、
各音源についてのフレーム毎の時間変化をフーリエ逆変換することによって、時間領域の信号を得る時間領域変換部と、
各音源についてのフレーム毎の時間波形を連結して全時間波形を得て出力する出力部とを備えたことを特徴とするブラインド音源分離装置。