JP4462617B2

JP4462617B2 - 音源分離装置，音源分離プログラム及び音源分離方法

Info

Publication number: JP4462617B2
Application number: JP2004345017A
Authority: JP
Inventors: 孝之稗方; 孝司森田; 洋猿渡
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2004-11-29
Filing date: 2004-11-29
Publication date: 2010-05-12
Anticipated expiration: 2024-11-29
Also published as: JP2006154314A

Description

本発明は，所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で，その音声入力手段各々を通じて入力される前記音源各々からの個別音声信号が重畳された複数の混合音声信号から，１以上の前記個別音声信号を同定（分離）する音源分離装置，音源分離プログラム及び音源分離方法に関するものである。

所定の音響空間に複数の音源と複数のマイク（音声入力手段）とが存在する場合，その複数のマイクごとに，複数の音源各々からの個別音声信号（以下，音源信号という）が重畳された音声信号（以下，混合音声信号という）が取得される。このようにして取得（入力）された複数の前記混合音声信号のみに基づいて，前記音源信号各々を同定（分離）する音源分離処理の方式は，ブラインド音源分離方式（Blind Source Separation方式，以下，ＢＳＳ方式という）と呼ばれる。
さらに，ＢＳＳ方式の音源分離処理の１つに，独立成分分析法（Independent Component Analysis，以下，ＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理がある。このＩＣＡ法に基づくＢＳＳ方式は，複数のマイクを通じて入力される複数の前記混合音声信号（時系列の音声信号）において，前記音源信号どうしが統計的に独立であることを利用して所定の逆混合行列を最適化し，入力された複数の前記混合音声信号に対して最適化された逆混合行列によるフィルタ処理を施すことによって前記音源信号の同定（音源分離）を行う処理方式である。このようなＩＣＡ法に基づくＢＳＳ方式の音源分離処理は，例えば，非特許文献１や非特許文献２等に詳説されている。
一方，音源分離処理としては，バイノーラル信号処理（分解）による音源分離処理も知られている。これは，人間の聴覚モデルに基づいて複数の入力音声信号に時変のゲイン調節を施して音源分離を行うものであり，比較的低い演算負荷で実現できる音源分離処理である。これについては，例えば，非特許文献３や非特許文献４等に詳説されている。
猿渡洋，「アレー信号処理を用いたブラインド音源分離の基礎」，電子情報通信学会技術報告，vol.EA2001-7，pp.49-56，April 2001. 高谷智哉他，「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」，電子情報通信学会技術報告，vol.US2002-87，EA2002-108，January 2003. R.F.Lyon, "A computational model of binaural localization and separation," In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993. N.Murata and S. Ikeda. A on-line algorithm for blind source separation on speech signals. In Proceedings of NOLTA'98, pp. 923-926,1998 梶田，小林，武田，板倉，「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」，日本音響学会誌，53巻5号，pp.337-345 (1997) 鵜飼訓史他，「周波数領域ＩＣＡと時間領域ＩＣＡを統合したＳＩＭＯモデル信号のブラインド抽出法の評価」，電子情報通信学会技術報告，vol.EA2004-23, pp.37-42,June 2004

しかしながら，前記音源信号（個別音声信号）の独立性に着目したＩＣＡ法に基づくＢＳＳ方式による音源分離処理を実環境で用いた場合，音声信号の伝達特性や背景ノイズ等の影響により，統計量を高精度で推定できず（即ち，前記逆混合行列が十分に最適化されず），十分な音源分離性能（前記音源信号の同定性能）が得られない場合があるという問題点があった。
また，バイノーラル信号処理による音源分離処理は，処理が簡易で演算負荷が低い反面，音源の位置に対しての頑健性が悪い等，一般に音源分離性能は劣るという問題点があった。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られる音源分離装置，音源分離プログラム及び音源分離方法を提供することにある。

上記目的を達成するために本発明は，所定の音響空間に複数の音源と複数の音声入力手段（マイクロホン）とが存在する状態でその音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から，１以上の前記音源信号を分離（抽出）した分離信号を生成する音源分離装置，或いはそのプログラム若しくはその方法に適用されるものであり，まず，第１段階として，独立成分分析法に基づくブラインド音源分離方式の音源分離処理により，複数の前記混合音声信号から１以上の前記音源信号ごとに対応する複数の分離信号であるＳＩＭＯ（single-input multiple-output）信号を分離生成（抽出）し（第１の音源分離），次に，第２段階として，第１段階での音源分離処理（分離生成）により得られた前記ＳＩＭＯ信号の単位で比較的処理がシンプルなバイナリーマスキング処理を施すことによって得られる信号を前記音源信号に対応する分離信号とする（第２の音源分離）ものである。
このような２段階の音源分離処理により，後述するように，ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られることがわかった。また，単に２段階の音源分離処理を行うだけでは必ずしも有効ではないが，１段階目のＩＣＡ法に基づくＢＢＳ方式の音源分離処理で得られた前記ＳＩＭＯ信号（single-input multiple-output，音源信号ごとに得られる複数の分離信号（同定信号）群）の単位でバイナリーマスキング処理を施しているため，高い音源分離性能が得られる。

ここで，第１段階の音源分離処理としては，周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理や，周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うことが考えられる。
なお，前記周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理とは，後述するように，時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換処理と，その周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した分離信号（第１の分離信号）を生成するＦＤＩＣＡ音源分離処理と，前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づいて前記ＦＤＩＣＡ音源分離処理により分離された分離信号（前記第１の分離信号）を除く残りのものを減算した分離信号（第２の分離信号）を生成する減算処理と，前記第１の分離信号及び前記第２の分離信号に基づく所定の評価関数を用いた逐次計算を行うことによって前記ＦＤＩＣＡ音源分離処理で用いる前記分離行列を計算する分離行列計算処理とを行うものである。これにより，時間領域の混合音声信号を時間領域のままで処理する時間領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理に比べ，処理負荷を大幅に軽減できる。
また，それらよりも演算負荷は高いが，第１段階の音源分離処理として，時間領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行うことも考えられる。この場合，その第１段階の音源分離処理に用いる分離行列の初期値（初期行列）を，周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理や，周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理により，複数の前記混合音声信号からＳＩＭＯ信号を分離生成する過程で算出される分離行列に基づいて設定する（初期分離行列設定）ことが考えられる。これにより，さらに音源分離性能が向上することがわかった。

ところで，一般に，ＩＣＡ法に基づくＢＳＳ方式による音源分離処理は，十分な音源分離性能を得るためには，分離処理（フィルタ処理）に用いる分離行列を求めるための逐次計算（学習計算）の回数が増えるので演算負荷が高くなり，その計算を実用的なプロセッサで行うと入力される混合音声信号の時間長に対して数倍の時間を要し，リアルタイム処理には適さない。特に，音響環境の変化（音源の移動や音源の追加・変更等）が大きい場合に十分な音源分離性能が得られなくなるといった状況が生じる。
一方，前記バイナリーマスキング処理は，製品組み込み用として実用的なプロセッサによってリアルタイム処理が可能であるとともに，音響環境が変化しても比較的安定した音源分離性能が得られるが，その音源分離性能は，前記分離行列の学習が十分なされたＩＣＡ法に基づくＢＳＳ方式による音源分離処理に比べるとはるかに劣る。
しかしながら，以上示した本発明に係る音源分離処理によれば，以下のような構成により，音源分離性能を確保しつつリアルタイム処理が可能となる。
例えば，第１段階目の音源分離処理における分離行列の逐次計算回数を制限することが考えられる。
即ち，第１段階目の音源分離処理（第１の音源分離手段の処理）において，時系列に入力される前記混合音声信号を予め定められた周期で区分された区間信号ごとに，所定の分離行列に基づく分離処理を順次実行して前記ＳＩＭＯ信号を生成するとともに，その分離処理により生成した前記区間信号の時間帯に対応する全ての時間帯の前記ＳＩＭＯ信号に基づいて，その後に（以降に）用いる前記分離行列を求める逐次計算（学習計算）を行うものであって，その逐次計算の回数を前記予め定められた周期の時間内で実行可能な回数に制限することが考えられる。
このように，第１段階目のＩＣＡ法に基づくＢＳＳ方式による音源分離処理において，前記分離行列を求める逐次計算（学習計算）の回数を，リアルタイム処理が可能な範囲に制限すると学習が不十分となるため，得られる前記ＳＩＭＯ信号は，十分な音源分離（同定）がなされた信号にならないことが多い。しかしながら，それによって得られた前記ＳＩＭＯ信号にリアルタイム処理が可能な第２段階目の前記バイナリーマスキング処理をさらに施すことによって音源分離性能が向上するので，音源分離性能を確保しつつリアルタイム処理が可能となる。

また，第１段階目の音源分離処理における分離行列の逐次計算に用いるＳＩＭＯ信号のサンプル数を減らすことも考えられる。
即ち，第１段階目の音源分離処理（第１の音源分離手段の処理）において，時系列に入力される前記混合音声信号を予め定められた周期で区分された区間信号ごとに，所定の分離行列に基づく分離処理を順次実行して前記ＳＩＭＯ信号を生成するとともに，その分離処理により生成した前記区間信号の時間帯のうちの先頭側の一部の時間帯に対応する前記ＳＩＭＯ信号に基づいて，以降に用いる前記分離行列を求める逐次計算を前記予め定められた周期の時間内で実行することが考えられる。
このように，第１段階目のＩＣＡ法に基づくＢＳＳ方式による音源分離処理において，前記分離行列を求める逐次計算（学習計算）に用いる前記ＳＩＭＯ信号を先頭側の一部の時間帯の信号に限定することにより，十分な回数の逐次計算（学習）を行ってもリアルタイム処理が可能にはなる（前記予め定められた周期の時間内で十分な学習が可能となる）が，学習に用いるサンプル数が少ないため，やはり得られる前記ＳＩＭＯ信号は，十分な音源分離（同定）がなされた信号にならないことが多い。しかしながら，それによって得られた前記ＳＩＭＯ信号にリアルタイム処理が可能な第２段階目の前記バイナリーマスキング処理をさらに施すことによって音源分離性能が向上するので，音源分離性能を確保しつつリアルタイム処理が可能となる。

本発明によれば，独立成分分析法に基づくブラインド音源分離方式の音源分離処理に，比較的簡易なバイナリーマスキング処理による音源分離処理を加えた２段階処理を行うことにより，ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られる。
さらに，第１段階の音源分離処理として，時間領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行う場合に，それに用いる分離行列の初期値（初期行列）を，周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理や，周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理によって算出される分離行列に基づいて設定することにより，さらに音源分離性能が向上する。
また，第１段階の音源分離処理における分離行列の逐次計算回数を制限したり，その逐次計算に用いるＳＩＭＯ信号のサンプル数を減らすことにより，音源分離性能を確保しつつリアルタイム処理が可能となる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図，図２は本発明の第１実施例に係る音源分離装置Ｘ１の概略構成を表すブロック図，図３はＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ｚ１の概略構成を表すブロック図，図４はＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う従来の音源分離装置Ｚ２の概略構成を表すブロック図，図５はＦＤＩＣＡ法に基づく音源分離処理を行う従来の音源分離装置Ｚ３の概略構成を表すブロック図，図６はＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う音源分離装置Ｚ４の概略構成を表すブロック図，図７はＦＤＩＣＡ−ＰＢ法に基づく音源分離処理を行う従来の音源分離装置Ｚ５の概略構成を表すブロック図，図８はバイナリーマスキング処理を説明するための図，図９は音源分離装置Ｘ１によるバイナリーマスキング処理の前後の信号における周波数成分ごとの信号レベル分布の一例（音源信号各々の周波数成分に重複がない場合）を模式的に表した図，図１０は音源分離装置Ｘ１によるバイナリーマスキング処理の前後の信号における周波数成分ごとの信号レベル分布の一例（音源信号各々の周波数成分に重複がある場合）を模式的に表した図，図１１は音源分離装置Ｘ１を用いた音源分離性能評価の実験条件を表す図，図１２は従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件Ａの下で音源分離を行ったときの音源分離性能を表すグラフ，図１３は従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件Ｂの下で音源分離を行ったときの音源分離性能を表すグラフ，図１４は本発明の第２実施例に係る音源分離装置における音源分離処理手順を表すフローチャート，図１５は従来の音源分離装置と本発明の第１実施例に係る音源分離装置と本発明の第２実施例に係る音源分離装置との各々により音源分離を行ったときの音源分離性能を表すグラフ，図１６は本発明の第３実施例に係る音源分離装置の処理を説明するためのタイムチャート，図１７は本発明の第４実施例に係る音源分離装置の処理を説明するためのタイムチャートである。

まず，本発明の実施形態について説明する前に，図３〜図７に示すブロック図を用いて，各種のＩＣＡ法に基づくブラインド音源分離方式（ＩＣＡ法に基づくＢＳＳ方式）の音源分離装置について説明する。
なお，以下に示す音源分離処理或いはその処理を行う装置等は，いずれも所定の音響空間に複数の音源と複数のマイクロホン（音声入力手段）とが存在する状態で，そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号（以下，音源信号という）が重畳された複数の混合音声信号から，１以上の音源信号を分離（同定）した分離信号を生成する音源分離処理或いはその処理を行う装置等に関するものである。

図３は，ＩＣＡ法の一種である時間領域独立成分分析法（time-domain independent component analysis法，以下，ＴＤＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ｚ１の概略構成を表すブロック図である。なお，本処理の詳細は，非特許文献１や非特許文献２等に示されている。
音源分離装置Ｚは，分離フィルタ処理部１１により，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（音源ごとの音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)について，分離行列Ｗ(ｚ)によりフィルタ処理を施すことによって音源分離を行う。
図３には，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（個別音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)に基づいて音源分離を行う例について示しているが，２チャンネル以上であっても同様である。ＩＣＡ法に基づくＢＳＳ方式による音源分離の場合，（入力される混合音声信号のチャンネル数ｎ（即ち，マイクロホンの数））≧（音源の数ｍ）であればよい。
複数のマイクロホン１１１，１１２各々で集音された各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)には，複数音源からの音源信号が重畳されている。以下，各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)を総称してｘ(ｔ)と表す。この混合音声信号ｘ(ｔ)は音源信号Ｓ(ｔ)の時間的空間的な畳み込み信号として表現され，次の（１）式のように表される。

ＴＤＩＣＡによる音源分離の理論は，この音源信号Ｓ(ｔ)のそれぞれの音源同士が統計的に独立であることを利用すると，ｘ(ｔ)がわかればＳ(ｔ)を推測することができ，従って，音源を分離することができるという発想に基づく理論である。
ここで，当該音源分離処理に用いる分離行列をＷ(ｚ)とすれば，分離信号（即ち，同定信号）ｙ(ｔ)は，次の（２）式で表される。

ここで，Ｗ(ｚ)は，出力ｙ(ｔ)から逐次計算により求められる。また，分離信号は，チャンネルの数だけ得られる。
なお，音源合成処理はこのＷ(ｚ)に関する情報により，逆演算処理に相当する配列を形成し，これを用いて逆演算を行えばよい。
このようなＩＣＡ法に基づくＢＳＳ方式による音源分離を行うことにより，例えば，人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から，歌声の音源信号と楽器の音源信号とが分離（同定）される。
ここで，（２）式は，次の（３）式のように書き換えて表現できる。

そして，（３）式における分離フィルタ（分離行列）Ｗ(ｎ)は，次の（４）式により逐次計算される。即ち，前回（ｊ）の出力ｙ(ｔ)を（４）式に逐次適用することより，今回（ｊ＋１）のＷ(ｎ)を求める。

次に，図４に示すブロック図を用いて，ＴＤＩＣＡ法の一種である時間領域ＳＩＭＯ独立成分分析法（Time-Domain single-input multiple-output ICA法，以下，ＴＤ−ＳＩＭＯ−ＩＣＡ法という）に基づく音源分離処理を行う従来の音源分離装置Ｚ２の構成について説明する。なお，図４は，２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)に基づいて音源分離を行う例について示しているが，３チャンネル以上であっても同様であり，その詳細は非特許文献２等に示されている。
ＴＤ−ＳＩＭＯ−ＩＣＡ法による音源分離の特徴は，図４中に示すFidelity Controller１２により，マイクロホン入力信号である各混合音声信号ｘi(ｔ)から，前記分離フィルタ処理部１１による音源分離処理（ＴＤＩＣＡ法に基づく音源分離処理）によって分離（同定）された分離信号（同定信号）を減算し，その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタＷ(Ｚ)の更新（逐次計算）を行う点である。ここで，混合音声信号ｘi(ｔ)各々から減算する分離信号（同定信号）は，各々異なる１つの分離信号（当該混合音声信号に基づく音源分離処理により得られた分離信号）を除く残り全ての分離信号である。これにより，チャンネル（マイクロホン）ごとに２つの分離信号（同定信号）が得られることになり，また，音源信号Ｓi(ｔ)ごとに２つの分離信号が得られることになる。図４の例では，分離信号ｙ11(ｔ)とｙ12(ｔ)，分離信号ｙ22（ｔ）とｙ21(ｔ)が，各々同一の音源信号に対応する分離信号（同定信号）である。なお，分離信号ｙの添字（数字）において，前段の数字は音源の識別番号を，後段の数字はマイクロホン（即ち，チャンネル）の識別番号を表している（以下同様）。
このように，ある音響空間に複数の音源と複数の音声入力手段（マイクロホン）とが存在する状態で，その音声入力手段各々を通じて入力される音源各々からの音源信号（個別音声信号）が重畳された複数の混合音声信号から，１以上の音源信号を分離（同定）した場合に，音源信号ごとに得られる複数の分離信号（同定信号）群をＳＩＭＯ（single-input multiple-output）信号という。図４の例では，分離信号ｙ11(ｔ)とｙ12(ｔ)の組み合わせ，分離信号ｙ22（ｔ）とｙ21(ｔ)の組み合わせの各々がＳＩＭＯ信号である。
ここで，分離フィルタ（分離行列）Ｗ(Ｚ)を表現し直したＷ(ｎ)の更新式は，次の（５）式で表される。

この（５）式は，前述の（４）式に対して第３項目が加わったものであり，この第３項は，Fidelity Controller１２により生成される信号の成分の独立性を評価している部分である。

次に，図５に示すブロック図を用いて，ＩＣＡ法の一種であるＦＤＩＣＡ法（Frequency-Domain ICA）に基づく音源分離処理を行う従来の音源分離装置Ｚ３について説明する。
ＦＤＩＣＡ法では，まず，入力された混合音声信号ｘ(ｔ)について，ＳＴ−ＤＦＴ処理部１３によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換（Short Time Discrete Fourier Transform，以下，ＳＴ−ＤＦＴ処理という）を行い，観測信号の短時間分析を行う。そして，そのＳＴ−ＤＦＴ処理後の各チャンネルの信号（各周波数成分の信号）について，分離フィルタ処理部１１ｆにより分離行列Ｗ(ｆ)に基づく分離フィルタ処理を施すことによって音源分離（音源信号の同定）を行う。ここでｆを周波数ビン，ｍを分析フレーム番号とすると，分離信号（同定信号）ｙ(ｆ，ｍ)は，次の（６）式のように表すことができる。

ここで，分離フィルタＷ(ｆ)の更新式は，例えば次の（７）式のように表すことができる。

このＦＤＩＣＡ法によれば，音源分離処理が各狭帯域における瞬時混合問題として取り扱われ，比較的簡単かつ安定に分離フィルタ（分離行列）Ｗ(ｆ)を更新することができる。

次に，図６に示すブロック図を用いて，ＦＤＩＣＡ法の一種である周波数領域ＳＩＭＯ独立成分分析法（Frequency-Domain single-input multiple-output ICA法，以下，ＦＤ−ＳＩＭＯ−ＩＣＡ法という）に基づく音源分離処理を行う音源分離装置Ｚ４について説明する。
ＦＤ−ＳＩＭＯ−ＩＣＡ法では，前述のＴＤ−ＳＩＭＯ−ＩＣＡ法（図４）と同様に，Fidelity Controller１２により，各混合音声信号ｘi(ｔ)に対してＳＴ−ＤＦＴ処理を施した信号各々から，ＦＤＩＣＡ法（図５）に基づく音源分離処理によって分離（同定）された分離信号（同定信号）を減算し，その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタＷ(ｆ)の更新（逐次計算）を行うものである。
このＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離装置Ｚ４では，時間領域における複数の前記混合音声信号ｘ1(ｔ)，ｘ2(ｔ)に対して前記ＳＴ−ＤＦＴ処理部１３により短時間離散フーリエ変換処理を施して，周波数領域における複数の混合音声信号ｘ1(ｆ)，ｘ2(ｆ)へ変換する（短時間離散フーリエ変換手段の一例）。
次に，変換後の周波数領域における複数の混合音声信号ｘ1(ｆ)，ｘ2(ｆ)に対し，前記分離フィルタ処理部１１ｆによって所定の分離行列Ｗ(ｆ)に基づく分離処理（フィルタ処理）を施すことにより，前記混合音声信号ごとに前記音源信号Ｓ1(ｔ)，Ｓ2(ｔ)のいずれかに対応した第１の分離信号ｙ11(ｆ)，ｙ22(ｆ)を生成する（ＦＤＩＣＡ音源分離手段の一例）。
さらに，前記周波数領域における複数の混合音声信号ｘ1(ｆ)，ｘ2(ｆ)各々から当該混合音声信号に基づき前記分離フィルタ処理部１１ｆにより分離された前記第１の分離信号（ｘ1(ｆ)に基づき分離されたｙ11(ｆ)，ｘ2(ｆ)に基づき分離されたｙ22(ｆ)）を除く残りの前記第１の分離信号を，前記Fidelity Controller１２（減算手段の一例）により減算した第２の分離信号ｙ12(ｆ)，ｙ21(ｆ)を生成する。
一方，不図示の分離行列計算部により，前記第１の分離信号ｙ11(ｆ)，ｘ2(ｆ)及び前記第２の分離信号ｙ12(ｆ)，ｙ21(ｆ)の両方に基づく逐次計算を行い，前記分離フィルタ処理部１１ｆ（ＦＤＩＣＡ音源分離手段）で用いられる前記分離行列Ｗ(ｆ)を計算する（分離行列計算手段の一例）。
これにより，チャンネル（マイクロホン）ごとに２つの分離信号（同定信号）が得られることになり，また，音源信号Ｓi(ｔ)ごとに２つ以上の分離信号（ＳＩＭＯ信号）が得られることになる。図６の例では，分離信号ｙ11（ｆ）とｙ12(ｆ)の組み合わせ，及び分離信号ｙ22（ｆ）とｙ21(ｆ)の組み合わせの各々がＳＩＭＯ信号である。
ここで，前記分離行列計算部は，前記第１の分離信号及び前記第２の分離信号に基づいて，次の（８）式で表される分離フィルタ（分離行列）Ｗ(ｆ)の更新式により前記分離行列Ｗ(ｆ)を計算する。

次に，図７に示すブロック図を用いて，ＦＤＩＣＡ法の一種である周波数領域独立成分分析法と逆射影法との連結手法（Frequency-Domain ICA & Projection back法，以下，ＦＤＩＣＡ−ＰＢ法という）に基づく音源分離処理を行う従来の音源分離装置Ｚ５について説明する。なお，ＰＤＩＣＡ−ＰＢ法の詳細については，特許文献５等に示されている。
ＦＤＩＣＡ−ＰＢ法では，各混合音声信号ｘi(ｔ)から前述のＦＤＩＣＡ法に基づく音源分離処理（図５）により得られた分離信号（同定信号）ｙi(ｆ)各々について，逆行列演算部１４によって分離行列Ｗ(ｆ)の逆行列Ｗ^-1(ｆ)の演算処理を施すことにより，最終的な分離信号（音源信号の同定信号）を得るものである。ここで，逆行列Ｗ^-1(ｆ)による処理対象の信号のうち，各分離信号ｙi(ｆ)以外の残りの信号成分は，0（ゼロ）入力として設定する。
これにより，音源信号Ｓi(ｔ)各々に対応したチャンネル数分（複数）の分離信号（同定信号）であるＳＩＭＯ信号が得られる。図７において，分離信号ｙ11(ｔ)とｙ12(ｔ)，分離信号ｙ21（ｔ）とｙ22(ｔ)が，各々同一の音源信号に対応する分離信号（同定信号）であり，各逆行列Ｗ^-1(ｆ)による処理後の信号である分離信号ｙ11(ｆ)とｙ12(ｆ)の組み合わせ，分離信号ｙ21（ｆ）とｙ22(ｆ)の組み合わせの各々がＳＩＭＯ信号である。

以下，図１に示すブロック図を用いて，本発明の実施形態に係る音源分離装置Ｘについて説明する。
音源分離装置Ｘは，ある音響空間に複数の音源１，２と複数のマイクロホン１１１，１１２（音声入力手段）とが存在する状態で，そのマイクロホン１１１，１１２各々を通じて入力される音源１，２各々からの音源信号（個別の音声信号）が重畳された複数の混合音声信号Ｘi(ｔ)から，１以上の音源信号（個別音声信号）を分離（同定）した分離信号（同定信号）ｙを生成するものである。
そして，音源分離装置Ｘの特徴は，複数の混合音声信号Ｘi(ｔ)から独立成分分析（ＩＣＡ）法に基づくブラインド音源分離（ＢＳＳ）方式の音源分離処理により，１以上の音源信号Ｓi(ｔ)を分離（同定）したＳＩＭＯ信号（１つの音源信号に対応する複数の分離信号）を分離生成するＳＩＭＯ−ＩＣＡ処理部１０（第１の音源分離手段）と，そのＳＩＭＯ−ＩＣＡ処理部１０により生成されたＳＩＭＯ信号に対してバイナリーマスキング処理を施すことによって得られる信号を，１以上の音源信号について分離（同定）した分離信号として生成するバイノーラル信号処理部２０（第２の音源分離手段の一例）と，の２段構成（直列接続構成）を備えている点にある。なお，２段階目の信号処理部を「バイノーラル信号処理部２０」としているが，これをもって２チャンネル分の信号分離処理に限定する趣旨ではなく，３チャンネル分以上のバイナリーマスキング処理を含む趣旨である。
ここで，前記ＳＩＭＯ−ＩＣＡ処理部１０（第１の音源分離手段）としては，図４に示したＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う前記音源分離装置Ｚ２や，図６に示したＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行うＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う前記音源分離装置Ｚ４，或いは図７に示したＦＤＩＣＡ−ＰＢ法に基づく音源分離処理を行う前記音源分離装置Ｚ５等を採用することが考えられる。
但し，前記ＳＩＭＯ−ＩＣＡ処理部１０として，前記ＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく前記音源分離装置Ｚ２を採用する場合や，ＦＤ−ＳＩＭＯ−ＩＣＡ法若しくはＦＤＩＣＡ−ＰＢ法に基づく音源分離処理後の信号がＩＤＦＴ処理により時間領域の信号に変換されている場合には，そのＳＩＭＯ−ＩＣＡ処理部１０（音源分離装置Ｚ２等）により得られる分離信号（同定信号）について，バイナリーマスキング処理を施す前に，離散フーリエ変換処理（ＴＦＤ処理）を施す手段を設ける。これにより，前記バイノーラル信号処理部２０への入力信号を，時間領域の離散信号から周波数領域の離散信号へ変換する。

また，図１には，チャンネル数（マイクロホンの数）の分だけ生成されるＳＩＭＯ信号各々について，バイナリーマスキング処理による音源分離処理を施す構成例を示しているが，一部の音源信号の分離（同定）を行うことを目的とする場合は，一部のチャンネルに対応するＳＩＭＯ信号（或いは，一部のマイクロホン若しくは一部の復号音声信号ｘi(t)に対応するＳＩＭＯ信号ともいえる）についてのみ，前記バイナリーマスキング処理を施す構成も考えられる。
さらに，図１には，チャンネル数が２つ（マイクロホンの数が２つ）である例について示したが，（入力される混合音声信号のチャンネル数ｎ（即ち，マイクロホンの数））≧（音源の数ｍ）であれば，３チャンネル以上であっても同様の構成により実現できる。
このような構成により，後述するように，ノイズの影響がある等の実環境下においても高い音源分離性能が得られる。
ここで，各構成要素１０，２０は，それぞれＤＳＰ（Digital Signal Processor）又はＣＰＵ及びその周辺装置（ＲＯＭ，ＲＡＭ等）と，そのＤＳＰ若しくはＣＰＵにより実行されるプログラムとにより構成されたものや，或いは，１つのＣＰＵ及びその周辺装置を有するコンピュータにより，各構成要素１０，２０が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また，所定のコンピュータに各構成要素１０，２０の処理を実行させる音源分離プログラムとして提供することも考えられる。

一方，前記バイノーラル信号処理部２０における信号分離処理は，前述したように，人間の聴覚モデルに基づいて前記混合音声信号に時変のゲイン調節を施して音源分離を行うものであり，例えば，非特許文献３や非特許文献４等に詳説されている。
図８は，バイノーラル信号処理の考え方を起源とする信号処理の一例であって，比較的処理がシンプルなバイナリーマスキング処理を説明するための図である。
バイナリーマスキング処理を実行する装置やプログラムは，複数の入力信号（本発明においてはＳＩＭＯ信号を構成する複数の音声信号）の比較処理を行う比較部３１と，その比較部３１による比較処理の結果に基づいて入力信号にゲイン調節を施して信号分離（音源分離）を行う分離部３２とを有している。
バイナリーマスキング処理では，まず，前記比較部３１において，入力信号（本発明においてはＳＩＭＯ信号）各々について周波数成分ごとの信号レベル（振幅）分布ＡＬ，ＡＲを検出し，同じ周波数成分における信号レベルの大小関係を判別する。
図８において，ＢＬ，ＢＲは，入力信号各々における周波数成分ごとの信号レベル分布と，その信号レベルごとに他方の対応する信号レベルに対する大小関係（○，×）とを表した図である。図中，「○」印は，前記比較分３１による判別の結果，他方の対応する信号レベルよりも当該信号の信号レベルの方が大きかったことを表し，「×」印は同じく当該信号レベルの方が小さかったことを表している。
次に，前記分離部３２により，前記分離部３１による信号比較の結果（大小判別の結果）に基づいて，入力信号各々にゲイン乗算（ゲイン調節）を施すことにより分離信号（同定信号）を生成する。この分離部３２における最も簡単な処理の例としては，入力信号について，周波数成分ごとに，信号レベルが最も大きいと判別された入力信号の周波数成分にゲイン１を乗算し，その他の入力信号全ての同じ周波数成分にゲイン０（ゼロ）を乗算すること等が考えられる。
これにより，入力信号と同数の分離信号（同定信号）ＣＬ，ＣＲが得られる。この分離信号ＣＬ，ＣＲのうち，一方は，入力信号（前記ＳＩＭＯ−ＩＣＡ処理部１０による分離信号（同定信号））の同定の対象となった音源信号に相当するものとなり，他方は入力信号に混在するノイズ（同定対象の音源信号以外の音源信号）に相当するものとなる。従って，前記ＳＩＭＯ−ＩＣＡ処理部１０と前記バイノーラル信号処理部２０とによる２段処理（直列的処理）によって，ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られる。その具体的内容については図９を用いて後述する。
なお，図８には，２つの入力信号に基づくバイナリーマスキング処理の例を示すが，３つ以上の入力信号に基づく処理であっても同様である。

（第１実施例）
前記音源分離装置Ｘにおける前記ＳＩＭＯ−ＩＣＡ処理部１０として，図６に示したＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行うＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う前記音源分離装置Ｚ４，或いは図７に示したＦＤＩＣＡ−ＰＢ法に基づく音源分離処理を行う前記音源分離装置Ｚ５等を採用したものを，以下，第１実施例とする。
これにより，畳み込み演算が必要なために演算負荷が高いＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理（図４）を採用するよりも，比較的演算負荷が抑えられる。
図２は，そのような本発明の第１実施例に係る音源分離装置Ｘ１の概略構成を表すブロック図であり，前記音源分離装置Ｘにおける前記ＳＩＭＯ−ＩＣＡ処理部１０として，図６に示したＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う前記音源分離装置Ｚ４を採用した場合の例である。
図２に示す音源分離装置Ｘ１では，前記ＳＩＭＯ−ＩＣＡ処理部１０の入力チャンネル（マイクロホン）ごとに得られる複数の（２つの）分離信号（同定信号）の組み合わせからなるＳＩＭＯ信号各々について，前記バイノーラル信号処理部２０による信号分離が行われる。図２の例では，分離信号ｙ11（ｆ）とｙ12(ｆ)の組み合わせと，分離信号ｙ22（ｆ）とｙ21(ｆ)の組み合わせとの各々からなるＳＩＭＯ信号各々について，前記バイノーラル信号処理部２０による信号分離が行われ，分離信号（音源信号の同定信号）ｙ'11（ｔ），ｙ'12(ｔ)，ｙ'22（ｔ），ｙ'21(ｔ)が得られる。
ここで，前記ＳＩＭＯ−ＩＣＡ処理部１０として，図７に示したＦＤＩＣＡ−ＰＢ法に基づく音源分離処理を行う前記音源分離装置Ｚ５を採用する場合は，分離信号ｙ11（ｆ）とｙ12(ｆ)の組み合わせと，分離信号ｙ21（ｆ）とｙ22(ｆ)の組み合わせとの各々からなるＳＩＭＯ信号各々について前記バイノーラル信号処理部２０による信号分離が行われるよう構成する。
また，本第１実施例に係る音源分離装置Ｘ１では，前記ＳＩＭＯ−ＩＣＡ処理部１０で用いる分離行列Ｗ(ｆ)の初期値は，予め定められた値が設定される。
なお，前記ＳＩＭＯ−ＩＣＡ処理部１０として，図４に示したＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う前記音源分離装置Ｚ２を採用する場合は，分離信号ｙ11（ｔ）とｙ21(ｔ)の組み合わせと，分離信号ｙ22（ｔ）とｙ12(ｔ)の組み合わせとの各々からなるＳＩＭＯ信号各々について前記バイノーラル信号処理部２０による信号処理（信号分離）が行われるよう構成する。

次に，前記バイノーラル信号処理部２０への入力信号の組み合わせと，前記バイノーラル信号処理部２０による信号分離性能との関係について説明する。
前記バイノーラル信号処理部２０への入力信号の組み合わせは複数パターンが考えられる。例えば，図２に示す音源分離装置Ｘ１の場合，前記バイノーラル信号処理部２０への入力信号の組み合わせは，図２に示す組み合わせの他，ｙ11(ｆ)とｙ22(ｆ)との組み合わせ，及びｙ12(ｆ)とｙ21(ｆ)との組み合わせとすることも考えられる。
ここで，図９及び図１０は，前記音源分離装置Ｘ１の前記バイノーラル信号処理部２０によるバイナリーマスキング処理の前後の信号（入力信号と出力信号）における周波数成分ごとの信号レベル（振幅）分布の一例をバーグラフにより模式的に表したものである。
また，図９は音源信号各々の周波数成分に重複がない場合，図１０は同周波数成分に重複がある場合の例を表す。さらに，図９（ａ）及び図１０（ａ）は前記バイノーラル信号処理部２０への入力信号を，同一の音源に対応する分離信号ｙ11（ｆ）とｙ12(ｆ)の組み合わせ（ＳＩＭＯ信号）とした場合（以下，「パターンａ」という），図９（ｂ）及び図１０（ｂ）は同入力信号を，異なる音源に対応する分離信号ｙ11(ｆ)とｙ22(ｆ)の組み合わせとした場合（各分離信号の同定の対象となった音源信号が異なる場合，以下，「パターンｂ」という）の例を表す。
また，図９及び図１０において，分離信号（同定信号）ｙ11(ｆ)及びｙ12(ｆ)の同定の対象となった音源信号（以下，第１音源信号という）の周波数成分に対応する部分のバーグラフは網掛け模様により，それ以外の音源信号（ここでは，分離信号ｙ22(ｆ)の同定の対象となった音源信号，以下，第２音源信号という）の周波数成分に対応する部分のバーグラフは斜線模様により各々表している。

図９及び図１０に示すように，前記バイノーラル信号処理部２０への入力信号（前記ＳＩＭＯ−ＩＣＡ処理部１０による分離信号（同定信号））には，その同定の対象となった音源信号の成分が支配的ではあるものの，それ以外に，ノイズとして他の音源信号の成分も若干混在している。
このようなノイズを含む入力信号（分離信号）に対してバイナリーマスキング処理を施した場合，図９（ａ），（ｂ）の出力信号のレベル分布（右側のバーグラフ）に示すように，音源信号各々の周波数成分に重複がない場合には，入力信号の組み合わせにかかわらず，前記第１音源信号と前記第２音源信号とが良好に分離される。
このように各音源信号の周波数成分に重複がない場合，前記バイノーラル信号処理部２０への両入力信号各々において，同定の対象となった音源信号の周波数成分における信号レベルが高く，その他の音源信号の周波数成分における信号レベルが低くなるというレベル差が明確となり，周波数成分ごとの信号レベルに応じて信号分離を行うバイナリーマスキング処理によって信号が確実に分離されやすい。その結果，入力信号の組み合わせにかかわらず，高い分離性能が得られる。

また，音源信号各々の周波数成分に重複がある場合であっても，図１０（ａ）の出力信号のレベル分布（右側のバーグラフ）に示すように，前記「パターンａ」では，音源信号各々で重複する周波数成分において若干のノイズ信号（同定対象以外の音源信号の成分）が残るものの，その他の周波数成分においてはノイズ信号が確実に分離される。
前記「パターンａ」では，前記バイノーラル信号処理部２０への両入力信号は，同一の音源信号を，各々異なるマイクロホンにより収録された音声信号に基づいて分離（同定）した信号であり，それらの信号レベルは，同定対象の音源からマイクロホンまでの距離に応じたレベル差を有している。そのため，バイナリーマスキング処理において，そのレベル差により信号が確実に分離されやすい。このことが，「パターンａ」では，音源信号各々の周波数成分に重複があっても高い分離性能が得られる理由として考えられる。
さらに，「パターンａ」では，両入力信号ともに同一の音源信号の成分が支配的である（即ち，混在する他の音源信号の成分のレベルは小さい）ため，比較的信号レベルの低い同定対象外の音源信号の成分（ノイズ成分）が信号分離に悪影響を及ぼしにくいことも，高い分離性能が得られる理由の１つと考えられる。

一方，音源信号各々の周波数成分に重複がある場合，図１０（ｂ）に示すように，前記「パターンｂ」では，音源信号各々で重複する周波数成分において，本来出力されるべき信号成分（同定対象の音源信号の成分）が欠損する現象が生じる（図１０（ｂ）における破線で囲んだ部分）。
このような欠損は，その周波数成分について，同定対象の音源信号のレベルよりも，他の音源信号のレベルの方が高いために生じる現象である。
一般に，現実の音響空間（音環境）では，同定対象とする音源信号とその他の音源信号との間で，周波数成分（周波数帯域）が全く重ならないということはほとんどなく，複数の音源信号間で多少なりとも周波数成分が重複する。
しかし，前記ＳＩＭＯ−ＩＣＡ処理部１０による第１段階目の分離信号を，前記「パターンａ」の組み合わせの信号（ＳＩＭＯ信号）の単位で前記バイノーラル信号処理部２０に入力させ，第２段階目のバイノーラル信号処理を行えば，多様な環境下においても高い音源分離性能が得られる。また，このことは，前記ＳＩＭＯ−ＩＣＡ処理部１０により得られる３チャンネル以上のＳＩＭＯ信号（第１段階面の分離信号）についてバイナリーマスキング処理を行った場合でも同様である。

次に，前記音源分離装置Ｘ１を用いた音源分離性能評価の実験結果について説明する。
図１１は，前記音源分離装置Ｘ１を用いた音源分離性能評価の実験条件を説明するための図であり，実験条件は，図１１に示す２条件（実験条件Ａと実験条件Ｂ）である。
実験条件Ａは，所定の２箇所に存在する２名の話者を音源とし，その音源（話者）各々からの音声信号（話者の声）を相互に反対方向に向けた２つのマイクロホンで入力し，入力された２チャンネルの混合音声信号から，各話者の音声信号（音源信号）を分離する性能を評価する実験条件である。ここで，音源となる話者は，２名の男性及び２名の女性（計４名）の中から選択した２名の順列である１２通りの条件下で実験を行い（同じ２名の話者を音源とする場合でも，その２名の配置が入れ替われば異なる条件であるとした），音源分離性能評価は各組み合わせの下での評価値の平均値により行った。
また，実験条件Ｂは，１名の話者と１つの定常雑音であるＨＳＬＮ（Human Speech-like Noise）とを音源とし，その２音源各々からの音声信号を相互に反対方向に向けた２つのマイクロホンで入力し，入力された２チャンネルの混合音声信号から，話者の音声信号とＨＳＬＮの音声信号（ノイズ信号）とを分離する性能を評価する実験条件である。ここで，ＨＳＬＮについては，特許文献６に詳述されているのでここでは説明を省略する。また，音源となる話者は，２名の男性及び２名の女性（計４名）の中から選択した１名であり，その１名の話者とＨＳＬＮの両音源の配置が入れ替われば異なる条件として８通りの条件下で実験を行い，音源分離性能評価は各組み合わせの下での評価値の平均値により行った。
また，いずれの実験条件においても，残響時間は２００ｍｓ，音源（話者又はＨＳＬＮ）から最寄りのマイクロホンまでの距離は１．５ｍとし，２つのマイクロホンは，ほぼ人間の両耳の位置関係に相当する位置関係で配置した。
さらに，上方から見て，相互に反対方向に向けられた両マイクロホンの向きに対する直角方向を基準方向Ｒ０としたときに，この基準方向Ｒ０と一方の音源（話者）から最寄りのマイクロホンに向かう方向Ｒ１とのなす角度θ１，及び前記基準方向Ｒ０と他方の音源（話者又はＨＳＬＮ）から最寄りのマイクロホンに向かう方向Ｒ２とのなす角度θ２を，３パターンの条件（θ１，θ２）＝（−６０°，６０°），（−６０°，０°），（０°，６０°）となるように設定（機器配置）し，その各々の条件下で実験を行った。

図１２及び図１３は，従来の音源分離装置と本発明に係る音源分離装置との各々により，前述の実験条件Ａ，Ｂの各々の下で音源分離を行ったときの音源分離性能を表すグラフである。
ここで，音源分離性能の評価値（グラフの縦軸）として，ＮＲＲ（Noise Reduction Rate）を用いた。このＮＲＲは，雑音除去の程度を表す指標であり，単位は（ｄＢ）である。ＮＲＲの定義は，例えば非特許文献２の（２１）式等に示されている。
また，図１２における（ａ１），（ａ２），（ａ３）の各グラフは，前述の実験条件Ａの下での評価結果を表し，図１３における（ｂ１），（ｂ２），（ｂ３）の各グラフは，前述の実験条件Ｂの下での評価結果を表す。
さらに，図１２及び図１３における（ａ１）と（ｂ１），（ａ２）と（ｂ２），（ａ３）と（ｂ３）のグラフは，各々（θ１，θ２）の設定が，（−６０°，６０°），（−６０°，０°），（０°，６０°）の場合の評価結果を表す。
また，各バーグラフに対応する図中の表記Ｐ１〜Ｐ７は，以下の場合の処理結果を表す。
Ｐ１（ＢＭ）と表しているものは，バイナリーマスキング処理を行った場合の結果。
Ｐ２（ＦＤ−ＳＩＭＯ−ＩＣＡ）と表しているものは，図６に示したＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行った場合の結果。
Ｐ３（ＦＤ−ＳＩＭＯ−ＩＣＡ＋ＢＭ（１））と表しているものは，図６に示したＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理により得られた分離信号をＳＩＭＯ信号の単位ではない単位（ｙ11とｙ22，或いはｙ12とｙ21の組み合わせ）で前述のバイナリーマスキング処理を施した場合の結果。
Ｐ４（ＦＤ−ＳＩＭＯ−ＩＣＡ＋ＢＭ（２））と表しているものは，図６に示したＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理により得られた分離信号をＳＩＭＯ信号の単位（ｙ11とｙ12，或いはｙ21とｙ22の組み合わせ）で前述のバイナリーマスキング処理を施す音源分離処理（本発明に係る音源分離処理の第１例，即ち，前記音源分離装置Ｘ１による音源分離処理）を行った場合の結果。
Ｐ５（ＦＤＩＣＡ−ＰＢ）と表しているものは，図７に示したＦＤＩＣＡ−ＰＢ法に基づく音源分離処理（従来の音源分離処理の例）を行った場合の結果。
Ｐ６（ＦＤＩＣＡ−ＰＢ＋ＢＭ（２））と表しているものは，図７に示したＦＤＩＣＡ−ＰＢ法に基づく音源分離処理により得られた分離信号をＳＩＭＯ信号の単位ではない単位で前述のバイナリーマスキング処理を施した場合の結果。
Ｐ７（ＦＤＩＣＡ−ＰＢ＋ＢＭ（２））と表しているものは，図７に示したＦＤＩＣＡ−ＰＢ法に基づく音源分離処理により得られた分離信号をＳＩＭＯ信号の単位でバイナリーマスキング処理を施す音源分離処理（本発明に係る音源分離処理の第２例）を行った場合の結果。
図１２及び図１３に示すグラフから，従来のＩＣＡ法に基づくＢＳＳ方式の音源分離処理（「ＦＤ−ＳＩＭＯ−ＩＣＡ」又は「ＦＤＩＣＡ−ＰＢ」）を単独で行う場合よりも，さらに，その処理後の信号についてＳＩＭＯ信号の単位ではない単位でバイナリーマスキング処理を施す場合よりも，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理（「ＦＤ−ＳＩＭＯ−ＩＣＡ」又は「ＦＤＩＣＡ−ＰＢ」）の後の信号をＳＩＭＯ信号の単位でさらにバイナリーマスキング処理を施す音源分離処理（本発明に係る音源分離処理）の方が，全てのケース（実験条件）においてＮＲＲ値が大きく，音源分離性能が優れていることがわかる。

（第２実施例）
次に，本発明の第２実施例に係る音源分離装置Ｘ２（不図示）について説明する。
音源分離装置Ｘ２は，前記音源分離装置Ｘにおける前記ＳＩＭＯ−ＩＣＡ処理部１０（第１の音源分離手段の一例）として，図４に示したＴＤ−ＳＩＭＯ−ＩＣＡ法に基づくブラインド音源分離方式の音源分離処理を行う音源分離装置Ｚ２を採用するとともに，その音源分離処理に用いる分離行列Ｗ(ｔ)の初期値（初期行列）を設定する手段として，ＦＤ−ＳＩＭＯ−ＩＣＡ法（周波数領域ＳＩＭＯ独立成分分析法）に基づくブラインド音源分離方式の音源分離装置Ｚ４（図６），或いはＦＤＩＣＡ−ＰＢ法（周波数領域独立成分分析法と逆射影法との連結手法）に基づくブラインド音源分離方式の音源分離装置Ｚ５（図７）を備え，その音源分離装置Ｚ４又はＺ５により複数の前記混合音声信号からＳＩＭＯ信号を分離生成する過程で算出される（逐次演算による学習がなされる）分離行列Ｗ(ｆ)に基づいて，分離行列Ｗ(ｔ)の初期値（初期行列）を設定する（初期分離行列設定）ものである。
図１４は，本発明の第２実施例に係る音源分離装置Ｘ２における音源分離処理手順を表すフローチャートである。以下，Ｓ１，Ｓ２，…は，処理手順（ステップ）の識別符号を表す。
音源分離装置Ｘ２では，まず，ＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく前記音源分離装置Ｚ４（図６），或いはＦＤＩＣＡ−ＰＢ法に基づく前記音源分離装置Ｚ５（図７）により，複数の前記混合音声信号からＳＩＭＯ信号を分離生成する処理を行うことにより，その過程で算出される（逐次演算による学習がなされる）分離行列Ｗ(ｆ)を求める（Ｓ１）。
具体的には，前記音源分離装置Ｚ４を用いる場合は前述の（８）式に基づいて，前記音源分離装置Ｚ５を用いる場合は前述の（７）式に基づいて，所定回数だけ（例えば，予め定められた回数だけ，若しくは予め定められた許容時間の範囲内で実行できる最大の回数だけ等），或いは所定の評価関数による評価値が予め定められた許容範囲内となるまで逐次演算を行うことにより，分離行列Ｗ(ｆ)を学習させる。
次に，ＩＤＦＴ処理を行う所定のＩＤＦＴ処理部（不図示）により，ステップＳ１で求められた（学習された）分離行列Ｗ(ｆ)にＩＤＦＴ処理を施すことによって，周波数領域の行列Ｗ(ｆ)から時間領域の行列Ｗ(ｔ)に変換するとともに，分離行列Ｗ(ｔ)を，ＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく前記音源分離装置Ｚ２で用いる分離行列の初期値（初期分離行列）として設定する（Ｓ２）。
そして，ＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離装置Ｚ２により，ステップＳ２で設定された初期分離行列を音源分離処理に用いる分離行列Ｗ(ｔ)の初期値として，その分離行列Ｗ(ｔ)を順次更新（学習）しながら，複数の前記混合音声信号から１以上の前記音源信号に対応するＳＩＭＯ信号を分離生成する（Ｓ３）。
なお，ＦＤＩＣＡ−ＰＢ法により算出（学習）された分離行列を初期行列としてＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う手法は，非特許文献７等に示されている。
また，前記ＩＤＦＴ処理部も他の構成要素１０，２０と同様に，ＤＳＰ等や所定のコンピュータにその処理を実行させるプログラム等として構成される。

図１５は，従来の音源分離装置と本発明の第１実施例に係る音源分離装置と本発明の第２実施例に係る音源分離装置との各々により，前述の実験条件Ａの下で音源分離を行ったときの音源分離性能を表すグラフである。
また，図１４における（ａ１−１）及び（ａ１−２）の実験結果は，各々図１２における（ａ１）と同一の実験条件下（音源分離処理の内容を除く）での実験結果である。
また，図１５の各バーグラフにおいて，Ｐ２，Ｐ４，Ｐ５及びＰ７と表しているものの各音源分離処理の内容は，各々図１２に示した同表記の音源分離処理の内容と同じである。
また，図１５のバーグラフにおいて，Ｐ８（ＦＤ−ＳＩＭＯ−ＩＣＡ＋ＴＤ−ＳＩＭＯ−ＩＣＡ＋ＢＭ）と表しているものは，ＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理（図６）によって算出された（逐次演算による学習がなされた）分離行列Ｗ(ｆ)に基づいて分離行列Ｗ(ｔ)の初期値を設定し，その初期値を用いたＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理（図４）の後にさらにＳＩＭＯ信号の単位でバイナリーマスキング処理を施す音源分離処理を行った場合を表す。
同様に，Ｐ９（ＦＤＩＣＡ−ＰＢ＋ＴＤ−ＳＩＭＯ−ＩＣＡ＋ＢＭ）と表しているものは，ＦＤＩＣＡ−ＰＢ法に基づく音源分離処理（図７）によって算出された（逐次演算による学習がなされた）分離行列Ｗ(ｆ)に基づいて分離行列Ｗ(ｔ)の初期値を設定し，その初期値を用いたＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理（図４）の後にさらにＳＩＭＯ信号の単位でバイナリーマスキング処理を施す音源分離処理を行った場合を表す。

図１４からわかるように，後段でＳＩＭＯ信号の単位でバイナリーマスキング処理を施す場合において，ＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理（図４）における分離行列の初期値を，ＦＤ−ＳＩＭＯ−ＩＣＡ法やＦＤＩＣＡ−ＰＢ法に基づき算出することにより，それを行わない場合よりもさらにＮＲＲ値が大きくなり，音源分離性能がさらに向上することがわかる。
但し，ＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理は，畳み込み演算の計算量が膨大である（演算負荷が高い）ため，応答性（処理速度）を重視する場合には適さない。従って，ＴＤ−ＳＩＭＯ−ＩＣＡ法を採用するか否かは，用途（目的）により応じて選択することが実用的である。

前述したように，ＩＣＡ法に基づくＢＳＳ方式による音源分離処理は，音源分離性能を向上させるためには多大な演算が必要となり，リアルタイム処理には適さない。
一方，バイノーラル信号処理による音源分離は，一般に演算量は少なくリアルタイム処理に適している反面，音源分離性能はＩＣＡ法に基づくＢＳＳ方式による音源分離処理に比べて劣る。
これに対し，前述したように，本発明によれば，例えば以下に示す本発明の第３実施例或いは第４実施例に係る音源分離装置により，音源信号の分離性能を確保しつつリアルタイム処理が可能な音源分離処理装置を構成できるという効果も奏する。
（第３実施例）
以下，図１６に示すタイムチャートを用いて，本発明の第３実施例に係る音源分離装置の処理について説明する。
ここで，図１６は，本発明の第３実施例に係る音源分離装置の第１段階目の音源分離処理であるＩＣＡ法に基づくＢＳＳ方式の音源分離処理（以下，ＩＣＡ−ＢＳＳ音源分離処理という）について，分離行列の計算と分離処理との各々に用いる混合音声信号の区分をタイムチャート的に表したものである。
この第３実施例は，第１段階目の音源分離処理（ＩＣＡ−ＢＳＳ音源分離処理）における分離行列の逐次計算回数を制限するものである。
この第３実施例では，前記ＩＣＡ−ＢＳＳ音源分離処理における分離行列を用いた音源分離処理を，時系列に入力される前記混合音声信号を予め定められた周期で区分された信号（以下，Frameという）の単位で実行する。
図１６（ａ−１）は，分離行列の計算（学習）と，その分離行列に基づくフィルタ処理により分離信号を生成（同定）する処理とを，異なるFrameを用いて実行する場合（以下，処理（ａ−１）という）を表し，図１６（ｂ−１）は，それらを同一のFrameを用いて実行する場合（以下，処理（ｂ−１）という）を表す。
前記処理（ａ−１）では，図１６（ａ−１）に示すように，時刻Ｔi〜Ｔi+1の期間（周期：Ｔi+1−Ｔi）に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算（学習）を行い，それにより求められた分離行列を用いて時刻Ｔi+1〜Ｔi+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理（フィルタ処理）を実行する。即ち，ある１期間の混合音声信号に基づき計算された分離行列を用いて次の１期間の混合音声信号の分離処理（同定処理）を行う。このとき，ある１期間のFrame(i)を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いれば，逐次計算（学習）の収束が早まり好適である。

一方，前記処理（ｂ−１）では，図１６（ｂ−１）に示すように，時刻Ｔi〜Ｔi+1の期間に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算（学習）を行いつつそのFrame(i)全てを保持し，Frame(i)に基づき求められた分離行列を用いて，保持されたFrame(i)について分離処理（フィルタ処理）を実行する。即ち，順次１期間分の混合音声信号を記憶手段（メモリ）に保持しつつその１期間分の混合音声信号全てに基づき分離行列を計算（学習）し，計算された分離行列を用いて記憶手段に保持された１期間分の混合音声信号の分離処理（同定処理）を行う。この場合も，ある１期間のFrame(i)を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いることが好ましい。
以上示したように，前記処理（ａ−１）も，前記処理（ｂ−１）も，第１段階目の前記ＩＣＡ−ＢＳＳ音源分離処理（第１の音源分離手段の処理）において，時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame（区間信号の一例）ごとに，所定の分離行列に基づく分離処理を順次実行して前記ＳＩＭＯ信号を生成するものであり，また，その分離処理により生成した全ての時間帯（Frame（区間信号）の時間帯に対応する全ての時間帯）の前記ＳＩＭＯ信号に基づいて，以降に用いる前記分離行列を求める逐次計算（学習計算）を行うものである。

ここで，１つのFrameに対応する期間内に，１つのFrame全体に基づく分離行列の計算（学習）を完了させることができれば，リアルタイムの音源分離処理が可能となる。
しかしながら，現在の計算機の処理能力では，演算負荷が比較的少ないＦＤＩＣＡ音源分離処理であっても，この１つのFrameの時間範囲内（Ｔi〜Ｔi+1）に，十分な音源分離性能を確保できるだけの十分な逐次計算処理（学習処理）を常に完了させることは困難である。
そこで，本実施例１では，前記分離行列を求める逐次計算の回数を，前記予め定められた周期（Ｔi+1−Ｔi）の時間内で実行可能な回数に制限する。
その回数は，本処理を実行するプロセッサの能力に応じて，予め実験や計算により定める。
このように，逐次計算（学習計算）の回数を，リアルタイム処理が可能な範囲に制限すると学習が不十分となるため，得られる前記ＳＩＭＯ信号は，十分な音源分離（同定）がなされた信号にならないことが多い。しかしながら，それによって得られた前記ＳＩＭＯ信号にリアルタイム処理が可能な第２段階目の前記バイナリーマスキング処理をさらに施すことによって音源分離性能が向上するので，音源分離性能を確保しつつリアルタイム処理が可能となる。

（第４実施例）
以下，図１７に示すタイムチャートを用いて，本発明の第４実施例に係る音源分離装置の処理について説明する。
ここで，図１７は，本発明の第４実施例に係る音源分離装置の第１段階目の音源分離処理である前記ＩＣＡ−ＢＳＳ音源分離処理とについて，分離行列の計算と分離処理との各々に用いる混合音声信号の区分をタイムチャート的に表したものである。
この第４実施例は，第１段階目の音源分離処理（ＩＣＡ−ＢＳＳ音源分離処理）における分離行列の逐次計算に用いる混合音声信号のサンプル数を通常よりも減らす（間引く）ものである。
この第４実施例においても，前記ＩＣＡ−ＢＳＳ音源分離処理における分離行列を用いた音源分離処理を，時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrameの単位で実行することは前記第３実施例と同様である。
図１７（ａ−２）は，分離行列の計算（学習）と，その分離行列に基づくフィルタ処理により分離信号を生成（同定）する処理とを，異なるFrameを用いて実行する場合（以下，処理（ａ−２）という）を表し，図１７（ｂ−２）は，それらを同一のFrameを用いて実行する場合（以下，処理（ｂ−２）という）を表す。
前記処理（ａ−２）では，図１６（ａ−２）に示すように，時刻Ｔi〜Ｔi+1の期間（周期：Ｔi+1−Ｔi）に入力された前記混合音声信号（Frame）全てに相当するFrame(i)のうち，先頭側の一部（例えば，先頭から所定時間分）の信号（以下，Sub-Frame(i)という）を用いて分離行列の計算（学習）を行い，それにより求められた分離行列を用いて時刻Ｔi+1〜Ｔi+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理（フィルタ処理）を実行する。即ち，ある１期間の混合音声信号の先頭側の一部に基づき計算された分離行列を用いて次の１期間の混合音声信号の分離処理（同定処理）を行う。このとき，ある１期間のFrame(i)の先頭側の一部を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いれば，逐次計算（学習）の収束が早まり好適である。

一方，前記処理（ｂ−２）では，図１７（ｂ−２）に示すように，時刻Ｔi〜Ｔi+1の期間に入力された前記混合音声信号全てに相当するFrame(i)のうち，先頭側の一部（例えば，先頭から所定時間分）のSub-Frame(i)を用いて分離行列の計算（学習）を行いつつそのFrame(i)全てを保持し，Sub-Frame(i)に基づき求められた分離行列を用いて，保持されたFrame(i)について分離処理（フィルタ処理）を実行する。この場合も，ある１期間のFrame(i)の一部であるSub-Frame(i)を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)の一部であるSub-Frame(i+1)を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いることが好ましい。
以上示したように，前記処理（ａ−２）も，前記処理（ｂ−２）も，第１段階目の前記ＩＣＡ−ＢＳＳ音源分離処理（第１の音源分離手段の処理）において，時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame（区間信号の一例）ごとに，所定の分離行列に基づく分離処理を順次実行して前記ＳＩＭＯ信号を生成するものであり，また，その分離処理により生成した（Frame（区間信号）の時間帯のうちの先頭側の一部の時間帯に対応する前記ＳＩＭＯ信号に基づいて，以降に用いる前記分離行列を求める逐次計算を行うものである。
但し，その逐次計算は，最大でも前記予め定められた周期（Ｔi+1−Ｔi）の時間内に制限して実行する。
このように，第１段階目のＩＣＡ法に基づくＢＳＳ方式による音源分離処理において，前記分離行列を求める逐次計算（学習計算）に用いる前記ＳＩＭＯ信号を先頭側の一部の時間帯の信号に限定することにより，十分な回数の逐次計算（学習）を行ってもリアルタイム処理が可能にはなる（前記予め定められた周期の時間内で十分な学習が可能となる）が，学習に用いるサンプル数が少ないため，やはり得られる前記ＳＩＭＯ信号は，十分な音源分離（同定）がなされた信号にならないことが多い。しかしながら，それによって得られた前記ＳＩＭＯ信号にリアルタイム処理が可能な第２段階目の前記バイナリーマスキング処理をさらに施すことによって音源分離性能が向上するので，音源分離性能を確保しつつリアルタイム処理が可能となる。

本発明は，音源分離装置への利用が可能である。

本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図。本発明の第１実施例に係る音源分離装置Ｘ１の概略構成を表すブロック図。ＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ｚ１の概略構成を表すブロック図。ＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う従来の音源分離装置Ｚ２の概略構成を表すブロック図。ＦＤＩＣＡ法に基づく音源分離処理を行う従来の音源分離装置Ｚ３の概略構成を表すブロック図。ＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う音源分離装置Ｚ４の概略構成を表すブロック図。ＦＤＩＣＡ−ＰＢ法に基づく音源分離処理を行う従来の音源分離装置Ｚ５の概略構成を表すブロック図。バイナリーマスキング処理を説明するための図。音源分離装置Ｘ１によるバイナリーマスキング処理の前後の信号における周波数成分ごとの信号レベル分布の一例（音源信号各々の周波数成分に重複がない場合）を模式的に表した図。音源分離装置Ｘ１によるバイナリーマスキング処理の前後の信号における周波数成分ごとの信号レベル分布の一例（音源信号各々の周波数成分に重複がある場合）を模式的に表した図。音源分離装置Ｘ１を用いた音源分離性能評価の実験条件を表す図。従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件Ａの下で音源分離を行ったときの音源分離性能を表すグラフ。従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件Ｂの下で音源分離を行ったときの音源分離性能を表すグラフ。本発明の第２実施例に係る音源分離装置における音源分離処理手順を表すフローチャート。従来の音源分離装置と本発明の第１実施例に係る音源分離装置と本発明の第２実施例に係る音源分離装置との各々により音源分離を行ったときの音源分離性能を表すグラフ。本発明の第３実施例に係る音源分離装置の処理を説明するためのタイムチャート。本発明の第４実施例に係る音源分離装置の処理を説明するためのタイムチャート。

符号の説明

Ｘ…本発明の実施形態に係る音源分離装置
Ｘ１…本発明の第１実施例に係る音源分離装置
１，２…音源
１０…ＳＩＭＯ−ＩＣＡ処理部
１１，１１ｆ…分離フィルタ処理部
１２…Fidelity Controller
１３…ＳＴ−ＤＦＴ処理部
１４…逆行列演算部１４
２０…バイノーラル信号処理部
３１…バイナリーマスキング処理における比較部
３２…バイナリーマスキング処理における分離部
１１１，１１２…マイクロホン

Claims

所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から，１以上の前記音源信号を分離した分離信号を生成する音源分離装置であって，
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から１以上の前記音源信号ごとに対応する複数の分離信号であるＳＩＭＯ信号を分離生成する第１の音源分離手段と，
前記第１の音源分離手段で分離生成された前記ＳＩＭＯ信号の単位でバイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する分離信号とする第２の音源分離手段と，
を具備してなることを特徴とする音源分離装置。
前記第１の音源分離手段が，
時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換手段と，
前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した第１の分離信号を生成するＦＤＩＣＡ音源分離手段と，
前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づき前記ＦＤＩＣＡ音源分離手段により分離された前記第１の分離信号を除く残りの前記第１の分離信号を減算した第２の分離信号を生成する減算手段と，
前記第１の分離信号及び前記第２の分離信号に基づく逐次計算により前記ＦＤＩＣＡ音源分離手段における前記分離行列を計算する分離行列計算手段と，を具備する周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離手段である請求項１に記載の音源分離装置。
前記第１の音源分離手段が，周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うものである請求項１に記載の音源分離装置。
前記第１の音源分離手段が，時間領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行うものであり，
時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換手段と，前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した第１の分離信号を生成するＦＤＩＣＡ音源分離手段と，前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づき前記ＦＤＩＣＡ音源分離手段により分離された前記第１の分離信号を除く残りの前記第１の分離信号を減算した第２の分離信号を生成する減算手段と，前記第１の分離信号及び前記第２の分離信号に基づく逐次計算により前記ＦＤＩＣＡ音源分離手段における前記分離行列を計算する分離行列計算手段と，を具備する周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離手段により複数の前記混合音声信号からＳＩＭＯ信号を分離生成する過程で算出される前記分離行列に基づいて前記第１の音源分離手段の音源分離処理に用いる分離行列の初期値を設定する第１の初期分離行列設定手段を具備してなる請求項１に記載の音源分離装置。
前記第１の音源分離手段が，時間領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行うものであり，
周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号からＳＩＭＯ信号を分離生成する過程で算出される分離行列に基づいて前記第１の音源分離手段の音源分離処理に用いる分離行列の初期値を設定する第２の初期分離行列設定手段を具備してなる請求項１に記載の音源分離装置。
前記第１の音源分離手段が，時系列に入力される前記混合音声信号を予め定められた周期で区分された区間信号ごとに，所定の分離行列に基づく分離処理を順次実行して前記ＳＩＭＯ信号を生成するとともに，該分離処理により生成した前記区間信号の時間帯に対応する全ての時間帯の前記ＳＩＭＯ信号に基づいて以降に用いる前記分離行列を求める逐次計算を行うものであって，該逐次計算の回数を前記予め定められた周期の時間内で実行可能な回数に制限してなる請求項１〜５のいずれかに記載の音源分離装置。
前記第１の音源分離手段が，時系列に入力される前記混合音声信号を予め定められた周期で区分された区間信号ごとに，所定の分離行列に基づく分離処理を順次実行して前記ＳＩＭＯ信号を生成するとともに，該分離処理により生成した前記区間信号の時間帯のうちの先頭側の一部の時間帯に対応する前記ＳＩＭＯ信号に基づいて以降に用いる前記分離行列を求める逐次計算を前記予め定められた周期の時間内で実行してなる請求項１〜５のいずれかに記載の音源分離装置。
所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から，１以上の前記音源信号を分離した分離信号を生成する音源分離処理をコンピュータに実行させるための音源分離プログラムであって，
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から１以上の前記音源信号ごとに対応する複数の分離信号であるＳＩＭＯ信号を分離生成する第１の音源分離処理と，
前記第１の音源分離処理で分離生成された前記ＳＩＭＯ信号の単位でバイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する分離信号とする第２の音源分離処理と，
をコンピュータに実行させるための音源分離プログラム。
所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から，１以上の前記音源信号を分離した分離信号を生成する音源分離方法であって，
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から１以上の前記音源信号ごとに対応する複数の分離信号であるＳＩＭＯ信号を分離生成する第１の音源分離工程と，
前記第１の音源分離工程で分離生成された前記ＳＩＭＯ信号の単位でバイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する分離信号とする第２の音源分離工程と，
を有してなることを特徴とする音源分離方法。