JP2007033825A

JP2007033825A - 音源分離装置，音源分離プログラム及び音源分離方法

Info

Publication number: JP2007033825A
Application number: JP2005216391A
Authority: JP
Inventors: Takayuki Hiekata; 孝之稗方
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2005-07-26
Filing date: 2005-07-26
Publication date: 2007-02-08
Anticipated expiration: 2025-07-26
Also published as: US20070025556A1; JP4675177B2; EP1748427A1

Abstract

【課題】リアルタイム処理を可能としつつ，音源分離性能を極力高められること。
【解決手段】複数の混合音声信号Ｘi(ｔ)からＩＣＡ−ＢＳＳ方式の音源分離処理により音源信号Ｓi(ｔ)を分離した第１分離信号ｙ1i(t)を分離生成する第１の音源分離ユニット１０と，そのようなＩＣＡ−ＢＳＳ音源分離処理以外の方式のリアルタイムの音源分離処理により第２分離信号ｙ2i(t)を分離生成する第２の音源分離ユニット２０と，第１分離信号ｙ1i(t)を出力信号ｙi(t)とするか，第２分離信号ｙ2i(t)を出力信号ｙi(t)とするかを切り替えるマルチプレクサ３０とを具備する。第１の音源分離ユニット１０の処理は，マルチプレクサ３０の選択状況によらず継続実行され，第１分離信号ｙ1i(t)が出力されているときは，第１の音源ユニット１０における分離行列Ｗの逐次計算回数を，リアルタイム処理が可能な回数に制限する。
【選択図】図１

Description

本発明は，所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で，その音声入力手段各々を通じて入力される前記音源各々からの個別音声信号が重畳された複数の混合音声信号から前記個別音声信号を同定（分離）して出力信号とする音源分離装置，音源分離プログラム及び音源分離方法に関するものである。

所定の音響空間に複数の音源と複数のマイク（音声入力手段）とが存在する場合，その複数のマイクごとに，複数の音源各々からの個別音声信号（以下，音源信号という）が重畳された音声信号（以下，混合音声信号という）が取得される。このようにして取得（入力）された複数の前記混合音声信号のみに基づいて，前記音源信号各々を同定（分離）する音源分離処理の方式は，ブラインド音源分離方式（Blind Source Separation方式，以下，ＢＳＳ方式という）と呼ばれる。
さらに，ＢＳＳ方式の音源分離処理の１つに，独立成分分析法（Independent Component Analysis，以下，ＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理がある。このＩＣＡ法に基づくＢＳＳ方式は，複数のマイクを通じて入力される複数の前記混合音声信号（時系列の音声信号）において，前記音源信号どうしが統計的に独立であることを利用して所定の分離行列（逆混合行列）を最適化し，入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定（音源分離）を行う処理方式である。その際，分離行列の最適化は，ある時点で設定されている分離行列を用いたフィルタ処理により同定（分離）された信号（分離信号）に基づいて，逐次計算（学習計算）により以降に用いる分離行列を計算することによって行われる。このようなＩＣＡ法に基づくＢＳＳ方式の音源分離処理は，例えば，非特許文献１や非特許文献２等に詳説されている。さらに，非特許文献８には，多段階のＩＣＡ法に基づくＢＳＳ方式の音源分離処理について示されている。
また，特許文献１には，周波数領域におけるブラインド音源分離処理において，permutation（周波数解析窓ごとに分離音源の入れ替わりが発生する現象）の問題を分離信号の類似度計算によって解決する技術が示されている。
一方，音源分離処理としては，例えば，バイノーラル信号処理（分解）を起源として３つ以上の音源信号の分離が可能なバイナリーマスキング処理等による音源分離処理も知られている。バイノーラル信号処理は，人間の聴覚モデルに基づいて複数の入力音声信号に時変のゲイン調節を施して音源分離を行うものであり，比較的低い演算負荷で実現できる音源分離処理である。これについては，例えば，非特許文献３や非特許文献４等に詳説されている。
特開２００４−１４５１７２号公報猿渡洋，「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告，vol.EA2001-7，pp.49-56，April 2001. 高谷智哉他，「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告，vol.US2002-87，EA2002-108，January 2003. R.F.Lyon, "A computational model of binaural localization and separation," In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993. N.Murata and S. Ikeda. A on-line algorithm for blind source separation on speech signals. In Proceedings of NOLTA'98, pp. 923-926,1998 梶田，小林，武田，板倉，「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」，日本音響学会誌，53巻5号，pp.337-345 (1997) 鵜飼訓史他，「周波数領域ＩＣＡと時間領域ＩＣＡを統合したＳＩＭＯモデル信号のブラインド抽出法の評価」，電子情報通信学会技術報告，vol.EA2004-23, pp.37-42,June 2004 T.Nishikawa, H.Saruwatari, and K.Shikano,"Comparison of blind source separation methods based on time-domain ICA using nonstationarity and multistage ICA",IEICE Technical Report, vol.EA2001-112, pp49-56, April 2001.

しかしながら，前記音源信号の独立性に着目したＩＣＡ法に基づくＢＳＳ方式による音源分離処理は，分離行列を求める逐次計算（学習計算）を十分に行えば高い音源分離性能（前記音源信号の同定性能）が得られるものの，十分な音源分離性能を得るためには，分離処理（フィルタ処理）に用いる分離行列を求めるための逐次計算（学習計算）の回数が増えるので演算負荷が高くなり，その計算を実用的なプロセッサで行うと入力される混合音声信号の時間長に対して数倍の時間を要し，リアルタイム処理に適さないという問題点があった。特に，処理の開始後しばらくの時間帯や，音響環境の変化（音源の移動や音源の追加・変更等）があった場合に，十分な音源分離性能を得るためには分離行列の演算負荷がより高くなる。即ち，分離行列の収束に要する逐次演算回数は，分離行列の初期状態或いは演算開始後の音響環境の変化に依存する。また，ＩＣＡ法に基づくＢＳＳ方式による音源分離処理では，分離行列の収束状態（学習状態）が十分でない状況では，前記バイナリーマスキング処理等のリアルタイム処理に適した比較的簡易な他の音源分離処理に比べても音源分離性能が劣ることになりがちである。
一方，前記バイナリーマスキング処理や帯域フィルタ処理，ビームフォーマ等の音源分離処理は，長くても数ms〜数百ms程度の瞬時の混合音声信号のみを用いて音源分離が可能であり，演算負荷が小さくリアルタイム処理に適しているとともに，音源分離性能が音響環境の変化の影響を受けにくい。このように，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理以外の音源分離処理には，製品組み込み用として実用的なプロセッサによってリアルタイム処理が可能であるとともに，処理開始時や音響環境が変化する状況下でも比較的安定した音源分離性能が得られるものがあるが，前記分離行列の学習が十分なされたＩＣＡ法に基づくＢＳＳ方式による音源分離処理に比べると音源分離性能は劣るという問題点があった。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，リアルタイム処理を可能としつつ，音源分離性能を極力高められる音源分離装置，音源分離プログラム及び音源分離方法を提供することにある。

上記目的を達成するために本発明は，所定の音響空間に複数の音源と複数の音声入力手段（マイクロホン）とが存在する状態でその音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から前記音源信号を分離（抽出）した分離信号を逐次生成して出力信号とする音源分離装置，或いはそのプログラム若しくはその方法に適用されるものであり，所定時間長分の複数の前記混合音声信号を用いた独立成分分析法に基づくブラインド音源分離方式（以下，ＩＣＡ−ＢＳＳ音源分離方式という）における分離行列の学習計算を行うことにより前記分離行列を順次算出する処理（以下，分離行列算出処理という）と，その処理によって算出された前記分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する処理（以下，第１の音源分離処理という）と，そのＩＣＡ−ＢＳＳ音源分離方式以外の方式のリアルタイムの音源分離処理により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を生成する処理（第２の音源分離処理という）とを実行するものであり，前記第１の音源分離処理により生成される前記分離信号を前記出力信号とするか，前記第２の音源分離処理により生成される前記分離信号を前記出力信号とするかを切り替えるものである。
このような処理を行うことにより，前記第１の音源分離処理（ＩＣＡ−ＢＳＳ音源分離処理）における分離行列の収束状態（学習状態）が十分でない状況では，リアルタイム処理が可能で安定した音源分離性能が得られる前記第２の音源分離処理（バイナリーマスキング処理，帯域フィルタ処理，ビームフォーマ等）に基づく分離信号を出力信号として採用し，その間，前記第１の音源分離処理に用いる前記分離行列の学習（逐次計算）を並行して行うことによって前記分離行列の収束状態が十分となった状況では，音源分離性能の高い前記第１の音源分離処理による分離信号を出力信号として採用することができる。
これにより，リアルタイム処理を可能としつつ，音源分離性能を極力高めることが可能となる。
ここで，前記分離行列算出処理において，所定の設定時間分の前記混合音声信号（後述するFrame）が入力されるごとにその入力信号全体を用いて前記分離行列の学習計算を行い，その学習計算の学習回数上限を，前記設定時間以内で計算を終える回数に設定しておくことが考えられる。
これにより，前記分離行列の学習計算（分離行列の更新）を短周期で行うことができる（学習計算時間を短縮できる）ので，音源の状態が変化した場合でも，その変化に対して早期に追従して高い音源分離性能を確保することができる。また，前記分離行列が十分に収束した（学習された）後は，その後の分離行列の学習回数（逐次計算回数）を制限しても，音響環境が大きく変化しない限り，高い音源分離性能が維持される。
これに対し，前記分離行列算出処理において，所定の設定時間分の前記混合音声信号が入力されるごとにその入力信号のうちの一部の時間長分を用いて前記分離行列の学習計算を行うことも考えられる。
これによっても，前記分離行列の学習計算（分離行列の更新）を短周期で行うことができるので，音源の状態変化に早期に追従して高い音源分離性能を確保することができる。一般には，逐次入力される前記混合音声信号の全てが学習計算に反映されることが望ましいが，その一部を用いた学習計算によっても，音源状態の変化がそれほど大きくなければ十分な音源分離性能を確保できる。

例えば，前記分離行列算出処理における前記分離行列の最初の学習計算の開始から，その学習計算の学習回数が所定回数に到達するまで若しくは所定時間が経過するまで（即ち，前記分離行列が十分収束した状態となるまで）は前記第２の音源分離処理により生成される前記分離信号を前記出力信号とし，その後に前記第１の音源分離処理により生成される前記分離信号を前記出力信号とするよう切り替えることが考えられる。
これにより，処理を開始してから，前記第１の音源分離処理における前記分離行列が十分収束するまで（学習されるまで）は，安定した音源分離性能が得られる前記第２の音源分離処理に基づく分離信号が出力信号として採用され，その後は，音源分離性能の高い状態となった前記第１の音源分離処理に基づく分離信号が出力信号として採用されることになる。
その他，前記分離行列算出手段による前記学習計算の収束度合いに基づいて前記第１の音源分離処理及び前記第２の音源分離処理のいずれにより生成される前記分離信号を前記出力信号とするかを切り替えることも考えられる。ここで，前記学習計算の収束度合いは，前記学習計算を行うごとに所定の評価値を算出し，その評価値の変化（勾配）の大きさによって評価すること等が考えられる。
これにより，音響環境が安定している等の状況であるため前記学習計算を比較的短周期で行っても十分に収束する状況においては，音源分離性能の高い前記第１の音源分離処理が採用され，処理を開始後の一定期間や，音響環境が大きく変化した場合には前記学習計算の収束度合いが十分でなくなるので，前記第２の音源分離処理が採用される，というように，状況に応じて適切な音源分離処理が採用されることになる。これにより，音源分離のリアルタイム処理を可能としつつ，音源分離性能を極力高めることが可能となる。
さらに，そのような切り替えを行う場合，前記出力信号を前記第１の音源分離処理による前記分離信号から前記第２の音源分離処理による前記分離信号へ切り替える場合とその逆方向に切り替える場合とで，その切り替えの判別に異なる前記分離行列の収束度合いのしきい値を用いるようにする，即ち，その切り替えにヒステリシス特性を持たせることが考えられる。
これにより，前記分離信号の収束度合いが所定のしきい値の前後を行き来することにより，採用される音源分離処理が短期間の間に頻繁に切り替わって不安定な処理状態を招くという問題を回避できる。

本発明によれば，出力する音源分離信号（出力信号）を求める処理として，分離行列が十分に学習されていれば高い音源分離性能を発揮する独立成分分析法に基づくブラインド音源分離方式の音源分離処理（ＩＣＡ−ＢＳＳ音源分離処理）と，演算負荷が軽くリアルタイム処理に適するとともに音響環境の変化に関わらず音源分離性能が安定しているバイナリーマスキング処理等の他の音源分離処理と，のいずれを採用するかを状況に応じて切り替えることにより，リアルタイム処理を可能としつつ，音源分離性能を極力高めることが可能となる。
例えば，そのような切り替えをＩＣＡ−ＢＳＳ音源分離処理における分離行列の収束度合いに基づいて行えば，分離行列の収束状況に応じて（処理を開始後の一定期間や音響環境が大きく変化した場合等とその他の場合とで）適切な音源分離処理が採用され，リアルタイム処理を確保しつつ，音源分離性能を最大限高めることが可能となる。さらに，そのような切り替えを行う方向（ＩＣＡ−ＢＳＳ音源分離処理からその他の音源分離処理への切り替えかその逆か）によって，前記分離行列の収束度合いのしきい値として異なる値を用いるようにすれば，採用される音源分離処理が短期間の間に頻繁に切り替わって不安定な処理状態を招くという問題を回避できる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図，図２は音源分離装置Ｘの音源分離処理の手順を表すフローチャート，図３は音源分離装置Ｘにおける第１の音源分離ユニットによる分離行列計算の第１例の概要を説明するためのタイムチャート，図４は音源分離装置Ｘにおける第１の音源分離ユニットによる分離行列計算の第２例の概要を説明するためのタイムチャート，図５はＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚ１の概略構成を表すブロック図，図６はＦＤＩＣＡ法に基づく音源分離処理を行う音源分離装置Ｚ２の概略構成を表すブロック図，図７はバイナリーマスキング処理を説明するための図である。

まず，本発明の実施形態について説明する前に，図５及び図６に示すブロック図を用いて，本発明の構成要素として適用可能な各種のＩＣＡ法に基づくブラインド音源分離方式（以下，ＩＣＡ−ＢＳＳ方式という）の音源分離装置の例について説明する。
なお，以下に示す音源分離処理或いはその処理を行う装置等は，いずれも所定の音響空間に複数の音源と複数のマイクロホン（音声入力手段）とが存在する状態で，そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号（以下，音源信号という）が重畳された複数の混合音声信号から，１以上の音源信号を分離（同定）した分離信号を生成して出力信号とする音源分離処理或いはその処理を行う装置等に関するものである。

図５は，ＩＣＡ法の一種である時間領域独立成分分析法（time-domain independent component analysis法，以下，ＴＤＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ｚ１の概略構成を表すブロック図である。なお，本処理の詳細は，非特許文献１や非特許文献２等に示されている。
音源分離装置Ｚは，分離フィルタ処理部１１により，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（音源ごとの音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)について，分離行列Ｗ(ｚ)によりフィルタ処理を施すことによって音源分離を行う。
図５には，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（個別音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)に基づいて音源分離を行う例について示しているが，２チャンネル以上であっても同様である。ＩＣＡ法に基づくＢＳＳ方式による音源分離の場合，（入力される混合音声信号のチャンネル数ｎ（即ち，マイクロホンの数））≧（音源の数ｍ）であればよい。
複数のマイクロホン１１１，１１２各々で集音された各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)には，複数音源からの音源信号が重畳されている。以下，各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)を総称してｘ(ｔ)と表す。この混合音声信号ｘ(ｔ)は音源信号Ｓ(ｔ)の時間的空間的な畳み込み信号として表現され，次の（１）式のように表される。

ＴＤＩＣＡによる音源分離の理論は，この音源信号Ｓ(ｔ)のそれぞれの音源同士が統計的に独立であることを利用すると，ｘ(ｔ)がわかればＳ(ｔ)を推測することができ，従って，音源を分離することができるという発想に基づく理論である。
ここで，当該音源分離処理に用いる分離行列をＷ(ｚ)とすれば，分離信号（即ち，同定信号）ｙ(ｔ)は，次の（２）式で表される。

ここで，Ｗ(ｚ)は，出力ｙ(ｔ)から逐次計算（学習計算）により求められる。また，分離信号は，チャンネルの数だけ得られる。
なお，音源合成処理はこのＷ(ｚ)に関する情報により，逆演算処理に相当する配列を形成し，これを用いて逆演算を行えばよい。また，分離行列Ｗ(ｚ)の逐次計算を行う際の分離行列の初期値（初期行列）は，予め定められたものが設定される。
このようなＩＣＡ法に基づくＢＳＳ方式による音源分離を行うことにより，例えば，人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から，歌声の音源信号と楽器の音源信号とが分離（同定）される。
ここで，（２）式は，次の（３）式のように書き換えて表現できる。

そして，（３）式における分離フィルタ（分離行列）Ｗ(ｎ)は，次の（４）式により逐次計算される。即ち，前回（ｊ）の出力ｙ(ｔ)を（４）式に逐次適用することより，今回（ｊ＋１）のＷ(ｎ)を求める。

次に，図６に示すブロック図を用いて，ＩＣＡ法の一種であるＦＤＩＣＡ法（Frequency-Domain ICA）に基づく音源分離処理を行う従来の音源分離装置Ｚ２について説明する。
ＦＤＩＣＡ法では，まず，入力された混合音声信号ｘ(ｔ)について，ＳＴ−ＤＦＴ処理部１３によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換（Short Time Discrete Fourier Transform，以下，ＳＴ−ＤＦＴ処理という）を行い，観測信号の短時間分析を行う。そして，そのＳＴ−ＤＦＴ処理後の各チャンネルの信号（各周波数成分の信号）について，分離フィルタ処理部１１ｆにより分離行列Ｗ(ｆ)に基づく分離フィルタ処理を施すことによって音源分離（音源信号の同定）を行う。ここでｆを周波数ビン，ｍを分析フレーム番号とすると，分離信号（同定信号）ｙ(ｆ，ｍ)は，次の（５）式のように表すことができる。

ここで，分離フィルタＷ(ｆ)の更新式は，例えば次の（６）式のように表すことができる。

このＦＤＩＣＡ法によれば，音源分離処理が各狭帯域における瞬時混合問題として取り扱われ，比較的簡単かつ安定に分離フィルタ（分離行列）Ｗ(ｆ)を更新することができる。
以上に示したＴＤＩＣＡ，ＦＤＩＣＡの他，非特許文献８に示されるような多段階のＩＣＡ−ＢＳＳ音源分離処理等，音源の独立性を評価して音源分離を行うＩＣＡ−ＢＳＳ方式の基本概念から逸脱していないアルゴリズムに基づく音源分離処理であれば，本発明の構成要素として適用され得るＩＣＡ法に基づくＢＳＳ方式の音源分離処理といえるものである。

以下，図１に示すブロック図を用いて，本発明の実施形態に係る音源分離装置Ｘについて説明する。
音源分離装置Ｘは，ある音響空間に複数の音源１，２と複数のマイクロホン１１１，１１２（音声入力手段）とが存在する状態で，そのマイクロホン１１１，１１２各々を通じて逐次入力される音源１，２各々からの音源信号（個別の音声信号）が重畳された複数の混合音声信号Ｘi(ｔ)から，音源信号（個別音声信号）を分離（同定）した分離信号（即ち，音源信号に対応した同定信号）ｙを逐次生成してスピーカ（音声出力手段）に対してリアルタイム出力する（以下，これを出力信号という）ものである。この音源分離装置Ｘは，例えば，ハンズフリー電話機やテレビ会議の収音装置等への利用が可能なものである。
図１に示すように，音源分離装置Ｘは，予め定められた時間長分の複数の混合音声信号Ｘi(ｔ)を用いて，独立成分分析（ＩＣＡ）法に基づくブラインド音源分離（ＢＳＳ）方式の音源分離処理（以下，ＩＣＡ−ＢＳＳ音源分離処理という）における分離行列Ｗの学習計算を行うことにより，分離行列Ｗを順次算出するとともに（分離行列算出手段の一例），その学習計算により得られた分離行列Ｗ用いた行列演算を行うことにより，複数の混合音声信号Ｘi(ｔ)から音源信号Ｓi(ｔ)を分離（同定）した分離信号ｙ1i(t)（以下，第１分離信号という）を逐次分離生成する第１の音源分離ユニット１０（第１の音源分離手段の一例）と，そのようなＩＣＡ−ＢＳＳ音源分離処理以外の方式のリアルタイムの音源分離処理により複数の前記混合音声信号号Ｘi(ｔ)から前記音源信号Ｓi(ｔ)に対応する分離信号ｙ2i(t)（以下，第２分離信号という）を逐次分離生成する第２の音源分離ユニット２０（第２の音源分離手段の一例）とを具備している。
ここで，前記第１の音源分離ユニット１０における分離行列算出及び音源分離の処理としては，例えば，図５に示したＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理や，図６に示したＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理等が採用される。
また，前記第２の音源分離ユニット２０における音源分離処理としては，例えば，周知の帯域制限フィルタ処理やバイナリーマスキング処理，ビームフォーマ処理等，演算負荷が小さく一般的な装置組み込み型の演算手段でリアルタイム処理が可能な音源分離処理が採用される。

例えば，前記第２の音源分離ユニット２０における音源分離処理として採用され得る遅延和型ビームフォーマ音源分離処理は，複数の音源が空間的に離れている場合に，マイク１１１，１１２に到達する波面の時間差を遅延器によって調整することにより，同定対象とする音源を強調して分離する処理である。
また，分離対象となる音源信号の周波数帯域の重複が少ない場合には，前記第２の音源分離ユニット２０における音源分離処理として帯域フィルタ処理（帯域制限フィルタ処理）を採用することも考えられる。
例えば，２つの音源信号の周波数帯域が，所定のしきい周波数を境にしてそれ未満の帯域とそれ以上の帯域とに概ね分かれて分布している場合，２つの混合音声信号の一方をそのしきい周波数未満の周波数帯域の信号のみを通過させるローパスフィルタに入力させ，他方をそのしきい周波数以上の周波数帯域の信号のみを通過させるハイパスフィルタに入力させることにより，各音源信号に対応する分離信号を生成できる。

図７は，前記第２の音源分離ユニット２０における音源分離処理として採用され得るバイナリーマスキング処理を説明するための図である。このバイナリーマスキング処理は，バイノーラル信号処理の考え方を起源とする信号処理の一例であって，比較的処理がシンプルでありリアルタイム処理に適している。なお，バイノーラル信号処理による信号分離処理は，人間の聴覚モデルに基づいて前記混合音声信号に時変のゲイン調節を施して音源分離を行うものであり，例えば，非特許文献３や非特許文献４等に詳説されている。
バイナリーマスキング処理を実行する装置やプログラムは，複数の入力信号（本発明においては複数の混合音声信号Ｘi(ｔ)）の比較処理を行う比較部３１と，その比較部３１による比較処理の結果に基づいて入力信号にゲイン調節を施して信号分離（音源分離）を行う分離部３２とを有している。
バイナリーマスキング処理では，まず，前記比較部３１において，入力信号各々について周波数成分ごとの信号レベル（振幅）分布ＡＬ，ＡＲを検出し，同じ周波数成分における信号レベルの大小関係を判別する。
図７において，ＢＬ，ＢＲは，入力信号各々における周波数成分ごとの信号レベル分布と，その信号レベルごとに他方の対応する信号レベルに対する大小関係（○，×）とを表した図である。図中，「○」印は，前記比較部３１による判別の結果，他方の対応する信号レベルよりも当該信号の信号レベルの方が大きかったことを表し，「×」印は同じく当該信号レベルの方が小さかったことを表している。
次に，前記分離部３２により，前記比較部３１による信号比較の結果（大小判別の結果）に基づいて，入力信号各々にゲイン乗算（ゲイン調節）を施すことにより分離信号（同定信号）を生成する。この分離部３２における最も簡単な処理の例としては，入力信号について，周波数成分ごとに，信号レベルが最も大きいと判別された入力信号の周波数成分にゲイン１を乗算し，その他の入力信号全ての同じ周波数成分にゲイン０（ゼロ）を乗算すること等が考えられる。
これにより，入力信号と同数の分離信号（同定信号）ＣＬ，ＣＲが得られる。この分離信号ＣＬ，ＣＲのうち，一方は，入力信号の同定の対象となった音源信号に相当するものとなり，他方は入力信号に混在するノイズ（同定対象の音源信号以外の音源信号）に相当するものとなる。
なお，図７には，２つの入力信号に基づくバイナリーマスキング処理の例を示すが，３つ以上の入力信号に基づく処理であっても同様である。

さらに，音源分離装置Ｘは，前記第１の音源分離ユニット１０により生成される前記第１分離信号ｙ1i(t)を出力信号ｙi(t)とするか，或いは前記第２の音源分離ユニット２０により生成される前記第２分離信号ｙ2i(t)を出力信号ｙi(t)とするかを切り替えるマルチプレクサ３０（出力切替手段の一例）を具備している。
ここで，少なくとも前記第１の音源分離ユニット１０による処理は，前記マルチプレクサ３０によりいずれの分離信号が出力信号として選択されているかにかかわらず継続実行される。これにより，前記マルチプレクサ３０により前記第２分離信号ｙ2i(t)が出力信号ｙi(t)として選択されている場合でも，前記第１の音源分離ユニット１０において，これにより生成された前記第１分離信号ｙ1i(t)に基づいて次の前記第１分離信号の生成処理に用いる分離行列Ｗ（図５等に示すＷ(Ｚ)，或いは図６等に示すＷ(ｆ)）の逐次計算（学習計算）は並行して行われる。
また，音源分離装置Ｘは，前記マルチプレクサ３０から信号の選択状態を表す情報を取得し，その取得情報を前記第１の音源分離ユニット１０に伝達する処理や，前記第１の音源分離ユニット１０における前記分離行列Ｗの収束状態（学習状態）を監視して，その結果に基づく前記マルチプレクサ３０の切り替え制御を行う制御部５０も具備している。
ここで，図１には，チャンネル数が２つ（マイクロホンの数が２つ）である例について示したが，（入力される混合音声信号のチャンネル数ｎ（即ち，マイクロホンの数））≧（音源の数ｍ）であれば，３チャンネル以上であっても同様の構成により実現できる。
また，各構成要素１０，２０，３０，５０は，それぞれＤＳＰ（Digital Signal Processor）又はＣＰＵ及びその周辺装置（ＲＯＭ，ＲＡＭ等）と，そのＤＳＰ若しくはＣＰＵにより実行されるプログラムとにより構成されたものや，或いは，１つのＣＰＵ及びその周辺装置を有するコンピュータにより，各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また，所定のコンピュータに各構成要素の処理を実行させる音源分離プログラムとして提供することも考えられる。

次に，図２に示すフローチャートを用いて，音源分離装置Ｘにおける音源分離処理の手順について説明する。ここで，音源分離装置Ｘは，ハンズフリー電話機等の他の装置に組み込まれ，その装置が備える操作ボタン等の操作部の操作状況が前記制御部５０により取得される。そして，その操作部から所定の処理開始操作がなされたこと（開始命令）が検知された場合に音源分離処理を開始し，所定の処理終了操作がなされたこと（終了命令）が検知された場合に音源分離処理を終了するものとする。以下，Ｓ１，Ｓ２，…は，処理手順（ステップ）の識別符号を表す。
まず，音源分離装置Ｘが電源ＯＮ等により起動されると，まず，前記マルチプレクサ３０により，その信号切り替え状態（出力選択状態）が，前記第２の音源分離ユニット２０による第２分離信号ｙ2i(t)を出力信号ｙi(t)とするＢ側に設定される（Ｓ１）。
次に，前記第１及び第２の音源分離ユニット１０，２０は，前記制御部５０により開始命令（処理開始操作）が検知されるまで待機し（Ｓ２），開始命令が検知されると，その両ユニット１０，２０が音源分離処理を開始する（Ｓ３）。
これにより，前記第１の音源分離ユニット１０における前記分離行列Ｗの逐次計算（学習計算）も開始され，その開始時には，前記第２の音源分離ユニット２０により生成される前記第２分離信号ｙ2i(t)が出力信号ｙi(t)として採用される。

次に，前記制御部５０により，前記終了命令が検知されるか否かが監視され（Ｓ４，Ｓ７），前記終了命令が検知されるまでは，以下に示すステップＳ５，６又はステップＳ８，９の処理が繰り返される。
即ち，前記制御部５０により，前記第１の音源分離ユニット１０において逐次計算される前記分離行列Ｗの収束度合いを表す所定の評価値εがチェックされ（Ｓ５，Ｓ８），その評価値εに基づいて，前記第１の音源分離ユニット１０及び前記第２の音源分離ユニット２０のいずれにより生成される前記分離信号を前記出力信号ｙとするかが，前記マルチプレクサ３０（出力切替手段の一例）を通じて切り替えられる。
前記分離行列Ｗの収束度合いを表す評価値ε（指標）としては，例えば，次の（７）式により表される評価値εを用いることが考えられる。この評価値εは，分離行列Ｗの更新に用いる前述した（４）式における右辺第２項で，Ｗ^[j](ｄ)に乗算されている係数である。

この評価値εは，学習計算の進行度合い（収束度合い）を表すスカラ量としてよく用いられ，０に近づくほど分離行列の収束度合い（学習度合い）が進んでいると評価できる指標である。
そこで，前記マルチプレクサ３０が前記Ｂ側に設定されているときは，前記制御部５０により，前記評価値εが第１のしきい値ε1未満であるか否かがチェックされ（Ｓ５），ε1以上である間は前記マルチプレクサ３０によって前記第２の音源分離ユニット２０による前記第２分離信号ｙ2i(t)を出力信号ｙi(t)とする状態（Ｂ側の設定）が維持されるが，ε1未満であると判別されたときは，前記マルチプレクサ３０を通じて前記第１の音源分離ユニット１０による前記第１分離信号ｙ1i(t)を出力信号ｙi(t)とする状態（Ａ側の設定）に切り替えられる（Ｓ６）。

一方，前記マルチプレクサ３０が前記Ａ側に設定されているときは，前記制御部５０により，前記評価値εが第２のしきい値ε2以上であるか否かがチェックされ（Ｓ８），ε2未満である間は前記マルチプレクサ３０によって前記第１の音源分離ユニット１０による前記第１分離信号ｙ1i(t)を出力信号ｙi(t)とする状態（Ａ側の設定）が維持されるが，ε2以上であると判別されたときは，前記マルチプレクサ３０を通じて再び前記第２の音源分離ユニット２０による前記第２分離信号ｙ2i(t)を出力信号ｙi(t)とする状態（Ｂ側の設定）に切り替えられる（Ｓ９）。
ここで，前記マルチプレクサ３０による信号切り替えの基準となる前記評価値εのしきい値ε1，ε2は，ヒステリシス特性を有する切り替えが行われるよう設定されている。即ち，前記出力信号ｙi(t)を，前記第１の音源分離ユニット１０による第１分離信号ｙ1i(t)から前記第２の音源分離ユニット２０による第２分離信号ｙ2i(t)へ切り替える場合の判別に用いる前記分離行列の評価値ε（収束度合い）のしきい値ε2と，その逆方向に切り替える場合に用いるしきい値ε2とは異なる値（ε1＜ε2）に設定されている。
これにより，分離信号の収束度合いを表す評価値εが，所定のしきい値（例えば，ε1）の前後を行き来することにより，採用される音源分離処理が短期間の間に頻繁に切り替わって不安定な処理状態を招くという問題を回避している。もちろん，そのようにすることは必須ではなく，ε1＝ε2と設定することも考えられる。その他，前記評価値εそのものをしきい値により判別するのではなく，前記評価値εの変化（勾配）が，所定のしきい値未満となったか否かによって分離信号の収束度合いを評価することも考えられる。
一方，処理中に，前記終了命令が検知されると（Ｓ４のＹ側，又はＳ７のＹ側），当該音源分離装置Ｘによる音源分離処理は終了する。

次に，図３及び図４に示すタイムチャートを用いて，前記第１の音源分離ユニット１０による分離行列計算の第１例（図３）及び第２例（図４）の概要について説明する。
ここで，図３は，前記第１の音源分離ユニット１０の処理（ＩＣＡ−ＢＳＳ音源分離処理）について，分離行列の計算と分離処理との各々に用いる混合音声信号の区分の第１例をタイムチャート的に表したものである。
この第１例では，前記第１の音源分離ユニット１０における分離行列を用いた音源分離処理を，時系列に入力される前記混合音声信号を予め定められた周期で区分された信号（以下，Frameという）の単位で実行する。
図３（ａ−１）は，分離行列の計算（学習）と，その分離行列に基づくフィルタ処理により分離信号を生成（同定）する処理とを，異なるFrameを用いて実行する場合（以下，処理（ａ−１）という）を表し，図３（ｂ−１）は，それらを同一のFrameを用いて実行する場合（以下，処理（ｂ−１）という）を表す。
前記処理（ａ−１）では，図３（ａ−１）に示すように，時刻Ｔi〜Ｔi+1の期間（周期：Ｔi+1−Ｔi）に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算（学習）を行い，それにより求められた分離行列を用いて時刻(Ｔi+1＋Ｔd)〜(Ｔi+2＋Ｔd)の期間に入力された前記混合音声信号全てに相当するFrame(i+1)’について分離処理（フィルタ処理）を実行する。ここで，Ｔdは１つのFrameを用いた分離行列の学習に要する時間である。即ち，ある１期間の混合音声信号に基づき計算された分離行列を用いて，Frame時間長＋学習時間だけずれた次の１期間の混合音声信号の分離処理（同定処理）を行う。このとき，ある１期間のFrame(i)を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)’を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いれば，逐次計算（学習）の収束が早まり好適である。

一方，前記処理（ｂ−１）では，図３（ｂ−１）に示すように，時刻Ｔi〜Ｔi+1の期間に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算（学習）を行いつつそのFrame(i)全てを保持し，Frame(i)に基づき求められた分離行列を用いて，保持されたFrame(i)について分離処理（フィルタ処理）を実行する。即ち，順次１期間＋学習時間Ｔd分の混合音声信号を記憶手段（メモリ）に保持しつつ，その記憶された１期間分の混合音声信号全てに基づき分離行列を計算（学習）し，計算された分離行列を用いて記憶手段に保持された１期間分の混合音声信号の分離処理（同定処理）を行う。この場合も，ある１期間のFrame(i)を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いることが好ましい。
以上示したように，前記処理（ａ−１）も，前記処理（ｂ−１）も，前記第１の音源分離ユニット１０による音源分離処理において，時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame（所定の設定時間分の前記混合音声信号の一例）が入力されるごとに，その入力信号全体を用いて所定の分離行列Ｗの学習計算を行うとともに，その学習計算により得られた分離行列を用いた行列演算である分離処理を順次実行して前記分離信号ｙ1i(t)を生成するものである。
ここで，分離行列Ｗの学習計算は，Frameの全体又は一部について，その時点で最新の分離行列Ｗをワーク行列の初期値とし，そのワーク行列を用いた行列演算を行うことにより分離信号ｙ1i(t)を求めた後，前述した（４）式に基づいてワーク行列を修正（学習）するという一連の処理を繰り返す（逐次計算する）ことによって行われる。そして，Frameごとの学習計算が終了するごとに，最終的に得られたワーク行列を，前記第１分離信号ｙ1i(t)を算出するのに用いる分離行列Ｗに設定（更新）する。

ここで，１つのFrameの時間長以内に，１つのFrame全体に基づく分離行列の学習計算を完了させることができれば，全ての混合音声信号を学習計算に反映させながらリアルタイムでの音源分離処理が可能となる。
しかしながら，現在の計算機の処理能力では，演算負荷が比較的少ないＦＤＩＣＡ音源分離処理であっても，この１つのFrameの時間範囲内（Ｔi〜Ｔi+1）に，十分な音源分離性能を確保できるだけの十分な学習計算（逐次計算処理）を常に完了させることは困難である。
そこで，前記第１の音源分離ユニット１０は，１Frame分の混合音声信号が入力されるごとに，その１Frame分の信号全体を用いて前記分離行列Ｗの学習計算（逐次計算）を行うとともに，その学習計算の上限回数（学習回数の上限）が，１Frameの時間長（設定時間の一例）以内で計算を終える回数に設定されている。ここで，前記第１の音源分離ユニット１０により，前記マルチプレクサ３０がどのような切り替え状態にあるかの情報を前記制御部５０を通じて取得し，前記マルチプレクサ３０（出力切替手段の一例）によって当該第１の音源分離ユニット１０による前記第１分離信号ｙ1i(t)が前記出力信号ｙi(t)とされていることを検知した場合にのみ，前記分離行列Ｗの学習計算を行う上限回数を，１Frameの時間長（設定時間の一例）以内で計算を終えることができる回数に設定することも考えられる。もちろん，そのような上限設定がなされるよう，前記制御部５０により前記第１の音源分離ユニット１０を制御する構成としてもよい。
設定する上限回数は，本処理を実行するプロセッサの能力に応じて，予め実験や計算等により定める。
このように，学習計算の上限回数を制限すると，音響環境が大きく変化した場合等に，分離行列の学習が不十分となるため，得られる前記第１分離信号ｙ1i(t)は，十分な音源分離（同定）がなされた信号にならないことが多い。しかしながら，そのような場合には，前記評価値εが大きくなるので，その値が前記第２のしきい値ε2以上となった際に前記出力信号ｙi(t)として前記第２分離信号ｙ2i(t)が採用されるよう切り替えられる。これにより，リアルタイム処理を行いつつ，可能な限り音源分離性能を高い状態に維持することが可能となる。従って，前記第１及び第２のしきい値ε1，ε2は，前記評価値εがその値以上であれば，返って前記第２の音源分離ユニット２０よりも音源分離性能が劣ることとなるような値に設定しておく。

次に，図４に示すタイムチャートを用いて，本発明の第４実施例に係る音源分離装置の処理について説明する。
ここで，図４は，前記第１の音源分離ユニット１０の処理（ＩＣＡ−ＢＳＳ音源分離処理）について，分離行列の計算と分離処理との各々に用いる混合音声信号の区分の第２例をタイムチャート的に表したものである。
この第２例は，前記第１の音源分離ユニット１０における分離行列Ｗの逐次計算に用いる混合音声信号のサンプル数を通常よりも減らす（間引く）ものである。
この第２例においても，前記第１の音源分離ユニット１０における分離行列を用いた音源分離処理を，時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrameの単位で実行することは前記第１例と同様である。
図４（ａ−２）は，分離行列の計算（学習）と，その分離行列に基づくフィルタ処理により分離信号を生成（同定）する処理とを，異なるFrameを用いて実行する場合（以下，処理（ａ−２）という）を表し，図４（ｂ−２）は，それらを同一のFrameを用いて実行する場合（以下，処理（ｂ−２）という）を表す。
前記処理（ａ−２）では，図４（ａ−２）に示すように，時刻Ｔi〜Ｔi+1の期間（周期：Ｔi+1−Ｔi）に入力された前記混合音声信号（Frame）全てに相当するFrame(i)のうち，先頭側の一部（例えば，先頭から所定時間分）の信号（以下，Sub-Frame(i)という）を用いて分離行列の計算（学習）を行い，それにより求められた分離行列を用いて時刻Ｔi+1〜Ｔi+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理（フィルタ処理）を実行する。即ち，ある１期間の混合音声信号の先頭側の一部に基づき計算された分離行列を用いて次の１期間の混合音声信号の分離処理（同定処理）を行う。このとき，ある１期間のFrame(i)の先頭側の一部を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いれば，逐次計算（学習）の収束が早まり好適である。

一方，前記処理（ｂ−２）では，図４（ｂ−２）に示すように，時刻Ｔi〜Ｔi+1の期間に入力された前記混合音声信号全てに相当するFrame(i)のうち，先頭側の一部（例えば，先頭から所定時間分）のSub-Frame(i)を用いて分離行列の計算（学習）を行いつつそのFrame(i)全てを保持し，Sub-Frame(i)に基づき求められた分離行列を用いて，保持されたFrame(i)について分離処理（フィルタ処理）を実行する。この場合も，ある１期間のFrame(i)の一部であるSub-Frame(i)を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)の一部であるSub-Frame(i+1)を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いることが好ましい。
以上示したように，前記処理（ａ−２）も，前記処理（ｂ−２）も，前記第１の音源分離ユニット１０において，時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame（区間信号の一例）ごとに，所定の分離行列に基づく分離処理を順次実行して前記分離信号ｙ2i(t)を生成するものであり，また，Frame（区間信号）の時間帯のうちの先頭側の一部の時間帯の信号に基づいて，次に用いる前記分離行列を求める逐次計算を行うものである。
但し，その逐次計算は，最大でも前記予め定められた周期（Ｔi+1−Ｔi）の時間内に制限して実行する。
このように，前記第１の音源分離ユニット１０の処理において，前記分離行列Ｗを求める逐次計算（学習計算）に用いる混合音声信号をFrameごとにその先頭側の一部の時間帯の信号に限定することにより，比較的多くの回数の逐次計算（学習）を行っても（制限回数を比較的多く設定しても）リアルタイム処理が可能になる。

ところで，図２に示した実施形態では，前記第１の音源分離ユニット１０により逐次計算される前記分離行列Ｗの収束度合いを表す前記評価値εに基づいて，前記マルチプレクサ３０によって前記第１の音源分離ユニット１０及び前記第２の音源分離ユニット２０のいずれにより生成される前記分離信号を前記出力信号とするかを切り替える例を示した。
しかし，これに限るものでなく，前記マルチプレクサ３０（出力切替手段の一例）の切り替え状態を，例えば，前記第１の音源分離ユニット１０における前記分離行列Ｗの最初の学習計算の開始（図２におけるステップＳ３）から，その学習計算の回数が予め定められた学習に十分な演算回数に到達するまで，或いはそのような十分な回数の学習計算が可能な所定時間が経過するまでは，ステップＳ１で設定された状態，即ち，前記第２の音源分離ユニット２０により生成される前記分離信号ｙ2i(t)を前記出力信号ｙi(t)とする状態に維持し，その後に前記第１の音源分離ユニット１０により生成される前記分離信号ｙ1i(t)を前記出力信号ｙi(t)とする状態に切り替える（図２におけるステップＳ６）よう構成することも考えられる。
このような構成によっても，処理を開始してから，前記第１の音源分離ユニット１０における前記分離行列Ｗが十分収束するまで（学習されるまで）は，安定した音源分離性能が得られる前記第２の音源分離ユニット２０に基づく分離信号が出力信号として採用され，その後は，音源分離性能の高い状態となった前記第１の音源分離ユニット１０に基づく分離信号が出力信号として採用される結果，リアルタイム処理を可能としつつ，音源分離性能を極力高めることが可能となる。

本発明は，音源分離装置への利用が可能である。

本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図。音源分離装置Ｘの音源分離処理の手順を表すフローチャート。音源分離装置Ｘにおける第１の音源分離ユニットによる分離行列計算の第１例の概要を説明するためのタイムチャート。音源分離装置Ｘにおける第１の音源分離ユニットによる分離行列計算の第２例の概要を説明するためのタイムチャート。ＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚ１の概略構成を表すブロック図。ＦＤＩＣＡ法に基づく音源分離処理を行う音源分離装置Ｚ２の概略構成を表すブロック図。バイナリーマスキング処理を説明するための図。

符号の説明

Ｘ…本発明の実施形態に係る音源分離装置
１，２…音源
１０…第１の音源分離ユニット
１１，１１ｆ…分離フィルタ処理部
１３…ＳＴ−ＤＦＴ処理部
２０…第２の音源分離ユニット
３０…マルチプレクサ
３１…バイナリーマスキング処理における比較部
３２…バイナリーマスキング処理における分離部
５０…制御部
１１１，１１２…マイクロホン
Ｓ１，Ｓ２，，，…処理手順（ステップ）

Claims

所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から前記音源信号を分離した分離信号を逐次生成して出力信号とする音源分離装置であって，
所定時間長分の複数の前記混合音声信号を用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を行うことにより前記分離行列を順次算出する分離行列算出手段と，
前記分離行列算出手段により算出された前記分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第１の音源分離手段と，
独立成分分析法に基づくブラインド音源分離方式以外のリアルタイムの音源分離処理により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第２の音源分離手段と，
前記第１の音源分離手段により生成される前記分離信号を前記出力信号とするか，前記第２の音源分離手段により生成される前記分離信号を前記出力信号とするかを切り替える出力切替手段と，
を具備してなることを特徴とする音源分離装置。
前記分離行列算出手段が，所定の設定時間分の前記混合音声信号が入力されるごとにその入力信号全体を用いて前記分離行列の学習計算を行うものであり，該学習計算の学習回数上限が，前記設定時間以内で計算を終える回数に設定されてなる請求項１に記載の音源分離装置。
前記分離行列算出手段が，所定の設定時間分の前記混合音声信号が入力されるごとにその入力信号のうちの一部の時間長分を用いて前記分離行列の学習計算を行うものである請求項１に記載の音源分離装置。
前記出力切替手段が，前記分離行列算出手段における前記分離行列の最初の学習計算の開始から，その学習計算の学習回数が所定回数に到達するまで若しくは所定時間が経過するまでは前記第２の音源分離手段により生成される前記分離信号を前記出力信号とし，その後に前記第１の音源分離手段により生成される前記分離信号を前記出力信号とするよう切り替えてなる請求項１〜３のいずれかに記載の音源分離装置。
前記出力切替手段が，前記分離行列算出手段による前記学習計算の収束度合いに基づいて前記第１の音源分離手段及び前記第２の音源分離手段のいずれにより生成される前記分離信号を前記出力信号とするかを切り替えてなる請求項１〜３のいずれかに記載の音源分離装置。
前記出力切替手段が，前記出力信号を前記第１の音源分離手段による前記分離信号から前記第２の音源分離手段による前記分離信号へ切り替える場合とその逆方向に切り替える場合とで，その切り替えの判別に異なる前記分離行列の収束度合いのしきい値を用いてなる請求項５に記載の音源分離装置。
前記第２の音源分離手段が，バイナリーマスキング処理，帯域制限フィルタ処理及びビームフォーマ処理のうちのいずれかにより前記分離信号を生成するものである請求項１〜６のいずれかに記載の音源分離装置。
所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から前記音源信号を分離した分離信号を逐次生成して出力信号とする音源分離処理をコンピュータに実行させるための音源分離プログラムであって，
所定時間長分の複数の前記混合音声信号を用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を行うことにより前記分離行列を順次算出する分離行列算出処理と，
前記分離行列算出処理により算出された前記分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第１の音源分離処理と，
独立成分分析法に基づくブラインド音源分離方式以外のリアルタイムの音源分離処理により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第２の音源分離処理と，
前記第１の音源分離処理により生成される前記分離信号を前記出力信号とするか，前記第１の音源分離処理が実行されている状態で前記第２の音源分離処理により生成される前記分離信号を前記出力信号とするかを切り替える出力切替処理と，
をコンピュータに実行させるための音源分離プログラム。
所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から前記音源信号を分離した分離信号を逐次生成して出力信号とする音源分離方法であって，
所定時間長分の複数の前記混合音声信号を用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を行うことにより前記分離行列を順次算出する分離行列算出工程と，
前記分離行列算出工程により算出された前記分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第１の音源分離工程と，
独立成分分析法に基づくブラインド音源分離方式以外のリアルタイムの音源分離処理により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を生成する第２の音源分離工程と，
前記第１の音源分離工程により生成される前記分離信号を前記出力信号とするか，前記第２の音源分離工程により生成される前記分離信号を前記出力信号とするかを切り替える出力切替工程と，
を有してなることを特徴とする音源分離方法。