JP2007034184A

JP2007034184A - 音源分離装置，音源分離プログラム及び音源分離方法

Info

Publication number: JP2007034184A
Application number: JP2005220972A
Authority: JP
Inventors: Takayuki Hiekata; 孝之稗方; Hiroshi Hashimoto; 裕志橋本
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2005-07-29
Filing date: 2005-07-29
Publication date: 2007-02-08
Also published as: US20070025564A1; EP1748588A2; EP1748588A3

Abstract

【課題】音源分離性能を確保しつつ，実用的なプロセッサを用いても音響環境の変化に対して即応性の高い音源分離を行うこと。
【解決手段】時間領域における所定時間長分の複数の混合音声信号ごとに，これに離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ順次変換し，その変換後の信号が周波数帯域によって複数に分割された信号ごとに，これを用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を，複数のＤＳＰ１０５に分担させて並行処理することにより分離行列を順次算出し，これにより算出された分離行列を用いて行列演算を行うことにより，周波数領域における混合音声信号から各音源に対応する分離信号を生成し，その分離信号に逆離散フーリエ変換を施す。
【選択図】図１

Description

本発明は，所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で，その音声入力手段各々を通じて入力される前記音源各々からの個別音声信号が重畳された複数の混合音声信号から前記個別音声信号を分離（同定）する音源分離装置，音源分離プログラム及び音源分離方法に関するものである。

所定の音響空間に複数の音源と複数のマイク（音声入力手段）とが存在する場合，その複数のマイクごとに，複数の音源各々からの個別音声信号（以下，音源信号という）が重畳された音声信号（以下，混合音声信号という）が取得される。このようにして取得（入力）された複数の前記混合音声信号のみに基づいて，前記音源信号各々を同定（分離）する音源分離処理の方式は，ブラインド音源分離方式（Blind Source Separation方式，以下，ＢＳＳ方式という）と呼ばれる。
さらに，ＢＳＳ方式の音源分離処理の１つに，独立成分分析法（Independent Component Analysis，以下，ＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理がある。このＩＣＡ法に基づくＢＳＳ方式は，複数のマイクを通じて入力される複数の前記混合音声信号（時系列の音声信号）において，前記音源信号どうしが統計的に独立であることを利用して所定の分離行列（逆混合行列）を最適化し，入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定（音源分離）を行う処理方式である。その際，分離行列の最適化は，ある時点で設定されている分離行列を用いたフィルタ処理により同定（分離）された信号（分離信号）に基づいて，逐次計算（学習計算）により以降に用いる分離行列を計算することによって行われる。このようなＩＣＡ法に基づくＢＳＳ方式の音源分離処理は，例えば，非特許文献１〜５等に詳説されている。さらに，非特許文献６には，多段階のＩＣＡ法に基づくＢＳＳ方式の音源分離処理について示されている。
また，特許文献１には，周波数領域におけるブラインド音源分離処理において，permutation（周波数解析窓ごとに分離音源の入れ替わりが発生する現象）の問題を分離信号の類似度計算によって解決する技術が示されている。
特開２００４−１４５１７２号公報猿渡洋，「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告，vol.EA2001-7，pp.49-56，April 2001. 高谷智哉他，「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告，vol.US2002-87，EA2002-108，January 2003. N.Murata and S. Ikeda. A on-line algorithm for blind source separation on speech signals. In Proceedings of NOLTA'98, pp. 923-926,1998 梶田，小林，武田，板倉，「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」，日本音響学会誌，53巻5号，pp.337-345 (1997) 鵜飼訓史他，「周波数領域ＩＣＡと時間領域ＩＣＡを統合したＳＩＭＯモデル信号のブラインド抽出法の評価」，電子情報通信学会技術報告，vol.EA2004-23, pp.37-42,June 2004 T.Nishikawa, H.Saruwatari, and K.Shikano,"Comparison of blind source separation methods based on time-domain ICA using nonstationarity and multistage ICA",IEICE Technical Report, vol.EA2001-112, pp49-56, April 2001.

しかしながら，前記音源信号の独立性に着目したＩＣＡ法に基づくＢＳＳ方式による音源分離処理は，分離行列を求める逐次計算（学習計算）を十分に行えば高い音源分離性能（前記音源信号の同定性能）が得られるものの，十分な音源分離性能を得るためには，分離処理（フィルタ処理）に用いる分離行列を求めるための逐次計算（学習計算）の回数が増えるので演算負荷が高くなり，その計算を実用的なプロセッサで行うと入力される混合音声信号の時間長に対して数倍の時間を要する。その結果，音源分離処理自体はリアルタイム処理が可能であっても，その音源分離処理に用いる分離行列の更新周期（学習周期）が長くなり，音響環境の変化に即応できないという問題点があった。このことは，例えば，２ｃｈ，８ＫＨｚの混合音声信号についての音源分離処理においてもいえることであり，ましてやチャンネル数（マイク数）の増加（２個→３個等）や，混合音声信号のサンプリングレート向上（８ＫＨｚ→１６ＫＨｚ等）がなされた場合には，益々学習計算の処理量増大による実用性低下の問題が顕著となる。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，音源分離性能を確保しつつ，実用的なプロセッサ（コンピュータ）を用いても音響環境の変化に対して即応性の高い音源分離装置，音源分離プログラム及び音源分離方法を提供することにある。

上記目的を達成するために本発明は，複数の音声入力手段（マイクロホン）を通じて逐次入力される複数の音源からの音源信号が重畳された複数の混合音声信号から，前記音源信号に対応する分離信号を逐次生成する音源分離装置，或いはそのプログラム若しくはその方法に適用されるものであり，時間領域における所定時間長分の複数の前記混合音声信号ごとに，これに離散フーリエ変換処理を施して周波数領域における複数の混合音声信号（以下，周波数領域単位混合音声信号という）へ順次変換する処理と，その周波数領域単位混合音声信号が周波数帯域によって複数に分割された信号（以下，周波数領域分割混合音声信号という）ごとに，これを用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を，複数のプロセッサ（コンピュータ）に分担させて並行処理することにより前記分離行列を順次算出する処理と，これにより算出された前記分離行列を用いて行列演算を行うことにより，前記周波数領域単位混合音声信号から前記音源信号に対応する前記分離信号を生成する処理を順次行う処理（以下，音源分離処理という）と，これにより生成された前記分離信号の１又は複数に逆離散フーリエ変換を施す（時間領域へ戻す）処理とを実行する或いはコンピュータに実行させるものである。
これにより，複数のプロセッサ（コンピュータ）個々は実用的・一般的なものであっても，それらの並列処理により比較的短周期で分離行列の学習計算を行うことができるので，音源分離性能を確保しつつ，音響環境の変化に対して即応性の高い音源分離が可能となる。

また，前記複数のプロセッサ（コンピュータ）各々の負荷状況に基づいて，その複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を設定するものであれば，各プロセッサが音源分離以外の他の処理に兼用されるものである場合に，一部のプロセッサが音源分離以外の他の処理によって一時的に高負荷となったときでも，その高負荷のプロセッサが行う学習計算の処理がボトルネックとなって分離行列の学習計算全体の完了が遅延することを防止できる。
例えば，前記複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を，予め定められた複数の候補の中から前記複数のプロセッサ各々の負荷状況に応じて選択することにより設定することが考えられる。
これにより，各プロセッサの負荷変動のパターンが予め想定される場合には，簡易に適切な負荷配分を行うことができる。
その他，前記複数のプロセッサ各々における前記分離行列の学習に要した実績時間を検出し，その検出結果に基づいて複数のプロセッサ各々による前記分離行列の学習計算が同時或いはほぼ同時に終了するよう複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を計算して設定することも考えられる。
これにより，各プロセッサの負荷配分を最適化できる。また，各プロセッサの負荷変動を予め想定できないような場合であっても適用できる。

本発明によれば，複数のプロセッサ（コンピュータ）個々は実用的・一般的なものであっても，それらの並列処理により比較的短周期で分離行列の学習計算を行うことができるので，音源分離性能を確保しつつ，音響環境の変化に対して即応性の高い音源分離が可能となる。
また，複数のプロセッサ（コンピュータ）各々の負荷状況に基づいて，その複数のプロセッサ各々に分担させる混合音声信号各々の配分を設定することにより，各プロセッサが音源分離以外の他の処理に兼用されるものである場合に，一部のプロセッサが他の処理によって一時的に高負荷となったときでも，その高負荷のプロセッサが行う学習計算の処理がボトルネックとなって分離行列の学習計算全体の完了が遅延することを防止できる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図，図２は音源分離装置Ｘの音源分離処理の手順を表すフローチャート，図３は音源分離装置Ｘにおける分離行列計算の第１例を説明するためのタイムチャート，図４は音源分離装置Ｘにおける分離行列計算の第２例を説明するためのタイムチャート，図５はＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚ１の概略構成を表すブロック図，図６はＦＤＩＣＡ法に基づく音源分離処理を行う音源分離装置Ｚ２の概略構成を表すブロック図である。

まず，本発明の実施形態について説明する前に，図５及び図６に示すブロック図を用いて，本発明の構成要素として適用可能な各種のＩＣＡ法に基づくブラインド音源分離方式（以下，ＩＣＡ−ＢＳＳ方式という）の音源分離装置の例について説明する。
なお，以下に示す音源分離処理或いはその処理を行う装置等は，いずれも所定の音響空間に複数の音源と複数のマイクロホン（音声入力手段）とが存在する状態で，そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号（以下，音源信号という）が重畳された複数の混合音声信号から，１以上の音源信号を分離（同定）した分離信号を生成して出力信号とする音源分離処理或いはその処理を行う装置等に関するものである。

図５は，ＩＣＡ法の一種である時間領域独立成分分析法（time-domain independent component analysis法，以下，ＴＤＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ｚ１の概略構成を表すブロック図である。なお，本処理の詳細は，非特許文献１や非特許文献２等に示されている。
音源分離装置Ｚは，分離フィルタ処理部１１により，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（音源ごとの音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)について，分離行列Ｗ(ｚ)によりフィルタ処理を施すことによって音源分離を行う。
図５には，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（個別音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)に基づいて音源分離を行う例について示しているが，２チャンネル以上であっても同様である。ＩＣＡ法に基づくＢＳＳ方式による音源分離の場合，（入力される混合音声信号のチャンネル数ｎ（即ち，マイクロホンの数））≧（音源の数ｍ）であればよい。
複数のマイクロホン１１１，１１２各々で集音された各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)には，複数音源からの音源信号が重畳されている。以下，各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)を総称してｘ(ｔ)と表す。この混合音声信号ｘ(ｔ)は音源信号Ｓ(ｔ)の時間的空間的な畳み込み信号として表現され，次の（１）式のように表される。

ＴＤＩＣＡによる音源分離の理論は，この音源信号Ｓ(ｔ)のそれぞれの音源同士が統計的に独立であることを利用すると，ｘ(ｔ)がわかればＳ(ｔ)を推測することができ，従って，音源を分離することができるという発想に基づく理論である。
ここで，当該音源分離処理に用いる分離行列をＷ(ｚ)とすれば，分離信号（即ち，同定信号）ｙ(ｔ)は，次の（２）式で表される。

ここで，Ｗ(ｚ)は，出力ｙ(ｔ)から逐次計算（学習計算）により求められる。また，分離信号は，チャンネルの数だけ得られる。
なお，音源合成処理はこのＷ(ｚ)に関する情報により，逆演算処理に相当する配列を形成し，これを用いて逆演算を行えばよい。また，分離行列Ｗ(ｚ)の逐次計算を行う際の分離行列の初期値（初期行列）は，予め定められたものが設定される。
このようなＩＣＡ法に基づくＢＳＳ方式による音源分離を行うことにより，例えば，人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から，歌声の音源信号と楽器の音源信号とが分離（同定）される。
ここで，（２）式は，次の（３）式のように書き換えて表現できる。

そして，（３）式における分離フィルタ（分離行列）Ｗ(ｎ)は，次の（４）式により逐次計算される。即ち，前回（ｊ）の出力ｙ(ｔ)を（４）式に逐次適用することより，今回（ｊ＋１）のＷ(ｎ)を求める。

次に，図６に示すブロック図を用いて，ＩＣＡ法の一種であるＦＤＩＣＡ法（Frequency-Domain ICA）に基づく音源分離処理を行う従来の音源分離装置Ｚ２について説明する。
ＦＤＩＣＡ法では，まず，入力された混合音声信号ｘ(ｔ)について，ＳＴ−ＤＦＴ処理部１３によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換（Short Time Discrete Fourier Transform，以下，ＳＴ−ＤＦＴ処理という）を行い，観測信号の短時間分析を行う。そして，そのＳＴ−ＤＦＴ処理後の各チャンネルの信号（各周波数成分の信号）について，分離フィルタ処理部１１ｆにより分離行列Ｗ(ｆ)に基づく分離フィルタ処理を施すことによって音源分離（音源信号の同定）を行う。ここでｆを周波数ビン，ｍを分析フレーム番号とすると，分離信号（同定信号）ｙ(ｆ，ｍ)は，次の（５）式のように表すことができる。

ここで，分離フィルタＷ(ｆ)の更新式は，例えば次の（６）式のように表すことができる。

このＦＤＩＣＡ法によれば，音源分離処理が各狭帯域における瞬時混合問題として取り扱われ，比較的簡単かつ安定に分離フィルタ（分離行列）Ｗ(ｆ)を更新することができる。
ここで，ＦＤＩＣＡ法における分離行列Ｗ(ｆ)の学習計算では，周波数ビンごとに独立して学習が可能である（相互に演算結果が干渉しない）。従って，全周波数帯域を周波数ビンの単位で複数に区分すれば，その区分した周波数帯域各々について学習計算を並行処理（並列処理）することができる。
このＦＤＩＣＡ法（ＦＤＩＣＡ方式）が，本発明における，独立成分分析法に基づくブラインド音源分離方式における分離行列Ｗ(ｆ)の学習計算する処理，及びその分離行列Ｗ(ｆ)を用いて行列演算を行うことにより複数の前記混合音声信号から音源信号に対応する分離信号を逐次生成する処理に適用されるものである。

以下，図１に示すブロック図を用いて，本発明の実施形態に係る音源分離装置Ｘについて説明する。
音源分離装置Ｘは，複数（ｎ個以下）の音源が存在する音響空間において用いられるものであり，複数のマイクロホン１０１（音声入力手段）を通じて逐次入力される複数の音源からの音源信号が各々重畳された複数の混合音声信号から，各音源信号に対応する分離信号を逐次生成するものである。
図１に示すように，音源分離装置Ｘは，上記音響空間に配置された複数（ｎ個）のマイクロホン１０１各々が接続される複数（ｎ個）のマイク入力端子１０２と，そのマイク入力端子１０２各々を通じて入力される混合音声信号（複数の音源信号が重畳された信号）各々について，信号を増幅するアンプ１０３及び信号をデジタル信号に変換するＡ／Ｄコンバータ１０４と，デジタル信号化された複数（ｎ個）の混合音声信号各々に対応し，その各々を入力して信号処理を行う複数（ｎ個）のＤＳＰ１０５（Digital Signal Processor，プロセッサの一例，以下，個々のＤＳＰをＤＳＰ1〜ＤＳＰnという）と，その１つ（ＤＳＰ1）から逐次出力される音源分離処理後の複数（ｎ個）の分離信号各々をアナログ信号に変換するＤ／Ａコンバータ１０６と，アナログ信号化された複数（ｎ個）の分離信号各々を増幅するアンプ１０７と，外部の複数（ｎ個）のスピーカ１０９に対する接続端子として増幅後の分離信号の信号ライン各々に設けられたスピーカ出力端子１０８と，各ＤＳＰ１０５によって各種のデータが読み書きされる不揮発性のフラッシュメモリ等であるメモリ１１２と，ＤＳＰ１０５相互間及び各ＤＳＰ１０５とメモリ１１２間のデータ伝送経路となるバス１１１と，当該音源分離装置Ｘの各構成要素に電力を供給するバッテリー１１０とを具備している。

本実施形態では，全てのＤＳＰ1〜ＤＳＰn各々により，前述のＦＤＩＣＡ方式における分離行列Ｗ(ｆ)の学習計算を分担して並行処理し，そのうちの１つのＤＳＰ1により，全てのＤＳＰ1〜ＤＳＰnで分担して学習された分離行列Ｗ(ｆ)を用いた行列演算を逐次行うことによって混合音声信号に対して音源分離処理を施す。これにより，複数のマイクロホン１０１（音声入力手段）を通じて逐次入力される複数の音源からの音源信号が各々重畳された複数の混合音声信号から，各音源信号に対応する分離信号が逐次生成され，スピーカ１０９するものである。
これにより，ｎ個以下の音源各々の個別の信号（音源信号）に相当する分離信号，ｎ個のスピーカ１０９のいずれかから個別に出力される。この音源分離装置Ｘは，例えば，ハンズフリー電話機やテレビ会議の収音装置等への利用が可能なものである。
各ＤＳＰ1〜ＤＳＰnは，内蔵ＲＯＭに予め記憶された音声処理プログラムを内蔵ＭＰＵ（演算部）で実行することにより，音源分離に関する処理（学習計算及び分離行列を用いた行列計算（分離信号出力処理））及びその他の処理を行う。
なお，本発明は，前記ＤＳＰ１０５等のプロセッサ（コンピュータ）により実行される音源分離プログラム或いは前記ＤＳＰ１０５が実行する処理を行う音源分離方法として捉えることもできる。

次に，図２に示すフローチャートを参照しつつ，各ＤＳＰ1〜ＤＳＰnにより実行される音源分離処理の手順について説明する。本実施形態では，音源分離処理に関しては，ＤＳＰ2〜ＤＳＰn（以下，ＤＳＰ2-nとする）は同等の内容の処理を行うものとして，ＤＳＰ1とその他のＤＳＰ2-nとに分けて処理を説明する。以下に示す処理は，音源分離装置Ｘが備える操作ボタン等の操作部（不図示）から所定の処理開始操作がなされたことが検知された場合に開始し，所定の終了操作がなされたことが検知された場合に終了する。なお，以下に示すＳ１１，Ｓ１２，…は，処理手順（ステップ）の識別符号を表す。
まず，処理開始操作が検知されると，ＤＳＰ1，ＤＳＰ2-n各々において，各種初期設定処理が行われる（Ｓ１１，Ｓ３０）。
例えば，分離行列Ｗ(ｆ)の初期値設定や，後述するように各ＤＳＰ1〜ＤＳＰ2-nが分担して分離行列Ｗ(ｆ)の学習計算を実行する際の処理の分担度合い（配分）の初期値設定等である。

次に，ＤＳＰ1，ＤＳＰ2-n各々は，逐次入力される時間領域における混合音声信号ｘ(ｔ)を前記Ａ／Ｄコンバータ１０４から逐次取得し（Ｓ１２，Ｓ３１），その混合音声信号ｘ(ｔ)における所定時間長分（例えば，３秒分）のフレーム信号ごとに，短時間離散フーリエ変換処理（ＳＴ−ＤＦＴ処理）を施すことによって周波数領域の信号へ変換する（Ｓ１３，Ｓ３２）とともに，その周波数領域に変換されたフレーム信号を，内蔵する主記憶メモリ（ＲＡＭ）内にバッファリングする（Ｓ１４，Ｓ３３）。これにより，時間領域における複数のフレーム信号が，周波数領域における複数のフレーム信号（周波数領域単位混合音声信号の一例）へ変換され（周波数領域変換処理の一例），主記憶メモリに一時記憶される。
以後，１つのフレーム信号が入力されるごとに（フレーム信号の時間長の周期で），そのフレーム信号に対してＳＴ−ＤＦＴ処理を施して，周波数領域における複数の混合音声信号（周波数領域単位混合音声信号）へ順次変換しつつバッファリングする処理（Ｓ１２〜Ｓ１４，Ｓ３１〜Ｓ３３）が，終了操作がなされるまで周期的に繰り返される。
なお，ここでは，各ＤＳＰ各々においてＳＴ−ＤＦＴ処理を行っているが，本処理は低負荷の処理であるため特に負荷増大の弊害は生じないが，いずれか１つのＤＳＰのみでＳＴ−ＤＦＴ処理を行い，その結果を他のＤＳＰに転送して用いる構成としてもよい。

次に，ＤＳＰ1においては，その処理が，前述のステップＳ１２〜Ｓ１４の処理と，分離行列Ｗ(ｆ)の学習計算に関する処理（Ｓ２１〜Ｓ２６）と，分離行列Ｗ(ｆ)を用いた行列演算（フィルタ演算）を行うことによる分離信号の生成に関する処理（音源分離処理，Ｓ１５〜Ｓ２０）との３つに分岐し，それらが並行処理される。
一方，他のＤＳＰ2-nにおいては，前述のステップＳ３１〜Ｓ３３の処理と，ＤＳＰ1とともに分担して行う分離行列Ｗ(ｆ)の学習計算に関する処理（Ｓ３４〜Ｓ３９）との２つに分岐し，それらが並行処理される。
ここで，各ＤＳＰ1〜ＤＳＰnに対し，周波数領域におけるフレーム信号（周波数領域単位混合音声信号）が周波数帯域によって複数に分割された各信号（以下，分割フレーム信号という，周波数領域分割混合音声信号の一例）の分担（即ち，学習計算する周波数帯の分担）が予め設定されており，その初期値は前述したステップＳ１１，Ｓ３１の初期設定の際に設定され，その後，後述する配分設定処理（Ｓ２６）によって随時変更される。

以下，各ＤＳＰにおける学習計算処理について説明する。
まず，各ＤＳＰ1〜ＤＳＰnは，バッファリングされた周波数領域に変換後のフレーム信号（混合音声信号）から，自身が分担するよう設定された周波数帯の分割フレーム信号を抽出する（Ｓ２１，Ｓ３４）。
さらに，各ＤＳＰ1〜ＤＳＰnは，抽出した分割フレーム信号，即ち，周波数領域のフレーム信号（所定時間長分の混合音声信号）が周波数帯域によって複数に分割された信号ごとに，これを用いたＦＤＩＣＡ方式（独立成分分析法に基づくブラインド音源分離方式）における分離行列Ｗ(ｆ)の学習計算を，複数のＤＳＰ1〜ＤＳＰnにより分担して並行処理する（Ｓ２２，Ｓ３５）。加えて，ＤＳＰ2-nが，各々担当分の学習計算終了時にＤＳＰ1に対して学習終了通知を行う（Ｓ３６）。一方，これを受けたＤＳＰ1が，自己の担当分の学習計算を含め，全てのＤＳＰでの学習計算が終了することを監視する（Ｓ２３）。これら一連の分離行列算出に関する処理は，フレーム信号ごとに順次繰り返される。
なお，学習計算中に参照及び逐次更新される分離行列は，後述する音源分離処理（Ｓ１６）に用いられる分離行列とは別個にワーク変数として設定されたワーク行列である。
ここで，学習終了通知の際，学習計算を分担した各ＤＳＰ2-nは，今回の学習計算を行った際の演算負荷の状況を表す指標を検知してＤＳＰ1に通知する。同様に，ＤＳＰ1も同じ指標を検知する。その詳細については後述する。

そして，ＤＳＰ1は，全てのＤＳＰでの学習計算が終了したと判別すると，学習後の分離行列Ｗ(ｆ)について，分担処理した各周波数帯ごとの係数交差修正（一般に，permutation問題の解決といわれる）や，ゲイン調整等を行う後処理を実行し（Ｓ２４），さらに，音源分離に用いられる分離行列Ｗ(ｆ)を，その後処理後の分離行列Ｗ(ｆ)に更新する（Ｓ２５）。即ち，学習のために設けたワーク行列の内容を分離処理に用いる分離行列Ｗ(ｆ)の内容に反映させる。
これにより，以後の音源分離処理（後述するステップＳ１６）は，更新後の分離行列Ｗ(ｆ)を用いた行列演算（フィルタ処理）により行われる。
さらに，ＤＳＰ1は，学習計算を分担した複数のＤＳＰ1〜ＤＳＰn各々における，今回の学習計算を行った際の負荷状況（ステップＳ３６で検知及び通知された演算負荷の状況を表す指標）に基づいて，次回の（後続するフレーム信号についての）学習計算を行う際にＤＳＰ1〜ＤＳＰn各々に分担させる前記分割フレーム信号（周波数領域分割混合音声信号）各々の配分を設定し，その設定結果である配分情報を各ＤＳＰ2-nに通知する（Ｓ２６，信号配分設定処理の一例）。一方，他のＤＳＰ2-nは，その配分情報を取得する（Ｓ３７）。
分割フレーム信号の配分情報は，例えば，フレーム信号（混合音声信号）について，処理対象とする全周波数帯域を予め設定し，その全周波数帯域を均等に分割した個々の周波数ビン（分割周波数帯域）の番号を０〜Ｍとしたときに，ＤＳＰ1には０〜ｍ₁，ＤＳＰ2にはｍ₁＋１〜ｍ₂，ＤＳＰ3にはｍ₂＋１〜ｍ₃，…，ＤＳＰnにはｍ_n〜Ｍの各周波数ビン（帯域）を分担させる（配分する），といった情報である。
これにより，ＤＳＰ1〜ＤＳＰn各々が，後続する次のフレーム信号の処理の際のステップＳ２１，Ｓ３４において，そのフレーム信号からいずれの周波数帯域の信号を分割フレーム信号として抽出するかが定まる。
なお，前記配分情報とその情報に基づく分割フレーム信号の配分の具体例については後述する。

以上のようにして，ＤＳＰ1においては，分離行列Ｗ(ｆ)の学習計算に関する処理（Ｓ２１〜Ｓ２６）が，終了操作がなされるまで順次繰り返される。
一方，ＤＳＰ2-nは，前記配分情報の取得（Ｓ３７）の後，状況に応じてその他の処理を実行（Ｓ３８）した後，終了操作がなされたことが検知（Ｓ３９）されるまで，ステップＳ３４〜Ｓ３９の処理を繰り返す。これにより，後述する音源分離に用いられる分離行列Ｗ(ｆ)が，学習計算によって定期的に更新される。
なお，ここでは，ＤＳＰ1において，学習計算終了の監視から更新に至る処理（Ｓ２３〜Ｓ２５）や，配分設定・通知処理（Ｓ２６）を行う例を示したが，ＤＳＰ1以外の他のＤＳＰ2-nのいずれか１つで行う或いは複数で分担して行うよう構成してもよい。

一方，ＤＳＰ1においては，以上示したＤＳＰ1〜ＤＳＰnによる分離行列Ｗ(ｆ)の学習計算処理と並行して，以下に示す分離信号の生成に関する処理（Ｓ１５〜Ｓ２０）が行われる。
即ち，まず，ＤＳＰ1は，分離行列Ｗ(ｆ)が前述した学習計算により少なくとも初期行列から既に更新されたものとなったか否かを監視し（Ｓ１５），更新されているときは，その分離行列Ｗ(ｆ)を用いて，バッファリングされた複数（ｎ個）のフレーム信号に対してその先頭信号から順に行列演算（フィルタ処理）を順次行うことによって音源分離処理を行う（Ｓ１６）。これにより，複数のフレーム信号から各音源信号に対応する分離信号が生成される。
さらに，ＤＳＰ1は，ステップＳ１６の処理で生成された分離信号各々に逆離散フーリエ変換（ＩＤＦＴ処理）を施す（Ｓ１７，時間領域変換処理）。これにより，分離信号が周波数領域の信号から時間領域の信号（時系列信号）に変換される。

さらに，ＤＳＰ1は，不図示の操作部を通じて入力された指令により，ノイズ除去処理（スペクトルサブトラクション等）やイコライザ処理，ＭＰ３圧縮処理等のオプションの音声処理を行うべきことが指定されている場合には，時間領域に変換された分離信号各々に対し，その指令に従った音声処理（オプション処理）を施し，そのオプション処理後の分離信号が後段に接続された前記Ｄ／Ａコンバータ１０６へ出力する（Ｓ１８）。なお，オプション処理が指定されていない場合は，ステップＳ１７で時間領域に変換された分離信号をそのままＤ／Ａコンバータ１０６へ出力する。
さらに，ＤＳＰ1は，操作部からの操作入力の受け付け等，その他の処理を実行（Ｓ１９）した後，所定の終了操作がなされたか否かを判別する（Ｓ２０）。そして，終了操作がなされるまで，前述したステップＳ１１〜Ｓ１４，ステップＳ１６〜Ｓ２０，及びステップＳ２１〜Ｓ２６各々の処理が順次繰り返される。
これにより，逐次入力される混合音声信号に基づき各音源に対応する分離信号が生成（分離）され，その分離信号がリアルタイムでスピーカ１０９から逐次出力されるとともに，その音源分離に用いられる分離行列Ｗ(ｆ)が，学習計算によって定期的に更新される。
このような構成及び処理により，複数のプロセッサ（ＤＳＰ1〜ＤＳＰn）個々は実用的・一般的なものであっても，それらの並列処理によって比較的短周期で分離行列Ｗ(ｆ)の学習計算を行うことができるので，音源分離性能を確保しつつ，音響環境の変化に対して即応性の高い音源分離が可能となる。

ところで，本発明のように，複数のプロセッサで学習計算を分担して処理する場合，全体の学習時間が，最も処理が遅い（同じプロセッサを複数用いる場合は最も演算負荷が高い）プロセッサ（ＤＳＰ）の学習時間に左右される。ここで，各ＤＳＰの演算負荷の変動が少ない場合には，各ＤＳＰにおける学習計算に要する時間がほぼ等しくなるように，予め各ＤＳＰが分担する周波数帯域（分割フレーム信号）の配分を固定的に定めておけばよい。これにより，全体の学習時間が最短となり，逐次入力される混合音声信号に基づいて短周期で分離行列Ｗ(ｆ)を学習及び更新できるので，音響環境の変化に対して高い即応性を確保できる。
しかしながら，前述したＤＳＰ1におけるオプション処理（Ｓ１８）の実行有無等が状況によって変化する場合のように，各プロセッサの演算負荷の変動が大きい場合，複数のプロセッサ全体としての処理能力に余裕があっても，その一部のプロセッサにおいて一時的に演算負荷が高くなり，他よりも学習計算に時間がかかると，全体の学習時間が長くなる。
そこで，前述したように，音源分離装置Ｘにおいては，ＤＳＰ1が，各ＤＳＰの負荷状況を表す指標に基づいて，その複数のＤＳＰ各々に分担させる分割フレーム信号（周波数領域分割混合音声信号）各々の配分を設定する。

以下，ステップＳ２６における分割フレーム信号の配分の具体例について説明する。
まず，分割フレーム信号の配分の第１の例について説明する。
この第１の例では，各ＤＳＰ1〜ＤＳＰn各々が，分離行列Ｗ(ｆ)の学習計算を行った際に，その学習計算に要した実績時間を前記演算負荷の状況の指標として検出し，その検出結果に基づいて，各ＤＳＰによる分離行列Ｗ(ｆ)の学習計算が同時或いはほぼ同時に終了するように，各ＤＳＰに分担させる分割フレーム信号の配分（周波数ビンの配分）を計算して設定する。
ここで，ＤＳＰm（ｍ＝１〜ｎ）における分離行列Ｗ(ｆ)のｉ回目の学習計算に要した時間（実績時間）をｔ_m(ｉ)，そのときの周波数ビン（分割周波数帯域）の分担数をｋ_m(ｉ)，全周波数帯域の分割数（周波数ビンの数）をＮとし，ｉ回目の学習時とｉ＋１回目の学習時とにおいて，各ＤＳＰにおける学習計算以外の演算負荷がほぼ同等であると仮定した場合，ｉ＋１回目の学習時に各ＤＳＰによる学習計算を同時に終了させる（学習時間を等しくする）ためには，例えば，次の（７）式及び（８）式からなる連立方程式を適用すればよい。
ｋ_p(ｉ＋１)・ｔ_p(ｉ)／ｋ_p(ｉ)＝ｋ_j(ｉ＋１)・ｔ_j(ｉ)／ｋ_j(ｉ) …（７）
ｋ₁(ｉ＋１)＋ｋ₂(ｉ＋１)＋…＋ｋ_n(ｉ＋１)＝Ｎ …（８）
ここで，ｐは１〜ｎのうちの任意の１つの番号，ｊは１〜ｎのうちのｐを除く残りの全ての番号を表す。即ち，（７）式は（ｎ−１）個の式を表す。この連立方程式を解いて求めたｋ₁(ｉ＋１)〜ｋ_n(ｉ＋１)に従って学習計算を分担すれば，各ＤＳＰの演算負荷が変化した際の１回の学習計算については遅延が生じ得るものの，その後は速やかにＤＳＰの負荷状況の変化に追従して均等に負荷分散させることが可能となる。
例えば，全周波数帯域が１０２４分割（Ｎ＝１０２４）され，３個（ｎ＝３）のＤＳＰ1〜ＤＳＰ3で学習計算を分担する場合において，ｋ₁(ｉ)＝２５６，ｋ₂(ｉ)＝３８４，ｋ₃(ｉ)＝３８４，ｔ₁(ｉ)＝２(sec)，ｔ₂(ｉ)＝１(sec)，ｔ₃(ｉ)＝１(sec)であった場合，上記連立方程式を解くと，ｋ₁(ｉ＋１)＝１４６．２９≒１４６，ｋ₂(ｉ＋１)＝４３８．８６≒４３９，ｋ₃(ｉ)＝４３８．８６≒４３９となり，予想されるｉ＋１回目の学習計算時間は約１．１５(sec)となる。即ち，配分を固定した場合の学習時間（２(sec)）に比べて大幅な時間短縮となる。
これにより，各プロセッサの負荷配分を最適化できる。また，各プロセッサの負荷変動を予め想定できないような場合であっても適用できる。
なお，上記連立方程式を適用する手法は一例であり，線形計画法等の他の手法により各ＤＳＰにおける学習時間を均一化するよう周波数帯域の配分を設定することも考えられる。

分割フレーム信号の配分の第２の例は，複数のＤＳＰ各々の負荷状況と，そのＤＳＰ各々に分担させる前記分割フレーム信号（周波数領域分割混合音声信号）各々の配分情報との関係を，予め前記メモリ１１２等に記憶しておき，その記憶情報に従って，それら各ＤＳＰに分担させる分割フレーム信号の配分，即ち，いずれの周波数帯域のフレーム信号（の学習計算）をいずれのＤＳＰに分担させるかの配分を，各ＤＳＰの演算負荷の状況に応じて設定するものである。
即ち，ＤＳＰ1により，複数のＤＳＰ各々に分担させる分割フレーム信号各々の配分を，予め定められた複数の候補の中からＤＳＰ各々の負荷状況に応じて選択することにより設定するものである。
例えば，各ＤＳＰにおいて並行処理がなされ得る全ての処理パターン（処理の組み合わせ）と，その処理パターン各々に対応する各ＤＳＰへの分割フレーム信号の配分パターン（配分の候補）とを関連付けて記憶しておき，現在の処理パターンに対応する配分パターンを選択して設定することが考えられる。
その他，各ＤＳＰの演算部の稼働率（０〜１００％）を数段階に区分したときに，前回の学習計算時の稼働率がいずれの区分に属するかを表す稼働率ランクを負荷状況の指標とし，各ＤＳＰの稼働率ランクの全ての組み合わせ各々に対応する各ＤＳＰへの分割フレーム信号の配分パターン（配分の候補）とを関連付けて記憶しておき，現在の各ＤＳＰの稼働率ランクの組み合わせに対応する配分パターンを選択して設定すること等も考えられる。
これらの処理により，各ＤＳＰの負荷変動のパターンが予め想定される場合には，簡易に適切な負荷配分を行うことができる。

次に，図３及び図４に示すタイムチャートを用いて，分離行列Ｗ(ｆ)の学習に用いられる混合音声信号と，その学習により得られる分離行列Ｗ(ｆ)を用いて音源分離処理が施される混合音声信号との対応関係の第１例（図３）及び第２例（図４）について説明する。
ここで，図３は，分離行列Ｗ(ｆ)の計算（Ｓ２２，Ｓ３５）と音源分離処理（Ｓ１６）との各々に用いる混合音声信号の区分の第１例をタイムチャート的に表したものである。
この第１例は，逐次入力される混合音声信号を所定時間長（例えば３秒）分のフレーム信号（以下，Frameという）ごとに，その全てを用いて学習計算を行う例である。
また，図３（ａ−１）は，分離行列の学習計算と，その分離行列に基づくフィルタ処理（行列演算）により分離信号を生成（同定）する処理とを，異なるFrameを用いて実行する場合（以下，処理（ａ−１）という）を表し，図３（ｂ−１）は，それらを同一のFrameを用いて実行する場合（以下，処理（ｂ−１）という）を表す。
前記処理（ａ−１）では，図３（ａ−１）に示すように，時刻Ｔi〜Ｔi+1の期間（周期：Ｔi+1−Ｔi）に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算（学習）を行い，それにより求められた分離行列を用いて時刻(Ｔi+1＋Ｔd)〜(Ｔi+2＋Ｔd)の期間に入力された前記混合音声信号全てに相当するFrame(i+1)’について分離処理（フィルタ処理）を実行する。ここで，Ｔdは１つのFrameを用いた分離行列の学習に要する時間である。即ち，ある１期間の混合音声信号に基づき計算された分離行列を用いて，Frame時間長＋学習時間だけずれた次の１期間の混合音声信号の分離処理（同定処理）を行う。このとき，ある１期間のFrame(i)を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)’を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いれば，学習計算の収束が早まり好適である。
この処理（ａ−１）は，図２に示したステップＳ１５の処理を省略した場合の実施例に該当する。

一方，前記処理（ｂ−１）では，図３（ｂ−１）に示すように，時刻Ｔi〜Ｔi+1の期間に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算（学習）を行いつつそのFrame(i)全てを保持し，Frame(i)に基づき求められた分離行列を用いて，保持されたFrame(i)について分離処理（フィルタ処理）を実行する。即ち，順次１期間＋学習時間Ｔd分の混合音声信号を記憶手段（メモリ）に保持しつつ，その記憶された１期間分の混合音声信号全てに基づき分離行列を計算（学習）し，計算された分離行列を用いて記憶手段に保持された１期間分の混合音声信号の分離処理（同定処理）を行う。この場合も，ある１期間のFrame(i)を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)を用いて分離行列を学習計算する際の初期値（初期分離行列）として用いることが好ましい。
この処理（ｂ−１）は，図２に示した処理に該当し，ステップＳ１５における監視時間が，図３（ｂ−１）におけるｄｅｌａｙ時間に相当する。
以上示したように，前記処理（ａ−１）も，前記処理（ｂ−１）も，時系列に入力される混合音声信号を予め定められた周期で区分されたFrameが入力されるごとに，その入力信号全体を用いて分離行列Ｗ(ｆ)の学習計算を行うとともに，その学習計算により得られた分離行列を用いた行列演算である分離処理を順次実行して分離信号を生成するものである。

ところで，１つのFrameの時間長以内に，１つのFrame全体に基づく分離行列の学習計算を完了させることができれば，全ての混合音声信号を学習計算に反映させながらリアルタイムでの音源分離処理が可能となる。
しかしながら，学習計算を複数のプロセッサで分担して並行処理した場合でも，１つのFrameの時間範囲内（Ｔi〜Ｔi+1）に，十分な音源分離性能を確保できるだけの十分な学習計算（逐次計算処理）を常には完了させられないことも考え得る。
そこで，図４に示す第１例は，逐次入力される混合音声信号を所定時間長（例えば３秒）分のフレーム信号（Frame）ごとに，そのフレーム信号の先頭側の一部を用いて学習計算を行う例，即ち，分離行列の逐次計算に用いる混合音声信号のサンプル数を通常よりも減らす（間引く）例である。
これにより，学習計算の演算量が抑えられるので，より短周期で分離行列の学習を行うことが可能となる。
図４も，図３と同様に，分離行列Ｗ(ｆ)の計算（Ｓ２２，Ｓ３５）と音源分離処理（Ｓ１６）との各々に用いる混合音声信号の区分の第２例をタイムチャート的に表したものである。
図４（ａ−２）は，分離行列の学習計算と，その分離行列に基づくフィルタ処理（行列演算）により分離信号を生成（同定）する処理とを，異なるFrameを用いて実行する場合（以下，処理（ａ−２）という）を表し，図４（ｂ−２）は，それらを同一のFrameを用いて実行する場合（以下，処理（ｂ−２）という）を表す。
前記処理（ａ−２）では，図４（ａ−２）に示すように，時刻Ｔi〜Ｔi+1の期間（周期：Ｔi+1−Ｔi）に入力された前記混合音声信号（Frame）であるFrame(i)のうち，先頭側の一部（例えば，先頭から所定時間分）の信号（以下，Sub-Frame(i)という）を用いて分離行列の計算（学習）を行い，それにより求められた分離行列を用いて時刻Ｔi+1〜Ｔi+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理（フィルタ処理）を実行する。即ち，ある１期間の混合音声信号の先頭側の一部に基づき計算された分離行列を用いて次の１期間の混合音声信号の分離処理（同定処理）を行う。このとき，ある１期間のFrame(i)の先頭側の一部を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いれば，逐次計算（学習）の収束が早まり好適である。
この処理（ａ−２）は，図２に示したステップＳ１５の処理を省略した場合の実施例に該当する。

一方，前記処理（ｂ−２）では，図４（ｂ−２）に示すように，時刻Ｔi〜Ｔi+1の期間に入力された前記混合音声信号全てに相当するFrame(i)のうち，先頭側の一部（例えば，先頭から所定時間分）のSub-Frame(i)を用いて分離行列の計算（学習）を行いつつそのFrame(i)全てを保持し，Sub-Frame(i)に基づき求められた分離行列を用いて，保持されたFrame(i)について分離処理（フィルタ処理）を実行する。この場合も，ある１期間のFrame(i)の一部であるSub-Frame(i)を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)の一部であるSub-Frame(i+1)を用いて分離行列を学習計算する際の初期値（初期分離行列）として用いることが好ましい。
このように，分離行列を求める学習計算に用いる混合音声信号を，フレーム信号ごとにその先頭側の一部の時間帯の信号に限定することにより，より短周期での学習計算が可能になる。

本発明は，音源分離装置への利用が可能である。

本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図。音源分離装置Ｘの音源分離処理の手順を表すフローチャート。音源分離装置Ｘにおける分離行列計算の第１例を説明するためのタイムチャート。音源分離装置Ｘにおける分離行列計算の第２例を説明するためのタイムチャート。ＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚ１の概略構成を表すブロック図。ＦＤＩＣＡ法に基づく音源分離処理を行う音源分離装置Ｚ２の概略構成を表すブロック図。

符号の説明

Ｘ…本発明の実施形態に係る音源分離装置
１０１…マイクロホン
１０３，１０７…アンプ
１０４…Ａ／Ｄコンバータ
１０５…ＤＳＰ
１０６…Ｄ／Ａコンバータ
１０９…スピーカ
１１２…メモリ
Ｓ１１，Ｓ１２，，，…処理手順（ステップ）

Claims

複数の音声入力手段を通じて逐次入力される複数の音源からの音源信号が重畳された複数の混合音声信号から，前記音源信号に対応する分離信号を逐次生成する音源分離装置であって，
時間領域における所定時間長分の複数の前記混合音声信号ごとに離散フーリエ変換処理を施して周波数領域における複数の混合音声信号である周波数領域単位混合音声信号へ順次変換する周波数領域変換手段と，
前記周波数領域単位混合音声信号が周波数帯域によって複数に分割された信号である周波数領域分割混合音声信号ごとに，これを用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を複数のプロセッサに分担させて並行処理することにより前記分離行列を順次算出する分離行列算出手段と，
前記分離行列算出手段により算出された前記分離行列を用いて行列演算を行うことにより前記周波数領域単位混合音声信号から前記音源信号に対応する前記分離信号を生成する処理を順次行う音源分離手段と，
前記音源分離手段により生成された前記分離信号の１又は複数に逆離散フーリエ変換を施す時間領域変換手段と，
を具備してなることを特徴とする音源分離装置。
前記複数のプロセッサ各々の負荷状況に基づいて該複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を設定する信号配分設定手段を具備してなる請求項１に記載の音源分離装置。
前記信号配分設定手段が，前記複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を，予め定められた複数の候補の中から前記複数のプロセッサ各々の負荷状況に応じて選択することにより設定してなる請求項２に記載の音源分離装置。
前記信号配分設定手段が，前記複数のプロセッサ各々における前記分離行列の学習に要した実績時間に基づいて該複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を計算して設定してなる請求項２に記載の音源分離装置。
複数の音声入力手段を通じて逐次入力される複数の音源からの音源信号が重畳された複数の混合音声信号から，前記音源信号に対応する分離信号を逐次生成する音源分離処理をコンピュータに実行させるための音源分離プログラムであって，
時間領域における所定時間長分の複数の前記混合音声信号ごとに離散フーリエ変換処理を施して周波数領域における複数の混合音声信号である周波数領域単位混合音声信号へ順次変換する周波数領域変換処理と，
前記周波数領域単位混合音声信号が周波数帯域によって複数に分割された信号である周波数領域分割混合音声信号ごとに，これを用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を複数のコンピュータで分担して並行処理させることにより前記分離行列を順次算出する分離行列算出処理と，
前記分離行列算出処理により算出された前記分離行列を用いて行列演算を行うことにより前記周波数領域単位混合音声信号から前記音源信号に対応する前記分離信号を生成する処理を順次行う音源分離処理と，
前記音源分離処理により生成された前記分離信号の１又は複数に逆離散フーリエ変換を施す時間領域変換処理と，
をコンピュータに実行させるための音源分離プログラム。
複数の音声入力手段を通じて逐次入力される複数の音源からの音源信号が重畳された複数の混合音声信号から，前記音源信号に対応する分離信号を逐次生成する音源分離方法であって，
時間領域における所定時間長分の複数の前記混合音声信号ごとに離散フーリエ変換処理を施して周波数領域における複数の混合音声信号である周波数領域単位混合音声信号へ順次変換する周波数領域変換工程と，
前記周波数領域単位混合音声信号が周波数帯域によって複数に分割された信号である周波数領域分割混合音声信号ごとに，これを用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を複数のプロセッサに分担させて並行処理することにより前記分離行列を順次算出する分離行列算出工程と，
前記分離行列算出工程により算出された前記分離行列を用いて行列演算を行うことにより前記周波数領域単位混合音声信号から前記音源信号に対応する前記分離信号を生成する処理を順次行う音源分離工程と，
前記音源分離工程により生成された前記分離信号の１又は複数に逆離散フーリエ変換を施す時間領域変換工程と，
を有してなることを特徴とする音源分離方法。