JP2007219479A

JP2007219479A - 音源分離装置、音源分離プログラム及び音源分離方法

Info

Publication number: JP2007219479A
Application number: JP2006241861A
Authority: JP
Inventors: Takayuki Hiekata; 孝之稗方; Koji Morita; 孝司森田; Hiroshi Saruwatari; 洋猿渡; Yasumitsu Mori; 康充森
Original assignee: Kobe Steel Ltd; Nara Institute of Science and Technology NUC
Current assignee: Kobe Steel Ltd; Nara Institute of Science and Technology NUC
Priority date: 2006-01-23
Filing date: 2006-09-06
Publication date: 2007-08-30
Anticipated expiration: 2026-09-06
Also published as: US20090306973A1; JP4496186B2; WO2007083814A1

Abstract

【課題】ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られるとともに、重視する目的（音源分離性能又は音質）に応じた音源分離処理が可能なこと。
【解決手段】複数の混合音声信号Ｘi(ｔ)からＩＣＡ法に基づくＢＳＳ方式の音源分離処理により、１以上の音源信号Ｓi(ｔ)を分離（同定）したＳＩＭＯ信号を分離生成するＳＩＭＯ−ＩＣＡ処理部１０と、これにより生成されたＳＩＭＯ信号について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い、この中間処理により得られる中間処理後信号を出力する中間処理実行部４１、４２と、その中間処理後信号及びＳＩＭＯ信号に対してバイナリーマスキング処理を施すことによって１以上の音源信号について分離（同定）した分離信号を生成するバイノーラル信号処理部２１、２２とを備えた音源分離装置Ｘ。
【選択図】図１

Description

本発明は、所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で、その音声入力手段各々を通じて入力される前記音源各々からの個別音声信号が重畳された複数の混合音声信号から、１以上の前記個別音声信号を同定（分離）する音源分離装置、音源分離プログラム及び音源分離方法に関するものである。

所定の音響空間に複数の音源と複数のマイク（音声入力手段）とが存在する場合、その複数のマイクごとに、複数の音源各々からの個別音声信号（以下、音源信号という）が重畳された音声信号（以下、混合音声信号という）が取得される。このようにして取得（入力）された複数の前記混合音声信号のみに基づいて、前記音源信号各々を同定（分離）する音源分離処理の方式は、ブラインド音源分離方式（Blind Source Separation方式、以下、ＢＳＳ方式という）と呼ばれる。
さらに、ＢＳＳ方式の音源分離処理の１つに、独立成分分析法（Independent Component Analysis、以下、ＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理がある。このＩＣＡ法に基づくＢＳＳ方式は、複数のマイクを通じて入力される複数の前記混合音声信号（時系列の音声信号）において、前記音源信号どうしが統計的に独立であることを利用して所定の逆混合行列を最適化し、入力された複数の前記混合音声信号に対して最適化された逆混合行列によるフィルタ処理を施すことによって前記音源信号の同定（音源分離）を行う処理方式である。このようなＩＣＡ法に基づくＢＳＳ方式の音源分離処理は、例えば、非特許文献１や非特許文献２、及び非特許文献６や非特許文献７等に詳説されている。
一方、音源分離処理としては、バイノーラル信号処理（分解）による音源分離処理も知られている。これは、人間の聴覚モデルに基づいて複数の入力音声信号に時変のゲイン調節を施して音源分離を行うものであり、比較的低い演算負荷で実現できる音源分離処理である。これについては、例えば、非特許文献３や非特許文献４等に詳説されている。
猿渡洋「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告、vol.EA2001-7、pp.49-56、April 2001. 高谷智哉他「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告、vol.US2002-87、EA2002-108、January 2003. R.F.Lyon, "A computational model of binaural localization and separation," In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993. N.Murata and S. Ikeda. A on-line algorithm for blind source separation on speech signals. In Proceedings of NOLTA'98, pp. 923-926,1998 梶田、小林、武田、板倉、「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」、日本音響学会誌、53巻5号、pp.337-345 (1997) 鵜飼訓史他、「周波数領域ＩＣＡと時間領域ＩＣＡを統合したＳＩＭＯモデル信号のブラインド抽出法の評価」、電子情報通信学会技術報告、vol.EA2004-23, pp.37-42,June 2004

しかしながら、前記音源信号（個別音声信号）の独立性に着目したＩＣＡ法に基づくＢＳＳ方式による音源分離処理は、これを実環境で用いた場合、音声信号の伝達特性や背景ノイズ等の影響により、統計量を高精度で推定できず（即ち、前記逆混合行列が十分に最適化されず）、十分な音源分離性能（前記音源信号の同定性能）が得られない場合があるという問題点があった。
また、バイノーラル信号処理による音源分離処理は、処理が簡易で演算負荷が低い反面、音源の位置に対しての頑健性が悪い等、一般に音源分離性能は劣るという問題点があった。
一方、音源分離処理は、その適用対象によっては、分離後の音声信号に特定の音源以外の他の音源からの音声信号が極力含まれていないこと（音源分離性能が高いこと）が特に重視される場合や、また、分離後の音声信号の音質が良い（スペクトル歪みが小さい）ことが特に重視される場合がある。しかしながら、従来の音源分離装置は、そのように重視される目的に応じた音源分離を行うことができないという問題点もあった。
従って、本発明は上記事情に鑑みてなされたものであり、その目的とするところは、ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られるとともに、重視される目的（音源分離性能又は音質）に応じた音源分離処理が可能な音源分離装置、音源分離プログラム及び音源分離方法を提供することにある。

上記目的を達成するために本発明は、所定の音響空間に複数の音源と複数の音声入力手段（マイクロホン）とが存在する状態でその音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から、１以上の前記音源信号を分離（抽出）した分離信号を生成するものであり、以下の各工程を実行する手段を備える音源分離装置であること、又は以下の各工程をコンピュータに実行させるプログラムであること、或いは以下の（１）〜（３）の各工程を有する音源分離方法であることを特徴とするものである。
（１）独立成分分析法に基づくブラインド音源分離方式の音源分離処理により、複数の前記混合音声信号から１以上の前記音源信号に対応するＳＩＭＯ（single-input multiple-output）信号を分離生成（抽出）する工程。以下、この工程を第１の音源分離工程といい、この工程で実行される処理を第１の音源分離処理という。
（２）第１の音源分離工程により分離生成された前記ＳＩＭＯ信号の全部若しくは一部である複数の信号（以下、特定信号という）について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の処理（以下、中間処理という）を行うことによりその中間処理が施された信号（以下、中間処理後信号という）を得る工程。以下、この工程を中間処理実行工程という。
（３）中間処理実行工程により得られた複数の前記中間処理後信号に、又はその中間処理後信号及び前記第１の音源分離工程により分離生成された前記ＳＩＭＯ信号の一部の信号に、バイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する前記分離信号とする工程。以下、この工程を第２の音源分離工程といい、この工程で実行される処理を第２の音源分離処理という。
本発明に係る音源分離装置（又は音源分離方法）は、２段階の音源分離処理（前記第１の音源分離処理及び前記第２の音源分離処理）を行う。その結果、後述するように、ノイズの影響がある等の多様な音響環境の下においても、高い音源分離性能が得られることがわかった。また、前記中間処理の内容により、音源分離性能が特に高まるような音源分離処理を実現したり、或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。
特に、前記音源分離装置が、前記中間処理に用いるパラメータを所定の操作入力に従って設定する手段（中間処理パラメータ設定手段）を備えている場合、重視する目的に応じた音源分離処理が行われるように調節することがより容易となる。

ここで、前記中間処理としては、例えば、前記複数の特定信号を各々所定の重み付けにより補正し、その補正後の信号について所定の選択処理若しくは合成処理を行うものが考えられる。
より具体的な前記中間処理としては、前記複数の特定信号を各々所定の重み付けにより補正し、その補正後の信号の中から信号レベルが最大のものを選択する処理を行うものが考えられる。
このような構成によれば、前記重み付けの係数（前記中間処理に用いられるパラメータの一例）を調節することにより、音源分離性能が特に高まるような音源分離処理を実現したり、或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。

また、前記第１の音源分離処理としては、周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理や、周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うことが考えられる。
なお、前記周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理とは、後述するように、次の（１−１）〜（１−４）に示す各処理を実行する処理である。
（１−１）時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して、周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換処理。
（１−２）前記周波数領域における複数の混合音声信号に対し、所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した分離信号（第１の分離信号）を生成するＦＤＩＣＡ音源分離処理。
（１−３）前記周波数領域における複数の混合音声信号各々から、当該混合音声信号に基づいて前記ＦＤＩＣＡ音源分離処理により分離された分離信号（前記第１の分離信号）を除く残りのものを減算した分離信号（第２の分離信号）を生成する減算処理。
（１−４）前記第１の分離信号及び前記第２の分離信号に基づく所定の評価関数を用いた逐次計算を行うことによって、前記ＦＤＩＣＡ音源分離処理で用いる前記分離行列を計算する分離行列計算処理。
前記周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理は、時間領域の混合音声信号を時間領域のままで処理する時間領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理（前記非特許文献２等を参照）に比べ、処理負荷を大幅に軽減できる。

ところで、一般に、前記ＩＣＡ法に基づくＢＳＳ方式による音源分離処理は、十分な音源分離性能を得るためには、分離処理（フィルタ処理）に用いる分離行列を求めるための逐次計算（学習計算）の回数が増えるので演算負荷が高くなる。その逐次計算（学習計算）は、製品組み込み用として実用的なプロセッサで実行された場合、入力される混合音声信号の時間長に対して数倍の時間を要し、リアルタイム処理には適さない。また、前記逐次計算（学習計算）の回数を制限することは、音響環境の変化（音源の移動や音源の追加・変更等）が大きい場合に、十分な音源分離性能が得られなくなるという結果を招く。
一方、前記バイナリーマスキング処理は、製品組み込み用として実用的なプロセッサによってリアルタイム処理が可能であるとともに、音響環境が変化しても比較的安定した音源分離性能を発揮するが、前記分離行列の学習が十分なされた前記ＩＣＡ法に基づくＢＳＳ方式による音源分離処理に比べて音源分離性能がはるかに劣る。
しかしながら、以上示した本発明に係る音源分離処理によれば、以下のような構成により、音源分離性能を確保しつつリアルタイム処理が可能となる。
例えば、第１の音源分離処理における分離行列の逐次計算回数を制限することが考えられる。
即ち、前記第１の音源分離処理（前記第１の音源分離手段の処理）において、時系列で入力される前記混合音声信号が予め定められた周期で区分された区間信号それぞれに対し、所定の分離行列に基づく分離処理を順次実行することによって前記ＳＩＭＯ信号を生成するとともに、その分離処理により生成した前記区間信号の時間帯に対応する全ての時間帯の前記ＳＩＭＯ信号に基づいて、その後に（以降に）用いる前記分離行列を求める逐次計算（学習計算）を行うものであって、その逐次計算の回数を前記予め定められた周期の時間内で実行可能な回数に制限することが考えられる。
このように、前記第１の音源分離処理（第１段階目の前記ＩＣＡ法に基づくＢＳＳ方式による音源分離処理）において、前記分離行列を求める逐次計算（学習計算）の回数を、リアルタイム処理が可能な範囲に制限すると学習が不十分となるため、得られる前記ＳＩＭＯ信号は、十分な音源分離（同定）がなされた信号にならないことが多い。
しかしながら、それによって得られた前記ＳＩＭＯ信号に基づく前記中間処理によって得られる信号に、リアルタイム処理が可能な第２段階目の前記バイナリーマスキング処理をさらに施すことによって音源分離性能が向上するので、音源分離性能を確保しつつリアルタイム処理が可能となる。

また、前記第１の音源分離処理における前記分離行列の逐次計算に用いるＳＩＭＯ信号のサンプル数を減らすことも考えられる。
即ち、前記第１の音源分離処理（前記第１の音源分離手段の処理）において、時系列に入力される前記混合音声信号が予め定められた周期で区分された区間信号ごとに、その区間信号に対し所定の分離行列に基づく分離処理を順次実行して前記ＳＩＭＯ信号を生成するとともに、その分離処理により生成した前記区間信号の時間帯のうちの先頭側の一部の時間帯に対応する前記ＳＩＭＯ信号に基づいて、以降に用いる前記分離行列を求める逐次計算を前記予め定められた周期の時間内で実行することが考えられる。
このように、前記第１の音源分離処理（前記ＩＣＡ法に基づくＢＳＳ方式による音源分離処理）において、前記分離行列を求める逐次計算（学習計算）に用いる前記ＳＩＭＯ信号を先頭側の一部の時間帯の信号に限定することにより、十分な回数の前記逐次計算（学習）を行ってもリアルタイム処理が可能にはなる（前記予め定められた周期の時間内で十分な学習が可能となる）が、学習に用いるサンプル数が少ないため、やはり得られる前記ＳＩＭＯ信号は、音源が十分に分離（同定）された信号にならないことが多い。しかしながら、本発明に係る音源分離処理装置（又は音源分離方法）は、それによって得られた前記ＳＩＭＯ信号にリアルタイム処理が可能な第２段階目の前記バイナリーマスキング処理をさらに施す。これにより、音源分離性能が向上し、高い音源分離性能を確保しつつリアルタイム処理が可能となる。

本発明によれば、前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理に、比較的簡易な前記バイナリーマスキング処理による音源分離処理を加えた２段階処理を行うことにより、ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られる。
さらに、本発明では、前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理によって得られる前記ＳＩＭＯ信号に基づく前記中間処理を実行し、その中間処理後の信号について前記バイナリーマスキング処理を施す。これにより、前記中間処理の内容に応じて、音源分離性能が特に高まるような音源分離処理を実現したり、或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。その結果、重視する目的（音源分離性能又は音質）に応じて柔軟に対応できる音源分離処理が可能となる。
また、前記第１の音源分離処理として、前記周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理や、前記周波数領域独立成分分析法と前記逆射影法との連結手法に基づく前記ブラインド音源分離方式の音源分離処理を行うことにより、前記時間領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理に比べ、処理負荷を大幅に軽減できる。
また、前記第１の音源分離処理における前記分離行列の逐次計算回数を制限したり、その逐次計算に用いる前記ＳＩＭＯ信号のサンプル数を減らすことにより、音源分離性能を確保しつつリアルタイム処理が可能となる。

以下添付図面を参照しながら、本発明の実施の形態について説明し、本発明の理解に供する。尚、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格のものではない。
ここに、図１は本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図、図２は本発明の第１実施例に係る音源分離装置Ｘ１の概略構成を表すブロック図、図３はＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ｚ１の概略構成を表すブロック図、図４はＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う従来の音源分離装置Ｚ２の概略構成を表すブロック図、図５はＦＤＩＣＡ法に基づく音源分離処理を行う従来の音源分離装置Ｚ３の概略構成を表すブロック図、図６はＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う音源分離装置Ｚ４の概略構成を表すブロック図、図７はＦＤＩＣＡ−ＰＢ法に基づく音源分離処理を行う従来の音源分離装置Ｚ５の概略構成を表すブロック図、図８はバイナリーマスキング処理を説明するための図、図９はＳＩＭＯ信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第１例（音源信号各々の周波数成分に重複がない場合）を模式的に表した図、図１０はＳＩＭＯ信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第２例（音源信号各々の周波数成分に重複がある場合）を模式的に表した図、図１１はＳＩＭＯ信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第３例（目的音源信号のレベルが比較的小さい場合）を模式的に表した図、図１２は音源分離装置Ｘ１におけるＳＩＭＯ信号に対する音源分離処理の第１例の内容を模式的に表した図、図１３は音源分離装置Ｘ１におけるＳＩＭＯ信号に対する音源分離処理の第２例の内容を模式的に表した図、図１４は音源分離装置Ｘ１を用いた音源分離性能評価の実験条件を表す図、図１５は従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件の下で音源分離を行ったときの音源分離性能及び音質の評価値を表すグラフ、図１６は音源分離装置Ｘにおける分離行列計算の第１例を説明するためのタイムチャート、図１７は音源分離装置Ｘにおける分離行列計算の第２例を説明するためのタイムチャート、図１８は音源分離装置Ｘ１におけるＳＩＭＯ信号に対する音源分離処理の第３例の内容を模式的に表した図である。

まず、本発明の実施形態について説明する前に、図３〜図７に示すブロック図を参照しつつ、各種のＩＣＡ法に基づくブラインド音源分離方式（ＩＣＡ法に基づくＢＳＳ方式）の音源分離装置について説明する。
なお、以下に示す音源分離処理或いはその処理を行う装置等は、いずれも所定の音響空間に複数の音源と複数のマイクロホン（音声入力手段）とが存在する状態で、そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号（以下、音源信号という）が重畳された複数の混合音声信号から、１以上の音源信号を分離（同定）した分離信号を生成する音源分離処理或いはその処理を行う装置等に関するものである。

図３は、ＩＣＡ法の一種である時間領域独立成分分析法（time-domain independent component analysis法、以下、ＴＤＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ｚ１の概略構成を表すブロック図である。なお、本処理の詳細は、非特許文献１や非特許文献２等に示されている。
前記音源分離装置Ｚは、分離フィルタ処理部１１により、２つの音源１、２からの音源信号Ｓ1(ｔ)、Ｓ2(ｔ)（音源ごとの音声信号）を２つのマイクロホン（音声入力手段）１１１、１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)、ｘ２(ｔ)について、分離行列Ｗ(ｚ)によりフィルタ処理を施すことによって音源分離を行う。
図３には、２つの音源１、２からの音源信号Ｓ1(ｔ)、Ｓ2(ｔ)（個別音声信号）を２つの前記マイクロホン１１１、１１２で入力した２チャンネル（マイクロホンの数）の前記混合音声信号ｘ１(ｔ)、ｘ２(ｔ)に基づいて音源分離を行う例について示しているが、２チャンネル以上であっても同様である。前記ＩＣＡ法に基づくＢＳＳ方式による音源分離の場合、（入力される混合音声信号のチャンネル数ｎ（即ち、マイクロホンの数））≧（音源の数ｍ）であればよい。
複数の前記マイクロホン１１１、１１２各々で集音された前記混合音声信号ｘ１(ｔ)、ｘ２(ｔ)それぞれには、複数音源からの前記音源信号が重畳されている。以下、前記混合音声信号ｘ１(ｔ)、ｘ２(ｔ)を総称してｘ(ｔ)と表す。この混合音声信号ｘ(ｔ)は前記音源信号Ｓ(ｔ)の時間的空間的な畳み込み信号として表現され、次の（１）式のように表される。

前記ＴＤＩＣＡ法による音源分離の理論は、前記音源信号Ｓ(ｔ)のそれぞれの音源同士が統計的に独立であることを利用すると、ｘ(ｔ)がわかればＳ(ｔ)を推測することができ、従って、音源を分離することができるという発想に基づく理論である。
ここで、当該音源分離処理に用いる前記分離行列をＷ(ｚ)とすれば、前記分離信号（即ち、同定信号）ｙ(ｔ)は、次の（２）式で表される。

ここで、Ｗ(ｚ)は、出力ｙ(ｔ)から逐次計算により求められる。また、前記分離信号は、チャンネルの数だけ得られる。
なお、音源合成処理はこのＷ(ｚ)に関する情報により、逆演算処理に相当する行列を形成し、これを用いて逆演算を行えばよい。
このようなＩＣＡ法に基づくＢＳＳ方式による音源分離を行うことにより、例えば、人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から、歌声の音源信号と楽器の音源信号とが分離（同定）される。
ここで、（２）式は、次の（３）式のように書き換えて表現できる。

そして、（３）式における分離フィルタ（分離行列）Ｗ(ｎ)は、次の（４）式により逐次計算される。即ち、前回（ｊ）の出力ｙ(ｔ)を（４）式に逐次適用することより、今回（ｊ＋１）のＷ(ｎ)を求める。

次に、図４に示すブロック図を用いて、ＴＤＩＣＡ法の一種である時間領域ＳＩＭＯ独立成分分析法（Time-Domain single-input multiple-output ICA法、以下、ＴＤ−ＳＩＭＯ−ＩＣＡ法という）に基づく音源分離処理を行う従来の音源分離装置Ｚ２の構成について説明する。なお、図４は、２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)、ｘ２(ｔ)に基づいて音源分離を行う例について示しているが、３チャンネル以上であっても同様であり、その詳細は非特許文献２等に示されている。
ＴＤ−ＳＩＭＯ−ＩＣＡ法による音源分離の特徴は、図４中に示すFidelity Controller１２により、マイクロホン入力信号である各混合音声信号ｘi(ｔ)から、前記分離フィルタ処理部１１による音源分離処理（ＴＤＩＣＡ法に基づく音源分離処理）によって分離（同定）された分離信号（同定信号）を減算し、その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタＷ(Ｚ)の更新（逐次計算）を行う点である。ここで、混合音声信号ｘi(ｔ)各々から減算する分離信号（同定信号）は、各々異なる１つの分離信号（当該混合音声信号に基づく音源分離処理により得られた分離信号）を除く残り全ての分離信号である。これにより、チャンネル（マイクロホン）ごとに２つの分離信号（同定信号）が得られることになり、また、音源信号Ｓi(ｔ)ごとに２つの分離信号が得られることになる。図４の例では、分離信号ｙ11(ｔ)とｙ12(ｔ)、分離信号ｙ22（ｔ）とｙ21(ｔ)が、各々同一の音源信号に対応する分離信号（同定信号）である。なお、分離信号ｙの添字（数字）において、前段の数字は音源の識別番号を、後段の数字はマイクロホン（即ち、チャンネル）の識別番号を表している（以下同様）。
このように、ある音響空間に複数の音源と複数の音声入力手段（マイクロホン）とが存在する状態で、その音声入力手段各々を通じて入力される音源各々からの音源信号（個別音声信号）が重畳された複数の混合音声信号から、１以上の音源信号を分離（同定）した場合に、音源信号ごとに得られる複数の分離信号（同定信号）群をＳＩＭＯ（single-input multiple-output）信号という。図４の例では、分離信号ｙ11(ｔ)とｙ12(ｔ)の組合せ、分離信号ｙ22（ｔ）とｙ21(ｔ)の組合せの各々がＳＩＭＯ信号である。
ここで、分離フィルタ（分離行列）Ｗ(Ｚ)を表現し直したＷ(ｎ)の更新式は、次の（５）式で表される。

この（５）式は、前述の（４）式に対して第３項目が加わったものであり、この第３項は、Fidelity Controller１２により生成される信号の成分の独立性を評価している部分である。

次に、図５に示すブロック図を用いて、ＩＣＡ法の一種であるＦＤＩＣＡ法（Frequency-Domain ICA）に基づく音源分離処理を行う従来の音源分離装置Ｚ３について説明する。
ＦＤＩＣＡ法では、まず、入力された混合音声信号ｘ(ｔ)について、ＳＴ−ＤＦＴ処理部１３によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換（Short Time Discrete Fourier Transform、以下、ＳＴ−ＤＦＴ処理という）を行い、観測信号の短時間分析を行う。そして、そのＳＴ−ＤＦＴ処理後の各チャンネルの信号（各周波数成分の信号）について、分離フィルタ処理部１１ｆにより分離行列Ｗ(ｆ)に基づく分離フィルタ処理を施すことによって音源分離（音源信号の同定）を行う。ここでｆを周波数ビン、ｍを分析フレーム番号とすると、分離信号（同定信号）ｙ(ｆ、ｍ)は、次の（６）式のように表すことができる。

ここで、分離フィルタＷ(ｆ)の更新式は、例えば次の（７）式のように表すことができる。

このＦＤＩＣＡ法によれば、音源分離処理が各狭帯域における瞬時混合問題として取り扱われ、比較的簡単かつ安定に分離フィルタ（分離行列）Ｗ(ｆ)を更新することができる。

次に、図６に示すブロック図を用いて、ＦＤＩＣＡ法の一種である周波数領域ＳＩＭＯ独立成分分析法（Frequency-Domain single-input multiple-output ICA法、以下、ＦＤ−ＳＩＭＯ−ＩＣＡ法という）に基づく音源分離処理を行う音源分離装置Ｚ４について説明する。
ＦＤ−ＳＩＭＯ−ＩＣＡ法では、前述のＴＤ−ＳＩＭＯ−ＩＣＡ法（図４）と同様に、Fidelity Controller１２により、各混合音声信号ｘi(ｔ)に対してＳＴ−ＤＦＴ処理を施した信号各々から、ＦＤＩＣＡ法（図５）に基づく音源分離処理によって分離（同定）された分離信号（同定信号）を減算し、その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタＷ(ｆ)の更新（逐次計算）を行うものである。
このＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離装置Ｚ４では、時間領域における複数の前記混合音声信号ｘ1(ｔ)、ｘ2(ｔ)に対して前記ＳＴ−ＤＦＴ処理部１３により短時間離散フーリエ変換処理を施して、周波数領域における複数の混合音声信号ｘ1(ｆ)、ｘ2(ｆ)へ変換する（短時間離散フーリエ変換手段の一例）。
次に、変換後の周波数領域における複数の混合音声信号ｘ1(ｆ)、ｘ2(ｆ)に対し、前記分離フィルタ処理部１１ｆによって所定の分離行列Ｗ(ｆ)に基づく分離処理（フィルタ処理）を施すことにより、前記混合音声信号ごとに前記音源信号Ｓ1(ｔ)、Ｓ2(ｔ)のいずれかに対応した第１の分離信号ｙ11(ｆ)、ｙ22(ｆ)を生成する（ＦＤＩＣＡ音源分離手段の一例）。
さらに、前記周波数領域における複数の混合音声信号ｘ1(ｆ)、ｘ2(ｆ)各々から当該混合音声信号に基づき前記分離フィルタ処理部１１ｆにより分離された前記第１の分離信号（ｘ1(ｆ)に基づき分離されたｙ11(ｆ)、ｘ2(ｆ)に基づき分離されたｙ22(ｆ)）を除く残りの前記第１の分離信号を、前記Fidelity Controller１２（減算手段の一例）により減算した第２の分離信号ｙ12(ｆ)、ｙ21(ｆ)を生成する。
一方、不図示の分離行列計算部により、前記第１の分離信号ｙ11(ｆ)、ｘ2(ｆ)及び前記第２の分離信号ｙ12(ｆ)、ｙ21(ｆ)の両方に基づく逐次計算を行い、前記分離フィルタ処理部１１ｆ（ＦＤＩＣＡ音源分離手段）で用いられる前記分離行列Ｗ(ｆ)を計算する（分離行列計算手段の一例）。
これにより、チャンネル（マイクロホン）ごとに２つの分離信号（同定信号）が得られることになり、また、音源信号Ｓi(ｔ)ごとに２つ以上の分離信号（ＳＩＭＯ信号）が得られることになる。図６の例では、分離信号ｙ11（ｆ）とｙ12(ｆ)の組合せ、及び分離信号ｙ22（ｆ）とｙ21(ｆ)の組合せの各々がＳＩＭＯ信号である。
ここで、前記分離行列計算部は、前記第１の分離信号及び前記第２の分離信号に基づいて、次の（８）式で表される分離フィルタ（分離行列）Ｗ(ｆ)の更新式により前記分離行列Ｗ(ｆ)を計算する。

次に、図７に示すブロック図を用いて、ＦＤＩＣＡ法の一種である周波数領域独立成分分析法と逆射影法との連結手法（Frequency-Domain ICA & Projection back法、以下、ＦＤＩＣＡ−ＰＢ法という）に基づく音源分離処理を行う従来の音源分離装置Ｚ５について説明する。なお、ＰＤＩＣＡ−ＰＢ法の詳細については、特許文献５等に示されている。
ＦＤＩＣＡ−ＰＢ法では、各混合音声信号ｘi(ｔ)から前述のＦＤＩＣＡ法に基づく音源分離処理（図５）により得られた分離信号（同定信号）ｙi(ｆ)各々について、逆行列演算部１４によって分離行列Ｗ(ｆ)の逆行列Ｗ^-1(ｆ)の演算処理を施すことにより、最終的な分離信号（音源信号の同定信号）を得るものである。ここで、逆行列Ｗ^-1(ｆ)による処理対象の信号のうち、各分離信号ｙi(ｆ)以外の残りの信号成分は、0（ゼロ）入力として設定する。
これにより、音源信号Ｓi(ｔ)各々に対応したチャンネル数分（複数）の分離信号（同定信号）であるＳＩＭＯ信号が得られる。図７において、分離信号ｙ11(ｆ)とｙ12(ｆ)、分離信号ｙ21（ｆ）とｙ22(ｆ)が、各々同一の音源信号に対応する分離信号（同定信号）であり、各逆行列Ｗ^-1(ｆ)による処理後の信号である分離信号ｙ11(ｆ)とｙ12(ｆ)の組合せ、分離信号ｙ21（ｆ）とｙ22(ｆ)の組合せの各々がＳＩＭＯ信号である。

以下、図１に示すブロック図を用いて、本発明の実施形態に係る音源分離装置Ｘについて説明する。
音源分離装置Ｘは、ある音響空間に複数の音源１、２と複数のマイクロホン１１１、１１２（音声入力手段）とが存在する状態で、そのマイクロホン１１１、１１２各々を通じて入力される音源１、２各々からの音源信号（個別の音声信号）が重畳された複数の混合音声信号Ｘi(ｔ)から、１以上の音源信号（個別音声信号）を分離（同定）した分離信号（同定信号）ｙを生成するものである。
そして、音源分離装置Ｘの特徴は、以下の（１）〜（３）の構成要素を備える点にある。
（１）複数の混合音声信号Ｘi(ｔ)から独立成分分析（ＩＣＡ）法に基づくブラインド音源分離（ＢＳＳ）方式の音源分離処理により、１以上の音源信号Ｓi(ｔ)を分離（同定）したＳＩＭＯ信号（１つの音源信号に対応する複数の分離信号）を分離生成するＳＩＭＯ−ＩＣＡ処理部１０（第１の音源分離手段の一例）。
（２）ＳＩＭＯ−ＩＣＡ処理部１０により生成されたＳＩＭＯ信号のうちの一部である複数の信号について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い、この中間処理により得られる中間処理後信号ｙd1(ｆ)、ｙd2(ｆ)を出力する２つの中間処理実行部４１、４２（中間処理実行手段の一例）。ここで、周波数成分の区分は、例えば、予め定められた周波数幅での均等な区分とすることが考えられる。
なお、図１に例示した中間処理実行部４１、４２各々は、４つの分離信号からなるＳＩＭＯ信号のうち、３つの分離信号（特定信号の一例）に基づいて前記中間処理を行い、それぞれ１つの中間処理後信号ｙd1(ｆ)、ｙd2(ｆ)を出力するものである。
（３）中間処理実行部４１、４２により得られた（出力された）前記中間処理後信号ｙd1(ｆ)、ｙd2(ｆ)と、ＳＩＭＯ−ＩＣＡ処理部１０により分離生成されたＳＩＭＯ信号の一部の信号との各々を入力信号とし、その入力信号にバイナリーマスキング処理を施して得られる信号を、１以上の音源信号について分離（同定）した分離信号として生成する２つのバイノーラル信号処理部２１、２２（第２の音源分離手段の一例）。
なお、ＳＩＭＯ−ＩＣＡ処理部１０が音源分離処理を行う工程が、第１の音源分離工程の一例であり、中間処理実行部４１、４２が前記中間処理を行う工程が、中間処理実行工程の一例であり、さらに、バイノーラル信号処理部２１、２２がバイナリーマスキング処理を行う工程が、第２の音源分離工程の一例である。

図２に示す例では、一方のバイノーラル信号処理部２１に入力されるＳＩＭＯ信号は、これに対応する中間処理実行部４１が中間処理の対象としていないＳＩＭＯ信号である。同様に、他方のバイノーラル信号処理部２２に入力されるＳＩＭＯ信号も、これに対応する中間処理実行部４２が中間処理の対象としていないＳＩＭＯ信号である。但し、図２に示す例はあくまで一例であり、前記中間処理実行部４１、４２が、前記バイノーラル信号処理部２１、２２に入力される前記ＳＩＭＯ信号（図２におけるｙ11(ｆ)やｙ22(ｆ)など）を前記中間処理の対象として入力する構成も考えられる。
ここで、ＳＩＭＯ−ＩＣＡ処理部１０（第１の音源分離手段）としては、図４に示したＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う前記音源分離装置Ｚ２や、図６に示したＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行うＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う前記音源分離装置Ｚ４、或いは図７に示したＦＤＩＣＡ−ＰＢ法に基づく音源分離処理を行う前記音源分離装置Ｚ５等を採用することが考えられる。
但し、ＳＩＭＯ−ＩＣＡ処理部１０として、前記ＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく前記音源分離装置Ｚ２を採用する場合や、ＦＤ−ＳＩＭＯ−ＩＣＡ法若しくはＦＤＩＣＡ−ＰＢ法に基づく音源分離処理後の信号がＩＤＦＴ処理（逆離散フーリエ変換処理）により時間領域の信号に変換されている場合には、そのＳＩＭＯ−ＩＣＡ処理部１０（音源分離装置Ｚ２等）により得られる分離信号（同定信号）について、バイナリーマスキング処理を施す前に、離散フーリエ変換処理（ＤＦＴ処理）を施す手段を設ける。これにより、前記バイノーラル信号処理部２１、２２や中間処理実行部４１、４２への入力信号を、時間領域の離散信号から周波数領域の離散信号へ変換する。
さらに、図１には示されていないが、音源分離装置Ｘは、前記バイノーラル信号処理部２１の出力信号（周波数領域の分離信号）を時間領域の信号に変換する（逆離散フーリエ変換処理を施す）ＩＤＦＴ処理部も備えている。

また、図１には、チャンネル数（マイクロホンの数）の分だけ生成されるＳＩＭＯ信号各々について、バイナリーマスキング処理による音源分離処理を施す構成例を示しているが、一部の音源信号の分離（同定）を行うことを目的とする場合は、一部のチャンネルに対応するＳＩＭＯ信号（或いは、一部のマイクロホン若しくは一部の復号音声信号ｘi(t)に対応するＳＩＭＯ信号ともいえる）についてのみ、バイナリーマスキング処理を施す構成も考えられる。
さらに、図１には、チャンネル数が２つ（マイクロホンの数が２つ）である例について示したが、（入力される混合音声信号のチャンネル数ｎ（即ち、マイクロホンの数））≧（音源の数ｍ）であれば、３チャンネル以上であっても同様の構成により実現できる。
ここで、各構成要素１０、２１、２２、４１、４２は、それぞれＤＳＰ（Digital Signal Processor）又はＣＰＵ及びその周辺装置（ＲＯＭ、ＲＡＭ等）と、そのＤＳＰ若しくはＣＰＵにより実行されるプログラムとにより構成されたものや、或いは、１つのＣＰＵ及びその周辺装置を有するコンピュータにより、各構成要素１０、２１、２２、４１、４２が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また、所定のコンピュータに各構成要素１０、２１、２２、４１、４２の処理を実行させる音源分離プログラムとして提供することも考えられる。

一方、前記バイノーラル信号処理部２１、２２における信号分離処理は、前述したように、人間の聴覚モデルに基づいて前記混合音声信号に時変のゲイン調節を施して音源分離を行うものであり、例えば、非特許文献３や非特許文献４等に詳説されている。
図８は、バイノーラル信号処理の考え方を起源とする信号処理の一例であって、比較的処理がシンプルなバイナリーマスキング処理を説明するための図である。
バイナリーマスキング処理を実行する装置やプログラムは、複数の入力信号（本発明においてはＳＩＭＯ信号を構成する複数の音声信号）の比較処理を行う比較部３１と、その比較部３１による比較処理の結果に基づいて入力信号にゲイン調節を施して信号分離（音源分離）を行う分離部３２とを有している。
バイナリーマスキング処理では、まず、前記比較部３１において、入力信号（本発明においてはＳＩＭＯ信号）各々について周波数成分ごとの信号レベル（振幅）分布ＡＬ、ＡＲを検出し、同じ周波数成分における信号レベルの大小関係を判別する。
図８において、ＢＬ、ＢＲは、入力信号各々における周波数成分ごとの信号レベル分布と、その信号レベルごとに他方の対応する信号レベルに対する大小関係（○、×）とを表した図である。図中、「○」印は、前記比較部３１による判別の結果、他方の対応する信号レベルよりも当該信号の信号レベルの方が大きかったことを表し、「×」印は同じく当該信号レベルの方が小さかったことを表している。
次に、前記分離部３２により、前記比較部３１による信号比較の結果（大小判別の結果）に基づいて、入力信号各々にゲイン乗算（ゲイン調節）を施すことにより分離信号（同定信号）を生成する。この分離部３２における最も簡単な処理の例としては、入力信号について、周波数成分ごとに、信号レベルが最も大きいと判別された入力信号の周波数成分にゲイン１を乗算し、その他の入力信号全ての同じ周波数成分にゲイン０（ゼロ）を乗算すること等が考えられる。
これにより、入力信号と同数の分離信号（同定信号）ＣＬ、ＣＲが得られる。この分離信号ＣＬ、ＣＲのうち、一方は、入力信号（前記ＳＩＭＯ−ＩＣＡ処理部１０による分離信号（同定信号））の同定の対象となった音源信号に相当するものとなり、他方は入力信号に混在するノイズ（同定対象の音源信号以外の音源信号）に相当するものとなる。従って、前記ＳＩＭＯ−ＩＣＡ処理部１０と前記バイノーラル信号処理部２１、２２とによる２段処理（直列的処理）によって、ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られる。
なお、図８には、２つの入力信号に基づくバイナリーマスキング処理の例を示すが、３つ以上の入力信号に基づく処理であっても同様である。
例えば、まず、複数チャンネル分の入力信号各々について、複数に区分された周波数成分ごとに信号レベルを比較し、最大のものにゲイン１を乗算するとともに、その他のものにゲイン０を乗算し、その乗算により得られた信号を全てのチャンネルについて加算する。そして、この加算により得られる周波数成分ごとの信号を、全ての周波数成分について算出し、それらを組合せた信号を出力信号とすればよい。これにより、３チャンネル分以上の入力信号に対しても、図８に示したのと同様にバイナリーマスキング処理を行うことができる。

（第１実施例）
前記音源分離装置Ｘにおける前記ＳＩＭＯ−ＩＣＡ処理部１０として、図６に示したＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行うＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う前記音源分離装置Ｚ４、或いは図７に示したＦＤＩＣＡ−ＰＢ法に基づく音源分離処理を行う前記音源分離装置Ｚ５を採用したものを、以下、第１実施例とする。なお、図２は、そのような本発明の第１実施例に係る音源分離装置Ｘ１の概略構成を表すブロック図であり、前記音源分離装置Ｘにおける前記ＳＩＭＯ−ＩＣＡ処理部１０として、図６に示したＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う前記音源分離装置Ｚ４を採用した場合の例を示している。
この音源分離装置Ｘ１の構成により、畳み込み演算が必要なために演算負荷が高いＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理（図４）を採用した構成よりも、比較的演算負荷が抑えられる。
また、本第１実施例に係る音源分離装置Ｘ１では、前記ＳＩＭＯ−ＩＣＡ処理部１０で用いる分離行列Ｗ(ｆ)の初期値は、予め定められた値が設定される。
また、音源分離装置Ｘ１のバイノーラル信号処理部２１、２２は、バイナリーマスキング処理を行う。

図２に示す音源分離装置Ｘ１では、前記ＳＩＭＯ−ＩＣＡ処理部１０により、２つの入力チャンネル（マイクロホン）ごとに２つの分離信号、即ち、合計４つの分離信号が得られ、この４つの分離信号がＳＩＭＯ信号である。
また、一方の中間処理実行部４１は、ＳＩＭＯ信号の一部である分離信号ｙ12(ｆ)、ｙ21(ｆ)、ｙ22(ｆ)（特定信号の一例）を入力し、これらの信号に基づいて前記中間処理を実行する。同様に、他方の中間処理実行部４２は、ＳＩＭＯ信号の一部である分離信号ｙ11(ｆ)、ｙ12(ｆ)、ｙ21(ｆ)（特定信号の一例）を入力し、これらの信号に基づいて前記中間処理を実行する。中間処理の具体的内容については後述する。
また、一方のバイノーラル信号処理部２１は、これに対応する中間処理実行部４１により出力される前記中間処理後信号ｙd1(ｆ)と、その中間処理実行部４１が中間処理の対象としていない分離信号ｙ11(ｆ)（ＳＩＭＯ信号の一部）とを入力し、その入力信号に対してバイナリーマスキング処理を行い、最終的な分離信号Ｙ11(ｆ)及びＹ12(ｆ)を出力する。また、これら周波数領域の分離信号Ｙ11(ｆ)及びＹ12(ｆ)は、逆離散フーリエ変換処理を実行するＩＤＦＴ処理部１５によって時間小域の分離信号ｙ11(ｔ)、ｙ12(ｔ)に変換される。
同様に、他方のバイノーラル信号処理部２２は、これに対応する中間処理実行部４２により出力される前記中間処理後信号ｙd2(ｆ)と、その中間処理実行部４２が中間処理の対象としていない分離信号ｙ22(ｆ)（ＳＩＭＯ信号の一部）とを入力し、その入力信号に対してバイナリーマスキング処理を行い、最終的な分離信号Ｙ21(ｆ)及びＹ22(ｆ)を出力する。また、これら周波数領域の分離信号Ｙ21(ｆ)及びＹ22(ｆ)は、前記ＩＤＦＴ処理部１５によって時間小域の分離信号ｙ21(ｔ)、ｙ22(ｔ)に変換される。
なお、バイノーラル信号処理部２１、２２は、必ずしも２チャンネル分の信号分離処理を行うものに限らず、３チャンネル分以上のバイナリーマスキング処理を行うものを採用することも考えられる。

次に、図９〜図１１を参照しつつ、ＳＩＭＯ−ＩＣＡ処理部１０により得られるＳＩＭＯ信号をバイノーラル信号処理部２１ｏｒ２２への入力信号とする場合における、バイノーラル信号処理部２１ｏｒ２２への入力信号の組合せと、バイノーラル信号処理部２１ｏｒ２２による信号分離性能及び分離信号の音質との関係について説明する。ここで、図９〜図１１は、ＳＩＭＯ信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル（振幅）の分布の一例（第１例〜第３例）をバーグラフにより模式的に表したものである。なお、バイノーラル処理部２１ｏｒ２２は、バイナリーマスキング処理を行うものであるとする。
また、以下に示す例では、一方のマイクロホン１１１に近い方の音源１の音声信号Ｓ1(ｔ)を、最終的に分離信号として得たい信号であるものとし、その音源信号Ｓ1(ｔ)及びその音を、目的音源信号及び目的音と称する。そして、その他の音源２の音声信号Ｓ2(ｔ)及びその音を、非目的音源信号及び非目的音と称する。
ところで、４つの分離信号ｙ11(ｆ)、ｙ12(ｆ)、ｙ21(ｆ)、ｙ22(ｆ)からなるＳＩＭＯ信号を２入力のバイナリーマスク処理の入力信号とする場合、バイナリーマスク処理への入力信号の組合せは６パターン考えられる。その中で、主として目的音源信号Ｓ1(ｔ)に対応する分離信号ｙ11(ｆ)を含む組合せは３パターン考えられるが、ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理の性質上、ｙ11(ｆ)及びｙ22(ｆ)との組合せと、ｙ11(ｆ)及びｙ21(ｆ)との組合せとは、定性的には同じ傾向の性質を有する。よって、図９〜図１１は、ｙ11(ｆ)及びｙ12(ｆ)との組合せと、ｙ11(ｆ)及びｙ22(ｆ)との組合せとの各々について、バイナリーマスキング処理を行う場合の例について示している。

また、図９は音源信号各々の周波数成分に重複がない場合、図１０は同周波数成分に重複がある場合の例を表す。一方、図１１は、音源信号各々の周波数成分に重複がなく、かつ、目的音源信号Ｓ1(ｔ)の信号レベルが非目的音源信号Ｓ2(ｔ)の信号レベルに対して相対的に低い（振幅が小さい）場合の例を表す。
さらに、図９（ａ）、図１０（ａ）及び図１１（ａ）は、バイノーラル信号処理部２１ｏｒ２２への入力信号を、分離信号ｙ11（ｆ）とｙ12(ｆ)の組合せ（ＳＩＭＯ信号）とした場合（以下、「パターンａ」という）の例を表す。
一方、図９（ｂ）、図１０（ｂ）及び図１１（ｂ）は、バイノーラル信号処理部２１ｏｒ２２への入力信号を、分離信号ｙ11(ｆ)とｙ22(ｆ)の組合せとした場合（以下、「パターンｂ」という）の例を表す。
また、図９〜図１１において、目的音源信号Ｓ1(ｔ)の周波数成分に対応する部分のバーグラフは網掛け模様により、非目的音源信号Ｓ1(ｔ)の周波数成分に対応する部分のバーグラフは斜線模様により各々表している。

図９及び図１０に示すように、バイノーラル信号処理部２１ｏｒ２２への入力信号には、その同定の対象となった音源信号の成分が支配的ではあるものの、それ以外に、ノイズとして他の音源信号の成分も若干混在している。
このようなノイズを含む入力信号（分離信号）に対してバイナリーマスキング処理を施した場合、図９（ａ）、（ｂ）の出力信号のレベル分布（右側のバーグラフ）に示すように、音源信号各々の周波数成分に重複がない場合には、入力信号の組合せにかかわらず、前記第１音源信号と前記第２音源信号とが良好に分離された分離信号（Ｙ11(ｆ)とＹ12(ｆ)、及びＹ11(ｆ)とＹ22(ｆ)）が得られる。
このように各音源信号の周波数成分に重複がない場合、バイノーラル信号処理部２１ｏｒ２２への両入力信号各々において、同定の対象となった音源信号の周波数成分における信号レベルが高く、その他の音源信号の周波数成分における信号レベルが低くなるというレベル差が明確となり、周波数成分ごとの信号レベルに応じて信号分離を行うバイナリーマスキング処理によって信号が確実に分離されやすい。その結果、入力信号の組合せにかかわらず、高い分離性能が得られる。

しかしながら、一般に、現実の音響空間（音環境）では、同定対象とする目的音源信号とその他の非目的音源信号との間で、周波数成分（周波数帯域）が全く重ならないということはほとんどなく、複数の音源信号間で多少なりとも周波数成分が重複する。
ここで、音源信号各々の周波数成分に重複がある場合であっても、図１０（ａ）の出力信号Ｙ11(ｆ)、Ｙ12(ｆ)のレベル分布（右側のバーグラフ）に示すように、前記「パターンａ」では、音源信号各々で重複する周波数成分において若干のノイズ信号（同定対象以外の音源信号の成分）が残るものの、その他の周波数成分においてはノイズ信号が確実に分離される。
この図１０（ａ）に示す「パターンａ」では、バイノーラル信号処理部２１ｏｒ２２への両入力信号は、同一の音源信号を、各々異なるマイクロホンにより収録された音声信号に基づいて分離（同定）した信号であり、それらの信号レベルは、同定対象の音源からマイクロホンまでの距離に応じたレベル差を有している。そのため、バイナリーマスキング処理において、そのレベル差により信号が確実に分離されやすい。このことが、「パターンａ」では、音源信号各々の周波数成分に重複があっても高い分離性能が得られる理由として考えられる。
さらに、図１０（ａ）に示す「パターンａ」では、両入力信号ともに同一の音源信号（目的音源信号Ｓ1(ｔ)）の成分が支配的である（即ち、混在する他の音源信号の成分のレベルは小さい）ため、比較的信号レベルの低い同定対象外の音源信号の成分（ノイズ成分）が信号分離に悪影響を及ぼしにくいことも、高い分離性能が得られる理由の１つと考えられる。

一方、音源信号各々の周波数成分に重複がある場合、図１０（ｂ）に示すように、前記「パターンｂ」では、音源信号各々で重複する周波数成分において、出力信号（分離信号）Ｙ11(ｆ)において本来出力されるべき信号成分（同定対象の音源信号の成分）が欠損するという不都合な現象が生じる（図１０（ｂ）における破線で囲んだ部分）。
このような欠損は、その周波数成分について、同定対象の目的音源信号Ｓ1(ｔ)のマイクロホン１１２への入力レベルよりも、非目的音源信号Ｓ2(ｔ)のマイクロホン１１２へのレベルの方が高いために生じる現象である。このような欠損が生じると音質が悪化する。
従って、一般的には、前記「パターンａ」を採用すれば、良好な分離性能が得られる場合が多いと言える。

しかしながら、実際の音響環境では、各音源信号の信号レベルは変化し、状況によっては、図１１に示すように、目的音源信号Ｓ1(ｔ)の信号レベルが非目的音源信号Ｓ2(ｔ)の信号レベルに対して相対的に低くなることもある。
このような場合、ＳＩＭＯ−ＩＣＡ処理部１０で十分な音源分離がなされなかった結果、マイクロホン１１１に対応する分離信号ｙ11(ｆ)及びｙ12(ｆ)に残留する非目的音源信号Ｓ2(ｔ)の成分が相対的に大きくなる。このため、図１１（ａ）に示す「パターンａ」を採用すると、図１１（ａ）において矢印で示すように、目的音源信号Ｓ1(ｔ)に対応するものとして出力される分離信号Ｙ11(ｆ)に、非目的音源信号Ｓ1(ｔ)の成分が残存するという不都合な減少が生じてしまう。この現象が発生すると、音源分離性能が悪化する。
これに対し、図１１（ｂ）に示す「パターンｂ」を採用すると、具体的な信号レベルにもよるが、出力信号Ｙ11(ｆ)に図１１（ａ）の矢印で示したような非目的音源信号Ｓ1(ｔ)の成分が残存することを回避できる可能性が高い。

次に、図１２及び図１３を参照しつつ、音源分離装置Ｘ１により音源分離処理を行った場合の効果について説明する。
図１２は、音源分離装置Ｘ１におけるＳＩＭＯ信号に対する音源分離処理の第１例の内容（ＳＩＭＯ信号及びバイナリーマスキング処理後の信号についての周波数成分ごとの信号レベル分布を含む）を模式的に表した図である。なお、図１２には、バイノーラル信号処理部２１及びこれに対応する中間処理実行部４１のみをピックアップして表記している。
図１２に示す例では、中間処理実行部４１は、まず、３つの分離信号ｙ12(ｆ)、ｙ21(ｆ)、ｙ22(ｆ)（特定信号の一例）を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数ａ１、ａ２、ａ３を乗算することによって信号レベルを補正（即ち、重み付けにより補正）し、さらに、その補正後の信号の中から、前記周波数成分ごとに信号レベルが最大のものを選択する中間処理を行う。この中間処理を、Ｍａｘ［ａ１・ｙ12(ｆ)，ａ２・ｙ21(ｆ)，ａ３・ｙ22(ｆ)］と表すものとする。
さらに、中間処理実行部４１は、この中間処理により得られた中間処理後信号ｙd1(ｆ)（周波数成分ごとに信号レベルが最大のものが組み合わされた信号）をバイノーラル信号処理部２１へ出力する。ここで、ａ２＝０かつ１≧ａ１＞ａ３である。例えば、ａ１＝１．０、ａ３＝０．５である。なお、ａ２＝０であるため、分離信号ｙ21(ｆ)の周波数分布の表記は省略している。また、図１２に示すＳＩＭＯ信号は、図１０に示したＳＩＭＯ信号と同じである。
このように、ａ１＞ａ３となるように重み付け補正をした後の信号のうち、周波数成分ごとに信号レベルが最大のものをバイナリーマスキング処理の入力信号とすることにより、音源分離装置Ｘ１は、以下のように動作する。
即ち、分離信号ｙ12(ｆ)が、分離信号ｙ22(ｆ)に対してａ１・ｙ12(ｆ)≧ａ３・ｙ22(ｆ)となる範囲の信号レベルで出力されている周波数成分については、バイノーラル信号処理部２１には分離信号ｙ11(ｆ)と分離信号ｙ12(ｆ)とが入力され、図９（ａ）や図１０（ａ）に示したような良好な信号分離状況が得られると考えられる。
一方、分離信号ｙ12(ｆ)が、分離信号ｙ22(ｆ)に対してａ１・ｙ12(ｆ)＜ａ３・ｙ22(ｆ)となる範囲の信号レベルまで低下している周波数成分については、バイノーラル信号処理部２１には、分離信号ｙ11(ｆ)と、分離信号ｙ22(ｆ)が（ａ３）倍に減縮補正された信号とが入力され、図９（ａ）や図１１（ｂ）に示したような良好な信号分離状況が得られると考えられる。

図１３は、音源分離装置Ｘ１におけるＳＩＭＯ信号に対する音源分離処理の第２例の内容（ＳＩＭＯ信号及びバイナリーマスキング処理後の信号についての周波数成分ごとの信号レベル分布を含む）を模式的に表した図である。
図１３に示す例も、図１２に示した例と同様に、中間処理実行部４１は、まず、３つの分離信号ｙ12(ｆ)、ｙ21(ｆ)、ｙ22(ｆ)（特定信号の一例）を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数ａ１、ａ２、ａ３を乗算することによって信号レベルを補正（即ち、重み付けして補正）し、さらに、その補正後の信号の中から、前記周波数成分ごとに信号レベルが最大のものを選択する中間処理（図中、Ｍａｘ［ａ１・ｙ12(ｆ)，ａ２・ｙ21(ｆ)，ａ３・ｙ22(ｆ)］と表記）を行う。さらに、中間処理実行部４１は、この中間処理により得られた中間処理後信号ｙd1(ｆ)（周波数成分ごとに信号レベルが最大のものが組み合わされた信号）をバイノーラル信号処理部２１へ出力する。例えば、１≧ａ１＞ａ２＞ａ３≧０である。
同様に、中間処理実行部４２は、まず、３つの分離信号ｙ11(ｆ)、ｙ12(ｆ)、ｙ21(ｆ)（特定信号の一例）を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数ｂ１、ｂ２、ｂ３を乗算することによって信号レベルを補正し、さらに、その補正後の信号の中から、前記周波数成分ごとに信号レベルが最大のものを選択する中間処理（図中、Ｍａｘ［ｂ１・ｙ11(ｆ)，ｂ２・ｙ12(ｆ)，ｂ３・ｙ21(ｆ)］と表記）を行う。さらに、中間処理実行部４２は、この中間処理により得られた中間処理後信号ｙd2(ｆ)（周波数成分ごとに信号レベルが最大のものが組み合わされた信号）をバイノーラル信号処理部２２へ出力する。例えば、１≧ｂ１＞ｂ２＞ｂ３≧０である。なお、図１３に示すＳＩＭＯ信号は、図１０に示したＳＩＭＯ信号と同じである。
このような第２例においても、前記第１例（図１２参照）で説明したのと同様の作用効果を奏する。

図１８は、音源分離装置Ｘ１におけるＳＩＭＯ信号に対する音源分離処理の第３例の内容（ＳＩＭＯ信号及びバイナリーマスキング処理後の信号についての周波数成分ごとの信号レベル分布を含む）を模式的に表した図である。
図１８に示す第３例は、図１３に示した前記第２例に対して前記中間処理実行部４１、４２が実行する処理と、前記バイノーラル信号処理部２１、２２が実行する処理とが若干異なるが、全体として前記第２例（図１３参照）と実質的に同じ処理を実行する音源分離装置Ｘ１を表す。
即ち、図１８に示す第３例においては、前記中間処理実行部４１は、まず、４つの分離信号ｙ11(ｆ)、ｙ12(ｆ)、ｙ21(ｆ)、ｙ22(ｆ)（特定信号の一例）を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数（１、ａ１、ａ２、ａ３）を乗算することによって信号レベルを補正（即ち、重み付けして補正）し、さらに、その補正後の信号の中から、前記周波数成分ごとに信号レベルが最大のものを選択する中間処理（図中、Ｍａｘ［ｙ11，ａ１・ｙ12(ｆ)，ａ２・ｙ21(ｆ)，ａ３・ｙ22(ｆ)］と表記）を行う。さらに、前記中間処理実行部４１は、この中間処理により得られた前記中間処理後信号ｙd1 (ｆ)（周波数成分ごとに信号レベルが最大のものが組み合わされた信号）を前記バイノーラル信号処理部２１へ出力する。例えば、１≧ａ１＞ａ２＞ａ３≧０である。
同様に、前記中間処理実行部４２は、まず、４つの分離信号ｙ11(ｆ)、ｙ12(ｆ)、ｙ21(ｆ)、ｙ22(ｆ)（特定信号の一例）を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数（ｂ１、ｂ２、ｂ３、１）を乗算することによって信号レベルを補正し、さらに、その補正後の信号の中から、前記周波数成分ごとに信号レベルが最大のものを選択する中間処理（図中、Ｍａｘ［ｂ１・ｙ11(ｆ)，ｂ２・ｙ12(ｆ)，ｂ３・ｙ21(ｆ)，ｙ22(ｆ)］と表記）を行う。さらに、前記中間処理実行部４２は、この中間処理により得られた前記中間処理後信号ｙd2(ｆ)（周波数成分ごとに信号レベルが最大のものが組み合わされた信号）をバイノーラル信号処理部２２へ出力する。例えば、１≧ｂ１＞ｂ２＞ｂ３≧０である。なお、図１８に示すＳＩＭＯ信号は、図１０に示したＳＩＭＯ信号と同じである。

ここで、この第３例における前記バイノーラル信号処理部２１は、これに入力される信号（分離信号ｙ11(ｆ)及び前記中間処理後信号ｙd1(ｆ)）について、周波数成分ごとに以下の処理を実行する。
即ち、前記バイノーラル信号処理部２１は、周波数成分ごとに、前記中間処理後信号ｙd1(ｆ)の信号レベルが前記分離信号ｙ11(ｆ)の信号レベルと等しい場合（同じ信号である場合）にはその中間処理後信号ｙd1(ｆ)又は分離信号ｙ11(ｆ)の成分を出力信号Ｙ11(ｆ)の信号成分として採用し、そうでない場合には予め定められた定数値（ここでは、０値）を出力信号Ｙ11(ｆ)の信号成分として採用する。
同様に、この第３例における前記バイノーラル信号処理部２２は、これに入力される信号（分離信号ｙ22(ｆ)及び前記中間処理後信号ｙd2(ｆ)）について、周波数成分ごとに、前記分離信号ｙ22(ｆ)の信号レベルと前記中間処理後信号ｙd2(ｆ)の信号レベルとが等しい場合（同じ信号である場合）には、その分離信号ｙ22(ｆ)又はその中間処理後信号ｙd2(ｆ)の成分を出力信号Ｙ22(ｆ)の信号成分として採用し、そうでない場合には予め定められた定数値（ここでは、０値）を出力信号Ｙ22(ｆ)の信号成分として採用する。
ここで、前記バイノーラル信号処理部２１は、一般的なバイナリーマスキング処理を実行する場合、周波数成分ごとに、前記分離信号ｙ11(ｆ)の信号レベルが前記中間処理後信号ｙd1(ｆ)の信号レベル以上である場合（ｙ11(ｆ)≧ｙd1(ｆ)）には、その分離信号ｙ11(ｆ)の成分を出力信号Ｙ11(ｆ)の信号成分として採用し、そうでない場合には予め定められた定数値（ここでは、０値）を出力信号Ｙ11(ｆ)の信号成分として採用する。
しかしながら、前記中間処理実行部４１において、バイナリーマスキング処理の対象となる（重み係数「１」が乗算される）前記分離信号ｙ11(ｆ)と、重み係数ａ１〜ａ３が乗算されるその他の前記分離信号ｙ12(ｆ)、ｙ21(ｆ)、ｙ22(ｆ)とについて、周波数成分ごとにレベルが最大のものが選択された信号が前記中間処理後信号ｙd1(ｆ)とされる。このため、前述したように、前記バイノーラル信号処理部２１が、「ｙ11(ｆ)＝ｙd1(ｆ)」である場合に、前記分離信号ｙ11(ｆ)又は前記中間処理後信号ｙd1(ｆ)の成分を出力信号Ｙ11(ｆ)の信号成分として採用するものであっても、そのバイノーラル信号処理部２１は、実質的に一般的なバイナリーマスキング処理を実行するものと実質的に同じ（等価）である。このことは、前記バイノーラル信号処理部２２についても同様である。
ここで、一般的なバイナリーマスキング処理とは、「ｙ11(ｆ)≧ｙd1(ｆ)」であるか否かにより、出力信号Ｙ11(ｆ)の信号成分として前記分離信号ｙ11(ｆ)又は前記中間処理後信号ｙd1(ｆ)の成分を採用するか、定数値（０値）を採用するかを切り替える処理である。
従って、図１８に示すこれら中間処理実行部４１、４２及びバイノーラル信号処理部２１、２２も、本発明に係る音源分離装置を構成する前記中間処理実行手段及び前記第２の音源分離手段の実施形態の一例である。
以上に示した第３例においても、前記第１例（図１２参照）で説明したのと同様の作用効果を奏する。

次に、前記音源分離装置Ｘ１を用いた音源分離性能評価の実験結果について説明する。
図１４は、音源分離装置Ｘ１を用いた音源分離性能評価の実験条件を説明するための図である。
図１４に示すように、音源分離性能評価の実験は、４．８ｍ（幅）×５．０ｍ（奥行き）の広さの居室内において、所定の２箇所に存在する２名の話者を音源とし、その音源（話者）各々からの音声信号（話者の声）を相互に反対方向に向けた２つのマイクロホン１１１、１１２で入力し、入力された２チャンネルの混合音声信号から、各話者の音声信号（音源信号）を分離する性能を評価する実験条件である。ここで、音源となる話者は、２名の男性及び２名の女性（計４名）の中から選択した２名の順列である１２通りの条件下で実験を行い（同じ２名の話者を音源とする場合でも、その２名の配置が入れ替われば異なる条件であるとした）、音源分離性能評価は各組合せの下での評価値の平均値により行った。
また、いずれの実験条件においても、残響時間は２００ｍｓ、音源（話者）から最寄りのマイクロホンまでの距離は１．０ｍとし、２つのマイクロホン１１１、１１２は、５．８ｃｍの間隔を隔てて配置した。なお、マイクロホンの機種は、ＳＯＮＹ社製のＥＣＭ−ＤＳ７０Ｐである。
ここで、上方から見て、相互に反対方向に向けられた両マイクロホン１１１、１１２の向きに対する直角方向を基準方向Ｒ０としたときに、この基準方向Ｒ０と一方の音源Ｓ１（話者）から両マイクロホン１１１、１１２の中間点Ｏに向かう方向Ｒ１とのなす角度をθ１とする。また、前記基準方向Ｒ０と他方の音源Ｓ２（話者）から前記中間点Ｏに向かう方向Ｒ２とのなす角度θ２とする。このとき、θ１とθ２との組合せを、３パターンの条件（θ１、θ２）＝（−４０°、３０°）、（−４０°、１０°）、（−１０°、１０°）となるように設定（機器配置）し、その各々の条件下で実験を行った。

図１５（ａ）、（ｂ）は、従来の音源分離装置と本発明に係る音源分離装置との各々により、前述の実験条件の下で音源分離を行ったときの音源分離性能及び分離後の音声の音質の評価結果を表すグラフである。
ここで、図１５（ａ）に示す音源分離性能の評価値（グラフの縦軸）としては、ＮＲＲ（Noise Reduction Rate）を用いた。このＮＲＲは、雑音除去の程度を表す指標であり、単位は（ｄＢ）である。ＮＲＲの定義は、例えば非特許文献２の（２１）式等に示されている。このＮＲＲ値が大きいほど音源分離性能が高いといえる。
また、図１５（ｂ）に示す音質の評価値（グラフの縦軸）としては、ＣＤ(Cepstral distortion)を用いた。このＣＤは、音質の程度を表す指標であり単位は（ｄＢ）である。このＣＤは、音声信号のスペクトル歪みを表し、分離対象となる元の音源信号と、その音源信号を混合音声信号から分離した分離信号とのスペクトル包絡の距離を表す。ＣＤ値が小さいほど音質が良いといえる。なお、図１５（ｂ）に示す音質評価の結果は、（θ１、θ２）＝（−４０°、３０°）である場合のもののみである。

また、各バーグラフに対応する図中の表記Ｐ１〜Ｐ６は、以下の場合の処理結果を表す。
Ｐ１（ＢＭ）と表記しているものは、バイナリーマスキング処理を行った場合の結果を表す。
Ｐ２（ＩＣＡ）と表記しているものは、図６に示したＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行った場合の結果を表す。
Ｐ３（ＩＣＡ＋ＢＭ）と表記しているものは、図６に示したＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理（音源分離処理装置Ｚ４）により得られたＳＩＭＯ信号にバイナリーマスキング処理を施した場合の結果を表す。即ち、図９〜図１１に示した構成により音源分離処理を行った結果に相当する。
Ｐ４〜Ｐ６（ＳＩＭＯ−ＩＣＡ＋ＳＩＭＯ−ＢＭ）と表記しているものは、図２に示した音源分離処理装置Ｘ１により音源分離処理を行った結果を表す。ここで、Ｐ４は、補正係数［ａ１，ａ２，ａ３］＝［１．０，０，０］である場合、Ｐ５は補正係数［ａ１，ａ２，ａ３］＝［１，０，０．１］である場合、Ｐ６は補正係数［ａ１，ａ２，ａ３］＝［１．０，０，０．７］である場合を表す。以下、Ｐ４、Ｐ５、Ｐ６の各補正係数の条件を、補正パターンＰ４、補正パターンＰ５、補正パターンＰ６という。

図１５に示すグラフから、バイナリーマスキング処理やＩＣＡ法に基づくＢＳＳ方式の音源分離処理を単独で行う場合（Ｐ１、Ｐ２）や、これにより得られるＳＩＭＯ信号にバイナリーマスキング処理を施す場合（Ｐ３）よりも、ＩＣＡ法に基づくＢＳＳ方式の音源分離処理で得られるＳＩＭＯ信号に基づいて前記中間処理を行い、その中間処理後の信号を用いてバイナリーマスキング処理を施す音源分離処理である本発明に係る音源分離処理（Ｐ４〜Ｐ６）の方が、ＮＲＲ値が大きく、音源分離性能が優れていることがわかる。
同様に、Ｐ１〜Ｐ３の音源分離処理よりも、本発明に係る音源分離処理（Ｐ４〜Ｐ６）の方が、ＣＤ値が小さく、分離後の音声信号が高音質であることがわかる。
また、本発明に係る音源分離処理（Ｐ４〜Ｐ６）の中では、補正パターンＰ４及びＰ５に設定した場合、音源分離性能向上と音質性能向上とのバランスがとれている。これは、図１０及び図１１を用いて説明した不都合な現象の発生が少ないため、音源分離性能及び音質性能が高まったものと考えられる。
一方、補正パターンＰ６では、補正パターンＰ４及びＰ５よりも、さらに高い音源分離性能が得られている（ＮＲＲ値が高い）反面、音質性能が若干犠牲になっている（ＣＤ値がやや高い）。これは、補正パターンＰ４及びＰ５の場合よりも、図１１を用いて説明した不都合な現象の発生頻度がより抑えられたことにより、音源分離性能がさらに向上する一方、図１０を用いて説明した不都合な現象の発生頻度が若干増え、その結果、音質性能がやや犠牲になっているものと考えられる。

以上に示したように、音源分離装置Ｘ１では、中間処理実行部４１、４２における前記中間処理に用いられるパラメータ（重み係数ａ１〜ａ３、ｂ１〜ｂ３）を調節するだけで、重視する目的（音源分離性能又は音質性能）に応じた音源分離処理が可能となる。
従って、音源分離装置Ｘ１が、調節ツマミや、数値入力用操作キー等の操作入力部（中間処理パラメータ設定手段の一例）を備え、さらに、前記中間処理実行部４１、４２が、その操作入力部を通じて入力された情報に従って、中間処理実行部４１、４２（中間処理実行手段の一例）における前記中間処理に用いられるパラメータ（ここでは、重み係数ａ１〜ａ３、ｂ１〜ｂ３）を設定（調節）する機能を備えたものであれば、重視する目的に応じた装置の調整が容易となる。
例えば、音源分離装置Ｘ１が、ロボットやカーナビゲーションシステム等で用いられる音声認識装置に適用される場合、雑音除去を優先するために、ＮＲＲ値が高くなる方向に、重み係数ａ１〜ａ３、ｂ１〜ｂ３を設定すればよい。
一方、音源分離装置Ｘ１が、携帯電話機やハンズフリー電話機等の音声通話装置に適用される場合、音質が良くなるように、ＣＤ値が高くなる方向に、重み係数ａ１〜ａ３、ｂ１〜ｂ３を設定すればよい。
より具体的には、重み係数ａ１、ｂ１の値に対する重み係数ａ２、ａ３、ｂ２、ｂ３の値の比が、より大きくなるように設定すれば、音源分離性能を重視するという目的に沿い、その比が、より小さくなるように設定すれば、音質性能を重視するという目的に沿うことになる。

また、以上に示した実施例では、中間処理実行部４１、４２により、Ｍａｘ［ａ１・ｙ12(ｆ)，ａ２・ｙ21(ｆ)，ａ３・ｙ22(ｆ)］或いは、Ｍａｘ［ｂ１・ｙ11(ｆ)，ｂ２・ｙ12(ｆ)，ｂ３・ｙ21(ｆ)］という中間処理を行う例を示した。
しかしながら、前記中間処理は、これに限るものではない。
中間処理実行部４１、４２により実行される前記中間処理としては、以下のような例も考えられる。
即ち、まず、中間処理実行部４１が、３つの分離信号ｙ12(ｆ)、ｙ21(ｆ)、ｙ22(ｆ)（特定信号の一例）を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数ａ１、ａ２、ａ３を乗算することによって信号レベルを補正（即ち、重み付けして補正）する。さらに、その補正後の信号を、前記周波数成分ごとに合成（加算）する。即ち、ａ１・ｙ12(ｆ)＋ａ２・ｙ21(ｆ)＋ａ３・ｙ22(ｆ)という中間処理を行う。
さらに、中間処理実行部４１は、この中間処理により得られた中間処理後信号ｙd1(ｆ)（周波数成分ごとに重み付け補正がなされた信号を合成した）をバイノーラル信号処理部２１へ出力する。
このような中間処理を採用しても、前述した実施例と同様の作用効果が得られる。もちろん、このような２種類の中間処理に限られず、他の中間処理を採用することも考えられる。また、チャンネル数を、３チャンネル以上に拡張した構成も考えられる。

前述したように、ＩＣＡ法に基づくＢＳＳ方式による音源分離処理は、音源分離性能を向上させるためには多大な演算が必要となり、リアルタイム処理には適さない。
一方、バイノーラル信号処理による音源分離は、一般に演算量は少なくリアルタイム処理に適している反面、音源分離性能はＩＣＡ法に基づくＢＳＳ方式による音源分離処理に比べて劣る。
これに対し、ＳＩＭＯ−ＩＣＡ処理部１０が、例えば以下に示す要領で分離行列Ｗ(ｆ)の学習を行うように構成すれば、音源信号の分離性能を確保しつつリアルタイム処理が可能な音源分離処理装置を実現できる。

次に、図１６及び図１７に示すタイムチャートを用いて、分離行列Ｗ(ｆ)の学習に用いられる混合音声信号と、その学習により得られる分離行列Ｗ(ｆ)を用いて音源分離処理が施される混合音声信号との対応関係の第１例（図１６）及び第２例（図１７）について説明する。
ここで、図１６は、分離行列Ｗ(ｆ)の計算と、音源分離処理との各々に用いる混合音声信号の区分の第１例をタイムチャート的に表したものである。
この第１例は、ＳＩＭＯ−ＩＣＡ処理部１０の音源分離処理において、逐次入力される混合音声信号を、所定時間長（例えば３秒）分のフレーム信号（以下、Frameという）ごとにその全てを用いて学習計算を行う。その一方で、ＳＩＭＯ−ＩＣＡ処理部１０の音源分離処理における分離行列の逐次計算回数を制限するものである。また、図１に示す例では、ＳＩＭＯ−ＩＣＡ処理部１０は、分離行列の学習計算と、その分離行列に基づくフィルタ処理（行列演算）により分離信号を生成（同定）する処理とを、異なるFrameを用いて実行する。
図１６に示すように、ＳＩＭＯ−ＩＣＡ処理部１０は、時刻Ｔi〜Ｔi+1の期間（周期：Ｔi+1−Ｔi）に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算（学習）を行い、それにより求められた分離行列を用いて時刻(Ｔi+1＋Ｔd)〜(Ｔi+2＋Ｔd)の期間に入力された前記混合音声信号全てに相当するFrame(i+1)’について分離処理（フィルタ処理）を実行する。ここで、Ｔdは１つのFrameを用いた分離行列の学習に要する時間である。即ち、ある１期間の混合音声信号に基づき計算された分離行列を用いて、Frame時間長＋学習時間だけずれた次の１期間の混合音声信号の分離処理（同定処理）を行う。このとき、ある１期間のFrame(i)を用いて計算（学習）された分離行列を、次の１期間のFrame(i+1)’を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いる。さらに、ＳＩＭＯ−ＩＣＡ処理部１０は、分離行列の逐次計算（学習計算）の繰り返し回数を、１フレーム分の時間長（周期）の範囲内の時間Ｔｄで実行可能な回数に制限する。

以上示したように，図１６（第１例）に示すタイムチャートに従って分離行列の計算を行うＳＩＭＯ−ＩＣＡ処理部１０は、時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame（区間信号の一例）ごとに、そのFrameに対し所定の分離行列に基づく分離処理を順次実行して前記ＳＩＭＯ信号を生成するものであり、また、その分離処理により生成した全ての時間帯（Frame（区間信号）の時間帯に対応する全ての時間帯）の前記ＳＩＭＯ信号に基づいて、以降に用いる前記分離行列を求めるための逐次計算（学習計算）を行うものである。
このように、１つのFrameの時間長以内に、１つのFrame全体に基づく分離行列の学習計算を完了させることができれば、全ての混合音声信号を学習計算に反映させながらリアルタイムでの音源分離処理が可能となる。
しかしながら、学習計算を複数のプロセッサで分担して並行処理した場合でも、１つのFrameの時間範囲内（Ｔi〜Ｔi+1）に、十分な音源分離性能を確保できるだけの十分な学習計算（逐次計算処理）を常には完了させられないことも考え得る。
そこで、この第１例におけるＳＩＭＯ−ＩＣＡ処理部１０は、分離行列の逐次計算の回数を、Frame（区間信号）の時間（予め定められた周期）の範囲に収まる時間Ｔｄで実行可能な回数に制限する。これにより、学習計算の収束が早まり、リアルタイム処理が可能となる。

一方、図１７に示す第２例は、逐次入力される混合音声信号を所定時間長（例えば３秒）分のフレーム信号（Frame）ごとに、そのフレーム信号の先頭側の一部を用いて学習計算を行う例、即ち、分離行列の逐次計算に用いる混合音声信号のサンプル数を通常よりも減らす（間引く）例である。
これにより、学習計算の演算量が抑えられるので、より短周期で分離行列の学習を行うことが可能となる。
図１７も、図１６と同様に、分離行列Ｗ(ｆ)の計算と、音源分離処理との各々に用いる混合音声信号の区分の第２例をタイムチャート的に表したものである。
また、図１７に示す第２例も、分離行列の学習計算と、その分離行列に基づくフィルタ処理（行列演算）により分離信号を生成（同定）する処理とを、異なるFrameを用いて実行する例である。
この第２例では、図１７に示すように、時刻Ｔi〜Ｔi+1の期間（周期：Ｔi+1−Ｔi）に入力された前記混合音声信号（Frame）であるFrame(i)のうち、先頭側の一部（例えば、先頭から所定時間分）の信号（以下、Sub-Frame(i)という）を用いて分離行列の計算（学習）を行い、それにより求められた分離行列を用いて時刻Ｔi+1〜Ｔi+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理（フィルタ処理）を実行する。即ち、ある１期間の混合音声信号の先頭側の一部に基づき計算された分離行列を用いて次の１期間の混合音声信号の分離処理（同定処理）を行う。このとき、ある１期間のFrame(i)の先頭側の一部を用いて計算（学習）された分離行列を、次の１期間のFrame(i+1)を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いる。これにより、逐次計算（学習）の収束が早まり好適である。

以上示したように，図１７（第２例）に示すタイムチャートに従って分離行列の計算を行うＳＩＭＯ−ＩＣＡ処理部１０も、時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame（区間信号の一例）ごとに、そのFrameに対し所定の分離行列に基づく分離処理を順次実行して前記ＳＩＭＯ信号を生成するものであり、また、その分離処理により生成した全ての時間帯（Frame（区間信号）の時間帯に対応する全ての時間帯）の前記ＳＩＭＯ信号に基づいて、以降に用いる前記分離行列を求める逐次計算（学習計算）を行うものである。
さらに、この第２例に対応するＳＩＭＯ−ＩＣＡ処理部１０は、分離行列を求める学習計算に用いる混合音声信号を、フレーム信号ごとにその先頭側の一部の時間帯の信号に限定する。これにより、より短周期での学習計算が可能となり、その結果、リアルタイム処理が可能となる。

本発明は、音源分離装置への利用が可能である。

本発明の実施形態に係る音源分離装置Ｘの概略構成を表すブロック図。本発明の第１実施例に係る音源分離装置Ｘ１の概略構成を表すブロック図。ＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ｚ１の概略構成を表すブロック図。ＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う従来の音源分離装置Ｚ２の概略構成を表すブロック図。ＦＤＩＣＡ法に基づく音源分離処理を行う従来の音源分離装置Ｚ３の概略構成を表すブロック図。ＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う音源分離装置Ｚ４の概略構成を表すブロック図。ＦＤＩＣＡ−ＰＢ法に基づく音源分離処理を行う従来の音源分離装置Ｚ５の概略構成を表すブロック図。バイナリーマスキング処理を説明するための図。ＳＩＭＯ信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第１例（音源信号各々の周波数成分に重複がない場合）を模式的に表した図。ＳＩＭＯ信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第２例（音源信号各々の周波数成分に重複がある場合）を模式的に表した図。ＳＩＭＯ信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第３例（目的音源信号のレベルが比較的小さい場合）を模式的に表した図。音源分離装置Ｘ１におけるＳＩＭＯ信号に対する音源分離処理の第１例の内容を模式的に表した図。音源分離装置Ｘ１におけるＳＩＭＯ信号に対する音源分離処理の第２例の内容を模式的に表した図。音源分離装置Ｘ１を用いた音源分離性能評価の実験条件を表す図。従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件の下で音源分離を行ったときの音源分離性能及び音質の評価値を表すグラフ。音源分離装置Ｘにおける分離行列計算の第１例を説明するためのタイムチャート。音源分離装置Ｘにおける分離行列計算の第２例を説明するためのタイムチャート。音源分離装置Ｘ１におけるＳＩＭＯ信号に対する音源分離処理の第３例の内容を模式的に表した図。

符号の説明

Ｘ…本発明の実施形態に係る音源分離装置
Ｘ１…本発明の第１実施例に係る音源分離装置
１、２…音源
１０…ＳＩＭＯ−ＩＣＡ処理部
１１、１１ｆ…分離フィルタ処理部
１２…Fidelity Controller
１３…ＳＴ−ＤＦＴ処理部
１４…逆行列演算部
１５…ＩＤＦＴ処理部
２１、２２…バイノーラル信号処理部
３１…バイナリーマスキング処理における比較部
３２…バイナリーマスキング処理における分離部
４１、４２…中間処理実行部
１１１、１１２…マイクロホン

Claims

所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から、１以上の前記音源信号を分離した分離信号を生成する音源分離装置であって、
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から１以上の前記音源信号に対応するＳＩＭＯ信号を分離生成する第１の音源分離手段と、
前記第１の音源分離手段で分離生成された前記ＳＩＭＯ信号の全部若しくは一部である複数の特定信号について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行うことにより中間処理後信号を得る中間処理実行手段と、
前記中間処理実行手段により得られた複数の前記中間処理後信号に、又は該中間処理後信号及び前記第１の音源分離手段で分離生成された前記ＳＩＭＯ信号の一部の信号に、バイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する前記分離信号とする第２の音源分離手段と、
を具備してなることを特徴とする音源分離装置。
前記中間処理実行手段における前記中間処理に用いるパラメータを所定の操作入力に従って設定する中間処理パラメータ設定手段を具備してなる請求項１に記載の音源分離装置。
前記中間処理実行手段が、前記複数の特定信号について、複数に区分された周波数成分ごとに信号レベルを各々所定の重み付けにより補正し、その補正後の信号について前記周波数成分ごとに選択処理若しくは合成処理を行うものである請求項１又は２のいずれかに記載の音源分離装置。
前記中間処理実行手段が、前記複数の特定信号について、複数に区分された周波数成分ごとに信号レベルを各々所定の重み付けにより補正し、その補正後の信号の中から前記周波数成分ごとに信号レベルが最大のものを選択する処理を行うものである請求項３に記載の音源分離装置。
前記第１の音源分離手段が、
時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換手段と、
前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した第１の分離信号を生成するＦＤＩＣＡ音源分離手段と、
前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づき前記ＦＤＩＣＡ音源分離手段により分離された前記第１の分離信号を除く残りの前記第１の分離信号を減算した第２の分離信号を生成する減算手段と、
前記第１の分離信号及び前記第２の分離信号に基づく逐次計算により前記ＦＤＩＣＡ音源分離手段における前記分離行列を計算する分離行列計算手段と、を具備する周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離手段である請求項１〜４のいずれかに記載の音源分離装置。
前記第１の音源分離手段が、周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うものである請求項１〜４のいずれかに記載の音源分離装置。
前記第１の音源分離手段が、時系列に入力される前記混合音声信号が予め定められた周期で区分された区間信号ごとに、該区間信号に対し所定の分離行列に基づく分離処理を順次実行して前記ＳＩＭＯ信号を生成するとともに、該分離処理により生成した前記区間信号の時間帯に対応する全ての時間帯の前記ＳＩＭＯ信号に基づいて以降に用いる前記分離行列を求める逐次計算を行うものであって、該逐次計算の回数を前記予め定められた周期の時間内で実行可能な回数に制限してなる請求項１〜６のいずれかに記載の音源分離装置。
前記第１の音源分離手段が、時系列に入力される前記混合音声信号が予め定められた周期で区分された区間信号ごとに、該区間信号に対し所定の分離行列に基づく分離処理を順次実行して前記ＳＩＭＯ信号を生成するとともに、該分離処理により生成した前記区間信号の時間帯のうちの先頭側の一部の時間帯に対応する前記ＳＩＭＯ信号に基づいて以降に用いる前記分離行列を求める逐次計算を前記予め定められた周期の時間内で実行してなる請求項１〜６のいずれかに記載の音源分離装置。
所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から、１以上の前記音源信号を分離した分離信号を生成する音源分離処理をコンピュータに実行させるための音源分離プログラムであって、
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から１以上の前記音源信号に対応するＳＩＭＯ信号を分離生成する第１の音源分離工程と、
前記第１の音源分離工程で分離生成された前記ＳＩＭＯ信号の全部若しくは一部である複数の特定信号について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行うことにより中間処理後信号を得る中間処理実行工程と、
前記中間処理実行工程により得られた複数の前記中間処理後信号に、又は該中間処理後信号及び前記第１の音源分離工程により分離生成された前記ＳＩＭＯ信号の一部の信号に、バイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する前記分離信号とする第２の音源分離工程と、
をコンピュータに実行させるための音源分離プログラム。
所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から、１以上の前記音源信号を分離した分離信号を生成する音源分離方法であって、
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から１以上の前記音源信号に対応するＳＩＭＯ信号を分離生成する第１の音源分離工程と、
前記第１の音源分離工程で分離生成された前記ＳＩＭＯ信号の全部若しくは一部である複数の特定信号について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行うことにより中間処理後信号を得る中間処理実行工程と、
前記中間処理実行工程により得られた複数の前記中間処理後信号に、又は該中間処理後信号及び前記第１の音源分離工程により分離生成された前記ＳＩＭＯ信号の一部の信号に、バイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する前記分離信号とする第２の音源分離工程と、
を有してなることを特徴とする音源分離方法。