JP2008219458A

JP2008219458A - 音源分離装置，音源分離プログラム及び音源分離方法

Info

Publication number: JP2008219458A
Application number: JP2007053791A
Authority: JP
Inventors: Yohei Ikeda; 陽平池田; Takayuki Hiekata; 孝之稗方; Koji Morita; 孝司森田; Hiroshi Saruwatari; 洋猿渡; Yasumitsu Mori; 康充森
Original assignee: Kobe Steel Ltd; Nara Institute of Science and Technology NUC
Current assignee: Kobe Steel Ltd; Nara Institute of Science and Technology NUC
Priority date: 2007-03-05
Filing date: 2007-03-05
Publication date: 2008-09-18
Anticipated expiration: 2027-03-05
Also published as: JP4897519B2; US20090012779A1

Abstract

【課題】複数のマイクロホンに対する音源の位置に偏りが生じ得る環境下においても高い音源分離性能が得られること。
【解決手段】ＩＣＡ法に基づくＢＳＳ方式の音源分離処理によりＳＩＭＯ信号を分離生成するＳＩＭＯ−ＩＣＡ処理部１０と，その学習計算によって算出される分離行列に基づいて，音源方向を推定する音源方向推定部４と，ＳＩＭＯ信号それぞれについて，周波数ビンごとに音源方向それぞれからの音声成分を強調するビームフォーマ処理を行うビームフォーマ処理部５と，ビームフォーマ処理後の音声信号のうち，特定の信号を除く他の信号について，周波数ビンごとに選択処理等を行うことを含む中間処理を行う中間処理部６と，特定ＳＩＭＯ信号における一の信号について，周波数ビンごとに，前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較によりノイズ信号成分を除去する目的外信号成分除去部７とを備える。
【選択図】図１

Description

本発明は，所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で，その音声入力手段各々を通じて入力される前記音源各々からの個別音声信号が重畳された複数の混合音声信号から，１以上の前記個別音声信号を同定（分離）する音源分離装置，音源分離プログラム及び音源分離方法に関するものである。

所定の音響空間に複数の音源と複数のマイク（音声入力手段）とが存在する場合，その複数のマイクごとに，複数の音源各々からの個別音声信号（以下，音源信号という）が重畳された音声信号（以下，混合音声信号という）が取得される。このようにして取得（入力）された複数の前記混合音声信号のみに基づいて，前記音源信号各々を同定（分離）する音源分離処理の方式は，ブラインド音源分離方式（Blind Source Separation方式，以下，ＢＳＳ方式という）と呼ばれる。
さらに，ＢＳＳ方式の音源分離処理の１つに，独立成分分析法（Independent Component Analysis，以下，ＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理がある。このＩＣＡ法に基づくＢＳＳ方式は，複数のマイクを通じて入力される複数の前記混合音声信号（時系列の音声信号）において，前記音源信号どうしが統計的に独立であることを利用して所定の逆混合行列を最適化し，入力された複数の前記混合音声信号に対して最適化された逆混合行列によるフィルタ処理を施すことによって前記音源信号の同定（音源分離）を行う処理方式である。このようなＩＣＡ法に基づくＢＳＳ方式の音源分離処理は，例えば，非特許文献１や非特許文献２等に詳説されている。
一方，音源分離処理としては，バイナリーマスキング処理（バイノーラル信号処理の一例）による音源分離処理も知られている。バイナリーマスキング処理は，複数の指向性ステレオマイクロホンを通じて入力される混合音声信号相互間で，複数に区分された周波数成分（周波数ビン）ごとの音量レベルを比較することにより，混合音声信号それぞれについて主となる音源からの音声信号以外の信号成分を除去する処理であり，比較的低い演算負荷で実現できる音源分離処理である。これについては，例えば，非特許文献３や非特許文献４等に詳説されている。
また，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理においては，学習計算によって分離行列が得られるが，その分離行列に基づいて，音源の存在する方向（ＤＯＡ：Direction of Arrivals）を推定する各種の技術が従来より知られている。例えば，非特許文献６や非特許文献７には，前記分離行列にステアリングベクトルを乗じることによってＤＯＡを推定する技術が示されている。
猿渡洋「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告，vol.EA2001-7，pp.49-56，April 2001. 高谷智哉他「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告，vol.US2002-87，EA2002-108，January 2003. R.F.Lyon, "A computational model of binaural localization and separation," In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993. N.Murata and S. Ikeda. A on-line algorithm for blind source separation on speech signals. In Proceedings of NOLTA'98, pp. 923-926,1998 西川剛樹他，「ＩＣＡとビームフォーミングを統合した高速収束アルゴリズムに基づく３音源以上のブラインド音源分離」，日本音響学会講演論文集，1-6-13，March 2005. Saruwatari Hiroshi他，"Blind source separation for speech based on fast-convergence algorithm with ICA and beamforming"，EUROSPEECH 2001，pp2603-2606.

しかしながら，前記音源信号（個別音声信号）の独立性に着目したＩＣＡ法に基づくＢＳＳ方式による音源分離処理を実環境で用いた場合，音声信号の伝達特性等の影響により，分離信号に特定の音源以外の他の音源からの音声信号の成分が混入する場合があるという問題点があった。
また，バイノーラル信号処理による音源分離処理は，複数に区分された周波数成分（周波数ビン）ごとの音量レベルの比較により音源分離処理を行うため，複数のマイクロホンに対する音源の位置に偏りがある場合の音源分離性能が悪いという問題点があった。例えば，複数の音源が指向性ステレオマイクロホンのいずれかの集音領域に集中したような場合には，正しい音源分離を行うことができなくなる。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，複数のマイクロホンに対する音源の位置に偏りが生じ得る環境下においても高い音源分離性能が得られる音源分離装置，音源分離プログラム及び音源分離方法を提供することにある。

上記目的を達成するために本発明は，所定の音響空間に複数の音源と複数の音声入力手段（マイクロホン）とが存在する状態でその音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から，１以上の前記音源信号を分離（抽出）した分離信号を生成するために，以下の（１）〜（５）に示す各工程を実行する手段（例えば，所定のプロセッサ）を備える音源分離装置であること，又は以下の（１）〜（５）に示す各工程をコンピュータに実行させるプログラムであること，或いは以下の（１）〜（５）に示す各工程を有する音源分離方法であることを特徴とするものである。
（１）独立成分分析法に基づくブラインド音源分離方式の音源分離処理により，複数の前記混合音声信号から１以上の前記音源信号に対応するＳＩＭＯ（single-input multiple-output）信号を分離生成（抽出）する工程。以下，この工程をＳＩＭＯ−ＩＣＡ処理工程といい，この工程で実行される処理をＳＩＭＯ−ＩＣＡ処理という。
（２）前記ＳＩＭＯ−ＩＣＡ処理工程における前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて，前記音源それぞれの存在する方向である音源方向を推定する工程。以下，この工程を音源方向推定工程という。
（３）前記ＳＩＭＯ−ＩＣＡ処理工程で分離生成された前記ＳＩＭＯ信号それぞれについて，複数に区分された周波数成分ごとに，前記音源方向推定工程により推定された前記音源方向それぞれからの音声成分を強調する（相対的に信号強度を強める）ビームフォーマ処理を施してビームフォーマ処理後の音声信号を出力する工程。以下，この工程をビームフォーマ処理工程という。
（４）前記ビームフォーマ処理後の音声信号のうち，前記ＳＩＭＯ信号のいずれか（以下，特定ＳＩＭＯ信号という）について前記音源方向のいずれか（以下，特定音源方向という）からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他の前記ビームフォーマ処理後の音声信号について，前記複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い，これにより得られる信号（以下，中間処理後信号という）を出力する工程。以下，この工程を中間処理実行工程という。
（５）前記特定ＳＩＭＯ信号における一の信号について，前記複数に区分された周波数成分ごとに，前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較してその比較結果が所定条件を満たす場合にその周波数成分の信号を除去する処理を行い，これにより得られる信号を前記音源信号に対応する前記分離信号として生成する工程。以下，この工程を目的外信号成分除去工程といい，この工程で実行される処理を目的外信号成分除去処理という。
なお，前記目的外信号成分除去処理は，バイナリーマスキング処理と同様の処理，即ち，前記特定ＳＩＭＯ信号における一の信号について，複数に区分された周波数成分ごとの音量比較に基づいて主となる音源からの音声信号以外の信号成分を除去する処理である。但し，音量比較の対象となる信号は，ＳＩＭＯ信号そのものではなく，前記特定のビームフォーマ処理後の音声信号及び前記中間処理後信号（前記特定のビームフォーマ処理後の音声信号以外のビームフォーマ処理後の信号について前記中間処理を実行して得られた信号）である。
このように，独立成分分析に基づく音源分離処理（前記ＳＩＭＯ−ＩＣＡ処理）と，周波数成分ごとの音量比較に基づく低音量の信号成分除去処理（前記目的外信号成分除去処理）との２段階の処理を実行することにより，後述するように，複数の前記音声入力手段（マイクロホン）に対する音源の位置に偏りが生じ得る環境下においても高い音源分離性能が得られることがわかった。また，前記中間処理の内容により，音源分離性能が特に高まるような音源分離処理を実現したり，或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。

また，前記ＳＩＭＯ−ＩＣＡ処理としては，周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理や，周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うことが考えられる。
なお，前記周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理とは，後述するように，時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換処理と，その周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した分離信号（第１の分離信号）を生成するＦＤＩＣＡ音源分離処理と，前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づいて前記ＦＤＩＣＡ音源分離処理により分離された分離信号（前記第１の分離信号）を除く残りのものを減算した分離信号（第２の分離信号）を生成する減算処理と，前記第１の分離信号及び前記第２の分離信号に基づく所定の評価関数を用いた逐次計算を行うことによって前記ＦＤＩＣＡ音源分離処理で用いる前記分離行列を計算する分離行列計算処理とを行うものである。これにより，時間領域の混合音声信号を時間領域のままで処理する時間領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理に比べ，処理負荷を大幅に軽減できる。

また，前記ビームフォーマ処理工程としては，例えば，周知の遅延和型ビームフォーマ処理，又は同じく周知の死角型ビームフォーマ処理（減算型ビームフォーマ処理ともいう）を実行する工程が考えられる。
また，前記中間処理としては，例えば，前記複数の特定信号を各々所定の重み付けにより補正し，その補正後の信号について所定の選択処理若しくは合成処理を行うものが考えられる。
より具体的な前記中間処理としては，前記複数の特定信号を各々所定の重み付けにより補正し，その補正後の信号の中から信号レベルが最大のものを選択する処理を行うものが考えられる。
このような構成によれば，前記重み付けの係数（前記中間処理に用いられるパラメータの一例）を調節することにより，音源分離性能が特に高まるような音源分離処理を実現したり，或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。
特に，前記中間処理に用いるパラメータを所定の操作入力に従って設定する手段（中間処理パラメータ設定手段）を備えた音源分離装置であれば，状況に応じた調節が容易となる。

本発明によれば，独立成分分析法に基づくブラインド音源分離方式の音源分離処理（前記ＳＩＭＯ−ＩＣＡ処理）と，バイナリーマスキング処理と同様の音量比較による低音量の信号成分除去処理（前記目的外信号成分除去処理）との２段階処理を行うことにより，高い音源分離性能が得られる。
さらに，本発明によれば，独立成分分析法に基づくブラインド音源分離方式の音源分離処理（前記ＳＩＭＯ−ＩＣＡ処理）により得られたＳＩＭＯ信号について，音源方向に応じた音声強調を行うビームフォーマ処理，及び目的に応じた前記中間処理を施した後に前記目的外信号成分除去処理を実行する。これにより，複数の音声入力手段（マイクロホン）に対する音源の位置に偏りが生じ得る環境下においても高い音源分離性能が得られる音源分離処理が可能となる。例えば，前記中間処理の内容により，音源分離性能が特に高まるような音源分離処理を実現したり，或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。また，ＳＩＭＯ−ＩＣＡ処理として，周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理や，周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うことにより，時間領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離処理に比べ，処理負荷を大幅に軽減できる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の第１実施形態に係る音源分離装置Ｘ１の概略構成を表すブロック図，図２は本発明の第２実施形態に係る音源分離装置Ｘ２の概略構成を表すブロック図，図３はＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ｚ１の概略構成を表すブロック図，図４はＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う従来の音源分離装置Ｚ２の概略構成を表すブロック図，図５はＦＤＩＣＡ法に基づく音源分離処理を行う従来の音源分離装置Ｚ３の概略構成を表すブロック図，図６はＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う音源分離装置Ｚ４の概略構成を表すブロック図，図７はＦＤＩＣＡ−ＰＢ法に基づく音源分離処理を行う従来の音源分離装置Ｚ５の概略構成を表すブロック図，図８はＳＩＭＯ信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第１の例（音源信号各々の周波数成分に重複がない場合）を模式的に表した図，図９はＳＩＭＯ信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第２の例（音源信号各々の周波数成分に重複がある場合）を模式的に表した図，図１０はＳＩＭＯ信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第３の例（目的音源信号のレベルが比較的小さい場合）を模式的に表した図，図１１はマイクロホンと音源との位置関係を模式的に表した図，図１２は遅延和型ビームフォーマ処理の概念図，図１３は音源分離装置Ｘ１を用いた音源分離性能評価の実験条件を表す図，図１４は従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件の下で音源分離を行ったときの音源分離性能を表すグラフである。

まず，本発明の実施形態について説明する前に，図３〜図７に示すブロック図を用いて，各種のＩＣＡ法に基づくブラインド音源分離方式（ＩＣＡ法に基づくＢＳＳ方式）の音源分離装置について説明する。
なお，以下に示す音源分離処理或いはその処理を行う装置等は，いずれも所定の音響空間に複数の音源と複数のマイクロホン（音声入力手段）とが存在する状態で，そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号（以下，音源信号という）が重畳された複数の混合音声信号から，１以上の音源信号を分離（同定）した分離信号を生成する音源分離処理或いはその処理を行う装置等に関するものである。

図３は，ＩＣＡ法の一種である時間領域独立成分分析法（time-domain independent component analysis法，以下，ＴＤＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ｚ１の概略構成を表すブロック図である。なお，本処理の詳細は，非特許文献１や非特許文献２等に示されている。
音源分離装置Ｚは，分離フィルタ処理部１１により，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（音源ごとの音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)について，分離行列Ｗ(ｚ)によりフィルタ処理を施すことによって音源分離を行う。
図３には，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（個別音声信号）を２つのマイクロホン（音声入力手段）１１１，１１２で入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)に基づいて音源分離を行う例について示しているが，２チャンネル以上であっても同様である。ＩＣＡ法に基づくＢＳＳ方式による音源分離の場合，（入力される混合音声信号のチャンネル数ｎ（即ち，マイクロホンの数））≧（音源の数ｍ）であればよい。
複数のマイクロホン１１１，１１２各々で集音された各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)には，複数音源からの音源信号が重畳されている。以下，各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)を総称してｘ(ｔ)と表す。この混合音声信号ｘ(ｔ)は音源信号Ｓ(ｔ)の時間的空間的な畳み込み信号として表現され，次の（１）式のように表される。

ここで，Ａ(ｚ)は，音源からの音声がマイクへ入力される際の空間行列である。
ＴＤＩＣＡによる音源分離の理論は，この音源信号Ｓ(ｔ)のそれぞれの音源同士が統計的に独立であることを利用すると，ｘ(ｔ)がわかればＳ(ｔ)を推測することができ，従って，音源を分離することができるという発想に基づく理論である。
ここで，当該音源分離処理に用いる分離行列をＷ(ｚ)とすれば，分離信号（即ち，同定信号）ｙ(ｔ)は，次の（２）式で表される。

ここで，Ｗ(ｚ)は，出力ｙ(ｔ)から逐次計算により求められる。また，分離信号は，チャンネルの数だけ得られる。
なお，音源合成処理はこのＷ(ｚ)に関する情報により，逆演算処理に相当する配列を形成し，これを用いて逆演算を行えばよい。
このようなＩＣＡ法に基づくＢＳＳ方式による音源分離を行うことにより，例えば，人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から，歌声の音源信号と楽器の音源信号とが分離（同定）される。
ここで，（２）式は，次の（３）式のように書き換えて表現できる。

そして，（３）式における分離フィルタ（分離行列）Ｗ(ｎ)は，次の（４）式により逐次計算される。即ち，前回（ｊ）の出力ｙ(ｔ)を（４）式に逐次適用することより，今回（ｊ＋１）のＷ(ｎ)を求める。

次に，図４に示すブロック図を用いて，ＴＤＩＣＡ法の一種である時間領域ＳＩＭＯ独立成分分析法（Time-Domain single-input multiple-output ICA法，以下，ＴＤ−ＳＩＭＯ−ＩＣＡ法という）に基づく音源分離処理を行う従来の音源分離装置Ｚ２の構成について説明する。なお，図４は，２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)に基づいて音源分離を行う例について示しているが，３チャンネル以上であっても同様であり，その詳細は非特許文献２等に示されている。
ＴＤ−ＳＩＭＯ−ＩＣＡ法による音源分離の特徴は，図４中に示すFidelity Controller１２により，マイクロホン入力信号である各混合音声信号ｘi(ｔ)から，前記分離フィルタ処理部１１による音源分離処理（ＴＤＩＣＡ法に基づく音源分離処理）によって分離（同定）された分離信号（同定信号）を減算し，その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタＷ(Ｚ)の更新（逐次計算）を行う点である。ここで，混合音声信号ｘi(ｔ)各々から減算する分離信号（同定信号）は，各々異なる１つの分離信号（当該混合音声信号に基づく音源分離処理により得られた分離信号）を除く残り全ての分離信号である。これにより，チャンネル（マイクロホン）ごとに２つの分離信号（同定信号）が得られることになり，また，音源信号Ｓi(ｔ)ごとに２つの分離信号が得られることになる。図４の例では，分離信号ｙ11(ｔ)とｙ12(ｔ)，分離信号ｙ22（ｔ）とｙ21(ｔ)が，各々同一の音源信号に対応する分離信号（同定信号）である。なお，分離信号ｙの添字（数字）において，前段の数字は音源の識別番号を，後段の数字はマイクロホン（即ち，チャンネル）の識別番号を表している（以下同様）。
このように，ある音響空間に複数の音源と複数の音声入力手段（マイクロホン）とが存在する状態で，その音声入力手段各々を通じて入力される音源各々からの音源信号（個別音声信号）が重畳された複数の混合音声信号から，１以上の音源信号を分離（同定）した場合に，音源信号ごとに得られる複数の分離信号（同定信号）群をＳＩＭＯ（single-input multiple-output）信号という。図４の例では，分離信号ｙ11(ｔ)とy12(t)の組合せ，分離信号ｙ22（ｔ）とy21(t) といった同一の音源信号に対応する各マイクロホンへの分離信号の組合せの各々がＳＩＭＯ信号である。
ここで，分離フィルタ（分離行列）Ｗ(Ｚ)を表現し直したＷ(ｎ)の更新式は，次の（５）式で表される。

この（５）式は，前述の（４）式に対して第３項目が加わったものであり，この第３項は，Fidelity Controller１２により生成される信号の成分の独立性を評価している部分である。

次に，図５に示すブロック図を用いて，ＩＣＡ法の一種であるＦＤＩＣＡ法（Frequency-Domain ICA）に基づく音源分離処理を行う従来の音源分離装置Ｚ３について説明する。
ＦＤＩＣＡ法では，まず，入力された混合音声信号ｘ(ｔ)について，ＳＴ−ＤＦＴ処理部１３によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換（Short Time Discrete Fourier Transform，以下，ＳＴ−ＤＦＴ処理という）を行い，観測信号の短時間分析を行う。そして，そのＳＴ−ＤＦＴ処理後の各チャンネルの信号（各周波数成分の信号）について，分離フィルタ処理部１１ｆにより分離行列Ｗ(ｆ)に基づく分離フィルタ処理を施すことによって音源分離（音源信号の同定）を行う。ここでｆを周波数ビン，ｍを分析フレーム番号とすると，分離信号（同定信号）ｙ(ｆ，ｍ)は，次の（６）式のように表すことができる。

ここで，分離フィルタＷ(ｆ)の更新式は，例えば次の（７）式のように表すことができる。

このＦＤＩＣＡ法によれば，音源分離処理が各狭帯域における瞬時混合問題として取り扱われ，比較的簡単かつ安定に分離フィルタ（分離行列）Ｗ(ｆ)を更新することができる。

次に，図６に示すブロック図を用いて，ＦＤＩＣＡ法の一種である周波数領域ＳＩＭＯ独立成分分析法（Frequency-Domain single-input multiple-output ICA法，以下，ＦＤ−ＳＩＭＯ−ＩＣＡ法という）に基づく音源分離処理を行う音源分離装置Ｚ４について説明する。
ＦＤ−ＳＩＭＯ−ＩＣＡ法では，前述のＴＤ−ＳＩＭＯ−ＩＣＡ法（図４）と同様に，Fidelity Controller１２により，各混合音声信号ｘi(ｔ)に対してＳＴ−ＤＦＴ処理を施した信号各々から，ＦＤＩＣＡ法（図５）に基づく音源分離処理によって分離（同定）された分離信号（同定信号）を減算し，その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタＷ(ｆ)の更新（逐次計算）を行うものである。
このＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離装置Ｚ４では，時間領域における複数の前記混合音声信号ｘ1(ｔ)，ｘ2(ｔ)に対して前記ＳＴ−ＤＦＴ処理部１３により短時間離散フーリエ変換処理を施して，周波数領域における複数の混合音声信号ｘ1(ｆ)，ｘ2(ｆ)へ変換する（短時間離散フーリエ変換手段の一例）。
次に，変換後の周波数領域における複数の混合音声信号ｘ1(ｆ)，ｘ2(ｆ)に対し，前記分離フィルタ処理部１１ｆによって所定の分離行列Ｗ(ｆ)に基づく分離処理（フィルタ処理）を施すことにより，前記混合音声信号ごとに前記音源信号Ｓ1(ｔ)，Ｓ2(ｔ)のいずれかに対応した第１の分離信号ｙ11(ｆ)，ｙ22(ｆ)を生成する（ＦＤＩＣＡ音源分離手段の一例）。
さらに，前記周波数領域における複数の混合音声信号ｘ1(ｆ)，ｘ2(ｆ)各々から当該混合音声信号に基づき前記分離フィルタ処理部１１ｆにより分離された前記第１の分離信号（ｘ1(ｆ)に基づき分離されたｙ11(ｆ)，ｘ2(ｆ)に基づき分離されたｙ22(ｆ)）を除く残りの前記第１の分離信号を，前記Fidelity Controller１２（減算手段の一例）により減算した第２の分離信号ｙ12(ｆ)，ｙ21(ｆ)を生成する。
一方，不図示の分離行列計算部により，前記第１の分離信号ｙ11(ｆ)，y22(ｆ)及び前記第２の分離信号ｙ12(ｆ)，ｙ21(ｆ)の両方に基づく逐次計算を行い，前記分離フィルタ処理部１１ｆ（ＦＤＩＣＡ音源分離手段）で用いられる前記分離行列Ｗ(ｆ)を計算する（分離行列計算手段の一例）。
これにより，チャンネル（マイクロホン）ごとに２つの分離信号（同定信号）が得られることになり，また，音源信号Ｓi(ｔ)ごとに２つ以上の分離信号（ＳＩＭＯ信号）が得られることになる。図６の例では，分離信号ｙ11（ｆ）とｙ12(ｆ)の組合せ，及び分離信号ｙ22(ｆ)とy21(ｆ)の組合せの各々がＳＩＭＯ信号である。なお，実際は時間の経過に応じて順次新たに発生するフレームごとに新たな分離信号が生成されるので，各分離信号ｙ11(ｆ)，ｙ21(ｆ)，ｙ22(ｆ)，ｙ12(ｆ)は，時間ｔの要素を加えてｙ11(ｆ,ｔ)，ｙ21(ｆ,ｔ)，ｙ22(ｆ,ｔ)，ｙ12(ｆ,ｔ)と表記することもできる。
ここで，前記分離行列計算部は，前記第１の分離信号及び前記第２の分離信号に基づいて，次の（８）式で表される分離フィルタ（分離行列）Ｗ(ｆ)の更新式により前記分離行列Ｗ(ｆ)を計算する。

次に，図７に示すブロック図を用いて，ＦＤＩＣＡ法の一種である周波数領域独立成分分析法と逆射影法との連結手法（Frequency-Domain ICA & Projection back法，以下，ＦＤＩＣＡ−ＰＢ法という）に基づく音源分離処理を行う従来の音源分離装置Ｚ５について説明する。なお，ＰＤＩＣＡ−ＰＢ法の詳細については，特許文献５等に示されている。
ＦＤＩＣＡ−ＰＢ法では，各混合音声信号ｘi(ｔ)から前述のＦＤＩＣＡ法に基づく音源分離処理（図５）により得られた分離信号（同定信号）ｙi(ｆ)各々について，逆行列演算部１４によって分離行列Ｗ(ｆ)の逆行列Ｗ^-1(ｆ)の演算処理を施すことにより，最終的な分離信号（音源信号の同定信号）を得るものである。ここで，逆行列Ｗ^-1(ｆ)による処理対象の信号のうち，各分離信号ｙi(ｆ)以外の残りの信号成分は，0（ゼロ）入力として設定する。
これにより，音源信号Ｓi(ｔ)各々に対応したチャンネル数分（複数）の分離信号（同定信号）であるＳＩＭＯ信号が得られる。図７において，分離信号ｙ11(ｆ)とy12(ｆ)，分離信号ｙ22（ｆ）とy21(ｆ)が，各々同一の音源信号に対応する分離信号（同定信号）であり，各逆行列Ｗ^-1(ｆ)による処理後の信号である分離信号ｙ11(ｆ)とy12(ｆ)の組合せ，分離信号ｙ22（ｆ）とy21(ｆ)の組合せの各々がＳＩＭＯ信号である。なお，実際は時間の経過に応じて順次新たに発生するフレームごとに新たな分離信号が生成されるので，各分離信号ｙ11(ｆ)，ｙ12(ｆ)，ｙ22(ｆ)，ｙ21(ｆ)は，時間ｔの要素を加えてｙ11(ｆ,ｔ)，ｙ12(ｆ,ｔ)，ｙ22(ｆ,ｔ)，ｙ21(ｆ,ｔ)と表記することもできる。

以下，図１に示すブロック図を用いて，本発明の第１実施形態に係る音源分離装置Ｘ１について説明する。
音源分離装置Ｘ１は，ある音響空間に複数の音源１，２と複数のマイクロホン１１１，１１２（音声入力手段）とが存在する状態で，そのマイクロホン１１１，１１２各々を通じて入力される音源１，２各々からの音源信号（個別の音声信号）が重畳された複数の混合音声信号Ｘi(ｔ)から，１以上の音源信号（個別音声信号）を分離（同定）した分離信号（同定信号）を生成して出力するものである。なお，図１における分離信号Ｙ1^(ICA1)(ｆ,ｔ)，Ｙ2^(ICA1) (ｆ,ｔ)，Ｙ1^(ICA2) (ｆ,ｔ)，Ｙ2^(ICA2) (ｆ,ｔ)は，それぞれ図６及び図７における分離信号ｙ11(ｆ)，ｙ22(ｆ)，ｙ21(ｆ)，ｙ12(ｆ)に相当する。ここで，複数のマイクロホン１１１，１１２は，指向性を有するマイクロホンであっても無指向性のマイクロホンであってもよい。
そして，音源分離装置Ｘ１の特徴は，ＳＩＭＯ−ＩＣＡ処理部１０，音源方向推定部４，ビームフォーマ処理部５，中間処理部６及び目的外信号成分除去部７の各構成要素を備える点にある。
なお，各構成要素１０，４，５，６，７は，それぞれＤＳＰ（Digital Signal Processor）又はＣＰＵ及びその周辺装置（ＲＯＭ，ＲＡＭ等）と，そのＤＳＰ若しくはＣＰＵにより実行されるプログラムとにより構成されたものや，或いは，１つのＣＰＵ及びその周辺装置を有するコンピュータにより，各構成要素１０，４，５，６，７が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また，所定のコンピュータに各構成要素１０，４，５，６，７の処理を実行させる音源分離プログラムとして提供することも考えられる。

前記ＳＩＭＯ−ＩＣＡ処理部１０は，複数の混合音声信号Ｘi(ｔ)から独立成分分析（ＩＣＡ）法に基づくブラインド音源分離（ＢＳＳ）方式の音源分離処理により，１以上の音源信号Ｓi(ｔ)を分離（同定）したＳＩＭＯ信号「Ｙ1^(ICA1)及びＹ2^(ICA2)」と「Ｙ2^(ICA1)及びＹ1^(ICA2)」（１つの音源信号に対応する複数の分離信号）を分離生成する処理の実行部である（前記ＳＩＭＯ−ＩＣＡ処理工程を実行するコンピュータの一例）。
この第１実施形態における前記ＳＩＭＯ−ＩＣＡ処理部１０（前記ＳＩＭＯ−ＩＣＡ処理手段に相当）としては，図６に示したＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行うＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う前記音源分離装置Ｚ４，或いは図７に示したＦＤＩＣＡ−ＰＢ法に基づく音源分離処理を行う前記音源分離装置Ｚ５を採用することが考えられる。

前記音源方向推定部４は，前記ＳＩＭＯ−ＩＣＡ処理部１０におけるＩＣＡ法に基づくＢＳＳ方式の音源分離処理において実行される学習計算によって算出される分離行列Ｗに基づいて，前記音源１，２それぞれの存在する方向である音源方向θ1，θ2を推定する処理の実行部である（前記音源方向推定工程を実行するコンピュータの一例）。
前記音源方向推定部４は，前記ＳＩＭＯ−ＩＣＡ処理部１０におけるＩＣＡ法に基づくＢＳＳ方式の音源分離処理において実行される分離行列Ｗの学習計算によって算出される分離行列Ｗを取得し，その分離行列Ｗに基づいて，音響空間に存在する複数の音源１，２の存在する方向（音源方向θ1，θ2という）それぞれを推定するＤＯＡ推定計算を実行するものである。
ここで，音源方向θ1，θ2は，図１１に示すように，直線上に配列された複数のマイクロホンの中間位置Ｏ（複数のマイクロホンの配列範囲の中心位置）から，マイクロホンの配列方向Ｒxに直交する方向Ｒyに対する相対角度である。なお，図１１において，Ｒx方向におけるＫ個のマイクロホンそれぞれの座標をｄ₁〜ｄ_Kと表記している。
前記音源方向推定部４は，例えば，前記非特許文献６や非特許文献７に示されるＤＯＡ推定処理を実行することにより，前記音源方向θ1，θ2を推定（算出）する。より具体的には，前記分離行列Ｗにステアリングベクトルを乗じることによって音源方向θ1，θ2（ＤＯＡ）を推定する。

以下，前記非特許文献６や非特許文献７に示されるＤＯＡ推定処理（以下，死角特性に基づくＤＯＡ推定処理という）について説明する。
ＩＣＡ法による音源分離処理は，空間的死角フィルタを表す行列（分離行列）を学習演算によって算出し，その分離行列を用いたフィルタ処理によってある方向からの音を除去する処理である。
前記死角特性に基づくＤＯＡ推定処理は，前記分離行列が表す空間的死角角度を周波数ビンごとに計算し，その周波数ビンごとの空間的死角角度の平均値を求めることによって音源の方向（角度）を推定する。
例えば，２つの音源の音を２つのマイクロホンで集音する音源分離装置において，前記死角特性に基づくＤＯＡ推定処理は，以下に示す計算を実行する。なお，以下の説明において，添字のｋはマイクロホンの識別番号（ｋ＝１，２），添字のｌは音源の識別番号（ｌ＝１，２），ｆは周波数ビン，ｆの添字ｍは周波数ビンの識別番号（ｍ＝１，２），Ｗlk(ｆ)は前記ＦＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理における学習計算により得られた分離行列，ｃは音速，ｄ_k（ｄ₁又はｄ₂）は２つのマイクロホンの中間位置から各マイクロホンまでの距離（マイクロホン相互間の距離の二分の一，即ち，ｄ₁＝ｄ₂），θ1及びθ2は２つの音源それぞれの音源方向（ＤＯＡ）である。
まず，次の（９）式（前記非特許文献４における（１２）式に相当）により，ｌ＝１の場合及びｌ＝２の場合の音源角度情報Ｆl(ｆ，θ)を，分離フィルタの各周波数ビンごとに算出する。

さらに，次の（１０）式及び（１１）式（前記非特許文献４における（１３）式及び（１４）式に相当）により周波数ビンごとのＤＯＡ（角度）θ1(ｆm)及びθ2(ｆm)を求める。

そして，周波数ビンごとに計算されたθ1(ｆm)について，全周波数ビンの範囲で平均値を計算し，その平均値を一方の音源の方向θ1とする。同様に，周波数ビンごとに計算されたθ2(ｆm)について，全周波数ビンの範囲で平均値を計算し，その平均値を他方の音源の方向θ2とする。

前記ビームフォーマ処理部５は，前記ＳＩＭＯ−ＩＣＡ処理部１０において分離生成されたＳＩＭＯ信号，即ち，分離信号Ｙ1^(ICA1)及びＹ2^(ICA2)からなる第１のＳＩＭＯ信号，及び分離信号Ｙ2^(ICA1)及びＹ1^(ICA2)からなる第２のＳＩＭＯ信号それぞれについて，周波数ビンｆ（複数に区分された周波数成分）ごとに，前記音源方向推定部４により推定された前記音源方向θ1，θ2それぞれからの音声成分を強調するビームフォーマ処理を施してビームフォーマ処理後の音声信号Ｙ_BF1 (ｆ,ｔ)〜Ｙ_BF4(ｆ,ｔ)を出力する処理の実行部である（前記ビームフォーマ処理工程を実行するコンピュータの一例）。ここで，周波数ビンｆ（周波数成分の区分）は，例えば，予め定められた周波数幅での均等な区分である。
なお，図１に示す２つのビームフォーマ処理部５それぞれにおいて，「ＢＦ1θ1」との表記は，前記第１のＳＩＭＯ信号について音源方向θ1からの音声成分を強調すること（Ｙ_BF1(ｆ,ｔ)の出力）を表し，「ＢＦ1θ2」との表記は，前記第１のＳＩＭＯ信号について音源方向θ2からの音声成分を強調すること（Ｙ_BF2(ｆ,ｔ)の出力）を表し，「ＢＦ2θ1」との表記は，前記第２のＳＩＭＯ信号について音源方向θ1からの音声成分を強調すること（Ｙ_BF3(ｆ,ｔ)の出力）を表し，「ＢＦ2θ2」との表記は，前記第２のＳＩＭＯ信号について音源方向θ2からの音声成分を強調すること（Ｙ_BF4(ｆ,ｔ)の出力）を表す。

以下，マイクロホンの数をＫ，音源の数をＬ，Ｋ＝Ｌである場合に，前記ビームフォーマ処理部５が，前記音源方向推定部４により推定（算出）された音源方向（音声の到来方向）θ_l（添字ｌ（エル）は１〜Ｌの整数）に基づいて，指向先（ビーム方向）を音源方向θ_lそれぞれに設定することにより各音源方向θ_lからの音声を強調するビームフォーマ処理について説明する。
前記ビームフォーマ処理部５が実行するビームフォーマ処理としては，周知の遅延和型ビームフォーマ処理（Delay & Sum方式）や死角型ビームフォーマ処理などが考えられる。但し，いずれの種類のビームフォーマ処理を行う場合も，ある音源方向θ_lについて相対的に高い利得が得られ，その他の音源方向について相対的に低い利得が得られるようにする。
図１２は，遅延和型ビームフォーマ処理の概念図である。θの方向から各マイクロホンに到来する音声の信号の時間のずれを，マイク間距離ｄ及び方向θに応じて遅延器により修正し，修正後の信号それぞれに所定の重み係数を乗算した後に加算することにより，特定の方向θから到来した音声を強調した信号が生成される。
遅延和型ビームフォーマ処理では，ある周波数ビンｆについて指向先（ビーム方向）を音源方向θ_lに設定したときのビームフォーマＷ_BFl(ｆ)（音源方向θ_lからの音声を強調するビームフォーマ（添字ｌ（エル）は１〜Ｌの整数））は次の（１２）式により求めることができる。なお，（１２）式において，ｄ_kはｋ番目のマイクロホンの座標（図１１におけるｄ₁〜ｄ_K），ｃは音速，ｊは虚数単位である。

そして，前記ビームフォーマ処理部５は，（１２）式に基づくビームフォーマを各ＳＩＭＯ信号に適用することにより，ビームフォーマ処理後の音声信号Ｙ_BFl(ｆ,ｔ)を算出する。
例えば，Ｋ＝Ｌ＝２である場合，前記ビームフォーマ処理部５は，次の（１３）式の計算を行うことによってビームフォーマ処理後の音声信号Ｙ_BF1(ｆ,ｔ)〜Ｙ_BF4(ｆ,ｔ)を算出する。なお，Ｋ及びＬが３以上であっても同様の式によりＹ_BFl(ｆ,ｔ)を算出できる。

以上に示すビームフォーマ処理を実行することにより，ＳＩＭＯ信号それぞれについて，目的とする音源の方向θｌからの音声を強調した（相対的に信号強度を強めた）音声信号Ｙ_BFl(ｆ,ｔ)を算出できる。

前記中間処理部６は，前記ビームフォーマ処理後の音声信号（前記ビームフォーマ処理部５の出力信号）のうち，ＳＩＭＯ信号のいずれか（以下，特定ＳＩＭＯ信号という）について前記音源方向θ1，θ2のいずれか（以下，特定音源方向という）からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他のビームフォーマ処理後の音声信号について，周波数ビンｆごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い，これにより得られる信号（以下，中間処理後信号という）を出力する処理の実行部である（前記中間処理実行工程を実行するコンピュータの一例）。
なお，図１に例示する２つの前記中間処理部６の一方（第１の中間処理部６ａ）は，２組のＳＩＭＯ信号のうち，分離信号Ｙ1^(ICA1)及びＹ2^(ICA2)からなるＳＩＭＯ信号を前記特定ＳＩＭＯ信号とし，その特定ＳＩＭＯ信号について音源方向θ1からの音声成分を強調した特定のビームフォーマ処理後の音声信号Ｙa1(ｆ,ｔ)を除く他の３つのビームフォーマ処理後の音声信号Ｙa2(ｆ,ｔ)，Ｙa3(ｆ,ｔ)，Ｙa4(ｆ,ｔ)に基づいて前記中間処理を行い，１つの中間処理後信号Ｙb1(ｆ,ｔ)を出力するものである。また，もう一方の第２の中間処理部６ｂは，２組のＳＩＭＯ信号のうち，分離信号Ｙ2^(ICA1)及びＹ1^(ICA2)からなるＳＩＭＯ信号を前記特定ＳＩＭＯ信号とし，その特定ＳＩＭＯ信号について音源方向θ2からの音声成分を強調した特定のビームフォーマ処理後の音声信号Ｙa4(ｆ,ｔ)を除く他の３つのビームフォーマ処理後の音声信号Ｙa1(ｆ,ｔ)，Ｙa2(ｆ,ｔ)，Ｙa3(ｆ,ｔ)に基づいて前記中間処理を行い，１つの中間処理後信号Ｙb2(ｆ,ｔ)を出力するものである。

図１に示す例では，前記第１の中間処理部６ａは，まず，加重補正処理部６１により，３つのビームフォーマ処理後の音声信号Ｙ_BF2(ｆ,ｔ)〜Ｙ_BF4を，周波数ビンｆごと（所定の周波数幅で均等に区分された周波数成分ごと）に，その周波数ビンｆの信号（強度）に所定の重み係数ｃ１，ｃ２，ｃ３を乗算することによって信号レベルを補正（即ち，重み付けにより補正）する。さらに，比較対象選択部６２により，その補正後の信号の中から，周波数ビンｆごとに信号レベルが最大のものを選択選択し，選択した信号を第１の中間処理後信号Ｙ_b1(ｆ,ｔ)として出力する。この中間処理を，Ｍａｘ［ｃ１・Ｙ_BF2(ｆ,ｔ)，ｃ２・Ｙ_BF3(ｆ,ｔ)，ｃ３・Ｙ_BF4(ｆ,ｔ)］と表すものとする。
また，前記第２の中間処理部６ｂは，まず，加重補正処理部６１により，３つのビームフォーマ処理後の音声信号Ｙ_BF1(ｆ,ｔ)〜Ｙ_BF3を，周波数ビンｆごとに，その周波数ビンｆの信号（強度）に所定の重み係数ｃ３，ｃ２，ｃ１を乗算することによって信号レベルを補正（即ち，重み付けにより補正）する。さらに，比較対象選択部６２により，その補正後の信号の中から，周波数ビンｆごとに信号レベルが最大のものを選択し，選択した信号を第２の中間処理後信号Ｙ_b2(ｆ,ｔ)として出力する。この中間処理は，Ｍａｘ［ｃ３・Ｙ_BF1(ｆ,ｔ)，ｃ２・Ｙ_BF2(ｆ,ｔ)，ｃ３・Ｙ_BF3(ｆ,ｔ)］と表される。
ここで，ｃ１〜ｃ３は，０以上１未満の重み係数であり，例えば，１≧ｃ１＞ｃ３＞ｃ２≧０などに設定する。例えば，ｃ１＝１，ｃ２＝０，ｃ３＝０．７などとする。

前記目的外信号成分除去部７は，前記特定ＳＩＭＯ信号（前記第１のＳＩＭＯ信号又は前記第２のＳＩＭＯ信号）における一の信号について，周波数ビンごと（複数に区分された周波数成分ごと）に，前記特定ＳＩＭＯ信号にビームフォーマ処理を施した後の音声信号と前記中間処理後信号との音量を比較し，その比較結果が所定条件を満たす場合にその周波数ビンの信号を除去する処理を行い，これにより得られる信号を音源信号に対応する分離信号として生成及び出力する処理の実行部である（前記目的外信号成分除去工程を実行するコンピュータの一例）。
図１に示す例では，２つの前記目的外信号成分除去部７の一方（第１の目的外信号成分除去部７ａ）において，比較部７１が，前記第１のＳＩＭＯ信号（前記特定ＳＩＭＯ信号の一例）における一の信号であるＹ1^(ICA1)(ｆ,ｔ)について，周波数ビンｆごとに，前記第１のＳＩＭＯ信号にビームフォーマ処理を施した後の音声信号Ｙ_BF1(ｆ,ｔ)と前記第１の中間処理部６ａから出力される前記第１の中間処理後信号Ｙ_b1(ｆ,ｔ)との信号レベルの大小を比較する。そして，その比較結果がＹ_BF1(ｆ,ｔ)＞Ｙ_B1(ｆ,ｔ)という条件を満たす場合に，前記第１の目的外信号成分除去部７ａにおける信号除去部７２が，信号Ｙ1^(ICA1)(ｆ,ｔ)からその周波数ビンｆの信号を除去し，これによる得られる信号を出力する。
また，２つの前記目的外信号成分除去部７の他方（第２の目的外信号成分除去部７ｂ）において，比較部７１が，前記第２のＳＩＭＯ信号（前記特定ＳＩＭＯ信号の一例）における一の信号であるＹ2^(ICA1)(ｆ,ｔ)について，周波数ビンｆごとに，前記第２のＳＩＭＯ信号にビームフォーマ処理を施した後の音声信号Ｙ_BF4(ｆ,ｔ)と前記第２の中間処理部６ｂから出力される前記第２の中間処理後信号Ｙ_b2(ｆ,ｔ)との信号レベルの大小を比較する。そして，その比較結果がＹ_BF4(ｆ,ｔ)＞Ｙ_B2(ｆ,ｔ)という条件を満たす場合に，前記第２の目的外信号成分除去部７ｂにおける信号除去部７２が，信号Ｙ2^(ICA1)(ｆ,ｔ)からその周波数ビンｆの信号を除去し，これによる得られる信号を出力する。
例えば，前記第１の目的外信号成分除去部７ａにおいて，前記比較部７１が，周波数ビンｆそれぞれについてＹ_BF1(ｆ,ｔ)＞Ｙ_BF1(ｆ,ｔ)である場合に比較結果ｍ₁(ｆ,ｔ)を「１」，そうでない場合に比較結果ｍ₁(ｆ,ｔ)を「０」として出力し，さらに，前記信号除去部７２が，信号Ｙ1^(ICA1)(ｆ,ｔ)に前記比較結果ｍ₁(ｆ,ｔ)を乗算する。前記第２の目的外信号成分除去部７ｂにおいても同様の処理を行う。
次の（１４）式は，前記第１の中間処理部６ａ及び前記第１の目的外信号成分除去部７ａにおける前記比較部７１が実行する処理を表す式である。

また，次の（１５）式は，前記第１の目的外信号成分除去部７ａにおける前記信号除去部７２が実行する処理を表す式である。なお，（１５）式における左辺が，音源信号に対応する分離信号として生成及び出力される信号を表す。

以下，音源分離装置Ｘ１の作用効果について説明する。
前述したように，複数の音源信号それぞれの独立性に着目した音源分離処理を行う前記ＳＩＭＯ−ＩＣＡ処理部１０が出力する分離信号Ｙ1^(ICA1)(ｆ,ｔ)，Ｙ2^(ICA2)(ｆ,ｔ)，Ｙ2^(ICA1)(ｆ,ｔ)，Ｙ1^(ICA2)(ｆ,ｔ)には，注目したい特定の音源（目的音源）以外の他の音源（非目的音源）からの音声信号（ノイズ信号）の成分が混入する場合がある。
そこで，特定の音源信号Ｓ1(ｔ)に対応するはずの分離信号Ｙ1^(ICA1)(ｆ,ｔ)に，他の音源信号Ｓ2(ｔ)に対応する分離信号Ｙ2^(ICA1)(ｆ,ｔ)，Ｙ1^(ICA2)(ｆ,ｔ)において信号レベル（音量）の高い周波数成分と同じ周波数成分の信号が存在する場合，その周波数成分の信号をバイノーラル信号処理と同様の処理によって除去すれば，特定の音源以外の他の音源から混入したノイズ信号を除去できる。このことから，例えば，図１に示す前記音源分離装置Ｘ１において，前記第１の目的外信号成分除去部７ａにより，特定の音源に対応する分離信号Ｙ1^(ICA1)(ｆ,ｔ)から，その他の音源に対応する分離信号Ｙ2^(ICA1)(ｆ,ｔ)，Ｙ1^(ICA2)(ｆ,ｔ)と比較して信号レベルが低い周波数成分を除去すれば，ノイズ混入を抑え音源分離性能を高めることができる。

しかしながら，前記目的外信号成分除去部７は，音量（信号レベル）に基づきノイズ信号か否かを判別するため，複数のマイクロホンに対する音源の位置に偏りがある場合，注目したい特定の音源（目的音源）からの信号とその他の音源（非目的音源）からの信号（ノイズ信号）との区別がつかなくなる。
これに対し，前記音源分離装置Ｘ１では，前記ビームフォーマ処理部５によって各ＳＩＭＯ信号に音源方向θ1，θ2それぞれからの音声を強調するビームフォーマ処理を施し，ビームフォーマ処理後の音声信号Ｙ_BF1(ｆ,ｔ)〜Ｙ_BF4(ｆ,ｔ)に基づく信号について，前記目的外信号成分除去部７による処理を実行する。ここで，ビームフォーマ処理後の音声信号Ｙ_BF1(ｆ,ｔ)〜Ｙ_BF4(ｆ,ｔ)のスペクトルは，各音源が存在する方向を指向先とする指向性マイクロホンを通じて得られた音声信号のスペクトルと近似するものとなる。このため，複数のマイクロホンに対する音源の位置に偏りがある場合でも，前記目的外信号成分除去部７に入力される信号は，音源位置の偏りの影響が除かれた信号となる。従って，前記音源分離装置Ｘ１のように，特定の音源信号Ｓ1(ｔ)に対応するビームフォーマ処理後の音声信号Ｙ_BF1(ｆ,ｔ)に，他の音源信号Ｓ2(ｔ)に対応するビームフォーマ処理後の音声信号Ｙ_BF2(ｆ,ｔ)，Ｙ_BF3(ｆ,ｔ)において信号レベル（音量）の高い周波数成分と同じ周波数成分の信号が存在する場合，その周波数成分の信号を，前記目的外信号成分除去部７により分離信号Ｙ1^(ICA1)(ｆ,ｔ)から除去すれば，複数のマイクロホンに対する音源の位置に偏りがある場合でも，特定の音源以外の他の音源から混入したノイズ信号を除去できる。

また，前記音源分離装置Ｘ１における前記目的外信号成分除去部７は，注目したい特定の音源（目的音源）以外の音源（非目的音源）に対応するビームフォーマ処理後の音声信号（例えば，Ｙ_BF2(ｆ,ｔ)〜Ｙ_BF4(ｆ,ｔ)）については，その信号自体を特定の音源に対応するビームフォーマ処理後の音声信号（例えば，Ｙ_BF1(ｆ,ｔ)）との比較対象にするのではなく，それらの信号に前記中間処理を施した後の信号（例えば，Ｙ_b1(ｆ,ｔ)）を比較対象としている。このため，音響環境が変化しても高い音源分離性能を維持することが可能となる。
通常，音源信号Ｓ1(ｔ)を最もよく表す対応するビームフォーム処理後の音声信号はＹ_BF1(ｆ,ｔ)，音源信号Ｓ2(ｔ)に対応するビームフォーム処理後の音声信号はＹ_BF4(ｆ,ｔ)である。
以下，図８〜図１０を参照しつつ，ビームフォーマ処理後の音声信号に対してバイナリーマスキング処理を実行する場合における，バイナリーマスキング処理に対する入力信号の組合せと，分離性能及び分離信号の音質との関係について説明する。なお，以下の説明において，バイナリーマスキング処理によって目的音源に対応するビームフォーマ処理後の音声信号Ｙ_b1(ｆ,ｔ)から，非目的音源に対応する信号成分が除去される過程は，前記目的外信号成分除去部７により，前記特定ＳＩＭＯ信号における目的音源に対応する分離信号Ｙ1^(ICA1)(ｆ,ｔ)から非目的音源に対応する信号成分が除去される過程と同視できる。
図８〜図１０は，ビームフォーマ処理後の音声信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル（振幅）の分布の一例（第１〜第３の例）をバーグラフにより模式的に表したものである。
ところで，注目したい目的音源信号がＳ1(ｔ)である場合，４つのビームフォーマ処理後の音声信号Ｙ_BF1(ｆ,ｔ)〜Ｙ_BF4(ｆ,ｔ)について，目的音源信号Ｓ1(ｔ)に対応す音声信号Ｙ_BF1(ｆ,ｔ)を含む２つの信号の組合せは３パターン考えられるが，Ｙ_BF1(ｆ,ｔ)とＹ_BF3(ｆ,ｔ)とは元々近似するスペクトルを有する。よって，図８〜図１０は，Ｙ_BF1(ｆ,ｔ)及びＹ_BF2(ｆ,ｔ)の組合せと，Ｙ_BF1(ｆ,ｔ)及びＹ_BF4(ｆ,ｔ)の組合せとの各々について，バイナリーマスキング処理を行う場合の例について示している。

また，図８は音源信号各々の周波数成分に重複がない場合，図９は同周波数成分に重複がある場合の例を表す。一方，図１０は，音源信号各々の周波数成分に重複がなく，かつ，目的音源信号Ｓ1(ｔ)の信号レベルが非目的音源信号Ｓ2(ｔ)の信号レベルに対して相対的に低い（振幅が小さい）場合の例を表す。
さらに，図８（ａ），図９（ａ）及び図１０（ａ）は，バイノーラル信号処理に対する入力信号を，信号Ｙ_BF1(ｆ,ｔ)及び信号Ｙ_BF2(ｆ,ｔ)の組合せとした場合（以下，「パターンａ」という）の例を表す。
一方，図８（ｂ），図９（ｂ）及び図１０（ｂ）は，バイノーラル信号処理に対する入力信号を，信号Ｙ_BF1(ｆ,ｔ)及び信号Ｙ_BF4(ｆ,ｔ)の組合せとした場合（以下，「パターンｂ」という）の例を表す。
また，図８〜図１０において，目的音源信号Ｓ1(ｔ)の周波数成分に対応する部分のバーグラフは網掛け模様により，非目的音源信号Ｓ1(ｔ)の周波数成分に対応する部分のバーグラフは斜線模様により各々表している。

図８及び図９に示すように，バイノーラル信号処理に対する入力信号には，その同定の対象となった音源信号の成分が支配的ではあるものの，それ以外に，ノイズとして他の音源信号の成分も若干混在している。
このようなノイズを含む入力信号に対してバイナリーマスキング処理を施した場合，図８（ａ），（ｂ）の出力信号のレベル分布（右側のバーグラフ）に示すように，音源信号各々の周波数成分に重複がない場合には，入力信号の組合せにかかわらず，各音源信号に対応する良質な分離信号が得られる。
このように各音源信号の周波数成分に重複がない場合，バイノーラル信号処理に対する入力信号各々において，同定の対象となった音源信号の周波数成分における信号レベルが高く，その他の音源信号の周波数成分における信号レベルが低くなるというレベル差が明確となり，周波数成分ごとの信号レベルに応じて信号分離を行うバイナリーマスキング処理によって信号が確実に分離されやすい。その結果，入力信号の組合せにかかわらず，高い分離性能が得られる。

しかしながら，一般に，現実の音響空間（音環境）では，同定対象とする目的音源信号とその他の非目的音源信号との間で，周波数成分（周波数帯域）が全く重ならないということはほとんどなく，複数の音源信号間で多少なりとも周波数成分が重複する。
ここで，音源信号各々の周波数成分に重複がある場合であっても，図９（ａ）の出力信号のレベル分布（右側のバーグラフ）に示すように，前記「パターンａ」では，音源信号各々で重複する周波数成分において若干のノイズ信号（同定対象以外の音源信号の成分）が残るものの，その他の周波数成分においてはノイズ信号が確実に分離される。
この図９（ａ）に示す「パターンａ」では，バイノーラル信号処理に対する入力信号の信号レベルは，同定対象の音源からマイクロホンまでの距離に応じたレベル差を有している。そのため，バイナリーマスキング処理において，そのレベル差により信号が確実に分離されやすい。このことが，「パターンａ」では，音源信号各々の周波数成分に重複があっても高い分離性能が得られる理由として考えられる。
一方，音源信号各々の周波数成分に重複がある場合，図９（ｂ）に示すように，前記「パターンｂ」では，音源信号各々で重複する周波数成分において，本来出力されるべき信号成分（同定対象の音源信号の成分）が欠損するという不都合な現象が生じる（図９（ｂ）における破線で囲んだ部分）。
このような欠損は，その周波数成分について，同定対象の目的音源信号Ｓ1(ｔ)のマイクロホン１１２への入力レベルよりも，非目的音源信号Ｓ2(ｔ)のマイクロホン１１２へのレベルの方が高いために生じる現象である。このような欠損が生じると音質が悪化する。
従って，一般的には，前記「パターンａ」を採用すれば，良好な分離性能が得られる場合が多いと言える。

しかしながら，実際の音響環境では，各音源信号の信号レベルは変化し，状況によっては，図１０に示すように，目的音源信号Ｓ1(ｔ)の信号レベルが非目的音源信号Ｓ2(ｔ)の信号レベルに対して相対的に低くなることもある。
このような場合，ＳＩＭＯ−ＩＣＡ処理部１０で十分な音源分離がなされなかった結果，ビームフォーマ処理後の音声信号Ｙ_BF1(ｆ,ｔ)及び音声信号Ｙ_BF2(ｆ,ｔ)に残留する非目的音源信号Ｓ2(ｔ)の成分が相対的に大きくなる。このため，図１０（ａ）に示す「パターンａ」を採用すると，図１０（ａ）において矢印で示すように，目的音源信号Ｓ1(ｔ)に対応するものとして出力される分離信号に，非目的音源信号Ｓ1(ｔ)の成分（ノイズ成分）が残存するという不都合な減少が生じてしまう。この現象が発生すると，音源分離性能が悪化する。
これに対し，図１０（ｂ）に示す「パターンｂ」を採用すると，具体的な信号レベルにもよるが，図１０（ａ）の矢印で示したようなノイズ成分の残存を回避できる可能性が高い。
従って，前記第１の中間処理部６ａにおいて，信号Ｙ_BF4(ｆ,ｔ)について信号Ｙ_BF2(ｆ,ｔ)よりも低い重み係数（ｃ１＞ｃ３）により音量補正を行い，信号Ｙ_BF2(ｆ,ｔ)を補正した信号と信号Ｙ_BF4(ｆ,ｔ)を補正した信号のうち音量（信号レベル）の大きな方を選択し，その選択した信号に基づいて前記第１の目的外信号成分除去部７ａによるノイズ信号成分の除去を行えば，音響環境が変化しても高い音源分離性能を維持することが可能となる。

次に，前記音源分離装置Ｘ１を用いた音源分離性能評価の実験結果について説明する。
図１３は，音源分離装置Ｘ１を用いた音源分離性能評価の実験条件を説明するための図である。
図１３に示すように，音源分離性能評価の実験は，図１３に示すサイズの居室内において，所定の２箇所に存在する２名の話者を音源とし，その音源（話者）各々からの音声信号（話者の声）を相互に反対方向に向けた２つのマイクロホン１１１，１１２で入力し，入力された２チャンネルの混合音声信号から，各話者の音声信号（音源信号）を分離する性能を評価する実験条件である。ここで，音源となる話者は，２名の男性及び２名の女性（計４名）の中から選択した２名の順列である１２通りの条件下で実験を行い（同じ２名の話者を音源とする場合でも，その２名の配置が入れ替われば異なる条件であるとした），音源分離性能評価は各組合せの下での評価値の平均値により行った。
また，いずれの実験条件においても，残響時間は２００ｍｓ，音源（話者）から最寄りのマイクロホンまでの距離は１．０ｍとし，２つのマイクロホン１１１，１１２は，５．８ｃｍの間隔を隔てて配置した。
ここで，上方から見て，相互に反対方向に向けられた両マイクロホン１１１，１１２の向きに対する直角方向を基準方向Ｒ０（図１１における方向Ｒyに相当）としたときに，この基準方向Ｒ０と一方の音源Ｓ１（話者）から両マイクロホン１１１，１１２の中間点Ｏに向かう方向Ｒ１とのなす角度をθ１とする。また，前記基準方向Ｒ０と他方の音源Ｓ２（話者）から前記中間点Ｏに向かう方向Ｒ２とのなす角度θ２とする。このとき，θ１とθ２との組合せは，偏角を５０°に保った状態でθ1及びθ2をともに１０°ずつ変化させた１２パターンの条件（θ１，θ２）＝（−８０°，−３０°），（−７０°，−２０°），（−６０°，−１０°），（−５０°，０°），（−４０°，＋１０°），（−３０°，＋２０°），（−２０°，＋３０°），（−１０°，＋４０°），（０°，＋５０°），（＋１０°，＋６０°），（＋２０°，＋７０°），（＋３０°，＋８０°）となるように設定（機器配置）し，その各々の条件下で実験を行った。

図１４は，従来の音源分離装置と本発明に係る音源分離装置との各々により，前述の実験条件の下で音源分離を行ったときの音源分離性能の評価結果を表すグラフである。
ここで，図１４に示す音源分離性能の評価値（グラフの縦軸）としては，ＮＲＲ（Noise Reduction Rate）を用いた。このＮＲＲは，雑音除去の程度を表す指標であり，単位は（ｄＢ）である。このＮＲＲ値が大きいほど音源分離性能が高いといえる。
また，図１４に示すグラフにおけるグラフ線ｇ１〜ｇ４は，以下の場合の処理結果を表す。
グラフ線ｇ１（ＩＣＡ−ＢＭ−ＤＳ）は，前記音源分離装置Ｘ１による処理結果であり，前記ビームフォーマ処理部５において遅延和型ビームフォーマ処理を行った場合の結果を表す。なお，重み係数は（ｃ１，ｃ２，ｃ３）＝（１，０，０．７）である。
グラフ線ｇ２（ＩＣＡ−ＢＭ−ＮＢＦ）は，前記音源分離装置Ｘ１による処理結果であり，前記ビームフォーマ処理部５において減算型ビームフォーマ処理を行った場合の結果を表す。なお，重み係数は（ｃ１，ｃ２，ｃ３）＝（１，０，０．７）である。
グラフ線ｇ３（ＩＣＡ−ＢＭ−ＤＳ）は，前記音源分離装置Ｘ１における前記ＳＩＭＯ−ＩＣＡ処理部１０の処理結果を表す。
グラフ線ｇ４（Ｂｉｎａｒｙｍａｓｋ）は，バイナリーマスキング処理の結果を表す。
図１４に示すグラフから，バイナリーマスキング処理を単独で行う場合（ｇ４）よりも，本発明に係る音源分離処理（ｇ１，ｇ２）の方がＮＲＲ値が大きく，音源分離性能が優れていることがわかる。
また，ＩＣＡ法に基づくＢＳＳ方式の音源分離処理を単独で行う場合（ｇ３）と比べても，本発明に係る音源分離処理（ｇ１，ｇ２）の方が，ごく一部の条件を除き総じてＮＲＲ値が大きく，音源分離性能が優れていることがわかる。

以上に示したように，音源分離装置Ｘ１では，前記中間処理部６における前記中間処理に用いられるパラメータ（重み係数ｃ１〜ｃ３）を調節するだけで，音響環境が変化しても高い音源分離性能を維持することが可能となる。
従って，音源分離装置Ｘ１が，調節ツマミや，数値入力用操作キー等の操作入力部（中間処理パラメータ設定手段の一例）を備え，さらに，前記中間処理部６が，その操作入力部を通じて入力された情報に従って，前記中間処理に用いられるパラメータ（ここでは，重み係数ｃ１〜ｃ３）を設定（調節）する機能を備えたものであれば，音響環境が変化しても高い音源分離性能を維持することが可能となる。

次に，図２に示すブロック図を参照しつつ，本発明の第２実施形態に係る音源分離装置Ｘ２について説明する。
音源分離装置Ｘ２も，前記音源分離装置Ｘ１と基本的には同じ構成を備えるが，以下，前記音源分離装置Ｘ１と異なる点についてのみ説明する。なお，図２において，図１と同じ構成要素については同じ符号を付している。
音源分離装置Ｘ２は，前記音源分離装置Ｘ１における前記ＳＩＭＯ−ＩＣＡ処理部１０（周波数領域でのＳＩＭＯ−ＩＣＡ処理を行う音源分離装置Ｚ４又はＺ５を採用するもの）を，ＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理（時間領域でのＳＩＭＯ−ＩＣＡ処理）を行う音源分離装置Ｚ２を採用したＳＩＭＯ−ＩＣＡ処理部１０’に置き換えたものである。
但し，前記音源分離装置Ｚ２を採用したＳＩＭＯ−ＩＣＡ処理部１０’により得られる分離信号は時間領域の信号である。また，前記音源分離装置Ｚ２を採用したＳＩＭＯ−ＩＣＡ処理部１０’により得られる分離行列Ｗ(ｔ)は時間領域のものである。
従って，音源分離装置Ｘ２は，ＳＩＭＯ−ＩＣＡ処理部１０’により出力される時間領域の分離信号を周波数領域の分離信号Ｙ1^(ICA1)(ｆ,ｔ)，Ｙ2^(ICA2)(ｆ,ｔ)，Ｙ1^(ICA2)(ｆ,ｔ)，Ｙ2^(ICA1)(ｆ,ｔ)に変換する第１の短時間離散フーリエ変換処理部４１（図中，ＳＴ−ＤＦＴと表記）を備えている。この第１の短時間離散フーリエ変換処理部４１から出力される分離信号Ｙ1^(ICA1)(ｆ,ｔ)，Ｙ2^(ICA2)(ｆ,ｔ)，Ｙ1^(ICA2)(ｆ,ｔ)，Ｙ2^(ICA1)(ｆ,ｔ)が，前記ビームフォーマ処理部５に入力される。
さらに，音源分離装置Ｘ２は，ＳＩＭＯ−ＩＣＡ処理部１０’における学習計算により得られる時間領域の分離行列Ｗ(ｔ)を周波数領域の分離行列Ｗ(ｆ)に変換する第２の短時間離散フーリエ変換処理部４２（図中，ＳＴ−ＤＦＴと表記）を備えている。この第２の短時間離散フーリエ変換処理部４２から出力される分離行列Ｗ(ｆ)が，前記音源方向推定部４に入力される。前記音源分離装置Ｘ２は，以上に示した相違点以外は，前記音源分離装置Ｘ１と同じ構成を備えている。
このような音源分離装置Ｘ２も，前記音源分離装置Ｘ１と同様の作用効果を奏する。

以上に示した実施形態では，図１又は図２に示すように，チャンネル数が２つ（マイクロホンの数が２つ）である例について示したが，（入力される混合音声信号のチャンネル数ｎ（即ち，マイクロホンの数））≧（音源の数ｍ）であれば，３チャンネル以上であっても同様の構成により実現できる。
また，前記実施形態では，前記中間処理部６により，Ｍａｘ［ｃ１・Ｙ_BF2(ｆ,ｔ)，ｃ２・Ｙ_BF3(ｆ,ｔ)，ｃ３・Ｙ_BF4(ｆ,ｔ)］或いは，Ｍａｘ［ｃ３・Ｙ_BF1(ｆ,ｔ)，ｃ２・Ｙ_BF2(ｆ,ｔ)，ｃ３・Ｙ_BF3(ｆ,ｔ)］という中間処理を行う例を示した。
しかしながら，前記中間処理は，これに限るものではない。
前記中間処理部６により実行される前記中間処理としては，以下のような例も考えられる。
即ち，まず，前記第１の中間処理部６ａが，３つのビームフォーマ処理後の音声信号Ｙ_BF2(ｆ,ｔ)，Ｙ_BF3(ｆ,ｔ)，Ｙ_BF4(ｆ,ｔ)を，周波数ビンｆ（所定の周波数幅で均等に区分された周波数成分）ごとに，その周波数ビンｆの信号に所定の重み係数ａ１，ａ２，ａ３を乗算することによって信号レベルを補正（即ち，重み付けして補正）する。さらに，その補正後の信号を，周波数ビンｆごとに合成（加算）する。即ち，ａ１・Ｙ_BF2(ｆ,ｔ)＋ａ２・Ｙ_BF3(ｆ,ｔ)＋ａ３・Ｙ_BF4(ｆ,ｔ)という中間処理を行う。
さらに，前記第１の中間処理部６ａは，この中間処理により得られた中間処理後信号（周波数成分ごとに重み付け補正がなされた信号を合成した）を前記第１の目的外信号成分除去部７ａに対して出力する。
なお，前記第２の中間処理部６ｂも同様である。
このような中間処理を採用しても，前述した実施形態と同様の作用効果が得られる。もちろん，このような２種類の中間処理に限られず，他の中間処理を採用することも考えられる。また，チャンネル数を，３チャンネル以上に拡張した構成も考えられる。

本発明は，音源分離装置への利用が可能である。

本発明の第１実施形態に係る音源分離装置Ｘ１の概略構成を表すブロック図。本発明の第２実施形態に係る音源分離装置Ｘ２の概略構成を表すブロック図。ＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ｚ１の概略構成を表すブロック図。ＴＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う従来の音源分離装置Ｚ２の概略構成を表すブロック図。ＦＤＩＣＡ法に基づく音源分離処理を行う従来の音源分離装置Ｚ３の概略構成を表すブロック図。ＦＤ−ＳＩＭＯ−ＩＣＡ法に基づく音源分離処理を行う音源分離装置Ｚ４の概略構成を表すブロック図。ＦＤＩＣＡ−ＰＢ法に基づく音源分離処理を行う従来の音源分離装置Ｚ５の概略構成を表すブロック図。ＳＩＭＯ信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第１の例（音源信号各々の周波数成分に重複がない場合）を模式的に表した図。ＳＩＭＯ信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第２の例（音源信号各々の周波数成分に重複がある場合）を模式的に表した図。ＳＩＭＯ信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第３の例（目的音源信号のレベルが比較的小さい場合）を模式的に表した図。マイクロホンと音源との位置関係を模式的に表した図。遅延和型ビームフォーマ処理の概念図。音源分離装置Ｘ１を用いた音源分離性能評価の実験条件を表す図。従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件の下で音源分離を行ったときの音源分離性能を表すグラフ。

符号の説明

Ｘ１：本発明の第１実施形態に係る音源分離装置
Ｘ２：本発明の第２実施形態に係る音源分離装置
１，２：音源
４：音源方向推定部
５：ビームフォーマ処理部
６：中間処理部
７：目的外信号成分除去部
１０，１０’：ＳＩＭＯ−ＩＣＡ処理部
１１，１１ｆ：分離フィルタ処理部
１２：Fidelity Controller
１３：ＳＴ−ＤＦＴ処理部
１４：逆行列演算部
３１：バイナリーマスキング処理における比較部
３２：バイナリーマスキング処理における分離部
４１：第１の短時間離散フーリエ変換処理部
４２：第２の短時間離散フーリエ変換処理部
１１１，１１２：マイクロホン

Claims

所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から，１以上の前記音源信号を分離した分離信号を生成する音源分離装置であって，
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から１以上の前記音源信号に対応するＳＩＭＯ信号を分離生成するＳＩＭＯ−ＩＣＡ処理手段と，
前記ＳＩＭＯ−ＩＣＡ処理手段における前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて，前記音源それぞれの存在する方向である音源方向を推定する音源方向推定手段と，
前記ＳＩＭＯ−ＩＣＡ処理手段で分離生成された前記ＳＩＭＯ信号それぞれについて，複数に区分された周波数成分ごとに，前記音源方向推定手段により推定された前記音源方向それぞれからの音声成分を強調するビームフォーマ処理を施してビームフォーマ処理後の音声信号を出力するビームフォーマ処理手段と，
前記ビームフォーマ処理後の音声信号のうち，前記ＳＩＭＯ信号のいずれかである特定ＳＩＭＯ信号について前記音源方向のいずれかである特定音源方向からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他の前記ビームフォーマ処理後の音声信号について，前記複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い，これにより得られる中間処理後信号を出力する中間処理実行手段と，
前記特定ＳＩＭＯ信号における一の信号について，前記複数に区分された周波数成分ごとに，前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較してその比較結果が所定条件を満たす場合にその周波数成分の信号を除去する処理を行い，これにより得られる信号を前記音源信号に対応する前記分離信号として生成する目的外信号成分除去手段と，
を具備してなることを特徴とする音源分離装置。
前記ＳＩＭＯ−ＩＣＡ処理手段が，
時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換手段と，
前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した第１の分離信号を生成するＦＤＩＣＡ音源分離手段と，
前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づき前記ＦＤＩＣＡ音源分離手段により分離された前記第１の分離信号を除く残りの前記第１の分離信号を減算した第２の分離信号を生成する減算手段と，
前記第１の分離信号及び前記第２の分離信号に基づく逐次計算により前記ＦＤＩＣＡ音源分離手段における前記分離行列を計算する分離行列計算手段と，を具備する周波数領域ＳＩＭＯ独立成分分析法に基づくブラインド音源分離方式の音源分離手段である請求項１に記載の音源分離装置。
前記ＳＩＭＯ−ＩＣＡ処理手段が，周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うものである請求項１に記載の音源分離装置。
前記ビームフォーマ処理手段が，遅延和型ビームフォーマ処理，又は死角型ビームフォーマ処理を実行するものである請求項１〜３のいずれかに記載の音源分離装置。
前記中間処理実行手段が，前記複数の特定信号について，複数に区分された周波数成分ごとに信号レベルを各々所定の重み付けにより補正し，その補正後の信号について前記周波数成分ごとに選択処理若しくは合成処理を行うものである請求項１〜４のいずれかに記載の音源分離装置。
前記中間処理実行手段が，前記複数の特定信号について，複数に区分された周波数成分ごとに信号レベルを各々所定の重み付けにより補正し，その補正後の信号の中から前記周波数成分ごとに信号レベルが最大のものを選択する処理を行うものである請求項５に記載の音源分離装置。
前記中間処理実行手段における前記中間処理に用いるパラメータを所定の操作入力に従って設定する中間処理パラメータ設定手段を具備してなる請求項１〜６のいずれかに記載の音源分離装置。
所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から，１以上の前記音源信号を分離した分離信号を生成する音源分離処理をコンピュータに実行させるための音源分離プログラムであって，
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から１以上の前記音源信号に対応するＳＩＭＯ信号を分離生成するＳＩＭＯ−ＩＣＡ処理工程と，
前記ＳＩＭＯ−ＩＣＡ処理工程における前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて，前記音源それぞれの存在する方向である音源方向を推定する音源方向推定工程と，
前記ＳＩＭＯ−ＩＣＡ処理工程で分離生成された前記ＳＩＭＯ信号それぞれについて，複数に区分された周波数成分ごとに，前記音源方向推定工程により推定された前記音源方向それぞれからの音声成分を強調するビームフォーマ処理を施してビームフォーマ処理後の音声信号を出力するビームフォーマ処理工程と，
前記ビームフォーマ処理後の音声信号のうち，前記ＳＩＭＯ信号のいずれかである特定ＳＩＭＯ信号について前記音源方向のいずれかである特定音源方向からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他の前記ビームフォーマ処理後の音声信号について，前記複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い，これにより得られる中間処理後信号を出力する中間処理実行工程と，
前記特定ＳＩＭＯ信号における一の信号について，前記複数に区分された周波数成分ごとに，前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較してその比較結果が所定条件を満たす場合にその周波数成分の信号を除去する処理を行い，これにより得られる信号を前記音源信号に対応する前記分離信号として生成する目的外信号成分除去工程と，
をコンピュータに実行させるための音源分離プログラム。
所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から，１以上の前記音源信号を分離した分離信号を生成する音源分離方法であって，
コンピュータにより，
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から１以上の前記音源信号に対応するＳＩＭＯ信号を分離生成するＳＩＭＯ−ＩＣＡ処理工程と，
前記ＳＩＭＯ−ＩＣＡ処理工程における前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて，前記音源それぞれの存在する方向である音源方向を推定する音源方向推定工程と，
前記ＳＩＭＯ−ＩＣＡ処理工程で分離生成された前記ＳＩＭＯ信号それぞれについて，複数に区分された周波数成分ごとに，前記音源方向推定工程により推定された前記音源方向それぞれからの音声成分を強調するビームフォーマ処理を施してビームフォーマ処理後の音声信号を出力するビームフォーマ処理工程と，
前記ビームフォーマ処理後の音声信号のうち，前記ＳＩＭＯ信号のいずれかである特定ＳＩＭＯ信号について前記音源方向のいずれかである特定音源方向からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他の前記ビームフォーマ処理後の音声信号について，前記複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い，これにより得られる中間処理後信号を出力する中間処理実行工程と，
前記特定ＳＩＭＯ信号における一の信号について，前記複数に区分された周波数成分ごとに，前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較してその比較結果が所定条件を満たす場合にその周波数成分の信号を除去する処理を行い，これにより得られる信号を前記音源信号に対応する前記分離信号として生成する目的外信号成分除去工程と，
を実行してなることを特徴とする音源分離方法。