JP2011176535A

JP2011176535A - 信号処理装置

Info

Publication number: JP2011176535A
Application number: JP2010038295A
Authority: JP
Inventors: Kazunobu Kondo; 多伸近藤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-02-24
Filing date: 2010-02-24
Publication date: 2011-09-08
Anticipated expiration: 2030-02-24
Also published as: JP5387442B2

Abstract

【課題】分離行列の生成に必要な演算量の削減と音源分離の高精度化とを両立する。
【解決手段】信号分離部２４は、音響ＳV1，ＳV2の混合音を収音機器Ｍ1，Ｍ2で収音した観測信号Ｖ1(t)，Ｖ2(t)に分離行列Ｗ(fk)を適用して分離信号Ｙ1(t)，Ｙ2(t)を生成する。周波数選別部４４は、周波数ｆkを第１周波数ｆAと第２周波数ｆBとに選別する。第１学習部５４は、第１周波数ｆAの学習データＤ(fk)を利用した１次学習処理で第１周波数ｆAの分離行列ＷA(fk)を生成する。方向推定部６２は、分離行列ＷA(fk)から各音源の方向θ1，θ2を推定する。初期行列設定部５２は、方向θ1，θ2に収音の死角が形成されるように初期分離行列ＷB^[0](fk)を生成する。第２学習部６６は、第２周波数ｆBの学習データＤ(fk)を適用した２次学習処理を、初期分離行列ＷB^[0](fk)を初期値として１次学習処理よりも少ない反復回数で実行して第２周波数ｆBの分離行列ＷB(fk)を生成する。
【選択図】図１

Description

本発明は、相異なる音源が発生した複数の音響の混合音のうち特定の音源からの音響を強調（分離または抽出）する技術に関する。

複数の音響（音声や雑音）の混合音を複数の収音機器で収音した複数の観測信号に音源分離を実行することで各音源からの音響を分離する技術（音源分離技術）が従来から提案されている。音源分離に適用される分離行列（逆混合行列）は、例えば周波数領域の独立成分分析（FDICA：Frequency-Domain Independent Component Analysis））を利用した学習処理（反復的な更新）で周波数毎に算定される。

非特許文献１には、複数の周波数から所定個毎に選択した各周波数について学習処理で分離行列を生成し、学習処理後の分離行列を利用して非選択の各周波数の分離行列を補充する技術が開示されている。非選択の周波数の分離行列の生成には死角制御型のビーム形成（NBF（Null Beam Former））が利用される。すなわち、学習処理後の分離行列から推定される音源方向に収音の死角が形成されるように非選択の周波数の分離行列が設定される。非特許文献１の技術によれば、独立成分分析による学習処理を当初から全部の周波数について実行する場合と比較して演算量を削減することが可能である。

大迫ほか３名，"死角制御型ビームフォーマによる周波数帯域補間を用いたブラインド音源分離の高速化手法"，日本音響学会講演論文集，日本音響学会，2007年3月，p.549-p.550

しかし、非特許文献１のように死角制御型のビーム形成で生成された分離行列を非選択の周波数の分離行列として利用する構成では、非選択の周波数について音源分離の精度を充分に確保できない可能性がある。以上の事情を考慮して、本発明は、分離行列の生成に必要な演算量の削減と音源分離の高精度化との両立を目的とする。

以上の課題を解決するために、本発明の信号処理装置は、相異なる音源が発生した複数の音響の混合音を複数の収音機器で収音した複数の観測信号に対して複数の周波数の各々の分離行列を適用することで音源毎の複数の分離信号を生成する信号分離手段と、複数の周波数を第１周波数と第２周波数とに選別する周波数選別手段と、複数の観測信号における第１周波数の成分に対応する学習データを適用した１次学習処理で当該第１周波数の分離行列を生成する第１学習手段と、第１学習手段が生成した分離行列から各音源の方向を推定する方向推定手段と、方向推定手段が推定した方向に収音の死角またはビームが形成されるように初期分離行列を生成する初期行列設定手段と、複数の観測信号における第２周波数の成分に対応する学習データを適用した２次学習処理を、初期行列設定手段が生成した初期分離行列を初期値として、１次学習処理よりも少ない反復回数で実行することで、当該第２周波数の分離行列を生成する第２学習手段とを具備する。

以上の構成においては、第１周波数に選別された各周波数については１次学習処理で分離行列が生成され、第２周波数に選別された各周波数については、１次学習処理で生成された分離行列に応じた初期分離行列を初期値として、１次学習処理よりも少ない反復回数の２次学習処理を実行することで分離行列が生成される。したがって、全部の周波数について１次学習処理を実行する場合と比較して演算量が削減されるという利点がある。また、１次学習処理で生成された分離行列から推定される音源の方向に収音の死角またはビームが形成されるように設定された分離行列を第２周波数について適用する構成（２次学習処理を実行しない構成）と比較して、高精度な音源分離が可能な分離行列を生成できるという利点もある。

ところで、収音条件が劣悪な環境では、第２周波数について２次学習処理を実行しないほうが高精度な分離行列を生成できる場合がある。以上の傾向を考慮して、本発明の好適な態様に係る信号処理装置は、収音条件の良否を周波数毎に判定する条件判定手段を具備し、第２学習手段は、収音条件が良いと条件判定手段が判定した周波数については、初期分離行列を初期値とした第２学習処理で分離行列を生成し、収音条件が悪いと条件判定手段が判定した周波数については、初期分離行列を分離行列として採用する。以上の態様においては、収音条件が悪い周波数については２次学習処理が実行されないから、第２周波数に選別された全部の周波数について収音条件に関わらず２次学習処理を実行する構成と比較すると、高精度な分離行列を生成することが可能となる。なお、以上の態様の具体例は例えば第２実施形態として後述される。

また、観測信号のうち第２周波数に選別された周波数の成分に１個の音源の音響のみが含まれる場合には、音源分離の前後で当該周波数の成分が過度に変化しないように分離行列を設定する構成が好適である。そこで、収音条件の良否（音源数の単数／複数）を周波数毎に判定する条件判定手段と、第２周波数に選別された各周波数のうち収音条件が悪いと条件判定手段が判定した周波数について、複数の観測信号から推定される音源方向からの到来音が強調されるように分離行列を設定する行列設定手段（例えば図１４の行列設定部７６）とを具備する構成が採用され得る。以上の態様では、分離行列の生成に必要な演算量を削減するという観点から、第２周波数に選別された各周波数のうち収音条件が悪いと条件判定手段が判定した周波数について、初期行列設定手段による初期分離行列の生成と第２学習手段による２次学習処理とを停止する構成が格別に好適である。なお、以上の態様の具体例は例えば第３実施形態として後述される。

本発明の好適な態様に係る信号処理装置は、各周波数の学習データを適用した学習処理の有意性を示す有意指標値を複数の観測信号から周波数毎に算定する有意指標算定手段を具備し、周波数選別手段は、各周波数の有意指標値に応じて複数の周波数を第１周波数と第２周波数とに選別する。以上の態様においては、学習処理の有意性を示す有意指標値に応じて複数の周波数が第１周波数と第２周波数とに選別されるから、第１周波数および第２周波数の選別を学習処理の有意性とは無関係に実行する構成（例えば複数の周波数の配列から所定個毎に選択した周波数を第１周波数に選別するとともに残余の周波数を第２周波数に選別する構成）と比較して、高精度な分離行列を生成することが可能である。具体的には、条件判定手段は、相異なる音源が発生した複数の音響の強度の相違が大きい場合に収音条件が悪いと判定し、各音響の強度の相違が小さい場合に収音条件が良いと判定する。

なお、有意指標算定手段を具備する態様では、有意指標算定手段が算定した各周波数の有意指標値に応じて条件判定手段が周波数毎の収音条件の良否を判定する構成が格別に好適である。以上の態様においては、収音条件の良否の指標を有意指標値とは別個に算定する構成と比較して、分離行列の生成に必要な演算量を削減できるという利点がある。具体的には、複数の観測信号の各々における各周波数での強度を要素とする観測ベクトルの共分散行列の行列式は、学習処理の有意性を示す指標として利用され、かつ、相異なる音源が発生した複数の音響の強度の相違（収音条件の良否）に応じて変化する。そこで、観測ベクトルの共分散行列の行列式を、周波数の選別と収音条件の良否の判定とに流用する構成が好適である。

なお、独立成分分析による学習処理は、独立な基底を音源の個数だけ特定する処理と等価であるから、複数の観測信号の各々における各周波数での強度を要素とする観測ベクトルの基底の総数は、学習データを利用した学習の有意性の指標として好適に利用される。そこで、本発明の好適な態様における有意指標算定手段は、複数の観測信号の各々における各周波数での強度を要素とする観測ベクトルの分布における基底の総数の指標値を算定し、周波数選別手段は、指標値が示す基底の総数が多い周波数を第１周波数に選別する。

基底の総数の指標値としては、例えば、観測ベクトルの共分散行列の行列式や条件数が例示される。したがって、本発明の好適な態様における有意指標算定手段は、複数の観測信号における各周波数の成分の強度を要素とする観測ベクトルの共分散行列を複数の周波数の各々について算定する共分散行列算定手段と、各周波数の共分散行列から有意指標値を算定する指標算定手段（例えば図６の行列式算定部４２４）とを含んで構成される。指標算定手段は、例えば共分散行列の行列式や条件数に応じて有意指標値を算定する。また、観測ベクトルの共分散行列のトレース（パワー）が大きいほど観測ベクトルの分布領域（基底）が音源毎に明確に特定されるという傾向を考慮すると、複数の観測信号の共分散行列のトレースから有意指標算定手段が有意指標値を算定する構成も好適である。

なお、有意指標値の定義や算定の方法は任意である。例えば、観測信号の強度の度数分布における尖度が低いほど観測信号が多くの音源からの音を含むという傾向を考慮すると、観測信号の強度の度数分布における尖度に応じた有意指標値を有意指標算定手段が算定し、尖度が低い周波数を周波数選別手段が第１周波数に選別する構成が好適である。また、複数の観測信号の相互間の独立性が高い（相関が低い）ほど、学習データを利用した学習の有意性は高いという傾向を考慮すると、複数の観測信号の相互間の独立性に応じた有意指標値を有意指標算定手段が算定し、有意指標値が示す独立性が高い周波数を周波数選別手段が第１周波数に選別する構成が好適である。複数の観測信号の相互間の独立性の指標値としては、例えば、相互相関や相互情報量が例示される。

以上の各態様に係る信号処理装置は、音声の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、相異なる音源が発生した複数の音響の混合音を複数の収音機器で収音した複数の観測信号に対して複数の周波数の各々の分離行列を適用することで音源毎の複数の分離信号を生成する信号分離処理と、複数の周波数を第１周波数と第２周波数とに選別する周波数選別処理と、複数の観測信号における第１周波数の成分に対応する学習データを適用した１次学習処理で当該第１周波数の分離行列を生成する第１処理と、第１処理で生成した分離行列から各音源の方向を推定する方向推定処理と、方向推定処理で推定した方向に収音の死角またはビームが形成されるように初期分離行列を生成する初期行列設定処理と、複数の観測信号における第２周波数の成分に対応する学習データを適用した２次学習処理を、初期行列設定手段が生成した初期分離行列を初期値として、１次学習処理よりも少ない反復回数で実行することで、当該第２周波数の分離行列を生成する第２処理とをコンピュータに実行される。以上のプログラムによれば、本発明に係る信号処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

第１実施形態に係る信号処理装置のブロック図である。観測ベクトルおよび学習データの説明図である。信号分離部のブロック図である。分離行列生成部のブロック図である。分離行列生成部の動作の説明図である。有意指標算定部のブロック図である。観測ベクトルの共分散行列の行列式と基底数との関係を示す概念図である。第１周波数の個数と学習処理の反復回数との関係を示すグラフである。第１周波数の個数と雑音抑圧率との関係を示すグラフである。第１周波数の個数とケプストラム歪との関係を示すグラフである。第１周波数の個数と雑音抑圧率との関係を示すグラフである。第１周波数の個数とケプストラム歪との関係を示すグラフである。第２実施形態における分離行列生成部のブロック図である。第３実施形態における分離行列生成部のブロック図である。共分散行列のトレースと観測ベクトルの分布範囲との関係を示す概念図である。補正前尖度と加重値との関係を示すグラフである。

＜Ａ：第１実施形態＞
図１は、第１実施形態に係る信号処理装置１００のブロック図である。相互に間隔をあけて平面ＰL内に配置された収音機器Ｍ1および収音機器Ｍ2が信号処理装置１００に接続される。収音機器Ｍ1および収音機器Ｍ2の周辺の相異なる位置には音源Ｓ1および音源Ｓ2が存在する。音源Ｓ1は、平面ＰLの法線Ｌnに対して角度θ1の方向に位置し、音源Ｓ2は、法線Ｌnに対して角度θ2（θ2≠θ1）の方向に位置する。角度θ1および角度θ2は未知である。なお、収音機器Ｍ（Ｍ1，Ｍ2）の個数や音源Ｓ（Ｓ1，Ｓ2）の個数は任意に変更され得る。

音源Ｓ1が発生した音響ＳV1と音源Ｓ2が発生した音響ＳV2との混合音が収音機器Ｍ1および収音機器Ｍ2に到達する。収音機器Ｍ1は観測信号Ｖ1(t)を生成し、収音機器Ｍ2は観測信号Ｖ2(t)を生成する。観測信号Ｖ1(t)および観測信号Ｖ2(t)の各々は、音響ＳV1と音響ＳV2との混合音の時間波形を表す音響信号である。

信号処理装置１００は、観測信号Ｖ1(t)および観測信号Ｖ2(t)に対する音源分離（フィルタ処理）で分離信号Ｙ1(t)および分離信号Ｙ2(t)を生成する。分離信号Ｙ1(t)は、音源Ｓ1からの音響ＳV1を強調（音源Ｓ2からの音響ＳV2を抑制）した音響信号であり、分離信号Ｙ2(t)は、音響ＳV2を強調（音響ＳV1を抑制）した音響信号である。すなわち、音響ＳV1と音響ＳV2とが分離（音源分離）される。

分離信号Ｙ1(t)および分離信号Ｙ2(t)は、スピーカやヘッドホン等の放音機器（図示略）に供給されることで音響として再生される。なお、分離信号Ｙ1(t)および分離信号Ｙ2(t)の一方のみを再生する構成（例えば分離信号Ｙ2(t)を雑音として破棄する構成）も採用される。なお、観測信号Ｖ1(t)および観測信号Ｖ2(t)をアナログからデジタルに変換するＡ/Ｄ変換器や、分離信号Ｙ1(t)および分離信号Ｙ2(t)をデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略されている。

図１に示すように、信号処理装置１００は、演算処理装置１２と記憶装置１４とを含むコンピュータシステムで実現される。記憶装置１４は、観測信号Ｖ1(t)および観測信号Ｖ2(t)から分離信号Ｙ1(t)および分離信号Ｙ2(t)を生成するためのプログラムや各種のデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体や複数種の記録媒体の組合せが記憶装置１４として任意に採用される。

演算処理装置１２は、記憶装置１４に格納されたプログラムを実行することで複数の要素（周波数分析部２２，信号分離部２４，信号合成部２６，分離行列生成部２８）として機能する。なお、音源分離に専用される電子回路（ＤＳＰ）が図１の各要素を実現する構成や、図１の各要素を複数の集積回路に分散した構成も採用され得る。

周波数分析部２２は、観測信号Ｖ1(t)の周波数スペクトル（複素スペクトル）Ｑ1と観測信号Ｖ2(t)の周波数スペクトル（複素スペクトル）Ｑ2とを、時間軸上の複数のフレームの各々について生成する。図２に示すように、周波数スペクトルＱ1は、周波数軸上に設定されたＫ個の周波数（実際には周波数帯域）ｆ1〜ｆKの各々における成分値ｘ1(m,f1)〜ｘ1(m,fK)の系列である。同様に、周波数スペクトルＱ2は、Ｋ個の周波数ｆ1〜ｆKの各々における成分値ｘ2(m,f1)〜ｘ2(m,fK)の系列である。記号ｍは、フレームの番号（時間軸上に離散的に設定された各時点）を意味する。周波数スペクトルＱ1および周波数スペクトルＱ2の算定には公知の技術（例えば短時間フーリエ変換）が任意に採用される。

周波数分析部２２が生成した周波数スペクトルＱ1および周波数スペクトルＱ2は図１の信号分離部２４に供給される。信号分離部２４は、観測信号Ｖ1(t)における周波数ｆk（ｋ＝１〜Ｋ）の成分（成分値ｘ1(m,fk)）と観測信号Ｖ2(t)における周波数ｆkの成分（成分値ｘ2(m,fk)）とに対する音源分離をＫ個の周波数ｆ1〜ｆKの各々について個別に実行することで分離信号Ｙ1(t)の周波数スペクトルＲ1と分離信号Ｙ2(t)の周波数スペクトルＲ2とを生成する。周波数スペクトルＲ1は成分値ｙ1(m,f1)〜ｙ1(m,fK)の系列であり、周波数スペクトルＲ2は成分値ｙ2(m,f1)〜ｙ2(m,fK)の系列である。

図３は、信号分離部２４のブロック図である。図３に示すように、信号分離部２４は、相異なる周波数ｆk（ｆ1〜ｆK）に対応するＫ個の処理部Ｐ1〜ＰKで構成される。周波数ｆkの処理部Ｐkは、成分値ｘ1(m,fk)および成分値ｘ2(m,fk)から分離信号Ｙ1(t)の成分値ｙ1(m,fk)を生成するフィルタ３２と、成分値ｘ1(m,fk)および成分値ｘ2(m,fk)から分離信号Ｙ2(t)の成分値ｙ2(m,fk)を生成するフィルタ３４とを含んで構成される。

フィルタ３２およびフィルタ３４は、遅延加算型（ＤＳ（delay-sum）型）のビーム形成を実行する。すなわち、処理部Ｐkのフィルタ３２は、以下の数式(1A)で定義されるように、係数ｗ11(fk)に応じた遅延を成分値ｘ1(m,fk)に付加する遅延素子３２１と、係数ｗ12(fk)に応じた遅延を成分値ｘ2(m,fk)に付加する遅延素子３２３と、遅延素子３２１および遅延素子３２３の各出力の加算で成分値ｙ1(m,fk)を生成する加算部３２５とを含んで構成される。同様に、フィルタ３４は、以下の数式(1B)で定義されるように、係数ｗ21(fk)に応じた遅延を成分値ｘ1(m,fk)に付加する遅延素子３４１と、係数ｗ22(fk)に応じた遅延を成分値ｘ2(m,fk)に付加する遅延素子３４３と、遅延素子３４１および遅延素子３４３の各出力の加算で成分値ｙ2(m,fk)を生成する加算部３４５とを含む。なお、死角制御型（null）のビーム形成も処理部Ｐkに適用され得る。
ｙ1(m,fk)＝ｗ11(fk)・ｘ1(m,fk)＋ｗ12(fk)・ｘ2(m,fk) ……(1A)
ｙ2(m,fk)＝ｗ21(fk)・ｘ1(m,fk)＋ｗ22(fk)・ｘ2(m,fk) ……(1B)

図１の信号合成部２６は、信号分離部２４がフレーム毎に生成した周波数スペクトルＲ1（ｙ1(m,f1)〜ｙ1(m,fK)）の逆フーリエ変換で時間領域の音響信号を生成するとともに前後のフレームを相互に連結することで分離信号Ｙ1(t)を生成する。同様に、信号合成部２６は、信号分離部２４が生成した周波数スペクトルＲ2（ｙ2(m,f1)〜ｙ2(m,fK)）から時間領域の分離信号Ｙ2(t)を生成する。

図１に示すように、周波数分析部２２が生成した周波数スペクトルＱ1および周波数スペクトルＱ2は、信号分離部２４に供給されるとともに観測ベクトルＸ(m,f1)〜Ｘ(m,fK)として記憶装置１４に格納される。観測ベクトルＸ(m,fk)は、図２に示すように、成分値ｘ1(m,fk)と成分値ｘ2(m,fk)とを要素とするベクトル（Ｘ(m,fk)＝（ｘ1(m,fk)，ｘ2(m,fk)）^Ｔ）である。記号Ｔは行列の転置を意味する。記憶装置１４に格納された観測ベクトルＸ(m,f1)〜Ｘ(m,fK)は、図２に示すように、所定個（例えば50個）のフレームで構成される単位区間ＴU毎に学習データＤ(f1)〜Ｄ(fK)に区分される。すなわち、学習データＤ(fk)は、単位区間ＴU内の各フレームについて算定された周波数ｆkの観測ベクトルＸ(m,fk)の時系列である。

図１および図３の分離行列生成部２８は、信号分離部２４が音源分離に適用する分離行列Ｗ(f1)〜Ｗ(fK)を生成する。周波数ｆkの分離行列Ｗ(fk)は、図３に示すように、処理部Ｐkのフィルタ３２に適用される係数ｗ11(fk)および係数ｗ12(fk)とフィルタ３４に適用される係数ｗ21(fk)および係数ｗ22(fk)とを要素とする２行２列の行列である。分離行列Ｗ(fk)は、記憶装置１４の学習データＤ(fk)を利用した学習処理（反復的な更新）で単位区間ＴU毎に順次に生成される。図４は、分離行列生成部２８のブロック図であり、図５は、分離行列生成部２８の動作の説明図である。図４に示すように、分離行列生成部２８は、有意指標算定部４２と周波数選別部４４と第１処理部５０と第２処理部６０とを含んで構成される。

有意指標算定部４２は、周波数ｆkの学習データＤ(fk)を適用した学習処理の有意性の尺度となる有意指標値Ｚ(fk)（Ｚ(f1)〜Ｚ(fK)）をＫ個の周波数ｆ1〜ｆKの各々について算定する。有意指標値Ｚ(fk)は、学習データＤ(fk)を利用した学習処理の結果として分離行列Ｗ(fk)による音源分離の精度が向上する度合を示す数値に相当する。周波数選別部４４は、図５に示すように、Ｋ個の周波数ｆ1〜ｆKの各々を有意指標値Ｚ(fk)に応じて第１周波数ｆAと第２周波数ｆBとに選別（分類）する。第１周波数ｆAは、学習データＤ(fk)を適用した学習処理の有意性が第２周波数ｆBと比較して高い周波数である。

第１実施形態の有意指標算定部４２は、学習データＤ(fk)（観測ベクトルＸ(m,fk)）の共分散行列Ｒxx(fk)の行列式ｚ1(fk)を有意指標値Ｚ(fk)として周波数ｆk毎に算定する要素であり、図６に示すように共分散行列算定部４２２と行列式算定部４２４とを含んで構成される。

共分散行列算定部４２２は、Ｋ個の周波数ｆ1〜ｆKの各々について学習データＤ(fk)の共分散行列Ｒxx(fk)（Ｒxx(f1)〜Ｒxx(fK)）を算定する。周波数ｆkの共分散行列Ｒxx(fk)は、学習データＤ(fk)内の複数の観測ベクトルＸ(m,fk)の共分散を要素とする行列である。すなわち、共分散行列Ｒxx(fk)は、例えば以下の数式(2)で算定される。
Ｒxx(fk)＝Ｅ［Ｘ(m,fk)Ｘ(m,fk)^H］ ……(2)
記号Ｈは行列の転置（共役転置）を意味し、記号Ｅ[ ]は、単位区間ＴU内の複数のフレーム（学習データＤ(fk)の全体）にわたる平均値または加算値を意味する。すなわち、共分散行列Ｒxx(fk)は、単位区間ＴU毎（学習データＤ(fk)毎）に生成される２行２列の正方行列である。

図６の行列式算定部４２４は、共分散行列算定部４２２が算定したＫ個の共分散行列Ｒxx(f1)〜Ｒxx(fK)の各々について行列式ｚ1(fk)（ｚ1(f1)〜ｚ1(fK)）を算定する。行列式ｚ1(fk)の算定には公知の方法が任意に採用されるが、例えば共分散行列Ｒxx(fk)の特異値分解を利用した以下の方法が好適である。なお、以下では便宜的に共分散行列Ｒxx(fk)をＪ行Ｊ列（本実施形態ではＪ＝２）と一般化する。

共分散行列Ｒxx(fk)は以下の数式(3)のように特異値分解される。数式(3)における行列Ｆは、２行２列の直交行列であり、行列Ｄは、対角成分（ｄ1，……，ｄJ）以外の要素がゼロとなるＪ行Ｊ列の特異値行列（対角行列）である。
Ｒxx(fk)＝ＦＤＦ^H ……(3)

数式(3)の特異値分解を考慮すると、共分散行列Ｒxx(fk)の行列式ｚ1(fk)は、以下の数式(4)で表現される。数式(4)の導出には、行列Ｆの共役転置行列Ｆ^Hと行列Ｆとの積がＪ次の単位行列であるという関係（Ｆ^HＦ＝Ｉ）や、行列ＡＢの行列式det(ＡＢ)が行列ＢＡの行列式det(ＢＡ)に等しいという関係を利用した。
ｚ1(fk)＝det(Ｒxx(fk))
＝det(ＦＤＦ^H)
＝det(Ｄ)
＝ｄ1・ｄ2・……・ｄJ ……(4)

数式(4)から理解されるように、共分散行列Ｒxx(fk)の行列式ｚ1(fk)は、共分散行列Ｒxx(fk)の特異値分解で特定される特異値行列ＤのＪ個の対角成分（ｄ1，……，ｄJ）の乗算値に相当する。図６の行列式算定部４２４は、Ｋ個の周波数ｆ1〜ｆKの各々について数式(4)の演算を実行することで行列式ｚ1(f1)〜ｚ1(fK)を算定する。

図７は、単位区間ＴU内の各観測ベクトルＸ(m,fk)の散布図である。横軸は成分値ｘ1(m,fk)を意味し、縦軸は成分値ｘ2(m,fk)を意味する。図７の部分(A)は、行列式ｚ1(fk)が大きい場合の散布図であり、図７の部分(B)は、行列式ｚ1(fk)が小さい場合の散布図である。図７の部分(A)のように、行列式ｚ1(fk)が大きい場合には、観測ベクトルＸ(m,fk)の分布する領域の軸線（基底）が音源Ｓ毎に明確に区別される。具体的には、音源Ｓ1からの音響ＳV1が優勢な観測ベクトルＸ(m,fk)が軸線α1に沿って分布する領域Ａ1と、音源Ｓ2からの音響ＳV2が優勢な観測ベクトルＸ(m,fk)が軸線α2に沿って分布する領域Ａ2とが明確に区別される。他方、行列式ｚ1(fk)が小さい場合、散布図で明確に区別できる観測ベクトルＸ(m,fk)の分布の領域の個数（軸線の本数）が実際の音源Ｓの総数を下回る。例えば、図７の部分(B)のように、音源Ｓ2からの音響ＳV2に対応する明確な領域Ａ2（軸線α2）が存在しない。

以上の傾向から理解されるように、共分散行列Ｒxx(fk)の行列式ｚ1(fk)は、学習データＤ(fk)を構成する各観測ベクトルＸ(m,fk)の分布における基底（観測ベクトルＸ(m,fk)が分布する領域の軸線）の総数の指標として機能する。すなわち、行列式ｚ1(fk)が大きい周波数ｆkほど基底が多いという傾向がある。行列式ｚ1(fk)がゼロとなる周波数ｆkには独立な基底が１個しか含まれない。分離行列Ｗ(fk)の学習処理に適用される独立成分分析は、独立な基底を音源Ｓの個数だけ特定する処理と等価であるから、Ｋ個の周波数ｆ1〜ｆKのうち共分散行列Ｒxx(fk)の行列式ｚ1(fk)が小さい周波数ｆkの学習データＤ(fk)については学習の有意性（学習処理の前後で音源分離の精度が向上する度合）が低いと言える。

行列式ｚ1(fk)の以上の性質を利用して、図４の周波数選別部４４は、Ｋ個の周波数ｆ1〜ｆKのうち行列式ｚ1(fk)が大きい１以上の周波数ｆkを第１周波数ｆAに選別し、行列式ｚ1(fk)が小さい残余の周波数ｆkを第２周波数ｆBに選別する。具体的には、周波数選別部４４は、Ｋ個の周波数ｆ1〜ｆKのうち行列式ｚ1(f1)〜ｚ1(fK)の降順で上位に位置する所定個の周波数ｆkや、Ｋ個の周波数ｆ1〜ｆKのうち行列式ｚ1(fk)が所定の閾値を上回る１個以上の周波数ｆkを第１周波数ｆAに選別し、第１周波数ｆA以外の周波数ｆkを第２周波数ｆBに選別する。周波数選別部４４による第１周波数ｆA／第２周波数ｆBの選別は、例えば単位区間ＴU毎に順次に実行される。

図４の第１処理部５０および第２処理部６０は、信号分離部２４で使用される分離行列Ｗ(fk)（Ｗ(f1)〜Ｗ(fK)）を周波数ｆk毎に生成する。第１処理部５０は、周波数選別部４４が第１周波数ｆAに選別した各周波数ｆkについて分離行列Ｗ(fk)（以下では特に「分離行列ＷA(fk)」と表記する場合がある）を生成し、第２処理部６０は、周波数選別部４４が第２周波数ｆBに選別した各周波数ｆkについて分離行列Ｗ(fk)（以下では特に「分離行列ＷB(fk)」と表記する場合がある）を生成する。

図４に示すように、第１処理部５０は、初期行列設定部５２と第１学習部５４と補正処理部５６とを含んで構成される。初期行列設定部５２は、分離行列ＷA(fk)を生成する学習処理の初期値（以下「初期分離行列」という）ＷA^[0](fk)を設定する。初期分離行列ＷA^[0](fk)の設定の方法は任意であるが、例えば単位行列が初期分離行列ＷA^[0](fk)として設定され得る。以上のように観測ベクトルＸ(m,fk)とは無関係に初期分離行列ＷA^[0](fk)を設定する構成によれば、音源Ｓ1や音源Ｓ2に関する事前情報が不要であるという利点がある。

図４の第１学習部５４は、図５に示すように、初期行列設定部５２が設定した初期分離行列ＷA^[0](fk)を初期値とした逐次的な更新（以下「１次学習処理」という）で、第１周波数ｆAに選別された各周波数ｆkの分離行列ＷA(fk)を生成する。第１学習部５４による１次学習処理には公知の技術が任意に採用され得るが、例えば、第(n+1)回目の更新後の分離行列Ｗ^[n+1](fk)を直前の分離行列Ｗ^[n](fk)（分離行列Ｗ^[1](fk)の算定時には初期分離行列ＷA^[0](fk)）から算定する数式(5)の演算が好適である。
Ｗ^[n+1](fk)＝Ｗ^[n](fk)−η｛off-diag(Ｅ[φ(m,fk)Ｙ^[n](m,fk)^H]Ｗ^[n](fk) ……(5)

数式(5)の記号ηは所定の定数（ステップサイズ）であり、記号off-diag( )は、対角成分をゼロに置換する演算子である。また、記号φ( )は非線形関数を意味する。例えば双曲線正接関数（tanh：ハイパボリックタンジェント）が非線形関数φ( )として適用され得る。数式(5)の記号Ｙ^[n](m,fk)は、直前の分離行列Ｗ^[n-1](m,fk)を適用した数式(1A)および数式(1B)の演算で算定される成分値ｙ1(m,fk)と成分値ｙ2(m,fk)とを要素とするベクトル（Ｙ^[n](m,fk)＝（ｙ1(m,fk),ｙ2(m,fk)）^T）である。第１学習部５４は、数式(5)の演算をＮA回だけ反復した時点の分離行列Ｗ^[NA](fk)を分離行列ＷA(fk)として確定する。ただし、第１学習部５４は、数式(5)で算定される分離行列Ｗ^[n+1](fk)が収束したと判定される場合には反復がＮA回に到達する以前に１次学習処理を終了し、その時点での分離行列Ｗ^[n+1](fk)を分離行列ＷA(fk)として確定する。

ところで、独立成分分析（１次学習処理）で算定される分離行列ＷA(fk)には、音源分離の実行後の各信号の振幅が不定であるという問題（scaling問題）と、音源分離後の各信号と各音源との組合せが周波数ｆk毎に変化し得るという問題（permutation問題）とがある。図４の補正処理部５６は、第１周波数ｆAに選別された各周波数ｆkについて第１学習部５４が生成した各分離行列ＷA(fk)をscaling問題とpermutation問題とが解決されるように補正する。

以上のscaling問題およびpermutation問題の解決には公知の技術が任意に採用される。例えば、分離行列ＷA(fk)の逆行列の対角成分で構成される対角行列を分離行列ＷA(fk)に乗算することでscaling問題が解決され、分離行列ＷA(fk)から推定される各音源の方向が整合するように分離行列ＷA(fk)の各行を相互に置換することでpermutation問題が解決される。補正処理部５６による補正後の各分離行列ＷA(fk)が、信号分離部２４のＫ個の処理部Ｐ1〜ＰKのうち第１周波数ｆAに選別された各周波数ｆkの処理部Ｐkにて適用される。scaling問題やpermutation問題の解決については、猿渡ほか５名，“Blind Source Separation Combininb Independent Component Analysis and Beamforming"，EURASIP Journal on Applied Signal Processing Vol.2003, No.11, p.1135-1146, 2003（以下「非特許文献２」という）にも詳述されている。

図４の第２処理部６０は、周波数選別部４４が第２周波数ｆBに選別した各周波数ｆkの分離行列ＷB(fk)を、第１処理部５０が生成した分離行列ＷA(fk)を利用して生成する。図４に示すように、第２処理部６０は、方向推定部６２と初期行列設定部６４と第２学習部６６とを含んで構成される。

方向推定部６２は、第１処理部５０が生成した各分離行列ＷA(fk)から音源Ｓ1の方向θ1と音源Ｓ2の方向θ2とを推定する。方向θ1および方向θ2の推定には公知の技術（例えば非特許文献２に開示された方法）が任意に採用されるが、例えば以下の方法が好適である。第１に、方向推定部６２は、図５に示すように、第１周波数ｆAに選別された周波数ｆk毎に方向θ1(fk)と方向θ2(fk)とを分離行列ＷA(fk)から推定する。例えば、分離行列ＷA(fk)の係数ｗ11(fk)と係数ｗ12(fk)とから方向θ1(fk)が特定され、係数ｗ21(fk)と係数ｗ22(fk)とから方向θ2(fk)が特定される。第２に、方向推定部６２は、図５に示すように、各周波数ｆk（第１周波数ｆA）の方向θ1(fk)および方向θ2(fk)から音源Ｓ1の方向θ1と音源Ｓ2の方向θ2とを算定する。例えば、各方向θ1(fk)の代表値（平均値や中央値）が方向θ1として特定され、各方向θ2(fk)の代表値が方向θ2として特定される。

図４の初期行列設定部６４は、図５に示すように、方向推定部６２が推定した方向θ1および方向θ2に応じて分離行列ＷB(fk)の初期分離行列ＷB^[0](fk)を設定する。初期分離行列ＷB^[0](fk)の生成には、例えば非特許文献２に開示された死角制御型のビーム形成が適用される。具体的には、初期行列設定部６４は、方向推定部６２が推定した方向θ2に収音の死角（収音感度が低い領域）が形成されるように算定された係数ｗ11(fk)および係数ｗ12(fk)と、方向推定部６２が推定した方向θ1に収音の死角が形成されるように算定された係数ｗ21(fk)および係数ｗ22(fk)とを要素とする初期分離行列ＷB^[0](fk)を生成する。初期分離行列ＷB^[0](fk)は、周波数選別部４４が第２周波数ｆBに選別した周波数ｆk毎に個別に生成される。

なお、以上の例示では死角制御型のビーム形成で初期分離行列ＷB^[0](fk)を生成したが、初期分離行列ＷB^[0](fk)の生成には、収音感度が高い領域（ビーム）を生成するビーム形成（例えば遅延加算型のビーム形成）も採用され得る。すなわち、方向θ1に収音のビームが指向するように初期分離行列ＷB^[0](fk)の係数ｗ11(fk)および係数ｗ12(fk)が設定され、方向θ2に収音のビームが指向するように初期分離行列ＷB^[0](fk)の係数ｗ21(fk)および係数ｗ22(fk)が設定される。

図４の第２学習部６６は、図５に示すように、初期行列設定部６４が設定した初期分離行列ＷB^[0](fk)を初期値とした逐次的な更新（以下「２次学習処理」という）で、第２周波数ｆBに選別された各周波数ｆkの分離行列ＷB(fk)を生成する。２次学習処理には公知の技術が任意に採用され得るが、１次学習処理と同様に、数式(5)の演算が好適に採用される。すなわち、第２学習部６６は、初期行列設定部６４が設定した初期分離行列ＷB^[0](fk)を初期値とし、第２周波数ｆBに選別された各周波数ｆkの学習データＤ(fk)から数式(1A)および数式(1B)で算定されるベクトルＹ^[n](m,fk)を利用して数式(5)の演算を反復する。

第２学習部６６による数式(5)の反復回数ＮBは、第１学習部５４の反復回数ＮAを下回るように設定される（ＮB＜ＮA）。第２学習部６６は、数式(5)の演算をＮB回だけ反復した時点の分離行列Ｗ^[NB](fk)を第２周波数ｆBの分離行列ＷB(fk)として算定する。第１学習部５４と同様に、第２学習部６６は、分離行列Ｗ^[n+1](fk)が収束した場合には反復がＮB回に到達する以前に２次学習処理を終了し、その時点での分離行列Ｗ^[n+1](fk)を分離行列ＷB(fk)として確定する。以上の２次学習処理で生成された分離行列ＷB(fk)が、信号分離部２４のＫ個の処理部Ｐ1〜ＰKのうち第２周波数ｆBに選別された各周波数ｆkの処理部Ｐkにて適用される。なお、１次学習処理と２次学習処理とで演算の内容を相違させた構成も採用され得る。

方向θ1と方向θ2とに応じた初期分離行列ＷB^[0](fk)から算定される分離行列ＷB(fk)には、事前情報を適用せずに生成される分離行列ＷA(fk)と比較すると、前述のscaling問題やpermutation問題は発生し難い。そこで、第２学習部６６が生成した分離行列ＷB(fk)には、scaling問題やpermutation問題を解決するための補正は実行されない。もっとも、第２学習部６６が生成した分離行列ＷB(fk)を補正処理部５６が補正する構成も採用され得る。

以上に説明したように、本実施形態では、第１周波数ｆAに選別された各周波数ｆkについては反復回数ＮAの１次学習処理で分離行列ＷA(fk)が生成され、第２周波数ｆBに選別された各周波数ｆkについては、分離行列ＷA(fk)に応じて生成された初期分離行列ＷB^[0](fk)を初期値とした反復回数ＮB（ＮB＜ＮA）の２次学習処理で分離行列ＷB(fk)が生成される。したがって、Ｋ個の周波数ｆ1〜ｆKの全部について数式(5)の演算をＮA回だけ反復する構成と比較して、演算処理装置１２（分離行列生成部２８）の演算量が削減されるという利点がある。また、分離行列ＷA(fk)から生成される初期分離行列ＷB^[0](fk)を初期値とした２次学習処理で第２周波数ｆBの分離行列ＷB(fk)が生成されるから、初期分離行列ＷB^[0](fk)を分離行列ＷB(fk)として音源分離に利用する特許文献１の構成（すなわち、２次学習処理を省略した構成）と比較して、高精度な音源分離が可能な分離行列ＷB(fk)を生成できるという利点がある。

図８は、Ｋ個（Ｋ＝513）のうち第１周波数ｆAに選別した周波数ｆkの個数（横軸）と数式(5)の演算の総回数（以下「学習総回数」という）との関係を示すグラフである。第１実施形態では１次学習処理の回数と２次学習処理の回数との合計値が学習総回数に相当する。図８では、１次学習処理の反復回数ＮAを500回に設定するとともに２次学習処理の反復回数ＮBを100回に設定し、分離行列Ｗ(fk)の収束が検出された場合には学習処理を停止する場合が想定されている。

図８には、反復回数ＮA（500回）の１次学習処理を全部（513個）の周波数ｆkについて実行した場合（分離行列Ｗ(fk)の収束時には学習処理を終了）が対比例１（REF1）および対比例２（REF2）として併記されている。対比例１は、１次学習処理の初期分離行列Ｗ^[0](fk)として単位行列を使用した場合であり、対比例２は、既知の方向θ1および方向θ2を利用して死角制御型のビーム形成で生成した分離行列を１次学習処理の初期分離行列Ｗ^[0](fk)として使用した場合である。対比例１および対比例２では２次学習処理は実行していない。また、図８には、音源Ｓ1が発生した音響ＳV1と音源Ｓ2が発生した音響ＳV2との振幅比ＲA（ＲA＝１，0.87，0.71，0.5，0.32）を変化させた複数の場合の各々について学習総回数が図示されている。なお、横軸の各場合の条件や振幅比ＲAの条件は、後掲の図９から図１２でも同様である。

図８から理解されるように、１次学習処理を選択的に実行する第１実施形態では、全周波数ｆkに対して１次学習処理を実行する対比例１や対比例２と比較して、分離行列Ｗ(fk)の生成に必要な学習総回数が大幅に削減される。１次学習処理の対象となる第１周波数ｆAの個数が減少するほど、第１実施形態と対比例１や対比例２との学習総回数の差異は拡大する。すなわち、第１実施形態によれば、対比例１や対比例２と比較して、分離行列Ｗ(f1)〜Ｗ(fK)の生成に必要な演算量が削減されるという利点がある。以上の傾向は、音響ＳV1と音響ＳV2との振幅比ＲAに関わらず同様に確認できる。

図９は、本実施形態および各対比例での雑音抑圧率（NRR：Noise Reduction Rate）のグラフであり、図１０は、本実施形態および各対比例でのケプストラム歪のグラフである。雑音抑圧率は、分離信号Ｙ1(t)における音響ＳV2に対する音響ＳV1の強度比ＳNR_OUTと、観測信号Ｖ1(t)における音響ＳV2に対する音響ＳV1の強度比ＳNR_INとの差分（ＳNR_OUT−ＳNR_IN）である。したがって、雑音抑圧率が高い（図９の上方）ほど音源分離の精度が高い。ケプストラム歪は、音響ＳV1と分離信号Ｙ1(t)とのケプストラムの相違の指標である。ケプストラム歪が小さい（図１０の上方）ほど、音源分離に起因した波形（スペクトル包絡）の変化が小さい（すなわち、音響ＳV1が忠実に分離される）ことを意味する。

図９および図１０から理解されるように、音響ＳV1と音響ＳV2とで振幅が過度に相違しない範囲内（ＲA＝１，0.87，0.71）では、１次学習処理の対象となる第１周波数ｆAを減少させて演算量を削減した場合でも、対比例１や対比例２と比較して、雑音抑圧率の低下やケプストラム歪の増加は殆ど発生しない。第１周波数ｆAの個数を256個または384個とした場合には、対比例１や対比例２と比較して雑音抑圧率やケプストラム歪の改善さえ確認できる。以上のように、第１実施形態によれば、分離行列Ｗ(fk)の生成に必要な演算量を削減しながら音源分離の高精度化を実現することが可能である。

図１１および図１２は、第１実施形態のもとで２次学習処理を省略した場合（以下「対比例３」という）の雑音抑圧率（図１１）およびケプストラム歪（図１２）のグラフである。すなわち、対比例３（REF3）では、非特許文献１の技術と同様に、初期行列設定部６４が設定した初期分離行列ＷB^[0](fk)が第２周波数ｆBの分離行列ＷB(fk)として音源分離に適用される。２次学習処理の省略以外の条件は図８から図１０に示した第１実施形態と同様である。

図１１に示すように、対比例３のもとでは、第１周波数ｆAの個数が減少するほど雑音抑圧率が向上するように見える。しかし、図１２を参照すると、第１周波数ｆAの個数が減少するほどケプストラム歪が増加することが確認できる。すなわち、図１１で第１周波数ｆAの個数が少ない場合に雑音抑圧率が向上しているのは、分離信号Ｙ1(t)の波形と本来の音響ＳV1の波形とが乖離していることに起因しており、音源分離の精度が高水準に維持されているわけではないと理解できる。他方、図９や図１０に示すように、第２周波数ｆBについて２次学習処理を実行する第１実施形態のもとでは、ケプストラム歪を充分に抑制しながら雑音抑圧率も高水準に維持することが可能である。したがって、雑音抑圧率の維持とケプストラム歪の低減とを両立する（すなわち高精度な音源分離を実現する）という観点からは、対比例３よりも第１実施形態が有利である。また、音響ＳV1と音響ＳV2との振幅比ＲAが高い範囲内（ＲA＝１，0.87，0.71）に着目して図１０と図１２とのケプストラム歪の数値を対比すると、第１実施形態では、対比例３と比較してケプストラム歪が抑制されることが確認できる。したがって、音響ＳV1や音響ＳV2の忠実な分離という観点からしても第１実施形態が有利である。

＜Ｂ：第２実施形態＞
本発明の第２実施形態を説明する。なお、以下の各例示において作用や機能が第１実施形態と同等である要素については、以上と同じ参照符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態では、第２周波数ｆBに選別された全部の周波数ｆkについて２次学習処理を実行したが、収音機器Ｍ1および収音機器Ｍ2による収音条件によっては、２次学習処理を実行しないほうが高精度な音源分離を実現できる場合もある。

例えば、図９や図１０から把握されるように、第１実施形態では、音響ＳV1と音響ＳV2とで強度（振幅やパワー）が乖離する場合（ＲA＝0.5，0.32）に、音源分離の精度が対比例１や対比例２を下回る。他方、図９と図１１との対比や図１０と図１２との対比から把握されるように、２次学習処理を実行しない対比例３の構成では、振幅比ＲAが低い場合でも、対比例１や対比例２に匹敵する精度の音源分離が実現される。したがって、音源分離の対象となる音響ＳV1と音響ＳV2との強度の相違（以下「音源強度差」という）が大きい場合（すなわち、収音条件が悪い場合）には、２次学習処理を実行しないほうが高精度な音源分離を実現できると理解できる。以上の傾向を考慮して、第２実施形態では、収音条件の良否に応じて２次学習処理の実行／停止を可変に制御する。

音源Ｓ1が発生する音響ＳV1と音源Ｓ2が発生する音響ＳV2との収音条件について以下に検討する。音響ＳV1の成分値ｓ1(m,fk)と音響ＳV2の成分値ｓ2(m,fk)とを要素とするベクトルＳ(m,fk)（Ｓ(m,fk)＝（ｓ1(m,fk),ｓ2(m,fk)）^T）を想定すると、観測信号Ｖ1(t)および観測信号Ｖ2(t)の観測ベクトルＸ(m,fk)は、以下の数式(6)で表現される。数式(6)の行列Ａ(fk)は、音源Ｓ1および音源Ｓ2の各々から収音機器Ｍ1および収音機器Ｍ2の各々に到達するまでに付与される音響特性を示す混合行列である。
Ｘ(m,fk)＝Ａ(fk)Ｓ(m,fk) ……(6)

数式(2)と数式(6)とを考慮すると、観測ベクトルＸ(m,fk)の共分散行列Ｒxx(fk)は、ベクトルＳ(m,fk)の共分散行列Ｒss(m,fk)（Ｒss(m,fk)＝Ｅ［Ｓ(m,fk)Ｓ(m,fk)^H］）と混合行列Ａ(fk)とを含む以下の数式(7)で表現される。
Ｒxx(fk)＝Ｅ［Ｘ(m,fk)Ｘ(m,fk)^H］
＝Ｅ［Ａ(fk)Ｓ(m,fk)｛Ａ(fk)Ｓ(m,fk)｝^H］
＝Ｅ［Ａ(fk)Ｓ(m,fk)Ｓ(m,fk)^HＡ(fk)^H］
＝Ａ(fk)Ｅ［Ｓ(m,fk)Ｓ(m,fk)^H］Ａ(fk)^H
＝Ａ(fk)Ｒss(fk)Ａ(fk)^H ……(7)

他方、共分散行列Ｒss(fk)は、以下の数式(8)のように固有値分解される。
Ｒss(fk)＝Ｑ(fk)Λ(fk)Ｑ(fk)^H ……(8)
数式(8)の行列Ｑ(fk)は正規直交行列であるから、行列Ｑ(fk)Ｑ(fk)^Hの行列式（det（Ｑ(fk)Ｑ(fk)^H）は１である。したがって、共分散行列Ｒss(fk)の行列式det(Ｒss(fk))は、対角行列Λ(fk)の行列式det(Λ(fk))に等しい（det(Ｒss(fk))＝det(Λ(fk))）。以上を考慮すると、共分散行列Ｒxx(fk)の行列式det(Ｒxx(fk))は、数式(7)を変形した以下の数式(9)で表現される。なお、数式(9)の記号Πは総乗（総積）の演算子（Πλi(fk)＝λ1(fk)・λ2(fk)）を意味する。
det(Ｒxx(fk))＝det(Ａ(fk)Ｒss(fk)Ａ(fk)^H)
＝det(Ａ(fk))det(Ｒss(fk))det(Ａ(fk)^H)
＝|det(Ａ(fk))|²det(Λ(fk))
＝|det(Ａ(fk))|²Πλi(fk) ……(9)

数式(9)の行列式det(Ａ(fk))は、混合行列Ａを適用した線形写像における定数倍の要素に相当するから、収音機器Ｍ1および収音機器Ｍ2の各々に対する音響ＳV1や音響ＳV2の伝播が阻害される度合（以下「伝播阻害度」という）が大きいほど（収音条件が悪いほど）、数式(9)の行列式det(Ａ(fk))は小さい数値となる。他方、数式(9)の記号λi(fk)は対角行列Λの成分（共分散行列Ｒss(fk)の固有値）である。すなわち、固有値λ1(fk)は音響ＳV1の周波数ｆkの成分の強度（パワー）に相当し、固有値λ2(fk)は音響ＳV2の周波数ｆkの成分の強度（パワー）に相当する。したがって、音源強度差が大きいほど（収音条件が悪いほど）、数式(9)の総乗Πλi(fk)は小さい数値となる。

以上の説明から理解されるように、収音条件が悪いほど（伝播阻害度や音源強度差が大きいほど）、共分散行列Ｒxx(fk)の行列式ｚ1(fk)（ｚ1(fk)＝det(Ｒxx(fk))）は小さい数値になるという傾向がある。以上の傾向を考慮して、第２実施形態では、収音条件の良否の判定に行列式ｚ1(fk)を適用する。

図１３は、第２実施形態における分離行列生成部２８Aのブロック図である。第２実施形態の分離行列生成部２８Aは、第１実施形態の分離行列生成部２８の各要素に条件判定部７２を追加した構成である。条件判定部７２は、第２周波数ｆBに選別された周波数ｆk毎に収音条件の良否を判定する。条件判定部７２による判定には、周波数選別部４４による周波数ｆkの選別のために有意指標算定部４２が算定した行列式ｚ1(fk)が流用される。すなわち、条件判定部７２は、行列式ｚ1(fk)が所定の閾値を上回る場合には周波数ｆkの収音条件が良い（伝播阻害度や音源強度差が小さい）と判定し、行列式ｚ1(fk)が閾値を下回る場合には周波数ｆkの収音条件が悪い（伝播阻害度や音源強度差が大きい悪条件である）と判定する。

図１３の第２学習部６６は、条件判定部７２の判定の結果に応じて２次学習処理の実行／停止を周波数ｆk毎に決定する。すなわち、第２周波数ｆBに選別された周波数ｆkのうち行列式ｚ1(fk)が大きい（収音条件が良い）と判定された周波数ｆkについて、第２学習部６６は、第１実施形態と同様に、初期分離行列ＷB^[0](fk)を初期値とした２次学習処理で分離行列ＷB(fk)を生成する。他方、第２周波数ｆBに選別された周波数ｆkのうち行列式ｚ1(fk)が小さい（収音条件が悪い）と判定された周波数ｆkについて、第２学習部６６は、２次学習処理を停止し、初期行列設定部６４が設定した初期分離行列ＷB^[0](fk)を分離行列ＷB(fk)として確定する。したがって、行列式ｚ1が小さい（悪条件）の学習データＤ(fk)は分離行列ＷB(fk)の生成に使用されない。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、収音条件の良否に応じて２次学習処理の実行／停止が制御されるから、第２周波数ｆBに選別された各周波数ｆkについて収音条件に関わらず２次学習処理を実行する場合と比較して、音源分離の精度を維持しながら分離行列Ｗ(fk)の生成の演算量が削減されるという格別の効果が実現される。

＜Ｃ：第３実施形態＞
第２実施形態では、第２周波数ｆBに選別された周波数ｆkのうち収音条件が悪いと判定された周波数ｆkについて、初期行列設定部６４が死角制御型のビーム形成で生成した初期分離行列ＷB^[0](fk)を分離行列ＷB(fk)として利用したが、収音条件が悪い周波数ｆkのについて分離行列ＷB(fk)を設定する方法は、第３実施形態として以下に例示するように適宜に変更される。

観測信号Ｖ1(t)や観測信号Ｖ2(t)の周波数ｆkの成分が１個の音源Ｓの音響ＳVのみを含む場合、条件判定部７２は周波数ｆkの収音条件が悪いと判定する。他方、１個の音源Ｓの音響ＳVのみが周波数ｆkに存在するのであれば、音源分離の前後で周波数ｆkの成分を変化させる必要性は低い。そこで、収音条件が悪い（１個の音源Ｓのみを含む）と条件判定部７２が判定した周波数ｆkについては、第２学習部６６による２次学習処理に加えて初期行列設定部６４による初期分離行列ＷB^[0](fk)の生成も停止し、音源分離の前後で周波数ｆkの成分が過度に変化しないように分離行列ＷB(fk)を設定する構成が採用され得る。具体的な構成を以下に詳述する。

図１４は、第３実施形態における分離行列生成部２８Bのブロック図である。第３実施形態の分離行列生成部２８Bは、第２実施形態の分離行列生成部２８Aに方向推定部７４と行列設定部７６とを追加した構成である。

方向推定部７４は、第２周波数ｆBに選別された周波数のうち収音条件が悪いと条件判定部７２が判定した周波数ｆk毎に、学習データＤ(fk)を利用して音源方向（すなわち、周波数ｆkの成分を含む音響を放射する１個の音源の方向）θe(fk)を推定する。音源方向θe(fk)の推定には公知の技術が任意に採用され得る。行列設定部７６は、方向推定部７４が推定した音源方向θe(fk)から到来する音響を観測信号Ｖ1(t)および観測信号Ｖ2(t)から分離する分離行列ＷB(fk)を生成する。例えば、行列設定部７６は、収音条件が悪いと判定された周波数ｆk毎に以下の処理を実行することで分離行列ＷB(fk)を生成する。

第１に、行列設定部７６は、以下の数式で定義される抽出行列Ｃ(fk)を生成する。記号ｄは収音機器Ｍ1と収音機器Ｍ2との間隔を意味し、記号ｃは音速を意味する。したがって、記号τは、音源方向θe(fk)から到来する音響が収音機器Ｍ1および収音機器Ｍ2の各々に到達する時間差に相当する。抽出行列Ｃ(fk)の第１行は、遅延加算型のビーム形成に適用した場合に音源方向θe(fk)からの到来音を強調する。

第２に、行列設定部７６は、方向推定部６２が分離行列ＷA(fk)から推定した方向θ1および方向θ2と方向推定部７４が推定した音源方向θe(fk)との関係に応じて抽出行列Ｃ(fk)の各行を相互に置換することで分離行列ＷB(fk)を生成する。具体的には、行列設定部７６は、音源方向θe(fk)が方向θ1に近い場合には周波数ｆkの成分が分離信号Ｙ1(t)にて強調され、音源方向θe(fk)が方向θ2に近い場合には周波数ｆkの成分が分離信号Ｙ2(t)にて強調されるように、抽出行列Ｃ(fk)の各行の位置を調整する。

例えば、分離行列ＷA(fk)の第１行（ｗ11(fk)，ｗ12(fk)）が方向θ1の音響ＳV1を強調する（方向θ2に死角を形成する）ように作用し、分離行列ＷA(fk)の第２行（ｗ21(fk)，ｗ22(fk)）が方向θ2の音響ＳV2を強調する（方向θ1に死角を形成する）ように作用する場合を想定する。音源方向θe(fk)が方向θ1に近い場合、行列設定部７６は、前述の抽出行列Ｃ(fk)を分離行列ＷB(fk)として確定する。したがって、分離信号Ｙ1(t)のうち収音条件が悪いと判定された周波数ｆkの成分値ｙ1(m,fk)は音源方向θe(fk)からの到来音を強調した数値に設定され、分離信号Ｙ2(t)の当該周波数ｆkの成分値ｙ2(m,fk)はゼロに設定される。他方、音源方向θe(fk)が方向θ2に近い場合、行列設定部７６は、抽出行列Ｃ(fk)の第１行と第２行とを入替えた行列を分離行列ＷB(fk)として確定する。したがって、分離信号Ｙ1(fk)のうち収音条件が悪いと判定された周波数ｆkの成分値ｙ1(m,fk)はゼロに設定され、分離信号Ｙ2(t)の当該周波数ｆkの成分値ｙ2（m,fk）は音源方向θe(fk)からの到来音を強調した数値に設定される。

第３実施形態においても第１実施形態や第２実施形態と同様の効果が実現される。また、第３実施形態では、収音条件が悪い周波数ｆkについて、第２学習部６６による２次学習処理に加えて初期行列設定部６４による初期分離行列ＷB^[0](fk)の生成も停止するから、分離行列ＷB(fk)の生成に必要な演算量が第２実施形態と比較して削減されるという利点もある。

なお、抽出行列Ｃ(fk)の内容は以上の例示に限定されない。例えば、以下に例示する抽出行列Ｃ(fk)を利用すれば、観測信号Ｖ1(t)または観測信号Ｖ2(t)に含まれる周波数ｆkの成分がそのまま分離信号Ｙ1(t)または分離信号Ｙ2(t)の周波数ｆkの成分として信号分離部２４から出力される。

＜Ｄ：第４実施形態（有意指標値の例示）＞
以上の各形態において周波数選別部４４による選別の基準となる有意指標値Ｚ(fk)は共分散行列Ｒxx(fk)の行列式ｚ1(fk)に限定されない。具体的には、以下の各態様に例示する数値（統計量）が有意指標値Ｚ(fk)として採用され得る。

＜Ｄ-１：第１の態様（条件数ｚ2(fk)）＞
学習データＤ(fk)を構成する複数の観測ベクトルＸ(m,fk)の共分散行列Ｒxx(fk)の条件数ｚ2(fk)は以下の数式(10)で定義される。数式(10)の演算子‖Ａ‖は、行列Ａのノルム（行列の距離）を意味する。共分散行列Ｒxx(fk)に逆行列が存在する場合（正則である場合）に条件数ｚ2(fk)は小さく、共分散行列Ｒxx(fk)に逆行列が存在しない場合に条件数ｚ2(fk)は大きい数値となる。
ｚ2(fk)＝‖Ｒxx(fk)‖・‖Ｒxx(fk)^-1‖ ……(10)

共分散行列Ｒxx(fk)は以下の数式(11A)のように固有値分解される。数式(11A)の行列Ｕは固有行列（固有ベクトルを要素とする行列）であり、行列Σは、固有値を要素とする対角行列である。また、共分散行列Ｒxx(fk)の逆行列は、数式(11A)を変形した以下の数式(11B)で表現される。
Ｒxx(fk)＝ＵΣＵ^H ……(11A)
Ｒxx(fk)^-1＝ＵΣ^-1Ｕ^H ……(11B)

行列Σの要素にゼロが含まれる場合には数式(11B)の行列Σ^-1が無限大に発散するため、共分散行列Ｒxx(fk)の逆行列は存在しない（すなわち、数式(10)の条件数ｚ2(fk)は大きい数値となる）。一方、行列Σの要素（共分散行列Ｒxx(fk)の固有値）がゼロに近い数値を含むということは、観測ベクトルＸ(m,fk)の分布における基底の総数が少ないことを意味する。したがって、観測ベクトルＸ(m,fk)の基底の総数が少ないほど共分散行列Ｒxx(fk)の条件数ｚ2(fk)が大きい（基底の総数が多いほど条件数ｚ2(fk)は小さい）という傾向が把握される。つまり、共分散行列Ｒxx(fk)の条件数ｚ2(fk)は、行列式ｚ1(fk)と同様に、観測ベクトルＸ(m,fk)の基底の総数の指標として機能する。

以上の傾向を考慮して、第１の態様においては、共分散行列Ｒxx(fk)の条件数ｚ2(fk)を有意指標値Ｚ(fk)として利用する。すなわち、有意指標算定部４２は、Ｋ個の周波数ｆ1〜ｆKの各々の共分散行列Ｒxx(fk)について数式(10)の演算を実行することで条件数ｚ2(fk)（ｚ2(f1)〜ｚ2(fK)）を算定する。周波数選別部４４は、有意指標算定部４２の算定した条件数ｚ2(fk)が小さい１個以上の周波数ｆk（例えば、昇順で上位に位置する所定個の周波数ｆkや閾値を下回る周波数ｆk）を第１周波数ｆAに選別するとともに残余の周波数ｆkを第２周波数ｆBに選別する。

＜Ｄ-２：第２の態様（相互相関ｚ3(fk)，相互情報量ｚ4(fk)）＞
独立成分分析の学習処理は、音源分離後の各信号が統計的に独立となるように分離行列Ｗ(fk)を更新する処理であるから、観測信号Ｖ1(t)と観測信号Ｖ2(t)とで統計的な相関が低い周波数ｆkほど、学習データＤ(fk)を使用した分離行列Ｗ(fk)の学習の有意性が高いと言える。そこで、第２の態様においては、観測信号Ｖ1(t)および観測信号Ｖ2(t)の相互間の独立性に応じた指標値（例えば相互相関ｚ3(fk)）を有意指標値Ｚ(fk)として利用する。

観測信号Ｖ1(t)の周波数ｆkの成分と観測信号Ｖ2(t)の周波数ｆkの成分との相互相関ｚ3(fk)は以下の数式(12)で表現される。数式(12)の記号σ1は、単位区間ＴU内の強度ｘ1(m,fk)の標準偏差を意味し、記号σ2は、単位区間ＴU内の強度ｘ2(m,fk)の標準偏差を意味する。
ｚ3(fk)＝Ｅ［{ｘ1(m,fk)−Ｅ(ｘ1(m,fk))}{ｘ2(m,fk)−Ｅ(ｘ2(m,fk))}］／σ1σ2 ……(12)

数式(12)から理解されるように、観測信号Ｖ1(t)と観測信号Ｖ2(t)との独立性が高い（相関が低い）周波数ｆkほど相互相関ｚ3(fk)は小さい数値となる。以上の傾向を考慮して、第２の態様においては、Ｋ個の周波数ｆ1〜ｆKの各々について数式(12)の演算を実行することで有意指標算定部４２が相互相関ｚ3(fk)（ｚ3(f1)〜ｚ3(fK)）を算定し、周波数選別部４４は、Ｋ個の周波数ｆ1〜ｆKのうち相互相関ｚ3(fk)が低い１個以上の周波数ｆk（例えば、昇順で上位の周波数fkや閾値を下回る周波数ｆk）を第１周波数ｆAに選別するとともに残余の周波数ｆkを第２周波数ｆBに選別する。

また、以下の数式(13)で定義される相互情報量ｚ4(fk)も有意指標値Ｚ(fk)として利用され得る。相互相関ｚ3(fk)と同様に、観測信号Ｖ1(t)と観測信号Ｖ2(t)との独立性が高い（相関が低い）周波数ｆkほど相互情報量ｚ4(fk)は小さい数値となる。したがって、周波数選別部４４は、Ｋ個の周波数ｆ1〜ｆKのうち相互情報量ｚ4(fk)が低い１個以上の周波数ｆkを第１周波数ｆAに選別する。
ｚ4(fk)＝(−１／２)log(１−ｚ3(fk)²) ……(13)

＜Ｄ-３：第３の態様（トレースｚ5(fk)）＞
共分散行列Ｒxx(fk)のトレース（パワー）ｚ5(fk)は共分散行列Ｒxx(fk)の対角成分の総和として定義される。共分散行列Ｒxx(fk)の対角成分は、単位区間ＴUにおける観測信号Ｖ1(t)の強度ｘ1(m,fk)の分散σ1²と単位区間ＴUにおける観測信号Ｖ2(t)の強度ｘ2(m,fk)の分散σ2²とに相当するから、共分散行列Ｒxx(fk)のトレースｚ5(fk)は、強度ｘ1(m,fk)の分散σ1²と強度ｘ2(m,fk)の分散σ2²との加算値（ｚ5(fk)＝σ1²＋σ2²）としても定義される。

図１５は、単位区間ＴU内の各観測ベクトルＸ(m,fk)の散布図である。図１５の部分(A)は、トレースｚ5(fk)が大きい場合の散布図であり、図１５の部分(B)は、トレースｚ5(fk)が小さい場合の散布図である。図１５の部分(A)および部分(B)には、図７の部分(A)と同様に、音源Ｓ1からの音響ＳV1が優勢な観測ベクトルＸ(m,fk)が分布する領域Ａ1と、音源Ｓ2からの音響ＳV2が優勢な観測ベクトルＸ(m,fk)が分布する領域Ａ2とが模式的に図示されている。

強度ｘ1(m,fk)の分散σ1²と強度ｘ2(m,fk)の分散σ2²との加算値という定義からも理解されるように、共分散行列Ｒxx(fk)のトレースｚ5(fk)が大きいほど観測ベクトルＸ(m,fk)は広範に分布する。したがって、トレースｚ5(fk)が大きい場合には、図１５の部分(A)のように、観測ベクトルＸ(m,fk)の分布する領域（領域Ａ1および領域Ａ2）が音源Ｓ毎に明確に区別され、トレースｚ5(fk)が小さい場合には、図１５の部分(B)のように領域Ａ1と領域Ａ2との区別は曖昧になるという傾向がある。つまり、トレースｚ5(fk)は、観測ベクトルＸ(m,fk)が分布する領域の形状（広がり）の指標値として機能する。そして、分離行列Ｗ(fk)の学習処理（独立成分分析）は、独立な基底を音源Ｓの個数だけ特定する処理と等価であるから、観測ベクトルＸ(m,fk)の分布する領域（基底）が音源Ｓ毎に明確に区別される周波数ｆk（すなわちトレースｚ5(fk)が大きい周波数ｆk）ほど、学習データＤ(fk)を使用した分離行列Ｗ(fk)の学習の有意性が高いと言える。

以上の傾向を考慮して、第３の態様では、共分散行列Ｒxx(fk)のトレースｚ5(fk)を有意指標値Ｚ(fk)として利用する。すなわち、有意指標算定部４２は、Ｋ個の周波数ｆ1〜ｆKの各々の共分散行列Ｒxx(fk)の対角成分を加算することでトレースｚ5(fk)（ｚ5(f1)〜ｚ5(fK)）を算定する。周波数選別部４４は、有意指標算定部４２の算定したトレースｚ5(fk)が大きい１個以上の周波数ｆk（例えば、降順で上位の周波数ｆkや閾値を上回る周波数ｆk）を第１周波数ｆAに選別するとともに残余の周波数ｆkを第２周波数ｆBに選別する。

＜Ｄ-４：第４の態様（尖度ｚ6(fk)）＞
観測信号Ｖ1(t)の強度ｘ1(m,fk)の度数分布（強度ｘ1(m,fk)を確率変数とする分布関数）における尖度（カートシス）ｚ6(fk)は、以下の数式(14)で定義される。
ｚ6(fk)＝μ4(fk)／｛μ2(fk)｝² ……(14)

数式(14)の記号μ4(fk)は、以下の数式(15A)で定義される４次のモーメントを意味し、数式(14)の記号μ2（fk）は、数式(15B)で定義される２次のモーメントを意味する。数式(15A)や数式(15B)の記号ｍ(fk)は、単位区間ＴU内の複数のフレームにわたる強度ｘ1(m,fk)の平均値を意味する。
μ4(fk)＝Ｅ{ｘ1(m,fk)−ｍ(fk)}⁴ ……(15A)
μ2(fk)＝Ｅ{ｘ1(m,fk)−ｍ(fk)}² ……(15B)

音響ＳV1の成分ＳV1(fk)および音響ＳV2の成分ＳV2(fk)の一方のみが観測信号Ｖ1(t)に含まれる（あるいは支配的である）場合には尖度ｚ6(fk)が大きい数値となり、成分ＳV1(fk)および成分ＳV2(fk)の双方が略同等の強度で観測信号Ｖ1(t)に含まれる場合には尖度ｚ6(fk)が小さい数値となる（中心極限定理）。分離行列Ｗ(fk)の学習処理（独立成分分析）は、独立な基底を音源Ｓの個数だけ特定する処理と等価であるから、有意な音量で観測信号Ｖ1(t)に含まれる音響ＳVの音源Ｓの個数が多い周波数ｆk（すなわち、尖度ｚ6(fk)が小さい周波数ｆk）ほど、学習データＤ(fk)を使用した分離行列Ｗ(fk)の学習の有意性が高いと言える。

以上の傾向を考慮して、第４の態様では、観測信号Ｖ1(t)の強度ｘ(m,fk)の度数分布における尖度ｚ6(fk)を有意指標値Ｚ(fk)として利用する。すなわち、有意指標算定部４２は、Ｋ個の周波数ｆ1〜ｆKの各々について数式(14)の演算を実行することで尖度ｚ6(f1)〜ｚ6(fK)を算定する。周波数選別部４４は、Ｋ個の周波数ｆ1〜ｆKのうち尖度ｚ6(fk)が小さい１個以上の周波数ｆk（例えば、昇順で上位の周波数ｆkや閾値を下回る周波数ｆk）を第１周波数ｆAに選別するとともに残余の周波数ｆkを第２周波数ｆBに選別する。

ところで、人間の音声の尖度は概ね40から70までの範囲内の数値となる。また、雑音が存在する環境で尖度が低下すること（中心極限定理）や尖度の測定の誤差などを考慮すると、人間の音声の尖度は概ね20から80までの範囲（以下「音声範囲」という）内に収まる。一方、空調設備の動作音や人込みでの雑踏音などの定常的な雑音のみが存在する周波数ｆkについては、観測信号Ｖ1(t)の尖度は充分に低い数値（例えば20を下回る数値）となるから、周波数選別部４４にて第１周波数ｆAに選別される可能性が高い。しかし、音源分離の対象音（ＳV1，ＳV2）が人間の音声であるならば、定常的な雑音の周波数ｆkの学習データＤ(fk)を使用した分離行列Ｗの学習の有意性は低いと言える。

そこで、定常的な雑音の周波数ｆkを第１周波数ｆAに選別することが回避されるように数式(14)の尖度を補正する構成が好適に採用される。例えば、有意指標算定部４２は、数式(14)で定義される数値（以下「補正前尖度」という）と加重値ｑとの乗算値を補正後の尖度ｚ6(fk)として算定する。加重値ｑは、例えば図１６の例示のように補正前尖度に対して非線形に選定される。すなわち、補正前尖度が音声範囲の下限値（例えば20）を下回る範囲については、加重値ｑの乗算による補正後の尖度ｚ6(fk)が音声範囲内の上限値（例えば80）を上回るように、補正前尖度に応じて加重値ｑが可変に選定され、音声範囲内の尖度については加重値ｑは所定値（例えば１）に設定される。なお、音声範囲の上限値を上回る範囲については、補正前尖度が充分に高い（すなわち周波数ｆkが第１周波数ｆAに選別される可能性は低い）ため、加重値ｑは音声範囲内と同等の数値に設定される。以上の構成によれば、所期の音声を高精度に分離できる分離行列Ｗ(fk)を生成することが可能である。

＜Ｅ：変形例＞
以上の各形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）変形例１
周波数ｆ1〜ｆKを第１周波数ｆAおよび第２周波数ｆBに選別する方法は適宜に変更される。例えば、以上に例示した複数種の指標から有意指標値Ｚ(fk)を算定する構成が採用され得る。すなわち、有意指標算定部４２は、以上に例示した指標（ｚ1(fk)〜ｚ6(fk)）から選択された複数種の指標の加重和（例えば行列式ｚ1(fk)とトレースｚ5(fk)の加重和）を有意指標値Ｚ(fk)として算定する。

なお、第１周波数ｆAと第２周波数ｆBとの選別に有意指標値Ｚ(fk)を利用する構成（有意指標算定部４２）は省略され得る。具体的には、観測ベクトルＸ(m,fk)（学習データＤ(fk)）とは無関係に周波数ｆkを選別する構成も採用され得る。例えば、周波数選別部４４は、周波数ｆ1〜ｆKの配列から所定個毎に選択した各周波数ｆkを第１周波数ｆAに選別するとともに残余の周波数ｆkを第２周波数ｆBに選別する。また、観測信号Ｖ1(t)および観測信号Ｖ2(t)に想定される音響特性や学習処理の内容等の事情から、学習処理の有意性が高い周波数ｆkが例えば実験的または統計的に事前に判明しているならば、当該周波数ｆkを第１周波数ｆAに選別するとともに残余の周波数ｆkを第２周波数ｆBに選別する構成が採用され得る。以上の例示のように有意指標値Ｚ(fk)の算定を省略すれば、演算処理装置１２の演算量が削減されるという利点がある。

（２）変形例２
第２実施形態では、観測ベクトルＸ(m,fk)の共分散行列Ｒxx(fk)の行列式ｚ1(fk)を収音条件の良否の判定に適用したが、収音条件の良否の判定の方法は任意である。例えば、観測ベクトルＸ(m,fk)の共分散行列Ｒxx(fk)の条件数ｚ2(fk)は、数値解析の難易の尺度として機能する。学習データＤ(fk)の数値解析が容易であるほど収音条件が良いという観点からすると、有意指標算定部４２が算定する条件数ｚ2(fk)に応じて収音条件の良否を判定する構成が採用され得る。条件数ｚ2(fk)が１に近いほど収音条件は良いと評価できるから、条件判定部７２は、条件数ｚ2(fk)が閾値を下回る場合には周波数ｆkの収音条件が良い（良条件）と判定し、条件数ｚ2(fk)が閾値を上回る場合には周波数ｆkの収音条件が悪い（悪条件）と判定する。収音条件が悪い周波数ｆk（第２周波数ｆB）については２次学習処理が省略される。

なお、図９および図１０を参照すると、振幅比ＲAが0.5を下回る場合に雑音抑圧率の低下やケプストラム歪の増加が顕在化するから、振幅比ＲAが0.5を下回る場合に悪条件と評価するのが妥当である。条件数ｚ2(fk)は、音響ＳV1と音響ＳV2とのパワーの相対比に相当するから、振幅比ＲAが0.5である（パワーの相対比が0.25）である場合には、条件数ｚ2(fk)が４となることが期待される。したがって、収音条件の良否の判定に条件数ｚ2(fk)を利用する場合には、収音条件の良否の閾値を４に設定する（すなわち、条件数ｚ2(fk)が４を下回る場合に良条件と判定し、条件数ｚ2(fk)が４を上回る場合に悪条件と判定する）構成が好適に採用され得る。

以上の例示のように、周波数ｆkの選別に適用される有意指標Ｚ(fk)（ｚ1(fk)，ｚ2(fk)）を収音条件の良否の判定に流用する構成によれば、周波数ｆkの選別と収音条件の判定とに別個の指標を適用する構成と比較して演算量が削減されるという利点がある。ただし、周波数ｆkの選別と収音条件の判定とに別個の指標を適用する構成も採用され得る。例えば、収音条件の判定には行列式ｚ1(fk)を適用し、周波数ｆkの選別には行列式ｚ1(fk)以外の有意指標Ｚ(fk)（ｚ2(fk)〜ｚ6(fk)）を適用する構成が採用される。

（３）変形例３
初期行列設定部５２が初期分離行列ＷA^[0](fk)を生成する方法は任意である。例えば、乱数を要素とする初期分離行列ＷA^[0](fk)を初期行列設定部５２が生成する構成が採用され得る。以上では音源Ｓ1の角度θ1や音源Ｓ2の角度θ2が未知である場合（事前情報を利用しない場合）を例示したが、事前情報（角度θ1や角度θ2）を利用して初期分離行列ＷA^[0](fk)を生成する構成も好適である。事前情報を利用した初期分離行列ＷA^[0](fk)の生成には、橘ほか５名，“Efficient Blind Source Separation Combining Closed-Form Second Order ICA and Nonclosed-Form Higher-Order ICA”， International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vol. 1, p. 45-48, Apr. 2007に開示された主成分分析や２次統計量ICAなどの部分空間法、または、特許第3949074号公報に開示された適応型ビーム形成が好適に採用され得る。また、MUSIC（MUltiple SIgnal Classification）法や最小分散法で推定した各音源Ｓの方向から各種のビーム形成（例えば適応型ビーム形成）を利用して初期分離行列ＷA^[0](fk)を生成する方法や、因子分析で特定した因子ベクトルや正準相関分析で特定した正準ベクトルから初期分離行列ＷA^[0](fk)を生成する方法も採用される。

１００……信号処理装置、１２……演算処理装置、１４……記憶装置、２２……周波数分析部、２４……信号分離部、２６……信号合成部、２８，２８A，２８B……分離行列生成部、４２……有意指標算定部、４２２……共分散行列算定部、４２４……行列式算定部、４４……周波数選別部、５０……第１処理部、５２……初期行列設定部、５４……第１学習部、５６……補正処理部、６０……第２処理部、６２……方向推定部、６４……初期行列設定部、６６……第２学習部、７２……条件判定部。

Claims

相異なる音源が発生した複数の音響の混合音を複数の収音機器で収音した複数の観測信号に対して複数の周波数の各々の分離行列を適用することで前記音源毎の複数の分離信号を生成する信号分離手段と、
前記複数の周波数を第１周波数と第２周波数とに選別する周波数選別手段と、
前記複数の観測信号における前記第１周波数の成分に対応する学習データを適用した１次学習処理で当該第１周波数の前記分離行列を生成する第１学習手段と、
前記第１学習手段が生成した分離行列から前記各音源の方向を推定する方向推定手段と、
前記方向推定手段が推定した方向に収音の死角またはビームが形成されるように初期分離行列を生成する初期行列設定手段と、
前記複数の観測信号における前記第２周波数の成分に対応する学習データを適用した２次学習処理を、前記初期行列設定手段が生成した初期分離行列を初期値として、前記１次学習処理よりも少ない反復回数で実行することで、当該第２周波数の前記分離行列を生成する第２学習手段と
を具備する信号処理装置。
収音条件の良否を周波数毎に判定する条件判定手段を具備し、
前記第２学習手段は、前記第２周波数に選別された各周波数のうち前記収音条件が良いと前記条件判定手段が判定した周波数については、前記初期分離行列を初期値とした前記第２学習処理で分離行列を生成し、前記収音条件が悪いと前記条件判定手段が判定した周波数については、前記初期分離行列を前記分離行列とする
請求項１の信号処理装置。
前記各周波数の学習データを適用した学習処理の有意性を示す有意指標値を前記複数の観測信号から周波数毎に算定する有意指標算定手段を具備し、
前記周波数選別手段は、前記各周波数の有意指標値に応じて前記複数の周波数を前記第１周波数と前記第２周波数とに選別する
請求項２の信号処理装置。
前記条件判定手段は、前記有意指標算定手段が算定した各周波数の有意指標値に応じて周波数毎の前記収音条件の良否を判定する
請求項３の信号処理装置。
前記有意指標算定手段は、複数の観測信号の各々における各周波数での強度を要素とする観測ベクトルの共分散行列の行列式を前記有意指標として算定する
請求項３または請求項４の信号処理装置。