JP5163435B2

JP5163435B2 - 信号処理装置およびプログラム

Info

Publication number: JP5163435B2
Application number: JP2008287867A
Authority: JP
Inventors: 誠山田; 多伸近藤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-11-10
Filing date: 2008-11-10
Publication date: 2013-03-13
Anticipated expiration: 2028-11-10
Also published as: JP2010114829A

Description

本発明は、複数の音の混合音から特定の音を強調（典型的には分離ないし抽出）または抑制する技術に関する。

複数の音源から放射された音の混合音を複数の収音機器で採取した複数の観測信号（音響信号）にフィルタ処理を実行することで、各音源からの音を個別に強調または抑制（すなわち音源分離）することが可能である。観測信号のフィルタ処理に使用される分離行列の推定には、主成分分析や二次統計量ＩＣＡ（independent component analysis）などの部分空間法（例えば非特許文献１）や、適応型ビームフォーマ（例えば特許文献１）が利用される。以上の方法で推定された分離行列を初期値として例えば独立成分分析の学習を実行することで、実際に利用される分離行列が生成される。
K. Tachibana, et. al., "Efficient Blind Source Separation Combining Closed-Form Second Order ICA and Nonclosed-Form Higher-Order ICA," International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vol. 1, pp. 45-48, Apr. 2007. 特許第３９４９０７４号公報

しかし、主成分分析や二次統計量ＩＣＡを利用した方法では、第１主成分の分離行列と第２主成分の分離行列とが直交するという制約のもとで分離行列が特定されるから、各音源の方向（位置）によっては分離行列の高精度な推定が困難となる場合がある。また、適応型ビームフォーマを利用した方法においても同様に、目的音の音源の方向と非目的音（例えば雑音）の音源の方向とが直交するという条件が必要であるから、分離行列の高精度な推定は困難である。以上の事情に鑑みて、本発明は、各音の分離行列が直交するという条件に制約されずに分離行列を推定することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る信号処理装置は、音源の方向が相違する複数の音（音声や雑音（非音声）などの音響）の混合音を複数の収音機器で収音した複数の観測信号（音響信号）から共分散行列を特定する第１行列特定手段と、複数の音のうち第１音の共分散行列を特定する第２行列特定手段と、観測信号の共分散行列から第１音の共分散行列を減次する減次手段とを具備する。以上の態様においては、観測信号の共分散行列から第１音の共分散行列が減次されるから、第１音の分離行列と減次後の共分散行列に対応する音の分離行列とが直交するという条件は不要である。したがって、各音の分離行列が直交するという条件に制約されずに分離行列を推定できるという利点がある。

なお、以上の態様は、ひとつの音源の音に対応する共分散行列が減次手段による減次で特定される構成と、複数の音源からの音の混合音の共分散行列が減次手段による減次で特定される構成とを包含する。音源の方向が相違するＮ個（Ｎは２以上の自然数）の音の混合音が収音される場合に着目すると、前者の構成は、Ｎ個の音の混合音を複数の収音機器で収音した複数の観測信号から共分散行列を特定する第１行列特定手段と、Ｎ個の音のうち(Ｎ−１)個の第１音の共分散行列を特定する第２行列特定手段と、観測信号の共分散行列から(Ｎ−１)個の第１音の共分散行列を減次することで、第１音以外の第２音の共分散行列を特定する減次手段とを具備する構成として特定される。

本発明の好適な態様において、第２行列特定手段は、第１音を強調または抑制するフィルタ処理の第１係数列と第１係数列の転置行列と調整係数とを乗算した第１音の共分散行列と、観測信号の共分散行列との差分が零以上となる条件のもとで調整係数が最大化されるように（例えば数式(4)および数式(5)）、第１音の共分散行列を特定する。以上の態様においては、調整係数が最大となるように第１音の共分散行列が特定されるから、例えば調整係数を固定値とした構成と比較すると、第１音以外の音の共分散行列を減次手段による減次で高精度に特定できるという利点がある。

本発明の好適な態様に係る信号処理装置は、第２音を強調または抑制するフィルタ処理の第２系数列を第２音の共分散行列から特定する係数列特定手段を具備する。さらに好適な態様では、複数の観測信号を白色化する白色化手段と、係数列特定手段が特定した第２係数列を有色化する有色化手段とが設置される。以上の態様においては、白色化後の観測信号の共分散行列が単位行列となるから、信号処理装置の各部（例えば減次手段）による演算が簡素化されるという利点がある。

本発明の好適な態様において、第２行列特定手段は、第１音を強調または抑制するフィルタ処理の第１係数列と第１音の共分散行列とを特定し、第１音と第２音とを分離するための分離行列を第１係数列および第２系数列から生成する行列決定手段を具備する。本発明においては第２音の共分散行列が高精度に特定されるから、第１音と第２音とを正確に分離できる分離行列を生成することが可能である。

本発明の好適な態様に係る信号処理装置は、行列決定手段が決定した分離行列を初期値として学習を実行する学習処理手段を具備する。以上の態様においては分離行列の学習が実行されるから、第１音と第２音との分離の精度を高めることが可能である。また、本発明においては第１音の分離行列と第２音の分離行列とが直交するという制約が不要であるから、行列決定手段が決定した分離行列と所期の特性の分離行列との乖離が低減される。したがって、学習処理手段による学習のための演算量が削減されるという利点もある。

行列決定手段および学習処理手段を具備する信号処理装置の具体的な態様において、行列決定手段は、分離行列を順次に生成し、学習処理手段による学習後の分離行列から各音源の方向を推定する方向推定手段と、行列決定手段が生成した分離行列に対応した各音源の方向と方向推定手段が推定した各音源の方向との相違に応じて各音源の移動の有無を判定する移動判定手段とを具備し、学習処理手段は、各音源が移動したと移動判定手段が判定した場合に、行列決定手段が生成した分離行列を初期値として学習を実行し、各音源が移動していないと移動判定手段が判定した場合に、分離行列の学習を停止し、または、分離行列を初期化せずに学習を継続する。以上の態様においては、高精度に音源を分離できる分離行列を音源の移動の前後にわたって生成することが可能である。

また、以上の各態様に係る信号処理装置は、観測信号の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音源の方向が相違する複数の音の混合音を複数の収音機器で収音した複数の観測信号から共分散行列を特定する第１行列特定処理と、複数の音のうち第１音の共分散行列を特定する第２行列特定処理と、観測信号の共分散行列から第１音の共分散行列を減次する減次処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る信号処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る信号処理装置のブロック図である。相互に間隔をあけて平面ＰL内に配置された収音機器Ｍ1および収音機器Ｍ2が信号処理装置１００に接続される。収音機器Ｍ1および収音機器Ｍ2の周囲の相異なる位置には複数の音源Ｓ（Ｓ1，Ｓ2）が存在する。音源Ｓ1から放射された音ＳV1と音源Ｓ2から放射された音ＳV2との混合音が収音機器Ｍ1および収音機器Ｍ2に到達する。収音機器Ｍ1および収音機器Ｍ2の各々は、周囲の音（音源Ｓ1からの音ＳV1と音源Ｓ2からの音ＳV2との混合音）の波形を表す観測信号Ｖ（Ｖ1，Ｖ2）を生成するマイクロホンである。収音機器Ｍ1は観測信号Ｖ1を生成し、収音機器Ｍ2は観測信号Ｖ2を生成する。

平面ＰL内の基準点ｐ（例えば収音機器Ｍ1と収音機器Ｍ2との中点）から音源Ｓ1に延在する直線Ｌ1と平面ＰLの法線Ｌnとの角度（以下「音源Ｓ1の方向」という）θ1は既知の方向に確定している。例えば、信号処理装置１００が自動車の車内に設置された場合を想定すると、運転席に着席する運転者の頭部の方向が音源（すなわち運転者）Ｓ1の方向θ1に相当する。また、発声者の音声を入力する電子機器（例えば携帯電話機）に信号処理装置１００が搭載された場合を想定すると、電子機器の本体に対して正面の方向が音源（すなわち発話者）Ｓ1の方向θ1に相当する。一方、基準点ｐから音源Ｓ2に延在する直線Ｌ2と平面ＰLの法線Ｌnとの角度（以下「音源Ｓ2の方向」という）θ2は未確定（未知）である。すなわち、音源Ｓ1は既知の方向θ1に固定的に設置されるのに対して、音源Ｓ2は可変の方向θ2に設置される。

図１に示すように、信号処理装置１００は、信号処理部１０と行列生成部２０とを含んで構成される。信号処理装置１００の各要素は、例えば、記録媒体に記録されたプログラムを実行する演算処理装置（ＣＰＵ）や観測信号Ｖの処理に専用される電子回路（ＤＳＰ）で実現される。また、信号処理装置１００の各要素が複数の集積回路に分散して搭載された構成も採用される。

信号処理部１０は、観測信号Ｖ1および観測信号Ｖ2にフィルタ処理（音源分離）を実行することで分離信号Ｕ1および分離信号Ｕ2を生成する。分離信号Ｕ1や分離信号Ｕ2は、放音機器（例えばスピーカやヘッドホン）に供給されることで音響として再生される。なお、分離信号Ｕ1および分離信号Ｕ2の一方のみを再生する構成も採用される。

行列生成部２０は、信号処理部１０が分離信号Ｕ1および分離信号Ｕ2の生成（フィルタ処理）に使用する分離行列Ｗを観測信号Ｖ1および観測信号Ｖ2から生成する。分離行列Ｗは、音源Ｓ1からの音ＳV1が分離信号Ｕ1にて強調され（音源Ｓ2からの音ＳV2が抑制され）、音源Ｓ2からの音ＳV2が分離信号Ｕ2にて強調される（音源Ｓ1からの音ＳV1が抑制される）ように設定される。すなわち、音源Ｓ1からの音ＳV1と音源Ｓ2からの音ＳV2とが分離（音源分離）される。なお、観測信号Ｖ1および観測信号Ｖ2をデジタル信号に変化するＡ/Ｄ変換器や、分離信号Ｕ1および分離信号Ｕ2をアナログ信号に変換するＤ/Ａ変換器の図示は便宜的に省略されている。

図２は、信号処理部１０のブロック図である。信号処理部１０は、観測信号Ｖ1および観測信号Ｖ2から分離信号Ｕ1を生成するフィルタ処理部３２と、観測信号Ｖ1および観測信号Ｖ2から分離信号Ｕ2を生成するフィルタ処理部３４とを含んで構成される。フィルタ処理部３２およびフィルタ処理部３４には遅延加算型（DS（delay-sum）型）ビームフォーマが利用される。すなわち、フィルタ処理部３２は、観測信号Ｖ1を係数ｗ11に応じた遅延量だけ遅延させる遅延素子３２１と、観測信号Ｖ2を係数ｗ12に応じた遅延量だけ遅延させる遅延素子３２３と、遅延素子３２１の出力と遅延素子３２３の出力とを加算することで分離信号Ｕ1を生成する加算部３２５とを含んで構成される。図２に示すように、係数ｗ11および係数ｗ12は、分離行列Ｗのうち音源Ｓ1からの音ＳV1を強調するための係数列（すなわち音源Ｓ1の分離行列）ｗ1の要素に相当する。

同様に、フィルタ処理部３４は、観測信号Ｖ1を係数ｗ21に応じた遅延量だけ遅延させる遅延素子３４１と、観測信号Ｖ2を係数ｗ22に応じた遅延量だけ遅延させる遅延素子３４３と、遅延素子３４１の出力と遅延素子３４３の出力とを加算することで分離信号Ｕ2を生成する加算部３４５とを含んで構成される。係数ｗ21および係数ｗ22は、分離行列Ｗのうち音源Ｓ2からの音ＳV2を強調するための係数列（すなわち音源Ｓ2の分離行列）ｗ2の要素に相当する。行列生成部２０は、係数列ｗ1および係数列ｗ2で構成される分離行列Ｗを生成する。したがって、分離行列Ｗの列数は音源Ｓの総数（本形態では２個）に相当し、分離行列Ｗの行数は観測信号Ｖの総数（本形態では２個）に相当する。

図１に示すように、行列生成部２０は、初期値決定部２２と学習処理部２４とを含んで構成される。初期値決定部２２は、観測信号Ｖ1および観測信号Ｖ2から分離行列Ｗ0を生成する。学習処理部２４は、分離行列Ｗ0を初期値とした逐次的な学習で、信号処理部１０が使用する分離行列Ｗを算定する。分離行列Ｗの学習には公知の技術が任意に採用される。例えば、分離信号Ｕ1と分離信号Ｕ2とが統計的に相互に独立となるように分離行列Ｗを逐次的に更新する独立成分分析（例えば高次ＩＣＡ）が分離行列Ｗの学習に好適である。

図３は、初期値決定部２２のブロック図である。初期値決定部２２は、周波数分析部５２と行列特定部５４と行列特定部５６と減次部５８と係数列特定部６２と方向推定部６４と行列決定部６６とを含んで構成される。

周波数分析部５２は、観測信号Ｖ（Ｖ1，Ｖ2）を時間軸上で区分した複数のフレームの各々について周波数スペクトルＱ（観測信号Ｖ1の周波数スペクトルＱ1および観測信号Ｖ2の周波数スペクトルＱ2）を算定する。周波数スペクトルＱの算定にはフーリエ変換（例えば短時間フーリエ変換）が利用される。番号（時刻）ｔで識別される１個のフレームの周波数スペクトルＱ1は、図４に示すように、周波数軸上に設定されたＫ個の周波数ｆ（ｆ1〜ｆK）の各々における強度ｘ1(t,f)（ｘ1(t,f1)〜ｘ1(t,fK)）の系列（周波数ビン）として算定される。同様に、周波数スペクトルＱ2は、Ｋ個の周波数の各々における強度ｘ2(t,f)（ｘ2(t,f1)〜ｘ2(t,fK)）の系列である。周波数分析部５２は、Ｋ個の周波数ｆの各々について観測ベクトルＸ(t,f)（Ｘ(t,f1)〜Ｘ(t,fK)）をフレーム毎に生成する。観測ベクトルＸ(t,f)は、周波数スペクトルＱ1の強度ｘ1(t,f)と周波数スペクトルＱ2の強度ｘ2(t,f)とを要素とするベクトルである（Ｘ(t,f)＝［ｘ1(t,f)^＊ｘ2(t,f)^＊］^Ｈ）。符号＊は複素共役を意味し、符号Ｈは行列の転置（エルミート転置）を意味する。

図５は、周波数ｆの観測ベクトルＸ(t,f)を複数のフレームについてプロットした散布図である。図５の横軸は周波数スペクトルＱ1の強度ｘ1(t,f)に相当し、図５の縦軸は周波数スペクトルＱ2の強度ｘ2(t,f)に相当する。音源Ｓ1からの音ＳV1が優勢な観測ベクトルＸ(t,f)は軸線α1に沿って領域Ａ1内に分布し、音源Ｓ2からの音ＳV2が優勢な観測ベクトルＸ(t,f)は軸線α2に沿って領域Ａ2内に分布するという傾向が把握される。軸線α1と軸線α2とは交差する。

図３の行列特定部５４は、観測信号Ｖ（Ｖ1，Ｖ2）の共分散行列Ｒxx(f)をＫ個の周波数ｆの各々について特定する。共分散行列Ｒxx(f)は、観測ベクトルＸ(t,f)の共分散を要素とする行列である。したがって、共分散行列Ｒxx(f)は例えば以下の数式(1)で定義される。
Ｒxx(f)＝Ｅ［Ｘ(t,f)Ｘ(t,f)^Ｈ］
＝Σ_{t}Ｘ(t,f)Ｘ(t,f)^Ｈ ……(1)

数式(1)における記号Ｅは期待値（加算値）を意味し、記号Σ_{t}は複数（例えば100個）のフレームにわたる加算を意味する。すなわち、共分散行列Ｒxx(f)は、観測ベクトルＸ(t,f)と観測ベクトルＸ(t,f)の転置との乗算（２行×２列）を複数のフレームにわたって加算した行列である。なお、ここでは共分散行列Ｒxx(f)の算定に使用される複数のフレームの観測ベクトルＸ(t,f)はゼロ平均とする。すなわち、以下の数式(2)のように、共分散行列Ｒxx(f)の算定に使用される複数のフレームにわたって観測ベクトルＸ(t,f)を加算（平均）した行列は零行列となる。
Ｅ［Ｘ(t,f)］＝［Ｅ［ｘ1(t,f)］Ｅ［ｘ2(t,f)］］^Ｈ＝［００］^Ｈ ……(2)

ここで、音源Ｓ1からの音ＳV1に対応する共分散行列Ｒxx1(f)と、音源Ｓ2からの音ＳV2に対応する共分散行列Ｒxx2(f)とを想定する。共分散行列Ｒxx1(f)は、図５の領域Ａ1に分布する観測ベクトルＸ(t,f)の共分散に相当し、共分散行列Ｒxx2(f)は、図５の領域Ａ2に分布する観測ベクトルＸ(t,f)の共分散に相当する。図５からも理解されるように、観測信号Ｖ（Ｖ1，Ｖ2）の共分散行列Ｒxx(f)は、音源Ｓ1からの音ＳV1が優勢な観測ベクトルＸ(t,f)に対応した共分散行列Ｒxx1(f)と、音源Ｓ2からの音ＳV2が優勢な観測ベクトルＸ(t,f)に対応した共分散行列Ｒxx2(f)との加算として近似される（数式(3)）。したがって、音源Ｓ2からの音ＳV2の共分散行列Ｒxx2(f)は、以下の数式(3a)に示すように、観測信号Ｖ（Ｖ1，Ｖ2）の共分散行列Ｒxx(f)と音源Ｓ1からの音ＳV1の共分散行列Ｒxx1(f)との差分として近似される。
Ｒxx(f)≒Ｒxx1(f)＋Ｒxx2(f) ……(3)
Ｒxx2(f)≒Ｒxx(f)−Ｒxx1(f) ……(3a)

図３の行列特定部５６は、音源Ｓ1の方向θ1が既知の方向に確定していることを利用してＫ個の周波数ｆの各々の共分散行列Ｒxx1(f)を特定する。行列特定部５６は、第１演算部５６２と第２演算部５６４とを含んで構成される。第１演算部５６２は、Ｋ個の周波数ｆの各々について係数列ｗ1(f)を算定する。係数列ｗ1(f)は、音源Ｓ1から放射された周波数ｆの音ＳV1を分離するための行列（周波数ｆの音ＳV1の分離行列）である。すなわち、係数列ｗ1(f)に応じた遅延量（ｗ11，ｗ12）がフィルタ処理部３２の遅延素子３２１および遅延素子３２３に設定されることで周波数ｆの音ＳV1が強調される。

第１演算部５６２による係数列ｗ1(f)の算定には公知の技術が任意に採用される。例えば、音源Ｓ1の位置でインパルス音を発生させたときに収音機器Ｍ1および収音機器Ｍ2が収音したインパルス応答を解析することで、音源Ｓ1の周波数ｆの音ＳV1が強調されるように係数列ｗ1(f)（逆フィルタ係数）を算定する方法が採用される。また、既知の方向θ1から到来する周波数ｆの音ＳV1が強調される（すなわち、フィルタ処理部３２が方向θ1にビームを形成する）ように方向θ1から係数列ｗ1(f)を算定する方法も好適である。方向θ1は、基準点ｐと既知の音源Ｓ1との実際の位置から事前に特定される。また、音源Ｓ1の位置でインパルス音を発生させたときに採取されるインパルス応答から方向θ1を推定する方法も採用される。第１演算部５６２が算定した係数列ｗ1(f)は、音ＳV1が優勢な観測ベクトルＸ(t,f)が分布する領域Ａ1（図５）の軸線α1の方向のベクトル（固有ベクトル）に相当する。

図３の第２演算部５６４は、第１演算部５６２が算定した係数列ｗ1(f)から音源Ｓ1からの音ＳV1の共分散行列Ｒxx1(f)を推定する。いま、係数列ｗ1(f)が領域Ａ1の軸線α1に対応することを考慮して、共分散行列Ｒxx1(f)を以下の数式(4)で定義する。なお、記号「^Ｈ」は行列の転置（エルミート転置）を意味する。
Ｒxx1(f)＝σ^２ｗ1(f)ｗ1(f)^Ｈ ……(4)

数式(4)の係数σ^２は、係数列ｗ1(f)で規定されるベクトルの長さを軸線α1の方向における領域Ａ1の長さに調整するための数値（以下「調整係数」という）である。第２演算部５６４は、観測信号Ｖの共分散行列Ｒxx(f)から数式(4)の共分散行列Ｒxx1(f)を減算した行列の各要素がゼロ以上になる（すなわち、共分散行列Ｒxx2(f)が正定値行列である）という数式(5)の条件のもとで調整係数σ^２が最大値となるように数式(4)の共分散行列Ｒxx1(f)を算定する。
Ｒxx(f)−σ^２ｗ1(f)ｗ1(f)^Ｈ≧０ ……(5)

音源Ｓ1の方向θ1が確定している音ＳV1については以上のように共分散行列Ｒxx1(f)を所期の精度で特定することが可能である。一方、音源Ｓ2の方向θ2は確定していない（すなわち未知である）から、共分散行列Ｒxx1(f)と同様の方法で音源Ｓ2からの音ＳV2の共分散行列Ｒxx2(f)を高精度に特定することは困難である。そこで、図３の減次部５８は、数式(3a)に示したように、行列特定部５４が観測信号Ｖについて特定した共分散行列Ｒxx(f)から、行列特定部５６が音ＳV1について特定した共分散行列Ｒxx1(f)を減次（deflation）することで、音源Ｓ2の音ＳV2の共分散行列Ｒxx2(f)をＫ個の周波数ｆの各々について算定する。減次部５８による減次（減算）は、図６に模式的に図示したように、音源Ｓ1からの音ＳV1が優勢な観測ベクトルＸ(t,f)（図５における領域Ａ1内の観測ベクトルＸ(t,f)）を観測信号Ｖの全体の観測ベクトルＸ(t,f)の集合から除去する処理に相当する。

図３の係数列特定部６２は、減次部５８が算定した共分散行列Ｒxx2(f)から係数列ｗ2(f)（ｗ21，ｗ22）を特定する。係数列ｗ2(f)は、音源Ｓ2から放射された周波数ｆの音ＳV2を分離するための行列（周波数ｆの音ＳV2の分離行列）である。すなわち、係数列ｗ2(f)に応じた遅延量（ｗ21，ｗ22）がフィルタ処理部３４に設定されることで周波数ｆの音ＳV2が強調される。係数列ｗ2(f)は、Ｋ個の周波数ｆの各々について算定される。図５および図６から理解されるように、共分散行列Ｒxx2(f)においては、音源Ｓ1からの音ＳV1が優勢な観測ベクトルＸ(t,f)の影響が除去されているから、音源Ｓ2からの音ＳV2を適切に分離できる係数列ｗ2(f)を共分散行列Ｒxx2(f)から高精度に特定することが可能である。係数列ｗ2(f)の特定には公知の技術が任意に採用されるが、例えば以下に例示する解法１および解法２が好適である。

［解法１］
遅延加算型ビームフォーマで構成されるフィルタ処理部３４（図２）においては、観測信号Ｖ1の強度ｘ1(t,f)および遅延素子３４１の係数ｗ21の乗算値と、観測信号Ｖ2の強度ｘ2(t,f)および遅延素子３４３の係数ｗ22の乗算値との加算（ｗ21ｘ1(t,f)＋ｗ22ｘ2(t,f)）が分離信号Ｕ2として加算部３４５から出力される。したがって、分離信号Ｕ2は、以下の数式(6)のように、係数列ｗ2(f)の転置（エルミート転置）行列ｗ2(f)^Ｈと強度ｘ1(t,f)および強度ｘ2(t,f)を要素とする観測ベクトルＸ(t,f)との乗算に相当する。
ｗ21ｘ1(t,f)＋ｗ22ｘ2(t,f)＝ｗ2(f)^ＨＸ(t,f) ……(6)

分離信号Ｕ2のパワーを検討するために数式(6)を自乗すると以下の数式(7)が導出される。数式(7)の導出においては、観測ベクトルＸ(t,f)と転置（エルミート転置）行列Ｘ(t,f)^Ｈとの乗算が共分散行列Ｒxx(f)に相当するという数式(1)の関係を利用した。
｛ｗ2(f)^ＨＸ(t,f)｝^２＝ｗ2(f)^ＨＸ(t,f)ｗ2(f)^ＨＸ(t,f)
＝ｗ2(f)^ＨＸ(t,f)Ｘ(t,f)^Ｈｗ2(f)
＝ｗ2(f)^ＨＲxx(f)ｗ2(f) ……(7)

数式(7)から理解されるように、数式(7)の演算値（ｗ2(f)^ＨＲxx(f)ｗ2(f)）が最大化するように係数列ｗ2(f)を選定すれば、分離信号Ｕ2のパワーを最大化する（すなわち音源Ｓ2からの音ＳV2を強調する）ことが可能である。すなわち、共分散行列Ｒxx(f)の固有ベクトル（第１固有ベクトル）に相当する係数列ｗ2(f)を算定する固有値問題は、数式(7)を最大化するという最適化問題（主成分分析）と等価であると言える。

以上の事実を考慮して、解法１においては、以下の数式(8b)の条件のもとで、数式(8a)に示すように、係数列ｗ2(f)の転置（エルミート転置）行列ｗ2(f)^Ｈと減次部５８が算定した共分散行列Ｒxx2(f)と係数列ｗ2(f)との乗算値が最大となるように係数列ｗ2(f)を選定する。記号maxは括弧内の数値の最大化を意味する。
max｛ｗ2(f)^ＨＲxx2(f)ｗ2(f)｝ ……(8a)
ｗ2(f)^Ｈｗ2(f)＝１ ……(8b)

［解法２］
共分散行列Ｒxx2(f)が共分散行列Ｒxx(f)と共分散行列Ｒxx1(f)の差分に近似される（Ｒxx2(f)≒Ｒxx(f)−Ｒxx1(f)）ことを考慮すると、前述の数式(8a)は以下の数式(8c)に変形される。
max｛ｗ2(f)^Ｈ（Ｒxx(f)−Ｒxx1(f)）ｗ2(f)｝
＝max｛ｗ2(f)^ＨＲxx(f)ｗ2(f)−ｗ2(f)^ＨＲxx1(f)ｗ2(f)｝ ……(8c)

共分散行列Ｒxx1(f)は正定値行列であるから、数式(8c)の第２項（ｗ2(f)^ＨＲxx1(f)ｗ2(f)）は常に正数となる。したがって、数式(8c)は、第２項（ｗ2(f)^ＨＲxx1(f)ｗ2(f)）に対する第１項（ｗ2(f)^ＨＲxx(f)ｗ2(f)）の相対比を最大化する（すなわち、第１項を最大化しつつ第２項を最小化する）最適化問題として把握される。すなわち、数式(8c)は以下の数式(8d)に置換される。
max｛ｗ2(f)^ＨＲxx(f)ｗ2(f)／ｗ2(f)^ＨＲxx1(f)ｗ2(f)｝ ……(8d)

ラグランジュの未定乗数法を利用すると、数式(8d)の最適化問題は、以下の数式(8e)の関数Ｊ(ｗ2(f))を最小化する問題に置換される。数式(8e)の記号λはラグランジュの未定乗数である。
Ｊ(ｗ2(f))＝ｗ2(f)^ＨＲxx(f)ｗ2(f)−λｗ2(f)^ＨＲxx1(f)ｗ2(f) ……(8e)

関数Ｊ(ｗ2(f))を係数列ｗ2(f)で微分した結果がゼロとなる（すなわち関数Ｊ(ｗ2(f))の関数値が最小となる）から、係数列ｗ2(f)は、以下の数式(8f)における一般化固有値問題の固有ベクトルとして算定される。
Ｒxx(f)ｗ2(f)＝λＲxx1(f)ｗ2(f) ……(8f)
以上が係数列ｗ2(f)を特定する具体的な方法である。

図３の方向推定部６４は、係数列特定部６２がＫ個の周波数ｆの各々について算定した係数列ｗ2(f)から音源Ｓ2の方向θ2を推定する。さらに詳述すると、方向推定部６４は、第１に、係数列ｗ2(f)に対応する方向θ2(f)をＫ個の周波数ｆの各々について特定する。係数列ｗ2(f)から方向θ2(f)を推定する方法には公知の技術が任意に採用される。例えば、H. Saruwatari, et. al., "Blind Source Separation Combining Independent Component Analysis and Beamforming", EURASIP Journal on Applied Signal Processing Vol.2003, No.11, pp.1135-1146, 2003に開示された方法が好適である。第２に、方向推定部６４は、Ｋ個の方向θ2(f)から方向θ2を算定する。例えば、Ｋ個の方向θ2(f)の中央値（最大値と最小値との平均値）やＫ個の方向θ2(f)の平均値が方向θ2として算定される。

図３の行列決定部６６は、音源Ｓ1の方向θ1と方向推定部６４が推定した方向θ2とを利用して分散行列（初期値）Ｗ0を特定する。さらに詳述すると、行列決定部６６は、信号処理部１０のフィルタ処理部３２が方向θ1にビームを形成するように遅延素子３２１の係数ｗ11と遅延素子３２３の係数ｗ12とを決定し、フィルタ処理部３４が方向θ2にビームを形成するように遅延素子３４１の係数ｗ21と遅延素子３４３の係数ｗ22とを決定する。そして、行列決定部６６は、方向θ1および方向θ2から決定した各係数（ｗ11，ｗ12，ｗ21，ｗ22）を要素とする２行２列の分離行列Ｗ0を生成する。分離行列Ｗ0について学習処理部２４が学習を実行することで、信号処理部１０が実際に使用する分離行列Ｗが決定される。

第１実施形態においては、観測信号Ｖ（Ｖ1，Ｖ2）の共分散行列Ｒxx(f)から音源Ｓ1からの音ＳV1の共分散行列Ｒxx1(f)を減次（減算）することで未知の音源Ｓ2からの音ＳV2の共分散行列Ｒxx2(f)が算定されるから、係数列ｗ1(f)と係数列ｗ2(f)とが直交する（図５の軸線α1と軸線α2とが直交する）という条件は不要である。したがって、係数列ｗ1(f)と係数列ｗ2(f)とが直交するという制約のもとで分離行列の初期値を設定する従来の技術（以下「対比例」という）と比較すると、音ＳV1と音ＳV2とを高精度に分離できる特性に近い分離行列Ｗ0を初期値の段階から生成することが可能である。すなわち、分離行列Ｗ0の初期値と学習後の分離行列Ｗとの乖離が低減されるから、学習に必要な時間（すなわち、音ＳV1と音ＳV2とを所期の精度で分離できる特性に分離行列Ｗが収束するまでの時間）が短縮されるという利点や、分離行列Ｗが学習の過程で不適切な特性に収束する可能性が低減されるという利点がある。さらに、音源Ｓ1の方向θ1が確定しているという条件のもとで音源Ｓ2の音ＳV2の係数列ｗ2(f)が算定されるから、係数ｗ1(f)と係数ｗ2(f)とが周波数ｆ毎に入替わるというPermutation（置換）の問題が発生する可能性を低減できるという利点もある。

図７は、分離行列Ｗの学習の回数（横軸）と雑音抑圧率（縦軸）NRRとの相関を第１実施形態と対比例とについて示すグラフである。雑音抑圧率NRR（noise reduction rate）は、分離信号Ｕ1における音ＳV2の強度に対する音ＳV1の強度の比率（すなわち、音ＳV1を目的音として音ＳV2を雑音としたときのＳＮ比）SNR_OUTと、観測信号Ｖ1における音ＳV2の強度に対する音ＳV1の強度の比率SNR_INとの差分である（NRR＝SNR_OUT−SNR_IN）。したがって、雑音抑圧率NRRが高いほど音ＳV1と音ＳV2との分離の精度（音ＳV1の強調の度合および音ＳV2の抑制の度合）が高い。

図７に示すように、第１実施形態および対比例の何れにおいても、学習の回数が増加するほど雑音抑圧率NRRは上昇するが、第１実施形態の雑音抑圧率NRRは、学習の回数に拘わらず対比例の雑音抑圧率NRRを上回る。すなわち、分離信号Ｕ1において音ＳV1が音ＳV2に対して充分に強調されていることが理解される。また、第１実施形態における雑音抑圧率NRRは、対比例と比較して学習の回数が少ない段階で飽和していることから、所期の分離性能を実現するために必要な学習の回数（処理量や時間）が対比例と比較して削減されることが理解される。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態を説明する。なお、以下の各形態において作用や機能が第１実施形態と同等である要素については、以上と共通の符号を付して各々の詳細な説明を適宜に省略する。図８に示すように、第２実施形態の初期値決定部２２は、第１実施形態に白色化部７２と有色化部７４とを追加した構成である。

白色化部７２は、観測信号Ｖ（Ｖ1，Ｖ2）を白色化する。白色化は、図９に示すように、白色化後の観測ベクトルＸ(t,f)に対応する共分散行列Ｒxx_white(f)が単位行列Ｉとなるように、周波数分析部５２が生成した各観測ベクトルＸ(t,f)を変換する処理である。さらに詳述すると、白色化部７２は、観測ベクトルＸ(t,f)を白色化しない場合の共分散行列Ｒxx(f)から生成される白色化行列Ｒxx(f)^−１/２を各観測ベクトルＸ(t,f)に乗算する。したがって、白色化後の観測ベクトルＸ(t,f)に対応する共分散行列Ｒxx_white(f)は、以下の数式(9)に示すように単位行列Ｉとなる。
Ｒxx_white(f)＝Ｅ［Ｒxx(f)^−１/２Ｘ(t,f)Ｘ(t,f)^ＨＲxx(f)^−Ｈ/２］
＝Ｉ ……(9)

図９から理解されるように、数式(3)の共分散行列Ｒxx(f)を数式(9)の共分散行列Ｒxx_white(f)に置換すると、音源Ｓ1からの音ＳV1に対応する共分散行列Ｒxx1_white(f)と音源Ｓ2からの音ＳV2に対応する共分散行列Ｒxx2_white(f)との加算で共分散行列Ｒxx_white(f)を近似する以下の数式(3b)が導出される。したがって、音源Ｓ2からの音ＳV2に対応する共分散行列Ｒxx2_white(f)は、以下の数式(3c)に示すように、単位行列Ｉ（すなわち、白色化後の共分散行列Ｒxx_white(f)）から音ＳV1の共分散行列Ｒxx1_white(f)を減次した行列として近似される。
Ｒxx_white(f)＝Ｒxx1_white(f)＋Ｒxx2_white(f) ……(3b)
Ｒxx2_white(f)＝Ｒxx_white(f)−Ｒxx1_white(f)
＝Ｉ−Ｒxx1_white(f) ……(3c)

図８における行列特定部５６の第１演算部５６２は、以下の数式(10)の演算を実行することで、Ｋ個の周波数ｆの各々について係数列ｗ1_white(f)を算定する。係数列ｗ1_white(f)は、白色化後の観測ベクトルＸ(t,f)に対応した係数列ｗ1(f)に相当する。数式(10)の共分散行列Ｒxx(f)は、白色化前の観測ベクトルＸ(t,f)について数式(1)の演算を実行することで行列特定部５４が算定する。また、行列特定部５６の第２演算部５６４は、第１演算部５６２が算定した係数列ｗ1_white(f)について数式(11)の演算を実行することで、Ｋ個の周波数ｆの各々について共分散行列Ｒxx1_white(f)を算定する。
ｗ1_white(f)＝Ｒxx(f)^−１/２ｗ1(f)／‖Ｒxx(f)^−１/２ｗ1(f)‖ ……(10)
Ｒxx1_white(f)＝ｗ1_white(f)ｗ1_white(f)^Ｈ／｛ｗ1_white(f)^Ｈ＊Ｒxx(f)^−１＊ｗ1_white(f)｝ ……(11)

図８の減次部５８は、図９に「減次」として示すように、行列特定部５６が特定した共分散行列Ｒxx1_white(f)を単位行列Ｉから減次する（すなわち数式(3c)の演算を実行する）ことで、Ｋ個の周波数ｆの各々について音ＳV2の共分散行列Ｒxx2_white(f)を算定する。また、係数列特定部６２は、減次部５８による算定後の共分散行列Ｒxx2_white(f)から係数列ｗ2(f)を算定する。係数列ｗ2_white(f)の算定には、共分散行列Ｒxx2(f)から係数列ｗ2(f)を算定する第１実施形態と同様の方法が採用される。

図８の有色化部７４は、図９に「有色化」として示すように、係数列特定部６２が特定した係数列ｗ2_white(f)を有色化することで係数列ｗ2(f)を算定する。以下の数式(12)に示すように、有色化は、白色化行列Ｒxx(f)^−１/２の逆行列である有色化行列Ｒxx(f)^１/２を係数列ｗ2_white(f)に乗算する処理である。係数列ｗ2(f)の算定後の処理（方向θ2の推定や分離行列Ｗ0の決定）は第１実施形態と同様である。
ｗ2(f)＝Ｒxx(f)^１/２ｗ2_white(f) ……(12)

第２実施形態においても第１実施形態と同様の効果が実現される。さらに、第２実施形態においては、観測信号Ｖ（観測ベクトルＸ(t,f)）が白色化されるから、単位行列Ｉ（共分散行列Ｒxx2_white(f)）を利用した演算（数式(3c)）で共分散行列Ｒxx2_white(f)を算定することが可能である。したがって、白色化を実行しない第１実施形態と比較して、初期値決定部２２（例えば減次部５８や係数列特定部６２）における演算が簡素化されるという利点がある。

＜Ｃ：第３実施形態＞
図１０は、本発明の第３実施形態に係る信号処理装置１００のブロック図である。図１０に示すように、第３実施形態の信号処理装置１００は、方向推定部８２と移動判定部８４とを第１実施形態に追加した構成である。図１０の初期値決定部２２（行列決定部６６）は、複数回にわたって順次に初期的な分離行列Ｗ0を特定する。例えば、初期値決定部２２は、所定個（例えば100個）の観測ベクトルＸ(t,f)を単位として、共分散行列（Ｒxx(f)，Ｒxx1(f)，Ｒxx2(f)）の特定と分離行列Ｗ0の特定とを順次に実行する。

方向推定部８２は、学習処理部２４による学習後の分離行列Ｗから音源Ｓ1の方向θ1と音源Ｓ2の方向θ2とを推定する。なお、初期値決定部２２（行列決定部６６）にて使用される方向θ1や方向θ2と区別するために、学習後の分離行列Ｗから推定される方向に以下では添字“_W”を付加する（音源Ｓ1の方向θ1_W，音源Ｓ2の方向θ2_W）。

具体的には、方向推定部８２は、分離行列Ｗを構成する係数列ｗ1（ｗ11，ｗ12）から音源Ｓ1の方向θ1_Wを特定し、分離行列Ｗを構成する係数列ｗ2（ｗ21，ｗ22）から音源Ｓ2の方向θ2_Wを特定する。例えば、方向推定部８２は、係数列ｗ1の設定でフィルタ処理部３２が形成するビームの方向を音源Ｓ1の方向θ1_Wとして特定し、係数列ｗ2の設定でフィルタ処理部３４が形成するビームの方向を音源Ｓ2の方向θ2_Wとして特定する。また、第１実施形態において係数列ｗ2(f)から方向θ2(f)を推定した方法も、方向θ1_Wや方向θ2_Wの推定に好適に採用される。

図１０の移動判定部８４は、各音源Ｓの移動の有無を判定する。具体的には、移動判定部８４は、方向推定部８２が推定する方向θ1_Wおよび方向θ2_Wと、初期値決定部２２（行列決定部６６）にて使用される方向θ1および方向θ2（すなわち、分離行列Ｗ0に対応する各音源Ｓの方向）とを比較する。移動判定部８４は、方向θ1_Wと方向θ1との相違に応じて音源Ｓ1の移動の有無を判定するとともに、方向θ2_Wと方向θ2との相違に応じて音源Ｓ2の移動の有無を判定する。移動判定部８４による判定は、例えば方向推定部６４（図３，図８）が音源Ｓ2の方向θ2を推定するたびに順次に実行される。

本形態の移動判定部８４は、方向θi_W（ｉ＝１,２）と方向θiとの差分の絶対値Δiを算定する（Δi＝|θi_W−θi|）。そして、移動判定部８４は、差分Δiが閾値τを上回る場合には音源Ｓiが移動したと判定し、差分Δiが閾値τを下回る場合には音源Ｓiが移動していない（あるは移動量が少ないので移動していないとみなせる）と判定する。なお、音源Ｓ1が固定された状況（音源Ｓ1が移動しない状況）を前提とすれば、音源Ｓ2の移動の有無のみを差分Δ2から判定する構成が好適に採用される。また、音源Ｓ1および音源Ｓ2の双方が移動し得る状況を前提とすると、差分Δ1および差分Δ2の少なくとも一方が閾値τを上回る場合（すなわち、音源Ｓ1および音源Ｓ2の少なくとも一方が移動した場合）に移動判定部８４による判定の結果は肯定（音源が移動した）となる。

図１０の学習処理部２４は、音源Ｓが移動したと移動判定部８４が判定した場合に、初期値決定部２２が決定した分離行列Ｗ0を初期値とした学習を実行することで分離行列Ｗを特定する。一方、音源Ｓが移動していないと移動判定部８４が判定した場合、学習処理部２４は、分離行列Ｗの学習（分離行列Ｗの更新）を停止する。したがって、学習処理部２４が過去の学習で特定した分離行列Ｗが継続的に信号処理部１０にて使用される。方向推定部８２は、分離行列Ｗが更新されるたびに（すなわち音源Ｓが移動するたびに）、更新後の分離行列Ｗから方向θ1_Wおよび方向θ2_Wを推定する。

第３実施形態においては、音源Ｓが移動しない場合には学習処理部２４による学習が停止するから、音源Ｓの移動の有無に拘わらず学習処理部２４が学習を実行する構成と比較して、学習処理部２４による処理の負荷が軽減されるという利点がある。また、音源Ｓが移動した場合には、学習処理部２４による学習に適用される分離行列Ｗ0（学習の初期値）が更新されるから、図１１に示すように、各音源Ｓからの音ＳVを移動の前後にわたって高精度に分離することが可能である。

図１１は、音源Ｓ1および音源Ｓ2の移動を検出しない構成（例えば第１実施形態や第２実施形態）のもとで音源Ｓ2を移動した場合の移動後の雑音抑圧率NRRを示す図表である。音源Ｓ1の方向θ1を０°（正面）に固定した場合が想定されている。図１１の縦方向の項目は移動前の音源Ｓ2の方向θ2を意味し、図１１の横方向の項目は移動後の音源Ｓ2の方向θ2を意味する。例えば、音源Ｓ2の方向θ2が−90°から−45°に変化した場合における移動後の雑音抑圧率NRRは11.1である。図１１に下線を付して示すように、音源Ｓ2の移動を検出しない構成では、音源Ｓ2が音源Ｓ1の方向θ1（０°）を跨いで移動した場合に雑音抑圧率NRRが顕著に低下するという傾向が図１１から把握される。

一方、図１１の「第３実施形態」という行部分の各数値は、第３実施形態のもとで音源Ｓ2が横方向の項目の各角度に移動した各場合の雑音抑圧率NRRを意味する。第３実施形態においては、音源Ｓ2が移動するたびに移動後の方向θ2に応じた分離行列Ｗの学習（分離行列Ｗ0の初期化）が実行されるから、図１１から把握されるように、音源Ｓ2の移動の前後の角度θ2に拘わらず、移動後の雑音抑圧率NRRは高い数値に維持される。すなわち、第３実施形態によれば、音源Ｓ2が随時に移動する環境においても音ＳV1と音ＳV2とを高精度に分離することが可能である。

また、分離行列Ｗから推定される方向θi_Wと分離行列Ｗ0に対応する方向θi（すなわち分離行列Ｗ0の生成に使用される方向θi）とを比較することで音源Ｓiの移動の有無が判定されるから、音源Ｓiの方向θiを検出するための特別な仕組（例えば、特開2007-318373号公報に開示された構成におけるジャイロセンサ）は不要である。したがって、信号処理装置１００の構成の簡素化や製造コストの低減が実現される。

なお、以上の説明では、音源Ｓが移動しない場合に分離行列Ｗの学習を停止する構成を例示したが、音源Ｓが移動しない場合に分離行列Ｗ0を初期化しない（過去の初期化から継続中の学習は継続的に実行する）構成も好適である。音源Ｓが移動しない場合に分離行列Ｗ0の初期化を停止する構成によれば、例えば分離行列Ｗ0が定期的に初期化される構成と比較して、学習後の分離行列Ｗが、各音源Ｓの位置に応じた適切な特性（すなわち高精度な音源分離が可能な特性）に安定的に維持されるという利点がある。

＜Ｄ：変形例＞
以上に例示した各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合せてもよい。

（１）変形例１
以上の各形態においては、所定の方向の音を強調する遅延加算型ビームフォーマをフィルタ処理部３２およびフィルタ処理部３４として利用したが、所定の方向の音を抑圧する（すなわち死角を形成する）死角制御型（null）ビームフォーマをフィルタ処理部３２およびフィルタ処理部３４として利用した構成も好適である。例えば、図２のフィルタ処理部３２の加算部３２５およびフィルタ処理部３４の加算部３４５を減算部に変更することで死角制御型ビームフォーマが実現される。死角制御型ビームフォーマを採用した場合、行列決定部６６は、方向θ1に死角が形成されるようにフィルタ処理部３２の各係数（ｗ11，ｗ12）を決定し、方向θ2に死角が形成されるようにフィルタ処理部３４の各係数（ｗ21，ｗ22）を決定する。したがって、分離信号Ｕ1においては音源Ｓ1からの音ＳV1が抑制され（音ＳV2が強調され）、分離信号Ｕ2においては音源Ｓ2からの音ＳV2が抑制される（音ＳV1が強調される）。

（２）変形例２
行列特定部５６が係数列ｗ1(f)や共分散行列Ｒxx1(f)を特定する方法は任意である。例えば、第１実施形態においては、音源Ｓ1から採取したインパルス応答が強調されるように遅延加算型ビームフォーマ（フィルタ処理部３２）の係数列ｗ1(f)を決定したが、遅延加算型ビームフォーマに代えて、死角制御型ビームフォーマや適応型ビームフォーマを利用して係数列ｗ1(f)を決定する構成も採用される。

また、音源Ｓ1のみが音ＳV1を発生したときの共分散行列Ｒxx(f)を音ＳV1の共分散行列Ｒxx1(f)として特定する方法も好適である。各周波数ｆの係数列ｗ1(f)は共分散行列Ｒxx1(f)から特定される。共分散行列Ｒxx1(f)から係数列ｗ1(f)を特定する方法には、共分散行列Ｒxx2(f)から係数列ｗ2(f)を特定する第１実施形態の解法１または解法２と同様の方法（主成分分析）が採用される。

また、MUSIC（multiple signal classification）法や最小分散法で推定した音源Ｓ1の方向θ1から各種のビームフォーマ（例えば適応型ビームフォーマ）を利用して係数列ｗ1(f)や共分散行列Ｒxx1(f)を特定する方法、あるいは、因子分析で特定した因子ベクトルや正準相関分析で特定した正準ベクトルを係数列ｗ1(f)として共分散行列Ｒxx(f)を特定する方法も採用される。

（３）変形例３
以上の各形態においては、信号処理部１０や学習処理部２４を具備する信号処理装置１００を例示したが、信号処理部１０や学習処理部２４を省略した信号処理装置１００も実現される。信号処理装置１００の行列決定部６６が生成した初期的な分離行列Ｗ0を信号処理装置１００とは別体の装置の学習処理部２４に提供することで分離行列Ｗが生成される。また、学習処理部２４による学習は本発明において必須ではない。すなわち、行列決定部６６の生成した分離行列Ｗ0を分離行列Ｗとして信号処理部１０が使用する構成（学習処理部２４を省略した構成）も採用される。

以上の各形態においては、係数列特定部６２が特定した係数列ｗ2(f)から音源Ｓ2の方向θ2を推定したうえで係数列ｗ2（分離行列Ｗ0）を算定したが、方向θ2の推定は本発明において必須ではない。例えば、係数列特定部６２が特定した係数列ｗ2(f)から直接に分離行列Ｗ0の係数列ｗ2を算定する構成も採用される。また、信号処理装置１００が係数列ｗ2(f)まで特定する必要は必ずしもない。例えば、減次部５８が算定した共分散行列Ｒxx2(f)が信号処理装置１００とは別体の装置に提供されて係数列ｗ2(f)の特定や分離行列Ｗ0の生成に利用される構成も好適である。以上のように係数列特定部６２や方向推定部６４を信号処理装置１００が具備しない構成であっても、減次部５８が生成した共分散行列Ｒxx2(f)を利用することで、各音の分離行列の直交性の有無に拘わらず分離行列を高精度に推定するという所期の効果は実現される。すなわち、各音の分離行列の直交性の有無に拘わらず分離行列を高精度に推定するという効果に着目したひとつの形態に係る信号処理装置１００においては、観測信号Ｖの共分散行列Ｒxx(f)から音源Ｓ1からの音ＳV1の共分散行列Ｒxx1(f)を減次（減算）する減次部５８が重要な要素であり、他の要素の有無や具体的な構成は任意である。

（４）変形例４
以上の各形態においては音源Ｓ（Ｓ1，Ｓ2）が２個である場合を例示したが、３個以上の音源Ｓからの音を分離する場合にも本発明は適用される。行列特定部５６や減次部５８の動作は、音源Ｓの個数をＮ（Ｎは２以上の自然数）として以下のように一般化される。行列特定部５６は、音源Ｓの方向が確定している(Ｎ−１)個の音ＳVの各々について共分散行列Ｒxx1(f)を特定する。減次部５８は、行列特定部５４が特定した共分散行列Ｒxx(f)から(Ｎ−１)個の共分散行列Ｒxx1(f)を減次することで、音源Ｓの方向が確定していない音ＳVの共分散行列Ｒxx2(f)を特定する。なお、信号処理装置１００にはＮ個以上の収音機器Ｍが接続される。第３実施形態においては、Ｎ個の音源Ｓの各々について差分値Δ（Δ1〜ΔN）が算定され、音源Ｓiの移動の有無が差分値Δiに応じて判定される。

もっとも、信号処理装置１００に対する方向が確定していない音源Ｓが１個であることは本発明において必須ではない。例えば、Ｎ個の音源Ｓのうちのｍ個（ｍは２以上の自然数）の音源Ｓの方向が確定していない場合、方向が確定している(Ｎ−ｍ)個の音源Ｓについて行列特定部５６が共分散行列Ｒxx1(f)を特定し、観測信号Ｖの共分散行列Ｒxx(f)から減次部５８が(Ｎ−ｍ)個の共分散行列Ｒxx1(f)を減次する。減次部５８が算定する共分散行列は、方向が未確定のｍ個の音源Ｓからの音の混合音に対応する共分散行列となる。減次後の共分散行列から、公知のブラインド音源分離を利用することで、未確定のｍ個の音源Ｓの各々に対応する係数列（ひいては分離行列Ｗ）を特定することが可能である。以上の構成によっても、共分散行列Ｒxx1(f)の減次を利用しない構成と比較すれば、各音の分離行列の直交性の有無に拘わらず分離行列を高精度に推定するという所期の効果は実現される。

本発明の第１実施形態に係る信号処理装置のブロック図である。信号処理部のブロック図である。初期値決定部のブロック図である。観測ベクトルを説明するための概念図である。観測ベクトルの散布図である。共分散行列の減次の効果を説明するための模式図である。第１実施形態の効果を説明するためのグラフである。第２実施形態における初期値決定部のブロック図である。初期値決定部の動作を説明するための概念図である。本発明の第３実施形態に係る信号処理装置のブロック図である。第３実施形態の効果を説明するための図表である。

符号の説明

１００……信号処理装置、１０……信号処理部、２０……行列生成部、２２……初期値決定部、２４……学習処理部、３２，３４……フィルタ処理部、５２……周波数分析部、５４……行列特定部、５６……行列特定部、５６２……第１演算部、５６４……第２演算部、５８……減次部、６２……係数列特定部、６４……方向推定部、６６……行列決定部、７２……白色化部、７４……有色化部、８２……方向推定部、８４……移動判定部。

Claims

音源の方向が相違する複数の音の混合音を複数の収音機器で収音した複数の観測信号から共分散行列を特定する第１行列特定手段と、
前記複数の音のうち第１音の共分散行列を特定する第２行列特定手段と、
前記観測信号の共分散行列から前記第１音の共分散行列を減次する減次手段と
を具備する信号処理装置。
音源の方向が相違するＮ個（Ｎは２以上の自然数）の音の混合音を複数の収音機器で収音した複数の観測信号から共分散行列を特定する第１行列特定手段と、
前記Ｎ個の音のうち(Ｎ−１)個の第１音の共分散行列を特定する第２行列特定手段と、
前記観測信号の共分散行列から前記(Ｎ−１)個の第１音の共分散行列を減次することで、前記第１音以外の第２音の共分散行列を特定する減次手段と
を具備する信号処理装置。
前記第２行列特定手段は、前記第１音を強調または抑制するフィルタ処理の第１係数列と前記第１係数列の転置行列と調整係数とを乗算した前記第１音の共分散行列と、前記観測信号の共分散行列との差分が零以上となる条件のもとで前記調整係数が最大化されるように、前記第１音の共分散行列を特定する
請求項２の信号処理装置。
前記第２音を強調または抑制するフィルタ処理の第２系数列を前記第２音の共分散行列から特定する係数列特定手段
を具備する請求項２または請求項３の信号処理装置。
前記複数の観測信号を白色化する白色化手段と、
前記係数列特定手段が特定した第２係数列を有色化する有色化手段とを具備する
請求項４の信号処理装置。
前記第２行列特定手段は、前記第１音を強調または抑制するフィルタ処理の第１係数列と前記第１音の共分散行列とを特定し、
前記第１音と前記第２音とを分離するための分離行列を前記第１係数列および前記第２系数列から生成する行列決定手段を具備する
請求項４または請求項５の信号処理装置。
前記行列決定手段が決定した分離行列を初期値として学習を実行する学習処理手段
を具備する請求項６の信号処理装置。
前記行列決定手段は、前記分離行列を順次に生成し、
前記学習処理手段による学習後の分離行列から各音源の方向を推定する方向推定手段と、
前記行列決定手段が生成した分離行列に対応した各音源の方向と前記方向推定手段が推定した各音源の方向との相違に応じて前記各音源の移動の有無を判定する移動判定手段とを具備し、
前記学習処理手段は、前記各音源が移動したと前記移動判定手段が判定した場合に、前記行列決定手段が生成した分離行列を初期値として学習を実行し、前記各音源が移動していないと前記移動判定手段が判定した場合に、分離行列の学習を停止し、または、分離行列を初期化せずに学習を継続する
請求項７の信号処理装置。
音源の方向が相違する複数の音の混合音を複数の収音機器で収音した複数の観測信号から共分散行列を特定する第１行列特定処理と、
前記複数の音のうち第１音の共分散行列を特定する第２行列特定処理と、
前記観測信号の共分散行列から前記第１音の共分散行列を減次する減次処理と
をコンピュータに実行させるプログラム。