JP5233772B2

JP5233772B2 - 信号処理装置およびプログラム

Info

Publication number: JP5233772B2
Application number: JP2009066875A
Authority: JP
Inventors: 誠山田; 多伸近藤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2009-03-18
Filing date: 2009-03-18
Publication date: 2013-07-10
Anticipated expiration: 2029-03-18
Also published as: JP2010217773A

Description

本発明は、別個の音源から発生した複数の音の混合音のうち特定の音源からの音を強調または抑圧する技術に関する。

別個の音源から放射された複数の音の混合音を複数の収音機器で収音した複数の音響信号にフィルタ処理を実行することで、各音源からの音を個別に強調または抑圧（すなわち音源分離）することが可能である（例えば非特許文献１）。音響信号のフィルタ処理に適用される分離行列は、各音源の方向を推定した結果に応じて生成される。音源の方向の推定には、例えば死角制御型（null）のビームフォーマが利用される。

H. Saruwatari, et. al., "Blind Source Separation Combining Independent Component Analysis and Beamforming", EURASIP Journal on Applied Signal Processing Vol.2003, No.11, pp.1135-1146, 2003 K. Tachibana, et. al., "Efficient Blind Source Separation Combining Closed-Form Second Order ICA and Nonclosed-Form Higher-Order ICA," International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vol. 1, pp. 45-48, Apr. 2007.

特許第３９４９０７４号公報

音源からの音がひとつの方向のみから各収音機器に到来する場合、非特許文献１のようにビームフォーマを利用することで音源の方向を推定することが可能である。しかし、例えば空調設備の動作音や人混み内での雑踏音のように複数の方向から各収音機器に到来する音（以下「多方向音」という）が存在する場合、ひとつの方向のみに死角やビームを形成するビームフォーマの技術では、有意な方向を推定することが困難である。

また、分離行列の学習に利用される独立成分分析（ICA：Independent component analysis）では、複数の音響信号が非ガウス性を持つという前提で分離行列が更新されるから、ガウス性が高い多方向音が存在する場合には、高精度な音源分離を実現できる分離行列の生成は困難である。

したがって、ひとつの方向から各収音機器に到来する音（以下「単方向音」という）と多方向音とを高精度に分離し得る分離行列の生成のためには、多方向音の有無を高精度に判定する技術が必要となる。以上の事情を背景として、本発明は、多方向音の有無を高精度に判定することを目的とする。

以上の課題を解決するために、本発明の第１の態様に係る信号処理装置は、複数の収音機器が生成した複数の音響信号から、第１音（例えば後述の各実施形態における音ＳVB）の到来方向の推定角度を所定の範囲内の数値として特定する角度特定手段と、角度特定手段が特定した推定角度が所定の範囲の中央値に近いか否かに応じて、第１音が、複数の収音機器に対して特定の方向から到来する単方向音、および、複数の収音機器に対して複数の方向から到来する多方向音の何れに該当するかを判定する判定手段とを具備する。例えば、推定角度が所定の範囲の中央値に近い場合に、判定手段は、第１音が多方向音であると判定する。具体的には、角度特定手段は、複数の収音機器が生成した複数の音響信号から複数の周波数の各々について第１音の到来方向の角度を所定の範囲内の数値として推定し、推定した複数の角度の中央値または平均値を第１音の到来方向の推定角度として特定する。以上の構成においては、推定角度が所定の範囲の中央値に近いか否かに応じて、第１音が単方向音および多方向音の何れに該当するかを高精度に判定することが可能である。

本発明の第２の態様（例えば後述の第４実施形態）に係る信号処理装置は、複数の収音機器が生成した複数の音響信号から第１音（例えば後述の各実施形態における音ＳVB）の到来方向の角度を複数の周波数の各々について推定し、推定した複数の角度から第１音の到来方向の推定角度を特定する角度特定手段と、角度特定手段が複数の周波数について推定した複数の角度の散らばりの指標値（例えば分散や標準偏差）を算定する指標算定手段と、指標算定手段が算定した指標値の大小に応じて、第１音が、複数の収音機器に対して特定の方向から到来する単方向音、および、複数の収音機器に対して複数の方向から到来する多方向音の何れに該当するかを判定する判定手段とを具備する。例えば、複数の角度の分散や標準偏差を散らばりの指標値として利用した場合、判定手段は、指標値が閾値を上回る場合（すなわち、複数の角度の散らばりが大きい場合）に、第１音が多方向音であると判定する。以上の構成においては、指標算定手段が算定した分散の大小に応じて、第１音が単方向音および多方向音の何れに該当するかを高精度に判定することが可能である。

本発明（第１の態様および第２の態様）の好適な態様に係る信号処理装置は、第１音が単方向音であると判定手段が判定した場合、角度特定手段が特定した角度の方向と、第１音とは音源が異なる第２音の到来方向との各々に、死角およびビームの一方が形成されるように分離行列を生成し、第１音が多方向音であると判定手段が判定した場合、第２音の到来方向にビームを形成する第１係数列と第２音の到来方向に死角を形成する第２係数列とを含む分離行列を生成する行列生成手段を具備する。以上の態様においては、行列生成手段が生成する分離行列のもとで形成されるビームの態様が、判定手段による判定の結果（第１音が単方向音および多方向音の何れに該当するか）に応じて変更されるから、第１音が単方向音および多方向音の何れに該当する場合でも、第１音と第２音とを高精度に分離できる分離行列を生成することが可能である。

本発明（第１の態様および第２の態様）の好適な態様に係る信号処理装置は、複数の音響信号を分離行列で分離した複数の分離信号が統計的に独立となるように分離行列を逐次的に更新する学習処理を実行する手段であって、第１音が単方向音であると判定手段が判定した場合と、第１音が多方向音であると判定手段が判定した場合とで、学習処理の内容を異ならせる学習処理手段を具備する。以上の態様においては、学習処理手段による学習処理の内容が、判定手段による判定の結果（第１音が単方向音および多方向音の何れに該当するか）に応じて変更されるから、第１音が単方向音および多方向音の何れに該当する場合でも、第１音を高精度に分離できる分離行列を生成することが可能である。

具体的には、第１音が単方向音であると判定手段が判定した場合、学習処理手段は、非ガウス性が優勢な音（典型的には音声や楽音）に好適な学習処理を実行する。例えば、学習処理手段は、過去の分離行列による分離後の複数の分離信号の各々の強度を要素とする分離信号ベクトルの双曲線正接と当該分離信号ベクトルの転置との積の平均から更新後の分離行列を生成する。他方、第１音が多方向音であると判定手段が判定した場合、学習処理手段は、ガウス性が優勢な音（例えば、空調設備の動作音や人混み内での雑踏音などの無方向性の雑音）に好適な学習処理を実行する。例えば、学習処理手段は、分離信号ベクトルと分離信号ベクトルの転置との積の平均から更新後の分離行列を生成する。

本発明（第１の態様および第２の態様）の好適な態様に係る信号処理装置は、第１音を強調した第１成分（例えば図１５の成分ｃ2）と第１音とは音源が異なる第２音を強調した第２成分（例えば図１５の成分ｃ1）とを複数の音響信号に対する音源分離で生成する信号処理手段と、第１成分に応じた推定雑音成分を第２成分から抑圧する雑音抑圧処理を実行する手段であって、第１音が単方向音であると判定手段が判定した場合と、第１音が多方向音であると判定手段が判定した場合とで、雑音抑圧処理の内容（処理に適用される変数や処理の種類）を異ならせる雑音抑圧手段とを具備する。以上の態様においては、雑音抑圧手段による雑音抑圧処理の内容が、判定手段による判定の結果（第１音が単方向音および多方向音の何れに該当するか）に応じて変更されるから、第１音が単方向音および多方向音の何れに該当する場合でも、第２音に残留する第１音の成分（雑音成分）を高精度に抑圧することが可能である。

角度特定手段が推定角度を特定する方法（第１音が到来する方法を推定する方法）は本発明において任意であるが、例えば、第１音を強調または抑圧するフィルタ処理の係数列を生成する係数列生成手段を具備する信号処理装置においては、係数列生成手段が生成した係数列から角度特定手段が推定角度を特定する構成が好適である。係数列生成手段が係数列を生成する方法は任意であるが、例えば、第１音を抑圧するフィルタ処理の係数列を生成する態様Ａ（例えば後述の第１実施形態）と、第１音を強調するフィルタ処理の係数列を生成する態様Ｂ（例えば後述の第２実施形態）とが好適に採用される。

態様Ａにおいて、係数列生成手段は、複数の音響信号に対するフィルタ処理に適用したときに、第１音とは音源が異なる第２音が強調され、かつ、第１音が到来する方向に死角が形成されるように、フィルタ処理の係数列を生成する係数設定手段（例えば図６の係数設定部５４）を含み、角度特定手段は、係数列における死角の方向を推定角度として特定する。態様Ａにおいては、第２音が強調されるとともに第１音の方向に死角が形成されるように生成された係数列における死角の方向が推定角度として特定されるから、第１音の分離行列と第２音の分離行列とが直交するという条件は不要である。したがって、分離行列の直交という条件に制約されずに分離行列を推定できるという利点がある。

態様Ｂにおいて、係数列生成手段は、複数の音響信号の各々の強度を要素とする観測ベクトルの共分散行列を生成する第１共分散行列生成手段（例えば図１２の共分散行列生成部６２）と、第１音とは音源が異なる第２音の共分散行列を生成する第２共分散行列生成手段（例えば図１２の共分散行列生成部６４）と、観測ベクトルの共分散行列から第２音の共分散行列を減次することで第１音の共分散行列を生成する減次手段と、第１音の共分散行列から係数列を生成する係数設定手段（例えば図１２の係数設定部６８）とを含む。態様Ｂにおいては、音響信号の共分散行列から第２音の共分散行列を減次した第１音の共分散行列から係数列が生成されるから、態様Ａと同様に、分離行列の直交という条件に制約されずに分離行列を推定できるという利点がある。

また、以上の各態様に係る信号処理装置は、音響信号の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明の第１の態様に係るプログラムは、複数の収音機器が生成した複数の音響信号から、複数の周波数の各々について第１音の到来方向の角度を所定の範囲内の数値として推定し、推定した複数の角度の中央値または平均値を前記第１音の到来方向の推定角度として特定する角度特定処理と、角度特定処理で特定した推定角度が所定の範囲の中央値に近いか否かに応じて、第１音が、複数の収音機器に対して特定の方向から到来する単方向音、および、複数の収音機器に対して複数の方向から到来する多方向音の何れに該当するかを判定する判定処理とをコンピュータに実行させる。また、本発明の第２の態様に係るプログラムは、複数の収音機器が生成した複数の音響信号から第１音の到来方向の角度を複数の周波数の各々について推定し、推定した複数の角度から第１音の到来方向の推定角度を特定する角度特定処理と、角度特定処理で複数の周波数について推定した複数の角度の散らばりの指標値を算定する指標算定処理と、指標算定処理で算定した指標値の大小に応じて、第１音が、複数の収音機器に対して特定の方向から到来する単方向音、および、複数の収音機器に対して複数の方向から到来する多方向音の何れに該当するかを判定する判定処理とをコンピュータに実行させる。以上の各態様に係るプログラムによれば、本発明に係る信号処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る信号処理装置のブロック図である。単方向音および多方向音を説明するための概念図である。周波数スペクトルと観測ベクトルとの関係を示す概念図である。信号処理部のブロック図である。分離行列生成部のブロック図である。係数列生成部のブロック図である。適応ビームフォーマによるビームの方向と死角とを説明するための概念図である。未知音源からの到来音が単方向音である場合の推定角度のグラフである。未知音源からの到来音が多方向音である場合の推定角度のグラフである。分離行列生成部の動作を示すフローチャートである。第１実施形態の効果を説明するための図表である。第２実施形態における係数列生成部のブロック図である。観測ベクトルの散布図である。共分散行列の減次の効果を説明するための概念図である。本発明の第３実施形態に係る信号処理装置のブロック図である。本発明の第４実施形態における分離行列生成部のブロック図である。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る信号処理装置１００のブロック図である。相互に間隔をあけて平面ＰL内に配置された収音機器Ｍ1および収音機器Ｍ2が信号処理装置１００に接続される。収音機器Ｍ1および収音機器Ｍ2の周囲には音源ＳAおよび音源ＳBが存在する。収音機器Ｍ1および収音機器Ｍ2の各々は、周囲の音を収音するマイクロホンである。収音機器Ｍ1は音響信号Ｖ1(t)を生成し、収音機器Ｍ2は音響信号Ｖ2(t)を生成する。音響信号Ｖ1(t)および音響信号Ｖ2(t)は、音源ＳAから放射された音ＳVAと音源ＳBから放射された音ＳVBとの混合音の波形を表す時間領域（時間ｔ）の信号である。

音源ＳAの方向ＬAや音源ＳBの方向ＬBは、基準点ｐ（例えば収音機器Ｍ1と収音機器Ｍ2との中点）から平面ＰLに垂直に延在する法線Ｌnの方向を基準（ゼロ）とした角度で表現される。図１に示すように、音源ＳAは法線Ｌnの線上に位置する。したがって、音源ＳAの方向ＬAの角度θAはゼロである。また、法線Ｌnに対して角度θBの方向ＬBには音源ＳBが位置し得る。

音源ＳAの方向ＬAは既知の方向θA（θA＝０°）に確定している。例えば、信号処理装置１００が自動車の車内に設置された場合を想定すると、運転席に座る運転者の頭部の方向が音源（すなわち運転者）ＳAの方向ＬAに相当する。また、利用者の発声音を入力する電子機器（例えば携帯電話機）に信号処理装置１００が搭載された場合を想定すると、電子機器の本体に対して正面の方向が音源（すなわち発声者）ＳAの方向ＬAに相当する。他方、音源ＳBの方向ＬB（角度θB）は未確定（未知）である。

音源ＳAが放射する音ＳVAは、図２の部分(A)および図２の部分(B)に示すように、角度θAの方向ＬAから収音機器Ｍ1および収音機器Ｍ2に到来する単方向音（実質的な点音源からの到来音）である。他方、音源ＳBが放射する音ＳVBは、図２の部分(A)に示すように特定の角度θBの方向ＬBから収音機器Ｍ1および収音機器Ｍ2に到来する単方向音である場合と、図２の部分(B)のように複数の方向から収音機器Ｍ1および収音機器Ｍ2に到来する多方向音である場合とがある。多方向音は、ひとつの音源からの放射後に拡散して複数の方向から収音機器Ｍ1および収音機器Ｍ2に到来する音や、収音機器Ｍ1および収音機器Ｍ2の周囲に存在する複数の音源ＳB（点音源または面音源）から放射された同種の音（例えば空調設備の動作音や人混み内での雑踏音）である。典型的には音ＳVAが目的音に相当し、音ＳVBが雑音に相当する。

図１の信号処理装置１００は、音響信号Ｖ1(t)および音響信号Ｖ2(t)に対してフィルタ処理（音源分離）を実行することで分離信号Ｕ1(t)および分離信号Ｕ2(t)を生成する。分離信号Ｕ1(t)は、音源ＳAからの音ＳVAを強調した信号（音源ＳBからの音ＳVBを抑制した信号）であり、分離信号Ｕ2(t)は、音ＳVBを強調した信号（音ＳVAを抑制した信号）である。すなわち、音源ＳAからの音ＳVAと音源ＳBからの音ＳVBとが分離（音源分離）される。

分離信号Ｕ1(t)や分離信号Ｕ2(t)は、例えば、スピーカやヘッドホンなどの放音機器（図示略）に供給されることで音響として再生される。ただし、分離信号Ｕ1(t)や分離信号Ｕ2(t)の用途は任意である。例えば、音ＳVBが強調された分離信号Ｕ2(t)を推定雑音信号として雑音抑圧に利用する構成も好適である。なお、音響信号Ｖ1(t)および音響信号Ｖ2(t)をデジタル信号に変換するＡ/Ｄ変換器や、分離信号Ｕ1(t)および分離信号Ｕ2(t)をアナログ信号に変換するＤ/Ａ変換器の図示は便宜的に省略されている。

図１に示すように、信号処理装置１００は、周波数分析部１２と信号処理部１４と信号合成部１６と分離行列生成部１８とを含んで構成される。信号処理装置１００の各要素は、例えば、記録媒体に記録されたプログラムを実行する演算処理装置（ＣＰＵ）や特定の信号処理に専用される電子回路（ＤＳＰ）で実現される。また、信号処理装置１００の各要素が複数の集積回路に分散して搭載された構成も採用される。

周波数分析部１２は、音響信号Ｖ1(t)の周波数スペクトルＱ1(m)と音響信号Ｖ2(t)の周波数スペクトルＱ2(m)とを時間軸上のフレーム毎に順次に算定する。記号ｍはフレームの番号を示す。図３に示すように、第ｍ番目のフレームの周波数スペクトルＱ1(m)は、周波数軸上に設定されたＫ個の周波数（周波数帯域）ｆ1〜ｆKの各々における強度ｘ1(m,f1)〜ｘ1(m,fK)の系列である（Ｋは自然数）。同様に、周波数スペクトルＱ2(m)は、Ｋ個の強度ｘ2(m,f1)〜ｘ2(m,fK)で構成される。

図１の信号処理部１４は、強度ｘ1(m,f1)〜ｘ1(m,fK)および強度ｘ2(m,f1)〜ｘ2(m,fK)に対するフィルタ処理（音源分離）で強度ｕ1(m,f1)〜ｕ1(m,fK)および強度ｕ2(m,f1)〜ｕ2(m,fK)をフレーム毎に順次に生成する。信号合成部１６は、信号処理部１４が生成した強度ｕ1(m,f1)〜ｕ1(m,fK)を時間領域の信号に変換するとともに前後のフレームにて連結することで分離信号Ｕ1(t)を生成する。同様に、信号合成部１６は、信号処理部１４が生成した強度ｕ2(m,f1)〜ｕ2(m,fK)から時間領域の分離信号Ｕ2(t)を生成する。

図４は、信号処理部１４のブロック図である。図４に示すように、信号処理部１４は、Ｋ個の周波数ｆ1〜ｆKの各々に対応するＫ個の処理部Ｐ1〜ＰKで構成される。周波数ｆk（ｋ＝１〜Ｋ）に対応する処理部Ｐkは、強度ｘ1(m,fk)および強度ｘ2(m,fk)から強度ｕ1(m,fk)を生成するフィルタ部３２と、強度ｘ1(m,fk)および強度ｘ2(m,fk)から強度ｕ2(m,fk)を生成するフィルタ部３４とを含んで構成される。

処理部Ｐkのフィルタ部３２およびフィルタ部３４は、遅延加算型（ＤＳ（delay-sum）型）または死角制御型（null）のビームフォーマとして機能する。遅延加算型のビームフォーマは、所定の方向に周波数ｆkのビーム（すなわち、周波数ｆkの音に対する感度が高い領域）を形成する。他方、死角制御型のビームフォーマは、所定の方向を収音の死角（すなわち、周波数ｆkの音に対する感度が低い領域）とする周波数ｆkのビームを形成する。

図４および以下の数式(1A)から理解されるように、処理部Ｐkのフィルタ部３２は、係数ｗ11(fk)に応じた遅延を強度ｘ1(m,fk)に付加する遅延素子３２１と、係数ｗ12(fk)に応じた遅延を強度ｘ2(m,fk)に付加する遅延素子３２３と、遅延素子３２１の出力と遅延素子３２３の出力との加算（または減算）で強度ｕ1(m,fk)を生成する加算部３２５とを含んで構成される。同様に、フィルタ部３４は、数式(1B)から理解されるように、係数ｗ21(fk)に応じて強度ｘ1(m,fk)を遅延させる遅延素子３４１と、係数ｗ22(fk)に応じて強度ｘ2(m,fk)を遅延させる遅延素子３４３と、遅延素子３４１の出力と遅延素子３４３の出力との加算（または減算）で強度ｕ2(m,fk)を生成する加算部３４５とを含む。
ｕ1(m,fk)＝ｗ11(fk)・ｘ1(m,fk)＋ｗ21(fk)・ｘ2(m,fk) ……(1A)
ｕ2(m,fk)＝ｗ21(fk)・ｘ1(m,fk)＋ｗ22(fk)・ｘ2(m,fk) ……(1B)

図１の分離行列生成部１８は、信号処理部１４に適用される分離行列Ｗ(f1)〜Ｗ(fK)を生成する。分離行列Ｗ(fk)は、図４に示すように、係数列ｗ1(fk)と係数列ｗ2(fk)とで構成される２行２列の行列である。係数列ｗ1(fk)は、処理部Ｐkにおけるフィルタ部３２の係数ｗ11(fk)および係数ｗ12(fk)で構成され、係数列ｗ2(fk)は、処理部Ｐkにおけるフィルタ部３４の係数ｗ21(fk)および係数ｗ22(fk)で構成される。

係数列ｗ1(fk)は、方向ＬAに指向するビームの形成（遅延加算型ビームフォーマ）で音ＳVAのうち周波数ｆkの成分が強調され、または、方向ＬBを死角とするビームの形成（死角制御型ビームフォーマ）で音ＳVBのうち周波数ｆkの成分が抑圧されるように生成された行列（音源ＳAを強調する分離行列）である。他方、係数列ｗ2(fk)は、方向ＬBに指向するビームの形成で音ＳVBのうち周波数ｆkの成分が強調され、または、方向ＬAを死角とするビームの形成で音ＳVAのうち周波数ｆkの成分が抑圧されるように生成された行列（音源ＳBを強調する分離行列）である。すなわち、分離行列Ｗ(fk)は、音ＳVAの周波数ｆkの成分と音ＳVBの周波数ｆkの成分とを分離するように生成される。

図１に示すように、分離行列生成部１８は、初期値決定部２２と学習処理部２４と判定部２６とを含んで構成される。初期値決定部２２は、初期的な分離行列Ｗ0(f1)〜Ｗ0(fK)を生成する。分離行列Ｗ0(fk)は、信号処理部１４に実際に適用される分離行列Ｗ(fk)の学習時に初期値として使用される２行２列の行列である。分離行列Ｗ0(fk)は、音ＳVAのうち周波数ｆkの成分と音ＳVBのうち周波数ｆkの成分とが分離されるように設定される。

学習処理部２４は、分離行列Ｗ0(fk)を初期値とした逐次的な学習で分離行列Ｗ(fk)を生成する。分離行列Ｗ(fk)の生成には、分離信号Ｕ1(t)（強度ｕ1(m,fk)）と分離信号Ｕ2(t)（強度ｕ2(m,fk)）とが統計的に相互に独立となるように分離行列Ｗ(fk)を逐次的に更新する独立成分分析（例えば高次ＩＣＡ）が好適に採用される。なお、信号処理装置１００の起動の直後に生成された分離行列Ｗ(f1)〜Ｗ(fK)が継続的に信号処理部１４に適用される構成（すなわち、信号処理装置１００の起動の直後に分離行列生成部１８が動作する構成）を以下では便宜的に例示するが、例えば、信号処理装置１００の動作中に分離行列Ｗ(f1)〜Ｗ(fK)（分離行列Ｗ0(f1)〜Ｗ0(fK)）が順次に生成および更新される構成も好適である。

判定部２６は、音源ＳBから収音機器Ｍ1や収音機器Ｍ2に到来する音ＳVBが単方向音および多方向音の何れに該当するかを判定する。初期値決定部２２による分離行列Ｗ0(f1)〜Ｗ0(fK)の生成の方法や学習処理部２４による分離行列Ｗ(f1)〜Ｗ(fK)の学習の方法は、音ＳVBが単方向音であると判定部２６が判定した場合と音ＳVBが多方向音であると判定部２６が判定した場合とで相違する。判定部２６による判定の方法や初期値決定部２２および学習処理部２４の処理との関係については後述する。

図５は、分離行列生成部１８の具体的なブロック図である。図５に示すように、初期値決定部２２は、係数列生成部４２と角度特定部４４と行列生成部４６とを含んで構成される。係数列生成部４２は、音源ＳBの方向ＬBの角度θBの推定に利用される係数列ｗA(f1)〜ｗA(fK)を生成する。図６に示すように、第１実施形態の係数列生成部４２は、共分散行列生成部５２と係数設定部５４と方向ベクトル特定部５６とを含んで構成される。

共分散行列生成部５２は、音響信号Ｖ1(t)の強度ｘ1(m,fk)および音響信号Ｖ2(t)の強度ｘ2(m,fk)の共分散行列Ｒxx(fk)を周波数ｆ1〜ｆKの各々について算定する。図３に示すように、第ｍ番目のフレームの周波数スペクトルＱ1(m)のうち周波数ｆkにおける強度ｘ1(m,fk)と当該フレームの周波数スペクトルＱ2(m)のうち同じ周波数ｆkの強度ｘ2(m,fk)とを要素とする観測ベクトルＸ(m,fk)（Ｘ(m,fk)＝［ｘ1(m,fk) ｘ2(m,fk)］^T）を導入すると（符号Ｔは行列の転置を意味する）、共分散行列Ｒxx(fk)は、観測ベクトルＸ(m,fk)の共分散を要素とする行列として以下の数式(2)で定義される。符号Ｈは行列の転置（エルミート転置）を意味する。
Ｒxx(fk)＝Ｅ［Ｘ(m,fk)Ｘ(m,fk)^Ｈ］ ……(2)

数式(2)の記号Ｅ[ ]は、所定個（複数）のフレームにわたる平均値（期待値）または加算値を意味する。図６の共分散行列生成部５２は、周波数分析部１２から順次に供給される強度ｘ1(m,fk)と強度ｘ2(m,fk)とについて数式(2)の演算を実行することで共分散行列Ｒxx(fk)を算定する。

係数設定部５４は、周波数ｆ1〜ｆKについて係数列ｗA(f1)〜ｗA(fK)を生成する。具体的には、係数設定部５４は、係数列ｗA(fk)を係数列ｗ1(fk)として処理部Ｐkのフィルタ部３２に適用したときのフィルタ処理が、角度θA（方向ＬA）から到来する音源ＳAの音ＳVAのうち周波数ｆkの成分を強調する適応ビームフォーマ（すなわち、方向ＬAに指向するビームの形成）となるように、係数列ｗA(fk)を設定する。

図７は、適応ビームフォーマで設定されるビームの模式図である。図７においては、収音の感度が所定値を上回る領域（ビームが形成された領域）αが図示されている。図７に示すように、ビームは音源ＳAの方向ＬAに指向する。さらに、適応ビームフォーマでは、ビームが指向する方向ＬA以外の音源ＳBの方向ＬBに収音の死角が形成される。すなわち、係数設定部５４は、角度θAの方向ＬAから到来する周波数ｆkの成分が強調されるとともに角度θBの方向ＬBに収音の死角が形成されるように係数列ｗA(fk)を特定する。したがって、係数列ｗA(f1)〜ｗA(fK)に反映される死角の方向を音源ＳBの角度θBとして特定することが可能である。係数設定部５４による係数列ｗA(fk)の算定について以下に詳述する。

強度ｘ1(m,fk)および強度ｘ2(m,fk)で構成される観測ベクトルＸ(m,fk)と、係数ｗ11(fk)および係数ｗ12(fk)で構成される係数列ｗA(fk)（ｗA(fk)＝［ｗ11(fk) ｗ12(fk)］^Ｔ）とを導入すると、数式(1A)は以下の数式(3)に変形される。すなわち、強度ｕ1(m,fk)は、係数列ｗA(fk)の転置（エルミート転置）と観測ベクトルＸ(m,fk)との乗算（内積）に相当する。
ｕ1(m,fk)＝ｗA(fk)^ＨＸ(m,fk) ……(3)

ここで、収音機器Ｍ1が生成する音響信号Ｖ1(t)の強度ｘ1(m,fk)は、以下の数式(4A)に示すように、音源ＳAから到来した音ＳVAの強度ａ1(m,fk)と音源ＳBから到来した音ＳVBの強度ｂ1(m,fk)との加算として表現される。同様に、音響信号Ｖ2(t)の強度ｘ2(m,fk)は、数式(4B)に示すように、音源ＳAから到来した音ＳVAの強度ａ2(m,fk)と音源ＳBから到来した音ＳVBの強度ｂ2(m,fk)との加算に相当する。したがって、観測ベクトルＸ(m,fk)は、以下の数式(5)のように表現される。
ｘ1(m,fk)＝ａ1(m,fk)＋ｂ1(m,fk) ……(4A)
ｘ2(m,fk)＝ａ2(m,fk)＋ｂ2(m,fk) ……(4B)
Ｘ(m,fk)＝Ａ(m,fk)＋Ｂ(m,fk) ……(5)

数式(5)の記号Ａ(m,fk)は、数式(4A)の強度ａ1(m,fk)と数式(4B)の強度ａ2(m,fk)とを要素とするベクトル（すなわち、音源ＳAからの音ＳVAに対応したベクトル）を意味する。同様に、数式(5)の記号Ｂ(m,fk)は、数式(4A)の強度ｂ1(m,fk)と数式(4B)の強度ｂ2(m,fk)とを要素とするベクトル（すなわち、音源ＳBからの音ＳVBに対応したベクトル）を意味する。数式(5)を数式(3)に代入することで以下の数式(6)が導出される。
ｕ1(m,fk)＝ｗA(fk)^ＨＡ(m,fk)＋ｗA(fk)^ＨＢ(m,fk) ……(6)

ここで、音源ＳAからの音ＳVAが収音機器Ｍ1に到達する時点と収音機器Ｍ2に到達する時点との時間差は角度θAに応じた時間（遅延量）ｅ^−ｊθAであるから、ベクトルＡ(m,fk)は、以下の数式(7)のように表現される。数式(7)のベクトルｄA(θA(fk))は、角度θAの方向ＬAから到来する周波数ｆkの音が収音機器Ｍ1および収音機器Ｍ2の各々に到達する時間差（ｅ^{−ｊθA(fk)}）を示す方向ベクトル（ステアリングベクトル）である。

数式(7)の代入で数式(6)は以下の数式(6A)に変形される。
ｕ1(m,fk)＝ｗA(fk)^ＨｄA(θA(fk))ａ1(m,fk)＋ｗA(fk)^ＨＢ(m,fk) ……(6A)
数式(6A)の第１項は、音源ＳAからの音ＳVAのうち強度ｕ1(m,fk)に残存する成分を意味し、数式(6A)の第２項は、音源ＳBからの音ＳVBのうち強度ｕ1(m,fk)に残存する成分を意味する。したがって、係数列ｗA(fk)を適用したフィルタ処理で音ＳVAの強調と音ＳVBの抑圧とを実現するためには、数式(6A)の第１項を音ＳVAの強度ａ1(m,fk)に近づけるという条件（以下「条件1」という）と、数式(6A)の第２項をゼロに近づけるという条件（以下「条件2」という）とが必要である。条件1は以下の数式(8)で表現される。ただし、条件1は、数式(8)の左辺を最大化する（音ＳVAの強調を最大化する）という処理に変更され得る。
ｗA(fk)^ＨｄA(θA(fk))＝１ ……(8)

条件2を検討するために、数式(6A)の第２項の絶対値の自乗（|ｗA(fk)^ＨＢ(m,fk)|^２）を所定個のフレームにわたって平均化した強度Ｐ(fk)を検討する。強度Ｐ(fk)は、音源ＳBからの音ＳVBのうち強度ｕ1(m,fk)に残存する成分のパワーに相当する。強度Ｐ(fk)は以下の数式(9)に変形される。数式(9)の記号Ｅ[ ]は、数式(2)と同様に、所定個のフレームにわたる平均（期待値）を意味する。数式(9)の導出においては、係数列ｗA(fk)が経時的に変化しない（Ｅ［ｗA(fk)^Ｈ］＝ｗA(fk)^Ｈ，Ｅ［ｗA(fk)］＝ｗA(fk)）という性質を利用した。
Ｐ(fk)＝Ｅ［|ｗA(fk)^ＨＢ(m,fk)|^２］
＝Ｅ［ｗA(fk)^ＨＢ(m,fk)Ｂ(m,fk)^ＨｗA(fk)］
＝ｗA(fk)^ＨＥ［Ｂ(m,fk)Ｂ(m,fk)^Ｈ］ｗA(fk)
＝ｗA(fk)^ＨＲBB(fk)ｗA(fk) ……(9)

数式(9)の記号ＲBB(fk)は、強度ｘ1(m,fk)のうち音ＳVBに由来する強度ｂ1(m,f)と強度ｘ2(m,fk)のうち音ＳVBに由来する強度ｂ2(m,f)との共分散行列（所定個のフレームにわたるベクトルＢ(m,fk)の共分散行列）を意味する。しかし、音響信号Ｖ1(t)や音響信号Ｖ2(t)からベクトルＢ(m,fk)のみを抽出して共分散行列ＲBB(fk)を算定することは困難であるから、本実施形態においては、音響信号Ｖ1(t)の強度ｘ1(m,fk)と音響信号Ｖ2(t)の強度ｘ2(m,fk)との共分散行列Ｒxx(fk)（数式(2)）で共分散行列ＲBB(fk)を代用する。すなわち、数式(9)は以下の数式(9A)で近似される。したがって、条件2は、数式(9A)で表現される強度Ｐ(fk)を最小化するという条件に相当する。
Ｐ(fk)＝ｗA(fk)^ＨＲBB(fk)ｗA(fk)
≒ｗA(fk)^ＨＲxx(fk)ｗA(fk) ……(9A)

図６の係数設定部５４は、共分散行列生成部５２が生成した共分散行列Ｒxx(fk)を数式(9A)に代入したときの強度Ｐ(fk)が、数式(8)の条件1が成立する範囲内で最小となるように、係数列ｗA(fk)を算定する。以上の手順で算定された係数列ｗA(fk)は、角度θAの方向ＬAに指向するとともに角度θBの方向ＬBを死角とするビームを形成する適応ビームフォーマとしてフィルタ部３２を動作させたときの係数列ｗ1(fk)に相当する。

図６の方向ベクトル特定部５６は、音源ＳAの方向ＬAが既知の角度θAに確定していることを利用して、Ｋ個の周波数ｆ1〜ｆKについて角度θA(f1)〜θA(fK)を特定するとともに、各角度θA(fk)から数式(8)の方向ベクトルｄA(θA(fk))を算定する。角度θA(f1)〜θA(fK)の算定には公知の技術が任意に採用される。

具体的には、方向ベクトル特定部５６は、既知の角度θAに応じた係数列ｗ1(f1)〜ｗ1(fK)を特定したうえで各係数列ｗ1(fk)に対応した角度θA(fk)を算定する。例えば、方向ＬAの音源ＳAにてインパルス音を発生させたときに収音機器Ｍ1および収音機器Ｍ2が収音したインパルス応答を解析することで、音源ＳAからの音ＳVAのうち周波数ｆkの成分が強調されるように係数列ｗ1(fk)を算定する方法が採用される。また、方向ＬAから到来する音ＳVAのうち周波数ｆkの成分がフィルタ部３２によるフィルタ処理で強調される（すなわち、フィルタ部３２が方向ＬAにビームを形成する）ように既知の角度θAから係数列ｗ1(f1)〜ｗ1(fK)を算定する方法も好適である。方向ベクトル特定部５６は、周波数ｆkの係数列ｗ1(fk)から角度θA(fk)を算定する。係数列ｗ1(fk)から角度θA(fk)を算定する処理には公知の技術が任意に採用される。例えば、非特許文献２に開示された方法が好適である。

そして、方向ベクトル特定部５６は、角度θA(f1)〜θA(fK)の各々について遅延量ｅ^{−ｊθA(fk)}を算定することで数式(7)の方向ベクトルｄA(θA(fk))をＫ個の周波数ｆ1〜ｆKの各々について算定する。係数設定部５４は、方向ベクトル特定部５６が算定した方向ベクトルｄA(θA(fk))を数式(8)に適用することで係数列ｗA(fk)を算定する。以上が係数列生成部４２の構成および動作である。

図５の角度特定部４４は、係数列生成部４２が生成した係数列ｗA(f1)〜ｗA(fK)から音源ＳBの方向ＬBの角度θBを特定（推定）する。図５に示すように、角度特定部４４は、第１処理部４４１と第２処理部４４２とを含んで構成される。第１処理部４４１は、Ｋ個の周波数ｆ1〜ｆKに対応する角度θB(f1)〜θB(fK)を係数列ｗA(f1)〜ｗA(fK)に応じて算定する。角度θB(fk)は、係数列生成部４２による係数列ｗA(fk)の算定時に死角を想定した角度として特定される。

例えば、第１処理部４４１は、角度θB(fk)の候補値ΘB(fk)に対応する方向ベクトルｄB(Θ(fk))と係数列ｗA(fk)との内積を当該候補値ΘB(fk)の角度での収音の感度として算定し、複数の候補値ΘB(fk)のうち感度が最小となる（すなわち収音の死角となる）候補値ΘB(fk)を確定的な角度θB(fk)として選択する。あるいは、角度特定部４４は、角度θB(fk)の候補値ΘB(fk)を含む所定の範囲内の複数の角度φ(fk)の各々の方向ベクトルｄ(φ(fk))と係数列ｗA(fk)との内積を複数の角度φ(fk)について加算した数値を当該候補値ΘB(fk)の角度での感度として算定し、複数の候補値ΘB(fk)のうち感度が最小となる候補値ΘB(fk)を確定的な角度θB(fk)として選択する。また、非特許文献１に開示された方法も角度θB(fk)の特定に採用される。

第１処理部４４１は、所定の角度θ0を中央値とする所定の範囲Ａ内の数値として角度θB(f1)〜θB(fK)を算定する。本実施形態における範囲Ａの中央値（すなわち、範囲Ａの上限値と下限値との平均値）θ0は既知の音源ＳAの角度θA（θA＝０°）に設定される。具体的には、範囲Ａは、角度θ0（θ0＝θA＝０°）を中央値として−90°から＋90°までの範囲（−90≦θB(fk)≦＋90）に設定される。ただし、角度θ0と角度θAとが相違する構成も採用される。

図５の第２処理部４４２は、第１処理部４４１が算定したＫ個の角度θB(f1)〜θB(fK)から音源ＳBの角度θBの推定値（以下「推定角度」という）θBeを生成するための処理を実行する。例えば、第２処理部４４２は、Ｋ個の角度θB(f1)〜θB(fK)の中央値（最大値と最小値との平均値）や平均値（算術平均や加重平均）を推定角度θBeとして算定する。したがって、推定角度θBeは範囲Ａ内の数値に設定される。

図８および図９は、第１処理部４４１が特定する角度θB(f1)〜θB(fK)のグラフである。横軸は周波数（ｆ1〜ｆK）に相当する。図８は、音源ＳBから放射される音ＳVBが図２の部分(A)における単方向音（角度θBの方向ＬBから到来する音）である場合の角度θB(f1)〜θB(fK)を示し、図９は、音源ＳBから放射される音ＳVBが図２の部分(B)における多方向音である場合の角度θB(f1)〜θB(fK)を示す。

図８に示すように、音ＳVBが単方向音である場合、第１処理部４４１が特定する角度θB(f1)〜θB(fK)は、範囲Ａのうち実際の角度θBを中心（平均値）とする狭い範囲内に偏在する。したがって、第２処理部４４２が算定する推定角度θBeは、実際の方向ＬBの角度θBに略一致する。なお、図８に示すように、低域側（周波数ｆ1の近傍）および広域側（周波数ｆKの近傍）の各周波数ｆkでは角度θB(fk)に誤差（実際の角度θBとの相違）が発生し易い。したがって、低域側の周波数（周波数ｆ1の付近）と高域側の周波数（周波数ｆKの付近）とを除外した各周波数ｆkにおける角度θB(fk)から第２処理部４４２が推定角度θBeを算定する構成も好適である。

他方、音ＳVBが多方向音である場合、収音機器Ｍ1や収音機器Ｍ2を中心とする全方向から略同等の強度で音ＳVBが到来するから、第１処理部４４１が特定する角度θB(f1)〜θB(fK)はひとつの角度θBに収束しない。すなわち、図９に示すように、角度θB(f1)〜θB(fK)は、角度θAを中央値θ0（θ0＝０）とする範囲Ａの全域（正数および負数の双方の領域）にわたって略均等に分布する。したがって、第２処理部４４２が算定する推定角度θBeは、角度θB(f1)〜θB(fK)の正数と負数とが相殺されることで中央値θ0（音源ＳAの既知の角度θA）に略一致する。すなわち、音ＳVBが多方向音である場合の推定角度θBeは、実際の音源ＳBの角度θBには必ずしも合致しない。

以上の傾向を考慮して、判定部２６は、角度特定部４４が特定した推定角度θBeが範囲Ａ内の中央値θ0に近いか否かに応じて、音源ＳBからの音ＳVBが単方向音および多方向音の何れに該当するのかを判定する。例えば、図１０に示すように、判定部２６は、推定角度θBeと範囲Ａの中央値θ0（角度θA）との差分値（絶対値）δを算定し（δ＝|θBe−θ0|）、差分値δが所定の閾値τを上回るか否かを判定する（ステップＳ1）。ステップＳ1の結果が否定である場合（δ≦τ）には音ＳVBが単方向音である可能性が高く、ステップＳ1の結果が肯定である場合（δ＞τ）には音ＳVBが多方向音である可能性が高い。本実施形態においては中央値θ0が音源ＳAの角度θAに設定されるから、判定部２６による判定は、推定角度θBeが既知の角度θAに近いか否かの判定に相当する。

図５の行列生成部４６は、既知の角度θA（方向ＬA）と角度特定部４４が特定した推定角度θBe（方向ＬB）とに応じて初期的な分離行列Ｗ0(f1)〜Ｗ0(fK)を生成する。行列生成部４６が分離行列Ｗ0(f1)〜Ｗ0(fK)を生成する方法は、判定部２６による判定の結果に応じて相違する。行列生成部４６の動作の具体例を以下に詳述する。

図１０のステップＳ1の結果が否定である場合（すなわち、音ＳVBが単方向音であると判定部２６が判定した場合）、行列生成部４６は、図２の部分(A)に示すように、周波数ｆkのビームＢa1が形成されるように係数ｗ1(fk)（ｗ11(fk)，ｗ12(fk)）を設定するとともに、周波数ｆkのビームＢa2が形成されるように係数ｗ2(fk)（ｗ21(fk)，ｗ22(fk)）を設定する（ステップＳ2A）。ビームＢa1は、推定角度θBeの方向ＬBを収音の死角とする領域であり、ビームＢa2は、角度θAの方向ＬAを収音の死角とする領域である。行列生成部４６は、係数列ｗ1(fk)および係数列ｗ2(fk)で構成される分離行列Ｗ0(fk)を生成する。したがって、分離行列Ｗ0(fk)を処理部Ｐkに適用すると、係数列ｗ1(fk)で音ＳVBを抑圧した強度ｕ1(m,fk)と、係数列ｗ2(fk)で音ＳVAを抑圧した強度ｕ2(m,fk)とが生成される。

他方、図１０のステップＳ1の結果が肯定である場合（すなわち、音ＳVBが多方向音であると判定部２６が判定した場合）、行列生成部４６は、図２の部分(B)に示すように、角度θAに指向する周波数ｆkのビームＢb1が形成されるように係数ｗ1(fk)（ｗ11(fk)，ｗ12(fk)）を設定するとともに、周波数ｆkのビームＢb2が形成されるように係数ｗ2(fk)（ｗ21(fk)，ｗ22(fk)）を設定する（ステップＳ2B）。ビームＢb2は、推定角度θBeの方向ＬBを収音の死角とする領域である。ビームＢb2の形成は、多方向音たる音ＳVBを抽出するフィルタ処理に相当する。行列生成部４６は、係数列ｗ1(fk)および係数列ｗ2(fk)で構成される分離行列Ｗ0(fk)を生成する。したがって、分離行列Ｗ0(fk)を処理部Ｐkに適用すると、係数列ｗ1(fk)で音ＳVAを強調した強度ｕ1(m,fk)と、係数列ｗ2(fk)で音ＳVAを抑圧した強度ｕ2(m,fk)とが生成される。

図１の学習処理部２４は、以上の手順で行列生成部４６が生成した分離行列Ｗ0(f1)〜Ｗ0(fK)を初期値とした学習処理（分離行列Ｗ(fk)の逐次的な更新）で分離行列Ｗ(f1)〜Ｗ(fK)を生成する。以下に詳述するように、学習処理部２４による学習処理の内容は、判定部２６による判定の結果に応じて変更される。

学習処理部２４による学習処理は以下の数式(10)で定義される。数式(10)の記号Ｗn(fk)は、ｎ回の更新を実行した時点における分離行列Ｗ(fk)を意味する。数式(10)から理解されるように、分離行列Ｗn(fk)は、過去（典型的には直前）の分離行列Ｗn-1(fk)（分離行列Ｗ1(fk)の算定時には初期値決定部２２が生成した分離行列Ｗ0(fk)）と変数ξとの乗算値を当該分離行列Ｗn-1(fk)に加算することで算定される。
Ｗn(fk)＝Ｗn-1(fk)＋ξ・Ｗn-1(fk) ……(10)

図１０のステップＳ1の結果が否定である場合（すなわち、音ＳVBが単方向音であると判定部２６が判定した場合）、学習処理部２４は、以下の数式(11A)で定義される変数ξのもとで数式(10)の演算を実行することで分離行列Ｗn(fk)を算定する（ステップＳ3A）。数式(11A)は、非ガウス性が優勢な単方向音（典型的には音声）を対象とした学習処理にとって好適な内容に設定されている。
ξ＝η（Ｉ−Ｅ［tanh（Ｙ(m,fk)）Ｙ(m,fk)^Ｈ］） ……(11A)

数式(11A)の記号Ｙ(m,fk)は、過去（直前）の分離行列Ｗn-1(fk)で信号処理部１４が生成した強度ｕ1(m,fk)および強度ｕ2(m,fk)を要素とするベクトル（以下「分離信号ベクトル」という）を意味する。記号ηは定数（比例定数）を意味し、記号Ｉは２行２列の単位行列を意味する。また、記号tanh（Ｙ(fk)）は、分離信号ベクトルＹ(m,fk)の双曲線正接（ハイパボリックタンジェント）を意味する。記号Ｅ[ ]は、数式(2)と同様に、所定個のフレームにわたる平均（期待値）である。以上のように、音ＳVBが単方向音である場合、学習処理部２４は、分離信号ベクトルＹ(m,fk)の双曲線正接と分離信号ベクトルＹ(m,fk)の転置（エルミート転置）との積の平均から更新後の分離行列Ｗn(fk)を生成する。

他方、図１０のステップＳ1の結果が肯定である場合（すなわち、音ＳVBが多方向音であると判定部２６が判定した場合）、学習処理部２４は、以下の数式(11B)で定義される変数ξのもとで数式(10)の演算を実行することで分離行列Ｗn(fk)を算定する（ステップＳ3B）。数式(11B)は、ガウス性が優勢な多方向音（例えば、空調設備の動作音や人混み内での雑踏音などの無方向性の雑音）を対象とした学習処理にとって好適な内容に設定されている。具体的には、学習処理部２４は、分離信号ベクトルＹ(m,fk)と分離信号ベクトルＹ(m,fk)の転置（エルミート転置）との積の平均から更新後の分離行列Ｗn(fk)を生成する。
ξ＝η（Ｉ−Ｅ［Ｙ(m,fk)Ｙ(m,fk)^Ｈ］） ……(11B)

以上が学習処理部２４の機能である。学習処理部２４が生成した分離行列Ｗ(f1)〜Ｗ(fK)が信号処理部１４に適用されることで分離信号Ｕ1(t)および分離信号Ｕ2(t)が生成される。

以上の形態においては、角度特定部４４による推定角度θBeが範囲Ａの中央値θ0（本実施形態では音源ＳAの角度θA）に近いか否かに応じて、音源ＳBからの音ＳVBが単方向音および多方向音の何れに該当するかを簡易かつ高精度に判定することが可能である。したがって、以下に詳述するように、音源ＳAからの音ＳVAと音源ＳBからの音ＳVBとを高精度に分離できる分離行列Ｗ(f1)〜Ｗ(fK)を生成することが可能である。

まず、初期値決定部２２（行列生成部４６）よる分離行列Ｗ0(f1)〜Ｗ0(fk)の生成の方法が判定部２６による判定の結果に応じて変更されるから、以下に詳述するように、音ＳVAと音ＳVBとを高精度に分離できる分離行列Ｗ(f1)〜Ｗ(fK)を生成できるという利点がある。

図１１は、雑音抑圧率を第１実施形態と対比例１と対比例２とについて示す図表である。雑音抑圧率（ＮＲＲ：noise reduction rate）は、分離信号Ｕ1(t)における音ＳVBの強度に対する音ＳVAの強度の比率（すなわち、音ＳVAを目的音として音ＳVBを雑音としたときのＳＮ比）SNR_OUTと、音響信号Ｖ1(t)における音ＳVBの強度に対する音ＳVAの強度の比率（すなわち、処理前のＳＮ比）SNR_INとの差分である（NRR＝SNR_OUT−SNR_IN）。したがって、雑音抑圧率が高いほど音ＳVAと音ＳVBとの分離の精度（音ＳVAの強調の度合および音ＳVBの抑制の度合）が高い。

図１１の対比例１は、音ＳVBが単方向音および多方向音の何れであるかに拘わらず、図２の部分(A)の例示と同様に、角度θAを死角とするビームと推定角度θBeを死角とするビームとが形成されるように分離行列Ｗ(fk)を生成する構成である。音ＳVBが単方向音である場合、図８のように推定角度θBeは実際の角度θBに近似するから、対比例１のもとでも高い雑音抑圧率（NRR＝12.0）を実現できる。しかし、音ＳVBが多方向音である場合、図９のように推定角度θBeは音源ＳAの角度θAに近似するから、係数列ｗ1(fk)および係数列ｗ2(fk)の双方が角度θAからの到来音ＳVAを強調する内容に設定される。したがって、音ＳVBが多方向音である場合には雑音抑圧率が顕著に低下する（NRR＝2.8）という問題がある。

図１１の対比例２は、音ＳVBが単方向音および多方向音の何れであるかに拘わらず、図２の部分(B)の例示と同様に、角度θAに指向するビームと角度θAを死角とするビームとが形成されるように分離行列Ｗ(fk)を生成する構成である。図１１から理解されるように、音ＳVBが多方向音である場合には、対比例２でも高い雑音抑圧率（NRR＝7.9）を実現できる。しかし、音ＳVBが角度θBの単方向音である場合には、角度θAのみが除外された広い範囲（角度θBだけでなく他の角度を含む範囲）からの到来音が強度ｕ2(m,fk)にて強調される。したがって、音ＳVBが単方向音である場合に雑音抑圧率が顕著に低下する（NRR＝6.5）という問題がある。

対比例１や対比例２とは対照的に、第１実施形態においては、音ＳVBが単方向音である場合と多方向音である場合とで行列生成部４６による分離行列Ｗ0(fk)の生成の方法（ビームの態様）が変更されるから、図１１に示すように、音ＳVBが単方向音である場合（NRR＝12.1）および多方向音である場合（NRR＝7.9）の何れにおいても高い雑音抑圧率を実現することが可能である。

また、音ＳVBが多方向音であるという状況が初期的な分離行列Ｗ0(fk)に反映されるから、音ＳVAと音ＳVBとを高精度に分離できる特性（現実の状況にとって適切な特性）に近い分離行列Ｗ0(f1)〜Ｗ0(fK)を初期値の段階から生成することが可能である。すなわち、分離行列Ｗ0(fk)の初期値と学習後の分離行列Ｗ(fk)との乖離が低減される。したがって、学習処理に必要な時間が短縮されるという利点や、分離行列Ｗ(fk)が学習処理の過程で不適切な特性に収束する可能性が低減されるという利点もある。

さらに、学習処理部２４による学習処理の内容が判定部２６による判定の結果に応じて変更されるから、音ＳVAと音ＳVBとを高精度に分離できる分離行列Ｗ(f1)〜Ｗ(fK)を生成できるという利点がある。例えば、音ＳVBが単方向音および多方向音の何れであるかに拘わらず、非ガウス性の音を前提とする数式(11A)を学習処理に適用すると、音ＳVBが多方向音（ガウス性が優勢な音）である場合に、高精度な分離が可能な分離行列Ｗ(fk)の生成が困難となる。同様に、音ＳVBが単方向音および多方向音の何れであるかに拘わらず、ガウス性の音を前提とする数式(11B)を学習処理に適用すると、音ＳVBが単方向音（非ガウス性が優勢な音）である場合に、高精度な分離が可能な分離行列Ｗ(fk)の生成が困難となる。第１実施形態においては、音ＳVBが多方向音であるか否かに応じて数式(11A)および数式(11B)が選択的に適用されるから、音ＳVBが単方向音および多方向音の何れでも、音ＳVAと音ＳVBとを高精度に分離できる分離行列Ｗ(f1)〜Ｗ(fK)を生成することが可能である。

ところで、分離行列Ｗ(fk)の生成には、主成分分析や二次統計量ＩＣＡ（independent component analysis）などの部分空間法（例えば非特許文献２）や、目的音の方向にビームを形成する適応ビームフォーマ（例えば特許文献１）などの公知の技術も利用され得る。しかし、非特許文献１の方法では、第１主成分を強調する係数列（分離行列）と第２主成分を強調する係数列とが直交するという制約のもとで分離行列が特定されるから、各音源の方向（位置）によっては分離行列の高精度な推定が困難となる場合がある。また、特許文献１の方法は、分離行列のうち目的音を強調するための係数列の推定に適応ビームフォーマが利用されるに過ぎないから、目的音の係数列と非目的音の係数列とが直交する必要があるという制約は非特許文献１と同様である。

非特許文献２や特許文献１の技術とは対照的に、第１実施形態においては、音源ＳAの方向ＬAにビームを形成（適応ビームフォーマ）したときの死角の方向が音源ＳBの方向ＬB（角度θB(f1)〜θB(fK)）として特定されるから、係数列の直交という条件は不要である。したがって、係数列の直交という制約のもとで分離行列の初期値を設定する従来の技術と比較すると、音ＳVAと音ＳVBとの分離に最適な特性に近い分離行列Ｗ0(fk)を生成することが可能である。したがって、学習に必要な時間が短縮されるという利点や、分離行列Ｗ(fk)が不適切な特性に収束する可能性が低減されるという利点がある。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。なお、以下の各形態において作用や機能が第１実施形態と同様である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。

第２実施形態においては、図６に例示した第１実施形態の係数列生成部４２に代えて図１２の係数列生成部４２Aが採用される。図１２に示すように、係数列生成部４２Aは、共分散行列生成部６２と共分散行列生成部６４と減次部６６と係数設定部６８とを含んで構成される。共分散行列生成部６２は、第１実施形態の共分散行列生成部５２と同様に、所定個のフレームにわたる観測ベクトルＸ(m,fk)から共分散行列Ｒxx(f1)〜Ｒxx(fK)を生成する。なお、共分散行列Ｒxx(fk)の算定に使用される複数の観測ベクトルＸ(m,fk)はゼロ平均とする。すなわち、共分散行列Ｒxx(fk)の算定に使用される総ての観測ベクトルＸ(m,fk)を加算（平均）した行列は零行列となる。

図１３は、周波数ｆkの観測ベクトルＸ(m,fk)を複数のフレームについてプロットした散布図である。図１３の横軸は音響信号Ｖ1(t)の強度ｘ1(m,fk)に相当し、図１３の縦軸は音響信号Ｖ2(t)の強度ｘ2(m,fk)に相当する。音源ＳAからの音ＳVAが優勢な観測ベクトルＸ(m,fk)は軸線α1に沿って領域Ａ1内に分布し、音源ＳBからの音ＳVBが優勢な観測ベクトルＸ(m,fk)は軸線α2に沿って領域Ａ2内に分布するという傾向が把握される。軸線α1と軸線α2とは交差する。

いま、音源ＳAからの音ＳVAに対応する共分散行列ＲxxA(fk)と、音源ＳBからの音ＳVBに対応する共分散行列ＲxxB(fk)とを想定する。共分散行列ＲxxA(fk)は、図１３の領域Ａ1に分布する観測ベクトルＸ(m,fk)の共分散に相当し、共分散行列ＲxxB(fk)は、図１３の領域Ａ2に分布する観測ベクトルＸ(m,fk)の共分散に相当する。図１３からも理解されるように、観測ベクトルＸ(m,fk)の共分散行列Ｒxx(fk)は、音源ＳAからの音ＳVAが優勢な観測ベクトルＸ(m,fk)に対応した共分散行列ＲxxA(fk)と、音源ＳBからの音ＳVBが優勢な観測ベクトルＸ(m,fk)に対応した共分散行列ＲxxB(fk)との加算として近似される（数式(12)）。したがって、音源ＳBからの音ＳVBの共分散行列ＲxxB(fk)は、以下の数式(12A)に示すように、観測ベクトルＸ(m,fk)の共分散行列Ｒxx(fk)と音源ＳAからの音ＳVAの共分散行列ＲxxA(fk)との差分として近似される。
Ｒxx(fk)≒ＲxxA(fk)＋ＲxxB(fk) ……(12)
ＲxxB(fk)≒Ｒxx(kf)−ＲxxA(fk) ……(12A)

図１２の共分散行列生成部６４は、音源ＳAの方向ＬAが既知の角度θAに確定していることを利用してＫ個の共分散行列ＲxxA(f1)〜ＲxxA(fK)を生成する。本実施形態の共分散行列生成部６４は、角度θAに応じた係数列ｗ1(fk)から共分散行列ＲxxA(fk)を生成する。係数列ｗ1(fk)の算定には公知の技術が任意に採用されるが、第１実施形態の方向ベクトル特定部５６が係数列ｗ1(fk)を生成する前述の方法が好適である。係数列ｗ1(fk)を利用した共分散行列ＲxxA(fk)の生成には例えば以下の方法が好適に採用される。

いま、係数列ｗ1(f)が領域Ａ1の軸線α1に対応することを考慮して、共分散行列ＲxxA(fk)を以下の数式(13)で定義する。
ＲxxA(fk)＝σ^２ｗA(fk)ｗA(fk)^Ｈ ……(13)
数式(13)の係数σ^２は、係数列ｗA(fk)で規定されるベクトルの長さを軸線α1の方向における領域Ａ1の長さに調整するための数値（以下「調整係数」という）である。共分散行列生成部６４は、観測ベクトルＸ(m,fk)の共分散行列Ｒxx(fk)から数式(13)の共分散行列ＲxxA(fk)を減算した行列の各要素がゼロ以上になる（すなわち、共分散行列ＲxxB(fk)が正定値行列である）という数式(14)の条件のもとで係数σ^２が最大値となるように数式(13)の共分散行列ＲxxA(fk)を算定する。
Ｒxx(fk)−σ^２ｗ1(fk)ｗ1(fk)^Ｈ≧０ ……(14)

音源ＳAの角度θAが確定している音ＳVAについては以上のように共分散行列ＲxxA(fk)を所期の精度で特定することが可能である。他方、音源ＳBの角度θBは確定していない（未知である）から、共分散行列ＲxxA(fk)と同様の方法で音源ＳBからの音ＳVBの共分散行列ＲxxB(fk)を高精度に特定することは困難である。そこで、図１２の減次部６６は、数式(12A)に示したように、共分散行列生成部６２が生成した共分散行列Ｒxx(fk)から、共分散行列生成部６４が生成した共分散行列ＲxxA(fk)を減次（deflation）することで、音源ＳBの音ＳVBの共分散行列ＲxxB(fk)をＫ個の周波数ｆ1〜ｆKの各々について算定する。減次部６６による減次（減算）は、図１４に模式的に図示したように、音源ＳAからの音ＳVAが優勢な観測ベクトルＸ(m,fk)（図１３における領域Ａ1内の観測ベクトルＸ(m,fk)）を観測ベクトルＸ(m,fk)の全体の集合から除去する処理に相当する。

図１２の係数設定部６８は、減次部６６が算定した共分散行列ＲxxB(fk)から係数列ｗB(fk)（ｗB(f1)〜ｗB(fK)）を生成する。係数列ｗB(fk)は、処理部Ｐkのフィルタ部３４の係数列ｗ2(fk)として当該係数列ｗB(fk)を適用したときに音源ＳBからの音ＳVBのうち周波数ｆkの成分が強調されるように設定される。図５および図６から理解されるように、共分散行列ＲxxB(fk)においては、音源ＳAからの音ＳVAが優勢な観測ベクトルＸ(m,fk)の影響が除去されているから、音源ＳBからの音ＳVBを適切に分離できる係数列ｗB(fk)を共分散行列ＲxxB(f)から高精度に特定することが可能である。共分散行列ＲxxB(fk)を利用した係数列ｗB(fk)の生成には公知の技術が任意に採用されるが、例えば以下に例示する解法１および解法２が好適である。

［解法１］
強度ｘ1(m,fk)および強度ｘ2(m,fk)で構成される観測ベクトルＸ(m,fk)と、係数ｗ21(fk)および係数ｗ22(fk)で構成される係数列ｗB(fk)とを導入すると、処理部Ｐkのフィルタ部３４の作用に相当する数式(1B)は以下の数式(15)に変形される。
ｕ2(m,fk)＝ｗB(fk)^ＨＸ(m,fk) ……(15)

所定個のフレームにわたる数式(15)の絶対値の自乗（|ｗB(fk)^ＨＸ(m,fk)|^２）の平均値を分離信号Ｕ2(t)の強度（パワー）Ｐ2(fk)として検討する。強度Ｐ2(fk)は、数式(9)の導出と同様の理由で以下の数式(16)に変形される。
Ｐ2(fk)＝Ｅ［|ｗB(fk)^ＨＸ(m,fk)|^２］
＝Ｅ［ｗB(fk)^ＨＸ(m,fk)Ｘ(m,fk)^ＨｗB(fk)］
＝ｗB(fk)^ＨＥ［Ｘ(m,fk)Ｘ(m,fk)^Ｈ］ｗB(fk)
＝ｗB(fk)^ＨＲxx(fk)ｗB(fk) ……(16)

数式(16)から理解されるように、数式(17)の演算値（ｗB(fk)^ＨＲxx(fk)ｗB(fk)）が最大化するように係数列ｗB(fk)を選定すれば、分離信号Ｕ2(t)の強度Ｐ2(fk)を最大化する（すなわち音源ＳBからの音ＳVBを強調する）ことが可能である。すなわち、共分散行列Ｒxx(fk)の固有ベクトル（第１固有ベクトル）に相当する係数列ｗB(fk)を算定する固有値問題は、数式(16)の強度Ｐ2(fk)を最大化するという最適化問題（主成分分析）と等価であると言える。

そこで、係数設定部６８は、以下の数式(17B)の条件のもとで、数式(17A)に示すように、係数列ｗB(fk)の転置（エルミート転置）ｗB(fk)^Ｈと減次部６６が算定した共分散行列ＲxxB(fk)と係数列ｗB(fk)との積が最大となるように係数列ｗB(fk)を選定する。数式(17A)の記号maxは括弧内の数値の最大化を意味する。
max｛ｗB(fk)^ＨＲxxB(fk)ｗB(fk)｝ ……(17A)
ｗB(fk)^ＨｗB(fk)＝１ ……(17B)

［解法２］
共分散行列ＲxxB(fk)が共分散行列Ｒxx(fk)と共分散行列ＲxxA(fk)の差分に近似されるという数式(12A)の関係を考慮すると、前述の数式(17A)は以下の数式(17C)に変形される。
max｛ｗB(fk)^Ｈ（Ｒxx(fk)−ＲxxA(fk)）ｗB(fk)｝
＝max｛ｗB(fk)^ＨＲxx(fk)ｗB(fk)−ｗB(fk)^ＨＲxxA(fk)ｗB(fk)｝ ……(17C)

共分散行列ＲxxA(fk)は正定値行列であるから、数式(17C)の第２項（ｗB(fk)^ＨＲxxA(fk)ｗB(fk)）は正数となる。したがって、数式(17C)は、第２項（ｗB(fk)^ＨＲxxA(fk)ｗB(fk)）に対する第１項（ｗB(fk)^ＨＲxx(fk)ｗB(fk)）の相対比を最大化する（すなわち、第１項を最大化しつつ第２項を最小化する）最適化問題として把握される。すなわち、数式(17C)は以下の数式(17D)に置換される。
max｛ｗB(fk)^ＨＲxx(fk)ｗB(fk)／ｗB(fk)^ＨＲxxA(fk)ｗB(fk)｝ ……(17D)

ラグランジュの未定乗数法を利用すると、数式(17D)の最適化問題は、以下の数式(17E)の関数Ｊ(ｗB(fk))を最小化する問題に置換される。数式(17E)の記号λはラグランジュの未定乗数である。
Ｊ(ｗB(fk))＝ｗB(fk)^ＨＲxx(fk)ｗB(fk)−λｗB(fk)^ＨＲxxA(fk)ｗB(fk) ……(17E)

関数Ｊ(ｗB(fk))を係数列ｗB(fk)で微分した結果がゼロとなる（すなわち関数Ｊ(ｗB(fk))の関数値が最小となる）。したがって、係数設定部６８は、以下の数式(17F)における一般化固有値問題の固有ベクトルとして係数列ｗB(fk)を算定する。以上が係数列ｗ2(f)を特定する具体的な方法である。
Ｒxx(fk)ｗB(fk)＝λＲxxA(fk)ｗB(fk) ……(17F)

角度特定部４４の第１処理部４４１（図５参照）は、図１２の係数列生成部４２Aが生成した係数列ｗB(f1)〜ｗB(fK)から角度θB(f1)〜θB(fK)を算定する。係数ｗB(fk)を利用した角度θB(fk)の特定には公知の技術（例えば非特許文献１に開示された方法）が任意に採用される。第２処理部４４２が角度θB(f1)〜θB(fK)から推定角度θBeを算定する方法は第１実施形態と同様である。

推定角度θBeを利用した判定部２６の判定や、判定部２６による判定の結果に応じた行列生成部４６や学習処理部２４の動作は第１実施形態と同様である。したがって、第２実施形態においても第１実施形態と同様の作用および効果が実現される。また、共分散行列Ｒxx(fk)から共分散行列ＲxxA(fk)を減次（減算）することで未知の音源ＳBからの音ＳVBの共分散行列ＲxxB(fk)が算定されるから、係数列ｗ1(fk)と係数列ｗ2(fk)（ｗB(fk)）とが直交するという条件は不要である。したがって、第１実施形態と同様に、適切な分離行列Ｗ0(f1)〜Ｗ0(fK)（ひいては分離行列Ｗ(f1)〜Ｗ(fK)）を生成できるという利点がある。

＜Ｃ：第３実施形態＞
図１５は、本発明の第３実施形態に係る信号処理装置１００Aのブロック図である。図１５に示すように、信号処理装置１００Aは、第１実施形態の信号処理装置１００に雑音抑圧部７２を追加した構成である。音ＳVA（目的音）を強調した強度ｕ1(m,f1)〜ｕ1(m,fK)の成分ｃ1と、音ＳVB（雑音）を強調した強度ｕ2(m,f1)〜ｕ2(m,fK)の成分ｃ2とが、信号処理部１４から雑音抑圧部７２にフレーム毎に順次に供給される。

信号処理部１４（フィルタ部３２）による音源分離で音ＳVBを完全に除去することは困難であるから、信号処理部１４による処理後の成分ｃ1は、目的音成分（音ＳVA）と音源分離後に残留した雑音成分（音ＳVB）とを含む。雑音抑圧部７２は、雑音成分の推定値（以下「推定雑音成分」という）を成分ｃ1から抑圧する雑音抑圧処理で目的音成分（推定値）を生成する。雑音抑圧処理には、成分ｃ1（強度ｕ1(m,f1)〜ｕ1(m,fK)）のパワースペクトル|Ｃ1(m,fk)|²から推定雑音成分のパワースペクトル（以下「推定雑音スペクトル」という）μ(m,fk)を減算するスペクトル減算（後掲の数式(20A)）が採用される。

推定雑音スペクトルμ(m,fk)は、以下の数式(18)で定義されるように、強度ｕ2(m,f1)〜ｕ2(m,fK)で特定される成分ｃ2の周波数スペクトルＣ2(m,fk)（強度ｕ2(m,fk)）のパワー|Ｃ2(m,fk)|²を所定個のフレームについて平均（加算）したスペクトルである。
μ(m,fk)＝Ｅ［|Ｃ2(m,fk)|²］ ……(18)
雑音抑圧処理で生成される目的音成分の周波数スペクトルＣ3(m,fk)は、パワースペクトルΠ(m,fk)と周波数スペクトルＣ1(m,fk)の位相Ψ(m,fk)とを利用して以下の数式(19)で定義される。
Ｃ3(m,fk)＝Π(m,fk)^1/2・ｅ^jΨ(m,fk) ……(19)

数式(19)のパワースペクトルΠ(m,fk)は、減算係数αとフロアリング係数βとを含む以下の数式(20A)および数式(20B)で定義される。

すなわち、成分ｃ1のパワースペクトル|Ｃ1(m,fk)|²が閾値ＴHを上回る場合、雑音抑圧部７２は、数式(20A)に示すように、推定雑音スペクトルμ(m,fk)と減算係数αとの乗算値を成分ｃ1のパワースペクトル|Ｃ1(m,fk)|²から減算することでパワースペクトルΠ(m,fk)を算定する。閾値ＴHは、例えば、推定雑音スペクトルμ(m,fk)と減算係数αとの乗算値α・μ(m,fk)に設定される。他方、成分ｃ1のパワースペクトル|Ｃ1(m,fk)|²が閾値ＴHを下回る場合、雑音抑圧部７２は、数式(20B)に示すように、推定雑音スペクトルμ(m,fk)とフロアリング係数βとの乗算値をパワースペクトルΠ(m,fk)として算定する。そして、雑音抑圧部７２は、数式(19)の演算で目的音成分の周波数スペクトルＣ3(m,fk)を算定する。信号合成部１６は、周波数スペクトルＣ3(m,fk)から時間領域の音響信号Ｕ3(t)（すなわち、雑音が抑圧された信号）を生成する。

ところで、図２の部分(A)のように音ＳVBが単方向音である場合には音ＳVAおよび音ＳVBの各方向に死角を形成することで音ＳVAと音ＳVBとを高精度に分離することが可能である。したがって、成分ｃ1に残留する雑音成分（音ＳVB）は少ない。他方、図２の部分(B)のように音ＳVBが多方向音である場合、音ＳVAを強調するビームＢb1の方向ＬAからも音ＳVBが到来するから、音ＳVBが単方向音である場合と比較すると音ＳVAと音ＳVBとの分離の精度は低い。すなわち、図２の部分(A)の場合と比較して多くの雑音成分（音ＳVB）が成分ｃ1に残留する。

以上の傾向を考慮して、雑音抑圧部７２は、判定部２６による判定の結果に応じて減算係数αおよびフロアリング係数βを可変に制御する。具体的には、音ＳVBが単方向音であると判定部２６が判定した場合（すなわち、成分ｃ1に残留する雑音成分が少ない場合）、雑音抑圧部７２は、減算係数αを小さい数値に設定するとともにフロアリング係数βを大きい数値に設定することで雑音抑圧処理を抑制する。他方、音ＳVBが多方向音であると判定部２６が判定した場合（すなわち、多くの雑音成分が成分ｃ1に残留する場合）、雑音抑圧部７２は、減算係数αを大きい数値に設定するとともにフロアリング係数βを小さい数値に設定することで雑音抑圧処理を強化する。

以上の形態においては、雑音抑圧処理の内容（減算係数αやフロアリング係数β）が判定部２６による判定の結果に応じて変更されるから、音ＳVBが単方向音および多方向音の何れに該当する場合でも、音ＳVB（雑音）を適切に抑圧した音響信号Ｕ3(t)を生成することが可能である。具体的には、音ＳVBが単方向音である場合の過剰な雑音抑圧や、音ＳVBが多方向音である場合の雑音抑圧の不足が防止されるという利点がある。なお、第２実施形態にも雑音抑圧部７２が追加され得る。

なお、雑音抑圧処理に適用される係数（α，β）を判定部２６による判定の結果に応じて変化させる形態（すなわち、ひとつの雑音抑圧処理の程度を変化させる形態）を以上では例示したが、音ＳVBが単方向音であると判定された場合と多方向音であると判定された場合とで雑音抑圧部７２が別種の雑音抑圧処理を実行する構成も好適である。例えば、成分ｃ1の目的音成分を強調するスペクトルゲインを音源分離後の強度ｕ1(m,f1)〜ｕ1(m,fK)や強度ｕ2(m,f1)〜ｕ2(m,fK)から生成して成分ｃ1の周波数スペクトルＣ1(m,fk)（パワースペクトル|Ｃ1(m,fk)|²）に乗算する乗算型の雑音抑圧処理（例えば、MMSE-STSA法やMAP法）と以上に例示した減算型の雑音抑圧処理とを、判定部２６による判定の結果に応じて選択する構成も好適である。例えば、音ＳVBが単方向音であると判定部２６が判定した場合には雑音抑圧部７２が減算型の雑音抑圧処理を実行し、音ＳVBが多方向音であると判定部２６が判定した場合には雑音抑圧部７２が乗算型の雑音抑圧処理を実行する。なお、雑音抑圧部７２による選択の候補となる雑音抑圧処理の内容は以上の例示に限定されない。以上の例示から理解されるように、雑音抑圧部７２は、判定部２６による判定の結果に応じて雑音抑圧処理の内容（処理に適用される係数や処理の種類）を異ならせる要素として包括される。

＜Ｄ：第４実施形態＞
本発明の第４実施形態は、第１実施形態の分離行列生成部１８を図１６の分離行列生成部１８Aに置換した形態である。分離行列生成部１８Aは、第１実施形態の分離行列生成部１８の判定部２６を判定部２６Aに置換するとともに指標算定部７４を追加した構成である。

指標算定部７４は、角度特定部４４（第１処理部４４１）が周波数ｆ1〜ｆKについて特定したＫ個の角度θB(f1)〜θB(fK)から指標値ｖを算定する。指標値ｖは、角度θB(f1)〜θB(fK)の散らばりの尺度となる数値（統計量）である。例えば、角度θB(f1)〜θB(fK)の分散や標準偏差が指標値ｖとして好適である。角度θB(f1)〜θB(fK)の散らばりの度合が大きいほど指標値ｖが大きい数値となる場合を以下では想定する。

音ＳVBが単方向音である場合、図８のように角度θB(f1)〜θB(fK)は実際の角度θBの近傍に偏在する（散らばりの度合は小さい）。他方、音ＳVBが多方向音である場合、図９のように角度θB(f1)〜θB(fK)は範囲Ａの全域にわたって略均等に分布する（散らばりの度合は大きい）。したがって、音ＳVBが単方向音である場合の指標値ｖは、音ＳVBが多方向音である場合の指標値ｖよりも小さいという傾向がある。

以上の傾向を考慮して、図１６の判定部２６Aは、指標算定部７４が算定した指標値ｖの大小に応じて、音ＳVBが単方向音および多方向音の何れに該当するかを判定する。具体的には、判定部２６Aは、指標値ｖが所定の閾値ｖTHを下回る場合（角度θB(f1)〜θB(fK)の散らばりの度合が小さい場合）には音ＳVBが単方向音であると判定し、指標値ｖが所定の閾値ｖTHを上回る場合には音ＳVBが多方向音であると判定する。判定部２６Aによる判定の結果に応じて行列生成部４６や学習処理部２４の動作が変更される点は第１実施形態と同様である。

第４実施形態においても第１実施形態と同様の効果が実現される。なお、角度θB(f1)〜θB(fK)の指標値ｖを判定部２６Aの判定に利用する第４実施形態の構成は、第２実施形態や第３実施形態にも同様に適用される。また、指標値ｖの大小と角度θB(f1)〜θB(fK)の散らばりの度合との相関は任意である。例えば、角度θB(f1)〜θB(fK)の散らばりが大きいほど指標値ｖが小さい数値となるように指標値ｖを定義した構成も採用される。

＜Ｅ：変形例＞
以上に例示した各形態は様々に変形され得る。具体的な変形の態様を以下に例示する。なお、以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）変形例１
係数列生成部４２が係数列ｗA(fk)を生成する方法や係数列生成部４２Aが係数列ｗB(fk)を生成する方法は任意である。また、角度特定部４４が角度θB(f1)〜θB(fK)および推定角度θBeを特定する方法も任意である。さらに、行列生成部４６が生成する分離行列Ｗ0(f1)〜Ｗ0(fK)で形成されるビームの種類は適宜に変更される。例えば、音源ＳBからの音ＳVBが単方向音である場合（図２の部分(A)）、行列生成部４６は、既知の角度θAに周波数ｆkのビームが指向するように係数列ｗ1(fk)を生成し、推定角度θBeに周波数ｆkのビームが指向するように係数列ｗ2(fk)を生成することも可能である。さらに、学習処理部２４による学習処理の内容は、数式(10)と数式(11A)または数式(11B)とを利用した以上の例示から適宜に変更される。また、行列生成部４６および学習処理部２４の一方のみの処理を判定部２６や判定部２６Aによる判定の結果に応じて変更する構成も採用される。

（２）変形例２
周波数分析部１２や信号合成部１６は以上の各形態の信号処理装置１００から省略され得る。例えば、記憶装置に格納された観測ベクトルＸ(m,f1)〜Ｘ(m,fK)の時系列から分離行列生成部１８が分離行列Ｗ(f1)〜Ｗ(fK)を生成する構成では周波数分析部１２が省略される。また、信号処理部１４が生成した強度ｕ1(m,f1)〜ｕ1(m,fK)と強度ｕ2(m,f1)〜ｕ2(m,fK)とを信号処理装置１００とは別体の装置の信号合成部１６に提供することで分離信号Ｕ1(t)や分離信号Ｕ2(t)を生成する場合には信号処理装置１００から信号合成部１６が省略される。

学習処理部２４は以上の各形態の信号処理装置１００から省略され得る。例えば、初期値決定部２２（行列生成部４６）が生成した分離行列Ｗ0(f1)〜Ｗ0(fK)を分離信号Ｕ1(t)および分離信号Ｕ2(t)の生成（音源分離）に適用する構成や、初期値決定部２２が生成した分離行列Ｗ0(f1)〜Ｗ0(fK)を信号処理装置１００とは別体の装置の学習処理部２４に提供することで分離行列Ｗ(f1)〜Ｗ(fK)を生成する構成が採用される。また、信号処理部１４は以上の各形態の信号処理装置１００から省略され得る。例えば、初期値決定部２２が生成した分離行列Ｗ0(f1)〜Ｗ0(fK)や学習処理部２４が生成した分離行列Ｗ(f1)〜Ｗ(fK)を信号処理装置１００とは別体の装置の信号処理部１４に提供することで音源分離に適用する構成も採用される。また、判定部２６や判定部２６Aによる判定の結果を信号処理装置１００とは別体の装置に提供して分離行列Ｗ0(f1)〜Ｗ0(fK)や分離行列Ｗ(f1)〜Ｗ(fK)の生成に利用する構成においては、行列生成部４６や学習処理部２４も信号処理装置１００から省略され得る。

以上の説明から理解されるように、本発明の好適な態様は、音ＳVBが単方向音および多方向音の何れに該当するかを推定角度θBeまたは角度θB(f1)〜θB(fK)に応じて判定する要素（判定部２６または判定部２６A）を含む信号処理装置１００として実現され、他の要素の有無や機能の如何は不問である。

（３）変形例３
第１実施形態における方向ベクトル特定部５６が方向ベクトルｄA(θA(fk))を特定する方法は任意である。具体的には、第１実施形態に例示したように既知の角度θAに応じた係数列ｗ1(f1)〜ｗ1(fK)から角度θA(f1)〜θA(fK)を算定したうえで方向ベクトルｄA(θA(f1))〜ｄA(θA(fK))を特定する構成において、係数列ｗ1(f1)〜ｗ1(fK)を生成する方法は適宜に変更される。例えば、第１実施形態においては、音源ＳAから採取したインパルス応答が強調されるように遅延加算型ビームフォーマ（フィルタ部３２）の係数列ｗ1(fk)を決定したが、遅延加算型ビームフォーマに代えて、死角制御型ビームフォーマや適応ビームフォーマを利用して係数列ｗ1(fk)を決定する構成も採用される。また、MUSIC（multiple signal classification）法や最小分散法で推定した音源ＳAの角度θAから各種のビームフォーマ（例えば適応型ビームフォーマ）を利用して係数列ｗ1(fk)を特定する方法、あるいは、因子分析で特定した因子ベクトルや正準相関分析で特定した正準ベクトルを係数列ｗ1(f)として特定する方法も採用される。また、音源ＳAの方向ＬA（角度θA）が既知であることは必須ではない。例えば、音源ＳAの方向ＬAを所定の方法で推定したうえで方向ベクトルｄA(θA(fk))を特定する構成も採用される。

（４）変形例４
以上の各形態においては音源Ｓ（ＳA，ＳB）が２個である場合を例示したが、３個以上の音源Ｓからの音を分離する場合にも本発明は当然に適用される。ただし、音源分離の対象となる音源の個数以上の収音機器が必要である。

１００……信号処理装置、１２……周波数分析部、１４……信号処理部、１６……信号合成部、１８……分離行列生成部、２２……初期値決定部、２４……学習処理部、２６……判定部、３２，３４……フィルタ部、４２，４２A……係数列生成部、４４……角度特定部、４６……行列生成部、５２，６２，６４……共分散行列生成部、５４……係数設定部、５６……方向ベクトル特定部、６６……減次部、６８……係数設定部、７２……雑音抑圧部、７４……指標算定部。

Claims

複数の収音機器が生成した複数の音響信号から、複数の周波数の各々について第１音の到来方向の角度を所定の範囲内の数値として推定し、推定した複数の角度の中央値または平均値を前記第１音の到来方向の推定角度として特定する角度特定手段と、
前記角度特定手段が特定した推定角度が前記所定の範囲の中央値に近いか否かに応じて、前記第１音が、前記複数の収音機器に対して特定の方向から到来する単方向音、および、前記複数の収音機器に対して複数の方向から到来する多方向音の何れに該当するかを判定する判定手段と
を具備する信号処理装置。
前記第１音が単方向音であると前記判定手段が判定した場合、前記角度特定手段が特定した推定角度の方向と、前記第１音とは音源が異なる第２音の到来方向との各々に、死角およびビームの一方が形成されるように分離行列を生成し、前記第１音が多方向音であると前記判定手段が判定した場合、前記第２音の到来方向にビームを形成する第１係数列と前記第２音の到来方向に死角を形成する第２係数列とを含む分離行列を生成する行列生成手段
を具備する請求項１の信号処理装置。
前記複数の音響信号を分離行列で分離した複数の分離信号が統計的に独立となるように分離行列を逐次的に更新する学習処理を実行する手段であって、前記第１音が単方向音であると前記判定手段が判定した場合と、前記第１音が多方向音であると前記判定手段が判定した場合とで、前記学習処理の内容を異ならせる学習処理手段
を具備する請求項１または請求項２の信号処理装置。
複数の収音機器が生成した複数の音響信号から第１音の到来方向の角度を複数の周波数の各々について推定し、推定した複数の角度から前記第１音の到来方向の推定角度を特定する角度特定手段と、
前記角度特定手段が複数の周波数について推定した複数の角度の散らばりの指標値を算定する指標算定手段と、
前記指標算定手段が算定した指標値の大小に応じて、前記第１音が、前記複数の収音機器に対して特定の方向から到来する単方向音、および、前記複数の収音機器に対して複数の方向から到来する多方向音の何れに該当するかを判定する判定手段と、
前記第１音が単方向音であると前記判定手段が判定した場合、前記角度特定手段が特定した推定角度の方向と、前記第１音とは音源が異なる第２音の到来方向との各々に、死角およびビームの一方が形成されるように分離行列を生成し、前記第１音が多方向音であると前記判定手段が判定した場合、前記第２音の到来方向にビームを形成する第１係数列と前記第２音の到来方向に死角を形成する第２係数列とを含む分離行列を生成する行列生成手段と
具備する信号処理装置。
複数の収音機器が生成した複数の音響信号から第１音の到来方向の角度を複数の周波数の各々について推定し、推定した複数の角度から前記第１音の到来方向の推定角度を特定する角度特定手段と、
前記角度特定手段が複数の周波数について推定した複数の角度の散らばりの指標値を算定する指標算定手段と、
前記指標算定手段が算定した指標値の大小に応じて、前記第１音が、前記複数の収音機器に対して特定の方向から到来する単方向音、および、前記複数の収音機器に対して複数の方向から到来する多方向音の何れに該当するかを判定する判定手段と、
前記複数の音響信号を分離行列で分離した複数の分離信号が統計的に独立となるように分離行列を逐次的に更新する学習処理を実行する手段であって、前記第１音が単方向音であると前記判定手段が判定した場合と、前記第１音が多方向音であると前記判定手段が判定した場合とで、前記学習処理の内容を異ならせる学習処理手段と
を具備する信号処理装置。
前記学習処理手段は、
前記第１音が単方向音であると前記判定手段が判定した場合、過去の分離行列による分離後の複数の分離信号の各々の強度を要素とする分離信号ベクトルの双曲線正接と当該分離信号ベクトルの転置との積の平均から更新後の分離行列を生成し、
前記第１音が多方向音であると前記判定手段が判定した場合、前記分離信号ベクトルと前記分離信号ベクトルの転置との積の平均から更新後の分離行列を生成する
請求項３または請求項５の信号処理装置。