JP5826502B2

JP5826502B2 - 音響処理装置

Info

Publication number: JP5826502B2
Application number: JP2011040014A
Authority: JP
Inventors: 近藤　多伸; 多伸近藤; 一哉武田
Original assignee: Nagoya University NUC; Yamaha Corp; Tokai National Higher Education and Research System NUC
Current assignee: Nagoya University NUC; Yamaha Corp; Tokai National Higher Education and Research System NUC
Priority date: 2011-02-25
Filing date: 2011-02-25
Publication date: 2015-12-02
Anticipated expiration: 2031-02-25
Also published as: JP2012178679A

Description

本発明は、相異なる音源が発生した複数の音響の混合音のうち特定の音源からの音響を強調（分離または抽出）する技術に関する。

音声や雑音等の複数の音響の混合音を複数の収音機器で収音した複数の観測信号に音源分離を実行することで各音源からの音響を分離する音源分離技術が従来から提案されている。音源分離に適用される分離行列（逆混合行列）は、例えば周波数領域の独立成分分析（FDICA：Frequency-Domain Independent Component Analysis）を利用した学習処理（反復的な更新）で周波数毎に算定される。

特許文献１および非特許文献１には、複数の周波数から所定の条件で選択された周波数について複数の観測信号を利用した学習処理で分離行列を生成し、学習処理後の分離行列を利用して非選択の周波数の分離行列を補充する技術が開示されている。非選択の周波数の分離行列の生成には、例えば死角制御型ビーム形成（NBF（Null Beam Former））が利用される。すなわち、学習処理後の分離行列から推定される音響の到来方向に収音の死角が形成されるように非選択の周波数の分離行列が生成される。

特開２０１０−１１７６５３号公報

大迫ほか３名，"死角制御型ビームフォーマによる周波数帯域補間を用いたブラインド音源分離の高速化手法"，日本音響学会講演論文集，日本音響学会，2007年3月，p.549-p.550

しかし、以上の技術では、音源分離後の信号のうち低域側の周波数での強度が死角制御型ビーム形成に起因して低くなるという問題がある。以上の事情を考慮して、本発明は、音源分離後の信号について低域側の強度を維持することを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の音響処理装置は、複数の音源（例えば音源ＰS1および音源ＰS2）から到来する音響（例えば音響Ｓ1および音響Ｓ2）の混合音を複数の収音機器（例えば収音機器ＰM1および収音機器ＰM2）で収音した複数の観測信号（例えば観測信号ｘ1(t)および観測信号ｘ2(t)）を処理する音響処理装置であって、複数の周波数（例えばＫ個の周波数Ｆ[1]〜Ｆ[K]）を相異なる第１周波数（例えばＭ個の第１周波数ＦA[1]〜ＦA[M]）と第２周波数（例えばＮ個の第２周波数ＦB[1]〜ＦB[N]）とに選別する周波数選別手段（例えば周波数選別部２４）と、複数の観測信号における各第１周波数の成分から分離行列（例えば分離行列Ｗ[m]）を第１周波数毎に生成する分離行列生成手段（例えば分離行列生成部５４）と、複数の観測信号における各第１周波数の成分に当該第１周波数の分離行列を作用させて第１分離成分（例えば分離成分ＹA1[m,u]または分離成分ＹA2[m,u]）を生成する第１信号処理手段（例えば信号処理部５２）と、分離行列生成手段が各第１周波数について生成した分離行列から複数の音源の各々について音響の到来方向（例えば到来方向θe1および到来方向θe2）を推定する方向特定手段（例えば方向特定部６２）と、方向特定手段が推定した複数の到来方向の各々について、当該到来方向に収音の死角を形成する死角制御型ビーム形成を複数の観測信号における前記各第２周波数の成分に対して実行することで指向信号（例えば指向成分Ｚ1[n,u]および指向成分Ｚ2[n,u]）を生成する指向処理手段（例えば指向処理部６４）と、指向処理手段が生成した複数の指向信号の振幅の加算値に対する一の指向信号の振幅の比に応じた処理係数値（例えば処理係数値αi[n,u]）を各第２周波数について生成する係数値生成手段（例えば係数値生成部６６）と、複数の観測信号における前記各第２周波数の成分に当該第２周波数の処理係数値を作用させて第２分離成分（例えば分離成分ＹB1[n,u]または分離成分ＹB2[n,u]）を生成する第２信号処理手段（例えば信号処理部６８）とを具備する。

以上の形態では、複数の指向信号の振幅の加算値に対する一の指向信号の振幅の比に応じた処理係数値を観測信号に作用させるから、例えば指向処理手段が生成した指向信号を音源分離後の音響信号として確定する構成と比較すると、音源分離後の信号について低域側の強度を維持することが可能である。また、複数の周波数のうち第１周波数については分離行列を利用した観測信号の処理で第１分離成分が生成され、複数の周波数のうち第２周波数については処理係数値を利用した観測信号の処理で第２分離成分が生成される。したがって、第２分離成分における低域側の強度を維持しながら、全部の周波数について分離行列を生成する構成と比較して音響処理装置の演算量や必要な記憶容量を削減できるという利点がある。分離行列生成手段が第１周波数について生成した分離行列から各音響の到来方向が推定されるから、分離行列生成手段による分離行列の生成とは別個に方向特定部が各音響の到来方向を推定する構成と比較して、音響処理装置の演算量や必要な記憶容量が削減されるという利点もある。

本発明の好適な態様の音響処理装置は、複数の観測信号における各周波数の成分から分離行列を生成する学習処理の有意性を示す有意指標値を周波数毎に算定する指標算定手段（例えば指標算定部２６）を具備し、周波数選別手段は、各周波数の有意指標値に応じて複数の周波数を第１周波数と第２周波数とに選別する。以上の態様では、学習処理（例えば独立成分分析）の有意性を示す有意指標値に応じて複数の周波数が選別されるから、複数の周波数を学習処理の有意性とは無関係に選別する構成と比較して、高精度な音源分離が可能な分離行列を生成することが可能である。

以上の各態様の音響処理装置は、音声の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、複数の音源（例えば音源ＰS1および音源ＰS2）から到来する音響（例えば音響Ｓ1および音響Ｓ2）の混合音を複数の収音機器（例えば収音機器ＰM1および収音機器ＰM2）で収音した複数の観測信号（例えば観測信号ｘ1(t)および観測信号ｘ2(t)）を処理するためのプログラムであって、複数の音源の各々について音響の到来方向（例えば到来方向θe1および到来方向θe2）を特定する方向特定処理（例えば方向特定部６２）と、方向特定処理で特定した複数の到来方向の各々について、当該到来方向に収音の死角を形成する死角制御型ビーム形成を複数の観測信号について実行することで指向信号（例えば指向成分Ｚ1[n,u]および指向成分Ｚ2[n,u]）を生成する指向処理（例えば指向処理部６４）と、指向処理で生成した複数の指向信号の振幅の加算値に対する一の指向信号の振幅の比に応じた処理係数値（例えば処理係数値αi[n,u]）を周波数毎に生成する係数値生成処理（例えば係数値生成部６６）と、観測信号の各周波数の成分に当該周波数の処理係数値を作用させる信号処理（例えば信号処理部６８）とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

第１実施形態の音響処理装置のブロック図である。第１音源分離部および第２音源分離部のブロック図である。指向処理部のブロック図である。音源分離の前後の振幅スペクトルである。学習処理の対象となる第１周波数の個数と音源分離の精度（セグメンタルＳＮＲ）との関係を示すグラフである。学習処理の対象となる第１周波数の個数と音源分離の精度（ＳＩＲの変化量）との関係を示すグラフである。第２実施形態の音響処理装置のブロック図である。

＜Ａ：第１実施形態＞
図１は、第１実施形態に係る音響処理装置１００Aのブロック図である。相互に間隔をあけて配置された収音機器ＰM1および収音機器ＰM2が音響処理装置１００Aに接続される。収音機器ＰM1および収音機器ＰM2は、例えば無指向性または指向性のマイクロホンである。収音機器ＰM1および収音機器ＰM2の周辺の相異なる位置には音源ＰS1および音源ＰS2が存在する。音源ＰS1は、観測点（例えば収音機器ＰM1と収音機器ＰM2との中点）に対して方向θ1に位置し、音源ＰS2は観測点に対して方向θ2に位置する。

音源ＰS1が発生した音響Ｓ1と音源ＰS2が発生した音響Ｓ2との混合音が収音機器ＰM1および収音機器ＰM2に到達する。収音機器ＰM1は観測信号ｘ1(t)を生成し、収音機器ＰM2は観測信号ｘ2(t)を生成する。観測信号ｘ1(t)および観測信号ｘ2(t)の各々は、音響Ｓ1と音響Ｓ2との混合音の時間波形を表す音響信号である（ｔ：時間）。

音響処理装置１００Aは、観測信号ｘ1(t)および観測信号ｘ2(t)に対する音源分離で分離信号ｙ1(t)および分離信号ｙ2(t)を生成する信号処理装置である。分離信号ｙ1(t)は、音響Ｓ1を強調（音響Ｓ2を抑制）した音響信号であり、分離信号ｙ2(t)は、音響Ｓ2を強調（音響Ｓ1を抑制）した音響信号である。すなわち、音響Ｓ1と音響Ｓ2とが分離（音源分離）される。

分離信号ｙ1(t)および分離信号ｙ2(t)は、スピーカやヘッドホン等の放音機器（図示略）に供給されることで音響として再生される。なお、分離信号ｙ1(t)および分離信号ｙ2(t)の一方のみを生成する構成（例えば分離信号ｙ2(t)を雑音として破棄する構成）も採用される。また、観測信号ｘ1(t)および観測信号ｘ2(t)をアナログからデジタルに変換するＡ/Ｄ変換器や、分離信号ｙ1(t)および分離信号ｙ2(t)をデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

図１に示すように、音響処理装置１００Aは、演算処理装置１２と記憶装置１４とを具備するコンピュータシステムで実現される。記憶装置１４は、演算処理装置１２が実行するプログラムや演算処理装置１２が使用する各種の情報を記憶する。磁気記録媒体や半導体記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として任意に採用される。観測信号ｘ1(t)および観測信号ｘ2(t)を事前に収録して記憶装置１４に格納した構成（したがって収音機器ＰM1および収音機器ＰM2は省略される）も好適である。

演算処理装置１２は、記憶装置１４に格納されたプログラムを実行することで複数の要素（周波数解析部２２，周波数選別部２４，指標算定部２６，第１音源分離部３１，第２音源分離部３２，周波数統合部４２，波形合成部４４）として機能する。なお、演算処理装置１２の各機能を複数の集積回路に分散した構成や、専用の電子回路（DSP）が各機能を実現する構成も採用され得る。

周波数解析部２２は、観測信号ｘ1(t)を周波数軸上の周波数Ｆ[k]（ｋ＝１〜Ｋ）毎（帯域毎）に区分したＫ個の周波数成分Ｘ1[k,u]（Ｘ1[1,u]〜Ｘ1[K,u]）と、観測信号ｘ2(t)を周波数Ｆ[k]毎に区分したＫ個の周波数成分Ｘ2[k,u]（Ｘ2[1,u]〜Ｘ2[K,u]）とを単位期間（フレーム）毎に順次に生成する。記号ｋは周波数軸上の各周波数を示す変数であり、記号ｕは時間軸上の各時点を示す変数（例えば単位期間の番号）である。各周波数成分Ｘ1[k,u]および各周波数成分Ｘ2[k,u]の生成には、例えば短時間フーリエ変換等の公知の周波数解析が任意に採用される。また、通過帯域が相違するＫ個の帯域通過フィルタ（フィルタバンク）を周波数解析部２２として利用することも可能である。周波数成分Ｘ1[k,u]と周波数成分Ｘ2[k,u]とを要素とする観測ベクトルＸv[k,u]（Ｘv[k,u]＝［Ｘ1[k,u]，Ｘ2[k,u]］^T）が順次に記憶装置１４に格納される。なお、記号Ｔは行列の転置を意味する。

周波数選別部２４は、Ｋ個の周波数Ｆ[1]〜Ｆ[K]をＭ個の第１周波数ＦA[1]〜ＦA[M]とＮ個の第２周波数ＦB[1]〜ＦB[N]とに単位期間毎に選別する（ＭおよびＮは自然数。Ｋ＝Ｍ＋Ｎ）。周波数解析部２２が生成したＫ個の周波数成分Ｘ1[1,u]〜Ｘ1[K,u]のうち各第１周波数ＦA[m]（ｍ＝１〜Ｍ）のＭ個の周波数成分ＸA1[1,u]〜ＸA1[M,u]は第１音源分離部３１に供給され、各第２周波数ＦB[n]（ｎ＝１〜Ｎ）のＮ個の周波数成分ＸB1[1,u]〜ＸB1[N,u]は第２音源分離部３２に供給される。同様に、Ｋ個の周波数成分Ｘ2[1,u]〜Ｘ2[K,u]のうち各第１周波数ＦA[m]のＭ個の周波数成分ＸA2[1,u]〜ＸA2[M,u]は第１音源分離部３１に供給され、各第２周波数ＦB[n]のＮ個の周波数成分ＸB2[1,u]〜ＸB2[N,u]は第２音源分離部３２に供給される。

指標算定部２６は、周波数選別部２４による周波数Ｆ[k]の選別の基準となる有意指標値σ[k]（σ[1]〜σ[K]）をＫ個の周波数Ｆ[1]〜Ｆ[K]の各々について算定する。有意指標値σ[k]の算定は所定の周期（例えば単位期間の所定個毎）で実行される。有意指標値σ[k]は、その周波数Ｆ[k]の観測ベクトルＸv[k,u]から分離行列を生成する学習処理（独立成分分析）の有意性の尺度となる数値である。第１実施形態の指標算定部２６は、所定個の単位期間にわたる周波数Ｆ[k]の観測ベクトルＸv[k,u]の時系列の共分散行列Ｒxx[k]（Ｒxx[k]＝Ｅ[Ｘv[k,u]Ｘv[k,u]^H]）の行列式をその周波数Ｆ[k]の有意指標値σ[k]として算定する。記号Ｈは行列の共役転置を意味し、記号Ｅ[ ]は所定個の単位期間にわたる平均値（期待値）または加算値を意味する。なお、共分散行列Ｒxx[k]の行列式の算定については特許文献１に詳述されている。

周波数選別部２４は、指標算定部２６が算定した各有意指標値σ[k]に応じてＫ個の周波数Ｆ[1]〜Ｆ[K]をＭ個の第１周波数ＦA[1]〜ＦA[M]とＮ個の第２周波数ＦB[1]〜ＦB[N]とに選別する。特許文献１に開示されるように、共分散行列Ｒxx[k]の行列式が小さいほど、観測ベクトルＸv[k,u]を適用した行列処理の有意性（学習処理の前後で音源分離の精度が向上する度合）が低いという傾向がある。そこで、周波数選別部２４は、Ｋ個の周波数Ｆ[1]〜Ｆ[K]のうち有意指標値σ[k]が大きいＭ個（例えば有意指標値σ[k]の降順で上位のＭ個や有意指標値σ[k]が所定の閾値を上回るＭ個）の周波数Ｆ[k]を第１周波数ＦA[1]〜ＦA[M]に選別し、有意指標値σ[k]が小さいＮ個の周波数Ｆ[k]を第２周波数ＦB[1]〜ＦB[N]に選別する。

図１の第１音源分離部３１は、各周波数成分ＸA1[m,u]および各周波数成分ＸA2[m,u]に対して独立成分分析を適用した音源分離を実行することで、各第１周波数ＦA[m]に対応するＭ個の分離成分ＹA1[1,u]〜ＹA1[M,u]とＭ個の分離成分ＹA2[1,u]〜ＹA2[M,u]とを単位期間毎に生成する。分離成分ＹA1[m,u]は、第１周波数ＦA[m]における音響Ｓ1の成分を強調（音響Ｓ2を抑制）した周波数成分であり、分離成分ＹA2[m,u]は、第１周波数ＦA[m]における音響Ｓ2の成分を強調（音響Ｓ1を抑制）した周波数成分である。

第２音源分離部３２は、第１音源分離部３１とは相違する信号処理を各周波数成分ＸB1[n,u]および各周波数成分ＸB2[n,u]に対して実行することで、各第２周波数ＦB[m]に対応するＮ個の分離成分ＹB1[1,u]〜ＹB1[N,u]とＮ個の分離成分ＹB2[1,u]〜ＹB2[N,u]とを単位期間毎に生成する。分離成分ＹB1[n,u]は、第２周波数ＦB[n]における音響Ｓ1の成分を強調（音響Ｓ2を抑制）した周波数成分であり、分離成分ＹB2[n,u]は、第２周波数ＦB[n]における音響Ｓ2の成分を強調（音響Ｓ1を抑制）した周波数成分である。

周波数統合部４２は、第１音源分離部３１が生成したＭ個の分離成分ＹA1[1,u]〜ＹA1[M,u]と第２音源分離部３２が生成したＮ個の分離成分ＹB1[1,u]〜ＹB1[N,u]とを周波数の順番に配列（統合）することでＫ個の分離成分Ｙ1[1,u]〜Ｙ1[K,u]を単位期間毎に生成する。同様に、周波数統合部４２は、Ｍ個の分離成分ＹA2[1,u]〜ＹA2[M,u]とＮ個の分離成分ＹB2[1,u]〜ＹB2[N,u]とを配列したＫ個の分離成分Ｙ2[1,u]〜Ｙ2[K,u]を単位期間毎に生成する。

波形合成部４４は、周波数統合部４２が単位期間毎に生成するＫ個の分離成分Ｙ1[1,u]〜Ｙ1[K,u]から時間領域の分離信号ｙ1(t)を生成する。具体的には、波形合成部４４は、Ｋ個の分離成分Ｙ1[1,u]〜Ｙ1[K,u]の系列（周波数スペクトル）を逆フーリエ変換で時間領域に変換するとともに前後の単位期間について相互に連結することで分離信号ｙ1(t)を生成する。同様に、波形合成部４４は、周波数統合部４２が単位期間毎に生成するＫ個の分離成分Ｙ2[1,u]〜Ｙ2[K,u]から分離信号ｙ2(t)を生成する。

図２は、第１音源分離部３１および第２音源分離部３２のブロック図である。図２に示すように、第１音源分離部３１は、信号処理部５２と分離行列生成部５４とを含んで構成される。信号処理部５２は、各第１周波数ＦA[m]の周波数成分ＸA1[m,u]および周波数成分ＸA2[m,u]にその第１周波数ＦA[m]の分離行列Ｗ[m]を作用させることで分離成分ＹA1[m,u]および分離成分ＹA2[m,u]を生成する。具体的には、信号処理部５２は、Ｍ個の第１周波数ＦA[1]〜ＦA[M]の各々について以下の数式(1)の演算（音源分離）を実行する。

図２の分離行列生成部５４は、信号処理部５２が数式(1)の音源分離に適用する分離行列Ｗ[m]（Ｗ[1]〜Ｗ[M]）をＭ個の第１周波数ＦA[1]〜ＦA[M]の各々について単位期間毎に生成する。分離行列Ｗ[m]の生成には独立成分分析を適用した学習処理（分離行列Ｗ[m]の累積的な更新）が採用される。分離行列Ｗ[m]の学習処理には公知の技術が任意に採用され得るが、第ｐ回目の更新後の分離行列Ｗ_p[m]から直後の分離行列Ｗ_p+1[m]を算定する以下の数式(2)の演算が好適である。なお、最初の分離行列Ｗ₁[m]の算定には所定の初期行列Ｗ₀[m]（例えば単位行列）が適用される。

数式(2)の記号ηは所定の定数（ステップサイズ）を意味し、記号off-diag( )は、対角成分をゼロに置換する演算子を意味する。また、記号φ[m,n]は所定の非線形関数（例えば双曲線正接関数）である。数式(2)の記号Ｙv_p[m,u]は、周波数成分ＸA1[m,u]および周波数成分ＸA2[m,u]に分離行列Ｗ_p[m]を作用させる数式(1)の演算で算定されるベクトル（Ｙv_p[m,u]＝［ＹA1[m,u]，ＹA2[m,u]］^T）を意味する。分離行列生成部５４は、数式(2)の演算を所定回だけ反復した時点の分離行列Ｗ_p+1[m]を分離行列Ｗ[m]として確定する。以上が第１音源分離部３１の構成および作用である。

図２に示すように、第２音源分離部３２は、演算処理部６０と信号処理部６８とを含んで構成される。演算処理部６０は、Ｎ個の第２周波数ＦB[1]〜ＦB[N]の各々について処理係数値α1[n,u]（α1[1,u]〜α1[N,u]）と処理係数値α2[n,u]（α2[1,u]〜α2[N,u]）とを設定する。処理係数値α1[n,u]および処理係数値α2[n,u]の算定は所定の周期毎（例えば単位期間毎）に実行される。

各第２周波数ＦB[n]の処理係数値α1[n,u]および処理係数値α2[n,u]は、音響Ｓ1のうちその第２周波数ＦB[n]の周波数成分Ｓ1[n,u]の振幅|Ｓ1[n,u]|と、音響Ｓ2のうちその第２周波数ＦB[n]の周波数成分Ｓ2[n,u]の振幅|Ｓ2[n,u]|との関係（大小）に応じて０以上かつ１以下の範囲内で可変に設定される。具体的には、音響Ｓ1の振幅|Ｓ1[n,u]|が振幅|Ｓ2[n,u]|に対して大きいほど処理係数値α1[n,u]は大きい数値に設定され、音響Ｓ2の振幅|Ｓ2[n,u]|が振幅|Ｓ1[n,u]|に対して大きいほど処理係数値α2[n,u]は大きい数値に設定される。

図２の信号処理部６８は、各第２周波数ＦB[n]の周波数成分ＸB1[n,u]および周波数成分ＸB2[n,u]にその第２周波数ＦB[n]の処理係数値α1[n,u]および処理係数値α2[n,u]を作用させることで分離成分ＹB1[n,u]および分離成分ＹB2[n,u]を単位期間毎に生成する。具体的には、信号処理部６８は、Ｎ個の第２周波数ＦB[1]〜ＦB[N]の各々について以下の数式(3A)および数式(3B)の演算を実行する。

すなわち、周波数成分ＸB1[n,u]に対する処理係数値α1[n,u]の乗算で、音響Ｓ1の周波数成分Ｓ1[n,u]を強調した分離成分ＹB1[n,u]が生成され、周波数成分ＸB2[n,u]に対する処理係数値α2[n,u]の乗算で、音響Ｓ2の周波数成分Ｓ2[n,u]を強調した分離成分ＹB2[n,u]が生成される。したがって、処理係数値α1[n,u]は周波数成分ＸB1[n,u]に対する利得（スペクトルゲイン）に相当し、処理係数値α2[n,u]は周波数成分ＸB2[n,u]に対する利得に相当する。

図２に示すように、演算処理部６０は、方向特定部６２と指向処理部６４と係数値生成部６６とを含んで構成される。方向特定部６２は、音響Ｓ1の到来方向（音源ＰS1の方向）θe1と音響Ｓ2の到来方向（音源ＰS2の方向）θe2とを特定する。なお、以下の説明において符号の添字ｅは推定値（estimate）を意味する。

第１実施形態の方向特定部６２は、分離行列生成部５４が第１周波数ＦA[m]毎に生成する分離行列Ｗ[m]（Ｗ[1]〜Ｗ[M]）を利用して到来方向θe1および到来方向θe2を推定する。到来方向θe1および到来方向θe2の推定には公知の技術（例えば非特許文献１に開示された方法）が任意に採用される。例えば、方向特定部６２は、各第１周波数ＦA[m]の分離行列Ｗ[m]から音響Ｓ1の到来方向θe1[m]と音響Ｓ2の到来方向θe2[m]とを推定し、Ｍ個の到来方向θe1[1]〜θe1[M]の代表値（例えば加重和や平均値や中央値）を到来方向θe1として確定するとともにＭ個の到来方向θe2[1]〜θe2[M]の代表値を到来方向θe2として確定する。

図２の指向処理部６４は、所定の方向に収音の死角（収音の感度が低い領域）を形成する処理（以下「死角制御型ビーム形成」という）を周波数成分ＸB1[n,u]および周波数成分ＸB2[n,u]に対して実行することで、指向成分Ｚ1[n,u]（Ｚ1[1,u]〜Ｚ1[N,u]）と指向成分Ｚ2[n,u]（Ｚ2[1,u]〜Ｚ2[N,u]）とを単位期間毎に生成する。具体的には、指向処理部６４は、方向特定部６２が特定した到来方向θe2に収音の死角を形成する死角制御型ビーム形成（NBF）を周波数成分ＸB1[n,u]および周波数成分ＸB2[n,u]に実行することで指向成分Ｚ1[n,u]を生成し、到来方向θe1に収音の死角を形成する死角制御型ビーム形成を周波数成分ＸB1[n,u]および周波数成分ＸB2[n,u]に実行することで指向成分Ｚ2[n,u]を生成する。したがって、指向成分Ｚ1[n,u]では到来方向θe2からの到来音（音響Ｓ2）が抑制され、指向成分Ｚ2[n,u]では到来方向θe1からの到来音（音響Ｓ1）が抑制される。

図３は、指向処理部６４のブロック図である。図３には、音源ＰS1が放射した音響Ｓ1（周波数成分Ｓ1[n,u]）と音源ＰS2が放射した音響Ｓ2（周波数成分Ｓ2[n,u]）とが収音機器ＰM1および収音機器ＰM2の各々に到達するまでの伝播経路のモデルが便宜的に併記されている。

図３の記号Ａi[n]（ｉ＝１,２）は、音響Ｓiの周波数成分Ｓi[n,u]の伝播損失（伝播経路で付与される利得）を意味する。なお、周波数成分Ｓi[n,u]の伝播遅延は、伝播損失Ａi[n]に反映されることを考慮して図３では省略した。図３の記号τi1は、周波数成分Ｓi[n,u]が収音機器ＰM2に到達してから収音機器ＰM1に到達するまでの遅延（時間差）を意味し、記号τi2は、周波数成分Ｓi[n,u]が収音機器ＰM1に到達してから収音機器ＰM2に到達するまでの遅延を意味する。

図３から理解されるように、収音機器ＰMjによる収音後の周波数成分ＸB1[n,u]および周波数成分ＸB2[n,u]は、以下の数式(4A)および数式(4B)で表現される。数式(4A)および数式(4B)の記号ω[n]は第２周波数ＦB[n]に対応する角周波数を意味し、記号ｊは虚数単位を意味する。

図３に示すように、指向処理部６４は、指向成分Ｚ1[n,u]を生成する第１処理部７２と指向成分Ｚ2[n,u]を生成する第２処理部７４とを具備する。第１処理部７２は、周波数成分ＸB1[n,u]に遅延τe22を付与する遅延部７２１と、周波数成分ＸB2[n,u]に遅延τe21を付与する遅延部７２３と、遅延部７２１および遅延部７２３の各出力間の差分を指向成分Ｚ1[n,u]として生成する演算部７２５とを含んで構成される。同様に、第２処理部７４は、周波数成分ＸB2[n,u]に遅延τe11を付与する遅延部７４１と、周波数成分ＸB1[n,u]に遅延τe12を付与する遅延部７４３と、遅延部７４１および遅延部７４３の各出力間の差分を指向成分Ｚ2[n,u]として生成する演算部７４５とを含んで構成される。遅延τeijは、伝播経路で付与される遅延τijの推定値である。遅延τe21および遅延τe22は、到来方向θe2に収音の死角が形成されるように設定され、遅延τe11および遅延τe12は到来方向θe1に収音の死角が形成されるように設定される。

図３から理解されるように、指向成分Ｚ1[n,u]および指向成分Ｚ2[n,u]は、以下の数式(5A)および数式(5B)で表現される。

数式(4A)および数式(4B)を数式(5A)に代入して変形すると以下の数式(6A)が導出される。同様に、数式(4A)および数式(4B)を数式(5B)に代入して変形すると以下の数式(6B)が導出される。

いま、方向特定部６２による到来方向θe1および到来方向θe2の推定の精度が充分に高い（θe1≒θ1，θe2≒θ2）と仮定すると、指向処理部６４に適用される遅延τeijを、実際の伝播経路における遅延τijで近似する（τeij≒τij）ことが可能である。したがって、数式(6A)の右辺の第２項と第４項とが相殺されて以下の数式(7A)が導出され、数式(6B)の右辺の第１項と第３項とが相殺されて以下の数式(7B)が導出される。

いま、指向成分Ｚ1[n,u]の振幅|Ｚ1[n,u]|と指向成分Ｚ2[n,u]の振幅|Ｚ2[n,u]|との加算値（以下「振幅和」という）に対する指向成分Ｚ1[n,u]の振幅|Ｚ1[n,u]|の比は、数式(7A)および数式(7B)を考慮すると以下の数式(8A)のように表現される。同様に、振幅和に対する指向成分Ｚ2[n,u]の振幅|Ｚ2[n,u]|の比は、以下の数式(8B)のように表現される。

数式(7A)および数式(7B)のうち遅延（位相）τijに関連する遅延項（後半の括弧部分）は指向成分Ｚ1[n,u]と指向成分Ｚ2[n,u]とで共通する。したがって、数式(8A)および数式(8B)では遅延項が消去される。

図２の係数値生成部６６は、以下の数式(9A)および数式(9B)に示すように、振幅和に対する指向成分Ｚ1[n,u]の振幅|Ｚ1[n,u]|の比（数式(8A)）を処理係数値α1[n,u]として第２周波数ＦB[n]毎に算定し、振幅和に対する指向成分Ｚ2[n,u]の振幅|Ｚ2[n,u]|の比（数式(8B)）を処理係数値α2[n,u]として第２周波数ＦB[n]毎に算定する。

数式(8A)および数式(8B)と数式(9A)および数式(9B)とから理解されるように、処理係数値α1[n,u]および処理係数値α2[n,u]は、観測点での音響Ｓ1および音響Ｓ2の単位期間毎の振幅の内分比（観測信号ｘ1(t)および観測信号ｘ2(t)の各々に対する各音源ＰSiの寄与度）に相当する。すなわち、観測点での音響Ｓ1の振幅比が処理係数値α1[n,u]で表現され、観測点での音響Ｓ2の振幅比が処理係数値α2[n,u]で表現され得る。例えば、観測点での音響Ｓ1の振幅（Ａ1[n]|Ｓ1[n,u]|）と音響Ｓ2の振幅（Ａ2[n]|Ｓ2[n,u]|）とが相等しい場合に処理係数値α1[n,u]および処理係数値α2[n,u]は０．５となり、音響Ｓ1の振幅（Ａ1[n]|Ｓ1[n,u]|）が音響Ｓ2の振幅（Ａ2[n]|Ｓ2[n,u]|）を上回る場合には、処理係数値α1[n,u]は処理係数値α2[n,u]を上回る。したがって、数式(9A)の処理係数値α1[n,u]および数式(9B)の処理係数値α2[n,u]は観測点での音響Ｓ1と音響Ｓ2との振幅比を表現する変数として妥当である。

処理係数値α1[n,u]および処理係数値α2[n,u]は以上のように設定されるから、数式(9A)の処理係数値α1[n,u]を適用した数式(3A)の演算で信号処理部６８が生成する分離成分ＹB1[n,u]では音響Ｓ1の周波数成分Ｓ1[n,u]が強調され、数式(9B)の処理係数値α2[n,u]を適用した数式(3B)の演算で生成される分離成分ＹB2[n,u]では音響Ｓ2の周波数成分Ｓ2[n,u]が強調される。すなわち、Ｎ個の第２周波数ＦB[1]〜ＦB[N]の各々について音響Ｓ1（周波数成分Ｓ1[n,u]）と音響Ｓ2（周波数成分Ｓ1[n,u]）とが分離される。

図４の部分(A)は、音源ＰSiが放射した音響Ｓiの振幅スペクトルであり、図４の部分(C)は、第１実施形態の構成で生成された分離信号ｙi(t)の振幅スペクトルである。図４の部分(B)は、指向処理部６４による死角制御型ビーム形成で生成された指向成分Ｚi[n,u]を分離成分ＹBi[n,u]とする構成（以下「対比例」という）で生成された分離信号ｙi(t)の振幅スペクトルである。

指向成分Ｚi[n,u]を示す数式(7A)および数式(7B)の遅延項の各項（ｅ^{-jω[n](τ11+τ12)}，ｅ^{-jω[n](τ12+τ21)}）は角周波数ω[n]が小さいほど１に近付くから、角周波数ω[n]が小さいほど数式(7A)および数式(7B)の遅延項はゼロに近付く。したがって、指向成分Ｚi[n,u]は低域側ほど抑制される。すなわち、指向成分Ｚi[n,u]を分離成分ＹBi[n,u]として分離信号ｙi(t)を生成する対比例の構成では、図４の部分(B)からも把握されるように、分離信号ｙi(t)のうち低域側（特に０Ｈｚ〜５００Ｈｚ）の強度（振幅）が本来の音響Ｓi（部分(A)）と比較して抑制されるという問題がある。

他方、第１実施形態では、指向成分Ｚ1[n,u]および指向成分Ｚ2[n,u]の振幅から算定される処理係数値αi[n,u]を周波数成分ＸBi[n,u]に作用させて分離成分ＹBi[n,u]が生成される。前述の通り、処理係数値α1[n,u]および処理係数値α2[n,u]では、数式(7A)および数式(7B)における遅延項の影響は排除されるから、図４の部分(C)からも把握されるように、分離信号ｙi(t)における低域側の強度を音響Ｓiと同等に維持することが可能である。すなわち、第１実施形態によれば、対比例と比較して高精度な音源分離が実現される（各音響Ｓiを忠実に抽出できる）という利点がある。

また、数式(9A)や数式(9B)から理解されるように、第２音源分離部３２の処理（処理係数値αi[n,u]の算定や数式(3A)および数式(3B)の演算）は第１音源分離部３１の処理（学習処理の反復で分離行列Ｗ[m]を生成する処理）と比較して負荷が少ない。したがって、学習処理の対象となる第１周波数ＦA[m]の個数Ｍを削減できる第１実施形態によれば、音源分離の性能を低下させずに、演算処理装置１２の処理負荷（消費電力）や記憶装置１４に必要な記憶容量を削減できるという利点がある。以上の効果は、演算処理装置１２の性能や電源容量や記憶容量が制約される可搬型の情報端末（例えば携帯電話機）に音響処理装置１００Aを搭載する場合に格別に有利である。

学習処理の対象となる第１周波数ＦA[m]の個数Ｍと音源分離の精度とについて以下に詳述する。なお、以下の説明では、観測信号ｘi(t)を以下の数式(10A)および数式(10B)のように表現し、分離信号ｙi(t)を以下の数式(11A)および数式(11B)のように表現する。記号ｘij(t)および記号ｙij(t)は、音源ＰSiから収音機器ＰMjに到来する音響成分を意味する。

図５および図６は、独立成分分析の学習処理で分離行列Ｗ[m]を生成する第１周波数ＦA[m]の個数Ｍ（横軸）と音源分離の評価指標（縦軸）との関係を示すグラフである。図５および図６の横軸の記号“FDICA”は、Ｋ個の周波数Ｆ[1]〜Ｆ[K]の全部（例えばＫ＝５１３）を第１周波数ＦA[m]に選別した場合（すなわち、第２音源分離部３２を省略した構成）を意味する。また、図５および図６では、第１実施形態（実線）および対比例（破線）の各々について、無響室で収録された観測信号ｘi(t)を処理した場合の結果と、残響時間が５００ミリ秒である音響室で収録された観測信号ｘi(t)を処理した場合の結果とが併記されている。

図５では、音源分離後のセグメンタルＳＮＲ（SegSNR：Segmental Signal-to-Noise Ratio）が音源分離の評価指標として縦軸に図示されている。音源分離後のセグメンタルＳＮＲは以下の数式(12)で表現される。数式(12)の記号ｘij(h,u)は、数式(10A)および数式(10B)の音響成分ｘij(t)のうち第ｕ番目の単位期間内の時点ｈでの信号値（振幅）を意味する。また、数式(12)の記号ｙi(h,u)は、音源分離後の分離信号ｙi(t)のうち第ｕ番目の単位期間内の時点ｈでの信号値（振幅）を意味する。数式(12)から理解されるように、音源分離後のセグメンタルＳＮＲが大きい（すなわち分離信号ｙi(t)が観測点での音響Ｓiに近い）ほど音源分離の精度が高いと評価できる。

図５から把握されるように、対比例の構成では、学習処理の対象となる第１周波数ＦA[m]の個数Ｍが減少するほど音源分離の精度（セグメンタルＳＮＲ）が低下するのに対し、第１実施形態では、第１周波数ＦA[m]の個数Ｍを削減した場合でも充分に高精度な音源分離が実現される。Ｋ個の全部を第１周波数ＦA[m]に選別した場合（FDICA）と比較しても第１実施形態のほうが音源分離の精度が高いことが図５から把握される。

他方、図６では、音源分離の前後にわたるＳＩＲ（信号対干渉比：Signal-to-Interference Ratio）の変化量ΔSIRが音源分離の評価指標として縦軸に図示されている。音源分離前のＳＩＲ_inは以下の数式(13A)で表現され、音源分離後のＳＩＲ_outは以下の数式(13B)で表現される。数式(13A)の音響成分ｘ21(t)および音響成分ｘ12(t)（数式(10A)，数式(10B)）と、数式(13B)の音響成分ｙ21(t)および音響成分ｙ12(t)（数式(11A)，数式(11B)）とが干渉成分（妨害音）に相当する。

図６の縦軸に図示された変化量ΔSIRは、音源分離前のＳＩＲ_inと音源分離後のＳＩＲ_outとの差分値（ΔSIR＝ＳＩＲ_out−ＳＩＲ_in）に相当する。したがって、変化量ΔSIRが大きいほど音源分離の精度が高いと評価できる。図６から把握されるように、第１実施形態および対比例の双方について、学習処理の対象となる第１周波数ＦA[m]の個数Ｍが減少するほど音源分離の精度（変化量ΔSIR）が低下する。以上の傾向は、残響が発生する環境で特に顕著となる。

以上に説明したように、第１実施形態では、セグメンタルＳＮＲの観点から評価した音源分離の精度とＳＩＲ（変化量ΔSIR）の観点から評価した音源分離の精度とが、第１周波数ＦA[m]の個数Ｍに対して相互に背反する関係にある。したがって、図５のセグメンタルＳＮＲと図６のＳＩＲの変化量ΔSIRとが高い水準で両立するように第１周波数ＦA[m]の個数Ｍを選定することで、対比例と比較して高精度な音源分離を実現することが可能である。

例えば、第１実施形態では第１周波数ＦA[m]の個数Ｍが少ないほどセグメンタルＳＮＲが上昇する。したがって、セグメンタルＳＮＲを改善するという観点や、演算処理装置１２の処理負荷（消費電力）および記憶装置１４の容量を削減するという観点からすると、第１周波数ＦA[m]の個数Ｍを減少させるほど有利である。他方、第１周波数ＦA[m]の個数Ｍを極端に減少させた場合には、ＳＩＲの変化量ΔSIRの低下が顕在化する可能性があるが、第１周波数ＦA[m]の個数Ｍが周波数Ｆ[k]の総数Ｋ（Ｋ＝５１３）の１/４程度（Ｍ＝１２８）を上回る範囲であれば、ＳＩＲの変化量ΔSIRの低下は顕在化しないという傾向が図６から把握される。また、分離行列Ｍ[m]の個数Ｍが極端に少ない場合には到来方向θe1および到来方向θe2の推定精度が低下するが、個数Ｍが周波数Ｆ[k]の総数Ｋの１/４程度であれば、充分な精度で到来方向θe1および到来方向θe2を推定することが可能である。以上の傾向を考慮すると、第１周波数ＦA[m]の個数Ｍを周波数Ｆ[k]の総数Ｋの２５％程度（例えば２０％〜３０％）に設定した構成が格別に好適である。

＜Ｂ：第２実施形態＞
本発明の第２実施形態を以下に説明する。第１実施形態では、独立成分分析を利用した音源分離（第１音源分離部３１）と死角制御型ビーム形成を利用した音源分離（第２音源分離部３２）とを併用したが、第２実施形態では独立成分分析による音源分離が省略される。なお、以下に例示する各構成において作用や機能が第１実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図７は、第２実施形態の音響処理装置１００Bのブロック図である。図７に示すように、第２実施形態の音響処理装置１００Bは、第１実施形態における周波数選別部２４と指標算定部２６と第１音源分離部３１と周波数統合部４２とを省略した構成であり、周波数解析部２２と音源分離部３５と波形合成部４４とを具備する。周波数解析部２２は、第１実施形態と同様に、観測信号ｘ1(t)のＫ個の周波数成分Ｘ1[k,u]（Ｘ1[1,u]〜Ｘ1[K,u]）と観測信号ｘ2(t)のＫ個の周波数成分Ｘ2[k,u]（Ｘ2[1,u]〜Ｘ2[K,u]）とを生成する。

音源分離部３５は、第１実施形態の第２音源分離部３２と同様に、図２の方向特定部６２と指向処理部６４と係数値生成部６６と信号処理部６８とを具備し、各周波数成分Ｘ1[k,u]および各周波数成分Ｘ2[k,u]に対して死角制御型ビーム形成を利用した音源分離を実行することでＫ個の分離成分Ｙ1[k,u]（Ｙ1[1,u]〜Ｙ1[K,u]）とＫ個の分離成分Ｙ2[k,u]（Ｙ2[1,u]〜Ｙ2[K,u]）とを単位期間毎に生成する。すなわち、第２実施形態の音源分離部３５の動作は、第１実施形態においてＫ個の周波数Ｆ[1]〜Ｆ[K]の全部を第２周波数ＦB[1]〜ＦB[N]に選別した場合（Ｎ＝Ｋ）の第２音源分離部３２の動作と同様である。波形合成部４４は、第１実施形態と同様に、Ｋ個の分離成分Ｙ1[1,u]〜Ｙ1[K,u]から分離信号ｙ1(t)を生成するとともにＫ個の分離成分Ｙ2[1,u]〜Ｙ2[N,u]から分離信号ｙ2(t)を生成する。第２実施形態においても第１実施形態と同様の効果が実現される。

なお、第１実施形態の方向特定部６２は到来方向θe1および到来方向θe2の推定に分離行列Ｗ[m]を利用したが、第２実施形態の方向特定部６２が到来方向θe1および到来方向θe2を特定する方法には公知の技術が任意に採用される。例えば、方向特定部６２は、Ema Takuro and Nozomu Hamada, "FDICA using Time-Frequency Cell Selection for Blind Source Separation", 2005 RISP International Worksyop on Nonlinear Circuit and Signal Processing (NCSP'05), p.471 - 474 等に記載された方法で、各周波数成分Ｘ1[k,u]および各周波数成分Ｘ2[k,u]から到来方向θe1および到来方向θe2を推定する。また、第１実施形態の分離行列生成部５４を第２実施形態に追加し、分離行列生成部５４が生成した分離行列Ｗ[m]から第１実施形態と同様の方法で方向特定部６２が到来方向θe1および到来方向θe2を推定する構成（すなわち分離行列Ｗ[m]を到来方向θe1および到来方向θe2の推定のみに利用する構成）も採用される。

＜Ｃ：変形例＞
以上の各形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）変形例１
前述の各形態において方向特定部６２が到来方向θe1や到来方向θe2を特定する方法は任意である。例えば、分離行列生成部５４が生成したＭ個の分離行列Ｗ[1]〜Ｗ[M]のうち所定個の分離行列Ｗ[m]を選択して到来方向θe1および到来方向θe2を推定する構成も採用され得る。また、例えば、音源ＰS1の方向θ1や音源ＰS2の方向θ2が既知である場合には、到来方向θe1や到来方向θe2を記憶装置１４に事前に格納することも可能である。方向特定部６２は、記憶装置１４から到来方向θe1および到来方向θe2を取得する要素として機能する。利用者からの指示（例えば操作子の操作で方向を指定する動作）に応じて到来方向θe1および到来方向θe2を設定することも可能である。

（２）変形例２
第１実施形態の有意指標値σ[k]は、観測ベクトルＸv[k,u]の共分散行列Ｒxx[k]の行列式に限定されない。例えば特許文献１に例示された各種の指標（統計量）が有意指標値σ[k]として採用され得る。

例えば、観測ベクトルＸv[k,u]の分布における基底の総数が多い周波数Ｆ[k]ほど学習処理の有意性が高いという傾向を考慮すると、観測ベクトルＸv[k,u]の共分散行列Ｒxx[k]の条件数を有意指標値σ[k]として指標算定部２６が算定し、有意指標値σ[k]が小さいＭ個の周波数Ｆ[k]を周波数選別部２４が第１周波数ＦA[k]に選別することが可能である。すなわち、共分散行列Ｒxx[k]の行列式や条件数は、観測ベクトルＸv[k,u]の分布における基底の総数の指標として利用される。なお、共分散行列Ｒxx[k]のトレースを有意指標値σ[k]として算定し、有意指標値σ[k]が大きい周波数Ｆ[k]を第１周波数ＦA[m]に選別する構成も好適である。

独立成分分析の学習処理は、音源分離後の各信号が統計的に独立となるように分離行列Ｗ[m]を更新する処理であるから、観測信号ｘ1(t)と観測信号ｘ2(t)との間の統計的な相関が低い周波数Ｆ[k]ほど学習処理の有意性は高いと評価できる。以上の傾向を考慮すると、観測信号ｘ1(t)と観測信号ｘ2(t)との間の独立性の指標が有意指標値σ[k]として好適である。独立性の指標としては相互相関や相互情報量が例示される。周波数選別部２４は、観測信号ｘ1(t)と観測信号ｘ2(t)との間の独立性が高い（相互相関や相互情報量が小さい）Ｍ個の周波数Ｆ[k]を第１周波数ＦA[m]に選別する。

また、観測信号ｘ1(t)および観測信号ｘ2(t)に含まれる音響の種類数（音源数）が多いほど学習処理の有意性は高いと評価できる。音響の混合数が多いほど観測信号ｘ1(t)や観測信号ｘ2(t)の強度分布の尖度（カートシス）が低下するという傾向（中心極限定理）を考慮すると、観測信号ｘ1(t)または観測信号ｘ2(t)の強度分布（確率分布）の尖度が有意指標値σ[k]として採用され得る。周波数選別部２４は、観測信号ｘ1(t)および観測信号ｘ2(t)の片方または双方の強度分布の尖度が低い（音響の混合数が多い）Ｍ個の周波数Ｆ[k]を第１周波数ＦA[m]に選別する。

複数種の指標（例えば以上の例示から選択された２種以上の指標）から有意指標値σ[k]を算定することも可能である。例えば、前述の複数種の指標（例えば共分散行列Ｒxx[k]の行列式とトレース）の加重和を有意指標値σ[k]として算定する構成が採用される。

もっとも、第１周波数ＦA[m]と第２周波数ＦB[n]との選別に有意指標値σ[k]を利用する構成（指標算定部２６）は省略され得る。具体的には、観測信号ｘ1(t)や観測信号ｘ2(t)とは無関係にＫ個の周波数Ｆ[k]を選別することも可能である。例えば、Ｋ個の周波数Ｆ[k]から所定個の間隔で選択した周波数Ｆ[k]（例えば奇数番目の周波数Ｆ[k]）を第１周波数ＦA[m]に選別するとともに残余の周波数Ｆ[k]（例えば偶数番目の周波数Ｆ[k]）を第２周波数ＦB[n]に選別する構成が採用される。また、観測信号ｘ1(t)および観測信号ｘ2(t)に想定される音響特性や学習処理の内容等の事情から、学習処理の有意性が高い周波数Ｆ[k]が事前に判明しているならば、その周波数Ｆ[k]を第１周波数ＦA[m]に選別するとともに残余の周波数Ｆ[k]を第２周波数ＦB[n]に選別することも可能である。

（３）変形例３
以上の各形態では、２個の音源ＰSi（ＰS1，ＰS2）からの音響Ｓiを２個の収音機器ＰMj（ＰM1，ＰM2）で収音する構成を例示したが、音源ＰSiの総数や収音機器ＰMjの総数は適宜に変更される。ただし、収音機器ＰMjの総数は音源ＰSiの総数以上である必要がある。

（４）変形例４
例えば携帯電話機やパーソナルコンピュータ等の端末装置から送信された観測信号ｘ1(t)および観測信号ｘ2(t)をインターネット等の通信網を介して音響処理装置１００（１００A，１００B）が受信する構成も採用され得る。音響処理装置１００は、観測信号ｘ1(t)および観測信号ｘ2(t)から第１実施形態や第２実施形態と同様に分離信号ｙ1(t)および分離信号ｙ2(t)を生成して端末装置に送信する。各周波数成分Ｘ1[k,u]と各周波数成分Ｘ2[k,u]とが端末装置から音響処理装置１００に送信される構成（周波数解析部２２が端末装置に搭載されて音響処理装置１００には搭載されない構成）や、各分離成分Ｙ1[k,u]と各分離成分Ｙ2[k,u]とが音響処理装置１００から端末装置に送信される構成（波形合成部４４が端末装置に搭載されて音響処理装置１００には搭載されない構成）も採用される。

１００A，１００B……音響処理装置、１２……演算処理装置、１４……記憶装置、２２……周波数解析部、２４……周波数選別部、２６……指標算定部、３１……第１音源分離部、３２……第２音源分離部、３５……音源分離部、４２……周波数統合部、４４……波形合成部、５２……信号処理部、５４……分離行列生成部、６２……方向特定部、６４……指向処理部、６６……係数値生成部、６８……信号処理部、ＰS1，ＰS2……音源、ＰM1，ＰM2……収音機器。

Claims

複数の音源から到来する音響の混合音を複数の収音機器で収音した複数の観測信号を処理する音響処理装置であって、
複数の周波数を相異なる第１周波数と第２周波数とに選別する周波数選別手段と、
前記複数の観測信号における前記各第１周波数の成分から分離行列を前記第１周波数毎に生成する分離行列生成手段と、
前記複数の観測信号における前記各第１周波数の成分に当該第１周波数の分離行列を作用させて第１分離成分を生成する第１信号処理手段と、
前記分離行列生成手段が前記各第１周波数について生成した分離行列から前記複数の音源の各々について音響の到来方向を推定する方向特定手段と、
前記方向特定手段が推定した複数の到来方向の各々について、当該到来方向に収音の死角を形成する死角制御型ビーム形成を前記複数の観測信号における前記各第２周波数の成分に対して実行することで指向信号を生成する指向処理手段と、
前記指向処理手段が生成した複数の指向信号の振幅の加算値に対する一の指向信号の振幅の比に応じた処理係数値を前記各第２周波数について生成する係数値生成手段と、
前記複数の観測信号における前記各第２周波数の成分に当該第２周波数の処理係数値を作用させて第２分離成分を生成する第２信号処理手段と
を具備する音響処理装置。
前記複数の観測信号における前記各周波数の成分から分離行列を生成する学習処理の有意性を示す有意指標値を周波数毎に算定する指標算定手段を具備し、
前記周波数選別手段は、前記各周波数の有意指標値に応じて前記複数の周波数を第１周波数と第２周波数とに選別する
請求項１の音響処理装置。