<A:第1実施形態>
図1は、第1実施形態に係る音響処理装置100Aのブロック図である。相互に間隔をあけて配置された収音機器PM1および収音機器PM2が音響処理装置100Aに接続される。収音機器PM1および収音機器PM2は、例えば無指向性または指向性のマイクロホンである。収音機器PM1および収音機器PM2の周辺の相異なる位置には音源PS1および音源PS2が存在する。音源PS1は、観測点(例えば収音機器PM1と収音機器PM2との中点)に対して方向θ1に位置し、音源PS2は観測点に対して方向θ2に位置する。
音源PS1が発生した音響S1と音源PS2が発生した音響S2との混合音が収音機器PM1および収音機器PM2に到達する。収音機器PM1は観測信号x1(t)を生成し、収音機器PM2は観測信号x2(t)を生成する。観測信号x1(t)および観測信号x2(t)の各々は、音響S1と音響S2との混合音の時間波形を表す音響信号である(t:時間)。
音響処理装置100Aは、観測信号x1(t)および観測信号x2(t)に対する音源分離で分離信号y1(t)および分離信号y2(t)を生成する信号処理装置である。分離信号y1(t)は、音響S1を強調(音響S2を抑制)した音響信号であり、分離信号y2(t)は、音響S2を強調(音響S1を抑制)した音響信号である。すなわち、音響S1と音響S2とが分離(音源分離)される。
分離信号y1(t)および分離信号y2(t)は、スピーカやヘッドホン等の放音機器(図示略)に供給されることで音響として再生される。なお、分離信号y1(t)および分離信号y2(t)の一方のみを生成する構成(例えば分離信号y2(t)を雑音として破棄する構成)も採用される。また、観測信号x1(t)および観測信号x2(t)をアナログからデジタルに変換するA/D変換器や、分離信号y1(t)および分離信号y2(t)をデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
図1に示すように、音響処理装置100Aは、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。記憶装置14は、演算処理装置12が実行するプログラムや演算処理装置12が使用する各種の情報を記憶する。磁気記録媒体や半導体記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用される。観測信号x1(t)および観測信号x2(t)を事前に収録して記憶装置14に格納した構成(したがって収音機器PM1および収音機器PM2は省略される)も好適である。
演算処理装置12は、記憶装置14に格納されたプログラムを実行することで複数の要素(周波数解析部22,周波数選別部24,指標算定部26,第1音源分離部31,第2音源分離部32,周波数統合部42,波形合成部44)として機能する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
周波数解析部22は、観測信号x1(t)を周波数軸上の周波数F[k](k=1〜K)毎(帯域毎)に区分したK個の周波数成分X1[k,u](X1[1,u]〜X1[K,u])と、観測信号x2(t)を周波数F[k]毎に区分したK個の周波数成分X2[k,u](X2[1,u]〜X2[K,u])とを単位期間(フレーム)毎に順次に生成する。記号kは周波数軸上の各周波数を示す変数であり、記号uは時間軸上の各時点を示す変数(例えば単位期間の番号)である。各周波数成分X1[k,u]および各周波数成分X2[k,u]の生成には、例えば短時間フーリエ変換等の公知の周波数解析が任意に採用される。また、通過帯域が相違するK個の帯域通過フィルタ(フィルタバンク)を周波数解析部22として利用することも可能である。周波数成分X1[k,u]と周波数成分X2[k,u]とを要素とする観測ベクトルXv[k,u](Xv[k,u]=[X1[k,u],X2[k,u]]T)が順次に記憶装置14に格納される。なお、記号Tは行列の転置を意味する。
周波数選別部24は、K個の周波数F[1]〜F[K]をM個の第1周波数FA[1]〜FA[M]とN個の第2周波数FB[1]〜FB[N]とに単位期間毎に選別する(MおよびNは自然数。K=M+N)。周波数解析部22が生成したK個の周波数成分X1[1,u]〜X1[K,u]のうち各第1周波数FA[m](m=1〜M)のM個の周波数成分XA1[1,u]〜XA1[M,u]は第1音源分離部31に供給され、各第2周波数FB[n](n=1〜N)のN個の周波数成分XB1[1,u]〜XB1[N,u]は第2音源分離部32に供給される。同様に、K個の周波数成分X2[1,u]〜X2[K,u]のうち各第1周波数FA[m]のM個の周波数成分XA2[1,u]〜XA2[M,u]は第1音源分離部31に供給され、各第2周波数FB[n]のN個の周波数成分XB2[1,u]〜XB2[N,u]は第2音源分離部32に供給される。
指標算定部26は、周波数選別部24による周波数F[k]の選別の基準となる有意指標値σ[k](σ[1]〜σ[K])をK個の周波数F[1]〜F[K]の各々について算定する。有意指標値σ[k]の算定は所定の周期(例えば単位期間の所定個毎)で実行される。有意指標値σ[k]は、その周波数F[k]の観測ベクトルXv[k,u]から分離行列を生成する学習処理(独立成分分析)の有意性の尺度となる数値である。第1実施形態の指標算定部26は、所定個の単位期間にわたる周波数F[k]の観測ベクトルXv[k,u]の時系列の共分散行列Rxx[k](Rxx[k]=E[Xv[k,u]Xv[k,u]H])の行列式をその周波数F[k]の有意指標値σ[k]として算定する。記号Hは行列の共役転置を意味し、記号E[ ]は所定個の単位期間にわたる平均値(期待値)または加算値を意味する。なお、共分散行列Rxx[k]の行列式の算定については特許文献1に詳述されている。
周波数選別部24は、指標算定部26が算定した各有意指標値σ[k]に応じてK個の周波数F[1]〜F[K]をM個の第1周波数FA[1]〜FA[M]とN個の第2周波数FB[1]〜FB[N]とに選別する。特許文献1に開示されるように、共分散行列Rxx[k]の行列式が小さいほど、観測ベクトルXv[k,u]を適用した行列処理の有意性(学習処理の前後で音源分離の精度が向上する度合)が低いという傾向がある。そこで、周波数選別部24は、K個の周波数F[1]〜F[K]のうち有意指標値σ[k]が大きいM個(例えば有意指標値σ[k]の降順で上位のM個や有意指標値σ[k]が所定の閾値を上回るM個)の周波数F[k]を第1周波数FA[1]〜FA[M]に選別し、有意指標値σ[k]が小さいN個の周波数F[k]を第2周波数FB[1]〜FB[N]に選別する。
図1の第1音源分離部31は、各周波数成分XA1[m,u]および各周波数成分XA2[m,u]に対して独立成分分析を適用した音源分離を実行することで、各第1周波数FA[m]に対応するM個の分離成分YA1[1,u]〜YA1[M,u]とM個の分離成分YA2[1,u]〜YA2[M,u]とを単位期間毎に生成する。分離成分YA1[m,u]は、第1周波数FA[m]における音響S1の成分を強調(音響S2を抑制)した周波数成分であり、分離成分YA2[m,u]は、第1周波数FA[m]における音響S2の成分を強調(音響S1を抑制)した周波数成分である。
第2音源分離部32は、第1音源分離部31とは相違する信号処理を各周波数成分XB1[n,u]および各周波数成分XB2[n,u]に対して実行することで、各第2周波数FB[m]に対応するN個の分離成分YB1[1,u]〜YB1[N,u]とN個の分離成分YB2[1,u]〜YB2[N,u]とを単位期間毎に生成する。分離成分YB1[n,u]は、第2周波数FB[n]における音響S1の成分を強調(音響S2を抑制)した周波数成分であり、分離成分YB2[n,u]は、第2周波数FB[n]における音響S2の成分を強調(音響S1を抑制)した周波数成分である。
周波数統合部42は、第1音源分離部31が生成したM個の分離成分YA1[1,u]〜YA1[M,u]と第2音源分離部32が生成したN個の分離成分YB1[1,u]〜YB1[N,u]とを周波数の順番に配列(統合)することでK個の分離成分Y1[1,u]〜Y1[K,u]を単位期間毎に生成する。同様に、周波数統合部42は、M個の分離成分YA2[1,u]〜YA2[M,u]とN個の分離成分YB2[1,u]〜YB2[N,u]とを配列したK個の分離成分Y2[1,u]〜Y2[K,u]を単位期間毎に生成する。
波形合成部44は、周波数統合部42が単位期間毎に生成するK個の分離成分Y1[1,u]〜Y1[K,u]から時間領域の分離信号y1(t)を生成する。具体的には、波形合成部44は、K個の分離成分Y1[1,u]〜Y1[K,u]の系列(周波数スペクトル)を逆フーリエ変換で時間領域に変換するとともに前後の単位期間について相互に連結することで分離信号y1(t)を生成する。同様に、波形合成部44は、周波数統合部42が単位期間毎に生成するK個の分離成分Y2[1,u]〜Y2[K,u]から分離信号y2(t)を生成する。
図2は、第1音源分離部31および第2音源分離部32のブロック図である。図2に示すように、第1音源分離部31は、信号処理部52と分離行列生成部54とを含んで構成される。信号処理部52は、各第1周波数FA[m]の周波数成分XA1[m,u]および周波数成分XA2[m,u]にその第1周波数FA[m]の分離行列W[m]を作用させることで分離成分YA1[m,u]および分離成分YA2[m,u]を生成する。具体的には、信号処理部52は、M個の第1周波数FA[1]〜FA[M]の各々について以下の数式(1)の演算(音源分離)を実行する。
図2の分離行列生成部54は、信号処理部52が数式(1)の音源分離に適用する分離行列W[m](W[1]〜W[M])をM個の第1周波数FA[1]〜FA[M]の各々について単位期間毎に生成する。分離行列W[m]の生成には独立成分分析を適用した学習処理(分離行列W[m]の累積的な更新)が採用される。分離行列W[m]の学習処理には公知の技術が任意に採用され得るが、第p回目の更新後の分離行列W
p[m]から直後の分離行列W
p+1[m]を算定する以下の数式(2)の演算が好適である。なお、最初の分離行列W
1[m]の算定には所定の初期行列W
0[m](例えば単位行列)が適用される。
数式(2)の記号ηは所定の定数(ステップサイズ)を意味し、記号off-diag( )は、対角成分をゼロに置換する演算子を意味する。また、記号φ[m,n]は所定の非線形関数(例えば双曲線正接関数)である。数式(2)の記号Yvp[m,u]は、周波数成分XA1[m,u]および周波数成分XA2[m,u]に分離行列Wp[m]を作用させる数式(1)の演算で算定されるベクトル(Yvp[m,u]=[YA1[m,u],YA2[m,u]]T)を意味する。分離行列生成部54は、数式(2)の演算を所定回だけ反復した時点の分離行列Wp+1[m]を分離行列W[m]として確定する。以上が第1音源分離部31の構成および作用である。
図2に示すように、第2音源分離部32は、演算処理部60と信号処理部68とを含んで構成される。演算処理部60は、N個の第2周波数FB[1]〜FB[N]の各々について処理係数値α1[n,u](α1[1,u]〜α1[N,u])と処理係数値α2[n,u](α2[1,u]〜α2[N,u])とを設定する。処理係数値α1[n,u]および処理係数値α2[n,u]の算定は所定の周期毎(例えば単位期間毎)に実行される。
各第2周波数FB[n]の処理係数値α1[n,u]および処理係数値α2[n,u]は、音響S1のうちその第2周波数FB[n]の周波数成分S1[n,u]の振幅|S1[n,u]|と、音響S2のうちその第2周波数FB[n]の周波数成分S2[n,u]の振幅|S2[n,u]|との関係(大小)に応じて0以上かつ1以下の範囲内で可変に設定される。具体的には、音響S1の振幅|S1[n,u]|が振幅|S2[n,u]|に対して大きいほど処理係数値α1[n,u]は大きい数値に設定され、音響S2の振幅|S2[n,u]|が振幅|S1[n,u]|に対して大きいほど処理係数値α2[n,u]は大きい数値に設定される。
図2の信号処理部68は、各第2周波数FB[n]の周波数成分XB1[n,u]および周波数成分XB2[n,u]にその第2周波数FB[n]の処理係数値α1[n,u]および処理係数値α2[n,u]を作用させることで分離成分YB1[n,u]および分離成分YB2[n,u]を単位期間毎に生成する。具体的には、信号処理部68は、N個の第2周波数FB[1]〜FB[N]の各々について以下の数式(3A)および数式(3B)の演算を実行する。
すなわち、周波数成分XB1[n,u]に対する処理係数値α1[n,u]の乗算で、音響S1の周波数成分S1[n,u]を強調した分離成分YB1[n,u]が生成され、周波数成分XB2[n,u]に対する処理係数値α2[n,u]の乗算で、音響S2の周波数成分S2[n,u]を強調した分離成分YB2[n,u]が生成される。したがって、処理係数値α1[n,u]は周波数成分XB1[n,u]に対する利得(スペクトルゲイン)に相当し、処理係数値α2[n,u]は周波数成分XB2[n,u]に対する利得に相当する。
図2に示すように、演算処理部60は、方向特定部62と指向処理部64と係数値生成部66とを含んで構成される。方向特定部62は、音響S1の到来方向(音源PS1の方向)θe1と音響S2の到来方向(音源PS2の方向)θe2とを特定する。なお、以下の説明において符号の添字eは推定値(estimate)を意味する。
第1実施形態の方向特定部62は、分離行列生成部54が第1周波数FA[m]毎に生成する分離行列W[m](W[1]〜W[M])を利用して到来方向θe1および到来方向θe2を推定する。到来方向θe1および到来方向θe2の推定には公知の技術(例えば非特許文献1に開示された方法)が任意に採用される。例えば、方向特定部62は、各第1周波数FA[m]の分離行列W[m]から音響S1の到来方向θe1[m]と音響S2の到来方向θe2[m]とを推定し、M個の到来方向θe1[1]〜θe1[M]の代表値(例えば加重和や平均値や中央値)を到来方向θe1として確定するとともにM個の到来方向θe2[1]〜θe2[M]の代表値を到来方向θe2として確定する。
図2の指向処理部64は、所定の方向に収音の死角(収音の感度が低い領域)を形成する処理(以下「死角制御型ビーム形成」という)を周波数成分XB1[n,u]および周波数成分XB2[n,u]に対して実行することで、指向成分Z1[n,u](Z1[1,u]〜Z1[N,u])と指向成分Z2[n,u](Z2[1,u]〜Z2[N,u])とを単位期間毎に生成する。具体的には、指向処理部64は、方向特定部62が特定した到来方向θe2に収音の死角を形成する死角制御型ビーム形成(NBF)を周波数成分XB1[n,u]および周波数成分XB2[n,u]に実行することで指向成分Z1[n,u]を生成し、到来方向θe1に収音の死角を形成する死角制御型ビーム形成を周波数成分XB1[n,u]および周波数成分XB2[n,u]に実行することで指向成分Z2[n,u]を生成する。したがって、指向成分Z1[n,u]では到来方向θe2からの到来音(音響S2)が抑制され、指向成分Z2[n,u]では到来方向θe1からの到来音(音響S1)が抑制される。
図3は、指向処理部64のブロック図である。図3には、音源PS1が放射した音響S1(周波数成分S1[n,u])と音源PS2が放射した音響S2(周波数成分S2[n,u])とが収音機器PM1および収音機器PM2の各々に到達するまでの伝播経路のモデルが便宜的に併記されている。
図3の記号Ai[n](i=1,2)は、音響Siの周波数成分Si[n,u]の伝播損失(伝播経路で付与される利得)を意味する。なお、周波数成分Si[n,u]の伝播遅延は、伝播損失Ai[n]に反映されることを考慮して図3では省略した。図3の記号τi1は、周波数成分Si[n,u]が収音機器PM2に到達してから収音機器PM1に到達するまでの遅延(時間差)を意味し、記号τi2は、周波数成分Si[n,u]が収音機器PM1に到達してから収音機器PM2に到達するまでの遅延を意味する。
図3から理解されるように、収音機器PMjによる収音後の周波数成分XB1[n,u]および周波数成分XB2[n,u]は、以下の数式(4A)および数式(4B)で表現される。数式(4A)および数式(4B)の記号ω[n]は第2周波数FB[n]に対応する角周波数を意味し、記号jは虚数単位を意味する。
図3に示すように、指向処理部64は、指向成分Z1[n,u]を生成する第1処理部72と指向成分Z2[n,u]を生成する第2処理部74とを具備する。第1処理部72は、周波数成分XB1[n,u]に遅延τe22を付与する遅延部721と、周波数成分XB2[n,u]に遅延τe21を付与する遅延部723と、遅延部721および遅延部723の各出力間の差分を指向成分Z1[n,u]として生成する演算部725とを含んで構成される。同様に、第2処理部74は、周波数成分XB2[n,u]に遅延τe11を付与する遅延部741と、周波数成分XB1[n,u]に遅延τe12を付与する遅延部743と、遅延部741および遅延部743の各出力間の差分を指向成分Z2[n,u]として生成する演算部745とを含んで構成される。遅延τeijは、伝播経路で付与される遅延τijの推定値である。遅延τe21および遅延τe22は、到来方向θe2に収音の死角が形成されるように設定され、遅延τe11および遅延τe12は到来方向θe1に収音の死角が形成されるように設定される。
図3から理解されるように、指向成分Z1[n,u]および指向成分Z2[n,u]は、以下の数式(5A)および数式(5B)で表現される。
数式(4A)および数式(4B)を数式(5A)に代入して変形すると以下の数式(6A)が導出される。同様に、数式(4A)および数式(4B)を数式(5B)に代入して変形すると以下の数式(6B)が導出される。
いま、方向特定部62による到来方向θe1および到来方向θe2の推定の精度が充分に高い(θe1≒θ1,θe2≒θ2)と仮定すると、指向処理部64に適用される遅延τeijを、実際の伝播経路における遅延τijで近似する(τeij≒τij)ことが可能である。したがって、数式(6A)の右辺の第2項と第4項とが相殺されて以下の数式(7A)が導出され、数式(6B)の右辺の第1項と第3項とが相殺されて以下の数式(7B)が導出される。
いま、指向成分Z1[n,u]の振幅|Z1[n,u]|と指向成分Z2[n,u]の振幅|Z2[n,u]|との加算値(以下「振幅和」という)に対する指向成分Z1[n,u]の振幅|Z1[n,u]|の比は、数式(7A)および数式(7B)を考慮すると以下の数式(8A)のように表現される。同様に、振幅和に対する指向成分Z2[n,u]の振幅|Z2[n,u]|の比は、以下の数式(8B)のように表現される。
数式(7A)および数式(7B)のうち遅延(位相)τijに関連する遅延項(後半の括弧部分)は指向成分Z1[n,u]と指向成分Z2[n,u]とで共通する。したがって、数式(8A)および数式(8B)では遅延項が消去される。
図2の係数値生成部66は、以下の数式(9A)および数式(9B)に示すように、振幅和に対する指向成分Z1[n,u]の振幅|Z1[n,u]|の比(数式(8A))を処理係数値α1[n,u]として第2周波数FB[n]毎に算定し、振幅和に対する指向成分Z2[n,u]の振幅|Z2[n,u]|の比(数式(8B))を処理係数値α2[n,u]として第2周波数FB[n]毎に算定する。
数式(8A)および数式(8B)と数式(9A)および数式(9B)とから理解されるように、処理係数値α1[n,u]および処理係数値α2[n,u]は、観測点での音響S1および音響S2の単位期間毎の振幅の内分比(観測信号x1(t)および観測信号x2(t)の各々に対する各音源PSiの寄与度)に相当する。すなわち、観測点での音響S1の振幅比が処理係数値α1[n,u]で表現され、観測点での音響S2の振幅比が処理係数値α2[n,u]で表現され得る。例えば、観測点での音響S1の振幅(A1[n]|S1[n,u]|)と音響S2の振幅(A2[n]|S2[n,u]|)とが相等しい場合に処理係数値α1[n,u]および処理係数値α2[n,u]は0.5となり、音響S1の振幅(A1[n]|S1[n,u]|)が音響S2の振幅(A2[n]|S2[n,u]|)を上回る場合には、処理係数値α1[n,u]は処理係数値α2[n,u]を上回る。したがって、数式(9A)の処理係数値α1[n,u]および数式(9B)の処理係数値α2[n,u]は観測点での音響S1と音響S2との振幅比を表現する変数として妥当である。
処理係数値α1[n,u]および処理係数値α2[n,u]は以上のように設定されるから、数式(9A)の処理係数値α1[n,u]を適用した数式(3A)の演算で信号処理部68が生成する分離成分YB1[n,u]では音響S1の周波数成分S1[n,u]が強調され、数式(9B)の処理係数値α2[n,u]を適用した数式(3B)の演算で生成される分離成分YB2[n,u]では音響S2の周波数成分S2[n,u]が強調される。すなわち、N個の第2周波数FB[1]〜FB[N]の各々について音響S1(周波数成分S1[n,u])と音響S2(周波数成分S1[n,u])とが分離される。
図4の部分(A)は、音源PSiが放射した音響Siの振幅スペクトルであり、図4の部分(C)は、第1実施形態の構成で生成された分離信号yi(t)の振幅スペクトルである。図4の部分(B)は、指向処理部64による死角制御型ビーム形成で生成された指向成分Zi[n,u]を分離成分YBi[n,u]とする構成(以下「対比例」という)で生成された分離信号yi(t)の振幅スペクトルである。
指向成分Zi[n,u]を示す数式(7A)および数式(7B)の遅延項の各項(e-jω[n](τ11+τ12),e-jω[n](τ12+τ21))は角周波数ω[n]が小さいほど1に近付くから、角周波数ω[n]が小さいほど数式(7A)および数式(7B)の遅延項はゼロに近付く。したがって、指向成分Zi[n,u]は低域側ほど抑制される。すなわち、指向成分Zi[n,u]を分離成分YBi[n,u]として分離信号yi(t)を生成する対比例の構成では、図4の部分(B)からも把握されるように、分離信号yi(t)のうち低域側(特に0Hz〜500Hz)の強度(振幅)が本来の音響Si(部分(A))と比較して抑制されるという問題がある。
他方、第1実施形態では、指向成分Z1[n,u]および指向成分Z2[n,u]の振幅から算定される処理係数値αi[n,u]を周波数成分XBi[n,u]に作用させて分離成分YBi[n,u]が生成される。前述の通り、処理係数値α1[n,u]および処理係数値α2[n,u]では、数式(7A)および数式(7B)における遅延項の影響は排除されるから、図4の部分(C)からも把握されるように、分離信号yi(t)における低域側の強度を音響Siと同等に維持することが可能である。すなわち、第1実施形態によれば、対比例と比較して高精度な音源分離が実現される(各音響Siを忠実に抽出できる)という利点がある。
また、数式(9A)や数式(9B)から理解されるように、第2音源分離部32の処理(処理係数値αi[n,u]の算定や数式(3A)および数式(3B)の演算)は第1音源分離部31の処理(学習処理の反復で分離行列W[m]を生成する処理)と比較して負荷が少ない。したがって、学習処理の対象となる第1周波数FA[m]の個数Mを削減できる第1実施形態によれば、音源分離の性能を低下させずに、演算処理装置12の処理負荷(消費電力)や記憶装置14に必要な記憶容量を削減できるという利点がある。以上の効果は、演算処理装置12の性能や電源容量や記憶容量が制約される可搬型の情報端末(例えば携帯電話機)に音響処理装置100Aを搭載する場合に格別に有利である。
学習処理の対象となる第1周波数FA[m]の個数Mと音源分離の精度とについて以下に詳述する。なお、以下の説明では、観測信号xi(t)を以下の数式(10A)および数式(10B)のように表現し、分離信号yi(t)を以下の数式(11A)および数式(11B)のように表現する。記号xij(t)および記号yij(t)は、音源PSiから収音機器PMjに到来する音響成分を意味する。
図5および図6は、独立成分分析の学習処理で分離行列W[m]を生成する第1周波数FA[m]の個数M(横軸)と音源分離の評価指標(縦軸)との関係を示すグラフである。図5および図6の横軸の記号“FDICA”は、K個の周波数F[1]〜F[K]の全部(例えばK=513)を第1周波数FA[m]に選別した場合(すなわち、第2音源分離部32を省略した構成)を意味する。また、図5および図6では、第1実施形態(実線)および対比例(破線)の各々について、無響室で収録された観測信号xi(t)を処理した場合の結果と、残響時間が500ミリ秒である音響室で収録された観測信号xi(t)を処理した場合の結果とが併記されている。
図5では、音源分離後のセグメンタルSNR(SegSNR:Segmental Signal-to-Noise Ratio)が音源分離の評価指標として縦軸に図示されている。音源分離後のセグメンタルSNRは以下の数式(12)で表現される。数式(12)の記号xij(h,u)は、数式(10A)および数式(10B)の音響成分xij(t)のうち第u番目の単位期間内の時点hでの信号値(振幅)を意味する。また、数式(12)の記号yi(h,u)は、音源分離後の分離信号yi(t)のうち第u番目の単位期間内の時点hでの信号値(振幅)を意味する。数式(12)から理解されるように、音源分離後のセグメンタルSNRが大きい(すなわち分離信号yi(t)が観測点での音響Siに近い)ほど音源分離の精度が高いと評価できる。
図5から把握されるように、対比例の構成では、学習処理の対象となる第1周波数FA[m]の個数Mが減少するほど音源分離の精度(セグメンタルSNR)が低下するのに対し、第1実施形態では、第1周波数FA[m]の個数Mを削減した場合でも充分に高精度な音源分離が実現される。K個の全部を第1周波数FA[m]に選別した場合(FDICA)と比較しても第1実施形態のほうが音源分離の精度が高いことが図5から把握される。
他方、図6では、音源分離の前後にわたるSIR(信号対干渉比:Signal-to-Interference Ratio)の変化量ΔSIRが音源分離の評価指標として縦軸に図示されている。音源分離前のSIR
inは以下の数式(13A)で表現され、音源分離後のSIR
outは以下の数式(13B)で表現される。数式(13A)の音響成分x21(t)および音響成分x12(t)(数式(10A),数式(10B))と、数式(13B)の音響成分y21(t)および音響成分y12(t)(数式(11A),数式(11B))とが干渉成分(妨害音)に相当する。
図6の縦軸に図示された変化量ΔSIRは、音源分離前のSIRinと音源分離後のSIRoutとの差分値(ΔSIR=SIRout−SIRin)に相当する。したがって、変化量ΔSIRが大きいほど音源分離の精度が高いと評価できる。図6から把握されるように、第1実施形態および対比例の双方について、学習処理の対象となる第1周波数FA[m]の個数Mが減少するほど音源分離の精度(変化量ΔSIR)が低下する。以上の傾向は、残響が発生する環境で特に顕著となる。
以上に説明したように、第1実施形態では、セグメンタルSNRの観点から評価した音源分離の精度とSIR(変化量ΔSIR)の観点から評価した音源分離の精度とが、第1周波数FA[m]の個数Mに対して相互に背反する関係にある。したがって、図5のセグメンタルSNRと図6のSIRの変化量ΔSIRとが高い水準で両立するように第1周波数FA[m]の個数Mを選定することで、対比例と比較して高精度な音源分離を実現することが可能である。
例えば、第1実施形態では第1周波数FA[m]の個数Mが少ないほどセグメンタルSNRが上昇する。したがって、セグメンタルSNRを改善するという観点や、演算処理装置12の処理負荷(消費電力)および記憶装置14の容量を削減するという観点からすると、第1周波数FA[m]の個数Mを減少させるほど有利である。他方、第1周波数FA[m]の個数Mを極端に減少させた場合には、SIRの変化量ΔSIRの低下が顕在化する可能性があるが、第1周波数FA[m]の個数Mが周波数F[k]の総数K(K=513)の1/4程度(M=128)を上回る範囲であれば、SIRの変化量ΔSIRの低下は顕在化しないという傾向が図6から把握される。また、分離行列M[m]の個数Mが極端に少ない場合には到来方向θe1および到来方向θe2の推定精度が低下するが、個数Mが周波数F[k]の総数Kの1/4程度であれば、充分な精度で到来方向θe1および到来方向θe2を推定することが可能である。以上の傾向を考慮すると、第1周波数FA[m]の個数Mを周波数F[k]の総数Kの25%程度(例えば20%〜30%)に設定した構成が格別に好適である。
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。第1実施形態では、独立成分分析を利用した音源分離(第1音源分離部31)と死角制御型ビーム形成を利用した音源分離(第2音源分離部32)とを併用したが、第2実施形態では独立成分分析による音源分離が省略される。なお、以下に例示する各構成において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図7は、第2実施形態の音響処理装置100Bのブロック図である。図7に示すように、第2実施形態の音響処理装置100Bは、第1実施形態における周波数選別部24と指標算定部26と第1音源分離部31と周波数統合部42とを省略した構成であり、周波数解析部22と音源分離部35と波形合成部44とを具備する。周波数解析部22は、第1実施形態と同様に、観測信号x1(t)のK個の周波数成分X1[k,u](X1[1,u]〜X1[K,u])と観測信号x2(t)のK個の周波数成分X2[k,u](X2[1,u]〜X2[K,u])とを生成する。
音源分離部35は、第1実施形態の第2音源分離部32と同様に、図2の方向特定部62と指向処理部64と係数値生成部66と信号処理部68とを具備し、各周波数成分X1[k,u]および各周波数成分X2[k,u]に対して死角制御型ビーム形成を利用した音源分離を実行することでK個の分離成分Y1[k,u](Y1[1,u]〜Y1[K,u])とK個の分離成分Y2[k,u](Y2[1,u]〜Y2[K,u])とを単位期間毎に生成する。すなわち、第2実施形態の音源分離部35の動作は、第1実施形態においてK個の周波数F[1]〜F[K]の全部を第2周波数FB[1]〜FB[N]に選別した場合(N=K)の第2音源分離部32の動作と同様である。波形合成部44は、第1実施形態と同様に、K個の分離成分Y1[1,u]〜Y1[K,u]から分離信号y1(t)を生成するとともにK個の分離成分Y2[1,u]〜Y2[N,u]から分離信号y2(t)を生成する。第2実施形態においても第1実施形態と同様の効果が実現される。
なお、第1実施形態の方向特定部62は到来方向θe1および到来方向θe2の推定に分離行列W[m]を利用したが、第2実施形態の方向特定部62が到来方向θe1および到来方向θe2を特定する方法には公知の技術が任意に採用される。例えば、方向特定部62は、Ema Takuro and Nozomu Hamada, "FDICA using Time-Frequency Cell Selection for Blind Source Separation", 2005 RISP International Worksyop on Nonlinear Circuit and Signal Processing (NCSP'05), p.471 - 474 等に記載された方法で、各周波数成分X1[k,u]および各周波数成分X2[k,u]から到来方向θe1および到来方向θe2を推定する。また、第1実施形態の分離行列生成部54を第2実施形態に追加し、分離行列生成部54が生成した分離行列W[m]から第1実施形態と同様の方法で方向特定部62が到来方向θe1および到来方向θe2を推定する構成(すなわち分離行列W[m]を到来方向θe1および到来方向θe2の推定のみに利用する構成)も採用される。
<C:変形例>
以上の各形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
前述の各形態において方向特定部62が到来方向θe1や到来方向θe2を特定する方法は任意である。例えば、分離行列生成部54が生成したM個の分離行列W[1]〜W[M]のうち所定個の分離行列W[m]を選択して到来方向θe1および到来方向θe2を推定する構成も採用され得る。また、例えば、音源PS1の方向θ1や音源PS2の方向θ2が既知である場合には、到来方向θe1や到来方向θe2を記憶装置14に事前に格納することも可能である。方向特定部62は、記憶装置14から到来方向θe1および到来方向θe2を取得する要素として機能する。利用者からの指示(例えば操作子の操作で方向を指定する動作)に応じて到来方向θe1および到来方向θe2を設定することも可能である。
(2)変形例2
第1実施形態の有意指標値σ[k]は、観測ベクトルXv[k,u]の共分散行列Rxx[k]の行列式に限定されない。例えば特許文献1に例示された各種の指標(統計量)が有意指標値σ[k]として採用され得る。
例えば、観測ベクトルXv[k,u]の分布における基底の総数が多い周波数F[k]ほど学習処理の有意性が高いという傾向を考慮すると、観測ベクトルXv[k,u]の共分散行列Rxx[k]の条件数を有意指標値σ[k]として指標算定部26が算定し、有意指標値σ[k]が小さいM個の周波数F[k]を周波数選別部24が第1周波数FA[k]に選別することが可能である。すなわち、共分散行列Rxx[k]の行列式や条件数は、観測ベクトルXv[k,u]の分布における基底の総数の指標として利用される。なお、共分散行列Rxx[k]のトレースを有意指標値σ[k]として算定し、有意指標値σ[k]が大きい周波数F[k]を第1周波数FA[m]に選別する構成も好適である。
独立成分分析の学習処理は、音源分離後の各信号が統計的に独立となるように分離行列W[m]を更新する処理であるから、観測信号x1(t)と観測信号x2(t)との間の統計的な相関が低い周波数F[k]ほど学習処理の有意性は高いと評価できる。以上の傾向を考慮すると、観測信号x1(t)と観測信号x2(t)との間の独立性の指標が有意指標値σ[k]として好適である。独立性の指標としては相互相関や相互情報量が例示される。周波数選別部24は、観測信号x1(t)と観測信号x2(t)との間の独立性が高い(相互相関や相互情報量が小さい)M個の周波数F[k]を第1周波数FA[m]に選別する。
また、観測信号x1(t)および観測信号x2(t)に含まれる音響の種類数(音源数)が多いほど学習処理の有意性は高いと評価できる。音響の混合数が多いほど観測信号x1(t)や観測信号x2(t)の強度分布の尖度(カートシス)が低下するという傾向(中心極限定理)を考慮すると、観測信号x1(t)または観測信号x2(t)の強度分布(確率分布)の尖度が有意指標値σ[k]として採用され得る。周波数選別部24は、観測信号x1(t)および観測信号x2(t)の片方または双方の強度分布の尖度が低い(音響の混合数が多い)M個の周波数F[k]を第1周波数FA[m]に選別する。
複数種の指標(例えば以上の例示から選択された2種以上の指標)から有意指標値σ[k]を算定することも可能である。例えば、前述の複数種の指標(例えば共分散行列Rxx[k]の行列式とトレース)の加重和を有意指標値σ[k]として算定する構成が採用される。
もっとも、第1周波数FA[m]と第2周波数FB[n]との選別に有意指標値σ[k]を利用する構成(指標算定部26)は省略され得る。具体的には、観測信号x1(t)や観測信号x2(t)とは無関係にK個の周波数F[k]を選別することも可能である。例えば、K個の周波数F[k]から所定個の間隔で選択した周波数F[k](例えば奇数番目の周波数F[k])を第1周波数FA[m]に選別するとともに残余の周波数F[k](例えば偶数番目の周波数F[k])を第2周波数FB[n]に選別する構成が採用される。また、観測信号x1(t)および観測信号x2(t)に想定される音響特性や学習処理の内容等の事情から、学習処理の有意性が高い周波数F[k]が事前に判明しているならば、その周波数F[k]を第1周波数FA[m]に選別するとともに残余の周波数F[k]を第2周波数FB[n]に選別することも可能である。
(3)変形例3
以上の各形態では、2個の音源PSi(PS1,PS2)からの音響Siを2個の収音機器PMj(PM1,PM2)で収音する構成を例示したが、音源PSiの総数や収音機器PMjの総数は適宜に変更される。ただし、収音機器PMjの総数は音源PSiの総数以上である必要がある。
(4)変形例4
例えば携帯電話機やパーソナルコンピュータ等の端末装置から送信された観測信号x1(t)および観測信号x2(t)をインターネット等の通信網を介して音響処理装置100(100A,100B)が受信する構成も採用され得る。音響処理装置100は、観測信号x1(t)および観測信号x2(t)から第1実施形態や第2実施形態と同様に分離信号y1(t)および分離信号y2(t)を生成して端末装置に送信する。各周波数成分X1[k,u]と各周波数成分X2[k,u]とが端末装置から音響処理装置100に送信される構成(周波数解析部22が端末装置に搭載されて音響処理装置100には搭載されない構成)や、各分離成分Y1[k,u]と各分離成分Y2[k,u]とが音響処理装置100から端末装置に送信される構成(波形合成部44が端末装置に搭載されて音響処理装置100には搭載されない構成)も採用される。