JP5826502B2 - 音響処理装置 - Google Patents

音響処理装置 Download PDF

Info

Publication number
JP5826502B2
JP5826502B2 JP2011040014A JP2011040014A JP5826502B2 JP 5826502 B2 JP5826502 B2 JP 5826502B2 JP 2011040014 A JP2011040014 A JP 2011040014A JP 2011040014 A JP2011040014 A JP 2011040014A JP 5826502 B2 JP5826502 B2 JP 5826502B2
Authority
JP
Japan
Prior art keywords
frequency
sound
processing
unit
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011040014A
Other languages
English (en)
Other versions
JP2012178679A (ja
Inventor
近藤 多伸
多伸 近藤
一哉 武田
一哉 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya University NUC
Yamaha Corp
Tokai National Higher Education and Research System NUC
Original Assignee
Nagoya University NUC
Yamaha Corp
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya University NUC, Yamaha Corp, Tokai National Higher Education and Research System NUC filed Critical Nagoya University NUC
Priority to JP2011040014A priority Critical patent/JP5826502B2/ja
Publication of JP2012178679A publication Critical patent/JP2012178679A/ja
Application granted granted Critical
Publication of JP5826502B2 publication Critical patent/JP5826502B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、相異なる音源が発生した複数の音響の混合音のうち特定の音源からの音響を強調(分離または抽出)する技術に関する。
音声や雑音等の複数の音響の混合音を複数の収音機器で収音した複数の観測信号に音源分離を実行することで各音源からの音響を分離する音源分離技術が従来から提案されている。音源分離に適用される分離行列(逆混合行列)は、例えば周波数領域の独立成分分析(FDICA:Frequency-Domain Independent Component Analysis)を利用した学習処理(反復的な更新)で周波数毎に算定される。
特許文献1および非特許文献1には、複数の周波数から所定の条件で選択された周波数について複数の観測信号を利用した学習処理で分離行列を生成し、学習処理後の分離行列を利用して非選択の周波数の分離行列を補充する技術が開示されている。非選択の周波数の分離行列の生成には、例えば死角制御型ビーム形成(NBF(Null Beam Former))が利用される。すなわち、学習処理後の分離行列から推定される音響の到来方向に収音の死角が形成されるように非選択の周波数の分離行列が生成される。
特開2010−117653号公報
大迫ほか3名,"死角制御型ビームフォーマによる周波数帯域補間を用いたブラインド音源分離の高速化手法",日本音響学会講演論文集,日本音響学会,2007年3月,p.549-p.550
しかし、以上の技術では、音源分離後の信号のうち低域側の周波数での強度が死角制御型ビーム形成に起因して低くなるという問題がある。以上の事情を考慮して、本発明は、音源分離後の信号について低域側の強度を維持することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音響処理装置は、複数の音源(例えば音源PS1および音源PS2)から到来する音響(例えば音響S1および音響S2)の混合音を複数の収音機器(例えば収音機器PM1および収音機器PM2)で収音した複数の観測信号(例えば観測信号x1(t)および観測信号x2(t))を処理する音響処理装置であって、複数の周波数(例えばK個の周波数F[1]〜F[K])を相異なる第1周波数(例えばM個の第1周波数FA[1]〜FA[M])と第2周波数(例えばN個の第2周波数FB[1]〜FB[N])とに選別する周波数選別手段(例えば周波数選別部24)と、複数の観測信号における各第1周波数の成分から分離行列(例えば分離行列W[m])を第1周波数毎に生成する分離行列生成手段(例えば分離行列生成部54)と、複数の観測信号における各第1周波数の成分に当該第1周波数の分離行列を作用させて第1分離成分(例えば分離成分YA1[m,u]または分離成分YA2[m,u])を生成する第1信号処理手段(例えば信号処理部52)と、分離行列生成手段が各第1周波数について生成した分離行列から複数の音源の各々について音響の到来方向(例えば到来方向θe1および到来方向θe2)を推定する方向特定手段(例えば方向特定部62)と、方向特定手段が推定した複数の到来方向の各々について、当該到来方向に収音の死角を形成する死角制御型ビーム形成を複数の観測信号における前記各第2周波数の成分に対して実行することで指向信号(例えば指向成分Z1[n,u]および指向成分Z2[n,u])を生成する指向処理手段(例えば指向処理部64)と、指向処理手段が生成した複数の指向信号の振幅の加算値に対する一の指向信号の振幅の比に応じた処理係数値(例えば処理係数値αi[n,u])を各第2周波数について生成する係数値生成手段(例えば係数値生成部66)と、複数の観測信号における前記各第2周波数の成分に当該第2周波数の処理係数値を作用させて第2分離成分(例えば分離成分YB1[n,u]または分離成分YB2[n,u])を生成する第2信号処理手段(例えば信号処理部68)とを具備する。
以上の形態では、複数の指向信号の振幅の加算値に対する一の指向信号の振幅の比に応じた処理係数値を観測信号に作用させるから、例えば指向処理手段が生成した指向信号を音源分離後の音響信号として確定する構成と比較すると、音源分離後の信号について低域側の強度を維持することが可能である。また、複数の周波数のうち第1周波数については分離行列を利用した観測信号の処理で第1分離成分が生成され、複数の周波数のうち第2周波数については処理係数値を利用した観測信号の処理で第2分離成分が生成される。したがって、第2分離成分における低域側の強度を維持しながら、全部の周波数について分離行列を生成する構成と比較して音響処理装置の演算量や必要な記憶容量を削減できるという利点がある。分離行列生成手段が第1周波数について生成した分離行列から各音響の到来方向が推定されるから、分離行列生成手段による分離行列の生成とは別個に方向特定部が各音響の到来方向を推定する構成と比較して、音響処理装置の演算量や必要な記憶容量が削減されるという利点もある。
本発明の好適な態様の音響処理装置は、複数の観測信号における各周波数の成分から分離行列を生成する学習処理の有意性を示す有意指標値を周波数毎に算定する指標算定手段(例えば指標算定部26)を具備し、周波数選別手段は、各周波数の有意指標値に応じて複数の周波数を第1周波数と第2周波数とに選別する。以上の態様では、学習処理(例えば独立成分分析)の有意性を示す有意指標値に応じて複数の周波数が選別されるから、複数の周波数を学習処理の有意性とは無関係に選別する構成と比較して、高精度な音源分離が可能な分離行列を生成することが可能である。
以上の各態様の音響処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、複数の音源(例えば音源PS1および音源PS2)から到来する音響(例えば音響S1および音響S2)の混合音を複数の収音機器(例えば収音機器PM1および収音機器PM2)で収音した複数の観測信号(例えば観測信号x1(t)および観測信号x2(t))を処理するためのプログラムであって、複数の音源の各々について音響の到来方向(例えば到来方向θe1および到来方向θe2)を特定する方向特定処理(例えば方向特定部62)と、方向特定処理で特定した複数の到来方向の各々について、当該到来方向に収音の死角を形成する死角制御型ビーム形成を複数の観測信号について実行することで指向信号(例えば指向成分Z1[n,u]および指向成分Z2[n,u])を生成する指向処理(例えば指向処理部64)と、指向処理で生成した複数の指向信号の振幅の加算値に対する一の指向信号の振幅の比に応じた処理係数値(例えば処理係数値αi[n,u])を周波数毎に生成する係数値生成処理(例えば係数値生成部66)と、観測信号の各周波数の成分に当該周波数の処理係数値を作用させる信号処理(例えば信号処理部68)とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
第1実施形態の音響処理装置のブロック図である。 第1音源分離部および第2音源分離部のブロック図である。 指向処理部のブロック図である。 音源分離の前後の振幅スペクトルである。 学習処理の対象となる第1周波数の個数と音源分離の精度(セグメンタルSNR)との関係を示すグラフである。 学習処理の対象となる第1周波数の個数と音源分離の精度(SIRの変化量)との関係を示すグラフである。 第2実施形態の音響処理装置のブロック図である。
<A:第1実施形態>
図1は、第1実施形態に係る音響処理装置100Aのブロック図である。相互に間隔をあけて配置された収音機器PM1および収音機器PM2が音響処理装置100Aに接続される。収音機器PM1および収音機器PM2は、例えば無指向性または指向性のマイクロホンである。収音機器PM1および収音機器PM2の周辺の相異なる位置には音源PS1および音源PS2が存在する。音源PS1は、観測点(例えば収音機器PM1と収音機器PM2との中点)に対して方向θ1に位置し、音源PS2は観測点に対して方向θ2に位置する。
音源PS1が発生した音響S1と音源PS2が発生した音響S2との混合音が収音機器PM1および収音機器PM2に到達する。収音機器PM1は観測信号x1(t)を生成し、収音機器PM2は観測信号x2(t)を生成する。観測信号x1(t)および観測信号x2(t)の各々は、音響S1と音響S2との混合音の時間波形を表す音響信号である(t:時間)。
音響処理装置100Aは、観測信号x1(t)および観測信号x2(t)に対する音源分離で分離信号y1(t)および分離信号y2(t)を生成する信号処理装置である。分離信号y1(t)は、音響S1を強調(音響S2を抑制)した音響信号であり、分離信号y2(t)は、音響S2を強調(音響S1を抑制)した音響信号である。すなわち、音響S1と音響S2とが分離(音源分離)される。
分離信号y1(t)および分離信号y2(t)は、スピーカやヘッドホン等の放音機器(図示略)に供給されることで音響として再生される。なお、分離信号y1(t)および分離信号y2(t)の一方のみを生成する構成(例えば分離信号y2(t)を雑音として破棄する構成)も採用される。また、観測信号x1(t)および観測信号x2(t)をアナログからデジタルに変換するA/D変換器や、分離信号y1(t)および分離信号y2(t)をデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
図1に示すように、音響処理装置100Aは、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。記憶装置14は、演算処理装置12が実行するプログラムや演算処理装置12が使用する各種の情報を記憶する。磁気記録媒体や半導体記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用される。観測信号x1(t)および観測信号x2(t)を事前に収録して記憶装置14に格納した構成(したがって収音機器PM1および収音機器PM2は省略される)も好適である。
演算処理装置12は、記憶装置14に格納されたプログラムを実行することで複数の要素(周波数解析部22,周波数選別部24,指標算定部26,第1音源分離部31,第2音源分離部32,周波数統合部42,波形合成部44)として機能する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
周波数解析部22は、観測信号x1(t)を周波数軸上の周波数F[k](k=1〜K)毎(帯域毎)に区分したK個の周波数成分X1[k,u](X1[1,u]〜X1[K,u])と、観測信号x2(t)を周波数F[k]毎に区分したK個の周波数成分X2[k,u](X2[1,u]〜X2[K,u])とを単位期間(フレーム)毎に順次に生成する。記号kは周波数軸上の各周波数を示す変数であり、記号uは時間軸上の各時点を示す変数(例えば単位期間の番号)である。各周波数成分X1[k,u]および各周波数成分X2[k,u]の生成には、例えば短時間フーリエ変換等の公知の周波数解析が任意に採用される。また、通過帯域が相違するK個の帯域通過フィルタ(フィルタバンク)を周波数解析部22として利用することも可能である。周波数成分X1[k,u]と周波数成分X2[k,u]とを要素とする観測ベクトルXv[k,u](Xv[k,u]=[X1[k,u],X2[k,u]]T)が順次に記憶装置14に格納される。なお、記号Tは行列の転置を意味する。
周波数選別部24は、K個の周波数F[1]〜F[K]をM個の第1周波数FA[1]〜FA[M]とN個の第2周波数FB[1]〜FB[N]とに単位期間毎に選別する(MおよびNは自然数。K=M+N)。周波数解析部22が生成したK個の周波数成分X1[1,u]〜X1[K,u]のうち各第1周波数FA[m](m=1〜M)のM個の周波数成分XA1[1,u]〜XA1[M,u]は第1音源分離部31に供給され、各第2周波数FB[n](n=1〜N)のN個の周波数成分XB1[1,u]〜XB1[N,u]は第2音源分離部32に供給される。同様に、K個の周波数成分X2[1,u]〜X2[K,u]のうち各第1周波数FA[m]のM個の周波数成分XA2[1,u]〜XA2[M,u]は第1音源分離部31に供給され、各第2周波数FB[n]のN個の周波数成分XB2[1,u]〜XB2[N,u]は第2音源分離部32に供給される。
指標算定部26は、周波数選別部24による周波数F[k]の選別の基準となる有意指標値σ[k](σ[1]〜σ[K])をK個の周波数F[1]〜F[K]の各々について算定する。有意指標値σ[k]の算定は所定の周期(例えば単位期間の所定個毎)で実行される。有意指標値σ[k]は、その周波数F[k]の観測ベクトルXv[k,u]から分離行列を生成する学習処理(独立成分分析)の有意性の尺度となる数値である。第1実施形態の指標算定部26は、所定個の単位期間にわたる周波数F[k]の観測ベクトルXv[k,u]の時系列の共分散行列Rxx[k](Rxx[k]=E[Xv[k,u]Xv[k,u]H])の行列式をその周波数F[k]の有意指標値σ[k]として算定する。記号Hは行列の共役転置を意味し、記号E[ ]は所定個の単位期間にわたる平均値(期待値)または加算値を意味する。なお、共分散行列Rxx[k]の行列式の算定については特許文献1に詳述されている。
周波数選別部24は、指標算定部26が算定した各有意指標値σ[k]に応じてK個の周波数F[1]〜F[K]をM個の第1周波数FA[1]〜FA[M]とN個の第2周波数FB[1]〜FB[N]とに選別する。特許文献1に開示されるように、共分散行列Rxx[k]の行列式が小さいほど、観測ベクトルXv[k,u]を適用した行列処理の有意性(学習処理の前後で音源分離の精度が向上する度合)が低いという傾向がある。そこで、周波数選別部24は、K個の周波数F[1]〜F[K]のうち有意指標値σ[k]が大きいM個(例えば有意指標値σ[k]の降順で上位のM個や有意指標値σ[k]が所定の閾値を上回るM個)の周波数F[k]を第1周波数FA[1]〜FA[M]に選別し、有意指標値σ[k]が小さいN個の周波数F[k]を第2周波数FB[1]〜FB[N]に選別する。
図1の第1音源分離部31は、各周波数成分XA1[m,u]および各周波数成分XA2[m,u]に対して独立成分分析を適用した音源分離を実行することで、各第1周波数FA[m]に対応するM個の分離成分YA1[1,u]〜YA1[M,u]とM個の分離成分YA2[1,u]〜YA2[M,u]とを単位期間毎に生成する。分離成分YA1[m,u]は、第1周波数FA[m]における音響S1の成分を強調(音響S2を抑制)した周波数成分であり、分離成分YA2[m,u]は、第1周波数FA[m]における音響S2の成分を強調(音響S1を抑制)した周波数成分である。
第2音源分離部32は、第1音源分離部31とは相違する信号処理を各周波数成分XB1[n,u]および各周波数成分XB2[n,u]に対して実行することで、各第2周波数FB[m]に対応するN個の分離成分YB1[1,u]〜YB1[N,u]とN個の分離成分YB2[1,u]〜YB2[N,u]とを単位期間毎に生成する。分離成分YB1[n,u]は、第2周波数FB[n]における音響S1の成分を強調(音響S2を抑制)した周波数成分であり、分離成分YB2[n,u]は、第2周波数FB[n]における音響S2の成分を強調(音響S1を抑制)した周波数成分である。
周波数統合部42は、第1音源分離部31が生成したM個の分離成分YA1[1,u]〜YA1[M,u]と第2音源分離部32が生成したN個の分離成分YB1[1,u]〜YB1[N,u]とを周波数の順番に配列(統合)することでK個の分離成分Y1[1,u]〜Y1[K,u]を単位期間毎に生成する。同様に、周波数統合部42は、M個の分離成分YA2[1,u]〜YA2[M,u]とN個の分離成分YB2[1,u]〜YB2[N,u]とを配列したK個の分離成分Y2[1,u]〜Y2[K,u]を単位期間毎に生成する。
波形合成部44は、周波数統合部42が単位期間毎に生成するK個の分離成分Y1[1,u]〜Y1[K,u]から時間領域の分離信号y1(t)を生成する。具体的には、波形合成部44は、K個の分離成分Y1[1,u]〜Y1[K,u]の系列(周波数スペクトル)を逆フーリエ変換で時間領域に変換するとともに前後の単位期間について相互に連結することで分離信号y1(t)を生成する。同様に、波形合成部44は、周波数統合部42が単位期間毎に生成するK個の分離成分Y2[1,u]〜Y2[K,u]から分離信号y2(t)を生成する。
図2は、第1音源分離部31および第2音源分離部32のブロック図である。図2に示すように、第1音源分離部31は、信号処理部52と分離行列生成部54とを含んで構成される。信号処理部52は、各第1周波数FA[m]の周波数成分XA1[m,u]および周波数成分XA2[m,u]にその第1周波数FA[m]の分離行列W[m]を作用させることで分離成分YA1[m,u]および分離成分YA2[m,u]を生成する。具体的には、信号処理部52は、M個の第1周波数FA[1]〜FA[M]の各々について以下の数式(1)の演算(音源分離)を実行する。
Figure 0005826502
図2の分離行列生成部54は、信号処理部52が数式(1)の音源分離に適用する分離行列W[m](W[1]〜W[M])をM個の第1周波数FA[1]〜FA[M]の各々について単位期間毎に生成する。分離行列W[m]の生成には独立成分分析を適用した学習処理(分離行列W[m]の累積的な更新)が採用される。分離行列W[m]の学習処理には公知の技術が任意に採用され得るが、第p回目の更新後の分離行列Wp[m]から直後の分離行列Wp+1[m]を算定する以下の数式(2)の演算が好適である。なお、最初の分離行列W1[m]の算定には所定の初期行列W0[m](例えば単位行列)が適用される。
Figure 0005826502
数式(2)の記号ηは所定の定数(ステップサイズ)を意味し、記号off-diag( )は、対角成分をゼロに置換する演算子を意味する。また、記号φ[m,n]は所定の非線形関数(例えば双曲線正接関数)である。数式(2)の記号Yvp[m,u]は、周波数成分XA1[m,u]および周波数成分XA2[m,u]に分離行列Wp[m]を作用させる数式(1)の演算で算定されるベクトル(Yvp[m,u]=[YA1[m,u],YA2[m,u]]T)を意味する。分離行列生成部54は、数式(2)の演算を所定回だけ反復した時点の分離行列Wp+1[m]を分離行列W[m]として確定する。以上が第1音源分離部31の構成および作用である。
図2に示すように、第2音源分離部32は、演算処理部60と信号処理部68とを含んで構成される。演算処理部60は、N個の第2周波数FB[1]〜FB[N]の各々について処理係数値α1[n,u](α1[1,u]〜α1[N,u])と処理係数値α2[n,u](α2[1,u]〜α2[N,u])とを設定する。処理係数値α1[n,u]および処理係数値α2[n,u]の算定は所定の周期毎(例えば単位期間毎)に実行される。
各第2周波数FB[n]の処理係数値α1[n,u]および処理係数値α2[n,u]は、音響S1のうちその第2周波数FB[n]の周波数成分S1[n,u]の振幅|S1[n,u]|と、音響S2のうちその第2周波数FB[n]の周波数成分S2[n,u]の振幅|S2[n,u]|との関係(大小)に応じて0以上かつ1以下の範囲内で可変に設定される。具体的には、音響S1の振幅|S1[n,u]|が振幅|S2[n,u]|に対して大きいほど処理係数値α1[n,u]は大きい数値に設定され、音響S2の振幅|S2[n,u]|が振幅|S1[n,u]|に対して大きいほど処理係数値α2[n,u]は大きい数値に設定される。
図2の信号処理部68は、各第2周波数FB[n]の周波数成分XB1[n,u]および周波数成分XB2[n,u]にその第2周波数FB[n]の処理係数値α1[n,u]および処理係数値α2[n,u]を作用させることで分離成分YB1[n,u]および分離成分YB2[n,u]を単位期間毎に生成する。具体的には、信号処理部68は、N個の第2周波数FB[1]〜FB[N]の各々について以下の数式(3A)および数式(3B)の演算を実行する。
Figure 0005826502
すなわち、周波数成分XB1[n,u]に対する処理係数値α1[n,u]の乗算で、音響S1の周波数成分S1[n,u]を強調した分離成分YB1[n,u]が生成され、周波数成分XB2[n,u]に対する処理係数値α2[n,u]の乗算で、音響S2の周波数成分S2[n,u]を強調した分離成分YB2[n,u]が生成される。したがって、処理係数値α1[n,u]は周波数成分XB1[n,u]に対する利得(スペクトルゲイン)に相当し、処理係数値α2[n,u]は周波数成分XB2[n,u]に対する利得に相当する。
図2に示すように、演算処理部60は、方向特定部62と指向処理部64と係数値生成部66とを含んで構成される。方向特定部62は、音響S1の到来方向(音源PS1の方向)θe1と音響S2の到来方向(音源PS2の方向)θe2とを特定する。なお、以下の説明において符号の添字eは推定値(estimate)を意味する。
第1実施形態の方向特定部62は、分離行列生成部54が第1周波数FA[m]毎に生成する分離行列W[m](W[1]〜W[M])を利用して到来方向θe1および到来方向θe2を推定する。到来方向θe1および到来方向θe2の推定には公知の技術(例えば非特許文献1に開示された方法)が任意に採用される。例えば、方向特定部62は、各第1周波数FA[m]の分離行列W[m]から音響S1の到来方向θe1[m]と音響S2の到来方向θe2[m]とを推定し、M個の到来方向θe1[1]〜θe1[M]の代表値(例えば加重和や平均値や中央値)を到来方向θe1として確定するとともにM個の到来方向θe2[1]〜θe2[M]の代表値を到来方向θe2として確定する。
図2の指向処理部64は、所定の方向に収音の死角(収音の感度が低い領域)を形成する処理(以下「死角制御型ビーム形成」という)を周波数成分XB1[n,u]および周波数成分XB2[n,u]に対して実行することで、指向成分Z1[n,u](Z1[1,u]〜Z1[N,u])と指向成分Z2[n,u](Z2[1,u]〜Z2[N,u])とを単位期間毎に生成する。具体的には、指向処理部64は、方向特定部62が特定した到来方向θe2に収音の死角を形成する死角制御型ビーム形成(NBF)を周波数成分XB1[n,u]および周波数成分XB2[n,u]に実行することで指向成分Z1[n,u]を生成し、到来方向θe1に収音の死角を形成する死角制御型ビーム形成を周波数成分XB1[n,u]および周波数成分XB2[n,u]に実行することで指向成分Z2[n,u]を生成する。したがって、指向成分Z1[n,u]では到来方向θe2からの到来音(音響S2)が抑制され、指向成分Z2[n,u]では到来方向θe1からの到来音(音響S1)が抑制される。
図3は、指向処理部64のブロック図である。図3には、音源PS1が放射した音響S1(周波数成分S1[n,u])と音源PS2が放射した音響S2(周波数成分S2[n,u])とが収音機器PM1および収音機器PM2の各々に到達するまでの伝播経路のモデルが便宜的に併記されている。
図3の記号Ai[n](i=1,2)は、音響Siの周波数成分Si[n,u]の伝播損失(伝播経路で付与される利得)を意味する。なお、周波数成分Si[n,u]の伝播遅延は、伝播損失Ai[n]に反映されることを考慮して図3では省略した。図3の記号τi1は、周波数成分Si[n,u]が収音機器PM2に到達してから収音機器PM1に到達するまでの遅延(時間差)を意味し、記号τi2は、周波数成分Si[n,u]が収音機器PM1に到達してから収音機器PM2に到達するまでの遅延を意味する。
図3から理解されるように、収音機器PMjによる収音後の周波数成分XB1[n,u]および周波数成分XB2[n,u]は、以下の数式(4A)および数式(4B)で表現される。数式(4A)および数式(4B)の記号ω[n]は第2周波数FB[n]に対応する角周波数を意味し、記号jは虚数単位を意味する。
Figure 0005826502
図3に示すように、指向処理部64は、指向成分Z1[n,u]を生成する第1処理部72と指向成分Z2[n,u]を生成する第2処理部74とを具備する。第1処理部72は、周波数成分XB1[n,u]に遅延τe22を付与する遅延部721と、周波数成分XB2[n,u]に遅延τe21を付与する遅延部723と、遅延部721および遅延部723の各出力間の差分を指向成分Z1[n,u]として生成する演算部725とを含んで構成される。同様に、第2処理部74は、周波数成分XB2[n,u]に遅延τe11を付与する遅延部741と、周波数成分XB1[n,u]に遅延τe12を付与する遅延部743と、遅延部741および遅延部743の各出力間の差分を指向成分Z2[n,u]として生成する演算部745とを含んで構成される。遅延τeijは、伝播経路で付与される遅延τijの推定値である。遅延τe21および遅延τe22は、到来方向θe2に収音の死角が形成されるように設定され、遅延τe11および遅延τe12は到来方向θe1に収音の死角が形成されるように設定される。
図3から理解されるように、指向成分Z1[n,u]および指向成分Z2[n,u]は、以下の数式(5A)および数式(5B)で表現される。
Figure 0005826502
数式(4A)および数式(4B)を数式(5A)に代入して変形すると以下の数式(6A)が導出される。同様に、数式(4A)および数式(4B)を数式(5B)に代入して変形すると以下の数式(6B)が導出される。
Figure 0005826502
いま、方向特定部62による到来方向θe1および到来方向θe2の推定の精度が充分に高い(θe1≒θ1,θe2≒θ2)と仮定すると、指向処理部64に適用される遅延τeijを、実際の伝播経路における遅延τijで近似する(τeij≒τij)ことが可能である。したがって、数式(6A)の右辺の第2項と第4項とが相殺されて以下の数式(7A)が導出され、数式(6B)の右辺の第1項と第3項とが相殺されて以下の数式(7B)が導出される。
Figure 0005826502
いま、指向成分Z1[n,u]の振幅|Z1[n,u]|と指向成分Z2[n,u]の振幅|Z2[n,u]|との加算値(以下「振幅和」という)に対する指向成分Z1[n,u]の振幅|Z1[n,u]|の比は、数式(7A)および数式(7B)を考慮すると以下の数式(8A)のように表現される。同様に、振幅和に対する指向成分Z2[n,u]の振幅|Z2[n,u]|の比は、以下の数式(8B)のように表現される。
Figure 0005826502
数式(7A)および数式(7B)のうち遅延(位相)τijに関連する遅延項(後半の括弧部分)は指向成分Z1[n,u]と指向成分Z2[n,u]とで共通する。したがって、数式(8A)および数式(8B)では遅延項が消去される。
図2の係数値生成部66は、以下の数式(9A)および数式(9B)に示すように、振幅和に対する指向成分Z1[n,u]の振幅|Z1[n,u]|の比(数式(8A))を処理係数値α1[n,u]として第2周波数FB[n]毎に算定し、振幅和に対する指向成分Z2[n,u]の振幅|Z2[n,u]|の比(数式(8B))を処理係数値α2[n,u]として第2周波数FB[n]毎に算定する。
Figure 0005826502
数式(8A)および数式(8B)と数式(9A)および数式(9B)とから理解されるように、処理係数値α1[n,u]および処理係数値α2[n,u]は、観測点での音響S1および音響S2の単位期間毎の振幅の内分比(観測信号x1(t)および観測信号x2(t)の各々に対する各音源PSiの寄与度)に相当する。すなわち、観測点での音響S1の振幅比が処理係数値α1[n,u]で表現され、観測点での音響S2の振幅比が処理係数値α2[n,u]で表現され得る。例えば、観測点での音響S1の振幅(A1[n]|S1[n,u]|)と音響S2の振幅(A2[n]|S2[n,u]|)とが相等しい場合に処理係数値α1[n,u]および処理係数値α2[n,u]は0.5となり、音響S1の振幅(A1[n]|S1[n,u]|)が音響S2の振幅(A2[n]|S2[n,u]|)を上回る場合には、処理係数値α1[n,u]は処理係数値α2[n,u]を上回る。したがって、数式(9A)の処理係数値α1[n,u]および数式(9B)の処理係数値α2[n,u]は観測点での音響S1と音響S2との振幅比を表現する変数として妥当である。
処理係数値α1[n,u]および処理係数値α2[n,u]は以上のように設定されるから、数式(9A)の処理係数値α1[n,u]を適用した数式(3A)の演算で信号処理部68が生成する分離成分YB1[n,u]では音響S1の周波数成分S1[n,u]が強調され、数式(9B)の処理係数値α2[n,u]を適用した数式(3B)の演算で生成される分離成分YB2[n,u]では音響S2の周波数成分S2[n,u]が強調される。すなわち、N個の第2周波数FB[1]〜FB[N]の各々について音響S1(周波数成分S1[n,u])と音響S2(周波数成分S1[n,u])とが分離される。
図4の部分(A)は、音源PSiが放射した音響Siの振幅スペクトルであり、図4の部分(C)は、第1実施形態の構成で生成された分離信号yi(t)の振幅スペクトルである。図4の部分(B)は、指向処理部64による死角制御型ビーム形成で生成された指向成分Zi[n,u]を分離成分YBi[n,u]とする構成(以下「対比例」という)で生成された分離信号yi(t)の振幅スペクトルである。
指向成分Zi[n,u]を示す数式(7A)および数式(7B)の遅延項の各項(e-jω[n](τ11+τ12),e-jω[n](τ12+τ21))は角周波数ω[n]が小さいほど1に近付くから、角周波数ω[n]が小さいほど数式(7A)および数式(7B)の遅延項はゼロに近付く。したがって、指向成分Zi[n,u]は低域側ほど抑制される。すなわち、指向成分Zi[n,u]を分離成分YBi[n,u]として分離信号yi(t)を生成する対比例の構成では、図4の部分(B)からも把握されるように、分離信号yi(t)のうち低域側(特に0Hz〜500Hz)の強度(振幅)が本来の音響Si(部分(A))と比較して抑制されるという問題がある。
他方、第1実施形態では、指向成分Z1[n,u]および指向成分Z2[n,u]の振幅から算定される処理係数値αi[n,u]を周波数成分XBi[n,u]に作用させて分離成分YBi[n,u]が生成される。前述の通り、処理係数値α1[n,u]および処理係数値α2[n,u]では、数式(7A)および数式(7B)における遅延項の影響は排除されるから、図4の部分(C)からも把握されるように、分離信号yi(t)における低域側の強度を音響Siと同等に維持することが可能である。すなわち、第1実施形態によれば、対比例と比較して高精度な音源分離が実現される(各音響Siを忠実に抽出できる)という利点がある。
また、数式(9A)や数式(9B)から理解されるように、第2音源分離部32の処理(処理係数値αi[n,u]の算定や数式(3A)および数式(3B)の演算)は第1音源分離部31の処理(学習処理の反復で分離行列W[m]を生成する処理)と比較して負荷が少ない。したがって、学習処理の対象となる第1周波数FA[m]の個数Mを削減できる第1実施形態によれば、音源分離の性能を低下させずに、演算処理装置12の処理負荷(消費電力)や記憶装置14に必要な記憶容量を削減できるという利点がある。以上の効果は、演算処理装置12の性能や電源容量や記憶容量が制約される可搬型の情報端末(例えば携帯電話機)に音響処理装置100Aを搭載する場合に格別に有利である。
学習処理の対象となる第1周波数FA[m]の個数Mと音源分離の精度とについて以下に詳述する。なお、以下の説明では、観測信号xi(t)を以下の数式(10A)および数式(10B)のように表現し、分離信号yi(t)を以下の数式(11A)および数式(11B)のように表現する。記号xij(t)および記号yij(t)は、音源PSiから収音機器PMjに到来する音響成分を意味する。
Figure 0005826502
図5および図6は、独立成分分析の学習処理で分離行列W[m]を生成する第1周波数FA[m]の個数M(横軸)と音源分離の評価指標(縦軸)との関係を示すグラフである。図5および図6の横軸の記号“FDICA”は、K個の周波数F[1]〜F[K]の全部(例えばK=513)を第1周波数FA[m]に選別した場合(すなわち、第2音源分離部32を省略した構成)を意味する。また、図5および図6では、第1実施形態(実線)および対比例(破線)の各々について、無響室で収録された観測信号xi(t)を処理した場合の結果と、残響時間が500ミリ秒である音響室で収録された観測信号xi(t)を処理した場合の結果とが併記されている。
図5では、音源分離後のセグメンタルSNR(SegSNR:Segmental Signal-to-Noise Ratio)が音源分離の評価指標として縦軸に図示されている。音源分離後のセグメンタルSNRは以下の数式(12)で表現される。数式(12)の記号xij(h,u)は、数式(10A)および数式(10B)の音響成分xij(t)のうち第u番目の単位期間内の時点hでの信号値(振幅)を意味する。また、数式(12)の記号yi(h,u)は、音源分離後の分離信号yi(t)のうち第u番目の単位期間内の時点hでの信号値(振幅)を意味する。数式(12)から理解されるように、音源分離後のセグメンタルSNRが大きい(すなわち分離信号yi(t)が観測点での音響Siに近い)ほど音源分離の精度が高いと評価できる。
Figure 0005826502
図5から把握されるように、対比例の構成では、学習処理の対象となる第1周波数FA[m]の個数Mが減少するほど音源分離の精度(セグメンタルSNR)が低下するのに対し、第1実施形態では、第1周波数FA[m]の個数Mを削減した場合でも充分に高精度な音源分離が実現される。K個の全部を第1周波数FA[m]に選別した場合(FDICA)と比較しても第1実施形態のほうが音源分離の精度が高いことが図5から把握される。
他方、図6では、音源分離の前後にわたるSIR(信号対干渉比:Signal-to-Interference Ratio)の変化量ΔSIRが音源分離の評価指標として縦軸に図示されている。音源分離前のSIRinは以下の数式(13A)で表現され、音源分離後のSIRoutは以下の数式(13B)で表現される。数式(13A)の音響成分x21(t)および音響成分x12(t)(数式(10A),数式(10B))と、数式(13B)の音響成分y21(t)および音響成分y12(t)(数式(11A),数式(11B))とが干渉成分(妨害音)に相当する。
Figure 0005826502
図6の縦軸に図示された変化量ΔSIRは、音源分離前のSIRinと音源分離後のSIRoutとの差分値(ΔSIR=SIRout−SIRin)に相当する。したがって、変化量ΔSIRが大きいほど音源分離の精度が高いと評価できる。図6から把握されるように、第1実施形態および対比例の双方について、学習処理の対象となる第1周波数FA[m]の個数Mが減少するほど音源分離の精度(変化量ΔSIR)が低下する。以上の傾向は、残響が発生する環境で特に顕著となる。
以上に説明したように、第1実施形態では、セグメンタルSNRの観点から評価した音源分離の精度とSIR(変化量ΔSIR)の観点から評価した音源分離の精度とが、第1周波数FA[m]の個数Mに対して相互に背反する関係にある。したがって、図5のセグメンタルSNRと図6のSIRの変化量ΔSIRとが高い水準で両立するように第1周波数FA[m]の個数Mを選定することで、対比例と比較して高精度な音源分離を実現することが可能である。
例えば、第1実施形態では第1周波数FA[m]の個数Mが少ないほどセグメンタルSNRが上昇する。したがって、セグメンタルSNRを改善するという観点や、演算処理装置12の処理負荷(消費電力)および記憶装置14の容量を削減するという観点からすると、第1周波数FA[m]の個数Mを減少させるほど有利である。他方、第1周波数FA[m]の個数Mを極端に減少させた場合には、SIRの変化量ΔSIRの低下が顕在化する可能性があるが、第1周波数FA[m]の個数Mが周波数F[k]の総数K(K=513)の1/4程度(M=128)を上回る範囲であれば、SIRの変化量ΔSIRの低下は顕在化しないという傾向が図6から把握される。また、分離行列M[m]の個数Mが極端に少ない場合には到来方向θe1および到来方向θe2の推定精度が低下するが、個数Mが周波数F[k]の総数Kの1/4程度であれば、充分な精度で到来方向θe1および到来方向θe2を推定することが可能である。以上の傾向を考慮すると、第1周波数FA[m]の個数Mを周波数F[k]の総数Kの25%程度(例えば20%〜30%)に設定した構成が格別に好適である。
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。第1実施形態では、独立成分分析を利用した音源分離(第1音源分離部31)と死角制御型ビーム形成を利用した音源分離(第2音源分離部32)とを併用したが、第2実施形態では独立成分分析による音源分離が省略される。なお、以下に例示する各構成において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図7は、第2実施形態の音響処理装置100Bのブロック図である。図7に示すように、第2実施形態の音響処理装置100Bは、第1実施形態における周波数選別部24と指標算定部26と第1音源分離部31と周波数統合部42とを省略した構成であり、周波数解析部22と音源分離部35と波形合成部44とを具備する。周波数解析部22は、第1実施形態と同様に、観測信号x1(t)のK個の周波数成分X1[k,u](X1[1,u]〜X1[K,u])と観測信号x2(t)のK個の周波数成分X2[k,u](X2[1,u]〜X2[K,u])とを生成する。
音源分離部35は、第1実施形態の第2音源分離部32と同様に、図2の方向特定部62と指向処理部64と係数値生成部66と信号処理部68とを具備し、各周波数成分X1[k,u]および各周波数成分X2[k,u]に対して死角制御型ビーム形成を利用した音源分離を実行することでK個の分離成分Y1[k,u](Y1[1,u]〜Y1[K,u])とK個の分離成分Y2[k,u](Y2[1,u]〜Y2[K,u])とを単位期間毎に生成する。すなわち、第2実施形態の音源分離部35の動作は、第1実施形態においてK個の周波数F[1]〜F[K]の全部を第2周波数FB[1]〜FB[N]に選別した場合(N=K)の第2音源分離部32の動作と同様である。波形合成部44は、第1実施形態と同様に、K個の分離成分Y1[1,u]〜Y1[K,u]から分離信号y1(t)を生成するとともにK個の分離成分Y2[1,u]〜Y2[N,u]から分離信号y2(t)を生成する。第2実施形態においても第1実施形態と同様の効果が実現される。
なお、第1実施形態の方向特定部62は到来方向θe1および到来方向θe2の推定に分離行列W[m]を利用したが、第2実施形態の方向特定部62が到来方向θe1および到来方向θe2を特定する方法には公知の技術が任意に採用される。例えば、方向特定部62は、Ema Takuro and Nozomu Hamada, "FDICA using Time-Frequency Cell Selection for Blind Source Separation", 2005 RISP International Worksyop on Nonlinear Circuit and Signal Processing (NCSP'05), p.471 - 474 等に記載された方法で、各周波数成分X1[k,u]および各周波数成分X2[k,u]から到来方向θe1および到来方向θe2を推定する。また、第1実施形態の分離行列生成部54を第2実施形態に追加し、分離行列生成部54が生成した分離行列W[m]から第1実施形態と同様の方法で方向特定部62が到来方向θe1および到来方向θe2を推定する構成(すなわち分離行列W[m]を到来方向θe1および到来方向θe2の推定のみに利用する構成)も採用される。
<C:変形例>
以上の各形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
前述の各形態において方向特定部62が到来方向θe1や到来方向θe2を特定する方法は任意である。例えば、分離行列生成部54が生成したM個の分離行列W[1]〜W[M]のうち所定個の分離行列W[m]を選択して到来方向θe1および到来方向θe2を推定する構成も採用され得る。また、例えば、音源PS1の方向θ1や音源PS2の方向θ2が既知である場合には、到来方向θe1や到来方向θe2を記憶装置14に事前に格納することも可能である。方向特定部62は、記憶装置14から到来方向θe1および到来方向θe2を取得する要素として機能する。利用者からの指示(例えば操作子の操作で方向を指定する動作)に応じて到来方向θe1および到来方向θe2を設定することも可能である。
(2)変形例2
第1実施形態の有意指標値σ[k]は、観測ベクトルXv[k,u]の共分散行列Rxx[k]の行列式に限定されない。例えば特許文献1に例示された各種の指標(統計量)が有意指標値σ[k]として採用され得る。
例えば、観測ベクトルXv[k,u]の分布における基底の総数が多い周波数F[k]ほど学習処理の有意性が高いという傾向を考慮すると、観測ベクトルXv[k,u]の共分散行列Rxx[k]の条件数を有意指標値σ[k]として指標算定部26が算定し、有意指標値σ[k]が小さいM個の周波数F[k]を周波数選別部24が第1周波数FA[k]に選別することが可能である。すなわち、共分散行列Rxx[k]の行列式や条件数は、観測ベクトルXv[k,u]の分布における基底の総数の指標として利用される。なお、共分散行列Rxx[k]のトレースを有意指標値σ[k]として算定し、有意指標値σ[k]が大きい周波数F[k]を第1周波数FA[m]に選別する構成も好適である。
独立成分分析の学習処理は、音源分離後の各信号が統計的に独立となるように分離行列W[m]を更新する処理であるから、観測信号x1(t)と観測信号x2(t)との間の統計的な相関が低い周波数F[k]ほど学習処理の有意性は高いと評価できる。以上の傾向を考慮すると、観測信号x1(t)と観測信号x2(t)との間の独立性の指標が有意指標値σ[k]として好適である。独立性の指標としては相互相関や相互情報量が例示される。周波数選別部24は、観測信号x1(t)と観測信号x2(t)との間の独立性が高い(相互相関や相互情報量が小さい)M個の周波数F[k]を第1周波数FA[m]に選別する。
また、観測信号x1(t)および観測信号x2(t)に含まれる音響の種類数(音源数)が多いほど学習処理の有意性は高いと評価できる。音響の混合数が多いほど観測信号x1(t)や観測信号x2(t)の強度分布の尖度(カートシス)が低下するという傾向(中心極限定理)を考慮すると、観測信号x1(t)または観測信号x2(t)の強度分布(確率分布)の尖度が有意指標値σ[k]として採用され得る。周波数選別部24は、観測信号x1(t)および観測信号x2(t)の片方または双方の強度分布の尖度が低い(音響の混合数が多い)M個の周波数F[k]を第1周波数FA[m]に選別する。
複数種の指標(例えば以上の例示から選択された2種以上の指標)から有意指標値σ[k]を算定することも可能である。例えば、前述の複数種の指標(例えば共分散行列Rxx[k]の行列式とトレース)の加重和を有意指標値σ[k]として算定する構成が採用される。
もっとも、第1周波数FA[m]と第2周波数FB[n]との選別に有意指標値σ[k]を利用する構成(指標算定部26)は省略され得る。具体的には、観測信号x1(t)や観測信号x2(t)とは無関係にK個の周波数F[k]を選別することも可能である。例えば、K個の周波数F[k]から所定個の間隔で選択した周波数F[k](例えば奇数番目の周波数F[k])を第1周波数FA[m]に選別するとともに残余の周波数F[k](例えば偶数番目の周波数F[k])を第2周波数FB[n]に選別する構成が採用される。また、観測信号x1(t)および観測信号x2(t)に想定される音響特性や学習処理の内容等の事情から、学習処理の有意性が高い周波数F[k]が事前に判明しているならば、その周波数F[k]を第1周波数FA[m]に選別するとともに残余の周波数F[k]を第2周波数FB[n]に選別することも可能である。
(3)変形例3
以上の各形態では、2個の音源PSi(PS1,PS2)からの音響Siを2個の収音機器PMj(PM1,PM2)で収音する構成を例示したが、音源PSiの総数や収音機器PMjの総数は適宜に変更される。ただし、収音機器PMjの総数は音源PSiの総数以上である必要がある。
(4)変形例4
例えば携帯電話機やパーソナルコンピュータ等の端末装置から送信された観測信号x1(t)および観測信号x2(t)をインターネット等の通信網を介して音響処理装置100(100A,100B)が受信する構成も採用され得る。音響処理装置100は、観測信号x1(t)および観測信号x2(t)から第1実施形態や第2実施形態と同様に分離信号y1(t)および分離信号y2(t)を生成して端末装置に送信する。各周波数成分X1[k,u]と各周波数成分X2[k,u]とが端末装置から音響処理装置100に送信される構成(周波数解析部22が端末装置に搭載されて音響処理装置100には搭載されない構成)や、各分離成分Y1[k,u]と各分離成分Y2[k,u]とが音響処理装置100から端末装置に送信される構成(波形合成部44が端末装置に搭載されて音響処理装置100には搭載されない構成)も採用される。
100A,100B……音響処理装置、12……演算処理装置、14……記憶装置、22……周波数解析部、24……周波数選別部、26……指標算定部、31……第1音源分離部、32……第2音源分離部、35……音源分離部、42……周波数統合部、44……波形合成部、52……信号処理部、54……分離行列生成部、62……方向特定部、64……指向処理部、66……係数値生成部、68……信号処理部、PS1,PS2……音源、PM1,PM2……収音機器。

Claims (2)

  1. 複数の音源から到来する音響の混合音を複数の収音機器で収音した複数の観測信号を処理する音響処理装置であって、
    複数の周波数を相異なる第1周波数と第2周波数とに選別する周波数選別手段と、
    前記複数の観測信号における前記各第1周波数の成分から分離行列を前記第1周波数毎に生成する分離行列生成手段と、
    前記複数の観測信号における前記各第1周波数の成分に当該第1周波数の分離行列を作用させて第1分離成分を生成する第1信号処理手段と、
    前記分離行列生成手段が前記各第1周波数について生成した分離行列から前記複数の音源の各々について音響の到来方向を推定する方向特定手段と、
    前記方向特定手段が推定した複数の到来方向の各々について、当該到来方向に収音の死角を形成する死角制御型ビーム形成を前記複数の観測信号における前記各第2周波数の成分に対して実行することで指向信号を生成する指向処理手段と、
    前記指向処理手段が生成した複数の指向信号の振幅の加算値に対する一の指向信号の振幅の比に応じた処理係数値を前記各第2周波数について生成する係数値生成手段と、
    前記複数の観測信号における前記各第2周波数の成分に当該第2周波数の処理係数値を作用させて第2分離成分を生成する第2信号処理手段と
    を具備する音響処理装置。
  2. 前記複数の観測信号における前記各周波数の成分から分離行列を生成する学習処理の有意性を示す有意指標値を周波数毎に算定する指標算定手段を具備し、
    前記周波数選別手段は、前記各周波数の有意指標値に応じて前記複数の周波数を第1周波数と第2周波数とに選別する
    請求項1の音響処理装置。
JP2011040014A 2011-02-25 2011-02-25 音響処理装置 Expired - Fee Related JP5826502B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011040014A JP5826502B2 (ja) 2011-02-25 2011-02-25 音響処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011040014A JP5826502B2 (ja) 2011-02-25 2011-02-25 音響処理装置

Publications (2)

Publication Number Publication Date
JP2012178679A JP2012178679A (ja) 2012-09-13
JP5826502B2 true JP5826502B2 (ja) 2015-12-02

Family

ID=46980250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011040014A Expired - Fee Related JP5826502B2 (ja) 2011-02-25 2011-02-25 音響処理装置

Country Status (1)

Country Link
JP (1) JP5826502B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427860B (zh) * 2015-11-11 2019-09-03 百度在线网络技术(北京)有限公司 远场语音识别方法和装置
CN109661705B (zh) 2016-09-09 2023-06-16 索尼公司 声源分离装置和方法以及程序
CN107369460B (zh) * 2017-07-31 2020-08-21 深圳海岸语音技术有限公司 基于声学矢量传感器空间锐化技术的语音增强装置及方法

Also Published As

Publication number Publication date
JP2012178679A (ja) 2012-09-13

Similar Documents

Publication Publication Date Title
JP4897519B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
US10334357B2 (en) Machine learning based sound field analysis
US8654990B2 (en) Multiple microphone based directional sound filter
JP5229053B2 (ja) 信号処理装置、および信号処理方法、並びにプログラム
EP2647221B1 (en) Apparatus and method for spatially selective sound acquisition by acoustic triangulation
CN106233382B (zh) 一种对若干个输入音频信号进行去混响的信号处理装置
CN106504763A (zh) 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN103067322B (zh) 评估单通道音频信号中的音频帧的语音质量的方法
WO2019187589A1 (ja) 音源方向推定装置、音源方向推定方法、プログラム
JP4403436B2 (ja) 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
JP5337072B2 (ja) モデル推定装置、音源分離装置、それらの方法及びプログラム
TW201248613A (en) System and method for monaural audio processing based preserving speech information
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
JP5826502B2 (ja) 音響処理装置
JP5034735B2 (ja) 音処理装置およびプログラム
JP2009020471A (ja) 音処理装置およびプログラム
JP5387442B2 (ja) 信号処理装置
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
Garcia-Barrios et al. Exploiting spatial diversity for increasing the robustness of sound source localization systems against reverberation
Biswas et al. FPGA based dual microphone speech enhancement
JP6790659B2 (ja) 音響処理装置および音響処理方法
US20210174820A1 (en) Signal processing apparatus, voice speech communication terminal, signal processing method, and signal processing program
JP2014215544A (ja) 音響処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150303

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151014

R150 Certificate of patent or registration of utility model

Ref document number: 5826502

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees