JP2008306712A - 音源分離システム - Google Patents

音源分離システム Download PDF

Info

Publication number
JP2008306712A
JP2008306712A JP2008133175A JP2008133175A JP2008306712A JP 2008306712 A JP2008306712 A JP 2008306712A JP 2008133175 A JP2008133175 A JP 2008133175A JP 2008133175 A JP2008133175 A JP 2008133175A JP 2008306712 A JP2008306712 A JP 2008306712A
Authority
JP
Japan
Prior art keywords
cost function
sound source
separation matrix
separation
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008133175A
Other languages
English (en)
Other versions
JP4444345B2 (ja
Inventor
Hiroshi Nakajima
弘史 中島
Kazuhiro Nakadai
一博 中臺
Yuji Hasegawa
雄二 長谷川
Koji Tsujino
広司 辻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to US12/133,691 priority Critical patent/US8131542B2/en
Priority to DE602008000475T priority patent/DE602008000475D1/de
Priority to EP08251991A priority patent/EP2012307B1/en
Publication of JP2008306712A publication Critical patent/JP2008306712A/ja
Application granted granted Critical
Publication of JP4444345B2 publication Critical patent/JP4444345B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】収束速度および収束精度の向上を図りながら音源信号を高精度で分離することができるシステムを提供する。
【解決手段】コスト関数の次回値J(Wk+1)が今回値J(Wk)よりも最小値J(W0)に近づくように今回の分離行列Wkが次回の分離行列Wk+1に更新される処理が繰り返される。分離行列の更新量ΔWkはコスト関数の今回値J(Wk)が大きいほど多くなり、かつ、コスト関数の今回勾配∂J(Wk)/∂Wが急なほど少なくなるように調節される。そして、複数のマイクロホンMiのそれぞれからの入力信号xと最適分離行列W0とに基づき、収束速度および収束精度の向上を図りながら音源信号y(=W0・x)が高精度で分離されうる。
【選択図】 図4

Description

本発明は、音源分離システムに関する。
逆フィルタに基づく分離法等にしたがって伝達系の情報がなくても音源を分離する手法としてブラインド音源分離(BSS)が提案されている(非特許文献1〜4参照)。BSSとしては無相関化(DSS(Decoration based Source Separation))、独立成分分析(ICA(Independent Component Analysis))および高次の無相関化(HDSS(Higer−order DSS))に基づく音源分離手法と、これらの手法のそれぞれに幾何的情報を加えた分離法(GSS(Geometric constrained Source Separation),GICA(Geometric constrained ICA),GHDSS(Geometric constrained HDSS))が知られている。以下、BSSの概要について説明する。
M個の音源信号の周波数特性をs(ω)=[s1(ω),s2(ω),‥,sN(ω)]T(「T」は転置を表わす。)とすれば、N(≦M)個のマイクロホンでの入力信号の特性x(ω)=[x1(ω),x2(ω),‥,xN(ω)]Tは伝達関数行列H(ω)を用いて式(1)で表わされる。伝達関数H(ω)の要素Hijは音源iからマイクロホンjまでの伝達関数を表わしている。
x(ω)=H(ω)s(ω) ‥(1)
音源分離問題は分離行列W(ω)を用いて式(2)で表わされる。
y(ω)=W(ω)x(ω) ‥(2)
音源分離処理はy(ω)=s(ω)となる分離行列W(ω)を求めることとして定式化される。伝達関数行列H(ω)が既知である場合には分離行列W(ω)は類似逆行列H+(ω)を用いて計算される。しかるに、実際には伝達関数行列H(ω)が既知であることはまれである。BSSは、H(ω)が未知の状態でW(ω)を求める手法である。
1.BSS(オフライン処理)
BSSの一般的手法は分離度を評価するコスト関数J(y)を最小化するyを求める処理として式(3)により記述される。
BSS=argminW[J(y)]=argminW[J(Wx)] ‥(3)
コスト関数J(y)は手法によって異なり、DSSによればyの相関行列Ryy=E[yyH]に基づき、フロベニウスノルム(行列のすべての要素の絶対値の二乗和を表わしている。)を用いて式(4)にしたがって算出される。
DSS(W)=‖Ryy−Diag[Ryy]‖2 ‥(4)
また、K−L情報量を利用したICAによればコスト関数Jは、yの同時PDF(確率密度関数)p(y)と、yの周辺PDFq(y)=Πkp(yk)とに基づき、式(5)にしたがって算出される(非特許文献5参照)。
ICA(W)=∫dy・p(y)Log{p(y)/q(y)} ‥(5)
式(3)を満たすWは、J(W)がJ(Wk)(kは反復回数)の周辺で最も勾配が急なWの方向を表わす行列J’(Wk)と、ステップサイズパラメータμとに基づき、式(6)で表わされる勾配法にしたがって繰り返し計算により決定される。
k+1=Wk−μJ’(Wt) ‥(6)
行列J’(Wk)は複素勾配演算法等にしたがって算出される(非特許文献6参照)。DSSによれば行列J’(W)は式(7)により表わされる。
J’DSSoff(W)=2[Ryy−Diag[Ryy]]WRxx ‥(7)
ICAによれば行列J’(W)は行列Rφ(y)y=E[φ(y)yT]と、式(9)および(10)で定義される関数φ(y)にしたがって式(8)により表わされる。
J’ICAoff(W)=[Rφ(y)y−I][W-1T ‥(8)
φ(y)=[φ(y1),φ(y2),‥,φ(yN)]T‥(9)
φ(yi)=−(∂/∂yi)Logp(yi) ‥(10)
2.適応BSS
適応BSSによれば、一般的に再起処理での期待値演算を省略して即時データが利用される。具体的にはE[yyH]をyyHに変換する。更新式は式(6)と同様であるが、反復回数「k」が時間の意味をも含む。オフライン処理では精度を高めるために小さいステップサイズで反復回数を多くすることができるが、適応処理でこの方法が採用されると適応時間が長くなってパフォーマンスの質が低下する。したがって、適応BSSのステップサイズパラメータμの調節はオフラインBSSよりも重要である。適応BSSにおけるDSSおよびICAのそれぞれによる行列J’は式(11)および(12)のそれぞれにより表わされる。ただし、ICAについては相関行列の非対角要素のみに着目した手法にしたがって自然勾配に基づく更新方法を利用する方法によって記述されている(非特許文献7参照)。
J’DSS(W)=2[yyH−Diag[yyH]]Wxx H ‥(11)
J’ICA(W)=[φ(y)yH−Diag[φ(y)yH]]W ‥(12)
3.幾何情報による拘束条件付きBSS(GBSS)
幾何情報(マイクロホンおよび音源のそれぞれの位置)を利用してICAで起こるパーミュテーション問題およびスケーリング問題を解決する手法が提案されている(非特許文献8〜11参照)。GSSによれば、幾何制約の誤差と分離の誤差とを合成した値がコスト関数として用いられる。たとえば、コスト関数J(W)は幾何情報に基づく線形拘束の誤差JLC(W)と、分離系の誤差JSS(W)と、正規化係数λとに基づき、式(13)にしたがって定められる。
J(W)=JLC(W)+λJss(W) ‥(13)
線形拘束の誤差JLC(W)としては、式(14)で表わされる遅延和のビームフォーミング法における係数からの差JLCDS(W)または式(15)で表わされる死角型のビームフォーミング法における係数からの差JLCNULL(W)が採用される。
LCDS(W)=‖Diag[WD−I]‖2 ‥(14)
LCNULL(W)=‖WD−I‖2 ‥(15)
GSSでは分離系の誤差Jss(W)として式(4)におけるJDSS(W)が採用される(非特許文献12参照)。そのほか、分離系の誤差JSS(W)として式(5)におけるJICA(W)が採用されうるが、この場合、幾何情報による線形拘束付きの適応ICA(GICA)となる。この適応GICAは線形拘束の誤差を許す弱い制約を設けた手法であり、非特許文献11に記載されているような線形拘束を絶対条件として用いる強い制約の手法とは異なる。
L.Parra and C.Spence, Conductive blind source separation of non-stationary source, IEEE Trans. on Speech and Audio Proceeding, vol.8, no.3, 2000, pp.320-327 F.Asano, S.Ikeda, M.Ogawa, H.Asoh and N.Kitawaki, Combined Approach of Array Proceeding and Independent Component Analysis for Blind Separation of Acoustic Signals, IEEE Trans. on Speech and Audio Proceeding, vol.11, no.3, 2003, pp.204-215 M.Miyoshi and Y.Kaneda, Inverse Filtering of Room Acoustics, IEEE Trans. on Acoustic Speech and Signal Proceeding, vol.ASSP-36, no.2, 1988, pp.145-152 H.Nakajima, M.Miyoshi and M.Tohyama, Sound field control by Indefinite MINT Filters, IEICE Trans., Fundamentals, vol.E-80A, no.5, 1997, pp.821-824 S.Ikeda and M.Murata, A method of ICA in time-frequencydomain, Proc.Workshop Indep. Compom. Anal. Signal. 1999, pp.365-370 D.H.Brandwood, B.A, A complex gradient operator and itsapplication in adaptive array theory, Proc. IEE Proc., vol.130, Pts. Fand H, No.1, 1983, pp.11-16 S.Amari, Natural gradient works efficiently in learning, newral Compt., vol.10, 1988, pp.251-276 L.Parra and C.Alvino, Gepmetric Source Separation: Merging Convultive Source Separation with Geometric Beamforming, IEEE Trans. on Speech and Audio Proceeding, vol.10, no.6, 2002, pp.352-362 R.Mukai, H.Sawada, S.Araki and S.Makino, Blind Source Separation of many signals in the frequency domain, in Proc. of ICASSP2006, vol.V, 2006, pp.969-972 H. Saruwatari, T.Kawamura, T.Nishikawa, A.Lee and K.Shikano, Blind Source Separation Based on a Fast Convergence Algorithm Combining ICA and Beamforming, IEEE Trans. on Speech and Audio Proceeding, vol.14, no.2, 2006, pp.666-678 M.Knaak, S.Araki snd S.Makino, Geometrically ConstrainedIndependent Component Analysis, IEEE Trans. on Speech and Audio Proceeding, vol.15, no.2, 2007, pp.715-726 J.Valin, J.Rouat and F.Michaud, Enhanced Robot Audition Based on Microphone Array Source Separation with Post-Filter, Proc. of 2004 IEE/RSJ IROS, 2004, pp.2123-2128
しかし、従来手法によればステップサイズパラメータμ(式(6)参照)が固定されていたため、コスト関数J(W)の最小値J(W0)(W0:最適分離行列)への収束性の観点から2つの問題がある。
第1の問題は分離行列Wの更新量ΔW(=μJ’(Wk))がコスト関数の現在値J(Wk)によらずに決まるので、更新量ΔWが収束速度および収束精度の向上の観点から不適当になるということである。第1の問題の理解のため分離行列Wに応じたコスト関数J(W)の変化態様を概念的に示す図10(a)を参照する。収束不十分な場合(=コスト関数J(W)が最小値J(W0)から離れている場合)、収束速度の向上の観点から更新量ΔWが過少となる可能性がある。その一方、収束十分な場合(=コスト関数J(W)が最小値J(W0)に近い場合)、収束精度の向上の観点から更新量ΔWが過多となる可能性がある。
第2の問題は更新量ΔWがコスト関数J(W)の微分値J’(W)に比例するので、更新量ΔWが収束速度および収束精度の向上の観点から不適当になるということである。第2の問題の理解のため分離行列Wに応じた異なるコスト関数J1(W)およびJ2(W)のそれぞれの変化態様を概念的に示す図10(b)を参照する。コスト関数J1(W)は、その微分値J’(W)が分離行列Wに対して敏感に変化するので収束精度の向上の観点から更新量が過多となる可能性がある。その一方、コスト関数J2(W)は、その微分値J’(W)が分離行列Wに対して敏感に変化するとはいえないので収束速度の向上の観点から更新量が過少となる可能性がある。
そこで、本発明は、収束速度および収束精度の向上を図りながら音源信号を高精度で分離することができるシステムを提供することを解決課題とする。
第1発明の音源分離システムは、複数のマイクロホンを備え、前記複数のマイクロホンのそれぞれからの入力信号に基づいて複数の音源信号を分離する音源分離システムであって、前記入力信号および前記音源信号の相関関係を表わす分離行列により定義され、かつ、前記音源信号の分離度を評価するためのコスト関数を認識する第1処理要素と、前記第1処理要素により認識された前記コスト関数の次回値が今回値よりも最小値に近づくように今回の前記分離行列を更新することによって次回の前記分離行列を決定する処理を繰り返すことにより、前記コスト関数が最小値となるときの前記分離行列を最適分離行列として認識するとともに、前記分離行列の今回値から次回値への更新量を、前記コスト関数の今回値が大きいほど多くなる一方、前記コスト関数の今回勾配が急であるほど少なくなるように調節する第2処理要素とを備えていることを特徴とする。
第1発明の音源分離システムによれば、コスト関数の次回値(今回分離行列における値)が今回値(前回分離行列における値)よりも最小値に近づくように今回の分離行列が次回の分離行列に更新される処理が繰り返される。分離行列の更新量はコスト関数の今回値が大きいほど多くなり、かつ、コスト関数の今回勾配が急なほど少なくなるように調節される。このため、コスト関数の今回値が収束不十分であり、かつ、コスト関数の今回勾配が緩やかな「第1の状態」では収束速度の向上の観点から分離行列の更新量が適当に多くなるように調節される。また、コスト関数の今回値が収束不十分であり、かつ、コスト関数の今回勾配が急な「第2の状態」では、第1の状態と同様に収束速度の向上の観点から分離行列の更新量が適当に多くなるように調節される一方、収束精度の向上の観点から第1の状態よりも分離行列の更新量が少なくなるように調節される。さらに、コスト関数の今回値が収束十分であり、かつ、コスト関数の今回勾配が急な「第3の状態」では収束精度の向上の観点から分離行列の更新量が適当に少なくなるように調節される。また、コスト関数の今回値が収束十分であり、かつ、コスト関数の今回勾配が緩やかな「第4の状態」では、第3の状態と同様に収束精度の向上の観点から分離行列の更新量が適当に少なくなるように調節される一方、収束速度の向上の観点から第3の状態よりも分離行列の更新量が多くなるように調節される。そして、前記処理の繰り返しによって最適分離行列(コスト関数が最小値となるような分離行列)が認識される。したがって、複数のマイクロホンのそれぞれからの入力信号と最適分離行列とに基づき、収束速度および収束精度の向上を図りながら音源信号が高精度で分離されうる。
なお、音源分離システムの構成要素が情報を「認識する」とは、記憶装置から情報を読み出すこと、データベースから情報を検索すること、情報を受信すること、基礎情報に基づいて情報を算定、推定、設定または決定すること、算定した情報を記憶装置に保存すること等、この情報を必要とする演算処理のために情報を準備するためのあらゆる情報処理を実行することを意味する。
第2発明の音源分離システムは、第1発明の音源分離システムにおいて、前記第2処理要素が多次元のニュートン法にしたがって前記分離行列の更新量を調節することを特徴とする。
第2発明の音源分離システムによれば、ニュートン法にしたがって分離行列の更新量はコスト関数の今回値が大きいほど多くなり、かつ、コスト関数の今回勾配が急なほど少なくなるように調節される。したがって、複数のマイクロホンのそれぞれからの入力信号と最適分離行列とに基づき、収束速度および収束精度の向上を図りながら音源信号が高精度で分離されうる。
本発明の音源分離システムの実施形態について図面を用いて説明する。
図1に示されている音源分離システムは複数のマイクロホンMi(i=1,2,‥,n)と、電子制御ユニット(CPU,ROM,RAM,I/O回路、A/D変換回路等の電子回路などにより構成されている。)10とにより構成されている。
電子制御ユニット10は複数のマイクロホンMiのそれぞれからの入力信号に基づいて複数の音源信号を分離する。電子制御ユニット10は第1処理要素11および第2処理要素12を備えている。第1処理要素11および第2処理要素12は同一のCPUにより構成されていてもよく、異なるCPUのそれぞれにより構成されていてもよい。第1処理要素11は各マイクロホンMiからの入力信号および音源信号の相関関係を表わす分離行列Wにより定義され、かつ、音源信号の分離度を評価するためのコスト関数J(W)を認識する。第2処理要素12は第1処理要素11により認識されたコスト関数の次回値J(Wk+1)が今回値J(Wk)よりも最小値J(W0)に近づくように今回の分離行列Wkを更新することにより次回の分離行列Wk+1を決定する処理を実行する。第2処理要素12はこの処理を繰り返して実行することにより、コスト関数が最小値となるときの分離行列を最適分離行列W0として認識する。第2処理要素12は今回分離行列Wkから次回分離行列Wk+1への更新量ΔWkを、コスト関数の今回値J(Wk)の大小および今回勾配∂J(Wk)/∂Wの緩急に応じて調節する。
マイクロホンMiはたとえば図2に示されているように電子制御ユニット10が搭載されているロボットRの頭部P1の左右両側に4つずつ配置されている。マイクロホンM1〜M4のそれぞれは頭部P1の右側の前上部、後上部、前下部および後下部のそれぞれに配置されている。マイクロホンM5〜M8のそれぞれは頭部P1の左側の前上部、後上部、前下部および後下部のそれぞれに配置されている。なお、音源分離システムはロボットRのほか、車両(四輪自動車)、複数の音源が存在する環境に接する任意の機械や装置に搭載されうる。また、マイクロホンMiの数および配置は任意に変更されうる。ロボットRは脚式移動ロボットであり、人間と同様に基体P0と、基体P0の上方に配置された頭部P1と、基体P0の上部に上部両側から延設された左右の腕体P2と、左右の腕体P2のそれぞれの先端に連結されている手部P3と、基体P0の下部から下方に延設された左右の脚体P4と、左右の脚体P4のそれぞれに連結されている足部P5とを備えている。基体P0はヨー軸回りに相対的に回動しうるように上下に連結された上部および下部により構成されている。頭部P1は基体P0に対してヨー軸回りに回動する等、動くことができる。腕体P2は肩関節機構、肘関節機構および手根関節機構のそれぞれにおいて1〜3軸回りの回動自由度を有している、手部P3は、手掌部から延設され、人間の手の親指、人差指、中指、薬指および小指のそれぞれに相当する5つの指機構を備え、物体の把持動作等が可能に構成されている。脚体P4は股関節機構、膝関節機構および足関節機構のそれぞれにおいて1〜3軸回りの回動自由度を有している。ロボットRは音源分離結果に基づき、左右の脚体P4を動かして移動する等、適当な動作をすることができる。
前記構成の音源分離システムの機能について説明する。電子制御ユニット10により分離行列Wの更新回数を表わす指数kが「1」に設定され(図3/S001)、各マイクロホンMiからの入力信号が取得される(図3/S002)。第1処理要素11により各音源信号の分離度を評価するためのコスト関数J(W)が定義または認識される(図3/S004(式(4)(5)参照))。第2処理要素12により分離行列Wの更新回数を表わす指数kが「1」に設定され(図3/S006)、適応調整法(AS(Adaptive Step−size))によって分離行列の今回更新量Wkが調節される(図3/S008)。具体的には、コスト関数の今回値J(Wk)の近くのコスト関数J(W)が複素勾配演算法にしたがって式(16)で表わされるように線形近似される。
J(W)≒J(Wk)+2MA[∂J(Wk)/∂W,W−Wk],
MA[A,B]≡Re[Σijijij] ‥(16)
図4に概念的に示されているように分離行列Wに応じてコスト関数J(W)が変化する場合、コスト関数の今回値J(Wk)を通り、コスト関数J(W)の今回勾配∂J(Wk)/∂Wだけ傾いた線形関数(一点鎖線、二点鎖線、三点鎖線参照)としてコスト関数J(W)が近似される。
また、多次元のニュートン法にしたがって最適な今回ステップサイズパラメータμKが、近似コスト関数J(W)が0(=コスト関数の最小値J(W0))となるように、関係式W=Wk−μJ’(Wk)に基づいて算出される。最適な今回ステップサイズパラメータμkは式(17)で表わされる。そして、分離行列Wの今回更新量ΔWkがμkJ’(Wk)に決定される。
μk=J(Wk)/2MA[∂J(Wk)/∂W,J’(Wk)] ‥(17)
さらに、第2処理要素12により今回の分離行列Wkが今回更新量ΔWkだけ調節されることにより次回の分離行列Wk+1(=Wk−ΔWk)が決定される(図3/S010)。これにより、図4に矢印で示されているようにコスト関数の値J(Wk)が徐々に最小値J(W0)(=0)に近づくように分離行列Wkが逐次更新される。
なお、次に説明するように適応調整法はさまざまなBSSに適用されうる。
1.適応ステップサイズDSS(DSS−AS)
本手法をDSSに適用したアルゴリズムは式(101)〜(105)により定義される。
y=Wkx ‥(101),
E=yyH−Diag[yyH] ‥(102),
J’=2EWkxxH‥(103),
μ=‖E‖2/2‖J’‖2 ‥(104),
k+1=Wk−μJ’‥(105)
2.適応ステップサイズICA(ICA−AS)
本手法をICAに適用したアルゴリズムは式(201)〜(208)により定義される。
y=Wkx ‥(201),
E=φ(y)yH−Diag[φ(y)yH] ‥(202),
ICA’=EWk ‥(203),
J’=[Eφ~(y)xH* ‥(204),
φ~(y)=[φ~(y1),φ~(y2),‥,φ~(yN)]T‥(205)
φ~(yi)=φ(yi)+yi(∂φ(yi)/∂yi) ‥(206)
μ=‖E‖2/2MA[J’,JICA’] ‥(207),
k+1=Wk−μJ’‥(208)
3.適応ステップサイズ高次DSS(HDSS−AS)
本手法を高次DSSに適用したアルゴリズムは式(301)〜(305)により定義される。
y=Wkx ‥(301),
E=φ(y)yH−Diag[φ(y)yH] ‥(302),
J’=[Eφ~(y)xH* ‥(303),
μ=‖E‖2/2‖J’‖2 ‥(304),
k+1=Wk−μJ’‥(306)
4.適応ステップサイズGSS(GSS−AS)
本手法をGSSに適用したアルゴリズムは式(401)〜(408)により定義される。
y=Wkx ‥(401),
ss=yyH−Diag[yyH] ‥(402),
ss’=2EsstxxH ‥(403),
μss=‖Ess2/2‖Jss’‖2 ‥(404),
LC=WD−I ‥(405),
LC’=ELCH ‥(406),
μLC=‖ELC2/2‖JLC’‖2 ‥(407),
k+1=Wk−μLCLC’−μssss’ ‥(408)
5.適応ステップサイズGICA(GICA−AS)
本手法をGICAに適用したアルゴリズムは式(501)〜(509)により定義される。
y=Wkx ‥(501),
ICA=φ(y)yH−Diag[φ(y)yH] ‥(502),
ICA’=EICAt ‥(503),
J’=[EICAφ~(y)xH* ‥(504),
μICA=‖EICA2/2MA‖J’,JICA’‖2 ‥(505),
LC=WD−I ‥(506),
LC’=ELCH ‥(507),
μLC=‖ELC2/2‖JLC’‖2 ‥(508),
k+1=Wk−μLCLC’−μICAICA’ ‥(509)
6.適応ステップサイズGHDSS(GHDSS−AS)
本手法をGHDSSに適用したアルゴリズムは、GSS−ASを定義する式(401)〜(408)のうち式(402)で表わされるコスト関数Essを、GICA−ASを定義する式(502)で表わされるコスト関数EICAに置き換えることにより定義される。
次回の分離行列Wk+1が最適分離行列W0に一致しているか否か次回の分離行列Wk+1と最適分離行列W0との偏差のノルム(フロベニウスノルム)が許容値eps未満であるか否かが判定され(図3/S012)、当該判定結果が否定的である場合(図3/S012‥NO)、第2処理要素12により指数kが「1」だけ増やされ(図3/S014)、前記のように各マイクロホンからの入力信号取得、コスト関数J(W)評価、更新量ΔWkの調節および次回の分離行列Wk+1等の処理が再び実行される(図3/S002,S004,S008,S010,S012参照)。一方、当該判定結果が肯定的な場合(図3/S012‥YES)、当該次回の分離行列Wが最適分離行列W0として決定される(図3/S016)。そして、最適適応行列W0および入力信号xに基づき、音源信号y(=W0・x)が分離される。
前記機能を発揮する音源分離システムによれば、コスト関数の次回値J(Wk+1)が今回値J(Wk)よりも最小値に近づくように今回の分離行列Wkが次回の分離行列Wk+1に更新される処理が繰り返される(図3/S008,S010,S012,S014,図4矢印参照)。分離行列Wの更新量ΔWkはコスト関数の今回値J(Wk)が大きいほど多くなり、かつ、コスト関数の今回勾配∂J(Wk)/∂Wが急なほど少なくなるように調節される(図4参照)。このため、コスト関数の今回値J(Wk)が収束不十分であり、かつ、コスト関数の今回勾配∂J(Wk)/∂Wが緩やかな「第1の状態」では収束速度の向上の観点から分離行列の更新量ΔWkが適当に多くなるように調節される。また、コスト関数の今回値J(Wk)が収束不十分であり、かつ、コスト関数の今回勾配∂J(Wk)/∂Wが急な「第2の状態」では、第1の状態と同様に収束速度の向上の観点から分離行列の更新量ΔWkが適当に多くなるように調節される一方、収束精度の向上の観点から第1の状態よりも分離行列の更新量ΔWkが少なくなるように調節される。さらに、コスト関数の今回値Wkが収束十分であり、かつ、コスト関数の今回勾配∂J(Wk)/∂Wが急な「第3の状態」では収束精度の向上の観点から分離行列の更新量ΔWkが適当に少なくなるように調節される。また、コスト関数の今回値J(Wk)が収束十分であり、かつ、コスト関数の今回勾配∂J(Wk)/∂Wが緩やかな「第4の状態」では、第3の状態と同様に収束精度の向上の観点から分離行列の更新量ΔWkが適当に少なくなるように調節される一方、収束速度の向上の観点から第3の状態よりも分離行列の更新量ΔWkが多くなるように調節される。そして、前記処理の繰り返しによって最適分離行列(コスト関数が最小値となるような分離行列)W0が認識される。したがって、複数のマイクロホンMi(図1、図2参照)のそれぞれからの入力信号xと最適分離行列W0とに基づき、収束速度および収束精度の向上を図りながら音源信号y(=W0・x)が高精度で分離されうる。
音源分離システムの性能実験結果について説明する。マイクロホンMiへの入力信号xi(t)は、第j音源からマイクロホンMiまでのインパルス応答hji(t)と、第j音源の音源信号sj(t)と、マイクロホンMiの背景雑音ni(t)とに基づいて式(18)で表わされるように合成された。
i(t)=Σjji(t)sj(t)+ni(t) ‥(18)
実験に際して音源信号sj(t)としてクリーンな2つの音声が用いられた。具体的には図5(a)に示されている第1音源信号としての男声と、図5(b)に示されている第2音源信号としての女声とが用いられた。インパルス応答hji(t)としては実験室における実測値が採用された。実験室の大きさは縦4.0[m]、横7.0[m]、高さ3.0[m]であり、残響時間は約0.2[s]である。実験室の壁の一面はガラスであり、強い反射が発生する。背景雑音ni(t)としては同じく実験室における図5(c)に示されている実測値が採用された。図5(d)には合成入力信号xi(t)が示されている。図6に各信号の周波数特性が示されている。背景雑音は音源より−10〜−20dB程度低いレベルとなっている。分離結果は分離結果の信号yと、信号yに含まれるノイズ信号n#と、対象音源のみが存在する場合の入力信号に対する分離結果の信号s#とに基づき、式(19)にしたがって算出されるSNRに基づいて評価された。SNRが高いほど音源が高精度で分離されていることを意味している。
SNR[dB]
=10Log10[(1/T)Σt=1-T|y(t)|2/|n#(t)|2],
#≡y−s# ‥(19)
分離結果はさらに時間周波数領域で式(20)にしたがって算出される平均相関係数CCに基づいて評価された。平均相関係数CCが低いほど音源が高精度で分離されていることを意味している。
CC[dB]
=10Log10[(1/F)Σf=1-FCCω(2πf)],
CCω(ω)≡|Σt=1-T1*(t)・y2(t)|/(Y1(ω)Y2(ω)),
1(ω)≡(Σt=1-T|y1(ω,t)|21/2
2(ω)≡(Σt=1-T|y2(ω,t)|21/2 ‥(20)
分離行列Wは直接音成分の伝達関数を要素とする伝達関数行列Dを用いて式(21)にしたがって初期化された。
DS=Diag[DHD]-1H ‥(21)
なお、分離行列Wは式(21)に代えて式(22)または式(23)にしたがって初期化されてもよい。
I=I ‥(22)
NULL=D+(=[DHD]-1H) ‥(23)
DSは最小ノルム重み付き遅延和BFの係数を初期値として使うことを意味しており、WNULLは死角型BFの係数を初期値として使うことを意味している。WNULLはWDS初期の分離度が高いが変動に対するロバスト性が低いため、残響が強い場合や幾何情報の誤差が大きい場合、WDSのほうが高性能な初期値が与えられる。
幾何制約のない手法に関しては分離行列の各行ベクトルの大きさを正規化することでスケーリング問題が解決されている。また、パーミュテーション問題は初期値により解決されるものとみなして付加的処理は省略された。従来の幾何制約付きのBSSで必要な正規化係数λはGSSおよびGHDSSにおいては前記文献12にしたがって「‖xHx‖-2」とし、GICAにおいては自然勾配により正規化されているため「1」とした。また、DSS以外の手法で利用される非線形関数φ(yi)はスケーリングパラメータη(本実験では「1」とした。)に基づき、式(24)により定義された。
φ(yi)≡tanh(η|yi|)exp(jθ(yi)) ‥(24)
DSS,ICA,HDSS,GSS,GICAおよびGHDSSのそれぞれのBSSにおいて、ステップサイズパラメータμが「0.001」「0.01」および「0.1」に固定されている場合と、本発明の適応調整法(AS)が適用された場合とのそれぞれにおいて分離された音源信号のSNRを図7に示し、当該音源信号のCCを図8に示す。また、GSS−ASにしたがって分離された波形を図9に示す。図7から明らかなようにDSSにおいてASによりSNRが著しく改善された。ICAおよびHDSSについても平均的SNRが改善された。従来法では相関係数CCが−3dB程度であるのに対して、ASによればすべてのBSSにおいて−7dB以上と顕著に低い。これからASは無相関化において有効な手法であることがわかる。なお、GSSおよびHDSSのSNRがASにより顕著に改善されない原因は幾何制約の誤差であると推察される。
なお、多次元のニュートン法に代えて、ステップサイズパラメータμ、さらには、分離行列の今回値Wkから次回値Wk+1への更新量ΔWkが、コスト関数の今回値J(Wk)が大きいほど多くなる一方、コスト関数の今回勾配∂J(Wk)/∂Wが急であるほど少なくなるように流動的に調節されるあらゆる手法が採用されてもよい。
本発明の音源分離システムの構成説明図 本発明の音源分離システムのロボットへの搭載例示図 本発明の音源分離システムの機能を示すフローチャート コスト関数に応じた収束速度および収束精度の向上に関する説明図 (a)第1音源信号(男声)の波形説明図 (b)第2音源信号(女声)の波形説明図 (c)背景雑音の波形説明図 (d)合成入力信号の波形説明図 各信号の周波数特性図 音源分離実験結果としての各手法によるSNRの比較説明図 音源分離実験結果としての各手法によるCCの比較説明図 GSS−ASにしたがって分離された音源信号の波形説明図 コスト関数に応じた収束速度および収束精度の問題に関する説明図
符号の説明
10‥電子制御ユニット、11‥第1処理要素、12‥第2処理要素、Mi‥マイクロホン

Claims (1)

  1. 複数のマイクロホンを備え、前記複数のマイクロホンのそれぞれからの入力信号に基づいて複数の音源信号を分離する音源分離システムであって、
    前記入力信号および前記音源信号の相関関係を表わす分離行列により定義され、かつ、前記音源信号の分離度を評価するためのコスト関数を認識する第1処理要素と、
    前記第1処理要素により認識された前記コスト関数の次回値が今回値よりも最小値に近づくように今回の前記分離行列を更新することによって次回の前記分離行列を決定する処理を繰り返すことにより、前記コスト関数が最小値となるときの前記分離行列を最適分離行列として認識するとともに、前記分離行列の今回値から次回値への更新量を、前記コスト関数の今回値が大きいほど多くなる一方、前記コスト関数の今回勾配が急であるほど少なくなるように調節する第2処理要素とを備えていることを特徴とする音源分離システム。
JP2008133175A 2007-06-08 2008-05-21 音源分離システム Active JP4444345B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US12/133,691 US8131542B2 (en) 2007-06-08 2008-06-05 Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function
DE602008000475T DE602008000475D1 (de) 2007-06-08 2008-06-09 Schallquellentrennsystem
EP08251991A EP2012307B1 (en) 2007-06-08 2008-06-09 Sound source separation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US94279907P 2007-06-08 2007-06-08

Publications (2)

Publication Number Publication Date
JP2008306712A true JP2008306712A (ja) 2008-12-18
JP4444345B2 JP4444345B2 (ja) 2010-03-31

Family

ID=40234971

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008133175A Active JP4444345B2 (ja) 2007-06-08 2008-05-21 音源分離システム

Country Status (2)

Country Link
JP (1) JP4444345B2 (ja)
DE (1) DE602008000475D1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282193A (ja) * 2009-06-04 2010-12-16 Honda Motor Co Ltd 残響抑圧装置、及び残響抑圧方法
JP2012042953A (ja) * 2010-08-17 2012-03-01 Honda Motor Co Ltd 音源分離装置及び音源分離方法
CN111435598A (zh) * 2019-01-15 2020-07-21 北京地平线机器人技术研发有限公司 语音信号处理方法、装置、计算机可读介质及电子设备
JPWO2021161437A1 (ja) * 2020-02-13 2021-08-19

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7248478B2 (ja) 2019-03-28 2023-03-29 本田技研工業株式会社 車両制御装置、端末装置、サーバ装置、車両、車両制御システム及び車両制御方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282193A (ja) * 2009-06-04 2010-12-16 Honda Motor Co Ltd 残響抑圧装置、及び残響抑圧方法
US8391505B2 (en) 2009-06-04 2013-03-05 Honda Motor Co., Ltd. Reverberation suppressing apparatus and reverberation suppressing method
JP2012042953A (ja) * 2010-08-17 2012-03-01 Honda Motor Co Ltd 音源分離装置及び音源分離方法
CN111435598A (zh) * 2019-01-15 2020-07-21 北京地平线机器人技术研发有限公司 语音信号处理方法、装置、计算机可读介质及电子设备
CN111435598B (zh) * 2019-01-15 2023-08-18 北京地平线机器人技术研发有限公司 语音信号处理方法、装置、计算机可读介质及电子设备
JPWO2021161437A1 (ja) * 2020-02-13 2021-08-19
WO2021161437A1 (ja) * 2020-02-13 2021-08-19 日本電信電話株式会社 音源分離装置、音源分離方法、およびプログラム
JP7420153B2 (ja) 2020-02-13 2024-01-23 日本電信電話株式会社 音源分離装置、音源分離方法、およびプログラム

Also Published As

Publication number Publication date
JP4444345B2 (ja) 2010-03-31
DE602008000475D1 (de) 2010-02-11

Similar Documents

Publication Publication Date Title
US8131542B2 (en) Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function
US9668066B1 (en) Blind source separation systems
US8898056B2 (en) System and method for generating a separated signal by reordering frequency components
Tan et al. Nonlinear blind source separation using higher order statistics and a genetic algorithm
KR101197407B1 (ko) 음성 신호 분리 장치 및 방법
JP4444345B2 (ja) 音源分離システム
JP4406428B2 (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
JP6434657B2 (ja) 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
US8867755B2 (en) Sound source separation apparatus and sound source separation method
US11894010B2 (en) Signal processing apparatus, signal processing method, and program
JP6005443B2 (ja) 信号処理装置、方法及びプログラム
JPH08106295A (ja) パターン認識方法及び装置
JP2004536330A5 (ja)
EP2023343A1 (en) Sound-source separation system
JP2011215317A (ja) 信号処理装置、および信号処理方法、並びにプログラム
JP2012042465A (ja) 音源方向推定装置及び音源方向推定方法
Nakajima et al. Adaptive step-size parameter control for real-world blind source separation
JP7131424B2 (ja) 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
JP4738284B2 (ja) ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
Shahnawazuddin et al. Sparse coding over redundant dictionaries for fast adaptation of speech recognition system
Nakajima et al. Correlation matrix estimation by an optimally controlled recursive average method and its application to blind source separation
JP5224950B2 (ja) 信号処理装置
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091028

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20091028

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20091216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100113

R150 Certificate of patent or registration of utility model

Ref document number: 4444345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140122

Year of fee payment: 4