JP2008306712A

JP2008306712A - 音源分離システム

Info

Publication number: JP2008306712A
Application number: JP2008133175A
Authority: JP
Inventors: Hiroshi Nakajima; 弘史中島; Kazuhiro Nakadai; 一博中臺; Yuji Hasegawa; 雄二長谷川; Koji Tsujino; 広司辻野
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2007-06-08
Filing date: 2008-05-21
Publication date: 2008-12-18
Anticipated expiration: 2028-05-21
Also published as: JP4444345B2; DE602008000475D1

Abstract

【課題】収束速度および収束精度の向上を図りながら音源信号を高精度で分離することができるシステムを提供する。
【解決手段】コスト関数の次回値Ｊ（Ｗ_k+1）が今回値Ｊ（Ｗ_k）よりも最小値Ｊ（Ｗ₀）に近づくように今回の分離行列Ｗ_kが次回の分離行列Ｗ_k+1に更新される処理が繰り返される。分離行列の更新量ΔＷ_kはコスト関数の今回値Ｊ（Ｗ_k）が大きいほど多くなり、かつ、コスト関数の今回勾配∂Ｊ（Ｗ_k）／∂Ｗが急なほど少なくなるように調節される。そして、複数のマイクロホンＭ_iのそれぞれからの入力信号ｘと最適分離行列Ｗ₀とに基づき、収束速度および収束精度の向上を図りながら音源信号ｙ（＝Ｗ₀・ｘ）が高精度で分離されうる。
【選択図】図４

Description

本発明は、音源分離システムに関する。

逆フィルタに基づく分離法等にしたがって伝達系の情報がなくても音源を分離する手法としてブラインド音源分離（ＢＳＳ）が提案されている（非特許文献１〜４参照）。ＢＳＳとしては無相関化（ＤＳＳ（ＤｅｃｏｒａｔｉｏｎｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ））、独立成分分析（ＩＣＡ（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ））および高次の無相関化（ＨＤＳＳ（Ｈｉｇｅｒ−ｏｒｄｅｒＤＳＳ））に基づく音源分離手法と、これらの手法のそれぞれに幾何的情報を加えた分離法（ＧＳＳ（ＧｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ），ＧＩＣＡ（ＧｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｅｄＩＣＡ），ＧＨＤＳＳ（ＧｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｅｄＨＤＳＳ））が知られている。以下、ＢＳＳの概要について説明する。

Ｍ個の音源信号の周波数特性をｓ（ω）＝［ｓ₁（ω），ｓ₂（ω），‥，ｓ_N（ω）］^T（「Ｔ」は転置を表わす。）とすれば、Ｎ（≦Ｍ）個のマイクロホンでの入力信号の特性ｘ（ω）＝［ｘ₁（ω），ｘ₂（ω），‥，ｘ_N（ω）］^Tは伝達関数行列Ｈ（ω）を用いて式（１）で表わされる。伝達関数Ｈ（ω）の要素Ｈ_ijは音源ｉからマイクロホンｊまでの伝達関数を表わしている。

ｘ（ω）＝Ｈ（ω）ｓ（ω） ‥（１）

音源分離問題は分離行列Ｗ（ω）を用いて式（２）で表わされる。

ｙ（ω）＝Ｗ（ω）ｘ（ω） ‥（２）

音源分離処理はｙ（ω）＝ｓ（ω）となる分離行列Ｗ（ω）を求めることとして定式化される。伝達関数行列Ｈ（ω）が既知である場合には分離行列Ｗ（ω）は類似逆行列Ｈ⁺（ω）を用いて計算される。しかるに、実際には伝達関数行列Ｈ（ω）が既知であることはまれである。ＢＳＳは、Ｈ（ω）が未知の状態でＷ（ω）を求める手法である。
１．ＢＳＳ（オフライン処理）
ＢＳＳの一般的手法は分離度を評価するコスト関数Ｊ（ｙ）を最小化するｙを求める処理として式（３）により記述される。

Ｗ_BSS＝ａｒｇｍｉｎ_W［Ｊ（ｙ）］＝ａｒｇｍｉｎ_W［Ｊ（Ｗｘ）］ ‥（３）

コスト関数Ｊ（ｙ）は手法によって異なり、ＤＳＳによればｙの相関行列Ｒ_yy＝Ｅ［ｙｙ^H］に基づき、フロベニウスノルム（行列のすべての要素の絶対値の二乗和を表わしている。）を用いて式（４）にしたがって算出される。

Ｊ_DSS（Ｗ）＝‖Ｒ_yy−Ｄｉａｇ［Ｒ_yy］‖² ‥（４）

また、Ｋ−Ｌ情報量を利用したＩＣＡによればコスト関数Ｊは、ｙの同時ＰＤＦ（確率密度関数）ｐ（ｙ）と、ｙの周辺ＰＤＦｑ（ｙ）＝Π_kｐ（ｙ_k）とに基づき、式（５）にしたがって算出される（非特許文献５参照）。

Ｊ_ICA（Ｗ）＝∫ｄｙ・ｐ（ｙ）Ｌｏｇ｛ｐ（ｙ）／ｑ（ｙ）｝ ‥（５）

式（３）を満たすＷは、Ｊ（Ｗ）がＪ（Ｗ_k）（ｋは反復回数）の周辺で最も勾配が急なＷの方向を表わす行列Ｊ’（Ｗ_k）と、ステップサイズパラメータμとに基づき、式（６）で表わされる勾配法にしたがって繰り返し計算により決定される。

Ｗ_k+1＝Ｗ_k−μＪ’（Ｗ_t） ‥（６）

行列Ｊ’（Ｗ_k）は複素勾配演算法等にしたがって算出される（非特許文献６参照）。ＤＳＳによれば行列Ｊ’（Ｗ）は式（７）により表わされる。

Ｊ’_DSSoff（Ｗ）＝２［Ｒ_yy−Ｄｉａｇ［Ｒ_yy］］ＷＲ_xx ‥（７）

ＩＣＡによれば行列Ｊ’（Ｗ）は行列Ｒ_φ(y)y＝Ｅ［φ（ｙ）ｙ^T］と、式（９）および（１０）で定義される関数φ（ｙ）にしたがって式（８）により表わされる。

Ｊ’_ICAoff（Ｗ）＝［Ｒ_φ(y)y−Ｉ］［Ｗ^-1］^T ‥（８）
φ（ｙ）＝［φ（ｙ₁），φ（ｙ₂），‥，φ（ｙ_N）］^T‥（９）
φ（ｙ_i）＝−（∂／∂ｙ_i）Ｌｏｇｐ（ｙ_i） ‥（１０）

２．適応ＢＳＳ
適応ＢＳＳによれば、一般的に再起処理での期待値演算を省略して即時データが利用される。具体的にはＥ［ｙｙ^H］をｙｙ^Hに変換する。更新式は式（６）と同様であるが、反復回数「ｋ」が時間の意味をも含む。オフライン処理では精度を高めるために小さいステップサイズで反復回数を多くすることができるが、適応処理でこの方法が採用されると適応時間が長くなってパフォーマンスの質が低下する。したがって、適応ＢＳＳのステップサイズパラメータμの調節はオフラインＢＳＳよりも重要である。適応ＢＳＳにおけるＤＳＳおよびＩＣＡのそれぞれによる行列Ｊ’は式（１１）および（１２）のそれぞれにより表わされる。ただし、ＩＣＡについては相関行列の非対角要素のみに着目した手法にしたがって自然勾配に基づく更新方法を利用する方法によって記述されている（非特許文献７参照）。

Ｊ’_DSS（Ｗ）＝２［ｙｙ^H−Ｄｉａｇ［ｙｙ^H］］Ｗ_xx ^H ‥（１１）
Ｊ’_ICA（Ｗ）＝［φ（ｙ）ｙ^H−Ｄｉａｇ［φ（ｙ）ｙ^H］］Ｗ ‥（１２）

３．幾何情報による拘束条件付きＢＳＳ（ＧＢＳＳ）
幾何情報（マイクロホンおよび音源のそれぞれの位置）を利用してＩＣＡで起こるパーミュテーション問題およびスケーリング問題を解決する手法が提案されている（非特許文献８〜１１参照）。ＧＳＳによれば、幾何制約の誤差と分離の誤差とを合成した値がコスト関数として用いられる。たとえば、コスト関数Ｊ（Ｗ）は幾何情報に基づく線形拘束の誤差Ｊ_LC（Ｗ）と、分離系の誤差Ｊ_SS（Ｗ）と、正規化係数λとに基づき、式（１３）にしたがって定められる。

Ｊ（Ｗ）＝Ｊ_LC（Ｗ）＋λＪ_ss（Ｗ） ‥（１３）

線形拘束の誤差Ｊ_LC（Ｗ）としては、式（１４）で表わされる遅延和のビームフォーミング法における係数からの差Ｊ_LCDS（Ｗ）または式（１５）で表わされる死角型のビームフォーミング法における係数からの差Ｊ_LCNULL（Ｗ）が採用される。

Ｊ_LCDS（Ｗ）＝‖Ｄｉａｇ［ＷＤ−Ｉ］‖² ‥（１４）
Ｊ_LCNULL（Ｗ）＝‖ＷＤ−Ｉ‖² ‥（１５）

ＧＳＳでは分離系の誤差Ｊ_ss（Ｗ）として式（４）におけるＪ_DSS（Ｗ）が採用される（非特許文献１２参照）。そのほか、分離系の誤差Ｊ_SS（Ｗ）として式（５）におけるＪ_ICA（Ｗ）が採用されうるが、この場合、幾何情報による線形拘束付きの適応ＩＣＡ（ＧＩＣＡ）となる。この適応ＧＩＣＡは線形拘束の誤差を許す弱い制約を設けた手法であり、非特許文献１１に記載されているような線形拘束を絶対条件として用いる強い制約の手法とは異なる。
L.Parra and C.Spence, Conductive blind source separation of non-stationary source, IEEE Trans. on Speech and Audio Proceeding, vol.8, no.3, 2000, pp.320-327 F.Asano, S.Ikeda, M.Ogawa, H.Asoh and N.Kitawaki, Combined Approach of Array Proceeding and Independent Component Analysis for Blind Separation of Acoustic Signals, IEEE Trans. on Speech and Audio Proceeding, vol.11, no.3, 2003, pp.204-215 M.Miyoshi and Y.Kaneda, Inverse Filtering of Room Acoustics, IEEE Trans. on Acoustic Speech and Signal Proceeding, vol.ASSP-36, no.2, 1988, pp.145-152 H.Nakajima, M.Miyoshi and M.Tohyama, Sound field control by Indefinite MINT Filters, IEICE Trans., Fundamentals, vol.E-80A, no.5, 1997, pp.821-824 S.Ikeda and M.Murata, A method of ICA in time-frequencydomain, Proc.Workshop Indep. Compom. Anal. Signal. 1999, pp.365-370 D.H.Brandwood, B.A, A complex gradient operator and itsapplication in adaptive array theory, Proc. IEE Proc., vol.130, Pts. Fand H, No.1, 1983, pp.11-16 S.Amari, Natural gradient works efficiently in learning, newral Compt., vol.10, 1988, pp.251-276 L.Parra and C.Alvino, Gepmetric Source Separation: Merging Convultive Source Separation with Geometric Beamforming, IEEE Trans. on Speech and Audio Proceeding, vol.10, no.6, 2002, pp.352-362 R.Mukai, H.Sawada, S.Araki and S.Makino, Blind Source Separation of many signals in the frequency domain, in Proc. of ICASSP2006, vol.V, 2006, pp.969-972 H. Saruwatari, T.Kawamura, T.Nishikawa, A.Lee and K.Shikano, Blind Source Separation Based on a Fast Convergence Algorithm Combining ICA and Beamforming, IEEE Trans. on Speech and Audio Proceeding, vol.14, no.2, 2006, pp.666-678 M.Knaak, S.Araki snd S.Makino, Geometrically ConstrainedIndependent Component Analysis, IEEE Trans. on Speech and Audio Proceeding, vol.15, no.2, 2007, pp.715-726 J.Valin, J.Rouat and F.Michaud, Enhanced Robot Audition Based on Microphone Array Source Separation with Post-Filter, Proc. of 2004 IEE/RSJ IROS, 2004, pp.2123-2128

しかし、従来手法によればステップサイズパラメータμ（式（６）参照）が固定されていたため、コスト関数Ｊ（Ｗ）の最小値Ｊ（Ｗ₀）（Ｗ₀：最適分離行列）への収束性の観点から２つの問題がある。

第１の問題は分離行列Ｗの更新量ΔＷ（＝μＪ’（Ｗ_k））がコスト関数の現在値Ｊ（Ｗ_k）によらずに決まるので、更新量ΔＷが収束速度および収束精度の向上の観点から不適当になるということである。第１の問題の理解のため分離行列Ｗに応じたコスト関数Ｊ（Ｗ）の変化態様を概念的に示す図１０（ａ）を参照する。収束不十分な場合（＝コスト関数Ｊ（Ｗ）が最小値Ｊ（Ｗ₀）から離れている場合）、収束速度の向上の観点から更新量ΔＷが過少となる可能性がある。その一方、収束十分な場合（＝コスト関数Ｊ（Ｗ）が最小値Ｊ（Ｗ₀）に近い場合）、収束精度の向上の観点から更新量ΔＷが過多となる可能性がある。

第２の問題は更新量ΔＷがコスト関数Ｊ（Ｗ）の微分値Ｊ’（Ｗ）に比例するので、更新量ΔＷが収束速度および収束精度の向上の観点から不適当になるということである。第２の問題の理解のため分離行列Ｗに応じた異なるコスト関数Ｊ₁（Ｗ）およびＪ₂（Ｗ）のそれぞれの変化態様を概念的に示す図１０（ｂ）を参照する。コスト関数Ｊ₁（Ｗ）は、その微分値Ｊ’（Ｗ）が分離行列Ｗに対して敏感に変化するので収束精度の向上の観点から更新量が過多となる可能性がある。その一方、コスト関数Ｊ₂（Ｗ）は、その微分値Ｊ’（Ｗ）が分離行列Ｗに対して敏感に変化するとはいえないので収束速度の向上の観点から更新量が過少となる可能性がある。

そこで、本発明は、収束速度および収束精度の向上を図りながら音源信号を高精度で分離することができるシステムを提供することを解決課題とする。

第１発明の音源分離システムは、複数のマイクロホンを備え、前記複数のマイクロホンのそれぞれからの入力信号に基づいて複数の音源信号を分離する音源分離システムであって、前記入力信号および前記音源信号の相関関係を表わす分離行列により定義され、かつ、前記音源信号の分離度を評価するためのコスト関数を認識する第１処理要素と、前記第１処理要素により認識された前記コスト関数の次回値が今回値よりも最小値に近づくように今回の前記分離行列を更新することによって次回の前記分離行列を決定する処理を繰り返すことにより、前記コスト関数が最小値となるときの前記分離行列を最適分離行列として認識するとともに、前記分離行列の今回値から次回値への更新量を、前記コスト関数の今回値が大きいほど多くなる一方、前記コスト関数の今回勾配が急であるほど少なくなるように調節する第２処理要素とを備えていることを特徴とする。

第１発明の音源分離システムによれば、コスト関数の次回値（今回分離行列における値）が今回値（前回分離行列における値）よりも最小値に近づくように今回の分離行列が次回の分離行列に更新される処理が繰り返される。分離行列の更新量はコスト関数の今回値が大きいほど多くなり、かつ、コスト関数の今回勾配が急なほど少なくなるように調節される。このため、コスト関数の今回値が収束不十分であり、かつ、コスト関数の今回勾配が緩やかな「第１の状態」では収束速度の向上の観点から分離行列の更新量が適当に多くなるように調節される。また、コスト関数の今回値が収束不十分であり、かつ、コスト関数の今回勾配が急な「第２の状態」では、第１の状態と同様に収束速度の向上の観点から分離行列の更新量が適当に多くなるように調節される一方、収束精度の向上の観点から第１の状態よりも分離行列の更新量が少なくなるように調節される。さらに、コスト関数の今回値が収束十分であり、かつ、コスト関数の今回勾配が急な「第３の状態」では収束精度の向上の観点から分離行列の更新量が適当に少なくなるように調節される。また、コスト関数の今回値が収束十分であり、かつ、コスト関数の今回勾配が緩やかな「第４の状態」では、第３の状態と同様に収束精度の向上の観点から分離行列の更新量が適当に少なくなるように調節される一方、収束速度の向上の観点から第３の状態よりも分離行列の更新量が多くなるように調節される。そして、前記処理の繰り返しによって最適分離行列（コスト関数が最小値となるような分離行列）が認識される。したがって、複数のマイクロホンのそれぞれからの入力信号と最適分離行列とに基づき、収束速度および収束精度の向上を図りながら音源信号が高精度で分離されうる。

なお、音源分離システムの構成要素が情報を「認識する」とは、記憶装置から情報を読み出すこと、データベースから情報を検索すること、情報を受信すること、基礎情報に基づいて情報を算定、推定、設定または決定すること、算定した情報を記憶装置に保存すること等、この情報を必要とする演算処理のために情報を準備するためのあらゆる情報処理を実行することを意味する。

第２発明の音源分離システムは、第１発明の音源分離システムにおいて、前記第２処理要素が多次元のニュートン法にしたがって前記分離行列の更新量を調節することを特徴とする。

第２発明の音源分離システムによれば、ニュートン法にしたがって分離行列の更新量はコスト関数の今回値が大きいほど多くなり、かつ、コスト関数の今回勾配が急なほど少なくなるように調節される。したがって、複数のマイクロホンのそれぞれからの入力信号と最適分離行列とに基づき、収束速度および収束精度の向上を図りながら音源信号が高精度で分離されうる。

本発明の音源分離システムの実施形態について図面を用いて説明する。

図１に示されている音源分離システムは複数のマイクロホンＭ_i（ｉ＝１，２，‥，ｎ）と、電子制御ユニット（ＣＰＵ，ＲＯＭ，ＲＡＭ，Ｉ／Ｏ回路、Ａ／Ｄ変換回路等の電子回路などにより構成されている。）１０とにより構成されている。

電子制御ユニット１０は複数のマイクロホンＭ_iのそれぞれからの入力信号に基づいて複数の音源信号を分離する。電子制御ユニット１０は第１処理要素１１および第２処理要素１２を備えている。第１処理要素１１および第２処理要素１２は同一のＣＰＵにより構成されていてもよく、異なるＣＰＵのそれぞれにより構成されていてもよい。第１処理要素１１は各マイクロホンＭ_iからの入力信号および音源信号の相関関係を表わす分離行列Ｗにより定義され、かつ、音源信号の分離度を評価するためのコスト関数Ｊ（Ｗ）を認識する。第２処理要素１２は第１処理要素１１により認識されたコスト関数の次回値Ｊ（Ｗ_k+1）が今回値Ｊ（Ｗ_k）よりも最小値Ｊ（Ｗ₀）に近づくように今回の分離行列Ｗ_kを更新することにより次回の分離行列Ｗ_k+1を決定する処理を実行する。第２処理要素１２はこの処理を繰り返して実行することにより、コスト関数が最小値となるときの分離行列を最適分離行列Ｗ₀として認識する。第２処理要素１２は今回分離行列Ｗ_kから次回分離行列Ｗ_k+1への更新量ΔＷ_kを、コスト関数の今回値Ｊ（Ｗ_k）の大小および今回勾配∂Ｊ（Ｗ_k）／∂Ｗの緩急に応じて調節する。

マイクロホンＭ_iはたとえば図２に示されているように電子制御ユニット１０が搭載されているロボットＲの頭部Ｐ１の左右両側に４つずつ配置されている。マイクロホンＭ₁〜Ｍ₄のそれぞれは頭部Ｐ１の右側の前上部、後上部、前下部および後下部のそれぞれに配置されている。マイクロホンＭ₅〜Ｍ₈のそれぞれは頭部Ｐ１の左側の前上部、後上部、前下部および後下部のそれぞれに配置されている。なお、音源分離システムはロボットＲのほか、車両（四輪自動車）、複数の音源が存在する環境に接する任意の機械や装置に搭載されうる。また、マイクロホンＭ_iの数および配置は任意に変更されうる。ロボットＲは脚式移動ロボットであり、人間と同様に基体Ｐ０と、基体Ｐ０の上方に配置された頭部Ｐ１と、基体Ｐ０の上部に上部両側から延設された左右の腕体Ｐ２と、左右の腕体Ｐ２のそれぞれの先端に連結されている手部Ｐ３と、基体Ｐ０の下部から下方に延設された左右の脚体Ｐ４と、左右の脚体Ｐ４のそれぞれに連結されている足部Ｐ５とを備えている。基体Ｐ０はヨー軸回りに相対的に回動しうるように上下に連結された上部および下部により構成されている。頭部Ｐ１は基体Ｐ０に対してヨー軸回りに回動する等、動くことができる。腕体Ｐ２は肩関節機構、肘関節機構および手根関節機構のそれぞれにおいて１〜３軸回りの回動自由度を有している、手部Ｐ３は、手掌部から延設され、人間の手の親指、人差指、中指、薬指および小指のそれぞれに相当する５つの指機構を備え、物体の把持動作等が可能に構成されている。脚体Ｐ４は股関節機構、膝関節機構および足関節機構のそれぞれにおいて１〜３軸回りの回動自由度を有している。ロボットＲは音源分離結果に基づき、左右の脚体Ｐ４を動かして移動する等、適当な動作をすることができる。

前記構成の音源分離システムの機能について説明する。電子制御ユニット１０により分離行列Ｗの更新回数を表わす指数ｋが「１」に設定され（図３／Ｓ００１）、各マイクロホンＭ_iからの入力信号が取得される（図３／Ｓ００２）。第１処理要素１１により各音源信号の分離度を評価するためのコスト関数Ｊ（Ｗ）が定義または認識される（図３／Ｓ００４（式（４）（５）参照））。第２処理要素１２により分離行列Ｗの更新回数を表わす指数ｋが「１」に設定され（図３／Ｓ００６）、適応調整法（ＡＳ（ＡｄａｐｔｉｖｅＳｔｅｐ−ｓｉｚｅ））によって分離行列の今回更新量Ｗ_kが調節される（図３／Ｓ００８）。具体的には、コスト関数の今回値Ｊ（Ｗ_k）の近くのコスト関数Ｊ（Ｗ）が複素勾配演算法にしたがって式（１６）で表わされるように線形近似される。

Ｊ（Ｗ）≒Ｊ（Ｗ_k）＋２ＭＡ［∂Ｊ（Ｗ_k）／∂Ｗ，Ｗ−Ｗ_k］，
ＭＡ［Ａ，Ｂ］≡Ｒｅ［Σ_ijａ_ijｂ_ij］ ‥（１６）

図４に概念的に示されているように分離行列Ｗに応じてコスト関数Ｊ（Ｗ）が変化する場合、コスト関数の今回値Ｊ（Ｗ_k）を通り、コスト関数Ｊ（Ｗ）の今回勾配∂Ｊ（Ｗ_k）／∂Ｗだけ傾いた線形関数（一点鎖線、二点鎖線、三点鎖線参照）としてコスト関数Ｊ（Ｗ）が近似される。

また、多次元のニュートン法にしたがって最適な今回ステップサイズパラメータμ_Kが、近似コスト関数Ｊ（Ｗ）が０（＝コスト関数の最小値Ｊ（Ｗ₀））となるように、関係式Ｗ＝Ｗ_k−μＪ’（Ｗ_k）に基づいて算出される。最適な今回ステップサイズパラメータμ_kは式（１７）で表わされる。そして、分離行列Ｗの今回更新量ΔＷ_kがμ_kＪ’（Ｗ_k）に決定される。

μ_k＝Ｊ（Ｗ_k）／２ＭＡ［∂Ｊ（Ｗ_k）／∂Ｗ，Ｊ’（Ｗ_k）］ ‥（１７）

さらに、第２処理要素１２により今回の分離行列Ｗ_kが今回更新量ΔＷ_kだけ調節されることにより次回の分離行列Ｗ_k+1（＝Ｗ_k−ΔＷ_k）が決定される（図３／Ｓ０１０）。これにより、図４に矢印で示されているようにコスト関数の値Ｊ（Ｗ_k）が徐々に最小値Ｊ（Ｗ₀）（＝０）に近づくように分離行列Ｗ_kが逐次更新される。

なお、次に説明するように適応調整法はさまざまなＢＳＳに適用されうる。
１．適応ステップサイズＤＳＳ（ＤＳＳ−ＡＳ）
本手法をＤＳＳに適用したアルゴリズムは式（１０１）〜（１０５）により定義される。

ｙ＝Ｗ_kｘ ‥（１０１），
Ｅ＝ｙｙ^H−Ｄｉａｇ［ｙｙ^H］ ‥（１０２），
Ｊ’＝２ＥＷ_kｘｘ^H‥（１０３），
μ＝‖Ｅ‖²／２‖Ｊ’‖² ‥（１０４），
Ｗ_k+1＝Ｗ_k−μＪ’‥（１０５）

２．適応ステップサイズＩＣＡ（ＩＣＡ−ＡＳ）
本手法をＩＣＡに適用したアルゴリズムは式（２０１）〜（２０８）により定義される。

ｙ＝Ｗ_kｘ ‥（２０１），
Ｅ＝φ（ｙ）ｙ^H−Ｄｉａｇ［φ（ｙ）ｙ^H］ ‥（２０２），
Ｊ_ICA’＝ＥＷ_k‥（２０３），
Ｊ’＝［Ｅφ~（ｙ）ｘ^H］^* ‥（２０４），
φ~（ｙ）＝［φ~（ｙ₁），φ~（ｙ₂），‥，φ~（ｙ_N）］^T‥（２０５）
φ~（ｙ_i）＝φ（ｙ_i）＋ｙ_i（∂φ（ｙ_i）／∂ｙ_i） ‥（２０６）
μ＝‖Ｅ‖²／２ＭＡ［Ｊ’，Ｊ_ICA’］ ‥（２０７），
Ｗ_k+1＝Ｗ_k−μＪ’‥（２０８）

３．適応ステップサイズ高次ＤＳＳ（ＨＤＳＳ−ＡＳ）
本手法を高次ＤＳＳに適用したアルゴリズムは式（３０１）〜（３０５）により定義される。

ｙ＝Ｗ_kｘ ‥（３０１），
Ｅ＝φ（ｙ）ｙ^H−Ｄｉａｇ［φ（ｙ）ｙ^H］ ‥（３０２），
Ｊ’＝［Ｅφ~（ｙ）ｘ^H］^*‥（３０３），
μ＝‖Ｅ‖²／２‖Ｊ’‖² ‥（３０４），
Ｗ_k+1＝Ｗ_k−μＪ’‥（３０６）

４．適応ステップサイズＧＳＳ（ＧＳＳ−ＡＳ）
本手法をＧＳＳに適用したアルゴリズムは式（４０１）〜（４０８）により定義される。

ｙ＝Ｗ_kｘ ‥（４０１），
Ｅ_ss＝ｙｙ^H−Ｄｉａｇ［ｙｙ^H］ ‥（４０２），
Ｊ_ss’＝２Ｅ_ssＷ_tｘｘ^H‥（４０３），
μ_ss＝‖Ｅ_ss‖²／２‖Ｊ_ss’‖² ‥（４０４），
Ｅ_LC＝ＷＤ−Ｉ ‥（４０５），
Ｊ_LC’＝Ｅ_LCＤ^H ‥（４０６），
μ_LC＝‖Ｅ_LC‖²／２‖Ｊ_LC’‖² ‥（４０７），
Ｗ_k+1＝Ｗ_k−μ_LCＪ_LC’−μ_ssＪ_ss’ ‥（４０８）

５．適応ステップサイズＧＩＣＡ（ＧＩＣＡ−ＡＳ）
本手法をＧＩＣＡに適用したアルゴリズムは式（５０１）〜（５０９）により定義される。

ｙ＝Ｗ_kｘ ‥（５０１），
Ｅ_ICA＝φ（ｙ）ｙ^H−Ｄｉａｇ［φ（ｙ）ｙ^H］ ‥（５０２），
Ｊ_ICA’＝Ｅ_ICAＷ_t ‥（５０３），
Ｊ’＝［Ｅ_ICAφ~（ｙ）ｘ^H］^*‥（５０４），
μ_ICA＝‖Ｅ_ICA‖²／２ＭＡ‖Ｊ’，Ｊ_ICA’‖² ‥（５０５），
Ｅ_LC＝ＷＤ−Ｉ ‥（５０６），
Ｊ_LC’＝Ｅ_LCＤ^H ‥（５０７），
μ_LC＝‖Ｅ_LC‖²／２‖Ｊ_LC’‖² ‥（５０８），
Ｗ_k+1＝Ｗ_k−μ_LCＪ_LC’−μ_ICAＪ_ICA’ ‥（５０９）

６．適応ステップサイズＧＨＤＳＳ（ＧＨＤＳＳ−ＡＳ）
本手法をＧＨＤＳＳに適用したアルゴリズムは、ＧＳＳ−ＡＳを定義する式（４０１）〜（４０８）のうち式（４０２）で表わされるコスト関数Ｅ_ssを、ＧＩＣＡ−ＡＳを定義する式（５０２）で表わされるコスト関数Ｅ_ICAに置き換えることにより定義される。

次回の分離行列Ｗ_k+1が最適分離行列Ｗ₀に一致しているか否か次回の分離行列Ｗ_k+1と最適分離行列Ｗ₀との偏差のノルム（フロベニウスノルム）が許容値ｅｐｓ未満であるか否かが判定され（図３／Ｓ０１２）、当該判定結果が否定的である場合（図３／Ｓ０１２‥ＮＯ）、第２処理要素１２により指数ｋが「１」だけ増やされ（図３／Ｓ０１４）、前記のように各マイクロホンからの入力信号取得、コスト関数Ｊ（Ｗ）評価、更新量ΔＷ_kの調節および次回の分離行列Ｗ_k+1等の処理が再び実行される（図３／Ｓ００２，Ｓ００４，Ｓ００８，Ｓ０１０，Ｓ０１２参照）。一方、当該判定結果が肯定的な場合（図３／Ｓ０１２‥ＹＥＳ）、当該次回の分離行列Ｗが最適分離行列Ｗ₀として決定される（図３／Ｓ０１６）。そして、最適適応行列Ｗ₀および入力信号ｘに基づき、音源信号ｙ（＝Ｗ₀・ｘ）が分離される。

前記機能を発揮する音源分離システムによれば、コスト関数の次回値Ｊ（Ｗ_k+1）が今回値Ｊ（Ｗ_k）よりも最小値に近づくように今回の分離行列Ｗ_kが次回の分離行列Ｗ_k+1に更新される処理が繰り返される（図３／Ｓ００８，Ｓ０１０，Ｓ０１２，Ｓ０１４，図４矢印参照）。分離行列Ｗの更新量ΔＷ_kはコスト関数の今回値Ｊ（Ｗ_k）が大きいほど多くなり、かつ、コスト関数の今回勾配∂Ｊ（Ｗ_k）／∂Ｗが急なほど少なくなるように調節される（図４参照）。このため、コスト関数の今回値Ｊ（Ｗ_k）が収束不十分であり、かつ、コスト関数の今回勾配∂Ｊ（Ｗ_k）／∂Ｗが緩やかな「第１の状態」では収束速度の向上の観点から分離行列の更新量ΔＷ_kが適当に多くなるように調節される。また、コスト関数の今回値Ｊ（Ｗ_k）が収束不十分であり、かつ、コスト関数の今回勾配∂Ｊ（Ｗ_k）／∂Ｗが急な「第２の状態」では、第１の状態と同様に収束速度の向上の観点から分離行列の更新量ΔＷ_kが適当に多くなるように調節される一方、収束精度の向上の観点から第１の状態よりも分離行列の更新量ΔＷ_kが少なくなるように調節される。さらに、コスト関数の今回値Ｗ_kが収束十分であり、かつ、コスト関数の今回勾配∂Ｊ（Ｗ_k）／∂Ｗが急な「第３の状態」では収束精度の向上の観点から分離行列の更新量ΔＷ_kが適当に少なくなるように調節される。また、コスト関数の今回値Ｊ（Ｗ_k）が収束十分であり、かつ、コスト関数の今回勾配∂Ｊ（Ｗ_k）／∂Ｗが緩やかな「第４の状態」では、第３の状態と同様に収束精度の向上の観点から分離行列の更新量ΔＷ_kが適当に少なくなるように調節される一方、収束速度の向上の観点から第３の状態よりも分離行列の更新量ΔＷ_kが多くなるように調節される。そして、前記処理の繰り返しによって最適分離行列（コスト関数が最小値となるような分離行列）Ｗ₀が認識される。したがって、複数のマイクロホンＭ_i（図１、図２参照）のそれぞれからの入力信号ｘと最適分離行列Ｗ₀とに基づき、収束速度および収束精度の向上を図りながら音源信号ｙ（＝Ｗ₀・ｘ）が高精度で分離されうる。

音源分離システムの性能実験結果について説明する。マイクロホンＭ_iへの入力信号ｘ_i（ｔ）は、第ｊ音源からマイクロホンＭ_iまでのインパルス応答ｈ_ji（ｔ）と、第ｊ音源の音源信号ｓ_j（ｔ）と、マイクロホンＭ_iの背景雑音ｎ_i（ｔ）とに基づいて式（１８）で表わされるように合成された。

ｘ_i（ｔ）＝Σ_jｈ_ji（ｔ）ｓ_j（ｔ）＋ｎ_i（ｔ） ‥（１８）

実験に際して音源信号ｓ_j（ｔ）としてクリーンな２つの音声が用いられた。具体的には図５（ａ）に示されている第１音源信号としての男声と、図５（ｂ）に示されている第２音源信号としての女声とが用いられた。インパルス応答ｈ_ji（ｔ）としては実験室における実測値が採用された。実験室の大きさは縦４．０［ｍ］、横７．０［ｍ］、高さ３．０［ｍ］であり、残響時間は約０．２［ｓ］である。実験室の壁の一面はガラスであり、強い反射が発生する。背景雑音ｎ_i（ｔ）としては同じく実験室における図５（ｃ）に示されている実測値が採用された。図５（ｄ）には合成入力信号ｘ_i（ｔ）が示されている。図６に各信号の周波数特性が示されている。背景雑音は音源より−１０〜−２０ｄＢ程度低いレベルとなっている。分離結果は分離結果の信号ｙと、信号ｙに含まれるノイズ信号ｎ^#と、対象音源のみが存在する場合の入力信号に対する分離結果の信号ｓ^#とに基づき、式（１９）にしたがって算出されるＳＮＲに基づいて評価された。ＳＮＲが高いほど音源が高精度で分離されていることを意味している。

ＳＮＲ［ｄＢ］
＝１０Ｌｏｇ₁₀［（１／Ｔ）Σ_t=1-T｜ｙ（ｔ）｜²／｜ｎ^#（ｔ）｜²］，
ｎ^#≡ｙ−ｓ^# ‥（１９）

分離結果はさらに時間周波数領域で式（２０）にしたがって算出される平均相関係数ＣＣに基づいて評価された。平均相関係数ＣＣが低いほど音源が高精度で分離されていることを意味している。

ＣＣ［ｄＢ］
＝１０Ｌｏｇ₁₀［（１／Ｆ）Σ_f=1-FＣＣω（２πｆ）］，
ＣＣω（ω）≡｜Σ_t=1-Tｙ₁*（ｔ）・ｙ₂（ｔ）｜／（Ｙ₁（ω）Ｙ₂（ω）），
Ｙ₁（ω）≡（Σ_t=1-T｜ｙ₁（ω，ｔ）｜²）^1/2，
Ｙ₂（ω）≡（Σ_t=1-T｜ｙ₂（ω，ｔ）｜²）^1/2 ‥（２０）

分離行列Ｗは直接音成分の伝達関数を要素とする伝達関数行列Ｄを用いて式（２１）にしたがって初期化された。

Ｗ_DS＝Ｄｉａｇ［Ｄ^HＤ］^-1Ｄ^H ‥（２１）

なお、分離行列Ｗは式（２１）に代えて式（２２）または式（２３）にしたがって初期化されてもよい。

Ｗ_I＝Ｉ ‥（２２）
Ｗ_NULL＝Ｄ⁺（＝［Ｄ^HＤ］^-1Ｄ^H） ‥（２３）

Ｗ_DSは最小ノルム重み付き遅延和ＢＦの係数を初期値として使うことを意味しており、Ｗ_NULLは死角型ＢＦの係数を初期値として使うことを意味している。Ｗ_NULLはＷ_DS初期の分離度が高いが変動に対するロバスト性が低いため、残響が強い場合や幾何情報の誤差が大きい場合、Ｗ_DSのほうが高性能な初期値が与えられる。

幾何制約のない手法に関しては分離行列の各行ベクトルの大きさを正規化することでスケーリング問題が解決されている。また、パーミュテーション問題は初期値により解決されるものとみなして付加的処理は省略された。従来の幾何制約付きのＢＳＳで必要な正規化係数λはＧＳＳおよびＧＨＤＳＳにおいては前記文献１２にしたがって「‖ｘ^Hｘ‖^-2」とし、ＧＩＣＡにおいては自然勾配により正規化されているため「１」とした。また、ＤＳＳ以外の手法で利用される非線形関数φ（ｙ_i）はスケーリングパラメータη（本実験では「１」とした。）に基づき、式（２４）により定義された。

φ（ｙ_i）≡ｔａｎｈ（η｜ｙ_i｜）ｅｘｐ（ｊθ（ｙ_i）） ‥（２４）

ＤＳＳ，ＩＣＡ，ＨＤＳＳ，ＧＳＳ，ＧＩＣＡおよびＧＨＤＳＳのそれぞれのＢＳＳにおいて、ステップサイズパラメータμが「０．００１」「０．０１」および「０．１」に固定されている場合と、本発明の適応調整法（ＡＳ）が適用された場合とのそれぞれにおいて分離された音源信号のＳＮＲを図７に示し、当該音源信号のＣＣを図８に示す。また、ＧＳＳ−ＡＳにしたがって分離された波形を図９に示す。図７から明らかなようにＤＳＳにおいてＡＳによりＳＮＲが著しく改善された。ＩＣＡおよびＨＤＳＳについても平均的ＳＮＲが改善された。従来法では相関係数ＣＣが−３ｄＢ程度であるのに対して、ＡＳによればすべてのＢＳＳにおいて−７ｄＢ以上と顕著に低い。これからＡＳは無相関化において有効な手法であることがわかる。なお、ＧＳＳおよびＨＤＳＳのＳＮＲがＡＳにより顕著に改善されない原因は幾何制約の誤差であると推察される。

なお、多次元のニュートン法に代えて、ステップサイズパラメータμ、さらには、分離行列の今回値Ｗ_kから次回値Ｗ_k+1への更新量ΔＷ_kが、コスト関数の今回値Ｊ（Ｗ_k）が大きいほど多くなる一方、コスト関数の今回勾配∂Ｊ（Ｗ_k）／∂Ｗが急であるほど少なくなるように流動的に調節されるあらゆる手法が採用されてもよい。

本発明の音源分離システムの構成説明図本発明の音源分離システムのロボットへの搭載例示図本発明の音源分離システムの機能を示すフローチャートコスト関数に応じた収束速度および収束精度の向上に関する説明図（ａ）第１音源信号（男声）の波形説明図（ｂ）第２音源信号（女声）の波形説明図（ｃ）背景雑音の波形説明図（ｄ）合成入力信号の波形説明図各信号の周波数特性図音源分離実験結果としての各手法によるＳＮＲの比較説明図音源分離実験結果としての各手法によるＣＣの比較説明図ＧＳＳ−ＡＳにしたがって分離された音源信号の波形説明図コスト関数に応じた収束速度および収束精度の問題に関する説明図

符号の説明

１０‥電子制御ユニット、１１‥第１処理要素、１２‥第２処理要素、Ｍ_i‥マイクロホン

Claims

複数のマイクロホンを備え、前記複数のマイクロホンのそれぞれからの入力信号に基づいて複数の音源信号を分離する音源分離システムであって、
前記入力信号および前記音源信号の相関関係を表わす分離行列により定義され、かつ、前記音源信号の分離度を評価するためのコスト関数を認識する第１処理要素と、
前記第１処理要素により認識された前記コスト関数の次回値が今回値よりも最小値に近づくように今回の前記分離行列を更新することによって次回の前記分離行列を決定する処理を繰り返すことにより、前記コスト関数が最小値となるときの前記分離行列を最適分離行列として認識するとともに、前記分離行列の今回値から次回値への更新量を、前記コスト関数の今回値が大きいほど多くなる一方、前記コスト関数の今回勾配が急であるほど少なくなるように調節する第２処理要素とを備えていることを特徴とする音源分離システム。