JP4462617B2 - 音源分離装置,音源分離プログラム及び音源分離方法 - Google Patents
音源分離装置,音源分離プログラム及び音源分離方法 Download PDFInfo
- Publication number
- JP4462617B2 JP4462617B2 JP2004345017A JP2004345017A JP4462617B2 JP 4462617 B2 JP4462617 B2 JP 4462617B2 JP 2004345017 A JP2004345017 A JP 2004345017A JP 2004345017 A JP2004345017 A JP 2004345017A JP 4462617 B2 JP4462617 B2 JP 4462617B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- separation
- source separation
- signal
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクを通じて入力される複数の前記混合音声信号(時系列の音声信号)において,前記音源信号どうしが統計的に独立であることを利用して所定の逆混合行列を最適化し,入力された複数の前記混合音声信号に対して最適化された逆混合行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献1や非特許文献2等に詳説されている。
一方,音源分離処理としては,バイノーラル信号処理(分解)による音源分離処理も知られている。これは,人間の聴覚モデルに基づいて複数の入力音声信号に時変のゲイン調節を施して音源分離を行うものであり,比較的低い演算負荷で実現できる音源分離処理である。これについては,例えば,非特許文献3や非特許文献4等に詳説されている。
猿渡洋,「アレー信号処理を用いたブラインド音源分離の基礎」,電子情報通信学会技術報告,vol.EA2001-7,pp.49-56,April 2001. 高谷智哉他,「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」,電子情報通信学会技術報告,vol.US2002-87,EA2002-108,January 2003. R.F.Lyon, "A computational model of binaural localization and separation," In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993. N.Murata and S. Ikeda. A on-line algorithm for blind source separation on speech signals. In Proceedings of NOLTA'98, pp. 923-926,1998 梶田,小林,武田,板倉,「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」,日本音響学会誌,53巻5号,pp.337-345 (1997) 鵜飼訓史他,「周波数領域ICAと時間領域ICAを統合したSIMOモデル信号のブラインド抽出法の評価」,電子情報通信学会技術報告,vol.EA2004-23, pp.37-42,June 2004
また,バイノーラル信号処理による音源分離処理は,処理が簡易で演算負荷が低い反面,音源の位置に対しての頑健性が悪い等,一般に音源分離性能は劣るという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られる音源分離装置,音源分離プログラム及び音源分離方法を提供することにある。
このような2段階の音源分離処理により,後述するように,ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られることがわかった。また,単に2段階の音源分離処理を行うだけでは必ずしも有効ではないが,1段階目のICA法に基づくBBS方式の音源分離処理で得られた前記SIMO信号(single-input multiple-output,音源信号ごとに得られる複数の分離信号(同定信号)群)の単位でバイナリーマスキング処理を施しているため,高い音源分離性能が得られる。
なお,前記周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理とは,後述するように,時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換処理と,その周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した分離信号(第1の分離信号)を生成するFDICA音源分離処理と,前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づいて前記FDICA音源分離処理により分離された分離信号(前記第1の分離信号)を除く残りのものを減算した分離信号(第2の分離信号)を生成する減算処理と,前記第1の分離信号及び前記第2の分離信号に基づく所定の評価関数を用いた逐次計算を行うことによって前記FDICA音源分離処理で用いる前記分離行列を計算する分離行列計算処理とを行うものである。これにより,時間領域の混合音声信号を時間領域のままで処理する時間領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理に比べ,処理負荷を大幅に軽減できる。
また,それらよりも演算負荷は高いが,第1段階の音源分離処理として,時間領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行うことも考えられる。この場合,その第1段階の音源分離処理に用いる分離行列の初期値(初期行列)を,周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理や,周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理により,複数の前記混合音声信号からSIMO信号を分離生成する過程で算出される分離行列に基づいて設定する(初期分離行列設定)ことが考えられる。これにより,さらに音源分離性能が向上することがわかった。
一方,前記バイナリーマスキング処理は,製品組み込み用として実用的なプロセッサによってリアルタイム処理が可能であるとともに,音響環境が変化しても比較的安定した音源分離性能が得られるが,その音源分離性能は,前記分離行列の学習が十分なされたICA法に基づくBSS方式による音源分離処理に比べるとはるかに劣る。
しかしながら,以上示した本発明に係る音源分離処理によれば,以下のような構成により,音源分離性能を確保しつつリアルタイム処理が可能となる。
例えば,第1段階目の音源分離処理における分離行列の逐次計算回数を制限することが考えられる。
即ち,第1段階目の音源分離処理(第1の音源分離手段の処理)において,時系列に入力される前記混合音声信号を予め定められた周期で区分された区間信号ごとに,所定の分離行列に基づく分離処理を順次実行して前記SIMO信号を生成するとともに,その分離処理により生成した前記区間信号の時間帯に対応する全ての時間帯の前記SIMO信号に基づいて,その後に(以降に)用いる前記分離行列を求める逐次計算(学習計算)を行うものであって,その逐次計算の回数を前記予め定められた周期の時間内で実行可能な回数に制限することが考えられる。
このように,第1段階目のICA法に基づくBSS方式による音源分離処理において,前記分離行列を求める逐次計算(学習計算)の回数を,リアルタイム処理が可能な範囲に制限すると学習が不十分となるため,得られる前記SIMO信号は,十分な音源分離(同定)がなされた信号にならないことが多い。しかしながら,それによって得られた前記SIMO信号にリアルタイム処理が可能な第2段階目の前記バイナリーマスキング処理をさらに施すことによって音源分離性能が向上するので,音源分離性能を確保しつつリアルタイム処理が可能となる。
即ち,第1段階目の音源分離処理(第1の音源分離手段の処理)において,時系列に入力される前記混合音声信号を予め定められた周期で区分された区間信号ごとに,所定の分離行列に基づく分離処理を順次実行して前記SIMO信号を生成するとともに,その分離処理により生成した前記区間信号の時間帯のうちの先頭側の一部の時間帯に対応する前記SIMO信号に基づいて,以降に用いる前記分離行列を求める逐次計算を前記予め定められた周期の時間内で実行することが考えられる。
このように,第1段階目のICA法に基づくBSS方式による音源分離処理において,前記分離行列を求める逐次計算(学習計算)に用いる前記SIMO信号を先頭側の一部の時間帯の信号に限定することにより,十分な回数の逐次計算(学習)を行ってもリアルタイム処理が可能にはなる(前記予め定められた周期の時間内で十分な学習が可能となる)が,学習に用いるサンプル数が少ないため,やはり得られる前記SIMO信号は,十分な音源分離(同定)がなされた信号にならないことが多い。しかしながら,それによって得られた前記SIMO信号にリアルタイム処理が可能な第2段階目の前記バイナリーマスキング処理をさらに施すことによって音源分離性能が向上するので,音源分離性能を確保しつつリアルタイム処理が可能となる。
さらに,第1段階の音源分離処理として,時間領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行う場合に,それに用いる分離行列の初期値(初期行列)を,周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理や,周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理によって算出される分離行列に基づいて設定することにより,さらに音源分離性能が向上する。
また,第1段階の音源分離処理における分離行列の逐次計算回数を制限したり,その逐次計算に用いるSIMO信号のサンプル数を減らすことにより,音源分離性能を確保しつつリアルタイム処理が可能となる。
ここに,図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図,図2は本発明の第1実施例に係る音源分離装置X1の概略構成を表すブロック図,図3はTDICA法に基づくBSS方式の音源分離処理を行う従来の音源分離装置Z1の概略構成を表すブロック図,図4はTD−SIMO−ICA法に基づく音源分離処理を行う従来の音源分離装置Z2の概略構成を表すブロック図,図5はFDICA法に基づく音源分離処理を行う従来の音源分離装置Z3の概略構成を表すブロック図,図6はFD−SIMO−ICA法に基づく音源分離処理を行う音源分離装置Z4の概略構成を表すブロック図,図7はFDICA−PB法に基づく音源分離処理を行う従来の音源分離装置Z5の概略構成を表すブロック図,図8はバイナリーマスキング処理を説明するための図,図9は音源分離装置X1によるバイナリーマスキング処理の前後の信号における周波数成分ごとの信号レベル分布の一例(音源信号各々の周波数成分に重複がない場合)を模式的に表した図,図10は音源分離装置X1によるバイナリーマスキング処理の前後の信号における周波数成分ごとの信号レベル分布の一例(音源信号各々の周波数成分に重複がある場合)を模式的に表した図,図11は音源分離装置X1を用いた音源分離性能評価の実験条件を表す図,図12は従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件Aの下で音源分離を行ったときの音源分離性能を表すグラフ,図13は従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件Bの下で音源分離を行ったときの音源分離性能を表すグラフ,図14は本発明の第2実施例に係る音源分離装置における音源分離処理手順を表すフローチャート,図15は従来の音源分離装置と本発明の第1実施例に係る音源分離装置と本発明の第2実施例に係る音源分離装置との各々により音源分離を行ったときの音源分離性能を表すグラフ,図16は本発明の第3実施例に係る音源分離装置の処理を説明するためのタイムチャート,図17は本発明の第4実施例に係る音源分離装置の処理を説明するためのタイムチャートである。
なお,以下に示す音源分離処理或いはその処理を行う装置等は,いずれも所定の音響空間に複数の音源と複数のマイクロホン(音声入力手段)とが存在する状態で,そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号(以下,音源信号という)が重畳された複数の混合音声信号から,1以上の音源信号を分離(同定)した分離信号を生成する音源分離処理或いはその処理を行う装置等に関するものである。
音源分離装置Zは,分離フィルタ処理部11により,2つの音源1,2からの音源信号S1(t),S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)について,分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。
図3には,2つの音源1,2からの音源信号S1(t),S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)に基づいて音源分離を行う例について示しているが,2チャンネル以上であっても同様である。ICA法に基づくBSS方式による音源分離の場合,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111,112各々で集音された各混合音声信号x1(t),x2(t)には,複数音源からの音源信号が重畳されている。以下,各混合音声信号x1(t),x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され,次の(1)式のように表される。
ここで,当該音源分離処理に用いる分離行列をW(z)とすれば,分離信号(即ち,同定信号)y(t)は,次の(2)式で表される。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。
このようなICA法に基づくBSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から,歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで,(2)式は,次の(3)式のように書き換えて表現できる。
TD−SIMO−ICA法による音源分離の特徴は,図4中に示すFidelity Controller12により,マイクロホン入力信号である各混合音声信号xi(t)から,前記分離フィルタ処理部11による音源分離処理(TDICA法に基づく音源分離処理)によって分離(同定)された分離信号(同定信号)を減算し,その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタW(Z)の更新(逐次計算)を行う点である。ここで,混合音声信号xi(t)各々から減算する分離信号(同定信号)は,各々異なる1つの分離信号(当該混合音声信号に基づく音源分離処理により得られた分離信号)を除く残り全ての分離信号である。これにより,チャンネル(マイクロホン)ごとに2つの分離信号(同定信号)が得られることになり,また,音源信号Si(t)ごとに2つの分離信号が得られることになる。図4の例では,分離信号y11(t)とy12(t),分離信号y22(t)とy21(t)が,各々同一の音源信号に対応する分離信号(同定信号)である。なお,分離信号yの添字(数字)において,前段の数字は音源の識別番号を,後段の数字はマイクロホン(即ち,チャンネル)の識別番号を表している(以下同様)。
このように,ある音響空間に複数の音源と複数の音声入力手段(マイクロホン)とが存在する状態で,その音声入力手段各々を通じて入力される音源各々からの音源信号(個別音声信号)が重畳された複数の混合音声信号から,1以上の音源信号を分離(同定)した場合に,音源信号ごとに得られる複数の分離信号(同定信号)群をSIMO(single-input multiple-output)信号という。図4の例では,分離信号y11(t)とy12(t)の組み合わせ,分離信号y22(t)とy21(t)の組み合わせの各々がSIMO信号である。
ここで,分離フィルタ(分離行列)W(Z)を表現し直したW(n)の更新式は,次の(5)式で表される。
FDICA法では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(6)式のように表すことができる。
FD−SIMO−ICA法では,前述のTD−SIMO−ICA法(図4)と同様に,Fidelity Controller12により,各混合音声信号xi(t)に対してST−DFT処理を施した信号各々から,FDICA法(図5)に基づく音源分離処理によって分離(同定)された分離信号(同定信号)を減算し,その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタW(f)の更新(逐次計算)を行うものである。
このFD−SIMO−ICA法に基づく音源分離装置Z4では,時間領域における複数の前記混合音声信号x1(t),x2(t)に対して前記ST−DFT処理部13により短時間離散フーリエ変換処理を施して,周波数領域における複数の混合音声信号x1(f),x2(f)へ変換する(短時間離散フーリエ変換手段の一例)。
次に,変換後の周波数領域における複数の混合音声信号x1(f),x2(f)に対し,前記分離フィルタ処理部11fによって所定の分離行列W(f)に基づく分離処理(フィルタ処理)を施すことにより,前記混合音声信号ごとに前記音源信号S1(t),S2(t)のいずれかに対応した第1の分離信号y11(f),y22(f)を生成する(FDICA音源分離手段の一例)。
さらに,前記周波数領域における複数の混合音声信号x1(f),x2(f)各々から当該混合音声信号に基づき前記分離フィルタ処理部11fにより分離された前記第1の分離信号(x1(f)に基づき分離されたy11(f),x2(f)に基づき分離されたy22(f))を除く残りの前記第1の分離信号を,前記Fidelity Controller12(減算手段の一例)により減算した第2の分離信号y12(f),y21(f)を生成する。
一方,不図示の分離行列計算部により,前記第1の分離信号y11(f),x2(f)及び前記第2の分離信号y12(f),y21(f)の両方に基づく逐次計算を行い,前記分離フィルタ処理部11f(FDICA音源分離手段)で用いられる前記分離行列W(f)を計算する(分離行列計算手段の一例)。
これにより,チャンネル(マイクロホン)ごとに2つの分離信号(同定信号)が得られることになり,また,音源信号Si(t)ごとに2つ以上の分離信号(SIMO信号)が得られることになる。図6の例では,分離信号y11(f)とy12(f)の組み合わせ,及び分離信号y22(f)とy21(f)の組み合わせの各々がSIMO信号である。
ここで,前記分離行列計算部は,前記第1の分離信号及び前記第2の分離信号に基づいて,次の(8)式で表される分離フィルタ(分離行列)W(f)の更新式により前記分離行列W(f)を計算する。
FDICA−PB法では,各混合音声信号xi(t)から前述のFDICA法に基づく音源分離処理(図5)により得られた分離信号(同定信号)yi(f)各々について,逆行列演算部14によって分離行列W(f)の逆行列W-1(f)の演算処理を施すことにより,最終的な分離信号(音源信号の同定信号)を得るものである。ここで,逆行列W-1(f)による処理対象の信号のうち,各分離信号yi(f)以外の残りの信号成分は,0(ゼロ)入力として設定する。
これにより,音源信号Si(t)各々に対応したチャンネル数分(複数)の分離信号(同定信号)であるSIMO信号が得られる。図7において,分離信号y11(t)とy12(t),分離信号y21(t)とy22(t)が,各々同一の音源信号に対応する分離信号(同定信号)であり,各逆行列W-1(f)による処理後の信号である分離信号y11(f)とy12(f)の組み合わせ,分離信号y21(f)とy22(f)の組み合わせの各々がSIMO信号である。
音源分離装置Xは,ある音響空間に複数の音源1,2と複数のマイクロホン111,112(音声入力手段)とが存在する状態で,そのマイクロホン111,112各々を通じて入力される音源1,2各々からの音源信号(個別の音声信号)が重畳された複数の混合音声信号Xi(t)から,1以上の音源信号(個別音声信号)を分離(同定)した分離信号(同定信号)yを生成するものである。
そして,音源分離装置Xの特徴は,複数の混合音声信号Xi(t)から独立成分分析(ICA)法に基づくブラインド音源分離(BSS)方式の音源分離処理により,1以上の音源信号Si(t)を分離(同定)したSIMO信号(1つの音源信号に対応する複数の分離信号)を分離生成するSIMO−ICA処理部10(第1の音源分離手段)と,そのSIMO−ICA処理部10により生成されたSIMO信号に対してバイナリーマスキング処理を施すことによって得られる信号を,1以上の音源信号について分離(同定)した分離信号として生成するバイノーラル信号処理部20(第2の音源分離手段の一例)と,の2段構成(直列接続構成)を備えている点にある。なお,2段階目の信号処理部を「バイノーラル信号処理部20」としているが,これをもって2チャンネル分の信号分離処理に限定する趣旨ではなく,3チャンネル分以上のバイナリーマスキング処理を含む趣旨である。
ここで,前記SIMO−ICA処理部10(第1の音源分離手段)としては,図4に示したTD−SIMO−ICA法に基づく音源分離処理を行う前記音源分離装置Z2や,図6に示したFD−SIMO−ICA法に基づく音源分離処理を行うFD−SIMO−ICA法に基づく音源分離処理を行う前記音源分離装置Z4,或いは図7に示したFDICA−PB法に基づく音源分離処理を行う前記音源分離装置Z5等を採用することが考えられる。
但し,前記SIMO−ICA処理部10として,前記TD−SIMO−ICA法に基づく前記音源分離装置Z2を採用する場合や,FD−SIMO−ICA法若しくはFDICA−PB法に基づく音源分離処理後の信号がIDFT処理により時間領域の信号に変換されている場合には,そのSIMO−ICA処理部10(音源分離装置Z2等)により得られる分離信号(同定信号)について,バイナリーマスキング処理を施す前に,離散フーリエ変換処理(TFD処理)を施す手段を設ける。これにより,前記バイノーラル信号処理部20への入力信号を,時間領域の離散信号から周波数領域の離散信号へ変換する。
さらに,図1には,チャンネル数が2つ(マイクロホンの数が2つ)である例について示したが,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であれば,3チャンネル以上であっても同様の構成により実現できる。
このような構成により,後述するように,ノイズの影響がある等の実環境下においても高い音源分離性能が得られる。
ここで,各構成要素10,20は,それぞれDSP(Digital Signal Processor)又はCPU及びその周辺装置(ROM,RAM等)と,そのDSP若しくはCPUにより実行されるプログラムとにより構成されたものや,或いは,1つのCPU及びその周辺装置を有するコンピュータにより,各構成要素10,20が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また,所定のコンピュータに各構成要素10,20の処理を実行させる音源分離プログラムとして提供することも考えられる。
図8は,バイノーラル信号処理の考え方を起源とする信号処理の一例であって,比較的処理がシンプルなバイナリーマスキング処理を説明するための図である。
バイナリーマスキング処理を実行する装置やプログラムは,複数の入力信号(本発明においてはSIMO信号を構成する複数の音声信号)の比較処理を行う比較部31と,その比較部31による比較処理の結果に基づいて入力信号にゲイン調節を施して信号分離(音源分離)を行う分離部32とを有している。
バイナリーマスキング処理では,まず,前記比較部31において,入力信号(本発明においてはSIMO信号)各々について周波数成分ごとの信号レベル(振幅)分布AL,ARを検出し,同じ周波数成分における信号レベルの大小関係を判別する。
図8において,BL,BRは,入力信号各々における周波数成分ごとの信号レベル分布と,その信号レベルごとに他方の対応する信号レベルに対する大小関係(○,×)とを表した図である。図中,「○」印は,前記比較分31による判別の結果,他方の対応する信号レベルよりも当該信号の信号レベルの方が大きかったことを表し,「×」印は同じく当該信号レベルの方が小さかったことを表している。
次に,前記分離部32により,前記分離部31による信号比較の結果(大小判別の結果)に基づいて,入力信号各々にゲイン乗算(ゲイン調節)を施すことにより分離信号(同定信号)を生成する。この分離部32における最も簡単な処理の例としては,入力信号について,周波数成分ごとに,信号レベルが最も大きいと判別された入力信号の周波数成分にゲイン1を乗算し,その他の入力信号全ての同じ周波数成分にゲイン0(ゼロ)を乗算すること等が考えられる。
これにより,入力信号と同数の分離信号(同定信号)CL,CRが得られる。この分離信号CL,CRのうち,一方は,入力信号(前記SIMO−ICA処理部10による分離信号(同定信号))の同定の対象となった音源信号に相当するものとなり,他方は入力信号に混在するノイズ(同定対象の音源信号以外の音源信号)に相当するものとなる。従って,前記SIMO−ICA処理部10と前記バイノーラル信号処理部20とによる2段処理(直列的処理)によって,ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られる。その具体的内容については図9を用いて後述する。
なお,図8には,2つの入力信号に基づくバイナリーマスキング処理の例を示すが,3つ以上の入力信号に基づく処理であっても同様である。
前記音源分離装置Xにおける前記SIMO−ICA処理部10として,図6に示したFD−SIMO−ICA法に基づく音源分離処理を行うFD−SIMO−ICA法に基づく音源分離処理を行う前記音源分離装置Z4,或いは図7に示したFDICA−PB法に基づく音源分離処理を行う前記音源分離装置Z5等を採用したものを,以下,第1実施例とする。
これにより,畳み込み演算が必要なために演算負荷が高いTD−SIMO−ICA法に基づく音源分離処理(図4)を採用するよりも,比較的演算負荷が抑えられる。
図2は,そのような本発明の第1実施例に係る音源分離装置X1の概略構成を表すブロック図であり,前記音源分離装置Xにおける前記SIMO−ICA処理部10として,図6に示したFD−SIMO−ICA法に基づく音源分離処理を行う前記音源分離装置Z4を採用した場合の例である。
図2に示す音源分離装置X1では,前記SIMO−ICA処理部10の入力チャンネル(マイクロホン)ごとに得られる複数の(2つの)分離信号(同定信号)の組み合わせからなるSIMO信号各々について,前記バイノーラル信号処理部20による信号分離が行われる。図2の例では,分離信号y11(f)とy12(f)の組み合わせと,分離信号y22(f)とy21(f)の組み合わせとの各々からなるSIMO信号各々について,前記バイノーラル信号処理部20による信号分離が行われ,分離信号(音源信号の同定信号)y'11(t),y'12(t),y'22(t),y'21(t)が得られる。
ここで,前記SIMO−ICA処理部10として,図7に示したFDICA−PB法に基づく音源分離処理を行う前記音源分離装置Z5を採用する場合は,分離信号y11(f)とy12(f)の組み合わせと,分離信号y21(f)とy22(f)の組み合わせとの各々からなるSIMO信号各々について前記バイノーラル信号処理部20による信号分離が行われるよう構成する。
また,本第1実施例に係る音源分離装置X1では,前記SIMO−ICA処理部10で用いる分離行列W(f)の初期値は,予め定められた値が設定される。
なお,前記SIMO−ICA処理部10として,図4に示したTD−SIMO−ICA法に基づく音源分離処理を行う前記音源分離装置Z2を採用する場合は,分離信号y11(t)とy21(t)の組み合わせと,分離信号y22(t)とy12(t)の組み合わせとの各々からなるSIMO信号各々について前記バイノーラル信号処理部20による信号処理(信号分離)が行われるよう構成する。
前記バイノーラル信号処理部20への入力信号の組み合わせは複数パターンが考えられる。例えば,図2に示す音源分離装置X1の場合,前記バイノーラル信号処理部20への入力信号の組み合わせは,図2に示す組み合わせの他,y11(f)とy22(f)との組み合わせ,及びy12(f)とy21(f)との組み合わせとすることも考えられる。
ここで,図9及び図10は,前記音源分離装置X1の前記バイノーラル信号処理部20によるバイナリーマスキング処理の前後の信号(入力信号と出力信号)における周波数成分ごとの信号レベル(振幅)分布の一例をバーグラフにより模式的に表したものである。
また,図9は音源信号各々の周波数成分に重複がない場合,図10は同周波数成分に重複がある場合の例を表す。さらに,図9(a)及び図10(a)は前記バイノーラル信号処理部20への入力信号を,同一の音源に対応する分離信号y11(f)とy12(f)の組み合わせ(SIMO信号)とした場合(以下,「パターンa」という),図9(b)及び図10(b)は同入力信号を,異なる音源に対応する分離信号y11(f)とy22(f)の組み合わせとした場合(各分離信号の同定の対象となった音源信号が異なる場合,以下,「パターンb」という)の例を表す。
また,図9及び図10において,分離信号(同定信号)y11(f)及びy12(f)の同定の対象となった音源信号(以下,第1音源信号という)の周波数成分に対応する部分のバーグラフは網掛け模様により,それ以外の音源信号(ここでは,分離信号y22(f)の同定の対象となった音源信号,以下,第2音源信号という)の周波数成分に対応する部分のバーグラフは斜線模様により各々表している。
このようなノイズを含む入力信号(分離信号)に対してバイナリーマスキング処理を施した場合,図9(a),(b)の出力信号のレベル分布(右側のバーグラフ)に示すように,音源信号各々の周波数成分に重複がない場合には,入力信号の組み合わせにかかわらず,前記第1音源信号と前記第2音源信号とが良好に分離される。
このように各音源信号の周波数成分に重複がない場合,前記バイノーラル信号処理部20への両入力信号各々において,同定の対象となった音源信号の周波数成分における信号レベルが高く,その他の音源信号の周波数成分における信号レベルが低くなるというレベル差が明確となり,周波数成分ごとの信号レベルに応じて信号分離を行うバイナリーマスキング処理によって信号が確実に分離されやすい。その結果,入力信号の組み合わせにかかわらず,高い分離性能が得られる。
前記「パターンa」では,前記バイノーラル信号処理部20への両入力信号は,同一の音源信号を,各々異なるマイクロホンにより収録された音声信号に基づいて分離(同定)した信号であり,それらの信号レベルは,同定対象の音源からマイクロホンまでの距離に応じたレベル差を有している。そのため,バイナリーマスキング処理において,そのレベル差により信号が確実に分離されやすい。このことが,「パターンa」では,音源信号各々の周波数成分に重複があっても高い分離性能が得られる理由として考えられる。
さらに,「パターンa」では,両入力信号ともに同一の音源信号の成分が支配的である(即ち,混在する他の音源信号の成分のレベルは小さい)ため,比較的信号レベルの低い同定対象外の音源信号の成分(ノイズ成分)が信号分離に悪影響を及ぼしにくいことも,高い分離性能が得られる理由の1つと考えられる。
このような欠損は,その周波数成分について,同定対象の音源信号のレベルよりも,他の音源信号のレベルの方が高いために生じる現象である。
一般に,現実の音響空間(音環境)では,同定対象とする音源信号とその他の音源信号との間で,周波数成分(周波数帯域)が全く重ならないということはほとんどなく,複数の音源信号間で多少なりとも周波数成分が重複する。
しかし,前記SIMO−ICA処理部10による第1段階目の分離信号を,前記「パターンa」の組み合わせの信号(SIMO信号)の単位で前記バイノーラル信号処理部20に入力させ,第2段階目のバイノーラル信号処理を行えば,多様な環境下においても高い音源分離性能が得られる。また,このことは,前記SIMO−ICA処理部10により得られる3チャンネル以上のSIMO信号(第1段階面の分離信号)についてバイナリーマスキング処理を行った場合でも同様である。
図11は,前記音源分離装置X1を用いた音源分離性能評価の実験条件を説明するための図であり,実験条件は,図11に示す2条件(実験条件Aと実験条件B)である。
実験条件Aは,所定の2箇所に存在する2名の話者を音源とし,その音源(話者)各々からの音声信号(話者の声)を相互に反対方向に向けた2つのマイクロホンで入力し,入力された2チャンネルの混合音声信号から,各話者の音声信号(音源信号)を分離する性能を評価する実験条件である。ここで,音源となる話者は,2名の男性及び2名の女性(計4名)の中から選択した2名の順列である12通りの条件下で実験を行い(同じ2名の話者を音源とする場合でも,その2名の配置が入れ替われば異なる条件であるとした),音源分離性能評価は各組み合わせの下での評価値の平均値により行った。
また,実験条件Bは,1名の話者と1つの定常雑音であるHSLN(Human Speech-like Noise)とを音源とし,その2音源各々からの音声信号を相互に反対方向に向けた2つのマイクロホンで入力し,入力された2チャンネルの混合音声信号から,話者の音声信号とHSLNの音声信号(ノイズ信号)とを分離する性能を評価する実験条件である。ここで,HSLNについては,特許文献6に詳述されているのでここでは説明を省略する。また,音源となる話者は,2名の男性及び2名の女性(計4名)の中から選択した1名であり,その1名の話者とHSLNの両音源の配置が入れ替われば異なる条件として8通りの条件下で実験を行い,音源分離性能評価は各組み合わせの下での評価値の平均値により行った。
また,いずれの実験条件においても,残響時間は200ms,音源(話者又はHSLN)から最寄りのマイクロホンまでの距離は1.5mとし,2つのマイクロホンは,ほぼ人間の両耳の位置関係に相当する位置関係で配置した。
さらに,上方から見て,相互に反対方向に向けられた両マイクロホンの向きに対する直角方向を基準方向R0としたときに,この基準方向R0と一方の音源(話者)から最寄りのマイクロホンに向かう方向R1とのなす角度θ1,及び前記基準方向R0と他方の音源(話者又はHSLN)から最寄りのマイクロホンに向かう方向R2とのなす角度θ2を,3パターンの条件(θ1,θ2)=(−60°,60°),(−60°,0°),(0°,60°)となるように設定(機器配置)し,その各々の条件下で実験を行った。
ここで,音源分離性能の評価値(グラフの縦軸)として,NRR(Noise Reduction Rate)を用いた。このNRRは,雑音除去の程度を表す指標であり,単位は(dB)である。NRRの定義は,例えば非特許文献2の(21)式等に示されている。
また,図12における(a1),(a2),(a3)の各グラフは,前述の実験条件Aの下での評価結果を表し,図13における(b1),(b2),(b3)の各グラフは,前述の実験条件Bの下での評価結果を表す。
さらに,図12及び図13における(a1)と(b1),(a2)と(b2),(a3)と(b3)のグラフは,各々(θ1,θ2)の設定が,(−60°,60°),(−60°,0°),(0°,60°)の場合の評価結果を表す。
また,各バーグラフに対応する図中の表記P1〜P7は,以下の場合の処理結果を表す。
P1(BM)と表しているものは,バイナリーマスキング処理を行った場合の結果。
P2(FD−SIMO−ICA)と表しているものは,図6に示したFD−SIMO−ICA法に基づく音源分離処理を行った場合の結果。
P3(FD−SIMO−ICA+BM(1))と表しているものは,図6に示したFD−SIMO−ICA法に基づく音源分離処理により得られた分離信号をSIMO信号の単位ではない単位(y11とy22,或いはy12とy21の組み合わせ)で前述のバイナリーマスキング処理を施した場合の結果。
P4(FD−SIMO−ICA+BM(2))と表しているものは,図6に示したFD−SIMO−ICA法に基づく音源分離処理により得られた分離信号をSIMO信号の単位(y11とy12,或いはy21とy22の組み合わせ)で前述のバイナリーマスキング処理を施す音源分離処理(本発明に係る音源分離処理の第1例,即ち,前記音源分離装置X1による音源分離処理)を行った場合の結果。
P5(FDICA−PB)と表しているものは,図7に示したFDICA−PB法に基づく音源分離処理(従来の音源分離処理の例)を行った場合の結果。
P6(FDICA−PB+BM(2))と表しているものは,図7に示したFDICA−PB法に基づく音源分離処理により得られた分離信号をSIMO信号の単位ではない単位で前述のバイナリーマスキング処理を施した場合の結果。
P7(FDICA−PB+BM(2))と表しているものは,図7に示したFDICA−PB法に基づく音源分離処理により得られた分離信号をSIMO信号の単位でバイナリーマスキング処理を施す音源分離処理(本発明に係る音源分離処理の第2例)を行った場合の結果。
図12及び図13に示すグラフから,従来のICA法に基づくBSS方式の音源分離処理(「FD−SIMO−ICA」又は「FDICA−PB」)を単独で行う場合よりも,さらに,その処理後の信号についてSIMO信号の単位ではない単位でバイナリーマスキング処理を施す場合よりも,ICA法に基づくBSS方式の音源分離処理(「FD−SIMO−ICA」又は「FDICA−PB」)の後の信号をSIMO信号の単位でさらにバイナリーマスキング処理を施す音源分離処理(本発明に係る音源分離処理)の方が,全てのケース(実験条件)においてNRR値が大きく,音源分離性能が優れていることがわかる。
次に,本発明の第2実施例に係る音源分離装置X2(不図示)について説明する。
音源分離装置X2は,前記音源分離装置Xにおける前記SIMO−ICA処理部10(第1の音源分離手段の一例)として,図4に示したTD−SIMO−ICA法に基づくブラインド音源分離方式の音源分離処理を行う音源分離装置Z2を採用するとともに,その音源分離処理に用いる分離行列W(t)の初期値(初期行列)を設定する手段として,FD−SIMO−ICA法(周波数領域SIMO独立成分分析法)に基づくブラインド音源分離方式の音源分離装置Z4(図6),或いはFDICA−PB法(周波数領域独立成分分析法と逆射影法との連結手法)に基づくブラインド音源分離方式の音源分離装置Z5(図7)を備え,その音源分離装置Z4又はZ5により複数の前記混合音声信号からSIMO信号を分離生成する過程で算出される(逐次演算による学習がなされる)分離行列W(f)に基づいて,分離行列W(t)の初期値(初期行列)を設定する(初期分離行列設定)ものである。
図14は,本発明の第2実施例に係る音源分離装置X2における音源分離処理手順を表すフローチャートである。以下,S1,S2,…は,処理手順(ステップ)の識別符号を表す。
音源分離装置X2では,まず,FD−SIMO−ICA法に基づく前記音源分離装置Z4(図6),或いはFDICA−PB法に基づく前記音源分離装置Z5(図7)により,複数の前記混合音声信号からSIMO信号を分離生成する処理を行うことにより,その過程で算出される(逐次演算による学習がなされる)分離行列W(f)を求める(S1)。
具体的には,前記音源分離装置Z4を用いる場合は前述の(8)式に基づいて,前記音源分離装置Z5を用いる場合は前述の(7)式に基づいて,所定回数だけ(例えば,予め定められた回数だけ,若しくは予め定められた許容時間の範囲内で実行できる最大の回数だけ等),或いは所定の評価関数による評価値が予め定められた許容範囲内となるまで逐次演算を行うことにより,分離行列W(f)を学習させる。
次に,IDFT処理を行う所定のIDFT処理部(不図示)により,ステップS1で求められた(学習された)分離行列W(f)にIDFT処理を施すことによって,周波数領域の行列W(f)から時間領域の行列W(t)に変換するとともに,分離行列W(t)を,TD−SIMO−ICA法に基づく前記音源分離装置Z2で用いる分離行列の初期値(初期分離行列)として設定する(S2)。
そして,TD−SIMO−ICA法に基づく音源分離装置Z2により,ステップS2で設定された初期分離行列を音源分離処理に用いる分離行列W(t)の初期値として,その分離行列W(t)を順次更新(学習)しながら,複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO信号を分離生成する(S3)。
なお,FDICA−PB法により算出(学習)された分離行列を初期行列としてTD−SIMO−ICA法に基づく音源分離処理を行う手法は,非特許文献7等に示されている。
また,前記IDFT処理部も他の構成要素10,20と同様に,DSP等や所定のコンピュータにその処理を実行させるプログラム等として構成される。
また,図14における(a1−1)及び(a1−2)の実験結果は,各々図12における(a1)と同一の実験条件下(音源分離処理の内容を除く)での実験結果である。
また,図15の各バーグラフにおいて,P2,P4,P5及びP7と表しているものの各音源分離処理の内容は,各々図12に示した同表記の音源分離処理の内容と同じである。
また,図15のバーグラフにおいて,P8(FD−SIMO−ICA+TD−SIMO−ICA+BM)と表しているものは,FD−SIMO−ICA法に基づく音源分離処理(図6)によって算出された(逐次演算による学習がなされた)分離行列W(f)に基づいて分離行列W(t)の初期値を設定し,その初期値を用いたTD−SIMO−ICA法に基づく音源分離処理(図4)の後にさらにSIMO信号の単位でバイナリーマスキング処理を施す音源分離処理を行った場合を表す。
同様に,P9(FDICA−PB+TD−SIMO−ICA+BM)と表しているものは,FDICA−PB法に基づく音源分離処理(図7)によって算出された(逐次演算による学習がなされた)分離行列W(f)に基づいて分離行列W(t)の初期値を設定し,その初期値を用いたTD−SIMO−ICA法に基づく音源分離処理(図4)の後にさらにSIMO信号の単位でバイナリーマスキング処理を施す音源分離処理を行った場合を表す。
但し,TD−SIMO−ICA法に基づく音源分離処理は,畳み込み演算の計算量が膨大である(演算負荷が高い)ため,応答性(処理速度)を重視する場合には適さない。従って,TD−SIMO−ICA法を採用するか否かは,用途(目的)により応じて選択することが実用的である。
一方,バイノーラル信号処理による音源分離は,一般に演算量は少なくリアルタイム処理に適している反面,音源分離性能はICA法に基づくBSS方式による音源分離処理に比べて劣る。
これに対し,前述したように,本発明によれば,例えば以下に示す本発明の第3実施例或いは第4実施例に係る音源分離装置により,音源信号の分離性能を確保しつつリアルタイム処理が可能な音源分離処理装置を構成できるという効果も奏する。
(第3実施例)
以下,図16に示すタイムチャートを用いて,本発明の第3実施例に係る音源分離装置の処理について説明する。
ここで,図16は,本発明の第3実施例に係る音源分離装置の第1段階目の音源分離処理であるICA法に基づくBSS方式の音源分離処理(以下,ICA−BSS音源分離処理という)について,分離行列の計算と分離処理との各々に用いる混合音声信号の区分をタイムチャート的に表したものである。
この第3実施例は,第1段階目の音源分離処理(ICA−BSS音源分離処理)における分離行列の逐次計算回数を制限するものである。
この第3実施例では,前記ICA−BSS音源分離処理における分離行列を用いた音源分離処理を,時系列に入力される前記混合音声信号を予め定められた周期で区分された信号(以下,Frameという)の単位で実行する。
図16(a−1)は,分離行列の計算(学習)と,その分離行列に基づくフィルタ処理により分離信号を生成(同定)する処理とを,異なるFrameを用いて実行する場合(以下,処理(a−1)という)を表し,図16(b−1)は,それらを同一のFrameを用いて実行する場合(以下,処理(b−1)という)を表す。
前記処理(a−1)では,図16(a−1)に示すように,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算(学習)を行い,それにより求められた分離行列を用いて時刻Ti+1〜Ti+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理(フィルタ処理)を実行する。即ち,ある1期間の混合音声信号に基づき計算された分離行列を用いて次の1期間の混合音声信号の分離処理(同定処理)を行う。このとき,ある1期間のFrame(i)を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いれば,逐次計算(学習)の収束が早まり好適である。
以上示したように,前記処理(a−1)も,前記処理(b−1)も,第1段階目の前記ICA−BSS音源分離処理(第1の音源分離手段の処理)において,時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame(区間信号の一例)ごとに,所定の分離行列に基づく分離処理を順次実行して前記SIMO信号を生成するものであり,また,その分離処理により生成した全ての時間帯(Frame(区間信号)の時間帯に対応する全ての時間帯)の前記SIMO信号に基づいて,以降に用いる前記分離行列を求める逐次計算(学習計算)を行うものである。
しかしながら,現在の計算機の処理能力では,演算負荷が比較的少ないFDICA音源分離処理であっても,この1つのFrameの時間範囲内(Ti〜Ti+1)に,十分な音源分離性能を確保できるだけの十分な逐次計算処理(学習処理)を常に完了させることは困難である。
そこで,本実施例1では,前記分離行列を求める逐次計算の回数を,前記予め定められた周期(Ti+1−Ti)の時間内で実行可能な回数に制限する。
その回数は,本処理を実行するプロセッサの能力に応じて,予め実験や計算により定める。
このように,逐次計算(学習計算)の回数を,リアルタイム処理が可能な範囲に制限すると学習が不十分となるため,得られる前記SIMO信号は,十分な音源分離(同定)がなされた信号にならないことが多い。しかしながら,それによって得られた前記SIMO信号にリアルタイム処理が可能な第2段階目の前記バイナリーマスキング処理をさらに施すことによって音源分離性能が向上するので,音源分離性能を確保しつつリアルタイム処理が可能となる。
以下,図17に示すタイムチャートを用いて,本発明の第4実施例に係る音源分離装置の処理について説明する。
ここで,図17は,本発明の第4実施例に係る音源分離装置の第1段階目の音源分離処理である前記ICA−BSS音源分離処理とについて,分離行列の計算と分離処理との各々に用いる混合音声信号の区分をタイムチャート的に表したものである。
この第4実施例は,第1段階目の音源分離処理(ICA−BSS音源分離処理)における分離行列の逐次計算に用いる混合音声信号のサンプル数を通常よりも減らす(間引く)ものである。
この第4実施例においても,前記ICA−BSS音源分離処理における分離行列を用いた音源分離処理を,時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrameの単位で実行することは前記第3実施例と同様である。
図17(a−2)は,分離行列の計算(学習)と,その分離行列に基づくフィルタ処理により分離信号を生成(同定)する処理とを,異なるFrameを用いて実行する場合(以下,処理(a−2)という)を表し,図17(b−2)は,それらを同一のFrameを用いて実行する場合(以下,処理(b−2)という)を表す。
前記処理(a−2)では,図16(a−2)に示すように,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記混合音声信号(Frame)全てに相当するFrame(i)のうち,先頭側の一部(例えば,先頭から所定時間分)の信号(以下,Sub-Frame(i)という)を用いて分離行列の計算(学習)を行い,それにより求められた分離行列を用いて時刻Ti+1〜Ti+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理(フィルタ処理)を実行する。即ち,ある1期間の混合音声信号の先頭側の一部に基づき計算された分離行列を用いて次の1期間の混合音声信号の分離処理(同定処理)を行う。このとき,ある1期間のFrame(i)の先頭側の一部を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いれば,逐次計算(学習)の収束が早まり好適である。
以上示したように,前記処理(a−2)も,前記処理(b−2)も,第1段階目の前記ICA−BSS音源分離処理(第1の音源分離手段の処理)において,時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame(区間信号の一例)ごとに,所定の分離行列に基づく分離処理を順次実行して前記SIMO信号を生成するものであり,また,その分離処理により生成した(Frame(区間信号)の時間帯のうちの先頭側の一部の時間帯に対応する前記SIMO信号に基づいて,以降に用いる前記分離行列を求める逐次計算を行うものである。
但し,その逐次計算は,最大でも前記予め定められた周期(Ti+1−Ti)の時間内に制限して実行する。
このように,第1段階目のICA法に基づくBSS方式による音源分離処理において,前記分離行列を求める逐次計算(学習計算)に用いる前記SIMO信号を先頭側の一部の時間帯の信号に限定することにより,十分な回数の逐次計算(学習)を行ってもリアルタイム処理が可能にはなる(前記予め定められた周期の時間内で十分な学習が可能となる)が,学習に用いるサンプル数が少ないため,やはり得られる前記SIMO信号は,十分な音源分離(同定)がなされた信号にならないことが多い。しかしながら,それによって得られた前記SIMO信号にリアルタイム処理が可能な第2段階目の前記バイナリーマスキング処理をさらに施すことによって音源分離性能が向上するので,音源分離性能を確保しつつリアルタイム処理が可能となる。
X1…本発明の第1実施例に係る音源分離装置
1,2…音源
10…SIMO−ICA処理部
11,11f…分離フィルタ処理部
12…Fidelity Controller
13…ST−DFT処理部
14…逆行列演算部14
20…バイノーラル信号処理部
31…バイナリーマスキング処理における比較部
32…バイナリーマスキング処理における分離部
111,112…マイクロホン
Claims (9)
- 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から,1以上の前記音源信号を分離した分離信号を生成する音源分離装置であって,
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から1以上の前記音源信号ごとに対応する複数の分離信号であるSIMO信号を分離生成する第1の音源分離手段と,
前記第1の音源分離手段で分離生成された前記SIMO信号の単位でバイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する分離信号とする第2の音源分離手段と,
を具備してなることを特徴とする音源分離装置。 - 前記第1の音源分離手段が,
時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換手段と,
前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した第1の分離信号を生成するFDICA音源分離手段と,
前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づき前記FDICA音源分離手段により分離された前記第1の分離信号を除く残りの前記第1の分離信号を減算した第2の分離信号を生成する減算手段と,
前記第1の分離信号及び前記第2の分離信号に基づく逐次計算により前記FDICA音源分離手段における前記分離行列を計算する分離行列計算手段と,を具備する周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離手段である請求項1に記載の音源分離装置。 - 前記第1の音源分離手段が,周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うものである請求項1に記載の音源分離装置。
- 前記第1の音源分離手段が,時間領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行うものであり,
時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換手段と,前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した第1の分離信号を生成するFDICA音源分離手段と,前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づき前記FDICA音源分離手段により分離された前記第1の分離信号を除く残りの前記第1の分離信号を減算した第2の分離信号を生成する減算手段と,前記第1の分離信号及び前記第2の分離信号に基づく逐次計算により前記FDICA音源分離手段における前記分離行列を計算する分離行列計算手段と,を具備する周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離手段により複数の前記混合音声信号からSIMO信号を分離生成する過程で算出される前記分離行列に基づいて前記第1の音源分離手段の音源分離処理に用いる分離行列の初期値を設定する第1の初期分離行列設定手段を具備してなる請求項1に記載の音源分離装置。 - 前記第1の音源分離手段が,時間領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行うものであり,
周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号からSIMO信号を分離生成する過程で算出される分離行列に基づいて前記第1の音源分離手段の音源分離処理に用いる分離行列の初期値を設定する第2の初期分離行列設定手段を具備してなる請求項1に記載の音源分離装置。 - 前記第1の音源分離手段が,時系列に入力される前記混合音声信号を予め定められた周期で区分された区間信号ごとに,所定の分離行列に基づく分離処理を順次実行して前記SIMO信号を生成するとともに,該分離処理により生成した前記区間信号の時間帯に対応する全ての時間帯の前記SIMO信号に基づいて以降に用いる前記分離行列を求める逐次計算を行うものであって,該逐次計算の回数を前記予め定められた周期の時間内で実行可能な回数に制限してなる請求項1〜5のいずれかに記載の音源分離装置。
- 前記第1の音源分離手段が,時系列に入力される前記混合音声信号を予め定められた周期で区分された区間信号ごとに,所定の分離行列に基づく分離処理を順次実行して前記SIMO信号を生成するとともに,該分離処理により生成した前記区間信号の時間帯のうちの先頭側の一部の時間帯に対応する前記SIMO信号に基づいて以降に用いる前記分離行列を求める逐次計算を前記予め定められた周期の時間内で実行してなる請求項1〜5のいずれかに記載の音源分離装置。
- 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から,1以上の前記音源信号を分離した分離信号を生成する音源分離処理をコンピュータに実行させるための音源分離プログラムであって,
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から1以上の前記音源信号ごとに対応する複数の分離信号であるSIMO信号を分離生成する第1の音源分離処理と,
前記第1の音源分離処理で分離生成された前記SIMO信号の単位でバイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する分離信号とする第2の音源分離処理と,
をコンピュータに実行させるための音源分離プログラム。 - 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から,1以上の前記音源信号を分離した分離信号を生成する音源分離方法であって,
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から1以上の前記音源信号ごとに対応する複数の分離信号であるSIMO信号を分離生成する第1の音源分離工程と,
前記第1の音源分離工程で分離生成された前記SIMO信号の単位でバイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する分離信号とする第2の音源分離工程と,
を有してなることを特徴とする音源分離方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004345017A JP4462617B2 (ja) | 2004-11-29 | 2004-11-29 | 音源分離装置,音源分離プログラム及び音源分離方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004345017A JP4462617B2 (ja) | 2004-11-29 | 2004-11-29 | 音源分離装置,音源分離プログラム及び音源分離方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006154314A JP2006154314A (ja) | 2006-06-15 |
JP4462617B2 true JP4462617B2 (ja) | 2010-05-12 |
Family
ID=36632709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004345017A Expired - Fee Related JP4462617B2 (ja) | 2004-11-29 | 2004-11-29 | 音源分離装置,音源分離プログラム及び音源分離方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4462617B2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4672611B2 (ja) * | 2006-07-28 | 2011-04-20 | 株式会社神戸製鋼所 | 音源分離装置、音源分離方法及び音源分離プログラム |
JP2008052117A (ja) * | 2006-08-25 | 2008-03-06 | Oki Electric Ind Co Ltd | 雑音除去装置、方法及びプログラム |
JP2008145610A (ja) * | 2006-12-07 | 2008-06-26 | Univ Of Tokyo | 音源分離定位方法 |
US8345884B2 (en) | 2006-12-12 | 2013-01-01 | Nec Corporation | Signal separation reproduction device and signal separation reproduction method |
JP4449987B2 (ja) | 2007-02-15 | 2010-04-14 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
JP4897519B2 (ja) * | 2007-03-05 | 2012-03-14 | 株式会社神戸製鋼所 | 音源分離装置,音源分離プログラム及び音源分離方法 |
JP4950733B2 (ja) | 2007-03-30 | 2012-06-13 | 株式会社メガチップス | 信号処理装置 |
JP4973287B2 (ja) * | 2007-04-06 | 2012-07-11 | ヤマハ株式会社 | 音処理装置およびプログラム |
JP4519901B2 (ja) * | 2007-04-26 | 2010-08-04 | 株式会社神戸製鋼所 | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
JP2009188858A (ja) * | 2008-02-08 | 2009-08-20 | National Institute Of Information & Communication Technology | 音声出力装置、音声出力方法、及びプログラム |
JP5229053B2 (ja) | 2009-03-30 | 2013-07-03 | ソニー株式会社 | 信号処理装置、および信号処理方法、並びにプログラム |
JP5375400B2 (ja) | 2009-07-22 | 2013-12-25 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
EP2731359B1 (en) | 2012-11-13 | 2015-10-14 | Sony Corporation | Audio processing device, method and program |
JP6174856B2 (ja) | 2012-12-27 | 2017-08-02 | キヤノン株式会社 | 雑音抑制装置、その制御方法、及びプログラム |
DE102014214052A1 (de) * | 2014-07-18 | 2016-01-21 | Bayerische Motoren Werke Aktiengesellschaft | Virtuelle Verdeckungsmethoden |
CN111326168B (zh) * | 2020-03-25 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 语音分离方法、装置、电子设备和存储介质 |
CN114220454B (zh) * | 2022-01-25 | 2022-12-09 | 北京荣耀终端有限公司 | 一种音频降噪方法、介质和电子设备 |
-
2004
- 2004-11-29 JP JP2004345017A patent/JP4462617B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006154314A (ja) | 2006-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4496186B2 (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
JP4675177B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP4462617B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP4897519B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP5375400B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
KR101670313B1 (ko) | 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법 | |
EP2731359B1 (en) | Audio processing device, method and program | |
Zhang et al. | Multi-channel multi-frame ADL-MVDR for target speech separation | |
US11978471B2 (en) | Signal processing apparatus, learning apparatus, signal processing method, learning method and program | |
Liu et al. | Deep CASA for talker-independent monaural speech separation | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
KR102410850B1 (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
Martinez et al. | DNN-based performance measures for predicting error rates in automatic speech recognition and optimizing hearing aid parameters | |
JP2007279517A (ja) | 音源分離装置、音源分離装置用のプログラム及び音源分離方法 | |
KR101043114B1 (ko) | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 | |
JP4493690B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
Westhausen et al. | Low bit rate binaural link for improved ultra low-latency low-complexity multichannel speech enhancement in Hearing Aids | |
Liao et al. | An effective low complexity binaural beamforming algorithm for hearing aids | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
CN113870893A (zh) | 一种多通道双说话人分离方法及系统 | |
JP4336378B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
JP2020012980A (ja) | 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置 | |
JP2007033804A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
CN114078481A (zh) | 基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060908 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100215 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130226 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130226 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140226 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |