JP2007033825A - 音源分離装置,音源分離プログラム及び音源分離方法 - Google Patents

音源分離装置,音源分離プログラム及び音源分離方法 Download PDF

Info

Publication number
JP2007033825A
JP2007033825A JP2005216391A JP2005216391A JP2007033825A JP 2007033825 A JP2007033825 A JP 2007033825A JP 2005216391 A JP2005216391 A JP 2005216391A JP 2005216391 A JP2005216391 A JP 2005216391A JP 2007033825 A JP2007033825 A JP 2007033825A
Authority
JP
Japan
Prior art keywords
sound source
separation
signal
source separation
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005216391A
Other languages
English (en)
Other versions
JP4675177B2 (ja
Inventor
Takayuki Hiekata
孝之 稗方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Original Assignee
Kobe Steel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd filed Critical Kobe Steel Ltd
Priority to JP2005216391A priority Critical patent/JP4675177B2/ja
Priority to EP06117505A priority patent/EP1748427A1/en
Priority to US11/489,441 priority patent/US20070025556A1/en
Publication of JP2007033825A publication Critical patent/JP2007033825A/ja
Application granted granted Critical
Publication of JP4675177B2 publication Critical patent/JP4675177B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

【課題】 リアルタイム処理を可能としつつ,音源分離性能を極力高められること。
【解決手段】 複数の混合音声信号Xi(t)からICA−BSS方式の音源分離処理により音源信号Si(t)を分離した第1分離信号y1i(t)を分離生成する第1の音源分離ユニット10と,そのようなICA−BSS音源分離処理以外の方式のリアルタイムの音源分離処理により第2分離信号y2i(t)を分離生成する第2の音源分離ユニット20と,第1分離信号y1i(t)を出力信号yi(t)とするか,第2分離信号y2i(t)を出力信号yi(t)とするかを切り替えるマルチプレクサ30とを具備する。第1の音源分離ユニット10の処理は,マルチプレクサ30の選択状況によらず継続実行され,第1分離信号y1i(t)が出力されているときは,第1の音源ユニット10における分離行列Wの逐次計算回数を,リアルタイム処理が可能な回数に制限する。
【選択図】図1

Description

本発明は,所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で,その音声入力手段各々を通じて入力される前記音源各々からの個別音声信号が重畳された複数の混合音声信号から前記個別音声信号を同定(分離)して出力信号とする音源分離装置,音源分離プログラム及び音源分離方法に関するものである。
所定の音響空間に複数の音源と複数のマイク(音声入力手段)とが存在する場合,その複数のマイクごとに,複数の音源各々からの個別音声信号(以下,音源信号という)が重畳された音声信号(以下,混合音声信号という)が取得される。このようにして取得(入力)された複数の前記混合音声信号のみに基づいて,前記音源信号各々を同定(分離)する音源分離処理の方式は,ブラインド音源分離方式(Blind Source Separation方式,以下,BSS方式という)と呼ばれる。
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクを通じて入力される複数の前記混合音声信号(時系列の音声信号)において,前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し,入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際,分離行列の最適化は,ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて,逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献1や非特許文献2等に詳説されている。さらに,非特許文献8には,多段階のICA法に基づくBSS方式の音源分離処理について示されている。
また,特許文献1には,周波数領域におけるブラインド音源分離処理において,permutation(周波数解析窓ごとに分離音源の入れ替わりが発生する現象)の問題を分離信号の類似度計算によって解決する技術が示されている。
一方,音源分離処理としては,例えば,バイノーラル信号処理(分解)を起源として3つ以上の音源信号の分離が可能なバイナリーマスキング処理等による音源分離処理も知られている。バイノーラル信号処理は,人間の聴覚モデルに基づいて複数の入力音声信号に時変のゲイン調節を施して音源分離を行うものであり,比較的低い演算負荷で実現できる音源分離処理である。これについては,例えば,非特許文献3や非特許文献4等に詳説されている。
特開2004−145172号公報 猿渡洋,「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告,vol.EA2001-7,pp.49-56,April 2001. 高谷智哉他,「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告,vol.US2002-87,EA2002-108,January 2003. R.F.Lyon, "A computational model of binaural localization and separation," In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993. N.Murata and S. Ikeda. A on-line algorithm for blind source separation on speech signals. In Proceedings of NOLTA'98, pp. 923-926,1998 梶田,小林,武田,板倉,「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」,日本音響学会誌,53巻5号,pp.337-345 (1997) 鵜飼訓史他,「周波数領域ICAと時間領域ICAを統合したSIMOモデル信号のブラインド抽出法の評価」,電子情報通信学会技術報告,vol.EA2004-23, pp.37-42,June 2004 T.Nishikawa, H.Saruwatari, and K.Shikano,"Comparison of blind source separation methods based on time-domain ICA using nonstationarity and multistage ICA",IEICE Technical Report, vol.EA2001-112, pp49-56, April 2001.
しかしながら,前記音源信号の独立性に着目したICA法に基づくBSS方式による音源分離処理は,分離行列を求める逐次計算(学習計算)を十分に行えば高い音源分離性能(前記音源信号の同定性能)が得られるものの,十分な音源分離性能を得るためには,分離処理(フィルタ処理)に用いる分離行列を求めるための逐次計算(学習計算)の回数が増えるので演算負荷が高くなり,その計算を実用的なプロセッサで行うと入力される混合音声信号の時間長に対して数倍の時間を要し,リアルタイム処理に適さないという問題点があった。特に,処理の開始後しばらくの時間帯や,音響環境の変化(音源の移動や音源の追加・変更等)があった場合に,十分な音源分離性能を得るためには分離行列の演算負荷がより高くなる。即ち,分離行列の収束に要する逐次演算回数は,分離行列の初期状態或いは演算開始後の音響環境の変化に依存する。また,ICA法に基づくBSS方式による音源分離処理では,分離行列の収束状態(学習状態)が十分でない状況では,前記バイナリーマスキング処理等のリアルタイム処理に適した比較的簡易な他の音源分離処理に比べても音源分離性能が劣ることになりがちである。
一方,前記バイナリーマスキング処理や帯域フィルタ処理,ビームフォーマ等の音源分離処理は,長くても数ms〜数百ms程度の瞬時の混合音声信号のみを用いて音源分離が可能であり,演算負荷が小さくリアルタイム処理に適しているとともに,音源分離性能が音響環境の変化の影響を受けにくい。このように,ICA法に基づくBSS方式の音源分離処理以外の音源分離処理には,製品組み込み用として実用的なプロセッサによってリアルタイム処理が可能であるとともに,処理開始時や音響環境が変化する状況下でも比較的安定した音源分離性能が得られるものがあるが,前記分離行列の学習が十分なされたICA法に基づくBSS方式による音源分離処理に比べると音源分離性能は劣るという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,リアルタイム処理を可能としつつ,音源分離性能を極力高められる音源分離装置,音源分離プログラム及び音源分離方法を提供することにある。
上記目的を達成するために本発明は,所定の音響空間に複数の音源と複数の音声入力手段(マイクロホン)とが存在する状態でその音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から前記音源信号を分離(抽出)した分離信号を逐次生成して出力信号とする音源分離装置,或いはそのプログラム若しくはその方法に適用されるものであり,所定時間長分の複数の前記混合音声信号を用いた独立成分分析法に基づくブラインド音源分離方式(以下,ICA−BSS音源分離方式という)における分離行列の学習計算を行うことにより前記分離行列を順次算出する処理(以下,分離行列算出処理という)と,その処理によって算出された前記分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する処理(以下,第1の音源分離処理という)と,そのICA−BSS音源分離方式以外の方式のリアルタイムの音源分離処理により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を生成する処理(第2の音源分離処理という)とを実行するものであり,前記第1の音源分離処理により生成される前記分離信号を前記出力信号とするか,前記第2の音源分離処理により生成される前記分離信号を前記出力信号とするかを切り替えるものである。
このような処理を行うことにより,前記第1の音源分離処理(ICA−BSS音源分離処理)における分離行列の収束状態(学習状態)が十分でない状況では,リアルタイム処理が可能で安定した音源分離性能が得られる前記第2の音源分離処理(バイナリーマスキング処理,帯域フィルタ処理,ビームフォーマ等)に基づく分離信号を出力信号として採用し,その間,前記第1の音源分離処理に用いる前記分離行列の学習(逐次計算)を並行して行うことによって前記分離行列の収束状態が十分となった状況では,音源分離性能の高い前記第1の音源分離処理による分離信号を出力信号として採用することができる。
これにより,リアルタイム処理を可能としつつ,音源分離性能を極力高めることが可能となる。
ここで,前記分離行列算出処理において,所定の設定時間分の前記混合音声信号(後述するFrame)が入力されるごとにその入力信号全体を用いて前記分離行列の学習計算を行い,その学習計算の学習回数上限を,前記設定時間以内で計算を終える回数に設定しておくことが考えられる。
これにより,前記分離行列の学習計算(分離行列の更新)を短周期で行うことができる(学習計算時間を短縮できる)ので,音源の状態が変化した場合でも,その変化に対して早期に追従して高い音源分離性能を確保することができる。また,前記分離行列が十分に収束した(学習された)後は,その後の分離行列の学習回数(逐次計算回数)を制限しても,音響環境が大きく変化しない限り,高い音源分離性能が維持される。
これに対し,前記分離行列算出処理において,所定の設定時間分の前記混合音声信号が入力されるごとにその入力信号のうちの一部の時間長分を用いて前記分離行列の学習計算を行うことも考えられる。
これによっても,前記分離行列の学習計算(分離行列の更新)を短周期で行うことができるので,音源の状態変化に早期に追従して高い音源分離性能を確保することができる。一般には,逐次入力される前記混合音声信号の全てが学習計算に反映されることが望ましいが,その一部を用いた学習計算によっても,音源状態の変化がそれほど大きくなければ十分な音源分離性能を確保できる。
例えば,前記分離行列算出処理における前記分離行列の最初の学習計算の開始から,その学習計算の学習回数が所定回数に到達するまで若しくは所定時間が経過するまで(即ち,前記分離行列が十分収束した状態となるまで)は前記第2の音源分離処理により生成される前記分離信号を前記出力信号とし,その後に前記第1の音源分離処理により生成される前記分離信号を前記出力信号とするよう切り替えることが考えられる。
これにより,処理を開始してから,前記第1の音源分離処理における前記分離行列が十分収束するまで(学習されるまで)は,安定した音源分離性能が得られる前記第2の音源分離処理に基づく分離信号が出力信号として採用され,その後は,音源分離性能の高い状態となった前記第1の音源分離処理に基づく分離信号が出力信号として採用されることになる。
その他,前記分離行列算出手段による前記学習計算の収束度合いに基づいて前記第1の音源分離処理及び前記第2の音源分離処理のいずれにより生成される前記分離信号を前記出力信号とするかを切り替えることも考えられる。ここで,前記学習計算の収束度合いは,前記学習計算を行うごとに所定の評価値を算出し,その評価値の変化(勾配)の大きさによって評価すること等が考えられる。
これにより,音響環境が安定している等の状況であるため前記学習計算を比較的短周期で行っても十分に収束する状況においては,音源分離性能の高い前記第1の音源分離処理が採用され,処理を開始後の一定期間や,音響環境が大きく変化した場合には前記学習計算の収束度合いが十分でなくなるので,前記第2の音源分離処理が採用される,というように,状況に応じて適切な音源分離処理が採用されることになる。これにより,音源分離のリアルタイム処理を可能としつつ,音源分離性能を極力高めることが可能となる。
さらに,そのような切り替えを行う場合,前記出力信号を前記第1の音源分離処理による前記分離信号から前記第2の音源分離処理による前記分離信号へ切り替える場合とその逆方向に切り替える場合とで,その切り替えの判別に異なる前記分離行列の収束度合いのしきい値を用いるようにする,即ち,その切り替えにヒステリシス特性を持たせることが考えられる。
これにより,前記分離信号の収束度合いが所定のしきい値の前後を行き来することにより,採用される音源分離処理が短期間の間に頻繁に切り替わって不安定な処理状態を招くという問題を回避できる。
本発明によれば,出力する音源分離信号(出力信号)を求める処理として,分離行列が十分に学習されていれば高い音源分離性能を発揮する独立成分分析法に基づくブラインド音源分離方式の音源分離処理(ICA−BSS音源分離処理)と,演算負荷が軽くリアルタイム処理に適するとともに音響環境の変化に関わらず音源分離性能が安定しているバイナリーマスキング処理等の他の音源分離処理と,のいずれを採用するかを状況に応じて切り替えることにより,リアルタイム処理を可能としつつ,音源分離性能を極力高めることが可能となる。
例えば,そのような切り替えをICA−BSS音源分離処理における分離行列の収束度合いに基づいて行えば,分離行列の収束状況に応じて(処理を開始後の一定期間や音響環境が大きく変化した場合等とその他の場合とで)適切な音源分離処理が採用され,リアルタイム処理を確保しつつ,音源分離性能を最大限高めることが可能となる。さらに,そのような切り替えを行う方向(ICA−BSS音源分離処理からその他の音源分離処理への切り替えかその逆か)によって,前記分離行列の収束度合いのしきい値として異なる値を用いるようにすれば,採用される音源分離処理が短期間の間に頻繁に切り替わって不安定な処理状態を招くという問題を回避できる。
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図,図2は音源分離装置Xの音源分離処理の手順を表すフローチャート,図3は音源分離装置Xにおける第1の音源分離ユニットによる分離行列計算の第1例の概要を説明するためのタイムチャート,図4は音源分離装置Xにおける第1の音源分離ユニットによる分離行列計算の第2例の概要を説明するためのタイムチャート,図5はTDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Z1の概略構成を表すブロック図,図6はFDICA法に基づく音源分離処理を行う音源分離装置Z2の概略構成を表すブロック図,図7はバイナリーマスキング処理を説明するための図である。
まず,本発明の実施形態について説明する前に,図5及び図6に示すブロック図を用いて,本発明の構成要素として適用可能な各種のICA法に基づくブラインド音源分離方式(以下,ICA−BSS方式という)の音源分離装置の例について説明する。
なお,以下に示す音源分離処理或いはその処理を行う装置等は,いずれも所定の音響空間に複数の音源と複数のマイクロホン(音声入力手段)とが存在する状態で,そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号(以下,音源信号という)が重畳された複数の混合音声信号から,1以上の音源信号を分離(同定)した分離信号を生成して出力信号とする音源分離処理或いはその処理を行う装置等に関するものである。
図5は,ICA法の一種である時間領域独立成分分析法(time-domain independent component analysis法,以下,TDICA法という)に基づくBSS方式の音源分離処理を行う従来の音源分離装置Z1の概略構成を表すブロック図である。なお,本処理の詳細は,非特許文献1や非特許文献2等に示されている。
音源分離装置Zは,分離フィルタ処理部11により,2つの音源1,2からの音源信号S1(t),S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)について,分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。
図5には,2つの音源1,2からの音源信号S1(t),S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)に基づいて音源分離を行う例について示しているが,2チャンネル以上であっても同様である。ICA法に基づくBSS方式による音源分離の場合,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111,112各々で集音された各混合音声信号x1(t),x2(t)には,複数音源からの音源信号が重畳されている。以下,各混合音声信号x1(t),x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され,次の(1)式のように表される。
Figure 2007033825
TDICAによる音源分離の理論は,この音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると,x(t)がわかればS(t)を推測することができ,従って,音源を分離することができるという発想に基づく理論である。
ここで,当該音源分離処理に用いる分離行列をW(z)とすれば,分離信号(即ち,同定信号)y(t)は,次の(2)式で表される。
Figure 2007033825
ここで,W(z)は,出力y(t)から逐次計算(学習計算)により求められる。また,分離信号は,チャンネルの数だけ得られる。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。また,分離行列W(z)の逐次計算を行う際の分離行列の初期値(初期行列)は,予め定められたものが設定される。
このようなICA法に基づくBSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から,歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで,(2)式は,次の(3)式のように書き換えて表現できる。
Figure 2007033825
そして,(3)式における分離フィルタ(分離行列)W(n)は,次の(4)式により逐次計算される。即ち,前回(j)の出力y(t)を(4)式に逐次適用することより,今回(j+1)のW(n)を求める。
Figure 2007033825
次に,図6に示すブロック図を用いて,ICA法の一種であるFDICA法(Frequency-Domain ICA)に基づく音源分離処理を行う従来の音源分離装置Z2について説明する。
FDICA法では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(5)式のように表すことができる。
Figure 2007033825
ここで,分離フィルタW(f)の更新式は,例えば次の(6)式のように表すことができる。
Figure 2007033825
このFDICA法によれば,音源分離処理が各狭帯域における瞬時混合問題として取り扱われ,比較的簡単かつ安定に分離フィルタ(分離行列)W(f)を更新することができる。
以上に示したTDICA,FDICAの他,非特許文献8に示されるような多段階のICA−BSS音源分離処理等,音源の独立性を評価して音源分離を行うICA−BSS方式の基本概念から逸脱していないアルゴリズムに基づく音源分離処理であれば,本発明の構成要素として適用され得るICA法に基づくBSS方式の音源分離処理といえるものである。
以下,図1に示すブロック図を用いて,本発明の実施形態に係る音源分離装置Xについて説明する。
音源分離装置Xは,ある音響空間に複数の音源1,2と複数のマイクロホン111,112(音声入力手段)とが存在する状態で,そのマイクロホン111,112各々を通じて逐次入力される音源1,2各々からの音源信号(個別の音声信号)が重畳された複数の混合音声信号Xi(t)から,音源信号(個別音声信号)を分離(同定)した分離信号(即ち,音源信号に対応した同定信号)yを逐次生成してスピーカ(音声出力手段)に対してリアルタイム出力する(以下,これを出力信号という)ものである。この音源分離装置Xは,例えば,ハンズフリー電話機やテレビ会議の収音装置等への利用が可能なものである。
図1に示すように,音源分離装置Xは,予め定められた時間長分の複数の混合音声信号Xi(t)を用いて,独立成分分析(ICA)法に基づくブラインド音源分離(BSS)方式の音源分離処理(以下,ICA−BSS音源分離処理という)における分離行列Wの学習計算を行うことにより,分離行列Wを順次算出するとともに(分離行列算出手段の一例),その学習計算により得られた分離行列W用いた行列演算を行うことにより,複数の混合音声信号Xi(t)から音源信号Si(t)を分離(同定)した分離信号y1i(t)(以下,第1分離信号という)を逐次分離生成する第1の音源分離ユニット10(第1の音源分離手段の一例)と,そのようなICA−BSS音源分離処理以外の方式のリアルタイムの音源分離処理により複数の前記混合音声信号号Xi(t)から前記音源信号Si(t)に対応する分離信号y2i(t)(以下,第2分離信号という)を逐次分離生成する第2の音源分離ユニット20(第2の音源分離手段の一例)とを具備している。
ここで,前記第1の音源分離ユニット10における分離行列算出及び音源分離の処理としては,例えば,図5に示したTDICA法に基づくBSS方式の音源分離処理や,図6に示したFDICA法に基づくBSS方式の音源分離処理等が採用される。
また,前記第2の音源分離ユニット20における音源分離処理としては,例えば,周知の帯域制限フィルタ処理やバイナリーマスキング処理,ビームフォーマ処理等,演算負荷が小さく一般的な装置組み込み型の演算手段でリアルタイム処理が可能な音源分離処理が採用される。
例えば,前記第2の音源分離ユニット20における音源分離処理として採用され得る遅延和型ビームフォーマ音源分離処理は,複数の音源が空間的に離れている場合に,マイク111,112に到達する波面の時間差を遅延器によって調整することにより,同定対象とする音源を強調して分離する処理である。
また,分離対象となる音源信号の周波数帯域の重複が少ない場合には,前記第2の音源分離ユニット20における音源分離処理として帯域フィルタ処理(帯域制限フィルタ処理)を採用することも考えられる。
例えば,2つの音源信号の周波数帯域が,所定のしきい周波数を境にしてそれ未満の帯域とそれ以上の帯域とに概ね分かれて分布している場合,2つの混合音声信号の一方をそのしきい周波数未満の周波数帯域の信号のみを通過させるローパスフィルタに入力させ,他方をそのしきい周波数以上の周波数帯域の信号のみを通過させるハイパスフィルタに入力させることにより,各音源信号に対応する分離信号を生成できる。
図7は,前記第2の音源分離ユニット20における音源分離処理として採用され得るバイナリーマスキング処理を説明するための図である。このバイナリーマスキング処理は,バイノーラル信号処理の考え方を起源とする信号処理の一例であって,比較的処理がシンプルでありリアルタイム処理に適している。なお,バイノーラル信号処理による信号分離処理は,人間の聴覚モデルに基づいて前記混合音声信号に時変のゲイン調節を施して音源分離を行うものであり,例えば,非特許文献3や非特許文献4等に詳説されている。
バイナリーマスキング処理を実行する装置やプログラムは,複数の入力信号(本発明においては複数の混合音声信号Xi(t))の比較処理を行う比較部31と,その比較部31による比較処理の結果に基づいて入力信号にゲイン調節を施して信号分離(音源分離)を行う分離部32とを有している。
バイナリーマスキング処理では,まず,前記比較部31において,入力信号各々について周波数成分ごとの信号レベル(振幅)分布AL,ARを検出し,同じ周波数成分における信号レベルの大小関係を判別する。
図7において,BL,BRは,入力信号各々における周波数成分ごとの信号レベル分布と,その信号レベルごとに他方の対応する信号レベルに対する大小関係(○,×)とを表した図である。図中,「○」印は,前記比較部31による判別の結果,他方の対応する信号レベルよりも当該信号の信号レベルの方が大きかったことを表し,「×」印は同じく当該信号レベルの方が小さかったことを表している。
次に,前記分離部32により,前記比較部31による信号比較の結果(大小判別の結果)に基づいて,入力信号各々にゲイン乗算(ゲイン調節)を施すことにより分離信号(同定信号)を生成する。この分離部32における最も簡単な処理の例としては,入力信号について,周波数成分ごとに,信号レベルが最も大きいと判別された入力信号の周波数成分にゲイン1を乗算し,その他の入力信号全ての同じ周波数成分にゲイン0(ゼロ)を乗算すること等が考えられる。
これにより,入力信号と同数の分離信号(同定信号)CL,CRが得られる。この分離信号CL,CRのうち,一方は,入力信号の同定の対象となった音源信号に相当するものとなり,他方は入力信号に混在するノイズ(同定対象の音源信号以外の音源信号)に相当するものとなる。
なお,図7には,2つの入力信号に基づくバイナリーマスキング処理の例を示すが,3つ以上の入力信号に基づく処理であっても同様である。
さらに,音源分離装置Xは,前記第1の音源分離ユニット10により生成される前記第1分離信号y1i(t)を出力信号yi(t)とするか,或いは前記第2の音源分離ユニット20により生成される前記第2分離信号y2i(t)を出力信号yi(t)とするかを切り替えるマルチプレクサ30(出力切替手段の一例)を具備している。
ここで,少なくとも前記第1の音源分離ユニット10による処理は,前記マルチプレクサ30によりいずれの分離信号が出力信号として選択されているかにかかわらず継続実行される。これにより,前記マルチプレクサ30により前記第2分離信号y2i(t)が出力信号yi(t)として選択されている場合でも,前記第1の音源分離ユニット10において,これにより生成された前記第1分離信号y1i(t)に基づいて次の前記第1分離信号の生成処理に用いる分離行列W(図5等に示すW(Z),或いは図6等に示すW(f))の逐次計算(学習計算)は並行して行われる。
また,音源分離装置Xは,前記マルチプレクサ30から信号の選択状態を表す情報を取得し,その取得情報を前記第1の音源分離ユニット10に伝達する処理や,前記第1の音源分離ユニット10における前記分離行列Wの収束状態(学習状態)を監視して,その結果に基づく前記マルチプレクサ30の切り替え制御を行う制御部50も具備している。
ここで,図1には,チャンネル数が2つ(マイクロホンの数が2つ)である例について示したが,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であれば,3チャンネル以上であっても同様の構成により実現できる。
また,各構成要素10,20,30,50は,それぞれDSP(Digital Signal Processor)又はCPU及びその周辺装置(ROM,RAM等)と,そのDSP若しくはCPUにより実行されるプログラムとにより構成されたものや,或いは,1つのCPU及びその周辺装置を有するコンピュータにより,各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また,所定のコンピュータに各構成要素の処理を実行させる音源分離プログラムとして提供することも考えられる。
次に,図2に示すフローチャートを用いて,音源分離装置Xにおける音源分離処理の手順について説明する。ここで,音源分離装置Xは,ハンズフリー電話機等の他の装置に組み込まれ,その装置が備える操作ボタン等の操作部の操作状況が前記制御部50により取得される。そして,その操作部から所定の処理開始操作がなされたこと(開始命令)が検知された場合に音源分離処理を開始し,所定の処理終了操作がなされたこと(終了命令)が検知された場合に音源分離処理を終了するものとする。以下,S1,S2,…は,処理手順(ステップ)の識別符号を表す。
まず,音源分離装置Xが電源ON等により起動されると,まず,前記マルチプレクサ30により,その信号切り替え状態(出力選択状態)が,前記第2の音源分離ユニット20による第2分離信号y2i(t)を出力信号yi(t)とするB側に設定される(S1)。
次に,前記第1及び第2の音源分離ユニット10,20は,前記制御部50により開始命令(処理開始操作)が検知されるまで待機し(S2),開始命令が検知されると,その両ユニット10,20が音源分離処理を開始する(S3)。
これにより,前記第1の音源分離ユニット10における前記分離行列Wの逐次計算(学習計算)も開始され,その開始時には,前記第2の音源分離ユニット20により生成される前記第2分離信号y2i(t)が出力信号yi(t)として採用される。
次に,前記制御部50により,前記終了命令が検知されるか否かが監視され(S4,S7),前記終了命令が検知されるまでは,以下に示すステップS5,6又はステップS8,9の処理が繰り返される。
即ち,前記制御部50により,前記第1の音源分離ユニット10において逐次計算される前記分離行列Wの収束度合いを表す所定の評価値εがチェックされ(S5,S8),その評価値εに基づいて,前記第1の音源分離ユニット10及び前記第2の音源分離ユニット20のいずれにより生成される前記分離信号を前記出力信号yとするかが,前記マルチプレクサ30(出力切替手段の一例)を通じて切り替えられる。
前記分離行列Wの収束度合いを表す評価値ε(指標)としては,例えば,次の(7)式により表される評価値εを用いることが考えられる。この評価値εは,分離行列Wの更新に用いる前述した(4)式における右辺第2項で,W[j](d)に乗算されている係数である。
Figure 2007033825
この評価値εは,学習計算の進行度合い(収束度合い)を表すスカラ量としてよく用いられ,0に近づくほど分離行列の収束度合い(学習度合い)が進んでいると評価できる指標である。
そこで,前記マルチプレクサ30が前記B側に設定されているときは,前記制御部50により,前記評価値εが第1のしきい値ε1未満であるか否かがチェックされ(S5),ε1以上である間は前記マルチプレクサ30によって前記第2の音源分離ユニット20による前記第2分離信号y2i(t)を出力信号yi(t)とする状態(B側の設定)が維持されるが,ε1未満であると判別されたときは,前記マルチプレクサ30を通じて前記第1の音源分離ユニット10による前記第1分離信号y1i(t)を出力信号yi(t)とする状態(A側の設定)に切り替えられる(S6)。
一方,前記マルチプレクサ30が前記A側に設定されているときは,前記制御部50により,前記評価値εが第2のしきい値ε2以上であるか否かがチェックされ(S8),ε2未満である間は前記マルチプレクサ30によって前記第1の音源分離ユニット10による前記第1分離信号y1i(t)を出力信号yi(t)とする状態(A側の設定)が維持されるが,ε2以上であると判別されたときは,前記マルチプレクサ30を通じて再び前記第2の音源分離ユニット20による前記第2分離信号y2i(t)を出力信号yi(t)とする状態(B側の設定)に切り替えられる(S9)。
ここで,前記マルチプレクサ30による信号切り替えの基準となる前記評価値εのしきい値ε1,ε2は,ヒステリシス特性を有する切り替えが行われるよう設定されている。即ち,前記出力信号yi(t)を,前記第1の音源分離ユニット10による第1分離信号y1i(t)から前記第2の音源分離ユニット20による第2分離信号y2i(t)へ切り替える場合の判別に用いる前記分離行列の評価値ε(収束度合い)のしきい値ε2と,その逆方向に切り替える場合に用いるしきい値ε2とは異なる値(ε1<ε2)に設定されている。
これにより,分離信号の収束度合いを表す評価値εが,所定のしきい値(例えば,ε1)の前後を行き来することにより,採用される音源分離処理が短期間の間に頻繁に切り替わって不安定な処理状態を招くという問題を回避している。もちろん,そのようにすることは必須ではなく,ε1=ε2と設定することも考えられる。その他,前記評価値εそのものをしきい値により判別するのではなく,前記評価値εの変化(勾配)が,所定のしきい値未満となったか否かによって分離信号の収束度合いを評価することも考えられる。
一方,処理中に,前記終了命令が検知されると(S4のY側,又はS7のY側),当該音源分離装置Xによる音源分離処理は終了する。
次に,図3及び図4に示すタイムチャートを用いて,前記第1の音源分離ユニット10による分離行列計算の第1例(図3)及び第2例(図4)の概要について説明する。
ここで,図3は,前記第1の音源分離ユニット10の処理(ICA−BSS音源分離処理)について,分離行列の計算と分離処理との各々に用いる混合音声信号の区分の第1例をタイムチャート的に表したものである。
この第1例では,前記第1の音源分離ユニット10における分離行列を用いた音源分離処理を,時系列に入力される前記混合音声信号を予め定められた周期で区分された信号(以下,Frameという)の単位で実行する。
図3(a−1)は,分離行列の計算(学習)と,その分離行列に基づくフィルタ処理により分離信号を生成(同定)する処理とを,異なるFrameを用いて実行する場合(以下,処理(a−1)という)を表し,図3(b−1)は,それらを同一のFrameを用いて実行する場合(以下,処理(b−1)という)を表す。
前記処理(a−1)では,図3(a−1)に示すように,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算(学習)を行い,それにより求められた分離行列を用いて時刻(Ti+1+Td)〜(Ti+2+Td)の期間に入力された前記混合音声信号全てに相当するFrame(i+1)’について分離処理(フィルタ処理)を実行する。ここで,Tdは1つのFrameを用いた分離行列の学習に要する時間である。即ち,ある1期間の混合音声信号に基づき計算された分離行列を用いて,Frame時間長+学習時間だけずれた次の1期間の混合音声信号の分離処理(同定処理)を行う。このとき,ある1期間のFrame(i)を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)’を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いれば,逐次計算(学習)の収束が早まり好適である。
一方,前記処理(b−1)では,図3(b−1)に示すように,時刻Ti〜Ti+1の期間に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算(学習)を行いつつそのFrame(i)全てを保持し,Frame(i)に基づき求められた分離行列を用いて,保持されたFrame(i)について分離処理(フィルタ処理)を実行する。即ち,順次1期間+学習時間Td分の混合音声信号を記憶手段(メモリ)に保持しつつ,その記憶された1期間分の混合音声信号全てに基づき分離行列を計算(学習)し,計算された分離行列を用いて記憶手段に保持された1期間分の混合音声信号の分離処理(同定処理)を行う。この場合も,ある1期間のFrame(i)を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いることが好ましい。
以上示したように,前記処理(a−1)も,前記処理(b−1)も,前記第1の音源分離ユニット10による音源分離処理において,時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame(所定の設定時間分の前記混合音声信号の一例)が入力されるごとに,その入力信号全体を用いて所定の分離行列Wの学習計算を行うとともに,その学習計算により得られた分離行列を用いた行列演算である分離処理を順次実行して前記分離信号y1i(t)を生成するものである。
ここで,分離行列Wの学習計算は,Frameの全体又は一部について,その時点で最新の分離行列Wをワーク行列の初期値とし,そのワーク行列を用いた行列演算を行うことにより分離信号y1i(t)を求めた後,前述した(4)式に基づいてワーク行列を修正(学習)するという一連の処理を繰り返す(逐次計算する)ことによって行われる。そして,Frameごとの学習計算が終了するごとに,最終的に得られたワーク行列を,前記第1分離信号y1i(t)を算出するのに用いる分離行列Wに設定(更新)する。
ここで,1つのFrameの時間長以内に,1つのFrame全体に基づく分離行列の学習計算を完了させることができれば,全ての混合音声信号を学習計算に反映させながらリアルタイムでの音源分離処理が可能となる。
しかしながら,現在の計算機の処理能力では,演算負荷が比較的少ないFDICA音源分離処理であっても,この1つのFrameの時間範囲内(Ti〜Ti+1)に,十分な音源分離性能を確保できるだけの十分な学習計算(逐次計算処理)を常に完了させることは困難である。
そこで,前記第1の音源分離ユニット10は,1Frame分の混合音声信号が入力されるごとに,その1Frame分の信号全体を用いて前記分離行列Wの学習計算(逐次計算)を行うとともに,その学習計算の上限回数(学習回数の上限)が,1Frameの時間長(設定時間の一例)以内で計算を終える回数に設定されている。ここで,前記第1の音源分離ユニット10により,前記マルチプレクサ30がどのような切り替え状態にあるかの情報を前記制御部50を通じて取得し,前記マルチプレクサ30(出力切替手段の一例)によって当該第1の音源分離ユニット10による前記第1分離信号y1i(t)が前記出力信号yi(t)とされていることを検知した場合にのみ,前記分離行列Wの学習計算を行う上限回数を,1Frameの時間長(設定時間の一例)以内で計算を終えることができる回数に設定することも考えられる。もちろん,そのような上限設定がなされるよう,前記制御部50により前記第1の音源分離ユニット10を制御する構成としてもよい。
設定する上限回数は,本処理を実行するプロセッサの能力に応じて,予め実験や計算等により定める。
このように,学習計算の上限回数を制限すると,音響環境が大きく変化した場合等に,分離行列の学習が不十分となるため,得られる前記第1分離信号y1i(t)は,十分な音源分離(同定)がなされた信号にならないことが多い。しかしながら,そのような場合には,前記評価値εが大きくなるので,その値が前記第2のしきい値ε2以上となった際に前記出力信号yi(t)として前記第2分離信号y2i(t)が採用されるよう切り替えられる。これにより,リアルタイム処理を行いつつ,可能な限り音源分離性能を高い状態に維持することが可能となる。従って,前記第1及び第2のしきい値ε1,ε2は,前記評価値εがその値以上であれば,返って前記第2の音源分離ユニット20よりも音源分離性能が劣ることとなるような値に設定しておく。
次に,図4に示すタイムチャートを用いて,本発明の第4実施例に係る音源分離装置の処理について説明する。
ここで,図4は,前記第1の音源分離ユニット10の処理(ICA−BSS音源分離処理)について,分離行列の計算と分離処理との各々に用いる混合音声信号の区分の第2例をタイムチャート的に表したものである。
この第2例は,前記第1の音源分離ユニット10における分離行列Wの逐次計算に用いる混合音声信号のサンプル数を通常よりも減らす(間引く)ものである。
この第2例においても,前記第1の音源分離ユニット10における分離行列を用いた音源分離処理を,時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrameの単位で実行することは前記第1例と同様である。
図4(a−2)は,分離行列の計算(学習)と,その分離行列に基づくフィルタ処理により分離信号を生成(同定)する処理とを,異なるFrameを用いて実行する場合(以下,処理(a−2)という)を表し,図4(b−2)は,それらを同一のFrameを用いて実行する場合(以下,処理(b−2)という)を表す。
前記処理(a−2)では,図4(a−2)に示すように,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記混合音声信号(Frame)全てに相当するFrame(i)のうち,先頭側の一部(例えば,先頭から所定時間分)の信号(以下,Sub-Frame(i)という)を用いて分離行列の計算(学習)を行い,それにより求められた分離行列を用いて時刻Ti+1〜Ti+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理(フィルタ処理)を実行する。即ち,ある1期間の混合音声信号の先頭側の一部に基づき計算された分離行列を用いて次の1期間の混合音声信号の分離処理(同定処理)を行う。このとき,ある1期間のFrame(i)の先頭側の一部を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いれば,逐次計算(学習)の収束が早まり好適である。
一方,前記処理(b−2)では,図4(b−2)に示すように,時刻Ti〜Ti+1の期間に入力された前記混合音声信号全てに相当するFrame(i)のうち,先頭側の一部(例えば,先頭から所定時間分)のSub-Frame(i)を用いて分離行列の計算(学習)を行いつつそのFrame(i)全てを保持し,Sub-Frame(i)に基づき求められた分離行列を用いて,保持されたFrame(i)について分離処理(フィルタ処理)を実行する。この場合も,ある1期間のFrame(i)の一部であるSub-Frame(i)を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)の一部であるSub-Frame(i+1)を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いることが好ましい。
以上示したように,前記処理(a−2)も,前記処理(b−2)も,前記第1の音源分離ユニット10において,時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame(区間信号の一例)ごとに,所定の分離行列に基づく分離処理を順次実行して前記分離信号y2i(t)を生成するものであり,また,Frame(区間信号)の時間帯のうちの先頭側の一部の時間帯の信号に基づいて,次に用いる前記分離行列を求める逐次計算を行うものである。
但し,その逐次計算は,最大でも前記予め定められた周期(Ti+1−Ti)の時間内に制限して実行する。
このように,前記第1の音源分離ユニット10の処理において,前記分離行列Wを求める逐次計算(学習計算)に用いる混合音声信号をFrameごとにその先頭側の一部の時間帯の信号に限定することにより,比較的多くの回数の逐次計算(学習)を行っても(制限回数を比較的多く設定しても)リアルタイム処理が可能になる。
ところで,図2に示した実施形態では,前記第1の音源分離ユニット10により逐次計算される前記分離行列Wの収束度合いを表す前記評価値εに基づいて,前記マルチプレクサ30によって前記第1の音源分離ユニット10及び前記第2の音源分離ユニット20のいずれにより生成される前記分離信号を前記出力信号とするかを切り替える例を示した。
しかし,これに限るものでなく,前記マルチプレクサ30(出力切替手段の一例)の切り替え状態を,例えば,前記第1の音源分離ユニット10における前記分離行列Wの最初の学習計算の開始(図2におけるステップS3)から,その学習計算の回数が予め定められた学習に十分な演算回数に到達するまで,或いはそのような十分な回数の学習計算が可能な所定時間が経過するまでは,ステップS1で設定された状態,即ち,前記第2の音源分離ユニット20により生成される前記分離信号y2i(t)を前記出力信号yi(t)とする状態に維持し,その後に前記第1の音源分離ユニット10により生成される前記分離信号y1i(t)を前記出力信号yi(t)とする状態に切り替える(図2におけるステップS6)よう構成することも考えられる。
このような構成によっても,処理を開始してから,前記第1の音源分離ユニット10における前記分離行列Wが十分収束するまで(学習されるまで)は,安定した音源分離性能が得られる前記第2の音源分離ユニット20に基づく分離信号が出力信号として採用され,その後は,音源分離性能の高い状態となった前記第1の音源分離ユニット10に基づく分離信号が出力信号として採用される結果,リアルタイム処理を可能としつつ,音源分離性能を極力高めることが可能となる。
本発明は,音源分離装置への利用が可能である。
本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図。 音源分離装置Xの音源分離処理の手順を表すフローチャート。 音源分離装置Xにおける第1の音源分離ユニットによる分離行列計算の第1例の概要を説明するためのタイムチャート。 音源分離装置Xにおける第1の音源分離ユニットによる分離行列計算の第2例の概要を説明するためのタイムチャート。 TDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Z1の概略構成を表すブロック図。 FDICA法に基づく音源分離処理を行う音源分離装置Z2の概略構成を表すブロック図。 バイナリーマスキング処理を説明するための図。
符号の説明
X…本発明の実施形態に係る音源分離装置
1,2…音源
10…第1の音源分離ユニット
11,11f…分離フィルタ処理部
13…ST−DFT処理部
20…第2の音源分離ユニット
30…マルチプレクサ
31…バイナリーマスキング処理における比較部
32…バイナリーマスキング処理における分離部
50…制御部
111,112…マイクロホン
S1,S2,,,…処理手順(ステップ)

Claims (9)

  1. 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から前記音源信号を分離した分離信号を逐次生成して出力信号とする音源分離装置であって,
    所定時間長分の複数の前記混合音声信号を用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を行うことにより前記分離行列を順次算出する分離行列算出手段と,
    前記分離行列算出手段により算出された前記分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第1の音源分離手段と,
    独立成分分析法に基づくブラインド音源分離方式以外のリアルタイムの音源分離処理により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第2の音源分離手段と,
    前記第1の音源分離手段により生成される前記分離信号を前記出力信号とするか,前記第2の音源分離手段により生成される前記分離信号を前記出力信号とするかを切り替える出力切替手段と,
    を具備してなることを特徴とする音源分離装置。
  2. 前記分離行列算出手段が,所定の設定時間分の前記混合音声信号が入力されるごとにその入力信号全体を用いて前記分離行列の学習計算を行うものであり,該学習計算の学習回数上限が,前記設定時間以内で計算を終える回数に設定されてなる請求項1に記載の音源分離装置。
  3. 前記分離行列算出手段が,所定の設定時間分の前記混合音声信号が入力されるごとにその入力信号のうちの一部の時間長分を用いて前記分離行列の学習計算を行うものである請求項1に記載の音源分離装置。
  4. 前記出力切替手段が,前記分離行列算出手段における前記分離行列の最初の学習計算の開始から,その学習計算の学習回数が所定回数に到達するまで若しくは所定時間が経過するまでは前記第2の音源分離手段により生成される前記分離信号を前記出力信号とし,その後に前記第1の音源分離手段により生成される前記分離信号を前記出力信号とするよう切り替えてなる請求項1〜3のいずれかに記載の音源分離装置。
  5. 前記出力切替手段が,前記分離行列算出手段による前記学習計算の収束度合いに基づいて前記第1の音源分離手段及び前記第2の音源分離手段のいずれにより生成される前記分離信号を前記出力信号とするかを切り替えてなる請求項1〜3のいずれかに記載の音源分離装置。
  6. 前記出力切替手段が,前記出力信号を前記第1の音源分離手段による前記分離信号から前記第2の音源分離手段による前記分離信号へ切り替える場合とその逆方向に切り替える場合とで,その切り替えの判別に異なる前記分離行列の収束度合いのしきい値を用いてなる請求項5に記載の音源分離装置。
  7. 前記第2の音源分離手段が,バイナリーマスキング処理,帯域制限フィルタ処理及びビームフォーマ処理のうちのいずれかにより前記分離信号を生成するものである請求項1〜6のいずれかに記載の音源分離装置。
  8. 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から前記音源信号を分離した分離信号を逐次生成して出力信号とする音源分離処理をコンピュータに実行させるための音源分離プログラムであって,
    所定時間長分の複数の前記混合音声信号を用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を行うことにより前記分離行列を順次算出する分離行列算出処理と,
    前記分離行列算出処理により算出された前記分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第1の音源分離処理と,
    独立成分分析法に基づくブラインド音源分離方式以外のリアルタイムの音源分離処理により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第2の音源分離処理と,
    前記第1の音源分離処理により生成される前記分離信号を前記出力信号とするか,前記第1の音源分離処理が実行されている状態で前記第2の音源分離処理により生成される前記分離信号を前記出力信号とするかを切り替える出力切替処理と,
    をコンピュータに実行させるための音源分離プログラム。
  9. 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から前記音源信号を分離した分離信号を逐次生成して出力信号とする音源分離方法であって,
    所定時間長分の複数の前記混合音声信号を用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を行うことにより前記分離行列を順次算出する分離行列算出工程と,
    前記分離行列算出工程により算出された前記分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第1の音源分離工程と,
    独立成分分析法に基づくブラインド音源分離方式以外のリアルタイムの音源分離処理により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を生成する第2の音源分離工程と,
    前記第1の音源分離工程により生成される前記分離信号を前記出力信号とするか,前記第2の音源分離工程により生成される前記分離信号を前記出力信号とするかを切り替える出力切替工程と,
    を有してなることを特徴とする音源分離方法。
JP2005216391A 2005-07-26 2005-07-26 音源分離装置,音源分離プログラム及び音源分離方法 Expired - Fee Related JP4675177B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005216391A JP4675177B2 (ja) 2005-07-26 2005-07-26 音源分離装置,音源分離プログラム及び音源分離方法
EP06117505A EP1748427A1 (en) 2005-07-26 2006-07-19 Sound source separation apparatus and sound source separation method
US11/489,441 US20070025556A1 (en) 2005-07-26 2006-07-20 Sound source separation apparatus and sound source separation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005216391A JP4675177B2 (ja) 2005-07-26 2005-07-26 音源分離装置,音源分離プログラム及び音源分離方法

Publications (2)

Publication Number Publication Date
JP2007033825A true JP2007033825A (ja) 2007-02-08
JP4675177B2 JP4675177B2 (ja) 2011-04-20

Family

ID=37267536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005216391A Expired - Fee Related JP4675177B2 (ja) 2005-07-26 2005-07-26 音源分離装置,音源分離プログラム及び音源分離方法

Country Status (3)

Country Link
US (1) US20070025556A1 (ja)
EP (1) EP1748427A1 (ja)
JP (1) JP4675177B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203474A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> 多信号強調装置、方法、プログラム及びその記録媒体
JP2008252587A (ja) * 2007-03-30 2008-10-16 Mega Chips Corp 信号処理装置
JP2008295011A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP2008295010A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP2009134102A (ja) * 2007-11-30 2009-06-18 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP2009257933A (ja) * 2008-04-17 2009-11-05 Kobe Steel Ltd 磁場測定装置,非破壊検査装置,磁場測定信号処理方法
JP2014045507A (ja) * 2008-01-29 2014-03-13 Qualcomm Incorporated 複数のマイクからの信号間で知的に選択することによって音質を改善すること
JP2014517607A (ja) * 2011-05-16 2014-07-17 クゥアルコム・インコーポレイテッド ブラインドソース分離ベースの空間フィルタ処理
WO2018047643A1 (ja) * 2016-09-09 2018-03-15 ソニー株式会社 音源分離装置および方法、並びにプログラム

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4672611B2 (ja) * 2006-07-28 2011-04-20 株式会社神戸製鋼所 音源分離装置、音源分離方法及び音源分離プログラム
US20080267423A1 (en) * 2007-04-26 2008-10-30 Kabushiki Kaisha Kobe Seiko Sho Object sound extraction apparatus and object sound extraction method
DE102007033877B3 (de) * 2007-07-20 2009-02-05 Siemens Audiologische Technik Gmbh Verfahren zur Signalverarbeitung in einer Hörhilfe
JP5195652B2 (ja) * 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US8521477B2 (en) * 2009-12-18 2013-08-27 Electronics And Telecommunications Research Institute Method for separating blind signal and apparatus for performing the same
KR101670313B1 (ko) * 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
CN102543098B (zh) * 2012-02-01 2013-04-10 大连理工大学 一种分频段切换cmn非线性函数的频域语音盲分离方法
CN102592607A (zh) * 2012-03-30 2012-07-18 北京交通大学 一种使用盲语音分离的语音转换系统和方法
CN105991102A (zh) * 2015-02-11 2016-10-05 冠捷投资有限公司 具有语音增强功能的媒体播放装置
EP3335217B1 (en) 2015-12-21 2022-05-04 Huawei Technologies Co., Ltd. A signal processing apparatus and method
US10878832B2 (en) * 2016-02-16 2020-12-29 Nippon Telegraph And Telephone Corporation Mask estimation apparatus, mask estimation method, and mask estimation program
US10410641B2 (en) 2016-04-08 2019-09-10 Dolby Laboratories Licensing Corporation Audio source separation
CN109074811B (zh) * 2016-04-08 2023-05-02 杜比实验室特许公司 音频源分离
CN106024005B (zh) * 2016-07-01 2018-09-25 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
CN110827843B (zh) * 2018-08-14 2023-06-20 Oppo广东移动通信有限公司 音频处理方法、装置、存储介质及电子设备
CN113646837A (zh) 2019-03-27 2021-11-12 索尼集团公司 信号处理装置、方法和程序
CN111009256B (zh) * 2019-12-17 2022-12-27 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质
CN111179960B (zh) * 2020-03-06 2022-10-18 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
CN111724801A (zh) * 2020-06-22 2020-09-29 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
CN114220454B (zh) * 2022-01-25 2022-12-09 北京荣耀终端有限公司 一种音频降噪方法、介质和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG200300078004, 猿渡 洋 Hiroshi SARUWATARI, "アレー信号処理を用いたブラインド音源分離の基礎 Blind Source Separation Using Array Signal Processin", 電子情報通信学会技術研究報告 Vol.101 No.32 IEICE Technical Report, 20010420, 第101巻, 第49−56頁, JP, 社団法人電子情報通信学会 The Institute of Electro *
JPN6010024511, 猿渡 洋 Hiroshi SARUWATARI, "アレー信号処理を用いたブラインド音源分離の基礎 Blind Source Separation Using Array Signal Processin", 電子情報通信学会技術研究報告 Vol.101 No.32 IEICE Technical Report, 20010420, 第101巻, 第49−56頁, JP, 社団法人電子情報通信学会 The Institute of Electro *
JPN6010024512, 猿渡洋、外3名, "音響信号のブラインド音源分離 : その最新研究動向について", 電子情報通信学会総合大会講演論文集 2005年 基礎・境界, 61, 20050307, S−61,S−62, JP, 社団法人電子情報通信学会 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203474A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> 多信号強調装置、方法、プログラム及びその記録媒体
JP2008252587A (ja) * 2007-03-30 2008-10-16 Mega Chips Corp 信号処理装置
WO2008123315A1 (ja) * 2007-03-30 2008-10-16 National University Corporation NARA Institute of Science and Technology 信号処理装置
KR101452537B1 (ko) 2007-03-30 2014-10-22 고쿠리츠다이가쿠호징 나라 센탄카가쿠기쥬츠 다이가쿠인 다이가쿠 신호처리장치
US8488806B2 (en) 2007-03-30 2013-07-16 National University Corporation NARA Institute of Science and Technology Signal processing apparatus
JP4519901B2 (ja) * 2007-04-26 2010-08-04 株式会社神戸製鋼所 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP4519900B2 (ja) * 2007-04-26 2010-08-04 株式会社神戸製鋼所 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP2008295010A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP2008295011A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP4493690B2 (ja) * 2007-11-30 2010-06-30 株式会社神戸製鋼所 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP2009134102A (ja) * 2007-11-30 2009-06-18 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP2014045507A (ja) * 2008-01-29 2014-03-13 Qualcomm Incorporated 複数のマイクからの信号間で知的に選択することによって音質を改善すること
JP2009257933A (ja) * 2008-04-17 2009-11-05 Kobe Steel Ltd 磁場測定装置,非破壊検査装置,磁場測定信号処理方法
JP2014517607A (ja) * 2011-05-16 2014-07-17 クゥアルコム・インコーポレイテッド ブラインドソース分離ベースの空間フィルタ処理
WO2018047643A1 (ja) * 2016-09-09 2018-03-15 ソニー株式会社 音源分離装置および方法、並びにプログラム
US10924849B2 (en) 2016-09-09 2021-02-16 Sony Corporation Sound source separation device and method

Also Published As

Publication number Publication date
US20070025556A1 (en) 2007-02-01
JP4675177B2 (ja) 2011-04-20
EP1748427A1 (en) 2007-01-31

Similar Documents

Publication Publication Date Title
JP4675177B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP4496186B2 (ja) 音源分離装置、音源分離プログラム及び音源分離方法
Hoshen et al. Speech acoustic modeling from raw multichannel waveforms
US9668066B1 (en) Blind source separation systems
JP4897519B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
US20070133811A1 (en) Sound source separation apparatus and sound source separation method
JP2007034184A (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
JP4462617B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP2007295085A (ja) 音源分離装置及び音源分離方法
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
JP6334895B2 (ja) 信号処理装置及びその制御方法、プログラム
US11978471B2 (en) Signal processing apparatus, learning apparatus, signal processing method, learning method and program
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
JP2007279517A (ja) 音源分離装置、音源分離装置用のプログラム及び音源分離方法
KR101043114B1 (ko) 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치
JP4519901B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP4336378B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
JP2007033804A (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP4849404B2 (ja) 信号処理装置、信号処理方法およびプログラム
JP2007282177A (ja) 音源分離装置、音源分離プログラム及び音源分離方法
JP2010152107A (ja) 目的音抽出装置及び目的音抽出プログラム
JP4519900B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
Guzewich et al. Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees