JP2007033825A - 音源分離装置,音源分離プログラム及び音源分離方法 - Google Patents
音源分離装置,音源分離プログラム及び音源分離方法 Download PDFInfo
- Publication number
- JP2007033825A JP2007033825A JP2005216391A JP2005216391A JP2007033825A JP 2007033825 A JP2007033825 A JP 2007033825A JP 2005216391 A JP2005216391 A JP 2005216391A JP 2005216391 A JP2005216391 A JP 2005216391A JP 2007033825 A JP2007033825 A JP 2007033825A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- separation
- signal
- source separation
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Abstract
【解決手段】 複数の混合音声信号Xi(t)からICA−BSS方式の音源分離処理により音源信号Si(t)を分離した第1分離信号y1i(t)を分離生成する第1の音源分離ユニット10と,そのようなICA−BSS音源分離処理以外の方式のリアルタイムの音源分離処理により第2分離信号y2i(t)を分離生成する第2の音源分離ユニット20と,第1分離信号y1i(t)を出力信号yi(t)とするか,第2分離信号y2i(t)を出力信号yi(t)とするかを切り替えるマルチプレクサ30とを具備する。第1の音源分離ユニット10の処理は,マルチプレクサ30の選択状況によらず継続実行され,第1分離信号y1i(t)が出力されているときは,第1の音源ユニット10における分離行列Wの逐次計算回数を,リアルタイム処理が可能な回数に制限する。
【選択図】図1
Description
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクを通じて入力される複数の前記混合音声信号(時系列の音声信号)において,前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し,入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際,分離行列の最適化は,ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて,逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献1や非特許文献2等に詳説されている。さらに,非特許文献8には,多段階のICA法に基づくBSS方式の音源分離処理について示されている。
また,特許文献1には,周波数領域におけるブラインド音源分離処理において,permutation(周波数解析窓ごとに分離音源の入れ替わりが発生する現象)の問題を分離信号の類似度計算によって解決する技術が示されている。
一方,音源分離処理としては,例えば,バイノーラル信号処理(分解)を起源として3つ以上の音源信号の分離が可能なバイナリーマスキング処理等による音源分離処理も知られている。バイノーラル信号処理は,人間の聴覚モデルに基づいて複数の入力音声信号に時変のゲイン調節を施して音源分離を行うものであり,比較的低い演算負荷で実現できる音源分離処理である。これについては,例えば,非特許文献3や非特許文献4等に詳説されている。
一方,前記バイナリーマスキング処理や帯域フィルタ処理,ビームフォーマ等の音源分離処理は,長くても数ms〜数百ms程度の瞬時の混合音声信号のみを用いて音源分離が可能であり,演算負荷が小さくリアルタイム処理に適しているとともに,音源分離性能が音響環境の変化の影響を受けにくい。このように,ICA法に基づくBSS方式の音源分離処理以外の音源分離処理には,製品組み込み用として実用的なプロセッサによってリアルタイム処理が可能であるとともに,処理開始時や音響環境が変化する状況下でも比較的安定した音源分離性能が得られるものがあるが,前記分離行列の学習が十分なされたICA法に基づくBSS方式による音源分離処理に比べると音源分離性能は劣るという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,リアルタイム処理を可能としつつ,音源分離性能を極力高められる音源分離装置,音源分離プログラム及び音源分離方法を提供することにある。
このような処理を行うことにより,前記第1の音源分離処理(ICA−BSS音源分離処理)における分離行列の収束状態(学習状態)が十分でない状況では,リアルタイム処理が可能で安定した音源分離性能が得られる前記第2の音源分離処理(バイナリーマスキング処理,帯域フィルタ処理,ビームフォーマ等)に基づく分離信号を出力信号として採用し,その間,前記第1の音源分離処理に用いる前記分離行列の学習(逐次計算)を並行して行うことによって前記分離行列の収束状態が十分となった状況では,音源分離性能の高い前記第1の音源分離処理による分離信号を出力信号として採用することができる。
これにより,リアルタイム処理を可能としつつ,音源分離性能を極力高めることが可能となる。
ここで,前記分離行列算出処理において,所定の設定時間分の前記混合音声信号(後述するFrame)が入力されるごとにその入力信号全体を用いて前記分離行列の学習計算を行い,その学習計算の学習回数上限を,前記設定時間以内で計算を終える回数に設定しておくことが考えられる。
これにより,前記分離行列の学習計算(分離行列の更新)を短周期で行うことができる(学習計算時間を短縮できる)ので,音源の状態が変化した場合でも,その変化に対して早期に追従して高い音源分離性能を確保することができる。また,前記分離行列が十分に収束した(学習された)後は,その後の分離行列の学習回数(逐次計算回数)を制限しても,音響環境が大きく変化しない限り,高い音源分離性能が維持される。
これに対し,前記分離行列算出処理において,所定の設定時間分の前記混合音声信号が入力されるごとにその入力信号のうちの一部の時間長分を用いて前記分離行列の学習計算を行うことも考えられる。
これによっても,前記分離行列の学習計算(分離行列の更新)を短周期で行うことができるので,音源の状態変化に早期に追従して高い音源分離性能を確保することができる。一般には,逐次入力される前記混合音声信号の全てが学習計算に反映されることが望ましいが,その一部を用いた学習計算によっても,音源状態の変化がそれほど大きくなければ十分な音源分離性能を確保できる。
これにより,処理を開始してから,前記第1の音源分離処理における前記分離行列が十分収束するまで(学習されるまで)は,安定した音源分離性能が得られる前記第2の音源分離処理に基づく分離信号が出力信号として採用され,その後は,音源分離性能の高い状態となった前記第1の音源分離処理に基づく分離信号が出力信号として採用されることになる。
その他,前記分離行列算出手段による前記学習計算の収束度合いに基づいて前記第1の音源分離処理及び前記第2の音源分離処理のいずれにより生成される前記分離信号を前記出力信号とするかを切り替えることも考えられる。ここで,前記学習計算の収束度合いは,前記学習計算を行うごとに所定の評価値を算出し,その評価値の変化(勾配)の大きさによって評価すること等が考えられる。
これにより,音響環境が安定している等の状況であるため前記学習計算を比較的短周期で行っても十分に収束する状況においては,音源分離性能の高い前記第1の音源分離処理が採用され,処理を開始後の一定期間や,音響環境が大きく変化した場合には前記学習計算の収束度合いが十分でなくなるので,前記第2の音源分離処理が採用される,というように,状況に応じて適切な音源分離処理が採用されることになる。これにより,音源分離のリアルタイム処理を可能としつつ,音源分離性能を極力高めることが可能となる。
さらに,そのような切り替えを行う場合,前記出力信号を前記第1の音源分離処理による前記分離信号から前記第2の音源分離処理による前記分離信号へ切り替える場合とその逆方向に切り替える場合とで,その切り替えの判別に異なる前記分離行列の収束度合いのしきい値を用いるようにする,即ち,その切り替えにヒステリシス特性を持たせることが考えられる。
これにより,前記分離信号の収束度合いが所定のしきい値の前後を行き来することにより,採用される音源分離処理が短期間の間に頻繁に切り替わって不安定な処理状態を招くという問題を回避できる。
例えば,そのような切り替えをICA−BSS音源分離処理における分離行列の収束度合いに基づいて行えば,分離行列の収束状況に応じて(処理を開始後の一定期間や音響環境が大きく変化した場合等とその他の場合とで)適切な音源分離処理が採用され,リアルタイム処理を確保しつつ,音源分離性能を最大限高めることが可能となる。さらに,そのような切り替えを行う方向(ICA−BSS音源分離処理からその他の音源分離処理への切り替えかその逆か)によって,前記分離行列の収束度合いのしきい値として異なる値を用いるようにすれば,採用される音源分離処理が短期間の間に頻繁に切り替わって不安定な処理状態を招くという問題を回避できる。
ここに,図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図,図2は音源分離装置Xの音源分離処理の手順を表すフローチャート,図3は音源分離装置Xにおける第1の音源分離ユニットによる分離行列計算の第1例の概要を説明するためのタイムチャート,図4は音源分離装置Xにおける第1の音源分離ユニットによる分離行列計算の第2例の概要を説明するためのタイムチャート,図5はTDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Z1の概略構成を表すブロック図,図6はFDICA法に基づく音源分離処理を行う音源分離装置Z2の概略構成を表すブロック図,図7はバイナリーマスキング処理を説明するための図である。
なお,以下に示す音源分離処理或いはその処理を行う装置等は,いずれも所定の音響空間に複数の音源と複数のマイクロホン(音声入力手段)とが存在する状態で,そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号(以下,音源信号という)が重畳された複数の混合音声信号から,1以上の音源信号を分離(同定)した分離信号を生成して出力信号とする音源分離処理或いはその処理を行う装置等に関するものである。
音源分離装置Zは,分離フィルタ処理部11により,2つの音源1,2からの音源信号S1(t),S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)について,分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。
図5には,2つの音源1,2からの音源信号S1(t),S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)に基づいて音源分離を行う例について示しているが,2チャンネル以上であっても同様である。ICA法に基づくBSS方式による音源分離の場合,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111,112各々で集音された各混合音声信号x1(t),x2(t)には,複数音源からの音源信号が重畳されている。以下,各混合音声信号x1(t),x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され,次の(1)式のように表される。
ここで,当該音源分離処理に用いる分離行列をW(z)とすれば,分離信号(即ち,同定信号)y(t)は,次の(2)式で表される。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。また,分離行列W(z)の逐次計算を行う際の分離行列の初期値(初期行列)は,予め定められたものが設定される。
このようなICA法に基づくBSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から,歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで,(2)式は,次の(3)式のように書き換えて表現できる。
FDICA法では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(5)式のように表すことができる。
以上に示したTDICA,FDICAの他,非特許文献8に示されるような多段階のICA−BSS音源分離処理等,音源の独立性を評価して音源分離を行うICA−BSS方式の基本概念から逸脱していないアルゴリズムに基づく音源分離処理であれば,本発明の構成要素として適用され得るICA法に基づくBSS方式の音源分離処理といえるものである。
音源分離装置Xは,ある音響空間に複数の音源1,2と複数のマイクロホン111,112(音声入力手段)とが存在する状態で,そのマイクロホン111,112各々を通じて逐次入力される音源1,2各々からの音源信号(個別の音声信号)が重畳された複数の混合音声信号Xi(t)から,音源信号(個別音声信号)を分離(同定)した分離信号(即ち,音源信号に対応した同定信号)yを逐次生成してスピーカ(音声出力手段)に対してリアルタイム出力する(以下,これを出力信号という)ものである。この音源分離装置Xは,例えば,ハンズフリー電話機やテレビ会議の収音装置等への利用が可能なものである。
図1に示すように,音源分離装置Xは,予め定められた時間長分の複数の混合音声信号Xi(t)を用いて,独立成分分析(ICA)法に基づくブラインド音源分離(BSS)方式の音源分離処理(以下,ICA−BSS音源分離処理という)における分離行列Wの学習計算を行うことにより,分離行列Wを順次算出するとともに(分離行列算出手段の一例),その学習計算により得られた分離行列W用いた行列演算を行うことにより,複数の混合音声信号Xi(t)から音源信号Si(t)を分離(同定)した分離信号y1i(t)(以下,第1分離信号という)を逐次分離生成する第1の音源分離ユニット10(第1の音源分離手段の一例)と,そのようなICA−BSS音源分離処理以外の方式のリアルタイムの音源分離処理により複数の前記混合音声信号号Xi(t)から前記音源信号Si(t)に対応する分離信号y2i(t)(以下,第2分離信号という)を逐次分離生成する第2の音源分離ユニット20(第2の音源分離手段の一例)とを具備している。
ここで,前記第1の音源分離ユニット10における分離行列算出及び音源分離の処理としては,例えば,図5に示したTDICA法に基づくBSS方式の音源分離処理や,図6に示したFDICA法に基づくBSS方式の音源分離処理等が採用される。
また,前記第2の音源分離ユニット20における音源分離処理としては,例えば,周知の帯域制限フィルタ処理やバイナリーマスキング処理,ビームフォーマ処理等,演算負荷が小さく一般的な装置組み込み型の演算手段でリアルタイム処理が可能な音源分離処理が採用される。
また,分離対象となる音源信号の周波数帯域の重複が少ない場合には,前記第2の音源分離ユニット20における音源分離処理として帯域フィルタ処理(帯域制限フィルタ処理)を採用することも考えられる。
例えば,2つの音源信号の周波数帯域が,所定のしきい周波数を境にしてそれ未満の帯域とそれ以上の帯域とに概ね分かれて分布している場合,2つの混合音声信号の一方をそのしきい周波数未満の周波数帯域の信号のみを通過させるローパスフィルタに入力させ,他方をそのしきい周波数以上の周波数帯域の信号のみを通過させるハイパスフィルタに入力させることにより,各音源信号に対応する分離信号を生成できる。
バイナリーマスキング処理を実行する装置やプログラムは,複数の入力信号(本発明においては複数の混合音声信号Xi(t))の比較処理を行う比較部31と,その比較部31による比較処理の結果に基づいて入力信号にゲイン調節を施して信号分離(音源分離)を行う分離部32とを有している。
バイナリーマスキング処理では,まず,前記比較部31において,入力信号各々について周波数成分ごとの信号レベル(振幅)分布AL,ARを検出し,同じ周波数成分における信号レベルの大小関係を判別する。
図7において,BL,BRは,入力信号各々における周波数成分ごとの信号レベル分布と,その信号レベルごとに他方の対応する信号レベルに対する大小関係(○,×)とを表した図である。図中,「○」印は,前記比較部31による判別の結果,他方の対応する信号レベルよりも当該信号の信号レベルの方が大きかったことを表し,「×」印は同じく当該信号レベルの方が小さかったことを表している。
次に,前記分離部32により,前記比較部31による信号比較の結果(大小判別の結果)に基づいて,入力信号各々にゲイン乗算(ゲイン調節)を施すことにより分離信号(同定信号)を生成する。この分離部32における最も簡単な処理の例としては,入力信号について,周波数成分ごとに,信号レベルが最も大きいと判別された入力信号の周波数成分にゲイン1を乗算し,その他の入力信号全ての同じ周波数成分にゲイン0(ゼロ)を乗算すること等が考えられる。
これにより,入力信号と同数の分離信号(同定信号)CL,CRが得られる。この分離信号CL,CRのうち,一方は,入力信号の同定の対象となった音源信号に相当するものとなり,他方は入力信号に混在するノイズ(同定対象の音源信号以外の音源信号)に相当するものとなる。
なお,図7には,2つの入力信号に基づくバイナリーマスキング処理の例を示すが,3つ以上の入力信号に基づく処理であっても同様である。
ここで,少なくとも前記第1の音源分離ユニット10による処理は,前記マルチプレクサ30によりいずれの分離信号が出力信号として選択されているかにかかわらず継続実行される。これにより,前記マルチプレクサ30により前記第2分離信号y2i(t)が出力信号yi(t)として選択されている場合でも,前記第1の音源分離ユニット10において,これにより生成された前記第1分離信号y1i(t)に基づいて次の前記第1分離信号の生成処理に用いる分離行列W(図5等に示すW(Z),或いは図6等に示すW(f))の逐次計算(学習計算)は並行して行われる。
また,音源分離装置Xは,前記マルチプレクサ30から信号の選択状態を表す情報を取得し,その取得情報を前記第1の音源分離ユニット10に伝達する処理や,前記第1の音源分離ユニット10における前記分離行列Wの収束状態(学習状態)を監視して,その結果に基づく前記マルチプレクサ30の切り替え制御を行う制御部50も具備している。
ここで,図1には,チャンネル数が2つ(マイクロホンの数が2つ)である例について示したが,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であれば,3チャンネル以上であっても同様の構成により実現できる。
また,各構成要素10,20,30,50は,それぞれDSP(Digital Signal Processor)又はCPU及びその周辺装置(ROM,RAM等)と,そのDSP若しくはCPUにより実行されるプログラムとにより構成されたものや,或いは,1つのCPU及びその周辺装置を有するコンピュータにより,各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また,所定のコンピュータに各構成要素の処理を実行させる音源分離プログラムとして提供することも考えられる。
まず,音源分離装置Xが電源ON等により起動されると,まず,前記マルチプレクサ30により,その信号切り替え状態(出力選択状態)が,前記第2の音源分離ユニット20による第2分離信号y2i(t)を出力信号yi(t)とするB側に設定される(S1)。
次に,前記第1及び第2の音源分離ユニット10,20は,前記制御部50により開始命令(処理開始操作)が検知されるまで待機し(S2),開始命令が検知されると,その両ユニット10,20が音源分離処理を開始する(S3)。
これにより,前記第1の音源分離ユニット10における前記分離行列Wの逐次計算(学習計算)も開始され,その開始時には,前記第2の音源分離ユニット20により生成される前記第2分離信号y2i(t)が出力信号yi(t)として採用される。
即ち,前記制御部50により,前記第1の音源分離ユニット10において逐次計算される前記分離行列Wの収束度合いを表す所定の評価値εがチェックされ(S5,S8),その評価値εに基づいて,前記第1の音源分離ユニット10及び前記第2の音源分離ユニット20のいずれにより生成される前記分離信号を前記出力信号yとするかが,前記マルチプレクサ30(出力切替手段の一例)を通じて切り替えられる。
前記分離行列Wの収束度合いを表す評価値ε(指標)としては,例えば,次の(7)式により表される評価値εを用いることが考えられる。この評価値εは,分離行列Wの更新に用いる前述した(4)式における右辺第2項で,W[j](d)に乗算されている係数である。
そこで,前記マルチプレクサ30が前記B側に設定されているときは,前記制御部50により,前記評価値εが第1のしきい値ε1未満であるか否かがチェックされ(S5),ε1以上である間は前記マルチプレクサ30によって前記第2の音源分離ユニット20による前記第2分離信号y2i(t)を出力信号yi(t)とする状態(B側の設定)が維持されるが,ε1未満であると判別されたときは,前記マルチプレクサ30を通じて前記第1の音源分離ユニット10による前記第1分離信号y1i(t)を出力信号yi(t)とする状態(A側の設定)に切り替えられる(S6)。
ここで,前記マルチプレクサ30による信号切り替えの基準となる前記評価値εのしきい値ε1,ε2は,ヒステリシス特性を有する切り替えが行われるよう設定されている。即ち,前記出力信号yi(t)を,前記第1の音源分離ユニット10による第1分離信号y1i(t)から前記第2の音源分離ユニット20による第2分離信号y2i(t)へ切り替える場合の判別に用いる前記分離行列の評価値ε(収束度合い)のしきい値ε2と,その逆方向に切り替える場合に用いるしきい値ε2とは異なる値(ε1<ε2)に設定されている。
これにより,分離信号の収束度合いを表す評価値εが,所定のしきい値(例えば,ε1)の前後を行き来することにより,採用される音源分離処理が短期間の間に頻繁に切り替わって不安定な処理状態を招くという問題を回避している。もちろん,そのようにすることは必須ではなく,ε1=ε2と設定することも考えられる。その他,前記評価値εそのものをしきい値により判別するのではなく,前記評価値εの変化(勾配)が,所定のしきい値未満となったか否かによって分離信号の収束度合いを評価することも考えられる。
一方,処理中に,前記終了命令が検知されると(S4のY側,又はS7のY側),当該音源分離装置Xによる音源分離処理は終了する。
ここで,図3は,前記第1の音源分離ユニット10の処理(ICA−BSS音源分離処理)について,分離行列の計算と分離処理との各々に用いる混合音声信号の区分の第1例をタイムチャート的に表したものである。
この第1例では,前記第1の音源分離ユニット10における分離行列を用いた音源分離処理を,時系列に入力される前記混合音声信号を予め定められた周期で区分された信号(以下,Frameという)の単位で実行する。
図3(a−1)は,分離行列の計算(学習)と,その分離行列に基づくフィルタ処理により分離信号を生成(同定)する処理とを,異なるFrameを用いて実行する場合(以下,処理(a−1)という)を表し,図3(b−1)は,それらを同一のFrameを用いて実行する場合(以下,処理(b−1)という)を表す。
前記処理(a−1)では,図3(a−1)に示すように,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算(学習)を行い,それにより求められた分離行列を用いて時刻(Ti+1+Td)〜(Ti+2+Td)の期間に入力された前記混合音声信号全てに相当するFrame(i+1)’について分離処理(フィルタ処理)を実行する。ここで,Tdは1つのFrameを用いた分離行列の学習に要する時間である。即ち,ある1期間の混合音声信号に基づき計算された分離行列を用いて,Frame時間長+学習時間だけずれた次の1期間の混合音声信号の分離処理(同定処理)を行う。このとき,ある1期間のFrame(i)を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)’を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いれば,逐次計算(学習)の収束が早まり好適である。
以上示したように,前記処理(a−1)も,前記処理(b−1)も,前記第1の音源分離ユニット10による音源分離処理において,時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame(所定の設定時間分の前記混合音声信号の一例)が入力されるごとに,その入力信号全体を用いて所定の分離行列Wの学習計算を行うとともに,その学習計算により得られた分離行列を用いた行列演算である分離処理を順次実行して前記分離信号y1i(t)を生成するものである。
ここで,分離行列Wの学習計算は,Frameの全体又は一部について,その時点で最新の分離行列Wをワーク行列の初期値とし,そのワーク行列を用いた行列演算を行うことにより分離信号y1i(t)を求めた後,前述した(4)式に基づいてワーク行列を修正(学習)するという一連の処理を繰り返す(逐次計算する)ことによって行われる。そして,Frameごとの学習計算が終了するごとに,最終的に得られたワーク行列を,前記第1分離信号y1i(t)を算出するのに用いる分離行列Wに設定(更新)する。
しかしながら,現在の計算機の処理能力では,演算負荷が比較的少ないFDICA音源分離処理であっても,この1つのFrameの時間範囲内(Ti〜Ti+1)に,十分な音源分離性能を確保できるだけの十分な学習計算(逐次計算処理)を常に完了させることは困難である。
そこで,前記第1の音源分離ユニット10は,1Frame分の混合音声信号が入力されるごとに,その1Frame分の信号全体を用いて前記分離行列Wの学習計算(逐次計算)を行うとともに,その学習計算の上限回数(学習回数の上限)が,1Frameの時間長(設定時間の一例)以内で計算を終える回数に設定されている。ここで,前記第1の音源分離ユニット10により,前記マルチプレクサ30がどのような切り替え状態にあるかの情報を前記制御部50を通じて取得し,前記マルチプレクサ30(出力切替手段の一例)によって当該第1の音源分離ユニット10による前記第1分離信号y1i(t)が前記出力信号yi(t)とされていることを検知した場合にのみ,前記分離行列Wの学習計算を行う上限回数を,1Frameの時間長(設定時間の一例)以内で計算を終えることができる回数に設定することも考えられる。もちろん,そのような上限設定がなされるよう,前記制御部50により前記第1の音源分離ユニット10を制御する構成としてもよい。
設定する上限回数は,本処理を実行するプロセッサの能力に応じて,予め実験や計算等により定める。
このように,学習計算の上限回数を制限すると,音響環境が大きく変化した場合等に,分離行列の学習が不十分となるため,得られる前記第1分離信号y1i(t)は,十分な音源分離(同定)がなされた信号にならないことが多い。しかしながら,そのような場合には,前記評価値εが大きくなるので,その値が前記第2のしきい値ε2以上となった際に前記出力信号yi(t)として前記第2分離信号y2i(t)が採用されるよう切り替えられる。これにより,リアルタイム処理を行いつつ,可能な限り音源分離性能を高い状態に維持することが可能となる。従って,前記第1及び第2のしきい値ε1,ε2は,前記評価値εがその値以上であれば,返って前記第2の音源分離ユニット20よりも音源分離性能が劣ることとなるような値に設定しておく。
ここで,図4は,前記第1の音源分離ユニット10の処理(ICA−BSS音源分離処理)について,分離行列の計算と分離処理との各々に用いる混合音声信号の区分の第2例をタイムチャート的に表したものである。
この第2例は,前記第1の音源分離ユニット10における分離行列Wの逐次計算に用いる混合音声信号のサンプル数を通常よりも減らす(間引く)ものである。
この第2例においても,前記第1の音源分離ユニット10における分離行列を用いた音源分離処理を,時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrameの単位で実行することは前記第1例と同様である。
図4(a−2)は,分離行列の計算(学習)と,その分離行列に基づくフィルタ処理により分離信号を生成(同定)する処理とを,異なるFrameを用いて実行する場合(以下,処理(a−2)という)を表し,図4(b−2)は,それらを同一のFrameを用いて実行する場合(以下,処理(b−2)という)を表す。
前記処理(a−2)では,図4(a−2)に示すように,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記混合音声信号(Frame)全てに相当するFrame(i)のうち,先頭側の一部(例えば,先頭から所定時間分)の信号(以下,Sub-Frame(i)という)を用いて分離行列の計算(学習)を行い,それにより求められた分離行列を用いて時刻Ti+1〜Ti+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理(フィルタ処理)を実行する。即ち,ある1期間の混合音声信号の先頭側の一部に基づき計算された分離行列を用いて次の1期間の混合音声信号の分離処理(同定処理)を行う。このとき,ある1期間のFrame(i)の先頭側の一部を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いれば,逐次計算(学習)の収束が早まり好適である。
以上示したように,前記処理(a−2)も,前記処理(b−2)も,前記第1の音源分離ユニット10において,時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame(区間信号の一例)ごとに,所定の分離行列に基づく分離処理を順次実行して前記分離信号y2i(t)を生成するものであり,また,Frame(区間信号)の時間帯のうちの先頭側の一部の時間帯の信号に基づいて,次に用いる前記分離行列を求める逐次計算を行うものである。
但し,その逐次計算は,最大でも前記予め定められた周期(Ti+1−Ti)の時間内に制限して実行する。
このように,前記第1の音源分離ユニット10の処理において,前記分離行列Wを求める逐次計算(学習計算)に用いる混合音声信号をFrameごとにその先頭側の一部の時間帯の信号に限定することにより,比較的多くの回数の逐次計算(学習)を行っても(制限回数を比較的多く設定しても)リアルタイム処理が可能になる。
しかし,これに限るものでなく,前記マルチプレクサ30(出力切替手段の一例)の切り替え状態を,例えば,前記第1の音源分離ユニット10における前記分離行列Wの最初の学習計算の開始(図2におけるステップS3)から,その学習計算の回数が予め定められた学習に十分な演算回数に到達するまで,或いはそのような十分な回数の学習計算が可能な所定時間が経過するまでは,ステップS1で設定された状態,即ち,前記第2の音源分離ユニット20により生成される前記分離信号y2i(t)を前記出力信号yi(t)とする状態に維持し,その後に前記第1の音源分離ユニット10により生成される前記分離信号y1i(t)を前記出力信号yi(t)とする状態に切り替える(図2におけるステップS6)よう構成することも考えられる。
このような構成によっても,処理を開始してから,前記第1の音源分離ユニット10における前記分離行列Wが十分収束するまで(学習されるまで)は,安定した音源分離性能が得られる前記第2の音源分離ユニット20に基づく分離信号が出力信号として採用され,その後は,音源分離性能の高い状態となった前記第1の音源分離ユニット10に基づく分離信号が出力信号として採用される結果,リアルタイム処理を可能としつつ,音源分離性能を極力高めることが可能となる。
1,2…音源
10…第1の音源分離ユニット
11,11f…分離フィルタ処理部
13…ST−DFT処理部
20…第2の音源分離ユニット
30…マルチプレクサ
31…バイナリーマスキング処理における比較部
32…バイナリーマスキング処理における分離部
50…制御部
111,112…マイクロホン
S1,S2,,,…処理手順(ステップ)
Claims (9)
- 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から前記音源信号を分離した分離信号を逐次生成して出力信号とする音源分離装置であって,
所定時間長分の複数の前記混合音声信号を用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を行うことにより前記分離行列を順次算出する分離行列算出手段と,
前記分離行列算出手段により算出された前記分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第1の音源分離手段と,
独立成分分析法に基づくブラインド音源分離方式以外のリアルタイムの音源分離処理により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第2の音源分離手段と,
前記第1の音源分離手段により生成される前記分離信号を前記出力信号とするか,前記第2の音源分離手段により生成される前記分離信号を前記出力信号とするかを切り替える出力切替手段と,
を具備してなることを特徴とする音源分離装置。 - 前記分離行列算出手段が,所定の設定時間分の前記混合音声信号が入力されるごとにその入力信号全体を用いて前記分離行列の学習計算を行うものであり,該学習計算の学習回数上限が,前記設定時間以内で計算を終える回数に設定されてなる請求項1に記載の音源分離装置。
- 前記分離行列算出手段が,所定の設定時間分の前記混合音声信号が入力されるごとにその入力信号のうちの一部の時間長分を用いて前記分離行列の学習計算を行うものである請求項1に記載の音源分離装置。
- 前記出力切替手段が,前記分離行列算出手段における前記分離行列の最初の学習計算の開始から,その学習計算の学習回数が所定回数に到達するまで若しくは所定時間が経過するまでは前記第2の音源分離手段により生成される前記分離信号を前記出力信号とし,その後に前記第1の音源分離手段により生成される前記分離信号を前記出力信号とするよう切り替えてなる請求項1〜3のいずれかに記載の音源分離装置。
- 前記出力切替手段が,前記分離行列算出手段による前記学習計算の収束度合いに基づいて前記第1の音源分離手段及び前記第2の音源分離手段のいずれにより生成される前記分離信号を前記出力信号とするかを切り替えてなる請求項1〜3のいずれかに記載の音源分離装置。
- 前記出力切替手段が,前記出力信号を前記第1の音源分離手段による前記分離信号から前記第2の音源分離手段による前記分離信号へ切り替える場合とその逆方向に切り替える場合とで,その切り替えの判別に異なる前記分離行列の収束度合いのしきい値を用いてなる請求項5に記載の音源分離装置。
- 前記第2の音源分離手段が,バイナリーマスキング処理,帯域制限フィルタ処理及びビームフォーマ処理のうちのいずれかにより前記分離信号を生成するものである請求項1〜6のいずれかに記載の音源分離装置。
- 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から前記音源信号を分離した分離信号を逐次生成して出力信号とする音源分離処理をコンピュータに実行させるための音源分離プログラムであって,
所定時間長分の複数の前記混合音声信号を用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を行うことにより前記分離行列を順次算出する分離行列算出処理と,
前記分離行列算出処理により算出された前記分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第1の音源分離処理と,
独立成分分析法に基づくブラインド音源分離方式以外のリアルタイムの音源分離処理により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第2の音源分離処理と,
前記第1の音源分離処理により生成される前記分離信号を前記出力信号とするか,前記第1の音源分離処理が実行されている状態で前記第2の音源分離処理により生成される前記分離信号を前記出力信号とするかを切り替える出力切替処理と,
をコンピュータに実行させるための音源分離プログラム。 - 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から前記音源信号を分離した分離信号を逐次生成して出力信号とする音源分離方法であって,
所定時間長分の複数の前記混合音声信号を用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を行うことにより前記分離行列を順次算出する分離行列算出工程と,
前記分離行列算出工程により算出された前記分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を逐次生成する第1の音源分離工程と,
独立成分分析法に基づくブラインド音源分離方式以外のリアルタイムの音源分離処理により複数の前記混合音声信号から前記音源信号に対応する前記分離信号を生成する第2の音源分離工程と,
前記第1の音源分離工程により生成される前記分離信号を前記出力信号とするか,前記第2の音源分離工程により生成される前記分離信号を前記出力信号とするかを切り替える出力切替工程と,
を有してなることを特徴とする音源分離方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005216391A JP4675177B2 (ja) | 2005-07-26 | 2005-07-26 | 音源分離装置,音源分離プログラム及び音源分離方法 |
EP06117505A EP1748427A1 (en) | 2005-07-26 | 2006-07-19 | Sound source separation apparatus and sound source separation method |
US11/489,441 US20070025556A1 (en) | 2005-07-26 | 2006-07-20 | Sound source separation apparatus and sound source separation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005216391A JP4675177B2 (ja) | 2005-07-26 | 2005-07-26 | 音源分離装置,音源分離プログラム及び音源分離方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007033825A true JP2007033825A (ja) | 2007-02-08 |
JP4675177B2 JP4675177B2 (ja) | 2011-04-20 |
Family
ID=37267536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005216391A Expired - Fee Related JP4675177B2 (ja) | 2005-07-26 | 2005-07-26 | 音源分離装置,音源分離プログラム及び音源分離方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070025556A1 (ja) |
EP (1) | EP1748427A1 (ja) |
JP (1) | JP4675177B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203474A (ja) * | 2007-02-20 | 2008-09-04 | Nippon Telegr & Teleph Corp <Ntt> | 多信号強調装置、方法、プログラム及びその記録媒体 |
JP2008252587A (ja) * | 2007-03-30 | 2008-10-16 | Mega Chips Corp | 信号処理装置 |
JP2008295011A (ja) * | 2007-04-26 | 2008-12-04 | Kobe Steel Ltd | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
JP2008295010A (ja) * | 2007-04-26 | 2008-12-04 | Kobe Steel Ltd | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
JP2009134102A (ja) * | 2007-11-30 | 2009-06-18 | Kobe Steel Ltd | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
JP2009257933A (ja) * | 2008-04-17 | 2009-11-05 | Kobe Steel Ltd | 磁場測定装置,非破壊検査装置,磁場測定信号処理方法 |
JP2014045507A (ja) * | 2008-01-29 | 2014-03-13 | Qualcomm Incorporated | 複数のマイクからの信号間で知的に選択することによって音質を改善すること |
JP2014517607A (ja) * | 2011-05-16 | 2014-07-17 | クゥアルコム・インコーポレイテッド | ブラインドソース分離ベースの空間フィルタ処理 |
WO2018047643A1 (ja) * | 2016-09-09 | 2018-03-15 | ソニー株式会社 | 音源分離装置および方法、並びにプログラム |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4672611B2 (ja) * | 2006-07-28 | 2011-04-20 | 株式会社神戸製鋼所 | 音源分離装置、音源分離方法及び音源分離プログラム |
US20080267423A1 (en) * | 2007-04-26 | 2008-10-30 | Kabushiki Kaisha Kobe Seiko Sho | Object sound extraction apparatus and object sound extraction method |
DE102007033877B3 (de) * | 2007-07-20 | 2009-02-05 | Siemens Audiologische Technik Gmbh | Verfahren zur Signalverarbeitung in einer Hörhilfe |
JP5195652B2 (ja) * | 2008-06-11 | 2013-05-08 | ソニー株式会社 | 信号処理装置、および信号処理方法、並びにプログラム |
JP5375400B2 (ja) * | 2009-07-22 | 2013-12-25 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
US8521477B2 (en) * | 2009-12-18 | 2013-08-27 | Electronics And Telecommunications Research Institute | Method for separating blind signal and apparatus for performing the same |
KR101670313B1 (ko) * | 2010-01-28 | 2016-10-28 | 삼성전자주식회사 | 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법 |
CN102543098B (zh) * | 2012-02-01 | 2013-04-10 | 大连理工大学 | 一种分频段切换cmn非线性函数的频域语音盲分离方法 |
CN102592607A (zh) * | 2012-03-30 | 2012-07-18 | 北京交通大学 | 一种使用盲语音分离的语音转换系统和方法 |
CN105991102A (zh) * | 2015-02-11 | 2016-10-05 | 冠捷投资有限公司 | 具有语音增强功能的媒体播放装置 |
EP3335217B1 (en) | 2015-12-21 | 2022-05-04 | Huawei Technologies Co., Ltd. | A signal processing apparatus and method |
US10878832B2 (en) * | 2016-02-16 | 2020-12-29 | Nippon Telegraph And Telephone Corporation | Mask estimation apparatus, mask estimation method, and mask estimation program |
US10410641B2 (en) | 2016-04-08 | 2019-09-10 | Dolby Laboratories Licensing Corporation | Audio source separation |
CN109074811B (zh) * | 2016-04-08 | 2023-05-02 | 杜比实验室特许公司 | 音频源分离 |
CN106024005B (zh) * | 2016-07-01 | 2018-09-25 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法及装置 |
JP6472824B2 (ja) * | 2017-03-21 | 2019-02-20 | 株式会社東芝 | 信号処理装置、信号処理方法および音声の対応づけ提示装置 |
CN110827843B (zh) * | 2018-08-14 | 2023-06-20 | Oppo广东移动通信有限公司 | 音频处理方法、装置、存储介质及电子设备 |
CN113646837A (zh) | 2019-03-27 | 2021-11-12 | 索尼集团公司 | 信号处理装置、方法和程序 |
CN111009256B (zh) * | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN111179960B (zh) * | 2020-03-06 | 2022-10-18 | 北京小米松果电子有限公司 | 音频信号处理方法及装置、存储介质 |
CN111724801A (zh) * | 2020-06-22 | 2020-09-29 | 北京小米松果电子有限公司 | 音频信号处理方法及装置、存储介质 |
CN114220454B (zh) * | 2022-01-25 | 2022-12-09 | 北京荣耀终端有限公司 | 一种音频降噪方法、介质和电子设备 |
-
2005
- 2005-07-26 JP JP2005216391A patent/JP4675177B2/ja not_active Expired - Fee Related
-
2006
- 2006-07-19 EP EP06117505A patent/EP1748427A1/en not_active Withdrawn
- 2006-07-20 US US11/489,441 patent/US20070025556A1/en not_active Abandoned
Non-Patent Citations (3)
Title |
---|
CSNG200300078004, 猿渡 洋 Hiroshi SARUWATARI, "アレー信号処理を用いたブラインド音源分離の基礎 Blind Source Separation Using Array Signal Processin", 電子情報通信学会技術研究報告 Vol.101 No.32 IEICE Technical Report, 20010420, 第101巻, 第49−56頁, JP, 社団法人電子情報通信学会 The Institute of Electro * |
JPN6010024511, 猿渡 洋 Hiroshi SARUWATARI, "アレー信号処理を用いたブラインド音源分離の基礎 Blind Source Separation Using Array Signal Processin", 電子情報通信学会技術研究報告 Vol.101 No.32 IEICE Technical Report, 20010420, 第101巻, 第49−56頁, JP, 社団法人電子情報通信学会 The Institute of Electro * |
JPN6010024512, 猿渡洋、外3名, "音響信号のブラインド音源分離 : その最新研究動向について", 電子情報通信学会総合大会講演論文集 2005年 基礎・境界, 61, 20050307, S−61,S−62, JP, 社団法人電子情報通信学会 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203474A (ja) * | 2007-02-20 | 2008-09-04 | Nippon Telegr & Teleph Corp <Ntt> | 多信号強調装置、方法、プログラム及びその記録媒体 |
JP2008252587A (ja) * | 2007-03-30 | 2008-10-16 | Mega Chips Corp | 信号処理装置 |
WO2008123315A1 (ja) * | 2007-03-30 | 2008-10-16 | National University Corporation NARA Institute of Science and Technology | 信号処理装置 |
KR101452537B1 (ko) | 2007-03-30 | 2014-10-22 | 고쿠리츠다이가쿠호징 나라 센탄카가쿠기쥬츠 다이가쿠인 다이가쿠 | 신호처리장치 |
US8488806B2 (en) | 2007-03-30 | 2013-07-16 | National University Corporation NARA Institute of Science and Technology | Signal processing apparatus |
JP4519901B2 (ja) * | 2007-04-26 | 2010-08-04 | 株式会社神戸製鋼所 | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
JP4519900B2 (ja) * | 2007-04-26 | 2010-08-04 | 株式会社神戸製鋼所 | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
JP2008295010A (ja) * | 2007-04-26 | 2008-12-04 | Kobe Steel Ltd | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
JP2008295011A (ja) * | 2007-04-26 | 2008-12-04 | Kobe Steel Ltd | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
JP4493690B2 (ja) * | 2007-11-30 | 2010-06-30 | 株式会社神戸製鋼所 | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
JP2009134102A (ja) * | 2007-11-30 | 2009-06-18 | Kobe Steel Ltd | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
JP2014045507A (ja) * | 2008-01-29 | 2014-03-13 | Qualcomm Incorporated | 複数のマイクからの信号間で知的に選択することによって音質を改善すること |
JP2009257933A (ja) * | 2008-04-17 | 2009-11-05 | Kobe Steel Ltd | 磁場測定装置,非破壊検査装置,磁場測定信号処理方法 |
JP2014517607A (ja) * | 2011-05-16 | 2014-07-17 | クゥアルコム・インコーポレイテッド | ブラインドソース分離ベースの空間フィルタ処理 |
WO2018047643A1 (ja) * | 2016-09-09 | 2018-03-15 | ソニー株式会社 | 音源分離装置および方法、並びにプログラム |
US10924849B2 (en) | 2016-09-09 | 2021-02-16 | Sony Corporation | Sound source separation device and method |
Also Published As
Publication number | Publication date |
---|---|
US20070025556A1 (en) | 2007-02-01 |
JP4675177B2 (ja) | 2011-04-20 |
EP1748427A1 (en) | 2007-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4675177B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP4496186B2 (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
Hoshen et al. | Speech acoustic modeling from raw multichannel waveforms | |
US9668066B1 (en) | Blind source separation systems | |
JP4897519B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
US20070133811A1 (en) | Sound source separation apparatus and sound source separation method | |
JP2007034184A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP5375400B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP4462617B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP2007295085A (ja) | 音源分離装置及び音源分離方法 | |
CN110047478B (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
JP6334895B2 (ja) | 信号処理装置及びその制御方法、プログラム | |
US11978471B2 (en) | Signal processing apparatus, learning apparatus, signal processing method, learning method and program | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
JP2007279517A (ja) | 音源分離装置、音源分離装置用のプログラム及び音源分離方法 | |
KR101043114B1 (ko) | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 | |
JP4519901B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
JP4336378B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
JP6448567B2 (ja) | 音響信号解析装置、音響信号解析方法、及びプログラム | |
JP2007033804A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP4849404B2 (ja) | 信号処理装置、信号処理方法およびプログラム | |
JP2007282177A (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
JP2010152107A (ja) | 目的音抽出装置及び目的音抽出プログラム | |
JP4519900B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
Guzewich et al. | Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070928 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110125 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140204 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |