JP2007156300A - 音源分離装置、音源分離プログラム及び音源分離方法 - Google Patents
音源分離装置、音源分離プログラム及び音源分離方法 Download PDFInfo
- Publication number
- JP2007156300A JP2007156300A JP2005354585A JP2005354585A JP2007156300A JP 2007156300 A JP2007156300 A JP 2007156300A JP 2005354585 A JP2005354585 A JP 2005354585A JP 2005354585 A JP2005354585 A JP 2005354585A JP 2007156300 A JP2007156300 A JP 2007156300A
- Authority
- JP
- Japan
- Prior art keywords
- separation
- matrix
- sound source
- sound
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 354
- 238000000034 method Methods 0.000 title claims abstract description 115
- 239000011159 matrix material Substances 0.000 claims abstract description 253
- 238000004364 calculation method Methods 0.000 claims abstract description 100
- 238000011156 evaluation Methods 0.000 claims abstract description 29
- 230000005236 sound signal Effects 0.000 claims description 55
- 238000012880 independent component analysis Methods 0.000 claims description 23
- 238000012854 evaluation process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 241001168730 Simo Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】独立成分分析法に基づくブラインド音源分離方式に基づくBSS方式による音源分離処理(ICA−BSS音源分離処理)を行うに当たり、処理の開始後しばらくの時間帯や、音響環境の変化があった場合でも、リアルタイム処理が可能となるよう分離行列の演算負荷を抑えつつ、音源分離性能を極力高められること。
【解決手段】予め候補行列メモリ27に記憶された複数の前記候補行列W0i(異なる音源条件での入力信号に基づく学習計算で得られた分離行列)各々について、仮学習処理Pr1及び仮分離処理Pr2を行い、これにより得られる分離信号の相関評価に基づいて分離行列の初期行列を決定する(Pr3)。初期行列決定処理Pr3及びその初期行列に基づく分離行列Wの学習計算は、当該音源分離装置Xによる音源分離処理の開始時と、相関評価部25による分離信号yi(t)相互間の相関の程度が所定レベル以上である場合に実行する。
【選択図】図2
【解決手段】予め候補行列メモリ27に記憶された複数の前記候補行列W0i(異なる音源条件での入力信号に基づく学習計算で得られた分離行列)各々について、仮学習処理Pr1及び仮分離処理Pr2を行い、これにより得られる分離信号の相関評価に基づいて分離行列の初期行列を決定する(Pr3)。初期行列決定処理Pr3及びその初期行列に基づく分離行列Wの学習計算は、当該音源分離装置Xによる音源分離処理の開始時と、相関評価部25による分離信号yi(t)相互間の相関の程度が所定レベル以上である場合に実行する。
【選択図】図2
Description
本発明は、所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で、その音声入力手段各々を通じて逐次入力される複数の混合音声信号(音源各々からの音源信号が重畳された信号)に対し、所定の分離行列を用いた行列演算を施すことにより前記音源信号に対応する複数の分離信号を逐次生成する機能を備えた音源分離装置、音源分離プログラム及び音源分離方法に関するものである。
所定の音響空間に複数の音源と複数のマイク(音声入力手段)とが存在する場合、その複数のマイクごとに、複数の音源各々からの個別音声信号(以下、音源信号という)が重畳された音声信号(以下、混合音声信号という)が取得される。このようにして取得(入力)された複数の前記混合音声信号のみに基づいて、前記音源信号各々を同定(分離)する音源分離処理の方式は、ブラインド音源分離方式(Blind Source Separation方式、以下、BSS方式という)と呼ばれる。
さらに、BSS方式の音源分離処理の1つに、独立成分分析法(Independent Component Analysis、以下、ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は、複数のマイクを通じて入力される複数の前記混合音声信号(時系列の音声信号)において、前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し、入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際、分離行列の最適化は、ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて、逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。
ここで、学習計算開始時には、所定の初期値が設定された分離行列(以下、初期行列という)が与えられ、その初期行列が学習計算により更新されて音源分離に用いる分離行列として設定される。通常、最初の学習計算開始時には、予め定められた所定の行列が初期行列として設定され、以後、学習計算が行われるごとに、学習後の分離行列が次の学習計算開始時の初期行列として設定される。このようなICA法に基づくBSS方式の音源分離処理は、例えば、非特許文献1や非特許文献2等に詳説されている。
また、特許文献1には、周波数領域におけるブラインド音源分離処理において、permutation(周波数解析窓ごとに分離音源の入れ替わりが発生する現象)の問題を分離信号の類似度計算によって解決する技術が示されている。
特開2004−145172号公報
猿渡洋、「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告、vol.EA2001-7、pp.49-56、April 2001.
高谷智哉他、「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告、vol.US2002-87、EA2002-108、January 2003.
さらに、BSS方式の音源分離処理の1つに、独立成分分析法(Independent Component Analysis、以下、ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は、複数のマイクを通じて入力される複数の前記混合音声信号(時系列の音声信号)において、前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し、入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際、分離行列の最適化は、ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて、逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。
ここで、学習計算開始時には、所定の初期値が設定された分離行列(以下、初期行列という)が与えられ、その初期行列が学習計算により更新されて音源分離に用いる分離行列として設定される。通常、最初の学習計算開始時には、予め定められた所定の行列が初期行列として設定され、以後、学習計算が行われるごとに、学習後の分離行列が次の学習計算開始時の初期行列として設定される。このようなICA法に基づくBSS方式の音源分離処理は、例えば、非特許文献1や非特許文献2等に詳説されている。
また、特許文献1には、周波数領域におけるブラインド音源分離処理において、permutation(周波数解析窓ごとに分離音源の入れ替わりが発生する現象)の問題を分離信号の類似度計算によって解決する技術が示されている。
しかしながら、前記音源信号の独立性に着目したICA法に基づくBSS方式による音源分離処理は、分離行列を求める逐次計算(学習計算)を十分に行えば高い音源分離性能(前記音源信号の同定性能)が得られるものの、十分な音源分離性能を得るためには、分離処理(フィルタ処理)に用いる分離行列を求めるための逐次計算(学習計算)の回数が増えるので演算負荷が高くなり、その計算を実用的なプロセッサで行うと入力される混合音声信号の時間長に対して数倍の時間を要し、リアルタイム処理に適さないという問題点があった。特に、処理の開始後しばらくの時間帯や、音響環境の変化(音源の移動や音源の追加・変更等)があった場合等、学習計算開始時の分離行列(即ち、初期行列)がそのときの音源の状態に対応していない場合に、十分な音源分離性能を得る(学習結果を十分に収束させる)ためには分離行列の演算負荷がより高くなるという問題点があった。
また、前記初期行列がそのときの音源の状態に対応していない場合、分離行列の学習結果が局所解に陥ってしまい、学習計算が収束しても十分な音源分離性能が得られない場合があるという問題点があった。
従って、本発明は上記事情に鑑みてなされたものであり、その目的とするところは、ICA法に基づくBSS方式による音源分離処理を行うに当たり、処理の開始後しばらくの時間帯や、音響環境の変化があった場合でも、リアルタイム処理が可能となるよう分離行列の演算負荷を抑えつつ、音源分離性能を極力高められる音源分離装置、音源分離プログラム及び音源分離方法を提供することにある。
また、前記初期行列がそのときの音源の状態に対応していない場合、分離行列の学習結果が局所解に陥ってしまい、学習計算が収束しても十分な音源分離性能が得られない場合があるという問題点があった。
従って、本発明は上記事情に鑑みてなされたものであり、その目的とするところは、ICA法に基づくBSS方式による音源分離処理を行うに当たり、処理の開始後しばらくの時間帯や、音響環境の変化があった場合でも、リアルタイム処理が可能となるよう分離行列の演算負荷を抑えつつ、音源分離性能を極力高められる音源分離装置、音源分離プログラム及び音源分離方法を提供することにある。
上記目的を達成するために本発明は、所定の音響空間に複数の音源と複数の音声入力手段(マイクロホン)とが存在する状態で、その音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号に対し、所定の分離行列を用いた行列演算を施すことにより、前記音源信号に対応する複数の分離信号を逐次生成する逐次音源分離処理を実行する音源分離装置、或いはその処理をコンピュータに実行させるためのプログラム若しくはその処理を実行する音源分離方法に適用されるものである。
その特徴は、予め記憶手段に記憶された所定の複数の行列(以下、候補行列という)に基づいて、独立成分分析法に基づくブラインド音源分離方式(以下、ICA−BSS音源分離方式という)による前記分離行列の学習計算に用いるその分離行列の初期行列(初期値が設定された分離行列)を決定する初期行列決定処理と、これにより決定された前記初期行列と所定時間長分の複数の前記混合音声信号とを用いて、ICA−BSS音源分離方式により前記逐次音源分離処理で用いられる前記分離行列の学習計算を行う分離行列初期学習処理とを、各処理に対応する手段により実行する、或いはコンピュータに実行させる点にある。
前述したように、処理の開始後しばらくの時間帯や、音響環境の変化(音源の移動や音源の追加・変更等)があった場合、十分な音源分離性能を得るためには分離行列の演算負荷がより高くなるが、逆に言えば、音響環境の状態に対応した前記初期行列(学習計算開始時の初期値が設定された分離行列)を与えることができれば、分離行列の収束に要する逐次演算回数(学習回数)を抑えることができる。さらに、分離行列の学習結果が局所解に陥ることを回避できる。
従って、本発明のように、予め記憶された複数の候補行列に基づいて、その時々の状況に応じた初期行列を決定すれば、分離行列の収束に要する逐次演算回数を抑えることができるとともに、分離行列の学習結果が局所解に陥ることを回避できる。その結果、分離行列の演算負荷を抑えつつ、音源分離性能を極力高めることが可能となる。
例えば、予め記憶しておく複数の前記候補行列が、前記音源の条件(音源の配置や数、種類等)が異なる複数の音響空間各々における前記混合音声信号を用いてICA−BSS音源分離方式の学習計算により求められた分離行列であれば、予め考え得る音源条件各々に対応した初期行列を決定する上で好適である。
その特徴は、予め記憶手段に記憶された所定の複数の行列(以下、候補行列という)に基づいて、独立成分分析法に基づくブラインド音源分離方式(以下、ICA−BSS音源分離方式という)による前記分離行列の学習計算に用いるその分離行列の初期行列(初期値が設定された分離行列)を決定する初期行列決定処理と、これにより決定された前記初期行列と所定時間長分の複数の前記混合音声信号とを用いて、ICA−BSS音源分離方式により前記逐次音源分離処理で用いられる前記分離行列の学習計算を行う分離行列初期学習処理とを、各処理に対応する手段により実行する、或いはコンピュータに実行させる点にある。
前述したように、処理の開始後しばらくの時間帯や、音響環境の変化(音源の移動や音源の追加・変更等)があった場合、十分な音源分離性能を得るためには分離行列の演算負荷がより高くなるが、逆に言えば、音響環境の状態に対応した前記初期行列(学習計算開始時の初期値が設定された分離行列)を与えることができれば、分離行列の収束に要する逐次演算回数(学習回数)を抑えることができる。さらに、分離行列の学習結果が局所解に陥ることを回避できる。
従って、本発明のように、予め記憶された複数の候補行列に基づいて、その時々の状況に応じた初期行列を決定すれば、分離行列の収束に要する逐次演算回数を抑えることができるとともに、分離行列の学習結果が局所解に陥ることを回避できる。その結果、分離行列の演算負荷を抑えつつ、音源分離性能を極力高めることが可能となる。
例えば、予め記憶しておく複数の前記候補行列が、前記音源の条件(音源の配置や数、種類等)が異なる複数の音響空間各々における前記混合音声信号を用いてICA−BSS音源分離方式の学習計算により求められた分離行列であれば、予め考え得る音源条件各々に対応した初期行列を決定する上で好適である。
前記初期行列決定処理のより具体的な内容としては、複数の前記候補行列各々について、その候補行列と所定時間長分の複数の前記混合音声信号とを用いてICA−BSS音源分離方式による分離行列の学習計算を行うことにより仮の分離行列を算出する仮の分離行列算出処理を実行し、これにより算出された前記仮の分離行列各々について、その仮の分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する複数の仮の分離信号を生成する仮の音源分離処理と、その生成された複数の前記仮の分離信号相互の相関の程度を評価する第1の相関評価処理とを実行した上で、その第1の相関評価処理の評価結果に基づいて複数の前記候補行列若しくはその各々に対応する前記仮の分離行列の中から前記初期行列とするものを選択する(即ち、初期行列を決定する)ことが考えられる。
一般に、音源分離の分離性能が高い場合ほど、出力される複数の分離信号相互間の相関は低くなる。従って、前記第1の相関評価処理により最も分離信号相互間の相関が低い結果が得られたときの前記候補行列若しくはこれに対応する前記仮の分離行列を前記初期行列として選択すれば、そのときの音響空間の状態(音源の状態)に対応した(音源分離性能の高い)初期行列を決定できる。
一般に、音源分離の分離性能が高い場合ほど、出力される複数の分離信号相互間の相関は低くなる。従って、前記第1の相関評価処理により最も分離信号相互間の相関が低い結果が得られたときの前記候補行列若しくはこれに対応する前記仮の分離行列を前記初期行列として選択すれば、そのときの音響空間の状態(音源の状態)に対応した(音源分離性能の高い)初期行列を決定できる。
ここで、前記仮の分離行列算出処理では、複数の前記候補行列各々について学習計算が行われるため、演算負荷低減のため簡易な学習計算に留めておく必要がある。例えば、前記仮の分離行列算出手段により用いられる前記混合音声信号の時間長が、前記分離行列算出手段により用いられる前記混合音声信号の時間長よりも短く設定されていれば演算負荷が軽くなり好適である。
また、所定時間長分の複数の前記混合音声信号を記憶する手段(混合音声信号記憶手段)を設け、前記仮の分離行列算出処理において、複数の前記候補行列各々について前記混合音声信号記憶手段に記憶された同じ前記混合音声信号を用いて前記仮の分離行列を算出すれば、相関程度の評価結果を比較する際の前提となる条件が揃い好適である。
また、所定時間長分の複数の前記混合音声信号を記憶する手段(混合音声信号記憶手段)を設け、前記仮の分離行列算出処理において、複数の前記候補行列各々について前記混合音声信号記憶手段に記憶された同じ前記混合音声信号を用いて前記仮の分離行列を算出すれば、相関程度の評価結果を比較する際の前提となる条件が揃い好適である。
また、前記初期行列決定処理及び前記分離行列初期学習処理は、少なくとも当該音源分離装置(或いは同プログラム、同方法)による音源分離処理の開始時に実行されるよう構成されることが考えられるが、その他、前記逐次音源分離処理により生成された複数の前記分離信号相互の相関の程度を評価する第2の相関評価処理を実行し、その評価結果に基づいて前記初期行列決定処理及び前記分離行列初期学習処理を実行させる分離行列初期化処理を行うことも考えられる。
前述したように、一般に、最初の学習計算により分離行列が得られた後は、その学習後の分離行列が、次回の学習計算における初期行列として設定される。
これに対し、音源分離処理の実行中に、前記第2の相関評価処理により分離信号相互間の相関の程度が所定のレベルより高いという結果が得られた場合は、音響空間の状態(音源の状態)が変化したことによって分離行列の学習計算が局所解に陥っている状況であると想定されるので、このような場合に、前記分離行列初期化処理を行えば、新たな音響空間の状態に対応した(音源分離性能の高い)初期行列を再決定できる。その結果、音響環境の変化があった場合等に分離行列の学習結果が局所解に陥ることを回避でき、音源分離性能を極力高めることが可能となる。
前述したように、一般に、最初の学習計算により分離行列が得られた後は、その学習後の分離行列が、次回の学習計算における初期行列として設定される。
これに対し、音源分離処理の実行中に、前記第2の相関評価処理により分離信号相互間の相関の程度が所定のレベルより高いという結果が得られた場合は、音響空間の状態(音源の状態)が変化したことによって分離行列の学習計算が局所解に陥っている状況であると想定されるので、このような場合に、前記分離行列初期化処理を行えば、新たな音響空間の状態に対応した(音源分離性能の高い)初期行列を再決定できる。その結果、音響環境の変化があった場合等に分離行列の学習結果が局所解に陥ることを回避でき、音源分離性能を極力高めることが可能となる。
本発明によれば、処理の開始後しばらくの時間帯や、音響環境の変化(音源の移動や音源の追加・変更等)があった場合に、その時々の音響環境の状態に対応した初期行列(学習計算開始時の初期値が設定された分離行列)を与えることができるので、分離行列の収束に要する逐次演算回数を抑えることができるとともに、分離行列の学習結果が局所解に陥ることを回避できる。その結果、分離行列の演算負荷を抑えつつ、音源分離性能を極力高めることが可能となり、リアルタイム音源分離への適用に好適なものとなる。
以下添付図面を参照しながら、本発明の実施の形態について説明し、本発明の理解に供する。尚、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格のものではない。
ここに、図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図、図2は音源分離装置Xが実行する各処理の実行タイミングを表すタイムチャート、図3はTDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ1の概略構成を表すブロック図、図4はFDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ2の概略構成を表すブロック図である。
ここに、図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図、図2は音源分離装置Xが実行する各処理の実行タイミングを表すタイムチャート、図3はTDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ1の概略構成を表すブロック図、図4はFDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ2の概略構成を表すブロック図である。
まず、本発明の実施形態について説明する前に、図3及び図4に示すブロック図を用いて、本発明の構成要素として適用可能な各種のICA法に基づくブラインド音源分離方式(以下、ICA−BSS方式という)の音源分離装置の例について説明する。
なお、以下に示す音源分離処理或いはその処理を行う装置等は、いずれも所定の音響空間に複数の音源と複数のマイクロホン(音声入力手段)とが存在する状態で、そのマイクロホン各々を通じて逐次入力される前記音源各々からの個別の音声信号(以下、音源信号という)が重畳された複数の混合音声信号に対し、所定の分離行列を用いた行列演算を施すことによって前記音源信号に対応する複数の分離信号(音源信号を同定した信号)を生成する逐次音源分離処理或いはその処理を行う装置等に関するものである。
なお、以下に示す音源分離処理或いはその処理を行う装置等は、いずれも所定の音響空間に複数の音源と複数のマイクロホン(音声入力手段)とが存在する状態で、そのマイクロホン各々を通じて逐次入力される前記音源各々からの個別の音声信号(以下、音源信号という)が重畳された複数の混合音声信号に対し、所定の分離行列を用いた行列演算を施すことによって前記音源信号に対応する複数の分離信号(音源信号を同定した信号)を生成する逐次音源分離処理或いはその処理を行う装置等に関するものである。
図3は、ICA法の一種である時間領域独立成分分析法(time-domain independent component analysis法、以下、TDICA法という)に基づくBSS方式の音源分離処理を行う従来の音源分ユニットZ1の概略構成を表すブロック図である。なお、本処理の詳細は、非特許文献1や非特許文献2等に示されている。
音源分離ユニットZ1は、分離フィルタ処理部11により、2つの音源1、2からの音源信号S1(t)、S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111、112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t)、x2(t)について、分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。
図3には、2つの音源1、2からの音源信号S1(t)、S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111、112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t)、x2(t)に基づいて音源分離を行う例について示しているが、2チャンネル以上であっても同様である。ICA法に基づくBSS方式による音源分離の場合、(入力される混合音声信号のチャンネル数n(即ち、マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111、112各々で集音された各混合音声信号x1(t)、x2(t)には、複数音源からの音源信号が重畳されている。以下、各混合音声信号x1(t)、x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され、次の(1)式のように表される。
TDICAによる音源分離の理論は、この音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると、x(t)がわかればS(t)を推測することができ、従って、音源を分離することができるという発想に基づく理論である。
ここで、当該音源分離処理に用いる分離行列をW(z)とすれば、分離信号(即ち、同定信号)y(t)は、次の(2)式で表される。
ここで、W(z)は、出力y(t)から逐次計算(学習計算)により求められる。また、分離信号は、チャンネルの数だけ得られる。
なお、音源合成処理はこのW(z)に関する情報により、逆演算処理に相当する配列を形成し、これを用いて逆演算を行えばよい。また、分離行列W(z)の逐次計算を行う際の分離行列の初期値(初期行列)は、予め定められたものが設定される。
このようなICA法に基づくBSS方式による音源分離を行うことにより、例えば、人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から、歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで、(2)式は、次の(3)式のように書き換えて表現できる。
そして、(3)式における分離フィルタ(分離行列)W(n)は、次の(4)式により逐次計算される。即ち、前回(j)の出力y(t)を(4)式に逐次適用することより、今回(j+1)のW(n)を求める。
音源分離ユニットZ1は、分離フィルタ処理部11により、2つの音源1、2からの音源信号S1(t)、S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111、112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t)、x2(t)について、分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。
図3には、2つの音源1、2からの音源信号S1(t)、S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111、112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t)、x2(t)に基づいて音源分離を行う例について示しているが、2チャンネル以上であっても同様である。ICA法に基づくBSS方式による音源分離の場合、(入力される混合音声信号のチャンネル数n(即ち、マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111、112各々で集音された各混合音声信号x1(t)、x2(t)には、複数音源からの音源信号が重畳されている。以下、各混合音声信号x1(t)、x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され、次の(1)式のように表される。
ここで、当該音源分離処理に用いる分離行列をW(z)とすれば、分離信号(即ち、同定信号)y(t)は、次の(2)式で表される。
なお、音源合成処理はこのW(z)に関する情報により、逆演算処理に相当する配列を形成し、これを用いて逆演算を行えばよい。また、分離行列W(z)の逐次計算を行う際の分離行列の初期値(初期行列)は、予め定められたものが設定される。
このようなICA法に基づくBSS方式による音源分離を行うことにより、例えば、人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から、歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで、(2)式は、次の(3)式のように書き換えて表現できる。
次に、図4に示すブロック図を用いて、ICA法の一種であるFDICA法(Frequency-Domain ICA)に基づく音源分離処理を行う従来の音源分離ユニットZ2について説明する。
FDICA法では、まず、入力された混合音声信号x(t)について、ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform、以下、ST−DFT処理という)を行い、観測信号の短時間分析を行う。そして、そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について、分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン、mを分析フレーム番号とすると、分離信号(同定信号)y(f、m)は、次の(5)式のように表すことができる。
ここで、分離フィルタW(f)の更新式は、例えば次の(6)式のように表すことができる。
このFDICA法によれば、音源分離処理が各狭帯域における瞬時混合問題として取り扱われ、比較的簡単かつ安定に分離フィルタ(分離行列)W(f)を更新することができる。
FDICA法では、まず、入力された混合音声信号x(t)について、ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform、以下、ST−DFT処理という)を行い、観測信号の短時間分析を行う。そして、そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について、分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン、mを分析フレーム番号とすると、分離信号(同定信号)y(f、m)は、次の(5)式のように表すことができる。
以下、図1に示すブロック図を用いて、本発明の実施形態に係る音源分離装置Xについて説明する。
音源分離装置Xは、ある音響空間に複数の音源1、2と複数のマイクロホン111、112(音声入力手段)とが存在する状態で、そのマイクロホン111、112各々を通じて逐次入力される音源1、2各々からの音源信号(個別の音声信号)が重畳された複数の混合音声信号xi(t)から、音源信号(個別音声信号)を分離(同定)した分離信号(即ち、音源信号に対応した同定信号)yを逐次生成してスピーカ(音声出力手段)に対してリアルタイム出力するものである。この音源分離装置Xは、例えば、ハンズフリー電話機やテレビ会議の収音装置、カーナビケーションシステムの音声入力装置等への利用が可能なものである。
図1に示すように、音源分離装置Xは、分離演算処理部11、学習演算部12、入力信号バッファ21、入力選択スイッチ22、出力選択スイッチ23、分離信号バッファ24、相関評価部25、初期行列決定部26及び候補行列メモリ27等を具備して構成されている。ここで、学習演算処理部12及び分離演算処理部11は、併せて音源分離ユニット10を構成している。
また、音源分離ユニット10、相関評価部25及び初期行列決定部26の各構成要素は、それぞれDSP(Digital Signal Processor)又はCPU及びその周辺装置(ROM、RAM等)と、そのDSP若しくはCPUにより実行されるプログラムとにより構成されたものや、或いは、1つのCPU及びその周辺装置を有するコンピュータにより、各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また、所定のコンピュータに各構成要素の処理を実行させる音源分離プログラムとして提供することも考えられる。
ここで、図1には、入力される混合音声信号xi(t)のチャンネル数(即ち、マイクロホンの数)が2つである例について示しているが、(チャンネル数n)≧(音源の数m)であれば、3チャンネル以上であっても同様の構成により実現できる。
音源分離装置Xは、ある音響空間に複数の音源1、2と複数のマイクロホン111、112(音声入力手段)とが存在する状態で、そのマイクロホン111、112各々を通じて逐次入力される音源1、2各々からの音源信号(個別の音声信号)が重畳された複数の混合音声信号xi(t)から、音源信号(個別音声信号)を分離(同定)した分離信号(即ち、音源信号に対応した同定信号)yを逐次生成してスピーカ(音声出力手段)に対してリアルタイム出力するものである。この音源分離装置Xは、例えば、ハンズフリー電話機やテレビ会議の収音装置、カーナビケーションシステムの音声入力装置等への利用が可能なものである。
図1に示すように、音源分離装置Xは、分離演算処理部11、学習演算部12、入力信号バッファ21、入力選択スイッチ22、出力選択スイッチ23、分離信号バッファ24、相関評価部25、初期行列決定部26及び候補行列メモリ27等を具備して構成されている。ここで、学習演算処理部12及び分離演算処理部11は、併せて音源分離ユニット10を構成している。
また、音源分離ユニット10、相関評価部25及び初期行列決定部26の各構成要素は、それぞれDSP(Digital Signal Processor)又はCPU及びその周辺装置(ROM、RAM等)と、そのDSP若しくはCPUにより実行されるプログラムとにより構成されたものや、或いは、1つのCPU及びその周辺装置を有するコンピュータにより、各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また、所定のコンピュータに各構成要素の処理を実行させる音源分離プログラムとして提供することも考えられる。
ここで、図1には、入力される混合音声信号xi(t)のチャンネル数(即ち、マイクロホンの数)が2つである例について示しているが、(チャンネル数n)≧(音源の数m)であれば、3チャンネル以上であっても同様の構成により実現できる。
候補行列メモリ27は、ROM等の不揮発性の記憶手段により構成されるものであり、音源分離ユニット10で用いられる分離行列Wと同じ構造を有する行列であって所定の値(行列の構成要素の値)が設定された行列(以下、候補行列W0iという)が予め複数記憶された記憶手段である。
この候補行列メモリ27に予め記憶される複数の前記候補行列W0iは、音源1、2の条件が異なる複数の音響空間各々における混合音声信号xi(t)を用いて、音源分離ユニット10によるICA−BSS音源分離処理の学習計算により求められた分離行列Wである。
ここで、音源の条件としては、例えば、音源1、2各々のマイクロホン111、112に対する相対位置(設置方向や距離)、音源1、2の種類や数等が考えられる。より具体的な一例としては、マイクロホン111、112の正面方向に対する音源1、2各々の設置方向(設置位置の角度)θ1、θ2の組合せ(θ1、θ2)=(0°、60°)、(60°、60°)、(60°、0°)である場合等の複数の音源条件各々について、音源分離ユニット10によるICA−BSS音源分離処理の学習計算により求められた分離行列Wを候補行列W0iとして候補行列メモリ27に予め記憶させる。
初期行列決定部26は、予め候補行列メモリ27に記憶された複数の前記候補行列W0iに基づいて、音源分離ユニット10でのICA−BSS音源分離処理(独立成分分析法に基づくブラインド音源分離方式の処理)による分離行列Wの学習計算に用いられるその初期行列を決定する処理(以下、初期行列決定処理という)を実行するものである(初期行列決定手段の一例)。
分離演算処理部11は、マイクロホン111、112各々を通じて逐次入力される各混合音声信号xi(t)に対し、分離行列Wを用いた行列演算を施すことにより音源信号Si(t)各々に対応する複数の分離信号yi(t)を逐次生成する音源分離処理(逐次音源分離処理)を実行するものである(逐次音源分離手段の一例)。
この候補行列メモリ27に予め記憶される複数の前記候補行列W0iは、音源1、2の条件が異なる複数の音響空間各々における混合音声信号xi(t)を用いて、音源分離ユニット10によるICA−BSS音源分離処理の学習計算により求められた分離行列Wである。
ここで、音源の条件としては、例えば、音源1、2各々のマイクロホン111、112に対する相対位置(設置方向や距離)、音源1、2の種類や数等が考えられる。より具体的な一例としては、マイクロホン111、112の正面方向に対する音源1、2各々の設置方向(設置位置の角度)θ1、θ2の組合せ(θ1、θ2)=(0°、60°)、(60°、60°)、(60°、0°)である場合等の複数の音源条件各々について、音源分離ユニット10によるICA−BSS音源分離処理の学習計算により求められた分離行列Wを候補行列W0iとして候補行列メモリ27に予め記憶させる。
初期行列決定部26は、予め候補行列メモリ27に記憶された複数の前記候補行列W0iに基づいて、音源分離ユニット10でのICA−BSS音源分離処理(独立成分分析法に基づくブラインド音源分離方式の処理)による分離行列Wの学習計算に用いられるその初期行列を決定する処理(以下、初期行列決定処理という)を実行するものである(初期行列決定手段の一例)。
分離演算処理部11は、マイクロホン111、112各々を通じて逐次入力される各混合音声信号xi(t)に対し、分離行列Wを用いた行列演算を施すことにより音源信号Si(t)各々に対応する複数の分離信号yi(t)を逐次生成する音源分離処理(逐次音源分離処理)を実行するものである(逐次音源分離手段の一例)。
初期行列決定部26は、予め候補行列メモリ27に記憶された複数の前記候補行列W0iに基づいて、ICA−BSS音源分離方式による分離行列Wの学習計算(学習演算部12が実行する学習計算)に用いられるその分離行列Wの初期行列を決定する処理(以下、初期行列決定処理という)を実行するものであある(初期行列決定手段の一例)。
学習演算部12は、予め定められた時間長分の複数の混合音声信号xi(t)を用いて、ICA−BSS音源分離処理における分離行列Wの学習計算を行うことにより、分離演算処理部11で用いられる分離行列Wを順次算出するものである。なお、混合音声信号xi(t)は、所定周期でサンプリングされてデジタル化されるので、混合音声信号xi(t)の時間長を規定することは、デジタル化された混合音声信号xi(t)のサンプル数を規定することと同義である。
ここで、前記初期行列決定部26により初期行列が決定された場合には、この学習演算部12は、その決定された初期行列と、所定時間長分の複数の前記混合音声信号xi(t)とを用いて、分離演算処理部11(逐次音源分離手段の一例)で用いられる分離行列Wの学習計算を実行する(分離行列初期学習手段の一例)。その他の場合は、前回の学習計算により得られた学習後の分離行列Wが、今回の初期行列として用いられる。
ここで、音源分離ユニット10における分離行列算出(学習計算)及びその分離行列を用いた音源分離の処理(行列演算処理)としては、例えば、図3に示したTDICA法に基づくBSS方式の音源分離処理や、図4に示したFDICA法に基づくBSS方式の音源分離処理等が採用される。
学習演算部12は、予め定められた時間長分の複数の混合音声信号xi(t)を用いて、ICA−BSS音源分離処理における分離行列Wの学習計算を行うことにより、分離演算処理部11で用いられる分離行列Wを順次算出するものである。なお、混合音声信号xi(t)は、所定周期でサンプリングされてデジタル化されるので、混合音声信号xi(t)の時間長を規定することは、デジタル化された混合音声信号xi(t)のサンプル数を規定することと同義である。
ここで、前記初期行列決定部26により初期行列が決定された場合には、この学習演算部12は、その決定された初期行列と、所定時間長分の複数の前記混合音声信号xi(t)とを用いて、分離演算処理部11(逐次音源分離手段の一例)で用いられる分離行列Wの学習計算を実行する(分離行列初期学習手段の一例)。その他の場合は、前回の学習計算により得られた学習後の分離行列Wが、今回の初期行列として用いられる。
ここで、音源分離ユニット10における分離行列算出(学習計算)及びその分離行列を用いた音源分離の処理(行列演算処理)としては、例えば、図3に示したTDICA法に基づくBSS方式の音源分離処理や、図4に示したFDICA法に基づくBSS方式の音源分離処理等が採用される。
相関評価部25は、分離演算処理部11により生成された複数の分離信号yi(t)相互の相関の程度を評価する処理を実行するものである。
本実施形態では、初期行列決定部26による初期行列の決定処理、及びその初期行列に基づく分離行列Wの学習計算(学習演算部12の初期処理)は、当該音源分離装置Xによる音源分離処理の開始時と、相関評価部25による分離信号yi(t)相互間の相関の程度が所定レベル以上である(相関が高い)場合、即ち、十分に音源分離がなされていないと評価された場合に実行される。
入力信号バッファ21は、所定時間長分の各混合音声信号xi(t)を一時記憶するバッファメモリ(混合音声信号記憶手段の一例)であり、分離信号バッファ24は、所定時間長分の分離信号yi(t)を一時記憶するバッファメモリである。
入力選択スイッチ22は、分離演算処理部11に入力させる(分離演算処理の対象とする)混合音声信号を、マイクロホン111、112から逐次入力されるリアルタイムの混合音声信号とするか、或いは入力信号バッファ21に一時蓄積された混合音声信号とするかを切り替えるスイッチである。その切り替え制御(信号選択の制御)は、初期行列決定部26により行われる。
出力選択スイッチ23は、分離演算処理部11により生成される分離信号yi(t)を外部出力信号とするか、マイクロホン111、112により入力された混合音声信号xi(t)そのものを外部出力信号とするかを切り替えるスイッチである。その切り替え制御も初期行列決定部26により行われる。
本実施形態では、初期行列決定部26による初期行列の決定処理、及びその初期行列に基づく分離行列Wの学習計算(学習演算部12の初期処理)は、当該音源分離装置Xによる音源分離処理の開始時と、相関評価部25による分離信号yi(t)相互間の相関の程度が所定レベル以上である(相関が高い)場合、即ち、十分に音源分離がなされていないと評価された場合に実行される。
入力信号バッファ21は、所定時間長分の各混合音声信号xi(t)を一時記憶するバッファメモリ(混合音声信号記憶手段の一例)であり、分離信号バッファ24は、所定時間長分の分離信号yi(t)を一時記憶するバッファメモリである。
入力選択スイッチ22は、分離演算処理部11に入力させる(分離演算処理の対象とする)混合音声信号を、マイクロホン111、112から逐次入力されるリアルタイムの混合音声信号とするか、或いは入力信号バッファ21に一時蓄積された混合音声信号とするかを切り替えるスイッチである。その切り替え制御(信号選択の制御)は、初期行列決定部26により行われる。
出力選択スイッチ23は、分離演算処理部11により生成される分離信号yi(t)を外部出力信号とするか、マイクロホン111、112により入力された混合音声信号xi(t)そのものを外部出力信号とするかを切り替えるスイッチである。その切り替え制御も初期行列決定部26により行われる。
次に、図2に示すタイムチャートを用いて、音源分離装置Xにおける音源分離処理の手順について説明する。ここで、音源分離装置Xは、ハンズフリー電話機等の他の装置に組み込まれ、その装置が備える操作ボタン等の操作部の操作状況が不図示の制御部により取得される。そして、その操作部から所定の処理開始操作がなされたこと(開始命令)が検知された場合に音源分離処理を開始し、所定の処理終了操作がなされたこと(終了命令)が検知された場合に音源分離処理を終了するものとする。
まず、前記開始指令が検知されると、入力信号バッファ21により、所定時間長Tw1分の入力信号(混合音声信号xi(t))の一時蓄積が開始され、以後、入力信号バッファ21には、常に最新の時間長Tw1分の入力信号が蓄積(一時記憶)された状態となる。以下、時間長Tw1のことを、第1設定時間長Tw1という。
まず、前記開始指令が検知されると、入力信号バッファ21により、所定時間長Tw1分の入力信号(混合音声信号xi(t))の一時蓄積が開始され、以後、入力信号バッファ21には、常に最新の時間長Tw1分の入力信号が蓄積(一時記憶)された状態となる。以下、時間長Tw1のことを、第1設定時間長Tw1という。
一方、処理の開始(時刻T1の時点)後、入力信号バッファ21に前記第1設定時間長Tw1よりも短い所定の時間長Tw2(<Tw1)分の入力信号が蓄積された時点(時刻T11の時点)から、学習演算部12による仮学習処理Pr1が開始される。以下、時間長Tw2のことを、第2設定時間長Tw2という。
この仮学習処理Pr1では、学習演算部12(仮の分離行列算出手段の一例)により、候補行列メモリ27に予め記憶された複数の前記候補行列W0i各々について、その候補行列W0iを初期行列として用いるとともに、入力信号バッファ21に蓄積された前記第2設定時間長Tw2分の複数の入力信号(混合音声信号xi(t))を学習用信号として用いることにより、ICA−BSS音源分離方式による分離行列Wの学習計算が行われ、その学習計算の結果として得られる分離行列Wが仮の分離行列として算出される(仮の分離行列算出処理の一例、図中の時刻T11〜T14の時間帯)。
また、本実施形態では、複数の前記候補行列W0i各々について、入力信号バッファ(混合音声信号記憶手段)に記憶された同じ混合音声信号xi(t)が、仮学習処理Pr1における学習用信号として用いられ、前記仮の分離行列が算出される。
この仮学習処理Pr1では、学習演算部12(仮の分離行列算出手段の一例)により、候補行列メモリ27に予め記憶された複数の前記候補行列W0i各々について、その候補行列W0iを初期行列として用いるとともに、入力信号バッファ21に蓄積された前記第2設定時間長Tw2分の複数の入力信号(混合音声信号xi(t))を学習用信号として用いることにより、ICA−BSS音源分離方式による分離行列Wの学習計算が行われ、その学習計算の結果として得られる分離行列Wが仮の分離行列として算出される(仮の分離行列算出処理の一例、図中の時刻T11〜T14の時間帯)。
また、本実施形態では、複数の前記候補行列W0i各々について、入力信号バッファ(混合音声信号記憶手段)に記憶された同じ混合音声信号xi(t)が、仮学習処理Pr1における学習用信号として用いられ、前記仮の分離行列が算出される。
また、学習演算部12による仮学習処理Pr1と並行して、前記仮の分離行列が算出されるごとに、分離演算処理部11(仮の音源分離手段の一例)により、その仮の分離行列各々を用いた仮分離処理Pr2が実行される。
この仮分離処理Pr2では、入力信号バッファ21に蓄積された前記第2設定時間長Tw2分の複数の入力信号(混合音声信号xi(t))に対し、前記仮の分離行列各々についてこれを用いた行列演算が行われ、これにより前記音源信号Si(t)に対応する複数の仮の分離信号が生成される(図中の時刻T12〜T15の時間帯)。これにより、予め記憶された全ての前記候補行列W0i各々について、それを初期行列とした学習計算により得られる前記仮の分離行列を用いた音源分離処理の結果として、前記仮の分離信号が得られる。
この仮分離処理Pr2及び後述する正規分離処理Pr5により生成される分離信号(前記仮の分離信号を含む)は、分離信号バッファ24により、所定時間長分(例えば、前記第1設定時間長Tw1分)だけ一時蓄積が開始され、以後、分離信号バッファ24には、常に最新の所定時間長分の分離信号が蓄積(一時記憶)された状態となる。
また、仮分離処理Pr2の実行中は、入力信号バッファ21に蓄積された信号が分離演算処理部11に入力されるように、入力選択スイッチ22が設定(制御)される。さらに、この仮分離処理Pr2の実行中は、その時点の音源信号とは全く関係のない音声信号が分離信号として生成されるので、分離信号の代わりに入力信号(混合音声信号xi(t))がそのまま外部出力されるように、出力選択スイッチ23が設定(制御)される。
この仮分離処理Pr2では、入力信号バッファ21に蓄積された前記第2設定時間長Tw2分の複数の入力信号(混合音声信号xi(t))に対し、前記仮の分離行列各々についてこれを用いた行列演算が行われ、これにより前記音源信号Si(t)に対応する複数の仮の分離信号が生成される(図中の時刻T12〜T15の時間帯)。これにより、予め記憶された全ての前記候補行列W0i各々について、それを初期行列とした学習計算により得られる前記仮の分離行列を用いた音源分離処理の結果として、前記仮の分離信号が得られる。
この仮分離処理Pr2及び後述する正規分離処理Pr5により生成される分離信号(前記仮の分離信号を含む)は、分離信号バッファ24により、所定時間長分(例えば、前記第1設定時間長Tw1分)だけ一時蓄積が開始され、以後、分離信号バッファ24には、常に最新の所定時間長分の分離信号が蓄積(一時記憶)された状態となる。
また、仮分離処理Pr2の実行中は、入力信号バッファ21に蓄積された信号が分離演算処理部11に入力されるように、入力選択スイッチ22が設定(制御)される。さらに、この仮分離処理Pr2の実行中は、その時点の音源信号とは全く関係のない音声信号が分離信号として生成されるので、分離信号の代わりに入力信号(混合音声信号xi(t))がそのまま外部出力されるように、出力選択スイッチ23が設定(制御)される。
次に、相関評価部25及び初期行列決定部26により初期行列決定処理Pr3が実行される(図中の時刻T15〜T16の時間帯)。
この初期行列決定処理Pr3では、まず、相関評価部25(第1の相関評価手段の一例)により、前記仮の分離行列各々について、分離演算処理部11(仮の音源分離手段の一例)の仮分離処理Pr2により生成された複数の前記仮の分離信号相互の相関の程度が評価され、初期行列決定部26により、その評価結果に基づいて、複数の前記候補行列W0iの中から前記初期行列とするものが選択される(初期行列決定手段の一例)。或いは、相関の評価結果に基づいて、複数の候補行列W0i各々に対応する前記仮の分離行列の中から前記初期行列とするものが選択されるよう構成してもよい。
例えば、相関評価部25により、周知の相関関数に基づき前記仮の分離信号相互間の相関係数が求められ、最も小さい相関係数が得られるとき(最も低い相関が得られるとき)の前記仮の分離行列、或いはこれに対応する前記候補行列W0iが学習計算に用いる初期行列として選択(決定)される。
なお、相関評価部25による相関評価に用いられる分離信号yi(t)は、分離信号バッファ24に蓄積された信号である。
この初期行列決定処理Pr3では、まず、相関評価部25(第1の相関評価手段の一例)により、前記仮の分離行列各々について、分離演算処理部11(仮の音源分離手段の一例)の仮分離処理Pr2により生成された複数の前記仮の分離信号相互の相関の程度が評価され、初期行列決定部26により、その評価結果に基づいて、複数の前記候補行列W0iの中から前記初期行列とするものが選択される(初期行列決定手段の一例)。或いは、相関の評価結果に基づいて、複数の候補行列W0i各々に対応する前記仮の分離行列の中から前記初期行列とするものが選択されるよう構成してもよい。
例えば、相関評価部25により、周知の相関関数に基づき前記仮の分離信号相互間の相関係数が求められ、最も小さい相関係数が得られるとき(最も低い相関が得られるとき)の前記仮の分離行列、或いはこれに対応する前記候補行列W0iが学習計算に用いる初期行列として選択(決定)される。
なお、相関評価部25による相関評価に用いられる分離信号yi(t)は、分離信号バッファ24に蓄積された信号である。
次に、処理開始後の最初の前記第1設定時間長Tw1分の入力信号Si1(混合音声信号xi(t))が入力信号バッファ21に蓄積された時点(時刻T2の時点)から、学習演算部12により、リアルタイム音源分離処理に用いられる分離行列Wを算出する処理である正規学習処理Pr4が実行される。図中、1回の正規学習処理Pr4に要する時間をTd(<Tw1)で表す。
第1回目の正規学習処理Pr4では、初期行列決定処理Pr3により決定された初期行列が分離行列Wの初期値として採用され、さらに最初の前記第1設定時間長Tw1分の入力信号Si1(混合音声信号)が学習信号として用いられることにより、学習演算処理部11(分離行列初期学習手段の一例)によってICA−BSS音源分離方式による分離行列Wの学習計算が行われ、その学習計算の結果として分離行列Wが算出される(分離行列初期学習処理の一例、図中のT2〜T21の時間帯)。
その後、新たな前記第1設定時間長Tw1分の入力信号Si2、Si3、…(混合音声信号xi(t))が入力信号バッファ21に蓄積されるごとに、学習演算部12により、その時間長Tw1分の入力信号Si2、Si3、…各々が学習信号として用いられることにより、順次、正規学習処理Pr4が実行される(図中のT3〜T31、T4〜T41、…の各時間帯)。その際、前回の学習計算により得られた学習後の分離行列Wが初期行列として引き継がれる。
第1回目の正規学習処理Pr4では、初期行列決定処理Pr3により決定された初期行列が分離行列Wの初期値として採用され、さらに最初の前記第1設定時間長Tw1分の入力信号Si1(混合音声信号)が学習信号として用いられることにより、学習演算処理部11(分離行列初期学習手段の一例)によってICA−BSS音源分離方式による分離行列Wの学習計算が行われ、その学習計算の結果として分離行列Wが算出される(分離行列初期学習処理の一例、図中のT2〜T21の時間帯)。
その後、新たな前記第1設定時間長Tw1分の入力信号Si2、Si3、…(混合音声信号xi(t))が入力信号バッファ21に蓄積されるごとに、学習演算部12により、その時間長Tw1分の入力信号Si2、Si3、…各々が学習信号として用いられることにより、順次、正規学習処理Pr4が実行される(図中のT3〜T31、T4〜T41、…の各時間帯)。その際、前回の学習計算により得られた学習後の分離行列Wが初期行列として引き継がれる。
また、学習演算部12による初回の正規学習処理Pr4が終了した時点(時刻T21の時点)から、分離演算処理部11により、マイクロホン111、112を通じて逐次入力される入力信号(混合音声信号xi(t))に対し、正規学習処理Pr4により順次算出(学習)される最新の分離行列Wを用いた行列演算が施されることによって外部出力用の(正規の)分離信号yi(t)が生成される正規分離処理Pr5が逐次実行される(逐次音源分離処理に相当)。
この正規分離処理Pr5の実行中は、マイクロホン111、112を通じて逐次入力される入力信号が分離演算処理部11に入力されるように、入力選択スイッチ22が設定(制御)される。さらに、この正規分離処理Pr5の実行中は、分離委演算処理部11によりリアルタイムで生成される分離信号yi(t)が外部出力されるように、出力選択スイッチ23が設定(制御)される。
なお、正規分離処理Pr5で用いられる分離行列Wは、前記第1設定時間長Tw1分の入力信号に基づく正規学習処理Pr4が実行されるごとに、新たな学習により得られた最新の分離行列に更新される。
この正規分離処理Pr5の実行中は、マイクロホン111、112を通じて逐次入力される入力信号が分離演算処理部11に入力されるように、入力選択スイッチ22が設定(制御)される。さらに、この正規分離処理Pr5の実行中は、分離委演算処理部11によりリアルタイムで生成される分離信号yi(t)が外部出力されるように、出力選択スイッチ23が設定(制御)される。
なお、正規分離処理Pr5で用いられる分離行列Wは、前記第1設定時間長Tw1分の入力信号に基づく正規学習処理Pr4が実行されるごとに、新たな学習により得られた最新の分離行列に更新される。
また、正規分離処理Pr5と並行して、相関評価部25による分離信号評価処理Pr6が定期的に実行される(図中の時刻T31〜T32、T41〜…の時間帯)。例えば、正規分離処理Pr5(逐次音源分離処理)により前記第1設定時間長Tw1分の分離信号yi(t)が生成されるごとに(即ち、分離行列Wが正規学習処理Pr4によって更新されるごとに)、当該分離信号評価処理Pr6が実行される。
この分離信号評価処理Pr6では、相関評価部25により、分離演算処理部11による正規分離処理Pr5(逐次音源分離処理)により生成された複数の分離信号yi(t)相互の相関係数が算出され(相関の程度の評価の一例)、その相関係数が予め設定された設定レベルを超える相関を示すか否かの判別がなされる(第2の相関評価手段の一例)。
なお、相関評価部25による分離信号評価処理Pr6に用いられる分離信号yi(t)は、分離信号バッファ24に蓄積された信号である。
そして、この分離信号評価処理Pr6により、分離信号yi(t)相互の相関係数が前記設定レベルを超えない程度の相関であると判別された場合には、そのまま継続して正規分離処理Pr6及び定期的な正規学習処理Pr4が実行される。
一方、分離信号評価処理Pr6により、分離信号yi(t)相互の相関係数が前記設定レベルを超える相関を示すと判別された場合には、図2には示していないが、入力信号バッファ21に蓄積されているその時点の最新の前記第2設定時間長Tw2分の入力信号に基づいて、前述した仮学習処理Pr1、仮分離処理Pr2及び初期行列決定処理Pr3が改めて実行される。さらに、前記学習演算部12における分離行列Wが、改めて実行された初期行列決定処理Pr3により得られた初期行列に初期化され、この初期行列に基づく第1回目からの正規学習処理Pr5(分離行列初期学習手段の処理の一例)が実行されるよう、初期行列決定部26により制御される(分離行列初期化手段の一例)。
この分離信号評価処理Pr6では、相関評価部25により、分離演算処理部11による正規分離処理Pr5(逐次音源分離処理)により生成された複数の分離信号yi(t)相互の相関係数が算出され(相関の程度の評価の一例)、その相関係数が予め設定された設定レベルを超える相関を示すか否かの判別がなされる(第2の相関評価手段の一例)。
なお、相関評価部25による分離信号評価処理Pr6に用いられる分離信号yi(t)は、分離信号バッファ24に蓄積された信号である。
そして、この分離信号評価処理Pr6により、分離信号yi(t)相互の相関係数が前記設定レベルを超えない程度の相関であると判別された場合には、そのまま継続して正規分離処理Pr6及び定期的な正規学習処理Pr4が実行される。
一方、分離信号評価処理Pr6により、分離信号yi(t)相互の相関係数が前記設定レベルを超える相関を示すと判別された場合には、図2には示していないが、入力信号バッファ21に蓄積されているその時点の最新の前記第2設定時間長Tw2分の入力信号に基づいて、前述した仮学習処理Pr1、仮分離処理Pr2及び初期行列決定処理Pr3が改めて実行される。さらに、前記学習演算部12における分離行列Wが、改めて実行された初期行列決定処理Pr3により得られた初期行列に初期化され、この初期行列に基づく第1回目からの正規学習処理Pr5(分離行列初期学習手段の処理の一例)が実行されるよう、初期行列決定部26により制御される(分離行列初期化手段の一例)。
以上に示したように、音源分離装置Xでは、音源分離処理の開始時、及び十分な音源分離性能が得られなくなったとき(分離信号相互間の相関が高くなったとき)に、仮学習処理Pr1、仮分離処理Pr2及び初期行列決定処理Pr3により、予め記憶された複数の候補行列W0i(予め考えられ得る複数の音響環境に対応した分離行列の候補)に基づいて、そのときの音響環境に対応した初期行列が決定される。その結果、分離行列Wの収束に要する逐次演算回数を抑えることができる。従って、分離行列Wの演算負荷を抑えつつ、音源分離性能を極力高めることが可能となる。特に、分離信号相互間の相関の評価結果に基づいて分離行列の初期化がなされるので、音響環境の変化があった場合等に分離行列の学習結果が局所解に陥ることを回避でき好適である。
また、仮学習処理Pr1では、複数の候補行列W0i各々について学習計算が行われるが、その学習に用いられる入力信号(混合音声信号)の時間長Tw2(第2設定時間長)が、通常の正規学習処理Pr4で用いられる入力信号の時間長Tw1(第1設定時間長)よりもごく短く設定されているので、演算負荷が軽くなり好適である。ここで、仮学習処理Pr1の演算負荷を抑える方法としては、入力信号の時間長Tw2を短く設定することの他、学習計算における繰り返し計算回数を正規学習処理Pr4のときよりも少ない回数に設定すること等も考えられる。
また、入力信号(混合音声信号)を一時記憶する入力信号バッファ21を設け、仮学習処理Pr1(仮の分離行列算出処理)及び仮分離処理Pr2において、候補行列W0i各々について同じ入力信号(図2における時刻T1から時間長Tw2分の入力信号)を用いて学習計算及び分離処理が行われるので、相関程度の評価結果を比較する際の前提となる条件が揃い好適である。もちろん、用いる入力信号の時間が多少ずれたとしても、有効な結果は得られる。
また、仮学習処理Pr1では、複数の候補行列W0i各々について学習計算が行われるが、その学習に用いられる入力信号(混合音声信号)の時間長Tw2(第2設定時間長)が、通常の正規学習処理Pr4で用いられる入力信号の時間長Tw1(第1設定時間長)よりもごく短く設定されているので、演算負荷が軽くなり好適である。ここで、仮学習処理Pr1の演算負荷を抑える方法としては、入力信号の時間長Tw2を短く設定することの他、学習計算における繰り返し計算回数を正規学習処理Pr4のときよりも少ない回数に設定すること等も考えられる。
また、入力信号(混合音声信号)を一時記憶する入力信号バッファ21を設け、仮学習処理Pr1(仮の分離行列算出処理)及び仮分離処理Pr2において、候補行列W0i各々について同じ入力信号(図2における時刻T1から時間長Tw2分の入力信号)を用いて学習計算及び分離処理が行われるので、相関程度の評価結果を比較する際の前提となる条件が揃い好適である。もちろん、用いる入力信号の時間が多少ずれたとしても、有効な結果は得られる。
本発明は、音源分離装置への利用が可能である。
X…本発明の実施形態に係る音源分離装置
1、2…音源
10…音源分離ユニット
11…分離演算処理部
12…学習演算部
21…入力信号バッファ
22…入力選択スイッチ
23…出力選択スイッチ
24…分離信号バッファ
25…相関評価部
26…初期行列決定部
27…候補行列メモリ
111、112…マイクロホン
Pr1…仮学習処理
Pr2…仮分離処理
Pr3…初期行列決定処理
Pr4…正規学習処理
Pr5…正規分離処理
Pr6…分離信号評価処理
1、2…音源
10…音源分離ユニット
11…分離演算処理部
12…学習演算部
21…入力信号バッファ
22…入力選択スイッチ
23…出力選択スイッチ
24…分離信号バッファ
25…相関評価部
26…初期行列決定部
27…候補行列メモリ
111、112…マイクロホン
Pr1…仮学習処理
Pr2…仮分離処理
Pr3…初期行列決定処理
Pr4…正規学習処理
Pr5…正規分離処理
Pr6…分離信号評価処理
Claims (9)
- 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号に対し、所定の分離行列を用いた行列演算を施すことにより前記音源信号に対応する複数の分離信号を逐次生成する逐次音源分離手段を備えた音源分離装置であって、
予め記憶手段に記憶された所定の複数の候補行列に基づいて、独立成分分析法に基づくブラインド音源分離方式による前記分離行列の学習計算に用いる該分離行列の初期行列を決定する初期行列決定手段と、
前記初期行列決定手段により決定された前記初期行列と所定時間長分の複数の前記混合音声信号とを用いて、独立成分分析法に基づくブラインド音源分離方式により前記逐次音源分離手段で用いられる前記分離行列の学習計算を行う分離行列初期学習手段と、
を具備してなることを特徴とする音源分離装置。 - 複数の前記候補行列が、前記音源の条件が異なる複数の音響空間各々における前記混合音声信号を用いて独立成分分析法に基づくブラインド音源分離方式の学習計算により求められた分離行列である請求項1に記載の音源分離装置。
- 複数の前記候補行列各々について、該候補行列と所定時間長分の複数の前記混合音声信号とを用いて独立成分分析法に基づくブラインド音源分離方式による分離行列の学習計算を行うことにより仮の分離行列を算出する仮の分離行列算出手段と、
前記仮の分離行列各々について、該仮の分離行列を用いた行列演算により複数の前記混合音声信号から前記音源信号に対応する複数の仮の分離信号を生成する仮の音源分離手段と、
前記仮の分離行列各々について、前記仮の音源分離手段により生成された複数の前記仮の分離信号相互の相関の程度を評価する第1の相関評価手段と、を具備し、
前記初期行列決定手段が、前記第1の相関評価手段の評価結果に基づいて複数の前記候補行列若しくはその各々に対応する前記仮の分離行列の中から前記初期行列とするものを選択する手段である請求項1又は2のいずれかに記載の音源分離装置。 - 前記仮の分離行列算出手段により用いられる前記混合音声信号の時間長が、前記分離行列算出手段により用いられる前記混合音声信号の時間長よりも短く設定されてなる請求項3に記載の音源分離装置。
- 所定時間長分の複数の前記混合音声信号を記憶する混合音声信号記憶手段を具備し、
前記仮の分離行列算出手段が、複数の前記候補行列各々について前記混合音声信号記憶手段に記憶された同じ前記混合音声信号を用いて前記仮の分離行列を算出してなる請求項3又は4のいずれかに記載の音源分離装置。 - 前記初期行列決定手段及び前記分離行列初期学習手段による処理が、少なくとも当該音源分離装置による音源分離処理の開始時に実行されてなる請求項1〜5のいずれかに記載の音源分離装置。
- 前記逐次音源分離手段により生成された複数の前記分離信号相互の相関の程度を評価する第2の相関評価手段と、
前記第2の相関評価手段の評価結果に基づいて前記初期行列決定手段及び前記分離行列初期学習手段による処理を実行させる分離行列初期化手段と、
を具備してなる請求項1〜6のいずれかに記載の音源分離装置。 - 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号に対し、所定の分離行列を用いた行列演算を施すことにより前記音源信号に対応する複数の分離信号を逐次生成する逐次音源分離処理をコンピュータに実行させるための音源分離プログラムであって、
予め記憶手段に記憶された所定の複数の候補行列に基づいて、独立成分分析法に基づくブラインド音源分離方式による前記分離行列の学習計算に用いる該分離行列の初期行列を決定する初期行列決定処理と、
前記初期行列決定処理により決定された前記初期行列と所定時間長分の複数の前記混合音声信号とを用いて、独立成分分析法に基づくブラインド音源分離方式により前記逐次音源分離処理で用いられる前記分離行列の学習計算を行う分離行列初期学習処理と、
をコンピュータに実行させるための音源分離プログラム。 - 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力される前記音源各々からの音源信号が重畳された複数の混合音声信号に対し、所定の分離行列を用いた行列演算を施すことにより前記音源信号に対応する複数の分離信号を逐次生成する逐次音源分離処理を実行する音源分離方法であって、
予め記憶手段に記憶された所定の複数の候補行列に基づいて、独立成分分析法に基づくブラインド音源分離方式による前記分離行列の学習計算に用いる該分離行列の初期行列を決定する初期行列決定処理と、
前記初期行列決定処理により決定された前記初期行列と所定時間長分の複数の前記混合音声信号とを用いて、独立成分分析法に基づくブラインド音源分離方式により前記逐次音源分離処理で用いられる前記分離行列の学習計算を行う分離行列初期学習処理と、
を実行してなることを特徴とする音源分離方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005354585A JP2007156300A (ja) | 2005-12-08 | 2005-12-08 | 音源分離装置、音源分離プログラム及び音源分離方法 |
US11/603,179 US20070133811A1 (en) | 2005-12-08 | 2006-11-22 | Sound source separation apparatus and sound source separation method |
EP06024640A EP1796085A1 (en) | 2005-12-08 | 2006-11-28 | Sound source separation apparatus and sound source separation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005354585A JP2007156300A (ja) | 2005-12-08 | 2005-12-08 | 音源分離装置、音源分離プログラム及び音源分離方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007156300A true JP2007156300A (ja) | 2007-06-21 |
Family
ID=37682591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005354585A Pending JP2007156300A (ja) | 2005-12-08 | 2005-12-08 | 音源分離装置、音源分離プログラム及び音源分離方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070133811A1 (ja) |
EP (1) | EP1796085A1 (ja) |
JP (1) | JP2007156300A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007215163A (ja) * | 2006-01-12 | 2007-08-23 | Kobe Steel Ltd | 音源分離装置,音源分離装置用のプログラム及び音源分離方法 |
JP2008147920A (ja) * | 2006-12-08 | 2008-06-26 | Sony Corp | 情報処理装置および情報処理方法、並びに、プログラム |
JP2009141429A (ja) * | 2007-12-03 | 2009-06-25 | Fujitsu Ten Ltd | 車載用通信装置および通信システム |
JP2010117653A (ja) * | 2008-11-14 | 2010-05-27 | Yamaha Corp | 信号処理装置およびプログラム |
CN102074230A (zh) * | 2009-11-20 | 2011-05-25 | 索尼公司 | 语音识别装置、语音识别方法和程序 |
WO2020221059A1 (zh) * | 2019-04-30 | 2020-11-05 | 华为技术有限公司 | 音频信号处理方法及相关产品 |
CN113835068A (zh) * | 2021-09-22 | 2021-12-24 | 南京信息工程大学 | 一种基于独立成分分析的盲源分离实时抗主瓣干扰方法 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7415392B2 (en) * | 2004-03-12 | 2008-08-19 | Mitsubishi Electric Research Laboratories, Inc. | System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution |
JP2009529699A (ja) | 2006-03-01 | 2009-08-20 | ソフトマックス,インコーポレイテッド | 分離信号を生成するシステムおよび方法 |
US8160273B2 (en) | 2007-02-26 | 2012-04-17 | Erik Visser | Systems, methods, and apparatus for signal separation using data driven techniques |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US8321214B2 (en) | 2008-06-02 | 2012-11-27 | Qualcomm Incorporated | Systems, methods, and apparatus for multichannel signal amplitude balancing |
JP5195652B2 (ja) * | 2008-06-11 | 2013-05-08 | ソニー株式会社 | 信号処理装置、および信号処理方法、並びにプログラム |
US8392185B2 (en) * | 2008-08-20 | 2013-03-05 | Honda Motor Co., Ltd. | Speech recognition system and method for generating a mask of the system |
JP5375400B2 (ja) * | 2009-07-22 | 2013-12-25 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
JP5706782B2 (ja) * | 2010-08-17 | 2015-04-22 | 本田技研工業株式会社 | 音源分離装置及び音源分離方法 |
KR101726737B1 (ko) * | 2010-12-14 | 2017-04-13 | 삼성전자주식회사 | 다채널 음원 분리 장치 및 그 방법 |
CN103456312B (zh) * | 2013-08-29 | 2016-08-17 | 太原理工大学 | 一种基于计算听觉场景分析的单通道语音盲分离方法 |
US9544687B2 (en) * | 2014-01-09 | 2017-01-10 | Qualcomm Technologies International, Ltd. | Audio distortion compensation method and acoustic channel estimation method for use with same |
CN108701468B (zh) * | 2016-02-16 | 2023-06-02 | 日本电信电话株式会社 | 掩码估计装置、掩码估计方法以及记录介质 |
CN106356075B (zh) * | 2016-09-29 | 2019-09-17 | 合肥美的智能科技有限公司 | 盲音分离方法、结构及语音控制系统和电器总成 |
US10349196B2 (en) | 2016-10-03 | 2019-07-09 | Nokia Technologies Oy | Method of editing audio signals using separated objects and associated apparatus |
CN108198570B (zh) * | 2018-02-02 | 2020-10-23 | 北京云知声信息技术有限公司 | 审讯时语音分离的方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005181813A (ja) * | 2003-12-22 | 2005-07-07 | Nec Corp | 信号分離方法、信号分離システムおよび信号分離用プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
-
2005
- 2005-12-08 JP JP2005354585A patent/JP2007156300A/ja active Pending
-
2006
- 2006-11-22 US US11/603,179 patent/US20070133811A1/en not_active Abandoned
- 2006-11-28 EP EP06024640A patent/EP1796085A1/en not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005181813A (ja) * | 2003-12-22 | 2005-07-07 | Nec Corp | 信号分離方法、信号分離システムおよび信号分離用プログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007215163A (ja) * | 2006-01-12 | 2007-08-23 | Kobe Steel Ltd | 音源分離装置,音源分離装置用のプログラム及び音源分離方法 |
JP2008147920A (ja) * | 2006-12-08 | 2008-06-26 | Sony Corp | 情報処理装置および情報処理方法、並びに、プログラム |
JP2009141429A (ja) * | 2007-12-03 | 2009-06-25 | Fujitsu Ten Ltd | 車載用通信装置および通信システム |
JP2010117653A (ja) * | 2008-11-14 | 2010-05-27 | Yamaha Corp | 信号処理装置およびプログラム |
CN102074230A (zh) * | 2009-11-20 | 2011-05-25 | 索尼公司 | 语音识别装置、语音识别方法和程序 |
CN102074230B (zh) * | 2009-11-20 | 2012-09-05 | 索尼公司 | 语音识别装置、语音识别方法和程序 |
WO2020221059A1 (zh) * | 2019-04-30 | 2020-11-05 | 华为技术有限公司 | 音频信号处理方法及相关产品 |
CN113835068A (zh) * | 2021-09-22 | 2021-12-24 | 南京信息工程大学 | 一种基于独立成分分析的盲源分离实时抗主瓣干扰方法 |
CN113835068B (zh) * | 2021-09-22 | 2023-06-20 | 南京信息工程大学 | 一种基于独立成分分析的盲源分离实时抗主瓣干扰方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1796085A1 (en) | 2007-06-13 |
US20070133811A1 (en) | 2007-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007156300A (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
JP4675177B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
CN111133511B (zh) | 声源分离系统 | |
JP4496186B2 (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
KR101910679B1 (ko) | 마이크로폰 어레이를 위한 잡음 적응형 빔 형성 기법 | |
JP2007295085A (ja) | 音源分離装置及び音源分離方法 | |
JP4672611B2 (ja) | 音源分離装置、音源分離方法及び音源分離プログラム | |
JP2007034184A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
GB2548325A (en) | Acoustic source seperation systems | |
JP4977062B2 (ja) | 残響除去装置とその方法と、そのプログラムと記録媒体 | |
WO2017160294A1 (en) | Spectral estimation of room acoustic parameters | |
US9390723B1 (en) | Efficient dereverberation in networked audio systems | |
JP4462617B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
KR102410850B1 (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
JP2007215163A (ja) | 音源分離装置,音源分離装置用のプログラム及び音源分離方法 | |
JP6960766B2 (ja) | 雑音抑圧装置、雑音抑圧方法及びプログラム | |
Kim et al. | Efficient implementation of the room simulator for training deep neural network acoustic models | |
JP2007279517A (ja) | 音源分離装置、音源分離装置用のプログラム及び音源分離方法 | |
GB2510650A (en) | Sound source separation based on a Binary Activation model | |
JP6448567B2 (ja) | 音響信号解析装置、音響信号解析方法、及びプログラム | |
JP5669036B2 (ja) | 信号分離のためのパラメータ推定装置、信号分離装置、信号分離のためのパラメータ推定方法、信号分離方法、および、プログラム | |
JP6142402B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
JP2007033804A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP2007282177A (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
JP4729534B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム、および、その記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070928 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100615 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101102 |