JP2008026625A - マルチビン独立成分分析およびそれを用いたブラインド音源分離装置 - Google Patents
マルチビン独立成分分析およびそれを用いたブラインド音源分離装置 Download PDFInfo
- Publication number
- JP2008026625A JP2008026625A JP2006199420A JP2006199420A JP2008026625A JP 2008026625 A JP2008026625 A JP 2008026625A JP 2006199420 A JP2006199420 A JP 2006199420A JP 2006199420 A JP2006199420 A JP 2006199420A JP 2008026625 A JP2008026625 A JP 2008026625A
- Authority
- JP
- Japan
- Prior art keywords
- time
- frequency
- sound source
- sound
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】パーミュテーション問題をほとんど考慮する必要がなく、しかも、各周波数特性についてほぼ最適な分離を行うことのできるブラインド音源分離手法を提案する。
【解決手段】複数の音源から出力された音を複数の受音装置で受音して目的の音を分離する場合、まず、受音装置で受音した時間領域の信号を、分析フレーム毎にフーリエ変換して、時間周波数領域の信号を得る。そして、これから、全分析フレームにおけるスペクトルから、各周波数ビン毎のスペクトル成分の時間変化を抽出し、ある周波数ビンに隣接する複数の周波数ビンのスペクトル成分に対する時間変化を連結する。そして、各受音装置に対する連結信号を、各音源に対する当該周波数ビンにおける時間領域の信号に分離する。
【選択図】図5
【解決手段】複数の音源から出力された音を複数の受音装置で受音して目的の音を分離する場合、まず、受音装置で受音した時間領域の信号を、分析フレーム毎にフーリエ変換して、時間周波数領域の信号を得る。そして、これから、全分析フレームにおけるスペクトルから、各周波数ビン毎のスペクトル成分の時間変化を抽出し、ある周波数ビンに隣接する複数の周波数ビンのスペクトル成分に対する時間変化を連結する。そして、各受音装置に対する連結信号を、各音源に対する当該周波数ビンにおける時間領域の信号に分離する。
【選択図】図5
Description
本発明は、独立成分分析を用いた音源分離方法においてパーミュテーション問題をほとんど考慮する必要のない手法に関するものである。
現在の音声認識システムは、マイクロホンに接近した位置からの音声に対してはそれなりに高い認識精度を有する。一方、マイクロホンから離れた位置からの音声に対しては、周囲の雑音や部屋の残響の影響を受けて認識率は著しく低下してしまう(非特許文献1)。実環境で音声認識を行うためには音声認識システムそのものの認識能力の向上とともに、それに入力される音声に対して何らか処理を行って認識しやすい形にしておくことが有効であると考えられる。その方法の一つがブラインド音源分離(BSS: Blind Source Separation)である。BSSとは、複数のマイクロホンへ線形に混合された信号が入力された時に、音源信号や混合過程を知ることなく、観測信号のみから音源信号を推定し分離する技術である。一般に、マイクロホン数をM、音源数をNとすると、マイクロホンMmでの観測信号は、
そこで、一般に、このフィルタを直接求めずにその周波数特性を求める周波数領域BSSを用いることが多い。マイクロホン数M、音源数Nの混合モデルを求めるために、数1の両辺をフーリエ変換すると、Xm(f)=ΣnHmn(f)Sn(f)と表される。ここでXm(f)、Hmn(f)、Sn(f) は、それぞれ xm(t)、hmn(t)、sn(t) のフーリエ変換である。そして、m=1〜Mについてまとめると、周波数領域BSSの混合モデルは、
と表される。ただし、X(f)=(X1(f),…,XM(f))Tは観測ベクトル、S(f)=(S1(f) ,…,SN(f))Tは音源信号ベクトル、そして、H(f)は周波数fを変数とするM行N列の混合行列である。
BSSを解く手法として、各音源信号の独立性を仮定した独立成分分析(ICA)が一般的に用いられる。ICAには時間領域で処理する方法と周波数領域で処理する方法とがある。周波数領域ICAは、畳み込みを瞬時混合の問題に置き換えて解くことができるため、現在、実環境で使える手法として盛んに用いられている。
周波数領域ICAは、xm(t)の標本化列に対する短時間フーリエ変換により得られた観測信号ベクトルXm(f)の離散表現に対して、各周波数ビンにおいて学習されたW(f)を用いて分離を行う。ここで、Y(f)=(Y1(f) ,…,YN(f))Tを分離された信号のベクトル表現とすると分離過程は、連続領域で
ICAは音源信号の独立性を最大にするという基準に基づいて分離を行っており、W(f)の行が入れ替わったとしてもY(f)の独立性は保たれるので、任意の周波数f1とf2において、Yn(f1)とY(f2)が必ずしも同じ音源に対応しているとは限らない。従って、W(f)の行の並びをYn(f1)とYn(f2)が同じ音源に属するように並べ替える「パーミュテーション問題」を解決する必要がある。
パーミュテーション問題に対する従来の解決手法として、各周波数ビンでの指向特性を調べ、雑音源の方向を推定し、方向推定結果を基に並び替えを行う方法がある(非特許文献5)。しかし、すべての周波数において理想的なビームあるいは死角が形成できるわけではなく、特に低周波数における方向推定性能が低いと指摘されている。
そこで、パーミュテーション問題への対処法として各周波数ビンでの相関を用いた方法(非特許文献2)が提案されている。各周波数ビンのエンベロープは、同じ音源については、特に近傍の周波数で高い相関を持つと考えるのが妥当である。そのため、周波数差が比較的小さい範囲内で相関の和が最大になるように決定していくことが考えられるが、ある周波数で間違えると以降の周波数でも間違えてしまうため、安定性に欠けるといわれている。また、ICAによる分離性能が比較的良いと思われる周波数ビンからパーミュテーションを決定していく方法が提案されている(非特許文献2)が、この方法では、離れた周波数に対してもエンベロープの相関が高いことが仮定されているため適切ではない。
上述の欠点を補うために、方向推定と相関を統合した手法が提案されている(非特許文献6)。この方法では、まず指向特性を各周波数ビンに対して求め、確実に推定できる周波数に対してパーミュテーション問題を解決する。次に、未定の周波数ビンに対して周波数差が小さく、かつパーミュテーションが決定されている周波数ビンとの相関が最大になるように決定していく。しかし、この方法でも残響が強い場合に不安定になることが報告されている(非特許文献7)。
残響が強い場合に不安定になる原因として、低域での方向推定の困難さが挙げられている(非特許文献7)。そして、この問題を解決するために、調波構造を用いた方法が提案されている(非特許文献7)。有声音は基本周波数の整数倍のところで当該周波数ビンの成分の時間波形の相関が高くなる性質を持っており、調波構造性を用いることにより、より確実にパーミュテーション問題を解決することが可能となる。
中村哲:" 実音響環境に頑健な音声認識を目指して", 電子情報通信学会技術報告, SP2002-12, pp.31-36,2002. T.W.Lee: "Independent Component Analysis",Kluewer, 1998. S.Ikeda, and N.Murata: "A method of ICA in time-frequency domain", Proc WS on Independent Component Analysis and Blind Signal Separation (ICA’99), pp.365-371, Aussios, France, Jan., 1999. A.Hyvarinen, J.Karhunen, and E.Oja: "Independent Component Analysis", John Wiley, New York, 2001. S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura: "Evaluation of blind signal separation method using directivity pattern under reverberant conditions", Proc. ICASSP2000, pp3140-3143, Istanbul, Turkey, June, 2000. 澤田宏,向井良,荒木章子,牧野昭二, "周波数領域ブラインド音源分離におけるpermutation問題の解法",音響学会講演論文集,pp. 541-542,Sep, 2002. 澤田宏,向井良,荒木章子,牧野昭二, "周波数領域ブラインド音源分離におけるpermutation問題の頑健な解法",音響学会講演論文集,pp. 777-778,Mar, 2003.
中村哲:" 実音響環境に頑健な音声認識を目指して", 電子情報通信学会技術報告, SP2002-12, pp.31-36,2002. T.W.Lee: "Independent Component Analysis",Kluewer, 1998. S.Ikeda, and N.Murata: "A method of ICA in time-frequency domain", Proc WS on Independent Component Analysis and Blind Signal Separation (ICA’99), pp.365-371, Aussios, France, Jan., 1999. A.Hyvarinen, J.Karhunen, and E.Oja: "Independent Component Analysis", John Wiley, New York, 2001. S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura: "Evaluation of blind signal separation method using directivity pattern under reverberant conditions", Proc. ICASSP2000, pp3140-3143, Istanbul, Turkey, June, 2000. 澤田宏,向井良,荒木章子,牧野昭二, "周波数領域ブラインド音源分離におけるpermutation問題の解法",音響学会講演論文集,pp. 541-542,Sep, 2002. 澤田宏,向井良,荒木章子,牧野昭二, "周波数領域ブラインド音源分離におけるpermutation問題の頑健な解法",音響学会講演論文集,pp. 777-778,Mar, 2003.
しかし、これらの方法によっても本質的に並べ替えに失敗する可能性があり、パーミュテーション問題は解決されない。
さらに、周波数ビン毎に音声を分離する場合、分離される周波数ビンの標本点数が多ければ多いほど、その周波数特性に応じた最適な分離を行うことができるが、音声分離を行う際には、この分離の最適性を確保することが必要とされる。
そこで、本発明は上記課題に着目してなされたもので、パーミュテーション問題をほとんど考慮する必要がなく、しかも、各周波数特性についてほぼ最適な分離を行うことのできるブラインド音源分離手法を提案することを目的とする。
すなわち、本発明は上記課題を解決するために、複数の音源から出力された音を複数の受音装置で受音して目的の音を分離する場合、まず、受音装置で受音した時間領域の信号を、分析フレーム毎にフーリエ変換して、時間周波数領域の信号を得る。そして、これから、各周波数ビン毎のスペクトル成分の時間変化を抽出し、ある周波数ビンに隣接する複数の周波数ビンのスペクトル成分に対する時間変化を連結する。そして、各受音装置に対する連結信号を各音源に対する当該周波数ビンにおける時間領域の信号に分離するようにしたものである。
すなわち、従来の周波数領域BSSでは、受音した時間領域の信号を、図3に示すように分析フレーム毎にフーリエ変換し、これを図4に示すように、各周波数ビン毎のスペクトル成分の時間変化として抽出して、各周波数ビン毎の分離行列を用いて分離していたが、この手法では、各周波数ビン毎に異なる分離行列を用いるため、各分離された信号がいずれの音源の信号なのかを判別することができない。このため、組み合わせに自由度ができてしまい、いわゆるパーミュテーション問題を生じてしまっていた。さらに、学習された分離行列を用いて分離を行う場合、標本点の数が多ければ多いほど学習能力が高くなり、分離精度がよくなるが、従来の方法であれば分析フレームの数だけしか標本点を取ることができないため、分離の精度がよくならない。加えて、従来の手法では、周波数ビン毎に異なる分離行列を用いていたため、分離された信号の振幅に不確実性を生じてしまい、これを修正しなければならなくなる。これに対して、本発明によれば、各周波数ビン毎のスペクトル成分の時間変化を複数連結した後、一括して分離行列を用いて分離するようにしたので、組み合わせの自由度を少なくしてパーミュテーション問題をほとんど解決することができ、さらには、連結された周波数ビンに分析フレーム数を乗じた標本点の数に基づいて分離処理を行うので、分離精度もよくなる。
また、このような発明において、全周波数ビンを連結して一括分離するとともに、各受音装置について隣接周波数ビンのスペクトル成分の時間変化を部分的に連結して各音源毎の信号に分離する。そして、一括分離された結果を参照して、各音源毎に分離された時間領域の信号を並び替える。
このようにすれば、全周波数ビンについて連結して一括分離の結果を参照することで、パーミュテーション問題をほとんど考慮する必要がなくなり、しかも、複数の周波数ビン毎にその周波数特性を考慮して分離された信号を並び替えることで、パーミュテーション問題と分離の最適化の妥協点を見つけることができる。
本発明によれば、複数の周波数ビンを連結して分離処理を行うので、パーミュテーション問題における組み合わせの自由度を激減させることができ、また、連結された周波数ビンに分析フレーム数を乗じた数の標本点に基づいて分離処理を行うので分離精度もよくなる。
以下、本発明の一実施の形態について図面を参照して説明する。図1は、周波数領域BSS手法を用いた装置の機能ブロック図を示したものである。以下では、音源として2つの音源S1と音源S2を用い、集音装置として2つのマイクロホンM1、M2を設けた場合を例とする。ここで、音源の種類としては、人間の声などのような可聴周波数領域の音波を出力する音源を用いる。また、マイクロホンの数は音源の数以上であればよく、3個以上のマイクロホンを設けるようにしてもよい。
図1の機能ブロックについて説明すると、まず、受音装置1はマイクロホンやマイクロホンアレイなどの装置によって構成される。そして、図2に示す2つのビームを形成し、音源と雑音方向を推定する。このビームフォーマーを求めるために、推定音源の独立性を表す表か指標を用いる。
この受音装置1によって受音された信号は、まず、時間領域の信号として記憶部に格納される。そして、この信号を周波数領域変換部2にて時間周波数領域の信号に変換し、同様に記憶部に格納していく。時間領域の信号を時間周波数領域の信号に変換する場合、分析フレームをオーバーラップさせて少しずつずらしながら各分析フレーム内で短時間フーリエ変換(STFT)する。ここでは分析フレームの個数をm個としている。これにより、図3や図4に示すような時間周波数領域における離散的な信号が得られる。この領域のうち時間軸上においては、m個の分析フレームに基づく離散的な信号が存在し、また、周波数軸上においては、n個の離散的な信号が存在する。なお、図3と図4は同じ信号空間を示しており、図3は分析フレーム毎の周波数スペクトルとして、また、図4は各周波数ビンの成分の時間変化として示している。
第一の読取部3は、この記憶部に格納されている時間周波数領域内の信号から、各周波数ビン毎におけるスペクトル成分の時間変化を読み取る。すなわち、分析フレーム毎に図3のように並べられた離散的な信号を、今度は、図4に示すように周波数ビン毎の信号として読み取る。
連結部4では、この図5に示すように、各周波数ビン毎のスペクトルの時間変化を強制的に連結した信号を得る。この連結に際しては、ある周波数ビンに隣接する予め定められた個数の周波数ビンを連結する。このとき、ある周波数fkのスペクトル成分におけるt=t1〜tmの時間変化を表す信号の前に、周波数fk-1,fk-2のスペクトル成分におけるt=t1〜tmの時間変化を表す信号を低周波数側から順に連結し、また、周波数fkのスペクトル成分の時間波形の後に、周波数fk+1, fk+2のスペクトル成分の波形を順に連結する。そして、この連結された周波数ビンのスペクトル成分の時間は計を後述する分離部5によって分離処理し、その中心となる周波数fkにおけるスペクトル成分の時間変化を各音源の独立性が最大となるようにして求める。また、同様にして、全ての周波数ビンのスペクトル成分の時間変化を連結し、一つの連結された信号とする。そして、次の分離部5を用いて一括した分離処理を行う。
分離部5は、連結された周波数ビンの時間信号を、各音源の時間信号に分離する。この分離手法としては、JADEやFAST ICAなどの手法が存在するが、JADEを用いた場合について説明する。
JADEとは、Cardosoらにより提案された手法で、4次クロスキュムラントを対角化する手法である。4次クロスキュムラントは次のように定義される。
観測信号x(t)を平均0として無相関化したものをz(t)とし、音源信号s(t)と無相関化された観測信号z(t)はある直交行列U = (u1,…,uN)により、
となる。ここで、N×N行列M=(mij)により縮約されたkurtosisの行列の第i, j要素
を考える。sのインデックスが全て同じ時だけがゼロでない値をもつから、κi = cum(si, si, si, si)として数7を変形すると
周波数上でICAを行う場合は、各周波数ビンに対して分離行列W(f)を求める必要があり、通常はここで、パーミュテーションが問題となる。しかし、提案法において一括分離を行う場合は、分離行列を求めるのは一度でよいので、パーミュテーションは問題とならない。
分割部6は、分離部5によって分離された信号を周波数ビン毎のスペクトルの時間変化に戻す。すなわち、この処理においては、連結された信号を個々の周波数ビンの分離信号に分割し、そのうち中心となる周波数ビンの信号波形を抽出して記憶部に格納する。また、同様に、連結された信号波形に対して、それを個々の周波数ビンの時間信号に分割し、記憶部に格納する。
並び替え部7は、この一括分離された信号をもとに、必要ならば個々に分離された信号の入れ替え処理を行う。すなわち、一括分離された信号のうち、分析フレームにおける分離信号がどちらの音源に対応しているかを読み取り、これに類似するように個々に分離された信号を読み出して音源毎に並び替えていく。そして、この並び替えられた信号を、時間周波数領域に並べていく。
第二の読取部8は、この時間周波数領域に並べられた信号を周波数スペクトルの分析フレーム毎の変化として読み取り、これを時間領域変換部9にて分析フレーム毎にフーリエ逆変換することによって時間領域の信号に戻す。そして、この時間信号に戻された信号を、分析フレーム順に連結し、各音源毎に分離された信号として出力部10から出力する。
次に、このように構成された周波数領域BSS手法を用いた処理のフローチャートについて図6を用いて説明する。
まず、受音装置1で受音された信号を(ステップS1)、時間領域の波形として記憶部に記憶する。そして、周波数領域変換部2により、分析フレーム毎に短時間フーリエ変換を行うとともに(ステップS2)、すべての分析フレームについて短時間フーリエ変換を行うまでこの処理を続ける(ステップS3)。このとき、図3に示すように、時間周波数領域内において分析フレーム分(m個)の離散的な周波数スペクトルが並べられる。次に、この並べられた信号を、図4に示すように、各周波数ビン毎のスペクトル成分の時間変化として読み出し(ステップS4)、各周波数ビンでのスペクトル成分の時間変化を全周波数ビンについて連結する(ステップS5)。その後、受音装置毎に連結された周波数成分の時間信号をJADEを用いて一括して各音源毎に分離し(ステップS6)、その分離された時間周波数領域での信号を各周波数ビンへの信号へ分割する(ステップS7)。
また、対象とする周波数ビンの左右に隣接する所定の個数(例えば、2個)の周波数ビンを連結し(ステップS8)、5個の連結された周波数ビンの信号を対象としてJADEを用いて分離する(ステップS9)。このとき、帯域の両側の周波数ビンにおける周波数ビンについては、左右に規定の同数の周波数ビンを連結することができないため、図5に示すように、利用可能な周波数ビンのみを連結するか、もしくは、図7に示すように、規定より小さい数で左右同一の周波数ビンだけを用いて分離処理を行う。この段階での分離結果は、対象とする周波数ビンに対するものと考えて、当該部分のみを各音源の周波数ビンに関する時間波形とみなす(ステップS10)。そして、この抽出された分離信号が、一括分離された信号においてどちらの音源に属しているのかを判定し、この判定結果に基づいて分離信号を各音源に並び替えていく(ステップS11)。そして、分離された時間周波数領域の信号を分析フレーム毎の周波数スペクトルの時間経過として読み出し、分析フレーム単位でフーリエ逆変換することによって時間領域の信号に戻す(ステップS12)。そして、このように分離された音声を連結して出力する(ステップS13)。
上述のように本実施の形態によれば、各周波数に隣接する周波数ビンを連結して分離するようにしたので、隣接周波数における標本点数を用いることによって実効的に時間軸上の標本点数(分析フレーム数)を多くした状態で分離処理することができ、周波数特性に応じた精度良い分離処理を行うことができるようになる。また、このとき、全周波数ビンを一括分離した結果を参照し、各分離された信号がいずれの音源に属するのかを振り分けるようにしたので、分離精度の維持を図りながらパーミュテーション問題を解決することができるようになる。
以下に、上記実施の形態を用いたシステムの評価結果について説明する。
1.評価データ
音声の収録は一般家庭のリビングルームを想定した部屋で行った。TSPにより測定した残響時間は310msである。音源(スピーカ)と観測点(マイクロホン)の配置を図8に示す。観測点は固定し、音源の配置は図中のθ=-30°,0 °(時計回りを正)となるようにし、それぞれの配置をL,Mとする。マイクロホンには素子間隔5cm の2素子アレイを用いた。音源信号は、男女各1名ずつで、女性(配置:M)による10フレーズ、男性(配置:L)による10フレーズの組み合わせで、合計100個の混合音声について考える。女性および男性の音声を個別に収録し、S/Nの調整を行うことなくそのまま加算した。
音声の収録は一般家庭のリビングルームを想定した部屋で行った。TSPにより測定した残響時間は310msである。音源(スピーカ)と観測点(マイクロホン)の配置を図8に示す。観測点は固定し、音源の配置は図中のθ=-30°,0 °(時計回りを正)となるようにし、それぞれの配置をL,Mとする。マイクロホンには素子間隔5cm の2素子アレイを用いた。音源信号は、男女各1名ずつで、女性(配置:M)による10フレーズ、男性(配置:L)による10フレーズの組み合わせで、合計100個の混合音声について考える。女性および男性の音声を個別に収録し、S/Nの調整を行うことなくそのまま加算した。
2.評価指標
S/N を用いて分離信号を評価する。S/N は以下のように定義した。
S/N を用いて分離信号を評価する。S/N は以下のように定義した。
3.評価対象
比較対象のアルゴリズムは、JADE法によって周波数領域ICAを行い、パーミュテーションに関しては、周波数ビン間の相関を用いるIkeda et al.(非特許文献2)の手法である。
比較対象のアルゴリズムは、JADE法によって周波数領域ICAを行い、パーミュテーションに関しては、周波数ビン間の相関を用いるIkeda et al.(非特許文献2)の手法である。
4.評価結果
評価は、比較対象のアルゴリズムでパーミュテーション問題の解決ができない例に対して、提案法では解決できていることを、スペクトログラムをスペクトル上での比較によって行う。音響分析条件を表1に示す。
評価は、比較対象のアルゴリズムでパーミュテーション問題の解決ができない例に対して、提案法では解決できていることを、スペクトログラムをスペクトル上での比較によって行う。音響分析条件を表1に示す。
図9の縦軸は分離処理後のS/N(信号対雑音比)で、値の大きい方が分離がいいことを示し、横軸は処理方式を表す。各方式に、左から女性、男性、平均の結果が示されている。左側は通常の周波数領域ICAで、パーミュテーション誤りがいくつかあるためにS/Nがそれほどよくない。その右は一括分離による方法で、各周波数ビンについての最適性が失われていることによってS/Nは男性ではむしろ下がっている。その右が本手法で、同時に処理する左右の周波数ビンの片側の数nを示す。図は512点FFTを用い、nを1,2,3,4,5,10,15,20としたときのS/Nとその平均である。男性については隣接高調波までの間隔が狭く、同時処理する周波数ビンの数nは多くなくてもいい(n=4〜5で最適)が、女性は基本周波数が高いため、nを多くしないと分離性能が上がらない。
1・・・受音装置
2・・・周波数領域変換部
3・・・第一の読取部
4・・・連結部
5・・・分離部
6・・・分割部
7・・・並び替え部
8・・・第二の読取部
9・・・時間領域変換部
10・・・出力部
2・・・周波数領域変換部
3・・・第一の読取部
4・・・連結部
5・・・分離部
6・・・分割部
7・・・並び替え部
8・・・第二の読取部
9・・・時間領域変換部
10・・・出力部
Claims (4)
- 複数の音源から出力された音を複数の受音装置で受音し、目的の音を抽出するブラインド音源分離方法において、
受音装置によって受音した信号をフレームシフトさせながらフーリエ変換し、時間周波数領域の信号を得るステップと、
全分析フレームの周波数スペクトルから、各周波数ビン毎のスペクトル成分の時間変化を抽出するステップと、
ある周波数ビンに隣接する一定数の周波数ビンの成分に対する時間変化波形を連結して連結波形を得るステップと、
複数の受音装置についての当該連結波形を、各音源に対する周波数ビンの時間信号に分離するステップと、
当該分離された結果を各音源信号の時間周波数領域表現とみて、周波数スペクトルのフレーム毎の時間変化を得るステップと、
各音源についてのフレーム毎の時間変化をフーリエ逆変換することによって、時間領域の信号を得るステップと、
各音源についてのフレーム毎の時間波形を連結して全時間波形を得るステップを備えたことを特徴とするブラインド音源分離方法。 - 複数の音源から出力された音を複数の受音装置で受音し、目的の音を抽出するブラインド音源分離方法において、
受音装置によって受音した信号をフレームシフトさせながらフーリエ変換し、時間周波数領域の信号を得るステップと、
全分析フレームの周波数スペクトルから、各周波数ビン毎のスペクトル成分の時間変化を抽出するステップと、
全周波数ビンの成分に対する時間変化波形を連結し、当該連結された連結波形を各音源における時間周波数領域の信号に一括分離するステップと、
ある周波数ビンに隣接する一定数の周波数ビンの成分に対する時間変化波形を連結し、当該連結された連結波形を、各音源に対する周波数ビンの時間信号に分離するステップと、
当該分離された信号を、前記一括分離された信号をもとに周波数ビン毎に並び替えるステップと、
当該並び替えられた結果の信号を各音源信号の時間周波数領域表現とみて、周波数スペクトルのフレーム毎の時間変化を得るステップと、
各音源についてのフレーム毎の時間変化をフーリエ逆変換することによって、時間領域の信号を得るステップと、
各音源についてのフレーム毎の時間波形を連結して全時間波形を得るステップを備えたことを特徴とするブラインド音源分離方法。 - 複数の音源から出力された音を複数の受音装置で受音し、目的の音を抽出するブラインド音源分離装置において、
受音装置によって受音した信号をフレームシフトさせながらフーリエ変換し、時間周波数領域の信号を得る周波数領域変換部と、
全分析フレームの周波数スペクトルから、各周波数ビン毎のスペクトル成分の時間変化を読み取る第一の読取部と、
ある周波数ビンに隣接する一定数の周波数ビンの成分に対する時間変化波形を連結して連結波形を得る連結部と、
複数の受音装置についての当該連結波形を、各音源に対する周波数ビンの時間信号に分離する分離部と、
当該分離された結果を各音源信号の時間周波数領域表現とみて、周波数スペクトルのフレーム毎の時間変化を読み取る第二の読取部と、
各音源についてのフレーム毎の時間変化をフーリエ逆変換することによって、時間領域の信号を得る時間領域変換部と、
各音源についてのフレーム毎の時間波形を連結して全時間波形を得て出力する出力部とを備えたことを特徴とするブラインド音源分離装置。 - 複数の音源から出力された音を複数の受音装置で受音し、目的の音を抽出するブラインド音源分離装置において、
受音装置によって受音した信号をフレームシフトさせながらフーリエ変換し、時間周波数領域の信号を得る周波数領域変換部と、
全分析フレームの周波数スペクトルから、各周波数ビン毎のスペクトル成分の時間変化を読み取る第一の読取部と、
各周波数ビンを全周波数標本点について連結し、当該連結された全周波数ビンの信号を各音源における時間周波数領域の信号に一括分離するとともに、ある周波数ビンに隣接する一定数の周波数ビンの成分に対する時間変化波形を連結して連結波形を得る連結部と、
複数の受音装置についての当該連結波形を各音源に対する周波数ビンの時間信号に分離する分離部と、
該連結された連結波形を、各音源に対する周波数ビンの時間信号に分離するステップと、
当該分離された信号を、前記一括分離された信号をもとに周波数ビン毎に並び替える並び替え部と、
当該並び替えられた分離の信号を各音源信号の時間周波数領域表現とみて、周波数スペクトルのフレーム毎の時間変化を読み取る第二の読取部と、
各音源についてのフレーム毎の時間変化をフーリエ逆変換することによって、時間領域の信号を得る時間領域変換部と、
各音源についてのフレーム毎の時間波形を連結して全時間波形を得て出力する出力部とを備えたことを特徴とするブラインド音源分離装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006199420A JP2008026625A (ja) | 2006-07-21 | 2006-07-21 | マルチビン独立成分分析およびそれを用いたブラインド音源分離装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006199420A JP2008026625A (ja) | 2006-07-21 | 2006-07-21 | マルチビン独立成分分析およびそれを用いたブラインド音源分離装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008026625A true JP2008026625A (ja) | 2008-02-07 |
Family
ID=39117315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006199420A Pending JP2008026625A (ja) | 2006-07-21 | 2006-07-21 | マルチビン独立成分分析およびそれを用いたブラインド音源分離装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008026625A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009151578A2 (en) * | 2008-06-09 | 2009-12-17 | The Board Of Trustees Of The University Of Illinois | Method and apparatus for blind signal recovery in noisy, reverberant environments |
US9796791B2 (en) | 2011-04-13 | 2017-10-24 | Eastman Chemical Company | Cellulose ester optical films |
-
2006
- 2006-07-21 JP JP2006199420A patent/JP2008026625A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009151578A2 (en) * | 2008-06-09 | 2009-12-17 | The Board Of Trustees Of The University Of Illinois | Method and apparatus for blind signal recovery in noisy, reverberant environments |
WO2009151578A3 (en) * | 2008-06-09 | 2010-03-18 | The Board Of Trustees Of The University Of Illinois | Method and apparatus for blind signal recovery in noisy, reverberant environments |
US9093079B2 (en) | 2008-06-09 | 2015-07-28 | Board Of Trustees Of The University Of Illinois | Method and apparatus for blind signal recovery in noisy, reverberant environments |
US9796791B2 (en) | 2011-04-13 | 2017-10-24 | Eastman Chemical Company | Cellulose ester optical films |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112447191B (zh) | 信号处理装置以及信号处理方法 | |
Pedersen et al. | Convolutive blind source separation methods | |
US8848933B2 (en) | Signal enhancement device, method thereof, program, and recording medium | |
US8874439B2 (en) | Systems and methods for blind source signal separation | |
Sawada et al. | Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment | |
US10839309B2 (en) | Data training in multi-sensor setups | |
US7647209B2 (en) | Signal separating apparatus, signal separating method, signal separating program and recording medium | |
US8244547B2 (en) | Signal bandwidth extension apparatus | |
US20080228470A1 (en) | Signal separating device, signal separating method, and computer program | |
JP2012234150A (ja) | 音信号処理装置、および音信号処理方法、並びにプログラム | |
JP5337072B2 (ja) | モデル推定装置、音源分離装置、それらの方法及びプログラム | |
JP2011215317A (ja) | 信号処理装置、および信号処理方法、並びにプログラム | |
US20220059114A1 (en) | Method and apparatus for determining a deep filter | |
EP3113508A1 (en) | Signal-processing device, method, and program | |
KR20130068869A (ko) | 관심음원 제거방법 및 그에 따른 음성인식방법 | |
US20060256978A1 (en) | Sparse signal mixing model and application to noisy blind source separation | |
CN109671447A (zh) | 一种双通道欠定卷积混叠信号盲分离方法 | |
Zhao et al. | Robust speech recognition using beamforming with adaptive microphone gains and multichannel noise reduction | |
Mazur et al. | An approach for solving the permutation problem of convolutive blind source separation based on statistical signal models | |
Xiao et al. | Beamforming networks using spatial covariance features for far-field speech recognition | |
JP5406866B2 (ja) | 音源分離装置、その方法及びプログラム | |
KR20190073852A (ko) | 우도 최대화를 이용한 빔포밍 방법 | |
JP2008026625A (ja) | マルチビン独立成分分析およびそれを用いたブラインド音源分離装置 | |
JP6973254B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
JP2007248975A (ja) | パーミュテーションフリー・ブラインド音源分離方法および装置 |