JP4787777B2 - 信号分離装置、信号分離方法、信号分離プログラム、記録媒体 - Google Patents

信号分離装置、信号分離方法、信号分離プログラム、記録媒体 Download PDF

Info

Publication number
JP4787777B2
JP4787777B2 JP2007063259A JP2007063259A JP4787777B2 JP 4787777 B2 JP4787777 B2 JP 4787777B2 JP 2007063259 A JP2007063259 A JP 2007063259A JP 2007063259 A JP2007063259 A JP 2007063259A JP 4787777 B2 JP4787777 B2 JP 4787777B2
Authority
JP
Japan
Prior art keywords
signal
occupancy
separation
separated
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007063259A
Other languages
English (en)
Other versions
JP2008227916A (ja
Inventor
宏 澤田
章子 荒木
昭二 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007063259A priority Critical patent/JP4787777B2/ja
Publication of JP2008227916A publication Critical patent/JP2008227916A/ja
Application granted granted Critical
Publication of JP4787777B2 publication Critical patent/JP4787777B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、信号処理の技術分野に属し、特に複数の音波が空間内で混合されたものから、源音波に対応する源信号をできるだけ正確に復元する信号分離の技術に関する。
[ブラインド信号分離]
以下では音波も信号と称して説明する。まず、ブラインド信号分離の定式化を行う。扱う信号は、あるサンプリング周波数fsでサンプリングされ、離散的に表現される。N個の信号が混合されてM個のセンサで観測されたとする。本発明では、信号の発生源からセンサまでの距離により信号が減衰・遅延し、また壁などにより信号が反射して伝送路歪みが発生しうる状況を扱う。このような状況の混合は、源信号sk(t)からセンサxj(t)へのインパルス応答hjk(r)による畳み込み混合
xj(t)=Σk=1 NΣr=0 hjk(r)sk(t-r) (1)
となる。ブラインド信号分離の目的は、源信号s1(t),...,sN(t)やインパルス応答h11(r
),...,h1N(r),...,hM1(r),...,hMN(r)を知らずに、観測信号x1(t),...,xM(t)のみから、源信号s1(t),...,sN(t)にそれぞれ対応する分離信号y1(t),...,yN(t)を求めることにある。
[周波数領域]
本発明では周波数領域において分離の操作を行う。そのために、センサでの観測信号xj(t)にL点の短時間フーリエ変換を適用して周波数毎の時間系列
を求める。ここでfは周波数であり、f=0,(1/2)fs,...,((L-1)/L)fsと離散化されている(fsはサンプリング周波数)。g(r)は窓関数である。ハニング窓g(r)=(1/2)(1+cos(2πr/L))などのg(0)にパワーの中心を持つ窓関数を用いることで、xj(f,t)は時刻tを中心とする観測信号xj(t)の周波数特性を表現する。xj(f,t)はLサンプルにわたる情報を含んでいるため、すべての時刻tに対してxj(f,t)を求める必要はなく、適当な感覚の時刻t毎にxj(f,t)を求める。また、複素共役の関係
から、周波数領域での処理においては、処理の対象とする周波数ビンの集合を
と絞り込むのが一般的である。
周波数領域で処理を行うと、式(1)で示される時間領域での畳み込み混合が、周波数領域では
と各周波数での単純混合に近似表現でき、分離の操作が単純になる。ここでhjk(f)は源信号skからセンサxjまでの周波数応答、sk(f,t)は式(2)と同様の式に従って源信号sk(t)に短時間フーリエ変換を施したものである。式(5)をベクトルを用いて表現すると、
となる。ここでx=[x1,...,xM]Tは観測信号ベクトル、h=[h1k,...,hMk]Tは源信号skから各センサへの周波数応答をまとめたベクトルである。
[独立成分分析による信号分離]
次に、独立成分分析(ICA:Independent Component Analysis)を用いて、周波数毎に信号分離を行う。周波数領域での処理により、畳み込み混合、式(1)を単純混合、式(5)およびそのベクトル表記、式(6)に近似できるため、ICAも単純混合のモデルに従って行う。ICAでは、観測信号ベクトルx(f,t)のみから、N行M列の分離行列W(f)および分離信号ベクトル
を算出する。ここで、分離信号ベクトルy=[y1,...,yN]Tの各要素y1,...,yNが互いに独立になるように分離行列Wが算出される。このためのアルゴリズムは、[非特許文献1]などに様々なものが紹介されている。
次に、観測信号ベクトルxを基底ベクトルai=[a1i,...,aMi]Tの和で
を計算する。もし、分離行列Wの逆行列が存在すれば、行列AはA=W-1として計算できる。それ以外の場合は、二乗誤差の期待値E{‖x-Ay‖2}を最小にする
として算出される。ここで、[・H]はベクトル[・]の複素数共役転置、E{・}は行列[・]の要素毎の期待値から成る行列である。
[パーミュテーション問題]
ICAでは信号の独立性に着目して分離を行うため、得られる分離信号y1,...,yNには順序の任意性がある。その順序が入れ替わっても、独立性が保たれているからである。この任意性は、同じ源信号sk(t)に対応する分離信号成分yi(f,t)がすべての周波数fで同じ添え字iになるように解決されなければならない。これは、パーミュテーション問題と呼ばれ、周波数領域での信号分離において非常に重要な問題である。この問題を解決する従来技術は、周波数毎の分離信号のエンベロープの相関関数に基づくもの([非特許文献2]、[非特許文献3]など)と、ICAの結果から信号源の方向や位置に相当する値を推定することに基づくもの([特許文献1])に大別できる。
周波数毎の分離信号のエンベロープを用いる従来技術では、分離信号yiのエンベロープを
などとして計算し、2つのエンベロープυiとυjのρ(υij)を、相関、平均、標準偏差を、それぞれ、
として計算する。相関係数ρは、−1から1までの間の値をとり、二つの系列が等しい時に1となる。二つのエンベロープυi fk gの相関係数は、それらが同じ信号源に対応する場合に高くなると期待される。そのような傾向は、二つの周波数fとgが近いものであれば良く確認されるが、二つの周波数fとgが大きく異なる場合はあまり成り立たない。図9に二つの分離信号y1とy2のエンベロープを示す。図10には、図9に示した分離信号エンベロープ間の相関係数を示す。図10のAとDに示すように同じ音源の分離信号の相互でも、若干の数の周波数ペアで相関係数ρが0に近い値を取っており、
となっていることが見受けられる。これは、音声信号のダイナミックレンジが広く、平均μi=0、分散σi 2=1に正規化したとしても、信号がアクティブであるという現象が様々な値で表現されているからである。エンベロープの相関関数に基づくものは、局所的な周波数範囲でのパーミュテーション最適化には適しているが、周波数全体に渡って一貫性のある解を得るには不向きである。
一方、信号源の方向や位置に相当する値に基づくものは、周波数全体に渡って一貫性のある解をある程度の精度で容易に算出することができる。従って、これら2種類の手法を組み合わせた方法が[特許文献2]や[非特許文献4]などで提案されており、パーミュテーション問題への高精度な解を提供している。
特許第3881367号明細書 特開2004−145172号公報 A. Hyvarinen and J. Karhunen and E Oja, "Independent Component Analysis," John Wiley & Sons, 2001, ISBN 0-471-40540-X. J. Anemuller and B. Kollmeier, "Amplitude modulation decorrelation for convolutive blind source separation,"in Proc. ICA 2000, June 2000, pp. 215-220. N. Murata, S. Ikeda, and A. Ziehe, "An approach to blind source separation based on temporal structure of speech signals," Neurocomputing, vol. 41, pp. 1-24, Oct. 2001. H. Sawada, R. Mukai, S. Araki, S. Makino, "A Robust and Precise Method for Solving the Permutation Problem of Frequency-Domain Blind Source Separation," IEEE Trans. Speech and Audio Processing, vol.12, no. 5, pp. 530-538, Sep. 2004.
しかしながら、上述したような従来技術による信号分離方法が適切に動作するのは、信号源の方向や位置がある程度正確に推定できる状況に限られる。すなわち、反射の影響がそれほど大きくな状況で、しかも信号源からセンサまで信号が直接到達する経路が存在する場合に限られる。そのような条件を満たさない、例えば非常に残響時間の長い部屋で混合された音を分離するような状況では、信号源の位置や方向の推定値が非常に不正確になるため、従来のような方法では利用しにくい。
従来技術である分離信号エンベロープの相関係数に基づくパーミュテーション問題の解法は、信号源が全周波数に渡って同じ様な振幅のエンベロープを持たない限り、周波数全体に渡って一貫性のある解を得るには不向きである。また、ICAの結果から信号源の方向や位置に相当する値を推定する方法は、反射などの影響が強い場合には、信号源の方向や位置が正確に維持できずに性能が劣化する。
本発明の目的は、反射などの影響が強い場合でも、また、信号源が全周波数に渡って同じような振幅のエンベロープを持たない場合でも、正確にパーミュテーションを解決できる信号分離装置及び信号分離方法を提供することにある。
従来技術の課題を解決するために本発明では、ICAにより算出された分離信号が元の観測信号をどれぐらい占有しているかを示す値(以下、これを占有度と呼ぶ)を計算し、その値の時間方向の系列を従来技術のエンベロープに代わるものとして用いる。その新たな系列は、同じ信号源に対応する分離信号に関して、多くの周波数の組み合わせで高い相関係数を示すという特徴を持つ。本発明の原理的な詳細を以下に示す。
占有度を示す具体的な値を算出するために、あるJ番目のセンサの観測信号xJに着目する。式(9)のJ番目の要素のみを表現すると
ある時間周波数スロット(f,t)において、i番目の分離信号yiの占有度が高ければ式(13)の値は1に近くなり、逆に、占有度が低ければ式(13)の値は0に近くなる。
周波数毎の分離信号yi(f,t)の特徴を表現するものとして、従来技術で用いられている分離信号のエンベロープ式(11)の代わりに式(13)を用いてみる。
すると、従来技術で説明した図9と同じ分離信号に対応する式(14)の値は、図6に示すものとなり、それらの間の相関係数は図7に示すものとなる。図7を見ると、従来技術と比べて図7のAとDに示すように同一信号源間の相関係数が高くなる場合が多く、また、異なる信号源間の場合は図7のBとCに示すように相関係数が小さく(多くの場合負の値、白色部分)なっていることが分かる。従って、式(14)によって算出される占有度の値は、従来のエンベロープよりも明確に、分離信号間の同一信号源依存性を示すものとなる。それは、以下の二つの理由による。
1点目は、式(13)によって算出される占有度の値の範囲は0≦powRatio≦1と限定されており、ある分離信号が(他の分離信号と比べて)アクティブであるという事実は1に近い値によって一様に表現されるということである。従来技術のエンベロープ式(11)では、それらを平均0,分散1に正規化したとしても、様々な値によって分離信号がアクティブであるという事実が表現されていたため、同一信号源得も相関係数が必ずしも高くならなかった。
2つ目は、式(13)によって算出される占有度の値が、排他的であるという点である。図6を見ると、同じ時間周波数において、一方の分離信号の占有度の値が1(図では黒で表示される)に近ければ、他方の分離信号の占有度の値は0(図では白で表示される)に近くなっていることが分かる。これはある分離信号が観測信号をどれくらい占有しているか、ということを式(13)が表現しているためであり、一方の占有度が高ければ、当然、他方の占有度は下がる。この排他的性質により、異なる信号源に対応する分離信号間での相関係数は、負の値になることが多い。
上述のように計算された占有度の系列が与えられた場合に、どのようにして最適なパーミュテーションを効率良く求めるかということも重要である。本発明では、以下の2段階から成る最適化手順も提供する。1段階目は、全ての周波数を同時に考慮する大域的な最適化である。占有度の系列は、多くの周波数の組み合わせで高い相関係数を示すため、そのような最適化方法は有効に働く。2段階目は局所的な最適化である。前段の大域的な最適化が、ある程度性質の良い解を生成した後に、局所的な最適化を行うことで、さらに性能を高めることが可能となる。
以上説明した本発明の特徴とする機能を実現する信号分離装置の構成は、複数の信号源から発せられた信号が混合され、この混合された混合信号を各信号源からの信号に分離する信号分離装置であって、互いに異なる位置に設置された複数のセンサで観測された混合信号を周波数領域信号に変換する周波数領域変換手段と、周波数領域信号に独立成分分析を適用し、周波数毎に分離信号ベクトル及び基底ベクトルを列に持つ行列を算出する分離信号算出手段と、分離信号算出手段の算出結果を用いて周波数毎の観測信号における各分離信号の占有度を時間方向の系列として算出する占有度系列算出手段と、占有度系列算出手段で算出された占有度系列に従って周波数毎の順列を算出するクラスタリング手段と、クラスタリング手段で得られた順列に従って分離信号ベクトルの要素と基底ベクトルを並べ替える並べ替え手段とを備えることを特徴とする。
更に、前記記載の信号分離装置において、占有度系列算出手段はi番目の分離信号のパワーとすべての分離信号のパワーの総和との割合を指標として占有度系列を算出することを特徴とする。
更に、前記記載の信号分離装置において、占有度系列算出手段は観測信号ベクトル白色化空間での基底ベクトルと観測信号ベクトルのコサイン距離を指標として、占有度系列を算出する構成されることを特徴とする。
更に、本発明では前記記載の信号分離装置において、クラスタリング手段は、占有度系列と信号源に対応するセントロイドとの相関係数を全ての信号源および全ての周波数で足し合わせて得られる関数を最大化する条件で得られた順列を出力する大域的最適化手段を備える構成を特徴とし、更に望ましくは大域的最適化手段で求めた順列を、それぞれの周波数について、それぞれの周波数と局所関係にある周波数との相関係数が最大化される条件で求められる順列に修正する局所的最適化手段とを備えることを特徴とする。
更に、本発明による信号分離方法は複数の信号源から発せられた信号が混合され、この混合された混合信号を各信号源からの信号に分離する信号分離方法にであって、互いに異なる位置に設置された複数のセンサで観測された混合信号を周波数領域信号に変換する周波数領域変換処理と、周波数領域信号に独立成分分析を適用し、周波数毎に分離信号ベクトル及び基底ベクトルを列に持つ行列を算出する分離信号算出処理と、分離信号算出処理の算出結果を用いて周波数毎の観測信号における各分離信号の占有度を時間方向の系列として算出する占有度系列算出処理と、占有度系列算出処理で算出された占有度系列に従って周波数毎の順列を算出するクラスタリング処理と、クラスタリング処理で得られた順列に従って分離信号ベクトルの要素と基底ベクトルを並べ替える並べ替え処理とを含むことを特徴とする。
更に、本発明による信号分離方法は前記記載の信号分離方法において、占有度系列算出処理はi番目の分離信号のパワーとすべての分離信号のパワーの総和との割合を指標として占有度系列を算出する処理とされることを特徴とする。
更に本発明による信号分離方法は、前記記載の信号分離方法において、占有度系列算出処理は観測信号ベクトル白色化空間での基底ベクトルと観測信号ベクトルのコサイン距離を指標として、占有度系列を算出する処理されることを特徴とする。
更に、本発明による信号分離方法は前記記載の信号分離方法において、クラスタリング処理は、占有度系列と信号源に対応するセントロイドとの相関係数を全ての信号源および全ての周波数で足し合わせて得られる関数を最大化する条件で得られた順列を出力する大域的最適化処理を含むことを特徴とし、更に望ましくは大域的最適化処理で求めた順列を、それぞれの周波数について、それぞれの周波数と局所関係にある周波数との相関係数が最大化される条件で求められる順列に修正する局所的最適化処理とを含むことを特徴とする。
本発明による信号分離装置及び信号分離方法によれば、様々な妨害信号が発生する実環境において、目的の信号を精度良く取り出すことが可能となる。音信号に対する応用例としては、音声認識器のフロントエンドとして働く音源分離システムなどが挙げられる。話者とマイクが離れた位置にあり、マイクが話者の音声以外を収音してしまうような状況でも、本発明による信号分離装置を使うことで、話者の音声のみを取り出して正しく音声を認識することができる。
本発明による信号分離装置は全てをハードウェアによって構成することも可能であるが、最も簡素に実現するには、コンピュータに本発明による信号分離プログラムをインストールし、コンピュータに本発明による信号分離装置として機能させる実施形態が最良の実施形態である。
コンピュータに本発明による信号分離装置として機能させるには、コンピュータにインストールした信号分離プログラムにより、コンピュータに互いに異なる位置に設置された複数のセンサで観測された混合信号を周波数領域信号に変換する周波数領域変換手段と、周波数領域信号に独立成分分析を適用し、周波数毎に分離信号ベクトル及び基底ベクトルを列に持つ行列を算出する分離信号算出手段と、分離信号算出手段の算出結果を用いて周波数毎の観測信号における各分離信号の占有度を時間方向の系列として算出する占有度系列算出手段と、占有度系列算出手段で算出された占有度系列に従って周波数毎の順列を算出するクラスタリング手段と、クラスタリング手段で得られた順列に従って前記分離信号ベクトルの要素と基底ベクトルを並べ替える並べ替え手段とを構築し、信号分離装置として機能させる。
図1に本発明による信号分離装置の実施例を示す。図中100は本発明による信号分離装置の全体を示す。本発明による信号分離装置100は、周波数領域変換手段10と、分離信号算出手段20と、パーミュテーション解決手段30と、スケーリング調整手段40と、時間領域変換手段50とによって構成される。
パーミュテーション解決手段30は図2に示すように、占有度算出手段30−1と、クラスタリング部30−2と、並べ替え手段30−3とによって構成される。
更に、クラスタリング手段30−2は図3に示すように、大域的最適化手段30−2−1と、局所的最適化手段30−2−2とによって構成される。尚、図3に示す実施例ではクラスタリング手段30−2を大域的最適化手段30−2−1と局所的最適化手段30−2−2とによって構成した場合を示したが、後に説明する実験例で明らかなように、大域的最適化手段30−2−1のみによるクラスタリング処理によっても優れた信号分離性能を得ることができるから、この発明では局所的最適化手段32−2を必須要件として含めないこととする。
以下に各部の構成及び動作について説明する。
時間領域のセンサ信号をまとめたベクトル[x1(t),...,xM(t)]Tは、周波数領域変換手段10において、短時間フーリエ変換により周波数毎の時系列を表現する観測信号ベクトルx(f,t)=[x1(f,t),...,xM(f,t)]Tに変換される。次に、分離信号算出手段20において、観測信号ベクトルx(f,t)から周波数f毎に分離信号ベクトルy(f,t)=[y1(f,t),...,yN(f,t)]Tと基底ベクトルを列に持つ行列A(f)=[a1(f),...,aN(f)]を算出する。
次に、パーミュテーション解決手段30において、分離信号ベクトルの要素y(f,t)と行列Aの列ai(f)を並べ替え、同じ信号源に対応するものがすべての周波数fで同じ添字iとなるようにする。そして、スケーリング調整手段40で分離信号y1(f,t),...,yN(f,t)のスケーリングを調整し、最後に、時間領域変換手段50において、それら分離信号yk(f,t)を短時間逆フーリエ変換して、時間領域での分離信号ベクトル[y1(t),...,yN(t)]Tを得る。
(周波数領域変換手段)
周波数領域変換手段10では、従来技術の説明で記載したように、式(2)に従って短時間フーリエ変換を行う。
(分離信号算出手段)
分離信号算出手段20では、周波数f毎に処理を行う。まず、従来技術の説明に記載したように、式(7)に示すICAを適用し、分離信号ベクトルyを算出する。次に、式(10)を用いるか、あるいは分離行列Wの逆行列として、基底ベクトルを列に持つ行列Aを算出する。
(パーミュテーション解決手段)
図2にパーミュテーション解決手段30の構成を示す。パーミュテーション解決手段30はこの発明で特徴とする占有度算出手段30−1と、クラスタリング部30−2と、並べ替え手段30−3とによって構成される。
この発明で特徴とする占有度算出手段30−1では従来技術のエンベロープに代わるものとして分離信号の占有度を示す値を系列υi f(t)として計算する。ここでのクラスタリングは、一般的なものとは異なり、クラスタリング結果は周波数毎の順列Πfで表現される。最後に並べ替え手段30−3において、順列Πfに従って分離ベクトルy(f,t)の要素と基底ベクトルの並びを変更する。
(占有度算出手段)
占有度算出手段30−1では、分離信号y(f,t)が観測信号x(f,t)をどれほど占有しているかを示す値を計算する。その方法の一つとして、この実施例では、課題を解決するための手段の項で説明した複数のセンサの中の特定したセンサにおけるi番目の分離信号のパワーとすべての分離信号のパワーの総和との割合を占有度として求める式(13)或は全てのセンサに着目して占有度を求める式(13’)、或は部分集合に該当するセンサに着目して占有度を求める方法を提案する。
(クラスタリング手段)
占有度算出手段30−1で算出された占有度系列υi f(t)は、次にクラスタリング手段30−2に入力される。クラスタリング手段30−2の構成を図3に示す。クラスタリング手段30−2はこの実施例では大域的最適化手段30−2−1と、局所的最適化手段30−2−2とによって構成した場合を示す。
大域的最適化手段30−2−1では信号源k毎にセントロイド(クラスタの中心ベクトル)ckを推定する形でクラスタリングを行う。最大化する目的関数として
を考える。これは、順列Πfによって並べ替えられた占有度系列υi f,i=Πf(k)と信号源kに対応するセントロイドckとの相関係数ρを全ての信号源および全ての周波数で足し合わせたものである。この目的関数は、良く知られたk-means法と同じように、セントロイドckと順列Πfを交互に最適化することで、最大化することができる。セントロイドckは、現在の順列Πfによって並べ替えられた占有度系列υi fの値の周波数方向の平均値として算出される。
式(17)と式(18)を、変化が起きなくなるまで繰り返すことで、目的関数を表わす式(16)が最大化される。
尚、クラスタリング部30−2を大域的最適化手段30−2−1のみで構成する場合は上述した大域的最適化手段30−2−1が算出した順列Πfを最終値として出力し、並べ替え手段30−3に入力する。ただし、ここでは局所的最適化手段30−2−2を用いる場合を例示しているから、大域的最適化手段30−2−1で算出した順列Πfは暫定値として局所的最適化手段30−2−2に入力される。
次に、局所的最適化手段30−2−2では、それぞれの周波数fについて、各周波数の近隣に位置する局所的範囲内のいくつかの特定関係にある周波数との相関係数ρを、以下の式に従って順次最大化していく。
特定関係にある周波数の集合R(f)は、同じ信号源である場合にυi fとυi' gの相関係数が高くなるような周波数gを要素に持つようなものが望ましい。典型的には、近傍の集合Α(f)と倍音関係にある周波数の集合Η(f)を考慮し、R(f)=Α(f)∪Η(f)として特定関係にある周波数gを定義する。近傍の周波数の集合Αは、例えば、
Α(f)={f−3Δf,f−2Δf,f−Δf,f+Δf,f+2Δf,f+3Δf}
として定義できる。ここで、Δf=(1/L)fsは、隣り合う周波数ビン間の周波数の差である。また、倍音関係にある周波数の集合Ηは、例えば、
Η(f)={round(f/2)−Δf,round(f/2),round(f/2)+Δf,2f−Δf,2f,2f+Δf}
として定義できる。ここで、round(・)は、周波数の集合Fから・に最も近い周波数を意味する。局所的最適化部では、式(19)に従った順列Πfの最適化を、すべての周波数で改善が起こらなくなるまで繰り返す。
[並べ替え手段]
並べ替え手段30−3では、クラスタリング手段30−2で算出された順列Πfに基づいて、分離信号ベクトルy=[y1,...,yN]Tの要素と、基底ベクトルから成る行列A=[a1,...,aN]の列を以下のように並べ替える。
yk(f,t)←yΠf(k)(f,t),ak(f)←aΠf(k)(f),k,f,t
以上でパーミュテーション解決手段30の説明を終わる。
[スケーリング調整手段40]
ICAでは信号の独立性に着目して分離を行うため、得られる分離信号には、振幅や移相、すなわちスケーリングの任意性がある。時間領域に戻した際に適切な分離信号となるためには、振幅や位相を適切に設定する必要がある。この実施例では、あるセンサJでの観測信号に合わせるという考え方を採用し、
yk(f,t)←ajk(f)yk(f,t),k,f,t
によりスケーリング調整を行う。
[時間領域変換手段]
最後に時間領域変換手段50で、これまでに得られた周波数領域の分離信号に、短時間逆フーリエ変換などを施して、時間領域の分離信号を作成する。
図4および図5を用いて本発明の実施例2を説明する。この実施例2ではパーミュテーション解決手段30に観測信号ベクトルx(f,t)と、分離信号y(f,t)と、基底ベクトルを列に持つ行列A(f)とを入力し、主に占有度算出手段30−1’は図5に示すように観測信号ベクトルx(f,t)と、基底ベクトルを列に持つ行列A(f,t)により占有度系列υi f(t)を算出する構成とするものである。
つまり、実施例1では特定のセンサ番号Jを選択し、選択したセンサにおける分離信号のパワーと分離信号の総パワーの比により占有度系列υi f(t)を算出する構成としたから、或るセンサJを指定しなければならないが、状況によっては不適切なセンサ(例えば感度の悪いセンサ)を選んでしまう恐れがある。
この課題を解決するために、占有度の算出方法としてこの実施例2では観測信号ベクトルxが白色化された空間での基底ベクトルaiと観測信号ベクトルxのコサイン距離
を考えることもできる。ここで、
bi=Vai,z=Vx
は、観測信号ベクトル白色化空間での、それぞれ、biは白色化された基底ベクトル、zは白色化された観測信号ベクトルであり、白色化行列VはVHV=(E{xxH})-1を満たすものとして、例えば、固有値分解E{xxH}=EDEHを行った後
V=D-1/2EH
として計算できる。式(13)及び(13’)では分離信号ベクトルyと基底ベクトルを列に持つ行列Aを用いるのに対し、この式(15)では図5に記載されている観測信号ベクトルxと行列Aを用い、分離信号ベクトルyは占有度の算出には用いない。また、ここでは観測信号ベクトルxを演算指標として用いるから、全てのセンサの観測信号を対象としている。従ってこの実施例によれば特定のセンサを選択する必要はない。
式(13)で算出される値の性質と同様、式(15)の値の範囲も0≦cosdw(ai,x)≦1と限定されている。そして、i番目の分離信号yiの占有度が高ければ式(15)の値は1に近くなり、逆に、占有度が低ければ式(15)の値は0に近くなる。式(15)の計算過程に分離信号yiは直接関わっていないが、式(8)に示す通り、基底ベクトルaiと分離信号は密接に関連しているため、式(15)も分離信号yiの性質を表現する値を算出していることになる。
尚、基準センサの影響を受けないようにする他の方法として、式(13)を次式(13’)に書き換えることにより、全てのセンサの分離信号を演算対象とするため特定のセンサの影響を除去することができる。また、複数のセンサの中の一部(部分集合)を演算対象とすることもできる。この場合も、特定のセンサの影響を受ける不都合を解消することができる。
図8に本発明の実施例3を示す。この実施例ではコンピュータに本発明による信号分離プログラムをインストールし、インストールしたプログラムによりコンピュータ内に周波数領域変換手段10と、分離信号算出手段20と、パーミュテーション解決手段30と、スケーリング調整手段40と、時間領域変換手段50とを構築し、信号分離装置100として機能させる実施例を示す。
つまり、コンピュータは周知のように中央演算処理装置(以下CPUと称す)101と、読み出し専用メモリ(以下ROMと称す)102と、プログラムを記録し、記録したプログラムをCPU101で解読する。書き替え可能なメモリ(以下RAM)103と、起動時にプログラム等をRAM103に展開する例えばハードディスクのような記録装置104と、入力ポート105、出力ポート106等により構成される。
RAM103に周波数領域変換手段10、分離信号算出手段20、パーミュテーション解決手段30,スケーリング調整手段40、時間領域変換手段50と記載した部分はそれぞれ、これらの手段を構築するためのプログラムを記憶した領域を指し、各領域に記憶したプログラムをCPU101が解読し、コンピュータが各手段として機能する。
入力ポート105には特に図示していないが例えば磁気ディスク読取装置、CD-ROM読取装置、メモリカード読取装置、或いはモデム等を接続し、コンピュータが読取可能な記録媒体から入力ポート105を通じて記録装置104にプログラムをインストールする。
図示する例では入力ポート105にマウスのような入力手段201とマイク群202を接続し、このマイク群202で受音した観測信号を周波数領域変換手段10に取り込むように構成し、更に、また出力ポート105にはスピーカ301を接続し、スピーカ301で分離した源音を再生する構成とした場合を示す。また、スピーカ301の他に、モニタ302、プリンタ303等を出力ポート106に接続した状態を示している。
以上により本発明による信号分離プログラムをコンピュータにインストールすることにより、コンピュータを信号分離装置として機能させることができることが理解できよう。
(実験結果)
本発明の効果を示すために、図11に示す実験条件と図12に示すマイクロホンM1〜M3とスピーカSP1〜SP3の配置を用いて実験を行った。3つの音を同時に鳴らした時の混合音を3つのマイクロホンM1〜M3で観測し、その観測信号のみからそれぞれの音に対応する分離信号を算出するという問題設定である。様々な音声信号の組合せで評価できるように、スピーカSP1〜SP3からマイクロホンM1〜M3までのインパルス応答を測定し、音声信号をインパルス応答に畳み込んで混合することで観測信号を生成した。図12に示す配置では、二つの音源が同じ方向からマイクロホンM1〜M3に到来し、しかもマイクロホンM1〜M3の間隔は4cmと狭いため、信号源の方向や位置に相当するICAの結果から推定するパーミュテーションの解法([特許文献1]、[特許文献2]、[非特許文献4]に記載)は、適用しにくい。分離性能は、signal-to-interference ratio (SIR)の改善量で評価した。これは、各出力i毎に、出力SIRと入力SIRの差OutputSIRi-InputSIRiとして計算される。入力SIRと出力SIRは、それぞれ以下の式で計算される。
ここで、J∈{1,...,M}はある選択された基準センサの番号を示す。また、源信号skのうち出力yi(t)に出てきた成分をyik(t)と表記する。この定義により、yi(t)=Σk=1 Nyik(t)が満たされる。
3つの音声の組合せを8通り用いて実験を行った。図13に、種々のパーミュテーション解決法を用いた結果を、SIR改善量の全出力に関する平均値で示す。省略形として、“Env”と“Cos”は、それぞれ、式(11)に示す従来のエンベロープ|yi|を用いた場合と、本発明で提案した式(15)に示すcosdw(ai,x)の値を用いた場合を示す。また、省略形“Gl”と“Lo”は、それぞれ、大域的最適化と局所的最適化を示す。“Optimal”と書かれたものは、信号源に関する情報を用いて最適なパーミュテーションを算出したものである。現実的な状況では、そのような情報は得られないが、性能の上限を示す目的で掲載した。
図13の結果から、以下のことが考察できる。大域的最適化“Gl”は、提案した“Cos”を用いた場合には良好に働くが、従来の“Env”では良い結果が得られていない。局所的最適化“Lo”のみを適用した場合は、双方“Env”、“Cos”の特徴系列について、良い結果は得られない。しかし、図13に示すCos(Gl)が示す値から明らかなように大域的最適化“Gl”のみによっても、従来技術では得られない高い評価値を示す。望ましくは大域的最適化“Gl”によってある程度良い解を得た後に局所的最適化(Lo)を適用すれば、効果的に解を改善できることが分かる。提案手法としての“Cos(Gl+Lo)”は、ほぼ最適解に近い分離性能を得ている。
様々な妨害信号が発生する実環境において、本発明の信号分離装置によれば目的の信号を精度良く取り出すことが可能となる。応用例としては音声認識器の前処理装置として働く信号分離装置として活用できる。
本発明の信号分離装置の実施例1を説明するためのブロック図。 本発明の信号分離装置に用いるパーミュテーション解決手段30の構成を説明するためのブロック図。 図2に示したパーミュテーション解決手段に用いるクラスタリング手段の構成例を説明するためのブロック図。 本発明の信号分離装置の実施例2を説明するためのブロック図。 本発明の実施例2に用いるパーミュテーション解決手段の構成を説明するためのブロック図。 本発明の作用効果を説明するためのグラフ。 図6と同様に本発明の作用効果を説明するためのグラフ。 本発明による信号分離装置をコンピュータで構成した場合の、コンピュータの内部の様子を説明するためのブロック図。 従来技術の動作を説明するためのグラフ。 従来技術の分離性能を説明するためのグラフ。 本発明による信号分離装置の作用効果を実証するために行なった実験の条件を説明するための図。 図11に示した実験条件を図で示した配置図。 本発明と従来技術との分離性能を比較するためのグラフ。
符号の説明
100 信号分離装置 30−1、30−1’ 占有度算出手段
10 周波数領域変換手段 30−2 クラスタリング手段
20 分離信号算出手段 30−3 並べ替え手段
30 パーミュテーション解決手段 30−2−1 大域的最適化手段
40 スケーリング調整手段 30−2−2 局所的最適化手段
50 時間領域変換手段

Claims (10)

  1. 複数の信号源から発せられた信号が混合され、この混合された混合信号を各信号源からの信号に分離する信号分離装置において、
    互いに異なる位置に設置された複数のセンサで観測された前記混合信号を周波数領域信号に変換する周波数領域変換手段と、
    前記周波数領域信号に独立成分分析を適用し、周波数毎に分離信号ベクトル及び基底ベクトルを列に持つ行列を算出する分離信号算出手段と、
    前記分離信号算出手段の算出結果を用いて周波数毎の観測信号において、各分離信号が元の観測信号をどれくらい占有しているかを示す値を各分離信号の占有度として求め、前記占有度の時間方向の系列を占有度系列として算出する占有度系列算出手段と、
    前記占有度系列算出手段で算出された占有度系列に従って周波数毎の順列を算出するクラスタリング手段と、
    前記クラスタリング手段で得られた順列に従って前記分離信号ベクトルの要素と基底ベクトルを並べ替える並べ替え手段と、
    を備えることを特徴とする信号分離装置。
  2. 請求項1記載の信号分離装置において、前記占有度系列算出手段では分離信号毎に、各分離信号のパワーとすべての分離信号のパワーの総和との割合を指標として占有度系列を算出することを特徴とする信号分離装置。
  3. 請求項1記載の信号分離装置において、前記占有度系列算出手段は観測信号ベクトル白色化空間での基底ベクトルと観測信号ベクトルのコサイン距離を指標として、占有度系列を算出する構成されることを特徴とする信号分離装置。
  4. 請求項1乃至3の何れかに記載の信号分離装置において、前記クラスタリング手段は、前記占有度系列と信号源に対応するセントロイドとの相関係数を全ての信号源および全ての周波数で足し合わせて得られる関数を最大化する条件で得られた順列を出力する大域的最適化手段を備えることを特徴とする信号分離装置。
  5. 複数の信号源から発せられた信号が混合され、この混合された混合信号を各信号源からの信号に分離する信号分離方法において、
    互いに異なる位置に設置された複数のセンサで観測された前記混合信号を周波数領域信号に変換する周波数領域変換処理と、
    前記周波数領域信号に独立成分分析を適用し、周波数毎に分離信号ベクトル及び基底ベクトルを列に持つ行列を算出する分離信号算出処理と、
    前記分離信号算出処理の算出結果を用いて周波数毎の観測信号において、各分離信号が元の観測信号をどれくらい占有しているかを示す値を各分離信号の占有度として求め、前記占有度の時間方向の系列を占有度系列として算出する占有度系列算出処理と、
    前記占有度系列算出処理で算出された占有度系列に従って周波数毎の順列を算出するクラスタリング処理と、
    前記クラスタリング処理で得られた順列に従って前記分離信号ベクトルの要素と基底ベクトルを並べ替える並べ替え処理と、
    を含むことを特徴とする信号分離方法。
  6. 請求項5記載の信号分離方法において、前記占有度系列算出処理は分離信号毎に、各分離信号のパワーとすべての分離信号のパワーの総和との割合を指標として占有度系列を算出する処理とされることを特徴とする信号分離方法。
  7. 請求項5記載の信号分離方法において、前記占有度系列算出処理は観測信号ベクトル白色化空間での基底ベクトルと観測信号ベクトルのコサイン距離を指標として、占有度系列を算出する処理されることを特徴とする信号分離方法。
  8. 請求項5乃至7の何れかに記載の信号分離方法において、前記クラスタリング処理は、前記占有度系列と信号源に対応するセントロイドとの相関係数を全ての信号源および全ての周波数で足し合わせて得られる関数を最大化する条件で得られた順列を出力する大域的最適化処理を含むことを特徴とする信号分離方法。
  9. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項1乃至3の何れかに記載の信号分離装置として機能させる信号分離プログラム。
  10. コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項9記載の信号分離プログラムを記録した記録媒体。
JP2007063259A 2007-03-13 2007-03-13 信号分離装置、信号分離方法、信号分離プログラム、記録媒体 Expired - Fee Related JP4787777B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007063259A JP4787777B2 (ja) 2007-03-13 2007-03-13 信号分離装置、信号分離方法、信号分離プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007063259A JP4787777B2 (ja) 2007-03-13 2007-03-13 信号分離装置、信号分離方法、信号分離プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JP2008227916A JP2008227916A (ja) 2008-09-25
JP4787777B2 true JP4787777B2 (ja) 2011-10-05

Family

ID=39845993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007063259A Expired - Fee Related JP4787777B2 (ja) 2007-03-13 2007-03-13 信号分離装置、信号分離方法、信号分離プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP4787777B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5406866B2 (ja) * 2011-02-23 2014-02-05 日本電信電話株式会社 音源分離装置、その方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1662485B1 (en) * 2003-09-02 2009-07-22 Nippon Telegraph and Telephone Corporation Signal separation method, signal separation device, signal separation program, and recording medium
CN1942932B (zh) * 2005-02-08 2010-07-28 日本电信电话株式会社 信号分离装置和信号分离方法

Also Published As

Publication number Publication date
JP2008227916A (ja) 2008-09-25

Similar Documents

Publication Publication Date Title
US9971012B2 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
Chazan et al. Multi-microphone speaker separation based on deep DOA estimation
JP4403436B2 (ja) 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
JPWO2006085537A1 (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
JP2014219467A (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
EP3113508A1 (en) Signal-processing device, method, and program
JP2016045221A (ja) 信号解析装置、方法、及びプログラム
JP4769238B2 (ja) 信号分離装置、信号分離方法、プログラム及び記録媒体
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP2010175431A (ja) 音源方向推定装置とその方法と、プログラム
KR102048370B1 (ko) 우도 최대화를 이용한 빔포밍 방법
WO2012105385A1 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
US11862141B2 (en) Signal processing device and signal processing method
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP4787777B2 (ja) 信号分離装置、信号分離方法、信号分離プログラム、記録媒体
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
WO2012023268A1 (ja) 多マイクロホン話者分類装置、方法およびプログラム
JP4738284B2 (ja) ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
EP3557576A1 (en) Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program
JP7293162B2 (ja) 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
Gburrek et al. On source-microphone distance estimation using convolutional recurrent neural networks
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
JP4676920B2 (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
JP2020038315A (ja) 音声情報処理装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110715

R150 Certificate of patent or registration of utility model

Ref document number: 4787777

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140722

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees