JP2007248975A

JP2007248975A - パーミュテーションフリー・ブラインド音源分離方法および装置

Info

Publication number: JP2007248975A
Application number: JP2006074423A
Authority: JP
Inventors: Persia Leandro Ezequiel Di; レアンドロ・エセキエル・ディ・ペルシア; Diego Milone; ディエゴ・ミローネ; Masuzo Yanagida; 益造柳田
Original assignee: NACIONAL DE ENTRE RIOS, University of; NACIONAL DEL LITORAL, University of; Doshisha Co Ltd
Current assignee: NACIONAL DE ENTRE RIOS, University of; NACIONAL DEL LITORAL, University of; Doshisha Co Ltd
Priority date: 2006-03-17
Filing date: 2006-03-17
Publication date: 2007-09-27

Abstract

【課題】パーミュテーション問題が起きないような周波数領域BSS手法を提案する。
【解決手段】複数の音源から出力された音声を複数の受音装置で受音して目的の音声を抽出する場合、まず、音源から信号を取り出し、この取り出された時間領域の信号を分析フレーム毎に周波数領域の信号に変換する。次に、全分析フレームにおける周波数スペクトルから、各周波数ビン毎の周波数のフーリエ変換の時間変化を読み取り、各周波数でのフーリエ変換の値の時間変化を全周波数標本点について連結する。その後、この連結された周波数信号を各音源における周波数領域の信号に分離する。そして、分離された周波数領域での信号を時間領域の信号に戻し、この時間領域の信号を出力する
【選択図】図５

Description

本発明は、ブラインド分離手法を用いた音声分離方法においてパーミュテーション問題を考慮する必要のない手法に関するものである。

現在の音声認識システムは、マイクに接近した位置からの音声に対してはそれなりに高い認識精度を有する一方で、マイクから離れた位置からの音声に対しては、周囲の雑音や部屋の残響の影響を受けて認識率は著しく低下してしまう（非特許文献１）。実環境で音声認識を行うためには音声認識システムそのものの認識能力の向上とともに、それに入力される音声に対して何らか処理を行って認識しやすい形にしておくことが有効であると考えられる。その方法の一つがブラインド音源分離（BSS: Blind Source Separation）である。BSSとは、複数のマイクロホンへ線形に混合された信号が入力された時に、音源信号や混合過程を知ることなく、観測信号のみから音源信号を推定し分離する技術である。マイクロホン数をM、音源数をNとすると、マイクロホンM_mでの観測信号は、

と表される。数１において、観測可能な要素はx_mだけで、h_mnとs_nは未知である。BSSはこの状況において、h_mnとs_nを推定する問題である。しかし、時間領域のBSSでは、計算量が膨大になり、現実的な処理時間で分離フィルタを計算するのが困難であることが指摘されている。

そこで、一般に、このフィルタを直接求めずにその周波数特性を求める周波数領域BSSを用いることが多い。マイクロホン数M、音源数Nの混合モデルを求めるために、数１の両辺をフーリエ変換すると、X_m(f)=Σ_nH_mn(f)S_n(f)と表される。X_m(f)、H_mn(f)、S_n(f) は、それぞれ x_m(t)、h_mn(t)、s_n(t) のフーリエ変換である。そして、m=1〜Mについてまとめると、周波数領域BSSの混合モデルは、

と表される。ただし、X(f)=(X₁(f),…,X_M(f))^Tは観測ベクトル、S(f)=(S₁(f) ,…,S_N(f))^Tは音源信号ベクトルそして、H(f)は混合行列である。fは周波数である。

BSSを解く手法として、各音源信号の独立性仮定したICAが一般的に用いられる。ICAには時間領域の方法と周波数領域の方法がある。周波数領域ICAは、畳み込みを瞬時混合の問題に置き換えて解くことができるため、現在、実環境で使える手法として盛んに用いられている。

周波数領域ICAは、x_mの短時間フーリエ変換により得られた観測信号ベクトルX(f)に対して、各周波数ビンにおいて学習されたW(f)を用いて分離を行う。ここで、Y(f)=(Y₁(f) ,…,Y_N(f))^Tを分離信号ベクトルとすると分離過程は、

と表される。

ICAは音源信号の独立性を最大にするという基準に基づいて分離を行っており、W(f)の行が入れ替わったとしてもY(f)の独立性は保たれるので、任意の周波数f₁とf₂において、Y_n(f₁)とY(f₂)が必ずしも同じ音源に対応しているとは限らない。従って、W(f)の行の並びをY_n(f₁)とY_n(f₂)が同じ音源に属するように並べ替える「パーミュテーション問題」を解決する必要がある。

パーミュテーション問題に対する従来の解決手法として、各周波数ビンでの指向特性を調べ、雑音源の方向を推定し、方向推定結果を基に並び替えを行う方法がある（非特許文献５）。しかし、すべての周波数において理想的なビームあるいは死角が形成できるわけではなく、特に低周波数における方向推定性能が低いと指摘されている。

そこで、パーミュテーション問題への対処法として各周波数ビンでの相関を用いた方法（非特許文献２）が提案されている。各周波数ビンのエンベロープは、同じ音源については、特に近傍の周波数で高い相関を持つと考えるのが妥当である。そのため、周波数差が比較的小さい範囲内で相関の和が最大になるように決定していくことが考えられるが、ある周波数で間違えると以降の周波数でも間違えてしまうため、安定性に欠けるといわれている。また、ICAによる分離性能が比較的良いと思われる周波数ビンからパーミュテーションを決定していく方法が提案されている（非特許文献２）が、この方法では、離れた周波数に対してもエンベロープの相関が高いことが仮定されているため適切ではない。

上述の欠点を補うために、方向推定と相関を統合した手法が提案されている（非特許文献６）。この方法では、まず指向特性を各周波数ビンに対して求め、確実に推定できる周波数に対してパーミュテーション問題を解決する。次に、未定の周波数に対して周波数差が小さく、かつパーミュテーションが決定されている周波数との相関の和が最大になるように決定していく。しかし、この方法でも残響が強い場合に不安定になることが報告されている（非特許文献７）。

残響が強い場合に不安定になる原因として、低域での方向推定の困難さが挙げられている（非特許文献７）。そして、この問題を解決するために、調波構造を用いた方法が提案されている（非特許文献７）。音声は基本周波数の整数倍のところで相関が高くなる性質を持っており、調波性を用いることにより、より確実にパーミュテーション問題を解決することが可能となる。
中村哲:" 実音響環境に頑健な音声認識を目指して", 電子情報通信学会技術報告, SP2002-12, pp.31-36,2002. T.W.Lee: "Independent Component Analysis",Kluewer, 1998. S.Ikeda, and N.Murata: "A method of ICA in time-frequency domain", Proc WS on Independent Component Analysis and Blind Signal Separation (ICA’99), pp.365-371, Aussios, France, Jan., 1999. A.Hyvarinen, J.Karhunen, and E.Oja: "Independent Component Analysis", John Wiley, New York, 2001. S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura: "Evaluation of blind signal separation method using directivity pattern under reverberant conditions", Proc. ICASSP2000, pp3140-3143, Istanbul, Turkey, June, 2000. 澤田宏,向井良,荒木章子,牧野昭二, "周波数領域ブラインド音源分離におけるpermutation問題の解法",音響学会講演論文集,pp. 541-542,Sep, 2002. 澤田宏,向井良,荒木章子,牧野昭二, "周波数領域ブラインド音源分離におけるpermutation問題の頑健な解法",音響学会講演論文集,pp. 777-778,Mar, 2003.

しかし、これらの方法によっても本質的に並べ替えに失敗する可能性があり、パーミュテーション問題は解決されない。

そこで、本発明は上記課題に着目してなされたもので、パーミュテーション問題を考慮する必要のないパーミュテーションフリー・ブラインド音源分離手法を提案することを目的とする。

すなわち、本発明は上記課題を解決するために、複数の音源から出力された音声を複数のマイクで受音して目的の音声を抽出する場合、まず、音源から信号を取り出し、この取り出された時間領域の信号を分析フレーム毎に周波数領域の信号に変換する。次に、全分析フレームにおける周波数スペクトルから、各周波数ビン毎の周波数のフーリエ変換の時間変化を読み取り、各周波数でのフーリエ変換の値の時間変化を全周波数標本点について連結した後、この連結された周波数信号を各音源における周波数領域の信号に分離する。そして、分離された周波数領域での信号を時間領域の信号に戻し、この時間領域の信号を出力する。

すなわち、従来の周波数領域BBSでは、受音した時間領域の信号を分析フレーム毎にフーリエ変換して並べ（図３）、これを各周波数ビン毎の周波数のフーリエ変換の時間変化ごとに読み出して（図４）、それぞれの分離行列を用いて分離していたが、この手法では、各周波数ビン毎に異なる値の分離行列を用いていたため、各分離された信号が音源１の信号なのか音源２の信号なのかを判別することができない。このため、組み合わせに自由度ができてしまい、いわゆるパーミュテーション問題を生じてしまう。さらに、学習された分離行列を用いて分離を行う場合、標本点の数が多ければ多いほど学習能力が高くなって分離精度がよくなるが、従来の方法であれば分析フレームの長さ分だけしか標本点を取ることができないため、分離の精度がよくならない。加えて、従来の手法では、周波数ビン毎に異なる値の分離行列を用いていたため、分離された信号の振幅に不確実性を生じてしまい、これを修正しなければならなくなる。これに対して、本発明によれば、図４や図５に示すように、各周波数ビン毎の周波数のフーリエ変換の時間変化を全周波数標本点について連結した後、一括して分離行列を用いて分離するようにしたので、組み合わせの自由度におけるパーミュテーションを考える必要がなくなる。また、連結された多くの標本点に基づいて一括した分離処理を行うので、分離精度もよくなる。加えて、一括した分離処理により、従来のように振幅における不確実性もなくなる。

本発明によれば、各周波数でのフーリエ変換の値の時間変化を全周波数標本点について連結した後、一括して分離処理を行うようにしたので、パーミュテーション問題を考える必要がなくなり、また、多くの標本点に基づく処理を行うので分離精度もよくなる。加えて、一括した分離処理を行うので、従来のように振幅における不確実性もなくなる。

以下、本発明の一実施の形態について図面を参照して説明する。図１は、周波数領域BBS手法を用いた装置の機能ブロック図を示したものである。以下では、音源として２つの音源S1と音源S2を用い、集音装置として２つのマイクM1、M2を設けた場合を例とする。ここで、音源の種類としては、人間の声などのような可聴周波数領域の音波を出力する音源を用いる。また、マイクの数は音源の数以上であればよく、３個以上のマイクを設けるようにしてもよい。

図１の機能ブロックについて説明すると、まず、受音装置１はマイクやマイクロホンアレイなどの装置によって構成され、好ましくは、全周波数に対して最適な指向特性を持つビームフォーマーを用いる。そして、図１に示す２つのビームフォーマーを求め、音源と雑音方向の推定を行う。このビームフォーマーを求めるために、図４や図５の関係を用いる。図４および図５については後述する。

この受音装置１によって受音された信号は、まず、時間領域の信号として記憶部に格納される。そして、この信号を周波数領域変換部２にて周波数領域の信号に変換し、同様に記憶部に格納していく。時間領域の信号を周波数領域の信号に変換する場合、分析フレームをずらしながらその分析フレーム内において短時間フーリエ変換（STFT)を行う。ここでは分析フレームの個数をm個としている。これにより、図３や図４に示すように、周波数−時間−スペクトルからなる３次元空間内における離散的な信号が得られる。このうち時間軸方向については、m個の分析フレームに基づく離散的な信号が存在し、また、周波数軸方向については、n個の離散的な信号が存在している。なお、図３と図４は同じ空間を示しており、図３は時間軸に切った信号を示しており、また、図４はある周波数で切った信号を示している。

読取部３は、この記憶部に格納されている周波数−時間−スペクトル空間の信号から、各周波数ビン毎の周波数のフーリエ変換の時間変化を読み取る。すなわち、周波数領域変換部２によって分析フレーム毎に図３のようにマッピングされた信号を、今度は、図４に示すような周波数軸の標本点毎に信号として抽出する。

そして、本提案手法においては特徴的に、図５に示すように、読み取られた各周波数ビン毎の周波数のフーリエ変換の時間変化を強制的に連結し、一つの連続した信号とする。連結に際しては、低周波数ビンから順に高周波数ビンに連続して連結するが、この順序に限定されるものではない。このとき、連結された信号は、周波数f₁におけるスペクトルの時間変化t=t₁〜t_mの信号の後に、周波数f₂におけるスペクトルの時間変化t=t₁〜t_mの信号が連結される。以下、同様にすべての周波数標本点におけるスペクトルの時間変化t=t₁〜t_mの信号を連結する。

一括分離部４は、連結された周波数信号を、各音源の周波数領域の信号に分離する。この分離手法としては、JADEやFAST ICAなどの手法が存在するが、JADEを用いた場合について説明する。

JADEとは、Cardosoらにより提案された手法で、4次クロスキュムラントを対角化する手法である。4次クロスキュムラントは次のように定義される。

観測信号xが平均0で無相関化したものをzとし、音源信号sと無相関化された観測信号zはある直交行列U = (u_1,…,u_N)により、

という関係で結ばれている。独立性の仮定から、

となる。ここで、N×N行列M=(m_ij)により縮約されたkurtosisの行列の第i, j要素は

を考える。sのインデックスが全て同じ時だけが問題であるから、κ_i = cum(s_i, s_i, s_i, s_i)として数７を変形すると

となる。ここで

とすると、

直交行列であるWで対角行列を挟んでいるので、C(M)は対称行列になっている。このC(M)を対角化するWを探すのがJADEである。行列の対角化にはJacobi法を用いることができる。Jacobi法は理想的には2次収束することが知られているので、JADEは収束の速いアルゴリズムといえる。ただし、JADEは4次元配列を用いるので、信号数があまり多くない時には問題がないが、信号数が多い時には計算上の問題がある。

周波数上でICAを行う場合は、各周波数ビンに対して分離行列W(f)を求める必要があり、通常はここで、パーミュテーションが問題となる。しかし、提案法では、分離行列を求めるのは1度でよいので、パーミュテーションが問題にならない。

分割部５は、一括分離部４によって分離された信号を周波数ビン毎の周波数のフーリエ変換の時間変化に戻す。すなわち、この分割においては、連結部によって連結された順序と逆の順序で周波数ビン毎の信号に分割する。そして、時間領域変換部６にて各周波数ビン毎に短時間フーリエ逆変換を行い、時間領域の信号に戻す。この時間信号に戻された信号は、各音源毎に分離された信号として音声出力部７を介して出力される。

次に、このように構成された周波数領域BBS手法を用いた処理のフローチャートについて図６を用いて説明する。

まず、複数の音源から出力された信号を複数の受音装置１で受音する（ステップS1)。この受音された信号は、時間領域の波形として記憶部に一時記憶される。そして、周波数領域変換部２により、分析フレーム毎に短時間フーリエ変換を行い（ステップS2)、すべての分析フレームについて短時間フーリエ変換を行うまでこの処理を続ける（ステップS3)。このとき、図３に示すように、周波数−時間−スペクトルの３次元空間内において分析フレーム分（m個）の離散的な信号がマッピングされる。次に、このマッピングされた信号を、図４に示すように、各周波数ビン毎の周波数のフーリエ変換の時間変化として読み出し（ステップS4)、各周波数でのフーリエ変換の値の時間変化を全周波数標本点について連結する（ステップS5)。その後、この連結された周波数信号を各音源毎にJADEを用いて一括して分離し（ステップS6)、その分離された周波数領域での信号を各周波数ビンへの信号へ分割する（ステップS7)。そして、時間領域変換部６にて短時間フーリエ逆変換して時間領域の信号に戻し（ステップS8)、この時間領域の信号を音声出力する（ステップS9)。

上述のように本実施の形態によれば、各周波数でのフーリエ変換の値の時間変化を全周波数標本点について連結した後、分離行列を用いて一括して分離処理を行うようにしたので、パーミュテーション問題を考える必要がなくなり、また、多くの標本点に基づいて分離処理を行うようにしたので分離精度も向上させることができる。加えて、一括した分離処理を行うので、従来のように振幅における不確実性もなくなる。

以下に、上記実施の形態を用いたシステムの評価結果について説明する。

１．評価データ
音声の収録は一般家庭のリビングルームを想定した部屋で行った。TSPにより測定した残響時間は310msである。音源（スピーカ）と観測点（マイクロホン）の配置を図７に示す。観測点は固定し、音源の配置は図中のθ=-30°,0 °（時計回りを正）となるようにし、それぞれの配置をL，Mとする。マイクロホンには素子間隔5cm の2素子アレイを用いた。音源信号は、男女各1名ずつで、女性(配置:M)による10フレーズ、男性(配置:L)による10フレーズの組み合わせで、合計100個の混合音声について考える。女性および男性の音声を個別に収録し、S/Nの調整を行うことなくそのまま加算した。

２．評価指標
S/N を用いて分離信号を評価する。S/N は以下のように定義した。

３．評価対象
比較対象のアルゴリズムは、JADE法によって周波数領域ICAを行い、パーミュテーションに関しては、周波数ビン間の相関を用いるIkeda et al.（非特許文献２）の手法である。

４．評価結果
評価は、比較対象のアルゴリズムでパーミュテーション問題の解決ができない例に対して、提案法では解決できていることを、スペクトログラムをスペクトル上での比較によって行う。音響分析条件を表1に示す。

図８は、a)混合前の女性音声、b)混合前の男性音声、c)従来ICAによる分離信号1(女性)、d)従来ICAによる分離信号2(男性)、e)提案法による分離信号1(女性)そしてf)提案法による分離信号2(男性)のスペクトログラムを示している。図８のc)とd)において、特に4kHz以上の領域でパーミュテーションの解決に失敗していることがわかる。しかし、図８のe)とf)ではパーミュテーションの問題が起きていないことが確認できる。

次に、パーミュテーション問題が解決できたことによりS/Nがどの程度向上するのかを、セグメンタルSNRによって評価する。

図９と１０を比較すると、女性音声側のセグメンタルSNRの平均値で約0.65dB改善し、男性音声側のセグメンタルSNRの平均値では提案法により約5.9dBの改善が確認できた。これにより、パーミュテーション問題を回避することによって解決することが分離性能の向上につながるということがわかる。

さらに図１１に分離結果100個についてのセグメンタルSNRの平均値の比較を示す。図１１より、SNRはデータにより大きくばらついているが、女性については約1.7dBの改善、男性については平均値の改善についてはほぼ0であるが、標準偏差が小さくなっていることがわかる。図１１からもパーミュテーション回避によるS/Nの改善が確認できた。

本発明の一実施の形態におけるパーミュテーションフリー・ブラインド音源分離装置の機能ブロック図同形態において推定すべき指向特性を示す図同形態における分析フレーム区間毎にSTFTした値をマッピングした図図３における信号を各周波数ビン毎にみた図従来の周波数領域ICAと本実施の形態における対応関係を示す図同形態における処理のフローチャートを示す図本発明の実施例におけるデータ収録環境を示す図同実施例におけるパーミュテーション問題解決の例同実施例における女性音声のセグメンタルSNRの比較を示す図同実施例における男性音声のセグメンタルSNRの比較を示す図同実施例における全分離結果のセグメンタルSNRの平均値の比較を示す図

符号の説明

１・・・受音装置
２・・・周波数領域変換部
３・・・読取部
４・・・一括分離部
５・・・分割部
６・・・時間領域変換部
７・・・音声出力部

Claims

複数の音源から出力された音声を複数の受音装置で受音し、目的の音声を抽出するパーミュテーションフリー・ブラインド音源分離方法において、
受音された時間領域の信号を分析フレーム毎に周波数領域の信号に変換するステップと、
全分析フレームにおける周波数スペクトルから、各周波数ビン毎の周波数のフーリエ変換の時間変化を読み取るステップと、
各周波数でのフーリエ変換の値の時間変化を全周波数標本点について連結するステップと、
連結された周波数信号を、各音源における周波数領域の信号に分離するステップと、
分離された周波数領域の信号を時間領域の信号に戻すステップと、
時間領域の信号に戻された信号を出力するステップとを備えたことを特徴とするパーミュテーションフリー・ブラインド音源分離方法。
複数の音源から出力された音声を複数の受音装置で受音し、目的の音声を抽出するパーミュテーションフリー・ブラインド音源分離装置において、
受音装置で受音した時間領域の信号を分析フレーム毎に周波数領域の信号に変換する周波数領域変換部と、
全分析フレームにおける周波数スペクトルから、各周波数ビン毎の周波数のフーリエ変換の時間変化を読み取る読取部と、
各周波数でのフーリエ変換の値の時間変化を全周波数標本点について連結する連結部と、
連結された周波数信号を、各音源における周波数領域の信号に分離する分離部と、
分離された周波数領域での信号を時間領域の信号に戻す時間領域変換部とを備え、当該時間領域変換部によって変換された信号を出力するようにしたことを特徴とするパーミュテーションフリー・ブラインド音源分離装置。