JP2008145610A - 音源分離定位方法 - Google Patents
音源分離定位方法 Download PDFInfo
- Publication number
- JP2008145610A JP2008145610A JP2006331185A JP2006331185A JP2008145610A JP 2008145610 A JP2008145610 A JP 2008145610A JP 2006331185 A JP2006331185 A JP 2006331185A JP 2006331185 A JP2006331185 A JP 2006331185A JP 2008145610 A JP2008145610 A JP 2008145610A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- localization
- separation
- localization method
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】残響や背景雑音が存在し、観測される特徴量が明確にクラスタリングできず、重なり合うような場合に対しても、音源定位/音源分離性能を向上させることができる音源分離定位方法を提供する。
【解決手段】ブラインド音源分離(BSS)の問題に対し、EMアルゴリズムを適用した新しいアルゴリズムを提案する。具体的には、音源信号のスパース性に基づき、各時間周波数成分に寄与する音源は1個であるという観測モデルの下、各時間周波数成分に寄与している音源のインデックスを隠れ変数とみなし、最大尤度を与える音源方向と、各時間周波数成分への各音源の寄与率をEMアルゴリズムによって推定する。その結果、残響時間が多い場でも音源の分離定位を行うことが可能となった。
【選択図】図1
【解決手段】ブラインド音源分離(BSS)の問題に対し、EMアルゴリズムを適用した新しいアルゴリズムを提案する。具体的には、音源信号のスパース性に基づき、各時間周波数成分に寄与する音源は1個であるという観測モデルの下、各時間周波数成分に寄与している音源のインデックスを隠れ変数とみなし、最大尤度を与える音源方向と、各時間周波数成分への各音源の寄与率をEMアルゴリズムによって推定する。その結果、残響時間が多い場でも音源の分離定位を行うことが可能となった。
【選択図】図1
Description
本発明は、いわゆるブラインドの音源定位、音源分離技術に関する。
1。序論
近年、実環境での音声認識やロボット聴覚などへの応用を目的として、複数の音源信号が混合した観測信号から、元の音源信号を分離する技術が着目されている。コンピュータによる音声認識や音環境の理解のために目的とする音声だけを分離する技術が強く望まれている。
近年、実環境での音声認識やロボット聴覚などへの応用を目的として、複数の音源信号が混合した観測信号から、元の音源信号を分離する技術が着目されている。コンピュータによる音声認識や音環境の理解のために目的とする音声だけを分離する技術が強く望まれている。
特に、音源から観測点への伝達関数が未知の場合でも分離を実現するブラインド音源分離(Blind Source Separation、 BSS)の研究が活発に行えわれている。ブラインドとは、簡単に言えば、マイクロフォン等のセンサー側から話者の情報がないことを言う。もし、話者の方向がわかっている場合は、ガンマイクロフォン等の指向性の鋭いマイクロフォンを用いれば比較的簡易に特定の話者の音声のみを取得することができる。
BSSの有効な手法の一つとして独立性分分析が知られているが、この分析方法は、音源信号数が観測信号数以下の場合にしか適用できない。簡単に言えば、音源数よりマイクロフォンの数が多い場合にはこの独立成分分析が適用できる。
一方、観測信号より多くの音源信号を分離する枠組みとしては、音源信号のスパース性を利用した手法が提案されている。
この手法は、下記非特許文献1、非特許文献3、非特許文献6、非特許文献7、非特許文献9、非特許文献11等に詳しい。
1.1 スパース性
対象とする信号のエネルギーがある領域(多くの場合、時間周波数領域)で一部の領域に集中し、その他の多くの領域でほぼ0であるような性質がある場合、それを信号のスパース性と呼ぶ。特に音声の場合は、フォルマント構造や調波構造、有声/無声の時間的変動などの要因から、複数の音声が混合している場合でも、エネルギーが集中している領域が重なり合うことは少ないことが知られている(下記非特許文献2参照)。
対象とする信号のエネルギーがある領域(多くの場合、時間周波数領域)で一部の領域に集中し、その他の多くの領域でほぼ0であるような性質がある場合、それを信号のスパース性と呼ぶ。特に音声の場合は、フォルマント構造や調波構造、有声/無声の時間的変動などの要因から、複数の音声が混合している場合でも、エネルギーが集中している領域が重なり合うことは少ないことが知られている(下記非特許文献2参照)。
音声信号の場合、簡単に言えば、スパース性とは、時間周波数領域で音声の有意なエネルギーがまばらにしか存在しない性質を言う。
1.2 時間周波数マスキング
この音声のスパース性を利用した音源分離の代表的な先行研究として、時間周波数マスキングが挙げられる。これは目的の音源信号成分が支配的である時間周波数成分を、マスキング処理によって抜き出すことによって分離する手法である。
この音声のスパース性を利用した音源分離の代表的な先行研究として、時間周波数マスキングが挙げられる。これは目的の音源信号成分が支配的である時間周波数成分を、マスキング処理によって抜き出すことによって分離する手法である。
音声信号を、時間−周波数領域において解析が行えわれる場合、時間分解能は、およそ60msec程度に選ばれることが多い。一方周波数分解能は、60msecの逆数、すなわちおよそ166Hz程度の分解能となる。
この時間分解能や周波数分解能は種々の値を選ぶことが可能であり、選び方に関する様々な研究もなされている。
本文では、一般的な60msec、166Hz程度の分解能を例として説明を行うが、他の分解能を利用してもかまわない。
このように、時間−周波数領域を解析する場合、時間軸で約60msec単位で、周波数軸で約166Hz単位で区分して解析を行う。この各区分(時間周波数成分)に対して、どの音源からの信号かを判断する。これは音声のスパース性を前提としているからである。そして、各区分(の信号)がどの音源の信号かを全て判断できれば、所望の音源からの信号が含まれる区分のみを取り出せば、所望の音源からの信号のみを取り出す(音源分離する)ことができる。
このような所望の信号のみを取り出すためのマスクは、各時間周波数成分ごとに「通過させる(取り出す)」か、「通過させない(除去する)」かを決めたマスクが用いられる。このマスクは「通過させる・させない」という2値のマスクであるので、バイナリマスクと呼ばれる。このようなマスキングの手法が時間周波数マスキングである。
実際には、各時間周波数成分(区分)において、複数の音源の信号がほぼ同じ比率で混在しており、いずれかの音源の音であるかを断定できない場合もあり得るが、そのような混在している時間周波数成分は一般に除いてしまっても音源分離した信号の品質(音声が聞き取れるか否か)にはあまり影響を及ぼさないことが知られている。
いずれの音源の音であるかを決定できた時間周波数成分についてのみ取り出すようにすれば、聴覚上、その音源からの音をほぼ聞き取れることが知られている。
さて、各時間周波数成分において、目的音源が支配的であるかどうかの判定には、2chの観測信号間の時間差δ(τ、ω)及び強度比a(τ、ω)が多く用いられる。各時間周波数成分における時間差は信号の到来方向と対応する特徴量なので、この特徴量に基づきクラスタリングすれば同じ音源から到来した成分だけを抜き出し、時間周波数平面のマスクを作ることができる。この技術が下記非特許文献1、非特許文献3、非特許文献8に記載されている。
時間周波数マスキングに関しては既に多くの研究がなされており、リアルタイムでの分離がBaeckらにより研究されている(下記非特許文献12)。また、その性能の上限や、マスキングの特徴であるミュージカルノイズを低減する時間周波数分解について荒木らが論じている(下記非特許文献4、非特許文献5)。
また、単純な時間周波数マスキング以上の性能を示す分離手法として、各時間周波数成分に寄与する音源の数が複数(観測信号数以下)であると仮定し、混合行列を推定して分離する手法(下記非特許文献7)が知られている。また、音源信号に事前分布を仮定して確率的に信号成分を推定する手法も提案されている(下記非特許文献9、非特許文献11)。
しかしこれら従来の多くの手法では、残響や背景雑音が多く存在する環境下では、各音源から生じる強度比や時間差がばらついて互いに重なり合うため、特徴空間でのクラスタリングが困難になることが大きな問題であった。
1.3 混合ガウス分布の推定
一方、音声認識をはじめとした幅広い分野で用いられている手法として、混合ガウス分布モデルの推定手法がある。
一方、音声認識をはじめとした幅広い分野で用いられている手法として、混合ガウス分布モデルの推定手法がある。
このモデルを利用した推定問題においては、複数の分布が混在している状況で、分布の各パラメータの推定が行えわれる。このモデルは、主に、分布同士が互いに重なり合うような状況において用いられる。
このような場合においても、混合ガウス分布モデルによれば分布のパラメータの推定が精度良く行えわれることが知られている。
特に、混合ガウス分布モデルの特徴の一つとして、帰属度が連続値であることが挙げられる。上で述べた通常のクラスタリング手法では、各データをいずれかのクラスに0、1(離散値)で帰属させている。これに対して、混合ガウス分布モデルではこの連続値である帰属度を採用し、モデルフィッティングにより、全体にとして尤度が最大になるような解を求めている。
このような特徴が、上述した重なり合う分布の状況下においても効率の良い推定を可能にしている一つの鍵となっている。さらにまたこのモデルに関しては、EMアルゴリズムと呼ばれる効率的な解法が存在することも、このモデルが良く採用される要因の一つと考えられる。
1.4 本発明の起点
本願発明者らは、この考え方(混合ガウス分布モデルの推定手法)を上記スパース性に基づくBSSに適用することを鋭意検討し、本願発明をなすに至った。本発明によれば、残響環境下のように従来のBSSでは特徴空間でのクラスタリングが困難になる状況でも、適切に時間周波数マスクを設計することが可能となった。本発明では、このような新しい手法を提案する。
本願発明者らは、この考え方(混合ガウス分布モデルの推定手法)を上記スパース性に基づくBSSに適用することを鋭意検討し、本願発明をなすに至った。本発明によれば、残響環境下のように従来のBSSでは特徴空間でのクラスタリングが困難になる状況でも、適切に時間周波数マスクを設計することが可能となった。本発明では、このような新しい手法を提案する。
なお、本発明では、従来は別々の処理であったクラスタリングによる音源定位と、マスキングによる音源分離と、を共通の目的関数を最大化させるという統一的な処理で行うことができることも利点の一つと考えられる。
以下、本発明の基礎となるスパース性を利用したBSSを簡単に説明する。
2.スパース性に基づくBSSの概要
2.1 時間周波数マスキング
スパース性に基づくBSSで代表的な手法は時間周波数マスキングである(非特許文献1、非特許文献3参照)。今、N個の音源信号Sn(τ、ω)(n=1、。。。、N)が混合した観測信号M(τ、ω)の各時間周波数(τ、ω)において、最もエネルギーの大きい音源信号のインデックスをk(τ、ω)とする。ここで、Snは、短時間複素フーリエ変換(STFT)の値である。τは時間であり、ωは角周波数である。
2.1 時間周波数マスキング
スパース性に基づくBSSで代表的な手法は時間周波数マスキングである(非特許文献1、非特許文献3参照)。今、N個の音源信号Sn(τ、ω)(n=1、。。。、N)が混合した観測信号M(τ、ω)の各時間周波数(τ、ω)において、最もエネルギーの大きい音源信号のインデックスをk(τ、ω)とする。ここで、Snは、短時間複素フーリエ変換(STFT)の値である。τは時間であり、ωは角周波数である。
時間周波数マスキングは原理的に、個々の時間周波数成分を「通過させる」、「阻止する」、のいずれかしかできないため、理想的なマスクが設計できた場合の分離性能は、対象とする信号のスパース性の度合いに依存する。
これは、単なる「通過させる」「阻止する」というバイナリマスクではなく、部分的な通過を許す連続値マスクを用いたとしても同様である。
また実際には、得られた観測信号からいかにしてこのようなマスクを設計するかが重要な問題となる。
できるだけ信号をスパースに表現するための時間周波数分解法としては、これまでは短時間Fourier変換を前提とし、音声を対象としたときの最適な窓幅が主に論じられてきた。例えば16kHzサンプリングの場合には、1024点の窓幅が最も良いとの報告がある(下記非特許文献1参照)。また、短時間Fourier変換に代えて、フィルタバンク分析を行えった場合には、聴覚的なフィルタバンクを用いたほうが良いとの報告もある(下記非特許文献10参照)。
2.2 時間周波数マスクの従来の設計法
時間周波数マスクの設計法として、従来から用いられている設計法は、観測信号間の時間差・強度比のクラスタリングである。例えば2chの場合には、観測信号の各時間周波数成分の比MR(τ、ω)/ML(τ、ω)から、音源位置に依存した特徴量(強度比a、時間差δ)が抽出できる。2chであるので、右と左の1対のマイクロフォンを用いて2個の観測信号を得る。右側の観測信号をMR(τ、ω)と表し、右側の観測信号をML(τ、ω)と表している。
時間周波数マスクの設計法として、従来から用いられている設計法は、観測信号間の時間差・強度比のクラスタリングである。例えば2chの場合には、観測信号の各時間周波数成分の比MR(τ、ω)/ML(τ、ω)から、音源位置に依存した特徴量(強度比a、時間差δ)が抽出できる。2chであるので、右と左の1対のマイクロフォンを用いて2個の観測信号を得る。右側の観測信号をMR(τ、ω)と表し、右側の観測信号をML(τ、ω)と表している。
これらの特徴量は、音源が移動しない限り、同一音源から到来した成分は時間、周波数にかかわらず、ほぼ同じ値をとると期待できるので、これらのクラスタリングにより時間周波数マスクを設計することができる。
Yilmazらは、観測信号の各時間周波数成分からa、δを求め、その分布全体から複数の音源位置に対応する強度比ai、時間差δiを決定し、次に各時間周波数成分に対して尤度最大になる音源を選ぶクラスタリングを行えい、時間周波数マスクを設計する手法を提案している(下記非特許文献1参照)。ここで、iは、音源のインデックスである。
2.3 残響環境下での問題点
Yilmazらは、無響環境であれば時間周波数マスキングにより十分に分離が可能であるが、残響時間が長くなると、a、δは大きな分散を生じ、音源定位自体が困難になると報告している(下記非特許文献1参照)。残響時間が異なる環境で、3つの音源が存在する際、2個のマイクロフォンで観測される時間差の散布図が、図4、図5、図6に示されている。図4は残響時間0msecであり、図5は残響時間50msecであり、図6は残響時間170msecの場合を示している。これらは全時間周波数成分において位相差から時間差を検出し、縦軸にその成分のパワーをとってプロットしたものである。図4、図5、図6からわかる通り、残響時間が0の場合は、概ね3個のクラスタリングが可能である。しかし、残響時間が長くなるにつれて、多重反射の影響で時間周波数ごとに様々な時間差が生じ、クラスタリングが困難になっていく様子が図4、図5、図6に明確に示されている。
Yilmazらは、無響環境であれば時間周波数マスキングにより十分に分離が可能であるが、残響時間が長くなると、a、δは大きな分散を生じ、音源定位自体が困難になると報告している(下記非特許文献1参照)。残響時間が異なる環境で、3つの音源が存在する際、2個のマイクロフォンで観測される時間差の散布図が、図4、図5、図6に示されている。図4は残響時間0msecであり、図5は残響時間50msecであり、図6は残響時間170msecの場合を示している。これらは全時間周波数成分において位相差から時間差を検出し、縦軸にその成分のパワーをとってプロットしたものである。図4、図5、図6からわかる通り、残響時間が0の場合は、概ね3個のクラスタリングが可能である。しかし、残響時間が長くなるにつれて、多重反射の影響で時間周波数ごとに様々な時間差が生じ、クラスタリングが困難になっていく様子が図4、図5、図6に明確に示されている。
3. 先行特許文献
下記特許文献1には、マイクロフォン数以上の音源を扱うことができる音源定位と音源分離とを実現する技術が開示されている。この文献では、周波数と位相差の2次元データから、予め定められた図形を検出し、各図形に基づいて音源候補に対する情報を得るとされている。
下記特許文献1には、マイクロフォン数以上の音源を扱うことができる音源定位と音源分離とを実現する技術が開示されている。この文献では、周波数と位相差の2次元データから、予め定められた図形を検出し、各図形に基づいて音源候補に対する情報を得るとされている。
下記特許文献2には、2本のマイクロフォンを用いて複数の音源を扱うことができる音源定位と音源分離とを実現する技術が開示されている。この文献では、上記特許文献1と同様に、周波数と位相差の2次元データから、予め定められた図形を検出し、各図形に基づいて、音源の数、音源の存在する範囲、音源の音の存在する時間、音源の成分、音源ごとの分離音声、等を得るとされている。
下記特許文献3には、ノイズの影響のある環境で、BSSを用いたバイナリマスキング処理と、バイノーラル信号分離処理と、を組み合わせて、音源分離を行う装置が開示されている。
下記特許文献4には、複数の信号が混合されている信号から、時間領域BSSを用いて音源分離し、音源分離した信号をサブバンド合成して原信号に対する信号を得る手法が開示されている。
本願発明は、このような背景に鑑みなされたものであり、ノイズの影響下であっても、音源定位・音源分離を行える手法を実現することである。特に、音源数がマイクロフォン数より多くても適用可能なブラインド音源定位・分離の実現を目的とする。
上述した課題に鑑み、本願発明者は、一意のクラスタリングではなく、確率による定式化を検討した(ポイント1)。さらに、同じ領域での繰り返し処理を行うことにした(EMアルゴリズムの採用)(ポイント2)。以下、詳細に説明する。
4. 本発明の概要
4.1 本発明の特徴
今、ある時間周波数(τ、ω)で観測信号
が得られたとき、これがある音源方向θから到来した信号である確率を
と表す。なお、この観測信号は、時間周波数領域上の複素ベクトルである。本特許において太字はベクトルを表す。
4.1 本発明の特徴
今、ある時間周波数(τ、ω)で観測信号
以下、上記確率を単一方向尤度と呼ぶ。方向尤度を定めることができたならば、音源が1個の場合には、全観測データに対する対数尤度の和である下記(3)式
を最大化することによって、最尤音源方向θMLを求めることができる。
さて、本4章では、音源の数をNと表す。便宜上他の章では異なる表記をする場合もある。
音源がこのようにN個存在する場合においても、音源信号がスパースであり、各時間周波数成分に寄与する音源がたかだか1個であるとみなせるならば、n(nは1からNまでの整数)番目の音源方向θnは、n番目の音源が寄与する時間周波数(τ、ω)の集合Ωnに対する対数尤度の和である下記(4)式
を最大化することで推定される。ただし、Ωnを求めること自体が時間周波数マスキングによる音源分離そのものであることに注意する。つまり、各時間周波数成分に寄与する音源がたかだか1個であるという仮定の下では、以下のことが言える。
1)Ωnが求まれば(音源分離できれば)θnが求まる(音源定位できる)
2)θn(n=1、。。。、N)が求まれば(音源定位できれば)、Ωn(n=1、。。。、N)が求まる(音源分離できる)。
2)θn(n=1、。。。、N)が求まれば(音源定位できれば)、Ωn(n=1、。。。、N)が求まる(音源分離できる)。
すなわち、これらはみな相互に関連した関係にある。従来の枠組みでは、強度比・時間差などの特徴量検出後、その特徴空間における投票法やk−means法などのクラスタリングにより音源定位が先に行えわれ、その後、時間周波数マスクが設計されるという2段階の処理が行えわれることが多かった。
この問題はそもそも、時間周波数領域を個々の音源に帰属する成分に分けるクラスタリングの問題ととらえることができるが、クラスタリングの分野で良く扱われる類似の問題として、混合ガウス分布モデル(GMM)の推定問題が知られている。この問題は、各データは複数のガウス分布のいずれかから生成されるが、どのガウス分布から生成されたものかはわからない、という条件下で、各ガウス分布の平均・分散を推定する問題である。この混合ガウス分布モデルの推定問題は、
1)データを
2)複数のガウス分布を各音源に対応する方向尤度分布
3)ガウス分布の平均・分散を音源方向やその他方向尤度を決定するパラメータ
と、それぞれ読み替えれば、本件の音源定位・音源分離の問題と全く同種の問題であることがわかる。
1)データを
3)ガウス分布の平均・分散を音源方向やその他方向尤度を決定するパラメータ
と、それぞれ読み替えれば、本件の音源定位・音源分離の問題と全く同種の問題であることがわかる。
従来の通常のクラスタリング手法では、与えられたデータが個々のクラスに属しているか属していないかを0(属さない)、1(属する)で決定するのに対し、混合ガウス分布のモデルは、帰属率を連続値の確率として扱うため、分布同士が重なり合っているような場合でも、ロバストに推定を行うことができる。この考え方をスパース性に基づくBSSに導入することによって、残響や背景雑音が存在し、観測される特徴量が明確にクラスタリングできず、重なり合うような場合に対して、音源定位/音源分離性能を向上させることができると、本願発明者らは考え、本発明をなすに至った。
すなわち、残響時間が多い場面においては、従来の単純なクラスタリングで音源を分離することは極めて困難であった。このような状況下では、上で述べたように、ある時間周波数成分に対して一意に音源を決めることはできないとして扱う枠組みが必要であると本願発明者らは考えたのである(着眼点1)。
また、このような混合分布の推定問題に対し最尤解を求めるための効率的な手法がEMアルゴリズム(Expectation Maximization Algorithm)として知られている。以下では各時間周波数成分に寄与する音源がたかだか1個であるというモデルの下で、BSSの問題を、各時間周波数成分に寄与する音源がどれであるかを隠れ変数とした最尤問題として定式化する。
4.2 EMアルゴリズムによる定式化
本特許でまず扱う問題は、下記(5)式
を最大化する音源方向の組
を求めることである。これは方向の組であり、ベクトルである。本特許においては太字の記号はベクトルを表す。この上記式(5)(数8参照)が、EMアルゴリズムにおける「目的関数」である。式(5)のp(尤度)は、下記式(6)(下記数13参照)のように表される。また、音源方向である上記数9が推定したいパラメータであり、各時間周波数での音源のインデックスkが隠れ変数となる。
本特許でまず扱う問題は、下記(5)式
ここで
は、音源が
方向に存在するときに、
が観測される尤度である。これは、各時間周波数成分に寄与する音源が1個であるというモデルの下では、下記式(6)
のように、周辺化して表すことができる。ここでk(τ、ω)は、(τ、ω)成分に寄与する音源のインデックスであり、実際には観測することができない隠れ変数である。混合ガウス分布の場合と比較すると、あるデータがいずれのガウス分布からの出力であるか、を示すガウス分布の番号にちょうど対応している。
EMアルゴリズムでは、このような隠れ変数を含んだ最尤問題を、仮のパラメータ(ここでは、仮の音源方向)
を使って定義されるQ関数と呼ばれる補助関数を導入し、次のようなEステップ・Mステップ
という2個のステップの反復、すなわち式(8)
の算出を繰り返すことで、パラメータの逐次推定を行う。ここで、本問題におけるQ関数は、下記式(9)
のように与えられる。ただし、この式(9)においては下記式(10)(11)
のように与えられる。
ここで、「仮の」パラメータとは、音源方向を「仮に」決めたという意味である。このように音源方向を仮に決めてそれを用いて音源位置を定位し、音源位置に基づき音源方向を又定めるということを繰り返す。繰り返しの最初の初期値は、真の値ではなく、推定値であるので、「仮パラメータ」と呼んでいる。
上記式(9)(数18)のように、Q関数が個々のθkのみに依存する関数の和に分解されるということは、本問題においては、複数音源定位が複数の単一音源定位問題に分解されることを意味している。Q関数(補助関数)は、方向の尤度の対数(対数尤度)のいわば期待値である。
Eステップで計算される
は分配関数とも呼ばれ、ある時間周波数成分
の尤度への寄与を確率的に分配する。この結果、従来のクラスタリングでは一意に帰属音源を決められないデータであっても、この手法によればその曖昧さを確率として含んで取り扱う枠組みを実現可能である。
5.手段
本発明は、具体的には以下のような手段を採用する。
本発明は、具体的には以下のような手段を採用する。
(1)上記課題を解決するために、本発明は、複数チャネルの観測信号に基づき、複数の音源からの信号を分離する音源分離定位方法において、前記複数チャネルの観測信号のそれぞれを、時間周波数領域の信号に変換するステップと、音源定位の初期値を決定する初期音源定位ステップと、前記音源定位に基づき、前記時間周波数領域上において、各音源の信号を分離する音源分離ステップと、前記分離結果に基づき、前記時間周波数領域上で各成分が属する音源の尤度を求め、この尤度の期待値である補助関数を最大値にする音源定位を求めて、音源の定位を確率的に行う繰り返し音源定位ステップと、前記音源分離ステップと、前記繰り返し音源定位ステップと、を繰り返し実行する繰り返しステップと、を含むことを特徴とする音源分離定位方法である。
(2)また、本発明は、上記(1)記載の音源分離定位方法において、前記音源定位は、前記音源の位置、前記音源の方向、前記音源からの音波の前記複数チャネル間の時間差、のいずれか1種又は2種以上を含むことを特徴とする音源分離定位方法である。
(3)また、本発明は、上記(1)記載の音源分離定位方法において、前記初期音源定位ステップは、各観測信号の間の特徴量に基づきクラスタリングを行うステップと、クラスタリングの結果に基づき各時間周波数成分ごとにいずれの音源に属するかを決定するステップと、上記決定に基づきそれぞれの音源の方向を求めるステップと、を含むことを特徴とする音源分離定位方法である。
(4)また、本発明は、上記(1)記載の音源分離定位方法において、前記音源分離ステップは、各時間周波数成分がどの音源に属するかを表す尤度に対する寄与を表す分配関数を求めることによって、音源分離を行うことを特徴とする音源分離定位方法である。
(5)また、本発明は、上記(4)記載の音源分離定位方法において、前記繰り返し音源定位ステップは、前記分配関数を、対応する各時間周波数成分の尤度に乗算し、その結果を、全時間・全周波数にわたって加算する補助関数を計算するステップと、前記分配関数のパラメータを所定の数値範囲で走査し、前記補助関数の値が最大となるようなパラメータを求めるステップと、を含み、前記新たなパラメータに基づき、前記音源分離ステップにおいて尤度が求められることを特徴とする音源分離定位方法である。
(6)また、本発明は、上記(5)記載の音源分離定位方法において、前記パラメータ前記複数の音源方向の組であることを特徴とする音源分離定位方法である。
(7)また、本発明は、上記(5)記載の音源分離定位方法において、前記補助関数は、時間周波数領域上の関数であることを特徴とする音源分離定位方法である。
(8)また、本発明は、上記(1)記載の音源分離定位方法において、前記繰り返しステップは、定位する音源の方向の変化が所定量未満になった場合に、繰り返しを終了することを特徴とする音源分離定位方法である。
(9)また、本発明は、上記(5)記載の音源分離定位方法において、前記繰り返しステップは、前記補助関数の値の増加が所定量未満になった場合に、繰り返しを終了することを特徴とする音源分離定位方法である。
(10)上記課題を解決するために、本発明は、Nチャネルの観測信号に基づき、M個の音源からの信号を分離する音源分離定位方法において、前記Nチャネルの観測信号のそれぞれを、時間周波数領域の信号に変換するステップと、音源定位の初期値を決定する初期音源定位ステップと、前記音源定位に基づき、前記時間周波数領域上において、各音源の信号を分離する音源分離ステップと、前記分離結果に基づき、前記時間周波数領域上で各成分が属する音源の音源方向の尤度を求め、この尤度の期待値である補助関数を最大値にする前記音源間の音源方向の値を確率的に求めることによって音源定位を行う繰り返し音源定位ステップと、前記音源分離ステップと、前記繰り返し音源定位ステップと、を繰り返し実行する繰り返しステップと、を含むことを特徴とする音源分離定位方法。ここで、前記N及びMは2以上の整数である。
ここで、MとNの大小関係は問わない。本発明では、MはNより大きくてもかまわない。
(11)また、本発明は、上記(10)記載の音源分離定位方法において、前記音源定位は、前記各音源の方位、又は、前記記Nチャネル間の観測信号の時間差、強度比、誤差分散のいずれか1種又は2種以上を含むことを特徴とする音源分離定位方法である。
(12)また、本発明は、上記(10)記載の音源分離定位方法において、前記初期音源定位ステップは、各観測信号の間の時間差又は強度比に基づきクラスタリングを行うステップと、クラスタリングの結果に基づき各時間周波数成分ごとにいずれの音源に属するかを決定するステップと、上記決定に基づきそれぞれの音源の方位として、前記時間差又は強度比を求めるステップと、を含むことを特徴とする音源分離定位方法である。
(13)また、本発明は、上記(10)記載の音源分離定位方法において、前記音源分離ステップは、各時間周波数成分が属する音源の前記時間差又は強度比を表す尤度に対する寄与を表す分配関数を求めることによって、音源分離を行うことを特徴とする音源分離定位方法である。
(14)また、本発明は、上記(13)記載の音源分離定位方法において、前記繰り返し音源定位ステップは、前記分配関数を、対応する各時間周波数成分の尤度に乗算し、その結果を、所定の数値範囲にわたって加算する補助関数を計算するステップと、前記分配関数のパラメータである時間差又は強度比を所定の数値範囲で走査し、前記補助関数の値が最大となるような時間差又は強度比を求めるステップと、を含み、前記新たな時間差又は強度比に基づき、前記音源分離ステップにおいて尤度が求められることを特徴とする音源分離定位方法である。
(15)また、本発明は、上記(14)記載の音源分離定位方法において、前記補助関数は、時間周波数領域上の関数であることを特徴とする音源分離定位方法である。
(16)また、本発明は、上記(10)記載の音源分離定位方法において、前記繰り返しステップは、定位する音源の方向の変化が所定量未満になった場合に、繰り返しを終了することを特徴とする音源分離定位方法である。
(17)また、本発明は、上記(14)記載の記載の音源分離定位方法において、前記繰り返しステップは、前記補助関数の値の増加が所定量未満になった場合に、繰り返しを終了することを特徴とする音源分離定位方法である。
(18)また、本発明は、上記課題を解決するために、コンピュータに、複数チャネルの観測信号に基づき、複数の音源からの信号を分離する音源分離定位方法を実行させるためのプログラムにおいて、前記複数チャネルの観測信号のそれぞれを、時間周波数領域の信号に変換する手順と、前記時間周波数領域上で音源定位を行う初期音源定位手順と、前記音源定位に基づき、前記時間周波数領域上において、各音源の信号を分離する音源分離手順と、前記分離結果に基づき、前記時間周波数領域上で各成分が属する音源の尤度を求め、この尤度の期待値である補助関数を最大値にする音源定位を求めて、音源の定位を確率的に行う繰り返し音源定位手順と、前記音源分離ステップと、前記繰り返し音源定位ステップと、を繰り返し実行する繰り返し手順と、を、前記コンピュータに実行させることを特徴とするプログラムである。
(19)また、本発明は、上記課題を解決するために、コンピュータに、Nチャネルの観測信号に基づき、M個の音源からの信号を分離する音源分離定位方法を実行させるプログラムにおいて、前記Nチャネルの観測信号のそれぞれを、時間周波数領域の信号に変換する手順と、前記時間周波数領域上で、観測信号間の相違量に基づき、音源方向を求めることによって音源定位を行う初期音源定位手順と、前記音源定位に基づき、前記時間周波数領域上において、各音源の信号を分離する音源分離手順と、前記分離結果に基づき、前記時間周波数領域上で各成分が属する音源の音源方向の尤度を求め、この尤度の期待値である補助関数を最大値にする前記音源間の音源方向の値を確率的に求めることによって音源定位を行う繰り返し音源定位手順と、前記音源分離ステップと、前記繰り返し音源定位ステップと、を繰り返し実行する繰り返し手順と、を、前記コンピュータに、実行させることを特徴とするプログラムである。ここで、前記Nは2以上の整数であり、前記MはNより大きい整数である。
(20)また、本発明は、上記(1)又は(10)記載の音源分離定位方法において、前記繰り返し音源定位ステップは、さらに、前記補助関数をσ2で微分した更新式を計算することによって雑音の分散σ2を求めるステップ、を含むことを特徴とする音源分離定位方法である。
(21)また、本発明は、上記(1)又は(10)記載の音源分離定位方法において、前記繰り返しステップを終了した際に得られた分配関数に基づき、最も大きい寄与の音源のみを通過させる時間周波数マスキングによって、最終的な音源分離を行なう分離ステップと、を含むことを特徴とする音源分離定位方法である。
さて、上記(1)や(10)の方法で、各時間周波数成分ごとに寄与率(分配関数)が最終的に求められた後、当然に、その求められた分配関数で分配して音源分離を行うことが考え方としては一般的であろう。
しかし、実際の分離においては、最終的な分離のためのマスクはバイナリマスクを用いた方が処理が簡単で現実的である。さらに、バイナリマスクでも聴感上は遜色ないことが経験的に知られている。
そこで、(21)においては、各時間周波数成分ごとに、最も大きい寄与の音源のみを通過させるようなバイナリの時間周波数マスキングを行うことが好ましい。このようなマスクによって、各成分は、寄与が最大の音源に対してのみ「1:通過」、他の音源に対しては「0:不通過」となる。
以上述べたように、本発明によれば、音源定位を確率的に取り扱う枠組みを提供することによって、従来の音源定位・音源分離技術よりより精度の向上した音源分離定位方法が得られる。したがって、従来では音源分離できなかった残響の多い環境や、雑音の多い環境下でも音源分離、音源定位可能である。
また、本発明によれば、同じ時間周波数領域上の繰り返し処理によって、より精度の高い音源分離・音源定位を実現することができる。
また、この繰り返しは、EMアルゴリズムと呼ばれており、本発明では、そのE−stepが音源分離、そのM−stepが音源定位にそれぞれ相当する。特に、EMアルゴリズムの採用によって定位と分離で共通の目的関数(尤度)の最大化を行ええばよいという枠組みを提供することができた。
特に、本発明で採用するEMアルゴリズムでは、目的関数が尤度であるため、情報量規準などにより音源数推定が可能になる枠組みを実現できた。
さらに、本発明によれば、時間差・強度比などの特徴量空間ではなく、元の信号空間(時間周波数空間)での観測モデルにより尤度を定義しており、残響環境に対する拡散音場モデルなど、物理的な観測モデルの導入が可能である。
また、本発明によれば、繰り返しの際に雑音の分散も更新したので、観測信号中の雑音の分散も求めることができる。
以下、図面に基づき、本発明を実施するための最良の形態を説明する。特に、具体的なアルゴリズムの導出を2chを例にして説明する。
6.本実施の形態の具体的アルゴリズムの導出
6.1 単一方向尤度の導出
上で述べた本発明の枠組み自体は、明らかに、一般論として、NchのBSSに適用可能である。ここで、Nとは自然数であり、マイクロフォンをN個用いて得たN個の音声信号(観測信号)に関するBSSに適用できる。本6章では、チャネル数、すなわち観測信号の数としてこのNを用いる。他の章では便宜上他の表記をする場合もある。
6.1 単一方向尤度の導出
上で述べた本発明の枠組み自体は、明らかに、一般論として、NchのBSSに適用可能である。ここで、Nとは自然数であり、マイクロフォンをN個用いて得たN個の音声信号(観測信号)に関するBSSに適用できる。本6章では、チャネル数、すなわち観測信号の数としてこのNを用いる。他の章では便宜上他の表記をする場合もある。
しかし、以下では具体的なアルゴリズムをわかりやすく説明するため、N=2、すんわち2chのBSSに話を絞って説明を進める。
具体的なアルゴリズムを決めるため必要なことは、単一方向尤度の与え方と、未知パラメータの選択である。
以下、単一方向尤度の算出プロセスを説明する。また、未知パラメータとしては、時間差δ、強度比a、誤差分散σが考えられるが、これらの内、どれを未知として扱い、どれを既知の値とするかは、種々の考え方があり、設計思想によっても異なってくる。本実施の形態では、後述するように強度比aは全て1であるとし、時間差δを未知パラメータとして扱う。しかし、それ以外の選び方でもかまわない。
一つの音源から発せられた信号が空間中を球面波として音源から伝播すると仮定すると、2chの観測信号
の間には、音源位置に依存した時間差δk、強度比akが生じる。以下では簡単のため、強度比に関してはak=1として平面波伝播を仮定し、音源の位置情報として方向θkの代わりに、これとほぼ等価な情報である時間差δkを用いる。
本実施の形態では、時間差δkを用いたが、強度比akや、又は、時間差δkと強度比akの双方を用いることも好ましい。
なお、マイクロフォンが検出する観測信号は、時間によって変化する振幅で表されるが、これを短時間フーリエ変換によって時間周波数領域に変換しておく。本特許では、観測信号は全て時間周波数領域に変換されたものとして取り扱っている。この様子が図1の(1)に示されている。特に図1では、横軸が時間、縦軸が周波数を表すグラフが2枚示され、2チャネル分の観測信号があることが示されている。図1には、本実施の形態の音源分離定位方法の流れを示す概念図が示されている。
さて、2ch間の信号の間の時間差δkを導入するためにステアリングベクトルを下記のように
とベクトル表示すると、観測モデルは、下記式(13)
と表せる。ステアリングベクトルとは、音源方向に依存する複素ベクトルである。ただし、
は、それぞれの観測信号に含まれる、残響、背景音を含む誤差であり、この誤差も観測信号等と同様の複素ベクトルであり太字で記されている。ここでNL(τ、ω)、NR(τ、ω)は音源信号Sk(τ、ω)とは独立であると仮定する。
本実施の形態では、そのような選択肢の一つとして、Skとして、最尤値を採用する例を示す。すなわち、まず、下記式(15)
を上記式(14)に代入し、さらに、下記式(16)のように、
と仮定すれば、単一方向尤度の具体的な形は、下記式(17)
となる。
6.1.1 時間差δkの初期値
さて、次節からk番目の音源に対応する時間差δkを逐次更新していくことになるが、それには初期値が必要となる。本実施の形態では、初期値を従来のクラスタリングで取得している。これは既に説明したように、時間周波数領域における各成分に対して対応する音源を決定し、決定に基づき各音源の信号を取り出し、取り出した信号から、各音源の時間差δkを求めている。図1の例では、例えば音源が3個の場合の例が図1(b)に示されている。この場合、2本の観測信号間の時間差がδ1、δ2、δ3として求められる。これらはいわば初期値として扱われる。
さて、次節からk番目の音源に対応する時間差δkを逐次更新していくことになるが、それには初期値が必要となる。本実施の形態では、初期値を従来のクラスタリングで取得している。これは既に説明したように、時間周波数領域における各成分に対して対応する音源を決定し、決定に基づき各音源の信号を取り出し、取り出した信号から、各音源の時間差δkを求めている。図1の例では、例えば音源が3個の場合の例が図1(b)に示されている。この場合、2本の観測信号間の時間差がδ1、δ2、δ3として求められる。これらはいわば初期値として扱われる。
初期値の求め方は種々考えられる。もちろん、真の値に近い値の方が収束するための時間が短くなることは言うまでもない。
6.2 Q関数の導出
さて、k番目の音源に対応する時間差δkを求めるためのQ関数(補助関数)は、上記式(10)(数19参照)より、下記式(18)
のように表される。ただし、δkを含まない項は簡単のため、定数Cとして表した。この表現を見ると、分配関数の平方根
は観測信号ML、MRへ乗じられ、いわば、連続値のマスクに相当する働きを持つことがわかる。すなわち、Eステップで分配関数を計算しQ関数を求める操作は、観測信号ML、MRに連続値の分配関数を乗じてソフトに(なだらかに)音源分離を行えっているとみなすことができる。
さて、k番目の音源に対応する時間差δkを求めるためのQ関数(補助関数)は、上記式(10)(数19参照)より、下記式(18)
このEステップの動作の概念が、図1(c)に示されている。このように、バイナリマスクではなく、0〜1の連続的な透過率を持ったマスクによる音源の分離と考えられる。
本実施の形態において特徴的なことは、このような連続的な値を有するマスクを用いて音源分離を行ったことである。この結果、音源の推定精度を向上させることが可能である。図1(c)の例では音源が3個の例を示しており、S1、S2、S3に観測信号が分けられている。上述したようにこの分離は、連続的な値を有するマスクで行っている。この信号S1、S2、S3は、短時間複素フーリエ変換(STFT)で表されている。図1(c)に示されているように2チャネル分のグラフ(横軸は時間、縦軸は周波数)で2種の観測信号があることを示している。
この分離は、全体の方向尤度(式(5):(数8参照))を最大にする分解になっているが、音源信号の分離という観点から最適になっている保障はないため、本発明ではこの連続値マスクによる分離は音源定位のためにのみ行えい、分離は、式(13)(数26参照)のように最尤となる音源に基づくバイナリマスキングにより行うことにしている。
Q関数は、対数尤度の期待値である。本文の条件では、隠れ変数kが不明(k:音源の数が不明)であるので、前のステップまでに推定されたパラメータの値を用いて、対数尤度の期待値を求めた結果がQ関数である。
6.3 パラメータの更新式
音源位置に対応した時間差δkを更新するためには、下記の式(19)を最大とするδkを求める必要があるが、これは解析的には求まらないので、まず、適当に離散化した方向全てに対して
を数値的に求め、以下の式(19)のように更新することとした。
音源位置に対応した時間差δkを更新するためには、下記の式(19)を最大とするδkを求める必要があるが、これは解析的には求まらないので、まず、適当に離散化した方向全てに対して
一方、雑音の分散σ2 も、未知パラメータとして扱い、データから学習することができる。全Q関数をσ2 で微分して0とおくことにより、下記の更新式(20)を得る。
各時間周波数成分を各音源に対し、どのように確率的に分配するかは、この分散の大きさに依存する。上記のように、分散を逐次的に推定することは本実施の形態では大きなポイントである。
おおまかにいえば、非常に誤差分散が大きく雑音が大きい環境では、観測された音源方向が、雑音の影響である音源の方向とずれることも十分にありえる。そのため、誤差分散が大きい環境下では、どの音源にもある程度ずつ、エネルギーが分配されることになる。
これに対し、誤差分散が小さく雑音が小さい環境では、観測された音源方向が正しい音源方向から大きくずれることはあまりないので、必然的に、観測に最も近い音源に、多くのエネルギーが分配されることになる。
したがって、最終的な音源定位等からその「ばらつき」として分散を推定するのではなく、逐次的にこの分散を更新していくことが、残響環境下で分離と定位を良好に働かせるポイントの1つである。
7. シミュレーション実験による検証
2chBSSに対しEMアルゴリズムを適用した提案手法を実装し、シミュレーションによりその分離性能を確認した。図2のように3つの音源及び2つのマイクロフォンを配置し、球面波伝播と残響を鏡像法のシミュレーションによって行った。分離性能の評価には、分離の前後での元音声に対するS/N比の改善値を用いた。音声データは研究用連続音声データベース(著作者:板橋秀一[日本音響学会/編]1991Vol。1−3)を使用した。(=1024P)
また、Yilmazら(非特許文献1)の議論をもとに、サンプリング周期16kHz、フレーム長Tは210(=1024)、シフトはT/2(512)、窓関数をHamming窓として、観測信号を短時間Fourier変換して時間周波数表現を得た。マイクロフォン間の距離は4cmとした。EMアルゴリズムの反復は、Q関数の増加がある閾値以下になったら終了とした。
2chBSSに対しEMアルゴリズムを適用した提案手法を実装し、シミュレーションによりその分離性能を確認した。図2のように3つの音源及び2つのマイクロフォンを配置し、球面波伝播と残響を鏡像法のシミュレーションによって行った。分離性能の評価には、分離の前後での元音声に対するS/N比の改善値を用いた。音声データは研究用連続音声データベース(著作者:板橋秀一[日本音響学会/編]1991Vol。1−3)を使用した。(=1024P)
また、Yilmazら(非特許文献1)の議論をもとに、サンプリング周期16kHz、フレーム長Tは210(=1024)、シフトはT/2(512)、窓関数をHamming窓として、観測信号を短時間Fourier変換して時間周波数表現を得た。マイクロフォン間の距離は4cmとした。EMアルゴリズムの反復は、Q関数の増加がある閾値以下になったら終了とした。
比較対象とした従来法は、Yilmazらの手法(非特許文献1)に基づいた。まず、パワーで重みづけしたa、δの2次元ヒストグラムを作成し、これに矩形関数を畳み込むことでスムージングを行えい、そのピークの頂点をai、δiとして推定した。次に各時間周波数成分に対する尤度が最大になる音源を通過させるマスクを作成し、分離信号を得た。なお、ここでiは音源のインデックスである。
音源定位結果を図3(1)、分離結果を図3(2)に示す。
まず、残響がない場合には、本実施例の手法も、従来の手法もどちらもある程度の精度で定位を行えい分離が可能である。図3(1)に示すように、音源S1の真の時間差10.4μsに対して、従来手法では10.3μs、本実施例の手法では9.8μsと、双方ともかなり近い値を示している。音源S2に関しても、音源S2の真の時間差0.0μsに対して、従来手法では0.0μs、本実施例の手法でも0.0μsと、双方とも真の値と等しくなった。音源S3に関しても、音源S3の真の時間差−7.3μsに対して、従来手法では−6.7μs、本実施例の手法でも−6.7μsと、双方とも真の値と非常に近い値を示している。
しかしながら、370μsの残響環境下においては、従来手法の場合ではクラスタリングができず、したがって次のステップである音源分離が破綻している。これに対して、本実施例で提案する手法では、音源定位ができ、分離も行えていることが確認できよう。
図3(1)に示すように、音源S1の真の時間差10.4μsに対して、残響影響下では従来手法では1.0μs、本実施例の手法では10.3μsとなり、従来手法では音源定位が破綻しているが、本実施例では真の値に近い値を示している。音源S2に関しても、音源S2の真の時間差0.0μsに対して、従来手法では−4.2μs、本実施例の手法では0.0μsとなり、従来手法では音源定位が破綻しているが、本実施例では真の値に近い値を示している。音源S3に関しても、音源S3の真の時間差−7.3μsに対して、従来手法では−5.1μs、本実施例の手法では−8.8μsとなり、本実施例の手法の方がより真の値と近い値を示している。
また、本実施の形態において提案する手法における、σ2 の推定値と残響時間との関係が図3(3)に示されている。残響時間が長くなるにつれて、σ2 の推定値が大きくなっており、環境に応じて観測誤差の大きさを推定することが可能であることが理解されよう。ただし、σは観測信号の振幅と同じ単位を持つが特に明記していない。
このように本実施の形態によれば、観測モデルに含まれる雑音項の大きさ(分散)も観測信号から推定可能であり、パラメータチューニング等が不要であるという効果を奏する。
8. まとめ
以上、本実施の形態では、NchのBSS(Nは2以上の整数)に対し、各時間周波数成分の帰属音源を隠れ変数としてEMアルゴリズムを適用して音源分離を行う手法を提案した。提案した手法のEMアルゴリズムにおけるEステップが音源分離を、Mステップが音源定位を行っていると見ることができる。
以上、本実施の形態では、NchのBSS(Nは2以上の整数)に対し、各時間周波数成分の帰属音源を隠れ変数としてEMアルゴリズムを適用して音源分離を行う手法を提案した。提案した手法のEMアルゴリズムにおけるEステップが音源分離を、Mステップが音源定位を行っていると見ることができる。
従来手法では、音源定位・音源分離を2つの別個の処理によって分離を行っていたのに対し、本実施の形態で提案する手法は、音源定位と音源分離について共通の目的関数を導入し、この共通の目的関数を扱う統一した処理を実行する枠組みを採用している。
また、上記実施例では、2chのBBSについて、シミュレーション実験によって従来手法と、本実施の形態で提案する手法とを比較する実験を行えった。この実験結果から、従来手法では分離が困難になるような残響環境下においても、本特許で提案する手法によれば、分離を行うことができることが示された。
9. プログラム
本実施の形態で述べた音源分離・定位方法は、種々の装置、各種のLSI、種々のハードウェア・ソフトウェアで実行することが可能である。上で述べたシミュレーションもコンピュータ上で全てディジタル信号として音声を取り扱い、シミュレーションを実行している。
本実施の形態で述べた音源分離・定位方法は、種々の装置、各種のLSI、種々のハードウェア・ソフトウェアで実行することが可能である。上で述べたシミュレーションもコンピュータ上で全てディジタル信号として音声を取り扱い、シミュレーションを実行している。
好ましい一例としては、コンピュータ上で、上記の各種式を計算する処理はそのようなプログラムをコンピュータに実行させることによって実現することが挙げられよう。数式の計算は、コンピュータの一般的な動作であるため、そのようなプログラムを記述することは当業者にとって容易である。また、パラメータを所定の範囲で動かして最大値を求める等の繰り返し処理もコンピュータで一般に行える処理であるため、そのような繰り返しを伴うプログラムを記述することは当業者にとって容易である。
また、そのようなプログラムは、コンピュータのハードディスク等の記録媒体に格納しておくことが好ましい。記録媒体は種々の光ディスクや磁気ディスク等の持ち運び可能な記録媒体に格納しておくことも好ましい。
10. 本件発明の特徴
本件発明では、スパース性に基づくBSSの問題に対し、EMアルゴリズムを適用した新しいアルゴリズムを提案した。具体的には、音源信号のスパース性に基づき、各時間周波数成分に寄与する音源は1個であるという観測モデルの下、各時間周波数成分に寄与している音源のインデックスを隠れ変数とみなし、最大尤度を与える音源方向と、各時間周波数成分への各音源の寄与率をEMアルゴリズムによって推定する。
本件発明では、スパース性に基づくBSSの問題に対し、EMアルゴリズムを適用した新しいアルゴリズムを提案した。具体的には、音源信号のスパース性に基づき、各時間周波数成分に寄与する音源は1個であるという観測モデルの下、各時間周波数成分に寄与している音源のインデックスを隠れ変数とみなし、最大尤度を与える音源方向と、各時間周波数成分への各音源の寄与率をEMアルゴリズムによって推定する。
本件発明の方法は、
(1)E−stepが音源分離、M−stepが音源定位に相当し、定位と分離で共通の目的関数(尤度)の最大化が行えわれること、
(2)目的関数が尤度であるため、情報量規準などにより音源数推定が可能になる枠組みであること、
(3)時間差・強度比などの特徴量空間ではなく、元の信号空間(時間周波数空間)での観測モデルにより尤度を定義しており、残響環境に対する拡散音場モデルなど、物理的な観測モデルの導入が可能になること、
等の特長を有している。
(1)E−stepが音源分離、M−stepが音源定位に相当し、定位と分離で共通の目的関数(尤度)の最大化が行えわれること、
(2)目的関数が尤度であるため、情報量規準などにより音源数推定が可能になる枠組みであること、
(3)時間差・強度比などの特徴量空間ではなく、元の信号空間(時間周波数空間)での観測モデルにより尤度を定義しており、残響環境に対する拡散音場モデルなど、物理的な観測モデルの導入が可能になること、
等の特長を有している。
全体の枠組みは、一般にNchのBSSに適用できる。上記実施例では特に2chのBSSに議論を絞って具体的なアルゴリズムを導出し、シミュレーションによる本件手法の音源分離実験結果を示した。
δ 時間差
S 観測信号(短時間複素フーリエ変換済)
ML 左側観測信号
MR 右側観測信号
S 観測信号(短時間複素フーリエ変換済)
ML 左側観測信号
MR 右側観測信号
Claims (21)
- 複数チャネルの観測信号に基づき、複数の音源からの信号を分離する音源分離定位方法において、
前記複数チャネルの観測信号のそれぞれを、時間周波数領域の信号に変換するステップと、
音源定位の初期値を決定する初期音源定位ステップと、
前記音源定位に基づき、前記時間周波数領域上において、各音源の信号を分離する音源分離ステップと、
前記分離結果に基づき、前記時間周波数領域上で各成分が属する音源の尤度を求め、この尤度の期待値である補助関数を最大値にする音源定位を求めて、音源の定位を確率的に行う繰り返し音源定位ステップと、
前記音源分離ステップと、前記繰り返し音源定位ステップと、を繰り返し実行する繰り返しステップと、
を含むことを特徴とする音源分離定位方法。 - 請求項1記載の音源分離定位方法において、
前記音源定位は、前記音源の位置、前記音源の方向、前記音源からの音波の前記複数チャネル間の時間差、のいずれか1種又は2種以上を含むことを特徴とする音源分離定位方法。 - 請求項1記載の音源分離定位方法において、
前記初期音源定位ステップは、
各観測信号の間の特徴量に基づきクラスタリングを行うステップと、
クラスタリングの結果に基づき各時間周波数成分ごとにいずれの音源に属するかを決定するステップと、
上記決定に基づきそれぞれの音源の方向を求めるステップと、
を含むことを特徴とする音源分離定位方法。 - 請求項1記載の音源分離定位方法において、
前記音源分離ステップは、各時間周波数成分がどの音源に属するかを表す尤度に対する寄与を表す分配関数を求めることによって、音源分離を行うことを特徴とする音源分離定位方法。 - 請求項4記載の音源分離定位方法において、
前記繰り返し音源定位ステップは、
前記分配関数を、対応する各時間周波数成分の尤度に乗算し、その結果を、全時間・全周波数にわたって加算する補助関数を計算するステップと、
前記分配関数のパラメータを所定の数値範囲で走査し、前記補助関数の値が最大となるようなパラメータを求めるステップと、
を含み、前記新たなパラメータに基づき、前記音源分離ステップにおいて尤度が求められることを特徴とする音源分離定位方法。 - 請求項5記載の音源分離定位方法において、
前記パラメータ前記複数の音源方向の組であることを特徴とする音源分離定位方法。 - 請求項5記載の音源分離定位方法において、
前記補助関数は、時間周波数領域上の関数であることを特徴とする音源分離定位方法。 - 請求項1記載の音源分離定位方法において、
前記繰り返しステップは、定位する音源の方向の変化が所定量未満になった場合に、繰り返しを終了することを特徴とする音源分離定位方法。 - 請求項5記載の音源分離定位方法において、
前記繰り返しステップは、前記補助関数の値の増加が所定量未満になった場合に、繰り返しを終了することを特徴とする音源分離定位方法。 - Nチャネルの観測信号に基づき、M個の音源からの信号を分離する音源分離定位方法において、
前記Nチャネルの観測信号のそれぞれを、時間周波数領域の信号に変換するステップと、
音源定位の初期値を決定する初期音源定位ステップと、
前記音源定位に基づき、前記時間周波数領域上において、各音源の信号を分離する音源分離ステップと、
前記分離結果に基づき、前記時間周波数領域上で各成分が属する音源の音源方向の尤度を求め、この尤度の期待値である補助関数を最大値にする前記音源間の音源方向の値を確率的に求めることによって音源定位を行う繰り返し音源定位ステップと、
前記音源分離ステップと、前記繰り返し音源定位ステップと、を繰り返し実行する繰り返しステップと、
を含むことを特徴とする音源分離定位方法。ここで、前記N及びMは2以上の整数である。 - 請求項10記載の音源分離定位方法において、
前記音源定位は、前記各音源の方位、又は、前記記Nチャネル間の観測信号の時間差、強度比、誤差分散のいずれか1種又は2種以上を含むことを特徴とする音源分離定位方法。 - 請求項10記載の音源分離定位方法において、
前記初期音源定位ステップは、
各観測信号の間の時間差又は強度比に基づきクラスタリングを行うステップと、
クラスタリングの結果に基づき各時間周波数成分ごとにいずれの音源に属するかを決定するステップと、
上記決定に基づきそれぞれの音源の方位として、前記時間差又は強度比を求めるステップと、
を含むことを特徴とする音源分離定位方法。 - 請求項10記載の音源分離定位方法において、
前記音源分離ステップは、各時間周波数成分が属する音源の前記時間差又は強度比を表す尤度に対する寄与を表す分配関数を求めることによって、音源分離を行うことを特徴とする音源分離定位方法。 - 請求項13記載の音源分離定位方法において、
前記繰り返し音源定位ステップは、
前記分配関数を、対応する各時間周波数成分の尤度に乗算し、その結果を、所定の数値範囲にわたって加算する補助関数を計算するステップと、
前記分配関数のパラメータである時間差又は強度比を所定の数値範囲で走査し、前記補助関数の値が最大となるような時間差又は強度比を求めるステップと、
を含み、前記新たな時間差又は強度比に基づき、前記音源分離ステップにおいて尤度が求められることを特徴とする音源分離定位方法。 - 請求項14記載の音源分離定位方法において、
前記補助関数は、時間周波数領域上の関数であることを特徴とする音源分離定位方法。 - 請求項10記載の音源分離定位方法において、
前記繰り返しステップは、定位する音源の方向の変化が所定量未満になった場合に、繰り返しを終了することを特徴とする音源分離定位方法。 - 請求項14記載の音源分離定位方法において、
前記繰り返しステップは、前記補助関数の値の増加が所定量未満になった場合に、繰り返しを終了することを特徴とする音源分離定位方法。 - コンピュータに、複数チャネルの観測信号に基づき、複数の音源からの信号を分離する音源分離定位方法を実行させるためのプログラムにおいて、
前記複数チャネルの観測信号のそれぞれを、時間周波数領域の信号に変換する手順と、
音源定位の初期値を決定する初期音源定位手順と、
前記音源定位に基づき、前記時間周波数領域上において、各音源の信号を分離する音源分離手順と、
前記分離結果に基づき、前記時間周波数領域上で各成分が属する音源の尤度を求め、この尤度の期待値である補助関数を最大値にする音源定位を求めて、音源の定位を確率的に行う繰り返し音源定位手順と、
前記音源分離ステップと、前記繰り返し音源定位ステップと、を繰り返し実行する繰り返し手順と、
を、前記コンピュータに実行させることを特徴とするプログラム。 - コンピュータに、Nチャネルの観測信号に基づき、M個の音源からの信号を分離する音源分離定位方法を実行させるプログラムにおいて、
前記Nチャネルの観測信号のそれぞれを、時間周波数領域の信号に変換する手順と、
音源定位の初期値を決定する初期音源定位手順と、
前記音源定位に基づき、前記時間周波数領域上において、各音源の信号を分離する音源分離手順と、
前記分離結果に基づき、前記時間周波数領域上で各成分が属する音源の音源方向の尤度を求め、この尤度の期待値である補助関数を最大値にする前記音源間の音源方向の値を確率的に求めることによって音源定位を行う繰り返し音源定位手順と、
前記音源分離ステップと、前記繰り返し音源定位ステップと、を繰り返し実行する繰り返し手順と、
を、前記コンピュータに、実行させることを特徴とするプログラム。ここで、前記N及びMは2以上の整数である。 - 請求項1又は10記載の音源分離定位方法において、
前記繰り返し音源定位ステップは、さらに、
前記補助関数をσ2で微分した更新式を計算することによって雑音の分散σ2を求めるステップ、
を含むことを特徴とする音源分離定位方法。 - 請求項1又は10記載の音源分離定位方法において、
前記繰り返しステップを終了した際に得られた分配関数に基づき、最も大きい寄与の音源のみを通過させる時間周波数マスキングによって、最終的な音源分離を行なう分離ステップを含むことを特徴とする音源分離定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006331185A JP2008145610A (ja) | 2006-12-07 | 2006-12-07 | 音源分離定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006331185A JP2008145610A (ja) | 2006-12-07 | 2006-12-07 | 音源分離定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008145610A true JP2008145610A (ja) | 2008-06-26 |
Family
ID=39605879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006331185A Pending JP2008145610A (ja) | 2006-12-07 | 2006-12-07 | 音源分離定位方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008145610A (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010145836A (ja) * | 2008-12-19 | 2010-07-01 | Nippon Telegr & Teleph Corp <Ntt> | 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム |
JP2010187066A (ja) * | 2009-02-10 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム |
JP2011164467A (ja) * | 2010-02-12 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | モデル推定装置、音源分離装置、それらの方法及びプログラム |
JP2012042664A (ja) * | 2010-08-18 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体 |
JP2013044909A (ja) * | 2011-08-24 | 2013-03-04 | Nippon Telegr & Teleph Corp <Ntt> | 背景音抑圧装置、背景音抑圧方法、およびプログラム |
JP2013097176A (ja) * | 2011-11-01 | 2013-05-20 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、音源分離方法及びプログラム |
JP2013543987A (ja) * | 2010-10-22 | 2013-12-09 | クゥアルコム・インコーポレイテッド | 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 |
JP2013545137A (ja) * | 2010-10-25 | 2013-12-19 | クゥアルコム・インコーポレイテッド | マルチチャネルオーディオ信号を分解するための方法、装置および機械可読記憶媒体 |
JP2014021315A (ja) * | 2012-07-19 | 2014-02-03 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離定位装置、方法、及びプログラム |
JP2015073149A (ja) * | 2013-10-01 | 2015-04-16 | Kddi株式会社 | オーディオ信号処理装置、録音再生装置およびプログラム |
JP2017150903A (ja) * | 2016-02-23 | 2017-08-31 | 日本電信電話株式会社 | 音源定位装置、方法、及びプログラム |
WO2018203471A1 (ja) * | 2017-05-01 | 2018-11-08 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置及び符号化方法 |
CN112466325A (zh) * | 2020-11-25 | 2021-03-09 | Oppo广东移动通信有限公司 | 声源定位方法和装置,及计算机存储介质 |
CN113465850A (zh) * | 2021-02-07 | 2021-10-01 | 西北工业大学 | 机械振动信号路径识别的方法、试验装置和试验方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004029754A (ja) * | 2002-05-10 | 2004-01-29 | Univ Kinki | 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 |
WO2005066927A1 (ja) * | 2004-01-09 | 2005-07-21 | Toudai Tlo, Ltd. | 多重音信号解析方法 |
JP2006154314A (ja) * | 2004-11-29 | 2006-06-15 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
JP2006227328A (ja) * | 2005-02-18 | 2006-08-31 | Hitachi Ltd | 音声処理装置 |
-
2006
- 2006-12-07 JP JP2006331185A patent/JP2008145610A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004029754A (ja) * | 2002-05-10 | 2004-01-29 | Univ Kinki | 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 |
WO2005066927A1 (ja) * | 2004-01-09 | 2005-07-21 | Toudai Tlo, Ltd. | 多重音信号解析方法 |
JP2006154314A (ja) * | 2004-11-29 | 2006-06-15 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
JP2006227328A (ja) * | 2005-02-18 | 2006-08-31 | Hitachi Ltd | 音声処理装置 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010145836A (ja) * | 2008-12-19 | 2010-07-01 | Nippon Telegr & Teleph Corp <Ntt> | 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム |
JP2010187066A (ja) * | 2009-02-10 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム |
JP2011164467A (ja) * | 2010-02-12 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | モデル推定装置、音源分離装置、それらの方法及びプログラム |
JP2012042664A (ja) * | 2010-08-18 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体 |
JP2013543987A (ja) * | 2010-10-22 | 2013-12-09 | クゥアルコム・インコーポレイテッド | 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 |
US9100734B2 (en) | 2010-10-22 | 2015-08-04 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
KR101521368B1 (ko) * | 2010-10-25 | 2015-05-18 | 퀄컴 인코포레이티드 | 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체 |
US9111526B2 (en) | 2010-10-25 | 2015-08-18 | Qualcomm Incorporated | Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal |
JP2013545137A (ja) * | 2010-10-25 | 2013-12-19 | クゥアルコム・インコーポレイテッド | マルチチャネルオーディオ信号を分解するための方法、装置および機械可読記憶媒体 |
JP2013044909A (ja) * | 2011-08-24 | 2013-03-04 | Nippon Telegr & Teleph Corp <Ntt> | 背景音抑圧装置、背景音抑圧方法、およびプログラム |
JP2013097176A (ja) * | 2011-11-01 | 2013-05-20 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、音源分離方法及びプログラム |
JP2014021315A (ja) * | 2012-07-19 | 2014-02-03 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離定位装置、方法、及びプログラム |
JP2015073149A (ja) * | 2013-10-01 | 2015-04-16 | Kddi株式会社 | オーディオ信号処理装置、録音再生装置およびプログラム |
JP2017150903A (ja) * | 2016-02-23 | 2017-08-31 | 日本電信電話株式会社 | 音源定位装置、方法、及びプログラム |
WO2018203471A1 (ja) * | 2017-05-01 | 2018-11-08 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置及び符号化方法 |
CN112466325A (zh) * | 2020-11-25 | 2021-03-09 | Oppo广东移动通信有限公司 | 声源定位方法和装置,及计算机存储介质 |
CN113465850A (zh) * | 2021-02-07 | 2021-10-01 | 西北工业大学 | 机械振动信号路径识别的方法、试验装置和试验方法 |
CN113465850B (zh) * | 2021-02-07 | 2023-09-08 | 西北工业大学 | 机械振动信号路径识别的方法、试验装置和试验方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008145610A (ja) | 音源分離定位方法 | |
Kavalerov et al. | Universal sound separation | |
Srinivasan et al. | Binary and ratio time-frequency masks for robust speech recognition | |
Schädler et al. | Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition | |
US20100174389A1 (en) | Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation | |
Hori et al. | Multi-microphone speech recognition integrating beamforming, robust feature extraction, and advanced DNN/RNN backend | |
Wang et al. | Recurrent deep stacking networks for supervised speech separation | |
Adiloğlu et al. | Variational Bayesian inference for source separation and robust feature extraction | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
Simon et al. | A general framework for online audio source separation | |
CN110998723A (zh) | 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序 | |
Oh et al. | Improvement of speech detection using ERB feature extraction | |
Agrawal et al. | A review on speech separation in cocktail party environment: challenges and approaches | |
Hershey et al. | Factorial models for noise robust speech recognition | |
Li et al. | Single channel speech enhancement using temporal convolutional recurrent neural networks | |
US11790929B2 (en) | WPE-based dereverberation apparatus using virtual acoustic channel expansion based on deep neural network | |
Arberet et al. | A tractable framework for estimating and combining spectral source models for audio source separation | |
Cipli et al. | Multi-class acoustic event classification of hydrophone data | |
Guzewich et al. | Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement. | |
Manikandan et al. | Hardware implementation of voice operated robot using Support Vector Machine classifier | |
Sharma et al. | Speech Diarization and ASR with GMM | |
EP4171064A1 (en) | Spatial dependent feature extraction in neural network based audio processing | |
Venkateswarlu et al. | The performance evaluation of speech recognition by comparative approach | |
Yong et al. | Feature compensation based on independent noise estimation for robust speech recognition | |
Jaramillo et al. | An adaptive autoregressive pre-whitener for speech and acoustic signals based on parametric NMF |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110801 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111201 |