JP5134525B2 - 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム - Google Patents

方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム Download PDF

Info

Publication number
JP5134525B2
JP5134525B2 JP2008324226A JP2008324226A JP5134525B2 JP 5134525 B2 JP5134525 B2 JP 5134525B2 JP 2008324226 A JP2008324226 A JP 2008324226A JP 2008324226 A JP2008324226 A JP 2008324226A JP 5134525 B2 JP5134525 B2 JP 5134525B2
Authority
JP
Japan
Prior art keywords
sound source
sound
parameter
direction information
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008324226A
Other languages
English (en)
Other versions
JP2010145836A (ja
Inventor
章子 荒木
智広 中谷
宏 澤田
昭二 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008324226A priority Critical patent/JP5134525B2/ja
Publication of JP2010145836A publication Critical patent/JP2010145836A/ja
Application granted granted Critical
Publication of JP5134525B2 publication Critical patent/JP5134525B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、音響信号処理に用いる方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラムに関する。
従来から、音源の方向情報の分布を推定する技術がある。この技術は、例えば、音響信号処理の分野において、同時に複数の人が発話した音声が混ざった信号が観測されている時に、各人の方向を推定したり、各人の音声を分離抽出する際に重要である。
図1に従来の方向情報分布推定装置100の機能構成例を示し、図2Aに音の方向情報について得られたヒストグラムHの一例を示し、当該方向情報は方向情報分布推定装置100に入力されるものである。方向情報分布推定装置100の原理については非特許文献1に記載されている。図2A、後述する図2B、図2Cの横軸は、音源の(音の到来方向)の角度を示す。方向情報分布推定装置100の目的は、ヒストグラムHに、正規分布モデルをフィッティングさせる(近似させる)ことである。特にこの技術では、ヒストグラムH中にある複数の分布の山それぞれに意味がある場合を考える。例えば、それぞれの分布の山が音声信号源や電波信号源などの推定方向情報を表している場合などである。図2Aの例では、分布の山は4つ存在し、4つの分布の山をそれぞれa〜dとする。分布の山aは約−115度、分布の山bは約−20度、分布の山cは約60度、分布の山dは約150度に位置している。
ヒストグラムHから音源方向を推定する場合には、分布の山の角度の平均値を求めるのであるが、この平均値を求めるためには、各分布の山をそれぞれ1個の確率分布モデルでフィッティングさせることが要求される。
従来の技術では、ヒストグラム全体を例えば混合正規分布モデル(Gaussian mixture model:GMM)でモデル化していた。混合正規分布Gは以下の式(1)により表される。
Figure 0005134525
図1を用いて、従来の方向情報分布推定装置100の各構成部の処理を簡単に説明する。まず、方向情報(図2Aに示すヒストグラムH)が事後確率計算部2に入力され、事後確率計算部2でM個の正規分布モデルごとに事後確率を求める。そして、M個の事後確率はパラメタ更新部4に入力される。平均更新手段42、分散更新手段44、混合重み更新手段46がそれぞれ、M個の事後確率等を用いて、パラメタ保持部8に保持させつつ、μ、σ、αをEMアルゴリズムにより更新する。更新過程の詳細は省略する。
そして、例えば、更新回数が閾値Tを超えると、収束後パラメタθ(θ=(μ、σ、α) m=1、...、M)を出力する。出力された収束後パラメタθを用いて、音源方向の測定や音源の分離を行う。
M.Mandel,D.Ellis,and T.Jebara,"An EM algorithm for localizing multiple sound sources in reverberant environments,"Proc.Neural Info.Proc.Sys.,2006.
図2Aに示すヒストグラムHに8つの正規分布モデルを用いて、方向情報分布推定装置100によるフィッティングさせた結果を図2Bに示す。図2Bの−115度付近の箇所(図2B記載のPの箇所)に注目されたい。Pの箇所では、−115度付近の分布も1つの正規分布モデルでフィッティングさせたいにも関わらず、2つの正規分布モデルがフィッティングしてしまう。そして、図2B記載の正規分布モデルをそれぞれ合計することで、図2C記載の混合正規分布モデルが求められ、求められた混合正規分布モデルの収束後パラメタθが方向情報分布推定装置100から出力される。この場合であると、Pに2つの正規分布モデルがフィッティングしてしまっていることから、正確な収束後パラメタθを求めることができないという問題がある。その結果、正確な音源分離や音源方向推定を行うことができない。
本発明では、音源からの音情報として、複数のピークを持つ方向情報が与えられた場合に、各ピークにそれぞれ1つの確率分布モデルをフィッティングさせることのできる方向情報分布推定装置を提供することである。
この発明は音源からの音情報が複数のピークを持つ場合に、M(Mは1以上の整数)個の確率分布モデルを用いて、各ピークにそれぞれ1つの確率分布モデルをフィッティングさせる方向情報分布推定装置である。当該方向情報分布推定装置は、パラメタ保持部と、事後確率計算部と、更新部と、を備える。パラメタ保持部は、現在の確率分布モデルの各パラメタを保持している。事後確率計算部は、音情報と、現在の確率分布モデルの各パラメタを用いて、M個の確率分布モデルごとに事後確率を計算する。更新部は音情報と、M個の確率分布モデルごとの事後確率を用いて、現在の確率分布モデルの各パラメタを更新し、各パラメタ値が収束していると判断した場合には更新された各パラメタを出力し、各パラメタ値が収束していないと判断した場合には、更新された各パラメタをパラメタ保持部に現在の確率分布モデルの各パラメタとして保持させる。そして、各パラメタのうち、混合重みの事前分布にディリクレ分布を用いる。
この発明の方向情報分布推定装置では、確率分布モデルのパラメタである混合重みに事前分布としてディリクレ分布を与えることで、各ピークに対して少数の確率分布モデルのフィッティングが可能であり、結果として各ピークにそれぞれ1つの確率分布モデルをフィッティングさせることができる。
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。
図3に実施例1の方向情報分布推定装置200の機能構成例を示し、図4に処理フローを示す。図5Aに入力されるヒストグラムHを示し、図5B、Cにそれぞれ、方向情報分布推定装置200で得られる分布の一例を示す。また、図5AのヒストグラムHは図2Aと同様であるとする。
この実施例1では、用いるM個の確率分布モデルとしてM個の正規分布を用いる例を示し、入力される音情報を方向情報Dとし、方向情報Dの一例としてヒストグラムHである場合を示す。音情報が方向情報である場合には、横軸は角度、縦軸は度数を表す。そして、方向情報分布推定装置200はヒストグラムHが複数のピークを持つ場合に、各ピークにそれぞれ1つの確率分布モデルをフィッティングさせる。正規分布モデルでなくとも、確率分布モデルであれば、どのモデルを用いても良い。ここで、各ピークは、1つの音源方向に対応するものである。
通常、方向情報Dには、2πのk(kは整数)倍の不定性が含まれるため、ここではそれを許すWrapped GMMを用いる。Wrapped GMMであるGは以下の式(2)で表すことができる。
Figure 0005134525
θを混合正規分布の平均μ、分散σ、混合重みαをまとめたものを示し、つまり、θ=(μ、σ、α)=(μ、σ、α、...、μ、σ、α、...、μ、σ、α)となる。また、tを更新回数(時刻)とし、θに更新回数の概念を付与したもの、つまり、t回更新したθをθとすると、θ=(μ 、σ 、α 、...、μ 、σ 、α 、...、μ 、σ 、α )となる。また、記憶部16には予め用いる正規分布モデルのモデル数Mと混合正規分布モデルの各パラメタの初期値θが記憶されている。事前分布情報保持部110には、後述のハイパーパラメタφ、重みパラメタcが保持されている。
方向情報分布推定装置200には、N個の方向情報D={d、...、d、...、d}と重み係数A={a、...、a、...、a}が入力される。重み係数Aは、方向情報の各要素d(n=1、...、N)に対する重み係数である。この重み係数は例えば、方向情報Dが得られる頻度や方向情報Dが得られた時の信頼度(取得信号のパワーや信号の瞬時的SN比など)により与えることができる。または全てのnについてa=1としても良い。
まず、t=0と設定し(つまり更新回数が0)、t=0のときの混合正規分布のパラメタθの値を設定し、用いる正規分布のモデル数M、kの範囲であるK、更新回数閾値Tまたは差閾値Δ(後述する)を設定する。更新回数閾値Tまたは差閾値Δは、後述する収束判定処理の際に用いられる(ステップS2)。
事後確率計算部12は、音情報(この実施例1では方向情報D)と、現在の混合正規分布のパラメタθ(=(μ 、σ 、α m=1、...、M))から、M個の正規分布ごとに事後確率p(m、k│d、θ)を計算する(ステップS6)。またパラメタ保持部18には、現在の混合正規分布のθが保持されている。事後確率計算部12は具体的には例えば、以下の式(5)により計算する。
Figure 0005134525
式(5)の右辺の分子「p(m、k、d│θ)は上記式(3)(4)で表される「p(m、k、d│θ)」内のθに更新回数tの概念を付与したものである。
次に、更新部14は、方向情報Dと事後確率p(m、k│d、θ)を用いて、現在の混合正規分布の各パラメタθを更新する(ステップS8)。以下、更新処理について詳細に説明する。更新部14は更新処理の際に、ハイパーパラメタφ、重みパラメタcを事前分布情報保持部110から取り出す。この発明では、パラメタθの更新処理は、正規分布のパラメタθの混合重みαに適切な事前分布を与え、例えばEMアルゴリズムにて行う。この実施例1では、混合重みαの事前分布として、ディリクレ分布を考える。ディリクレ分布の詳細は、参考文献1である「C.M.ビショップ著(元田、栗田他訳) 「パターン認識と機械学習(上)」、シュプリンガー・ジャパン2007年 p.74−p.77」等に記載されている。ディリクレ分布は例えば以下の式(6)で表される。
Figure 0005134525
ここで、αは混合重み行列であり、α={α、...、α、...、α}で表され、Σ α=1、0≦α≦1という条件を満たす。これは混合正規分布のパラメタである混合重みの条件と同じであることに注意されたい。またβ(φ)は正規化項(ベータ分布)であり、ここで、ハイパーパラメタφを1より小さい正の値(例えば、0.9)に設定すると、αのごく少数のみが十分に大きな値を持ち、残りは0に近い値をとるようになる。この性質を式(1)で表される混合正規分布Gの混合重みαに対して適用することで、混合正規分布Gのうちの少数の正規分布のみに十分大きな混合重みがかかり、その他の正規分布の混合重みは0に近くなる。結果として、なるべく少数の正規分布によるフィッティングが可能である。
次に、この事前分布を含みながら、パラメタ更新を行うためのEMアルゴリズムを導出する。まず、最尤推定のためのコスト関数L(θ)は次のように与えられる。
Figure 0005134525
また、重みパラメタcは、式(9)の第1項と第2項の重みをコントロールするパラメタである。
Figure 0005134525
となる。ここで、式(11)のE[H]は式Hの期待値を示し、式(12)中のp(m、k│d、θ)は式(5)で表される事後確率分布である。ここで、従来法のEMアルゴリズムでは式(12)中のlog(p(α))がないことに注意されたい。
Figure 0005134525
また上述の通り、この場合には、音情報は音の到来方向を示すN個の方向情報d(n=1、...、N)であり、当該方向情報dには2kπ倍(kは整数)の不定性が含まれているとし、混合正規分布は、ラップGMMであり、cは重みパラメタであり、φはハイパーパラメタであり、Kはkの範囲を示す。
図3中の更新部14中の平均更新手段142が式(13)より現在の平均μ を更新することで更新後の平均μ t+1を出力する。分散更新手段144が式(14)より分散σを更新することで更新後の分散σ t+1を出力する。混合重み更新手段146が式(15)により混合重みαを更新することで更新後の混合重みα t+1を出力する。パラメタ算出手段が、更新後の平均μ t+1、分散σ t+1、混合重みα t+1についての更新後のパラメタθt+1を算出する。
各パラメタの更新処理が数回行われ(ステップS4)、更新部14内の収束判定手段150は、更新されたθt+1に対して、予め定められた規則により、各パラメタ値が収束しているか否かの収束判定を行う(ステップS10)。各パラメタ値が収束していると判断した場合には、更新されたパラメタθt+1を出力する。また、各パラメタ値が収束していないと判断した場合には、更新されたパラメタθt+1を現在の確率分布モデルの平均、分散、混合重みとしてパラメタ保持部18に保持させる。そして、収束判定手段150が、各パラメタ値が収束していると判断するまで、ステップS4〜ステップS10の処理を繰り返す。
ここで収束判定に用いる予め定められた規則の例を説明する。更新回数閾値Tを用いる例を説明すると、更新部14内のカウント手段(図示せず)は更新回数tをカウントし、更新回数tが更新回数閾値Tを超えた場合には、十分更新しており、収束していると判断して、更新後のパラメタθを出力する。また、差閾値Δを用いる例を説明すると、以下の式(16)の式を満たす場合には、収束していると判断して、更新後のパラメタθを出力する。
│Q(θ│θt+1)−Q(θ│θ)│<Δ (16)
パラメタ算出手段148により算出されるθは図5Cの混合正規分布の各パラメタである。
また、この実施例1において、K=0とすれば、ラップGMMではなく、通常のGMMによるフィッティングを行うことができる。この場合は、音情報Dとして方向情報である必要はない。例えば、音源からの音をJ個のマイクロホン20(j=1、...、J)で収音した場合であると、マイクロホン20とマイクロホン20j’ (j’=1、...、Jであり、j≠j’)とのマイクロホン間位相差q’jj’を音情報Dとしても良い。またこの実施例1では混合重みαのみに事前分布を導入したが、各ガウス分布の平均μと分散σに対しても事前分布を導入することで、より精度の高いGMMフィッティング(方向情報分布推定処理)を実現できる。また、各ガウス分布の各パラメタである平均μ、分散σ、混合重みα、に事前分布を導入した場合にのGMMフィッティングには、EMアルゴリズムのほかにもベイズ推定などの様々なアルゴリズムが知られている。これらの拡張は当業者であれば、上記参考文献1などを参照すれば、容易に実現できるため、ここでは省略する。
この実施例1で説明したように、式(5)のハイパーパラメタφを1より小さな正の値(例えば、0.9)に設定すると、ディリクレ分布の性質からαのごく少数のみが十分に大きな値を持ち、残りは0に近い値をとるようになる。上記式(1)に示すGMMの少数の正規分布のみに十分大きな混合重みαがかかり、そのほかの正規分布の重みは0に近くなる。この性質を用いることにより、なるべく少数の正規分布によるモデルフィッティングが可能になる。
実施例1では、M個の確率分布モデルとして、M個の正規分布モデルを用いたが、実施例2では、M個のフォン・ミーゼス(von Mises)分布モデルを用いる。フォン・ミーゼス分布は角度の分布を表す関数であり、フォン・ミーゼス分布モデルの詳細は、参考文献2「K.V.Mardia、”Statistics of Directional Data”、Academic Press、1972、3.4.9節」などに記載されている。フォン・ミーゼス分布を用いる効果は、正規分布モデルを用いた場合と比較すると、kおよびKの値を考慮する必要がないため、演算処理が削減されることである。
この実施例2の方向情報分布推定装置300の機能構成例、処理フローは図3、図4とほぼ同様であるが、図3中の分散更新手段144が拡散パラメタ更新手段160に代替されている点が異なる。以下、詳細に説明する。また、フォン・ミーゼス分布モデルのパラメタθをθ={μ、к、α}とし、кは拡散パラメタである。
まず、事後確率計算部12は音情報D(例えば方向情報D)とパラメタ保持部18に保持されている現在のパラメタθ={α 、μ 、к }からM個それぞれのフォン・ミーゼス分布モデルに関する事後確率p(m│d、θ)を求める。
Figure 0005134525
この式(17)は式(4)と対応しているものであり、式(17)中の右辺の分子p(m、d│θ)は、フォン・ミーゼス分布g(d;μ、к)である。
Figure 0005134525
ここで、−π<d≦π、−π<μ≦πとし、また、к>0である。また、I(x)は0次の第1種の変形されたベッセル関数である。
次に、更新部14は、音情報Dと事後確率p(m│d、θ)を用いて、フォン・ミーゼス分布のパラメタθ、つまり、平均μ 、拡散パラメタк 、混合重みα を更新する。以下、詳細に説明する。
平均更新手段142は平均μ を例えば以下の式(20)により更新する。
Figure 0005134525
ここで、arctan(x)は−π/2<μ<π/2の値を返すのが一般的であるから、−π<μ<πのデータを扱うには、以下の演算も行う。
式(20)の値が負の場合、μ とμ +πの両方について、式(21)に示すQ関数の2次導関数を計算し、式(21)の値が負になるほうをμ t+1とする。
Figure 0005134525
式(20)の値が正の場合、μ 、μ −πについて式(21)を計算し、これが負になる方をμ として保存する。
拡散パラメタ更新手段160は例えば以下の式(22)により更新する。
Figure 0005134525
ここで、I(к t+1)を拡散パラメタ関数とする。к t+1は解析的に得られないが、次のように得ることができる。拡散パラメタ関数I(к t+1)は、単調増加関数である。そこで、ある範囲のк(例えば、0≦к≦100)について、「к t+1」と「I(к t+1)」とを対応させたルックアップテーブルを用意しておく。当該ルックアップテーブルは、拡散パラメタ更新手段160中の記憶部(図示せず)に記憶させておけばよい。そして、I(к t+1)が求まると、ルックアップテーブルを参照して、I(к t+1)に対応するк t+1を出力する。
混合重み更新手段146は、例えば、以下の式(23)により混合重みαを更新する。
Figure 0005134525
このようにして、更新部14は分布パラメタθ(={α、μ、к})を更新する。
この実施例2の方向情報分布推定装置300のように、フォン・ミーゼス分布を用いることで、kに関する推定操作が不要であるため、実施例1の方向情報分布推定装置200と比較して、計算コストやパラメタθの収束時間を削減できる。
[実験結果1]
図5を用いて、実施例1で説明した方向情報分布推定装置200によるフィッティングの実験結果について説明する。実験条件として8(=M)つの正規分布からなる混合正規分布をフィッティングさせ、ハイパーパラメタφを0.9とする。上述のように図5Aに入力される方向情報dについての図2Aと同様のヒストグラムHを示し、図5Bに方向情報分布推定装置200のフィッティング処理による正規分布の結果を示し、図5Cに図5Bの正規分布を合計した混合正規分布(GMM)を示す。図5B記載のPの箇所(−115度付近)に注目すると、1つの正規分布でフィッティングできていることが理解されよう。従って、図5Cに示す求められる混合正規分布は、正確なものである。従って、実施例3〜5で説明する音源数推定処理、音源方向測定処理、音源分離処理も正確に行うことができる。
一方、上述のように、図1Bに示す従来の方向情報分布推定装置100の実験結果については、Pの箇所では、2つの正規分布がフィッティングしてしまい、図1Cに示すGMMは、不正確なものとなってしまう。
この実施例3では、実施例1、2で説明した方向情報分布推定装置200、300を用いた音源数測定装置400について説明する。図6に音源数測定装置400の機能構成例を示す。この実施例3の音源数測定装置400は、J(Jは2以上の整数)個の収音手段20(例えば、マイクロホン j=1、...、J)に接続されている場合を説明する。そして、ある収録時間内(例えば5秒間など)に複数の音源から音が発せられた場合に、当該音をJ個の収音手段20で収録したとする(以下、状況Xという。)。この実施例3の音源数測定装置400は、収録音のみを用いて、音を発した音源の数を推定する。
収音手段20から入力された音信号をx(s)とし、sを離散時刻とする。周波数領域変換部30は音信号x(s)を周波数領域音信号X(f、τ)に変換する。fは周波数、τは時間フレーム番号である。また、この実施例3ではn=τF+fを考える。ただしFは周波数領域の数である。
パワー推定部32は周波数領域音信号から音のパワーを求める。求め方の一例として、パワー推定部32は、各時間周波数(f、τ)における周波数領域音信号X(f、τ)の信号パワー│X(f、τ)│を演算し出力する。出力された信号パワー│X(f、τ)│が、上述した重み係数aとして、以後用いられる。
また、到来方向推定部34は周波数領域音信号から音の到来方向情報を求める。求め方の例を詳細に説明する。到来方向推定部34は、収音手段間位相差演算手段342、到来方向情報生成手段344とで構成されている。まず、収音手段間位相差演算手段342が各フレームτ、各周波数fにおいて、各収音手段の全ての組み合わせ(マイクロホンペア)について収音手段間位相差q’jj’(f、τ)を以下の式(24)により求める。ただし、j=1、...、Jであり、j’=1、...、Jであり、j≠j’とする。
q’jj’(f、τ)={arg[X(f、τ)X j’(f、τ)]}/2πf
(24)
ただし、「」は複素共役であることを示す。そして、全てのq’jj’(f、τ)を並べたベクトルをQ’(f、τ)とする。音の到来方向情報Q(f、τ)は音速Cと、各収音手段の座標系Dを用いて、以下の式(25)により求められる。
Q(f、τ)=CDQ’(f、τ) (25)
ここでCは音速であり、「」は、Moore−Penroseの擬似逆行列を表し、D=[D−D、...、D−D、...、D−Dであり、Dは収音手段20の座標(x、y、z)と並べたベクトルであり、LはJ個の収音手段のうち代表として選ばれた代表収音手段のインデックスである。到来方向情報Q(f、τ)のxyz座標(x、y、z)は、到来方向水平角(以下、単に「水平角」という。)をΨ(f、τ)とし、到来方向仰角(以下、単に「仰角」という。)をΩ(f、τ)とすると、以下の式(26)で表すことができる。
Q(f、τ)=(x、y、z
=(cosΨ(f、τ)cosΩ(f、τ)、
sinΨ(f、τ)cosΩ(f、τ)、
sinΩ(f、τ)) (26)
この実施例では、水平角Ψ(f、τ)のみを用いる。求められた到来方向情報Q(f、τ)を方向情報dとして用いる。また、方向情報dについてヒストグラムを作成すると、図2Aに示すヒストグラムHが得られる。次に、方向情報d、方向情報aは方向情報分布推定装置200(または300)に入力され、実施例1(または実施例2)で説明した処理により、パラメタθが出力される。以降、出力されたパラメタθを決定後パラメタθとする。
音源数測定部36は、決定後パラメタθの混合重みα(m=1、...、M)のうち、混合重みが予め定められた第1閾値ε1(例えば10−6)よりも大きな値である方向情報分布モデルの個数M’を測定する。測定された個数M’を音源数として出力する。何故なら、方向情報分布推定装置200(300)の演算が十分収束している場合には、決定後パラメタθの中の混合重みαのうち十分大きな値を持つ個数はヒストグラム中の分布の山の数と等しくなるからである。以下の説明では、音源と認められたものについての方向情報分布モデルを音源該当方向情報分布モデルという。
また、方向情報分布推定装置200(300)の演算が十分に収束していない場合は、音源数測定部36は、次のような推定処理を行うことが好ましい。まず、音源数測定装置400内で、方向情報分布推定装置200(実施例1で説明)を用いた場合には、音源数測定部36は、混合重みαが第1閾値ε1よりも大きく、かつ分散σが予め定められた第2閾値ε2(例えば15度)よりも小さい方向情報分布モデルを音源該当方向情報分布モデルとして検出し、これら検出された音源該当方向情報分布モデルの個数M’を測定すればよい。また、音源数測定装置400内で、方向情報分布推定装置300(実施例2で説明)を用いた場合には、音源数測定部36は、混合重みαが第1閾値ε1よりも大きく、かつ拡散パラメタкが第3閾値(例えば10)よりも大きい方向情報分布モデルを音源該当方向情報分布モデルとして検出し、これら検出された音源該当方向情報分布モデルの個数M’を測定すればよい。
従来の方向情報分布推定装置100は、ヒストグラムの各ピークに対して、正規分布をフィッティングさせると、図2Bに示すように、1つのピークに対して、2つの正規分布をフィッティングさせる場合がある。従って、方向情報分布推定装置100を適用した音源数測定装置であると、誤った音源数測定をしてしまう。しかし、実施例1、2で説明した方向情報分布推定装置200(または300)により、図5Bに示すように、1つのピークに対して1つの確率分布モデル(例えば、正規分布モデルやフォン・ミーゼス分布)をフィッティングさせることができるので、正確な音源数を測定できる。
この実施例4では、音源方向測定装置500について説明する。音源方向測定装置500は、状況Xの場合に、収録音のみを用いて音源の方向を推定する。図7に音源方向測定装置500の機能構成例を示す。図7の例では、音源方向測定装置500は音源数測定装置400(実施例3で説明)と音源方向測定部38とで構成されている。
音源数測定装置400の処理が終了すると、音源方向測定部38は、音源該当方向情報分布モデルのインデックスm’{m’=1、...、M’}に対応する平均パラメタμ’を方向情報分布推定装置200から取り出し、推定すべき音源方向として当該平均パラメタμ’を出力する。
この実施例4のように、音源方向測定装置500内に具備する方向情報分布推定装置200(300)により、正確な方向情報分布処理がされることから、音源方向測定装置500は正確な音源方向測定を行うことができる。
この実施例5では、音源分離装置600について説明する。音源分離装置600は、状況Xの場合に、収録音のみを用いて音源からの音信号を分離抽出する。図8に音源分離装置600の機能構成例を示す。図8では、音源分離装置600は音源数測定装置400(実施例3で説明)と分離部40、時間領域変換部41とで構成されている。
音源数測定装置400の処理が終了すると、分離部40は、音源数測定装置400で定められた音源該当方向情報分布モデルのインデックスm’について以下の処理を行う。
音源数測定装置400が、方向情報分布推定装置200を具備している場合には、分離部40は、以下の式(27)により、M’個の正規分布(式(5)参照)に関する事後確率p(m’、k│d、θ)を周辺化することで、周辺化事後確率p(m’│d、θ)を求める。
p(m’│d、θ)=Σk=−K p(m’、k│d、θ) (27)
また、音源数測定装置400が、方向情報分布推定装置300を具備している場合には、周辺化処理を行わず、上記式(17)の演算結果を用いる。
また、周波数領域変換部30からの周波数領域音信号X(f、τ)は分離部40に入力される。分離部40は周辺化事後確率と周波数領域音信号とを掛け合わせる。つまり、以下の式(28)を演算することで、m’番目の信号の推定に対応する周波数領域目的信号(分離信号)を出力する。
nm’=Xp(m’│d、θ) (28)
ここでXはX(f、τ)を上述のn=τF+fで変形したものである。出力される周波数領域目的信号は時間周波数表現(f、τ)を用いると、n=τF+fより以下の式(29)で表される事に留意されたい。
m’(f、τ)=X(f、τ)p(m’│Ψ(f、τ)、θ) (29)
そして、時間領域変換部41は周波数領域目的信号Ym’(f、τ)を時間領域に変換することで、目的信号ym’(t)を求め、出力する。
この実施例5のように、音源分離装置600内に具備する方向情報分布推定装置200(300)により、正確な方向情報分布処理がされることから、音源分離装置600は正確な信号分離を行うことができる。
[実験結果2]
次に、方向情報分布推定装置200を用いた、音源数測定装置400(実施例3で説明)と音源分離装置600(実施例5で説明)と(以下、「発明法」という。)、従来の方向情報分布推定装置100を用いた音源数測定装置、音源分離装置(以下、「従来法」という。)とを比較した実験結果について説明する。まず図9を用いて、実験条件について説明する。長手方向4.45m(=Lb)、短手方向3.55m(=La)、高さ2.5mの室内に、3つのマイクロホンZ、Z、Zが、正三角形の各頂点に配置される。隣接するマイクロホン同士の間隔は4cmであり、3つのマイクロホンの収音面がそれぞれ外側に向けられる。3つのマイクロホンZ、Z、Zがなす正三角形の重心は、図9の左下の頂点Xから長手方向に2.56m(=Ld)であり、短手方向に1.8m(=Lc)の箇所に位置する。また、3つのマイクロホンZ、Z、Zを囲むように2〜4つのスピーカ(図9の例では4つのスピーカS、S、S、Sとする。)が円周Rの方向に配置され、音を発しているとする。当該円周Rの半径は、50cmまたは110cmであり、音の反響時間は128msであるとする。マイクロホンZ、Z、Z、スピーカS、S、S、Sの高さは全て1.2mとする。
実験項目については、(1)音源(スピーカ)が2個、3個、4個の場合について音源の数を測定できるか(音源数測定処理)、(2)音源からの音信号を分離できるか(音源分離処理)、である。これらの項目について、スピーカから発せられる音の音質を変えたり、スピーカがなす円周Rの半径を変えるなどして、20通りの組み合わせについて実験を行った。
このような条件下で、図10に実験結果を示す。図10では、音源数測定処理については、20通りのうち、どの程度の確率で音源数Wを判定しているか評価し、音源分離処理については信号対妨害音比(Signal to Interference Ratio:SIR)を評価した。図10からも理解されるように、音源数処理、音源分離処理については従来法では、誤った結果を出力しているが、発明法ではほぼ正確な結果を出していることが理解されよう。
<ハードウェア構成>
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、方向情報分布推定装置200(300)、音源数推定装置400、音源方向測定装置500、音源分離装置600が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、本実施例で説明した方向情報分布推定装置200(300)、音源数推定装置400、音源方向測定装置500、音源分離装置600は、CPU(Central Processing Unit)、入力部、出力部、補助記憶装置、RAM(Random Access Memory)、ROM(Read Only Memory)及びバスを有している(何れも図示せず)。
CPUは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、RAMは、SRAM(Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等である。また、バスは、CPU、入力部、出力部、補助記憶装置、RAM及びROMを通信可能に接続している。
<ハードウェアとソフトウェアとの協働>
本発明の方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置は、コンピュータの記録部に、本発明の各構成部としてを動作させるプログラムを読み込ませ、処理部、入力部、出力部などを動作させることで実現できる。また、コンピュータに読み込ませる方法としては、プログラムをコンピュータ読み取り可能な記録媒体に記録しておき、記録媒体からコンピュータに読み込ませる方法、サーバ等に記録されたプログラムを、電気通信回線等を通じてコンピュータに読み込ませる方法などがある。
従来の方向情報分布推定装置の機能構成例を示したブロック図。 Aは従来の方向情報分布推定装置に入力されるヒストグラムであり、Bは従来の方向情報分布推定装置により正規分布をフィッティング処理の結果であり、Cはこれら正規分布についての混合正規分布を示す。 本実施例の方向情報分布推定装置を示した図。 本実施例の方向情報分布推定装置の処理フローを示した図。 Aは本実施例の方向情報分布推定装置に入力されるヒストグラムであり、Bは本実施例の方向情報分布推定装置により正規分布をフィッティング処理の結果であり、Cはこれら正規分布についての混合正規分布を示す。 本実施例の音源数測定装置の機能構成例を示したブロック図。 本実施例の音源方向測定装置の機能構成例を示したブロック図。 本実施例の音源分離装置の機能構成例を示したブロック図。 実験2の実験条件を示した図。 実験2の結果を示す図。

Claims (13)

  1. 音源からの音情報の分布が複数のピークを持つ場合に、M(Mは1以上の整数)個の確率分布モデルを用いて、当該確率分布の各パラメタを更新することで、各ピークにそれぞれ1つの確率分布モデルをフィッティングさせる方向情報分布推定装置であって、
    現在の確率分布モデルの各パラメタを保持しているパラメタ保持部と、
    前記音情報と、前記現在の確率分布モデルの各パラメタを用いて、M個の確率分布モデルごとに事後確率を計算する事後確率計算部と、
    前記音情報と、前記M個の確率分布モデルごとの事後確率を用いて、前記現在の確率分布モデルの各パラメタを前記更新し、各パラメタ値が収束していると判断した場合には更新された各パラメタを出力し、各パラメタ値が収束していないと判断した場合には、更新された各パラメタを前記パラメタ保持部に前記現在の確率分布モデルの各パラメタとして保持させる更新部と、を備え、
    前記更新部、前記各パラメタのうち、混合重みの事前分布としてハイパーパラメタを1より小さい正の値に設定したディリクレ分布を用いることを特徴とする方向情報分布推定装置。
  2. 請求項1記載の方向情報分布推定装置であって、
    前記確率分布モデルは、正規分布モデルであり、
    前記正規分布モデルの各パラメタは、混合重み、平均、分散、であることを特徴とする方向情報分布推定装置。
  3. 請求項1記載の方向情報分布推定装置であって、
    前記確率分布モデルは、フォン・ミーゼス分布モデルであり、
    前記フォン・ミーゼス分布モデルの各パラメタは、混合重み、平均、拡散パラメタ、であることを特徴とする方向情報分布推定装置。
  4. 複数の収音手段で入力された音信号を周波数領域に変換することで、周波数領域音信号を求める周波数領域変換部と、
    前記周波数領域音信号から音の到来方向情報を求める到来方向推定部と、
    前記周波数領域音信号のパワーを求めるパワー推定部と、
    前記音の到来方向情報を音情報とし、前記パワーを重み係数として、方向情報分布モデルを求める請求項1〜3何れかに記載の方向情報分布推定装置と、
    混合重みが予め定められた第1閾値よりも大きな値である音源該当方向情報分布モデルの個数M’を測定することで、音源数を求める音源数測定部と、を備える音源数推定装置。
  5. 請求項4記載の音源数推定装置と、
    各音源該当方向情報分布モデルの各パラメタのうち、平均を音源方向として出力する音源方向測定部と、を備える音源方向測定装置。
  6. 請求項4記載の音源数推定装置と、
    前記M’個の音源該当方向情報分布モデルごとの周辺化事後確率を求め、当該周辺化事後確率と前記周波数領域音信号とを掛け合わせることで、周波数領域目的信号を求める分離部と、
    前記周波数領域目的信号を時間領域に変換することで、目的信号を求める時間領域変換部と、を備える音源分離装置。
  7. 音源からの音情報の分布が複数のピークを持つ場合に、M(Mは1以上の整数)個の確率分布モデルを用いて、各ピークにそれぞれ1つの確率分布モデルをフィッティングさせる方向情報分布推定方法であって、
    現在の確率分布モデルの各パラメタを保持しているパラメタ保持過程と、
    前記音情報と、前記現在の確率分布モデルの各パラメタを用いて、M個の確率分布モデルごとに事後確率を計算する事後確率計算過程と、
    前記音情報と、前記M個の確率分布モデルごとの事後確率を用いて、前記現在の確率分布モデルの各パラメタを更新し、各パラメタ値が収束していると判断した場合には更新された各パラメタを出力し、各パラメタ値が収束していないと判断した場合には、更新された各パラメタを前記パラメタ保持過程に前記現在の確率分布モデルの各パラメタとして保持させる更新過程と、を有し、
    前記更新過程、前記各パラメタのうち、混合重みの事前分布としてハイパーパラメタを1より小さい正の値に設定したディリクレ分布を用いることを特徴とする方向情報分布推定方法。
  8. 請求項7記載の方向情報分布推定方法であって、
    前記確率分布モデルは、正規分布モデルであり、
    前記正規分布モデルの各パラメタは、混合重み、平均、分散、であることを特徴とする方向情報分布推定方法。
  9. 請求項7記載の方向情報分布推定方法であって、
    前記確率分布モデルは、フォン・ミーゼス分布モデルであり、
    前記フォン・ミーゼス分布モデルの各パラメタは、混合重み、平均、拡散パラメタ、であることを特徴とする方向情報分布推定方法。
  10. 複数の収音手段で入力された音信号を周波数領域に変換することで、周波数領域音信号を求める周波数領域変換過程と、
    前記周波数領域音信号から音の到来方向情報を求める到来方向推定過程と、
    前記周波数領域音信号のパワーを求めるパワー推定過程と、
    前記音の到来方向情報を音情報とし、前記パワーを重み係数として、方向情報分布モデルを求める請求項7〜9何れかに記載の方向情報分布推定方法の各過程と、
    混合重みが予め定められた第1閾値よりも大きな値である音源該当方向情報分布モデルの個数M’を測定することで、音源数を求める音源数測定過程と、を有する音源数推定方法。
  11. 請求項10記載の音源数推定方法の各過程と、
    各音源該当方向情報分布モデルの各パラメタのうち、平均を音源方向として出力する音源方向測定過程と、を有する音源方向測定方法。
  12. 請求項10記載の音源数推定方法の各過程と、
    前記M’個の音源該当方向情報分布モデルごとの周辺化事後確率を求め、当該周辺化事後確率と前記周波数領域音信号とを掛け合わせることで、周波数領域目的信号を求める分離過程と、
    前記周波数領域目的信号を時間領域に変換することで、目的信号を求める時間領域変換過程と、を有する音源分離方法。
  13. 請求項7〜9何れかに記載の方向情報分布推定方法、または請求項10記載の音源数推定方法、または請求項11記載の音源方向測定方法、または請求項12記載の音源分離方法、の各過程をコンピュータに実行させるためのプログラム。
JP2008324226A 2008-12-19 2008-12-19 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム Active JP5134525B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008324226A JP5134525B2 (ja) 2008-12-19 2008-12-19 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008324226A JP5134525B2 (ja) 2008-12-19 2008-12-19 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム

Publications (2)

Publication Number Publication Date
JP2010145836A JP2010145836A (ja) 2010-07-01
JP5134525B2 true JP5134525B2 (ja) 2013-01-30

Family

ID=42566321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008324226A Active JP5134525B2 (ja) 2008-12-19 2008-12-19 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム

Country Status (1)

Country Link
JP (1) JP5134525B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4964259B2 (ja) * 2009-02-10 2012-06-27 日本電信電話株式会社 パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム
JP5726709B2 (ja) * 2011-11-01 2015-06-03 日本電信電話株式会社 音源分離装置、音源分離方法及びプログラム
JP6114053B2 (ja) * 2013-02-15 2017-04-12 日本電信電話株式会社 音源分離装置、音源分離方法、およびプログラム
CN103824561B (zh) * 2014-02-18 2015-03-11 北京邮电大学 一种语音线性预测编码模型的缺失值非线性估算方法
JP6193823B2 (ja) * 2014-08-19 2017-09-06 日本電信電話株式会社 音源数推定装置、音源数推定方法および音源数推定プログラム
JP6835694B2 (ja) * 2017-10-12 2021-02-24 株式会社デンソーアイティーラボラトリ 騒音抑圧装置、騒音抑圧方法、プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法
JP4652741B2 (ja) * 2004-08-02 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 異常検出装置、異常検出方法、異常検出プログラム、及び記録媒体
JP4804801B2 (ja) * 2005-06-03 2011-11-02 日本電信電話株式会社 会話構造推定方法、プログラム、および記録媒体
JP2008145610A (ja) * 2006-12-07 2008-06-26 Univ Of Tokyo 音源分離定位方法

Also Published As

Publication number Publication date
JP2010145836A (ja) 2010-07-01

Similar Documents

Publication Publication Date Title
JP5134525B2 (ja) 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム
EP3479377B1 (en) Speech recognition
JP4285457B2 (ja) 音場測定装置及び音場測定方法
RU2655703C2 (ru) Определение оценки размера помещения
JP5724125B2 (ja) 音源定位装置
JP4964259B2 (ja) パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム
JP4746533B2 (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP6594839B2 (ja) 話者数推定装置、話者数推定方法、およびプログラム
JP6452591B2 (ja) 合成音声品質評価装置、合成音声品質評価方法、プログラム
JP2010175431A (ja) 音源方向推定装置とその方法と、プログラム
JP6345327B1 (ja) 音声抽出装置、音声抽出方法および音声抽出プログラム
JP6606784B2 (ja) 音声処理装置および音声処理方法
KR20190123996A (ko) 오차의 가중치 합의 최적화를 활용한 실내 무선 측위 방법 및 장치
JP2018077139A (ja) 音場推定装置、音場推定方法、プログラム
JP6570673B2 (ja) 音声抽出装置、音声抽出方法および音声抽出プログラム
JP2008257110A (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
JP2017083566A (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
JP5815489B2 (ja) 音源別音声強調装置、方法、プログラム
US20200388298A1 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
JP2007226036A (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体、並びに、信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体
JP2017055156A (ja) 音場測定装置、音場測定方法、プログラム
JP6618885B2 (ja) 音声区間検出装置、音声区間検出方法、プログラム
JP6538002B2 (ja) 目的音集音装置、目的音集音方法、プログラム、記録媒体
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
JP5134477B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110105

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5134525

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350