JP5337072B2

JP5337072B2 - モデル推定装置、音源分離装置、それらの方法及びプログラム

Info

Publication number: JP5337072B2
Application number: JP2010028985A
Authority: JP
Inventors: 章子荒木; 智広中谷; 宏澤田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-02-12
Filing date: 2010-02-12
Publication date: 2013-11-06
Anticipated expiration: 2030-02-12
Also published as: JP2011164467A

Description

本発明は、複数信号が混在している音響データからそれぞれの原信号を推定する音源分離技術に属し、特にそれぞれの原信号やそれらがどのように混ざったかの情報を用いずに、複数信号が混在している音響データのみからそれぞれの原信号を推定するブラインド音源分離技術に属するモデル推定装置、音源分離装置、それらの方法及びプログラムに関する。

従来のブラインド音源分離技術（例えば非特許文献１）に基づいて構成された音源分離装置１０を図９に示す。ある時刻ｔにおいてＭ個の音源から放音されノイズとともに混合された信号を２個のマイク＃１、＃２で観測し、

を得たとする。

まず、周波数領域変換部１１０において、上記時間領域の観測信号を短時間フーリエ変換により

に変換する。ｎはフーリエ変換を行う時間フレームのインデックスであり、ｆは周波数成分のインデックスである。以後、断りのない場合、観測信号とは周波数領域の信号を指すとし、時間領域の観測信号の場合はそれを明記する。

ここで観測信号スペクトルは、

で表されると仮定する。ここで、ｈ_f,L,mは音源ｍ（ｍ＝１、２、・・・、Ｍ）からマイクＬ（Ｌ＝１、２）までの周波数応答、Ｓ_n,f,mは音源ｍの信号の周波数領域表現、ｎ(＝0,・・・,Ｎ_ｎ−1)は時刻、

は周波数、ｆ_ｓはサンプリング周波数、Ｆはサンプリング点数、を表す。

音源分離を行うために、音源がスパースである、すなわち音源信号ｓ_n,f,mはまれにしか大きな値をとらず各時間周波数 (ｎ,ｆ)では高々１個の音源Ｓ_n,f,mのみが大きな値をとることを仮定する。これは、互いに異なる音声信号などで確認される性質である。これを仮定すると式(1)は、

と書ける。ここで、Ｓ_n,f,mは時間周波数 (ｎ,ｆ)にて支配的な音源信号である。

次に、位相差計算部１２０において、マイク＃１とマイク＃２における観測信号スペクトル間の位相差（マイク間位相差と呼ぶ）Ａ_n,f＝arg[Ｘ_n,f,1／Ｘ_n,f,2]を計算する。このマイク間位相差Ａ_n,fは、信号の音源とマイクとの位置関係によって定まり、音源の位置が互いに異なっていれば、Ａ_n,fは各音源固有の値をとる。

次に、位相差分類部３１において、マイク間位相差Ａ_n,fを周波数ごとにクラスタリングする。スパース性を仮定した式(2)より、音源ｍが支配的な時間周波数(ｎ,ｆ)では音源ｍに対応する位相差μ_n,f,mが、音源ｍ´が支配的な時間周波数(ｎ,ｆ)では音源ｍ´に対応する位相差μ_n,f,m´が求まっているため、位相差Ａ_n,fをクラスタリングすると、各音源成分に対応するクラスタが形成される。ここで従来法では、クラスタリングでいくつのクラスタを作るかを指定するため、音源数保持部３２から音源数Ｍを読み込み、位相差分類部３１ではk-means法などを用いてクラスタリングを行う。クラスタリングは周波数ごとに行われるため、クラスタのインデックスと、そのクラスタに対応する音源のインデックスとの対応関係は、周波数ごとにばらばらである。例えば、ある周波数ｆでは１番目のクラスタが音源１に、２番目のクラスタが音源２に対応するが、別の周波数ｆ´では１番目のクラスタが音源２に、２番目のクラスタに音源１に対応する、というように、クラスタと音源との対応関係がばらばらになってしまうことが一般的である。これをパーミュテーションの問題という。そこで、このパーミュテーションの問題を解決するために、パーミュテーション解決部３３を設け、ここで全ての周波数についてクラスタインデックスと音源のインデックスとを揃え、クラスタと音源とが完全に一対一に対応するように整える。これは例えば次のように行われる。まず、各周波数において得られた各クラスタについて、そのクラスタ内の位相差Ａ_n,fの平均値Ａ_fを求める。次に、平均値Ａ_fを周波数ｆで正規化したＡ_f／２πｆをクラスタリングし、同じ音源に対応する周波数成分をまとめる。これにより全ての周波数でクラスタインデックスと音源のインデックスを揃えることができる。最終的には、ｍ番目のクラスタＣ_ｍには音源ｍに対応するＡ_n,fの成分のみが含まれる。

次に音源分離部４０において、Ｃ_ｍを参照し音源ｍに対応するクラスタを形成している時間周波数(ｎ,ｆ)では１を、それ以外の時間周波数(ｎ,ｆ)では０をとるマスクＭ_n,f,mを作る。これを全ての音源ｍについて作る。更に、マスクＭ_n,f,mを観測信号の１つ（ここではＸ_n,f,1）に乗算し、分離信号Ｙ_n,f,mを得る。

Ｙ_n,f,m＝Ｘ_n,f,1・Ｍ_n,f,m (3)
最後に、時間領域変換部１５０において、得られた分離信号Ｙ_n,f,mを時間領域信号に変換する。

H.Sawada, S.Araki and S.Makino, "A two-stage frequency-domain blind source separation method for underdetermined convolutive mixtures", Proc. WASPAA2007, 2007, p.139-142

上記のように従来の手法では、周波数間のパーミュテーションの問題が生じるため、それを解決することが不可欠である。しかし解決に際しては、パーミュテーション解決部３３でよく用いられるＡ_f／２πｆのクラスタリングが、部屋の残響が多い場合やマイク間隔が広い場合にうまく動作しないという問題がある。すなわち、部屋の残響が多い場合にはマイク間位相差が周波数依存性を持つためにＡ_f／２πｆの値が各周波数で一定の値をとらず、Ａ_f／２πｆのクラスタリングが困難になる。また、マイク間隔が広い場合には、Ａ_n,f＝arg[ｘ_n,f,1／ｘ_n,f,2]の計算において実際のマイク間位相差は±２πを超えるにもかかわらず、argの計算でＡ_n,fの値が−２π≦Ａ_n,f≦２πの範囲に押さえこまれるため、Ａ_f／２πｆの値が各周波数で一定の値を取らず、Ａ_f／２πｆのクラスタリングが困難になる。また、従来の手法では分離すべき音源数Ｍがわかっている必要があるため、音源数Ｍが未知の場合は適用が困難であった。

本発明の目的は、音源数が未知であっても動作し、周波数成分間のパーミュテーションの問題を生ずることなく良好に音源分離が可能なモデル推定装置及びそれを用いた音源分離装置を提供することにある。

本発明のモデル推定装置は、混合された複数の音源からの信号を複数個のマイクで観測し、混合された各音源の信号を抽出するモデル推定装置であり、周波数領域変換部と位相差計算部とモデル推定部とを備える。周波数領域変換部は、各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する。位相差計算部は、各マイクにおける観測信号スペクトル間の位相差（マイク間位相差）を計算する。モデル推定部は、前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記マイク間位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタと各音源の存在確率を計算する。

また、本発明の音源分離装置は、前記のモデル推定装置と信号分離部と時間領域変換部とを備える。信号分離部は、前記各音源の存在確率に基づき有効音源を抽出し、各確率モデルのモデルパラメタと各音源の存在確率に基づき計算した事後確率を用いて各有効音源に対応するマスクを作成し、当該マスクを用いて前記観測信号スペクトルを前記有効音源ごとに分離した分離信号を生成する。時間領域変換部は、各有効音源ごとの前記分離信号を、時間領域の信号に変換する。

本発明のモデル推定装置及びそれを用いた音源分離装置によれば、音源数が未知であっても動作し、かつ、周波数成分間のパーミュテーションの問題を生ずることなく良好に音源分離をすることができる。

本発明のモデル推定装置１００の構成例を示すブロック図。本発明のモデル推定装置１００の処理フロー例を示す図。信号の周波数成分が同期する様子を示す図。本発明の音源分離装置２００の構成例を示すブロック図。本発明の音源分離装置２００の処理フロー例を示す図。マスク生成部１４２により得られるマスクの例を示す図。図６において、ｍ＝４、５の場合の位相差パラメタ（平均値）の周波数特性とスペクトルパラメタの時間特性の例を示す図。本発明のモデル推定装置２００と従来の音源分離装置１０との性能比較を示す図。従来の音源分離装置１０の構成例を示すブロック図。

以下、本発明の実施の形態について、詳細に説明する。

図１に本発明のモデル推定装置１００の構成例を示すブロック図を、図２にその処理フロー例を示す。モデル推定装置１００は、ノイズとともに混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定装置であり、周波数領域変換部１１０と位相差計算部１２０とモデル推定部１３０とを備える。

周波数領域変換部１１０と位相差計算部１２０は従来の音源分離装置１０と同様のものである。すなわち、ある時刻ｔにおいてＭ個の音源から放音され混合された信号を、２個のマイク＃１、＃２で観測することにより得られた

を、周波数領域変換部１１０において短時間フーリエ変換により

に変換する（Ｓ１）。ｎはフーリエ変換を行うフレームのインデックスであり、ｆは周波数成分のインデックスである。位相差計算部１２０は、マイク＃１の観測信号スペクトルとマイク＃２の観測信号スペクトルの位相差（以下、「マイク間位相差」という。）Ａ_n,f＝arg[Ｘ_n,f,1／Ｘ_n,f,2]を計算する（Ｓ２）。

以後、マイク＃１の観測信号スペクトルをＸ_n,fと表記し、これを説明に用いる。

モデル推定部１３０は、マイク間位相差を位相差の分布を示す位相差確率モデルに、また、観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルにそれぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタ等を計算する（Ｓ３〜５）。

位相差の分布を示す位相差確率モデル及びスペクトルの分布を示すスペクトル確率モデルは以下のようにモデル化されたものである。

音源の位置が固定で、かつ全ての音源のマイクから見た方向が異なる場合、マイク間位相差Ａ_n,fはそれぞれの音源ｍごとに固有の値をとる。そのため、本発明では音源ｍに関するマイク間位相差Ａ_n,fの分布を平均μ_f,m、分散σ² _f,mの正規分布で以下のようにモデル化する。

これを、位相差確率モデルと呼ぶ。なお、位相差の分布は周波数ｆごとに定義する。なお、Ｎは正規分布

である。以上に基づき、位相差確率モデルのモデルパラメタを、
θ_Ａ＝{μ_f,m,σ² _f,m}
と表すことができる。

また、観測信号スペクトルＸ_n,fをモデル化するため、本発明では式(2)と同様に音源のスパース性を仮定する。加えて、記載の平易化のため、音源ｍからマイク１までの周波数応答|ｈ_f,1,m|＝１、arg(ｈ_f,1,m)＝０とする。これにより、式(2)は、

と表すことができる。このような仮定を元に、観測信号スペクトルＸ_n,fを平均値０、分散γ² _n,f,mの複素正規分布で以下のようにモデル化する。

これをスペクトル確率モデルと呼ぶ。ここで、Ｎ_ｃは複素正規分布

である。またＭは混合数であり、音源数が既知であればそれと同じ数を用い、音源数が未知であれば十分に大きな数（例えばＭ＝１０）を用いる。また、分散γ² _n,f,mは音源ｍのパワーの期待値Ｅ[|Ｓ_n,f,m|^２]を意味する量である。更に、γ_n,f,mを時間依存ではあるが周波数には依存しないスペクトル包絡ρ_n,mと時間・周波数の双方に依存するスペクトル形状ａ_n,f,mとを用いて、以下のようにモデル化する。

γ_n,f,m＝ａ_n,f,m・ρ_n,m (7)
ここで、スペクトル包絡ρ_n,mは信号の周波数成分のオンセット（信号のパワーが強い成分の開始時点）やオフセット（信号のパワーが強い成分の終了時点）が、全ての周波数で同期する性質をモデル化している。図３に同期のイメージを示す。色が濃いほどパワーが強いことを示し、この図から各周波数成分のパワーが強くなっている部分がほぼ同じ時期に同期していることがわかる。また、本発明ではスペクトル形状ａ_n,f,mを観測信号スペクトルの振幅|Ｘ_n,f|で代用する。すなわち、ａ_n,f,m＝|Ｘ_n,f|とする。以上に基づき、スペクトル確率モデルのモデルパラメタを
θ_Ｘ＝{ρ² _n,m}
と表すことができる。

以上より、観測データ（マイク間位相差Ａ_n,fと観測信号スペクトルＸ_n,f）のモデルｐ_n,f(Ｘ_n,f,Ａ_n,f；θ)は、

となる。ここで、α_ｍは音源ｍの存在確率ｐ(ｍ；θ）であり、Σ_ｍα_ｍ＝１である。α_ｍを以下、混合重みと呼ぶ。また、ｐ_n,f(Ｘ_n,f,Ａ_n,f|ｍ；θ)は、マイク間位相差Ａ_n,fと観測信号スペクトルＸ_n,fが互いに独立であると仮定し、

となる。ここで、ｗ_ａとｗ_ｘはそれぞれ、位相差の尤度に対する重みとスペクトルの尤度に対する重みである。

モデル推定部１３０では、以上のようにモデル化された位相差確率モデル及びスペクトル確率モデルを用い、マイク間位相差Ａ_n,fを位相差確率モデルに、また、観測信号スペクトルＸ_n,fをスペクトル確率モデルにそれぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、事後確率（説明は後述する。）と信号抽出に適したパラメタ集合θ＝{θ_Ａ,θ_Ｘ,α_ｍ}＝{μ_f,m,σ² _f,m,ρ² _n,m,α_ｍ}とを求める。

モデル推定部１３０は、事後確率計算部１３１とパラメタ更新部１３２とパラメタ保持部１３３とを備える。なお、モデル推定部１３０での処理に先立ち、パラメタ集合θ＝{μ_f,m,σ² _f,m,ρ² _n,m,α_ｍ}の初期値θ^０をパラメタ保持部１３３に用意しておき、また、パラメタ更新回数インデックスｔの初期値、混合数Ｍ、及びパラメタ更新回数の最大値Ｔ又は収束判定の閾値Δを設定しておく（Ｓ０）。なお、モデル推定部１３０での処理の前であればいつ行っても構わない。

事後確率計算部１３１は、観測信号スペクトルＸ_n,fとマイク間位相差Ａ_n,fと、パラメタ保持部に記憶された現在のパラメタ集合θ^ｔ＝{μ^t _f,m,(σ² _f,m)^t,(ρ² _n,m)^t,α^t _ｍ}とから、事後確率ｐｍ_n,f、すなわちマイク間位相差Ａ_n,fと観測信号スペクトルＸ_n,fとが各時間周波数(ｎ,ｆ)において各音源ｍからの信号によるものである確率を以下のように計算する（Ｓ３）。

ここで、ｗ_ａとｗ_ｘは例えばｗ_ａ＝１．０、ｗ_ｘ＝０．２などを用いる。

パラメタ更新部１３２は、スペクトルパラメタ更新手段１３２ａと位相差パラメタ更新手段１３２ｂと混合重み更新手段１３２ｃとを備え、現在のパラメタ集合θ^ｔをθ^t+1に更新する（Ｓ４）。

スペクトルパラメタ更新手段１３２ａは、事後確率ｐｍ_n,fを用いてスペクトル確率モデルのモデルパラメタ(ρ² _n,m)^tを、次の計算により更新する（Ｓ４−１）。

ここで、Ｎ_ｆは周波数成分の数である。

位相差パラメタ更新手段１３２ｂは、事後確率ｐｍ_n,fとマイク間位相差Ａ_n,fとを用いて位相差確率モデルのモデルパラメタθ_Ａ ^ｔ＝{μ^t _f,m,(σ² _f,m)^t}を、次の計算により更新する（Ｓ４−２）。

混合重み計算手段１３２ｃは、事後確率ｐｍ_n,fを用いて混合重みα^ｔ _ｍを次の計算により更新する（Ｓ４−３）。

ここで、Ｎ_ｎは時間フレームの数である。

パラメタ更新部１３２における各更新式(11)〜(14)の導出根拠を説明する。パラメタ更新はＥＭアルゴリズムを導出してそれに基づき行う。なお、正規分布のインデックスｍはＥＭアルゴリズムにおける隠れ変数として扱う。まず、最尤推定のためのコスト関数Ｌ(θ)は次のように与えられる。

ここで、ｐ(ｍ|θ)は混合重みα_ｍであり、ｐ_n,f(Ｘ_n,f,Ａ_n,f|ｍ;θ)は式(9)の通りである。
また、ｗ_ａとｗ_ｘはそれぞれ、位相差との尤度とスペクトルの尤度に対する重みである。そして、ＥＭアルゴリズムで用いる評価関数（Ｑ関数）は次のように与えられる。

このＱ関数はオンセットとオフセットが同期するスペクトル包絡が１つのクラスタにクラスタリングされているほど高い評価値を与える。すなわち、それぞれの信号について、各周波数成分の強弱がより同期しているほど信号抽出により適するという評価を与える。
更新後のパラメタ集合θ^ｔ+1＝{μ^ｔ+1 _f,m,(σ² _f,m)^ｔ+1,(ρ² _n,m)^ｔ+1,α^ｔ+1 _ｍ}は、このＱ関数を最大にするものとして推定される。すなわち、スペクトル確率モデルのモデルパラメタ(ρ² _n,m)^ｔ+1を求める式(11)は、

により導出され、位相差確率モデルのモデルパラメタμ^ｔ+1 _f,m、(σ² _f,m)^ｔ+1を求める式(12)、(13)はそれぞれ、

により導出され、混合重みα^ｔ+1 _ｍを求める式(14)は、

により導出される。

パラメタ保持部１３３は、パラメタ更新部１３２での更新処理により得られたパラメタ集合θ^ｔ+1を保存し、事後確率推定部１３１及びパラメタ更新部１３２での次回の処理の際にパラメタ集合θ^ｔとして提供する。

モデル推定部１３０における、事後確率計算部１３１、パラメタ更新部１３２（及びパラメタ保持部１３３への更新データの読み書き）は、事前に設定したパラメタ更新回数の最大値Ｔに達するか、又は各パラメタ値の更新による変動幅が収束判定の閾値Δより小さくなるまで反復して行う。そして、モデル推定部１３０は、反復終了後のパラメタ集合θ^ｅ＝{μ^e _f,m,(σ^e _f,m)²,(ρ^e _n,m)²,α^e _ｍ}及びその時点での事後確率ｐｍ^ｅ _n,fを出力する。

実施例１で説明したモデル推定装置１００に、図４に示すように信号分離部１４０と時間領域変換部１５０とを追加することで音源分離装置２００を構成することができる。また、処理フローを図５に示す。

信号分離部１４０は、有効音源推定部１４１とマスク作成部１４２と分離信号作成部１４３とを備え、観測信号スペクトルＸ_n,fから各音源の信号を分離する（Ｓ６）。

有効音源推定部１４１は、計算に用いた混合数Ｍ個の各インデックスｍのうち、実際に存在する音源（以下、「有効音源」という。）のインデックスを抽出する。具体的には、音源数が既知であり混合数Ｍ＝音源数である場合には、全てのインデックスｍを出力する。音源数が未知である場合には、更新後の混合重みα^e _ｍのうち、十分大きな値（例えばα^e _ｍ＞ε（εは１０^−６など））を満たすｍを有効音源と判定し、そのｍを全て出力する。

マスク作成部１４２は、有効音源として出力した音源のインデックスｍに対応するそれぞれの音源を抽出するマスクＭ_n,f,mを作成する。マスクＭ_n,f,mは
更新後の事後確率ｐｍ^ｅ _n,fを用いて、
Ｍ_n,f,m＝ｐｍ^ｅ _n,f (17)
により求めることができる。

分離信号作成部１４３は、マスクＭ_n,f,mを観測信号スペクトルＸ_n,fに乗算し、分離信号Ｙ_n,f,mを計算する。

Ｙ_n,f,m＝Ｘ_n,f・Ｍ_n,f,m (18)
最後に時間領域変換部１５０において、分離信号Ｙ_n,f,mを音源ｍごとに時間領域信号ｙ_m(t)に変換して出力する。

以上、実施例１、２で説明したモデル推定装置１００及び音源分離装置２００により、音源数が未知であっても有効音源を抽出することができ、周波数成分間のパーミュテーションの問題を生ずることなく良好に音源分離をすることができる。その理由を説明する。

・有効音源を抽出できる理由
スペクトルのモデルをあらわす式(6)は、少ない数のクラスタが大きい分散を持っている方が、その尤度が大きくなることを示している。すなわち、式(6)は観測信号をなるべく少数のクラスタで説明する効果を持つ。これにより、有効音源に相当するインデックスｍに対応する混合重みα_ｍのみが大きな値を持ち、その他のインデックスｍ´に対応する混合重み（α_ｍ´）は限りなく０に近くなるため、これにより有効音源を抽出することができる。

・パーミュテーションの問題が生じない理由
評価関数である式(16)の第一項の最大化は、各周波数における位相差クラスタリングによる分離と解釈でき、第二項の最大化は、オンセットやオフセットが同期するスペクトル包絡のクラスタリングと解釈できる。すなわち、式(16)は第二項の最大化により、周波数ごとのパーミュテーションの問題を本質的に生じさせないようにしながら、第一項で分離を行える構成となっている。

上記の各実施例では、スペクトル形状ａ_n,f,mを観測信号スペクトルの振幅|Ｘ_n,f|で代用したが、スペクトル形状を時間に依存しないパラメタａ_f,mとしてモデルパラメタθに含め、スペクトルパラメタ更新手段１３２ａで計算してもよい。この場合、スペクトルパラメタ更新手段１３２ａでは以下の式(19)〜(21)の計算を行う。

ここで、式(20)はａ_f,mとρ_n,mのスケーリングの不定性を解消するために、Σ_fａ_f,m＝１の制約を与えたものである。

上記の各実施例では、マイクが２個の場合、すなわちマイク間位相差としてマイク＃１とマイク＃２との位相差Ａ_n,f＝arg[Ｘ_n,f,1／Ｘ_n,f,2]を用いたが、２個以上のマイクを用いることもできる。すなわち、マイク＃ｊとマイクｊ´における観測信号の位相差Ａ_jj'n,f＝arg[Ｘ_n,f,j／Ｘ_n,f,j']を全てのマイクペアについて並べた縦ベクトルを考えて、マイク間位相差をモデル化することもできる。この場合、式(4)を複数マイクに拡張し、音源ｍに係るマイク間位相差の分布を、

でモデル化する。この時、位相差パラメタ更新手段１３２ｂでは、

を計算する。

＜発明の効果＞
本発明の効果を確認するため、従来法及び本発明の方法で音源分離の実験を行った。音源数・マイク数はともに２とした。また、サンプリング周波数は８ｋＨｚ、マイク間隔は４ｃｍ及び２０ｃｍである。発明法において、混合数Ｍ＝８とした。一方、従来法としてはｋ−ｍｅａｎｓ法を用いてマイク間位相差のクラスタリングを行った。ｋ−ｍｅａｎｓ法で与える音源数(=クラスタリング数)は、発明法の混合数と同じくｋ＝８とした。

図６は、混合数Ｍ＝８を仮定して本発明の方法を用いた時に得られるマスクＭ_n,f,m＝ｐｍ^ｅ _n,fをｍ＝１〜８のそれぞれ場合についてプロットしたものである。図６より、本発明の方法では２つの信号に対するマスクが大きなパワーを持つことがわかる。この結果と式(14)により有効音源の抽出が可能であることがわかる。

図７は、図６のｍ＝４とｍ＝５について、得られた位相差確率モデルのモデルパラメタのうちμ_f,m（図７(a)）の周波数特性と、スペクトル確率モデルのモデルパラメタρ_n,m（図７(b)）の時間特性を示したものである。図７(a)より、線形位相特性を持つパラメタμ_f,mが得られていることがわかる。また、図７(b)より、信号のスペクトル包絡がスペクトルパラメタρ_n,mにより得られていることがわかる。

図８は、２０通りの音声組み合わせについて音源分離性能（信号対妨害音比(Signal to interference ratio: SIR)と信号対歪比(Signal to distortion ratio: SDR))を評価し、その平均を求めたものである。図８において、ｋ−ｍｅａｎｓが従来法の、ｐｒｏｐｏｓｅｄが本発明の方法の性能を示す。本発明の方法では従来法より高い分離性能が得られることがわかる。

以上のモデル推定装置及び音源分離装置をコンピュータによって実現する場合、割当制御部が担う処理機能はプログラムによって記述される。そしてパソコンや携帯端末上で、入力手段や各種記憶手段とＣＰＵとのデータのやりとりを通じてこのプログラムを実行することにより、ハードウェアとソフトウェアが協働し、上記処理機能がコンピュータ上で実現されて本発明のモデル推定装置及び音源分離装置の作用効果を奏する。なおこの場合、処理機能の少なくとも一部をハードウェア的に実現することとしてもよい。また、上記の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

Claims

混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定装置であって、
各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換部と、
各マイクにおける観測信号スペクトル間の位相差（以下、「マイク間位相差」という。）を計算する位相差計算部と、
前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記マイク間位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各周波数成分の強弱が同期しているほど高い評価値を与える評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定部と、
を備え、
前記スペクトル確率モデルは、平均を０、分散を第１分散パラメタとする複素正規分布であり、
前記位相差確率モデルは、平均を第２平均パラメタ、分散を第２分散パラメタとする正規分布であり、
前記第１分散パラメタは、周波数成分の同期を表す周波数非依存のスペクトル包絡パラメタと、スペクトル形状を示す周波数依存のスペクトル形状パラメタとの積に対応したパラメタであり、
前記各確率モデルのモデルパラメタは、前記第１分散パラメタと前記第２平均パラメタと前記第２分散パラメタであるモデル推定装置。
混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定装置であって、
各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換部と、
各マイクにおける観測信号スペクトル間の位相差（以下、「マイク間位相差」という。）を計算する位相差計算部と、
前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記マイク間位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定部と、
を備え、
前記モデル推定部は、
前記観測信号スペクトルと前記マイク間位相差と、パラメタ保持部に記憶された、前記位相差確率モデルのモデルパラメタと前記スペクトル確率モデルのモデルパラメタと各音源の存在確率（以下、「混合重み」という。）とから、当該観測信号スペクトルと当該マイク間位相差とが各時間周波数において各音源からの信号によるものである確率（以下、「事後確率」という。）を計算する事後確率計算部と、
前記事後確率を用いて前記スペクトル確率モデルのモデルパラメタを更新するスペクトルパラメタ更新手段と、前記事後確率を用いて前記位相差確率モデルのモデルパラメタを更新する位相差パラメタ更新手段と、前記事後確率を用いて前記混合重みを更新する混合重み更新手段と、を備えるパラメタ更新部と、
前記パラメタ更新部で更新した、各モデルパラメタと混合重みを記憶するパラメタ保持部と、
を備える
ことを特徴とするモデル推定装置。
請求項２に記載のモデル推定装置と、
更新後の前記混合重みに基づき有効音源を抽出し、各有効音源に対応する更新後の前記事後確率を用いてマスクを作成し、当該マスクを用いて前記観測信号スペクトルを前記有効音源ごとに分離した分離信号を生成する信号分離部と、
各有効音源ごとの前記分離信号を、時間領域の信号に変換する時間領域変換部と、
を備える音源分離装置。
混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定方法であって、
各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換ステップと、
各マイクにおける観測信号スペクトル間の位相差を計算する位相差計算ステップと、
前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記観測信号スペクトル間の位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各周波数成分の強弱が同期しているほど高い評価値を与える評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定ステップと、
を備え、
前記スペクトル確率モデルは、平均を０、分散を第１分散パラメタとする複素正規分布であり、
前記位相差確率モデルは、平均を第２平均パラメタ、分散を第２分散パラメタとする正規分布であり、
前記第１分散パラメタは、周波数成分の同期を表す周波数非依存のスペクトル包絡パラメタと、スペクトル形状を示す周波数依存のスペクトル形状パラメタとの積に対応したパラメタであり、
前記各確率モデルのモデルパラメタは、前記第１分散パラメタと前記第２平均パラメタと前記第２分散パラメタであるモデル推定方法。
混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定方法であって、
各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換ステップと、
各マイクにおける観測信号スペクトル間の位相差を計算する位相差計算ステップと、
前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記観測信号スペクトル間の位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定ステップと、
を備え、
前記モデル推定ステップは、
前記観測信号スペクトルと前記観測信号スペクトル間の位相差と、パラメタ保持部に記憶された、前記位相差確率モデルのモデルパラメタと前記スペクトル確率モデルのモデルパラメタと各音源の存在確率（以下、「混合重み」という。）とから、当該観測信号スペクトルと当該観測信号スペクトル間の位相差とが各時間周波数において各音源からの信号によるものである確率（以下、「事後確率」という。）を計算する事後確率計算ステップと、
前記事後確率を用いて前記スペクトル確率モデルのモデルパラメタを更新するスペクトルパラメタ更新サブステップと、前記事後確率を用いて前記位相差確率モデルのモデルパラメタを更新する位相差パラメタ更新サブステップと、前記事後確率を用いて前記混合重みを更新する混合重み更新サブステップと、を実行するパラメタ更新ステップと、
前記パラメタ更新ステップで更新した、各モデルパラメタと混合重みをパラメタ保持部に記憶するパラメタ保持ステップと、
を、所定の回数又は前記各モデルパラメタと前記混合重みの値が収束するまで繰り返し実行する
ことを特徴とするモデル推定方法。
請求項５に記載のモデル推定方法と、
更新後の前記混合重みに基づき有効音源を抽出し、各有効音源に対応する更新後の前記事後確率を用いてマスクを作成し、当該マスクを用いて前記観測信号スペクトルを前記有効音源ごとに分離した分離信号を生成する信号分離ステップと、
各有効音源ごとの前記分離信号を、時間領域の信号に変換する時間領域変換ステップと、
を実行する音源分離方法。
請求項４乃至６のいずれかに記載の方法をコンピュータに実行させるためのプログラム。