JP5337072B2 - モデル推定装置、音源分離装置、それらの方法及びプログラム - Google Patents

モデル推定装置、音源分離装置、それらの方法及びプログラム Download PDF

Info

Publication number
JP5337072B2
JP5337072B2 JP2010028985A JP2010028985A JP5337072B2 JP 5337072 B2 JP5337072 B2 JP 5337072B2 JP 2010028985 A JP2010028985 A JP 2010028985A JP 2010028985 A JP2010028985 A JP 2010028985A JP 5337072 B2 JP5337072 B2 JP 5337072B2
Authority
JP
Japan
Prior art keywords
model
parameter
phase difference
probability
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010028985A
Other languages
English (en)
Other versions
JP2011164467A (ja
Inventor
章子 荒木
智広 中谷
宏 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010028985A priority Critical patent/JP5337072B2/ja
Publication of JP2011164467A publication Critical patent/JP2011164467A/ja
Application granted granted Critical
Publication of JP5337072B2 publication Critical patent/JP5337072B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、複数信号が混在している音響データからそれぞれの原信号を推定する音源分離技術に属し、特にそれぞれの原信号やそれらがどのように混ざったかの情報を用いずに、複数信号が混在している音響データのみからそれぞれの原信号を推定するブラインド音源分離技術に属するモデル推定装置、音源分離装置、それらの方法及びプログラムに関する。
従来のブラインド音源分離技術(例えば非特許文献1)に基づいて構成された音源分離装置10を図9に示す。ある時刻tにおいてM個の音源から放音されノイズとともに混合された信号を2個のマイク#1、#2で観測し、
を得たとする。
まず、周波数領域変換部110において、上記時間領域の観測信号を短時間フーリエ変換により
に変換する。nはフーリエ変換を行う時間フレームのインデックスであり、fは周波数成分のインデックスである。以後、断りのない場合、観測信号とは周波数領域の信号を指すとし、時間領域の観測信号の場合はそれを明記する。
ここで観測信号スペクトルは、
で表されると仮定する。ここで、hf,L,mは音源m(m=1、2、・・・、M)からマイクL(L=1、2)までの周波数応答、Sn,f,mは音源mの信号の周波数領域表現、n(=0,・・・,N−1)は時刻、
は周波数、fはサンプリング周波数、Fはサンプリング点数、を表す。
音源分離を行うために、音源がスパースである、すなわち音源信号sn,f,mはまれにしか大きな値をとらず各時間周波数 (n,f)では高々1個の音源Sn,f,mのみが大きな値をとることを仮定する。これは、互いに異なる音声信号などで確認される性質である。これを仮定すると式(1)は、
と書ける。ここで、Sn,f,mは時間周波数 (n,f)にて支配的な音源信号である。
次に、位相差計算部120において、マイク#1とマイク#2における観測信号スペクトル間の位相差(マイク間位相差と呼ぶ)An,f=arg[Xn,f,1/Xn,f,2]を計算する。このマイク間位相差An,fは、信号の音源とマイクとの位置関係によって定まり、音源の位置が互いに異なっていれば、An,fは各音源固有の値をとる。
次に、位相差分類部31において、マイク間位相差An,fを周波数ごとにクラスタリングする。スパース性を仮定した式(2)より、音源mが支配的な時間周波数(n,f)では音源mに対応する位相差μn,f,mが、音源m´が支配的な時間周波数(n,f)では音源m´に対応する位相差μn,f,m´が求まっているため、位相差An,fをクラスタリングすると、各音源成分に対応するクラスタが形成される。ここで従来法では、クラスタリングでいくつのクラスタを作るかを指定するため、音源数保持部32から音源数Mを読み込み、位相差分類部31ではk-means法などを用いてクラスタリングを行う。クラスタリングは周波数ごとに行われるため、クラスタのインデックスと、そのクラスタに対応する音源のインデックスとの対応関係は、周波数ごとにばらばらである。例えば、ある周波数fでは1番目のクラスタが音源1に、2番目のクラスタが音源2に対応するが、別の周波数f´では1番目のクラスタが音源2に、2番目のクラスタに音源1に対応する、というように、クラスタと音源との対応関係がばらばらになってしまうことが一般的である。これをパーミュテーションの問題という。そこで、このパーミュテーションの問題を解決するために、パーミュテーション解決部33を設け、ここで全ての周波数についてクラスタインデックスと音源のインデックスとを揃え、クラスタと音源とが完全に一対一に対応するように整える。これは例えば次のように行われる。まず、各周波数において得られた各クラスタについて、そのクラスタ内の位相差An,fの平均値Afを求める。次に、平均値Afを周波数fで正規化したAf/2πfをクラスタリングし、同じ音源に対応する周波数成分をまとめる。これにより全ての周波数でクラスタインデックスと音源のインデックスを揃えることができる。最終的には、m番目のクラスタCには音源mに対応するAn,fの成分のみが含まれる。
次に音源分離部40において、Cを参照し音源mに対応するクラスタを形成している時間周波数(n,f)では1を、それ以外の時間周波数(n,f)では0をとるマスクMn,f,mを作る。これを全ての音源mについて作る。更に、マスクMn,f,mを観測信号の1つ(ここではXn,f,1)に乗算し、分離信号Yn,f,mを得る。
n,f,m=Xn,f,1・Mn,f,m (3)
最後に、時間領域変換部150において、得られた分離信号Yn,f,mを時間領域信号に変換する。
H.Sawada, S.Araki and S.Makino, "A two-stage frequency-domain blind source separation method for underdetermined convolutive mixtures", Proc. WASPAA2007, 2007, p.139-142
上記のように従来の手法では、周波数間のパーミュテーションの問題が生じるため、それを解決することが不可欠である。しかし解決に際しては、パーミュテーション解決部33でよく用いられるAf/2πfのクラスタリングが、部屋の残響が多い場合やマイク間隔が広い場合にうまく動作しないという問題がある。すなわち、部屋の残響が多い場合にはマイク間位相差が周波数依存性を持つためにAf/2πfの値が各周波数で一定の値をとらず、Af/2πfのクラスタリングが困難になる。また、マイク間隔が広い場合には、An,f=arg[xn,f,1/xn,f,2]の計算において実際のマイク間位相差は±2πを超えるにもかかわらず、argの計算でAn,fの値が−2π≦An,f≦2πの範囲に押さえこまれるため、Af/2πfの値が各周波数で一定の値を取らず、Af/2πfのクラスタリングが困難になる。また、従来の手法では分離すべき音源数Mがわかっている必要があるため、音源数Mが未知の場合は適用が困難であった。
本発明の目的は、音源数が未知であっても動作し、周波数成分間のパーミュテーションの問題を生ずることなく良好に音源分離が可能なモデル推定装置及びそれを用いた音源分離装置を提供することにある。
本発明のモデル推定装置は、混合された複数の音源からの信号を複数個のマイクで観測し、混合された各音源の信号を抽出するモデル推定装置であり、周波数領域変換部と位相差計算部とモデル推定部とを備える。周波数領域変換部は、各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する。位相差計算部は、各マイクにおける観測信号スペクトル間の位相差(マイク間位相差)を計算する。モデル推定部は、前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記マイク間位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタと各音源の存在確率を計算する。
また、本発明の音源分離装置は、前記のモデル推定装置と信号分離部と時間領域変換部とを備える。信号分離部は、前記各音源の存在確率に基づき有効音源を抽出し、各確率モデルのモデルパラメタと各音源の存在確率に基づき計算した事後確率を用いて各有効音源に対応するマスクを作成し、当該マスクを用いて前記観測信号スペクトルを前記有効音源ごとに分離した分離信号を生成する。時間領域変換部は、各有効音源ごとの前記分離信号を、時間領域の信号に変換する。
本発明のモデル推定装置及びそれを用いた音源分離装置によれば、音源数が未知であっても動作し、かつ、周波数成分間のパーミュテーションの問題を生ずることなく良好に音源分離をすることができる。
本発明のモデル推定装置100の構成例を示すブロック図。 本発明のモデル推定装置100の処理フロー例を示す図。 信号の周波数成分が同期する様子を示す図。 本発明の音源分離装置200の構成例を示すブロック図。 本発明の音源分離装置200の処理フロー例を示す図。 マスク生成部142により得られるマスクの例を示す図。 図6において、m=4、5の場合の位相差パラメタ(平均値)の周波数特性とスペクトルパラメタの時間特性の例を示す図。 本発明のモデル推定装置200と従来の音源分離装置10との性能比較を示す図。 従来の音源分離装置10の構成例を示すブロック図。
以下、本発明の実施の形態について、詳細に説明する。
図1に本発明のモデル推定装置100の構成例を示すブロック図を、図2にその処理フロー例を示す。モデル推定装置100は、ノイズとともに混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定装置であり、周波数領域変換部110と位相差計算部120とモデル推定部130とを備える。
周波数領域変換部110と位相差計算部120は従来の音源分離装置10と同様のものである。すなわち、ある時刻tにおいてM個の音源から放音され混合された信号を、2個のマイク#1、#2で観測することにより得られた
を、周波数領域変換部110において短時間フーリエ変換により
に変換する(S1)。nはフーリエ変換を行うフレームのインデックスであり、fは周波数成分のインデックスである。位相差計算部120は、マイク#1の観測信号スペクトルとマイク#2の観測信号スペクトルの位相差(以下、「マイク間位相差」という。)An,f=arg[Xn,f,1/Xn,f,2]を計算する(S2)。
以後、マイク#1の観測信号スペクトルをXn,fと表記し、これを説明に用いる。
モデル推定部130は、マイク間位相差を位相差の分布を示す位相差確率モデルに、また、観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルにそれぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタ等を計算する(S3〜5)。
位相差の分布を示す位相差確率モデル及びスペクトルの分布を示すスペクトル確率モデルは以下のようにモデル化されたものである。
音源の位置が固定で、かつ全ての音源のマイクから見た方向が異なる場合、マイク間位相差An,fはそれぞれの音源mごとに固有の値をとる。そのため、本発明では音源mに関するマイク間位相差An,fの分布を平均μf,m、分散σ2 f,mの正規分布で以下のようにモデル化する。
これを、位相差確率モデルと呼ぶ。なお、位相差の分布は周波数fごとに定義する。なお、Nは正規分布
である。以上に基づき、位相差確率モデルのモデルパラメタを、
θ={μf,m2 f,m}
と表すことができる。
また、観測信号スペクトルXn,fをモデル化するため、本発明では式(2)と同様に音源のスパース性を仮定する。加えて、記載の平易化のため、音源mからマイク1までの周波数応答|hf,1,m|=1、arg(hf,1,m)=0とする。これにより、式(2)は、
と表すことができる。このような仮定を元に、観測信号スペクトルXn,fを平均値0、分散γ2 n,f,mの複素正規分布で以下のようにモデル化する。
これをスペクトル確率モデルと呼ぶ。ここで、Nは複素正規分布
である。またMは混合数であり、音源数が既知であればそれと同じ数を用い、音源数が未知であれば十分に大きな数(例えばM=10)を用いる。また、分散γ2 n,f,mは音源mのパワーの期待値E[|Sn,f,m|]を意味する量である。更に、γn,f,mを時間依存ではあるが周波数には依存しないスペクトル包絡ρn,mと時間・周波数の双方に依存するスペクトル形状an,f,mとを用いて、以下のようにモデル化する。
γn,f,m=an,f,m・ρn,m (7)
ここで、スペクトル包絡ρn,mは信号の周波数成分のオンセット(信号のパワーが強い成分の開始時点)やオフセット(信号のパワーが強い成分の終了時点)が、全ての周波数で同期する性質をモデル化している。図3に同期のイメージを示す。色が濃いほどパワーが強いことを示し、この図から各周波数成分のパワーが強くなっている部分がほぼ同じ時期に同期していることがわかる。また、本発明ではスペクトル形状an,f,mを観測信号スペクトルの振幅|Xn,f|で代用する。すなわち、an,f,m=|Xn,f|とする。以上に基づき、スペクトル確率モデルのモデルパラメタを
θ={ρ2 n,m}
と表すことができる。
以上より、観測データ(マイク間位相差An,fと観測信号スペクトルXn,f)のモデルpn,f(Xn,f,An,f;θ)は、
となる。ここで、αは音源mの存在確率p(m;θ)であり、Σα=1である。αを以下、混合重みと呼ぶ。また、pn,f(Xn,f,An,f|m;θ)は、マイク間位相差An,fと観測信号スペクトルXn,fが互いに独立であると仮定し、
となる。ここで、wとwはそれぞれ、位相差の尤度に対する重みとスペクトルの尤度に対する重みである。
モデル推定部130では、以上のようにモデル化された位相差確率モデル及びスペクトル確率モデルを用い、マイク間位相差An,fを位相差確率モデルに、また、観測信号スペクトルXn,fをスペクトル確率モデルにそれぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、事後確率(説明は後述する。)と信号抽出に適したパラメタ集合θ={θ}={μf,m2 f,m2 n,m}とを求める。
モデル推定部130は、事後確率計算部131とパラメタ更新部132とパラメタ保持部133とを備える。なお、モデル推定部130での処理に先立ち、パラメタ集合θ={μf,m2 f,m2 n,m}の初期値θをパラメタ保持部133に用意しておき、また、パラメタ更新回数インデックスtの初期値、混合数M、及びパラメタ更新回数の最大値T又は収束判定の閾値Δを設定しておく(S0)。なお、モデル推定部130での処理の前であればいつ行っても構わない。
事後確率計算部131は、観測信号スペクトルXn,fとマイク間位相差An,fと、パラメタ保持部に記憶された現在のパラメタ集合θ={μt f,m,(σ2 f,m)t,(ρ2 n,m)tt }とから、事後確率pmn,f、すなわちマイク間位相差An,fと観測信号スペクトルXn,fとが各時間周波数(n,f)において各音源mからの信号によるものである確率を以下のように計算する(S3)。
ここで、wとwは例えばw=1.0、w=0.2などを用いる。
パラメタ更新部132は、スペクトルパラメタ更新手段132aと位相差パラメタ更新手段132bと混合重み更新手段132cとを備え、現在のパラメタ集合θをθt+1に更新する(S4)。
スペクトルパラメタ更新手段132aは、事後確率pmn,fを用いてスペクトル確率モデルのモデルパラメタ(ρ2 n,m)tを、次の計算により更新する(S4−1)。
ここで、Nは周波数成分の数である。
位相差パラメタ更新手段132bは、事後確率pmn,fとマイク間位相差An,fとを用いて位相差確率モデルのモデルパラメタθ ={μt f,m,(σ2 f,m)t}を、次の計算により更新する(S4−2)。
混合重み計算手段132cは、事後確率pmn,fを用いて混合重みα を次の計算により更新する(S4−3)。
ここで、Nは時間フレームの数である。
パラメタ更新部132における各更新式(11)〜(14)の導出根拠を説明する。パラメタ更新はEMアルゴリズムを導出してそれに基づき行う。なお、正規分布のインデックスmはEMアルゴリズムにおける隠れ変数として扱う。まず、最尤推定のためのコスト関数L(θ)は次のように与えられる。
ここで、p(m|θ)は混合重みαであり、pn,f(Xn,f,An,f|m;θ)は式(9)の通りである。
また、wとwはそれぞれ、位相差との尤度とスペクトルの尤度に対する重みである。そして、EMアルゴリズムで用いる評価関数(Q関数)は次のように与えられる。
このQ関数はオンセットとオフセットが同期するスペクトル包絡が1つのクラスタにクラスタリングされているほど高い評価値を与える。すなわち、それぞれの信号について、各周波数成分の強弱がより同期しているほど信号抽出により適するという評価を与える。
更新後のパラメタ集合θt+1={μt+1 f,m,(σ2 f,m)t+1,(ρ2 n,m)t+1t+1 }は、このQ関数を最大にするものとして推定される。すなわち、スペクトル確率モデルのモデルパラメタ(ρ2 n,m)t+1を求める式(11)は、
により導出され、位相差確率モデルのモデルパラメタμt+1 f,m、(σ2 f,m)t+1を求める式(12)、(13)はそれぞれ、
により導出され、混合重みαt+1 を求める式(14)は、
により導出される。
パラメタ保持部133は、パラメタ更新部132での更新処理により得られたパラメタ集合θt+1を保存し、事後確率推定部131及びパラメタ更新部132での次回の処理の際にパラメタ集合θとして提供する。
モデル推定部130における、事後確率計算部131、パラメタ更新部132(及びパラメタ保持部133への更新データの読み書き)は、事前に設定したパラメタ更新回数の最大値Tに達するか、又は各パラメタ値の更新による変動幅が収束判定の閾値Δより小さくなるまで反復して行う。そして、モデル推定部130は、反復終了後のパラメタ集合θ={μe f,m,(σe f,m)2,(ρe n,m)2e }及びその時点での事後確率pm n,fを出力する。
実施例1で説明したモデル推定装置100に、図4に示すように信号分離部140と時間領域変換部150とを追加することで音源分離装置200を構成することができる。また、処理フローを図5に示す。
信号分離部140は、有効音源推定部141とマスク作成部142と分離信号作成部143とを備え、観測信号スペクトルXn,fから各音源の信号を分離する(S6)。
有効音源推定部141は、計算に用いた混合数M個の各インデックスmのうち、実際に存在する音源(以下、「有効音源」という。)のインデックスを抽出する。具体的には、音源数が既知であり混合数M=音源数である場合には、全てのインデックスmを出力する。音源数が未知である場合には、更新後の混合重みαe のうち、十分大きな値(例えばαe >ε(εは10−6など))を満たすmを有効音源と判定し、そのmを全て出力する。
マスク作成部142は、有効音源として出力した音源のインデックスmに対応するそれぞれの音源を抽出するマスクMn,f,mを作成する。マスクMn,f,m
更新後の事後確率pm n,fを用いて、
n,f,m=pm n,f (17)
により求めることができる。
分離信号作成部143は、マスクMn,f,mを観測信号スペクトルXn,fに乗算し、分離信号Yn,f,mを計算する。
n,f,m=Xn,f・Mn,f,m (18)
最後に時間領域変換部150において、分離信号Yn,f,mを音源mごとに時間領域信号ym(t)に変換して出力する。
以上、実施例1、2で説明したモデル推定装置100及び音源分離装置200により、音源数が未知であっても有効音源を抽出することができ、周波数成分間のパーミュテーションの問題を生ずることなく良好に音源分離をすることができる。その理由を説明する。
・有効音源を抽出できる理由
スペクトルのモデルをあらわす式(6)は、少ない数のクラスタが大きい分散を持っている方が、その尤度が大きくなることを示している。すなわち、式(6)は観測信号をなるべく少数のクラスタで説明する効果を持つ。これにより、有効音源に相当するインデックスmに対応する混合重みαのみが大きな値を持ち、その他のインデックスm´に対応する混合重み(α´)は限りなく0に近くなるため、これにより有効音源を抽出することができる。
・パーミュテーションの問題が生じない理由
評価関数である式(16)の第一項の最大化は、各周波数における位相差クラスタリングによる分離と解釈でき、第二項の最大化は、オンセットやオフセットが同期するスペクトル包絡のクラスタリングと解釈できる。すなわち、式(16)は第二項の最大化により、周波数ごとのパーミュテーションの問題を本質的に生じさせないようにしながら、第一項で分離を行える構成となっている。
上記の各実施例では、スペクトル形状an,f,mを観測信号スペクトルの振幅|Xn,f|で代用したが、スペクトル形状を時間に依存しないパラメタaf,mとしてモデルパラメタθに含め、スペクトルパラメタ更新手段132aで計算してもよい。この場合、スペクトルパラメタ更新手段132aでは以下の式(19)〜(21)の計算を行う。
ここで、式(20)はaf,mとρn,mのスケーリングの不定性を解消するために、Σff,m=1の制約を与えたものである。
上記の各実施例では、マイクが2個の場合、すなわちマイク間位相差としてマイク#1とマイク#2との位相差An,f=arg[Xn,f,1/Xn,f,2]を用いたが、2個以上のマイクを用いることもできる。すなわち、マイク#jとマイクj´における観測信号の位相差Ajj'n,f=arg[Xn,f,j/Xn,f,j']を全てのマイクペアについて並べた縦ベクトルを考えて、マイク間位相差をモデル化することもできる。この場合、式(4)を複数マイクに拡張し、音源mに係るマイク間位相差の分布を、
でモデル化する。この時、位相差パラメタ更新手段132bでは、
を計算する。
<発明の効果>
本発明の効果を確認するため、従来法及び本発明の方法で音源分離の実験を行った。音源数・マイク数はともに2とした。また、サンプリング周波数は8kHz、マイク間隔は4cm及び20cmである。発明法において、混合数M=8とした。一方、従来法としてはk−means法を用いてマイク間位相差のクラスタリングを行った。k−means法で与える音源数(=クラスタリング数)は、発明法の混合数と同じくk=8とした。
図6は、混合数M=8を仮定して本発明の方法を用いた時に得られるマスクMn,f,m=pm n,fをm=1〜8のそれぞれ場合についてプロットしたものである。図6より、本発明の方法では2つの信号に対するマスクが大きなパワーを持つことがわかる。この結果と式(14)により有効音源の抽出が可能であることがわかる。
図7は、図6のm=4とm=5について、得られた位相差確率モデルのモデルパラメタのうちμf,m(図7(a))の周波数特性と、スペクトル確率モデルのモデルパラメタρn,m(図7(b))の時間特性を示したものである。図7(a)より、線形位相特性を持つパラメタμf,mが得られていることがわかる。また、図7(b)より、信号のスペクトル包絡がスペクトルパラメタρn,mにより得られていることがわかる。
図8は、20通りの音声組み合わせについて音源分離性能(信号対妨害音比(Signal to interference ratio: SIR)と信号対歪比(Signal to distortion ratio: SDR))を評価し、その平均を求めたものである。図8において、k−meansが従来法の、proposedが本発明の方法の性能を示す。本発明の方法では従来法より高い分離性能が得られることがわかる。
以上のモデル推定装置及び音源分離装置をコンピュータによって実現する場合、割当制御部が担う処理機能はプログラムによって記述される。そしてパソコンや携帯端末上で、入力手段や各種記憶手段とCPUとのデータのやりとりを通じてこのプログラムを実行することにより、ハードウェアとソフトウェアが協働し、上記処理機能がコンピュータ上で実現されて本発明のモデル推定装置及び音源分離装置の作用効果を奏する。なおこの場合、処理機能の少なくとも一部をハードウェア的に実現することとしてもよい。また、上記の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

Claims (7)

  1. 混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定装置であって、
    各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換部と、
    各マイクにおける観測信号スペクトル間の位相差(以下、「マイク間位相差」という。)を計算する位相差計算部と、
    前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記マイク間位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各周波数成分の強弱が同期しているほど高い評価値を与える評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定部と、
    を備え
    前記スペクトル確率モデルは、平均を0、分散を第1分散パラメタとする複素正規分布であり、
    前記位相差確率モデルは、平均を第2平均パラメタ、分散を第2分散パラメタとする正規分布であり、
    前記第1分散パラメタは、周波数成分の同期を表す周波数非依存のスペクトル包絡パラメタと、スペクトル形状を示す周波数依存のスペクトル形状パラメタとの積に対応したパラメタであり、
    前記各確率モデルのモデルパラメタは、前記第1分散パラメタと前記第2平均パラメタと前記第2分散パラメタであるモデル推定装置。
  2. 混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定装置であって、
    各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換部と、
    各マイクにおける観測信号スペクトル間の位相差(以下、「マイク間位相差」という。)を計算する位相差計算部と、
    前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記マイク間位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定部と、
    を備え
    前記モデル推定部は、
    前記観測信号スペクトルと前記マイク間位相差と、パラメタ保持部に記憶された、前記位相差確率モデルのモデルパラメタと前記スペクトル確率モデルのモデルパラメタと各音源の存在確率(以下、「混合重み」という。)とから、当該観測信号スペクトルと当該マイク間位相差とが各時間周波数において各音源からの信号によるものである確率(以下、「事後確率」という。)を計算する事後確率計算部と、
    前記事後確率を用いて前記スペクトル確率モデルのモデルパラメタを更新するスペクトルパラメタ更新手段と、前記事後確率を用いて前記位相差確率モデルのモデルパラメタを更新する位相差パラメタ更新手段と、前記事後確率を用いて前記混合重みを更新する混合重み更新手段と、を備えるパラメタ更新部と、
    前記パラメタ更新部で更新した、各モデルパラメタと混合重みを記憶するパラメタ保持部と、
    を備える
    ことを特徴とするモデル推定装置。
  3. 請求項に記載のモデル推定装置と、
    更新後の前記混合重みに基づき有効音源を抽出し、各有効音源に対応する更新後の前記事後確率を用いてマスクを作成し、当該マスクを用いて前記観測信号スペクトルを前記有効音源ごとに分離した分離信号を生成する信号分離部と、
    各有効音源ごとの前記分離信号を、時間領域の信号に変換する時間領域変換部と、
    を備える音源分離装置。
  4. 混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定方法であって、
    各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換ステップと、
    各マイクにおける観測信号スペクトル間の位相差を計算する位相差計算ステップと、
    前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記観測信号スペクトル間の位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各周波数成分の強弱が同期しているほど高い評価値を与える評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定ステップと、
    を備え
    前記スペクトル確率モデルは、平均を0、分散を第1分散パラメタとする複素正規分布であり、
    前記位相差確率モデルは、平均を第2平均パラメタ、分散を第2分散パラメタとする正規分布であり、
    前記第1分散パラメタは、周波数成分の同期を表す周波数非依存のスペクトル包絡パラメタと、スペクトル形状を示す周波数依存のスペクトル形状パラメタとの積に対応したパラメタであり、
    前記各確率モデルのモデルパラメタは、前記第1分散パラメタと前記第2平均パラメタと前記第2分散パラメタであるモデル推定方法。
  5. 混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定方法であって、
    各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換ステップと、
    各マイクにおける観測信号スペクトル間の位相差を計算する位相差計算ステップと、
    前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記観測信号スペクトル間の位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定ステップと、
    を備え
    前記モデル推定ステップは、
    前記観測信号スペクトルと前記観測信号スペクトル間の位相差と、パラメタ保持部に記憶された、前記位相差確率モデルのモデルパラメタと前記スペクトル確率モデルのモデルパラメタと各音源の存在確率(以下、「混合重み」という。)とから、当該観測信号スペクトルと当該観測信号スペクトル間の位相差とが各時間周波数において各音源からの信号によるものである確率(以下、「事後確率」という。)を計算する事後確率計算ステップと、
    前記事後確率を用いて前記スペクトル確率モデルのモデルパラメタを更新するスペクトルパラメタ更新サブステップと、前記事後確率を用いて前記位相差確率モデルのモデルパラメタを更新する位相差パラメタ更新サブステップと、前記事後確率を用いて前記混合重みを更新する混合重み更新サブステップと、を実行するパラメタ更新ステップと、
    前記パラメタ更新ステップで更新した、各モデルパラメタと混合重みをパラメタ保持部に記憶するパラメタ保持ステップと、
    を、所定の回数又は前記各モデルパラメタと前記混合重みの値が収束するまで繰り返し実行する
    ことを特徴とするモデル推定方法。
  6. 請求項に記載のモデル推定方法と、
    更新後の前記混合重みに基づき有効音源を抽出し、各有効音源に対応する更新後の前記事後確率を用いてマスクを作成し、当該マスクを用いて前記観測信号スペクトルを前記有効音源ごとに分離した分離信号を生成する信号分離ステップと、
    各有効音源ごとの前記分離信号を、時間領域の信号に変換する時間領域変換ステップと、
    を実行する音源分離方法。
  7. 請求項乃至のいずれかに記載の方法をコンピュータに実行させるためのプログラム。
JP2010028985A 2010-02-12 2010-02-12 モデル推定装置、音源分離装置、それらの方法及びプログラム Expired - Fee Related JP5337072B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010028985A JP5337072B2 (ja) 2010-02-12 2010-02-12 モデル推定装置、音源分離装置、それらの方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010028985A JP5337072B2 (ja) 2010-02-12 2010-02-12 モデル推定装置、音源分離装置、それらの方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011164467A JP2011164467A (ja) 2011-08-25
JP5337072B2 true JP5337072B2 (ja) 2013-11-06

Family

ID=44595195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010028985A Expired - Fee Related JP5337072B2 (ja) 2010-02-12 2010-02-12 モデル推定装置、音源分離装置、それらの方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5337072B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597306A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5911101B2 (ja) * 2012-08-30 2016-04-27 日本電信電話株式会社 音響信号解析装置、方法、及びプログラム
US20150312663A1 (en) * 2012-09-19 2015-10-29 Analog Devices, Inc. Source separation using a circular model
JP6059072B2 (ja) * 2013-04-24 2017-01-11 日本電信電話株式会社 モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム
JP6156012B2 (ja) * 2013-09-20 2017-07-05 富士通株式会社 音声処理装置及び音声処理用コンピュータプログラム
JP6289936B2 (ja) * 2014-02-26 2018-03-07 株式会社東芝 音源方向推定装置、音源方向推定方法およびプログラム
JP6260504B2 (ja) * 2014-02-27 2018-01-17 株式会社Jvcケンウッド オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
JP6193823B2 (ja) * 2014-08-19 2017-09-06 日本電信電話株式会社 音源数推定装置、音源数推定方法および音源数推定プログラム
JP6606784B2 (ja) * 2015-09-29 2019-11-20 本田技研工業株式会社 音声処理装置および音声処理方法
EP3557576B1 (en) * 2016-12-16 2022-12-07 Nippon Telegraph and Telephone Corporation Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program
JP6915579B2 (ja) * 2018-04-06 2021-08-04 日本電信電話株式会社 信号分析装置、信号分析方法および信号分析プログラム
CN113689875B (zh) * 2021-08-25 2024-02-06 湖南芯海聆半导体有限公司 一种面向数字助听器的双麦克风语音增强方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145610A (ja) * 2006-12-07 2008-06-26 Univ Of Tokyo 音源分離定位方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597306A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN111597306B (zh) * 2020-05-18 2021-12-07 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备

Also Published As

Publication number Publication date
JP2011164467A (ja) 2011-08-25

Similar Documents

Publication Publication Date Title
JP5337072B2 (ja) モデル推定装置、音源分離装置、それらの方法及びプログラム
CN109584903B (zh) 一种基于深度学习的多人语音分离方法
Sawada et al. Measuring dependence of bin-wise separated signals for permutation alignment in frequency-domain BSS
CN111133511B (zh) 声源分离系统
Wang et al. A region-growing permutation alignment approach in frequency-domain blind source separation of speech mixtures
CN103559888A (zh) 基于非负低秩和稀疏矩阵分解原理的语音增强方法
JP2011215317A (ja) 信号処理装置、および信号処理方法、並びにプログラム
CN106373589A (zh) 一种基于迭代结构的双耳混合语音分离方法
WO2013089536A1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법 및 음성인식장치
US20220059114A1 (en) Method and apparatus for determining a deep filter
KR100636368B1 (ko) 상대 최적화를 이용한 다중경로 혼합신호 분리 방법 및 그장치
Min et al. Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement
JP5406866B2 (ja) 音源分離装置、その方法及びプログラム
CN108597531B (zh) 一种通过多声源活动检测来改进双通道盲信号分离的方法
Araki et al. Simultaneous clustering of mixing and spectral model parameters for blind sparse source separation
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム
JP5726709B2 (ja) 音源分離装置、音源分離方法及びプログラム
Araki et al. Hybrid approach for multichannel source separation combining time-frequency mask with multi-channel Wiener filter
JP5826502B2 (ja) 音響処理装置
Jafari et al. Underdetermined blind source separation with fuzzy clustering for arbitrarily arranged sensors
Paul et al. Effective Pitch Estimation using Canonical Correlation Analysis
Muhsina et al. Signal enhancement of source separation techniques
Xie et al. A fast and efficient frequency-domain method for convolutive blind source separation
Liang et al. The analysis of the simplification from the ideal ratio to binary mask in signal-to-noise ratio sense

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110624

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130802

R150 Certificate of patent or registration of utility model

Ref document number: 5337072

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees