JP5249968B2 - 音源パラメータ推定方法と音源分離方法と、それらの装置と、プログラム - Google Patents

音源パラメータ推定方法と音源分離方法と、それらの装置と、プログラム Download PDF

Info

Publication number
JP5249968B2
JP5249968B2 JP2010028986A JP2010028986A JP5249968B2 JP 5249968 B2 JP5249968 B2 JP 5249968B2 JP 2010028986 A JP2010028986 A JP 2010028986A JP 2010028986 A JP2010028986 A JP 2010028986A JP 5249968 B2 JP5249968 B2 JP 5249968B2
Authority
JP
Japan
Prior art keywords
sound source
signal
parameter estimation
sound
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010028986A
Other languages
English (en)
Other versions
JP2011164468A (ja
Inventor
智広 中谷
章子 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010028986A priority Critical patent/JP5249968B2/ja
Publication of JP2011164468A publication Critical patent/JP2011164468A/ja
Application granted granted Critical
Publication of JP5249968B2 publication Critical patent/JP5249968B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、複数の音源が同時に生成した音響信号が混ざってマイクロホンで収音された観測信号から、各音源の音源モデルパラメータを推定する音源パラメータ推定方法と、その音源パラメータに基づいて各音源を分離する音源分離方法と、それらの装置と、プログラムに関する。
従来の音源パラメータ推定装置900の動作を、図6を参照して説明する。音源パラメータ推定装置900は、複数の(Ns個)音源mの音源信号が重畳した観測信号xnを入力として、観測信号xnに含まれる各音源mの音源パラメータを推定するものである。
音源パラメータ推定装置900は、複数の音源モデル記憶部90〜90Ns、確率密度関数合成部91、最適化基準計算部92、音源パラメータ探索部93、を具備する。音源モデル記憶部90〜90Nsには、音源パラメータの値によって決定される音源信号の短時間スペクトルに関する確率密度関数q(m) nが記憶されている。
音源パラメータ探索部93は、全ての音源の音源パラメータの組み合わせを確率密度関数合成部91に与える。確率密度関数合成部91は、与えられた音源パラメータに基づいて観測信号xの確率密度関数を合成し、最適化基準計算部92は観測信号xnを入力としてその合成した確率密度関数が観測信号xに適合しているかを評価し、その評価結果を音源パラメータ探索部93に出力する。音源パラメータ探索部93は、その評価結果が最大となる音源パラメータの組を求めて出力する。
音声信号などの音源信号を精度よくモデル化するためには、ひとつの音源であっても、音源パラメータの値がとりうる範囲(以降、各音源信号のパラメータ空間と呼ぶ)を広くする必要がある。更に、複数の音源信号が重畳した観測信号の場合、異なる音源信号に関する音源パラメータの組み合わせがとりうる値の全体の範囲である観測信号のパラメータ空間は、各音源信号のパラメータ空間の広さを全て掛け合わせた膨大な広さとなる。
従来例では、最適化基準の値を最大化するために、音源パラメータの全ての組み合わせについて最適化基準の値を調べる必要があった。これは、膨大なパラメータ空間を全て探索することに相当し、最適化の計算コストが膨大になるという課題があった。
この発明は、このような課題に鑑みてなされたものであり、パラメータ空間を効率よく探索する音源パラメータ推定方法と、その音源パラメータ推定方法を用いた音源分離方法と、それらの装置と、プログラムを提供することを目的とする。
この発明の音源パラメータ推定方法は、音源パラメータ推定部が、複数の音源から発せられた音源信号を周波数領域の信号に変換した観測信号を入力として、占有的な音源の音源信号に関する部分関数と、それ以外の各音源の音源信号に関する部分関数との積で表せる観測モデルに基づき、音源モデル記憶部に記憶された各音源信号毎の確率密度関数を決定する音源パラメータを推定する音源パラメータ推定過程を含む。
また、この発明の音源分離方法は、この発明の音源パラメータ推定方法で推定した音源パラメータと各音源占有度と観測信号を入力として、音源信号の推定値を計算する過程を含む。
この発明の音源パラメータ推定方法によれば、観測信号の事後確率密度関数を、占有的な音源の音源信号に関する部分関数と、それ以外の各音源の音源信号に関する部分関数の積で表すことで、各音源パラメータを音源毎に閉じて最適化する処理に分解することができる。つまり、音源パラメータの全ての組み合わせについて最適化基準を調べる必要がない。その結果、音源パラメータ推定のための計算コストを大幅に削減することができる。その音源パラメータ推定方法を用いたこの発明の音源分離装置は、少ない計算量で音源を分類することができる。
この発明の音源パラメータ推定装置100の機能構成例を示す図。 音源パラメータ推定装置100のより具体的な機能構成例を示す図。 音源パラメータ推定装置100の動作フローを示す図。 この発明の音源分離装置200の機能構成例を示す図。 評価実験の結果を示す図。 従来の音源パラメータ推定装置900の機能構成を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前にこの発明の基本的な考えについて説明する。
〔この発明の基本的な考え〕
この発明では、新しい音源パラメータ推定方法を提案することで、従来の課題を解決する。最初に、説明に用いる記号について説明する。観測信号には、Ns個の音源信号が重畳しており、各音源信号を番号m(1〜Ns)で区別して表記する。m番目の音源からの音源信号を短時間フーリエ変換等を用いて周波数領域信号に変換した信号s(m) nを、式(1)に示すように表記する。また、観測信号の周波数領域信号xnを式(2)、短時間フレームn、周波数ビンkにおける全ての音源信号を要素に持つ集合sn,kを式(3)、全ての音源信号に関する音源パラメータの集合θnを式(4)で表す。
Figure 0005249968
nとkは、それぞれ短時間フレームと周波数ビンの番号を表す。
まず、この発明では、音源信号がスパースであると仮定する。つまり、各短時間フレームnの各周波数ビンkにおいて、一番大きなパワーを持つ音源信号s(m) n,kを占有的な音源と呼び、近似的にその短時間フレームnにおける周波数領域の信号は、s(m) n,k(s(m) n,k=xn,k)であると考える。その他の音源信号は、s(m) n,kよりも小さな値を持つものとする。そして、z n,kを占有的音源の番号を表す変数とする。
そうすると、各音源信号s(m) n,kと占有的な音源の番号zn,kが既知の下での観測信号xn,kの事後確率密度関数(この明細書ではこれを観測モデルと称する)は、占有的な音源の音源信号に関する部分関数と、それ以外の各音源の音源信号に関する部分関数の積に分解することができる(式(5))。
Figure 0005249968
ここで、f(xn,k,s(m) n,k)とg(xn,k,s(m) n,k)は、音源信号s(m) n,kが占有的な音源信号である場合とそれ以外の場合のそれぞれについて、各音源の周波数領域信号s(m) n,kと観測信号xn,kとの関係を表す関数である。上記の事後確率密度関数は、一般には、このような部分関数の積には分解することはできないため、従来、このような考えはできなかった。これに対し音源がスパース性を有する場合に、上式のような分解が可能であることを見出すことで、この発明は可能となった。
観測信号xn,kの確率密度関数は、式(6)に示すように書き換えることができる。
Figure 0005249968
式(6)では、p(zn,k=m)を、フレームnにおいて、m番目の音源が占有的になる事前確率(以降、混合比と称する)とし、p(xn,k|zn,k=m;θn)を占有的な音源の番号がmの場合の観測信号の事後確率密度関数を表す。観測信号xn,kの確率密度関数(式(6))に基づく尤度関数を式(7)のように定める。
Figure 0005249968
ここで、ψnは、短時間フレームnにおける全ての音源信号mに関するパラメータθ(m) nと混合モデルの混合比αm n=p(zn,k=m)を含む集合(但し、Σmα(m) n=1)である。また、ψは、全短時間フレームのψnを含む集合である。
この発明では、式(5)の仮定を導入すると共に、以下の二つの処理を交互に繰り返すことで、観測信号の確率密度関数を最大化する各音源パラメータを推定する方法を構成する。
処理(1)は、各音源の音源パラメータの推定値に基づき、各観測信号xn,k中で最も占有的な音源の番号を推定する。処理(2)は、処理(1)で推定された占有的な音源番号に基づき、各音源の音源パラメータを推定する。
これは、一般的には、観測信号xn,kをどれか一つの音源に分類するクラスタリングの問題として捉えることができる。このようなクラスタリングを実現するためには、k-meansクラスタリングのように、処理(1)で占有的な音源の番号を決定論的に定める手法だけでなく、期待値最大化アルゴリズム等のように占有的な音源の番号を確率分布として定める方法が利用できる。また、変分ベイズ法やマルコフ連鎖モンテカルロ法等のベイズ推定に基づくクラスタリングを用いて、音源パラメータの推定値を確率分布として求めることも可能である。
この発明では、観測信号の事後確率密度関数p(xn,k|zn,k=m;θn)の下で、上記した標準的なクラスタリングの具体的な計算手順を定める。式(5)の仮定を導入することで、処理(2)を効率的に計算することが出来るようになる。
処理(2)は、観測信号の事後確率密度関数p(xn,k|zn,k=m;θn)を最大にする音源パラメータθnを求めることである。以下、表記を簡単にするため、占有的な音源の番号を表す変数zn,kを単純にm(zn,k=m)と表記する。式(5)の仮定の下では事後確率密度関数p(xn,k|zn,k=m;θn)は次のように書き換えられる。
Figure 0005249968
ここで、p(s(m’) n,k(m’) n)は、音源信号の確率密度関数(以下、音源モデルと称する)を表し、音源パラメータθ(m’) nに依存して決まるものである。また、∫v・dxは、xがとりうる範囲の全域に関する積分を表す。式(9)の右辺は、積分項の積の形に分解されていると共に、各積分項に含まれる被積分関数は、それぞれ一つの音源に関する音源パラメータのみを含んでいる。これは、各積分項毎にその値を最大化する音源パラメータを独立に求めることで、式(8)を最大化できることを意味する。
したがって、この発明によれば、占有的な音源が既知の条件下で、音源信号の確率密度
関数を最大化する音源パラメータを効率的に求めることができる。つまり、占有的な音源
mに関する項が独立に扱えるため、音源パラメータ推定の繰り返し計算を、個別の音源パ
ラメータに閉じて最適化する処理に分解することができ、効率的な計算が可能となる。
図1にこの発明の音源パラメータ推定装置100の機能構成例を示す。音源パラメータ推定装置100は、音源モデル記憶部10と、音源パラメータ推定部20を具備する。その各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
音源モデル記憶部10は、複数の音源に関して各音源信号毎に音源パラメータに依存して決まる各確率密度関数を記憶する。音源パラメータ推定部20は、音源信号を周波数領域の信号に変換した観測信号xnを入力として、占有的な音源の音源信号に関する部分関数と、それ以外の各音源の音源信号に関する部分関数との積で表せる観測モデル21に基づき、音源パラメータを推定する。
音源パラメータ推定部20は、期待値最大化アルゴリズムを用いて、最大化する音源パラメータを求める。期待値最大化で用いられるQ関数は、以下のように定義される。
Figure 0005249968
ここで、ψ^は一つ前の繰り返しで得られた音源パラメータの更新値であり、ψは次の繰り返しで更新する音源パラメータを表す。推定を表す^等の変数の表記は、式中の表記が正しい。M(m) n,kは、観測信号xnが与えられた条件下でm番目の音源信号が占有的な信号であるという事後確率の推定値を表している。以降、M(m) n,kを音源占有度と称する。一つの音源信号mの短時間フレームnにおける音源占有度をまとめて式(14)のように表記する。
Figure 0005249968
期待値最大化アルゴリズムでは、期待値計算ステップと最大化ステップとを繰り返すことで、確率密度関数の最大値を与える音源パラメータを求める。期待値計算ステップでは、最新の音源パラメータの更新値ψ^に基づきQ関数を更新する。すなわち、音源占有度M(m) n,kを式(12)により更新する。
最大化ステップは、Q関数を最大化するψを求めψ^に代入することで、式(15)によりψ^を更新する。
Figure 0005249968
更に、式(9)を用いるとQ関数は次のように書き換えることができる。
Figure 0005249968
期待値計算ステップでは、式(17)により音源占有度M(m) n,kを更新する。最大化ステップでは、各音源mに関して式(18)を最大化する音源パラメータθ(m) nを求めると共に、式(16)の第二項を最大化する混合比α(m) nを求め、それらを新たにθ^(m) n, α^(m) nの更新値とする。この処理を繰り返すことで、尤度関数を逐次的に増加させることができる。特に式(18)の最大化において、音源パラメータを、各音源信号ごとに独立に最大化することができるため、異なる音源信号間で音源パラメータの組み合わせを考慮する必要がない。このため、効率的に音源パラメータの更新を行うことができる。
図2に、音源パラメータ推定装置100のより具体的な機能構成例を示して更に詳しく説明する。音源パラメータ推定部20は、音源占有度更新部22と、音源パラメータ更新部231〜23Nsを備える。音源占有度更新部22は、更新された音源パラメータを入力として、各音源信号の混合比と観測モデルと音源信号モデルに基づく各音源の占有度を更新する。複数の音源に対応した数設けられる音源パラメータ更新部231〜23Nsは、観測モデルと音源モデルと各音源の占有度に基づく音源パラメータの評価関数を最大化することで各音源の音源パラメータを更新する。
図3に、音源パラメータ推定装置100の動作フローを示す。まず、音源占有度更新部22は、音源占有度M(m) n,kを、M(m) n,k≧0かつΣmM(m) n,k=1の条件の下、初期化する(ステップS220)。音源パラメータ更新部231〜23Nsは、各音源信号m(1〜Ns)毎に音源パラメータθ^nを式(19)により更新する(ステップS230)。
Figure 0005249968
音源占有度更新部22は、各音源信号mの混合比α^(m) nを式(20)で更新する(ステップS221)。そして、音源占有度M(m) n,kを式(17)により更新する(ステップS222)。
Figure 0005249968
このステップS230、S221、S222の処理は、音源パラメータθ(m) nの値が収束するまで繰り返される(ステップS223のNo)。もしくは、予め繰り返し数を決めておき、その回数に達するまで処理は繰り返されるようにするのでもよい。
次に、より具体的な音源モデルと観測モデルについて説明する。この実施例では、xn,k及びs(m) n,kは、対応する時間領域信号の短時間フーリエ変換の値を表すものとし、複素数の値を持つものとする。まず、音源モデルとして以下を考える。
Figure 0005249968
ここで、NC(・;0,σ)は平均0、分散σの複素正規分布を表すものとする。よって、音源パラメータθ(m) nは、θ(m) n={σ(m) n、1, σ(m) n、2,…,σ(m) n、K}と表せる。
式(5)に示した観測モデルを定義するために、いくつかの仮定を導入する。まず、音源信号は占有的な音源信号であるか否かに応じて式(22)に示す値を取ると仮定する。
Figure 0005249968
この仮定を、更に発展させて観測信号xn,kが与えられたとき、占有的な音源信号に関連した観測信号x(m) n,k=xn,kとそれ以外の音源信号に関連した観測信号x(m’) n,k=0が同時に観測されていると解釈し、観測モデルを次のように定義する。
Figure 0005249968
ここで、δ(・)は、Diracのデルタ関数を表す。この時、式(18)は式(25)のよ
うに書き換えることができる。
Figure 0005249968
これは、(M(m) n,k1/2xn,kを確率変数とみなしたときの複素ガウス分布に対応する尤度関数の形をしており、σ(m) n,kはこの確率変数のパワースペクトルを表している。したがって、式(25)を最大にする音源パラメータを求めることは、(M(m) n,k1/2xn,kのパワースペクトルを求めることと等しい。
調波構造を持つ音源信号の場合、その分散は、音源信号の基本周波数の値φ(m) nと、l番目の高調波のパワーa(m) n,lを用いて式(26)に示すようにモデル化できる。
Figure 0005249968
ここでw(・)は、パワーが1の正弦波の周波数領域でのパワー包絡を表す関数(周波数0が包絡のピークになるようにしたもの)とし、Nlは高調波の数を表す。この前提の下、最大化ステップにおける音源パラメータθ^(m) nの更新過程は次のようになる。
まず、既存の基本周波数推定法を用いて各音源信号mの基本周波数φ^(m) nの更新値を、信号x^(m) n,k=(M(m) n,k1/2xn,kから求める。次に、各高調波のパワーa^(m) n,lの更新値を信号x^(m) n,k=(M(m) n,k1/2xn,kのφ^(m) nの整数倍の周波数におけるパワーとして求める。そして、式(26)に基づき、確率変数のパワースペクトルσ^(m) n,kの更新値を求める。
音源占有度更新部12は、式(27)により音源占有度M(m) n,kを更新する。
Figure 0005249968
これは、式(23)、式(24)を用いて、式(17)を変形することで得られる式である。
音源モデルと観測モデルの他の具体例について説明する。この実施例では、xn,kおよびs(m) n,kは、対応する時間領域信号を周波数領域信号に変換して得られる対数パワースペクトルの値を表すものとし、任意の実数値を持つものとする。
まず、次の仮定を導入する。各短時間フレームnにおいて、各音源信号mは有限個の状態のどれか一つをとる。状態iにある音源信号の音源モデルは式(28)で定義される。
Figure 0005249968
ここで、NR(・;μ,σ)は平均μ、分散σの正規分布を表す。各状態iに対応する平均μi,kおよび分散σi,kは、音源信号に関するデータベース等を用いて事前に定められる。この音源モデルにおいて、音源パラメータの集合は音源の状態番号であり、θ(m) n={i(m) n}とする。
観測モデルを定義するために、音源信号は占有的な音源信号であるか否かに応じて次の値をとると仮定する。
Figure 0005249968
そして観測モデルを次式のように定義する。
Figure 0005249968
ここで、δ(・)は、Diracのデルタ関数を表す。式(30)は、式(29)の一つ目の式に対応し、観測信号xn,kは占有的な音源s(m) n,kと一致することを意味する。また、式(31)は、式(29)の二つ目の式に対応し、観測信号xn,kが占有的でない音源s(m) n,kより値が小さいとき式(5)の事後確率は0となり、それ以外のとき、式(5)の事後確率は式(30)で与えられることを意味する。
また、音源パラメータ更新部131〜13Nsにおいて、下記の式(32)と式(33)に示す手順により音源パラメータi^(m) nを更新することができる。更に、音源占有度更新部12は式(34)で占有度を更新する。
Figure 0005249968
ただし、音源モデルp(s(m) n,k;i(m) n)は、式(28)による。なお、式(33)は、式(18)に、式(30)と式(31)を代入して整理することで得られる式である。
Figure 0005249968
式(34)は、式(17)に、式(30)と式(31)を代入して整理することで得られる式である。
〔音源分離装置〕
図4にこの発明の音源分離装置200の機能構成例を示す。音源分離装置200は、
上記した音源パラメータ推定装置100が出力する音源パラメータと各音源占有度と、観測信号を入力として、音源信号の推定値を計算する音源分離部30とを具備する。
音源分離部30は、式(36)により音源信号の推定値s(m) n,kを求める。
Figure 0005249968
式(35)は、観測信号が与えられた下での各音源信号の事後確率密度関数の推定値p(s(m) n,k|xn,kn)を用いて、音源信号を自乗誤差最小推定で求める定義式であり、式(36)は、音源モデル、観測モデル、音源占有度を用いて式(35)を具体的に計算する式を表している。
実施例1において、音源モデルを式(21)、観測モデルを式(23)と式(24)で定義した場合、音源信号の推定値は式(37)となる。
Figure 0005249968
実施例2において、音源モデルを式(28)、観測モデルを式(30)と式(31)で定義した場合、音源信号の推定値は式(38)で得られる。
Figure 0005249968
〔確認実験〕
この発明による音源パラメータ推定方法と音源分離方法の効果を確認する目的で、二人の話者からなる混合音を分離する確認実験を行った。混合音としては、女性+男性(F−M)、女性+女性(F+F)、男性+男性(M+M)の三種類を、個別の音声をコンピュータ上で加算して作成した。このとき、混合音のSIR(Signal-to-Interference Ratio)は0dBとした。図5に、この発明の音源パラメータ推定方法及び音源分離方法を用いて、上記した三種類の混合音を分離してSIRとSDR(Signal-to-Distortion Ratio)で評価した結果を示す。
全ての場合で、SIRが約10dB程度になっていることから、この発明により混合音中の目的音以外の音を約10dB低減できたことが分かる。また、全ての場合で、SDRが10dBであることから、分離された音には大きな信号の歪は生じていないことが確認できる。この結果を得るために要した計算量は、従来法で基本周波数のみを組み合わせて探索する場合と比べて約1/5000であった。このように、この発明の方法は少ない計算量で音源パラメータ推定と音源分離を実現する。
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各装置の機能構成部は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしても良い。

Claims (7)

  1. 音源パラメータ推定部が、複数の音源から発せられた音源信号を周波数領域の信号に変換した観測信号を入力として、占有的な音源の音源信号に関する部分関数とそれ以外の各音源の音源信号に関する部分関数との積で表せる観測モデルに基づき、音源モデル記憶部に記憶された上記各音源信号毎の確率密度関数を決定する音源パラメータを推定する音源パラメータ推定過程を、
    含む音源パラメータ推定方法。
  2. 請求項1に記載した音源パラメータ推定方法において、
    上記音源パラメータ推定過程は、
    更新された音源パラメータを入力として、上記各音源信号の混合比と観測モデルと音源信号モデルに基づく各音源の占有度を更新する音源占有度更新ステップと、
    上記観測モデルと上記音源モデルと上記各音源の占有度に基づく音源パラメータの評価関数を最大化することで各音源の音源パラメータを更新する上記複数の音源に対応した数の音源パラメータ更新ステップと、
    を備えることを特徴とする音源パラメータ推定方法。
  3. 請求項2に記載した音源パラメータ推定方法を含み、
    上記音源パラメータ推定方法で推定した音源パラメータと各音源占有度と、上記観測信号を入力として、音源信号の推定値を計算する音源分離過程と、
    を含む音源分離方法。
  4. 複数の音源に関して各音源信号毎に音源パラメータに依存して決まる各確率密度関数を記憶した音源モデル記憶部と、
    上記音源信号を周波数領域の信号に変換した観測信号を入力として、占有的な音源の音源信号に関する部分関数と、それ以外の各音源の音源信号に関する部分関数との積で表せる観測モデルに基づき、上記音源パラメータを推定する音源パラメータ推定部と、
    を具備する音源パラメータ推定装置。
  5. 請求項4に記載した音源パラメータ推定装置において、
    上記音源パラメータ推定部は、
    更新された音源パラメータを入力として、上記各音源信号の混合比と観測モデルと音源信号モデルに基づく各音源の占有度を更新する音源占有度更新部と、
    上記観測モデルと上記音源モデルと上記各音源の占有度に基づく音源パラメータの評価関数を最大化することで各音源の音源パラメータを更新する上記複数の音源に対応した数の音源パラメータ更新部と、
    を備えることを特徴とする音源パラメータ推定装置。
  6. 請求項5に記載した音源パラメータ推定装置と、
    上記音源パラメータ推定装置が出力する音源パラメータと各音源占有度と、上記観測信号を入力として、音源信号の推定値を計算する音源分離部と、
    を具備する音源分離装置。
  7. 請求項4乃至6のいずれか1項に記載した音源パラメータ推定装置、または音源分離装置としてコンピュータを動作させるためのプログラム。
JP2010028986A 2010-02-12 2010-02-12 音源パラメータ推定方法と音源分離方法と、それらの装置と、プログラム Active JP5249968B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010028986A JP5249968B2 (ja) 2010-02-12 2010-02-12 音源パラメータ推定方法と音源分離方法と、それらの装置と、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010028986A JP5249968B2 (ja) 2010-02-12 2010-02-12 音源パラメータ推定方法と音源分離方法と、それらの装置と、プログラム

Publications (2)

Publication Number Publication Date
JP2011164468A JP2011164468A (ja) 2011-08-25
JP5249968B2 true JP5249968B2 (ja) 2013-07-31

Family

ID=44595196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010028986A Active JP5249968B2 (ja) 2010-02-12 2010-02-12 音源パラメータ推定方法と音源分離方法と、それらの装置と、プログラム

Country Status (1)

Country Link
JP (1) JP5249968B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886526B2 (en) * 2012-05-04 2014-11-11 Sony Computer Entertainment Inc. Source separation using independent component analysis with mixed multi-variate probability density function

Also Published As

Publication number Publication date
JP2011164468A (ja) 2011-08-25

Similar Documents

Publication Publication Date Title
US8812322B2 (en) Semi-supervised source separation using non-negative techniques
US9721202B2 (en) Non-negative matrix factorization regularized by recurrent neural networks for audio processing
US9966088B2 (en) Online source separation
JP5942420B2 (ja) 音響処理装置および音響処理方法
JP5568530B2 (ja) 音源分離装置とその方法とプログラム
JP4977062B2 (ja) 残響除去装置とその方法と、そのプログラムと記録媒体
JP5351856B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
JP2011133780A (ja) 信号分析装置、信号分析方法及び信号分析プログラム
JP6505346B1 (ja) Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム
WO2012105385A1 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
JP5249968B2 (ja) 音源パラメータ推定方法と音源分離方法と、それらの装置と、プログラム
JP5438704B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム
JP6216809B2 (ja) パラメータ調整システム、パラメータ調整方法、プログラム
JP2007304445A (ja) 周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体
JP6157926B2 (ja) 音声処理装置、方法およびプログラム
Auvinen et al. Automatic glottal inverse filtering with the Markov chain Monte Carlo method
JP4630203B2 (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体、並びに、信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体
JP2011164126A (ja) 雑音抑圧フィルタ算出方法と、その装置と、プログラム
JP6581054B2 (ja) 音源分離装置、音源分離方法及び音源分離プログラム
US20220141584A1 (en) Latent variable optimization apparatus, filter coefficient optimization apparatus, latent variable optimization method, filter coefficient optimization method, and program
JP2019049685A (ja) 音声抽出装置、音声抽出方法および音声抽出プログラム
US10839823B2 (en) Sound source separating device, sound source separating method, and program
JP6564744B2 (ja) 信号解析装置、方法、及びプログラム
JP6498141B2 (ja) 音響信号解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110624

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130412

R150 Certificate of patent or registration of utility model

Ref document number: 5249968

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350