JP2012173592A - Sound source parameter estimation device and sound source separation device and method thereof and program therefor - Google Patents
Sound source parameter estimation device and sound source separation device and method thereof and program therefor Download PDFInfo
- Publication number
- JP2012173592A JP2012173592A JP2011036713A JP2011036713A JP2012173592A JP 2012173592 A JP2012173592 A JP 2012173592A JP 2011036713 A JP2011036713 A JP 2011036713A JP 2011036713 A JP2011036713 A JP 2011036713A JP 2012173592 A JP2012173592 A JP 2012173592A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- parameter
- model
- source power
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は、複数の音源が同時に生成した音響信号が混ざって複数のマイクロホンで収音された観測信号から、各音源の音源パラメータを推定する音源パラメータ推定装置と、その音源パラメータに基づいて各音源を分離する音源分離装置と、それらの方法とプログラムに関する。 The present invention relates to a sound source parameter estimation device that estimates sound source parameters of each sound source from observation signals collected by a plurality of microphones mixed with acoustic signals generated simultaneously by a plurality of sound sources, and each sound source based on the sound source parameters The present invention relates to a sound source separation device that separates sound sources and methods and programs thereof.
図7に、非特許文献1に開示された従来の音源パラメータ推定装置900の機能構成を示す。音源パラメータ推定装置900は、音源モデル記憶部920と、特徴抽出部910と、音源パワーパラメータ更新部930と、音源位置パラメータ更新部940と、音源占有度更新部950と、を具備する。
FIG. 7 shows a functional configuration of a conventional sound source
音源モデル記憶部920は、複数の音源信号それぞれの音源パワー時系列全体の状態を表す音源パワーパラメータの事前確率密度関数p(q(l))((l)はl番目の音源)と、その音源パワーパラメータq(l)が与えられた場合の各音源信号の各時間周波数点(n,k)における事後確率密度関数である音源パワー特徴量のモデルf=βq(l),n,k(S)とを記憶する。特徴抽出部910は、複数の音源信号を複数(m個)のマイクロホンで収音した時間領域の信号を時間周波数領域信号に変換した観測信号x(m) n,kを入力として、各時間周波数点における音源位置特徴量An,kと音源パワー特徴量Xn,kを抽出する。
The sound source
音源パワーパラメータ更新部930は、Ns個の音源ごとに音源パワー特徴量Xn,kと観測信号が得られた下での占有的な音源の事後確率密度関数である音源占有度^M(l) n,kと、音源パワー特徴量のモデルf=βq(l),n,k(S)と音源パワーパラメータの事前確率密度関数p(q(l))とを入力として、音源パワーパラメータ^q(l)を更新する。音源位置パラメータ更新部940は、音源位置特徴量An,kと音源占有度^M(l) n,kを入力として、各音源の音源位置パラメータ^φ(l)を更新する。
The sound source power
音源占有度更新部950は、音源位置特徴量An,kと音源パワー特徴量Xn,kと各音源の更新された音源パワーパラメータ^q(l)と音源位置パラメータ^φ(l)と、音源パワー特徴量のモデルf=βq(l),n,k(S)と音源パワーパラメータの事前確率密度関数p(q(l))とを基に各音源の音源占有度^M(l) n,kを更新する。
The sound source
音源パラメータ推定装置900の音源パラメータ推定技術を用いた音源分離装置は、音源パラメータ推定装置900が出力する音源パワー特徴量と、更新した音源占有度と音源パワーパラメータと、各音源信号の各時間周波数点における音源パワー特徴量のモデルとを入力として複数の音源のそれぞれの音源分離信号を、最小自乗誤差推定により求める音源分離部を更に備える。
The sound source separation apparatus using the sound source parameter estimation technique of the sound source
従来の音源パラメータ推定装置は、音源モデル記憶部が記憶する音源パワーパラメータの事前確率密度関数と音源パワー特徴量のモデルのそれぞれの挙動を制御するパラメータである音源モデルパラメータが事前に与えられなければ音源パラメータの推定を行うことができなかった。 In a conventional sound source parameter estimation device, a sound source model parameter that is a parameter for controlling the respective behaviors of the sound source power parameter a priori probability density function stored in the sound source model storage unit and the sound source power feature amount model is not given in advance. Sound source parameters could not be estimated.
この発明はこの課題に鑑みてなされたものであり、音源モデルパラメータが事前に与えられていない場合でも、音源パラメータの一部としてその他の音源パラメータと一緒に音源モデルパラメータをも推定できる音源パラメータ推定装置と音源分離装置と、それらの方法とプログラムを提供することを目的とする。 The present invention has been made in view of this problem, and even when no sound source model parameter is given in advance, it is possible to estimate a sound source parameter as well as other sound source parameters as a part of the sound source parameter. It is an object to provide a device, a sound source separation device, and a method and program thereof.
この発明の音源パラメータ推定装置は、音源モデル記憶部と、特徴抽出部と、音源パワーパラメータ更新部と、音源位置パラメータ更新部と、音源モデルパラメータ更新部と、音源占有度更新部と、を具備する。音源モデル記憶部は、複数の音源信号それぞれの音源パワー時系列全体の状態を表す音源パワーパラメータの事前確率密度関数と、その音源パワーパラメータが与えられた場合の各音源信号の各時間周波数点における音源パワー特徴量のモデルとを記憶する。特徴抽出部は、複数の音源信号を複数のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号を入力として、各時間周波数点における音源位置特徴量と音源パワー特徴量を抽出する。音源パワーパラメータ更新部は、音源パワー特徴量と、観測信号が得られた下での占有的な音源の事後確率密度関数である音源占有度と、音源パワーパラメータの事前確率密度関数と各音源信号の音源パワー特徴量のモデルと、音源パワー特徴量のモデルと音源パワーパラメータの事前確率密度関数のそれぞれの挙動を制御するパラメータである音源モデルパラメータと、を入力として各音源の音源パワーパラメータを更新する。音源位置パラメータ更新部は、音源位置特徴量と音源占有度を入力として、各音源の音源位置パラメータを更新する。音源モデルパラメータ更新部は、音源パワー特徴量と音源パワーパラメータと音源占有度と、音源モデル記憶部に記憶された音源パワーパラメータの事前確率密度関数と音源パワー特徴量のモデルとを入力として音源モデルパラメータを更新する。音源占有度更新部は、音源位置特徴量と音源パワー特徴量と各音源の更新された音源パワーパラメータと音源位置パラメータと、音源モデルパラメータと、音源モデル記憶部に記憶された音源パワーパラメータの事前確率密度関数と音源パワー特徴量のモデルとを入力として各音源の音源占有度を更新する。 A sound source parameter estimation apparatus according to the present invention includes a sound source model storage unit, a feature extraction unit, a sound source power parameter update unit, a sound source position parameter update unit, a sound source model parameter update unit, and a sound source occupancy degree update unit. To do. The sound source model storage unit is a prior probability density function of a sound source power parameter representing the state of the entire sound source power time series of each of the plurality of sound source signals, and each time frequency point of each sound source signal when the sound source power parameter is given. The sound source power feature amount model is stored. The feature extraction unit extracts the sound source position feature value and the sound source power feature value at each time frequency point by using the observation signal obtained by converting the time domain signal obtained by collecting multiple sound source signals with multiple microphones into the time frequency domain signal. To do. The sound source power parameter update unit includes a sound source power feature amount, a sound source occupancy that is an a posteriori probability density function of the exclusive sound source obtained from the observed signal, a prior probability density function of the sound source power parameter, and each sound source signal. The sound source power parameters of each sound source are updated with the sound source power feature model and the sound source model parameters that control the behavior of the sound source power feature model and the prior probability density function of the sound source power parameters as inputs. To do. The sound source position parameter update unit receives the sound source position feature amount and the sound source occupancy as input, and updates the sound source position parameter of each sound source. The sound source model parameter update unit receives the sound source power feature amount, the sound source power parameter, the sound source occupancy, the prior probability density function of the sound source power parameter stored in the sound source model storage unit, and the model of the sound source power feature amount as inputs. Update parameters. The sound source occupancy degree update unit pre-determines the sound source position feature amount, the sound source power feature amount, the updated sound source power parameter, the sound source position parameter, the sound source model parameter, and the sound source power parameter stored in the sound source model storage unit in advance. The sound source occupancy of each sound source is updated with the probability density function and the model of the sound source power feature quantity as inputs.
この発明の音源パラメータ推定装置によれば、音源モデルパラメータが事前に与えられていない場合でも、音源パラメータの一部としてその他の音源パラメータと一緒に音源モデルパラメータをも推定することができるので、事前に統計的性質を与えることができない多様な音源に対しても最適な音源パラメータを与えることができる。 According to the sound source parameter estimation device of the present invention, the sound source model parameters can be estimated together with other sound source parameters as part of the sound source parameters even when the sound source model parameters are not given in advance. It is possible to give optimal sound source parameters to various sound sources that cannot be given statistical properties.
その音源パラメータ推定装置を用いたこの発明の音源分離装置は、誤差の少ない音源分離信号を出力することが可能である。 The sound source separation device of the present invention using the sound source parameter estimation device can output a sound source separation signal with less error.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前にこの発明の基本的な考えについて説明する。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated. Prior to the description of the embodiments, the basic idea of the present invention will be described.
〔この発明の基本的な考え〕
この発明では、予め音源モデルパラメータが与えられていなくとも音源パラメータの推定が行えるようにするために、l番目の音源信号の音源パワー特徴量の時系列全体を{S(l) n,k}と表した時に、その同時確率密度関数を音源モデルパラメータψ(l)を含めてモデル化すると共に、複数の音が混在した信号の音源パワー特徴量Xn,kが与えられたときに、各音源の音源占有度、音源パワー特徴量のモデルと音源パワーパラメータの事前確率密度関数、および音源パワーパラメータに基づいて各音源の音源モデルパラメータを更新する音源モデルパラメータ更新部を有する点で新しい。
[Basic idea of the present invention]
In the present invention, in order to enable the estimation of the sound source parameter even if the sound source model parameter is not given in advance, the entire time series of the sound source power feature amount of the l-th sound source signal is represented by {S (l) n, k }. The simultaneous probability density function is modeled including the sound source model parameter ψ (l) , and each sound source power feature amount X n, k of a signal in which multiple sounds are mixed is given. It is new in that it has a sound source occupancy degree, a model of sound source power features, a prior probability density function of sound source power parameters, and a sound source model parameter update unit that updates the sound source model parameters of each sound source based on the sound source power parameters.
最初に説明に用いる記号について説明する。観測信号には、Ns個の音源信号が重畳しており、その音源信号をNm本のマイクロホンで収音する。m番目のマイクロホンから収音した収音信号を短時間フーリエ変換等を用いて周波数領域の信号に変換した観測信号をX(m) n,kと表記する。nはn番目の時間つまりフレーム番号、kはk番目の周波数つまりビン番号であり、n番目の時間及びk番目の周波数に対応する時間周波数点を参照する場合に、時間周波数点(n,k)と表記する。なお、記号^の位置や添え字の表記とその位置は、式中の表記が正しい。 First, symbols used for description will be described. The observed signal is superimposed N s number of sound source signals, picks up the sound signal in N m the microphones. An observation signal obtained by converting a collected signal collected from the m-th microphone into a frequency domain signal using a short-time Fourier transform or the like is denoted as X (m) n, k . n is the nth time or frame number, k is the kth frequency or bin number, and when referring to the time frequency point corresponding to the nth time and the kth frequency, the time frequency point (n, k ). Note that the position of the symbol ^ and the notation of the subscript and its position are correct in the expression.
この発明では、l番目の音源信号の音源パワー時系列全体{S(l) n,k}の同時確率密度関数を次式に示すようにモデル化する。 In the present invention, the simultaneous probability density function of the entire sound source power time series {S (l) n, k } of the l-th sound source signal is modeled as shown in the following equation.
ここで、q(l)はl番目の音源の音源パワー時系列全体の状態を表す音源パワーパラメータを表す。以下では全ての音源のq(l)をまとめてq=[q(1),…,q(Ns)]とも表記する。ψ(l)はl番目の音源の音源モデルパラメータ全体を現す。全ての音源のψ(l)をまとめてψ=[ψ(1),…,ψ(Ns)]とも表記する。 Here, q (l) represents a sound source power parameter representing the state of the entire sound source power time series of the l-th sound source. In the following, q (l) of all sound sources is collectively expressed as q = [q (1) , ..., q (Ns) ]. ψ (l) represents the entire sound source model parameter of the l-th sound source. Ψ (l) of all sound sources is collectively expressed as ψ = [ψ (1) ,..., Ψ (Ns) ].
また、βq(l),n,k,ψ(l)(S)は音源パワー特徴量のモデルであり、音源パワーパラメータq(l)と音源モデルパラメータψ(l)が与えられた下で各時間周波数点(n,k)の音源信号の音源パワーがS(l) n,kとなる確率密度関数である(式(3))。式(1)の総和演算は、q(l)が離散値ではなく連続値をとる場合にはq(l)に関する積分演算に置き換えて表現されるものとする。式(2)において、音源の状態が既知のもとでは、異なる時間周波数点における音源パワーS(l) n,kは相互に独立であるという仮定を導入している。 Β q (l), n, k, ψ (l) (S) is a model of the sound source power feature, and given the sound source power parameter q (l) and the sound source model parameter ψ (l) , This is a probability density function in which the sound source power of the sound source signal at each time frequency point (n, k) is S (l) n, k (formula (3)). Summation of equation (1), if q (l) takes continuous values rather than discrete values shall be expressed by replacing the integral operation on q (l). In the equation (2), the assumption is made that the sound source powers S (l) n, k at different time frequency points are independent from each other when the state of the sound source is known.
また、この発明では式(4)に示すように、各時間周波数点(n,k)において最も大きなエネルギーを持つ音源信号(以下、占有的な音源信号と称する)の音源パワーS(l) n,kは、観測信号の音源パワーと一致すると仮定する。 In the present invention, as shown in the equation (4), the sound source power S (l) n of the sound source signal having the largest energy at each time frequency point (n, k) (hereinafter referred to as an exclusive sound source signal ). , k is assumed to match the sound source power of the observed signal.
また、占有的ではない音源lに関しては、S(l) n,k≦Xn,kの関係を持つと仮定する。すると、各音源信号の状態が既知の条件の下で、観測信号の音源パワーXn,kの事後確率密度関数は次のように表現できることが知られている(参考文献:S. J. Rennie, J.R. Hershey, and P. A.01sen, “Hierarchical variational loopy belief propagation for multi-talker speech recognition,” Proc. ASRU-2009, pp. 176-181 2009.)。
Further, it is assumed that the
この発明では、更に上式は次のように分解可能であると仮定している。 In the present invention, it is further assumed that the above equation can be decomposed as follows.
また、この発明では音源位置特徴量から音源位置パラメータφ^(l)を推定するため、音源位置特徴量のモデルp(An,k;φ)を導入する。音源位置特徴量のモデルp(An,k;φ)は、各音源信号のエネルギーは異なる時間周波数点にわたり疎に分布していると仮定し、その時間周波数点において占有的な音源の音源位置のみに依存して決まると仮定する。 In the present invention, in order to estimate the sound source position parameter φ ^ (l) from the sound source position feature quantity, a sound source position feature quantity model p (A n, k ; φ) is introduced. The sound source location feature model p (A n, k ; φ) assumes that the energy of each sound source signal is sparsely distributed over different time frequency points, and the sound source location of the sound source that is occupied at that time frequency point Suppose that it depends only on.
一般的に、全ての音源の音源位置パラメータφ(l)をまとめてφ=[ψ(1),…,ψ(Ns)]と表すと、音源位置特徴量のモデルp(An,k;φ)、つまり観測信号の音源位置特徴量の確率密度関数は、混合分布として式(8)に示すように展開することができる。 Generally, when the sound source position parameters φ (l) of all sound sources are collectively expressed as φ = [ψ (1) ,..., Ψ (Ns) ], the sound source position feature model p (A n, k ; φ), that is, the probability density function of the sound source position feature quantity of the observation signal can be developed as a mixture distribution as shown in Expression (8).
式(8)において、Zn,kは時間周波数点(n,k)において占有的な音源の番号を表す確率変数であり、Zn,k=lは、l番目の音源が占有的な音源である場合を示す。また、p(Zn,k=l)は、l番目の音源が時間周波数点(n,k)において占有的な音源になる事前確率密度関数を表している。更に、以降の説明では次の表記を用いることにする。 In Equation (8), Z n, k is a random variable that represents the number of the sound source that is occupied at the time frequency point (n, k), and Z n, k = l is a sound source that is occupied by the l-th sound source. The case is shown. P (Z n, k = l) represents a prior probability density function in which the l-th sound source becomes an exclusive sound source at the time frequency point (n, k). Further, the following notation is used in the following description.
γφ(l),n,k(A)は、時間周波数点(n,k)において占有的な音源の番号がlの場合に、音源位置特徴量An,kが得られる確率密度関数を表す。これは、l番目の音源の音源位置パラメータφ(l)のみに依存するものとする。具体的なγφ(l),n,k(A)やφ(l)の定義については後述する。 γ φ (l), n, k (A) is the probability density function that gives the sound source position feature quantity An n, k when the number of the sound source occupied at the time frequency point (n, k) is l. To express. This depends only on the sound source position parameter φ (l) of the l-th sound source. Specific definitions of γ φ (l), n, k (A) and φ (l) will be described later.
式(8)のもと、γφ(l),n,k(A)が定義されている場合、音源位置パラメータφ(l)と占有的な音源の番号に関する事前確率密度関数p(Zn,k=l)が与えられれば、音源位置特徴量のモデルp(An,k;φ)は一意に定めることができる。逆に、音源位置特徴量An,kが観測された場合に、最尤推定などの方法に従い、音源位置パラメータと占有的な音源の番号に関する事前確率密度関数p(Zn,k=l)やその事後確率密度関数を推定することができる。 If γ φ (l), n, k (A) is defined under equation (8), the prior probability density function p (Z n regarding the sound source position parameter φ (l) and the number of the occupied sound source , k = l), the sound source position feature quantity model p (A n, k ; φ) can be uniquely determined. Conversely, when the sound source position feature quantity An n, k is observed, the prior probability density function p (Z n, k = l) for the sound source position parameter and the number of the occupied sound source according to a method such as maximum likelihood estimation And its posterior probability density function.
以上の定義に従うと、完全データの確率密度関数は式(10)に示すように導出される。 According to the above definition, the probability density function of complete data is derived as shown in equation (10).
式(10)において、qが音源パワーパラメータ、ψが音源モデルパラメータ、φが音源位置パラメータであり、これらのパラメータがパラメータ推定の対象である。この発明では、次の対数尤度関数を最大化する値として、音源パワーパラメータqと音源モデルパラメータψと音源位置パラメータφを推定する。 In equation (10), q is a sound source power parameter, ψ is a sound source model parameter, and φ is a sound source position parameter, and these parameters are parameters to be estimated. In the present invention, the sound source power parameter q, the sound source model parameter ψ, and the sound source position parameter φ are estimated as values that maximize the next log likelihood function.
式(12)で、確率変数Zn,kは隠れ変数として扱われる。隠れ変数を含む対数尤度関数の最大化には、例えば、期待値最大化アルゴリズムなどを用いることができる。期待値最大化アルゴリズムでは、音源パワーパラメータの推定値^qと音源位置パラメータの推定値^φと音源モデルパラメータの推定値^ψに基づき、観測信号が得られた下での占有的な音源の番号の事後確率密度関数^M(l) n,k=p(Zn,k|An,k,Xn,k,^q;^φ,^ψ)をも同時に推定する必要がある。この発明では、この関数の値を音源占有度と称し、この値も音源パラメータに含めて考える。 In equation (12), the random variable Z n, k is treated as a hidden variable. For example, an expectation maximization algorithm can be used to maximize the log likelihood function including hidden variables. In the expected value maximization algorithm, the sound source power parameter estimate ^ q, the sound source position parameter estimate ^ φ and the sound source model parameter estimate ^ ψ The a posteriori probability density function ^ M (l) n, k = p (Z n, k │A n, k , X n, k , ^ q; ^ φ, ^ ψ) must be estimated at the same time. In the present invention, the value of this function is referred to as the sound source occupancy, and this value is also included in the sound source parameters.
以上説明した考えで、音源パワー特徴量のモデルβq(l),n,k,ψ(l)(S)と、音源位置特徴量のモデルp(An,k;φ)の両者を考慮しながら最適な音源パラメータを推定することで音源パラメータの推定誤差を減らすことができる。また、音源位置特徴量のモデルp(An,k;φ)(式(8))と、音源パワー特徴量のモデル(式(7))に、占有的な音源の番号を表す変数Zn,kを共有化することで、2つの特徴量を考慮しながら音源パラメータ推定の計算を簡単にすることができる。 In the above-described concept, both the sound source power feature model β q (l), n, k, ψ (l) (S) and the sound source position feature model p (A n, k ; φ) are considered. However, the estimation error of the sound source parameter can be reduced by estimating the optimum sound source parameter. In addition, the variable Z n representing the number of the exclusive sound source is added to the sound source position feature quantity model p (A n, k ; φ) (formula (8)) and the sound source power feature quantity model (formula (7)). , k can be used to simplify calculation of sound source parameter estimation while considering two feature quantities.
以上、述べたように、この発明の音源パラメータ推定方法によれば、l番目の音源信号の音源パワー時系列全体{S(l) n,k}の同時確率密度関数を音源モデルパラメータψ(l)を含めてモデル化すると共に、複数の音が混在した信号の音源パワー特徴量Xn,kが与えられたときに、各音源の音源占有度、音源パワー特徴量のモデルと音源パワーパラメータの事前確率密度関数、および音源パワーパラメータに基づいて各音源の音源モデルパラメータを更新する音源モデルパラメータ更新部を有することで、予め音源モデルパラメータが与えられていなくとも音源パラメータの推定が行える。 As described above, according to the sound source parameter estimation method of the present invention, the simultaneous probability density function of the entire sound source power time series {S (l) n, k } of the l-th sound source signal is expressed as the sound source model parameter ψ (l ) with model including, excitation power characteristic quantity X n of a signal in which a plurality of sound are mixed, when the k is given, the sound source occupancy of each sound source, the sound source power feature quantity model and the excitation power parameter By including a sound source model parameter updating unit that updates the sound source model parameters of each sound source based on the prior probability density function and the sound source power parameters, the sound source parameters can be estimated even if the sound source model parameters are not given in advance.
図1にこの発明の音源パラメータ推定装置100の機能構成例を示す。その動作フローを図2に示す。音源パラメータ推定装置100は、特徴抽出部910と、音源モデル記憶部90と、音源の数に対応した数の音源パワーパラメータ更新部601〜60Nsと、音源パワーパラメータ更新部601〜60Nsと同じ数の音源位置パラメータ更新部9401〜940Nsと、音源占有度更新部70と、音源モデルパラメータ更新部80と、を具備する。その各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
FIG. 1 shows a functional configuration example of a sound source
音源パラメータ推定装置100は、従来技術で説明した音源パワーパラメータ推定装置900に対して音源モデルパラメータ更新部80を備える点で異なる。特徴抽出部910と音源位置パラメータ更新部9401〜940Nsとは、参照符号から明らかなように音源パワーパラメータ推定装置900と同じものである。
The sound source
各機能部の動作を説明する。 The operation of each functional unit will be described.
〔特徴抽出部〕
特徴抽出部910は、複数の音源信号を複数(m本)のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号x(m) n,kを入力として、各時間周波数点(n,k)における音源位置特徴量An,kと音源パワー特徴量Xn,kを抽出する。
(Feature extraction unit)
The
音源パワー特徴量Xn,kは、例えば、1本目のマイクロホンが収音した信号の対数パワースペクトルを音源パワー特徴量として抽出する場合には式(13)に示すように計算される。音源パワー特徴量Xn,kは、音源占有度更新部70と音源パワーパラメータ更新部601〜60Nsに入力される。
For example, when the logarithmic power spectrum of the signal collected by the first microphone is extracted as the sound source power feature amount, the sound source power feature amount X n, k is calculated as shown in Expression (13). The sound source power feature amount X n, k is input to the sound source
音源位置特徴量An,kは、一般に各時間周波数点における異なるマイクロホン間での信号の位相差や強度比などに表れる。したがって、音源位置特徴量An,kは、信号の位相差や強度比を異なるマイクロホンペアごとにまとめて出来るベクトルであったり、そこから更に何らかの特徴抽出を行った結果の値として抽出される。例えば、2本のマイクロホンで収音した信号の位相差を音源位置特徴量An,kとして抽出する場合、式(14)に示すように計算される。 The sound source position feature amount An, k generally appears in the phase difference or intensity ratio of signals between different microphones at each time frequency point. Therefore, the sound source position feature amount An, k is a vector that can be obtained by collecting signal phase differences and intensity ratios for different microphone pairs, or is extracted as a value obtained as a result of some feature extraction. For example, when a phase difference between signals collected by two microphones is extracted as the sound source position feature amount An, k , the calculation is performed as shown in Expression (14).
〔音源モデル記憶部〕
音源モデル記憶部90は、複数の音源信号それぞれの音源パワー時系列全体の状態を表す音源パワーパラメータq(l)の事前確率密度関数p(q(l);ψ(l))と、その音源パワーパラメータq(l)が与えられた場合の各音源信号の各時間周波数点における音源パワー特徴量のモデルβq(l),n,k,ψ(l)(S)とを記憶する。(S)は音源パワー特徴量Xn,kを表す変数である。
[Sound source model storage unit]
The sound source model storage unit 90 includes a prior probability density function p (q (l) ; ψ (l) ) of a sound source power parameter q (l) representing the state of the entire sound source power time series of each of a plurality of sound source signals, and the sound source A model β q (l), n, k, ψ (l) (S) of the sound source power feature quantity at each time frequency point of each sound source signal when the power parameter q (l) is given is stored. (S) is a variable representing the sound source power feature amount X n, k .
〔音源占有度更新部〕
音源占有度更新部70は、音源位置特徴量An,kと音源パワー特徴量Xn,kと各音源の更新された音源パワーパラメータ^q (l)と音源位置パラメータ^φ (l)と、音源モデルパラメータ^ψ (l)と、音源モデル記憶部90に記憶された音源パワーパラメータの事前確率密度関数p(q(l);ψ(l))と音源パワー特徴量のモデルβq(l),n,k,ψ(l)(S)とを入力として上記各音源の音源占有度を更新する。
[Sound source occupancy update section]
The sound source
音源占有度更新部70は、Σl^M(l)=1となるように、音源占有度^M (l) n,kを、例えば乱数で初期化する(ステップS70)。若しくは、従来技術で説明した音源パラメータ推定装置900と同じ方法を用いても良い。その後、音源パワーパラメータ更新部601〜60Nsと音源占有度更新部70と音源位置パラメータ更新部9401〜940Nsと音源モデルパラメータ更新部80の各処理を収束するまで繰り返す。
The sound source
〔音源パワーパラメータ更新部〕
音源パワーパラメータ更新部601〜60Nsは、音源パワー特徴量Xn,kと、各音源lごとに初期化された音源占有度^M (l) n,kと、音源モデル記憶部90に記憶された音源パワーパラメータ^q (l)の事前確率密度関数p(q(l);ψ(l))と音源パワー特徴量のモデルβq(l),n,k,ψ(l)(S)と音源モデルパラメータ^ψ (l)とを入力として、音源パワーパラメータ^q (l)を式(15)に示すように更新(M-step)する(ステップS60)。
[Sound source power parameter update unit]
The sound source power
〔音源位置パラメータ更新部〕
音源位置パラメータ更新部9401〜940Nsは、各音源lごとに初期化された音源占有度^M (l) n,kと、音源位置特徴量An,kを入力として音源位置パラメータ^φ (l)を、式(17)に示すように更新(M-step)する(ステップS940)。
[Sound source position parameter update unit]
The sound source position
〔音源モデルパラメータ更新部〕
音源モデルパラメータ更新部80は、音源パワー特徴量Xn,kと音源パワーパラメータ^q (l)と音源占有度^M (l) n,kと、音源モデル記憶部90に記憶された音源パワーパラメータの事前確率密度関数p(q(l);ψ(l))と音源パワー特徴量のモデルβq(l),n,k,ψ(l)(S)とを入力として音源モデルパラメータ^ψ (l)を式(15′)に示すように更新する(ステップS81)。
[Sound source model parameter update unit]
The sound source model
そして、音源占有度更新部70は、各音源lごとに更新された音源パワーパラメータ^q(l)と音源モデルパラメータ^ψ(l)と音源位置特徴量An,kと音源パワー特徴量Xn,kと、音源モデル記憶部90に記憶された音源パワーパラメータの事前確率密度関数p(q(l);ψ(l))と音源パワー特徴量のモデルβq(l),n,k,ψ(l)(S)と、を入力として、音源占有度^M (l) n,kを式(18)に示すように更新(E-step)する(ステップS71)。
The sound source
ステップS60〜ステップS71の処理は、収束が得られるまで繰り返される(ステップS72のno)。より具体的な音源位置特徴量のモデル及び、音源パワー特徴量のモデルを用いた実施例2を次に説明する。 Steps S60 to S71 are repeated until convergence is obtained (no in step S72). A second embodiment using a more specific model of the sound source position feature amount and the model of the sound source power feature amount will be described next.
先ず、特徴抽出部910は、式(14)に基づきマイク間位相差を、音源位置特徴量An,kとして抽出する。また、各音源lに由来する観測信号のマイク間位相差は、各周波数ごとに異なる平均値μ(l) k、分散σ(l) kのガウス分布に従うと仮定する。すると式(9)は以下のように定義できる。
First, the
但し、φ(l) k=[μ(l) k,σ(l) k]は、音源位置パラメータφ(l)のうち周波数kのみに関する部分を取り出したものであり、φ(l)は全ての周波数kについてφ(l) kを集めたφ(l)=[φ(l) 1,…, φ(l) Nk]である。N(・)は、ガウス分布の確率密度関数を表す。 Where φ (l) k = [μ (l) k , σ (l) k ] is a part of the sound source position parameter φ (l) extracted only for frequency k, and φ (l) is all Φ (l) = [φ (l) 1 ,..., Φ (l) Nk ] in which φ (l) k is collected with respect to frequency k. N (•) represents a probability density function of Gaussian distribution.
一方、特徴抽出部910は、式(13)に基づき、どれか一つのマイクロホン信号の対数パワースペクトルを音源パワー特徴量Xn,kとして抽出するものとする。さらに、音源パワーパラメータq(l)は、q(l)={q(l) 0,q(l) 1,…}のように各時刻の状態を表す状態系列に分解され、一次のマルコフ過程に従い状態遷移が各時刻で起こると仮定する。
On the other hand, the
但し、音源パワーパラメータq(l) 0は隠れマルコフモデルの初期状態を表す。更に、式(3)で定義される各時間周波数点(n,k)におけるS(l) n,kの事後確率密度関数は、その時刻の状態q(l) nのみに依存するガウス分布に従うと仮定する。これを数式で表すと次のようになる。 However, the sound source power parameter q (l) 0 represents the initial state of the hidden Markov model. Further, the posterior probability density function of S (l) n, k at each time frequency point (n, k) defined by Equation (3) follows a Gaussian distribution that depends only on the state q (l) n at that time. Assume that This is expressed by the following formula.
ここで、π(l) i=p(q(l) 0=i)は、隠れマルコフモデルの初期状態がiである事前確率、α(l) i,j=p(q(l) n=j|q(l) n-1=i)は、隠れマルコフモデルが状態iから状態jへ移る状態遷移確率、βi,n,k,ψ(l)(S)=p(S(l) n,k=S|q(l) n=i;ψ(l))=N(S(l) n,k;μ(l) i,k,σ(l) i,k)は、隠れマルコフモデルの状態iにおける出力の確率密度関数であり、μ(l) i,k及びσ(l) i,kはその平均と分散である。 Where π (l) i = p (q (l) 0 = i) is the prior probability that the initial state of the hidden Markov model is i, α (l) i, j = p (q (l) n = j | q (l) n-1 = i) is the state transition probability that the hidden Markov model moves from state i to state j, β i, n, k, ψ (l) (S) = p (S (l) n, k = S | q (l) n = i; ψ (l) ) = N (S (l) n, k ; μ (l) i, k , σ (l) i, k ) is a hidden Markov The probability density function of the output in state i of the model, and μ (l) i, k and σ (l) i, k are the mean and variance.
この定義に基づくと、音源モデルパラメータ^ψ(l)は、全てのi,j,k,lに対するπ(l) i, α(l) i,j,μ(l) i,k,σ(l) i,kで構成される。この実施例では、全て若しくは一部の音源モデルパラメータが音源パラメータの一部として期待値最大化アルゴリズムにより推定される。 Based on this definition, the sound source model parameter ^ ψ (l) is π (l) i , α (l) i, j , μ (l) i, k , σ (for all i, j, k, l l) It consists of i and k . In this embodiment, all or some of the sound source model parameters are estimated by the expected value maximization algorithm as part of the sound source parameters.
以上の仮定の下、図2で説明済みの期待値最大化アルゴリズムのM-step1は、各音源lごとに、音源パワーパラメータ更新部601〜60Nsが式(22)を満たす状態時系列^q (l)=[^q (l) 0,…,^q (l) Ns]を、Viterbiアルゴリズムを用いて更新する。
Under the above assumptions, M-step1 of the expected value maximization algorithm already explained in FIG. 2 is a state time series for which the sound source power
また、M-step2は、各音源lごとに、音源位置パラメータ更新部9401〜940Nsが、全ての周波数kで、φ(l) k=[μ(l) k,σ(l) k]を次のように更新する。
In addition, for each sound source l, the sound source position
また、M-step3は、音源lごとに、音源モデルパラメータ更新部80が音源モデルパラメータ^ψ (l)を更新する。まず、π(l),α(l)を、i,jに関するπ(l) i,α(l) i,jの集合とすると、π(l),α(l)は以下のように更新される。
In M-step 3, the sound source model
上記の更新は、隠れマルコフモデルの学習のための既知の方法で容易に実現することが可能である。一方、μ(l),σ(l)を全てのi,kに関するμ(l) i,k,σ(l) i,kの集合とすると、μ(l),σ(l)の更新は、以下のように実現される。 The above update can be easily realized by a known method for learning a hidden Markov model. On the other hand, if μ (l) , σ (l) is a set of μ (l) i, k , σ (l) i, k for all i, k , the update of μ (l) , σ (l) is This is realized as follows.
上記の更新を実現する一つの方法として、準ニュートン法、共役勾配法などに代表される逐次最大化アルゴリズムを上げることができる。これには、一般的に知られる多くのアルゴリズムを適用することができる。一方、上記の関数中に含まれるlog(βq(l)n,n,k,ψ(l)(Xn,k))は解析的な扱いが容易であるが、log(ρq(l)n,n,k,ψ(l)(Xn,k))は積分演算が含まれているため解析的な扱いが複雑になり、逐次最大化アルゴリズムに必要とされる計算を比較的複雑にしてしまう問題がある。これを回避する一つの方法は、log(ρq(l)n,n,k,ψ(l)(Xn,k))を解析的な扱いが比較的容易な関数で近似することである。以下では、これについて少し詳しく説明する。 As one method for realizing the above update, a sequential maximization algorithm represented by a quasi-Newton method, a conjugate gradient method, or the like can be raised. Many generally known algorithms can be applied to this. On the other hand, log (β q (l) n, n, k, ψ (l) (X n, k )) included in the above function is easy to handle analytically, but log (ρ q (l ) n, n, k, ψ (l) (X n, k )) contains integral operations, making it more complicated to handle analytically and making the calculations required for sequential maximization algorithms relatively complex There is a problem that makes it. One way to avoid this is to approximate log (ρ q (l) n, n, k, ψ (l) (X n, k )) with a function that is relatively easy to handle analytically. . In the following, this will be described in some detail.
まず、x=(Xn,k-μ(l) i,k)(σ(l) i,k)-1/2とおき、f(x)= log(ρq(l)n,n,k,ψ(l)(Xn,k))と等価な以下の正規表現に書き換えておく。 First, set x = (X n, k -μ (l) i, k ) (σ (l) i, k ) -1/2 and f (x) = log (ρ q (l) n, n, Rewrite the following regular expression equivalent to k, ψ (l) (X n, k )).
すると、上記の関数f(x)の一次導関数df(x)/dxは、以下のどちらか一方の関数で近似できる。 Then, the first derivative df (x) / dx of the function f (x) can be approximated by one of the following functions.
これらの関数は、どちらも解析的な扱いが容易であり、特にμ(l) i,k,σ(l) i,kの更新に用いることで、例えば、以下の2つの利点を得ることができる。 Both of these functions are easy to handle analytically. In particular , when used to update μ (l) i, k , σ (l) i, k , for example, the following two advantages can be obtained. it can.
その1は、μ(l) i,kの更新に関してf(x)の一次導関数をg1(x)で近似することで、高速な収束が得られる繰り返し推定法の一つであるニュートン法に関しても大域的な収束が保証される。その2は、g2(x)は、log(ρq(l)n,n,k,ψ(l)(Xn,k))の一次導関数と同じ数学的な形式をしているため、μ(l) i,k,σ(l) i,kの更新においてf(x)の一次導関数を、g2(x)で近似することで、複雑な計算を行わずに逐次最大化アルゴリズムを適用することができる。 The first is Newton's method, which is one of the iterative estimation methods that can obtain fast convergence by approximating the first derivative of f (x) with g 1 (x) for the update of μ (l) i, k The global convergence is guaranteed. The second is that g 2 (x) has the same mathematical form as the first derivative of log (ρ q (l) n, n, k, ψ (l) (X n, k )). , Μ (l) i, k , σ (l) i, k update by approximating the first derivative of f (x) with g 2 (x) Algorithms can be applied.
したがって、例えばg1(x)を用いると、ニュートン法によるμ(l) i,kの1回の更新は以下のように実現することができる。 Therefore, for example, when g 1 (x) is used, one update of μ (l) i, k by the Newton method can be realized as follows.
ここでν(l) iは、q(l) n=iを満たす時間nの集合を表す。g1′(x)は、g1(x)の一次導関数を表す。 Here, ν (l) i represents a set of time n satisfying q (l) n = i. g 1 ′ (x) represents the first derivative of g 1 (x).
一方、g2(x)を用いると、σ(l) i,kの更新は以下のように実現することができる。 On the other hand, using g 2 (x) , the update of σ (l) i, k can be realized as follows.
ただし、κ(l) i,kは以下の値をとるものとする。 However, κ (l) i, k assumes the following values.
また、音源占有度更新部70が行うE-stepは、音源占有度を式(32)に示すように更新する。
Further, the E-step performed by the sound source
ここで、事前に学習した隠れマルコフモデルがない場合の音源モデルパラメータ^ψ (l)の初期化について他の方法を説明する。音源パワー特徴量の時系列を混合ガウスモデルでモデル化し、その結果得られた混合ガウス分布の分布パラメータψ′のうち混合比α′からπ(l),α(l)を、各ガウス分布の平均μ′i,kと分散σ′ i,kからμ(l) i,k,σ(l) i,kを定める。このとき、混合ガウスモデルは以下の形をとる。 Here, another method for initializing the sound source model parameter ^ ψ (l) when there is no previously learned hidden Markov model will be described. The time series of sound source power features is modeled with a mixed Gaussian model, and the resulting mixture parameters α ′ to π (l) and α (l) of the distribution parameters ψ ′ of the mixed Gaussian distribution are Μ (l) i, k and σ (l) i, k are determined from the average μ ′ i, k and the variance σ ′ i, k . At this time, the mixed Gaussian model takes the following form.
音源パワー特徴量Xn,kが与えられた条件下で、混合ガウス分布の分布パラメータを定めるためには、例えば、期待値最大化アルゴリズムなどのように、一般的に知られている方法を適用することができる。その結果得られた分布パラメータを元に、音源モデルパラメータ^ψ (l)を以下のように定めることができる。 In order to determine the distribution parameters of the mixed Gaussian distribution under the condition where the sound source power feature amount X n, k is given, for example, a generally known method such as an expected value maximization algorithm is applied. can do. Based on the distribution parameters obtained as a result, the sound source model parameter ^ ψ (l) can be determined as follows.
これにより、観測された音源パワー特徴量の分布を近似的に表現する音源モデルパラメータの初期化を行うことができる。 As a result, it is possible to initialize the sound source model parameter that approximately represents the distribution of the observed sound source power feature quantity.
〔変形例1〕
次に、音源モデルパラメータ更新部80が更新する音源モデルパラメータψ(l)の一つであるμ(l) i,kの更新方法の変形例を説明する。例えば、μ(l) i,kの事前確率密度関数p(μ(l) i,k)=N(μ(l) i,k;~μ (l) i,k,~σ (l) i,k)が与えられていると仮定する。この事前確率密度関数の分布パラメータとしては、上記して説明した例で述べた方法などに基づき初期化された音源モデルパラメータの値を用いて、~μ(l) i,k=^μ(l) i,k,~σ(l) i,k=^σ(l) i,kと定めることが効果的であることが実験により確認されている。
[Modification 1]
Next, a modified example of a method for updating μ (l) i, k which is one of the sound source model parameters ψ (l) updated by the sound source model
この事前確率密度関数を用いると^μ(l) i,kの更新式(29)は、事後確率最大化基準に基づき以下のように修正される。 Using this prior probability density function , the update equation (29) for ^ μ (l) i, k is modified as follows based on the posterior probability maximization criterion.
ここで、ρは事前確率密度関数の重みを調整するコントロールパラメータ(>0)であり、事前確率密度関数を信頼する程度に基づいて自由に定めることができる。 Here, ρ is a control parameter (> 0) for adjusting the weight of the prior probability density function, and can be freely determined based on the degree to which the prior probability density function is trusted.
〔音源分離装置〕
図3に、この発明の音源分離装置200の機能構成例を示す。その動作フローを図4に示す。音源分離装置200は、上記した音源パラメータ推定装置100と、音源分離部95と、を具備する。
[Sound source separation device]
FIG. 3 shows a functional configuration example of the sound source separation device 200 of the present invention. The operation flow is shown in FIG. The sound source separation device 200 includes the above-described sound source
音源分離部95は、音源パラメータ推定装置100が出力する音源パワー特徴量Xn,kと、更新した音源占有度^M (l) n,kと音源パワーパラメータ^q(l) nと音源モデルパラメータ^ψ(l)と、各音源信号の各時間周波数点における音源パワー特徴量のモデルβq(l),n,k,ψ(l)(S)と、を入力として複数の音源のそれぞれの音源分離信号^S(l) n,kを最小自乗誤差推定により求める。
The sound
音源分離の方法は次式によって行う。 The sound source separation method is performed by the following equation.
〔確認実験〕
この発明の音源分離性能を評価する目的で確認実験を行った。実験条件を説明する。観測信号を30組用意し、全ての観測信号において音源数はNs=2とした。各観測信号は、それぞれ2人の男性の発話、2人の女性の発話、若しくは1名の女性と1名の男性の発話の混合音で構成した。
[Confirmation experiment]
A confirmation experiment was conducted for the purpose of evaluating the sound source separation performance of the present invention. The experimental conditions will be described. 30 sets of observation signals were prepared, and the number of sound sources in all the observation signals was N s = 2. Each observation signal was composed of two male utterances, two female utterances, or a mixed sound of one female and one male utterance.
標本化周波数は16kHzとした。各観測信号に含まれる2つのマイクロホン信号は、各話者の発話に関するマイク間時間差がそれぞれ±1.5ミリ秒になるように、計算機上で信号を加算して合成した(混合条件1)。音源モデルパラメータの初期値は、上記した事前に学習した隠れマルコフモデルがない場合の初期化方法で初期化した値を用いた。そして、変形例1で説明した事前確率密度関数を利用した。各隠れマルコフモデルの状態数は4とした。
The sampling frequency was 16 kHz. The two microphone signals included in each observation signal were synthesized by adding signals on the computer so that the time difference between the microphones related to each speaker's utterance was ± 1.5 milliseconds (mixing condition 1). As the initial value of the sound source model parameter, the value initialized by the above-described initialization method when there is no hidden Markov model learned in advance was used. And the prior probability density function demonstrated in the
実験結果を図5と図6に示す。図5の縦軸は、混合前の音声から推定した音源パワー特徴量に関する隠れマルコフモデルのそれぞれについての各状態の出力分布の平均のパワー(dB)、横軸は周波数(kHz)である。図5(a)は混合前の音声から推定した結果、図5(b)は混合音から推定した結果を示す。 The experimental results are shown in FIGS. The vertical axis in FIG. 5 represents the average power (dB) of the output distribution in each state for each of the hidden Markov models related to the sound source power feature amount estimated from the sound before mixing, and the horizontal axis represents the frequency (kHz). FIG. 5A shows the result estimated from the sound before mixing, and FIG. 5B shows the result estimated from the mixed sound.
混合音中から推定されたパラメータ(図5(b))は、混合前の音声から推定されたパラメータと酷似しており、この発明のパラメータ推定精度の信頼性の高さを証明している。 The parameter estimated from the mixed sound (FIG. 5B) is very similar to the parameter estimated from the sound before mixing, and proves the high reliability of the parameter estimation accuracy of the present invention.
図6に、分離後の信号のケプストラム歪みと混合音の数との関係を示す。縦軸はケプストラム歪み(dB)、横軸は混合音の数(数が増えるほど観測信号が長くなる)である。太い実線(□)で示す特性は、この発明で音源モデルパラメータを混合前の各音声信号から学習した場合を示す。実線(○)で示す特性は、この発明で音源モデルパラメータを観測信号のみから推定した場合を示す。一点鎖線(△)で示す特性は、非特許文献1の方法を用いた場合を示す。
FIG. 6 shows the relationship between the cepstrum distortion of the signal after separation and the number of mixed sounds. The vertical axis represents the cepstrum distortion (dB), and the horizontal axis represents the number of mixed sounds (the observed signal becomes longer as the number increases). The characteristic indicated by the thick solid line (□) indicates the case where the sound source model parameter is learned from each sound signal before mixing in the present invention. The characteristic indicated by the solid line (o) indicates the case where the sound source model parameter is estimated from only the observation signal in the present invention. The characteristic indicated by the alternate long and short dash line (Δ) indicates the case where the method of
図6(a)は、混合条件1の混合音に対して処理した結果、図6(b)と(c)は、残響のある別の環境で収録した混合音(混合条件2と3)に対して処理した結果を示している。全ての場合において、この発明の音源分離方法は、非特許文献1の方法よりもケプストラム歪みの小さな音源分離を実現している。また、音源モデルパラメータを事前学習していない場合でも、事前学習している場合に相当する性能が実現できていることが確認できる。
6A shows the result of processing the mixed sound under the mixing
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 When the processing means in the above apparatus is realized by a computer, the processing contents of the functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording media, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 This program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (7)
上記複数の音源信号を複数のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号を入力として、各時間周波数点における音源位置特徴量と音源パワー特徴量を抽出する特徴抽出部と、
上記音源パワー特徴量と、上記観測信号が得られた下での占有的な音源の事後確率密度関数である音源占有度と、上記音源パワーパラメータの事前確率密度関数と上記各音源信号の音源パワー特徴量のモデルと、上記音源パワー特徴量のモデルと上記事前確率密度関数のそれぞれの挙動を制御するパラメータである音源モデルパラメータと、を入力として上記各音源の音源パワーパラメータを更新する音源パワーパラメータ更新部と、
上記音源位置特徴量と音源占有度を入力として、上記各音源の音源位置パラメータを更新する音源位置パラメータ更新部と、
上記音源パワー特徴量と上記音源パワーパラメータと上記音源占有度と、上記音源モデル記憶部に記憶された音源パワーパラメータの事前確率密度関数と音源パワー特徴量のモデルとを入力として上記音源モデルパラメータを更新する音源モデルパラメータ更新部と、
上記音源位置特徴量と音源パワー特徴量と各音源の更新された音源パワーパラメータと音源位置パラメータと、上記音源モデルパラメータと、上記音源モデル記憶部に記憶された音源パワーパラメータの事前確率密度関数と音源パワー特徴量のモデルとを入力として上記各音源の音源占有度を更新する音源占有度更新部と、
を具備する音源パラメータ推定装置。 Prior probability density function of sound source power parameters representing the state of the entire sound source power time series of each of the plurality of sound source signals, and a model of sound source power features at each time frequency point of each sound source signal when the sound source power parameters are given And a sound source model storage unit storing
A feature extraction unit that extracts a sound source position feature amount and a sound source power feature amount at each time frequency point by using an observation signal obtained by converting a time domain signal obtained by collecting the plurality of sound source signals with a plurality of microphones into a time frequency domain signal. When,
The sound source power feature amount, the sound source occupancy which is a posterior probability density function of the exclusive sound source under which the observation signal is obtained, the prior probability density function of the sound source power parameter, and the sound source power of each sound source signal A sound source power parameter for updating a sound source power parameter of each sound source by inputting a feature amount model, a sound source model parameter which is a parameter for controlling the behavior of each of the sound source power feature amount model and the prior probability density function. Update section,
A sound source position parameter update unit that updates the sound source position parameter of each sound source, using the sound source position feature amount and the sound source occupancy as inputs,
The sound source model parameter is obtained by inputting the sound source power feature amount, the sound source power parameter, the sound source occupancy, the prior probability density function of the sound source power parameter stored in the sound source model storage unit, and the model of the sound source power feature amount. A sound source model parameter update unit to be updated;
The sound source position feature amount, the sound source power feature amount, the updated sound source power parameter and the sound source position parameter of each sound source, the sound source model parameter, a prior probability density function of the sound source power parameter stored in the sound source model storage unit, A sound source occupancy update unit that updates a sound source occupancy of each of the sound sources as an input of a model of a sound source power feature;
A sound source parameter estimation apparatus comprising:
上記音源パワー特徴量の時系列は隠れマルコフモデルに従い、上記各音源信号のマルコフモデルの状態が既知の条件下における上記音源パワーパラメータの事後確率密度関数は共分散行列が対角行列で表されるガウス分布でモデル化されており、当該ガウス分布の平均と共分散行列の対角要素を上記音源モデルパラメータに含むことを特徴とする音源パラメータ推定装置。 In the sound source parameter estimation apparatus according to claim 1,
The time series of the sound source power feature amount follows a hidden Markov model, and the posterior probability density function of the sound source power parameter under a condition where the state of the Markov model of each sound source signal is known is expressed by a covariance matrix as a diagonal matrix. A sound source parameter estimation apparatus characterized by being modeled by a Gaussian distribution and including the mean of the Gaussian distribution and a diagonal element of a covariance matrix in the sound source model parameter.
その音源パラメータ推定装置が出力する音源パワー特徴量と、当該音源パラメータ推定装置が更新した音源占有度と音源パワー特徴量と音源パワーパラメータと音源モデルパラメータと、上記各音源信号の各時間周波数点における音源パワー特徴量のモデルと、を入力として複数の音源のそれぞれの音源分離信号を、最小自乗誤差推定により求める音源分離部と、
を具備する音源分離装置。 The sound source parameter estimation device according to claim 1 or 2,
The sound source power feature amount output by the sound source parameter estimation device, the sound source occupancy, the sound source power feature amount, the sound source power parameter, the sound source model parameter updated by the sound source parameter estimation device, and the respective sound source signals at each time frequency point A sound source separation unit that obtains a sound source separation signal of each of a plurality of sound sources by input of a model of a sound source power feature amount by least square error estimation;
A sound source separation apparatus comprising:
上記音源パワー特徴量と、上記観測信号が得られた下での占有的な音源の事後確率密度関数である音源占有度と、音源モデル記憶部に記憶された音源パワーパラメータの事前確率密度関数と上記各音源信号の音源パワー特徴量のモデルと、上記音源パワー特徴量のモデルと上記事前確率密度関数のそれぞれの挙動を制御するパラメータである音源モデルパラメータと、を入力として上記各音源の音源パワーパラメータを更新する音源パワーパラメータ更新過程と、
上記音源位置特徴量と音源占有度を入力として、上記各音源の音源位置パラメータを更新する音源位置パラメータ更新過程と、
上記音源パワー特徴量と上記音源パワーパラメータと上記音源占有度と、上記音源モデル記憶部に記憶された音源パワーパラメータの事前確率密度関数と音源パワー特徴量のモデルとを入力として上記音源モデルパラメータを更新する音源モデルパラメータ更新過程と、
上記音源位置特徴量と音源パワー特徴量と各音源の更新された音源パワーパラメータと音源位置パラメータと、上記音源モデルパラメータと、上記音源モデル記憶部に記憶された音源パワーパラメータの事前確率密度関数と音源パワー特徴量のモデルとを入力として上記各音源の音源占有度を更新する音源占有度更新過程と、
を備える音源パラメータ推定方法。 A feature extraction process that extracts the sound source position feature and sound source power feature at each time frequency point using the observation signal obtained by converting the time domain signal obtained by collecting multiple sound source signals with multiple microphones into the time frequency domain signal. ,
The sound source power feature amount, the sound source occupancy that is the posterior probability density function of the exclusive sound source under which the observation signal is obtained, and the prior probability density function of the sound source power parameter stored in the sound source model storage unit, The sound source power feature value model of each sound source signal, the sound source power feature value model, and a sound source model parameter that is a parameter for controlling the behavior of each of the prior probability density functions, and the sound source power of each sound source Sound source power parameter update process for updating parameters,
A sound source position parameter update process for updating the sound source position parameter of each sound source, using the sound source position feature amount and the sound source occupancy as inputs.
The sound source model parameter is obtained by inputting the sound source power feature amount, the sound source power parameter, the sound source occupancy, the prior probability density function of the sound source power parameter stored in the sound source model storage unit, and the model of the sound source power feature amount. Sound source model parameter update process to be updated,
The sound source position feature amount, the sound source power feature amount, the updated sound source power parameter and the sound source position parameter of each sound source, the sound source model parameter, a prior probability density function of the sound source power parameter stored in the sound source model storage unit, A sound source occupancy update process for updating the sound source occupancy of each of the above sound sources by inputting a model of a sound source power feature,
A sound source parameter estimation method comprising:
上記音源パワー特徴量の時系列は隠れマルコフモデルに従い、上記各音源信号のマルコフモデルの状態が既知の条件下における上記音源パワーパラメータの事後確率密度関数は共分散行列が対角行列で表されるガウス分布でモデル化されており、当該ガウス分布の平均と共分散行列の対角要素を上記音源モデルパラメータに含むことを特徴とする音源パラメータ推定方法。 In the sound source parameter estimation method according to claim 4,
The time series of the sound source power feature amount follows a hidden Markov model, and the posterior probability density function of the sound source power parameter under a condition where the state of the Markov model of each sound source signal is known is expressed by a covariance matrix as a diagonal matrix. A sound source parameter estimation method characterized by being modeled by a Gaussian distribution and including the mean of the Gaussian distribution and a diagonal element of a covariance matrix in the sound source model parameter.
を備える音源分離方法。 The sound source power feature amount extracted by the sound source parameter estimation method according to claim 4, the sound source occupancy, the sound source power feature amount, the sound source power parameter, the sound source model parameter updated by the sound source parameter estimation method, and each of the sound sources A sound source separation process for obtaining a sound source separation signal of each of a plurality of sound sources by input of a model of a sound source power feature amount at each time frequency point of the signal by least square error estimation;
A sound source separation method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011036713A JP5438704B2 (en) | 2011-02-23 | 2011-02-23 | Sound source parameter estimation device, sound source separation device, method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011036713A JP5438704B2 (en) | 2011-02-23 | 2011-02-23 | Sound source parameter estimation device, sound source separation device, method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012173592A true JP2012173592A (en) | 2012-09-10 |
JP5438704B2 JP5438704B2 (en) | 2014-03-12 |
Family
ID=46976523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011036713A Active JP5438704B2 (en) | 2011-02-23 | 2011-02-23 | Sound source parameter estimation device, sound source separation device, method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5438704B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013044909A (en) * | 2011-08-24 | 2013-03-04 | Nippon Telegr & Teleph Corp <Ntt> | Background sound suppressor, background sound suppression method and program |
JP2013167698A (en) * | 2012-02-14 | 2013-08-29 | Nippon Telegr & Teleph Corp <Ntt> | Apparatus and method for estimating spectral shape feature quantity of signal for every sound source, and apparatus, method and program for estimating spectral feature quantity of target signal |
JP2014157261A (en) * | 2013-02-15 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | Sound source separating device, sound source separating method, and program |
JP2015125238A (en) * | 2013-12-26 | 2015-07-06 | Pioneer DJ株式会社 | Sound signal processor, control method of sound signal processor, and program |
-
2011
- 2011-02-23 JP JP2011036713A patent/JP5438704B2/en active Active
Non-Patent Citations (2)
Title |
---|
CSNJ201110010380; 荒木章子他: '"マイク間位相差とスペクトル包絡の同時クラスタリングに基づくスパース音源分離"' 日本音響学会2010年春季研究発表会講演論文集CD-ROM , 201003, pp.799-802 * |
CSNJ201110018331; 中谷智広他: '"DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離"' 日本音響学会2010年秋季研究発表会講演論文集CD-ROM , 201009, pp.577-580 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013044909A (en) * | 2011-08-24 | 2013-03-04 | Nippon Telegr & Teleph Corp <Ntt> | Background sound suppressor, background sound suppression method and program |
JP2013167698A (en) * | 2012-02-14 | 2013-08-29 | Nippon Telegr & Teleph Corp <Ntt> | Apparatus and method for estimating spectral shape feature quantity of signal for every sound source, and apparatus, method and program for estimating spectral feature quantity of target signal |
JP2014157261A (en) * | 2013-02-15 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | Sound source separating device, sound source separating method, and program |
JP2015125238A (en) * | 2013-12-26 | 2015-07-06 | Pioneer DJ株式会社 | Sound signal processor, control method of sound signal processor, and program |
Also Published As
Publication number | Publication date |
---|---|
JP5438704B2 (en) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4245617B2 (en) | Feature amount correction apparatus, feature amount correction method, and feature amount correction program | |
US9824683B2 (en) | Data augmentation method based on stochastic feature mapping for automatic speech recognition | |
JP5842056B2 (en) | Noise estimation device, noise estimation method, noise estimation program, and recording medium | |
JP4977062B2 (en) | Reverberation apparatus and method, program and recording medium | |
KR20200145219A (en) | Method and apparatus for combined learning using feature enhancement based on deep neural network and modified loss function for speaker recognition robust to noisy environments | |
JP5351856B2 (en) | Sound source parameter estimation device, sound source separation device, method thereof, program, and storage medium | |
KR102410850B1 (en) | Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder | |
JP5438704B2 (en) | Sound source parameter estimation device, sound source separation device, method and program thereof | |
CN110998723B (en) | Signal processing device using neural network, signal processing method, and recording medium | |
JP4960933B2 (en) | Acoustic signal enhancement apparatus and method, program, and recording medium | |
JP5881454B2 (en) | Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal | |
JP2009086581A (en) | Apparatus and program for creating speaker model of speech recognition | |
JP6721165B2 (en) | Input sound mask processing learning device, input data processing function learning device, input sound mask processing learning method, input data processing function learning method, program | |
JP4464797B2 (en) | Speech recognition method, apparatus for implementing the method, program, and recording medium therefor | |
JP4729534B2 (en) | Reverberation apparatus, dereverberation method, dereverberation program, and recording medium thereof | |
WO2010109725A1 (en) | Voice processing apapratus, voice processing method, and voice processing program | |
JP5731929B2 (en) | Speech enhancement device, method and program thereof | |
JP5498452B2 (en) | Background sound suppression device, background sound suppression method, and program | |
EP3557576B1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
Han et al. | Switching linear dynamic transducer for stereo data based speech feature mapping | |
JP5530988B2 (en) | Background sound suppression device, background sound suppression method, and program | |
JP4242320B2 (en) | Voice recognition method, apparatus and program thereof, and recording medium thereof | |
JP5683446B2 (en) | Spectral distortion parameter estimated value correction apparatus, method and program thereof | |
JP6553561B2 (en) | Signal analysis apparatus, method, and program | |
Bouziane et al. | Probabilistic Self-Organizing Maps for Text-Independent Speaker Identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5438704 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |