JP2006251712A - Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources - Google Patents

Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources Download PDF

Info

Publication number
JP2006251712A
JP2006251712A JP2005071710A JP2005071710A JP2006251712A JP 2006251712 A JP2006251712 A JP 2006251712A JP 2005071710 A JP2005071710 A JP 2005071710A JP 2005071710 A JP2005071710 A JP 2005071710A JP 2006251712 A JP2006251712 A JP 2006251712A
Authority
JP
Japan
Prior art keywords
model
function
acoustic signal
acoustic
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005071710A
Other languages
Japanese (ja)
Inventor
Shigeki Sagayama
茂樹 嵯峨山
Takuya Nishimoto
卓也 西本
Hirokazu Kameoka
弘和 亀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2005071710A priority Critical patent/JP2006251712A/en
Publication of JP2006251712A publication Critical patent/JP2006251712A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a framework that enables a wide-area time structure and a frequency structure to be estimated at the same time. <P>SOLUTION: An observation spectrum of a sound signal having mixed sounds from a plurality of sound sources is modeled with a superposition object model obtained by superposing a plurality of sound object models, the respective sound object models are represented with a model function having two variables of a frequency (x) and a time (t), and model parameters of the model function are optimized to estimate characteristics of the observation spectrum. The respective sound object models correspond to one harmonic structure. The model function includes a harmonic structure function including the frequency (x) as a variable and an envelope function including the time (t) as a variable. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、観測データの解析方法係り、特に、複数の音源からの音が混在している音響信号の解析方法に関する。 The present invention relates to an observation data analysis method, and more particularly to an acoustic signal analysis method in which sounds from a plurality of sound sources are mixed.

複数の音源からの音が混在している多重音響信号の解析はこれまで数多く研究されているが、いまだ懸案の難問の一つである。近年提案されたカルマンフィルタ(非特許文献1)、信号およびスペクトル領域でのモデル近似推定(非特許文献2,3)に基づく手法はこの分野において大きな進歩をもたらした。しかし、本来、多重音解析の問題は周波数方向と時間方向の情報を同時に処理すべきであり、これらの手法は問題を分解してまず周波数次元の情報を抽出してからその情報を時間方向に連結していくアプローチで解決を図っていた。
K. Nishi, S. Ando and S. Aida,“Optimum Harmonics Tracking Filter for Auditory Scene Analysis,” Proc. IEEE,ICASSP 96, pp. 573.576, 1996. S. Godsill and M. Davy, “BaysianHarmonic Models for Musical Pitch Estimation and Analysis,” Proc.ICASSP2002, Vol. 2, pp. 1769.1772, 2002. M. Goto,“A Predominant-F0Estimation Method for CD Recordings: MAP Estimation Using EM Algorithm forAdaptive Tone Models,” Proc. ICASSP2001, Vol. 5, pp. 3365.3368, 2001. H. Kameoka, T. Nishimoto and S. Sagayama, “Separation of Harmonic Structures Based on Tied Gaussian Mixture Model andInformation Criterion for Concur-rent Sounds,” Proc. ICASSP2004, AE-P5.9, May2004.
There have been many studies on the analysis of multi-acoustic signals in which sounds from multiple sound sources are mixed, but it is still one of the difficult problems. Recently proposed methods based on Kalman filters (Non-Patent Document 1), model approximation estimation in the signal and spectral domains (Non-Patent Documents 2 and 3) have made great progress in this field. However, the problem of multiple sound analysis is that the information in the frequency direction and the time direction should be processed at the same time, and these methods first resolve the problem and extract the information in the frequency dimension, then the information in the time direction. We were trying to solve the problem with a consolidated approach.
K. Nishi, S. Ando and S. Aida, “Optimum Harmonics Tracking Filter for Auditory Scene Analysis,” Proc. IEEE, ICASSP 96, pp. 573.576, 1996. S. Godsill and M. Davy, “BaysianHarmonic Models for Musical Pitch Estimation and Analysis,” Proc.ICASSP2002, Vol. 2, pp. 1769.1772, 2002. M. Goto, “A Predominant-F0 Estimation Method for CD Recordings: MAP Estimation Using EM Algorithm for Adaptive Tone Models,” Proc. ICASSP2001, Vol. 5, pp. 3365.3368, 2001. H. Kameoka, T. Nishimoto and S. Sagayama, “Separation of Harmonic Structures Based on Tied Gaussian Mixture Model and Information Criterion for Concur-rent Sounds,” Proc. ICASSP2004, AE-P5.9, May2004.

本発明は、局所的な部分情報を統合していくアプローチではなく、大域的な時間構造と周波数構造を同時推定できる枠組を提供することを目的とするものである。 An object of the present invention is to provide a framework capable of simultaneously estimating a global time structure and a frequency structure, not an approach in which local partial information is integrated.

かかる課題を解決するために本発明が採用した技術手段は、観測データを重畳オブジェクトモデルでモデリングし、各オブジェクトモデルを2変数のモデル関数で表し、モデル関数のモデルパラメータを最適化することで観測値の特徴を推定することを特徴とするものである。 The technical means adopted by the present invention in order to solve such a problem is that observation data is modeled by a superimposed object model, each object model is represented by a two-variable model function, and the model parameter of the model function is optimized for observation. A feature of the value is estimated.

一つの好ましい態様では、観測データは、複数の音源からの音が混在している音響信号の観測スペクトルであり、前記モデル関数の変数は周波数x及び時間tである。後述する実施の形態では、対数周波数について説明するが、周波数軸は、線形周波数軸を用いてもよい。観測スペクトルの特徴には、各音の周波数情報(基本周波数、倍音の周波数)、時間情報(立ち上がり時刻、時間長)が含まれる。観測スペクトルの特徴には、さらに、調波構造を構成する各周波数成分の周波数成分パワー比、時間方向のパワースペクトルエンベロープが含まれる。 In one preferred embodiment, the observation data is an observation spectrum of an acoustic signal in which sounds from a plurality of sound sources are mixed, and the variables of the model function are a frequency x and a time t. Although the logarithmic frequency will be described in an embodiment described later, a linear frequency axis may be used as the frequency axis. The characteristics of the observation spectrum include frequency information (basic frequency, overtone frequency) of each sound and time information (rise time, time length). The characteristics of the observed spectrum further include the frequency component power ratio of each frequency component constituting the harmonic structure and the power spectrum envelope in the time direction.

重畳音響オブジェクトモデルは、

Figure 2006251712
で表される。pk(x,t)は、k番目の音響オブジェクトモデルの一般式である。重畳オブジェクトモデルのパラメータには、各音響オブジェクトモデルを表すモデル関数のパラメータ、及び、各音響オブジェクトモデルの重みが含まれる。 The superimposed acoustic object model is
Figure 2006251712
It is represented by p k (x, t) is a general expression of the kth acoustic object model. The parameters of the superimposed object model include a parameter of a model function representing each acoustic object model and a weight of each acoustic object model.

観測データが音響信号の場合において、好ましい態様では、一つの音響オブジェクトモデルは、一つの調波構造に対応している。後述する実施の形態では、調和性を仮定しているが、調波構造に何らかの解析的なパラメトリックモデルが仮定できれば、非調和であってもよい。 In the case where the observation data is an acoustic signal, in a preferred aspect, one acoustic object model corresponds to one harmonic structure. In the embodiment described later, harmonicity is assumed. However, as long as an analytical parametric model can be assumed for the harmonic structure, the harmonic structure may be inharmonic.

本発明における2変数x、tを有するモデル関数において、k番目の音響オブジェクトモデルpk(x,t)の一般式は、周波数成分を正規分布(ガウス関数)で表す場合について例示すると、

Figure 2006251712
で表される。 In the model function having two variables x and t in the present invention, the general expression of the k-th acoustic object model p k (x, t) is exemplified for the case where the frequency component is represented by a normal distribution (Gaussian function).
Figure 2006251712
It is represented by

観測データが音響信号の場合において、一つの態様では、モデル関数は、周波数xを変数に含む調波構造関数と時間tを変数に含むエンベロープ関数を含む。後述する実施形態では、一つの好ましい態様として、k番目の音響オブジェクトモデルp(x,t|Θk)を、二つの関数Φk(x)とΨk(t)の積で表すもの、に基づいて本発明を説明するが、用いる関数はこれには限定されない。後述の実施形態では、調波構造全体に対して共通のエンベロープ関数(ガウス基底関数)を用いる。 In the case where the observation data is an acoustic signal, in one aspect, the model function includes a harmonic structure function including the frequency x as a variable and an envelope function including the time t as a variable. In an embodiment to be described later, as one preferable aspect, the k-th acoustic object model p (x, t | Θ k ) is expressed by a product of two functions Φ k (x) and Ψ k (t). The present invention will be described based on this, but the function used is not limited to this. In an embodiment described later, a common envelope function (Gaussian basis function) is used for the entire harmonic structure.

調波構造関数は、さらに時間tを変数に含んでいてもよい。k番目の音響オブジェクトモデルp(x,t|Θk)を、二つの関数Φk(x,t)とΨk(t)の積で表すものが例示される。このものでは、調波構造関数は時間に依存した関数となり、時間tによって周波数xの値が変化し得る。x−t平面上に投影したピッチ軌跡を多項式等で表現した場合が例示される。 The harmonic structure function may further include time t as a variable. The k-th acoustic object model p (x, t | Θ k ) is exemplified by a product of two functions Φ k (x, t) and Ψ k (t). In this case, the harmonic structure function is a time-dependent function, and the value of the frequency x can change with time t. The case where the pitch locus projected on the xt plane is expressed by a polynomial or the like is exemplified.

一つの調波構造に対して共通のエンベロープ関数を用いる。他の態様では、各調波成分に対して独立したエンベロープ関数を用いる。k番目の音響オブジェクトモデルp(x,t|Θk)を、二つの関数Φk(x,t)とΨn,k(t)の積で表す。このものは、パワーエンベロープ関数を調波成分ごとに別々に用意する場合である。より具体的には、例えば、調波ごとに別々の減衰曲線(エンベロープ関数)を持つようなモデル(倍音、3倍音、4倍音、... で別々の曲線で減衰するようにモデリングする)である。 A common envelope function is used for one harmonic structure. In another aspect, an independent envelope function is used for each harmonic component. The k-th acoustic object model p (x, t | Θ k ) is represented by the product of two functions Φ k (x, t) and Ψ n, k (t). In this case, the power envelope function is prepared separately for each harmonic component. More specifically, for example, in a model having a separate attenuation curve (envelope function) for each harmonic (modeled to attenuate with separate curves at harmonics, third harmonics, fourth harmonics, ...) is there.

音響オブジェクトを表す2変数x、yを有するモデル関数は、後述する実施の形態では、モデル関数がxの関数とtの関数の積に分解できる特殊な場合の解析的な解法を示している。すなわち、前記一般式において、調波成分ごとのエンベロープ関数が相似になる(つまり、Ψk n(t)がnによらず共通になる)という仮定と、ピッチ軌跡が時間軸に平行である(つまり、μk(t)= μk)という仮定のもとでは、一般式は、

Figure 2006251712
という形になり、xの関数とtの関数に分解できる。 In the embodiment described later, a model function having two variables x and y representing an acoustic object represents an analytical solution in a special case where the model function can be decomposed into a product of a function of x and a function of t. That is, in the above general formula, the envelope function for each harmonic component is similar (that is, Ψ k n (t) is common regardless of n), and the pitch trajectory is parallel to the time axis ( In other words, under the assumption that μ k (t) = μ k ), the general formula is
Figure 2006251712
It can be decomposed into a function of x and a function of t.

このように、実施形態では、楽音の音響オブジェクトのピッチ軌跡は時間軸に平行であることを仮定しているが、実際には、これらが平行である状況は限られる。音声、また、楽器音でもビブラートやグリッサンドなどの奏法では平行ではなくなるが、特に、対象となる多重音信号が音楽信号の場合には、ピッチ軌跡が時間軸にほぼ平行であるという仮定は大きな問題とはならない。また、楽音の音響オブジェクトのピッチ軌跡は時間軸に平行であることを仮定せずに、多項式等によりピッチ軌跡をモデリングしてもよい。 As described above, in the embodiment, it is assumed that the pitch trajectory of the musical object of the musical sound is parallel to the time axis, but in reality, the situation where these are parallel is limited. The assumption that the pitch trajectory is almost parallel to the time axis is a big problem, especially when the target multiple sound signal is a music signal, even if it is a voice or musical instrument sound, but it is not parallel in the playing method such as vibrato or glissando. It will not be. Further, the pitch trajectory of a musical sound object may be modeled by a polynomial or the like without assuming that the pitch trajectory is parallel to the time axis.

一つの好ましい態様では、調波構造関数は、基本周波数成分に対応する一つの単峰形分布の代表値である基本周波数推定値と、該基本周波数推定値によって決定される他の単峰形分布の代表値を有し、モデルパラメータは、各単峰形分布の代表値、重み、分散を含む。代表値パラメータは、基本周波数推定値を構成する代表値を含む調波構造モデルの各単峰形分布の各代表値により構成されるが、代表値パラメータにおいては、基本周波数推定値のみが自由パラメータであり、他の代表値は基本周波数推定値によって拘束されるパラメータである。単峰形分布としては数々の分布が知られているが、一つの好ましい態様では、単峰形分布は正規分布(対数正規分布を含む)である。分布の代表値としては、平均、中央値、最頻値が例示されるが、一つの好ましい態様では、分布の代表値は平均である。後述する実施形態では、音響オブジェクトを、拘束つき混合正規分布によりモデル化した調波構造モデルで表しており、拘束つき混合正規分布によりモデル化した調波構造モデルは、基本周波数成分に対応する一つの正規分布の平均μである基本周波数推定値と、該基本周波数推定値によって決定される他の正規分布の平均μ+lognとを有している。重みパラメータr は、音響オブジェクトkの調波構造を構成する各周波数成分の周波数成分パワー比を表す。分散パラメータσは、音響オブジェクトkの調波構造を構成する各周波数成分の幅を表すが。一つの態様では、既知パラメータとしてモデルに与えてもよい。 In one preferred embodiment, the harmonic structure function includes a fundamental frequency estimate that is a representative value of one unimodal distribution corresponding to a fundamental frequency component, and another unimodal distribution determined by the fundamental frequency estimate. The model parameter includes the representative value, weight, and variance of each unimodal distribution. The representative value parameter is composed of each representative value of each unimodal distribution of the harmonic structure model including the representative value that constitutes the fundamental frequency estimate, but only the fundamental frequency estimate is a free parameter in the representative value parameter. The other representative values are parameters constrained by the fundamental frequency estimation value. A number of distributions are known as the unimodal distribution, but in one preferred embodiment, the unimodal distribution is a normal distribution (including a log normal distribution). Examples of the representative value of the distribution include an average value, a median value, and a mode value. In one preferred embodiment, the representative value of the distribution is an average value. In an embodiment described later, an acoustic object is represented by a harmonic structure model modeled by a constrained mixed normal distribution, and the harmonic structure model modeled by a constrained mixed normal distribution corresponds to a fundamental frequency component. It has a fundamental frequency estimate that is the average μ k of one normal distribution and an average μ k + logn of another normal distribution that is determined by the fundamental frequency estimate. Weighting parameter r k n represents the frequency component power ratio of each frequency component constituting the harmonic structure of the audio object k. The dispersion parameter σ k represents the width of each frequency component constituting the harmonic structure of the acoustic object k. In one embodiment, it may be given to the model as a known parameter.

一つの好ましい態様では、エンベロープ関数は、時間軸方向に連続状に配置した複数のガウス関数、

Figure 2006251712
であり、モデルパラメータは、各ガウス分布の代表値、重み、分散を含む。代表値は、主として、音響オブジェクトの立ち上がり時刻の推定に用いるパラメータであり、後述する実施の形態では、(先頭の)ガウス分布の平均oであるが、代表値はこれには限定されない。各ガウス分布の重みc は、時間方向のパワーエンベロープ曲線を決定するパラメータである。各ガウス分布の分散φは、音響オブジェクトの時間長を決定するパラメータである。一つの好ましい態様では、各ガウス関数は、先頭のガウス関数の分散パラメータ(一つの好適な例では、標準偏差パラメータ)に基づく所定の等間隔αφで配置されている。 In one preferred embodiment, the envelope function includes a plurality of Gaussian functions arranged continuously in the time axis direction,
Figure 2006251712
And the model parameters include representative values, weights, and variances of each Gaussian distribution. Representative value is primarily a parameter used to estimate the rise time of the audio object, in the embodiment described below, (the beginning of) but the average o k of Gaussian, the representative value is not limited thereto. Weights c k y of each Gaussian distribution is a parameter that determines the power envelope curve in the time direction. The variance φ k of each Gaussian distribution is a parameter that determines the time length of the acoustic object. In one preferred embodiment, the Gaussian functions are arranged at predetermined equal intervals αφ k based on the dispersion parameter (in one preferred example, the standard deviation parameter) of the leading Gaussian function.

他の態様では、エンベロープ関数は、二つのシグモイド関数を組み合わせた関数、

Figure 2006251712
から構成されている。具体的には、エンベロープ関数は、2つのシグモイド関数(同一でも、同一でなくてもよい)の横軸をずらした差のいわゆる二重シグモイド関数であり、パラメータは、ok (0),ok (1),ak,n,bk,n,Ak,nである。 In another aspect, the envelope function is a function that combines two sigmoid functions,
Figure 2006251712
It is composed of Specifically, the envelope function is a so-called double sigmoid function of a difference in which the horizontal axes of two sigmoid functions (which may or may not be the same) are shifted, and the parameters are o k (0) , o k (1) , a k, n , b k, n , A k, n .

また、他の態様では、エンベロープ関数は、極値分布関数、

Figure 2006251712
であり、パラメータは、ok,ak,n,bk,n,Ak,nである。 In another aspect, the envelope function is an extreme value distribution function,
Figure 2006251712
, And the parameter is a o k, a k, n, b k, n, A k, n.

さらに、他の態様では、エンベロープ関数は、Generalized Gaussian Distribution(GDD)、

Figure 2006251712
であり、パラメータはokk,nである(但し、pは定数、Γはガンマ関数である)。 Furthermore, in another aspect, the envelope function is Generalized Gaussian Distribution (GDD),
Figure 2006251712
And the parameters are o k , λ k, n (where p is a constant and Γ is a gamma function).

モデル関数のパラメータの最適化の手法は、一つの好ましい態様では、MAP推定であるが、本発明に適用される最適化手法は、MAP推定には限定されず、他の最適化手法であってもよい。また、一つの好ましい態様では、モデルパラメータ最適化の推定アルゴリズムは、EMアルゴリズムである。 In one preferred embodiment, the model function parameter optimization method is MAP estimation. However, the optimization method applied to the present invention is not limited to MAP estimation, and may be other optimization methods. Also good. Moreover, in one preferable aspect, the estimation algorithm of model parameter optimization is EM algorithm.

本発明は、音響分析システム、音響分析のためのコンピュータプログラム、あるいは当該プログラムを記録した記録媒体としても提供され得る。 The present invention can also be provided as an acoustic analysis system, a computer program for acoustic analysis, or a recording medium on which the program is recorded.

本発明の観測データの解析方法は、好ましくは、音響信号に適用されるが、本発明に係る重畳オブジェクトモデルは、2次元平面上に投影されたデータから、投影されたデータの元の情報を復元することに拡張できる。他の態様では、観測データは、複数の対象物を含む画像データである。簡単な例を示すと、対象物は直方体状の物体であり、これを、直方体状の物体とその影とに対応するオブジェクトモデルでモデリングし、対象物の特徴を復元する。観測データが画像データの場合には、ロボットヴィジョン等の情景分析に適用することができる。 The observation data analysis method of the present invention is preferably applied to an acoustic signal, but the superimposed object model according to the present invention uses the original information of the projected data from the data projected on the two-dimensional plane. Can be extended to restore. In another aspect, the observation data is image data including a plurality of objects. As a simple example, the target object is a rectangular parallelepiped object, which is modeled with an object model corresponding to the rectangular parallelepiped object and its shadow, and the characteristics of the target object are restored. When the observation data is image data, it can be applied to scene analysis such as robot vision.

本発明によれば、複数の音源からの音が混在している音響信号を重畳オブジェクトモデルでモデリングし、各音響オブジェクト、重畳音響オブジェクトの時間と周波数の大域的な幾何構造を同時推定することができ、精度よく音響信号を解析することができる。 According to the present invention, it is possible to model an acoustic signal in which sounds from a plurality of sound sources are mixed with the superimposed object model and simultaneously estimate the global geometric structure of each acoustic object and the superimposed acoustic object in terms of time and frequency. The sound signal can be analyzed with high accuracy.

本発明を、一つの好ましい態様である、ガウス基底音響オブジェクトモデルを用いた多重スペクトル分離に基づいて説明する。 The invention will be described based on one preferred embodiment, multispectral separation using a Gaussian basis acoustic object model.

[A]音響オブジェクトモデル
[A−1]問題の定式化
図1に示すように、複数の音源からの音が混在している音響信号の観測スペクトルは、複数のピッチ(基本周波数)の時間軌跡に伴う基本波成分および高調波成分が複数重畳した複雑な分布である。このような混合分布を各スペクトルに分離することを考えたとき、短時間分析では、スペクトルの重なり合いが問題となる。本発明では、観測されるスペクトル分布は、一種のマイクロエネルギーパターンのヒストグラムであるとして、時間―周波数平面に、多数のストリップ状の領域に割り当て、各領域が各音響オブジェクトの予測される複数のスペクトル成分を占めるようにする。本明細書では、観測パターンを任意に分解し、分解された各パターンをクラスタと呼ぶ。すなわち、クラスタは分解された観測パターンの分布を意味し、クラスタリングは観測パターンをクラスタに分解することを意味する。もし適切なクラスタリング帰属の度合いが決定されれば、確率的手法によって、観測された複合分布を分離することができる。
[A] Acoustic object model
[A-1] Formulation of Problem As shown in FIG. 1, the observed spectrum of an acoustic signal in which sounds from a plurality of sound sources are mixed includes a fundamental wave component associated with time trajectories of a plurality of pitches (fundamental frequencies) and This is a complex distribution in which multiple harmonic components are superimposed. Considering separation of such a mixed distribution into spectra, spectrum overlap becomes a problem in short-time analysis. In the present invention, the observed spectral distribution is a kind of micro energy pattern histogram, and is assigned to a number of strip-like regions in the time-frequency plane, and each region is a plurality of predicted spectra of each acoustic object. Make up the ingredients. In this specification, an observation pattern is arbitrarily decomposed, and each decomposed pattern is called a cluster. That is, the cluster means the distribution of the observed patterns that are decomposed, and the clustering means that the observed patterns are decomposed into clusters. If an appropriate degree of clustering attribution is determined, the observed composite distribution can be separated by a probabilistic method.

時間周波数平面上に分布する楽音のパワースペクトルは、周波数方向の櫛形構造が時間方向に連なった一種のオブジェクト(以後これを音響オブジェクトと呼ぶ)を形成する。図2は、一つの音響オブジェクトを示し、一つの音響オブジェクトは、周波数―時間平面上に割り当てられた複数のオブジェクト要素から構成され、複数のオブジェクト要素は一つの基本周波数成分に対応する一つの要素と、倍音(整数倍でないものも含む)成分に対応する複数の要素とから構成される。本発明では、多数の楽音からなる音楽信号のスペクトル時間パターンを各楽音オブジェクトが重畳したものであると見なし、音響オブジェクト分解を、時間・周波数の2次元に分散した音響エネルギーのファジークラスタリング問題として解析的に定式化する。 The power spectrum of musical sounds distributed on the time-frequency plane forms a kind of object (hereinafter referred to as an acoustic object) in which comb structures in the frequency direction are continuous in the time direction. FIG. 2 shows one acoustic object, and one acoustic object is composed of a plurality of object elements allocated on the frequency-time plane, and the plurality of object elements are one element corresponding to one fundamental frequency component. And a plurality of elements corresponding to overtone (including non-integer multiple) components. In the present invention, the spectrum time pattern of a music signal composed of a large number of musical sounds is considered to be superimposed on each musical sound object, and the acoustic object decomposition is analyzed as a fuzzy clustering problem of acoustic energy distributed in two dimensions of time and frequency. Formulate it.

各クラスタにおいて一つの音響オブジェクトを幾何的に形作るモデルp(x,t|Θk)がパラメータΘk(Θ={Θk |k=1,…K})で規定できるとし、モデルに基づく目的関数を、

Figure 2006251712
と設定する。ただし、x, t, f(x, t)はそれぞれ対数周波数、時間(フレーム)、ウェーブレット変換により得られた観測スペクトル(パワースペクトル密度)、T0, T1, Ω0, Ω1 はそれぞれ時間と対数周波数の下限と上限を指し、Kはクラスタ数、kはクラスタのインデックスを表す。 The model p (x, t | Θ k ) that geometrically forms one acoustic object in each cluster can be defined by the parameter Θ k (Θ = {Θ k | k = 1,... K}). Function
Figure 2006251712
And set. However, x, t, f (x, t) are logarithmic frequency, time (frame), observed spectrum (power spectral density) obtained by wavelet transform, and T 0 , T 1 , Ω 0 , Ω 1 are time, respectively. Indicates the lower and upper limits of the logarithmic frequency, K represents the number of clusters, and k represents the cluster index.

また、p(k|x,t,Θ)は、座標(x, t)におけるk 番目のクラスタにどれくらいの割合でスペクトル成分が帰属するかを表す確率であって、

Figure 2006251712
で与えられる。つまり、p(k|x,t,Θ)f(x, t)は確率的に分離された音響オブジェクトという意味をなす。D(x,t|Θk)は、k番目のモデルが座標(x, t)においてどれだけ支配的であるかを反映した(擬)距離関数である。より直感的にはモデルと観測スペクトルの積分値がいずれも等しい場合、すなわち、p(x,t|Θk)が、
Figure 2006251712
を満たす場合には、p(k|x,t,Θ)f(x, t)D(x,t|Θk)は、2つの分布、p(x,t|Θk)とp(k|x,t,Θ)f(x,t)、が近くなるほど大きな値を取ることになる。 P (k | x, t, Θ) is a probability indicating how much of the spectral component belongs to the k th cluster at the coordinates (x, t),
Figure 2006251712
Given in. That is, p (k | x, t, Θ) f (x, t) means a stochastic separated acoustic object. D (x, t | Θ k ) is a (pseudo) distance function that reflects how dominant the k th model is in coordinates (x, t). More intuitively, if both the integral value of the model and the observed spectrum are equal, that is, p (x, t | Θ k ) is
Figure 2006251712
If p is satisfied, p (k | x, t, Θ) f (x, t) D (x, t | Θ k ) has two distributions, p (x, t | Θ k ) and p (k | x, t, Θ) f (x, t), the larger the value becomes.

以上より、観測スペクトルの時系列分布を何らかの幾何モデルで最適近似する問題に帰着することができる。ここで、この目的関数は、D(x,t|Θk)=logp(x,t|Θk)という特定条件のもとではEMアルゴリズムにおけるQ関数と同形であることに注目されたい。以下では、音響オブジェクトの調波構造と時間連続の両方の性質を同時に反映する2次元分布モデルを定式化する。 From the above, it can be reduced to the problem of optimal approximation of the time series distribution of the observed spectrum by some geometric model. Here, the objective function, D (x, t | Θ k) = logp (x, t | Θ k) is under certain conditions that should be noted that the Q function and the same shape in the EM algorithm. In the following, a two-dimensional distribution model that reflects both the harmonic structure and time continuity of an acoustic object is formulated.

[A−2]ガウス基底音響オブジェクトモデル
楽音の音響オブジェクトのピッチ軌跡は時間軸に平行であると仮定すると、図2のようなk番目の音響オブジェクトモデルの特定の時刻t における切口は図3のような調波構造Φk(x)を反映した関数となる。そこで、調波構造モデル関数Φk(x)を時間軸に沿って図4のようなエンベロープ関数Ψk(t)を乗じた形として音響オブジェクトモデルを仮定すると、k番目の音響オブジェクトモデルp(x,t|Θk)は、二つの関数とパワー(エネルギー)wの積で表すことができる。

Figure 2006251712
ここで、
Figure 2006251712
とする。 [A-2] Assuming that the pitch trajectory of the acoustic object of the Gaussian base acoustic object model musical sound is parallel to the time axis, the cut at a specific time t of the kth acoustic object model as shown in FIG. Such a function reflects the harmonic structure Φ k (x). Therefore, assuming that the acoustic object model is obtained by multiplying the harmonic structure model function Φ k (x) by the envelope function Ψ k (t) as shown in FIG. 4 along the time axis, the kth acoustic object model p ( x, t | Θ k ) can be expressed as a product of two functions and power (energy) w k .
Figure 2006251712
here,
Figure 2006251712
And

[A−3]調波構造関数Φk(x)
モデル関数を構成する調波構造関数の一つの好ましい態様としては、本出願の発明者らが既に提案している調波構造モデル関数を用いることができる。先ず、調波構造モデルについて説明する。短時間スペクトルの解析では、基本周波数成分や調波成分の広がりにより、異なる信号同士の周波数成分が重なり合い、近接する周波数成分の分離や正確な基本周波数あるいは高調波周波数の検出が困難となる。このように広がって観測される周波数成分を各周波数の出現頻度分布あるいは確率分布と見なし、その分布をガウス分布により近似することで、単一の調波構造を有するスペクトルを複数のガウス分布の混合分布としてモデル化する。図3に示すように、スペクトルの拡がり形状をガウス分布で近似することで、周波数値をガウス分布の平均推定、周波数成分のエネルギーを混合ガウス分布の重み推定に対応させることができる。調和性の保持のため、基本周波数成分に対応する1つのガウス分布の平均(基本周波数推定値)のみが自由度をもち、その位置に応じて残りのすべての正規分布の平均の位置は決定される。単一の調波構造をこのような拘束つきの混合ガウス分布によりモデル化したものを本明細書において「調波構造モデル」と呼ぶ。ガウス分布は調波構造モデルに適用できる分布関数の好適な一例であって、その他の単峰性分布関数を用いて調波構造モデルを構成してもよい。平均は分布の代表値の一つの好適な例であって、平均に代えて、中央値、最頻値を用いても良い。
[A-3] Harmonic structure function Φ k (x)
As a preferable embodiment of the harmonic structure function constituting the model function, the harmonic structure model function already proposed by the inventors of the present application can be used. First, the harmonic structure model will be described. In short-time spectrum analysis, the frequency components of different signals overlap due to the spread of fundamental frequency components and harmonic components, making it difficult to separate adjacent frequency components and accurately detect fundamental frequencies or harmonic frequencies. The frequency component observed in this way is regarded as the frequency distribution or probability distribution of each frequency, and by approximating the distribution with a Gaussian distribution, a spectrum with a single harmonic structure is mixed with multiple Gaussian distributions. Model as a distribution. As shown in FIG. 3, by approximating the spectrum spread shape with a Gaussian distribution, the frequency value can correspond to the average estimation of the Gaussian distribution, and the energy of the frequency component can correspond to the weight estimation of the mixed Gaussian distribution. To maintain harmony, only the average of one Gaussian distribution (fundamental frequency estimate) corresponding to the fundamental frequency component has a degree of freedom, and the average position of all remaining normal distributions is determined according to its position. The A single harmonic structure modeled by such a constrained mixed Gaussian distribution is referred to as a “harmonic structure model” in this specification. The Gaussian distribution is a suitable example of a distribution function that can be applied to the harmonic structure model, and the harmonic structure model may be configured using other unimodal distribution functions. The average is one preferable example of the representative value of the distribution, and the median and the mode may be used instead of the average.

調和性を仮定し、n番目の対数周波数成分が基本対数周波数からlognだけ離れているとすると、基本対数周波数がμ、n番目の部分対数周波数がμ+lognと推定される。すなわち、基本周波数推定値をμkと置けば、調波構造モデルkの各平均μkは、対数周波数領域において、μk,μ+log2,μ+logn,...μ+logNとなる。各周波数成分の分布をガウス分布で近似することで、一つの調波構造を、ガウス基底の重み付き和でモデリングする。これを定式化すると、調和性を仮定し、1つの周波数成分分布をガウス関数近似することで、調波構造モデルを、

Figure 2006251712
で表す。ただし、μkは対数基本周波数推定値、r (n=1,…, N、Σr =1、nは調波構造モデルにおけるガウス基底のインデックスである )はn 次高調波成分パワー比に対応する。 Assuming harmonicity, if the nth log frequency component is logn away from the basic logarithmic frequency, the basic logarithmic frequency is estimated to be μ k , and the nth partial logarithmic frequency is estimated to be μ k + logn. That is, if the fundamental frequency estimation value is set as μ k , each average μ k of the harmonic structure model k is expressed by μ k , μ k + log2, μ k + logn,. . . μ k + logN. By approximating the distribution of each frequency component with a Gaussian distribution, one harmonic structure is modeled with a weighted sum of Gaussian bases. When this is formulated, a harmonic structure model is obtained by assuming harmonicity and approximating one frequency component distribution with a Gaussian function.
Figure 2006251712
Represented by However, mu k is logarithmic fundamental frequency estimate, r k n (n = 1 , ..., N, Σr k n = 1, n is the index of Gaussian basis of the harmonic structure model) the n-th harmonic component power Corresponds to the ratio.

[A−4]エンベロープ関数Ψk(t)
エンベロープ関数Ψk(t)は、パワースペクトルエンベロープのさまざまな変動に柔軟に対応できる関数であることが望ましい。例えば、音楽信号について言うと、楽器や音楽表現に依存して、アタック、サステイン、リリースは全く異なるであろう。そこで、エンベロープ関数Ψk(t)を、複数のガウス基底から表し、各ガウス基底は、エンベロープ形状に関連して、重みc (y=0,…, Y-1、Σc =1、yはエンベロープモデルのガウス基底のインデックスである)を有するようにしたガウス基底エンベロープモデルに基づいて構成する。このモデルの特徴は、隣り合うガウス関数同士の間隔を、各ガウス関数の標準偏差パラメータφkに基づいて表しており、エンベロープ関数Ψk(t)は、

Figure 2006251712
として表される。ただし、Yはガウス基底の数、okは先頭のガウス基底の中心であり、音響オブジェクトの立ち上がり時刻の推定に密接に関係し、c y(y =0,…,Y- 1) はエンベロープ曲線を規定する各ガウス基底の重み値を表す。複数のガウス関数の中心を標準偏差パラメータφkと等しい間隔(α=1の場合で言うと)で配置した特殊な拘束をもったガウス基底関数は、各基底が孤立するのを防いで曲線の滑らかさを保つと同時にφkの値あるいは/およびαの値に応じて時間方向に線形伸縮する性質を持ち、さまざまな時間長の音響オブジェクトに広く対応できる。 [A-4] Envelope function Ψ k (t)
The envelope function Ψ k (t) is desirably a function that can flexibly cope with various fluctuations of the power spectrum envelope. For example, when it comes to music signals, depending on the instrument and musical expression, the attack, sustain and release will be quite different. Therefore, the envelope function Ψ k (t) is expressed from a plurality of Gaussian bases, and each Gaussian base is related to the envelope shape and weights c k y (y = 0,..., Y−1, Σc k y = 1). , Y is an index of the Gaussian basis of the envelope model). The feature of this model is that the interval between adjacent Gaussian functions is expressed based on the standard deviation parameter φ k of each Gaussian function, and the envelope function Ψ k (t) is
Figure 2006251712
Represented as: However, Y is the number of Gaussian basis, o k is the center of the head of Gaussian basis, closely related to the estimation of the rise time of the audio object, c k y (y = 0 , ..., Y- 1) envelope Represents the weight value of each Gaussian basis that defines the curve. Gaussian basis functions with special constraints in which the centers of multiple Gaussian functions are arranged at equal intervals (in the case of α = 1) with the standard deviation parameter φ k , prevent each basis from being isolated. While maintaining smoothness, it has the property of linear expansion and contraction in the time direction according to the value of φ k and / or α, and can be widely applied to acoustic objects of various time lengths.

[A−5]重畳オブジェクトモデル
上述のような一つの調波構造に対応する一つのオブジェクトモデルを重畳させた重畳オブジェクトモデルを用いて、複数の音源からの音が混在している音響信号の観測スペクトルをモデリングする。重畳オブジェクトモデルのモデルパラメータを表1に示す。尚、表1は、好適なモデルパラメータを例示したものであり、本発明に係るモデルパラメータは、表1に示すものには限定されない。

Figure 2006251712
[A-5] Superimposed Object Model Observation of an acoustic signal in which sounds from a plurality of sound sources are mixed using a superimposed object model in which one object model corresponding to one harmonic structure as described above is superimposed. Model the spectrum. Table 1 shows model parameters of the superimposed object model. Table 1 exemplifies suitable model parameters, and the model parameters according to the present invention are not limited to those shown in Table 1.
Figure 2006251712

k:各音響オブジェクト(音響ストリーム)モデルのインデックスであり、実際には、音響オブジェクトのインデックスに対応する。混合音の観測スペクトルを、K個の音響オブジェクトモデルを用いてモデリングする。 k: Index of each acoustic object (acoustic stream) model, and actually corresponds to the index of the acoustic object. The observed spectrum of the mixed sound is modeled using K acoustic object models.

n:調波構造モデルにおけるガウス基底のインデックスであり、実際には、調波構造の各周波数成分のインデックスに対応する。一つの調波構造を、N個のガウス関数を用いてモデリングする。 n: Gaussian basis index in the harmonic structure model, which actually corresponds to the index of each frequency component of the harmonic structure. One harmonic structure is modeled using N Gaussian functions.

y:パワーエンベロープモデルにおけるガウス基底のインデックスである。一つのエンベロープ曲線を、Y個のガウス関数を用いてモデリングする。 y: Gaussian basis index in the power envelope model. One envelope curve is modeled using Y Gaussian functions.

μ:調波構造モデルにおける先頭のガウス基底の平均であり、実際には、基本対数周波数に対応する。 μ k : the average of the first Gaussian basis in the harmonic structure model, and actually corresponds to the fundamental logarithmic frequency.

μ+logn:調波構造モデルにおけるn番目のガウス基底の平均であり、実際には、n番目の対数周波数要素に対応する。 μ k + logn: The average of the nth Gaussian basis in the harmonic structure model, and actually corresponds to the nth logarithmic frequency element.

:k番目の音響オブジェクトモデルの重みであり、実際には、k番目の音響オブジェクトの相対的支配を意味する。 w k : The weight of the k th acoustic object model, which actually means the relative dominance of the k th acoustic object.

:k番目の音響オブジェクトモデルの調波構造モデルにおけるガウス基底の重みであり、実際には、周波数成分パワー比に対応する。 r k n : Gaussian basis weight in the harmonic structure model of the kth acoustic object model, and actually corresponds to the frequency component power ratio.

:k番目の音響オブジェクトモデルのパワーエンベロープモデルにおけるガウス基底の重みであり、実際には、パワーエンベロープの時間方向の曲線に対応する。 c k y : Weight of the Gauss basis in the power envelope model of the kth acoustic object model, and actually corresponds to a curve in the time direction of the power envelope.

:k番目の音響オブジェクトモデルのパワーエンベロープモデルにおける先頭のガウス基底の平均であり、一例では、k番目の音響オブジェクトの立ち上がり時刻(onset time)に対応する。 o k : average of the first Gaussian basis in the power envelope model of the kth acoustic object model, and in one example, corresponds to the rise time (onset time) of the kth acoustic object.

σ:k番目の音響オブジェクトモデルの調波構造モデルにおけるガウス基底の標準偏差であり、実際には各周波数成分の幅に対応する。 σ k : Standard deviation of the Gauss basis in the harmonic structure model of the kth acoustic object model, and actually corresponds to the width of each frequency component.

φ:k番目の音響オブジェクトモデルのパワーエンベロープモデルにおけるガウス基底の間隔および標準偏差であり、実際にはk番目の音響オブジェクトの時間長に関連する。 φ k : Gaussian base interval and standard deviation in the power envelope model of the kth acoustic object model, and is actually related to the time length of the kth acoustic object.

[B]最適パラメータ推定
[B−1]事前分布の仮定
特定のパラメータに関して柔軟な制約条件を与えたい場合、 事前分布の仮定は効果的である。例えば、r とc に関して、調波構造の各成分比やパワーエンベロープに関して想定されるある程度常識的な予測値r (バー)、c (バー)から極端に逸脱し過ぎないようにパラメータ制約を加えることができる(図5参照)。ここでは、MAP推定におけるラグランジュの未定乗数の計算を大幅に簡単化できる事前分布(非特許文献3参照)、

Figure 2006251712
を利用する。ただし、dr、dc は事前分布の寄与の大きさ、β(dr)、β(dc)はそれぞれ正規化係数を表す。事前分布は、MAP推定におけるラグランジュの未定乗数の計算を大幅に簡単化できるという有利な点を有する。尚、この分布以外にもディリクレ分布も同じ目的に適用可能である。 [B] Optimal parameter estimation
[B-1] Assumption of prior distribution The assumption of prior distribution is effective when it is desired to give flexible constraints on specific parameters. For example, for r k n and c k y, somewhat commonsense prediction value r k n (bar) envisaged for each component ratio and power envelope of the harmonic structure, too extreme departure from the c k y (bar) Parameter constraints can be added (see FIG. 5). Here, a prior distribution (see Non-Patent Document 3) that can greatly simplify the calculation of Lagrange's undetermined multiplier in MAP estimation,
Figure 2006251712
Is used. Here, d r and d c are the magnitudes of prior distribution contributions, and β (d r ) and β (d c ) are normalization coefficients, respectively. The prior distribution has the advantage that it can greatly simplify the calculation of Lagrange's undetermined multiplier in MAP estimation. In addition to this distribution, the Dirichlet distribution can be applied for the same purpose.

[B−2]EMアルゴリズムを用いたMAP推定
以上の拘束条件下の混合音響オブジェクトモデルの最適近似パラメータ推定はEMアルゴリズムによるMAP推定(反復計算による補助関数の単調増加)と同型の問題となる。式(1)における目的関数は補助関数に対応しており、式(1)は、

Figure 2006251712
という補助関数に書き直せる。ただし、λr (k),λc (k),λはラグランジュの未定乗数である。尚、式(9)において、f(x,t)を正規化し、重みの総和を1としてもよい(この場合、F=1となる)。 [B-2] Optimum approximate parameter estimation of a mixed acoustic object model under constraint conditions higher than MAP estimation using EM algorithm is a problem of the same type as MAP estimation by EM algorithm (monotonic increase of auxiliary function by iterative calculation). The objective function in Equation (1) corresponds to the auxiliary function, and Equation (1) is
Figure 2006251712
Can be rewritten as an auxiliary function. Here, λ r (k) , λ c (k) , and λ w are Lagrange's undetermined multipliers. In equation (9), f (x, t) may be normalized and the sum of weights may be set to 1 (in this case, F = 1).

局所最適パラメータは以下の反復計算で求められる。
(1)E−ステップ
前のM−ステップで更新されたΘ(バー)にΘ(ハット)を代入して、補助関数R(Θ,Θ(バー))にΘ(バー)を計算する。このステップは、帰属確率密度p(k,n,y|x,t,Θ)の更新に対応する。
(2)M−ステップ
帰属確率密度p(k,n,y|x,t,Θ)固定のもとで、Θ(バー)のパラメータを更新して、補助関数R(Θ,Θ(バー))を最大化する。
The local optimum parameter is obtained by the following iterative calculation.
(1) Substitute Θ (hat) into Θ (bar) updated in the M-step before E-step, and calculate Θ (bar) to the auxiliary function R (Θ, Θ (bar)). This step corresponds to updating the attribution probability density p (k, n, y | x, t, Θ).
(2) Under the M-step attribution probability density p (k, n, y | x, t, Θ) fixed, the parameter of Θ (bar) is updated, and the auxiliary function R (Θ, Θ (bar) ).

[B−3] M−ステップにおけるパラメータの更新式
M−ステップにおける各モデルパラメータの更新式の計算結果を示す。尚、下記の式では、簡潔のため、時間方向(T, T)及び周波数方向(Ω, Ω)の積分範囲は省略してある。
[B-3] Parameter Update Formula in M-Step The calculation result of each model parameter update formula in M-step is shown. In the following expression, for the sake of brevity, the integration ranges in the time direction (T 1 , T 2 ) and the frequency direction (Ω 1 , Ω 2 ) are omitted.

基本対数周波数μの更新式は以下のとおりである。これにより、k番目の音響オブジェクトの基本周波数が推定される。

Figure 2006251712
The update formula of the basic logarithmic frequency μ k is as follows. Thereby, the fundamental frequency of the kth acoustic object is estimated.
Figure 2006251712

スペクトル要素の相対パワーr の更新式は以下のとおりである。これにより、k番目の音響オブジェクトの調波構造における、各周波数の周波数成分パワー比が推定される。

Figure 2006251712
Update equation of relative power r k n spectral components are as follows. Thereby, the frequency component power ratio of each frequency in the harmonic structure of the kth acoustic object is estimated.
Figure 2006251712

調波構造における各周波数成分の幅σの更新式は以下のとおりである。k番目の音響オブジェクトの調波構造の各周波数成分の幅が推定される。ここでは、幅は、各周波数成分間で同じとしている。

Figure 2006251712
The update formula of the width σ k of each frequency component in the harmonic structure is as follows. The width of each frequency component of the harmonic structure of the kth acoustic object is estimated. Here, the width is the same between the frequency components.
Figure 2006251712

立ち上がり時刻okの更新式は以下のとおりである。k番目の音響オブジェクトの立ち上がり時刻が推定される。

Figure 2006251712
Update equation of the rising time o k are as follows. The rise time of the kth acoustic object is estimated.
Figure 2006251712

パワーエンベロープ曲線の要素c の更新式は以下のとおりである。k番目の音響オブジェクトのパワーエンベロープ曲線は、エンベロープ関数を構成する複数のガウス基底の重み付け和によって決定される。

Figure 2006251712
Updating expression elements c k y of power envelope curve is as follows. The power envelope curve of the kth acoustic object is determined by a weighted sum of a plurality of Gaussian bases constituting the envelope function.
Figure 2006251712

時間長の要素φの更新式は以下のとおりである。k番目の音響オブジェクトの時間長が推定される。

Figure 2006251712
The update formula for the time length element φ k is as follows. The time length of the kth acoustic object is estimated.
Figure 2006251712

重畳音響オブジェクトにおける、k番目の音響オブジェクトのパワー(エネルギー)の更新式は以下のとおりである。

Figure 2006251712
The formula for updating the power (energy) of the kth acoustic object in the superimposed acoustic object is as follows.
Figure 2006251712

[C]実験例
[C−1]実験例1
本発明に係る方法のテストデータとしてRWC研究用音楽データベースの中から2曲の実音楽信号(16kHz サンプリング周波数)を利用した。 パワースペクトル時系列はガボールウェーブレット変換(フレームシフト20ms,周波数分解能16.7cent,最低周波数50Hz)により出力した。解析区間(時間周波数平面)の時間長は3s(150フレーム)ずつとした。EMアルゴリズムのためのパラメータ(μk,o|k=1,…,K)の初期値は、与えられたスペクトル分布から大きい順に70個のピーク(パワースペクトル密度の極大点)を抽出することで決定した。EMアルゴリズムの反復において、音響オブジェクトの総数は閾値処理によって推定した。すなわち、重みパラメータwk がある一定閾値以下のモデルは無音と判断して除去した。
[C] Experimental Example [C-1] Experimental Example 1
As test data of the method according to the present invention, two actual music signals (16 kHz sampling frequency) were used from the music database for RWC research. The power spectrum time series was output by Gabor wavelet transform (frame shift 20ms, frequency resolution 16.7cent, minimum frequency 50Hz). The time length of the analysis section (temporal frequency plane) was 3 s (150 frames). The initial values of the parameters (μ k , o k | k = 1,..., K) for the EM algorithm are 70 peaks (maximum points of power spectral density) in order from the given spectral distribution. Determined. In the iteration of the EM algorithm, the total number of acoustic objects was estimated by thresholding. That is, a model whose weight parameter w k is equal to or smaller than a certain threshold value is judged to be silent and removed.

実際のスペクトルから推定した最適化モデルの具体例および対応する時間−周波数スペクトルの3次元表示及びグレースケール表示を図6に示す。図6(a)は、観測スペクトル分布を3次元(対数周波数軸、時間軸、エネルギー強度を表す軸)に表示したものであり、図6(c)は、図6(a)に対応する観測スペクトルのスペクトログラム(横軸:時間、縦軸:対数周波数)のグレースケール表示である。図6(b)は、最適パラメータによる重畳音響オブジェクトモデルの3次元(対数周波数軸、時間軸、エネルギー強度を表す軸)に表示したものであり、図6(a)に対応している。図6(b)は、図2に示す各音響オブジェクトが重畳したものである。図6(d)は、図6(b)に対応する最適化された重畳音響オブジェクトモデルのグレースケール表示(横軸:時間、縦軸:周波数)である。図6(b)、(d)に示すように、重畳した音響オブジェクトのピッチのみならず、オンセット時刻(立ち上がり時刻)、時間長、オフセット時刻、パワーエンベロープが適切に推定されている。また、最適帰属確率を用いた正弦波合成によって個々の音響オブジェクトを抽出して再構築することも可能である。 A specific example of the optimization model estimated from the actual spectrum and the corresponding three-dimensional display and gray scale display of the time-frequency spectrum are shown in FIG. FIG. 6A shows the observed spectrum distribution in three dimensions (logarithmic frequency axis, time axis, and axis representing energy intensity), and FIG. 6C shows an observation corresponding to FIG. 6A. It is a gray scale display of a spectrogram of a spectrum (horizontal axis: time, vertical axis: logarithmic frequency). FIG. 6B is a three-dimensional display (logarithmic frequency axis, time axis, and axis representing energy intensity) of the superimposed acoustic object model with the optimum parameters, and corresponds to FIG. FIG. 6B is an overlay of the acoustic objects shown in FIG. FIG. 6D is a grayscale display (horizontal axis: time, vertical axis: frequency) of the optimized superimposed acoustic object model corresponding to FIG. 6B. As shown in FIGS. 6B and 6D, not only the pitch of the superimposed acoustic object but also the onset time (rise time), time length, offset time, and power envelope are appropriately estimated. It is also possible to extract and reconstruct individual acoustic objects by sinusoidal synthesis using the optimal attribution probability.

[C−2]実験例2
本発明に係る手法の性能評価基準として付属の参照用MIDIデータから音名正解率を算出した。また、比較対象として、フレームごとのモデル推定の情報に基づいてHMMでピッチ軌跡を推定する方法(非特許文献4)を選んだ。利用したテストデータに対し従来法に比べて本発明に係る手法は高い性能を示し(表2)、時間方向と周波数方向を同時にモデリングしたことの効果が確認できた。

Figure 2006251712
[C-2] Experimental example 2
As a performance evaluation standard of the method according to the present invention, the pitch correct rate was calculated from the attached reference MIDI data. Further, as a comparison target, a method (Non-patent Document 4) for estimating a pitch trajectory by HMM based on model estimation information for each frame was selected. Compared to the conventional method, the method according to the present invention showed higher performance than the conventional method (Table 2), and the effect of modeling the time direction and the frequency direction at the same time was confirmed.
Figure 2006251712

本発明は、実環境下の音声認識、複数話者環境下での高性能音声収録、カラオケシステムにおける自動採点や伴奏データ作成のための音楽信号解析に利用可能である。 INDUSTRIAL APPLICABILITY The present invention can be used for speech recognition in a real environment, high performance speech recording in a multi-speaker environment, automatic scoring in a karaoke system, and music signal analysis for accompaniment data creation.

実際の音楽演奏信号を、時間T0からT1、周波数Ω0からΩ1、においてウェーブレット変換した観測スペクトルである。This is an observation spectrum obtained by wavelet transforming an actual music performance signal at times T 0 to T 1 and frequencies Ω 0 to Ω 1 . k番目の音響オブジェクトスペクトルのパラメトリックモデル(音響オブジェクトモデル)を説明する図であって、周波数―時間平面上の一つの音響オブジェクト(k番目)を表している。It is a figure explaining the parametric model (acoustic object model) of a kth acoustic object spectrum, Comprising: One acoustic object (kth) on a frequency-time plane is represented. ガウス基底調波構造モデルを示す。A Gaussian basis harmonic structure model is shown. ガウス基底パワーエンベロープモデルを示す。A Gaussian basis power envelope model is shown. 重みパラメータr の事前分布を示す図である。Is a diagram illustrating a prior distribution of the weight parameter r k n. (a)観測スペクトル分布の3次元表示(周波数軸、時間軸、エネルギー強度を表す軸);(b)最適パラメータによる重畳音響オブジェクトモデルの3次元表示(周波数軸、時間軸、エネルギー強度を表す軸);(c)与えられたスペクトログラムのグレースケール表示(横軸:時間、縦軸:周波数);(d)最適化モデルのグレースケール表示(横軸:時間、縦軸:周波数);である。(A) Three-dimensional display of observed spectrum distribution (frequency axis, time axis, axis representing energy intensity); (b) Three-dimensional display of superimposed acoustic object model with optimum parameters (frequency axis, time axis, axis representing energy intensity) (C) Gray scale display of a given spectrogram (horizontal axis: time, vertical axis: frequency); (d) Gray scale display of an optimization model (horizontal axis: time, vertical axis: frequency);

Claims (23)

観測データを、複数のオブジェクトモデルを重畳してなる重畳オブジェクトモデルでモデリングし、各オブジェクトモデルを2変数のモデル関数で表し、モデル関数のモデルパラメータを最適化することで観測データの特徴を推定することを特徴とする観測データの解析方法。 The observation data is modeled by a superimposed object model formed by superimposing multiple object models, each object model is represented by a two-variable model function, and the model parameters of the model function are optimized to estimate the characteristics of the observation data This is a method for analyzing observation data. 複数の音源からの音が混在している音響信号の観測スペクトルを、複数の音響オブジェクトモデルを重畳してなる重畳オブジェクトモデルでモデリングし、各音響オブジェクトモデルを、周波数x及び時間tの2変数を有するモデル関数で表し、モデル関数のモデルパラメータを最適化することで観測スペクトルの特徴を推定することを特徴とする音響信号の解析方法。 An observation spectrum of an acoustic signal in which sounds from a plurality of sound sources are mixed is modeled by a superimposed object model formed by superimposing a plurality of acoustic object models, and each acoustic object model is represented by two variables of frequency x and time t. A method of analyzing an acoustic signal, characterized by estimating a characteristic of an observed spectrum by optimizing a model parameter of the model function. 請求項2において、観測スペクトルの特徴には、各音の周波数情報、時間情報が含まれることを特徴とする音響信号の解析方法。 3. The acoustic signal analysis method according to claim 2, wherein the characteristics of the observed spectrum include frequency information and time information of each sound. 請求項3において、観測スペクトルの特徴には、さらに、調波構造を構成する各周波数成分の周波数成分パワー比、時間方向のパワースペクトルエンベロープが含まれることを特徴とする音響信号の解析方法。 4. The acoustic signal analysis method according to claim 3, wherein the characteristics of the observed spectrum further include a frequency component power ratio of each frequency component constituting the harmonic structure and a power spectrum envelope in the time direction. 請求項2乃至4いずれかにおいて、各音響オブジェクトモデルは、一つの調波構造に対応していることを特徴とする音響信号の解析方法。 5. The acoustic signal analysis method according to claim 2, wherein each acoustic object model corresponds to one harmonic structure. 請求項5において、前記モデル関数は、周波数xを変数に含む調波構造関数と時間tを変数に含むエンベロープ関数を含むことを特徴とする音響信号の解析方法。 6. The acoustic signal analysis method according to claim 5, wherein the model function includes a harmonic structure function including a frequency x as a variable and an envelope function including a time t as a variable. 請求項6において、調波構造関数は、基本周波数成分に対応する一つの単峰形分布の代表値である基本周波数推定値と、該基本周波数推定値によって決定される他の単峰形分布の代表値を有し、モデルパラメータは、各単峰形分布の代表値、重み、分散を含むことを特徴とする音響信号の解析方法。 7. The harmonic structure function according to claim 6, wherein a fundamental frequency estimated value that is a representative value of one unimodal distribution corresponding to a fundamental frequency component and another unimodal distribution determined by the fundamental frequency estimated value. A method for analyzing an acoustic signal having a representative value, wherein the model parameter includes a representative value, weight, and variance of each unimodal distribution. 請求項7において、単峰形分布はガウス分布であることを特徴とする音響信号の解析方法。 8. The method for analyzing an acoustic signal according to claim 7, wherein the unimodal distribution is a Gaussian distribution. 請求項7,8いずれかにおいて、分布の代表値は平均であることを特徴とする音響信号の解析方法。 9. The method for analyzing an acoustic signal according to claim 7, wherein the representative value of the distribution is an average. 請求項6乃至9いずれかにおいて、調波構造関数は、さらに時間tを変数に含むことを特徴とする音響信号の解析方法。 10. The acoustic signal analysis method according to claim 6, wherein the harmonic structure function further includes a time t as a variable. 請求項10において、観測データの特徴には、x−t平面上のピッチ軌跡が含まれることを特徴とする音響信号の解析方法。 11. The acoustic signal analysis method according to claim 10, wherein the feature of the observation data includes a pitch locus on the xt plane. 請求項6乃至11いずれかにおいて、一つの調波構造に対して共通のエンベロープ関数を用いることを特徴とする音響信号の解析方法。 12. The acoustic signal analysis method according to claim 6, wherein a common envelope function is used for one harmonic structure. 請求項6乃至11いずれかにおいて、各調波成分に対して独立したエンベロープ関数を用いることを特徴とする音響信号の解析方法。 12. The method for analyzing an acoustic signal according to claim 6, wherein an independent envelope function is used for each harmonic component. 請求項12,13いずれかにおいて、エンベロープ関数は、時間軸方向に連続状に配置した複数のガウス関数であり、モデルパラメータは、各ガウス分布の代表値、重み、分散を含むことを特徴とする音響信号の解析方法。 14. The envelope function according to claim 12, wherein the envelope function is a plurality of Gauss functions continuously arranged in the time axis direction, and the model parameter includes a representative value, a weight, and a variance of each Gaussian distribution. Analysis method of acoustic signal. 請求項14において、各ガウス関数は、先頭のガウス関数の分散パラメータに基づく所定の等間隔で配置されていることを特徴とする音響信号の解析方法。 15. The method of analyzing an acoustic signal according to claim 14, wherein the Gaussian functions are arranged at predetermined equal intervals based on a dispersion parameter of the leading Gaussian function. 請求項6、12乃至15いずれかにおいて、エンベロープ関数は、二つのシグモイド関数を組み合わせた関数から構成されていることを特徴とする音響信号の解析方法。 16. The method for analyzing an acoustic signal according to claim 6, wherein the envelope function is composed of a function obtained by combining two sigmoid functions. 請求項6、12乃至15いずれかにおいて、エンベロープ関数は、極値分布関数あるいはGDDであることを特徴とする音響信号の解析方法。 16. The method of analyzing an acoustic signal according to claim 6, wherein the envelope function is an extreme value distribution function or GDD. 請求項2乃至17いずれかにおいて、重畳オブジェクトモデルのパラメータには、各音響オブジェクトモデルを表すモデル関数のパラメータ、及び、各音響オブジェクトモデルの重みが含まれることを特徴とする音響信号の解析方法。 18. The method of analyzing an acoustic signal according to claim 2, wherein the parameter of the superimposed object model includes a parameter of a model function representing each acoustic object model and a weight of each acoustic object model. 請求項2乃至18いずれかにおいて、パラメータの最適化は、MAP推定により行うことを特徴とする音響信号の解析方法。 19. The acoustic signal analysis method according to claim 2, wherein the parameter optimization is performed by MAP estimation. 請求項2乃至18いずれかにおいて、モデルパラメータ最適化の推定アルゴリズムは、EMアルゴリズムであることを特徴とする音響信号の解析方法。 19. The acoustic signal analysis method according to claim 2, wherein the estimation algorithm for model parameter optimization is an EM algorithm. 請求項2乃至20いずれかに記載された方法を、コンピュータに実行させるためのコンピュータプログラム。 A computer program for causing a computer to execute the method according to any one of claims 2 to 20. 請求項2乃至20いずれかに記載された方法を、コンピュータに実行させるためのコンピュータプログラムを記録させた記録媒体。 A recording medium on which a computer program for causing a computer to execute the method according to claim 2 is recorded. 複数の音源からの音が混在している音響信号の観測スペクトルを、複数の音響オブジェクトモデルを重畳してなる重畳オブジェクトモデルでモデリングし、各音響オブジェクトモデルを、周波数x及び時間tの2変数を有するモデル関数で表し、モデル関数のモデルパラメータを最適化することで観測スペクトルの特徴を推定することを特徴とする音響信号の解析システム。 An observation spectrum of an acoustic signal in which sounds from a plurality of sound sources are mixed is modeled by a superimposed object model formed by superimposing a plurality of acoustic object models, and each acoustic object model is represented by two variables of frequency x and time t. An acoustic signal analysis system characterized by estimating the characteristics of an observed spectrum by optimizing model parameters of the model function.
JP2005071710A 2005-03-14 2005-03-14 Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources Pending JP2006251712A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005071710A JP2006251712A (en) 2005-03-14 2005-03-14 Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005071710A JP2006251712A (en) 2005-03-14 2005-03-14 Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources

Publications (1)

Publication Number Publication Date
JP2006251712A true JP2006251712A (en) 2006-09-21

Family

ID=37092234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005071710A Pending JP2006251712A (en) 2005-03-14 2005-03-14 Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources

Country Status (1)

Country Link
JP (1) JP2006251712A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008136443A1 (en) * 2007-04-26 2008-11-13 The University Of Tokyo Sine wave parameter estimation method
JP2009139406A (en) * 2007-12-03 2009-06-25 Toshiba Corp Speech processing device, and speech synthesis device using it
JP2009139769A (en) * 2007-12-07 2009-06-25 Sony Corp Signal processor, signal processing method and program
WO2009110118A1 (en) * 2008-03-05 2009-09-11 国立大学法人 東京大学 Method of separating sound signal
JP2011164335A (en) * 2010-02-09 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> Reverberation prediction filter calculation device, reverberation suppression device, reverberation prediction filter calculation method, reverberation suppressing method and program
CN102695958A (en) * 2009-11-12 2012-09-26 保罗-里德-史密斯-吉塔尔斯股份合作有限公司 Precision measurement of waveforms
JP2013511045A (en) * 2009-11-12 2013-03-28 ポール リード スミス ギターズ、リミテッド パートナーシップ Method, computer readable storage medium and signal processing system for digital signal processing
US9390066B2 (en) 2009-11-12 2016-07-12 Digital Harmonic Llc Precision measurement of waveforms using deconvolution and windowing
US9600445B2 (en) 2009-11-12 2017-03-21 Digital Harmonic Llc Precision measurement of waveforms

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03269498A (en) * 1990-03-19 1991-12-02 Ricoh Co Ltd Noise removal system
JPH04505372A (en) * 1989-05-18 1992-09-17 メディカル リサーチ カウンシル Waveform analysis
JP2890831B2 (en) * 1990-11-28 1999-05-17 ヤマハ株式会社 MIDI code generator
JP2003508804A (en) * 1999-08-30 2003-03-04 ウェーブメーカーズ・インコーポレーテッド System and method for classifying sound sources

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04505372A (en) * 1989-05-18 1992-09-17 メディカル リサーチ カウンシル Waveform analysis
JPH03269498A (en) * 1990-03-19 1991-12-02 Ricoh Co Ltd Noise removal system
JP2890831B2 (en) * 1990-11-28 1999-05-17 ヤマハ株式会社 MIDI code generator
JP2003508804A (en) * 1999-08-30 2003-03-04 ウェーブメーカーズ・インコーポレーテッド System and method for classifying sound sources

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008136443A1 (en) * 2007-04-26 2008-11-13 The University Of Tokyo Sine wave parameter estimation method
JP5553334B2 (en) * 2007-04-26 2014-07-16 国立大学法人 東京大学 Sinusoidal parameter estimation method
JP2009139406A (en) * 2007-12-03 2009-06-25 Toshiba Corp Speech processing device, and speech synthesis device using it
CN101452696B (en) * 2007-12-07 2012-11-28 索尼株式会社 Signal processing device, signal processing method and program
US7863512B2 (en) 2007-12-07 2011-01-04 Sony Corporation Signal processing device, signal processing method, and program
JP4640407B2 (en) * 2007-12-07 2011-03-02 ソニー株式会社 Signal processing apparatus, signal processing method, and program
JP2009139769A (en) * 2007-12-07 2009-06-25 Sony Corp Signal processor, signal processing method and program
JP2009210888A (en) * 2008-03-05 2009-09-17 Univ Of Tokyo Method for separating sound signal
WO2009110118A1 (en) * 2008-03-05 2009-09-11 国立大学法人 東京大学 Method of separating sound signal
CN102695958A (en) * 2009-11-12 2012-09-26 保罗-里德-史密斯-吉塔尔斯股份合作有限公司 Precision measurement of waveforms
JP2013511045A (en) * 2009-11-12 2013-03-28 ポール リード スミス ギターズ、リミテッド パートナーシップ Method, computer readable storage medium and signal processing system for digital signal processing
US9279839B2 (en) 2009-11-12 2016-03-08 Digital Harmonic Llc Domain identification and separation for precision measurement of waveforms
US9390066B2 (en) 2009-11-12 2016-07-12 Digital Harmonic Llc Precision measurement of waveforms using deconvolution and windowing
US9600445B2 (en) 2009-11-12 2017-03-21 Digital Harmonic Llc Precision measurement of waveforms
JP2011164335A (en) * 2010-02-09 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> Reverberation prediction filter calculation device, reverberation suppression device, reverberation prediction filter calculation method, reverberation suppressing method and program

Similar Documents

Publication Publication Date Title
JP2006251712A (en) Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources
KR101521368B1 (en) Method, apparatus and machine-readable storage medium for decomposing a multichannel audio signal
Klapuri Automatic music transcription as we know it today
WO2005066927A1 (en) Multi-sound signal analysis method
JP4517045B2 (en) Pitch estimation method and apparatus, and pitch estimation program
CN103999076A (en) System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
JP2009210888A (en) Method for separating sound signal
JP2007041234A (en) Method for deducing key of music sound signal, and apparatus for deducing key
Fuentes et al. Probabilistic model for main melody extraction using constant-Q transform
Dubois et al. Joint detection and tracking of time-varying harmonic components: A flexible Bayesian approach
Burred et al. Dynamic spectral envelope modeling for timbre analysis of musical instrument sounds
Durrieu et al. An iterative approach to monaural musical mixture de-soloing
Chen et al. Structure from silence: Learning scene structure from ambient sound
Laroche et al. Drum extraction in single channel audio signals using multi-layer non negative matrix factor deconvolution
Wang et al. Playing technique recognition by joint time–frequency scattering
Kawamura et al. Differentiable digital signal processing mixture model for synthesis parameter extraction from mixture of harmonic sounds
Lee et al. Musical onset detection based on adaptive linear prediction
JP4625933B2 (en) Sound analyzer and program
Cemgil et al. Prior structures for Time-Frequency energy distributions
JP2007328268A (en) Band spreading system of musical signal
Yasuraoka et al. I-divergence-based dereverberation method with auxiliary function approach
Hoskinson Manipulation and resynthesis of environmental sounds with natural wavelet grains
JP4625934B2 (en) Sound analyzer and program
Le Roux et al. Single channel speech and background segregation through harmonic-temporal clustering
Lewis et al. Blind signal separation of similar pitches and instruments in a noisy polyphonic domain

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100614

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101015