JP2006251712A - Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources - Google Patents
Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources Download PDFInfo
- Publication number
- JP2006251712A JP2006251712A JP2005071710A JP2005071710A JP2006251712A JP 2006251712 A JP2006251712 A JP 2006251712A JP 2005071710 A JP2005071710 A JP 2005071710A JP 2005071710 A JP2005071710 A JP 2005071710A JP 2006251712 A JP2006251712 A JP 2006251712A
- Authority
- JP
- Japan
- Prior art keywords
- model
- function
- acoustic signal
- acoustic
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Abstract
Description
本発明は、観測データの解析方法係り、特に、複数の音源からの音が混在している音響信号の解析方法に関する。 The present invention relates to an observation data analysis method, and more particularly to an acoustic signal analysis method in which sounds from a plurality of sound sources are mixed.
複数の音源からの音が混在している多重音響信号の解析はこれまで数多く研究されているが、いまだ懸案の難問の一つである。近年提案されたカルマンフィルタ(非特許文献1)、信号およびスペクトル領域でのモデル近似推定(非特許文献2,3)に基づく手法はこの分野において大きな進歩をもたらした。しかし、本来、多重音解析の問題は周波数方向と時間方向の情報を同時に処理すべきであり、これらの手法は問題を分解してまず周波数次元の情報を抽出してからその情報を時間方向に連結していくアプローチで解決を図っていた。
本発明は、局所的な部分情報を統合していくアプローチではなく、大域的な時間構造と周波数構造を同時推定できる枠組を提供することを目的とするものである。 An object of the present invention is to provide a framework capable of simultaneously estimating a global time structure and a frequency structure, not an approach in which local partial information is integrated.
かかる課題を解決するために本発明が採用した技術手段は、観測データを重畳オブジェクトモデルでモデリングし、各オブジェクトモデルを2変数のモデル関数で表し、モデル関数のモデルパラメータを最適化することで観測値の特徴を推定することを特徴とするものである。 The technical means adopted by the present invention in order to solve such a problem is that observation data is modeled by a superimposed object model, each object model is represented by a two-variable model function, and the model parameter of the model function is optimized for observation. A feature of the value is estimated.
一つの好ましい態様では、観測データは、複数の音源からの音が混在している音響信号の観測スペクトルであり、前記モデル関数の変数は周波数x及び時間tである。後述する実施の形態では、対数周波数について説明するが、周波数軸は、線形周波数軸を用いてもよい。観測スペクトルの特徴には、各音の周波数情報(基本周波数、倍音の周波数)、時間情報(立ち上がり時刻、時間長)が含まれる。観測スペクトルの特徴には、さらに、調波構造を構成する各周波数成分の周波数成分パワー比、時間方向のパワースペクトルエンベロープが含まれる。 In one preferred embodiment, the observation data is an observation spectrum of an acoustic signal in which sounds from a plurality of sound sources are mixed, and the variables of the model function are a frequency x and a time t. Although the logarithmic frequency will be described in an embodiment described later, a linear frequency axis may be used as the frequency axis. The characteristics of the observation spectrum include frequency information (basic frequency, overtone frequency) of each sound and time information (rise time, time length). The characteristics of the observed spectrum further include the frequency component power ratio of each frequency component constituting the harmonic structure and the power spectrum envelope in the time direction.
重畳音響オブジェクトモデルは、
観測データが音響信号の場合において、好ましい態様では、一つの音響オブジェクトモデルは、一つの調波構造に対応している。後述する実施の形態では、調和性を仮定しているが、調波構造に何らかの解析的なパラメトリックモデルが仮定できれば、非調和であってもよい。 In the case where the observation data is an acoustic signal, in a preferred aspect, one acoustic object model corresponds to one harmonic structure. In the embodiment described later, harmonicity is assumed. However, as long as an analytical parametric model can be assumed for the harmonic structure, the harmonic structure may be inharmonic.
本発明における2変数x、tを有するモデル関数において、k番目の音響オブジェクトモデルpk(x,t)の一般式は、周波数成分を正規分布(ガウス関数)で表す場合について例示すると、
観測データが音響信号の場合において、一つの態様では、モデル関数は、周波数xを変数に含む調波構造関数と時間tを変数に含むエンベロープ関数を含む。後述する実施形態では、一つの好ましい態様として、k番目の音響オブジェクトモデルp(x,t|Θk)を、二つの関数Φk(x)とΨk(t)の積で表すもの、に基づいて本発明を説明するが、用いる関数はこれには限定されない。後述の実施形態では、調波構造全体に対して共通のエンベロープ関数(ガウス基底関数)を用いる。 In the case where the observation data is an acoustic signal, in one aspect, the model function includes a harmonic structure function including the frequency x as a variable and an envelope function including the time t as a variable. In an embodiment to be described later, as one preferable aspect, the k-th acoustic object model p (x, t | Θ k ) is expressed by a product of two functions Φ k (x) and Ψ k (t). The present invention will be described based on this, but the function used is not limited to this. In an embodiment described later, a common envelope function (Gaussian basis function) is used for the entire harmonic structure.
調波構造関数は、さらに時間tを変数に含んでいてもよい。k番目の音響オブジェクトモデルp(x,t|Θk)を、二つの関数Φk(x,t)とΨk(t)の積で表すものが例示される。このものでは、調波構造関数は時間に依存した関数となり、時間tによって周波数xの値が変化し得る。x−t平面上に投影したピッチ軌跡を多項式等で表現した場合が例示される。 The harmonic structure function may further include time t as a variable. The k-th acoustic object model p (x, t | Θ k ) is exemplified by a product of two functions Φ k (x, t) and Ψ k (t). In this case, the harmonic structure function is a time-dependent function, and the value of the frequency x can change with time t. The case where the pitch locus projected on the xt plane is expressed by a polynomial or the like is exemplified.
一つの調波構造に対して共通のエンベロープ関数を用いる。他の態様では、各調波成分に対して独立したエンベロープ関数を用いる。k番目の音響オブジェクトモデルp(x,t|Θk)を、二つの関数Φk(x,t)とΨn,k(t)の積で表す。このものは、パワーエンベロープ関数を調波成分ごとに別々に用意する場合である。より具体的には、例えば、調波ごとに別々の減衰曲線(エンベロープ関数)を持つようなモデル(倍音、3倍音、4倍音、... で別々の曲線で減衰するようにモデリングする)である。 A common envelope function is used for one harmonic structure. In another aspect, an independent envelope function is used for each harmonic component. The k-th acoustic object model p (x, t | Θ k ) is represented by the product of two functions Φ k (x, t) and Ψ n, k (t). In this case, the power envelope function is prepared separately for each harmonic component. More specifically, for example, in a model having a separate attenuation curve (envelope function) for each harmonic (modeled to attenuate with separate curves at harmonics, third harmonics, fourth harmonics, ...) is there.
音響オブジェクトを表す2変数x、yを有するモデル関数は、後述する実施の形態では、モデル関数がxの関数とtの関数の積に分解できる特殊な場合の解析的な解法を示している。すなわち、前記一般式において、調波成分ごとのエンベロープ関数が相似になる(つまり、Ψk n(t)がnによらず共通になる)という仮定と、ピッチ軌跡が時間軸に平行である(つまり、μk(t)= μk)という仮定のもとでは、一般式は、
このように、実施形態では、楽音の音響オブジェクトのピッチ軌跡は時間軸に平行であることを仮定しているが、実際には、これらが平行である状況は限られる。音声、また、楽器音でもビブラートやグリッサンドなどの奏法では平行ではなくなるが、特に、対象となる多重音信号が音楽信号の場合には、ピッチ軌跡が時間軸にほぼ平行であるという仮定は大きな問題とはならない。また、楽音の音響オブジェクトのピッチ軌跡は時間軸に平行であることを仮定せずに、多項式等によりピッチ軌跡をモデリングしてもよい。 As described above, in the embodiment, it is assumed that the pitch trajectory of the musical object of the musical sound is parallel to the time axis, but in reality, the situation where these are parallel is limited. The assumption that the pitch trajectory is almost parallel to the time axis is a big problem, especially when the target multiple sound signal is a music signal, even if it is a voice or musical instrument sound, but it is not parallel in the playing method such as vibrato or glissando. It will not be. Further, the pitch trajectory of a musical sound object may be modeled by a polynomial or the like without assuming that the pitch trajectory is parallel to the time axis.
一つの好ましい態様では、調波構造関数は、基本周波数成分に対応する一つの単峰形分布の代表値である基本周波数推定値と、該基本周波数推定値によって決定される他の単峰形分布の代表値を有し、モデルパラメータは、各単峰形分布の代表値、重み、分散を含む。代表値パラメータは、基本周波数推定値を構成する代表値を含む調波構造モデルの各単峰形分布の各代表値により構成されるが、代表値パラメータにおいては、基本周波数推定値のみが自由パラメータであり、他の代表値は基本周波数推定値によって拘束されるパラメータである。単峰形分布としては数々の分布が知られているが、一つの好ましい態様では、単峰形分布は正規分布(対数正規分布を含む)である。分布の代表値としては、平均、中央値、最頻値が例示されるが、一つの好ましい態様では、分布の代表値は平均である。後述する実施形態では、音響オブジェクトを、拘束つき混合正規分布によりモデル化した調波構造モデルで表しており、拘束つき混合正規分布によりモデル化した調波構造モデルは、基本周波数成分に対応する一つの正規分布の平均μkである基本周波数推定値と、該基本周波数推定値によって決定される他の正規分布の平均μk+lognとを有している。重みパラメータrk nは、音響オブジェクトkの調波構造を構成する各周波数成分の周波数成分パワー比を表す。分散パラメータσkは、音響オブジェクトkの調波構造を構成する各周波数成分の幅を表すが。一つの態様では、既知パラメータとしてモデルに与えてもよい。 In one preferred embodiment, the harmonic structure function includes a fundamental frequency estimate that is a representative value of one unimodal distribution corresponding to a fundamental frequency component, and another unimodal distribution determined by the fundamental frequency estimate. The model parameter includes the representative value, weight, and variance of each unimodal distribution. The representative value parameter is composed of each representative value of each unimodal distribution of the harmonic structure model including the representative value that constitutes the fundamental frequency estimate, but only the fundamental frequency estimate is a free parameter in the representative value parameter. The other representative values are parameters constrained by the fundamental frequency estimation value. A number of distributions are known as the unimodal distribution, but in one preferred embodiment, the unimodal distribution is a normal distribution (including a log normal distribution). Examples of the representative value of the distribution include an average value, a median value, and a mode value. In one preferred embodiment, the representative value of the distribution is an average value. In an embodiment described later, an acoustic object is represented by a harmonic structure model modeled by a constrained mixed normal distribution, and the harmonic structure model modeled by a constrained mixed normal distribution corresponds to a fundamental frequency component. It has a fundamental frequency estimate that is the average μ k of one normal distribution and an average μ k + logn of another normal distribution that is determined by the fundamental frequency estimate. Weighting parameter r k n represents the frequency component power ratio of each frequency component constituting the harmonic structure of the audio object k. The dispersion parameter σ k represents the width of each frequency component constituting the harmonic structure of the acoustic object k. In one embodiment, it may be given to the model as a known parameter.
一つの好ましい態様では、エンベロープ関数は、時間軸方向に連続状に配置した複数のガウス関数、
他の態様では、エンベロープ関数は、二つのシグモイド関数を組み合わせた関数、
また、他の態様では、エンベロープ関数は、極値分布関数、
さらに、他の態様では、エンベロープ関数は、Generalized Gaussian Distribution(GDD)、
モデル関数のパラメータの最適化の手法は、一つの好ましい態様では、MAP推定であるが、本発明に適用される最適化手法は、MAP推定には限定されず、他の最適化手法であってもよい。また、一つの好ましい態様では、モデルパラメータ最適化の推定アルゴリズムは、EMアルゴリズムである。 In one preferred embodiment, the model function parameter optimization method is MAP estimation. However, the optimization method applied to the present invention is not limited to MAP estimation, and may be other optimization methods. Also good. Moreover, in one preferable aspect, the estimation algorithm of model parameter optimization is EM algorithm.
本発明は、音響分析システム、音響分析のためのコンピュータプログラム、あるいは当該プログラムを記録した記録媒体としても提供され得る。 The present invention can also be provided as an acoustic analysis system, a computer program for acoustic analysis, or a recording medium on which the program is recorded.
本発明の観測データの解析方法は、好ましくは、音響信号に適用されるが、本発明に係る重畳オブジェクトモデルは、2次元平面上に投影されたデータから、投影されたデータの元の情報を復元することに拡張できる。他の態様では、観測データは、複数の対象物を含む画像データである。簡単な例を示すと、対象物は直方体状の物体であり、これを、直方体状の物体とその影とに対応するオブジェクトモデルでモデリングし、対象物の特徴を復元する。観測データが画像データの場合には、ロボットヴィジョン等の情景分析に適用することができる。 The observation data analysis method of the present invention is preferably applied to an acoustic signal, but the superimposed object model according to the present invention uses the original information of the projected data from the data projected on the two-dimensional plane. Can be extended to restore. In another aspect, the observation data is image data including a plurality of objects. As a simple example, the target object is a rectangular parallelepiped object, which is modeled with an object model corresponding to the rectangular parallelepiped object and its shadow, and the characteristics of the target object are restored. When the observation data is image data, it can be applied to scene analysis such as robot vision.
本発明によれば、複数の音源からの音が混在している音響信号を重畳オブジェクトモデルでモデリングし、各音響オブジェクト、重畳音響オブジェクトの時間と周波数の大域的な幾何構造を同時推定することができ、精度よく音響信号を解析することができる。 According to the present invention, it is possible to model an acoustic signal in which sounds from a plurality of sound sources are mixed with the superimposed object model and simultaneously estimate the global geometric structure of each acoustic object and the superimposed acoustic object in terms of time and frequency. The sound signal can be analyzed with high accuracy.
本発明を、一つの好ましい態様である、ガウス基底音響オブジェクトモデルを用いた多重スペクトル分離に基づいて説明する。 The invention will be described based on one preferred embodiment, multispectral separation using a Gaussian basis acoustic object model.
[A]音響オブジェクトモデル
[A−1]問題の定式化
図1に示すように、複数の音源からの音が混在している音響信号の観測スペクトルは、複数のピッチ(基本周波数)の時間軌跡に伴う基本波成分および高調波成分が複数重畳した複雑な分布である。このような混合分布を各スペクトルに分離することを考えたとき、短時間分析では、スペクトルの重なり合いが問題となる。本発明では、観測されるスペクトル分布は、一種のマイクロエネルギーパターンのヒストグラムであるとして、時間―周波数平面に、多数のストリップ状の領域に割り当て、各領域が各音響オブジェクトの予測される複数のスペクトル成分を占めるようにする。本明細書では、観測パターンを任意に分解し、分解された各パターンをクラスタと呼ぶ。すなわち、クラスタは分解された観測パターンの分布を意味し、クラスタリングは観測パターンをクラスタに分解することを意味する。もし適切なクラスタリング帰属の度合いが決定されれば、確率的手法によって、観測された複合分布を分離することができる。
[A] Acoustic object model
[A-1] Formulation of Problem As shown in FIG. 1, the observed spectrum of an acoustic signal in which sounds from a plurality of sound sources are mixed includes a fundamental wave component associated with time trajectories of a plurality of pitches (fundamental frequencies) and This is a complex distribution in which multiple harmonic components are superimposed. Considering separation of such a mixed distribution into spectra, spectrum overlap becomes a problem in short-time analysis. In the present invention, the observed spectral distribution is a kind of micro energy pattern histogram, and is assigned to a number of strip-like regions in the time-frequency plane, and each region is a plurality of predicted spectra of each acoustic object. Make up the ingredients. In this specification, an observation pattern is arbitrarily decomposed, and each decomposed pattern is called a cluster. That is, the cluster means the distribution of the observed patterns that are decomposed, and the clustering means that the observed patterns are decomposed into clusters. If an appropriate degree of clustering attribution is determined, the observed composite distribution can be separated by a probabilistic method.
時間周波数平面上に分布する楽音のパワースペクトルは、周波数方向の櫛形構造が時間方向に連なった一種のオブジェクト(以後これを音響オブジェクトと呼ぶ)を形成する。図2は、一つの音響オブジェクトを示し、一つの音響オブジェクトは、周波数―時間平面上に割り当てられた複数のオブジェクト要素から構成され、複数のオブジェクト要素は一つの基本周波数成分に対応する一つの要素と、倍音(整数倍でないものも含む)成分に対応する複数の要素とから構成される。本発明では、多数の楽音からなる音楽信号のスペクトル時間パターンを各楽音オブジェクトが重畳したものであると見なし、音響オブジェクト分解を、時間・周波数の2次元に分散した音響エネルギーのファジークラスタリング問題として解析的に定式化する。 The power spectrum of musical sounds distributed on the time-frequency plane forms a kind of object (hereinafter referred to as an acoustic object) in which comb structures in the frequency direction are continuous in the time direction. FIG. 2 shows one acoustic object, and one acoustic object is composed of a plurality of object elements allocated on the frequency-time plane, and the plurality of object elements are one element corresponding to one fundamental frequency component. And a plurality of elements corresponding to overtone (including non-integer multiple) components. In the present invention, the spectrum time pattern of a music signal composed of a large number of musical sounds is considered to be superimposed on each musical sound object, and the acoustic object decomposition is analyzed as a fuzzy clustering problem of acoustic energy distributed in two dimensions of time and frequency. Formulate it.
各クラスタにおいて一つの音響オブジェクトを幾何的に形作るモデルp(x,t|Θk)がパラメータΘk(Θ={Θk |k=1,…K})で規定できるとし、モデルに基づく目的関数を、
また、p(k|x,t,Θ)は、座標(x, t)におけるk 番目のクラスタにどれくらいの割合でスペクトル成分が帰属するかを表す確率であって、
以上より、観測スペクトルの時系列分布を何らかの幾何モデルで最適近似する問題に帰着することができる。ここで、この目的関数は、D(x,t|Θk)=logp(x,t|Θk)という特定条件のもとではEMアルゴリズムにおけるQ関数と同形であることに注目されたい。以下では、音響オブジェクトの調波構造と時間連続の両方の性質を同時に反映する2次元分布モデルを定式化する。 From the above, it can be reduced to the problem of optimal approximation of the time series distribution of the observed spectrum by some geometric model. Here, the objective function, D (x, t | Θ k) = logp (x, t | Θ k) is under certain conditions that should be noted that the Q function and the same shape in the EM algorithm. In the following, a two-dimensional distribution model that reflects both the harmonic structure and time continuity of an acoustic object is formulated.
[A−2]ガウス基底音響オブジェクトモデル
楽音の音響オブジェクトのピッチ軌跡は時間軸に平行であると仮定すると、図2のようなk番目の音響オブジェクトモデルの特定の時刻t における切口は図3のような調波構造Φk(x)を反映した関数となる。そこで、調波構造モデル関数Φk(x)を時間軸に沿って図4のようなエンベロープ関数Ψk(t)を乗じた形として音響オブジェクトモデルを仮定すると、k番目の音響オブジェクトモデルp(x,t|Θk)は、二つの関数とパワー(エネルギー)wkの積で表すことができる。
[A−3]調波構造関数Φk(x)
モデル関数を構成する調波構造関数の一つの好ましい態様としては、本出願の発明者らが既に提案している調波構造モデル関数を用いることができる。先ず、調波構造モデルについて説明する。短時間スペクトルの解析では、基本周波数成分や調波成分の広がりにより、異なる信号同士の周波数成分が重なり合い、近接する周波数成分の分離や正確な基本周波数あるいは高調波周波数の検出が困難となる。このように広がって観測される周波数成分を各周波数の出現頻度分布あるいは確率分布と見なし、その分布をガウス分布により近似することで、単一の調波構造を有するスペクトルを複数のガウス分布の混合分布としてモデル化する。図3に示すように、スペクトルの拡がり形状をガウス分布で近似することで、周波数値をガウス分布の平均推定、周波数成分のエネルギーを混合ガウス分布の重み推定に対応させることができる。調和性の保持のため、基本周波数成分に対応する1つのガウス分布の平均(基本周波数推定値)のみが自由度をもち、その位置に応じて残りのすべての正規分布の平均の位置は決定される。単一の調波構造をこのような拘束つきの混合ガウス分布によりモデル化したものを本明細書において「調波構造モデル」と呼ぶ。ガウス分布は調波構造モデルに適用できる分布関数の好適な一例であって、その他の単峰性分布関数を用いて調波構造モデルを構成してもよい。平均は分布の代表値の一つの好適な例であって、平均に代えて、中央値、最頻値を用いても良い。
[A-3] Harmonic structure function Φ k (x)
As a preferable embodiment of the harmonic structure function constituting the model function, the harmonic structure model function already proposed by the inventors of the present application can be used. First, the harmonic structure model will be described. In short-time spectrum analysis, the frequency components of different signals overlap due to the spread of fundamental frequency components and harmonic components, making it difficult to separate adjacent frequency components and accurately detect fundamental frequencies or harmonic frequencies. The frequency component observed in this way is regarded as the frequency distribution or probability distribution of each frequency, and by approximating the distribution with a Gaussian distribution, a spectrum with a single harmonic structure is mixed with multiple Gaussian distributions. Model as a distribution. As shown in FIG. 3, by approximating the spectrum spread shape with a Gaussian distribution, the frequency value can correspond to the average estimation of the Gaussian distribution, and the energy of the frequency component can correspond to the weight estimation of the mixed Gaussian distribution. To maintain harmony, only the average of one Gaussian distribution (fundamental frequency estimate) corresponding to the fundamental frequency component has a degree of freedom, and the average position of all remaining normal distributions is determined according to its position. The A single harmonic structure modeled by such a constrained mixed Gaussian distribution is referred to as a “harmonic structure model” in this specification. The Gaussian distribution is a suitable example of a distribution function that can be applied to the harmonic structure model, and the harmonic structure model may be configured using other unimodal distribution functions. The average is one preferable example of the representative value of the distribution, and the median and the mode may be used instead of the average.
調和性を仮定し、n番目の対数周波数成分が基本対数周波数からlognだけ離れているとすると、基本対数周波数がμk、n番目の部分対数周波数がμk+lognと推定される。すなわち、基本周波数推定値をμkと置けば、調波構造モデルkの各平均μkは、対数周波数領域において、μk,μk+log2,μk+logn,...μk+logNとなる。各周波数成分の分布をガウス分布で近似することで、一つの調波構造を、ガウス基底の重み付き和でモデリングする。これを定式化すると、調和性を仮定し、1つの周波数成分分布をガウス関数近似することで、調波構造モデルを、
[A−4]エンベロープ関数Ψk(t)
エンベロープ関数Ψk(t)は、パワースペクトルエンベロープのさまざまな変動に柔軟に対応できる関数であることが望ましい。例えば、音楽信号について言うと、楽器や音楽表現に依存して、アタック、サステイン、リリースは全く異なるであろう。そこで、エンベロープ関数Ψk(t)を、複数のガウス基底から表し、各ガウス基底は、エンベロープ形状に関連して、重みck y(y=0,…, Y-1、Σck y=1、yはエンベロープモデルのガウス基底のインデックスである)を有するようにしたガウス基底エンベロープモデルに基づいて構成する。このモデルの特徴は、隣り合うガウス関数同士の間隔を、各ガウス関数の標準偏差パラメータφkに基づいて表しており、エンベロープ関数Ψk(t)は、
The envelope function Ψ k (t) is desirably a function that can flexibly cope with various fluctuations of the power spectrum envelope. For example, when it comes to music signals, depending on the instrument and musical expression, the attack, sustain and release will be quite different. Therefore, the envelope function Ψ k (t) is expressed from a plurality of Gaussian bases, and each Gaussian base is related to the envelope shape and weights c k y (y = 0,..., Y−1, Σc k y = 1). , Y is an index of the Gaussian basis of the envelope model). The feature of this model is that the interval between adjacent Gaussian functions is expressed based on the standard deviation parameter φ k of each Gaussian function, and the envelope function Ψ k (t) is
[A−5]重畳オブジェクトモデル
上述のような一つの調波構造に対応する一つのオブジェクトモデルを重畳させた重畳オブジェクトモデルを用いて、複数の音源からの音が混在している音響信号の観測スペクトルをモデリングする。重畳オブジェクトモデルのモデルパラメータを表1に示す。尚、表1は、好適なモデルパラメータを例示したものであり、本発明に係るモデルパラメータは、表1に示すものには限定されない。
k:各音響オブジェクト(音響ストリーム)モデルのインデックスであり、実際には、音響オブジェクトのインデックスに対応する。混合音の観測スペクトルを、K個の音響オブジェクトモデルを用いてモデリングする。 k: Index of each acoustic object (acoustic stream) model, and actually corresponds to the index of the acoustic object. The observed spectrum of the mixed sound is modeled using K acoustic object models.
n:調波構造モデルにおけるガウス基底のインデックスであり、実際には、調波構造の各周波数成分のインデックスに対応する。一つの調波構造を、N個のガウス関数を用いてモデリングする。 n: Gaussian basis index in the harmonic structure model, which actually corresponds to the index of each frequency component of the harmonic structure. One harmonic structure is modeled using N Gaussian functions.
y:パワーエンベロープモデルにおけるガウス基底のインデックスである。一つのエンベロープ曲線を、Y個のガウス関数を用いてモデリングする。 y: Gaussian basis index in the power envelope model. One envelope curve is modeled using Y Gaussian functions.
μk:調波構造モデルにおける先頭のガウス基底の平均であり、実際には、基本対数周波数に対応する。 μ k : the average of the first Gaussian basis in the harmonic structure model, and actually corresponds to the fundamental logarithmic frequency.
μk+logn:調波構造モデルにおけるn番目のガウス基底の平均であり、実際には、n番目の対数周波数要素に対応する。 μ k + logn: The average of the nth Gaussian basis in the harmonic structure model, and actually corresponds to the nth logarithmic frequency element.
wk:k番目の音響オブジェクトモデルの重みであり、実際には、k番目の音響オブジェクトの相対的支配を意味する。 w k : The weight of the k th acoustic object model, which actually means the relative dominance of the k th acoustic object.
rk n:k番目の音響オブジェクトモデルの調波構造モデルにおけるガウス基底の重みであり、実際には、周波数成分パワー比に対応する。 r k n : Gaussian basis weight in the harmonic structure model of the kth acoustic object model, and actually corresponds to the frequency component power ratio.
ck y:k番目の音響オブジェクトモデルのパワーエンベロープモデルにおけるガウス基底の重みであり、実際には、パワーエンベロープの時間方向の曲線に対応する。 c k y : Weight of the Gauss basis in the power envelope model of the kth acoustic object model, and actually corresponds to a curve in the time direction of the power envelope.
ok:k番目の音響オブジェクトモデルのパワーエンベロープモデルにおける先頭のガウス基底の平均であり、一例では、k番目の音響オブジェクトの立ち上がり時刻(onset time)に対応する。 o k : average of the first Gaussian basis in the power envelope model of the kth acoustic object model, and in one example, corresponds to the rise time (onset time) of the kth acoustic object.
σk:k番目の音響オブジェクトモデルの調波構造モデルにおけるガウス基底の標準偏差であり、実際には各周波数成分の幅に対応する。 σ k : Standard deviation of the Gauss basis in the harmonic structure model of the kth acoustic object model, and actually corresponds to the width of each frequency component.
φk:k番目の音響オブジェクトモデルのパワーエンベロープモデルにおけるガウス基底の間隔および標準偏差であり、実際にはk番目の音響オブジェクトの時間長に関連する。 φ k : Gaussian base interval and standard deviation in the power envelope model of the kth acoustic object model, and is actually related to the time length of the kth acoustic object.
[B]最適パラメータ推定
[B−1]事前分布の仮定
特定のパラメータに関して柔軟な制約条件を与えたい場合、 事前分布の仮定は効果的である。例えば、rk nとck yに関して、調波構造の各成分比やパワーエンベロープに関して想定されるある程度常識的な予測値rk n(バー)、ck y(バー)から極端に逸脱し過ぎないようにパラメータ制約を加えることができる(図5参照)。ここでは、MAP推定におけるラグランジュの未定乗数の計算を大幅に簡単化できる事前分布(非特許文献3参照)、
[B-1] Assumption of prior distribution The assumption of prior distribution is effective when it is desired to give flexible constraints on specific parameters. For example, for r k n and c k y, somewhat commonsense prediction value r k n (bar) envisaged for each component ratio and power envelope of the harmonic structure, too extreme departure from the c k y (bar) Parameter constraints can be added (see FIG. 5). Here, a prior distribution (see Non-Patent Document 3) that can greatly simplify the calculation of Lagrange's undetermined multiplier in MAP estimation,
[B−2]EMアルゴリズムを用いたMAP推定
以上の拘束条件下の混合音響オブジェクトモデルの最適近似パラメータ推定はEMアルゴリズムによるMAP推定(反復計算による補助関数の単調増加)と同型の問題となる。式(1)における目的関数は補助関数に対応しており、式(1)は、
局所最適パラメータは以下の反復計算で求められる。
(1)E−ステップ
前のM−ステップで更新されたΘ(バー)にΘ(ハット)を代入して、補助関数R(Θ,Θ(バー))にΘ(バー)を計算する。このステップは、帰属確率密度p(k,n,y|x,t,Θ)の更新に対応する。
(2)M−ステップ
帰属確率密度p(k,n,y|x,t,Θ)固定のもとで、Θ(バー)のパラメータを更新して、補助関数R(Θ,Θ(バー))を最大化する。
The local optimum parameter is obtained by the following iterative calculation.
(1) Substitute Θ (hat) into Θ (bar) updated in the M-step before E-step, and calculate Θ (bar) to the auxiliary function R (Θ, Θ (bar)). This step corresponds to updating the attribution probability density p (k, n, y | x, t, Θ).
(2) Under the M-step attribution probability density p (k, n, y | x, t, Θ) fixed, the parameter of Θ (bar) is updated, and the auxiliary function R (Θ, Θ (bar) ).
[B−3] M−ステップにおけるパラメータの更新式
M−ステップにおける各モデルパラメータの更新式の計算結果を示す。尚、下記の式では、簡潔のため、時間方向(T1, T2)及び周波数方向(Ω1, Ω2)の積分範囲は省略してある。
[B-3] Parameter Update Formula in M-Step The calculation result of each model parameter update formula in M-step is shown. In the following expression, for the sake of brevity, the integration ranges in the time direction (T 1 , T 2 ) and the frequency direction (Ω 1 , Ω 2 ) are omitted.
基本対数周波数μkの更新式は以下のとおりである。これにより、k番目の音響オブジェクトの基本周波数が推定される。
スペクトル要素の相対パワーrk nの更新式は以下のとおりである。これにより、k番目の音響オブジェクトの調波構造における、各周波数の周波数成分パワー比が推定される。
調波構造における各周波数成分の幅σkの更新式は以下のとおりである。k番目の音響オブジェクトの調波構造の各周波数成分の幅が推定される。ここでは、幅は、各周波数成分間で同じとしている。
立ち上がり時刻okの更新式は以下のとおりである。k番目の音響オブジェクトの立ち上がり時刻が推定される。
パワーエンベロープ曲線の要素ck yの更新式は以下のとおりである。k番目の音響オブジェクトのパワーエンベロープ曲線は、エンベロープ関数を構成する複数のガウス基底の重み付け和によって決定される。
時間長の要素φkの更新式は以下のとおりである。k番目の音響オブジェクトの時間長が推定される。
重畳音響オブジェクトにおける、k番目の音響オブジェクトのパワー(エネルギー)の更新式は以下のとおりである。
[C]実験例
[C−1]実験例1
本発明に係る方法のテストデータとしてRWC研究用音楽データベースの中から2曲の実音楽信号(16kHz サンプリング周波数)を利用した。 パワースペクトル時系列はガボールウェーブレット変換(フレームシフト20ms,周波数分解能16.7cent,最低周波数50Hz)により出力した。解析区間(時間周波数平面)の時間長は3s(150フレーム)ずつとした。EMアルゴリズムのためのパラメータ(μk,ok|k=1,…,K)の初期値は、与えられたスペクトル分布から大きい順に70個のピーク(パワースペクトル密度の極大点)を抽出することで決定した。EMアルゴリズムの反復において、音響オブジェクトの総数は閾値処理によって推定した。すなわち、重みパラメータwk がある一定閾値以下のモデルは無音と判断して除去した。
[C] Experimental Example [C-1] Experimental Example 1
As test data of the method according to the present invention, two actual music signals (16 kHz sampling frequency) were used from the music database for RWC research. The power spectrum time series was output by Gabor wavelet transform (frame shift 20ms, frequency resolution 16.7cent, minimum frequency 50Hz). The time length of the analysis section (temporal frequency plane) was 3 s (150 frames). The initial values of the parameters (μ k , o k | k = 1,..., K) for the EM algorithm are 70 peaks (maximum points of power spectral density) in order from the given spectral distribution. Determined. In the iteration of the EM algorithm, the total number of acoustic objects was estimated by thresholding. That is, a model whose weight parameter w k is equal to or smaller than a certain threshold value is judged to be silent and removed.
実際のスペクトルから推定した最適化モデルの具体例および対応する時間−周波数スペクトルの3次元表示及びグレースケール表示を図6に示す。図6(a)は、観測スペクトル分布を3次元(対数周波数軸、時間軸、エネルギー強度を表す軸)に表示したものであり、図6(c)は、図6(a)に対応する観測スペクトルのスペクトログラム(横軸:時間、縦軸:対数周波数)のグレースケール表示である。図6(b)は、最適パラメータによる重畳音響オブジェクトモデルの3次元(対数周波数軸、時間軸、エネルギー強度を表す軸)に表示したものであり、図6(a)に対応している。図6(b)は、図2に示す各音響オブジェクトが重畳したものである。図6(d)は、図6(b)に対応する最適化された重畳音響オブジェクトモデルのグレースケール表示(横軸:時間、縦軸:周波数)である。図6(b)、(d)に示すように、重畳した音響オブジェクトのピッチのみならず、オンセット時刻(立ち上がり時刻)、時間長、オフセット時刻、パワーエンベロープが適切に推定されている。また、最適帰属確率を用いた正弦波合成によって個々の音響オブジェクトを抽出して再構築することも可能である。 A specific example of the optimization model estimated from the actual spectrum and the corresponding three-dimensional display and gray scale display of the time-frequency spectrum are shown in FIG. FIG. 6A shows the observed spectrum distribution in three dimensions (logarithmic frequency axis, time axis, and axis representing energy intensity), and FIG. 6C shows an observation corresponding to FIG. 6A. It is a gray scale display of a spectrogram of a spectrum (horizontal axis: time, vertical axis: logarithmic frequency). FIG. 6B is a three-dimensional display (logarithmic frequency axis, time axis, and axis representing energy intensity) of the superimposed acoustic object model with the optimum parameters, and corresponds to FIG. FIG. 6B is an overlay of the acoustic objects shown in FIG. FIG. 6D is a grayscale display (horizontal axis: time, vertical axis: frequency) of the optimized superimposed acoustic object model corresponding to FIG. 6B. As shown in FIGS. 6B and 6D, not only the pitch of the superimposed acoustic object but also the onset time (rise time), time length, offset time, and power envelope are appropriately estimated. It is also possible to extract and reconstruct individual acoustic objects by sinusoidal synthesis using the optimal attribution probability.
[C−2]実験例2
本発明に係る手法の性能評価基準として付属の参照用MIDIデータから音名正解率を算出した。また、比較対象として、フレームごとのモデル推定の情報に基づいてHMMでピッチ軌跡を推定する方法(非特許文献4)を選んだ。利用したテストデータに対し従来法に比べて本発明に係る手法は高い性能を示し(表2)、時間方向と周波数方向を同時にモデリングしたことの効果が確認できた。
As a performance evaluation standard of the method according to the present invention, the pitch correct rate was calculated from the attached reference MIDI data. Further, as a comparison target, a method (Non-patent Document 4) for estimating a pitch trajectory by HMM based on model estimation information for each frame was selected. Compared to the conventional method, the method according to the present invention showed higher performance than the conventional method (Table 2), and the effect of modeling the time direction and the frequency direction at the same time was confirmed.
本発明は、実環境下の音声認識、複数話者環境下での高性能音声収録、カラオケシステムにおける自動採点や伴奏データ作成のための音楽信号解析に利用可能である。 INDUSTRIAL APPLICABILITY The present invention can be used for speech recognition in a real environment, high performance speech recording in a multi-speaker environment, automatic scoring in a karaoke system, and music signal analysis for accompaniment data creation.
Claims (23)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005071710A JP2006251712A (en) | 2005-03-14 | 2005-03-14 | Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005071710A JP2006251712A (en) | 2005-03-14 | 2005-03-14 | Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006251712A true JP2006251712A (en) | 2006-09-21 |
Family
ID=37092234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005071710A Pending JP2006251712A (en) | 2005-03-14 | 2005-03-14 | Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006251712A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008136443A1 (en) * | 2007-04-26 | 2008-11-13 | The University Of Tokyo | Sine wave parameter estimation method |
JP2009139406A (en) * | 2007-12-03 | 2009-06-25 | Toshiba Corp | Speech processing device, and speech synthesis device using it |
JP2009139769A (en) * | 2007-12-07 | 2009-06-25 | Sony Corp | Signal processor, signal processing method and program |
WO2009110118A1 (en) * | 2008-03-05 | 2009-09-11 | 国立大学法人 東京大学 | Method of separating sound signal |
JP2011164335A (en) * | 2010-02-09 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | Reverberation prediction filter calculation device, reverberation suppression device, reverberation prediction filter calculation method, reverberation suppressing method and program |
CN102695958A (en) * | 2009-11-12 | 2012-09-26 | 保罗-里德-史密斯-吉塔尔斯股份合作有限公司 | Precision measurement of waveforms |
JP2013511045A (en) * | 2009-11-12 | 2013-03-28 | ポール リード スミス ギターズ、リミテッド パートナーシップ | Method, computer readable storage medium and signal processing system for digital signal processing |
US9390066B2 (en) | 2009-11-12 | 2016-07-12 | Digital Harmonic Llc | Precision measurement of waveforms using deconvolution and windowing |
US9600445B2 (en) | 2009-11-12 | 2017-03-21 | Digital Harmonic Llc | Precision measurement of waveforms |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03269498A (en) * | 1990-03-19 | 1991-12-02 | Ricoh Co Ltd | Noise removal system |
JPH04505372A (en) * | 1989-05-18 | 1992-09-17 | メディカル リサーチ カウンシル | Waveform analysis |
JP2890831B2 (en) * | 1990-11-28 | 1999-05-17 | ヤマハ株式会社 | MIDI code generator |
JP2003508804A (en) * | 1999-08-30 | 2003-03-04 | ウェーブメーカーズ・インコーポレーテッド | System and method for classifying sound sources |
-
2005
- 2005-03-14 JP JP2005071710A patent/JP2006251712A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04505372A (en) * | 1989-05-18 | 1992-09-17 | メディカル リサーチ カウンシル | Waveform analysis |
JPH03269498A (en) * | 1990-03-19 | 1991-12-02 | Ricoh Co Ltd | Noise removal system |
JP2890831B2 (en) * | 1990-11-28 | 1999-05-17 | ヤマハ株式会社 | MIDI code generator |
JP2003508804A (en) * | 1999-08-30 | 2003-03-04 | ウェーブメーカーズ・インコーポレーテッド | System and method for classifying sound sources |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008136443A1 (en) * | 2007-04-26 | 2008-11-13 | The University Of Tokyo | Sine wave parameter estimation method |
JP5553334B2 (en) * | 2007-04-26 | 2014-07-16 | 国立大学法人 東京大学 | Sinusoidal parameter estimation method |
JP2009139406A (en) * | 2007-12-03 | 2009-06-25 | Toshiba Corp | Speech processing device, and speech synthesis device using it |
CN101452696B (en) * | 2007-12-07 | 2012-11-28 | 索尼株式会社 | Signal processing device, signal processing method and program |
US7863512B2 (en) | 2007-12-07 | 2011-01-04 | Sony Corporation | Signal processing device, signal processing method, and program |
JP4640407B2 (en) * | 2007-12-07 | 2011-03-02 | ソニー株式会社 | Signal processing apparatus, signal processing method, and program |
JP2009139769A (en) * | 2007-12-07 | 2009-06-25 | Sony Corp | Signal processor, signal processing method and program |
JP2009210888A (en) * | 2008-03-05 | 2009-09-17 | Univ Of Tokyo | Method for separating sound signal |
WO2009110118A1 (en) * | 2008-03-05 | 2009-09-11 | 国立大学法人 東京大学 | Method of separating sound signal |
CN102695958A (en) * | 2009-11-12 | 2012-09-26 | 保罗-里德-史密斯-吉塔尔斯股份合作有限公司 | Precision measurement of waveforms |
JP2013511045A (en) * | 2009-11-12 | 2013-03-28 | ポール リード スミス ギターズ、リミテッド パートナーシップ | Method, computer readable storage medium and signal processing system for digital signal processing |
US9279839B2 (en) | 2009-11-12 | 2016-03-08 | Digital Harmonic Llc | Domain identification and separation for precision measurement of waveforms |
US9390066B2 (en) | 2009-11-12 | 2016-07-12 | Digital Harmonic Llc | Precision measurement of waveforms using deconvolution and windowing |
US9600445B2 (en) | 2009-11-12 | 2017-03-21 | Digital Harmonic Llc | Precision measurement of waveforms |
JP2011164335A (en) * | 2010-02-09 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | Reverberation prediction filter calculation device, reverberation suppression device, reverberation prediction filter calculation method, reverberation suppressing method and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006251712A (en) | Analyzing method for observation data, especially, sound signal having mixed sounds from a plurality of sound sources | |
KR101521368B1 (en) | Method, apparatus and machine-readable storage medium for decomposing a multichannel audio signal | |
Klapuri | Automatic music transcription as we know it today | |
WO2005066927A1 (en) | Multi-sound signal analysis method | |
JP4517045B2 (en) | Pitch estimation method and apparatus, and pitch estimation program | |
CN103999076A (en) | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain | |
JP2009210888A (en) | Method for separating sound signal | |
JP2007041234A (en) | Method for deducing key of music sound signal, and apparatus for deducing key | |
Fuentes et al. | Probabilistic model for main melody extraction using constant-Q transform | |
Dubois et al. | Joint detection and tracking of time-varying harmonic components: A flexible Bayesian approach | |
Burred et al. | Dynamic spectral envelope modeling for timbre analysis of musical instrument sounds | |
Durrieu et al. | An iterative approach to monaural musical mixture de-soloing | |
Chen et al. | Structure from silence: Learning scene structure from ambient sound | |
Laroche et al. | Drum extraction in single channel audio signals using multi-layer non negative matrix factor deconvolution | |
Wang et al. | Playing technique recognition by joint time–frequency scattering | |
Kawamura et al. | Differentiable digital signal processing mixture model for synthesis parameter extraction from mixture of harmonic sounds | |
Lee et al. | Musical onset detection based on adaptive linear prediction | |
JP4625933B2 (en) | Sound analyzer and program | |
Cemgil et al. | Prior structures for Time-Frequency energy distributions | |
JP2007328268A (en) | Band spreading system of musical signal | |
Yasuraoka et al. | I-divergence-based dereverberation method with auxiliary function approach | |
Hoskinson | Manipulation and resynthesis of environmental sounds with natural wavelet grains | |
JP4625934B2 (en) | Sound analyzer and program | |
Le Roux et al. | Single channel speech and background segregation through harmonic-temporal clustering | |
Lewis et al. | Blind signal separation of similar pitches and instruments in a noisy polyphonic domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100614 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101015 |