JP4625934B2 - Sound analyzer and program - Google Patents

Sound analyzer and program Download PDF

Info

Publication number
JP4625934B2
JP4625934B2 JP2006237273A JP2006237273A JP4625934B2 JP 4625934 B2 JP4625934 B2 JP 4625934B2 JP 2006237273 A JP2006237273 A JP 2006237273A JP 2006237273 A JP2006237273 A JP 2006237273A JP 4625934 B2 JP4625934 B2 JP 4625934B2
Authority
JP
Japan
Prior art keywords
sound
fundamental frequency
model
probability density
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006237273A
Other languages
Japanese (ja)
Other versions
JP2008058754A (en
Inventor
真孝 後藤
琢哉 藤島
慶太 有元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Yamaha Corp
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp, National Institute of Advanced Industrial Science and Technology AIST filed Critical Yamaha Corp
Priority to JP2006237273A priority Critical patent/JP4625934B2/en
Publication of JP2008058754A publication Critical patent/JP2008058754A/en
Application granted granted Critical
Publication of JP4625934B2 publication Critical patent/JP4625934B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To prevent wrong estimation of a fundamental frequency when fundamental frequencies of respective sounds are estimated from frequency components of an input sound signal indicating a mixed sound. <P>SOLUTION: When a frequency band is limited 3, frequency components which are possibly fundamental frequency components or harmonic components of the sound of a sound source are extracted from the input sound signal. When a probabilistic density function of the fundamental frequency is estimated 41, it is considered that the extracted fundamental components have harmonic structures respectively and are generated from a mixed distribution of tone models corresponding to different fundamental frequencies, and the probabilistic density function of the fundamental frequency is estimated. In tone model deformation processing 5, deformation of the tone models for reducing the possibility of wrong estimation during the estimation is performed. <P>COPYRIGHT: (C)2008,JPO&amp;INPIT

Description

この発明は、市販のCD(compact disc)などに収録されている、歌声や複数種類の楽器音を同時に含む音楽音響信号を対象に、メロディ音やベース音の音高(本明細書では基本周波数の意味で用いる)を推定する音分析装置およびプログラムに関する。   The present invention is directed to a musical sound signal including a singing voice and a plurality of types of instrument sounds recorded on a commercially available CD (compact disc) or the like, and a pitch of a melody sound or a bass sound (in this specification, a fundamental frequency). The present invention relates to a sound analysis apparatus and a program for estimating the

多数の音源の音が混ざり合ったモノラルの音響信号中から、ある特定の音源の音高を推定することは、非常に困難である。混合音に対して音高推定することが難しい本質的な理由の1つに、時間周波数領域において、ある音の周波数成分が同時に鳴っている他の音の周波数成分と重複することが挙げられる。例えば、歌声、鍵盤楽器(ピアノ等)、ギター、ベースギター、ドラムス等で演奏される典型的なポピュラー音楽では、メロディを担う歌声の高調波構造の一部(特に基本周波数成分)は、鍵盤楽器、ギターの高調波成分やベースギターの高次の高調波成分、スネアドラム等の音に含まれるノイズ成分などと頻繁に重複する。そのため、各周波数成分を局所的に追跡するような手法は、複雑な混合音に対しては安定して機能しない。基本周波数成分が存在することを前提に高調波構造を推定する手法もあるが、そのような手法は、ミッシングファンダメンタル(missing fundamental)現象を扱えないという大きな欠点を持つ。さらに、同時に鳴っている他の音の周波数成分が基本周波数成分と重複すると、有効に機能しない。   It is very difficult to estimate the pitch of a specific sound source from a monaural sound signal in which the sounds of many sound sources are mixed. One of the essential reasons why it is difficult to estimate the pitch of a mixed sound is that, in the time-frequency domain, the frequency component of one sound overlaps with the frequency component of another sound that is playing simultaneously. For example, in typical popular music played on singing voices, keyboard instruments (piano, etc.), guitars, bass guitars, drums, etc., part of the harmonic structure of the singing voice that plays the melody (especially the fundamental frequency component) It frequently overlaps with the harmonic component of the guitar, the higher harmonic component of the bass guitar, the noise component included in the sound of the snare drum, and the like. For this reason, a method of locally tracking each frequency component does not function stably for complex mixed sounds. There is a technique for estimating a harmonic structure on the assumption that a fundamental frequency component exists, but such a technique has a major drawback that it cannot handle a missing fundamental phenomenon. Furthermore, if the frequency components of other sounds that are playing at the same time overlap with the fundamental frequency components, they will not function effectively.

以上のような理由により、従来、単一音のみか、非周期的な雑音を伴った単一音を収録した音響信号を対象とした音高の推定技術はあったが、市販のCDに記録された音響信号のように複数の音が混ざり合ったものについて音高を推定する技術はなかった。   For the above reasons, there has been a technique for estimating the pitch of a single sound or an acoustic signal that contains a single sound with aperiodic noise, but it is recorded on a commercially available CD. There was no technique for estimating the pitch of a mixed sound signal such as an acoustic signal.

しかしながら、近年、統計的手法を利用することにより、混合音に含まれる各音の音高を適切に推定する技術が提案されるに至った。特許文献1の技術である。   However, in recent years, a technique for appropriately estimating the pitch of each sound included in a mixed sound has been proposed by using a statistical method. This is the technique of Patent Document 1.

この特許文献1の技術では、メロディ音のものと考えられる帯域に属する周波数成分と、ベース音のものと考えられる帯域に属する周波数成分とを入力音響信号からBPFにより別々に取り出し、それらの各帯域の周波数成分に基づき、メロディ音およびベース音の各々の基本周波数の推定を行う。   In the technique of this Patent Document 1, a frequency component belonging to a band considered to be a melody sound and a frequency component belonging to a band considered to be a bass sound are separately extracted from an input acoustic signal by a BPF, and each of those bands is extracted. Based on the frequency components, the fundamental frequencies of the melody sound and the bass sound are estimated.

さらに詳述すると、特許文献1の技術では、音の高調波構造に対応した確率分布を持った音モデルを用意し、メロディ音の帯域の各周波数成分、ベース音の帯域の各周波数成分が、様々な基本周波数に対応した各音モデルを重み付け加算した混合分布であると考える。そして、各音モデルの重みの値をEM(Expectation−Maximization)アルゴリズムを用いて推定する。   More specifically, in the technique of Patent Document 1, a sound model having a probability distribution corresponding to the harmonic structure of a sound is prepared, and each frequency component of the band of the melody sound and each frequency component of the band of the base sound are It is considered to be a mixed distribution obtained by weighting and adding each sound model corresponding to various fundamental frequencies. Then, the weight value of each sound model is estimated using an EM (Expectation-Maximization) algorithm.

このEMアルゴリズムは、隠れ変数を含む確率モデルに対して最尤推定を行うための反復アルゴリズムであり、局所最適解を求めることができる。ここで、最も大きな重みの値を持つ確率分布は、その時点で最も優勢な高調波構造であるとみなすことができるため、あとはその優勢な高調波構造における基本周波数を音高として求めればよい。この手法は基本周波数成分の存在に依存しないため、ミッシングファンダメンタル現象も適切に扱うことができ、基本周波数成分の存在に依存せずに、最も優勢な高調波構造を求めることができる。
特許第3413634号
This EM algorithm is an iterative algorithm for performing maximum likelihood estimation on a probability model including hidden variables, and a local optimum solution can be obtained. Here, since the probability distribution having the largest weight value can be regarded as the most dominant harmonic structure at that time, the fundamental frequency in the dominant harmonic structure can be obtained as the pitch. . Since this method does not depend on the presence of the fundamental frequency component, the missing fundamental phenomenon can be appropriately handled, and the most dominant harmonic structure can be obtained without depending on the presence of the fundamental frequency component.
Japanese Patent No. 3413634

ところで、基本周波数の推定を行うためには、実際に鳴っている楽器の音の高調波構造を忠実にシミュレートした音モデルを用いることが望ましい。しかし、楽器の種類によっては、特定の第n調波に急激なピークを持った高調波構造の音を発生するものもある。このような高調波構造をシミュレートした音モデルを用いて、基本周波数の推定を行うと、実際には鳴っていない基本周波数付近の確率密度関数が大きくなり、基本周波数の誤推定がなされる可能性が増すという場合がある。なお、この誤推定の問題については理解を容易にするため、「発明を実施するための最良の形態」の項において再び取り上げる。   By the way, in order to estimate the fundamental frequency, it is desirable to use a sound model that faithfully simulates the harmonic structure of the sound of the instrument that is actually sounding. However, some types of musical instruments generate a sound with a harmonic structure having a sharp peak at a specific nth harmonic. If the fundamental frequency is estimated using a sound model that simulates such a harmonic structure, the probability density function near the fundamental frequency that does not actually sound increases, and the fundamental frequency may be erroneously estimated. In some cases, it increases. The problem of erroneous estimation will be taken up again in the section “Best Mode for Carrying Out the Invention” for easy understanding.

この発明は、以上説明した事情に鑑みてなされたものであり、混合音を示す入力音響信号の周波数成分から各音の基本周波数を推定する際に、誤推定の可能性を低減することを目的としている。   The present invention has been made in view of the circumstances described above, and it is an object of the present invention to reduce the possibility of erroneous estimation when estimating the fundamental frequency of each sound from the frequency components of an input acoustic signal indicating a mixed sound. It is said.

この発明は、各々音源の音の高調波構造に対応した構造を有し、各種の基本周波数に対応した確率密度関数である複数の音モデルを重み付け加算した混合分布が、入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を最適化し、最適化された各音モデルの重み値を前記音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、前記基本周波数の確率密度関数に基づいて前記入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と、前記音モデルを変形する音モデル変形手段とを具備することを特徴とする音分析装置並びにコンピュータを前記確率密度関数推定手段、基本周波数推定手段および音モデル変形手段として機能させるコンピュータプログラムを提供する。   This invention has a structure corresponding to the harmonic structure of the sound of each sound source, and a mixed distribution obtained by weighted addition of a plurality of sound models that are probability density functions corresponding to various fundamental frequencies is a frequency component of an input acoustic signal. A probability density function estimating means for optimizing a weight value for each sound model so as to be a distribution, and estimating a weight value of each optimized sound model as a probability density function of a fundamental frequency of the sound of the sound source; A fundamental frequency estimating means for estimating and outputting a fundamental frequency of sound of one or a plurality of sound sources included in the input acoustic signal based on a probability density function of the fundamental frequency; and a sound model modifying means for transforming the sound model. And a computer program for causing the computer to function as the probability density function estimating means, the fundamental frequency estimating means, and the sound model modifying means. To provide the ram.

かかる発明によれば、音モデル変形手段により音モデルの変形を行うことにより、音モデルの高調波構造に起因した基本周波数の誤推定を回避し、誤推定の可能性を減らすことができる。   According to this invention, the sound model is deformed by the sound model deforming means, thereby avoiding erroneous estimation of the fundamental frequency due to the harmonic structure of the sound model and reducing the possibility of erroneous estimation.

以下、図面を参照し、この発明の実施の形態を説明する。   Embodiments of the present invention will be described below with reference to the drawings.

<全体構成>
図1は、この発明の一実施形態による音分析プログラムの処理内容を示す図である。この音分析プログラムは、自然界から音響信号を取得する収音機能、CD等の記録媒体から音楽の音響信号を再生する再生機能またはネットワークを介して音楽の音響信号を取得する通信機能等の音響信号取得機能を備えたパーソナルコンピュータ等のコンピュータにインストールされて実行される。本実施形態による音分析プログラムを実行するコンピュータは、本実施形態による音分析装置として機能する。
<Overall configuration>
FIG. 1 is a diagram showing the processing contents of a sound analysis program according to an embodiment of the present invention. This sound analysis program includes an acoustic signal such as a sound collection function for acquiring an acoustic signal from the natural world, a playback function for reproducing an acoustic signal of music from a recording medium such as a CD, or a communication function for acquiring an acoustic signal of music via a network. The program is installed and executed on a computer such as a personal computer having an acquisition function. The computer that executes the sound analysis program according to the present embodiment functions as the sound analysis device according to the present embodiment.

本実施形態による音分析プログラムは、音響信号取得機能を介して取得されたモノラルの音楽音響信号に対し、その中のある音源の音高を推定する。その最も重要な例として、ここではメロディラインとベースラインを推定する。メロディは他よりも際立って聞こえる単音の系列、ベースはアンサンブル中で最も低い単音の系列であり、その時間的な変化の軌跡をそれぞれメロディラインDm(t)、ベースラインDb(t)と呼ぶ。時刻tにおける基本周波数F0をFi(t)(i=m,b)、振幅をAi(t)とすると、これらは以下のように表される。

Figure 0004625934
Figure 0004625934
The sound analysis program according to the present embodiment estimates the pitch of a certain sound source in a monaural music sound signal acquired through the sound signal acquisition function. As the most important example, the melody line and the bass line are estimated here. The melody is a sequence of single notes that can be heard more prominently than the others, and the bass is the sequence of the lowest single note in the ensemble. The temporal changes are called the melody line Dm (t) and the base line Db (t), respectively. Assuming that the fundamental frequency F0 at time t is Fi (t) (i = m, b) and the amplitude is Ai (t), these are expressed as follows.
Figure 0004625934
Figure 0004625934

このメロディラインDm(t)およびベースラインDb(t)を入力音響信号から得るための手段として、音分析プログラムは、瞬時周波数の算出1、周波数成分の候補の抽出2、周波数帯域の制限3、メロディラインの推定4aおよびベースラインの推定4bの各処理を含む。また、メロディラインの推定4aおよびベースラインの推定4bの各処理は、基本周波数の確率密度関数の推定41およびマルチエージェントモデルによる基本周波数の継時的な追跡42の各処理を各々含む。本実施形態において、瞬時周波数の算出1、周波数成分の候補の抽出2、周波数帯域の制限3、メロディラインの推定4aおよびベースラインの推定4bにおけるマルチエージェントモデルによる基本周波数の継時的な追跡42の処理内容は、前掲特許文献1に開示されたものと基本的に同様である。本実施形態の特徴は、音分析プログラムの各処理のうち基本周波数の確率密度関数の推定41に加えられた改良点にある。以下、本実施形態による音分析プログラムを構成する各処理の内容を説明する。   As a means for obtaining the melody line Dm (t) and the base line Db (t) from the input sound signal, the sound analysis program includes an instantaneous frequency calculation 1, frequency component candidate extraction 2, frequency band restriction 3, Each process of the melody line estimation 4a and the baseline estimation 4b is included. Each process of the melody line estimation 4a and the baseline estimation 4b includes a fundamental frequency probability density function estimation 41 and a fundamental frequency sequential tracking 42 using a multi-agent model. In this embodiment, instantaneous frequency calculation 1, frequency component candidate extraction 2, frequency band restriction 3, melody line estimation 4 a, and baseline estimation 4 b, tracking of the fundamental frequency over time by the multi-agent model 42. The processing content of is basically the same as that disclosed in the above-mentioned Patent Document 1. The feature of the present embodiment is an improvement added to the estimation 41 of the probability density function of the fundamental frequency among the processes of the sound analysis program. Hereinafter, the content of each process which comprises the sound analysis program by this embodiment is demonstrated.

<瞬時周波数の算出1>
この処理では、入力音響信号を複数のBPFからなるフィルタバンクに与え、フィルタバンクの各BPFの出力信号について、位相の時間微分である瞬時周波数(Flanagan, J.L. and Golden, R.M.: Phase Vocoder, The BellSystem
Technical J., Vol.45, pp.1493-1509 (1966)参照)を計算する。ここでは、上記Flanaganの手法を用い、短時間フーリエ変換(STFT)の出力をフィルタバンク出力と解釈して、効率良く瞬時周波数を計算する。入力音響信号x(t)に対する窓関数h(t)を用いたSTFTが式(3)および(4)により与えられるとき、瞬時周波数λ(ω,t)は式(5)により求めることができる。
<Instantaneous frequency calculation 1>
In this process, the input acoustic signal is applied to a filter bank consisting of a plurality of BPFs, and the instantaneous frequency (Flanagan, JL and Golden, RM: Phase Vocoder, The BellSystem)
Technical J., Vol. 45, pp.1493-1509 (1966)). Here, the above-described Flanagan method is used, the short-time Fourier transform (STFT) output is interpreted as the filter bank output, and the instantaneous frequency is efficiently calculated. When the STFT using the window function h (t) for the input acoustic signal x (t) is given by the equations (3) and (4), the instantaneous frequency λ (ω, t) can be obtained by the equation (5). .

Figure 0004625934
Figure 0004625934
Figure 0004625934
Figure 0004625934
Figure 0004625934
Figure 0004625934

ここで、h(t)は時間周波数の局所化を与える窓関数である(例えば、最適な時間周波数の局所化を与えるガウス関数に2階のカーディナルB−スプライン関数を畳み込んで作成した時間窓など)。   Here, h (t) is a window function that gives the localization of the time frequency (for example, a time window created by convolving a second-order cardinal B-spline function with a Gaussian function that gives the optimum localization of the time frequency. Such).

この瞬時周波数を計算するのに、ウェーブレット変換を用いても良い。ここでは、計算量を減らすためにSTFTを用いるが、単一のSTFTのみを用いたのでは、ある周波数帯域における時間分解能や周波数分解能が悪くなってしまう。そこで、マルチレートフィルタバンク(Vetterli, M.: A Theory of Multirate Filter Banks, IEEE Trans. on
ASSP, Vol.ASSP-35, No.3, pp. 356-372 (1987)、参照)を構成し、リアルタイムに実行可能という制約のもとで、ある程度妥当な時間周波数分解能を得る。
A wavelet transform may be used to calculate this instantaneous frequency. Here, the STFT is used to reduce the amount of calculation. However, if only a single STFT is used, the time resolution and frequency resolution in a certain frequency band are deteriorated. Therefore, multi-rate filter banks (Vetterli, M .: A Theory of Multirate Filter Banks, IEEE Trans. On
ASSP, Vol. ASSP-35, No. 3, pp. 356-372 (1987)), and obtain a reasonable time-frequency resolution under the restriction that it can be executed in real time.

<周波数成分の候補の抽出2>
この処理では、フィルタの中心周波数からその瞬時周波数への写像に基づいて、周波数成分の候補を抽出する(Charpentier, F.J.: Pitch detection using the short-termphase
spectrum, Proc. of ICASSP 86, pp.113-116 (1986)参照)。あるSTFTフィルタの中心周波数ωからその出力の瞬時周波数λ(ω,t)への写像を考える。すると、もし周波数ψの周波数成分があるときには、ψがこの写像の不動点に位置し、その周辺の瞬時周波数の値はほぼ一定となる。つまり、全周波数成分の瞬時周波数Ψf (t)は、次式によって抽出することができる。
<Frequency component candidate extraction 2>
In this process, candidate frequency components are extracted based on the mapping from the center frequency of the filter to its instantaneous frequency (Charpentier, FJ: Pitch detection using the short-termphase
spectrum, Proc. of ICASSP 86, pp. 113-116 (1986)). Consider a mapping from the center frequency ω of an STFT filter to the instantaneous frequency λ (ω, t) of its output. Then, if there is a frequency component of frequency ψ, ψ is located at the fixed point of this mapping, and the value of the instantaneous frequency around it is almost constant. That is, the instantaneous frequency Ψ f (t) of all frequency components can be extracted by the following equation.

Figure 0004625934
これらの周波数成分のパワーは、Ψf (t)の各周波数におけるSTFTパワースペクトルの値として得られるため、周波数成分のパワー分布関数Ψp (t)(ω)を次のように定義することができる。
Figure 0004625934
Figure 0004625934
Since the power of these frequency components is obtained as the value of the STFT power spectrum at each frequency of ψ f (t) , the power distribution function ψ p (t) (ω) of the frequency component can be defined as follows. it can.
Figure 0004625934

<周波数帯域の制限3>
この処理では、抽出した周波数成分に重み付けすることで、周波数帯域を制限する。ここでは、メロディラインとベースライン用に、2種類のBPFを用意する。メロディライン用BPFは、典型的なメロディラインの主要な基本波成分および高調波成分の多くを通過させることができ、かつ、基本周波数付近の重複が頻繁に起きる周波数帯域をある程度遮断する。一方、ベースライン用BPFは、典型的なベースラインの主要な基本周波数成分および高調波成分の多くを通過させることができ、かつ、他の演奏パートがベースラインよりも優勢になるような周波数帯域をある程度遮断する。
<Frequency band restriction 3>
In this process, the frequency band is limited by weighting the extracted frequency components. Here, two types of BPF are prepared for the melody line and the base line. The melody line BPF can pass most of the main fundamental wave components and harmonic components of a typical melody line, and cuts off a frequency band in which duplication near the fundamental frequency frequently occurs to some extent. On the other hand, the BPF for a bass line can pass many of the main fundamental frequency components and harmonic components of a typical bass line, and the frequency band in which the other performance parts are dominant over the bass line. To some extent.

本実施形態では、以下、対数スケールの周波数をcentの単位(本来は音高差(音程)を表す尺度)で表し、Hzで表された周波数fHzを、次のようにcentで表された周波数fcentに変換する。

Figure 0004625934
Figure 0004625934
平均律の半音は100centに、1オクターブは1200centに相当する。 In the present embodiment, the logarithmic scale frequency is expressed in units of cents (originally a scale representing pitch difference (pitch)), and the frequency fHz expressed in Hz is expressed as cents as follows: Convert to fcent.
Figure 0004625934
Figure 0004625934
A semitone of equal temperament corresponds to 100 cent, and one octave corresponds to 1200 cent.

周波数x centでのBPFの周波数応答をBPFi(x)(i=m,b)とし、周波数成分のパワー分布関数をΨ’ (t)(x)とすると、BPFを通過した周波数成分はBPFi(x)Ψ’ (t)(x)と表すことができる。ただし、Ψ’ (t)(x)は、周波数軸がcentで表されていることを除けばΨ (t)(ω)と同じ関数である。ここで、次の段階の準備として、BPFを通過した周波数成分の確率密度関数pΨ (t)(x)を定義する。

Figure 0004625934
When the frequency response of the BPF at the frequency x cent is BPFi (x) (i = m, b) and the power distribution function of the frequency component is ψ ′ p (t) (x), the frequency component that has passed through the BPF is BPFi. (X) ψ ′ p (t) (x). However, Ψ ′ p (t) (x) is the same function as Ψ p (t) (ω) except that the frequency axis is represented by cent. Here, as a preparation for the next stage, a probability density function p Ψ (t) (x) of a frequency component that has passed through the BPF is defined.
Figure 0004625934

ここで、Pow(t)は次式に示すようにBPFを通過した周波数成分のパワーの合計である。

Figure 0004625934
Here, Pow (t) is the total power of the frequency components that have passed through the BPF as shown in the following equation.
Figure 0004625934

<基本周波数の確率密度関数の推定41>
この処理では、BPFを通過した周波数成分の候補に対し、各高調波構造が相対的にどれくらい優勢かを表す基本周波数の確率密度関数を求める。そのために、本実施形態では、周波数成分の確率密度関数pΨ (t)(x)が、高調波構造を持つ音をモデル化した確率分布(音モデル)の混合分布モデル(重み付き和のモデル)から生成されたと考える。基本周波数がFの音モデルの確率密度関数をp(x|F)とすると、その混合分布モデルp(x;θ(t))は、次式により定義することができる。

Figure 0004625934
Figure 0004625934
<Estimation 41 of probability density function of fundamental frequency>
In this process, a probability density function of a fundamental frequency representing how much each harmonic structure is relatively dominant with respect to a frequency component candidate that has passed through the BPF is obtained. Therefore, in the present embodiment, the probability distribution function p Ψ (t) (x) of the frequency component is a mixed distribution model (weighted sum model) of probability distribution (sound model) that models a sound having a harmonic structure. ). If the probability density function of a sound model having a fundamental frequency F is p (x | F), the mixed distribution model p (x; θ (t) ) can be defined by the following equation.
Figure 0004625934
Figure 0004625934

ここで、FhiとFliは、許容される基本周波数の上限と下限であり、BPFの通過帯域により決定される。また、w(t)(F)は、次式を満たすような、音モデルp(x|F)の重みである。

Figure 0004625934
Here, Fhi and Fli are the upper and lower limits of the allowable fundamental frequency, and are determined by the pass band of the BPF. W (t) (F) is a weight of the sound model p (x | F) that satisfies the following expression.
Figure 0004625934

CD等による実世界の音響信号に対して事前に音源数を仮定することは不可能なため、このように、あらゆる基本周波数の可能性を同時に考慮してモデル化することが重要となる。もし、観測した周波数成分pΨ (t)(x)がモデルp(x;θ(t))から生成されたかのようにモデルパラメータθ(t)を推定できれば、pΨ (t)(x)は個々の音モデルへと分解されたとみなすことができ、次式に示すように、各基本周波数Fの音モデルに対する重みw(t)(F)を、基本周波数Fの確率密度関数pFO (t)(F)と解釈することができる。

Figure 0004625934
Since it is impossible to assume the number of sound sources in advance for a real-world acoustic signal such as a CD, it is important to model in consideration of the possibility of all fundamental frequencies at the same time. If the model parameter θ (t) can be estimated as if the observed frequency component p Ψ (t) (x) was generated from the model p (x; θ (t) ), then p Ψ (t) (x) is It can be considered that the sound model has been decomposed into individual sound models. As shown in the following equation, the weight w (t) (F) for the sound model of each fundamental frequency F is represented by the probability density function p FO (t ) (F) and it can be interpreted.
Figure 0004625934

つまり、混合分布中において、ある音モデルp(x|F)が優勢になればなるほど(すなわち、w(t)(F)が大きくなるほど)、pFO (t)(F)において、そのモデルの基本周波数Fの確率が高くなる。 In other words, the more the sound model p (x | F) becomes dominant in the mixed distribution (that is, the larger w (t) (F)), the more the model of the model in p FO (t) (F) The probability of the fundamental frequency F increases.

以上から、確率密度関数pΨ (t)(x)を観測したときに、そのモデルp(x;θ(t))のパラメータθ(t)を推定する問題を解けばよいことがわかる。θ(t)の最尤推定量は、次式で定義される平均対数尤度を最大化することで得られる。

Figure 0004625934
From the above, it can be seen that when the probability density function p Ψ (t) (x) is observed, the problem of estimating the parameter θ (t) of the model p (x; θ (t) ) should be solved. The maximum likelihood estimator of θ (t) is obtained by maximizing the average log likelihood defined by the following equation.
Figure 0004625934

この最大化問題は解析的に解くことが困難なため、前述のEM(Expectation−Maximization)アルゴリズムを用いてθ(t)を推定する。EMアルゴリズムは、Eステップ(expectation step)とMステップ(maximization step)を交互に繰返し適用することで、不完全な観測データ(この場合、pΨ (t)(x))から最尤推定をおこなうための反復アルゴリズムである。本実施形態では、EMアルゴリズムを繰り返すことにより、BPFを通過した周波数成分の確率密度関数pΨ (t)(x)を、各種の基本周波数Fに対応した複数の音モデルp(x|F)を重み付け加算した混合分布と考える場合において、最も尤もらしい重みのパラメータθ(t)(={w(t)(F)|Fli≦F≦Fhi}を求める。ここで、EMアルゴリズムの各繰り返しでは、パラメータθ(t)(={w(t)(F)|Fli≦F≦Fhi})に関して、古いパラメータ推定値θold (t)(={wold (t)(F)|Fli≦F≦Fhi})を更新して新しい(より尤もらしい)パラメータ推定値θnew (t)(={wnew (t)(F)|Fli≦F≦Fhi})を求めていく。θold (t)の初期値には、1つ前の時刻t−1における最終的な推定値を用いる。この古いパラメータ推定値θold (t)から新しいパラメータ推定値θnew (t)を求める漸化式は、次のようになる。なお、この漸化式の導出過程は特許文献1に詳細に説明されているので、そちらを参照されたい。

Figure 0004625934
Since this maximization problem is difficult to solve analytically, θ (t) is estimated using the aforementioned EM (Expectation-Maximization) algorithm. The EM algorithm performs maximum likelihood estimation from incomplete observation data (in this case, p Ψ (t) (x)) by repeatedly applying an E step (expectation step) and an M step (maximization step) alternately. Iterative algorithm for In this embodiment, by repeating the EM algorithm, the probability density function p Ψ (t) (x) of the frequency component that has passed through the BPF is converted into a plurality of sound models p (x | F) corresponding to various basic frequencies F. Is the most likely weighting parameter θ (t) (= {w (t) (F) | Fli ≦ F ≦ Fhi}, where each iteration of the EM algorithm , Parameter θ (t) (= {w (t) (F) | Fli ≦ F ≦ Fhi}), the old parameter estimate θ old (t) (= {w old (t) (F) | Fli ≦ F ≦ Fhi}) is updated to obtain a new (more likely) parameter estimate θ new (t) (= {w new (t) (F) | Fli ≦ F ≦ Fhi}) θ old (t ) Initial value is 1 The final estimated value at the previous time t−1 is used, and the recurrence formula for obtaining the new parameter estimated value θ new (t) from the old parameter estimated value θ old (t) is as follows. The derivation process of the recurrence formula is described in detail in Patent Document 1, so please refer to that.
Figure 0004625934

図2は、本実施形態において音モデルp(x|F)に対する重みのパラメータθ(t)(={w(t)(F)|Fli≦F≦Fhi}がEMアルゴリズムにより更新される過程を例示したものである。なお、図2では、図示を簡素化するために、周波数成分の数が4個である音モデルを使用した場合の例が示されている。 FIG. 2 shows a process in which the weight parameter θ (t) (= {w (t) (F) | Fli ≦ F ≦ Fhi} for the sound model p (x | F) is updated by the EM algorithm in this embodiment. 2 shows an example in which a sound model having four frequency components is used in order to simplify the illustration.

本実施形態におけるEMアリゴリズムでは、各基本周波数Fに対応した音モデルp(x|F)と現状における各音モデルに対する重み値wold (t)(F)とに基づき、次式に従い、周波数x毎に各音モデルに対応したスペクトル分配比を求める。

Figure 0004625934
In the EM algorithm in the present embodiment, based on the sound model p (x | F) corresponding to each fundamental frequency F and the weight value w old (t) (F) for each current sound model, the frequency x Each time, a spectrum distribution ratio corresponding to each sound model is obtained.
Figure 0004625934

上記式(18)に示すように、ある周波数xにおける各音モデルp(x|F)に対応したスペクトル分配比(x|F)は、重み値wold (t)(F)の乗算された各音モデルp(x|F)の周波数xにおける各振幅値wold (t)(F)p(x|F)の総和(式(18)における分母の積分値に相当)を求め、その総和により各振幅値wold (t)(F)p(x|F)を除算することにより得られる。式(18)から明らかなように、各周波数xにおいて、各音モデルp(x|F)に対応した各スペクトル分配比(x|F)は、総和が1となるように正規化されたものとなる。 As shown in the above equation (18), the spectrum distribution ratio (x | F) corresponding to each sound model p (x | F) at a certain frequency x is multiplied by the weight value w old (t) (F). The sum of the amplitude values w old (t) (F) p (x | F) at the frequency x of each sound model p (x | F) (corresponding to the integral value of the denominator in Expression (18)) is obtained, and the sum Is obtained by dividing each amplitude value w old (t) (F) p (x | F). As is clear from equation (18), at each frequency x, each spectrum distribution ratio (x | F) corresponding to each sound model p (x | F) is normalized so that the sum is 1. It becomes.

そして、本実施形態では、各周波数xにおいて、その周波数xにおける確率密度関数pΨ (t)(x)の関数値をその周波数xにおける各音モデルp(x|F)のスペクトル分配比により分配し、音モデルp(x|F)毎に、このようにして分配された確率密度関数pΨ (t)(x)の関数値を総計して、各音モデルp(x|F)の取り分とする。そして、全音モデルの取り分を合計し、その合計値によって各音モデルの取り分を除算し、総和が1となるように正規化された各音モデルp(x|F)の取り分を新たな重みパラメータwnew (t)(F)とするのである。以上の処理が繰り返されることにより、基本周波数Fの異なった各音モデルp(x|F)のうち混合音の周波数成分の確率密度関数pΨ (t)(x)によって支持されている確率の高いものに対する重みパラメータw(t)(F)が次第に強調されてゆく。この結果、重みパラメータw(t)(F)は、BPFを通過した混合音における基本周波数の確率密度関数を示すに至る。 In the present embodiment, at each frequency x, the function value of the probability density function p Ψ (t) (x) at that frequency x is distributed according to the spectrum distribution ratio of each sound model p (x | F) at that frequency x. Then, for each sound model p (x | F), the function values of the probability density function p Ψ (t) (x) distributed in this way are summed up, and a share of each sound model p (x | F) is obtained. And Then, the share of all sound models is summed, the share of each sound model is divided by the sum, and the share of each sound model p (x | F) normalized so that the sum is 1 is a new weighting parameter. Let w new (t) (F). By repeating the above processing, the probability supported by the probability density function p Ψ (t) (x) of the frequency component of the mixed sound among the sound models p (x | F) having different fundamental frequencies F is obtained. The weight parameter w (t) (F) for the higher one is gradually emphasized. As a result, the weight parameter w (t) (F) represents the probability density function of the fundamental frequency in the mixed sound that has passed through the BPF.

最も優勢な基本周波数Fi(t)を決定するには、次式に示すように、基本周波数の確率密度関数pF0 (t)(F)(式(15)より、式(17)を反復計算した最終的な推定値として得られる)を最大にする周波数を求めればよい。

Figure 0004625934
こうして得られた周波数を音高とする。 To determine the most dominant fundamental frequency Fi (t), as shown in the following equation, the probability density function p F0 (t) (F) of the fundamental frequency (equation (17) is iteratively calculated from equation (15). Obtained as the final estimated value) may be obtained.
Figure 0004625934
Let the frequency obtained in this way be the pitch.

<マルチエージェントモデルによる基本周波数の継時的な追跡42>
基本周波数の確率密度関数において、同時に鳴っている音の基本周波数に対応する複数のピークが拮抗すると、それらのピークが確率密度関数の最大値として次々に選ばれてしまうことがあるため、このように単純に求めた結果は安定しないことがある。そこで、本実施形態では、大局的な観点から基本周波数を推定するために、基本周波数の確率密度関数の時間変化において複数のピークの軌跡を継時的に追跡し、その中で最も優勢で安定した基本周波数の軌跡を選択する。このような追跡処理を動的で柔軟に制御するために、マルチエージェントモデルを導入する。
<Frequency tracking 42 of basic frequency by multi-agent model>
In the probability density function of the fundamental frequency, if multiple peaks corresponding to the fundamental frequency of the sound that is playing at the same time are antagonized, these peaks may be selected one after another as the maximum value of the probability density function. The result obtained simply may not be stable. Therefore, in this embodiment, in order to estimate the fundamental frequency from a global point of view, the trajectory of a plurality of peaks is continuously tracked in the time change of the probability density function of the fundamental frequency, and the most dominant and stable among them. Select the fundamental frequency trajectory. In order to control such tracking process dynamically and flexibly, a multi-agent model is introduced.

マルチエージェントモデルは、1つの特徴検出器と複数のエージェントにより構成される(図3参照)。特徴検出器は、基本周波数の確率密度関数の中で目立つピークを拾い上げる。エージェントは基本的に、それらのピークに駆動されて軌跡を追跡していく。つまり、マルチエージェントモデルは、入力中で目立つ特徴を時間的に追跡する汎用の枠組みである。具体的には、各時刻において以下の処理がおこなわれる。   The multi-agent model is composed of one feature detector and a plurality of agents (see FIG. 3). The feature detector picks up the prominent peaks in the probability density function of the fundamental frequency. The agent basically follows the trajectory driven by those peaks. In other words, the multi-agent model is a general-purpose framework that temporally tracks features that stand out in the input. Specifically, the following processing is performed at each time.

(1)基本周波数の確率密度関数が求まった後、特徴検出器は目立つピーク(最大ピークに応じて動的に変化する閾値を越えたピーク)を複数検出する。そして、目立つピークのそれぞれについて、周波数成分のパワーの合計Pow(t)も考慮しながら、どれくらい将来有望なピークかを評価する。これは、現在時刻を数フレーム先の時刻とみなして、ピークの軌跡をその時刻まで先読みして追跡することで実現する。 (1) After the probability density function of the fundamental frequency is obtained, the feature detector detects a plurality of conspicuous peaks (peaks exceeding a threshold that dynamically changes according to the maximum peak). Then, for each conspicuous peak, the promising peak is evaluated in consideration of the total power Pow (t) of frequency components. This is realized by regarding the current time as a time several frames ahead and prefetching and tracking the peak trajectory up to that time.

(2)既に生成されたエージェントがあるときは、それらが相互作用しながら、目立つピークをそれに近い軌跡を持つエージェントへと排他的に割り当てる。複数のエージェントが割り当て候補に上がる場合には、最も信頼度の高いエージェントへと割り当てる。 (2) When there is an agent already generated, the prominent peak is exclusively assigned to an agent having a locus close to it while interacting with each other. If multiple agents are candidates for assignment, assign them to the agent with the highest reliability.

(3)最も有望で目立つピークがまだ割り当てられていないときは、そのピークを追跡する新たなエージェントを生成する。 (3) If the most promising and conspicuous peak has not yet been assigned, a new agent that tracks that peak is generated.

(4)各エージェントは累積ペナルティを持っており、それが一定の閾値を越えると消滅する。 (4) Each agent has a cumulative penalty and disappears when it exceeds a certain threshold.

(5)目立つピークが割り当てられなかったエージェントは、一定のペナルティを受け、基本周波数の確率密度関数の中から自分の追跡する次のピークを直接見つけようとする。もしそのピークも見つからないときは、さらにペナルティを受ける。さもなければ、ペナルティはリセットされる。 (5) An agent that has not been assigned a conspicuous peak receives a certain penalty, and tries to find the next peak to be tracked directly from the probability density function of the fundamental frequency. If the peak is not found, a penalty is applied. Otherwise, the penalty is reset.

(6)各エージェントは、今割り当てられたピークがどれくらい有望で目立つかを表す度合いと、1つ前の時刻の信頼度との重み付き和によって、信頼度を自己評価する。 (6) Each agent self-evaluates the reliability based on the weighted sum of the degree of how promising and conspicuous the peak assigned at present is and the reliability at the previous time.

(7)時刻tにおける基本周波数Fi(t)は、信頼度が高く、追跡しているピークの軌跡に沿ったパワーの合計が大きいエージェントに基づいて決定する。振幅Ai(t)は、基本周波数Fi(t)の高調波成分等をΨ (t)(ω)から抽出して決定する。 (7) The fundamental frequency Fi (t) at time t is determined based on an agent having high reliability and a large total power along the track of the peak being tracked. The amplitude Ai (t) is determined by extracting a harmonic component or the like of the fundamental frequency Fi (t) from Ψ p (t) (ω).

<特許文献1の技術に対する本実施形態の改良点>
上述した基本周波数の確率密度関数の推定41において、前掲式(17)を計算するためには、音モデルの確率密度関数p(x|F)を仮定する必要がある。この場合、精度の高い推定を行うためには、実際に鳴っている楽器の音の高調波構造を忠実にシミュレートした音モデルを用いることが望ましい。しかし、楽器の種類によっては、特定の第n調波に急激なピークを持った高調波構造の音を発生するものもある。このような高調波構造をシミュレートした音モデルを用いて、基本周波数の推定を行うと、実際には鳴っていない基本周波数付近の確率密度関数が大きくなり、基本周波数の誤推定がなされる可能性が増すという場合がある。その例を図4を参照して説明する。
<Improvements of this embodiment over the technique of Patent Document 1>
In the above-described estimation 41 of the probability density function of the fundamental frequency, in order to calculate the above equation (17), it is necessary to assume the probability density function p (x | F) of the sound model. In this case, in order to perform highly accurate estimation, it is desirable to use a sound model that faithfully simulates the harmonic structure of the sound of the instrument that is actually sounding. However, some types of musical instruments generate a sound with a harmonic structure having a sharp peak at a specific nth harmonic. If the fundamental frequency is estimated using a sound model that simulates such a harmonic structure, the probability density function near the fundamental frequency that does not actually sound increases, and the fundamental frequency may be erroneously estimated. In some cases, it increases. An example thereof will be described with reference to FIG.

図4は、図2と同様、音モデルp(x|F)に対する重みのパラメータθ(t)(={w(t)(F)|Fli≦F≦Fhi}がEMアルゴリズムにより更新される過程を例示している。この図4に示す例において、音モデルp(x|F)は、第2調波の周波数付近に急激なピークを持った高調波構造を有している。このため、BPFを通過した混合音の周波数成分の確率密度関数pΨ (t)(x)において、図示のように周波数200Hz付近の値が高いと、EMアルゴリズムの過程において、この周波数200kHzを第2調波周波数とする基本周波数100Hzの音モデルp(x|F=100Hz)に対する重みw(F)が過度に高められる。この結果、実際には鳴っていないにも拘わらず、基本周波数が100Hzであると誤推定される可能性がある。 FIG. 4 shows a process in which the weight parameter θ (t) (= {w (t) (F) | Fli ≦ F ≦ Fhi} for the sound model p (x | F) is updated by the EM algorithm, as in FIG. 4, the sound model p (x | F) has a harmonic structure having a sharp peak near the second harmonic frequency. In the probability density function p Ψ (t) (x) of the frequency component of the mixed sound that has passed through the BPF, if the value near the frequency of 200 Hz is high as shown in the figure, this frequency of 200 kHz is changed to the second harmonic in the process of the EM algorithm. The weight w (F) for the sound model p (x | F = 100 Hz) having a fundamental frequency of 100 Hz as the frequency is excessively increased, and as a result, the fundamental frequency is 100 Hz even though it does not actually sound. Wrong guess There is likely to be.

以上のような誤推定の可能性を減らすため、本実施形態による音分析プログラムは、図1に示すように、音モデル変形処理5を含んでいる。好ましい態様において、この音モデル変形処理5は、例えば音分析装置であるパーソナルコンピュータに設けられた操作部の操作に応じて、基本周波数の確率密度関数の推定41に用いる音モデルの変形を行う処理である。この音モデル変形処理5の態様には、各種考えられるが、本実施形態による音モデル変形処理5では、変形の施されていない本来の音モデルに対して、起伏の緩やかな高調波構造を持った変形用の音モデルを混合することにより、元の高調波構造よりも起伏の緩やかな高調波構造の音モデルに変形する。   In order to reduce the possibility of erroneous estimation as described above, the sound analysis program according to the present embodiment includes a sound model deformation process 5 as shown in FIG. In a preferred embodiment, the sound model modification process 5 is a process for modifying the sound model used for the estimation 41 of the probability density function of the fundamental frequency in accordance with, for example, an operation of an operation unit provided in a personal computer that is a sound analyzer. It is. Various forms of the sound model deformation process 5 can be considered, but the sound model deformation process 5 according to the present embodiment has a harmonic structure with a gentle undulation compared to the original sound model that has not been deformed. By mixing the sound models for deformation, the sound model is transformed into a harmonic model with a gentler undulation than the original harmonic structure.

より具体的には、本実施形態では、次式に示すように、実測により得られた楽器音の高調波構造に対応した音モデル(変形されていない本来の音モデル)と、ガウス分布とを重み付け加算し、混合音モデルp(x|F)を発生し、この混合音モデルp(x|F)を基本周波数の確率密度関数の推定41に引き渡す。

Figure 0004625934
More specifically, in this embodiment, as shown in the following equation, a sound model corresponding to the harmonic structure of the instrument sound obtained by actual measurement (an original sound model that is not deformed) and a Gaussian distribution are obtained. Weighted addition is performed to generate a mixed sound model p (x | F), and this mixed sound model p (x | F) is delivered to the probability density function estimation 41 of the fundamental frequency.
Figure 0004625934

ここで、hは、高調波が基本周波数成分から数えて何番目の高調波であるかを示す高調波番号であり、Niは音モデルを構成する高調波成分等の個数である。また、original(x;F+1200logh)は、実測された楽器音の高調波構造に基づいて作成された音モデルであり、h=1〜Niにおける関数値の総和が1となるように正規化されている。また、gauss(x;F+1200logh)は、h=1〜Niにおける関数値の総和が1となるように正規化されたガウス分布であり、次式により与えられる。また、重み係数kおよびガウス分布の広がりを決定するためのパラメータσは、図示しない操作部の操作により設定される。また、kは0〜1の範囲内の値が設定される。

Figure 0004625934
Here, h is a harmonic number indicating the number of harmonics counted from the fundamental frequency component, and Ni is the number of harmonic components constituting the sound model. Also, original (x; F + 1200 log 2 h) is a sound model created based on the measured harmonic structure of the instrument sound, and is normalized so that the sum of function values at h = 1 to Ni is 1. Has been. Gauss (x; F + 1200 log 2 h) is a Gaussian distribution normalized so that the sum of function values in h = 1 to Ni is 1, and is given by the following equation. Further, the parameter σ for determining the weight coefficient k and the spread of the Gaussian distribution is set by operating an operation unit (not shown). Further, k is set to a value within the range of 0-1.
Figure 0004625934

図5は、実測に基づく音モデルoriginal(x;F+1200logh)と、ガウス分布gauss(x;F+1200logh)と、これらを重み付け加算することにより得られた混合音モデルp(x|F)とを例示するものである。 FIG. 5 shows a sound model original (x; F + 1200 log 2 h) based on actual measurement, a Gaussian distribution gauss (x; F + 1200 log 2 h), and a mixed sound model p (x | F) obtained by weighted addition of these. Are illustrated.

図5に示すように、ガウス分布との重み付け加算により得られる混合音モデルp(x|F)は、実測に基づく音モデルoriginal(x;F+1200logh)に比べて、急激なピークが緩和された高調波構造となる。このように急激なピークが緩和された高調波構造に音モデルが変形されると、上述したような基本周波数の誤推定の発生する可能性が低減される。 As shown in FIG. 5, in the mixed sound model p (x | F) obtained by weighted addition with the Gaussian distribution, a sharp peak is relaxed compared to the sound model original (x; F + 1200 log 2 h) based on actual measurement. A harmonic structure. When the sound model is deformed to a harmonic structure in which a sharp peak is relaxed in this way, the possibility of occurrence of erroneous estimation of the fundamental frequency as described above is reduced.

<他の実施形態>
以上、この発明の一実施形態について説明したが、この発明には他にも実施形態があり得る。例えば次の通りである。
<Other embodiments>
Although one embodiment of the present invention has been described above, the present invention may have other embodiments. For example:

(1)上記実施形態では、基本周波数の確率密度関数の推定41により得られる基本周波数をマルチエージェントに追跡させることにより、最終的な基本周波数を決定したが、基本周波数の確率密度関数の推定41において誤推定の確率が低く、信頼性の高い推定結果が得られる場合には、マルチエージェントによる追跡を省略してもよい。 (1) In the above embodiment, the final fundamental frequency is determined by causing the multi-agent to track the fundamental frequency obtained by the fundamental frequency probability density function estimation 41. However, the fundamental frequency probability density function estimation 41 is performed. If the probability of erroneous estimation is low and a highly reliable estimation result is obtained, tracking by a multi-agent may be omitted.

(2)楽器の種類によっては、その楽器をシミュレートした音モデルの高調波構造が低域(例えば基本波成分)に著しいピークを有しており、かつ、高域の成分が極端に乏しいものとなる場合がある。このような場合、EMアルゴリズムでは、図6(a)に例示するように、BPFを通過した周波数成分の確率密度関数pΨ (t)(x)のうち高域の部分に、実際に鳴っている音に対応した音モデルだけでは説明がつかない部分Uが生じる。このため、EMアルゴリズムでは、図6(b)に例示するように、この部分Uの説明をつけるために、実際に鳴っている音の音モデルp(x|Fa)およびp(x|Fb)の重み値の他に、実際には鳴っていない高域の音に対応した音モデルp(x|Fc)の重みを大きくしてしまうことがある。このため、実際には鳴っていない音の基本周波数を誤って出力する可能性があるという問題が生じる。そこで、このような不具合を防止するため、音モデル変形処理5では、基本周波数Fが高い音モデルは、基本周波数Fの低い音モデルに比べて、高域が強調された高調波構造となるように、音モデルに対する変形を行うようにしてもよい。例えば前掲式20に従って実測に基づく音モデルoriginal(x;F+1200logh)と、ガウス分布gauss(x;F+1200logh)とを重み付け加算し、混合音モデルp(x|F)を発生する場合において、重み付け係数kを基本周波数Fの関数とし、基本周波数Fが高い場合には、ガウス分布gauss(x;F+1200logh)の重みを増加させ、混合音モデルp(x|F)の高域を持ち上げる、という態様が考えられる。この態様によれば、基本周波数Fの高い領域では、基本周波数Fの低い領域に比べて、高域の高調波成分の強調された高調波構造の音モデルにより基本周波数Fの確率密度関数の推定が行われるので、BPFを通過した混合音の周波数成分を、実際に鳴っている音に対応した音モデルの重み付け加算のみにより説明することができる可能性が増す。従って、誤推定の可能性を低減することができる。 (2) Depending on the type of instrument, the harmonic structure of the sound model that simulates the instrument has a significant peak in the low range (for example, the fundamental component), and the high range component is extremely poor. It may become. In such a case, in the EM algorithm, as illustrated in FIG. 6A, the sound is actually generated in the high frequency part of the probability density function p Ψ (t) (x) of the frequency component that has passed through the BPF. A portion U that cannot be explained only by the sound model corresponding to the sound that is present. Therefore, in the EM algorithm, as illustrated in FIG. 6B, the sound models p (x | Fa) and p (x | Fb) of the sound that is actually sounding are used in order to explain the portion U. In addition to the above weight value, the weight of the sound model p (x | Fc) corresponding to the high-frequency sound that is not actually played may be increased. For this reason, the problem that the fundamental frequency of the sound which is not actually sounding may be output accidentally arises. Therefore, in order to prevent such inconvenience, in the sound model modification process 5, the sound model with a high fundamental frequency F is assumed to have a harmonic structure with an emphasized high range compared to a sound model with a low fundamental frequency F. In addition, the sound model may be modified. For example, in the case where the sound model original (x; F + 1200 log 2 h) based on the actual measurement is weighted and added according to the above equation 20 and the Gaussian distribution gauss (x; F + 1200 log 2 h) is generated to generate the mixed sound model p (x | F). If the weighting coefficient k is a function of the fundamental frequency F and the fundamental frequency F is high, the weight of the Gaussian distribution gauss (x; F + 1200 log 2 h) is increased, and the high frequency of the mixed sound model p (x | F) is increased. A mode of lifting is conceivable. According to this aspect, in the region where the fundamental frequency F is high, the probability density function of the fundamental frequency F is estimated by the harmonic structure sound model in which the harmonic components in the high region are emphasized compared to the region where the fundamental frequency F is low. Therefore, there is an increased possibility that the frequency component of the mixed sound that has passed through the BPF can be explained only by weighted addition of the sound model corresponding to the sound that is actually sounding. Therefore, the possibility of erroneous estimation can be reduced.

(3)音モデルの変形の程度を自動的に最適化する音モデル最適化機能を音分析装置に設けてもよい。図7を用いてさらに詳述すると、この態様において、音分析装置であるパーソナルコンピュータは、基本周波数の時間遷移が既知であるトレーニング用音響信号とこのトレーニング用音響信号のメロディラインおよびベースラインを示す各情報を外部から受け取る。そして、トレーニング用音響信号が処理対象となるように音分析装置全体の制御を行い、評価処理6と変形制御処理7とを繰り返す。ここで、評価処理6では、音分析装置から推定結果として得られるトレーニング用音響信号のメロディラインおよびベースラインの各々と外部から取得したトレーニング用音響信号のメロディラインおよびベースラインと比較し、メロディラインおよびベースラインの各々について、推定結果と外部から与えられたものとの一致度を評価する。そして、変形制御処理7では、メロディラインおよびベースラインの各々について、評価処理6により得られる一致度が上昇するように、メロディラインの推定に用いる音モデルまたはベースラインの推定に用いる音モデルの変形を音モデル変形処理5に行わせる。例えば実測に基づく音モデルとガウス分布とを重み付け加算した混合音モデルを基本周波数の確率密度関数の推定に用いる場合、変形制御処理7では、音モデル変形処理5における重み係数kを各種変化させ、一致度が最大となる重み係数kを探索する、といった態様が考えられる。 (3) A sound model optimization function for automatically optimizing the degree of deformation of the sound model may be provided in the sound analyzer. More specifically with reference to FIG. 7, in this embodiment, the personal computer that is the sound analysis apparatus shows a training acoustic signal whose time transition of the fundamental frequency is known, and a melody line and a base line of the training acoustic signal. Receive each information from outside. Then, the entire sound analysis apparatus is controlled so that the training acoustic signal becomes a processing target, and the evaluation process 6 and the deformation control process 7 are repeated. Here, in the evaluation process 6, the melody line and the base line of the training acoustic signal obtained as an estimation result from the sound analyzer are compared with the melody line and the base line of the training acoustic signal acquired from the outside, and the melody line is compared. For each of the baselines, the degree of coincidence between the estimation results and those given from the outside is evaluated. Then, in the deformation control process 7, the sound model used for estimating the melody line or the sound model used for estimating the baseline is modified so that the degree of coincidence obtained by the evaluation process 6 increases for each of the melody line and the base line. To the sound model deformation process 5. For example, when a mixed sound model obtained by weighting and adding a sound model based on actual measurement and a Gaussian distribution is used for estimation of the probability density function of the fundamental frequency, in the deformation control process 7, the weighting coefficient k in the sound model deformation process 5 is changed variously. A mode in which a weighting factor k that maximizes the degree of coincidence is searched for.

この発明の一実施形態である音分析プログラムの処理内容を示す図である。It is a figure which shows the processing content of the sound analysis program which is one Embodiment of this invention. 同実施形態において音モデルに対する重みのパラメータがEMアルゴリズムにより更新される過程を例示した図である。It is the figure which illustrated the process in which the parameter of the weight with respect to a sound model is updated by EM algorithm in the embodiment. 1つの特徴検出器と複数のエージェントにより構成されるマルチエージェントモデルによる基本周波数の経時的な追跡を示す図である。It is a figure which shows time-dependent tracking of the fundamental frequency by the multi agent model comprised by one feature detector and a some agent. 従来の技術において音モデルに対する重みのパラメータがEMアルゴリズムにより更新される過程における問題点を説明する図である。It is a figure explaining the problem in the process in which the parameter of the weight with respect to a sound model is updated by EM algorithm in the prior art. 同実施形態において基本周波数の確率密度関数の推定の際に用いる音モデルの例を示す図である。It is a figure which shows the example of the sound model used in the case of estimation of the probability density function of a fundamental frequency in the embodiment. 音モデルが低域にピークを有する高調波構造を有している場合に発生する基本周波数の誤推定を説明する図である。It is a figure explaining the misestimation of the fundamental frequency generate | occur | produced when a sound model has the harmonic structure which has a peak in a low region. この発明の他の実施形態において実現される音モデル最適化機能を説明する図である。It is a figure explaining the sound model optimization function implement | achieved in other embodiment of this invention.

符号の説明Explanation of symbols

1……瞬時周波数の算出、2……周波数成分の候補の抽出、3……周波数帯域の制限、4a……メロディラインの推定、4b……ベースラインの推定、41……基本周波数の確率密度関数の推定、42……マルチエージェントモデルによる基本周波数の継時的な追跡、5……音モデル変形処理、6……評価処理、7……変形制御処理。 DESCRIPTION OF SYMBOLS 1 ... Calculation of instantaneous frequency, 2 ... Extraction of frequency component candidates, 3 ... Frequency band limitation, 4a ... Melody line estimation, 4b ... Baseline estimation, 41 ... Fundamental frequency probability density Function estimation, 42 …… Tracking of fundamental frequency by multi-agent model, 5 …… Sound model deformation process, 6 …… Evaluation process, 7 …… Deformation control process.

Claims (6)

各々音源の音の高調波構造に対応した構造を有し、各種の基本周波数に対応した確率密度関数である複数の音モデルを重み付け加算した混合分布が、入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
前記基本周波数の確率密度関数に基づいて前記入力音響信号に含まれる1または複数の音の基本周波数を推定して出力する基本周波数推定手段と、
前記音モデルを変形する音モデル変形手段とを具備し、
前記確率密度関数推定手段は、前記音モデル変形手段により変形された音モデルを用いて、前記入力音響信号における音源の音の基本周波数の確率密度関数を推定することを特徴とする音分析装置。
Each of the sound components has a structure corresponding to the harmonic structure of the sound source, and a mixed distribution obtained by weighted addition of a plurality of sound models that are probability density functions corresponding to various fundamental frequencies is the distribution of the frequency components of the input acoustic signal. A probability density function estimating means for optimizing a weight value for each sound model and estimating a weight value of each optimized sound model as a probability density function of a fundamental frequency of a sound of a sound source in the input acoustic signal ;
Fundamental frequency estimation means for estimating and outputting a fundamental frequency of one or more sounds included in the input acoustic signal based on a probability density function of the fundamental frequency;
Sound model deformation means for deforming the sound model ,
The sound analysis apparatus according to claim 1, wherein the probability density function estimation means estimates a probability density function of a fundamental frequency of a sound of the sound source in the input acoustic signal using the sound model deformed by the sound model deformation means .
前記基本周波数推定手段は、前記確率密度関数におけるピークを複数検出し、各ピークの信頼度に基づき、信頼度が高くパワーの大きい基本周波数を出力することを特徴とする請求項1に記載の音分析装置。   2. The sound according to claim 1, wherein the fundamental frequency estimation means detects a plurality of peaks in the probability density function, and outputs a fundamental frequency having high reliability and high power based on reliability of each peak. Analysis equipment. 前記音モデル変形手段は、前記音モデルに対して、起伏の緩やかな高調波構造を持った変形用の音モデルを混合することにより、元の高調波構造よりも起伏の緩やかな高調波構造の音モデルに変形することを特徴とする請求項1に記載の音分析装置。   The sound model deforming means mixes a sound model for deformation having a gently undulating harmonic structure with the sound model, so that a harmonic structure having a more undulating harmonic structure than the original harmonic structure can be obtained. The sound analysis apparatus according to claim 1, wherein the sound analysis apparatus is transformed into a sound model. 前記音モデル変形手段は、基本周波数が高い音モデルは、基本周波数の低い音モデルに比べて、高域が強調された高調波構造となるように、前記複数の基本周波数に対応した複数の音モデルに対する変形を行うことを特徴とする請求項1に記載の音分析装置。 The sound model deforming means is configured to provide a plurality of sounds corresponding to the plurality of fundamental frequencies so that a sound model having a high fundamental frequency has a higher harmonic structure than a sound model having a low fundamental frequency. The sound analysis apparatus according to claim 1, wherein the sound analysis apparatus performs deformation on the model . 基本周波数の時間遷移が既知であるトレーニング用音響信号を前記確率密度関数推定手段および前記基本周波数推定手段に処理させ、その結果、前記基本周波数推定手段から得られる基本周波数の時間推移と前記トレーニング用音響信号の基本周波数の時間推移との一致度を評価する評価処理と、
前記評価処理により評価される一致度が上昇するように、前記音モデル変形手段に音モデルの変形を行わせる変形制御処理と
を繰り返し実行する音モデル最適化手段を具備することを特徴とする請求項1〜4のいずれか1の請求項に記載の音分析装置。
The training acoustic signal whose time transition of the fundamental frequency is known is processed by the probability density function estimating means and the fundamental frequency estimating means. As a result, the time transition of the fundamental frequency obtained from the fundamental frequency estimating means and the training An evaluation process for evaluating the degree of coincidence with the time transition of the fundamental frequency of the acoustic signal;
A sound model optimizing unit that repeatedly executes a deformation control process that causes the sound model deforming unit to deform the sound model so that the degree of coincidence evaluated by the evaluation process increases. The sound analyzer according to any one of claims 1 to 4.
コンピュータを、
各々音源の音の高調波構造に対応した構造を有し、各種の基本周波数に対応した確率密度関数である複数の音モデルを重み付け加算した混合分布が、入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
前記基本周波数の確率密度関数に基づいて前記入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と、
前記音モデルを変形する音モデル変形手段であって、当該音モデル変形手段により変形された音モデルを用いて前記確率密度関数推定手段が前記入力音響信号における音源の音の基本周波数の確率密度関数を推定する音モデル変形手段と
して機能させることを特徴とするコンピュータプログラム。
Computer
Each of the sound components has a structure corresponding to the harmonic structure of the sound source, and a mixed distribution obtained by weighted addition of a plurality of sound models that are probability density functions corresponding to various fundamental frequencies is the distribution of the frequency components of the input acoustic signal. A probability density function estimating means for optimizing a weight value for each sound model and estimating a weight value of each optimized sound model as a probability density function of a fundamental frequency of a sound of a sound source in the input acoustic signal ;
Fundamental frequency estimation means for estimating and outputting a fundamental frequency of sound of one or a plurality of sound sources included in the input acoustic signal based on a probability density function of the fundamental frequency;
A sound model deforming means for deforming the sound model , wherein the probability density function estimating means uses the sound model deformed by the sound model deforming means and the probability density function of the fundamental frequency of the sound of the sound source in the input acoustic signal A computer program that functions as a sound model deforming means for estimating sound.
JP2006237273A 2006-09-01 2006-09-01 Sound analyzer and program Expired - Fee Related JP4625934B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006237273A JP4625934B2 (en) 2006-09-01 2006-09-01 Sound analyzer and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006237273A JP4625934B2 (en) 2006-09-01 2006-09-01 Sound analyzer and program

Publications (2)

Publication Number Publication Date
JP2008058754A JP2008058754A (en) 2008-03-13
JP4625934B2 true JP4625934B2 (en) 2011-02-02

Family

ID=39241532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006237273A Expired - Fee Related JP4625934B2 (en) 2006-09-01 2006-09-01 Sound analyzer and program

Country Status (1)

Country Link
JP (1) JP4625934B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143339A (en) * 2013-05-09 2014-11-12 索尼公司 Music signal processing apparatus and method, and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0546164A (en) * 1991-08-21 1993-02-26 Nec Corp Transcription device for musical sound
JP3413634B2 (en) * 1999-10-27 2003-06-03 独立行政法人産業技術総合研究所 Pitch estimation method and apparatus
JP2005241716A (en) * 2004-02-24 2005-09-08 Kawai Musical Instr Mfg Co Ltd Device and program for model generation of musical sound decision apparatus for natural musical instrument

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0546164A (en) * 1991-08-21 1993-02-26 Nec Corp Transcription device for musical sound
JP3413634B2 (en) * 1999-10-27 2003-06-03 独立行政法人産業技術総合研究所 Pitch estimation method and apparatus
JP2005241716A (en) * 2004-02-24 2005-09-08 Kawai Musical Instr Mfg Co Ltd Device and program for model generation of musical sound decision apparatus for natural musical instrument

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143339A (en) * 2013-05-09 2014-11-12 索尼公司 Music signal processing apparatus and method, and program
CN104143339B (en) * 2013-05-09 2019-10-11 索尼公司 Acoustic musical signals processing device and method

Also Published As

Publication number Publication date
JP2008058754A (en) 2008-03-13

Similar Documents

Publication Publication Date Title
JP4660739B2 (en) Sound analyzer and program
Gfeller et al. SPICE: Self-supervised pitch estimation
JP4322283B2 (en) Performance determination device and program
Klapuri Automatic music transcription as we know it today
JP5088030B2 (en) Method, apparatus and program for evaluating similarity of performance sound
Salamon et al. Melody extraction from polyphonic music signals using pitch contour characteristics
Brossier Automatic annotation of musical audio for interactive applications
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
JP3413634B2 (en) Pitch estimation method and apparatus
Dressler Pitch estimation by the pair-wise evaluation of spectral peaks
Klapuri Musical meter estimation and music transcription
US9779706B2 (en) Context-dependent piano music transcription with convolutional sparse coding
Benetos et al. Joint multi-pitch detection using harmonic envelope estimation for polyphonic music transcription
JP2007041234A (en) Method for deducing key of music sound signal, and apparatus for deducing key
JP4625933B2 (en) Sound analyzer and program
JP5924968B2 (en) Score position estimation apparatus and score position estimation method
JP4625934B2 (en) Sound analyzer and program
Gurunath Reddy et al. Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method
JP4625935B2 (en) Sound analyzer and program
JPH0675562A (en) Automatic musical note picking-up device
Gowriprasad et al. Onset detection of tabla strokes using lp analysis
Paradzinets et al. Use of continuous wavelet-like transform in automated music transcription
Dziubiński et al. High accuracy and octave error immune pitch detection algorithms
Szczerba et al. Pitch detection enhancement employing music prediction
Rajan et al. Melody extraction from music using modified group delay functions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101013

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees