JP2008257020A - Method and device for calculating degree of similarity of melody - Google Patents

Method and device for calculating degree of similarity of melody Download PDF

Info

Publication number
JP2008257020A
JP2008257020A JP2007100303A JP2007100303A JP2008257020A JP 2008257020 A JP2008257020 A JP 2008257020A JP 2007100303 A JP2007100303 A JP 2007100303A JP 2007100303 A JP2007100303 A JP 2007100303A JP 2008257020 A JP2008257020 A JP 2008257020A
Authority
JP
Japan
Prior art keywords
similarity
energy
melody
pitch
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007100303A
Other languages
Japanese (ja)
Inventor
Yoshinori Haseyama
美紀 長谷山
Soji Konno
聡司 今野
Naoki Nitanda
直己 二反田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2007100303A priority Critical patent/JP2008257020A/en
Publication of JP2008257020A publication Critical patent/JP2008257020A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method and a device for calculating the degree of similarity of melody with high estimate accuracy while reducing influences of an overtone structure and a noise. <P>SOLUTION: In a calculation of the degree of similarity of melody for calculating the degree of similarity of melody between two music pieces, a sound pitch transition characteristic for representing temporal changes of base sound included in each of the two music pieces to be compared and an energy characteristic for representing the temporal changes of energy of musical instrument sound except the base sound included in each music signal are obtained. After that, the degree of similarity of the sound pitch transition characteristic in each music piece and the degree of similarity of the energy characteristic of the musical instrument sound except the base sound in each music piece are calculated, and the degree of similarity of melody is calculated by using each degree of similarity. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、メロディーの類似度算出方法及び類似度算出装置に係わり、特に、2つの楽曲におけるメロディーの類似度を算出するメロディーの類似度算出方法及び類似度算出装置に関する。   The present invention relates to a melody similarity calculation method and similarity calculation device, and more particularly to a melody similarity calculation method and similarity calculation device for calculating the melody similarity between two music pieces.

楽曲のディジタル化に伴い、楽曲名、作曲者名等のキーワードによる検索だけでなく、音楽信号を直接用いた検索が可能となった。そこで、同一ジャンルの楽曲の検索や類似する楽曲の検索等、音楽信号の内容に基づく様々な検索技術の実現が期待されている。このような検索技術の実現のために、楽曲間の類似度を算出する手法が提案されている(非特許文献1,2参照)。
北川高嗣、中西崇文、清水康、”楽曲メディアデータを対象としたメタデータ自動抽出方式の実現とその意味的楽曲検索への適用、”電子情報通信学会論文誌、vol.J85-D-I, no. 6, pp. 512−526、2002 蔭山哲也、高島洋典、”ハミング歌唱を手がかりとするメロディー検索、“”電子情報通信学会論文誌、vol.J77-DII, no. 8, pp.1543-1551, 1994
With the digitization of music, not only searching by keywords such as music titles and composer names, but also searching using music signals directly has become possible. Thus, various search techniques based on the contents of music signals, such as searching for music of the same genre or searching for similar music, are expected. In order to realize such a search technique, a method for calculating the similarity between music pieces has been proposed (see Non-Patent Documents 1 and 2).
Takakawa Kitagawa, Takafumi Nakanishi, Yasushi Shimizu, “Realization of automatic metadata extraction method for music media data and its application to semantic music search,” IEICE Transactions, vol.J85-DI, no. 6, pp. 512-526, 2002 Tetsuya Hatakeyama, Hironori Takashima, “Melody search based on humming singing,” “The IEICE Transactions, vol.J77-DII, no. 8, pp.1543-1551, 1994

非特許文献1の手法では、音楽信号より算出された複数の特徴量に基づき、楽曲にメタデータとして単語を付与する。さらに、人間の感性に基づく単語間の関係を用いて楽曲間の類似度を与え
る。従って、特徴量と単語を適切に設定することにより、楽曲の内容に基づく類似度算出を可能とする。しかしながら、メタデータが人間の感性に基づく単語から構成されるため、設定が困難であり、類似度の定量化も困難となる問題がある。また、類似度算出において楽曲の構造やメロディー等、音楽の構成要素を反映することは困難である。
一方、非特許文献2の手法では、歌唱から得られる音声と楽曲の類似度算出を可能とする。しかしながら、同一楽曲の検索を目的とするため、異なる楽曲間での類似度算出には十分ではない。
以上から本発明の目的は、上記従来の問題を解決する新たなメロディーの類似度算出手法及び算出装置を提供することである。
本発明の別の目的は、倍音構造や雑音の影響を軽減可能とし、推定精度が良好なメロディーの類似度算出手法及び算出装置を提供することである。
また、本発明の別の目的は、メロディーの伸縮や欠落が生じた場合にも類似度算出が可能なメロディーの類似度算出手法及び算出装置を提供することである。
In the method of Non-Patent Document 1, a word is given as metadata to music based on a plurality of feature amounts calculated from a music signal. Furthermore, the similarity between music is given using the relationship between words based on human sensitivity. Therefore, the similarity can be calculated based on the contents of the music by appropriately setting the feature amount and the word. However, since metadata is composed of words based on human sensitivity, setting is difficult, and quantification of similarity is difficult. In addition, it is difficult to reflect music components such as music structure and melody in similarity calculation.
On the other hand, in the method of Non-Patent Document 2, the similarity between the sound obtained from singing and the music can be calculated. However, since the purpose is to search for the same music, it is not sufficient for calculating the similarity between different music.
In view of the above, an object of the present invention is to provide a new melody similarity calculation method and calculation apparatus that solve the above-described conventional problems.
Another object of the present invention is to provide a melodic similarity calculation method and calculation apparatus that can reduce the effects of overtone structure and noise and that has good estimation accuracy.
Another object of the present invention is to provide a melody similarity calculation method and a calculation device capable of calculating the similarity even when the expansion and contraction or omission of the melody occurs.

本発明の第1の態様は、2つの楽曲におけるメロディーの類似度を算出するメロディーの類似度算出方法であり、比較する2つの楽曲信号のそれぞれに含まれるベース音の時間的変化を示す音高推移特性を取得する第1ステップ、前記各楽曲信号に含まれるベース音以外の楽器音のエネルギーの時間的変化を示すエネルギー特性を取得する第2ステップ、各楽曲の音高推移特性の類似度を計算する第3ステップ、各楽曲のベース音以外の楽器音のエネルギー特性の類似度を計算する第4ステップ、
前記各類似度を用いてメロディーの類似度を算出する第5ステップを有している。
前記第2ステップにおいて、各楽曲信号の音名毎に、該音名の周波数成分のエネルギー及びその2k倍(k=1,2、・・・)の周波数成分のエネルギーを合計したエネルギーの時間変化特性を求め、前記第4ステップにおいて、2つの楽曲信号の音名毎のエネルギー特性の相違度を計算し、該音名毎の相違度を合計し、該合計値の逆数により前記エネルギー特性の類似度を計算する。また、前記第5ステップにおいて、前記音高推移特性の類似度とエネルギー特性の類似度を乗算してメロディーの類似度を算出する。
A first aspect of the present invention is a melody similarity calculation method for calculating a melody similarity between two music pieces, and a pitch indicating a temporal change of a bass sound included in each of the two music signals to be compared. A first step of acquiring transition characteristics; a second step of acquiring energy characteristics indicating temporal changes in energy of instrument sounds other than the bass sound included in each music signal; and similarity of pitch transition characteristics of each music. A third step of calculating, a fourth step of calculating the similarity of the energy characteristics of instrument sounds other than the bass sound of each musical piece;
A fifth step of calculating the similarity of the melody using each of the similarities is provided.
In the second step, for each pitch name of each music signal, an energy time obtained by summing the frequency component energy of the pitch name and the frequency component energy of 2 k times (k = 1, 2,...) The change characteristic is obtained, and in the fourth step, the degree of difference in energy characteristics for each pitch name of the two music signals is calculated, the difference degree for each pitch name is summed, and the energy characteristic is calculated by the reciprocal of the total value. Calculate similarity. In the fifth step, the similarity of the melody is calculated by multiplying the similarity of the pitch transition characteristic and the similarity of the energy characteristic.

本発明の第2の態様は、2つの楽曲におけるメロディーの類似度を算出するメロディーの類似度算出装置であり、比較する2つの楽曲信号のそれぞれに含まれるベース音の時間的変化を示す音高推移特性を取得する音高推移取得部、前記各楽曲信号に含まれるベース音以外の楽器音のエネルギーの時間的変化を示すエネルギー特性を取得するエネルギー特性取得部、各楽曲の音高推移特性の類似度を計算する第1の類似度計算部、各楽曲のベース音以外の楽器音のエネルギー特性の類似度を計算する第2の類似度計算部、前記各類似度を用いてメロディーの類似度を算出するメロディー類似度算出部を有している。
前記エネルギー特性取得部は、各楽曲信号の音名毎に、該音名の周波数成分のエネルギー及びその2k倍(k=1,2、・・・)の周波数成分のエネルギーを合計したエネルギーの時間変化特性を取得する複数の音名エネルギー取得部を備え、前記第2の類似度計算部は、2つの楽曲信号の音名毎のエネルギー特性の相違度を計算する相違度計算部、音名毎の相違度を合計し、該合計値の逆数により前記エネルギー特性の類似度を計算する計算部を有している。また、前記メロディー類似度算出部は、前記音高推移特性の類似度とエネルギー特性の類似度を乗算してメロディーの類似度を算出する乗算部を備えている。
A second aspect of the present invention is a melody similarity calculation device that calculates the melody similarity between two music pieces, and indicates a pitch that indicates a temporal change in the bass sound included in each of the two music signals to be compared. A pitch transition acquisition unit for acquiring transition characteristics, an energy characteristic acquisition unit for acquiring energy characteristics indicating temporal changes in energy of instrument sounds other than the bass sound included in each music signal, and a pitch transition characteristic of each music A first similarity calculation unit for calculating similarity, a second similarity calculation unit for calculating the similarity of energy characteristics of instrument sounds other than the bass sound of each music piece, and a melody similarity using each similarity Has a melody similarity calculation unit.
For each pitch name of each music signal, the energy characteristic acquisition unit calculates the sum of the frequency component energy of the pitch name and the frequency component energy of 2 k times (k = 1, 2,...). A plurality of pitch name energy acquisition units for acquiring time-varying characteristics, wherein the second similarity calculation unit calculates a difference degree of energy characteristics for each pitch name of two music signals; It has a calculation part which totals the difference degree for every and calculates the similarity degree of the said energy characteristic by the reciprocal number of this total value. In addition, the melody similarity calculation unit includes a multiplication unit that calculates the similarity of the melody by multiplying the similarity of the pitch transition characteristic and the similarity of the energy characteristic.

本発明によれば、ベース音以外の楽器音のエネルギーとして、各音名が示す周波数のエネルギーを用いるため、倍音構造、雑音の影響を軽減可能であり、推定精度が良好なメロディーの類似度算出手法及び算出装置を提供することができる。
また、本発明によれば、低周波数域に基本周波数を持つベース音を併せて用いることで、倍音構造の影響をより軽減した類似度算出を可能とする。
さらに、本発明によれば、類似度の算出にはDTW を用いるため、メロディーの伸縮や欠落が生じた場合にも類似度算出が可能となる。
According to the present invention, since the energy of the frequency indicated by each pitch name is used as the energy of the instrument sound other than the bass sound, the influence of the harmonic structure and noise can be reduced, and the similarity calculation of the melody with good estimation accuracy can be performed. A method and a calculation device can be provided.
In addition, according to the present invention, by using a bass sound having a fundamental frequency in a low frequency range, it is possible to calculate a similarity degree that further reduces the influence of the harmonic structure.
Furthermore, according to the present invention, since the DTW is used to calculate the similarity, the similarity can be calculated even when the melody is expanded or contracted or missing.

(A)本発明の概略
本発明は、音楽の構成要素であるメロディーに着眼する。音楽におけるメロディーとは、複数の音源により構成される基本周波数の時間推移である(石桁真礼生、“楽典−理論と実習、”音楽之友社発行、1980を参照)。本発明は、このメロディーの定義に従い、メロディーがベース音と、それ以外の楽器音から構成されると仮定する。さらに、この仮定に基づき、ベース音が示すエネルギーの推移、及びベース音以外の楽器音が示すエネルギーの推移についてマッチング処理を施すことで類似度を得る。ベース音が示すエネルギーとしてはベース音が存在する周波数域のパワースペクトルを用い、その他の楽器音が示すエネルギーとしてはC,D,E,・・・・等の音名が示す周波数のエネルギーを用いる。図1は音名説明図であり、1は日本語の音名(ハニホヘトイロハ)、2は英語標記の音名(CDEFGAB)、3は音符、4はハ長調での階名である。
ところで、音楽信号には以下の2つの特徴がある。第1の特徴は、楽器音に基本周波数の倍音が多く含まれる(以降、倍音構造という) 点であり、このため周波数域が高くなるに従い、基本周波数の特定が困難となる。第2の特徴は、楽曲中には発音の際に発生する擦弦音等の雑音が含まれる点であり、このため、音階上に存在しない周波数が楽器音の基本周波数として推定される可能性がある。
本発明はベース音が示すエネルギーの推移およびベース音以外の楽器音が示すエネルギーの推移、例えば、音名のエネルギーの推移を用いることにより、上記2つの特徴を有する音楽信号に有効に対応することができる。
本発明の実施例を説明する前に、本発明で使用するDTW(Dynamic Time Warping)技術と、音高推移特性の取得方法と、ベース音以外の楽器音が示すエネルギーの算出法を説明する。
(A) Outline of the present invention The present invention focuses on a melody that is a component of music. A melody in music is a time transition of a fundamental frequency composed of a plurality of sound sources (see Masao Ishigari, “Rakuten-Theory and Practice,” published by Music Notomo, 1980). In accordance with this melody definition, the present invention assumes that the melody is composed of a bass sound and other instrument sounds. Further, based on this assumption, the similarity is obtained by performing matching processing on the transition of energy indicated by the bass sound and the transition of energy indicated by the instrument sound other than the bass sound. As the energy indicated by the bass sound, the power spectrum in the frequency range where the bass sound exists is used, and as the energy indicated by the other instrument sounds, the energy of the frequency indicated by the pitch name such as C, D, E,. . FIG. 1 is an explanatory diagram of pitch names, 1 is a pitch name in Japanese (Haniho Hetoiroha), 2 is a pitch name in English (CDEFGAB), 3 is a note, 4 is a floor name in C major.
By the way, the music signal has the following two characteristics. The first feature is that the musical instrument sound includes many harmonics of the fundamental frequency (hereinafter referred to as harmonic structure), and as a result, the fundamental frequency becomes difficult to identify as the frequency range increases. The second feature is that the music includes noise such as a stringed sound that occurs during pronunciation, and therefore, a frequency that does not exist on the scale may be estimated as the fundamental frequency of the instrument sound. is there.
The present invention effectively copes with a music signal having the above two characteristics by using a transition of energy indicated by a bass sound and a transition of energy indicated by an instrument sound other than the bass sound, for example, a transition of energy of a pitch name. Can do.
Before describing an embodiment of the present invention, a DTW (Dynamic Time Warping) technique used in the present invention, a method for acquiring pitch transition characteristics, and a method for calculating energy indicated by instrument sounds other than the bass sound will be described.

(B)DTW技術
最初に、一般的なDTW について説明し、しかる後、本発明の類似度算出に用いるDTWの構成について説明する。
DTWとは、二つの一次元信号に伸縮を施し、信号間の相違度を算出する手法である。このため、時間軸方向に伸縮の生じる信号の比較に有効である。特に音楽信号では、演奏速度の変化が頻繁に発生することから、相違度より求められる類似度の算出にDTWを用いることは有効である。以降、相違度算出において、参照する信号を参照パターン、参照パターンとの相違度を求める信号を被参照パターンと呼ぶ。
まず、DTW によるパターン間の相違度の算出について説明する。長さI の一次元の参照パターンに含まれる各要素を順にa1,a2,…,aI とし、長さJ の被参照パターンに含まれる各要素を順にb1,b2,…,bJ と表現する。さらに、各パターンの位置集合を{a1,a2,…,aI},[ b1,b2,…,bJ ] で表現すると、パターンの各要素間の対応を決定する伸縮写像w:[1,2,…,I]→{1,2,…,J}は以下の性質を満たす。すなわち、
「wはパターンの始点、終点を一致させるもので、

Figure 2008257020
である。また、wは単調写像であり、次式
Figure 2008257020
が成立する。 (B) DTW Technology First, a general DTW will be described, and then the configuration of the DTW used for similarity calculation according to the present invention will be described.
DTW is a technique for calculating the degree of difference between signals by expanding and contracting two one-dimensional signals. Therefore, it is effective for comparing signals that cause expansion and contraction in the time axis direction. Particularly in music signals, since the performance speed frequently changes, it is effective to use DTW for calculating the similarity obtained from the difference. Hereinafter, in calculating the degree of difference, a signal to be referred to is referred to as a reference pattern, and a signal for obtaining the degree of difference from the reference pattern is referred to as a referenced pattern.
First, calculation of the degree of difference between patterns by DTW will be described. Each element included in the one-dimensional reference pattern of length I is sequentially a 1 , a 2 ,..., A I, and each element included in the reference pattern of length J is sequentially b 1 , b 2 ,. b Expressed as J. Furthermore, if the position set of each pattern is expressed by {a 1 , a 2 ,..., A I }, [b 1 , b 2 ,..., B J ], the expansion / contraction map w that determines the correspondence between the elements of the pattern. : [1,2, ..., I] → {1,2, ..., J} satisfies the following properties. That is,
“W matches the start and end points of the pattern.
Figure 2008257020
It is. W is a monotonic map.
Figure 2008257020
Is established.

このような写像w を用いたとき、パターン間の相違度の算出は図2における格子点(b1,a1) から格子点(bJ,aI) までの最短経路の探索問題に置換することができる。そこで、DTW では、
「初期状態の最初の決定が何であろうとも、以後の決定は最初の遷移から生じた状態に関して適切でなければならない」
という最適性の原理に基づいて上記の経路探索問題を解く。すなわち、全体の経路長を部分の経路長の和で求める。部分の経路長は、経路上の格子点(aj,bi) におけるコストd (j,i)、及び2 つの格子点(aj,bi),(bj-1,ai-1)間の移動コストcj,i(j-1,i-1)に加え、cj,i(j,i-1),cj,i(j-1,i)の3つを用いて算出する。部分の経路長の算出法を図2に示す。ここで、格子点上のコストd (j,i)は参照パターンと被参照パターンの間で対応する要素が異なる場合のペナルティであり、たとえば、要素が同じであれば0、異なればαである。また、移動コストcj,i(j-1,i-1) は参照パターンと被参照パターンの間で伸縮が生じた場合、格子点(bj-1,ai-1) から格子点(bj,ai) に移動するペナルティであり、たとえばi=jであれば0、パターンのずれによりi≠jであればβである。
上記のコストに基づいて部分の経路長を算出し、経路全体のコストが最小となる部分経路を選択する。最後に、選択された部分経路毎のコストの和を算出することで、全体の経路長が得られる。以上より、パターンの部分毎の相違度からパターン全体の相違度を得ることが可能となる。
When such a mapping w is used, the calculation of the dissimilarity between patterns is replaced with a search problem of the shortest path from the lattice point (b 1 , a 1 ) to the lattice point (b J , a I ) in FIG. be able to. So in DTW,
"Whatever the initial decision of the initial state, subsequent decisions must be appropriate with respect to the state resulting from the first transition."
The above route search problem is solved based on the principle of optimality. That is, the total path length is obtained as the sum of the partial path lengths. The path length of the part is the cost d (j, i) at the grid point (aj, bi) on the path, and between the two grid points (a j , b i ), (b j-1 , a i-1 ) In addition to c j, i (j-1, i-1), c j, i (j, i-1), c j, i (j-1, i) . A method for calculating the path length of the portion is shown in FIG. Here, the cost d (j, i) on the lattice point is a penalty when the corresponding elements are different between the reference pattern and the referenced pattern, for example, 0 if the elements are the same, and α if they are different. . In addition, the movement cost c j, i (j-1, i-1) is changed from the lattice point (b j-1 , a i-1 ) to the lattice point ( b j , a i ), for example, 0 if i = j, and β if i ≠ j due to pattern misalignment.
The partial path length is calculated based on the above cost, and the partial path that minimizes the cost of the entire path is selected. Finally, the total path length can be obtained by calculating the sum of the costs for each selected partial path. From the above, it is possible to obtain the degree of difference of the entire pattern from the degree of difference of each part of the pattern.

本発明では、DTW を音楽信号に適用することから、音楽信号の類似度算出における特徴を考慮し、さらに詳細な相違度の算出法を提案する。本発明は、音楽の特徴として、同一楽曲の演奏速度が異なる場合にも、楽譜上の音符が欠落することがない点に着眼する。この特徴を、格子点間の移動による相違度算出に適用すると、参照パターンに含まれる全ての要素が被参照パターンに含まれ、要素間の対応が決定されることを意味する。従って、伸縮写像w は次式に示す傾斜制限を加えることが可能となる。

Figure 2008257020
本発明上記の条件に従ってDTW による相違度の算出を行う。これより相違度は、(4)式を用いて経路長を漸化的に求めることで算出可能となる。
Figure 2008257020
例えば、(4)式より、図4に示す格子点(1,1)の相違度D(1,1)は
D(1,1)=d(1,1)
であり、格子点(1,2)の相違度D(1,2)は
D(1,2)=d(1,2)+c1,2(1,1,)+D(1,1)
であり、格子点(2,1)の相違度D(2,1)は
D(2,1)=d(2,1)+c2,1(1,1,)+D(1,1)
である。同様にして第1行目の格子点の相違度及び第1列目の格子点の相違度が求まる。そして、以後、順次(4)式により他の格子点の相違度が求まってゆき、最終的に格子点(5,6)の相違度D(5,6)が求まる。この相違度D(5,6)が図3の2つのパターンa:{a1,a2,…,a6},b:[ b1,b2,…,b5 ]の相違度となる。 In the present invention, since DTW is applied to a music signal, a more detailed method for calculating the degree of difference is proposed in consideration of the characteristics in calculating the similarity of music signals. The present invention focuses on the fact that musical notes do not lose musical notes even when performance speeds of the same musical composition are different. When this feature is applied to calculation of the degree of difference due to movement between lattice points, it means that all elements included in the reference pattern are included in the referenced pattern and the correspondence between the elements is determined. Therefore, the expansion / contraction map w can be subjected to a tilt restriction expressed by the following equation.
Figure 2008257020
According to the present invention, the degree of difference is calculated by DTW. Thus, the degree of difference can be calculated by recursively obtaining the path length using equation (4).
Figure 2008257020
For example, from equation (4), the dissimilarity D (1,1) of the grid point (1,1) shown in FIG.
D (1,1) = d (1,1)
And the dissimilarity D (1,2) of the grid point (1,2) is
D (1,2) = d (1,2) + c 1,2 (1,1,) + D (1,1)
And the dissimilarity D (2,1) of the grid point (2,1) is
D (2,1) = d (2,1) + c 2,1 (1,1,) + D (1,1)
It is. Similarly, the dissimilarity between the grid points in the first row and the dissimilarity between the grid points in the first column are obtained. Thereafter, the dissimilarity of other lattice points is sequentially obtained by the equation (4), and finally the dissimilarity D (5,6) of the lattice point (5,6) is obtained. Two patterns a of the dissimilarity D (5, 6) Figure 3: {a 1, a 2 , ..., a 6}, b: [b 1, b 2, ..., b 5] the degree of difference .

(C)音高推移特性の取得
本発明では、楽曲中のベース音の推移として、ベース音が示す音高の推移を用いる。音高とは、楽譜上に記載される各音符が示す基本周波数である。従って、音高の推移はベース音に含まれる主要な周波数におけるエネルギーの推移を意味する。ベース音の音高は、下記文献1に記載されている音高推定手法に従って推定する。
文献1:今野聡司、他“音楽信号の低周波数域における楽曲の構造に着眼した時間周波数解析に関する検討"、映像情報メディア学会技術報告、vol.29, no.46, pp.13-16, 2005
図5は音高推定装置の構成図である。バンドパスフィルタ1はベース音が存在する周波数帯域に基づいて処理対象の楽曲信号に含まれる40〜250Hzの信号成分を通過する。パワースペクトル算出部2はバンドパスフィルタ出力信号からパワースペクトルを算出する。評価関数計算部3は該パワースペクトルの時間軸方向、及び周波数軸方向にガウス関数に基づく重みを付加し、最後に、音高推定部4は重み付けされた各時刻のパワースペクトルにおいて最大のエネルギーを与える周波数を音高として推定する。
(C) Acquisition of pitch transition characteristics In the present invention, the transition of the pitch indicated by the bass sound is used as the transition of the bass sound in the music. The pitch is a fundamental frequency indicated by each note described on the score. Therefore, the transition of the pitch means the transition of energy at the main frequencies included in the bass sound. The pitch of the bass sound is estimated according to the pitch estimation method described in Document 1 below.
Reference 1: Koji Konno, et al. “A study on temporal frequency analysis focusing on the structure of music in the low frequency range of music signals”, ITE Technical Report, vol.29, no.46, pp.13-16, 2005
FIG. 5 is a block diagram of the pitch estimation apparatus. The band pass filter 1 passes a 40 to 250 Hz signal component included in the music signal to be processed based on the frequency band in which the bass sound exists. The power spectrum calculation unit 2 calculates a power spectrum from the bandpass filter output signal. The evaluation function calculation unit 3 adds weights based on a Gaussian function in the time axis direction and frequency axis direction of the power spectrum, and finally, the pitch estimation unit 4 calculates the maximum energy in the weighted power spectrum at each time. The given frequency is estimated as the pitch.

すなわち、時刻t(0 ≦t ≦ T)、周波数f においてパワースペクトル算出部2が算出するエネルギーをP(t,f)とすれば、評価関数計算部3は(5)式により重み付けされたパワースペクトルR(t,f)を評価関数として出力する。

Figure 2008257020
なお、vt(s)は時間軸の重みであり、
Figure 2008257020
ただし、σは音の持続時間の指標となる定数である。また、(5)式においてw(f)は周波数軸の重みであり、
Figure 2008257020
ただし、mを自然数として、
Figure 2008257020
で示されるFm は、DI(Musical Instrument Digital Interface)のm 番目のノートにおける周波数を表す。
(5)式の評価関数R(t,f)は、(6) 式の時間軸方向の重みにより、一定時間持続する基本周波数を音高として推定可能とする。また、(7) 式に示す周波数軸方向の重みにより、音階上に存在する周波数のみを音高として推定可能とする。以降、評価関数R(t,f)の各時刻t において最大値を与える周波数f をベースの音高とし、B(t) と表す。 That is, if the energy calculated by the power spectrum calculation unit 2 at time t (0 ≦ t ≦ T) and frequency f is P (t, f), the evaluation function calculation unit 3 uses the power weighted by equation (5). The spectrum R (t, f) is output as an evaluation function.
Figure 2008257020
Note that v t (s) is the time axis weight,
Figure 2008257020
However, (sigma) is a constant used as the parameter | index of the duration of a sound. Also, in equation (5), w (f) is the frequency axis weight,
Figure 2008257020
Where m is a natural number
Figure 2008257020
Fm indicated by represents the frequency in the mth note of DI (Musical Instrument Digital Interface).
The evaluation function R (t, f) in equation (5) makes it possible to estimate the fundamental frequency that lasts for a certain period of time as the pitch by the weight in the time axis direction of equation (6). Further, only the frequency existing on the scale can be estimated as the pitch by the weight in the frequency axis direction shown in the equation (7). Hereinafter, the frequency f giving the maximum value at each time t of the evaluation function R (t, f) is defined as B (t) with the base pitch as the base pitch.

(D)その他の楽器音によるエネルギーの推移
次に、ベース音以外の楽器音が示すエネルギーの算出法について説明する。一般的な音楽の構成では、主にベース音が楽曲の最低音となるため、その他の楽器音はベース音の周波数域より高い周波数を示す。また、ベース音より高い周波数域で、各音名は図6に示す周波数を持ち、各周波数の2k(k = 1,2,...) 倍の周波数も同一の音名として扱われる。そこで、本発明では、ベース音以外の楽器音が示すエネルギーを、ベース音の周波数より高く、かつ音名が持つ周波数のエネルギーとする。さらに、各音名が示す周波数のエネルギーには、図6の2k 倍の周波数が示すエネルギーの和を用いる。これにより、本発明は複数の楽器による倍音構造を軽減し、音高の推定が困難な周波数域に存在する楽器音についても類似度算出に用いることを可能とする。以上の手順概要を図7 に示し、以下で詳細を説明する。なお、音楽信号の信号長はT 秒、サンプリングレートはfs とし、また、時刻t(0 ≦t≦ T)および周波数f におけるエネルギーはパワースペクトルより算出されてP(t,f)と表す。
(D) Energy Transition by Other Instrument Sounds Next, a method for calculating energy indicated by instrument sounds other than the bass sound will be described. In a general music configuration, since the bass sound is mainly the lowest sound of the music, the other instrument sounds show frequencies higher than the frequency range of the bass sound. In addition, each pitch name has the frequency shown in FIG. 6 in a frequency range higher than the bass tone, and a frequency 2 k (k = 1, 2,...) Times each frequency is treated as the same pitch name. Therefore, in the present invention, the energy indicated by the instrument sound other than the bass sound is assumed to be energy having a frequency higher than the frequency of the bass sound and possessed by the pitch name. Further, as the energy of the frequency indicated by each pitch name, the sum of the energy indicated by the frequency 2 k times that in FIG. 6 is used. As a result, the present invention reduces the overtone structure of a plurality of musical instruments, and can also be used for similarity calculation for musical instrument sounds that exist in a frequency range where it is difficult to estimate the pitch. The outline of the above procedure is shown in FIG. 7, and the details will be described below. The signal length of the music signal is T seconds, the sampling rate is fs, and the energy at time t (0 ≦ t ≦ T) and frequency f 1 is calculated from the power spectrum and expressed as P (t, f).

1 )音名が示す周波数のエネルギーの算出:
パワースペクトルから、各音名が示す周波数のエネルギーを算出する。図6 において音名X に対応する周波数をfX として、音名X が示す周波数のエネルギーPX(t) を次式で定義する。

Figure 2008257020
ただし、K はを越えない任意の整数とする。(9)式により各音名が示す周波数のエネルギーを定義することで、倍音の影響が軽減可能となる。
2 )エネルギーの割合の算出:
1)で得られた各音名が示す周波数のエネルギーを全周波数域に対するエネルギーの割合で表現する。これにより、音名毎に時間軸方向での比較が可能となり、推移を得ることが可能となる。音名X が示す周波数のエネルギーの割合px(t) は次式で示される。
Figure 2008257020
以上を全てのt、X について施し、得られたpx(t) をベース音以外の楽器音におけるエネルギーの推移として用いる。 1) Calculation of energy of frequency indicated by pitch name:
The energy of the frequency indicated by each pitch name is calculated from the power spectrum. In FIG. 6, the frequency P X (t) of the frequency indicated by the pitch name X is defined by the following equation, where f X is the frequency corresponding to the pitch name X.
Figure 2008257020
However, K is an arbitrary integer not exceeding. By defining the energy of the frequency indicated by each pitch name using equation (9), the influence of overtones can be reduced.
2) Calculation of energy ratio:
Express the energy of the frequency indicated by each pitch name obtained in 1) as the ratio of the energy to the entire frequency range. Thereby, it is possible to compare in the time axis direction for each pitch name, and to obtain a transition. The frequency energy ratio p x (t) indicated by the pitch name X is expressed by the following equation.
Figure 2008257020
The above is applied to all t and X, and the obtained p x (t) is used as a transition of energy in instrument sounds other than the bass sound.

図8は各音名のエネルギー特性を取得する音名エネルギー取得部の構成図であり、音名の周波数成分、該周波数の2k(k = 1,2,...) 倍の周波数成分をそれぞれ通過するバンドパスフィルタ111〜11n、各バンドパスフィルタ出力を合成することにより音名エネルギーPX(t)を出力する合成部12、(10)式によりエネルギーの割合px(t)を出力するエネルギー割合計算部13を備えている。 FIG. 8 is a block diagram of a pitch name energy acquisition unit for acquiring the energy characteristics of each pitch name. The frequency component of the pitch name and the frequency component of 2 k (k = 1, 2 ,. The bandpass filters 11 1 to 11 n that pass therethrough, the synthesizing section 12 that outputs the pitch energy P X (t) by synthesizing the output of each bandpass filter, the energy ratio p x (t) according to the equation (10) Is provided.

(E)メロディー類似度算出法
図9は2つの楽曲におけるメロディーの類似度を算出する本発明のメロディーの類似度算出方法の処理フローである。
本発明は、まずメロディーがベース音、及びベース音以外の楽器音から構成されると仮定する。これは、ベース音と他楽器音により同時に発音される音が、メロディーの特徴を決定する和音や調の指標となるためである。本発明は上記の仮定に基づき、それぞれの楽器音のエネルギーにDTW を適用することで類似度を算出する。
すなわち、最初に比較する2つの楽曲信号のそれぞれに含まれるベース音の時間的変化を示す音高B(t)を取得し(ステップ101)、また、各楽曲信号に含まれるベース音以外の楽器音のエネルギーの時間的変化を示すエネルギー特性px(t)を取得する(ステップ102)。次に(4)式に基づくDTW を用いて、各楽曲の音高の相違度を求め、その逆数を演算することで類似度Saを計算する(ステップ103)。しかる後、同様に、DTW を用いて、各楽曲のベース音以外の楽器音のエネルギー特性の相違度を求め、その逆数を演算することで類似度Sbを計算する(ステップ104)。最後に、音高B(t)、ベース音以外の楽器音のエネルギーpx(t)のそれぞれについて得られた類似度の積(Sa×Sb)を算出することでメロディーの類似度とする(ステップ105)。
(E) Melody Similarity Calculation Method FIG. 9 is a processing flow of the melody similarity calculation method of the present invention for calculating the melody similarity between two music pieces.
The present invention first assumes that the melody is composed of a bass sound and instrument sounds other than the bass sound. This is because the sound that is simultaneously generated by the bass sound and the other instrument sounds is an index of chords and keys that determine the characteristics of the melody. Based on the above assumption, the present invention calculates the similarity by applying DTW to the energy of each instrument sound.
That is, the pitch B (t) indicating the temporal change of the bass sound included in each of the two music signals to be compared first is acquired (step 101), and the instrument other than the bass sound included in each music signal is acquired. An energy characteristic p x (t) indicating a temporal change in sound energy is acquired (step 102). Next, using the DTW based on the equation (4), the degree of pitch difference of each music is obtained, and the reciprocal number is calculated to calculate the similarity Sa (step 103). Thereafter, similarly, using DTW, the degree of difference in energy characteristics of instrument sounds other than the bass sound of each musical piece is obtained, and the similarity Sb is calculated by calculating the reciprocal thereof (step 104). Finally, the similarity of the melody is calculated by calculating the product (Sa × Sb) of the similarities obtained for the pitch B (t) and the energy p x (t) of the instrument sound other than the bass sound ( Step 105).

以下で類似度算出の詳細について説明する。なお、DTW による相違度算出では、各楽曲信号を十分に小さい時間で分割し、一方を参照パターン、他方を被参照パターンとして用いる。
1)音高B(t) の相違度算出:
図5で説明したように、参照側のメロディーと被参照側のメロディーそれぞれについてベースの音高を推定し、DTWによる相違度算出を行う。ここで、DTW の(4)式で用いる各コストは以下のように設定する。

Figure 2008257020
Figure 2008257020
ただし、α>βとする。これにより、メロディーの不一致によるコストと比較して、演奏速度の変化等に伴うメロディーのずれに対するコストが小さくなる。以上により得られた相違度をDb と表す。 Details of similarity calculation will be described below. In the difference calculation by DTW, each music signal is divided in a sufficiently small time, and one is used as a reference pattern and the other is used as a referenced pattern.
1) Calculation of difference in pitch B (t):
As described with reference to FIG. 5, the pitch of the base is estimated for each of the melody on the reference side and the melody on the reference side, and the degree of difference is calculated by DTW. Here, each cost used in DTW equation (4) is set as follows.
Figure 2008257020
Figure 2008257020
However, α> β. As a result, the cost for the melody shift due to a change in performance speed or the like is smaller than the cost due to the melody mismatch. The degree of difference obtained as described above is represented as Db.

2)px(t) の相違度算出:
参照側のメロディーと被参照側のメロディーそれぞれについて、ベース音以外の楽器音の音名X毎のネルギーpxr (t), pxi (t)を算出し、これらを用いて音名毎にDTW による相違度Daxの算出を行う。従って、相違度は音名の数である12個得られる。そして、ベース以外の楽器音の相違度は音名毎に得られた相違度の和により定義する。すなわち、音名X について得られる相違度をDax とすると、ベース以外の楽器による音の相違度Da は次式で表される。
Da = DaC+DaCis+DaD+DaDis+DaE+DaF+DaFis +DaG +DaGis +DaA +DaB +DaH (13)
なお、DTWによる相違度算出に用いるコストは以下のように設定する。

Figure 2008257020
Figure 2008257020
以上、(13)式により、全ての音名が示す周波数のエネルギーの推移を用いた相違度算出が可能となる。また、(14)式に示すコストを設定することで、エネルギーの大きな周波数に対応する音名が、相違度全体に与える影響を増加する。これにより、メロディーを構成する主要な周波数成分を反映した相違度算出が可能となる。 2) Calculation of the difference between p x (t):
For each of the melody on the reference side and the melody on the referenced side, the energy p x r (t), p x i (t) for each note name X of the instrument sound other than the bass sound is calculated and used for each note name. The difference degree Dax is calculated by DTW. Therefore, 12 dissimilarities are obtained as the number of pitch names. The degree of difference between instrument sounds other than the bass is defined by the sum of the degrees of difference obtained for each pitch name. That is, if the dissimilarity obtained for the pitch name X is Dax, the sound dissimilarity Da by the instruments other than the bass is expressed by the following equation.
Da = Da C + Da Cis + Da D + Da Dis + Da E + Da F + Da Fis + Da G + Da Gis + Da A + Da B + Da H (13)
In addition, the cost used for the difference calculation by DTW is set as follows.
Figure 2008257020
Figure 2008257020
As described above, it is possible to calculate the degree of difference using the transition of the energy of the frequency indicated by all the pitch names by the expression (13). In addition, by setting the cost shown in the equation (14), the influence of the pitch name corresponding to the high energy frequency on the overall dissimilarity is increased. Thereby, it is possible to calculate the degree of difference reflecting the main frequency components constituting the melody.

3)各類似度の算出:
上記1)、2)で得られた相違度Db,Daの逆数を算出することで類似度とし、Sb, Sa と表す。
4)メロディーの類似度算出:
上記3)で得られた類似度Sb, Saから次式
S = Sb×Sa (16)
によりメロディーの類似度S を算出する。
以上の処理により、メロディー間の類似度を算出する。メロディー間の類似度は、ベース音とその他の楽器による音のエネルギーそれぞれの類似度から算出する。このため、倍音構造や雑音の影響を軽減可能とし、メロディーを構成する複数の楽器音を反映した類似度算出が可能となる。また、DTW を用いるため、メロディー間に伸縮や欠落が生じた場合にも類似度算出が可能となる。
3) Calculation of each similarity:
By calculating the reciprocal of the dissimilarities Db and Da obtained in 1) and 2) above, the similarity is obtained and expressed as Sb and Sa.
4) Melody similarity calculation:
From the similarity Sb, Sa obtained in 3) above,
S = Sb x Sa (16)
To calculate the similarity S of the melody.
The similarity between melody is calculated by the above process. The similarity between melody is calculated from the similarity between the energy of the sound of the bass sound and other instruments. For this reason, it is possible to reduce the influence of the overtone structure and noise, and it is possible to calculate the degree of similarity reflecting a plurality of instrument sounds constituting the melody. Also, since DTW is used, similarity can be calculated even when expansion or contraction occurs between melodies.

(F)メロディー類似度算出装置
図10は2つの楽曲におけるメロディーの類似度を算出する本発明のメロディーの類似度算出装置の構成図である。参照側及び被参照側の音高推移取得部51,71はそれぞれ比較する2つの楽曲信号に含まれるベース音の時間的変化を示す音高推移特性を取得し、参照側及び被参照側のエネルギー特性取得部52,72は楽曲信号に含まれるベース音以外の楽器音のエネルギーの時間的変化を示すエネルギー特性を取得する。エネルギー特性取得部52は、12個の音名のエネルギー特性をそれぞれ取得する12個のエネルギー取得部521〜5212を備えている。図示しないがエネルギー特性取得部72も同様の構成を備えている。相違度計算部53はDTW を用いて、各楽曲の音高の相違度Dbを求め、演算部54は相違度の逆数を演算することで類似度Sbを計算する。
各音名の相違度計算部551〜5512はDTW を用いて音名毎にエネルギー特性の相違度を計算し、演算部56は音名毎のエネルギー特性の相違度を合計してベース音以外の楽器音のエネルギー特性の相違度Daを求め((13)式参照)、演算部57は相違度Daの逆数を演算することで類似度Saを計算する。メロディー類似度計算部58は、音高B(t)、ベース音以外の楽器音のエネルギーpx(t)のそれぞれについて得られた類似度Sb,Saの積Sを算出し、該積をメロディーの類似度Sとして出力する。
(F) Melody Similarity Calculation Device FIG. 10 is a configuration diagram of a melody similarity calculation device according to the present invention that calculates the melody similarity between two music pieces. The reference-side and referenced-side pitch transition acquisition units 51 and 71 acquire pitch transition characteristics indicating temporal changes of the bass sounds included in the two music signals to be compared, and the reference-side and referenced-side energy. The characteristic acquisition units 52 and 72 acquire energy characteristics indicating temporal changes in the energy of instrument sounds other than the bass sound included in the music signal. Energy characteristic acquisition unit 52 is provided with twelve pitch names twelve energy obtaining unit 52 1 to 52 12 to the energy characteristics to get each. Although not shown, the energy characteristic acquisition unit 72 has the same configuration. The difference calculation unit 53 uses the DTW to determine the pitch difference Db of each music piece, and the calculation unit 54 calculates the similarity Sb by calculating the reciprocal of the difference.
The difference calculation sections 55 1 to 55 12 for each pitch name use the DTW to calculate the difference in energy characteristics for each pitch name, and the calculation section 56 sums the difference in energy characteristics for each pitch name to calculate the bass sound. The difference Da of the energy characteristics of the other instrument sounds is obtained (see equation (13)), and the calculation unit 57 calculates the similarity Sa by calculating the reciprocal of the difference Da. The melody similarity calculation unit 58 calculates the product S of the similarities Sb and Sa obtained for the pitch B (t) and the energy p x (t) of the instrument sound other than the bass sound, and the product is obtained as a melody. Is output as the similarity S.

(G)実験
本発明の有効性を確認するために実験を行った。実験にはCD から直接入手した44.1kHz、10秒の音楽信号を3 つ用いた。音楽信号は同一の楽曲から2 箇所、異なる楽曲から1 箇所切り出した信号であり、以降それぞれを順に信号1、 信号2、 信号3 とする。なお、本発明で用いるパラメータはそれぞれσ = 0:1、α=3、β=1、γ=0.1、k=10とした。
実験結果を図11、図12に示す。図11は各信号間で最終的に得られた類似度を示している。ただし、図における類似度は、左端に示す信号を参照パターン、右上端に示す信号を被参照パターンとして用いた場合の結果を表す。一方、図12は、各時刻までで算出される類似度を示している。ただし、図12(A),(B),(C)は参照パターンを信号1、2、3とし、他の2つの信号を被参照パターンとして得られた類似度を示す。ここで、被参照パターンに用いた信号1、2、3は図中でそれぞれ実線、破線、点線で示してある。
(G) Experiment An experiment was conducted to confirm the effectiveness of the present invention. Three 44.1 kHz, 10-second music signals obtained directly from the CD were used for the experiment. The music signal is a signal cut out at two places from the same piece of music and one place from different pieces of music. Hereafter, these are called signal 1, signal 2, and signal 3, respectively. The parameters used in the present invention were σ = 0: 1, α = 3, β = 1, γ = 0.1, and k = 10, respectively.
The experimental results are shown in FIGS. FIG. 11 shows the similarity finally obtained between the signals. However, the similarity in the figure represents the result when the signal shown at the left end is used as a reference pattern and the signal shown at the upper right end is used as a referenced pattern. On the other hand, FIG. 12 shows the similarity calculated up to each time. However, FIGS. 12A, 12B, and 12C show the similarities obtained when the reference pattern is the signals 1, 2, and 3, and the other two signals are the referenced patterns. Here, the signals 1, 2, and 3 used for the referenced pattern are indicated by a solid line, a broken line, and a dotted line in the drawing, respectively.

まず、信号1 について考察を行う。図11 より、信号3と比較して、信号2 との類似度が高いことが確認できる。また、図12(A) より、各時刻における類似度についても、同様に信号2 との類似度が高いことが確認できる。これは、信号1、2 が同一の楽曲の異なる時間を切り出した信号であるため、メロディー全体に渡り、同時に発音される音が類似するためと考えられる。また、図12(A)の3.5 秒以降の類似度が特に高くなることが確認できる。これは、信号1 の演奏において、メロディーが強調される演奏がなされたことに起因すると考えられる。このため、 各音名が示す周波数のエネルギーが強くなり、楽曲2 との類似度が高くなったと考えられる。
次に、信号2 について考察を行う。信号1 と同様に、図11より、信号3と比較して信号1との類似度が高いことが確認できる。しかしながら、図12(B)より、信号1、3との類似度は各時刻で比較すると差が小さいことが確認できる。この点は、信号2が楽曲のサビであるため、同時に発音される楽器数が多く、信号のパワーが極めて強いことが原因と考えられる。このため、信号2と比較してパワーの小さい信号1、3 が類似すると推定されたと考えられる。
最後に、信号3について考察を行う。図11より、信号3と異なる楽曲である信号1、2との類似度は低いことが確認できる。また、図12より、各時刻においても信号1、2との類似度は低く、時間による変化が少ないことが確認できる。以上より、提案手法は楽曲の類似度を算出可能であることが確認できる。図12では、信号1、2、3 いづれの類似度算出においても、時間軸に対して類似度が増加することが確認できる。また、時間の経過に従って類似度の変化が小さくなることが確認できる。これらは、類似度がDTW を用いた経路探索により得られるため、短い経路では類似度算出の精度が劣化することを意味する。このため、類似度の算出では、十分な信号長を持つ信号を用いる必要があると考えられる。
First, consider signal 1. From FIG. 11, it can be confirmed that the similarity with signal 2 is higher than that with signal 3. Further, from FIG. 12A, it can be confirmed that the similarity at each time is also high with the signal 2. This is presumably because the signals 1 and 2 are signals obtained by cutting out different times of the same music piece, and thus the sounds that are simultaneously generated over the entire melody are similar. In addition, it can be confirmed that the similarity after 3.5 seconds in FIG. This is considered to be due to the performance of signal 1 in which the melody was emphasized. For this reason, it is considered that the energy of the frequency indicated by each pitch name has increased, and the similarity with the music 2 has increased.
Next, consider signal 2. Similar to signal 1, it can be confirmed from FIG. 11 that the degree of similarity with signal 1 is higher than that of signal 3. However, from FIG. 12B, it can be confirmed that the similarity between the signals 1 and 3 is small when compared at each time. This is probably because the signal 2 is a chorus of music, so there are many instruments that can be sounded simultaneously, and the signal power is extremely strong. For this reason, it is considered that the signals 1 and 3 having lower power than the signal 2 are estimated to be similar.
Finally, consider signal 3. From FIG. 11, it can be confirmed that the similarity between the signal 3 and the signals 1 and 2 which are different music is low. Further, it can be confirmed from FIG. 12 that the similarity to the signals 1 and 2 is low at each time and the change with time is small. From the above, it can be confirmed that the proposed method can calculate the similarity of music. In FIG. 12, it can be confirmed that the similarity increases with respect to the time axis even in the calculation of the similarity of any of the signals 1, 2, and 3. Further, it can be confirmed that the change in the similarity decreases with the passage of time. These means that the similarity is obtained by route search using DTW, so that the accuracy of similarity calculation deteriorates for a short route. For this reason, it is considered necessary to use a signal having a sufficient signal length in calculating the similarity.

音名説明図である。It is a pitch name explanatory drawing. DTW(Dynamic Time Warping)技術の第1の説明図である。It is the 1st explanatory view of DTW (Dynamic Time Warping) technology. DTW技術の第2の説明図である。It is the 2nd explanatory view of DTW technology. 本発明のDTWの説明図である。It is explanatory drawing of DTW of this invention. 音高推定装置の構成図である。It is a block diagram of a pitch estimation apparatus. 各音名の周波数説明図である。It is frequency explanatory drawing of each pitch name. 本発明の手順概要説明図である。It is procedure outline explanatory drawing of this invention. 音名のエネルギー特性を取得する音名エネルギー取得部の構成図である。It is a block diagram of the pitch name energy acquisition part which acquires the energy characteristic of a pitch name. 2つの楽曲におけるメロディーの類似度を算出する本発明のメロディーの類似度算出方法の処理フローである。It is a processing flow of the melody similarity calculation method of the present invention for calculating the melody similarity between two music pieces. 2つの楽曲におけるメロディーの類似度を算出する本発明のメロディー類似度算出装置の構成図である。It is a block diagram of the melody similarity calculation apparatus of this invention which calculates the similarity of a melody in two music. 第1の実験結果である。It is a 1st experimental result. 第2の実験結果である。It is a 2nd experimental result.

符号の説明Explanation of symbols

51,71 参照側及び被参照側の音高推移取得部
52,72 参照側及び被参照側のエネルギー特性取得部
521〜5212 音名エネルギー取得部
53 音高の相違度計算部
54 演算部
551〜5512 各音名の相違度計算部
56、57 演算部
58 メロディー類似度計算部
51, 71 Reference-side and referenced-side pitch transition acquisition units 52, 72 Reference-side and referenced-side energy characteristic acquisition units 52 1 to 52 12 Pitch name energy acquisition unit 53 Pitch difference calculation unit 54 Calculation unit 55 1 to 55 12 Difference calculation unit 56, 57 for each pitch name Calculation unit 58 Melody similarity calculation unit

Claims (6)

2つの楽曲におけるメロディーの類似度を算出するメロディーの類似度算出方法において、
比較する2つの楽曲信号のそれぞれに含まれるベース音の時間的変化を示す音高推移特性を取得する第1ステップ、
前記各楽曲信号に含まれるベース音以外の楽器音のエネルギーの時間的変化を示すエネルギー特性を取得する第2ステップ、
各楽曲の音高推移特性の類似度を計算する第3ステップ、
各楽曲のベース音以外の楽器音のエネルギー特性の類似度を計算する第4ステップ、
前記各類似度を用いてメロディーの類似度を算出する第5ステップ、
を有することを特徴とするメロディーの類似度算出方法。
In the melody similarity calculation method for calculating the melody similarity between two songs,
A first step of acquiring a pitch transition characteristic indicating a temporal change of a bass sound included in each of two music signals to be compared;
A second step of acquiring energy characteristics indicating temporal changes in energy of instrument sounds other than the bass sound included in each music signal;
A third step of calculating the similarity of pitch transition characteristics of each song;
A fourth step of calculating the similarity of the energy characteristics of instrument sounds other than the bass sound of each song;
A fifth step of calculating the similarity of the melody using each of the similarities;
A melody similarity calculation method characterized by comprising:
前記第2ステップにおいて、各楽曲信号の音名毎に、該音名の周波数成分のエネルギー及びその2k倍(k=1,2、・・・)の周波数成分のエネルギーを合計したエネルギーの時間変化特性を求め、
前記第4ステップにおいて、2つの楽曲信号の音名毎のエネルギー特性の相違度を計算し、該音名毎の相違度を合計し、該合計値の逆数により前記エネルギー特性の類似度を計算する、
ことを特徴とする請求項1記載のメロディーの類似度算出方法。
In the second step, for each pitch name of each music signal, an energy time obtained by summing the frequency component energy of the pitch name and the frequency component energy of 2 k times (k = 1, 2,...) Seeking change characteristics,
In the fourth step, the energy characteristic dissimilarity for each pitch name of the two music signals is calculated, the dissimilarities for each pitch name are summed, and the energy characteristic similarity is calculated by the reciprocal of the total value. ,
The melody similarity calculation method according to claim 1, wherein:
前記第5ステップにおいて、前記音高推移特性の類似度とエネルギー特性の類似度を乗算してメロディーの類似度を算出する、
ことを特徴とする請求項1記載のメロディーの類似度算出方法。
In the fifth step, the similarity of the pitch transition characteristic is multiplied by the similarity of the energy characteristic to calculate the similarity of the melody.
The melody similarity calculation method according to claim 1, wherein:
2つの楽曲におけるメロディーの類似度を算出するメロディーの類似度算出装置において、
比較する2つの楽曲信号のそれぞれに含まれるベース音の時間的変化を示す音高推移特性を取得する音高推移取得部、
前記各楽曲信号に含まれるベース音以外の楽器音のエネルギーの時間的変化を示すエネルギー特性を取得するエネルギー特性取得部、
各楽曲の音高推移特性の類似度を計算する第1の類似度計算部、
各楽曲のベース音以外の楽器音のエネルギー特性の類似度を計算する第2の類似度計算部、
前記各類似度を用いてメロディーの類似度を算出するメロディー類似度算出部、
を有することを特徴とするメロディーの類似度算出装置。
In a melody similarity calculation device that calculates melody similarity between two songs,
A pitch transition acquisition unit that acquires a pitch transition characteristic indicating a temporal change of a bass sound included in each of two music signals to be compared;
An energy characteristic acquisition unit that acquires an energy characteristic indicating a temporal change in energy of an instrument sound other than a bass sound included in each music signal;
A first similarity calculator for calculating the similarity of the pitch transition characteristics of each song;
A second similarity calculator for calculating the similarity of the energy characteristics of instrument sounds other than the bass sound of each song;
A melody similarity calculator that calculates the similarity of the melody using each similarity,
A melody similarity calculation device characterized by comprising:
前記エネルギー特性取得部は、各楽曲信号の音名毎に、該音名の周波数成分のエネルギー及びその2k倍(k=1,2、・・・)の周波数成分のエネルギーを合計したエネルギーの時間変化特性を取得する複数の音名エネルギー取得部を備え、
前記第2の類似度計算部は、2つの楽曲信号の音名毎のエネルギー特性の相違度を計算する相違度計算部、音名毎の相違度を合計し、該合計値の逆数により前記エネルギー特性の類似度を計算する計算部、
を有することを特徴とする請求項4記載のメロディーの類似度算出装置。
For each pitch name of each music signal, the energy characteristic acquisition unit calculates the sum of the frequency component energy of the pitch name and the frequency component energy of 2 k times (k = 1, 2,...). It has a plurality of pitch name energy acquisition units that acquire time-varying characteristics,
The second similarity calculation unit is a difference calculation unit for calculating a difference in energy characteristics for each pitch name of two music signals, sums the difference for each pitch name, and calculates the energy by the reciprocal of the total value. A calculation unit for calculating the similarity of characteristics,
The melody similarity calculation apparatus according to claim 4, wherein:
前記メロディー類似度算出部は、前記音高推移特性の類似度とエネルギー特性の類似度を乗算してメロディーの類似度を算出する乗算部、
を備えることを特徴とする請求項4記載のメロディーの類似度算出装置。
The melody similarity calculation unit calculates a melody similarity by multiplying the similarity of the pitch transition characteristic and the similarity of the energy characteristic,
The melody similarity calculation device according to claim 4, further comprising:
JP2007100303A 2007-04-06 2007-04-06 Method and device for calculating degree of similarity of melody Pending JP2008257020A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007100303A JP2008257020A (en) 2007-04-06 2007-04-06 Method and device for calculating degree of similarity of melody

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007100303A JP2008257020A (en) 2007-04-06 2007-04-06 Method and device for calculating degree of similarity of melody

Publications (1)

Publication Number Publication Date
JP2008257020A true JP2008257020A (en) 2008-10-23

Family

ID=39980645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007100303A Pending JP2008257020A (en) 2007-04-06 2007-04-06 Method and device for calculating degree of similarity of melody

Country Status (1)

Country Link
JP (1) JP2008257020A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008257019A (en) * 2007-04-06 2008-10-23 Alpine Electronics Inc Melody estimation method and device
CN109478198A (en) * 2016-05-20 2019-03-15 弗劳恩霍夫应用研究促进协会 For determining the device of similarity information, the method for determining similarity information, the device for determining auto-correlation information, device and computer program for determining cross-correlation information
CN112837680A (en) * 2019-11-25 2021-05-25 马上消费金融股份有限公司 Audio keyword retrieval method, intelligent outbound method and related device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172693A (en) * 1998-12-01 2000-06-23 Nippon Telegr & Teleph Corp <Ntt> Device and method for retrieving music and recording medium with music retrieval program recorded therein
JP2001075985A (en) * 1999-09-03 2001-03-23 Sony Corp Music retrieving device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172693A (en) * 1998-12-01 2000-06-23 Nippon Telegr & Teleph Corp <Ntt> Device and method for retrieving music and recording medium with music retrieval program recorded therein
JP2001075985A (en) * 1999-09-03 2001-03-23 Sony Corp Music retrieving device

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
今野聡司、二反田直己、長谷山美紀: "メロディーとリズムに着眼した音楽信号の類似度に関する一考察", 電子情報通信学会技術研究報告, vol. 第106巻、第536号, JPN6011060743, 15 February 2007 (2007-02-15), JP, pages 125 - 128, ISSN: 0002074018 *
蔭山哲也、高島洋典: "ハミング歌唱を手掛りとするメロディ検索", 電子情報通信学会論文誌, vol. 第J77-D-II巻、第8号, JPN6009024719, 25 August 1994 (1994-08-25), JP, pages 1543 - 1551, ISSN: 0002074019 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008257019A (en) * 2007-04-06 2008-10-23 Alpine Electronics Inc Melody estimation method and device
CN109478198A (en) * 2016-05-20 2019-03-15 弗劳恩霍夫应用研究促进协会 For determining the device of similarity information, the method for determining similarity information, the device for determining auto-correlation information, device and computer program for determining cross-correlation information
JP2021157180A (en) * 2016-05-20 2021-10-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Similarity information determination device, similarity information determination method, auto-correlation information determination device, cross-correlation information determination device and computer program
JP7317888B2 (en) 2016-05-20 2023-07-31 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Similarity information determination device, similarity information determination method, autocorrelation information determination device, cross-correlation information determination device, and computer program
CN109478198B (en) * 2016-05-20 2023-09-22 弗劳恩霍夫应用研究促进协会 Apparatus, method and computer storage medium for determining similarity information
CN112837680A (en) * 2019-11-25 2021-05-25 马上消费金融股份有限公司 Audio keyword retrieval method, intelligent outbound method and related device

Similar Documents

Publication Publication Date Title
Turetsky et al. Ground-truth transcriptions of real music from force-aligned midi syntheses
US7035742B2 (en) Apparatus and method for characterizing an information signal
JP4243682B2 (en) Method and apparatus for detecting rust section in music acoustic data and program for executing the method
JP3964792B2 (en) Method and apparatus for converting a music signal into note reference notation, and method and apparatus for querying a music bank for a music signal
Bosch et al. Evaluation and combination of pitch estimation methods for melody extraction in symphonic classical music
McNab et al. Tune retrieval in the multimedia library
JPH1115468A (en) Method, device, and system for music retrieval, and recording medium
CN103559309A (en) Audio information retrieval and recommendation system based on GPU (graphics processing unit) acceleration
Elowsson et al. Modeling the perception of tempo
Heydarian Automatic recognition of Persian musical modes in audio musical signals
JP3730144B2 (en) Similar music search device and method, similar music search program and recording medium thereof
JP2008257020A (en) Method and device for calculating degree of similarity of melody
JP2604410B2 (en) Automatic music transcription method and device
Nagavi et al. An extensive analysis of query by singing/humming system through query proportion
JP3934556B2 (en) Method and apparatus for extracting signal identifier, method and apparatus for creating database from signal identifier, and method and apparatus for referring to search time domain signal
Delviniotis et al. Acoustic analysis of musical intervals in modern Byzantine Chant scales
JP4695781B2 (en) Method for encoding an acoustic signal
JP2007240552A (en) Musical instrument sound recognition method, musical instrument annotation method and music piece searching method
JP2004531758A5 (en)
JP4268328B2 (en) Method for encoding an acoustic signal
JP3776782B2 (en) Method for encoding an acoustic signal
JP2002244691A (en) Encoding method for sound signal
Lindenbaum et al. Musical features extraction for audio-based search
Antonela et al. Pre-AI Musical Style Analysis Via Their Spectral Distributions
JP4906565B2 (en) Melody estimation method and melody estimation device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100325

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120313