JP4906565B2 - メロディー推定方法及びメロディー推定装置 - Google Patents
メロディー推定方法及びメロディー推定装置 Download PDFInfo
- Publication number
- JP4906565B2 JP4906565B2 JP2007100302A JP2007100302A JP4906565B2 JP 4906565 B2 JP4906565 B2 JP 4906565B2 JP 2007100302 A JP2007100302 A JP 2007100302A JP 2007100302 A JP2007100302 A JP 2007100302A JP 4906565 B2 JP4906565 B2 JP 4906565B2
- Authority
- JP
- Japan
- Prior art keywords
- melody
- reference pattern
- appearance frequency
- pattern
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Description
R.B. Dannenberg and N. Hu, "Pattern discovery techniques for music audio", in Proc. Int. Conf. Music Information Retrieval, pp. 63-70, 2003 J.L. Hsu, C.C. Liu, and L.P. Chen, " Discovering nontrivial repeating patterns in music data," IEEE Trans. Multimedia, vol.3, no. 3, pp. 311-325, 2001
以上から本発明の目的は、上記提案技術の問題を解決するメロディーの推定手法及びメロディー推定装置を提供することである。
本発明の別の目的は、演奏速度の変化により生じるメロディーの伸縮や複数楽器の同時発音による影響を軽減し、高精度なメロディーの推定を可能にすることである。
前記第4ステップは、各相違度の逆数を時系列的に配列して出現頻度関数を算出するステップ、前記出現頻度関数における極大値を加算して前記出現頻度を計算するステップを備えている。
前記頻度算出部は、参照パターンと各被参照パターンの相違度を計算する相違度計算部、各相違度の逆数を時系列的に配列して出現頻度関数を算出する出現頻度関数算出部、前記出現頻度関数における極大値を加算して前記出現頻度を計算する出現頻度算出部を備えている。
本発明は、楽曲の構成要素であるフレーズを推定することでメロディーを推定する。フレーズとは、楽曲の構成における階層的な分割単位のひとつであり、楽曲中で主要なメロディーとなる。このため、フレーズ検出により楽曲中のメロディーが推定可能と考えられる。本発明は、フレーズの基礎となるベース音の音高推移に対し、下記の文献1におけるDTW(Dynamic Time Warping)技術を適用することにより、楽曲の時間軸方向の伸縮を許容したフレーズの検出を実現する。さらに、音楽信号における自己相関を用いてフレーズの持続時間を導入することで、楽曲中で主要なメロディーのみを推定可能とする。
文献1:A. Pikrakis and D.Kamarotos, "Recognition of isolated musical patterns using context dependent dynamic time wrapping," IEEE Trans. Speech and Audio Proceeding, vol. 11, no. 3, pp. 175-183, 2003
本発明の実施例を説明する前に、本発明で使用するDTW(Dynamic Time Warping)技術と音高推移特性の取得方法を説明する。
最初に、一般的なDTW について説明し、しかる後、本発明の類似度算出に用いるDTWの構成について説明する。
DTWとは、二つの一次元信号に伸縮を施し、信号間の相違度を算出する手法である。このため、時間軸方向に伸縮の生じる信号の比較に有効である。特に音楽信号では、演奏速度の変化が頻繁に発生することから、相違度より求められる類似度の算出にDTWを用いることは有効である。以降、相違度算出において、参照する信号を参照パターン、参照パターンとの相違度を求める信号を被参照パターンと呼ぶ。
まず、DTW によるパターン間の相違度の算出について説明する。長さI の一次元の参照パターンに含まれる各要素を順にa1,a2,…,aI とし、長さJ の被参照パターンに含まれる各要素を順にb1,b2,…,bJ と表現する。さらに、各パターンの位置集合を{a1,a2,…,aI},[ b1,b2,…,bJ ] で表現すると、パターンの各要素間の対応を決定する伸縮写像w:[1,2,…,I]→{1,2,…,J}は以下の性質を満たす。すなわち、
「wはパターンの始点、終点を一致させるもので、
「初期状態の最初の決定が何であろうとも、以後の決定は最初の遷移から生じた状態に関して適切でなければならない」
という最適性の原理に基づいて上記の経路探索問題を解く。すなわち、全体の経路長を部分の経路長の和で求める。部分の経路長は、経路上の格子点(aj,bi) におけるコストd (j,i)、及び2 つの格子点(aj,bi),(bj-1,ai-1)間の移動コストcj,i(j-1,i-1)に加え、cj,i(j,i-1),cj,i(j-1,i)の3つを用いて算出する。部分の経路長の算出法を図2に示す。ここで、格子点上のコストd (j,i)は参照パターンと被参照パターンの間で対応する要素が異なる場合のペナルティであり、たとえば、要素が同じであれば0、異なればαである。また、移動コストcj,i(j-1,i-1) は参照パターンと被参照パターンの間で伸縮が生じた場合、格子点(bj-1,ai-1) から格子点(bj,ai) に移動するペナルティであり、たとえばi=jであれば0、パターンのずれによりi≠jであればβである。
上記のコストに基づいて部分の経路長を算出し、経路全体のコストが最小となる部分経路を選択する。最後に、選択された部分経路毎のコストの和を算出することで、全体の経路長が得られる。以上より、パターンの部分毎の相違度からパターン全体の相違度を得ることが可能となる。
D(1,1)=d(1,1)
であり、格子点(1,2)の相違度D(1,2)は
D(1,2)=d(1,2)+c1,2(1,1,)+D(1,1)
であり、格子点(2,1)の相違度D(2,1)は
D(2,1)=d(2,1)+c2,1(1,1,)+D(1,1)
である。同様にして第1行目の格子点の相違度及び第1列目の格子点の相違度が求まる。そして、以後、順次(4)式により他の格子点の相違度が求まってゆき、最終的に格子点(5,6)の相違度D(5,6)が求まる。この相違度D(5,6)が図3の2つのパターンa:{a1,a2,…,a6},b:[ b1,b2,…,b5 ]の相違度となる。
音楽信号中に存在する楽器の音の基本周波数推定手法には、パワースペクトルにおける複数のピーク(極大値)を検出し、そのピークが一定時間連続して同一の周波数帯に存在する場合、その周波数を音高(基本周波数)であると判定する手法がある。しかしながら、かかる手法では、音符の持続時間を考慮しないため、音符が推移するとき、推移前後の音符により生成される音高の影響により推定精度が劣化する危険がある。又、上記手法は楽器が演奏される周波数帯を考慮せずに音高推定するため、楽曲が複数の楽器で構成される場合、パワースペクトルのピークが多数出現し、特定の楽器による主旋律の音高を得ることが困難になる。かかる問題は、楽曲のテンポに注目し、音符の持続時間を考慮することで、また、ベース音の音高(基本周波数)のみを推定することで解決できる。図4はかかる音高推定装置の構成図であり、下記文献2において提案されているものである。
文献2:今野聡司、他“音楽信号の低周波数域における楽曲の構造に着眼した時間周波数解析に関する検討"、映像情報メディア学会技術報告、vol.29, no.46, pp.13-16, 2005
パワースペクトルと持続時間σが求まれば、評価関数計算部5は次式
この音高推定装置により、例えば図7(A)に示すように楽曲の各時刻における音高(基本周波数)、すなわち、音高推移特性が得られる。
文献3:G.Tzanetakis and P.Cook, "Musical Genre Classification of Audio Signals" IEEE Trans. Speech and Audio Proceeding, vol.10, no.5, pp.293-302, 2002.
図5は本発明の楽曲中のフレーズに基づくメロディーの推定手法の処理フローである。
一般にフレーズは、数小節程度の短時間から構成される楽曲の一部であり、楽曲中で主要なメロディーとなることが知られている。このため、フレーズは一定の持続時間τを持ち、楽曲中に複数回出現する特徴を持つ。一方、メロディーは、楽曲の内容や構成に基づくため、主に楽曲構成の基礎となるベース音の推移により決定される特徴を持つ。
そこで、本発明は、上記のフレーズ及びメロディーの特徴に着眼することで、楽曲中のメロディーを推定する。すなわち、楽曲中に複数回出現し、かつ一定時間持続するベース音の推移のみをメロディーとして推定する。
各パターン切り出し後、参照パターンと各被参照パターンの相違度をDTW を用いて計算し、得られた複数の相違度に基づいて音高推移(楽曲信号中)における参照パターンの反復構造を抽出する(ステップ104)。ついで、反復の生じる参照パターンの出現頻度を算出し、出現頻度の時間軸方向に対する関数(出現頻度関数)として表現する(ステップ105)。すなわち、各相違度の逆数を求め、該逆数を時系列的に配列して出現頻度関数を作成し、該出現頻度関数における極大値を加算して出現頻度を計算する。
以後、参照パターンの切り出し位置を変えて該参照パターンが楽曲信号に出現する頻度を計算する処理を繰り返し、出現頻度が最大の参照パターンをメロディーであると推定する(ステップ106)。
以上により、本発明は、フレーズの持続時間に基づき、楽曲の時間軸方向における伸縮を許容したメロディーの推定を可能とする。また、楽曲構成の基礎となるベース音を用いることで、その他の楽器の影響を受けずにメロディーの推定を行うことが可能となる。
1) フレーズの持続時間の推定
楽曲よりフレーズの持続時間τ を推定する。この持続時間は、音楽信号より算出される自己相関関数において極大値かつ最大値を与える時間とする。すなわち、自己相関演算の時間幅を変え、自己相関が最大となる時間幅を求める。この時間幅は、楽曲中に最も多く存在するメロディーの持続時間を示すと考えられる。このため、楽曲中の主要な繰り返しが生じる時間のみをフレーズの持続時間として反映可能となる。
DTW を用いた相違度算出のため、楽曲のxs(s = 0,1,…,T−τ)以降から、単一の参照パターン、及び複数の被参照パターンを抽出する。参照パターンはxs,xs+1,…,xs+τとし、
で表す。また,被参照パターンはxt,xt+1,…,xT(t=s,…..,T−τ)であるとし、同様に
で表す。このように参照、及び被参照パターンを抽出すると、参照パターン
が、各被参照パターンの開始時刻t に出現する場合に相違度が小さくなる(類似度が大きくなる)。従って、楽曲の各時刻において、参照パターン
の存在の指標を与えることが可能となる。
(4)式 に示すDTW を用いて2)で抽出した各被参照パターンに対する参照パターンの相違度を算出し、それぞれ
と表す。なお、(4)式 におけるパターン不一致に対するコストd(j,i)は、参照、被参照パターンの対応する要素が異なる場合はα、同じ場合は0 とする。また、パターンのずれに対するコストcj,i は対応する要素がずれた場合はβ、ずれがない場合0 とする。DTW は、同一パターン間の音高の誤差や時間軸方向のずれを許容した相違度算出を可能とするため、高精度な参照パターンの検出を可能とする。
3)で得られた相違度
をD′(t) と書き改め、tの関数とみなす。さらに、D′(t) を用いて、参照パターン
の出現頻度の関数を次式で算出する。
と同一、または類似するパターンが出現した場合に高い値を示す。また、参照パターンと各時刻の信号の類似度に従って高い値を示す。従って、D(t) の推移を観察することで、参照パターンが楽曲中に出現する頻度を推定することが可能となる。
4)で得られた出現頻度関数D(t) において極大値を与える時刻を全て抽出し、各極大値の和を参照パターン
の出現頻度とする。これにより、参照パターンが楽曲中に多く出現する場合、または類似するパターンが出現する場合に参照パターンがフレーズとして推定される。
以上の手順を全てのs に適用し、出現頻度の高い参照パターンをメロディーと推定する。
本発明では、自己相関関数を用いて予めフレーズの持続時間を推定し、 DTW を用いたパターンの検出を行う。これにより、同一パターンの出現頻度だけでなく、類似するパターンの出現頻度も考慮したメロディーの検出が可能となる。
図6は本発明のメロディー検出装置であり、フレーズ持続時間算出部11は楽曲信号におけるフレーズの持続時間τを算出し、音高推移取得部12は楽曲信号に含まれるベース音の音高の時間的変化を示す音高推移特性を取得する。参照パターン/被参照パターン生成部13は前記音高推移特性より持続時間幅τの1つの参照パターンxs,xs+1,…,xs+τを切り出すと共に、時間的に連続して多数の被参照パターンxt,xt+1,…,xT(t=s,…..,T−τ)を切り出す。相違度計算部14は参照パターンと各被参照パターンの相違度を計算し、参照パターン出現頻度関数作成部15は、得られた多数の相違度の逆数を演算し、該逆数を時系列的に配列して出現頻度関数D(t)((6)式)を作成する。参照パターン出現頻度算出部16は出現頻度関数における極大値を加算して出現頻度を計算し、計算完了後、参照パターン/被参照パターン生成部13にパターン変更を指示する。これにより、参照パターン/被参照パターン生成部13は参照パターン、被参照パターンの切り出し位置を変え、相違度計算部14、参照パターン出現頻度関数作成部15、参照パターン出現頻度算出部16は新たなパターンに対して出現頻度を計算する。以後、同様にパターンを変えて上記処理を繰り返し、すべての参照パターンについて処理が完了すれば、メロディー推定部17は、計算された出現頻度のうち、出現頻度が最大となる参照パターンを求め、該参照パターンをメロディーであると推定する。
本発明の有効性を確認するため実験を行った。実験にはベース音が図7(A) の音高推移特性を示す60 秒のモノラル音楽信号を用いた。ただし、図中の斜線は実際にフレーズが存在する時間を示す。また、実験ではDTW におけるパラメータはα=3、β=1とした。
実験結果を図7(B)に示す。図7(B)は、各時刻からフレーズの持続時間τだけ持続するパターンの出現頻度(appearance)を示している。従って、値の高い位置からフレーズの持続時間だけ切り出した信号が楽曲に存在するメロディーと推定される。なお、τ= 11.8(sec)と推定された。
図7(B)より、フレーズの開始時刻0.0 秒,12.0 秒,23.3 秒,36.8秒において、パターンの出現頻度が極大となることが確認できる。また、図7(A) と比較することで、これらがフレーズの開始時刻であることが確認できる。これより、本発明は楽曲からフレーズの検出を可能とすることがわかる。しかしながら、47.2秒のフレーズの開始時刻は検出されていない。この未検出は、参照パターンの出現頻度が、パターンを切り出す時刻以降の出現頻度により算出されるためである。図7(B)に示す出現頻度が時間の経過に従って値が小さくなるのも同様の理由である。従って、楽曲中の全てのフレーズを推定するためには、他の時刻で推定されたフレーズと楽曲全体を用いて、さらに各時刻の類似度を算出する必要がある。
12 音高推移取得部
13 参照パターン/被参照パターン生成部
14 相違度計算部
15 参照パターン出現頻度関数作成部
16 参照パターン出現頻度算出部
17 メロディー推定部
Claims (4)
- 楽曲のメロディーを推定するメロディー推定方法において、
楽曲信号におけるフレーズの持続時間を算出する第1ステップ、
楽曲信号に含まれるベース音の音高の時間的変化を示す音高推移特性を取得する第2ステップ、
前記音高推移特性より前記持続時間幅の1つの参照パターンを切り出すと共に、時間的に連続する複数の被参照パターンを切り出す第3ステップ、
参照パターンと各被参照パターンの相違度を計算し、得られた複数の相違度に基づいて参照パターンが楽曲信号に出現する頻度を計算する第4ステップ、
前記参照パターンの切り出し位置を変えて該参照パターンが楽曲信号に出現する頻度を計算する処理を繰り返す第5ステップ、
出現頻度が最大の参照パターンをメロディーであると推定する第6ステップ、
を有することを特徴とするメロディー推定方法。 - 前記第4ステップは、
各相違度の逆数を時系列的に配列して出現頻度関数を算出するステップ、
前記出現頻度関数における極大値を加算して前記出現頻度を計算するステップ、
を備えたことを特徴とする請求項1記載のメロディー推定方法。 - 楽曲のメロディーを推定するメロディー推定装置において、
楽曲信号におけるフレーズの持続時間を算出するフレーズ持続時間算出部、
楽曲信号に含まれるベース音の音高の時間的変化を示す音高推移特性を取得する音高推移取得部、
前記音高推移特性より前記持続時間幅の1つの参照パターンを切り出すと共に、時間的に連続する複数の被参照パターンを切り出す参照パターン/被参照パターン生成部、
参照パターンと各被参照パターンの相違度を計算し、得られた複数の相違度に基づいて参照パターンが楽曲信号に出現する頻度を計算する頻度算出部、
前記参照パターンの切り出し位置を変えて計算された出現頻度のうち、出現頻度が最大の参照パターンをメロディーであると推定するメロディー推定部、
を有することを特徴とするメロディー推定装置。 - 前記頻度算出部は、
参照パターンと各被参照パターンの相違度を計算する相違度計算部、
各相違度の逆数を時系列的に配列して出現頻度関数を算出する出現頻度関数算出部、
前記出現頻度関数における極大値を加算して前記出現頻度を計算する出現頻度算出部、
を備えたことを特徴とする請求項3記載のメロディー推定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007100302A JP4906565B2 (ja) | 2007-04-06 | 2007-04-06 | メロディー推定方法及びメロディー推定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007100302A JP4906565B2 (ja) | 2007-04-06 | 2007-04-06 | メロディー推定方法及びメロディー推定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008257019A JP2008257019A (ja) | 2008-10-23 |
JP4906565B2 true JP4906565B2 (ja) | 2012-03-28 |
Family
ID=39980644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007100302A Expired - Fee Related JP4906565B2 (ja) | 2007-04-06 | 2007-04-06 | メロディー推定方法及びメロディー推定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4906565B2 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3844627B2 (ja) * | 1999-04-12 | 2006-11-15 | アルパイン株式会社 | 音楽検索システム |
JP3612272B2 (ja) * | 2000-10-13 | 2005-01-19 | 日本電信電話株式会社 | 音楽情報検索装置、音楽情報検索方法および音楽情報検索用プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4241445B2 (ja) * | 2004-03-10 | 2009-03-18 | 日本電信電話株式会社 | 音楽内容検索装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
DE102004047068A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Gruppieren von zeitlichen Segmenten eines Musikstücks |
JP4465626B2 (ja) * | 2005-11-08 | 2010-05-19 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
JP2008257020A (ja) * | 2007-04-06 | 2008-10-23 | Alpine Electronics Inc | メロディーの類似度算出方法及び類似度算出装置 |
-
2007
- 2007-04-06 JP JP2007100302A patent/JP4906565B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008257019A (ja) | 2008-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bosch et al. | Evaluation and combination of pitch estimation methods for melody extraction in symphonic classical music | |
JP4243682B2 (ja) | 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム | |
Benetos et al. | Polyphonic music transcription using note onset and offset detection | |
Klapuri | Musical meter estimation and music transcription | |
Collins | Using a Pitch Detector for Onset Detection. | |
US9378719B2 (en) | Technique for analyzing rhythm structure of music audio data | |
JP5127982B2 (ja) | 音楽検索装置 | |
Dannenberg et al. | Discovering musical structure in audio recordings | |
JP4622199B2 (ja) | 楽曲検索装置及び楽曲検索方法 | |
Davies et al. | Causal Tempo Tracking of Audio. | |
Dannenberg | Listening to “Naima”: An automated structural analysis of music from recorded audio | |
Gainza et al. | Tempo detection using a hybrid multiband approach | |
Jehan | Event-synchronous music analysis/synthesis | |
JP2007072023A (ja) | 情報処理装置及び情報処理方法 | |
Li et al. | Pitch detection in polyphonic music using instrument tone models | |
Nagavi et al. | An extensive analysis of query by singing/humming system through query proportion | |
Van Balen | Automatic recognition of samples in musical audio | |
Barbancho et al. | Transcription of piano recordings | |
JP4906565B2 (ja) | メロディー推定方法及びメロディー推定装置 | |
Zenz et al. | Automatic chord detection incorporating beat and key detection | |
Tang et al. | Melody Extraction from Polyphonic Audio of Western Opera: A Method based on Detection of the Singer's Formant. | |
JP2008257020A (ja) | メロディーの類似度算出方法及び類似度算出装置 | |
CN113689836A (zh) | 一种将音频转换成音符并显示的方法及终端 | |
Özaslan et al. | Identifying attack articulations in classical guitar | |
Ong et al. | Music loop extraction from digital audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100325 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110517 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120110 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |