JP4243682B2 - 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム - Google Patents

音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム Download PDF

Info

Publication number
JP4243682B2
JP4243682B2 JP2003342676A JP2003342676A JP4243682B2 JP 4243682 B2 JP4243682 B2 JP 4243682B2 JP 2003342676 A JP2003342676 A JP 2003342676A JP 2003342676 A JP2003342676 A JP 2003342676A JP 4243682 B2 JP4243682 B2 JP 4243682B2
Authority
JP
Japan
Prior art keywords
section
repeated
integrated
music
chorus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003342676A
Other languages
English (en)
Other versions
JP2004233965A (ja
Inventor
真孝 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2003342676A priority Critical patent/JP4243682B2/ja
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to US10/532,400 priority patent/US7179982B2/en
Priority to PCT/JP2003/013563 priority patent/WO2004038694A1/ja
Priority to KR1020057007022A priority patent/KR100836574B1/ko
Priority to AU2003275618A priority patent/AU2003275618A1/en
Priority to EP03758828A priority patent/EP1577877B1/en
Priority to AT03758828T priority patent/ATE556404T1/de
Publication of JP2004233965A publication Critical patent/JP2004233965A/ja
Application granted granted Critical
Publication of JP4243682B2 publication Critical patent/JP4243682B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、市販のCD(compact disc)などに収録されている、歌曲や複数種類の楽器音を同時に含む楽曲についてのアナログまたはデジタル音楽音響信号やMIDIデータ(標準MIDIファイル)等の各種の再生可能な音楽音響データを対象にして、サビ(chorus,refrain)区間を検出する方法及び装置並びにこの方法をコンピュータを用いて実現するためのプログラムに関するものである。
従来のサビ検出方法の一つでは、楽曲の音響信号の代表的部分として、サビを指定した長さだけ不完全に一箇所切り出す。Logan等〔非特許文献1〕は、切り出した短いフレーム(1秒間)にその部分の特徴量に基づいてラベルを付与し、最頻出のラベルをもつフレームをサビとみなす方法を提案した。このラベルの付与には、各区間の特徴量間の類似度に基づくクラスタリングや隠れマルコフモデルを用いていた。また、Bartsch等〔非特許文献2〕は、ビートトラッキングの結果に基づいて楽曲を拍ごとの短いフレームに分割し、それらの特徴量間の類似度が、指定した一定の長さの区間に渡って最も高い箇所を、サビとして切り出す方法を提案した。また、Foote〔非特許文献3〕は、非常に短い断片(フレーム)ごとの特徴量間の類似度に基づく境界検出の応用例として、サビが切り出せる可能性を指摘していた。
一方、標準MIDIファイル等の音符相当表現を対象とした従来技術〔非特許文献4および5〕もあるが、この技術は音源分離が困難な混合音にはそのまま適用できなかった。
さらに関連技術として、非特許文献6以下の公知技術がある。
Logan,B.and Chu,S.:Music Summarization Using Key Phrases,Proc.of ICASSP 2000,II−749−752(2000). Bartsch,M.A.and Wakefield,G.H.:To Catch A Chorus:Using Chroma−based Representations for Audio Thumbnailing,Proc.of WASPAA 2001,15−18(2001). Foote,J.:Automatic Audio Segmentation Using A Measure of Audio Novelty,Proc.of ICME 2000,I−452−455(2000). Meek,C.and Birmingham,W.P.:Thematic Extractor,Proc.of ISMIR 2001,119−128(2001). 村松純:歌謡曲における「さび」の楽譜情報に基づく特徴抽出−小室哲哉の場合−,情処研報 音楽情報科学,2000−MUS−35−1,1−6(2000). 大津展之:判別および最小2乗規準に基づく自動しきい値選定法,信学論(D),J63−D,4,349−356(1980). Shepard,R.N.:Circularity in Judgments of Relative Pitch,J.Acoust.Soc.Am.,36,12,2346−2353(1964). Wakefield,G.H.:Mathematical Representation of Joint Time−Chroma Distributions,SPIE 1999,637−645(1999). Savitzky,A.and Golay,M.J.:Smoothing and Differentiation of Data by Simplified Least Squares Procedures,Analytical Chemistry,36,8,1627−1639(1964). 後藤真孝,橋口博樹,西村拓一,岡隆一:RWC研究用音楽データベース;ポピュラー音楽データベースと著作権切れ音楽データベース,情処研報 音楽情報科学,2001−MUS−42−6,35−42(2001). van Rijsbergen,C.J.:Information Retrieval,Butterworths,second edition(1979). 平田圭二,松田周:パピプーーン:GTTMに基づく音楽要約システム,情処研報 音楽情報科学,2002−MUS−46−5,29−36(2002).
しかし、上記したようないずれの従来の技術では、楽曲中に何度も出現するサビのどこか一箇所だけを検出していた。また、従来の技術では、常に指定した一定の長さを切り出して提示するだけで、サビの区間がどこからどこまでかは推定していなかった。また、サビが繰り返されるときに転調することがあるが、従来の技術では、いずれも転調を考慮していない。転調後のサビ区間は、転調前のサビ区間との間の特徴量の類似度が低くなるため、サビとして検出することができなかった。
本発明の目的は、従来の技術の問題点を克服し、楽曲中に出現するサビ区間を網羅的に検出することができる音楽音響データ中のサビ区間を検出する方法及び装置並びにプログラムを提供することにある。
本発明の目的は、1つのサビ区間がどこからどこまでかを検出することができる音楽音響データ中のサビ区間を検出する方法及び装置並びにプログラムを提供することにある。
本発明の他の目的は、転調されたサビ区間も検出できる音楽音響データ中のサビ区間を検出する方法及び装置並びにプログラムを提供することにある。
本発明の他の目的は、サビ区間だけでなく、その他の繰り返し区間も表示手段に表示することができる音楽音響データ中のサビ区間を検出する装置を提供することにある。
本発明のさらに他の目的は、サビ区間だけでなく、その他の繰り返し区間も再生することができる音楽音響データ中のサビ区間を検出する装置を提供することにある。
サビは、楽曲全体の構造の中で、一番代表的な盛り上がる主題の部分である。通常、サビは楽曲中で最も多く繰り返され、印象に残るため、専門的な音楽の訓練を受けていない人が音楽を聴いたときでも、どこがサビであるかを容易に判断できる。さらに、サビ検出の結果は、様々な応用において有用である。例えば、多数の楽曲をブラウジングするときや、楽曲検索システムにおいて検索結果を提示するときに、サビの冒頭を短く再生(プレビュー)できると便利である(画像のサムネールの音楽版とみなせる)。また、歌声等を検索キーとした楽曲検索では、検索対象をサビ区間に限定すると精度と効率が上がる。そして本発明のサビ検出技術を実施すれば、サビ区間を自動的にインデキシングすることも可能になる。
本発明の方法は、ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出するために、特徴量抽出ステップと、類似度演算ステップと、繰り返し区間リストアップステップと、統合繰り返し区間決定ステップと、サビ区間決定ステップとを実行する。
最初に、特徴量抽出ステップでは、音楽音響データから所定の時間単位で音響特徴量を順次求める。具体的な実施の形態では、入力されてくる音楽音響データについて、所定のサンプリング幅を持って重複しながらデータのサンプリングを行うハニング窓等のサンプリング技術を用いて、所定の時間単位(例えば80ms)で、サンプリングを行う。そしてサンプリングしたデータについて、音響特徴量を求める。音響特徴量の求め方は任意である。例えば、特徴量抽出ステップで求める音響特徴量として、1オクターブの範囲に含まれる12の音名の周波数のパワーを複数のオクターブに渡ってそれぞれ加算して得た12次元クロマベクトルを用いることができる。12次元クロマベクトルを音響特徴量として用いると、複数オクターブに渡る楽曲の特徴量を抽出できるだけでなく、転調した音楽音響データから対比が可能な特徴量として抽出することができる。
次に、類似度演算ステップでは、音楽音響データについて求めた複数の音響特徴量の相互間の類似度を求める。類似度を求める際に用いる演算式は、任意であり、公知の類似度演算式のいずれを用いてもよい。そして繰り返し区間リストアップステップでは、類似度に基づいて音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする。類似度演算ステップで、今回求めた音響特徴量と先に求めた全ての音響特徴量との間の類似度を求めると、リアルタイムにサビ区間を検出することが可能になる。
より具体的な、類似度演算ステップでは、時刻tのクロマベクトル(音響特徴量)とそれよりラグl(0≦l<t)(lはアルファベットLの小文字)だけ過去の全てのクロマベクトルとの類似度を求めることになる。この場合、繰り返し区間リストアップステップでは、一方の軸を時間軸とし他方の軸をラグ軸とし、予め定めた時間長さ以上類似度が予め定めた閾値以上ある場合には類似度が予め定めた閾値以上である部分の長さに対応する時間長さを有する類似線分を時間軸を基準にした繰り返し区間としてリストアップする。なおこのリストアップは、演算上のリストアップであればよく、実際的に表示手段上にリストアップする必要はない。したがって時間軸及びラグ軸も理論上の軸であればよい。ここで「類似線分」の概念は、本願明細書において定義するものである。類似線分は、予め定めた時間長さ以上類似度が予め定めた閾値以上あるときに、閾値以上ある類似度の部分の長さに対応する時間長さを有する線分として定義される。閾値を適宜に変更または調整することにより、ノイズを除去することが可能になる。なお閾値を設けたことによりノイズは除去できるものの、本来現れるべき類似線分が現れなくなる場合もある。しかしそのような場合であっても、今回の特徴量と過去のすべての特徴量との間の類似度についての類似線分をリストアップするため、後に他の類似線分との関係から、本来現れるべき類似線分がないことを探索することができるので、リストアップの精度が下がることはない。
統合繰り返し区間決定ステップでは、リストアップされた複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある1以上の繰り返し区間を統合して一つの統合繰り返し区間を決定する。統合繰り返し区間決定ステップでは、時間軸の共通区間に存在するリストアップした類似線分どうしをそれぞれグルーピングにより統合して統合繰り返し区間と定める。そして複数の統合繰り返し区間を、共通区間の長さとグルーピングされる類似線分のラグ軸で見た位置関係とに基づいて複数種類の統合繰り返し区間列に分類する。より具体的には、リストアップされた複数の繰り返し区間の相互関係は、時間軸上の共通区間に対応する過去のラグ位置に1以上の繰り返し区間(類似線分)が存在するか否かと、そのラグ位置に対応する過去の時間帯において繰り返し区間(類似線分)が存在するか否かの関係である。これらの関係に基づいて、このステップでは、共通区間に対応する過去のラグ位置に1以上の繰り返し区間(類似線分)がある場合に、それらをその共通区間に繰り返し区間(類似線分)があるものと決定して、その繰り返し区間を統合繰り返し区間とする。その上で、統合繰り返し区間決定ステップでは、決定した複数の統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する。この分類化は、共通区間の長さの共通性と、共通区間に存在する繰り返し区間(類似線分)の位置関係と数との関係に基づいて行われる。この分類化により、種類の異なる繰り返し区間の構造化が実現できる。
なお統合繰り返し区間を用いると、類似度を求めた2番目以降の繰り返し区間に対応する統合繰り返し区間は求まるものの、最初の繰り返し区間が統合繰り返し区間列には含まれないことになる。そこで統合繰り返し区間決定ステップでは、統合繰り返し区間に含まれない最初の繰り返し区間を補足して統合繰り返し区間列を作成するようにしてもよい。
そしてサビ区間決定ステップで、複数種類の統合繰り返し区間列からサビ区間を決定する。このサビ区間決定ステップでは、例えば、統合繰り返し区間列に含まれる統合繰り返し区間の類似度の平均と、数と長さとに基づいて該統合繰り返し区間列に含まれる統合繰り返し区間のサビらしさを求める。そして、最もサビらしさの高い統合繰り返し区間列に含まれる統合繰り返し区間をサビ区間として決定する。なおサビらしさの定め方は、一つに限定されるものではなく、よりよいサビらしさの基準に基づいて判断すれば、それだけ検出精度が高まるものは勿論である。
なお楽曲が転調を含んでいる場合には、次のようにする。まず特徴量抽出ステップでは、12次元クロマベクトルからなる音響特徴量を1転調幅ずつ11転調幅までシフトして得た転調幅の異なる12種類の音響特徴量を求める。次に類似度演算ステップでは、今回求めた音響特徴量と先に求めた全ての12種類の音響特徴量との間の類似度を、時刻tの今回の音響特徴量を表す12次元クロマベクトルとそれよりラグl(0≦l<t)だけ過去の全ての12種類の音響特徴量を表す12次元クロマベクトルとの間の類似度として演算する。そして繰り返し区間リストアップステップでは、12種類の音響特徴量ごとに、一方の軸を時間軸tとし他方の軸をラグlとし、予め定めた時間長さ以上類似度が予め定めた閾値以上ある場合には類似度が予め定めた閾値以上である部分の長さに対応する時間長さを有する類似線分を時間軸を基準にした繰り返し区間としてそれぞれ12種類のリストをリストアップする。
統合繰り返し区間決定ステップでは、12種類のリストごとに、時間軸の共通区間に存在するリストアップした類似線分どうしをそれぞれグルーピングにより統合して統合繰り返し区間と定める。さらに12種類のリストについて定めた複数の統合繰り返し区間を共通区間の時間軸上の存在位置及び長さと、グルーピングされる類似線分のラグ軸で見た位置関係とに基づいて複数種類の転調を考慮した複数種類の統合繰り返し区間列に分類化する。このようにすると、転調を含んだ音楽音響データであっても、転調した部分の特徴量を11段階の転調幅のシフトでずらして類似度を求めるため、転調した部分の特徴量を正しく抽出することができる。その結果、繰り返し区間が転調されている場合でも、同じ特徴(Aメロ、Bメロ,サビ)の繰り返し区間であるか否かの判定を高い精度で行うことが可能になる。
ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出して表示手段に表示する本発明のサビ区間検出装置は、音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出手段と、音楽音響データについて求めた複数の音響特徴量の相互間の類似度を求める類似度演算手段と、類似度に基づいて音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップ手段と、リストアップされた複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある1以上の繰り返し区間を統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定手段と、複数種類の統合繰り返し区間列からサビ区間を決定するサビ区間決定手段とを具備する。サビ区間を含む統合繰り返し区間列または複数種類の統合繰り返し区間列は、表示手段に表示される。そしてサビ区間を含む統合繰り返し区間列が他の統合繰り返し区間列とは異なる表示態様で表示される。このようにすると検出したサビ区間を他の繰り返し区間とは区別して明瞭に表示することができる。
なお本発明は、統合繰り返し区間列を表示手段に表示せずに、音響の再生手段でサビ区間を含む統合繰り返し区間列またはその他の統合繰り返し区間列を選択的に再生するようにしてもよいのは勿論である。
ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出する方法をコンピュータを用いて実現するために用いられるプログラムは、音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出ステップと、音楽音響データについて求めた複数の音響特徴量の相互間の類似度を求める類似度演算ステップと、類似度に基づいて音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップステップと、リストアップされた前記複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある1以上の繰り返し区間を統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定ステップと、複数種類の統合繰り返し区間列からサビ区間を決定するサビ区間決定ステップとを前記コンピュータに実行させるように構成されている。
本発明によれば、楽曲中に出現するサビ区間を網羅的に検出することができる。また本発明によれば、1つのサビ区間がどこからどこまでかを検出することができる。さらに本発明によれば、転調されたサビ区間も検出できる。また本発明によれば、サビ区間だけでなく、その他の繰り返し区間も再生し且つ表示手段にそれぞれ表示することが可能である。
以下、本発明の実施の形態について詳細に説明する。
まず、サビ区間を検出する場合の問題点について説明する。
サビ区間の検出のためには、楽曲一曲分の音響信号データ中に含まれるすべてのサビ区間の開始点と終了点とを求める必要がある。サビは、コーラス(chorus)あるいはリフレイン(refrain)とも呼ばれる。サビは、楽曲構造上、主題(theme)を提示している部分を指す。そしてサビは、ときには伴奏の変化やメロディーの変形を伴いながら、通常は、楽曲中で最も多く繰り返される。例えば、典型的なポピュラー音楽の楽曲構造は、
{イントロ、サビ}
((→第1の序奏部分(Aメロ)〔→第2の序奏部分(Bメロ)〕)×n1→サビ)×n2
〔→間奏〕〔→第1の序奏部分(Aメロ)〕〔→第2の序奏部分(Bメロ)〕→サビ×n3
〔→間奏→サビ×n4 〕〔→エンディング〕
のようになっている。このようにサビは、他のメロディよりも繰り返し回数が多くなっている。ここで、{a,b}はaかbかのいずれか一方、〔a〕はaが省略可能であることを表す記号である。そしてn1 ,n2 ,n3 ,n4 は繰り返し回数を表す正の整数である(多くの場合、1≦n1 ≦2,1≦n2 ≦4,n3 ≧0,n4 ≧0)。イントロ(introduction)は前奏部分、Aメロ、Bメロ(verse A,verse B)は序奏部分を指す。
楽曲中で通常、最も多く繰り返されるサビの区間を検出するには、基本的には、ある楽曲中に含まれる複数の区間の繰り返し(繰り返し区間)を見つけ出し、最も出現頻度の大きい区間をサビ区間とすればよい。しかし、「繰り返し区間」とは言っても音響信号が完全に一致する状態で区間が繰り返される場合は希である。そのため、人間にとっては容易に繰り返しと分かる場合でも、計算機にとってはその判断が難しい。その際の主要な課題は、以下のようにまとめられる。
課題1:特徴量と類似度の検討
ある区間の音響信号とその区間の繰り返し区間と考えられる他の区間の音響信号とが完全に一致しない場合には、ある区間が繰り返されているということを判断するために、各区間から求めた特徴量相互間の類似度を判断しなければならない。その際、繰り返しがあると判断できるためには、繰り返す度にその区間内の音響信号の細部が多少異なっても(メロディーが変形したり、伴奏のベース、ドラム等が演奏されなくなったりしても)、各区間の特徴量間の類似度は高い必要がある。しかしながら、各区間のパワースペクトルを直接特徴量とした場合には、この類似度の判断が困難である。
課題2:繰り返しの判断基準
類似度がどれくらい高ければ繰り返しとみなせるかという基準は、楽曲に依存して変わる。例えば、似た伴奏が多用される楽曲では、全体的に多くの部分の類似度が高くなる。そのため、比較する各区間の類似度がかなり高い類似度でなければ、それらの区間がサビに関連する繰り返し区間であると判断しない方がよい。逆に、サビが繰り返されるときに、伴奏が大きく変化するような楽曲では、比較する各区間の類似度がやや低くても繰り返し区間であると判断する方がよい。こうした基準を、ある楽曲に特化して人間が手作業で設定するのは容易である。しかしながら、幅広い楽曲からサビ区間を自動的に検出するためには、サビ区間の検出の基準を、現在処理中の楽曲に応じて自動的に変える必要がある。このことは、あるサビ区間の検出方法の性能を評価する場合に、その方法で数曲のサンプル曲についてサビ区間の検出ができたからといって、必ずしもその方法に汎用性があるとは限らないということを意味する。
課題3:繰り返し区間の端点(開始点と終了点)の推定
サビ区間の長さ(区間長)は楽曲ごとに異なるため、各区間長と共に、どこからどこまでがサビであるかを推定しなければならない。その際、サビの前後の区間も一緒に繰り返すことがあるため、端点の推定は、楽曲中の様々な箇所の情報を統合して行う必要がある。例えば、(ABCBCC)のような構造の楽曲の場合(A,B,CはそれぞれAメロ、Bメロ、サビの区間とする)、単純に繰り返し区間を探すと、(BC)が一つのまとまった区間として見つかる。この場合、最後のCの繰り返し情報に基づいて、(BC)の内のCの区間の端点を推定する、といった処理が求められる。
課題4:転調を伴う繰り返しの検出
転調後の区間は、一般に特徴量が大きく変わるために、転調前の区間との類似度が低くなり、繰り返し区間と判断するのが困難となる。特に、転調は曲の後半のサビの繰り返しで起きることが多く、そうした繰り返しを的確に判断することは、サビの検出において重要な課題である。
本発明では、以上の課題を解決しつつ、基本的に楽曲中で多く繰り返される区間をサビとして検出する。以下の実施の形態の説明においては、入力として、音楽のモノラルの音響信号を対象とし、混合音中の楽器の数や種類には特に制限を設けない。ステレオ信号の場合には、左右を混合してモノラル信号に変換するものとする。以下の実施の形態では、以下のことを仮定する。
仮定1:演奏のテンポは一定でなく変化してもよい。しかしサビの区間は、毎回ほぼ類似したテンポで、一定の長さの区間として繰り返し演奏される。その区間は長い方が望ましいが、区間長には、許容される適切な範囲(現在の実装では、7.7〜40sec)がある。
仮定2:前述した楽曲構造の例の、
((→Aメロ〔→Bメロ〕)×n1 →サビ)×n2
に相当するような、長い繰り返しがある場合、その末尾の部分がサビである可能性が高い(図25参照)。
仮定3:サビ区間内では、その区間の半分程度の長さの短い区間が繰り返されることが多い。そのため、ある繰り返し区間内にさらに区間の短い繰り返し区間がある場合には、その区間がサビである可能性が高い(図26参照)。
以上は、多くのポピュラー音楽に当てはまる妥当な仮定である。本実施の形態においては、上記課題と仮定を前提にしている。
図1は本発明のサビ区間検出方法で、転調を伴う楽曲中のサビ区間を検出する一実施の形態の方法の処理ステップを示すフローチャートである。
(1)本実施の形態では、まず、音響信号(音響信号データ)を得る(ステップS1)。
(2)次に、その入力音響信号の各フレームから、細部の変形の影響を受け難い12次元の特徴量(12音名各々の周波数のパワーを複数のオクターブに渡って加算した12次元クロマベクトル)を抽出する(ステップS2)。
(3)その抽出された12次元クロマベクトルの特徴量と過去の全フレームの特徴量との間の類似度を計算する(課題1に対応)(ステップS3−1)。次に、判別基準に基づく自動閾値選定法〔非特許文献6〕によって、繰り返しの判断基準を楽曲ごとに自動的に変えながら、繰り返し区間のペアをリストアップする(課題2に対応)(ステップS3−2)。そして、それらのペアを楽曲全体に渡って統合することで、繰り返し区間のグループを作り、それぞれの端点も適切に求める(課題3に対応)(ステップS3−3)。
(4)ここで、転調を考慮に入れた場合、クロマベクトルの各次元は音名に対応しているため、その転調幅に応じて次元間で値をシフトさせた転調後のクロマベクトルと、転調前のクロマベクトルとは値が近くなる。そこで、そのように12種類の転調先を考慮して、転調前後のクロマベクトルの類似度を計算する。それを出発点として、上記の繰り返し区間の検出処理も12種類分行い、それら全ての繰り返し区間を統合する(課題4に対応)(ステップS4)。
(5)最終的に、得られた各区間のサビらしさを上記の仮定に基づいて評価する(ステップS5)。
(6)最もサビらしい区間の一覧を出力する(ステップS6)。
(7)同時に、中間結果として得られた繰り返し構造も出力する(ステップS7)。
また図2は、本発明のサビ区間を検出する装置の実施の形態の一例の構成の概略を示すブロック図である。この装置では、図1の方法も当然にして実現可能である。さらに図3は、図2の装置をコンピュータを利用して実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。図2の装置の構成を説明しながら、併せて図1のステップと図3のフローチャートのステップについて説明する。
まずサンプリング手段1は、所定のサンプリング幅を持って重複しながらデータのサンプリングを行うハニング窓等のサンプリング技術を用いて、所定の時間単位(例えば80ms)で、入力されてくる音楽音響データについてサンプリングを行う(図3のサンプリングステップST1)。データが音響信号であれば、サンプリングされるデータは、非常に短い断片(フレーム)の音響信号である。
特徴量抽出手段3は、サンプリング手段1で時間単位でサンプリングしたデータについて、音響特徴量を求める(図3の特徴量抽出ステップST2)。ここで特徴量抽出手段3で採用する音響特徴量の求め方は任意である。この実施の形態では、特徴量抽出ステップで求める音響特徴量として、1オクターブの範囲に含まれる12の音名の周波数のパワーを複数のオクターブに渡ってそれぞれ加算して得た12次元クロマベクトル(chroma vector)を用いる。
ここで図4及び図5を用いて12次元クロマベクトルについて説明する。クロマベクトルは、非特許文献7に開示されているクロマ(音名,chroma)を周波数軸として、パワーの分布を表現した特徴量である。ここでクロマベクトルは、非特許文献8のchromaspectrumのクロマの軸を12個の音名に離散化したものに近いものである。図4に示すように、非特許文献7によれば、音楽的な音高の知覚(音楽的高さと音色的高さ)は上に昇る螺旋状の構造を持つ。そして音楽的な音高の知覚は、この螺旋を真上から見た円周上のクロマと、横から見たときの縦方向のハイト(オクターブ位置,height)の二つの次元で表現することができる。クロマベクトルでは、パワースペクトルの周波数軸がこの螺旋状の構造に沿っていると見なし、螺旋をハイト軸方向につぶして円にすることで、周波数スペクトルを円周上(1周が1オクターブ)のクロマの軸だけで表現する。つまり、異なるオクターブの同じ音名の位置のパワーを加算して、クロマ軸上のその音名の位置のパワーとする。
本実施の形態では、図5に示すように、このクロマベクトルを12次元で表し、クロマベクトルの各次元の値が平均律の異なる音名のパワーを表すものとする。図5では、6オクターブの同じ音名の位置のパワーをそれぞれ加算してクロマ軸上のその音名の位置のパワーとする状態を示している。12次元のクロマベクトルを得るためには、まず時刻tの入力音響信号に対する短時間フーリエ変換(STFT)を計算する。その後、短時間フーリエ変換(STFT)で求めた演算結果を、周波数軸を対数スケールの周波数fに変換して、パワースペクトルΨp(f,t)を求める。対数スケールの周波数はcentの単位で表し、Hzで表された周波数fHzを、次のようにcentで表された周波数fcentに変換する。
fcent=1200log2〔fHz/(440×23/12−5)〕 …(1)
平均律の半音は100centに相当し、1オクターブは1200centに相当する。そのため、音名c(cは1≦c≦12の整数で、クロマに対応)、オクターブ位置h(ハイトに対応)の周波数Fc,hcentは、
c,h=1200h+100(c−1) …(2)
と表せる。
この対数スケール軸のパワースペクトルΨp(f,t)から音名cの位置のパワーをOctからOct(現実の実装では、3〜8)のオクターブ範囲で加算して、12次元クロマベクトルの各次元vc(t)を下記式(3)で求める。
Figure 0004243682
を求める。ここで、BPFc,h(f)は、音名c、オクターブ位置hの位置のパワーを通過させるバンドパスフィルタであり、下記式(4)のように、ハニング窓の形状で定義する。
Figure 0004243682
こうして得られたクロマベクトルを特徴量とすることで、繰り返す度に繰り返し区間のメロディーや伴奏が多少変わっても、繰り返し区間全体の響き(同時に鳴っている音名の構成)が類似していれば、その区間は繰り返し区間として検出できる。さらに、後述するように、類似度の工夫によって転調された繰り返し区間の検出も可能となる。
なお現在作成している装置では、音響信号を標本化周波数16kHz、量子化ビット数16bitでA/D変換している。そして窓関数h(t)として窓幅4096点のハニング窓を用いた短時間フーリエ変換(STFT)を、高速フーリエ変換(FFT)で計算する。高速フーリエ変換(FFT)のフレームは、1280点ずつシフトし、すべての処理の時間単位(1フレームシフト)を80msとする。
図2に戻って、上記のようにして求めた特徴量は、特徴量記憶手段5に記憶される。そして類似度演算手段7は、それまでに入力された音楽音響データについて求めた複数の音響特徴量の相互間の類似度を求める(図3の類似度演算ステップST3)。類似度を求める際に用いる演算式は、任意であり、公知の類似度演算式のいずれを用いてもよい。そして繰り返し区間リストアップ手段9は、類似度に基づいて音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする(図3の繰り返し区間リストアップステップST4)。
類似度演算手段7では、今回求めた音響特徴量と先に求めた全ての音響特徴量との間の類似度を求めている。これによってリアルタイムにサビ区間を検出することが可能になる。具体的な類似度演算手段7では、図6及び図7に示すように、時刻tの12次元クロマベクトル(音響特徴量)とそれよりラグl(0≦l<t)(lはアルファベットLの小文字)だけ過去の全ての12次元クロマベクトルとの間の類似度を求めることになる。12次元クロマベクトル間の類似度の計算(図3のステップST3)について説明する。
時刻tの12次元クロマベクトルv(t)(但しここでvはベクトル)と、それよりラグ(lag)l(0≦l≦t)だけ過去の12次元クロマベクトルv(t−l)(但しここでvはベクトル)との類似度r(t,l)を下記式(5)に基づいて求める。
Figure 0004243682
上記式(5)において、分母の(12)1/2は、1辺の長さがラグlの12次元超立方体の対角線の長さであることを示している。上記式(5)中の分子中の下記式(6)は、常にその超立方体の原点を含まない面上に位置するため、0≦r(t,l)≦1となる。
Figure 0004243682
すなわち類似度r(t,l)は、各時刻tのクロマベクトルを最大要素で正規化し、ラグlだけ過去のクロマベクトルとユークリッド距離を計算し、その計算結果を1から引いた値である。
次に、繰り返し区間リストアップ手段9における繰り返し区間のリストアップ(図3のステップST4)について説明する。図8は、ある楽曲に対する後述する類似線分、類似度r(t,l)、パラメータ空間Rall(t,l)の概念図である。繰り返し区間リストアップ手段9では、図8に示すように、一方の軸を時間軸とし他方の軸をラグ軸とし、予め定めた時間長さ以上類似度が予め定めた閾値以上ある場合には、類似線分を時間軸を基準にした繰り返し区間としてリストアップする。図8においては、類似線分を時間軸と平行に表示している。なおこのリストアップは、演算上のリストアップであればよく、実際的に表示手段上にリストアップする必要はない。したがって時間軸及びラグ軸も理論上の軸であればよい。ここで「類似線分」の概念は、本願明細書において定義するものである。「類似線分」とは、予め定めた時間長さ以上類似度が予め定めた閾値以上あるときに、閾値以上ある類似度の部分の長さに対応する時間長さを有する線分として定義される。なお類似度の大きさは、類似線分に現れることはない。また閾値を適宜に変更または調整することにより、ノイズを除去することが可能になる。
図8において、類似度r(t,l)は右下半分の三角形内で定義される。実際に得られるr(t,l)は、図9に示すように、ノイズを多く含み、サビに関連しない類似線分も存在して曖昧なことが多い。
リストアップのために、類似度r(t,l)に基づいて、どの区間が繰り返されているかを調べる。図8に示すように、類似度r(t,l)を、横軸が時間軸t、縦軸がラグ軸lのt−l平面に描画すると、繰り返されている区間に対応して、時間軸に平行な線分(類似度が連続して高い領域)が現れる。そこで、時刻T1からT2の区間(以下、[T1,T2]と表記する)に渡ってラグ軸L1の位置に高い類似度を持つ線分を類似線分と呼び、[t=[T1,T2],l=L1]で表す。これは、[T1,T2]と[T1−L1,T2−L1]が繰り返し区間であることを意味する。よって、r(t,l)中の類似線分をすべて検出すれば、繰り返し区間の一覧が得られる。
ここで類似線分の考え方について簡単に説明する。例えば、t−l平面に図10に示すように、繰り返し区間を示す類似線分が現れている場合を考える。図10の横軸の下に示したアルファベットの表記は、それまでに入力された音響信号がAメロ→Bメロ→サビ(C)→サビ(C)であることを示している。このような類似線分が現れているのは、サビCが2回連続しているためである。すなわち図11に示すように、前のサビCの区間と後のサビCの区間との間の類似度は、最後のサビCの区間と他の最初の二つの区間(A,B)との類似度と比べて高くなるため、最後のサビCに対応する時間位置で且つラグlが前のサビCの位置に対応する部分にサビCと同じ時間長さの類似線分が現れるのである。さらに時間が過ぎて、図12のようになったと仮定する。図12においては、理解を容易にするために、特徴量が対比された区間を各A,B,Cのアルファベットの右下に数字で示してある。例えば「A12」の表示は、A1区間のAメロとA2区間のAメロの特徴量の類似度が演算されて、その類似度が高いために現れた類似線分であることを示している。同じく「C36」はC3区間のサビ区間とC6区間のサビ区間の特徴量の類似度が演算されて、その類似度が高いために現れた類似線分であることを示している。なお1つのサビ区間内においてサビの2度の繰り返しがある場合には、図13に示すように類似線分が現れることになる。
この線分検出をコンピュータを用いて演算により実行する場合には、画像処理においてロバストな直線検出方法として多用されるハフ(Hough)変換を用いる。ハフ変換では、t−l平面における求めたい直線をパラメータa,bを用いてl=at+bで表すとき、画素(T,L)ごとにパラメータ空間にb=L−aTの軌跡を描く(画素の輝度を累積する)。そして、多くの軌跡が交わる点(累積値の大きい点)のパラメータを持つ直線が、画像中に存在するものとみなす。類似線分の検出の場合には、時間軸に平行な線分だけを求めればよいので上記の直線の傾きは常に0となり、パラメータ空間は1次元と単純化される。
具体的には、時刻tにおけるパラメータ空間Rall(t,l)は、下記式(7)から求めることができる。
Figure 0004243682
図8に示されるように、上記Rall(t,l)が大きい値を持つlの位置に類似線分が存在する可能性が高いと考える。
なお、広帯域ノイズ等に起因する各成分がほぼ等しいクロマベクトルからは、他のクロマベクトルへの距離が比較的近くなってしまう傾向があり、r(t,l)中に類似度の高い直線(以下、ノイズ直線と呼ぶ)として現れることがある。このノイズ直線は、t−l平面において、時間軸に垂直(上下)方向、あるいは、斜め右上・左下方向に現れる。そこで、前処理として式(7)の計算前にノイズ直線の抑制を行う。まず、各r(t,l)において、右、左、上、下、右上、左下の6方向の近傍区間の平均値を計算し、その最大値と最小値を求める。そして、右か左の方向の近傍区間の平均値が最大のときは、類似線分の一部とみなして、強調するためにr(t,l)から最小値を引く。その他の方向の近傍空間の平均値が最大のときは、ノイズ直線の一部とみなして、抑制するためにr(t,l)から最大値を引く。このようにして求めたRall(t,l)は、図14の右側に示すような線図となる。
上記のように、Rall(t,l)を求めた後の類似線分の検出は、以下の手順1及び2に従って行う。
手順1:線分候補ピークの検出
図14の右側の線図に示されるRall(t,l)中の十分に高いピークを、線分候補ピークとして検出する。まず、Rall(t,l)のlag軸方向のピークを、2次多項式適合による平滑化微分を用いたピーク検出〔非特許文献9〕により求める。具体的には、下記式(8)で求めるRall(t,l)の平滑化微分が正から負に変わる箇所をピークとする(KSize=0.32sec)。
Figure 0004243682
ただし、このピーク検出の前に、Rall(t,l)のlag軸方向に、2階のカーディナルB−スプライン関数を重み関数とする移動平均によってスムージングをかけたものを引いて、r(t,l)のノイズ成分等の蓄積による大局的な変動を取り除いておく〔Rall(t,l)にハイパスフィルタをかけることに相当する〕。
次に、こうして得られたピークの集合から、ある閾値より大きいピークのみを、線分候補ピークとして選ぶ。前述の課題2で述べたように、この閾値は楽曲ごとに適切な値が異なるため、楽曲に基づいて自動的に変える必要がある。そこで、Rall(t,l)のピーク値を閾値によって二つのクラスに分けるときに、クラス分離度を最大とする判別基準に基づく自動閾値選定法〔非特許文献6〕を用いる。この自動閾値選定法は、図15に示すように閾値によって二つのクラスに分けるという考え方を採用している。ここでは、クラス分離度としてクラス間分散
σ =ωω(μ−μ …(9)
を最大とする閾値を求める。ただし、ωωは、閾値によって分けられた二つのクラスの生起確率(各クラスのピーク個数/全体のピーク個数)、μ、μは、各クラスのピーク値の平均である。
手順2:類似線分の探索
図16に示すように、各線分候補ピークのlag軸上の位置lにおいて、類似度r(t,l)の時間軸方向を一次元関数とみなして、それが連続して十分高い区間を探索し、類似線分とする。
まず、r(t,l)の時間軸方向に、2階のカーディナルB−スプライン関数を重み関数とする移動平均によってスムージングをかけたrsmooth(t,l)を求める。次に、rsmooth(t,l)中で、ある閾値を連続して越えているすべての区間のうち、一定の長さ(6.4sec)以上のものを類似線分として求める。この閾値も、上記の判別基準に基づく自動閾値選定法により定める。ただし、今度はピーク値を扱うのではなく、ピーク値が高い上位5個の線分候補ピークを選び、それらのラグlの位置のrsmooth(τ,l)(l≦τ≦t)がとる値を二つのクラスに分ける。
上記のようにしてリストアップされた繰り返し区間のリストは、図2に示すリスト記憶手段11に記憶される。統合繰り返し区間決定手段13は、リスト記憶手段11に記憶されたリストから複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある1以上の繰り返し区間を統合して一つの統合繰り返し区間を決定する。そして統合繰り返し区間決定手段13は、さらに決定した複数の統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する。
この統合繰り返し区間決定ステップ(図3のST5)では、図17に示すように、前述のt−l平面における時間軸の共通区間に存在するリストアップした類似線分どうしをそれぞれグルーピングにより統合して統合繰り返し区間RPと定める。そして複数の統合繰り返し区間RPを、共通区間の位置及び長さとグルーピングされる類似線分のラグ軸で見た位置関係とに基づいて複数種類の統合繰り返し区間列に分類する。
より具体的には、図17に示すように、リストアップされた複数の繰り返し区間C12〜C56(類似線分)の相互関係は、時間軸上の共通区間に対応する過去のラグ位置に1以上の繰り返し区間C12〜C56(類似線分)が存在するか否かと、そのラグ位置に対応する過去の時間帯において繰り返し区間(類似線分)が存在するか否かの関係である。例えば、C6の共通区間に繰り返し区間を示す類似線分C16がある場合、その繰り返し区間のラグ位置に対応する過去のラグ位置にも類似線分C12があるという関係である。これらの関係に基づいて、このステップでは、共通区間に対応する過去のラグ位置に1以上の繰り返し区間(類似線分)がある場合に、それらをグルーピング化してその共通区間に繰り返し区間(類似線分)があるものと決定し、その繰り返し区間を統合繰り返し区間RP2,RP5,RP6等とする。ただし、図18に示すように、本来存在している最初の繰り返し区間に対応しては、過去の時間帯には類似線分は無い。そのため最初の繰り返し区間に対応する統合繰り返し区間RP1については、最初の統合繰り返し区間RP2とその共通区間に存在する類似線分C12を基準にして補足する。なおこの補足は、プログラミングによって簡単に実現できる。このようにして1種類の統合繰り返し区間列が作られる。
図19は、共通区間の長さが長い場合の統合繰り返し区間RP1及びRP2の列を作る場合の状況を示している。図20は、図13のようにサビ区間に2回の繰り返しがあるために、統合繰り返し区間RPの共通区間の長さが図17及び図18の統合繰り返し区間列を構成する統合繰り返し区間の1/2になる場合の状況を示している。このようにして統合繰り返し区間決定ステップでは、決定した複数の統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する。この分類化は、共通区間の長さの共通性と、共通区間に存在する繰り返し区間(類似線分)の位置関係と数との関係に基づいて行われる。
統合繰り返し区間決定手段13により決定した、統合繰り返し区間は統合繰り返し区間列として統合繰り返し区間記憶手段15に記憶される。図21は、統合繰り返し区間列を表示手段18に表示した一例を示している。
前述の統合繰り返し区間決定手段13で実行されている統合処理をコンピュータを用いてより高い精度で実行する場合のより具体的な手順について説明する。前述の各類似線分は、ある区間が二回繰り返されていることだけを表すため、例えばAとA′のペア、A′とA″のペアが、それぞれ繰り返し区間として検出されたときには、それらを一つの繰り返し区間のグループとして統合する必要がある。ここで、ある区間がn回(n≧3)繰り返されている場合には、もれなく検出されるとすると、n(n−1)/2本の類似線分が検出される。そこで、同じ区間の繰り返しを表す類似線分をグルーピングし、繰り返し区間を統合する。さらに、もれていた類似線分の検出や、得られた類似線分が適切であるかの検証も行う。
この統合処理は、以下の手順で実現する。
手順1:類似線分のグルーピング
ほぼ同じ区間の類似線分を、一つのグループにまとめる。各グループφ=[[Ts,Te],Υ]は、区間[Tsi,Tei]と、類似線分(区間が決まれば、線分候補ピークと対応する)のlag値υijの集合Υ={υij|j=1,2,…,M}(Mはピークの個数)で表される。そして、この類似線分のグループφの集合を、Φ={φ|i=1,2,…,N}(Nはグループの個数)とする。
手順2:線分候補ピークの再検出
グループφごとに、区間[Ts,Te]内の類似度r(t,l)に基づいて、類似線分を改めて求めなおす。これにより、もれていた類似線分の検出ができ、例えば、図8で、ABCCの繰り返しに相当する長い類似線分上で、Cの繰り返しに相当する類似線分2か所が得られていなくても、この処理で検出されることが期待できる。
まず、[TS,Te]内に限定して、ハフ変換のパラメータ空間R[TSi,Tei](l)(0≦l<TS)を下記式(10)で作成する。
Figure 0004243682
次に、前述の線分候補ピークの検出と同様に、平滑化微分を用いたピーク検出を行い(KSize=2.8sec)、自動閾値選定法で定めた閾値を越えた線分候補ピークのlag値υijの集合を、改めてΥとする。
自動閾値選定法では、Φの全グループの区間におけるR[TSi,Tei](l)のピーク値を、二つのクラスに分けるようにする。
手順3:類似線分の適切さの検証1
サビと無関係な類似線分からなるグループφ、あるいは、Υの中で無関係な線分と考えられるピークを削除する。
似た伴奏の繰り返しが多用される楽曲の場合サビと関係ない線分候補ピークがR[TSi,Tei](l)に等間隔に多く現れる傾向がある。
そこで、R[TSi,Tei](l)に対して平滑化微分を用いたピーク検出を行い、一定間隔(間隔は任意)で連続して並ぶ高いピークの個数が10個より多いときサビと無関係な類似線分からなるグループだと判断し、そのグループをΦから削除する。
また、一定間隔で連続して並ぶ低いピークの個数が5個より多いとき、サビと無関係な線分候補ピークだと判断し、その一連のピークをΥから削除する。
手順4:類似線分の適切さの検証2
Υの中には、区間[Ts,Te]の一部分だけ類似度が高いピークが含まれることがあるため、そうした類似度の変動の大きいピークを削除する。そこで、当該区間のrsmooth(τ,l)の標準偏差を求め、ある閾値より大きいものはΥから削除する。この閾値は、φの中で、上記で求めた類似線分に対応する線分候補ピークは信頼できると考え、それらのピークでの上記標準偏差の最大値を定数倍(1.4倍)して定める。
手順5:類似線分の間隔の考慮
繰り返し区間が重ならないようにするために、lag軸上で隣接する類似線分(線分候補ピーク)の間隔を、線分の長さTe−Ts以上とする必要がある。そこで、線分の長さより狭い間隔を持つ二つのピークのいずれかを、全体として高いピーク集合が残るように削除し、すべての間隔が類似線分の長さ以上になるようにする。
手順6:共通区間を持つグループを統合
Υの各ピークについて、そのlag値υijだけの過去の区間[Ts−υij,Te−υij]のグループがあるかを探索し、発見したら統合する。統合処理では、発見したグループのすべてのピークを、対応するlag値の場所に持つように、Υに線分候補ピークを追加する。発見したグループ自体は削除する。
さらに、区間[Ts−υij,Te−υij]に一致する線分候補ピークを持つグループΥ(グループの区間自体は異なる)があるかも探索し、発見したら統合するか判断する。この場合、Υの過半数のピークがΥに含まれていれば、上記同様の統合処理を行う。含まれていなければ、ΥとΥで同じ区間を指しているピークを比較し、低い方を削除する。上記で実際に統合がなされたら、後処理として手順5の処理を再び行う。
次に、転調を伴う繰り返しの検出(図1のステップS4)について説明する。以上述べてきた処理は転調を考慮していなかった。しかし上記の処理は、以下のように転調を扱える処理へと容易に拡張できる。図22に示すように、転調前と転調後の12次元クロマベクトルは異なる。そこで特徴量抽出ステップ(図1のステップS2)では、図23に示すように、12次元クロマベクトルからなる音響特徴量を1転調幅ずつ11転調幅までシフトして得た転調幅の異なる12種類の音響特徴量を求める。次に類似度演算ステップ(図1のステップS3−1)では、今回求めた音響特徴量と先に求めた全ての12種類の音響特徴量との間の類似度を、時刻tの今回の音響特徴量を表す12次元クロマベクトルとそれよりラグl(0≦l<t)だけ過去の全ての12種類の音響特徴量を表す12次元クロマベクトルとの間の類似度として演算する。そして繰り返し区間リストアップステップ(図1のステップS3−2)では、図24に示すように、12種類の音響特徴量ごとに、一方の軸を時間軸tとし他方の軸をラグlとし、予め定めた時間長さ以上類似度が予め定めた閾値以上ある場合には類似度が予め定めた閾値以上である部分の長さに対応する時間長さを有する類似線分を時間軸を基準にした繰り返し区間としてそれぞれ12種類のリストをリストアップする。統合繰り返し区間決定ステップ(図1のステップS3−3及びS4)では、12種類のリストごとに、時間軸の共通区間に存在するリストアップした類似線分どうしをそれぞれグルーピングにより統合して統合繰り返し区間と定める(S3−3)。さらに12種類のリストについて定めた複数の統合繰り返し区間を共通区間の時間軸上の存在位置及び長さと、グルーピングされる類似線分のラグ軸で見た位置関係とに基づいて複数種類の転調を考慮した複数種類の統合繰り返し区間列に分類化する(S4)。このようにすると、転調を含んだ音楽音響データであっても、転調した部分の特徴量を11段階の転調幅のシフトでずらして類似度を求めるため、転調した部分の特徴量を正しく抽出することができる。
楽曲が転調を含んでいる場合に、これをコンピュータを用いてより具体的に処理する場合には、上記の処理を以下のとおりにする。ここで、転調は平均律の半音tr個分上の調へ変わることで表すことにする。trは0,1,…,11の12種類の値を取るものとする。tr=0は転調しないことを意味し、tr=10は半音10個分上か、全音分下へ転調することを意味する。
12次元クロマベクトルv(t)(ここでvはベクトル)は、各次元v(t)の値を次元間でtr個分だけシフトさせることで、転調を表現できる特長を持つ。具体的には、ある演奏の12次元クロマベクトルをv(t)(ここでvはベクトル)とし、それをtr個上へ転調した演奏の12次元クロマベクトルをv(t)´(ここでvはベクトル)とすると、
v(t)≒Strv(t)´ …(11)
となる。
ただし、Sはシフト行列で、以下の式(12)のように12次正方行列を一つ右にシフトした行列として定義される。
Figure 0004243682
転調を伴う繰り返しの検出の処理手順を以下に述べる。まず、クロマベクトルのこの特長を利用し、trごとの12種類の類似度rtr(t,l)を下記式(13)と定義しなおす。
Figure 0004243682
次に、それぞれの類似度rtr(t,l)に対して、前述した繰り返し区間のリストアップをする。ただし、自動閾値選定法はtr=0のときだけ適用し、他のtrでは、tr=0で定めた閾値を用いる。これにより、転調のない曲で、tr=0以外のときに類似線分が誤検出されにくくなる。そして、こうして得られた各trごとの類似度と類似線分に対して、前述の統合処理を行う。その結果、trごとに別々の類似線分のグループφtr,iの集合Φtrが得られる。そこで前述した、共通区間を持つグループの統合の処理を、tr間にまたがって行う(異なるtrに対して共通区間を持つグループを探索する)ことで、転調を含む繰り返し区間を一つのグループとして統合する。ただし、前出の処理では「Υの過半数のピークがΥに含まれていれば、上記同様の統合処理を行う」とあるが、ここでは常に統合処理を行う。
以下、異なるtrから得られたグループも合わせて、Φ={φ}で表す。転調区間が後から分かるように、どのtrから統合されたかという情報は保存しておく。
図2に戻って、サビ区間決定手段17では、統合繰り返し区間記憶手段15に記憶された統合繰り返し区間列からサビ区間を決定する。なお図2の例では、サビ区間を含む統合繰り返し区間列または複数種類の統合繰り返し区間列は、表示手段18に表示される(図27参照)。そしてサビ区間を含む統合繰り返し区間列が他の統合繰り返し区間列とは異なる表示態様で表示される。このようにすると検出したサビ区間を他の繰り返し区間とは区別して明瞭に表示することができる。なおこの例では、統合繰り返し区間列を、表示手段18に表示させながら選択手段21で選択して、音響の再生手段23でサビ区間を含む統合繰り返し区間列またはその他の統合繰り返し区間列を選択的に再生することができる。
図1及び図3のサビ区間決定ステップ(S5、ST6)では、例えば、統合繰り返し区間列に含まれる統合繰り返し区間の類似度の平均と、統合繰り返し区間の数と長さとに基づいて統合繰り返し区間列に含まれる統合繰り返し区間のサビらしさを求める。そして、最もサビらしさの高い統合繰り返し区間列に含まれる統合繰り返し区間をサビ区間として選択する。最初に図25及び26を用いて説明した前述の仮定1乃至仮定3を満たす統合繰り返し区間は、一般的にはサビらしさが高い。
上記の仮定を考慮して、コンピュータを用いてサビ区間を自動的に選択する方法について以下に説明する。前述の類似線分のグループの集合Φの中から、ある一つのグループをサビ区間として選ぶ。そのために、各グループφのサビらしさυを、類似線分の平均類似度や上記した仮定に基づいて評価し、最もサビらしさυの高いグループをサビ区間であると判定する。その準備として、グループごとに、類似線分(線分候補ピークυij)をそれが指す二つの区間へ展開し、すべての繰り返し区間[Psij,Peij]とその信頼度λijのペアの集合を下記式(14)により求める。
Λi={[[Psij,Peij],λij]|j=1,2,…,M+1} …(14)
ここで、[Psij,Peij]=[Ts−υij,Te−υij]とし、信頼度λijは、対応する類似線分における類似度rtr(t,l)の平均とする。ただし、j=M+1のときは、下記式(15)のようになる。
Figure 0004243682
サビらしさυは、以下の手順で評価する。
(1)仮定2を満たす統合繰り返し区間の信頼度を増加
仮定2で述べたAメロ〜サビに相当するような十分に長い統合繰り返し区間(50sec以上)を持つグループ(統合繰り返し区間列)φに関して、その各区間の終了点Pehkとほぼ等しい終了点Peijを持つ区間が他のグループ(他の統合繰り返し区間列)にあるか探索する。発見されれば、発見されたその統合繰り返し区間がサビである可能性が高いと考え、その信頼度λijを2倍する。
(2)仮定3を満たす統合繰り返し区間の信頼度を増加
サビとして適切な区間長の範囲(仮定1)の統合繰り返し区間[Psij,Peij]に関して、その区間の半分程度の短い統合繰り返し区間が前半と後半に一つずつ存在するか調べる。存在する場合には、それら二つの区間の信頼度の平均の半分を、元の区間の信頼度λijに加える。
(3)サビらしさを算出
上記で得られた信頼度に基づき、サビらしさを下記式(16)で算出する。
Figure 0004243682
上記式(16)において、Σの項は、グループ(統合繰り返し区間列)φ中にある統合繰り返し区間の数が多いほど、また、それらの信頼度が高いほど、サビらしさが高いことを意味する。logの項は、そのグループ(統合繰り返し区間列)に含まれる統合繰り返し区間が長いほど、サビらしさが高いことを意味する。定数Dlenは予備実験の結果から1.4secとした。
最終的に、サビとして適切な区間長の範囲(仮定1)を持つグループの中で、下記式(17)によって決まる集合Λm中の区間[Psmj,Pemj]を、サビ区間とする。
Figure 0004243682
ここで後処理として、隣接するPsmjの最小間隔を求め、区間長が最小間隔となるようにPemjを移動して各区間を広げ、隙間を埋める。これは、本来はサビ区間が連続して隙間がないにも関わらず、得られた繰り返し区間では隙間が空いてしまうことがあるからである。ただし、埋める隙間が大きすぎるとき(12sec以上で区間長の半分より広いとき)は埋めない。
図3に示すように、上記のようにサビ区間を決定したら(ステップST6)、その結果を図2の表示手段18にリアルタイムで表示する(ステップST7)。そして、音楽音響データの全データについて上記の処理が終了するまで、上記処理が繰り返される(ステップST8)。
次に、上記実施の形態のサビ区間検出装置の実際とこの装置を用いた実験結果について説明する。実験では、音楽音響信号を音楽音響データとして入力した。そして検出したサビ区間の一覧をリアルタイムに出力することとした。装置は、刻一刻と、過去の音響信号中でサビ区間と考えられる区間の一覧(リスト)を求め、中間結果として得られた繰り返し構造(繰り返し区間の一覧Λ)と共に出力し続ける。この出力を視覚化した例を図27に示す。図27において、横軸は時間軸(sec)で楽曲全体を表示しており、上半分がパワー変化、下半分の最上段がサビ区間を含む統合繰り返し区間列の一覧(最後のサビは転調を伴う)、下5段が他の統合繰り返し区間列の繰り返し構造を表す。
評価実験として、「RWC研究用音楽データベース:ポピュラー音楽」〔非特許文献10〕の100曲(RWC−MDB−P−2001,No.1〜100)を対象に、本装置のサビ検出性能を調べた。1曲すべてを入力し終わった時点で、サビ区間として検出されたものを対象に評価する。この正誤を判定するためには、基準となる正解のサビ区間を人間が手作業で指定する必要がある。そこで、楽曲を分割して各部にサビ、Aメロ、Bメロ、間奏等をラベリングできる、楽曲構造ラベリング用エディタを開発した。ラベリングでは、相対的な調の移動幅(曲の先頭の調に対して半音何個分上か)も正解に付与する。
こうして作成した正解に基づき、各曲に対する出力結果の区間と正解のサビ区間がどれぐらい重なっているかを、再現率(recall rate)、適合率(precision rate)、および両者を統合したF値(F−measure)〔非特許文献11〕の観点から評価した。以下に定義を示す。
再現率(R)=正しく検出したサビ区間の長さの合計/正解のサビ区間の長さの合計
適合率(P)=正しく検出したサビ区間の長さの合計/検出した区間の長さの合計
F値=(β+1)PR/(βP+R) (β=1を使用)
ただし、転調を伴う場合には、相対的な調の移動幅が正解と一致したときだけ、正しく検出したと判断した。そして、F値が0.75以上のとき、その曲のサビ区間を正しく得られた(正答した)と判定した。
評価結果として、100曲中の正答曲数を表1に示す。
Figure 0004243682
本装置の性能は一番左の80曲(80曲の平均F値は0.938)である。誤検出は、サビの繰り返しが他の箇所の繰り返しより多くなかったり、曲中ほとんどが類似伴奏の繰り返しだったりしたのが主な原因だった。100曲中には、サビに転調のある曲が10曲含まれているが、そのうち9曲は検出できていた。前述の転調を伴う繰り返しの検出をやめた場合、左から二番目のように性能が落ちた。一方、仮定2、3に基づく信頼度の増加をやめた場合は、右二つのようにさらに性能が落ちた。サビの繰り返しで伴奏やメロディーに大幅な変化を伴う曲は22曲あったが、そのうち21曲は検出できており、その中で変化を伴うサビ自体は16曲で検出できていた。
本発明は、基本的に楽曲中で最も多く繰り返される区間をサビとして検出する。その際、様々な区間の繰り返しを楽曲全体の情報を統合しながら調べることで、従来実現されていなかった、すべてのサビ区間の開始点・終了点の一覧を得ることを可能にした。また、転調後でも繰り返しと判断できるような、クロマベクトル間の類似度を導入したことで、サビの転調も検出できるようなった。RWC研究用音楽データベース(RWC−MDB−P−2001)100曲を用いて評価した結果、80曲正答でき、実世界の音響信号中のサビ区間が検出できることが確認された。
なお、本発明は音楽要約〔非特許文献12〕とも関連しており、本発明の装置を楽曲の要約結果としてサビ区間を提示する音楽要約方法と捉えることもできる。さらに、サビ区間よりも長い区間の要約が必要なときには、中間結果として得られた繰り返し構造を用いることで、楽曲全体の冗長性を減らした要約の提示も可能となる。例えば、中間結果として(Aメロ→Bメロ→サビ)の繰り返しが捉えられているときは、それを提示できる。
この実験では、ポピュラー音楽を用いて評価したが、本発明は他の音楽ジャンルにも適用できる可能性を持つ。実際に、数曲のクラシック音楽に適用したところ、その楽曲で最も代表的な主題が提示される部分を求めることができた。
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づいて種々の変形が可能であり、これらを本発明の範囲から排除するものではない。例えば、音響特徴量として、クロマベクトル以外に、周波数スペクトル、MFCC(Mel−Frequency Cepstrum Coefficients)等を用いてもよい。それらの微分値もさらに音響特徴量として加えることも可能である。また、音響特徴量間の類似度として、以下の三つ等も考えられる。
Figure 0004243682
Figure 0004243682
Figure 0004243682
さらに、本発明は入力を音響信号でなくMIDI信号とする場合にも適用でき、その場合には、音響特徴量の代わりにMIDI信号もしくはMIDI信号特徴量を用い、類似度としてはそれらのMIDI信号もしくはMIDI信号特徴量間の距離に基づく類似度を用いればよい。
以上、詳細に説明したように、本発明によれば、音楽CD(compact disc)等による実世界の複雑な混合音からサビ区間を検出し、各サビの区間の開始点と終了点の一覧を求めることができるだけでなく、転調を伴うサビ区間を検出することも可能である。その際、楽曲全体の中に含まれる様々な繰り返し構造(複数の統合繰り返し区間列)に基づいてサビ区間を検出する。さらに、楽曲全体の中に含まれる様々な繰り返し構造に基づいてサビを検出するため、その中間結果として、繰り返し構造の一覧も同時に得ることができる。
本発明のサビ区間検出方法で、転調を伴う楽曲中のサビ区間を検出する一実施の形態の方法の処理ステップを示すフローチャートである。 本発明のサビ区間を検出する装置の実施の形態の一例の構成の概略を示すブロック図である。 図2の装置をコンピュータを利用して実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。 螺旋状の音高知覚を説明するための図である。 12次元クロマベクトルを説明するために用いる図である。 類似度の演算の考え方を説明するために用いる図である。 類似度の演算の考え方を説明するために用いる図である。 ある楽曲に対する類似線分、類似度r(t,l)、パラメータ空間Rall(t,l)の概念図である。 実際に得られる類似線分の一例を示す図である。 類似線分の考え方を説明するために用いる図である。 類似線分の考え方を説明するために用いる図である。 類似線分の考え方を説明するために用いる図である。 類似線分の考え方を説明するために用いる図である。 類似線分を求める際の閾値の定め方を説明するために用いる図である。 類似線分を求める際の閾値の定め方を説明するために用いる図である。 類似線分の抽出方法を説明するために用いる図である。 繰り返し区間の統合化を説明するために用いる図である。 繰り返し区間の統合化を説明するために用いる図である。 繰り返し区間の統合化の例を示す図である。 繰り返し区間の統合化の例を示す図である。 統合繰り返し区間列の表示例を示す図である。 あるサビの転調前後での12次元クロマベクトルの違いを示す図である。 転調に対処するためのシフト処理を説明するために用いる図である。 転調処理のために12種類のリストを作成することを示す図である。 サビ区間の選定の仮定の一例を説明するために用いる図である。 サビ区間の選定の仮定の一例を説明するために用いる図である。 RWC−MDB−P−2001,No.18の楽曲終了時点での正しいサビ検出結果を示す図である。
符号の説明
1 サンプリング手段
3 特徴量抽出手段
5 特徴量記憶手段
7 類似度演算手段
9 繰り返し区間リストアップ手段
11 リスト記憶手段
13 統合繰り返し区間決定手段
15 統合繰り返し区間記憶手段
17 サビ区間決定手段
18 表示手段
21 選択手段
23 再生手段

Claims (15)

  1. ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出する方法であって、
    前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出ステップと、
    前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を求める類似度演算ステップと、
    前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップステップと、
    リストアップされた前記複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある1以上の前記繰り返し区間を時間軸上に統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定ステップと、
    前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定ステップとからなることを特徴とする音楽音響データ中のサビ区間を検出する方法。
  2. 前記特徴量抽出ステップで求める音響特徴量は、1オクターブの範囲に含まれる12の音名の周波数のパワーを複数のオクターブに渡ってそれぞれ加算して得た12次元クロマベクトルである請求項1に記載の音楽音響データ中のサビ区間を検出する方法。
  3. 前記類似度演算ステップでは、今回求めた前記音響特徴量と先に求めた全ての前記音響特徴量との間の前記類似度を求めることを特徴とする請求項2に記載の音楽音響データ中のサビ区間を検出する方法。
  4. 前記類似度演算ステップでは、時刻tの前記12次元クロマベクトルとそれよりラグl(0≦l<t)だけ過去の全ての前記12次元クロマベクトルとの前記類似度を求め、
    前記繰り返し区間リストアップステップでは、一方の軸を時間軸とし他方の軸をラグ軸とし、予め定めた時間長さ以上前記類似度が予め定めた閾値以上ある場合には前記類似度が前記予め定めた閾値以上である部分の長さに対応する時間長さを有する類似線分を前記時間軸を基準にした前記繰り返し区間としてリストアップすることを特徴とする請求項3に記載の音楽音響データ中のサビ区間を検出する方法。
  5. 統合繰り返し区間決定ステップでは、前記時間軸の共通区間に存在するリストアップした前記類似線分どうしをそれぞれグルーピングにより統合して前記統合繰り返し区間と定め、
    複数の前記統合繰り返し区間を、前記共通区間の前記時間軸上の存在位置及び長さとグルーピングされる前記類似線分の前記ラグ軸で見た位置関係とに基づいて前記複数種類の前記統合繰り返し区間列に分類することを特徴とする請求項4に記載の音楽音響データ中のサビ区間を検出する方法。
  6. 統合繰り返し区間決定ステップでは、前記統合繰り返し区間に含まれない最初の繰り返し区間を補足して前記統合繰り返し区間列を作成する請求項5に記載の音楽音響データ中のサビ区間を検出する方法。
  7. 前記楽曲は転調を含んでおり、
    前記特徴量抽出ステップでは、前記12次元クロマベクトルからなる前記音響特徴量を1転調幅ずつ11転調幅までシフトして得た転調幅の異なる12種類の前記音響特徴量を求め、
    前記類似度演算ステップでは、今回求めた前記音響特徴量と先に求めた全ての12種類の前記音響特徴量との間の前記類似度を、時刻tの今回の前記音響特徴量を表す前記クロマベクトルとそれよりラグl(0≦l<t)だけ過去の全ての12種類の前記音響特徴量を表す前記クロマベクトルとの間の類似度として演算し、
    前記繰り返し区間リストアップステップでは、12種類の前記音響特徴量ごとに、一方の軸を時間軸tとし他方の軸をラグlとし、予め定めた時間長さ以上前記類似度が予め定めた閾値以上である部分の長さに対応する時間長さを有する類似線分を前記時間軸を基準にした前記繰り返し区間としてそれぞれ12種類のリストをリストアップすることを特徴とする請求項1に記載の音楽音響データ中のサビ区間を検出する方法。
  8. 統合繰り返し区間決定ステップでは、前記12種類のリストごとに、前記時間軸の共通区間に存在するリストアップした前記類似線分どうしをそれぞれグルーピングにより統合して統合繰り返し区間と定め、
    さらに前記12種類のリストについて定めた複数の前記統合繰り返し区間を、前記共通区間の前記時間軸上の存在位置及び長さと、グルーピングされる前記類似線分の前記ラグ軸で見た位置関係とに基づいて前記複数種類の転調を考慮した前記複数種類の統合繰り返し区間列に分類化することを特徴とする請求項7に記載の音楽音響データ中のサビ区間を検出する方法。
  9. 前記サビ区間決定ステップでは、前記統合繰り返し区間列に含まれる前記統合繰り返し区間の前記類似度の平均と、数と長さとに基づいて該統合繰り返し区間列に含まれる前記統合繰り返し区間のサビらしさを求め、最もサビらしさの高い前記統合繰り返し区間列に含まれる前記統合繰り返し区間を前記サビ区間として決定することを特徴とする請求項1に記載の音楽音響データ中のサビ区間を検出する方法。
  10. ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出して表示手段に表示する装置であって、
    前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出手段と、 前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を求める類似度演算手段と、
    前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップ手段と、
    リストアップされた前記複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある1以上の前記繰り返し区間を統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定手段と、
    前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定手段とを具備し、
    前記複数種類の統合繰り返し区間列が前記表示手段に表示され、
    前記サビ区間を含む前記統合繰り返し区間列が他の前記統合繰り返し区間列とは異なる表示態様で表示されることを特徴とする音楽音響データ中のサビ区間を検出する装置。
  11. ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出して表示手段に表示する装置であって、
    前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出手段と、 前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を求める類似度演算手段と、
    前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップ手段と、
    リストアップされた前記複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある1以上の前記繰り返し区間を統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定手段と、
    前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定手段とを具備することを特徴とする音楽音響データ中のサビ区間を検出する装置。
  12. 統合繰り返し区間決定手段は、前記統合繰り返し区間に含まれない最初の繰り返し区間を補足して前記統合繰り返し区間列を作成するように構成されている請求項11に記載の音楽音響データ中のサビ区間を検出する装置。
  13. ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出して前記サビ区間を再生手段により再生する装置であって、
    前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出手段と、 前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を求める類似度演算手段と、
    前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップ手段と、
    リストアップされた前記複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある1以上の前記繰り返し区間を統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定手段と、
    前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定手段とを具備し、
    前記複数種類の統合繰り返し区間列が選択的に前記再生手段で再生されることを特徴とする音楽音響データ中のサビ区間を検出する装置。
  14. ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出する方法をコンピュータを用いて実現するために用いられるプログラムであって、
    前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出ステップと、
    前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を求める類似度演算ステップと、
    前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップステップと、
    リストアップされた前記複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある1以上の前記繰り返し区間を統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定ステップと、
    前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定ステップとを前記コンピュータに実行させるように構成されていることを特徴とするプログラム。
  15. 統合繰り返し区間決定ステップでは、前記統合繰り返し区間に含まれない最初の繰り返し区間を補足して前記統合繰り返し区間列を作成する請求項14に記載のプログラム。
JP2003342676A 2002-10-24 2003-09-30 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム Expired - Lifetime JP4243682B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2003342676A JP4243682B2 (ja) 2002-10-24 2003-09-30 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
PCT/JP2003/013563 WO2004038694A1 (ja) 2002-10-24 2003-10-23 楽曲再生方法及び装置並びに音楽音響データ中のサビ区間検出方法
KR1020057007022A KR100836574B1 (ko) 2002-10-24 2003-10-23 악곡재생방법, 장치 및 음악음향데이터 중의 대표 모티프구간 검출방법
AU2003275618A AU2003275618A1 (en) 2002-10-24 2003-10-23 Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
US10/532,400 US7179982B2 (en) 2002-10-24 2003-10-23 Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
EP03758828A EP1577877B1 (en) 2002-10-24 2003-10-23 Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
AT03758828T ATE556404T1 (de) 2002-10-24 2003-10-23 Wiedergabeverfahren für musikalische kompositionen und einrichtung und verfahren zum erkennen eines repräsentativen motivteils in musikkompositionsdaten

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002309519 2002-10-24
JP2003342676A JP4243682B2 (ja) 2002-10-24 2003-09-30 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム

Publications (2)

Publication Number Publication Date
JP2004233965A JP2004233965A (ja) 2004-08-19
JP4243682B2 true JP4243682B2 (ja) 2009-03-25

Family

ID=32964368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003342676A Expired - Lifetime JP4243682B2 (ja) 2002-10-24 2003-09-30 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム

Country Status (1)

Country Link
JP (1) JP4243682B2 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004047068A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Gruppieren von zeitlichen Segmenten eines Musikstücks
DE102004047032A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen
WO2006062064A1 (ja) * 2004-12-10 2006-06-15 Matsushita Electric Industrial Co., Ltd. 楽曲処理装置
WO2006086556A2 (en) * 2005-02-08 2006-08-17 Landmark Digital Services Llc Automatic identfication of repeated material in audio signals
KR100869643B1 (ko) * 2005-04-29 2008-11-21 에스케이 텔레콤주식회사 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약장치, 방법 및 이를 구현하기 위한 프로그램이 저장된기록매체
JP4940588B2 (ja) 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
JP2007041234A (ja) * 2005-08-02 2007-02-15 Univ Of Tokyo 音楽音響信号の調推定方法および調推定装置
US8069036B2 (en) * 2005-09-30 2011-11-29 Koninklijke Philips Electronics N.V. Method and apparatus for processing audio for playback
JP4465626B2 (ja) 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
CN101326569B (zh) 2005-12-09 2012-07-18 索尼株式会社 音乐编辑设备和音乐编辑方法
JP4949687B2 (ja) 2006-01-25 2012-06-13 ソニー株式会社 ビート抽出装置及びビート抽出方法
JP4722738B2 (ja) * 2006-03-14 2011-07-13 三菱電機株式会社 楽曲分析方法及び楽曲分析装置
JP4877811B2 (ja) * 2007-04-12 2012-02-15 三洋電機株式会社 特定区間抽出装置、音楽記録再生装置、音楽配信システム
JP2009015119A (ja) * 2007-07-06 2009-01-22 Sanyo Electric Co Ltd サビ位置検出装置
JP5087415B2 (ja) * 2008-01-22 2012-12-05 三洋電機株式会社 楽曲メタ情報配信システムにおけるクライアント側装置および音声データ出力装置
JP4973537B2 (ja) * 2008-02-19 2012-07-11 ヤマハ株式会社 音響処理装置およびプログラム
JP5177657B2 (ja) 2008-08-08 2013-04-03 国立大学法人九州工業大学 音響特性制御装置
JP5153517B2 (ja) * 2008-08-26 2013-02-27 株式会社河合楽器製作所 コード名検出装置及びコード名検出用コンピュータ・プログラム
JP5391939B2 (ja) * 2009-09-04 2014-01-15 ヤマハ株式会社 音響処理装置およびプログラム
CN102754159B (zh) 2009-10-19 2016-08-24 杜比国际公司 指示音频对象的部分的元数据时间标记信息
JP5373552B2 (ja) * 2009-10-28 2013-12-18 株式会社河合楽器製作所 盛り上がり検出装置及びプログラム
MX2012009594A (es) 2010-02-26 2012-09-28 Sharp Kk Dispositivo de reproduccion de contenido, receptor de television, metodo de reproduccion de contenido, programa de reproduccion de contenido y medio de grabacion.
JP5672960B2 (ja) * 2010-10-28 2015-02-18 ヤマハ株式会社 音響処理装置
EP2791935B1 (en) * 2011-12-12 2016-03-09 Dolby Laboratories Licensing Corporation Low complexity repetition detection in media data
JP5851455B2 (ja) * 2013-08-06 2016-02-03 日本電信電話株式会社 共通信号含有区間有無判定装置、方法、及びプログラム
JP6424501B2 (ja) * 2014-07-14 2018-11-21 ヤマハ株式会社 演奏装置及び演奏プログラム
WO2017168644A1 (ja) * 2016-03-30 2017-10-05 Pioneer DJ株式会社 楽曲展開解析装置、楽曲展開解析方法および楽曲展開解析プログラム
GB201802440D0 (en) * 2018-02-14 2018-03-28 Jukedeck Ltd A method of generating music data
JP6733720B2 (ja) * 2018-10-23 2020-08-05 ヤマハ株式会社 演奏装置、演奏プログラム、及び演奏パターンデータ生成方法
CN109979418B (zh) * 2019-03-06 2022-11-29 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、电子设备及存储介质
JP7318253B2 (ja) * 2019-03-22 2023-08-01 ヤマハ株式会社 楽曲解析方法、楽曲解析装置およびプログラム
JP2020035511A (ja) * 2019-12-06 2020-03-05 パイオニア株式会社 コンテンツ評価装置
CN115294947B (zh) * 2022-07-29 2024-06-11 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质

Also Published As

Publication number Publication date
JP2004233965A (ja) 2004-08-19

Similar Documents

Publication Publication Date Title
JP4243682B2 (ja) 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
EP1577877B1 (en) Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
Casey et al. Content-based music information retrieval: Current directions and future challenges
Tzanetakis et al. Pitch histograms in audio and symbolic music information retrieval
Tzanetakis et al. Marsyas: A framework for audio analysis
Turetsky et al. Ground-truth transcriptions of real music from force-aligned midi syntheses
Peeters et al. Toward automatic music audio summary generation from signal analysis
Dixon et al. Towards Characterisation of Music via Rhythmic Patterns.
US7273978B2 (en) Device and method for characterizing a tone signal
Peeters Deriving musical structures from signal analysis for music audio summary generation:“sequence” and “state” approach
Chai et al. Music thumbnailing via structural analysis
US20110225196A1 (en) Moving image search device and moving image search program
Rocamora et al. Comparing audio descriptors for singing voice detection in music audio files
Muller et al. A robust fitness measure for capturing repetitions in music recordings with applications to audio thumbnailing
Hargreaves et al. Structural segmentation of multitrack audio
Tzanetakis et al. Audio information retrieval (AIR) tools
Ong Structural analysis and segmentation of music signals
Rocha et al. Segmentation and timbre-and rhythm-similarity in Electronic Dance Music
Tzanetakis et al. A framework for audio analysis based on classification and temporal segmentation
Durand et al. Downbeat Detection with Conditional Random Fields and Deep Learned Features.
Tian et al. Towards music structural segmentation across genres: Features, structural hypotheses, and annotation principles
Papadopoulos Joint estimation of musical content information from an audio signal
Müller et al. Music structure analysis
CN116034421A (zh) 乐曲构造解析装置及乐曲构造解析方法
Lidy Evaluation of new audio features and their utilization in novel music retrieval applications

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20051013

RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20051013

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20051020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Ref document number: 4243682

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term