JP4243682B2

JP4243682B2 - 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム

Info

Publication number: JP4243682B2
Application number: JP2003342676A
Authority: JP
Inventors: 真孝後藤
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2002-10-24
Filing date: 2003-09-30
Publication date: 2009-03-25
Anticipated expiration: 2023-09-30
Also published as: JP2004233965A

Description

本発明は、市販のＣＤ（ｃｏｍｐａｃｔｄｉｓｃ）などに収録されている、歌曲や複数種類の楽器音を同時に含む楽曲についてのアナログまたはデジタル音楽音響信号やＭＩＤＩデータ（標準ＭＩＤＩファイル）等の各種の再生可能な音楽音響データを対象にして、サビ（ｃｈｏｒｕｓ，ｒｅｆｒａｉｎ）区間を検出する方法及び装置並びにこの方法をコンピュータを用いて実現するためのプログラムに関するものである。

従来のサビ検出方法の一つでは、楽曲の音響信号の代表的部分として、サビを指定した長さだけ不完全に一箇所切り出す。Ｌｏｇａｎ等〔非特許文献１〕は、切り出した短いフレーム（１秒間）にその部分の特徴量に基づいてラベルを付与し、最頻出のラベルをもつフレームをサビとみなす方法を提案した。このラベルの付与には、各区間の特徴量間の類似度に基づくクラスタリングや隠れマルコフモデルを用いていた。また、Ｂａｒｔｓｃｈ等〔非特許文献２〕は、ビートトラッキングの結果に基づいて楽曲を拍ごとの短いフレームに分割し、それらの特徴量間の類似度が、指定した一定の長さの区間に渡って最も高い箇所を、サビとして切り出す方法を提案した。また、Ｆｏｏｔｅ〔非特許文献３〕は、非常に短い断片（フレーム）ごとの特徴量間の類似度に基づく境界検出の応用例として、サビが切り出せる可能性を指摘していた。

一方、標準ＭＩＤＩファイル等の音符相当表現を対象とした従来技術〔非特許文献４および５〕もあるが、この技術は音源分離が困難な混合音にはそのまま適用できなかった。

さらに関連技術として、非特許文献６以下の公知技術がある。
Ｌｏｇａｎ，Ｂ．ａｎｄＣｈｕ，Ｓ．：ＭｕｓｉｃＳｕｍｍａｒｉｚａｔｉｏｎＵｓｉｎｇＫｅｙＰｈｒａｓｅｓ，Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ２０００，II−７４９−７５２（２０００）．Ｂａｒｔｓｃｈ，Ｍ．Ａ．ａｎｄＷａｋｅｆｉｅｌｄ，Ｇ．Ｈ．：ＴｏＣａｔｃｈＡＣｈｏｒｕｓ：ＵｓｉｎｇＣｈｒｏｍａ−ｂａｓｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｏｒＡｕｄｉｏＴｈｕｍｂｎａｉｌｉｎｇ，Ｐｒｏｃ．ｏｆＷＡＳＰＡＡ２００１，１５−１８（２００１）．Ｆｏｏｔｅ，Ｊ．：ＡｕｔｏｍａｔｉｃＡｕｄｉｏＳｅｇｍｅｎｔａｔｉｏｎＵｓｉｎｇＡＭｅａｓｕｒｅｏｆＡｕｄｉｏＮｏｖｅｌｔｙ，Ｐｒｏｃ．ｏｆＩＣＭＥ２０００，Ｉ−４５２−４５５（２０００）．Ｍｅｅｋ，Ｃ．ａｎｄＢｉｒｍｉｎｇｈａｍ，Ｗ．Ｐ．：ＴｈｅｍａｔｉｃＥｘｔｒａｃｔｏｒ，Ｐｒｏｃ．ｏｆＩＳＭＩＲ２００１，１１９−１２８（２００１）．村松純：歌謡曲における「さび」の楽譜情報に基づく特徴抽出−小室哲哉の場合−，情処研報音楽情報科学，２０００−ＭＵＳ−３５−１，１−６（２０００）．大津展之：判別および最小２乗規準に基づく自動しきい値選定法，信学論（Ｄ），Ｊ６３−Ｄ，４，３４９−３５６（１９８０）．Ｓｈｅｐａｒｄ，Ｒ．Ｎ．：ＣｉｒｃｕｌａｒｉｔｙｉｎＪｕｄｇｍｅｎｔｓｏｆＲｅｌａｔｉｖｅＰｉｔｃｈ，Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，３６，１２，２３４６−２３５３（１９６４）．Ｗａｋｅｆｉｅｌｄ，Ｇ．Ｈ．：ＭａｔｈｅｍａｔｉｃａｌＲｅｐｒｅｓｅｎｔａｔｉｏｎｏｆＪｏｉｎｔＴｉｍｅ−ＣｈｒｏｍａＤｉｓｔｒｉｂｕｔｉｏｎｓ，ＳＰＩＥ１９９９，６３７−６４５（１９９９）．Ｓａｖｉｔｚｋｙ，Ａ．ａｎｄＧｏｌａｙ，Ｍ．Ｊ．：ＳｍｏｏｔｈｉｎｇａｎｄＤｉｆｆｅｒｅｎｔｉａｔｉｏｎｏｆＤａｔａｂｙＳｉｍｐｌｉｆｉｅｄＬｅａｓｔＳｑｕａｒｅｓＰｒｏｃｅｄｕｒｅｓ，ＡｎａｌｙｔｉｃａｌＣｈｅｍｉｓｔｒｙ，３６，８，１６２７−１６３９（１９６４）．後藤真孝，橋口博樹，西村拓一，岡隆一：ＲＷＣ研究用音楽データベース；ポピュラー音楽データベースと著作権切れ音楽データベース，情処研報音楽情報科学，２００１−ＭＵＳ−４２−６，３５−４２（２００１）．ｖａｎＲｉｊｓｂｅｒｇｅｎ，Ｃ．Ｊ．：ＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，Ｂｕｔｔｅｒｗｏｒｔｈｓ，ｓｅｃｏｎｄｅｄｉｔｉｏｎ（１９７９）．平田圭二，松田周：パピプーーン：ＧＴＴＭに基づく音楽要約システム，情処研報音楽情報科学，２００２−ＭＵＳ−４６−５，２９−３６（２００２）．

しかし、上記したようないずれの従来の技術では、楽曲中に何度も出現するサビのどこか一箇所だけを検出していた。また、従来の技術では、常に指定した一定の長さを切り出して提示するだけで、サビの区間がどこからどこまでかは推定していなかった。また、サビが繰り返されるときに転調することがあるが、従来の技術では、いずれも転調を考慮していない。転調後のサビ区間は、転調前のサビ区間との間の特徴量の類似度が低くなるため、サビとして検出することができなかった。

本発明の目的は、従来の技術の問題点を克服し、楽曲中に出現するサビ区間を網羅的に検出することができる音楽音響データ中のサビ区間を検出する方法及び装置並びにプログラムを提供することにある。

本発明の目的は、１つのサビ区間がどこからどこまでかを検出することができる音楽音響データ中のサビ区間を検出する方法及び装置並びにプログラムを提供することにある。

本発明の他の目的は、転調されたサビ区間も検出できる音楽音響データ中のサビ区間を検出する方法及び装置並びにプログラムを提供することにある。

本発明の他の目的は、サビ区間だけでなく、その他の繰り返し区間も表示手段に表示することができる音楽音響データ中のサビ区間を検出する装置を提供することにある。

本発明のさらに他の目的は、サビ区間だけでなく、その他の繰り返し区間も再生することができる音楽音響データ中のサビ区間を検出する装置を提供することにある。

サビは、楽曲全体の構造の中で、一番代表的な盛り上がる主題の部分である。通常、サビは楽曲中で最も多く繰り返され、印象に残るため、専門的な音楽の訓練を受けていない人が音楽を聴いたときでも、どこがサビであるかを容易に判断できる。さらに、サビ検出の結果は、様々な応用において有用である。例えば、多数の楽曲をブラウジングするときや、楽曲検索システムにおいて検索結果を提示するときに、サビの冒頭を短く再生（プレビュー）できると便利である（画像のサムネールの音楽版とみなせる）。また、歌声等を検索キーとした楽曲検索では、検索対象をサビ区間に限定すると精度と効率が上がる。そして本発明のサビ検出技術を実施すれば、サビ区間を自動的にインデキシングすることも可能になる。

本発明の方法は、ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出するために、特徴量抽出ステップと、類似度演算ステップと、繰り返し区間リストアップステップと、統合繰り返し区間決定ステップと、サビ区間決定ステップとを実行する。

最初に、特徴量抽出ステップでは、音楽音響データから所定の時間単位で音響特徴量を順次求める。具体的な実施の形態では、入力されてくる音楽音響データについて、所定のサンプリング幅を持って重複しながらデータのサンプリングを行うハニング窓等のサンプリング技術を用いて、所定の時間単位（例えば８０ｍｓ）で、サンプリングを行う。そしてサンプリングしたデータについて、音響特徴量を求める。音響特徴量の求め方は任意である。例えば、特徴量抽出ステップで求める音響特徴量として、１オクターブの範囲に含まれる１２の音名の周波数のパワーを複数のオクターブに渡ってそれぞれ加算して得た１２次元クロマベクトルを用いることができる。１２次元クロマベクトルを音響特徴量として用いると、複数オクターブに渡る楽曲の特徴量を抽出できるだけでなく、転調した音楽音響データから対比が可能な特徴量として抽出することができる。

次に、類似度演算ステップでは、音楽音響データについて求めた複数の音響特徴量の相互間の類似度を求める。類似度を求める際に用いる演算式は、任意であり、公知の類似度演算式のいずれを用いてもよい。そして繰り返し区間リストアップステップでは、類似度に基づいて音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする。類似度演算ステップで、今回求めた音響特徴量と先に求めた全ての音響特徴量との間の類似度を求めると、リアルタイムにサビ区間を検出することが可能になる。

より具体的な、類似度演算ステップでは、時刻ｔのクロマベクトル（音響特徴量）とそれよりラグｌ（０≦ｌ＜ｔ）（ｌはアルファベットＬの小文字）だけ過去の全てのクロマベクトルとの類似度を求めることになる。この場合、繰り返し区間リストアップステップでは、一方の軸を時間軸とし他方の軸をラグ軸とし、予め定めた時間長さ以上類似度が予め定めた閾値以上ある場合には類似度が予め定めた閾値以上である部分の長さに対応する時間長さを有する類似線分を時間軸を基準にした繰り返し区間としてリストアップする。なおこのリストアップは、演算上のリストアップであればよく、実際的に表示手段上にリストアップする必要はない。したがって時間軸及びラグ軸も理論上の軸であればよい。ここで「類似線分」の概念は、本願明細書において定義するものである。類似線分は、予め定めた時間長さ以上類似度が予め定めた閾値以上あるときに、閾値以上ある類似度の部分の長さに対応する時間長さを有する線分として定義される。閾値を適宜に変更または調整することにより、ノイズを除去することが可能になる。なお閾値を設けたことによりノイズは除去できるものの、本来現れるべき類似線分が現れなくなる場合もある。しかしそのような場合であっても、今回の特徴量と過去のすべての特徴量との間の類似度についての類似線分をリストアップするため、後に他の類似線分との関係から、本来現れるべき類似線分がないことを探索することができるので、リストアップの精度が下がることはない。

統合繰り返し区間決定ステップでは、リストアップされた複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある１以上の繰り返し区間を統合して一つの統合繰り返し区間を決定する。統合繰り返し区間決定ステップでは、時間軸の共通区間に存在するリストアップした類似線分どうしをそれぞれグルーピングにより統合して統合繰り返し区間と定める。そして複数の統合繰り返し区間を、共通区間の長さとグルーピングされる類似線分のラグ軸で見た位置関係とに基づいて複数種類の統合繰り返し区間列に分類する。より具体的には、リストアップされた複数の繰り返し区間の相互関係は、時間軸上の共通区間に対応する過去のラグ位置に１以上の繰り返し区間（類似線分）が存在するか否かと、そのラグ位置に対応する過去の時間帯において繰り返し区間（類似線分）が存在するか否かの関係である。これらの関係に基づいて、このステップでは、共通区間に対応する過去のラグ位置に１以上の繰り返し区間（類似線分）がある場合に、それらをその共通区間に繰り返し区間（類似線分）があるものと決定して、その繰り返し区間を統合繰り返し区間とする。その上で、統合繰り返し区間決定ステップでは、決定した複数の統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する。この分類化は、共通区間の長さの共通性と、共通区間に存在する繰り返し区間（類似線分）の位置関係と数との関係に基づいて行われる。この分類化により、種類の異なる繰り返し区間の構造化が実現できる。

なお統合繰り返し区間を用いると、類似度を求めた２番目以降の繰り返し区間に対応する統合繰り返し区間は求まるものの、最初の繰り返し区間が統合繰り返し区間列には含まれないことになる。そこで統合繰り返し区間決定ステップでは、統合繰り返し区間に含まれない最初の繰り返し区間を補足して統合繰り返し区間列を作成するようにしてもよい。

そしてサビ区間決定ステップで、複数種類の統合繰り返し区間列からサビ区間を決定する。このサビ区間決定ステップでは、例えば、統合繰り返し区間列に含まれる統合繰り返し区間の類似度の平均と、数と長さとに基づいて該統合繰り返し区間列に含まれる統合繰り返し区間のサビらしさを求める。そして、最もサビらしさの高い統合繰り返し区間列に含まれる統合繰り返し区間をサビ区間として決定する。なおサビらしさの定め方は、一つに限定されるものではなく、よりよいサビらしさの基準に基づいて判断すれば、それだけ検出精度が高まるものは勿論である。

なお楽曲が転調を含んでいる場合には、次のようにする。まず特徴量抽出ステップでは、１２次元クロマベクトルからなる音響特徴量を１転調幅ずつ１１転調幅までシフトして得た転調幅の異なる１２種類の音響特徴量を求める。次に類似度演算ステップでは、今回求めた音響特徴量と先に求めた全ての１２種類の音響特徴量との間の類似度を、時刻ｔの今回の音響特徴量を表す１２次元クロマベクトルとそれよりラグｌ（０≦ｌ＜ｔ）だけ過去の全ての１２種類の音響特徴量を表す１２次元クロマベクトルとの間の類似度として演算する。そして繰り返し区間リストアップステップでは、１２種類の音響特徴量ごとに、一方の軸を時間軸ｔとし他方の軸をラグｌとし、予め定めた時間長さ以上類似度が予め定めた閾値以上ある場合には類似度が予め定めた閾値以上である部分の長さに対応する時間長さを有する類似線分を時間軸を基準にした繰り返し区間としてそれぞれ１２種類のリストをリストアップする。

統合繰り返し区間決定ステップでは、１２種類のリストごとに、時間軸の共通区間に存在するリストアップした類似線分どうしをそれぞれグルーピングにより統合して統合繰り返し区間と定める。さらに１２種類のリストについて定めた複数の統合繰り返し区間を共通区間の時間軸上の存在位置及び長さと、グルーピングされる類似線分のラグ軸で見た位置関係とに基づいて複数種類の転調を考慮した複数種類の統合繰り返し区間列に分類化する。このようにすると、転調を含んだ音楽音響データであっても、転調した部分の特徴量を１１段階の転調幅のシフトでずらして類似度を求めるため、転調した部分の特徴量を正しく抽出することができる。その結果、繰り返し区間が転調されている場合でも、同じ特徴（Ａメロ、Ｂメロ，サビ）の繰り返し区間であるか否かの判定を高い精度で行うことが可能になる。

ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出して表示手段に表示する本発明のサビ区間検出装置は、音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出手段と、音楽音響データについて求めた複数の音響特徴量の相互間の類似度を求める類似度演算手段と、類似度に基づいて音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップ手段と、リストアップされた複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある１以上の繰り返し区間を統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定手段と、複数種類の統合繰り返し区間列からサビ区間を決定するサビ区間決定手段とを具備する。サビ区間を含む統合繰り返し区間列または複数種類の統合繰り返し区間列は、表示手段に表示される。そしてサビ区間を含む統合繰り返し区間列が他の統合繰り返し区間列とは異なる表示態様で表示される。このようにすると検出したサビ区間を他の繰り返し区間とは区別して明瞭に表示することができる。

なお本発明は、統合繰り返し区間列を表示手段に表示せずに、音響の再生手段でサビ区間を含む統合繰り返し区間列またはその他の統合繰り返し区間列を選択的に再生するようにしてもよいのは勿論である。

ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出する方法をコンピュータを用いて実現するために用いられるプログラムは、音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出ステップと、音楽音響データについて求めた複数の音響特徴量の相互間の類似度を求める類似度演算ステップと、類似度に基づいて音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップステップと、リストアップされた前記複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある１以上の繰り返し区間を統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定ステップと、複数種類の統合繰り返し区間列からサビ区間を決定するサビ区間決定ステップとを前記コンピュータに実行させるように構成されている。

本発明によれば、楽曲中に出現するサビ区間を網羅的に検出することができる。また本発明によれば、１つのサビ区間がどこからどこまでかを検出することができる。さらに本発明によれば、転調されたサビ区間も検出できる。また本発明によれば、サビ区間だけでなく、その他の繰り返し区間も再生し且つ表示手段にそれぞれ表示することが可能である。

以下、本発明の実施の形態について詳細に説明する。

まず、サビ区間を検出する場合の問題点について説明する。

サビ区間の検出のためには、楽曲一曲分の音響信号データ中に含まれるすべてのサビ区間の開始点と終了点とを求める必要がある。サビは、コーラス（ｃｈｏｒｕｓ）あるいはリフレイン（ｒｅｆｒａｉｎ）とも呼ばれる。サビは、楽曲構造上、主題（ｔｈｅｍｅ）を提示している部分を指す。そしてサビは、ときには伴奏の変化やメロディーの変形を伴いながら、通常は、楽曲中で最も多く繰り返される。例えば、典型的なポピュラー音楽の楽曲構造は、
｛イントロ、サビ｝
（（→第１の序奏部分（Ａメロ）〔→第２の序奏部分（Ｂメロ）〕）×ｎ１→サビ）×ｎ2
〔→間奏〕〔→第１の序奏部分（Ａメロ）〕〔→第２の序奏部分（Ｂメロ）〕→サビ×ｎ3
〔→間奏→サビ×ｎ4 〕〔→エンディング〕
のようになっている。このようにサビは、他のメロディよりも繰り返し回数が多くなっている。ここで、｛ａ，ｂ｝はａかｂかのいずれか一方、〔ａ〕はａが省略可能であることを表す記号である。そしてｎ1 ，ｎ2 ，ｎ3 ，ｎ4 は繰り返し回数を表す正の整数である（多くの場合、１≦ｎ1 ≦２，１≦ｎ2 ≦４，ｎ3 ≧０，ｎ4 ≧０）。イントロ（ｉｎｔｒｏｄｕｃｔｉｏｎ）は前奏部分、Ａメロ、Ｂメロ（ｖｅｒｓｅＡ，ｖｅｒｓｅＢ）は序奏部分を指す。

楽曲中で通常、最も多く繰り返されるサビの区間を検出するには、基本的には、ある楽曲中に含まれる複数の区間の繰り返し（繰り返し区間）を見つけ出し、最も出現頻度の大きい区間をサビ区間とすればよい。しかし、「繰り返し区間」とは言っても音響信号が完全に一致する状態で区間が繰り返される場合は希である。そのため、人間にとっては容易に繰り返しと分かる場合でも、計算機にとってはその判断が難しい。その際の主要な課題は、以下のようにまとめられる。

課題１：特徴量と類似度の検討
ある区間の音響信号とその区間の繰り返し区間と考えられる他の区間の音響信号とが完全に一致しない場合には、ある区間が繰り返されているということを判断するために、各区間から求めた特徴量相互間の類似度を判断しなければならない。その際、繰り返しがあると判断できるためには、繰り返す度にその区間内の音響信号の細部が多少異なっても（メロディーが変形したり、伴奏のベース、ドラム等が演奏されなくなったりしても）、各区間の特徴量間の類似度は高い必要がある。しかしながら、各区間のパワースペクトルを直接特徴量とした場合には、この類似度の判断が困難である。

課題２：繰り返しの判断基準
類似度がどれくらい高ければ繰り返しとみなせるかという基準は、楽曲に依存して変わる。例えば、似た伴奏が多用される楽曲では、全体的に多くの部分の類似度が高くなる。そのため、比較する各区間の類似度がかなり高い類似度でなければ、それらの区間がサビに関連する繰り返し区間であると判断しない方がよい。逆に、サビが繰り返されるときに、伴奏が大きく変化するような楽曲では、比較する各区間の類似度がやや低くても繰り返し区間であると判断する方がよい。こうした基準を、ある楽曲に特化して人間が手作業で設定するのは容易である。しかしながら、幅広い楽曲からサビ区間を自動的に検出するためには、サビ区間の検出の基準を、現在処理中の楽曲に応じて自動的に変える必要がある。このことは、あるサビ区間の検出方法の性能を評価する場合に、その方法で数曲のサンプル曲についてサビ区間の検出ができたからといって、必ずしもその方法に汎用性があるとは限らないということを意味する。

課題３：繰り返し区間の端点（開始点と終了点）の推定
サビ区間の長さ（区間長）は楽曲ごとに異なるため、各区間長と共に、どこからどこまでがサビであるかを推定しなければならない。その際、サビの前後の区間も一緒に繰り返すことがあるため、端点の推定は、楽曲中の様々な箇所の情報を統合して行う必要がある。例えば、（ＡＢＣＢＣＣ）のような構造の楽曲の場合（Ａ，Ｂ，ＣはそれぞれＡメロ、Ｂメロ、サビの区間とする）、単純に繰り返し区間を探すと、（ＢＣ）が一つのまとまった区間として見つかる。この場合、最後のＣの繰り返し情報に基づいて、（ＢＣ）の内のＣの区間の端点を推定する、といった処理が求められる。

課題４：転調を伴う繰り返しの検出
転調後の区間は、一般に特徴量が大きく変わるために、転調前の区間との類似度が低くなり、繰り返し区間と判断するのが困難となる。特に、転調は曲の後半のサビの繰り返しで起きることが多く、そうした繰り返しを的確に判断することは、サビの検出において重要な課題である。

本発明では、以上の課題を解決しつつ、基本的に楽曲中で多く繰り返される区間をサビとして検出する。以下の実施の形態の説明においては、入力として、音楽のモノラルの音響信号を対象とし、混合音中の楽器の数や種類には特に制限を設けない。ステレオ信号の場合には、左右を混合してモノラル信号に変換するものとする。以下の実施の形態では、以下のことを仮定する。

仮定１：演奏のテンポは一定でなく変化してもよい。しかしサビの区間は、毎回ほぼ類似したテンポで、一定の長さの区間として繰り返し演奏される。その区間は長い方が望ましいが、区間長には、許容される適切な範囲（現在の実装では、７．７〜４０ｓｅｃ）がある。

仮定２：前述した楽曲構造の例の、
（（→Ａメロ〔→Ｂメロ〕）×ｎ1 →サビ）×ｎ2
に相当するような、長い繰り返しがある場合、その末尾の部分がサビである可能性が高い（図２５参照）。

仮定３：サビ区間内では、その区間の半分程度の長さの短い区間が繰り返されることが多い。そのため、ある繰り返し区間内にさらに区間の短い繰り返し区間がある場合には、その区間がサビである可能性が高い（図２６参照）。

以上は、多くのポピュラー音楽に当てはまる妥当な仮定である。本実施の形態においては、上記課題と仮定を前提にしている。

図１は本発明のサビ区間検出方法で、転調を伴う楽曲中のサビ区間を検出する一実施の形態の方法の処理ステップを示すフローチャートである。

（１）本実施の形態では、まず、音響信号（音響信号データ）を得る（ステップＳ１）。

（２）次に、その入力音響信号の各フレームから、細部の変形の影響を受け難い１２次元の特徴量（１２音名各々の周波数のパワーを複数のオクターブに渡って加算した１２次元クロマベクトル）を抽出する（ステップＳ２）。

（３）その抽出された１２次元クロマベクトルの特徴量と過去の全フレームの特徴量との間の類似度を計算する（課題１に対応）（ステップＳ３−１）。次に、判別基準に基づく自動閾値選定法〔非特許文献６〕によって、繰り返しの判断基準を楽曲ごとに自動的に変えながら、繰り返し区間のペアをリストアップする（課題２に対応）（ステップＳ３−２）。そして、それらのペアを楽曲全体に渡って統合することで、繰り返し区間のグループを作り、それぞれの端点も適切に求める（課題３に対応）（ステップＳ３−３）。

（４）ここで、転調を考慮に入れた場合、クロマベクトルの各次元は音名に対応しているため、その転調幅に応じて次元間で値をシフトさせた転調後のクロマベクトルと、転調前のクロマベクトルとは値が近くなる。そこで、そのように１２種類の転調先を考慮して、転調前後のクロマベクトルの類似度を計算する。それを出発点として、上記の繰り返し区間の検出処理も１２種類分行い、それら全ての繰り返し区間を統合する（課題４に対応）（ステップＳ４）。

（５）最終的に、得られた各区間のサビらしさを上記の仮定に基づいて評価する（ステップＳ５）。

（６）最もサビらしい区間の一覧を出力する（ステップＳ６）。

（７）同時に、中間結果として得られた繰り返し構造も出力する（ステップＳ７）。

また図２は、本発明のサビ区間を検出する装置の実施の形態の一例の構成の概略を示すブロック図である。この装置では、図１の方法も当然にして実現可能である。さらに図３は、図２の装置をコンピュータを利用して実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。図２の装置の構成を説明しながら、併せて図１のステップと図３のフローチャートのステップについて説明する。

まずサンプリング手段１は、所定のサンプリング幅を持って重複しながらデータのサンプリングを行うハニング窓等のサンプリング技術を用いて、所定の時間単位（例えば８０ｍｓ）で、入力されてくる音楽音響データについてサンプリングを行う（図３のサンプリングステップＳＴ１）。データが音響信号であれば、サンプリングされるデータは、非常に短い断片（フレーム）の音響信号である。

特徴量抽出手段３は、サンプリング手段１で時間単位でサンプリングしたデータについて、音響特徴量を求める（図３の特徴量抽出ステップＳＴ２）。ここで特徴量抽出手段３で採用する音響特徴量の求め方は任意である。この実施の形態では、特徴量抽出ステップで求める音響特徴量として、１オクターブの範囲に含まれる１２の音名の周波数のパワーを複数のオクターブに渡ってそれぞれ加算して得た１２次元クロマベクトル（ｃｈｒｏｍａｖｅｃｔｏｒ）を用いる。

ここで図４及び図５を用いて１２次元クロマベクトルについて説明する。クロマベクトルは、非特許文献７に開示されているクロマ（音名，ｃｈｒｏｍａ）を周波数軸として、パワーの分布を表現した特徴量である。ここでクロマベクトルは、非特許文献８のｃｈｒｏｍａｓｐｅｃｔｒｕｍのクロマの軸を１２個の音名に離散化したものに近いものである。図４に示すように、非特許文献７によれば、音楽的な音高の知覚（音楽的高さと音色的高さ）は上に昇る螺旋状の構造を持つ。そして音楽的な音高の知覚は、この螺旋を真上から見た円周上のクロマと、横から見たときの縦方向のハイト（オクターブ位置，ｈｅｉｇｈｔ）の二つの次元で表現することができる。クロマベクトルでは、パワースペクトルの周波数軸がこの螺旋状の構造に沿っていると見なし、螺旋をハイト軸方向につぶして円にすることで、周波数スペクトルを円周上（１周が１オクターブ）のクロマの軸だけで表現する。つまり、異なるオクターブの同じ音名の位置のパワーを加算して、クロマ軸上のその音名の位置のパワーとする。

本実施の形態では、図５に示すように、このクロマベクトルを１２次元で表し、クロマベクトルの各次元の値が平均律の異なる音名のパワーを表すものとする。図５では、６オクターブの同じ音名の位置のパワーをそれぞれ加算してクロマ軸上のその音名の位置のパワーとする状態を示している。１２次元のクロマベクトルを得るためには、まず時刻ｔの入力音響信号に対する短時間フーリエ変換（ＳＴＦＴ）を計算する。その後、短時間フーリエ変換（ＳＴＦＴ）で求めた演算結果を、周波数軸を対数スケールの周波数ｆに変換して、パワースペクトルΨｐ（ｆ，ｔ）を求める。対数スケールの周波数はｃｅｎｔの単位で表し、Ｈｚで表された周波数ｆＨｚを、次のようにｃｅｎｔで表された周波数ｆｃｅｎｔに変換する。

ｆｃｅｎｔ＝１２００ｌｏｇ２〔ｆＨｚ／（４４０×２^{３／１２−５}）〕 …（１）
平均律の半音は１００ｃｅｎｔに相当し、１オクターブは１２００ｃｅｎｔに相当する。そのため、音名ｃ（ｃは１≦ｃ≦１２の整数で、クロマに対応）、オクターブ位置ｈ（ハイトに対応）の周波数Ｆ_ｃ，ｈｃｅｎｔは、
Ｆ_ｃ，ｈ＝１２００ｈ＋１００（ｃ−１） …（２）
と表せる。

この対数スケール軸のパワースペクトルΨｐ（ｆ，ｔ）から音名ｃの位置のパワーをＯｃｔ_ＬからＯｃｔ_Ｈ（現実の実装では、３〜８）のオクターブ範囲で加算して、１２次元クロマベクトルの各次元ｖｃ（ｔ）を下記式（３）で求める。

を求める。ここで、ＢＰＦ_ｃ，ｈ（ｆ）は、音名ｃ、オクターブ位置ｈの位置のパワーを通過させるバンドパスフィルタであり、下記式（４）のように、ハニング窓の形状で定義する。

こうして得られたクロマベクトルを特徴量とすることで、繰り返す度に繰り返し区間のメロディーや伴奏が多少変わっても、繰り返し区間全体の響き（同時に鳴っている音名の構成）が類似していれば、その区間は繰り返し区間として検出できる。さらに、後述するように、類似度の工夫によって転調された繰り返し区間の検出も可能となる。

なお現在作成している装置では、音響信号を標本化周波数１６ｋＨｚ、量子化ビット数１６ｂｉｔでＡ／Ｄ変換している。そして窓関数ｈ（ｔ）として窓幅４０９６点のハニング窓を用いた短時間フーリエ変換（ＳＴＦＴ）を、高速フーリエ変換（ＦＦＴ）で計算する。高速フーリエ変換（ＦＦＴ）のフレームは、１２８０点ずつシフトし、すべての処理の時間単位（１フレームシフト）を８０ｍｓとする。

図２に戻って、上記のようにして求めた特徴量は、特徴量記憶手段５に記憶される。そして類似度演算手段７は、それまでに入力された音楽音響データについて求めた複数の音響特徴量の相互間の類似度を求める（図３の類似度演算ステップＳＴ３）。類似度を求める際に用いる演算式は、任意であり、公知の類似度演算式のいずれを用いてもよい。そして繰り返し区間リストアップ手段９は、類似度に基づいて音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする（図３の繰り返し区間リストアップステップＳＴ４）。

類似度演算手段７では、今回求めた音響特徴量と先に求めた全ての音響特徴量との間の類似度を求めている。これによってリアルタイムにサビ区間を検出することが可能になる。具体的な類似度演算手段７では、図６及び図７に示すように、時刻ｔの１２次元クロマベクトル（音響特徴量）とそれよりラグｌ（０≦ｌ＜ｔ）（ｌはアルファベットＬの小文字）だけ過去の全ての１２次元クロマベクトルとの間の類似度を求めることになる。１２次元クロマベクトル間の類似度の計算（図３のステップＳＴ３）について説明する。

時刻ｔの１２次元クロマベクトルｖ（ｔ）（但しここでｖはベクトル）と、それよりラグ（ｌａｇ）ｌ（０≦ｌ≦ｔ）だけ過去の１２次元クロマベクトルｖ（ｔ−ｌ）（但しここでｖはベクトル）との類似度ｒ（ｔ，ｌ）を下記式（５）に基づいて求める。

上記式（５）において、分母の（１２）^１／２は、１辺の長さがラグｌの１２次元超立方体の対角線の長さであることを示している。上記式（５）中の分子中の下記式（６）は、常にその超立方体の原点を含まない面上に位置するため、０≦ｒ（ｔ，ｌ）≦１となる。

すなわち類似度ｒ（ｔ，ｌ）は、各時刻ｔのクロマベクトルを最大要素で正規化し、ラグｌだけ過去のクロマベクトルとユークリッド距離を計算し、その計算結果を１から引いた値である。

次に、繰り返し区間リストアップ手段９における繰り返し区間のリストアップ（図３のステップＳＴ４）について説明する。図８は、ある楽曲に対する後述する類似線分、類似度ｒ（ｔ，ｌ）、パラメータ空間Ｒａｌｌ（ｔ，ｌ）の概念図である。繰り返し区間リストアップ手段９では、図８に示すように、一方の軸を時間軸とし他方の軸をラグ軸とし、予め定めた時間長さ以上類似度が予め定めた閾値以上ある場合には、類似線分を時間軸を基準にした繰り返し区間としてリストアップする。図８においては、類似線分を時間軸と平行に表示している。なおこのリストアップは、演算上のリストアップであればよく、実際的に表示手段上にリストアップする必要はない。したがって時間軸及びラグ軸も理論上の軸であればよい。ここで「類似線分」の概念は、本願明細書において定義するものである。「類似線分」とは、予め定めた時間長さ以上類似度が予め定めた閾値以上あるときに、閾値以上ある類似度の部分の長さに対応する時間長さを有する線分として定義される。なお類似度の大きさは、類似線分に現れることはない。また閾値を適宜に変更または調整することにより、ノイズを除去することが可能になる。

図８において、類似度ｒ（ｔ，ｌ）は右下半分の三角形内で定義される。実際に得られるｒ（ｔ，ｌ）は、図９に示すように、ノイズを多く含み、サビに関連しない類似線分も存在して曖昧なことが多い。

リストアップのために、類似度ｒ（ｔ，ｌ）に基づいて、どの区間が繰り返されているかを調べる。図８に示すように、類似度ｒ（ｔ，ｌ）を、横軸が時間軸ｔ、縦軸がラグ軸ｌのｔ−ｌ平面に描画すると、繰り返されている区間に対応して、時間軸に平行な線分（類似度が連続して高い領域）が現れる。そこで、時刻Ｔ１からＴ２の区間（以下、［Ｔ１，Ｔ２］と表記する）に渡ってラグ軸Ｌ１の位置に高い類似度を持つ線分を類似線分と呼び、［ｔ＝［Ｔ１，Ｔ２］，ｌ＝Ｌ１］で表す。これは、［Ｔ１，Ｔ２］と［Ｔ１−Ｌ１，Ｔ２−Ｌ１］が繰り返し区間であることを意味する。よって、ｒ（ｔ，ｌ）中の類似線分をすべて検出すれば、繰り返し区間の一覧が得られる。

ここで類似線分の考え方について簡単に説明する。例えば、ｔ−ｌ平面に図１０に示すように、繰り返し区間を示す類似線分が現れている場合を考える。図１０の横軸の下に示したアルファベットの表記は、それまでに入力された音響信号がＡメロ→Ｂメロ→サビ（Ｃ）→サビ（Ｃ）であることを示している。このような類似線分が現れているのは、サビＣが２回連続しているためである。すなわち図１１に示すように、前のサビＣの区間と後のサビＣの区間との間の類似度は、最後のサビＣの区間と他の最初の二つの区間（Ａ，Ｂ）との類似度と比べて高くなるため、最後のサビＣに対応する時間位置で且つラグｌが前のサビＣの位置に対応する部分にサビＣと同じ時間長さの類似線分が現れるのである。さらに時間が過ぎて、図１２のようになったと仮定する。図１２においては、理解を容易にするために、特徴量が対比された区間を各Ａ，Ｂ，Ｃのアルファベットの右下に数字で示してある。例えば「Ａ_１２」の表示は、Ａ１区間のＡメロとＡ２区間のＡメロの特徴量の類似度が演算されて、その類似度が高いために現れた類似線分であることを示している。同じく「Ｃ_３６」はＣ３区間のサビ区間とＣ６区間のサビ区間の特徴量の類似度が演算されて、その類似度が高いために現れた類似線分であることを示している。なお１つのサビ区間内においてサビの２度の繰り返しがある場合には、図１３に示すように類似線分が現れることになる。

この線分検出をコンピュータを用いて演算により実行する場合には、画像処理においてロバストな直線検出方法として多用されるハフ（Ｈｏｕｇｈ）変換を用いる。ハフ変換では、ｔ−ｌ平面における求めたい直線をパラメータａ，ｂを用いてｌ＝ａｔ＋ｂで表すとき、画素（Ｔ，Ｌ）ごとにパラメータ空間にｂ＝Ｌ−ａＴの軌跡を描く（画素の輝度を累積する）。そして、多くの軌跡が交わる点（累積値の大きい点）のパラメータを持つ直線が、画像中に存在するものとみなす。類似線分の検出の場合には、時間軸に平行な線分だけを求めればよいので上記の直線の傾きは常に０となり、パラメータ空間は１次元と単純化される。

具体的には、時刻ｔにおけるパラメータ空間Ｒａｌｌ（ｔ，ｌ）は、下記式（７）から求めることができる。

図８に示されるように、上記Ｒａｌｌ（ｔ，ｌ）が大きい値を持つｌの位置に類似線分が存在する可能性が高いと考える。

なお、広帯域ノイズ等に起因する各成分がほぼ等しいクロマベクトルからは、他のクロマベクトルへの距離が比較的近くなってしまう傾向があり、ｒ（ｔ，ｌ）中に類似度の高い直線（以下、ノイズ直線と呼ぶ）として現れることがある。このノイズ直線は、ｔ−ｌ平面において、時間軸に垂直（上下）方向、あるいは、斜め右上・左下方向に現れる。そこで、前処理として式（７）の計算前にノイズ直線の抑制を行う。まず、各ｒ（ｔ，ｌ）において、右、左、上、下、右上、左下の６方向の近傍区間の平均値を計算し、その最大値と最小値を求める。そして、右か左の方向の近傍区間の平均値が最大のときは、類似線分の一部とみなして、強調するためにｒ（ｔ，ｌ）から最小値を引く。その他の方向の近傍空間の平均値が最大のときは、ノイズ直線の一部とみなして、抑制するためにｒ（ｔ，ｌ）から最大値を引く。このようにして求めたＲａｌｌ（ｔ，ｌ）は、図１４の右側に示すような線図となる。

上記のように、Ｒａｌｌ（ｔ，ｌ）を求めた後の類似線分の検出は、以下の手順１及び２に従って行う。

手順１：線分候補ピークの検出
図１４の右側の線図に示されるＲａｌｌ（ｔ，ｌ）中の十分に高いピークを、線分候補ピークとして検出する。まず、Ｒａｌｌ（ｔ，ｌ）のｌａｇ軸方向のピークを、２次多項式適合による平滑化微分を用いたピーク検出〔非特許文献９〕により求める。具体的には、下記式（８）で求めるＲａｌｌ（ｔ，ｌ）の平滑化微分が正から負に変わる箇所をピークとする（ＫＳ_ｉｚｅ＝０．３２_ｓｅｃ）。

ただし、このピーク検出の前に、Ｒａｌｌ（ｔ，ｌ）のｌａｇ軸方向に、２階のカーディナルＢ−スプライン関数を重み関数とする移動平均によってスムージングをかけたものを引いて、ｒ（ｔ，ｌ）のノイズ成分等の蓄積による大局的な変動を取り除いておく〔Ｒａｌｌ（ｔ，ｌ）にハイパスフィルタをかけることに相当する〕。

次に、こうして得られたピークの集合から、ある閾値より大きいピークのみを、線分候補ピークとして選ぶ。前述の課題２で述べたように、この閾値は楽曲ごとに適切な値が異なるため、楽曲に基づいて自動的に変える必要がある。そこで、Ｒａｌｌ（ｔ，ｌ）のピーク値を閾値によって二つのクラスに分けるときに、クラス分離度を最大とする判別基準に基づく自動閾値選定法〔非特許文献６〕を用いる。この自動閾値選定法は、図１５に示すように閾値によって二つのクラスに分けるという考え方を採用している。ここでは、クラス分離度としてクラス間分散
σ^２ _Ｂ＝ω_１ω_２（μ_１−μ_２）^２ …（９）
を最大とする閾値を求める。ただし、ω_１ω_２は、閾値によって分けられた二つのクラスの生起確率（各クラスのピーク個数／全体のピーク個数）、μ_１、μ_２は、各クラスのピーク値の平均である。

手順２：類似線分の探索
図１６に示すように、各線分候補ピークのｌａｇ軸上の位置ｌにおいて、類似度ｒ（ｔ，ｌ）の時間軸方向を一次元関数とみなして、それが連続して十分高い区間を探索し、類似線分とする。

まず、ｒ（ｔ，ｌ）の時間軸方向に、２階のカーディナルＢ−スプライン関数を重み関数とする移動平均によってスムージングをかけたｒ_{ｓｍｏｏｔｈ}（ｔ，ｌ）を求める。次に、ｒ_{ｓｍｏｏｔｈ}（ｔ，ｌ）中で、ある閾値を連続して越えているすべての区間のうち、一定の長さ（６．４ｓｅｃ）以上のものを類似線分として求める。この閾値も、上記の判別基準に基づく自動閾値選定法により定める。ただし、今度はピーク値を扱うのではなく、ピーク値が高い上位５個の線分候補ピークを選び、それらのラグｌの位置のｒ_{ｓｍｏｏｔｈ}（τ，ｌ）（ｌ≦τ≦ｔ）がとる値を二つのクラスに分ける。

上記のようにしてリストアップされた繰り返し区間のリストは、図２に示すリスト記憶手段１１に記憶される。統合繰り返し区間決定手段１３は、リスト記憶手段１１に記憶されたリストから複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある１以上の繰り返し区間を統合して一つの統合繰り返し区間を決定する。そして統合繰り返し区間決定手段１３は、さらに決定した複数の統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する。

この統合繰り返し区間決定ステップ（図３のＳＴ５）では、図１７に示すように、前述のｔ−ｌ平面における時間軸の共通区間に存在するリストアップした類似線分どうしをそれぞれグルーピングにより統合して統合繰り返し区間ＲＰと定める。そして複数の統合繰り返し区間ＲＰを、共通区間の位置及び長さとグルーピングされる類似線分のラグ軸で見た位置関係とに基づいて複数種類の統合繰り返し区間列に分類する。

より具体的には、図１７に示すように、リストアップされた複数の繰り返し区間Ｃ_１２〜Ｃ_５６（類似線分）の相互関係は、時間軸上の共通区間に対応する過去のラグ位置に１以上の繰り返し区間Ｃ_１２〜Ｃ_５６（類似線分）が存在するか否かと、そのラグ位置に対応する過去の時間帯において繰り返し区間（類似線分）が存在するか否かの関係である。例えば、Ｃ６の共通区間に繰り返し区間を示す類似線分Ｃ_１６がある場合、その繰り返し区間のラグ位置に対応する過去のラグ位置にも類似線分Ｃ_１２があるという関係である。これらの関係に基づいて、このステップでは、共通区間に対応する過去のラグ位置に１以上の繰り返し区間（類似線分）がある場合に、それらをグルーピング化してその共通区間に繰り返し区間（類似線分）があるものと決定し、その繰り返し区間を統合繰り返し区間ＲＰ２，ＲＰ５，ＲＰ６等とする。ただし、図１８に示すように、本来存在している最初の繰り返し区間に対応しては、過去の時間帯には類似線分は無い。そのため最初の繰り返し区間に対応する統合繰り返し区間ＲＰ１については、最初の統合繰り返し区間ＲＰ２とその共通区間に存在する類似線分Ｃ_１２を基準にして補足する。なおこの補足は、プログラミングによって簡単に実現できる。このようにして１種類の統合繰り返し区間列が作られる。

図１９は、共通区間の長さが長い場合の統合繰り返し区間ＲＰ１及びＲＰ２の列を作る場合の状況を示している。図２０は、図１３のようにサビ区間に２回の繰り返しがあるために、統合繰り返し区間ＲＰの共通区間の長さが図１７及び図１８の統合繰り返し区間列を構成する統合繰り返し区間の１／２になる場合の状況を示している。このようにして統合繰り返し区間決定ステップでは、決定した複数の統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する。この分類化は、共通区間の長さの共通性と、共通区間に存在する繰り返し区間（類似線分）の位置関係と数との関係に基づいて行われる。

統合繰り返し区間決定手段１３により決定した、統合繰り返し区間は統合繰り返し区間列として統合繰り返し区間記憶手段１５に記憶される。図２１は、統合繰り返し区間列を表示手段１８に表示した一例を示している。

前述の統合繰り返し区間決定手段１３で実行されている統合処理をコンピュータを用いてより高い精度で実行する場合のより具体的な手順について説明する。前述の各類似線分は、ある区間が二回繰り返されていることだけを表すため、例えばＡとＡ′のペア、Ａ′とＡ″のペアが、それぞれ繰り返し区間として検出されたときには、それらを一つの繰り返し区間のグループとして統合する必要がある。ここで、ある区間がｎ回（ｎ≧３）繰り返されている場合には、もれなく検出されるとすると、ｎ（ｎ−１）／２本の類似線分が検出される。そこで、同じ区間の繰り返しを表す類似線分をグルーピングし、繰り返し区間を統合する。さらに、もれていた類似線分の検出や、得られた類似線分が適切であるかの検証も行う。

この統合処理は、以下の手順で実現する。

手順１：類似線分のグルーピング
ほぼ同じ区間の類似線分を、一つのグループにまとめる。各グループφ_ｉ＝［［Ｔｓ_ｉ，Ｔｅ_ｉ］，Υ_ｉ］は、区間［Ｔｓｉ，Ｔｅｉ］と、類似線分（区間が決まれば、線分候補ピークと対応する）のｌａｇ値υ_ｉｊの集合Υ_ｉ＝｛υ_ｉｊ｜ｊ＝１，２，…，Ｍ_ｉ｝（Ｍ_ｉはピークの個数）で表される。そして、この類似線分のグループφ_ｉの集合を、Φ＝｛φ_ｉ｜ｉ＝１，２，…，Ｎ｝（Ｎはグループの個数）とする。

手順２：線分候補ピークの再検出
グループφ_ｉごとに、区間［Ｔｓ_ｉ，Ｔｅ_ｉ］内の類似度ｒ（ｔ，ｌ）に基づいて、類似線分を改めて求めなおす。これにより、もれていた類似線分の検出ができ、例えば、図８で、ＡＢＣＣの繰り返しに相当する長い類似線分上で、Ｃの繰り返しに相当する類似線分２か所が得られていなくても、この処理で検出されることが期待できる。

まず、［ＴＳ_ｉ，Ｔｅ_ｉ］内に限定して、ハフ変換のパラメータ空間Ｒ_{［ＴＳｉ，Ｔｅｉ］}（ｌ）（０≦ｌ＜ＴＳ_ｉ）を下記式（１０）で作成する。

次に、前述の線分候補ピークの検出と同様に、平滑化微分を用いたピーク検出を行い（ＫＳ_ｉｚｅ＝２．８_ｓｅｃ）、自動閾値選定法で定めた閾値を越えた線分候補ピークのｌａｇ値υ_ｉｊの集合を、改めてΥ_ｉとする。

自動閾値選定法では、Φの全グループの区間におけるＲ_{［ＴＳｉ，Ｔｅｉ］}（ｌ）のピーク値を、二つのクラスに分けるようにする。

手順３：類似線分の適切さの検証１
サビと無関係な類似線分からなるグループφ_ｉ、あるいは、Υ_ｉの中で無関係な線分と考えられるピークを削除する。

似た伴奏の繰り返しが多用される楽曲の場合サビと関係ない線分候補ピークがＲ_{［ＴＳｉ，Ｔｅｉ］}（ｌ）に等間隔に多く現れる傾向がある。

そこで、Ｒ_{［ＴＳｉ，Ｔｅｉ］}（ｌ）に対して平滑化微分を用いたピーク検出を行い、一定間隔（間隔は任意）で連続して並ぶ高いピークの個数が１０個より多いときサビと無関係な類似線分からなるグループだと判断し、そのグループをΦから削除する。

また、一定間隔で連続して並ぶ低いピークの個数が５個より多いとき、サビと無関係な線分候補ピークだと判断し、その一連のピークをΥ_ｉから削除する。

手順４：類似線分の適切さの検証２
Υ_ｉの中には、区間［Ｔｓ_ｉ，Ｔｅ_ｉ］の一部分だけ類似度が高いピークが含まれることがあるため、そうした類似度の変動の大きいピークを削除する。そこで、当該区間のｒ_{ｓｍｏｏｔｈ}（τ，ｌ）の標準偏差を求め、ある閾値より大きいものはΥ_ｉから削除する。この閾値は、φ_ｉの中で、上記で求めた類似線分に対応する線分候補ピークは信頼できると考え、それらのピークでの上記標準偏差の最大値を定数倍（１．４倍）して定める。

手順５：類似線分の間隔の考慮
繰り返し区間が重ならないようにするために、ｌａｇ軸上で隣接する類似線分（線分候補ピーク）の間隔を、線分の長さＴｅ_ｉ−Ｔｓ_ｉ以上とする必要がある。そこで、線分の長さより狭い間隔を持つ二つのピークのいずれかを、全体として高いピーク集合が残るように削除し、すべての間隔が類似線分の長さ以上になるようにする。

手順６：共通区間を持つグループを統合
Υ_ｉの各ピークについて、そのｌａｇ値υ_ｉｊだけの過去の区間［Ｔｓ_ｉ−υ_ｉｊ，Ｔｅ_ｉ−υ_ｉｊ］のグループがあるかを探索し、発見したら統合する。統合処理では、発見したグループのすべてのピークを、対応するｌａｇ値の場所に持つように、Υ_ｉに線分候補ピークを追加する。発見したグループ自体は削除する。

さらに、区間［Ｔｓ_ｉ−υ_ｉｊ，Ｔｅ_ｉ−υ_ｉｊ］に一致する線分候補ピークを持つグループΥ_ｋ（グループの区間自体は異なる）があるかも探索し、発見したら統合するか判断する。この場合、Υ_ｋの過半数のピークがΥ_ｉに含まれていれば、上記同様の統合処理を行う。含まれていなければ、Υ_ｉとΥ_ｋで同じ区間を指しているピークを比較し、低い方を削除する。上記で実際に統合がなされたら、後処理として手順５の処理を再び行う。

次に、転調を伴う繰り返しの検出（図１のステップＳ４）について説明する。以上述べてきた処理は転調を考慮していなかった。しかし上記の処理は、以下のように転調を扱える処理へと容易に拡張できる。図２２に示すように、転調前と転調後の１２次元クロマベクトルは異なる。そこで特徴量抽出ステップ（図１のステップＳ２）では、図２３に示すように、１２次元クロマベクトルからなる音響特徴量を１転調幅ずつ１１転調幅までシフトして得た転調幅の異なる１２種類の音響特徴量を求める。次に類似度演算ステップ（図１のステップＳ３−１）では、今回求めた音響特徴量と先に求めた全ての１２種類の音響特徴量との間の類似度を、時刻ｔの今回の音響特徴量を表す１２次元クロマベクトルとそれよりラグｌ（０≦ｌ＜ｔ）だけ過去の全ての１２種類の音響特徴量を表す１２次元クロマベクトルとの間の類似度として演算する。そして繰り返し区間リストアップステップ（図１のステップＳ３−２）では、図２４に示すように、１２種類の音響特徴量ごとに、一方の軸を時間軸ｔとし他方の軸をラグｌとし、予め定めた時間長さ以上類似度が予め定めた閾値以上ある場合には類似度が予め定めた閾値以上である部分の長さに対応する時間長さを有する類似線分を時間軸を基準にした繰り返し区間としてそれぞれ１２種類のリストをリストアップする。統合繰り返し区間決定ステップ（図１のステップＳ３−３及びＳ４）では、１２種類のリストごとに、時間軸の共通区間に存在するリストアップした類似線分どうしをそれぞれグルーピングにより統合して統合繰り返し区間と定める（Ｓ３−３）。さらに１２種類のリストについて定めた複数の統合繰り返し区間を共通区間の時間軸上の存在位置及び長さと、グルーピングされる類似線分のラグ軸で見た位置関係とに基づいて複数種類の転調を考慮した複数種類の統合繰り返し区間列に分類化する（Ｓ４）。このようにすると、転調を含んだ音楽音響データであっても、転調した部分の特徴量を１１段階の転調幅のシフトでずらして類似度を求めるため、転調した部分の特徴量を正しく抽出することができる。

楽曲が転調を含んでいる場合に、これをコンピュータを用いてより具体的に処理する場合には、上記の処理を以下のとおりにする。ここで、転調は平均律の半音ｔｒ個分上の調へ変わることで表すことにする。ｔｒは０，１，…，１１の１２種類の値を取るものとする。ｔｒ＝０は転調しないことを意味し、ｔｒ＝１０は半音１０個分上か、全音分下へ転調することを意味する。

１２次元クロマベクトルｖ（ｔ）（ここでｖはベクトル）は、各次元ｖ_ｃ（ｔ）の値を次元間でｔｒ個分だけシフトさせることで、転調を表現できる特長を持つ。具体的には、ある演奏の１２次元クロマベクトルをｖ（ｔ）（ここでｖはベクトル）とし、それをｔｒ個上へ転調した演奏の１２次元クロマベクトルをｖ（ｔ）´（ここでｖはベクトル）とすると、
ｖ（ｔ）≒Ｓ^ｔｒｖ（ｔ）´ …（１１）
となる。

ただし、Ｓはシフト行列で、以下の式（１２）のように１２次正方行列を一つ右にシフトした行列として定義される。

転調を伴う繰り返しの検出の処理手順を以下に述べる。まず、クロマベクトルのこの特長を利用し、ｔｒごとの１２種類の類似度r_ｔｒ（ｔ，ｌ）を下記式（１３）と定義しなおす。

次に、それぞれの類似度r_ｔｒ（ｔ，ｌ）に対して、前述した繰り返し区間のリストアップをする。ただし、自動閾値選定法はｔｒ＝０のときだけ適用し、他のｔｒでは、ｔｒ＝０で定めた閾値を用いる。これにより、転調のない曲で、ｔｒ＝０以外のときに類似線分が誤検出されにくくなる。そして、こうして得られた各ｔｒごとの類似度と類似線分に対して、前述の統合処理を行う。その結果、ｔｒごとに別々の類似線分のグループφ_ｔｒ，ｉの集合Φ_ｔｒが得られる。そこで前述した、共通区間を持つグループの統合の処理を、ｔｒ間にまたがって行う（異なるｔｒに対して共通区間を持つグループを探索する）ことで、転調を含む繰り返し区間を一つのグループとして統合する。ただし、前出の処理では「Υ_ｋの過半数のピークがΥ_ｉに含まれていれば、上記同様の統合処理を行う」とあるが、ここでは常に統合処理を行う。

以下、異なるｔｒから得られたグループも合わせて、Φ＝｛φ_ｉ｝で表す。転調区間が後から分かるように、どのｔｒから統合されたかという情報は保存しておく。

図２に戻って、サビ区間決定手段１７では、統合繰り返し区間記憶手段１５に記憶された統合繰り返し区間列からサビ区間を決定する。なお図２の例では、サビ区間を含む統合繰り返し区間列または複数種類の統合繰り返し区間列は、表示手段１８に表示される（図２７参照）。そしてサビ区間を含む統合繰り返し区間列が他の統合繰り返し区間列とは異なる表示態様で表示される。このようにすると検出したサビ区間を他の繰り返し区間とは区別して明瞭に表示することができる。なおこの例では、統合繰り返し区間列を、表示手段１８に表示させながら選択手段２１で選択して、音響の再生手段２３でサビ区間を含む統合繰り返し区間列またはその他の統合繰り返し区間列を選択的に再生することができる。

図１及び図３のサビ区間決定ステップ（Ｓ５、ＳＴ６）では、例えば、統合繰り返し区間列に含まれる統合繰り返し区間の類似度の平均と、統合繰り返し区間の数と長さとに基づいて統合繰り返し区間列に含まれる統合繰り返し区間のサビらしさを求める。そして、最もサビらしさの高い統合繰り返し区間列に含まれる統合繰り返し区間をサビ区間として選択する。最初に図２５及び２６を用いて説明した前述の仮定１乃至仮定３を満たす統合繰り返し区間は、一般的にはサビらしさが高い。

上記の仮定を考慮して、コンピュータを用いてサビ区間を自動的に選択する方法について以下に説明する。前述の類似線分のグループの集合Φの中から、ある一つのグループをサビ区間として選ぶ。そのために、各グループφ_ｉのサビらしさυ_ｉを、類似線分の平均類似度や上記した仮定に基づいて評価し、最もサビらしさυ_ｉの高いグループをサビ区間であると判定する。その準備として、グループごとに、類似線分（線分候補ピークυ_ｉｊ）をそれが指す二つの区間へ展開し、すべての繰り返し区間［Ｐｓ_ｉｊ，Ｐｅ_ｉｊ］とその信頼度λ_ｉｊのペアの集合を下記式（１４）により求める。

Λｉ＝｛［［Ｐｓ_ｉｊ，Ｐｅ_ｉｊ］，λ_ｉｊ］｜ｊ＝１，２，…，Ｍ_ｉ＋１｝ …（１４）
ここで、［Ｐｓ_ｉｊ，Ｐｅ_ｉｊ］＝［Ｔｓ_ｉ−υ_ｉｊ，Ｔｅ_ｉ−υ_ｉｊ］とし、信頼度λ_ｉｊは、対応する類似線分における類似度r_ｔｒ（ｔ，ｌ）の平均とする。ただし、ｊ＝Ｍ_ｉ＋１のときは、下記式（１５）のようになる。

サビらしさυ_ｉは、以下の手順で評価する。

（１）仮定２を満たす統合繰り返し区間の信頼度を増加
仮定２で述べたＡメロ〜サビに相当するような十分に長い統合繰り返し区間（５０ｓｅｃ以上）を持つグループ（統合繰り返し区間列）φ_ｈに関して、その各区間の終了点Ｐｅ_ｈｋとほぼ等しい終了点Ｐｅ_ｉｊを持つ区間が他のグループ（他の統合繰り返し区間列）にあるか探索する。発見されれば、発見されたその統合繰り返し区間がサビである可能性が高いと考え、その信頼度λ_ｉｊを２倍する。

（２）仮定３を満たす統合繰り返し区間の信頼度を増加
サビとして適切な区間長の範囲（仮定１）の統合繰り返し区間［Ｐｓ_ｉｊ，Ｐｅ_ｉｊ］に関して、その区間の半分程度の短い統合繰り返し区間が前半と後半に一つずつ存在するか調べる。存在する場合には、それら二つの区間の信頼度の平均の半分を、元の区間の信頼度λ_ｉｊに加える。

（３）サビらしさを算出
上記で得られた信頼度に基づき、サビらしさを下記式（１６）で算出する。

上記式（１６）において、Σの項は、グループ（統合繰り返し区間列）φ_ｉ中にある統合繰り返し区間の数が多いほど、また、それらの信頼度が高いほど、サビらしさが高いことを意味する。ｌｏｇの項は、そのグループ（統合繰り返し区間列）に含まれる統合繰り返し区間が長いほど、サビらしさが高いことを意味する。定数Ｄｌｅｎは予備実験の結果から１．４ｓｅｃとした。

最終的に、サビとして適切な区間長の範囲（仮定１）を持つグループの中で、下記式（１７）によって決まる集合Λｍ中の区間［Ｐｓ_ｍｊ，Ｐｅ_ｍｊ］を、サビ区間とする。

ここで後処理として、隣接するＰｓ_ｍｊの最小間隔を求め、区間長が最小間隔となるようにＰｅ_ｍｊを移動して各区間を広げ、隙間を埋める。これは、本来はサビ区間が連続して隙間がないにも関わらず、得られた繰り返し区間では隙間が空いてしまうことがあるからである。ただし、埋める隙間が大きすぎるとき（１２ｓｅｃ以上で区間長の半分より広いとき）は埋めない。

図３に示すように、上記のようにサビ区間を決定したら（ステップＳＴ６）、その結果を図２の表示手段１８にリアルタイムで表示する（ステップＳＴ７）。そして、音楽音響データの全データについて上記の処理が終了するまで、上記処理が繰り返される（ステップＳＴ８）。

次に、上記実施の形態のサビ区間検出装置の実際とこの装置を用いた実験結果について説明する。実験では、音楽音響信号を音楽音響データとして入力した。そして検出したサビ区間の一覧をリアルタイムに出力することとした。装置は、刻一刻と、過去の音響信号中でサビ区間と考えられる区間の一覧（リスト）を求め、中間結果として得られた繰り返し構造（繰り返し区間の一覧Λ_ｉ）と共に出力し続ける。この出力を視覚化した例を図２７に示す。図２７において、横軸は時間軸（ｓｅｃ）で楽曲全体を表示しており、上半分がパワー変化、下半分の最上段がサビ区間を含む統合繰り返し区間列の一覧（最後のサビは転調を伴う）、下５段が他の統合繰り返し区間列の繰り返し構造を表す。

評価実験として、「ＲＷＣ研究用音楽データベース：ポピュラー音楽」〔非特許文献１０〕の１００曲（ＲＷＣ−ＭＤＢ−Ｐ−２００１，Ｎｏ．１〜１００）を対象に、本装置のサビ検出性能を調べた。１曲すべてを入力し終わった時点で、サビ区間として検出されたものを対象に評価する。この正誤を判定するためには、基準となる正解のサビ区間を人間が手作業で指定する必要がある。そこで、楽曲を分割して各部にサビ、Ａメロ、Ｂメロ、間奏等をラベリングできる、楽曲構造ラベリング用エディタを開発した。ラベリングでは、相対的な調の移動幅（曲の先頭の調に対して半音何個分上か）も正解に付与する。

こうして作成した正解に基づき、各曲に対する出力結果の区間と正解のサビ区間がどれぐらい重なっているかを、再現率（ｒｅｃａｌｌｒａｔｅ）、適合率（ｐｒｅｃｉｓｉｏｎｒａｔｅ）、および両者を統合したＦ値（Ｆ−ｍｅａｓｕｒｅ）〔非特許文献１１〕の観点から評価した。以下に定義を示す。

再現率（Ｒ）＝正しく検出したサビ区間の長さの合計／正解のサビ区間の長さの合計
適合率（Ｐ）＝正しく検出したサビ区間の長さの合計／検出した区間の長さの合計
Ｆ値＝（β^２＋１）ＰＲ／（β^２Ｐ＋Ｒ）（β＝１を使用）
ただし、転調を伴う場合には、相対的な調の移動幅が正解と一致したときだけ、正しく検出したと判断した。そして、Ｆ値が０．７５以上のとき、その曲のサビ区間を正しく得られた（正答した）と判定した。

評価結果として、１００曲中の正答曲数を表１に示す。

本装置の性能は一番左の８０曲（８０曲の平均Ｆ値は０．９３８）である。誤検出は、サビの繰り返しが他の箇所の繰り返しより多くなかったり、曲中ほとんどが類似伴奏の繰り返しだったりしたのが主な原因だった。１００曲中には、サビに転調のある曲が１０曲含まれているが、そのうち９曲は検出できていた。前述の転調を伴う繰り返しの検出をやめた場合、左から二番目のように性能が落ちた。一方、仮定２、３に基づく信頼度の増加をやめた場合は、右二つのようにさらに性能が落ちた。サビの繰り返しで伴奏やメロディーに大幅な変化を伴う曲は２２曲あったが、そのうち２１曲は検出できており、その中で変化を伴うサビ自体は１６曲で検出できていた。

本発明は、基本的に楽曲中で最も多く繰り返される区間をサビとして検出する。その際、様々な区間の繰り返しを楽曲全体の情報を統合しながら調べることで、従来実現されていなかった、すべてのサビ区間の開始点・終了点の一覧を得ることを可能にした。また、転調後でも繰り返しと判断できるような、クロマベクトル間の類似度を導入したことで、サビの転調も検出できるようなった。ＲＷＣ研究用音楽データベース（ＲＷＣ−ＭＤＢ−Ｐ−２００１）１００曲を用いて評価した結果、８０曲正答でき、実世界の音響信号中のサビ区間が検出できることが確認された。

なお、本発明は音楽要約〔非特許文献１２〕とも関連しており、本発明の装置を楽曲の要約結果としてサビ区間を提示する音楽要約方法と捉えることもできる。さらに、サビ区間よりも長い区間の要約が必要なときには、中間結果として得られた繰り返し構造を用いることで、楽曲全体の冗長性を減らした要約の提示も可能となる。例えば、中間結果として（Ａメロ→Ｂメロ→サビ）の繰り返しが捉えられているときは、それを提示できる。

この実験では、ポピュラー音楽を用いて評価したが、本発明は他の音楽ジャンルにも適用できる可能性を持つ。実際に、数曲のクラシック音楽に適用したところ、その楽曲で最も代表的な主題が提示される部分を求めることができた。

なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づいて種々の変形が可能であり、これらを本発明の範囲から排除するものではない。例えば、音響特徴量として、クロマベクトル以外に、周波数スペクトル、ＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）等を用いてもよい。それらの微分値もさらに音響特徴量として加えることも可能である。また、音響特徴量間の類似度として、以下の三つ等も考えられる。

さらに、本発明は入力を音響信号でなくＭＩＤＩ信号とする場合にも適用でき、その場合には、音響特徴量の代わりにＭＩＤＩ信号もしくはＭＩＤＩ信号特徴量を用い、類似度としてはそれらのＭＩＤＩ信号もしくはＭＩＤＩ信号特徴量間の距離に基づく類似度を用いればよい。

以上、詳細に説明したように、本発明によれば、音楽ＣＤ（ｃｏｍｐａｃｔｄｉｓｃ）等による実世界の複雑な混合音からサビ区間を検出し、各サビの区間の開始点と終了点の一覧を求めることができるだけでなく、転調を伴うサビ区間を検出することも可能である。その際、楽曲全体の中に含まれる様々な繰り返し構造（複数の統合繰り返し区間列）に基づいてサビ区間を検出する。さらに、楽曲全体の中に含まれる様々な繰り返し構造に基づいてサビを検出するため、その中間結果として、繰り返し構造の一覧も同時に得ることができる。

本発明のサビ区間検出方法で、転調を伴う楽曲中のサビ区間を検出する一実施の形態の方法の処理ステップを示すフローチャートである。本発明のサビ区間を検出する装置の実施の形態の一例の構成の概略を示すブロック図である。図２の装置をコンピュータを利用して実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。螺旋状の音高知覚を説明するための図である。１２次元クロマベクトルを説明するために用いる図である。類似度の演算の考え方を説明するために用いる図である。類似度の演算の考え方を説明するために用いる図である。ある楽曲に対する類似線分、類似度ｒ（ｔ，ｌ）、パラメータ空間Ｒａｌｌ（ｔ，ｌ）の概念図である。実際に得られる類似線分の一例を示す図である。類似線分の考え方を説明するために用いる図である。類似線分の考え方を説明するために用いる図である。類似線分の考え方を説明するために用いる図である。類似線分の考え方を説明するために用いる図である。類似線分を求める際の閾値の定め方を説明するために用いる図である。類似線分を求める際の閾値の定め方を説明するために用いる図である。類似線分の抽出方法を説明するために用いる図である。繰り返し区間の統合化を説明するために用いる図である。繰り返し区間の統合化を説明するために用いる図である。繰り返し区間の統合化の例を示す図である。繰り返し区間の統合化の例を示す図である。統合繰り返し区間列の表示例を示す図である。あるサビの転調前後での１２次元クロマベクトルの違いを示す図である。転調に対処するためのシフト処理を説明するために用いる図である。転調処理のために１２種類のリストを作成することを示す図である。サビ区間の選定の仮定の一例を説明するために用いる図である。サビ区間の選定の仮定の一例を説明するために用いる図である。ＲＷＣ−ＭＤＢ−Ｐ−２００１，Ｎｏ．１８の楽曲終了時点での正しいサビ検出結果を示す図である。

符号の説明

１サンプリング手段
３特徴量抽出手段
５特徴量記憶手段
７類似度演算手段
９繰り返し区間リストアップ手段
１１リスト記憶手段
１３統合繰り返し区間決定手段
１５統合繰り返し区間記憶手段
１７サビ区間決定手段
１８表示手段
２１選択手段
２３再生手段

Claims

ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出する方法であって、
前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出ステップと、
前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を求める類似度演算ステップと、
前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップステップと、
リストアップされた前記複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある１以上の前記繰り返し区間を時間軸上に統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定ステップと、
前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定ステップとからなることを特徴とする音楽音響データ中のサビ区間を検出する方法。
前記特徴量抽出ステップで求める音響特徴量は、１オクターブの範囲に含まれる１２の音名の周波数のパワーを複数のオクターブに渡ってそれぞれ加算して得た１２次元クロマベクトルである請求項１に記載の音楽音響データ中のサビ区間を検出する方法。
前記類似度演算ステップでは、今回求めた前記音響特徴量と先に求めた全ての前記音響特徴量との間の前記類似度を求めることを特徴とする請求項２に記載の音楽音響データ中のサビ区間を検出する方法。
前記類似度演算ステップでは、時刻ｔの前記１２次元クロマベクトルとそれよりラグｌ（０≦ｌ＜ｔ）だけ過去の全ての前記１２次元クロマベクトルとの前記類似度を求め、
前記繰り返し区間リストアップステップでは、一方の軸を時間軸とし他方の軸をラグ軸とし、予め定めた時間長さ以上前記類似度が予め定めた閾値以上ある場合には前記類似度が前記予め定めた閾値以上である部分の長さに対応する時間長さを有する類似線分を前記時間軸を基準にした前記繰り返し区間としてリストアップすることを特徴とする請求項３に記載の音楽音響データ中のサビ区間を検出する方法。
統合繰り返し区間決定ステップでは、前記時間軸の共通区間に存在するリストアップした前記類似線分どうしをそれぞれグルーピングにより統合して前記統合繰り返し区間と定め、
複数の前記統合繰り返し区間を、前記共通区間の前記時間軸上の存在位置及び長さとグルーピングされる前記類似線分の前記ラグ軸で見た位置関係とに基づいて前記複数種類の前記統合繰り返し区間列に分類することを特徴とする請求項４に記載の音楽音響データ中のサビ区間を検出する方法。
統合繰り返し区間決定ステップでは、前記統合繰り返し区間に含まれない最初の繰り返し区間を補足して前記統合繰り返し区間列を作成する請求項５に記載の音楽音響データ中のサビ区間を検出する方法。
前記楽曲は転調を含んでおり、
前記特徴量抽出ステップでは、前記１２次元クロマベクトルからなる前記音響特徴量を１転調幅ずつ１１転調幅までシフトして得た転調幅の異なる１２種類の前記音響特徴量を求め、
前記類似度演算ステップでは、今回求めた前記音響特徴量と先に求めた全ての１２種類の前記音響特徴量との間の前記類似度を、時刻ｔの今回の前記音響特徴量を表す前記クロマベクトルとそれよりラグｌ（０≦ｌ＜ｔ）だけ過去の全ての１２種類の前記音響特徴量を表す前記クロマベクトルとの間の類似度として演算し、
前記繰り返し区間リストアップステップでは、１２種類の前記音響特徴量ごとに、一方の軸を時間軸ｔとし他方の軸をラグｌとし、予め定めた時間長さ以上前記類似度が予め定めた閾値以上である部分の長さに対応する時間長さを有する類似線分を前記時間軸を基準にした前記繰り返し区間としてそれぞれ１２種類のリストをリストアップすることを特徴とする請求項１に記載の音楽音響データ中のサビ区間を検出する方法。
統合繰り返し区間決定ステップでは、前記１２種類のリストごとに、前記時間軸の共通区間に存在するリストアップした前記類似線分どうしをそれぞれグルーピングにより統合して統合繰り返し区間と定め、
さらに前記１２種類のリストについて定めた複数の前記統合繰り返し区間を、前記共通区間の前記時間軸上の存在位置及び長さと、グルーピングされる前記類似線分の前記ラグ軸で見た位置関係とに基づいて前記複数種類の転調を考慮した前記複数種類の統合繰り返し区間列に分類化することを特徴とする請求項７に記載の音楽音響データ中のサビ区間を検出する方法。
前記サビ区間決定ステップでは、前記統合繰り返し区間列に含まれる前記統合繰り返し区間の前記類似度の平均と、数と長さとに基づいて該統合繰り返し区間列に含まれる前記統合繰り返し区間のサビらしさを求め、最もサビらしさの高い前記統合繰り返し区間列に含まれる前記統合繰り返し区間を前記サビ区間として決定することを特徴とする請求項１に記載の音楽音響データ中のサビ区間を検出する方法。
ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出して表示手段に表示する装置であって、
前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出手段と、前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を求める類似度演算手段と、
前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップ手段と、
リストアップされた前記複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある１以上の前記繰り返し区間を統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定手段と、
前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定手段とを具備し、
前記複数種類の統合繰り返し区間列が前記表示手段に表示され、
前記サビ区間を含む前記統合繰り返し区間列が他の前記統合繰り返し区間列とは異なる表示態様で表示されることを特徴とする音楽音響データ中のサビ区間を検出する装置。
ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出して表示手段に表示する装置であって、
前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出手段と、前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を求める類似度演算手段と、
前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップ手段と、
リストアップされた前記複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある１以上の前記繰り返し区間を統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定手段と、
前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定手段とを具備することを特徴とする音楽音響データ中のサビ区間を検出する装置。
統合繰り返し区間決定手段は、前記統合繰り返し区間に含まれない最初の繰り返し区間を補足して前記統合繰り返し区間列を作成するように構成されている請求項１１に記載の音楽音響データ中のサビ区間を検出する装置。
ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出して前記サビ区間を再生手段により再生する装置であって、
前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出手段と、前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を求める類似度演算手段と、
前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップ手段と、
リストアップされた前記複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある１以上の前記繰り返し区間を統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定手段と、
前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定手段とを具備し、
前記複数種類の統合繰り返し区間列が選択的に前記再生手段で再生されることを特徴とする音楽音響データ中のサビ区間を検出する装置。
ある楽曲中で繰り返されるサビ区間を検出するためにその楽曲の音楽音響データ中からサビ区間に対応する部分を検出する方法をコンピュータを用いて実現するために用いられるプログラムであって、
前記音楽音響データから所定の時間単位で音響特徴量を順次求める特徴量抽出ステップと、
前記音楽音響データについて求めた複数の前記音響特徴量の相互間の類似度を求める類似度演算ステップと、
前記類似度に基づいて前記音楽音響データ中に繰り返し現れる複数の繰り返し区間をリストアップする繰り返し区間リストアップステップと、
リストアップされた前記複数の繰り返し区間の相互関係を調べ、時間軸上の共通区間にある１以上の前記繰り返し区間を統合して一つの統合繰り返し区間を決定し、決定した複数の前記統合繰り返し区間を複数種類の統合繰り返し区間列に分類化する統合繰り返し区間決定ステップと、
前記複数種類の統合繰り返し区間列から前記サビ区間を決定するサビ区間決定ステップとを前記コンピュータに実行させるように構成されていることを特徴とするプログラム。
統合繰り返し区間決定ステップでは、前記統合繰り返し区間に含まれない最初の繰り返し区間を補足して前記統合繰り返し区間列を作成する請求項１４に記載のプログラム。