JP4775380B2

JP4775380B2 - 楽曲の時間セグメントをグループ化するための装置および方法

Info

Publication number: JP4775380B2
Application number: JP2007533882A
Authority: JP
Inventors: ピンクステレンマルクスヴァン; ミヒャエルザオペ; マルクスクレーマー
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-09-28
Filing date: 2005-07-15
Publication date: 2011-09-21
Anticipated expiration: 2025-07-15
Also published as: JP2008515012A; EP1794743A1; WO2006034743A1; EP1794743B1; DE102004047068A1

Description

本発明は、オーディオセグメンテーションに関し、特に楽曲の解析、すなわち楽曲に含まれ、その楽曲内で繰り返し出現しうる個々の主要部分へのセグメンテーションに関する。

ロックおよびポップ分野の音楽の大半は、イントロ、スタンザ、リフレイン、ブリッジ、アウトロなど、多かれ少なかれ固有のセグメントで構成される。オーディオセグメンテーションの目的は、このようなセグメントの開始時点と終了時点とを検出し、これらのセグメントを最も重要なクラス（スタンザおよびリフレイン）においてそれぞれのメンバシップに応じてグループ化することである。算出された各セグメントの正しいセグメンテーションおよび特徴付けは、さまざまな分野で実際に使用しうる。たとえば、アマゾン（Ａｍａｚｏｎ）、ミュージックライン（Ｍｕｓｉｃｌｉｎｅ）などのオンラインプロバイダからの楽曲は「イントロスキャン」をインテリジェントに行いうる。

インターネット上の大半のプロバイダがそれぞれの試聴見本で提供するものは、楽曲からの短い抜粋のみである。この場合、関心を抱いている者に歌の最初の３０秒またはいずれかの３０秒だけでなく、歌の最も代表的な抜粋を提供することも意味があることは言うまでもない。歌の代表的な抜粋は、たとえば、歌のリフレインとすることも、さまざまな主要クラス（スタンザ、リフレインなど）に属する複数のセグメントで構成された要約とすることもできる。

オーディオセグメンテーション技術のさらに別のアプリケーションの例として、セグメント化／グループ化／マーキングアルゴリズムの音楽プレーヤへの統合が挙げられる。セグメントの先頭およびセグメントの最後に関する情報によって、楽曲の的を絞った検索が可能になる。セグメントのクラスメンバシップ、すなわちセグメントがスタンザ、リフレインなどであるかどうかによって、たとえば次のリフレインまたは次のスタンザへのダイレクトジャンプも可能なる。このようにアルバム全体を試聴する可能性を顧客に提供するアプリケーションは、大きな音楽市場にとって関心の的である。顧客は歌の中の特徴的な部分まで簡単に早送りできるので、その顧客に楽曲を購入させるという結果に至ることもある。

オーディオセグメンテーションの分野には、さまざまなアプローチが存在する。次に、ジョナサン・フートおよびマシュー・クーパーのアプローチを一例として説明する。この方法は、Ｊ．Ｔ．フート（ＦＯＯＴＥ）およびＭ．Ｌ．クーパー（Ｃｏｏｐｅｒ）の「構造上の相似解析によるポピュラー楽曲の要約化（ＳｕｍｍａｒｉｚｉｎｇＰｏｐｕｌａｒＭｕｓｉｃｖｉａＳｔｒｕｃｔｕｒａｌＳｉｍｉｌａｒｉｔｙＡｎａｌｙｓｉｓ）」、オーディオおよびアコースティックスへの信号処理２００３のＩＥＥＥワークショップ（ＩＥＥＥＷｏｒｋｓｈｏｐｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓ２００３）のプロシーディングと、Ｊ．Ｔ．フート（ＦＯＯＴＥ）およびＭ．Ｌ．クーパー（ＣＯＯＰＥＲ）の「自己相似分解を用いたメディアセグメンテーション（ＭｅｄｉａＳｅｇｍｅｎｔａｔｉｏｎｕｓｉｎｇＳｅｌｆ−ＳｉｍｉｌａｒＤｅｃｏｍｐｏｓｉｔｉｏｎ）」、マルチメディアデータベースのための保存および検索ＳＰＩＥ（ＳＰＩＥＳｔｏｒａｇｅａｎｄＲｅｔｒｉｅｖａｌｆｏｒＭｕｌｔｉｍｅｄｉａＤａｔａｂａｓｅｓ）のプロシーディング、２００３年１月、第５０２１巻、１６７−７５頁とに、解説されている。

フートの公知の方法を一例として、図５のブロック回路図に基づいて説明する。最初に、ＷＡＶファイル５００を提供する。下流の抽出ブロック５０２において、特徴抽出が行われる。ここでは、スペクトル係数自体、または代わりにメル周波数ケプストラム係数（ＭＦＣＣ）を特徴として抽出する。この抽出の前に、このＷＡＶファイルに対して０．０５秒幅の重複しない窓による短時間フーリエ変換（ＳＴＦＴ）が実行される。次に、ＭＦＣＣ特徴がスペクトル領域で抽出される。ここで指摘すべき点は、パラメータ表現が、圧縮、転送、または再構築に対しては最適化されず、オーディオ解析に対して最適化されることである。同様のオーディオ作品は同様の特徴を生成することが要求される。

次に、抽出された特徴は、メモリ５０４にファイリングされる。

特徴抽出アルゴリズムに引き続き、セグメンテーションアルゴリズムが実行され、その結果は、ブロック５０６に示されるように、類似性マトリックスである。ただし、最初に、特徴マトリックスが読み出され（５０８）、次に特徴ベクトルがグループ化される（５１０）。次に、グループ化された特徴ベクトルにより、すべての特徴間の距離測定で構成された類似性マトリックスが構築される。具体的には、それぞれ対に組み合わされたオーディオ窓のすべての対が、定量的類似性測度、すなわち距離を用いて比較される。

類似性マトリックスの構築方法を図８に示す。図８において、楽曲は、複数のオーディオサンプルからなるストリーム８００として示されている。上記のように、このオーディオ作品は窓掛けされ、第１の窓はｉで示され、第２の窓はｊで示される。このオーディオ作品は、全体としてたとえばＫ個の窓を有する。つまり、この類似性マトリックスは、Ｋ行およびＫ列を有する。次に、各窓ｉについて、および各窓ｊについて、相互の類似性測度が計算される。ここで、計算された類似性測度または距離測度Ｄ（ｉ，ｊ）は、類似性マトリックスのｉおよびｊでそれぞれ示される行または列に入力される。したがって、１つの列は、その楽曲内の他のすべてのオーディオ窓に対する、ｊで示された窓の類似性を示す。こうして、楽曲の先頭の窓に対する窓ｊの類似性は、列ｊの行１に示されることになる。次に、この楽曲の第２の窓に対する窓ｊの類似性が列ｊの行２に示される。他方、第１の窓に対する第２の窓の類似性は、このマトリックスの第２の列の第１の行に示されることになる。

このマトリックスは、対角線に対して対称的であり、ある窓のその窓自身に対する類似性、すなわち類似性が１００％という自明のケースが対角線上に示されるという点で、冗長であることが分かる。

楽曲の類似性マトリックスの例は、図６に見られる。ここでも、主対角線を基準としてマトリックスが完全に対称的な構造であることが認められる。この図において、主対角線は明るい帯として示されている。さらに、相対的に粗い時間分解能に対して窓の長さが短いために、図６においては主対角線が明るい連続線として見えず、図６からはようやく認識できることも指摘しておく。

次に、たとえば図６に示すような類似性マトリックスを使用して、カーネルマトリックス５１４を用いたカーネル相関５１２によって新規性測度を得る。新規性測度は、「新規性スコア」としても知られており、平均化も可能であり、新規性スコアの滑らかにした形態が図９に示されている。この新規性スコアの平滑化は、図５にブロック５１６として概略的に示されている。

次に、ブロック５１８において、滑らかにした新規性値推移を用いてセグメント境界が読み出される。ここでは、滑らかにした新規性推移における局所的最大値を決定する必要がある。また、必要であれば、このために、平滑化に起因する一定サンプル数だけシフトさせる必要がある。この目的は、オーディオ作品の正しいセグメント境界を絶対または相対時間表示として実際に得ることにある。

次に、図５から分かるように、クラスタ化というブロックにおいて、いわゆるセグメント類似性表現またはセグメント類似性マトリックスが確立される。セグメント類似性マトリックスの一例が図７に示されている。図７の類似性マトリックスは、原則的には図６の特徴類似性マトリックスと同様である。ただし、図７においては、図６のように窓からの特徴を用いることはなく、セグメント全体からの特徴を用いる。セグメント類似性マトリックスは、特徴類似性マトリックスと同様の意味を有するが、実質的により粗い分解能を有する。窓の長さが０．０５秒の範囲に含まれる一方で、相当長いセグメントが楽曲内のたとえばおそらく１０秒の範囲に含まれる場合は、このように粗い分解能が望まれることは言うまでもない。

次に、ブロック５２２において、クラスタ化が実行される。すなわち、各セグメントが複数のセグメントクラスに分類され（同様のセグメントは同じセグメントクラスに分類され）、次に、「ラベリング」と示されているブロック５２４において、各セグメントクラスがマーキングされる。ラベリングにおいては、スタンザであるセグメント、リフレインであるセグメント、イントロ、アウトロ、ブリッジなどであるセグメントをどのセグメントクラスに取り込むかを決定する。

最後に、図５で５２６と示されているブロックにおいて、楽曲の要約が確立される。この要約は、ある楽曲のたとえばスタンザ、リフレインおよびイントロのみを重複なく聞かせるために、利用者に提供するものである。

個々のブロックについて以下により詳細に説明する。

既に説明したように、楽曲の実際のセグメンテーションは、特徴マトリックスの生成および格納（ブロック５０４）後に行われる。

楽曲を調べる際のその構造に関する特徴に基づき、対応する特徴マトリックスが読み出され、さらなる処理のためにワーキングメモリに読み込まれる。この特徴マトリックスは、解析窓の数に特徴係数の数を掛けた大きさを有する。

類似性マトリックスによって、１つの楽曲の特徴推移が２次元で表現される。特徴ベクトルの各組み合わせ対について、距離測度が計算され、類似性マトリックスに保存される。２つのベクトル間の距離測度を計算するためには、たとえばユークリッド距離測定およびコサイン距離測定など、さまざまな可能性がある。２つの特徴ベクトル間の結果Ｄ（ｉ，ｊ）は、窓類似性マトリックスのｉ，ｊ番目のエレメントに格納される（ブロック５０６）。この類似性マトリックスの主対角線は、楽曲全体の推移を表す。したがって、主対角線の各エレメントは、１つの窓をその窓自身と比較した結果であるため、常に最大の類似性値を有する。コサイン距離測定の場合、これは値１である。単純なスカラー差およびユークリッド距離においては、この値は０に等しい。

図６に示すように類似性マトリックスを視覚化するために、各エレメントｉ、ｊにグレイスケールを割り当てる。各グレイスケールは、類似性値に比例して段階的に変化するので、最大の類似性（主対角線）は最大の類似性に対応する。この図によって、１つの歌の構造をマトリックスによって今や視覚的に認識しうる。特徴表現が同様の領域は、主対角線に沿った明度が同様の象限に対応する。実際のセグメンテーションのタスクは、これらの領域間の境界を見つけることである。

類似性マトリックスの構造は、カーネル相関５１２で計算される新規性測度に対して重要である。新規性測度は、類似性マトリックスの主対角線に沿った特殊なカーネルの相関だけ生じる。カーネルＫの一例が図５に示されている。このカーネルマトリックスは、類似性マトリックスＳの主対角線に沿って相関され、楽曲の各時点ｉについて重なり合っているマトリックスエレメントの積を合計すると、新規性測度が得られる。新規性測度は、図９に滑らかにした形態で例示されている。図５においては、カーネルＫではなく、拡大されたカーネルの使用が好ましい。拡大されたカーネルには、ガウス分布がさらに重ね合わされるので、マトリックスの各端が０に向かって移動する。

新規性推移において突出した最大値の選択は、セグメンテーションにとって重要である。滑らかにされていない新規性推移のすべての最大値を選択すると、オーディオ信号が極めて過度にセグメント化される。

したがって、新規性測度を滑らかにする必要がある。すなわち、ＩＩＲフィルタまたはＦＩＲフィルタなどのさまざまなフィルタを用いる必要がある。

１つの楽曲のセグメント境界を抽出したら、同様のセグメントを同様のものとして特徴付け、複数のクラスにグループ化する必要がある。

フートおよびクーパーは、カルバック−ライブラー（Ｃｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒ）距離によるセグメントベースの類似性マトリックスの計算を説明している。このため、新規性推移から得られたセグメント境界に基づき、特徴マトリックス全体から個々のセグメント特徴マトリックス、すなわち特徴マトリックス全体の部分マトリックスを抽出する。このように展開されたセグメント類似性マトリックス５２０を、次に特異値分解（ＳＶＤ）にかける。この結果、降順で特異値が得られる。

次に、ブロック５２６において、楽曲のクラスタおよびセグメントに基づき、楽曲の自動要約が実行される。このために、最初に、特異値が最も大きい２つのクラスタが選択される。次に、対応するクラスタインジケータの値が最大のセグメントがこの要約に追加される。つまり、この要約は、１つのスタンザと１つのリフレインとを含む。あるいは、楽曲の全情報が必ず１度だけ提供されるように、繰り返されるすべてのセグメントを削除してもよい。

セグメンテーション／楽曲解析のためのさらなる技術に関しては、Ｓ．チュー（ＣＨＵ）およびＢ．ローガン（ＬＯＧＡＮ）の「キーフレーズを用いた楽曲の要約（ＭｕｓｉｃＳｕｍｍａｒｙｕｓｉｎｇＫｅｙＰｈｒａｓｅｓ）」、ケンブリッジリサーチ研究所２０００の技術レポート（ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，ＣａｍｂｒｉｄｇｅＲｅｓｅａｒｃｈＬａｂｏｒａｔｏｒｙ２０００）と、Ｍ．Ａ．バーシュ（ＢＡＲＴＳＣＨ）およびＧ．Ｈ．ウェイクフィールド（ＷＡＫＥＦＩＥＬＤ）の「コーラスをキャッチするために：オーディオサムネール化のために彩度に基づく表現の使用（ＴｏＣａｔｃｈａＣｈｏｒｕｓ：ＵｓｉｎｇＣｈｒｏｍａ−ＢａｓｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｏｒＡｕｄｉｏＴｈｕｍｂｎａｉｌｉｎｇ）」、オーディオおよびアコースティックスへの信号処理２００１のＩＥＥＥワークショップ（（ＩＥＥＥＷｏｒｋｓｈｏｐｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓ２００１）のプロシーディング、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｍｕｓｅｎ．ｅｎｇｉｎ．ｕｍｉｃｈ．ｅｄｕ／ｐａｐｅｒｓ／ｂａｒｔｓｃｈｗａｋｅｆｉｅｌｄｗａｓｐａａ０１ｆｉｎａｌ．ｐｄｆ＞とを参照する。

セグメントクラスの形成、すなわちセグメントをクラスタに割り当てるための特異値分解（ＳＶＤ）は、一方では極めて計算集約的であり、他方では結果の判定に問題が厄介であることから、公知の方法では不都合である。特異値がほぼ等しい大きさであると、２つの同様の特異値が同じセグメントクラスを実際には表し、２つの異なるセグメントクラスを表してはいないという間違った判定が行われるおそれがある。

さらに、特異値分解により得られる結果は、類似性値の大きな差が存在する場合、すなわちある楽曲にスタンザおよびリフレインのように極めて似ている部分が複数存在するばかりか、イントロ、アウトロ、またはブリッジのように相対的に似ていない部分も複数含まれている場合は、いよいよ厄介になることが分かっている。

最大の特異値を有する２つのクラスタのうち、歌の中で最初のセグメントを有するクラスタが「スタンザ」クラスタであり、もう一方のクラスタが「リフレイン」クラスタであると常に想定されることは、公知の方法においてはさらに厄介である。この手順は、公知の方法においては、１つの歌は必ずスタンザで始まるという想定に基づく。この結果、著しいラベリングエラーがもたらされることが経験から分かっている。これは、ラベリングが、方法全体のいわば「成果」である、すなわち利用者に直ちに知られる限りでは問題である。先行する各ステップが精密かつ徹底していたとしても、最後のラベリングが正しくなければ、すべては相対的になるので、概念全体に対する利用者の信頼が完全に損なわれかねない。

この点において、特に自動楽曲解析方法に対するニーズがあることを指摘しておく。ただし、その結果の調査と、必要に応じた結果の修正とが必ずしも可能であるとは限らない。代わりに、市場において使用しうる方法は、人手による後修正を一切行わずに自動的に実行できる方法のみである。

Ｊ．Ｔ．フート（ＦＯＯＴＥ）およびＭ．Ｌ．クーパー（Ｃｏｏｐｅｒ）の「構造上の相似解析によるポピュラー楽曲の要約化（ＳｕｍｍａｒｉｚｉｎｇＰｏｐｕｌａｒＭｕｓｉｃｖｉａＳｔｒｕｃｔｕｒａｌＳｉｍｉｌａｒｉｔｙＡｎａｌｙｓｉｓ）」、オーディオおよびアコースティックスへの信号処理２００３のＩＥＥＥワークショップ（ＩＥＥＥＷｏｒｋｓｈｏｐｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓ２００３）のプロシーディングＪ．Ｔ．フート（ＦＯＯＴＥ）およびＭ．Ｌ．クーパー（ＣＯＯＰＥＲ）の「自己相似分解を用いたメディアセグメンテーション（ＭｅｄｉａＳｅｇｍｅｎｔａｔｉｏｎｕｓｉｎｇＳｅｌｆ−ＳｉｍｉｌａｒＤｅｃｏｍｐｏｓｉｔｉｏｎ）」、マルチメディアデータベースのための保存および検索ＳＰＩＥ（ＳＰＩＥＳｔｏｒａｇｅａｎｄＲｅｔｒｉｅｖａｌｆｏｒＭｕｌｔｉｍｅｄｉａＤａｔａｂａｓｅｓ）のプロシーディング、２００３年１月、第５０２１巻、１６７−７５頁Ｓ．チュー（ＣＨＵ）およびＢ．ローガン（ＬＯＧＡＮ）の「キーフレーズを用いた楽曲の要約（ＭｕｓｉｃＳｕｍｍａｒｙｕｓｉｎｇＫｅｙＰｈｒａｓｅｓ）」、ケンブリッジリサーチ研究所２０００の技術レポート（ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，ＣａｍｂｒｉｄｇｅＲｅｓｅａｒｃｈＬａｂｏｒａｔｏｒｙ２０００）Ｍ．Ａ．バーシュ（ＢＡＲＴＳＣＨ）およびＧ．Ｈ．ウェイクフィールド（ＷＡＫＥＦＩＥＬＤ）の「コーラスをキャッチするために：オーディオサムネール化のために彩度に基づく表現の使用（ＴｏＣａｔｃｈａＣｈｏｒｕｓ：ＵｓｉｎｇＣｈｒｏｍａ−ＢａｓｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｏｒＡｕｄｉｏＴｈｕｍｂｎａｉｌｉｎｇ）」、オーディオおよびアコースティックスへの信号処理２００１のＩＥＥＥワークショップ（（ＩＥＥＥＷｏｒｋｓｈｏｐｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓ２００１）のプロシーディング、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｍｕｓｅｎ．ｅｎｇｉｎ．ｕｍｉｃｈ．ｅｄｕ／ｐａｐｅｒｓ／ｂａｒｔｓｃｈｗａｋｅｆｉｅｌｄｗａｓｐａａ０１ｆｉｎａｌ．ｐｄｆ＞

本発明の目的は、１つの楽曲の複数の時間セグメントをグループ化するための機能強化され同時に効率的な概念を提供することである。

この目的は、請求項１に記載の装置、請求項２０に記載の方法、または請求項２１に記載のコンピュータプログラムによって達成される。

本発明は、１つのセグメントが楽曲全体において有する総類似性スコアが類似性平均値によって考慮されるように、セグメントについての適応類似性平均値に基づき、セグメントクラスへのセグメントの割り当てを実行する必要があるという知見に基づく。１つのセグメントについてこのような類似性平均値を計算した後、この類似性平均値に基づき、セグメントクラスすなわちクラスタへのセグメントの実際の割り当てを実行する。類似性平均値の計算には、セグメント数と当該セグメントに関連付けられている複数の類似性値を必要とする。直前に検討したセグメントに対する１つのセグメントの類似性値が、たとえば類似性平均値より大きい場合に、そのセグメントは、直前に検討したセグメントクラスに属するものとして割り当てられる。ただし、直前に検討したセグメントに対する１つのセグメントの類似性値がこの類似性平均値より低い場合は、そのセグメントクラスには割り当てられない。

つまり、言い換えると、割り当ては、類似性値の絶対量に応じて実行されるのではなく、類似性平均値を基準に実行される。つまり、類似性スコアが相対的に低いセグメントの場合、すなわち、たとえばイントロまたはアウトロを有するセグメントの場合は、スタンザまたはリフレインであるセグメントの場合より、類似性平均値が低くなる。これによって、楽曲内のセグメントからの類似性の偏差の大きさ、またはこのようなセグメントが楽曲内に発生する頻度を考慮する。ここで、たとえば数値的な問題ひいては曖昧さ、およびこの曖昧さに伴う不正な割り当てを回避できる。

本発明の概念は、スタンザおよびリフレインで構成されている楽曲、すなわち類似性値が等しく大きいセグメントクラスに属するセグメントを有する楽曲に特に適しているが、スタンザおよびリフレイン以外の部分、すなわちイントロ、ブリッジ、またはアウトロも有する楽曲にも適している。

本発明の好適な実施の形態において、適応類似性平均値の計算およびセグメントの割り当ては繰り返し実行され、割り当てられたセグメントは次の反復パスでは無視される。次の反復パスでは、既に割り当てられたセグメントが０に設定されているので、類似性絶対値、すなわち類似性マトリックスの１つの列内の類似性値の合計値が変わる。

本発明の好適な実施の形態においては、セグメンテーションの後修正が実行される。すなわち、たとえば新規性値（新規性値の局所的最大値）に基づくセグメンテーションとその後のセグメントクラスへの関連付けの後に、相対的に短いセグメントを先行セグメントまたは後続セグメントに関連付けられないかどうかを調べる。この理由は、最小セグメント長未満のセグメントが存在すると、過度のセグメンテーションに至る可能性が極めて高いからである。

本発明のさらなる好適な実施の形態においては、最後のセグメンテーションおよびセグメントクラスへの関連付けの後に、ラベリングを実行する。つまり、セグメントクラスをスタンザまたはリフレインとしてできるだけ正しく特徴付けるために、特殊な選択アルゴリズムを用いる。

本発明の上記および他の目的や特徴は、添付図面と共に以下の説明から明らかとなろう。
図１は、本発明の好適な実施の形態によるグループ化するための本発明の装置のブロック回路図であり、
図２は、反復割り当てを行うための本発明の好適な実施の形態を説明するフローチャートであり、
図３は、セグメンテーション修正手段の機能のブロック図であり、
図４ａおよび図４ｂは、セグメントクラス指定手段の好適な実施の形態であり、
図５は、オーディオ解析ツール全体のブロック回路図であり、
図６は、特徴類似性マトリックスの一例を示す図であり、
図７は、セグメント類似性マトリックスの一例を示す図であり、
図８は、類似性マトリックスＳ内のエレメントを示す概略図であり、
図９は、滑らかにした新規性値を示す概略図である。

図１は、繰り返し出現する複数の主要部分で構成される楽曲の複数の時間セグメントを異なるセグメントクラスにグループ化し、セグメントクラスを主要部分に関連付けるための装置を示す。したがって、本発明は、特定の１つの構造に従う楽曲に特に関する。この構造では、同様の区間が複数回、他の区間と交互に出現する。大半のロックおよびポップソングは、それぞれの主要部分に関して１つの明確な構造を有する。

文献は、楽曲解析の主題を主にクラシック音楽に基づき扱うが、その多くは、ロックおよびポップ音楽にも当てはまる。１つの楽曲の主要部分は、「大形式部分」とも呼ばれる。ある楽曲の大形式部分とされる区間は、たとえばメロディー、リズム、テクスチャ等、さまざまな特徴に関して相対的に一様な性質を有する区間であると理解されている。この定義は、音楽理論において全般的に当てはまる。

ロックおよびポップ音楽における大形式部分は、たとえばスタンザ、リフレイン、ブリッジ、およびソロである。クラシック音楽においては、１つの作品のリフレインと他の部分（クプレ）の絡み合いをロンドとも呼ぶ。通常、クプレは、たとえばメロディー、リズム、ハーモニー、キー、または器楽編成に関して、リフレインに対比される。これは、現代の娯楽音楽にも移転できる。ロンドにさまざまな形式（チェインロンド、アークロンド、ソナタロンド）があるように、ロックおよびポップ音楽にも、歌の構成に関して実績のあるパターンが存在する。これらのパターンが多くの可能性のうちの一部に過ぎないことは言うまでもない。結局、作曲家がその楽曲をどのように構築するかを決定することは言うまでもない。ロックソングの代表的な構成の一例は、
Ａ−Ｂ−Ａ−Ｂ−Ｃ−Ｄ−Ａ−Ｂ
のパターンであり、このパターンにおいて、Ａはスタンザに相当し、Ｂはリフレインに相当し、Ｃはブリッジに相当し、Ｄはソロに相当する。楽曲の導入部はイントロであることが多い。イントロは、スタンザと同じコードシーケンスで構成されることが多いが、他の器楽編成を用いることもある。たとえばドラムを省いたり、ベースを省いたり、またはロックソングでギターのディストーションを行わないこともある。

本発明の装置は、初めに、各セグメントについての類似性表現を提供する手段１０を含む。各セグメントについての類似性表現は、関連付けられた複数の類似性値を含む。これらの類似性値は、各セグメントが他の各セグメントにどれだけ似ているかを示す値である。類似性表現は、図７に示すセグメント類似性マトリックスであることが好ましい。このマトリックスでは、セグメント（図７ではセグメント１〜１０）ごとに固有の列があり、各列はインデックス「ｊ」で示される。さらに、各セグメントについての類似性表現は、各セグメント固有の行を有する。各行は、行インデックス「ｉ」で示される。以降においては、この類似性表現を、例示的セグメント５に基づき示す。図７のマトリックスの主対角線内のエレメント（５，５）は、セグメント５のそれ自身に対する類似性値、すなわち最大の類似性値である。さらに、セグメント５は、セグメント番号６にもかなり似ている。セグメント番号６に対する類似性は、図７のマトリックスのエレメント（６，５）またはエレメント（５，６）によって示されている。さらに、セグメント５は、セグメント２および３に対しても類似性を有する。これらのセグメントに対する類似性は、図７のエレメント（２，５）または（３，５）または（５，２）または（５，３）によって示されている。セグメント番号５は、その他のセグメント１、４、７、８、９、１０に対しても類似性を有するが、これらの類似性は図７ではもはや視認できない。

セグメントに関連付けられた複数の類似性値は、たとえば、図７のセグメント類似性マトリックスの列または行である。この列または行は、その列／行インデックスにより、それがどのセグメントを指しているか、たとえば５番目のセグメントを指していることを示す。この行／列は、その楽曲内の他の各セグメントに対する５番目のセグメントの類似性を含む。したがって、複数の類似性値は、たとえば図７の類似性マトリックスの行であり、または、図７の類似性マトリックスの列である。

楽曲の複数の時間セグメントをグループ化するための装置は、１つのセグメントについての類似性平均値を計算するための手段１２をさらに含む。この計算には、当該セグメントに関連付けられている複数の類似性値のセグメントおよび類似性値が使用される。手段１２は、たとえば、図７の列５についての類似性平均値を計算するように形成されている。好適な実施の形態において算術平均値を用いる場合は、手段１２は、列内のすべての類似性値を加算し、この合計値を全セグメントの数で割る。自己類似性を排除するために、セグメントのセグメント自身に対する類似性を加算結果から減じることもできる。この場合の除算は、全エレメントの数で割るのではなく、全エレメント数から１を引いた数で行うことは言うまでもない。

計算するための手段１２は、代わりに幾何平均値を計算することもできる。すなわち、１つの列の各類似性値を自乗し、自乗した結果を合計する。次に、この合計結果から根を計算し、これを列内のエレメントの数で（または列内のエレメントの数から１を引いた値で）割る。類似性マトリックスの各列の平均値が適応的に算出される限りは、すなわち平均値が当該セグメントに関連付けられている複数の類似性値を用いて計算された値である限りは、中間値など、他の任意の平均値を用いることもできる。

このように適応的に計算された類似性閾値は、次にセグメントをセグメントクラスに割り当てるための手段１４に提供される。割り当てるための手段１４は、あるセグメントクラスの類似性値が類似性平均値に関して所定の条件を満たす場合に、セグメントをそのセグメントクラスに関連付けるように形成されている。たとえば、類似性平均値の値が大きければ類似性が高いことを示し、類似性平均値の値が小さければ類似性が低いことを示すように類似性平均値がなっている場合は、類似性値が類似性平均値以上のセグメントは１つのセグメントクラスに割り当てられる。

本発明の好適な実施に形態においては、以下に説明する複数の特殊な実施の形態を実現するためのさらなる手段が存在する。これらの手段は、セグメント選択手段１６、セグメント割り当て競合手段１８、セグメンテーション修正手段２０、およびセグメントクラス指定手段２２である。

図１のセグメント選択手段１６は、最初に、図７のマトリックスの各列について、総類似性値Ｖ（ｊ）を計算するように形成されている。この値は、次のように決定され、

Ｐは、セグメントの数である。ＳＳは、セグメントのセグメント自身に対する自己類似性の値である。使用する技術に応じて、この値は、たとえばゼロ（０）または１になりうる。セグメント選択手段１６は、最初に各セグメントについて値Ｖ（ｊ）を計算し、次に最大値を有するベクトルＶのベクトルエレメントｉを見つける。言い換えると、これは、その列内の個々の類似性値を加算した結果、最大値または最大スコアに達した図７内の列が選択されることを意味する。このセグメントは、たとえば、セグメント番号５すなわち図７のマトリックスの列５である。この理由は、このセグメントは、他の３つのセグメントと少なくとも幾分かの類似性を有するからである。図７の例における番号７のセグメントも別の候補になりうる。この理由は、このセグメントも他の３つのセグメントに対して幾分かの類似性を有するからである。さらに、このセグメントの類似性は、セグメント２および３に対するセグメント５の類似性より高くさえある（図７においてグレーの濃度が濃い）。

次の例について、ここでセグメント選択手段１６がセグメント番号７を選択すると想定する。この理由は、このセグメントは、マトリックスのエレメント（１，７）、（４，７）、および（１０，７）により、類似性スコアが最も高いからである。言い換えると、これは、Ｖ（７）は、すべてのコンポーネント中で最大値を有するベクトルＶのコンポーネントであることを意味する。

次に、列７、すなわちセグメント番号７、の類似性スコアを数値「９」で割ることによって、セグメントの類似性閾値を手段１２から得る。

このセグメント類似性マトリックスにおいては、次に７番目の行または列について、この計算された閾値を上回るセグメント類似性がどれであるかを調べる。すなわち、ｉ番目のセグメントとの類似性が平均値を上回るセグメントを調べる。次に、これらのセグメントをすべて、７番目のセグメントと同じように、第１のセグメントクラスに割り当てる。

本例について、セグメント７に対するセグメント１０の類似性は平均値を下回るが、セグメント７に対するセグメント４およびセグメント１の類似性は平均値を上回ると想定する。この結果、セグメント番号７のほか、セグメント番号４およびセグメント番号１も第１のセグメントクラスに分類される。他方、セグメント番号１０は、セグメント番号７に対する類似性が平均値を下回るため、第１のセグメントクラスに分類されない。

この割り当ての後に、この閾値調査において１つのクラスタに関連付けられたすべてのセグメントの対応するベクトル要素Ｖ（ｊ）を０に設定する。この例では、Ｖ（７）のほか、コンポーネントＶ（４）およびＶ（１）が該当する。これは、このマトリックスの第７列、第４列、および第１列はゼロであり、すなわち最大値には決してなりえないので、以降の最大値検索の対象にならないことを直ちに意味する。

これは、セグメント類似性マトリックスのエントリ（１，７）、（４，７）、（７，７）、および（１０，７）がゼロに設定されるという事実に意味上等しい。同じ手順が列１（エレメント（１，１）、（４，１）、および（７，１））および列４（エレメント（１，４）、（４，４）、（７，４）、および（１０，４））に対して実行される。ただし、より容易な処理のために、マトリックスは変更されないが、割り当てられたセグメントに属するＶのコンポーネントは、以降の反復ステップにおける次の最大値検索では無視される。

次の反復ステップにおいて、Ｖのまだ残っているエレメント、すなわちＶ（２）、Ｖ（３）、Ｖ（５）、Ｖ（６）、Ｖ（８）、Ｖ（９）、およびＶ（１０）の中から次に新しい最大値が検索される。セグメント番号５、すなわちＶ（５）が、次に最大類似性スコアになるであろうと予想される。次に、セグメント５および６が第２のセグメントクラスに取り込まれる。セグメント２および３に対する類似性が平均値を下回るという事実のため、セグメント２および３は２次のクラスタに取り込まれない。これによって、この割り当ての実施により、ベクトルＶのエレメントＶ（６）およびＶ（５）は０に設定される一方で、このベクトルのエレメントＶ（２）、Ｖ（３）、Ｖ（８）、Ｖ（９）、およびＶ（１０）は３次のクラスタの選択候補として残っている。

ここにおいて、上記の残っているＶのエレメントの間で新しい最大値が検索し直される。新しい最大値はＶ（１０）、すなわちセグメント１０に対するＶのエレメントになりうる。したがって、セグメント１０は３次のセグメントクラスに取り込まれる。さらに、セグメント７もセグメント１０に対する類似性が平均を上回ることが分かるが、セグメント７は第１のセグメントクラスに属するものと既に特徴付けられている。したがって、割り当ての競合が発生する。この競合は、図１のセグメント割り当て競合手段１８によって解決される。

簡単な解決方法として、セグメント７を第３のセグメントクラスに単に割り当てずに、たとえば、セグメント４について競合がなければ、代わりにセグメント４を割り当てることもできる。

ただし、セグメント７とセグメント１０との間の類似性を無視しないために、次のアルゴリズムでは７と１０との間の類似性を考慮することが好ましい。

一般に、本発明は、ｉとｋの間の類似性を無視しないようになっている。よって、セグメントｉおよびｋの類似性値Ｓ_S（ｉ，ｋ）を類似性値Ｓ_S（ｉ^*，ｋ）と比較する。ここで、ｉ^*は、クラスタＣ^*に関連付けられている最初のセグメントである。このクラスタすなわちセグメントクラスＣ^*は、前の調査によりセグメントｋが既に関連付けられているクラスタである。セグメントｋがクラスタＣ^*に属するという事実のために、類似性値Ｓ_S（ｉ^*，ｋ）は決定的である。Ｓ_S（ｉ^*，ｋ）がＳ_S（ｉ，ｋ）より大きい場合、セグメントｋはクラスタＣ^*に留まる。Ｓ_S（ｉ^*，ｋ）がＳ_S（ｉ，ｋ）より小さい場合、セグメントｋはクラスタＣ^*から取り出され、クラスタＣに割り当てられる。第１の場合では、すなわちセグメントｋのクラスタメンバシップが変わらない場合は、セグメントｉについてクラスタＣ^*への傾向が注目される。ただし、セグメントｋのクラスタメンバシップが変わる場合も、この傾向に注目することが好ましい。この場合、このセグメントが最初に受け入れられたクラスタに対するこのセグメントの傾向が注目される。これらの傾向は、セグメンテーションの修正に使用しうるので都合よい。この修正は、セグメンテーション修正手段２０によって実行される。

類似性値の調査は、セグメント７が第１のセグメントクラス内の「元のセグメント」であるという事実により、第１のセグメントクラスに有利になる。したがって、セグメント７のクラスタメンバシップ（セグメントメンバシップ）は変わらず、第１のセグメントクラスに留まる。ただし、この事実を考慮するために、第３のセグメントクラス内のセグメント番号１０について第１のセグメントクラスへのトレンドが認証される。

ただし、本発明によると、これによって、特に、２つの異なるセグメントクラスへのセグメント類似性が存在するセグメントについては、これらの類似性が無視されず、必要に応じて、後でトレンドまたは傾向によってさらに考慮されるように配慮される。

この手順は、セグメント類似性マトリックス内のすべてのセグメントが関連付けられるまで続けられる。すなわち、最後にはベクトルＶのすべてのエレメントがゼロに設定される。

これは、図７に示す例の場合は、Ｖ（２）、Ｖ（３）、Ｖ（８）、Ｖ（９）の最大値、すなわちセグメント２および３が次に第４のセグメントクラスに分類され、次にセグメント８または９が第５のセグメントクラスに分類され、最後にはすべてのセグメントが関連付けられることを意味する。これによって、図２に示す反復アルゴリズムが完了する。

次に、セグメンテーション修正手段２０の好適な実施を図３に基づき詳細に説明する。

カーネル相関によるセグメント境界の計算においては、ただし他の測度によるセグメント境界の計算においても、１つの楽曲の過度のセグメンテーションが発生し、すなわち算出されるセグメント境界が多すぎるか、またはセグメントが全般的に短くなりすぎることが分かる。たとえば、スタンザが不正に細分化されたために過度のセグメンテーションが発生した場合、本発明では、セグメント長と、先行または後続セグメントの分類先セグメントクラスの情報とにより修正を行う。言い換えると、この修正は、短いセグメントを完全に排除するために役立つ。すなわち短いセグメントを隣接セグメントにマージすると共に、短いが短すぎないセグメント、すなわちその長さは短いが、最小長よりは長いセグメントを特殊な調査にかけることによって、先行セグメントまたは後続セグメントに実際にマージできるかどうかを調べる。基本的に、本発明によると、同じセグメントクラスに属する連続セグメントは必ずマージされる。図７に示すシナリオにおいて、たとえばセグメント２および３が同じセグメントクラスになる場合、これらのセグメントは自動的に相互にマージされるが、第１のセグメントクラスのセグメント群、すなわちセグメント７、４、１は互いに離れているので、（少なくとも最初は）マージ不能である。これは、図３のブロック３０に示唆されている。次にブロック３１において、セグメントのセグメント長が最小長より短いかどうかを調べる。したがって、さまざまな最小長が存在することが好ましい。

相対的に短いセグメント、すなわち１１秒（第１の閾値）未満のセグメントがすべて調べられ、その後さらに短いセグメント（第１の閾値より小さい第２の閾値）、すなわち９秒未満のセグメントが調べられ、その後まだ残っているセグメント、すなわち６秒（第２の閾値より短い第３の閾値）未満のセグメントがさらに調べられる、というように段階的に処理される。

このスタガード長さ調査を行う、本発明の好適な実施の形態においては、ブロック３１でのセグメント長調査の最初の目的は、１１秒未満のセグメントを見つけることである。長さが１１秒を超えるセグメントについては、ブロック３１で「ＮＯ」と認識されうるので、後処理は一切行われない。１１秒未満のセグメントについては、最初に傾向調査（ブロック３２）が実行される。最初に、図１のセグメント割り当て競合手段１８の機能により、セグメントにトレンドまたは傾向が関連付けられているかどうかを調べる。図７の例では、セグメント７へのトレンド、または第１のセグメントクラスへのトレンドを有するセグメント１０が該当するであろう。ただし、図７に示す例において、傾向調査により第１０のセグメントが１１秒より短い場合は、何も行われない。その理由は、対象セグメントのマージが行われるのは、何れのクラスタすなわちセグメントクラスへの傾向がなく、隣接セグメント（前または後）のクラスタへの傾向がある場合に限られるからである。ただし、これは、図７に示す例のセグメント１０には当てはまらない。

隣接セグメントのクラスタへの傾向がない短すぎるセグメントをさらに回避するために、この手順は、図３のブロック３３ａ、３３ｂ、３３ｃ、および３３ｄで解説されているように展開される。９秒より長く、１１秒より短いセグメントについては、これ以上何も行われない。これらのセグメントは残る。ただし、ブロック３３ａにおいて、クラスタＸのセグメントが９秒より短く、先行セグメントおよび後続セグメントがどちらもクラスタＹに属している場合は、このクラスタＸのセグメントはクラスタＹに割り当てられる。すなわち、このようなセグメントは先行および後続の両セグメントにマージされるため、対象セグメントと先行および後続セグメントからなる、全体としてより長いセグメントになることを自動的に意味する。したがって、最初は分かれていた複数のセグメントが以降のマージによって、マージされる介在セグメントを介して組み合わされうる。

ブロック３３ｂには、９秒より短く、かつセグメントグループ内の唯一のセグメントであるセグメントに対して何が行われるかが説明されている。第３のセグメントクラスにおいて、セグメント番号１０は唯一のセグメントである。このセグメントが９秒より短い場合、このセグメントは、セグメント番号９が属するセグメントクラスに自動的に対応付けられる。これによって、セグメント１０はセグメント９に自動的にマージされることになる。セグメント１０が９秒より長い場合、このマージは行われない。

次に、ブロック３３ｃにおいて、９秒よりは短いが、対応するクラスタＸ、すなわち対応するセグメントグループ内の唯一のセグメントではないセグメントについて調査が行われる。これらのセグメントは、より詳細な調査にかけられる。この調査では、クラスタシーケンスにおける規則性が確認される。最初に、セグメントグループＸに属するセグメントのうち、最小長より短いすべてのセグメントを検索する。次に、これらのセグメントのそれぞれについて、先行および後続セグメントがそれぞれ一様なクラスタに属しているかどうかが調べられる。すべての先行セグメントが１つの一様なクラスタに属している場合は、クラスタＸに属する短すぎるセグメントがすべてこの先行クラスタに関連付けられる。ただし、すべての後続セグメントが１つの一様なクラスタに属している場合は、クラスタＸに属する短すぎるセグメントがすべてこの後続クラスタに関連付けられる。

ブロック３３ｄには、９秒より短いセグメントについてこの条件も満たされなかった場合の処理が説明されている。この場合、図９に示されている新規性値曲線を用いて新規性値調査が実行される。具体的には、カーネル相関によって生じた新規性曲線を関連するセグメント境界の位置で読み出し、これらの値の最大値を決定する。最大値がセグメントの先頭で発生している場合は、これらの短すぎるセグメントを後続セグメントのクラスタに関連付ける。最大値がセグメントの最後で発生している場合は、これらの短すぎるセグメントを先行セグメントのクラスタに関連付ける。図９で９０と示されているセグメントが９秒より短いセグメントであった場合は、新規性調査によって、セグメント９０の最後の新規性値９２より、先頭の新規性値９１の方が大きいことが明らかになる。この結果、後続セグメントに対する新規性値が先行セグメントに対する新規性値より低いので、セグメント９０は後続セグメントに関連付けられることになる。

９秒より短いが、マージできていないセグメントが残っている場合は、これらのセグメント間でスタガード選択が再度実行される。具体的には、残っているセグメントのうち、６秒より短いセグメントがすべて選択される。このグループに属するセグメントのうち、長さが６秒と９秒との間のセグメントは、「そのまま」にしておく。

ただし、６秒より短いすべてのセグメントは、エレメント９０、９１、９２に基づき説明した新規性調査にかけられ、先行または後続のどちらかのセグメントに関連付けられる。この結果、図３に示す後修正アルゴリズムの最後には、短すぎるすべてのセグメント、すなわち長さが６秒未満のすべてのセグメントが、先行および後続セグメントにインテリジェントにマージされている。

本発明によるこの手順は、楽曲の複数の部分を除去しない、すなわち短すぎるセグメントをゼロに設定して単純に除去しないので、すべてのセグメントによって完全な楽曲全体が依然として表されるという利点を有する。したがって、たとえば過度のセグメンテーションに対する反動として、すべての短すぎるセグメントを単純に「無頓着に」除去した場合に、起こりうる情報の損失がセグメンテーションによって発生しない。

以下に、図４ａおよび図４ｂを参照しながら、図１のセグメントクラス指定手段２２の好適な実施について説明する。本発明によると、２つのクラスタのラベリング時に、ラベル「スタンザ」および「リフレイン」が割り当てられる。

本発明によると、特異値分解の最大特異値と付随クラスタとがリフレインとして使用され、２番目に大きい特異値に対するクラスタがスタンザとして使用されることはない。さらに、各歌はスタンザで開始され、すなわち、最初のセグメントを含むクラスタがスタンザクラスタであり、もう一方のクラスタがリフレインクラスタであると基本的に想定されることもない。代わりに、本発明によると、候補選択範囲内のクラスタのうち、最後のセグメントを含むクラスタがリフレインと指定され、もう一方のクラスタがスタンザと指定される。

最終的にスタンザ／リフレイン選択の準備が整った２つのクラスタについて、２つのセグメントグループ内のセグメントのうち、その歌の中で最後のセグメントとして出現するセグメントがどのクラスタにあるかを調べ（４０）、そのセグメントをリフレインと指定する。

確かに、最後のセグメントは、その歌の中の最後のセグメントになることも、その歌の中で他のセグメントクラスのすべてのセグメントより後で出現することもありうる。このセグメントが実際にはその歌の最後のセグメントでない場合は、アウトロも存在することを意味する。

この決定は、大半の場合、リフレインは、１つの歌の中で最後のスタンザの後に来る、すなわち楽曲がたとえばリフレインでフェードアウトする場合は、その歌のまさに最後のセグメントとして出現し、またはリフレインの後にアウトロが続き、アウトロによって楽曲が完了する場合は、アウトロの前のセグメントとして出現するという知見に基づく。

最後のセグメントが第１のセグメントグループに属する場合は、この第１の（最も重要な）セグメントクラスのすべてのセグメントが、図４ｂのブロック４１に示されているように、リフレインと指定される。また、この場合、選択対象のもう一方のセグメントクラスのすべてのセグメントが「スタンザ」として特徴付けられる。この理由は、２つの候補セグメントクラスのうちの１つのクラスが一般にリフレインを有すると、もう一方のクラスは直ちにスタンザを有するからである。

ブロック４０における調査、すなわち楽曲の中の最後のセグメントのセグメントクラスが、この選択範囲中のどのセグメントクラスであるかの調査の結果、第２のセグメントクラス、すなわち重要度が低いほうのセグメントクラスであると、ブロック４２において、楽曲中の最初のセグメントがこの第２のセグメントクラスにあるかどうかが調べられる。この調査は、歌の先頭は、リフレインではなく、スタンザである確率が極めて高いという知見に基づく。

ブロック４２における質問の答えが「ＮＯ」である場合、すなわち楽曲内の最初のセグメントが第２のセグメントクラスにない場合は、ブロック４３に示されているように、第２のセグメントクラスがリフレインと指定され、第１のセグメントクラスがスタンザと指定される。ただし、ブロック４２の問い合わせの答えが「ＹＥＳ」である場合は、ブロック４４に示されているように、規則に反して、第２のセグメントグループがスタンザと指定され、第１のセグメントグループがリフレインと指定される。ブロック４４における指定が発生する理由は、第２のセグメントクラスがリフレインに対応する確率が極めて低いからである。ここで、楽曲がリフレインで始まる可能性の低さを追加すると、クラスタ化のエラー、たとえば最後に検討されたセグメントが第２のセグメントクラスに間違って関連付けられる可能性が高い。

図４ｂには、２つの利用可能なセグメントクラスに基づき、スタンザ／リフレイン判定をどのように実行したが示されていた。このスタンザ／リフレイン判定の後、残っているセグメントクラスを次にブロック４５で指定しうる。ここでは、必要であれば、アウトロを楽曲自体の最後のセグメントを有するセグメントクラスにする一方で、イントロを楽曲自体の最初のセグメントを有するセグメントクラスにする。

次に、図４ａに基づき、図４ｂに示すアルゴリズムに対する候補である２つのセグメントクラスを判定する方法を説明する。

一般に、ラベリングにおいては、ラベル「スタンザ」および「リフレイン」の割り当てが実行され、一方のセグメントグループがスタンザセグメントグループとマーキングされ、もう一方のセグメントグループがリフレインセグメントグループとマーキングされる。基本的に、この概念は、類似性値が最も高い２つのクラスタ（セグメントグループ）、すなわちクラスタ１およびクラスタ２が、リフレインクラスタおよびスタンザクラスタに対応するという想定（Ａ１）に基づく。これらの２つのクラスタのうち、後に出現するクラスタがリフレインクラスタであり、スタンザはこのリフレインの後に来ると想定される。

多数のテストからの経験によると、大半の場合において、クラスタ１はリフレインに対応する。ただし、クラスタ２については、この想定（Ａ１）が該当しない場合が多い。このような状況は、イントロおよびアウトロの類似性が高く、頻繁に繰り返される第３の部分、たとえばブリッジが、楽曲内に存在する場合に起こることが多く、または、楽曲内の１つのセグメントがリフレインとの類似性が高く、したがって総類似性は高いが、リフレインとの類似性はクラスタ１に留まるほど高くはないという発生が稀なケースにおいても起こる。

いくつかの調査では、このような状況が楽曲の最後のリフレインのさまざまなバリエーションについて発生することが示されている。リフレインおよびスタンザを可及的正確にラベリングするために、図４ｂに記載のセグメント選択が強化されている。すなわち図４ａに示すように、スタンザ／リフレイン選択の２つの候補がそこに存在するセグメントに応じて判定される。

最初にステップ４６において、最大の類似性値（最初に判定されたセグメントクラス、すなわち図７の例におけるセグメント７に対して最大であったＶのコンポーネントの値）を有するクラスタまたはセグメントグループ、すなわち図１の１回目のパスで判定されたセグメントグループが第１の候補としてスタンザ／リフレイン選択に取り込まれる。

次に問題になるのは、どのセグメントグループがスタンザ／リフレイン選択の第２のメンバになるかである。最も有望な候補は２番目に高いセグメントクラス、すなわち図１に示されている概念の２回目のパスで見つかったセグメントクラスである。これは、必ずしもそうなる必要はない。したがって、最初に２番目に高いセグメントクラス（図７のセグメント５）、すなわちクラスタ２について、このクラスは、１つだけのセグメントを有するか、または、一方のセグメントが歌の最初のセグメントであり、他方のセグメントが歌の最後のセグメントである正に２つのセグメントを有するかが調べられる（ブロック４７）。

他方、この質問に対する答えが「ＮＯ」の場合、少なくとも２番目に高いセグメントクラスは、たとえば３つのセグメント、または２つのセグメントを有し、そのうちの１つは楽曲の内部にあって、その楽曲の「端」にはない。第２のセグメントクラスは当面は選択範囲に留まる。以降、このセグメントクラスを「第２のクラスタ」と指定する。

ただし、ブロック４７での質問に対する答えが「ＹＥＳ」の場合、すなわち２番目に高いクラスが脱落した場合（ブロック４８ａ）、歌全体で最も頻繁に出現し（言い換えると、最多セグメントを含み）、最も高いセグメントクラス（クラスタ１）に対応していないセグメントクラスが代わりに取り込まれる。以降、このセグメントクラスを「第２のクラスタ」と指定する。

以下に説明するように、「第２のクラスタ」は、この選択プロセスを生き延びて最終的に候補になるには、「第３のクラスタ」と指定される第３のセグメントクラスに匹敵する必要が依然としてある（４８ｂ）。

セグメントクラス「第３のクラスタ」は、歌全体で最も頻繁に出現するクラスタに対応するが、最も高いセグメントクラス（クラスタ１）にも、セグメントクラス「第２のクラスタ」にも対応しないクラスタ、いわばクラスタ１および「第２のクラスタ」の次に出現頻度が高い（頻度が等しいことも多い）クラスタに対応する。

いわゆるブリッジの問題に関しては、次に「第３のクラスタ」について、所属先が「第２のクラスタ」であるかどうかではなく、スタンザ／リフレイン選択であるかどうかが調べられる。これが発生する理由は、「第２のクラスタ」および「第３のクラスタ」の出現頻度が等しいからである。すなわち、これらの２つのうちの一方がブリッジまたは繰り返される別の中間部分を表す可能性があるからである。スタンザまたはリフレインに最も対応しそうなこの２つのセグメントクラスを確実に選択するために、すなわちブリッジまたは別の中間部分でないセグメントクラスを選択するために、ブロック４９ａ、４９ｂ、４９ｃに示す調査が実行される。

ブロック４９ａにおける最初の調査によって、第３のクラスタの各セグメントが特定の最小長を有するか否かが調べられる。この調査においては、歌全体の長さのたとえば４％が閾値として好適である。２％と１０％の間であれば、他の値でも妥当な結果が得られる。

次にブロック４９ｂにおいて、第３のクラスタが第２のクラスタより歌の中でより大きい総部分を有するかどうかを調べる。このために、第３のクラスタ内のすべてのセグメントの総時間が加算され、第２のクラスタ内のすべてのセグメントの同様に加算された総数値と比較される。ここでは、第３のクラスタのセグメントの加算結果が第２のクラスタのセグメントの加算結果より大きな値となる場合に、第３のクラスタが第２のクラスタより歌の中でより大きい総部分を有する。

最後にブロック４９ｃにおいて、第３のクラスタのセグメントからクラスタ１、すなわち最も出現頻度の高いクラスタのセグメントまでの距離が一定であるかどうか、すなわちシーケンス内に規則性が見られるかどうかが調べられる。

これら３つの条件に対する答えがすべて「ＹＥＳ」であると、第３のクラスタがスタンザ／リフレイン選択に取り込まれる。ただし、これらの条件のうちの少なくとも１つが満たされないと、第３のクラスタはスタンザ／リフレイン選択に取り込まれない。代わりに、図４ａのブロック５０に示されているように、第２のクラスタがスタンザ／リフレイン選択に取り込まれる。これによって、スタンザ／リフレイン選択のための「候補検索」が完了し、図４ｂに示すアルゴリズムが開始される。このアルゴリズムでは、最後に、どのセグメントクラスにスタンザが含まれ、どのセグメントクラスにリフレインが含まれているかが確定する。

ここで指摘すべき点は、ブロック４９ａ、４９ｂ、４９ｃにおける３つの条件を代わりに重み付けし、たとえばブロック４９ｂの問い合わせとブロック４９ｃの問い合わせの答えがどちらも「ＹＥＳ」であった場合はブロック４９ａの答え「ＮＯ」を「無効にする」ことも可能であることである。あるいは、３つの条件のうちの１つの条件を強調し、たとえば第３のセグメントクラスと第１のセグメントクラスとの間のシーケンスに規則性が存在するかどうかを調べるだけにする一方で、ブロック４９ａおよび４９ｂにおける問い合わせを実行しないか、またはブロック４９ｃの問い合わせの答えが「ＮＯ」である場合にのみ実行するようにし、たとえば総部分が相対的に大きいかどうかをブロック４９ｂで判定し、最小量が相対的に大きいかどうかをブロック４９ａで判定することもできる。

代替の組み合わせも可能であり、特定の実施については、低レベルの調査の場合は、ブロック４９ａ、４９ｂ、４９ｃのうちの１つのブロックの問い合わせのみで十分であろう。

次に、楽曲の要約を実行するブロック５２６の実施例を説明する。楽曲の要約として格納できるものについては、さまざまな可能性がある。そのうちの２つを以下に説明する。すなわち、タイトル「リフレイン」の可能性と、タイトル「メドレー」の可能性である。

リフレインの可能性は、リフレインの１つのバージョンを要約として選択することにある。ここでは、できれば２０秒と３０秒の間の長さのリフレインの例を選択しようと試みる。このような長さのセグメンがリフレインクラスタに含まれていない場合は、長さ２５秒に対する偏差が可及的に小さいバージョンを選択する。選択したリフレインの長さが３０秒を超える場合、この実施の形態においては、３０秒を過ぎるとフェードアウトさせ、２０秒より短い場合は、次のセグメントを用いて３０秒に延長する。

第２の可能性のためにメドレーを格納することは、むしろ楽曲の実際の要約にも相当する。ここでは、スタンザの一区間、リフレインの一区間、および第３のセグメントの一区間を、それぞれの実際の時系列順にメドレーとして構築する。第３のセグメントは、歌の中で最も大きい総部分を有し、かつスタンザまたはリフレインではないクラスタから選択される。

これらのセグメントの最適なシーケンスは、以下の優先順位に基づき検索される。
−「第３のセグメント」−スタンザ−リフレイン、
−スタンザ−リフレイン−「第３のセグメント」、または、
−スタンザ−「第３のセグメント」−リフレイン。

選択された各セグメントは、それぞれの全長がメドレーに組み込まれるわけではない。セグメントあたりの長さを１０秒に固定し、全体として３０秒の要約にすることが好ましい。ただし、代わりの値も容易に実現できる。

計算時間を節約するために、ブロック５０２またはブロック５０８での特徴抽出の後に、ブロック５１０でいくつかの特徴ベクトルのグループ化が実行される。このグループ化は、グループ化する特徴ベクトルの平均値を形成することによって実行する。このグループ化によって、次の処理ステップ、すなわち類似性マトリックスの計算の計算時間を節約しうる。類似性マトリックスの計算には、２つの特徴ベクトルのあらゆる可能な組み合わせの間の距離をそれぞれ決定する。楽曲全体のベクトルの数がｎ個の場合は、ｎ×ｎの計算になる。グループ化ファクタｇは、平均値の形成によって１つのベクトルにグループ化される連続する特徴ベクトルの数を示す。このようにして、計算回数を減らしうる。

グループ化は、一種の雑音抑制でもある。すなわち、グループ化によって、連続する複数のベクトルの特徴表現における細かい変化が平均して相殺される。この特性は、歌の大きな構造を見つける際に好ましい効果をもたらす。

本発明の概念では、特殊な音楽プレーヤによって、計算されたセグメントの検索と個々のセグメントの選択とが、的を絞った方法で可能になる。したがって、ミュージックストアの消費者は、たとえば特定のキーを用いて、または特定のソフトウェアコマンドを起動して、ある楽曲のリフレインに直ちに容易にジャンプし、そのリフレインが好みのものであるかどうかを確認し、好みのものであればスタンザを続けて聴き、最終的に購入を決めるかもしれない。したがって、購入に関心を抱いている消費者がある楽曲の中で特に興味を持っている部分を快適にかつ正確に聞ける一方で、たとえばソロまたはブリッジを自宅で聞くときの楽しみのために取っておくことが実際に可能である。

本発明の概念は、ミュージックストアにとっても大いに有利である。その理由は、顧客が、的を絞った、ひいては高速でもある方法で聴取し、結局は購入しうるので、他の顧客は聴取するために長時間待つ必要がなく、すぐに自分の番になるからである。これは、利用者は絶えず前後に巻き戻す必要がなく、楽曲に関して利用者が必要とするすべての情報を的を絞った素早い方法で得られるという事実による。

さらに、本発明の概念の実質的な利点として、特にセグメンテーションの後修正により楽曲の情報が失われない点が挙げられる。好ましくは６秒より短いすべてのセグメントが先行または後続セグメントにマージされることは言うまでもない。しかし、どれだけ短かろうと、どのセグメントも除去されない。これは、利用者が原則として楽曲内のすべてを聴けるので、短くても、利用者にとって極めて心地よい部分を利用者が聴けるため、利用者は十分な熟慮の末に、その正に短い部分によってその楽曲の購入を決定しうるという利点を有する。セグメンテーションの後修正は、楽曲の区間を実際に完全に除去してしまう場合もあったので、このような短い部分が切り捨てられていたであろう。

本発明は、他のアプリケーション、たとえば広告のモニタリングにも適用可能である。広告のモニタリングに適用すると、広告主が購入した広告時間の全体にわたってオーディオ作品が実際に再生されたかどうかを調べたいという場合に利用できる。オーディオ作品は、たとえば、楽曲セグメント、話者セグメント、および雑音セグメントを含みうる。次に、セグメンテーションアルゴリズム、すなわちセグメンテーションとその後の複数のセグメントグループへの分類によって、完全なサンプル的な比較に比べ、素早くかつ実質的により低集約的な調査が可能である。この効率的な調査は、単純にセグメントクラス統計、すなわち見つかったセグメントクラスの数および個々のセグメントクラス内のセグメントの数と、理想的な広告作品のためのデフォルト値との比較である。これによって、広告主は、ラジオ局またはテレビ局が広告信号の主要部分（区間）をすべて実際に放送したかどうかを容易に確認しうる。

本発明のさらなる利点は、たとえば多数の楽曲のリフレインのみを聴いてから音楽番組の選択を行えるように、大きな楽曲データベースの検索に使用しうる点である。この場合、番組提供者は、多数の異なる楽曲の「リフレイン」とラベル付けされたセグメントクラスに属する個々のセグメントを選択して提供するであろう。あるいは、たとえば１人のアーティストのすべてのギターソロを相互に聞き比べることも面白いであろう。本発明によると、これらの提供は、たとえば、多数の楽曲の中から「ソロ」と指定されているセグメントクラスの１つまたはいくつか（存在する場合）のセグメントを常に結合し、これらをファイルとして提供することによって容易に行えるであろう。

さらに他のアプリケーションの可能性は、さまざまなオーディオ作品のスタンザおよびリフレインのミキシングである。これは、ＤＪの関心を特に引くであろうし、まったく新しい独創的な音楽合成の可能性を切り開くものである。この合成は、正確に目標とする方法で容易に、とりわけ自動的に実行しうる。本発明の概念は、何れの時点においても利用者の介入が不要であるので、自動化は容易である。つまり、本発明の概念の利用者は、たとえば一般的なソフトウェアのユーザインタフェースを操作するための通常のスキルを除いては、特殊なトレーニングを一切必要としない。

実際の状況によっては、本発明の概念は、ハードウェアまたはソフトウェアで実施しうる。この実施は、対応する方法が実行されるように、プログラム可能なコンピュータシステムと協働する、電子的に読み出すことができる制御信号を有する、デジタル記憶媒体、特に、フロッピー（登録商標）ディスクまたはＣＤ上で行うことができる。本発明は、一般に、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法を実行するために、機械で読み出し可能なキャリアに格納されたプログラムコードを有するコンピュータプログラム製品にも存在する。したがって、言い換えると、本発明は、コンピュータプログラムがコンピュータ上で実行されるときに、この方法を実行するためのプログラムコードを有するコンピュータプログラムを表す。

図１は、本発明の好適な実施の形態によるグループ化するための本発明の装置のブロック回路図である。図２は、反復割り当てを行うための本発明の好適な実施の形態を説明するフローチャートである。図３は、セグメンテーション修正手段の機能のブロック図である。図４ａは、セグメントクラス指定手段の好適な実施の形態である。図４ｂは、セグメントクラス指定手段の好適な実施の形態である。図５は、オーディオ解析ツール全体のブロック回路図である。図６は、特徴類似性マトリックスの一例を示す図である。図７は、セグメント類似性マトリックスの一例を示す図である。図８は、類似性マトリックスＳ内のエレメントを示す概略図である。図９は、滑らかにした新規性値を示す概略図である。

Claims

繰り返し出現する複数のセグメントを時系列で連結して構成されているオーディオ作品を分析するための装置であって、
前記オーディオ作品を前記セグメントの境界の候補となる時間で分割し、前記分割された各セグメントごとに相互の類似性値を表す類似性マトリックスを計算し、前記オーディオ作品の前記複数のセグメントを複数のセグメントクラスに割り当てる手段を備え、
前記割り当てる手段は、
前記オーディオ作品の全セグメント中、前記類似性マトリックスの各行または列について類似性値を足し合わせることで求められる総類似性値が最も高いセグメントを第１のセグメントクラスに割り当て、割り当てた当該セグメントに対して所定の閾値以上の類似性値を有するセグメントを前記第１のセグメントクラスにさらに割り当て、
前記第１のセグメントクラスに割り当てたセグメントを除いた前記オーディオ作品の全セグメント中、総類似性値が最も高いセグメントを第２のセグメントクラスに割り当て、割り当てた当該セグメントに対して所定の閾値以上の類似性値を有するセグメントを前記第２のセグメントクラスにさらに割り当て、
前記オーディオ作品の全セグメントがセグメントクラスに割り当てられるまで、前記セグメントのセグメントクラスへの割り当て処理を繰り返す、装置。
前記割り当てる手段は、
前記複数のセグメントの１つのセグメントについての類似性閾値を計算するための手段と、
前記類似性閾値が計算されたセグメントと類似性値が前記類似性閾値以上であるセグメントとを１つのセグメントクラスに割り当てる、割り当てるための手段と、
前記類似性マトリックスの各行または列について総類似性値が最大となるセグメントを選択するセグメント選択手段と、
２つの異なるセグメントクラスに割り当てられようとするセグメントである競合セグメントがある場合に、前記２つの異なるセグメントクラスのうち前記競合セグメントが先に割り当てられた一方のセグメントクラスにおけるセグメントに対する前記競合セグメントの類似性値を第１の類似性値（Ｓ_Ｓ（ｉ^＊，ｋ））と決定し、さらに前記２つの異なるセグメントクラスのうち前記競合セグメントが後から割り当てられようとする他方のセグメントクラスにおけるセグメントに対する前記競合セグメントの類似性値を第２の類似性値（Ｓ_Ｓ（ｉ，ｋ））と決定するように形成されている、セグメント割り当て競合手段とを備え、さらに
前記計算するための手段は、前記セグメント選択手段で選択されたセグメントについての複数の類似性値から前記類似性閾値を計算し、
前記割り当てるための手段は、前記１つのセグメントクラスに割り当てられたセグメントについて総類似性値をゼロに設定し、
前記複数のセグメントにおいてセグメントクラスにまだ割り当てられていないセグメントがある場合、前記まだ割り当てられていないセグメントについて、前記セグメント選択手段は、総類似性値が最大となる行または列のセグメントを選択し、前記計算するための手段は、当該選択されたセグメントについての類似性閾値を計算し、前記割り当てるための手段は、当該選択されたセグメントと当該類似性閾値を上回る類似性値を有するセグメントとを別の１つのセグメントクラスに割り当て、さらに、当該別の１つのセグメントクラスに割り当てられたセグメントについて総類似性値をゼロに設定し、さらに
前記割り当てるための手段は、前記第２の類似性値が前記第１の類似性値より強い類似性を示している場合に、前記競合セグメントを前記一方のセグメントクラスから除去し、前記競合セグメントを前記他方のセグメントクラスに割り当てるように形成されている、
請求項１に記載の装置。
前記割り当てるための手段は、前記類似性閾値に関してセグメントクラスに割り当てる条件を満たしていないセグメントを前記セグメントクラスに割り当てずに、それを別のセグメントクラスへの割り当てのために残しておくように形成され、さらに
前記割り当てるための手段は、割り当てられたセグメントについての複数の類似性値を別のセグメントクラスへの割り当て時に考慮しないように形成されている、
請求項２に記載の装置。
前記計算するための手段は、セグメントが１つのセグメントクラスに割り当てられた後に、前記１つのセグメントクラスに割り当てられた前記セグメントについての複数の類似性値を無視するように形成され、さらに
前記割り当てるための手段は、前記セグメントが前記１つのセグメントクラスに割り当てられた後に、前記セグメントが割り当てられた前記１つのセグメントクラスを除いた別のセグメントクラスに対して別のセグメントの割り当てを実行するように形成されている、
請求項２または請求項３に記載の装置。
前記セグメント割り当て競合手段は、前記競合セグメントを前記一方のセグメントクラスから除去した場合に、前記一方のセグメントクラスへの傾向を前記競合セグメントに割り当て、前記競合セグメントを前記一方のセグメントクラスから除去しなかった場合に、前記他方のセグメントクラスへの傾向を前記競合セグメントに割り当てるように形成され、
前記装置は、前記オーディオ作品のセグメンテーションを修正するように形成されているセグメンテーション修正手段をさらに備え、
前記セグメンテーション修正手段は、前記複数のセグメントについてのセグメントクラス情報に応じて前記複数のセグメントを先行するセグメントまたは後続するセグメントにマージするように形成され、さらに
前記セグメンテーション修正手段は、所定の長さより短い各セグメントについて、前記セグメントの傾向が、時間的に直前にあるセグメントが属するセグメントクラスに合致するかどうかを確認し、合致する場合に前記セグメントを前記時間的に直前にあるセグメントにマージし、または、所定の長さより短い各セグメントについて、前記セグメントの傾向が、時間的に直後にあるセグメントが属するセグメントクラスを示しているかどうかを確認し、示している場合に前記セグメントを前記時間的に直後にあるセグメントにマージするように形成されている、
請求項２ないし請求項４のいずれかに記載の装置。
時間的に連続しかつ同じセグメントクラスに属する複数のセグメントをマージするように形成されているセグメンテーション修正手段を備える、
請求項１ないし請求項４のいずれかに記載の装置。
前記セグメンテーション修正手段は、時間的に連続しかつ同じセグメントクラスに属する複数のセグメントをマージするように形成されている、
請求項５に記載の装置。
前記セグメンテーション修正手段は、所定の長さより短いセグメント長を有する複数のセグメントを修正するために前記複数のセグメントのみを選択するように形成されている、
請求項５ないし請求項７のいずれかに記載の装置。
前記セグメンテーション修正手段は、単一のセグメントクラスに属するセグメントを、それの時間的な先行セグメントとそれの時間的な後続セグメントとが別の単一のセグメントクラスに属する場合に、前記先行セグメントおよび前記後続セグメントにマージするように形成されている、
請求項８に記載の装置。
前記セグメンテーション修正手段は、単一のセグメントのみを含むセグメントクラスにあるセグメントをそのセグメントに先行するセグメントにマージするように形成されている、
請求項８または請求項９に記載の装置。
前記セグメンテーション修正手段は、同じセグメントクラスに属する複数のセグメントのうち所定の長さより短いすべてのセグメントを検索し、検索された短いすべてのセグメントのそれぞれについて、先行セグメントおよび後続セグメントがそれぞれ単一のセグメントクラスに属しているかどうかを調べ、すべての先行セグメントが単一のセグメントクラスに属している場合に、検索された短いすべてのセグメントを先行セグメントにマージし、すべての後続セグメントが単一のセグメントクラスに属している場合に、検索された短いすべてのセグメントを後続セグメントにマージするように形成されている、
請求項８、請求項９または請求項１０に記載の装置。
前記セグメンテーション修正手段は、所定の長さより短いセグメント長を有するセグメントについて、前記セグメントの先頭でのどの程度境界らしいかを表す第１の新規性値を決定し、さらに前記セグメントの最後でのどの程度境界らしいかを表す第２の新規性値を決定し、さらに前記第１の新規性値が前記第２の新規性値より大きい場合に前記セグメントを前記時間的に後続するセグメントにマージし、前記第１の新規性値が前記第２の新規性値より小さい場合に前記セグメントを時間的に先行するセグメントにマージするように形成されている、
請求項５ないし請求項１１のいずれかに記載の装置。
前記セグメンテーション修正手段は、
同じセグメントクラスに属しかつ連続する複数のセグメントがある場合に、前記複数のセグメントを相互にマージし、
次に、セグメント長が所定の長さとしての第１の閾値より短いセグメントがあるかどうかを調べ、
前記短いセグメントがある場合に、前記短いセグメントにセグメントクラスへの傾向があるかどうかを調べ、
前記短いセグメントにセグメントクラスへの傾向がない場合に、前記セグメントクラスへの傾向がない短いセグメントであって前記第１の閾値より小さい第２の閾値より短いセグメントをさらに短いセグメントとして、
前記さらに短いセグメントに関係する特徴に基づいて、前記さらに短いセグメントを先行セグメントおよび後続セグメントの少なくとも一方にマージし、さらに
前記さらに短いセグメントの先頭および最後での特徴に基づいて、前記さらに短いセグメントを前記時間的に後続するセグメントまたは先行するセグメントにマージし、
次に、前記さらに短いセグメントにおいてマージされていないセグメントであって前記第２の閾値より小さい第３の閾値より短いセグメントを短すぎるセグメントとして、前記短すぎるセグメントの先頭および最後での特徴に基づいて、前記短すぎるセグメントを前記時間的に後続するセグメントまたは先行するセグメントにマージするように形成されている、
請求項５ないし請求項１２のいずれかに記載の装置。
リフレインセグメントクラスの候補となる第１の候補セグメントクラスおよび第２の候補セグメントクラスについて前記セグメントの選択を実行し、
前記第１の候補セグメントクラスがオーディオ信号において時間的に最後のセグメントを有するかどうかを調べ、さらに
前記第１の候補セグメントクラスが前記時間的に最後のセグメントを有する場合に、前記第１の候補セグメントクラスをリフレインセグメントクラスとして指定するように形成されている、セグメントクラス指定手段をさらに備える、
請求項１ないし請求項１３のいずれかに記載の装置。
前記セグメントクラス指定手段は、
前記第２の候補セグメントクラスがオーディオ信号において時間的に最後のセグメントを有するかどうかを調べ、
前記第２の候補セグメントクラスが前記時間的に最後のセグメントを有する場合に、前記第２の候補セグメントクラスが他の候補セグメントクラスよりオーディオ信号において時間的に前のセグメントを有するかどうかを調べ、さらに
前記第２の候補セグメントクラスが前記時間的に前のセグメントを有しない場合に、前記第２の候補セグメントクラスをリフレインセグメントクラスとして指定するように形成されている、
請求項１４に記載の装置。
前記セグメントクラス指定手段は、
前記第２の候補セグメントクラスがオーディオ信号において時間的に最後のセグメントを有するかどうかを調べ、
前記第２の候補セグメントクラスが前記時間的に最後のセグメントを有する場合に、前記第２の候補セグメントクラスが他の候補セグメントクラスよりオーディオ信号において時間的に前のセグメントを有するかどうかを調べ、さらに
前記第２の候補セグメントクラスが前記時間的に前のセグメントを有する場合に、前記第１の候補セグメントクラスをリフレインセグメントクラスとして指定するように形成されている、
請求項１４に記載の装置。
前記セグメントクラス指定手段は、前記第１の候補セグメントクラスをリフレインセグメントクラスとして指定する場合に、前記第２の候補セグメントクラスをスタンザセグメントクラスとして指定するように形成されている、
請求項１４または請求項１６に記載の装置。
前記セグメントクラス指定手段は、前記第２の候補セグメントクラスをリフレインセグメントクラスとして指定する場合に、前記第１の候補セグメントクラスをスタンザセグメントクラスとして指定するように形成されている、
請求項１５に記載の装置。
前記セグメントクラス指定手段は、
最初にセグメントを割り当てた第１のセグメントクラスを前記第１の候補セグメントクラスとして選択し、
２番目にセグメントを割り当てた第２のセグメントクラスが、１つだけのセグメントを有するかまたは時間的に最初のセグメントおよび最後のセグメントの２つのセグメントを有するかを調べ、有しない場合、前記第２のセグメントクラスを前記第２の候補セグメントクラスの選択範囲に留まる第２のクラスタと指定し、有する場合、前記第１のセグメントクラスおよび前記第２のセグメントクラス以外のセグメントクラスであって最も頻繁に出現したセグメントを含むセグメントクラスを前記第２のクラスタと指定し、
前記第１のセグメントクラスおよび前記第２のクラスタ以外のセグメントクラスであって最も頻繁に出現したセグメントクラスを前記第２の候補セグメントクラスの選択範囲に留まる第３のクラスタと指定し、
前記第３のクラスタに関係する特徴に基づいて、前記第２のクラスタまたは前記第３のクラスタを前記第２の候補セグメントクラスとして選択する、
請求項１４ないし請求項１８のいずれかに記載の装置。
繰り返し出現する複数のセグメントを時系列で連結して構成されているオーディオ作品をコンピュータにより分析するための方法であって、
前記コンピュータが、
前記オーディオ作品を前記セグメントの境界の候補となる時間で分割し、前記分割された各セグメントごとに相互の類似性値を表す類似性マトリックスを計算し、前記オーディオ作品の前記複数のセグメントを複数のセグメントクラスに割り当てるステップを実行する方法であり、
前記割り当てるステップは、
前記オーディオ作品の全セグメント中、前記類似性マトリックスの各行または列について類似性値を足し合わせることで求められる総類似性値が最も高いセグメントを第１のセグメントクラスに割り当て、割り当てた当該セグメントに対して所定の閾値以上の類似性値を有するセグメントを前記第１のセグメントクラスにさらに割り当てるステップと、
前記第１のセグメントクラスに割り当てたセグメントを除いた前記オーディオ作品の全セグメント中、総類似性値が最も高いセグメントを第２のセグメントクラスに割り当て、割り当てた当該セグメントに対して所定の閾値以上の類似性値を有するセグメントを前記第２のセグメントクラスにさらに割り当てるステップと、
前記オーディオ作品の全セグメントがセグメントクラスに割り当てられるまで、前記セグメントのセグメントクラスへの割り当て処理を繰り返すステップとを含む、方法。
コンピュータ上で動作するときに、請求項２０に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。