JP4775380B2 - 楽曲の時間セグメントをグループ化するための装置および方法 - Google Patents

楽曲の時間セグメントをグループ化するための装置および方法 Download PDF

Info

Publication number
JP4775380B2
JP4775380B2 JP2007533882A JP2007533882A JP4775380B2 JP 4775380 B2 JP4775380 B2 JP 4775380B2 JP 2007533882 A JP2007533882 A JP 2007533882A JP 2007533882 A JP2007533882 A JP 2007533882A JP 4775380 B2 JP4775380 B2 JP 4775380B2
Authority
JP
Japan
Prior art keywords
segment
class
segments
similarity
assigned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007533882A
Other languages
English (en)
Other versions
JP2008515012A (ja
Inventor
ピンクステレン マルクス ヴァン
ミヒャエル ザオペ
マルクス クレーマー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JP2008515012A publication Critical patent/JP2008515012A/ja
Application granted granted Critical
Publication of JP4775380B2 publication Critical patent/JP4775380B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work

Description

本発明は、オーディオセグメンテーションに関し、特に楽曲の解析、すなわち楽曲に含まれ、その楽曲内で繰り返し出現しうる個々の主要部分へのセグメンテーションに関する。
ロックおよびポップ分野の音楽の大半は、イントロ、スタンザ、リフレイン、ブリッジ、アウトロなど、多かれ少なかれ固有のセグメントで構成される。オーディオセグメンテーションの目的は、このようなセグメントの開始時点と終了時点とを検出し、これらのセグメントを最も重要なクラス(スタンザおよびリフレイン)においてそれぞれのメンバシップに応じてグループ化することである。算出された各セグメントの正しいセグメンテーションおよび特徴付けは、さまざまな分野で実際に使用しうる。たとえば、アマゾン(Amazon)、ミュージックライン(Musicline)などのオンラインプロバイダからの楽曲は「イントロスキャン」をインテリジェントに行いうる。
インターネット上の大半のプロバイダがそれぞれの試聴見本で提供するものは、楽曲からの短い抜粋のみである。この場合、関心を抱いている者に歌の最初の30秒またはいずれかの30秒だけでなく、歌の最も代表的な抜粋を提供することも意味があることは言うまでもない。歌の代表的な抜粋は、たとえば、歌のリフレインとすることも、さまざまな主要クラス(スタンザ、リフレインなど)に属する複数のセグメントで構成された要約とすることもできる。
オーディオセグメンテーション技術のさらに別のアプリケーションの例として、セグメント化/グループ化/マーキングアルゴリズムの音楽プレーヤへの統合が挙げられる。セグメントの先頭およびセグメントの最後に関する情報によって、楽曲の的を絞った検索が可能になる。セグメントのクラスメンバシップ、すなわちセグメントがスタンザ、リフレインなどであるかどうかによって、たとえば次のリフレインまたは次のスタンザへのダイレクトジャンプも可能なる。このようにアルバム全体を試聴する可能性を顧客に提供するアプリケーションは、大きな音楽市場にとって関心の的である。顧客は歌の中の特徴的な部分まで簡単に早送りできるので、その顧客に楽曲を購入させるという結果に至ることもある。
オーディオセグメンテーションの分野には、さまざまなアプローチが存在する。次に、ジョナサン・フートおよびマシュー・クーパーのアプローチを一例として説明する。この方法は、J.T.フート(FOOTE)およびM.L.クーパー(Cooper)の「構造上の相似解析によるポピュラー楽曲の要約化(Summarizing Popular Music via Structural Similarity Analysis)」、オーディオおよびアコースティックスへの信号処理2003のIEEEワークショップ(IEEE Workshop of Signal Processing to Audio and Acoustics 2003)のプロシーディングと、J.T.フート(FOOTE)およびM.L.クーパー(COOPER)の「自己相似分解を用いたメディアセグメンテーション(Media Segmentation using Self−Similar Decomposition)」、マルチメディアデータベースのための保存および検索SPIE(SPIE Storage and Retrieval for Multimedia Databases)のプロシーディング、2003年1月、第5021巻、167−75頁とに、解説されている。
フートの公知の方法を一例として、図5のブロック回路図に基づいて説明する。最初に、WAVファイル500を提供する。下流の抽出ブロック502において、特徴抽出が行われる。ここでは、スペクトル係数自体、または代わりにメル周波数ケプストラム係数(MFCC)を特徴として抽出する。この抽出の前に、このWAVファイルに対して0.05秒幅の重複しない窓による短時間フーリエ変換(STFT)が実行される。次に、MFCC特徴がスペクトル領域で抽出される。ここで指摘すべき点は、パラメータ表現が、圧縮、転送、または再構築に対しては最適化されず、オーディオ解析に対して最適化されることである。同様のオーディオ作品は同様の特徴を生成することが要求される。
次に、抽出された特徴は、メモリ504にファイリングされる。
特徴抽出アルゴリズムに引き続き、セグメンテーションアルゴリズムが実行され、その結果は、ブロック506に示されるように、類似性マトリックスである。ただし、最初に、特徴マトリックスが読み出され(508)、次に特徴ベクトルがグループ化される(510)。次に、グループ化された特徴ベクトルにより、すべての特徴間の距離測定で構成された類似性マトリックスが構築される。具体的には、それぞれ対に組み合わされたオーディオ窓のすべての対が、定量的類似性測度、すなわち距離を用いて比較される。
類似性マトリックスの構築方法を図8に示す。図8において、楽曲は、複数のオーディオサンプルからなるストリーム800として示されている。上記のように、このオーディオ作品は窓掛けされ、第1の窓はiで示され、第2の窓はjで示される。このオーディオ作品は、全体としてたとえばK個の窓を有する。つまり、この類似性マトリックスは、K行およびK列を有する。次に、各窓iについて、および各窓jについて、相互の類似性測度が計算される。ここで、計算された類似性測度または距離測度D(i,j)は、類似性マトリックスのiおよびjでそれぞれ示される行または列に入力される。したがって、1つの列は、その楽曲内の他のすべてのオーディオ窓に対する、jで示された窓の類似性を示す。こうして、楽曲の先頭の窓に対する窓jの類似性は、列jの行1に示されることになる。次に、この楽曲の第2の窓に対する窓jの類似性が列jの行2に示される。他方、第1の窓に対する第2の窓の類似性は、このマトリックスの第2の列の第1の行に示されることになる。
このマトリックスは、対角線に対して対称的であり、ある窓のその窓自身に対する類似性、すなわち類似性が100%という自明のケースが対角線上に示されるという点で、冗長であることが分かる。
楽曲の類似性マトリックスの例は、図6に見られる。ここでも、主対角線を基準としてマトリックスが完全に対称的な構造であることが認められる。この図において、主対角線は明るい帯として示されている。さらに、相対的に粗い時間分解能に対して窓の長さが短いために、図6においては主対角線が明るい連続線として見えず、図6からはようやく認識できることも指摘しておく。
次に、たとえば図6に示すような類似性マトリックスを使用して、カーネルマトリックス514を用いたカーネル相関512によって新規性測度を得る。新規性測度は、「新規性スコア」としても知られており、平均化も可能であり、新規性スコアの滑らかにした形態が図9に示されている。この新規性スコアの平滑化は、図5にブロック516として概略的に示されている。
次に、ブロック518において、滑らかにした新規性値推移を用いてセグメント境界が読み出される。ここでは、滑らかにした新規性推移における局所的最大値を決定する必要がある。また、必要であれば、このために、平滑化に起因する一定サンプル数だけシフトさせる必要がある。この目的は、オーディオ作品の正しいセグメント境界を絶対または相対時間表示として実際に得ることにある。
次に、図5から分かるように、クラスタ化というブロックにおいて、いわゆるセグメント類似性表現またはセグメント類似性マトリックスが確立される。セグメント類似性マトリックスの一例が図7に示されている。図7の類似性マトリックスは、原則的には図6の特徴類似性マトリックスと同様である。ただし、図7においては、図6のように窓からの特徴を用いることはなく、セグメント全体からの特徴を用いる。セグメント類似性マトリックスは、特徴類似性マトリックスと同様の意味を有するが、実質的により粗い分解能を有する。窓の長さが0.05秒の範囲に含まれる一方で、相当長いセグメントが楽曲内のたとえばおそらく10秒の範囲に含まれる場合は、このように粗い分解能が望まれることは言うまでもない。
次に、ブロック522において、クラスタ化が実行される。すなわち、各セグメントが複数のセグメントクラスに分類され(同様のセグメントは同じセグメントクラスに分類され)、次に、「ラベリング」と示されているブロック524において、各セグメントクラスがマーキングされる。ラベリングにおいては、スタンザであるセグメント、リフレインであるセグメント、イントロ、アウトロ、ブリッジなどであるセグメントをどのセグメントクラスに取り込むかを決定する。
最後に、図5で526と示されているブロックにおいて、楽曲の要約が確立される。この要約は、ある楽曲のたとえばスタンザ、リフレインおよびイントロのみを重複なく聞かせるために、利用者に提供するものである。
個々のブロックについて以下により詳細に説明する。
既に説明したように、楽曲の実際のセグメンテーションは、特徴マトリックスの生成および格納(ブロック504)後に行われる。
楽曲を調べる際のその構造に関する特徴に基づき、対応する特徴マトリックスが読み出され、さらなる処理のためにワーキングメモリに読み込まれる。この特徴マトリックスは、解析窓の数に特徴係数の数を掛けた大きさを有する。
類似性マトリックスによって、1つの楽曲の特徴推移が2次元で表現される。特徴ベクトルの各組み合わせ対について、距離測度が計算され、類似性マトリックスに保存される。2つのベクトル間の距離測度を計算するためには、たとえばユークリッド距離測定およびコサイン距離測定など、さまざまな可能性がある。2つの特徴ベクトル間の結果D(i,j)は、窓類似性マトリックスのi,j番目のエレメントに格納される(ブロック506)。この類似性マトリックスの主対角線は、楽曲全体の推移を表す。したがって、主対角線の各エレメントは、1つの窓をその窓自身と比較した結果であるため、常に最大の類似性値を有する。コサイン距離測定の場合、これは値1である。単純なスカラー差およびユークリッド距離においては、この値は0に等しい。
図6に示すように類似性マトリックスを視覚化するために、各エレメントi、jにグレイスケールを割り当てる。各グレイスケールは、類似性値に比例して段階的に変化するので、最大の類似性(主対角線)は最大の類似性に対応する。この図によって、1つの歌の構造をマトリックスによって今や視覚的に認識しうる。特徴表現が同様の領域は、主対角線に沿った明度が同様の象限に対応する。実際のセグメンテーションのタスクは、これらの領域間の境界を見つけることである。
類似性マトリックスの構造は、カーネル相関512で計算される新規性測度に対して重要である。新規性測度は、類似性マトリックスの主対角線に沿った特殊なカーネルの相関だけ生じる。カーネルKの一例が図5に示されている。このカーネルマトリックスは、類似性マトリックスSの主対角線に沿って相関され、楽曲の各時点iについて重なり合っているマトリックスエレメントの積を合計すると、新規性測度が得られる。新規性測度は、図9に滑らかにした形態で例示されている。図5においては、カーネルKではなく、拡大されたカーネルの使用が好ましい。拡大されたカーネルには、ガウス分布がさらに重ね合わされるので、マトリックスの各端が0に向かって移動する。
新規性推移において突出した最大値の選択は、セグメンテーションにとって重要である。滑らかにされていない新規性推移のすべての最大値を選択すると、オーディオ信号が極めて過度にセグメント化される。
したがって、新規性測度を滑らかにする必要がある。すなわち、IIRフィルタまたはFIRフィルタなどのさまざまなフィルタを用いる必要がある。
1つの楽曲のセグメント境界を抽出したら、同様のセグメントを同様のものとして特徴付け、複数のクラスにグループ化する必要がある。
フートおよびクーパーは、カルバック−ライブラー(Cullback−Leibler)距離によるセグメントベースの類似性マトリックスの計算を説明している。このため、新規性推移から得られたセグメント境界に基づき、特徴マトリックス全体から個々のセグメント特徴マトリックス、すなわち特徴マトリックス全体の部分マトリックスを抽出する。このように展開されたセグメント類似性マトリックス520を、次に特異値分解(SVD)にかける。この結果、降順で特異値が得られる。
次に、ブロック526において、楽曲のクラスタおよびセグメントに基づき、楽曲の自動要約が実行される。このために、最初に、特異値が最も大きい2つのクラスタが選択される。次に、対応するクラスタインジケータの値が最大のセグメントがこの要約に追加される。つまり、この要約は、1つのスタンザと1つのリフレインとを含む。あるいは、楽曲の全情報が必ず1度だけ提供されるように、繰り返されるすべてのセグメントを削除してもよい。
セグメンテーション/楽曲解析のためのさらなる技術に関しては、S.チュー(CHU)およびB.ローガン(LOGAN)の「キーフレーズを用いた楽曲の要約(Music Summary using Key Phrases)」、ケンブリッジリサーチ研究所2000の技術レポート(Technical Report, Cambridge Research Laboratory 2000)と、M.A.バーシュ(BARTSCH)およびG.H.ウェイクフィールド(WAKEFIELD)の「コーラスをキャッチするために:オーディオサムネール化のために彩度に基づく表現の使用(To Catch a Chorus: Using Chroma−Based Representation for Audio Thumbnailing)」、オーディオおよびアコースティックスへの信号処理2001のIEEEワークショップ((IEEE Workshop of Signal Processing to Audio and Acoustics 2001)のプロシーディング、インターネット<URL:http://musen.engin.umich.edu/papers/bartsch wakefield waspaa01 final.pdf>とを参照する。
セグメントクラスの形成、すなわちセグメントをクラスタに割り当てるための特異値分解(SVD)は、一方では極めて計算集約的であり、他方では結果の判定に問題が厄介であることから、公知の方法では不都合である。特異値がほぼ等しい大きさであると、2つの同様の特異値が同じセグメントクラスを実際には表し、2つの異なるセグメントクラスを表してはいないという間違った判定が行われるおそれがある。
さらに、特異値分解により得られる結果は、類似性値の大きな差が存在する場合、すなわちある楽曲にスタンザおよびリフレインのように極めて似ている部分が複数存在するばかりか、イントロ、アウトロ、またはブリッジのように相対的に似ていない部分も複数含まれている場合は、いよいよ厄介になることが分かっている。
最大の特異値を有する2つのクラスタのうち、歌の中で最初のセグメントを有するクラスタが「スタンザ」クラスタであり、もう一方のクラスタが「リフレイン」クラスタであると常に想定されることは、公知の方法においてはさらに厄介である。この手順は、公知の方法においては、1つの歌は必ずスタンザで始まるという想定に基づく。この結果、著しいラベリングエラーがもたらされることが経験から分かっている。これは、ラベリングが、方法全体のいわば「成果」である、すなわち利用者に直ちに知られる限りでは問題である。先行する各ステップが精密かつ徹底していたとしても、最後のラベリングが正しくなければ、すべては相対的になるので、概念全体に対する利用者の信頼が完全に損なわれかねない。
この点において、特に自動楽曲解析方法に対するニーズがあることを指摘しておく。ただし、その結果の調査と、必要に応じた結果の修正とが必ずしも可能であるとは限らない。代わりに、市場において使用しうる方法は、人手による後修正を一切行わずに自動的に実行できる方法のみである。
J.T.フート(FOOTE)およびM.L.クーパー(Cooper)の「構造上の相似解析によるポピュラー楽曲の要約化(Summarizing Popular Music via Structural Similarity Analysis)」、オーディオおよびアコースティックスへの信号処理2003のIEEEワークショップ(IEEE Workshop of Signal Processing to Audio and Acoustics 2003)のプロシーディング J.T.フート(FOOTE)およびM.L.クーパー(COOPER)の「自己相似分解を用いたメディアセグメンテーション(Media Segmentation using Self−Similar Decomposition)」、マルチメディアデータベースのための保存および検索SPIE(SPIE Storage and Retrieval for Multimedia Databases)のプロシーディング、2003年1月、第5021巻、167−75頁 S.チュー(CHU)およびB.ローガン(LOGAN)の「キーフレーズを用いた楽曲の要約(Music Summary using Key Phrases)」、ケンブリッジリサーチ研究所2000の技術レポート(Technical Report, Cambridge Research Laboratory 2000) M.A.バーシュ(BARTSCH)およびG.H.ウェイクフィールド(WAKEFIELD)の「コーラスをキャッチするために:オーディオサムネール化のために彩度に基づく表現の使用(To Catch a Chorus: Using Chroma−Based Representation for Audio Thumbnailing)」、オーディオおよびアコースティックスへの信号処理2001のIEEEワークショップ((IEEE Workshop of Signal Processing to Audio and Acoustics 2001)のプロシーディング、インターネット<URL:http://musen.engin.umich.edu/papers/bartsch wakefield waspaa01 final.pdf>
本発明の目的は、1つの楽曲の複数の時間セグメントをグループ化するための機能強化され同時に効率的な概念を提供することである。
この目的は、請求項1に記載の装置、請求項20に記載の方法、または請求項21に記載のコンピュータプログラムによって達成される。
本発明は、1つのセグメントが楽曲全体において有する総類似性スコアが類似性平均値によって考慮されるように、セグメントについての適応類似性平均値に基づき、セグメントクラスへのセグメントの割り当てを実行する必要があるという知見に基づく。1つのセグメントについてこのような類似性平均値を計算した後、この類似性平均値に基づき、セグメントクラスすなわちクラスタへのセグメントの実際の割り当てを実行する。類似性平均値の計算には、セグメント数と当該セグメントに関連付けられている複数の類似性値を必要とする。直前に検討したセグメントに対する1つのセグメントの類似性値が、たとえば類似性平均値より大きい場合に、そのセグメントは、直前に検討したセグメントクラスに属するものとして割り当てられる。ただし、直前に検討したセグメントに対する1つのセグメントの類似性値がこの類似性平均値より低い場合は、そのセグメントクラスには割り当てられない。
つまり、言い換えると、割り当ては、類似性値の絶対量に応じて実行されるのではなく、類似性平均値を基準に実行される。つまり、類似性スコアが相対的に低いセグメントの場合、すなわち、たとえばイントロまたはアウトロを有するセグメントの場合は、スタンザまたはリフレインであるセグメントの場合より、類似性平均値が低くなる。これによって、楽曲内のセグメントからの類似性の偏差の大きさ、またはこのようなセグメントが楽曲内に発生する頻度を考慮する。ここで、たとえば数値的な問題ひいては曖昧さ、およびこの曖昧さに伴う不正な割り当てを回避できる。
本発明の概念は、スタンザおよびリフレインで構成されている楽曲、すなわち類似性値が等しく大きいセグメントクラスに属するセグメントを有する楽曲に特に適しているが、スタンザおよびリフレイン以外の部分、すなわちイントロ、ブリッジ、またはアウトロも有する楽曲にも適している。
本発明の好適な実施の形態において、適応類似性平均値の計算およびセグメントの割り当ては繰り返し実行され、割り当てられたセグメントは次の反復パスでは無視される。次の反復パスでは、既に割り当てられたセグメントが0に設定されているので、類似性絶対値、すなわち類似性マトリックスの1つの列内の類似性値の合計値が変わる。
本発明の好適な実施の形態においては、セグメンテーションの後修正が実行される。すなわち、たとえば新規性値(新規性値の局所的最大値)に基づくセグメンテーションとその後のセグメントクラスへの関連付けの後に、相対的に短いセグメントを先行セグメントまたは後続セグメントに関連付けられないかどうかを調べる。この理由は、最小セグメント長未満のセグメントが存在すると、過度のセグメンテーションに至る可能性が極めて高いからである。
本発明のさらなる好適な実施の形態においては、最後のセグメンテーションおよびセグメントクラスへの関連付けの後に、ラベリングを実行する。つまり、セグメントクラスをスタンザまたはリフレインとしてできるだけ正しく特徴付けるために、特殊な選択アルゴリズムを用いる。
本発明の上記および他の目的や特徴は、添付図面と共に以下の説明から明らかとなろう。
図1は、本発明の好適な実施の形態によるグループ化するための本発明の装置のブロック回路図であり、
図2は、反復割り当てを行うための本発明の好適な実施の形態を説明するフローチャートであり、
図3は、セグメンテーション修正手段の機能のブロック図であり、
図4aおよび図4bは、セグメントクラス指定手段の好適な実施の形態であり、
図5は、オーディオ解析ツール全体のブロック回路図であり、
図6は、特徴類似性マトリックスの一例を示す図であり、
図7は、セグメント類似性マトリックスの一例を示す図であり、
図8は、類似性マトリックスS内のエレメントを示す概略図であり、
図9は、滑らかにした新規性値を示す概略図である。
図1は、繰り返し出現する複数の主要部分で構成される楽曲の複数の時間セグメントを異なるセグメントクラスにグループ化し、セグメントクラスを主要部分に関連付けるための装置を示す。したがって、本発明は、特定の1つの構造に従う楽曲に特に関する。この構造では、同様の区間が複数回、他の区間と交互に出現する。大半のロックおよびポップソングは、それぞれの主要部分に関して1つの明確な構造を有する。
文献は、楽曲解析の主題を主にクラシック音楽に基づき扱うが、その多くは、ロックおよびポップ音楽にも当てはまる。1つの楽曲の主要部分は、「大形式部分」とも呼ばれる。ある楽曲の大形式部分とされる区間は、たとえばメロディー、リズム、テクスチャ等、さまざまな特徴に関して相対的に一様な性質を有する区間であると理解されている。この定義は、音楽理論において全般的に当てはまる。
ロックおよびポップ音楽における大形式部分は、たとえばスタンザ、リフレイン、ブリッジ、およびソロである。クラシック音楽においては、1つの作品のリフレインと他の部分(クプレ)の絡み合いをロンドとも呼ぶ。通常、クプレは、たとえばメロディー、リズム、ハーモニー、キー、または器楽編成に関して、リフレインに対比される。これは、現代の娯楽音楽にも移転できる。ロンドにさまざまな形式(チェインロンド、アークロンド、ソナタロンド)があるように、ロックおよびポップ音楽にも、歌の構成に関して実績のあるパターンが存在する。これらのパターンが多くの可能性のうちの一部に過ぎないことは言うまでもない。結局、作曲家がその楽曲をどのように構築するかを決定することは言うまでもない。ロックソングの代表的な構成の一例は、
A−B−A−B−C−D−A−B
のパターンであり、このパターンにおいて、Aはスタンザに相当し、Bはリフレインに相当し、Cはブリッジに相当し、Dはソロに相当する。楽曲の導入部はイントロであることが多い。イントロは、スタンザと同じコードシーケンスで構成されることが多いが、他の器楽編成を用いることもある。たとえばドラムを省いたり、ベースを省いたり、またはロックソングでギターのディストーションを行わないこともある。
本発明の装置は、初めに、各セグメントについての類似性表現を提供する手段10を含む。各セグメントについての類似性表現は、関連付けられた複数の類似性値を含む。これらの類似性値は、各セグメントが他の各セグメントにどれだけ似ているかを示す値である。類似性表現は、図7に示すセグメント類似性マトリックスであることが好ましい。このマトリックスでは、セグメント(図7ではセグメント1〜10)ごとに固有の列があり、各列はインデックス「j」で示される。さらに、各セグメントについての類似性表現は、各セグメント固有の行を有する。各行は、行インデックス「i」で示される。以降においては、この類似性表現を、例示的セグメント5に基づき示す。図7のマトリックスの主対角線内のエレメント(5,5)は、セグメント5のそれ自身に対する類似性値、すなわち最大の類似性値である。さらに、セグメント5は、セグメント番号6にもかなり似ている。セグメント番号6に対する類似性は、図7のマトリックスのエレメント(6,5)またはエレメント(5,6)によって示されている。さらに、セグメント5は、セグメント2および3に対しても類似性を有する。これらのセグメントに対する類似性は、図7のエレメント(2,5)または(3,5)または(5,2)または(5,3)によって示されている。セグメント番号5は、その他のセグメント1、4、7、8、9、10に対しても類似性を有するが、これらの類似性は図7ではもはや視認できない。
セグメントに関連付けられた複数の類似性値は、たとえば、図7のセグメント類似性マトリックスの列または行である。この列または行は、その列/行インデックスにより、それがどのセグメントを指しているか、たとえば5番目のセグメントを指していることを示す。この行/列は、その楽曲内の他の各セグメントに対する5番目のセグメントの類似性を含む。したがって、複数の類似性値は、たとえば図7の類似性マトリックスの行であり、または、図7の類似性マトリックスの列である。
楽曲の複数の時間セグメントをグループ化するための装置は、1つのセグメントについての類似性平均値を計算するための手段12をさらに含む。この計算には、当該セグメントに関連付けられている複数の類似性値のセグメントおよび類似性値が使用される。手段12は、たとえば、図7の列5についての類似性平均値を計算するように形成されている。好適な実施の形態において算術平均値を用いる場合は、手段12は、列内のすべての類似性値を加算し、この合計値を全セグメントの数で割る。自己類似性を排除するために、セグメントのセグメント自身に対する類似性を加算結果から減じることもできる。この場合の除算は、全エレメントの数で割るのではなく、全エレメント数から1を引いた数で行うことは言うまでもない。
計算するための手段12は、代わりに幾何平均値を計算することもできる。すなわち、1つの列の各類似性値を自乗し、自乗した結果を合計する。次に、この合計結果から根を計算し、これを列内のエレメントの数で(または列内のエレメントの数から1を引いた値で)割る。類似性マトリックスの各列の平均値が適応的に算出される限りは、すなわち平均値が当該セグメントに関連付けられている複数の類似性値を用いて計算された値である限りは、中間値など、他の任意の平均値を用いることもできる。
このように適応的に計算された類似性閾値は、次にセグメントをセグメントクラスに割り当てるための手段14に提供される。割り当てるための手段14は、あるセグメントクラスの類似性値が類似性平均値に関して所定の条件を満たす場合に、セグメントをそのセグメントクラスに関連付けるように形成されている。たとえば、類似性平均値の値が大きければ類似性が高いことを示し、類似性平均値の値が小さければ類似性が低いことを示すように類似性平均値がなっている場合は、類似性値が類似性平均値以上のセグメントは1つのセグメントクラスに割り当てられる。
本発明の好適な実施に形態においては、以下に説明する複数の特殊な実施の形態を実現するためのさらなる手段が存在する。これらの手段は、セグメント選択手段16、セグメント割り当て競合手段18、セグメンテーション修正手段20、およびセグメントクラス指定手段22である。
図1のセグメント選択手段16は、最初に、図7のマトリックスの各列について、総類似性値V(j)を計算するように形成されている。この値は、次のように決定され、
Figure 0004775380
Pは、セグメントの数である。SSは、セグメントのセグメント自身に対する自己類似性の値である。使用する技術に応じて、この値は、たとえばゼロ(0)または1になりうる。セグメント選択手段16は、最初に各セグメントについて値V(j)を計算し、次に最大値を有するベクトルVのベクトルエレメントiを見つける。言い換えると、これは、その列内の個々の類似性値を加算した結果、最大値または最大スコアに達した図7内の列が選択されることを意味する。このセグメントは、たとえば、セグメント番号5すなわち図7のマトリックスの列5である。この理由は、このセグメントは、他の3つのセグメントと少なくとも幾分かの類似性を有するからである。図7の例における番号7のセグメントも別の候補になりうる。この理由は、このセグメントも他の3つのセグメントに対して幾分かの類似性を有するからである。さらに、このセグメントの類似性は、セグメント2および3に対するセグメント5の類似性より高くさえある(図7においてグレーの濃度が濃い)。
次の例について、ここでセグメント選択手段16がセグメント番号7を選択すると想定する。この理由は、このセグメントは、マトリックスのエレメント(1,7)、(4,7)、および(10,7)により、類似性スコアが最も高いからである。言い換えると、これは、V(7)は、すべてのコンポーネント中で最大値を有するベクトルVのコンポーネントであることを意味する。
次に、列7、すなわちセグメント番号7、の類似性スコアを数値「9」で割ることによって、セグメントの類似性閾値を手段12から得る。
このセグメント類似性マトリックスにおいては、次に7番目の行または列について、この計算された閾値を上回るセグメント類似性がどれであるかを調べる。すなわち、i番目のセグメントとの類似性が平均値を上回るセグメントを調べる。次に、これらのセグメントをすべて、7番目のセグメントと同じように、第1のセグメントクラスに割り当てる。
本例について、セグメント7に対するセグメント10の類似性は平均値を下回るが、セグメント7に対するセグメント4およびセグメント1の類似性は平均値を上回ると想定する。この結果、セグメント番号7のほか、セグメント番号4およびセグメント番号1も第1のセグメントクラスに分類される。他方、セグメント番号10は、セグメント番号7に対する類似性が平均値を下回るため、第1のセグメントクラスに分類されない。
この割り当ての後に、この閾値調査において1つのクラスタに関連付けられたすべてのセグメントの対応するベクトル要素V(j)を0に設定する。この例では、V(7)のほか、コンポーネントV(4)およびV(1)が該当する。これは、このマトリックスの第7列、第4列、および第1列はゼロであり、すなわち最大値には決してなりえないので、以降の最大値検索の対象にならないことを直ちに意味する。
これは、セグメント類似性マトリックスのエントリ(1,7)、(4,7)、(7,7)、および(10,7)がゼロに設定されるという事実に意味上等しい。同じ手順が列1(エレメント(1,1)、(4,1)、および(7,1))および列4(エレメント(1,4)、(4,4)、(7,4)、および(10,4))に対して実行される。ただし、より容易な処理のために、マトリックスは変更されないが、割り当てられたセグメントに属するVのコンポーネントは、以降の反復ステップにおける次の最大値検索では無視される。
次の反復ステップにおいて、Vのまだ残っているエレメント、すなわちV(2)、V(3)、V(5)、V(6)、V(8)、V(9)、およびV(10)の中から次に新しい最大値が検索される。セグメント番号5、すなわちV(5)が、次に最大類似性スコアになるであろうと予想される。次に、セグメント5および6が第2のセグメントクラスに取り込まれる。セグメント2および3に対する類似性が平均値を下回るという事実のため、セグメント2および3は2次のクラスタに取り込まれない。これによって、この割り当ての実施により、ベクトルVのエレメントV(6)およびV(5)は0に設定される一方で、このベクトルのエレメントV(2)、V(3)、V(8)、V(9)、およびV(10)は3次のクラスタの選択候補として残っている。
ここにおいて、上記の残っているVのエレメントの間で新しい最大値が検索し直される。新しい最大値はV(10)、すなわちセグメント10に対するVのエレメントになりうる。したがって、セグメント10は3次のセグメントクラスに取り込まれる。さらに、セグメント7もセグメント10に対する類似性が平均を上回ることが分かるが、セグメント7は第1のセグメントクラスに属するものと既に特徴付けられている。したがって、割り当ての競合が発生する。この競合は、図1のセグメント割り当て競合手段18によって解決される。
簡単な解決方法として、セグメント7を第3のセグメントクラスに単に割り当てずに、たとえば、セグメント4について競合がなければ、代わりにセグメント4を割り当てることもできる。
ただし、セグメント7とセグメント10との間の類似性を無視しないために、次のアルゴリズムでは7と10との間の類似性を考慮することが好ましい。
一般に、本発明は、iとkの間の類似性を無視しないようになっている。よって、セグメントiおよびkの類似性値SS(i,k)を類似性値SS(i*,k)と比較する。ここで、i*は、クラスタC*に関連付けられている最初のセグメントである。このクラスタすなわちセグメントクラスC*は、前の調査によりセグメントkが既に関連付けられているクラスタである。セグメントkがクラスタC*に属するという事実のために、類似性値SS(i*,k)は決定的である。SS(i*,k)がSS(i,k)より大きい場合、セグメントkはクラスタC*に留まる。SS(i*,k)がSS(i,k)より小さい場合、セグメントkはクラスタC*から取り出され、クラスタCに割り当てられる。第1の場合では、すなわちセグメントkのクラスタメンバシップが変わらない場合は、セグメントiについてクラスタC*への傾向が注目される。ただし、セグメントkのクラスタメンバシップが変わる場合も、この傾向に注目することが好ましい。この場合、このセグメントが最初に受け入れられたクラスタに対するこのセグメントの傾向が注目される。これらの傾向は、セグメンテーションの修正に使用しうるので都合よい。この修正は、セグメンテーション修正手段20によって実行される。
類似性値の調査は、セグメント7が第1のセグメントクラス内の「元のセグメント」であるという事実により、第1のセグメントクラスに有利になる。したがって、セグメント7のクラスタメンバシップ(セグメントメンバシップ)は変わらず、第1のセグメントクラスに留まる。ただし、この事実を考慮するために、第3のセグメントクラス内のセグメント番号10について第1のセグメントクラスへのトレンドが認証される。
ただし、本発明によると、これによって、特に、2つの異なるセグメントクラスへのセグメント類似性が存在するセグメントについては、これらの類似性が無視されず、必要に応じて、後でトレンドまたは傾向によってさらに考慮されるように配慮される。
この手順は、セグメント類似性マトリックス内のすべてのセグメントが関連付けられるまで続けられる。すなわち、最後にはベクトルVのすべてのエレメントがゼロに設定される。
これは、図7に示す例の場合は、V(2)、V(3)、V(8)、V(9)の最大値、すなわちセグメント2および3が次に第4のセグメントクラスに分類され、次にセグメント8または9が第5のセグメントクラスに分類され、最後にはすべてのセグメントが関連付けられることを意味する。これによって、図2に示す反復アルゴリズムが完了する。
次に、セグメンテーション修正手段20の好適な実施を図3に基づき詳細に説明する。
カーネル相関によるセグメント境界の計算においては、ただし他の測度によるセグメント境界の計算においても、1つの楽曲の過度のセグメンテーションが発生し、すなわち算出されるセグメント境界が多すぎるか、またはセグメントが全般的に短くなりすぎることが分かる。たとえば、スタンザが不正に細分化されたために過度のセグメンテーションが発生した場合、本発明では、セグメント長と、先行または後続セグメントの分類先セグメントクラスの情報とにより修正を行う。言い換えると、この修正は、短いセグメントを完全に排除するために役立つ。すなわち短いセグメントを隣接セグメントにマージすると共に、短いが短すぎないセグメント、すなわちその長さは短いが、最小長よりは長いセグメントを特殊な調査にかけることによって、先行セグメントまたは後続セグメントに実際にマージできるかどうかを調べる。基本的に、本発明によると、同じセグメントクラスに属する連続セグメントは必ずマージされる。図7に示すシナリオにおいて、たとえばセグメント2および3が同じセグメントクラスになる場合、これらのセグメントは自動的に相互にマージされるが、第1のセグメントクラスのセグメント群、すなわちセグメント7、4、1は互いに離れているので、(少なくとも最初は)マージ不能である。これは、図3のブロック30に示唆されている。次にブロック31において、セグメントのセグメント長が最小長より短いかどうかを調べる。したがって、さまざまな最小長が存在することが好ましい。
相対的に短いセグメント、すなわち11秒(第1の閾値)未満のセグメントがすべて調べられ、その後さらに短いセグメント(第1の閾値より小さい第2の閾値)、すなわち9秒未満のセグメントが調べられ、その後まだ残っているセグメント、すなわち6秒(第2の閾値より短い第3の閾値)未満のセグメントがさらに調べられる、というように段階的に処理される。
このスタガード長さ調査を行う、本発明の好適な実施の形態においては、ブロック31でのセグメント長調査の最初の目的は、11秒未満のセグメントを見つけることである。長さが11秒を超えるセグメントについては、ブロック31で「NO」と認識されうるので、後処理は一切行われない。11秒未満のセグメントについては、最初に傾向調査(ブロック32)が実行される。最初に、図1のセグメント割り当て競合手段18の機能により、セグメントにトレンドまたは傾向が関連付けられているかどうかを調べる。図7の例では、セグメント7へのトレンド、または第1のセグメントクラスへのトレンドを有するセグメント10が該当するであろう。ただし、図7に示す例において、傾向調査により第10のセグメントが11秒より短い場合は、何も行われない。その理由は、対象セグメントのマージが行われるのは、何れのクラスタすなわちセグメントクラスへの傾向がなく、隣接セグメント(前または後)のクラスタへの傾向がある場合に限られるからである。ただし、これは、図7に示す例のセグメント10には当てはまらない。
隣接セグメントのクラスタへの傾向がない短すぎるセグメントをさらに回避するために、この手順は、図3のブロック33a、33b、33c、および33dで解説されているように展開される。9秒より長く、11秒より短いセグメントについては、これ以上何も行われない。これらのセグメントは残る。ただし、ブロック33aにおいて、クラスタXのセグメントが9秒より短く、先行セグメントおよび後続セグメントがどちらもクラスタYに属している場合は、このクラスタXのセグメントはクラスタYに割り当てられる。すなわち、このようなセグメントは先行および後続の両セグメントにマージされるため、対象セグメントと先行および後続セグメントからなる、全体としてより長いセグメントになることを自動的に意味する。したがって、最初は分かれていた複数のセグメントが以降のマージによって、マージされる介在セグメントを介して組み合わされうる。
ブロック33bには、9秒より短く、かつセグメントグループ内の唯一のセグメントであるセグメントに対して何が行われるかが説明されている。第3のセグメントクラスにおいて、セグメント番号10は唯一のセグメントである。このセグメントが9秒より短い場合、このセグメントは、セグメント番号9が属するセグメントクラスに自動的に対応付けられる。これによって、セグメント10はセグメント9に自動的にマージされることになる。セグメント10が9秒より長い場合、このマージは行われない。
次に、ブロック33cにおいて、9秒よりは短いが、対応するクラスタX、すなわち対応するセグメントグループ内の唯一のセグメントではないセグメントについて調査が行われる。これらのセグメントは、より詳細な調査にかけられる。この調査では、クラスタシーケンスにおける規則性が確認される。最初に、セグメントグループXに属するセグメントのうち、最小長より短いすべてのセグメントを検索する。次に、これらのセグメントのそれぞれについて、先行および後続セグメントがそれぞれ一様なクラスタに属しているかどうかが調べられる。すべての先行セグメントが1つの一様なクラスタに属している場合は、クラスタXに属する短すぎるセグメントがすべてこの先行クラスタに関連付けられる。ただし、すべての後続セグメントが1つの一様なクラスタに属している場合は、クラスタXに属する短すぎるセグメントがすべてこの後続クラスタに関連付けられる。
ブロック33dには、9秒より短いセグメントについてこの条件も満たされなかった場合の処理が説明されている。この場合、図9に示されている新規性値曲線を用いて新規性値調査が実行される。具体的には、カーネル相関によって生じた新規性曲線を関連するセグメント境界の位置で読み出し、これらの値の最大値を決定する。最大値がセグメントの先頭で発生している場合は、これらの短すぎるセグメントを後続セグメントのクラスタに関連付ける。最大値がセグメントの最後で発生している場合は、これらの短すぎるセグメントを先行セグメントのクラスタに関連付ける。図9で90と示されているセグメントが9秒より短いセグメントであった場合は、新規性調査によって、セグメント90の最後の新規性値92より、先頭の新規性値91の方が大きいことが明らかになる。この結果、後続セグメントに対する新規性値が先行セグメントに対する新規性値より低いので、セグメント90は後続セグメントに関連付けられることになる。
9秒より短いが、マージできていないセグメントが残っている場合は、これらのセグメント間でスタガード選択が再度実行される。具体的には、残っているセグメントのうち、6秒より短いセグメントがすべて選択される。このグループに属するセグメントのうち、長さが6秒と9秒との間のセグメントは、「そのまま」にしておく。
ただし、6秒より短いすべてのセグメントは、エレメント90、91、92に基づき説明した新規性調査にかけられ、先行または後続のどちらかのセグメントに関連付けられる。この結果、図3に示す後修正アルゴリズムの最後には、短すぎるすべてのセグメント、すなわち長さが6秒未満のすべてのセグメントが、先行および後続セグメントにインテリジェントにマージされている。
本発明によるこの手順は、楽曲の複数の部分を除去しない、すなわち短すぎるセグメントをゼロに設定して単純に除去しないので、すべてのセグメントによって完全な楽曲全体が依然として表されるという利点を有する。したがって、たとえば過度のセグメンテーションに対する反動として、すべての短すぎるセグメントを単純に「無頓着に」除去した場合に、起こりうる情報の損失がセグメンテーションによって発生しない。
以下に、図4aおよび図4bを参照しながら、図1のセグメントクラス指定手段22の好適な実施について説明する。本発明によると、2つのクラスタのラベリング時に、ラベル「スタンザ」および「リフレイン」が割り当てられる。
本発明によると、特異値分解の最大特異値と付随クラスタとがリフレインとして使用され、2番目に大きい特異値に対するクラスタがスタンザとして使用されることはない。さらに、各歌はスタンザで開始され、すなわち、最初のセグメントを含むクラスタがスタンザクラスタであり、もう一方のクラスタがリフレインクラスタであると基本的に想定されることもない。代わりに、本発明によると、候補選択範囲内のクラスタのうち、最後のセグメントを含むクラスタがリフレインと指定され、もう一方のクラスタがスタンザと指定される。
最終的にスタンザ/リフレイン選択の準備が整った2つのクラスタについて、2つのセグメントグループ内のセグメントのうち、その歌の中で最後のセグメントとして出現するセグメントがどのクラスタにあるかを調べ(40)、そのセグメントをリフレインと指定する。
確かに、最後のセグメントは、その歌の中の最後のセグメントになることも、その歌の中で他のセグメントクラスのすべてのセグメントより後で出現することもありうる。このセグメントが実際にはその歌の最後のセグメントでない場合は、アウトロも存在することを意味する。
この決定は、大半の場合、リフレインは、1つの歌の中で最後のスタンザの後に来る、すなわち楽曲がたとえばリフレインでフェードアウトする場合は、その歌のまさに最後のセグメントとして出現し、またはリフレインの後にアウトロが続き、アウトロによって楽曲が完了する場合は、アウトロの前のセグメントとして出現するという知見に基づく。
最後のセグメントが第1のセグメントグループに属する場合は、この第1の(最も重要な)セグメントクラスのすべてのセグメントが、図4bのブロック41に示されているように、リフレインと指定される。また、この場合、選択対象のもう一方のセグメントクラスのすべてのセグメントが「スタンザ」として特徴付けられる。この理由は、2つの候補セグメントクラスのうちの1つのクラスが一般にリフレインを有すると、もう一方のクラスは直ちにスタンザを有するからである。
ブロック40における調査、すなわち楽曲の中の最後のセグメントのセグメントクラスが、この選択範囲中のどのセグメントクラスであるかの調査の結果、第2のセグメントクラス、すなわち重要度が低いほうのセグメントクラスであると、ブロック42において、楽曲中の最初のセグメントがこの第2のセグメントクラスにあるかどうかが調べられる。この調査は、歌の先頭は、リフレインではなく、スタンザである確率が極めて高いという知見に基づく。
ブロック42における質問の答えが「NO」である場合、すなわち楽曲内の最初のセグメントが第2のセグメントクラスにない場合は、ブロック43に示されているように、第2のセグメントクラスがリフレインと指定され、第1のセグメントクラスがスタンザと指定される。ただし、ブロック42の問い合わせの答えが「YES」である場合は、ブロック44に示されているように、規則に反して、第2のセグメントグループがスタンザと指定され、第1のセグメントグループがリフレインと指定される。ブロック44における指定が発生する理由は、第2のセグメントクラスがリフレインに対応する確率が極めて低いからである。ここで、楽曲がリフレインで始まる可能性の低さを追加すると、クラスタ化のエラー、たとえば最後に検討されたセグメントが第2のセグメントクラスに間違って関連付けられる可能性が高い。
図4bには、2つの利用可能なセグメントクラスに基づき、スタンザ/リフレイン判定をどのように実行したが示されていた。このスタンザ/リフレイン判定の後、残っているセグメントクラスを次にブロック45で指定しうる。ここでは、必要であれば、アウトロを楽曲自体の最後のセグメントを有するセグメントクラスにする一方で、イントロを楽曲自体の最初のセグメントを有するセグメントクラスにする。
次に、図4aに基づき、図4bに示すアルゴリズムに対する候補である2つのセグメントクラスを判定する方法を説明する。
一般に、ラベリングにおいては、ラベル「スタンザ」および「リフレイン」の割り当てが実行され、一方のセグメントグループがスタンザセグメントグループとマーキングされ、もう一方のセグメントグループがリフレインセグメントグループとマーキングされる。基本的に、この概念は、類似性値が最も高い2つのクラスタ(セグメントグループ)、すなわちクラスタ1およびクラスタ2が、リフレインクラスタおよびスタンザクラスタに対応するという想定(A1)に基づく。これらの2つのクラスタのうち、後に出現するクラスタがリフレインクラスタであり、スタンザはこのリフレインの後に来ると想定される。
多数のテストからの経験によると、大半の場合において、クラスタ1はリフレインに対応する。ただし、クラスタ2については、この想定(A1)が該当しない場合が多い。このような状況は、イントロおよびアウトロの類似性が高く、頻繁に繰り返される第3の部分、たとえばブリッジが、楽曲内に存在する場合に起こることが多く、または、楽曲内の1つのセグメントがリフレインとの類似性が高く、したがって総類似性は高いが、リフレインとの類似性はクラスタ1に留まるほど高くはないという発生が稀なケースにおいても起こる。
いくつかの調査では、このような状況が楽曲の最後のリフレインのさまざまなバリエーションについて発生することが示されている。リフレインおよびスタンザを可及的正確にラベリングするために、図4bに記載のセグメント選択が強化されている。すなわち図4aに示すように、スタンザ/リフレイン選択の2つの候補がそこに存在するセグメントに応じて判定される。
最初にステップ46において、最大の類似性値(最初に判定されたセグメントクラス、すなわち図7の例におけるセグメント7に対して最大であったVのコンポーネントの値)を有するクラスタまたはセグメントグループ、すなわち図1の1回目のパスで判定されたセグメントグループが第1の候補としてスタンザ/リフレイン選択に取り込まれる。
次に問題になるのは、どのセグメントグループがスタンザ/リフレイン選択の第2のメンバになるかである。最も有望な候補は2番目に高いセグメントクラス、すなわち図1に示されている概念の2回目のパスで見つかったセグメントクラスである。これは、必ずしもそうなる必要はない。したがって、最初に2番目に高いセグメントクラス(図7のセグメント5)、すなわちクラスタ2について、このクラスは、1つだけのセグメントを有するか、または、一方のセグメントが歌の最初のセグメントであり、他方のセグメントが歌の最後のセグメントである正に2つのセグメントを有するかが調べられる(ブロック47)。
他方、この質問に対する答えが「NO」の場合、少なくとも2番目に高いセグメントクラスは、たとえば3つのセグメント、または2つのセグメントを有し、そのうちの1つは楽曲の内部にあって、その楽曲の「端」にはない。第2のセグメントクラスは当面は選択範囲に留まる。以降、このセグメントクラスを「第2のクラスタ」と指定する。
ただし、ブロック47での質問に対する答えが「YES」の場合、すなわち2番目に高いクラスが脱落した場合(ブロック48a)、歌全体で最も頻繁に出現し(言い換えると、最多セグメントを含み)、最も高いセグメントクラス(クラスタ1)に対応していないセグメントクラスが代わりに取り込まれる。以降、このセグメントクラスを「第2のクラスタ」と指定する。
以下に説明するように、「第2のクラスタ」は、この選択プロセスを生き延びて最終的に候補になるには、「第3のクラスタ」と指定される第3のセグメントクラスに匹敵する必要が依然としてある(48b)。
セグメントクラス「第3のクラスタ」は、歌全体で最も頻繁に出現するクラスタに対応するが、最も高いセグメントクラス(クラスタ1)にも、セグメントクラス「第2のクラスタ」にも対応しないクラスタ、いわばクラスタ1および「第2のクラスタ」の次に出現頻度が高い(頻度が等しいことも多い)クラスタに対応する。
いわゆるブリッジの問題に関しては、次に「第3のクラスタ」について、所属先が「第2のクラスタ」であるかどうかではなく、スタンザ/リフレイン選択であるかどうかが調べられる。これが発生する理由は、「第2のクラスタ」および「第3のクラスタ」の出現頻度が等しいからである。すなわち、これらの2つのうちの一方がブリッジまたは繰り返される別の中間部分を表す可能性があるからである。スタンザまたはリフレインに最も対応しそうなこの2つのセグメントクラスを確実に選択するために、すなわちブリッジまたは別の中間部分でないセグメントクラスを選択するために、ブロック49a、49b、49cに示す調査が実行される。
ブロック49aにおける最初の調査によって、第3のクラスタの各セグメントが特定の最小長を有するか否かが調べられる。この調査においては、歌全体の長さのたとえば4%が閾値として好適である。2%と10%の間であれば、他の値でも妥当な結果が得られる。
次にブロック49bにおいて、第3のクラスタが第2のクラスタより歌の中でより大きい総部分を有するかどうかを調べる。このために、第3のクラスタ内のすべてのセグメントの総時間が加算され、第2のクラスタ内のすべてのセグメントの同様に加算された総数値と比較される。ここでは、第3のクラスタのセグメントの加算結果が第2のクラスタのセグメントの加算結果より大きな値となる場合に、第3のクラスタが第2のクラスタより歌の中でより大きい総部分を有する。
最後にブロック49cにおいて、第3のクラスタのセグメントからクラスタ1、すなわち最も出現頻度の高いクラスタのセグメントまでの距離が一定であるかどうか、すなわちシーケンス内に規則性が見られるかどうかが調べられる。
これら3つの条件に対する答えがすべて「YES」であると、第3のクラスタがスタンザ/リフレイン選択に取り込まれる。ただし、これらの条件のうちの少なくとも1つが満たされないと、第3のクラスタはスタンザ/リフレイン選択に取り込まれない。代わりに、図4aのブロック50に示されているように、第2のクラスタがスタンザ/リフレイン選択に取り込まれる。これによって、スタンザ/リフレイン選択のための「候補検索」が完了し、図4bに示すアルゴリズムが開始される。このアルゴリズムでは、最後に、どのセグメントクラスにスタンザが含まれ、どのセグメントクラスにリフレインが含まれているかが確定する。
ここで指摘すべき点は、ブロック49a、49b、49cにおける3つの条件を代わりに重み付けし、たとえばブロック49bの問い合わせとブロック49cの問い合わせの答えがどちらも「YES」であった場合はブロック49aの答え「NO」を「無効にする」ことも可能であることである。あるいは、3つの条件のうちの1つの条件を強調し、たとえば第3のセグメントクラスと第1のセグメントクラスとの間のシーケンスに規則性が存在するかどうかを調べるだけにする一方で、ブロック49aおよび49bにおける問い合わせを実行しないか、またはブロック49cの問い合わせの答えが「NO」である場合にのみ実行するようにし、たとえば総部分が相対的に大きいかどうかをブロック49bで判定し、最小量が相対的に大きいかどうかをブロック49aで判定することもできる。
代替の組み合わせも可能であり、特定の実施については、低レベルの調査の場合は、ブロック49a、49b、49cのうちの1つのブロックの問い合わせのみで十分であろう。
次に、楽曲の要約を実行するブロック526の実施例を説明する。楽曲の要約として格納できるものについては、さまざまな可能性がある。そのうちの2つを以下に説明する。すなわち、タイトル「リフレイン」の可能性と、タイトル「メドレー」の可能性である。
リフレインの可能性は、リフレインの1つのバージョンを要約として選択することにある。ここでは、できれば20秒と30秒の間の長さのリフレインの例を選択しようと試みる。このような長さのセグメンがリフレインクラスタに含まれていない場合は、長さ25秒に対する偏差が可及的に小さいバージョンを選択する。選択したリフレインの長さが30秒を超える場合、この実施の形態においては、30秒を過ぎるとフェードアウトさせ、20秒より短い場合は、次のセグメントを用いて30秒に延長する。
第2の可能性のためにメドレーを格納することは、むしろ楽曲の実際の要約にも相当する。ここでは、スタンザの一区間、リフレインの一区間、および第3のセグメントの一区間を、それぞれの実際の時系列順にメドレーとして構築する。第3のセグメントは、歌の中で最も大きい総部分を有し、かつスタンザまたはリフレインではないクラスタから選択される。
これらのセグメントの最適なシーケンスは、以下の優先順位に基づき検索される。
−「第3のセグメント」−スタンザ−リフレイン、
−スタンザ−リフレイン−「第3のセグメント」、または、
−スタンザ−「第3のセグメント」−リフレイン。
選択された各セグメントは、それぞれの全長がメドレーに組み込まれるわけではない。セグメントあたりの長さを10秒に固定し、全体として30秒の要約にすることが好ましい。ただし、代わりの値も容易に実現できる。
計算時間を節約するために、ブロック502またはブロック508での特徴抽出の後に、ブロック510でいくつかの特徴ベクトルのグループ化が実行される。このグループ化は、グループ化する特徴ベクトルの平均値を形成することによって実行する。このグループ化によって、次の処理ステップ、すなわち類似性マトリックスの計算の計算時間を節約しうる。類似性マトリックスの計算には、2つの特徴ベクトルのあらゆる可能な組み合わせの間の距離をそれぞれ決定する。楽曲全体のベクトルの数がn個の場合は、n×nの計算になる。グループ化ファクタgは、平均値の形成によって1つのベクトルにグループ化される連続する特徴ベクトルの数を示す。このようにして、計算回数を減らしうる。
グループ化は、一種の雑音抑制でもある。すなわち、グループ化によって、連続する複数のベクトルの特徴表現における細かい変化が平均して相殺される。この特性は、歌の大きな構造を見つける際に好ましい効果をもたらす。
本発明の概念では、特殊な音楽プレーヤによって、計算されたセグメントの検索と個々のセグメントの選択とが、的を絞った方法で可能になる。したがって、ミュージックストアの消費者は、たとえば特定のキーを用いて、または特定のソフトウェアコマンドを起動して、ある楽曲のリフレインに直ちに容易にジャンプし、そのリフレインが好みのものであるかどうかを確認し、好みのものであればスタンザを続けて聴き、最終的に購入を決めるかもしれない。したがって、購入に関心を抱いている消費者がある楽曲の中で特に興味を持っている部分を快適にかつ正確に聞ける一方で、たとえばソロまたはブリッジを自宅で聞くときの楽しみのために取っておくことが実際に可能である。
本発明の概念は、ミュージックストアにとっても大いに有利である。その理由は、顧客が、的を絞った、ひいては高速でもある方法で聴取し、結局は購入しうるので、他の顧客は聴取するために長時間待つ必要がなく、すぐに自分の番になるからである。これは、利用者は絶えず前後に巻き戻す必要がなく、楽曲に関して利用者が必要とするすべての情報を的を絞った素早い方法で得られるという事実による。
さらに、本発明の概念の実質的な利点として、特にセグメンテーションの後修正により楽曲の情報が失われない点が挙げられる。好ましくは6秒より短いすべてのセグメントが先行または後続セグメントにマージされることは言うまでもない。しかし、どれだけ短かろうと、どのセグメントも除去されない。これは、利用者が原則として楽曲内のすべてを聴けるので、短くても、利用者にとって極めて心地よい部分を利用者が聴けるため、利用者は十分な熟慮の末に、その正に短い部分によってその楽曲の購入を決定しうるという利点を有する。セグメンテーションの後修正は、楽曲の区間を実際に完全に除去してしまう場合もあったので、このような短い部分が切り捨てられていたであろう。
本発明は、他のアプリケーション、たとえば広告のモニタリングにも適用可能である。広告のモニタリングに適用すると、広告主が購入した広告時間の全体にわたってオーディオ作品が実際に再生されたかどうかを調べたいという場合に利用できる。オーディオ作品は、たとえば、楽曲セグメント、話者セグメント、および雑音セグメントを含みうる。次に、セグメンテーションアルゴリズム、すなわちセグメンテーションとその後の複数のセグメントグループへの分類によって、完全なサンプル的な比較に比べ、素早くかつ実質的により低集約的な調査が可能である。この効率的な調査は、単純にセグメントクラス統計、すなわち見つかったセグメントクラスの数および個々のセグメントクラス内のセグメントの数と、理想的な広告作品のためのデフォルト値との比較である。これによって、広告主は、ラジオ局またはテレビ局が広告信号の主要部分(区間)をすべて実際に放送したかどうかを容易に確認しうる。
本発明のさらなる利点は、たとえば多数の楽曲のリフレインのみを聴いてから音楽番組の選択を行えるように、大きな楽曲データベースの検索に使用しうる点である。この場合、番組提供者は、多数の異なる楽曲の「リフレイン」とラベル付けされたセグメントクラスに属する個々のセグメントを選択して提供するであろう。あるいは、たとえば1人のアーティストのすべてのギターソロを相互に聞き比べることも面白いであろう。本発明によると、これらの提供は、たとえば、多数の楽曲の中から「ソロ」と指定されているセグメントクラスの1つまたはいくつか(存在する場合)のセグメントを常に結合し、これらをファイルとして提供することによって容易に行えるであろう。
さらに他のアプリケーションの可能性は、さまざまなオーディオ作品のスタンザおよびリフレインのミキシングである。これは、DJの関心を特に引くであろうし、まったく新しい独創的な音楽合成の可能性を切り開くものである。この合成は、正確に目標とする方法で容易に、とりわけ自動的に実行しうる。本発明の概念は、何れの時点においても利用者の介入が不要であるので、自動化は容易である。つまり、本発明の概念の利用者は、たとえば一般的なソフトウェアのユーザインタフェースを操作するための通常のスキルを除いては、特殊なトレーニングを一切必要としない。
実際の状況によっては、本発明の概念は、ハードウェアまたはソフトウェアで実施しうる。この実施は、対応する方法が実行されるように、プログラム可能なコンピュータシステムと協働する、電子的に読み出すことができる制御信号を有する、デジタル記憶媒体、特に、フロッピー(登録商標)ディスクまたはCD上で行うことができる。本発明は、一般に、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法を実行するために、機械で読み出し可能なキャリアに格納されたプログラムコードを有するコンピュータプログラム製品にも存在する。したがって、言い換えると、本発明は、コンピュータプログラムがコンピュータ上で実行されるときに、この方法を実行するためのプログラムコードを有するコンピュータプログラムを表す。
図1は、本発明の好適な実施の形態によるグループ化するための本発明の装置のブロック回路図である。 図2は、反復割り当てを行うための本発明の好適な実施の形態を説明するフローチャートである。 図3は、セグメンテーション修正手段の機能のブロック図である。 図4aは、セグメントクラス指定手段の好適な実施の形態である。 図4bは、セグメントクラス指定手段の好適な実施の形態である。 図5は、オーディオ解析ツール全体のブロック回路図である。 図6は、特徴類似性マトリックスの一例を示す図である。 図7は、セグメント類似性マトリックスの一例を示す図である。 図8は、類似性マトリックスS内のエレメントを示す概略図である。 図9は、滑らかにした新規性値を示す概略図である。

Claims (21)

  1. 繰り返し出現する複数のセグメントを時系列で連結して構成されているオーディオ作品を分析するための装置であって、
    前記オーディオ作品を前記セグメントの境界の候補となる時間で分割し、前記分割された各セグメントごとに相互の類似性値を表す類似性マトリックスを計算し、前記オーディオ作品の前記複数のセグメントを複数のセグメントクラスに割り当てる手段を備え、
    前記割り当てる手段は、
    前記オーディオ作品の全セグメント中、前記類似性マトリックスの各行または列について類似性値を足し合わせることで求められる総類似性値が最も高いセグメントを第1のセグメントクラスに割り当て、割り当てた当該セグメントに対して所定の閾値以上の類似性値を有するセグメントを前記第1のセグメントクラスにさらに割り当て、
    前記第1のセグメントクラスに割り当てたセグメントを除いた前記オーディオ作品の全セグメント中、総類似性値が最も高いセグメントを第2のセグメントクラスに割り当て、割り当てた当該セグメントに対して所定の閾値以上の類似性値を有するセグメントを前記第2のセグメントクラスにさらに割り当て、
    前記オーディオ作品の全セグメントがセグメントクラスに割り当てられるまで、前記セグメントのセグメントクラスへの割り当て処理を繰り返す、装置。
  2. 前記割り当てる手段は、
    前記複数のセグメントの1つのセグメントについての類似性閾値を計算するための手段と、
    前記類似性閾値が計算されたセグメントと類似性値が前記類似性閾値以上であるセグメントとを1つのセグメントクラスに割り当てる、割り当てるための手段と、
    前記類似性マトリックスの各行または列について総類似性値が最大となるセグメントを選択するセグメント選択手段と、
    2つの異なるセグメントクラスに割り当てられようとするセグメントである競合セグメントがある場合に、前記2つの異なるセグメントクラスのうち前記競合セグメントが先に割り当てられた一方のセグメントクラスにおけるセグメントに対する前記競合セグメントの類似性値を第1の類似性値(S(i,k))と決定し、さらに前記2つの異なるセグメントクラスのうち前記競合セグメントが後から割り当てられようとする他方のセグメントクラスにおけるセグメントに対する前記競合セグメントの類似性値を第2の類似性値(S(i,k))と決定するように形成されている、セグメント割り当て競合手段とを備え、さらに
    前記計算するための手段は、前記セグメント選択手段で選択されたセグメントについての複数の類似性値から前記類似性閾値を計算し、
    前記割り当てるための手段は、前記1つのセグメントクラスに割り当てられたセグメントについて総類似性値をゼロに設定し、
    前記複数のセグメントにおいてセグメントクラスにまだ割り当てられていないセグメントがある場合、前記まだ割り当てられていないセグメントについて、前記セグメント選択手段は、総類似性値が最大となる行または列のセグメントを選択し、前記計算するための手段は、当該選択されたセグメントについての類似性閾値を計算し、前記割り当てるための手段は、当該選択されたセグメントと当該類似性閾値を上回る類似性値を有するセグメントとを別の1つのセグメントクラスに割り当て、さらに、当該別の1つのセグメントクラスに割り当てられたセグメントについて総類似性値をゼロに設定し、さらに
    前記割り当てるための手段は、前記第2の類似性値が前記第1の類似性値より強い類似性を示している場合に、前記競合セグメントを前記一方のセグメントクラスから除去し、前記競合セグメントを前記他方のセグメントクラスに割り当てるように形成されている、
    請求項1に記載の装置。
  3. 前記割り当てるための手段は、前記類似性閾値に関してセグメントクラスに割り当てる条件を満たしていないセグメントを前記セグメントクラスに割り当てずに、それを別のセグメントクラスへの割り当てのために残しておくように形成され、さらに
    前記割り当てるための手段は、割り当てられたセグメントについての複数の類似性値を別のセグメントクラスへの割り当て時に考慮しないように形成されている、
    請求項2に記載の装置。
  4. 前記計算するための手段は、セグメントが1つのセグメントクラスに割り当てられた後に、前記1つのセグメントクラスに割り当てられた前記セグメントについての複数の類似性値を無視するように形成され、さらに
    前記割り当てるための手段は、前記セグメントが前記1つのセグメントクラスに割り当てられた後に、前記セグメントが割り当てられた前記1つのセグメントクラスを除いた別のセグメントクラスに対して別のセグメントの割り当てを実行するように形成されている、
    請求項2または請求項3に記載の装置。
  5. 前記セグメント割り当て競合手段は、前記競合セグメントを前記一方のセグメントクラスから除去した場合に、前記一方のセグメントクラスへの傾向を前記競合セグメントに割り当て、前記競合セグメントを前記一方のセグメントクラスから除去しなかった場合に、前記他方のセグメントクラスへの傾向を前記競合セグメントに割り当てるように形成され、
    前記装置は、前記オーディオ作品のセグメンテーションを修正するように形成されているセグメンテーション修正手段をさらに備え、
    前記セグメンテーション修正手段は、前記複数のセグメントについてのセグメントクラス情報に応じて前記複数のセグメントを先行するセグメントまたは後続するセグメントにマージするように形成され、さらに
    前記セグメンテーション修正手段は、所定の長さより短い各セグメントについて、前記セグメントの傾向が、時間的に直前にあるセグメントが属するセグメントクラスに合致するかどうかを確認し、合致する場合に前記セグメントを前記時間的に直前にあるセグメントにマージし、または、所定の長さより短い各セグメントについて、前記セグメントの傾向が、時間的に直後にあるセグメントが属するセグメントクラスを示しているかどうかを確認し、示している場合に前記セグメントを前記時間的に直後にあるセグメントにマージするように形成されている、
    請求項2ないし請求項4のいずれかに記載の装置。
  6. 時間的に連続しかつ同じセグメントクラスに属する複数のセグメントをマージするように形成されているセグメンテーション修正手段を備える、
    請求項1ないし請求項4のいずれかに記載の装置。
  7. 前記セグメンテーション修正手段は、時間的に連続しかつ同じセグメントクラスに属する複数のセグメントをマージするように形成されている、
    請求項5に記載の装置。
  8. 前記セグメンテーション修正手段は、所定の長さより短いセグメント長を有する複数のセグメントを修正するために前記複数のセグメントのみを選択するように形成されている、
    請求項5ないし請求項7のいずれかに記載の装置。
  9. 前記セグメンテーション修正手段は、単一のセグメントクラスに属するセグメントを、それの時間的な先行セグメントとそれの時間的な後続セグメントとが別の単一のセグメントクラスに属する場合に、前記先行セグメントおよび前記後続セグメントにマージするように形成されている、
    請求項8に記載の装置。
  10. 前記セグメンテーション修正手段は、単一のセグメントのみを含むセグメントクラスにあるセグメントをそのセグメントに先行するセグメントにマージするように形成されている、
    請求項8または請求項9に記載の装置。
  11. 前記セグメンテーション修正手段は、同じセグメントクラスに属する複数のセグメントのうち所定の長さより短いすべてのセグメントを検索し、検索された短いすべてのセグメントのそれぞれについて、先行セグメントおよび後続セグメントがそれぞれ単一のセグメントクラスに属しているかどうかを調べ、すべての先行セグメントが単一のセグメントクラスに属している場合に、検索された短いすべてのセグメントを先行セグメントにマージし、すべての後続セグメントが単一のセグメントクラスに属している場合に、検索された短いすべてのセグメントを後続セグメントにマージするように形成されている、
    請求項8、請求項9または請求項10に記載の装置。
  12. 前記セグメンテーション修正手段は、所定の長さより短いセグメント長を有するセグメントについて、前記セグメントの先頭でのどの程度境界らしいかを表す第1の新規性値を決定し、さらに前記セグメントの最後でのどの程度境界らしいかを表す第2の新規性値を決定し、さらに前記第1の新規性値が前記第2の新規性値より大きい場合に前記セグメントを前記時間的に後続するセグメントにマージし、前記第1の新規性値が前記第2の新規性値より小さい場合に前記セグメントを時間的に先行するセグメントにマージするように形成されている、
    請求項5ないし請求項11のいずれかに記載の装置。
  13. 前記セグメンテーション修正手段は、
    同じセグメントクラスに属しかつ連続する複数のセグメントがある場合に、前記複数のセグメントを相互にマージし、
    次に、セグメント長が所定の長さとしての第1の閾値より短いセグメントがあるかどうかを調べ、
    前記短いセグメントがある場合に、前記短いセグメントにセグメントクラスへの傾向があるかどうかを調べ、
    前記短いセグメントにセグメントクラスへの傾向がない場合に、前記セグメントクラスへの傾向がない短いセグメントであって前記第1の閾値より小さい第2の閾値より短いセグメントをさらに短いセグメントとして、
    前記さらに短いセグメントに関係する特徴に基づいて、前記さらに短いセグメントを先行セグメントおよび後続セグメントの少なくとも一方にマージし、さらに
    前記さらに短いセグメントの先頭および最後での特徴に基づいて、前記さらに短いセグメントを前記時間的に後続するセグメントまたは先行するセグメントにマージし、
    次に、前記さらに短いセグメントにおいてマージされていないセグメントであって前記第2の閾値より小さい第3の閾値より短いセグメントを短すぎるセグメントとして、前記短すぎるセグメントの先頭および最後での特徴に基づいて、前記短すぎるセグメントを前記時間的に後続するセグメントまたは先行するセグメントにマージするように形成されている、
    請求項5ないし請求項12のいずれかに記載の装置。
  14. リフレインセグメントクラスの候補となる第1の候補セグメントクラスおよび第2の候補セグメントクラスについて前記セグメントの選択を実行し、
    前記第1の候補セグメントクラスがオーディオ信号において時間的に最後のセグメントを有するかどうかを調べ、さらに
    前記第1の候補セグメントクラスが前記時間的に最後のセグメントを有する場合に、前記第1の候補セグメントクラスをリフレインセグメントクラスとして指定するように形成されている、セグメントクラス指定手段をさらに備える、
    請求項1ないし請求項13のいずれかに記載の装置。
  15. 前記セグメントクラス指定手段は、
    前記第2の候補セグメントクラスがオーディオ信号において時間的に最後のセグメントを有するかどうかを調べ、
    前記第2の候補セグメントクラスが前記時間的に最後のセグメントを有する場合に、前記第2の候補セグメントクラスが他の候補セグメントクラスよりオーディオ信号において時間的に前のセグメントを有するかどうかを調べ、さらに
    前記第2の候補セグメントクラスが前記時間的に前のセグメントを有しない場合に、前記第2の候補セグメントクラスをリフレインセグメントクラスとして指定するように形成されている、
    請求項14に記載の装置。
  16. 前記セグメントクラス指定手段は、
    前記第2の候補セグメントクラスがオーディオ信号において時間的に最後のセグメントを有するかどうかを調べ、
    前記第2の候補セグメントクラスが前記時間的に最後のセグメントを有する場合に、前記第2の候補セグメントクラスが他の候補セグメントクラスよりオーディオ信号において時間的に前のセグメントを有するかどうかを調べ、さらに
    前記第2の候補セグメントクラスが前記時間的に前のセグメントを有する場合に、前記第1の候補セグメントクラスをリフレインセグメントクラスとして指定するように形成されている、
    請求項14に記載の装置。
  17. 前記セグメントクラス指定手段は、前記第1の候補セグメントクラスをリフレインセグメントクラスとして指定する場合に、前記第2の候補セグメントクラスをスタンザセグメントクラスとして指定するように形成されている、
    請求項14または請求項16に記載の装置。
  18. 前記セグメントクラス指定手段は、前記第2の候補セグメントクラスをリフレインセグメントクラスとして指定する場合に、前記第1の候補セグメントクラスをスタンザセグメントクラスとして指定するように形成されている、
    請求項15に記載の装置。
  19. 前記セグメントクラス指定手段は、
    最初にセグメントを割り当てた第1のセグメントクラスを前記第1の候補セグメントクラスとして選択し、
    2番目にセグメントを割り当てた第2のセグメントクラスが、1つだけのセグメントを有するかまたは時間的に最初のセグメントおよび最後のセグメントの2つのセグメントを有するかを調べ、有しない場合、前記第2のセグメントクラスを前記第2の候補セグメントクラスの選択範囲に留まる第2のクラスタと指定し、有する場合、前記第1のセグメントクラスおよび前記第2のセグメントクラス以外のセグメントクラスであって最も頻繁に出現したセグメントを含むセグメントクラスを前記第2のクラスタと指定し、
    前記第1のセグメントクラスおよび前記第2のクラスタ以外のセグメントクラスであって最も頻繁に出現したセグメントクラスを前記第2の候補セグメントクラスの選択範囲に留まる第3のクラスタと指定し、
    前記第3のクラスタに関係する特徴に基づいて、前記第2のクラスタまたは前記第3のクラスタを前記第2の候補セグメントクラスとして選択する、
    請求項14ないし請求項18のいずれかに記載の装置。
  20. 繰り返し出現する複数のセグメントを時系列で連結して構成されているオーディオ作品をコンピュータにより分析するための方法であって、
    前記コンピュータが、
    前記オーディオ作品を前記セグメントの境界の候補となる時間で分割し、前記分割された各セグメントごとに相互の類似性値を表す類似性マトリックスを計算し、前記オーディオ作品の前記複数のセグメントを複数のセグメントクラスに割り当てるステップを実行する方法であり、
    前記割り当てるステップは、
    前記オーディオ作品の全セグメント中、前記類似性マトリックスの各行または列について類似性値を足し合わせることで求められる総類似性値が最も高いセグメントを第1のセグメントクラスに割り当て、割り当てた当該セグメントに対して所定の閾値以上の類似性値を有するセグメントを前記第1のセグメントクラスにさらに割り当てるステップと、
    前記第1のセグメントクラスに割り当てたセグメントを除いた前記オーディオ作品の全セグメント中、総類似性値が最も高いセグメントを第2のセグメントクラスに割り当て、割り当てた当該セグメントに対して所定の閾値以上の類似性値を有するセグメントを前記第2のセグメントクラスにさらに割り当てるステップと、
    前記オーディオ作品の全セグメントがセグメントクラスに割り当てられるまで、前記セグメントのセグメントクラスへの割り当て処理を繰り返すステップとを含む、方法。
  21. コンピュータ上で動作するときに、請求項20に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
JP2007533882A 2004-09-28 2005-07-15 楽曲の時間セグメントをグループ化するための装置および方法 Expired - Fee Related JP4775380B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102004047068A DE102004047068A1 (de) 2004-09-28 2004-09-28 Vorrichtung und Verfahren zum Gruppieren von zeitlichen Segmenten eines Musikstücks
DE102004047068.5 2004-09-28
PCT/EP2005/007751 WO2006034743A1 (de) 2004-09-28 2005-07-15 Vorrichtung und verfahren zum gruppieren von zeitlichen segmenten eines musikstücks

Publications (2)

Publication Number Publication Date
JP2008515012A JP2008515012A (ja) 2008-05-08
JP4775380B2 true JP4775380B2 (ja) 2011-09-21

Family

ID=35005745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007533882A Expired - Fee Related JP4775380B2 (ja) 2004-09-28 2005-07-15 楽曲の時間セグメントをグループ化するための装置および方法

Country Status (4)

Country Link
EP (1) EP1794743B1 (ja)
JP (1) JP4775380B2 (ja)
DE (1) DE102004047068A1 (ja)
WO (1) WO2006034743A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017195292A1 (ja) 2016-05-11 2017-11-16 Pioneer DJ株式会社 楽曲構造解析装置、楽曲構造解析方法および楽曲構造解析プログラム
US10629173B2 (en) 2016-03-30 2020-04-21 Pioneer DJ Coporation Musical piece development analysis device, musical piece development analysis method and musical piece development analysis program

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4948118B2 (ja) 2005-10-25 2012-06-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP4465626B2 (ja) 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP4906565B2 (ja) * 2007-04-06 2012-03-28 アルパイン株式会社 メロディー推定方法及びメロディー推定装置
JP5083951B2 (ja) * 2007-07-13 2012-11-28 学校法人早稲田大学 音声処理装置およびプログラム
EP2180463A1 (de) * 2008-10-22 2010-04-28 Stefan M. Oertl Verfahren zur Erkennung von Notenmustern in Musikstücken
WO2016152132A1 (ja) * 2015-03-25 2016-09-29 日本電気株式会社 音声処理装置、音声処理システム、音声処理方法、および記録媒体
CN109979418B (zh) * 2019-03-06 2022-11-29 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014691A (ja) * 2000-05-11 2002-01-18 Fuji Xerox Co Ltd ソース音声信号内の新規点の識別方法
JP2004184769A (ja) * 2002-12-04 2004-07-02 Pioneer Electronic Corp 楽曲構造検出装置及び方法
JP2004206747A (ja) * 2002-12-24 2004-07-22 Japan Science & Technology Agency 楽曲ミキシング装置、方法およびプログラム
JP2004233965A (ja) * 2002-10-24 2004-08-19 National Institute Of Advanced Industrial & Technology 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
ATE556404T1 (de) * 2002-10-24 2012-05-15 Nat Inst Of Advanced Ind Scien Wiedergabeverfahren für musikalische kompositionen und einrichtung und verfahren zum erkennen eines repräsentativen motivteils in musikkompositionsdaten

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014691A (ja) * 2000-05-11 2002-01-18 Fuji Xerox Co Ltd ソース音声信号内の新規点の識別方法
JP2004233965A (ja) * 2002-10-24 2004-08-19 National Institute Of Advanced Industrial & Technology 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
JP2004184769A (ja) * 2002-12-04 2004-07-02 Pioneer Electronic Corp 楽曲構造検出装置及び方法
JP2004206747A (ja) * 2002-12-24 2004-07-22 Japan Science & Technology Agency 楽曲ミキシング装置、方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10629173B2 (en) 2016-03-30 2020-04-21 Pioneer DJ Coporation Musical piece development analysis device, musical piece development analysis method and musical piece development analysis program
WO2017195292A1 (ja) 2016-05-11 2017-11-16 Pioneer DJ株式会社 楽曲構造解析装置、楽曲構造解析方法および楽曲構造解析プログラム
EP3457395A4 (en) * 2016-05-11 2019-10-30 Pioneer DJ Corporation MUSICAL STRUCTURE ANALYSIS DEVICE, STRUCTURE AND PROGRAM

Also Published As

Publication number Publication date
JP2008515012A (ja) 2008-05-08
EP1794743A1 (de) 2007-06-13
WO2006034743A1 (de) 2006-04-06
EP1794743B1 (de) 2013-04-24
DE102004047068A1 (de) 2006-04-06

Similar Documents

Publication Publication Date Title
JP5565374B2 (ja) オーディオ作品のセグメンテーションを変更するための装置
JP4775379B2 (ja) さまざまなセグメントクラスを指定するための装置および方法
JP4775380B2 (ja) 楽曲の時間セグメントをグループ化するための装置および方法
Logan et al. A Music Similarity Function Based on Signal Analysis.
US9099064B2 (en) Method for extracting representative segments from music
US10803119B2 (en) Automated cover song identification
KR101057919B1 (ko) 사용자들의 재생 목록 분석을 통한 맞춤형 음악 추천 방법
JP2009516286A (ja) ユーザプロファイルの生成及びフィルタ処理の方法
Hargreaves et al. Structural segmentation of multitrack audio
WO2017030661A1 (en) Media feature determination for internet-based media streaming
US11271993B2 (en) Streaming music categorization using rhythm, texture and pitch
Fuhrmann et al. Polyphonic instrument recognition for exploring semantic similarities in music
Montecchio et al. The skipping behavior of users of music streaming services and its relation to musical structure
Melo et al. Graph-based feature extraction: A new proposal to study the classification of music signals outside the time-frequency domain
Niyazov et al. Content-based music recommendation system
CN109299317B (zh) 音乐作品推荐的方法、装置、存储介质和终端设备
Murthy et al. Singer identification from smaller snippets of audio clips using acoustic features and DNNs
Jun et al. Music structure analysis using self-similarity matrix and two-stage categorization
US20230186877A1 (en) Musical piece structure analysis device and musical piece structure analysis method
Kumar et al. Melody extraction from music: A comprehensive study
George et al. Unsupervised analysis of similarities between musicians and musical genres using spectrograms.
Jun et al. Music segmentation and summarization based on self-similarity matrix
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
JP2004531758A5 (ja)
KR101968206B1 (ko) 사용자의 사전 이용 정보 분석을 통한 음악 재생 목록 자동 생성 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100910

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100910

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100922

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100922

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101013

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101019

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101020

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101111

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101215

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110531

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110613

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140708

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees