JP2009508156A

JP2009508156A - 音楽分析

Info

Publication number: JP2009508156A
Application number: JP2008529688A
Authority: JP
Inventors: ステファンコックス; クリスウエスト
Original assignee: ユニバーシティーオブイーストアングリア
Priority date: 2005-09-08
Filing date: 2006-09-08
Publication date: 2009-02-26
Also published as: US20090306797A1; AU2006288921A1; EP1929411A2; KR20080054393A; GB2430073A; CA2622012A1; GB0518401D0; WO2007029002A2; WO2007029002A3

Abstract

音楽の訓練データベース（１１１）を使って、トランスクリプションモデル（１１２；５００）を作成するアナライザ（１０１）を開示する。アナライザ（１０１）は、訓練ミュージック（１１１）をサウンドイベント（２０１ａ〜２０１ｅ）に分析し、一実施態様では、サウンドイベントを木（５００）の葉節（５０４ａ〜５０４ｈ）に割り当てる。さらに、楽曲（１２１）をトランスクリプション（１１３）にトランスクライブためのトランスクライバ（１０２）を開示する。トランスクリプション（１１３）は楽曲（１２１）を表示するシンボルのシーケンスで、シンボルは各々、トランスクライブ楽曲（１２１）のサウンドイベントと関連している。ある実施態様では、トランスクライバ（１０２）が、楽曲（１２１）のサウンドイベント（２０１ａ〜２０１ｅ）を各々、木（５００）の葉節（５０４ａ〜５０４ｈ）に関連付ける。この実施例では、トランスクリプション（１１３）は、葉節（５０４ａ〜５０４ｈ）のリストである。トランスクリプション（１１３）は、トランスクライブ楽曲（１２１）のサウンドイベント（２０１ａ〜２０１ｅ）のシーケンスに関する情報を保持する。

Description

本発明は、例えば、音楽などのオーディオ信号の分析、より具体的には、楽曲のトランスクリプション(transcription,転写・書き換え)に関する。

音楽のトランスクリプションに関する従来技術は、一般にコモン・ミュージック・ノテーション（Common Music Notation（ＣＭＮ））のような予め定義された記法に基づく。こうした従来の手法によれば、比較的単純な音楽を楽譜（トランスクリプション）にトランスクライブ（transcribe, 記譜する）することができ、その楽譜はトランスクライブされた音楽に相当する。しかし、トランスクライブされる音楽が極めて多音（同時音）から成る場合、または、ＣＭＮを用いてすぐに記述できないようなサウンド（例えば打楽器やシンセサイザのサウンド）を含む音楽の場合、従来の手法ではうまくいかない。

本発明は、オーディオ、アナライザ及びプレーヤをトランスクライブするためのトランスクライバを提供する。

本発明によれば、音楽をトランスクライブすることができる。すなわち、楽曲を構成する一連の音を、一連の音の表現に変換することができる。楽曲の音符ピッチを値（音価）Ａ〜Ｇで記載した記譜法は、一般に知られている。これもトランスクリプションの一つであるが、本発明はより一般的なトランスクリプションに関し、そこでは、モデルが嘗て遭遇したサウンドイベントに、楽曲の一部がトランスクライブされる。

モデルによっては、幾つかのサウンドイベントは、値Ａ〜Ｇの音符にトランスクライブできる。しかし、こうした音符は、ある種のサウンド（例えば打楽器や大きな歯擦音）には不適当である。従って、本発明が提供する広範囲のポテンシャルトランスクリプションシンボルは、従来のＣＭＮトランスクリプションシンボルより優れているといえる。本発明では予め定義されたトランスクリプションシンボルを使用しない。代わりに、楽曲を使ってモデルを訓練し、訓練の一環として、モデルは訓練された楽曲に関するトランスクリプションシンボルを確立する。訓練する楽曲によって、トランスクリプションシンボルの一部は複数の同時音（例えば、バイオリン、バグパイプとピアノ）と一致しても構わない。従って、本発明は、トランスクライブされる音楽が著しく多音であっても、うまく転写できる。

２つの楽曲の類似性を比較するのに、この２つの楽曲のトランスクリプションが使用できる。また、ある楽曲を効率的にコード化し、その楽曲を表示するのに必要なデータ転送速度を低減させるために、楽曲のトランスクリプションを、そのトランスクリプションが表示する音表と組み合わせて用いることができる。

楽曲をトランスクライブする際の従来の手法と比較して、本発明は以下の点で優れる。
* 本発明のトランスクリプションは、正確性を著しく損なうこと無しに、見本のサブセクションで形成される照会（問合せ）に基づいて、見本の検索を可能にする。この手法は、リミックス、サンプル、ライブ演奏など他の曲の小節を引用する見本の検索を可能にするので、ダンスミュージックにおいて特に有用である。
* 一般的概念／イベントは、ジェネリックシンボルで表示されるが、本発明のトランスクリプションは、特定のコンテクストにおける音楽について特徴的な表示を創生する。これにより、微細なコンテクスト見本からより詳細なトランスクリプションを生成できるので、タスクの用途に応じてトランスクリプションを可能にする。具体的には、ジャズやクラシックミュージックで構成されるデータベースから音楽を検索するアプリケーションの場合、トランペットサウンドのキーや音調は、データベースの検索能力の要になるかもしれないが、ギターサウンドの歪みの度合いを表示する必要はない。
* この手法によるトランスクリプションシステムは、（ａ）存在することが必須（新しい見本音楽の場合、特に問題になる）（ｂ）しばしば不正確または完全に誤り（ｃ）多数の音楽スタイルを類似または参照せず、単一ラベルまたは有限ラベルだけを考慮するメタデータラベルの明示的操作ではなく、コンテクスト情報（人間の知覚により近い対応を行うメタデータを使用するという意味合い）を暗示的に利用する。特定ジャンルの音楽においては、多様な楽器が使用され、例えば、ダンスミュージックが実際には"ジャズ"であり、レゲエを"引用"するなど、他のスタイルから"借用"することがあるので、上述した多数の音楽スタイルを類似または参照する機能は特に重要である。
* この手法に基づくトランスクリプションシステムは、詳細を豊富に備えながらも、極めてコンパクトな表示を生成する。従来式の技術では、（冗長で）膨大な情報を保持するか、あるいは、完全見本の分割に特徴を圧縮するかで、これによりほぼ全ての逐次情報が失われるため、楽曲の小節に基づく照会の実施が一段と困難になる。
* 本発明のトランスクリプションに基づくシステムによれば、大容量の新しい見本を追加しても、トランスクリプション訓練したモデルだけを再評価し、トランスクリプションシステム自体は再訓練する必要が無いので、システムの作成と更新が容易である。トランスクリプションシステムを作成するのに用いるデジタル信号処理（ＤＳＰ）データで直接モデル訓練するのに比較して、手間を大幅に削減できる。安定した環境下においては、これらのトランスクリプションシステムを、訓練中、トランスクリプションシステムに存在しなかったコンテクストからの音楽に適用することもできる。これは、生成したシンボルの分割と配列が極めて詳細な内容を表示するためで、従来型のＤＳＰ系手法に伴う音楽的可聴周波数のモデリングで使用するのは極めて困難である。
* 本発明は以下の多重照会型（これに限定されるものではない）を支持できる：アーティスト識別、ジャンル分類、見本検索及び類似、プレーリスト作成（すなわち、任意の楽曲に類似した別の楽曲を選択、または、１つのジャンルから別のジャンルへ徐々に異なるジャンルを検討しながら楽曲を選択）、音楽キー検出、テンポとリズム評価。
* 本発明の実施態様では、音楽に適用される従来式テキストの検索、分類、索引技術の使用が可能。
* 本発明の実施態様は、音楽の律動的及び旋律的モデリングを簡略化し、これらの課題について、より自然な手法を提供できる。これは、複合的ＤＳＰデータから従来型の律動的及び旋律的モデリング手法を計算処理で隔離し、律動的及び旋律的モデリングを有意に簡素化することで達成される。
* 本発明の実施態様によれば、楽曲の特異な領域に関するコンテクスト及び楽器の識別を促すことで、トランスクリプション技術やソース分離技術を援助／提供できる。

当業者であれば、本発明の実施態様の一部の詳細な説明が、付録１所載の"オーディオジャンル分類のための最適分割の発見(FINDING AN OPTIMAL SEGMENTATION FOR AUDIO GENRE CLASSIFICATION)"に開示されていることは理解されよう。付録１は、本願の優先権主張の基礎となる先の出願の一部を構成する。付録１は、さらに本願の一部も構成する。付録１は、先の出願の出願日以前には刊行されていない。

本発明の実施態様の一部の詳細な説明は、付録２所載の"機械学習の音楽類似性評価への併合(Incorporating Machine-Learning into Music Similarity Estimation)"にも開示されている。付録２は、本願の出願日以前には刊行されていない。

本発明の実施態様の一部の詳細な説明は、付録３所載の"音楽類似性関数の組み立てにおけるモデルベース手法(A MODEL-BASED APPROACH TO CONSTRUCTING MUSIC SIMILARITY FUNCTIONS)"にも開示されている。付録３は、本願の出願日以前には刊行されていない。

図１は、トランスクリプションシステム１００の概略を示す。異なる楽曲の訓練ミュージック・ライブラリ１１１を分析するアナライザ１０１を含んでいる。ミュージック・ライブラリ１１１は好ましくは、楽曲を表示するデジタルデータである。本実施態様の訓練ミュージック・ライブラリ１１１は、ジャズ、クラシック、ロック、ダンス音楽などのジャンルから構成された１０００の異なる楽曲を含む。本実施態様では、１０個のジャンルを使用し、訓練ミュージック・ライブラリ１１１の各楽曲は、その曲が属するジャンルを特定するデータを備える。

アナライザ１０１は訓練ミュージック・ライブラリ１１１を分析してモデル１１２を作成する。モデル１１２は分類ツリーを特定するデータを備える（図５と６を参照）。モデル１１２の係数をアナライザ１０１で調整することで、モデル１１２は訓練ミュージック・ライブラリ１１１内の楽曲のサウンドイベントをうまく識別する。本実施態様では、モデル１１２の作成をガイドするのに、アナライザ１０１は各楽曲のジャンルに関するデータを使用する。

トランスクライバ１０２はモデル１１２を使って楽曲１２１をトランスクライブ。楽曲１２１は、好ましくはデジタル形式である。楽曲１２１は、ジャンルを識別するための関連データを備える必要は無い。トランスクライバ１０２は楽曲１２１を分析して、モデル１１２内のサウンドイベントに対応するサウンドイベントを決定する。サウンドイベントは楽曲１２１の示差的部分である。例えば、特異なピッチ、音量、時間、音色のトランペットの音が卓越している楽曲１２１の部分で、一つのサウンドイベントを形成しても構わない。あるいは、特異なピッチ、音量、時間、音色のギターの音が卓越している楽曲１２１の部分が別のサウンドイベントなり得る。トランスクライバ１０２の出力は楽曲１２１のトランスクリプション１１３であって、サウンドイベントに分解される。

プレーヤ１０３は、再生音楽１１４として楽曲１２１を再生するのに、トランスクリプション１１３をサウンドイベントの参照用テーブル（ＬＵＴ）１３１と組み合わせて使用する。トランスクリプション１１３は、モデル１１２が分類したサウンドイベントの部分集合を特定する。楽曲１２１を音楽１１４として再生するには、例えば、ピアノをピッチＧ＃、"音量大"で０．２秒、続いて、フルートをピッチＢで、ピアノより１０デシベル静かに０．３秒など、トランスクリプション１１３のサウンドイベントを適当なシーケンスで演奏する。変更例として、ＬＵＴ１３１をシンセサイザに変更して、サウンドイベントを電子音で合成できることは当業者であれば理解されよう。

図２は、楽曲１２１の一部の波形２００を示す。見てのとおり、波形２００をサウンドイベント２０１ａ〜２０１ｅに分割している。視覚的には、サウンドイベント２０１ｃと２０１ｄは類似しているように見えるが、これらは異なるサウンドを表示し、従って、異なるイベントとして決定される。

図３と４は、訓練ミュージック・ライブラリ１１１と楽曲１２１をサウンドイベント２０１に分析する手法を示す。

図３では、最初に、受け入れオーディオを高速フーリェ変換（ＦＦＴ）で周波数帯に分割し、オクターブまたはメル・フィルタを通過させる。メル・フィルタが、周波数よりも人間の知覚ピッチに近いメル尺度に基づいていることは、当業者であれば理解されよう。図３のスペクトル対比評価は、純音がＦＦＴとフィルタリングの後に等価パワーのノイズ源より高いピークを有するという事実を補正する（これは、ノイズ源のエネルギが、音色として集中するのでなく、周波数／メル帯域に分配されるためである）。

図４では受け入れオーディオを２３ミリ秒フレームに分割した後、１ｓスライディングウインドウを使って分析する。開始検出関数を使って、隣接するサウンドイベント間の境界を決定する。分析に関する詳しい説明が付録１に記載されていることは、当業者であれば理解されよう。付録１の図４では、サウンドイベントが異なる時間を有することに留意されたい。

図５は、トランスクライバ１０２が楽曲１２１のサウンドイベントを分類ツリー５００の適当な節へ分配する様子を示す。分類ツリー５００は、訓練ミュージック１１１の分析中にアナライザ１０１が遭遇した全サウンドイベントに対応するルートノード（根節）５０１を備える。ルートノード５０１はサブノード５０２ａ、５０２ｂを有する。サブノード５０２は、さらに、サブノード５０３ａ〜５０３ｄと５０４ａ〜５０４ｈを備える。この実施態様では、分類ツリー５００は左右対称であるが、非対称にも成り得ることは当業者であれば理解されよう（例えば、分類ツリーの左右を比較すると、左手側により多くのリーフノード（葉節）と、多様なレベルのサブノードがある）。

分類ツリー５００のルートノード５０１もその他の節も実際にサウンドイベントを保存していないことに注目されたい。むしろ、分類ツリーのノードは、訓練中に遭遇した全サウンドイベントの部分集合に対応する。ルートノード５０１は全てのサウンドイベントに対応する。本実施態様では、ノード５０２ｂは主にジャズ音楽と関連するサウンドイベントに対応する。ノード５０２ａは、ジャズ以外のジャンルのサウンドイベントに対応する（すなわち、ダンス、クラシック、ヒップホップ）。ノード５０３ｂは主にロックジャンルと関連するサウンドイベントに対応する。ノード５０３ａは、主にクラシックとジャズ以外のジャンルのサウンドイベントに対応する。分かり易くするために、分類ツリー５００は合計８個の葉節（ここでは、ノード５０４ａ〜５０４ｈが葉節）を備えているが、他の実施態様では、分類ツリーは３０００から１００００個の葉節を有し、葉節はそれぞれ示差的なサウンドイベントに対応することができる。

図示を省略しているが、分類ツリー５００に関連して、サウンドイベントを分類するのに情報を使用する。この情報は図６を参照しながら説明する。

図に示すように、トランスクライバ１０２がサウンドイベント２０１ａ〜ｅを葉節５０４ｂ、５０４ｅ、５０４ｂ、５０４ｆ、５０４ｇにそれぞれマッピングする。葉節５０４ｂ、５０４ｅ、５０４ｆ、５０４ｇは、楽曲１２１のサウンドイベントと対応することが書き込まれている。葉節５０４ａ、５０４ｃ、５０４ｄ、５０４ｈは中空で、対応するサウンドイベントを含まないことを示唆する。図から明らかなように、サウンドイベント２０１ａと２０１ｃは何れも葉節５０４ｂにマッピングされ、トランスクライバ１０２については、サウンドイベント２０１ａと２０１ｃは同一である。葉節５０４ｂ、５０４ｅ、５０４ｂ、５０４ｆ、５０４ｇの配列は、楽曲１２１のトランスクリプションである。

図６は、分類ツリーを作成する間の訓練プロセスの反復を示し、従って、訓練ミュージック１１１を使ってアナライザ１０１を訓練する様子を示す。

初めに、訓練ミュージック１１１をサウンドイベントに分割すると、アナライザ１０１はルートノード５０１と関連すると思われるサウンドイベント一式を備える。訓練ミュージック１１１の大きさによるが、例えば、一式が１００万個のサウンドイベントで構成されることもある。アナライザ１０１が直面する問題は、サウンドイベントを再帰的に下位群に分割することである。下位群（すなわち、サブノードと葉節）の数は、異なるサウンドイベントを識別できる程度に大きく、かつ、類似のサウンドイベントをグループ分けできる程度に小さい必要がある（百万個の葉節を有する分類ツリーは計算処理的に非現実的であろう）。

図６は初期分割を示し、これにより、ルートノード５０１のサウンドイベントのいくつかはサブノード５０２ａと関連し、ルートノードのその他のサウンドイベントはサブノード５０２ｂと関連する。分割の成果評価に多数の基準が使用できることは当業者であれば理解されよう。本実施態様では、ジニー多様度指標（Gini index of diversity）を使用した。詳細は付録１を参照されたい。

図６は、分かり易く説明するために、合計２２０個のサウンドイベント（実際の訓練ミュージックは、典型的に１００万個のサウンドイベント）を有する３分類（訓練ミュージックは実際には１０個のジャンルに分割）の初期分割を示す。ジニーの基準は、例えばジャズを他のジャンルからなど、一つのジャンルをその他のジャンルから分離することを目的とする。図６では、分類３（８１個のサウンドイベントを含む）を分類１と２（７２個と６７個のサウンドイベントをそれぞれ含む）から分離することを目指している。すなわち、訓練ミュージック１１１のうち、８１個のサウンドイベントがジャズのジャンルとして目される楽曲から来ている。

分割後、分類１と２に属するサウンドイベントの大多数は、サブノード５０２ａに関連付けられ、分類３に属するサウンドイベントの大多数はサブノード５０２ｂに関連付けられる。一般的に、分類１，２，３のサウンドイベントを"純粋に"（不純物の排除）分離することは不可能である。これは、例えば、ロックのサウンドイベントのいくつかがジャズに共通のサウンドイベントとほぼ同一なためである。たとえサウンドイベントがロックから来ていても、それがほぼ同一のジャズに対応するグループに分類されるのは道理である。

本実施態様では、各サウンドイベント２０１は合計１２９個のパラメータから成る。３２メル尺度フィルタ帯域の各々について、サウンドイベント２０１は、スペクトルレベルパラメータ（フィルタ帯域の音響エネルギを表示）と、ピッチ／ノイズパラメータと合計６４個の基本パラメータを備える。ピッチ／ノイズパラメータは、各フィルタ帯域の音響エネルギが純粋（例えば正弦波）か、ノイズ（例えば歯擦音やヒス）があるかを表示する。本実施態様では、単に６４個の基本パラメータを備えるのでなく、１２８個の基本パラメータがサウンドイベント１０２の平均と、基本パラメータのそれぞれのサウンドイベント２０１のばらつきを記憶する。サウンドイベント２０１は持続時間があり、合計１２９個のパラメータを備える。

サウンドイベント２０１ａの１２９個のパラメータを例にとって、図５のトランスクリプションプロセスを説明する。トランスクライバ１０２がサウンドイベント２０１ａについて最初に決定すべき事項は、サウンドイベント２０１ａをサブノード５０２ａと関連付けるか、サブノード５０２ｂと関連付けるかである。図６の本実施態様による訓練プロセスでは、親ノードから２つのサブノードへの各分割について、合計５１６個の決定パラメータが発生する。

５１６個の決定パラメータがあるのは、サブノード５０２ａと５０２ｂが、それぞれ、平均のパラメータ１２９個とばらつきを表示するパラメータ１２９個を所有するためである。これを図７に示す。図７では、サブノード５０２ａの平均をパラメータ軸に沿って示す。もちろん、実際にはサブノード５０２ａの平均には１２９個のパラメータがあるが、便宜上、単一のパラメータ軸として図示する。図７は、サブノード５０２ａの１２９個のパラメータと関連するばらつきを示すカーブも含む。もちろん、実際にはサブノード５０２ａのばらつきと関連する合計１２９個のパラメータがあるが、便宜上、単一のカーブとして図示する。同様に、サブノード５０２ｂについても平均のパラメータ１２９個とばらつきと関連する１２９個のパラメータがある。すなわち、サブノード５０２ａと５０２ｂの分割により、合計５１６個の決定パラメータが付与される。

図７に示すように、サウンドイベント２０１ａは、サブノード５０２ａの平均よりサブノード５０２ｂの平均に近いが、サブノード５０２ｂのばらつきが極めて小さいので、サウンドイベント２０１ａは、サブノード５０２ｂでなく、サブノード５０２ａと関連付けるのがより適切である。

図８は、楽曲のジャンルを分類するのに使用する図５の分類ツリーを示す。図５と比較すると、図８にはノード８０１ａ、８０１ｂ、８０１ｃが追加されている。ここで、ノード８０１ａはロックを、８０１ｂはクラシックを、８０１ｃはジャズを示す。分かり易くするために、その他のジャンルは図８から省略している。

ノード８０１の各々が所定の計量で葉節５０４を評価する。所定の計量はアナライザ１０１が確立しても構わない。図に示すように、葉節５０４ｂは１０％ロック、７０％クラシック、２０％ジャズとして計量される。葉節５０４ｇは２０％ロック、０％クラシック、８０％ジャズとして計量される。従って、一旦楽曲を構成要素としてのサウンドイベントにトランスクライブと、葉節５０４の重さを評価して、楽曲がロック、クラシック、あるいはジャズ（または図８に示すその他のジャンルの一つ）である可能性を査定する。
図８に記載したジャンル分類システムと共通する特徴を備える先行技術が存在するであろうことは当業者であれば理解されよう。

しかし、従来技術のシステムと本発明では、本発明はサウンドイベントと葉節の関連付けを楽曲のトランスクリプションと見なしている点で相違する。これとは対照的に、従来のシステムでは、葉節５０４を出力（すなわち、シーケンス情報）として直接使わず、ノード８０１の重さとしてだけ用いる。従って、こうしたシステムでは、一旦、楽曲のサウンドイベントがそれぞれの葉節５０４と関連付けされると、葉節５０４で利用可能な情報を使用しない。換言すると、従来のシステムは、サウンドイベントに分解した音楽に関連する時間的情報を破棄してしまう。一方、本発明では、音楽のサウンドイベントのシーケンスに係る時間的情報を保持する（図５は、サウンドイベント２０１ａ〜２０１ｅのシーケンスをシーケンス５０４ｂ、５０４ｅ、５０４ｂ、５０４ｆ、５０４ｇにトランスクライブ様子を示す）。

図９は分類ツリー５００を神経回路網９００と置き換えた実施態様を示す。この実施態様では、神経回路網の入力層が１２９個のノードを備える。すなわち、サウンドイベントの１２９個のパラメータが、それぞれ１個のノードを有する。図９は、単一の隠れ層を備える神経回路網を示す。その他の実施態様で、複数の隠れ層を備える神経回路網を使用できることは当業者であれば理解されよう。神経回路網９００の隠れ層のノード数はアナライザ１０１によって異なるが、例えば、８０から数百の間としても構わない。

図９の実施態様は、１０個のノード、すなわち、ジャンルごとに１個のノード、から成る出力層を示す。従来技術による楽曲のジャンル分類は、出力層の１０個の神経単位の出力を出力とする。

一方、本発明では、隠れ層のノード出力を出力として用いる。訓練を終えた神経回路網９００を、楽曲の分類とトランスクリプションに使用する。神経回路網９００に入力されたサウンドイベント２０１の各々につき、隠れ層のノードの特定の部分集合を焼く（すなわち、起動閾値を越える）。従って、分類ツリー５００について、サウンドイベント２０１を特定の葉節５０４と関連付けた一方、サウンドイベント２０１を起動した隠れノード特定のパターンに関連付ける。楽曲をトランスクライブには、その楽曲のサウンドイベント２０１を引き続き神経回路網９００に入力し、起動した隠れ層ノードのパターンを符号語として翻訳する。このとき、各符号語は、特定のサウンドイベント２０１を示す（もちろん、神経回路網９００は、非常に似通ったサウンドイベント２０１を同一として翻訳するため、隠れ層の起動パターンは同じになる）。

図示は省略するが、別の実施態様では、分類ツリー５００または神経回路網９００の代わりにクラスタリングを用いる。この実施態様では、Ｋ−平均クラスタリングを使用する。ここでは、サウンドイベント２０１を分類するのに数百から数千のクラスタ・センタを用いる。この実施態様と、分類ツリー５００または神経回路網９００を使った実施態様との違いは、分類ツリー５００または神経回路網９００が監督訓練を必要とするのに対し、この実施態様は監督を必要としない。監督なし訓練は、訓練ミュージック１１１を構成する楽曲にジャンルを表示するデータを貼り付けする必要がないことを意味する。無作為に割り当てたクラスタ・センタでクラスタモデルを訓練することができる。クラスタ・センタはそれぞれ関連距離を有し、クラスタ・センタの距離内にあるサウンドイベント２０１はそのクラスタ・センタに属すると見なされる。１−２回反復を実行して、各クラスタ・センタは関連サウンドイベントの中心に移動する。クラスタ・センタの移動により、サウンドイベント２０１が以前のクラスタ・センタとの関連を失い、代わりに、別のクラスタ・センタと関連することがある。モデルが訓練され、クラスタ・センタの中心が確立すると、トランスクリプションした楽曲のサウンドイベント２０１をＫ−平均モデルに入力する。そして、サウンドイベント２０１が最も緊密に関連するクラスタ・センタのリストを出力する。出力を、単に、クラスタ・センタの順序不同リストとしたり、各々のサウンドイベント２０１のクラスタ・センタへのトランスクリプション順序リストとしたりもできる。クラスタモデルがジャンル分類に使用されていることは当業者であれば理解されよう。しかし、本発明の実施態様（分類ツリー５００と神経回路網９００による実施態様を含む）では、従来、出力として用いてきたものではなく、モデルの内部構造を出力として使用する。モデルの内部構造からの出力を用いることで、モデルを使用してトランスクライブことが可能となる。

上述したトランスクライバ１０２は、楽曲やオーディオをサウンドイベント２０１のシーケンスに分解した。別の実施態様では、トランスクライバ１０２の代わりに、別のプロセッサ（図示省略）が分析を行い、サウンドイベント２０１をトランスクライブ。さらに別の実施態様では、トランスクライバ１０２またはプロセッサを楽器デジタルインタフェース（ＭＩＤＩ）符合オーディオで実行して、サウンドイベント２０１のシーケンスを作成する。

上述した分類ツリー５００は、葉節以外のノードが各々２個のサブノードを備えているため、２データ構造である。葉節以外のノードが３個以上のサブノードを備える分類ツリーも使用できることは当業者であれば理解されよう。

上述したトランスクライバ１０２は、分類ツリー５００を定義する情報を記憶するメモリを有する。別の実施態様では、トランスクライバ１０２はモデルを記憶する代わりに、分離したモデルにアクセス可能とする。具体的には、例えば、モデルをコンピュータに保存し、インターネットを介してトランスクライバとリンクする。

アナライザ１０１、トランスクライバ１０２、及びプレーヤ１０３の埋め込みは、コンピュータや電子回路を使って実行できることは当業者であれば理解されよう。電子回路を使って実行する場合、専用のハードウェアやフィールドプログラム可能ゲートアレイ（ＦＰＧＡｓ）などの半専用ハードウェアを使用できる。

分類ツリー５００と神経回路網９００を作成するのに用いた訓練ミュージック１１１には、この訓練ミュージック１１１を構成する楽曲のジャンルを表示するデータを各々貼り付けすると記載したが、別の実施態様では他のラベルを使用しても構わない。例えば、楽曲を"雰囲気"でラベル付けしたり、"楽しい"、"恐ろしい"、"リラックスする"などと分類したりもできる。

図１０は、図１と類似したトランスクリプションシステム１００の概略で、異なる楽曲の訓練ミュージック・ライブラリ１１１を分析するアナライザ１０１を備える。この実施態様の訓練ミュージック・ライブラリ１１１は、ジャズ、クラシック、ロック、ダンスなどのジャンルを含む５０００の異なる楽曲から成る。この実施態様では、１０個のジャンルを使用し、訓練ミュージック・ライブラリ１１１内の楽曲は各々、関連する楽曲のジャンルを特定するためのデータを備える。

アナライザ１０１は、訓練ミュージック・ライブラリ１１１を分析してモデル１１２を作成する。モデル１１２は分類ツリーを特定するデータを備える。モデル１１２の係数をアナライザ１０１で調整することで、モデル１１２は訓練ミュージック・ライブラリ１１１内の楽曲のサウンドイベントをうまく識別することができる。この実施態様のアナライザ１０１は、各楽曲のジャンルに関するデータを使ってモデル１１２を作成するが、別の適当なラベルを代用しても構わない（例えば、雰囲気、スタイル、楽器など）。

トランスクライバ１０２は、モデル１１２を使ってトランスクリプション予定の楽曲１２１をトランスクライブ。楽曲１２１は好ましくは、デジタル形式である。トランスクライバ１０２は楽曲１２１を分析して、モデル１１２のサウンドイベントに対応する楽曲１２１のサウンドイベントを決定する。サウンドイベントは楽曲１２１の示差的な部分である。例えば、特有のピッチ、音量、持続時間、音色を有するトランペットの音が顕著な楽曲１２１の部位は、一個のサウンドイベントを形成する。イベントのタイミングに基づく変更例では、特有のリズムが顕著であっても構わない。トランスクライバ１０２の出力は、楽曲１２１のトランスクリプション１１３であり、ラベル付けしたサウンドイベントに分析される。

検索エンジン１０４は、例えば、ＴＦ／ＩＤＦ重量付きベクトル模型などの標準的なテキスト検索技術を使って、楽曲記録コレクションを表示するトランスクリプションコレクション１２２とトランスクリプション１１３を比較する。基本的なベクトル模型テキスト検索では、トランスクリプションを所定の大きさのターム重量に転換し、コサイン距離と比較する。各タームｔ_ｉの重量は、以下のような単純ターム頻度（ＴＦ）から生成できる：

式中、ｎ_ｉは各ターム、あるいは、ターム頻度−逆文献頻度（ＴＦ／ＩＤＦ）の発生数であり、以下のように求める：

式中、［国際公開WO2007/029002の第１６頁１行目参照］は、コレクション内の文書の数で、［国際公開WO2007/029002の第１６頁１行目参照］は、タームｔ_ｉを含む文献の数を示す（ベクトル系テキスト検索法に馴染みの薄い読者は、用語の説明など１９９９年にAddison-Wesley Publishing Companyから刊行されたR. Baeza-Yates及び B. Ribeiro-Neto著の『近代記情報検索(Modern Information Retrieval)』を参照されたい）。図１０の実施態様において、"条件"は葉節識別子で、"文書"はデータベースの曲である。各文書について重量ベクトルを抽出したら、例えば、コサイン距離を使って２つの文書の類似度を評価できる。トランスクリプションで見つけたペアあるいはトリプルシンボルのＴＦまたはＴＦ／ＩＤＦ重量を抽出することによって、検索性能をさらに高めることができる。これは、それぞれ、シンボルのバイ・グラムまたはトリ・グラムとして知られ、比較できる。検索にシンボルのバイ・グラムまたはトリ・グラムの重量を使用することで、シンボルの出現頻度だけでなく、順番も考慮でき、検索の表現力を高めることができる。バイ・グラムまたはトリ・グラムが、ｎグラムの特異な事例であることは当業者であれば理解されよう。変更例では、高位の（例えば、ｎ＝４）グラムを使っても構わない。更なる情報は付録２の、特に、項目４．２を参照されたい。付録２の図４記載のツリーは、本願の図５の分類ツリー５００と似ていることは、当業者であれば理解されよう。付録２の図４の木を使用して、６個のサウンドイベントのシーケンスをシーケンスＡＢＡＢＣＣに分析する。このとき、Ａ、Ｂ、Ｃはそれぞれ付録２の図４のツリーの葉節を示している。

コレクション１２２の各アイテムの類似指数は、問合せトランスクリプション１１３に分配され、ユーザに検索結果１２３のランク付けリストを返答するのに使用できる。あるいは、類似音楽のプレーリスト１１５を生成するプレーリスト生成プログラム１０５に類似指数１２３を渡しても構わない。または、購入推奨曲を生成する楽曲推奨スクリプトに類似指数１２３を渡して、ユーザがすでに所有する曲目リスト１２４と類似音楽のリストを比較して、ユーザのコレクション１１６に無い似た曲目を返答することもできる。さらに、標準的なテキストクラスタリング技術を使って、コレクションの視覚表示１１７を生成するのにトランスクリプションコレクション１２２を使用しても構わない。

図８は、楽曲のジャンルを分類するのに使用するノード８０１を示す。付録２の図２に示す変更例では、６個のサウンドイベント・シーケンスのそれぞれのサウンドイベントについて確度対数を計算する。網掛け濃度は、ロック、クラシック、電子音楽のジャンルの何れかに葉節が属する確度に比例する。付録２の図２の左端の葉節は、以下の確度を有する：ロック０．０８、クラシック０．０１、電子音楽０．９１。従って、左端の葉節に関連するサウンドイベントは電子音楽のジャンルに属する楽曲と見なされる。

図１１は、メル周波数スペクトル不規則度係数の評価プロセスのブロック図である。実施態様によっては、いくつかの実施態様では、図３のプロセスの代わりに、図１１のプロセスを使用しても構わない。オーディオの任意の数値表示をアナライザ１０１及びトランスクライバ１０２への入力として使用できる。上述したＭＦＣＣｓやスペクトル対比特性の代用としてメル周波数スペクトル不規則度係数（ＭＦＳＩｓ）を使っても構わない。図１１は、ＭＦＳＩｓの計算を示し、受け入れオーディオを、再び、高速フーリェ変換（ＦＦＴ）で周波数帯に分割し、メル周波数スケールフィルタバンクを通過させる。メル・フィルタ係数を収集し、フィルタバンクの各帯域について、同じ係数をもたらす白色雑音信号を評価する。この結果を不規則度係数と呼ぶ。メル・フィルタの記録と不規則度係数の両方が最終的なＭＦＳＩ特性を形成する。スペクトル不規則度係数は、純音がＦＦＴ帯域で局部的エネルギを発生させ、同等の強さの雑音信号から簡単に識別できるものの、メルスケールフィルタバンクを通過後は、大部分の情報を喪失し、信号が似たような特徴を示すという事実を補正する。図１１に関する更なる情報は付録２に記載されている（付録２の図１と明細書を参照）。

図１２は、リズム−ケプストラム係数の評価プロセスを示す。いくつかの実施態様では、図３のプロセスの代わりに、図１２のプロセスを使っても構わない。図１２では、開始検出関数を使って受け入れオーディオを分析する。これは、オーディオをＦＦＴとメルスケールフィルタバンクを介して通過させることで実行できる。同時フレームフィルタバンク係数の違いを計算し、正の差を合計して、開始検出関数のフレームを作成する。検出関数の７秒シーケンスを自己相関し、別のＦＦＴを通過させてシーケンスのパワースペクトル密度を抽出する。これは、検出関数の反復振動数と、最終的には、音楽のリズムを表す。演奏のテンポとは無関係なリズムの"形"を特定するためにこれらの係数の離散コサイン変換を計算する。リズム−ケプストラム分析は、ダンス音楽をトランスクライブに特に効果的であることを見出した。

本発明の実施態様を音楽のトランスクリプションという形で説明した。しかし、例えば、鳥のさえずりなど他の種類の信号の分析にも使用できることは当業者であれば理解されよう。

本発明の実施態様は、例えば、プレーリストを作るのに、小型ミュージックプレーヤ（例えば、携帯電話を含む半導体メモリやミニハードディスク）のような装置でも使用できる。ユーザが特定の曲を選択すると、装置が選択した曲のジャンルや雰囲気に似た曲を検索する。

本発明の実施態様は、例えば、オンラインの音楽配信システムなどのアプリケーションでも使用できる。こうしたシステムでは、ユーザは典型的に音楽を購入する。本発明の実施態様を使って、ユーザは、好みの曲をオンライン音楽配信システムに表示できる。すると、システムは、その曲の特徴に基づいて、似たような曲を示唆する。ユーザが示唆された曲を気に入れば、それらの曲を購入できる。

付録１
オーディオジャンル分類の最適分割の研究結果
(Finding an Optimal Segmentation for Audio Genre Classification)
クリス・ウエスト（Kris West）及びステファン・コックス（Stephen Cox）著
［摘要］
音楽の自動分類においては、特徴を計算するのに、オーディオ信号を多様に分割する手法が使用されている。これには、個別ショートフレーム（２３ｍｓ）、ロングフレーム（２００ｍｓ）、１ストリームが２３ｍｓのショートスライディングテキストウインドウ（１秒）、ラージ固定ウインドウ（１０秒）、及び全ファイルが含まれる。この研究では、ジャンル分類に準最適な３つの異なる分割評価を提示し、分類の正確さとモデルサイズで、他の全ての技術より優れる、開始検出に基づく分割の使用を紹介する。

キーワード：ジャンル、分類、分割、開始、検出

１．序論
近年、ユーザが利用可能なマルチメディア・コンテンツの増加に伴い、自動式のコンテンツ・ベースマルチメディア分析の需要が高まっている。同様に、ローカル計算力の発達がこうしたシステムのローカル版を実行可能にしている。しかし、コンテンツ・ストリームで利用可能な情報の効果的かつ最適な使用が課題であり、多くの研究者が多様な戦略を採用している。
オーディオ分類システムは、普通、特徴抽出と分類の２部に分割される。オーディオ信号から計算可能な様々な特徴と、これらの特徴を訓練した分類スキーマの実行について評価を行う。しかし、固定長分割ウインドウの最適長さは未研究で、固定長ウインドウがオーディオ分類にとって好ましい特性を備えるかどうかも研究されていない。我々は、信号のショートフレーム（２３ｍｓ）に基づいてシステムを比較した（２００４年West and Cox）。これらのシステムは、全体を１つのベクトル特性に圧縮したシステムと個別オーディオフレームで利用可能な情報よりたくさんの情報を取得するために、フレームの１秒スライディングウインドウを使用した（２００３年Tzanetakis）。計算した特性の１秒スライディングウインドウに基づくシステム（２００１年Tzanetakis et al.）と、全ファイル利用のシステム（２００３年Tzanetakis）を立証した。個別ショートオーディオフレーム（２３ｍｓ）の分類に基づくシステムが研究され（２００２年Schmidt and Stoneと２００３年Xu et al.）、分類に重複２００ｍｓ分析フレームが使用された（２００２年Jiang et al.）。
我々は、オーディオサンプルを単一の確率分布に圧縮するより、特長シーケンスとして表示する方が有益なことを示した（２００４年West and Cox）。さらに、"平坦"な分類器より、木ベースの分類器の方が、これらの特長性能を向上させることも立証した。
本書では、同じ分類モデルを使って、２３ｍｓオーディオフレームと、スライディング１秒時間モデリングウインドウ付き２３ｍｓオーディオフレームと、固定１０秒時間モデリングウインドウ付き２３ｍｓオーディオフレームと、２００ｍｓオーディオフレームと、全ファイル（３０秒フレーム）との５つの異なる固定サイズ分割に基づき、オーディオ分類を評価する。さらに、モデルサイズと分類精度の両方の見地から固定分割をしのぐ、開始検出関数に基づく新規な分割を紹介する。本書を以下のように構成する：最初に、オーディオストリームの楽曲イベントのモデリングを検討し、実験で使用するパラメータ、分割のための開始検出関数の開発、使用した分類スキーマ、最後に、実験結果と、実験から得た結論を記載する。

２．オーディオストリームにおけるモデリングイベント
全体を通してショートオーディオフレーム（２３ｍｓ）から計算した特長シーケンスの平均は、分布をオーディオの各分類から特長スペースの中心に向かわせ、分類の分離性を減少させる。従って、オーディオストリームを全体としてではなく、異なるサウンドの分布としてモデリングした方が好都合である。同様に、音楽イベントは多数の異なるフレームから構成され、特徴スペースにおける分布が複雑で、モデリングが難しく、個別の音楽イベントより分類するための情報が乏しいため、信号からショートオーディオフレームの個別分布をモデリングするのが準最適である。
固定長セグメントではサウンドは発生せず、ヒトが音楽を聞くときは、意識的な努力や、サウンドの音色の経験なしに、オーディオを個別イベントに分割できる。こうしたサウンドは個別に認識可能で、異なる演奏スタイルを識別し、訓練すれば演奏された総譜を採譜することもできる。これは、オーディオストリームを音楽イベントのシーケンスまたは同時に発生する音楽イベントとして分割する可能性を示唆する。サウンドは固定長セグメントで発生しないので、開始検出などの有向分割技術は、任意の固定長分割よりはるかに多くの分類のためのオーディオデータ分割情報を備えると我々は考える。
重複式スライディング時間モデリングウインドウ（１秒）に基づくシステムは、単一分類のオーディオを多様な分布にモデリングすることを試みる分類スキーマであるため、正しい方向に向かう第一歩である。しかし、時間モデリングウインドウは複数の同時音楽イベントを捉えるため、分布が複雑となる。さらに、単一のサウンドが８０以上の特長ベクトル（５０％重複で、２３ｍｓフレームを越える１秒ウインドウ）に関与するため、この種の分割は大量の過剰情報を含む。開始検出関数に基づく分割によれば、サウンドを単一の特長ベクトルで表示し、単一のイベントもしくは同時に起こるイベントだけをベクトル特性に関与させることができる。

３．実験設定−パラメータの設定
メル周波数ケプストラム係数（ＭＦＣＣ）より音楽ジャンルの識別性能の高いオクターブベースのスペクトル対比特性が提案されている（２００２年Jiang et al.）。ＭＦＣＣより優れた表示を提供するために、オクターブベースのスペクトル対比特性は、各副帯におけるスペクトルの山と谷の強度を個別に考慮することで、副帯における両者の相対的スペクトル特性と、調和成分及び非調和成分とを特長に符合化する。大部分の音楽では、強度の高いスペクトルピークが調和成分と一致する傾向がある一方、非調和成分（確率的なノイズ音）はしばしばスペクトルの谷に出現し（２００２年Jiang et al.）、ウエスタンミュージックの調律サウンドで優勢な様子を示す。スペクトル対比は、副帯の２つの非常に異なるスペクトルの平均化が同一の平均スペクトルに至る事実を軽減するものである。
スペクトル対比特性の計算手順を図１に示す。これは、ＭＦＣＣの計算に使用するプロセスとよく似ている。

図１：スペクトル対比特性の計算の概略

初めのステージでは、オーディオ信号を５０％重複でハミングウインドウ分析フレームに分割し、ＦＦＴを実行してスペクトルを得る。信号のスペクトル・コンテンツをオクターブスケールフィルタで副帯に分割する。ＭＦＣＣ計算では、次のステージは、副帯のＦＦＴ振幅の合計であるが、スペクトル対比の計算では、副帯信号のスペクトルの山と谷の差を評価する。特性の安定性を確保するために、副帯の最大値と最小値のごく近辺（αで示す）の平均からスペクトルの山と谷を評価する。オーディオ信号のｋ番目の副帯のＦＦＴを｛ｘ_ｋ，_１、ｘ_ｋ，_２、…、ｘ_ｋ，_Ｎ｝形式のベクトルとして戻し、ｘ_ｋ，_１>ｘ_ｋ，_２>…>ｘ_ｋ，_Ｎのように降順で分類する。スペクトル対比特性の計算式は、以下のように表す：
山_ｋ＝

谷_ｋ＝

その差を以下のように表す：
ＳＣ_ｋ＝山_ｋ− 谷_ｋ（３）
式中、Ｎは、ｋ番目の副帯のＦＦＴ値域である。α値を０．０２と０．２の間に設定するが、性能に著しい影響を及ぼすことはない。生のスペクトル対比特性を｛ＳＣ_ｋ，谷_ｋ｝形式の１２次元ベクトルとして戻す。式中、ｋ∈[１，６]。
次に、主成分分析を使って、スペクトル対比特性の次元共分散を減少させる。オクターブスケールフィルタバンクは、メル・スケールフィルタバンクより広い帯域を有し、スペクトル対比特性は２個の異なる統計値を備えるため、次元が高い相関性を有することはなく、ＭＦＣＣの計算とは違い、離散型のコサイン変換はＰＣＡと近似しない。

４．実験設定−分割
初めに、２２０５０Ｈｚでオーディオをサンプリングし、２個のステレオチャンネルを合計して、モノラル信号を生成する。次にこれを、重複分析フレームとハミングウインドウに分割する。各分析フレームについて、スペクトル対比特性を計算する。次に、任意で、全ファイル、あるいは、開始検出関数を使って識別したセグメントについて、スライディングウインドウを利用し、セグメント１個につき、１つのベクトル特性を戻して、これらのフレームの平均と分散を計算する。
このシステムでは：２３ｍｓオーディオフレームと、１秒スライディング時間モデリングウインドウ付き２３ｍｓオーディオフレームと、固定１０秒ウインドウ付き２３ｍｓオーディオフレームと、全ファイル時間モデリング付き２３ｍｓオーディオフレーム（１ファイルにつき、１ベクトル戻す）と、開始検出を利用した分割付き２３ｍｓオーディオフレームと、時間モデリングの分割とを評価する。これらの分割の概略を図２に示す。

図２：自動分割及び時間モデリングの評価

図３：動的閾値を備える開始検出プロット

４．１開始検出関数の開発
エネルギ利用開始検出技術は、オーディオ分割に関する学術論文の多くで使用されている（２０００年Scheirer、１９９５年Goto and Muraoka、２００３年Dixon el al.、２００１年Dixon、２００２年Findley、２００２年Heittola and Klapuri、１９８５年Schloss、Duxbury et al.）。これは、信号包絡面の正の差異のピークがオーディオストリームの開始、すなわち、音楽イベントの始まりと一致するという考えに基づく。

４．１．１開始検出関数の閾値決定
開始検出関数が所定の閾値より大きく、オーディオフレームが、小さな隔離ウインドウ内の全てのフレームより大きな開始検出関数を有している場合、そのオーディオフレームにおける開始を検出する。
図３に示すように、動的中央閾値を使って、検出関数の"ピーク選択"を行う（Duxbury et al.）。開始検出関数の相対的に短いウインドウ（１〜２秒）を使って中央値を計算し、これを閾値として使用する。閾値を微妙に調整するために、重量を中央値に適用することもできる。我々の初期の実験は、動的閾値が、常に、固定閾値より有効でることを示したため、ここに発表する実験は全て動的閾値を使用する。

図４：ビブラート付き男声のスペクトル記録図

４．１．２エネルギ利用技術実行の改善
オーディオ信号における変化の知覚には、非直線的な統合があることを示している（２００３年Dixon el al.）。複数の論文が、ＦＦＴで個別値域出力の変化を計算し、こうした結果を統合することでこれに対処している（Duxbury et al.）。残念ながら、この技術は、例えば、歌手の声がビブラートするなど、シングルイベント内にピッチ振動が存在する場合、誤り検出する弱点がある。この効果を図４に示す。ビブラートから生じる振動は、３〜５Ｈｚの割合でエネルギを異なるＦＦＴ値域へ動かす。１つの解決法は、周波数領域を類似する数の重複帯域に分割し、帯域内のエネルギを統合して、一次相違を計算する。我々は、この非直線的な帯域統合に、メル周波数スケールとオクターブスケールを使用した。前者は、ヒトのサウンド知覚モデルと似ているが、後者は、音楽で使う主尺の一つに基づく。
初期の実験は、滅多に使わない、帯域が極めて広いオクターブスケールが、このタスクに不向きであるであることを示した。これは、帯域が広いため、複数の同時サウンドの持続部が帯域内で重複し、後のサウンドの開始を見落とし、最初のイベントの持続部と解釈してしまうことに起因すると思われる。従って、本書が発表する結果は、メル・スケールまたはＦＦＴ帯域のものである。

４．１．３ＦＦＴ位相に基づく開始検出
音楽オーディオストリームのエネルギに基づく開始検出技術に代わるものをBello and Sandler（２００３年）が提案している。Duxbury et al.は、複雑な領域開始検出関数を生成するのに、これを既存の技術と組み合わせている。
信号のスペクトル分析を行う場合、信号を一連の分析フレームに分割し、各セグメントに高速フーリェ交換（ＦＦＴ）を適用する。変換が各瓶（値域）について、規模［国際公開WO2007/029002の第２２頁右欄下から１２行目参照］と相［国際公開WO2007/029002の第２２頁右欄下から１１行目参照］を返す。相の解［同第２２頁右欄下から１１行目参照］は、領域[−π、π]にマッピングされる絶対相である。エネルギに基づく技術は、FFTの規模だけを考慮し、信号のタイミング情報を備える相は考慮しない。
音楽イベントは、開始、持続期、オフセットの３つのステージに分割できる。ピッチノートの持続期では、FFTの規模も相も相対的に安定していると推定する。しかし、一時的変動（開始とオフセット）の間、両者は有意に変化する傾向がある。
アタック過渡期では、信号の持続期と比べて、遥かに高レベルの偏差が認められる。FTTの全値域について、これらの相での数値分布の広がりを計測することで、開始検出関数（γ）を求めることができる。この検出関数のピークは、開始変動とオフセット変動の両方と一致する。そのため、規模変化と組み合わせて、開始とオフセットを識別しても構わない。

４．１．４エントロピに基づく開始掲出
確率P₁、P₂、...P_NのN値を取る確率変数のエントロピを以下の式で表す：

エントロピは、確率（P_i）が等しいときに最大（H＝ｌoｇ₂N）で、確率の１つが１．０で、その他がゼロのときに最小（H=０）となる。
信号が安定しているときは、スペクトル規模のエントロピも安定するが、開始などの変動期では変動する。ここでも、エントロピ変動のピークは、開始変動やオフセット変動の両方と一致する。そのため、開始検出に使用するには、この係数をエネルギ変化と組み合わせて、開始とオフセットを識別する必要がある。

４．１．５最適化
動的中央値は、最良の性能を発揮するために、最適化する必要がある３個のパラメータを有する。これは、すなわち、中央ウインドウサイズと、開始隔離ウインドウサイズと、閾値重量である。各開始検出技術について最高の達成可能精度を決定するために、これらのパラメータの微細最適化を行った。これを達成するには、多数の試験による開始時間のグラウンドトルス採譜を必要とした。これは、手作業で行った。この作業のために、４つのジャンルから８個の試験部を、各１分間、注釈した。
最も性能の高い開始検出関数を２０個の潜在的関数から試験した。これには、エントロピ、スペクトル重心、エネルギ利用、相利用関数が含まれる。こうして得た結果を表１に記載する。検出関数を知覚（全予測に関する正確な予測）とリコール（オリジナルファイルの開始回数に関する正確な予測）の調和平均であるF計測計算で評価する。フレームの数でウインドウサイズを報告する。フレームは長さ２３ｍｓで、１１．５ｍｓで重複する。メモリ需要を最小限に維持するために、同じ精度に到達する領域値では、最小のウインドウサイズを戻す。
性能が最も優れた関数が、メル・スケール帯域のエネルギ、あるいは、エネルギと相偏差変数両方に基づくことを表１は示す。どちらの技術も最適性能を得るために、閾値を設定する必要がないという非常に有用な特性を備える。FFTよりメル帯域検出関数の方が僅かに精度が高いのは、図５に示すように、検出関数のノイズ低減によるものである。

図５：メル・スケールフィルタバンクの検出関数におけるノイズ低減

５．分類体系
我々は、オーディオストリームから計算し、複雑な分布に属する特性ベクトルを分類するための新規なモデルを提供した（２００４年West and Cox）。このモデルは、Breiman et al.（１９８４年）が開示する最大２進分類樹の組み立てに基づく。これは、全ての訓練データを含む根節を形成し、変数の直線的組合せ、あるいは、カテゴリ変数の値である単一変数の閾値でデータを２個の子ノードに分割することで好都合に組み立てられる。我々は、単一ガウス分類器とマハラノビス拒理計測で、極めて多数の予想単一変数分割を形成し、評価する必要がある分割プロセスを置き換えることで、このモデルを有意に改善した。単一ガウス分類器は、ダイアゴナルまたはフル共分散マトリックスのどちらかに基づくことが可能だが、フル共分散マトリックスに基づくモデルは、訓練するのに有意に時間がかかる。
各ノードについて、反復や並べ替えなしに、オーディオ分類の全組み合わせを形成することで、予想分割群を列挙する。単一ガウス分類器を訓練して、これらの分割を各々複製し、最良の分割を返した分類器を選んで仕上げる。

５．１最良分割の選択
分割の出来を評価するのに使用可能な基準が多数ある。この評価で、我々は、ジニー多様度指標を使用した。これは、以下の式で表せる：

式中、ｔは現在のノードで、［国際公開WO2007/029002の第２４頁左欄下から６行目参照］と［国際公開WO2007/029002の第２４頁左欄下から６行目参照］は、それぞれ、ノードｔの、i番目とｊ番目の分類の先見的確率を示す。最良の分類は、不純物の変化を最大化する分割である。ノードｔ（△i（ｓ,t））の分割がもたらす不純物変化は、以下の式で表す：

△i（ｓ,t）＝i（ｔ）− P_Li（ｔ_L）−P_Ri（ｔ_R）（６）
式中、P_LとP_Rは、それぞれ、子ノードｔ_Lとｔ_Rにおける見本の割合を示す。ジニー基準は、初めに、いくつかの特徴が似ている分類をグループ分けするが、木の下方に向かって、残りのデータから単一分類に隔離する分割を好む。図６に分割プロセスの概略を示す。

図６：分類樹の訓練プロセスの反復概略

５．２最大確率分類
新しい見本を分類する場合、分類樹に入力する各特性ベクトルについて、集合の要素の確率を返す。確度の共通部分の採取に等しい特性ベクトル各々の各分類について、ログ確率を合計し、さらに、最大確率を備える分類を選択して、全体を分類する。入力特性ベクトルが存在する木の葉節において、各分類に属する訓練データの百分率を使用してこれらの確率を計算する。
この技術の課題は、全分類が全ての葉節でカウントされるわけではないので、確率がゼロになることがある。そのため、これが起こった分類は確率がゼロになる。訓練中にその分類で見られなかった音色を含む見本がモデルに提示されると、この状況が起こり得る。一例としては、トランペットのソロを含むレゲエ音楽で、過去に、トランペットがクラシックかジャズ分類にしか現れなかった場合が挙げられる。従って、Lidstone（１９２０年）が詳細を開示するリドストーンの法則を使用して確率を調整する。リドストーンの調整式は以下のように表す：

式中、P_Liは分類_iの確率調整、Nは特性ベクトルが分類される葉節、ｎ_iはノードNにおける分類iの訓練ベクトル数、ｎ_iはノードNにおける訓練ベクトルの総数、Cは分類の数を示す。

６．試験データセット及び実験設定
この評価では、オーディオをロック、レゲエ、ヘビーメタル、クラシック、ジャズとブルース、ジャングル、ドラムとバスの７つのジャンルに分類するようにモデルを形成した。各分類は、オーディオデータベースからランダムに選んだ３０秒のサンプル１５０個から構成される。各試験は、３層クロス確認で実行した。

６．１メモリ需要および計算複雑度
表２に、モデル訓練プロセスでの記憶・メモリ需要の基準として、平均的な特長ファイルサイズと葉節の数を報告し、計算複雑性の基準として、実行時間を報告する。これらの結果は、１Gbの４ooMHｚ、DDR、RAM実行ウインドウXP、ジャバ1.5.0_01とD2K4.0.2で3.2GHｚ、AMDアスロンプロセッサを用いて作成した。

６．２開始検出に基づく時間モデル
４．１項に詳述したように、"開始検出ベース時間モデリング"を使って報告した結果を最高性能の開始検出装置で分割した。これは、相およびエネルギ利用の開始検出装置で、メル・スケール帯域における相とエネルギの偏差の交わりを採取し、結果を直線化した半波と帯域を合計して、最終的な開始検出関数を生成する。

７．分類結果
７．１分析
表２の分類結果は、特長シーケンスのモデリング（結果４、５、６、７、８）がこれらの特長の単一確率分布のモデリング（結果１と３）より明らかに優れていることを示す。しかし、シーケンスフレーム（２３ｍｓと２００ｍｓの両方とも）の直接モデリングは、データで訓練した決定樹モデルの葉節の膨大な数が示すように、極めて複雑な課題を抱える。斜め共分散モデルの訓練時間がいまのところ最長なので、このデータに関してこれらのモデルだけを訓練した。スライディング時間モデリングウインドウ（結果５と６）の使用は、結果の精度を有意に向上させ、同じ数の特性ベクトルを備えるデータで訓練したモデルを単純化する。
開始検出利用の分割と時間モデリング（結果７と８）の使用は、スライディング時間モデリングウインドウの結果と比較して、有意に短い実行時間と、単純化された決定樹モデルと、有意に小型の特長ファイルサイズと、若干好ましい分類結果をもたらした。モデル訓練プロセスの効率向上は、パラメータから過剰なデータを削除したためと思われる。スライディングウインドウの結果においては、多数の分布を描写するために、複雑な決定樹を育てなければならず、余分なデータにより、木の下位分枝で共分散マトリックスを正確に評価できるため、この過剰データは有効である。開始検出で分割したデータの決定樹は、よりシンプルな構成で、冗長なデータを必要としない。
指示分割がよりシンプルな決定樹を作成する能力を有するのは、ヒトがオーディオを知覚するときの分解と似て、データを"意味的に有意味な"ユニット、すなわち、個別のサウンドに分割するためだと推定される。個別サウンドは多様なオーディオフレームから構成され、そのうちのいくつかは、非常に異なるサウンドと共有される。これは、特長スペースで複雑な分布を生成し、モデリングが難しい。時間モデリングウインドウは、ローカル組織、すなわち、ウインドウのサウンドを構成するフレームを捕らえるので、これを使用することで分布を単純化できる。ただし、残念ながら、このウインドウは複数のサウンドを捉える傾向があるので、特長スペースの分布を複雑にする。
ガウス分類装置のフル共分散マトリックスの使用は、一貫して、決定樹モデルを単純化する。しかし、分類精度は、必ずしも向上せず、付加的な計算コストが生じる。スライディングウインドウデータでフル共分散モデルを使用すると、モデルサイズが１／３減少するが、フル共分散マトリックスを正確に評価するにはデータが不十分なため、木の下位分枝では、しばしば斜め共分散に減らさなければならなかった。分割データでフル共分散モデルを使用すると、モデルサイズが２／３減少し、精度が著しく向上した。これは、分割データがスライディングウインドウの多重音を捉えることで生じる複雑性を排除し、より少数の、より簡単なモデル分布を作成する事実によるものと思われる。

８．結論
我々は、開始検出利用の音楽オーディオ分割が、その他に試験した分割に比べて、より優れた分類特性を提供することを見出した。これらの特長はモデリングするのに簡単で、より精度の高いモデルが作成できる。さらに、冗長なデータを排除することで、オーディオストリームで利用可能なデータがより有効に使用できることを示した。これは、オーディオストリームの開始検出分割が音楽的により有意味な分割をもたらし、オーディオストリームのその他の分割と比べて、より優れたコンテンツベースの音楽識別と分析システムの作成に使用できるという主張を裏付けるものである。
さらに、我々は、開始検出関数のメル帯域フィルタリングと、メル・スケール帯域の検出関数の組み合わせがノイズを減少させ、最終的な検出関数の精度を向上させることも示した。

９．今後の課題
開始検出関数でオーディオを分割する場合、オーディオを音楽イベントの開始で始まり、次のイベントの開始直前に終了するセグメントに分解する。イベント間のサイレンスは、セグメントに含む。我々は、セグメントを特長の平均と分散のベクトルとしてモデリングするため、すばやく連続する２つのイベントは、サイレンスで分離された2つの同じイベントに異なるパラメータ表示をもたらす。分割で生じるエラーは、特長スペースの各分類に属するサウンドの分布を複雑にし、分類の分離性を減少させ、最終的に、実行時間を長引かせ、大きな決定樹が作られる。これは、開始検出関数を"サイレンス・ゲート"し、サイレンスをセグメントの分割として考慮することで修正できる。我々は、動的サイレンス閾値を一種の音楽として使用することが、ヘビーメタルやクラシック音楽のような他のタイプの音楽より高いサイレンスの閾値を有することになり、この付加的レベルの白色雑音が分類に役立つ情報を備えることを提案する。
さらに、音色の違いに基づく分割技術は、開始検出に基づく分割と比べて評価すべきである。音色の違いは、少なくとも部分的に、旋律の開始と相関する。しかし、音色の変化は、必ずしも開始検出では識別できないので、これらは異なる全体分割を生成する傾向がある。こうした分割技術は、大きなエルゴード的隠れマルコフモデル、あるいは、例えば、最終分割として選択されるような、高確度を返す分類ごとの大きなエルゴード的隠れマルコフモデルを利用することができる。この類の分割は、音色を分離して、個別モデリングが可能なので、知識提供型であっても構わない。

［謝辞］
この評価における全ての実験はデータ２知識（D2K）用音楽２知識（M2K）ツールキットで実行した。M2Kは、音楽情報検索（MIR）と音楽デジタルライブラリ（MDL）の研究者が、精巧なMIR及びMDL技術を迅速に模型試作、共有、科学的に評価できるように設計されたジャバ系フレームワークである。M2Kは,以下のサイトからアクセスできる：
http://music-ir.org/evaluation/m2k

［参考文献］

付録２

機械学習の音楽類似性評価への併合
(Incorporating Machine-Learning into Music Similarity Estimation)

摘要
音楽は、アーティストや文化が彼らのアイデアやアイデンティティを表現する複雑なコミュニケーションの形です。音楽を聴くときに我々だけで認識することはありませんアコースティックサウンドでは、時間的なパターンは、他の音との関係だけでなく、曲、アーティスト、文化や感情です。そのせいで複雑には、文化的に定義さ分布の時間的なパターンとの間にこれらの音響関係は、それが一般的なオーディオの類似性は低いメトリックされる音楽の類似性の指標としてふさわしい。従って、我々は思いも寄らないエミュレートできるように、人間の知覚の類似曲をせずにリファレンスをいくつかの歴史や文化的な文脈です。
音楽分類システムの成功は、この難しさを示して学習の複雑さを克服することができますオーディオ機能や、メタデータ間の関係のクラスと予測される。現在の2つのアプローチを我々の音楽の類似工事の統計情報に基づいて、使用するモデルを抽出分類の説明については、高レベルの音楽だ。これらのアプローチを達成する非常に高レベルのパフォーマンスとしない結果を生むか、時折スプリアス「ハブ」従来の音楽の類似技術を生み出すことだ。
（中略）

1.序論
成長率は、最近の急速な拡大と、デジタル音楽配信の両方の個人的な音楽コレクションとしているデバイスの容量が増えた両方に保存されているのは、ユーティリティの効果や必要性を整理するためのテクニックを、視覚的にブラウジングや音楽コレクションやプレイリストを生成する。これらのすべてのアプリケーションで必要との間の類似例を示しているのだ。このユーティリティのコンテンツベースの統計情報を推定するためには、よく知られた曲の間の類似性は、コミュニティの音楽情報検索（ミール） [2] [10][12]は、比較的安価な代替品としても高価な計算資源を人間の編集者、およびユーザーに許可するアクセスのロングテール（音楽をしていないかもしれないの見直しや広く配布され、困難な使用状況データを収集したりレビュー）[1]。
それが私たちの音楽コンテンツベースのコンテンション類似してestimators容易ではないとして定義されたミュージカルの概念間の関係の専門家のためのシステムは、私たちの音楽文化を形成して、複雑な定義されたが、アドホックな方法では、見掛け上の本質的組織化原理がない。したがって、効果的な音楽を何らかの形で参照する必要がありますエスティメイタ類似性や文化的歴史的文脈をエミュレートするためには人間の見積もりを効果的に類似した。自動エスティメイタに制約されるにもかれらは、訓練を受けたとされる情報を開発する可能性が音楽の主観的ビューのは、人間のリスナーと同じやり方です。
この導入の残りの部分で、我々は、音楽の類似技術を簡潔に説明し、既存のオーディオは、これらの技術と共通の過ちを作った私たちの間にいくつかの類似のアプローチを使用すると、人間の文化的な文脈や音楽レーベルで説明します。セクション2 -5事前に我々のオーディオ処理を記述する我々のフロントエンドは、私たちの仕事は機械学習と分類し、この仕事を提供する2つの例を拡張する形でtimbral音楽の類似機能を組み込む音楽知識を習得してモデルに分類される。最後に、我々は我々の評価の効果的な解決策を話し合うと我々の計画はこの分野でのさらなる作業です。

１．１オーディオ音楽の類似性評価での既存の研究
数多くのコンテンツベースの類似度を推定する方法のオーディオの音楽録音が提案されています。これらの技術の多くは短時間スペクトルの機能のみを検討する、と関連して、オーディオの音色は、ほとんどのピッチを無視すると、音の大きさやタイミング情報は、曲と考えています。このようなテクニックを参照して我々としてtimbral音楽相似関数です。
ローガンやサロモン[10]は、オーディオコンテンツベースの存在を推定する方法の2つの音楽のtimbral類似正常に適用されてきた世代のプレイリストは、身分証明書やアーティストの音楽ジャンル分類。このメソッドは、各トラックについての痕跡を、Earth Mover's Distance（ＥＭＤ）と比較することに基づいている。クラスタリングの署名が形成されるメル周波数ケプストラム係数（ＭＦＣＣｓ）は、 30ミリ秒の計算のためのフレームのオーディオ信号は、 K平均アルゴリズムを使用しています。

別のコンテンツに基づいた類似性推定法は、またオーディオ信号からＭＦＣＣｓを計算することに基づくものでもあるが、アウコチュリーおよびパチェによって、提示された[2] 。ガウスの混合物のディストリビューションでは、訓練を受けた上ＭＦＣＣベクタからサンプリングされたそれぞれの歌とは比べtimbralの類似性を見積もるためには2つの作品です。アウコチュリーとパチェは、自分のシステムを報告して識別意外な組合間の特定の曲は、しばしば非常にさまざまなジャンルの音楽から、これは、かれらの計算を搾取する「因子です。「Aha」は、計算を比較することにより、コンテンツベースの「timbral」の距離を測る指標に基づいてテキストのメタデータです。ペアを組んで同様のことtimbresトラックとして識別さが、彼らのメタデータがないかもしれないと同様によりますと、高い値が割り当てられて「Aha」因子です。それが私たちのコンテンションのためには、これらの団体の間に混乱を皮相的に似たようなtimbresなど、引っ張ったギターの弦リュートとの間の混乱やフォーク、ロックと、世界を追跡する、[2]を説明され、これを含むすべての音響穏やかな男性の声とギターの演奏。これらのより深い分析timbresかもしれないと個別のエラーを防ぐことにつながる可能性は非常に貧しい人々のタスクのパフォーマンスや歌などのプレイリスト推薦世代です。加重アウコチュリーとパチェとの組み合わせを定義する。彼らの類似性に基づいて指標を計量してテキストのメタデータを、できるようには、利用者がこれらの混乱の数を調整しています。原文の存在を当てにするメタデータの恩恵を効果的に排除する純粋なコンテンツベースの類似性の指標です。

似たような手法が、パンパルク、フレクサーおよびウィドマーによって、トラックおよびアーティストの同定と、音楽ジャンル分類との間の類似性推定に適用されている[12] 。また、スペクトルの特徴抽出の設定に基づいて、増補ＭＦＣＣｓを使用しており、推定では、変動パターンは、 2番目のWindows ＭＦＣＣベクタ6オーバー。効率的な計算によって実装され分類されているかのどちらかを比較するＥＭＤガウスのディストリビューションの機能を混ぜ、同じようにアウコチュリーとパチェ[2]、およびクラスのラベルを割り当てることを最もよく近所の人たちの間に、最寄りのです。パンパルク、ポールとウィドマー[13]を示すためにこの手法を使用世代のプレイリストは、プレイリストを生成すると、否定的な見直しユーザーのスキッピング挙動からフィードバックを飛ばして。

１．２音楽記述での文脈ラベルの使用
レバレッジしばしば人間は、音楽を記述する際に文脈ラベルや文化ラベルを活用する。リファレンスの説明が含まれる可能性を、1つ1つまたは複数の音楽ジャンルやスタイルは、特定の時間の期間中は、似たような感情的なコンテンツは、アーティストや音楽、そして限定的にはほとんど1つのラベルを記述します。たとえば、ダミアンマーリーの音楽は、音楽の街として記述されてオリジナルのダンスホールレゲエと、Ｒ＆Ｂ/ヒップホップとの混成であると記述されている。これにはいくつかの種類の類似性を説明し、既存のコンテンツベースのオーディオの音楽の類似技術：方法については、これらのテクニックはありません特徴空間の概念の関連性がミュージカルコンセプト空間が必要です。

純粋にメタデータベースの方法の類似性判断が適用されたメタデータを使おうとする人間のannotators 。しかし、これらの問題を独自のラベルを紹介しています。詳細に説明される音楽annotator ?するためにはかなりの時間は、ラベルを適用することによってのみ知られる例（だから小説の音楽を分析することはできませんが完了するまで注釈付き）、およびそれを実現するのは難しいことで合意に音楽の説明でも、間リスナーの専門家です。

１．３音楽類似性推定での挑戦
我々の最初の試みは、コンテンツベースの「timbra」オーディオの音楽を見せて類似のテクニックを使用して行われ、単純な距離を計測する'生'特徴空間は、通常、優れた性能を発揮するにもかかわらず、不良を生み出すことのできる音楽の類似性判断の誤りです。このような洗練された計測十分ではない人間の認識を効果的にエミュレートする曲の間の類似性は、完全に無視して、非常に詳細には、ミュージカルの間の非線形写像の概念など、 timbres 、コンテキストやミュージカルなど、ジャンルは、我々の助けを定義する文化や身元ミュージカルです。したがって、私たちの関係を深め、音響解析機能や、文化的に複雑な定義の音楽スタイルの類似性を推定する前に実行する必要があります。このような分析を伴うかもしれないが、特定のグループのニュアンスを検出timbres 、たぶんプレースタイルやチューニングを示すことを示す特定のスタイルやジャンルの音楽です。
音楽が成功したかの分類システムでは、監督の学習アルゴリズムによって実装され、この難しさを示して学習の複雑さを克服することができます-船舶間の関係から計算するオーディオ機能や、メタデータのクラスと予測されるなど、ジャンルやアーティストにして作らその歌です。多くは、既存の文学賞では、分類モデルを用いて計算機能の有用性を評価する音楽の類似性に基づいて措置の距離の統計情報または特定のパラメータを最適化するが、使用していない問題に取り組む団体の情報や、習得されたモデルは、曲の類似性を比較するためです。本論文で、我々の音楽を紹介する2つの拡張モジュールを分類直感的なオーディオの類似モデルを推定した。これらのモデルは、訓練を分類する音楽のジャンルによると、このように我々が、最も有益であると思われるラベルの種類を建設するための「マクロ」（全般）-類似の統計情報です。他のより具体的なラベルを設定するなど、気分やアーティストは、ビルドに使用される可能性がある「マイクロ」（特定の）類似関数です。

２．オーディオ事前処理
適切な設定の機能を提供して計算しなければならないから、オーディオ信号を入力として使用されるオーディオの説明を私たちのテクニックです。本論文では、我々の封筒を使用するスペクトルの特徴を記述する、主に関連して、オーディオの音色、これを定義する「timbral」相似関数です。我々の技術を導入する可能性がある他の種類の類似機能を拡張して、リズムやメロディーなどは、これらの機能を交換するだけで、他の適切な特徴があります。オーディオ信号は、 50 ％に分かれて、シーケンスのオーバーラップ、 23msフレームは、一組の小説や機能は、総称として知られて不正メル-周波数スペクトル（ＭＦＳＩs ）は、抽出した各フレームの音色を表わすのオーディオ説明するように、ウエストとラメーレ [15]。ＭＦＳＩsの出力から計算するにはメル周波数スケールフィルターバンクとは2つのセットで構成さ係数：メル-周波数スペクトル係数（ＭＦＣＣｓ）として使用されて計算なしに、離散コサイン変換）とメル周波数不整係数（規模のスペクトルに類似してオクターブ不整江主席らの機能として記述される[7]）。メル不整係数の周波数を測定するには、どのように違うのホワイトノイズからの信号は、各バンドです。これによりフレームを区別するために正々堂々と騒々しいから、同じスペクトル信号の可能性がある、などの弦楽器や太鼓、あるいは複雑なミックスを区別するのに似てスペクトル封筒timbres 。
最初の段階では、メル周波数不整係数の計算を実行するには、離散高速フーリエ変換を適用すると、各フレームの重量は、メル-フィルタバンクの各バンドに対応する。メル-周波数スペクトルの重み付け係数は、合計で作られるため、対応する係数ＦＦＴマグニチュードバンドです。メル不整係数が計算される周波数の絶対的な見積額の大きさの違いは、ＦＦＴ重み付け係数の重み付け係数とすることがあるホワイトノイズ信号を生成、同じ周波数スペクトル係数メルバンドにしています。不整係数の高い値によりますと、エネルギーは、高度なローカライズさを示すために、より多くのバンド信号よりもノイズ信号に組んでいます。不整スペクトル計算の概要については、図1には、与えられた。
最後のステップとして、発病検出関数は、計算すると、シーケンスのセグメントを使用して記述して、 1つのフレームに対応するオーディオユニットのイベントでは、西側諸国と記載されコックス[14] 。その意味や不規則な差異は、メル周波数スペクトル係数とは、各セグメントの計算上、時間的な変化をキャプチャする機能は、出力ごとに、 1つのセグメントベクトルです。この変数は、配列の長さを意味すると差異ベクタを使用して列車の分類モデルです。

３．音楽分類.
この研究で使用される分類モデルは、ウエストとコック [14]並びにウエストとラメレ[15]によって記述されていた。大きく分類すると回帰ツリーの更新は、再帰的に分割された各ノードでデータを変換して、フィッシャーの基準をマルチクラス線形判別分析では、列挙の組み合わせによって、利用可能なすべてのクラスのデータを2つのグループ（なく繰り返し、順列または反射）とペアを訓練ガウスのディストリビューションを再現この小説のデータを分割している。クラスの組み合わせは、その最大の還元利回りは、エントロピーは、クラスのデータは、ノード（すなわち生産し、最も「純粋な」一対のリーフノード）は、最終的に選定された、ノードの分割です。
単純な数の閾値は、各ノードの例では、確立された実験は、ツリーには、使用されることを防ぐための高まりが大きすぎますから分割されたプロセスを停止して、その特定の支店/ノードを展開します。実験によると、この修正版は、カートから恩恵を受ける剪定ツリーアルゴリズムはありませんが、まだ許可を超える場合にフィットするように成長するデータが大きすぎます。アーティストフィルタリングの実験では、アーティストのどこに表示されて表示されていない訓練データセットデータセットの評価は、モデルの減額オーバフィット精度で分類との類似性の両方を推定した。すべてのフィルターの実験で最高のパフォーマンスを提供する最大の木々は、特定の特性ということを示唆していたアーティストは、訓練データオーバフィット、結果的に過度に楽観的評価点数です。このタイプのオーバフィッティングの可能性は、音楽分類と類似性評価において、パンパークによって探索されている[11] 。
特徴ベクトルのパスを通して、以下のとおりですが、ツリーのリーフノードで終了します。次にすることは、最も共通のデータをラベルに分類されるこのノードでは、集合研修としての推定からです。分類するためにはシーケンスの特徴ベクトルは、我々の支持度を推定する（確率のクラスメンバーシップ）のそれぞれのためのクラスで割った数の例については、各クラスの合計数を例にして平滑化のリーフノードとのリンドストン法[9] 。我々のオーディオ処理のために事前に私たちのフロントエンドを提供する可変長シーケンスのベクトルではなく、 1つの特徴ベクトルあたりの例では、我々の可能性を正常化するために各クラスに分類されたクラスの合計数は、ベクタのための訓練を設定して、楽観的すぎる尤度出力を避けるためには、最高のクラスで表さ高い数字のオーディオイベントです。対数尤度は、これらのすべてのベクトルを加算（図2）。これは、製品と同等の原料を服用確率は、尤度の分類は、ログを生成するプロファイルから、最終的な分類で決定される。
選ばれたラベルの出力は往々にして、最高度のラベルをサポートする（図3a ）。しかし、数多くの選択肢が利用可能なスキームは、図3に示されているようです。複数のラベルを例に応用できるようにされたしきい値を定義するために、各ラベルに示すように、図3bは、どこにその概要を説明しなければならないことを示しますしきい値を超えたためには、ラベルを適用します。最高峰の要約情報の選定は、どの程度の支援に使われる可能性がある分類の最終決定を下した。高齢化する方法の1つのレバーを計算するこの情報は、意思決定の「テンプレート」（クンチェバ[8]参照）各クラスのオーディオ（図3のCとD）、これは、平均のプロファイルを例にしてクラスです。決定には、距離を計算して作られるプロファイルを決定する例から、利用可能な「テンプレート」（図3のeとf ）を選択すると、該当最も近い。ユークリッド距離の統計情報が含まれて使用される、とコサインマハラノビス距離です。この方法でも使うことができますからの出力を組み合わせるいくつかの分類は、意思決定の「テンプレート」として、単に度延長してサポートを含んで、分類ごとにラベルからです。場合でも、 1つの分類に基づいて、パフォーマンスを向上させることを決定するテンプレートを分類して出力するシステムレベルでの支援を継続的に、共通の混乱を解決することができますどこヘルプ最高峰選択して、常に正しいことではない。たとえば、ドラムとベース常に同程度の支援を行うには、ジャングルの音楽（非常によく似ているタイプの音楽） ;しかし、ジャングルの中を確実に識別できる場合もあるポートのための国会議長度の高いレゲエミュージック、これは珍しいドラムとベースのためのプロファイルです。

４．相似関数の構築
このセクションで我々は、カートに基づく分類モデルを、音楽相似関数を構築するまで拡大する２つの方法について詳述する。
４．１尤度プロファイルの比較
実数値が出力される尤度のプロファイルに分類スキーム３項に規定することを割り当てるために使われるクラスの例を平均で、最も似てテンプレートシステムプロファイルを決定します。我々と同じと推測している2つの例の間で比較することが可能で、音楽の類似性を推定する。簡単にするために、我々のシステムを記述するに基づいて、 1つの分類;しかし、この手法を延長することが簡単に複数の分類は、複数のラベルを設定します（ジャンルは、アーティストや気分）および機能セット/外形寸法は、類似した単純連結尤度行列は、早期の統合された、または尤度（均質なラベルを設定するために）、制約付き回帰モデル結合器を使用しています。
仮に、Ｐ_x ＝｛c₁ ^x ,・・・・・,c_n ^x｝を例ｘのプロファイルとする。ここで、c₁ ^x は、例ｘがクラスiに属する分類子で繰り返される確率であり、シグマ_i=1 ^xc₁ ^x ＝1であって、これは繰り返される類似が [ 0 ： 1 ]の範囲であることを保証する。２つの例ＡとＢとの間の類似性Ｓ_A，Bは、１マイナスそれらのプロファイルＰ_AとＰ_Bとのユークリッド距離として、すなわち、コサイン距離で推定できる。我々のテストでは、コサイン距離は、ユークリッド距離より常に良い性能を発揮した。
このアプローチは、ベレンツワイヒ、エリスおよびローレンス[4]が記載する「アンカースペース」とやや似ており、「アンカースペース」では、楽曲中の各ベクトルについての尤度プロファイルの集団が、ＫＬ分散、ＥＭＤまたはセントロイド間のユークリッド距離と比較される。尤度の平滑化積は、分配の混合物のセントロイドの比較より、高性能であって、尤度プロファイルをコサイン距離またはユークリッド距離と比較することは、ＫＬ分散またはＥＭＤを計算することより複雑でない。

４．２テキストライクトランスクリプションの比較
尤度の比較は、多くの情報を要約するプロファイルの類似性を推定する際、特定のリーフノードを廃棄して生産された各フレームのため、各尤。これは、強力な代替品を決定木を表示する階層的分類としては、オーディオのセグメントは、データベースの訓練は、どこで定義され、それぞれの分類群は、明示的な暗黙の類似点と相違点をその親や兄弟（ differentialism ）。このリーフノードのラベルを使用して分類することができますフレームまたはセグメントシーケンスの入力を提供すると「テキストライク」トランスクリプション音楽です。しなければならないことを強調してこのような「テキストライク」トランスクリプションが意図したことはありませんが、転写の音楽に対応して、いかなる設立表記と同じ分類としては、やや主観によって作られることによってのみ、特定のモデルやトレーニングセットです。このプロセスの例は、図4 。この転写をインデックスに登録することができます使用され、標準の検索を使って音楽を分類して検索するテクニックです。これらトランスクリプションが与えるtimbresは、詳細ビューに表示されて歌を産生する能力があるとしなければならないとの類似機能よりも細い分解能「マクロ」相似関数のプロファイル尤度の比較で産生される。
このユーティリティを示すトランスクリプションは、我々がこれらのモデルを実装する基本的なベクトルテキスト検索では、トランスクリプションが、固定サイズのセットのターム重量に変換され、コサイン距離と比較される。各タームの重量t_iは、式（１）で与えられるシンプルなターム頻度（ＴＦ）で生成される。
式（１）
ここで、ｎiは、各タームの発生回数、すなわち、式（２）（３）で与えられるターム頻度―逆文献頻度（ＴＦ/ＩＤＦ）である。
式（２）
式（３）
ここで、|Ｄ|は、コレクション中の文献の数であり、（ｄ_i⊃t_i ）は、タームt_iを含む文献の数である（ベクトルベースのテキスト検索法になじみのない読者は、[3]を参照されたし）。私たちのシステムでは、「ターム」はリーフノード識別子であり、「文献」はデータベース内の曲である。文献ごとにウエイトベクトルが一旦抽出されると、２つの文献の類似度が、コサイン距離で推定される。

５．音楽相似関数の対比
５．１データセットと分類モデル
この論文の実験では、13のジャンルと210のアーティストと377のアルバムに体系付けられたマグネチュンコレクション[5]から4911のmp3ファイルを実行した。1379のファイルを使用していた列車のモデルに分類し、残りの3532の性能を評価するファイルが使用されています。同じモデルは、それぞれの実験で使用されています。フィッティングオーバーを避けるためには、検索結果は、アーティストが出演していないが、訓練セット、テストセットで使用されています。カートの木の最終これらの実験で使用されていた7826リーフノードです。

５．２客観的統計学
音楽の類似性を評価する対策の難しさはよく知られては、音楽情報検索コミュニティ[12] 。いくつかの統計情報に基づいて検索結果を提示作者は、多数の例と同じラベル軸受（ジャンルは、アーティストやアルバム）の間に、似たような例をそれぞれの歌のほとんどなし（近所のクラスタリング[10] ）または上の例の間の距離と同じラベル軸受は、正規化されたすべての例の間の距離（ラベルの距離[15]）。階層的に評価することも可能な比率をとって組織されたラベルの距離をジャンルのアーティストレーベルの距離：この値が小さいほど比率は、接戦のクラスタリング内のジャンルのアーティストです。最後に、その度には、総生産にも影響されるスペースハブ（トラックと類似している他の多くの曲）と孤児（トラックには、決して他のトラックと同様に） [ 11 ]を検討されています。
残念なことに、そこには相反する見解をこれらの統計情報を与えるかどうか表示の任意のレアルのパフォーマンスメトリックの類似点は、パムパーク[11]レポートにもかかわらず、この相関関係を客観的な評価と人間の主観的な評価だ。パフォーマンスを最大化するための関数の主観的な評価をしてこれらの統計は、アプリケーションなどのプレイリストを生成して、彼らのパフォーマンスが低下することによると、時々、非常に貧しい人々だ。マイレックス2006年[ 16 ]は、ホストの最初の大規模な人間の音声音楽の類似性の評価手法は、私たちに役立つかもしれないとのランキングを検索するかどうかを識別する技術に基づいてこれらの統計情報は、彼らのパフォーマンスを示す。この作品は、我々のすべての3つの報告書の結果の統計情報は、上述のように、挙動の違いを示すためのアプローチは、しかし、我々準備するかどうか判断してこれらの結果によりますと、特定の結果、他のアプローチです。これらの統計情報を過度に見積もりを避けるために、自己の検索クエリの歌は無視されます。
その結果は、表1に示すように、各クエリによりますと、近所の周りでは、転写相似スペースよりもはるかには、関連性の高い空間モデルの尤度で産生される。しかし、全体の間の距離の例では、転写ベースモデルの方がずっと大きい、たぶんされることを示して簡単に音楽コレクションを整理してlikelihoodsベースモデルです。私たちは、これらの統計情報の違いを示しても、ベースモデルを生成する転写はるかに詳しい（マイクロ相似）関数や文化全般というよりも（マクロ相似）関数によって作られるモデルの尤度、すなわち、転写システムは、似たような例としては、非常にスペクトルと同様、または計装声帯を含む同じパターンの近くです。
私たち自身の主観的な評価を与える両方のシステムに非常に高い性能を示している彼らの音楽を検索する際に適用さは、ほぼ無関係な歌を返すには決して（ 'ガチャガチャと音をたてる' ）の検索結果で上位にランクした。このプロパティの結果かもしれない、ハブと孤児の数が少ないこれらの統計情報が生成される;午前10結果は、 9.4 ％のトラックと似たような最悪の事態は決して出演して1.6 ％のハブでは、結果のリストを転写ベースのシステムは、わずかながらトラックが1.5 ％のと似たような最悪の事態は決して0.85%出演してハブには、結果のリストを尤度ベースのシステムです。これらの結果を比較してそれらの好意によって報告されたパムパーク[ 11 ]は、どこで、 10件の結果は、このシステムにより、Ｇ１が見つかりました11.6 ％のトラックに指定されるとは決して同じようなハブに出演して、最悪の10.6 ％は、結果のリストを表示し、指定して、システムが見つかりました。Ｇ１Ｃわずか7.3 ％のトラックには決して最悪のハブと同様の3.4 ％は、結果のリストに登場した。この計算上の有意な改善を表すのは、単純な距離メトリック生の特徴空間と機能を詳しく説明すると私たちは信じ間もっと多くの可能性を減らす効果や小規模なデータベースをハブ、それは彼らのようなものが届くと、大規模なテストを実行します。同様の問題が起こる可能性が粒状モデルベーススペースでは、製造のモデルの種類と設定を最適化するための重要なパラメータです。

５．３可視化
主観的に評価する際に有用な方法別のパフォーマンスの可視化を通じて音楽は、類似性の指標です。図5と図6は、類似性を示す座標空間（多次元スケーリングを使用して生成アルゴリズム[ 6 ]を低くして、宇宙プロジェクトの数寸法）で産生される尤度プロファイルを基礎とするモデルと、ＴＦを基礎とするトランスクリプションモデルでそれぞれ生成されたプロットである。
これらの座標をハイライト表示し、類似の機能の違いは我々の2つの方法で作られる。プロフィールの尤度ベースのシステムを世界的な組織を生成する非常に有用なのに対し、転写ベースのシステムをはるかに少ない有用なプロットを生成する。転写の円形の形を視覚化することによって引き起こされる可能性の類似点が多いという事実をゼロに漸近的に尤度よりもずっと早くベースモデルの類似点と、スウェーンとしてbujaと指摘して、世界的な形状の大規模なデータシートの構成によって決定されます。 dissimilarities[ 6 ] 。このデータシートではないことを示しますおそらく最も適切な技法を視覚化して音楽にする技術の類似性にスペースや地元の類似点に焦点を当ててより適切かもしれないなど、自己組織化マップ（ som ）またはデータシートの距離を実行するための最小のxの各例です。
十分に与えられた寸法は、多次元尺度法は、ほぼ同じ主成分分析（ pca ）の空間は、共分散行列に基づいて、類似点です。初期化されたデータシートは、ランダムに設定して、固定数の寸法です。その度には、類似性データシートのプロットを表していると推定される残留応力スペースは、反復使用して絞り込みを下段の投影次元空間です。プロットを強調して、もっと高いのは、その根底には減っていることを表しますdissimilarities 。表2に示している、と強調した転写座標は、こちらよりも大幅に高く設定する必要がありそうなプロットの数や大きさを正確に表して相似スペースが必要です。これは、さらなる示唆して転写ベースのより詳細な統計情報を作り出す（マイクロ）関数よりも広い相似相似関数（マクロ）で産生される尤度ベースのモデルは、これに基づいている傾向にあるグループの例と同様のスタイル` ' 、と類似して複数のジャンルの説明は、例えば、インストゥルメンタル世界では、古典の近くには、クラスタ化し、より多くの電子音楽の世界に近い部分には、電子クラスターです。

６.結論と追加研究
我々は非常に異なる2つの提示は、小説音楽相似関数アプローチを建設、これを組み込むモデルに分類される音楽の知識を習得し、非常に異なる行動を生み出す。このせいで有意差で行動して、それは非常に難しいが、これらのテクニックを推定する大規模な人間の評価を行うことなく、より良いので公演されるタイプのものとマイレックス2006 [16] 。しかし、 likelihoodsベースのモデルが明確に可視化をより簡単に適用される検索結果の中には達成される優れた転写ベースモデルです。
従来の音楽に多くの類似のテクニックを実行して、元の特徴空間内での類似の測定です。我々が予想されると思われるこのサブとして最適なアプローチがないという証拠は知覚の間の距離を音の特徴空間内で距離に対応しています。ディストリビューションの中の音やジャンルの音楽スタイルの定義とは、文化的に習得する必要はなく、したがって推定または推論に終わった。両方の技術を有効に提示する私たちの特徴空間を移動する（使用して定義して、個々の音を認識する）と知覚的に動機付けを新しい` 'スペースでの類似性は、全体の曲の間に、より良い推定できる。コンテンションしていないことは、私たちの相似timbralメトリック（マイクロ）相似関数は、ミュージカルを制作する完璧` '相似関数（マクロ）相似関数は、いくつかの重要な機能としての音楽は無視されますが、その機械学習知覚での生産が不可欠` 'やる気マイクロあたりの対策と類似してマージhaps知覚` 'やる気マクロ類似の措置です。
進行中の作業は、このような技術を探求して基線結果を比較すると、ユーティリティの組み合わせでは、これらのテクニックや平滑化で使用される用語の転写重量ベースのアプローチは、カートを使用して、ツリー構造を定義するための各ペアによるスコア近接のリーフノード/用語です。潜在的意味をインデックスに登録する、ファジーセットは、確率モデルや、検索を、 n -グラム内で使用する場合もありますトランスクリプションを向上させる方法を模索として転写システムです。他の方法でスペースを視覚的に類似性を模索しなければならないとプレイリストを生成します。自動学習機能をマージするための方策を組み合わせたマイクロ相似関数マクロされている音楽を模索し、一般的な相似見積りと利用者ごとの相似見積りの両方についての総当たりと相似見積もりです。
最後に、トランスクリプション抽出した分類の性能は、測定されているなど、分類別に分類して使用されてから、元のカートを列車の木です。私たちは、このようなシステムを有効にして使用すると、非常にコンパクトな高レベルのトランスクリプション比較的急速に列車を使用するために分類尤度ベースに導かれて、ユーザーの音楽コレクションを組織する任意団体です。

付録３
音楽類似性関数の組み立てにおけるモデルベース手法
(A MODEL-BASED APPROACH TO CONSTRUCTING MUSIC SIMILARITY FUNCTIONS)
摘要
作者はいくつかの見積もりを提示して、オーディオシステムの類似音楽を通して、 2つの距離を計算するメトリックのように、ユークリッド距離は、スペクトルの特徴から計算の間で、オーディオ、音色やピッチに関連して、信号です。これらの特徴は、他の増補して、時間やリズミカルベースの踏切ゼロ金利などの機能は、ビートヒストグラムや変動パターンを形成する豊満な音楽をより多くの類似機能です。

コンテンションを知覚することが我々の文化やラベルなど、ジャンル、スタイルや感情は、音楽、にも非常に重要な機能は、知覚の音楽です。これらのラベルのヘルプを定義する複雑な地域内で利用可能な機能の相似スペースです。我々のアプローチを実証する機械学習拠点を建設することに類似メトリックは、この文脈情報を使用してプロジェクトの中間スペースを算出する機能をどこに類似する機能を盛り込んだの音楽文化の情報をいくつかの計算かもしれない。

１．序論
デジタルメディア配信の急速な成長は、近年の需要の増加につながるためのツールや技術を管理するための巨大な音楽カタログです。このような成長が始まったとピアツーピアのファイル共有サービスは、インターネットラジオ局のように、 SHOUTcastによるネットワークでは、オンラインで音楽を購入するなどのサービスやアップルiTunesミュージックストアfs 。最近では、これらのサービスに加入してきた多くの音楽配信サービスは、無制限のアクセスを許可する非常に大規模な音楽カタログは、裏打ちされるデジタルメディア企業やレコード会社などから提供する米ヤフー社、米リアルネットワークス（ラプソディー）BTOペンワールド、AOL社は、MSN社、ナップスター社、リッスンコム社、ストリームウエイブ社およびイーミュージック社です。 2006年末までに、全世界のオンライン音楽配信は、2000000000ドル市場であると予想される
すべてのオンライン音楽配信サービスを提供し、共有して挑戦する各ユーザーにコンテンツを提供する権利です。サービスは、音楽を購入するだけの売り上げを作ることができるのであれば、常にユーザーにマッチしているコンテンツを探して、ユーザーが音楽配信サービスの会員にのみとどまるながら新しい音楽を見つけることができるようにしています。大きさのせいで、音楽カタログを使用中の場合、既存の方法の整理、閲覧やオンライン音楽コレクションを記述すると思われるため、このタスクに十分だ。インテリジェントな提案を実施するためには歌は、プレイリストの世代およびオーディオコンテンツベースの検索システムではこれらのサービスは、システムを効率的かつ正確に推定するための2つの音楽の類似性を定義する必要があります。

１．１類似性メトリクスの現今の研究
数多くの類似点を推定するための方法を提案してきた音楽とは別個の3つのカテゴリから構成される;メソッドのメタデータに基づいて、メソッドの分析に基づいて、オーディオコンテンツおよびメソッドを使用パターンの研究に基づいて、音楽に関連して例です。
ホイットマンと2つの類似性を示しローレンス[ 1 ]の統計情報は、最初のテキストに基づいて、音楽データマイニングの項目から言語を構成するために、ウェブやユーズネットで、 2番目の分析に基づいて、ユーザーの音楽コレクション共起データをオープンナップのネットワークからダウンロードする。ヒュウ、ダウニー、ウェストおよびエーマン[ 2 ]らは、実証データを分析するテキストの作成、インターネットから音楽は、音楽の形でレビューします。これらのレビューを識別するために採掘されたジャンルの音楽との格付けを予測された作品に適用さレビュアー。このシステムを容易に拡張できる2つの作品の類似性を推定して、類似のではなく、ジャンルを一切れ。
グレースノートの商用アプリケーションを使って独自のメタデータプレイリスト[ 3 ]は、 1000ドル以上開発されたインハウスエディタ、生成する音楽やプレイリストを提案しています。メタデータに基づいてシステムは、必要な場合にのみ動作の両方が存在し、正確なメタデータです。これを確保するためには、このケースには、グレースノートでは波形の指紋採取技術は、既存のメタデータを分析すると、ファイルのタグでは、グレースノートミュージックＩＤ [ 4 ]として、例を識別できるようになり、関連するメタデータを取得する彼らのデータベースからです。しかし、このアプローチは失敗時に提示されていないことが確認された音楽エディタ（ metadatabasedとしては、いかなる手法）は、指紋押捺、あるいは何らかの理由で失敗した場合に、指紋で識別される（例えばエンコードされている場合は、低いビットレートは、ミックスの一環として、あるいはチャネルから、騒々しい）。ジャーンエンターテインメント[ 5 ]にも指紋認証を提供する音楽サービスは、携帯電話のためのサンプルを提出した。ジャーンこのコンテンツベースの検索を実装したオーディオ識別工芸、生き残るためのコーデックして、携帯電話で使用される、と指紋のデータベースをマッチングしている。を追跡するためにメタデータが返されるとともに、ユーザーの購入オプションを選択します。この検索は限られて正確な記録を取得し、特定の作品と同様の被害を被ってレコーディングを識別することができない。
ローガンとサロモン[ 6 ]は、2つの音楽の「timbral」類似性を推定するオーディオコンテントベース法提供している。その方法では、各トラックの比較のための署名は、クラスタリングの形成されるメルフレクェンシー・ケプストラム係数（MFCCs ） 30ミリ秒の計算のためのフレームオーディオ信号は、Ｋ平均アルゴリズムに。 2つの作品の類似性は、うまくいっていることが推定される地球距離（EMD）の間で署名した。にもかかわらず、この方法の多くは、時間的な情報を無視し、信号は、正常に適用されてプレイリストを生成、身分証明書やアーティストの音楽ジャンル分類。
パムパーク、フレクサーおよびウィドマー[ 7 ]は、同様の手法を適用して推定線路の間の類似性は、身分証明書やアーティストの音楽ジャンル分類を提示する。増補のスペクトルの機能セットが使用されるの変動パターンを推定するMFCCベクトルです。効率的な分類が行われるアルゴリズムを使用しても、最寄りの隣人に基づいて、EMDです。パムパーク、ポールおよびウィドマー[ 10 ]は、を示すためにこの手法を使用世代のプレイリストは、プレイリストを生成すると、ユーザのスッキッピング動作から否定的なフィードバックを絞り込む。
オウコウチュラーとパシェット[ 8 ]は、類似の計算に基づいて、オーディオ信号MFCCからコンテンツベースの推定説明する方法をにもです。それぞれの歌のmfccs列車の混合物が使用されているガウスのディストリビューションに比べてサンプリングさを推定するためには2つの作品の「timbral」類似を推定した。見積書の客観的な評価はどのくらいの頻度で実行されると同じジャンルの作品からは、ほとんどの曲で、データベースに似ています。結果によると、このタスクのパフォーマンスがあまりよくなかったし、主観的な評価にもかかわらず、 2番目の見積もりによると、類似性が合理的に良好です。意外にも報告書を識別して、システム間の特定の団体からのさまざまなジャンルの音楽作品しばしば彼らは、これをアハ因子と呼んだ。これらの団体の間に混乱の原因かもしれないtimbres皮相的に似たようなタイプの1.2項に規定さは、私たちが信じて、コンテンツは、情報が不十分であるため、 timbresに接続している。オウコウチュラーとパシェットは、加重との組み合わせを定義する彼らの類似性に基づいて指標を計量してテキストのメタデータは、ユーザーを増やしたりできるように、これらの混乱の数を減少させる。残念なことに、使用するテキストのメタデータを排除するメリットの多くは、純粋にコンテンツベースの類似性の指標です。
ランゴ、バージェスとハーレイ[ 9 ]は、別の方法を推定に基づいて、発注情報を記述するには、何を専門的に彼らが作成したストリーム（簡単）で、任意の日付プレイリストの類似性を実証するかもしれない。注文したプレイリストを構築するのに使用される加重グラフは、合併している横断の類似性を見積もるためには2つのグラフで表示されています。このメソッドの類似性評価が維持され、簡単に作成したプレイリストに加えて、新しい人間は失敗しかし、そのときに提示してコンテンツをプレイリストには、まだ登場しています。

１．２相似性算定で生ずる良くある間違い
初期の実験での使用は、前述のコンテンツベースの音楽の「timbral」相似単純なテクニックを使用して見せたの間の距離計測機能セットは、クラスタの機能を提供したり、いくつかの不幸なミスを生み出すことのできる、優れた性能を発揮するにもかかわらず、通常です。エラーの間ではしばしば混乱の結果を皮相的に似たような音timbresは、人間のリスナーが非常に似ていないかもしれないとして識別します。混乱するかもしれない共通の例ではクラシック音楽のリュートの音色で、アコースティックギターには、文字列のことかもしれないが見つかりました、フォーク、ポップスやロック音楽です。これらの2つの音は比較的近づけて、ほぼすべての音響特徴空間と似たようとして識別されるかもしれないナ？ヴェリスナーが、可能性は非常に遠く離れた場所に配置された任意のリスナー西洋音楽に精通している。この混乱につながる可能性は低いとクラシック音楽のロックミュージックは、任意のプレイリストの腐敗と現れます。
それが私たちのコンテンションによりますと、このタイプのエラーが発生して正確なエミュレーションの2つの例は、類似した人間の知覚リスナーの間では、ベースの上に直接、音声コンテンツは、規模の上で計算しなければならないことは、非線型との間の距離を尊重して生ベクトルは、特徴空間です。したがって、より深い関係を分析する機能や、音響アドホックead - fの定義の音楽スタイルの類似性を推定する前に実行する必要があります。

我々は次のセクションで説明するコンテンツを使用する上で我々の景色や文化などのジャンルの音楽レーベルの説明は、我々の目標は、デザインは、既存の音楽の類似性の詳細見積もりや文化の中で仕事をするのメタデータを抽出します。最後に、我々に紹介して評価する方法を推定するコンテンツベースの「timbral」類似は、ミュージカルオーディオ、これを自動的に抽出してメタデータを活用した文化の類似性計算です。

１．３楽曲記述における文脈ラベルの人的使用
我々は人間観察して記述する際に頻繁に彼らの音楽や文化的な文脈を参照して、ラベルなどの会員期間は、ジャンルやスタイルの音楽;参考に似たようなアーティストの音楽や、感情的なコンテンツです。このようなコンテンツベースの説明を参照してしばしば2つ以上のラベルでは、多くの分野で、たとえば、音楽の街として記述されてダミアンマーリーのオリジナルミックスやダンスホールレゲエを研究する。

１．４人的注釈を使用することに伴う問題
注釈人によって適用されるメタデータラベルを使用することには、いくつかの明白な問題点がある。ラベルを適用することによってのみ知られる例では、今までの小説の音楽を分析することはできません注釈されています。ラベルには適用されないかもしれません正しい注釈人、 1つまたはポイントに対応していないかもしれませんが、エンドユーザーに表示します。中には、既存のソースのメタデータを定義しようとする傾向があるとの排他的ラベルセット（これはめったに正確）と、 1つのラベルにのみ適用して、各例では、そのための能力を失うのラベルを組み合わせることで、説明、またはを適用する1つのラベルの音楽をアルバムには、潜在的にいくつかのトラックを偽装した。最後に、支持度がないために、各ラベルは、これは不可能だとして、主観的判断を確立するためには、ラベルの組み合わせで、正確な説明が難しい。

１．５相似性推定量の目標設計
私たちの目標は、デザインの類似性は、見積もりを比較することができるシステムを構築するコンテンツに基づいて曲を使用して、機能と文化の間の関係性を学んだからの文脈情報や標識データセット（すなわち、似たような楽器音響学間のより大きい分離生産から別のコンテキストまたは文化）。効率的に実施するためには、類似検索や見積もりの推薦システムで効率的なアプリケーションをしなければならない時は、しかし、合理的なインデックスを構築する時間は許されています。
見積もりにも、類似性を開発することができる点には、独自の見解に基づいて、与えられた例とされています。たとえば、古典の授業の分離が必要と罰金（バロック、ロマンチック、ロマンチック後半は、近代的で）訓練をしなければならない、システムの各クラスの例としては、プラスの例から他のもっと遠いクラス（ロック、ポップ、ジャズなど）でのきめの細かさ。これはシステムの定義を許可するためのタスクまたはユーザーは、たとえば、ユーザーができるようにするシステムを模倣類似性判断は、使用して、自分の音楽コレクションを出発点です。たとえば、ダンスミュージックのユーザーのみに耳を傾け、彼らケアについての細かい分離またはアコースティックスタイルのリズミカルに感受性が低いとは、ニュアンスのピッチクラスは、クラシック音楽をキーまたはイントネーションで使用されています。

２音楽的関係の学習
コンテンツの自動抽出や文化的な情報についての多くのシステムでは、ジャンルやアーティストなどのメタデータを、提案してきたからミュージカルオーディオ、およびそれらのパーフォーマンスは、毎年の音楽情報検索評価交換（ＭＩＲＥＸ）の一環として推定されてきた（ダウニー、ウェスト、エーマン及びビンセント[11]参照）。すべてのコンテンツに基づいた音楽類似性のテクニックは、 1.1項に規定されたジャンル別の分類で使われているために（多くの場合、アーティストの同定とタスク）、このタスクを評価するよりもはるかに簡単に二人の間の類似点があるため、大規模な金額既に利用可能なデータの標識が、類似の音楽データをしなければならない人間の努力を惜しまないで作られるリスニングテストを実行します。調査では、完全な状態の最新鋭のこの分野では、この論文の範囲を超える。しかし、ＭＩＲＥＸ2005年のコンテストの結果[12]は、良い結果の概要とそれに対応する各システムのパフォーマンスが向上します。残念なことに、このテストを実行するには比較的少ないと認められていないかどうかを評価する我々のモデルを超える性能特性に適合する意図しない見積もり楽観的すぎる。多くは、これらのすべてのシステムの場合は延長される可能性もある感情的なコンテンツや音楽スタイルの分類;しかし、そこは、はるかに少ないために使用可能なメタデータを利用できるので、このタスクは、いくつかの結果が出版されています。
これらのシステムの各セットの記述子を抽出するオーディオコンテンツから、よく知られて模倣しようとする人間の知覚のプロセスに関与するオーディオです。これらの記述子には、何らかの形で渡された機械学習モデルを学ぶperceive または予測して、ラベルやラベルに適用される例です。出願時には、オーディオの例は、小説のモデルに渡されるパラメータとは、どの程度の支持を計算するためにしなければならないという仮説に基づいてそれぞれのラベルに適用される例です。
出力ラベルは、往々にして最高度のサポートのラベルとして選ばれる（図1）。しかし、数多くの代替として利用できるスキームは、図1に示す。複数のラベルを例に応用できるようにされたしきい値を定義するために、各ラベルに示すように、図1Bは、どこの概要を説明しなければならないことを示しますしきい値を超えたためには、ラベルを適用します。最高峰の要約情報の選定は、どの程度の支援に使われる可能性がある分類の最終決定を下した。この情報を活用する方法の1つは、決定テンプレートを計算する（クンチェバ[ 13 ]の170-175ページ参照）。各クラスのオーディオ（図1のcとd）は、通常のプロファイルを平均してクラスの例です。決定が行われる。距離を計算するためのプロファイルの例から、利用可能な決定テンプレート（図1のeとf ）を選択すると、該当最も近い。ユークリッド距離の統計情報を含めるとマハラノビス距離を使われている。この方法でも使うことができますからの出力を組み合わせるいくつかの分類は、決定テンプレートとして、延長することが非常に簡単にある程度のサポートが含まれ、ラベルごとに分類からです。場合でも、 1つの分類に基づいて決定するテンプレートのパフォーマンスを向上させることを分類して出力するシステムレベルでの支援を継続的に、共通の混乱を解決することができますどこヘルプ最高峰選択して、常に正しいことではない。たとえば、ドラムとベース常に同程度の支援を行うには、ジャングルの音楽（非常によく似ているタイプの音楽） ;しかし、ジャングルの中を確実に識別できる場合には、高度なサポートのためにもレゲエの音楽、これは珍しいことではないドラムと低音のプロフィールです。

３モデルーベースの音楽類似性
もし支持度を比較するプロファイルを割り当てるために使用できるクラスの例を平均で、最も似て決定するテンプレートシステムプロフィールでは、それは私たちのコンテンション比較して、同じ可能性がある前に2つの例の間に自分のコンテキストの間の距離を計算する（ここで知られるコンテキストについての情報が含まれてジャンル、アーティストや気分など）。簡単にするために、我々は説明するシステムに基づいて分類すると、1つの機能セット「timbral」である。しかし、この手法を延長することが簡単に複数の分類は、複数のラベルを設定します（ジャンルは、アーティストや気分）および機能セット／外形寸法に相似する。
仮に、Ｐ_x ＝｛c₁ ^x ,・・・・・,c_n ^x｝を例ｘのプロファイルとする。ここで、c₁ ^x は、例ｘがクラスiに属する分類子で繰り返される確率であり、シグマ_i=1 ^xc₁ ^x ＝1であって、これは繰り返される類似が [ 0 ： 1 ]の範囲であることを保証する。２つの例ＡとＢとの間の類似性Ｓ_A，Bは、１マイナスそれらのプロファイルＰ_AとＰ_Bとのユークリッド距離として推定できる。そして、Ｓ_A，Bは次のように規定される。
（式（１）挿入）

類似の文脈スコアのＳ_A，Bは、返される可能性の最終的な類似性の指標として使われる可能性フォームまたは団体名と組み合わせて、別の加重メトリックの音響類似性に基づいて、メタデータの機能またはテキストです。我々は、我々自身の主観的な評価の結果、このメトリックのパフォーマンスを許容して、独自の際に使用されています。

３．１ミュージカルオーディオのパラメータ化
列車のジャンルを分類するために使用され、モデルベースのモデルの類似性の統計情報は、オーディオしなければならないとのセットプリプロセス記述子を抽出します。オーディオ信号は、50 ％に分かれて、シーケンスのオーバーラップ、 23msフレームや小説の機能セットを総称として知られて不正メル-周波数スペクトル（ＭＦＳＩｓ）は、抽出した各フレームの音色を表すオーディオです。ＭＦＳＩｓの出力から計算するにはメル周波数スケールフィルターバンクとは、 2つのセットで構成さの係数は、封筒の半分のスペクトルの記述を記述すると、不整半分です。そのスペクトルの特徴は、離散コサイン変換（ＤＣＴ）なしのメル周波数ケプストラム係数（ＭＦＣＣｓ）である。
不整係数は、ジアングらが記述したようなオクターブスケールのスペクトル不規則性と類似している[17]。彼らの尺度には、どのように違うホワイトノイズ信号は、各バンドからです。これにより、我々のフレームを区別するために正々堂々と騒々しいから、同じスペクトル信号の可能性がある、などの弦楽器や太鼓。私たちの争いは、この措置は、重要な心理音響情報を提供することができます。ＭＦＣＣｓよりもより良いオーディオモデリングです。我々のテストでは、モデリングに最適なオーディオ性能を達成していたのと同じ数のバンドＭＦＣＣ不規則なコンポーネントのコンポーネントとしては、多分に適用されているため、多くの場合、複雑なミックスのスペクトtimbresがある。ＭＦＳＩ係数が計算される見積書の違いは、ホワイトノイズ信号マグニチュード係数が制作して、各バンドのスペクトルの係数は、実際の係数として作られます。高い値によりますと、これらの係数は、エネルギーの局在性が高く、したがってバンドが騒々しい音よりももっと投げています。
この機能は16フィルタで計算して、係数の全体の数を減らす。我々はより多くを経験して、フィルタを使用して、主要なコンポーネント（ＰＣＡ）および分析または各セットＤＣＴ係数は、その大きさを減らすための機能セットは、パフォーマンスが発見されると同様のフィルタを使用して少ない。このプロパティは、すべてのモデルにされないかもしれません真の両方としてＰＣＡとＤＣＴt内の騒音を減らすと共分散の両方のディメンションの間の変換機能としては、我々のモデルで使用されて（セクション3.2を参照）、この恩恵を受けるの削減または排除ＰＣＡ／ＤＣＴです。
不整スペクトル計算の概要については、図2には、与えられた。
最後のステップとして、発病検出関数は、計算すると、シーケンスのセグメントを使用して記述して、1つのフレームに対応するオーディオユニットのイベントは、ウェスト及びコックス[14]が記述している。デスクリプタの意味とは、計算上の差異は、各事業におきましては、時間的な変化をキャプチャする機能です。シーケンスの平均との差異ベクタを使用して列車の分類モデルです。
マーシャス[18]のソフトウェアパッケージは、コンピュータオーディションアプリケーションの評価と急速な展開を行なうためのフリーソフトウェアフレームワークであって、このものは、マーシャスベースモデル用のミュージックオーディオをパラメータ化するのに使用されていた。単一の30要素の概要特徴ベクトルは、それぞれの曲を聴くために集めています。この特徴ベクトルは、全体のファイルのチンブラル（timbral）テクスチャ（19寸法）、リズミカルなコンテンツ（6寸法）とピッチコンテンツ（5寸法）を表わす。チンブラルテクスチャの手段によって表されるとは、スペクトル重心分散、フラックスとゼロになる踏切は、低エネルギーのコンポーネント、および分散の最初の5つの手段とＭＦＣＣｓ（直流成分を除く）。リズミカルに代表されるコンテンツは、一組の6つの機能から派生した作品は、ビートヒストグラムです。これらの期間を含めると、2つの最大の相対振幅ヒストグラムのピークは、最大2つの峰の比率は、全体の合計は、ビートやヒストグラム（与えることを示しているのは全体のビートの強さ）。ピッチに代表されるコンテンツは、一組のピッチから派生した5つの機能のヒストグラムをおこないます。これらの最大ピーク時には、期間を伸ばしたヒストグラムでは、ピーク時の最大振幅と期間は、折り畳んだ棒グラフでは、このインターバルの間に、 2つの最大のピークは、折り畳んだ棒グラフでは、全体の信頼とピッチを測定するために検出します。ザンネタキスとクック[19]は、マーシャスパフォーマンスと導出を説明し、その特徴を詳細に設定している。

３．２候補モデル
我々はその評価は、いくつかの異なるモデルを使用し、機能訓練は、上述のように、その分類を作り出す尤度計算で使用されて私たちの類似性などの基準フィッシャー線形判別分析（ＬＤＡ）と分類および回帰ツリー（カート）提案型で、ウェストとコックス[14]は、またウェスト[15]は、これを実行するマルチクラス線形判別分析と発作のペアを分割するために1つのディストリビューションガウスの各ノードは、ツリーのカートです。この分類のパフォーマンス中には、 2005年の音楽情報検索ベンチマーキング評価取引所（ＭＩＲＥＸ）（ダウニー、ウェスト、エーマンおよびヴィンセント[11]参照）とは、詳細はダウニー[12]参照。
各分類の類似性を計算する必要が実数値を返す度各クラスのオーディオをサポートしています。この課題を提示することは、特に我々のパラメタリゼーションとしてのベクトルを返す配列の各モデルおよびいくつかの例のように、ＬＤＡ、復帰しないフォーマットや信頼性の度合いをよくサポートしています。学位を取得するのに便利ＬＤＡからの支援は、我々のフレームごとに分類すると、配列を返すの各クラスに分類されるフレーム数、フレーム数の合計で割った値です。対照的に、ベースモデルのカートには、ツリーのリーフノードを返すために、各ベクトルと、最後の支持度の割合で計算される各クラスの訓練してからベクタのノードに達したことは、正規化されたのが、ベクトルクラスの事前確率訓練は、セットです。国交正常化に必要なステップは、我々としては、可変長シーケンスを使用して、列車と仮定してモデル化したりすることはできません参照してください我々は、同じクラスまたはファイルの長さの分布を適用する際のモデルです。その確率は、平滑化法を使用してリンドソトン法[16] （スプリアスゼロを避けるために、1つの確率尤度を排除するためのすべてのクラス）は、すべての対数を取らおよび要約のベクトルから、 1つの例（掛け算の確率に相当する）。対数尤度ログには、結果の正規化をサポートするので、最終的な金額を1度です。

３．３生成された類似空間
この度のプロファイルをサポートし、各コレクションの歌で、事実上、新たな中間体の機能セットを定義しています。その中間の位置を特定する機能をそれぞれの曲に類似性が高い次元空間です。一緒にこの曲を閉じることが高次元空間には似たような（モデルの点で、これらの生成に使用される中間機能）は、遠く離れている間には、この曲は、異種空間です。その中間の機能を提供する非常にコンパクトな表現を歌に類似するスペースが必要です。ＬＤＡを見ると、ベースの機能を1つの浮動小数点演算を必要とするそれぞれの値を表す10のジャンルの尤度、合計80バイトあたりの歌を比較して好意的マーシャス機能セット（30の機能または240バイト）、またはＭＦＣＣ混合物モデル（通常は、注文が200の価値観や歌あたり1600バイト）。
この類似空間を可視化することは、音楽コレクションを探索するための便利なツールです。空間の類似性を視覚的にとらえるために、我々は、テクニックを代表して最善を試みます低次元表現のおける楽曲類似性の最良に表現するための試みである多次元尺度法（ＭＤＳ）[24]の確立に基づく実施[23]を使用した。データシートのアルゴリズム反復低次元変位ベクトルを計算するためには、それぞれの歌のコレクションの違いを最小限に抑えるため、低次元と高次元の距離です。この曲の類似性、結果の座標を表す2つまたは3つの次元空間です。座標は、図3には、各データの類似点が宇宙の歌を表します。曲には、より緊密なプロットでは、より多くのモデルよりも対応によると、似たような曲には、さらに別の陰謀だ。
各プロットは、約1000曲がテストコレクションから無作為に選ばれた。プロットを明快にするため、選択した曲のジャンルを、「ロック」、「ジャズ」、「クラシック」及び「ブルース」についてそれぞれ１つとした。ジャンルラベルには、そのジャンルから派生したmp3ファイルのID3タグとしては、音楽出版社の人によって割り当てられています。
図3Aは、マーシャス特徴空間の2次元投影を示す。プロットすることは明らかだから、マーシャスベースモデルは、クラシックとロックとの分離にやや成功している。これは非常に成功してからお互いに分離し、ジャズやブルースやロックやクラシックのジャンルからです。
図3Bは、2次元投影ＬＤＡジャンルのモデルの類似性に基づいた空間を示す。このプロット間の分離を見ることができるのは、クラシックやロック音楽よりもはるかにはっきりしてマーシャスモデルです。ジャズのクラスタリングが改善し、ロックの間の領域を中心とする古典的です。それでも、ブルース井戸から分離していない残りのジャンルです。
図3Cは、CART基準のジャンルモデルの類似空間の2次元投影を示す。ロックとクラシックやジャズとの間の分離は、非常に明確で、ブルース、ジャズでは、クラスターの形成や近隣にある別の小さいクラスタロックエリアです。図4の2つの見解を示し、この3次元投影同じスペースが必要です。この3次元表示することが簡単に参照してくださいクラスタリングとは、ジャズとブルースの分離データです。
ＣＡＲＴ基準の可視化に興味深い特徴は、空間的組織でもクラスタ内のジャンルです。例えば、訓練を受けたにもかかわらず、システムには、1つのラベルをすべてクラシック西洋の美術作品の音楽は、ジャンル別に表示されます。クラシック、サブクラシッククラスタ内の別の領域です。ハープシコードハープシコード音楽は他の音楽の近くから分離されている間合唱や弦楽四重奏曲です。イントラクラスタ団体は、このキー属性を可視化することは、音楽コレクションを探査のために使われる。

４モデルベースの音楽類似性の評価
４．１課題
音楽の類似の性能を評価したデータは、特にハードとしての我々は、主観的な知覚判断をエミュレートしようとしています。したがって、注釈装置間でコンセンサスを達成することも、また、判断を正確に定量化することも困難である。この問題の解決には、共通して使用して1つのシステムを評価したいタスクを実行するには、音楽に関連して類似性は、既に存在するために地面に真実があるメタデータ、分類などのジャンルやアーティストの音楽を同定した。注意する必要がありますが、このタイプの評価としての機能を提供してフィッティングオーバー小テストコレクション誤解を招く結果に与えることです。

４．２評価基準
４．２．１データセット
本論文で提示されたアルゴリズムは、マグネチューンコレクション[22]から得たＭＰ３ファイルを使用して評価した。このコレクションは、24のジャンルのアーティスト195の337アルバムからの曲で構成された4510トラックからなる。全体のジャンルのディストリビューションを表1に示す。
ＬＤＡとＣＡＲＴモデルは、最も頻繁に発生する10ジャンルを使用したこのデータベース中の1535例について、訓練を受けた。表2に示しますジャンルの分配は、訓練のモデルで使用されています。これらのモデルに適用された後、残りの2975曲のコレクションを生成するためには、ある程度のベクトルの各プロファイルをサポート歌です。マーシャスモデルは、2975曲それぞれについて30のマーシャス特徴を集めることで。生成される。
４．２．２距離測定統計学
我々はまず最初に記述された技術を利用するローガン[6]全体の統計情報を調べるのは、いくつかの距離を測定する。表3に示して曲間の距離の平均は、データベース全体の2975年の曲です。また、ショーの間の距離の平均は、同じジャンルの曲は、同じアーティストの曲で、アルバムと同じ曲をしています。表3参照してから我々のすべての距離を小さくして3つのモデルを正しく割り当てることは、同じジャンルの曲は、全体の平均飛距離よりも、距離を小さくしても、同じアーティストの曲を割り当てられ、同じアルバムです。 lda -トを見ると、ベースモデルを大幅に引き下げる割り当てるジャンル、アーティスト名やアルバム距離マーシャスモデルと比較して、確認して、図2の印象を与えられたとlda -カートベースモデルがより良い仕事を行うのは、クラスタリングの曲その方法に同意する可能性は、ラベルや人間の認識だ。
４．２．３客観的関連性
我々は、ローガン[6]が記述する技術を使って、質問された歌に対応して各モデルによって繰り返されたトップN曲の関連性を調べた。我々の目的を定義した3つの関連性を調べる：同じジャンルの曲で、同じ曲で、同じ曲をアーティスト名やアルバムです。それぞれの曲を聴くために我々は我々のデータベースを分析するトップ5は、10と20の各モデルによると、ほとんどの曲に似ています。
表4、5、6は、曲の平均数を示す各モデルに返されることが、同じジャンル、アーティスト名やアルバムとしてのラベルには、クエリの歌です。このジャンルで歌を歌うためには決定されるため、ＭＰ３ファイルのＩＤ３タグとは、音楽出版社の人によって割り当てられています。
４．２．４実行バーフォーマンス
音楽の重要な側面を推薦して大規模なシステムは、実行時のパフォーマンスの音楽コレクションです。典型的な数百万曲のオンライン音楽ストアが含まれています。類似メトリック、生きた歌に処理できるようにしなければならないようなコレクションには、合理的な量の時間です。モダンで、高性能なテキストをGoogleなどの検索エンジンにクエリを期待するユーザーの条件の下で2番目の応答時間は、あらゆる種類のクエリです。音楽を推薦するシステムを使用して、類似性の指標が必要との距離を計算してできるようにするための距離を毎秒2000000の歌を満たすためにはユーザーの期待fs速度です。表7に示す量の2000000の距離を計算するのに必要な時間です。パフォーマンスデータが収集されたシステムでは2徒長枝64 GHzのAMD社のCPUを実行して、ホットスポットのJava （ TM ）の64ビットサーバVM （バージョン1.5 ）。
確率的に好意的にこれらの倍の距離を比較するなどの統計情報をサンプリングモンテカルロ近似する。 pampalkら。 [ 7 ]説明するCPUの性能に最適化さモンテカルロ15554距離を計算するシステムのことで20.98秒です。外挿2000000の距離を計算するランタイムの利回り2697.61秒または6580回のカートベースのモデルよりも遅い。
別の曲を使用するためのプレイリストを作成して類似性の指標は手のiPodなどの音楽プレーヤーで開かれた。通常、これらのデバイスのCPUが遅い（時と比較してデスクトップまたはサーバシステム）、および限られたメモリです。音楽プレーヤーは、典型的な手で行われたことがあるのCPUで実行する第百デスクトップシステムの速度です。しかし、曲数は、通常の手によって管理されて行われた選手も大幅に減額される。現在の技術では、プレーヤーは、大容量20000曲を管理します。したがって、にもかかわらず、 CPUのパワーが少ない100倍、 100倍の検索のスペースが少なくなってしまいます。システムで実行しているデータベースのインデックスを作成する宋2000000ハイエンドCPUの実行はかなり遅くなる手も同様にして、それに対応して開かれたデバイスの小型音楽コレクションです。

５結論
我々は改善を提示するコンテンツベースのは、類似機能が表示されたら「timbral」音楽を作るよりもずっとよい推計は、既存の類似技術です。我々の評価を示しているジャンル分類モデルを使用すると、類似の計算の一環として、より高い利回りだけでなく、同じジャンルから数曲の歌としては、クエリは、上位の数だけでなく、同じアーティスト名やアルバムからの曲です。これらの損益は、重要な訓練を受けたとして、このメタデータモデルではないが、それでも、これらのタスクのために役立つ情報を提供しています。
にもかかわらず、この評価には完璧ではありませんがあることを示すには、本物の前に精度の上昇で、この技術を使用して、ランタイムの大幅な減少に結合している。理想的な評価を巻き込む大規模なリスニングテストを実行します。しかし、このランキングでは、大規模な音楽コレクションのは難しいとされて大規模な潜在力があることを示すために着付けをやり直す小テストコレクション[7] 。現時点で、もっとも共通な形式の音楽の類似性評価手法は、オーディオ性能をジャンル分類しています。これらの実験ではしばしば、限られた範囲のため、希少性の注釈付きのデータを自由に利用できるものではありませんが、システムのパフォーマンスに直接評価して意図したタスク（ジャンル別に分類するファセットのみのオーディオ相似）。将来の仕事をしなければならないための代案を模索しています。
さらに、この仕事を評価する手法は、検索システムの拡張子の尤度から複数のモデルや機能を設定するなど、リズミカルな分類モデルは、こちらを形成する豊満な音楽の類似機能です。これらは、どちらかに統合された尤度単純連結（終盤の統合）や制限付き回帰を介してデータをセットして、独立（早期統合）[13]。

６謝辞
この実験では、この文書に記載されたＭ２Ｋフレームワークの実装[20]（開発したのは、イリノイ大学、イーストアングリア大学の研究所と米サンマイクロシステムズ社）、Ｄ２Ｋのためのツールキット[21]（グループで開発したのは、自動学習では、）と評価していたから音楽をマグネチューンラベル[22]は、クリエイティブコモンズライセンスの上で利用可能な学術使用することを可能にします。

トランスクリプションシステムの概略を図示。ハイレベルにおいて、（i）分類ツリーに基づくモデルの作成、（ii）楽曲のトランスクリプションに使用するモデル、（iii）元の音楽を再生するのに使う楽曲のトランスクリプション。楽曲の一部の時間と波形を図示。波形のサウンドイベントへの区分を示す。スペクトル特性の対比評価プロセスを図示。楽曲をサウンドイベント・シーケンスに分割するのに使用される多様なプロセス行動を表示。サウンドイベントと適当なトランスクリプションシンボルとの関連付けによって、図２の波形のサウンドイベントをトランスクライブに用いる分類ツリーを示す。図５の分類ツリーの訓練プロセスの反復を示す。決定パラメータを使ってどうのようにサウンドイベントを分類ツリーの最適なサブノードと関連付けるかを示す。楽曲のジャンルを分類するのに使用する図５の分類ツリーを示す。楽曲の分析に、図５の分類ツリーの代わりに使用できる神経回路網を示す。図１の実施態様と共通の特性をいくつか備えるトランスクリプションシステムの変更例。メル周波数スペクトル不規則度係数の評価プロセスを示す。実施態様によっては、図３のプロセスの代わりに、図１１のプロセスを使用。リズム−ケプストラム係数の評価プロセスを示す。実施態様によっては、図３のプロセスの代わりに、図１２のプロセスを使用。

Claims

楽曲を表示する信号で例示される信号をトランスクライブための装置であって、
サウンドイベントを表示するデータを受け取る手段と；
モデルにアクセスするための手段であって、該モデルは、トランスクリプションシンボルと、サウンドイベントをトランスクリプションシンボルに関連付けるための決定基準とを備えるアクセス手段と；
サウンドイベントを適切なトランスクリプションシンボルに関連付けるための決定基準を使用するための手段と；
トランスクリプションシンボルのリストからなるトランスクリプションであって、サウンドイベントのトランスクリプションを出力するための手段
を備えた前記の信号書き換え用装置。
前記モデルが分類ツリーにアクセス可能で、決定基準の使用手段がサウンドイベントを分類ツリーの葉節に関連付けできる請求項１に記載の装置。
前記モデルアクセス手段が神経回路網にアクセス可能で、決定基準の使用手段がサウンドイベントを起動したノードパターンに関連付けできる請求項１に記載の装置。
前記モデルアクセス手段がクラスタモデルにアクセス可能で、決定基準の使用手段がサウンドイベントをクラスタ・センタに関連付けできる請求項１に記載の装置。
前記トランスクリプション出力手段がサウンドイベントのシーケンスに対応するトランスクリプションシンボルのシーケンスを提供できる前記請求項の何れか１つに記載の装置。
前記モデルを備える前記請求項の何れか１つに記載の装置。
楽曲をサウンドイベントに分析する手段を備える前記請求項の何れか１つに記載の装置。
楽曲をフレームに分割する手段と、該フレームからサウンドイベントを決定するための開始検出手段とを備える請求項７に記載の装置。
モデル作成するためのアナライザであって、
サウンドイベントを表示する情報の受取り手段と；
トランスクリプションシンボルと、サウンドイベントを該トランスクリプションシンボルに関連付けるための決定基準とを決定するためにサウンドイベントを処理する手段と；
モデルの出力手段、
を備える前記のアナライザ。
前記サウンドイベント受取り手段がラベル付けされた情報を受取り、サウンドイベント処理手段が該ラベル付け情報を使ってトランスクリプションシンボルと決定基準を決定できる請求項９に記載のアナライザ。
トランスクリプションシンボルのシーケンス受取り手段と；
トランスクリプションシンボルのサウンドを表示する情報の受け取り手段と；
トランスクリプションシンボルのシーケンスのサウンドを表示する情報の出力手段とを備えるプレーヤ。
トランスクリプションシンボルが表示するサウンドの検索手段を備える請求項１１に記載のプレーヤ。
請求項１〜８の何れか１つに記載の装置と；
請求項９又は１０に記載のアナライザと；
請求項１１又は１２に記載のプレーヤと、のうち、少なくとも何れか１つを備えるミュージックプレーヤ。
前記ミュージックプレーヤが携帯可能な請求項１３に記載のミュージックプレーヤ。
請求項１〜８の何れか１つに記載の装置と；
請求項９又は１０に記載のアナライザと、のうち、少なくとも何れか１つを備えるオンライン音楽配信システム。
サウンドイベントの表示データを受取るステップと；
モデルにアクセスするステップであって、該モデルがトランスクリプションシンボルと、サウンドイベントをトランスクリプションシンボルに関連付けるための決定基準と、を備えるアクセスステップと；
サウンドイベントを適切なトランスクリプションシンボルに関連付けるために前記決定基準を使用するステップと；
サウンドイベントのトランスクリプションを出力するステップであって、該トランスクリプションがトランスクリプションシンボルのリストとから成る出力ステップと、を含んで成る楽曲のトランスクリプション方法。
楽曲をトランスクライブためのモデルを作成する方法であって、
サウンドイベントの表示情報を受取るステップと；
トランスクリプションシンボルと、サウンドイベントをトランスクリプションシンボルに関連付けるための決定基準とを決定するためにサウンドイベントを処理するステップと；
モデルを出力するステップと、から成る方法。
請求項１６または１７に記載の方法を実行するプロセッサに指示するために、プロセッサ翻訳可能指示を定義するコンピュータプログラムプロダクト。
第１オーディオ信号を第２オーディオ信号と比較する方法であって、
第１オーディオ信号を表示する第１情報であって、第１オーディオ信号のサウンドイベントのトランスクリプションを備える該第１情報を受取るステップと；
第２オーディオ信号を表示する第２情報であって、第２オーディオ信号のサウンドイベントのトランスクリプションを備える該第２情報を受取るステップと；
第１オーディオ信号と第２オーディオ信号の類似度を決定するために、第１情報と第２情報とを比較するのにテキスト検索技術を使用するステップと、から成る方法。
テキスト検索技術を使用するステップがベクトルモデルテキスト検索技術の使用を含む請求項１９に記載の方法。
テキスト検索技術を使用するステップがＴＦ重量の使用を含む請求項１９または２０に記載の方法。
テキスト検索技術を使用するステップがＴＦ／ＩＤＦ重量の使用を含む請求項１９または２０に記載の方法。
テキスト検索技術を使用するステップがｎグラムの使用を含む請求項１９〜２２の何れか１つに記載の方法。
ｎグラムを使用するステップがバイ・グラムの使用を含む請求項２３に記載の方法。
第１情報を受取るステップが、
第１オーディオ信号を受取るステップと；
第１オーディオ信号から第１情報を作成するのに請求項１６の方法を使用するステップとから成る請求項１９〜２４の何れか１つに記載の方法。
第２情報を受取るステップが、
第２オーディオ信号を受取るステップと；
第２オーディオ信号から第２情報を作成するのに請求項１６の方法を使用するステップと、から成る請求項１９〜２５の何れか１つに記載の方法。
第１オーディオ信号を第２オーディオ信号と比較する装置であって、
第１オーディオ信号を表示する第１情報であって、第１オーディオ信号のサウンドイベントのトランスクリプションを備える該第１情報を受取る手段と；
第２オーディオ信号を表示する第２情報であって、第２オーディオ信号のサウンドイベントのトランスクリプションを備える該第２情報を受取る手段と；
第１オーディオ信号と第２オーディオ信号の類似度を決定するために、第１情報と第２情報とを比較するのにテキスト検索技術を使用する手段と、から成る装置。