JP4581335B2 - 少なくとも2つのオーディオ・ワークの比較方法、少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム、オーディオ・ワークのビートスペクトルの決定方法、及びオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラム - Google Patents

少なくとも2つのオーディオ・ワークの比較方法、少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム、オーディオ・ワークのビートスペクトルの決定方法、及びオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラム Download PDF

Info

Publication number
JP4581335B2
JP4581335B2 JP2003125157A JP2003125157A JP4581335B2 JP 4581335 B2 JP4581335 B2 JP 4581335B2 JP 2003125157 A JP2003125157 A JP 2003125157A JP 2003125157 A JP2003125157 A JP 2003125157A JP 4581335 B2 JP4581335 B2 JP 4581335B2
Authority
JP
Japan
Prior art keywords
beat spectrum
audio
similarity
beat
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003125157A
Other languages
English (en)
Other versions
JP2003330460A (ja
Inventor
ティー.フート ジョナサン
エル.クーパー マシュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2003330460A publication Critical patent/JP2003330460A/ja
Application granted granted Critical
Publication of JP4581335B2 publication Critical patent/JP4581335B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/071Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/056MIDI or other note-oriented file format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/061MP3, i.e. MPEG-1 or MPEG-2 Audio Layer III, lossy audio compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/261Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued
    • G10H2250/281Hamming window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、リズムの相似性によって音楽の表現を比較する方法に関し、より詳細には、種々の方法を用いてオーディオ・ワーク(auditory works)間のリズム及びテンポの相似性を測定することに関する。即ち、少なくとも2つのオーディオ・ワークの比較方法、該少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム、オーディオ・ワークのビートスペクトルの決定方法、及びオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラムに関する。
【0002】
【従来の技術及び発明が解決しようとする課題】
オーディオのリズム分析を行うためのアプローチがいくつか存在する。1つのアプローチは、どのように副周波数帯のエネルギーのピークを検出し、相関させ得るかを詳しく述べている。入ってくる波形は周波数帯に分解され、各帯の振幅包絡線が抽出される。振幅包絡線は、サウンド・ファイルの特定のポイントにおけるサンプルの振幅の時変表現、又は、サウンド・ファイルの特定のポイントにおけるサンプルの音量である。複数の振幅包絡線が微分され、半波整流される。このアプローチは、人間によるビート(拍子)の認識に合わせようとして、全ての周波数帯からの相関ピークを選択し、次に位相を推定する。しかし、通常このアプローチは、ドラムのような強い打楽器要素又は短期間の周期的な広帯域源を有する音楽においてのみ理想的に機能する。
【0003】
オーディオの相似性分析を行うための他のアプローチは、音楽が4/4拍子であり、ダウンビート(強拍)としてベースやドラムのビートがなければならないなどの制限的な仮定に依存したものである。このようなアプローチは、多くのビートにわたるビートスペクトルのピークの振幅の平均化、帯域外の結果の除去、又はカルマンフィルタリングを含む種々の公知の方法によって1つの主要なテンポを測定する。このようなアプローチは更にテンポ分析に限定されており、リズムの相似性を測定するものではない。
【0004】
相似性分析を行うための他のアプローチは、リズムループのライブラリを探索するシステムのためにリズムの相似性を計算するものである。このアプローチでは、オーディオの波形の短時間フーリエ変換(STFT)を重み付けすることによって「低音の音量時系列」が生成される。この時系列のパワースペクトルのピークが基本周期として選択される。二連音符及び三連音符の細区分を表すことができるように、フーリエ変換の結果が正規化され、1ビートの1/6の持続時間に量子化される。これは、テンポが変わらない場合のリズム相似性の比較のための特徴ベクトルとして機能する。このアプローチはドラムのみの曲には作用するが、周波数エネルギーが大幅に低い音楽に対しては一般にあまりロバスト(頑強)ではない。
【0005】
オーディオの相似性分析を行うための他のアプローチは、「ビートヒストグラム」として示されるリズムの自己相似性の測度を計算するものである。このアプローチでは、多くの結果が利用できるように、複数のウィンドウにわたるウェーブレット状特徴の振幅に対して自動相関が行われる。各自動相関における主要なピークが検出され、ヒストグラムに累積される。ビート/分単位で測定されるヒストグラムのテンポ軸を得るために、各ピークの遅延時間が逆数にされる。得られたビートヒストグラムは、周期性対テンポの測度である。
【0006】
前述の設計の限界及び欠点は、リズムの自己相似性の測定値を決定するために多数の自動相関におけるピークの選択に大きく依存していることにある。ジャンルの分類では、主要ピークのテンポと、主要ピーク間の振幅量と、を含むビートヒストグラムから特徴が得られる。ビートヒストグラムを生成するためにピークの選択に依存することにより、これらの方法は1つの連続した表現ではなく自己相似性の不連続な測定値のカウントに帰着する。よって、ビートヒストグラムはオーディオの自己相似性の測度としてはあまり正確ではない。
【0007】
研究者は、簡潔なテンポ分析を行うアプリケーションも開発している。提案されるアプリケーションは「オートマチックDJ」として提供され、リズムの相似性による曲の選択及びクロスフェードの双方を行うことができる。首尾のよいクロスフェードは、1つの音楽作品から次の音楽作品への移行がほぼ継目のない場合に生じる。次に続く音楽作品のテンポ及びリズムが現行の音楽作品のテンポ及びリズムと綿密に類似している場合、ほぼ継目のない移行を達成することができる。曲選択のシステムは、テンポの「軌跡」、即ちテンポ対時間の関数に基づいている。テンポの軌跡は、利用可能なワークの数に基づいたタイム・「スロット」に量子化される。スロット及びワークは共にテンポによってランク付けされており、ワークはランキングに応じたスロットに割り当てられる。例えば、ランクの高さが2番目のスロットは2番目に速いテンポの曲を得る。しかしながら、このシステムは、音楽作品のテンポの検出が比較的簡潔であるダンスミュージックのような狭いジャンルの楽曲用に設計されている。このような楽曲の反復的及び打奏的な性質のため、テンポの検出は簡潔になりうる。更に、このタイプの音楽は一般に1つのワーク全体にわたって一定のテンポを含んでおり、このことによってテンポの検出プロセスはより簡潔になる。よって、このシステムは多くのタイプの音楽にわたりロバストではない。
【0008】
従って、あらゆるジャンルにおけるあらゆるタイプの音楽作品即ちオーディオ・ワークに対して機能し、特定の属性に依存しない、オーディオの相似性分析を行うためのロバストな方法が必要である。このロバストな相似性方法は、全体的なビートスペクトル、又は音響上の自己相似性の他の測定値を音楽作品間で比較するべきである。この方法は、テンポ、音楽作品におけるビートの周波数、リズム、1つの音符と次の音符との関係、及び全ての音符とビートとの関係によって相似性を測定すべきである。更に、ロバストな方法は、テンポが2倍であると誤って判断される「ビートダブリング」の影響や、テンポにおいて生じないエネルギーピーク又は不適当に強いエネルギーピークによる混乱に耐えるべきである。
【0009】
本願に関連する関連技術としては、米国仮出願第60/376,766号(「リズムの相似性による楽曲のリトリーブ及び順序付け方法(Method For Retrieving And Sequencing Music by Rhythmic Similarity)」、2002年5月1日出願)及び米国特許出願第09/569,230号(「音楽及び音声を含むオーディオの自動分析方法(A Method for Automatic Analysis of Audio Including Music and Speech)」、2000年5月11日出願)がある。また、他の先行技術文献中に記載の発明においても上述の問題点は解決されていない(例えば、非特許文献1、2参照)。
【0010】
【非特許文献1】
ジョナサン ティー.フートら(Jonathan T. Foote, et al.)著、「自己相似性を用いた楽曲及びオーディオの可視化(Visualizing Music and Audio Using Self-Similarity)」、エイシーエムマルチメディア99(Proc. ACM Multimedia 99) 、(米国)
【非特許文献2】
スレイニー(Slaney)著、「オーディオ・ツールボックス(Auditory Toolbox)」、テクニカルリポート(Technical Report)#1998−010、インターナルリサーチコーポレーション(Internal Research Corporation)、1998年、(米国)
【0011】
【課題を解決するための手段】
本発明の実施の形態は、オーディオ・ワーク間の相似性の測度を決定するためのロバストな方法及びシステムを提供する。本発明の1つの実施の形態において、2つ以上のオーディオ・ワーク間のリズムの相似性又は相違度を定量的に測定するための方法が提供される。この方法は、距離の尺度を用いることによって複数のオーディオ・ワーク間でリズムの自己相似性の測度を比較する。リズムの相似性は、時間に対する平均自己相似性の測度を用いて計算することができる。
【0012】
本発明の1つの実施の形態において、距離の尺度に基づいて比較することのできるビートスペクトルがオーディオ・ワーク毎に計算される。距離の尺度は、オーディオ・ワークの入力セットにおける1つのオーディオ・ワークのビートスペクトルと他のオーディオ・ワークのビートスペクトルとの間の距離を計算する。例えば、2つ以上のビートスペクトル間のユークリッド距離を計算することにより、音楽作品即ちオーディオ・ワーク間の相似性の適切な測度が生じる。リズムの相似性に相関した距離測定値を生じる多くの可能な距離関数を使用することができる。その結果、種々のオーディオ・ワーク間のリズム及びテンポによる相似性の測定値が得られる。
【0013】
この方法は、エネルギーやピッチ(音の高低)のような、オーディオ・ワークの絶対的な音響特性に依存しない。特に、異なる楽器によって演奏される同一のリズムは同一のビートスペクトル及び相似性測度を生じる。例えば、ハープシコードで演奏される簡単な曲は、ピアノ、バイオリン、又はエレクトリックギターで演奏された場合でもほぼ同一の相似性測度を生じる。
【0014】
ワークのコレクションからの類似したワークのリトリーブ、リズム及びテンポの相似性によるワークのランク付け、並びに相似性による音楽作品の順序付けを含む広範囲のアプリケーションにおいて、本発明の実施の形態の方法を使用することができる。このような方法は、広範囲の音源において使用可能である。
【0015】
本発明の具体的な態様を以下に述べる。本発明の第1の態様は、オーディオ・ワークを受信するステップと、前記オーディオ・ワークに複数のウィンドウを設定するステップと、設定された前記ウィンドウ毎に、前記オーディオ・ワークの特徴ベクトルを求めるステップと、前記各特徴ベクトルの組み合わせ毎の相似性を示す相似性行列を計算するステップと、前記相似性行列に基づいて、ラグの関数としての自己相似性の測定値をビートスペクトルとして決定するステップと、を含む、オーディオ・ワークのビートスペクトルの決定方法である。
【0016】
第2の態様は、第1の態様において、前記相似性行列を計算するステップが、前記特徴ベクトルの組み合わせ間のユークリッド距離、前記特徴ベクトルの組み合わせの内積、または前記特徴ベクトルの組み合わせの正規化内積の計算を含む。
【0017】
第3の態様は、第1または第2の態様において、前記ビートスペクトルが、前記オーディオ・ワークのリズムの経時変化の決定に使用される
【0018】
第4の態様は、第1〜第3のいずれかの態様において、前記ビートスペクトルが、前記オーディオ・ワークのテンポの経時変化の態様を示す
【0019】
第5の態様は、第1〜第4のいずれかのオーディオ・ワークのビートスペクトルの決定方法により決定された第1のオーディオ・ワークに対応する第1のビートスペクトル、及び第2のオーディオ・ワークに対応する第2のビートスペクトルの相似性の値を測定するステップを含む、少なくとも2つのオーディオ・ワークの比較方法である
【0020】
第6の態様は、第5の態様において、前記測定するステップが、前記第1のビートスペクトル及び前記第2のビートスペクトルの各々の所定の短遅延時間部分及び所定の長遅延時間部分を切り捨てて、前記相似性の値を測定する
【0021】
第7の態様は、第5または第6の態様において、前記測定するステップが、前記第1のビートスペクトルと前記第2のビートスペクトルとの間のユークリッド距離、内積、または正規化内積の測定を含む。
【0022】
第8の態様は、第5または第6の態様において、前記測定するステップが、前記第1のビートスペクトル及び前記第2のビートスペクトルのフーリエ変換を計算するサブステップと、前記第1のビートスペクトル及び前記第2のビートスペクトルの前記フーリエ変換間のユークリッド距離、内積、または正規化内積を測定するサブステップと、を含む。
【0023】
第9の態様は、第5〜第8のいずれかの態様において、前記測定するステップが、リズム、テンポ、またはリズム及びテンポによる相似性の測定を含む。
【0024】
第10の態様は、第1〜第4のいずれかの態様のオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラムである
【0025】
第11の態様は、第5〜第9のいずれかの態様の少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラムである
【0037】
本発明の実施の形態のアプリケーションは以下を含む。
1.音楽の自動順序付け
2.類似したテンポで音楽を連結するオートマチック「DJ」
3.音楽のジャンル分類
4.リズム構造は類似しているがテンポの異なる音楽のサーチ
5.相似性の測定尺度に従った音楽のランク付け
6.「これに似た音楽を探索」機能
7.音楽作品の比較律動性の測定
【0038】
本発明のこれらの機能及び利点並びに他の機能及び利点は、以下の詳細な説明及び関連図面を考慮することによって更に良く理解されるであろう。
【0039】
本発明の実施の形態の更なる詳細は、添付の図面を用いて説明される。
【0040】
【発明の実施の形態】
図1は、本発明の実施の形態におけるオーディオ・ワークの分析方法のステップを示すフローチャートである。
【0041】
I.オーディオ・ワークの受信
ステップ100では、比較されるオーディオ・ワークのグループから1つのオーディオ・ワークがシステムによって受信される。音源としては、例えば.wavファイルなどのアナログ信号、並びにMIDI(Musical Instrument Digital Interface)ファイル及びMPEG3(MP3)ファイルなどのデジタル信号が挙げられるが、これらに限定されない。更に、コンパクトディスク、オーディオテープ、マイクロホン、電話、シンセサイザー、又は音声信号を送信するあらゆる他の媒体からの入力として音声信号を受信することができる。しかしながら、本発明の実施の形態をあらゆるタイプのオーディオ・ワークと共に使用できることが理解される。
【0042】
II.オーディオ・ワークのウィンドウ設定(windowing)
ステップ102では、受信したオーディオ・ワークにウィンドウ設定を行う。このようなウィンドウ設定は、音の波形の一部分にウィンドウを設定することにより実施可能である。(即ち、音の波形の一部分を複数の小領域(ウィンドウ化された部分)に分割することによりオーディオのサンプリングを行うことができる。)ウィンドウの幅及びオーバーラップは可変であってよい。例えば、ウィンドウの幅を256サンプルとし、128ポイントオーバーラップさせることができる。16kHzでサンプリングされたオーディオの場合、16mSのウィンドウ幅及び125/秒のウィンドウ速度が生じる。しかしながら、他の実施の形態では、当該技術分野において公知である種々の他のウィンドウ設定方法を使用することができる。
【0043】
III.パラメータ化
ステップ104では、ウィンドウ設定を行ったオーディオ・ワークをパラメータ化する。フーリエ変換のような音声信号部分のベクトル表現を提供する分析関数、もしくはメル周波数ケプストラム係数(MFCC)分析を用いて各ウィンドウをパラメータ化する。使用することのできる他のパラメータ化方法は、線形予測、心理音響的考察、又は場合によっては永久線形予測のようないくつかの技術の組み合わせに基づいたものを含む。
【0044】
本明細書において後に示される例の場合、256ポイントのハミングウィンドウを用いて各ウィンドウを拡大させ、高速フーリエ変換(FFT)をパラメータ化のために用いてウィンドウ内のスペクトル成分を推定する。しかしながら、これはほんの一例である。他の実施の形態では、当該技術分野において公知である種々の他のウィンドウ設定技術及びパラメータ化技術を使用することができる。FFTの結果の大きさの対数が、ウィンドウ内の信号のパワースペクトルの推定値として使用される。高周波数成分は、低周波数成分ほどオーディオ・ワークの相似性の計算に有用ではないため、一般にサンプリング周波数の1/4(Fs/4)を上回る高周波数成分は除去される。得られた特徴ベクトルは、ウィンドウのスペクトル内容を特徴付けている。
【0045】
他の実施の形態では、MPEG(Moving Picture Experts Group)Layer3オーディオ規格のような他の圧縮技術をパラメータ化に用いることができる。MPEGはオーディオビジュアル情報をデジタル圧縮フォーマットに符号化するために用いられる規格のファミリーである。MPEG Layer3はFFTに類似したスペクトル表現を用いており、オーディオを復号する必要性を回避する距離の測定値として使用することができる。選択されるパラメータ化にかかわらず、得られる所望の結果は各ウィンドウのパラメータのコンパクトな特徴ベクトルである。
【0046】
選択されるパラメータ化のタイプは、「類似した」ソースが類似したパラメータを生じる限りは重大なことではない。しかしながら、異なるパラメータ化が、異なる用途において多少有用であることがわかる場合がある。例えば、粗いスペクトル形状を保つ一方でピッチのために細かな調波構造を除去するMFCC表現は一定の用途に適切であり得ることが、実験によってわかっている。MFCCドメインにおける単一のピッチは、調波そのものではなく調波の包絡線によって大まかに表されている。従って、MFCCは、単一ピッチの音が存在する場合は単一ピッチの音に適合するが、正確なピッチではなく類似した音色に適合する傾向にある。
【0047】
スレイニー(Slaney)によって「オーディオ・ツールボックス(Auditory Toolbox)」(Technical Report #1998-010、Internal Research Corporation、カリフォルニア州パロアルト、1998年)、(非特許文献2)に記載されているもののような、心理音響的動機に基づいたパラメータ化は、聞き手による相似性の判断を更に良く再現する場合は特に好適になりうる。
【0049】
IV.パラメータの行列への埋め込み
オーディオ・ワークをパラメータ化した後、ステップ106においてパラメータを2次元の表現に埋め込む。オーディオを埋め込む1つの方法は、その内容が全て本明細書中に援用されている、本発明の発明者であるフート著の「自己相似性を用いた楽曲及びオーディオの可視化(Visualizing Music and Audio Using Self-Similarity)」(Proc. ACM Multimedia 99、フロリダ州オーランド)、(非特許文献1)に記載されている。しかしながら、他の実施の形態では、当該技術分野において公知である種々の他のオーディオ埋め込み方法を使用することができる。
【0050】
埋め込みステップにおいて重要なものは相似性の測度、即ち2つの特徴ベクトルvi及びvj間の相違度(D)である。前述のように、特徴ベクトルvi及びvjはそれぞれ、パラメータ化ステップでオーディオ・ウィンドウi及びjに対して決定される。
【0051】
A.ユークリッド距離
特徴ベクトル間の相似性の1つの測度は、パラメータ空間におけるユークリッド距離、即ち特徴ベクトルパラメータ間の差異の二乗の合計の平方根である。これは下記のように表される。
E(i,j)≡‖vi−vj
【0052】
B.内積
特徴ベクトルの相似性の他の測定法は、特徴ベクトルのスカラー内積である。ユークリッド距離とは対照的で、特徴ベクトルが共に大きく、類似した方向にある場合に特徴ベクトルの内積が大きくなる。内積を下記のように表すことができる。
d(i,j)≡vi・vj
【0053】
C.正規化内積
大きさ、即ちエネルギーに対する依存を取り除くため、他の相似性測定法では、内積を正規化して、特徴ベクトルパラメータ間の角度のコサインを生じることができる。特徴ベクトル間の角度のコサインは、たとえ特徴ベクトルの大きさが小さくても大きな相似性の評点を生じる、といった性質をもつ。パーセバルの関係のため、各特徴ベクトルのノルムは、特徴ベクトルが割り当てられているウィンドウ内の平均信号エネルギーに比例する。用いられる特徴ベクトル間の角度のコサインを生じる正規化内積を下記のように表すことができる。
C(i,j)≡(vi・vj)/‖vi‖‖vj
【0054】
D.スタッキングを用いた正規化内積
コサインの測定を用いることは、類似した方向にある低エネルギーの特徴ベクトル(例えば無音を含むもの)のスペクトルが類似するであろうことを意味し、これは一般に望ましいことである。特徴ベクトルは、譜面上の一般的な音楽事象よりもはるかに速い速度で生じるため、更に大きなウィンドウの範囲「s」(本明細書ではウィンドウの範囲を「スタック」と呼ぶ)にわたって特徴ベクトルの相関を計算することにより、更に望ましい相似性の測度を得ることができる。また、この更に大きな範囲は、特徴ベクトルの時間依存の徴候を得る。ウィンドウが相似性で高い評点を得るには、スタックの特徴ベクトルが類似しているだけでなく、その数列も類似していなければならない。スタックsにわたる特徴ベクトルvi及びvjの相似性の測定値を下記のように表すことができる。
D(i,j,s)≡1/wΣD(i+k,j+k)
1次元の例を考えると、スカラー数列(1,2,3,4,5)のコサイン相似性の評点は、数列(5,4,3,2,1)に対するものよりもそれ自体(数列(1,2,3,4,5))に対するものの方がはるかに高い。
【0055】
内積及びコサインの値は特徴ベクトルの相似性が高くなるにつれて大きくなるが、ユークリッド距離はゼロに近づくことに注意されたい。測定タイプ間で相似性の適切な感度を得るために、ユークリッド距離を逆数にすることができる。統計的な尺度や、本明細書中で先に開示された距離関数(metric)の例に重みを付けたものなど、他の妥当な距離測定法を距離の埋め込みに用いることができる。
【0056】
前述の距離の尺度は例示的なものにすぎない。他の実施の形態では、当該技術分野に公知である種々の他の尺度を使用することができる。
【0057】
E.行列形式への測定値の埋め込み
距離の測定値Dは、ソース信号内の2つのフレーム、もしくはインスタンスの関数である。信号内の可能な全てのインスタンス間の相似性を考慮することが望ましい場合がある。これは、図1のステップ106において示されるように、距離測定値Dを2次元の行列表現Sに埋め込むことによって行われる。行列Sは、全てのウィンドウ、即ち全ての時係数i及びjに対して計算される相似性を含み、行列Sのi,j要素はD(i,j)となる。各ウィンドウは自己に対して最大に類似するため、Sは一般に対角線上で最大の値を有する。
【0058】
行列Sを矩形画像として可視化することができる。相似性測定値D(i,j)に比例するグレースケール値が各ピクセルi,jに与えられ、最大値には最大の輝度が与えられるように各ピクセルi,jが調節される。これらの可視化により、オーディオファイルの構造を明確に理解することができる。無音や長く伸びた音など、音の相似性が高い領域は対角線上で明るい矩形として現れる。テーマ、楽句、又はコーラスのような反復音形は、対角線から外れた明るい長方形として可視になる。音楽に反復が多い場合、これは斜めのストライプや市松模様として可視になり、これらは反復の時間だけ主対角線からオフセットされる。
【0059】
V.自動ビート分析及び「ビートスペクトル」
図1に示されるような埋め込みオーディオパラメータの1つのアプリケーションは、図1のステップ108によって示されるようなビート分析である。ビート分析では、音楽におけるビートの周期性及び相対強度の双方を得ることができる。音楽のリズムを識別するための、ラグの関数としての自己相似性の測定値を、本明細書では「ビートスペクトル」B(l)と称する。反復が非常に多い音楽は、反復時間においてビートスペクトルの高いピークを有する。これによって特定のビートのテンポ及び相対強度の双方が明らかになり、従って同一のテンポにおける異なる種類のリズムを区別することができる。ビートスペクトルのピークは音の周期性に対応する。対角線に沿ったSを合計することにより、ビートスペクトルの簡潔な推定値を下記のように見出すことができる。
【数1】
Figure 0004581335
B(0)は単に、ある連続的な範囲Rにわたる主対角線に沿った合計であり、B(1)は第1の副対角線に沿った合計、などである。
【0060】
ビートスペクトラムを更にロバストに定義したものが、下記のようなSの自動相関である。
B(k,1)=ΣS(i,j)S(i+k,j+1)
しかしながら、B(k,1)は対称であるため、1つの変数に関して合計するだけで1次元の結果B(1)を生じる。ビートスペクトルB(1)は、音楽のジャンル、テンポ及びリズム構造の範囲にわたって良好な結果をもたらす。
【0061】
ビートスペクトルは絶対的なタイミング情報を除去する。本発明の実施の形態に従って、リズムの経時変化を分析するためにビートスペクトルが導入される。スペクトログラムは連続するウィンドウのフーリエ分析を描写し、スペクトルの経時変化を示す。同様に、ビートスペクトログラムは連続するウィンドウにわたるビートスペクトルを示し、リズムの経時変化を表示する。
【0062】
ビートスペクトルは、連続するビートスペクトルによって形成される画像である。時間がx軸であり、遅延時間がy軸である。ビートスペクトログラムの各ピクセルは、時間及び遅延におけるビートスペクトルの目盛値で特徴付けられるため、ビートスペクトルのピークはビートスペクトグラムにおいて明るいバーとして可視になる。ビートスペクトログラムは、テンポが経時変化する態様を示す。
例えば、速くなるリズムは、時間が経つにつれてビート間の遅延時間が減少するため、下向きに傾斜する明るいバーとして可視になる。
【0063】
ステップ108に関して説明したようにビートスペクトルを計算した後、ステップ110において、比較するオーディオ・ワークが更にあるか否かを判断する。オーディオ・ワークが更にあると判断した場合、制御はステップ100に戻り、更なるオーディオ・ワーク毎にこの方法を続ける。しかし、比較すべきオーディオ・ワークがないと判断した場合は、制御はステップ112に移る。
【0064】
各オーディオ・ワークのビートスペクトルの計算として、この方法のステップ100乃至ステップ108を連続して説明したが、ステップ100乃至ステップ108を同時に行い、各オーディオ・ワークのビートスペクトルを同時に計算できることが理解されるであろう。
【0065】
VI.リズム及びテンポによるビートスペクトル間の相似性の測定
2つ以上のオーディオ・ワークのビートスペクトルを計算した後、本方法は2つ以上のビートスペクトル間の相似性を測定する(ステップ112)。ビートスペクトルは遅延時間lの関数である。実際には、lは離散的であり、有限である。
【0066】
実施の形態において、ビートスペクトルは、L次元のベクトルB1(L)及びB2(L)を形成するL個の離散値に切り捨てられる。例えば、短遅延スペクトル及長遅延スペクトルは無視される。短遅延スペクトルは遅延時間が短いビートスペクトルの部分であり、長遅延スペクトルは遅延時間が長いビートスペクトルの部分である。高相似性の測度を表すピークが常に存在し、このピークにおいて遅延時間はゼロに等しくなる。これは、ビートスペクトルの計算の際に同一のインスタンスにおけるベクトルパラメータの自己比較を表すためであり、従って相似性の測度の決定に有益ではない。また、短遅延スペクトルはリズムとして考慮するには速すぎるため、有益ではない。
【0067】
長い遅延時間は、オーディオ・ワークのリズムの反復のために、さほど有益ではない。同一の情報がデータにおいて短い遅延時間で反復される場合があるため、長い遅延時間のデータを無視することが更に効率的である。また、長い遅延時間において、ビートスペクトルの大きさは相関のウィンドウの幅のために少しずつ小さくなっており、これによってデータが有益でなくなる。1つの実施の形態では、最初の116ミリ秒の短遅延スペクトルと4.75秒の長遅延スペクトルが無視される。その結果、L個の値の長さを有するゼロ平均ベクトルが生じる。1つの実施の形態では、遅延は各抜粋に対して約117ミリ秒乃至約4.74秒にわたる場合がある。しかしながら、他の実施の形態では、遅延は数ミリ秒乃至5秒を上回る値に及ぶ場合がある。短遅延時間及び長遅延時間を無視する範囲が変化することは、当業者には明らかであろう。
【0068】
ステップ112では、距離関数をL次元のベクトルに適用した後、ビートスペクトル間のリズムの相似性を計算する。リズムの相似性に直接又は逆に相関した距離測定値を生じる多くの可能な距離関数を使用することができる。例えば、増加するリズム相似性に相関したより小さな距離の値を生じ、減少するリズム相似性に相関したより大きな距離の値を生じる距離関数が適切である。
【0069】
A.ユークリッド距離
2つ以上のビートスペクトルのベクトル間の相似性の1つの測度は、パラメータ空間におけるユークリッド距離、即ちベクトルパラメータ間の差異の二乗の合計の平方根である。このパラメータを下記のように表すことができる。
E(i,j)≡‖vi−vj
【0070】
B.内積
ビートスペクトルのベクトルの相似性の他の測定法は、2つのビートスペクトルベクトル間のスカラー内積である。ユークリッド距離とは対照的で、ベクトルが共に大きく、類似した方向にある場合にベクトルの内積が大きくなる。同様に、ベクトルが共に小さく、類似した方向にある場合にベクトルの内積が小さくなる。内積を下記のように表すことができる。
d(i,j)≡vi・vj
【0071】
C.正規化内積
他の相似性測定法では、大きさ、即ちビートスペクトルのエネルギーに対する依存を取り除くことができる。1つの実施の形態では、大きさからの独立を達成するために、内積を正規化して2つのビートスペクトルベクトルパラメータ間の角度のコサインを生じることができる。ベクトル間の角度のコサインは、たとえベクトルの大きさが小さくても大きな相似性測定値を生じる、といった性質をもつ。ビートスペクトルのベクトル間の角度のコサインを生じる正規化内積を下記のように表すことができる。
C(i,j)≡(vi・vj)/‖vi‖‖vj
【0072】
D.フーリエビートスペクトル係数
他の相似性測定法では、各ビートスペクトルのベクトルに対してフーリエ変換が計算される。この距離の尺度は、ビートスペクトルのフーリエ係数に基づいたものである。これらの係数は、より少ないパラメータを用いてビートスペクトルのスペクトル形状を表す。1つの実施の形態では、ビートスペクトルをコンパクトに表現することにより、ビートスペクトル間の距離の尺度を決定するための計算を簡素化している。要素をより少なくしたことで、距離の比較が速くなり、各ファイルを表すために記憶しなければならないデータの量が減少される。
【0073】
高速フーリエ変換(FFT)では、大きさの対数を決定し、各係数から平均値を減ずる。1つの実施の形態では、ビートスペクトルにおける高周波数はリズムの観点から有意ではないため、ビートスペクトルにおいて高周波数を表す係数が切り捨てられる。他の実施の形態では、直流成分がゼロ平均データには無意味であるため、ゼロ番目の係数も切り捨てられる。切り捨てに続き、残りのゼロ平均フーリエ係数に対してコサインの距離関数を計算する。コサイン距離関数から得た結果が最終的な距離関数である。
【0074】
実験によると、FFTの尺度は、図6の入力データからの更に少数の係数を用いて、コサイン距離関数と同じように作用する。係数の数は120から25に減少された。係数の数が20.83%に減少したことにより、30の関連ドキュメントのうち29を生じ、96.7%の精度を生じた。この性能は、一桁少ない数のパラメータを用いて達成された。設定される入力データのセットは小さいが、本明細書に示される方法は任意の数及びサイズのオーディオ・ワークに同様に適用可能である。当業者は、周知のデータベース編成技術を用いてサーチ時間を短くすることができる。例えば、サーチコストがファイルの数の対数分しか増加しないようにファイルを階層的にクラスタ化することができる。
【0075】
図2は、図6の抜粋15から4秒の範囲に対して計算されたビートスペクトルB(l)の例を示している。前述のように、ビートスペクトル間の距離の計算を簡素にするために短遅延時間及び長遅延時間を無視することができる。
【0076】
図3は、110bpm(ビート/分)乃至130bpmにわたる、2bpm間隔での11のテンポ変化のビートスペクトル間のユークリッド距離の結果を示している。この図は、ビートスペクトル間のユークリッド距離を用いて音楽作品をテンポにより区別できることを示している。特徴付けられたバーは、一対のビートスペクトル間のペアワイズ二乗(pair-wise squared)ユークリッド距離を表している。セット内の各抜粋は、同一の音楽の抜粋のテンポが異なったバージョンである。テンポの異なる同一の抜粋を得るために、ピッチを変えずに音楽の波形の持続時間を変えた。オリジナルの抜粋は120bpmで演奏された。テンポの異なる10のバリエーションをオリジナルの抜粋から生成した。各抜粋のビートスペクトルを計算し、各対のビートスペクトルのペアワイズ二乗ユークリッド距離を計算した。各々の垂直のバーは、セット内の1つのソースファイルと全ての他のファイルとの間のユークリッド距離を示している。ソースファイルは、各々の垂直のバーがゼロのユークリッド距離を有する箇所で表される。位置300は、0.5秒の時間において強いビートスペクトルのピークを示している。このビートスペクトルのピークは、120bpmのテンポ、即ち0.5秒の周期から予測されるピークに対応する。
【0077】
図3において理解できるように、ユークリッド距離はテンポの値の増加に伴って比較的単調に増加する。例えば、130bpmのテンポにおけるビートスペクトルのピーク302は、122bpmのテンポにおけるビートスペクトルのピーク304が生じる時間よりもわずかに早く生じる。また、122bpmのテンポにおけるビートスペクトルのピーク304は、110bpmのテンポにおけるビートスペクトルのピーク306が生じる時間よりもわずかに早く生じる。スペクトルのピークのわずかなオフセットは、テンポの増加に伴うユークリッド距離の単調な増加を示している。よって、ユークリッド距離を用いて音楽をテンポによって順序付けることができる。
【0078】
図4は、ビートスペクトル間のユークリッド距離410対テンポ420の一連の測定値を示している。この図において、110bpm乃至130bpmにわたるテンポを有する11のクエリーが表されている。各曲線は、データのセット内の全ての抜粋と比較した、1つの抜粋、即ちクエリーのユークリッド距離を表している。例えば、N個の抜粋を有するデータのセットにおいて、そのN個の抜粋のうちの1つがクエリーとして選択される。クエリーは、ユークリッド距離関数を用いてデータのセット内の全てのN個の抜粋と比較される。ユークリッド距離は、クエリーを含む抜粋の自己比較が行われた箇所ではゼロである。従って、ソースファイルは、ユークリッド距離がゼロである箇所(412)において表される。また、グラフにおいてユークリッド距離がゼロである点はクエリーのテンポ(bpm)を示している。
【0079】
図5は、図6からのリトリーブデータセットのビートスペクトルを示している。
【0080】
図6は、サウンドトラックから抜粋したデータを要約したものである。4つの歌曲の複数の10秒サンプルを抽出した。各歌曲は、3つの10秒の抜粋によって表される。音楽的な目的で関連性を判断することは一般に複雑で主観的なタスクであるが、この場合、各サンプルは、同一歌曲の他のサンプルと関連しており、他の歌曲のサンプルとは関連していないものと仮定する。本実施の形態において、ポップ/ロックの歌曲は、歌詞(verse)とコーラスのリズムが著しく異なるため、この仮定に対して例外とみなされる。従って、ポップ/ロックの歌曲の歌詞及びコーラスは互いに関連していないものと仮定する。よって、「Never Loved You Anyway」というポップ/ロックの歌曲のコーラス及び歌詞は、それぞれが3つの10秒の抜粋によって表される。
【0081】
図6は、全部で5つの関連セットから3つの10秒サンプルを要約しており、15の抜粋を生じる。関連セットは3つの歌曲と2つの歌曲部分からなる。各関連セットを含む抜粋は、リズム及びテンポが互いに類似している。関連セットは、各セット内の抜粋間のビートスペクトルの相似性測度が高いことを表している。
【0082】
図5では、y軸550に示される各10秒抜粋からのインデックス番号が、x軸560に示される時間(秒)に対してプロットされている。グラフの各列は、異なる抜粋毎のビートスペクトルを表している。「Musica Si Theme」という歌曲は、図6では抜粋13、14及び15として表されている。抜粋13、14及び15のビートスペクトルは類似している。図5の行50013、50014及び50015はそれぞれ、図6の抜粋13、14及び15の各ビートスペクトルに対し、約0.25秒という同じ時間のインスタンスにおいて明るいバーを示している。同様に、位置50213、50214及び50215に示される各ビートスペクトルに対し、約0.50秒という同じ時間のインスタンスにおいて明るいバーの他のセットが存在する。更に、位置50513、50514及び50515も同じ時間のインスタンスにおいて明るいバーを示している。行50013によって示されるような、抜粋13のビートスペクトル内の高い自己相似性を示す明るいバーの反復は、行50015によって示されるような抜粋15のビートスペクトル内の明るいバーの反復によってほぼ再現されている。また、行50014によって示される抜粋14のビートスペクトルは、行50013及び50015によってそれぞれ示される抜粋曲13及び15のビートスペクトルに似ている。従って、抜粋13、14及び15は同一の関連セットを含む。
【0083】
図6を再び参照すると、「Never Loved You Anyway」という歌曲は、関連セットB及びCといった2つの関連セットによって表されている。図6では、抜粋6、7及び9が関連セットCを含んでいる。位置5066、5067及び5069は、抜粋6、7及び9のビートスペクトル内の同じ時間のインスタンスにおいて明るいバーの反復を示している。しかし、位置508によって示される抜粋8からの明るいバーは、位置5066、5067及び5069からの明るいバーと揃っていない。むしろ、508は位置510によって示される抜粋5と近密に揃っている。また、抜粋5からの位置512及び抜粋8からの位置514は近密に揃っている。更に、抜粋5からの位置516及び抜粋曲8からの位置518も近密に揃っている。従って、抜粋5及び抜粋8は、図6に示されるように同一の関連セット、即ち関連セットBに分類される。
【0084】
VII.アプリケーション
A.類似したリズム及び/又はテンポで音楽を連結するためのオートマチック「DJ」
リズムの相似性の測度を考慮すると、これに関連する問題は、隣接する音楽ファイル間の相似性を最大にするように多数の音楽ファイルを順序付けることである。このような順序付けによって音楽ファイル間のセグエが更にスムーズになり、これにはいくつかのアプリケーションがある。ユーザがCD又は持続時間の制限された記録媒体に記録するために多数のファイルを選択した場合、これらのファイルをリズムの相似性によって並べることができる。
【0085】
種々の音源間でリズム及びテンポの相似性の測度を用いるアプリケーションは、連続する各歌曲間の移行がスムーズになるように、歌曲を類似したテンポによって並べることができる。連続する歌曲間のビートスペクトルの差異を最小にすることにより、適切に順序付けられた音楽のセットを得ることができる。これにより、歌曲の移行が耳障りにならないことが保証される。
【0086】
例えば、とりわけテンポが遅かったりメランコリックな歌曲の後にテンポが速かったりエネルギッシュな歌曲が続くと、かなり耳障りになり得る。このアプリケーションでは、ワークの始めに近いビートスペクトル及びワークの終わりに近いビートスペクトルといった2つのビートスペクトルをワーク毎に計算する。第1のワークの終わりのセグメントと第2のワークの始めのセグメントとの間のビートスペクトルの距離から、ワーク間の特定の移行が適切であるという見込みを計算する。
【0087】
N個のワークがあると仮定して、i,j番目の入力がワークiの終わりとワークjの始めとの間のビートスペクトルの距離である距離行列を構築することができる。一般にワークiとワークjとの間の距離は、ワークjとワークiとの間の距離と同一ではないため、この距離行列は対称ではないことに注意されたい。よって、距離行列は一般に非対称である。この場合のタスクは、歌曲間の距離の合計が最小値になるように、選択された歌曲を順序付けることである。行列形式では、超対角線の合計を最小にする距離行列の順列を見出すことが望まれる。
【0088】
ほぼ最適なシーケンスを見出すために、グリーディ(greedy)アルゴリズムを適用することができる。グリーディアルゴリズムは、局所最適値を選択することによりアルゴリズムにおいて1つの手順を行い、手順を行うことができなくなるまで局所最適値を選択するアルゴリズムである。グリーディアルゴリズムの一例はクラスカルのアルゴリズムであり、これは最小全域ツリーにおいて最小の重みをもつエッジを選択する。本発明の方法の変形例は、特定のワークによるシーケンスの開始又は終了の要求などの制約を含む。特定のアプリケーションは、その演奏リストを決定するために任意の数のアルゴリズムに従うことができる。歌曲間のセグエがスムーズになるような歌曲間の移行プロセスは、熟練したDJやMuzak(商品名)などの「環境」音楽のベンダーによって手動で行われる。
【0089】
B.テンプレートによる自動順序付け
この技術の変形例は、特定のリズム及びシーケンスをもつワークの「テンプレート」の生成である。テンプレートが生成されると、アルゴリズムは、シーケンスの完全な反復が生じないように場合によってはランダム要素を用いて、更に大きな音楽コレクションをテンプレートとの相似性に応じて自動的に順序付けることができる。例えば、テンプレートは始めにテンポの速い歌曲、そして半ばに適度なテンポの歌曲を指定し、時間の経過に伴って歌曲コレクション内の更にテンポの遅い歌曲へと徐々に移行させることができる。
【0090】
C.音楽のジャンル分類
他のアプリケーションでは、ソースオーディオを音楽のジャンルに分類することができる。音楽作品のビートスペクトルを、対応するフーリエ係数によって表すことができる。フーリエ係数はベクトル空間を含む。従って、多くの共通の分類技術及び機械学習技術を使用して、音楽作品をその対応ベクトル表現に基づいて分類することができる。例えば、統計分類器を構築し、未知の音楽作品を所与の種類又はジャンルのセットに分類することができる。音楽のジャンルは、ブルース、クラシック、ダンス、ジャズ、ポップ、ロック、及びラップを含むことができる。統計分類法の例としては、線形識別関数、マハラノビスの距離、ガウスの混合モデル、及びK−最近傍法などのノンパラメトリック法などが挙げられる。また、種々の管理された分類法や未管理の分類法を用いることができる。例えば、未管理のクラスタリングは、オーディオ・ワークの異なるジャンルや他の分類特性を自動的に決定することができる。
【0091】
D.リズム構造は類似しているがテンポの異なる音楽のサーチ
本発明の他のアプリケーションでは、リズム構造は類似しているがテンポの異なる音楽のサーチを行うことができる。このようなサーチを行う際は、遅延時間を調節することによってビートスペクトルを正規化する。1つの実施の形態では、最大のピークが一致するように全てのビートスペクトルの遅延軸を調節することによって正規化を達成することができる。このようにして、距離の測定の尺度により、テンポにかかわらずリズムの類似した音楽が見出される。許容可能な距離の尺度は、ユークリッド距離、内積、正規化内積、及びフーリエ変換を含む。しかしながら、リズムの相似性に直接相関するか又は逆相関した距離測定値を生じるあらゆる距離の尺度を、調節されたスペクトルに対して使用することができる。
【0092】
E.相似性の測度に従った音楽のランク付け
他のアプリケーションでは、ユーザのコレクション内の音楽が「ビートスペクトル」の測定規準を用いて分析される。この測定規準は、録音された音楽のリズム及びテンポを自動的に特徴付ける方法を提供する。ユーザのコレクション内の各音楽ファイルのビートスペクトルを計算する。相似性の測度が設けられると、1つ以上の選択されたクエリーファイルとの相似性、又はビートスペクトルを測定することのできるあらゆる他の音楽ソースとの相似性によってファイルをランク付けすることができる。これにより、ユーザはリズムの相似性によって音楽のコレクションをサーチすることができる。
【0093】
F.「これに似た音楽を探索」機能
他の実施の形態において、インターネット又は他のロケーションにおける音楽業者は「これに似た音楽を探索」サービスを実施することができる。ユーザは音楽作品を選択し、選択された音楽作品を「これに似た音楽を探索」操作におけるクエリーファイルとして提出する。システムはクエリーファイルのビートスペクトルを計算し、クエリーファイルと音楽ベンダーのコレクション内の種々の歌曲との間の相似性の測度を計算する。システムは、相似性の測度に応じて音楽をユーザに返す。1つの実施の形態では、返された音楽の相似性測度は許容範囲内に入る。例えば、コレクション内の音楽のうちクエリーファイルのリズム及びテンポに最も近い上位10%の音楽を返すために、システムは各音楽作品の相似性測度をランク付けする。ランク付けの完了後、システムは相似性測度の最も高い音楽のうち上位10%の音楽を返す。
【0094】
G.音楽作品の比較律動性の測定
ビートスペクトルの他のアプリケーションは、音楽作品の「律動性」、即ちどのくらいのリズムを音楽が含むか、を測定することである。例えば、同一のポピュラーソングを、1つ目は歌とアコースティックギターのみのもの、2つ目はベースとドラムを含むフルリズムセクションのついたもの、といった2つのバージョンで録音することができる。たとえテンポ及びメロディーは同一であっても、殆どの聞き手は、1つ目の「アコースティック」バージョンは2つ目のドラム付きバージョンよりも律動性が低く、拍子を取るのが難しいと報告するであろう。中間遅延領域における軌跡を調べることにより、この差異の測度をビートスペクトルから抽出することができる。非常に律動的なワークは大きな軌跡及び周期性を有し、さほど律動的でないワークは応じてより小さいピーク間の測定値を有する。従って、律動性の簡潔な尺度はビートスペクトルの最大の正規化ピーク−トラフ(trough)軌跡である。更にロバストな測定は、ビートスペクトルのフーリエ変換の中間周波帯のエネルギーを調べることである。中間周波帯は一般に0.2Hz(5秒ごとに1拍)乃至5Hz(1秒当り5拍)に及ぶ。適切なフーリエビートスペクトル係数の対数の大きさを合計することにより、この定量的な測度が生じる。
【0095】
本明細書において説明した特定の実施の形態は本発明の原理の例示にすぎず、本発明の請求の範囲及び趣意から逸脱せずに種々の変更例を当業者によって実施できることを理解すべきである。
【図面の簡単な説明】
【図1】本発明の実施の形態に従った分析方法のステップを示すフローチャートである。
【図2】4秒の範囲で計算されたビートスペクトルB(l)の例を示す図である。
【図3】ビートスペクトル間のユークリッド距離の結果を示す図である。
【図4】ユークリッド距離対テンポの一連の測定値を示す図である。
【図5】図6からの検索データのセットのビートスペクトルを示す図である。
【図6】サウンドトラックから抜粋されたデータを要約する情報を含む図である。

Claims (18)

  1. オーディオ・ワークを受信するステップと、
    前記オーディオ・ワークに複数のウィンドウを設定するステップと、
    設定された前記ウィンドウ毎に、前記オーディオ・ワークの特徴ベクトルを求めるステップと、
    前記各特徴ベクトルの組み合わせ毎の相似性を示す相似性行列を計算するステップと、
    前記相似性行列に基づいて、ラグの関数としての自己相似性の測定値をビートスペクトルとして決定するステップと、
    を含む、オーディオ・ワークのビートスペクトルの決定方法。
  2. 前記相似性行列を計算するステップが、前記特徴ベクトルの組み合わせ間のユークリッド距離、前記特徴ベクトルの組み合わせの内積、または前記特徴ベクトルの組み合わせの正規化内積の計算を含む、請求項1に記載のオーディオ・ワークのビートスペクトルの決定方法。
  3. 前記ビートスペクトルが、前記オーディオ・ワークのリズムの経時変化の決定に使用される、請求項1または請求項2に記載のオーディオ・ワークのビートスペクトルの決定方法。
  4. 前記ビートスペクトルが、前記オーディオ・ワークのテンポの経時変化の態様を示す、請求項1〜請求項3のいずれか1項に記載のオーディオ・ワークのビートスペクトルの決定方法。
  5. 請求項1〜請求項4のいずれか1項記載のオーディオ・ワークのビートスペクトルの決定方法により決定された第1のオーディオ・ワークに対応する第1のビートスペクトル、及び第2のオーディオ・ワークに対応する第2のビートスペクトルの相似性の値を測定するステップを含む、少なくとも2つのオーディオ・ワークの比較方法。
  6. 前記相似性の値を測定するステップが、前記第1のビートスペクトル及び前記第2のビートスペクトルの各々の所定の短遅延時間部分及び所定の長遅延時間部分を切り捨てて、前記相似性の値を測定する請求項5に記載の少なくとも2つのオーディオ・ワークの比較方法。
  7. 前記相似性の値を測定するステップが、前記第1のビートスペクトルと前記第2のビートスペクトルとの間のユークリッド距離、内積、または正規化内積の測定を含む、請求項5または請求項6に記載の少なくとも2つのオーディオ・ワークの比較方法。
  8. 前記相似性の値を測定するステップが、
    前記第1のビートスペクトル及び前記第2のビートスペクトルのフーリエ変換を計算するサブステップと、
    前記第1のビートスペクトル及び前記第2のビートスペクトルの前記フーリエ変換間のユークリッド距離、内積、または正規化内積を測定するサブステップと、を含む、
    請求項5または請求項6に記載の少なくとも2つのオーディオ・ワークの比較方法。
  9. 前記相似性の値を測定するステップが、リズム、テンポ、またはリズム及びテンポによる相似性の測定を含む、請求項5〜請求項8のいずれか1項に記載の少なくとも2つのオーディオ・ワークの比較方法。
  10. ーディオ・ワークを受信するステップと、
    前記オーディオ・ワークに複数のウィンドウを設定するステップと、
    設定された前記ウィンドウ毎に、前記オーディオ・ワークの特徴ベクトルを求めるステップと、
    前記各特徴ベクトルの組み合わせ毎の相似性を示す相似性行列を計算するステップと、
    前記相似性行列に基づいて、ラグ関数としての自己相似性の測定値をビートスペクトルとして決定するステップと、
    をコンピュータにより実行させ、オーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラム。
  11. 前記相似性行列を計算するステップが、前記特徴ベクトルの組み合わせ間のユークリッド距離、前記特徴ベクトルの組み合わせの内積、または前記特徴ベクトルの組み合わせの正規化内積の計算を含む、請求項10に記載のオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラム。
  12. 前記ビートスペクトルが、前記オーディオ・ワークのリズムの経時変化の決定に使用される、請求項10または請求項11に記載のオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラム。
  13. 前記ビートスペクトルが、前記オーディオ・ワークのテンポの経時変化の態様を示す、請求項10〜請求項12のいずれか1項に記載のオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラム。
  14. 請求項10〜請求項13のいずれか1項記載のオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラムを実行することにより決定された第1のオーディオ・ワークに対応する第1のビートスペクトル、及び第2のオーディオ・ワークに対応する第2のビートスペクトルの相似性の値を測定するステップをコンピュータにより実行させ、少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム。
  15. 前記相似性の値を測定するステップが、前記第1のビートスペクトル及び前記第2のビートスペクトルの各々の所定の短遅延時間部分及び所定の長遅延時間部分を切り捨てて、前記相似性の値を測定する請求項14に記載の少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム。
  16. 前記相似性の値を測定するステップが、前記第1のビートスペクトルと前記第2のビートスペクトルとの間のユークリッド距離、内積、または正規化内積の測定を含む、請求項14または請求項15に記載の少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム。
  17. 前記相似性の値を測定するステップが、
    前記第1のビートスペクトル及び前記第2のビートスペクトルのフーリエ変換を計算するサブステップと、
    前記第1のビートスペクトル及び前記第2のビートスペクトルの前記フーリエ変換間のユークリッド距離、内積、または正規化内積を測定するサブステップと、を含む、
    請求項5または請求項6に記載の少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム。
  18. 前記相似性の値を測定するステップが、リズム、テンポ、またはリズム及びテンポによる相似性の測定を含む、請求項5〜請求項8のいずれか1項に記載の少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム。
JP2003125157A 2002-05-01 2003-04-30 少なくとも2つのオーディオ・ワークの比較方法、少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム、オーディオ・ワークのビートスペクトルの決定方法、及びオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラム Expired - Fee Related JP4581335B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US37676602P 2002-05-01 2002-05-01
US60/376766 2002-05-01
US10/405192 2003-04-01
US10/405,192 US20030205124A1 (en) 2002-05-01 2003-04-01 Method and system for retrieving and sequencing music by rhythmic similarity

Publications (2)

Publication Number Publication Date
JP2003330460A JP2003330460A (ja) 2003-11-19
JP4581335B2 true JP4581335B2 (ja) 2010-11-17

Family

ID=29273069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003125157A Expired - Fee Related JP4581335B2 (ja) 2002-05-01 2003-04-30 少なくとも2つのオーディオ・ワークの比較方法、少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム、オーディオ・ワークのビートスペクトルの決定方法、及びオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラム

Country Status (2)

Country Link
US (1) US20030205124A1 (ja)
JP (1) JP4581335B2 (ja)

Families Citing this family (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4302967B2 (ja) * 2002-11-18 2009-07-29 パイオニア株式会社 楽曲検索方法、楽曲検索装置及び楽曲検索プログラム
WO2004075093A2 (en) * 2003-02-14 2004-09-02 University Of Rochester Music feature extraction using wavelet coefficient histograms
EP1489617A1 (en) * 2003-06-19 2004-12-22 Matsuhita Electric Industrial Co., Ltd. Music reproducing apparatus and music reproducing method
DE602004017475D1 (de) * 2003-08-07 2008-12-11 Thomson Licensing Verfahren zum wiedergeben von audio-dokumenten mit hilfe einer schnittstelle mit dokumentgruppen und assoziierte wiedergabeeinrichtung
WO2005071662A1 (en) * 2004-01-21 2005-08-04 Koninklijke Philips Electronics N.V. Method and system for determining a measure of tempo ambiguity for a music input signal
DE112005000741T5 (de) * 2004-03-31 2007-05-03 Denso It Laboratory, Inc. Programmtabellen-Erzeugungsverfahren, Programmtabellen-Erzeugungsvorrichtung und Programmtabellen-Erzeugungssystem
US7592534B2 (en) * 2004-04-19 2009-09-22 Sony Computer Entertainment Inc. Music composition reproduction device and composite device including the same
JP4581476B2 (ja) * 2004-05-11 2010-11-17 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7626110B2 (en) * 2004-06-02 2009-12-01 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition
US7563971B2 (en) * 2004-06-02 2009-07-21 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition with weighting of energy matches
US20050281541A1 (en) * 2004-06-17 2005-12-22 Logan Beth T Image organization method and system
JP4358229B2 (ja) * 2004-07-09 2009-11-04 日本電信電話株式会社 信号検出システム、信号検出サーバ、信号検出方法及びプログラム
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
DE102004049478A1 (de) * 2004-10-11 2006-04-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Glättung eines Melodieliniensegments
US20060111621A1 (en) * 2004-11-03 2006-05-25 Andreas Coppi Musical personal trainer
EP1684263B1 (en) * 2005-01-21 2010-05-05 Unlimited Media GmbH Method of generating a footprint for an audio signal
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
CN101278349A (zh) * 2005-09-30 2008-10-01 皇家飞利浦电子股份有限公司 处理用于重放的音频的方法和设备
WO2007047541A2 (en) 2005-10-14 2007-04-26 Yahoo! Inc. A method and system for selecting media
US9665629B2 (en) * 2005-10-14 2017-05-30 Yahoo! Inc. Media device and user interface for selecting media
US20070089057A1 (en) * 2005-10-14 2007-04-19 Yahoo! Inc. Method and system for selecting media
KR20080074977A (ko) * 2005-12-09 2008-08-13 소니 가부시끼 가이샤 음악 편집 장치 및 음악 편집 방법
WO2007066818A1 (ja) * 2005-12-09 2007-06-14 Sony Corporation 音楽編集装置及び音楽編集方法
JP4001897B2 (ja) * 2005-12-09 2007-10-31 株式会社コナミデジタルエンタテインメント 音楽ジャンル判別装置及びこれを備えたゲーム機
JP4650270B2 (ja) * 2006-01-06 2011-03-16 ソニー株式会社 情報処理装置および方法、並びにプログラム
KR100749045B1 (ko) * 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치
KR100717387B1 (ko) * 2006-01-26 2007-05-11 삼성전자주식회사 유사곡 검색 방법 및 그 장치
JP5351373B2 (ja) * 2006-03-10 2013-11-27 任天堂株式会社 演奏装置および演奏制御プログラム
JP2007304933A (ja) * 2006-05-12 2007-11-22 Sony Corp 情報処理システム、端末装置、情報処理方法、プログラム
US7612280B2 (en) * 2006-05-22 2009-11-03 Schneider Andrew J Intelligent audio selector
US8843377B2 (en) * 2006-07-12 2014-09-23 Master Key, Llc System and method for foreign language processing
US7538265B2 (en) * 2006-07-12 2009-05-26 Master Key, Llc Apparatus and method for visualizing music and other sounds
US20080125889A1 (en) * 2006-08-22 2008-05-29 William Edward Atherton Method and system for customization of entertainment selections in response to user feedback
US7645929B2 (en) * 2006-09-11 2010-01-12 Hewlett-Packard Development Company, L.P. Computational music-tempo estimation
EP2095635A2 (en) * 2006-11-05 2009-09-02 Sean Joseph Leonard System and methods for rapid subtitling
US7873634B2 (en) * 2007-03-12 2011-01-18 Hitlab Ulc. Method and a system for automatic evaluation of digital files
JP4613923B2 (ja) * 2007-03-30 2011-01-19 ヤマハ株式会社 楽音処理装置およびプログラム
US7880076B2 (en) * 2007-04-03 2011-02-01 Master Key, Llc Child development and education apparatus and method using visual stimulation
US7589269B2 (en) * 2007-04-03 2009-09-15 Master Key, Llc Device and method for visualizing musical rhythmic structures
US8280539B2 (en) * 2007-04-06 2012-10-02 The Echo Nest Corporation Method and apparatus for automatically segueing between audio tracks
WO2008130611A1 (en) * 2007-04-18 2008-10-30 Master Key, Llc System and method for musical instruction
WO2008130665A1 (en) * 2007-04-19 2008-10-30 Master Key, Llc System and method for audio equalization
WO2008130697A1 (en) * 2007-04-19 2008-10-30 Master Key, Llc Method and apparatus for editing and mixing sound recordings
US8073701B2 (en) * 2007-04-20 2011-12-06 Master Key, Llc Method and apparatus for identity verification using visual representation of a spoken word
WO2008130696A1 (en) * 2007-04-20 2008-10-30 Master Key, Llc Calibration of transmission system using tonal visualization components
US7928306B2 (en) * 2007-04-20 2011-04-19 Master Key, Llc Musical instrument tuning method and apparatus
WO2008130666A2 (en) * 2007-04-20 2008-10-30 Master Key, Llc System and method for music composition
US7947888B2 (en) * 2007-04-20 2011-05-24 Master Key, Llc Method and apparatus for computer-generated music
WO2008130660A1 (en) * 2007-04-20 2008-10-30 Master Key, Llc Archiving of environmental sounds using visualization components
US7932455B2 (en) * 2007-04-20 2011-04-26 Master Key, Llc Method and apparatus for comparing musical works
JP5135931B2 (ja) * 2007-07-17 2013-02-06 ヤマハ株式会社 楽曲加工装置およびプログラム
EP2043006A1 (en) * 2007-09-28 2009-04-01 Sony Corporation Method and device for providing an overview of pieces of music
US7875787B2 (en) * 2008-02-01 2011-01-25 Master Key, Llc Apparatus and method for visualization of music using note extraction
US7919702B2 (en) * 2008-02-01 2011-04-05 Master Key, Llc Apparatus and method of displaying infinitely small divisions of measurement
JP4973537B2 (ja) * 2008-02-19 2012-07-11 ヤマハ株式会社 音響処理装置およびプログラム
KR101424974B1 (ko) * 2008-03-17 2014-08-04 삼성전자주식회사 복수의 반복되는 부분들을 가진 음악 데이터의 첫 번째부분만을 재생하는 방법 및 장치
US20100125795A1 (en) * 2008-07-03 2010-05-20 Mspot, Inc. Method and apparatus for concatenating audio/video clips
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8071869B2 (en) * 2009-05-06 2011-12-06 Gracenote, Inc. Apparatus and method for determining a prominent tempo of an audio work
US8996538B1 (en) 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
US8805854B2 (en) 2009-06-23 2014-08-12 Gracenote, Inc. Methods and apparatus for determining a mood profile associated with media data
US8554348B2 (en) * 2009-07-20 2013-10-08 Apple Inc. Transient detection using a digital audio workstation
JP5560861B2 (ja) * 2010-04-07 2014-07-30 ヤマハ株式会社 楽曲解析装置
JP5454317B2 (ja) 2010-04-07 2014-03-26 ヤマハ株式会社 音響解析装置
US10055493B2 (en) * 2011-05-09 2018-08-21 Google Llc Generating a playlist
US9070352B1 (en) * 2011-10-25 2015-06-30 Mixwolf LLC System and method for mixing song data using measure groupings
US8586847B2 (en) 2011-12-02 2013-11-19 The Echo Nest Corporation Musical fingerprinting based on onset intervals
WO2013164661A1 (en) 2012-04-30 2013-11-07 Nokia Corporation Evaluation of beats, chords and downbeats from a musical audio signal
JP5962218B2 (ja) * 2012-05-30 2016-08-03 株式会社Jvcケンウッド 曲順決定装置、曲順決定方法、および曲順決定プログラム
CN103514182B (zh) 2012-06-19 2017-05-17 国际商业机器公司 音乐搜索方法与装置
US9418643B2 (en) * 2012-06-29 2016-08-16 Nokia Technologies Oy Audio signal analysis
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
CN102930865B (zh) * 2012-09-21 2014-04-09 重庆大学 一种波形音乐粗情感软切割分类方法
US9378768B2 (en) * 2013-06-10 2016-06-28 Htc Corporation Methods and systems for media file management
GB201310861D0 (en) * 2013-06-18 2013-07-31 Nokia Corp Audio signal analysis
US20180357548A1 (en) * 2015-04-30 2018-12-13 Google Inc. Recommending Media Containing Song Lyrics
US10372757B2 (en) * 2015-05-19 2019-08-06 Spotify Ab Search media content based upon tempo
US10055413B2 (en) 2015-05-19 2018-08-21 Spotify Ab Identifying media content
US9721551B2 (en) 2015-09-29 2017-08-01 Amper Music, Inc. Machines, systems, processes for automated music composition and generation employing linguistic and/or graphical icon based musical experience descriptions
US10854180B2 (en) 2015-09-29 2020-12-01 Amper Music, Inc. Method of and system for controlling the qualities of musical energy embodied in and expressed by digital music to be automatically composed and generated by an automated music composition and generation engine
CN105513583B (zh) * 2015-11-25 2019-12-17 福建星网视易信息系统有限公司 一种歌曲节奏的显示方法及其系统
JP6743425B2 (ja) * 2016-03-07 2020-08-19 ヤマハ株式会社 音信号処理方法および音信号処理装置
WO2017214411A1 (en) 2016-06-09 2017-12-14 Tristan Jehan Search media content based upon tempo
WO2017214408A1 (en) 2016-06-09 2017-12-14 Tristan Jehan Identifying media content
WO2018016581A1 (ja) * 2016-07-22 2018-01-25 ヤマハ株式会社 楽曲データ処理方法およびプログラム
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
WO2018129407A1 (en) * 2017-01-09 2018-07-12 Inmusic Brands, Inc. Systems and methods for providing audio-file loop-playback functionality
CN109065071B (zh) * 2018-08-31 2021-05-14 电子科技大学 一种基于迭代k-means算法的歌曲聚类方法
US11024288B2 (en) * 2018-09-04 2021-06-01 Gracenote, Inc. Methods and apparatus to segment audio and determine audio segment similarities
CN110010159B (zh) * 2019-04-02 2021-12-10 广州酷狗计算机科技有限公司 声音相似度确定方法及装置
US10964299B1 (en) 2019-10-15 2021-03-30 Shutterstock, Inc. Method of and system for automatically generating digital performances of music compositions using notes selected from virtual musical instruments based on the music-theoretic states of the music compositions
US11037538B2 (en) 2019-10-15 2021-06-15 Shutterstock, Inc. Method of and system for automated musical arrangement and musical instrument performance style transformation supported within an automated music performance system
US11024275B2 (en) 2019-10-15 2021-06-01 Shutterstock, Inc. Method of digitally performing a music composition using virtual musical instruments having performance logic executing within a virtual musical instrument (VMI) library management system
KR102653938B1 (ko) 2019-12-02 2024-04-03 구글 엘엘씨 끊김없는 오디오 혼합을 위한 방법들, 시스템들 및 매체들
CN112634814B (zh) * 2020-12-01 2022-04-08 黑龙江建筑职业技术学院 一种跟随音乐的led三维立体显示器的节奏控制方法
CN117636900B (zh) * 2023-12-04 2024-05-07 广东新裕信息科技有限公司 一种基于音频特征形状匹配的乐器演奏质量评价方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05249998A (ja) * 1992-03-06 1993-09-28 Hitachi Ltd 並行処理による自己回帰モデル構築システム
JPH11502071A (ja) * 1995-03-15 1999-02-16 コニンクリジケ ピーティーティー ネーダーランド エヌ ブィー 信号特性決定装置およびその方法
JP2000267655A (ja) * 1999-03-17 2000-09-29 Aiwa Co Ltd リズムの同期方法
JP2001142480A (ja) * 1999-11-11 2001-05-25 Sony Corp 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
JP2002006839A (ja) * 2000-04-06 2002-01-11 Sony France Sa リズム構造抽出方法及び類似関係判定方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
US5614687A (en) * 1995-02-20 1997-03-25 Pioneer Electronic Corporation Apparatus for detecting the number of beats
US5616876A (en) * 1995-04-19 1997-04-01 Microsoft Corporation System and methods for selecting music on the basis of subjective content
JP2956569B2 (ja) * 1996-02-26 1999-10-04 ヤマハ株式会社 カラオケ装置
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6201176B1 (en) * 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
GB9918611D0 (en) * 1999-08-07 1999-10-13 Sibelius Software Ltd Music database searching
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US7031980B2 (en) * 2000-11-02 2006-04-18 Hewlett-Packard Development Company, L.P. Music similarity function based on signal analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05249998A (ja) * 1992-03-06 1993-09-28 Hitachi Ltd 並行処理による自己回帰モデル構築システム
JPH11502071A (ja) * 1995-03-15 1999-02-16 コニンクリジケ ピーティーティー ネーダーランド エヌ ブィー 信号特性決定装置およびその方法
JP2000267655A (ja) * 1999-03-17 2000-09-29 Aiwa Co Ltd リズムの同期方法
JP2001142480A (ja) * 1999-11-11 2001-05-25 Sony Corp 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
JP2002006839A (ja) * 2000-04-06 2002-01-11 Sony France Sa リズム構造抽出方法及び類似関係判定方法

Also Published As

Publication number Publication date
JP2003330460A (ja) 2003-11-19
US20030205124A1 (en) 2003-11-06

Similar Documents

Publication Publication Date Title
JP4581335B2 (ja) 少なくとも2つのオーディオ・ワークの比較方法、少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム、オーディオ・ワークのビートスペクトルの決定方法、及びオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラム
Lerch An introduction to audio content analysis: Music Information Retrieval tasks and applications
Muller et al. Signal processing for music analysis
Brossier Automatic annotation of musical audio for interactive applications
Paulus et al. Measuring the similarity of Rhythmic Patterns.
US7273978B2 (en) Device and method for characterizing a tone signal
US20080300702A1 (en) Music similarity systems and methods using descriptors
Holzapfel et al. Scale transform in rhythmic similarity of music
US20080072741A1 (en) Methods and Systems for Identifying Similar Songs
Maddage Automatic structure detection for popular music
WO2009001202A1 (en) Music similarity systems and methods using descriptors
Eggink et al. Instrument recognition in accompanied sonatas and concertos
Caetano et al. Automatic segmentation of the temporal evolution of isolated acoustic musical instrument sounds using spectro-temporal cues
Elowsson et al. Modeling the perception of tempo
Lerch Software-based extraction of objective parameters from music performances
Holzapfel et al. Similarity methods for computational ethnomusicology
Grosche Signal processing methods for beat tracking, music segmentation, and audio retrieval
Barthet et al. Speech/music discrimination in audio podcast using structural segmentation and timbre recognition
Kumar et al. Melody extraction from music: A comprehensive study
Noland et al. Influences of signal processing, tone profiles, and chord progressions on a model for estimating the musical key from audio
Eronen Signal processing methods for audio classification and music content analysis
Tzanetakis Audio feature extraction
Foote Methods for the automatic analysis of music and audio
Kitahara Mid-level representations of musical audio signals for music information retrieval
Devaney An empirical evaluation of note segmentation and automatic pitch-extraction methods for the singing voice

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100816

R150 Certificate of patent or registration of utility model

Ref document number: 4581335

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees