JP2003330460A - 少なくとも2つのオーディオ・ワークの比較方法、少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム、及び、オーディオ・ワークのビートスペクトルの決定方法 - Google Patents
少なくとも2つのオーディオ・ワークの比較方法、少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム、及び、オーディオ・ワークのビートスペクトルの決定方法Info
- Publication number
- JP2003330460A JP2003330460A JP2003125157A JP2003125157A JP2003330460A JP 2003330460 A JP2003330460 A JP 2003330460A JP 2003125157 A JP2003125157 A JP 2003125157A JP 2003125157 A JP2003125157 A JP 2003125157A JP 2003330460 A JP2003330460 A JP 2003330460A
- Authority
- JP
- Japan
- Prior art keywords
- beat spectrum
- similarity
- beat
- spectrum
- measuring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G1/00—Means for the representation of music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/041—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/071—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/011—Files or data streams containing coded musical information, e.g. for transmission
- G10H2240/046—File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
- G10H2240/056—MIDI or other note-oriented file format
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/011—Files or data streams containing coded musical information, e.g. for transmission
- G10H2240/046—File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
- G10H2240/061—MP3, i.e. MPEG-1 or MPEG-2 Audio Layer III, lossy audio compression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/261—Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued
- G10H2250/281—Hamming window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Electrophonic Musical Instruments (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
クトル間の相似性を測定する方法を提供する。 【解決手段】 短いビートスペクトル間のリズム及びテ
ンポによる相似性の測定に距離の公式が用いられ、その
結果、リズム及びテンポの相似性を測定するベクトルが
得られる。拡張したビートスペクトル間のリズムの相似
性の測定に距離の公式が用いられ、その結果、テンポに
関係なくリズムが類似した音楽の測度が得られる。類似
したテンポによる音楽の連結、自動的な音楽の順序付
け、音楽のジャンル分類、類似したリズム構造をもつ音
楽のサーチ、類似したリズム構造及びテンポ構造をもつ
音楽のサーチ、並びに相似性の測度に応じた音楽のラン
ク付けを含む広範囲のアプリケーションにこの方法を使
用することができる。
Description
よって音楽の表現を比較する方法に関し、より詳細に
は、種々の方法を用いてオーディオ・ワーク(auditory
works)間のリズム及びテンポの相似性を測定することに
関する。即ち、少なくとも2つのオーディオ・ワークの
比較方法、該少なくとも2つのオーディオ・ワークの比
較方法をコンピュータに実現させるためのプログラム、
及び、オーディオ・ワークのビートスペクトルの決定方
法に関する。
ィオのリズム分析を行うためのアプローチがいくつか存
在する。1つのアプローチは、どのように副周波数帯の
エネルギーのピークを検出し、相関させ得るかを詳しく
述べている。入ってくる波形は周波数帯に分解され、各
帯の振幅包絡線が抽出される。振幅包絡線は、サウンド
・ファイルの特定のポイントにおけるサンプルの振幅の
時変表現、又は、サウンド・ファイルの特定のポイント
におけるサンプルの音量である。複数の振幅包絡線が微
分され、半波整流される。このアプローチは、人間によ
るビート(拍子)の認識に合わせようとして、全ての周
波数帯からの相関ピークを選択し、次に位相を推定す
る。しかし、通常このアプローチは、ドラムのような強
い打楽器要素又は短期間の周期的な広帯域源を有する音
楽においてのみ理想的に機能する。
アプローチは、音楽が4/4拍子であり、ダウンビート
(強拍)としてベースやドラムのビートがなければなら
ないなどの制限的な仮定に依存したものである。このよ
うなアプローチは、多くのビートにわたるビートスペク
トルのピークの振幅の平均化、帯域外の結果の除去、又
はカルマンフィルタリングを含む種々の公知の方法によ
って1つの主要なテンポを測定する。このようなアプロ
ーチは更にテンポ分析に限定されており、リズムの相似
性を測定するものではない。
は、リズムループのライブラリを探索するシステムのた
めにリズムの相似性を計算するものである。このアプロ
ーチでは、オーディオの波形の短時間フーリエ変換(S
TFT)を重み付けすることによって「低音の音量時系
列」が生成される。この時系列のパワースペクトルのピ
ークが基本周期として選択される。二連音符及び三連音
符の細区分を表すことができるように、フーリエ変換の
結果が正規化され、1ビートの1/6の持続時間に量子
化される。これは、テンポが変わらない場合のリズム相
似性の比較のための特徴ベクトルとして機能する。この
アプローチはドラムのみの曲には作用するが、周波数エ
ネルギーが大幅に低い音楽に対しては一般にあまりロバ
スト(頑強)ではない。
アプローチは、「ビートヒストグラム」として示される
リズムの自己相似性の測度を計算するものである。この
アプローチでは、多くの結果が利用できるように、複数
のウィンドウにわたるウェーブレット状特徴の振幅に対
して自動相関が行われる。各自動相関における主要なピ
ークが検出され、ヒストグラムに累積される。ビート/
分単位で測定されるヒストグラムのテンポ軸を得るため
に、各ピークの遅延時間が逆数にされる。得られたビー
トヒストグラムは、周期性対テンポの測度である。
己相似性の測定値を決定するために多数の自動相関にお
けるピークの選択に大きく依存していることにある。ジ
ャンルの分類では、主要ピークのテンポと、主要ピーク
間の振幅量と、を含むビートヒストグラムから特徴が得
られる。ビートヒストグラムを生成するためにピークの
選択に依存することにより、これらの方法は1つの連続
した表現ではなく自己相似性の不連続な測定値のカウン
トに帰着する。よって、ビートヒストグラムはオーディ
オの自己相似性の測度としてはあまり正確ではない。
ケーションも開発している。提案されるアプリケーショ
ンは「オートマチックDJ」として提供され、リズムの
相似性による曲の選択及びクロスフェードの双方を行う
ことができる。首尾のよいクロスフェードは、1つの音
楽作品から次の音楽作品への移行がほぼ継目のない場合
に生じる。次に続く音楽作品のテンポ及びリズムが現行
の音楽作品のテンポ及びリズムと綿密に類似している場
合、ほぼ継目のない移行を達成することができる。曲選
択のシステムは、テンポの「軌跡」、即ちテンポ対時間
の関数に基づいている。テンポの軌跡は、利用可能なワ
ークの数に基づいたタイム・「スロット」に量子化され
る。スロット及びワークは共にテンポによってランク付
けされており、ワークはランキングに応じたスロットに
割り当てられる。例えば、ランクの高さが2番目のスロ
ットは2番目に速いテンポの曲を得る。しかしながら、
このシステムは、音楽作品のテンポの検出が比較的簡潔
であるダンスミュージックのような狭いジャンルの楽曲
用に設計されている。このような楽曲の反復的及び打奏
的な性質のため、テンポの検出は簡潔になりうる。更
に、このタイプの音楽は一般に1つのワーク全体にわた
って一定のテンポを含んでおり、このことによってテン
ポの検出プロセスはより簡潔になる。よって、このシス
テムは多くのタイプの音楽にわたりロバストではない。
るタイプの音楽作品即ちオーディオ・ワークに対して機
能し、特定の属性に依存しない、オーディオの相似性分
析を行うためのロバストな方法が必要である。このロバ
ストな相似性方法は、全体的なビートスペクトル、又は
音響上の自己相似性の他の測定値を音楽作品間で比較す
るべきである。この方法は、テンポ、音楽作品における
ビートの周波数、リズム、1つの音符と次の音符との関
係、及び全ての音符とビートとの関係によって相似性を
測定すべきである。更に、ロバストな方法は、テンポが
2倍であると誤って判断される「ビートダブリング」の
影響や、テンポにおいて生じないエネルギーピーク又は
不適当に強いエネルギーピークによる混乱に耐えるべき
である。
出願第60/376,766号(「リズムの相似性によ
る楽曲のリトリーブ及び順序付け方法(Method For Retr
ieving And Sequencing Music by Rhythmic Similarit
y)」、2002年5月1日出願)及び米国特許出願第0
9/569,230号(「音楽及び音声を含むオーディ
オの自動分析方法(A Method for Automatic Analysis o
f Audio Including Music and Speech)」、2000年
5月11日出願)がある。また、他の先行技術文献中に
記載の発明においても上述の問題点は解決されていない
(例えば、非特許文献1、2参照)。
han T. Foote, et al.)著、「自己相似性を用いた楽曲
及びオーディオの可視化(Visualizing Music and Audio
UsingSelf-Similarity)」、エイシーエムマルチメディ
ア99(Proc. ACM Multimedia99) 、(米国)
・ツールボックス(Auditory Toolbox)」、テクニカルリ
ポート(Technical Report)#1998−010、インタ
ーナルリサーチコーポレーション(Internal Research C
orporation)、1998年、(米国)
オーディオ・ワーク間の相似性の測度を決定するための
ロバストな方法及びシステムを提供する。本発明の1つ
の実施の形態において、2つ以上のオーディオ・ワーク
間のリズムの相似性又は相違度を定量的に測定するため
の方法が提供される。この方法は、距離の尺度を用いる
ことによって複数のオーディオ・ワーク間でリズムの自
己相似性の測度を比較する。リズムの相似性は、時間に
対する平均自己相似性の測度を用いて計算することがで
きる。
の尺度に基づいて比較することのできるビートスペクト
ルがオーディオ・ワーク毎に計算される。距離の尺度
は、オーディオ・ワークの入力セットにおける1つのオ
ーディオ・ワークのビートスペクトルと他のオーディオ
・ワークのビートスペクトルとの間の距離を計算する。
例えば、2つ以上のビートスペクトル間のユークリッド
距離を計算することにより、音楽作品即ちオーディオ・
ワーク間の相似性の適切な測度が生じる。リズムの相似
性に相関した距離測定値を生じる多くの可能な距離関数
を使用することができる。その結果、種々のオーディオ
・ワーク間のリズム及びテンポによる相似性の測定値が
得られる。
低)のような、オーディオ・ワークの絶対的な音響特性
に依存しない。特に、異なる楽器によって演奏される同
一のリズムは同一のビートスペクトル及び相似性測度を
生じる。例えば、ハープシコードで演奏される簡単な曲
は、ピアノ、バイオリン、又はエレクトリックギターで
演奏された場合でもほぼ同一の相似性測度を生じる。
クのリトリーブ、リズム及びテンポの相似性によるワー
クのランク付け、並びに相似性による音楽作品の順序付
けを含む広範囲のアプリケーションにおいて、本発明の
実施の形態の方法を使用することができる。このような
方法は、広範囲の音源において使用可能である。
発明の第1の態様は、第1のオーディオ・ワーク及び第
2のオーディオ・ワークを受信するステップと、前記第
1のオーディオ・ワークを表す第1の特徴ベクトルを決
定するステップと、前記第2のオーディオ・ワークを表
す第2の特徴ベクトルを決定するステップと、前記第1
の特徴ベクトルから第1のビートスペクトルを計算する
ステップと、前記第2の特徴ベクトルから第2のビート
スペクトルを計算するステップと、前記第1のビートス
ペクトル及び前記第2のビートスペクトルの相似性の値
を測定するステップと、を含む、少なくとも2つのオー
ディオ・ワークの比較方法である。
第1のオーディオ・ワークに第1の複数のウィンドウを
設定するステップと、前記第2のオーディオ・ワークに
第2の複数のウィンドウを設定するステップと、を更に
含み、前記第1の特徴ベクトルを決定する前記ステップ
が、前記第1の複数のウィンドウを表す第1の複数の特
徴ベクトルを決定するサブステップを含み、前記第2の
特徴ベクトルを決定する前記ステップが、前記第2の複
数のウィンドウを表す第2の複数の特徴ベクトルを決定
するサブステップを含む。
のビートスペクトルを計算する前記ステップが、前記第
1の複数の特徴ベクトルの特徴ベクトル間の第1の相似
性を決定するサブステップと、前記第1の相似性から前
記第1のビートスペクトルを計算するサブステップと、
を含み、第2のビートスペクトルを計算する前記ステッ
プが、前記第2の複数の特徴ベクトルの特徴ベクトル間
の第2の相似性を決定するサブステップと、前記第2の
相似性から前記第2のビートスペクトルを計算するサブ
ステップと、を含む。
第1のビートスペクトルが遅延時間の関数であり、前記
第2のビートスペクトルが遅延時間の関数である。
第1のビートスペクトルが前記遅延時間に基づいて切り
捨てられ、前記第2のビートスペクトルが前記遅延時間
に基づいて切り捨てられる。
測定するステップが、前記第1のビートスペクトルと前
記第2のビートスペクトルとの間のユークリッド距離の
測定を含む。
測定するステップが、前記第1のビートスペクトルと前
記第2のビートスペクトルとの間の内積の測定を含む。
測定するステップが、前記第1のビートスペクトルと前
記第2のビートスペクトルとの間の正規化内積の測定を
含む。
測定するステップが、前記第1のビートスペクトル及び
前記第2のビートスペクトルのフーリエ変換を計算する
サブステップと、前記第1のビートスペクトル及び前記
第2のビートスペクトルの前記フーリエ変換間のユーク
リッド距離を測定するサブステップと、を含む。
記測定するステップが、前記第1のビートスペクトル及
び前記第2のビートスペクトルのフーリエ変換を計算す
るサブステップと、フーリエ変換された前記第1のビー
トスペクトル及び前記第2のビートスペクトル間の内積
を測定するサブステップと、を含む。
記測定するステップが、前記第1のビートスペクトル及
び前記第2のビートスペクトルのフーリエ変換を計算す
るサブステップと、フーリエ変換された前記第1のビー
トスペクトル及び前記第2のビートスペクトルの正規化
内積を測定するサブステップと、を含む。
似性を測定する前記ステップがリズム及びテンポによる
相似性の測定を含む。
似性を測定する前記ステップがリズムによる相似性の測
定を含む。
似性を測定する前記ステップがテンポによる相似性の測
定を含む。
信するステップと、前記オーディオ・ワークに複数のウ
ィンドウを設定するステップと、前記ウィンドウの各々
を表す特徴ベクトルを決定するステップと、前記各特徴
ベクトルの組み合わせの相似性行列を計算するステップ
と、前記相似性の測度からビートスペクトルを生成する
ステップと、を含む、オーディオ・ワークのビートスペ
クトルの決定方法である。
相似性行列を計算する前記ステップが、前記特徴ベクト
ルの組み合わせ間のユークリッド距離に基づいて計算さ
れる。
相似性行列を計算する前記ステップが、前記特徴ベクト
ルの組み合わせの内積に基づいて計算される。
相似性行列を計算する前記ステップが、前記特徴ベクト
ルの組み合わせの正規化内積に基づいて計算される。
前記ビートスペクトルが、前記オーディオ・ワークのラ
グの関数としての前記相似性行列の測定値である。
前記ビートスペクトルが、前記オーディオ・ワークのリ
ズムの経時変化の決定に使用される。
前記ビートスペクトルが、前記オーディオ・ワークのテ
ンポの経時変化の態様を示す。
ク及び第2のオーディオ・ワークを受信するステップ
と、前記第1のオーディオ・ワークを表す第1の特徴ベ
クトルを決定するステップと、前記第2のオーディオ・
ワークを表す第2の特徴ベクトルを決定するステップ
と、前記第1の特徴ベクトルから第1のビートスペクト
ルを計算するステップと、前記第2の特徴ベクトルから
第2のビートスペクトルを計算するステップと、前記第
1のビートスペクトル及び前記第2のビートスペクトル
の相似性の値を測定するステップと、をコンピュータに
より実行させ、少なくとも2つのオーディオ・ワークの
比較方法をコンピュータに実現させるためのプログラム
である。
以下を含む。 1.音楽の自動順序付け 2.類似したテンポで音楽を連結するオートマチック
「DJ」 3.音楽のジャンル分類 4.リズム構造は類似しているがテンポの異なる音楽の
サーチ 5.相似性の測定尺度に従った音楽のランク付け 6.「これに似た音楽を探索」機能 7.音楽作品の比較律動性の測定
機能及び利点は、以下の詳細な説明及び関連図面を考慮
することによって更に良く理解されるであろう。
の図面を用いて説明される。
けるオーディオ・ワークの分析方法のステップを示すフ
ローチャートである。
グループから1つのオーディオ・ワークがシステムによ
って受信される。音源としては、例えば.wavファイ
ルなどのアナログ信号、並びにMIDI(Musical Instr
ument DigitalInterface)ファイル及びMPEG3(M
P3)ファイルなどのデジタル信号が挙げられるが、こ
れらに限定されない。更に、コンパクトディスク、オー
ディオテープ、マイクロホン、電話、シンセサイザー、
又は音声信号を送信するあらゆる他の媒体からの入力と
して音声信号を受信することができる。しかしながら、
本発明の実施の形態をあらゆるタイプのオーディオ・ワ
ークと共に使用できることが理解される。
定(windowing) ステップ102では、受信したオーディオ・ワークにウ
ィンドウ設定を行う。このようなウィンドウ設定は、音
の波形の一部分にウィンドウを設定することにより実施
可能である。(即ち、音の波形の一部分を複数の小領域
(ウィンドウ化された部分)に分割することによりオー
ディオのサンプリングを行うことができる。)ウィンド
ウの幅及びオーバーラップは可変であってよい。例え
ば、ウィンドウの幅を256サンプルとし、128ポイ
ントオーバーラップさせることができる。16kHzで
サンプリングされたオーディオの場合、16mSのウィ
ンドウ幅及び125/秒のウィンドウ速度が生じる。し
かしながら、他の実施の形態では、当該技術分野におい
て公知である種々の他のウィンドウ設定方法を使用する
ことができる。
オ・ワークをパラメータ化する。フーリエ変換のような
音声信号部分のベクトル表現を提供する分析関数、もし
くはメル周波数ケプストラム係数(MFCC)分析を用い
て各ウィンドウをパラメータ化する。使用することので
きる他のパラメータ化方法は、線形予測、心理音響的考
察、又は場合によっては永久線形予測のようないくつか
の技術の組み合わせに基づいたものを含む。
256ポイントのハミングウィンドウを用いて各ウィン
ドウを拡大させ、高速フーリエ変換(FFT)をパラメ
ータ化のために用いてウィンドウ内のスペクトル成分を
推定する。しかしながら、これはほんの一例である。他
の実施の形態では、当該技術分野において公知である種
々の他のウィンドウ設定技術及びパラメータ化技術を使
用することができる。FFTの結果の大きさの対数が、
ウィンドウ内の信号のパワースペクトルの推定値として
使用される。高周波数成分は、低周波数成分ほどオーデ
ィオ・ワークの相似性の計算に有用ではないため、一般
にサンプリング周波数の1/4(Fs/4)を上回る高
周波数成分は除去される。得られた特徴ベクトルは、ウ
ィンドウのスペクトル内容を特徴付けている。
cture Experts Group)Layer3オーディオ規格のよ
うな他の圧縮技術をパラメータ化に用いることができ
る。MPEGはオーディオビジュアル情報をデジタル圧
縮フォーマットに符号化するために用いられる規格のフ
ァミリーである。MPEG Layer3はFFTに類
似したスペクトル表現を用いており、オーディオを復号
する必要性を回避する距離の測定値として使用すること
ができる。選択されるパラメータ化にかかわらず、得ら
れる所望の結果は各ウィンドウのパラメータのコンパク
トな特徴ベクトルである。
似した」ソースが類似したパラメータを生じる限りは重
大なことではない。しかしながら、異なるパラメータ化
が、異なる用途において多少有用であることがわかる場
合がある。例えば、粗いスペクトル形状を保つ一方でピ
ッチのために細かな調波構造を除去するMFCC表現は
一定の用途に適切であり得ることが、実験によってわか
っている。MFCCドメインにおける単一のピッチは、
調波そのものではなく調波の包絡線によって大まかに表
されている。従って、MFCCは、単一ピッチの音が存
在する場合は単一ピッチの音に適合するが、正確なピッ
チではなく類似した音色に適合する傾向にある。
・ツールボックス(Auditory Toolbox)」(Technical Re
port #1998-010、Internal Research Corporation、カ
リフォルニア州パロアルト、1998年)、(非特許文
献2)に記載されているもののような、心理音響的動機
に基づいたパラメータ化は、聞き手による相似性の判断
を更に良く再現する場合は特に好適になりうる。
柔軟性があり、パラメータ化のためにあらゆる既存の音
声分析方法の殆どを組み込むことができる。更に、異な
るパラメータ化関数を選択したり、例えば後続のステッ
プで決定されて得られる相似性行列のコントラストを最
大にするためにウィンドウのサイズを調節することによ
り、パラメータ化ステップを特定のタスク用に調節する
ことができる。
06においてパラメータを2次元の表現に埋め込む。オ
ーディオを埋め込む1つの方法は、その内容が全て本明
細書中に援用されている、本発明の発明者であるフート
著の「自己相似性を用いた楽曲及びオーディオの可視化
(Visualizing Music and Audio Using Self-Similarit
y)」(Proc. ACM Multimedia 99、フロリダ州オーラン
ド)、(非特許文献1)に記載されている。しかしなが
ら、他の実施の形態では、当該技術分野において公知で
ある種々の他のオーディオ埋め込み方法を使用すること
ができる。
似性の測度、即ち2つの特徴ベクトルvi及びvj間の相
違度(D)である。前述のように、特徴ベクトルvi及
びvjはそれぞれ、パラメータ化ステップでオーディオ
・ウィンドウi及びjに対して決定される。
間におけるユークリッド距離、即ち特徴ベクトルパラメ
ータ間の差異の二乗の合計の平方根である。これは下記
のように表される。 DE(i,j)≡‖vi−vj‖
スカラー内積である。ユークリッド距離とは対照的で、
特徴ベクトルが共に大きく、類似した方向にある場合に
特徴ベクトルの内積が大きくなる。内積を下記のように
表すことができる。 Dd(i,j)≡vi・vj
他の相似性測定法では、内積を正規化して、特徴ベクト
ルパラメータ間の角度のコサインを生じることができ
る。特徴ベクトル間の角度のコサインは、たとえ特徴ベ
クトルの大きさが小さくても大きな相似性の評点を生じ
る、といった性質をもつ。パーセバルの関係のため、各
特徴ベクトルのノルムは、特徴ベクトルが割り当てられ
ているウィンドウ内の平均信号エネルギーに比例する。
用いられる特徴ベクトル間の角度のコサインを生じる正
規化内積を下記のように表すことができる。 DC(i,j)≡(vi・vj)/‖vi‖‖vj‖
エネルギーの特徴ベクトル(例えば無音を含むもの)の
スペクトルが類似するであろうことを意味し、これは一
般に望ましいことである。特徴ベクトルは、譜面上の一
般的な音楽事象よりもはるかに速い速度で生じるため、
更に大きなウィンドウの範囲「s」(本明細書ではウィ
ンドウの範囲を「スタック」と呼ぶ)にわたって特徴ベ
クトルの相関を計算することにより、更に望ましい相似
性の測度を得ることができる。また、この更に大きな範
囲は、特徴ベクトルの時間依存の徴候を得る。ウィンド
ウが相似性で高い評点を得るには、スタックの特徴ベク
トルが類似しているだけでなく、その数列も類似してい
なければならない。スタックsにわたる特徴ベクトルv
i及びvjの相似性の測定値を下記のように表すことがで
きる。 D(i,j,s)≡1/wΣD(i+k,j+k) 1次元の例を考えると、スカラー数列(1,2,3,
4,5)のコサイン相似性の評点は、数列(5,4,
3,2,1)に対するものよりもそれ自体(数列(1,
2,3,4,5))に対するものの方がはるかに高い。
似性が高くなるにつれて大きくなるが、ユークリッド距
離はゼロに近づくことに注意されたい。測定タイプ間で
相似性の適切な感度を得るために、ユークリッド距離を
逆数にすることができる。統計的な尺度や、本明細書中
で先に開示された距離関数(metric)の例に重みを付けた
ものなど、他の妥当な距離測定法を距離の埋め込みに用
いることができる。
い。他の実施の形態では、当該技術分野に公知である種
々の他の尺度を使用することができる。
しくはインスタンスの関数である。信号内の可能な全て
のインスタンス間の相似性を考慮することが望ましい場
合がある。これは、図1のステップ106において示さ
れるように、距離測定値Dを2次元の行列表現Sに埋め
込むことによって行われる。行列Sは、全てのウィンド
ウ、即ち全ての時係数i及びjに対して計算される相似
性を含み、行列Sのi,j要素はD(i,j)となる。
各ウィンドウは自己に対して最大に類似するため、Sは
一般に対角線上で最大の値を有する。
できる。相似性測定値D(i,j)に比例するグレース
ケール値が各ピクセルi,jに与えられ、最大値には最
大の輝度が与えられるように各ピクセルi,jが調節さ
れる。これらの可視化により、オーディオファイルの構
造を明確に理解することができる。無音や長く伸びた音
など、音の相似性が高い領域は対角線上で明るい矩形と
して現れる。テーマ、楽句、又はコーラスのような反復
音形は、対角線から外れた明るい長方形として可視にな
る。音楽に反復が多い場合、これは斜めのストライプや
市松模様として可視になり、これらは反復の時間だけ主
対角線からオフセットされる。
ル」 図1に示されるような埋め込みオーディオパラメータの
1つのアプリケーションは、図1のステップ108によ
って示されるようなビート分析である。ビート分析で
は、音楽におけるビートの周期性及び相対強度の双方を
得ることができる。音楽のリズムを識別するための、ラ
グの関数としての自己相似性の測定値を、本明細書では
「ビートスペクトル」B(l)と称する。反復が非常に
多い音楽は、反復時間においてビートスペクトルの高い
ピークを有する。これによって特定のビートのテンポ及
び相対強度の双方が明らかになり、従って同一のテンポ
における異なる種類のリズムを区別することができる。
ビートスペクトルのピークは音の周期性に対応する。対
角線に沿ったSを合計することにより、ビートスペクト
ルの簡潔な推定値を下記のように見出すことができる。
に沿った合計であり、B(1)は第1の副対角線に沿っ
た合計、などである。
したものが、下記のようなSの自動相関である。 B(k,1)=ΣS(i,j)S(i+k,j+1) しかしながら、B(k,1)は対称であるため、1つの
変数に関して合計するだけで1次元の結果B(1)を生
じる。ビートスペクトルB(1)は、音楽のジャンル、
テンポ及びリズム構造の範囲にわたって良好な結果をも
たらす。
報を除去する。本発明の実施の形態に従って、リズムの
経時変化を分析するためにビートスペクトルが導入され
る。スペクトログラムは連続するウィンドウのフーリエ
分析を描写し、スペクトルの経時変化を示す。同様に、
ビートスペクトログラムは連続するウィンドウにわたる
ビートスペクトルを示し、リズムの経時変化を表示す
る。
クトルによって形成される画像である。時間がx軸であ
り、遅延時間がy軸である。ビートスペクトログラムの
各ピクセルは、時間及び遅延におけるビートスペクトル
の目盛値で特徴付けられるため、ビートスペクトルのピ
ークはビートスペクトグラムにおいて明るいバーとして
可視になる。ビートスペクトログラムは、テンポが経時
変化する態様を示す。例えば、速くなるリズムは、時間
が経つにつれてビート間の遅延時間が減少するため、下
向きに傾斜する明るいバーとして可視になる。
ートスペクトルを計算した後、ステップ110におい
て、比較するオーディオ・ワークが更にあるか否かを判
断する。オーディオ・ワークが更にあると判断した場
合、制御はステップ100に戻り、更なるオーディオ・
ワーク毎にこの方法を続ける。しかし、比較すべきオー
ディオ・ワークがないと判断した場合は、制御はステッ
プ112に移る。
の計算として、この方法のステップ100乃至ステップ
108を連続して説明したが、ステップ100乃至ステ
ップ108を同時に行い、各オーディオ・ワークのビー
トスペクトルを同時に計算できることが理解されるであ
ろう。
クトル間の相似性の測定 2つ以上のオーディオ・ワークのビートスペクトルを計
算した後、本方法は2つ以上のビートスペクトル間の相
似性を測定する(ステップ112)。ビートスペクトル
は遅延時間lの関数である。実際には、lは離散的であ
り、有限である。
は、L次元のベクトルB1(L)及びB2(L)を形成す
るL個の離散値に切り捨てられる。例えば、短遅延スペ
クトル及長遅延スペクトルは無視される。短遅延スペク
トルは遅延時間が短いビートスペクトルの部分であり、
長遅延スペクトルは遅延時間が長いビートスペクトルの
部分である。高相似性の測度を表すピークが常に存在
し、このピークにおいて遅延時間はゼロに等しくなる。
これは、ビートスペクトルの計算の際に同一のインスタ
ンスにおけるベクトルパラメータの自己比較を表すため
であり、従って相似性の測度の決定に有益ではない。ま
た、短遅延スペクトルはリズムとして考慮するには速す
ぎるため、有益ではない。
ズムの反復のために、さほど有益ではない。同一の情報
がデータにおいて短い遅延時間で反復される場合がある
ため、長い遅延時間のデータを無視することが更に効率
的である。また、長い遅延時間において、ビートスペク
トルの大きさは相関のウィンドウの幅のために少しずつ
小さくなっており、これによってデータが有益でなくな
る。1つの実施の形態では、最初の116ミリ秒の短遅
延スペクトルと4.75秒の長遅延スペクトルが無視さ
れる。その結果、L個の値の長さを有するゼロ平均ベク
トルが生じる。1つの実施の形態では、遅延は各抜粋に
対して約117ミリ秒乃至約4.74秒にわたる場合が
ある。しかしながら、他の実施の形態では、遅延は数ミ
リ秒乃至5秒を上回る値に及ぶ場合がある。短遅延時間
及び長遅延時間を無視する範囲が変化することは、当業
者には明らかであろう。
ベクトルに適用した後、ビートスペクトル間のリズムの
相似性を計算する。リズムの相似性に直接又は逆に相関
した距離測定値を生じる多くの可能な距離関数を使用す
ることができる。例えば、増加するリズム相似性に相関
したより小さな距離の値を生じ、減少するリズム相似性
に相関したより大きな距離の値を生じる距離関数が適切
である。
つの測度は、パラメータ空間におけるユークリッド距
離、即ちベクトルパラメータ間の差異の二乗の合計の平
方根である。このパラメータを下記のように表すことが
できる。 DE(i,j)≡‖vi−vj‖
2つのビートスペクトルベクトル間のスカラー内積であ
る。ユークリッド距離とは対照的で、ベクトルが共に大
きく、類似した方向にある場合にベクトルの内積が大き
くなる。同様に、ベクトルが共に小さく、類似した方向
にある場合にベクトルの内積が小さくなる。内積を下記
のように表すことができる。 Dd(i,j)≡vi・vj
のエネルギーに対する依存を取り除くことができる。1
つの実施の形態では、大きさからの独立を達成するため
に、内積を正規化して2つのビートスペクトルベクトル
パラメータ間の角度のコサインを生じることができる。
ベクトル間の角度のコサインは、たとえベクトルの大き
さが小さくても大きな相似性測定値を生じる、といった
性質をもつ。ビートスペクトルのベクトル間の角度のコ
サインを生じる正規化内積を下記のように表すことがで
きる。 DC(i,j)≡(vi・vj)/‖vi‖‖vj‖
に対してフーリエ変換が計算される。この距離の尺度
は、ビートスペクトルのフーリエ係数に基づいたもので
ある。これらの係数は、より少ないパラメータを用いて
ビートスペクトルのスペクトル形状を表す。1つの実施
の形態では、ビートスペクトルをコンパクトに表現する
ことにより、ビートスペクトル間の距離の尺度を決定す
るための計算を簡素化している。要素をより少なくした
ことで、距離の比較が速くなり、各ファイルを表すため
に記憶しなければならないデータの量が減少される。
の対数を決定し、各係数から平均値を減ずる。1つの実
施の形態では、ビートスペクトルにおける高周波数はリ
ズムの観点から有意ではないため、ビートスペクトルに
おいて高周波数を表す係数が切り捨てられる。他の実施
の形態では、直流成分がゼロ平均データには無意味であ
るため、ゼロ番目の係数も切り捨てられる。切り捨てに
続き、残りのゼロ平均フーリエ係数に対してコサインの
距離関数を計算する。コサイン距離関数から得た結果が
最終的な距離関数である。
力データからの更に少数の係数を用いて、コサイン距離
関数と同じように作用する。係数の数は120から25
に減少された。係数の数が20.83%に減少したこと
により、30の関連ドキュメントのうち29を生じ、9
6.7%の精度を生じた。この性能は、一桁少ない数の
パラメータを用いて達成された。設定される入力データ
のセットは小さいが、本明細書に示される方法は任意の
数及びサイズのオーディオ・ワークに同様に適用可能で
ある。当業者は、周知のデータベース編成技術を用いて
サーチ時間を短くすることができる。例えば、サーチコ
ストがファイルの数の対数分しか増加しないようにファ
イルを階層的にクラスタ化することができる。
対して計算されたビートスペクトルB(l)の例を示し
ている。前述のように、ビートスペクトル間の距離の計
算を簡素にするために短遅延時間及び長遅延時間を無視
することができる。
130bpmにわたる、2bpm間隔での11のテンポ
変化のビートスペクトル間のユークリッド距離の結果を
示している。この図は、ビートスペクトル間のユークリ
ッド距離を用いて音楽作品をテンポにより区別できるこ
とを示している。特徴付けられたバーは、一対のビート
スペクトル間のペアワイズ二乗(pair-wise squared)ユ
ークリッド距離を表している。セット内の各抜粋は、同
一の音楽の抜粋のテンポが異なったバージョンである。
テンポの異なる同一の抜粋を得るために、ピッチを変え
ずに音楽の波形の持続時間を変えた。オリジナルの抜粋
は120bpmで演奏された。テンポの異なる10のバ
リエーションをオリジナルの抜粋から生成した。各抜粋
のビートスペクトルを計算し、各対のビートスペクトル
のペアワイズ二乗ユークリッド距離を計算した。各々の
垂直のバーは、セット内の1つのソースファイルと全て
の他のファイルとの間のユークリッド距離を示してい
る。ソースファイルは、各々の垂直のバーがゼロのユー
クリッド距離を有する箇所で表される。位置300は、
0.5秒の時間において強いビートスペクトルのピーク
を示している。このビートスペクトルのピークは、12
0bpmのテンポ、即ち0.5秒の周期から予測される
ピークに対応する。
ッド距離はテンポの値の増加に伴って比較的単調に増加
する。例えば、130bpmのテンポにおけるビートス
ペクトルのピーク302は、122bpmのテンポにお
けるビートスペクトルのピーク304が生じる時間より
もわずかに早く生じる。また、122bpmのテンポに
おけるビートスペクトルのピーク304は、110bp
mのテンポにおけるビートスペクトルのピーク306が
生じる時間よりもわずかに早く生じる。スペクトルのピ
ークのわずかなオフセットは、テンポの増加に伴うユー
クリッド距離の単調な増加を示している。よって、ユー
クリッド距離を用いて音楽をテンポによって順序付ける
ことができる。
ド距離410対テンポ420の一連の測定値を示してい
る。この図において、110bpm乃至130bpmに
わたるテンポを有する11のクエリーが表されている。
各曲線は、データのセット内の全ての抜粋と比較した、
1つの抜粋、即ちクエリーのユークリッド距離を表して
いる。例えば、N個の抜粋を有するデータのセットにお
いて、そのN個の抜粋のうちの1つがクエリーとして選
択される。クエリーは、ユークリッド距離関数を用いて
データのセット内の全てのN個の抜粋と比較される。ユ
ークリッド距離は、クエリーを含む抜粋の自己比較が行
われた箇所ではゼロである。従って、ソースファイル
は、ユークリッド距離がゼロである箇所(412)にお
いて表される。また、グラフにおいてユークリッド距離
がゼロである点はクエリーのテンポ(bpm)を示して
いる。
トのビートスペクトルを示している。
ータを要約したものである。4つの歌曲の複数の10秒
サンプルを抽出した。各歌曲は、3つの10秒の抜粋に
よって表される。音楽的な目的で関連性を判断すること
は一般に複雑で主観的なタスクであるが、この場合、各
サンプルは、同一歌曲の他のサンプルと関連しており、
他の歌曲のサンプルとは関連していないものと仮定す
る。本実施の形態において、ポップ/ロックの歌曲は、
歌詞(verse)とコーラスのリズムが著しく異なるため、
この仮定に対して例外とみなされる。従って、ポップ/
ロックの歌曲の歌詞及びコーラスは互いに関連していな
いものと仮定する。よって、「Never Loved You Anywa
y」というポップ/ロックの歌曲のコーラス及び歌詞
は、それぞれが3つの10秒の抜粋によって表される。
の10秒サンプルを要約しており、15の抜粋を生じ
る。関連セットは3つの歌曲と2つの歌曲部分からな
る。各関連セットを含む抜粋は、リズム及びテンポが互
いに類似している。関連セットは、各セット内の抜粋間
のビートスペクトルの相似性測度が高いことを表してい
る。
抜粋からのインデックス番号が、x軸560に示される
時間(秒)に対してプロットされている。グラフの各列
は、異なる抜粋毎のビートスペクトルを表している。
「Musica Si Theme」という歌曲は、図6では抜粋1
3、14及び15として表されている。抜粋13、14
及び15のビートスペクトルは類似している。図5の行
50013、50014及び50015はそれぞれ、図6の抜
粋13、14及び15の各ビートスペクトルに対し、約
0.25秒という同じ時間のインスタンスにおいて明る
いバーを示している。同様に、位置50213、50214
及び50215に示される各ビートスペクトルに対し、約
0.50秒という同じ時間のインスタンスにおいて明る
いバーの他のセットが存在する。更に、位置50513、
50514及び50515も同じ時間のインスタンスにおい
て明るいバーを示している。行50013によって示され
るような、抜粋13のビートスペクトル内の高い自己相
似性を示す明るいバーの反復は、行50015によって示
されるような抜粋15のビートスペクトル内の明るいバ
ーの反復によってほぼ再現されている。また、行500
14によって示される抜粋14のビートスペクトルは、行
50013及び50015によってそれぞれ示される抜粋曲
13及び15のビートスペクトルに似ている。従って、
抜粋13、14及び15は同一の関連セットを含む。
u Anyway」という歌曲は、関連セットB及びCといった
2つの関連セットによって表されている。図6では、抜
粋6、7及び9が関連セットCを含んでいる。位置50
66、5067及び5069は、抜粋6、7及び9のビー
トスペクトル内の同じ時間のインスタンスにおいて明る
いバーの反復を示している。しかし、位置508によっ
て示される抜粋8からの明るいバーは、位置5066、
5067及び5069からの明るいバーと揃っていない。
むしろ、508は位置510によって示される抜粋5と
近密に揃っている。また、抜粋5からの位置512及び
抜粋8からの位置514は近密に揃っている。更に、抜
粋5からの位置516及び抜粋曲8からの位置518も
近密に揃っている。従って、抜粋5及び抜粋8は、図6
に示されるように同一の関連セット、即ち関連セットB
に分類される。
ためのオートマチック「DJ」 リズムの相似性の測度を考慮すると、これに関連する問
題は、隣接する音楽ファイル間の相似性を最大にするよ
うに多数の音楽ファイルを順序付けることである。この
ような順序付けによって音楽ファイル間のセグエが更に
スムーズになり、これにはいくつかのアプリケーション
がある。ユーザがCD又は持続時間の制限された記録媒
体に記録するために多数のファイルを選択した場合、こ
れらのファイルをリズムの相似性によって並べることが
できる。
の測度を用いるアプリケーションは、連続する各歌曲間
の移行がスムーズになるように、歌曲を類似したテンポ
によって並べることができる。連続する歌曲間のビート
スペクトルの差異を最小にすることにより、適切に順序
付けられた音楽のセットを得ることができる。これによ
り、歌曲の移行が耳障りにならないことが保証される。
ンコリックな歌曲の後にテンポが速かったりエネルギッ
シュな歌曲が続くと、かなり耳障りになり得る。このア
プリケーションでは、ワークの始めに近いビートスペク
トル及びワークの終わりに近いビートスペクトルといっ
た2つのビートスペクトルをワーク毎に計算する。第1
のワークの終わりのセグメントと第2のワークの始めの
セグメントとの間のビートスペクトルの距離から、ワー
ク間の特定の移行が適切であるという見込みを計算す
る。
目の入力がワークiの終わりとワークjの始めとの間の
ビートスペクトルの距離である距離行列を構築すること
ができる。一般にワークiとワークjとの間の距離は、
ワークjとワークiとの間の距離と同一ではないため、
この距離行列は対称ではないことに注意されたい。よっ
て、距離行列は一般に非対称である。この場合のタスク
は、歌曲間の距離の合計が最小値になるように、選択さ
れた歌曲を順序付けることである。行列形式では、超対
角線の合計を最小にする距離行列の順列を見出すことが
望まれる。
リーディ(greedy)アルゴリズムを適用することができ
る。グリーディアルゴリズムは、局所最適値を選択する
ことによりアルゴリズムにおいて1つの手順を行い、手
順を行うことができなくなるまで局所最適値を選択する
アルゴリズムである。グリーディアルゴリズムの一例は
クラスカルのアルゴリズムであり、これは最小全域ツリ
ーにおいて最小の重みをもつエッジを選択する。本発明
の方法の変形例は、特定のワークによるシーケンスの開
始又は終了の要求などの制約を含む。特定のアプリケー
ションは、その演奏リストを決定するために任意の数の
アルゴリズムに従うことができる。歌曲間のセグエがス
ムーズになるような歌曲間の移行プロセスは、熟練した
DJやMuzak(商品名)などの「環境」音楽のベン
ダーによって手動で行われる。
つワークの「テンプレート」の生成である。テンプレー
トが生成されると、アルゴリズムは、シーケンスの完全
な反復が生じないように場合によってはランダム要素を
用いて、更に大きな音楽コレクションをテンプレートと
の相似性に応じて自動的に順序付けることができる。例
えば、テンプレートは始めにテンポの速い歌曲、そして
半ばに適度なテンポの歌曲を指定し、時間の経過に伴っ
て歌曲コレクション内の更にテンポの遅い歌曲へと徐々
に移行させることができる。
ジャンルに分類することができる。音楽作品のビートス
ペクトルを、対応するフーリエ係数によって表すことが
できる。フーリエ係数はベクトル空間を含む。従って、
多くの共通の分類技術及び機械学習技術を使用して、音
楽作品をその対応ベクトル表現に基づいて分類すること
ができる。例えば、統計分類器を構築し、未知の音楽作
品を所与の種類又はジャンルのセットに分類することが
できる。音楽のジャンルは、ブルース、クラシック、ダ
ンス、ジャズ、ポップ、ロック、及びラップを含むこと
ができる。統計分類法の例としては、線形識別関数、マ
ハラノビスの距離、ガウスの混合モデル、及びK−最近
傍法などのノンパラメトリック法などが挙げられる。ま
た、種々の管理された分類法や未管理の分類法を用いる
ことができる。例えば、未管理のクラスタリングは、オ
ーディオ・ワークの異なるジャンルや他の分類特性を自
動的に決定することができる。
異なる音楽のサーチ 本発明の他のアプリケーションでは、リズム構造は類似
しているがテンポの異なる音楽のサーチを行うことがで
きる。このようなサーチを行う際は、遅延時間を調節す
ることによってビートスペクトルを正規化する。1つの
実施の形態では、最大のピークが一致するように全ての
ビートスペクトルの遅延軸を調節することによって正規
化を達成することができる。このようにして、距離の測
定の尺度により、テンポにかかわらずリズムの類似した
音楽が見出される。許容可能な距離の尺度は、ユークリ
ッド距離、内積、正規化内積、及びフーリエ変換を含
む。しかしながら、リズムの相似性に直接相関するか又
は逆相関した距離測定値を生じるあらゆる距離の尺度
を、調節されたスペクトルに対して使用することができ
る。
け 他のアプリケーションでは、ユーザのコレクション内の
音楽が「ビートスペクトル」の測定規準を用いて分析さ
れる。この測定規準は、録音された音楽のリズム及びテ
ンポを自動的に特徴付ける方法を提供する。ユーザのコ
レクション内の各音楽ファイルのビートスペクトルを計
算する。相似性の測度が設けられると、1つ以上の選択
されたクエリーファイルとの相似性、又はビートスペク
トルを測定することのできるあらゆる他の音楽ソースと
の相似性によってファイルをランク付けすることができ
る。これにより、ユーザはリズムの相似性によって音楽
のコレクションをサーチすることができる。
ーションにおける音楽業者は「これに似た音楽を探索」
サービスを実施することができる。ユーザは音楽作品を
選択し、選択された音楽作品を「これに似た音楽を探
索」操作におけるクエリーファイルとして提出する。シ
ステムはクエリーファイルのビートスペクトルを計算
し、クエリーファイルと音楽ベンダーのコレクション内
の種々の歌曲との間の相似性の測度を計算する。システ
ムは、相似性の測度に応じて音楽をユーザに返す。1つ
の実施の形態では、返された音楽の相似性測度は許容範
囲内に入る。例えば、コレクション内の音楽のうちクエ
リーファイルのリズム及びテンポに最も近い上位10%
の音楽を返すために、システムは各音楽作品の相似性測
度をランク付けする。ランク付けの完了後、システムは
相似性測度の最も高い音楽のうち上位10%の音楽を返
す。
の「律動性」、即ちどのくらいのリズムを音楽が含む
か、を測定することである。例えば、同一のポピュラー
ソングを、1つ目は歌とアコースティックギターのみの
もの、2つ目はベースとドラムを含むフルリズムセクシ
ョンのついたもの、といった2つのバージョンで録音す
ることができる。たとえテンポ及びメロディーは同一で
あっても、殆どの聞き手は、1つ目の「アコースティッ
ク」バージョンは2つ目のドラム付きバージョンよりも
律動性が低く、拍子を取るのが難しいと報告するであろ
う。中間遅延領域における軌跡を調べることにより、こ
の差異の測度をビートスペクトルから抽出することがで
きる。非常に律動的なワークは大きな軌跡及び周期性を
有し、さほど律動的でないワークは応じてより小さいピ
ーク間の測定値を有する。従って、律動性の簡潔な尺度
はビートスペクトルの最大の正規化ピーク−トラフ(tro
ugh)軌跡である。更にロバストな測定は、ビートスペク
トルのフーリエ変換の中間周波帯のエネルギーを調べる
ことである。中間周波帯は一般に0.2Hz(5秒ごと
に1拍)乃至5Hz(1秒当り5拍)に及ぶ。適切なフ
ーリエビートスペクトル係数の対数の大きさを合計する
ことにより、この定量的な測度が生じる。
態は本発明の原理の例示にすぎず、本発明の請求の範囲
及び趣意から逸脱せずに種々の変更例を当業者によって
実施できることを理解すべきである。
ップを示すフローチャートである。
(l)の例を示す図である。
果を示す図である。
示す図である。
クトルを示す図である。
約する情報を含む図である。
Claims (22)
- 【請求項1】 第1のオーディオ・ワーク及び第2のオ
ーディオ・ワークを受信するステップと、 前記第1のオーディオ・ワークを表す第1の特徴ベクト
ルを決定するステップと、 前記第2のオーディオ・ワークを表す第2の特徴ベクト
ルを決定するステップと、 前記第1の特徴ベクトルから第1のビートスペクトルを
計算するステップと、 前記第2の特徴ベクトルから第2のビートスペクトルを
計算するステップと、 前記第1のビートスペクトル及び前記第2のビートスペ
クトルの相似性の値を測定するステップと、 を含む、少なくとも2つのオーディオ・ワークの比較方
法。 - 【請求項2】 前記第1のオーディオ・ワークに第1の
複数のウィンドウを設定するステップと、 前記第2のオーディオ・ワークに第2の複数のウィンド
ウを設定するステップと、 を更に含み、 前記第1の特徴ベクトルを決定する前記ステップが、前
記第1の複数のウィンドウを表す第1の複数の特徴ベク
トルを決定するサブステップを含み、 前記第2の特徴ベクトルを決定する前記ステップが、前
記第2の複数のウィンドウを表す第2の複数の特徴ベク
トルを決定するサブステップを含む、 請求項1に記載の方法。 - 【請求項3】 第1のビートスペクトルを計算する前記
ステップが、 前記第1の複数の特徴ベクトルの特徴ベクトル間の第1
の相似性を決定するサブステップと、 前記第1の相似性から前記第1のビートスペクトルを計
算するサブステップと、 を含み、 第2のビートスペクトルを計算する前記ステップが、 前記第2の複数の特徴ベクトルの特徴ベクトル間の第2
の相似性を決定するサブステップと、 前記第2の相似性から前記第2のビートスペクトルを計
算するサブステップと、 を含む、請求項2に記載の方法。 - 【請求項4】 前記第1のビートスペクトルが遅延時間
の関数であり、前記第2のビートスペクトルが遅延時間
の関数である、請求項1に記載の方法。 - 【請求項5】 前記第1のビートスペクトルが前記遅延
時間に基づいて切り捨てられ、前記第2のビートスペク
トルが前記遅延時間に基づいて切り捨てられる、請求項
4に記載の方法。 - 【請求項6】 前記測定するステップが、前記第1のビ
ートスペクトルと前記第2のビートスペクトルとの間の
ユークリッド距離の測定を含む、請求項1に記載の方
法。 - 【請求項7】 前記測定するステップが、前記第1のビ
ートスペクトルと前記第2のビートスペクトルとの間の
内積の測定を含む、請求項1に記載の方法。 - 【請求項8】 前記測定するステップが、前記第1のビ
ートスペクトルと前記第2のビートスペクトルとの間の
正規化内積の測定を含む、請求項1に記載の方法。 - 【請求項9】 前記測定するステップが、 前記第1のビートスペクトル及び前記第2のビートスペ
クトルのフーリエ変換を計算するサブステップと、 前記第1のビートスペクトル及び前記第2のビートスペ
クトルの前記フーリエ変換間のユークリッド距離を測定
するサブステップと、 を含む、請求項1に記載の方法。 - 【請求項10】 前記測定するステップが、 前記第1のビートスペクトル及び前記第2のビートスペ
クトルのフーリエ変換を計算するサブステップと、 フーリエ変換された前記第1のビートスペクトル及び前
記第2のビートスペクトル間の内積を測定するサブステ
ップと、 を含む、請求項1に記載の方法。 - 【請求項11】 前記測定するステップが、 前記第1のビートスペクトル及び前記第2のビートスペ
クトルのフーリエ変換を計算するサブステップと、 フーリエ変換された前記第1のビートスペクトル及び前
記第2のビートスペクトルの正規化内積を測定するサブ
ステップと、 を含む、請求項1に記載の方法。 - 【請求項12】 相似性を測定する前記ステップがリズ
ム及びテンポによる相似性の測定を含む、請求項1に記
載の方法。 - 【請求項13】 相似性を測定する前記ステップがリズ
ムによる相似性の測定を含む、請求項1に記載の方法。 - 【請求項14】 相似性を測定する前記ステップがテン
ポによる相似性の測定を含む、請求項1に記載の方法。 - 【請求項15】 オーディオ・ワークを受信するステッ
プと、 前記オーディオ・ワークに複数のウィンドウを設定する
ステップと、 前記ウィンドウの各々を表す特徴ベクトルを決定するス
テップと、 前記各特徴ベクトルの組み合わせの相似性行列を計算す
るステップと、 前記相似性の測度からビートスペクトルを生成するステ
ップと、 を含む、オーディオ・ワークのビートスペクトルの決定
方法。 - 【請求項16】 相似性行列を計算する前記ステップ
が、前記特徴ベクトルの組み合わせ間のユークリッド距
離に基づいて計算される、請求項15に記載の方法。 - 【請求項17】 相似性行列を計算する前記ステップ
が、前記特徴ベクトルの組み合わせの内積に基づいて計
算される、請求項15に記載の方法。 - 【請求項18】 相似性行列を計算する前記ステップ
が、前記特徴ベクトルの組み合わせの正規化内積に基づ
いて計算される、請求項15に記載の方法。 - 【請求項19】 前記ビートスペクトルが、前記オーデ
ィオ・ワークのラグの関数としての前記相似性行列の測
定値である、請求項15に記載の方法。 - 【請求項20】 前記ビートスペクトルが、前記オーデ
ィオ・ワークのリズムの経時変化の決定に使用される、
請求項15に記載の方法。 - 【請求項21】 前記ビートスペクトルが、前記オーデ
ィオ・ワークのテンポの経時変化の態様を示す、請求項
15に記載の方法。 - 【請求項22】 第1のオーディオ・ワーク及び第2の
オーディオ・ワークを受信するステップと、 前記第1のオーディオ・ワークを表す第1の特徴ベクト
ルを決定するステップと、 前記第2のオーディオ・ワークを表す第2の特徴ベクト
ルを決定するステップと、 前記第1の特徴ベクトルから第1のビートスペクトルを
計算するステップと、 前記第2の特徴ベクトルから第2のビートスペクトルを
計算するステップと、 前記第1のビートスペクトル及び前記第2のビートスペ
クトルの相似性の値を測定するステップと、 をコンピュータにより実行させ、少なくとも2つのオー
ディオ・ワークの比較方法をコンピュータに実現させる
ためのプログラム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US37676602P | 2002-05-01 | 2002-05-01 | |
US60/376766 | 2002-05-01 | ||
US10/405192 | 2003-04-01 | ||
US10/405,192 US20030205124A1 (en) | 2002-05-01 | 2003-04-01 | Method and system for retrieving and sequencing music by rhythmic similarity |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003330460A true JP2003330460A (ja) | 2003-11-19 |
JP4581335B2 JP4581335B2 (ja) | 2010-11-17 |
Family
ID=29273069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003125157A Expired - Fee Related JP4581335B2 (ja) | 2002-05-01 | 2003-04-30 | 少なくとも2つのオーディオ・ワークの比較方法、少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム、オーディオ・ワークのビートスペクトルの決定方法、及びオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20030205124A1 (ja) |
JP (1) | JP4581335B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007077993A1 (ja) * | 2006-01-06 | 2007-07-12 | Sony Corporation | 情報処理装置および方法、並びに記録媒体 |
JP2008529047A (ja) * | 2005-01-21 | 2008-07-31 | アンリミテッド メディア ゲーエムベーハー | 音声信号用フットプリントを生成する方法 |
JP2008250008A (ja) * | 2007-03-30 | 2008-10-16 | Yamaha Corp | 楽音処理装置およびプログラム |
JP2009516240A (ja) | 2005-10-14 | 2009-04-16 | ヤフー! インコーポレイテッド | メディアを選択するための方法とシステム |
WO2013179743A1 (ja) * | 2012-05-30 | 2013-12-05 | 株式会社Jvcケンウッド | 曲順決定装置、曲順決定方法、および曲順決定プログラム |
JP2017161574A (ja) * | 2016-03-07 | 2017-09-14 | ヤマハ株式会社 | 音信号処理方法および音信号処理装置 |
Families Citing this family (91)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4302967B2 (ja) * | 2002-11-18 | 2009-07-29 | パイオニア株式会社 | 楽曲検索方法、楽曲検索装置及び楽曲検索プログラム |
WO2004075093A2 (en) * | 2003-02-14 | 2004-09-02 | University Of Rochester | Music feature extraction using wavelet coefficient histograms |
EP1489617A1 (en) * | 2003-06-19 | 2004-12-22 | Matsuhita Electric Industrial Co., Ltd. | Music reproducing apparatus and music reproducing method |
DE602004017475D1 (de) * | 2003-08-07 | 2008-12-11 | Thomson Licensing | Verfahren zum wiedergeben von audio-dokumenten mit hilfe einer schnittstelle mit dokumentgruppen und assoziierte wiedergabeeinrichtung |
WO2005071662A1 (en) * | 2004-01-21 | 2005-08-04 | Koninklijke Philips Electronics N.V. | Method and system for determining a measure of tempo ambiguity for a music input signal |
DE112005000741T5 (de) * | 2004-03-31 | 2007-05-03 | Denso It Laboratory, Inc. | Programmtabellen-Erzeugungsverfahren, Programmtabellen-Erzeugungsvorrichtung und Programmtabellen-Erzeugungssystem |
US7592534B2 (en) * | 2004-04-19 | 2009-09-22 | Sony Computer Entertainment Inc. | Music composition reproduction device and composite device including the same |
JP4581476B2 (ja) * | 2004-05-11 | 2010-11-17 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US7626110B2 (en) * | 2004-06-02 | 2009-12-01 | Stmicroelectronics Asia Pacific Pte. Ltd. | Energy-based audio pattern recognition |
US7563971B2 (en) * | 2004-06-02 | 2009-07-21 | Stmicroelectronics Asia Pacific Pte. Ltd. | Energy-based audio pattern recognition with weighting of energy matches |
US20050281541A1 (en) * | 2004-06-17 | 2005-12-22 | Logan Beth T | Image organization method and system |
JP4358229B2 (ja) * | 2004-07-09 | 2009-11-04 | 日本電信電話株式会社 | 信号検出システム、信号検出サーバ、信号検出方法及びプログラム |
DE102004047069A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks |
DE102004049478A1 (de) * | 2004-10-11 | 2006-04-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und Vorrichtung zur Glättung eines Melodieliniensegments |
US20060111621A1 (en) * | 2004-11-03 | 2006-05-25 | Andreas Coppi | Musical personal trainer |
JP4940588B2 (ja) * | 2005-07-27 | 2012-05-30 | ソニー株式会社 | ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 |
CN101278349A (zh) * | 2005-09-30 | 2008-10-01 | 皇家飞利浦电子股份有限公司 | 处理用于重放的音频的方法和设备 |
US9665629B2 (en) * | 2005-10-14 | 2017-05-30 | Yahoo! Inc. | Media device and user interface for selecting media |
US20070089057A1 (en) * | 2005-10-14 | 2007-04-19 | Yahoo! Inc. | Method and system for selecting media |
KR20080074977A (ko) * | 2005-12-09 | 2008-08-13 | 소니 가부시끼 가이샤 | 음악 편집 장치 및 음악 편집 방법 |
WO2007066818A1 (ja) * | 2005-12-09 | 2007-06-14 | Sony Corporation | 音楽編集装置及び音楽編集方法 |
JP4001897B2 (ja) * | 2005-12-09 | 2007-10-31 | 株式会社コナミデジタルエンタテインメント | 音楽ジャンル判別装置及びこれを備えたゲーム機 |
KR100749045B1 (ko) * | 2006-01-26 | 2007-08-13 | 삼성전자주식회사 | 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치 |
KR100717387B1 (ko) * | 2006-01-26 | 2007-05-11 | 삼성전자주식회사 | 유사곡 검색 방법 및 그 장치 |
JP5351373B2 (ja) * | 2006-03-10 | 2013-11-27 | 任天堂株式会社 | 演奏装置および演奏制御プログラム |
JP2007304933A (ja) * | 2006-05-12 | 2007-11-22 | Sony Corp | 情報処理システム、端末装置、情報処理方法、プログラム |
US7612280B2 (en) * | 2006-05-22 | 2009-11-03 | Schneider Andrew J | Intelligent audio selector |
US8843377B2 (en) * | 2006-07-12 | 2014-09-23 | Master Key, Llc | System and method for foreign language processing |
US7538265B2 (en) * | 2006-07-12 | 2009-05-26 | Master Key, Llc | Apparatus and method for visualizing music and other sounds |
US20080125889A1 (en) * | 2006-08-22 | 2008-05-29 | William Edward Atherton | Method and system for customization of entertainment selections in response to user feedback |
US7645929B2 (en) * | 2006-09-11 | 2010-01-12 | Hewlett-Packard Development Company, L.P. | Computational music-tempo estimation |
EP2095635A2 (en) * | 2006-11-05 | 2009-09-02 | Sean Joseph Leonard | System and methods for rapid subtitling |
US7873634B2 (en) * | 2007-03-12 | 2011-01-18 | Hitlab Ulc. | Method and a system for automatic evaluation of digital files |
US7880076B2 (en) * | 2007-04-03 | 2011-02-01 | Master Key, Llc | Child development and education apparatus and method using visual stimulation |
US7589269B2 (en) * | 2007-04-03 | 2009-09-15 | Master Key, Llc | Device and method for visualizing musical rhythmic structures |
US8280539B2 (en) * | 2007-04-06 | 2012-10-02 | The Echo Nest Corporation | Method and apparatus for automatically segueing between audio tracks |
WO2008130611A1 (en) * | 2007-04-18 | 2008-10-30 | Master Key, Llc | System and method for musical instruction |
WO2008130665A1 (en) * | 2007-04-19 | 2008-10-30 | Master Key, Llc | System and method for audio equalization |
WO2008130697A1 (en) * | 2007-04-19 | 2008-10-30 | Master Key, Llc | Method and apparatus for editing and mixing sound recordings |
US8073701B2 (en) * | 2007-04-20 | 2011-12-06 | Master Key, Llc | Method and apparatus for identity verification using visual representation of a spoken word |
WO2008130696A1 (en) * | 2007-04-20 | 2008-10-30 | Master Key, Llc | Calibration of transmission system using tonal visualization components |
US7928306B2 (en) * | 2007-04-20 | 2011-04-19 | Master Key, Llc | Musical instrument tuning method and apparatus |
WO2008130666A2 (en) * | 2007-04-20 | 2008-10-30 | Master Key, Llc | System and method for music composition |
US7947888B2 (en) * | 2007-04-20 | 2011-05-24 | Master Key, Llc | Method and apparatus for computer-generated music |
WO2008130660A1 (en) * | 2007-04-20 | 2008-10-30 | Master Key, Llc | Archiving of environmental sounds using visualization components |
US7932455B2 (en) * | 2007-04-20 | 2011-04-26 | Master Key, Llc | Method and apparatus for comparing musical works |
JP5135931B2 (ja) * | 2007-07-17 | 2013-02-06 | ヤマハ株式会社 | 楽曲加工装置およびプログラム |
EP2043006A1 (en) * | 2007-09-28 | 2009-04-01 | Sony Corporation | Method and device for providing an overview of pieces of music |
US7875787B2 (en) * | 2008-02-01 | 2011-01-25 | Master Key, Llc | Apparatus and method for visualization of music using note extraction |
US7919702B2 (en) * | 2008-02-01 | 2011-04-05 | Master Key, Llc | Apparatus and method of displaying infinitely small divisions of measurement |
JP4973537B2 (ja) * | 2008-02-19 | 2012-07-11 | ヤマハ株式会社 | 音響処理装置およびプログラム |
KR101424974B1 (ko) * | 2008-03-17 | 2014-08-04 | 삼성전자주식회사 | 복수의 반복되는 부분들을 가진 음악 데이터의 첫 번째부분만을 재생하는 방법 및 장치 |
US20100125795A1 (en) * | 2008-07-03 | 2010-05-20 | Mspot, Inc. | Method and apparatus for concatenating audio/video clips |
WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US8071869B2 (en) * | 2009-05-06 | 2011-12-06 | Gracenote, Inc. | Apparatus and method for determining a prominent tempo of an audio work |
US8996538B1 (en) | 2009-05-06 | 2015-03-31 | Gracenote, Inc. | Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects |
US8805854B2 (en) | 2009-06-23 | 2014-08-12 | Gracenote, Inc. | Methods and apparatus for determining a mood profile associated with media data |
US8554348B2 (en) * | 2009-07-20 | 2013-10-08 | Apple Inc. | Transient detection using a digital audio workstation |
JP5560861B2 (ja) * | 2010-04-07 | 2014-07-30 | ヤマハ株式会社 | 楽曲解析装置 |
JP5454317B2 (ja) | 2010-04-07 | 2014-03-26 | ヤマハ株式会社 | 音響解析装置 |
US10055493B2 (en) * | 2011-05-09 | 2018-08-21 | Google Llc | Generating a playlist |
US9070352B1 (en) * | 2011-10-25 | 2015-06-30 | Mixwolf LLC | System and method for mixing song data using measure groupings |
US8586847B2 (en) | 2011-12-02 | 2013-11-19 | The Echo Nest Corporation | Musical fingerprinting based on onset intervals |
WO2013164661A1 (en) | 2012-04-30 | 2013-11-07 | Nokia Corporation | Evaluation of beats, chords and downbeats from a musical audio signal |
CN103514182B (zh) | 2012-06-19 | 2017-05-17 | 国际商业机器公司 | 音乐搜索方法与装置 |
US9418643B2 (en) * | 2012-06-29 | 2016-08-16 | Nokia Technologies Oy | Audio signal analysis |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
CN102930865B (zh) * | 2012-09-21 | 2014-04-09 | 重庆大学 | 一种波形音乐粗情感软切割分类方法 |
US9378768B2 (en) * | 2013-06-10 | 2016-06-28 | Htc Corporation | Methods and systems for media file management |
GB201310861D0 (en) * | 2013-06-18 | 2013-07-31 | Nokia Corp | Audio signal analysis |
US20180357548A1 (en) * | 2015-04-30 | 2018-12-13 | Google Inc. | Recommending Media Containing Song Lyrics |
US10372757B2 (en) * | 2015-05-19 | 2019-08-06 | Spotify Ab | Search media content based upon tempo |
US10055413B2 (en) | 2015-05-19 | 2018-08-21 | Spotify Ab | Identifying media content |
US9721551B2 (en) | 2015-09-29 | 2017-08-01 | Amper Music, Inc. | Machines, systems, processes for automated music composition and generation employing linguistic and/or graphical icon based musical experience descriptions |
US10854180B2 (en) | 2015-09-29 | 2020-12-01 | Amper Music, Inc. | Method of and system for controlling the qualities of musical energy embodied in and expressed by digital music to be automatically composed and generated by an automated music composition and generation engine |
CN105513583B (zh) * | 2015-11-25 | 2019-12-17 | 福建星网视易信息系统有限公司 | 一种歌曲节奏的显示方法及其系统 |
WO2017214411A1 (en) | 2016-06-09 | 2017-12-14 | Tristan Jehan | Search media content based upon tempo |
WO2017214408A1 (en) | 2016-06-09 | 2017-12-14 | Tristan Jehan | Identifying media content |
WO2018016581A1 (ja) * | 2016-07-22 | 2018-01-25 | ヤマハ株式会社 | 楽曲データ処理方法およびプログラム |
US9934785B1 (en) | 2016-11-30 | 2018-04-03 | Spotify Ab | Identification of taste attributes from an audio signal |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
WO2018129407A1 (en) * | 2017-01-09 | 2018-07-12 | Inmusic Brands, Inc. | Systems and methods for providing audio-file loop-playback functionality |
CN109065071B (zh) * | 2018-08-31 | 2021-05-14 | 电子科技大学 | 一种基于迭代k-means算法的歌曲聚类方法 |
US11024288B2 (en) * | 2018-09-04 | 2021-06-01 | Gracenote, Inc. | Methods and apparatus to segment audio and determine audio segment similarities |
CN110010159B (zh) * | 2019-04-02 | 2021-12-10 | 广州酷狗计算机科技有限公司 | 声音相似度确定方法及装置 |
US10964299B1 (en) | 2019-10-15 | 2021-03-30 | Shutterstock, Inc. | Method of and system for automatically generating digital performances of music compositions using notes selected from virtual musical instruments based on the music-theoretic states of the music compositions |
US11037538B2 (en) | 2019-10-15 | 2021-06-15 | Shutterstock, Inc. | Method of and system for automated musical arrangement and musical instrument performance style transformation supported within an automated music performance system |
US11024275B2 (en) | 2019-10-15 | 2021-06-01 | Shutterstock, Inc. | Method of digitally performing a music composition using virtual musical instruments having performance logic executing within a virtual musical instrument (VMI) library management system |
KR102653938B1 (ko) | 2019-12-02 | 2024-04-03 | 구글 엘엘씨 | 끊김없는 오디오 혼합을 위한 방법들, 시스템들 및 매체들 |
CN112634814B (zh) * | 2020-12-01 | 2022-04-08 | 黑龙江建筑职业技术学院 | 一种跟随音乐的led三维立体显示器的节奏控制方法 |
CN117636900B (zh) * | 2023-12-04 | 2024-05-07 | 广东新裕信息科技有限公司 | 一种基于音频特征形状匹配的乐器演奏质量评价方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05249998A (ja) * | 1992-03-06 | 1993-09-28 | Hitachi Ltd | 並行処理による自己回帰モデル構築システム |
JPH11502071A (ja) * | 1995-03-15 | 1999-02-16 | コニンクリジケ ピーティーティー ネーダーランド エヌ ブィー | 信号特性決定装置およびその方法 |
WO2000031720A2 (en) * | 1998-11-23 | 2000-06-02 | Telefonaktiebolaget Lm Ericsson (Publ) | Complex signal activity detection for improved speech/noise classification of an audio signal |
JP2000267655A (ja) * | 1999-03-17 | 2000-09-29 | Aiwa Co Ltd | リズムの同期方法 |
JP2001142480A (ja) * | 1999-11-11 | 2001-05-25 | Sony Corp | 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置 |
JP2002006839A (ja) * | 2000-04-06 | 2002-01-11 | Sony France Sa | リズム構造抽出方法及び類似関係判定方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5175769A (en) * | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
US5614687A (en) * | 1995-02-20 | 1997-03-25 | Pioneer Electronic Corporation | Apparatus for detecting the number of beats |
US5616876A (en) * | 1995-04-19 | 1997-04-01 | Microsoft Corporation | System and methods for selecting music on the basis of subjective content |
JP2956569B2 (ja) * | 1996-02-26 | 1999-10-04 | ヤマハ株式会社 | カラオケ装置 |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US6201176B1 (en) * | 1998-05-07 | 2001-03-13 | Canon Kabushiki Kaisha | System and method for querying a music database |
GB9918611D0 (en) * | 1999-08-07 | 1999-10-13 | Sibelius Software Ltd | Music database searching |
US6542869B1 (en) * | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
US7031980B2 (en) * | 2000-11-02 | 2006-04-18 | Hewlett-Packard Development Company, L.P. | Music similarity function based on signal analysis |
-
2003
- 2003-04-01 US US10/405,192 patent/US20030205124A1/en not_active Abandoned
- 2003-04-30 JP JP2003125157A patent/JP4581335B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05249998A (ja) * | 1992-03-06 | 1993-09-28 | Hitachi Ltd | 並行処理による自己回帰モデル構築システム |
JPH11502071A (ja) * | 1995-03-15 | 1999-02-16 | コニンクリジケ ピーティーティー ネーダーランド エヌ ブィー | 信号特性決定装置およびその方法 |
WO2000031720A2 (en) * | 1998-11-23 | 2000-06-02 | Telefonaktiebolaget Lm Ericsson (Publ) | Complex signal activity detection for improved speech/noise classification of an audio signal |
JP2000267655A (ja) * | 1999-03-17 | 2000-09-29 | Aiwa Co Ltd | リズムの同期方法 |
JP2001142480A (ja) * | 1999-11-11 | 2001-05-25 | Sony Corp | 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置 |
JP2002006839A (ja) * | 2000-04-06 | 2002-01-11 | Sony France Sa | リズム構造抽出方法及び類似関係判定方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008529047A (ja) * | 2005-01-21 | 2008-07-31 | アンリミテッド メディア ゲーエムベーハー | 音声信号用フットプリントを生成する方法 |
KR101228821B1 (ko) * | 2005-01-21 | 2013-02-15 | 언리미티드 미디어 게엠베하 | 오디오 신호에 대한 풋프린트를 생성하는 방법 |
JP2009516240A (ja) | 2005-10-14 | 2009-04-16 | ヤフー! インコーポレイテッド | メディアを選択するための方法とシステム |
CN101366071B (zh) * | 2006-01-06 | 2013-05-15 | 索尼株式会社 | 信息处理设备和方法、以及记录介质 |
WO2007077993A1 (ja) * | 2006-01-06 | 2007-07-12 | Sony Corporation | 情報処理装置および方法、並びに記録媒体 |
JP4650270B2 (ja) * | 2006-01-06 | 2011-03-16 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US8008568B2 (en) | 2006-01-06 | 2011-08-30 | Sony Corporation | Information processing device and method, and recording medium |
JP2007183417A (ja) * | 2006-01-06 | 2007-07-19 | Sony Corp | 情報処理装置および方法、並びにプログラム |
JP4613923B2 (ja) * | 2007-03-30 | 2011-01-19 | ヤマハ株式会社 | 楽音処理装置およびプログラム |
JP2008250008A (ja) * | 2007-03-30 | 2008-10-16 | Yamaha Corp | 楽音処理装置およびプログラム |
WO2013179743A1 (ja) * | 2012-05-30 | 2013-12-05 | 株式会社Jvcケンウッド | 曲順決定装置、曲順決定方法、および曲順決定プログラム |
JP2013250301A (ja) * | 2012-05-30 | 2013-12-12 | Jvc Kenwood Corp | 曲順決定装置、曲順決定方法、および曲順決定プログラム |
US9245508B2 (en) | 2012-05-30 | 2016-01-26 | JVC Kenwood Corporation | Music piece order determination device, music piece order determination method, and music piece order determination program |
JP2017161574A (ja) * | 2016-03-07 | 2017-09-14 | ヤマハ株式会社 | 音信号処理方法および音信号処理装置 |
WO2017154928A1 (ja) * | 2016-03-07 | 2017-09-14 | ヤマハ株式会社 | 音信号処理方法および音信号処理装置 |
US10297241B2 (en) | 2016-03-07 | 2019-05-21 | Yamaha Corporation | Sound signal processing method and sound signal processing apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP4581335B2 (ja) | 2010-11-17 |
US20030205124A1 (en) | 2003-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4581335B2 (ja) | 少なくとも2つのオーディオ・ワークの比較方法、少なくとも2つのオーディオ・ワークの比較方法をコンピュータに実現させるためのプログラム、オーディオ・ワークのビートスペクトルの決定方法、及びオーディオ・ワークのビートスペクトルの決定方法をコンピュータに実現させるためのプログラム | |
Brossier | Automatic annotation of musical audio for interactive applications | |
Muller et al. | Signal processing for music analysis | |
Foote et al. | Audio Retrieval by Rhythmic Similarity. | |
JP4392898B2 (ja) | 音楽情報処理方法 | |
US7273978B2 (en) | Device and method for characterizing a tone signal | |
US20080300702A1 (en) | Music similarity systems and methods using descriptors | |
Holzapfel et al. | Scale transform in rhythmic similarity of music | |
Marolt | A mid-level representation for melody-based retrieval in audio collections | |
Maddage | Automatic structure detection for popular music | |
WO2009001202A1 (en) | Music similarity systems and methods using descriptors | |
Gillet et al. | Automatic labelling of tabla signals | |
Abeßer et al. | Instrument-centered music transcription of solo bass guitar recordings | |
Caetano et al. | Automatic segmentation of the temporal evolution of isolated acoustic musical instrument sounds using spectro-temporal cues | |
Elowsson et al. | Modeling the perception of tempo | |
Liu et al. | Content-based audio classification and retrieval using a fuzzy logic system: towards multimedia search engines | |
Grosche et al. | Automatic transcription of recorded music | |
Holzapfel et al. | Similarity methods for computational ethnomusicology | |
Grosche | Signal processing methods for beat tracking, music segmentation, and audio retrieval | |
Klapuri | Pattern induction and matching in music signals | |
Barthet et al. | Speech/music discrimination in audio podcast using structural segmentation and timbre recognition | |
Kumar et al. | Melody extraction from music: A comprehensive study | |
Tzanetakis | Audio feature extraction | |
Foote | Methods for the automatic analysis of music and audio | |
Kitahara | Mid-level representations of musical audio signals for music information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100816 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4581335 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130910 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |