JP2008506141A - 楽曲分類方法 - Google Patents

楽曲分類方法 Download PDF

Info

Publication number
JP2008506141A
JP2008506141A JP2007519733A JP2007519733A JP2008506141A JP 2008506141 A JP2008506141 A JP 2008506141A JP 2007519733 A JP2007519733 A JP 2007519733A JP 2007519733 A JP2007519733 A JP 2007519733A JP 2008506141 A JP2008506141 A JP 2008506141A
Authority
JP
Japan
Prior art keywords
music
classification method
music classification
mood
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007519733A
Other languages
English (en)
Other versions
JP4825800B2 (ja
Inventor
ケンプ、トーマス
トロス、マルタ
Original Assignee
ソニー ドイチュラント ゲゼルシャフト ミット ベシュレンクテル ハフツング
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー ドイチュラント ゲゼルシャフト ミット ベシュレンクテル ハフツング filed Critical ソニー ドイチュラント ゲゼルシャフト ミット ベシュレンクテル ハフツング
Publication of JP2008506141A publication Critical patent/JP2008506141A/ja
Application granted granted Critical
Publication of JP4825800B2 publication Critical patent/JP4825800B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

音楽分類データ(MCD)を提供するステップと、分類される未分類の楽曲(s)を提供するステップと、音楽分類データ(MCD)内の音楽クラス(c1,…,cn)のそれぞれについて、それぞれのギッシュ距離値(D1,…,Dn)を導出するステップとを有し、有限個(n)のギッシュ距離値(D1,…,Dn)の有限集合(Δ)は、分類される未分類の楽曲(s)と、有限個(n)の音楽クラス(c1,…,cn)の離散的な有限集合(Γ)との関係を記述する楽曲分類方法を提供する。これに代えて、分類される所定の楽曲(s)について、楽曲又はその一部のムードを表す少なくとも3つの数値からなるn−タプルの形式で音楽分類データ(MCD)を導出する。そして、音楽分類データ(MCD)のn−タプルの数値から、楽曲又はその一部のムードを表す一対の2次元座標値を判定する。

Description

本発明は、楽曲を分類する楽曲分類方法に関する。詳しくは、本発明は、自動的に音楽のムードを検出する楽曲分類方法に関する。
近年の所謂携帯型音楽プレーヤは、記録容量が増加し、非常に多くのデータを記録できるようになったため、長時間の音楽又は多数の楽曲を再生できるようになった。しかしながら、これらの携帯型音楽プレーヤでは、録音された楽曲の選択及び分類が不便である。このような携帯型音楽プレーヤのユーザにとって、楽曲の分類及び/又は選択作業が困難であることもある。
Dan Liu, Lie Lu, H.J. Zhang, Automatic Mood Detection from Acoustic Music Data, in Proceedings ISMIR 2003, Baltimore, MD. George Tzanetakis and Perry Cook, Musical Genre Classification of Audio Signals, in IEEE Transactions on speech and audio processing, Vol 10, No 5, July 2002.
したがって、本発明の目的は、未分類の楽曲について、容易に、信頼できる分類を行う楽曲分類方法を提供することである。
この目的は、本発明の第1の側面である独立請求項1に記載の楽曲分類方法及び本発明の第2の側面である独立請求項31に基づく楽曲分類方法によって達成される。また、楽曲分類方法の好適な実施の形態は、従属請求項において定義されている。また、上述した目的は、本発明に基づく請求項41記載の楽曲分類装置、請求項42記載のコンピュータプログラム製品及び請求項43記載のコンピュータにより読取可能な媒体によって達成される。
上述の課題を解決する本発明に基づく楽曲分類方法の第1の側面は、(a)有限個の音楽クラスの離散的な有限集合を記述する音楽分類データを提供するステップと、(b)分類される未分類の楽曲を提供するステップと、(c)音楽クラスの集合の音楽クラスのそれぞれについて、分類される未分類の楽曲に関してそれぞれのギッシュ距離値を導出し、有限個のギッシュ距離値の離散的な有限集合を得るステップとを有し、有限個のギッシュ距離値の有限集合は、分類される未分類の楽曲と、有限個(n個)の音楽クラスの離散的な有限集合との関係を記述する。
楽曲分類方法は、(d)ギッシュ距離値の集合内で、少なくとも1つの最小ギッシュ距離値を検出し、音楽クラスの集合内で最小ギッシュ距離値に対応する別個の最小音楽クラスを判定するステップを更に有していてもよい。
また、楽曲分類方法は、分類される未分類の楽曲について、最小音楽クラスを特徴クラスとして選択するステップを更に有していてもよい。
すなわち、本発明の基本的な発想は、提供された音楽クラスから未分類の楽曲に関してそれぞれのギッシュ距離値を算出し、これにより得られたギッシュ距離値の集合を作成することである。
更に、好ましくは、最小ギッシュ距離値、すなわちギッシュ距離値を最小化する楽曲クラスの形式で未分類の楽曲を特徴付ける別個の特徴クラスが得られる。
本発明の好ましい実施の形態では、ギッシュ距離値は、式(1)に基づいて算出される。
Figure 2008506141
ここで、j=1,…,nである。式(1)において、sは、分類される未分類の楽曲又はその一部を表す。+は、各楽曲の結合の処理を表す。cjは、j=1,…,nについて、各音楽クラス又はその代表又はその代表の一部を表す。m(・)は、各楽曲に関するそれぞれのモデル又はモデル構築処理を表す。L(x|y)は、モデルyが与えられた場合、楽曲、データ集合x又はその一部xが観測される尤度を表す。
モデルm(・)としては、ガウス分布密度モデルを用いることが好ましい。
更に、単一の全共分散ガウス分布密度のみを採用することが好ましい。
更に、これに加えて又はこれに代えて、モデルm(・)として、多変数モデルを用いてもよい。
音楽分類データを提供するステップ(a)は、好ましくは、音楽分類データを受信及び/又は生成する処理又は処理の一部であり、或いは、処理又は処理の一部を含む。
これに加えて又はこれに代えて、分類される未分類の楽曲を提供するステップ(b)は、好ましくは、外部ソースから分類される未分類の楽曲又はその一部を受信する処理又は処理の一部を含む。
音楽分類データ及び/又はモデルm(・)は、完全な曲又は楽曲、若しくはその特徴的部分に基づいていてもよい。
更に好ましくは、ギッシュ距離値を導出するステップ(c)及び/又は最小ギッシュ距離値を検出するステップ(d)は、分類される未分類の楽曲又はその各部分を、複数の音楽クラス又はその全体に関して比較し、音楽クラスを含む音楽分類データによって定義されるムード空間内で未分類の楽曲又はその各部分の位置を特定する処理を構成し又は含んでいてもよい。
本発明の更に好適な実施の形態においては、楽曲分類方法は、分類される未分類の楽曲と、音楽クラス又はその各部分との関係を記述し、未分類の楽曲又はその各部分を音楽クラスに分類する曲分類データを提供するステップ(f)を更に有していてもよい。
本発明の更に好適な実施の形態においては、楽曲及び/又はその一部をサンプリングしてもよい。
この場合、約22kHzのサンプリング周波数を用いてもよい。
更に、楽曲及び/又はその一部をフレームに分割してもよい。
この場合、フレームのフレーム長を約32ミリ秒としてもよい。
これに加えて又はこれに代えて、フレームのフレームレートを約50ミリ秒としてもよい。各フレームは、それぞれの高速フーリエ変換の前にハミング窓化してもよい。本発明の更に好適な実施の形態においては、各高速フーリエ変換から、それぞれのパワースペクトルを導出してもよく、各パワースペクトルベクトルに基づいて、特徴ベクトルを算出してもよい。
特徴ベクトルは、メルスケール変換してもよい。
好ましくは、30個のメルスケール係数を使用する。
更に、このメルスケール係数は、対数換算してもよい。
この場合、対数換算されたメルスケール係数を逆離散フーリエ変換してもよい。
対数換算されたメルスケール係数に対する逆離散フーリエ変換から、1フレームあたり13個を含む1フレームあたり一組のケプストラム係数が導出される。
1フレームあたり一組のケプストラム係数から、スペクトル面積中心、スペクトルフラックス、スペクトルロールオフのうちの1つ又は任意の複数が算出される。
スペクトル面積中心、スペクトルフラックス及び/又はスペクトルロールオフの分散を算出してもよい。
この場合、スペクトル面積中心、スペクトルフラックス及び/又はスペクトルロールオフの分散は、Qを例えば5〜20として、Q個の隣接するフレームの窓に亘って、算出してもよい。
この分散は、パラメータとしてみなしてもよい。
本発明の更に好適な実施の形態においては、ギッシュ距離値の集合に基づいて、分類される楽曲又はその一部のための音楽分類データが、少なくとも3つの数値からなるn−タプルの形式で導出される。
本発明の更に好適な実施の形態においては、楽曲分類方法は、(f)分類される所定の楽曲について、楽曲又はその一部のムードを表す少なくとも3つの数値からなるn−タプルの形式で音楽分類データを導出/提供するステップと、(g)音楽分類データのn−タプルの数値から、楽曲又はその一部のムードを表す一対の2次元座標値を判定するステップとを有する。
本発明の第2の側面として示す楽曲分類方法は、(f)分類される所定の楽曲について、楽曲又はその一部のムードを表す少なくとも3つの数値からなるn−タプルの形式で音楽分類データを導出/提供するステップと、(g)音楽分類データのn−タプルの数値から、楽曲又はその一部のムードを表す一対の2次元座標値を判定するステップとを有する。
これに加えて又はこれに代えて、2次元座標値として、デカルト座標及び/又は極座標を用いてもよい。
n−タプルの数値として,3個の数値を用いてもよい。
3個の数値は、楽曲又はその一部の3個のムード値によって構成してもよい。
この場合、ムード値(j,s,a)は、楽曲又はその一部に関して、それぞれ、「楽しい」ムード、「悲しい」ムード、「元気な」ムードを分類するように選択してもよい。
2次元座標値としてのデカルト座標(x,y)は、以下の式に基づいて算出してもよい。
Figure 2008506141
ここで、x及びyは、第1及び第2のデカルト座標値を表し、j,s,aは、それぞれ、楽曲又はその一部のための音楽分類データの、正規化された形式の、「楽しい」ムード、「悲しい」ムード、「元気な」ムードを表す第1、第2、第3の数値を表す。本発明の他の実施の形態においては、以下の式に基づいて、2次元座標値としての極座標を算出する。
Figure 2008506141
ここで、r及びφは、それぞれ極半径及び極角度座標値を表し、x及びyは、式(1a)及び式(1b)に基づく2次元デカルト座標値を表している。
2次元座標値から、楽曲又はその一部のムードを記述する色を記述する色及び/又は色値を正規化された形式で生成することができる。
この場合、色及び/又は色値は、HSV色空間に基づいて判定してもよい。
色及び/又は色値は、HSV色空間に基づいて、以下の式によって判定してもよい。
Figure 2008506141
ここで、h、s、vは、それぞれHSV色空間における色相、飽和度、値を表し、r及びφは、それぞれ式(2a)及び式(2b)に基づく極半径及び極角度座標値を表す。
本発明の更なる側面である楽曲分類装置は、上述した楽曲分類方法及びそのステップを実現する手段を備え、楽曲分類方法及びそのステップを実行するように適応化及び/又は構成される。
また、本発明の更なる側面であるコンピュータプログラム製品は、デジタル信号処理手段又はコンピュータ上で実行されて、上述した楽曲分類方法又は楽曲分類装置を実現するコンピュータプログラムを含む。
本発明の更なる側面であるコンピュータにより読取可能な媒体は、上述したコンピュータプログラム製品を提供する。
以下の説明により、本発明の上述及び更なる側面を明らかにする。
本発明は、特に自動的に音楽のムードを検出するための方法及び装置に関する。
近年登場した大容量の携帯型音楽プレーヤは、非常に多くの楽曲を録音できるが、形状及び寸法の制約から、大きな操作画面やキーボードを設けることができず、したがって、楽曲を如何に選択するかが益々重要な課題となっている。多くの調査から、ユーザは、自らの気分又は楽曲のムードを基準にして楽曲を選択して聴いていることがわかっている。これまで、楽曲のムードの判定には、手作業で楽曲にタグ付けを行う必要があり、このような作業を大規模に行うことは、煩雑で高コストである。そこで、本発明は、あらゆる楽曲のムードを自動的に判定し、それぞれの楽曲に自動的にムードラベルを割り当てる技術を提供する。
楽曲からムードを自動的に導出するための従来の手法の大部分は、シンボリックなデータ(例えば、MIDI形式の楽曲)に限定されていた。しかしながら、殆どの楽曲は、シンボリックな形式で提供されておらず、したがって、このような手法の用途は非常に限定的である。マイクロソフト研究所(Microsoft Research)のダン・リュウ(Dan Liu)、リー・リュウ(Lie Lu)及びホン−ジアン・チャン(Hong-Jiang Zhang)は、クラシック音楽に適用される(本発明者の知る限り)唯一のこのような技術を提案している。この技術は、本発明と異なり、ムードにセイヤーのモデル(Thayer's model)を適用し、階層的構造を用いているため、ユーザは、既にトレーニングされているシステムを適応化することができず、新たなムードカテゴリを導入することも困難である(非特許文献1)。
曲の大きなコレクション(データベース)から曲を高速に信頼できる手法で選択する技術は未だ実現されていない。グラフィカルインタフェースの選択及びクリック操作によって階層的なリストを選択する手法は、複数の基本操作を必要とし、煩雑であり、一方、音声コマンドによる選択は、直接的で容易であるが、音声の誤認識率が高いという問題がある。更に、多くの場合、ユーザは、所定のデータベースから既知の楽曲を選択するだけの如何なる選択パラダイムでも実現することができない新たな音楽体験を獲得することに強い関心を抱いている。
本発明の目的は、データベース内の楽曲について手動でメタデータを作成するような高コストで手間が掛かる作業を必要とすることなく、音楽データベースを検索し、楽曲を選択することができる容易且つ直感的な手法を提供することである。
自動的に音楽のムードを判定するシステムは、学習セットの選択、ムードモデルの作成、予め算出されたムードモデルを利用した所定の楽曲のムードの判定の3つのサブシステムに分解できる。本発明は、主に第3のサブシステムを革新し、及びこれに関連して第1のサブシステムについて、追加及び新規な拡張を行う。
第1のサブシステムでは、ムードを表す学習セットを選択する。これは、最も簡単な形式では、それぞれの希望のムードカテゴリについて、幾つかの楽曲を選択することによって実現できる。例えば、3つのムードカテゴリとして、[楽しい、悲しい、元気な]が望まれる場合、この処理では、3つのカテゴリのそれぞれについて、複数個(例えば、N=10個)の楽曲を選択し、すなわち、10曲の楽しいムードの曲、10曲の悲しいムードの曲、及び10曲の元気なムードの曲を選択する。最も簡単なスキームでは、必要な作業はこれだけである。なお、所定のムードの代表として曲全体を選択すると、紛らわしい場合がある。例えば、多くの楽曲を元気な曲として分類できるが、これらの楽曲の一部、特に冒頭部分が物悲しいムードを有しており、主要部(コーラス部分又は曲の残りの平均的に同様な部分の最も代表的な部分又はボーカルを含む部分)のみが元気なムードであることも多くある。したがって、楽曲全体ではなく、楽曲から一部だけを抽出してムードモデルを作成することが有益である。ここで、このようなスキームを実現した場合、未知の曲がムードモデルに比較される第3のサブシステムにおいても同じスキームを用いることが重要になり、したがって曲の関連する部分の抽出には、自動化された手法しか用いることができない。特に、SSGによる特許出願には、音楽の関連する部分を抽出するシステムが開示されており、この技術をこの目的で利用できる。なお、他の従属請求項に示すように、それぞれの感情に基づく楽曲の選択は、最終的に、システム全体の振る舞いを決定し、したがって、ユーザは、この選択によって、自らの嗜好に応じてシステムを適応化することができる。このようなシナリオでは、ユーザは、如何なるカテゴリにも楽曲を追加することができ、システムは、モデルを再トレーニングする。これによってユーザは、システムアーキテクチャを全く変更することなく、システムを自らのムードに対する感覚によって適応化できる(ユーザ適応化)。
3つのサブシステムのうちの第2のサブシステムは、以前に特定された音楽の断片の集合(第1のサブシステムで用いられる実際の手法に応じて、システムの開発者又はユーザによって精選された楽曲の一部であっても楽曲の全体であってもよい)からムードモデルを算出する。楽曲をサンプリングする場合、サンプリング周波数は、22kHzで十分であることが判明し、したがって、データ量を削減する必要がある場合、44.1kHzでステレオ録音された楽曲を22kHzにダウンサンプリングし、ステレオチャンネルを1つのモノラルチャンネルに結合し、50ミリ秒のフレームレートで、32ミリ秒のフレーム長のフレームに分割することができる。もちろん、この他のフレームレート及びフレーム長を用いてもよい。各フレームは、ハミング窓化され、高速フーリエ変換(FFT)される。このFFTからパワースペクトルが導出される。このパワーのスペクトルベクトルに基づいて、特徴ベクトルが算出される。まず、音声認識の場合と同様に、特徴ベクトルを、30個のメルスケール係数にメルスケール変換(melscale warped)し、対数換算し、逆DFT変換を行うことによって、1フレームあたり13個の13ケプストラム係数の組が導出される(文献参照)。次に、スペクトル面積中心(spectral centroid)、スペクトルフラックス(spectral flux)及びスペクトルロールオフ(spectral roll off)を算出し、Qの典型的な値を5〜20として、Q個の隣接するフレームの窓に亘って、これらの分散をパラメータとして算出する。スペクトル面積中心、スペクトルフラックス及びスペクトルロールオフについては、非特許文献2に説明されている。
このようにして、各クラス(悲しい、楽しい等)について、パラメータベクトルを算出し、これらから、最尤スタイル(maximum likelihood style)で1つの単一の全共分散ガウス分布密度を算出する。これにより得られる正規分布は、ムード識別システムの3つのサブシステムのうちの第3のサブシステムのムードモデルとして機能する。
第3のサブシステムは、ムードモデルのセット(それぞれ多変量ガウス分布密度である)及び未知の楽曲から、各ムードモデルと、未知の楽曲から導出されたムードモデルとの類似性を比較することによって、未知の楽曲のムードを判定する。このために、まず、未知の楽曲を最初の2つのサブシステムにおいて、トレーニングセット楽曲として処理し、適用可能であれば、第1のサブシステムにおいて、その楽曲の代表的な部分を抽出し、第2のサブシステムにおいて前処理を行い、第3のサブシステムにおいて、多変量ガウス分布密度を算出する。このようにして、未知の曲のための多変量ガウス分布密度が算出される。このモデルと、予め算出されているムードモデルとを用いて、以下のように、所謂ギッシュ距離Dを用いて、未知のモデルとムードモデルとの間の距離を算出する。
Figure 2008506141
ここで、L(sX|m(sX))は、X=1、2のとき、データシーケンスsXの所定の多変量ガウス分布密度モデルm(sX)について、データシーケンスsXを観測する尤度を表している。また、m(s1+s2)は、曲、楽曲又は音s1及びs2を結合して生成されたモデルを表している。s1+s2は、曲、楽曲又は音s1及びs2の結合を表している。s1が未知の曲であり、s2が現在のムードのためのトレーニングセット楽曲の全ての関連するセクション又は曲の結合である場合、これまでに提案されている単一のガウス正規分布密度m又は単一のガウス正規分布密度モデルmを式(2)に適用することによって、曲、楽曲又は音s1及びs2を保存する必要がない効率的な定式化が実現する。もちろん、他のモデルを用いて式(2)内の項を算出してもよい。なお、この場合、演算負荷が大きくなる。
そして、全てのムードモデルについて式(2)を評価した後に、これにより得られる3つの距離のうち、最短の距離を選択し、この最短の距離が導出されたムードモデルを楽曲の一時的なムードとして選択する。ムードモデルまでの距離から正規化されたベクトルを生成することも可能であり、有効である。例えば、3つのムードから得られる3次元ベクトルから、「ムード空間」における座標が求められ、この座標を用いて、1又は複数のムード軸を用いて曲を案内し、位置を定めることができる。これにより得られる空間内での分布は大きな偏りを示し、個々の次元は、独立していないため、ターゲット空間において、楽曲の大きな検査セットを用いて、分散正規化及び対角化変換(PCA又はカルーネン−レーベ変換)を行うことは有益である。座標変換の後、これにより得られる空間を適切に用いて、音楽のムード空間を探索することができる。なお、このユークリッド距離は、変換された空間においても、式(2)のギッシュ距離の特性のために必ずしも三角不等式を満たさないため、メトリックではない。
本発明により、非常に高い精度で、比較的短い時間で、及び適切な演算負荷で音楽ムードのタグを自動的に生成できる。このシステムは、楽曲の一部だけに焦点を合わせるように拡張でき、また、個々のムードの概念を容易にカスタマイズでき、これにより、楽曲に対する個人間の感覚の差に対応することができる。ムード空間は、自動的に構築され、これによって、ムード空間内で楽曲の位置が定まり、この結果、楽曲選択のために用いることができる。
課題
各楽曲について、特定の無制限な無符号実数個、少なくとも3個の提供された楽曲のムードデータを線形の視覚的インタフェースに変換する。
解決策の概要
「ライブラリ」(曲のコレクション)から、各曲について、3つの「ムード」値を導出する。これらの値を内部的に「楽しい」ムード、「悲しい」ムード、「元気な」ムードと呼ぶ。ライブラリ内の最大値及び最小値に基づいて、それぞれが[0.0〜1.0]の範囲内の値となるようにこれらの値を正規化し、データベースに保存する。
そして、各曲を色にマッピングする。まず、3つの「ムード」値をデカルト座標に変換し、次に、デカルト座標から極座標に変換する。
楽曲の「ムード」値からデカルト座標への変換は、以下の式を用いて行う。
Figure 2008506141
ここで、「x」は、水平座標を表し、「y」は、垂直座標を表し、「j」は、楽曲の「楽しさ」の値を表し、「s」は、楽曲の「悲しさ」の値を表し、「a」は、楽曲の「元気さ」の値を表す。
デカルト座標から極座標への変換は、以下(標準)式を用いる。
Figure 2008506141
ここで、「r」は、半径を表し、「φ」角度をラジアンで表し、「x」は、水平座標であり、「y」は、垂直な座標である。
半径の値は、ライブラリに亘って範囲[0.0〜1.0]に正規化される。そして、この正規化された極座標をHSV色空間を用いて色にマッピングする。HSV色空間は、色相[0.0〜1.0]、飽和度[0.0〜1.0]、値[0.0〜1.0]の3つの値によって色を定義する。色値は、色相を「h」とし、飽和度を「s」とし、値を「v」とし、半径を「r」とし、ラジアンによって表される角度を「φ」として、h=φ、s=r、v=1.0の式に基づいて算出される。
要約
楽曲の3つの「ムード」値を2次元にマッピングし、次に色空間にマッピングすることによって、色相(すなわち、楽曲の「ムード」)及び飽和度(すなわち、楽曲の「ムード」の強さ)によって、楽曲ライブラリのムードを数値的に表現することができる。飽和度が高い色は、特定の「ムード」が強い楽曲を示す。これにより、ユーザは、2つの入力値のみに基づくインタフェースを用いて、単純な手法でライブラリを探索することができる。
図1に示す本発明に基づく音楽分類方法の実施の形態は、第1〜第5のステップ(a)〜(e)を有する。
第1のステップ(a)では、音楽分類データMCDを提供する。これらの音楽分類データの少なくとも一部は、音楽クラスc1,…,cnの集合Γとして提供される。最も単純なケースでは、これらの音楽クラスc1,…,cnは、それぞれが別個の音楽のムード又は音楽のクラスの実例であるサンプル楽曲であってもよい。また、この音楽分類データは、サンプル楽曲又は所定のクラスc1,…,cnに関する狭い評価及び分類処理に基づいていてもよい。狭い評価については、上述した通りである。
次の第2のステップ(b)では、本発明に基づく音楽分類方法によって分類される未分類の楽曲sが提供される。
この未分類の楽曲sに基づいて、次の第3のステップ(c)において、jを1,…,nとして、ギッシュ距離値Dj:=D(s,cj)の集合Γ:={D1,…,Dn}を導出する。
第4のステップ(d)では、集合Γの最小値として最小ギッシュ距離値Djminを検出する。Γ:Djmin:=min{D1,…,Dn}
そして、第5のステップ(e)において、別個の音楽クラスcjminを検出し、分類すべき未分類の楽曲sの特徴クラスcsとして選択する。cjminは、最小ギッシュ距離値Djminが得られる音楽クラスc1,…,cnの集合Γからの別個のクラスである。未分類の楽曲sは、別個の分類音楽クラスcjminに隣接すると言うこともでき、この逆も同様である。また、未分類の楽曲sは、検出されたギッシュ距離値についてのそれぞれの閾値条件に基づいて、隣接する幾つかの楽曲を結合したΓのサブセットによって分類することもできる。このような場合、複数の音楽クラスに基づく特徴付けをより詳細に行ってもよく、これにより、分類される楽曲sに関する情報を充実させ、より細かい分類を実現することができる。
図2及び図3は、2次元及び色マッピングの基礎的な発想を説明する2次元及び色表現を示す図である。
本発明に基づく楽曲分類方法の好ましい実施の形態の幾つかの基本的な特徴を示すフローチャートである。 2次元及び色マッピングの基礎的な発想を説明する2次元及び色表現を示す図である。 2次元及び色マッピングの基礎的な発想を説明する2次元及び色表現を示す図である。
符号の説明
cj 音楽クラス、j=1,…,n、cjmin 最小音楽クラス、cs 特徴クラス、Dj ギッシュ距離値、j=1,…,n、Djmin 最小ギッシュ距離値、MCD 音楽分類データ、s 分類される未分類の楽曲、SCD 曲分類データ、Γ 音楽クラスの集合、Δ ギッシュ距離値の集合

Claims (43)

  1. (a)有限個(n)の音楽クラス(c1,…,cn)の離散的な有限集合(Γ)を記述する音楽分類データ(MCD)を提供するステップと、
    (b)分類される未分類の楽曲(s)を提供するステップと、
    (c)上記音楽クラスの集合(Γ)の上記音楽クラス(c1,…,cn)のそれぞれについて、上記分類される未分類の楽曲(s)に関してそれぞれのギッシュ距離値(D1,…,Dn)を導出し、有限個(n)のギッシュ距離値(D1,…,Dn)の離散的な有限集合(Δ)を得るステップとを有し、
    上記有限個(n)のギッシュ距離値(D1,…,Dn)の有限集合(Δ)は、上記分類される未分類の楽曲(s)と、上記有限個(n)の音楽クラス(c1,…,cn)の離散的な有限集合(Γ)との関係を記述することを特徴とする楽曲分類方法。
  2. (d)上記ギッシュ距離値(D1,…,Dn)の集合(Γ)内で、少なくとも1つの最小ギッシュ距離値(Djmin)を検出し、上記音楽クラス(c1,…,cn)の集合(Γ)内で上記最小ギッシュ距離値(Djmin)に対応する別個の最小音楽クラス(cjmin)を判定するステップを更に有する請求項1記載の楽曲分類方法。
  3. (e)上記分類される未分類の楽曲について、上記最小音楽クラス(cjmin)を特徴クラス(cs)として選択するステップを更に有する請求項2記載の楽曲分類方法。
  4. 上記ギッシュ距離値(D1,…,Dn)は、
    j=1,…,nとし、
    分類される未分類の楽曲又はその一部をsとし、
    各楽曲の結合の処理を「+」とし、
    j=1,…,nについて、各音楽クラス又はその代表又はその代表の一部をcjとし、
    各楽曲に関するそれぞれのモデル又はモデル構築処理をm(・)とし、
    モデルyが与えられた場合、楽曲、データ集合x又はその一部xが観測される尤度をL(x|y)として、以下の式(1)に基づいて算出されることを特徴とする請求項1乃至3いずれか1項記載の楽曲分類方法。
    Figure 2008506141
  5. 上記モデルm(・)としてガウス分布密度モデルを用いることを特徴とする請求項4記載の楽曲分類方法。
  6. 単一の全共分散ガウス分布密度のみを採用することを特徴とする請求項4又は5記載の楽曲分類方法。
  7. 上記モデルm(・)として、多変数モデルを用いることを特徴とする請求項4乃至6いずれか1項記載の楽曲分類方法。
  8. 上記音楽分類データ(MCD)を提供するステップ(a)は、該音楽分類データ(MCD)を受信及び/又は生成する処理又は該処理の一部であり、又は該処理又は該処理の一部を含むことを特徴とする請求項1乃至7いずれか1項記載の楽曲分類方法。
  9. 上記分類される未分類の楽曲(s)を提供するステップ(b)は、外部ソースから上記分類される未分類の楽曲(s)又はその一部を受信する処理又は該処理の一部を含むことを特徴とする請求項1乃至8いずれか1項記載の楽曲分類方法。
  10. 上記音楽分類データ(MCD)及び/又はモデルm(・)は、完全な曲又は楽曲、若しくはその特徴的部分に基づいていることを特徴とする請求項1乃至9いずれか1項記載の楽曲分類方法。
  11. 上記ギッシュ距離値(D1,…,Dn)を導出するステップ(c)及び/又は上記最小ギッシュ距離値(Djmin)を検出するステップ(d)は、上記分類される未分類の楽曲(s)又はその各部分を、複数の音楽クラス(c1,…,cn)又はその全体に関して比較し、上記音楽クラス(c1,…,cn)を含む上記音楽分類データ(MCD)によって定義されるムード空間内で該未分類の楽曲(s)又はその各部分の位置を特定する処理を構成し又は含むことを特徴とする請求項1乃至10いずれか1項記載の楽曲分類方法。
  12. 上記分類される未分類の楽曲(s)と、上記音楽クラス(c1,…,cn)又はその各部分との関係を記述し、該未分類の楽曲又はその各部分を該音楽クラス(c1,…,cn)に分類する曲分類データ(SCD)を提供するステップ(f)を更に有する請求項1乃至11いずれか1項記載の楽曲分類方法。
  13. 上記楽曲及び/又はその一部は、サンプリングされることを特徴とする請求項1乃至12いずれか1項記載の楽曲分類方法。
  14. 約22kHzのサンプリング周波数を用いることを特徴とする請求項13記載の楽曲分類方法。
  15. 上記楽曲及び/又はその一部は、フレームに分割されることを特徴とする請求項13又は14記載の楽曲分類方法。
  16. 上記フレームのフレーム長は、約32ミリ秒であることを特徴とする請求項15記載の楽曲分類方法。
  17. 上記フレームのフレームレートは、約50ミリ秒であることを特徴とする請求項15又は16記載の楽曲分類方法。
  18. 上記各フレームは、それぞれの高速フーリエ変換の前にハミング窓化されることを特徴とする請求項15乃至17いずれか1項記載の楽曲分類方法。
  19. 各高速フーリエ変換から、それぞれのパワースペクトルが導出され、
    上記各パワースペクトルベクトルに基づき、特徴ベクトルを算出することを特徴とする請求項1乃至18いずれか1項記載の楽曲分類方法。
  20. 上記特徴ベクトルは、メルスケール変換されることを特徴とする請求項19記載の楽曲分類方法。
  21. 30個のメルスケール係数を使用することを特徴とする請求項20記載の楽曲分類方法。
  22. 上記メルスケール係数は、対数換算されることを特徴とする請求項21記載の楽曲分類方法。
  23. 上記対数換算されたメルスケール係数は、逆離散フーリエ変換されることを特徴とする請求項22記載の楽曲分類方法。
  24. 上記対数換算されたメルスケール係数に対する上記逆離散フーリエ変換から、1フレームあたり13個を含む1フレームあたり一組のケプストラム係数が導出されることを特徴とする請求項23記載の楽曲分類方法。
  25. 上記1フレームあたり一組のケプストラム係数から、スペクトル面積中心、スペクトルフラックス、スペクトルロールオフのうちの1つ又は任意の複数が算出されることを特徴とする請求項24記載の楽曲分類方法。
  26. 上記スペクトル面積中心、上記スペクトルフラックス及び/又は上記スペクトルロールオフの分散を算出することを特徴とする請求項25記載の楽曲分類方法。
  27. 上記スペクトル面積中心、上記スペクトルフラックス及び/又は上記スペクトルロールオフの分散は、Qを5〜20として、Q個の隣接するフレームの窓に亘って、算出されることを特徴とする請求項26記載の楽曲分類方法。
  28. 上記分散は、パラメータとしてみなされることを特徴とする請求項26又は27記載の楽曲分類方法。
  29. 上記ギッシュ距離値(D1,…,Dn)の集合(Δ)に基づいて、上記分類される楽曲(s)又はその一部のための音楽分類データ(MCD)が、少なくとも3つの数値からなるn−タプルの形式で導出されることを特徴とする請求項1乃至28いずれか1項記載の楽曲分類方法。
  30. (f)分類される所定の楽曲(s)について、該楽曲又はその一部のムードを表す少なくとも3つの数値からなるn−タプルの形式で音楽分類データ(MCD)を導出/提供するステップと、
    (g)上記音楽分類データ(MCD)のn−タプルの数値から、上記楽曲又はその一部のムードを表す一対の2次元座標値(x,y;r,φ)を判定するステップとを有する請求項29記載の楽曲分類方法。
  31. (f)分類される所定の楽曲(s)について、該楽曲又はその一部のムードを表す少なくとも3つの数値からなるn−タプルの形式で音楽分類データ(MCD)を導出/提供するステップと、
    (g)上記音楽分類データ(MCD)のn−タプルの数値から、上記楽曲又はその一部のムードを表す一対の2次元座標値(x,y;r,φ)を判定するステップとを有する楽曲分類方法。
  32. 2次元座標値(x,y;r,φ)として、デカルト座標(x,y)及び/又は極座標(r,f)を用いることを特徴とする請求項30又は31記載の楽曲分類方法。
  33. 上記n−タプルの数値として,3個の数値(j,s,a)を用いることを特徴とする請求項30乃至32いずれか1項記載の楽曲分類方法。
  34. 上記3個の数値(j,s,a)は、上記楽曲又はその一部の3個のムード値(j,s,a)によって構成されていることを特徴とする請求項33記載の楽曲分類方法。
  35. 上記ムード値(j,s,a)は、上記楽曲又はその一部に関して、それぞれ、「楽しい」ムード、「悲しい」ムード、「元気な」ムードを分類することを特徴とする請求項34記載の楽曲分類方法。
  36. 第1及び第2のデカルト座標値をx及びyとし、
    上記楽曲又はその一部のための上記音楽分類データ(MCD)の、正規化された形式の、「楽しい」ムード、「悲しい」ムード、「元気な」ムードを表す第1、第2、第3の数値をj,s,aとして、以下の式(1a)及び式(1b)に基づいて上記2次元座標値としてのデカルト座標(x,y)を算出することを特徴とする請求項30乃至35いずれか1項記載の楽曲分類方法。
    Figure 2008506141
  37. 極半径及び極角度座標値をそれぞれr及びφとし、
    上記式(1a)及び式(1b)に基づく2次元デカルト座標値をそれぞれx及びyとして、以下の式(2a)及び式(2b)に基づいて上記2次元座標値としての極座標(r,φ)を算出することを特徴とする請求項31乃至36いずれか1項記載の楽曲分類方法。
    Figure 2008506141
  38. 上記2次元座標値(x,y;r,φ)から上記楽曲又はその一部のムードを記述する色を記述する色及び/又は色値(h,s,v)を正規化された形式で生成することを特徴とする請求項31乃至37いずれか1項記載の楽曲分類方法。
  39. 上記色及び/又は色値(h,s,v)は、HSV色空間に基づいて判定されることを特徴とする請求項38記載の楽曲分類方法。
  40. 上記色及び/又は色値(h,s,v)は、
    HSV色空間における色相、飽和度、値をそれぞれh、s、vとし、
    式(2a)及び式(2b)に基づく極半径及び極角度座標値をそれぞれr及びφとし、HSV色空間に基づいて、以下の式(3a)、式(3b)及び式(3c)によって判定されることを特徴とする請求項38又は39記載の楽曲分類方法。
    Figure 2008506141
  41. 請求項1乃至40いずれか1項記載の楽曲分類方法及びそのステップを実現する手段を備え、該楽曲分類方法及びそのステップを実行するように適応化及び/又は構成された楽曲分類装置。
  42. デジタル信号処理手段又はコンピュータ上で実行されて、請求項1乃至40記載の楽曲分類方法又は請求項41記載の楽曲分類装置を実現するコンピュータプログラムを含むコンピュータプログラム製品。
  43. 請求項42記載のコンピュータプログラム製品を提供するコンピュータにより読取可能な媒体。
JP2007519733A 2004-07-09 2005-07-08 楽曲分類方法 Expired - Fee Related JP4825800B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP04016229.9 2004-07-09
EP04016229A EP1615204B1 (en) 2004-07-09 2004-07-09 Method for classifying music
PCT/EP2005/007403 WO2006005533A2 (en) 2004-07-09 2005-07-08 Method for classifying music

Publications (2)

Publication Number Publication Date
JP2008506141A true JP2008506141A (ja) 2008-02-28
JP4825800B2 JP4825800B2 (ja) 2011-11-30

Family

ID=34925687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007519733A Expired - Fee Related JP4825800B2 (ja) 2004-07-09 2005-07-08 楽曲分類方法

Country Status (6)

Country Link
US (1) US7858868B2 (ja)
EP (1) EP1615204B1 (ja)
JP (1) JP4825800B2 (ja)
CN (1) CN1985302B (ja)
DE (1) DE602004009676T2 (ja)
WO (1) WO2006005533A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010054758A (ja) * 2008-08-28 2010-03-11 Sony Corp 再生装置および再生方法
WO2022265132A1 (ko) * 2021-06-17 2022-12-22 견두헌 색혼합 방식으로 장르를 표현하는 음악장르 분류 장치 및 그 방법

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60319710T2 (de) 2003-11-12 2009-03-12 Sony Deutschland Gmbh Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale
EP1816639B1 (en) * 2004-12-10 2013-09-25 Panasonic Corporation Musical composition processing device
US20070061309A1 (en) * 2005-08-05 2007-03-15 Realnetworks, Inc. System and method for color-based searching of media content
KR100822376B1 (ko) * 2006-02-23 2008-04-17 삼성전자주식회사 곡명을 이용한 음악 주제 분류 방법 및 시스템
EP1975866A1 (en) 2007-03-31 2008-10-01 Sony Deutschland Gmbh Method and system for recommending content items
KR101540598B1 (ko) 2007-10-02 2015-07-30 코닌클리케 필립스 엔.브이. 콘텐트 아이템들의 컬렉션 중 적어도 하나의 아이템을 선택하는 방법
EP2083416A1 (en) * 2008-01-23 2009-07-29 Sony Corporation Method for deriving animation parameters and animation display device
EP2101501A1 (en) * 2008-03-10 2009-09-16 Sony Corporation Method for recommendation of audio
DE102008022125A1 (de) * 2008-05-05 2009-11-19 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen
EP2159719B1 (en) 2008-08-27 2013-01-09 Sony Corporation Method for graphically displaying pieces of music
WO2010027509A1 (en) * 2008-09-05 2010-03-11 Sourcetone, Llc Music classification system and method
US20100132122A1 (en) * 2008-12-02 2010-06-03 Dan Hollingshead Bed-Mounted Computer Terminal
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
US8606733B2 (en) * 2009-12-07 2013-12-10 Xerox Corporation System and method for classification and selection of color palettes
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
CN102129456B (zh) * 2011-03-09 2012-07-04 天津大学 去相关稀疏映射音乐流派有监督自动分类方法
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
WO2013019997A1 (en) * 2011-08-02 2013-02-07 Emotiv Lifesciences Inc. Methods for modeling neurological development and diagnosing a neurological impairment of a patient
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US10242097B2 (en) 2013-03-14 2019-03-26 Aperture Investments, Llc Music selection and organization using rhythm, texture and pitch
US11271993B2 (en) 2013-03-14 2022-03-08 Aperture Investments, Llc Streaming music categorization using rhythm, texture and pitch
US9639871B2 (en) 2013-03-14 2017-05-02 Apperture Investments, Llc Methods and apparatuses for assigning moods to content and searching for moods to select content
US10623480B2 (en) 2013-03-14 2020-04-14 Aperture Investments, Llc Music categorization using rhythm, texture and pitch
US10225328B2 (en) 2013-03-14 2019-03-05 Aperture Investments, Llc Music selection and organization using audio fingerprints
US9875304B2 (en) 2013-03-14 2018-01-23 Aperture Investments, Llc Music selection and organization using audio fingerprints
US10061476B2 (en) 2013-03-14 2018-08-28 Aperture Investments, Llc Systems and methods for identifying, searching, organizing, selecting and distributing content based on mood
US9383965B1 (en) * 2013-08-16 2016-07-05 Amazon Technologies, Inc. Media library analyzer
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US20220147562A1 (en) 2014-03-27 2022-05-12 Aperture Investments, Llc Music streaming, playlist creation and streaming architecture
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
CN104778216B (zh) * 2015-03-20 2017-05-17 广东欧珀移动通信有限公司 一种预设风格歌曲处理的方法及装置
US9880723B2 (en) 2015-03-27 2018-01-30 Spkdrm Llc Graphical user interface using color spectrum to map sentiments
CN110155075A (zh) * 2018-06-01 2019-08-23 腾讯大地通途(北京)科技有限公司 氛围设备控制方法及相关装置
US11615772B2 (en) * 2020-01-31 2023-03-28 Obeebo Labs Ltd. Systems, devices, and methods for musical catalog amplification services
CN111462762B (zh) * 2020-03-25 2023-02-24 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质
US11900914B2 (en) * 2021-06-07 2024-02-13 Meta Platforms, Inc. User self-personalized text-to-speech voice generation
CN116304721A (zh) * 2023-05-24 2023-06-23 北京希嘉创智数据技术有限公司 基于数据类别的大数据治理中数据标准制定方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5510572A (en) * 1992-01-12 1996-04-23 Casio Computer Co., Ltd. Apparatus for analyzing and harmonizing melody using results of melody analysis
JP3964979B2 (ja) * 1998-03-18 2007-08-22 株式会社ビデオリサーチ 楽曲識別方法及び楽曲識別システム
US6201176B1 (en) * 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
JP2001297093A (ja) * 2000-04-14 2001-10-26 Alpine Electronics Inc 音楽配給システムおよびサーバ装置
US7065416B2 (en) * 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
JP2003058147A (ja) * 2001-08-10 2003-02-28 Sony Corp 音楽コンテンツ自動分類装置及び自動分類方法
DE60319710T2 (de) * 2003-11-12 2009-03-12 Sony Deutschland Gmbh Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010054758A (ja) * 2008-08-28 2010-03-11 Sony Corp 再生装置および再生方法
WO2022265132A1 (ko) * 2021-06-17 2022-12-22 견두헌 색혼합 방식으로 장르를 표현하는 음악장르 분류 장치 및 그 방법

Also Published As

Publication number Publication date
EP1615204B1 (en) 2007-10-24
CN1985302B (zh) 2010-12-22
CN1985302A (zh) 2007-06-20
WO2006005533A2 (en) 2006-01-19
JP4825800B2 (ja) 2011-11-30
US20090031882A1 (en) 2009-02-05
DE602004009676T2 (de) 2008-08-07
DE602004009676D1 (de) 2007-12-06
EP1615204A1 (en) 2006-01-11
WO2006005533A3 (en) 2006-04-06
US7858868B2 (en) 2010-12-28

Similar Documents

Publication Publication Date Title
JP4825800B2 (ja) 楽曲分類方法
US8170702B2 (en) Method for classifying audio data
JP5344715B2 (ja) コンテンツ検索装置およびコンテンツ検索プログラム
Tzanetakis et al. Marsyas: A framework for audio analysis
JP4274221B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US10129314B2 (en) Media feature determination for internet-based media streaming
CN104050974A (zh) 声音信号分析设备以及声音信号分析方法和程序
US11271993B2 (en) Streaming music categorization using rhythm, texture and pitch
Mokhsin et al. Automatic music emotion classification using artificial neural network based on vocal and instrumental sound timbres
Elowsson et al. Predicting the perception of performed dynamics in music audio with ensemble learning
JPWO2019171457A1 (ja) 音源分離装置、音源分離方法およびプログラム
JP7537175B2 (ja) 楽曲構造解析装置、楽曲構造解析方法および楽曲構造解析プログラム
JP2008216486A (ja) 音楽再生システム
Hockman et al. Computational strategies for breakbeat classification and resequencing in hardcore, jungle and drum and bass
Jitendra et al. An ensemble model of CNN with Bi-LSTM for automatic singer identification
KR101398059B1 (ko) 표준편차 기반의 음원의 특징 축소 방법을 이용하는 음악 분위기 자동 판별 시스템 및 방법
Chhabra et al. Drum Instrument Classification Using Machine Learning
Pawar et al. Automatic tonic (shruti) identification system for indian classical music
CN112687280B (zh) 一种具有频谱-时间空间界面的生物多样性监测系统
Mirza et al. Residual LSTM neural network for time dependent consecutive pitch string recognition from spectrograms: a study on Turkish classical music makams
KR101520572B1 (ko) 음악에 대한 복합 의미 인식 방법 및 그 장치
Senan et al. Feature extraction for traditional malay musical instruments classification system
Ishwar Pitch estimation of the predominant vocal melody from heterophonic music audio recordings
Pei et al. Instrumentation analysis and identification of polyphonic music using beat-synchronous feature integration and fuzzy clustering
Scott et al. Predicting time-varying musical emotion distributions from multi-track audio

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080317

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20081002

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110816

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110912

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees