JP2006276854A - オーディオデータ分類方法 - Google Patents

オーディオデータ分類方法 Download PDF

Info

Publication number
JP2006276854A
JP2006276854A JP2006076740A JP2006076740A JP2006276854A JP 2006276854 A JP2006276854 A JP 2006276854A JP 2006076740 A JP2006076740 A JP 2006076740A JP 2006076740 A JP2006076740 A JP 2006076740A JP 2006276854 A JP2006276854 A JP 2006276854A
Authority
JP
Japan
Prior art keywords
audio data
mood
classification method
comparison
mood space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006076740A
Other languages
English (en)
Inventor
Thomas Kemp
ケンプ、トーマス
Yin Hay Lam
ハイ ラム、イン
Rigueiro Marta Tolos
リグエイロ、マルタ トロス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony Deutschland GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Deutschland GmbH filed Critical Sony Deutschland GmbH
Publication of JP2006276854A publication Critical patent/JP2006276854A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/155Library update, i.e. making or modifying a musical database using musical parameters as indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】
オーディオデータ(AD)を分類するオーディオデータ分類方法を提供する。
【解決手段】
オーディオデータ(AD)の所定のピースについて、その所定のオーディオデータ(AD)のムード空間(M)内における位置又は場所(LAD)を生成し、比較ムード空間位置(CL)と比較する。比較の結果、比較データ(CD)を生成し、所定のオーディオデータ(AD)に関する分類結果として提供する。
【選択図】 図2

Description

本発明は、オーディオデータを分類するオーディオデータ分類方法に関する。詳しくは、本発明は、例えば、N次元音楽ムード空間関係に基づく高速な音楽の類似度の算出方法に関する。
近年、ユーザが多数の音楽アイテム及びタイトルを保存及び管理することができる多くの電子機器、特にユーザ機器において、オーディオデータ、特に楽曲を分類することが益々重要になっている。このような音楽データに基づく管理メカニズムを強化するためには、簡単で高速な手法により、オーディオデータの異なるピース間で、又は異なる楽曲間で、比較を行う必要がある。
そこで、オーディオデータを解析して固有の性質及び特徴を抽出し、この性質及び特徴のそれぞれの集合又はn−タプルを比較することによって、楽曲を比較する様々なメカニズムが開発されている。しかしながら、このような比較メカニズム内で評価される既知の特徴の多くは、算出が困難であり、また、コンピュータの負担が大きすぎる場合もある。
Dan Liu, Li Lu & Hong-Jiang Zhang, "Automatic mood detection from acoustic music data", Proceedings of the Fourth International Conference on Music Information Retrieval (ISMIR) 2003. Tao Li & Mitsunori Ogihara, "Detecting emotion in music", Proceedings of the Fourth International Conference on Music Information Retrieval (ISMIR) 2003. J.J. Aucouturier & F. Pachet, "Finding songs that sound the same", in Proc. Of the IEEE Benelux Workshop on model based processing and coding of audio, Nov 2002.
そこで、本発明の目的は、高い信頼度で、容易且つ高速にオーディオデータを比較及び分類するための演算を行うことができるオーディオデータ分類方法を提供することである。
この目的は、独立請求項1に定義する本発明に基づくオーディオデータ分類方法により達成される。本発明に基づくオーディオデータ分類方法の好ましい実施形態は、従属請求項に定義されている。また、本発明の目的は、請求項18記載のオーディオデータ分類装置、請求項19記載のコンピュータプログラム製品及び請求項20記載のコンピュータにより読取可能な媒体によっても達成される。
本発明に係るオーディオデータ分類方法は、オーディオデータ(AD)を分類するためのオーディオデータ分類方法において、入力データ(I)としてオーディオデータ(AD)を準備するステップ(S1)と、オーディオデータ(AD、AD’)を分類するためのムード空間(M)を定義し及び/又は記述又は表現するムード空間データ(MSD)を準備するステップ(S2)と、ムード空間(M)内で所定のオーディオデータ(AD)のムード空間位置(LAD)を生成するステップ(S3)と、ムード空間(M)内に少なくとも1つの比較ムード空間位置(Cl)を特定するステップ(S4)と、所定のオーディオデータ(AD)のムード空間位置(LAD)を、少なくとも1つの比較ムード空間位置(Cl)と比較し、これにより比較データ(CD)を生成するステップ(S5)と、分類結果として、比較データ(CD)を出力データ(O)として提供するステップ(S6)とを有する。
したがって、本発明の主要な思想は、所定のオーディオデータを解析して、ムード空間データによって予め定義され又は与えられたムード空間内の位置又は場所を特定することである。そして、所定のオーディオデータについて導出されたムード空間位置を、少なくとも1つの比較ムード空間位置と比較することによって、所定のオーディオデータを分類又は比較することができる。この結果として生成された比較データ又は分類データは、分類結果又は比較結果として提供される。したがって、例えば、ムード空間内において、例えば、単に位置又は場所の各座標を比較することによって、他の位置又は場所と容易に比較できるn−タプル座標(coordinate n-tuple)により、オーディオデータの所定のピース(楽曲)の位置又は場所を特定する必要がある。これにより、オーディオデータを容易に分類し、他のオーディオデータと比較することができる。
本発明に基づくオーディオデータ分類方法の好ましい実施形態においては、ムード空間は、ガウス混合モデル、ニューラルネットワークモデル及び決定木モデルのうちの少なくとも1つであり、又はこれらのうちの少なくとも1つによってモデル化される。
これに代えて又はこれに加えて、本発明に基づくオーディオデータ分類方法の好ましい実施形態においては、ムード空間は、Nを所定の固定された整数として、N次元空間又はマニホルドであり、又はこれによってモデル化される。
更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、比較データは、ムード空間上又はムード空間内で定義されるトポロジ、メトリック、標準、距離のうちの少なくとも1つを記述し、表現し、及び/又は含む。
更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、比較データ、特に、トポロジ、メトリック、標準及び距離は、ユークリッド空間モデル、ガウス混合モデル、ニューラルネットワークモデル及び決定木モデルのうちの少なくとも1つに基づいて得られる。
更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、比較データは、ムード空間内の所定のオーディオデータのムード空間位置及びムード空間内の比較ムード空間位置に基づいて導出される。
更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、ムード空間及び/又はそのモデルは、セイヤーのムードモデル(Thayer's mood model)に基づいて定義される。
本発明に基づくオーディオデータ分類方法の他の好ましい実施形態においては、ムード空間及び/又はそのモデルは、2次元であり、感情又はムードパラメータ又は属性として、例えば幸福及び不安のムードを記述する測定された又は測定可能なエンティティのストレス(S())及び例えば平静及びエネルギッシュなムードを記述するエネルギ(E())に基づいて定義される。
更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、ムード空間及び/又はそのモデルは、3次元であり、幸福、情熱及び興奮に関する測定又は測定可能なエンティティに基づいて定義される。
更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、少なくとも1つの比較ムード空間位置を特定するステップ(S4)は、更なる入力データとして、少なくとも1つの更なるオーディオデータを提供するステップと、更なるオーディオデータについて、それぞれの更なるムード空間位置を生成するステップとを有し、更なるオーディオデータのそれぞれの更なるムード空間位置は、少なくとも1つの比較ムード空間位置のために用いられる。
オーディオデータの少なくとも2つのサンプル(AD、AD’)を互いに比較し、特に、導出されたムード空間位置(LAD)と、更なるムード空間位置(LAD’)又は比較ムード空間位置(CL)とを比較することによって、オーディオデータの一方のサンプル(AD)を導出されたムード空間位置(LAD)に割り当て、オーディオデータの他方のサンプル(AD’)を更なるムード空間位置(LAD’)又は比較ムード空間位置(CL)に割り当ててもよい。
更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、互いに比較されるオーディオデータの少なくとも2つのサンプルは、予備的な選択処理又は比較前処理において、比較データに基づいて、及び更に詳細な比較処理において、追加的な特徴に基づいて、例えば、演算がより複雑な特徴に基づいて、及び/又は周波数領域に関連する特徴に基づいて互いに比較される。
この場合、互いに比較されるオーディオデータの少なくとも2つのサンプルは、より詳細な比較処理において、予備的な選択処理又は比較前処理から得られた比較データが、オーディオデータの少なくとも2つのサンプルが十分に近いことを示している場合、追加的な特徴に基づいて、互いに比較してもよい。
これに代えて、オーディオデータの3つ以上の複数のサンプルを互いに比較してもよい。
これに代えて又はこれに加えて、所定のオーディオデータを、オーディオデータの複数の追加的なサンプルと比較してもよい。
これらの場合、比較から、所定のオーディオデータに類似するオーディオデータの複数の追加的サンプルのオーディオデータの追加的サンプルを記述する比較リスト、特にプレーリストを生成してもよい。
本発明の更に好ましい実施形態においては、オーディオデータのサンプルとして楽曲(music pieces)を用いてもよい。
更に、本発明に係るオーディオデータ分類装置は、上述したオーディオデータ分類方法を実行するよう適応化され及びオーディオデータ分類方法のステップを実現するための手段を備える。
更に、本発明に係るコンピュータプログラム製品は、コンピュータ又はデジタル信号処理装置によって実行されて、上述したオーディオデータ分類方法のステップを実行するよう適応化されたコンピュータプログラム手段を備える。
更に、本発明に係るコンピュータにより読取可能な媒体は、上述したコンピュータプログラム製品を備える。
以下、本発明のこれらの及び更なる側面について説明する。
概念
本発明は、特に、N次元音楽ムード空間関係に基づく高速な音楽の類似度の算出方法に関する。
N次元音楽ムード空間を用いて候補の数を制限し、これにより、類似リスト生成の演算負荷を低減することを提案する。巨大なデータベース内の各楽曲について、まず、N次元音楽ムード空間における位置を判定し、ムード空間内の楽曲に近い楽曲だけを選択し、所定の楽曲と、前選択された楽曲の間の類似度を算出する。
背景
音楽類似性は、現時点では比較的、新しいトピックであり、その研究は、極めて学問的である。様々な低レベルの特徴の組合せである所謂「音色(timbre)」に関する統計を用いて、楽曲を互いに比較するシステムが開発されている。サンプルの分布のモンテカルロシミュレーション(Monte-Carlo-simulation)及び他方の楽曲からの統計を用いる人工的なサンプルの確率推定等、高価な手法を含む様々な距離尺度が提案されている。これらの詳細については、非特許文献3に開示されている。
当分野において、音楽の感情認識(emotion recognition)は、更に新しいトピックである。音楽処理に関しては膨大な量の論文が書かれているが、音楽の感情(emotion)に関する論文は少ない。音楽分類における感情分類のために用いられる最先端のシステムとしては、ガウス混合モデル(Gaussian mixtures model)、サポートベクトルマシン(support vector machine)、ニューラルネットワーク等がある。音楽における感情の認知に関する研究もなされているが、これらの結果は、未だ予備的である。非特許文献1及び非特許文献2は、従来のムード検出法に関する情報を開示している。
問題
音楽検索又は音楽提案に関するアプリケーションは、通常、音楽プレーリストを表示し、プレーリスト内の曲は、通常、問い合わせがあった楽曲とデータベース内の他の楽曲との間の類似度に基づいている。今日、一般的な商業的音楽データベースは、数十万曲もの楽曲を含んでいる。データベース内の各楽曲について、現在のシステムは、通常、類似リストを生成するために、データベース内の他の全ての楽曲に関して類似度を算出する。そして、アプリケーションに基づき、類似リストからプレーリストが生成される。類似度算出に必要な演算には、データベース内の曲数をNとして、N*N/2回の類似尺度演算が含まれる。例えば、データベースの曲数が50万曲である場合、この演算は、500,000*500,000/2回実行する必要があり、実際のアプリケーションにおいて、実用的ではない。
そこで、本発明では、ムード空間に基づく高速な音楽類似リスト生成法を提案する。通常、異なる楽曲で表現される感情は、異なる。ある曲により、リスナは幸福な気分になり、他の曲により、悲しい気分になる。更に、同様のムード又は感情を有する曲についても、一般に、リスナは、感情表現の度合いの違いを区別できる。例えば、一方の曲の方が、他方の曲よりもより幸福な気分になれる等と感じることができる。更に、異なるムードを有する楽曲は、通常、異なる楽曲とみなされる。本発明が提案する音楽類似リスト生成法は、上述したような感情認知(emotion perception)を利用する。
この提案では、まず、N次元ムード空間によって、楽曲の感情を記述する。各次元は、特定の感情属性(emotion attribute)の度合いを記述する。まず、データベース内の各楽曲について、それぞれの感情属性の値を生成する。そして、このN次元空間における特定の楽曲の座標に基づいて、所定の楽曲の近くに位置している楽曲を選択する。予備的な選択処理の後、所定の楽曲と、データベース内の他の楽曲との類似度を算出することに代えて、所定の楽曲と、前選択された楽曲との間の類似度のみを算出する。
先の文献によって提案された如何なる音楽感情/ムードモデルを用いてN次元ムード空間を構築してもよい。例えば、セイヤー(Thayer)(非特許文献1)は、二次元モデルを提案している。このモデルでは、ストレス(正/負)及びエネルギ(平静/エネルギッシュ)の2つの要素によってムードを定義する理論を採用している。セイヤーのムードモデルによれば、如何なる楽曲もストレス値及びエネルギ値によって記述でき、これらの値は、所定の楽曲に座標を与え、したがって、ムード空間内における感情の位置を判定することができる。図1Aに示すように、楽曲xのストレス値及びエネルギ値をそれぞれS(x)及びE(x)とすると、xのムードは、感情属性の関数として、mood(x)=f(E(x),S(x))と表すことができ、ここで、fは、如何なる関数であってもよい。上述のように、ムード空間内で互いに近い2つの楽曲、例えば、楽曲x及び楽曲yは、いずれも「安らぎ(contentment)」に属すため、類似しているとみなされる。一方、「不安(Anxious)」の楽曲z等は、ムード空間内でxから遠く、したがって、不安の楽曲z等は、通常、x等の「安らぎ」の楽曲に類似しないとみなされる。同様の概念は、セイヤーのモデルに制限されず、如何なるN次元モデルにも拡張できる。例えば、図1Bは、3次元ムード空間を示している。この空間座標は、それぞれ幸福(happiness)、情熱(passion)及び興奮(excitement)の度合いを表している。
ムード空間における楽曲の座標は、例えば、ニューラルネットワーク決定木、ガウス混合モデル等、如何なるマシン学習アルゴリズムから生成してもよい。例えば、図1Bの具体例では、ガウス混合モデル、すなわち、情熱モデル、幸福モデル及び興奮モデルを用いて各ムード次元をモデル化することができる。このようなムードモデルは、予めトレーニングされる。所定の楽曲について、各モデルは、得点を生成し、このような得点は、ムード空間における座標値として用いることができる。
ムード空間における楽曲の位置を判定した後に、例えば、ユークリッド距離、マハラノビス距離又はコサイン角度等の簡単な距離尺度を用いることによってムード空間の所定の楽曲に近い楽曲を特定する。
例えば、図2では、ムード空間において、近接領域、例えば、円A内に含まれる楽曲だけが楽曲xに近いとみなされ、楽曲zは、楽曲xから遠く、したがって、楽曲xに類似しないとみなされる。システムは、この距離に基づいて、所定の楽曲に近いN個の楽曲を選択でき、又は距離閾値を設定し、この閾値より小さい距離の楽曲だけを選択することができる。
楽曲xのための類似リストを生成するために、楽曲xと前選択された楽曲との間の類似度を算出する類似尺度を導入する。類似尺度は、既知の類似尺度アルゴリズムであってもよく、例えば、各楽曲は、ガウス混合モデルによってモデル化してもよい。如何なるモデル距離基準(例えば、非特許文献3参照)を用いて2つのガウスモデル間の距離を測定してもよい。
利点
本発明の主な利点は、知覚的な観点から、類似格付け性能に影響しないで、大容量データベースについて、楽曲類似リストを生成するための演算を大幅に削減できる点である。
以下、図面を参照し、本発明の好ましい実施形態を説明する。
以下では、機能的又は構造的に類似又は同等の構造要素には、同じ参照符号を付す。これらが出現する都度、詳細な説明は繰返さない。
図1Aは、本発明の好ましい実施形態に基づき、オーディオデータを分類するオーディオデータ分類方法を実現するムード空間Mのモデルを図式的に示している。
図1Aに示すムード空間Mは、所謂ムード空間データMSD(mood space data)に基づき、これにより定義され、及び構築されている。ムード空間M内において、位置又は場所を特定するために用いられる軸は、エンティティのストレスS及びエネルギEである。したがって、図1Aに示すモデルは、ムード空間Mのための2次元ムード空間モデルである。ストレスS及びエネルギEの2つの軸で定義される座標系において、オーディオデータAD、AD’の3つの異なる集合について、3つの位置を示している。オーディオデータAD、AD’のそれぞれの組を、それぞれx、y、zと呼ぶ。図1Aに示す実施形態では、xと呼ばれるオーディオデータADの第1の集合は、所定のオーディオデータxとして、機能する。オーディオデータxの第1の集合のエンティティのストレスS及びエネルギEの評価に基づいて、各パラメータ値S(x)及びE(x)を生成する。したがって、第1の集合又はオーディオデータxのサンプルのための各位置LADxは、測定値S(x)、E(x)の関数である。最も単純な場合、オーディオデータxのための位置LADxは、単に値S(x)、E(x)の対であり、すなわち以下のように表される。
LADx:=LAD(S(x),E(x))=<S(x),E(x)>
第2及び第3のオーディオデータy及びzについても、それぞれの測定値S(y)、E(y)及びS(z)、E(z)により、同様の式が成り立つ。すなわち、ムード空間MにおけるLADy及びLADzは、位置又は場所の一般的なプロパティに基づき、以下のように表される。
LADy:=LAD(S(y),E(y))=<S(y),E(y)>
LADz:=LAD(S(z),E(z))=<S(z),E(z)>
図1Aからわかるように、距離関数がユークリッド法において有効であるという仮定の下、オーディオデータx及びyは、互いに近接しており、オーディオのデータzは、第1及び第2のオーディオデータx及びyのそれぞれに対して遠くにある。
更に、ムード空間M全体のうちのある一定の領域に、安らぎ(contentment)、憂鬱(depression)、歓喜(exuberance)、不安(anxiousness)等、ある特徴的なムードを割り当てることができる。
図1Bは、ムード空間Mを3次元以上の次元で表現することができることを示している。図1Bの具体例では、ムード空間M内でそれぞれ3つの座標を定義する、エンティティの幸福(happiness)、情熱(passion)及び興奮(excitement)によって、ムード空間を3次元で表している。
図2は、既に図1Aに示した実施形態の近接及び近隣の認識及び概念を更に詳細に示している。ここでは、ムード空間M内に、それぞれの場所又は位置LADxを有する元のオーディオデータxがある。所定の距離又はメトリックの概念に関して閾値を生成又は受け取ることでき、これを用いて、ムード空間M内におけるオーディオデータxの近隣A(x)を実現又は定義することができる。ここに示すオーディオデータxの近隣A(x)は、第1のオーディオデータxの位置LADxを中心とし、選択された閾値に等しい、ここで説明する近隣概念の基礎となる距離又はメトリックを半径とする円である。この近隣円A(x)内の全ての更なるオーディオデータADは、第1の所定のオーディオデータxに比べて近接する又は十分近いと考えられる。一方、更なるオーディオデータzは、基礎となる距離又はメトリックに関して遠過ぎ、したがって、オーディオデータzは、所定の第1のオーディオデータxに近くないと分類できる。このような近接又は近隣の概念を用いることにより、オーディオデータxの所定のサンプルを、例えば、データベース内の他のオーディオサンプルと比較し、オーディオデータサンプルを互いに比較する際のコンピュータの負担を低減することができる。図2に示す具体例では、距離概念及びメトリックに基づいて、予備的な選択処理を実行し、互いに又は所定のオーディオデータxと比較する必要があるより少ないオーディオデータのサンプルだけを含むより洗練された下位集合を全体のデータベースから選択することができる。
図3は、本発明に基づいて、オーディオデータADを分類するオーディオデータ分類方法の実施形態を実現するための主な処理ステップのフローチャートを含むブロック図である。
初期化ステップSTARTの後、第1のステップS1において、入力IとしてオーディオデータADのサンプルを受け取る。
そして、ステップS2において、本発明に基づく方法の基礎となるムード空間に関する情報を提供する。すなわち、ステップS2では、オーディオデータAD、AD’を分類し、比較するためのムード空間Mを定義し及び/又は記述又は表現するそれぞれのモード空間データMSDを提供する。
次に、ステップS3において、ムード空間Mにおいて、所定のオーディオデータADのためのムード空間位置LADを生成する。ステップS3に含まれるサブステップS3aでは、例えば、所定の特徴セットFSに関してオーディオデータADを解析する。特徴セットFSは、それぞれのデータベースから得てもよい。これに続くサブステップS3bにおいて、以下のように、オーディオデータADの関数として、オーディオデータADのためのムード空間位置LADを算出する。
LAD:=LAD(AD)
次のステップS4において、比較ムード空間位置CLを、例えば、データベースから受け取る。この比較ムード空間位置CLは、所定のオーディオデータADと比較する必要がある1以上の更なるオーディオデータAD’に依存していてもよい。更に、この具体例では、比較ムード空間位置CLは、この分類体系の基礎となる特徴セットFSに依存していてもよい。
次のステップS5では、オーディオデータADの所定のサンプルのための位置LADと比較位置CLとを比較し、それぞれの比較データCDを生成する。この比較データCDは、位置LADと比較位置CLとの間の距離を示すデータであってもよい。
次のステップS6において、出力Oとして比較データCDを出力する。
そして、図3に示す処理は、速やかで準最適的な分類で十分な場合は、終了ステップEND−1で終了し、又は、高度な分類が必要な場合は、詳細で高価な分類ステップであるステップS7を実行した後に、代わりの終了ステップEND−2で終了する。
本発明の好ましい実施形態に基づき、オーディオデータを分類するオーディオデータ分類方法を実現するムード空間Mのモデルを図式的に示す図である。 本発明の他の実施形態に基づき、オーディオデータを分類するオーディオデータ分類方法を実現するムード空間Mのモデルを図式的に示す図である。 図1Aに示す本発明に基づくオーディオデータ分類方法の実施形態における近接の概念を図式的に説明する図である。 本発明の好ましい実施形態に基づいてオーディオデータを解析する処理の基本的な側面を説明するフローチャートである。
符号の説明
A,A(x) 近隣、近接、オーディオデータxのムード空間位置に関する近隣又は近接、AD オーディオデータ、オーディオデータサンプル、AD’ オーディオデータ、オーディオデータサンプル、更なるオーディオデータ、CD 比較データ、CL 比較ムード空間位置、E、E() エネルギ、FS 特徴セット、I 入力、入力データ、LAD 受け取ったオーディオデータADのムード空間位置、LADx 受け取ったオーディオデータxのムード空間位置、LADy 受け取ったオーディオデータyのムード空間位置、LADz 受け取ったオーディオデータzのムード空間位置、LAD’ 受け取った更なるオーディオデータADの更なるムード空間位置、M ムード空間、MSD ムード空間データ、O 出力、出力データ、S、S() ストレス、x オーディオデータ、オーディオデータサンプル、y オーディオデータ、オーディオデータサンプル、z オーディオデータ、オーディオデータサンプル

Claims (20)

  1. オーディオデータ(AD)を分類するためのオーディオデータ分類方法において、
    入力データ(I)としてオーディオデータ(AD)を準備するステップ(S1)と、
    オーディオデータ(AD、AD’)を分類するためのムード空間(M)を定義し及び/又は記述又は表現するムード空間データ(MSD)を準備するステップ(S2)と、
    上記ムード空間(M)内で上記所定のオーディオデータ(AD)のムード空間位置(LAD)を生成するステップ(S3)と、
    上記ムード空間(M)内に少なくとも1つの比較ムード空間位置(Cl)を特定するステップ(S4)と、
    上記所定のオーディオデータ(AD)の上記ムード空間位置(LAD)を、上記少なくとも1つの比較ムード空間位置(Cl)と比較し、これにより比較データ(CD)を生成するステップ(S5)と、
    分類結果として、上記比較データ(CD)を出力データ(O)として提供するステップ(S6)とを有するオーディオデータ分類方法。
  2. 上記ムード空間(M)は、ガウス混合モデル、ニューラルネットワークモデル及び決定木モデルのうちの少なくとも1つであり、又はこれらのうちの少なくとも1つによってモデル化されることを特徴とする請求項1記載のオーディオデータ分類方法。
  3. 上記ムード空間(M)は、Nを所定の固定された整数として、N次元空間又はマニホルドであり、又はこれによってモデル化されることを特徴とする請求項1又は2記載のオーディオデータ分類方法。
  4. 上記比較データ(CD)は、上記ムード空間(M)上又はムード空間(M)内で定義されるトポロジ、メトリック、標準、距離のうちの少なくとも1つを記述し、表現し、及び/又は含むことを特徴とする請求項1乃至3いずれか1項記載のオーディオデータ分類方法。
  5. 上記比較データ(CD)、特に、上記トポロジ、メトリック、標準及び距離は、上記ユークリッド空間モデル、上記ガウス混合モデル、上記ニューラルネットワークモデル及び上記決定木モデルのうちの少なくとも1つに基づいて得られることを特徴とする請求項1乃至4いずれか1項記載のオーディオデータ分類方法。
  6. 上記比較データ(CD)は、上記ムード空間(M)内の上記所定のオーディオデータ(AD)の上記ムード空間位置(LAD)及び上記ムード空間(M)内の上記比較ムード空間位置(Cl)に基づいて導出されることを特徴とする請求項1乃至5いずれか1項記載のオーディオデータ分類方法。
  7. 上記ムード空間(M)及び/又はそのモデルは、セイヤーのムードモデル(Thayer's mood model)に基づいて定義されることを特徴とする請求項1乃至6いずれか1項記載のオーディオデータ分類方法。
  8. 上記ムード空間(M)及び/又はそのモデルは、2次元であり、感情又はムードパラメータ又は属性として、幸福及び不安のムードを記述する測定された又は測定可能なエンティティのストレス(S())及び平静及びエネルギッシュなムードを記述するエネルギ(E())に基づいて定義されることを特徴とする請求項1乃至7いずれか1項記載のオーディオデータ分類方法。
  9. 上記ムード空間(M)及び/又はそのモデルは、3次元であり、幸福、情熱及び興奮に関する測定又は測定可能なエンティティに基づいて定義されることを特徴とする請求項1乃至8いずれか1項記載のオーディオデータ分類方法。
  10. 上記少なくとも1つの比較ムード空間位置(Cl)を特定するステップ(S4)は、
    更なる入力データ(I)として、少なくとも1つの更なるオーディオデータ(AD、AD’)を提供するステップと、
    上記更なるオーディオデータ(AD’)について、それぞれの更なるムード空間位置(LAD’)を生成するステップとを有し、
    上記更なるオーディオデータ(AD’)の上記それぞれの更なるムード空間位置(LAD’)は、上記少なくとも1つの比較ムード空間位置(CL)のために用いられることを特徴とする請求項1乃至9いずれか1項記載のオーディオデータ分類方法。
  11. 上記オーディオデータの少なくとも2つのサンプル(AD、AD’)を互いに比較し、特に、上記導出されたムード空間位置(LAD)と、上記更なるムード空間位置(LAD’)又は上記比較ムード空間位置(CL)とを比較することによって、該オーディオデータの一方のサンプル(AD)を上記導出されたムード空間位置(LAD)に割り当て、該オーディオデータの他方のサンプル(AD’)を上記更なるムード空間位置(LAD’)又は上記比較ムード空間位置(CL)に割り当てることを特徴とする請求項10記載のオーディオデータ分類方法。
  12. 上記互いに比較されるオーディオデータの少なくとも2つのサンプル(AD、AD’)は、予備的な選択処理又は比較前処理において、上記比較データ(CD)に基づいて、及び更に詳細な比較処理において、追加的な特徴に基づいて、例えば、演算がより複雑な特徴に基づいて、及び/又は周波数領域に関連する特徴に基づいて互いに比較されることを特徴とする請求項11記載のオーディオデータ分類方法。
  13. 上記互いに比較されるオーディオデータの少なくとも2つのサンプル(AD、AD’)は、上記より詳細な比較処理において、上記予備的な選択処理又は比較前処理から得られた上記比較データ(CD)が、上記オーディオデータの少なくとも2つのサンプル(AD、AD’)が十分に近いことを示している場合、上記追加的な特徴に基づいて、互いに比較されることを特徴とする請求項12記載のオーディオデータ分類方法。
  14. 上記オーディオデータの3つ以上の複数のサンプル(AD、AD’)を互いに比較することを特徴とする請求項1乃至13いずれか1項記載のオーディオデータ分類方法。
  15. 上記所定のオーディオデータ(AD)は、上記オーディオデータの複数の追加的なサンプル(AD’)と比較されることを特徴とする請求項1乃至14いずれか1項記載のオーディオデータ分類方法。
  16. 上記比較から、上記所定のオーディオデータ(AD)に類似するオーディオデータの上記複数の追加的サンプル(AD’)のオーディオデータ(AD’)の追加的サンプルを記述する比較リスト、特にプレーリストを生成することを特徴とする請求項14又は15記載のオーディオデータ分類方法。
  17. 上記オーディオデータのサンプル(AD、AD’)として楽曲を用いることを特徴とする請求項1乃至16いずれか1項記載のオーディオデータ分類方法。
  18. 請求項1乃至17いずれか1項記載のオーディオデータ分類方法を実行するよう適応化され及び該オーディオデータ分類方法のステップを実現するための手段を備えるオーディオデータ分類装置。
  19. コンピュータ又はデジタル信号処理装置によって実行されて、請求項1乃至17いずれか1項記載のオーディオデータ分類方法のステップを実行するよう適応化されたコンピュータプログラム手段を備えるコンピュータプログラム製品。
  20. 請求項19記載のコンピュータプログラム製品を備えるコンピュータにより読取可能な媒体。
JP2006076740A 2005-03-18 2006-03-20 オーディオデータ分類方法 Withdrawn JP2006276854A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP05005994A EP1703491B1 (en) 2005-03-18 2005-03-18 Method for classifying audio data

Publications (1)

Publication Number Publication Date
JP2006276854A true JP2006276854A (ja) 2006-10-12

Family

ID=34934366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006076740A Withdrawn JP2006276854A (ja) 2005-03-18 2006-03-20 オーディオデータ分類方法

Country Status (5)

Country Link
US (1) US8170702B2 (ja)
EP (1) EP1703491B1 (ja)
JP (1) JP2006276854A (ja)
CN (1) CN101142622B (ja)
WO (1) WO2006097299A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011145249A1 (ja) * 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路
JP2022507579A (ja) * 2018-11-15 2022-01-18 ソニー・インタラクティブエンタテインメント エルエルシー ゲーミングにおける動的な音楽生成

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60319710T2 (de) 2003-11-12 2009-03-12 Sony Deutschland Gmbh Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale
US7601315B2 (en) 2006-12-28 2009-10-13 Cansolv Technologies Inc. Process for the recovery of carbon dioxide from a gas stream
US7842876B2 (en) * 2007-01-05 2010-11-30 Harman International Industries, Incorporated Multimedia object grouping, selection, and playback system
EP1975866A1 (en) 2007-03-31 2008-10-01 Sony Deutschland Gmbh Method and system for recommending content items
US20080300702A1 (en) * 2007-05-29 2008-12-04 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
US8583615B2 (en) * 2007-08-31 2013-11-12 Yahoo! Inc. System and method for generating a playlist from a mood gradient
EP2083416A1 (en) * 2008-01-23 2009-07-29 Sony Corporation Method for deriving animation parameters and animation display device
EP2101501A1 (en) * 2008-03-10 2009-09-16 Sony Corporation Method for recommendation of audio
US8071869B2 (en) * 2009-05-06 2011-12-06 Gracenote, Inc. Apparatus and method for determining a prominent tempo of an audio work
US8805854B2 (en) 2009-06-23 2014-08-12 Gracenote, Inc. Methods and apparatus for determining a mood profile associated with media data
US8996538B1 (en) 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
US20120023403A1 (en) * 2010-07-21 2012-01-26 Tilman Herberger System and method for dynamic generation of individualized playlists according to user selection of musical features
KR101069090B1 (ko) * 2011-03-03 2011-09-30 송석명 조립식 경조사용 쌀 화환
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
GB201109731D0 (en) * 2011-06-10 2011-07-27 System Ltd X Method and system for analysing audio tracks
US9263060B2 (en) 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
CN103258532B (zh) * 2012-11-28 2015-10-28 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
US9436756B2 (en) * 2013-01-28 2016-09-06 Tata Consultancy Services Limited Media system for generating playlist of multimedia files
US11271993B2 (en) 2013-03-14 2022-03-08 Aperture Investments, Llc Streaming music categorization using rhythm, texture and pitch
US10061476B2 (en) 2013-03-14 2018-08-28 Aperture Investments, Llc Systems and methods for identifying, searching, organizing, selecting and distributing content based on mood
US10242097B2 (en) 2013-03-14 2019-03-26 Aperture Investments, Llc Music selection and organization using rhythm, texture and pitch
US9875304B2 (en) 2013-03-14 2018-01-23 Aperture Investments, Llc Music selection and organization using audio fingerprints
US10623480B2 (en) 2013-03-14 2020-04-14 Aperture Investments, Llc Music categorization using rhythm, texture and pitch
US10225328B2 (en) 2013-03-14 2019-03-05 Aperture Investments, Llc Music selection and organization using audio fingerprints
US9639871B2 (en) 2013-03-14 2017-05-02 Apperture Investments, Llc Methods and apparatuses for assigning moods to content and searching for moods to select content
CN103440863B (zh) * 2013-08-28 2016-01-06 华南理工大学 一种基于流形的语音情感识别方法
TWI603213B (zh) * 2014-01-23 2017-10-21 國立交通大學 基於臉部辨識的音樂選取方法、音樂選取系統及電子裝置
US20220147562A1 (en) 2014-03-27 2022-05-12 Aperture Investments, Llc Music streaming, playlist creation and streaming architecture
CN104700829B (zh) * 2015-03-30 2018-05-01 中南民族大学 动物声音情绪识别系统及其方法
US9721551B2 (en) 2015-09-29 2017-08-01 Amper Music, Inc. Machines, systems, processes for automated music composition and generation employing linguistic and/or graphical icon based musical experience descriptions
US10854180B2 (en) 2015-09-29 2020-12-01 Amper Music, Inc. Method of and system for controlling the qualities of musical energy embodied in and expressed by digital music to be automatically composed and generated by an automated music composition and generation engine
US10261964B2 (en) * 2016-01-04 2019-04-16 Gracenote, Inc. Generating and distributing playlists with music and stories having related moods
CN107293308B (zh) * 2016-04-01 2019-06-07 腾讯科技(深圳)有限公司 一种音频处理方法及装置
CN106231357B (zh) * 2016-08-31 2017-05-10 浙江华治数聚科技股份有限公司 一种电视广播媒体音视频数据碎片时间的预测方法
CN106331741B (zh) * 2016-08-31 2019-03-08 徐州视达坦诚文化发展有限公司 一种电视广播媒体音视频数据的压缩方法
RU2748547C2 (ru) 2016-11-01 2021-05-26 Шелл Интернэшнл Рисерч Маатсхаппий Б.В. Способ получения очищенного газового потока
US10750229B2 (en) 2017-10-20 2020-08-18 International Business Machines Corporation Synchronized multi-media streams including mood data
US11020560B2 (en) 2017-11-28 2021-06-01 International Business Machines Corporation System and method to alleviate pain
US10426410B2 (en) 2017-11-28 2019-10-01 International Business Machines Corporation System and method to train system to alleviate pain
US11341945B2 (en) * 2019-08-15 2022-05-24 Samsung Electronics Co., Ltd. Techniques for learning effective musical features for generative and retrieval-based applications
US11024275B2 (en) 2019-10-15 2021-06-01 Shutterstock, Inc. Method of digitally performing a music composition using virtual musical instruments having performance logic executing within a virtual musical instrument (VMI) library management system
US10964299B1 (en) 2019-10-15 2021-03-30 Shutterstock, Inc. Method of and system for automatically generating digital performances of music compositions using notes selected from virtual musical instruments based on the music-theoretic states of the music compositions
US11037538B2 (en) 2019-10-15 2021-06-15 Shutterstock, Inc. Method of and system for automated musical arrangement and musical instrument performance style transformation supported within an automated music performance system
US11615772B2 (en) * 2020-01-31 2023-03-28 Obeebo Labs Ltd. Systems, devices, and methods for musical catalog amplification services
US20230147185A1 (en) * 2021-11-08 2023-05-11 Lemon Inc. Controllable music generation

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7532943B2 (en) * 2001-08-21 2009-05-12 Microsoft Corporation System and methods for providing automatic classification of media entities according to sonic properties
DE60115653T2 (de) * 2001-10-05 2006-08-10 Sony Deutschland Gmbh Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten
US7158931B2 (en) * 2002-01-28 2007-01-02 Phonak Ag Method for identifying a momentary acoustic scene, use of the method and hearing device
DE60319710T2 (de) * 2003-11-12 2009-03-12 Sony Deutschland Gmbh Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011145249A1 (ja) * 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路
JP5578453B2 (ja) * 2010-05-17 2014-08-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声分類装置、方法、プログラム及び集積回路
US8892497B2 (en) 2010-05-17 2014-11-18 Panasonic Intellectual Property Corporation Of America Audio classification by comparison of feature sections and integrated features to known references
JP2022507579A (ja) * 2018-11-15 2022-01-18 ソニー・インタラクティブエンタテインメント エルエルシー ゲーミングにおける動的な音楽生成
JP7223848B2 (ja) 2018-11-15 2023-02-16 ソニー・インタラクティブエンタテインメント エルエルシー ゲーミングにおける動的な音楽生成
US11969656B2 (en) 2018-11-15 2024-04-30 Sony Interactive Entertainment LLC Dynamic music creation in gaming

Also Published As

Publication number Publication date
EP1703491A1 (en) 2006-09-20
CN101142622B (zh) 2011-10-26
US20090069914A1 (en) 2009-03-12
US8170702B2 (en) 2012-05-01
EP1703491B1 (en) 2012-02-22
WO2006097299A1 (en) 2006-09-21
CN101142622A (zh) 2008-03-12

Similar Documents

Publication Publication Date Title
JP2006276854A (ja) オーディオデータ分類方法
JP4825800B2 (ja) 楽曲分類方法
JP4274221B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
TWI396105B (zh) 用於模擬個體差異之個人化資訊檢索之數位資料處理方法及其電腦裝置可讀式資訊儲存媒體與資訊檢索系統
EP2707815A1 (en) Generating a playlist
JP5477635B2 (ja) 情報処理装置および方法、並びにプログラム
JP2008175955A (ja) インデキシング装置、方法及びプログラム
KR101942459B1 (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
US11074897B2 (en) Method and apparatus for training adaptation quality evaluation model, and method and apparatus for evaluating adaptation quality
Dutta et al. Discovering Typical Motifs of a Raga from One-Liners of Songs in Carnatic Music.
US20130311410A1 (en) Information Processing Apparatus, Information Processing Method, and Program
Nam et al. Intelligent query by humming system based on score level fusion of multiple classifiers
CN106663110B (zh) 音频序列对准的概率评分的导出
Chae et al. Toward a fair evaluation and analysis of feature selection for music tag classification
West et al. Incorporating machine-learning into music similarity estimation
CN115329125A (zh) 一种歌曲串烧拼接方法和装置
Fan et al. Music similarity model based on CRP fusion and Multi-Kernel Integration
Park et al. Similarity measurement method between two songs by using the conditional Euclidean distance
Gao et al. Popular song summarization using chorus section detection from audio signal
KR102538680B1 (ko) 인공신경망을 이용하여 음악의 속성에 기반한 유사 음악 검색 방법 및 장치
JP2006085634A (ja) テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム
Pavitha et al. Analysis of Clustering Algorithms for Music Recommendation
CN114783456A (zh) 歌曲主旋律提取方法、歌曲处理方法、计算机设备和产品
CN114945913A (zh) 使用音频数据的频谱图峰和自适应哈希进行有效音频搜索
JP4544098B2 (ja) コンテンツ検索装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20081002

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090121

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090218