JP2006276854A

JP2006276854A - オーディオデータ分類方法

Info

Publication number: JP2006276854A
Application number: JP2006076740A
Authority: JP
Inventors: Thomas Kemp; ケンプ、トーマス; Yin Hay Lam; ハイラム、イン; Rigueiro Marta Tolos; リグエイロ、マルタトロス
Original assignee: Sony Deutschland GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2005-03-18
Filing date: 2006-03-20
Publication date: 2006-10-12
Also published as: EP1703491A1; CN101142622B; US20090069914A1; US8170702B2; EP1703491B1; WO2006097299A1; CN101142622A

Abstract

【課題】
オーディオデータ（ＡＤ）を分類するオーディオデータ分類方法を提供する。
【解決手段】
オーディオデータ（ＡＤ）の所定のピースについて、その所定のオーディオデータ（ＡＤ）のムード空間（Ｍ）内における位置又は場所（ＬＡＤ）を生成し、比較ムード空間位置（ＣＬ）と比較する。比較の結果、比較データ（ＣＤ）を生成し、所定のオーディオデータ（ＡＤ）に関する分類結果として提供する。
【選択図】図２

Description

本発明は、オーディオデータを分類するオーディオデータ分類方法に関する。詳しくは、本発明は、例えば、Ｎ次元音楽ムード空間関係に基づく高速な音楽の類似度の算出方法に関する。

近年、ユーザが多数の音楽アイテム及びタイトルを保存及び管理することができる多くの電子機器、特にユーザ機器において、オーディオデータ、特に楽曲を分類することが益々重要になっている。このような音楽データに基づく管理メカニズムを強化するためには、簡単で高速な手法により、オーディオデータの異なるピース間で、又は異なる楽曲間で、比較を行う必要がある。

そこで、オーディオデータを解析して固有の性質及び特徴を抽出し、この性質及び特徴のそれぞれの集合又はｎ−タプルを比較することによって、楽曲を比較する様々なメカニズムが開発されている。しかしながら、このような比較メカニズム内で評価される既知の特徴の多くは、算出が困難であり、また、コンピュータの負担が大きすぎる場合もある。

Dan Liu, Li Lu & Hong-Jiang Zhang, "Automatic mood detection from acoustic music data", Proceedings of the Fourth International Conference on Music Information Retrieval (ISMIR) 2003. Tao Li & Mitsunori Ogihara, "Detecting emotion in music", Proceedings of the Fourth International Conference on Music Information Retrieval (ISMIR) 2003. J.J. Aucouturier & F. Pachet, "Finding songs that sound the same", in Proc. Of the IEEE Benelux Workshop on model based processing and coding of audio, Nov 2002.

そこで、本発明の目的は、高い信頼度で、容易且つ高速にオーディオデータを比較及び分類するための演算を行うことができるオーディオデータ分類方法を提供することである。

この目的は、独立請求項１に定義する本発明に基づくオーディオデータ分類方法により達成される。本発明に基づくオーディオデータ分類方法の好ましい実施形態は、従属請求項に定義されている。また、本発明の目的は、請求項１８記載のオーディオデータ分類装置、請求項１９記載のコンピュータプログラム製品及び請求項２０記載のコンピュータにより読取可能な媒体によっても達成される。

本発明に係るオーディオデータ分類方法は、オーディオデータ（ＡＤ）を分類するためのオーディオデータ分類方法において、入力データ（Ｉ）としてオーディオデータ（ＡＤ）を準備するステップ（Ｓ１）と、オーディオデータ（ＡＤ、ＡＤ’）を分類するためのムード空間（Ｍ）を定義し及び／又は記述又は表現するムード空間データ（ＭＳＤ）を準備するステップ（Ｓ２）と、ムード空間（Ｍ）内で所定のオーディオデータ（ＡＤ）のムード空間位置（ＬＡＤ）を生成するステップ（Ｓ３）と、ムード空間（Ｍ）内に少なくとも１つの比較ムード空間位置（Ｃｌ）を特定するステップ（Ｓ４）と、所定のオーディオデータ（ＡＤ）のムード空間位置（ＬＡＤ）を、少なくとも１つの比較ムード空間位置（Ｃｌ）と比較し、これにより比較データ（ＣＤ）を生成するステップ（Ｓ５）と、分類結果として、比較データ（ＣＤ）を出力データ（Ｏ）として提供するステップ（Ｓ６）とを有する。

したがって、本発明の主要な思想は、所定のオーディオデータを解析して、ムード空間データによって予め定義され又は与えられたムード空間内の位置又は場所を特定することである。そして、所定のオーディオデータについて導出されたムード空間位置を、少なくとも１つの比較ムード空間位置と比較することによって、所定のオーディオデータを分類又は比較することができる。この結果として生成された比較データ又は分類データは、分類結果又は比較結果として提供される。したがって、例えば、ムード空間内において、例えば、単に位置又は場所の各座標を比較することによって、他の位置又は場所と容易に比較できるｎ−タプル座標（coordinate n-tuple）により、オーディオデータの所定のピース（楽曲）の位置又は場所を特定する必要がある。これにより、オーディオデータを容易に分類し、他のオーディオデータと比較することができる。

本発明に基づくオーディオデータ分類方法の好ましい実施形態においては、ムード空間は、ガウス混合モデル、ニューラルネットワークモデル及び決定木モデルのうちの少なくとも１つであり、又はこれらのうちの少なくとも１つによってモデル化される。

これに代えて又はこれに加えて、本発明に基づくオーディオデータ分類方法の好ましい実施形態においては、ムード空間は、Ｎを所定の固定された整数として、Ｎ次元空間又はマニホルドであり、又はこれによってモデル化される。

更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、比較データは、ムード空間上又はムード空間内で定義されるトポロジ、メトリック、標準、距離のうちの少なくとも１つを記述し、表現し、及び／又は含む。

更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、比較データ、特に、トポロジ、メトリック、標準及び距離は、ユークリッド空間モデル、ガウス混合モデル、ニューラルネットワークモデル及び決定木モデルのうちの少なくとも１つに基づいて得られる。

更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、比較データは、ムード空間内の所定のオーディオデータのムード空間位置及びムード空間内の比較ムード空間位置に基づいて導出される。

更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、ムード空間及び／又はそのモデルは、セイヤーのムードモデル（Thayer's mood model）に基づいて定義される。

本発明に基づくオーディオデータ分類方法の他の好ましい実施形態においては、ムード空間及び／又はそのモデルは、２次元であり、感情又はムードパラメータ又は属性として、例えば幸福及び不安のムードを記述する測定された又は測定可能なエンティティのストレス（Ｓ（））及び例えば平静及びエネルギッシュなムードを記述するエネルギ（Ｅ（））に基づいて定義される。

更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、ムード空間及び／又はそのモデルは、３次元であり、幸福、情熱及び興奮に関する測定又は測定可能なエンティティに基づいて定義される。

更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、少なくとも１つの比較ムード空間位置を特定するステップ（Ｓ４）は、更なる入力データとして、少なくとも１つの更なるオーディオデータを提供するステップと、更なるオーディオデータについて、それぞれの更なるムード空間位置を生成するステップとを有し、更なるオーディオデータのそれぞれの更なるムード空間位置は、少なくとも１つの比較ムード空間位置のために用いられる。

オーディオデータの少なくとも２つのサンプル（ＡＤ、ＡＤ’）を互いに比較し、特に、導出されたムード空間位置（ＬＡＤ）と、更なるムード空間位置（ＬＡＤ’）又は比較ムード空間位置（ＣＬ）とを比較することによって、オーディオデータの一方のサンプル（ＡＤ）を導出されたムード空間位置（ＬＡＤ）に割り当て、オーディオデータの他方のサンプル（ＡＤ’）を更なるムード空間位置（ＬＡＤ’）又は比較ムード空間位置（ＣＬ）に割り当ててもよい。

更にこれに加えて又はこれに代えて、本発明に基づくオーディオデータ分類方法の他の実施形態においては、互いに比較されるオーディオデータの少なくとも２つのサンプルは、予備的な選択処理又は比較前処理において、比較データに基づいて、及び更に詳細な比較処理において、追加的な特徴に基づいて、例えば、演算がより複雑な特徴に基づいて、及び／又は周波数領域に関連する特徴に基づいて互いに比較される。

この場合、互いに比較されるオーディオデータの少なくとも２つのサンプルは、より詳細な比較処理において、予備的な選択処理又は比較前処理から得られた比較データが、オーディオデータの少なくとも２つのサンプルが十分に近いことを示している場合、追加的な特徴に基づいて、互いに比較してもよい。

これに代えて、オーディオデータの３つ以上の複数のサンプルを互いに比較してもよい。

これに代えて又はこれに加えて、所定のオーディオデータを、オーディオデータの複数の追加的なサンプルと比較してもよい。

これらの場合、比較から、所定のオーディオデータに類似するオーディオデータの複数の追加的サンプルのオーディオデータの追加的サンプルを記述する比較リスト、特にプレーリストを生成してもよい。

本発明の更に好ましい実施形態においては、オーディオデータのサンプルとして楽曲（music pieces）を用いてもよい。

更に、本発明に係るオーディオデータ分類装置は、上述したオーディオデータ分類方法を実行するよう適応化され及びオーディオデータ分類方法のステップを実現するための手段を備える。

更に、本発明に係るコンピュータプログラム製品は、コンピュータ又はデジタル信号処理装置によって実行されて、上述したオーディオデータ分類方法のステップを実行するよう適応化されたコンピュータプログラム手段を備える。

更に、本発明に係るコンピュータにより読取可能な媒体は、上述したコンピュータプログラム製品を備える。

以下、本発明のこれらの及び更なる側面について説明する。

概念
本発明は、特に、Ｎ次元音楽ムード空間関係に基づく高速な音楽の類似度の算出方法に関する。

Ｎ次元音楽ムード空間を用いて候補の数を制限し、これにより、類似リスト生成の演算負荷を低減することを提案する。巨大なデータベース内の各楽曲について、まず、Ｎ次元音楽ムード空間における位置を判定し、ムード空間内の楽曲に近い楽曲だけを選択し、所定の楽曲と、前選択された楽曲の間の類似度を算出する。

背景
音楽類似性は、現時点では比較的、新しいトピックであり、その研究は、極めて学問的である。様々な低レベルの特徴の組合せである所謂「音色（timbre）」に関する統計を用いて、楽曲を互いに比較するシステムが開発されている。サンプルの分布のモンテカルロシミュレーション（Monte-Carlo-simulation）及び他方の楽曲からの統計を用いる人工的なサンプルの確率推定等、高価な手法を含む様々な距離尺度が提案されている。これらの詳細については、非特許文献３に開示されている。

当分野において、音楽の感情認識（emotion recognition）は、更に新しいトピックである。音楽処理に関しては膨大な量の論文が書かれているが、音楽の感情（emotion）に関する論文は少ない。音楽分類における感情分類のために用いられる最先端のシステムとしては、ガウス混合モデル（Gaussian mixtures model）、サポートベクトルマシン（support vector machine）、ニューラルネットワーク等がある。音楽における感情の認知に関する研究もなされているが、これらの結果は、未だ予備的である。非特許文献１及び非特許文献２は、従来のムード検出法に関する情報を開示している。

問題
音楽検索又は音楽提案に関するアプリケーションは、通常、音楽プレーリストを表示し、プレーリスト内の曲は、通常、問い合わせがあった楽曲とデータベース内の他の楽曲との間の類似度に基づいている。今日、一般的な商業的音楽データベースは、数十万曲もの楽曲を含んでいる。データベース内の各楽曲について、現在のシステムは、通常、類似リストを生成するために、データベース内の他の全ての楽曲に関して類似度を算出する。そして、アプリケーションに基づき、類似リストからプレーリストが生成される。類似度算出に必要な演算には、データベース内の曲数をＮとして、Ｎ＊Ｎ／２回の類似尺度演算が含まれる。例えば、データベースの曲数が５０万曲である場合、この演算は、５００，０００＊５００，０００／２回実行する必要があり、実際のアプリケーションにおいて、実用的ではない。

そこで、本発明では、ムード空間に基づく高速な音楽類似リスト生成法を提案する。通常、異なる楽曲で表現される感情は、異なる。ある曲により、リスナは幸福な気分になり、他の曲により、悲しい気分になる。更に、同様のムード又は感情を有する曲についても、一般に、リスナは、感情表現の度合いの違いを区別できる。例えば、一方の曲の方が、他方の曲よりもより幸福な気分になれる等と感じることができる。更に、異なるムードを有する楽曲は、通常、異なる楽曲とみなされる。本発明が提案する音楽類似リスト生成法は、上述したような感情認知（emotion perception）を利用する。

この提案では、まず、Ｎ次元ムード空間によって、楽曲の感情を記述する。各次元は、特定の感情属性（emotion attribute）の度合いを記述する。まず、データベース内の各楽曲について、それぞれの感情属性の値を生成する。そして、このＮ次元空間における特定の楽曲の座標に基づいて、所定の楽曲の近くに位置している楽曲を選択する。予備的な選択処理の後、所定の楽曲と、データベース内の他の楽曲との類似度を算出することに代えて、所定の楽曲と、前選択された楽曲との間の類似度のみを算出する。

先の文献によって提案された如何なる音楽感情／ムードモデルを用いてＮ次元ムード空間を構築してもよい。例えば、セイヤー（Thayer）（非特許文献１）は、二次元モデルを提案している。このモデルでは、ストレス（正／負）及びエネルギ（平静／エネルギッシュ）の２つの要素によってムードを定義する理論を採用している。セイヤーのムードモデルによれば、如何なる楽曲もストレス値及びエネルギ値によって記述でき、これらの値は、所定の楽曲に座標を与え、したがって、ムード空間内における感情の位置を判定することができる。図１Ａに示すように、楽曲ｘのストレス値及びエネルギ値をそれぞれＳ（ｘ）及びＥ（ｘ）とすると、ｘのムードは、感情属性の関数として、ｍｏｏｄ（ｘ）＝ｆ（Ｅ（ｘ），Ｓ（ｘ））と表すことができ、ここで、ｆは、如何なる関数であってもよい。上述のように、ムード空間内で互いに近い２つの楽曲、例えば、楽曲ｘ及び楽曲ｙは、いずれも「安らぎ（contentment）」に属すため、類似しているとみなされる。一方、「不安（Anxious）」の楽曲ｚ等は、ムード空間内でｘから遠く、したがって、不安の楽曲ｚ等は、通常、ｘ等の「安らぎ」の楽曲に類似しないとみなされる。同様の概念は、セイヤーのモデルに制限されず、如何なるＮ次元モデルにも拡張できる。例えば、図１Ｂは、３次元ムード空間を示している。この空間座標は、それぞれ幸福（happiness）、情熱（passion）及び興奮（excitement）の度合いを表している。

ムード空間における楽曲の座標は、例えば、ニューラルネットワーク決定木、ガウス混合モデル等、如何なるマシン学習アルゴリズムから生成してもよい。例えば、図１Ｂの具体例では、ガウス混合モデル、すなわち、情熱モデル、幸福モデル及び興奮モデルを用いて各ムード次元をモデル化することができる。このようなムードモデルは、予めトレーニングされる。所定の楽曲について、各モデルは、得点を生成し、このような得点は、ムード空間における座標値として用いることができる。

ムード空間における楽曲の位置を判定した後に、例えば、ユークリッド距離、マハラノビス距離又はコサイン角度等の簡単な距離尺度を用いることによってムード空間の所定の楽曲に近い楽曲を特定する。

例えば、図２では、ムード空間において、近接領域、例えば、円Ａ内に含まれる楽曲だけが楽曲ｘに近いとみなされ、楽曲ｚは、楽曲ｘから遠く、したがって、楽曲ｘに類似しないとみなされる。システムは、この距離に基づいて、所定の楽曲に近いＮ個の楽曲を選択でき、又は距離閾値を設定し、この閾値より小さい距離の楽曲だけを選択することができる。

楽曲ｘのための類似リストを生成するために、楽曲ｘと前選択された楽曲との間の類似度を算出する類似尺度を導入する。類似尺度は、既知の類似尺度アルゴリズムであってもよく、例えば、各楽曲は、ガウス混合モデルによってモデル化してもよい。如何なるモデル距離基準（例えば、非特許文献３参照）を用いて２つのガウスモデル間の距離を測定してもよい。

利点
本発明の主な利点は、知覚的な観点から、類似格付け性能に影響しないで、大容量データベースについて、楽曲類似リストを生成するための演算を大幅に削減できる点である。

以下、図面を参照し、本発明の好ましい実施形態を説明する。

以下では、機能的又は構造的に類似又は同等の構造要素には、同じ参照符号を付す。これらが出現する都度、詳細な説明は繰返さない。

図１Ａは、本発明の好ましい実施形態に基づき、オーディオデータを分類するオーディオデータ分類方法を実現するムード空間Ｍのモデルを図式的に示している。

図１Ａに示すムード空間Ｍは、所謂ムード空間データＭＳＤ（mood space data）に基づき、これにより定義され、及び構築されている。ムード空間Ｍ内において、位置又は場所を特定するために用いられる軸は、エンティティのストレスＳ及びエネルギＥである。したがって、図１Ａに示すモデルは、ムード空間Ｍのための２次元ムード空間モデルである。ストレスＳ及びエネルギＥの２つの軸で定義される座標系において、オーディオデータＡＤ、ＡＤ’の３つの異なる集合について、３つの位置を示している。オーディオデータＡＤ、ＡＤ’のそれぞれの組を、それぞれｘ、ｙ、ｚと呼ぶ。図１Ａに示す実施形態では、ｘと呼ばれるオーディオデータＡＤの第１の集合は、所定のオーディオデータｘとして、機能する。オーディオデータｘの第１の集合のエンティティのストレスＳ及びエネルギＥの評価に基づいて、各パラメータ値Ｓ（ｘ）及びＥ（ｘ）を生成する。したがって、第１の集合又はオーディオデータｘのサンプルのための各位置ＬＡＤｘは、測定値Ｓ（ｘ）、Ｅ（ｘ）の関数である。最も単純な場合、オーディオデータｘのための位置ＬＡＤｘは、単に値Ｓ（ｘ）、Ｅ（ｘ）の対であり、すなわち以下のように表される。
ＬＡＤｘ：＝ＬＡＤ（Ｓ（ｘ），Ｅ（ｘ））＝＜Ｓ（ｘ），Ｅ（ｘ）＞
第２及び第３のオーディオデータｙ及びｚについても、それぞれの測定値Ｓ（ｙ）、Ｅ（ｙ）及びＳ（ｚ）、Ｅ（ｚ）により、同様の式が成り立つ。すなわち、ムード空間ＭにおけるＬＡＤｙ及びＬＡＤｚは、位置又は場所の一般的なプロパティに基づき、以下のように表される。
ＬＡＤｙ：＝ＬＡＤ（Ｓ（ｙ），Ｅ（ｙ））＝＜Ｓ（ｙ），Ｅ（ｙ）＞
ＬＡＤｚ：＝ＬＡＤ（Ｓ（ｚ），Ｅ（ｚ））＝＜Ｓ（ｚ），Ｅ（ｚ）＞
図１Ａからわかるように、距離関数がユークリッド法において有効であるという仮定の下、オーディオデータｘ及びｙは、互いに近接しており、オーディオのデータｚは、第１及び第２のオーディオデータｘ及びｙのそれぞれに対して遠くにある。

更に、ムード空間Ｍ全体のうちのある一定の領域に、安らぎ（contentment）、憂鬱（depression）、歓喜（exuberance）、不安（anxiousness）等、ある特徴的なムードを割り当てることができる。

図１Ｂは、ムード空間Ｍを３次元以上の次元で表現することができることを示している。図１Ｂの具体例では、ムード空間Ｍ内でそれぞれ３つの座標を定義する、エンティティの幸福（happiness）、情熱（passion）及び興奮（excitement）によって、ムード空間を３次元で表している。

図２は、既に図１Ａに示した実施形態の近接及び近隣の認識及び概念を更に詳細に示している。ここでは、ムード空間Ｍ内に、それぞれの場所又は位置ＬＡＤｘを有する元のオーディオデータｘがある。所定の距離又はメトリックの概念に関して閾値を生成又は受け取ることでき、これを用いて、ムード空間Ｍ内におけるオーディオデータｘの近隣Ａ（ｘ）を実現又は定義することができる。ここに示すオーディオデータｘの近隣Ａ（ｘ）は、第１のオーディオデータｘの位置ＬＡＤｘを中心とし、選択された閾値に等しい、ここで説明する近隣概念の基礎となる距離又はメトリックを半径とする円である。この近隣円Ａ（ｘ）内の全ての更なるオーディオデータＡＤは、第１の所定のオーディオデータｘに比べて近接する又は十分近いと考えられる。一方、更なるオーディオデータｚは、基礎となる距離又はメトリックに関して遠過ぎ、したがって、オーディオデータｚは、所定の第１のオーディオデータｘに近くないと分類できる。このような近接又は近隣の概念を用いることにより、オーディオデータｘの所定のサンプルを、例えば、データベース内の他のオーディオサンプルと比較し、オーディオデータサンプルを互いに比較する際のコンピュータの負担を低減することができる。図２に示す具体例では、距離概念及びメトリックに基づいて、予備的な選択処理を実行し、互いに又は所定のオーディオデータｘと比較する必要があるより少ないオーディオデータのサンプルだけを含むより洗練された下位集合を全体のデータベースから選択することができる。

図３は、本発明に基づいて、オーディオデータＡＤを分類するオーディオデータ分類方法の実施形態を実現するための主な処理ステップのフローチャートを含むブロック図である。

初期化ステップＳＴＡＲＴの後、第１のステップＳ１において、入力ＩとしてオーディオデータＡＤのサンプルを受け取る。

そして、ステップＳ２において、本発明に基づく方法の基礎となるムード空間に関する情報を提供する。すなわち、ステップＳ２では、オーディオデータＡＤ、ＡＤ’を分類し、比較するためのムード空間Ｍを定義し及び／又は記述又は表現するそれぞれのモード空間データＭＳＤを提供する。

次に、ステップＳ３において、ムード空間Ｍにおいて、所定のオーディオデータＡＤのためのムード空間位置ＬＡＤを生成する。ステップＳ３に含まれるサブステップＳ３ａでは、例えば、所定の特徴セットＦＳに関してオーディオデータＡＤを解析する。特徴セットＦＳは、それぞれのデータベースから得てもよい。これに続くサブステップＳ３ｂにおいて、以下のように、オーディオデータＡＤの関数として、オーディオデータＡＤのためのムード空間位置ＬＡＤを算出する。
ＬＡＤ：＝ＬＡＤ（ＡＤ）
次のステップＳ４において、比較ムード空間位置ＣＬを、例えば、データベースから受け取る。この比較ムード空間位置ＣＬは、所定のオーディオデータＡＤと比較する必要がある１以上の更なるオーディオデータＡＤ’に依存していてもよい。更に、この具体例では、比較ムード空間位置ＣＬは、この分類体系の基礎となる特徴セットＦＳに依存していてもよい。

次のステップＳ５では、オーディオデータＡＤの所定のサンプルのための位置ＬＡＤと比較位置ＣＬとを比較し、それぞれの比較データＣＤを生成する。この比較データＣＤは、位置ＬＡＤと比較位置ＣＬとの間の距離を示すデータであってもよい。

次のステップＳ６において、出力Ｏとして比較データＣＤを出力する。

そして、図３に示す処理は、速やかで準最適的な分類で十分な場合は、終了ステップＥＮＤ−１で終了し、又は、高度な分類が必要な場合は、詳細で高価な分類ステップであるステップＳ７を実行した後に、代わりの終了ステップＥＮＤ−２で終了する。

本発明の好ましい実施形態に基づき、オーディオデータを分類するオーディオデータ分類方法を実現するムード空間Ｍのモデルを図式的に示す図である。本発明の他の実施形態に基づき、オーディオデータを分類するオーディオデータ分類方法を実現するムード空間Ｍのモデルを図式的に示す図である。図１Ａに示す本発明に基づくオーディオデータ分類方法の実施形態における近接の概念を図式的に説明する図である。本発明の好ましい実施形態に基づいてオーディオデータを解析する処理の基本的な側面を説明するフローチャートである。

符号の説明

Ａ，Ａ（ｘ）近隣、近接、オーディオデータｘのムード空間位置に関する近隣又は近接、ＡＤオーディオデータ、オーディオデータサンプル、ＡＤ’ オーディオデータ、オーディオデータサンプル、更なるオーディオデータ、ＣＤ比較データ、ＣＬ比較ムード空間位置、Ｅ、Ｅ（）エネルギ、ＦＳ特徴セット、Ｉ入力、入力データ、ＬＡＤ受け取ったオーディオデータＡＤのムード空間位置、ＬＡＤｘ受け取ったオーディオデータｘのムード空間位置、ＬＡＤｙ受け取ったオーディオデータｙのムード空間位置、ＬＡＤｚ受け取ったオーディオデータｚのムード空間位置、ＬＡＤ’ 受け取った更なるオーディオデータＡＤの更なるムード空間位置、Ｍムード空間、ＭＳＤムード空間データ、Ｏ出力、出力データ、Ｓ、Ｓ（）ストレス、ｘオーディオデータ、オーディオデータサンプル、ｙオーディオデータ、オーディオデータサンプル、ｚオーディオデータ、オーディオデータサンプル

Claims

オーディオデータ（ＡＤ）を分類するためのオーディオデータ分類方法において、
入力データ（Ｉ）としてオーディオデータ（ＡＤ）を準備するステップ（Ｓ１）と、
オーディオデータ（ＡＤ、ＡＤ’）を分類するためのムード空間（Ｍ）を定義し及び／又は記述又は表現するムード空間データ（ＭＳＤ）を準備するステップ（Ｓ２）と、
上記ムード空間（Ｍ）内で上記所定のオーディオデータ（ＡＤ）のムード空間位置（ＬＡＤ）を生成するステップ（Ｓ３）と、
上記ムード空間（Ｍ）内に少なくとも１つの比較ムード空間位置（Ｃｌ）を特定するステップ（Ｓ４）と、
上記所定のオーディオデータ（ＡＤ）の上記ムード空間位置（ＬＡＤ）を、上記少なくとも１つの比較ムード空間位置（Ｃｌ）と比較し、これにより比較データ（ＣＤ）を生成するステップ（Ｓ５）と、
分類結果として、上記比較データ（ＣＤ）を出力データ（Ｏ）として提供するステップ（Ｓ６）とを有するオーディオデータ分類方法。
上記ムード空間（Ｍ）は、ガウス混合モデル、ニューラルネットワークモデル及び決定木モデルのうちの少なくとも１つであり、又はこれらのうちの少なくとも１つによってモデル化されることを特徴とする請求項１記載のオーディオデータ分類方法。
上記ムード空間（Ｍ）は、Ｎを所定の固定された整数として、Ｎ次元空間又はマニホルドであり、又はこれによってモデル化されることを特徴とする請求項１又は２記載のオーディオデータ分類方法。
上記比較データ（ＣＤ）は、上記ムード空間（Ｍ）上又はムード空間（Ｍ）内で定義されるトポロジ、メトリック、標準、距離のうちの少なくとも１つを記述し、表現し、及び／又は含むことを特徴とする請求項１乃至３いずれか１項記載のオーディオデータ分類方法。
上記比較データ（ＣＤ）、特に、上記トポロジ、メトリック、標準及び距離は、上記ユークリッド空間モデル、上記ガウス混合モデル、上記ニューラルネットワークモデル及び上記決定木モデルのうちの少なくとも１つに基づいて得られることを特徴とする請求項１乃至４いずれか１項記載のオーディオデータ分類方法。
上記比較データ（ＣＤ）は、上記ムード空間（Ｍ）内の上記所定のオーディオデータ（ＡＤ）の上記ムード空間位置（ＬＡＤ）及び上記ムード空間（Ｍ）内の上記比較ムード空間位置（Ｃｌ）に基づいて導出されることを特徴とする請求項１乃至５いずれか１項記載のオーディオデータ分類方法。
上記ムード空間（Ｍ）及び／又はそのモデルは、セイヤーのムードモデル（Thayer's mood model）に基づいて定義されることを特徴とする請求項１乃至６いずれか１項記載のオーディオデータ分類方法。
上記ムード空間（Ｍ）及び／又はそのモデルは、２次元であり、感情又はムードパラメータ又は属性として、幸福及び不安のムードを記述する測定された又は測定可能なエンティティのストレス（Ｓ（））及び平静及びエネルギッシュなムードを記述するエネルギ（Ｅ（））に基づいて定義されることを特徴とする請求項１乃至７いずれか１項記載のオーディオデータ分類方法。
上記ムード空間（Ｍ）及び／又はそのモデルは、３次元であり、幸福、情熱及び興奮に関する測定又は測定可能なエンティティに基づいて定義されることを特徴とする請求項１乃至８いずれか１項記載のオーディオデータ分類方法。
上記少なくとも１つの比較ムード空間位置（Ｃｌ）を特定するステップ（Ｓ４）は、
更なる入力データ（Ｉ）として、少なくとも１つの更なるオーディオデータ（ＡＤ、ＡＤ’）を提供するステップと、
上記更なるオーディオデータ（ＡＤ’）について、それぞれの更なるムード空間位置（ＬＡＤ’）を生成するステップとを有し、
上記更なるオーディオデータ（ＡＤ’）の上記それぞれの更なるムード空間位置（ＬＡＤ’）は、上記少なくとも１つの比較ムード空間位置（ＣＬ）のために用いられることを特徴とする請求項１乃至９いずれか１項記載のオーディオデータ分類方法。
上記オーディオデータの少なくとも２つのサンプル（ＡＤ、ＡＤ’）を互いに比較し、特に、上記導出されたムード空間位置（ＬＡＤ）と、上記更なるムード空間位置（ＬＡＤ’）又は上記比較ムード空間位置（ＣＬ）とを比較することによって、該オーディオデータの一方のサンプル（ＡＤ）を上記導出されたムード空間位置（ＬＡＤ）に割り当て、該オーディオデータの他方のサンプル（ＡＤ’）を上記更なるムード空間位置（ＬＡＤ’）又は上記比較ムード空間位置（ＣＬ）に割り当てることを特徴とする請求項１０記載のオーディオデータ分類方法。
上記互いに比較されるオーディオデータの少なくとも２つのサンプル（ＡＤ、ＡＤ’）は、予備的な選択処理又は比較前処理において、上記比較データ（ＣＤ）に基づいて、及び更に詳細な比較処理において、追加的な特徴に基づいて、例えば、演算がより複雑な特徴に基づいて、及び／又は周波数領域に関連する特徴に基づいて互いに比較されることを特徴とする請求項１１記載のオーディオデータ分類方法。
上記互いに比較されるオーディオデータの少なくとも２つのサンプル（ＡＤ、ＡＤ’）は、上記より詳細な比較処理において、上記予備的な選択処理又は比較前処理から得られた上記比較データ（ＣＤ）が、上記オーディオデータの少なくとも２つのサンプル（ＡＤ、ＡＤ’）が十分に近いことを示している場合、上記追加的な特徴に基づいて、互いに比較されることを特徴とする請求項１２記載のオーディオデータ分類方法。
上記オーディオデータの３つ以上の複数のサンプル（ＡＤ、ＡＤ’）を互いに比較することを特徴とする請求項１乃至１３いずれか１項記載のオーディオデータ分類方法。
上記所定のオーディオデータ（ＡＤ）は、上記オーディオデータの複数の追加的なサンプル（ＡＤ’）と比較されることを特徴とする請求項１乃至１４いずれか１項記載のオーディオデータ分類方法。
上記比較から、上記所定のオーディオデータ（ＡＤ）に類似するオーディオデータの上記複数の追加的サンプル（ＡＤ’）のオーディオデータ（ＡＤ’）の追加的サンプルを記述する比較リスト、特にプレーリストを生成することを特徴とする請求項１４又は１５記載のオーディオデータ分類方法。
上記オーディオデータのサンプル（ＡＤ、ＡＤ’）として楽曲を用いることを特徴とする請求項１乃至１６いずれか１項記載のオーディオデータ分類方法。
請求項１乃至１７いずれか１項記載のオーディオデータ分類方法を実行するよう適応化され及び該オーディオデータ分類方法のステップを実現するための手段を備えるオーディオデータ分類装置。
コンピュータ又はデジタル信号処理装置によって実行されて、請求項１乃至１７いずれか１項記載のオーディオデータ分類方法のステップを実行するよう適応化されたコンピュータプログラム手段を備えるコンピュータプログラム製品。
請求項１９記載のコンピュータプログラム製品を備えるコンピュータにより読取可能な媒体。