JP2008506141A

JP2008506141A - 楽曲分類方法

Info

Publication number: JP2008506141A
Application number: JP2007519733A
Authority: JP
Inventors: ケンプ、トーマス; トロス、マルタ
Original assignee: ソニードイチュラントゲゼルシャフトミットベシュレンクテルハフツング
Priority date: 2004-07-09
Filing date: 2005-07-08
Publication date: 2008-02-28
Anticipated expiration: 2025-07-08
Also published as: EP1615204B1; CN1985302B; CN1985302A; WO2006005533A2; JP4825800B2; US20090031882A1; DE602004009676T2; DE602004009676D1; EP1615204A1; WO2006005533A3; US7858868B2

Abstract

音楽分類データ（ＭＣＤ）を提供するステップと、分類される未分類の楽曲（ｓ）を提供するステップと、音楽分類データ（ＭＣＤ）内の音楽クラス（ｃ１，…，ｃｎ）のそれぞれについて、それぞれのギッシュ距離値（Ｄ１，…，Ｄｎ）を導出するステップとを有し、有限個（ｎ）のギッシュ距離値（Ｄ１，…，Ｄｎ）の有限集合（Δ）は、分類される未分類の楽曲（ｓ）と、有限個（ｎ）の音楽クラス（ｃ１，…，ｃｎ）の離散的な有限集合（Γ）との関係を記述する楽曲分類方法を提供する。これに代えて、分類される所定の楽曲（ｓ）について、楽曲又はその一部のムードを表す少なくとも３つの数値からなるｎ−タプルの形式で音楽分類データ（ＭＣＤ）を導出する。そして、音楽分類データ（ＭＣＤ）のｎ−タプルの数値から、楽曲又はその一部のムードを表す一対の２次元座標値を判定する。

Description

本発明は、楽曲を分類する楽曲分類方法に関する。詳しくは、本発明は、自動的に音楽のムードを検出する楽曲分類方法に関する。

近年の所謂携帯型音楽プレーヤは、記録容量が増加し、非常に多くのデータを記録できるようになったため、長時間の音楽又は多数の楽曲を再生できるようになった。しかしながら、これらの携帯型音楽プレーヤでは、録音された楽曲の選択及び分類が不便である。このような携帯型音楽プレーヤのユーザにとって、楽曲の分類及び／又は選択作業が困難であることもある。

Dan Liu, Lie Lu, H.J. Zhang, Automatic Mood Detection from Acoustic Music Data, in Proceedings ISMIR 2003, Baltimore, MD. George Tzanetakis and Perry Cook, Musical Genre Classification of Audio Signals, in IEEE Transactions on speech and audio processing, Vol 10, No 5, July 2002.

したがって、本発明の目的は、未分類の楽曲について、容易に、信頼できる分類を行う楽曲分類方法を提供することである。

この目的は、本発明の第１の側面である独立請求項１に記載の楽曲分類方法及び本発明の第２の側面である独立請求項３１に基づく楽曲分類方法によって達成される。また、楽曲分類方法の好適な実施の形態は、従属請求項において定義されている。また、上述した目的は、本発明に基づく請求項４１記載の楽曲分類装置、請求項４２記載のコンピュータプログラム製品及び請求項４３記載のコンピュータにより読取可能な媒体によって達成される。

上述の課題を解決する本発明に基づく楽曲分類方法の第１の側面は、（ａ）有限個の音楽クラスの離散的な有限集合を記述する音楽分類データを提供するステップと、（ｂ）分類される未分類の楽曲を提供するステップと、（ｃ）音楽クラスの集合の音楽クラスのそれぞれについて、分類される未分類の楽曲に関してそれぞれのギッシュ距離値を導出し、有限個のギッシュ距離値の離散的な有限集合を得るステップとを有し、有限個のギッシュ距離値の有限集合は、分類される未分類の楽曲と、有限個（ｎ個）の音楽クラスの離散的な有限集合との関係を記述する。

楽曲分類方法は、（ｄ）ギッシュ距離値の集合内で、少なくとも１つの最小ギッシュ距離値を検出し、音楽クラスの集合内で最小ギッシュ距離値に対応する別個の最小音楽クラスを判定するステップを更に有していてもよい。

また、楽曲分類方法は、分類される未分類の楽曲について、最小音楽クラスを特徴クラスとして選択するステップを更に有していてもよい。

すなわち、本発明の基本的な発想は、提供された音楽クラスから未分類の楽曲に関してそれぞれのギッシュ距離値を算出し、これにより得られたギッシュ距離値の集合を作成することである。

更に、好ましくは、最小ギッシュ距離値、すなわちギッシュ距離値を最小化する楽曲クラスの形式で未分類の楽曲を特徴付ける別個の特徴クラスが得られる。

本発明の好ましい実施の形態では、ギッシュ距離値は、式（１）に基づいて算出される。

ここで、ｊ＝１，…，ｎである。式（１）において、ｓは、分類される未分類の楽曲又はその一部を表す。＋は、各楽曲の結合の処理を表す。ｃｊは、ｊ＝１，…，ｎについて、各音楽クラス又はその代表又はその代表の一部を表す。ｍ（・）は、各楽曲に関するそれぞれのモデル又はモデル構築処理を表す。Ｌ（ｘ｜ｙ）は、モデルｙが与えられた場合、楽曲、データ集合ｘ又はその一部ｘが観測される尤度を表す。

モデルｍ（・）としては、ガウス分布密度モデルを用いることが好ましい。

更に、単一の全共分散ガウス分布密度のみを採用することが好ましい。

更に、これに加えて又はこれに代えて、モデルｍ（・）として、多変数モデルを用いてもよい。

音楽分類データを提供するステップ（ａ）は、好ましくは、音楽分類データを受信及び／又は生成する処理又は処理の一部であり、或いは、処理又は処理の一部を含む。

これに加えて又はこれに代えて、分類される未分類の楽曲を提供するステップ（ｂ）は、好ましくは、外部ソースから分類される未分類の楽曲又はその一部を受信する処理又は処理の一部を含む。

音楽分類データ及び／又はモデルｍ（・）は、完全な曲又は楽曲、若しくはその特徴的部分に基づいていてもよい。

更に好ましくは、ギッシュ距離値を導出するステップ（ｃ）及び／又は最小ギッシュ距離値を検出するステップ（ｄ）は、分類される未分類の楽曲又はその各部分を、複数の音楽クラス又はその全体に関して比較し、音楽クラスを含む音楽分類データによって定義されるムード空間内で未分類の楽曲又はその各部分の位置を特定する処理を構成し又は含んでいてもよい。

本発明の更に好適な実施の形態においては、楽曲分類方法は、分類される未分類の楽曲と、音楽クラス又はその各部分との関係を記述し、未分類の楽曲又はその各部分を音楽クラスに分類する曲分類データを提供するステップ（ｆ）を更に有していてもよい。

本発明の更に好適な実施の形態においては、楽曲及び／又はその一部をサンプリングしてもよい。

この場合、約２２ｋＨｚのサンプリング周波数を用いてもよい。

更に、楽曲及び／又はその一部をフレームに分割してもよい。

この場合、フレームのフレーム長を約３２ミリ秒としてもよい。

これに加えて又はこれに代えて、フレームのフレームレートを約５０ミリ秒としてもよい。各フレームは、それぞれの高速フーリエ変換の前にハミング窓化してもよい。本発明の更に好適な実施の形態においては、各高速フーリエ変換から、それぞれのパワースペクトルを導出してもよく、各パワースペクトルベクトルに基づいて、特徴ベクトルを算出してもよい。

特徴ベクトルは、メルスケール変換してもよい。

好ましくは、３０個のメルスケール係数を使用する。

更に、このメルスケール係数は、対数換算してもよい。

この場合、対数換算されたメルスケール係数を逆離散フーリエ変換してもよい。

対数換算されたメルスケール係数に対する逆離散フーリエ変換から、１フレームあたり１３個を含む１フレームあたり一組のケプストラム係数が導出される。

１フレームあたり一組のケプストラム係数から、スペクトル面積中心、スペクトルフラックス、スペクトルロールオフのうちの１つ又は任意の複数が算出される。

スペクトル面積中心、スペクトルフラックス及び／又はスペクトルロールオフの分散を算出してもよい。

この場合、スペクトル面積中心、スペクトルフラックス及び／又はスペクトルロールオフの分散は、Ｑを例えば５〜２０として、Ｑ個の隣接するフレームの窓に亘って、算出してもよい。

この分散は、パラメータとしてみなしてもよい。

本発明の更に好適な実施の形態においては、ギッシュ距離値の集合に基づいて、分類される楽曲又はその一部のための音楽分類データが、少なくとも３つの数値からなるｎ−タプルの形式で導出される。

本発明の更に好適な実施の形態においては、楽曲分類方法は、（ｆ）分類される所定の楽曲について、楽曲又はその一部のムードを表す少なくとも３つの数値からなるｎ−タプルの形式で音楽分類データを導出／提供するステップと、（ｇ）音楽分類データのｎ−タプルの数値から、楽曲又はその一部のムードを表す一対の２次元座標値を判定するステップとを有する。

本発明の第２の側面として示す楽曲分類方法は、（ｆ）分類される所定の楽曲について、楽曲又はその一部のムードを表す少なくとも３つの数値からなるｎ−タプルの形式で音楽分類データを導出／提供するステップと、（ｇ）音楽分類データのｎ−タプルの数値から、楽曲又はその一部のムードを表す一対の２次元座標値を判定するステップとを有する。

これに加えて又はこれに代えて、２次元座標値として、デカルト座標及び／又は極座標を用いてもよい。

ｎ−タプルの数値として，３個の数値を用いてもよい。

３個の数値は、楽曲又はその一部の３個のムード値によって構成してもよい。

この場合、ムード値（ｊ，ｓ，ａ）は、楽曲又はその一部に関して、それぞれ、「楽しい」ムード、「悲しい」ムード、「元気な」ムードを分類するように選択してもよい。

２次元座標値としてのデカルト座標（ｘ，ｙ）は、以下の式に基づいて算出してもよい。

ここで、ｘ及びｙは、第１及び第２のデカルト座標値を表し、ｊ，ｓ，ａは、それぞれ、楽曲又はその一部のための音楽分類データの、正規化された形式の、「楽しい」ムード、「悲しい」ムード、「元気な」ムードを表す第１、第２、第３の数値を表す。本発明の他の実施の形態においては、以下の式に基づいて、２次元座標値としての極座標を算出する。

ここで、ｒ及びφは、それぞれ極半径及び極角度座標値を表し、ｘ及びｙは、式（１ａ）及び式（１ｂ）に基づく２次元デカルト座標値を表している。

２次元座標値から、楽曲又はその一部のムードを記述する色を記述する色及び／又は色値を正規化された形式で生成することができる。

この場合、色及び／又は色値は、ＨＳＶ色空間に基づいて判定してもよい。

色及び／又は色値は、ＨＳＶ色空間に基づいて、以下の式によって判定してもよい。

ここで、ｈ、ｓ、ｖは、それぞれＨＳＶ色空間における色相、飽和度、値を表し、ｒ及びφは、それぞれ式（２ａ）及び式（２ｂ）に基づく極半径及び極角度座標値を表す。

本発明の更なる側面である楽曲分類装置は、上述した楽曲分類方法及びそのステップを実現する手段を備え、楽曲分類方法及びそのステップを実行するように適応化及び／又は構成される。

また、本発明の更なる側面であるコンピュータプログラム製品は、デジタル信号処理手段又はコンピュータ上で実行されて、上述した楽曲分類方法又は楽曲分類装置を実現するコンピュータプログラムを含む。

本発明の更なる側面であるコンピュータにより読取可能な媒体は、上述したコンピュータプログラム製品を提供する。

以下の説明により、本発明の上述及び更なる側面を明らかにする。

本発明は、特に自動的に音楽のムードを検出するための方法及び装置に関する。

近年登場した大容量の携帯型音楽プレーヤは、非常に多くの楽曲を録音できるが、形状及び寸法の制約から、大きな操作画面やキーボードを設けることができず、したがって、楽曲を如何に選択するかが益々重要な課題となっている。多くの調査から、ユーザは、自らの気分又は楽曲のムードを基準にして楽曲を選択して聴いていることがわかっている。これまで、楽曲のムードの判定には、手作業で楽曲にタグ付けを行う必要があり、このような作業を大規模に行うことは、煩雑で高コストである。そこで、本発明は、あらゆる楽曲のムードを自動的に判定し、それぞれの楽曲に自動的にムードラベルを割り当てる技術を提供する。

楽曲からムードを自動的に導出するための従来の手法の大部分は、シンボリックなデータ（例えば、ＭＩＤＩ形式の楽曲）に限定されていた。しかしながら、殆どの楽曲は、シンボリックな形式で提供されておらず、したがって、このような手法の用途は非常に限定的である。マイクロソフト研究所（Microsoft Research）のダン・リュウ（Dan Liu）、リー・リュウ（Lie Lu）及びホン−ジアン・チャン（Hong-Jiang Zhang）は、クラシック音楽に適用される（本発明者の知る限り）唯一のこのような技術を提案している。この技術は、本発明と異なり、ムードにセイヤーのモデル（Thayer's model）を適用し、階層的構造を用いているため、ユーザは、既にトレーニングされているシステムを適応化することができず、新たなムードカテゴリを導入することも困難である（非特許文献１）。

曲の大きなコレクション（データベース）から曲を高速に信頼できる手法で選択する技術は未だ実現されていない。グラフィカルインタフェースの選択及びクリック操作によって階層的なリストを選択する手法は、複数の基本操作を必要とし、煩雑であり、一方、音声コマンドによる選択は、直接的で容易であるが、音声の誤認識率が高いという問題がある。更に、多くの場合、ユーザは、所定のデータベースから既知の楽曲を選択するだけの如何なる選択パラダイムでも実現することができない新たな音楽体験を獲得することに強い関心を抱いている。

本発明の目的は、データベース内の楽曲について手動でメタデータを作成するような高コストで手間が掛かる作業を必要とすることなく、音楽データベースを検索し、楽曲を選択することができる容易且つ直感的な手法を提供することである。

自動的に音楽のムードを判定するシステムは、学習セットの選択、ムードモデルの作成、予め算出されたムードモデルを利用した所定の楽曲のムードの判定の３つのサブシステムに分解できる。本発明は、主に第３のサブシステムを革新し、及びこれに関連して第１のサブシステムについて、追加及び新規な拡張を行う。

第１のサブシステムでは、ムードを表す学習セットを選択する。これは、最も簡単な形式では、それぞれの希望のムードカテゴリについて、幾つかの楽曲を選択することによって実現できる。例えば、３つのムードカテゴリとして、［楽しい、悲しい、元気な］が望まれる場合、この処理では、３つのカテゴリのそれぞれについて、複数個（例えば、Ｎ＝１０個）の楽曲を選択し、すなわち、１０曲の楽しいムードの曲、１０曲の悲しいムードの曲、及び１０曲の元気なムードの曲を選択する。最も簡単なスキームでは、必要な作業はこれだけである。なお、所定のムードの代表として曲全体を選択すると、紛らわしい場合がある。例えば、多くの楽曲を元気な曲として分類できるが、これらの楽曲の一部、特に冒頭部分が物悲しいムードを有しており、主要部（コーラス部分又は曲の残りの平均的に同様な部分の最も代表的な部分又はボーカルを含む部分）のみが元気なムードであることも多くある。したがって、楽曲全体ではなく、楽曲から一部だけを抽出してムードモデルを作成することが有益である。ここで、このようなスキームを実現した場合、未知の曲がムードモデルに比較される第３のサブシステムにおいても同じスキームを用いることが重要になり、したがって曲の関連する部分の抽出には、自動化された手法しか用いることができない。特に、ＳＳＧによる特許出願には、音楽の関連する部分を抽出するシステムが開示されており、この技術をこの目的で利用できる。なお、他の従属請求項に示すように、それぞれの感情に基づく楽曲の選択は、最終的に、システム全体の振る舞いを決定し、したがって、ユーザは、この選択によって、自らの嗜好に応じてシステムを適応化することができる。このようなシナリオでは、ユーザは、如何なるカテゴリにも楽曲を追加することができ、システムは、モデルを再トレーニングする。これによってユーザは、システムアーキテクチャを全く変更することなく、システムを自らのムードに対する感覚によって適応化できる（ユーザ適応化）。

３つのサブシステムのうちの第２のサブシステムは、以前に特定された音楽の断片の集合（第１のサブシステムで用いられる実際の手法に応じて、システムの開発者又はユーザによって精選された楽曲の一部であっても楽曲の全体であってもよい）からムードモデルを算出する。楽曲をサンプリングする場合、サンプリング周波数は、２２ｋＨｚで十分であることが判明し、したがって、データ量を削減する必要がある場合、４４．１ｋＨｚでステレオ録音された楽曲を２２ｋＨｚにダウンサンプリングし、ステレオチャンネルを１つのモノラルチャンネルに結合し、５０ミリ秒のフレームレートで、３２ミリ秒のフレーム長のフレームに分割することができる。もちろん、この他のフレームレート及びフレーム長を用いてもよい。各フレームは、ハミング窓化され、高速フーリエ変換（ＦＦＴ）される。このＦＦＴからパワースペクトルが導出される。このパワーのスペクトルベクトルに基づいて、特徴ベクトルが算出される。まず、音声認識の場合と同様に、特徴ベクトルを、３０個のメルスケール係数にメルスケール変換（melscale warped）し、対数換算し、逆ＤＦＴ変換を行うことによって、１フレームあたり１３個の１３ケプストラム係数の組が導出される（文献参照）。次に、スペクトル面積中心（spectral centroid）、スペクトルフラックス（spectral flux）及びスペクトルロールオフ（spectral roll off）を算出し、Ｑの典型的な値を５〜２０として、Ｑ個の隣接するフレームの窓に亘って、これらの分散をパラメータとして算出する。スペクトル面積中心、スペクトルフラックス及びスペクトルロールオフについては、非特許文献２に説明されている。

このようにして、各クラス（悲しい、楽しい等）について、パラメータベクトルを算出し、これらから、最尤スタイル（maximum likelihood style）で１つの単一の全共分散ガウス分布密度を算出する。これにより得られる正規分布は、ムード識別システムの３つのサブシステムのうちの第３のサブシステムのムードモデルとして機能する。

第３のサブシステムは、ムードモデルのセット（それぞれ多変量ガウス分布密度である）及び未知の楽曲から、各ムードモデルと、未知の楽曲から導出されたムードモデルとの類似性を比較することによって、未知の楽曲のムードを判定する。このために、まず、未知の楽曲を最初の２つのサブシステムにおいて、トレーニングセット楽曲として処理し、適用可能であれば、第１のサブシステムにおいて、その楽曲の代表的な部分を抽出し、第２のサブシステムにおいて前処理を行い、第３のサブシステムにおいて、多変量ガウス分布密度を算出する。このようにして、未知の曲のための多変量ガウス分布密度が算出される。このモデルと、予め算出されているムードモデルとを用いて、以下のように、所謂ギッシュ距離Ｄを用いて、未知のモデルとムードモデルとの間の距離を算出する。

ここで、Ｌ（ｓＸ｜ｍ（ｓＸ））は、Ｘ＝１、２のとき、データシーケンスｓＸの所定の多変量ガウス分布密度モデルｍ（ｓＸ）について、データシーケンスｓＸを観測する尤度を表している。また、ｍ（ｓ１＋ｓ２）は、曲、楽曲又は音ｓ１及びｓ２を結合して生成されたモデルを表している。ｓ１＋ｓ２は、曲、楽曲又は音ｓ１及びｓ２の結合を表している。ｓ１が未知の曲であり、ｓ２が現在のムードのためのトレーニングセット楽曲の全ての関連するセクション又は曲の結合である場合、これまでに提案されている単一のガウス正規分布密度ｍ又は単一のガウス正規分布密度モデルｍを式（２）に適用することによって、曲、楽曲又は音ｓ１及びｓ２を保存する必要がない効率的な定式化が実現する。もちろん、他のモデルを用いて式（２）内の項を算出してもよい。なお、この場合、演算負荷が大きくなる。

そして、全てのムードモデルについて式（２）を評価した後に、これにより得られる３つの距離のうち、最短の距離を選択し、この最短の距離が導出されたムードモデルを楽曲の一時的なムードとして選択する。ムードモデルまでの距離から正規化されたベクトルを生成することも可能であり、有効である。例えば、３つのムードから得られる３次元ベクトルから、「ムード空間」における座標が求められ、この座標を用いて、１又は複数のムード軸を用いて曲を案内し、位置を定めることができる。これにより得られる空間内での分布は大きな偏りを示し、個々の次元は、独立していないため、ターゲット空間において、楽曲の大きな検査セットを用いて、分散正規化及び対角化変換（ＰＣＡ又はカルーネン−レーベ変換）を行うことは有益である。座標変換の後、これにより得られる空間を適切に用いて、音楽のムード空間を探索することができる。なお、このユークリッド距離は、変換された空間においても、式（２）のギッシュ距離の特性のために必ずしも三角不等式を満たさないため、メトリックではない。

本発明により、非常に高い精度で、比較的短い時間で、及び適切な演算負荷で音楽ムードのタグを自動的に生成できる。このシステムは、楽曲の一部だけに焦点を合わせるように拡張でき、また、個々のムードの概念を容易にカスタマイズでき、これにより、楽曲に対する個人間の感覚の差に対応することができる。ムード空間は、自動的に構築され、これによって、ムード空間内で楽曲の位置が定まり、この結果、楽曲選択のために用いることができる。

課題
各楽曲について、特定の無制限な無符号実数個、少なくとも３個の提供された楽曲のムードデータを線形の視覚的インタフェースに変換する。

解決策の概要
「ライブラリ」（曲のコレクション）から、各曲について、３つの「ムード」値を導出する。これらの値を内部的に「楽しい」ムード、「悲しい」ムード、「元気な」ムードと呼ぶ。ライブラリ内の最大値及び最小値に基づいて、それぞれが［０．０〜１．０］の範囲内の値となるようにこれらの値を正規化し、データベースに保存する。

そして、各曲を色にマッピングする。まず、３つの「ムード」値をデカルト座標に変換し、次に、デカルト座標から極座標に変換する。

楽曲の「ムード」値からデカルト座標への変換は、以下の式を用いて行う。

ここで、「ｘ」は、水平座標を表し、「ｙ」は、垂直座標を表し、「ｊ」は、楽曲の「楽しさ」の値を表し、「ｓ」は、楽曲の「悲しさ」の値を表し、「ａ」は、楽曲の「元気さ」の値を表す。

デカルト座標から極座標への変換は、以下（標準）式を用いる。

ここで、「ｒ」は、半径を表し、「φ」角度をラジアンで表し、「ｘ」は、水平座標であり、「ｙ」は、垂直な座標である。

半径の値は、ライブラリに亘って範囲［０．０〜１．０］に正規化される。そして、この正規化された極座標をＨＳＶ色空間を用いて色にマッピングする。ＨＳＶ色空間は、色相［０．０〜１．０］、飽和度［０．０〜１．０］、値［０．０〜１．０］の３つの値によって色を定義する。色値は、色相を「ｈ」とし、飽和度を「ｓ」とし、値を「ｖ」とし、半径を「ｒ」とし、ラジアンによって表される角度を「φ」として、ｈ＝φ、ｓ＝ｒ、ｖ＝１．０の式に基づいて算出される。

要約
楽曲の３つの「ムード」値を２次元にマッピングし、次に色空間にマッピングすることによって、色相（すなわち、楽曲の「ムード」）及び飽和度（すなわち、楽曲の「ムード」の強さ）によって、楽曲ライブラリのムードを数値的に表現することができる。飽和度が高い色は、特定の「ムード」が強い楽曲を示す。これにより、ユーザは、２つの入力値のみに基づくインタフェースを用いて、単純な手法でライブラリを探索することができる。

図１に示す本発明に基づく音楽分類方法の実施の形態は、第１〜第５のステップ（ａ）〜（ｅ）を有する。

第１のステップ（ａ）では、音楽分類データＭＣＤを提供する。これらの音楽分類データの少なくとも一部は、音楽クラスｃ１，…，ｃｎの集合Γとして提供される。最も単純なケースでは、これらの音楽クラスｃ１，…，ｃｎは、それぞれが別個の音楽のムード又は音楽のクラスの実例であるサンプル楽曲であってもよい。また、この音楽分類データは、サンプル楽曲又は所定のクラスｃ１，…，ｃｎに関する狭い評価及び分類処理に基づいていてもよい。狭い評価については、上述した通りである。

次の第２のステップ（ｂ）では、本発明に基づく音楽分類方法によって分類される未分類の楽曲ｓが提供される。

この未分類の楽曲ｓに基づいて、次の第３のステップ（ｃ）において、ｊを１，…，ｎとして、ギッシュ距離値Ｄｊ：＝Ｄ（ｓ，ｃｊ）の集合Γ：＝｛Ｄ１，…，Ｄｎ｝を導出する。

第４のステップ（ｄ）では、集合Γの最小値として最小ギッシュ距離値Ｄｊｍｉｎを検出する。Γ：Ｄｊｍｉｎ：＝ｍｉｎ｛Ｄ１，…，Ｄｎ｝

そして、第５のステップ（ｅ）において、別個の音楽クラスｃｊｍｉｎを検出し、分類すべき未分類の楽曲ｓの特徴クラスｃｓとして選択する。ｃｊｍｉｎは、最小ギッシュ距離値Ｄｊｍｉｎが得られる音楽クラスｃ１，…，ｃｎの集合Γからの別個のクラスである。未分類の楽曲ｓは、別個の分類音楽クラスｃｊｍｉｎに隣接すると言うこともでき、この逆も同様である。また、未分類の楽曲ｓは、検出されたギッシュ距離値についてのそれぞれの閾値条件に基づいて、隣接する幾つかの楽曲を結合したΓのサブセットによって分類することもできる。このような場合、複数の音楽クラスに基づく特徴付けをより詳細に行ってもよく、これにより、分類される楽曲ｓに関する情報を充実させ、より細かい分類を実現することができる。

図２及び図３は、２次元及び色マッピングの基礎的な発想を説明する２次元及び色表現を示す図である。

本発明に基づく楽曲分類方法の好ましい実施の形態の幾つかの基本的な特徴を示すフローチャートである。２次元及び色マッピングの基礎的な発想を説明する２次元及び色表現を示す図である。２次元及び色マッピングの基礎的な発想を説明する２次元及び色表現を示す図である。

符号の説明

ｃｊ音楽クラス、ｊ＝１，…，ｎ、ｃｊｍｉｎ最小音楽クラス、ｃｓ特徴クラス、Ｄｊギッシュ距離値、ｊ＝１，…，ｎ、Ｄｊｍｉｎ最小ギッシュ距離値、ＭＣＤ音楽分類データ、ｓ分類される未分類の楽曲、ＳＣＤ曲分類データ、Γ 音楽クラスの集合、Δ ギッシュ距離値の集合

Claims

（ａ）有限個（ｎ）の音楽クラス（ｃ１，…，ｃｎ）の離散的な有限集合（Γ）を記述する音楽分類データ（ＭＣＤ）を提供するステップと、
（ｂ）分類される未分類の楽曲（ｓ）を提供するステップと、
（ｃ）上記音楽クラスの集合（Γ）の上記音楽クラス（ｃ１，…，ｃｎ）のそれぞれについて、上記分類される未分類の楽曲（ｓ）に関してそれぞれのギッシュ距離値（Ｄ１，…，Ｄｎ）を導出し、有限個（ｎ）のギッシュ距離値（Ｄ１，…，Ｄｎ）の離散的な有限集合（Δ）を得るステップとを有し、
上記有限個（ｎ）のギッシュ距離値（Ｄ１，…，Ｄｎ）の有限集合（Δ）は、上記分類される未分類の楽曲（ｓ）と、上記有限個（ｎ）の音楽クラス（ｃ１，…，ｃｎ）の離散的な有限集合（Γ）との関係を記述することを特徴とする楽曲分類方法。
（ｄ）上記ギッシュ距離値（Ｄ１，…，Ｄｎ）の集合（Γ）内で、少なくとも１つの最小ギッシュ距離値（Ｄｊｍｉｎ）を検出し、上記音楽クラス（ｃ１，…，ｃｎ）の集合（Γ）内で上記最小ギッシュ距離値（Ｄｊｍｉｎ）に対応する別個の最小音楽クラス（ｃｊｍｉｎ）を判定するステップを更に有する請求項１記載の楽曲分類方法。
（ｅ）上記分類される未分類の楽曲について、上記最小音楽クラス（ｃｊｍｉｎ）を特徴クラス（ｃｓ）として選択するステップを更に有する請求項２記載の楽曲分類方法。
上記ギッシュ距離値（Ｄ１，…，Ｄｎ）は、
ｊ＝１，…，ｎとし、
分類される未分類の楽曲又はその一部をｓとし、
各楽曲の結合の処理を「＋」とし、
ｊ＝１，…，ｎについて、各音楽クラス又はその代表又はその代表の一部をｃｊとし、
各楽曲に関するそれぞれのモデル又はモデル構築処理をｍ（・）とし、
モデルｙが与えられた場合、楽曲、データ集合ｘ又はその一部ｘが観測される尤度をＬ（ｘ｜ｙ）として、以下の式（１）に基づいて算出されることを特徴とする請求項１乃至３いずれか１項記載の楽曲分類方法。
上記モデルｍ（・）としてガウス分布密度モデルを用いることを特徴とする請求項４記載の楽曲分類方法。
単一の全共分散ガウス分布密度のみを採用することを特徴とする請求項４又は５記載の楽曲分類方法。
上記モデルｍ（・）として、多変数モデルを用いることを特徴とする請求項４乃至６いずれか１項記載の楽曲分類方法。
上記音楽分類データ（ＭＣＤ）を提供するステップ（ａ）は、該音楽分類データ（ＭＣＤ）を受信及び／又は生成する処理又は該処理の一部であり、又は該処理又は該処理の一部を含むことを特徴とする請求項１乃至７いずれか１項記載の楽曲分類方法。
上記分類される未分類の楽曲（ｓ）を提供するステップ（ｂ）は、外部ソースから上記分類される未分類の楽曲（ｓ）又はその一部を受信する処理又は該処理の一部を含むことを特徴とする請求項１乃至８いずれか１項記載の楽曲分類方法。
上記音楽分類データ（ＭＣＤ）及び／又はモデルｍ（・）は、完全な曲又は楽曲、若しくはその特徴的部分に基づいていることを特徴とする請求項１乃至９いずれか１項記載の楽曲分類方法。
上記ギッシュ距離値（Ｄ１，…，Ｄｎ）を導出するステップ（ｃ）及び／又は上記最小ギッシュ距離値（Ｄｊｍｉｎ）を検出するステップ（ｄ）は、上記分類される未分類の楽曲（ｓ）又はその各部分を、複数の音楽クラス（ｃ１，…，ｃｎ）又はその全体に関して比較し、上記音楽クラス（ｃ１，…，ｃｎ）を含む上記音楽分類データ（ＭＣＤ）によって定義されるムード空間内で該未分類の楽曲（ｓ）又はその各部分の位置を特定する処理を構成し又は含むことを特徴とする請求項１乃至１０いずれか１項記載の楽曲分類方法。
上記分類される未分類の楽曲（ｓ）と、上記音楽クラス（ｃ１，…，ｃｎ）又はその各部分との関係を記述し、該未分類の楽曲又はその各部分を該音楽クラス（ｃ１，…，ｃｎ）に分類する曲分類データ（ＳＣＤ）を提供するステップ（ｆ）を更に有する請求項１乃至１１いずれか１項記載の楽曲分類方法。
上記楽曲及び／又はその一部は、サンプリングされることを特徴とする請求項１乃至１２いずれか１項記載の楽曲分類方法。
約２２ｋＨｚのサンプリング周波数を用いることを特徴とする請求項１３記載の楽曲分類方法。
上記楽曲及び／又はその一部は、フレームに分割されることを特徴とする請求項１３又は１４記載の楽曲分類方法。
上記フレームのフレーム長は、約３２ミリ秒であることを特徴とする請求項１５記載の楽曲分類方法。
上記フレームのフレームレートは、約５０ミリ秒であることを特徴とする請求項１５又は１６記載の楽曲分類方法。
上記各フレームは、それぞれの高速フーリエ変換の前にハミング窓化されることを特徴とする請求項１５乃至１７いずれか１項記載の楽曲分類方法。
各高速フーリエ変換から、それぞれのパワースペクトルが導出され、
上記各パワースペクトルベクトルに基づき、特徴ベクトルを算出することを特徴とする請求項１乃至１８いずれか１項記載の楽曲分類方法。
上記特徴ベクトルは、メルスケール変換されることを特徴とする請求項１９記載の楽曲分類方法。
３０個のメルスケール係数を使用することを特徴とする請求項２０記載の楽曲分類方法。
上記メルスケール係数は、対数換算されることを特徴とする請求項２１記載の楽曲分類方法。
上記対数換算されたメルスケール係数は、逆離散フーリエ変換されることを特徴とする請求項２２記載の楽曲分類方法。
上記対数換算されたメルスケール係数に対する上記逆離散フーリエ変換から、１フレームあたり１３個を含む１フレームあたり一組のケプストラム係数が導出されることを特徴とする請求項２３記載の楽曲分類方法。
上記１フレームあたり一組のケプストラム係数から、スペクトル面積中心、スペクトルフラックス、スペクトルロールオフのうちの１つ又は任意の複数が算出されることを特徴とする請求項２４記載の楽曲分類方法。
上記スペクトル面積中心、上記スペクトルフラックス及び／又は上記スペクトルロールオフの分散を算出することを特徴とする請求項２５記載の楽曲分類方法。
上記スペクトル面積中心、上記スペクトルフラックス及び／又は上記スペクトルロールオフの分散は、Ｑを５〜２０として、Ｑ個の隣接するフレームの窓に亘って、算出されることを特徴とする請求項２６記載の楽曲分類方法。
上記分散は、パラメータとしてみなされることを特徴とする請求項２６又は２７記載の楽曲分類方法。
上記ギッシュ距離値（Ｄ１，…，Ｄｎ）の集合（Δ）に基づいて、上記分類される楽曲（ｓ）又はその一部のための音楽分類データ（ＭＣＤ）が、少なくとも３つの数値からなるｎ−タプルの形式で導出されることを特徴とする請求項１乃至２８いずれか１項記載の楽曲分類方法。
（ｆ）分類される所定の楽曲（ｓ）について、該楽曲又はその一部のムードを表す少なくとも３つの数値からなるｎ−タプルの形式で音楽分類データ（ＭＣＤ）を導出／提供するステップと、
（ｇ）上記音楽分類データ（ＭＣＤ）のｎ−タプルの数値から、上記楽曲又はその一部のムードを表す一対の２次元座標値（ｘ，ｙ；ｒ，φ）を判定するステップとを有する請求項２９記載の楽曲分類方法。
（ｆ）分類される所定の楽曲（ｓ）について、該楽曲又はその一部のムードを表す少なくとも３つの数値からなるｎ−タプルの形式で音楽分類データ（ＭＣＤ）を導出／提供するステップと、
（ｇ）上記音楽分類データ（ＭＣＤ）のｎ−タプルの数値から、上記楽曲又はその一部のムードを表す一対の２次元座標値（ｘ，ｙ；ｒ，φ）を判定するステップとを有する楽曲分類方法。
２次元座標値（ｘ，ｙ；ｒ，φ）として、デカルト座標（ｘ，ｙ）及び／又は極座標（ｒ，ｆ）を用いることを特徴とする請求項３０又は３１記載の楽曲分類方法。
上記ｎ−タプルの数値として，３個の数値（ｊ，ｓ，ａ）を用いることを特徴とする請求項３０乃至３２いずれか１項記載の楽曲分類方法。
上記３個の数値（ｊ，ｓ，ａ）は、上記楽曲又はその一部の３個のムード値（ｊ，ｓ，ａ）によって構成されていることを特徴とする請求項３３記載の楽曲分類方法。
上記ムード値（ｊ，ｓ，ａ）は、上記楽曲又はその一部に関して、それぞれ、「楽しい」ムード、「悲しい」ムード、「元気な」ムードを分類することを特徴とする請求項３４記載の楽曲分類方法。
第１及び第２のデカルト座標値をｘ及びｙとし、
上記楽曲又はその一部のための上記音楽分類データ（ＭＣＤ）の、正規化された形式の、「楽しい」ムード、「悲しい」ムード、「元気な」ムードを表す第１、第２、第３の数値をｊ，ｓ，ａとして、以下の式（１ａ）及び式（１ｂ）に基づいて上記２次元座標値としてのデカルト座標（ｘ，ｙ）を算出することを特徴とする請求項３０乃至３５いずれか１項記載の楽曲分類方法。
極半径及び極角度座標値をそれぞれｒ及びφとし、
上記式（１ａ）及び式（１ｂ）に基づく２次元デカルト座標値をそれぞれｘ及びｙとして、以下の式（２ａ）及び式（２ｂ）に基づいて上記２次元座標値としての極座標（ｒ，φ）を算出することを特徴とする請求項３１乃至３６いずれか１項記載の楽曲分類方法。
上記２次元座標値（ｘ，ｙ；ｒ，φ）から上記楽曲又はその一部のムードを記述する色を記述する色及び／又は色値（ｈ，ｓ，ｖ）を正規化された形式で生成することを特徴とする請求項３１乃至３７いずれか１項記載の楽曲分類方法。
上記色及び／又は色値（ｈ，ｓ，ｖ）は、ＨＳＶ色空間に基づいて判定されることを特徴とする請求項３８記載の楽曲分類方法。
上記色及び／又は色値（ｈ，ｓ，ｖ）は、
ＨＳＶ色空間における色相、飽和度、値をそれぞれｈ、ｓ、ｖとし、
式（２ａ）及び式（２ｂ）に基づく極半径及び極角度座標値をそれぞれｒ及びφとし、ＨＳＶ色空間に基づいて、以下の式（３ａ）、式（３ｂ）及び式（３ｃ）によって判定されることを特徴とする請求項３８又は３９記載の楽曲分類方法。
請求項１乃至４０いずれか１項記載の楽曲分類方法及びそのステップを実現する手段を備え、該楽曲分類方法及びそのステップを実行するように適応化及び／又は構成された楽曲分類装置。
デジタル信号処理手段又はコンピュータ上で実行されて、請求項１乃至４０記載の楽曲分類方法又は請求項４１記載の楽曲分類装置を実現するコンピュータプログラムを含むコンピュータプログラム製品。
請求項４２記載のコンピュータプログラム製品を提供するコンピュータにより読取可能な媒体。