JP2007322598A

JP2007322598A - 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム

Info

Publication number: JP2007322598A
Application number: JP2006151166A
Authority: JP
Inventors: Ichiro Shishido; 一郎宍戸
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 2006-05-31
Filing date: 2006-05-31
Publication date: 2007-12-13
Anticipated expiration: 2026-05-31
Also published as: US20110132173A1; US20110132174A1; US8442816B2; US20080040123A1; US8438013B2; JP4665836B2; US7908135B2

Abstract

【課題】楽曲のカテゴリ分類に際し、楽曲の雰囲気に大きな影響を与える音程感の強弱と音の厚みを直接反映する特徴量を精度良く抽出して分類に反映させる。
【解決手段】音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する周波数分析部１２と、生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出部２０と、検出された持続領域の個数と持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算部と特徴量に基づき楽曲をカテゴリに分類するカテゴリ分類部１４とを備える構成とした。
【選択図】図１

Description

本発明は、楽曲の分類技術及び検索技術に係り、特に楽曲に関する音響データに基づき楽曲をジャンル等のカテゴリに分類するための楽曲分類装置、楽曲分類方法、及び楽曲分類プログラムに関する。

近年、音声圧縮技術の発展や大容量記憶媒体の普及を背景にして、デジタル化された楽曲データを大容量記憶媒体やコンピュータ等に格納して活用することが広く行われている。そして、格納される楽曲数が増大するに伴い、所望の楽曲を検索する技術への要求が益々高まっている。これにおいて、楽曲の曲名やアーティスト名を指定して楽曲を検索することは広く行われている。さらに、楽曲の音響信号に基づき検索を行う技術も知られている。特に、楽曲の音響信号を分析して特徴量を抽出し、楽曲を印象語に対応させたり、楽曲の曲調を判定したりする技術が、例えば下記特許文献１〜３に開示されている。

特許文献１には、音響信号を分析して、フレーム間のスペクトル変化の度合い、楽曲中で発音される音の発音頻度、楽曲中で発音される音の非周期性の度合い、テンポ等の特徴量を抽出すると共に、これら特徴量を印象因子に線形変換した座標値と主観的な印象に関する要件を印象因子に線形変換した座標値とのユークリッド距離を計算し、この距離が小さい楽曲を検索結果として出力する楽曲検索方法について記載されている。

また、特許文献２には、楽曲データから、楽曲の１分間当たりの和音数、楽曲に使用されている和音の種類数、ビート最大レベル、振幅最大レベル等の特徴量を抽出すると共に、各楽曲の特徴量と、データベースとして保存されている感性語毎の特徴量の平均値と不偏分散値とを用いて感性適合値を計算し、感性適合値の大きい楽曲を検索結果として表示する選曲方法について記載されている。

さらに、特許文献３には、音響信号から曲調情報（和音など）を抽出し、照明装置や空調装置を制御する制御方法について記載されている。
特開２００２−２７８５４７号公報特開２００５−３１６９４３号公報特開２００４−１６３７６７号公報

楽曲の印象に影響を与える要因の１つとして、「音程感の強弱（音程を感じる度合い）」がある。例えば、ピアノ等の決まった音程を有する楽器を中心に構成された楽曲は音程感が強いと感じられるが、ドラム等の音程の無い楽器を中心に構成された楽曲は音定感が弱いと感じられる。そして、この音程感は楽曲のジャンルや印象と密接に関係している。

また、音程感とも関係する要因であるが、楽曲の印象に影響を与える別の要因として、「音の厚み」がある。音の厚みは、同時に発音されている音数や、楽器の倍音構成に密接に関係する要因であり、やはり楽曲のジャンルや印象と密接に関係している。例えば、２つの楽曲のメロディ、テンポ、和音等が同じであっても、同時に発音されている音数や楽器の倍音構成の違いよっては、２つの楽曲の印象はかなり異なったものになる。

しかしながら、従来技術においては、音響データから様々な特徴量を抽出してはいるものの、このような音程感の強弱や音の厚みを直接反映する特徴量の抽出はしていなかった。このため、判定できる曲調や印象語の種類が限られ、また判定精度も十分とはいえなかった。

そこで本発明は、楽曲の雰囲気に大きな影響を与える音程感の強弱と音の厚みを直接反映する特徴量を精度良く抽出して楽曲をカテゴリに分類することができる楽曲分類装置、楽曲分類方法、及び楽曲分類プログラムを提供することを目的とする。

本発明は、上記の課題を解決するために、
［１］楽曲に関する音響データから前記楽曲の特徴量を抽出し、この抽出した特徴量に基づき前記楽曲を所定のカテゴリに分類する楽曲分類装置であって、
前記音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する時間周波数データ生成手段と、
前記生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出手段と、
前記検出された持続領域の個数と前記持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算手段と、
前記算出された特徴量に基づき、前記楽曲を前記所定のカテゴリに分類するカテゴリ分類手段と、
を備えた楽曲分類装置
を提供し、
［２］前記特徴量計算手段は、所定時間毎に前記持続領域関連データを算出すると共に、前記楽曲の全体又は一部分における前記持続領域関連データについての平均、分散、隣接する持続領域関連データの差分値、所定値以上の前記持続領域関連データの個数、及び所定の変化パターンの個数の各値のうち少なくとも一つに基づき、前記特徴量を算出することを特徴とした上記［１］に記載の楽曲分類装置
を提供し、
［３］楽曲に関する音響データから前記楽曲の特徴量を抽出し、この抽出した特徴量に基づき前記楽曲を所定のカテゴリに分類する楽曲分類方法であって、
前記音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する時間周波数データ生成ステップと、
前記生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出ステップと、
前記検出された持続領域の個数と前記持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算ステップと、
前記算出された特徴量に基づき、前記楽曲を前記所定のカテゴリに分類するカテゴリ分類ステップと、
を有した楽曲分類方法
を提供し、
［４］前記特徴量計算ステップは、所定時間毎に前記持続領域関連データを算出する一方、前記楽曲の全体又は一部分における前記持続領域関連データについての平均、分散、隣接する持続領域関連データの差分値、所定値以上の前記持続領域関連データの個数、及び所定の変化パターンの個数の各値のうち少なくとも一つに基づき、前記特徴量を算出することを特徴とした上記［３］に記載の楽曲分類方法
を提供し、
［５］楽曲に関する音響データから前記楽曲の特徴量を抽出し、この抽出した特徴量に基づき前記楽曲を所定のカテゴリに分類する動作をコンピュータに実行させるための楽曲分類プログラムであって、
前記音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する時間周波数データ生成ステップと、
前記生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出ステップと、
前記検出された持続領域の個数と前記持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算ステップと、
前記算出された特徴量に基づき、前記楽曲を前記所定のカテゴリに分類するカテゴリ分類ステップと、
を実行させる楽曲分類プログラム
を提供し、
［６］前記特徴量計算ステップは、所定時間毎に前記持続領域関連データを算出する一方、前記楽曲の全体又は一部分における前記持続領域関連データについての平均、分散、隣接する持続領域関連データの差分値、所定値以上の前記持続領域関連データの個数、及び所定の変化パターンの個数の各値のうち少なくとも一つに基づき、前記特徴量を算出する動作を前記コンピュータに実行させることを特徴とした上記［５］に記載の楽曲分類プログラム
を提供するものである。

本発明によれば、音楽に関する音響データを分析して、楽曲のジャンルや印象と密接に関連する音程感の強弱や音の厚みを直接反映する特徴量を抽出することができるので、楽曲を精度良くカテゴリに分類することができる。

また、本発明によれば、従来は分類が難しかった音程感の強弱や音の厚みに関する観点で楽曲を分類することが可能になるため、カテゴリの種類をより詳細にして増やすことができる。

以下、本発明を実施するための最良の形態について、好ましい実施例を示して詳細に説明する。

図１に、本発明の実施例である楽曲分類装置の概略構成図を示す。同図において、楽曲分類装置１は、楽曲データ格納部１１と、周波数分析部１２（時間周波数データ生成部）と、特徴量生成部１３と、カテゴリ分類部１４と、制御部１５とを備えている。そして、特徴量生成部１３は、持続領域検出部２０と、特徴量計算部２１とを備えている。

上記構成を備えた楽曲分類装置１において、楽曲データ格納部１１は、楽曲を識別する識別子とその楽曲に関する音響データとを関連付けて格納する。周波数分析部１２は、楽曲データ格納部１１から読み出された音響データを複数の周波数バンドに分割して、所定時間毎の各バンドの成分強度を要素とする時間周波数データを生成し、そのデータを周波数成分メモリ１２ａに格納する。特徴量生成部１３のうち持続領域検出部２０は、周波数成分メモリ１２ａに格納された時間周波数データを参照し、所定の時間（基準時間長）以上一定の周波数成分が持続している持続領域を検出して、この持続領域の情報を持続領域メモリ２０ａに格納する。特徴量生成部１３のうち特徴量計算部２１は、持続領域メモリ２０ａを参照して楽曲の音楽的特徴を表わす特徴量を生成し、特徴量メモリ２１ａに格納する。カテゴリ分類部１４は、特徴量メモリ２１ａを参照しながら、分類ルールメモリ１４ａに予め格納された分類ルールに従って楽曲をカテゴリに分類し、その分類結果を分類結果メモリ１４ｂに格納する。制御部１５は、不図示のメモリに格納した楽曲分類プログラムを不図示のＣＰＵに実行させて、楽曲分類装置１の全体や上記各ブロックを制御する。

次に、本実施例における楽曲分類装置１の動作について説明する。まず、楽曲データ格納部１１には、図２に示すように、楽曲を識別するための識別子とその楽曲に関する音響データとが関連付けられて格納されている。そして、楽曲データ格納部１１は、制御部１５からの指示に基づき、格納されている音響データを読み出してデコード処理やフォーマット変換処理を行った後、周波数分析部１２に供給する。具体的には、例えばサンプリング周波数ＦｓのＰＣＭデータ形式によるモノラルデータを周波数分析部１２に供給する。

なお、以下の説明においては、楽曲データ格納部１１から周波数分析部１２に供給される音響データをｘ［ｍ］（ｍ＝０〜Ｌ−１、Ｌは音響データの総数）、又は単に音響データと記載する。

次に、周波数分析部１２は、制御部１５の指示に基づき、楽曲データ格納部１１から供給される音響データの周波数分析処理を実行する。具体的には、周波数分析部１２は、所定の時間周期毎に各バンドの成分強度を計算し、成分強度を行列要素とする時間周波数データを生成する。本実施例においては、周波数分析の方法として公知のＳＴＦＴ（Ｓｈｏｒｔ−ｔｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を用いるが、これ以外にもウェーブレット変換やフィルターバンク等の方法を用いてもよい。

ここで、周波数分析部１２が実行する処理フローを図３のフローチャートを参照して説明する。本実施例においては、周波数分析部１２は、音響データを固定長のフレームに分割し、フレーム単位での処理を実行する。なお、以下の説明においては、フレーム長をＮ、フレームシフト長をＳとする。よって、フレームシフト長Ｓが時間周期に相当する。

フレームの総数をＭとすると、フレーム総数Ｍは、数式１に従って求まる。

上記のｆｌｏｏｒ関数は、小数点以下を切り捨てた整数を返す関数である。なお、本実施例においては、Ｌ≧Ｎであるものとする。図３のフローチャートにおいて、まず、ステップＳ１１０では、フレーム番号を示す制御変数ｉを０にセットする。次に、ステップＳ１２０では、ｉ番目のフレームを作成する。すなわち、図４に模式的に示したように、音響データの先頭からｉ×Ｓ個オフセットされた位置からＮ個のデータを切り出し、これに数式２に示すように窓関数ｗを乗じて、ｉ番目のフレームデータｙ［ｉ］［ｎ］（ｎ＝０〜Ｎ−１）を計算する。

窓関数ｗとしては、例えば数式３に示すハミング窓を用いることができるが、この他にも、方形窓、ハニング窓、ブラックマン窓などを用いてもよい。

次に、ステップＳ１３０では、数式４に従ってｉ番目のフレームの離散フーリエ変換（ＤＦＴ）を計算する。

次に、ステップＳ１４０では、ステップＳ１３０で得られた複素系列ａ［ｉ］［ｋ］（ｋ＝０〜Ｎ−１）の実数部Ｒｅ｛ａ［ｉ］［ｋ］｝と虚数部Ｉｍ｛ａ［ｉ］［ｋ］｝を用いて、数式５又は数式６に従って、ｉ番目のフレームのスペクトル系列ｂ［ｉ］［ｋ］（ｋ＝０〜Ｎ／２−１）を計算する。数式５を用いる場合は、パワースペクトルを計算することになり、数式６を用いる場合は、振幅スペクトルを計算することになる。

次に、ステップＳ１５０では、周波数分析部１２は、スペクトル系列ｂからフレームｉ、バンドｑの周波数成分ｃ［ｉ］［ｑ］（ｑ＝０〜Ｑ−１、Ｑはバンド数）を計算する。ステップＳ１５０における計算方法は後述する。次に、ステップＳ１６０において、フレーム番号を示す制御変数ｉの値を１増やす。次に、ステップＳ１７０では、フレーム番号を示す制御変数ｉの値がフレーム総数Ｍより小さいか否かチェックする。そして、制御変数ｉがフレーム総数Ｍより小さい（ＹＥＳ）場合は、ステップＳ１２０に戻り処理を繰り返す。一方、制御変数ｉがフレーム総数Ｍ以上である（ＮＯ）場合は、すべてのフレームについて処理を行ったことになるので処理を終了する。

ここで、ステップＳ１５０の処理の詳細を説明する。周波数成分の計算方法としては、以下の２種類を用いることができる。

周波数成分を計算する第１の方法は、数式７に従ってスペクトル系列ｂ［ｉ］［ｋ］の一部、または全部をｃ［ｉ］［ｑ］に対応させる方法である。

ここで、λは０以上の所定の整数であり、バンドの最低周波数を決めるパラメータである。また、バンド数Ｑは（Ｎ／２−λ）以下である所定の値に設定する。この第１の方法によれば、各バンドの中心周波数の間隔が等間隔になっているため、計算量が少なく簡便である。

周波数成分を計算する第２の方法は、数式８に従って音楽の音階に対応した周波数成分を求める方法である。

この方法では、音楽で用いられている音程の周波数に対応した周波数成分が得られるので、より高い精度で楽曲を分類することが可能になる。ここで、ｚ［ｑ］［ｋ］（ｑ＝０〜Ｑ−１、ｋ＝０〜Ｎ／２−１）は、図５に示すような帯域特性を有するフィルタ群であり、各フィルタの中心周波数は、音楽で用いられる各音程の周波数に対応している。通常は、数式９を用いて各フィルタの中心周波数Ｆz[q]を平均律音階に対応させればよい。なお、Ｆｂは基準音程の周波数である。

またフィルタの帯域幅は、隣合った音程の周波数を十分減衰させるように設定する。場合によっては、平均律ではなく、純正律などの他の音階に対応させてもよい。図５に示した例では、平均律音階のＣ１音程をバンド０に対応させて、以降半音ごとに１つのバンドに対応させて、最後にＢ６音程をバンドＱ−１に対応させている。図５（ａ）に示すｚ［０］［ｋ］はＣ１に対応した周波数を通過させるフィルタであり、図５（ｂ）に示すｚ［１］［ｋ］はそれより半音高いＣ＃１に対応した周波数を通過させるフィルタを示している。

スペクトル系列ｂ［ｉ］［ｋ］は周波数軸上に等間隔に存在するのに対して、平均律音階は高音部になるほど隣り合った半音間の周波数間隔が広がるので、フィルタ群ｚ［ｑ］［ｋ］の中心周波数もそれに対応して、高音部ほど隣り合った中心周波数の間隔が広くなっている。例えば、図５（ａ）に示すｚ［０］［ｋ］と図５（ｂ）に示すｚ［１］［ｋ］の中心周波数の差よりも図５（ｃ）に示すｚ［Ｑ−２］［ｋ］と図５（ｄ）に示すｚ［Ｑ−１］［ｋ］の中心周波数の差の方が大きい。

そして、各フィルタの帯域幅も同様に、高音部ほど広くなっている。例えば、図５（ｄ）に示すＺ［Ｑ−１］［ｋ］の帯域幅は、図５（ａ）に示すｚ［０］［ｋ］の帯域幅よりも広い。

また、図５に示した例では平均律の各半音に一致したバンドであるが、平均律音階の半音を更に細かく分割するような周波数バンドを形成して周波数成分を算出してもよい。さらに、上述した第１及び第２の方法を組み合わせて周波数バンドを形成し、周波数成分を算出してもよい。例えば、周波数バンドを低域、中域、高域の３グループに分け、低域グループと高域グループには第１の方法を用い、中域グループに第２の方法を用いるようにしてもよい。

以上の処理の後、周波数成分メモリ１２ａには周波数成分ｃ［ｉ］［ｑ］（フレームｉ＝０〜Ｍ−１、バンドｑ＝０〜Ｑ−１）が格納され、持続領域検出部２０が利用できるようになる。

図６は、横軸にフレーム（時間）、縦軸にバンド（周波数）を取って、周波数成分ｃを模式的に示した図である。図中の黒い部分は、値の大きな周波数成分である。この中で、同図（ａ）は、楽曲の中でドラムのみが演奏されている部分を模式的に示したものである。この例では、ドラムが２回発音されており、広い帯域の周波数成分が短時間存在する領域が２つある。この同図（ａ）の部分においては、音程感は弱い。

図６（ｂ）は、楽曲の中で少数の有音程楽器が演奏されている部分を模式的に示したものである。発音されている音程の基音と倍音に相当する周波数成分が存在するため、水平方向の線分が観測される。同図（ｂ）において、音程感は、同図（ａ）のものよりも強い。

図６（ｃ）は、楽曲の中で多数の有音程楽器が演奏されている部分を示したものである。発音されている音程の基音と倍音に相当する周波数成分が多数存在するため、水平方向の線分が多数観測される。同図（ｃ）では音程感は最も強い。また、同図（ｂ）に比べて音の厚みが強く感じられる。

本実施例においては、図６（ｃ）のような箇所で大きな値を取り、図６（ａ）のような箇所で小さな値を取る、聴感上の音程感及び音の厚みに密接に関係する特徴量を生成する。

次に、持続領域検出部２０が実行する処理フローについて、図７に示すフローチャートを参照して説明する。持続領域検出部２０は、制御手段１５の指示に基づいて、周波数成分メモリ１２ａに格納されている周波数成分ｃ［ｉ］［ｑ］（ｉ＝０〜Ｍ−１、ｑ＝０〜Ｑ−１）を読み出しながら、複数フレームから構成されるブロック単位に処理を行う。以下の説明においては、１ブロックのフレーム数をＢｓ、ブロック数をＢｎとする。楽曲全体を対象に持続領域を検出する場合は、ブロック数Ｂｎは数式１０により算出される。

なお、楽曲の全体を対象とするのではなく、楽曲の一部の区間のみを持続領域検出の対象としてもよい。さらには、楽曲の複数の区間を対象にしてもよい。本実施例においては、楽曲全体を対象にした場合について説明する。まず、ステップＳ２１０では、ブロック番号を表わす制御変数ｐを０にセットする。次に、ステップＳ２２０では、バンドを表わす制御変数ｑを持続領域の対象となる最小のバンドＱ１（Ｑ１は０以上Ｑ未満の定数）にセットする。次に、ステップＳ２３０では、フレーム番号を表わす制御変数ｉをｐ×Ｂｓにセットする。次に、ステップＳ２４０では、有効成分の数をカウントするための変数ｒを０にセットし、有効成分の強度を保持する変数ｓを０にする。

次に、ステップＳ２５０では、周波数成分ｃ［ｉ］［ｑ］が有効成分であるか否かをチェックする。周波数成分ｃ［ｉ］［ｑ］が有効成分である（ＹＥＳ）と判定された場合は、ステップＳ２６０に進み、有効成分でない（ＮＯ）と判定された場合は、ステップＳ２８０に進む。有効成分を判定する具体的な方法としては、後述する方法のいずれか又は適当な組合せを用いることができる。

次に、ステップＳ２６０では、有効成分をカウントするための変数ｒの値を１増やす。次に、ステップＳ２７０では、変数ｓに周波数成分ｃ［ｉ］［ｑ］を加算する。次に、ステップＳ２８０では、制御変数ｉの値を１増やす。

次に、ステップＳ２９０では、制御変数ｉの値が（ｐ＋１）×Ｂｓ未満であるか否かを判定する。そして、（ＹＥＳ）の場合はステップＳ２５０に戻って処理を繰り返一方、（ＮＯ）の場合はステップＳ３００に進む。ステップＳ３００では、有効成分カウント用の変数ｒが定数Ｖ（ただしＶ≦Ｂｓ）以上であるか否かを判定し、Ｖ以上である（ＹＥＳ）場合ステップＳ３１０に進み、Ｖ未満である（ＮＯ）場合はステップＳ３２０に進む。

ここでＶ＝Ｂｓとすると、有効な成分がＢｓ個連続して存在する時のみ持続領域と判定することになる。但し、実際には、ある音程の音が一定時間持続して発音されている場合においても、微小な周波数のゆらぎ（ビブラート）があるので、有効な成分が連続するとは限らず、断続的に存在する場合もある。したがって、本実施例においては、ＶをＢｓの８０〜９０％程度に設定する。

ステップＳ３１０では、ブロック番号ｐ、バンド番号ｑ、持続領域の周波数成分の総和ｓを持続領域検出部２０の持続領域メモリ２０ａに図８に示すような形式で格納する。この持続領域メモリ２０ａは、特徴量計算部２１から参照できるようになっている。

次に、ステップＳ３２０では、制御変数ｑの値を１増やす。次に、ステップＳ３３０では、制御変数ｑの値がＱ２以下であるか否かを判定し、Ｑ２以下である（ＹＥＳ）時はステップＳ２３０に戻り処理を繰り返す一方、Ｑ２より大きい（ＮＯ）場合はステップＳ３４０に進む。ここでＱ２は、持続領域の対象とする最大のバンド番号を表す定数である（ただし、Ｑ１≦Ｑ２≦Ｑ）。

次に、ステップＳ３４０では、制御変数ｐの値を１増やす。次に、ステップＳ３５０では、制御変数ｐがブロックの総数Ｂｎ未満であるか否か判定する。そして、（ＹＥＳ）の場合はステップＳ２２０に戻って処理を繰り返す一方、（ＮＯ）の場合は持続領域検出部２０の処理を終了する。

このようにして持続領域検出部２０の処理を行った後には、持続領域メモリ２０ａに持続領域の情報が格納される。

ここで、ステップＳ２５０における有効成分の判定方法について詳細に説明する。有効成分を判定する第１の方法は、数式１１を用いて、ｃ［ｉ］［ｑ］が閾値α［ｑ］以上である場合に有効な成分と判定する方法である。

ここで、閾値α［ｑ］は、以下の方法のいずれかで決めることができる。すなわち、閾値α［ｑ］を決める第１の方法は、あらかじめ設定した定数にする方法である。この方法は演算量が最も少なく簡便である。

閾値α［ｑ］を決める第２の方法は、数式１２で示すように、全フレーム（Ｍ個）のバンド毎の周波数成分の平均値を用いる方法である。ここで、βはあらかじめ設定されている定数である。

有効成分を判定する第２の方法は、数式１３を用いる方法である。

ここで、Ｘｆは、（Ｇ２−Ｇ１＋１）個の引数を取る関数である。Ｇ１、Ｇ２は、０＜Ｇ１≦Ｇ２を満たす整数である。周波数分析部１２において、音階の各音程（半音）に各周波数バンドを一致させた場合は、Ｇ１＝１、Ｇ２＝１とすれば良い。また、∩はＡＮＤ条件である。すなわち、フレームｉの周波数バンドｑ（中心バンド）より大きな周波数に相当するｑの近傍のバンド（（ｑ＋Ｇ１）〜（ｑ＋Ｇ２））を関数Ｘｆに代入した時の出力よりｃ［ｉ］［ｑ］が大きく、かつフレームｉの周波数バンドｑ（中心バンド）より小さな周波数に相当するｑの近傍のバンド（（ｑ−Ｇ１）〜（ｑ−Ｇ２））を関数Ｘｆに代入した時の出力よりｃ［ｉ］［ｑ］が大きい場合に、有効成分と判定する。中心バンドが、上側の近傍バンド及び下側の近傍バンドに比べて比較的大きな値を有している場合に有効成分となる。ただし、中心バンドは、近傍バンドの全ての周波数成分より大きい必要は必ずしもない。

ここで、関数Ｘｆには種々の関数を用いることが可能である。例えば、数式１４に示すように、引数の中の最大値を出力するｍａｘ関数を用いることができる。

また、引数の最小値を出力するｍｉｎ関数や、引数の平均値を出力するａｖｅｒａｇｅ関数や、引数の中央値を出力するｍｅｄｉａｎ関数などを用いてもよい。この方法は、一般に有音程楽器が発音されている時には、その音程のバンドの成分が隣接したバンドの成分よりも強いため有効成分になり易く、打楽器等が発音されている時には隣接したバンドの成分との差が小さいので有効成分になり難いといった性質を利用している。

有効成分を判定する第３の方法は、数式１５を用いる方法である。

ここで、Ｘｇは、Ｎｇ個の引数を取る関数である。Ｎｇは数式１６に定まる整数である。

Ｇ１、Ｇ２は、０＜Ｇ１≦Ｇ２を満たす整数であり、Ｈは０以上の整数である。すなわち、図９に○印で示すようなｃ［ｉ］［ｑ］の近傍の周波数成分を関数Ｘｇの引数とする。フレームｉだけでなく、その前後のフレームのデータも用いている。周波数分析部１２において、音階の各音程（半音）に各周波数バンドを一致させた場合は、Ｇ１＝１、Ｇ２＝１とすれば良い。中心の周波数成分ｃ［ｉ］［ｑ］が、図９に○印で示す近傍の周波数成分に比べて比較的大きな値を有している場合に有効成分となる。ただし、中心の周波数成分は、近傍の全ての周波数成分より大きい必要は必ずしもない。

ここで、関数Ｘｇには種々の関数を用いることができる。例えば、引数の中の最大値を出力するｍａｘ関数を用いることができる。また、引数の最小値を出力するｍｉｎ関数や、引数の平均値を出力するａｖｅｒａｇｅ関数や、引数の中央値を出力するｍｅｄｉａｎ関数などを用いてもよい。この方法は、第２の方法と同様に、一般に有音程楽器が発音されている時には、その音程のバンドの成分が隣接したバンドの成分よりも強いため有効成分になり易く、打楽器等が発音されている時には隣接したバンドの成分との差が小さいので有効成分になり難いといった性質を利用している。

有効成分を判定する第４の方法は、数式１７を用いる方法である。

ここで、Ｘｈは（Ｇ４−Ｇ３＋１）個の引数を取る関数である。Ｇ３、Ｇ４は、０＜Ｇ３≦Ｇ４を満たす整数である。周波数分析部１２において、音階の各音程（半音）に各周波数バンドを一致させた場合は、Ｇ３＝１、Ｇ４＝１とすれば良い。∩はＡＮＤ条件である。また、関数ｈ（ｄ，ｑ）は、バンドｑのｄ倍の周波数（ｄ次倍音）に相当するバンド番号を返す関数である。ｄ＝２〜Ｄ（Ｄは２以上の整数）の全てのｄについて数式１７が成立する場合に、有効成分とする。すなわち、フレームｉの周波数バンドｑ（中心バンド）のｄ次倍音の周波数成分ｃ［ｉ］［ｈ（ｄ，ｑ）］が、ｄ次倍音の上側の近傍バンド（ｈ（ｄ，ｑ）＋Ｇ３）〜（ｈ（ｄ，ｑ）＋Ｇ４））を関数Ｘｈに代入した時の出力より大きく、かつフレームｉの周波数バンドｑ（中心バンド）のｄ次倍音の周波数成分ｃ［ｉ］［ｈ（ｄ，ｑ）］が、ｄ次倍音の下側の近傍バンド（ｈ（ｄ，ｑ）−Ｇ３）〜（ｈ（ｄ，ｑ）−Ｇ４））を関数Ｘｈに代入した時の出力より大きいという条件が、ｄ＝２〜Ｄ（Ｄは２以上の整数）の全てのｄについて成立する場合有効成分と判定する。

ここで、関数Ｘｈには種々の関数を用いることができる。例えば、引数の中の最大値を出力するｍａｘ関数を用いることができる。また、引数の最小値を出力するｍｉｎ関数や、引数の平均値を出力するａｖｅｒａｇｅ関数や、引数の中央値を出力するｍｅｄｉａｎ関数などを用いてもよい。この方法は、一般に有音程楽器が発音されている時には、その音程の倍音成分が、倍音成分の近傍の成分よりも強いため有効成分になり易く、打楽器等が発音されている時には、倍音成分があまりはっきりしないため有効成分になり難いといった性質を利用している。

有効成分を判定する第５の方法は、数式１８を用いる方法である。

ここで、Ｘｉは、Ｎｉ個の引数を取る関数である。Ｎｉは数式１９に定まる整数である。

Ｇ３、Ｇ４は、０＜Ｇ３≦Ｇ４を満たす整数であり、Ｈは０以上の整数である。周波数分析部１２において、音階の各音程（半音）に各周波数バンドを一致させた場合は、Ｇ３＝１、Ｇ４＝１とすれば良い。数式１８では、フレームｉだけでなく、その前後のフレームのデータも用いている。また、関数ｈ（ｄ，ｑ）は、バンドｑのｄ倍の周波数（ｄ次倍音）に相当するバンド番号を返す関数である。ｄ＝２〜Ｄ（Ｄは２以上の整数）の全てのｄについて数式１８が成立する場合に、有効成分とする。

ここで、関数Ｘｉには種々の関数を用いることができる。例えば、引数の中の最大値を出力するｍａｘ関数を用いることができる。また、引数の最小値を出力するｍｉｎ関数や、引数の平均値を出力するａｖｅｒａｇｅ関数や、引数の中央値を出力するｍｅｄｉａｎ関数などを用いてもよい。この方法は第５の方法と同様に、次のような性質を利用している。すなわち、一般に有音程楽器が発音されている時には、倍音構造が存在するため、基音の整数倍の周波数を有する倍音成分が、その倍音の近傍成分よりも強いので、数式１８が成立し易い。一方、打楽器等が発音されている時には、明確な倍音構造は存在しないため、倍音成分とその倍音の近傍成分との違いが出難く、数式１８が成立し難い。

さらには、上述した第１〜第５の方法を適宜組み合わせて有効成分を判定してもよい。例えば、数式２０に示すように、第１、第２、第４の方法をＡＮＤ条件で組み合わせ、第１の条件と、第２の条件と、第４の条件が全て成立する場合に、ｃ［ｉ］［ｑ］を有効成分と判定してもよい。以上が、本実施例における持続領域検出部２０の説明である。

次に、特徴量計算部２１の動作を説明する。特徴量計算部２１は、持続領域メモリ２０ａに格納されているデータを参照しながら、データ個数や周波数成分の大きさである持続領域関連データを用いてＮｆ個の要素を有する特徴量ベクトルＶｆを算出し、特徴量メモリ２１ａに格納する。本実施例では、Ｎｆ＝３であり、各々の特徴量をＶｆ［０］〜Ｖｆ［２］で表わす。なお、本実施例の特徴量計算部２１では、音響データの分析区間の長さを表わすパラメータとして、フレーム総数Ｍを用いるが、Ｍの代わりに、分析区間の秒数や、その他の時間に比例するパラメータを用いてもよい。

まず、特徴量計算部２１は、持続領域メモリ２０ａに格納されているデータ個数をカウントし、その個数をフレーム総数Ｍで割った値を特徴量Ｖｆ［０］とする。持続領域メモリ２０ａに格納されているデータ個数をＮｓとすると、特徴量Ｖｆ［０］は数式２１で求まる。

特徴量Ｖｆ［０］は、音程感の強い楽曲では大きく、音程感の弱い楽曲では小さい値となる性質を有している。また、音の厚みも大きいほどＶｆ［０］も多くなる傾向を示す。

次に、特徴量計算部２１は、持続領域メモリ２０ａに格納されている周波数成分の総和ｓの加算値をＭで割った値を数式２２に従って計算し、特徴量Ｖｆ［１］とする。

特徴量Ｖｆ［１］も、音程感の強い楽曲では大きく、音程感の弱い楽曲では小さい値となる性質を有している。また、音の厚みも大きいほどＶｆ［０］も多くなる傾向を示す。

次に、特徴量計算部２１は、持続領域メモリ２０ａに格納されているユニークなブロック番号の種類をカウントし、これをＮｕとする。そして数式２３に従って、特徴量Ｖｆ［２］を計算する。

ここでａは０＜ａ＜１を満たす定数である。特徴量Ｖｆ［２］も、音程感の強い楽曲では大きく、音程感の弱い楽曲では小さい値となる性質を有している。また、Ｖｆ［０］及びＶｆ［１］よりも、より直接的に音の厚みに関係する。

特徴量計算部２１は、以上のように計算したＶｆ［０］〜Ｖｆ［２］を特徴量メモリ２１ａに格納する。なお、特徴量計算部２１で計算する特徴量はこれに限定されず、他の特徴量を計算してもよい。例えば、持続領域メモリ２０ａに格納されている周波数成分の総和ｓの分散を用いて特徴量を計算してもよい。

次に、カテゴリ分類部１４の動作を説明する。カテゴリ分類部１４は、特徴量メモリ２１ａを参照しながら、分類ルールメモリ１４ａに格納されている分類ルールに従って、楽曲をカテゴリに分類し、図１２に示すような形式で分類結果メモリ１４ｂに格納する。図１２では、楽曲を識別する識別子とカテゴリとを関連付けて格納している。このカテゴリとしては種々のものを用いることができるが、例えば、「ロック」、「クラシック」、「ジャズ」といった楽曲のジャンルをカテゴリにすることができる。また、「静か」、「力強い」、「ノリの良い」といった楽曲の印象を表わす印象語や感性語をカテゴリにしてもよい。以下においては、カテゴリの総数をＮｃとする。

特徴量をカテゴリに対応させる分類ルールとしては、公知の決定木、ベイズルール、ニューラルネットワーク等による方法を適用することができる。分類ルールに決定木を用いる場合は、図１０に示すような、特徴量ベクトルＶｆに関する条件とそれに該当する場合のカテゴリをツリー構造で表わしたものを分類ルールメモリ１４ａに格納しておく。このような分類ルールは、学習用の楽曲を用意し、その特徴量Ｖｆと正解カテゴリのデータセットを用意して、公知のＣ４．５などの手法を適用することで得ることができる。

次に、分類ルールにベイズルールを用いる場合を説明する。分類ルールメモリ１４ａには、数式２４のパラメータＰ（Ｃ[ｋ]）及びＰ（Ｖｆ｜Ｃ[ｋ]）（ｋ＝０〜Ｎｃ−１）が格納されており、カテゴリ分類部１４はこれに従って分類動作を行う。

ここで、Ｐ（Ｃ[ｋ]｜Ｖｆ）は、特徴量ベクトルＶｆである場合にカテゴリＣ[ｋ]（ｋ＝０〜Ｎｃ−１）となる条件付き確率であり、Ｐ（Ｖｆ｜Ｃ[ｋ]）は、カテゴリＣ[ｋ]である場合に特徴量ベクトルＶｆとなる条件付き確率であり、Ｐ（Ｃ[ｋ]）は、カテゴリＣ[ｋ]の事前確率である。すなわち、全てのカテゴリについて、Ｐ（Ｃ[ｋ]）とＰ（Ｖｆ｜Ｃ[ｋ]）の積を計算し、この値が最大となるカテゴリｊを分類結果メモリ１４ｂに格納する。パラメータＰ（Ｃ[ｋ]）及びＰ（Ｖｆ｜Ｃ[ｋ]）は、学習用の楽曲を用意し、その特徴量Ｖｆと正解カテゴリのデータセットを用意して、あらかじめ算出しておく。

次に、分類ルールにニューラルネットワークを用いる場合を説明する。ニューラルネットワークによる構成例としては種々のものを用いることができるが、図１１に示すような３層ニューラルネットワークを用いれば良い。３層ニューラルネットワークは、Ｎｆ個の特徴量に対応した入力層と、Ｎｃ個のカテゴリに対応した出力層と、中間層とを有している。そして、特徴量ベクトルＶｆを入力層に入力した際に最大値をとる出力層に対応したカテゴリを分類結果メモリ１４ｂに格納する。

このように本実施例の楽曲分類装置によれば、有音程楽器が発音されていて一定の周波数が安定的に持続している場所と、打楽器等が発音されていて一定の周波数が安定的に持続しない場所とを識別し、有音程楽器の時間的に安定した周波数成分の個数を計算して音の厚みを表す特徴量を生成するので、楽曲に係わる音響データから音程感及び音の厚みを直接反映した特徴量を精度良く生成することができる。このため、楽曲をカテゴリに精度良く分類できる。

また、音響データを分析して自動的にカテゴリに分類するため、人手を介して分類する必要がなく、楽曲分類に係わる工数が削減できる。

さらに、本実施例を音楽再生装置等に適用した場合には、曲名やアーティスト名が分からない場合でも、ジャンルや印象に対応したカテゴリに基づいて検索・選曲できるため、利用者の所望の曲を再生することが可能である。また、音響データを分析して自動的にカテゴリに分類するため、利用者があらかじめ手作業で楽曲を分類しておく必要がなく、利用者の操作負担を減らすことができる。

実施例２の楽曲分類装置１の全体構成は実施例１と同じであり、図１に示す構成である。楽曲データ格納部１１と、周波数分析部１２と、カテゴリ分類部１４と、制御部１５は実施例１と同じである。実施例１と異なるのは、持続領域検出部２０と特徴量計算部２１のみであるので、この２つの処理部についてのみ説明する。

持続領域検出部２０が実行する処理フローについて、図１３に示すフローチャートを参照して説明する。持続領域検出部２０は、制御手段１５の指示に基づいて、周波数成分メモリ１２ａに格納されている周波数成分ｃ［ｉ］［ｑ］（ｉ＝０〜Ｍ−１、ｑ＝０〜Ｑ−１）を読み出しながら、複数フレームから構成されるブロック単位（所定時間）に処理を行う。以下では１ブロックのフレーム数をＢｓ、全ブロック数をＢｎとする。

まず、ステップＳ５１０では、ブロック番号を表わす制御変数ｐを０にセットする。次に、ステップＳ５２０では、ブロックｐの音の厚みを表わす変数Ｒｂを０に初期化する。次に、ステップＳ５３０では、バンドを表わす制御変数ｑを持続領域の対象となる最小のバンドＱ１（Ｑ１は０以上Ｑ未満の定数）にセットする。次に、ステップＳ５４０では、フレーム番号を表わす制御変数ｉをｐ×Ｂｓにセットする。次に、ステップＳ５５０では、有効成分の数をカウントするための変数ｒを０にセットし、有効成分の強度を保持する変数ｓを０にする。

次に、ステップＳ５６０では、周波数成分ｃ［ｉ］［ｑ］が有効成分であるか否かチェックする。有効成分である（ＹＥＳ）と判定した場合はステップＳ５７０に進む一方、有効成分でない（ＮＯ）と判定した場合はステップＳ５９０に進む。有効成分を判定する具体的な方法としては、後述する方法のいずれか又は適当な組合せを用いることができる。

次に、ステップＳ５７０では、有効成分をカウントするための変数ｒの値を１増やす。次に、ステップＳ５８０では、変数ｓに周波数成分ｃ［ｉ］［ｑ］を加算する。次に、ステップＳ５９０では、制御変数ｉの値を１増やす。

次に、ステップＳ６００では、制御変数ｉの値が（ｐ＋１）×Ｂｓ未満であるか否かを判定する。そして、（ＹＥＳ）の場合はステップＳ５６０に戻って処理を繰り返す一方、（ＮＯ）の場合はステップＳ６１０に進む。

そして、ステップＳ６１０では、有効成分カウント用の変数ｒが定数Ｖ（ただしＶ≦Ｂｓ）以上であるか否かを判定し、Ｖ以上である（ＹＥＳ）場合はステップＳ６２０に進む一方、Ｖ未満である（ＮＯ）場合はステップＳ６３０に進む。ここでＶ＝Ｂｓとすると、有効な成分がＢｓ個連続して存在する時のみ持続領域と判定することになる。ただし実際には、ある音程の音が一定時間持続して発音されている場合においても、微小な周波数のゆらぎ（ビブラート）があるので、有効な成分が連続するとは限らず、断続的に存在する場合もある。本実施例においては、ＶをＢｓの８０〜９０％程度に設定する。

次に、ステップＳ６２０では、ブロックｐの音の厚みを表わす変数Ｒｂを更新する。次に、ステップＳ６３０では、制御変数ｑの値を１増やす。次に、ステップＳ６４０では、制御変数ｑの値がＱ２以下であるか否かを判定し、Ｑ２以下である（ＹＥＳ）場合はステップＳ５４０に戻り処理を繰り返す一方、Ｑ２より大きい（ＮＯ）場合はステップＳ６５０に進む。ここでＱ２は、持続領域の対象とする最大のバンドを表す定数である。

次に、ステップＳ６５０では、ブロックｐの音の厚みを表す変数Ｒｂを図１４に示すような形式で持続領域メモリ２０ａに格納する。持続領域メモリ２０ａは特徴量生成部１３から参照できるようになっている。

次に、ステップＳ６６０では、制御変数ｐの値を１増やす。次に、ステップＳ６７０では、制御変数ｐがブロックの総数Ｂｎ未満であるか否かを判定する。そして、（ＹＥＳ）の場合はステップＳ５２０に戻って処理を繰り返す一方、（ＮＯ）の場合は持続領域検出部２０の処理を終了する。

このようにして持続領域検出部２０の処理を行った後には、持続領域メモリ２０ａに持続領域の情報が格納されている。

次に、特徴量計算部２１の動作を説明する。特徴量計算部２１は、持続領域メモリ２０ａに格納されているデータを参照して、Ｎｆ個の要素を有する特徴量ベクトルＶｆを算出し、特徴量メモリ２１ａに格納する。本実施例では、Ｎｆ＝５であり、各々の特徴量をＶｆ［０］〜Ｖｆ［４］で表わす。なお、本実施例の特徴量計算部２１では、音響データの分析区間の長さを表わすパラメータとして、フレーム総数Ｍを用いるが、Ｍの代わりに、分析区間の秒数や、その他の時間に比例するパラメータを用いても良い。

まず、特徴量計算部２１は、持続領域メモリ２０ａに格納されているＲｂの平均値を数式２５に従って計算し、Ｖｆ［０］とする。

次に、特徴量計算部２１は、持続領域メモリ２０ａに格納されているＲｂの分散値を数式２６に従って計算し、特徴量Ｖｆ［１］とする。

次に、特徴量計算部２１は、持続領域メモリ２０ａに格納されているＲｂの滑らかさを示す指標を数式２７に従って計算し、特徴量Ｖｆ［２]とする。

これは、隣り合ったブロックのＲｂの差分の絶対値の総和をＢｎ−１で割った値である。楽曲を通して音の厚みがあまり変化しない場合は、Ｖｆ［２]は小さく、音の厚みの変化が激しい場合は、Ｖｆ［２]は大きくなる。また、数式２７の代わりに数式２８を用いてＶｆ［２]を計算しても良い。

次に、特徴量計算部２１は、持続領域メモリ２０ａに格納されているＲｂ[ｉ］（ｉ＝０〜Ｂｎ−１）の中で値が、所定値α以上のブロックの個数Ｂａをカウントし、ＢａをＢｎで割った値をＶｆ［３］とする。Ｖｆ［３］は、楽曲全体を通して音が厚み場合は大きな値となる、楽曲の一部しか音が厚くない場合は、比較的小さな値となる。

次に、特徴量計算部２１は、ｉ＝β〜Ｂｎ−１の全てのＲｂ[ｉ］について、数式２９が成立するブロックの個数Ｂｃをカウントする。ただし、βは１以上の整数である。

そして、ＢｃをＢｎで割った値をＶｆ［４］とする。数式２９が成立するのは、β＋１個のブロックにわたってＲｂ[ｉ］が単調増加している箇所である。このような箇所は、聴感的な「高揚感」とのある程度の相関がある。本実施例では、Ｒｂ[ｉ］の変化パターンとして、単調増加のみを説明したが、これに限定されるわけではなく、例えば、単調減少や、所定値以上の変化量のある増加または減少、などを用いて特徴量を生成することが可能である。

特徴量計算部２１は、以上のように計算したＶｆ［０］〜Ｖｆ［４］を特徴量メモリ２１ａに格納する。なお、特徴量計算部２１で計算する特徴量はこれに限定されず、他の特徴量を計算しても良い。

以上、詳述したように、本実施例によれば、音の厚みに関連度の高い特徴量を実施例１の場合よりも精度良く抽出することができる。

本発明は、特に音楽コンテンツが多数記録される記録メディアを備えた音楽再生装置、パーソナルコンピュータ等の音楽コンテンツ管理ソフトウェア、音楽配信サービスにおける配信サーバ等における楽曲分類、楽曲検索、及び楽曲選曲等において有用である。

本発明の実施例１，２における楽曲分類装置の構成を示すブロック図である。本発明の実施例１，２における楽曲分類装置の楽曲データ格納部のデータ形式を示す図である。本発明の実施例１，２における楽曲分類装置の周波数分析部の処理フローを示すフローチャートである。本発明の実施例１，２における楽曲分類装置の周波数分析部におけるフレームデータを示す図である。本発明の実施例１，２における楽曲分類装置の周波数分析部における周波数バンドを形成するフィルタ特性を示す図である。本発明の実施例１，２における楽曲分類装置の周波数分析部における時間周波数データの特性を示す模式図である。本発明の実施例１における楽曲分類装置の持続領域検出部における処理フローを示すフローチャートである。本発明の実施例１における楽曲分類装置の持続領域検出部における持続領域メモリのデータ格納形式を示す図である。本発明の実施例１，２における楽曲分類装置の持続領域検出部における有効成分判定ステップで用いる周波数成分を説明する図である。本発明の実施例１，２における楽曲分類装置のカテゴリ分類部における決定木を用いた分類処理を行う例を示した図である。本発明の実施例１，２における楽曲分類装置のカテゴリ分類部におけるニューラルネットワークを用いた分類処理を行う例を示した図である。本発明の実施例１，２における楽曲分類装置のカテゴリ分類部における分類結果メモリのデータ格納形式を示す図である。本発明の実施例２における楽曲分類装置の持続領域検出部における処理フローを示すフローチャートである。本発明の実施例２における楽曲分類装置の持続領域検出部における持続領域メモリのデータ格納形式を示す図である。

符号の説明

１楽曲分類装置
１１楽曲データ格納部
１２周波数分析部
１３特徴量生成部
１４カテゴリ分類部
１５制御部
２０持続領域検出部
２１特徴量計算部
１２ａ周波数成分メモリ
１４ａ分類ルールメモリ
１４ｂ分類結果メモリ
２０ａ持続領域メモリ
２１ａ特徴量メモリ

Claims

楽曲に関する音響データから前記楽曲の特徴量を抽出し、この抽出した特徴量に基づき前記楽曲を所定のカテゴリに分類する楽曲分類装置であって、
前記音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する時間周波数データ生成手段と、
前記生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出手段と、
前記検出された持続領域の個数と前記持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算手段と、
前記算出された特徴量に基づき、前記楽曲を前記所定のカテゴリに分類するカテゴリ分類手段と、
を備えた楽曲分類装置。
前記特徴量計算手段は、所定時間毎に前記持続領域関連データを算出すると共に、前記楽曲の全体又は一部分における前記持続領域関連データについての平均、分散、隣接する持続領域関連データの差分値、所定値以上の前記持続領域関連データの個数、及び所定の変化パターンの個数の各値のうち少なくとも一つに基づき、前記特徴量を算出することを特徴とした請求項１に記載の楽曲分類装置。
楽曲に関する音響データから前記楽曲の特徴量を抽出し、この抽出した特徴量に基づき前記楽曲を所定のカテゴリに分類する楽曲分類方法であって、
前記音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する時間周波数データ生成ステップと、
前記生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出ステップと、
前記検出された持続領域の個数と前記持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算ステップと、
前記算出された特徴量に基づき、前記楽曲を前記所定のカテゴリに分類するカテゴリ分類ステップと、
を有した楽曲分類方法。
前記特徴量計算ステップは、所定時間毎に前記持続領域関連データを算出する一方、前記楽曲の全体又は一部分における前記持続領域関連データについての平均、分散、隣接する持続領域関連データの差分値、所定値以上の前記持続領域関連データの個数、及び所定の変化パターンの個数の各値のうち少なくとも一つに基づき、前記特徴量を算出することを特徴とした請求項３に記載の楽曲分類方法。
楽曲に関する音響データから前記楽曲の特徴量を抽出し、この抽出した特徴量に基づき前記楽曲を所定のカテゴリに分類する動作をコンピュータに実行させるための楽曲分類プログラムであって、
前記音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する時間周波数データ生成ステップと、
前記生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出ステップと、
前記検出された持続領域の個数と前記持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算ステップと、
前記算出された特徴量に基づき、前記楽曲を前記所定のカテゴリに分類するカテゴリ分類ステップと、
を実行させる楽曲分類プログラム。
前記特徴量計算ステップは、所定時間毎に前記持続領域関連データを算出する一方、前記楽曲の全体又は一部分における前記持続領域関連データについての平均、分散、隣接する持続領域関連データの差分値、所定値以上の前記持続領域関連データの個数、及び所定の変化パターンの個数の各値のうち少なくとも一つに基づき、前記特徴量を算出する動作を前記コンピュータに実行させることを特徴とした請求項５に記載の楽曲分類プログラム。