JP2007322598A - 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム - Google Patents

楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム Download PDF

Info

Publication number
JP2007322598A
JP2007322598A JP2006151166A JP2006151166A JP2007322598A JP 2007322598 A JP2007322598 A JP 2007322598A JP 2006151166 A JP2006151166 A JP 2006151166A JP 2006151166 A JP2006151166 A JP 2006151166A JP 2007322598 A JP2007322598 A JP 2007322598A
Authority
JP
Japan
Prior art keywords
music
frequency
feature amount
data
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006151166A
Other languages
English (en)
Other versions
JP4665836B2 (ja
Inventor
Ichiro Shishido
一郎 宍戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2006151166A priority Critical patent/JP4665836B2/ja
Priority to US11/785,008 priority patent/US7908135B2/en
Publication of JP2007322598A publication Critical patent/JP2007322598A/ja
Priority to US12/929,713 priority patent/US8442816B2/en
Priority to US12/929,711 priority patent/US8438013B2/en
Application granted granted Critical
Publication of JP4665836B2 publication Critical patent/JP4665836B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

【課題】楽曲のカテゴリ分類に際し、楽曲の雰囲気に大きな影響を与える音程感の強弱と音の厚みを直接反映する特徴量を精度良く抽出して分類に反映させる。
【解決手段】音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する周波数分析部12と、生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出部20と、検出された持続領域の個数と持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算部と特徴量に基づき楽曲をカテゴリに分類するカテゴリ分類部14とを備える構成とした。
【選択図】図1

Description

本発明は、楽曲の分類技術及び検索技術に係り、特に楽曲に関する音響データに基づき楽曲をジャンル等のカテゴリに分類するための楽曲分類装置、楽曲分類方法、及び楽曲分類プログラムに関する。
近年、音声圧縮技術の発展や大容量記憶媒体の普及を背景にして、デジタル化された楽曲データを大容量記憶媒体やコンピュータ等に格納して活用することが広く行われている。そして、格納される楽曲数が増大するに伴い、所望の楽曲を検索する技術への要求が益々高まっている。これにおいて、楽曲の曲名やアーティスト名を指定して楽曲を検索することは広く行われている。さらに、楽曲の音響信号に基づき検索を行う技術も知られている。特に、楽曲の音響信号を分析して特徴量を抽出し、楽曲を印象語に対応させたり、楽曲の曲調を判定したりする技術が、例えば下記特許文献1〜3に開示されている。
特許文献1には、音響信号を分析して、フレーム間のスペクトル変化の度合い、楽曲中で発音される音の発音頻度、楽曲中で発音される音の非周期性の度合い、テンポ等の特徴量を抽出すると共に、これら特徴量を印象因子に線形変換した座標値と主観的な印象に関する要件を印象因子に線形変換した座標値とのユークリッド距離を計算し、この距離が小さい楽曲を検索結果として出力する楽曲検索方法について記載されている。
また、特許文献2には、楽曲データから、楽曲の1分間当たりの和音数、楽曲に使用されている和音の種類数、ビート最大レベル、振幅最大レベル等の特徴量を抽出すると共に、各楽曲の特徴量と、データベースとして保存されている感性語毎の特徴量の平均値と不偏分散値とを用いて感性適合値を計算し、感性適合値の大きい楽曲を検索結果として表示する選曲方法について記載されている。
さらに、特許文献3には、音響信号から曲調情報(和音など)を抽出し、照明装置や空調装置を制御する制御方法について記載されている。
特開2002−278547号公報 特開2005−316943号公報 特開2004−163767号公報
楽曲の印象に影響を与える要因の1つとして、「音程感の強弱(音程を感じる度合い)」がある。例えば、ピアノ等の決まった音程を有する楽器を中心に構成された楽曲は音程感が強いと感じられるが、ドラム等の音程の無い楽器を中心に構成された楽曲は音定感が弱いと感じられる。そして、この音程感は楽曲のジャンルや印象と密接に関係している。
また、音程感とも関係する要因であるが、楽曲の印象に影響を与える別の要因として、「音の厚み」がある。音の厚みは、同時に発音されている音数や、楽器の倍音構成に密接に関係する要因であり、やはり楽曲のジャンルや印象と密接に関係している。例えば、2つの楽曲のメロディ、テンポ、和音等が同じであっても、同時に発音されている音数や楽器の倍音構成の違いよっては、2つの楽曲の印象はかなり異なったものになる。
しかしながら、従来技術においては、音響データから様々な特徴量を抽出してはいるものの、このような音程感の強弱や音の厚みを直接反映する特徴量の抽出はしていなかった。このため、判定できる曲調や印象語の種類が限られ、また判定精度も十分とはいえなかった。
そこで本発明は、楽曲の雰囲気に大きな影響を与える音程感の強弱と音の厚みを直接反映する特徴量を精度良く抽出して楽曲をカテゴリに分類することができる楽曲分類装置、楽曲分類方法、及び楽曲分類プログラムを提供することを目的とする。
本発明は、上記の課題を解決するために、
[1] 楽曲に関する音響データから前記楽曲の特徴量を抽出し、この抽出した特徴量に基づき前記楽曲を所定のカテゴリに分類する楽曲分類装置であって、
前記音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する時間周波数データ生成手段と、
前記生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出手段と、
前記検出された持続領域の個数と前記持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算手段と、
前記算出された特徴量に基づき、前記楽曲を前記所定のカテゴリに分類するカテゴリ分類手段と、
を備えた楽曲分類装置
を提供し、
[2] 前記特徴量計算手段は、所定時間毎に前記持続領域関連データを算出すると共に、前記楽曲の全体又は一部分における前記持続領域関連データについての平均、分散、隣接する持続領域関連データの差分値、所定値以上の前記持続領域関連データの個数、及び所定の変化パターンの個数の各値のうち少なくとも一つに基づき、前記特徴量を算出することを特徴とした上記[1]に記載の楽曲分類装置
を提供し、
[3] 楽曲に関する音響データから前記楽曲の特徴量を抽出し、この抽出した特徴量に基づき前記楽曲を所定のカテゴリに分類する楽曲分類方法であって、
前記音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する時間周波数データ生成ステップと、
前記生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出ステップと、
前記検出された持続領域の個数と前記持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算ステップと、
前記算出された特徴量に基づき、前記楽曲を前記所定のカテゴリに分類するカテゴリ分類ステップと、
を有した楽曲分類方法
を提供し、
[4] 前記特徴量計算ステップは、所定時間毎に前記持続領域関連データを算出する一方、前記楽曲の全体又は一部分における前記持続領域関連データについての平均、分散、隣接する持続領域関連データの差分値、所定値以上の前記持続領域関連データの個数、及び所定の変化パターンの個数の各値のうち少なくとも一つに基づき、前記特徴量を算出することを特徴とした上記[3]に記載の楽曲分類方法
を提供し、
[5] 楽曲に関する音響データから前記楽曲の特徴量を抽出し、この抽出した特徴量に基づき前記楽曲を所定のカテゴリに分類する動作をコンピュータに実行させるための楽曲分類プログラムであって、
前記音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する時間周波数データ生成ステップと、
前記生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出ステップと、
前記検出された持続領域の個数と前記持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算ステップと、
前記算出された特徴量に基づき、前記楽曲を前記所定のカテゴリに分類するカテゴリ分類ステップと、
を実行させる楽曲分類プログラム
を提供し、
[6] 前記特徴量計算ステップは、所定時間毎に前記持続領域関連データを算出する一方、前記楽曲の全体又は一部分における前記持続領域関連データについての平均、分散、隣接する持続領域関連データの差分値、所定値以上の前記持続領域関連データの個数、及び所定の変化パターンの個数の各値のうち少なくとも一つに基づき、前記特徴量を算出する動作を前記コンピュータに実行させることを特徴とした上記[5]に記載の楽曲分類プログラム
を提供するものである。
本発明によれば、音楽に関する音響データを分析して、楽曲のジャンルや印象と密接に関連する音程感の強弱や音の厚みを直接反映する特徴量を抽出することができるので、楽曲を精度良くカテゴリに分類することができる。
また、本発明によれば、従来は分類が難しかった音程感の強弱や音の厚みに関する観点で楽曲を分類することが可能になるため、カテゴリの種類をより詳細にして増やすことができる。
以下、本発明を実施するための最良の形態について、好ましい実施例を示して詳細に説明する。
図1に、本発明の実施例である楽曲分類装置の概略構成図を示す。同図において、楽曲分類装置1は、楽曲データ格納部11と、周波数分析部12(時間周波数データ生成部)と、特徴量生成部13と、カテゴリ分類部14と、制御部15とを備えている。そして、特徴量生成部13は、持続領域検出部20と、特徴量計算部21とを備えている。
上記構成を備えた楽曲分類装置1において、楽曲データ格納部11は、楽曲を識別する識別子とその楽曲に関する音響データとを関連付けて格納する。周波数分析部12は、楽曲データ格納部11から読み出された音響データを複数の周波数バンドに分割して、所定時間毎の各バンドの成分強度を要素とする時間周波数データを生成し、そのデータを周波数成分メモリ12aに格納する。特徴量生成部13のうち持続領域検出部20は、周波数成分メモリ12aに格納された時間周波数データを参照し、所定の時間(基準時間長)以上一定の周波数成分が持続している持続領域を検出して、この持続領域の情報を持続領域メモリ20aに格納する。特徴量生成部13のうち特徴量計算部21は、持続領域メモリ20aを参照して楽曲の音楽的特徴を表わす特徴量を生成し、特徴量メモリ21aに格納する。カテゴリ分類部14は、特徴量メモリ21aを参照しながら、分類ルールメモリ14aに予め格納された分類ルールに従って楽曲をカテゴリに分類し、その分類結果を分類結果メモリ14bに格納する。制御部15は、不図示のメモリに格納した楽曲分類プログラムを不図示のCPUに実行させて、楽曲分類装置1の全体や上記各ブロックを制御する。
次に、本実施例における楽曲分類装置1の動作について説明する。まず、楽曲データ格納部11には、図2に示すように、楽曲を識別するための識別子とその楽曲に関する音響データとが関連付けられて格納されている。そして、楽曲データ格納部11は、制御部15からの指示に基づき、格納されている音響データを読み出してデコード処理やフォーマット変換処理を行った後、周波数分析部12に供給する。具体的には、例えばサンプリング周波数FsのPCMデータ形式によるモノラルデータを周波数分析部12に供給する。
なお、以下の説明においては、楽曲データ格納部11から周波数分析部12に供給される音響データをx[m](m=0〜L−1、Lは音響データの総数)、又は単に音響データと記載する。
次に、周波数分析部12は、制御部15の指示に基づき、楽曲データ格納部11から供給される音響データの周波数分析処理を実行する。具体的には、周波数分析部12は、所定の時間周期毎に各バンドの成分強度を計算し、成分強度を行列要素とする時間周波数データを生成する。本実施例においては、周波数分析の方法として公知のSTFT(Short−time Fourier Transform)を用いるが、これ以外にもウェーブレット変換やフィルターバンク等の方法を用いてもよい。
ここで、周波数分析部12が実行する処理フローを図3のフローチャートを参照して説明する。本実施例においては、周波数分析部12は、音響データを固定長のフレームに分割し、フレーム単位での処理を実行する。なお、以下の説明においては、フレーム長をN、フレームシフト長をSとする。よって、フレームシフト長Sが時間周期に相当する。
フレームの総数をMとすると、フレーム総数Mは、数式1に従って求まる。
Figure 2007322598
上記のfloor関数は、小数点以下を切り捨てた整数を返す関数である。なお、本実施例においては、L≧Nであるものとする。図3のフローチャートにおいて、まず、ステップS110では、フレーム番号を示す制御変数iを0にセットする。次に、ステップS120では、i番目のフレームを作成する。すなわち、図4に模式的に示したように、音響データの先頭からi×S個オフセットされた位置からN個のデータを切り出し、これに数式2に示すように窓関数wを乗じて、i番目のフレームデータy[i][n](n=0〜N−1)を計算する。
Figure 2007322598
窓関数wとしては、例えば数式3に示すハミング窓を用いることができるが、この他にも、方形窓、ハニング窓、ブラックマン窓などを用いてもよい。
Figure 2007322598
次に、ステップS130では、数式4に従ってi番目のフレームの離散フーリエ変換(DFT)を計算する。
Figure 2007322598
次に、ステップS140では、ステップS130で得られた複素系列a[i][k](k=0〜N−1)の実数部Re{a[i][k]}と虚数部Im{a[i][k]}を用いて、数式5又は数式6に従って、i番目のフレームのスペクトル系列b[i][k](k=0〜N/2−1)を計算する。数式5を用いる場合は、パワースペクトルを計算することになり、数式6を用いる場合は、振幅スペクトルを計算することになる。
Figure 2007322598
Figure 2007322598
次に、ステップS150では、周波数分析部12は、スペクトル系列bからフレームi、バンドqの周波数成分c[i][q](q=0〜Q−1、Qはバンド数)を計算する。ステップS150における計算方法は後述する。次に、ステップS160において、フレーム番号を示す制御変数iの値を1増やす。次に、ステップS170では、フレーム番号を示す制御変数iの値がフレーム総数Mより小さいか否かチェックする。そして、制御変数iがフレーム総数Mより小さい(YES)場合は、ステップS120に戻り処理を繰り返す。一方、制御変数iがフレーム総数M以上である(NO)場合は、すべてのフレームについて処理を行ったことになるので処理を終了する。
ここで、ステップS150の処理の詳細を説明する。周波数成分の計算方法としては、以下の2種類を用いることができる。
周波数成分を計算する第1の方法は、数式7に従ってスペクトル系列b[i][k]の一部、または全部をc[i][q]に対応させる方法である。
Figure 2007322598
ここで、λは0以上の所定の整数であり、バンドの最低周波数を決めるパラメータである。また、バンド数Qは(N/2−λ)以下である所定の値に設定する。この第1の方法によれば、各バンドの中心周波数の間隔が等間隔になっているため、計算量が少なく簡便である。
周波数成分を計算する第2の方法は、数式8に従って音楽の音階に対応した周波数成分を求める方法である。
Figure 2007322598
この方法では、音楽で用いられている音程の周波数に対応した周波数成分が得られるので、より高い精度で楽曲を分類することが可能になる。ここで、z[q][k](q=0〜Q−1、k=0〜N/2−1)は、図5に示すような帯域特性を有するフィルタ群であり、各フィルタの中心周波数は、音楽で用いられる各音程の周波数に対応している。通常は、数式9を用いて各フィルタの中心周波数Fz[q]を平均律音階に対応させればよい。なお、Fbは基準音程の周波数である。
Figure 2007322598
またフィルタの帯域幅は、隣合った音程の周波数を十分減衰させるように設定する。場合によっては、平均律ではなく、純正律などの他の音階に対応させてもよい。図5に示した例では、平均律音階のC1音程をバンド0に対応させて、以降半音ごとに1つのバンドに対応させて、最後にB6音程をバンドQ−1に対応させている。図5(a)に示すz[0][k]はC1に対応した周波数を通過させるフィルタであり、図5(b)に示すz[1][k]はそれより半音高いC#1に対応した周波数を通過させるフィルタを示している。
スペクトル系列b[i][k]は周波数軸上に等間隔に存在するのに対して、平均律音階は高音部になるほど隣り合った半音間の周波数間隔が広がるので、フィルタ群z[q][k]の中心周波数もそれに対応して、高音部ほど隣り合った中心周波数の間隔が広くなっている。例えば、図5(a)に示すz[0][k]と図5(b)に示すz[1][k]の中心周波数の差よりも図5(c)に示すz[Q−2][k]と図5(d)に示すz[Q−1][k]の中心周波数の差の方が大きい。
そして、各フィルタの帯域幅も同様に、高音部ほど広くなっている。例えば、図5(d)に示すZ[Q−1][k]の帯域幅は、図5(a)に示すz[0][k]の帯域幅よりも広い。
また、図5に示した例では平均律の各半音に一致したバンドであるが、平均律音階の半音を更に細かく分割するような周波数バンドを形成して周波数成分を算出してもよい。さらに、上述した第1及び第2の方法を組み合わせて周波数バンドを形成し、周波数成分を算出してもよい。例えば、周波数バンドを低域、中域、高域の3グループに分け、低域グループと高域グループには第1の方法を用い、中域グループに第2の方法を用いるようにしてもよい。
以上の処理の後、周波数成分メモリ12aには周波数成分c[i][q](フレームi=0〜M−1、バンドq=0〜Q−1)が格納され、持続領域検出部20が利用できるようになる。
図6は、横軸にフレーム(時間)、縦軸にバンド(周波数)を取って、周波数成分cを模式的に示した図である。図中の黒い部分は、値の大きな周波数成分である。この中で、同図(a)は、楽曲の中でドラムのみが演奏されている部分を模式的に示したものである。この例では、ドラムが2回発音されており、広い帯域の周波数成分が短時間存在する領域が2つある。この同図(a)の部分においては、音程感は弱い。
図6(b)は、楽曲の中で少数の有音程楽器が演奏されている部分を模式的に示したものである。発音されている音程の基音と倍音に相当する周波数成分が存在するため、水平方向の線分が観測される。同図(b)において、音程感は、同図(a)のものよりも強い。
図6(c)は、楽曲の中で多数の有音程楽器が演奏されている部分を示したものである。発音されている音程の基音と倍音に相当する周波数成分が多数存在するため、水平方向の線分が多数観測される。同図(c)では音程感は最も強い。また、同図(b)に比べて音の厚みが強く感じられる。
本実施例においては、図6(c)のような箇所で大きな値を取り、図6(a)のような箇所で小さな値を取る、聴感上の音程感及び音の厚みに密接に関係する特徴量を生成する。
次に、持続領域検出部20が実行する処理フローについて、図7に示すフローチャートを参照して説明する。持続領域検出部20は、制御手段15の指示に基づいて、周波数成分メモリ12aに格納されている周波数成分c[i][q](i=0〜M−1、q=0〜Q−1)を読み出しながら、複数フレームから構成されるブロック単位に処理を行う。以下の説明においては、1ブロックのフレーム数をBs、ブロック数をBnとする。楽曲全体を対象に持続領域を検出する場合は、ブロック数Bnは数式10により算出される。
Figure 2007322598
なお、楽曲の全体を対象とするのではなく、楽曲の一部の区間のみを持続領域検出の対象としてもよい。さらには、楽曲の複数の区間を対象にしてもよい。本実施例においては、楽曲全体を対象にした場合について説明する。まず、ステップS210では、ブロック番号を表わす制御変数pを0にセットする。次に、ステップS220では、バンドを表わす制御変数qを持続領域の対象となる最小のバンドQ1(Q1は0以上Q未満の定数)にセットする。次に、ステップS230では、フレーム番号を表わす制御変数iをp×Bsにセットする。次に、ステップS240では、有効成分の数をカウントするための変数rを0にセットし、有効成分の強度を保持する変数sを0にする。
次に、ステップS250では、周波数成分c[i][q]が有効成分であるか否かをチェックする。周波数成分c[i][q]が有効成分である(YES)と判定された場合は、ステップS260に進み、有効成分でない(NO)と判定された場合は、ステップS280に進む。有効成分を判定する具体的な方法としては、後述する方法のいずれか又は適当な組合せを用いることができる。
次に、ステップS260では、有効成分をカウントするための変数rの値を1増やす。次に、ステップS270では、変数sに周波数成分c[i][q]を加算する。次に、ステップS280では、制御変数iの値を1増やす。
次に、ステップS290では、制御変数iの値が(p+1)×Bs未満であるか否かを判定する。そして、(YES)の場合はステップS250に戻って処理を繰り返一方、(NO)の場合はステップS300に進む。ステップS300では、有効成分カウント用の変数rが定数V(ただしV≦Bs)以上であるか否かを判定し、V以上である(YES)場合ステップS310に進み、V未満である(NO)場合はステップS320に進む。
ここでV=Bsとすると、有効な成分がBs個連続して存在する時のみ持続領域と判定することになる。但し、実際には、ある音程の音が一定時間持続して発音されている場合においても、微小な周波数のゆらぎ(ビブラート)があるので、有効な成分が連続するとは限らず、断続的に存在する場合もある。したがって、本実施例においては、VをBsの80〜90%程度に設定する。
ステップS310では、ブロック番号p、バンド番号q、持続領域の周波数成分の総和sを持続領域検出部20の持続領域メモリ20aに図8に示すような形式で格納する。この持続領域メモリ20aは、特徴量計算部21から参照できるようになっている。
次に、ステップS320では、制御変数qの値を1増やす。次に、ステップS330では、制御変数qの値がQ2以下であるか否かを判定し、Q2以下である(YES)時はステップS230に戻り処理を繰り返す一方、Q2より大きい(NO)場合はステップS340に進む。ここでQ2は、持続領域の対象とする最大のバンド番号を表す定数である(ただし、Q1≦Q2≦Q)。
次に、ステップS340では、制御変数pの値を1増やす。次に、ステップS350では、制御変数pがブロックの総数Bn未満であるか否か判定する。そして、(YES)の場合はステップS220に戻って処理を繰り返す一方、(NO)の場合は持続領域検出部20の処理を終了する。
このようにして持続領域検出部20の処理を行った後には、持続領域メモリ20aに持続領域の情報が格納される。
ここで、ステップS250における有効成分の判定方法について詳細に説明する。有効成分を判定する第1の方法は、数式11を用いて、c[i][q]が閾値α[q]以上である場合に有効な成分と判定する方法である。
Figure 2007322598
ここで、閾値α[q]は、以下の方法のいずれかで決めることができる。すなわち、閾値α[q]を決める第1の方法は、あらかじめ設定した定数にする方法である。この方法は演算量が最も少なく簡便である。
閾値α[q]を決める第2の方法は、数式12で示すように、全フレーム(M個)のバンド毎の周波数成分の平均値を用いる方法である。ここで、βはあらかじめ設定されている定数である。
Figure 2007322598
有効成分を判定する第2の方法は、数式13を用いる方法である。
Figure 2007322598
ここで、Xfは、(G2−G1+1)個の引数を取る関数である。G1、G2は、0<G1≦G2を満たす整数である。周波数分析部12において、音階の各音程(半音)に各周波数バンドを一致させた場合は、G1=1、G2=1とすれば良い。また、∩はAND条件である。すなわち、フレームiの周波数バンドq(中心バンド)より大きな周波数に相当するqの近傍のバンド((q+G1)〜(q+G2))を関数Xfに代入した時の出力よりc[i][q]が大きく、かつフレームiの周波数バンドq(中心バンド)より小さな周波数に相当するqの近傍のバンド((q−G1)〜(q−G2))を関数Xfに代入した時の出力よりc[i][q]が大きい場合に、有効成分と判定する。中心バンドが、上側の近傍バンド及び下側の近傍バンドに比べて比較的大きな値を有している場合に有効成分となる。ただし、中心バンドは、近傍バンドの全ての周波数成分より大きい必要は必ずしもない。
ここで、関数Xfには種々の関数を用いることが可能である。例えば、数式14に示すように、引数の中の最大値を出力するmax関数を用いることができる。
Figure 2007322598
また、引数の最小値を出力するmin関数や、引数の平均値を出力するaverage関数や、引数の中央値を出力するmedian関数などを用いてもよい。この方法は、一般に有音程楽器が発音されている時には、その音程のバンドの成分が隣接したバンドの成分よりも強いため有効成分になり易く、打楽器等が発音されている時には隣接したバンドの成分との差が小さいので有効成分になり難いといった性質を利用している。
有効成分を判定する第3の方法は、数式15を用いる方法である。
Figure 2007322598
ここで、Xgは、Ng個の引数を取る関数である。Ngは数式16に定まる整数である。
Figure 2007322598
G1、G2は、0<G1≦G2を満たす整数であり、Hは0以上の整数である。すなわち、図9に○印で示すようなc[i][q]の近傍の周波数成分を関数Xgの引数とする。フレームiだけでなく、その前後のフレームのデータも用いている。周波数分析部12において、音階の各音程(半音)に各周波数バンドを一致させた場合は、G1=1、G2=1とすれば良い。中心の周波数成分c[i][q]が、図9に○印で示す近傍の周波数成分に比べて比較的大きな値を有している場合に有効成分となる。ただし、中心の周波数成分は、近傍の全ての周波数成分より大きい必要は必ずしもない。
ここで、関数Xgには種々の関数を用いることができる。例えば、引数の中の最大値を出力するmax関数を用いることができる。また、引数の最小値を出力するmin関数や、引数の平均値を出力するaverage関数や、引数の中央値を出力するmedian関数などを用いてもよい。この方法は、第2の方法と同様に、一般に有音程楽器が発音されている時には、その音程のバンドの成分が隣接したバンドの成分よりも強いため有効成分になり易く、打楽器等が発音されている時には隣接したバンドの成分との差が小さいので有効成分になり難いといった性質を利用している。
有効成分を判定する第4の方法は、数式17を用いる方法である。
Figure 2007322598
ここで、Xhは(G4−G3+1)個の引数を取る関数である。G3、G4は、0<G3≦G4を満たす整数である。周波数分析部12において、音階の各音程(半音)に各周波数バンドを一致させた場合は、G3=1、G4=1とすれば良い。∩はAND条件である。また、関数h(d,q)は、バンドqのd倍の周波数(d次倍音)に相当するバンド番号を返す関数である。d=2〜D(Dは2以上の整数)の全てのdについて数式17が成立する場合に、有効成分とする。すなわち、フレームiの周波数バンドq(中心バンド)のd次倍音の周波数成分c[i][h(d,q)]が、d次倍音の上側の近傍バンド(h(d,q)+G3)〜(h(d,q)+G4))を関数Xhに代入した時の出力より大きく、かつフレームiの周波数バンドq(中心バンド)のd次倍音の周波数成分c[i][h(d,q)]が、d次倍音の下側の近傍バンド(h(d,q)−G3)〜(h(d,q)−G4))を関数Xhに代入した時の出力より大きいという条件が、d=2〜D(Dは2以上の整数)の全てのdについて成立する場合有効成分と判定する。
ここで、関数Xhには種々の関数を用いることができる。例えば、引数の中の最大値を出力するmax関数を用いることができる。また、引数の最小値を出力するmin関数や、引数の平均値を出力するaverage関数や、引数の中央値を出力するmedian関数などを用いてもよい。この方法は、一般に有音程楽器が発音されている時には、その音程の倍音成分が、倍音成分の近傍の成分よりも強いため有効成分になり易く、打楽器等が発音されている時には、倍音成分があまりはっきりしないため有効成分になり難いといった性質を利用している。
有効成分を判定する第5の方法は、数式18を用いる方法である。
Figure 2007322598
ここで、Xiは、Ni個の引数を取る関数である。Niは数式19に定まる整数である。
Figure 2007322598
G3、G4は、0<G3≦G4を満たす整数であり、Hは0以上の整数である。周波数分析部12において、音階の各音程(半音)に各周波数バンドを一致させた場合は、G3=1、G4=1とすれば良い。数式18では、フレームiだけでなく、その前後のフレームのデータも用いている。また、関数h(d,q)は、バンドqのd倍の周波数(d次倍音)に相当するバンド番号を返す関数である。d=2〜D(Dは2以上の整数)の全てのdについて数式18が成立する場合に、有効成分とする。
ここで、関数Xiには種々の関数を用いることができる。例えば、引数の中の最大値を出力するmax関数を用いることができる。また、引数の最小値を出力するmin関数や、引数の平均値を出力するaverage関数や、引数の中央値を出力するmedian関数などを用いてもよい。この方法は第5の方法と同様に、次のような性質を利用している。すなわち、一般に有音程楽器が発音されている時には、倍音構造が存在するため、基音の整数倍の周波数を有する倍音成分が、その倍音の近傍成分よりも強いので、数式18が成立し易い。一方、打楽器等が発音されている時には、明確な倍音構造は存在しないため、倍音成分とその倍音の近傍成分との違いが出難く、数式18が成立し難い。
さらには、上述した第1〜第5の方法を適宜組み合わせて有効成分を判定してもよい。例えば、数式20に示すように、第1、第2、第4の方法をAND条件で組み合わせ、第1の条件と、第2の条件と、第4の条件が全て成立する場合に、c[i][q]を有効成分と判定してもよい。以上が、本実施例における持続領域検出部20の説明である。
Figure 2007322598
次に、特徴量計算部21の動作を説明する。特徴量計算部21は、持続領域メモリ20aに格納されているデータを参照しながら、データ個数や周波数成分の大きさである持続領域関連データを用いてNf個の要素を有する特徴量ベクトルVfを算出し、特徴量メモリ21aに格納する。本実施例では、Nf=3であり、各々の特徴量をVf[0]〜Vf[2]で表わす。なお、本実施例の特徴量計算部21では、音響データの分析区間の長さを表わすパラメータとして、フレーム総数Mを用いるが、Mの代わりに、分析区間の秒数や、その他の時間に比例するパラメータを用いてもよい。
まず、特徴量計算部21は、持続領域メモリ20aに格納されているデータ個数をカウントし、その個数をフレーム総数Mで割った値を特徴量Vf[0]とする。持続領域メモリ20aに格納されているデータ個数をNsとすると、特徴量Vf[0]は数式21で求まる。
Figure 2007322598
特徴量Vf[0]は、音程感の強い楽曲では大きく、音程感の弱い楽曲では小さい値となる性質を有している。また、音の厚みも大きいほどVf[0]も多くなる傾向を示す。
次に、特徴量計算部21は、持続領域メモリ20aに格納されている周波数成分の総和sの加算値をMで割った値を数式22に従って計算し、特徴量Vf[1]とする。
Figure 2007322598
特徴量Vf[1]も、音程感の強い楽曲では大きく、音程感の弱い楽曲では小さい値となる性質を有している。また、音の厚みも大きいほどVf[0]も多くなる傾向を示す。
次に、特徴量計算部21は、持続領域メモリ20aに格納されているユニークなブロック番号の種類をカウントし、これをNuとする。そして数式23に従って、特徴量Vf[2]を計算する。
Figure 2007322598
ここでaは0<a<1を満たす定数である。特徴量Vf[2]も、音程感の強い楽曲では大きく、音程感の弱い楽曲では小さい値となる性質を有している。また、Vf[0]及びVf[1]よりも、より直接的に音の厚みに関係する。
特徴量計算部21は、以上のように計算したVf[0]〜Vf[2]を特徴量メモリ21aに格納する。なお、特徴量計算部21で計算する特徴量はこれに限定されず、他の特徴量を計算してもよい。例えば、持続領域メモリ20aに格納されている周波数成分の総和sの分散を用いて特徴量を計算してもよい。
次に、カテゴリ分類部14の動作を説明する。カテゴリ分類部14は、特徴量メモリ21aを参照しながら、分類ルールメモリ14aに格納されている分類ルールに従って、楽曲をカテゴリに分類し、図12に示すような形式で分類結果メモリ14bに格納する。図12では、楽曲を識別する識別子とカテゴリとを関連付けて格納している。このカテゴリとしては種々のものを用いることができるが、例えば、「ロック」、「クラシック」、「ジャズ」といった楽曲のジャンルをカテゴリにすることができる。また、「静か」、「力強い」、「ノリの良い」といった楽曲の印象を表わす印象語や感性語をカテゴリにしてもよい。以下においては、カテゴリの総数をNcとする。
特徴量をカテゴリに対応させる分類ルールとしては、公知の決定木、ベイズルール、ニューラルネットワーク等による方法を適用することができる。分類ルールに決定木を用いる場合は、図10に示すような、特徴量ベクトルVfに関する条件とそれに該当する場合のカテゴリをツリー構造で表わしたものを分類ルールメモリ14aに格納しておく。このような分類ルールは、学習用の楽曲を用意し、その特徴量Vfと正解カテゴリのデータセットを用意して、公知のC4.5などの手法を適用することで得ることができる。
次に、分類ルールにベイズルールを用いる場合を説明する。分類ルールメモリ14aには、数式24のパラメータP(C[k])及びP(Vf|C[k])(k=0〜Nc−1)が格納されており、カテゴリ分類部14はこれに従って分類動作を行う。
Figure 2007322598
ここで、P(C[k]|Vf)は、特徴量ベクトルVfである場合にカテゴリC[k](k=0〜Nc−1)となる条件付き確率であり、P(Vf|C[k])は、カテゴリC[k]である場合に特徴量ベクトルVfとなる条件付き確率であり、P(C[k])は、カテゴリC[k]の事前確率である。すなわち、全てのカテゴリについて、P(C[k])とP(Vf|C[k])の積を計算し、この値が最大となるカテゴリjを分類結果メモリ14bに格納する。パラメータP(C[k])及びP(Vf|C[k])は、学習用の楽曲を用意し、その特徴量Vfと正解カテゴリのデータセットを用意して、あらかじめ算出しておく。
次に、分類ルールにニューラルネットワークを用いる場合を説明する。ニューラルネットワークによる構成例としては種々のものを用いることができるが、図11に示すような3層ニューラルネットワークを用いれば良い。3層ニューラルネットワークは、Nf個の特徴量に対応した入力層と、Nc個のカテゴリに対応した出力層と、中間層とを有している。そして、特徴量ベクトルVfを入力層に入力した際に最大値をとる出力層に対応したカテゴリを分類結果メモリ14bに格納する。
このように本実施例の楽曲分類装置によれば、有音程楽器が発音されていて一定の周波数が安定的に持続している場所と、打楽器等が発音されていて一定の周波数が安定的に持続しない場所とを識別し、有音程楽器の時間的に安定した周波数成分の個数を計算して音の厚みを表す特徴量を生成するので、楽曲に係わる音響データから音程感及び音の厚みを直接反映した特徴量を精度良く生成することができる。このため、楽曲をカテゴリに精度良く分類できる。
また、音響データを分析して自動的にカテゴリに分類するため、人手を介して分類する必要がなく、楽曲分類に係わる工数が削減できる。
さらに、本実施例を音楽再生装置等に適用した場合には、曲名やアーティスト名が分からない場合でも、ジャンルや印象に対応したカテゴリに基づいて検索・選曲できるため、利用者の所望の曲を再生することが可能である。また、音響データを分析して自動的にカテゴリに分類するため、利用者があらかじめ手作業で楽曲を分類しておく必要がなく、利用者の操作負担を減らすことができる。
実施例2の楽曲分類装置1の全体構成は実施例1と同じであり、図1に示す構成である。楽曲データ格納部11と、周波数分析部12と、カテゴリ分類部14と、制御部15は実施例1と同じである。実施例1と異なるのは、持続領域検出部20と特徴量計算部21のみであるので、この2つの処理部についてのみ説明する。
持続領域検出部20が実行する処理フローについて、図13に示すフローチャートを参照して説明する。持続領域検出部20は、制御手段15の指示に基づいて、周波数成分メモリ12aに格納されている周波数成分c[i][q](i=0〜M−1、q=0〜Q−1)を読み出しながら、複数フレームから構成されるブロック単位(所定時間)に処理を行う。以下では1ブロックのフレーム数をBs、全ブロック数をBnとする。
まず、ステップS510では、ブロック番号を表わす制御変数pを0にセットする。次に、ステップS520では、ブロックpの音の厚みを表わす変数Rbを0に初期化する。次に、ステップS530では、バンドを表わす制御変数qを持続領域の対象となる最小のバンドQ1(Q1は0以上Q未満の定数)にセットする。次に、ステップS540では、フレーム番号を表わす制御変数iをp×Bsにセットする。次に、ステップS550では、有効成分の数をカウントするための変数rを0にセットし、有効成分の強度を保持する変数sを0にする。
次に、ステップS560では、周波数成分c[i][q]が有効成分であるか否かチェックする。有効成分である(YES)と判定した場合はステップS570に進む一方、有効成分でない(NO)と判定した場合はステップS590に進む。有効成分を判定する具体的な方法としては、後述する方法のいずれか又は適当な組合せを用いることができる。
次に、ステップS570では、有効成分をカウントするための変数rの値を1増やす。次に、ステップS580では、変数sに周波数成分c[i][q]を加算する。次に、ステップS590では、制御変数iの値を1増やす。
次に、ステップS600では、制御変数iの値が(p+1)×Bs未満であるか否かを判定する。そして、(YES)の場合はステップS560に戻って処理を繰り返す一方、(NO)の場合はステップS610に進む。
そして、ステップS610では、有効成分カウント用の変数rが定数V(ただしV≦Bs)以上であるか否かを判定し、V以上である(YES)場合はステップS620に進む一方、V未満である(NO)場合はステップS630に進む。ここでV=Bsとすると、有効な成分がBs個連続して存在する時のみ持続領域と判定することになる。ただし実際には、ある音程の音が一定時間持続して発音されている場合においても、微小な周波数のゆらぎ(ビブラート)があるので、有効な成分が連続するとは限らず、断続的に存在する場合もある。本実施例においては、VをBsの80〜90%程度に設定する。
次に、ステップS620では、ブロックpの音の厚みを表わす変数Rbを更新する。次に、ステップS630では、制御変数qの値を1増やす。次に、ステップS640では、制御変数qの値がQ2以下であるか否かを判定し、Q2以下である(YES)場合はステップS540に戻り処理を繰り返す一方、Q2より大きい(NO)場合はステップS650に進む。ここでQ2は、持続領域の対象とする最大のバンドを表す定数である。
次に、ステップS650では、ブロックpの音の厚みを表す変数Rbを図14に示すような形式で持続領域メモリ20aに格納する。持続領域メモリ20aは特徴量生成部13から参照できるようになっている。
次に、ステップS660では、制御変数pの値を1増やす。次に、ステップS670では、制御変数pがブロックの総数Bn未満であるか否かを判定する。そして、(YES)の場合はステップS520に戻って処理を繰り返す一方、(NO)の場合は持続領域検出部20の処理を終了する。
このようにして持続領域検出部20の処理を行った後には、持続領域メモリ20aに持続領域の情報が格納されている。
次に、特徴量計算部21の動作を説明する。特徴量計算部21は、持続領域メモリ20aに格納されているデータを参照して、Nf個の要素を有する特徴量ベクトルVfを算出し、特徴量メモリ21aに格納する。本実施例では、Nf=5であり、各々の特徴量をVf[0]〜Vf[4]で表わす。なお、本実施例の特徴量計算部21では、音響データの分析区間の長さを表わすパラメータとして、フレーム総数Mを用いるが、Mの代わりに、分析区間の秒数や、その他の時間に比例するパラメータを用いても良い。
まず、特徴量計算部21は、持続領域メモリ20aに格納されているRbの平均値を数式25に従って計算し、Vf[0]とする。
Figure 2007322598
次に、特徴量計算部21は、持続領域メモリ20aに格納されているRbの分散値を数式26に従って計算し、特徴量Vf[1]とする。
Figure 2007322598
次に、特徴量計算部21は、持続領域メモリ20aに格納されているRbの滑らかさを示す指標を数式27に従って計算し、特徴量Vf[2]とする。
Figure 2007322598
これは、隣り合ったブロックのRbの差分の絶対値の総和をBn−1で割った値である。楽曲を通して音の厚みがあまり変化しない場合は、Vf[2]は小さく、音の厚みの変化が激しい場合は、Vf[2]は大きくなる。また、数式27の代わりに数式28を用いてVf[2]を計算しても良い。
Figure 2007322598
次に、特徴量計算部21は、持続領域メモリ20aに格納されているRb[i](i=0〜Bn−1)の中で値が、所定値α以上のブロックの個数Baをカウントし、BaをBnで割った値をVf[3]とする。Vf[3]は、楽曲全体を通して音が厚み場合は大きな値となる、楽曲の一部しか音が厚くない場合は、比較的小さな値となる。
次に、特徴量計算部21は、i=β〜Bn−1の全てのRb[i]について、数式29が成立するブロックの個数Bcをカウントする。ただし、βは1以上の整数である。
Figure 2007322598
そして、BcをBnで割った値をVf[4]とする。数式29が成立するのは、β+1個のブロックにわたってRb[i]が単調増加している箇所である。このような箇所は、聴感的な「高揚感」とのある程度の相関がある。本実施例では、Rb[i]の変化パターンとして、単調増加のみを説明したが、これに限定されるわけではなく、例えば、単調減少や、所定値以上の変化量のある増加または減少、などを用いて特徴量を生成することが可能である。
特徴量計算部21は、以上のように計算したVf[0]〜Vf[4]を特徴量メモリ21aに格納する。なお、特徴量計算部21で計算する特徴量はこれに限定されず、他の特徴量を計算しても良い。
以上、詳述したように、本実施例によれば、音の厚みに関連度の高い特徴量を実施例1の場合よりも精度良く抽出することができる。
本発明は、特に音楽コンテンツが多数記録される記録メディアを備えた音楽再生装置、パーソナルコンピュータ等の音楽コンテンツ管理ソフトウェア、音楽配信サービスにおける配信サーバ等における楽曲分類、楽曲検索、及び楽曲選曲等において有用である。
本発明の実施例1,2における楽曲分類装置の構成を示すブロック図である。 本発明の実施例1,2における楽曲分類装置の楽曲データ格納部のデータ形式を示す図である。 本発明の実施例1,2における楽曲分類装置の周波数分析部の処理フローを示すフローチャートである。 本発明の実施例1,2における楽曲分類装置の周波数分析部におけるフレームデータを示す図である。 本発明の実施例1,2における楽曲分類装置の周波数分析部における周波数バンドを形成するフィルタ特性を示す図である。 本発明の実施例1,2における楽曲分類装置の周波数分析部における時間周波数データの特性を示す模式図である。 本発明の実施例1における楽曲分類装置の持続領域検出部における処理フローを示すフローチャートである。 本発明の実施例1における楽曲分類装置の持続領域検出部における持続領域メモリのデータ格納形式を示す図である。 本発明の実施例1,2における楽曲分類装置の持続領域検出部における有効成分判定ステップで用いる周波数成分を説明する図である。 本発明の実施例1,2における楽曲分類装置のカテゴリ分類部における決定木を用いた分類処理を行う例を示した図である。 本発明の実施例1,2における楽曲分類装置のカテゴリ分類部におけるニューラルネットワークを用いた分類処理を行う例を示した図である。 本発明の実施例1,2における楽曲分類装置のカテゴリ分類部における分類結果メモリのデータ格納形式を示す図である。 本発明の実施例2における楽曲分類装置の持続領域検出部における処理フローを示すフローチャートである。 本発明の実施例2における楽曲分類装置の持続領域検出部における持続領域メモリのデータ格納形式を示す図である。
符号の説明
1 楽曲分類装置
11 楽曲データ格納部
12 周波数分析部
13 特徴量生成部
14 カテゴリ分類部
15 制御部
20 持続領域検出部
21 特徴量計算部
12a 周波数成分メモリ
14a 分類ルールメモリ
14b 分類結果メモリ
20a 持続領域メモリ
21a 特徴量メモリ

Claims (6)

  1. 楽曲に関する音響データから前記楽曲の特徴量を抽出し、この抽出した特徴量に基づき前記楽曲を所定のカテゴリに分類する楽曲分類装置であって、
    前記音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する時間周波数データ生成手段と、
    前記生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出手段と、
    前記検出された持続領域の個数と前記持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算手段と、
    前記算出された特徴量に基づき、前記楽曲を前記所定のカテゴリに分類するカテゴリ分類手段と、
    を備えた楽曲分類装置。
  2. 前記特徴量計算手段は、所定時間毎に前記持続領域関連データを算出すると共に、前記楽曲の全体又は一部分における前記持続領域関連データについての平均、分散、隣接する持続領域関連データの差分値、所定値以上の前記持続領域関連データの個数、及び所定の変化パターンの個数の各値のうち少なくとも一つに基づき、前記特徴量を算出することを特徴とした請求項1に記載の楽曲分類装置。
  3. 楽曲に関する音響データから前記楽曲の特徴量を抽出し、この抽出した特徴量に基づき前記楽曲を所定のカテゴリに分類する楽曲分類方法であって、
    前記音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する時間周波数データ生成ステップと、
    前記生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出ステップと、
    前記検出された持続領域の個数と前記持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算ステップと、
    前記算出された特徴量に基づき、前記楽曲を前記所定のカテゴリに分類するカテゴリ分類ステップと、
    を有した楽曲分類方法。
  4. 前記特徴量計算ステップは、所定時間毎に前記持続領域関連データを算出する一方、前記楽曲の全体又は一部分における前記持続領域関連データについての平均、分散、隣接する持続領域関連データの差分値、所定値以上の前記持続領域関連データの個数、及び所定の変化パターンの個数の各値のうち少なくとも一つに基づき、前記特徴量を算出することを特徴とした請求項3に記載の楽曲分類方法。
  5. 楽曲に関する音響データから前記楽曲の特徴量を抽出し、この抽出した特徴量に基づき前記楽曲を所定のカテゴリに分類する動作をコンピュータに実行させるための楽曲分類プログラムであって、
    前記音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する時間周波数データ生成ステップと、
    前記生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出ステップと、
    前記検出された持続領域の個数と前記持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算ステップと、
    前記算出された特徴量に基づき、前記楽曲を前記所定のカテゴリに分類するカテゴリ分類ステップと、
    を実行させる楽曲分類プログラム。
  6. 前記特徴量計算ステップは、所定時間毎に前記持続領域関連データを算出する一方、前記楽曲の全体又は一部分における前記持続領域関連データについての平均、分散、隣接する持続領域関連データの差分値、所定値以上の前記持続領域関連データの個数、及び所定の変化パターンの個数の各値のうち少なくとも一つに基づき、前記特徴量を算出する動作を前記コンピュータに実行させることを特徴とした請求項5に記載の楽曲分類プログラム。
JP2006151166A 2006-05-31 2006-05-31 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム Active JP4665836B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006151166A JP4665836B2 (ja) 2006-05-31 2006-05-31 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US11/785,008 US7908135B2 (en) 2006-05-31 2007-04-13 Music-piece classification based on sustain regions
US12/929,713 US8442816B2 (en) 2006-05-31 2011-02-10 Music-piece classification based on sustain regions
US12/929,711 US8438013B2 (en) 2006-05-31 2011-02-10 Music-piece classification based on sustain regions and sound thickness

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006151166A JP4665836B2 (ja) 2006-05-31 2006-05-31 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム

Publications (2)

Publication Number Publication Date
JP2007322598A true JP2007322598A (ja) 2007-12-13
JP4665836B2 JP4665836B2 (ja) 2011-04-06

Family

ID=38855484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006151166A Active JP4665836B2 (ja) 2006-05-31 2006-05-31 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム

Country Status (2)

Country Link
US (3) US7908135B2 (ja)
JP (1) JP4665836B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009162818A (ja) * 2007-12-28 2009-07-23 Nintendo Co Ltd 楽曲提示装置、楽曲提示プログラム
WO2009110605A1 (ja) 2008-03-07 2009-09-11 日本ビクター株式会社 サーバ装置、端末装置、再生装置

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4622808B2 (ja) * 2005-10-28 2011-02-02 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、楽曲分類プログラム
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US20090150445A1 (en) * 2007-12-07 2009-06-11 Tilman Herberger System and method for efficient generation and management of similarity playlists on portable devices
JPWO2009101703A1 (ja) * 2008-02-15 2011-06-02 パイオニア株式会社 楽曲データ分析装置及び楽器種類検出装置、楽曲データ分析方法並びに楽曲データ分析用プログラム及び楽器種類検出用プログラム
JP5294300B2 (ja) * 2008-03-05 2013-09-18 国立大学法人 東京大学 音信号の分離方法
JP5098896B2 (ja) * 2008-08-28 2012-12-12 ソニー株式会社 再生装置および再生方法
WO2010065673A2 (en) * 2008-12-02 2010-06-10 Melodis Corporation System and method for identifying original music
US8433431B1 (en) 2008-12-02 2013-04-30 Soundhound, Inc. Displaying text to end users in coordination with audio playback
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
CN101847412B (zh) 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
US8878041B2 (en) * 2009-05-27 2014-11-04 Microsoft Corporation Detecting beat information using a diverse set of correlations
KR101737081B1 (ko) * 2010-02-10 2017-05-17 삼성전자주식회사 디지털 촬영 장치 및 그 제어 방법과 이를 기록한 기록 매체
JP5967564B2 (ja) * 2010-04-17 2016-08-10 Nl技研株式会社 電子オルゴール
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
JP6019858B2 (ja) * 2011-07-27 2016-11-02 ヤマハ株式会社 楽曲解析装置および楽曲解析方法
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
JP6132588B2 (ja) 2013-02-22 2017-05-24 キヤノン株式会社 通信装置、その制御方法、プログラム
JP6271843B2 (ja) 2013-02-22 2018-01-31 キヤノン株式会社 通信装置、その制御方法、プログラム
US8927846B2 (en) * 2013-03-15 2015-01-06 Exomens System and method for analysis and creation of music
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
TW201612776A (en) * 2014-09-30 2016-04-01 Avermedia Tech Inc File classifying system and method
EP3230976B1 (en) * 2014-12-11 2021-02-24 Uberchord UG (haftungsbeschränkt) Method and installation for processing a sequence of signals for polyphonic note recognition
EP3507616B1 (en) * 2016-08-30 2020-01-22 Koninklijke Philips N.V. A transmit/receive radio frequency (rf) system for a magnetic resonance examination system and method thereof
US11341945B2 (en) * 2019-08-15 2022-05-24 Samsung Electronics Co., Ltd. Techniques for learning effective musical features for generative and retrieval-based applications

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0430382A (ja) * 1990-05-24 1992-02-03 Mazda Motor Corp 車両用音響装置
JPH06290574A (ja) * 1993-03-31 1994-10-18 Victor Co Of Japan Ltd 楽曲検索装置
JPH11272287A (ja) * 1998-03-18 1999-10-08 Video Research:Kk 楽曲識別方法及び楽曲識別システム
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
JP2000305578A (ja) * 1999-04-26 2000-11-02 Nippon Telegr & Teleph Corp <Ntt> 音楽データベース作成装置、作成方法およびそのプログラム記録媒体
JP2003302988A (ja) * 2002-04-09 2003-10-24 Sony Corp オーディオ機器

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4079650A (en) * 1976-01-26 1978-03-21 Deutsch Research Laboratories, Ltd. ADSR envelope generator
US4739398A (en) * 1986-05-02 1988-04-19 Control Data Corporation Method, apparatus and system for recognizing broadcast segments
US5179242A (en) * 1990-06-13 1993-01-12 Yamaha Corporation Method and apparatus for controlling sound source for electronic musical instrument
US5774742A (en) * 1993-01-11 1998-06-30 Hitachi, Ltd. Peripheral device using two microprocessors and two buses for automatically updating program after judging that update data is stored in a portable recording medium
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
TW333644B (en) * 1995-10-30 1998-06-11 Victor Company Of Japan The method for recording musical data and its reproducing apparatus
WO1997017692A1 (en) * 1995-11-07 1997-05-15 Euphonics, Incorporated Parametric signal modeling musical synthesizer
US7003120B1 (en) * 1998-10-29 2006-02-21 Paul Reed Smith Guitars, Inc. Method of modifying harmonic content of a complex waveform
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
US6657117B2 (en) * 2000-07-14 2003-12-02 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo properties
US6963975B1 (en) * 2000-08-11 2005-11-08 Microsoft Corporation System and method for audio fingerprinting
US7065416B2 (en) * 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
FI20002161A (fi) * 2000-09-29 2002-03-30 Nokia Mobile Phones Ltd Menetelmä ja järjestelmä melodian tunnistamiseksi
US7062442B2 (en) * 2001-02-23 2006-06-13 Popcatcher Ab Method and arrangement for search and recording of media signals
US6876965B2 (en) * 2001-02-28 2005-04-05 Telefonaktiebolaget Lm Ericsson (Publ) Reduced complexity voice activity detector
JP4027051B2 (ja) 2001-03-22 2007-12-26 松下電器産業株式会社 楽曲登録装置、楽曲登録方法、及びそのプログラムと記録媒体
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
AU2002346116A1 (en) * 2001-07-20 2003-03-03 Gracenote, Inc. Automatic identification of sound recordings
US6476308B1 (en) * 2001-08-17 2002-11-05 Hewlett-Packard Company Method and apparatus for classifying a musical piece containing plural notes
JP2003068235A (ja) * 2001-08-23 2003-03-07 Canon Inc 非蒸発型ゲッタとその製造方法、及び、表示装置
DE10157454B4 (de) * 2001-11-23 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Erzeugen einer Kennung für ein Audiosignal, Verfahren und Vorrichtung zum Aufbauen einer Instrumentendatenbank und Verfahren und Vorrichtung zum Bestimmen der Art eines Instruments
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
FR2834363B1 (fr) * 2001-12-27 2004-02-27 France Telecom Procede de caracterisation d'un signal sonore
KR20030070179A (ko) * 2002-02-21 2003-08-29 엘지전자 주식회사 오디오 스트림 구분화 방법
US7110338B2 (en) * 2002-08-06 2006-09-19 Matsushita Electric Industrial Co., Ltd. Apparatus and method for fingerprinting digital media
JP3908649B2 (ja) 2002-11-14 2007-04-25 Necアクセステクニカ株式会社 環境同期制御システム、制御方法及びプログラム
US7091409B2 (en) * 2003-02-14 2006-08-15 University Of Rochester Music feature extraction using wavelet coefficient histograms
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
JP4795934B2 (ja) * 2003-04-24 2011-10-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメータで表示された時間特性の分析
US7232948B2 (en) * 2003-07-24 2007-06-19 Hewlett-Packard Development Company, L.P. System and method for automatic classification of music
JP4723222B2 (ja) 2003-10-09 2011-07-13 パイオニア株式会社 選曲装置及び方法
JP4199097B2 (ja) * 2003-11-21 2008-12-17 パイオニア株式会社 楽曲自動分類装置及び方法
US7179980B2 (en) * 2003-12-12 2007-02-20 Nokia Corporation Automatic extraction of musical portions of an audio stream
US20050159942A1 (en) * 2004-01-15 2005-07-21 Manoj Singhal Classification of speech and music using linear predictive coding coefficients
US20070299671A1 (en) * 2004-03-31 2007-12-27 Ruchika Kapur Method and apparatus for analysing sound- converting sound into information
US7565213B2 (en) * 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
DE102004028693B4 (de) * 2004-06-14 2009-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
US7860714B2 (en) * 2004-07-01 2010-12-28 Nippon Telegraph And Telephone Corporation Detection system for segment including specific sound signal, method and program for the same
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
US20060059120A1 (en) * 2004-08-27 2006-03-16 Ziyou Xiong Identifying video highlights using audio-visual objects
RU2419859C2 (ru) * 2005-06-01 2011-05-27 Конинклейке Филипс Электроникс Н.В. Способ и электронное устройство для определения характеристики элемента контента
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
WO2007046048A1 (en) * 2005-10-17 2007-04-26 Koninklijke Philips Electronics N.V. Method of deriving a set of features for an audio input signal
JP4622808B2 (ja) * 2005-10-28 2011-02-02 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、楽曲分類プログラム
KR100803206B1 (ko) * 2005-11-11 2008-02-14 삼성전자주식회사 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
WO2010065673A2 (en) * 2008-12-02 2010-06-10 Melodis Corporation System and method for identifying original music
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
US8812310B2 (en) * 2010-08-22 2014-08-19 King Saud University Environment recognition of audio input
US9093120B2 (en) * 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0430382A (ja) * 1990-05-24 1992-02-03 Mazda Motor Corp 車両用音響装置
JPH06290574A (ja) * 1993-03-31 1994-10-18 Victor Co Of Japan Ltd 楽曲検索装置
JPH11272287A (ja) * 1998-03-18 1999-10-08 Video Research:Kk 楽曲識別方法及び楽曲識別システム
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
JP2000305578A (ja) * 1999-04-26 2000-11-02 Nippon Telegr & Teleph Corp <Ntt> 音楽データベース作成装置、作成方法およびそのプログラム記録媒体
JP2003302988A (ja) * 2002-04-09 2003-10-24 Sony Corp オーディオ機器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009162818A (ja) * 2007-12-28 2009-07-23 Nintendo Co Ltd 楽曲提示装置、楽曲提示プログラム
WO2009110605A1 (ja) 2008-03-07 2009-09-11 日本ビクター株式会社 サーバ装置、端末装置、再生装置

Also Published As

Publication number Publication date
US20110132173A1 (en) 2011-06-09
US20110132174A1 (en) 2011-06-09
US8442816B2 (en) 2013-05-14
US20080040123A1 (en) 2008-02-14
US8438013B2 (en) 2013-05-07
JP4665836B2 (ja) 2011-04-06
US7908135B2 (en) 2011-03-15

Similar Documents

Publication Publication Date Title
JP4665836B2 (ja) 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US6930236B2 (en) Apparatus for analyzing music using sounds of instruments
JP3964792B2 (ja) 音楽信号を音符基準表記に変換する方法及び装置、並びに、音楽信号をデータバンクに照会する方法及び装置
Bosch et al. Evaluation and combination of pitch estimation methods for melody extraction in symphonic classical music
CN109979488B (zh) 基于重音分析的人声转乐谱系统
JP2008516289A (ja) 音声信号の基礎となるメロディを抽出する方法および装置
JP4268386B2 (ja) 複数の音を含む楽曲を分類する方法
JP2007041234A (ja) 音楽音響信号の調推定方法および調推定装置
EP2528054A2 (en) Management of a sound material to be stored into a database
US20110011247A1 (en) Musical composition discrimination apparatus, musical composition discrimination method, musical composition discrimination program and recording medium
JP2008516288A (ja) 音声信号の基礎となるメロディの抽出
Corcoran et al. Playing it straight: Analyzing jazz soloists’ swing eighth-note distributions with the weimar jazz database
Lerch Software-based extraction of objective parameters from music performances
JP6288197B2 (ja) 評価装置及びプログラム
JP6102076B2 (ja) 評価装置
Armentano et al. Genre classification of symbolic pieces of music
JP4483561B2 (ja) 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム
JP2003058147A (ja) 音楽コンテンツ自動分類装置及び自動分類方法
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
JP2007240552A (ja) 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法
Kitahara Mid-level representations of musical audio signals for music information retrieval
Dhara et al. Automatic note transcription system for Hindustani classical music
JP5585320B2 (ja) 歌唱音声評価装置
JP4930608B2 (ja) 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム
JP2004531758A5 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101227

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4665836

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350