JP5384952B2

JP5384952B2 - 特徴量抽出装置、特徴量抽出方法、およびプログラム

Info

Publication number: JP5384952B2
Application number: JP2009006702A
Authority: JP
Inventors: 圭子青木; 龍一神田; 啓一郎帆足; 広昌柳原
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-01-15
Filing date: 2009-01-15
Publication date: 2014-01-08
Anticipated expiration: 2029-01-15
Also published as: US20100185713A1; JP2010164762A; US8301284B2

Description

本発明は、ＡＡＣ形式の楽曲データの特徴量を求める特徴量抽出装置、特徴量抽出方法、およびプログラムに関する。

従来、ユーザの嗜好に適合した楽曲を複数の楽曲の中から検索するために、音響的特徴量を用いた類似検索技術があり、様々な手法が検討されている。この類似検索技術では、楽曲の特徴量として、音声認識のモデル学習で知られているＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）が広く用いられている。

非特許文献１には、ｋ−ｍｅａｎｓを使ったクラスタリングを利用する際、その距離計算に特徴量を用いることが示されている。非特許文献２には、ＭＦＣＣを求めるためのＨＴＫというツールが示されている。非特許文献３には、ＭＰ３（Ｍｐｅｇ−１ＡｕｄｉｏＬａｙｅｒ−３）形式の楽曲データからＭＦＣＣに相当する特徴量を算出する方法が示されている。

"ＦＥＡＴＵＲＥＳＰＡＣＥＭＯＤＩＦＩＣＡＴＩＯＮＦＯＲＣＯＮＴＥＮＴ−ＢＡＳＥＤＭＵＳＩＣＲＥＴＲＩＥＶＡＬＢＡＳＥＤＯＮＵＳＥＲＰＲＥＦＥＲＥＮＣＥＳ", ＫｅｉｉｃｈｉｒｏＨｏａｓｈｉ, ５１７−５２０, ＩＣＡＳＳＰ２００６ｈｔｔｐ：／／ｈｔｋ．ｅｎｇ．ｃａｍ．ａｃ．ｕｋ／ "Ｃｏｎｔｅｎｔ−ＢａｓｅｄＭｅｔｈｏｄｓｆｏｒｔｈｅＭａｎａｇｅｍｅｎｔｏｆＤｉｇｉｔａｌＭｕｓｉｃ"，ＤａｖｉｄＰｙｅ，ＩＣＡＳＳＰ，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２０００．ｏｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ − Ｖｏｌｕｍｅ０４

ところが、非特許文献３の方法では、ＭＰ３形式の楽曲データからＭＦＣＣに相当する特徴量を求めることはできるが、ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）形式の楽曲データからＭＦＣＣに相当する特徴量を求めることはできなかった。

また、非特許文献２のＨＴＫに入力できる楽曲データの形式は、ＷＡＶＥ（ＲＩＦＦｗａｖｅｆｏｒｍＡｕｄｉｏＦｏｒｍａｔ）形式といった非圧縮ＰＣＭ形式である。このため、ＡＡＣ形式の楽曲データについて、ＨＴＫを用いてＭＦＣＣに相当する特徴量を求めるためには、ＨＴＫに入力できる非圧縮ＰＣＭ形式の楽曲データに変換しなくてはならない。したがって、ＡＡＣ形式の楽曲データからＭＦＣＣに相当する特徴量を求めるためには、楽曲データをＡＡＣ形式から非圧縮ＰＣＭ形式に変換する必要があり、ＭＦＣＣに相当する特徴量を求めるのに時間がかかるとともに、変換後の非圧縮ＰＣＭ形式の楽曲データを保存する記憶容量が必要であった。

そこで、本発明は、上述の課題に鑑みてなされたものであり、ＡＡＣ形式の楽曲データの特徴量を求める時間の短縮と、ＡＡＣ形式の楽曲データの特徴量を求めるために必要な記憶容量の削減と、を実現できる特徴量抽出装置、特徴量抽出方法、およびプログラムを提供することを目的とする。

本発明は、上記の課題を解決するために、以下の事項を提案している。

（１）本発明は、ＡＡＣ形式の楽曲データの特徴量を求める特徴量抽出装置であって、前記ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出するＭＤＣＴ係数抽出手段（例えば、図２のＭＤＣＴ係数抽出部３１に相当）と、前記ＭＤＣＴ係数抽出手段により抽出されたＭＤＣＴ係数をメル周波数領域上に配置し、メルフィルタバンクと同数に均等に分類する分類手段（例えば、図２の分類部３２に相当）と、前記分類手段により分類されたＭＤＣＴ係数をメルフィルタバンクごとに、所定の窓関数（例えば、図６のメル帯域１〜３の窓関数に相当）を掛けて切出し、積算する積算手段（例えば、図２の積算部３３に相当）と、前記積算手段による積算結果の対数コサイン変換を行って、前記特徴量を算出する特徴量算出手段（例えば、図２の特徴量算出部３４に相当）と、を備え、前記分類手段は、前記ＡＡＣ形式の楽曲データのサンプリング周波数をメル尺度に変換して、メル周波数とするメル周波数算出部（例えば、図２のメル周波数算出部３２１に相当）と、前記メル周波数を前記メルフィルタバンクと同数に分割し、分割した各メル周波数の最小値および最大値を算出するメル周波数分割部（例えば、図２のメル周波数分割部３２２に相当）と、前記メル周波数分割部により算出された各メル周波数の最小値および最大値を線形尺度に変換して、元周波数の最小値および最大値とする元周波数算出部（例えば、図２の元周波数算出部３２３に相当）と、前記ＡＡＣ形式の楽曲データのサンプリング周波数から上限周波数（例えば、後述のナイキスト周波数に相当）を算出する上限周波数算出部（例えば、図２のナイキスト周波数算出部３２４に相当）と、前記上限周波数算出部により算出された上限周波数を、所定数のフィルタバンクと同数の周波数帯域に分割する上限周波数分割部（例えば、図２のナイキスト周波数分割部３２５に相当）と、前記各周波数帯域の中心周波数を、前記元周波数の最小値から最大値までの間に含まれるものごとに分類することで、前記メルフィルタバンクと同数に分類する中心周波数分類部（例えば、図２の中心周波数分類部３２６に相当）と、前記ＭＤＣＴ係数抽出手段により抽出された前記フィルタバンクと同数の各ＭＤＣＴ係数を、前記中心周波数分類部により前記メルフィルタバンクと同数に分類された中心周波数に対応させることで、前記メルフィルタバンクと同数に分類するＭＤＣＴ係数分類部（例えば、図２のＭＤＣＴ係数分類部３２７に相当）と、を備え、前記積算手段は、前記ＭＤＣＴ係数分類部により分類されたＭＤＣＴ係数を前記メルフィルタバンクごとに、前記所定の窓関数を掛けて切出し、積算することを特徴とする特徴量抽出装置を提案している。

この発明によれば、ＡＡＣ形式の楽曲データの特徴量を求める特徴量抽出装置に、ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出するＭＤＣＴ係数抽出手段と、ＭＤＣＴ係数抽出手段により抽出されたＭＤＣＴ係数をメル周波数領域上に配置し、メルフィルタバンクと同数に均等に分類する分類手段と、分類手段により分類されたＭＤＣＴ係数をメルフィルタバンクごとに所定の窓関数を掛けて切出して積算する積算手段と、積算手段による積算結果の対数コサイン変換を行って特徴量を算出する特徴量算出手段と、を設けた。

このため、ＡＡＣ形式の楽曲データから、ＷＡＶＥ形式といった非圧縮ＰＣＭ形式の楽曲データに変換することなく、ＡＡＣ形式の楽曲データの特徴量を求めることができる。したがって、ＡＡＣ形式の楽曲データを変換するための時間が不要となるので、ＡＡＣ形式の楽曲データの特徴量を求める時間を短縮できるとともに、変換後の楽曲データを保存する記憶容量が不要となり、ＡＡＣ形式の楽曲データの特徴量を求めるために必要な記憶容量を削減できる。

この発明によれば、分類手段に、ＡＡＣ形式の楽曲データのサンプリング周波数をメル尺度に変換してメル周波数とするメル周波数算出部と、メル周波数をメルフィルタバンクと同数に分割し分割した各メル周波数の最小値および最大値を算出するメル周波数分割部と、メル周波数分割部により算出された各メル周波数の最小値および最大値を線形尺度に変換して元周波数の最小値および最大値とする元周波数算出部と、ＡＡＣ形式の楽曲データのサンプリング周波数から上限周波数を算出する上限周波数算出部と、上限周波数算出部により算出された上限周波数を所定数のフィルタバンクと同数の周波数帯域に分割する上限周波数分割部と、各周波数帯域の中心周波数を元周波数の最小値から最大値までの間に含まれるものごとに分類することでメルフィルタバンクと同数に分類する中心周波数分類部と、ＭＤＣＴ係数抽出手段により抽出されたフィルタバンクと同数の各ＭＤＣＴ係数を中心周波数分類部によりメルフィルタバンクと同数に分類された中心周波数に対応させることでメルフィルタバンクと同数に分類するＭＤＣＴ係数分類部と、を設け、積算手段により、ＭＤＣＴ係数分類部により分類されたＭＤＣＴ係数をメルフィルタバンクごとに、所定の窓関数を掛けて切出し、積算することとした。

このため、分類手段は、メル周波数算出部、メル周波数分割部、元周波数算出部、上限周波数算出部、上限周波数分割部、中心周波数分類部、およびＭＤＣＴ係数分類部により、ＭＤＣＴ係数抽出手段により抽出されたＭＤＣＴ係数をメル周波数領域上に配置し、所定数のメルフィルタバンクと同数に均等に分類できる。

（２）本発明は、（１）の特徴量抽出装置について、前記ＭＤＣＴ係数抽出手段は、前記ＡＡＣ形式の楽曲データを非圧縮ＰＣＭ形式の楽曲データに変換する複数の処理のうち、前記ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出する処理を行うことを特徴とする特徴量抽出装置を提案している。

この発明によれば、ＭＤＣＴ係数抽出手段により、ＡＡＣ形式の楽曲データを非圧縮ＰＣＭ形式の楽曲データに変換する複数の処理のうち、ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出する処理を行うこととした。

このため、ＡＡＣ形式の楽曲データのＭＤＣＴ係数を抽出した時点で、分類手段、積算手段、および特徴量算出手段による処理を開始することで、ＡＡＣ形式の楽曲データを非圧縮ＰＣＭ形式の楽曲データに変換する複数の処理を全て行わなくてはならない従来と比べて、ＡＡＣ形式の楽曲データの特徴量を求める時間を短縮できる。また、ＭＤＣＴ係数抽出手段では、楽曲データのＡＡＣ形式からＷＡＶＥ形式への変換が完了しないので、変換後の楽曲データを保存する記憶容量が不要となり、ＡＡＣ形式の楽曲データの特徴量を求めるために必要な記憶容量を削減できる。

（３）本発明は、（１）または（２）の特徴量抽出装置について、前記積算手段は、前記ＭＤＣＴ係数分類部により分類されたＭＤＣＴ係数に対して所定の係数を掛けて高域強調を行った後に、高域強調を行ったＭＤＣＴ係数を前記メルフィルタバンクごとに、前記所定の窓関数を掛けて切出し、積算することを特徴とする特徴量抽出装置を提案している。

この発明によれば、積算手段により、ＭＤＣＴ係数分類部により分類されたＭＤＣＴ係数に対して所定の係数を掛けて高域強調を行った後に、高域強調を行ったＭＤＣＴ係数をメルフィルタバンクごとに、所定の窓関数を掛けて切出し、積算することとした。

ここで、従来では、楽曲データの時間波形の移動平均を用いることで、高域強調を行っていたが、この高域強調を行うためには、楽曲データが非圧縮ＰＣＭ形式である必要があった。これに対して、本発明では、ＭＤＣＴ係数に対して所定の係数を掛けることで、高域強調を行うため、この高域強調を行うためには、楽曲データが非圧縮ＰＣＭ形式である必要がない。このため、ＡＡＣ形式の楽曲データに対して、非圧縮ＰＣＭ形式に変換することなく高域強調を行うことができ、高域強調を行わない場合と比べて高精度な特徴量を求めることができる。

（４）本発明は、（１）〜（３）のいずれかの特徴量抽出装置と、複数のＡＡＣ形式の楽曲データを記憶する楽曲データ記憶手段（例えば、図１の楽曲データベース２１に相当）と、前記特徴量抽出装置により、前記楽曲データ記憶手段に記憶された複数のＡＡＣ形式の楽曲データのそれぞれの特徴量を求め、求めた特徴量のそれぞれを記憶する特徴量記憶手段（例えば、図１の特徴量抽出部２２および楽曲特徴データベース２３に相当）と、を備えることを特徴とする特徴量データベース作成装置を提案している。

この発明によれば、特徴量データベース作成装置に、上述の特徴量抽出装置と、複数のＡＡＣ形式の楽曲データを記憶する楽曲データ記憶手段と、特徴量抽出装置により楽曲データ記憶手段に記憶された複数のＡＡＣ形式の楽曲データのそれぞれの特徴量を求め、求めた特徴量のそれぞれを記憶する特徴量記憶手段と、を設けた。

このため、楽曲データ記憶手段に記憶された複数のＡＡＣ形式の楽曲データについて、それぞれの特徴量を特徴量記憶手段に記憶させることができる。

（５）本発明は、（４）の特徴量データベース作成装置と、前記楽曲データ記憶手段に記憶された複数のＡＡＣ形式の楽曲データの中から、ユーザによる楽曲データの選択を受け付ける楽曲データ選択受付手段（例えば、図１の端末１０に相当）と、前記特徴量記憶手段により記憶された特徴量の特徴ベクトルを求める特徴ベクトル生成部（例えば、図１の特徴量抽出部２２に相当）と、前記特徴ベクトル生成部により求められた特徴ベクトルの中から、前記楽曲データ選択受付手段により選択を受け付けた楽曲データの特徴ベクトルとの距離が所定量以下である特定特徴ベクトルを検索する特定特徴ベクトル検索手段（例えば、図１の楽曲検索部２４に相当）と、前記楽曲データ記憶手段に記憶された複数のＡＡＣ形式の楽曲データの中から、特徴ベクトルが前記特定特徴ベクトルである楽曲データを検索する楽曲検索手段（例えば、図１の楽曲検索部２４に相当）と、を備えることを特徴とする楽曲検索システムを提案している。

この発明によれば、楽曲検索システムに、上述の特徴量データベース作成装置と、楽曲データ記憶手段に記憶された複数のＡＡＣ形式の楽曲データの中からユーザによる楽曲データの選択を受け付ける楽曲データ選択受付手段と、特徴量記憶手段により記憶された特徴量の特徴ベクトルを求める特徴ベクトル生成部と、特徴ベクトル生成部により求められた特徴ベクトルの中から楽曲データ選択受付手段により選択を受け付けた楽曲データの特徴ベクトルとの距離が所定量以下である特定特徴ベクトルを検索する特定特徴ベクトル検索手段と、楽曲データ記憶手段に記憶された複数のＡＡＣ形式の楽曲データの中から特徴ベクトルが特定特徴ベクトルである楽曲データを検索する楽曲検索手段と、を設けた。

このため、楽曲データ記憶手段に記憶された複数のＡＡＣ形式の楽曲データの中から、ユーザが選択した楽曲データとの特徴ベクトルの距離が所定量以下である楽曲データを検索できる。

（６）本発明は、ＡＡＣ形式の楽曲データの特徴量を求める特徴量抽出方法であって、前記ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出する第１のステップ（例えば、図４のステップＳ１に相当）と、前記第１のステップにおいて抽出したＭＤＣＴ係数をメル周波数領域上に配置し、所定数のメルフィルタバンクと同数に均等に分類する第２のステップ（例えば、図４のステップＳ２〜Ｓ８に相当）と、前記第２のステップにおいて分類したＭＤＣＴ係数をメルフィルタバンクごとに、所定の窓関数（例えば、図６のメル帯域１〜３の窓関数に相当）を掛けて切出し、積算する第３のステップ（例えば、図４のステップＳ９に相当）と、前記第３のステップにおける積算結果の対数コサイン変換を行って、前記特徴量を算出する第４のステップ（例えば、図４のステップＳ１０に相当）と、を備え、前記第２のステップは、前記ＡＡＣ形式の楽曲データのサンプリング周波数をメル尺度に変換して、メル周波数とする第５のステップ（例えば、図４のステップＳ２に相当）と、前記メル周波数を前記メルフィルタバンクと同数に分割し、分割した各メル周波数の最小値および最大値を算出する第６のステップ（例えば、図４のステップＳ３に相当）と、前記第６のステップにおいて算出した各メル周波数の最小値および最大値を線形尺度に変換して、元周波数の最小値および最大値とする第７のステップ（例えば、図４のステップＳ４に相当）と、前記ＡＡＣ形式の楽曲データのサンプリング周波数から上限周波数（例えば、後述のナイキスト周波数に相当）を算出する第８のステップ（例えば、図４のステップＳ５に相当）と、前記第８のステップにおいて算出した上限周波数を、所定数のフィルタバンクと同数の周波数帯域に均等に分割する第９のステップ（例えば、図４のステップＳ６に相当）と、前記各周波数帯域の中心周波数を、前記元周波数の最小値から最大値までの間に含まれるものごとに分類することで、前記メルフィルタバンクと同数に分類する第１０のステップ（例えば、図４のステップＳ７に相当）と、前記第１のステップにおいて抽出した前記フィルタバンクと同数の各ＭＤＣＴ係数を、前記第１０のステップにおいて前記メルフィルタバンクと同数に分類した中心周波数に対応させることで、前記メルフィルタバンクと同数に分類する第１１のステップ（例えば、図４のステップＳ８に相当）と、を備え、前記第３のステップでは、前記第１１のステップにおいて分類したＭＤＣＴ係数を前記メルフィルタバンクごとに、前記所定の窓関数を掛けて切出し、積算することを特徴とする特徴量抽出方法を提案している。

この発明によれば、ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出し、抽出したＭＤＣＴ係数をメル周波数領域上に配置し、所定数のメルフィルタバンクと同数に均等に分類する。そして、分類したＭＤＣＴ係数をメルフィルタバンクごとに、所定の窓関数を掛けて切出して積算し、積算結果の対数コサイン変換を行って、前記特徴量を算出する。このため、上述した効果と同様の効果を奏することができる。

この発明によれば、ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出したＭＤＣＴ係数をメル周波数領域上に配置して所定数のメルフィルタバンクと同数に均等に分類する際には、ＡＡＣ形式の楽曲データのサンプリング周波数をメル尺度に変換してメル周波数とし、メル周波数をメルフィルタバンクと同数に分割し、分割した各メル周波数の最小値および最大値を算出する。そして、算出した各メル周波数の最小値および最大値を線形尺度に変換して元周波数の最小値および最大値とし、ＡＡＣ形式の楽曲データのサンプリング周波数から上限周波数を算出し、算出した上限周波数を、所定数のフィルタバンクと同数の周波数帯域に均等に分割する。そして、各周波数帯域の中心周波数を、元周波数の最小値から最大値までの間に含まれるものごとに分類することで、メルフィルタバンクと同数に分類し、フィルタバンクと同数の各ＭＤＣＴ係数を、メルフィルタバンクと同数に分類した中心周波数に対応させることで、メルフィルタバンクと同数に分類する。このため、上述した効果と同様の効果を奏することができる。

（７）本発明は、ＡＡＣ形式の楽曲データの特徴量を求める特徴量抽出方法を、コンピュータに実行させるためのプログラムであって、前記ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出する第１のステップ（例えば、図４のステップＳ１に相当）と、前記第１のステップにおいて抽出したＭＤＣＴ係数をメル周波数領域上に配置し、所定数のメルフィルタバンクと同数に均等に分類する第２のステップ（例えば、図４のステップＳ２〜Ｓ８に相当）と、前記第２のステップにおいて分類したＭＤＣＴ係数をメルフィルタバンクごとに、所定の窓関数（例えば、図６のメル帯域１〜３の窓関数に相当）を掛けて切出し、積算する第３のステップ（例えば、図４のステップＳ９に相当）と、前記第３のステップにおける積算結果の対数コサイン変換を行って、前記特徴量を算出する第４のステップ（例えば、図４のステップＳ１０に相当）と、をコンピュータに実行させ、前記第２のステップは、前記ＡＡＣ形式の楽曲データのサンプリング周波数をメル尺度に変換して、メル周波数とする第５のステップ（例えば、図４のステップＳ２に相当）と、前記メル周波数を前記メルフィルタバンクと同数に分割し、分割した各メル周波数の最小値および最大値を算出する第６のステップ（例えば、図４のステップＳ３に相当）と、前記第６のステップにおいて算出した各メル周波数の最小値および最大値を線形尺度に変換して、元周波数の最小値および最大値とする第７のステップ（例えば、図４のステップＳ４に相当）と、前記ＡＡＣ形式の楽曲データのサンプリング周波数から上限周波数（例えば、後述のナイキスト周波数に相当）を算出する第８のステップ（例えば、図４のステップＳ５に相当）と、前記第８のステップにおいて算出した上限周波数を、所定数のフィルタバンクと同数の周波数帯域に均等に分割する第９のステップ（例えば、図４のステップＳ６に相当）と、前記各周波数帯域の中心周波数を、前記元周波数の最小値から最大値までの間に含まれるものごとに分類することで、前記メルフィルタバンクと同数に分類する第１０のステップ（例えば、図４のステップＳ７に相当）と、前記第１のステップにおいて抽出した前記フィルタバンクと同数の各ＭＤＣＴ係数を、前記第１０のステップにおいて前記メルフィルタバンクと同数に分類した中心周波数に対応させることで、前記メルフィルタバンクと同数に分類する第１１のステップ（例えば、図４のステップＳ８に相当）と、を備え、前記第３のステップでは、前記第１１のステップにおいて分類したＭＤＣＴ係数を前記メルフィルタバンクごとに、前記所定の窓関数を掛けて切出し、積算するためのプログラムを提案している。

この発明によれば、プログラムをコンピュータに実行させることで、ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出し、抽出したＭＤＣＴ係数をメル周波数領域上に配置し、所定数のメルフィルタバンクと同数に均等に分類する。そして、分類したＭＤＣＴ係数をメルフィルタバンクごとに、所定の窓関数を掛けて切出して積算し、積算結果の対数コサイン変換を行って、前記特徴量を算出する。このため、上述した効果と同様の効果を奏することができる。

本発明によれば、ＡＡＣ形式の楽曲データから、ＷＡＶＥ形式といった非圧縮ＰＣＭ形式の楽曲データに変換することなく、ＡＡＣ形式の楽曲データの特徴量を求めることができる。したがって、ＡＡＣ形式の楽曲データを変換するための時間が不要となるので、ＡＡＣ形式の楽曲データの特徴量を求める時間を短縮できるとともに、変換後の楽曲データを保存する記憶容量が不要となるので、ＡＡＣ形式の楽曲データの特徴量を求めるために必要な記憶容量を削減できる。

本発明の一実施形態に係る楽曲検索システムの構成を示す図である。前記楽曲検索システムに設けられる特徴量抽出部の構成を示す図である。前記特徴量抽出部が備えるＭＤＣＴ係数抽出部の処理を説明するための図である。前記特徴量抽出部の処理を説明するための図である。前記特徴量抽出部により算出されるメル周波数と元周波数との関係を示す図である。前記特徴量抽出部において用いる窓関数を説明するための図である。ＭＦＣＣとの類似度を説明するための図である。

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、以下の実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。

＜楽曲検索システムの構成＞
図１は、本発明の一実施形態に係る楽曲検索システム１の構成を示す図である。楽曲検索システム１は、ユーザが操作可能に設けられた端末１０と、端末１０と通信可能に設けられた楽曲検索装置２０と、を備える。楽曲検索装置２０は、楽曲データベース２１、特徴量抽出部２２、楽曲特徴データベース２３、および楽曲検索部２４を備える。

楽曲データベース２１は、複数のＡＡＣ形式の楽曲データを記憶している。特徴量抽出部２２は、楽曲データベース２１に記憶されているＡＡＣ形式の各楽曲データについて、ＭＦＣＣに相当する特徴量であるＡＡＣＣＥＰを求める。そして、求めたＡＡＣＣＥＰに対してツリーベクトル量子化処理（ＴｒｅｅＱ）を行って特徴ベクトルを求め、楽曲特徴データベース２３に記憶させる。

楽曲検索部２４は、端末１０から送信された情報に基づいて、楽曲特徴データベース２３に記憶されている特徴ベクトルを用いてユーザが選択した楽曲データに類似する楽曲を検索する。具体的には、楽曲検索部２４は、まず、楽曲データベース２１に記憶されている複数のＡＡＣ形式の楽曲データの中から１つを選択するよう促す情報を端末１０に送信する。次に、端末１０から、ユーザにより選択された楽曲データに関する情報を受信すると、楽曲特徴データベース２３に記憶されている特徴ベクトルの中から、選択された楽曲データの特徴ベクトルとの距離が所定量以下であるものを検索し、楽曲データベース２１に記憶されている複数のＡＡＣ形式の楽曲データの中から、検索した特徴ベクトルに対応する楽曲データを検索する。これによれば、楽曲データベース２１に記憶されている複数のＡＡＣ形式の楽曲データの中から、ユーザが選択した楽曲データとの特徴ベクトルの距離が所定量以下である楽曲データ、すなわちユーザが選択した楽曲データに類似する楽曲データを検索できる。

＜特徴量抽出部の構成＞
図２は、特徴量抽出部２２の構成を示すブロック図である。特徴量抽出部２２は、ＭＤＣＴ係数抽出部３１、分類部３２、積算部３３、および特徴量算出部３４を備える。

ＭＤＣＴ係数抽出部３１は、楽曲データベース２１に記憶されているＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出する。このＭＤＣＴ係数抽出部３１の処理について、図３を用いて説明する。

図３は、ＡＡＣ形式の楽曲データを非圧縮ＰＣＭ形式の１つであるＷＡＶＥ形式の楽曲データに変換する際の一連の処理を示している。

この処理では、まず、ハフマン符号の処理を行って、ハフマン符号のデコードを行う。次に、逆量子化の処理を行って、逆量子化を行う。次に、スケーリングの処理を行って、スケールファクタバンドを統合する。次に、Ｍ／Ｓステレオの処理を行って、和／差信号を左右の信号に変換する。次に、予測の処理を行って、ＭＤＣＴ係数の線形予測による予測差分を元に戻す。次に、インテンシティステレオの処理を行って、単一の信号と定位情報のみに削除して符号化された左右の信号を元に戻す。次に、ＴＮＳの処理を行って、圧縮処理に伴う雑音のレベルを、音の大きさに合わせて変化させる。次に、ＩＭＤＣＴの処理を行って、周波数スペクトルを時間信号に変換する。

ここで、図３に示した一連の処理のうち、ハフマン符号の処理からＴＮＳの処理までを行うと、入力したＡＡＣ形式の楽曲データのＭＤＣＴ係数を抽出できる。このため、ＭＤＣＴ係数抽出部３１は、図３に示した一連の処理のうち、ハフマン符号の処理からＴＮＳの処理までを行って、入力したＡＡＣ形式の楽曲データのＭＤＣＴ係数を抽出した後、ＩＭＤＣＴの処理は行わない。

分類部３２は、ＭＤＣＴ係数抽出部３１により抽出されたＭＤＣＴ係数をメル周波数領域上に配置し、所定数のメルフィルタバンクと同数に均等に分類する。この分類部３２は、メル周波数算出部３２１、メル周波数分割部３２２、元周波数算出部３２３、ナイキスト周波数算出部３２４、ナイキスト周波数分割部３２５、中心周波数分類部３２６、およびＭＤＣＴ係数分類部３２７を備える。

メル周波数算出部３２１は、ＭＤＣＴ係数を抽出されたＡＡＣ形式の楽曲データのサンプリング周波数をメル尺度に変換して、メル周波数とする。メル周波数分割部３２２は、メル周波数をメルフィルタバンクと同数に分割し、分割した各メル周波数の最小値および最大値を算出する。元周波数算出部３２３は、メル周波数分割部３２２により算出された各メル周波数の最小値および最大値を線形尺度に変換して、元周波数の最小値および最大値とする。ナイキスト周波数算出部３２４は、ＭＤＣＴ係数を抽出されたＡＡＣ形式の楽曲データのサンプリング周波数から、上限周波数としてのナイキスト周波数を算出する。

ナイキスト周波数分割部３２５は、ナイキスト周波数算出部３２４により算出されたナイキスト周波数を、所定数のフィルタバンクと同数の周波数帯域に均等に分割する。中心周波数分類部３２６は、ナイキスト周波数分割部３２５により分割された各周波数帯域の中心周波数を、元周波数の最小値から最大値までの間に含まれるものごとに分類することで、メルフィルタバンクと同数に分類する。ＭＤＣＴ係数分類部３２７は、ＭＤＣＴ係数抽出部３１により抽出されたフィルタバンクと同数の各ＭＤＣＴ係数を、中心周波数分類部３２６によりメルフィルタバンクと同数に分類された中心周波数に対応させることで、メルフィルタバンクと同数に分類する。

積算部３３は、ＭＤＣＴ係数分類部３２７により分類されたＭＤＣＴ係数に対して所定の係数を掛けて高域強調を行った後に、高域強調を行ったＭＤＣＴ係数をメルフィルタバンクごとに、後述する所定の窓関数を掛けて切出し、積算する。

ここで、従来では、非圧縮ＰＣＭ形式の楽曲データの時間波形の移動平均を用いることで、高域強調を行っていた。具体的には、サンプリング時間ｔにおける非圧縮ＰＣＭ形式の楽曲データをＰ（ｔ）とすると、以下の式（１）に示すように、この非圧縮ＰＣＭ形式の楽曲データＰ（ｔ）に対して１．０、−０．９７の移動平均フィルタを掛けることで、高域強調を行っていた。

これに対して、積算部３３は、ｊ番目のＭＤＣＴ係数をＭ（ｊ）とすると、以下の式（２）に示すように、ＭＤＣＴ係数Ｍ（ｊ）に対して所定の係数を掛けることで、高域強調を行う。ここで、ｊは、１≦ｊ≦１０２４を満たす整数とする。

なお、積算部３３は、式（２）ではなく、以下の式（３）に示すように、ＭＤＣＴ係数Ｍ（ｊ）に対して所定の係数を掛けることで、高域強調を行ってもよい。

特徴量算出部３４は、積算手段による積算結果の対数コサイン変換を行って、特徴量を算出する。

＜特徴量抽出部による特徴量抽出処理＞
以下に、楽曲データベース２１に記憶されている複数のＡＡＣ形式の楽曲データのうち１曲の楽曲データ（以降、「対象楽曲データ」と呼ぶ）のＡＡＣＣＥＰを特徴量抽出部２２により求める手順について、図４のフローチャートを参照しながら説明する。

なお、以下では、対象楽曲データのサンプリング周波数ｆを２２０５０Ｈｚ、メルフィルタバンク数を１２個、フィルタバンクの数を１０２４個とする。

ステップＳ１において、ＭＤＣＴ係数抽出部３１により、対象楽曲データからＭＤＣＴ係数を抽出する。具体的には、楽曲データベース２１から対象楽曲データを読み出し、この対象楽曲データに対して図３に示した一連の処理のうちハフマン符号の処理からＴＮＳの処理までを行って、ＭＤＣＴ係数を抽出する。

ステップＳ２において、分類部３２が備えるメル周波数算出部３２１により、対象楽曲データのサンプリング周波数ｆをメル尺度に変換して、メル周波数ｆ_ｍとする。ここで、メル周波数ｆ_ｍは、以下の式（４）により算出でき、この式（４）にサンプリング周波数ｆ＝２２０５０Ｈｚを代入すると、メル周波数ｆ_ｍ＝３９２３．３３７Ｈｚとなる。

ステップＳ３において、分類部３２が備えるメル周波数分割部３２２により、メル周波数ｆ_ｍをメルフィルタバンクと同数の１２個に分割し、分割した各メル周波数の最小値（ＭＩＮ）、中間値（ＭＩＤ）、および最大値（ＭＡＸ）を算出する。この処理による算出結果を、表１に示す。なお、以下では、表１に示すように、１２個に分割したメル周波数の各帯域をメル帯域１〜１２と表すこととする。

ステップＳ４において、分類部３２が備える元周波数算出部３２３により、ステップＳ３において算出した各メル周波数の最小値（ＭＩＮ）、中間値（ＭＩＤ）、および最大値（ＭＡＸ）を線形尺度に変換して、元周波数の最小値ｋ_ｌｏ、中間値ｋ_ｃ、および最大値ｋ_ｈｉとする。この処理による変換結果を、表２に示す。

なお、元周波数の最小値ｋ_ｌｏ、中間値ｋ_ｃ、および最大値ｋ_ｈｉには、以下の式（５）に示す関係が成り立つ。ここで、ｌは、メル帯域の番号等しく、１≦ｌ≦１２を満たす整数とする。

ここで、ステップＳ３において算出した１２個の各メル周波数の中間値（ＭＩＤ）と、ステップＳ４において算出した１２個の各元周波数の中間値ｋ_ｃと、の関係を図５に示す。図５に示すように、元周波数は、メル周波数と比べて、メル帯域の番号が大きくなるに従って、すなわち周波数が高くなるに従って、帯域が広くなる。

ステップＳ５において、分類部３２が備えるナイキスト周波数算出部３２４により、対象楽曲データのサンプリング周波数ｆからナイキスト周波数ｆ_ｎを算出する。ここで、ナイキスト周波数ｆ_ｎは、以下の式（６）により算出でき、この式（６）にサンプリング周波数ｆ＝２２０５０Ｈｚを代入すると、ナイキスト周波数ｆ_ｎ＝１１０２５Ｈｚとなる。

ステップＳ６において、分類部３２が備えるナイキスト周波数分割部３２５により、ステップＳ５において算出したナイキスト周波数ｆ_ｎを、フィルタバンクと同数の１０２４個の周波数帯域に均等に分割する。なお、以下では、１０２４個に分割した各周波数帯域を帯域１〜１０２４と表すこととする。また、この処理により算出した１０２４個の周波数帯域のうち帯域１〜３６に対応するものの下限周波数、中心周波数ｋ、および上限周波数を表３に示す。

ステップＳ７において、分類部３２が備える中心周波数分類部３２６により、ステップＳ６において分割した１０２４個の各周波数帯域の中心周波数ｋを、元周波数の最小値ｋ_ｌｏから最大値ｋ_ｈｉまでの間に含まれるものごとに分類することで、メルフィルタバンクと同数の１２個に分類する。ここで、表２および表３を参照すると、メル帯域１に対応する元周波数の最小値ｋ_ｌｏから最大値ｋ_ｈｉまでの間には、帯域１〜３５に対応する各周波数帯域の中心周波数ｋが含まれる。このため、この処理によれば、１０２４個の各周波数帯域の中心周波数ｋのうち帯域１〜３５に対応する各周波数帯域の中心周波数ｋが、同一のメルフィルタバンクに分類される。

ステップＳ８において、分類部３２が備えるＭＤＣＴ係数分類部３２７により、ステップＳ１において抽出したフィルタバンクと同数の１０２４個の各ＭＤＣＴ係数を、ステップＳ７において分類したメルフィルタバンクと同数の１２個の中心周波数ｋに対応させることで、メルフィルタバンクと同数の１２個に分類する。なお、メルフィルタバンクは、周波数が高くなるに従って帯域が広くなるため、メル帯域の番号が大きくなるに従って、含まれるＭＤＣＴ係数の数は増加する。

ステップＳ９において、積算部３３により、ステップＳ８において１２個に分類したＭＤＣＴ係数をメルフィルタバンクごとに、所定の窓関数Ｗ（ｋ；ｌ）を掛けて切出し、積算する。ここで、所定の窓関数Ｗ（ｋ；ｌ）とは、元周波数の最小値ｋ_ｌｏ、中間値ｋ_ｃ、および最大値ｋ_ｈｉと、中心周波数ｋと、を用いて、以下の式（７）により算出できる。また、メル帯域１の窓関数Ｗ（ｋ；１）と、メル帯域２の窓関数Ｗ（ｋ；２）と、メル帯域３の窓関数Ｗ（ｋ；３）と、を図６に示す。

ステップＳ１０において、特徴量算出部３４により、ステップＳ９における積算結果の対数コサイン変換を行って、ＭＦＣＣの係数を算出する。そして、算出したＭＦＣＣの係数のうち低次元から１２個を特徴量とする。ここで、ＭＦＣＣのｉ番目の係数をＣ_ｍｆｃｃ（ｉ）とすると、このＣ_ｍｆｃｃ（ｉ）は、以下の式（８）により算出できる。

ここで、ｉは、１≦ｉ≦１２を満たす整数とし、Ｎは、ｉの最大値に等しい１２とする。また、Ｌは、ｌの最大値で、ここではｉの最大値に等しい１２とする。なお、ＮとＬとは、Ｎ≦Ｌを満たすものであればよく、同値でなくてもよい。

また、ｍ（ｌ）は、ステップＳ９において切り出したＭＤＣＴ係数を示し、Ｍ（ｋ）は、中心周波数ｋのＭＤＣＴ係数を示すものとすると、ＭＤＣＴ係数ｍ（ｌ）は、以下の式（９）により表すことができる。

＜ＭＦＣＣとの類似度＞
図７は、ＭＦＣＣとの類似度を示す図である。図７において、ＭＦＣＣのグラフでは、ある特定の１曲のＷＡＶＥ形式の楽曲データの特徴量と、所定の１００曲のＷＡＶＥ形式の楽曲データの特徴量と、のコサイン距離を算出し、近いものから順に並べたものを表す。また、図７において、ＭＰ３ＣＥＰのグラフでは、上述の特定の１曲のＭＰ３形式の楽曲データの特徴量と、上述の所定の１００曲のＭＰ３形式の楽曲データの特徴量と、を従来の方法により求め、これらのコサイン距離を算出したものである。一方、図７において、ＡＡＣＣＥＰのグラフは、上述の特定の１曲のＡＡＣ形式の楽曲データの特徴量と、上述の所定の１００曲のＡＡＣ形式の楽曲データの特徴量と、を上述の特徴量抽出部２２により求め、これらのコサイン距離を算出したものである。

図７によれば、ＡＡＣＣＥＰのグラフは、ＭＰ３ＣＥＰのグラフと比べて、ＭＦＣＣのグラフに近い。すなわち、上述の特徴量抽出部２２により求めたＡＡＣ形式の楽曲データの特徴量であるＡＡＣＣＥＰは、従来の方法により求めたＭＰ３形式の楽曲データの特徴量であるＭＰ３ＣＥＰと比べて、ＷＡＶＥ形式の楽曲データの特徴量であるＭＦＣＣと近い検索結果が得られる。

以上の特徴量抽出部２２によれば、図３に示したＡＡＣ形式の楽曲データをＷＡＶＥ形式の楽曲データに変換する際の一連の処理のうち、ハフマン符号の処理からＴＮＳの処理までを行って、入力したＡＡＣ形式の楽曲データのＭＤＣＴ係数を抽出した後、ＩＭＤＣＴの処理は行わない。このため、ＭＤＣＴ係数抽出部３１によりＡＡＣ形式の楽曲データのＭＤＣＴ係数を抽出した時点で、分類部３２、積算部３３、および特徴量算出部３４による処理を開始することで、ＩＭＤＣＴの処理も含めて、図３に示したＡＡＣ形式の楽曲データをＷＡＶＥ形式の楽曲データに変換する際の一連の処理を全て行わなくてはならない従来と比べて、ＡＡＣ形式の楽曲データのＡＡＣＣＥＰを求める時間を短縮できる。また、図３に示したＩＭＤＣＴ処理を行わないので、楽曲データのＡＡＣ形式からＷＡＶＥ形式への変換が完了しない。このため、変換後の楽曲データを保存する記憶容量が不要となり、ＡＡＣ形式の楽曲データのＡＡＣＣＥＰを求めるために必要な記憶容量を削減できる。

また、以上の特徴量抽出部２２によれば、式（２）や式（３）に示したように、ＭＤＣＴ係数Ｍ（ｊ）に対して所定の係数を掛けることで、高域強調を行う。このため、ＡＡＣ形式の楽曲データに対して、非圧縮ＰＣＭ形式に変換することなく高域強調を行うことができ、高域強調を行わない場合と比べて高精度な特徴量を求めることができる。

また、以上の楽曲検索装置２０によれば、楽曲データベース２１、特徴量抽出部２２、楽曲特徴データベース２３を備えるため、特徴量抽出部２２により、楽曲データベース２１に記憶されているＡＡＣ形式の各楽曲データのＡＡＣＣＥＰを求め、求めたＡＡＣＣＥＰの特徴ベクトルを求め、楽曲特徴データベース２３に記憶させることができる。

また、以上の楽曲検索システム１によれば、端末１０および楽曲検索装置２０を備えるため、楽曲データベース２１に記憶されている複数のＡＡＣ形式の楽曲データの中から、端末１０によりユーザが選択した楽曲データとの特徴ベクトルの距離が所定量以下である楽曲データ、すなわちユーザが選択した楽曲データに類似する楽曲データを検索できる。

なお、本発明の楽曲検索装置２０の処理をコンピュータ読み取り可能な記録媒体に記憶し、記録媒体に記録されたプログラムを楽曲検索装置２０に読み込ませ、実行することによって、本発明を実現できる。

また、上述のプログラムは、このプログラムを記憶装置等に格納した楽曲検索装置２０から、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。

また、上述のプログラムは、上述の機能の一部を実現するためのものであってもよい。さらに、上述の機能を楽曲検索装置２０にすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１・・・楽曲検索システム
１０・・・端末
２０・・・楽曲検索装置
２２・・・特徴量抽出部
３１・・・ＭＤＣＴ係数抽出部
３２・・・分類部
３３・・・積算部
３４・・・特徴量算出部
３２１・・・メル周波数算出部
３２２・・・メル周波数分割部
３２３・・・元周波数算出部
３２４・・・ナイキスト周波数算出部
３２５・・・ナイキスト周波数分割部
３２６・・・中心周波数分割部
３２７・・・ＭＤＣＴ係数分類部

Claims

ＡＡＣ形式の楽曲データの特徴量を求める特徴量抽出装置であって、
前記ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出するＭＤＣＴ係数抽出手段と、
前記ＭＤＣＴ係数抽出手段により抽出されたＭＤＣＴ係数をメル周波数領域上に配置し、所定数のメルフィルタバンクと同数に均等に分類する分類手段と、
前記分類手段により分類されたＭＤＣＴ係数をメルフィルタバンクごとに、所定の窓関数を掛けて切出し、積算する積算手段と、
前記積算手段による積算結果の対数コサイン変換を行って、前記特徴量を算出する特徴量算出手段と、
を備え、
前記分類手段は、
前記ＡＡＣ形式の楽曲データのサンプリング周波数をメル尺度に変換して、メル周波数とするメル周波数算出部と、
前記メル周波数を前記メルフィルタバンクと同数に分割し、分割した各メル周波数の最小値および最大値を算出するメル周波数分割部と、
前記メル周波数分割部により算出された各メル周波数の最小値および最大値を線形尺度に変換して、元周波数の最小値および最大値とする元周波数算出部と、
前記ＡＡＣ形式の楽曲データのサンプリング周波数から上限周波数を算出する上限周波数算出部と、
前記上限周波数算出部により算出された上限周波数を、所定数のフィルタバンクと同数の周波数帯域に均等に分割する上限周波数分割部と、
前記各周波数帯域の中心周波数を、前記元周波数の最小値から最大値までの間に含まれるものごとに分類することで、前記メルフィルタバンクと同数に分類する中心周波数分類部と、
前記ＭＤＣＴ係数抽出手段により抽出された前記フィルタバンクと同数の各ＭＤＣＴ係数を、前記中心周波数分類部により前記メルフィルタバンクと同数に分類された中心周波数に対応させることで、前記メルフィルタバンクと同数に分類するＭＤＣＴ係数分類部と、
を備え、
前記積算手段は、前記ＭＤＣＴ係数分類部により分類されたＭＤＣＴ係数を前記メルフィルタバンクごとに、前記所定の窓関数を掛けて切出し、積算することを特徴とする特徴量抽出装置。
前記ＭＤＣＴ係数抽出手段は、
前記ＡＡＣ形式の楽曲データを非圧縮ＰＣＭ形式の楽曲データに変換する複数の処理のうち、前記ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出する処理を行うことを特徴とする請求項１に記載の特徴量抽出装置。
前記積算手段は、前記ＭＤＣＴ係数分類部により分類されたＭＤＣＴ係数に対して所定の係数を掛けて高域強調を行った後に、高域強調を行ったＭＤＣＴ係数を前記メルフィルタバンクごとに、前記所定の窓関数を掛けて切出し、積算することを特徴とする請求項１または２に記載の特徴量抽出装置。
請求項１乃至３のいずれかに記載の特徴量抽出装置と、
複数のＡＡＣ形式の楽曲データを記憶する楽曲データ記憶手段と、
前記特徴量抽出装置により、前記楽曲データ記憶手段に記憶された複数のＡＡＣ形式の楽曲データのそれぞれの特徴量を求め、求めた特徴量のそれぞれを記憶する特徴量記憶手段と、
を備えることを特徴とする特徴量データベース作成装置。
請求項４に記載の特徴量データベース作成装置と、
前記楽曲データ記憶手段に記憶された複数のＡＡＣ形式の楽曲データの中から、ユーザによる楽曲データの選択を受け付ける楽曲データ選択受付手段と、
前記特徴量記憶手段により記憶された特徴量の特徴ベクトルを求める特徴ベクトル生成部と、
前記特徴ベクトル生成部により求められた特徴ベクトルの中から、前記楽曲データ選択受付手段により選択を受け付けた楽曲データの特徴ベクトルとの距離が所定量以下である特定特徴ベクトルを検索する特定特徴ベクトル検索手段と、
前記楽曲データ記憶手段に記憶された複数のＡＡＣ形式の楽曲データの中から、特徴ベクトルが前記特定特徴ベクトルである楽曲データを検索する楽曲検索手段と、
を備えることを特徴とする楽曲検索システム。
ＡＡＣ形式の楽曲データの特徴量を求める特徴量抽出方法であって、
前記ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出する第１のステップと、
前記第１のステップにおいて抽出したＭＤＣＴ係数をメル周波数領域上に配置し、所定数のメルフィルタバンクと同数に均等に分類する第２のステップと、
前記第２のステップにおいて分類したＭＤＣＴ係数をメルフィルタバンクごとに、所定の窓関数を掛けて切出し、積算する第３のステップと、
前記第３のステップにおける積算結果の対数コサイン変換を行って、前記特徴量を算出する第４のステップと、
を備え、
前記第２のステップは、
前記ＡＡＣ形式の楽曲データのサンプリング周波数をメル尺度に変換して、メル周波数とする第５のステップと、
前記メル周波数を前記メルフィルタバンクと同数に分割し、分割した各メル周波数の最小値および最大値を算出する第６のステップと、
前記第６のステップにおいて算出した各メル周波数の最小値および最大値を線形尺度に変換して、元周波数の最小値および最大値とする第７のステップと、
前記ＡＡＣ形式の楽曲データのサンプリング周波数から上限周波数を算出する第８のステップと、
前記第８のステップにおいて算出した上限周波数を、所定数のフィルタバンクと同数の周波数帯域に均等に分割する第９のステップと、
前記各周波数帯域の中心周波数を、前記元周波数の最小値から最大値までの間に含まれるものごとに分類することで、前記メルフィルタバンクと同数に分類する第１０のステップと、
前記第１のステップにおいて抽出した前記フィルタバンクと同数の各ＭＤＣＴ係数を、前記第１０のステップにおいて前記メルフィルタバンクと同数に分類した中心周波数に対応させることで、前記メルフィルタバンクと同数に分類する第１１のステップと、
を備え、
前記第３のステップでは、前記第１１のステップにおいて分類したＭＤＣＴ係数を前記メルフィルタバンクごとに、前記所定の窓関数を掛けて切出し、積算することを特徴とする特徴量抽出方法。
ＡＡＣ形式の楽曲データの特徴量を求める特徴量抽出方法を、コンピュータに実行させるためのプログラムであって、
前記ＡＡＣ形式の楽曲データからＭＤＣＴ係数を抽出する第１のステップと、
前記第１のステップにおいて抽出したＭＤＣＴ係数をメル周波数領域上に配置し、所定数のメルフィルタバンクと同数に均等に分類する第２のステップと、
前記第２のステップにおいて分類したＭＤＣＴ係数をメルフィルタバンクごとに、所定の窓関数を掛けて切出し、積算する第３のステップと、
前記第３のステップにおける積算結果の対数コサイン変換を行って、前記特徴量を算出する第４のステップと、
をコンピュータに実行させ、
前記第２のステップは、
前記ＡＡＣ形式の楽曲データのサンプリング周波数をメル尺度に変換して、メル周波数とする第５のステップと、
前記メル周波数を前記メルフィルタバンクと同数に分割し、分割した各メル周波数の最小値および最大値を算出する第６のステップと、
前記第６のステップにおいて算出した各メル周波数の最小値および最大値を線形尺度に変換して、元周波数の最小値および最大値とする第７のステップと、
前記ＡＡＣ形式の楽曲データのサンプリング周波数から上限周波数を算出する第８のステップと、
前記第８のステップにおいて算出した上限周波数を、所定数のフィルタバンクと同数の周波数帯域に均等に分割する第９のステップと、
前記各周波数帯域の中心周波数を、前記元周波数の最小値から最大値までの間に含まれるものごとに分類することで、前記メルフィルタバンクと同数に分類する第１０のステップと、
前記第１のステップにおいて抽出した前記フィルタバンクと同数の各ＭＤＣＴ係数を、前記第１０のステップにおいて前記メルフィルタバンクと同数に分類した中心周波数に対応させることで、前記メルフィルタバンクと同数に分類する第１１のステップと、
を備え、
前記第３のステップでは、前記第１１のステップにおいて分類したＭＤＣＴ係数を前記メルフィルタバンクごとに、前記所定の窓関数を掛けて切出し、積算するためのプログラム。