JP2012185195A

JP2012185195A - オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム

Info

Publication number: JP2012185195A
Application number: JP2011046163A
Authority: JP
Inventors: Joji Naito; 丈嗣内藤
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2011-03-03
Filing date: 2011-03-03
Publication date: 2012-09-27

Abstract

【課題】誤りのない確実なオーディオデータの照合を実現することのできるオーディオデータ照合システムを提供する。
【解決手段】本発明のオーディオデータ照合システム１は、既知のオーディオデータから特徴データを抽出するオーディオデータ特徴抽出装置２と、既知のオーディオデータから生成された特徴データに識別情報を登録してデータベース３１に格納する特徴データ格納サーバ３と、未知のオーディオデータから特徴データを生成し、データベース３１に格納されている特徴データと比較して照合するオーディオデータ照合装置４とを備えていることを特徴とする。
【選択図】図１

Description

本発明は、未知のオーディオデータの特徴を抽出して予め登録されているオーディオデータと比較することによって、未知のオーディオデータを識別するオーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システムに関する。

昨今のデジタル化の発展により、デジタル化した音楽データやその他の音声データコンテンツを大量に記録可能な音楽再生装置が一般に普及するようになった。それに伴って、大量に記録した音楽データの管理を円滑に行うために音楽データの識別を行う必要が出てきている。音楽データやその他の音声データコンテンツでは、しばしばオーディオデータのフォーマットの一部に予め記録されているメタデータを用いて識別、管理が行えるようになっていた。ところが、メタデータを持たないＰＣＭデータフォーマットを介したデータの送受信やＣＤなどのパッケージメディアを通じたデータの授受、売買などが行われた場合には、メタデータではなく、オーディオデータそのものからコンテンツを識別する必要があった。このような要求に対して、従来では特許文献１や特許文献２に記載されているようなオーディオデータの解析技術が開示されている。

特許文献１では、オーディオデータを一定の時間幅毎に周波数解析し、その後に帯域分割して時間方向及び帯域方向にフィルタ処理を行った結果を抽出して特徴データとする方法が提案されている。また特許文献２では、オーディオデータからランドマークと呼ばれる特定の位置周辺におけるスペクトル成分を特徴データとする方法が提案されている。

ここで、このような特徴データを管理楽曲のオーディオデータに対して予め算出してデータベースに記録しておき、未知の楽曲について同様の特徴データを算出して予め記録された特徴データと比較することにより、管理楽曲のいずれであるかを判定することができる。

特表２００５−５３１０２４号公報特表２００４−５０５３２８号公報

しかしながら、実際のオーディオデータの中には無音部分やホワイトノイズに近いような特徴の少ないオーディオデータ、ライブ音楽の録音物にあるような観客の歓声や拍手など、人間が耳で聞いてもどの録音物であるのか判定できないものも多く含まれている。

特許文献１に開示された方法では、一定の時間幅のオーディオデータ毎に所定の解析処理を行ってなんらかの特徴データを算出しているので、特徴の現れにくいオーディオデータ部分に対しても同じように特徴データを生成している。そのため特徴データのデータ量が増大してしまう問題がある。またデータベースに登録されている多数の楽曲の特徴データと比較する際に、処理量が増大する問題がある。また特徴の少ない特徴データの部分で異なる楽曲を混同しやすいという問題点があった。

また、特許文献２に開示された方法では、ランドマークと呼ばれる特定の位置を音楽のパワーの極大点から検出するが、音楽データによっては類似の極大点が近接して複数存在する場合がある。そのような場合にはランドマークの検出精度が下がり易く、音楽データが劣化した環境での検出精度を落としてしまうという問題点があった。

そこで、本発明は、上述した実情に鑑みて提案されたものであり、オーディオデータの中で特徴のある部分を中心にし、さらにパワーマップ上の極大点間のベクトルの集合の特徴が大きく現れるように選択された特徴点と代表点からなる特徴データを算出することにより、オーディオデータの特徴を確実に抽出することのできるオーディオデータの特徴抽出方法、オーディオデータの特徴抽出プログラム、オーディオデータ特徴抽出装置を提供することを目的とする。また、上記のように算出された特徴データを用いて、複数の特徴点と代表点からなるベクトルの集合を網羅的に比較してオーディオデータを照合することにより、誤りのない確実なオーディオデータの照合を行うことのできるオーディオデータ照合方法、オーディオデータ照合プログラム、オーディオデータ照合装置及びオーディオデータ照合システムを提供することを目的とする。

上記した目的を達成するために、本発明に係るオーディオデータ特徴抽出方法は、処理対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップとを含むことを特徴とする。

また、本発明に係るオーディオデータ照合方法は、照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップとを含むことを特徴とする。

さらに、本発明に係るオーディオデータ照合方法の特徴データ比較ステップは、前記特異点と前記代表点との間を結んだベクトルが一致するか否かによって前記特徴データの一致を判定することを特徴とする。

また、本発明に係るオーディオデータ照合方法の特徴データ比較ステップは、前記特異点と前記代表点との間で形成される図形が一致するか否かによって前記特徴データの一致を判定することを特徴とする。

さらに、本発明に係るオーディオデータ照合方法の特徴データ比較ステップは、前記照合対象特徴データと前記比較対象特徴データとの間で対応するフレームの代表点同士を結んだ代表点間ベクトルを生成し、前記代表点間ベクトルが一致するか否かによって前記特徴データの一致を判定することを特徴とする。

また、本発明に係るオーディオデータ特徴抽出装置は、処理対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部と、前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定部と、前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成部とを備えることを特徴とする。

さらに、本発明に係るオーディオデータ照合装置は、照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部と、前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定部と、前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成部と、オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較部とを備えることを特徴とする。

また、本発明に係るオーディオデータ特徴抽出プログラムは、コンピュータに、処理対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップとを実行させることを特徴とする。

さらに、本発明に係るオーディオデータ照合プログラムは、コンピュータに、照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップとを実行させることを特徴とする。

また、本発明に係るオーディオデータ照合方法は、照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、前記パワーマップの所定時間長のフレームにおけるサンプルの内のパワーが最も大きなサンプルである代表点と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップとを含み、前記特徴データ比較ステップにおいて、前記照合対象となるオーディオデータから生成した特徴データが前記比較対象となる特徴データのいずれとも一致しなかった場合には前記照合対象となるオーディオデータから生成した特徴データの代表点を別の特異点へと入れ替えて、再度、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較することを特徴とする。

さらに、本発明に係るオーディオデータ照合装置は、照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部と、前記パワーマップの所定時間長のフレームにおけるサンプルの内のパワーが最も大きなサンプルである代表点と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成部と、オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較部とを備え、前記特徴データ比較部は、前記照合対象となるオーディオデータから生成した特徴データが前記比較対象となる特徴データのいずれとも一致しなかった場合には前記照合対象となるオーディオデータから生成した特徴データの代表点を別の特異点へと入れ替えて、再度、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較することを特徴とする。

また、本発明に係るオーディオデータ照合プログラムは、コンピュータに、照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、前記パワーマップの所定時間長のフレームにおけるサンプルの内のパワーが最も大きなサンプルである代表点と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップとを実行させるオーディオデータ照合プログラムであり、前記特徴データ比較ステップにおいて、前記照合対象となるオーディオデータから生成した特徴データが前記比較対象となる特徴データのいずれとも一致しなかった場合には前記照合対象となるオーディオデータから生成した特徴データの代表点を別の特異点へと入れ替えて、再度、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較することを特徴とする。

本発明に係るオーディオデータ特徴抽出方法、オーディオデータ特徴抽出プログラム及びオーディオデータ特徴抽出装置によれば、オーディオデータの中で特異点や代表点のある部分を中心にフレームを決定して特徴データを算出するので、オーディオデータの中で特徴のある部分から特徴データを算出することができ、これによってオーディオデータの特徴を確実に抽出することができる。

また、本発明に係るオーディオデータ照合方法、オーディオデータ照合プログラム、オーディオデータ照合装置及びオーディオデータ照合システムによれば、オーディオデータの中で特異点や代表点のある部分を中心にフレームを決定し、このフレーム毎に算出された特徴データを用いてオーディオデータを照合するので、オーディオデータの中で特徴のある部分を用いてオーディオデータを照合することができ、これによって誤りのない確実なオーディオデータの照合を実現することができる。

本発明を適用した第１の実施形態に係るオーディオデータ照合システムの構成を示すブロック図である。本発明を適用した第１の実施形態に係るオーディオデータ特徴抽出装置によるパワーマップ生成処理の手順を示すフローチャートである。本発明を適用した第１の実施形態に係るオーディオデータ特徴抽出装置による特徴データの抽出処理の手順を示すフローチャートである。本発明を適用した第１の実施形態に係るオーディオデータ特徴抽出装置によってパワーマップ上に設定されたフレームを説明するための図である。本発明を適用した第１の実施形態に係るオーディオデータ照合装置によるオーディオデータ照合処理の手順を示すフローチャートである。本発明を適用した第１の実施形態に係るオーディオデータ照合装置による特異点の集合の比較処理の手順を示すフローチャートである。本発明を適用した第１の実施形態に係るオーディオデータ照合装置による特異点の集合の比較方法を説明するための図である。本発明を適用した第１の実施形態に係るオーディオデータ照合装置による代表点間ベクトルの比較方法を説明するための図である。本発明を適用した第２の実施形態に係るオーディオデータ照合装置による特異点の集合の比較処理の手順を示すフローチャートである。本発明を適用した第２の実施形態に係るオーディオデータ照合装置による特異点の集合の比較方法を説明するための図である。

［第１の実施形態］
以下、本発明を適用した第１の実施形態について図面を参照して説明する。図１は本実施形態に係るオーディオデータ照合システムの構成を示すブロック図である。

図１に示すように、本実施形態に係るオーディオデータ照合システム１は、既知のオーディオデータから特徴データを抽出するオーディオデータ特徴抽出装置２と、オーディオデータ特徴抽出装置２で抽出された特徴データをデータベース３１に格納する特徴データ格納サーバ３と、未知のオーディオデータから抽出された特徴データと特徴データ格納サーバ３に格納されている特徴データとを比較してオーディオデータを照合するオーディオデータ照合装置４とを備えている。

上述したように、本実施形態に係るオーディオデータ照合システム１は、既知のオーディオデータから抽出した特徴データをデータベース３１に格納しておき、未知のオーディオデータから抽出した特徴データとデータベース３１に格納されている特徴データとを比較して照合することによって、未知のオーディオデータの曲名や歌手名などを識別するものである。

ただし、図１では特徴データ格納サーバ３だけにデータベース３１が設置されている場合を一例として示しているが、データベース３１は特徴データ格納サーバ３の他にオーディオデータ特徴抽出装置２に設置されていてもよいし、オーディオデータ照合装置４に設置されていてもよい。さらに特徴データ格納サーバ３、オーディオデータ特徴抽出装置２及びオーディオデータ照合装置４のすべてに設置されていてもよい。

以下、オーディオデータ照合システム１を構成する各装置について説明する。

オーディオデータ特徴抽出装置２は、既知のオーディオデータを周波数変換して、時刻毎及び周波数毎のパワーを示すデータであるパワーマップを生成するパワーマップ生成部２１と、パワーマップの所定時間内におけるパワーが極大となる点を特異点として設定し、特異点の中で最大のものを代表点として設定し、代表点が所定の時間幅を有するフレームの中央に位置するようにフレームの位置を決定するフレーム決定部２２と、フレーム内における特異点と代表点の位置を特徴データとして生成する特徴データ生成部２３とを備えている。

特徴データ格納サーバ３は、特徴データを格納するためのデータベース３１を備え、オーディオデータ特徴抽出装置２で特徴データが生成されると、生成された特徴データをインターネットなどの通信網を介して受信してデータベース３１に格納する。このとき曲名や歌手名などの識別情報を特徴データに関連付けて登録する。また、オーディオデータ照合装置４で特徴データの照合を行う場合には、比較対象となる特徴データをデータベース３１から読み出してインターネットなどの通信網を介してオーディオデータ照合装置４に提供する。

オーディオデータ照合装置４は、照合対象となる未知のオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部４１と、パワーマップの所定時間内におけるパワーが極大となる点を特異点として設定し、特異点の中で最大のものを代表点として設定し、代表点が所定の時間幅を有するフレームの中央に位置するようにフレームの位置を決定するフレーム決定部４２と、フレーム内における特異点と代表点の位置を照合対象特徴データとして生成する特徴データ生成部４３と、予め識別情報が登録されている比較対象特徴データをデータベース３１から取得し、比較対象特徴データと照合対象特徴データとを比較して、照合対象特徴データが比較対象特徴データと一致した場合には、照合対象となる未知のオーディオデータの識別情報は比較対象特徴データの識別情報と同一であると判定する特徴データ比較部４４とを備えている。ここで、比較対象特徴データは、特徴データ格納サーバ３から取得してもよいし、オーディオデータ照合装置４がデータベースを備えていて、そのデータベースから取得するようにしてもよい。

［パワーマップ生成処理の手順］
次に、本実施形態に係るオーディオデータ特徴抽出装置２のパワーマップ生成部２１によるパワーマップ生成処理の手順を図２のフローチャートを参照して説明する。

図２に示すように、ステップＳ１０１においてＰＣＭデータ化されたオーディオデータが入力されると、次にステップＳ１０２において入力されたオーディオデータを所定のサンプリング周波数にダウンサンプルする。この処理はオーディオデータを識別するために冗長な高域成分を取り除くとともに以後の処理で必要となる演算量を削減する効果がある。

次に、ステップＳ１０３において窓関数処理を行う。この処理は次に行う高速フーリエ変換処理のための前処理であり、有限長のフーリエ変換においては不可欠なものである。

次にステップＳ１０４において高速フーリエ変換を行う。ステップＳ１０３とステップＳ１０４を行う目的は時間ドメインから周波数ドメインへの直行変換を目的としているものであり、同様の効果があるＤＣＴなどの他の直行変換を用いてもよい。

次に、ステップＳ１０５においてバンド分割処理を行う。このバンド分割処理は人間の聴覚特性による周波数分解能に応じて設定されるものである。処理対象となるオーディオデータがＭＰＥＧ音声圧縮方式などを用いて圧縮されている場合には、人間の聴覚特性上では判別が困難な微細な信号を削減しているので、そのような微細な信号の変化によって特徴データが変化することは照合の精度を劣化させるため好ましくない。そこで一般的な音声圧縮方式としてよく用いられている帯域分割に即した帯域分割法を用いることによって、圧縮によって照合精度が劣化しにくくなるようにしている。

このようにしてバンド分割処理が行われると、入力されたオーディオデータから切り出される時間範囲を移動させながら、上述したステップＳ１０２からステップＳ１０５までの処理を繰り返し行うことによって、ＰＣＭデータ化されたオーディオデータを時刻毎、周波数帯域毎に配列されたマトリックス状のデータに変換する。そして、データの変換が完了すると（ステップＳ１０６）、ステップＳ１０７では、ステップＳ１０５で生成されたマトリックス状のデータの各成分を二乗してパワーを算出し、パワーマップを生成する。このパワーマップはオーディオ信号処理の分野では周知のスペクトログラムであり、横軸が時間、縦軸が周波数で、各点の濃淡や色を変化させることによって、ある時点のある周波数におけるパワーの強さを表すものである。

さらに、ステップＳ１０８において、生成されたパワーマップに対して所定の時間幅内での平均値を用いて正規化を行う。また、標準偏差を求めてパワーの代わりにパワーの偏差値を用いてもよい。ここで所定の時間幅としては下記に説明する特異点の分布範囲を用いることができる。

こうしてパワーマップが生成されると、本実施形態に係るオーディオデータ特徴抽出装置２によるパワーマップ生成処理は終了する。

［特徴データの抽出処理の手順］
次に、本実施形態に係るオーディオデータ特徴抽出装置２による特徴データの抽出処理の手順を図３のフローチャートを参照して説明する。

図３に示すように、ステップＳ２０１においてパワーマップを入力して処理を開始すると、次にステップＳ２０２ではフレーム決定部２２によってパワーマップ上にフレームの初期位置を設定する（以下、ステップＳ２０７までフレーム決定部２２による処理）。

ここで、図４を参照してフレームの一例を説明する。図４に示すように、パワーマップはスペクトログラムであり、横軸が時間、縦軸が周波数である。図４では図示していないが、時間−周波数の各点にはパワーの強さを表す濃淡や色が表示されている。そして、図４に示す斜線部分がフレームであり、所定の時間幅でパワーマップからデータを切り出したものである。

このようなフレームの最初の切り出し位置をステップＳ２０２では初期位置として設定するが、例えばパワーマップの時間軸上の開始位置を初期位置として設定する。

次に、ステップＳ２０３では、設定されたフレーム内でパワーが極大となる点を検索し、図４に示すように所定の数、例えば数個程度を検出して、これを特異点とする。さらに、特異点の中で最も大きいものを代表点とする。代表点の数は１つのオーディオデータで数個から十数個程度が好ましい。

ここで、代表点と特異点との間を結ぶベクトルを生成し、このベクトルの長さが所定の値以下となる特異点ばかりが存在する場合には特異点の数を増やして、ベクトルの長さが長くなるような特異点を含むように制御してもよい。これによりパワーのピークが一点に集中している場合に特異点が一箇所に集中して、特徴データの特徴を認識しにくくなるという問題を回避することができる。

また、照合用の特徴データの生成において特徴データを生成する楽曲の一部分を選択する基準としては以下のようなものを使用することができる。例えば、算出した特徴データに含まれる特異点ベクトルの長さが長いものや、代表点を算出するために切り出したパワーマップの分散が大きいもの、特異点の偏差値が大きいものなどである。

こうして特異点と代表点が検出されると、次にステップＳ２０４において代表点がフレームの中央にあるか否かを判定し、中央でないときにはステップＳ２０５へ移行してフレームの位置を微小に移動させてからステップＳ２０３へ戻る。ステップＳ２０３では移動後のフレームで再び特異点と代表点を検出し、ステップＳ２０４で代表点がフレームの中央にあるか否かを判定する。この処理を代表点がフレームの中央になるまで繰り返し行い、代表点がフレームの中央になると、ステップＳ２０６へ移行してフレーム内における特異点及び代表点の位置をデータ化して特徴データとする。

次に、ステップＳ２０７において、パワーマップの時間軸上のすべてについて上述した特徴データを抽出する処理が行われたか否かを判定し、行われていない場合にはステップＳ２０５に戻ってフレームの位置を移動させてから上述した処理を繰り返し行う。また、パワーマップの時間軸上のすべてについて特徴データを抽出する処理が行われている場合には、ステップＳ２０８へ移行して特徴データ生成部２３が、抽出されたすべての特徴データを出力して、本実施形態に係るオーディオデータ特徴抽出装置２による特徴データの抽出処理は終了する。

こうして生成された特徴データは特徴データ格納サーバ３へインターネットなどの通信網を介して送信され、曲名や歌手名などの識別情報と関連付けられてデータベース３１に登録される。

上述したように、本実施形態に係るオーディオデータ特徴抽出装置２では、パワーが極大となる特異点や代表点の周辺をフレームとして切り出して特徴データとしている。したがって、代表点を含んだフレームはパワーマップ上で連続して発生するとは限らず、また特徴データを算出するために必要なＰＣＭデータの量も一定ではない。ただし、これにより無音の音楽データやそれに類する音楽データから特徴データを算出する場合に、情報量が低くてデータベースとの照合が困難な特徴データを算出してしまうという問題を回避することが可能となる。

［オーディオデータ照合処理の手順］
次に、本実施形態に係るオーディオデータ照合装置４の特徴データ比較部４４によるオーディオデータ照合処理の手順を図５のフローチャートを参照して説明する。このオーディオデータ照合処理は、未知のオーディオデータの曲名や歌手名などの識別情報を知るために、未知のオーディオデータの特徴データとデータベース３１に格納されている特徴データとを比較して照合するものである。そこで、図５に示すオーディオデータ照合処理を実施する前に、入力された未知のオーディオデータに対してパワーマップ生成部４１がパワーマップ生成処理を実施し、フレーム決定部４２及び特徴データ生成部４３が特徴データの抽出処理を行って照合対象特徴データを抽出しておく。照合対象特徴データが抽出されると、図５に示すオーディオデータ照合処理が実施される。

図５に示すように、まずステップＳ３０１において、照合しようとする未知のオーディオデータから抽出された照合対象特徴データが入力されると、その特徴データに基づいてデータベース３１から比較対象となる比較対象特徴データを取得し、これら２つの特徴データが入力される。

次に、ステップＳ３０２において、２つの特徴データからそれぞれ１つの代表点を選択し、選択された代表点の周囲にある特異点の集合を比較する。代表点の選択方法としては時間の早いものから順に選択していけばよい。

ここで、特異点の集合の比較方法について図６のフローチャートを参照して説明する。

図６に示すように、まずステップＳ４０１において比較される２つの特異点の集合を入力し、次にステップＳ４０２では２つの特異点の集合からそれぞれ１つの特異点を選択する。そして、ステップＳ４０３では、選択された特異点と代表点との間を結ぶベクトルを生成し、ステップＳ４０４においてベクトルの比較を行う。

ここで、図７を参照してベクトルの比較方法について説明する。図７に示すように、特異点及び代表点の間を結ぶベクトルが点線で表示されており、これらのベクトルをそれぞれ比較することによって特異点の集合を比較することができる。具体的な比較方法としては、２つの特異点の集合からそれぞれ１つのベクトルが生成されるので、それら２つのベクトルの内積を算出し、その内積の値が所定の閾値以上になった場合に２つのベクトルが一致していると判断する方法がある。このように内積を調べることによってベクトルの向きの一致を評価するだけではなく、閾値を高くすることによって代表点から遠い位置にある特異点を高く評価することができる。代表点の周辺に存在する特異点はパワーが密集している場合に発生しやすくて特徴が出にくいので、代表点から遠い位置にある特異点を高く評価したほうが正確に判定することができる。

また、その他の比較方法としては、代表点と特異点との間を結ぶベクトルの値をそのまま比較して時間方向および帯域方向の誤差が所定値以内の場合、例えばプラスマイナス１以内である場合に一致すると判断する方法もある。さらに、いずれの方法についても特異点におけるパワーの値を重み付けして処理を行うようにしても良い。

このようにしてベクトルを比較することによりベクトルの一致または不一致を判定すると、次にステップＳ４０５においてすべての特異点について比較が終わっているか否かを判定する。比較が終わっていない場合にはステップＳ４０６へ移行して別の特異点を選択し、上述したステップＳ４０３、４０４の処理を実行する。一方、比較が終わっている場合にはステップＳ４０７へ移行して一致したベクトルの数と予め設定されている閾値とを比較し、閾値を超えている場合にはステップＳ４０８へ移行して特異点の集合が一致して照合が成功したものと判断して比較処理を終了する。一方、一致したベクトルの数が閾値以下の場合にはステップＳ４０９へ移行して特異点の集合が一致せずに照合が失敗したものと判断して比較処理を終了する。尚、一致したベクトルの数と比較するための閾値は２個から数個程度を選択することが適当であり、多いほど誤検出率を低く設定することができる。

こうして図５のステップＳ３０２における特異点の集合の比較が終了すると、図５のフローチャートに戻り、特異点の集合の比較結果が不一致の場合にはステップＳ３０３へ移行し、一致した場合にはステップＳ３０４へ移行する。

ステップＳ３０３では代表点を含む特異点の集合の中で代表点の入れ替えが可能であるか否かを判定する。これは特異点の中で最大のものを代表点としているが、各特異点の大きさがほとんど同じであるような場合には、特異点の中で別の特異点が代表点となっている場合があるためである。そこで、代表点を別の特異点に順次入れ替えてステップＳ３０２へ戻って特異点の集合を比較する処理を行うようにする。例えば、図７を例にすると、特異点１を代表点としていた場合に特異点の集合が不一致になると、次に特異点２を代表点として特異点の集合を比較し、その後、特異点３、特異点４と順次入れ替えて特異点の集合を比較していく。そして、ステップＳ３０３においてすべての特異点の入れ替えが終了して特異点の入れ替えが不可能になると、ステップＳ３０５に移行して特徴データが不一致であると判定する。

また、ステップＳ３０２において特異点の集合が一致したと判定されてステップＳ３０４へ移行すると、一致した二つの特異点の集合に含まれている代表点同士を結んで代表点間ベクトルを生成し、この代表点間ベクトルと同一のベクトルとなる代表点の組み合わせがあるか否かを判定する。

例えば、図８を参照して説明すると、未知のオーディオデータから抽出された照合対象特徴データ８１と、データベース３１から取得した比較対象特徴データ８２を比較している場合に、照合対象特徴データ８１にはフレームＦ１ａ、Ｆ２ａ、Ｆ３ａ・・・が含まれ、比較対象特徴データ８２にはフレームＦ１ｂ、Ｆ２ｂ、Ｆ３ｂ・・・が含まれているとする。この場合にフレームＦ１ａの代表点Ｐ１ａからフレームＦ１ｂの代表点Ｐ１ｂへ延ばしたベクトルが代表点間ベクトルＶ１となる。そして、フレームＦ２ａの代表点Ｐ２ａからフレームＦ２ｂの代表点Ｐ２ｂへ延ばしたベクトルを代表点間ベクトルＶ２とすれば、特徴データ８１、８２が等しい場合には代表点間ベクトルＶ１と代表点間ベクトルＶ２は等しくなる。

このように代表点間ベクトルを比較することにより、パワーマップ上における時間位置と帯域上の位置とを比較することができる。また、比較する際には所定の閾値、例えばプラスマイナス１の誤差範囲で比較し、それ以上の差異がある場合には不一致とみなすものとする。

このようにして代表点間ベクトルを比較し、不一致の場合にはステップＳ３０６へ移行し、一致した場合にはステップＳ３０７へ移行する。

ステップＳ３０６では次の代表点があるか否かを判定する。例えば、図８において代表点間ベクトルＶ１、Ｖ２を比較して不一致の場合に、次の代表点としてＰ３ａ、Ｐ３ｂがあるので、次の代表点があると判定する。そして、次の代表点があると判定されると、ステップＳ３０４に戻って今度は代表点間ベクトルＶ１と代表点間ベクトルＶ３の比較が行われる。これを順次繰り返して次の代表点がなくなった場合にはステップＳ３０８へ移行して特徴データは不一致であると判定される。

また、ステップＳ３０４において代表点間ベクトルが一致したと判定されてステップＳ３０７へ移行すると、一致した代表点間ベクトルを構成する代表点の周囲にある特異点の集合を比較して一致するか否かを判定する。例えば、図８において、代表点間ベクトルＶ１と代表点間ベクトルＶ２が一致した場合には、代表点間ベクトルＶ２を構成する代表点Ｐ２ａと代表点Ｐ２ｂの周囲にある特異点の集合を比較する。比較方法についてはステップＳ３０２と同様なので説明は省略する。そして、特異点の集合が不一致の場合にはステップＳ３０９へ移行して代表点の入れ替えを行い、特異点の集合が一致した場合にはステップＳ３１０へ移行して特徴データが一致していると判定する。

こうしてステップＳ３１０までの処理によって一致または不一致の判定が行われると、次にステップＳ３１１において、すべての代表点を比較したか否かを判定し、比較していない場合にはステップＳ３１２へ移行して次の代表点を選択してから上述したステップＳ３０２〜３１０の処理を繰り返し行う。また、すべての代表点が比較されている場合にはステップＳ３１３へ移行する
ステップＳ３１３では、ステップＳ３１０において一致と判定された数と閾値とを比較する。一致した数が閾値を超えている場合にはステップＳ３１４へ移行して特徴データの照合が成功したものと判断して本実施形態に係るオーディオデータ照合装置４によるオーディオデータ照合処理を終了する。また、一致した数が閾値以下の場合にはステップＳ３１５へ移行して特徴データの照合が失敗したものと判断して本実施形態に係るオーディオデータ照合装置４によるオーディオデータ照合処理は終了する。ここで閾値としては数個程度に設定することが可能であり、数を増やすことによって照合の誤検出率を下げることができる。

こうしてオーディオデータ照合処理が終了して特徴データが一致した場合には、照合対象である未知のオーディオデータの識別情報は、比較対象特徴データに登録されている識別情報と同一であると判定され、未知のオーディオデータの曲名や歌手名などが分かることになる。

尚、本実施形態では、図１に示すようにオーディオデータ特徴抽出装置２とオーディオデータ照合装置４をハードウエアによって構成する場合について説明したが、本発明はハードウエアで構成したものに限定されるわけではなく、例えば、ＣＰＵと、そのＣＰＵを上述したように動作させるためのコンピュータプログラムによって、オーディオデータ特徴抽出装置２とオーディオデータ照合装置４の機能を達成させるようにしても勿論よい。この場合、コンピュータプログラムは、記録媒体からコンピュータに取り込んでもよいし、ネットワーク経由でコンピュータに取り込むようにしても良い。

［第１の実施形態の効果］
上述したように、本実施形態に係るオーディオデータ特徴抽出装置２によれば、オーディオデータの中で特異点や代表点のある部分を中心にフレームを決定して特徴データを生成するので、オーディオデータの中で特徴のある部分から特徴データを算出することができる。これにより、無音部分や観客の歓声などの部分から特徴データを算出することがなくなり、オーディオデータの特徴を確実に抽出することができる。

また、本実施形態に係るオーディオデータ照合装置４によれば、オーディオデータの中で特異点や代表点のある部分を中心にフレームを決定し、このフレーム毎に算出された特徴データを用いてオーディオデータを照合するので、オーディオデータの中で特徴のある部分を用いてオーディオデータを照合することができ、これによって誤検出のない確実なオーディオデータの照合を実現することができる。

さらに、本実施形態に係るオーディオデータ照合装置４によれば、特異点と代表点との間を結んだベクトルが一致するか否かによって特徴データの一致を判定するので、簡単な方法で容易に特徴データの一致を判定することができる。

さらに、本実施形態に係るオーディオデータ照合装置４によれば、代表点間ベクトルを生成し、この代表点間ベクトルが一致するか否かによって特徴データの一致を判定するので、２つの特徴データのフレーム同士の位置関係についても一致するか否かを判定することができ、これによってより精度よく特徴データの一致を判定することができる。

［第２の実施形態］
以下、本発明を適用した第２の実施形態について図面を参照して説明する。ただし、本実施形態では、特異点の集合の比較方法が相違しているだけで、その他の処理及び構成については第１の実施形態と同一なので、詳細な説明は省略する。

本実施形態に係るオーディオデータ照合装置４の特徴データ比較部４４による特異点の集合の比較方法について図９のフローチャートを参照して説明する。第１の実施形態では特異点と代表点との間を結んだベクトルを比較していたが、本実施形態では特異点と代表点とから形成される多角形を比較する。

図９に示すように、まずステップＳ５０１において比較対象となる二つの特異点の集合を入力する。次にステップＳ５０２では２つ以上の特異点を選択し、選択された特異点と代表点とから多角形を生成する。そして、ステップＳ５０３において多角形の比較を行う。

ここで、図１０を参照して多角形の比較方法について説明する。図１０に示すように、特異点と代表点とから形成された多角形が点線で表示されており、これらの多角形をそれぞれ比較することによって特異点の集合を比較することができる。具体的な比較方法としては、比較する２つの多角形を重ね合わせて重複する面積の割合を求め、この割合を所定の閾値と比較して閾値以上になった場合に２つの多角形が一致すると判定すればよい。ここで、多角形を形成する際には代表点を必ず含んでいるものとし、含んでいる特異点の数に応じて重み付け処理を行ってもよい。

このようにしてステップＳ５０３において多角形を比較して一致または不一致の判定を行うと、次にステップＳ５０４においてすべての多角形について比較が終わっているか否かを判定する。比較が終わっていない場合にはステップＳ５０２へ戻って別の多角形を生成し、上述したステップＳ５０３の処理を実行する。一方、すべての多角形について比較が終わっている場合にはステップＳ５０５へ移行して一致した多角形の数と予め設定されている閾値とを比較し、閾値を超えている場合にはステップＳ５０６へ移行して特異点の集合が一致して照合が成功したものと判断して比較処理を終了する。一方、一致した多角形の数が閾値以下の場合にはステップＳ５０７へ移行して特異点の集合が一致せずに照合が失敗したものと判断して比較処理を終了する。

［第２の実施形態の効果］
上述したように、本実施形態に係るオーディオデータ照合装置４によれば、特異点と代表点との間で形成される図形が一致するか否かによって特徴データの一致を判定するので、簡単な方法で容易に特徴データの一致を判定することができる。

以上、本発明を一実施の形態によって説明したが、上記実施形態は、本発明の技術的思想を具体化するための装置や方法を例示するためのものであって、この発明の技術的思想は、構成物品の材質、形状、構造、配置等を特定するものでない。この発明の技術的思想は、特許請求の範囲において種々の変更を加えることができる。

１オーディオデータ照合システム
２オーディオデータ特徴抽出装置
３特徴データ格納サーバ
４オーディオデータ照合装置
２１、４１パワーマップ生成部
２２、４２フレーム決定部
２３、４３特徴データ生成部
３１データベース
４４特徴データ比較部

Claims

処理対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、
前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、
前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと
を含むことを特徴とするオーディオデータ特徴抽出方法。
照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、
前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、
前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップと
を含むことを特徴とするオーディオデータ照合方法。
前記特徴データ比較ステップは、前記特異点と前記代表点とを結んだベクトルが一致するか否かによって前記特徴データの一致を判定することを特徴とする請求項２に記載のオーディオデータ照合方法。
前記特徴データ比較ステップは、前記特異点と前記代表点とで形成される図形が一致するか否かによって前記特徴データの一致を判定することを特徴とする請求項２に記載のオーディオデータ照合方法。
前記特徴データ比較ステップは、前記照合対象特徴データと前記比較対象特徴データとの間で対応するフレームの代表点同士を結んだ代表点間ベクトルを生成し、前記代表点間ベクトルが一致するか否かによって前記特徴データの一致を判定することを特徴とする請求項２〜４のいずれか１項に記載のオーディオデータ照合方法。
処理対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部と、
前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定部と、
前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成部と
を備えることを特徴とするオーディオデータ特徴抽出装置。
照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部と、
前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定部と、
前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成部と、
オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較部と
を備えることを特徴とするオーディオデータ照合装置。
コンピュータに、
処理対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、
前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、
前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと
を実行させることを特徴とするオーディオデータ特徴抽出プログラム。
コンピュータに、
照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、
前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、
前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、
オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップと
を実行させることを特徴とするオーディオデータ照合プログラム。
照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、
前記パワーマップの所定時間長のフレームにおけるサンプルの内のパワーが最も大きなサンプルである代表点と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、
オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップと
を含み、
前記特徴データ比較ステップにおいて、前記照合対象となるオーディオデータから生成した特徴データが前記比較対象となる特徴データのいずれとも一致しなかった場合には前記照合対象となるオーディオデータから生成した特徴データの代表点を別の特異点へと入れ替えて、再度、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較することを特徴とするオーディオデータ照合方法。
照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部と、
前記パワーマップの所定時間長のフレームにおけるサンプルの内のパワーが最も大きなサンプルである代表点と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成部と、
オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較部と
を備え、
前記特徴データ比較部は、前記照合対象となるオーディオデータから生成した特徴データが前記比較対象となる特徴データのいずれとも一致しなかった場合には前記照合対象となるオーディオデータから生成した特徴データの代表点を別の特異点へと入れ替えて、再度、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較することを特徴とするオーディオデータ照合装置。
コンピュータに、
照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、
前記パワーマップの所定時間長のフレームにおけるサンプルの内のパワーが最も大きなサンプルである代表点と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、
オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップと
を実行させるオーディオデータ照合プログラムであり、
前記特徴データ比較ステップにおいて、前記照合対象となるオーディオデータから生成した特徴データが前記比較対象となる特徴データのいずれとも一致しなかった場合には前記照合対象となるオーディオデータから生成した特徴データの代表点を別の特異点へと入れ替えて、再度、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較することを特徴とするオーディオデータ照合プログラム。