JP2012185195A - オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム - Google Patents

オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム Download PDF

Info

Publication number
JP2012185195A
JP2012185195A JP2011046163A JP2011046163A JP2012185195A JP 2012185195 A JP2012185195 A JP 2012185195A JP 2011046163 A JP2011046163 A JP 2011046163A JP 2011046163 A JP2011046163 A JP 2011046163A JP 2012185195 A JP2012185195 A JP 2012185195A
Authority
JP
Japan
Prior art keywords
audio data
feature data
frame
data
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011046163A
Other languages
English (en)
Inventor
Joji Naito
丈嗣 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2011046163A priority Critical patent/JP2012185195A/ja
Publication of JP2012185195A publication Critical patent/JP2012185195A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】誤りのない確実なオーディオデータの照合を実現することのできるオーディオデータ照合システムを提供する。
【解決手段】本発明のオーディオデータ照合システム1は、既知のオーディオデータから特徴データを抽出するオーディオデータ特徴抽出装置2と、既知のオーディオデータから生成された特徴データに識別情報を登録してデータベース31に格納する特徴データ格納サーバ3と、未知のオーディオデータから特徴データを生成し、データベース31に格納されている特徴データと比較して照合するオーディオデータ照合装置4とを備えていることを特徴とする。
【選択図】図1

Description

本発明は、未知のオーディオデータの特徴を抽出して予め登録されているオーディオデータと比較することによって、未知のオーディオデータを識別するオーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システムに関する。
昨今のデジタル化の発展により、デジタル化した音楽データやその他の音声データコンテンツを大量に記録可能な音楽再生装置が一般に普及するようになった。それに伴って、大量に記録した音楽データの管理を円滑に行うために音楽データの識別を行う必要が出てきている。音楽データやその他の音声データコンテンツでは、しばしばオーディオデータのフォーマットの一部に予め記録されているメタデータを用いて識別、管理が行えるようになっていた。ところが、メタデータを持たないPCMデータフォーマットを介したデータの送受信やCDなどのパッケージメディアを通じたデータの授受、売買などが行われた場合には、メタデータではなく、オーディオデータそのものからコンテンツを識別する必要があった。このような要求に対して、従来では特許文献1や特許文献2に記載されているようなオーディオデータの解析技術が開示されている。
特許文献1では、オーディオデータを一定の時間幅毎に周波数解析し、その後に帯域分割して時間方向及び帯域方向にフィルタ処理を行った結果を抽出して特徴データとする方法が提案されている。また特許文献2では、オーディオデータからランドマークと呼ばれる特定の位置周辺におけるスペクトル成分を特徴データとする方法が提案されている。
ここで、このような特徴データを管理楽曲のオーディオデータに対して予め算出してデータベースに記録しておき、未知の楽曲について同様の特徴データを算出して予め記録された特徴データと比較することにより、管理楽曲のいずれであるかを判定することができる。
特表2005−531024号公報 特表2004−505328号公報
しかしながら、実際のオーディオデータの中には無音部分やホワイトノイズに近いような特徴の少ないオーディオデータ、ライブ音楽の録音物にあるような観客の歓声や拍手など、人間が耳で聞いてもどの録音物であるのか判定できないものも多く含まれている。
特許文献1に開示された方法では、一定の時間幅のオーディオデータ毎に所定の解析処理を行ってなんらかの特徴データを算出しているので、特徴の現れにくいオーディオデータ部分に対しても同じように特徴データを生成している。そのため特徴データのデータ量が増大してしまう問題がある。またデータベースに登録されている多数の楽曲の特徴データと比較する際に、処理量が増大する問題がある。また特徴の少ない特徴データの部分で異なる楽曲を混同しやすいという問題点があった。
また、特許文献2に開示された方法では、ランドマークと呼ばれる特定の位置を音楽のパワーの極大点から検出するが、音楽データによっては類似の極大点が近接して複数存在する場合がある。そのような場合にはランドマークの検出精度が下がり易く、音楽データが劣化した環境での検出精度を落としてしまうという問題点があった。
そこで、本発明は、上述した実情に鑑みて提案されたものであり、オーディオデータの中で特徴のある部分を中心にし、さらにパワーマップ上の極大点間のベクトルの集合の特徴が大きく現れるように選択された特徴点と代表点からなる特徴データを算出することにより、オーディオデータの特徴を確実に抽出することのできるオーディオデータの特徴抽出方法、オーディオデータの特徴抽出プログラム、オーディオデータ特徴抽出装置を提供することを目的とする。また、上記のように算出された特徴データを用いて、複数の特徴点と代表点からなるベクトルの集合を網羅的に比較してオーディオデータを照合することにより、誤りのない確実なオーディオデータの照合を行うことのできるオーディオデータ照合方法、オーディオデータ照合プログラム、オーディオデータ照合装置及びオーディオデータ照合システムを提供することを目的とする。
上記した目的を達成するために、本発明に係るオーディオデータ特徴抽出方法は、処理対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップとを含むことを特徴とする。
また、本発明に係るオーディオデータ照合方法は、照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、 オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップとを含むことを特徴とする。
さらに、本発明に係るオーディオデータ照合方法の特徴データ比較ステップは、前記特異点と前記代表点との間を結んだベクトルが一致するか否かによって前記特徴データの一致を判定することを特徴とする。
また、本発明に係るオーディオデータ照合方法の特徴データ比較ステップは、前記特異点と前記代表点との間で形成される図形が一致するか否かによって前記特徴データの一致を判定することを特徴とする。
さらに、本発明に係るオーディオデータ照合方法の特徴データ比較ステップは、前記照合対象特徴データと前記比較対象特徴データとの間で対応するフレームの代表点同士を結んだ代表点間ベクトルを生成し、前記代表点間ベクトルが一致するか否かによって前記特徴データの一致を判定することを特徴とする。
また、本発明に係るオーディオデータ特徴抽出装置は、処理対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部と、前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定部と、前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成部とを備えることを特徴とする。
さらに、本発明に係るオーディオデータ照合装置は、照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部と、前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定部と、前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成部と、オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較部とを備えることを特徴とする。
また、本発明に係るオーディオデータ特徴抽出プログラムは、コンピュータに、処理対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、 前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップとを実行させることを特徴とする。
さらに、本発明に係るオーディオデータ照合プログラムは、コンピュータに、照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、 前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップとを実行させることを特徴とする。
また、本発明に係るオーディオデータ照合方法は、照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、前記パワーマップの所定時間長のフレームにおけるサンプルの内のパワーが最も大きなサンプルである代表点と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップとを含み、前記特徴データ比較ステップにおいて、前記照合対象となるオーディオデータから生成した特徴データが前記比較対象となる特徴データのいずれとも一致しなかった場合には前記照合対象となるオーディオデータから生成した特徴データの代表点を別の特異点へと入れ替えて、再度、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較することを特徴とする。
さらに、本発明に係るオーディオデータ照合装置は、照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部と、前記パワーマップの所定時間長のフレームにおけるサンプルの内のパワーが最も大きなサンプルである代表点と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成部と、オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較部とを備え、前記特徴データ比較部は、前記照合対象となるオーディオデータから生成した特徴データが前記比較対象となる特徴データのいずれとも一致しなかった場合には前記照合対象となるオーディオデータから生成した特徴データの代表点を別の特異点へと入れ替えて、再度、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較することを特徴とする。
また、本発明に係るオーディオデータ照合プログラムは、コンピュータに、照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、前記パワーマップの所定時間長のフレームにおけるサンプルの内のパワーが最も大きなサンプルである代表点と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップとを実行させるオーディオデータ照合プログラムであり、前記特徴データ比較ステップにおいて、前記照合対象となるオーディオデータから生成した特徴データが前記比較対象となる特徴データのいずれとも一致しなかった場合には前記照合対象となるオーディオデータから生成した特徴データの代表点を別の特異点へと入れ替えて、再度、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較することを特徴とする。
本発明に係るオーディオデータ特徴抽出方法、オーディオデータ特徴抽出プログラム及びオーディオデータ特徴抽出装置によれば、オーディオデータの中で特異点や代表点のある部分を中心にフレームを決定して特徴データを算出するので、オーディオデータの中で特徴のある部分から特徴データを算出することができ、これによってオーディオデータの特徴を確実に抽出することができる。
また、本発明に係るオーディオデータ照合方法、オーディオデータ照合プログラム、オーディオデータ照合装置及びオーディオデータ照合システムによれば、オーディオデータの中で特異点や代表点のある部分を中心にフレームを決定し、このフレーム毎に算出された特徴データを用いてオーディオデータを照合するので、オーディオデータの中で特徴のある部分を用いてオーディオデータを照合することができ、これによって誤りのない確実なオーディオデータの照合を実現することができる。
本発明を適用した第1の実施形態に係るオーディオデータ照合システムの構成を示すブロック図である。 本発明を適用した第1の実施形態に係るオーディオデータ特徴抽出装置によるパワーマップ生成処理の手順を示すフローチャートである。 本発明を適用した第1の実施形態に係るオーディオデータ特徴抽出装置による特徴データの抽出処理の手順を示すフローチャートである。 本発明を適用した第1の実施形態に係るオーディオデータ特徴抽出装置によってパワーマップ上に設定されたフレームを説明するための図である。 本発明を適用した第1の実施形態に係るオーディオデータ照合装置によるオーディオデータ照合処理の手順を示すフローチャートである。 本発明を適用した第1の実施形態に係るオーディオデータ照合装置による特異点の集合の比較処理の手順を示すフローチャートである。 本発明を適用した第1の実施形態に係るオーディオデータ照合装置による特異点の集合の比較方法を説明するための図である。 本発明を適用した第1の実施形態に係るオーディオデータ照合装置による代表点間ベクトルの比較方法を説明するための図である。 本発明を適用した第2の実施形態に係るオーディオデータ照合装置による特異点の集合の比較処理の手順を示すフローチャートである。 本発明を適用した第2の実施形態に係るオーディオデータ照合装置による特異点の集合の比較方法を説明するための図である。
[第1の実施形態]
以下、本発明を適用した第1の実施形態について図面を参照して説明する。図1は本実施形態に係るオーディオデータ照合システムの構成を示すブロック図である。
図1に示すように、本実施形態に係るオーディオデータ照合システム1は、既知のオーディオデータから特徴データを抽出するオーディオデータ特徴抽出装置2と、オーディオデータ特徴抽出装置2で抽出された特徴データをデータベース31に格納する特徴データ格納サーバ3と、未知のオーディオデータから抽出された特徴データと特徴データ格納サーバ3に格納されている特徴データとを比較してオーディオデータを照合するオーディオデータ照合装置4とを備えている。
上述したように、本実施形態に係るオーディオデータ照合システム1は、既知のオーディオデータから抽出した特徴データをデータベース31に格納しておき、未知のオーディオデータから抽出した特徴データとデータベース31に格納されている特徴データとを比較して照合することによって、未知のオーディオデータの曲名や歌手名などを識別するものである。
ただし、図1では特徴データ格納サーバ3だけにデータベース31が設置されている場合を一例として示しているが、データベース31は特徴データ格納サーバ3の他にオーディオデータ特徴抽出装置2に設置されていてもよいし、オーディオデータ照合装置4に設置されていてもよい。さらに特徴データ格納サーバ3、オーディオデータ特徴抽出装置2及びオーディオデータ照合装置4のすべてに設置されていてもよい。
以下、オーディオデータ照合システム1を構成する各装置について説明する。
オーディオデータ特徴抽出装置2は、既知のオーディオデータを周波数変換して、時刻毎及び周波数毎のパワーを示すデータであるパワーマップを生成するパワーマップ生成部21と、パワーマップの所定時間内におけるパワーが極大となる点を特異点として設定し、特異点の中で最大のものを代表点として設定し、代表点が所定の時間幅を有するフレームの中央に位置するようにフレームの位置を決定するフレーム決定部22と、フレーム内における特異点と代表点の位置を特徴データとして生成する特徴データ生成部23とを備えている。
特徴データ格納サーバ3は、特徴データを格納するためのデータベース31を備え、オーディオデータ特徴抽出装置2で特徴データが生成されると、生成された特徴データをインターネットなどの通信網を介して受信してデータベース31に格納する。このとき曲名や歌手名などの識別情報を特徴データに関連付けて登録する。また、オーディオデータ照合装置4で特徴データの照合を行う場合には、比較対象となる特徴データをデータベース31から読み出してインターネットなどの通信網を介してオーディオデータ照合装置4に提供する。
オーディオデータ照合装置4は、照合対象となる未知のオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部41と、 パワーマップの所定時間内におけるパワーが極大となる点を特異点として設定し、特異点の中で最大のものを代表点として設定し、代表点が所定の時間幅を有するフレームの中央に位置するようにフレームの位置を決定するフレーム決定部42と、フレーム内における特異点と代表点の位置を照合対象特徴データとして生成する特徴データ生成部43と、 予め識別情報が登録されている比較対象特徴データをデータベース31から取得し、比較対象特徴データと照合対象特徴データとを比較して、照合対象特徴データが比較対象特徴データと一致した場合には、照合対象となる未知のオーディオデータの識別情報は比較対象特徴データの識別情報と同一であると判定する特徴データ比較部44とを備えている。ここで、比較対象特徴データは、特徴データ格納サーバ3から取得してもよいし、オーディオデータ照合装置4がデータベースを備えていて、そのデータベースから取得するようにしてもよい。
[パワーマップ生成処理の手順]
次に、本実施形態に係るオーディオデータ特徴抽出装置2のパワーマップ生成部21によるパワーマップ生成処理の手順を図2のフローチャートを参照して説明する。
図2に示すように、ステップS101においてPCMデータ化されたオーディオデータが入力されると、次にステップS102において入力されたオーディオデータを所定のサンプリング周波数にダウンサンプルする。この処理はオーディオデータを識別するために冗長な高域成分を取り除くとともに以後の処理で必要となる演算量を削減する効果がある。
次に、ステップS103において窓関数処理を行う。この処理は次に行う高速フーリエ変換処理のための前処理であり、有限長のフーリエ変換においては不可欠なものである。
次にステップS104において高速フーリエ変換を行う。ステップS103とステップS104を行う目的は時間ドメインから周波数ドメインへの直行変換を目的としているものであり、同様の効果があるDCTなどの他の直行変換を用いてもよい。
次に、ステップS105においてバンド分割処理を行う。このバンド分割処理は人間の聴覚特性による周波数分解能に応じて設定されるものである。処理対象となるオーディオデータがMPEG音声圧縮方式などを用いて圧縮されている場合には、人間の聴覚特性上では判別が困難な微細な信号を削減しているので、そのような微細な信号の変化によって特徴データが変化することは照合の精度を劣化させるため好ましくない。そこで一般的な音声圧縮方式としてよく用いられている帯域分割に即した帯域分割法を用いることによって、圧縮によって照合精度が劣化しにくくなるようにしている。
このようにしてバンド分割処理が行われると、入力されたオーディオデータから切り出される時間範囲を移動させながら、上述したステップS102からステップS105までの処理を繰り返し行うことによって、PCMデータ化されたオーディオデータを時刻毎、周波数帯域毎に配列されたマトリックス状のデータに変換する。そして、データの変換が完了すると(ステップS106)、ステップS107では、ステップS105で生成されたマトリックス状のデータの各成分を二乗してパワーを算出し、パワーマップを生成する。このパワーマップはオーディオ信号処理の分野では周知のスペクトログラムであり、横軸が時間、縦軸が周波数で、各点の濃淡や色を変化させることによって、ある時点のある周波数におけるパワーの強さを表すものである。
さらに、ステップS108において、生成されたパワーマップに対して所定の時間幅内での平均値を用いて正規化を行う。また、標準偏差を求めてパワーの代わりにパワーの偏差値を用いてもよい。ここで所定の時間幅としては下記に説明する特異点の分布範囲を用いることができる。
こうしてパワーマップが生成されると、本実施形態に係るオーディオデータ特徴抽出装置2によるパワーマップ生成処理は終了する。
[特徴データの抽出処理の手順]
次に、本実施形態に係るオーディオデータ特徴抽出装置2による特徴データの抽出処理の手順を図3のフローチャートを参照して説明する。
図3に示すように、ステップS201においてパワーマップを入力して処理を開始すると、次にステップS202ではフレーム決定部22によってパワーマップ上にフレームの初期位置を設定する(以下、ステップS207までフレーム決定部22による処理)。
ここで、図4を参照してフレームの一例を説明する。図4に示すように、パワーマップはスペクトログラムであり、横軸が時間、縦軸が周波数である。図4では図示していないが、時間−周波数の各点にはパワーの強さを表す濃淡や色が表示されている。そして、図4に示す斜線部分がフレームであり、所定の時間幅でパワーマップからデータを切り出したものである。
このようなフレームの最初の切り出し位置をステップS202では初期位置として設定するが、例えばパワーマップの時間軸上の開始位置を初期位置として設定する。
次に、ステップS203では、設定されたフレーム内でパワーが極大となる点を検索し、図4に示すように所定の数、例えば数個程度を検出して、これを特異点とする。さらに、特異点の中で最も大きいものを代表点とする。代表点の数は1つのオーディオデータで数個から十数個程度が好ましい。
ここで、代表点と特異点との間を結ぶベクトルを生成し、このベクトルの長さが所定の値以下となる特異点ばかりが存在する場合には特異点の数を増やして、ベクトルの長さが長くなるような特異点を含むように制御してもよい。これによりパワーのピークが一点に集中している場合に特異点が一箇所に集中して、特徴データの特徴を認識しにくくなるという問題を回避することができる。
また、照合用の特徴データの生成において特徴データを生成する楽曲の一部分を選択する基準としては以下のようなものを使用することができる。例えば、算出した特徴データに含まれる特異点ベクトルの長さが長いものや、代表点を算出するために切り出したパワーマップの分散が大きいもの、特異点の偏差値が大きいものなどである。
こうして特異点と代表点が検出されると、次にステップS204において代表点がフレームの中央にあるか否かを判定し、中央でないときにはステップS205へ移行してフレームの位置を微小に移動させてからステップS203へ戻る。ステップS203では移動後のフレームで再び特異点と代表点を検出し、ステップS204で代表点がフレームの中央にあるか否かを判定する。この処理を代表点がフレームの中央になるまで繰り返し行い、代表点がフレームの中央になると、ステップS206へ移行してフレーム内における特異点及び代表点の位置をデータ化して特徴データとする。
次に、ステップS207において、パワーマップの時間軸上のすべてについて上述した特徴データを抽出する処理が行われたか否かを判定し、行われていない場合にはステップS205に戻ってフレームの位置を移動させてから上述した処理を繰り返し行う。また、パワーマップの時間軸上のすべてについて特徴データを抽出する処理が行われている場合には、ステップS208へ移行して特徴データ生成部23が、抽出されたすべての特徴データを出力して、本実施形態に係るオーディオデータ特徴抽出装置2による特徴データの抽出処理は終了する。
こうして生成された特徴データは特徴データ格納サーバ3へインターネットなどの通信網を介して送信され、曲名や歌手名などの識別情報と関連付けられてデータベース31に登録される。
上述したように、本実施形態に係るオーディオデータ特徴抽出装置2では、パワーが極大となる特異点や代表点の周辺をフレームとして切り出して特徴データとしている。したがって、代表点を含んだフレームはパワーマップ上で連続して発生するとは限らず、また特徴データを算出するために必要なPCMデータの量も一定ではない。ただし、これにより無音の音楽データやそれに類する音楽データから特徴データを算出する場合に、情報量が低くてデータベースとの照合が困難な特徴データを算出してしまうという問題を回避することが可能となる。
[オーディオデータ照合処理の手順]
次に、本実施形態に係るオーディオデータ照合装置4の特徴データ比較部44によるオーディオデータ照合処理の手順を図5のフローチャートを参照して説明する。このオーディオデータ照合処理は、未知のオーディオデータの曲名や歌手名などの識別情報を知るために、未知のオーディオデータの特徴データとデータベース31に格納されている特徴データとを比較して照合するものである。そこで、図5に示すオーディオデータ照合処理を実施する前に、入力された未知のオーディオデータに対してパワーマップ生成部41がパワーマップ生成処理を実施し、フレーム決定部42及び特徴データ生成部43が特徴データの抽出処理を行って照合対象特徴データを抽出しておく。照合対象特徴データが抽出されると、図5に示すオーディオデータ照合処理が実施される。
図5に示すように、まずステップS301において、照合しようとする未知のオーディオデータから抽出された照合対象特徴データが入力されると、その特徴データに基づいてデータベース31から比較対象となる比較対象特徴データを取得し、これら2つの特徴データが入力される。
次に、ステップS302において、2つの特徴データからそれぞれ1つの代表点を選択し、選択された代表点の周囲にある特異点の集合を比較する。代表点の選択方法としては時間の早いものから順に選択していけばよい。
ここで、特異点の集合の比較方法について図6のフローチャートを参照して説明する。
図6に示すように、まずステップS401において比較される2つの特異点の集合を入力し、次にステップS402では2つの特異点の集合からそれぞれ1つの特異点を選択する。そして、ステップS403では、選択された特異点と代表点との間を結ぶベクトルを生成し、ステップS404においてベクトルの比較を行う。
ここで、図7を参照してベクトルの比較方法について説明する。図7に示すように、特異点及び代表点の間を結ぶベクトルが点線で表示されており、これらのベクトルをそれぞれ比較することによって特異点の集合を比較することができる。具体的な比較方法としては、2つの特異点の集合からそれぞれ1つのベクトルが生成されるので、それら2つのベクトルの内積を算出し、その内積の値が所定の閾値以上になった場合に2つのベクトルが一致していると判断する方法がある。このように内積を調べることによってベクトルの向きの一致を評価するだけではなく、閾値を高くすることによって代表点から遠い位置にある特異点を高く評価することができる。代表点の周辺に存在する特異点はパワーが密集している場合に発生しやすくて特徴が出にくいので、代表点から遠い位置にある特異点を高く評価したほうが正確に判定することができる。
また、その他の比較方法としては、代表点と特異点との間を結ぶベクトルの値をそのまま比較して時間方向および帯域方向の誤差が所定値以内の場合、例えばプラスマイナス1以内である場合に一致すると判断する方法もある。さらに、いずれの方法についても特異点におけるパワーの値を重み付けして処理を行うようにしても良い。
このようにしてベクトルを比較することによりベクトルの一致または不一致を判定すると、次にステップS405においてすべての特異点について比較が終わっているか否かを判定する。比較が終わっていない場合にはステップS406へ移行して別の特異点を選択し、上述したステップS403、404の処理を実行する。一方、比較が終わっている場合にはステップS407へ移行して一致したベクトルの数と予め設定されている閾値とを比較し、閾値を超えている場合にはステップS408へ移行して特異点の集合が一致して照合が成功したものと判断して比較処理を終了する。一方、一致したベクトルの数が閾値以下の場合にはステップS409へ移行して特異点の集合が一致せずに照合が失敗したものと判断して比較処理を終了する。尚、一致したベクトルの数と比較するための閾値は2個から数個程度を選択することが適当であり、多いほど誤検出率を低く設定することができる。
こうして図5のステップS302における特異点の集合の比較が終了すると、図5のフローチャートに戻り、特異点の集合の比較結果が不一致の場合にはステップS303へ移行し、一致した場合にはステップS304へ移行する。
ステップS303では代表点を含む特異点の集合の中で代表点の入れ替えが可能であるか否かを判定する。これは特異点の中で最大のものを代表点としているが、各特異点の大きさがほとんど同じであるような場合には、特異点の中で別の特異点が代表点となっている場合があるためである。そこで、代表点を別の特異点に順次入れ替えてステップS302へ戻って特異点の集合を比較する処理を行うようにする。例えば、図7を例にすると、特異点1を代表点としていた場合に特異点の集合が不一致になると、次に特異点2を代表点として特異点の集合を比較し、その後、特異点3、特異点4と順次入れ替えて特異点の集合を比較していく。そして、ステップS303においてすべての特異点の入れ替えが終了して特異点の入れ替えが不可能になると、ステップS305に移行して特徴データが不一致であると判定する。
また、ステップS302において特異点の集合が一致したと判定されてステップS304へ移行すると、一致した二つの特異点の集合に含まれている代表点同士を結んで代表点間ベクトルを生成し、この代表点間ベクトルと同一のベクトルとなる代表点の組み合わせがあるか否かを判定する。
例えば、図8を参照して説明すると、未知のオーディオデータから抽出された照合対象特徴データ81と、データベース31から取得した比較対象特徴データ82を比較している場合に、照合対象特徴データ81にはフレームF1a、F2a、F3a・・・が含まれ、比較対象特徴データ82にはフレームF1b、F2b、F3b・・・が含まれているとする。この場合にフレームF1aの代表点P1aからフレームF1bの代表点P1bへ延ばしたベクトルが代表点間ベクトルV1となる。そして、フレームF2aの代表点P2aからフレームF2bの代表点P2bへ延ばしたベクトルを代表点間ベクトルV2とすれば、特徴データ81、82が等しい場合には代表点間ベクトルV1と代表点間ベクトルV2は等しくなる。
このように代表点間ベクトルを比較することにより、パワーマップ上における時間位置と帯域上の位置とを比較することができる。また、比較する際には所定の閾値、例えばプラスマイナス1の誤差範囲で比較し、それ以上の差異がある場合には不一致とみなすものとする。
このようにして代表点間ベクトルを比較し、不一致の場合にはステップS306へ移行し、一致した場合にはステップS307へ移行する。
ステップS306では次の代表点があるか否かを判定する。例えば、図8において代表点間ベクトルV1、V2を比較して不一致の場合に、次の代表点としてP3a、P3bがあるので、次の代表点があると判定する。そして、次の代表点があると判定されると、ステップS304に戻って今度は代表点間ベクトルV1と代表点間ベクトルV3の比較が行われる。これを順次繰り返して次の代表点がなくなった場合にはステップS308へ移行して特徴データは不一致であると判定される。
また、ステップS304において代表点間ベクトルが一致したと判定されてステップS307へ移行すると、一致した代表点間ベクトルを構成する代表点の周囲にある特異点の集合を比較して一致するか否かを判定する。例えば、図8において、代表点間ベクトルV1と代表点間ベクトルV2が一致した場合には、代表点間ベクトルV2を構成する代表点P2aと代表点P2bの周囲にある特異点の集合を比較する。比較方法についてはステップS302と同様なので説明は省略する。そして、特異点の集合が不一致の場合にはステップS309へ移行して代表点の入れ替えを行い、特異点の集合が一致した場合にはステップS310へ移行して特徴データが一致していると判定する。
こうしてステップS310までの処理によって一致または不一致の判定が行われると、次にステップS311において、すべての代表点を比較したか否かを判定し、比較していない場合にはステップS312へ移行して次の代表点を選択してから上述したステップS302〜310の処理を繰り返し行う。また、すべての代表点が比較されている場合にはステップS313へ移行する
ステップS313では、ステップS310において一致と判定された数と閾値とを比較する。一致した数が閾値を超えている場合にはステップS314へ移行して特徴データの照合が成功したものと判断して本実施形態に係るオーディオデータ照合装置4によるオーディオデータ照合処理を終了する。また、一致した数が閾値以下の場合にはステップS315へ移行して特徴データの照合が失敗したものと判断して本実施形態に係るオーディオデータ照合装置4によるオーディオデータ照合処理は終了する。ここで閾値としては数個程度に設定することが可能であり、数を増やすことによって照合の誤検出率を下げることができる。
こうしてオーディオデータ照合処理が終了して特徴データが一致した場合には、照合対象である未知のオーディオデータの識別情報は、比較対象特徴データに登録されている識別情報と同一であると判定され、未知のオーディオデータの曲名や歌手名などが分かることになる。
尚、本実施形態では、図1に示すようにオーディオデータ特徴抽出装置2とオーディオデータ照合装置4をハードウエアによって構成する場合について説明したが、本発明はハードウエアで構成したものに限定されるわけではなく、例えば、CPUと、そのCPUを上述したように動作させるためのコンピュータプログラムによって、オーディオデータ特徴抽出装置2とオーディオデータ照合装置4の機能を達成させるようにしても勿論よい。この場合、コンピュータプログラムは、記録媒体からコンピュータに取り込んでもよいし、ネットワーク経由でコンピュータに取り込むようにしても良い。
[第1の実施形態の効果]
上述したように、本実施形態に係るオーディオデータ特徴抽出装置2によれば、オーディオデータの中で特異点や代表点のある部分を中心にフレームを決定して特徴データを生成するので、オーディオデータの中で特徴のある部分から特徴データを算出することができる。これにより、無音部分や観客の歓声などの部分から特徴データを算出することがなくなり、オーディオデータの特徴を確実に抽出することができる。
また、本実施形態に係るオーディオデータ照合装置4によれば、オーディオデータの中で特異点や代表点のある部分を中心にフレームを決定し、このフレーム毎に算出された特徴データを用いてオーディオデータを照合するので、オーディオデータの中で特徴のある部分を用いてオーディオデータを照合することができ、これによって誤検出のない確実なオーディオデータの照合を実現することができる。
さらに、本実施形態に係るオーディオデータ照合装置4によれば、特異点と代表点との間を結んだベクトルが一致するか否かによって特徴データの一致を判定するので、簡単な方法で容易に特徴データの一致を判定することができる。
さらに、本実施形態に係るオーディオデータ照合装置4によれば、代表点間ベクトルを生成し、この代表点間ベクトルが一致するか否かによって特徴データの一致を判定するので、2つの特徴データのフレーム同士の位置関係についても一致するか否かを判定することができ、これによってより精度よく特徴データの一致を判定することができる。
[第2の実施形態]
以下、本発明を適用した第2の実施形態について図面を参照して説明する。ただし、本実施形態では、特異点の集合の比較方法が相違しているだけで、その他の処理及び構成については第1の実施形態と同一なので、詳細な説明は省略する。
本実施形態に係るオーディオデータ照合装置4の特徴データ比較部44による特異点の集合の比較方法について図9のフローチャートを参照して説明する。第1の実施形態では特異点と代表点との間を結んだベクトルを比較していたが、本実施形態では特異点と代表点とから形成される多角形を比較する。
図9に示すように、まずステップS501において比較対象となる二つの特異点の集合を入力する。次にステップS502では2つ以上の特異点を選択し、選択された特異点と代表点とから多角形を生成する。そして、ステップS503において多角形の比較を行う。
ここで、図10を参照して多角形の比較方法について説明する。図10に示すように、特異点と代表点とから形成された多角形が点線で表示されており、これらの多角形をそれぞれ比較することによって特異点の集合を比較することができる。具体的な比較方法としては、比較する2つの多角形を重ね合わせて重複する面積の割合を求め、この割合を所定の閾値と比較して閾値以上になった場合に2つの多角形が一致すると判定すればよい。ここで、多角形を形成する際には代表点を必ず含んでいるものとし、含んでいる特異点の数に応じて重み付け処理を行ってもよい。
このようにしてステップS503において多角形を比較して一致または不一致の判定を行うと、次にステップS504においてすべての多角形について比較が終わっているか否かを判定する。比較が終わっていない場合にはステップS502へ戻って別の多角形を生成し、上述したステップS503の処理を実行する。一方、すべての多角形について比較が終わっている場合にはステップS505へ移行して一致した多角形の数と予め設定されている閾値とを比較し、閾値を超えている場合にはステップS506へ移行して特異点の集合が一致して照合が成功したものと判断して比較処理を終了する。一方、一致した多角形の数が閾値以下の場合にはステップS507へ移行して特異点の集合が一致せずに照合が失敗したものと判断して比較処理を終了する。
[第2の実施形態の効果]
上述したように、本実施形態に係るオーディオデータ照合装置4によれば、特異点と代表点との間で形成される図形が一致するか否かによって特徴データの一致を判定するので、簡単な方法で容易に特徴データの一致を判定することができる。
以上、本発明を一実施の形態によって説明したが、上記実施形態は、本発明の技術的思想を具体化するための装置や方法を例示するためのものであって、この発明の技術的思想は、構成物品の材質、形状、構造、配置等を特定するものでない。この発明の技術的思想は、特許請求の範囲において種々の変更を加えることができる。
1 オーディオデータ照合システム
2 オーディオデータ特徴抽出装置
3 特徴データ格納サーバ
4 オーディオデータ照合装置
21、41 パワーマップ生成部
22、42 フレーム決定部
23、43 特徴データ生成部
31 データベース
44 特徴データ比較部

Claims (12)

  1. 処理対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、
    前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、
    前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと
    を含むことを特徴とするオーディオデータ特徴抽出方法。
  2. 照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、
    前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、
    前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、 オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップと
    を含むことを特徴とするオーディオデータ照合方法。
  3. 前記特徴データ比較ステップは、前記特異点と前記代表点とを結んだベクトルが一致するか否かによって前記特徴データの一致を判定することを特徴とする請求項2に記載のオーディオデータ照合方法。
  4. 前記特徴データ比較ステップは、前記特異点と前記代表点とで形成される図形が一致するか否かによって前記特徴データの一致を判定することを特徴とする請求項2に記載のオーディオデータ照合方法。
  5. 前記特徴データ比較ステップは、前記照合対象特徴データと前記比較対象特徴データとの間で対応するフレームの代表点同士を結んだ代表点間ベクトルを生成し、前記代表点間ベクトルが一致するか否かによって前記特徴データの一致を判定することを特徴とする請求項2〜4のいずれか1項に記載のオーディオデータ照合方法。
  6. 処理対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部と、
    前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定部と、
    前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成部と
    を備えることを特徴とするオーディオデータ特徴抽出装置。
  7. 照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部と、
    前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定部と、
    前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成部と、
    オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較部と
    を備えることを特徴とするオーディオデータ照合装置。
  8. コンピュータに、
    処理対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、
    前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、
    前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと
    を実行させることを特徴とするオーディオデータ特徴抽出プログラム。
  9. コンピュータに、
    照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、
    前記パワーマップを所定時間長のフレーム毎に解析し、その所定時間内におけるサンプルの内のパワーが最も大きなサンプルである代表点が前記フレームの中央に位置しているか否かを判断するフレーム決定ステップと、
    前記代表点が前記フレームの中央に位置していると判断されたフレームにおける前記代表点の前記パワーマップにおける位置と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、
    オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップと
    を実行させることを特徴とするオーディオデータ照合プログラム。
  10. 照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、
    前記パワーマップの所定時間長のフレームにおけるサンプルの内のパワーが最も大きなサンプルである代表点と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、
    オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップと
    を含み、
    前記特徴データ比較ステップにおいて、前記照合対象となるオーディオデータから生成した特徴データが前記比較対象となる特徴データのいずれとも一致しなかった場合には前記照合対象となるオーディオデータから生成した特徴データの代表点を別の特異点へと入れ替えて、再度、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較することを特徴とするオーディオデータ照合方法。
  11. 照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成部と、
    前記パワーマップの所定時間長のフレームにおけるサンプルの内のパワーが最も大きなサンプルである代表点と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成部と、
    オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較部と
    を備え、
    前記特徴データ比較部は、前記照合対象となるオーディオデータから生成した特徴データが前記比較対象となる特徴データのいずれとも一致しなかった場合には前記照合対象となるオーディオデータから生成した特徴データの代表点を別の特異点へと入れ替えて、再度、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較することを特徴とするオーディオデータ照合装置。
  12. コンピュータに、
    照合対象となるオーディオデータを周波数変換して時刻毎及び周波数毎のパワーを示すパワーマップを生成するパワーマップ生成ステップと、
    前記パワーマップの所定時間長のフレームにおけるサンプルの内のパワーが最も大きなサンプルである代表点と、前記フレームにおける前記代表点を除いたサンプルの内の、パワーが大きい順に所定数のサンプルである特異点の前記パワーマップにおける位置とを示すデータである特徴データを生成する特徴データ生成ステップと、
    オーディオデータに関する識別情報と、比較対象となる特徴データとを関連付けて記憶しているデータベースを参照して、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較して、前記照合対象となるオーディオデータの前記識別情報を検出する特徴データ比較ステップと
    を実行させるオーディオデータ照合プログラムであり、
    前記特徴データ比較ステップにおいて、前記照合対象となるオーディオデータから生成した特徴データが前記比較対象となる特徴データのいずれとも一致しなかった場合には前記照合対象となるオーディオデータから生成した特徴データの代表点を別の特異点へと入れ替えて、再度、前記比較対象となる特徴データと、前記照合対象となるオーディオデータから生成した特徴データとを比較することを特徴とするオーディオデータ照合プログラム。
JP2011046163A 2011-03-03 2011-03-03 オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム Withdrawn JP2012185195A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011046163A JP2012185195A (ja) 2011-03-03 2011-03-03 オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011046163A JP2012185195A (ja) 2011-03-03 2011-03-03 オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム

Publications (1)

Publication Number Publication Date
JP2012185195A true JP2012185195A (ja) 2012-09-27

Family

ID=47015365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011046163A Withdrawn JP2012185195A (ja) 2011-03-03 2011-03-03 オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム

Country Status (1)

Country Link
JP (1) JP2012185195A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427819A (zh) * 2019-06-26 2019-11-08 深圳市容会科技有限公司 一种识别图像中ppt边框的方法及相关设备
JP2020527255A (ja) * 2018-03-29 2020-09-03 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. オーディオ指紋抽出方法及び装置
JP2020537198A (ja) * 2017-10-03 2020-12-17 グーグル エルエルシー 音楽を特定の歌曲として識別する

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020537198A (ja) * 2017-10-03 2020-12-17 グーグル エルエルシー 音楽を特定の歌曲として識別する
US11256472B2 (en) 2017-10-03 2022-02-22 Google Llc Determining that audio includes music and then identifying the music as a particular song
JP7143327B2 (ja) 2017-10-03 2022-09-28 グーグル エルエルシー コンピューティング装置によって実施される方法、コンピュータシステム、コンピューティングシステム、およびプログラム
JP2020527255A (ja) * 2018-03-29 2020-09-03 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. オーディオ指紋抽出方法及び装置
US10950255B2 (en) 2018-03-29 2021-03-16 Beijing Bytedance Network Technology Co., Ltd. Audio fingerprint extraction method and device
CN110427819A (zh) * 2019-06-26 2019-11-08 深圳市容会科技有限公司 一种识别图像中ppt边框的方法及相关设备
CN110427819B (zh) * 2019-06-26 2022-11-29 深圳职业技术学院 一种识别图像中ppt边框的方法及相关设备

Similar Documents

Publication Publication Date Title
US20210149939A1 (en) Responding to remote media classification queries using classifier models and context parameters
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
US11024288B2 (en) Methods and apparatus to segment audio and determine audio segment similarities
KR20180025921A (ko) 데이터베이스를 생성하기 위한 방법 및 장치
US20240038250A1 (en) Method and system for triggering events
US20160307582A1 (en) System and method to provide classification of noise data of human crowd
US10665248B2 (en) Device and method for classifying an acoustic environment
CN109949798A (zh) 基于音频的广告检测方法以及装置
CN111640411A (zh) 音频合成方法、装置及计算机可读存储介质
US10522160B2 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
JP2012185195A (ja) オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム
Guzman-Zavaleta et al. A robust audio fingerprinting method using spectrograms saliency maps
US11205407B2 (en) Song analysis device and song analysis program
CN113114986A (zh) 基于画面和声音同步的预警方法及相关设备
US11798564B2 (en) Spoofing detection apparatus, spoofing detection method, and computer-readable storage medium
Pandey et al. Cell-phone identification from audio recordings using PSD of speech-free regions
CN105989000A (zh) 音视频拷贝检测方法及装置
KR20140061214A (ko) 음악 정보 검색 방법 및 그 장치
KR20160056104A (ko) 사용자 음색 분석 장치 및 음색 분석 방법
JP2021519122A (ja) 呼吸障害のある被験者の検出
US20230197114A1 (en) Storage apparatus, playback apparatus, storage method, playback method, and medium
CN114242120B (zh) 一种基于dtmf技术的音频剪辑方法及音频标记方法
KR102447554B1 (ko) 오디오 핑거프린트 매칭을 기반으로하는 음원 인식 방법 및 장치
KR101069232B1 (ko) 음악 장르 분류 방법 및 장치
JPWO2020183845A1 (ja) 音響処理方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140513