JP2007065659A - オーディオ信号からの特徴的な指紋の抽出とマッチング - Google Patents

オーディオ信号からの特徴的な指紋の抽出とマッチング Download PDF

Info

Publication number
JP2007065659A
JP2007065659A JP2006230500A JP2006230500A JP2007065659A JP 2007065659 A JP2007065659 A JP 2007065659A JP 2006230500 A JP2006230500 A JP 2006230500A JP 2006230500 A JP2006230500 A JP 2006230500A JP 2007065659 A JP2007065659 A JP 2007065659A
Authority
JP
Japan
Prior art keywords
audio
fingerprint
program
frequency
frequency bands
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006230500A
Other languages
English (en)
Other versions
JP2007065659A5 (ja
JP5362178B2 (ja
Inventor
Sergiy Bilobrov
ビロブロフ サージー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SEET INTERNET VENTURES Inc
Original Assignee
SEET INTERNET VENTURES Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SEET INTERNET VENTURES Inc filed Critical SEET INTERNET VENTURES Inc
Publication of JP2007065659A publication Critical patent/JP2007065659A/ja
Publication of JP2007065659A5 publication Critical patent/JP2007065659A5/ja
Application granted granted Critical
Publication of JP5362178B2 publication Critical patent/JP5362178B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Stereophonic System (AREA)
  • Collating Specific Patterns (AREA)

Abstract

【課題】オーディオ信号の信号コンテンツに基づく、オーディオ信号からの特徴的な指紋の抽出を可能とする。
【解決手段】指紋は、オーディオサンプルのエネルギースペクトルを計算するステップ、時間次元で対数的にエネルギースペクトルを再サンプリングするステップ、再サンプリングしたエネルギースペクトルを変換して一連の特徴ベクトルを生成するステップ、および特徴ベクトルの差分コーディングを用いて指紋を計算するステップにより生成できる。生成した指紋は、データベース内の参照指紋のセットと比較して元のオーディオコンテンツを識別できる。
【選択図】 図1

Description

本発明は、一般にオーディオ信号処理に関し、より詳細には、オーディオ信号から特徴的な指紋を抽出し、かかる指紋のデータベースを検索することに関する。
ファイルフォーマット、圧縮技術および他のデータ表現方法が多様性に富むので、データ信号を識別したり、それを他と比較したりすることは、技術的に著しく困難な課題となる。例えば、コンピュータ上のデジタル音楽ファイルの場合、歌をエンコードおよび圧縮するためのフォーマットが多数存在する。更に、これらの歌は異なるデータレートでデジタル形式にサンプリングされることが多いので、異なる特性(例えば、異なる波形)を有する。録音されたアナログオーディオはノイズおよび歪みも含む。これらの著しい波形の違いは、ファイルまたは信号の効率的な認識または比較の面で、かかるファイルの直接比較を拙い選択にしてしまう。同様に、ファイルを直接比較しても、異なるフォーマットでエンコードされたメディアを比較(例えば、MP3およびWAVでエンコードした同一の歌の比較)することはできない。
これらの理由により、インターネット上に配布されるような、メディアおよび他のコンテンツの識別および追跡は、メディアに関する識別情報を含むメタデータ、透かし、または他の何らかのコードを添付することにより行われることが多い。しかし、この添付情報は、不完全、不正確、またはその両方であることが多い。例えば、メタデータは完全であったためしがなく、ファイル名に一貫性があったことはさらにない。加えて、透かし等の手法は侵入性があるので、追加データまたはコードによって元のファイルを変更してしまう。これら手法の他の欠点は、改竄に脆弱なことである。全てのメディアファイルが、メタデータまたは透かし等の正確な識別データを含んでいたとしても、その情報を首尾よく削除できたとしたら、ファイルは「ロックが外された」(つまり著作権を侵害される)ことになる。
これらの問題を回避するために、データ信号自体のコンテンツを解析するという考えに基づいて、他の方法が開発されてきた。あるクラスの方法では、オーディオセグメントに対してオーディオ指紋が生成され、その指紋は、元のオーディオを識別するために用いることができるオーディオ関係特性情報を含む。一例では、オーディオ指紋は、オーディオセグメントを識別するデジタルシーケンスを含む。オーディオ指紋を生成する処理は、生成中のその指紋のオーディオの音響的、知覚的特性に基づくことが多い。オーディオ指紋のサイズは、普通は、元のオーディオコンテンツよりずっと小さいので、簡便なツールとして用いて、オーディオコンテンツを識別、比較、および検索することができる。オーディオ指紋は、放送モニタ、オーディオコンテンツの組織化、P2Pネットワークのコンテンツのフィルタ処理、および歌または他のオーディオコンテンツの識別を含む広範な用途に用いることができる。これら様々な領域へ応用する場合、オーディオ指紋技法は、指紋データベース検索アルゴリズムはもとより、指紋抽出に関与するのが普通である。
ほとんどの既存の指紋技法は、周波数領域のオーディオサンプルからのオーディオ特徴抽出に基づいている。オーディオを、先ず複数フレームにセグメント化し、フレーム毎に一セットの特徴を計算する。オーディオ特徴のうち、高速フーリエ変換(FFT)係数、メル周波数ケプストラム係数(MFCC)、スペクトル平坦化、シャープネス、線形予測コーディング(LPC)係数および変調周波数を用いることができる。通常は、計算した特徴を、微分、平均または分散を用いて、変換される特徴ベクトルに組み立てる。特徴ベクトルを、隠れマルコフモデル、または主成分分析に続く量子化等の、アルゴリズムを用いて、より簡単な表現にマッピングし、オーディオ指紋を生成する。通常、単一オーディオフレームの処理により得られる指紋のサイズは比較的小さく、所望の信頼性程度を伴って元のオーディオシーケンスを十分識別できるほど一意であるとは言えない。指紋の一意性を強化し、よって正しい認識の確率を高める(および偽の陽性率を下げる)ために、約3〜5秒のオーディオを表す、より大きなブロックに、小さなサブ指紋を組合せることができる。
フィリップスが開発した一つの指紋技法は、短時間フーリエ変換(STFT)を用いて、オーディオ信号の11.8msecの間隔毎に32ビットのサブ指紋を抽出する。オーディオ信号を、先ず0.37秒の長さのオーバーラップするフレームにセグメント化し、フレームを31/32のオーバーラップ因子を有するハミング窓により重み付けし、FFTを用いて周波数領域に変換する。得られた周波数領域データは、横軸を時間、縦軸を周波数とするスペクトログラム(例えば、時間−周波数ダイヤグラム)として表すことができる。フレーム毎のスペクトル(スペクトログラムの列)を、300Hzから2000Hzの範囲の対数間隔の、オーバーラップしていない33の周波数バンドにセグメント化する。バンド毎にスペクトルエネルギーを計算し、32ビットのサブ指紋を、時間および周波数軸に沿う連続バンドのエネルギー差の符号を用いて生成する。一つのフレーム内の二つのバンド間のエネルギー差が、前のフレームの同一バンド間のエネルギー差より大きい場合、アルゴリズムは、サブ指紋内の対応ビットに対して「1」を出力し、さもなければ対応ビットに「0」を出力する。指紋は、3秒間のオーディオに相当する256の後続32ビットサブ指紋を、単一指紋ブロックに組合せることにより組み立てられる。
普通の種類のオーディオ処理、ノイズおよび歪みに対してはロバストであるように設計されるが、このアルゴリズムは、得られるスペクトルスケーリングが原因で、大きな速度変化に対して十分にロバストであるとは言えない。従って、スケール不変フーリエ−メリン領域内でオーディオ指紋を抽出する修正アルゴリズムが提案された。この修正アルゴリズムは、オーディオフレームを周波数領域に変換した後に実行する追加ステップを含む。これらの追加ステップは、第2フーリエ変換が後に続く、スペクトル対数マッピングのステップを含む。従って、フレーム毎に第1FFTが適用され、その結果が対数マッピングされてパワースペクトルが得られ、そして第2FFTが適用される。これは、対数で再サンプリングしたフーリエ変換のフーリエ変換として説明することができ、会話認識で広く用いられる周知のMFCC方法と類似している。主たる違いは、フーリエ−メリン変換が全スペクトルの対数マッピングを用いるのに対して、MFCCは、メル周波数スケール(人の聴覚システム特性を模した、1kHzまでは直線で、それ以上高い周波数では対数間隔)に基づいている。
フィリップスアルゴリズムは、2つの連続フレームだけのスペクトル係数を用いてサブ指紋を計算するので、いわゆる短時間解析アルゴリズムのカテゴリに入る。スペクトログラム内のオーバーラップした多数のFFTフレームを用いてスペクトル特徴を抽出する他のアルゴリズムもある。多数の時間フレームの評価に基づく方法のいくつかは、長時間スペクトログラム解析アルゴリズムとして既知である。
例えば、Sukittanonの「コンテンツ識別のための変調スケール解析」、IEEE Transaction on Signal Processing,52巻、No.10(2004年10月)、に記載された一つの時間解析アルゴリズムは変調周波数の推定に基づく。このアルゴリズムでは、オーディオをセグメント化し、スペクトログラムをそれについて計算する。次に、スペクトログラムバンド(例えば、スペクトログラムの周波数範囲)毎に、スペクトログラムの時間行(例えば横軸)に沿って第2変換を適用することにより、変調スペクトルを計算する。これは、スペクトログラムの周波数列(例えば縦軸)に沿って第2FFTを適用する修正フィリップス法とは異なる。この手法において、スペクトログラムをN個の周波数バンドにセグメント化し、バンド毎に、同一数Nの連続ウエーブレット変換(CWT)を計算する。
このアルゴリズムの開発者は、フィリップスアルゴリズムに比較べて優位な性能を主張しているが、既存のアルゴリズムは、依存として幾つかの欠点を示している。例えば、それらアルゴリズムは、歪みのある会話および音楽、特にオーディオを、CELPオーディオコーデックを用いて圧縮している場合(例えば、GSM等の、携帯電話オーディオと関係付けられる)、それらを高い信頼性をもって識別するほど十分にロバストであるとは言えない。更にこれらのアルゴリズムは、一般的に、マイクロホン録音と関係付けられるような、ノイズおよびアナログ歪みに敏感である。また、アルゴリズムが、単一種類の歪みのある状態で、オーディオを識別できるとしても、現実世界のシナリオでは、より普通な、そしてそのシナリオによりに近い、多数の歪みの組合せを扱うことができない(例えば、携帯電話と同様に、ノイズの多い多少残響感のある部屋で、マイクロホンにより録音して、GSM圧縮を加えたオーディオ)。
従って、実際の用途に適用する場合、既存の指紋法のエラー率は、許容できないほど高く(例えば、偽の陽性や偽の陰性)、生成する指紋は商業化するには余りにも大きく、および/または余りにも速度が低い。従って、現在のオーディオ認識技法が解決できなかった既存の限界を克服する必要がある。
従って、本発明は、オーディオ信号の信号コンテンツに基づく、オーディオ信号からの特徴的な指紋の抽出を可能とする。この指紋を、一セットの参照指紋(例えば、データベース内の)に対して一致させて、2つの信号間の、信号同定、または類似性を決定することができる。この指紋抽出アルゴリズムの性質により、それは既存の解決策を悩ませる多くの問題を蒙ることはなく、そのような解決策に比べて、高速、高効率、高精度で、スケール変更可能であるとともに、ロバストである。
オーディオ指紋を生成するための方法の実施の形態では、オーディオ信号をサンプリングし、その信号からスペクトログラム情報を計算する。スペクトログラムを複数の周波数バンドに分割する。バンド毎のシーケンスサンプルを、対数で再サンプリングすることにより、バンドサンプルの対数マッピングを得る。次に、対数マッピングしたバンドサンプルに第2FFTを適用して、バンド毎の特徴ベクトルを取得する。次いで、オーディオ指紋を特徴ベクトルに基づいて計算する。オーディオ指紋は、コンピュータ可読媒体に格納でき、または伝送可能な信号として瞬時に準備できる。
以前のオーディオ指紋とは異なり、本発明の実施の形態は、時間的に非直線的に(例えば、対数的に)離間した一連の周波数バンドサンプルから長時間の特徴ベクトルを抽出する。以前の方法はスペクトログラムの周波数軸に沿う対数マッピングを用いたが(例えば、フーリエ−メリン変換およびバーク(bark)スケール)、直線時間スケールが用いられている。対照的に、本発明の実施の形態は、サブバンドサンプルを処理するために非直線的(例えば対数的)な時間スケールを用いることにより、指紋抽出、および一致アルゴリズムのロバスト性を著しく改良できる。
例えば、サブバンドサンプルの時間対数マッピングにより、アルゴリズムはオーディオ再生速度、ならびに時間圧縮および時間伸長の変動に強くなる。この理由は、対数再サンプリングにより、再生速度の何らかのスケーリングが対数マッピングスペクトログラムでは直線シフトとなり、直線シフトはFFTにより除去されるからである。このように、オーディオ信号の指紋は、再生速度の変動に関わらず、もしくは時間圧縮または時間伸長に起因する変動がほとんどないか、または全くない。また、対数時間スケールの使用は、第2の時間−周波数FFT変換の低周波数分解能を改良する。これにより、スペクトログラム変調スペクトルの解析に用いる複雑なウエーブレット変換の代わりに、単純なFFTを用いることができ、以前の方法と比較べて、実装がより効率的かつ高速になる。
更に、時間を非直線的(例えば対数的)に再スケール化するので、バンド出力フレームは、ほとんどの部分で、解析したオーディオシーケンスの開始を表すサンプルを含む。従って、結果として得られる指紋は、シーケンス開始時に主として配置されるサンプルを用いて生成される。オーディオシーケンスの比較的小さい部分が、結果的に得られる指紋に最も寄与するので、この指紋を用いて、より短いオーディオシーケンスを一致させることができる。例えば、一実施の形態では、5秒間の元のオーディオフレームから生成した指紋を、2倍短いオーディオ断片から採ったサンプルと、高い信頼性をもって一致させることができる。
また、本指紋技法の実施の形態は、ノイズおよび信号歪みにも耐性がある。一実施の形態は、100%のホワイトノイズの存在下で会話様信号を検出できる(すなわち、信号対雑音比が0dB)。本技法は、フィルタ処理、圧縮、周波数イコライジングおよび位相歪みにも耐性がある。例えば、本発明の実施の形態は、±5%のピッチ変動(テンポを保存した状態で)および±20%のタイミング変動(ピッチを保存した状態で)を伴うオーディオを高い信頼性で認識できる。
別の実施の形態では、生成した指紋フレームを、特定数の周波数バンドを用いて形成する場合、音響モデルを用いて重要でない周波数バンドにマークする。重要でないバンドには、オーディオサンプルを区別する際に、知覚できる値を実質的に何も加えないバンドが含まれる。関係する周波数バンドだけを処理することが、信号対雑音比を高め、指紋一致処理全体のロバスト性を改善する。更に、無関係のバンドを除外すると、帯域制限されたオーディオコンテンツの認識効率、例えば、非常に低いビットレートでエンコードした、または低速テープ速度でアナログ録音した会話の場合、を著しく改善できる。
本実施の形態は、また、高速インデックスおよび大規模データベースにある指紋に対する効率的な検索を提供する。例えば、各オーディオ指紋に対するインデックスは、指紋のコンテンツの一部から計算できる。一実施の形態では、指紋からの一セットのビットを、指紋のインデックスとして用いるが、その場合、非直線的(例えば対数的)な再サンプリングにより、ビットはより安定な低周波数の係数と対応する。試験指紋をデータベース内の一セットの指紋と一致させるために、試験指紋をインデックスに対して一致させて候補の指紋のグループを得ることができる。次いで、試験指紋を候補の指紋と一致させるので、試験指紋をデータベースにある全ての指紋と一致させる必要がない。
別の実施の形態では、エッジ検出アルゴリズムを用いて、解析したオーディオフレームまたは断片の正確なエッジを決定する。用途によっては、特に、オーディオサンプルが、サンプル全体の短い時間の間だけ異なる場合、オーディオサンプル内の解析したオーディオフレームのエッジの配置を知ることが重要である。エッジ検出アルゴリズムは、直線回帰技法を用いて、オーディオフレームのエッジを識別できる。
指紋技法の実施の形態の用途は、数え切れないほど多く、オーディオストリーム、および他のオーディオコンテンツ(例えば、ストリーミングメディア、ラジオ、広告、インターネット放送、CDの歌、MP3ファイル、または何らかの他の種類のオーディオコンテンツ)のリアルタイム識別が含まれる。このように、本発明の実施の形態は、効率的、かつリアルタイムのメディアコンテンツの検査および他の報告を可能にする。
概要
本発明の実施の形態は、オーディオサンプルからの特性情報(例えばオーディオ指紋)の抽出、および抽出した特性情報を用いたオーディオの一致または識別、を可能にする。図1に示すように、オーディオサンプル100から採取したオーディオのフレーム105は、指紋抽出アルゴリズム110に入力される。オーディオサンプル100は、任意の幅広いソースにより提供できる。オーディオフレーム105のシーケンスを用いて、指紋抽出アルゴリズム110は、シーケンスの特性となる一つ以上のオーディオ指紋115を生成する。区別するための識別子としての機能を果たすために、オーディオ指紋115は、オーディオサンプル100のフレーム105のシーケンスの識別、または他の特性に関する情報を提供する。特に、オーディオサンプル100に対する一つ以上の指紋115により、オーディオサンプル100を一意に識別できる。指紋抽出アルゴリズム110の実施の形態を、詳細に以下説明する。
一旦生成すると、抽出された指紋115は、次に更なるプロセスで用いるか、または後で使用するためにメディア上へ格納できる。例えば、指紋115は、指紋115を指紋データベース125(例えば、既知のソースからのオーディオ指紋の収集)の登録と比較して、オーディオサンプル100の識別を決定する指紋一致アルゴリズム120により用いることができる。指紋を用いるための各種の方法を以下に説明する。
オーディオサンプル100は、指紋システムの用途に依存して、任意の幅広いソース起源であってよい。一実施の形態では、オーディオサンプル100は、メディア放送から受信した放送からサンプリングされ、デジタル化される。代替として、デジタル化の必要を予め避けるために、メディア放送はデジタル形式でオーディオを伝送してもよい。メディア放送の種類には、ラジオ放送局、衛星放送局、およびケーブルオペレータが含まれるが、これらに限定されない。このように、指紋システムを用いて、これらの放送を監査して、どのオーディオがどの時間に放送されるかを決定できる。これにより、放送制限、ライセンス契約等の準拠を確実にするための自動システムが可能になる。指紋抽出アルゴリズム110は、放送信号の正確な開始、および終了を知らなくても動作するので、メディア放送者の協力または知識なしに動作させて、独立した、かつ先入観のない結果を確保できる。
別の実施の形態では、メディアサーバが、メディアライブラリからオーディオファイルを検索し、指紋抽出アルゴリズム110が使用するためのデジタル放送をネットワーク(例えばインターネット)上に伝送する。ストリーミングインターネットラジオ放送は、この種のアーキテクチャの一例であり、メディア、広告、および他のコンテンツが個人またはユーザグループへ配送されている。かかる実施の形態では、指紋抽出アルゴリズム110および一致アルゴリズム120は、通常、オーディオサンプル100のストリーミングコンテンツ内に含まれる個々のメディアアイテムの開始または終了時間に関する情報を何も持たない。しかしながら、これらのアルゴリズム110および120がストリーミングコンテンツを識別するのに、この情報は不要である。
別の実施の形態では、指紋抽出アルゴリズム110は、オーディオサンプル100またはその一連のフレーム105を、オーディオファイルを収納する格納装置にアクセス権を持つクライアントコンピュータから受信する。クライアントコンピュータは、格納装置から個々のオーディオファイルを検索し、ファイルから一つ以上の指紋115を生成するために、ファイルを指紋抽出アルゴリズム110に送信する。代替として、クライアントコンピュータは、格納装置140からファイルのバッチを検索し、ファイル毎に一セットの指紋を生成するために、指紋抽出器110に順次送信する。(本明細書で用いる時、言うまでもなく「セット」は、単一アイテムを含むグループ内の任意数のアイテムを含む)。指紋抽出アルゴリズム110は、クライアントコンピュータまたはネットワーク上でクライアントコンピュータに接続されたリモートサーバにより実行できる。
アルゴリズム
図1に示す指紋抽出アルゴリズム110を実装する指紋抽出システム200の一実施の形態を図2に示す。指紋抽出システム200は、複数の処理チャンネル(それぞれは、本明細書で要素210および215としてラベル付けされる一つ以上の処理モジュールを含む)に接続され、順に、オーディオ指紋115を生成するための差分エンコーダ225に接続される解析フィルタバンク205を備える。指紋抽出システム200は、オーディオ指紋を生成すべきオーディオフレーム105を受信するよう構成される。
以下に、より詳細に説明するが、入力されるオーディオフレーム105毎に、解析フィルタバンク205は、概して、周波数範囲全体に亘って受信信号に対するパワースペクトル情報を計算する。図示の実施の形態では、それぞれの処理チャンネルは、バンドがオーバーラップすることもある周波数範囲内の周波数バンドと対応する。従って、チャンネル毎に対応するバンドについて処理を実行できるように、指紋抽出システム200が実行する処理をチャンネルが分割する。他の実施の形態では、複数のバンドに対する処理を、単一モジュールにより単一チャンネル内で実行でき、または用途に対して、およびシステムの技術的制約に対して、しかるべく任意の他の構成に処理を分割できる。
解析フィルタバンク205は、オーディオフレーム105(図1に示すオーディオサンプル100からのフレーム105等)を受信する。解析フィルタバンク205は、オーディオフレーム105を時間領域から周波数領域に変換して、周波数範囲全体のフレーム105に対するパワースペクトル情報を計算する。一実施の形態では、約250〜2250Hzの範囲の信号に対するパワースペクトルは、幾つかの周波数バンドに分割される(例えば、M=13のMバンド)。バンドは、直線または対数の中間周波数分布(または、任意の他のスケール)を有し、オーバーラップしていてもよい。フィルタバンクの出力は、複数のバンドそれぞれについて信号エネルギーの大きさを含む。一実施の形態では、平均エネルギーの大きさは、バンド内の平均スペクトルエネルギーの立方根を用いて取得する。
解析フィルタバンク205の各種の実装が、ソフトウエア、およびハードウエア要件、およびシステムの制約に応じて可能である。一実施の形態では、解析フィルタバンク205は、オーディオフレーム105の信号を周波数バンドそれぞれに分離する幾つかのバンドパスフィルタを備え、次いで、エネルギー評価、およびダウンサンプリングが続く。別の実施の形態では、解析フィルタバンク205は、短時間高速フーリエ変換(FFT)を用いて実装する。例えば、8kHzでサンプリングされたオーディオ100は、64msのフレーム105(すなわち512サンプル)にセグメント化する。次いで、2つのオーディオフレーム105(すなわち1024サンプル)から成るそれぞれ50%オーバーラップしたセグメントのパワースペクトルを、ハン窓をかけ、FFTを実行して計算し、次いで、M個の等しく、または対数的に離間したオーバーラップ三角窓を用いてバンドフィルタ処理する。
一実施の形態では、パワースペクトルは周波数バンド内で平均化し、フレームシーケンスのエネルギー変化のみを、幾つかの実施の形態(以下に説明する)に対する特徴ベクトルの計算のために取得する。絶対振幅の代わりにエネルギー変化を使用し、かつフィルタバンク205のスペクトル特性の要件が低いために、各種の時間−周波数エネルギー変換を、上記FFTの代わりに用いることができる。例えば、修正離散コサイン変換(MDCT)を用いることができる。MDCTの一つの利点は、n/4ポイントFFTを一つと、幾つかのサンプルの前回転および後回転だけを用いて計算できるので、複雑でないことである。従って、MDCTを実装するフィルタバンク205は、FFTを実装するものより良好な動作をすると予想され。例えば、2倍の速度で変換計算ができる。
別の実施の形態では、解析フィルタバンク205は、カスケード接続の多相フィルタおよびエイリアスキャンセルが後に続くMDCTを含むMP3ハイブリッドフィルタバンクを用いて実装される。MP3フィルタバンクは、576サンプルからなるオーディオのフレーム105毎に、576のスペクトル係数を生成する。8kHzでサンプリングされるオーディオでは、得られるフレームレートは、上記1024ポイントFFTフィルタバンクの15.626fpsと比較して13.8fpsである。フレームレート差は、データが再サンプリングされた場合、以下に説明するように、時間−周波数解析中に補う。解析フィルタバンク205は、直交ミラーフィルタ(QMF)を用いても実装できる。MP3ハイブリッドフィルタバンクの第1段は、32等分幅バンドをもつQMFを利用する。従って、11,025Hzのオーディオ信号の250〜2250Hzの周波数範囲は13バンドに分割される。
MP3フィルタバンクの一利点は移植性にある。異なるCPUのためのMP3フィルタバンクの高度に最適化された実装が存在する。従って、指紋生成ルーチンは、MP3エンコーダと容易に一体化でき、追加処理せずにMP3フィルタバンクからスペクトル係数を得ることができる。従って、指紋生成ルーチンは、MP3デコーダーと容易に一体化でき、完全なデコーディングをせずにMP3ビットストリームから直接スペクトルデータを得ることができる。他のオーディオコードとの一体化も可能である。
一旦決定すると、サブバンドサンプルをバッファに入れ、一つ以上の非直線再サンプラ210に提供する。一実施の形態では、非直線再サンプラ210はそれぞれ、M個の周波数バンドの内の一つと対応する。こうして、非直線再サンプラ210はそれぞれ、直線的な時間間隔をもつ特定周波数バンドに対するSサンプルのシーケンスを受信する(例えば、フィルタバンクの実装に依存してSを64〜80に選択する)。一実施の形態では、各再サンプラ210は、サブバンドサンプルをM個のバンドの内の一つにマッピングし、対数的な時間間隔をもつ一連のTサンプル(例えば、T=64)を生成する。これをMバンドのそれぞれについて実行する場合、データを、対数スケールの時間軸(横軸)を有するサンプリングしたスペクトログラムと対応する[M×T]のマトリックスに格納できる。しかしながら、対数サンプリングは、一つの可能性に過ぎず、他の実施の形態では、指数的再サンプリング等の、他の種類の非直線サンプリングを実行できる。
次いで、バンド毎に非直線マッピングしたサンプルに変換を実行する一つ以上のFFTモジュール215に、サブバンドサンプルを提供する。一実施の形態では、バンド毎に対数マッピングしたバンドサンプルに(例えば、[M×T]マトリックスの各行に)、TポイントFFTを実行する。FFTから得られた一連の係数を特徴ベクトルと呼ぶ。一実施の形態では、各バンドに対する特徴ベクトルは、上行する周波数の順にそのバンドに対して計算したFFTの他の係数全てを備える。従って、各特徴ベクトルは、N個の係数(例えば、N=T/2=32)を含むことになる。
サブバンドサンプルにFFTを実行するとしてFFTモジュール215を説明するが、他の実施の形態では、FFTモジュール215は、他の時間−周波数変換を実行する処理モジュールにより置き換える。例えば、FFTの代わりに、離散コサイン変換(DCT)または離散ハートレー変換(DHT)を用いて、サブバンドサンプルを変換する。特に、DHTを用いると、偽の陽性率および非相関インデックス値が低くなる傾向があり、検索アルゴリズムを高速化するのに役立つ。別の実施の形態では、FFTモジュール215の代わりに線形予測コーディングを第2変換として用いる。
次いで、特徴ベクトルを、オーディオサンプルについて指紋115を生成する差分エンコーダ225に提供する。一実施の形態では、差分エンコーダ225は、各隣接バンド対と対応する特徴ベクトルを減算する。M個のバンドがある場合、M−1個の隣接バンド対がある。2つの特徴ベクトルを減算すると、N個の差分値のベクトルが得られる。これらの差分値それぞれに対して、差分が0以上の場合、差分エンコーダ225は1を選択し、差分が0未満の場合、差分エンコーダ225は0を選択する。シーケンスの4ビットの各グループに対して、エンコーダは、コードブック表に従ってビット値を割り当てる。最良のコードブック値は、指紋アルゴリズムのチューニングおよびトレーニング中に計算する。連続するバンド対それぞれの特徴ベクトルに対してこの処理を繰り返すと、[(M−1)×N/4]マトリックスのビットを生じる。直線ビットシーケンスとして表すことができるこのマトリックスを、オーディオ指紋115として用いる。M=13およびN=8の例では、指紋115は12バイトの情報を有する。
一実施の形態では、主成分分析(PCA)を用いて、得られた特徴ベクトルを無相関化し、サイズを小さくしてから量子化する。デジタルコサイン変換等の、他の無相関化技法を追加して、または代替として用いて、冗長性を除去し、特徴ベクトルを小型化する。
一実施の形態では、指紋抽出システム200は、特定オーディオ信号の大きくオーバーラップした一連のオーディオフレームに対して、複数の指紋を生成する。一実施例では、システム200により処理される一連のフレーム105それぞれは、3秒間のオーディオ信号を含み、前のシリーズが開始した後64msに開始する。このようにして、64ms毎に開始するオーディオ信号の3秒間の幾つかの部分に指紋を生成する。かかる仕組みを実装するために、指紋抽出システム200は、解析フィルタバンク205の前後にメモリーバッファを含み、バッファは、次のオーディオフレーム105を受信すると、次の64msのオーディオ信号により更新される。
音響モデル
指紋システムの各種の用途では、特定周波数バンドは、知覚できない、オーディオサンプルに対するエンコード処理がバンドを除去する、または何らかの他の理由により、重要でないことがある。従って、一実施の形態では、音響モデル235を用いて、特定指紋に対する重要でない周波数バンドを識別し、マークする。心理音響モデル等の、音響モデルは、各種のオーディオ処理分野で周知である。音響モデル235に対する一セットのモデルパラメータは、指紋115の作成中に高品位の基準サンプルに対して計算でき、データベース125に格納できる。指紋115の重要でないバンドは、その対応値(すなわち、ビット)をゼロに消去することによりマークできる。指紋をデータベース記録と一致させる処理では、非ゼロの値をもつ対応するバンド対のみを用いて指紋115を区別するので、これにより、後続のどの一致処理でもバンドを効率的に無視できる。マスクされたバンド(すなわち、ゼロ値を有するバンド)を相互比較から除外することもできる。
一実施の形態では、音響モデルは、人の聴覚系のための心理音響モデルである。これは、指紋システムの目的を人の聴覚系を目標としたオーディオ識別とすると有用なことがある。かかるオーディオは、関連がないオーディオ情報を除去する一つ以上の感覚的エンコーダにより圧縮することができる。人の心理音響モデルを用いることにより、かかる関連がないバンドを指紋から識別し、除外できる。
しかし、心理音響モデルは、人の感覚に従ってエンコードしたオーディオに適する一種の音響モデルにすぎない。別の音響モデルは、特定の録音装置の特性を模したモデルである。かかる録音装置の音響モデルに対する各バンドは、その重要性に応じて割り当てられる重み付け因子を有する。更に別の音響モデルは、車両内または室内で見られる背景ノイズ等の、特定環境の特性を模する。かかる実施の形態では、音響モデルに対する各バンドは、システムを設計した環境での重要性に応じて割り当てられた重み付け因子を有する。
一実施の形態では、音響モデル235およびフィルタバンク205のパラメータは、解析するオーディオ信号100の種類および特性に依存する。一セットのサブバンド重み付け因子、ならびに幾つかのフィルタバンクバンドおよびその周波数分布を備える異なったプロファイルを用いて、目標とするオーディオ信号の特性の良好な一致を得る。例えば、会話様オーディオでは、信号のパワーは主として低い周波数バンドに集中する一方、音楽はジャンルに応じてより高い周波数に関連する成分を含む。一実施の形態では、音響モデルのパラメータは、基準オーディオ信号により計算し、生成した指紋とともに、コンテンツデータベースに格納する。別の実施の形態では、音響モデルのパラメータは、一致処理中に、解析するオーディオ信号の特性に基づいて動的に計算する。
従って、音響モデル235の可能性がある用途には、特定環境、および/または録音装置、およびエンコードアルゴリズム特性に対するオーディオ認識パラメータのチューニングが含まれる。例えば、携帯電話オーディオパスの既知の音響特性(マイクロホン特性、オーディオ処理および圧縮アルゴリズム等)により、これらの特性を模擬した音響モデルの開発が可能になる。指紋比較中にこのモデルを用いることにより、生成した指紋の一致処理のロバスト性を著しく増大させることができる。
指紋のインデックス化およびマッチング
一実施の形態では、指紋インデックス器230が、各指紋115に対するインデックスを生成する。次いで、指紋115を指紋データベース125に格納するので、指紋データベース125のコンテンツの効率的な検索、およびマッチングが可能になる。ある実施の形態では、指紋115に対するインデックスが、指紋115の一部を含む。従って、指紋データベース125内の指紋115は、それらについての有用な識別情報によりインデックスされる。
指紋115それぞれが[(M−1)×N/4]マトリックスのビットを含む上記実施の形態では、インデックス器230は、インデックスとして最も左の列からのビットを用いる。指紋115それぞれが12×8マトリックスのビットである実施例では、指紋115に対するインデックスは、最も左の2列のビット(合計24ビット)とすることができる。このように、指紋115それぞれに対するインデックスとして用いられるビットは、指紋115を計算するために用いる特徴ベクトルの低周波数スペクトル係数に基づく指紋115のサブセットである。従って、これらのビットは、対数マッピングしたスペクトログラムバンドのスペクトルの低周波数成分と対応し、ノイズおよび歪みを抑えるよう安定かつ低感度になる。従って、高いレベルの確率で、類似指紋は、同一のインデックス数値を有することになる。こうして、インデックスを用いてデータベース中の類似したかつそれらしく一致する指紋にラベル付けし、グループ化できる。
図3は、本発明の一実施の形態による、上記説明のインデックスを用いて、試験指紋を指紋データベース125とマッチングする方法を示す。試験指紋について指紋データベース125内に一致を見出すために、マッチングアルゴリズムは、上記のように試験指紋に対するインデックス値を計算することにより開始される310。このインデックス値を用いて、例えば、データベース125内の同一インデックス値を有する指紋全てが含まれる候補の指紋グループが得られる320。上記説明のように、インデックス値を計算する方法により、データベース125内のどの一致も、候補指紋のこのグループ内にある可能性が非常に高い。
候補の指紋のグループ内のどれかの一致を試験するために、試験指紋と、それぞれの候補指紋との間のビットエラー率(BER)を計算する330。2つの指紋の間のBERは、一致しない対応ビットの百分率である。関連のない完全にランダムな指紋では、BERは50%となると予測される。一実施の形態では、BERが約35%未満の場合、2つの指紋は一致している;しかしながら、偽の陽性、および/または偽の陰性に対する所望の許容値に応じて他の限界値を用いてもよい。更に、BER以外の計算または基準を用いて2つの指紋を比較することができる。例えば、BERの逆数、一致率を用いることもできる。更に、2つの指紋の比較に際して、特定ビットに他より高い重み付けをしてもよい。
所定の一致基準内には一致がない場合(340)、または修正するインデックスがそれ以上ない場合は(350)、一致アルゴリズムがデータベース125内に試験指紋の一致を何も発見できなかった場合である。次いで、システムは検索を継続するか(例えば、候補指紋を得るために制限が緩い基準を用いる)、または停止してもよい。一つ以上の一致する指紋がある場合(340)、一致指紋のリストが返される360。
一実施の形態では、システムは、一致を検索するための別の候補指紋のセットを得るために、計算した指紋インデックスを修正した後(370)、上記の検索を繰り返す。計算した指紋インデックスを修正するために(370)、計算した指紋インデックスの一つ、または多数を入れ替えることができる。指紋インデックスが24ビットを有する一実施例では、元の指紋インデックスを用いて一致を発見できなかった後で、24ビットの内の異なる単一ビットをその都度入れ替えて、検索ステップを24回繰り返す。様々な他の技法を用いて検索空間を拡大できる。
一実施の形態では、指紋インデックス器230は、音響モデル235により計算し、前にデータベース125に格納しておいた一セットの周波数バンド重み付け因子に基づいて、インデックスビットを一つ以上の指紋から選択することにより、一つ以上のインデックスを生成する。ビット入れ替えにより得られたインデックスを含む多数のインデックスを用いる場合、候補指紋のグループには、計算したインデックス毎について得られる全ての候補が含まれる。
別の実施の形態では、計算したインデックス毎に得られる大部分の、または全ての候補グループ内で発見できる指紋候補だけを、事前スクリーニングし、選択することにより、検索領域を狭くすることができる。ビット入れ替えにより得られるインデックスを含む多数のインデックスを用いることによる多数の指紋候補グループの事前スクリーニングは、データベース検索の性能を著しく改良できる。一実施の形態では、可能性のある指紋候補へのインデックスおよび参照をコンピューターメモリに格納することにより、指紋候補の高速選択、および事前スクリーニングが可能になる。第2ステップでは(ステップ320)、所与の指紋と一致する確率が最も高い指紋候補だけが、コンピューターメモリにロードされ、比較される。この手法により、小さなインデックスだけをコンピューターメモリに保持し、一方、低速の装置(例えば、ハードディスクドライブ、またはネットワーク上)には大きな指紋を格納することにより、高速検索が可能になる。
オーディオフレームのエッジ検出
用途によっては、一致オーディオ断片のエッジ検出が所望されることがある。エッジ検出により、システムは、特定のオーディオ断片が一致する時間を正確に知ることができる。解析するオーディオの品位に応じて、エッジ検出アルゴリズムの実施の形態は、約0.1〜0.5秒の正確さで、一致するオーディオ断片のエッジを検出することができる。
上記のように、指紋技法の実施の形態は、サブバンド処理バッファにオーディオサンプルを蓄積する。このバッファ化により、指紋アルゴリズムの出力は遅延され、オーディオ断片のエッジに塗りつけられる。この効果を図4に示す。図は、オーディオ断片に対する参照指紋と、入力されてくるサンプルオーディオストリームに対して生成される時間を通じての一連の指紋との間の、時間を通じてのビットエラー率(BER)のグラフである。図示の実施の形態では、サブバンドバッファは、3秒間のオーディオを保持し、2つの指紋が35%以下のビットエラー率(BER)を有する場合、一致が宣言される。
最初に、時間T0では、サブバンド処理バッファは空であり、次いで、生成した指紋は、元のオーディオとのゼロ一致を生成する(すなわち、BERがほぼ50%に等しいと予測される)。オーディオサンプルがサブバンドバッファに加えられた時にBERが低下すると、より良好な一致を示す。時間が十分経過した後、BERが時間T1でスレッショールド35%以下に低下して、一致を示す。最終的に、時間T2で、バッファがサンプルで満たされるので、BERは平坦域に入る。指紋アルゴリズムが対応するオーディオ断片の最後を通過する時間T3で、一致が少なくなる指紋を生成し始め、従って、BERが増加し、時間T4で認識スレッショールド35%に達する。得られた一致曲線の期間(T1〜T4)、および平坦域の期間(T2〜T3)は、一致したオーディオ断片の期間(T0〜T3)より、それぞれ短い。
一実施の形態では、エッジ検出アルゴリズムを用いて、一致するオーディオフレーム、または断片の正確なエッジを決定する。図4に示すようなBER曲線が得られる。BER曲線は、低下するBER(例えば、T1〜T2)を伴う一致の開始、ほぼ一定のBER(例えば、T2〜T3)を伴う平坦域、および増加するBER(例えば、T3〜T4)を伴う一致の終了、と対応する領域にセグメント化される。実際のBER曲線は一般にノイズが多いので、回帰分析等の、しかるべき技法を用いてセグメント化する。一実施の形態では、35%以上のBERを生成する全てのサンプルは、信頼できないので無視する。次いで、一致するオーディオ断片の開始を(すなわち、時間T1)、低下するBER領域(例えば、T1〜T2)を最良の方法で適合させるラインと、50%BERと対応する水平ラインとの交点として、線形回帰を用いて計算する。類似の手法は、時間T5を推定するのにも適用でき、増加するBER領域(例えば、T3〜T4)を最良の方法で適合させるラインと、50%BERと対応する水平ラインとの交点を取る。しかしながら、この場合、時間T5は、サブバンドバッファの期間Bだけ遅延した断片の終了と対応し、一致するオーディオ断片の実際の終了とは対応しない。断片の終了(例えば、時間T3)の場所は、得られた推定時間T5から、サブバンドバッファ期間Bを減算することにより計算できる。
別の実施の形態では、一致するオーディオ断片の終了は領域T2〜T3の終了として推定され、オーディオ断片の開始は、領域T2〜T3の開始と対応する時間T2から、サブバンドバッファBの期間を減算することにより計算する。
概略
ベクトルおよびマトリックスの点から説明したが、どの指紋、またはサブ指紋についても計算した情報を、ベクトルまたはマトリックスの値としてだけではなく任意の形式で格納し、所有できる。従って、用語ベクトルおよびマトリックスは、オーディオサンプルから抽出したデータを表す簡便なメカニズムとしてのみ用いられ、何らかの他の方法を制限することを意味しない。更に、パワースペクトルは、スペクトログラムの点から説明しているが、言うまでもなく、オーディオ信号のパワースペクトル、またはスペクトル解析を表すデータは、スペクトログラムだけではなく、他の任意の適切な形式で表され、用いることができる。
一実施の形態では、本明細書で説明した任意の、または全てのステップ、操作、または処理を実行するためにコンピュータープロセッサにより実行されるコンピュータープログラムコードを収納するコンピュータ可読媒体を含むコンピュータープログラム製品により、ソフトウエアモジュールが実装される。従って、本明細書で説明した任意のステップ、操作、または処理は、単独で、または他の装置と組合せて、一つ以上のソフトウエアモジュール、またはハードウエアモジュールにより実行、または実装できる。更に、ハードウエア要素の点から説明したシステムの任意の部分は、ソフトウエアで実装してもよく、ソフトウエア要素の点から説明したシステムの任意の部分は、専用回路内のハードコードとして、ハードウエアで実装してもよい。例えば、説明した方法を実行するためのコードを、ハードウエア装置、例えば、ASIC、または他のカスタム回路、に組み込むことができる。これにより、本発明の恩恵を多くの異なる装置の能力と組合せることができる。
別の実施の形態では、指紋アルゴリズムを、携帯電話、携帯情報端末(PDA)、MP3プレーヤおよび/またはレコーダ、セットトップボックス、またはオーディオコンテンツを格納、または演奏する任意の他の装置等の、任意の様々なオーディオ装置に組み込み、実行させる。かかる装置に指紋アルゴリズムを組み込むのには、幾つかの利点がある。例えば、携帯電話でオーディオ指紋を直接生成するのは、その電話から携帯電話ネットワーク上の指紋サーバに、圧縮したオーディオを送信するのと比較してより良好な結果をもたらすであろう。携帯電話上でアルゴリズムを実行するのは、会話を圧縮するために設計され、音楽には貧弱な性能しか発揮できないGSM圧縮により起きる歪みを除去する。従って、本手法は、携帯電話により録音されたオーディオの認識を著しく改良できる。また、ネットワークトラフィックはもとより、サーバに加わる負荷も軽減する。
かかる組み込み手法の別の恩恵は、プライバシー、およびユーザの権利を侵害せずに、聴取している経験を監視できることである。例えば、録音装置は、オーディオを録音し、指紋を生成し、次いで、指紋だけをサーバに解析のために送信する。録音したオーディオは装置から出ていくことがない。次いで、サーバは、指紋から元のオーディオを復元できなくても、送信した指紋を用いて目標とする音楽、または広告を識別する。
本発明の実施の形態のこれまでの説明は、説明を目的として提示したものであり、開示した形だけに本発明を徹底させたり、制限する意図はない。当該技術に習熟する者には言うまでもなく、多くの修正および改変が上記教示の観点から可能である。従って、意図していることは、本発明の範囲が、この詳細な説明によってではなく、本明細書に付帯のクレームによって制限される、ということである。
本発明の実施の形態によるオーディオサンプルから指紋を抽出し、使用するためのプロセスの略図である。 本発明の実施の形態による指紋抽出システムの略図である。 本発明の実施の形態による一致アルゴリズムのフロー図である。 本発明の実施の形態によるエッジ検出アルゴリズムを示す。
符号の説明
100 オーディオサンプル
110 指紋抽出アルゴリズム
115 指紋
125 指紋データベース
200 指紋抽出システム

Claims (38)

  1. オーディオフレームからオーディオ指紋を抽出するための方法であって、
    前記オーディオフレームを複数の周波数バンドにフィルタ処理して、対応する複数のフィルタ処理したオーディオ信号を生成するステップと、
    前記フィルタ処理したオーディオ信号を非直線時間スケールで再サンプリングするステップと、
    前記周波数バンド毎に前記再サンプリングしたオーディオ信号を変換して、前記周波数バンドに対する特徴ベクトルを生成するステップと、
    前記特徴ベクトルのセットに基づいて前記オーディオ指紋を計算するステップと、
    を具備する方法。
  2. 前記オーディオフレームを複数の周波数バンドにフィルタ処理するステップは、前記複数の周波数バンド毎の前記オーディオフレームをバンドパスフィルタ処理するステップを含む請求項1の方法。
  3. 前記オーディオフレームを複数の周波数バンドにフィルタ処理するステップは、前記オーディオサンプルに高速フーリエ変換(FFT)を実行するステップを含む請求項1の方法。
  4. 前記オーディオフレームは、MP3フォーマットで格納されるオーディオファイルの一部である請求項1の方法。
  5. 前記フィルタ処理したオーディオ信号は、対数時間スケールで再サンプリングされる請求項1の方法。
  6. 前記周波数バンドは、周波数軸で直線的に離間している請求項1の方法。
  7. 前記周波数バンドはオーバーラップしている請求項1の方法。
  8. 特定周波数バンドの、前記再サンプリングしてフィルタ処理したオーディオ信号を変換するステップは、前記再サンプリングしたオーディオ信号に高速フーリエ変換(FFT)を実行するステップで構成される請求項1の方法。
  9. 前記オーディオ指紋を計算するステップは、前記周波数バンドに対する前記特徴ベクトルを差分エンコードするステップを含む請求項1の方法。
  10. 前記オーディオ指紋に対するインデックス値を計算するステップを更に具備し、前記インデックス値は前記オーディオ指紋の一部を含む請求項1の方法。
  11. 前記インデックス値は、前記変換したオーディオ信号の低周波数成分のセットに対応する前記オーディオ指紋の一部を含む請求項10の方法。
  12. 前記オーディオ指紋の一部を無関連化するステップを更に具備し、前記オーディオ指紋の前記無関連化した部分は、音響モデルにより重要でないと決定された周波数範囲に対応する請求項1の方法。
  13. 前記音響モデルは心理音響モデルである請求項12の方法。
  14. 前記音響モデルはオーディオエンコード処理の特性を模す請求項12の方法。
  15. 前記音響モデルは環境特性を模す請求項12の方法。
  16. 前記音響モデルはオーディオ信号の特性を模す請求項12の方法。
  17. オーディオ指紋のデータベースを作成するための方法であって、
    請求項1に記載された方法に従ってオーディオフレームからオーディオ指紋を抽出することに基づき、複数のオーディオ指紋を生成するステップと、
    前記生成された各オーディオ指紋に対するインデックス値を計算するステップであって、前記インデックス値は、前記オーディオ指紋の一部を含むものと、
    それらのインデックス値に従って前記データベース内の前記オーディオ指紋をグループ化するステップと
    を具備する方法。
  18. オーディオ断片のエッジを検出するための方法であって、
    前記オーディオ断片を表す入力信号を受信するステップと、
    前記受信入力信号の直近部分を有限長バッファに格納するステップと、
    前記入力信号を受信している間の複数の時間毎に、請求項1の方法に従って、前記バッファに格納された前記受信した入力信号の一部についての指紋を計算するステップと、
    前記計算された指紋それぞれと、前記オーディオ断片と関係付けられる参照指紋との間のビットエラー率(BER)を計算するステップと、
    時間を通じて前記計算されたBERに基づいて前記オーディオ断片のエッジを識別するステップと、
    を具備する方法。
  19. 前記オーディオ断片のエッジを識別するステップは、
    時間を通じて低下していくBERの期間中に、前記計算されたBERの一部を一致させる最適ラインを見出すステップと、
    前記最適ラインと、BERが50%に等しくなる水平ラインとの交点として前記オーディオ断片の開始エッジを識別するステップと、を含む請求項18の方法。
  20. 前記オーディオ断片のエッジを識別するステップは、
    時間を通じて増加していくBERの期間中に、前記計算されたBERの一部を一致させる最適ラインを見出すステップと、
    前記最適ラインと、BERが50%に等しくなる水平ラインとの交点から、前記バッファ長を減算した点として、前記オーディオ断片の終了エッジを識別するステップと、を含む請求項18の方法。
  21. オーディオフレームからオーディオ指紋を抽出するための方法であって、
    前記オーディオフレームに対するスペクトログラムを計算するステップと、
    前記スペクトログラム内の複数の周波数バンドに対して非直線時間スケールで前記スペクトログラムをサンプリングするステップと、
    前記サンプリングされた周波数バンドそれぞれからの前記サンプルを用いて、長時間特徴ベクトルを抽出するステップと、
    前記特徴ベクトルに基づいて前記オーディオ指紋を生成するステップと、
    を具備する方法。
  22. 前記スペクトログラムを対数時間スケールでサンプリングする請求項21の方法。
  23. オーディオフレームからオーディオ指紋を抽出するために、コンピュータに、
    前記オーディオフレームを複数の周波数バンドにフィルタ処理して、対応する複数のフィルタ処理したオーディオ信号を生成するステップと、
    前記フィルタ処理されたオーディオ信号を非直線時間スケールで再サンプリングするステップと、
    前記周波数バンド毎に前記再サンプリングされたオーディオ信号を変換して、前記周波数バンドに対する特徴ベクトルを生成するステップと、
    前記特徴ベクトルのセットに基づいて前記オーディオ指紋を計算するステップと、
    を実行させることからなるプログラム。
  24. 前記オーディオフレームを複数の周波数バンドにフィルタ処理するステップは、前記複数の周波数バンド毎の前記オーディオフレームをバンドパスフィルタ処理するステップを含む請求項23のプログラム。
  25. 前記オーディオフレームを複数の周波数バンドにフィルタ処理するステップは、前記オーディオサンプルに高速フーリエ変換(FFT)を実行するステップを含む請求項23のプログラム。
  26. 前記オーディオフレームは、MP3フォーマットで格納されるオーディオファイルの一部であり、前記フィルタ処理したオーディオ信号は、前記オーディオファイルに関係付けられるMP3ハイブリッドフィルタバンクから得られる請求項23のプログラム。
  27. 前記フィルタ処理されたオーディオ信号は、対数時間スケールで再サンプリングされる請求項23のプログラム。
  28. 前記周波数バンドは、周波数軸で直線的に離間している請求項23のプログラム。
  29. 前記周波数バンドはオーバーラップしている請求項23のプログラム。
  30. 特定周波数バンドの前記再サンプリングし、フィルタ処理したオーディオ信号を変換するステップは、前記再サンプリングしたオーディオ信号に高速フーリエ変換(FFT)を実行するステップを含む請求項23のプログラム。
  31. 前記オーディオ指紋を計算するステップは、前記周波数バンドに対する前記特徴ベクトルを差分エンコードするステップを含む請求項23のプログラム。
  32. 前記オーディオ指紋に対するインデックス値を計算するステップを更に含み、前記インデックス値は前記オーディオ指紋の一部を含む請求項23のプログラム。
  33. 前記インデックス値は、前記変換したオーディオ信号の低周波数成分のセットに対応する前記オーディオ指紋の一部を含む請求項32のプログラム。
  34. 前記オーディオ指紋の一部を無関連化するステップを更に含み、前記オーディオ指紋の前記無関連化した部分は、音響モデルにより重要でないと決定した周波数範囲に対応する請求項23のプログラム。
  35. 前記音響モデルは心理音響モデルである請求項34のプログラム。
  36. 前記音響モデルはオーディオエンコード処理の特性を模す請求項34のプログラム。
  37. 前記音響モデルは環境特性を模す請求項34のプログラム。
  38. 前記音響モデルはオーディオ信号の特性を模す請求項34のプログラム。
JP2006230500A 2005-09-01 2006-08-28 オーディオ信号からの特徴的な指紋の抽出とマッチング Active JP5362178B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/219,385 US7516074B2 (en) 2005-09-01 2005-09-01 Extraction and matching of characteristic fingerprints from audio signals
US11/219385 2005-09-01

Publications (3)

Publication Number Publication Date
JP2007065659A true JP2007065659A (ja) 2007-03-15
JP2007065659A5 JP2007065659A5 (ja) 2009-10-08
JP5362178B2 JP5362178B2 (ja) 2013-12-11

Family

ID=37400951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006230500A Active JP5362178B2 (ja) 2005-09-01 2006-08-28 オーディオ信号からの特徴的な指紋の抽出とマッチング

Country Status (6)

Country Link
US (3) US7516074B2 (ja)
EP (1) EP1760693B1 (ja)
JP (1) JP5362178B2 (ja)
AT (1) ATE403212T1 (ja)
DE (1) DE602006002006D1 (ja)
ES (1) ES2309924T3 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100893123B1 (ko) 2007-05-07 2009-04-10 (주)엔써즈 오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를이용한 오디오 데이터 비교 방법 및 장치
JP2011512554A (ja) * 2008-02-14 2011-04-21 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のフィンガープリントを計算するための装置及び方法、同期のための装置及び方法、並びに試験オーディオ信号の特徴付けのための装置及び方法
JP2012079312A (ja) * 2010-10-01 2012-04-19 Nhn Corp サウンド認識による広告情報提供システムおよび方法
JP2012529704A (ja) * 2009-06-11 2012-11-22 ヤフー! インコーポレイテッド 検索負荷に応じて平衡化されたフィンガープリントのデータベースを有するメディア識別システム
JP2014506686A (ja) * 2011-02-10 2014-03-17 ヤフー! インコーポレイテッド 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
US8676364B2 (en) 2008-02-14 2014-03-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for synchronizing multichannel extension data with an audio signal and for processing the audio signal
JP2014520287A (ja) * 2012-05-23 2014-08-21 エンサーズ カンパニー リミテッド オーディオ信号を用いたコンテンツ認識装置及び方法
US9215350B2 (en) 2011-07-14 2015-12-15 Nec Corporation Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same
JP2017512333A (ja) * 2014-03-04 2017-05-18 インタラクティブ・インテリジェンス・グループ・インコーポレイテッド オーディオ指紋探索の最適化のためのシステムおよび方法
JP2017518715A (ja) * 2014-04-04 2017-07-06 テレトラックス べスローテン フェンノートシャップ 情報信号の指紋を生成するための方法及び装置
KR20180009393A (ko) * 2011-10-19 2018-01-26 페이스북, 인크. 동적 장치 구성을 위한 주기적 주변 파형 분석
KR20190021421A (ko) * 2016-06-28 2019-03-05 알리바바 그룹 홀딩 리미티드 오디오 인식을 위한 방법 및 디바이스
JP2019519869A (ja) * 2016-04-08 2019-07-11 ソース ディジタル インコーポレイテッド オーディオエネルギー特性に基づくオーディオフィンガープリンティング
JP2020145722A (ja) * 2016-02-29 2020-09-10 グレースノート インコーポレイテッド 参照ストリーム比較に基づく複数一致検出を用いたメディアチャネル識別およびアクション

Families Citing this family (223)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8959016B2 (en) 2002-09-27 2015-02-17 The Nielsen Company (Us), Llc Activating functions in processing devices using start codes embedded in audio
US9711153B2 (en) 2002-09-27 2017-07-18 The Nielsen Company (Us), Llc Activating functions in processing devices using encoded audio and detecting audio signatures
US8229751B2 (en) * 2004-02-26 2012-07-24 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals
KR20060135794A (ko) 2004-02-26 2006-12-29 미디어 가이드, 인코포레이티드 방송 오디오 또는 비디오 프로그래밍 신호의 자동 검출 및식별 방법, 및 장치
US20060155754A1 (en) * 2004-12-08 2006-07-13 Steven Lubin Playlist driven automated content transmission and delivery system
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
KR100803206B1 (ko) 2005-11-11 2008-02-14 삼성전자주식회사 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법
US20070162761A1 (en) 2005-12-23 2007-07-12 Davis Bruce L Methods and Systems to Help Detect Identity Fraud
US20090006337A1 (en) * 2005-12-30 2009-01-01 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified video signals
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US20080051029A1 (en) * 2006-08-25 2008-02-28 Bradley James Witteman Phone-based broadcast audio identification
US7645929B2 (en) * 2006-09-11 2010-01-12 Hewlett-Packard Development Company, L.P. Computational music-tempo estimation
US7812241B2 (en) * 2006-09-27 2010-10-12 The Trustees Of Columbia University In The City Of New York Methods and systems for identifying similar songs
US9179200B2 (en) * 2007-03-14 2015-11-03 Digimarc Corporation Method and system for determining content treatment
US7912894B2 (en) * 2007-05-15 2011-03-22 Adams Phillip M Computerized, copy-detection and discrimination apparatus and method
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
JP5071479B2 (ja) * 2007-07-04 2012-11-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US8452043B2 (en) 2007-08-27 2013-05-28 Yuvad Technologies Co., Ltd. System for identifying motion video content
US9177209B2 (en) * 2007-12-17 2015-11-03 Sinoeast Concept Limited Temporal segment based extraction and robust matching of video fingerprints
KR100939215B1 (ko) * 2007-12-17 2010-01-28 한국전자통신연구원 인덱스 데이터베이스 생성 장치 및 검색 장치
CN101493987B (zh) * 2008-01-24 2011-08-31 深圳富泰宏精密工业有限公司 手机声控遥控系统及方法
US8806021B2 (en) * 2008-01-28 2014-08-12 Sony Corporation Methods, portable electronic devices, systems and computer program products for automatically creating social networking services (SNS)
JP5262171B2 (ja) 2008-02-19 2013-08-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
WO2009107049A2 (en) * 2008-02-26 2009-09-03 Koninklijke Philips Electronics N.V. Content identification method
GB2458471A (en) * 2008-03-17 2009-09-23 Taylor Nelson Sofres Plc A signature generating device for an audio signal and associated methods
US20110022633A1 (en) * 2008-03-31 2011-01-27 Dolby Laboratories Licensing Corporation Distributed media fingerprint repositories
WO2009140819A1 (en) 2008-05-21 2009-11-26 Yuvad Technologies Co., Ltd. A system for facilitating the search of video content
US8370382B2 (en) 2008-05-21 2013-02-05 Ji Zhang Method for facilitating the search of video content
WO2009140820A1 (en) 2008-05-21 2009-11-26 Yuvad Technologies Co., Ltd. A system for extracting a finger print data from video/audio signals
US8548192B2 (en) 2008-05-22 2013-10-01 Yuvad Technologies Co., Ltd. Method for extracting a fingerprint data from video/audio signals
US8577077B2 (en) 2008-05-22 2013-11-05 Yuvad Technologies Co., Ltd. System for identifying motion video/audio content
US20090313249A1 (en) * 2008-06-11 2009-12-17 Bennett James D Creative work registry independent server
US8700194B2 (en) * 2008-08-26 2014-04-15 Dolby Laboratories Licensing Corporation Robust media fingerprints
US20100057527A1 (en) * 2008-08-29 2010-03-04 Disney Enterprises, Inc. System and method for personalized action based on a comparison of delivered content with a content fingerprint database
US20100205628A1 (en) 2009-02-12 2010-08-12 Davis Bruce L Media processing methods and arrangements
DE102009044480B4 (de) 2008-11-21 2014-04-03 Lenovo (Singapore) Pte. Ltd. Anordnung und Verfahren zum Identifizieren von Medien und zum Bereitstellen von zusätzlichem Medieninhalt
US9355554B2 (en) * 2008-11-21 2016-05-31 Lenovo (Singapore) Pte. Ltd. System and method for identifying media and providing additional media content
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US9519772B2 (en) 2008-11-26 2016-12-13 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9154942B2 (en) 2008-11-26 2015-10-06 Free Stream Media Corp. Zero configuration communication between a browser and a networked media device
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US8452586B2 (en) * 2008-12-02 2013-05-28 Soundhound, Inc. Identifying music from peaks of a reference sound fingerprint
US9390167B2 (en) * 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US8433431B1 (en) 2008-12-02 2013-04-30 Soundhound, Inc. Displaying text to end users in coordination with audio playback
US8762149B2 (en) * 2008-12-10 2014-06-24 Marta Sánchez Asenjo Method for verifying the identity of a speaker and related computer readable medium and computer
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
GB2466242B (en) * 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
GB2467324B (en) * 2009-01-28 2014-03-26 Norwell Sa Device, system and method for measurement of media consumption in digital media terminals
US20100205222A1 (en) * 2009-02-10 2010-08-12 Tom Gajdos Music profiling
CA2754170A1 (en) * 2009-03-11 2010-09-16 Paymaan Behrouzi Digital signatures
WO2010129630A1 (en) * 2009-05-08 2010-11-11 Dolby Laboratories Licensing Corporation Storing and searching fingerprints derived from media content based on a classification of the media content
WO2010135623A1 (en) * 2009-05-21 2010-11-25 Digimarc Corporation Robust signatures derived from local nonlinear filters
US8489774B2 (en) 2009-05-27 2013-07-16 Spot411 Technologies, Inc. Synchronized delivery of interactive content
WO2010138776A2 (en) * 2009-05-27 2010-12-02 Spot411 Technologies, Inc. Audio-based synchronization to media
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US9094714B2 (en) 2009-05-29 2015-07-28 Cognitive Networks, Inc. Systems and methods for on-screen graphics detection
US8190663B2 (en) * 2009-07-06 2012-05-29 Osterreichisches Forschungsinstitut Fur Artificial Intelligence Der Osterreichischen Studiengesellschaft Fur Kybernetik Of Freyung Method and a system for identifying similar audio tracks
EP2457232A1 (en) 2009-07-24 2012-05-30 Johannes Kepler Universität Linz A method and an apparatus for deriving information from an audio track and determining similarity between audio tracks
DK2750135T3 (en) * 2009-10-09 2017-08-14 Adelphoi Ltd Creating Metadata Records
JP2011080937A (ja) * 2009-10-09 2011-04-21 Sumitomo Chemical Co Ltd 保温材下腐食の検査方法
US8706276B2 (en) * 2009-10-09 2014-04-22 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for identifying matching audio
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US9218530B2 (en) 2010-11-04 2015-12-22 Digimarc Corporation Smartphone-based methods and systems
US8175617B2 (en) 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US8594392B2 (en) * 2009-11-18 2013-11-26 Yahoo! Inc. Media identification system for efficient matching of media items having common content
JP5148586B2 (ja) * 2009-12-01 2013-02-20 株式会社東芝 復号装置および復号方法
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
CN102196192A (zh) * 2010-03-17 2011-09-21 联想(新加坡)私人有限公司 用于识别媒体并提供额外的媒体内容的系统和方法
US9264785B2 (en) * 2010-04-01 2016-02-16 Sony Computer Entertainment Inc. Media fingerprinting for content determination and retrieval
US9020415B2 (en) 2010-05-04 2015-04-28 Project Oda, Inc. Bonus and experience enhancement system for receivers of broadcast media
US8694533B2 (en) 2010-05-19 2014-04-08 Google Inc. Presenting mobile content based on programming context
JP5907511B2 (ja) * 2010-06-09 2016-04-26 アデルフォイ リミテッド オーディオメディア認識のためのシステム及び方法
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
GB2484140B (en) 2010-10-01 2017-07-12 Asio Ltd Data communication system
US8863165B2 (en) 2010-11-01 2014-10-14 Gracenote, Inc. Method and system for presenting additional content at a media system
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
US9558651B2 (en) 2010-11-12 2017-01-31 Lenovo (Singapore) Pte. Ltd. Convertible wireless remote controls
US9270798B2 (en) 2010-12-03 2016-02-23 International Business Machines Corporation Ring-tone detection in a VoIP call
US8989395B2 (en) * 2010-12-07 2015-03-24 Empire Technology Development Llc Audio fingerprint differences for end-to-end quality of experience measurement
US20120197612A1 (en) * 2011-01-28 2012-08-02 International Business Machines Corporation Portable wireless device for monitoring noise
GB2487795A (en) * 2011-02-07 2012-08-08 Slowink Ltd Indexing media files based on frequency content
US8589171B2 (en) 2011-03-17 2013-11-19 Remote Media, Llc System and method for custom marking a media file for file matching
US8478719B2 (en) 2011-03-17 2013-07-02 Remote Media LLC System and method for media file synchronization
US8688631B2 (en) 2011-03-17 2014-04-01 Alexander Savenok System and method for media file synchronization
US9002490B2 (en) * 2011-04-13 2015-04-07 Longsand Limted Methods and systems for generating frictionless social experience environment
TWI450266B (zh) * 2011-04-19 2014-08-21 Hon Hai Prec Ind Co Ltd 電子裝置及音頻資料的解碼方法
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
US8621548B2 (en) 2011-05-12 2013-12-31 At&T Intellectual Property I, L.P. Method and apparatus for augmenting media services
US20120294457A1 (en) * 2011-05-17 2012-11-22 Fender Musical Instruments Corporation Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals and Control Signal Processing Function
US20110296452A1 (en) * 2011-08-08 2011-12-01 Lei Yu System and method for providing content-aware persistent advertisements
US8793274B2 (en) * 2011-08-08 2014-07-29 Lei Yu System and method for auto content recognition
CN103918247B (zh) 2011-09-23 2016-08-24 数字标记公司 基于背景环境的智能手机传感器逻辑
US9384272B2 (en) 2011-10-05 2016-07-05 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for identifying similar songs using jumpcodes
US9402099B2 (en) 2011-10-14 2016-07-26 Digimarc Corporation Arrangements employing content identification and/or distribution identification data
US9223893B2 (en) 2011-10-14 2015-12-29 Digimarc Corporation Updating social graph data using physical objects identified from images captured by smartphone
US9098576B1 (en) 2011-10-17 2015-08-04 Google Inc. Ensemble interest point detection for audio matching
US8831763B1 (en) * 2011-10-18 2014-09-09 Google Inc. Intelligent interest point pruning for audio matching
US8805560B1 (en) 2011-10-18 2014-08-12 Google Inc. Noise based interest point density pruning
US8886543B1 (en) 2011-11-15 2014-11-11 Google Inc. Frequency ratio fingerprint characterization for audio matching
JP5982791B2 (ja) 2011-11-16 2016-08-31 ソニー株式会社 情報処理装置及び情報処理方法、情報提供装置、並びに、情報提供システム
US9367612B1 (en) * 2011-11-18 2016-06-14 Google Inc. Correlation-based method for representing long-timescale structure in time-series data
US8586847B2 (en) * 2011-12-02 2013-11-19 The Echo Nest Corporation Musical fingerprinting based on onset intervals
US8949872B2 (en) * 2011-12-20 2015-02-03 Yahoo! Inc. Audio fingerprint for content identification
US20130178966A1 (en) * 2012-01-09 2013-07-11 Function(x), Inc. Method and System for Identifying a Media Program From an Audio Signal Associated With the Media Program
US9268845B1 (en) 2012-03-08 2016-02-23 Google Inc. Audio matching using time alignment, frequency alignment, and interest point overlap to filter false positives
US9471673B1 (en) 2012-03-12 2016-10-18 Google Inc. Audio matching using time-frequency onsets
US9292894B2 (en) 2012-03-14 2016-03-22 Digimarc Corporation Content recognition and synchronization using local caching
US9087124B1 (en) * 2012-03-26 2015-07-21 Google Inc. Adaptive weighting of popular reference content in audio matching
US8681950B2 (en) * 2012-03-28 2014-03-25 Interactive Intelligence, Inc. System and method for fingerprinting datasets
US9148738B1 (en) 2012-03-30 2015-09-29 Google Inc. Using local gradients for pitch resistant audio matching
US8966571B2 (en) * 2012-04-03 2015-02-24 Google Inc. Detection of potentially copyrighted content in user-initiated live streams
US8953811B1 (en) * 2012-04-18 2015-02-10 Google Inc. Full digest of an audio file for identifying duplicates
US9703932B2 (en) * 2012-04-30 2017-07-11 Excalibur Ip, Llc Continuous content identification of broadcast content
US9418669B2 (en) * 2012-05-13 2016-08-16 Harry E. Emerson, III Discovery of music artist and title for syndicated content played by radio stations
US8886635B2 (en) * 2012-05-23 2014-11-11 Enswers Co., Ltd. Apparatus and method for recognizing content using audio signal
WO2013184520A1 (en) 2012-06-04 2013-12-12 Stone Troy Christopher Methods and systems for identifying content types
US9235867B2 (en) * 2012-06-04 2016-01-12 Microsoft Technology Licensing, Llc Concurrent media delivery
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US9451308B1 (en) 2012-07-23 2016-09-20 Google Inc. Directed content presentation
EP2891146B1 (en) 2012-08-30 2019-03-06 Interactive Intelligence, INC. Method and system for learning call analysis
US20140136596A1 (en) * 2012-11-09 2014-05-15 Yahoo! Inc. Method and system for capturing audio of a video to display supplemental content associated with the video
US9159327B1 (en) * 2012-12-20 2015-10-13 Google Inc. System and method for adding pitch shift resistance to an audio fingerprint
US9529907B2 (en) 2012-12-31 2016-12-27 Google Inc. Hold back and real time ranking of results in a streaming matching system
US9153239B1 (en) * 2013-03-14 2015-10-06 Google Inc. Differentiating between near identical versions of a song
US9679583B2 (en) 2013-03-15 2017-06-13 Facebook, Inc. Managing silence in audio signal identification
US9460201B2 (en) * 2013-05-06 2016-10-04 Iheartmedia Management Services, Inc. Unordered matching of audio fingerprints
US20140336797A1 (en) * 2013-05-12 2014-11-13 Harry E. Emerson, III Audio content monitoring and identification of broadcast radio stations
KR101456926B1 (ko) * 2013-06-14 2014-10-31 (주)엔써즈 핑거프린트에 기반한 광고 검출 시스템 및 방법
US9244042B2 (en) * 2013-07-31 2016-01-26 General Electric Company Vibration condition monitoring system and methods
US9275427B1 (en) * 2013-09-05 2016-03-01 Google Inc. Multi-channel audio video fingerprinting
US9466317B2 (en) * 2013-10-11 2016-10-11 Facebook, Inc. Generating a reference audio fingerprint for an audio signal associated with an event
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US9430474B2 (en) 2014-01-15 2016-08-30 Microsoft Technology Licensing, Llc Automated multimedia content recognition
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US10157272B2 (en) * 2014-02-04 2018-12-18 Qualcomm Incorporated Systems and methods for evaluating strength of an audio password
WO2015118431A1 (en) 2014-02-05 2015-08-13 Edge Innovation, Lda. Method for capture and analysis of multimedia content
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
CN105279193B (zh) * 2014-07-22 2020-05-01 腾讯科技(深圳)有限公司 文件处理方法及装置
US9881083B2 (en) 2014-08-14 2018-01-30 Yandex Europe Ag Method of and a system for indexing audio tracks using chromaprints
WO2016024172A1 (en) 2014-08-14 2016-02-18 Yandex Europe Ag Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine
KR101904423B1 (ko) * 2014-09-03 2018-11-28 삼성전자주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치
US9548830B2 (en) 2014-09-05 2017-01-17 The Nielsen Company (Us), Llc Methods and apparatus to generate signatures representative of media
US9837101B2 (en) * 2014-11-25 2017-12-05 Facebook, Inc. Indexing based on time-variant transforms of an audio signal's spectrogram
EP3228084A4 (en) 2014-12-01 2018-04-25 Inscape Data, Inc. System and method for continuous media segment identification
US9363562B1 (en) 2014-12-01 2016-06-07 Stingray Digital Group Inc. Method and system for authorizing a user device
CN108337925B (zh) 2015-01-30 2024-02-27 构造数据有限责任公司 用于识别视频片段以及显示从替代源和/或在替代设备上观看的选项的方法
EP4375952A3 (en) 2015-04-17 2024-06-19 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US9653094B2 (en) 2015-04-24 2017-05-16 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types
CN106294331B (zh) * 2015-05-11 2020-01-21 阿里巴巴集团控股有限公司 音频信息检索方法及装置
US9818414B2 (en) 2015-06-04 2017-11-14 Intel Corporation Dialogue system with audio watermark
CA2992319C (en) 2015-07-16 2023-11-21 Inscape Data, Inc. Detection of common media segments
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
CA2992519C (en) 2015-07-16 2024-04-02 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
US9928840B2 (en) 2015-10-16 2018-03-27 Google Llc Hotword recognition
JP6463710B2 (ja) 2015-10-16 2019-02-06 グーグル エルエルシー ホットワード認識
US9747926B2 (en) 2015-10-16 2017-08-29 Google Inc. Hotword recognition
US10594689B1 (en) 2015-12-04 2020-03-17 Digimarc Corporation Robust encoding of machine readable information in host objects and biometrics, and associated decoding and authentication
US10453460B1 (en) * 2016-02-02 2019-10-22 Amazon Technologies, Inc. Post-speech recognition request surplus detection and prevention
WO2017151443A1 (en) * 2016-02-29 2017-09-08 Myteamcalls Llc Systems and methods for customized live-streaming commentary
US10063918B2 (en) 2016-02-29 2018-08-28 Gracenote, Inc. Media channel identification with multi-match detection and disambiguation based on single-match
US10606879B1 (en) 2016-02-29 2020-03-31 Gracenote, Inc. Indexing fingerprints
US9930406B2 (en) 2016-02-29 2018-03-27 Gracenote, Inc. Media channel identification with video multi-match detection and disambiguation based on audio fingerprint
US9786298B1 (en) 2016-04-08 2017-10-10 Source Digital, Inc. Audio fingerprinting based on audio energy characteristics
EP3476121B1 (en) 2016-06-22 2022-03-30 Gracenote, Inc. Matching audio fingerprints
US20170371963A1 (en) 2016-06-27 2017-12-28 Facebook, Inc. Systems and methods for identifying matching content
US9728188B1 (en) * 2016-06-28 2017-08-08 Amazon Technologies, Inc. Methods and devices for ignoring similar audio being received by a system
US10616631B2 (en) 2016-08-01 2020-04-07 Samsung Electronics Co., Ltd. Electronic apparatus and method of operating the same
WO2018029708A1 (en) * 2016-08-10 2018-02-15 Naffa Innovations Private Limited System and method for providing targeted secondary content delivery
CN109997186B (zh) 2016-09-09 2021-10-15 华为技术有限公司 一种用于分类声环境的设备和方法
GB201617409D0 (en) 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
GB201617408D0 (en) 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
US10225031B2 (en) 2016-11-02 2019-03-05 The Nielsen Company (US) Methods and apparatus for increasing the robustness of media signatures
GB201704636D0 (en) 2017-03-23 2017-05-10 Asio Ltd A method and system for authenticating a device
AU2018250286C1 (en) 2017-04-06 2022-06-02 Inscape Data, Inc. Systems and methods for improving accuracy of device maps using media viewing data
GB2565751B (en) * 2017-06-15 2022-05-04 Sonos Experience Ltd A method and system for triggering events
US10236005B2 (en) 2017-06-08 2019-03-19 The Nielsen Company (Us), Llc Methods and apparatus for audio signature generation and matching
CN107633078B (zh) * 2017-09-25 2019-02-22 北京达佳互联信息技术有限公司 音频指纹提取方法、音视频检测方法、装置及终端
US10475462B2 (en) * 2017-11-08 2019-11-12 PlayFusion Limited Audio recognition apparatus and method
CN107607598B (zh) * 2017-11-09 2020-09-01 湖南省食品质量监督检验研究院 基于非线性化学指纹图谱技术的黑枸杞真伪鉴别的方法
CN109903745B (zh) * 2017-12-07 2021-04-09 北京雷石天地电子技术有限公司 一种生成伴奏的方法和系统
GB2570634A (en) 2017-12-20 2019-08-07 Asio Ltd A method and system for improved acoustic transmission of data
US10089994B1 (en) 2018-01-15 2018-10-02 Alex Radzishevsky Acoustic fingerprint extraction and matching
CN108447501B (zh) * 2018-03-27 2020-08-18 中南大学 一种云存储环境下基于音频字的盗版视频检测方法与系统
CN110322886A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种音频指纹提取方法及装置
KR102454002B1 (ko) * 2018-04-02 2022-10-14 한국전자통신연구원 미디어의 시청률을 조사하기 위한 신호 처리 방법 및 그 방법을 수행하는 부가정보 삽입장치, 미디어 재생 장치, 시청률 조사 장치
US11594028B2 (en) 2018-05-18 2023-02-28 Stats Llc Video processing for enabling sports highlights generation
CN108665905B (zh) * 2018-05-18 2021-06-15 宁波大学 一种基于频带带宽不一致性的数字语音重采样检测方法
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
WO2020231821A1 (en) 2019-05-10 2020-11-19 The Nielsen Company (Us), Llc Content-modification system with fingerprint data match and mismatch detection feature
WO2020231927A1 (en) 2019-05-10 2020-11-19 The Nielsen Company (Us), Llc Content-modification system with responsive transmission of reference fingerprint data feature
US11736742B2 (en) 2019-05-10 2023-08-22 Roku, Inc. Content-modification system with responsive transmission of reference fingerprint data feature
CN110209872B (zh) * 2019-05-29 2021-06-22 天翼爱音乐文化科技有限公司 片段音频歌词生成方法、装置、计算机设备和存储介质
US11234050B2 (en) * 2019-06-18 2022-01-25 Roku, Inc. Use of steganographically-encoded data as basis to control dynamic content modification as to at least one modifiable-content segment identified based on fingerprint analysis
CN110377782B (zh) * 2019-07-12 2022-03-08 腾讯音乐娱乐科技(深圳)有限公司 音频检索方法、装置和存储介质
US11392640B2 (en) * 2019-09-05 2022-07-19 Gracenote, Inc. Methods and apparatus to identify media that has been pitch shifted, time shifted, and/or resampled
US11922532B2 (en) 2020-01-15 2024-03-05 Digimarc Corporation System for mitigating the problem of deepfake media content using watermarking
CN111400542B (zh) * 2020-03-20 2023-09-08 腾讯科技(深圳)有限公司 音频指纹的生成方法、装置、设备及存储介质
US11988784B2 (en) 2020-08-31 2024-05-21 Sonos, Inc. Detecting an audio signal with a microphone to determine presence of a playback device
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion
CN113035213B (zh) * 2020-12-24 2022-07-22 中国电影科学技术研究所 数字音频水印检测方法及装置
US20230030937A1 (en) * 2021-07-29 2023-02-02 Samsung Electronics Co., Ltd. Method and apparatus with image preprocessing
US20230136608A1 (en) * 2021-10-28 2023-05-04 Capped Out Media System and methods for advertisement enhancement
CN114339081A (zh) * 2021-12-22 2022-04-12 腾讯音乐娱乐科技(深圳)有限公司 一种字幕生成方法、电子设备及计算机可读存储介质
CN114443891B (zh) * 2022-01-14 2022-12-06 北京有竹居网络技术有限公司 编码器的生成方法、指纹提取方法、介质及电子设备
CN117219125B (zh) * 2023-11-07 2024-01-30 青岛科技大学 基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573093A (ja) * 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 信号特徴点の抽出方法
JP2000285104A (ja) * 1999-01-28 2000-10-13 Atr Ningen Joho Tsushin Kenkyusho:Kk 信号処理方法および装置
WO2002011123A2 (en) * 2000-07-31 2002-02-07 Shazam Entertainment Limited Method for search in an audio database
WO2004044820A1 (en) * 2002-11-12 2004-05-27 Koninklijke Philips Electronics N.V. Fingerprinting multimedia contents
JP2005266013A (ja) * 2004-03-16 2005-09-29 Tohoku Univ Pn系列検出装置、pn系列検出回路およびそのプログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6266003B1 (en) * 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
US8326584B1 (en) 1999-09-14 2012-12-04 Gracenote, Inc. Music searching methods based on human perception
US7174293B2 (en) 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US6834308B1 (en) 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
FR2807275B1 (fr) 2000-04-04 2003-01-24 Mobiclick Systeme permettant de transmettre a un usager des informations relativement a une sequence sonore qu'il ecoute ou a ecoutee
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
US7853664B1 (en) 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
US7562012B1 (en) 2000-11-03 2009-07-14 Audible Magic Corporation Method and apparatus for creating a unique audio signature
US20020072982A1 (en) 2000-12-12 2002-06-13 Shazam Entertainment Ltd. Method and system for interacting with a user in an experiential environment
US7359889B2 (en) * 2001-03-02 2008-04-15 Landmark Digital Services Llc Method and apparatus for automatically creating database for use in automated media recognition system
AU2002346116A1 (en) * 2001-07-20 2003-03-03 Gracenote, Inc. Automatic identification of sound recordings
US7003131B2 (en) * 2002-07-09 2006-02-21 Kaleidescape, Inc. Watermarking and fingerprinting digital content using alternative blocks to embed information
US20060080356A1 (en) * 2004-10-13 2006-04-13 Microsoft Corporation System and method for inferring similarities between media objects
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
KR100774585B1 (ko) * 2006-02-10 2007-11-09 삼성전자주식회사 변조 스펙트럼을 이용한 음악 정보 검색 방법 및 그 장치
US7904718B2 (en) * 2006-05-05 2011-03-08 Proxense, Llc Personal digital key differentiation for secure transactions
US8934545B2 (en) * 2009-02-13 2015-01-13 Yahoo! Inc. Extraction of video fingerprints and identification of multimedia using video fingerprinting
US8158870B2 (en) * 2010-06-29 2012-04-17 Google Inc. Intervalgram representation of audio for melody recognition
US8681950B2 (en) * 2012-03-28 2014-03-25 Interactive Intelligence, Inc. System and method for fingerprinting datasets
US9679583B2 (en) * 2013-03-15 2017-06-13 Facebook, Inc. Managing silence in audio signal identification
US9728205B2 (en) * 2013-03-15 2017-08-08 Facebook, Inc. Generating audio fingerprints based on audio signal complexity

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573093A (ja) * 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 信号特徴点の抽出方法
JP2000285104A (ja) * 1999-01-28 2000-10-13 Atr Ningen Joho Tsushin Kenkyusho:Kk 信号処理方法および装置
WO2002011123A2 (en) * 2000-07-31 2002-02-07 Shazam Entertainment Limited Method for search in an audio database
WO2004044820A1 (en) * 2002-11-12 2004-05-27 Koninklijke Philips Electronics N.V. Fingerprinting multimedia contents
JP2006505821A (ja) * 2002-11-12 2006-02-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 指紋情報付マルチメディアコンテンツ
JP2005266013A (ja) * 2004-03-16 2005-09-29 Tohoku Univ Pn系列検出装置、pn系列検出回路およびそのプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6011061963; S.Sukittanon, L.E.Atlas, J.W.Pitton: 'Modulation-scale analysis for content identification' Signal Processing, IEEE Transactions on Volume 52, Issue 10, 200410, p.3023 - 3035, IEEE *
JPN6011061964; P.Cano, E.Batle, T.Kalker, J.Haitsma: 'A review of algorithms for audio fingerprinting' Multimedia Signal Processing, 2002 IEEE Workshop on , 200209, p.169 - 173, IEEE *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100893123B1 (ko) 2007-05-07 2009-04-10 (주)엔써즈 오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를이용한 오디오 데이터 비교 방법 및 장치
US8634946B2 (en) 2008-02-14 2014-01-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for calculating a fingerprint of an audio signal, apparatus and method for synchronizing and apparatus and method for characterizing a test audio signal
JP2011512554A (ja) * 2008-02-14 2011-04-21 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のフィンガープリントを計算するための装置及び方法、同期のための装置及び方法、並びに試験オーディオ信号の特徴付けのための装置及び方法
US8676364B2 (en) 2008-02-14 2014-03-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for synchronizing multichannel extension data with an audio signal and for processing the audio signal
JP2012529704A (ja) * 2009-06-11 2012-11-22 ヤフー! インコーポレイテッド 検索負荷に応じて平衡化されたフィンガープリントのデータベースを有するメディア識別システム
JP2012079312A (ja) * 2010-10-01 2012-04-19 Nhn Corp サウンド認識による広告情報提供システムおよび方法
JP2014506686A (ja) * 2011-02-10 2014-03-17 ヤフー! インコーポレイテッド 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
US9215350B2 (en) 2011-07-14 2015-12-15 Nec Corporation Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same
KR101988900B1 (ko) * 2011-10-19 2019-06-14 페이스북, 인크. 동적 장치 구성을 위한 주기적 주변 파형 분석
KR20180009393A (ko) * 2011-10-19 2018-01-26 페이스북, 인크. 동적 장치 구성을 위한 주기적 주변 파형 분석
US10219123B2 (en) 2011-10-19 2019-02-26 Facebook, Inc. Periodic ambient waveform analysis for dynamic device configuration
JP2014520287A (ja) * 2012-05-23 2014-08-21 エンサーズ カンパニー リミテッド オーディオ信号を用いたコンテンツ認識装置及び方法
JP2017512333A (ja) * 2014-03-04 2017-05-18 インタラクティブ・インテリジェンス・グループ・インコーポレイテッド オーディオ指紋探索の最適化のためのシステムおよび方法
JP2017518715A (ja) * 2014-04-04 2017-07-06 テレトラックス べスローテン フェンノートシャップ 情報信号の指紋を生成するための方法及び装置
JP2020145722A (ja) * 2016-02-29 2020-09-10 グレースノート インコーポレイテッド 参照ストリーム比較に基づく複数一致検出を用いたメディアチャネル識別およびアクション
JP2019519869A (ja) * 2016-04-08 2019-07-11 ソース ディジタル インコーポレイテッド オーディオエネルギー特性に基づくオーディオフィンガープリンティング
KR20190021421A (ko) * 2016-06-28 2019-03-05 알리바바 그룹 홀딩 리미티드 오디오 인식을 위한 방법 및 디바이스
US10910000B2 (en) 2016-06-28 2021-02-02 Advanced New Technologies Co., Ltd. Method and device for audio recognition using a voting matrix
KR102220964B1 (ko) 2016-06-28 2021-03-02 어드밴스드 뉴 테크놀로지스 씨오., 엘티디. 오디오 인식을 위한 방법 및 디바이스
US11133022B2 (en) 2016-06-28 2021-09-28 Advanced New Technologies Co., Ltd. Method and device for audio recognition using sample audio and a voting matrix

Also Published As

Publication number Publication date
US7516074B2 (en) 2009-04-07
EP1760693B1 (en) 2008-07-30
DE602006002006D1 (de) 2008-09-11
ATE403212T1 (de) 2008-08-15
US9208790B2 (en) 2015-12-08
US20130197913A1 (en) 2013-08-01
EP1760693A1 (en) 2007-03-07
ES2309924T3 (es) 2008-12-16
US8396705B2 (en) 2013-03-12
JP5362178B2 (ja) 2013-12-11
US20090157391A1 (en) 2009-06-18
US20070055500A1 (en) 2007-03-08

Similar Documents

Publication Publication Date Title
JP5362178B2 (ja) オーディオ信号からの特徴的な指紋の抽出とマッチング
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
US8586847B2 (en) Musical fingerprinting based on onset intervals
US8492633B2 (en) Musical fingerprinting
EP2659481B1 (en) Scene change detection around a set of seed points in media data
KR100776495B1 (ko) 오디오 데이터베이스에서의 검색 방법
JP5907511B2 (ja) オーディオメディア認識のためのシステム及び方法
US20140330556A1 (en) Low complexity repetition detection in media data
JP2006504115A (ja) 楽曲識別システムおよび方法
JP2005322401A (ja) メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム
WO2005022318A2 (en) A method and system for generating acoustic fingerprints
EP3575989B1 (en) Method and device for processing multimedia data
KR101002731B1 (ko) 오디오 데이터의 특징 벡터 추출방법과 그 방법이 기록된컴퓨터 판독 가능한 기록매체 및 이를 이용한 오디오데이터의 매칭 방법
CN117807564A (zh) 音频数据的侵权识别方法、装置、设备及介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090825

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090825

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120229

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20120229

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130904

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5362178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350