JP5907511B2 - オーディオメディア認識のためのシステム及び方法 - Google Patents
オーディオメディア認識のためのシステム及び方法 Download PDFInfo
- Publication number
- JP5907511B2 JP5907511B2 JP2013513754A JP2013513754A JP5907511B2 JP 5907511 B2 JP5907511 B2 JP 5907511B2 JP 2013513754 A JP2013513754 A JP 2013513754A JP 2013513754 A JP2013513754 A JP 2013513754A JP 5907511 B2 JP5907511 B2 JP 5907511B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- source
- time slice
- generate
- spectrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 75
- 239000013598 vector Substances 0.000 claims description 315
- 238000011156 evaluation Methods 0.000 claims description 50
- 230000005236 sound signal Effects 0.000 claims description 12
- 101150060512 SPATA6 gene Proteins 0.000 description 95
- 238000012360 testing method Methods 0.000 description 70
- 230000008569 process Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 15
- 238000013459 approach Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000013139 quantization Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- KGSSUTVUTPLSQW-UHFFFAOYSA-N Robustone Chemical compound C1=C2OCOC2=CC(C2=COC=3C=C4OC(C=CC4=C(O)C=3C2=O)(C)C)=C1 KGSSUTVUTPLSQW-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000010363 phase shift Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000545442 Radix Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
[0007]本発明の態様は、特許請求の範囲において定義される。
[0021]本発明の例示的な一実施形態は、流入(incoming)オーディオストリーム(「プログラム」)を処理し、音楽及び音響効果(「トラック」)の内部データベースを探索して、プログラム内でのこれらのトラックの使用を識別する、オーディオ認識システムを提供する。例示的な一実施形態の出力の一例は、使用されるトラックのセクションと、それらがプログラム中のどこで発生するかとをリストするキューシート(cue sheet)の形とすることができる。
− 雑音:トラックに対するランダム雑音の混合
− ボイスオーバ:トラックに対する音声の混合
− ピッチ:基礎をなすタイミングが維持される一方での、ピッチの変化
− テンポ:ピッチが維持される一方での、タイミングの変化
− 速度:ピッチとテンポの両方の変化(例えば、テープをより速く再生することによる)。
[0041]この例では、例えば高速フーリエ変換(FFT)をオーディオ信号に適用することによって、オーディオ信号の形のソース信号が処理されてスペクトログラムが生成される。
[0045]第2のステップ14は、1つ又は複数のハッシュベクトル又はハッシュの生成である。例示的な一実施形態では、いくつかの異なるタイプのハッシュが生成される。ハッシュ(又は「フィンガプリント」、「シグネチャ」)を形成する低次元ベクトルの1つ又は複数のシーケンスは、遭遇する可能性のある様々なタイプの歪みに対して頑強であるように設計される。
− ビンiの値/ビンi+1の値
− そして、この比率が、4つの範囲00、01、10、及び11のうちのどの範囲内に入るかを決定する。
[0058]例示的な一実施形態では、次いで、ハッシュをデータベース中のトラックの事前計算済みハッシュと比較することによって、プログラムオーディオが認識される。このルックアッププロセスの目標は、スペクトログラムの1つのカラム(column)から得られたベクトルを例えば使用して、音楽データベース全体にわたり近似ルックアップ又は「最近傍」探索を実施することである。これは、可能性のある多数のターゲットオブジェクトが音楽データベースから導出される、高次元探索である。
[0060]完全一致ルックアップを使用して、1次テスト段階18が実施される。例示的な一実施形態では、これは、ハッシュテーブル中でルックアップを実施するための少数のビットを含む単純な2値ベクトルとしてハッシュを使用して行われる。少数のビットを使用する結果として、各ルックアップは通常、データベース中の多数のヒットを返す。後でより明確になる理由で、所与のキーに対する1次ルックアップに応答して取り出されるデータベース中のヒットのセットは、「葉」と呼ばれる。
[0070]一実施形態では、2次テスト段階20は、ランダムファイルアクセスによってデータベース中のプログラムハッシュをルックアップすることを含む。これにより、多数の、典型的には数百個の、例えば約200個のハッシュ一致を含む、単一の葉の内容がフェッチされる。各一致は、プログラムハッシュに表面上類似する、元のトラックのうちの1つの中の点に対応する。
[0076]上に示したように、葉に記憶された情報は、ハッシュに対応する元のトラックと、そのトラック中での位置とを突き止めることを可能にする。2次テストに合格すると、一致点の周りの短いトラックセクションに対応する3次テストデータがフェッチされる。3次テスト情報は、元のトラックの一連のハッシュを含む。次いで、プログラムハッシュが3次テストデータと比較される。このプロセスは、完全一致探索に制約されず、したがって、距離メトリック、例えばマンハッタン距離メトリックを使用して、プログラムハッシュがどれくらい3次テストデータに類似するかを決定することができる。例示的な一実施形態では、メトリックは、プログラムハッシュと3次テストデータとの類似度を決定するための、経験的に決定された確率テーブルに基づく完全確率的計算を伴う。
[0083]先に言及したように、オーディオ認識プロセスの一適用例は、キューシートの生成である。3次テストの結果は、元のデータベース中のトラックに対する、プログラム材料の一連の候補一致である。各一致は、プログラム開始点及び終了点と、トラックの識別番号と、トラック内の開始点及び終了点と、一致の品質の全体的な程度とを含む。一致の品質が十分に高い場合は、この一致は、キューシート中へのエントリの候補である。
[0088]データベース46は、いくつかの段階でソース音楽ファイルの集まりから構築される。
1.各ソース音楽ファイルが、例えば1サンプル当たり16ビットで、可能ならステレオで、不可能ならモノラルで、例えば12kHzでサンプリングされた、プレーン.WAVフォーマットに変換される。左チャネルと右チャネルとを含むステレオオーディオが、合計(左+右)チャネル及び差分(左−右)チャネルに変換される
2.ソースファイル名の番号付きリストを含むファイル(例えばsrclistと呼ばれる)が作成される。ファイルの各行は、一意の識別番号(「トラックID」又は「セグメントID」)と、それに続くスペースと、それに続くファイル名とを含むことができる
3.ソース音楽トラックからハッシュが生成されて、ソーストラックのハッシュを含むファイル(例えばrawseginfoと呼ばれる)が作成される。srclistからのトラック名情報を含む補助ファイル(例えばrawseginfo.auxと呼ばれる)が生成される
4.ハッシュが、トラックID及び時間順にソートされる
5.3次テストデータが生成され、3次テストデータ中へのインデックスが作成されて、マッピングされたrawseginfoファイルが形成される
6.マッピングされたrawseginfoファイルが、ハッシュ値の小さい順にソートされる
7.第1のクラスタインデックス(以下のフォーマット記述参照)が生成される
8.補助データファイル(例えばauxdataと呼ばれる)が生成される。補助データファイルは、キューシート出力の中でファイル名を表示するのに使用される
9.次いで、様々なファイルがデータベースに組み立てられる
1千万秒のオーディオのデータベースを扱うように設計されたシステムの例示的な一実施形態の場合、後で論じる様々なシステムパラメータが、以下のように設定される:
− 最大葉サイズ=400
− 第1のクラスタ深度=20。
[0092]例示的な一実施形態では、生ハッシュが、6バイト又は48ビットとして記憶される。最上位ビットは、1次データベースルックアップに使用されるビットである。
[0093]データベース中の各葉は、rawseginfo構造のシーケンスを含む。分析されることになるプログラムもまた、データベース中でルックアップが行われる前にrawseginfo構造のシーケンスに変換される。
(i)このクラスタのデータが開始するBFF74中へのオフセット
(ii)クラスタ中の2分木の形状の符号化。これは、木の深度優先横断で遭遇する順序で考えた場合の、木の各ノード(内側及び葉)につき1ビットの、ビットストリームである。ノードが内側である場合は、ビットは0であり、ノードが葉である場合は、ビットは1である。ビットストリームは、必要なら、最後のバイトの終わりまで0ビットでパディングされる
(iii)ほとんどのサイズが単一バイトで表現されるような圧縮形で符号化された、木の深度優先横断で遭遇する順序の、クラスタ中の各葉72のサイズ。
[0111]例えば、様々な頑強性の程度をもたらすようにハッシュ関数を構成することができ、例えばそれにより、ハッシュの頑強性を完全一致データベースルックアップに関して最大限にするように、ハッシュ内のビットの順序を選ぶことができる。ケプストラム型ハッシュ係数に加えて、他のピッチシフト不変のエントロピーソースを、本格規模のデータベースと共に使用することもできる。
[0112]上の例では、データベース木構造70は、2進ベースで編成される。しかし、他の例では、ノードの子の数は、2以外であってもよく、実際、木全体にわたって変動してもよい。この手法を使用して、葉のサイズの均等化をさらに容易にすることができる。別法として又は追加で、ノードの子ごとに、例えば2分木中のノードの左右両方の子ごとにハッシュを記憶することができる木構造を使用してもよい(「スピルツリー(spill tree)」と呼ばれる)。
[0113]任意選択で、重複した音楽セクションがないかどうかトラックデータベースを探索することができる。次いで、一意のセクション(「セグメント」と呼ぶことにする)が、前述のようにデータベースに記憶されて識別されることになる。後続の処理段階で、認識されたセグメントのリストをトラックのリストに変換することになる。このような手法は、さらに前処理を必要とするであろうが、データベースの記憶要件を低減することになり、リアルタイム処理を加速することができる。
[0114]前述の実施形態では、3次テストデータエントリについての絶対時間が、そのセグメントの開始からエントリまで前方に走査して時間デルタを累算することによって決定される。任意選択で、絶対時間マーカを3次テストデータエントリのシーケンスに含めることができる。
[0115]2次テストデータベースのサイズを縮小するために、データベースの間引きを使用することができる。これは、「ハッシュのハッシュ」を計算して、決定性方式でハッシュの固定部分を廃棄することを伴う。例えば、データベースを3分の1に間引くには、以下の修正を採用することができる。生成された各ハッシュにつき、データベース中で完全一致させることが必要になるビットが、整数として考慮される。この整数が3でちょうど割り切れない場合は、このハッシュは廃棄される。すなわち、ソーストラック材料から構築されたデータベースに含められない。同様に、プログラム材料を処理する際にこの基準を満たさないハッシュに遭遇した場合は、このハッシュがデータベース中にないであろうことがすぐにわかり、したがってルックアップは実施されないことになる。ハッシュを受容又は拒否するための完全一致に必要とされるビットに応じた決定性基準が使用されるのであり、単純に固定確率でランダムに受容又は拒否するのではない。その理由は、後者の手法は、より大きい間引き率では特に、ハッシュヒット率に対して、よりずっと大きい悪影響を有することになるからである。
[0116]前述の実施形態は、例に過ぎにない。特許請求の範囲の趣旨及び範囲内で、代替実施形態を想定することができる。
[発明の例]
[例1]
参照メディアコンテンツとの比較によってソース信号からソースメディアコンテンツを自動認識することを可能にするための装置であって、
前記ソース信号にフーリエ変換を適用することによって前記ソース信号からスペクトログラムを生成するように動作可能なスペクトログラムジェネレータであり、前記スペクトログラムが複数のカラム(column)を含み、各カラム(column)がタイムスライスを表し複数の周波数ビンを含み、各周波数ビンが前記ソース信号の前記タイムスライスについての周波数成分のそれぞれの範囲を表す、スペクトログラムジェネレータと、
前記タイムスライスの前記カラム(column)からの選択された周波数ビンの大きさの比率を計算し、前記比率を量子化してソースベクトルの数字を生成することによって、前記ソース信号のタイムスライスに対して少なくとも1つのソースベクトルを生成するように動作可能なベクトルジェネレータと、
ルックアップテーブル中のエントリに対して第1のベクトルの数字の完全一致を実施することによって1次評価を実施するように動作可能な1次エバリュエータであり、前記ルックアップテーブル中の各エントリが第2のベクトルのグループに関連し、前記完全一致を実施するのに使用される前記第1のベクトルの数字の数が前記ルックアップテーブル中のエントリ間で異なる、1次エバリュエータと、
前記第1のベクトルと、第2のベクトルの前記グループのそれぞれとの類似度を決定して、前記ソースメディアコンテンツを前記参照メディアコンテンツと照合するための候補であるいずれかの第2のベクトルを識別するための、2次評価を実施するように動作可能な、2次エバリュエータと、
前記ルックアップテーブル及び前記第2のベクトルを含むデータベースとを備え、
前記第1のベクトルがソースベクトルと参照ベクトルとのいずれかであり、前記第2のベクトルが前記ソースベクトルと前記参照ベクトルとのうちの他方であり、各参照ベクトルが前記参照メディアコンテンツのタイムスライスを表す、装置。
[例2]
タイムスライスに対して少なくとも1つのベクトルを生成するために、前記ベクトルジェネレータが、
タイムスライスの少なくとも1つの選択された周波数ビンについて、前記ビンと、前記タイムスライスの前記カラム(column)からの、隣接するか又はほぼ隣接する周波数ビンとの比率を計算し、
前記比率を範囲に分けて、各比率につき少なくとも1つの選択された数字を生成するように動作可能である、例1に記載の装置。
[例3]
タイムスライスに対して少なくとも1つのベクトルを生成するために、前記ベクトルジェネレータが、
タイムスライスの少なくとも1つの選択された周波数ビンについて、前記ビンと、前記タイムスライスの前記カラム(column)からの、隣接するか又はほぼ隣接する周波数ビンとの比率を計算し、
前記比率を範囲に分けて、各比率につき2進数を生成するように動作可能である、例2に記載の装置。
[例4]
前記範囲が、選択された比率間で異なり、したがって範囲間で比率値のほぼ等しい分布をもたらす、例2又は3に記載の装置。
[例5]
前記ベクトルジェネレータが、
400Hz〜1100Hzの周波数帯域から選択された周波数ビンを使用して第1のソースベクトルを生成し、1100Hz〜3000Hzの周波数帯域から選択された周波数ビンを使用して第2のソースベクトルを生成するように動作可能である、例2〜4のいずれか一項に記載の装置。
[例6]
タイムスライスに対してさらに他のソースベクトルを生成するために、
前記スペクトログラムジェネレータが、前記ソース信号にフーリエ変換を適用することによってさらに他のスペクトログラムを生成するように動作可能であり、前記さらに他のスペクトログラムが複数のカラム(column)を含み、各カラム(column)がタイムスライスを表し複数の周波数ビンを含み、各周波数ビンが前記ソース信号の前記タイムスライスについての周波数成分のそれぞれの範囲を表し、前記スペクトログラムジェネレータが、前記タイムスライスの前記カラム(column)からの前記それぞれの周波数ビンにフーリエ変換をさらに適用してそれぞれの係数セットを生成するように動作可能であり、
前記ベクトルジェネレータが、前記さらに他のソースベクトルを生成するように動作可能であり、それにより、タイムスライスのカラム(column)中のN個の係数のセットに対して、前記さらに他のソースベクトルの要素2からN−1までのそれぞれにつき、n番目の係数の2乗を(n−1)番目の係数と(n+1)番目の係数との積で割った値によってn番目の要素が形成され、前記ベクトルジェネレータが、得られた前記ベクトルの前記要素を量子化して、各要素につき少なくとも1つの数字を生成するように動作可能である、前記例のいずれか一項に記載の装置。
[例7]
前記ソース信号がオーディオ信号であり、前記スペクトログラムビンの前記周波数が対数目盛りに従って割り振られる、前記例のいずれか一項に記載の装置。
[例8]
前記ルックアップテーブルが、葉に至る可変深度の木として編成され、前記テーブルが第1のベクトルによって索引付けされ、
各葉が、第2のベクトルのそれぞれのグループに関連する前記ルックアップテーブル中のエントリを形成し、
各葉に至る数字の数が、各葉につきほぼ等しいサイズの第2のベクトルのグループを提供するように決定される、前記例のいずれか一項に記載の装置。
[例9]
各葉に至る数字の数が、所与の葉について前記完全一致を実施するのに使用される前記第1のベクトルの数字の数を形成する、例8に記載の装置。
[例10]
前記ルックアップテーブルの各葉が、d個の一致する数字を有する第2のベクトルのグループを識別し、dが前記葉までの前記木の深度に対応する、例8又は9に記載の装置。
[例11]
前記2次エバリュエータが、距離メトリックを使用して前記2次評価を実施して、前記第1のベクトルと第2のベクトルの前記グループのそれぞれとの前記類似度を決定するように動作可能である、前記例のいずれか一項に記載の装置。
[例12]
候補として識別されたいずれかの第2のベクトルに対して3次評価を実施するための3次エバリュエータをさらに備え、前記3次エバリュエータが、1つ又は複数のさらに他の第1のベクトルと、前記2次評価で識別された前記候補第2のベクトルに対応する1つ又は複数のさらに他の第2のベクトルとの類似度を決定するように動作可能である、前記例のいずれか一項に記載の装置。
[例13]
前記さらに他の第1のベクトル及び前記さらに他の第2のベクトルが、前記第1のベクトル及び前記候補第2のベクトルからそれぞれ時間的な隔たりがある、例12に記載の装置。
[例14]
前記ソース信号が、受信されたプログラム信号である、前記例のいずれか一項に記載の装置。
[例15]
前記プログラム信号の前記一致するメディアコンテンツのレコードを生成するように動作可能なレコードジェネレータを備える、例14に記載の装置。
[例16]
前記一致するメディアコンテンツを識別するキューシートを生成するように動作可能なキューシートジェネレータを備える、例15に記載の装置。
[例17]
前記第2のベクトルが前記ソースベクトルであり、前記装置が前記ソースベクトルから前記データベースを生成するように構成された、前記例のいずれか一項に記載の装置。
[例18]
前記スペクトログラムジェネレータ及び前記ハッシュベクトルジェネレータ及び前記エバリュエータを実装するように動作可能な、少なくとも1つのプロセッサと記憶装置とコンピュータソフトウェアとを備える、前記例のいずれか一項に記載の装置。
[例19]
参照メディアコンテンツとの比較によってソース信号からソースメディアコンテンツを自動認識するための自動認識方法であって、
前記ソース信号にフーリエ変換を適用することによって前記ソース信号からスペクトログラムを生成するステップであり、前記スペクトログラムが複数のカラム(column)を含み、各カラム(column)がタイムスライスを表し複数の周波数ビンを含み、各周波数ビンが前記ソース信号の前記タイムスライスについての周波数成分のそれぞれの範囲を表す、ステップと、
前記ソース信号のタイムスライスの前記カラム(column)からの選択された周波数ビンの大きさの比率を計算し、前記比率を量子化してソースベクトルの数字を生成することによって、前記タイムスライスに対して少なくとも1つのソースベクトルを生成するステップと、
ルックアップテーブル中のエントリに対して第1のベクトルの数字の完全一致を行うことによって1次評価を実施するステップであり、前記ルックアップテーブル中の各エントリが第2のベクトルのグループに関連し、前記完全一致を実施するのに使用される前記第1のベクトルの数字の数が前記ルックアップテーブル中のエントリ間で異なる、ステップと、
前記第1のベクトルと、第2のベクトルの前記グループのそれぞれとの類似度を決定して、前記ソースメディアコンテンツを前記参照メディアコンテンツと照合するための候補であるいずれかの第2のベクトルを識別するための、2次評価を実施するステップとを含み、
データベースが前記ルックアップテーブル及び前記第2のベクトルを含み、
前記第1のベクトルがソースベクトルと参照ベクトルとのいずれかであり、前記第2のベクトルが前記ソースベクトルと前記参照ベクトルとのうちの他方であり、各参照ベクトルが前記参照メディアコンテンツのタイムスライスを表す、方法。
[例20]
タイムスライスに対して少なくとも1つのベクトルを生成するステップが、
タイムスライスの少なくとも1つの選択された周波数ビンについて、前記ビンと、前記タイムスライスの前記カラム(column)からの、隣接するか又はほぼ隣接する周波数ビンとの比率を計算するサブステップと、
前記比率を範囲に分けて、各比率につき少なくとも1つの選択された数字を生成するサブステップとを含む、例19に記載の方法。
[例21]
タイムスライスに対して少なくとも1つのベクトルを生成するステップが、
タイムスライスの少なくとも1つの選択された周波数ビンについて、前記ビンと、前記タイムスライスの前記カラム(column)からの、隣接するか又はほぼ隣接する周波数ビンとの比率を計算するサブステップと、
前記比率を範囲に分けて、各比率につき2進数を生成するサブステップとを含む、例20に記載の方法。
[例22]
前記範囲が、選択された比率ビン間で異なり、したがって範囲間で比率値のほぼ等しい分布をもたらす、例20又は21に記載の方法。
[例23]
400Hz〜1100Hzの周波数帯域から選択された周波数ビンを使用して第1のソースベクトルを生成し、1100Hz〜3000Hzの周波数帯域から選択された周波数ビンを使用して第2のソースベクトルを生成するステップを含む、例20〜22のいずれか一項に記載の方法。
[例24]
タイムスライスに対してさらに他のソースベクトルを生成するステップを含み、前記さらに他のソースベクトルが、
前記ソース信号にフーリエ変換を適用することによって前記第1の信号からさらに他のスペクトログラムを生成するサブステップであって、前記さらに他のスペクトログラムが複数のカラム(column)を含み、各カラム(column)がタイムスライスを表し複数の周波数ビンを含み、各周波数ビンが前記第1の信号の前記タイムスライスについての周波数成分のそれぞれの範囲を表す、サブステップと、
前記タイムスライスの前記カラム(column)からの前記それぞれの周波数ビンにフーリエ変換をさらに適用して、それぞれの係数セットを生成するサブステップと、
前記さらに他のソースベクトルを生成するサブステップであって、それにより、タイムスライスのカラム(column)中のN個の係数のセットに対して、前記さらに他のソースベクトルの要素2からN−1までのそれぞれにつき、n番目の係数の2乗を(n−1)番目の係数と(n+1)番目の係数との積で割った値によってn番目の要素が形成され、得られた前記ベクトルの前記要素を量子化して各要素につき少なくとも1つの数字を生成する、サブステップとによって生成される、例19〜23のいずれか一項に記載の方法。
[例25]
前記ソース信号がオーディオ信号であり、前記スペクトログラムビンの前記周波数が対数目盛りに従って割り振られる、例19〜24のいずれか一項に記載の方法。
[例26]
前記ルックアップテーブルが、葉に至る可変深度の木として編成され、前記テーブルが前記第1のベクトルによって索引付けされ、
各葉が、第2のベクトルのそれぞれのグループに関連する前記ルックアップテーブル中のエントリを形成し、
各葉に至る数字の数が、各葉につきほぼ等しいサイズの第2のベクトルのグループを提供するように決定される、例19〜25のいずれか一項に記載の方法。
[例27]
各葉に至る数字の数が、所与の葉について前記完全一致を実施するのに使用される前記第1のベクトルの数字の数を形成する、例26に記載の方法。
[例28]
前記ルックアップテーブルの各葉が、d個の一致する数字を有する第2のベクトルのグループを識別し、dが前記葉までの前記木の深度に対応する、例26又は27に記載の方法。
[例29]
距離メトリックを使用して前記2次評価を実施して、前記第1のベクトルと第2のベクトルの前記グループのそれぞれとの前記類似度を決定するステップを含む、例19〜28のいずれか一項に記載の方法。
[例30]
候補として識別されたいずれかの第2のベクトルに対して3次評価を実施するステップを含み、前記3次評価が、1つ又は複数のさらに他の第1のベクトルと、前記2次評価で識別された前記候補第2のベクトルに対応する1つ又は複数のさらに他の第2のベクトルとの類似度を決定するサブステップを含む、例19〜29のいずれか一項に記載の方法。
[例31]
前記さらに他の第1のベクトル及び前記さらに他の第2のベクトルが、前記第1のベクトル及び前記候補第2のベクトルからそれぞれ時間的な隔たりがある、例30に記載の方法。
[例32]
前記ソース信号が、受信されたプログラム信号である、例19〜31のいずれか一項に記載の方法。
[例33]
前記プログラム信号の前記一致するメディアコンテンツのレコードを生成するステップを含む、例32に記載の方法。
[例34]
前記一致するメディアコンテンツを識別するキューシートを生成するステップを含む、例33に記載の方法。
[例35]
前記第2のベクトルが前記ソースベクトルであり、前記装置が前記ソースベクトルから前記データベースを生成するように構成された、例19〜34のいずれか一項に記載の方法。
[例36]
例19〜35のいずれか一項に記載の方法を実施するように動作可能なプログラム命令を含む、コンピュータプログラム製品。
Claims (36)
- 参照メディアコンテンツとの比較によってソース信号からソースメディアコンテンツを自動認識することを可能にするための装置であって、
前記ソース信号にフーリエ変換を適用することによって前記ソース信号からスペクトログラムを生成するように動作可能なスペクトログラムジェネレータであり、前記スペクトログラムが複数のカラム(column)を含み、各カラム(column)がタイムスライスを表し複数の周波数ビンを含み、各周波数ビンが前記ソース信号の前記タイムスライスについての周波数成分のそれぞれの範囲を表す、スペクトログラムジェネレータと、
前記タイムスライスの前記カラム(column)からの選択された周波数ビンの大きさの比率を計算し、前記比率を量子化してソースベクトルの数字を生成することによって、前記ソース信号のタイムスライスに対して少なくとも1つのソースベクトルを生成するように動作可能なベクトルジェネレータであり、タイムスライスに対して少なくとも1つのベクトルを生成するために、タイムスライスの少なくとも1つの選択された周波数ビンについて、前記ビンと、前記タイムスライスの前記カラム(column)からの、隣接するか又はほぼ隣接する周波数ビンとの大きさの比率を計算し、前記比率を範囲に分けて、各比率につき少なくとも1つの選択された数字を生成するように動作可能である、ベクトルジェネレータと、
ルックアップテーブル中のエントリに対して第1のベクトルの数字の完全一致を実施することによって1次評価を実施するように動作可能な1次エバリュエータであり、前記ルックアップテーブル中の各エントリが第2のベクトルのグループに関連し、前記完全一致を実施するのに使用される前記第1のベクトルの数字の数が前記ルックアップテーブル中のエントリ間で異なる、1次エバリュエータと、
前記第1のベクトルと、第2のベクトルの前記グループのそれぞれとの類似度を決定して、前記ソースメディアコンテンツを前記参照メディアコンテンツと照合するための候補であるいずれかの第2のベクトルを識別するための、2次評価を実施するように動作可能な、2次エバリュエータと、
前記ルックアップテーブル及び前記第2のベクトルを含むデータベースとを備え、
前記第1のベクトルがソースベクトルと参照ベクトルとのいずれかであり、前記第2のベクトルが前記ソースベクトルと前記参照ベクトルとのうちの他方であり、各参照ベクトルが前記参照メディアコンテンツのタイムスライスを表す、装置。 - タイムスライスに対して少なくとも1つのベクトルを生成するために、前記ベクトルジェネレータが、
タイムスライスの少なくとも1つの選択された周波数ビンについて、前記ビンと、前記タイムスライスの前記カラム(column)からの、隣接するか又はほぼ隣接する周波数ビンとの比率を計算し、
前記比率を範囲に分けて、各比率につき2進数を生成するように動作可能である、請求項1に記載の装置。 - 前記範囲が、選択された比率間で異なり、したがって範囲間で比率値のほぼ等しい分布をもたらす、請求項1又は2に記載の装置。
- 前記ベクトルジェネレータが、
400Hz〜1100Hzの周波数帯域から選択された周波数ビンを使用して第1の前記ソースベクトルを生成し、1100Hz〜3000Hzの周波数帯域から選択された周波数ビンを使用して第2の前記ソースベクトルを生成するように動作可能である、請求項1〜3のいずれか一項に記載の装置。 - タイムスライスに対してさらに他のソースベクトルを生成するために、
前記スペクトログラムジェネレータが、前記ソース信号にフーリエ変換を適用することによってさらに他のスペクトログラムを生成するように動作可能であり、前記さらに他のスペクトログラムが複数のカラム(column)を含み、各カラム(column)がタイムスライスを表し複数の周波数ビンを含み、各周波数ビンが前記ソース信号の前記タイムスライスについての周波数成分のそれぞれの範囲を表し、
前記スペクトログラムジェネレータが、前記タイムスライスの前記カラム(column)からの前記それぞれの周波数ビンにフーリエ変換をさらに適用してそれぞれの係数セットを生成するように動作可能であり、
前記ベクトルジェネレータが、前記さらに他のソースベクトルを生成するように動作可能であり、それにより、タイムスライスのカラム(column)中のN個の係数のセットに対して、前記さらに他のソースベクトルの要素2からN−1までのそれぞれにつき、n番目の係数の2乗を(n−1)番目の係数と(n+1)番目の係数との積で割った値によってn番目の要素が形成され、前記ベクトルジェネレータが、前記さらに他のソースベクトルの前記要素を量子化して、各要素につき少なくとも1つの数字を生成するように動作可能である、請求項1〜4のいずれか一項に記載の装置。 - 参照メディアコンテンツとの比較によってソース信号からソースメディアコンテンツを自動認識することを可能にするための装置であって、
前記ソース信号にフーリエ変換を適用することによって前記ソース信号からスペクトログラムを生成するように動作可能なスペクトログラムジェネレータであり、前記スペクトログラムが複数のカラム(column)を含み、各カラム(column)がタイムスライスを表し複数の周波数ビンを含み、各周波数ビンが前記ソース信号の前記タイムスライスについての周波数成分のそれぞれの範囲を表す、スペクトログラムジェネレータと、
前記タイムスライスの前記カラム(column)からの選択された周波数ビンの大きさの比率を計算し、前記比率を量子化してソースベクトルの数字を生成することによって、前記ソース信号のタイムスライスに対して少なくとも1つのソースベクトルを生成するように動作可能なベクトルジェネレータと、
ルックアップテーブル中のエントリに対して第1のベクトルの数字の完全一致を実施することによって1次評価を実施するように動作可能な1次エバリュエータであり、前記ルックアップテーブル中の各エントリが第2のベクトルのグループに関連し、前記完全一致を実施するのに使用される前記第1のベクトルの数字の数が前記ルックアップテーブル中のエントリ間で異なる、1次エバリュエータと、
前記第1のベクトルと、第2のベクトルの前記グループのそれぞれとの類似度を決定して、前記ソースメディアコンテンツを前記参照メディアコンテンツと照合するための候補であるいずれかの第2のベクトルを識別するための、2次評価を実施するように動作可能な、2次エバリュエータと、
前記ルックアップテーブル及び前記第2のベクトルを含むデータベースとを備え、
前記第1のベクトルがソースベクトルと参照ベクトルとのいずれかであり、前記第2のベクトルが前記ソースベクトルと前記参照ベクトルとのうちの他方であり、各参照ベクトルが前記参照メディアコンテンツのタイムスライスを表し、
タイムスライスに対してさらに他のソースベクトルを生成するために、
前記スペクトログラムジェネレータが、前記ソース信号にフーリエ変換を適用することによってさらに他のスペクトログラムを生成するように動作可能であり、前記さらに他のスペクトログラムが複数のカラム(column)を含み、各カラム(column)がタイムスライスを表し複数の周波数ビンを含み、各周波数ビンが前記ソース信号の前記タイムスライスについての周波数成分のそれぞれの範囲を表し、
前記スペクトログラムジェネレータが、前記タイムスライスの前記カラム(column)からの前記それぞれの周波数ビンにフーリエ変換をさらに適用してそれぞれの係数セットを生成するように動作可能であり、
前記ベクトルジェネレータが、前記さらに他のソースベクトルを生成するように動作可能であり、それにより、タイムスライスのカラム(column)中のN個の係数のセットに対して、前記さらに他のソースベクトルの要素2からN−1までのそれぞれにつき、n番目の係数の2乗を(n−1)番目の係数と(n+1)番目の係数との積で割った値によってn番目の要素が形成され、前記ベクトルジェネレータが、前記さらに他のソースベクトルの前記要素を量子化して、各要素につき少なくとも1つの数字を生成するように動作可能である、装置。 - 前記ソース信号がオーディオ信号であり、前記周波数ビンが対数目盛りに従って割り振られた周波数である、請求項1〜6のいずれか一項に記載の装置。
- 前記ルックアップテーブルが、葉に至る可変深度の木として編成され、前記ルックアップテーブルが第1のベクトルによって索引付けされ、
各葉が、第2のベクトルのそれぞれのグループに関連する前記ルックアップテーブル中のエントリを形成し、
各葉に至る数字の数が、各葉につきほぼ等しいサイズの第2のベクトルのグループを提供するように決定される、請求項1〜7のいずれか一項に記載の装置。 - 各葉に至る数字の数が、所与の葉について前記完全一致を実施するのに使用される前記第1のベクトルの数字の数を形成する、請求項8に記載の装置。
- 前記ルックアップテーブルの各葉が、d個の一致する数字を有する第2のベクトルのグループを識別し、dが前記葉までの前記木の深度に対応する、請求項8又は9に記載の装置。
- 前記2次エバリュエータが、距離メトリックを使用して前記2次評価を実施して、前記第1のベクトルと第2のベクトルの前記グループのそれぞれとの前記類似度を決定するように動作可能である、請求項1〜10のいずれか一項に記載の装置。
- 候補として識別されたいずれかの第2のベクトルに対して3次評価を実施するための3次エバリュエータをさらに備え、前記3次エバリュエータが、1つ又は複数のさらに他の第1のベクトルと、前記2次評価で候補として識別された前記第2のベクトルに対応する1つ又は複数のさらに他の第2のベクトルとの類似度を決定するように動作可能である、請求項1〜11のいずれか一項に記載の装置。
- 前記さらに他の第1のベクトル及び前記さらに他の第2のベクトルが、前記第1のベクトルと候補として識別された前記第2のベクトルとからそれぞれ時間的な隔たりがある、請求項12に記載の装置。
- 前記ソース信号が、受信されたプログラム信号である、請求項1〜13のいずれか一項に記載の装置。
- 前記プログラム信号のうち一致する前記ソースメディアコンテンツのレコードを生成するように動作可能なレコードジェネレータを備える、請求項14に記載の装置。
- 一致する前記ソースメディアコンテンツを識別するキューシートを生成するように動作可能なキューシートジェネレータを備える、請求項15に記載の装置。
- 前記第2のベクトルが前記ソースベクトルであり、前記装置が前記ソースベクトルから前記データベースを生成するように構成された、請求項1〜16のいずれか一項に記載の装置。
- 前記スペクトログラムジェネレータ、前記ベクトルジェネレータ、前記1次エバリュエータ及び前記2次エバリュエータを実装するように動作可能な、少なくとも1つのプロセッサと記憶装置とコンピュータソフトウェアとを備える、請求項1〜17のいずれか一項に記載の装置。
- 参照メディアコンテンツとの比較によってソース信号からソースメディアコンテンツを自動認識するための自動認識方法であって、
前記ソース信号にフーリエ変換を適用することによって前記ソース信号からスペクトログラムを生成するステップであり、前記スペクトログラムが複数のカラム(column)を含み、各カラム(column)がタイムスライスを表し複数の周波数ビンを含み、各周波数ビンが前記ソース信号の前記タイムスライスについての周波数成分のそれぞれの範囲を表す、ステップと、
前記タイムスライスの前記カラム(column)からの選択された周波数ビンの大きさの比率を計算し、前記比率を量子化してソースベクトルの数字を生成することによって、前記ソース信号のタイムスライスに対して少なくとも1つのソースベクトルを生成するステップであり、タイムスライスの少なくとも1つの選択された周波数ビンについて、前記ビンと、前記タイムスライスの前記カラム(column)からの、隣接するか又はほぼ隣接する周波数ビンとの比率を計算するサブステップと、前記比率を範囲に分けて、各比率につき少なくとも1つの選択された数字を生成するサブステップとを含むステップと、
ルックアップテーブル中のエントリに対して第1のベクトルの数字の完全一致を行うことによって1次評価を実施するステップであり、前記ルックアップテーブル中の各エントリが第2のベクトルのグループに関連し、前記完全一致を実施するのに使用される前記第1のベクトルの数字の数が前記ルックアップテーブル中のエントリ間で異なる、ステップと、
前記第1のベクトルと、第2のベクトルの前記グループのそれぞれとの類似度を決定して、前記ソースメディアコンテンツを前記参照メディアコンテンツと照合するための候補であるいずれかの第2のベクトルを識別するための、2次評価を実施するステップとを含み、
データベースが前記ルックアップテーブル及び前記第2のベクトルを含み、
前記第1のベクトルがソースベクトルと参照ベクトルとのいずれかであり、前記第2のベクトルが前記ソースベクトルと前記参照ベクトルとのうちの他方であり、各参照ベクトルが前記参照メディアコンテンツのタイムスライスを表す、方法。 - タイムスライスに対して少なくとも1つのベクトルを生成するステップが、
タイムスライスの少なくとも1つの選択された周波数ビンについて、前記ビンと、前記タイムスライスの前記カラム(column)からの、隣接するか又はほぼ隣接する周波数ビンとの比率を計算するサブステップと、
前記比率を範囲に分けて、各比率につき2進数を生成するサブステップとを含む、請求項19に記載の方法。 - 前記範囲が、選択された比率ビン間で異なり、したがって範囲間で比率値のほぼ等しい分布をもたらす、請求項19又は20に記載の方法。
- 400Hz〜1100Hzの周波数帯域から選択された周波数ビンを使用して第1の前記ソースベクトルを生成し、1100Hz〜3000Hzの周波数帯域から選択された周波数ビンを使用して第2の前記ソースベクトルを生成するステップを含む、請求項19〜21のいずれか一項に記載の方法。
- タイムスライスに対してさらに他のソースベクトルを生成するステップを含み、前記さらに他のソースベクトルが、
前記ソース信号にフーリエ変換を適用することによってさらに他のスペクトログラムを生成するサブステップであって、前記さらに他のスペクトログラムが複数のカラム(column)を含み、各カラム(column)がタイムスライスを表し複数の周波数ビンを含み、各周波数ビンが前記ソース信号の前記タイムスライスについての周波数成分のそれぞれの範囲を表す、サブステップと、
前記タイムスライスの前記カラム(column)からの前記それぞれの周波数ビンにフーリエ変換をさらに適用して、それぞれの係数セットを生成するサブステップと、
前記さらに他のソースベクトルを生成するサブステップであって、それにより、タイムスライスのカラム(column)中のN個の係数のセットに対して、前記さらに他のソースベクトルの要素2からN−1までのそれぞれにつき、n番目の係数の2乗を(n−1)番目の係数と(n+1)番目の係数との積で割った値によってn番目の要素が形成され、前記さらに他のソースベクトルの前記要素を量子化して各要素につき少なくとも1つの数字を生成する、サブステップとによって生成される、請求項19〜22のいずれか一項に記載の方法。 - 参照メディアコンテンツとの比較によってソース信号からソースメディアコンテンツを自動認識するための自動認識方法であって、
前記ソース信号にフーリエ変換を適用することによって前記ソース信号からスペクトログラムを生成するステップであり、前記スペクトログラムが複数のカラム(column)を含み、各カラム(column)がタイムスライスを表し複数の周波数ビンを含み、各周波数ビンが前記ソース信号の前記タイムスライスについての周波数成分のそれぞれの範囲を表す、ステップと、
前記タイムスライスの前記カラム(column)からの選択された周波数ビンの大きさの比率を計算し、前記比率を量子化してソースベクトルの数字を生成することによって、前記ソース信号のタイムスライスに対して少なくとも1つのソースベクトルを生成するステップと、
ルックアップテーブル中のエントリに対して第1のベクトルの数字の完全一致を行うことによって1次評価を実施するステップであり、前記ルックアップテーブル中の各エントリが第2のベクトルのグループに関連し、前記完全一致を実施するのに使用される前記第1のベクトルの数字の数が前記ルックアップテーブル中のエントリ間で異なる、ステップと、
前記第1のベクトルと、第2のベクトルの前記グループのそれぞれとの類似度を決定して、前記ソースメディアコンテンツを前記参照メディアコンテンツと照合するための候補であるいずれかの第2のベクトルを識別するための、2次評価を実施するステップとを含み、
データベースが前記ルックアップテーブル及び前記第2のベクトルを含み、
前記第1のベクトルがソースベクトルと参照ベクトルとのいずれかであり、前記第2のベクトルが前記ソースベクトルと前記参照ベクトルとのうちの他方であり、各参照ベクトルが前記参照メディアコンテンツのタイムスライスを表し、
前記方法が、タイムスライスに対してさらに他のソースベクトルを生成するステップをさらに含み、前記さらに他のソースベクトルが、
前記ソース信号にフーリエ変換を適用することによってさらに他のスペクトログラムを生成するサブステップであって、前記さらに他のスペクトログラムが複数のカラム(column)を含み、各カラム(column)がタイムスライスを表し複数の周波数ビンを含み、各周波数ビンが前記ソース信号の前記タイムスライスについての周波数成分のそれぞれの範囲を表す、サブステップと、
前記タイムスライスの前記カラム(column)からの前記それぞれの周波数ビンにフーリエ変換をさらに適用してそれぞれの係数セットを生成するサブステップと、
前記さらに他のソースベクトルを生成するサブステップであり、それにより、タイムスライスのカラム(column)中のN個の係数のセットに対して、前記さらに他のソースベクトルの要素2からN−1までのそれぞれにつき、n番目の係数の2乗を(n−1)番目の係数と(n+1)番目の係数との積で割った値によってn番目の要素が形成され、前記さらに他のソースベクトルの前記要素を量子化して、各要素につき少なくとも1つの数字を生成する、サブステップとによって生成される、方法。 - 前記ソース信号がオーディオ信号であり、前記周波数ビンが対数目盛りに従って割り振られた周波数である、請求項19〜24のいずれか一項に記載の方法。
- 前記ルックアップテーブルが、葉に至る可変深度の木として編成され、前記ルックアップテーブルが前記第1のベクトルによって索引付けされ、
各葉が、第2のベクトルのそれぞれのグループに関連する前記ルックアップテーブル中のエントリを形成し、
各葉に至る数字の数が、各葉につきほぼ等しいサイズの第2のベクトルのグループを提供するように決定される、請求項19〜25のいずれか一項に記載の方法。 - 各葉に至る数字の数が、所与の葉について前記完全一致を実施するのに使用される前記第1のベクトルの数字の数を形成する、請求項26に記載の方法。
- 前記ルックアップテーブルの各葉が、d個の一致する数字を有する第2のベクトルのグループを識別し、dが前記葉までの前記木の深度に対応する、請求項26又は27に記載の方法。
- 距離メトリックを使用して前記2次評価を実施して、前記第1のベクトルと第2のベクトルの前記グループのそれぞれとの前記類似度を決定するステップを含む、請求項19〜28のいずれか一項に記載の方法。
- 候補として識別されたいずれかの第2のベクトルに対して3次評価を実施するステップを含み、前記3次評価が、1つ又は複数のさらに他の第1のベクトルと、前記2次評価で候補として識別された前記第2のベクトルに対応する1つ又は複数のさらに他の第2のベクトルとの類似度を決定するサブステップを含む、請求項19〜29のいずれか一項に記載の方法。
- 前記さらに他の第1のベクトル及び前記さらに他の第2のベクトルが、前記第1のベクトルと候補として識別された前記第2のベクトルとからそれぞれ時間的な隔たりがある、請求項30に記載の方法。
- 前記ソース信号が、受信されたプログラム信号である、請求項19〜31のいずれか一項に記載の方法。
- 前記プログラム信号のうち一致する前記ソースメディアコンテンツのレコードを生成するステップを含む、請求項32に記載の方法。
- 一致する前記ソースメディアコンテンツを識別するキューシートを生成するステップを含む、請求項33に記載の方法。
- 前記第2のベクトルが前記ソースベクトルであり、前記方法が前記ソースベクトルから前記データベースを生成するように構成された、請求項19〜34のいずれか一項に記載の方法。
- コンピュータに請求項19〜35のいずれか一項に記載の方法を実施させるプログラム命令を格納する、コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US35290410P | 2010-06-09 | 2010-06-09 | |
US61/352,904 | 2010-06-09 | ||
PCT/GB2011/051042 WO2011154722A1 (en) | 2010-06-09 | 2011-06-02 | System and method for audio media recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013534645A JP2013534645A (ja) | 2013-09-05 |
JP5907511B2 true JP5907511B2 (ja) | 2016-04-26 |
Family
ID=44511083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013513754A Active JP5907511B2 (ja) | 2010-06-09 | 2011-06-02 | オーディオメディア認識のためのシステム及び方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8768495B2 (ja) |
EP (1) | EP2580750B1 (ja) |
JP (1) | JP5907511B2 (ja) |
CN (1) | CN102959624B (ja) |
ES (1) | ES2488719T3 (ja) |
HK (1) | HK1181913A1 (ja) |
SG (1) | SG185673A1 (ja) |
WO (1) | WO2011154722A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3418917B1 (en) * | 2010-05-04 | 2022-08-17 | Apple Inc. | Methods and systems for synchronizing media |
US8584198B2 (en) * | 2010-11-12 | 2013-11-12 | Google Inc. | Syndication including melody recognition and opt out |
US9684715B1 (en) * | 2012-03-08 | 2017-06-20 | Google Inc. | Audio identification using ordinal transformation |
US9052986B1 (en) * | 2012-04-18 | 2015-06-09 | Google Inc. | Pitch shift resistant audio matching |
US9418669B2 (en) * | 2012-05-13 | 2016-08-16 | Harry E. Emerson, III | Discovery of music artist and title for syndicated content played by radio stations |
CN103971689B (zh) * | 2013-02-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
US20160322066A1 (en) | 2013-02-12 | 2016-11-03 | Google Inc. | Audio Data Classification |
US20140336797A1 (en) * | 2013-05-12 | 2014-11-13 | Harry E. Emerson, III | Audio content monitoring and identification of broadcast radio stations |
JP6587625B2 (ja) * | 2014-03-04 | 2019-10-09 | インタラクティブ・インテリジェンス・グループ・インコーポレイテッド | オーディオ指紋探索の最適化のためのシステムおよび方法 |
CN104093079B (zh) | 2014-05-29 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 基于多媒体节目的交互方法、终端、服务器和系统 |
US9641892B2 (en) * | 2014-07-15 | 2017-05-02 | The Nielsen Company (Us), Llc | Frequency band selection and processing techniques for media source detection |
US9817908B2 (en) * | 2014-12-29 | 2017-11-14 | Raytheon Company | Systems and methods for news event organization |
CN105788612B (zh) * | 2016-03-31 | 2019-11-05 | 广州酷狗计算机科技有限公司 | 一种检测音质的方法和装置 |
US11086689B2 (en) * | 2016-06-22 | 2021-08-10 | Atos Convergence Creators Gmbh | Method for automatically and dynamically assigning the responsibility for tasks to the available computing components in a highly distributed data-processing system |
CN107895571A (zh) * | 2016-09-29 | 2018-04-10 | 亿览在线网络技术(北京)有限公司 | 无损音频文件识别方法及装置 |
CN107274912B (zh) * | 2017-07-13 | 2020-06-19 | 东莞理工学院 | 一种手机录音的设备来源辨识方法 |
US10440413B2 (en) * | 2017-07-31 | 2019-10-08 | The Nielsen Company (Us), Llc | Methods and apparatus to perform media device asset qualification |
CN110580246B (zh) * | 2019-07-30 | 2023-10-20 | 平安科技(深圳)有限公司 | 迁徙数据的方法、装置、计算机设备及存储介质 |
US11392641B2 (en) * | 2019-09-05 | 2022-07-19 | Gracenote, Inc. | Methods and apparatus to identify media |
WO2021135731A1 (en) * | 2020-01-03 | 2021-07-08 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Efficient audio searching by using spectrogram peaks of audio data and adaptive hashing |
CN112784099B (zh) * | 2021-01-29 | 2022-11-11 | 山西大学 | 抵抗变调干扰的采样计数音频检索方法 |
US11798577B2 (en) * | 2021-03-04 | 2023-10-24 | Gracenote, Inc. | Methods and apparatus to fingerprint an audio signal |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3919479A (en) | 1972-09-21 | 1975-11-11 | First National Bank Of Boston | Broadcast signal identification system |
US4843562A (en) | 1987-06-24 | 1989-06-27 | Broadcast Data Systems Limited Partnership | Broadcast information classification system and method |
US5019899A (en) | 1988-11-01 | 1991-05-28 | Control Data Corporation | Electronic data encoding and recognition system |
US5210820A (en) | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
US7346472B1 (en) | 2000-09-07 | 2008-03-18 | Blue Spike, Inc. | Method and device for monitoring and analyzing signals |
US6941275B1 (en) | 1999-10-07 | 2005-09-06 | Remi Swierczek | Music identification system |
US7853664B1 (en) | 2000-07-31 | 2010-12-14 | Landmark Digital Services Llc | Method and system for purchasing pre-recorded music |
US6990453B2 (en) * | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US7574486B1 (en) | 2000-11-06 | 2009-08-11 | Telecommunication Systems, Inc. | Web page content translator |
US20020072982A1 (en) | 2000-12-12 | 2002-06-13 | Shazam Entertainment Ltd. | Method and system for interacting with a user in an experiential environment |
US7359889B2 (en) | 2001-03-02 | 2008-04-15 | Landmark Digital Services Llc | Method and apparatus for automatically creating database for use in automated media recognition system |
US6993532B1 (en) * | 2001-05-30 | 2006-01-31 | Microsoft Corporation | Auto playlist generator |
AU2002346116A1 (en) * | 2001-07-20 | 2003-03-03 | Gracenote, Inc. | Automatic identification of sound recordings |
DE60323086D1 (de) | 2002-04-25 | 2008-10-02 | Landmark Digital Services Llc | Robuster und invarianter audiomustervergleich |
US7386480B2 (en) | 2002-05-07 | 2008-06-10 | Amnon Sarig | System and method for providing access to digital goods over communications networks |
EP1563368A1 (en) | 2002-11-15 | 2005-08-17 | Pump Audio LLC | Portable custom media server |
US20060229878A1 (en) * | 2003-05-27 | 2006-10-12 | Eric Scheirer | Waveform recognition method and apparatus |
US7421305B2 (en) * | 2003-10-24 | 2008-09-02 | Microsoft Corporation | Audio duplicate detector |
CN1998168B (zh) | 2004-02-19 | 2011-04-06 | 兰德马克数字服务有限责任公司 | 用于广播源辨识的方法与装置 |
CN100485399C (zh) | 2004-06-24 | 2009-05-06 | 兰德马克数字服务有限责任公司 | 表征两个媒体段的重叠的方法 |
US7925671B2 (en) | 2004-08-11 | 2011-04-12 | Getty Image (US), Inc. | Method and system for automatic cue sheet generation |
US8156116B2 (en) * | 2006-07-31 | 2012-04-10 | Ricoh Co., Ltd | Dynamic presentation of targeted information in a mixed media reality recognition system |
US7516074B2 (en) * | 2005-09-01 | 2009-04-07 | Auditude, Inc. | Extraction and matching of characteristic fingerprints from audio signals |
US8145656B2 (en) * | 2006-02-07 | 2012-03-27 | Mobixell Networks Ltd. | Matching of modified visual and audio media |
WO2008042953A1 (en) | 2006-10-03 | 2008-04-10 | Shazam Entertainment, Ltd. | Method for high throughput of identification of distributed broadcast content |
US7733214B2 (en) | 2007-08-22 | 2010-06-08 | Tune Wiki Limited | System and methods for the remote measurement of a person's biometric data in a controlled state by way of synchronized music, video and lyrics |
US20090083281A1 (en) | 2007-08-22 | 2009-03-26 | Amnon Sarig | System and method for real time local music playback and remote server lyric timing synchronization utilizing social networks and wiki technology |
-
2011
- 2011-06-02 ES ES11726480.4T patent/ES2488719T3/es active Active
- 2011-06-02 EP EP11726480.4A patent/EP2580750B1/en active Active
- 2011-06-02 JP JP2013513754A patent/JP5907511B2/ja active Active
- 2011-06-02 US US13/151,365 patent/US8768495B2/en active Active
- 2011-06-02 CN CN201180028693.XA patent/CN102959624B/zh active Active
- 2011-06-02 SG SG2012085361A patent/SG185673A1/en unknown
- 2011-06-02 WO PCT/GB2011/051042 patent/WO2011154722A1/en active Application Filing
-
2013
- 2013-07-30 HK HK13108875.8A patent/HK1181913A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
EP2580750A1 (en) | 2013-04-17 |
SG185673A1 (en) | 2012-12-28 |
ES2488719T3 (es) | 2014-08-28 |
WO2011154722A1 (en) | 2011-12-15 |
CN102959624A (zh) | 2013-03-06 |
US20110307085A1 (en) | 2011-12-15 |
HK1181913A1 (en) | 2013-11-15 |
US8768495B2 (en) | 2014-07-01 |
EP2580750B1 (en) | 2014-05-14 |
CN102959624B (zh) | 2015-04-22 |
JP2013534645A (ja) | 2013-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5907511B2 (ja) | オーディオメディア認識のためのシステム及び方法 | |
US9093120B2 (en) | Audio fingerprint extraction by scaling in time and resampling | |
US9208790B2 (en) | Extraction and matching of characteristic fingerprints from audio signals | |
KR100776495B1 (ko) | 오디오 데이터베이스에서의 검색 방법 | |
EP2659480B1 (en) | Repetition detection in media data | |
Fenet et al. | A Scalable Audio Fingerprint Method with Robustness to Pitch-Shifting. | |
US20050249080A1 (en) | Method and system for harvesting a media stream | |
EP1704454A2 (en) | A method and system for generating acoustic fingerprints | |
WO2016189307A1 (en) | Audio identification method | |
Kim et al. | Robust audio fingerprinting using peak-pair-based hash of non-repeating foreground audio in a real environment | |
George et al. | Scalable and robust audio fingerprinting method tolerable to time-stretching | |
Wang et al. | Contented-based large scale web audio copy detection | |
Ribbrock et al. | A full-text retrieval approach to content-based audio identification | |
Yadav et al. | Real Time Audio Synchronization Using Audio Fingerprinting Techniques | |
CN117807564A (zh) | 音频数据的侵权识别方法、装置、设备及介质 | |
Yin et al. | Robust online music identification using spectral entropy in the compressed domain | |
Son et al. | An Analysis Method for Degree of Similarity between the Music based on Signal Analysis | |
Arora et al. | Comparison and Implementation of Audio based Searching for Indian Classical Music | |
Singh et al. | Indexing and Retrieval of Speech Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140311 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160223 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160315 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5907511 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |