JP2010530100A - 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置 - Google Patents

複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置 Download PDF

Info

Publication number
JP2010530100A
JP2010530100A JP2010511189A JP2010511189A JP2010530100A JP 2010530100 A JP2010530100 A JP 2010530100A JP 2010511189 A JP2010511189 A JP 2010511189A JP 2010511189 A JP2010511189 A JP 2010511189A JP 2010530100 A JP2010530100 A JP 2010530100A
Authority
JP
Japan
Prior art keywords
fingerprint
query
search
confidence level
found
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010511189A
Other languages
English (en)
Other versions
JP5090523B2 (ja
Inventor
ジァン、ウェンユ
バウアー、クラウス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2010530100A publication Critical patent/JP2010530100A/ja
Application granted granted Critical
Publication of JP5090523B2 publication Critical patent/JP5090523B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

オーディオ及び/又はビデオの情報のセグメントの識別で使用される方法は、前記セグメント中の複数の間隙を介した時間的位置の各々で質問指紋を得る工程と、そのような各質問指紋に一致し得るデータベース中の指紋を検索する工程と、そのような各質問指紋に対してデータベース中で見つかった指紋の潜在的な一致の信頼水準を得る工程と、そして潜在的な一致を得るために検索する結果を組み合わせる工程であって、そこでは各潜在的な一致結果がそれぞれの信頼水準によって重み付けられる工程を有する。信頼水準は、(1)質問指紋と見つかった指紋との間の差の測定値、および(2)質問指紋の時間的位置と見つかった指紋の時間的位置の相対的なタイミング関係、の少なくとも一方又は両方の関数である。
【選択図】図3

Description

本発明は、オーディオとビデオの指絞採取に関する。さらに詳しくは、本発明は指紋検索精度における精度の改善に関する。
デジタルコンテンツの急成長で、適切にコンテンツを管理し見つけることの需要が増加している。予期される1つの応用は、既知のコンテンツの保存場所内のオーディオやビデオの抜粋(excerpt)を確認することである。これは、インターネット上のコンテンツの違法なダウンロードや転送の監視に役立つ。使用者が聞いたり、見たり、興味のあるコンテンツではあるが、タイトルや著者情報を知らないコンテンツへのインテリジェントなアクセスを提供するのに役立つ。使用者は、例えば、現在歌を再生しているラウドスピーカーに携帯電話を押しつけて、携帯電話の運営者のソフトウェアによって歌のタイトル、その芸術家およびアルバム情報、その他を見つけ出させることができる。
そのような識別能力は、ユニークにオーディオおよびビデオ信号を識別するように設計された特徴情報(指紋(fingerprint)と呼ばれる)を最初に生成することで一般的に実施され、次に、保存場所/データベースからの指紋と検索質問(search query)の抜粋との間のパターンマッチング検索が実施される。また、そのようなデータベースはしばしば検索木(search tree)の形で実施されるが、別のデータ構造も可能である。一般に、各指紋はオーディオまたはビデオの一定のセグメントに相当する。したがって、2秒のオーディオ指紋はオーディオの2秒のセグメントに相当する。指紋は、しばしば署名(signature)と呼ばれる特徴情報の小さなブロックの連結として通常実施される。例えば、2秒の指紋は200個の10ミリ秒長の署名から成る。そこでは各署名は10ミリ秒の新しいオーディオあるいはビデオ情報から計算される。したがって、指紋のパターンマッチングは対応する署名を比較する過程である。これは、署名からの指紋の生成を示す図1に示される。
検索質問の抜粋からの指紋とデータベースからの指紋との間の適切なパターンマッチングを行なうために、比較の間において両者の間に適切な時間的整合を有することは重大である。通常、それを保証するために、あらゆる可能な時間オフセットからスタートする全ての指紋がデータベースに加えられて、その中の少なくとも1個が質問指紋(query fingerprint)に十分に接近している時間的整合を有することを保証する。署名が長さ10ミリ秒である場合、2秒の指紋は2秒のスライドウィンドウ上に10ミリ秒ごとに移され、次に、データベースに加えられる。これもまた図1に示されており、この場合、それは連続の指紋間の99.5%のオーバーラップを作成する。しかし、そのような冗長性はよい検索のパフォーマンスを保証するために通常要求される。10ミリ秒(あるいは一般に、各署名の時間)未満のどんな残り時間不整合に対処するためにも、良く設計された指紋生成方法では、質問に対応する署名により適合するように、タイミングの観点からより接近しているいずれかの署名を選択するべきである。要するに、指紋検索システムのゴールは質問指紋に対応する相当物指紋を見つけることである。また、そのような不整合が少しでも存在する場合でも、相当物指紋は質問指紋との時間不整合を最小限にする。
質問抜粋が、携帯電話を使用してラウドスピーカーで再生された音から再現するような、若干の編集ステップあるいは処理ステップを受けるので、得られたオーディオ/ビデオ信号に若干の歪みがある。その結果、得られる指紋は、データベース中にそれらの相当物があると見なして、データベース中の相当物に対して僅かに変化してもよい。
抜粋中の歪みの可能性によって、そのような検索での最良一致が、多くの場合同一一致ではなく、しかし最も近い一致の形式であることを意味する。最も近い一致を定義するためには、2個の指紋間の差の測定値(measure of difference)の定義が必要となる。例えば、差の測定値に一般に用いられるのはハミング距離であり、すなわち、質問抜粋からの指紋とデータベースからの指紋と間の異なるビットの数である。差の測定値におけるこの定義で、最も近い一致に対応する判定基準は、このように質問抜粋からの指紋からの最小のハミング距離を有するデータベースからの指紋である。指紋中のビットの数で割られた2個の指紋間のハミング距離は、しばしばビット誤り率(BER)と呼ばれる。BERは相対差の測定値の具体例である。抜粋とその相当物からの指紋間のBERが小さい場合に、最小のハミング距離の判定基準が良く働く。しかしながら、BERが増加すると、最小のハミング距離を生成する検索結果は、ますます実際の相当物を見つけなくなる。幸運にも、たいていの指紋検索のアプリケーションでは、正確なオーディオ/ビデオピースを識別することだけが必要であり、必ずしも対応するセグメントを識別する必要はない。しかし、BERがさらに増加する場合、検索結果にはオーディオ/ビデオピース内の正確なセグメントはいうまでもなく、さらに間違ったオーディオ/ビデオピースを見つけるようになる。BERは、質問抜粋中の歪みのレベルおよびそのような歪みに関する指紋抽出法のロバスト性の両方に依存する。
更に、抜粋がデータベース中のいかなる構成要素にも属さないことがありえる。例えば、抜粋が音楽の新しい作曲の録音の場合である。抜粋がデータベースに属するかどうか検索アルゴリズムが(知らされることなしで)前もって知ることができないので、それができる最良のものは、引き続いて最小のハミング距離の同じ基準を適用することである。しかし、そのような場合に見つかった最小のハミング距離は、もとのデータベースからの抜粋の距離と比較すると、はるかに異なる(むしろより大きい)ことが予想される。そこで、抜粋がデータベースからか否か判断するために、あるしきい値を使用する。
したがって、例えばBERの項のように、任意のしきい値を適用する前に、データベースを検索するために1個の質問指紋だけが使用されるような、単一の検索動作の後に3個の起こりうる結果がある:
1.抜粋がデータベースに属する。そして、検索では正確なオーディオ/ビデオピースを返す。正確なピースを見つけることで十分であり、正確な相当物セグメントを見つけることは必要ではない。
2.抜粋がデータベースに属する。そして、検索では間違ったオーディオ/ビデオピースを返す。
3.抜粋がデータベースに属さない。そして、検索があるオーディオ/ビデオピースを常に返すので、答えは常に間違っている。
図2は、単一の検索の3個の異なる起こりうる結果に対するBER分布の具体例を示す。これらの各結果は、BERの対応する確率密度関数(PDF)分布を生成する。良く設計された指紋抽出アルゴリズムでは、図2に示されるように、第1結果のBERは第2結果と第3結果のBERより一般に小さい。
しかしながら、第2結果と第3結果のBERとが非常に良く似たPDF分布を有するならば、抜粋がデータベースに属するが間違った検索結果を有する場合と、抜粋がデータベースに属しない場合とを区別するのは難しい。さらに、もともとデータベースに基づくピースに対しても、コーデック圧縮のような一般のオーディオ/ビデオ歪みを適用した後では、典型的な実施の検索結果は、任意のBERしきい値を適用する前では、指紋時間と歪み形状に依存して、(正確なピースを識別する点では)通常90%から99%までの範囲で正確である。これは良であるが、より高いレベルの精度が確かに望ましい。また、BERしきい値(図2で、例えばBER=0.2)を適用した後に、正確な検索結果の比率はわずかに減少する。その理由は、結果1のBER分布の尾部が、結果2の頭部分布の大部分を偽って検知することを回避するために、捨てられるからである。これは、BERしきい値だけを調整することのみでは、単一の検索で高精度(例えば99.9%)に結びつかないことを意味する。
図1は特定形式の指紋が生成される手法の具体例の構成図である。 図2は、単一の指紋一致検索について3個の起こりうる結果の各々に対して得られるビット誤り率(BER)の関数として確率密度関数(PDF)の理想化された具体例を示す。 図3は、3個の検索に関して多数決投票を使用することを組み合わせて、指紋の一致する検索結果の具体例の図式概念化である。 図4aは、時間的位置(time location)が3回一致し得る場合に2回一致する3回の検索に関する、指紋検索結果の具体例の概念的構成図である。 図4bは、時間的位置が3回一致し得る場合に2回一致していない3回の検索に関する、指紋検索結果の具体例の概念的構成図である。 図5は、ビット誤り率(BER)の関数として信頼水準が写像される手法の具体例である。 図6は、直線回帰を使用して、指紋質問の時と、データベースで見つかった指紋の時との間の相対的な時間的位置を決定する一つの手法を理解するのに役立つ概念化された例である。 図7は、指紋質問の時と、データベースで見つかった指紋の時との間の相対的な時間的位置の時間差の関数として、信頼水準が写像される手法の具体例である。
本発明の態様に従って、オーディオ及び/又はビデオの情報のセグメントの識別で使用される方法は、前記セグメント中の複数の間隙を介した時間的位置の各々で質問指紋を得る工程と、そのような各質問指紋に一致し得るデータベース中の指紋を検索する工程と、そのような各質問指紋に対してデータベース中で見つかった指紋の潜在的な一致の信頼水準を得る工程と、そして潜在的な一致を得るために検索する結果を組み合わせる工程であって、そこでは各潜在的な一致結果がそれぞれの信頼水準によって重み付けられる工程を有する。
信頼水準は、(1)質問指紋と見つかった指紋との間の差の測定値、および(2)質問指紋の時間的位置と見つかった指紋の時間的位置の相対的なタイミング関係、の少なくとも一方又は両方の関数である。差の測定値は、ハミング距離や、ビット誤り率のようなハミング距離の相対差の改良型に基づく。あるいは、それは、指紋を構成するベクトルの各次元に対する差の絶対値の第p次のべき乗の和の第p次の根から得られるLpノルムに基づく。Lpノルム測定値は、差の絶対値の平方の和の平方根から得られるL2ノルム差測定値(difference measure)でもよい。さらに進んだ選択肢として、差の測定値は、相関の値が一致の接近を表示する自己相関によって得られてもよい。
信頼水準は、(1)質問指紋と見つかった指紋との間の差の測定値、および(2)質問指紋の時間的位置と見つかった指紋の時間的位置の相対的なタイミング関係、の少なくとも一方又は両方の関数の各々の信頼水準の組合せである。各々の信頼水準の組合せは、例えば各々の信頼水準の合計、又は各々の信頼水準の掛け算の積である。
信頼水準は、少なくとも質問指紋の時間的位置とデータベースで見つかった指紋の潜在的一致の時間的位置との間の相対的なタイミング関係の関数である。この場合には、少なくとも3個の間隙を介した時間的位置がある。
オーディオ及び/又はビデオの情報のセグメント中の間隙を介した時間的位置は、2個又は3個以上の質問指紋の間の相関を最小にするように間隙を介している。
潜在的な一致のために検索結果の組が組み合わせられる複数の組の各々に関して、間隙を介した時間的位置の多数の組がある。検索結果は、各組内で組み合わせられてもよく、また、そのような組合せの結果は次にさらに組み合わせられてもよい。あるいは、検索結果は、すべての組にわたって組み合わせられてもよい。
データベース中の指紋は前記オーディオ及び/又はビデオの情報にメタデータを関連づけられる。このメタデータには、オーディオ及び/又はビデオの情報の少なくとも1個のピースタイトルを含む。
質問指紋は、前記複数の間隙を介した時間的位置の各々から、実質的に同じ手法で得られる。
多数の検索から得られる結果を組み合わせる単純であるが有用な方法は多数決である。例えば、図3に示されるように、ある者が3個の検索を行なう場合、それらのうちの2個はピースAを返し、1個はピースBを返す時、我々は最終検索結果がピースAであるとの結論を下す。我々が3個の異なる答え、ピースA、ピースB及びピースCを得れば、大多数の当選者はいない。そこで、答えは結論に到達しないというものである。この場合、抜粋がデータベースに属さないと結論を下すことが最も良い。何故なら、抜粋がデータベースに属する場合に、3回の検索で3個の異なる結果を得ることは比較的ありそうもないからである。
これは、下に示された擬似コードによって示されるような多数決(投票の半分以上を得るピースが勝つこと)や、作成者によって望まれた投票方式(例えば、最高票を有するピースであると共に、同順位票がないものが勝つ)を使用して、任意の回数の検索に一般化できる。投票方式は、確率的解析を使用して、正解の数を最大化すると共に、間違った答えの数を最小限にするように設計される。例えば、本来はデータベースからのピースに関しては、単一の検索に98%の精度がある場合、多数決で3回の検索を組み合わせることで間違った結論を引き出すものは、3回の検索のうちの少なくとも2回の検索が間違っている場合に限られ、それは3 x 0.98 x 0.022 + 0.023 ≒ 1.2 x 10-3である、したがって、組み合わせた正確性はほぼ99.9%である。この確率的解析は各検索を別の検索に依存していない(つまり検索間の無相関)と仮定する。
多数決を使用する検索組合せ用の典型的な擬似コードは以下のように表現される:
N=3;
N個の指紋検索を、抜粋について時間t, t+d[1], …, t+d[N−1]でそれぞれ行う;
もし過半数(>N/2)の検索が同じピースAを返すなら
ピースAを返す;
それ以外であれば
「抜粋はデータベースに属しない」を返す;
図3の時間間隔d[1]、d[2]、…、は異なる場所での検索を行なうために使用される。そして、検索結果間のいかなる不適当な相関も低減するようにするために、一般にそれらは、対応する検索セグメント中のオーバーラップを最小限にするように選ばれる。組合せ過程は、結論に到達しない票の場合には、さらに複数回の検索を追加で反復することで段階的に行うことができる。また、作成者によって選ばれた投票方式と共に、新しい反復中の票のみを考慮するか、あるいは前回の投票の一部又は全てを組み合わせることができる。
多数決のような単純なスキームは非常に好結果を与えるように見える。上記の例は、ほぼ99.9%の精度を示唆する。しかし、検索におけるエラーの相関や強いバースト性がある場合、実際の精度は本来の98%より少しよいだけである。もし1回の検索が間違った結果を与えれば、近くの時間的位置での検索は多分同様な間違った結果を与え、しばしば同じ間違った結果を与える。これは、例えば、低いビットレート圧縮や暗騒音のそれぞれによる歪みに、より敏感なオーディオ/ビデオの一定の領域(例えば、ビデオ信号の高速動作セグメントや静かなオーディオ信号)に関して、起こる。これによって、正解を見つけていない場合でも、多数決アルゴリズムが正解を見つけたと思うような誤りをする。さらに、ピースがデータベースに属さない場合、ピースが間違った過半数の当選者に帰着するので、1回以上の検索が同じピースを返す場合に対処する必要がある。
本発明の態様を使用することで、そのようなバースト誤りがある状態でさえ精度が増加する。これは、例えば、各検索結果からのピースのタイトル情報だけでなく、見つかったピース内の見つかったセグメントの時間的位置や検索結果のBERのような付属情報(accessory information)も組み合わせることで遂行される。図4(a)に示す例のように、3回の検索のうちの2回がピースAを返し、これら2回の検索セグメントの時間的位置が5秒異なる場合、これらの2回の検索結果で見つかったセグメントの時間的位置もまた、5秒だけ異なる(あるいは一定の許容誤差内にある)。図4(b)に示す例のように、これが満たされない場合、これが誤りの過半数の当選者であることはほとんど確かである。検索が間違ったピースを返す場合、最小のハミング距離を生成する結果で生じた事故によることがほとんど確かなので、これは公平な仮定である。したがって、見つかったセグメントの時間的位置は決定的というよりむしろ比較的ランダムである。それゆえ、1組の連続して接近している時間的位置で、2回の間違った検索結果が同じ間違ったピースを返す確率は、相当に低い。正確な確率は、正確な検索結果と間違った検索結果の両方の時間的位置のPDF分布の解析により評価できる。
N回の検索についてのこの比較を一般化すると、それらの検索の時間的位置間の違いが、質問と検索結果のいたる所で同じか接近していることを意味する。しかし、ソフトウェア中でこの比較を実装することをより容易にするために、本来のピースの時間的位置と検索結果中の抜粋との間でオフセット(つまり差)を計算する。また、この値は図4(a)と図4(b)でtoffsetとして参照される。それぞれ、第1回の検索に対するオフセットはtoffset,1であり、第2回の検索に対するオフセットはtoffset,2である。同じピースを返す各組の検索結果に対して、それらのtoffset間の差を計算してもよい。次に、最小の差を達成するペアに関して、そのような最小の差が一定のしきい値(例えば0.2秒)未満である場合、そのピースタイトルは最終的な答えと考えられる。これは、付属情報を使用して組合せられる以下の検索用の擬似コード中に示され、ここでMin_t_offset_distは最小の差である。また、候補者はこの最小値を示す(一組の)検索を意味する。2秒の例示的な値を有するしきい値d_Aは、結果が十分に信頼できるかどうか判断するために使用される。
offset付属情報を使用する検索組合せ用の典型的な擬似コードは以下のように表現される:
N=3;
N個の指紋検索を、抜粋についてそれぞれ時間t, t+d[1], …, t+d[N−1]で行う;
Min_t_offset_dist = min(toffset,i−toffset,j, ここで、検索[i].ピース = =検索[j].ピース, i < j);
候補者= argmin(toffset,i−toffset,j, ここで、検索[i].ピース = =検索[j].ピース, i < j){Candidate = argmin(toffset,i−toffset,j, where search[i].piece = = search[j].piece, i < j)};
d_A = 0.2;
もし(Min_t_offset_dist < d_A &&候補者が過半数の投票を有する)ときは
検索[候補者].ピースを返す;
それ以外であれば
「抜粋はデータベースに属しない」を返す;
上記の擬似コード中で、「検索[i]」("search[i]")は第i番目の検索からの結果を意味する、そして、「検索[i].ピース」("search[i].piece")は見つかったピースのタイトルのような識別情報である。タイミング情報の付属情報を使用するもっと一般化されたものは、下記に述べられるように、toffsetではなく時間計測tdistanceを使用する。
検索の大きなNの数に関して、より多くの検索が同じピースを返す場合で、結果が正確である場合には、明らかに"Min_t_offset_dist"の値がより小さくなる。例えば、ほかのものが等しい場合、5個のサンプル中の最小値は、3個のサンプル中の最小値より確かに小さい。したがって、どれだけの検索が同じピースを返すかに依存して、d_Aに加えて、より多くのしきい値(例えばd_B、d_C)を定義できる。このように、多数決情報(どれだけの検索が同じピースを返すか)に知的に基づいた付属情報(この例におけるtoffset)を使用して、より高い精度を達成できる。
もし質問材料が、ラジオ番組の場合に時々あるように、あるスピードアップあるいはスピードダウンを受けていれば、質問指紋間の間隔対検索結果からの指紋間の間隔は、もはや同じにならない。代わりに、それらは、質問指紋間の間隔に関して徐徐にだんだん離れて行く。これに対処するために、質問指紋間の間隔が原因で、toffsetの偏差がd_Aのようなしきい値を越えないことを、確保することができる。または、投票に十分な数がある場合、検索結果からの指紋と質問指紋との間の時差相関を観測できる。この時差相関は、スピードアップあるいはスピードダウンを経験したかに依存して、少しより高いか又は低い傾斜を有する直線の傾向を生成する。別の歪みを考慮することで、検索結果からの指紋のタイミングにおけるエラーをなくすことに寄与する。次に、組合せ結果の信頼性を決定するために、直線回帰に基づくような、直線の傾向の信頼性測定を使用する。そのような直線回帰の一例は、下に述べられる図6に示される。
offsetの概念と同じように、検索結果中のBERが非常に低い場合、それは非常に近似した一致を表示するもので、結果の正確さにおいて高度に確信できる。しかし、BERが高い場合、結果はそれほど信頼できない。更に、付属情報の1ピース以上が論理積の手法で使用される場合、それらに対して固定のしきい値のみを使用するようには制約されない。例えば、当初のしきい値d_Aが0.2秒で、BERしきい値が12%であるが、しかし、現在の検索のBERが非常に低い場合、例えば0.1%の場合には、強い確信をもってしきい値d_Aを0.2秒から例えば0.3秒に緩めることができる。これは動的しきい値化(dynamic thresholding)と呼ばれる。このような動的しきい値化の正確な調節量は、動的しきい値化に起因する誤りの一致の数が無視できることを保証するために確率的解析を使用して、作成者によって決定する。
3個の検索を組み合わせた後でも結果が結論に到達しない場合、諦めて、抜粋がデータベースに属さないと主張する代わりに、より多くの検索を行ない、結果をすべて組み合わせてもよい。例えば、図4(b)の場合には、さらに2回の検索を行なう。抜粋がピースAに実際に属するが、しかしどうゆう訳か第2回検索が間違った時間的位置を返す場合、追加の2回の検索により、これらの2回の1回が正しい時間的位置を備えたピースAを返す可能性が非常に高い。しかし、5回の検索を組み合わせる場合、投票スキームの定義はより複雑になる。単純化された実施の具体例では、(5回のうち)2回の検索で同じピースを返すと共に、当選者として時間的位置の面から最も一貫しているものを当選者と定義する。これは、上記の擬似コードで「min」演算子と「argmin」演算子が使用される手法である。
したがって、本発明の態様に従って、指紋検索精度は多数回の検索による結果を組合せることにより改善される。好ましくは、本発明の別の態様に従って、そのような結果は知的に組み合わせられる。
上述された本発明の態様では、検索結果中の利用可能な情報に基づいて投票型式が指紋検索精度を改善するために使用される。主な利用可能な情報は検索されたピース(質問抜粋)の(推測された)タイトルである。付属の利用可能な情報は、結果を組み合わせる際に実質的に精度を改善することができるものである。これには、toffset(上述されたような)やtdistanceのようなパラメーターと、BERのような距離の測定を含んでいる。パラメーターtdistanceは、質問ピースと見つかったピースとの間の時間的位置の線形性を表わす:時間的位置が接近していればいるほど直線となり(直線回帰によって得られる)、結果の一致に関してより確信が持てる。tdistanceパラメーターは、図6に関連してさらに下で記述される。
同様に、ハミング距離に由来したBERは、見つかったピースが質問ピースからどれくらい異なるか示す。BERが高ければ高いほど、それらは互いにより異なる。そしてBERが低ければ低いほど、それらは互い関してより似ており、相違が少なくなる。他のすべてが等しい場合には、より高いBERを有する一致と比較して、より低いBERを有する一致がより確信できる。
したがって、付属情報の値はそれらの対応する検索結果の信頼度を示す。ここで概説される、知的にそれらを組み合わせる1個のアプローチは、結果の組み合わせにおける重み付けとして付属情報の個別価値の信頼水準を使用することである。図5は、BERの関数として信頼水準の具体例を示す。そのような関数は、f(BER)として参照される。
前の例において、BERは信頼水準に写像されるが、そのような差の測定値は発明に対して重大ではない。また、差の測定値の別の形式も使用される。指紋は数のベクトルとして見られる。ハミング距離とBERの場合には、それが2進数のベクトル(つまりバイナリーベクトル)として見られる。そのようなベクトルの各ディメンションは単に1ビットである。しかし、バイナリー以外の数の指紋ベクトルを想定してもよい。また、それは予測可能であるべきであるが、各ディメンションの寸法は異なるディメンションにわたって異なってもよい。したがって、より一般には、差の測定値は、指紋を構成するベクトルの各ディメンションに対する距離の絶対値の第p次のべき乗の和の第p次の根が得られるLpノルム測定値である。BERはハミング距離に基づく。それは、L1ノルム差測定値であり、各ディメンションが1ビットである場合、各ディメンションの差の絶対値の和をいう。各ディメンションが1ビットである場合、L2ノルムはL1ノルムと同様であるが、L2ノルム差測定値でもよい。ここで、L2ノルムでは差の絶対値の平方の和の平方根が得られる。自己相関による差測定もまた存在し、そこではより高い値はより近い一致を表示する。
同様に、データベース中の質問指紋に潜在的に一致する時間的位置は、例えば直線回帰によって、予測されるような推測場所からどの程度の距離離れているか、測定することができる。これは、図6に示される。ここでtimequeryは質問指紋の時間的位置であり、timefoundが、見つかったピースの潜在的に一致する指紋の時間的位置である。また、これらの組の2つの値は図6に菱形(ダイヤモンド形状)で示される。次に、直線回帰はこれらの菱形点上で行なわれる。得られる直線回帰予測(直線)からの各菱形点の偏差は、図6に垂直線として示される時間的位置距離tdistanceとして参照される。次に、図7に示されるように、この距離を信頼水準に写像する。このような関数をf(tdistance)として参照する。任意の適切な形の直線回帰が使用される。任意の異常値を除去するための様々な技術が、直線回帰を行なう前に、あるいは直線回帰過程の構成要素として使用される。
上述されるように、tdistanceパラメーターはtoffsetパラメーターをもっと一般化した形式である。toffsetパラメーターを使用する例は、図4aと図4bの中に示される。それは、質問抜粋中の時間的位置と対応する一致の時間的位置との間のオフセットを測定する。連続する指紋照合が正確な場合、それは概略的に定数であるが、しかし、スピードアップやスピードダウンがない場合、必ずしも0に近い値である必要はない(質問材料の不確かな絶対時刻のために)。図6に示されるように、パラメーターtdistanceはより一般的である。それは、標本点(そのX座標とY座標は、それぞれ質問抜粋と一致の時間的位置である)と直線回帰の様々な適切な形式のうちの任意なものよって得られた直線との間の垂直距離を測定する。パラメーターtdistanceはそれが良い一致に対応する場合、0に近くなると思われる。スピードアップやスピードダウンがある場合でさえtdistanceの概念は良く働く。その理由は、それが直線回帰を使用し、toffsetパラメーターが行うような、直線回帰の傾斜が一個であることを仮定しないためである。toffsetパラメーターが傾斜の一個を仮定するので、2個の時間的位置だけでtoffsetの一貫性をチェックすることが可能であることに注意する。しかしtdistanceを使用する場合、傾斜が1個であることを仮定しないので、自明でない直線回帰を得るために少なくとも3個の時間的位置を必要とする(必要であれば、直線回帰を得るために少なくとも2個の時間的位置を使用し、次に、1個の傾斜から掛け離れた任意の傾斜を廃棄する)。
図7では、信頼水準が図5よりも素早く減少することに注意する。これは、典型的な実施例では、tdistanceのどんな少なからぬ量でも結果がそれほど信頼できない兆候である一方で、BERに対する許容範囲が比較的高いと期待するからである。さらに、2点の場合はそれらを完全に通過する直線を常に生成するので、tdistanceに基づく信頼水準の使用は専ら3点以上の場合に考慮する。
処理手順の一例は、本発明の態様に従って、信頼水準を組み合わせて検索結果の結果を知的に決定するために以下の擬似コード中で示される。
信頼水準を組み合わせて、検索結果の結果を決定するための典型的な擬似コードは、次のように表現される:
For ( X in set of unique pieces in the results) {
For (i in where search [i]. piece = = X) {
Confidence1 =f(search[i].BER);
もし(組、ここで検索[i].ピース = = X が3点以上である)ならば
Confidence2 =f(search[i].t_distance);
それ以外であれば
Confidence2 = 0;
合計スコア[X] += Confidence1 + Confidence2;
}
合計スコア[X] が最大値であるXを拾う;
もし (合計スコア[X] > しきい値)ならば
「質問抜粋はピースXである」を返す;
それ以外であれば
「未知の質問抜粋」を返す;
擬似コード中で表示されるように、最初にBERとtdistanceとを対応する信頼水準に写像して、次に組み合わせる。この例において、組み合わせは単なる加算演算であるが、組み合わせ演算が各信頼水準に関して単調非減少関数である限り、当業者は乗算のような別の演算を使用してもよい(ここでは、信頼水準は負でない数である必要がある)。f()が常に1を返し、f()が常に0を返し、変数“threshold”(しきい値」)が値N/2であって、ここでNが処理された検索の回数である場合、擬似コード中で表わされた処理手順は、単純な多数決投票方式に還元される。実際上、当業者は関数f()、f()に関して、最終出力が正しい確率を最大化するように選ぶ。
実施(Implementation)
本発明は、ハードウェア、ソフトウェア、あるいは両方の組み合わせ(例えばプログラマブルロジックアレイ)で実行される。別段の定めがない限り、本発明の構成部分を有する方法やアルゴリズムは、いかなる特別のコンピュータや他の装置とも本質的に関係がない。特に、様々な汎用機は、ここに教示に従って書かれたプログラムと共に使用される。あるいは、必要な方法のステップを行なうために、もっと専門化した装置(例えば集積回路)を構成するほうがより好都合である。したがって、その発明は、1台以上のプログラム可能なコンピュータシステム上で実行する1個以上のコンピュータプログラムで実行される。このコンピュータシステムは、少なくとも1個のプロセッサ、少なくとも1個のデータ保存システム(揮発性と不揮発性のメモリ及び/又は記憶装置を含む)、少なくとも1個の入力装置あるいは入力ポート、少なくとも1個の出力装置あるいは出力ポートで構成される。ここに記述された作用を行ない、かつ出力情報を生成するために、プログラムコードが入力データに適用される。出力情報は既知の方法で1台以上の出力装置にあてがわれる。
そのような各プログラムは、コンピュータシステムと通信するために任意の希望のコンピュータ言語(機械語、アセンブリ、あるいは高水準の手続的、論理的、またはオブジェクト指向のプログラミング言語を含む)で実装される。いかなる場合も、言語はコンパイルされた言語やインタープリタされた言語でよい。
そのような各コンピュータプログラムは、好ましくは、一般的なコンピュータか特別目的のプログラム可能なコンピュータによって判読可能な記憶媒体や装置(例えば固体メモリや媒体、あるいは磁気媒体や光学媒体)に格納されるかダウンロードされる。この目的は、ここに記述された処理手順を行なうために、記憶媒体や装置がコンピュータシステムによって読まれる場合に、コンピュータを構成し動かすためである。本発明にかかるシステムも、コンピュータプログラムで構成されて、コンピュータ可読記憶媒体として実装されると考えられる。ここで、このように構成された記憶媒体によって、コンピュータシステムはここに記述された作用を行なう特定であって所定のやり方で作動する。
発明の多くの実施例が記述された。しかしながら、本発明の趣旨および適用範囲から外れることなく、様々な修正がなされることが理解される。例えば、上述されたステップのうちのいくつかは独立した順序であり、したがって記述されたものと異なる順序で行なうことができる。その結果、別の実施例も本請求項の範囲内である。

Claims (20)

  1. オーディオ及び/又はビデオのセグメントの識別で使用される方法であって;
    前記セグメント中の複数の間隙を介した時間的位置の各々で質問指紋を得る工程と;
    そのような各質問指紋に一致し得るデータベース中の指紋を検索する工程と;
    そのような各質問指紋に対して前記データベース中で見つかった指紋の潜在的な一致の信頼水準を得る工程と;
    前記潜在的な一致を得るために検索結果を組み合わせる工程であって、そこでは各潜在的な一致結果がそれぞれの信頼水準によって重み付けられる工程と;
    を備えることを特徴とする前記方法。
  2. 信頼水準は、(1)質問指紋と見つかった指紋との間の差の測定値、および(2)質問指紋の時間的位置と見つかった指紋の時間的位置の相対的なタイミング関係、の少なくとも一方又は両方の関数であることを特徴とする請求項1に記載の方法。
  3. 前記差の測定値が、ハミング距離に基づくことを特徴とする請求項2に記載の方法。
  4. 前記差の測定値が、ビット誤り率であることを特徴とする請求項3に記載の方法。
  5. 前記差の測定値が、指紋を構成するベクトルの各次元に対する距離の絶対値の第p次のべき乗の和の第p次の根から得られるLpノルムであることを特徴とする請求項2に記載の方法。
  6. 前記差の測定値が、距離の絶対値の平方の和の平方根から得られるL2ノルム距離測定であることを特徴とする請求項5に記載の方法。
  7. 相関の値が一致の近さを示す自己相関によって、前記差の測定値が得られることを特徴とする請求項2に記載の方法。
  8. 前記信頼水準が、(1)質問指紋と見つかった指紋との間の前記差の測定値、および(2)質問指紋の時間的位置と見つかった指紋の時間的位置の前記相対的なタイミング関係、の少なくとも一方又は両方の関数の各々の信頼水準の組合せであることを特徴とする請求項2乃至請求項7の何れか1項に記載の方法。
  9. 前記各々の信頼水準の前記組合せが、各々の信頼水準の合計であることを特徴とする請求項8に記載の方法。
  10. 前記各々の信頼水準の前記組合せが、各々の信頼水準の掛け算の積であることを特徴とする請求項8に記載の方法。
  11. 前記時間的位置は、2個又は3個以上の質問指紋の間の検索結果の相関を最小にするように間隙を介していることを特徴とする請求項1乃至請求項10の何れか1項に記載の方法。
  12. 潜在的な一致を得るために前記検索結果の組が組み合わせられる複数の組の各々に関して、間隙を介した時間的位置の複数の組があることを特徴とする請求項1乃至請求項11の何れか1項に記載の方法。
  13. 前記検索結果が各組内に組み合わせられ、前記組合せの結果がさらに組み合わせられることを特徴とする請求項12に記載の方法。
  14. 前記検索結果がすべての組にわたって組み合わせられることを特徴とする請求項12に記載の方法。
  15. 前記データベース中の指紋は前記オーディオ及び/又はビデオの情報にメタデータを関連づけられることを特徴とする請求項1乃至請求項14の何れか1項に記載の方法。
  16. 前記メタデータには、前記オーディオ及び/又はビデオの情報の少なくとも1個のピースタイトルを含むことを特徴とする請求項15に記載の方法。
  17. 質問指紋は、前記複数の間隙を介した時間的位置の各々から、実質的に同じ手法で得られることを特徴とする請求項1乃至請求項16の何れか1項に記載の方法。
  18. 信頼水準は、少なくとも前記質問指紋の前記時間的位置と前記データベースで見つかった前記指紋の潜在的一致の前記時間的位置との間の相対的なタイミング関係の関数であると共に、少なくとも3個の間隙を介した時間的位置を有することを特徴とする請求項2乃至請求項17の何れか1項に記載の方法。
  19. 請求項1乃至請求項18の何れか1項に記載の方法を実施するのに適応した装置。
  20. コンピュータに請求項1乃至請求項18の何れか1項に記載の方法を行なわせるためにコンピュータの読み取り可能な媒体上に記録されたコンピュータプログラム。
JP2010511189A 2007-06-06 2008-06-04 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置 Expired - Fee Related JP5090523B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US93361407P 2007-06-06 2007-06-06
US60/933,614 2007-06-06
PCT/US2008/007054 WO2008150544A1 (en) 2007-06-06 2008-06-04 Improving audio/video fingerprint search accuracy using multiple search combining

Publications (2)

Publication Number Publication Date
JP2010530100A true JP2010530100A (ja) 2010-09-02
JP5090523B2 JP5090523B2 (ja) 2012-12-05

Family

ID=39764983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010511189A Expired - Fee Related JP5090523B2 (ja) 2007-06-06 2008-06-04 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置

Country Status (6)

Country Link
US (1) US8266142B2 (ja)
EP (1) EP2168061A1 (ja)
JP (1) JP5090523B2 (ja)
CN (1) CN101681381B (ja)
TW (1) TWI447601B (ja)
WO (1) WO2008150544A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014025915A (ja) * 2012-07-30 2014-02-06 Nec (China) Co Ltd 占有検出方法および装置

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100215211A1 (en) * 2008-05-21 2010-08-26 Ji Zhang System for Facilitating the Archiving of Video Content
US8611701B2 (en) * 2008-05-21 2013-12-17 Yuvad Technologies Co., Ltd. System for facilitating the search of video content
WO2009140816A1 (en) * 2008-05-21 2009-11-26 Yuvad Technologies Co., Ltd. A method for facilitating the archiving of video content
WO2009140824A1 (en) * 2008-05-22 2009-11-26 Yuvad Technologies Co., Ltd. A system for identifying motion video/audio content
US8548192B2 (en) * 2008-05-22 2013-10-01 Yuvad Technologies Co., Ltd. Method for extracting a fingerprint data from video/audio signals
US20100169911A1 (en) * 2008-05-26 2010-07-01 Ji Zhang System for Automatically Monitoring Viewing Activities of Television Signals
US8195689B2 (en) 2009-06-10 2012-06-05 Zeitera, Llc Media fingerprinting and identification system
US8335786B2 (en) * 2009-05-28 2012-12-18 Zeitera, Llc Multi-media content identification using multi-level content signature correlation and fast similarity search
CN102216952B (zh) * 2008-11-17 2013-06-05 杜比实验室特许公司 通过矩不变量的投影可靠地与媒体内容对应的媒体指纹
US20100138411A1 (en) * 2008-11-30 2010-06-03 Nexidia Inc. Segmented Query Word Spotting
WO2010144671A2 (en) 2009-06-11 2010-12-16 Dolby Laboratories Licensing Corporation Trend analysis in content identification based on fingerprinting
US8644622B2 (en) * 2009-07-30 2014-02-04 Xerox Corporation Compact signature for unordered vector sets with application to image retrieval
JP5440051B2 (ja) * 2009-09-11 2014-03-12 株式会社Jvcケンウッド コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US8677400B2 (en) 2009-09-30 2014-03-18 United Video Properties, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US8428955B2 (en) * 2009-10-13 2013-04-23 Rovi Technologies Corporation Adjusting recorder timing
US20110085781A1 (en) * 2009-10-13 2011-04-14 Rovi Technologies Corporation Content recorder timing alignment
US8682145B2 (en) 2009-12-04 2014-03-25 Tivo Inc. Recording system based on multimedia content fingerprints
US8606293B2 (en) 2010-10-05 2013-12-10 Qualcomm Incorporated Mobile device location estimation using environmental information
US8543562B2 (en) * 2010-11-18 2013-09-24 Sling Media Pvt Ltd Automated searching for solutions to support self-diagnostic operations of web-enabled devices
US8483725B2 (en) 2010-12-03 2013-07-09 Qualcomm Incorporated Method and apparatus for determining location of mobile device
WO2012091936A1 (en) * 2010-12-30 2012-07-05 Dolby Laboratories Licensing Corporation Scene change detection around a set of seed points in media data
CN102622353B (zh) * 2011-01-27 2013-10-16 天脉聚源(北京)传媒科技有限公司 一种固定音频检索方法
US9143571B2 (en) 2011-03-04 2015-09-22 Qualcomm Incorporated Method and apparatus for identifying mobile devices in similar sound environment
US8706499B2 (en) * 2011-08-16 2014-04-22 Facebook, Inc. Periodic ambient waveform analysis for enhanced social functions
US9113202B1 (en) * 2011-09-21 2015-08-18 Google Inc. Inverted client-side fingerprinting and matching
US8433577B2 (en) 2011-09-27 2013-04-30 Google Inc. Detection of creative works on broadcast media
US8892572B2 (en) * 2011-12-30 2014-11-18 Cellco Partnership Video search system and method of use
US8681950B2 (en) 2012-03-28 2014-03-25 Interactive Intelligence, Inc. System and method for fingerprinting datasets
US9202255B2 (en) * 2012-04-18 2015-12-01 Dolby Laboratories Licensing Corporation Identifying multimedia objects based on multimedia fingerprint
EP2670157B1 (en) 2012-06-01 2019-10-02 Koninklijke KPN N.V. Fingerprint-based inter-destination media synchronization
US8959022B2 (en) * 2012-07-03 2015-02-17 Motorola Solutions, Inc. System for media correlation based on latent evidences of audio
CN103021440B (zh) * 2012-11-22 2015-04-22 腾讯科技(深圳)有限公司 一种音频流媒体的跟踪方法及系统
US9529907B2 (en) * 2012-12-31 2016-12-27 Google Inc. Hold back and real time ranking of results in a streaming matching system
US20140280304A1 (en) * 2013-03-15 2014-09-18 Steven D. Scherf Matching versions of a known song to an unknown song
US9659014B1 (en) * 2013-05-01 2017-05-23 Google Inc. Audio and video matching using a hybrid of fingerprinting and content based classification
CN103440330A (zh) * 2013-09-03 2013-12-11 网易(杭州)网络有限公司 一种音乐节目信息获取方法和设备
TWI527025B (zh) 2013-11-11 2016-03-21 財團法人資訊工業策進會 電腦系統、音訊比對方法及其電腦可讀取記錄媒體
GB2523311B (en) * 2014-02-17 2021-07-14 Grass Valley Ltd Method and apparatus for managing audio visual, audio or visual content
CN104991946B (zh) * 2015-07-13 2021-04-13 联想(北京)有限公司 一种信息处理方法、服务器和用户设备
US9836535B2 (en) * 2015-08-25 2017-12-05 TCL Research America Inc. Method and system for content retrieval based on rate-coverage optimization
CN105138886B (zh) * 2015-08-26 2017-03-22 江苏久祥汽车电器集团有限公司 机器人生物体征识别系统
US10606879B1 (en) * 2016-02-29 2020-03-31 Gracenote, Inc. Indexing fingerprints
CN106910494B (zh) 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置
TWI612516B (zh) * 2016-08-25 2018-01-21 財團法人資訊工業策進會 聲紋辨識裝置、聲紋辨識方法及其電腦程式產品
CN107515931B (zh) * 2017-08-28 2023-04-25 华中科技大学 一种基于聚类的重复数据检测方法
US11687801B2 (en) * 2018-04-23 2023-06-27 Qliktech International Ab Knowledge graph data structures and uses thereof
US10832692B1 (en) * 2018-07-30 2020-11-10 Amazon Technologies, Inc. Machine learning system for matching groups of related media files
CN111008301B (zh) * 2019-12-19 2023-08-15 新华智云科技有限公司 一种以图搜视频的方法
CN111489757B (zh) * 2020-03-26 2023-08-18 北京达佳互联信息技术有限公司 音频处理方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004505328A (ja) * 2000-07-31 2004-02-19 シャザム エンターテインメント リミテッド 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法
JP2004536348A (ja) * 2001-07-20 2004-12-02 グレースノート インコーポレイテッド 録音の自動識別
JP2007519986A (ja) * 2003-11-18 2007-07-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 導出されたフィンガープリントのマッチングによるデータオブジェクトのマッチング
JP2007536588A (ja) * 2004-05-10 2007-12-13 エムツーエニー ゲゼルシャフト ミット ベシュレンクター ハフトゥング 情報信号を分析する装置および方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5841888A (en) * 1996-01-23 1998-11-24 Harris Corporation Method for fingerprint indexing and searching
US5715518A (en) * 1996-03-06 1998-02-03 Cellular Technical Services Company, Inc. Adaptive waveform matching for use in transmitter identification
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US7277766B1 (en) * 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
WO2002051063A1 (en) * 2000-12-21 2002-06-27 Digimarc Corporation Methods, apparatus and programs for generating and utilizing content signatures
DE60228202D1 (de) * 2001-02-12 2008-09-25 Gracenote Inc Verfahren zum erzeugen einer identifikations hash vom inhalt einer multimedia datei
US7127106B1 (en) * 2001-10-29 2006-10-24 George Mason Intellectual Properties, Inc. Fingerprinting and recognition of data
US6859804B2 (en) * 2002-06-11 2005-02-22 The Regents Of The University Of California Using histograms to introduce randomization in the generation of ensembles of decision trees
US8055503B2 (en) * 2002-10-18 2011-11-08 Siemens Enterprise Communications, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
US20040153444A1 (en) * 2003-01-30 2004-08-05 Senders Steven L. Technique for effectively providing search results by an information assistance service
US7970644B2 (en) * 2003-02-21 2011-06-28 Accenture Global Services Limited Electronic toll management and vehicle identification
US20060229878A1 (en) * 2003-05-27 2006-10-12 Eric Scheirer Waveform recognition method and apparatus
US20040258280A1 (en) * 2003-06-23 2004-12-23 Canadian Bank Note Company, Ltd. Optical document authentication system
JP2006528327A (ja) 2003-07-10 2006-12-14 アクチボラゲット エス ケイ エフ 鑞接もしくは半田結合部を有する軸受ユニット
DE602004008936T2 (de) * 2003-07-25 2008-06-19 Koninklijke Philips Electronics N.V. Verfahren und einrichtung zur erzeugung und erkennung von fingerabdrücken zur synchronisierung von audio und video
WO2005041109A2 (en) * 2003-10-17 2005-05-06 Nielsen Media Research, Inc. Methods and apparatus for identifiying audio/video content using temporal signal characteristics
FR2863080B1 (fr) 2003-11-27 2006-02-24 Advestigo Procede d'indexation et d'identification de documents multimedias
US7519954B1 (en) * 2004-04-08 2009-04-14 Mcafee, Inc. System and method of operating system identification
US8688248B2 (en) * 2004-04-19 2014-04-01 Shazam Investments Limited Method and system for content sampling and identification
KR20070046846A (ko) * 2004-08-12 2007-05-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 비디오 또는 오디오 데이터 스트림으로부터의 콘텐트 선택
US20060265436A1 (en) * 2005-05-20 2006-11-23 Andrew Edmond Grid network for distribution of files
EP1955458B1 (en) * 2005-11-29 2012-07-11 Google Inc. Social and interactive applications for mass media
US20090006337A1 (en) * 2005-12-30 2009-01-01 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified video signals
US7899625B2 (en) * 2006-07-27 2011-03-01 International Business Machines Corporation Method and system for robust classification strategy for cancer detection from mass spectrometry data
US7979464B2 (en) * 2007-02-27 2011-07-12 Motion Picture Laboratories, Inc. Associating rights to multimedia content
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004505328A (ja) * 2000-07-31 2004-02-19 シャザム エンターテインメント リミテッド 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法
JP2004536348A (ja) * 2001-07-20 2004-12-02 グレースノート インコーポレイテッド 録音の自動識別
JP2007519986A (ja) * 2003-11-18 2007-07-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 導出されたフィンガープリントのマッチングによるデータオブジェクトのマッチング
JP2007536588A (ja) * 2004-05-10 2007-12-13 エムツーエニー ゲゼルシャフト ミット ベシュレンクター ハフトゥング 情報信号を分析する装置および方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014025915A (ja) * 2012-07-30 2014-02-06 Nec (China) Co Ltd 占有検出方法および装置

Also Published As

Publication number Publication date
TWI447601B (zh) 2014-08-01
CN101681381B (zh) 2012-11-07
US20100205174A1 (en) 2010-08-12
JP5090523B2 (ja) 2012-12-05
WO2008150544A1 (en) 2008-12-11
TW200912681A (en) 2009-03-16
EP2168061A1 (en) 2010-03-31
US8266142B2 (en) 2012-09-11
CN101681381A (zh) 2010-03-24

Similar Documents

Publication Publication Date Title
JP5090523B2 (ja) 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置
US10497378B2 (en) Systems and methods for recognizing sound and music signals in high noise and distortion
EP2685450B1 (en) Device and method for recognizing content using audio signals
US11657798B2 (en) Methods and apparatus to segment audio and determine audio segment similarities
Cano et al. A review of algorithms for audio fingerprinting
US10003664B2 (en) Methods and systems for processing a sample of a media stream
US8886635B2 (en) Apparatus and method for recognizing content using audio signal
CN102959624B (zh) 用于音频媒体识别的系统和方法
JP5150266B2 (ja) オーディオ信号において繰り返されるマテリアルの自動識別
US8977067B1 (en) Audio identification using wavelet-based signatures
JP2008504741A (ja) 2つのメディア・セグメントの重なりを特徴付ける方法
US20190130032A1 (en) Audio fingerprint extraction and audio recognition using said fingerprints
US20150310008A1 (en) Clustering and synchronizing multimedia contents
US11907288B2 (en) Audio identification based on data structure
WO2016189307A1 (en) Audio identification method
US10776420B2 (en) Fingerprint clustering for content-based audio recognition
US20040107215A1 (en) Method and apparatus for identifying electronic files
Gao et al. Popular song summarization using chorus section detection from audio signal
CN108205550B (zh) 音频指纹的生成方法及装置
Myung et al. Two‐pass search strategy using accumulated band energy histogram for HMM‐based identification of perceptually identical music
Catalán Quality assessment and enhancement of an industrial-strength audio fingerprinting system
Pham et al. An Efficient Music Identification System Based on PostgreSQL User-Defined Functions
Rajadurai et al. Detection of Copy Right Infringement of Audio in on-Demand Systems using Audio Fingerprinting

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111025

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120912

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees