JP4425126B2 - ロバストかつインバリアントな音声パターンマッチング - Google Patents

ロバストかつインバリアントな音声パターンマッチング Download PDF

Info

Publication number
JP4425126B2
JP4425126B2 JP2004500283A JP2004500283A JP4425126B2 JP 4425126 B2 JP4425126 B2 JP 4425126B2 JP 2004500283 A JP2004500283 A JP 2004500283A JP 2004500283 A JP2004500283 A JP 2004500283A JP 4425126 B2 JP4425126 B2 JP 4425126B2
Authority
JP
Japan
Prior art keywords
fingerprint
value
relative
determined
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004500283A
Other languages
English (en)
Other versions
JP2005524108A (ja
Inventor
ワング、エイブリー・リ−チュン
カルバート、ダニエル
Original Assignee
ランドマーク・デジタル・サービシーズ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ランドマーク・デジタル・サービシーズ・エルエルシー filed Critical ランドマーク・デジタル・サービシーズ・エルエルシー
Publication of JP2005524108A publication Critical patent/JP2005524108A/ja
Application granted granted Critical
Publication of JP4425126B2 publication Critical patent/JP4425126B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/135Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Collating Specific Patterns (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音声ファイルの大型データベース上での音声信号処理に関し、特に、再生速度の変更を含む様々な変換に影響されずに、2つの音声サンプルがマッチするかどうかを迅速かつ正確に決定するための技術に関する。本発明の技術は更に、正確な変換予測を可能とする。
音楽及び他の音声信号を高速かつ正確に自動認識する必要性は、高まる一方である。従来利用可能であった音声認識技術はしばしば、精度に対する速度、すなわち雑音余裕度(noise immunity)を犠牲にしていた。用途によっては、ひどい雑音がある場合には、時間−時間散布図の傾斜を推定するための回帰計算が必要となるが、これは速度と精度の双方について多くの問題と性能低下をもたらしていた。従って、既存の音声認識技術は、著しい再生速度変更がある場合に、例えば通常より速い速度で再生される録音を認識する際、高速かつ正確な認識を行うことが不可能であった。
問題が複雑であることに加え、ラジオ局、クラブ、その他においてDJによって行われる速度変更、ピッチ補正テンポ変更がますます人気を博しているが、目下のところ、再生速度変更及び/またはピッチ補正テンポ変更にもかかわらず高速かつ正確な音声認識を実行することが可能であるようなロバストかつ信頼できる技術はない。
本発明は、2つの音声ファイルの関係を特徴付けるための高速かつインバリアント(不変)な方法を提供することによって、音声認識分野におけるニーズを満たすものである。本発明の方法は、ひどい雑音がある場合であっても正確であり、既存の技術における上記欠点を克服するものである。
本発明のある側面によれば、2つの音声サンプルの関係は、それぞれのサンプルから求められる或るフィンガープリントオブジェクト(fingerprint object)の第1のマッチングによって特徴付けられることができる。各音声サンプルに対して1組のフィンガープリントオブジェクトが作成される。各フィンガープリントオブジェクトは、それぞれの音声サンプル内の特定の位置で生じる。各位置はそれぞれの音声サンプルの内容に基づいて決定され、各フィンガープリントオブジェクトはそれぞれの特定の位置またはその近くでそれぞれの音声サンプルの1若しくは複数の局所的特徴を特徴付ける。一実施例では、各フィンガープリントオブジェクトは、可変要素及び不変要素によって更に特徴付けられる。次にフィンガープリントオブジェクトの各マッチングペアに対して相対値が決定される。そして相対値のヒストグラムが作成される。ヒストグラムにおいて統計学的に著しいピークが見られたら、2つの音声サンプルは、例えば実質的にマッチングするものとして特徴付けられることができる。
本発明の別の側面によれば、上述の技術は、ピークの位置を用いて広域相対値(global relative value)の予測をヒストグラムの軸上に与えることによって更に向上させられることができる。広域相対値は、対象となるピーク付近の近傍を選択し、選択された近傍における相対値の平均を計算することによって絞り込まれることができる。
ヒストグラムのピークから相対再生速度値が決定されるような更に別の実施例では、フィンガープリントオブジェクトの各マッチングペアに対して補正相対タイムオフセット値が計算される。補正相対タイムオフセット値に基づいて別のヒストグラムが作成される。第2のヒストグラムにおいて統計学的に著しいピークが見られたら、2つの音声サンプルの関係は、ピークによって更に特徴付けられ、発明の精度を更に向上させる。
本発明は、音声ファイルの大型データベース上で、高速、ロバスト、インバリアントかつスケーラブルな指標付け及び探索を可能にし、音声パターン認識への適用に特に有用である。ある実施例では、本明細書中に開示された技術は、上記米国特許出願に開示された音声認識システム及び方法を改善し強化する。
2つの音声サンプルファイルを非常に高速かつ効率的に比較する操作は、商業的に成功しそうな音声認識システムを構築する際に不可欠である。本発明のある側面によれば、2つの音声サンプルの関係は、例えば、図1に示されているような、それぞれの音声サンプルのスペクトログラムから求めた或るフィンガープリントオブジェクトの第1のマッチングによって特徴付けられることができる。スペクトログラムは、ウィンドウフレームをスライド計算するときにサンプル2*Kを取ってフーリエ変換をし、それによって各フレームにKの周波数ビン(frequency bin)を作成することによって作成されるような時間−周波数の表示/分析である。分析の時間分解能を向上させるためにフレームはオーバーラップし得る。用いられる特定のパラメータは、処理される音声サンプルの種類によって決まる。好適には、8kHzのサンプリングレート、K=512のフレーム、64サンプルのストライド(stride)を有する離散時間音声ファイルが用いられる。
フィンガープリントオブジェクト
各音声サンプルのスペクトログラムが作成された後、スペクトログラムは局所的特徴に対して、例えば図2に示されているような局所エネルギーピークに対してスキャンされる。マッチング処理は、各音声サンプルに対して対応する局所的特徴から1組のフィンガープリントオブジェクトを抽出することによって開始する。例示的な実施例では、一方の音声サンプルは認識されるべき未知のサウンドサンプルであり、他方の音声サンプルはデータベースに格納された既知の録音である。各フィンガープリントオブジェクトは、それぞれの音声サンプル内の特定の位置で生じる。ある実施例では、各フィンガープリントオブジェクトは、音声ファイル内のタイムオフセットに配置され、そのそれぞれの時間座標付近の音声ファイルに関する記述的情報を含む。つまり、各フィンガープリントオブジェクトに含まれる記述的情報は、それぞれのタイムオフセット付近の音声サンプルに依存して計算される。これは、小さなデータ構造にコード化される。好適には、位置及び記述的情報は、雑音、歪み及び他の変換、例えば再生速度が変動するような条件下であっても概ね再現性のあるような方法で決定される。この場合、各位置はそれぞれの音声サンプルの内容に基づいて決定され、各フィンガープリントオブジェクトはそれぞれの特定の位置またはその付近で、例えば図1に示されているような位置(t1,f1)または(t2,f2)でそれぞれの音声サンプルの1若しくは複数の局所的特徴を特徴付ける。
例示的な実施例では、各フィンガープリントオブジェクトは、その位置、可変要素、及び不変要素によって特徴付けられる。各局所的特徴はスペクトログラムピークであり、各周波数値は対応するスペクトログラムピークの周波数座標から決定される。ピークは、各時間−周波数座標の近くで探索し、近傍より大きな絶対値を有するような点を選択することによって決定される。より具体的には、図2に示されるように、音声サンプル210は、高いエネルギーが示される領域221及び222を有するスペクトログラム表示220に分析される。局所エネルギー領域221及び222に関連する情報は、抽出されてフィンガープリントオブジェクト231、232のリスト230などに要約される。各フィンガープリントオブジェクトは、位置フィールド242と、可変要素252と、不変要素262とを状況に応じて含んでいる。好適には、各選ばれた点がそれを中心とした21×21の単位ブロック内で極大であるように、近傍の選択がなされる。近傍及び点の選択についての更なる考察は、上記米国特許出願を参照されたい。次に、フィンガープリントオブジェクトの各マッチングペアに対して相対値が決定される。ある実施例では、相対値は、それぞれの音声サンプルのパラメトリック値の対数の差または商である。次に相対値のヒストグラムが作成される。ヒストグラムにおいて統計学的に著しいピークが見つかったら、2つの音声サンプルは実質的にマッチングするものとして特徴付けられることができる。
図3を参照すると、フィンガープリントオブジェクトリスト310及び320は、それぞれ音声サンプル1及び2に対して上述のように準備される。各リストからのそれぞれのフィンガープリントオブジェクト311及び322が比較される。マッチングフィンガープリントオブジェクトはステップ351で例えばそれぞれの不変要素Inv及びInv’を用いて一対にされ、ステップ352でリストに入力される。ステップ353で各マッチした対に対して相対値が計算される。次に、ステップ354では、相対値のヒストグラムが作成される。ステップ355で統計学的に著しいピークに対してヒストグラムが探索される。ステップ356で何も見つからなければ、音声サンプル1及び2はマッチしない(例えば図4−Aのヒストグラム410)。或いは、統計学的に著しいピークが検出されたら、音声サンプル1及び2はマッチする(例えば図4−Bのヒストグラム420)。
上記技術は、ステップ361に示されているように、ピークの位置を用いて広域相対値Rの予測をヒストグラムの軸上に与えることによって更に向上しうる。ある実施例では、先ず対象となるピーク付近で近傍を選択することによってRを絞り込むことができる。図1では、これは特定の位置(t1,f1)付近において対象エリア110として示されている。次に、選択された近傍における相対値の平均が計算される。平均は、選択された近傍における各相対値で点の数を用いて計算された加重平均であってよい。ある実施例では、各マッチした対に対する相対タイムオフセット値t’−R*tを作成するために、Rは更にリファインされてよい。ステップ362〜364は、これらの相対タイムオフセット値によって、第2のヒストグラムが作成され、補正されたタイムオフセットの計算が可能になることを示している。
フィンガープリントオブジェクトを抽出するために、他の種類の時間−周波数分析、例えばWigner−Ville分布またはウェーブレットが実施されてもよい。また、スペクトログラムピークの代わりに、他の特徴例えばケプストラム係数を用いることができる。更に、スペクトログラムピークによって与えられる時間−周波数座標のより高精度な周波数及び時間予測を得るために超分解能技術を用いることができる。例えば、周波数ビンでの放物線補間を用いて周波数分解能を増加させることができる。関連する事例的な教示は、「PARSHL: An Analysis/Synthesis Program for Non-Harmonic Sounds Based on a Sinusoidal Representation」Julius O. Smith III ならびにXavier Serra、 International Computer Music Conference (ICMC-87,東京)会報、Computer Music Association, 1987 、及び「Modern Spectral Estimation: Theory and Application」Steven M. Kay (1988年1月) Prentice Hall に見ることができるが、これらはここに引用したことをもって本明細書の一部となす。
マッチング
マッチング操作では、それぞれのフィンガープリントオブジェクトによって2つの音声サンプルが比較される。図3に関連して前記したように、各々が実質的にマッチング要素を含むような複数のフィンガープリントオブジェクトのマッチングペアが作成される。高速探索を可能にするためにデータを準備する1つの方法は、フィンガープリントオブジェクトを数値トークン、例えば32ビットの符号のない整数にコード化し、数値トークンを並び替え(ソーティング)及び探索のためのキーとして用いることである。効率的なデータ操作のための技術は当該分野で公知であり、例えば、「Art of Computer Programming, Volume 3: Sorting and Searching (2nd Edition)」Donald Ervin Knuth (1998年4月) Addison-Wesley が挙げられるが、ここに引用したことを以って本明細書の一部とする。
例示的な実施例では、各フィンガープリントオブジェクトは、不変要素及び可変要素を含む。不変要素はスペクトルのピークに対応する周波数値の比を指し、同様にスペクトルのピーク間のデルタタイム(即ち時間差)値の比は時間伸縮下で不変である。例えば図5−A及び図5−Bを参照すると、音声サンプルのスペクトログラムが座標(t1,f1)、(t2,f2)、(t3,f3)を有する局所スペクトルのピークを有するならば、2つの点に対する不変量はf2/f1、即ちf2’/f1’=f2/f1である。3つの点に対する更なる不変量は、f3/f1、(t3−tl)/(t2−tl)、または(t3−t2)/(t2−t1)、または点を順序変更すること及び/またはこれらの量またはこれらの量の組合せを計算することによって作成されるその他の組合せによって与えられる。例えば、f2/f3はf2/f1をf3/f1で除することによって得ることができる。更に、音声サンプルが線形に伸縮したら、例えば単により速く再生されていたら、周波数及びデルタタイムは逆数の関係であり、f1*(t2−t1)などの量も不変である。これらの量の対数は、加算及び減算を乗算及び除算に置き換えて用いられることができる。周波数比及び時間伸縮比の両方を求めるために、これらが無関係であると仮定するならば、周波数可変量と時間可変量の両方を有する必要がある。
マッチングを効率的にするために、不変部を用いてフィンガープリントをインデックスし、近似値または正確な値を用いて探索する。近似照合を用いた探索は、歪み及び丸め誤差に対して余分なロバスト性を許容するが、不変要素上での探索が多次元範囲探索になるとより多くの費用が発生する。好適実施例においては、それぞれのフィンガープリントオブジェクトの不変要素は正確にマッチすることが要求され、それゆえ、雑音の存在下で認識の感度に対して少ないトレードオフを有するような非常に高速なシステムができる。重要なことは、対応する音声サンプルにおける少数のフィンガープリントオブジェクトしか正しくマッチしないとしても、この方法はうまく機能するということである。ヒストグラムピーク検出過程では、正しくマッチされかつ残存しているのが僅か2%のフィンガープリントオブジェクトのみであったとしても、ピークは統計学的に有効であり得る。
可変要素は、不変要素に加えてまたはそれに代えて、マッチングフィンガープリントオブジェクトの数を絞り込むためにも用いられることができる。例えば、第1の音声サンプルからの可変要素Vが、第2の音声サンプルからの対応するV’と±20%以内でマッチすることを求めることができる。その場合、上部(例えば最上位のビット)が不変要素を含み、下部(例えば最下位のビット)が可変要素を含むように数値トークンの表示を形成することができる。このとき、近似照合のための探索は、可変要素の最低値及び最高値を用いて構成されたトークンに対する幅探索になる。可変要素を用いて探索が行われるのであれば、マッチングにおける不変要素の使用は、厳密には必ずしも必要ない。しかし、マッチング処理において不変要素を用いることが推奨される。というのも、不変要素は論理的に誤ったマッチの数を減らすのに役立ち、従ってヒストグラム化処理を合理化して処理オーバヘッドの量を減らすからである。
他方で、新規な可変要素それ自体は、2つのフィンガープリントオブジェクト間のマッチング基準の一部であってもよいし、そうでなくてもよい。可変要素は、オリジナル録音からサンプル録音への単純なパラメトリック変換によって変形され得るような値を表す。例えば、周波数可変要素、例えばf1、f2、f3と、時間可変要素、例えば(t2,t1)、(t3,t1)または(t3,t2)は、再生速度の変化に対する可変要素として選択されてよい。第2の音声サンプル、例えばデータベースからのマッチしている演奏が、第1の音声サンプルに対して上記されたのと同じ点に対応するような座標(t1’,f1’)、(t2’,f2’)、(t3’,f3’)を有するスペクトログラムを有すると考える。このとき、周波数要素f1’は、スケール値f1’=R*f1を有することができる。ここで、Rは、第1のサンプル録音が第2のサンプル録音と比較してどれだけ速いまたは遅いかを説明する線形伸縮パラメータである。2つのマッチング音声サンプルそれぞれからの可変要素は、2つの周波数値の比R=f1’/f1を計算することによって巨視的パラメータを説明する広域ストレッチ値(global stretch value)の予測を計算するために用いられることができる。これは、2つのマッチした時間−周波数点の相対ピッチ比を与える。例えば、R=2は、第1の音声サンプルが第2の音声サンプルのピッチ(周波数)の半分を有することを意味する。別の可能性は、R=(t2’−t1’)/(t2−t1)を用いることである。この場合、相対値Rは相対再生速度比であり、即ちR=2は第1の音声サンプルが第2の音声サンプルの2倍速で再生していることを意味する。
=1/R即ちf’/f=(t2−t1)/(t2’−t1’)であれば、そのような音声サンプルに対する逆数の時間−周波数関係の理由から、2つの音声サンプルは線形時間伸縮によって関係付けられる。この場合、対応する可変周波数要素を用いて相対周波数比Rの予測を行い、かさねて相対再生速度のRの予測を行い、その後比較して再生関係が線形または非線形かどうかを検出するべく、先ず本明細書中に開示されているヒストグラム化方法を用いることができる。
一般に、第1及び第2の音声サンプルから対応する可変要素を用いてマッチしたフィンガープリントオブジェクトから相対値が計算される。相対値は、周波数またはデルタタイムの単純な比であるか、第1及び第2の音声サンプル間のマッピングについて説明したときに用いた広域パラメータの予測を結果的に生じさせるような別の関数であってよい。しかし一般的には、任意の二価関数(2-input function)F()、例えばR=F(v1,v1’)を用いることができる。ここで、v1及びv1’はそれぞれの可変量である。v1及びv1’を測定する際の誤差が小さければ出力Rにおける誤差が小さくなるように、F()は連続関数であれば最良である。
ヒストグラム化
本明細書中で述べられているように、フィンガープリントオブジェクトのマッチングペアのリストから計算された1組の相対値に対してヒストグラムが作成される。ヒストグラムはそのときのピークに対して探索される。ヒストグラムにおける統計学的に著しいピークの存在は、可能なマッチが生じたことを示す。この方法は特に、タイムオフセットの差、例えば(t1’−t1)に代えて、相対値のヒストグラムにおけるクラスタを探索する。本発明の原理によれば、ヒストグラムはカウント値のビン(bin)を形成するのに役立つ。各ビンは、ヒストグラムの独立軸に沿って特定の値に対応する。本発明のために、ヒストグラムの作成は、相対値のリストを単純にソートすることによってなし得る。従って、値のリストのヒストグラムのピークを検出する高速かつ効率的な方法は、リストを昇順にソートし、次に、同じまたは類似の値を有する項が最も集中している箇所をスキャンすることである。
統計学的な著しさ
本明細書中で述べているように、全ての歪みを切り抜けて残存しかつ正しくマッチされるのが僅か2%のフィンガープリントオブジェクトのみであったとしても、本発明を用いて、2つの音声サンプルは正しくマッチされることができる。これは、2つの音声サンプルの比較をスコアリングすることにより可能である。具体的には、ヒストグラムのピーク付近で近傍が選択され、近傍に分類される全てのマッチングペアがカウントされ、スコアを与える。更に、ピークの中心からより離れたペアの寄与を減じる(割り引く)ような重み付けスコアが計算されることもある。
カットオフ基準を予測する1つの方法は、不一致トラックのスコアの確率分布が指数のテイル(exponential tail)内にあると仮定することである。モデルは不一致トラックのスコアの実測分布に適用される。次にNトラックのデータベース上で最高スコアの累積確率分布(例えば1つの不一致スコアの累積確率分布のN乗として扱われる)が計算される。確率曲線が得られ、誤検出(false positive)の最大レベルが選択されたら(例えば0.5%)、統計学的に著しい数のマッチングペアをヒストグラムピークが有するかどうかを決定するために数値閾値が選択及び使用されることができる。
超高精度予測
統計学的に著しいヒストグラムピークが見つかったら、広域相対値の高分解能「超高精度(hyperfine)」予測(例えば相対再生速度)が計算されることができる。これは、例えばピークヒストグラムビンの中央に位置する約3または5ビン幅の間隔を含むピーク付近の近傍を選択し、かつ近傍における相対値の平均を計算することによって達成される。この技術を用いて、0.05%以内の精度の相対再生速度を見つけることができる。本明細書中で開示されているオフセット(相対位置)導出を用いて、1ミリ秒精度よりよい精度で広域タイムオフセットを予測することができるが、これは上述のスペクトログラムフレームの時間分解能より高精度である。
ロバスト回帰
上記米国特許出願において考察されているように、サンプルが実際にマッチした場合には、図6−Aに示されるように、マッチングサンプルが、互いにプロットされたマッチングフィンガープリントオブジェクトの対応時間座標(t’,t)を有する散布図にて、斜線が示される。問題はリグレッサーの方程式をいかに見つけるかであるが、これは多くの雑音の存在下で線の傾き及びオフセットによって決定される。傾きは相対再生速度を示し、オフセットは1つの音声サンプルの始めから第2の音声サンプルの始めまでの相対オフセットである。最小2乗近似などの従来の回帰技術が利用可能であり、例えば、William H. Press、Brian P. Flannery、Saul A. Teukolsky、及びWilliam T. Vetterling による「Numerical Recipes in C: The Art of Scientific Computing (2nd Edition)」(January 1993), Cambridge University Pressを参照されたい。尚、この文献は、ここに引用したことを以って本明細書の一部となす。残念なことに、これらの従来技術には、1つの大きなアウトライアー(異常な値)が予測された回帰パラメータを大幅に非対称にし得るような、感度のバランスの悪さがある。実際には、点は多くの場合アウトライアーに左右され、正しい斜めの線を検出することを困難にしている。アウトライアーの問題を克服して雑音の存在下で点の間に線形関係を見つけるべくロバスト回帰のための他の技術を用いることができるが、これらの技術は緩慢で反復的な傾向にあり、局所的な最適条件で行き詰まる可能性がある。未知の線形リグレッサーを見つけるための文献には多種多様の技術が存在する。MATLABツールキットは、マスワークス社(The Mathworks)から入手可能であり、引用することを以って本明細書の一部となすが、回帰分析のための種々のソフトウェアルーチンを含む。
本発明は、たとえマッチの傾きが1に等しくなくても(例えば図6−B)、時間−時間散布図における回帰直線を見つける問題を解決するような相対再生速度(または同等に、線形再生関係の場合には相対ピッチの逆数)を予測する発明方法を提供する。局所的相対再生速度のヒストグラムの使用は、本明細書中に開示されているように、以前に考慮されなかった情報を活用し、回帰問題を迅速かつ効率的に解決する思いもよらぬ利点を与える。
オフセットを見つけるために、対応する時間点が、
オフセット=t1’−R*t1
の関係を有すると仮定する。ここで、Rは、前述のようにして得られる。これは、補正されたタイムオフセットであり、2つの音声サンプル間の時間座標系をノーマライズ(正規化)するのに役立つ。これは、図7−Aでは傾きが未知な斜線、図7−Cでは垂直をなすような時間−時間散布図上での横ずれ変換としても見られる。図7−Bのヒストグラム720は、広域相対再生速度比Rを示す累積された相対再生速度比のピークを示す。新たな相対値はこのときオフセット公式によって与えられ、図7−Dに示されるような新たなヒストグラム740が作成される。新たなヒストグラム740のピークは、広域オフセットの予測を与えるものであるが、上記のようにピークの近傍において値の平均を用いることによって峻鋭にできる。
要約すれば、第1のヒストグラム化段階は相対再生速度を予測する方法を与え、しかもマッチが存在するかどうかを決定する。第2のヒストグラム化段階は、候補マッチング音声が、一時的に整列されてもいるようなかなりの数のフィンガープリントオブジェクトを有することを保証する。第2のヒストグラム化段階はまた、第2の独立スクリーニング基準として働き、誤検出の確率を下げるのに役立つので、2つの音声サンプルがマッチするかどうかを決定するためのより強い基準を提供する。第2のヒストグラム化段階は第1のヒストグラムに統計学的に著しいピークがある場合にのみ状況に応じて実施されることができ、従って計算資源及び労力を節約する。第2のヒストグラムは第1のヒストグラムピークに対応するマッチングペアのみを用いて作成されることができるが、リストにおけるフィンガープリントオブジェクトのマッチングペア全てに対して第2のヒストグラムを計算する代わりに、例えば計算の乱雑さを低減するために、更なる最適化を状況に応じて行ってもよい。
複数の録音の同期
本発明は、非同期音声録音のキュー(cueing)及び時間正規化のために実施され得る。例えば、DATレコーダとカセットレコーダが僅かに異なる位置または環境で異なるマイクロホンを用いて独立して作動していると考える。後でそれぞれのレコーダからの2つの録音を1つのミックスに統合することが望ましいならば、タイムオフセットを得るために本明細書中で述べられたロバスト回帰技術を用いて2つのトラックを同期してもよい。従って、非同期レコーダが僅かに異なる速度で作動しても、相対速度は高精度で決定されることができ、1つの録音が別の録音に関連して補正されることが可能になる。これは、録音の1つが破損し、別の源から補充される必要があることがわかったときに特に有用である。本明細書中で述べられているような時間正規化及び同期は、従って、トランスペアレントなミキシングを可能にする。
データベース探索
比較方法は非常に高速なので、音声サンプルの大型データベースをフィンガープリントオブジェクトのそれぞれのリストへ前処理することが可能である。当業者であれば理解し得るように、それゆえに、未知の音声サンプルは現在利用可能なデータ処理技術を用い、フィンガープリントオブジェクト各々のリストへと前処理されることができる。上述のマッチング、ヒストグラム化、及びピーク検出技術は、このときマッチを見つけるためにデータベース内の前処理されたフィンガープリントオブジェクトを用いて実行可能である。
本発明及びその利点について詳細に述べてきたが、本発明はここで開示した内容に限定されるものではないということを理解されたい。特に、開示された図面及び説明は本発明に関連する技術を説明し、本発明の例を示し、本発明の使用例を与えるが、これによって本発明を限定するものではない。公知の方法、技術またはシステムは、本発明の原理を不明瞭にすることを避けるために、詳細を与えることなく考察されることができる。当業者であれば理解し得るように、本発明は、本発明の原理及び精神から逸脱することなく、実施、変更またはまたは別の方法で改変されることができる。例えば、本明細書中で述べられているような方法、技術及び過程は、コンピュータ読取り可能媒体において具現化されたコンピュータ実行可能命令の形式で実施されるか或いは別の方法で実現されてもよい。或いは、本発明は、クライアント及びサーバを有するコンピュータシステムにおいて実施されてもよい。クライアントは第1及び第2の音声サンプルの関係の特徴付けに必要な情報、例えばフィンガープリントオブジェクトをサーバに送り、サーバでは特徴付けが実行される。従って、本発明の範囲は、特許請求の範囲及びそれと法的に同等のものによって画定されるべきである。
分析された音声サンプルのスペクトログラム表示である。 本発明の側面に基づき音声サンプルから作成されるフィンガープリントオブジェクトを示す例示的な図である。 本発明の原理に基づき比較される2つの音声サンプルを示す図である。 統計学的に著しいピークを有しない例示的なヒストグラムである。 統計学的に著しいピークを有する例示的なヒストグラムである。 再生速度の変化に応じた、時間−周波数点の動きを示す図である。 再生速度の変化に応じた、時間−周波数点の動きを示す図である。 照合ハッシュトークンの第1の音声サンプル(サンプル音声)及び第2の音声サンプル(データベース音声)における対応する時間を示す図である。傾きは、サンプルサウンドの再生速度がデータベースサウンドと同じであるときの傾きに等しい。 照合ハッシュトークンの第1の音声サンプル(サンプル音声)及び第2の音声サンプル(データベース音声)における対応する時間を示す図である。傾きは、サンプルサウンドの再生速度がデータベースサウンドと同じであるときの傾きに等しい。 本発明の高速かつ効率的な傾き決定及びヒストグラム化技術を示す図である。 本発明の高速かつ効率的な傾き決定及びヒストグラム化技術を示す図である。 本発明の高速かつ効率的な傾き決定及びヒストグラム化技術を示す図である。 本発明の高速かつ効率的な傾き決定及びヒストグラム化技術を示す図である。

Claims (16)

  1. 第1及び第2の音声サンプルの関係を特徴付ける方法であって、
    前記第1の音声サンプルに対して、各フィンガープリントオブジェクトが前記第1の音声サンプル内のそれぞれの位置で生じ、前記それぞれの位置が第1の音声サンプルの内容に基づいて決定され、各フィンガープリントオブジェクトが各それぞれの位置またはその付近で前記第1の音声サンプルの1若しくは複数の特徴を特徴付けるような、第1の組のフィンガープリントオブジェクトを作成する過程と、
    第2の音声サンプルに対して、各フィンガープリントオブジェクトが前記第2の音声サンプル内のそれぞれの位置で生じ、前記それぞれの位置が前記第2の音声サンプルの内容に基づいて決定され、各フィンガープリントオブジェクトが各それぞれの位置またはその付近で前記第2の音声サンプルの1若しくは複数の特徴を特徴付けるような、第2の組のフィンガープリントオブジェクトを作成する過程と、
    前記第1の音声サンプルからの前記第1のフィンガープリントオブジェクトを、前記第1のフィンガープリントオブジェクトに実質的に類似した前記第2の音声サンプルからの前記第2のフィンガープリントオブジェクトに照合することによりフィンガープリントオブジェクトをペアにする過程であって、各フィンガープリントオブジェクトは1つの位置と、不変要素と、可変要素とを有し、フィンガープリントオブジェクトの各マッチングペアにおける前記第1及び第2のフィンガープリントオブジェクトは、マッチする不変要素を有する、該過程と、
    前記ペアにする過程に基づき、複数のフィンガープリントオブジェクトのマッチングペアのリストを作成する過程と、
    前記不変要素を用いて、前記フィンガープリントオブジェクトの各マッチングペアに対して相対値を決定する過程と、
    前記相対値のヒストグラムを作成する過程と、
    前記ヒストグラムにおいて、前記第1及び第2の音声サンプルの前記関係を特徴付けるような統計学的に有意のピークを探索する過程であって、前記第1及び第2の音声サンプルの前記関係が時間伸縮比を含む、該過程とを含むことを特徴とする方法。
  2. 統計学的に有意のピークが発見された場合、前記第1及び第2の音声サンプルの前記関係が実質的にマッチングするものとして特徴付けられることを特徴とする請求項1に記載の方法。
  3. 前記第1及び第2の音声サンプルの前記関係を更に特徴付けるような広域相対値を、前記ヒストグラムの軸上に前記ピーク位置を用いて予測する過程を更に含むことを特徴とする請求項1または2に記載の方法。
  4. 前記広域相対値の超高精度予測を決定する過程を更に含み、前記決定する過程が、
    前記ピーク付近で近傍を選択する過程と、
    前記近傍における前記相対値の平均を計算する過程とを含むことを特徴とする請求項3に記載の方法。
  5. 前記不変要素が、
    (i)第1の周波数値と第2の周波数値との比であって、各周波数値が各フィンガープリントオブジェクトの前記それぞれの位置付近で第1及び第2の局所的特徴からそれぞれ決定されるような前記比と、
    (ii)周波数値とデルタタイム値との積であって、前記周波数値が第1の局所的特徴から決定され、前記デルタタイム値が各フィンガープリントオブジェクトの前記それぞれの位置付近で前記第1の局所的特徴と第2の局所的特徴の間で決定されるような前記積と、
    (iii)第1のデルタタイム値と第2のデルタタイム値との比であって、前記第1のデルタタイム値が第1及び第2の局所的特徴から決定され、前記第2のデルタタイム値が前記第1及び第3の局所的特徴から決定され、各局所的特徴が各フィンガープリントオブジェクトの前記それぞれの位置付近にあるような前記比のうちの少なくとも1つを用いて作成されることを特徴とする請求項に記載の方法。
  6. 各局所的特徴がスペクトログラムピークであり、各周波数値が、対応するスペクトログラムピークの周波数座標から決定されることを特徴とする請求項に記載の方法。
  7. フィンガープリントオブジェクトのマッチングペアの前記相対値が前記第1及び第2のフィンガープリントオブジェクトのそれぞれの周波数値の比として特徴付けられ、かつ、前記第1及び第2の音声サンプルの前記関係を特徴付けるヒストグラムにおける前記ピークが、相対ピッチとして、または線形伸縮の場合には相対再生速度として特徴付けられるように、前記可変要素が、各フィンガープリントオブジェクトの前記それぞれの位置付近で局所的特徴から決定される周波数値であることを特徴とする請求項に記載の方法。
  8. それぞれの周波数値の前記比が、対数の除算または差のいずれかとして特徴付けられることを特徴とする請求項に記載の方法。
  9. 各局所的特徴がスペクトログラムピークであり、各周波数値が、対応するスペクトログラムピークの周波数座標から決定されることを特徴とする請求項に記載の方法。
  10. フィンガープリントオブジェクトのマッチングペアの前記相対値がそれぞれの可変デルタタイム値の比として特徴付けられ、かつ、前記第1及び第2の音声サンプルの前記関係を特徴付けるヒストグラムにおける前記ピークが相対再生速度として、または線形伸縮の場合には相対ピッチとして特徴付けられるように、前記可変要素が、各フィンガープリントオブジェクトの前記それぞれの位置付近で第1及び第2の局所的特徴から決定されるデルタタイム値であることを特徴とする請求項に記載の方法。
  11. それぞれの可変デルタタイム値の前記比が、対数の除算または差のいずれかとして特徴付けられることを特徴とする請求項10に記載の方法。
  12. 各局所的特徴がスペクトログラムピークであり、各周波数値が対応するスペクトログラムピークの周波数座標から決定されることを特徴とする請求項10に記載の方法。
  13. 各可変要素が各フィンガープリントオブジェクトの前記それぞれの位置付近で局所的特徴から決定される周波数値であるような前記それぞれの可変要素を用いて前記第1及び第2の音声サンプルに対する相対ピッチを決定する過程と、
    各可変要素が各フィンガープリントオブジェクトの前記それぞれの位置付近で第1及び第2の局所的特徴から決定されるデルタタイム値であるような前記それぞれの可変要素を用いて前記第1及び第2の音声サンプルに対する相対再生速度を決定する過程と、
    前記第1及び第2の音声サンプルの前記関係が非線形として特徴付けられる場合に、前記相対ピッチと前記相対再生速度の逆数とが実質的に異なるかどうか検出する過程とを更に含むことを特徴とする請求項に記載の方法。
  14. 前記相対値のヒストグラムの前記ピークから決定される相対再生速度値をRとするとき、
    前記第1及び第2のフィンガープリントオブジェクトに関連する経時的な位置をt及びt’とするとき、前記リストにおけるフィンガープリントオブジェクトの各マッチングペアに対して、補正相対タイムオフセット値t−R*t’を決定する過程と、
    前記補正相対タイムオフセット値の第2のヒストグラムを作成する過程と、
    前記補正相対タイムオフセット値の前記第2のヒストグラムにおいて、前記第1及び第2の音声サンプルの前記関係を特徴付けるような統計学的に有意のピークを探索する過程とを更に含むことを特徴とする請求項1に記載の方法。
  15. 請求項1乃至14のいずれか1つに記載された方法をコンピュータに実行させるためのコンピュータプログラ
  16. 請求項1乃至14のいずれか1つに記載された方法を実行するためのコンピュータシステムであって、前記コンピュータシステムが、
    前記方法の各過程をコンピュータに実行させるためのコンピュータプログラムを含み、それに基づいて当該各過程を実行するサーバと、
    前記第1及び第2の音声サンプルの前記関係の特徴付けに必要な情報を、前記サーバに送るためのクライアントを含むことを特徴とするコンピュータシステム。
JP2004500283A 2002-04-25 2003-04-18 ロバストかつインバリアントな音声パターンマッチング Expired - Fee Related JP4425126B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US37605502P 2002-04-25 2002-04-25
PCT/US2003/012126 WO2003091990A1 (en) 2002-04-25 2003-04-18 Robust and invariant audio pattern matching

Publications (2)

Publication Number Publication Date
JP2005524108A JP2005524108A (ja) 2005-08-11
JP4425126B2 true JP4425126B2 (ja) 2010-03-03

Family

ID=29270756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004500283A Expired - Fee Related JP4425126B2 (ja) 2002-04-25 2003-04-18 ロバストかつインバリアントな音声パターンマッチング

Country Status (16)

Country Link
US (1) US7627477B2 (ja)
EP (1) EP1504445B1 (ja)
JP (1) JP4425126B2 (ja)
KR (1) KR100820385B1 (ja)
CN (1) CN1315110C (ja)
AT (1) ATE405924T1 (ja)
AU (1) AU2003230993A1 (ja)
BR (1) BR0309598A (ja)
CA (1) CA2483104C (ja)
DE (1) DE60323086D1 (ja)
DK (1) DK1504445T3 (ja)
ES (1) ES2312772T3 (ja)
HK (1) HK1073382A1 (ja)
PT (1) PT1504445E (ja)
TW (1) TWI269196B (ja)
WO (1) WO2003091990A1 (ja)

Families Citing this family (284)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6834308B1 (en) 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7853664B1 (en) * 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
US7562012B1 (en) 2000-11-03 2009-07-14 Audible Magic Corporation Method and apparatus for creating a unique audio signature
US7363278B2 (en) 2001-04-05 2008-04-22 Audible Magic Corporation Copyright detection and protection system and method
US7529659B2 (en) 2005-09-28 2009-05-05 Audible Magic Corporation Method and apparatus for identifying an unknown work
US7877438B2 (en) 2001-07-20 2011-01-25 Audible Magic Corporation Method and apparatus for identifying new media content
US8972481B2 (en) 2001-07-20 2015-03-03 Audible Magic, Inc. Playlist generation method and apparatus
US7239981B2 (en) 2002-07-26 2007-07-03 Arbitron Inc. Systems and methods for gathering audience measurement data
US8959016B2 (en) 2002-09-27 2015-02-17 The Nielsen Company (Us), Llc Activating functions in processing devices using start codes embedded in audio
US9711153B2 (en) 2002-09-27 2017-07-18 The Nielsen Company (Us), Llc Activating functions in processing devices using encoded audio and detecting audio signatures
MXPA05007001A (es) 2002-12-27 2005-11-23 Nielsen Media Res Inc Metodos y aparatos para transcodificar metadatos.
US8332326B2 (en) 2003-02-01 2012-12-11 Audible Magic Corporation Method and apparatus to identify a work received by a processing system
CN1820511A (zh) 2003-07-11 2006-08-16 皇家飞利浦电子股份有限公司 用于生成并探测多媒体信号中起到触发标记作用的指纹的方法和设备
DE602004008936T2 (de) 2003-07-25 2008-06-19 Koninklijke Philips Electronics N.V. Verfahren und einrichtung zur erzeugung und erkennung von fingerabdrücken zur synchronisierung von audio und video
US9098681B2 (en) 2003-11-03 2015-08-04 James W. Wieder Adaptive personalized playback or presentation using cumulative time
US9053299B2 (en) 2003-11-03 2015-06-09 James W. Wieder Adaptive personalized playback or presentation using rating
US8554681B1 (en) * 2003-11-03 2013-10-08 James W. Wieder Providing “identified” compositions and digital-works
US8396800B1 (en) 2003-11-03 2013-03-12 James W. Wieder Adaptive personalized music and entertainment
US7884274B1 (en) 2003-11-03 2011-02-08 Wieder James W Adaptive personalized music and entertainment
US11165999B1 (en) 2003-11-03 2021-11-02 Synergyze Technologies Llc Identifying and providing compositions and digital-works
US9053181B2 (en) 2003-11-03 2015-06-09 James W. Wieder Adaptive personalized playback or presentation using count
US20150128039A1 (en) 2003-11-03 2015-05-07 James W. Wieder Newness Control of a Personalized Music and/or Entertainment Sequence
US8001612B1 (en) 2003-11-03 2011-08-16 Wieder James W Distributing digital-works and usage-rights to user-devices
ATE387798T1 (de) * 2003-11-27 2008-03-15 Advestigo Abfangsystem von multimediadokumenten
EP2408126A1 (en) 2004-02-19 2012-01-18 Landmark Digital Services LLC Method and apparatus for identification of broadcast source
EP2464107A1 (en) 2004-04-19 2012-06-13 Shazam Investments Limited Method and system for content sampling and identification
US20050267750A1 (en) 2004-05-27 2005-12-01 Anonymous Media, Llc Media usage monitoring and measurement system and method
US20150051967A1 (en) 2004-05-27 2015-02-19 Anonymous Media Research, Llc Media usage monitoring and measurment system and method
WO2006012241A2 (en) * 2004-06-24 2006-02-02 Landmark Digital Services Llc Method of characterizing the overlap of two media segments
US8130746B2 (en) 2004-07-28 2012-03-06 Audible Magic Corporation System for distributing decoy content in a peer to peer network
US7623823B2 (en) 2004-08-31 2009-11-24 Integrated Media Measurement, Inc. Detecting and measuring exposure to media content items
DE102004046746B4 (de) * 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
CA2595634C (en) 2005-02-08 2014-12-30 Landmark Digital Services Llc Automatic identification of repeated material in audio signals
DE102005014477A1 (de) * 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
US20070016918A1 (en) * 2005-05-20 2007-01-18 Alcorn Allan E Detecting and tracking advertisements
US10607355B2 (en) 2005-10-26 2020-03-31 Cortica, Ltd. Method and system for determining the dimensions of an object shown in a multimedia content item
US10360253B2 (en) 2005-10-26 2019-07-23 Cortica, Ltd. Systems and methods for generation of searchable structures respective of multimedia data content
US9953032B2 (en) 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
US8266185B2 (en) * 2005-10-26 2012-09-11 Cortica Ltd. System and methods thereof for generation of searchable structures respective of multimedia data content
US9087049B2 (en) 2005-10-26 2015-07-21 Cortica, Ltd. System and method for context translation of natural language
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US11386139B2 (en) 2005-10-26 2022-07-12 Cortica Ltd. System and method for generating analytics for entities depicted in multimedia content
US11019161B2 (en) 2005-10-26 2021-05-25 Cortica, Ltd. System and method for profiling users interest based on multimedia content analysis
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US9489431B2 (en) 2005-10-26 2016-11-08 Cortica, Ltd. System and method for distributed search-by-content
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US9396435B2 (en) 2005-10-26 2016-07-19 Cortica, Ltd. System and method for identification of deviations from periodic behavior patterns in multimedia content
US9256668B2 (en) 2005-10-26 2016-02-09 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US9466068B2 (en) 2005-10-26 2016-10-11 Cortica, Ltd. System and method for determining a pupillary response to a multimedia data element
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US9218606B2 (en) 2005-10-26 2015-12-22 Cortica, Ltd. System and method for brand monitoring and trend analysis based on deep-content-classification
US9235557B2 (en) 2005-10-26 2016-01-12 Cortica, Ltd. System and method thereof for dynamically associating a link to an information resource with a multimedia content displayed in a web-page
US9191626B2 (en) 2005-10-26 2015-11-17 Cortica, Ltd. System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
US9558449B2 (en) 2005-10-26 2017-01-31 Cortica, Ltd. System and method for identifying a target area in a multimedia content element
US9529984B2 (en) 2005-10-26 2016-12-27 Cortica, Ltd. System and method for verification of user identification based on multimedia content elements
IL185414A0 (en) * 2005-10-26 2008-01-06 Igal Raichelgauz Large-scale matching system and method for multimedia deep-content-classification
US9646005B2 (en) 2005-10-26 2017-05-09 Cortica, Ltd. System and method for creating a database of multimedia content elements assigned to users
US9330189B2 (en) 2005-10-26 2016-05-03 Cortica, Ltd. System and method for capturing a multimedia content item by a mobile device and matching sequentially relevant content to the multimedia content item
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US9286623B2 (en) 2005-10-26 2016-03-15 Cortica, Ltd. Method for determining an area within a multimedia content element over which an advertisement can be displayed
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US10387914B2 (en) 2005-10-26 2019-08-20 Cortica, Ltd. Method for identification of multimedia content elements and adding advertising content respective thereof
US9384196B2 (en) 2005-10-26 2016-07-05 Cortica, Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US10949773B2 (en) 2005-10-26 2021-03-16 Cortica, Ltd. System and methods thereof for recommending tags for multimedia content elements based on context
US9639532B2 (en) 2005-10-26 2017-05-02 Cortica, Ltd. Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US10380164B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for using on-image gestures and multimedia content elements as search queries
US8818916B2 (en) * 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US20160321253A1 (en) 2005-10-26 2016-11-03 Cortica, Ltd. System and method for providing recommendations based on user profiles
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US10776585B2 (en) 2005-10-26 2020-09-15 Cortica, Ltd. System and method for recognizing characters in multimedia content
US10742340B2 (en) 2005-10-26 2020-08-11 Cortica Ltd. System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
US10372746B2 (en) 2005-10-26 2019-08-06 Cortica, Ltd. System and method for searching applications using multimedia content elements
US7688686B2 (en) 2005-10-27 2010-03-30 Microsoft Corporation Enhanced table of contents (TOC) identifiers
GB2431839B (en) * 2005-10-28 2010-05-19 Sony Uk Ltd Audio processing
KR100803206B1 (ko) 2005-11-11 2008-02-14 삼성전자주식회사 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법
US7881657B2 (en) 2006-10-03 2011-02-01 Shazam Entertainment, Ltd. Method for high-throughput identification of distributed broadcast content
EP2074505A4 (en) 2006-10-05 2010-01-13 Splunk Inc CHRONOLOGICAL SERIES SEARCH ENGINE
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
US8077839B2 (en) * 2007-01-09 2011-12-13 Freescale Semiconductor, Inc. Handheld device for dialing of phone numbers extracted from a voicemail
US20080317226A1 (en) * 2007-01-09 2008-12-25 Freescale Semiconductor, Inc. Handheld device for transmitting a visual format message
US10489795B2 (en) 2007-04-23 2019-11-26 The Nielsen Company (Us), Llc Determining relative effectiveness of media content items
US8849432B2 (en) * 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US8006314B2 (en) 2007-07-27 2011-08-23 Audible Magic Corporation System for identifying content of digital data
US8213521B2 (en) 2007-08-15 2012-07-03 The Nielsen Company (Us), Llc Methods and apparatus for audience measurement using global signature representation and matching
US8468014B2 (en) * 2007-11-02 2013-06-18 Soundhound, Inc. Voicing detection modules in a system for automatic transcription of sung or hummed melodies
CN101226741B (zh) * 2007-12-28 2011-06-15 无敌科技(西安)有限公司 一种活动语音端点的侦测方法
DE102008009025A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals
DE102008009024A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals
GB2457694B (en) * 2008-02-21 2012-09-26 Snell Ltd Method of Deriving an Audio-Visual Signature
BR122012006269A2 (pt) * 2008-03-10 2019-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Equipamento e método para a manipulação de um sinal de áudio tendo um evento transiente
GB2458471A (en) * 2008-03-17 2009-09-23 Taylor Nelson Sofres Plc A signature generating device for an audio signal and associated methods
EP2114079B2 (en) 2008-05-02 2018-01-24 Psytechnics Ltd Method and apparatus for aligning signals
JP2010033265A (ja) 2008-07-28 2010-02-12 Nec Corp コンテンツ配信方法およびシステム
US8121830B2 (en) 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8508357B2 (en) 2008-11-26 2013-08-13 The Nielsen Company (Us), Llc Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking
US8199651B1 (en) 2009-03-16 2012-06-12 Audible Magic Corporation Method and system for modifying communication flows at a port level
US8738367B2 (en) * 2009-03-18 2014-05-27 Nec Corporation Speech signal processing device
US8351712B2 (en) 2009-04-27 2013-01-08 The Neilsen Company (US), LLC Methods and apparatus to perform image classification based on pseudorandom features
JP2012525655A (ja) 2009-05-01 2012-10-22 ザ ニールセン カンパニー (ユー エス) エルエルシー 一次ブロードキャストメディアコンテンツに関連する二次コンテンツを提供するための方法、機器、及び製造品
GB2470201A (en) * 2009-05-12 2010-11-17 Nokia Corp Synchronising audio and image data
US8687839B2 (en) 2009-05-21 2014-04-01 Digimarc Corporation Robust signatures derived from local nonlinear filters
WO2010138776A2 (en) * 2009-05-27 2010-12-02 Spot411 Technologies, Inc. Audio-based synchronization to media
US8489774B2 (en) 2009-05-27 2013-07-16 Spot411 Technologies, Inc. Synchronized delivery of interactive content
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
US9055309B2 (en) 2009-05-29 2015-06-09 Cognitive Networks, Inc. Systems and methods for identifying video segments for displaying contextually relevant content
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US8190663B2 (en) * 2009-07-06 2012-05-29 Osterreichisches Forschungsinstitut Fur Artificial Intelligence Der Osterreichischen Studiengesellschaft Fur Kybernetik Of Freyung Method and a system for identifying similar audio tracks
US20120237041A1 (en) 2009-07-24 2012-09-20 Johannes Kepler Universität Linz Method And An Apparatus For Deriving Information From An Audio Track And Determining Similarity Between Audio Tracks
US20110041154A1 (en) * 2009-08-14 2011-02-17 All Media Guide, Llc Content Recognition and Synchronization on a Television or Consumer Electronics Device
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US8677400B2 (en) 2009-09-30 2014-03-18 United Video Properties, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US8521779B2 (en) 2009-10-09 2013-08-27 Adelphoi Limited Metadata record generation
US8706276B2 (en) 2009-10-09 2014-04-22 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for identifying matching audio
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US8860883B2 (en) * 2009-11-30 2014-10-14 Miranda Technologies Partnership Method and apparatus for providing signatures of audio/video signals and for making use thereof
US8682145B2 (en) 2009-12-04 2014-03-25 Tivo Inc. Recording system based on multimedia content fingerprints
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US9275141B2 (en) 2010-05-04 2016-03-01 Shazam Entertainment Ltd. Methods and systems for processing a sample of a media stream
EP3418917B1 (en) 2010-05-04 2022-08-17 Apple Inc. Methods and systems for synchronizing media
US9159338B2 (en) 2010-05-04 2015-10-13 Shazam Entertainment Ltd. Systems and methods of rendering a textual animation
US8768495B2 (en) 2010-06-09 2014-07-01 Adelphoi Limited System and method for media recognition
US9876905B2 (en) 2010-09-29 2018-01-23 Genesys Telecommunications Laboratories, Inc. System for initiating interactive communication in response to audio codes
EP2643832A4 (en) * 2010-11-22 2016-10-12 Listening Methods Llc SYSTEM AND METHOD FOR RECOGNITION PATTERN ANALYSIS
WO2012112573A1 (en) 2011-02-18 2012-08-23 Shazam Entertainment Ltd. Methods and systems for identifying content in a data stream by a client device
US8688631B2 (en) 2011-03-17 2014-04-01 Alexander Savenok System and method for media file synchronization
US8478719B2 (en) 2011-03-17 2013-07-02 Remote Media LLC System and method for media file synchronization
US8589171B2 (en) 2011-03-17 2013-11-19 Remote Media, Llc System and method for custom marking a media file for file matching
US9380356B2 (en) 2011-04-12 2016-06-28 The Nielsen Company (Us), Llc Methods and apparatus to generate a tag for media content
US8996557B2 (en) 2011-05-18 2015-03-31 Microsoft Technology Licensing, Llc Query and matching for content recognition
WO2012089288A1 (en) 2011-06-06 2012-07-05 Bridge Mediatech, S.L. Method and system for robust audio hashing
MX341124B (es) 2011-06-08 2016-08-09 Shazam Entertainment Ltd Métodos y sistemas para realizar comparaciones de datos recibidos y proporcionar un servicio de seguimiento con base en las comparaciones.
JP5833235B2 (ja) 2011-06-10 2015-12-16 シャザム エンターテインメント リミテッドShazam Entertainment Limited データストリームのコンテンツを識別する方法及びシステム
US9515904B2 (en) 2011-06-21 2016-12-06 The Nielsen Company (Us), Llc Monitoring streaming media content
US9209978B2 (en) 2012-05-15 2015-12-08 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US9374183B2 (en) 2011-08-30 2016-06-21 Iheartmedia Management Services, Inc. Broadcast source identification based on matching via bit count
US9461759B2 (en) 2011-08-30 2016-10-04 Iheartmedia Management Services, Inc. Identification of changed broadcast media items
US8639178B2 (en) 2011-08-30 2014-01-28 Clear Channel Management Sevices, Inc. Broadcast source identification based on matching broadcast signal fingerprints
US9049496B2 (en) * 2011-09-01 2015-06-02 Gracenote, Inc. Media source identification
US9113202B1 (en) * 2011-09-21 2015-08-18 Google Inc. Inverted client-side fingerprinting and matching
US9460465B2 (en) 2011-09-21 2016-10-04 Genesys Telecommunications Laboratories, Inc. Graphical menu builder for encoding applications in an image
US9384272B2 (en) 2011-10-05 2016-07-05 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for identifying similar songs using jumpcodes
US8831763B1 (en) * 2011-10-18 2014-09-09 Google Inc. Intelligent interest point pruning for audio matching
US8538333B2 (en) 2011-12-16 2013-09-17 Arbitron Inc. Media exposure linking utilizing bluetooth signal characteristics
US8977194B2 (en) 2011-12-16 2015-03-10 The Nielsen Company (Us), Llc Media exposure and verification utilizing inductive coupling
US9268845B1 (en) * 2012-03-08 2016-02-23 Google Inc. Audio matching using time alignment, frequency alignment, and interest point overlap to filter false positives
JP2013205830A (ja) * 2012-03-29 2013-10-07 Sony Corp トーン成分検出方法、トーン成分検出装置およびプログラム
EP2648418A1 (en) * 2012-04-05 2013-10-09 Thomson Licensing Synchronization of multimedia streams
US9235867B2 (en) * 2012-06-04 2016-01-12 Microsoft Technology Licensing, Llc Concurrent media delivery
US9129015B1 (en) * 2012-06-26 2015-09-08 Google Inc. Min/max filter for audio matching
US9282366B2 (en) 2012-08-13 2016-03-08 The Nielsen Company (Us), Llc Methods and apparatus to communicate audience measurement information
US20140074466A1 (en) * 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US9081778B2 (en) 2012-09-25 2015-07-14 Audible Magic Corporation Using digital fingerprints to associate data with a work
US9390719B1 (en) * 2012-10-09 2016-07-12 Google Inc. Interest points density control for audio matching
US9069849B1 (en) * 2012-10-10 2015-06-30 Google Inc. Methods for enforcing time alignment for speed resistant audio matching
EP2731030A1 (en) * 2012-11-13 2014-05-14 Samsung Electronics Co., Ltd Music information searching method and apparatus thereof
US9158760B2 (en) 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
US9183849B2 (en) 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9195649B2 (en) 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
US9706252B2 (en) 2013-02-04 2017-07-11 Universal Electronics Inc. System and method for user monitoring and intent determination
CN103971689B (zh) * 2013-02-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频识别方法及装置
US9313544B2 (en) 2013-02-14 2016-04-12 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
FR3002713B1 (fr) * 2013-02-27 2015-02-27 Inst Mines Telecom Generation d'une signature d'un signal audio musical
US9451048B2 (en) 2013-03-12 2016-09-20 Shazam Investments Ltd. Methods and systems for identifying information of a broadcast station and information of broadcasted content
US9390170B2 (en) 2013-03-15 2016-07-12 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings
US20140278845A1 (en) 2013-03-15 2014-09-18 Shazam Investments Limited Methods and Systems for Identifying Target Media Content and Determining Supplemental Information about the Target Media Content
US9773058B2 (en) 2013-03-15 2017-09-26 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings
WO2014169238A1 (en) 2013-04-11 2014-10-16 Digimarc Corporation Methods for object recognition and related arrangements
US10225136B2 (en) 2013-04-30 2019-03-05 Splunk Inc. Processing of log data and performance data obtained via an application programming interface (API)
US10019496B2 (en) 2013-04-30 2018-07-10 Splunk Inc. Processing of performance data and log data from an information technology environment by using diverse data stores
US10318541B2 (en) 2013-04-30 2019-06-11 Splunk Inc. Correlating log data with performance measurements having a specified relationship to a threshold value
US10353957B2 (en) 2013-04-30 2019-07-16 Splunk Inc. Processing of performance data and raw log data from an information technology environment
US10997191B2 (en) 2013-04-30 2021-05-04 Splunk Inc. Query-triggered processing of performance data and log data from an information technology environment
US10614132B2 (en) 2013-04-30 2020-04-07 Splunk Inc. GUI-triggered processing of performance data and log data from an information technology environment
US10346357B2 (en) 2013-04-30 2019-07-09 Splunk Inc. Processing of performance data and structure data from an information technology environment
US9460201B2 (en) 2013-05-06 2016-10-04 Iheartmedia Management Services, Inc. Unordered matching of audio fingerprints
CN103402118B (zh) * 2013-07-05 2017-12-01 Tcl集团股份有限公司 一种媒体节目互动方法及系统
US20150039321A1 (en) 2013-07-31 2015-02-05 Arbitron Inc. Apparatus, System and Method for Reading Codes From Digital Audio on a Processing Device
US9711152B2 (en) 2013-07-31 2017-07-18 The Nielsen Company (Us), Llc Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio
US9275427B1 (en) * 2013-09-05 2016-03-01 Google Inc. Multi-channel audio video fingerprinting
US9898086B2 (en) * 2013-09-06 2018-02-20 Immersion Corporation Systems and methods for visual processing of spectrograms to generate haptic effects
US9053711B1 (en) 2013-09-10 2015-06-09 Ampersand, Inc. Method of matching a digitized stream of audio signals to a known audio recording
US10014006B1 (en) 2013-09-10 2018-07-03 Ampersand, Inc. Method of determining whether a phone call is answered by a human or by an automated device
TWI527025B (zh) * 2013-11-11 2016-03-21 財團法人資訊工業策進會 電腦系統、音訊比對方法及其電腦可讀取記錄媒體
NL2011893C2 (en) * 2013-12-04 2015-06-08 Stichting Incas3 Method and system for predicting human activity.
US9426525B2 (en) 2013-12-31 2016-08-23 The Nielsen Company (Us), Llc. Methods and apparatus to count people in an audience
WO2015118431A1 (en) 2014-02-05 2015-08-13 Edge Innovation, Lda. Method for capture and analysis of multimedia content
US10430985B2 (en) 2014-03-14 2019-10-01 Magic Leap, Inc. Augmented reality systems and methods utilizing reflections
US9699499B2 (en) 2014-04-30 2017-07-04 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
CN104023247B (zh) 2014-05-29 2015-07-29 腾讯科技(深圳)有限公司 获取、推送信息的方法和装置以及信息交互系统
EP3023884A1 (en) * 2014-11-21 2016-05-25 Thomson Licensing Method and apparatus for generating fingerprint of an audio signal
US9465867B2 (en) * 2014-12-01 2016-10-11 W. Leo Hoarty System and method for continuous media segment identification
WO2016086905A1 (es) * 2014-12-05 2016-06-09 Monitoreo Tecnológico, S.A Método de medición de audiencias
CA2973740C (en) 2015-01-30 2021-06-08 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10360583B2 (en) 2015-02-05 2019-07-23 Direct Path, Llc System and method for direct response advertising
EP4375952A3 (en) 2015-04-17 2024-06-19 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
CN106294331B (zh) * 2015-05-11 2020-01-21 阿里巴巴集团控股有限公司 音频信息检索方法及装置
US9762965B2 (en) 2015-05-29 2017-09-12 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
BR112018000716B1 (pt) 2015-07-16 2023-03-28 Inscape Data, Inc Método e dispositivo de computação para detecção de segmentos de mídia comuns
AU2016291674B2 (en) 2015-07-16 2021-08-26 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
CN106558318B (zh) 2015-09-24 2020-04-28 阿里巴巴集团控股有限公司 音频识别方法和系统
US11195043B2 (en) 2015-12-15 2021-12-07 Cortica, Ltd. System and method for determining common patterns in multimedia content elements based on key points
WO2017105641A1 (en) 2015-12-15 2017-06-22 Cortica, Ltd. Identification of key points in multimedia data elements
US9596502B1 (en) 2015-12-21 2017-03-14 Max Abecassis Integration of multiple synchronization methodologies
US9516373B1 (en) 2015-12-21 2016-12-06 Max Abecassis Presets of synchronized second screen functions
AU2017210289B2 (en) 2016-01-19 2021-10-21 Magic Leap, Inc. Augmented reality systems and methods utilizing reflections
US9786298B1 (en) 2016-04-08 2017-10-10 Source Digital, Inc. Audio fingerprinting based on audio energy characteristics
US10397663B2 (en) 2016-04-08 2019-08-27 Source Digital, Inc. Synchronizing ancillary data to content including audio
US10951935B2 (en) 2016-04-08 2021-03-16 Source Digital, Inc. Media environment driven content distribution platform
US10311918B1 (en) 2016-04-19 2019-06-04 Space Projects Ltd. System, media, and method for synchronization of independent sensors and recording devices
NZ787459A (en) 2016-04-26 2023-05-26 Magic Leap Inc Electromagnetic tracking with augmented reality systems
US10015612B2 (en) 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
CN106910494B (zh) * 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置
WO2018047805A1 (ja) * 2016-09-09 2018-03-15 日本電気株式会社 移動音源速度推定装置、速度監視システム、移動音源速度推定方法、および移動音源速度推定用プログラムが記憶された記憶媒体
EP3312722A1 (en) 2016-10-21 2018-04-25 Fujitsu Limited Data processing apparatus, method, and program
JP6805765B2 (ja) 2016-10-21 2020-12-23 富士通株式会社 ソフトウェアサービスの実行のためのシステム、方法、及びプログラム
JP7100422B2 (ja) 2016-10-21 2022-07-13 富士通株式会社 データプロパティ認識のための装置、プログラム、及び方法
EP3312724B1 (en) 2016-10-21 2019-10-30 Fujitsu Limited Microservice-based data processing apparatus, method, and program
US10776170B2 (en) 2016-10-21 2020-09-15 Fujitsu Limited Software service execution apparatus, system, and method
US10922720B2 (en) 2017-01-11 2021-02-16 Adobe Inc. Managing content delivery via audio cues
US10166472B2 (en) 2017-05-04 2019-01-01 Shazam Investments Ltd. Methods and systems for determining a reaction time for a response and synchronizing user interface(s) with content being rendered
US10860786B2 (en) 2017-06-01 2020-12-08 Global Tel*Link Corporation System and method for analyzing and investigating communication data from a controlled environment
WO2019008581A1 (en) 2017-07-05 2019-01-10 Cortica Ltd. DETERMINATION OF DRIVING POLICIES
GB2564495A (en) * 2017-07-07 2019-01-16 Cirrus Logic Int Semiconductor Ltd Audio data transfer
US11899707B2 (en) 2017-07-09 2024-02-13 Cortica Ltd. Driving policies determination
US10129392B1 (en) * 2017-08-25 2018-11-13 Global Tel*Link Corporation Systems and methods for detecting inmate to inmate conference calls
US20190104335A1 (en) * 2017-09-29 2019-04-04 Theater Ears, LLC Theater ears audio recognition & synchronization algorithm
FR3071994A1 (fr) * 2017-09-29 2019-04-05 Theater Ears, LLC Procede et programme de reconnaissance et synchronisation audio
US10158907B1 (en) * 2017-10-10 2018-12-18 Shazam Investments Ltd. Systems and methods for performing playout of multiple media recordings based on a matching segment among the recordings
US20190109804A1 (en) * 2017-10-10 2019-04-11 Microsoft Technology Licensing, Llc Audio processing for voice simulated noise effects
US10129575B1 (en) 2017-10-25 2018-11-13 Shazam Entertainment Limited Methods and systems for determining a latency between a source and an alternative feed of the source
US10846544B2 (en) 2018-07-16 2020-11-24 Cartica Ai Ltd. Transportation prediction system and method
EP3824616B1 (en) * 2018-07-18 2023-09-06 Google LLC Echo detection
US11443724B2 (en) * 2018-07-31 2022-09-13 Mediawave Intelligent Communication Method of synchronizing electronic interactive device
US10839694B2 (en) 2018-10-18 2020-11-17 Cartica Ai Ltd Blind spot alert
US11181911B2 (en) 2018-10-18 2021-11-23 Cartica Ai Ltd Control transfer of a vehicle
US20200133308A1 (en) 2018-10-18 2020-04-30 Cartica Ai Ltd Vehicle to vehicle (v2v) communication less truck platooning
US11126870B2 (en) 2018-10-18 2021-09-21 Cartica Ai Ltd. Method and system for obstacle detection
US11126869B2 (en) 2018-10-26 2021-09-21 Cartica Ai Ltd. Tracking after objects
US10789535B2 (en) 2018-11-26 2020-09-29 Cartica Ai Ltd Detection of road elements
US11643005B2 (en) 2019-02-27 2023-05-09 Autobrains Technologies Ltd Adjusting adjustable headlights of a vehicle
US11285963B2 (en) 2019-03-10 2022-03-29 Cartica Ai Ltd. Driver-based prediction of dangerous events
US11694088B2 (en) 2019-03-13 2023-07-04 Cortica Ltd. Method for object detection using knowledge distillation
US11132548B2 (en) 2019-03-20 2021-09-28 Cortica Ltd. Determining object information that does not explicitly appear in a media unit signature
US10789527B1 (en) 2019-03-31 2020-09-29 Cortica Ltd. Method for object detection using shallow neural networks
US11222069B2 (en) 2019-03-31 2022-01-11 Cortica Ltd. Low-power calculation of a signature of a media unit
US10796444B1 (en) 2019-03-31 2020-10-06 Cortica Ltd Configuring spanning elements of a signature generator
US10776669B1 (en) 2019-03-31 2020-09-15 Cortica Ltd. Signature generation and object detection that refer to rare scenes
US11488290B2 (en) 2019-03-31 2022-11-01 Cortica Ltd. Hybrid representation of a media unit
US11245959B2 (en) 2019-06-20 2022-02-08 Source Digital, Inc. Continuous dual authentication to access media content
US10748022B1 (en) 2019-12-12 2020-08-18 Cartica Ai Ltd Crowd separation
US11593662B2 (en) 2019-12-12 2023-02-28 Autobrains Technologies Ltd Unsupervised cluster generation
US11590988B2 (en) 2020-03-19 2023-02-28 Autobrains Technologies Ltd Predictive turning assistant
US11827215B2 (en) 2020-03-31 2023-11-28 AutoBrains Technologies Ltd. Method for training a driving related object detector
US11756424B2 (en) 2020-07-24 2023-09-12 AutoBrains Technologies Ltd. Parking assist
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion
US20230388562A1 (en) * 2022-05-27 2023-11-30 Sling TV L.L.C. Media signature recognition with resource constrained devices

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction
US4450531A (en) * 1982-09-10 1984-05-22 Ensco, Inc. Broadcast signal recognition system and method
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
GB9424429D0 (en) * 1994-12-02 1995-01-18 Philips Electronics Uk Ltd Audio/video timing discrepancy management
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6088455A (en) * 1997-01-07 2000-07-11 Logan; James D. Methods and apparatus for selectively reproducing segments of broadcast programming
JP2002514318A (ja) * 1997-01-31 2002-05-14 ティ―ネティックス,インコーポレイテッド 録音された音声を検出するシステムおよび方法
US5940799A (en) 1997-09-15 1999-08-17 Motorola, Inc. System and method for securing speech transactions
US5913196A (en) 1997-11-17 1999-06-15 Talmor; Rita System and method for establishing identity of a speaker
CN1219810A (zh) * 1997-12-12 1999-06-16 上海金陵股份有限公司 远程公共电脑系统
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
GR1003625B (el) * 1999-07-08 2001-08-31 Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου
US7174293B2 (en) * 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
US7194752B1 (en) * 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
US7853664B1 (en) * 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US20020072982A1 (en) * 2000-12-12 2002-06-13 Shazam Entertainment Ltd. Method and system for interacting with a user in an experiential environment
US6483927B2 (en) * 2000-12-18 2002-11-19 Digimarc Corporation Synchronizing readers of hidden auxiliary data in quantization-based data hiding schemes
EP1362485B1 (en) * 2001-02-12 2008-08-13 Gracenote, Inc. Generating and matching hashes of multimedia content
US7328153B2 (en) * 2001-07-20 2008-02-05 Gracenote, Inc. Automatic identification of sound recordings
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
EP1561176A2 (en) * 2002-11-01 2005-08-10 Koninklijke Philips Electronics N.V. Improved audio data fingerprint searching
KR100456408B1 (ko) * 2004-02-06 2004-11-10 (주)뮤레카 오디오유전자 생성방법 및 오디오데이터 검색방법
CA2595634C (en) * 2005-02-08 2014-12-30 Landmark Digital Services Llc Automatic identification of repeated material in audio signals

Also Published As

Publication number Publication date
EP1504445A4 (en) 2005-08-17
JP2005524108A (ja) 2005-08-11
US20090265174A9 (en) 2009-10-22
PT1504445E (pt) 2008-11-24
TWI269196B (en) 2006-12-21
HK1073382A1 (en) 2005-09-30
CA2483104A1 (en) 2003-11-06
TW200307205A (en) 2003-12-01
ATE405924T1 (de) 2008-09-15
AU2003230993A1 (en) 2003-11-10
DE60323086D1 (de) 2008-10-02
US20050177372A1 (en) 2005-08-11
DK1504445T3 (da) 2008-12-01
ES2312772T3 (es) 2009-03-01
WO2003091990A1 (en) 2003-11-06
CN1315110C (zh) 2007-05-09
US7627477B2 (en) 2009-12-01
KR100820385B1 (ko) 2008-04-10
EP1504445A1 (en) 2005-02-09
KR20050010763A (ko) 2005-01-28
BR0309598A (pt) 2005-02-09
CN1647160A (zh) 2005-07-27
EP1504445B1 (en) 2008-08-20
CA2483104C (en) 2011-06-21

Similar Documents

Publication Publication Date Title
JP4425126B2 (ja) ロバストかつインバリアントな音声パターンマッチング
US9313593B2 (en) Ranking representative segments in media data
KR100725018B1 (ko) 음악 내용 자동 요약 방법 및 그 장치
Gillet et al. Transcription and separation of drum signals from polyphonic music
US7626111B2 (en) Similar music search method and apparatus using music content summary
US8918316B2 (en) Content identification system
US7193148B2 (en) Apparatus and method for generating an encoded rhythmic pattern
US20140330556A1 (en) Low complexity repetition detection in media data
US20060155399A1 (en) Method and system for generating acoustic fingerprints
WO2005122141A1 (en) Effective audio segmentation and classification
US8885841B2 (en) Audio processing apparatus and method, and program
Tsipas et al. Efficient audio-driven multimedia indexing through similarity-based speech/music discrimination
Oudre et al. Probabilistic template-based chord recognition
Verma et al. Structural segmentation of Hindustani concert audio with posterior features
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
Zhang et al. Audio segmentation based on multi-scale audio classification
Gillet et al. Comparing audio and video segmentations for music videos indexing
JP2010038943A (ja) 音響信号処理装置及び方法
Gruhne et al. Extraction of Drum Patterns and their Description within the MPEG-7 High-Level-Framework.

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20051222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20051222

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091208

R150 Certificate of patent or registration of utility model

Ref document number: 4425126

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131218

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees