JP6462111B2 - 情報信号の指紋を生成するための方法及び装置 - Google Patents

情報信号の指紋を生成するための方法及び装置 Download PDF

Info

Publication number
JP6462111B2
JP6462111B2 JP2017503759A JP2017503759A JP6462111B2 JP 6462111 B2 JP6462111 B2 JP 6462111B2 JP 2017503759 A JP2017503759 A JP 2017503759A JP 2017503759 A JP2017503759 A JP 2017503759A JP 6462111 B2 JP6462111 B2 JP 6462111B2
Authority
JP
Japan
Prior art keywords
fingerprint
division level
calculating
frequency subbands
spectral characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017503759A
Other languages
English (en)
Other versions
JP2017518715A (ja
Inventor
ハン ユンゴン
ハン ユンゴン
コルネリス ランヘラール ヘリット
コルネリス ランヘラール ヘリット
Original Assignee
テレトラックス べスローテン フェンノートシャップ
テレトラックス べスローテン フェンノートシャップ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレトラックス べスローテン フェンノートシャップ, テレトラックス べスローテン フェンノートシャップ filed Critical テレトラックス べスローテン フェンノートシャップ
Publication of JP2017518715A publication Critical patent/JP2017518715A/ja
Application granted granted Critical
Publication of JP6462111B2 publication Critical patent/JP6462111B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7864Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using domain-transform features, e.g. DCT or wavelet transform coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Description

本発明は、情報信号の一部を表す指紋を生成する方法、装置、コンピュータプログラム、及びそれらの様々な使用に関する。
今日の社会のほとんどすべてにある映画、テレビ、音楽、及び、他のオーディオ及びビデオについて、そのコンテンツを自動的に識別できるようにする要望が高まっている。コンテンツを自動的に識別することにより、コンテンツに対するタイトル、アーティスト、ジャンル、歌詞、レビュー、レーティング等々のようなメタデータの取得や、追加コンテンツやコンテンツに付随する活動などの提供など、様々な可能性が開かれる。もう1つの魅力的な応用として、放送のモニタリングがある。例えば著作権者へのロイヤリティの支払いを決定するために、放送を識別して使用リストを編集することである。
コンテンツの識別子を取得する技術は、指紋法と呼ばれ、時には、署名作成、ロバスト指紋、ロバストハッシュ、又は、特徴抽出とも呼ばれる。コンテンツ・アイテムの(頑健な)指紋は、項目の最も関連性の高い知覚的特徴を表現している。
一般的にいえば、指紋法のアルゴリズムは、2つの性能基準、区別と頑健性、を有する。区別的な指紋法のアルゴリズムは、2つの情報信号を互いに区別することを可能にする。つまり、2つの異なる信号から2つの類似した指紋を得ることは統計的には起こりにくいはずである。頑健な指紋法のアルゴリズムは、様々な歪みを伴っている同じ情報信号を識別することを可能にする。つまり、同じ信号の2つの歪んだバージョンから計算される指紋は、同じであるか少なくとも互いに非常に類似するはずである。音楽の低品質なラジオ放送から映画の切り取り又はサイズ変更、字幕、オーバーレイ又は透かしの追加まで、歪みは偶然又は意図的である可能性がある。
指紋法を使用した情報信号の識別及び分類ための多くの構想が提案されている。いくつかの例が、米国特許公報第8140331号、第8380518号、第7516074号、第8440900号及び第8492633号に開示されている。
米国特許公報第8204314号は、ビデオオブジェクトのフレームに対する空間的署名又は指紋の生成の方法を開示する。フレームは複数のブロックに分割される。各ブロックについて平均輝度が計算され、輝度による相対的なブロックの順序付けは、空間的署名又は指紋に対する複数入力の1つであるベクトルに変換される。この処理は、ブロックのより細分化された分割、最初の2×2ブロック、次に4×4ブロックなど、を作成することにより複数のレベルで実行される。この方法の欠点は、相対的な順序付けを作成するためすべての平均輝度を互いに比較することが遅いことである。加えて、アルゴリズムの頑健性を低下させる、ブロック間の大きな相関が存在することである。
米国特許公報第8340449号は、空間的及び連続的な特性ベースのビデオの指紋の計算方法を開示する。隣接する画素の対は、最低レベルの値を形成する。和又は差又はペアは、より高いレベルの値として取られる。この処理は、ビデオセグメントの行、列、タイム列それぞれに繰り返される。この結果、セグメントのすべてのフレームの空間的及び連続的な特性を表す、係数の3次元配列となり、配列は、その後、例えば、各係数の大きさを所定の閾値の値と比較することにより量子化される。これは配列を1次元のビットベクトルに平坦化する。1つの例において、各ビットは、+1、−1又は0に量子化され、+1に対し10、−1に対し01、及び0に対して00を使用する2ビット符号化方式である。ビットベクトルは指紋を形成する。
この方法の欠点は、計算された周波数の差は相関していることであり、結果として得られる指紋が完全には区別できないことを意味する。さらに、関係する複雑な計算のため、計算処理が遅い。
ハイツマ(Hitsma)らによる国際特許出願公開公報第02/065782号は、映画、テレビ番組又は歌などのようなオーディオ又はオーディオビジュアルコンテンツを含む情報信号を識別するロバストハッシュを生成する方法を開示する。その方法は、情報信号をフレームに分割し、フレームごとにハッシュワードを計算し、連続するハッシュワードを連結してハッシュ信号を構成する。ハッシュワードの計算は、情報信号の各フレームを複数の周波数サブバンドに細分化すること、各周波数サブバンドにおいて信号のスペクトルの特性を計算すること、周波数サブバンドの特性をそれぞれの閾値と比較すること、及び、比較の結果をハッシュワードの各ビットで表すことを含む。
図1は、y軸上に33個の周波数サブバンドFと、x軸上にNフレームを有する33×Nのスペクトル画像を使用するハイツマのアルゴリズムの実施形態を示している。32ビットの指紋は、フィルタリング技術に基づき各フレームから抽出される。時間における後続フレームと周波数における後続周波数サブバンドとの間のエネルギー差が計算され、閾値と比較される。「1」ビットは正の差値に対応し、一方、「0」は非正の差値に対応する。フレームnでの周波数バンドmのエネルギーをE(n,m)と表し、フレームnの指紋のm番目のビットをB(n,m)により表したとすると、指紋のビットは次のような式で表される。
Figure 0006462111
Figure 0006462111
この方法では、32ビットの指紋は、各フレームの33個の周波数サブバンドから生成することができる。ハイツマの開示では、これらのフレーム指紋の256個を1つのブロック指紋にまとめ、このブロック指紋に基づいて検索を実行する。
ハイツマのアルゴリズムの欠点は、計算された周波数の差は相関しているので、結果として得られる指紋は、完全には区別できない。入力周波数サブバンドが無相関であると仮定しても、フィルタリング(差分演算)は、フィルタリングされた値の間にいくらかの相関を取り込む。
さらに、ハイツマのアルゴリズムにおいては、個々の周波数サブバンド間の差は1つ又は複数の周波数サブバンドに影響を与える小さな変化の影響を受けやすい。一般には、大きな周波数領域(例えば、複数の周波数サブバンドにわたる)から計算される差は、オーディオ又はビデオ処理により取り込まれるノイズに対してより頑健である。
本発明は、情報信号を表す指紋を生成する改良された方法であって、ハイツマに比べてより区別可能な指紋を与える方法を提供する。方法は、情報信号の一部を分割レベルで複数の周波数サブバンドに分割するステップと、複数の周波数サブバンドそれぞれについて信号のスペクトル特性を計算するステップと、各スペクトル特性を基準と比較して、その結果により比較結果を生成するステップと、指紋を構成するために各比較結果を結合するステップと、を備え、前記分割するステップ、計算するステップ、比較するステップ、及び結合するステップを少なくとも1回繰り返し、各繰り返しに対して、前記分割するステップは、前の分割レベルとは異なる分割レベルを使用して実行される。
基準は、一般に、閾値、例えば、比較されるゼロ又は絶対値である。好適には、閾値は隣接するバンドのスペクトル特性値又は前の部分において対応するバンドのスペクトル特性値である。スペクトル特性は周波数バンドのエネルギー又は周波数バンドの色調でもよい。ビデオ信号に対して、バンドの平均輝度がバンドのスペクトル特性を構成してもよい。好適には、周波数サブバンドは、情報信号の個々の部分の周波数スペクトルの周波数サブバンドである。周波数サブバンドは、周波数の関数として増加するバンド幅を有してもよい。結合は、順番に連結するだけで簡単にできるが、例えば、信頼性を第1として、並べ替えを重要視できる。部分は、情報信号のフレームとすることができる。
本発明の実施形態において、分割の各繰り返しは、前の分割レベルより粗い分割レベルを使用して実行される。粗さは、分割レベルでの周波数サブバンドにおける細分が、前の分割レベルより、サブバンド数が少ないことを意味する。最低又は最高の分割レベルでの処理は、特定の指紋を取得するハイツマらにより使用されるものと同じである。より粗い分割レベルで、新しい周波数サブバンドは生成され、高いレベルの指紋ビットの生成に関連付けられる。
実施形態において、各繰り返しに対して、分割するステップは、前の分割レベルの周波数サブバンドを結合することにより複数の周波数サブバンドを生成することを含む。この高いレベルのステップは、前の分割レベルと比べて少ない数の周波数サブバンドを生成する。けれども、これらの周波数サブバンドのそれぞれは、より大きな周波数バンドを表す。より粗い分割レベルで使用されるより大きな周波数サブバンドは、ノイズエネルギーがより大きな周波数帯域にわたって希釈されるので、本質的により頑健である。したがって、得られる指紋は、より頑健である。
さらにより好適な実施形態において、結合するステップは、前の分割レベルでの周波数サブバンドの数と比較して、周波数サブバンドの数の半分が作成されるような、前の分割レベルの周波数サブバンドの連続するペアを使用することを含む。
方法の区別する能力を改良するために、周波数サブバンドの重なりあっているペア間の差を計算するのに代えて、周波数サブバンドの重なっていないペア間の差だけを計算してもよい。これにより相関のある差が含まれなくなる。このようにして、特徴間の冗長性が幾分除去され、より区別的な特徴表現が得られる。
サブシーケンスでの比較するステップは、比較するために同じ基準を使用してもよいが、ある実施形態においては、各繰り返しに対する比較は、前の基準とは異なる基準を使用して実行される。
さらなる実施形態において、計算するステップは、スペクトル特性と基準との差を計算することをさらに含み、その差は、比較における各比較結果の信頼性を示している。比較結果は、基準に対し低い品質で一致するとき、例えば、閾値の値に近いときは、信頼できない。
このさらなる実施形態の一部としてさらに好適には、スペクトル特性を計算するステップの一部として各バンドにおける信号のスペクトル特性を正規化するステップを含めることができる。この実施形態は、信頼性の観点からレベル間の指紋照合結果を順位付けすることを可能とする。例えば、ビットにより表される比較結果を有することにより、指紋の計算中に、最も低い信頼性のビット(例えば、32ビット中の8ビット)を識別することが可能になる。検索処理において、これらの低い信頼性の比較結果のうちの1つ又は複数は、照合が得られないときは、変更される。複数のレベルの比較結果が使用されるので、1つのレベルの低品質の比較結果を他のレベルの低品質の比較結果と比べることは難しい。比較する前にスペクトル特性の正規化を適用することにより、様々なレベルでの比較結果の品質を比較することができる。
このさらなる実施形態の一部としてさらに好適には、最も細かな分割レベル以外の分割レベルでの正規化中に、特性に重み因子を適用するステップを含めることができる。より粗い分割レベルでの比較結果はより細かい分割レベルでの比較結果よりも信頼できる傾向にあることを発明者は発見している。前のクレームにおけるように正規化を適用することは、より粗い分割レベルでの比較結果は実際の信頼性よりも低く見えてしまうことを意味する。重み因子の適用はこれを補償する。
本発明による指紋を生成する方法は、指紋を1つ又は複数の参照指紋と照合する方法に有利に使用することができる。
1つの実施形態において、相対的に低い信頼性を示す関連指標を有する生成された指紋の比較結果のうちの1つ又は複数は、照合が得られないときは変更される。別の実施形態において、相対的に低い信頼性を示す関連指標を有する生成された指紋の比較結果のうちの1つ又は複数は、無視される。
前述の方法は、情報信号を表す指紋を生成するため特別に適合された装置により実行することができる。装置は、情報信号の一部を分割レベルで複数の周波数サブバンドに分割するための分割手段と、複数の周波数サブバンドそれぞれについて一部のスペクトル特性を計算するための計算手段と、各スペクトル特性を基準と比較するための比較手段と、指紋を構成するために各比較結果を結合するための結合手段と、を備える。装置は、分割、計算、比較、及び結合をそれぞれ少なくとも1回繰り返すように構成された手段を有し、分割手段は、前の分割レベルとは異なる分割レベルを使用して分割を実行するように構成される。
そのような装置は、コンテンツ再生のための装置、例えば、テレビ、ラジオ、タブレット又は携帯電話などに含まれてもよい。あるいは、その装置は、他の装置、例えば、放送のモニタリング、音声又はビデオ認識、又は他の情報信号処理のための装置に使用されてもよい。
さらに本発明は、コンピュータ上で実行されるとき、前述した本発明による方法のステップの実行を前記コンピュータにさせる実行可能命令を含むコンピュータ読み取り可能な記憶媒体を含む。
本発明を以下の図面を参照してより詳細に説明する。
図中、同一の番号は、同一又は類似の特徴を示しており、複数の同一の特徴、対象物や項目を示す場合には、図面の明瞭性に影響を与えないように代表的なもののみを示している。
ハイツマのアルゴリズムの実施形態を説明する図である。 本発明の方法を説明する概略図である。 本発明の方法の改良を示す概略図である。 基礎となるアルゴリズムを詳細に説明する概略図である。 本発明による装置を示す概略図である。
図2は、本発明の方法を概略的に説明する。指紋を必要とする情報信号100が受信される。この指紋は、例えば、情報信号100に関するメタデータを取得する目的のために使用されて、又は、イベントのロギング又は情報信号100をブロック化のようなアクションを起動するために使用され、又は情報信号に関して当分野で知られている(または、将来的には考えられる)他の多くのオプションなどのアクションを起動したりするために使用される。
情報信号100は部分的に受信される。1つの部分は、フレーム、連結された複数のフレーム、又はコンテンツの他の細分化したものとすることができ、各フレームはオーディオ又はビデオ信号の数秒間又はビデオのブロックを表すものでもよい。いくつかのシステムはフレームを表す指紋のみで動作するものでもよく、他のシステムは、さらなるアクションが取られるべき前に、連結される複数フレームの指紋を必要としてもよい。例えば、情報信号100に関するメタデータを取得するシステムにおいては、オーディオ又はビデオの数秒間に等しいフレームに対する指紋が、しばしば必要とされる。
ステップ110において、情報信号100のフレームは、最も細かい分割レベルの複数の周波数サブバンド111a、...、111nに分割される。
ステップ120において、方法は、周波数サブバンドごとに情報信号100のスペクトル特性を計算する。このスペクトル特性は周波数バンドのエネルギー、又は色調係数により表現することのできる周波数バンドの色調であってもよい[1]。ビデオ信号に対して、バンドの平均輝度がバンドのスペクトル特性を構成してもよい。好適には周波数サブバンドは情報信号の個々のフレームの周波数スペクトルの周波数サブバンドである。周波数サブバンドは周波数の関数として増加するバンド幅を有してもよい。周波数サブバンドは重なり合ってもよいが、好適には、相関する差を含めるのを防ぐため重ならないほうがよい。これはより区別的な特徴の表現をもたらす。
ステップ130において、方法は、各スペクトル特性を特定の基準と比較し、最も細かな分割レベルに対応するそれぞれのビットとして各比較結果を表す出力ビットを生成する。通常、基準は、例えば、比較されるべきゼロ又は絶対値である閾値である。好適には、閾値は、近接するバンドのエネルギーレベルなどのようなスペクトル特性値又は前のフレームにおける対応するバンドのスペクトル特性値である。1つの好適な実施形態において、使用される基準は、現在の周波数バンドのエネルギーがそれに隣接するエネルギーより高いか低いかであり、高ければ結果は1、低ければ結果は0である。
ステップ170において、方法は、様々な分割レベルでの所定数の周波数サブバンドを取得するように所定の数繰り返され、結果として、様々なレベルでビットを得る。好適には、所定の数は4であって、方法が5回繰り返されることを意味し、最も細かな分割レベルで1回と引き続く粗いレベルで4回である。この結果、(例えば、24ビット又は72ビットハッシュと比べて)現在の設計されたコンピュータハードウェアで処理するのが効率的である32ビットのハッシュを得る。ステップ130で使用される基準は、異なるレベルで異なっていてよい。
ステップ170において、所定の数に達していないと判定された場合[N]は、ステップ180において、より細かい分割レベルの周波数サブバンドの連続するペアを結合させることにより、より粗い分割レベルの周波数サブセットが生成される。次に、ステップ110において、フレームが、さらに粗い分割レベルの複数の周波数サブバンドに分割され、ステップ120において、これらの高レベルの周波数サブバンドのそれぞれの信号のスペクトル特性が計算され、ステップ130において、基準との比較がされ、結果は、再び、さらに粗い分割レベルのそれぞれのビットとして表される。
ステップ170において、繰り返しの所定の数に達したと判定された場合[Y]は、方法は、ステップ190に進む。
最後に、ステップ190において、方法は、フレームの指紋を構成するすべてのレベルのビットを結合する。結合は、順番に連結するだけの単純なものであってもよいが、例えば、高信頼性を第1として、並べ替えが重要となることもある。
前記処理において、ステップ110‐130は、ステップ170で十分なレベルまで達したと判定されるまで繰り返される。これにより、最も細かな分割レベルでの各バンドの計算された特性が、より高レベルの特性を計算するために容易に使用され得る、任意の改良が可能になる。図4のように、高レベルの周波数サブバンドが、連続した低レベルの周波数サブバンドとぴったり重なっているとすると、低レベルの周波数サブバンドで単に特性を加算し、高レベルのバンドのスペクトル特性に到達することができる。あるいは、ステップ110‐130は、周波数サブバンドでの細分化が異なり、細分化ステップごとに分割レベルを異なるようにして、所望の分割レベルごとに並列に又は連続して実行することができる。
図3は、信頼性情報が追加された、図2に示された方法のさらなる改良を概略的に示す。図2と同じステップは、もう説明しない。
各レベルでの比較ステップ130の入力は、比較結果を表すビットごとの信頼性を示す情報を生成するため、この改良において使用される。基準と低い品質で一致する、すなわち、閾値に近い場合は、ビットは信頼できない。信頼できないビットを有する指紋の照合は、参照指紋との確実な一致をもたらす可能性は低い。
好適には、ステップ140の最初で、各バンドの信号のスペクトル特性は正規化される。この実施形態では、信頼性の観点からレベル全体にわたり指紋ビットをランク付けすることを可能にする。複数の分割レベルのビットが使用されるので、あるレベルの品質の低いビットを他のレベルの品質の低いビットと比較することは難しい。比較する前にスペクトル特性の正規化を適用することにより、様々なレベルのビットの品質を比較することができる。
正規化処理の間、好適には、最も細かな分割レベル以外のレベルでの正規化中に、重み因子がスペクトル特性に適用される。発明者は、より粗い分割レベルのビットは、より細かい分割のビットより、より信頼できる傾向にあることを発見している。この知識を無視して、正規化の適用は、より粗いレベルのビットは、実際よりも信頼性が低いとみなされることを意味する。したがって、重み因子を適用してこれを補償する。
次に、ステップ150において、実際の信頼性情報が計算される。信頼性の最も低いビットの所与の数(例えば、32のうちの8つ)が記録され、一致が得られないときは、これら低信頼度のビットのうちの1つ又は複数を変更できるようにする。
図4は、周波数特性を使用する自動指紋抽出の関連のなかで、以下に説明する図2の方法の基礎となるアルゴリズムを概略的に示している。アルゴリズムは、サンプルレート変換、ステレオ‐モノラル変換、オーディオ信号フレーミングなどの前処理ステップからスタートする。次に、バンドの細分化及びエネルギー計算が、原信号の標準的FFT変換の後に時間‐周波数領域において適用される。そうすることにより、32×Nのスペクトルマップが生成され、指紋ビット抽出モジュールに送られる。フレームnでの周波数バンドmのエネルギーはE(n,m)と表される。最初の分割レベルにおける経時的なサブバンドエネルギーの差は次式により計算することができる。
Figure 0006462111
図4に示される階層構造の最初の分割レベルにおいて、周波数方向のエネルギー差が計算される。これは、実際には、隣接する周波数バンドにわたるエネルギー減算手順であり、次のように特定することができる。
Figure 0006462111
最低分割レベルでの最初の16指紋ビットは、F1(n,k)の符号により取得することができ、形式上は次式のように定義される。
Figure 0006462111
次のより高い分割レベルに対する指紋ビットを計算する前に、次の数式を使用して隣接する周波数バンドの各ペアのエネルギーをまず集計する。
Figure 0006462111
ここで、各分割レベルに関連する重み因子wが含まれている。この因子wは、異なる分割レベル間の正規化と重みづけに対し使用することができる。前記の式において、w2は、本発明の処理における第2の分割レベルの重み因子を示す。
F(n,m)は、各分割レベルで、同じ数の最も低い分割レベルの周波数サブバンドにわたり計算される一方、分割レベル全体で、それらは異なる数の周波数サブバンドにわたり計算される。これは、エネルギーの差すべてがその大きさによりソートされるときに、バイアスをかける。特に、弱いビットは、最低の分割レベルからほとんど独占的に選ばれる。発明者は、この割り当て方法はよい戦略を提示しないことを実験的に究明した。
1つの実施形態において、より高い分割レベルのバンドエネルギー、したがってエネルギーの差、を正規化するために重み因子wに正規化因子を適用してもよい。好適には、この因子は0.5である。これは、エネルギーの正規化を可能にし、新しい抽出方法よりもたらされる課題を克服する。
実験は、正規化(非正規化された場合よりも高い精度を与える一方で)が必ずしも最良の弱いビット割り当てをもたらすとは限らないことを明らかにしている。この実施形態の改良されたものにおいて、重みは正規化係数0.5から変更される。特に、0.5を超える重みが、より高い分割レベルの安定性と頑健性を反映するために使用される。換言すると、より高い分割レベルからの特徴は、歪んでいる可能性は低いという意味で、より低い分割レベルのものより安定している。それを弱いビットの概念にマッピングすると、より高い分解レベルでより少ない弱いビットを定義し、信頼できないより低い分割レベルにはより多くの弱いビットを割り当てることは論理的である。本質的に、特徴は、階層内の位置に基づいて異なるように重み付けされる。この戦略はより良い弱いビットの割り当てをもたらし、探索の精度と効率を改良することが判明した。
次に、指紋ビットは次の式をとおして計算される。
Figure 0006462111
及び
Figure 0006462111
これらの演算は、5番目の分割レベルの最後のビットが生成されるまで繰り返される。最終的に、各分割レベルから計算されたビットをまとめて32ビットのサブ指紋を形成する。
説明を簡単にするため、前記の説明は、特定の演算順序、すなわち、時間的な差分及び異なる分解レベルでの周波数サブバンドの再帰的計算、を使用している。この分野の知識を有する者は、結果に影響を与えることなく周波数サブバンド間及び時間フレーム間での差分の順序を変更できること、又は、高い分割レベルの差は他の分割レベルから独立してスペクトルの対応する部分の加算と減算により直接計算できることに気付くであろう。
図5は、指紋をデータベース550に存在する1つ又は複数の参照指紋と照合するための装置500を概略的に示す。このデータベース550は説明の簡略化のため装置500の内部に示されているけれども、例えば、インターネットなどのようなネットワーク経由でアクセス可能な装置の外部にあってもよい。装置500は、本発明の方法を実行する装置510を組み込んでいる。
好適には、装置500は、装置510に送られる情報信号100を受信するためのレシーバ501を備える。この装置は、分割モジュール511と、計算モジュール512と、比較モジュール513と、判定モジュール517と、バンド生成モジュール518と、ビット結合モジュール519を備え、それぞれ、図2のステップ110、120、130、170,180及び190に対応する。図3の特別ステップに対するモジュールは、簡単に追加することができる。モジュール514は、反復を必要な回数繰り返すため、分割、計算、比較、結合及び判定を引き起こすカウンタを有する。
ビット結合モジュール519が指紋を生成したとすると、この指紋は照合モジュール560に送られ、データベース550での検索が実行される。この結果、例えば、信号100に対するメタデータ590が出力として生成される。
上記のように、本発明により生成されたビットは、閾値との近さ又は類似の問題のために相対的に低い信頼性を有するかもしれない。1つの実施形態において、この信頼性の問題は、照合が得られないときに、相対的に低い信頼性の指標を有する1つ以上のビットを変更する照合モジュール560を有することにより対処される。低い信頼性のビットが変更されるほど、検索時間は長くなる。さらに、誤った一致の可能性は変更されるビットの数とともに増加する。32ビットのうちの8ビットを変更(「フリップ(flipping)」)することは、高い信頼性への要望と、データベース550内の短い検索時間への要望との間の実際的に良い妥協点を提供することを発明者は発見している。
あるいは、信頼性の問題は、一致が得られない場合に相対的に低い信頼性の指標を有する1つ以上のビットを単に無視することによって対処することができる。
[最後の注記]
上記は、本発明を説明及び説明するのに役立ついくつかの有用な実施形態の説明を提供する。説明は、本発明を実施又は使用することができるすべての可能な方法の網羅的な説明であることを意図するものではない。 当業者は、特許請求の範囲に提示される本発明の本質的な特徴に依然として依拠する多くの修正および変形を考えることができるであろう。 さらに、周知の方法、手順、構成要素、及び回路は詳細には記載されていない。
論文文献
[1]J. D. Johnston (1988). "Transform coding of audio signals using perceptual noise criteria". I EEE Journal on Selected Areas in Communications 6 (2): 314-332. doi: 10.1 109/49.608

Claims (14)

  1. 情報信号を表す指紋を生成する方法であって、
    前記情報信号の一部を分割レベルで複数の周波数サブバンドに分割するステップと、
    前記複数の周波数サブバンドそれぞれについて前記一部のスペクトル特性を計算するステップと、
    各スペクトル特性を基準と比較して、その結果により比較結果を生成するステップと、
    前記指紋を構成するために各比較結果を結合するステップと、を備え、
    前記分割するステップ、計算するステップ、比較するステップ、及び結合するステップを少なくとも1回繰り返し、各繰り返しに対して、前記分割するステップは、前の分割レベルとは異なる分割レベルを使用して実行されることを特徴とする方法。
  2. 各繰り返しに対して、前記分割するステップは、前記前の分割レベルより粗い分割レベルを使用して実行されることを特徴とする請求項1に記載の方法。
  3. 各繰り返しに対して、前記分割するステップは、前記前の分割レベルの周波数サブバンドを結合することにより複数の周波数サブバンドを生成することを特徴とする請求項2に記載の方法。
  4. 前記結合するステップは、前記前の分割レベルの周波数サブバンドの連続するペアを使用することを含むことを特徴とする請求項3に記載の方法。
  5. 各繰り返しに対して、前記比較するステップは、前の基準とは異なる基準を使用して実行されることを特徴とする請求項1に記載の方法。
  6. 前記計算するステップは、前記スペクトル特性と前記基準との間の差を計算することをさらに含み、前記差は、前記比較するステップにおける各比較結果の信頼性を示すことを特徴とする請求項1に記載の方法。
  7. 前記スペクトル特性の計算は、スペクトル特性を正規化することをさらに含むことを特徴とする請求項6に記載の方法。
  8. 前記スペクトル特性の計算は、前記正規化されたスペクトル特性に重み因子を適用することをさらに含むことを特徴とする請求項7に記載の方法。
  9. 1つ又は複数の参照指紋に対して指紋を照合する方法であって、
    請求項1〜8のいずれか1項に記載の方法にしたがい指紋を生成するステップと、
    前記生成された指紋の比較結果と、1つ又は複数の指紋の比較結果とを照合するステップと、を備える方法。
  10. 前記生成された指紋の1つ又は複数の比較結果は、照合が得られなかった場合は、相対的に低い信頼性に変更される関連指標を有することを特徴とする請求項9に記載の方法。
  11. 相対的に低い信頼性を示す関連指標を有する、前記生成された指紋の1つ又は複数の比較結果は、無視されることを特徴とする請求項9に記載の方法。
  12. 情報信号を表す指紋を生成する装置であって、
    前記情報信号の一部を分割レベルで複数の周波数サブバンドに分割するための分割手段と、
    前記複数の周波数サブバンドそれぞれについて前記一部のスペクトル特性を計算するための計算手段と、
    各スペクトル特性を基準と比較するための比較手段と、
    前記指紋を構成するために各比較結果を結合するための結合手段と、
    前記分割、計算、比較、及び結合を少なくとも1回繰り返すように構成された手段と、を備え、
    前記分割手段は、請求項1〜8のいずれか1項に記載の方法により、前の分割レベルとは異なる分割レベルを使用して前記分割を実行するように構成されることを特徴とする装置。
  13. 請求項12に記載の装置を備える、コンテンツ再生のための装置。
  14. コンピュータ上で実行されるとき、請求項1〜8のいずれか1項に記載の方法のステップの実行を前記コンピュータにさせる実行可能命令を含むコンピュータ読み取り可能な記憶媒体。
JP2017503759A 2014-04-04 2015-04-02 情報信号の指紋を生成するための方法及び装置 Active JP6462111B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
NL2012567A NL2012567B1 (en) 2014-04-04 2014-04-04 Method and device for generating improved fingerprints.
NL2012567 2014-04-04
PCT/NL2015/050211 WO2015152719A1 (en) 2014-04-04 2015-04-02 Method and device for generating fingerprints of information signals

Publications (2)

Publication Number Publication Date
JP2017518715A JP2017518715A (ja) 2017-07-06
JP6462111B2 true JP6462111B2 (ja) 2019-01-30

Family

ID=50896409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017503759A Active JP6462111B2 (ja) 2014-04-04 2015-04-02 情報信号の指紋を生成するための方法及び装置

Country Status (6)

Country Link
US (1) US10248723B2 (ja)
EP (1) EP3127014B1 (ja)
JP (1) JP6462111B2 (ja)
CN (1) CN106663102B (ja)
NL (1) NL2012567B1 (ja)
WO (1) WO2015152719A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322897B (zh) 2018-03-29 2021-09-03 北京字节跳动网络技术有限公司 一种音频检索识别方法及装置
KR20200142787A (ko) 2019-06-13 2020-12-23 네이버 주식회사 멀티미디어 신호 인식을 위한 전자 장치 및 그의 동작 방법
CN113112992B (zh) * 2019-12-24 2022-09-16 中国移动通信集团有限公司 一种语音识别方法、装置、存储介质和服务器
CN112104892B (zh) * 2020-09-11 2021-12-10 腾讯科技(深圳)有限公司 一种多媒体信息处理方法、装置、电子设备及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60228202D1 (de) * 2001-02-12 2008-09-25 Gracenote Inc Verfahren zum erzeugen einer identifikations hash vom inhalt einer multimedia datei
CN1628302A (zh) * 2002-02-05 2005-06-15 皇家飞利浦电子股份有限公司 指纹的有效存储器
DE60326743D1 (de) * 2002-09-30 2009-04-30 Gracenote Inc Fingerabdruckextraktion
CN1708758A (zh) * 2002-11-01 2005-12-14 皇家飞利浦电子股份有限公司 改进的音频数据指纹搜索
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
SE0501763L (sv) * 2005-08-03 2007-02-04 Precise Biometrics Ab Förfarande och anordning för upplinjering av ett inläst fingeravtryck
US7516074B2 (en) 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
KR100803206B1 (ko) 2005-11-11 2008-02-14 삼성전자주식회사 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법
US8009861B2 (en) * 2006-04-28 2011-08-30 Vobile, Inc. Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures
US8094872B1 (en) 2007-05-09 2012-01-10 Google Inc. Three-dimensional wavelet based video fingerprinting
US8140331B2 (en) 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US8238669B2 (en) * 2007-08-22 2012-08-07 Google Inc. Detection and classification of matches between time-based media
US8204314B2 (en) 2007-12-03 2012-06-19 Vobile, Inc. Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures
US8750530B2 (en) * 2009-09-15 2014-06-10 Native Instruments Gmbh Method and arrangement for processing audio data, and a corresponding corresponding computer-readable storage medium
CN102870155B (zh) * 2010-01-15 2014-09-03 Lg电子株式会社 处理音频信号的方法和装置
US8158870B2 (en) 2010-06-29 2012-04-17 Google Inc. Intervalgram representation of audio for melody recognition
KR101144016B1 (ko) * 2010-07-20 2012-05-09 한국과학기술원 Wi?Fi 신호지문 데이터베이스 확보 방법 및 이를 위한 시스템
EP2793223B1 (en) * 2010-12-30 2016-05-25 Dolby International AB Ranking representative segments in media data
US9093120B2 (en) * 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
US8577354B2 (en) * 2011-10-07 2013-11-05 Newaer, Inc. Automating actions within a phone network based upon scanned wireless signals
KR101300247B1 (ko) * 2011-11-11 2013-08-26 경희대학교 산학협력단 마르코프 연쇄 은닉 조건부 랜덤 필드 모델 기반의 패턴 인식 방법
US8492633B2 (en) * 2011-12-02 2013-07-23 The Echo Nest Corporation Musical fingerprinting
US8949872B2 (en) * 2011-12-20 2015-02-03 Yahoo! Inc. Audio fingerprint for content identification
CN103294696B (zh) * 2012-02-27 2018-01-19 上海果壳电子有限公司 音视频内容检索方法及系统
KR101315970B1 (ko) * 2012-05-23 2013-10-08 (주)엔써즈 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법
US9251406B2 (en) * 2012-06-20 2016-02-02 Yahoo! Inc. Method and system for detecting users' emotions when experiencing a media program
EP2868109B1 (en) * 2012-06-28 2016-08-17 Google, Inc. Generating a sequence of audio fingerprints at a set top box
US20140019390A1 (en) * 2012-07-13 2014-01-16 Umami, Co. Apparatus and method for audio fingerprinting
CN103324663A (zh) * 2013-04-23 2013-09-25 广东工业大学 基于mdct频谱期望的压缩域音频指纹提取方法
US9159328B1 (en) * 2014-03-27 2015-10-13 Verizon Patent And Licensing Inc. Audio fingerprinting for advertisement detection

Also Published As

Publication number Publication date
JP2017518715A (ja) 2017-07-06
US10248723B2 (en) 2019-04-02
US20180018394A1 (en) 2018-01-18
EP3127014B1 (en) 2018-01-10
NL2012567B1 (en) 2016-03-08
CN106663102B (zh) 2021-05-07
EP3127014A1 (en) 2017-02-08
WO2015152719A1 (en) 2015-10-08
CN106663102A (zh) 2017-05-10
NL2012567A (en) 2016-01-13

Similar Documents

Publication Publication Date Title
JP4723171B2 (ja) マルチメディア・コンテンツのハッシュの生成および突合せ
US8411977B1 (en) Audio identification using wavelet-based signatures
Haitsma et al. Robust audio hashing for content identification
US9286909B2 (en) Method and system for robust audio hashing
TWI480855B (zh) 聲音訊號之特徵指紋擷取與匹配
US10089994B1 (en) Acoustic fingerprint extraction and matching
US20140310006A1 (en) Method to generate audio fingerprints
US20160247512A1 (en) Method and apparatus for generating fingerprint of an audio signal
US20060013451A1 (en) Audio data fingerprint searching
JP2006501498A (ja) 指紋抽出
JP6462111B2 (ja) 情報信号の指紋を生成するための方法及び装置
KR20040024870A (ko) 음성 기록의 자동 확인
KR101841985B1 (ko) 오디오 핑거프린트 추출 장치 및 방법
US20150310008A1 (en) Clustering and synchronizing multimedia contents
Saracoglu et al. Content based copy detection with coarse audio-visual fingerprints
You et al. Music identification system using MPEG-7 audio signature descriptors
Kim et al. Robust audio fingerprinting method using prominent peak pair based on modulated complex lapped transform
Ghouti et al. A robust perceptual audio hashing using balanced multiwavelets
You et al. Using paired distances of signal peaks in stereo channels as fingerprints for copy identification
Organiściak et al. Single-ended quality measurement of a music content via convolutional recurrent neural networks
Ouali et al. Robust features for content-based audio copy detection.
KR101841983B1 (ko) 오디오 핑거프린트 식별 장치 및 방법
Boxx II Video Forensic Method Based on Temporal Noise Correlation
Najdi et al. Audio fingerprinting based on multi-resolution analysis of Discrete Wavelet Transform
Koziel Steganographic Methods in Information Protection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181226

R150 Certificate of patent or registration of utility model

Ref document number: 6462111

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250