JP5060565B2 - 信号の信頼できる識別をするためのビデオ及びオーディオ信号内容の特徴の抽出 - Google Patents

信号の信頼できる識別をするためのビデオ及びオーディオ信号内容の特徴の抽出 Download PDF

Info

Publication number
JP5060565B2
JP5060565B2 JP2009539366A JP2009539366A JP5060565B2 JP 5060565 B2 JP5060565 B2 JP 5060565B2 JP 2009539366 A JP2009539366 A JP 2009539366A JP 2009539366 A JP2009539366 A JP 2009539366A JP 5060565 B2 JP5060565 B2 JP 5060565B2
Authority
JP
Japan
Prior art keywords
value
vector
signature
features
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009539366A
Other languages
English (en)
Other versions
JP2010512057A (ja
Inventor
ラダクリシュナン、レグナタン
バウエル、クラウス
テリー、ケント・ベネット
リンク、ブライアン・デイビッド
キム、ヒュン・スク
グゼル、エリック
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2010512057A publication Critical patent/JP2010512057A/ja
Application granted granted Critical
Publication of JP5060565B2 publication Critical patent/JP5060565B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/005Robust watermarking, e.g. average attack or collusion attack resistant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/0028Adaptive watermarking, e.g. Human Visual System [HVS]-based watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は一般的にビデオ及びオーディオ信号の処理に関し、より具体的には信号を識別するためにビデオ信号及びオーディオ信号から特徴を抽出するプロセスに関する。本明細書を通じ、「ビデオ信号」及び「ビデオ内容」の用語は視覚による知覚を予定する画像を表す信号及び内容を言い、「オーディオ信号」及び「オーディオ内容」の用語は聴覚による知覚を予定する音を表す信号及び内容を言う。
ビデオ及びオーディオ信号により伝達される無断使用の内容を検出すること又は関連を絶たれたビデオ及びオーディオ信号を再同期させることを試みる様な応用行為はしばしばその信号を識別するための信号の内容を検討するプロセスに依存する。これらの応用行為の多くの場合において、これらの信号の内容が意図せずに又は意図的に改変されているが、依然として改変された内容を人が観察した場合に元の内容と本質的に変わらないと認識される様な場合においても、信号の信頼できる識別ができることが重要である。もし元の信号と改変された信号の内容の間の違いが小さいものであると感じられる場合は、識別プロセスにおいて、元の信号及びそれと非常に似ている改変された信号から識別する特徴を抽出することができることが好ましい。
信号内容に意図しない改変を加える例として送信チャネル及び記憶媒体の信号にノイズを挿入し又は加えることを含む。ビデオ信号に意図して改変を加える例として、コントラスト/明るさ調整、ガンマ修正、輝度ヒストグラム平坦化、彩度調整、及び白色平衡化のための色彩修正の様な輝度及び色彩調整、画像のトリミング及びサイズの変更、画像の回転及び反転、引き伸ばし、シミの除去、不鮮明化、明確化及び輪郭強調の様な幾何学的改変を含み、及び非可逆圧縮の様な符号化技術を含む。オーディオ信号の意図的改変の例として、増幅、等化(equalization)、ダイナミックレンジ修正、チャンネルアップミキシング(channel up-mixing)、タイムスケール修正、スペクトル形成及び非可逆データ圧縮(lossy data compression)を含む。
本発明の目的は、信号の内容が上に述べた様なメカニズムにより改変されていた場合においても、ビデオ及びオーディオ信号の信頼可能な識別をするために用いることのできる識別プロセスを提供することである。
この目的は以下に開示する本発明により達成される。
本発明の種々の特徴及び好ましい実施の態様は以下の検討及び添付された図面を参考することによりよく理解されるであろう。幾つかの図面においては同様な参考番号は同様の要素を指す。以下の検討の内容及び図面は単に本発明における例として記載されるものであり本発明の範囲を限定することを意図するものと解してはならない。
図1はビデオ及びオーディオ信号の信頼できる識別をするために用いられるシステムの略ブロック図である。 図2はビデオ信号の信頼できる識別をするために用いられるシステムの略ブロック図である。 図3はオーディオ信号の信頼できる識別をするために用いられるシステムの略ブロック図である。 図4Aはビデオ内容の2つのフレームの違いを表す相違測定をするために使用されるプロセスの略ブロック図である。 図4Bはビデオ内容の2つのフレームの違いを表す相違測定をするために使用されるプロセスの略ブロック図である。 図4Cはビデオ内容の2つのフレームの違いを表す相違測定をするために使用されるプロセスの略ブロック図である。 図5Aは低解像度画像における一組の中間値の略ブロック図である。 図5Bは低解像度画像における一組の中間値の略ブロック図である。 図6はオーディオ内容のあるセグメントの時間周波数での表示を作り出すために使用されるプロセスの略ブロック図である。 図7は低解像度の時間周波数表示の一組の中間値の略ブロック図である。 図8は同期させたビデオ/オーディオストリームの参考署名(reference signature)及び調整情報を得る装置の略ブロック図である。 図9はビデオ/オーディオストリームの同期を回復する装置の略ブロック図である。 図10はビデオ/オーディオストリームのタイミングの遅れを表す略ブロック図である。 図11はビデオ又はオーディオの内容のコピーを検出する署名データベースを管理する装置の略ブロック図である。 図12は本発明の種々の特徴を実施するために使用される装置の略ブロック図である。
発明を実施するための形態
A.説明
図1は信号の信頼できる識別を得るためにビデオ/オーディオ信号3のセグメント3aから3dの内容を検討する代表的なシステム300の略ブロック図である。ビデオ署名発生器100はビデオ内容を認識する一組のビデオ署名(SV)199aから199dを得、オーディオ信号発生器200はオーディオ内容を識別する一組のオーディオ署名(SA)299aから299dを得る。図に示す例ではビデオ及びオーディオビデオ内容の個々の署名はビデオ/オーディオ信号のセグメントに対応する。この具体的な例は以下の幾つかの段落で更に議論するが、ビデオ/オーディオ信号のそれぞれのセグメントはビデオ内容の一フレーム及びオーディオ内容の一セグメントを伝える。ビデオ/オーディオセグメント、ビデオフレーム、オーディオセグメント及び署名の間のこの具体的な対応は単に一つの例として示すものである。他の組み合わせた対応も可能である。
図2はビデオ署名発生器100の略ブロック図である。相違測定プロセッサ120は一連のビデオフレーム内の2つのビデオフレーム1a及び1bの内容を検討し、2つのフレームのすべて又はその一部の間の一以上の相違測定を表す中間値を作り出す。もし各ビデオフレームの内容が、例えば、個々の画素又はピクセルの強度を表す一連の値によって示される場合、中間値はピクセル群の強度の平均又は標準偏差の間の一連の差であることもある。ビデオ署名プロセッサ170は、ビデオフレームの内容を識別するビデオ署名(SV)199bを生み出すために中間値に対してハッシュ関数を適応する。
図3はオーディオ署名発生器200の略ブロック図である。時間周波数表示プロセッサ210は一連のセグメント内でのオーディオセグメント2bの内容を検討し、セグメント中のオーディオ内容のスペクトル成分のすべて又は一部を示すスペクトル値を作り出す。もし例えば、セグメントのオーディオ内容が個々のサンプルの振幅を表す値により示される場合、スペクトル値は、ブロック時間領域の周波数領域への変換により生み出される時間周波数表示内の一連の係数であってもよい。中間値プロセッサ250はスペクトル値群を検討し、各群のスペクトル値の強度から中間値を導き出す。オーディオ署名プロセッサ270は、中間値にハッシュ関数を適用してオーディオセグメントの内容を識別するオーディオ署名(SA)299bを作り出す。
B.ビデオ署名発生器
ビデオ署名発生器100の成分は種々の方法で実施されうる。好ましい実施の態様では、殆ど又は全く知覚上の効果を持たないビデオ内容の改変に比較的無反応である署名を作り出す。ビデオ内容に対する改変が知覚される画像に本質的な影響を与えない場合は、これらの改変はまた生成された署名に本質的な影響を持たない。2つのビデオ署名の間のいくらかの相違は、署名が生成される2つの内容の相違の程度に等しい。いくつかの代表的な例を以下に検討する。
以下に検討する実施の態様ではビデオフレームの間の一以上の相違測定値を表す中間値を算出する。その理由は相違測定値を用いることにより、生成された署名の元の内容中の動作及び他の変化に対する感度を増大させるが、輝度又は対照を変化させる又は異なる色空間の間で変わり又は色補正を適用する様な、続くプロセスでの修正に対する感度を除去し又は減少させるからである。
中間値はビデオ内容の任意の2つのフレーム1a、1bについて算出してもよい。これらの2つのフレームは一連のフレーム内の隣接するビデオフレームであってもよく、又は一以上の中間に介在するフレームにより互いに分離していてもよい。もしこれらの2つのフレームが特定の数の介在するフレームによるよりも特定の時間間隔により分離されている場合は、これらの2つのフレームについて算出された中間値は通常ビデオフレームレートを変えるコードプロセス(coding process)によって起こされる修正によって影響を受けぬくい。
1. 相違測定プロセッサ
相違測定プロセッサ120の幾つかの代表的実施例を図4Aから4Cに示す。図4Aを参照すると、構成部分122aはビデオフレーム1aから一以上のピクセル群を形成し、構成部分124aはこれらのそれぞれのピクセル群の一以上の特徴を抽出しそして各特徴を表すR値を算出する。構成部分122bはビデオフレーム1bからの一以上のピクセル群を形成し、構成部分124bはこれらのそれぞれのピクセル群から一以上の特徴を抽出し、これらの各々の特徴を表すR値を算出する。構成部分126は2つのビデオフレーム1a、1b中の対応する特徴と対応するピクセル群のR値の間の相違測定値を表す中間値Qを算出する。
a)ピクセル群の形成
構成部分122a及び122bは実質的に任意の所望の方法によりピクセル群を形成してもよい。以下に幾つかの代替案を検討する。もし望む場合は、ビデオ署名を作り出すために用いられるビデオフレーム中の情報は、画像の端又はコーナーにレターボックス又は図形を加える任意のプロセスにより生ずる変化を避けるために全画像の一部分のみに限定してもよい。これは、特徴を抽出する前に画像をトリミングすることにより、R値が算出された後に抽出された特徴を表す一連のR値をトリミングすることにより、又はR値から算出される一連の相違値をトリミングすることによるなどの種々の方法により達成される。好ましくは、これは特徴を抽出する前に画像をトリミングすることで達成される。
テレビなどへのビデオの利用においては、好適なトリミングは画像の中央部分を選択し、画像の端に近いビデオ内容に挿入されたロゴ又は他の図形が抽出される特徴に影響を与えないようにする。トリミングはまた、順次走査及びインターレース走査フォーマットの間の変換、及び高解像度(HD)フォーマット及び標準解像度(SD)フォーマットの間の変換のため、画像の修正を不要とする。ある特定のHDをSDフォーマットへの変換のためのトリミングについては続く段落で検討する。
もし解像度1080 x 1920ピクセルを持つHDフォーマットの元のビデオ内容が、例えば、解像度480 x 640ピクセルのSDフォーマットに変換される場合、元の画像は変換される画像に残っている元の画像の中央の部分を選択するようにトリミングすることができる。適切なトリミングにより、SDフォーマット画像と同じ縦横比を持つ解像度1080 x 1440ピクセルの画像を得るために元のHDフォーマット画像の左端から240ピクセルを及び右端から240ピクセルを除去する。トリミングされる範囲は、上に述べたロゴ又は図形物で修正されることもある追加された画像領域を除去する様に調整しても良い。
一連のピクセルのビデオフレームが異なるフォーマット間で変換される場合に発生しうる修正に対する感度を減少させるためにサンプルダウン(down-sample)しても良い。例えば、テレビで応用する場合は、画像は解像度120 x 160ピクセルにダウンサンプルしても良く、これはHD及びSDフォーマットでは好都合の選択であり、順次走査及びインタレース走査フォーマットで都合の良い選択である。
このダウンサンプル化は、ビデオフレームで伝送される画像の水平及び垂直解像度を決めるためにビデオ内容を伝えるパラメータ又は他のメタデータを検討し、これらの解像度に応じた因子を選択し、及びその因子に等しい量の画像をダウンサンプルすることにより実施しても良い。ここで検討する例では、トリミングされたHDフォーマット画像には9に等しい因数が選択され、SDフォーマット画像には4に等しい因数が選択される。
例えば、元のビデオ信号の内容が解像度1080 x 1920ピクセルのHDフォーマットであるとする。この内容は上に述べた様に解像度1080 x 1440ピクセルを持つ画像にトリミングすることができ、そして因数9により解像度120 x 160ピクセルにダウンサンプルすることができる。この低解像画像から特徴を抽出することができる。さらに元のビデオ信号が解像度480 x 640を持つSDフォーマットに変換されるとする。この変換された画像は因数4により解像度120 x 160にダウンサンプルすることができ、これにより元の信号でなされたと同様に変換された信号から本質的に同じ特徴が抽出されうる。同じダウンサンプル化はSDからHDフォーマットへ変換及び順次走査及びインターレース走査フォーマットの間の変換においても用いることができる。もし適切なダウンサンプル化が行われた場合は、これらの特徴抽出プロセス及び続く署名生成プロセスはフォーマット間の変換で起こる修正に反応しない。
もしビデオ信号が、ビデオのフレームが2つの場で配置されるインターレース走査フォーマットで内容を伝える場合、特徴を抽出する前に順次走査フォーマットに変換しても良い。代替的に走査フォーマットの選択からより独立した方法は、インターレース走査フレームの一つの場のみから抽出することで実現される。例えば、特徴あるフレーム中の第一の場のみから又はフレームの第二の場のみから抽出することができる。他の場のビデオ内容は無視される。このプロセスでは特徴を抽出する前に順次走査フォーマットに変換する必要がない。
ある実施の態様では、ピクセル群は解像度120 x 160ピクセルのダウンサンプル画像で形成される。例えば、図5Aでは、ピクセル群はそのサイズは均一であり、その幅はGXピクセル、高さはGYピクセルである。群の横方向サイズGXはK・GX= RHとなるように、またGYの縦方向サイズはL・GY= RVとなるよう選択され、ここでRH及びRVは各ビデオフレームにおける画像の各々横及び縦方向の寸法である。ある好適な数値はGX=8, GY=8, K=15及びL=20である。
これは15 x 20の配置群を示し、各群はダウンサンプル化画像中に8 x 8ピクセルサイズを持つ。
同様の結果が、ビデオフレーム中の画像のフォーマットに対応して調整されたサイズを持つ元の画像中のピクセル群を形成することにより得られる。上に記載の実施例について続けて検討すると、HDフォーマット画像は1080 x 1440ピクセルのサイズにトリミングされ、ピクセル群は72 x 72ピクセルのサイズのトリミングされた画像に形成される。これにより15 x 20 配置のピクセル群が生成される。SDフォーマット中の画像では、ピクセル群は32 x 32 ピクセルサイズを持つ元の画像に形成され、これは15 x 20 配置のピクセル郡を生成する。
図5Bはサイズが均一でないピクセル群を示す。6 x 4 配置のより小さいピクセルが画像の中心部分を構成する。一組のより大きいピクセル群が中心部分の群を包囲する。この種の配置は、知覚上より重要である各画像の中心部分にある内容を含むビデオフレーム情報において有利に用いることができる。
ピクセル群は本質的にどの様なサイズ又は形であっても良い。例えば、図5Bに示す画像の中心部分は、より幅広線で示す長方形により取り囲まれているが、単一ピクセル群であっても良く、画像の残りの部分は他のピクセル群であっても良い。
好ましくは、ビデオ内容の修正の結果生じることのあるピクセル郡の配置の任意の変更によりもたらされる変化に対する感度を低下させるために、ピクセルは低域(low-pass)フィルターろ過される。フィルターろ過はピクセル群形成プロセスの間一以上の回数実施しても良い。例えば、ピクセルは上に述べたダウンサンプル化操作の前に、ダウンサンプル化操作直後に及び/又はピクセル群の形成直後に、低域(low-pass)フィルターろ過しても良い。フィルターのサイズは、一方の調整変化に対する抵抗と他方のビデオ内容の変化に対する感度とをバランスさせる様に選ぶべきである。より大きいフィルターは調整での変化に対する抵抗を増大させる。より小さいフィルターはビデオ内容の変化に対する感度を増大させる。もし低域フィルターが上で検討した120 x 160 ダウンサンプル化された画像に適用された場合、経験的に、全てのタップ係数(tap coefficient)が1に等しい3 x 3の2次元フィルターを用いることにより良い結果が得られることが判明した。特徴抽出についての以下の検討は図5Aに示す代表的群に関するものである。
b)特徴の抽出
構成部分124a及び124bは各ピクセル群から一以上の特徴を抽出して各特徴を表すR値を算出する。
もし各ビデオフレームが単色画像を伝送する場合は、これらの特徴は個々のピクセルの強度を表すデータeから抽出しても良い。例えば、もし各ビデオフレームが赤、緑及び青(RGB)値で表されるピクセルを含むカラー画像を伝送する場合、各別々の特徴は赤、緑及び青のピクセル成分のそれぞれを表すデータeから抽出しても良い。代替的に特徴は、赤、緑及び青成分を表すデータに基づくピクセル輝度又は明るさを表すデータeから抽出しても良い。
抽出されるある特徴はピクセルの平均強度である。この特徴を表すRAVE値は以下の式から得ることができる:

Figure 0005060565
式中
RAVE(k,l)=ピクセル(k,l)群のピクセルの平均強度
e(i,j)=群中のピクセル(i,j)の強度
GX=ピクセル数で表されるピクセル群の幅
GY=ピクセル数で表されるピクセル群の高さ
K=ピクセル数で表される画像の水平解像度
L=ピクセル数で表される画像の垂直解像度
抽出される他の特徴はピクセル強度の標準偏差である。代替的に標準偏差の分散又は二乗を用いても良い。標準偏差を表すRSD値は以下の式から得られる:

Figure 0005060565
式中
RSD(k,l)=ピクセル(k, l)群中のピクセル強度の標準偏差。
抽出される他の特徴はピクセル強度のヒストグラムである。この特徴を表す一組のRHISTは在りうる強度の範囲において各強度のある特定の強度を持つピクセルの数を数えることにより得られる。
更に他の特徴はスペクトルの振幅及び/又は相である。スペクトルを表す一組のRSPECTRUM値は2次元フーリエ変換をピクセル強度群に適用することで得られる。
特にいずれの特徴が本発明にとって決定的なものであるというものではない。しかし、経験より言うと、ピクセル強度の平均及び標準偏差は多くの応用において選択して良い特徴である。
もし望むならば、抽出された特徴を表すR値は続くプロセスのために群に配置しても良い。例えば、一組のRSPECTRUM値により表されるスペクトルの特徴は周波数又は相に基づいて群に体系づけても良い。さらに、特徴は算出されたR値から抽出されることもある。例えば、平均強度RAVE又はスペクトルRSPECTRUM値の標準偏差を算出しても良い。
c)相違測定値の算出
構成部分126は測定相違Eを表す中間値Qを種々の方法で算出する。その測定方法を選択することは原則として本発明にとり決定的なものではないが、ある測定方法は構成部分124a及び124bにより抽出される特徴に基づいてより良い結果示すこともある。好適な選択をするためには経験的な判断が必要となることもある。以下に述べる2つの方法は広い範囲で適用されよい結果を生むことが判明した。
一つの相違測定法は2つの異なるフレームの対応するピクセル群の対応する特徴を表すR値の間の、差の絶対値によることである。この測定方法は以下の式により算出することができる:

Figure 0005060565
式中
E(k, l, f1, f2) =ピクセル群(k,l)のフレームf1及び f2の間の相違、及びR(k, l, x) =フレームxのピクセル群(k,l)の抽出された特徴を表す値である。
例えば、もし抽出された特徴が、スペクトルの特徴を表すRSPECTRUM中の振幅の様な2以上の要素を表示する値によって表される場合、相違測定は、2つの異なるフレーム中の対応するピクセル群の対応する特徴を表すR値中の要素間の差の絶対値の合計から算出しても良い。この測定値は以下の式から計算されうる:
Figure 0005060565

式中
R(k, l, z, x) =フレームx中のピクセル群(k, l)のR値中の要素zである。
もし、望むならば、フレーム中の2以上のピクセル群の相違の複合測定値は以下の式から算出される:

Figure 0005060565
式中E(fi,f2) =フレームf1及び f2の間の、相違の複合測定値;及びk及びlの合計の限界値は所望の群を含む様に選択される。この特定の例ではR値は一以上の要素を持つと想定される。もしそれらのR値が唯一の要素を持つ場合zに対する合計は含まれない。
相違測定の他の例は、2つの異なるフレーム中の対応するピクセル群の対応する特徴を表すR値の間の差の二乗である。この値は以下の式から算出されうる:

Figure 0005060565
もし抽出された特徴が2つ以上の要素を含む値により表される場合は、相違測定は2つの異なるフレーム中の対応するピクセル群の対応する特徴を表すR値の間の要素の差の二乗の合計から算出しても良い。この測定値は以下の式から算出される:

Figure 0005060565
もし所望する場合は、フレーム中の2以上のピクセル群の相違複合測定値は以下の式から算出しても良い:

Figure 0005060565
式中
k及びlの合計の限界値は所望の群を含む様に選定される。この特定の例ではR値は一以上の要素を持つと想定される。もしR値が唯一の要素を持つ場合はzに対する合計は含まれない。
ある実施の態様においては、中間値Qは算出された相違測定値Eに等しく設定される。代替例について以下に検討する。
d)代替的実施の態様
もし平均ピクセル強度の間の差が署名生成に使用される相違測定値のみである場合は、相違測定プロセッサ120は図4B及び4Cに示す様に実行されても良い。これらの実施の態様においては、ピクセル強度又は平均強度はビデオフレーム1a 及び1bから抽出され、抽出された特徴の間の相違測定値が算出され、そして相違測定値は続く署名生成のため群に形成される。
図4B及び4Cに示す標準的な実施の態様においては、ビデオ内容のフレームは一連の個々のピクセルにより表され、相違測定プロセッサ120は、その各々が一連の微分要素を含む差分画像(difference image)を、2つのビデオフレーム中の対応するピクセル間の差を算出することにより得る。もし各々のビデオフレームが例えば、赤、緑及び青(RGB)の値により表されるピクセルを含むカラー画像を伝送する場合は、微分要素は対応するピクセルの各赤、緑及び青値の間の違いから算出しても良い。好ましくは微分要素は赤、緑及び青値に基づく対応するピクセルの輝度又は明るさの間の絶対差から算出される。もし各ビデオフレームが単色画像を伝送する場合は、微分要素は対応スルピクセルの強度の差から算出しても良い。
もし望むならば、微分要素は、画像の端又はコーナーにレターボックス又は図形を加えるプロセスにより起きる変化を避けるために全画像の一部のみに限定しても良い。この限定は微分要素の算出の前に画像をトリミングすることにより、又はこれらを算出した後に一連の微分要素をトリミングすることにより実施しても良い。
差分画像の解像度はピクセル群を形成するために上に述べた様に変化させても良い。これは微分要素を算出する前にビデオフレーム中のデータを修正することにより、又はそれらが算出された後に微分要素を修正することにより実施しても良い。
図4Cに示す実施の態様について述べると、構成部分123はビデオフレーム1 a 及びビデオフレーム1b中の対応するピクセル値の間の差を算出し、構成部分125はピクセルの差の絶対値から一組の微分要素Δを得る。構成部分127はトリミング及びダウンサンプル化を行う。トリミング操作は差分画像の最上部、底部、右端及び左端に近い微分要素を取除くことにより、差分画像の中央部分のみを維持する。ダウンサンプル操作は、インプットビデオフレームのフォーマットに関係なく特定の120 x 160ピクセルサイズを持つ一連の微分要素を生成するため、トリミングされた差分画像をダウンサンプルする。この特定のサイズは単なる代表例である。構成部分128は微分要素Δを群に形成し、各群中の微分要素の平均値を算出する。もし、望むならば、ダウンサンプル化及び群形成操作は上に述べた様に組み合わせても良い。
差を算出し、ダウンサンプルし、トリミングし及び群を形成する操作は異なる順序で実施しても良い。例えば、微分要素Δはまず2つのビデオフレームの内容をダウンサンプルし、ダウンサンプルされた画像をトリミングし、トリミングされた画像にピクセル群を形成し、各群中のピクセルの平均強度を算出し、そして2つの画像中に対応する平均強度の間の差を出すことにより算出する。図4cに示す群形成操作128について述べると、微分要素Δはある差分画像の複数の領域にグループ化され、その各領域はGX要素の幅及びGY要素の高さを持つ。中間値Qは微分要素Δの強度から各領域の要素の平均強度を算出することによって得られる。これらの中間値はK x Lの中間値解像度を持つ差分画像の低解像度表示を構成する。これは上に検討したピクセル群の形成に類似し、図5A及び5Bに示す。以下の段落に表す代表的な実施の態様では図5Aに示すピクセル群と同様な方法で配置された要素を持つ低解像度画像を使用する。
中間値は以下の式から得ても良い:
Figure 0005060565
式中
Q(k ,1) =低解像度画像中の中間値
GX= 要素の数で表される微分要素群の幅;
GY=要素の数で表される微分要素群の高さ;
K =低解像度画像の水平解像度;
L =低解像度画像の垂直解像度;及び
Δ(l, j) =微分要素
群の水平サイズGXは、K・GX= RHであり、及び群の垂直サイズGYはL・GY= RVとなる様に選択され、ここでRH及びRV は各々差分画像の水平及び垂直解像度である。解像度120 x 160を持つダウンサンプル化された差分画像に要素を生成する、上で検討した代表的な実施の態様においては、群にとってある好適なサイズは8 x 8ピクセルであり、このサイズは120/8 x 160/8 = 15 x 20の解像度を持つ低解像度画像を提供する。
ビデオ署名を生成するために、より高解像度微分要素よりもより低解像度中間値Qを用いることにより、生成されたビデオ署名は、ビデオ信号内容の詳細を変化させるが平均強度を維持するプロセスに対し余り反応しない。
2. ビデオ署名プロセッサ
以下の段落に記載するビデオ署名プロセッサ170を実行することによって、図5Aに示す一連のR値又は図4Cに示すプロセッサに関連して上で議論したK x L配置の微分要素から得られたK x L配置の中間値Qからビデオ署名を生成する。
ビデオ署名プロセッサ170は、一組のNハッシュビットを生成するためにK x L配置の中間値Qに対してハッシュ関数を適用する。これらのハッシュビットはビデオフレームの内容を識別するビデオ署名(VS)を構成する。好ましくは、ハッシュ関数は中間値の変化に余り反応しないが、用いられるハッシュキー(hash key)の何れの変化に対しても反応するのが良い。そのインプットの単一のビットが変化してもそのアウトプットが大きく変わる典型的な暗号学的ハッシュ関数と異なり、この場合に適用される好ましいハッシュ関数はインプットされる中間値の小さな変化に対して小さい変化のみを生ずるアウトプットを提供する。これにより生成されたビデオ署名は、ビデオ信号内容に小さい変化が起きた場合に僅かに変化することが可能になる。
ある好適なハッシュ関数では一組のNハッシュビットを生成するために一組のNベース マトリクスを用いる。ベースマトリクスP1 からPNはK x L配置のランダム値マトリクス要素である。各ベースマトリクスPnのマトリクス要素pn (k,l) は以下の式から生成しても良い:
Figure 0005060565
(6)
式中
pn(k, l) =ベースマトリクスPn のマトリクス要素(k, J);
RNG = ランダム数発生器のアウトプット;及び
Figure 0005060565
発生器RNGは範囲[0,1]に均一に分布したランダム又は擬似ランダム値を生成する。発生器の当初の状態はハッシュキーにより初期化され、それによりハッシュ関数及び生成されたビデオ署名を暗号的により安全にすることができる。
一組のNハッシュビットはまず中間値Qを各Nベースマトリクスに投射することにより得られ、以下の様に表される:
Figure 0005060565
式中
Hn =中間値をベースマトリクスPnに投射したもの。
ハッシュビットは各投射を全ての投射の中間値に対比し、そしてもし投射が閾値に等しく又はそれを越える場合はハッシュビットを第一の値にセットし、もし投射が閾値より低い場合はハッシュビットを第二の値にセットすることにより得られる。これは以下の式で表わされる:
Figure 0005060565
ただし、sgn (x) = 0 x < 0の場合
= 1 x ≧ 0の場合
Figure 0005060565
C.オーディオ署名発生器
オーディオ署名発生器200の構成部分は種々の方法により構成することができる。好ましい実施の態様においては、オーディオ内容に殆んど又は感知されない効果しかない修正に対して比較的反応しない署名を生成する。もしオーディオ内容に対する修正が感知される音に本質的な影響を与えない場合、好ましくはこれらの修正はまた生成された署名に対して実質的な影響を与えない。2つのオーディオ署名にいくらかの違いがある場合にはそれは署名が生成される2つの内容の間の違いの程度に等しい。幾つかの好適な実施の態様について以下に検討する。
1.時間周波数表示プロセッサ
オーディオ信号のセグメントが個々のサンプルの振幅を表す値により表わされている代表的な実施の態様では、時間周波数表示プロセッサ210は、各セグメント内の一連の重複するオーディオサンプルブロックに対して、時間領域から周波数領域への変換を適用することにより生成させる変換係数から一組のスペクトル値を得る。もし望むならば、スペクトル値は、オーディオ内容のスペクトル形を変えるプロセスにより生成される変化を避けるためにオーディオ内容の全バンド幅の一部のみに限定しても良い。例えば、限定された表示は最低周波数及び最高周波数スペクトル成分を表す変換により生成されるこれらの変換係数を除くことにより、又は変換を適用する前にオーディオ内容を帯域(bandpass)フィルターろ過することにより得ることができる。
時間周波数表示プロセッサ210の代表的な実施の態様により実施される操作は図6に系統的に表されている。この実施の態様では、オーディオ内容2aのセグメントは一連の重複するブロックBLOCK-1からBLOCK-Tに分割されている。各セグメントの長さはLSサンプルであり各ブロックの長さはLBサンプルである。隣接するブロックの最初の部分の間の相殺はブロックステップサイズとして記載される多数のサンプルZBである。ブロック変換がサンプルの各ブロックに適用され一組のスペクトル値を生成する。図6は変換20により一つのブロックBLOCK-2を一組のスペクトル値25aに変換することを示す。この特定の実施の態様ではプロセス処理は、セグメント2aの全てのTブロックが各組のスペクトル値に変換された後に次のセグメント2bのブロックに続く。隣接するセグメントの開始部分間の相殺はセグメントステップサイズとして記載され多数のサンプルZSである。
時間周波数表示の時間分解能はセグメントの長さ、ブロックの長さ及びブロックステップサイズの関数であり、以下の様に表すことができる:

T =(LS−LB)/ZB (8)
式中
T=各セグメントのブロックの時間分解能又は数
LS =サンプル中の各セグメントの長さ;
LS =サンプル中の各ブロックの長さ;及び
ZB =ブロック ステップ サイズ
周波数分解能は通常ブロックの長さ又はスペクトル値を生成するために用いられる変換の長さにより決定される。
以下に検討するビデオ及びオーディオ内容を同期させる応用例では、オーディオ内容は3つのビデオフレームの長さに等しいセグメントに分割される。あるテレビジョンでの応用では、3つのビデオフレームの間の時間間隔は約100ミリ秒である。もしオーディオサンプルレートが48 kHzであるならば、オーディオセグメントの長さは4,800サンプルである。ブロックの長さは256サンプルとなるように、及びブロックステップサイズは32サンプルになるよう選択される。これを実施するために各オーディオセグメントはT= 142ブロックを持ち;したがって、時間周波数表示の時間分解能は142に等しい。
256ポイント高速フーリエ変換(FFT)が、129スペクトル値を生成するためにサンプルの各ブロックに適用される。したがって、時間周波数分解能は129に等しい。セグメントステップサイズは512サンプル又は約10.7ミリ秒である様に選択される。
2. 中間値プロセッサ
中間値プロセッサ250はスペクトル値の群を検証し、そして各群のスペクトル値の強度から中間値を導く。
代表的な実施の態様では、スペクトル値Sは時間周波数領域にグループ化され、各領域はGFスペクトル値の幅及びGTブロック長さを持つ。中間値Qはスペクトル値の強度から、各領域のスペクトル値の平均強度を算出することにより導き出される。これらの中間値はK x L中間値の分解能を持つ低分解能時間周波数表示を構成する。これは図7に略図で示す。中間値は以下の式から得ても良い:
Figure 0005060565
式中
Q(k, l)=低分解能表示の中間値

GF=数値で表されたスペクトル値群の幅
GT= ブロック数で表されたスペクトル値群の長さ
K = 低分解能表示の周波数分解能
L =低分解能表示の時間分解能
S(i, j) = スペクトル値
GF群のサイズはK・GF = RTとなり、GT群のサイズがL・GT= RTとなる様に選定され、ここでRF及びRTは各低分解能表示の周波数及び時間分解能である。上で検討した及び以下に検討する典型的な実施の態様においては、群のある好適なサイズはGF = 6及びGT= 14であり、これは
Figure 0005060565
中間値の低分解能表示を提供する。オーディオ署名を生成するために高分解能時間周波数表示よりもむしろ低分解能中間値Qを用いることにより、生成されたオーディオ署名はスペクトル内容の詳細を変えるが平均スペクトルレベルを維持するプロセスに対して余り反応しない。
時間周波数表示及び中間値を算出する操作は他の方法により実施しても良い。例えば、低分解能表示の一組のスペクトル値は、ブロック長さ及び変換長さを減少させることにより得ることができ、及び同じ時間分解能を得る為にスペクトル値群のGT長さを増大させることにより得られることもある。もし望むならば、群のGF幅はスペクトルにわたり変えることができる。生成された署名にとってもし高周波数スペクトル成分が低周波数成分より重要性が少ないとみなされる場合、この相対的重要性を実現することは高周波数の群の幅を増大させることにより可能である。
3. オーディオ署名プロセッサ
オーディオ署名プロセッサ270は一組のNハッシュビットを生成するためにハッシュ関数をK x L配置の中間値Qに適用する。これらのハッシュビットはオーディオセグメントの内容を識別するオーディオ署名(SA)を構成する。これはビデオ署名について上で記載したと同じ方法で実施される。
D.適用
上で検討したビデオ及びオーディオ署名発信機は、ビデオ及びオーディオ内容の流れの間の失われた同期を回復すること及びビデオとオーディオ内容のコピーを検出することを含む種々の場合に用いても良い。これらに適用される場合の代表的な実施の態様を以下に示す。
1. ビデオ/オーディオの同期
ビデオ及びオーディオ内容の流れは、これらが記録され又は製作される場合、しばしば互いに同期させるが同期は続くプロセスで失われることもある。例えば、テレビジョン放送システムでは、同期させたビデオ及びオーディオの流れは、伝送のため組み合わされる前に信号処理のためしばしば2つの異なるパスに分離される。2つのパスの異なるプロセス処理上の遅れは同期を失わせる原因となる。これらの流れは手作業で互いに再同期させることができるがこれは骨の折れる且つ人的ミスの起こり易い作業である。上に記載の署名発生器は自動的に同期を回復するために使用することができる。例えば、放送システムでは、放送の直前の送信機又は聴取前の受信機を含むシステムの任意の箇所で同期を回復させることができる。
上に記載の様な技術は、ビデオ/オーディオの流れが同期することが知られている場合は、ビデオ及びオーディオ内容の流れから署名を生成するために用いられる。これらの署名の基になるビデオ及びオーディオ内容の間の調整を特定する調整情報も捕捉される。これらのビデオ及びオーディオ署名及び調整情報は、2つの流れの間の同期を回復する役割を持つ「同期回復装置」(resync device)に提供される。「同期回復装置」は、これらの流れが処理されそしてお互いに同期を失った後にビデオ及びオーディオ内容の流れを受信して、現在の調整情報と共に新たな署名を生成し、新たに生成された署名及び現在の調整情報を元の署名及び調整情報と関係付け、そして適切な同期が達成されるまで現在の調整状態を調節する。これが実行される一つの方法を以下に更に詳細に記載する。
a)代表的な実施の態様の概観
図8は同期させたビデオ及びオーディオ流れからビデオ及びオーディオ署名及び調整情報を生成する捕捉装置(capture device)350のブロック略図である。同期させたビデオ及びオーディオ内容及び流れはここで参考内容及び参考流れと呼ばれる。参考流れから得られる署名及び調整情報はここでそれぞれ参考署名及び参考調整情報とよばれる。ビデオ署名はビデオ署名発生器100により得られ、その後に同期回復装置で使用されるためパス190に沿い送られる。オーディオ署名はオーディオ署名発生器200により得られ、その後に同期回復装置で使用されるためパス290に沿い送られる。ビデオ及びオーディオ署名を生成するために用いられる技術は上に述べた。
捕捉装置350はまた種々の方法で表される調整情報を捕捉する。例えば、調整情報は特定のビデオ署名をオーディオ署名に関連付けることにより暗示されることもあり、その場合2つの署名は実質的に同時に始まるビデオ内容フレーム及びオーディオ内容のセグメントから生成される。この文脈では、ビデオ及びオーディオ内容の開始時間は、人である観測者がいずれの内容が先行すべきかの判断が困難である場合実質的に同じと考えられる。他の例として、調整情報はビデオ及びオーディオ署名と関連付けられそして基礎となるビデオ内容及びオーディオ内容の相対的なタイミングを特定する時間スタンプ又は時間オフセットにより表されても良い。もし明確な調整情報が提供されるならば、それは続く同期回復装置による使用のためにパス390を通して送られる。特に特定のタイプの調整情報が決定的に重要というものではない。以下に検討する実施の態様は調整情報が暗示的であるとの想定と矛盾するものではない。これらの例は、署名に伴う明確な時間スタンプ又は時間オフセットを説明するために容易に変えることができる。
図9はビデオ及びオーディオ内容の流れ間の同期を回復するために使用される同期回復装置400のブロック略図である。同期回復装置400はパス33から受け取ったビデオ及びオーディオ内容の流れからビデオ及びオーディオ署名を生成するビデオ署名発生器100及びオーディオ署名発生器200を含む。これらの流れの内容は種々のプロセスにより意図的に又は意図せずに改変され、そしてお互いに適切に同期しないこともある。これらのビデオ及びオーディオ内容及び流れは本明細書で現在の内容及び現在の流れと呼ぶ。現在の流れから生成される署名は本明細書で現在の署名と呼ばれる。
内容遅延計算機410は現在のビデオ署名を参考ビデオ署名と比較し、対応するフレームと見做される、参考ビデオ内容及び現在のビデオ内容の基礎となるフレームの間の相対時間差を予測する。内容遅延計算機420は現在のオーディオ署名を参考オーディオ署名と比較し、対応するセグメントと見做される参考オーディオ内容及び現在のオーディオ内容の基礎となる部分の間の相対時間差を予測する。放送の様な分野での応用では参考署名及び調整情報は現在の流れが到達する前に内容遅延計算機に送られるため、十分な情報がリアルタイムに同期を回復するのに利用される。相対遅延計算機430は、現在の流れの一方又は両方が適切な同期を達成するために調整することが必要となる遅延の量を計算するためにこれらの相対的時間差を用いる。この遅れを表す情報は、遅れを実行する他の機器の使用のためにパス490に沿い送られる。例えば、相対的ビデオ時間差が、参考ビデオフレームは対応する現在のビデオフレームに4秒の差で先行することを示すと仮定すると、相対的オーディオ時間差は、参考オーディオセグメントが対応する現在のオーディオセグメントに5秒先行することを示す。相対遅延計算機430は、適正な同期を達成するために現在のビデオ流れの1秒に等しい遅れを算出することができる。
b)内容遅れ計算機
上に述べた2つの内容遅れ計算機は参考及び現在の署名の順序を比較し、基礎となるビデオ/オーディオ内容の間の相対的時間差を予測する。これらの計算機は種々の方法で使用されうる。
ハミング距離関数を用いる一つの実施の態様について以下の段落に記載する。現在のビデオの流れが符号δvで表される処理遅れを課する信号処理パスを通して参考ビデオ流れから得られると仮定する。更に現在のオーディオ流れは符号δAで表される処理遅れを課する信号処理パスを通して参考ビデオ流れから得られると仮定する。参考ビデオ署名SVREF及び現在のビデオ署名SVCURRを比較してビデオ処理遅れの推測値εVを生成する。参考及び現在のビデオ流れの間の相対的時間差は推測される遅れεVをから得ることができる。内容遅れ計算機420は参考オーディオ署名SAREF及び現在のオーディオ署名SACURRを比較しオーディオ処理の遅れの推測値εAを生成する。参考及び現在のオーディオ流れの間の相対的時間差は推測される遅れεAから得ることができる。
処理の遅れを推測するために使用される一つの技術を以下の段落に説明する。ビデオ及びオーディオの間に違いはない。その理由はビデオ処理遅れの推測値εV及びオーディオ処理遅れの推測値εAは同じ方法で算出することができるからである。
内容遅れ計算機は2組の署名を受け取る。一つは{SREF(i)}で表される参考署名の数列であり、第二の組は{Scurr(i)}であらわされ現在の署名の数列である。相関器は2組の署名が高度の相関を持っている窓(window)を見つけ出すために2つの数列の範囲にわたり調査をする。これはまず以下の数値の計算行うことにより実行しても良い。
Figure 0005060565
式中
D(m, i)=流れの間の、特定の配列に対して計算された数値
HD[r,c] =署名r及びcの間のハミング距離
F = 参考署名{ SREF(i)}の組中の署名の数
U =相関器の調査範囲
W= 署名の数として表現された相関窓の長さ

ハミング距離は2つの署名が異なるビット位置の数に等しい。
推測される処理遅れは、相関ウインド内の参考及び現在の署名の間の再緊密マッチが見出されるmの値から得られる。これは以下の様に表わすことができる:
Figure 0005060565
もし処理の遅れがない場合はεi= iである。もし推測される遅れが3つのフレーム又は3つのセグメントである場合は、εi =i + 3である。フレーム又は署名SREF(i)に対応するセグメントの相対的時間差はεi及びiの間を相殺した差である。ビデオフレームiの相対的時間差はここではdv(i)で表され及びオーディオセグメントiの相対的時間差はここではda(i)で表される。
テレビジョンのある実施の態様においては、数値W=10及びU=45がビデオフレームの内容遅れ計算機410により用いられ、数値W=23及びU=47がオーディオセグメントの内容遅れ計算機420によって用いられる。ビデオ及びオーディオ遅れ計算機で用いられる数値Fは参考流れ中の各々ビデオフレーム及びオーディオセグメントの数である。
相対的遅れ計算機430は適正な同期を実現するため、ビデオ及びオーディオ流れの相対的時間差を用いて一つの又は両方の現在の流れの遅れの量を算出する。図10にその概略を示す。参考ビデオ流れ1の参考ビデオフレーム1b及び参考オーディオ流れ2の参考オーディオセグメント2bは同期していることが示されている。ビデオ流れ1の信号処理81及びオーディオ流れ2の信号処理82は2つの流れ中に異なる遅れを導入する。その結果現在のビデオ流れ31の現在のビデオフレーム1b及び現在のオーディオ流れ32の現在のオーディオセグメント2bは最早同期していない。
現在のビデオフレーム1bはdv遅れており、現在のオーディオセグメント2bはda遅れていた。同期を回復するのに必要な遅れの調整adjは(dv-da)に等しい。図に示す様に、もしdvがdaよりも大きい場合、同期はオーディオセグメントをadj分調整して、遅らせることで回復しても良い。もしdvがdaよりも小さい場合は同期はadj分調整することによってビデオフレームを遅らせることで回復しても良い。流れは本質的に所望の任意の方法によって遅らせることができるが、一つの方法は遅れに調整を与えることのできる十分な容量を持つ先入れ先出し(FIFO)バッファー中に流れの内容を記憶させ及び読み出すことである。
2. コピーの検出
ビデオ及びオーディオ内容から生成される署名は、その内容が上に述べたものを含み、種々のプロセスで改変された場合においても、その内容を識別するために用いることができる。特定のビデオ内容またはオーディオ内容が参考ビデオ内容又はオーディオ内容のコピーであるか否かを決定する機能は、その内容が改変されている場合にも種々の形で用いることができる。その例の幾つかを以下のリストに簡単に示す:
・ 許可されていないコピーの検出:ピアーツピア(peer to peer)サーバーのネットワークは内容の配布を容易にするが、これはまた法で保護された内容の許可を得ていない又は海賊版コピーの検出をより困難にすることもある。何故ならそれらの内容の多くのコピーはピアーツピア サーバーの間で存在しうるからである。ある設備はでは、もし許可を得ていないコピーがネットワーク上に存在するか否かをネットワークから利用可能な全ての内容の署名を生成し、これらの署名をデータベースの参考署名と対比することにより自動的に決定することができる。
・ 放送の確認:特定のビデオ及びオーディオ内容を配布する放送ネットワークと契約するビジネスでは、契約条件を確認することができるビジネスでは、放送受信機により受信する信号から署名を生成し、これらの署名を特定の内容の参考署名と対比することにより契約条件が守られているか否かを確認することができる。
・ 受信の識別:放送ネットワークの評価を提供するビジネスでは受信信号から署名を生成し、これらの署名を参考署名と対比して受信機により受信される内容を識別することができる。
図11は上のリストに記載された様な種々の応用例で用いることのできるシステムの概略ブロック図である。ビデオ署名発生器100及びオーディオ署名発生器200はパス31から受信された内容の参考ビデオ/オーディオ流れから参考ビデオ署名及び参考オーディオ署名を生成する。生成された参考ビデオ署名はビデオ署名データベース(VSIG DB)180中に記憶され、生成された参考オーディオ署名はオーディオ署名データベース(ASIG DB)280に記憶される。参考署名はその実施を容易にすることのできる他の情報と共に記憶させても良い。例えば、参考署名は基礎となる内容自体と共に、又は内容の所有者、内容のライセンス条件、内容の題名、内容の文章による記述の様な内容についての情報を識別するデータと共に記憶させても良い。
各参考署名はデータベース サーチ キーを持つ。このキーは所望の任意の方法によるものであっても良い。好ましくはこのキーは参考署名そのものに基づくものであるか又はそれから創りだされるものであっても良い。
任意の特定のビデオ内容又はオーディオ内容を識別するにあたってはビデオ及びオーディオデータベースに記憶されている情報により表される参考内容と対比してチェックしても良い。その内容の同一性が確認されるべき内容は本明細書ではテスト内容と呼ぶ。テストビデオ内容の同一性は、ビデオ署名発生器101に、パス33から受信したテストビデオ内容からテストビデオ署名を生成させ、テストビデオ署名をビデオサーチエンジン185に送ることによりチェックしても良い。ビデオサーチエンジン185は,テストビデオ署名と厳密な又はそれに近い対(match)であるビデオ署名データベース180中の参考ビデオ署名の検索を試みる。テストオーディオ内容の同一性は、オーディオ署名発生器201に、パス33から受信したテストオーディオ内容からテストオーディオ署名を生成させ、テストオーディオ署名をオーディオサーチエンジン285に送ることによりチェックしても良い。オーディオサーチエンジン285はテストオーディオ署名と厳密な又はそれに近い対であるオーディオ署名データベース280中の参考オーディオ署名の検索を試みる。
ある実施の態様においては、サーチエンジンは、テスト署名及びデータベース中に記憶された参考署名の間のハミング距離を計算し、一連のテストビデオ署名に最も近い一連の参考署名をサーチする。式10及び11又はあるそれらの変形式で、上に示した計算はサーチを実施するために用いても良い。もし2つの署名の数列の間の距離がある閾値より小さい場合は、テスト署名の数列に関連するテスト内容は、マッチする参考署名の数列に関連する参考内容と全く同一又はその変形コピーであると見做される。経験的に言えば、約2秒の内容を表す署名の数列を用いて種々のビデオ及びオーディオ内容について良い結果を得ることができることが分かった。
E.実施
本発明の種々の特徴を取り入れた装置は、コンピュータにより、又は汎用コンピュータに見られるものと同様な構成品に接続されているデジタル信号プロセッサ(DSP)の様なより専用化された構成品を含むある種の他の装置によるソフトウェアーの実行を含め種々の方法により実施することができる。図12は本発明の特徴を実施するために用いることのできる装置70の概略ブロック図である。プロセッサ72は計算機資源を提供する。RAM73は処理するためにプロセッサ72により使用されるシステムランダムアクセスメモリー(RAM)である。ROM74は装置70を作動させるために必要なプログラムを記憶し及び、恐らく本発明の種々の特徴を実施する、読出し専用メモリー(ROM)の様なある形式の永続記憶装置を表す。I/O制御75は通信チャネル76、77により信号を受信し及び伝達するインターフェイス回路を表す。記載の実施の態様では、全ての主要なシステムの構成品はバス71に接続され、バスは一以上の物理的バス又は論理バスを表すが、バスの基本設計は本発明の実施するために必要なものではない。
汎用コンピュータシステムにより実施される実施の態様では、追加の構成品が、キーボード又はマウス及びディスプレイの様な、装置との接続のために、及び磁気テープ又はディスク又は光学媒体の様な記憶媒体を持つ記憶装置78を制御するために含んでも良い。これらの記憶媒体はオペレーティングシステム、ユーティリティ、及び応用の指示プログラムを記憶するために用いられ、そして本発明の種々の特徴を実施するプログラムを含んでも良い。
本発明の種々の特徴を実施するために必要な機能は、個別論理部品、集積回路、一以上のASIC及び/又はプログラム制御プロセッサを含み種々の幅広い方法により使用可能な構成品により実行することができる。これらの構成品が使用される方法は本発明にとっては重要ではない。本発明のソフトウェアーの実施は、超音速から紫外線周波数までを含む全スペクトルを通してベースバンド又は変調通信経路の様な種々の機械可読媒体により、又は磁気テープ、カード又はディスク、又は光カード又はディスク、及び紙を含む媒体上の検出可能なマークを含む実質的に任意の記憶技術を用いて情報を伝達する記憶媒体を通して伝送されても良い。

Claims (51)

  1. ビデオ信号の内容を識別する署名を生成する方法であって、前記方法は、
    ビデオ信号の一連のビデオフレーム内の第一のビデオフレームにより伝送される画像中のピクセルを表すデータから第一の組の一以上の特徴を抽出し、第一の組の特徴を表す第一の値を算出し;
    ビデオ信号の一連のビデオフレーム内の第二の組のビデオフレームにより伝送される画像中のピクセルを表すデータから第二の組の一以上の特徴を抽出し、ここで第二の組の特徴中の各特徴は第一の組の特徴の中に対応する特徴を持ち、そして第二の組の特徴を表す第二の値を算出し、ここで第二の組の特徴中の各特徴を表す第二の値は、各特徴に対応する第一の組の特徴の中の特徴を表す第一の値に対応し;
    一連の中間値を生成し、ここで一連の中間値の各々は第二の値及び対応する第一の値の間の一以上の相違測定値を表し;及び
    中間値に対してハッシュ関数を適用することによりビデオ信号の内容を識別する署名を生成する、
    ことを含み、
    中間値にハッシュ関数を適用することは、中間値を一組のランダムベクトルに投射することを含み、前記署名の各成分は中間値を各ランダムベクトルに投射することから導出される、
    前記方法。
  2. ピクセル群から第一の組の特徴及び第二の組の特徴を抽出することを含み、各ピクセル群は第一及び第二のビデオフレームにより伝送される画像の一つの各領域を表す、請求項1の方法。
  3. 前記第一の組及び第二の組の特徴が各ピクセル群内のピクセルの強度の平均を表す、請求項2の方法。
  4. 前記第一の組及び第二の組の特徴が各ピクセル群内のピクセルの強度の標準偏差を表す、請求項2の方法。
  5. 前記第一の組及び第二の組の特徴がピクセルの強度を表し、各相違測定値は第二の値及び対応する第一の値の間の絶対差である, 請求項1又は2の方法。
  6. 差分画像の領域に複数の相違測定値をグループ化し;及び
    各領域中の相違測定値の平均値を表す各中間値を生成する、請求項5の方法。
  7. 前記第一及び第二のビデオフレームにより伝送される画像の中央部分を表すピクセルのみに係る第一の組及び第二の組の特徴を抽出することを含む請求項1乃至6のいずれか1項の方法。
  8. 前記第一及び第二のビデオフレームにより伝送される画像の水平及び垂直解像度を決定し;
    解像度に対応する因子を選択し;及び
    それらのデータ、相違測定値又は中間値を前記因子に等しい数値によってダウンサンプルし、一連の中間値の水平及び垂直解像度を低減させる
    ことを含む、請求項1乃至7のいずれか1項の方法。
  9. 一連のフレーム中の複数の対となるフレームの各々に署名を生成することを含む、請求項1乃至8のいずれか1項の方法。
  10. 前記一組のランダムベクトル中の各ベクトルが、0から1の範囲内の均一に分布したランダム変数と、各ベクトルの全てのベクトル要素の均一に分布したランダム変数の平均との差より得られる値を持つベクトル要素を持ち;
    各ランダムベクトルに中間値を投射することは中間値の各ベクトルのベクトル要素との内積から得られ;及び
    前記署名の各成分は、中間値の対応するランダムベクトルへの投射が閾値より大きい場合は、第一の値を持ち、中間値の対応するランダムベクトルへの投射が閾値より小さい場合は、第二の値を持ち、ここに閾値は一組のランダムベクトルへ投射された中間値の中央値に等しい、請求項1乃至9のいずれか1項の方法。
  11. オーディオ信号の内容を識別する署名を生成する方法であって、前記方法は
    オーディオ信号の一連のブロック内の一組のブロックの時間周波数表示を得、前記時間周波数表示は、複数組のスペクトル値を含み、各組のスペクトル値は各組のブロック中の各ブロック中のオーディオ信号のバンド幅の少なくとも一部の内の全てのスペクトル成分を表し;
    各組のスペクトル値内の一以上のスペクトル値の群中に配置された全てのスペクトル値の強度から中間値を導出し;及び
    一組のランダムベクトルに中間値を投射することによりオーディオ信号の内容を識別する署名を生成し、前記署名はビットにより表示され、署名の各ビットは全ての中間値に基づき導出される
    前記方法。
  12. 時間周波数表示が、各組のスペクトル値を得るために時間・周波数変換を前記の組のブロック中のオーディオ信号の各ブロックに適用することにより得られ;及び
    各中間値が各組のスペクトル値内の群の一以上のスペクトル値の平均強度を算出することにより導出される、
    請求項11の方法。
  13. 前記一連のブロック内の複数組のブロック内の各組のために署名を生成させることを含む、請求項11又は12の方法。
  14. 前記スペクトル値の群が周波数により変わる多くのスペクトル値を持つ、請求項11乃至13のいずれか1項の方法。
  15. より周波数の大きいスペクトル値の群はより多くの数のスペクトル値を持つ、請求項14の方法。
  16. 前記署名の各成分が各ランダムベクトルに中間値を投射することにより導出される、請求項11乃至15のいずれか1項の方法。
  17. 前記一組のランダムベクトル中の各ベクトルが、0から1の範囲内の均一に分布したランダム変数と、各ベクトルの全てのベクトル要素の均一に分布したランダム変数の平均との差より得られる値を持つベクトル要素を持ち;
    各ランダムベクトルに中間値を投射することは中間値の各ベクトルのベクトル要素との内積から得られ;及び
    前記署名の各成分は、中間値の対応するランダムベクトルへの投射が閾値より大きい場合は、第一の値を持ち、中間値の対応するランダムベクトルへの投射が閾値より小さい場合は、第二の値を持ち、ここに閾値は一組のランダムベクトルへ投射された中間値の中央値に等しい、請求項16の方法。
  18. ビデオ信号の内容を識別する署名を生成する装置であって、前記装置は、
    ビデオ信号の一連のビデオフレーム内の第一のビデオフレームにより伝送される画像中のピクセルを表すデータから第一の組の一以上の特徴を抽出し、第一の組の特徴を表す第一の値を算出する手段;
    ビデオ信号の一連のビデオフレーム内の第二の組のビデオフレームにより伝送される画像中のピクセルを表すデータから第二の組の一以上の特徴を抽出し、ここで第二の組の特徴中の各特徴は第一の組の特徴に対応し、そして第二の組の特徴を表す第二の値を算出し、ここで第二の組の特徴中の各特徴を表す第二の値は、各特徴に対応する第一の組の特徴中の特徴を表す第一の値に対応する手段;
    一連の中間値を生成する手段であり、ここに一連の中間値の各々は第二の値及び対応する第一の値の間の一以上の相違測定値を表す手段;及び
    中間値に対してハッシュ関数を適用することによりビデオ信号の内容を識別する署名を生成する手段
    を含み、
    中間値にハッシュ関数を適用することは、中間値を一組のランダムベクトルに投射することを含み、前記署名の各成分は中間値を各ランダムベクトルに投射することから導出される、
    前記装置。
  19. ピクセル群から第一の組の特徴及び第二の組の特徴を抽出する手段を含み、各ピクセル群は第一及び第二のビデオフレームにより伝送される画像の一つの各領域を表す、請求項18の装置。
  20. 前記第一の組及び第二の組の特徴が各ピクセル群内のピクセルの強度の平均を表す、請求項19の装置。
  21. 前記第一の組及び第二の組の特徴が各ピクセル群内のピクセルの強度の標準偏差を表す、請求項19の装置。
  22. 前記第一の組及び第二の組の特徴がピクセルの強度を表し、各相違測定値は第二の値及び対応する第一の値の間の絶対差である, 請求項18又は19の装置。
  23. 差分画像の領域に複数の相違測定値をグループ化する手段;及び
    各領域中の相違測定値の平均値を表す各中間値を生成する手段、を含む請求項22の装置。
  24. 前記第一及び第二のビデオフレームにより伝送される画像の中央部分を表すピクセルのみに係る第一の組及び第二の組の特徴を抽出する手段を含む、請求項18乃至23のいずれか1項の装置。
  25. 前記第一及び第二のビデオフレームにより伝送される画像の水平及び垂直解像度を決定する手段;
    解像度に対応する因子を選択する手段;及び
    それらのデータ、相違測定値又は中間値を前記因子に等しい数値によってダウンサンプルし、一連の中間値の水平及び垂直解像度を低減させるための手段
    を含む、請求項18乃至24のいずれか1項の装置。
  26. 一連のフレーム中の複数の対となるフレームの各々に署名を生成する手段を含む、請求項18乃至25のいずれか1項の装置。
  27. 前記一組のランダムベクトル中の各ベクトルが、0から1の範囲内の均一に分布したランダム変数と、各ベクトルの全てのベクトル要素の均一に分布したランダム変数の平均との差より得られる値を持つベクトル要素を持ち;
    各ランダムベクトルに中間値を投射することは中間値の各ベクトルのベクトル要素との内積から得られ;及び
    前記署名の各成分は、中間値の対応するランダムベクトルへの投射が閾値より大きい場合は、第一の値を持ち、中間値の対応するランダムベクトルへの投射が閾値より小さい場合は、第二の値を持ち、ここに閾値は一つ組のランダムベクトルへ投射された中間値の中央値に等しい、請求項18乃至26のいずれか1項の装置。
  28. オーディオ信号の内容を識別する署名を生成する装置であって、前記装置は、
    オーディオ信号の一連のブロック内の一組のブロックの時間周波数表示を得、前記時間周波数表示は、複数組のスペクトル値を含み、各組のスペクトル値は各組のブロック中の各ブロック中のオーディオ信号のバンド幅の少なくとも一部の中の全てのスペクトル成分を表す手段;
    各組のスペクトル値内の一以上の群中に配置された全てのスペクトル値の強度から中間値を導出する手段;及び
    一組のランダムベクトルに中間値を投射することによりオーディオ信号の内容を識別する署名を生成し、前記署名はビットにより表示され、署名の各ビットは全ての中間値に基づき導出される手段、
    を含む前記装置。
  29. 時間周波数表示が、各組のスペクトル値を得るために時間・周波数変換を前記の組のブロック中のオーディオ信号の各ブロックに適用することにより得られ;及び
    各中間値が各組のスペクトル値内の群の一以上のスペクトル値の平均強度を算出することにより導出される、
    請求項28の装置。
  30. 前記一連のブロック内の複数組のブロック内の各組のために署名を生成させる手段を含む、請求項28又は29の装置。
  31. 前記スペクトル値の群が周波数により変わる多くのスペクトル値を持つ、請求項28乃至30のいずれか1項の装置。
  32. より周波数の大きいスペクトル値の群はより多くの数のスペクトル値を持つ、請求項31の装置。
  33. 前記署名の各成分が各ランダムベクトルに中間値を投射することにより導出される、請求項28乃至32のいずれか1項の方法。
  34. 前記一組のランダムベクトル中の各ベクトルが、0から1の範囲内の均一に分布したランダム変数と、各ベクトルの全てのベクトル要素の均一に分布したランダム変数の平均との差より得られる値を持つベクトル要素を持ち;
    各ランダムベクトルに中間値を投射することは中間値の各ベクトルの各ベクトル要素との内積から得られ;及び
    前記署名の各成分は、中間値の対応するランダムベクトルへの投射が閾値より大きい場合は、第一の値を持ち、中間値の対応するランダムベクトルへの投射が閾値より小さい場合は、第二の値を持ち、ここに閾値は一組のランダムベクトルへ投射された中間値の中央値に等しい、請求項33の装置。
  35. ビデオ信号の内容を識別する署名を生成する方法を実施する装置により実行可能な指示のプログラムを記録する記憶媒体であり、
    であって、前記方法は、
    ビデオ信号の一連のビデオフレーム内の第一のビデオフレームにより伝送される画像中のピクセルを表すデータから第一の組の一以上の特徴を抽出し、そして第一の組の特徴を表す第一の値を算出し;
    ビデオ信号の一連のビデオフレーム内の第二のビデオフレームにより伝送される画像中のピクセルを表すデータから第二の組の一以上の特徴を抽出し、ここで第二の組の特徴中の各特徴は第一の組の特徴中に対応する特徴を持ち、そして第二の組の特徴を表す第二の値を算出し、ここで第二の組の特徴中の各特徴を表す第二の値は、各特徴に対応する第一の組の特徴中の特徴を表す第一の値に対応し;
    一連の中間値を生成し、ここに一連の中間値の各々は第二の値及び対応する第一の値の間の一以上の相違測定値を表し;及び
    中間値に対してハッシュ関数を適用することによりビデオ信号の内容を識別する署名を生成する、
    ことを含み、
    中間値にハッシュ関数を適用することは、中間値を一組のランダムベクトルに投射することを含み、前記署名の各成分は中間値を各ランダムベクトルに投射することから導出される
    前記記憶媒体。
  36. 前記方法が、ピクセル群から第一の組の特徴及び第二の組の特徴を抽出することを含み、各ピクセル群は第一及び第二のビデオフレームにより伝送される一つの画像の各領域を表す、請求項35の記憶媒体。
  37. 前記第一の組及び第二の組の特徴が各ピクセル群内のピクセルの強度の平均を表す、請求項36の記憶媒体。
  38. 前記第一の組及び第二の組の特徴が各ピクセル群内のピクセルの強度の標準偏差を表す、請求項36の記憶媒体。
  39. 前記第一の組及び第二の組の特徴がピクセルの強度を表し、各相違測定値は第二の値及び対応する第一の値の間の絶対差である, 請求項35又は36の記憶媒体。
  40. 前記方法が、差分画像の領域に複数の相違測定値をグループ化し;及び
    各領域中の相違測定値の平均値を表す各中間値を生成する、ことを含む請求項39の記憶媒体。
  41. 前記方法が、前記第一及び第二のビデオフレームにより伝送される画像の中央部分を表すピクセルのみに係る第一の組及び第二の組の特徴を抽出することを含む、請求項35乃至40のいずれか1項の記憶媒体。
  42. 前記方法が、前記第一及び第二のビデオフレームにより伝送される画像の水平及び垂直解像度を決定し;
    解像度に対応する因子を選択し;及び
    それらのデータ、相違測定値又は中間値を前記因子に等しい数値によってダウンサンプルし、一連の中間値の垂直及び水平解像度を低減させる
    ことを含む、請求項35乃至41のいずれか1項の記憶媒体。
  43. 前記方法が、一連のフレーム中の複数の対となるフレームの各々に署名を生成することを含む、請求項35乃至42のいずれか1項の記憶媒体。
  44. 前記一組のランダムベクトル中の各ベクトルが、0から1の範囲内の均一に分布したランダム変数と、各ベクトルの全てもベクトル要素の均一に分布したランダム変数の平均との差より得られる値を持つベクトル要素を持ち;
    各ランダムベクトルに中間値を投射することは中間値の各ベクトルのベクトル要素を持つ内積から得られ;及び
    前記署名の各成分は、中間値の対応するランダムベクトルへの投射が閾値より大きい場合は、第一の値を持ち、中間値の対応するランダムベクトルへの投射が閾値より小さい場合は、第二の値を持ち、ここに閾値は一組のランダムベクトルへ投射された中間値の中央値に等しい、請求項35乃至43のいずれか1項の記憶媒体。
  45. オーディオ信号の内容を識別する署名を生成する方法を実施する装置により実行可能な指示のプログラムを記録する記憶媒体であり、
    であって、前記方法は、
    オーディオ信号の一連のブロック内の一組のブロックの時間周波数表示を得、前記時間周波数表示は、複数組のスペクトル値を含み、各組のスペクトル値は各組のブロック中の各ブロック中のオーディオ信号のバンド幅の少なくとも一部の内の全てのスペクトル成分を表し;
    各組のスペクトル値内の一以上のスペクトル値の群中に配置された全てのスペクトル値の強度から中間値を導出し;及び
    一組のランダムベクトルに中間値を投射することによりオーディオ信号の内容を識別する署名を生成し、前記署名はビットにより表示され、署名の各ビットは全ての中間値に基づき導出される
    記憶媒体。
  46. 時間周波数表示が、各組のスペクトル値を得るために時間・周波数変換を前記の組のブロック中のオーディオ信号の各ブロックに適用することにより得られ;及び
    各中間値が各組のスペクトル値内の群の一以上のスペクトル値の平均強度を算出することにより導出される、
    請求項45の記憶媒体。
  47. 前記方法が、前記一連のブロック内の複数組のブロック内の各組のために署名を生成させることを含む、請求項45又は46の記憶媒体。
  48. 前記スペクトル値の群が周波数により変わる多くのスペクトル値を持つ、請求項45乃至47のいずれか1項の記憶媒体。
  49. より周波数の大きいスペクトル値の群はより多い数のスペクトル値を持つ、請求項48の記憶媒体。
  50. 前記署名の各成分が各ランダムベクトルに中間値を投射することにより導出される、請求項45乃至49のいずれか1項の記憶媒体。
  51. 前記一組のランダムベクトル中の各ベクトルが、0から1の範囲内の均一に分布したランダム変数と、各ベクトルの全てのベクトル要素の均一に分布したランダム変数の平均値との差から得られる値を持つベクトル要素を持ち;
    各ランダムベクトルに中間値を投射することは中間値の各ベクトルのベクトル要素との内積から得られ;及び
    前記署名の各成分は、中間値の対応するランダムベクトルへの投射が閾値より大きい場合は、第一の値を持ち、中間値の対応するランダムベクトルへの投射が閾値より小さい場合は、第二の値を持ち、ここに閾値は一組のランダムベクトルへ投射された中間値の中央値に等しい、請求項50の記憶媒体。
JP2009539366A 2006-11-30 2007-11-29 信号の信頼できる識別をするためのビデオ及びオーディオ信号内容の特徴の抽出 Expired - Fee Related JP5060565B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US87209006P 2006-11-30 2006-11-30
US60/872,090 2006-11-30
PCT/US2007/024744 WO2008066930A2 (en) 2006-11-30 2007-11-29 Extracting features of video & audio signal content to provide reliable identification of the signals

Publications (2)

Publication Number Publication Date
JP2010512057A JP2010512057A (ja) 2010-04-15
JP5060565B2 true JP5060565B2 (ja) 2012-10-31

Family

ID=39325541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009539366A Expired - Fee Related JP5060565B2 (ja) 2006-11-30 2007-11-29 信号の信頼できる識別をするためのビデオ及びオーディオ信号内容の特徴の抽出

Country Status (6)

Country Link
US (2) US8259806B2 (ja)
EP (2) EP2642483B1 (ja)
JP (1) JP5060565B2 (ja)
CN (1) CN101548294B (ja)
TW (1) TWI442773B (ja)
WO (1) WO2008066930A2 (ja)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2457694B (en) * 2008-02-21 2012-09-26 Snell Ltd Method of Deriving an Audio-Visual Signature
EP2293294B1 (en) * 2008-03-10 2019-07-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Device and method for manipulating an audio signal having a transient event
US20100215211A1 (en) * 2008-05-21 2010-08-26 Ji Zhang System for Facilitating the Archiving of Video Content
US20100215210A1 (en) * 2008-05-21 2010-08-26 Ji Zhang Method for Facilitating the Archiving of Video Content
US8195689B2 (en) 2009-06-10 2012-06-05 Zeitera, Llc Media fingerprinting and identification system
US8335786B2 (en) * 2009-05-28 2012-12-18 Zeitera, Llc Multi-media content identification using multi-level content signature correlation and fast similarity search
US8793498B2 (en) * 2008-08-11 2014-07-29 Nbcuniversal Media, Llc System and method for forensic analysis of media works
CN102124489B (zh) * 2008-08-17 2014-08-06 杜比实验室特许公司 图像的签名推导
CN102177726B (zh) * 2008-08-21 2014-12-03 杜比实验室特许公司 用于音频和视频签名生成和检测的特征优化和可靠性估计
JP4966285B2 (ja) * 2008-10-30 2012-07-04 株式会社東芝 情報処理装置、エフェクトプログラムおよびコンテンツ補正処理方法
EP2366170B1 (en) * 2008-11-17 2013-01-02 Dolby Laboratories Licensing Corporation Media fingerprints that reliably correspond to media content with projection of moment invariants
US8571255B2 (en) 2009-01-07 2013-10-29 Dolby Laboratories Licensing Corporation Scalable media fingerprint extraction
JP4883226B2 (ja) * 2009-01-23 2012-02-22 日本電気株式会社 映像記述子生成装置
US9075897B2 (en) 2009-05-08 2015-07-07 Dolby Laboratories Licensing Corporation Storing and searching fingerprints derived from media content based on a classification of the media content
GB2470201A (en) * 2009-05-12 2010-11-17 Nokia Corp Synchronising audio and image data
WO2010135623A1 (en) * 2009-05-21 2010-11-25 Digimarc Corporation Robust signatures derived from local nonlinear filters
CN102460470B (zh) 2009-06-11 2014-12-03 杜比实验室特许公司 基于指纹的内容识别趋势分析
US8436939B2 (en) * 2009-10-25 2013-05-07 Tektronix, Inc. AV delay measurement and correction via signature curves
US8860883B2 (en) * 2009-11-30 2014-10-14 Miranda Technologies Partnership Method and apparatus for providing signatures of audio/video signals and for making use thereof
WO2011063520A1 (en) * 2009-11-30 2011-06-03 Miranda Technologies Inc. Method and apparatus for providing signatures of audio/video signals and for making use thereof
US8542869B2 (en) * 2010-06-02 2013-09-24 Dolby Laboratories Licensing Corporation Projection based hashing that balances robustness and sensitivity of media fingerprints
US8928809B2 (en) * 2010-09-15 2015-01-06 Verizon Patent And Licensing Inc. Synchronizing videos
US20130275421A1 (en) 2010-12-30 2013-10-17 Barbara Resch Repetition Detection in Media Data
CN103339921B (zh) * 2011-01-31 2015-11-25 杜比实验室特许公司 恢复图像的颜色和非颜色相关的完整性的系统和方法
US8786785B2 (en) * 2011-04-05 2014-07-22 Microsoft Corporation Video signature
CN102222222A (zh) * 2011-05-27 2011-10-19 汉王科技股份有限公司 跳帧扫描识别装置和方法
KR101778530B1 (ko) * 2011-06-14 2017-09-15 삼성전자 주식회사 영상 처리 방법 및 장치
CN102393903B (zh) * 2011-07-15 2013-10-30 汉王科技股份有限公司 基于三轴加速计的扫描识别装置和方法
JP5896661B2 (ja) * 2011-09-14 2016-03-30 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
US9892088B2 (en) * 2011-11-24 2018-02-13 Nxp Usa, Inc. Data processing system and method of controlling access to a shared memory unit
US8572092B2 (en) * 2011-12-16 2013-10-29 Palo Alto Research Center Incorporated Generating sketches sensitive to high-overlap estimation
US9386069B2 (en) 2011-12-28 2016-07-05 The Nielsen Company (Us), Llc Media exposure data collection and security
ITMI20121210A1 (it) 2012-07-11 2014-01-12 Rai Radiotelevisione Italiana A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose
US10158927B1 (en) * 2012-09-05 2018-12-18 Google Llc Systems and methods for detecting audio-video synchronization using timestamps
US9602858B1 (en) 2013-01-28 2017-03-21 Agile Sports Technologies, Inc. Method and system for synchronizing multiple data feeds associated with a sporting event
US10133636B2 (en) 2013-03-12 2018-11-20 Formulus Black Corporation Data storage and retrieval mediation system and methods for using same
US9817728B2 (en) 2013-02-01 2017-11-14 Symbolic Io Corporation Fast system state cloning
US9304703B1 (en) 2015-04-15 2016-04-05 Symbolic Io Corporation Method and apparatus for dense hyper IO digital retention
JP2016526826A (ja) * 2013-06-20 2016-09-05 トムソン ライセンシングThomson Licensing コンテンツの分散型再生の同期化を支援するシステム及び方法
US9542976B2 (en) 2013-09-13 2017-01-10 Google Inc. Synchronizing videos with frame-based metadata using video content
JP6321153B2 (ja) 2013-10-21 2018-05-09 マイクロソフト テクノロジー ライセンシング,エルエルシー モバイルビデオ検索
TWI527025B (zh) * 2013-11-11 2016-03-21 財團法人資訊工業策進會 電腦系統、音訊比對方法及其電腦可讀取記錄媒體
EP2876890A1 (en) * 2013-11-21 2015-05-27 Thomson Licensing Method and apparatus for frame accurate synchronization of video streams
US9336567B2 (en) 2013-12-16 2016-05-10 Telefonaktiebolaget L M Ericsson (Publ) Content-aware weighted image manipulations
US11023737B2 (en) 2014-06-11 2021-06-01 Arris Enterprises Llc Detection of demarcating segments in video
US9930375B2 (en) * 2014-06-16 2018-03-27 Nexidia Inc. Media asset management
KR102474541B1 (ko) * 2014-10-24 2022-12-06 돌비 인터네셔널 에이비 오디오 신호들의 인코딩 및 디코딩
US10061514B2 (en) 2015-04-15 2018-08-28 Formulus Black Corporation Method and apparatus for dense hyper IO digital retention
US9996769B2 (en) 2016-06-08 2018-06-12 International Business Machines Corporation Detecting usage of copyrighted video content using object recognition
KR20180068121A (ko) * 2016-12-13 2018-06-21 삼성전자주식회사 컨텐트를 인식하는 방법 및 디바이스
WO2018185743A1 (en) * 2017-04-02 2018-10-11 SafeDK Mobile Ltd. Monitoring of media displayed by third-party components
US10313710B1 (en) * 2017-07-31 2019-06-04 Amazon Technologies, Inc. Synchronizing encoding between encoders
US10572186B2 (en) 2017-12-18 2020-02-25 Formulus Black Corporation Random access memory (RAM)-based computer systems, devices, and methods
US10997427B1 (en) * 2018-04-25 2021-05-04 Zorroa Corporation Using motion-based features to match video sequences
US11115712B2 (en) * 2018-12-15 2021-09-07 Activision Publishing, Inc. Systems and methods for indexing, searching for, and retrieving digital media
US10725853B2 (en) 2019-01-02 2020-07-28 Formulus Black Corporation Systems and methods for memory failure prevention, management, and mitigation
EP3797368B1 (en) * 2019-03-26 2023-10-25 Rovi Guides, Inc. System and method for identifying altered content
US11228799B2 (en) * 2019-04-17 2022-01-18 Comcast Cable Communications, Llc Methods and systems for content synchronization
US11281929B2 (en) * 2019-05-06 2022-03-22 Rovi Guides, Inc. Systems and methods for determining whether to modify content
US11120273B2 (en) * 2019-06-21 2021-09-14 Gfycat, Inc. Adaptive content classification of a video content item
US10929677B1 (en) 2019-08-07 2021-02-23 Zerofox, Inc. Methods and systems for detecting deepfakes
US11302095B2 (en) 2020-01-09 2022-04-12 International Business Machines Corporation Cognitive motion picture analysis
US20210352341A1 (en) * 2020-05-06 2021-11-11 At&T Intellectual Property I, L.P. Scene cut-based time alignment of video streams
US11417099B1 (en) * 2021-11-08 2022-08-16 9219-1568 Quebec Inc. System and method for digital fingerprinting of media content
TWI806577B (zh) * 2022-04-28 2023-06-21 瑞昱半導體股份有限公司 數位簽章方法及數位簽章的驗證方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5436653A (en) 1992-04-30 1995-07-25 The Arbitron Company Method and system for recognition of broadcast segments
US5946049A (en) * 1993-07-26 1999-08-31 Pixel Instruments Corp. Apparatus and method for synchronizing multiple asynchronous signals
US5550594A (en) * 1993-07-26 1996-08-27 Pixel Instruments Corp. Apparatus and method for synchronizing asynchronous signals
US6469741B2 (en) * 1993-07-26 2002-10-22 Pixel Instruments Corp. Apparatus and method for processing television signals
US5530483A (en) * 1994-10-11 1996-06-25 Pixel Instruments Corp. Delay detector apparatus and method for plural image sequences
US5920842A (en) * 1994-10-12 1999-07-06 Pixel Instruments Signal synchronization
US7289643B2 (en) * 2000-12-21 2007-10-30 Digimarc Corporation Method, apparatus and programs for generating and utilizing content signatures
JPH11261961A (ja) * 1998-03-10 1999-09-24 Toshiba Corp 動画像処理装置
CN1235408C (zh) 2001-02-12 2006-01-04 皇家菲利浦电子有限公司 生成和匹配多媒体内容的散列
EP1474761A2 (en) 2002-02-05 2004-11-10 Koninklijke Philips Electronics N.V. Efficient storage of fingerprints
CN100420306C (zh) 2002-06-24 2008-09-17 皇家飞利浦电子股份有限公司 用于信号验证的稳健签名
US7212651B2 (en) * 2003-06-17 2007-05-01 Mitsubishi Electric Research Laboratories, Inc. Detecting pedestrians using patterns of motion and appearance in videos
WO2005036877A1 (en) * 2003-09-12 2005-04-21 Nielsen Media Research, Inc. Digital video signature apparatus and methods for use with video program identification systems
US7987369B2 (en) 2005-03-03 2011-07-26 Interdigital Technology Corporation Using watermarking to reduce communication overhead
US7684587B2 (en) * 2005-04-04 2010-03-23 Spirent Communications Of Rockville, Inc. Reduced-reference visual communication quality assessment using data hiding
US20070104943A1 (en) 2005-11-10 2007-05-10 3M Innovative Properties Company Filled polymer composites
US20070250311A1 (en) * 2006-04-25 2007-10-25 Glen Shires Method and apparatus for automatic adjustment of play speed of audio data
US8126280B2 (en) * 2007-09-21 2012-02-28 Adobe Systems Incorporated Enhanced decompression of compressed data
CN102177726B (zh) 2008-08-21 2014-12-03 杜比实验室特许公司 用于音频和视频签名生成和检测的特征优化和可靠性估计
EP2366170B1 (en) 2008-11-17 2013-01-02 Dolby Laboratories Licensing Corporation Media fingerprints that reliably correspond to media content with projection of moment invariants
US8571255B2 (en) 2009-01-07 2013-10-29 Dolby Laboratories Licensing Corporation Scalable media fingerprint extraction
US9075897B2 (en) 2009-05-08 2015-07-07 Dolby Laboratories Licensing Corporation Storing and searching fingerprints derived from media content based on a classification of the media content
CN102460470B (zh) 2009-06-11 2014-12-03 杜比实验室特许公司 基于指纹的内容识别趋势分析
CN103339921B (zh) 2011-01-31 2015-11-25 杜比实验室特许公司 恢复图像的颜色和非颜色相关的完整性的系统和方法

Also Published As

Publication number Publication date
US20090304082A1 (en) 2009-12-10
EP2642483B1 (en) 2015-01-07
EP2642483A3 (en) 2013-10-30
EP2126833A2 (en) 2009-12-02
TWI442773B (zh) 2014-06-21
US20130064416A1 (en) 2013-03-14
CN101548294B (zh) 2012-06-27
JP2010512057A (ja) 2010-04-15
WO2008066930A2 (en) 2008-06-05
CN101548294A (zh) 2009-09-30
TW200833116A (en) 2008-08-01
US8259806B2 (en) 2012-09-04
US8626504B2 (en) 2014-01-07
WO2008066930A3 (en) 2008-10-09
EP2642483A2 (en) 2013-09-25

Similar Documents

Publication Publication Date Title
JP5060565B2 (ja) 信号の信頼できる識別をするためのビデオ及びオーディオ信号内容の特徴の抽出
JP5698318B2 (ja) オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測
JP5143896B2 (ja) 画像修飾及びフレームレート変換に反応しないビデオ署名の導出
US20090252370A1 (en) Video watermark detection
US20110142348A1 (en) Signature Derivation for Images
WO2009046438A1 (en) Media fingerprints that reliably correspond to media content
JP2009508393A (ja) ビデオ透かし挿入
US20090136083A1 (en) Coefficient Selection for Video Watermarking
US20090226030A1 (en) Coefficient modification for video watermarking
US20130051666A1 (en) Method and System for Color-Grading Multi-View Content
Radhakrishnan et al. Audio and video signatures for synchronization
KR20080043323A (ko) 비디오 워터마킹을 위한 계수 변경
KR20080043320A (ko) 비디오 워터마크 검출
KR20080043321A (ko) 비디오 워터마킹을 위한 계수 선택

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120803

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees