JP5060565B2

JP5060565B2 - 信号の信頼できる識別をするためのビデオ及びオーディオ信号内容の特徴の抽出

Info

Publication number: JP5060565B2
Application number: JP2009539366A
Authority: JP
Inventors: ラダクリシュナン、レグナタン; バウエル、クラウス; テリー、ケント・ベネット; リンク、ブライアン・デイビッド; キム、ヒュン・スク; グゼル、エリック
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2006-11-30
Filing date: 2007-11-29
Publication date: 2012-10-31
Anticipated expiration: 2027-11-29
Also published as: US20090304082A1; EP2642483B1; EP2642483A3; EP2126833A2; TWI442773B; US20130064416A1; CN101548294B; JP2010512057A; WO2008066930A2; CN101548294A; TW200833116A; US8259806B2; US8626504B2; WO2008066930A3; EP2642483A2

Description

本発明は一般的にビデオ及びオーディオ信号の処理に関し、より具体的には信号を識別するためにビデオ信号及びオーディオ信号から特徴を抽出するプロセスに関する。本明細書を通じ、「ビデオ信号」及び「ビデオ内容」の用語は視覚による知覚を予定する画像を表す信号及び内容を言い、「オーディオ信号」及び「オーディオ内容」の用語は聴覚による知覚を予定する音を表す信号及び内容を言う。

ビデオ及びオーディオ信号により伝達される無断使用の内容を検出すること又は関連を絶たれたビデオ及びオーディオ信号を再同期させることを試みる様な応用行為はしばしばその信号を識別するための信号の内容を検討するプロセスに依存する。これらの応用行為の多くの場合において、これらの信号の内容が意図せずに又は意図的に改変されているが、依然として改変された内容を人が観察した場合に元の内容と本質的に変わらないと認識される様な場合においても、信号の信頼できる識別ができることが重要である。もし元の信号と改変された信号の内容の間の違いが小さいものであると感じられる場合は、識別プロセスにおいて、元の信号及びそれと非常に似ている改変された信号から識別する特徴を抽出することができることが好ましい。

信号内容に意図しない改変を加える例として送信チャネル及び記憶媒体の信号にノイズを挿入し又は加えることを含む。ビデオ信号に意図して改変を加える例として、コントラスト/明るさ調整、ガンマ修正、輝度ヒストグラム平坦化、彩度調整、及び白色平衡化のための色彩修正の様な輝度及び色彩調整、画像のトリミング及びサイズの変更、画像の回転及び反転、引き伸ばし、シミの除去、不鮮明化、明確化及び輪郭強調の様な幾何学的改変を含み、及び非可逆圧縮の様な符号化技術を含む。オーディオ信号の意図的改変の例として、増幅、等化（equalization）、ダイナミックレンジ修正、チャンネルアップミキシング（channel up-mixing）、タイムスケール修正、スペクトル形成及び非可逆データ圧縮（lossy data compression）を含む。

本発明の目的は、信号の内容が上に述べた様なメカニズムにより改変されていた場合においても、ビデオ及びオーディオ信号の信頼可能な識別をするために用いることのできる識別プロセスを提供することである。

この目的は以下に開示する本発明により達成される。

本発明の種々の特徴及び好ましい実施の態様は以下の検討及び添付された図面を参考することによりよく理解されるであろう。幾つかの図面においては同様な参考番号は同様の要素を指す。以下の検討の内容及び図面は単に本発明における例として記載されるものであり本発明の範囲を限定することを意図するものと解してはならない。

図１はビデオ及びオーディオ信号の信頼できる識別をするために用いられるシステムの略ブロック図である。図２はビデオ信号の信頼できる識別をするために用いられるシステムの略ブロック図である。図３はオーディオ信号の信頼できる識別をするために用いられるシステムの略ブロック図である。図４Ａはビデオ内容の２つのフレームの違いを表す相違測定をするために使用されるプロセスの略ブロック図である。図４Ｂはビデオ内容の２つのフレームの違いを表す相違測定をするために使用されるプロセスの略ブロック図である。図４Ｃはビデオ内容の２つのフレームの違いを表す相違測定をするために使用されるプロセスの略ブロック図である。図５Ａは低解像度画像における一組の中間値の略ブロック図である。図５Ｂは低解像度画像における一組の中間値の略ブロック図である。図６はオーディオ内容のあるセグメントの時間周波数での表示を作り出すために使用されるプロセスの略ブロック図である。図７は低解像度の時間周波数表示の一組の中間値の略ブロック図である。図８は同期させたビデオ/オーディオストリームの参考署名（reference signature）及び調整情報を得る装置の略ブロック図である。図９はビデオ/オーディオストリームの同期を回復する装置の略ブロック図である。図１０はビデオ/オーディオストリームのタイミングの遅れを表す略ブロック図である。図１１はビデオ又はオーディオの内容のコピーを検出する署名データベースを管理する装置の略ブロック図である。図１２は本発明の種々の特徴を実施するために使用される装置の略ブロック図である。

発明を実施するための形態
Ａ．説明
図１は信号の信頼できる識別を得るためにビデオ/オーディオ信号３のセグメント３aから３dの内容を検討する代表的なシステム３００の略ブロック図である。ビデオ署名発生器１００はビデオ内容を認識する一組のビデオ署名（ＳＶ）199ａから199dを得、オーディオ信号発生器２００はオーディオ内容を識別する一組のオーディオ署名（ＳＡ）299ａから299dを得る。図に示す例ではビデオ及びオーディオビデオ内容の個々の署名はビデオ/オーディオ信号のセグメントに対応する。この具体的な例は以下の幾つかの段落で更に議論するが、ビデオ/オーディオ信号のそれぞれのセグメントはビデオ内容の一フレーム及びオーディオ内容の一セグメントを伝える。ビデオ/オーディオセグメント、ビデオフレーム、オーディオセグメント及び署名の間のこの具体的な対応は単に一つの例として示すものである。他の組み合わせた対応も可能である。

図２はビデオ署名発生器１００の略ブロック図である。相違測定プロセッサ１２０は一連のビデオフレーム内の２つのビデオフレーム１a及び1bの内容を検討し、２つのフレームのすべて又はその一部の間の一以上の相違測定を表す中間値を作り出す。もし各ビデオフレームの内容が、例えば、個々の画素又はピクセルの強度を表す一連の値によって示される場合、中間値はピクセル群の強度の平均又は標準偏差の間の一連の差であることもある。ビデオ署名プロセッサ１７０は、ビデオフレームの内容を識別するビデオ署名（ＳＶ）１９９ｂを生み出すために中間値に対してハッシュ関数を適応する。

図３はオーディオ署名発生器２００の略ブロック図である。時間周波数表示プロセッサ２１０は一連のセグメント内でのオーディオセグメント２ｂの内容を検討し、セグメント中のオーディオ内容のスペクトル成分のすべて又は一部を示すスペクトル値を作り出す。もし例えば、セグメントのオーディオ内容が個々のサンプルの振幅を表す値により示される場合、スペクトル値は、ブロック時間領域の周波数領域への変換により生み出される時間周波数表示内の一連の係数であってもよい。中間値プロセッサ２５０はスペクトル値群を検討し、各群のスペクトル値の強度から中間値を導き出す。オーディオ署名プロセッサ２７０は、中間値にハッシュ関数を適用してオーディオセグメントの内容を識別するオーディオ署名（SA）２９９ｂを作り出す。

Ｂ．ビデオ署名発生器
ビデオ署名発生器１００の成分は種々の方法で実施されうる。好ましい実施の態様では、殆ど又は全く知覚上の効果を持たないビデオ内容の改変に比較的無反応である署名を作り出す。ビデオ内容に対する改変が知覚される画像に本質的な影響を与えない場合は、これらの改変はまた生成された署名に本質的な影響を持たない。２つのビデオ署名の間のいくらかの相違は、署名が生成される２つの内容の相違の程度に等しい。いくつかの代表的な例を以下に検討する。

以下に検討する実施の態様ではビデオフレームの間の一以上の相違測定値を表す中間値を算出する。その理由は相違測定値を用いることにより、生成された署名の元の内容中の動作及び他の変化に対する感度を増大させるが、輝度又は対照を変化させる又は異なる色空間の間で変わり又は色補正を適用する様な、続くプロセスでの修正に対する感度を除去し又は減少させるからである。

中間値はビデオ内容の任意の２つのフレーム１a、１ｂについて算出してもよい。これらの２つのフレームは一連のフレーム内の隣接するビデオフレームであってもよく、又は一以上の中間に介在するフレームにより互いに分離していてもよい。もしこれらの２つのフレームが特定の数の介在するフレームによるよりも特定の時間間隔により分離されている場合は、これらの２つのフレームについて算出された中間値は通常ビデオフレームレートを変えるコードプロセス（coding process）によって起こされる修正によって影響を受けぬくい。

１．相違測定プロセッサ
相違測定プロセッサ１２０の幾つかの代表的実施例を図４Aから４Cに示す。図４Aを参照すると、構成部分１２２aはビデオフレーム１aから一以上のピクセル群を形成し、構成部分１２4aはこれらのそれぞれのピクセル群の一以上の特徴を抽出しそして各特徴を表すR値を算出する。構成部分１２２ｂはビデオフレーム１ｂからの一以上のピクセル群を形成し、構成部分１２４ｂはこれらのそれぞれのピクセル群から一以上の特徴を抽出し、これらの各々の特徴を表すR値を算出する。構成部分１２６は２つのビデオフレーム１a、１ｂ中の対応する特徴と対応するピクセル群のR値の間の相違測定値を表す中間値Qを算出する。

ａ）ピクセル群の形成
構成部分１２２a及び１２２ｂは実質的に任意の所望の方法によりピクセル群を形成してもよい。以下に幾つかの代替案を検討する。もし望む場合は、ビデオ署名を作り出すために用いられるビデオフレーム中の情報は、画像の端又はコーナーにレターボックス又は図形を加える任意のプロセスにより生ずる変化を避けるために全画像の一部分のみに限定してもよい。これは、特徴を抽出する前に画像をトリミングすることにより、R値が算出された後に抽出された特徴を表す一連のR値をトリミングすることにより、又はR値から算出される一連の相違値をトリミングすることによるなどの種々の方法により達成される。好ましくは、これは特徴を抽出する前に画像をトリミングすることで達成される。

テレビなどへのビデオの利用においては、好適なトリミングは画像の中央部分を選択し、画像の端に近いビデオ内容に挿入されたロゴ又は他の図形が抽出される特徴に影響を与えないようにする。トリミングはまた、順次走査及びインターレース走査フォーマットの間の変換、及び高解像度（HD）フォーマット及び標準解像度（SD）フォーマットの間の変換のため、画像の修正を不要とする。ある特定のHDをSDフォーマットへの変換のためのトリミングについては続く段落で検討する。

もし解像度1080 x 1920ピクセルを持つＨＤフォーマットの元のビデオ内容が、例えば、解像度480 x 640ピクセルのＳＤフォーマットに変換される場合、元の画像は変換される画像に残っている元の画像の中央の部分を選択するようにトリミングすることができる。適切なトリミングにより、ＳＤフォーマット画像と同じ縦横比を持つ解像度1080 x 1440ピクセルの画像を得るために元のＨＤフォーマット画像の左端から２４０ピクセルを及び右端から２４０ピクセルを除去する。トリミングされる範囲は、上に述べたロゴ又は図形物で修正されることもある追加された画像領域を除去する様に調整しても良い。

一連のピクセルのビデオフレームが異なるフォーマット間で変換される場合に発生しうる修正に対する感度を減少させるためにサンプルダウン（down-sample）しても良い。例えば、テレビで応用する場合は、画像は解像度120 x 160ピクセルにダウンサンプルしても良く、これはＨＤ及びＳＤフォーマットでは好都合の選択であり、順次走査及びインタレース走査フォーマットで都合の良い選択である。

このダウンサンプル化は、ビデオフレームで伝送される画像の水平及び垂直解像度を決めるためにビデオ内容を伝えるパラメータ又は他のメタデータを検討し、これらの解像度に応じた因子を選択し、及びその因子に等しい量の画像をダウンサンプルすることにより実施しても良い。ここで検討する例では、トリミングされたＨＤフォーマット画像には９に等しい因数が選択され、ＳＤフォーマット画像には４に等しい因数が選択される。

例えば、元のビデオ信号の内容が解像度1080 x 1920ピクセルのＨＤフォーマットであるとする。この内容は上に述べた様に解像度1080 x 1440ピクセルを持つ画像にトリミングすることができ、そして因数９により解像度120 x 160ピクセルにダウンサンプルすることができる。この低解像画像から特徴を抽出することができる。さらに元のビデオ信号が解像度480 x 640を持つＳＤフォーマットに変換されるとする。この変換された画像は因数４により解像度120 x 160にダウンサンプルすることができ、これにより元の信号でなされたと同様に変換された信号から本質的に同じ特徴が抽出されうる。同じダウンサンプル化はＳＤからＨＤフォーマットへ変換及び順次走査及びインターレース走査フォーマットの間の変換においても用いることができる。もし適切なダウンサンプル化が行われた場合は、これらの特徴抽出プロセス及び続く署名生成プロセスはフォーマット間の変換で起こる修正に反応しない。

もしビデオ信号が、ビデオのフレームが２つの場で配置されるインターレース走査フォーマットで内容を伝える場合、特徴を抽出する前に順次走査フォーマットに変換しても良い。代替的に走査フォーマットの選択からより独立した方法は、インターレース走査フレームの一つの場のみから抽出することで実現される。例えば、特徴あるフレーム中の第一の場のみから又はフレームの第二の場のみから抽出することができる。他の場のビデオ内容は無視される。このプロセスでは特徴を抽出する前に順次走査フォーマットに変換する必要がない。

ある実施の態様では、ピクセル群は解像度120 x 160ピクセルのダウンサンプル画像で形成される。例えば、図５Ａでは、ピクセル群はそのサイズは均一であり、その幅はＧＸピクセル、高さはＧＹピクセルである。群の横方向サイズＧＸはK・GX= RHとなるように、またGYの縦方向サイズはL・GY= RVとなるよう選択され、ここでＲＨ及びＲＶは各ビデオフレームにおける画像の各々横及び縦方向の寸法である。ある好適な数値はGX=8, GY=8, K=15及びL=20である。

これは15 x 20の配置群を示し、各群はダウンサンプル化画像中に8 x 8ピクセルサイズを持つ。

同様の結果が、ビデオフレーム中の画像のフォーマットに対応して調整されたサイズを持つ元の画像中のピクセル群を形成することにより得られる。上に記載の実施例について続けて検討すると、ＨＤフォーマット画像は1080 x 1440ピクセルのサイズにトリミングされ、ピクセル群は72 x 72ピクセルのサイズのトリミングされた画像に形成される。これにより15 x 20 配置のピクセル群が生成される。ＳＤフォーマット中の画像では、ピクセル群は32 x 32 ピクセルサイズを持つ元の画像に形成され、これは15 x 20 配置のピクセル郡を生成する。

図５Ｂはサイズが均一でないピクセル群を示す。6 x 4 配置のより小さいピクセルが画像の中心部分を構成する。一組のより大きいピクセル群が中心部分の群を包囲する。この種の配置は、知覚上より重要である各画像の中心部分にある内容を含むビデオフレーム情報において有利に用いることができる。

ピクセル群は本質的にどの様なサイズ又は形であっても良い。例えば、図５Ｂに示す画像の中心部分は、より幅広線で示す長方形により取り囲まれているが、単一ピクセル群であっても良く、画像の残りの部分は他のピクセル群であっても良い。

好ましくは、ビデオ内容の修正の結果生じることのあるピクセル郡の配置の任意の変更によりもたらされる変化に対する感度を低下させるために、ピクセルは低域（low-pass）フィルターろ過される。フィルターろ過はピクセル群形成プロセスの間一以上の回数実施しても良い。例えば、ピクセルは上に述べたダウンサンプル化操作の前に、ダウンサンプル化操作直後に及び/又はピクセル群の形成直後に、低域（low-pass）フィルターろ過しても良い。フィルターのサイズは、一方の調整変化に対する抵抗と他方のビデオ内容の変化に対する感度とをバランスさせる様に選ぶべきである。より大きいフィルターは調整での変化に対する抵抗を増大させる。より小さいフィルターはビデオ内容の変化に対する感度を増大させる。もし低域フィルターが上で検討した120 x 160 ダウンサンプル化された画像に適用された場合、経験的に、全てのタップ係数（tap coefficient）が１に等しい3 x 3の２次元フィルターを用いることにより良い結果が得られることが判明した。特徴抽出についての以下の検討は図５Aに示す代表的群に関するものである。

ｂ）特徴の抽出
構成部分124a及び124bは各ピクセル群から一以上の特徴を抽出して各特徴を表すＲ値を算出する。

もし各ビデオフレームが単色画像を伝送する場合は、これらの特徴は個々のピクセルの強度を表すデータeから抽出しても良い。例えば、もし各ビデオフレームが赤、緑及び青（ＲＧＢ）値で表されるピクセルを含むカラー画像を伝送する場合、各別々の特徴は赤、緑及び青のピクセル成分のそれぞれを表すデータeから抽出しても良い。代替的に特徴は、赤、緑及び青成分を表すデータに基づくピクセル輝度又は明るさを表すデータeから抽出しても良い。

抽出されるある特徴はピクセルの平均強度である。この特徴を表すR_AVE値は以下の式から得ることができる：

式中
R_AVE(k,l)=ピクセル(k,l)群のピクセルの平均強度
e(i,j)=群中のピクセル(i,j)の強度
GX=ピクセル数で表されるピクセル群の幅
GY=ピクセル数で表されるピクセル群の高さ
K=ピクセル数で表される画像の水平解像度
L=ピクセル数で表される画像の垂直解像度
抽出される他の特徴はピクセル強度の標準偏差である。代替的に標準偏差の分散又は二乗を用いても良い。標準偏差を表すR_SD値は以下の式から得られる：

式中
R_SD(k,l)＝ピクセル(k, l)群中のピクセル強度の標準偏差。

抽出される他の特徴はピクセル強度のヒストグラムである。この特徴を表す一組のR_HISTは在りうる強度の範囲において各強度のある特定の強度を持つピクセルの数を数えることにより得られる。

更に他の特徴はスペクトルの振幅及び/又は相である。スペクトルを表す一組のＲ_SPECTRUM値は2次元フーリエ変換をピクセル強度群に適用することで得られる。

特にいずれの特徴が本発明にとって決定的なものであるというものではない。しかし、経験より言うと、ピクセル強度の平均及び標準偏差は多くの応用において選択して良い特徴である。

もし望むならば、抽出された特徴を表すＲ値は続くプロセスのために群に配置しても良い。例えば、一組のR_SPECTRUM値により表されるスペクトルの特徴は周波数又は相に基づいて群に体系づけても良い。さらに、特徴は算出されたＲ値から抽出されることもある。例えば、平均強度R_AVE又はスペクトルR_SPECTRUM値の標準偏差を算出しても良い。

ｃ）相違測定値の算出
構成部分１２６は測定相違Eを表す中間値Ｑを種々の方法で算出する。その測定方法を選択することは原則として本発明にとり決定的なものではないが、ある測定方法は構成部分124a及び124bにより抽出される特徴に基づいてより良い結果示すこともある。好適な選択をするためには経験的な判断が必要となることもある。以下に述べる２つの方法は広い範囲で適用されよい結果を生むことが判明した。

一つの相違測定法は２つの異なるフレームの対応するピクセル群の対応する特徴を表すＲ値の間の、差の絶対値によることである。この測定方法は以下の式により算出することができる：

式中
E(k, l, f_1,f₂) =ピクセル群（k,l）のフレームf₁及び f₂の間の相違、及びR(k, l, x) =フレームｘのピクセル群（k,l）の抽出された特徴を表す値である。

例えば、もし抽出された特徴が、スペクトルの特徴を表すR_SPECTRUM中の振幅の様な2以上の要素を表示する値によって表される場合、相違測定は、2つの異なるフレーム中の対応するピクセル群の対応する特徴を表すＲ値中の要素間の差の絶対値の合計から算出しても良い。この測定値は以下の式から計算されうる：

式中
R(k, l, z, x) =フレームｘ中のピクセル群(k, l)のＲ値中の要素ｚである。

もし、望むならば、フレーム中の２以上のピクセル群の相違の複合測定値は以下の式から算出される：

式中E(f_i,f₂) =フレームf₁及び f₂の間の、相違の複合測定値;及びk及びlの合計の限界値は所望の群を含む様に選択される。この特定の例ではＲ値は一以上の要素を持つと想定される。もしそれらのR値が唯一の要素を持つ場合ｚに対する合計は含まれない。

相違測定の他の例は、2つの異なるフレーム中の対応するピクセル群の対応する特徴を表すＲ値の間の差の二乗である。この値は以下の式から算出されうる：

もし抽出された特徴が2つ以上の要素を含む値により表される場合は、相違測定は2つの異なるフレーム中の対応するピクセル群の対応する特徴を表すＲ値の間の要素の差の二乗の合計から算出しても良い。この測定値は以下の式から算出される：

もし所望する場合は、フレーム中の2以上のピクセル群の相違複合測定値は以下の式から算出しても良い：

式中
k及びlの合計の限界値は所望の群を含む様に選定される。この特定の例ではＲ値は一以上の要素を持つと想定される。もしR値が唯一の要素を持つ場合はｚに対する合計は含まれない。

ある実施の態様においては、中間値Ｑは算出された相違測定値Eに等しく設定される。代替例について以下に検討する。

ｄ）代替的実施の態様
もし平均ピクセル強度の間の差が署名生成に使用される相違測定値のみである場合は、相違測定プロセッサ１２０は図４Ｂ及び４Ｃに示す様に実行されても良い。これらの実施の態様においては、ピクセル強度又は平均強度はビデオフレーム１a 及び１bから抽出され、抽出された特徴の間の相違測定値が算出され、そして相違測定値は続く署名生成のため群に形成される。

図４Ｂ及び４Ｃに示す標準的な実施の態様においては、ビデオ内容のフレームは一連の個々のピクセルにより表され、相違測定プロセッサ１２０は、その各々が一連の微分要素を含む差分画像（difference image）を、2つのビデオフレーム中の対応するピクセル間の差を算出することにより得る。もし各々のビデオフレームが例えば、赤、緑及び青（ＲＧＢ）の値により表されるピクセルを含むカラー画像を伝送する場合は、微分要素は対応するピクセルの各赤、緑及び青値の間の違いから算出しても良い。好ましくは微分要素は赤、緑及び青値に基づく対応するピクセルの輝度又は明るさの間の絶対差から算出される。もし各ビデオフレームが単色画像を伝送する場合は、微分要素は対応スルピクセルの強度の差から算出しても良い。

もし望むならば、微分要素は、画像の端又はコーナーにレターボックス又は図形を加えるプロセスにより起きる変化を避けるために全画像の一部のみに限定しても良い。この限定は微分要素の算出の前に画像をトリミングすることにより、又はこれらを算出した後に一連の微分要素をトリミングすることにより実施しても良い。

差分画像の解像度はピクセル群を形成するために上に述べた様に変化させても良い。これは微分要素を算出する前にビデオフレーム中のデータを修正することにより、又はそれらが算出された後に微分要素を修正することにより実施しても良い。

図４Ｃに示す実施の態様について述べると、構成部分１２３はビデオフレーム1 a 及びビデオフレーム１b中の対応するピクセル値の間の差を算出し、構成部分１２５はピクセルの差の絶対値から一組の微分要素Δを得る。構成部分１２７はトリミング及びダウンサンプル化を行う。トリミング操作は差分画像の最上部、底部、右端及び左端に近い微分要素を取除くことにより、差分画像の中央部分のみを維持する。ダウンサンプル操作は、インプットビデオフレームのフォーマットに関係なく特定の120 x 160ピクセルサイズを持つ一連の微分要素を生成するため、トリミングされた差分画像をダウンサンプルする。この特定のサイズは単なる代表例である。構成部分１２８は微分要素Δを群に形成し、各群中の微分要素の平均値を算出する。もし、望むならば、ダウンサンプル化及び群形成操作は上に述べた様に組み合わせても良い。

差を算出し、ダウンサンプルし、トリミングし及び群を形成する操作は異なる順序で実施しても良い。例えば、微分要素Δはまず2つのビデオフレームの内容をダウンサンプルし、ダウンサンプルされた画像をトリミングし、トリミングされた画像にピクセル群を形成し、各群中のピクセルの平均強度を算出し、そして2つの画像中に対応する平均強度の間の差を出すことにより算出する。図４ｃに示す群形成操作１２８について述べると、微分要素Δはある差分画像の複数の領域にグループ化され、その各領域はGX要素の幅及びGY要素の高さを持つ。中間値Ｑは微分要素Δの強度から各領域の要素の平均強度を算出することによって得られる。これらの中間値はK x Lの中間値解像度を持つ差分画像の低解像度表示を構成する。これは上に検討したピクセル群の形成に類似し、図５Ａ及び５Ｂに示す。以下の段落に表す代表的な実施の態様では図５Ａに示すピクセル群と同様な方法で配置された要素を持つ低解像度画像を使用する。

中間値は以下の式から得ても良い：

式中
Q(k ,1) =低解像度画像中の中間値
GX= 要素の数で表される微分要素群の幅；
GY=要素の数で表される微分要素群の高さ；
K =低解像度画像の水平解像度；
L =低解像度画像の垂直解像度；及び
Δ(l, j) =微分要素
群の水平サイズGXは、K・GX= RHであり、及び群の垂直サイズGYはL・GY= RVとなる様に選択され、ここでRH及びRV は各々差分画像の水平及び垂直解像度である。解像度120 x 160を持つダウンサンプル化された差分画像に要素を生成する、上で検討した代表的な実施の態様においては、群にとってある好適なサイズは8 x 8ピクセルであり、このサイズは120/8 x 160/8 = 15 x 20の解像度を持つ低解像度画像を提供する。

ビデオ署名を生成するために、より高解像度微分要素よりもより低解像度中間値Ｑを用いることにより、生成されたビデオ署名は、ビデオ信号内容の詳細を変化させるが平均強度を維持するプロセスに対し余り反応しない。

２．ビデオ署名プロセッサ
以下の段落に記載するビデオ署名プロセッサ１７０を実行することによって、図５Ａに示す一連のＲ値又は図４Ｃに示すプロセッサに関連して上で議論したK x L配置の微分要素から得られたK x L配置の中間値Ｑからビデオ署名を生成する。

ビデオ署名プロセッサ１７０は、一組のＮハッシュビットを生成するためにK x L配置の中間値Ｑに対してハッシュ関数を適用する。これらのハッシュビットはビデオフレームの内容を識別するビデオ署名（ＶＳ）を構成する。好ましくは、ハッシュ関数は中間値の変化に余り反応しないが、用いられるハッシュキー（hash key）の何れの変化に対しても反応するのが良い。そのインプットの単一のビットが変化してもそのアウトプットが大きく変わる典型的な暗号学的ハッシュ関数と異なり、この場合に適用される好ましいハッシュ関数はインプットされる中間値の小さな変化に対して小さい変化のみを生ずるアウトプットを提供する。これにより生成されたビデオ署名は、ビデオ信号内容に小さい変化が起きた場合に僅かに変化することが可能になる。

ある好適なハッシュ関数では一組のＮハッシュビットを生成するために一組のＮベースマトリクスを用いる。ベースマトリクスP₁ からP_NはK x L配置のランダム値マトリクス要素である。各ベースマトリクスP_nのマトリクス要素p_n (k,l) は以下の式から生成しても良い：

(6)

式中
p_n(k, l) =ベースマトリクスP_n のマトリクス要素(k, J);
RNG = ランダム数発生器のアウトプット；及び

発生器RNGは範囲[0,1]に均一に分布したランダム又は擬似ランダム値を生成する。発生器の当初の状態はハッシュキーにより初期化され、それによりハッシュ関数及び生成されたビデオ署名を暗号的により安全にすることができる。

一組のＮハッシュビットはまず中間値Ｑを各Ｎベースマトリクスに投射することにより得られ、以下の様に表される:

式中
H_n =中間値をベースマトリクスP_nに投射したもの。

ハッシュビットは各投射を全ての投射の中間値に対比し、そしてもし投射が閾値に等しく又はそれを越える場合はハッシュビットを第一の値にセットし、もし投射が閾値より低い場合はハッシュビットを第二の値にセットすることにより得られる。これは以下の式で表わされる：

ただし、sgn (ｘ) = 0 x < 0の場合
= 1 x ≧ 0の場合

Ｃ．オーディオ署名発生器
オーディオ署名発生器２００の構成部分は種々の方法により構成することができる。好ましい実施の態様においては、オーディオ内容に殆んど又は感知されない効果しかない修正に対して比較的反応しない署名を生成する。もしオーディオ内容に対する修正が感知される音に本質的な影響を与えない場合、好ましくはこれらの修正はまた生成された署名に対して実質的な影響を与えない。2つのオーディオ署名にいくらかの違いがある場合にはそれは署名が生成される2つの内容の間の違いの程度に等しい。幾つかの好適な実施の態様について以下に検討する。

１．時間周波数表示プロセッサ
オーディオ信号のセグメントが個々のサンプルの振幅を表す値により表わされている代表的な実施の態様では、時間周波数表示プロセッサ２１０は、各セグメント内の一連の重複するオーディオサンプルブロックに対して、時間領域から周波数領域への変換を適用することにより生成させる変換係数から一組のスペクトル値を得る。もし望むならば、スペクトル値は、オーディオ内容のスペクトル形を変えるプロセスにより生成される変化を避けるためにオーディオ内容の全バンド幅の一部のみに限定しても良い。例えば、限定された表示は最低周波数及び最高周波数スペクトル成分を表す変換により生成されるこれらの変換係数を除くことにより、又は変換を適用する前にオーディオ内容を帯域（bandpass）フィルターろ過することにより得ることができる。

時間周波数表示プロセッサ２１０の代表的な実施の態様により実施される操作は図６に系統的に表されている。この実施の態様では、オーディオ内容２aのセグメントは一連の重複するブロックBLOCK-1からBLOCK-Ｔに分割されている。各セグメントの長さはＬＳサンプルであり各ブロックの長さはＬＢサンプルである。隣接するブロックの最初の部分の間の相殺はブロックステップサイズとして記載される多数のサンプルＺＢである。ブロック変換がサンプルの各ブロックに適用され一組のスペクトル値を生成する。図６は変換２０により一つのブロックBLOCK-２を一組のスペクトル値２５aに変換することを示す。この特定の実施の態様ではプロセス処理は、セグメント2aの全てのＴブロックが各組のスペクトル値に変換された後に次のセグメント２ｂのブロックに続く。隣接するセグメントの開始部分間の相殺はセグメントステップサイズとして記載され多数のサンプルＺＳである。

時間周波数表示の時間分解能はセグメントの長さ、ブロックの長さ及びブロックステップサイズの関数であり、以下の様に表すことができる：

T =（LS−LB）/ZB (8)
式中
Ｔ＝各セグメントのブロックの時間分解能又は数
LS =サンプル中の各セグメントの長さ；
LS =サンプル中の各ブロックの長さ；及び
ZB =ブロックステップサイズ
周波数分解能は通常ブロックの長さ又はスペクトル値を生成するために用いられる変換の長さにより決定される。

以下に検討するビデオ及びオーディオ内容を同期させる応用例では、オーディオ内容は３つのビデオフレームの長さに等しいセグメントに分割される。あるテレビジョンでの応用では、３つのビデオフレームの間の時間間隔は約１００ミリ秒である。もしオーディオサンプルレートが48 kHzであるならば、オーディオセグメントの長さは4,800サンプルである。ブロックの長さは２５６サンプルとなるように、及びブロックステップサイズは３２サンプルになるよう選択される。これを実施するために各オーディオセグメントはT= 142ブロックを持ち；したがって、時間周波数表示の時間分解能は１４２に等しい。

２５６ポイント高速フーリエ変換（ＦＦＴ）が、１２９スペクトル値を生成するためにサンプルの各ブロックに適用される。したがって、時間周波数分解能は１２９に等しい。セグメントステップサイズは５１２サンプル又は約１０．７ミリ秒である様に選択される。

２．中間値プロセッサ
中間値プロセッサ２５０はスペクトル値の群を検証し、そして各群のスペクトル値の強度から中間値を導く。

代表的な実施の態様では、スペクトル値Ｓは時間周波数領域にグループ化され、各領域はＧＦスペクトル値の幅及びＧＴブロック長さを持つ。中間値Ｑはスペクトル値の強度から、各領域のスペクトル値の平均強度を算出することにより導き出される。これらの中間値はK x L中間値の分解能を持つ低分解能時間周波数表示を構成する。これは図７に略図で示す。中間値は以下の式から得ても良い：

式中
Q(k, l)＝低分解能表示の中間値

GF=数値で表されたスペクトル値群の幅
GT= ブロック数で表されたスペクトル値群の長さ
K = 低分解能表示の周波数分解能
L =低分解能表示の時間分解能
S(i, j) = スペクトル値
ＧＦ群のサイズはK・GF = RTとなり、ＧＴ群のサイズがL・GT= RTとなる様に選定され、ここでRF及びRTは各低分解能表示の周波数及び時間分解能である。上で検討した及び以下に検討する典型的な実施の態様においては、群のある好適なサイズはGF = 6及びGT= 14であり、これは

中間値の低分解能表示を提供する。オーディオ署名を生成するために高分解能時間周波数表示よりもむしろ低分解能中間値Ｑを用いることにより、生成されたオーディオ署名はスペクトル内容の詳細を変えるが平均スペクトルレベルを維持するプロセスに対して余り反応しない。

時間周波数表示及び中間値を算出する操作は他の方法により実施しても良い。例えば、低分解能表示の一組のスペクトル値は、ブロック長さ及び変換長さを減少させることにより得ることができ、及び同じ時間分解能を得る為にスペクトル値群のＧＴ長さを増大させることにより得られることもある。もし望むならば、群のＧＦ幅はスペクトルにわたり変えることができる。生成された署名にとってもし高周波数スペクトル成分が低周波数成分より重要性が少ないとみなされる場合、この相対的重要性を実現することは高周波数の群の幅を増大させることにより可能である。

３．オーディオ署名プロセッサ
オーディオ署名プロセッサ２７０は一組のＮハッシュビットを生成するためにハッシュ関数をK x L配置の中間値Ｑに適用する。これらのハッシュビットはオーディオセグメントの内容を識別するオーディオ署名（ＳＡ）を構成する。これはビデオ署名について上で記載したと同じ方法で実施される。

Ｄ.適用
上で検討したビデオ及びオーディオ署名発信機は、ビデオ及びオーディオ内容の流れの間の失われた同期を回復すること及びビデオとオーディオ内容のコピーを検出することを含む種々の場合に用いても良い。これらに適用される場合の代表的な実施の態様を以下に示す。

１．ビデオ/オーディオの同期
ビデオ及びオーディオ内容の流れは、これらが記録され又は製作される場合、しばしば互いに同期させるが同期は続くプロセスで失われることもある。例えば、テレビジョン放送システムでは、同期させたビデオ及びオーディオの流れは、伝送のため組み合わされる前に信号処理のためしばしば２つの異なるパスに分離される。2つのパスの異なるプロセス処理上の遅れは同期を失わせる原因となる。これらの流れは手作業で互いに再同期させることができるがこれは骨の折れる且つ人的ミスの起こり易い作業である。上に記載の署名発生器は自動的に同期を回復するために使用することができる。例えば、放送システムでは、放送の直前の送信機又は聴取前の受信機を含むシステムの任意の箇所で同期を回復させることができる。

上に記載の様な技術は、ビデオ/オーディオの流れが同期することが知られている場合は、ビデオ及びオーディオ内容の流れから署名を生成するために用いられる。これらの署名の基になるビデオ及びオーディオ内容の間の調整を特定する調整情報も捕捉される。これらのビデオ及びオーディオ署名及び調整情報は、２つの流れの間の同期を回復する役割を持つ「同期回復装置」（resync device）に提供される。「同期回復装置」は、これらの流れが処理されそしてお互いに同期を失った後にビデオ及びオーディオ内容の流れを受信して、現在の調整情報と共に新たな署名を生成し、新たに生成された署名及び現在の調整情報を元の署名及び調整情報と関係付け、そして適切な同期が達成されるまで現在の調整状態を調節する。これが実行される一つの方法を以下に更に詳細に記載する。

ａ）代表的な実施の態様の概観
図８は同期させたビデオ及びオーディオ流れからビデオ及びオーディオ署名及び調整情報を生成する捕捉装置（capture device）350のブロック略図である。同期させたビデオ及びオーディオ内容及び流れはここで参考内容及び参考流れと呼ばれる。参考流れから得られる署名及び調整情報はここでそれぞれ参考署名及び参考調整情報とよばれる。ビデオ署名はビデオ署名発生器１００により得られ、その後に同期回復装置で使用されるためパス１９０に沿い送られる。オーディオ署名はオーディオ署名発生器２００により得られ、その後に同期回復装置で使用されるためパス２９０に沿い送られる。ビデオ及びオーディオ署名を生成するために用いられる技術は上に述べた。

捕捉装置３５０はまた種々の方法で表される調整情報を捕捉する。例えば、調整情報は特定のビデオ署名をオーディオ署名に関連付けることにより暗示されることもあり、その場合2つの署名は実質的に同時に始まるビデオ内容フレーム及びオーディオ内容のセグメントから生成される。この文脈では、ビデオ及びオーディオ内容の開始時間は、人である観測者がいずれの内容が先行すべきかの判断が困難である場合実質的に同じと考えられる。他の例として、調整情報はビデオ及びオーディオ署名と関連付けられそして基礎となるビデオ内容及びオーディオ内容の相対的なタイミングを特定する時間スタンプ又は時間オフセットにより表されても良い。もし明確な調整情報が提供されるならば、それは続く同期回復装置による使用のためにパス３９０を通して送られる。特に特定のタイプの調整情報が決定的に重要というものではない。以下に検討する実施の態様は調整情報が暗示的であるとの想定と矛盾するものではない。これらの例は、署名に伴う明確な時間スタンプ又は時間オフセットを説明するために容易に変えることができる。

図９はビデオ及びオーディオ内容の流れ間の同期を回復するために使用される同期回復装置４００のブロック略図である。同期回復装置４００はパス３３から受け取ったビデオ及びオーディオ内容の流れからビデオ及びオーディオ署名を生成するビデオ署名発生器１００及びオーディオ署名発生器２００を含む。これらの流れの内容は種々のプロセスにより意図的に又は意図せずに改変され、そしてお互いに適切に同期しないこともある。これらのビデオ及びオーディオ内容及び流れは本明細書で現在の内容及び現在の流れと呼ぶ。現在の流れから生成される署名は本明細書で現在の署名と呼ばれる。

内容遅延計算機４１０は現在のビデオ署名を参考ビデオ署名と比較し、対応するフレームと見做される、参考ビデオ内容及び現在のビデオ内容の基礎となるフレームの間の相対時間差を予測する。内容遅延計算機４２０は現在のオーディオ署名を参考オーディオ署名と比較し、対応するセグメントと見做される参考オーディオ内容及び現在のオーディオ内容の基礎となる部分の間の相対時間差を予測する。放送の様な分野での応用では参考署名及び調整情報は現在の流れが到達する前に内容遅延計算機に送られるため、十分な情報がリアルタイムに同期を回復するのに利用される。相対遅延計算機４３０は、現在の流れの一方又は両方が適切な同期を達成するために調整することが必要となる遅延の量を計算するためにこれらの相対的時間差を用いる。この遅れを表す情報は、遅れを実行する他の機器の使用のためにパス４９０に沿い送られる。例えば、相対的ビデオ時間差が、参考ビデオフレームは対応する現在のビデオフレームに４秒の差で先行することを示すと仮定すると、相対的オーディオ時間差は、参考オーディオセグメントが対応する現在のオーディオセグメントに５秒先行することを示す。相対遅延計算機４３０は、適正な同期を達成するために現在のビデオ流れの１秒に等しい遅れを算出することができる。

ｂ）内容遅れ計算機
上に述べた２つの内容遅れ計算機は参考及び現在の署名の順序を比較し、基礎となるビデオ/オーディオ内容の間の相対的時間差を予測する。これらの計算機は種々の方法で使用されうる。

ハミング距離関数を用いる一つの実施の態様について以下の段落に記載する。現在のビデオの流れが符号δ_vで表される処理遅れを課する信号処理パスを通して参考ビデオ流れから得られると仮定する。更に現在のオーディオ流れは符号δ_Aで表される処理遅れを課する信号処理パスを通して参考ビデオ流れから得られると仮定する。参考ビデオ署名SV_REF及び現在のビデオ署名SV_CURRを比較してビデオ処理遅れの推測値ε_Vを生成する。参考及び現在のビデオ流れの間の相対的時間差は推測される遅れε_Vをから得ることができる。内容遅れ計算機４２０は参考オーディオ署名SA_REF及び現在のオーディオ署名SA_CURRを比較しオーディオ処理の遅れの推測値ε_Aを生成する。参考及び現在のオーディオ流れの間の相対的時間差は推測される遅れε_Aから得ることができる。

処理の遅れを推測するために使用される一つの技術を以下の段落に説明する。ビデオ及びオーディオの間に違いはない。その理由はビデオ処理遅れの推測値ε_V及びオーディオ処理遅れの推測値ε_Aは同じ方法で算出することができるからである。

内容遅れ計算機は２組の署名を受け取る。一つは{S_REF(i)}で表される参考署名の数列であり、第二の組は｛S_curr(i)｝であらわされ現在の署名の数列である。相関器は２組の署名が高度の相関を持っている窓（ｗｉｎｄｏｗ）を見つけ出すために２つの数列の範囲にわたり調査をする。これはまず以下の数値の計算行うことにより実行しても良い。

式中
D(m, i)＝流れの間の、特定の配列に対して計算された数値
HD[r,c] =署名r及びcの間のハミング距離
F = 参考署名{ S_REF(i)}の組中の署名の数
U =相関器の調査範囲
W= 署名の数として表現された相関窓の長さ

ハミング距離は２つの署名が異なるビット位置の数に等しい。

推測される処理遅れは、相関ウインド内の参考及び現在の署名の間の再緊密マッチが見出されるｍの値から得られる。これは以下の様に表わすことができる：

もし処理の遅れがない場合はε_i= iである。もし推測される遅れが３つのフレーム又は３つのセグメントである場合は、ε_i =i + 3である。フレーム又は署名S_REF(i)に対応するセグメントの相対的時間差はε_i及びiの間を相殺した差である。ビデオフレームiの相対的時間差はここではdv(i)で表され及びオーディオセグメントiの相対的時間差はここではda(i)で表される。

テレビジョンのある実施の態様においては、数値W=10及びU=45がビデオフレームの内容遅れ計算機４１０により用いられ、数値W=23及びU=47がオーディオセグメントの内容遅れ計算機４２０によって用いられる。ビデオ及びオーディオ遅れ計算機で用いられる数値Ｆは参考流れ中の各々ビデオフレーム及びオーディオセグメントの数である。

相対的遅れ計算機４３０は適正な同期を実現するため、ビデオ及びオーディオ流れの相対的時間差を用いて一つの又は両方の現在の流れの遅れの量を算出する。図１０にその概略を示す。参考ビデオ流れ１の参考ビデオフレーム１ｂ及び参考オーディオ流れ２の参考オーディオセグメント２ｂは同期していることが示されている。ビデオ流れ１の信号処理８１及びオーディオ流れ２の信号処理８２は２つの流れ中に異なる遅れを導入する。その結果現在のビデオ流れ３１の現在のビデオフレーム１ｂ及び現在のオーディオ流れ３２の現在のオーディオセグメント２ｂは最早同期していない。

現在のビデオフレーム１ｂはｄｖ遅れており、現在のオーディオセグメント２ｂはda遅れていた。同期を回復するのに必要な遅れの調整adjは（dv-da）に等しい。図に示す様に、もしdvがdaよりも大きい場合、同期はオーディオセグメントをadj分調整して、遅らせることで回復しても良い。もしdvがdaよりも小さい場合は同期はadj分調整することによってビデオフレームを遅らせることで回復しても良い。流れは本質的に所望の任意の方法によって遅らせることができるが、一つの方法は遅れに調整を与えることのできる十分な容量を持つ先入れ先出し（FIFO）バッファー中に流れの内容を記憶させ及び読み出すことである。

２．コピーの検出
ビデオ及びオーディオ内容から生成される署名は、その内容が上に述べたものを含み、種々のプロセスで改変された場合においても、その内容を識別するために用いることができる。特定のビデオ内容またはオーディオ内容が参考ビデオ内容又はオーディオ内容のコピーであるか否かを決定する機能は、その内容が改変されている場合にも種々の形で用いることができる。その例の幾つかを以下のリストに簡単に示す：
・許可されていないコピーの検出：ピアーツピア（peer to peer）サーバーのネットワークは内容の配布を容易にするが、これはまた法で保護された内容の許可を得ていない又は海賊版コピーの検出をより困難にすることもある。何故ならそれらの内容の多くのコピーはピアーツピアサーバーの間で存在しうるからである。ある設備はでは、もし許可を得ていないコピーがネットワーク上に存在するか否かをネットワークから利用可能な全ての内容の署名を生成し、これらの署名をデータベースの参考署名と対比することにより自動的に決定することができる。

・放送の確認：特定のビデオ及びオーディオ内容を配布する放送ネットワークと契約するビジネスでは、契約条件を確認することができるビジネスでは、放送受信機により受信する信号から署名を生成し、これらの署名を特定の内容の参考署名と対比することにより契約条件が守られているか否かを確認することができる。

・受信の識別：放送ネットワークの評価を提供するビジネスでは受信信号から署名を生成し、これらの署名を参考署名と対比して受信機により受信される内容を識別することができる。

図１１は上のリストに記載された様な種々の応用例で用いることのできるシステムの概略ブロック図である。ビデオ署名発生器１００及びオーディオ署名発生器２００はパス３１から受信された内容の参考ビデオ/オーディオ流れから参考ビデオ署名及び参考オーディオ署名を生成する。生成された参考ビデオ署名はビデオ署名データベース（VSIG DB）180中に記憶され、生成された参考オーディオ署名はオーディオ署名データベース（ASIG DB）２８０に記憶される。参考署名はその実施を容易にすることのできる他の情報と共に記憶させても良い。例えば、参考署名は基礎となる内容自体と共に、又は内容の所有者、内容のライセンス条件、内容の題名、内容の文章による記述の様な内容についての情報を識別するデータと共に記憶させても良い。

各参考署名はデータベースサーチキーを持つ。このキーは所望の任意の方法によるものであっても良い。好ましくはこのキーは参考署名そのものに基づくものであるか又はそれから創りだされるものであっても良い。

任意の特定のビデオ内容又はオーディオ内容を識別するにあたってはビデオ及びオーディオデータベースに記憶されている情報により表される参考内容と対比してチェックしても良い。その内容の同一性が確認されるべき内容は本明細書ではテスト内容と呼ぶ。テストビデオ内容の同一性は、ビデオ署名発生器１０１に、パス３３から受信したテストビデオ内容からテストビデオ署名を生成させ、テストビデオ署名をビデオサーチエンジン１８５に送ることによりチェックしても良い。ビデオサーチエンジン１８５は，テストビデオ署名と厳密な又はそれに近い対（match）であるビデオ署名データベース１８０中の参考ビデオ署名の検索を試みる。テストオーディオ内容の同一性は、オーディオ署名発生器２０１に、パス３３から受信したテストオーディオ内容からテストオーディオ署名を生成させ、テストオーディオ署名をオーディオサーチエンジン２８５に送ることによりチェックしても良い。オーディオサーチエンジン２８５はテストオーディオ署名と厳密な又はそれに近い対であるオーディオ署名データベース２８０中の参考オーディオ署名の検索を試みる。

ある実施の態様においては、サーチエンジンは、テスト署名及びデータベース中に記憶された参考署名の間のハミング距離を計算し、一連のテストビデオ署名に最も近い一連の参考署名をサーチする。式１０及び１１又はあるそれらの変形式で、上に示した計算はサーチを実施するために用いても良い。もし２つの署名の数列の間の距離がある閾値より小さい場合は、テスト署名の数列に関連するテスト内容は、マッチする参考署名の数列に関連する参考内容と全く同一又はその変形コピーであると見做される。経験的に言えば、約２秒の内容を表す署名の数列を用いて種々のビデオ及びオーディオ内容について良い結果を得ることができることが分かった。

E.実施
本発明の種々の特徴を取り入れた装置は、コンピュータにより、又は汎用コンピュータに見られるものと同様な構成品に接続されているデジタル信号プロセッサ（ＤＳＰ）の様なより専用化された構成品を含むある種の他の装置によるソフトウェアーの実行を含め種々の方法により実施することができる。図１２は本発明の特徴を実施するために用いることのできる装置７０の概略ブロック図である。プロセッサ７２は計算機資源を提供する。ＲＡＭ７３は処理するためにプロセッサ７２により使用されるシステムランダムアクセスメモリー（ＲＡＭ）である。ＲＯＭ７４は装置７０を作動させるために必要なプログラムを記憶し及び、恐らく本発明の種々の特徴を実施する、読出し専用メモリー（ＲＯＭ）の様なある形式の永続記憶装置を表す。I/O制御７５は通信チャネル７６、７７により信号を受信し及び伝達するインターフェイス回路を表す。記載の実施の態様では、全ての主要なシステムの構成品はバス７１に接続され、バスは一以上の物理的バス又は論理バスを表すが、バスの基本設計は本発明の実施するために必要なものではない。

汎用コンピュータシステムにより実施される実施の態様では、追加の構成品が、キーボード又はマウス及びディスプレイの様な、装置との接続のために、及び磁気テープ又はディスク又は光学媒体の様な記憶媒体を持つ記憶装置７８を制御するために含んでも良い。これらの記憶媒体はオペレーティングシステム、ユーティリティ、及び応用の指示プログラムを記憶するために用いられ、そして本発明の種々の特徴を実施するプログラムを含んでも良い。

本発明の種々の特徴を実施するために必要な機能は、個別論理部品、集積回路、一以上のＡＳＩＣ及び/又はプログラム制御プロセッサを含み種々の幅広い方法により使用可能な構成品により実行することができる。これらの構成品が使用される方法は本発明にとっては重要ではない。本発明のソフトウェアーの実施は、超音速から紫外線周波数までを含む全スペクトルを通してベースバンド又は変調通信経路の様な種々の機械可読媒体により、又は磁気テープ、カード又はディスク、又は光カード又はディスク、及び紙を含む媒体上の検出可能なマークを含む実質的に任意の記憶技術を用いて情報を伝達する記憶媒体を通して伝送されても良い。

Claims

ビデオ信号の内容を識別する署名を生成する方法であって、前記方法は、
ビデオ信号の一連のビデオフレーム内の第一のビデオフレームにより伝送される画像中のピクセルを表すデータから第一の組の一以上の特徴を抽出し、第一の組の特徴を表す第一の値を算出し；
ビデオ信号の一連のビデオフレーム内の第二の組のビデオフレームにより伝送される画像中のピクセルを表すデータから第二の組の一以上の特徴を抽出し、ここで第二の組の特徴中の各特徴は第一の組の特徴の中に対応する特徴を持ち、そして第二の組の特徴を表す第二の値を算出し、ここで第二の組の特徴中の各特徴を表す第二の値は、各特徴に対応する第一の組の特徴の中の特徴を表す第一の値に対応し；
一連の中間値を生成し、ここで一連の中間値の各々は第二の値及び対応する第一の値の間の一以上の相違測定値を表し；及び
中間値に対してハッシュ関数を適用することによりビデオ信号の内容を識別する署名を生成する、
ことを含み、
中間値にハッシュ関数を適用することは、中間値を一組のランダムベクトルに投射することを含み、前記署名の各成分は中間値を各ランダムベクトルに投射することから導出される、
前記方法。
ピクセル群から第一の組の特徴及び第二の組の特徴を抽出することを含み、各ピクセル群は第一及び第二のビデオフレームにより伝送される画像の一つの各領域を表す、請求項１の方法。
前記第一の組及び第二の組の特徴が各ピクセル群内のピクセルの強度の平均を表す、請求項２の方法。
前記第一の組及び第二の組の特徴が各ピクセル群内のピクセルの強度の標準偏差を表す、請求項２の方法。
前記第一の組及び第二の組の特徴がピクセルの強度を表し、各相違測定値は第二の値及び対応する第一の値の間の絶対差である, 請求項１又は２の方法。
差分画像の領域に複数の相違測定値をグループ化し；及び
各領域中の相違測定値の平均値を表す各中間値を生成する、請求項５の方法。
前記第一及び第二のビデオフレームにより伝送される画像の中央部分を表すピクセルのみに係る第一の組及び第二の組の特徴を抽出することを含む請求項１乃至６のいずれか１項の方法。
前記第一及び第二のビデオフレームにより伝送される画像の水平及び垂直解像度を決定し；
解像度に対応する因子を選択し；及び
それらのデータ、相違測定値又は中間値を前記因子に等しい数値によってダウンサンプルし、一連の中間値の水平及び垂直解像度を低減させる
ことを含む、請求項１乃至７のいずれか１項の方法。
一連のフレーム中の複数の対となるフレームの各々に署名を生成することを含む、請求項１乃至８のいずれか１項の方法。
前記一組のランダムベクトル中の各ベクトルが、０から１の範囲内の均一に分布したランダム変数と、各ベクトルの全てのベクトル要素の均一に分布したランダム変数の平均との差より得られる値を持つベクトル要素を持ち；
各ランダムベクトルに中間値を投射することは中間値の各ベクトルのベクトル要素との内積から得られ；及び
前記署名の各成分は、中間値の対応するランダムベクトルへの投射が閾値より大きい場合は、第一の値を持ち、中間値の対応するランダムベクトルへの投射が閾値より小さい場合は、第二の値を持ち、ここに閾値は一組のランダムベクトルへ投射された中間値の中央値に等しい、請求項１乃至９のいずれか１項の方法。
オーディオ信号の内容を識別する署名を生成する方法であって、前記方法は
オーディオ信号の一連のブロック内の一組のブロックの時間周波数表示を得、前記時間周波数表示は、複数組のスペクトル値を含み、各組のスペクトル値は各組のブロック中の各ブロック中のオーディオ信号のバンド幅の少なくとも一部の内の全てのスペクトル成分を表し；
各組のスペクトル値内の一以上のスペクトル値の群中に配置された全てのスペクトル値の強度から中間値を導出し；及び
一組のランダムベクトルに中間値を投射することによりオーディオ信号の内容を識別する署名を生成し、前記署名はビットにより表示され、署名の各ビットは全ての中間値に基づき導出される
前記方法。
時間周波数表示が、各組のスペクトル値を得るために時間・周波数変換を前記の組のブロック中のオーディオ信号の各ブロックに適用することにより得られ；及び
各中間値が各組のスペクトル値内の群の一以上のスペクトル値の平均強度を算出することにより導出される、
請求項１１の方法。
前記一連のブロック内の複数組のブロック内の各組のために署名を生成させることを含む、請求項１１又は１２の方法。
前記スペクトル値の群が周波数により変わる多くのスペクトル値を持つ、請求項１１乃至１３のいずれか１項の方法。
より周波数の大きいスペクトル値の群はより多くの数のスペクトル値を持つ、請求項１４の方法。
前記署名の各成分が各ランダムベクトルに中間値を投射することにより導出される、請求項１１乃至１５のいずれか１項の方法。
前記一組のランダムベクトル中の各ベクトルが、０から１の範囲内の均一に分布したランダム変数と、各ベクトルの全てのベクトル要素の均一に分布したランダム変数の平均との差より得られる値を持つベクトル要素を持ち；
各ランダムベクトルに中間値を投射することは中間値の各ベクトルのベクトル要素との内積から得られ；及び
前記署名の各成分は、中間値の対応するランダムベクトルへの投射が閾値より大きい場合は、第一の値を持ち、中間値の対応するランダムベクトルへの投射が閾値より小さい場合は、第二の値を持ち、ここに閾値は一組のランダムベクトルへ投射された中間値の中央値に等しい、請求項１６の方法。
ビデオ信号の内容を識別する署名を生成する装置であって、前記装置は、
ビデオ信号の一連のビデオフレーム内の第一のビデオフレームにより伝送される画像中のピクセルを表すデータから第一の組の一以上の特徴を抽出し、第一の組の特徴を表す第一の値を算出する手段；
ビデオ信号の一連のビデオフレーム内の第二の組のビデオフレームにより伝送される画像中のピクセルを表すデータから第二の組の一以上の特徴を抽出し、ここで第二の組の特徴中の各特徴は第一の組の特徴に対応し、そして第二の組の特徴を表す第二の値を算出し、ここで第二の組の特徴中の各特徴を表す第二の値は、各特徴に対応する第一の組の特徴中の特徴を表す第一の値に対応する手段；
一連の中間値を生成する手段であり、ここに一連の中間値の各々は第二の値及び対応する第一の値の間の一以上の相違測定値を表す手段；及び
中間値に対してハッシュ関数を適用することによりビデオ信号の内容を識別する署名を生成する手段
を含み、
中間値にハッシュ関数を適用することは、中間値を一組のランダムベクトルに投射することを含み、前記署名の各成分は中間値を各ランダムベクトルに投射することから導出される、
前記装置。
ピクセル群から第一の組の特徴及び第二の組の特徴を抽出する手段を含み、各ピクセル群は第一及び第二のビデオフレームにより伝送される画像の一つの各領域を表す、請求項１８の装置。
前記第一の組及び第二の組の特徴が各ピクセル群内のピクセルの強度の平均を表す、請求項１９の装置。
前記第一の組及び第二の組の特徴が各ピクセル群内のピクセルの強度の標準偏差を表す、請求項１９の装置。
前記第一の組及び第二の組の特徴がピクセルの強度を表し、各相違測定値は第二の値及び対応する第一の値の間の絶対差である, 請求項１８又は１９の装置。
差分画像の領域に複数の相違測定値をグループ化する手段；及び
各領域中の相違測定値の平均値を表す各中間値を生成する手段、を含む請求項２２の装置。
前記第一及び第二のビデオフレームにより伝送される画像の中央部分を表すピクセルのみに係る第一の組及び第二の組の特徴を抽出する手段を含む、請求項１８乃至２３のいずれか１項の装置。
前記第一及び第二のビデオフレームにより伝送される画像の水平及び垂直解像度を決定する手段；
解像度に対応する因子を選択する手段；及び
それらのデータ、相違測定値又は中間値を前記因子に等しい数値によってダウンサンプルし、一連の中間値の水平及び垂直解像度を低減させるための手段
を含む、請求項１８乃至２４のいずれか１項の装置。
一連のフレーム中の複数の対となるフレームの各々に署名を生成する手段を含む、請求項１８乃至２５のいずれか１項の装置。
前記一組のランダムベクトル中の各ベクトルが、０から１の範囲内の均一に分布したランダム変数と、各ベクトルの全てのベクトル要素の均一に分布したランダム変数の平均との差より得られる値を持つベクトル要素を持ち；
各ランダムベクトルに中間値を投射することは中間値の各ベクトルのベクトル要素との内積から得られ；及び
前記署名の各成分は、中間値の対応するランダムベクトルへの投射が閾値より大きい場合は、第一の値を持ち、中間値の対応するランダムベクトルへの投射が閾値より小さい場合は、第二の値を持ち、ここに閾値は一つ組のランダムベクトルへ投射された中間値の中央値に等しい、請求項１８乃至２６のいずれか１項の装置。
オーディオ信号の内容を識別する署名を生成する装置であって、前記装置は、
オーディオ信号の一連のブロック内の一組のブロックの時間周波数表示を得、前記時間周波数表示は、複数組のスペクトル値を含み、各組のスペクトル値は各組のブロック中の各ブロック中のオーディオ信号のバンド幅の少なくとも一部の中の全てのスペクトル成分を表す手段；
各組のスペクトル値内の一以上の群中に配置された全てのスペクトル値の強度から中間値を導出する手段；及び
一組のランダムベクトルに中間値を投射することによりオーディオ信号の内容を識別する署名を生成し、前記署名はビットにより表示され、署名の各ビットは全ての中間値に基づき導出される手段、
を含む前記装置。
時間周波数表示が、各組のスペクトル値を得るために時間・周波数変換を前記の組のブロック中のオーディオ信号の各ブロックに適用することにより得られ；及び
各中間値が各組のスペクトル値内の群の一以上のスペクトル値の平均強度を算出することにより導出される、
請求項２８の装置。
前記一連のブロック内の複数組のブロック内の各組のために署名を生成させる手段を含む、請求項２８又は２９の装置。
前記スペクトル値の群が周波数により変わる多くのスペクトル値を持つ、請求項２８乃至３０のいずれか１項の装置。
より周波数の大きいスペクトル値の群はより多くの数のスペクトル値を持つ、請求項３１の装置。
前記署名の各成分が各ランダムベクトルに中間値を投射することにより導出される、請求項２８乃至３２のいずれか１項の方法。
前記一組のランダムベクトル中の各ベクトルが、０から１の範囲内の均一に分布したランダム変数と、各ベクトルの全てのベクトル要素の均一に分布したランダム変数の平均との差より得られる値を持つベクトル要素を持ち；
各ランダムベクトルに中間値を投射することは中間値の各ベクトルの各ベクトル要素との内積から得られ；及び
前記署名の各成分は、中間値の対応するランダムベクトルへの投射が閾値より大きい場合は、第一の値を持ち、中間値の対応するランダムベクトルへの投射が閾値より小さい場合は、第二の値を持ち、ここに閾値は一組のランダムベクトルへ投射された中間値の中央値に等しい、請求項３３の装置。
ビデオ信号の内容を識別する署名を生成する方法を実施する装置により実行可能な指示のプログラムを記録する記憶媒体であり、
であって、前記方法は、
ビデオ信号の一連のビデオフレーム内の第一のビデオフレームにより伝送される画像中のピクセルを表すデータから第一の組の一以上の特徴を抽出し、そして第一の組の特徴を表す第一の値を算出し；
ビデオ信号の一連のビデオフレーム内の第二のビデオフレームにより伝送される画像中のピクセルを表すデータから第二の組の一以上の特徴を抽出し、ここで第二の組の特徴中の各特徴は第一の組の特徴中に対応する特徴を持ち、そして第二の組の特徴を表す第二の値を算出し、ここで第二の組の特徴中の各特徴を表す第二の値は、各特徴に対応する第一の組の特徴中の特徴を表す第一の値に対応し；
一連の中間値を生成し、ここに一連の中間値の各々は第二の値及び対応する第一の値の間の一以上の相違測定値を表し；及び
中間値に対してハッシュ関数を適用することによりビデオ信号の内容を識別する署名を生成する、
ことを含み、
中間値にハッシュ関数を適用することは、中間値を一組のランダムベクトルに投射することを含み、前記署名の各成分は中間値を各ランダムベクトルに投射することから導出される、
前記記憶媒体。
前記方法が、ピクセル群から第一の組の特徴及び第二の組の特徴を抽出することを含み、各ピクセル群は第一及び第二のビデオフレームにより伝送される一つの画像の各領域を表す、請求項３５の記憶媒体。
前記第一の組及び第二の組の特徴が各ピクセル群内のピクセルの強度の平均を表す、請求項３６の記憶媒体。
前記第一の組及び第二の組の特徴が各ピクセル群内のピクセルの強度の標準偏差を表す、請求項３６の記憶媒体。
前記第一の組及び第二の組の特徴がピクセルの強度を表し、各相違測定値は第二の値及び対応する第一の値の間の絶対差である, 請求項３５又は３６の記憶媒体。
前記方法が、差分画像の領域に複数の相違測定値をグループ化し；及び
各領域中の相違測定値の平均値を表す各中間値を生成する、ことを含む請求項３９の記憶媒体。
前記方法が、前記第一及び第二のビデオフレームにより伝送される画像の中央部分を表すピクセルのみに係る第一の組及び第二の組の特徴を抽出することを含む、請求項３５乃至４０のいずれか１項の記憶媒体。
前記方法が、前記第一及び第二のビデオフレームにより伝送される画像の水平及び垂直解像度を決定し；
解像度に対応する因子を選択し；及び
それらのデータ、相違測定値又は中間値を前記因子に等しい数値によってダウンサンプルし、一連の中間値の垂直及び水平解像度を低減させる
ことを含む、請求項３５乃至４１のいずれか１項の記憶媒体。
前記方法が、一連のフレーム中の複数の対となるフレームの各々に署名を生成することを含む、請求項３５乃至４２のいずれか１項の記憶媒体。
前記一組のランダムベクトル中の各ベクトルが、０から１の範囲内の均一に分布したランダム変数と、各ベクトルの全てもベクトル要素の均一に分布したランダム変数の平均との差より得られる値を持つベクトル要素を持ち；
各ランダムベクトルに中間値を投射することは中間値の各ベクトルのベクトル要素を持つ内積から得られ；及び
前記署名の各成分は、中間値の対応するランダムベクトルへの投射が閾値より大きい場合は、第一の値を持ち、中間値の対応するランダムベクトルへの投射が閾値より小さい場合は、第二の値を持ち、ここに閾値は一組のランダムベクトルへ投射された中間値の中央値に等しい、請求項３５乃至４３のいずれか１項の記憶媒体。
オーディオ信号の内容を識別する署名を生成する方法を実施する装置により実行可能な指示のプログラムを記録する記憶媒体であり、
であって、前記方法は、
オーディオ信号の一連のブロック内の一組のブロックの時間周波数表示を得、前記時間周波数表示は、複数組のスペクトル値を含み、各組のスペクトル値は各組のブロック中の各ブロック中のオーディオ信号のバンド幅の少なくとも一部の内の全てのスペクトル成分を表し；
各組のスペクトル値内の一以上のスペクトル値の群中に配置された全てのスペクトル値の強度から中間値を導出し；及び
一組のランダムベクトルに中間値を投射することによりオーディオ信号の内容を識別する署名を生成し、前記署名はビットにより表示され、署名の各ビットは全ての中間値に基づき導出される
記憶媒体。
時間周波数表示が、各組のスペクトル値を得るために時間・周波数変換を前記の組のブロック中のオーディオ信号の各ブロックに適用することにより得られ；及び
各中間値が各組のスペクトル値内の群の一以上のスペクトル値の平均強度を算出することにより導出される、
請求項４５の記憶媒体。
前記方法が、前記一連のブロック内の複数組のブロック内の各組のために署名を生成させることを含む、請求項４５又は４６の記憶媒体。
前記スペクトル値の群が周波数により変わる多くのスペクトル値を持つ、請求項４５乃至４７のいずれか１項の記憶媒体。
より周波数の大きいスペクトル値の群はより多い数のスペクトル値を持つ、請求項４８の記憶媒体。
前記署名の各成分が各ランダムベクトルに中間値を投射することにより導出される、請求項４５乃至４９のいずれか１項の記憶媒体。
前記一組のランダムベクトル中の各ベクトルが、０から１の範囲内の均一に分布したランダム変数と、各ベクトルの全てのベクトル要素の均一に分布したランダム変数の平均値との差から得られる値を持つベクトル要素を持ち；
各ランダムベクトルに中間値を投射することは中間値の各ベクトルのベクトル要素との内積から得られ；及び
前記署名の各成分は、中間値の対応するランダムベクトルへの投射が閾値より大きい場合は、第一の値を持ち、中間値の対応するランダムベクトルへの投射が閾値より小さい場合は、第二の値を持ち、ここに閾値は一組のランダムベクトルへ投射された中間値の中央値に等しい、請求項５０の記憶媒体。