JP2011520162A

JP2011520162A - マルチメディアストリームにおけるフレームシーケンス比較の方法

Info

Publication number: JP2011520162A
Application number: JP2010548211A
Authority: JP
Inventors: ステファンティエメルト; レネキャベット
Original assignee: アイファロメディアゲーエムベーハー
Priority date: 2008-02-28
Filing date: 2009-02-28
Publication date: 2011-07-14
Also published as: WO2009106998A1; EP2266057A1; US20110222787A1

Abstract

いくつかの態様では、本技術により、マルチメディアコンテンツと他のマルチメディアコンテンツを、コンテンツ分析サーバによって比較する。他の態様において、本技術には、ビデオシーケンスを比較するシステムおよび/または方法が含まれる。比較は、複数の第1のビデオフレームに付随する記述子の第1のリストと複数の第2のビデオフレームに付随する記述子の第2のリストとを受け取る工程、類似する該複数の第1のビデオフレームの第1のセグメントおよび類似する該複数の第2のビデオフレームの第2のセグメントを指定する工程、該第1のセグメントと該第2のセグメントを比較する工程、ならびに第1および第2のセグメントを閾値と比較するために第1と第2のセグメントの対を解析する工程を含む。

Description

関連出願の相互参照
本出願は、2008年2月28日出願の米国仮特許出願第61/032,306号の恩典を主張するものである。上記出願の全教示は参照により本明細書に組み入れられる。

発明の分野
本発明は、マルチメディアストリームにおけるフレームシーケンス比較に関する。具体的には、本発明は、ビデオコンテンツのためのビデオ比較システムに関する。

背景
広帯域通信チャネルがエンドユーザ機器まで利用可能であることにより、画像、オーディオ、およびビデオコンテンツを用いたユビキタスなメディアサービスが可能になっている。全世界的に送信されるマルチメディアコンテンツの量はますます増加しつつあり、インテリジェントなコンテンツ管理の必要が高まっている。プロバイダーは自社のコンテンツを整理し、分析することができなければならない。同様に、放送事業者および市場調査会社も、特定のフッテージがいつ、どこで放送されているか知ろうとする。コンテンツ監視、市場動向分析、および著作権保護は、マルチメディアコンテンツの量が増加しつつあるため、不可能ではないにしても、困難である。しかし、この技術分野では、ビデオコンテンツの分析を向上させることが求められている。

概要
ビデオシーケンスを比較する一手法は、ビデオのセグメントなど、マルチメディアセグメントを比較するためのプロセスである。一態様において、ビデオ比較プロセスは、複数の第1のビデオフレームに付随する記述子の第1のリストを受け取る工程を含む。該記述子はそれぞれ、第1のビデオフレームのシーケンスのうちの対応するビデオフレームの視覚情報を表す。本方法はさらに、第2のビデオフレームのシーケンスに付随する記述子の第2のリストを受け取る工程を含む。該記述子はそれぞれ、第2のビデオフレームのシーケンスのうちの対応するビデオフレームの視覚情報に関連するものである。本方法はさらに、類似する第1のビデオフレームのシーケンスの第1のセグメントを指定する工程を含む。第1のセグメントはそれぞれ、隣り合う第1のビデオフレームを含む。本方法はさらに、類似する第2のビデオフレームのシーケンスの第2のセグメントを指定する工程を含む。第2のセグメントはそれぞれ、隣り合う第2のビデオフレームを含む。本方法はさらに、第1のセグメントと第2のセグメントを比較する工程、ならびに第1のセグメントおよび第2のセグメントを閾値と比較するために、第1のセグメントと第2のセグメントとの比較に基づいて第1のセグメントと第2のセグメントの対を解析する工程を含む。

ビデオシーケンスを比較する別の手法は、コンピュータプログラム製品である。一態様では、該コンピュータプログラム製品は、情報担体に有形的に組み込まれる。コンピュータプログラム製品は、各記述子が第1のビデオフレームのシーケンスのうちの対応するビデオフレームの視覚情報を表す、第1のビデオフレームのシーケンスに関連する記述子の第1のリストを、データ処理装置に受け取らせるように操作可能な命令を含む。コンピュータプログラム製品はさらに、各記述子が第2のビデオフレームのシーケンスのうちの対応するビデオフレームの視覚情報を表す、第2のビデオフレームのシーケンスに関連する記述子の第2のリストを、データ処理装置に受け取らせるように操作可能な命令を含む。コンピュータプログラム製品はさらに、各第1のセグメントが隣り合う第1のビデオフレームを含む、類似する第1のビデオフレームのシーケンスの一つまたは複数の第1のセグメントを、データ処理装置に指定させるように操作可能な命令を含む。コンピュータプログラム製品はさらに、各第2のセグメントが隣り合う第2のビデオフレームを含む、類似する第2のビデオフレームのシーケンスの一つまたは複数の該第2のセグメントを、データ処理装置に指定させるように操作可能な命令を含む。コンピュータプログラム製品はさらに、一つまたは複数の第1のセグメントの少なくとも一つと、一つまたは複数の第2のセグメントの少なくとも一つとを、データ処理装置に比較させるように、および、第1のセグメントおよび第2のセグメントを閾値と比較するために、第1のセグメントと第2のセグメントとの比較に基づいて、第1のセグメントと第2のセグメントの対をデータ処理装置に分析させるように、操作可能な命令を含む。

ビデオシーケンスを比較する別の手法は、システムである。一態様において、該システムは、通信モジュールと、ビデオセグメント化モジュールと、ビデオセグメント比較モジュールとを含む。通信モジュールは、各記述子が第1のビデオフレームのシーケンスのうちの対応するビデオフレームの視覚情報に関連する、第1のビデオフレームのシーケンスに付随する記述子の第1のリストを受け取り、かつ、各記述子が第2のビデオフレームのシーケンスのうちの対応するビデオフレームの視覚情報に関連する、第2のビデオフレームのシーケンスに付随する記述子の第2のリストを受け取る。ビデオセグメント化モジュールは、各第1のセグメントが隣り合う第1のビデオフレームを含む、類似する第1のビデオフレームのシーケンスの一つまたは複数の第1のセグメントを指定し、かつ、各第2のセグメントが隣り合う第2のビデオフレームを含む、類似する第2のビデオフレームのシーケンスの一つまたは複数の該第2のセグメントを指定する。ビデオセグメント比較モジュールは、一つまたは複数の第1のセグメントの少なくとも一つと、一つまたは複数の第2のセグメントの少なくとも一つとを比較し、かつ、第1のセグメントおよび第2のセグメントを閾値と比較するために、少なくとも一つの第1のセグメントと少なくとも一つの第2のセグメントとの比較に基づいて、少なくとも一つの第1のセグメントと少なくとも一つの第2のセグメントの対を解析する。

ビデオシーケンスを比較する別の手法は、ビデオ比較システムである。該システムは、各記述子が第1のビデオフレームのシーケンスのうちの対応するビデオフレームの視覚情報に関連する、第1のビデオフレームのシーケンスに付随する記述子の第1のリストを受け取る手段を含む。前記システムはさらに、各記述子が第2のビデオフレームのシーケンスのうちの対応するビデオフレームの視覚情報に関連する、第2のビデオフレームのシーケンスに付随する記述子の第2のリストを受け取る手段を含む。前記システムはさらに、各第1のセグメントが隣り合う第1のビデオフレームを含む、類似する第1のビデオフレームのシーケンスの一つまたは複数の第1のセグメントを指定する手段を含む。システムはさらに、各第2のセグメントが隣り合う第2のビデオフレームを含む、類似する第2のビデオフレームのシーケンスの一つまたは複数の第2のセグメントを指定する手段を含む。前記システムはさらに、第1のセグメントの少なくとも一つと、一つまたは複数の第2のセグメントの少なくとも一つとを比較する手段を含む。前記システムはさらに、第1のセグメントおよび第2のセグメントを閾値と比較するために、第1のセグメントと第2のセグメントとの比較に基づいて、第1のセグメントと第2のセグメントの対を解析する手段を含む。

他の例においては、上記手法のいずれかが、以下の特徴の一つまたは複数を含むこともできる。いくつかの例においては、解析する工程は、類似する第1のセグメントと第2のセグメントを決定することを含む。

他の例においては、解析する工程は、相違する第1のセグメントと第2のセグメントを決定することを含む。

いくつかの例においては、比較する工程は、一つまたは複数の第1のセグメントの各々を、一つまたは複数の第2のセグメントの各々と比較することを含む。

他の例においては、比較する工程は、一つまたは複数の第1のセグメントの各々を、適応窓（adaptive window）内に位置する一つまたは複数の第2のセグメントの各々と比較することを含む。

いくつかの例においては、本方法は、比較する工程中に適応窓のサイズを変更する工程を含む。

他の例においては、比較する工程は、第1のセグメントのシーケンスで形成された、一つまたは複数の第1のセグメントの第1のクラスタを指定することを含む。比較する工程はさらに、各第1のクラスタに対して、そのクラスタの第1のセグメントのシーケンスのうちの1つの第1のセグメントを、第1のクラスタ重心として選択することを含むことができる。比較する工程はさらに、各第1のクラスタ重心を各第2のセグメントと比較することを含むことができる。比較する工程はさらに、各第1のクラスタ重心の閾値内にある各第2のセグメントについて、第2のセグメントと第1のクラスタの第1のセグメントとを比較することを含むことができる。

いくつかの例においては、比較する工程は、第1のセグメントのシーケンスで形成された、第1のセグメントの第1のクラスタを指定することを含む。比較する工程はさらに、各第1のクラスタに対して、そのクラスタの第1のセグメントのシーケンスのうちの1つの第1のセグメントを、第1のクラスタ重心として選択することを含むことができる。比較する工程はさらに、第2のセグメントのシーケンスで形成された、第2のセグメントの第2のクラスタを指定することを含むことができる。比較する工程はさらに、各第2のクラスタに対して、そのクラスタの第2のセグメントのシーケンスのうちの1つの第2のセグメントを、第2のクラスタ重心として選択することを含むことができる。比較する工程はさらに、各第1のクラスタ重心を各第2のクラスタ重心と比較することを含むことができる。比較する工程はさらに、各第2のクラスタ重心の閾値内にある各第1のクラスタ重心について、第1のクラスタの第1のセグメントと第2のクラスタの第2のセグメントとを相互に比較する工程を含むことができる。

他の例において、本方法はさらに、第1のビデオフレームのシーケンスのうちの1つの第1のビデオフレームの視覚情報に関連する記述子、および/または第2のビデオフレームのシーケンスのうちの1つの第2のビデオフレームの視覚情報に関連する記述子に基づいて、閾値を生成する工程を含む。

いくつかの例においては、解析する工程は、少なくとも一つの行列を使用すること、および類似するビデオフレームのセグメントにおける差のレベルを表す少なくとも一つの行列内の対角項目を探索することによって、行われる。

他の例においては、本方法はさらに、以前にマッチしなかったフレームシーケンスについて類似するフレームシーケンスを探し出す工程を含む。

本明細書において示すビデオストリームにおけるフレームシーケンス比較は、以下の利点の一つまたは複数を提供することができる。フレームシーケンス比較の一利点は、ユーザが各マルチメディアストリームを同時に表示させる必要がなく、より効率的に自動比較の報告書を精査して、各マルチメディアストリーム間の相違点および/または類似点を決定することができるため、マルチメディアストリームの比較が、より効率的であることである。別の利点は、マルチメディアストリームの厳密なビットごとの比較は困難であり、効率が悪いため、類似するフレームシーケンスを識別することによって、マルチメディアストリームのより正確な比較が提供されることである。

本発明の他の局面および利点は、以下の詳細な説明を、本発明の原理を例として示す添付の図面と併せて読めば明らかになるであろう。

本発明自体のみならず、本発明の上記およびその他の目的、特徴ならびに利点も、以下の様々な態様の説明を、添付の図面と併せて読めばより十分に理解されるであろう。
例示的なシステムを示す機能ブロック図である。例示的なコンテンツ分析サーバを示す機能ブロック図である。例示的な多重チャネルビデオ比較プロセスを示す例示的なブロック図である。ディジタルビデオ指紋の生成を示す例示的な流れ図である。 2つのビデオストリームの比較の例示的な結果を示す図である。画像の指紋の生成を示す例示的な流れ図である。フレームのグループ化を示す例示的なブロックプロセス図である。総当たり比較プロセスを示す例示的なブロック図である。適応窓比較プロセスを示す例示的なブロック図である。クラスタ化比較プロセスを示す例示的なブロック図である。類似フレームシーケンスの識別を示す例示的なブロック図である。類似フレームシーケンスを示す例示的なブロック図である。総当たり識別プロセスを示す例示的なブロック図である。適応窓識別プロセスを示す例示的なブロック図である。拡張識別プロセスを示す例示的なブロック図である。ホールマッチング識別プロセスを示す例示的なブロック図である。例示的なシステムを示す機能ブロック図である。例示的な報告書を示す図である。フレームシーケンス間の指紋の比較を示す例示的な流れ図である。ビデオシーケンスの比較を示す例示的な流れ図である。例示的な多重チャネルビデオ監視システムを示すブロック図である。例示的なグラフィカル・ユーザ・インターフェースを示すスクリーンショットである。ディジタル画像表現サブフレームにおける変化の例を示す図である。ディジタルビデオ画像検出システムを示す例示的な流れ図である。特徴空間におけるK-NN入れ子型独立特徴部分空間（K-NN nested, disjoint feature subspace）の例示的な横断集合（traversed set）を示す図である。特徴空間におけるK-NN入れ子型独立特徴部分空間の例示的な横断集合を示す図である。

詳細な説明
おおまかにいうと、本技術は、マルチメディアコンテンツ（例えば、フィルム、クリップ、および広告などのディジタルフッテージや、ディジタルメディア放送など）と他のマルチメディアコンテンツを、コンテンツ分析器によって比較する。マルチメディアコンテンツは、マルチメディアを記憶し、記録し、または再生することのできる実質的にあらゆるソース（例えば、生放送のテレビソース、ネットワーク・サーバ・ソース、ディジタル・ビデオ・ディスク・ソースなど）から獲得することができる。コンテンツ分析器は、ディジタルコンテンツの、自動的で効率のよい比較を可能にする。コンテンツ分析器は、コンテンツ分析プロセッサまたはサーバとすることができ、高度に拡張性を有し、コンピュータビジョン技術および信号処理技術を使用して、リアルタイムでビデオおよびオーディオ領域においてフッテージを分析することができる。

さらに、コンテンツ分析サーバの自動コンテンツ比較技術は非常に正確である。人間の観察者は疲労により誤ることもあり、フッテージ内の識別しにくい細かな詳細を見逃すこともあるが、コンテンツ分析サーバは99％を上回る正確さでコンテンツを比較することが定常的に可能である。この比較では、監視すべきフッテージを予め検査する、または操作する必要がない。コンテンツ分析サーバは、マルチメディア・ストリーム・データ自体から関連情報を抽出し、したがって、ほぼ無制限の量のマルチメディアコンテンツを人的介入なしで効率よく比較することができる。

コンテンツ分析サーバは、マルチメディアコンテンツの各サンプルから、本明細書において指紋とも呼ばれる、ディジタルシグネチャなどの記述子を生成する。ディジタルシグネチャは、ビデオ部分における色分布、形状、およびパターン、ならびにオーディオストリームにおける周波数スペクトルなど、コンテンツに特有の視覚的側面、聴覚的側面、および/または視聴覚的側面を記述する。マルチメディアの各サンプルは、基本的には、その固有の視覚的特性、聴覚的特性および/または視聴覚的特性についてのコンパクトなディジタル表現である固有の指紋を有する。

コンテンツ分析サーバは、そのような指紋を利用して、マルチメディアサンプルにおいて、類似かつ/または異なるフレームシーケンスまたはクリップを探し出す。また、マルチメディアサンプルにおいて類似のフレームシーケンスおよび異なるフレームシーケンスを探し出すシステムおよびプロセスを、動画複製比較システム（motion picture copy comparison system）（MoPiCCS）と呼ぶこともできる。

図1に、例示的なシステム100の機能ブロック図を示す。システム100は、一つまたは複数のコンテンツ機器A 105a、B 105〜Z 105z（以下コンテンツ機器105という）、コンテンツ分析サーバ110などのコンテンツ分析器、通信ネットワーク125、通信機器130、ストレージサーバ140、およびコンテンツサーバ150を含む。各機器および/もしくはサーバは、通信ネットワーク125を介して、かつ/または機器および/もしくはサーバ間の接続（例えば、直接接続、間接接続など）を介して相互に通信し合う。

コンテンツ分析サーバ110は、コンテンツ機器105（例えば、ディジタル・ビデオ・ディスク機器、信号取得機器、衛星受信機器、ケーブル受信ボックスなど）、ストレージサーバ140（例えば、ストレージ・エリア・ネットワーク・サーバ、ネットワーク接続ストレージサーバなど）、コンテンツサーバ150（例えば、インターネットベースのマルチメディアサーバ、ストリーミング・マルチメディア・サーバなど）、および/またはマルチメディアストリームを記憶することのできる他の任意のサーバもしくは機器（例えば、携帯電話、カメラなど）の、1台もしくは複数にマルチメディアストリームを要求し、かつ/またはこれらの1台もしくは複数からマルチメディアストリームを受け取る。コンテンツ分析サーバ110は、各マルチメディアストリームに対して、一つまたは複数のフレームシーケンスを識別する。コンテンツ分析サーバ110は、各マルチメディアストリームの一つまたは複数のフレームシーケンスの各々について、個々の指紋を生成する。コンテンツ分析サーバ110は、各マルチメディアストリーム間で、一つまたは複数のフレームシーケンスの指紋を比較する。コンテンツ分析サーバ110は、マルチメディアストリーム間で類似するフレームシーケンスおよび/または異なるフレームシーケンスについての報告書（例えば、書面の報告書、図式の報告書、テキストメッセージの報告書、警告、図式のメッセージなど）を生成する。

他の例においては、コンテンツ分析サーバ110は、各マルチメディアストリーム内の各フレームに対して指紋を生成する。コンテンツ分析サーバ110は、フレームシーケンス内の各フレームからの指紋および/またはフレームシーケンスと関連付けられた他の任意の情報（例えば、ビデオコンテンツ、オーディオコンテンツ、メタデータなど）に基づいて、各マルチメディアストリームの各フレームシーケンス（例えば、フレームのグループ、直接的フレームシーケンス、間接的フレームシーケンスなど）に対して、指紋を生成することができる。

いくつかの例においては、コンテンツ分析サーバ110は、各フレームに関する情報（例えば、ビデオコンテンツ、オーディオコンテンツ、メタデータ、指紋など）に基づいて、各マルチメディアストリームに対してフレームシーケンスを生成する。

図2に、システム200における例示的なコンテンツ分析サーバ210の機能ブロック図を示す。コンテンツ分析サーバ210は、通信モジュール211、プロセッサ212、ビデオフレーム・プリプロセッサ・モジュール213、ビデオフレーム変換モジュール214、ビデオ指紋モジュール215、ビデオセグメント化モジュール216、ビデオセグメント変換モジュール217、および記憶装置218を含む。

通信モジュール211は、コンテンツ分析サーバ210のための情報を受け取り、かつ/またはコンテンツ分析サーバ210からの情報を送る。プロセッサ212は、マルチメディアストリームの比較を求める要求（例えば、ユーザからの要求、スケジュールサーバからの自動要求など）を処理し、通信モジュール211に、マルチメディアストリームを要求し、かつ/または受け取るよう指示する。ビデオフレーム・プリプロセッサ・モジュール213は、マルチメディアストリームを前処理する（例えば、黒い境界を除去する、安定境界を挿入する、サイズ変更する、圧縮する、キーフレームを選択する、フレームをまとめてグループ化するなど）。ビデオフレーム変換モジュール214は、マルチメディアストリームを変換する（例えば、輝度正規化、RGB/Color9変換など）。ビデオ指紋モジュール215は、マルチメディアストリームにおける各キーフレーム選択（例えば、各フレームがそれ自体のキーフレーム選択である、フレームの1グループが一つのキーフレーム選択を有するなど）に対して指紋を生成する。ビデオセグメント化モジュール216は、各キーフレーム選択に対する指紋に基づいて、各マルチメディアストリームについて、フレームシーケンスをまとめてセグメント化する。ビデオセグメント比較モジュール217は、（例えば、各フレームシーケンスの各キーフレーム選択の指紋を比較すること、フレームシーケンス内の各フレームの指紋を比較することなどによって）マルチメディアストリームの各フレームシーケンスを比較して、マルチメディアストリーム間で類似するフレームシーケンスを識別する。記憶装置218は、要求、マルチメディアストリーム、指紋、フレーム選択、フレームシーケンス、フレームシーケンスの比較、および/またはフレームシーケンスの比較と関連付けられた他の任意の情報を記憶する。

図3に、図1のシステム100における例示的な多重チャネルビデオ比較工程300の例示的なブロック図を示す。コンテンツ分析サーバ110は、一つまたは複数のチャネル1 322'からn 322''（チャネル322と総称する）および基準コンテンツ326を受け取る。コンテンツ分析サーバ110は、基準コンテンツ326の類似フレーム328のグループを識別し、各グループに対して代表指紋を生成する。いくつかの態様において、コンテンツ分析サーバ110は、基準コンテンツ326と関連付けられた一つまたは複数の指紋を記憶するための基準データベース330を含む。コンテンツ分析サーバ110は、各チャネル322上のマルチメディアストリームについて、類似フレームのグループ324'および324''（全体としてグループ324と呼ぶ）を識別する。コンテンツ分析サーバ110は、各マルチメディアストリームにおける各グループ324に対して代表指紋を生成する。コンテンツ分析サーバ110は、各マルチメディアストリームのグループ324の代表指紋を、基準データベース330に記憶されているであろう、基準コンテンツ326から決定された基準指紋と比較する（332）。コンテンツ分析サーバ110は、指紋の比較に基づいて結果を生成する（334）。いくつかの態様において、結果には、比較から求められた統計情報（例えば、フレーム類似比率、フレームグループ類似比率など）が含まれる。

図4に、ディジタルビデオ指紋の生成の例示的な流れ図400を示す。コンテンツ分析ユニットは、信号バッファユニットから記録されたデータチャンク（例えば、マルチメディアコンテンツ）を直接取り出し、分析の前に指紋を抽出する。図1のコンテンツ分析サーバ110は、それぞれが個々の画像フレームのシーケンス471を含む、一つまたは複数のビデオ（より一般的には視聴覚）クリップまたはセグメント470を受け取る。ビデオ画像フレームは冗長性が高く、ビデオセグメント470の異なるショットによってフレームグループは相互に異なる。例示的なビデオセグメント470では、ビデオセグメントのサンプリングされたフレームが、ショット、すなわち第1のショット472'、第2のショット472''、第3のショット472'''に従ってグループ化される。異なるショット472'、472''、472'''（概して472）のそれぞれについて、キーフレームとも呼ばれる代表フレーム474'、474''、474'''（概して474）が選択される。コンテンツ分析サーバ100は、異なるキーフレーム474のそれぞれについて、個々のディジタルシグネチャ476'、476''、476'''（概して476）を決定する。キーフレーム474のディジタルシグネチャ476のグループは合わさって、例示的なビデオセグメント470のディジタルビデオ指紋478を表す。

いくつかの例においては、指紋を記述子ともいう。各指紋は、フレームおよび/またはフレームグループを代表するものとすることができる。指紋は、フレームのコンテンツ（例えば、画像の色および/または明暗度の関数、画像の各部分の導関数、全明暗度値の加算、色値の平均、輝度値のモード、空間周波数値など）から導出することができる。指紋は整数（例えば、345、523）および/または、行列もしくはベクトルなどの数の組み合わせ（例えば、［a,b］、［x,y,z］）とすることができる。例えば、指紋は、xを輝度とし、yをクロミナンスとし、zをフレームの空間周波数とする［x,y,z］で定義されるベクトルである。

いくつかの態様において、ショットは、指紋値に従って差別化される。例えば、ベクトル空間において、同じショットのフレームから決定された指紋と、同じショットの隣り合うフレームの指紋との差は、比較的小さい隔たりであると考えられる。異なるショットへ移行する際は、次のフレームグループの指紋はより大きな隔たりを有する。従って、ショットは、ショットの指紋が、ある閾値より大きく異なるかどうかによって区別することができる。

従って、第1のショット472'のフレームから決定された指紋は、これらのフレームを、第1のショットに関連するものとしてグループ化するために、または別の方法で識別するために使用することができる。同様に、後に続くショットの指紋も、後に続くショット472''、472'''をグループ化するために、または別の方法で識別するために使用することができる。各ショット472に対して、代表フレーム、すなわちキーフレーム474'、474''、474'''を選択することができる。いくつかの態様において、キーフレームは、同じショット内のフレームグループの指紋から統計学的に選択される（例えば、平均値または重心）。

図5に、図1のコンテンツ分析サーバ110による、2つのビデオストリーム510、520の比較の例示的な結果500を示す。コンテンツ分析サーバ110は、キーフレームに基づいて、各ビデオストリーム510および520を、それぞれフレームシーケンス512、514、516、523、524および522に分割する。コンテンツ分析サーバ110は、各フレームシーケンスを比較して、ビデオストリーム510と520の間で類似するフレームシーケンスを探し出す。ストリーム1 510は、フレームシーケンスA 512、B 514、およびC 516を含む。ストリーム2 520は、フレームシーケンスC 523、B 524、およびA 522を含む。コンテンツ分析サーバは、ストリーム1 510内のフレームシーケンスB 514を、ストリーム2 520内のフレームシーケンスB 524とマッチさせる。

例えば、図2の通信モジュール211は、ユーザから、2つのディジタルビデオ・ディスク（DVD）を比較するよう求める要求を受け取る。第1のDVDは「All Dogs Love the Park」というタイトルの映画の欧州版である。第2のDVDは「All Dogs Love the Park」というタイトルの映画の米国版である。プロセッサ212は、ユーザからの要求を処理し、通信モジュール211に、2つのDVDにマルチメディアストリームを要求し、かつ/またはそれらを受け取る（すなわち、2つのDVDを有するDVD再生機器に再生コマンドを送る）よう指示する。ビデオフレーム・プリプロセッサ・モジュール213は、2つのマルチメディアストリームを前処理する（例えば、黒い境界を除去する、安定境界を挿入する、サイズ変更する、圧縮する、キーフレーム選択を識別するなど）。ビデオフレーム変換モジュール214は、2つのマルチメディアストリームを変換する（例えば、輝度正規化、RGB/Color9変換など）。ビデオ指紋モジュール215は、2つのマルチメディアストリームにおける各キーフレーム選択（例えば、各フレームがそれ自体のキーフレーム選択である、フレームの1グループが一つのキーフレーム選択を有するなど）に対して指紋を生成する。ビデオセグメント化モジュール216は、各マルチメディアストリームに対してフレームシーケンスをセグメント化する。ビデオセグメント比較モジュール217は、類似するフレームシーケンスを識別するために、マルチメディアストリームについて各フレームシーケンスに対するシグネチャを比較する。表1に、図5に示す2つのマルチメディアストリームの例示的な比較プロセスを示す。

（表１）例示的な比較プロセス

図6に、図2のコンテンツ分析サーバ210による画像612に対する指紋の生成の例示的な流れ図600を示す。通信モジュール211は、画像612を受け取り、画像612をビデオフレーム・プリプロセッサ・モジュール213に送る。ビデオフレーム・プリプロセッサ・モジュール213は、画像を前処理（620）（例えば、空間的画像前処理）して、前処理済み画像614を形成する。ビデオフレーム変換モジュール214は、前処理済み画像614を変換（630）（例えば、画像色調調整および変換）して変換済み画像616を形成する。ビデオ指紋モジュール215は、変換済み画像616の画像指紋618を生成する（640）（例えば、特徴量算出）。

いくつかの例においては、画像は単一のビデオフレームである。コンテンツ分析サーバ210は、マルチメディアストリーム内のあらゆるフレーム、および/またはフレームグループ内のあらゆるキーフレームに対して指紋618を生成することができる。言い換えると、画像612はフレームグループのキーフレームとすることができる。いくつかの態様において、コンテンツ分析サーバ210は、高度の冗長性を利用して、各n番目フレーム（例えば、n＝2）に対して指紋を生成する。

他の例においては、指紋618を記述子ともいう。各マルチメディアストリームは、コンテンツ分析サーバ210によって比較される記述子の、関連付けられたリストを有する。各記述子は、ビデオフレームおよび/またはビデオフレームのグループの視覚情報を表す、多値の視覚指紋を含むことができる。

図7に、図2のコンテンツ分析サーバ210によるフレーム（セグメントともいう）のグループ化の例示的なブロックプロセス図700を示す。各セグメント1 711、2 712、3 713、4 714、および5 715は、セグメントの指紋を含む。フレーム番号、基準時刻、セグメント開始基準、セグメント停止基準、および/またはセグメント長など、セグメントに関連するその他の特徴を指紋と関連付けることもできる。ビデオセグメント化モジュール216は、隣接するセグメントの指紋を相互に比較する（例えば、セグメント1 711の指紋がセグメント2 712の指紋と比較されるなど）。指紋間の差が、所定のセグメント化閾値および/または動的に設定されるセグメント化閾値を下回る場合、ビデオセグメント化モジュール216は隣接するセグメントをマージさせる。指紋間の差が、所定のセグメント化閾値および/または動的に設定されるセグメント化閾値以上である場合、ビデオセグメント化モジュール216は隣接するセグメントをマージさせない。

この例では、ビデオセグメント化モジュール216は、セグメント1 711と2 712の指紋を比較し、2つのセグメントの指紋の差が閾値未満であることに基づいて、2つのセグメントをマージさせてセグメント1-2 721にする。ビデオセグメント化モジュール216は、セグメント2 712とセグメント3 713の指紋を比較し、2つの指紋間の差が閾値より大きいため、セグメントをマージさせない。ビデオセグメント化モジュール216は、セグメント3 713と4 714の指紋を比較し、2つのセグメントの指紋間の差に基づいて、2つのセグメントをマージさせてセグメント3-4 722にする。ビデオセグメント化モジュール216は、セグメント3-4 722と5 715の指紋を比較し、2つのセグメントの指紋間の差に基づいて、これら2つのセグメントをマージさせてセグメント3-5 731にする。ビデオセグメント化モジュール216はさらに、他の隣接するセグメントの指紋を比較することもできる（例えば、セグメント2 712とセグメント3 713、セグメント1-2 721とセグメント3 713など）。ビデオセグメント化モジュール216は、セグメント化閾値を下回る指紋比較がそれ以上生じなくなると、マージプロセスを完了させる。よって、比較のための比較閾値または差分閾値の選択を使用して、記憶要件および/または処理要件を制御することができる。

他の例においては、各セグメント1 711、2 712、3 713、4 714、および5 715は、フレームグループにおけるキーフレームに対する指紋および/またはフレームグループへのリンクに対する指紋を含む。いくつかの例においては、各セグメント1 711、2 712、3 713、4 714、および5 715は、フレームグループ内のキーフレームおよび/またはフレームグループの指紋を含む。

いくつかの例においては、ビデオセグメント比較モジュール217は、類似するセグメント（例えば、マージされたセグメント、個々のセグメント、時間でグループ化されたセグメントなど）を識別する。類似するセグメントの識別は、（i）総当たりプロセス（すなわち、あらゆるセグメントを他のあらゆるセグメントと比較する）、（ii）適応窓プロセス、および（iii）クラスタ化プロセスという、識別プロセスの一つまたは複数を含み得る。

図8に、図2のコンテンツ分析サーバ210による総当たり比較プロセス800の例示的なブロック図を示す。比較プロセス800は、ストリーム1 810のセグメントをストリーム2 820のセグメントと比較する工程である。ビデオセグメント比較モジュール217は、表2に示すように、セグメント1.1 811を、ストリーム2 820のセグメントのそれぞれと比較する。比較されるセグメントのシグネチャ間の差が、比較閾値未満である場合には（例えば、3＜差＜-3の範囲内の差、絶対差-｜差｜など）、これらのセグメントは類似している。表2に示すセグメントに対する比較閾値は4である。比較閾値は、事前に決定することもでき、かつ/または動的に設定することもできる（例えば、ストリーム中のセグメントの総数のパーセンテージ、ストリーム間のセグメントの比率など）。

（表２）例示的な比較プロセス

ビデオセグメント比較モジュール217は、類似セグメントの対とシグネチャ間の差とを、表3に示すようなsimilar_segment_list（類似セグメントリスト）に追加する。

（表３）例示的なSimilar_Segment_List

図9に、図2のコンテンツ分析サーバ210による適応窓比較プロセス900の例示的なブロック図を示す。適応窓比較プロセス900は、ストリーム1 910とストリーム2 920とを分析する。ストリーム1 910はセグメント1.1 911を含み、ストリーム2 920はセグメント2.1 921、2.2 922、2.3 923、2.4 924、および2.5 925を含む。ビデオセグメント比較モジュール217は、ストリーム1 910中のセグメント1.1 911を、適応窓930内に含まれるストリーム2 920の各セグメントと比較する。言い換えると、セグメント比較モジュール217は、セグメント1.1 911をセグメント2.2 922、2.3 923、および2.4 924と比較する。ビデオセグメント比較モジュール217は、類似セグメントの対とシグネチャ間の差とを、similar_segment_listに追加する。例えば、適応窓比較プロセス900は、30分を超える長さのマルチメディアストリームに利用され、総当たり比較プロセス800は、30分に満たない長さのマルチメディアストリームに利用される。別の例では、適応窓比較プロセス900は、5分を超える長さのマルチメディアストリームに利用され、総当たり比較プロセス800は、5分に満たない長さのマルチメディアストリームに利用される。

別の態様では、適応窓930は、マッチ情報および/またはマルチメディアストリームと関連付けられる別の情報（例えば、サイズ、コンテンツの種類など）に基づいて、拡大かつ/または縮小することができる。例えば、ビデオセグメント比較モジュール217が適応窓930内のセグメントについて、マッチするもの、すなわちマッチ閾値数を下回るものを全く識別しない場合、適応窓930のサイズを所定のサイズ分だけ（例えば、サイズ3からサイズ5まで、サイズ10からサイズ20までなど）かつ/または動的に生成されるサイズ（例えば、セグメントの総数のパーセンテージ、各ストリーム中のセグメント数の比率など）だけ、拡大することもできる。ビデオセグメント比較モジュール217がマッチ閾値数を識別し、かつ/または適応窓930の最大サイズを超えた後に、適応窓930のサイズを、初期サイズにリセットし、かつ/またはマッチ時の適応窓のサイズに基づいて拡大することができる。

いくつかの態様において、適応窓の初期サイズは、事前に決定され（例えば、500セグメント、マルチメディアストリームにおける対応する時刻の両側に3セグメントずつ、マルチメディアストリームにおける最後のマッチに関連する各位置の両側に5セグメントずつなど）、かつ/または動的に生成される（例えば、マルチメディアコンテンツの1/3の長さ、各マルチメディアストリーム中のセグメント数に基づく比率、第1のマルチメディアストリーム中のセグメントのパーセンテージなど）。適応窓の初期開始位置は、事前に決定することもでき（両マルチメディアストリームにおいて同時刻、キーフレームの同じフレーム番号など）、かつ/または動的に生成することもできる（例えば、各セグメントのサイズ・マッチ・パーセンテージ、最後のマッチからの各フレーム位置など）。

図10に、図2のコンテンツ分析サーバ210によるクラスタ化比較プロセス1000の例示的なブロック図を示す。適応窓比較プロセス1000では、ストリーム1とストリーム2を分析する。ストリーム1はセグメント1.1 1011を含み、ストリーム2は、セグメント2.1 1021、2.2 1022、2.3 1023、2.5 1025、および275 1027を含む。ビデオセグメント比較モジュール217は、ストリーム2の各セグメントを、各セグメントの指紋に従って、クラスタ1 1031とクラスタ2 1041とにまとめて、クラスタ化する。各クラスタに対して、ビデオセグメント比較モジュール217は、そのクラスタに対する指紋のクラスタ重心に対応する指紋を有するセグメントなど、代表セグメントを識別する。クラスタ1 1031の重心はセグメント2.2 1022であり、クラスタ2 1041の重心はセグメント2.1 1021である。

ビデオセグメント比較モジュール217は、セグメント1.1 1011を、クラスタ1 1031および2 1041の各々に対する重心セグメント2.1 1021および2.2 1022と、それぞれ比較する。重心セグメント2.1 1021または2.2 1022がセグメント1.1 1011と類似する場合、ビデオセグメント比較モジュール217は、類似する重心セグメントのクラスタ中のあらゆるセグメントを、セグメント1.1 1011と比較する。ビデオセグメント比較モジュール217は、任意の類似セグメントの対とシグネチャ間の差とを、similar_segment_listに追加する。

いくつかの態様において、異なる統計の一つまたは複数を使用することができる。例えば、総当たり比較プロセス800は、30分に満たない長さのマルチメディアストリームに利用され、適応窓比較プロセス900は、30〜60分の長さのマルチメディアストリームに利用され、クラスタ化比較プロセス1000は、60分を超える長さのマルチメディアストリームに使用される。

図10に示したクラスタ化比較プロセス1000では重心を利用するが、クラスタ化プロセス1000は、任意の種類の統計関数を利用してクラスタの比較のための代表セグメントを識別することができる（例えば、平均値、算術平均値、中央値、ヒストグラム、モーメント、分散、四分位値など）。いくつかの態様において、ビデオセグメント化モジュール216は、マルチメディアストリームの各セグメントの指紋間の差を求めることによって、各セグメントをまとめて、クラスタ化する。クラスタ化プロセスでは、マルチメディアストリーム中のセグメントの全部または一部を分析することができる（例えば、総当たり分析、適応窓分析など）。

図11に、図2のコンテンツ分析サーバ210による類似するフレームシーケンスの識別の例示的なブロック図1100を示す。ブロック図1100には、similar_segment_list中の類似セグメントの対とシグネチャ間の差とによって生成される、差分行列が示されている。ブロック図100には、セグメントストリーム1 1110のフレーム1〜9 1150（すなわち9フレーム）と、セグメントストリーム2 1120のフレーム1〜5 1120（すなわち、5フレーム）が示されている。いくつかの例においては、差分行列中の各フレームは、個々のフレーム、および/またはフレームグループのキーフレームである。

ビデオセグメント比較217は、similar_segment_listに基づいて差分行列を生成することができる。図11に示すように、2つのフレーム間の差が、明示される比較閾値（この例では0.26）を下回る場合、そのブロックは黒である（例えば、1160）。さらに、2つのフレーム間の差が、明示される閾値を下回らない場合、そのブロックは白である（例えば、1170）。

ビデオセグメント比較モジュール217は、差分行列の対角を分析して、類似フレームのシーケンスを検出することができる。ビデオセグメント比較モジュール217は、隣接する類似フレームの最長の対角（この例では、対角（1,2）〜（4,5）が最長である）を探し出し、かつ/または、最小平均差分を有する、隣接する類似フレームの対角（この例では、対角（1,5）〜（2,6）が最小平均差分を有する）を探し出して、類似フレームシーケンスの集合を識別することができる。この比較プロセスでは、これらの計算の一方または両方を利用して、類似フレームの最適なシーケンスを検出することができる（例えば、両方を使用し、長さ×平均を平均して、最高の結果を取って類似フレームの最適なシーケンスを識別する）。この比較プロセスは、ビデオセグメント比較モジュール217により、ストリーム1の各セグメントがストリーム2のその類似セグメントと比較されるまで繰り返すことができる。

図12に、図2のコンテンツ分析サーバ210によって識別された類似フレームシーケンスの例示的なブロック図1200を示す。対角の分析に基づき、ビデオセグメント比較モジュール217は、ストリーム1 1210とストリーム2 1220に対して類似するフレームシーケンスの集合を識別する。ストリーム1 1210は、ストリーム2 1220のフレームシーケンス1 1222、2 1224、3 1226、および4 1228にそれぞれ類似する、フレームシーケンス1 1212、2 1214、3 1216、および4 1218を含む。図12に示すように、ストリーム1 1210とストリーム2 1220は、マッチしない、またはそうでなくとも類似しないフレームシーケンス（すなわち、類似フレームシーケンス間のスペース）を含み得る。

いくつかの態様において、ビデオセグメント比較モジュール217は、マッチしないフレームシーケンスに対する類似フレームシーケンスを、もしあるならば、識別する。マッチしないフレームシーケンスをホールと呼ぶこともできる。マッチしないフレームシーケンスに対する類似フレームシーケンスの識別は、事前に決定されかつ/または動的に生成されるホールド比較閾値に基づくものとすることができる。ビデオセグメント比較モジュール217は、すべてのマッチしていないフレームシーケンスがマッチされるまで、マッチしていないフレームシーケンスに対する類似フレームシーケンスの識別を繰り返すことができ、かつ/またはマッチしていないフレームシーケンスをマッチしない（すなわち、マッチが見つからない）として識別することができる。類似セグメントの識別は、（i）総当たりプロセス、（ii）適応窓プロセス、（iii）拡張プロセス、および（iv）ホールマッチングプロセスという、識別プロセスの一つまたは複数を含むことができる。

図13に、図2のコンテンツ分析サーバ210による、総当たり識別プロセス1300の例示的なブロック図を示す。総当たり識別プロセス1300では、ストリーム1 1310とストリーム2 1320を分析する。ストリーム1 1310はホール1312を含み、ストリーム2 1320はホール1322、1324、および1326を含む。ストリーム1 1310中の識別されたホール1312について、ビデオセグメント比較モジュール217は、ホール1312をストリーム2 1320中のすべてのホールと比較する。言い換えると、ホール1312は、ホール1322、1324、および1326と比較される。ビデオセグメント比較モジュール217は、比較されるホールドに対するシグネチャ間の差を求め、差がホールド比較閾値を下回るかどうか決定することによって、ホールを比較することができる。ビデオセグメント比較モジュール217は、最適な結果（例えば、シグネチャ間の最小差、フレーム数間の最小差など）により、ホールをマッチングさせることができる。

図14に、図2のコンテンツ分析サーバ210による、適応窓識別プロセス1400の例示的なブロック図を示す。適応窓識別プロセス1400では、ストリーム1 1410とストリーム2 1420を分析する。ストリーム1 1410は標的ホール1412を含み、ストリーム2 1420は、ホール1422、1424および1425を含み、そのうちホール1422とホール1424は適応窓1430に含まれる。ストリーム1 1410中の識別された標的ホール1412について、ビデオセグメント比較モジュール217は、ホール1412を、適応窓1430内に含まれるストリーム2 1420のすべてのホールと比較する。言い換えると、ホール1412はホール1422およびホール1424と比較される。ビデオセグメント比較モジュール217は、比較されるホールドのシグネチャ間の差を求め、差がホールド比較閾値を下回るかどうか決定することによって、ホールを比較することができる。ビデオセグメント比較モジュール217は、最適な結果（例えば、シグネチャ間の最低差、フレーム数間の最低差など）により、ホールをマッチさせることができる。適応窓1430の初期サイズは、前述のように、事前に決定することもでき、かつ/または動的に生成することもできる。適応窓1430のサイズは、前述のように、変更することができる。

図15に、図2のコンテンツ分析サーバ210による、拡張識別プロセス1500の例示的なブロック図を示す。拡張識別プロセス1500では、ストリーム1 1510とストリーム2 1520を分析する。ストリーム1 1510は、類似フレームシーケンス1 1514および2 1518、ならびに拡張部1512および1516を含み、ストリーム2 1520は、類似フレームシーケンス1 1524および2 1528、ならびに拡張部1522および1526を含む。ビデオセグメント比較モジュール217は、類似フレームシーケンス（この例では、類似フレームシーケンス1 1514および1 1524）を、これらの既存の開始位置および/または停止位置の左側および/または右側に拡張することができる。

類似フレームシーケンスの拡張は、拡張フレームのシグネチャの差と、ホール比較閾値に基づくものとすることができる（例えば、各拡張フレームのシグネチャの差がホール比較閾値より小さい）。図示のように、類似フレームシーケンス1 1514および1 1524は、それぞれ、左側1512および1522ならびに右側1516および1526に拡張される。言い換えると、ビデオセグメント比較モジュール217は、それぞれの類似フレームシーケンスに対して右側および/または左側の各フレームのシグネチャの差を求めることができる。差がホール比較閾値より小さい場合、ビデオセグメント比較モジュール217は、類似フレームシーケンスを適切な方向に（すなわち、左または右に）拡張する。

図16に、図2のコンテンツ分析サーバ210による、ホールマッチング識別プロセス1600の例示的なブロック図を示す。適応ホールマッチング識別プロセス1600では、ストリーム1 1610およびストリーム2 1620を分析する。ストリーム1 1610は、ホール1612、1614、および1616ならびに、類似フレームシーケンス1、2、3、および4を含む。ストリーム2 1620は、ホール1622、1624、および1626ならびに、類似フレームシーケンス1、2、3、および4を含む。ストリーム1 1610中の識別された各ホールに対して、ビデオセグメント比較モジュール217は、ホールを、隣接する2つの類似フレームシーケンス間にある対応するホールと比較する。言い換えると、ホール1612とホール1622は、それぞれ、ストリーム1 1610とストリーム2 1610において類似フレームシーケンス1と2の間にあるため、ホール1612はホール1622と比較される。さらに、ホール1614とホール1624は、それぞれ、ストリーム1 1610とストリーム2 1610において類似フレームシーケンス2と3の間にあるため、ホール1614はホール1624と比較される。ビデオセグメント比較モジュール217は、比較されるホールドのシグネチャ間の差を求め、差がホールド比較閾値を下回るかどうか決定することによって、ホールを比較することができる。差がホールド比較閾値を下回る場合、それらのホールはマッチしている。

図17に、例示的なシステム1700の機能ブロック図を示す。システム1700は、コンテンツディスクA 1705a、B 1705bと、コンテンツ分析サーバ1710と、コンピュータ1730とを含む。コンピュータ1730は表示装置1732を含む。コンテンツ分析サーバ1710は、コンテンツディスクA 1705aおよびB 1705bを比較して、各ディスク上のマルチメディアコンテンツの差を求める。コンテンツ分析サーバ1710は、各ディスク上のマルチメディアコンテンツ間の差の報告書を生成し、報告書をコンピュータ1730に送ることができる。コンピュータ1730は、報告書を表示装置1732（例えば、モニタ、プロジェクタなど）上に表示することができる。報告書は、ユーザが、映画の異なる版（中国からの原版および香港からの複製版など）についての評価を決定すること、異なるソース間でコマーシャルを比較すること、異なるソース間でニュース・マルチメディアコンテンツを比較すること（例えば、ネットワークAおよびネットワークBからの放送ニュースビデオを比較する、オンライン・ニュース・ビデオおよびテレビ放送ニュースビデオを比較するなど）、政治運動のマルチメディアコンテンツを比較すること、かつ/またはマルチメディアコンテンツ（ビデオ、オーディオ、テキストなど）の任意の比較のために、利用することができる。例えば、システム1700は、複数のソース（例えば、異なる国々、異なるリリースなど）からのマルチメディアコンテンツを比較するのに利用することができる。

図18に、図17のシステム1700によって生成される例示的な報告書1800を示す。報告書1800は、登録タイトル1810および1820、変更の種類欄1840、原版開始時刻欄1812、原版終了時刻欄1814、複製版開始時刻欄1822、ならびに複製版終了時刻欄1824を含む。報告書1800には、ディスクA 1705a（この例では、登録タイトル1810が「Kung Fu Hustle VCD China」である）と、ディスクB 1705b（この例では、登録タイトル1820が「Kung Fu Hustle VCD Hongkong」である）との比較分析の結果が示されている。報告書1800に示すように、原版と複製版の一部は完全マッチしており、一部は一方において挿入されており、一部は一方において除去されており、異なる部分も存在する。比較は、セグメントごとに行うことができ、開始時刻と終了時刻は各セグメントに対応している。ユーザおよび/または自動システムは、報告書1800を分析することができる。

図19に、図2のシステム200を利用してフレームシーケンス間で指紋を比較するための例示的な流れ図1900を示す。通信モジュール211は、マルチメディアストリームAを受け取り（1910a）、かつマルチメディアストリームB（1910b）を受け取る。ビデオ指紋モジュール215は、マルチメディアストリームA中の各フレームに対して指紋を生成し（1920a）、かつマルチメディアストリームB中の各フレームに対して指紋を生成する（1920b）。ビデオセグメント化モジュール216は、各フレームに対する指紋に基づいて、マルチメディアストリームA中のフレームシーケンスをまとめて、セグメント化する（1930a）。ビデオセグメント化モジュール216は、各フレームに対する指紋に基づいて、マルチメディアストリームA中のフレームシーケンスをまとめて、セグメント化する（1930b）。ビデオセグメント比較モジュール217は、マルチメディアストリームAおよびBのセグメント化されたフレームシーケンスを比較して、マルチメディアストリーム間で類似するフレームシーケンスを識別する。

図20に、図2のシステム200を利用してビデオシーケンスを比較するための例示的な流れ図2000を示す。通信モジュール211は、複数の第1のビデオフレームに付随する記述子の第1のリストを受け取る（2010a）。第1の記述子ライン中の記述子はそれぞれ、複数の第1のビデオフレームのうちの対応するビデオフレームの視覚情報を表す。通信モジュール211は、複数の第2のビデオフレームに付随する記述子の第2のリストを受け取る（2010b）。第2の記述子ライン中の記述子はそれぞれ、複数の第2のビデオフレームのうちの対応するビデオフレームの視覚情報を表す。

ビデオセグメント化モジュール216は、類似する複数の第1のビデオフレームの第1のセグメントを指定する（2020a）。第1のセグメントの各セグメントは隣り合う第1のビデオフレームを含む。ビデオセグメント化モジュール216は、類似する複数の第2のビデオフレームの第2のセグメントを指定する（2020b）。第2のセグメントの各セグメントは隣り合う第2のビデオフレームを含む。

ビデオセグメント比較モジュール217は、第1のセグメントと第2のセグメントを比較する（2030）。ビデオセグメント比較モジュール217は、第1のセグメントおよび第2のセグメントを閾値と比較するために、第1のセグメントと第2のセグメントとの比較に基づいて、第1のセグメントと第2のセグメントの対を解析する（2040）。

図21に、例示的な多重チャネルビデオ監視システム400のブロック図を示す。システム400は、（i）信号、またはメディア取得サブシステム442、（ii）コンテンツ分析サブシステム444、（iii）データ記憶サブシステム446、および（iv）管理サブシステム448を含む。

メディア取得サブシステム442は、一つまたは複数のビデオ信号450を取得する。各信号に対して、メディア取得サブシステム442は、その信号をデータチャンクとして、いくつかの信号バッファユニット452に記録する。用途によっては、本明細書においてより詳細に示すように、バッファユニット452は指紋抽出を行うこともできる。指紋抽出については、参照によりその全体が本明細書に組み入れられる、「Video Detection System And Methods」という名称の、国際特許出願第PCT/US2008/060164号により詳細に記載されている。これは、非常にコンパクトな指紋がインターネットなどの通信媒体を介して遠方の取り込みサイトから中央のコンテンツ分析サイトまで送信される、遠隔取り込みのシナリオに有用である。また、ビデオ検出のシステムおよびプロセスは、記録されたデータにネットワーク接続を介してアクセスすることができる限り、既存の信号取得ソリューションと統合されていてもよい。

各データチャンクに対する指紋は、データ記憶サブシステム446のメディアリポジトリ458部分に記憶させることができる。いくつかの態様において、データ記憶サブシステム446は、一つまたは複数のシステムリポジトリ456および基準リポジトリ460を含む。データ記憶サブシステム446のリポジトリ456、458、460の一つまたは複数は、一つまたは複数のローカル・ハードディスク・ドライブ、ネットワークを介してアクセスされるハードディスクドライブ、光記憶ユニット、ランダム・アクセス・メモリ（RAM）記憶ドライブ、および/またはこれらの任意の組み合わせを含むことができる。リポジトリ456、458、460の一つまたは複数は、記憶されたコンテンツの記憶およびアクセスを円滑に行わせるためのデータベース管理システムを含むことができる。いくつかの態様において、システム440は、そのデータベースアクセス層を介して、OracleやMicrosoft-SQL Serverなど、異なるSQLベースの関係データベースシステムをサポートする。このようなシステムデータベースは、処理、構成、およびステータス情報を含む、動作時に生成されるすべてのメタデータの中央リポジトリとして働く。

いくつかの態様において、メディアリポジトリ458は、指紋を、その指紋に対応するキーフレームと共に記憶するシステム440の主ペイロードデータ記憶として使用される。また、メディアリポジトリ458には、記憶された指紋と関連付けられた処理済みフッテージの低品質バージョンも記憶される。メディアリポジトリ458は、ネットワークで接続されたファイルシステムとしてアクセスされ得る、一つまたは複数のRAIDシステムを使用して実施することができる。

データチャンクはそれぞれ、管理サブシステム48のコントローラ462による処理のためにスケジュールされる、分析タスクとなることができる。コントローラ462は主に、ロードバランシングと、コンテンツ分析サブシステム444のコンテンツ分析クラスタ454内の個々のノードへのジョブの分配とを担当している。また、少なくともいくつかの態様では、管理サブシステム448は、大抵フロントエンドと呼ばれる、オペレーター/管理者用端末464も含む。オペレーター/管理者用端末464は、ビデオ検出システム440の一つまたは複数の要素を構成するのに使用することができる。またオペレーター/管理者用端末464は、比較用の基準ビデオコンテンツをアップロードし、比較の結果を表示させ、分析するのに使用することもできる。

信号バッファユニット452は、いかなるユーザ対話も必要とせずに、24時間稼働するように実施することができる。このような態様では、連続したビデオ・データ・ストリームが取り込まれ、管理可能なセグメント、すなわちチャンクに分割され、内部ハードディスク上に記憶される。ハードディスク空間を循環バッファとして機能するように移植することができる。この構成では、より古い記憶データチャンクをアーカイブ用の別の長期記憶ユニットに移動させ、新しく入ってくるデータチャンクを記憶するために内部ハードディスクドライブに空きを確保することができる。このような記憶管理は、非常に長い期間（例えば、数時間、数日、数週間など）にわたって、信頼性の高い、連続した信号の利用を可能にする。コントローラ462は、いかなるデータも失われないようにすべてのデータチャンクを適時に処理するように構成されている。信号取得ユニット452は、システムの耐故障性を高めるために、必要な場合（例えば、ネットワーク遮断の期間）には、いかなるネットワーク接続なしでも動作するように設計されている。

いくつかの態様において、信号バッファユニット452は、指紋抽出を行い、記録されたチャンクをローカルで変換する。結果として生じる指紋の記憶所要量は、基礎をなすデータチャンクと比較すれば些細なものであり、データチャンクと共にローカルで記憶させることができる。これにより、限られた帯域幅のネットワークを介して、ストーリーボードを含む非常にコンパクトな指紋を送信することが可能になり、ビデオコンテンツ全部を送信しなくてもすむ。

いくつかの態様において、コントローラ462は、信号バッファユニット452が記録したデータチャンクの処理を管理する。コントローラ462は、信号バッファユニット452およびコンテンツ分析ノード454を絶えず監視し、必要に応じてロードバランシングを行ってシステムリソースの効率的な使用を維持する。例えば、コントローラ462は、分析ノード454の選択されたノードに分析ジョブを割り当てることにより、新しいデータチャンクの処理を開始する。いくつかの例においては、コントローラ462は、分析ノード454、または一つもしくは複数の分析ノード454全体で、個々の分析工程を自動的に再開し、ユーザの介入を伴わずにエラー回復を可能にする。システム400の一つまたは複数のサブシステム442、444、446を監視し制御するために、フロントエンド464にグラフィカル・ユーザ・インターフェースを設けることができる。例えば、グラフィカル・ユーザ・インターフェースは、ユーザが、コンテンツ分析444サブシステムの構成、再構成およびステータスの獲得を行うことを可能にする。

いくつかの態様において、分析クラスタ444は、ビデオ検出監視システムの主力部分として一つまたは複数の分析ノード454を含む。各分析ノード454は、コントローラ462によって割り当てられる分析タスクを独立に処理する。これは主に、記録されたデータチャンクを取り出すこと、ビデオ指紋を生成すること、および基準コンテンツに対して指紋をマッチングすることを含む。結果として生じるデータは、メディアリポジトリ458、およびデータ記憶サブシステム446に記憶される。また、分析ノード454は、基準クリップ収集ノード、バックアップノード、またはシステムが遡及マッチングを行う場合のRetroMatchノードの一つまたは複数として動作することもできる。大抵、分析クラスタのすべての活動は、コントローラによって制御され、監視される。

そのようないくつかのデータチャンク470を処理した後、これらのチャンクの検出結果がシステムデータベース456に記憶される。有益であることに、信号バッファユニット452およびコンテンツ分析ノード454の数および容量は、任意の種類の特定用途に合わせてシステムの容量をカスタマイズするために、柔軟に拡張することができる。システム400の実現形態は、個々の必要に適するように組み合わせ、構成することのできる複数のソフトウェアコンポーネントを含むことができる。特定の用途に応じて、いくつかのコンポーネントを同じハードウェア上で走らせることができる。あるいは、またはこれに加えて、性能を高め、耐故障性を改善するために、各コンポーネントを個別ハードウェア上で走らせることもできる。このようなモジュラ・システム・アーキテクチャは、事実上、可能なあらゆる用途に適するカスタマイズを可能にする。これは、ローカルな単一PCソリューションから全国的な監視システムまで、耐故障性、記録冗長性、およびこれらの組み合わせにまで及ぶ。

図22に、例示的なグラフィカル・ユーザ・インターフェース（GUI）2300のスクリーンショットを示す。GUI2300は、図1のシステム100のオペレーター、データ分析者、および/または他のユーザが、コンテンツ分析サーバ110を操作し、かつ/または制御するために利用することができる。GUI2300は、ユーザが検出を見直し、基準コンテンツを管理し、クリップメタデータを編集し、基準および検出マルチメディアコンテンツを再生し、基準コンテンツと検出コンテンツの詳細な比較を行うことを可能にする。いくつかの態様において、システム400は、録画セレクタおよびコントローラフロントエンド464など異なる機能および/またはサブシステムのための、または複数の異なるグラフィカル・ユーザ・インターフェースを含む。

GUI2300は、標準ウィンドウ制御機能など一つまたは複数のユーザ選択可能コントロール2382を含む。またGUI2300は検出結果表2384も含む。例示的な態様では、検出結果表2384は、各検出に対して1行ずつ、複数の行2386を含む。行2386は記憶画像の低解像度バージョンを、検出自体に関連する他の情報と共に含む。大抵、記憶画像の名前またはその他のテキスト表示を画像の隣に示すことができる。検出情報は、検出の日時、チャネルまたはその他のビデオ情報源の特徴、マッチの質に関する指示、オーディオマッチの質に関する指示、検査の日付、検出識別値、および検出情報源に関する指標の、一つまたは複数を含むことができる。またいくつかの態様において、GUI2300は、検出されたマッチするビデオの一つまたは複数のフレームを表示させるためのビデオ表示ウィンドウ2388も含む。GUI2300は、オーディオ比較の特徴を比較するためのオーディオ表示ウィンドウ2389を含むことができる。

図23に、ディジタル画像表現サブフレームにおける変化の例を示す。標的ファイル画像サブフレームと問い合わせ対象画像サブフレームの一つの集合900が示されており、集合2400はサブフレーム集合2401、2402、2403、および2404を含む。サブフレーム集合2401および2402は、変換およびスケーリングの一つまたは複数において他の集合メンバと異なる。サブフレーム集合2402および2403は、画像コンテンツが互いに異なり、サブフレーム集合2401および2402とも異なり、サブフレームマッチング閾値に対する画像差を示している。

図24に、図21のディジタルビデオ画像検出システム400の例示的な流れ図2500を示す。流れ図2500は、開始点Aにおいて、ユーザがユーザインターフェース110においてディジタルビデオ画像検出システムを構成する工程126から開始し、システムを構成する工程は、少なくとも一つのチャネル、少なくとも一つの復号方法、ならびにチャネルサンプリングレート、チャネルサンプリング時刻、およびチャネルサンプリング期間を選択する工程を含む。システムを構成する工程126は、ディジタルビデオ画像検出システムを手動で構成する工程および半自動的に構成する工程の一つを含む。システムを半自動的に構成する工程126は、チャネルプリセットを選択する工程、スケジューリングコードを走査する工程、およびスケジューリングフィード（scheduling feed）を受け取る工程の一つまたは複数を含む。

ディジタルビデオ画像検出システムを構成する工程126は、タイミング制御シーケンスを生成する工程127をさらに含み、タイミング制御シーケンス127によって生成される信号の集合は、MPEGビデオ受信機へのインターフェースを提供する。

いくつかの態様において、ディジタルビデオ画像検出システム100の方法流れ図2500は、任意で、ディジタルビデオ画像検出システム100がマッチングを行うためのファイル画像131を求めてウェブに問い合わせする工程を提供する。いくつかの態様において、方法流れ図2500は、任意で、ディジタルビデオ画像検出システム100がマッチングを行うためのファイル画像を、ユーザインターフェース100からアップロードする工程を提供する。いくつかの態様において、ファイルデータベースに問い合わせし待ち行列に入れる工程133bが、ディジタルビデオ画像検出システム100がマッチングを行うための少なくとも一つのファイル画像を提供する。

方法流れ図2500はさらに、MPEGビデオ受信機においてMPEGビデオ入力を取り込み、バッファに入れる工程、およびMPEGビデオ入力をMPEGビデオアーカイブにディジタル画像表現として記憶させる工程171を提供する。

方法流れ図2500はさらに、MPEGビデオ画像を複数の問い合わせディジタル画像表現に変換する工程、ファイル画像を複数のファイルディジタル画像表現に変換する工程、および問い合わせ対象ディジタル画像表現とファイルディジタル画像表現とを比較し、マッチングする工程を提供し、該MPEGビデオ画像を変換する工程と該ファイル画像を変換する工程は、類似の方法である。ファイル画像を複数のファイルディジタル画像表現に変換する工程は、ファイル画像がアップロードされるときにファイル画像を変換する工程、ファイル画像が待ち行列に入れられるときにファイル画像を変換する工程、およびMPEGビデオ画像を変換するのと同時にファイル画像を変換する工程のうちの一つによって提供される。

方法流れ図2500は、MPEGビデオ画像とファイル画像とを、それぞれ、問い合わせ対象RGBディジタル画像表現とファイルRGBディジタル画像表現とに変換する方法142を提供する。いくつかの態様において、変換方法142は、問い合わせ対象RGBディジタル画像表現およびファイルRGBディジタル画像表現から画像境界を除去する工程143をさらに含む。いくつかの態様において、変換方法142は、問い合わせ対象RGBディジタル画像表現およびファイルRGBディジタル画像表現から分割画面を除去する工程143をさらに含む。いくつかの態様において、画像境界を除去する工程および分割画面を除去する工程143の一つまたは複数は、エッジを検出する工程を含む。いくつかの態様において、変換方法142は、問い合わせ対象RGBディジタル画像表現およびファイルRGBディジタル画像表現を128×128画素のサイズにサイズ変更する工程をさらに含む。

方法流れ図2500はさらに、MPEGビデオ画像とファイル画像とを、それぞれ、問い合わせ対象COLOR9ディジタル画像表現とファイルCOLOR9ディジタル画像表現とに変換する方法144を提供する。変換方法144は、問い合わせ対象RGBディジタル画像表現およびファイルRGBディジタル画像表現から直接変換する方法を提供する。

変換方法144は、問い合わせ対象RGBディジタル画像表現とファイルRGBディジタル画像表現とを中間輝度軸上に投影する工程、中間輝度を用いて問い合わせ対象RGBディジタル画像表現とファイルRGBディジタル画像表現とを正規化する工程、および正規化された問い合わせ対象RGBディジタル画像表現とファイルRGBディジタル画像表現とを、それぞれ、問い合わせ対象COLOR9ディジタル画像表現とファイルCOLOR9ディジタル画像表現とに変換する工程を含む。

方法流れ図2500はさらに、MPEGビデオ画像とファイル画像とを、それぞれ、問い合わせ対象5セグメント低解像度時間モーメントディジタル画像表現とファイル5セグメント低解像度時間モーメントディジタル画像表現とに変換する方法151を提供する。変換方法151は、問い合わせ対象COLOR9ディジタル画像表現およびファイルCOLOR9ディジタル画像表現から直接変換する方法を提供する。

変換方法151は、問い合わせ対象COLOR9ディジタル画像表現とファイルCOLOR9ディジタル画像表現とを、5つの空間的な、オーバーラップセクションと非オーバーラップセクションとに区分する工程、5セクションのそれぞれについて統計モーメントの集合を生成する工程、統計モーメントの集合に重み付けする工程、および統計モーメントの集合を時間的に相互に関連付けて、COLOR9ディジタル画像表現の一つまたは複数のシーケンスの時間的セグメントを代表するキーフレームまたはショットフレームの集合を生成する工程を含む。

変換方法151のための統計モーメントの集合を生成する工程は、5セクションのそれぞれについての平均値、分散、およびスキューの一つまたは複数を生成する工程を含む。いくつかの態様において、変換方法151のための、統計モーメントの集合を時間的に相互に関連付ける工程は、シーケンシャルにバッファに入れられたRGBディジタル画像表現の集合の平均、分散、およびスキューの一つまたは複数を相互に関連付ける工程を含む。

シーケンシャルにバッファに入れられたMPEGビデオ画像COLOR9ディジタル画像表現の集合について統計モーメントの集合を時間的に相互に関連付ける工程によって、連続するCOLOR9ディジタル画像表現の一つまたは複数のセグメントについての中央統計モーメントの集合を求めることが可能である。中央統計モーメントの集合と最も密接にマッチする、時間的セグメントの集合内の画像フレームの統計モーメントの集合が、ショットフレーム、すなわちキーフレームとして識別される。キーフレームは、より高解像度のマッチをもたらす、さらに洗練された方法のために確保される。

方法流れ図2500はさらに、問い合わせ対象5セクション低解像度時間モーメントディジタル画像表現とファイル5セクション低解像度時間モーメントディジタル画像表現をマッチングする比較方法152を提供する。いくつかの態様において、第1の比較方法151は、問い合わせ対象5セクション低解像度時間モーメントディジタル画像表現、およびファイル5セクション低解像度時間モーメントディジタル画像表現の、5セグメントそれぞれの平均値、分散、およびスキューのうちの一つまたは複数の間の一つまたは複数の誤差を見つける工程を含む。いくつかの態様において、一つまたは複数の誤差が、COLOR9の問い合わせ対象ディジタル画像表現およびファイルディジタル画像表現の一つまたは複数のシーケンスの一つまたは複数の時間的セグメントに対応する、一つまたは複数の問い合わせ対象キーフレームおよび一つまたは複数のファイル・キー・フレームによって生成される。いくつかの態様において、一つまたは複数の誤差が重み付けされ、この重み付けは、外側のセグメントおよびセクションの集合においてよりも、中央のセグメントにおいて時間的により強く、中央のセクションにおいて空間的により強い。

比較方法152は、第1の比較の結果としてマッチが見つからなかった場合に、方法流れ図2500を「E」で終了させる分岐要素を含む。比較方法152は、比較方法152の結果としてマッチが見つかった場合に、方法流れ図2500を変換方法153に向かわせる分岐要素を含む。

いくつかの態様において、比較方法152においてマッチしたものは、それぞれ、平均値閾値、分散閾値、およびスキュー閾値より小さいメトリックを示す、問い合わせ対象平均値とファイル平均値の間の距離、問い合わせ対象分散とファイル分散の間の距離、および問い合わせ対象スキューとファイルスキューの間の距離の、一つまたは複数を含む。第1の比較方法152のメトリックは、周知の距離生成メトリックの任意のものとすることができる。

変換方法153aは、問い合わせ対象COLOR9ディジタル画像表現およびファイルCOLOR9ディジタル画像表現から高解像度時間モーメントの集合を抽出する方法を含み、高解像度時間モーメントの集合は、COLOR9ディジタル画像表現の一つまたは複数のシーケンスの時間的セグメントを代表する1つの画像セグメント内の画像の集合のそれぞれについての、平均値、分散、およびスキューの一つまたは複数を含む。

変換方法153aの時間モーメントは変換方法151によって提供される。変換方法153aは、画像の集合および対応する統計モーメントの集合に時系列で索引付けをする。比較方法154aは、各時間的セグメントについて、畳み込みにより、問い合わせ対象画像集合およびファイル画像集合の統計モーメントを比較する。

比較方法154aにおける畳み込みは、問い合わせ対象およびファイルの、第1の特徴平均値、第1の特徴分散、および第1の特徴スキューの一つまたは複数を畳み込む。いくつかの態様において、畳み込みが重み付けされ、この重み付けはクロミナンスの関数である。いくつかの態様において、畳み込みが重み付けされ、この重み付けは色相の関数である。

比較方法154aは、第1の特徴比較の結果としてマッチするものが見つからなかった場合に、方法流れ図2500を終了させる分岐要素を含む。比較方法154aは、第1の特徴比較方法153aの結果としてマッチするものが見つかった場合に、方法流れ図2500を変換方法153bに向かわせる分岐要素を含む。

いくつかの態様において、第1の特徴比較方法153aにおいてマッチしたものは、それぞれ、第1の特徴平均値閾値、第1の特徴分散閾値、および第1の特徴スキュー閾値より小さいメトリックを示す、問い合わせ対象の第1の特徴平均値とファイルの第1の特徴平均値の間の距離、問い合わせ対象の第1の特徴分散とファイルの第1の特徴分散の間の距離、ならびに問い合わせ対象の第1の特徴スキューとファイルの第1の特徴スキューの間の距離の、一つまたは複数を含む。第1の特徴比較方法153aのメトリックは、周知の距離生成メトリックのうちの任意のものとすることができる。

変換方法153bは、問い合わせ対象COLOR9ディジタル画像表現およびファイルCOLOR9ディジタル画像表現から、9つの問い合わせ対象ウェーブレット変換係数およびファイルウェーブレット変換係数の集合を抽出する工程を含む。具体的には、9つの問い合わせ対象ウェーブレット変換係数およびファイルウェーブレット変換係数の集合は、COLOR9ディジタル画像表現を構成する9つの色表現それぞれのグレースケール表現から生成される。いくつかの態様において、グレースケール表現は、COLOR9ディジタル画像表現を構成する9つの色表現それぞれの対応する輝度表現と、おおよそ等価のものである。いくつかの態様において、グレースケール表現は、一般的に色域無相関化（color gamut sphering）と呼ばれるプロセスによって生成され、色域無相関化は、COLOR9ディジタル画像表現を構成する9つの色表現全体にわたって、明るさおよび彩度をおおよそ消去するかまたは正規化するものである。

いくつかの態様において、9つのウェーブレット変換係数の集合は、9つの1次元ウェーブレット変換係数の集合、9つの1次元ウェーブレット変換係数の一つまたは複数の非共線集合の集合、および9つの2次元ウェーブレット変換係数の集合の、一つである。いくつかの態様において、9つのウェーブレット変換係数の集合は、ハールウェーブレット変換係数の集合およびハールウェーブレット変換係数の2次元集合の一つである。

方法流れ図2500はさらに、9つの問い合わせ対象ウェーブレット変換係数とファイルウェーブレット変換係数の集合をマッチングする比較方法154bを提供する。いくつかの態様において、比較方法154bは、9つの問い合わせ対象ウェーブレット変換係数およびファイルウェーブレット変換係数の集合に対する相関関数を含む。いくつかの態様において、相関関数が重み付けされ、この重み付けは色相の関数である、すなわち、重み付けは、COLOR9ディジタル画像表現を構成する9つの色表現それぞれの関数である。

比較方法154bは、比較方法154bの結果としてマッチするものが見つからなかった場合に、方法流れ図2500を終了させる分岐要素を含む。比較方法154bは、比較方法154bの結果としてマッチするものが見つかった場合に、方法流れ図2500を分析方法155a〜156bに向かわせる分岐要素を含む。

いくつかの態様において、比較方法154bにおける比較は、9つの問い合わせ対象ウェーブレット係数およびファイルウェーブレット係数の集合の間の距離、9つの問い合わせ対象ウェーブレット係数およびファイルウェーブレット係数の選択された集合の間の距離、ならびに9つの問い合わせ対象ウェーブレット係数およびファイルウェーブレット係数の重み付き集合の間の距離の一つまたは複数を含む。

分析方法155a〜156bは、MPEGビデオ画像およびファイル画像を、それぞれ、一つまたは複数の問い合わせ対象RGBディジタル画像表現サブフレームおよびファイルRGBディジタル画像表現サブフレームに変換し、それぞれ、一つまたは複数のグレー・スケール・ディジタル画像表現サブフレームおよびファイル・グレー・スケール・ディジタル画像表現サブフレームに変換し、かつ一つまたは複数のRGBディジタル画像表現差分サブフレームに変換する工程を提供する。分析方法155a〜156bは、問い合わせ対象RGBディジタル画像表現およびファイルRGBディジタル画像表現から、関連付けられるサブフレームに直接変換する工程を提供する。

分析方法55a〜156bは、一つまたは複数の問い合わせ対象グレー・スケール・ディジタル画像表現サブフレームおよびファイル・グレー・スケール・ディジタル画像表現サブフレームを提供し155a、問い合わせ対象RGBディジタル画像表現およびファイルRGBディジタル画像表現の一つまたは複数の部分を、一つまたは複数の問い合わせ対象RGBディジタル画像表現サブフレームおよびファイルRGBディジタル画像表現サブフレームとして定義する工程、一つまたは複数の問い合わせ対象RGBディジタル画像表現サブフレームおよびファイルRGBディジタル画像表現サブフレームを、一つまたは複数の問い合わせ対象グレー・スケール・ディジタル画像表現サブフレームおよびファイル・グレー・スケール・ディジタル画像表現サブフレームに変換する工程、ならびに一つまたは複数の問い合わせ対象グレー・スケール・ディジタル画像表現サブフレームおよびファイル・グレー・スケール・ディジタル画像表現サブフレームを正規化する工程を含む。

定義する方法は、最初に、一つまたは複数の問い合わせ対象RGBディジタル画像表現およびファイルRGBディジタル画像表現の各対に対して同一の画素を定義する工程を含む。変換する方法は、変換を円滑に行わせるために、問い合わせ対象RGBディジタル画像表現サブフレームおよびファイルRGBディジタル画像表現サブフレームの各対から輝度尺度を抽出する工程を含む。正規化する方法は、一つまたは複数の問い合わせ対象グレー・スケール・ディジタル画像表現サブフレームおよびファイル・グレー・スケール・ディジタル画像表現サブフレームの各対から平均値を減算する工程を含む。

分析方法155a〜156bはさらに、比較方法155b〜156bを提供する。比較方法155b〜156bは、第2の比較の結果としてマッチするものが見つからなかった場合に、方法流れ図2500を終了させる分岐要素を含む。比較方法155b〜156bは、第2の比較方法155b〜156bの結果としてマッチするものが見つかった場合に、方法流れ図2500を検出分析方法325に向かわせる分岐要素を含む。

比較方法155b〜156bは、一つまたは複数の問い合わせ対象グレー・スケール・ディジタル画像表現サブフレームとファイル・グレー・スケール・ディジタル画像表現サブフレームの各対の間の位置合わせを提供する工程155b、ならびに一つまたは複数のRGBディジタル画像表現差分サブフレームおよび接続された問い合わせ対象RGBディジタル画像表現の拡張変化サブフレームをレンダリングする工程156a〜bを含む。

一つまたは複数の問い合わせ対象グレー・スケール・ディジタル画像表現サブフレームとファイル・グレー・スケール・ディジタル画像表現サブフレームの各対の間の位置合わせを提供する方法155bは、一つまたは複数の問い合わせ対象グレー・スケール・ディジタル画像表現サブフレームとファイル・グレー・スケール・ディジタル画像表現サブフレームの各対の間のグレースケール画素差分の絶対値を合計することにより、差分絶対値の和（SAD）メトリックを提供する工程、一つまたは複数の問い合わせ対象グレー・スケール・ディジタル画像表現サブフレームを変換し、スケーリングする工程、ならびに一つまたは複数の問い合わせ対象グレー・スケール・ディジタル画像表現サブフレームおよびファイル・グレー・スケール・ディジタル画像表現サブフレームの各対についての最小SADを繰り返し探し出す工程を含む。本方法155bのスケーリングする工程は、一つまたは複数の問い合わせ対象グレー・スケール・ディジタル画像表現サブフレームを、128×128画素サブフレーム、64×64画素サブフレーム、および32×32画素サブフレームのうちの一つに、独立にスケーリングする工程を含む。

方法155bのスケーリングする工程は、一つまたは複数の問い合わせ対象グレー・スケール・ディジタル画像表現サブフレームを、720×480画素（480i/p）サブフレーム、720×576画素（576i/p）サブフレーム、1280×720画素（720p）サブフレーム、1280×1080画素（1080i）サブフレーム、および1920×1080画素（1080p）サブフレームのうちの一つに、独立にスケーリングする工程を含み、スケーリングは、RGB表現画像から、またはMPEG画像から直接行うことができる。

一つまたは複数のRGBディジタル画像表現差分サブフレームおよび接続された問い合わせ対象RGBディジタル画像表現の拡張変化サブフレームをレンダリングする方法156a〜bは、位置合わせを提供する方法155bに従って一つまたは複数の問い合わせ対象グレー・スケール・ディジタル画像表現サブフレームおよびファイル・グレー・スケール・ディジタル画像表現サブフレームを並べる工程、一つまたは複数のRGBディジタル画像表現差分サブフレームを提供する工程、および接続された問い合わせ対象RGBディジタル画像表現の拡張変化サブフレームを提供する工程を含む。

方法56aの一つまたは複数のRGBディジタル画像表現差分サブフレームを提供する工程は、一つまたは複数の問い合わせ対象RGBディジタル画像表現サブフレームおよびファイルRGBディジタル画像表現サブフレーム内のエッジを抑制する工程、一つまたは複数の問い合わせ対象RGBディジタル画像表現サブフレームとファイルRGBディジタル画像表現サブフレームの各対の間のRGB画素差分の絶対値を合計することによってSADメトリックを提供する工程、ならびに一つまたは複数のRGBディジタル画像表現差分サブフレームを、対応するSADが閾値を下回る集合として定義する工程を含む。

抑制する工程は、一つまたは複数の問い合わせ対象RGBディジタル画像表現サブフレームおよびファイルRGBディジタル画像表現サブフレームのエッジマップを提供する工程、ならびに一つまたは複数の問い合わせ対象RGBディジタル画像表現サブフレームおよびファイルRGBディジタル画像表現サブフレームから、一つまたは複数の問い合わせ対象RGBディジタル画像表現サブフレームおよびファイルRGBディジタル画像表現サブフレームのエッジマップを減算する工程を含み、エッジマップを提供する工程はソーベルフィルタ（Sobol filter）を提供する工程を含む。

方法56aにおける接続された問い合わせ対象RGBディジタル画像表現の拡張変化サブフレームを提供する工程は、一つまたは複数のRGBディジタル画像表現差分サブフレームの集合に対応する一つまたは複数の問い合わせ対象RGBディジタル画像表現サブフレームの集合を接続しかつ拡張する工程を含む。

一つまたは複数のRGBディジタル画像表現差分サブフレームおよび接続された問い合わせ対象RGBディジタル画像表現の拡張変化サブフレームをレンダリングする方法156a〜bは、一つまたは複数の問い合わせ対象RGBディジタル画像表現サブフレームを、128×128画素サブフレーム、64×64画素サブフレーム、および32×32画素サブフレームのうちの一つに、独立にスケーリングする方法156a〜bのスケーリングする工程を含む。

方法156a〜bのスケーリングする工程は、一つまたは複数の問い合わせ対象RGBディジタル画像表現サブフレームを、720×480画素（480i/p）サブフレーム、720×576画素（576i/p）サブフレーム、1280×720画素（720p）サブフレーム、1280×1080画素（1080i）サブフレーム、および1920×1080画素（1080p）サブフレームのうちの一つに、独立にスケーリングする工程を含み、スケーリングは、RGB表現画像から、またはMPEG画像から直接行うことができる。

方法流れ図2500はさらに検出分析方法325を提供する。検出分析方法325および付随する分類検出方法124は、ユーザインターフェース110によって制御されるように、マッチ表示ならびにビデオドライバ125のためのビデオ検出マッチならびに分類データおよび画像を提供する。検出分析方法325および分類検出方法124はさらに、動的閾値方法335に検出データを提供し、動的閾値方法335は、動的閾値の自動リセット、動的閾値の手動リセット、およびこれらの組み合わせのうちの一つを提供する。

方法流れ図2500はさらに第3の比較方法340を提供し、ファイルデータベース待ち行列が空でない場合に方法流れ図2500を終了させる分岐要素を提供する。

図25Aに、特徴空間2600におけるK-NN入れ子型独立特徴部分空間の例示的な横断集合を示す。問い合わせ対象画像805はAから開始し、Dの標的ファイル画像831まで送られ、特徴空間850と860の境界で閾値レベル813にあるファイル画像832など、マッチング基準851および852を満たさないファイル画像を選別する。

図25Bに、問い合わせ対象画像サブフレームにおける変化を伴う、K-NN入れ子型独立特徴部分空間の例示的な横断集合を示す。問い合わせ対象画像805のサブフレーム861と標的ファイル画像831のサブフレーム862とは、特徴空間860と830の境界にあるサブフレーム閾値においてマッチしていない。ファイル画像832とのマッチが見つかり、新しいサブフレーム832が生成され、ファイル画像831と問い合わせ対象画像805の両方と関連付けられ、標的ファイル画像831のサブフレーム961も新しいサブフレーム832も、ファイルの標的画像832の新しい部分空間集合を備える。

いくつかの例において、図1のコンテンツ分析サーバ110はウェブポータルである。ウェブポータルの実装形態は、サービスとして柔軟なオンデマンドの監視を提供することを可能にする。ウェブポータル実装形態は、ウェブアクセスが可能でありさえすればよいため、少量の基準データを有するクライアントが、本発明のビデオ検出システムおよびプロセスの利点の恩恵を受けることを可能にする。ソリューションは、既存のアプリケーションとのシームレスな社内統合のためのMicrosoft.Net Remotingを使用していくつかのプログラミングインターフェースの一つまたは複数を提供することができる。あるいは、またはこれに加えて、2次コントローラおよび2次信号バッファユニットをインストールすることにより、記録ビデオデータの長期記憶および運用冗長性を追加することもできる。

前述のシステムおよび方法は、ディジタル電子回路として、コンピュータのハードウェア、ファームウェア、および/またはソフトウェアとして実施することができる。コンピュータプログラム製品（すなわち、情報担体に有形的に組み込まれたコンピュータプログラム）として実施することもできる。例えば、データ処理装置による実行のための、またはデータ処理装置の動作を制御するための、機械可読記憶装置として実施することもできる。実装形態は、例えば、プログラマブルプロセッサ、コンピュータ、および/または複数のコンピュータであることもできる。

コンピュータプログラムは、コンパイルされた言語および/または解釈された言語を含む、任意の形のプログラミング言語で書くことができ、該コンピュータプログラムは、独立型プログラムとして、または、サブルーチン、要素、および/もしくはコンピューティング環境での使用に適する他の単位としての導入を含めて、任意の形で導入することができる。コンピュータプログラムは、1台のコンピュータ上で実行されるように導入することも、1つのサイトにおいて複数のコンピュータ上で実行されるように導入することもできる。

本方法の各工程は、入力データに作用して出力を生成することによって本発明の機能を果たすコンピュータプログラムを実行する、一つまたは複数のプログラマブルプロセッサによって、実行することができる。また、本方法の各工程は、専用論理回路によって行うこともでき、装置は専用論理回路として実施することもできる。回路は、例えば、FPGA（フィールド・プログラマブル・ゲート・アレイ）、および/またはASIC（特定用途向け集積回路）であることができる。前記機能を実施するコンピュータプログラム、プロセッサ、専用回路、ソフトウェア、および/またはハードウェアの部分を、モジュール、サブルーチン、およびソフトウェアエージェントと呼ぶことができる。

コンピュータプログラムの実行に適するプロセッサには、例えば、汎用かつ専用両方のマイクロプロセッサ、および任意の種類のディジタルコンピュータの任意の一つまたは複数のプロセッサなどが含まれる。一般に、プロセッサは、読取り専用メモリまたはランダム・アクセス・メモリまたはその両方から命令およびデータを受け取る。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令およびデータを記憶するための一つまたは複数の記憶装置である。一般に、コンピュータは、データを記憶するための一つまたは複数の大容量記憶装置（例えば、磁気、光磁気ディスク、または光ディスク）を含むことができ、そこからデータを受け取りかつ/またはそこにデータを転送するように動作可能な状態で結合され得る。

また、データ送信および命令は、通信ネットワークを介して行うこともできる。コンピュータプログラム命令およびデータを実施するのに適する情報担体には、例えば、半導体メモリ素子を含む、あらゆる形態の不揮発性メモリが含まれる。情報担体は、例えば、EPROM、EEPROM、フラッシュ・メモリ・デバイス、磁気ディスク、内蔵ハードディスク、リムーバブルディスク、光磁気ディスク、CD-ROM、および/またはDVD-ROMディスクなどとすることができる。プロセッサおよびメモリは、専用論理回路によって補うこともでき、かつ/または専用論理回路に組み込むこともできる。

ユーザとの対話を可能にするために、前述の技法は、表示装置を有するコンピュータ上で実施することができる。表示装置は、例えば、陰極線管（CRT）モニタ、および/または液晶ディスプレイ（LCD）モニタなどとすることができる。ユーザとの対話は、例えば、ユーザへの情報の表示、ならびに、ユーザがコンピュータに入力を提供することのできる（例えば、ユーザインターフェース要素と対話するなどの）キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とすることができる。ユーザとの対話を提供するのに他の種類の装置を使用することができる。他の装置は、例えば、任意の形の感覚的フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）においてユーザに提供されるフィードバックとすることができる。ユーザからの入力は、例えば、音響、音声、および/または触覚入力を含め、任意の形で受け取ることができる。

前述の技法は、バックエンドコンポーネントを含む分散コンピューティングシステムとして実施することができる。バックエンドコンポーネントは、例えば、データサーバ、ミドルウェアコンポーネント、および/またはアプリケーションサーバとすることができる。前述の技法は、フロントエンドコンポーネントを含む分散コンピューティングシステムとして実施することができる。フロントエンドコンポーネントは、例えば、グラフィカル・ユーザ・インターフェース、ユーザが例示的実装形態と対話するためのウェブブラウザ、および/または送信機器用の他のグラフィカル・ユーザ・インターフェースを有する、クライアントコンピュータとすることができる。システムの構成部分は、任意の形のディジタルデータ通信またはディジタルデータ通信の媒体（例えば、通信ネットワーク）によって相互接続することができる。通信ネットワークの例には、ローカル・エリア・ネットワーク（LAN）、広域ネットワーク（WAN）、インターネット、有線ネットワーク、および/または無線ネットワークなどが含まれる。

システムは、クライアントとサーバとを含むことができる。クライアントおよびサーバは、一般に相互にリモートであり、通常、通信ネットワークを介して対話する。個々のコンピュータ上で実行され相互に対してクライアント/サーバ関係を有する、コンピュータプログラムによって、クライアントとサーバの関係は生じる。

通信ネットワークには、例えば、パケットベースのネットワークおよび/または回路ベースのネットワークが含まれ得る。パケットベースのネットワークには、例えば、インターネット、キャリア・インターネット・プロトコル（IP）・ネットワーク（例えば、ローカル・エリア・ネットワーク（LAN）、広域ネットワーク（WAN）、キャンパス・エリア・ネットワーク（CAN）、メトロポリタン・エリア・ネットワーク（MAN）、ホーム・エリア・ネットワーク（HAN））、プライベートIPネットワーク、IP構内交換（IPBX）、無線ネットワーク（例えば、無線アクセスネットワーク（RAN）、802.11ネットワーク、802.16ネットワーク、汎用パケット無線サービス（GPRS）ネットワーク、HiperLAN）、および/または他のパケットベースのネットワークなどが含まれ得る。回路ベースのネットワークには、例えば、公衆交換電話網（PSTN）、構内交換（PBX）、無線ネットワーク（例えば、RAN、ブルートゥース、符号分割多元接続（CDMA）ネットワーク、時分割多元接続（TDMA）ネットワーク、移動体通信のためのグローバルシステム（GSM）ネットワークなど）、および/または他の回路ベースのネットワークなどが含まれ得る。

通信機器には、例えば、コンピュータ、ブラウザ機構を備えるコンピュータ、電話機、IP電話、モバイル機器（例えば、携帯電話、携帯情報端末（PDA）機器、ラップトップコンピュータ、電子メール機器）、および/または他の種類の通信機器が含まれ得る。ブラウザ機構には、例えば、ワールド・ワイド・ウェブ・ブラウザ（Microsoft Corporationから入手できるMicrosoft（登録商標）Internet Explorer（登録商標）、Mozilla Corporationから入手できるMozilla（登録商標）Firefoxなど）を備えるコンピュータ（例えば、デスクトップコンピュータ、ラップトップコンピュータ）が含まれる。モバイルコンピューティング機器には、例えば、携帯情報端末（PDA）などが含まれる。

「備える」、「含む」、および/またはそれぞれの複数形は非限定的に使用されており、列挙されている部分を含むと共に、列挙されていないさらに別の部分も含むことができる。「および/または」は非限定的に使用されており、列挙されている部分の一つまたは複数、および列挙されている部分の組み合わせを含む。

一般に、ビデオという用語は、動いている場面を表す静止画像、すなわちフレームの、シーケンスを指す。よって、ビデオフレーム自体は静止画像である。ビデオおよびマルチメディアという用語は、本明細書において使用する場合、テレビおよびフィルム様式のビデオクリップおよびストリーミングメディアを含む。ビデオおよびマルチメディアは、標準テレビ放送および録画などのアナログ形式と、やはり標準テレビ放送および録画（例えば、DTV）を含むディジタル形式とを含む。ビデオはインターレース方式であることも、またはプログレッシブ方式であることもできる。本明細書において示すビデオおよびマルチメディアコンテンツは、ディジタルビデオ形式（例えば、DVD）、QuickTime（登録商標）、およびMPEG 4、ならびにVHS（登録商標）およびBetamax（登録商標）を含むアナログビデオテープを含む、様々な記憶形式に従って処理することができる。ディジタルテレビ放送の各形式は、MPEG-2ビデオコーデックを使用することができ、ATSC（米国、カナダ）、DVB（欧州）、ISDB（日本、ブラジル）、DMB（韓国）を含む。アナログテレビ放送規格には、FCS（米国、ロシア）、旧MAC（欧州）、旧MUSE（日本）、NTSC（米国、カナダ、日本）、PAL（欧州、アジア、オセアニア）、PAL-M-PALの変形（ブラジル）、PALプラス-PAL拡張（欧州）、RS-343（軍事用）SECAM（フランス、旧ソ連、中央アフリカ）が含まれる。また、ビデオおよびマルチメディアは、本明細書において使用する場合、ストリーミング、マルチキャストとは異なる、ユーザの選択時に開始するビデオを指すビデオ・オン・デマンドも含む。

当業者は、本発明が、本発明の精神または本質的特徴を逸脱することなく、他の特定の形でも実施され得ることを理解するであろう。したがって、前述の各態様は、あらゆる点で、本明細書において示す本発明を制限するのではなく例示のためのものであるとみなされるべきである。よって、本発明の範囲は、以上の説明によってではなく添付の特許請求の範囲によって指定されるものであり、したがって、特許請求の範囲と等価の意味および範囲内に該当するあらゆる変更は、特許請求の範囲に包含されるべきものである。

Claims

ビデオシーケンスを比較する方法であって、以下の工程を含む方法：
各記述子が複数の第1のビデオフレームのうちの対応するビデオフレームの視覚情報に関連する、該複数の第1のビデオフレームに付随する該記述子の第1のリストを受け取る工程；
各記述子が複数の第2のビデオフレームのうちの対応するビデオフレームの視覚情報に関連する、該複数の第2のビデオフレームに付随する該記述子の第2のリストを受け取る工程；
各第1のセグメントが隣り合う第1のビデオフレームを含む、類似する該複数の第1のビデオフレームの該第1のセグメントを指定する工程；
各第2のセグメントが隣り合う第2のビデオフレームを含む、類似する該複数の第2のビデオフレームの該第2のセグメントを指定する工程；
前記第1のセグメントと前記第2のセグメントとを比較する工程；ならびに
前記第1のセグメントおよび前記第2のセグメントを閾値と比較するために、該第1のセグメントと該第2のセグメントとの前記比較に基づいて、該第1のセグメントと該第2のセグメントの対を解析する工程。
解析する工程が、類似する第1のセグメントと第2のセグメントを決定することを含む、請求項1記載の方法。
解析する工程が、相違する第1のセグメントと第2のセグメントを決定することを含む、請求項1記載の方法。
決定する工程が、
第1のセグメントと第2のセグメントの個々の記述子間の差を算出すること；および
前記算出された差を閾値と比較すること
を含む、請求項2〜3のいずれか一項記載の方法。
比較する工程が、各第1のセグメントを各第2のセグメントと比較することを含む、請求項1記載の方法。
比較する工程が、各第1のセグメントを、適応窓（adaptive window）内に位置する各第2のセグメントと比較することを含む、請求項1記載の方法。
比較する工程が、
比較される各第1のセグメントと各第2のセグメントの個々の記述子間の差を算出すること；および
前記算出された差を閾値と比較すること
を含む、請求項6記載の方法。
比較する工程中に適応窓のサイズを変更することをさらに含む、請求項7記載の方法。
比較する工程が、
複数の第1のセグメントで形成された第1のセグメントの第1のクラスタを指定すること；
各第1のクラスタに対して、該クラスタの前記複数の第1のセグメントのうちの一つの第1のセグメントを第1のクラスタ重心として選択すること；
各第1のクラスタ重心を各第2のセグメントと比較すること；および
前記各第1のクラスタ重心の閾値内にある前記各第2のセグメントについて、該第2のセグメントと前記第1のクラスタの前記第1のセグメントとを比較すること
を含む、請求項1記載の方法。
比較する工程が、
比較される第1のセグメントおよび第2のセグメントそれぞれのクラスタ重心の個々の記述子間の差を算出すること；ならびに
前記算出された差を閾値と比較すること
を含む、請求項9記載の方法。
比較する工程が、
複数の第1のセグメントで形成された第1のセグメントの第1のクラスタを指定すること；
各第1のクラスタに対して、該クラスタの前記複数の第1のセグメントのうちの一つの第1のセグメントを第1のクラスタ重心として選択すること；
複数の第2のセグメントで形成された第2のセグメントの第2のクラスタを指定すること；
各第2のクラスタに対して、該クラスタの前記複数の第2のセグメントのうちの一つの第2のセグメントを第2のクラスタ重心として選択すること；
各第1のクラスタ重心を各第2のクラスタ重心と比較すること；および
前記各第2のクラスタ重心の閾値内にある前記各第1のクラスタ重心について、前記第1のクラスタの前記第1のセグメントと前記第2のクラスタの前記第2のセグメントを互いに比較すること
を含む、請求項1記載の方法。
各第1のクラスタ重心を各第2のクラスタ重心と比較することが、
比較される第1のセグメントおよび第2のセグメントそれぞれのクラスタ重心の個々の記述子間の差を算出すること；ならびに
前記算出された差を閾値と比較すること
を含む、請求項11記載の方法。
複数の第1のビデオフレームのうちの一つの第1のビデオフレームの視覚情報に関連する記述子、複数の第2のビデオフレームのうちの一つの第2のビデオフレームの視覚情報に関連する前記記述子、および/またはこれらの任意の組み合わせに基づいて閾値を生成する工程をさらに含む、請求項1記載の方法。
解析する工程が、少なくとも一つの行列を使用することおよび類似するビデオフレームのセグメントにおける差のレベルを表す該少なくとも一つの行列内の対角項目を探索することによって行われる、請求項1記載の方法。
以前にマッチしなかったフレームシーケンスについて類似するフレームシーケンスを探し出す工程をさらに含む、請求項1記載の方法。
データ処理装置に
各記述子が複数の第1のビデオフレームのうちの対応するビデオフレームの視覚情報に関連する、該複数の第1のビデオフレームに付随する該記述子の第1のリストを受け取らせ；
各記述子が複数の第2のビデオフレームのうちの対応するビデオフレームの視覚情報に関連する、該複数の第2のビデオフレームに付随する該記述子の第2のリストを受け取らせ；
各第1のセグメントが隣り合う第1のビデオフレームを含む、類似する該複数の第1のビデオフレームの該第1のセグメントを指定させ；
各第2のセグメントが隣り合う第2のビデオフレームを含む、類似する該複数の第2のビデオフレームの該第2のセグメントを指定させ；
前記第1のセグメントと前記第2のセグメントとを比較させ；かつ
前記第1のセグメントおよび前記第2のセグメントを閾値と比較するために、該第1のセグメントと該第2のセグメントとの前記比較に基づいて、該第1のセグメントと該第2のセグメントの対を解析させる
ように操作可能な命令を含む、情報担体に有形的に組み込まれたコンピュータプログラム製品。
各記述子が複数の第1のビデオフレームのうちの対応するビデオフレームの視覚情報に関連する、該複数の第1のビデオフレームに付随する該記述子の第1のリストを受け取るため、
各記述子が複数の第2のビデオフレームのうちの対応するビデオフレームの視覚情報に関連する、該複数の第2のビデオフレームに付随する該記述子の第2のリストを受け取るため
の通信モジュールと；
各第1のセグメントが隣り合う第1のビデオフレームを含む、類似する前記複数の第1のビデオフレームの該第1のセグメントを指定するため、
各第2のセグメントが隣り合う第2のビデオフレームを含む、類似する前記複数の第2のビデオフレームの該第2のセグメントを指定するため
のビデオセグメント化モジュールと；
前記第1のセグメントと前記第2のセグメントとを比較するため、かつ
前記第1のセグメントおよび前記第2のセグメントを閾値と比較するために、該第1のセグメントと該第2のセグメントとの前記比較に基づいて、該第1のセグメントと該第2のセグメントの対を解析するため
のビデオセグメント比較モジュールと
を備える、ビデオシーケンスを比較するシステム。
各記述子が複数の第1のビデオフレームのうちの対応するビデオフレームの視覚情報に関連する、該複数の第1のビデオフレームに付随する該記述子の第1のリストを受け取るための手段と；
各記述子が複数の第2のビデオフレームのうちの対応するビデオフレームの視覚情報に関連する、該複数の第2のビデオフレームに付随する該記述子の第2のリストを受け取るための手段と；
各第1のセグメントが隣り合う第1のビデオフレームを含む、類似する前記複数の第1のビデオフレームの該第1のセグメントを指定するための手段と；
各第2のセグメントが隣り合う第2のビデオフレームを含む、類似する前記複数の第2のビデオフレームの該第2のセグメントを指定するための手段と；
前記第1のセグメントと前記第2のセグメントとを比較するための手段と；
前記第1のセグメントおよび前記第2のセグメントを閾値と比較するために、該第1のセグメントと該第2のセグメントとの前記比較に基づいて、該第1のセグメントと該第2のセグメントの対を解析するための手段と
を備える、ビデオシーケンスを比較するシステム。