JP2010191955A

JP2010191955A - 画像のシーケンスを処理する方法および装置、記憶媒体ならびに信号

Info

Publication number: JP2010191955A
Application number: JP2010014280A
Authority: JP
Inventors: Stavros Paschalakis; スタヴロス・パシャラキス; Alfredo Giani; アルフレード・ジャーニ
Original assignee: Mitsubishi Electric R&D Centre Europe BV Netherlands
Current assignee: Mitsubishi Electric R&D Centre Europe BV Netherlands
Priority date: 2009-01-26
Filing date: 2010-01-26
Publication date: 2010-09-02
Anticipated expiration: 2030-01-26
Also published as: KR20100087269A; JP5501777B2; CN101789011A; EP2211293A2; US20100188580A1; GB0901263D0

Abstract

【課題】画像の第１のシーケンス及び画像の第２のシーケンスを処理して、該第１のシーケンスと該第２のシーケンスとを比較する方法及び装置を提供する。
【解決手段】（ｉ）画像内の複数の画素近傍集合のそれぞれに対する画像データを処理して、該画素近傍集合のそれぞれに対する少なくとも１つの記述子要素を生成すること、及び、（ｉｉ）記述子要素から全体画像記述子を形成することによって、第１のシーケンスの各画像、及び第２のシーケンスの各画像が処理される。比較されている画像のそれぞれの全体画像記述子間の距離を計算することによって、第１のシーケンス内の各画像と、第２のシーケンス内の各画像とが比較される。距離は行列内に配列され、該行列が処理されて類似画像が特定される。
【選択図】図１

Description

本発明は、類似ビデオセグメントの検出のための方法、装置、及びコンピュータプログラム製品に関する。

近年、消費者がアクセスすることができると共に自身のビデオライブラリ内に保持するデジタルビデオデータの量が急激に増大している。これらのビデオは商用のＤＶＤ及びＶＣＤ、パーソナルカムコーダによる記録、放送からＨＤＤシステム及びＤＶＲシステムへの直接の録画、パーソナルコンピュータ又は移動電話又はＰＤＡ又はポータブルプレイヤ上でのビデオダウンロード等の形態をとることができる。このデジタルビデオライブラリの発展は継続すると共に、Ｂｌｕ−Ｒａｙのような新規の大容量技術がますます利用可能になることによって加速すると予測される。しかしながら、このようにビデオ資料が多量にあることが、ユーザにとって問題にもなっている。ユーザは、自身のビデオコレクションを管理することがますます困難になっていると感じている。このことに対処するために、ユーザが自身のビデオコンテンツ、及びビデオのカテゴリ化、要約、探索等のような機能に効率よくアクセスすることを可能にする、新規の自動ビデオ管理技術が開発されている。

発生する１つの問題は、類似のビデオセグメントを特定する必要があることである。潜在的な用途は、たとえば、ビデオの大きなデータベース内でユーザによって提供される短い断片の識別に基づく、反復するビデオセグメント（たとえばＴＶ局ＣＭ（TV-station jingles））の識別、及びビデオデータベース検索を含む。別の潜在的な用途は、コマーシャルの前後で繰り返されるビデオセグメントの識別である。

「Identifying repeating video sections by comparing video fingerprints from detected candidate video sequences」と題する特許文献１において、コマーシャルの時間を特定する手段として、反復シーケンスを特定する方法が発明されている。最初に、ハードカット(hard cuts)、フェード(fades)、及び音量変化の検出によって、候補セグメントが特定される。特定数のハードカット／フェードが特定されるときは常に、候補セグメントが考慮され、記憶される。該候補セグメントは、後続の特定された候補セグメントと比較されることになる。比較は、可能性のある実施形態の集合からの特徴、すなわち音量、カラーヒストグラム、カラーコヒーレンスベクトル、エッジ変化比、及び動きベクトル長を使用して実施される。

この方法に伴う問題は、まずセグメントが特定され、次いで他のセグメントと比較されるために、該方法が、セグメントとその隣接セグメントとの間の明瞭な境界に依存することである。また、部分的反復（すなわち、セグメントの１つのセクションのみが反復される）を検出することができない。さらに、カラーコヒーレンスベクトルが提供する空間情報はごくわずかであり、したがって、フレーム間マッチングには適切でない。最後に、示唆されている特徴のうちのいくつかは非圧縮ビデオでは利用可能でなく、したがって、アドホックに計算しなければならず、それによって計算要件及び時間的要件が顕著に増大する。

「Repeat clip identification in video data」と題する特許文献２において、ビデオデータ内の反復クリップを特定する方法及びシステムが提示されている。この方法は、
ビデオデータを、内容に基づくキーフレームサンプリングを利用して順序付けされたビデオ単位に分割することであって、各ビデオ単位は２つの連続するキーフレーム間にシーケンスインターバルを含む、分割することと、
各ビデオ単位に対するフィンガープリントを作成することと、
少なくとも２つの連続するビデオ単位を、時間インデックスを付された１つのビデオセグメントにグループ化することと、
ビデオセグメント同士の相関に基づいて反復クリップインスタンスを特定することと
を含む。

ビデオは最初に走査されて、各フレームに対してカラーヒストグラムが計算される。所与の閾値に従って２つのフレーム間のヒストグラムの変化が検出されると、２番目のフレームがキーフレームとしてマークされる。１つのキーフレームと次のキーフレームとの間のフレームの集合がビデオ単位を構成する。次いで、単位レベルのカラーシグニチャ、及びフレームレベルのカラーシグニチャが抽出される。さらに、単位の時間的長さも特徴として考慮される。次いで、少なくとも２つの連続するビデオ単位が結合して、１つのセグメントが形成される。これは、ビデオ内の他の各セグメントと比較される。単位レベルのシグニチャに関するＬ１距離及び時間長が計算され、それらの双方が固定の閾値を下回る場合、マッチが検出され、相関行列内の対応する点が１（そうでない場合は０）に設定される。その結果、連続する１はマッチするセグメントの連続を示す。フレームレベルの特徴は後処理検証ステップとしてのみ使用され、適切な検出プロセスでは使用されない。

特許文献２における技法に伴う１つの欠点は、該技法がビデオ単位に基づいていることであり、ビデオ単位が、不均一にサンプリングされる、内容に基づくキーフレーム間のビデオであることである。したがって、単位は、たとえば１つのショット以上の重要な構造要素である。非常に静的なビデオ内容又は非常に動的なビデオ内容の存在下では、キーフレーム抽出プロセス自体が不安定になり、検出する単位が少なすぎるか又は多すぎるため、これは重大な問題である。また、マッチしているがわずかに異なってもいるビデオセグメント（たとえば、テキストオーバーレイや子画面表示（small picture-in-picture）の追加等によるもの）に関して、キーフレーム抽出はまた不安定になり、非常に異なった単位を検出する場合がある。ここでは、セグメントは２つ以上の単位をグループ化したものと定義され、セグメントレベルで類似度指標が適用される。すなわち、類似度は単位対のレベルで検出される。そのため、この発明は、比較的長いセグメント、たとえば複数のショット群のマッチングを目標としており、数フレームのみにわたって継続するアドホックなセグメントには適用することができないという点において、非常に限定されている。この文献の著者らはこのことを認識しており、この問題はたとえば１秒当たり２つ以上のキーフレームをサンプリングすることを想定することによって対処することができると主張している。しかしながら、これは、内容に基づくサンプリングではなく、均一なサンプリングによってのみ達成することができる。この事例において発生する主要な問題は、ビデオ単位レベルの特徴によって、フレームレート変化に対するすべてのロバスト性が失われることである。すべての事例において、この方法の基本的な欠点は、固定の閾値に基づいてセグメント（すなわち、単位対）の類似度に関する判断を行うが、隣接するセグメント同士がどのような類似度レベルを示すかを考慮に入れないという点である。２値相関行列が提供するマッチングの記述は粗すぎる場合があり、その結果、（たとえばノイズの存在に起因して）過剰な数の１がもたらされる。次いで、マッチするセグメントの線形シーケンスが探索される。キーフレームサンプリングが不均一であることによって、マッチする単位対のこれらのラインは不連続であると共に、中断があり且つ非共線の(non-collinear)セグメントから成っている場合があり、これらのすべての事例に対処するために複雑なライン追跡アルゴリズムが利用される。また、フレームレベルの特徴が利用可能であるが、これらはすでに検出されたマッチするセグメントの検証にしか使用されず、マッチするセグメントの実際の検出には使用されない。

一般に、この従来技術は、類似度が非常に高く、且つ隣接するセグメントとの境界が明瞭な、長さの等しいセグメントの識別を主に対象にしている。この状況によって、このような方法の適用を、反復されるコマーシャル（通常、鮮鋭な境界（たとえば、コマーシャル前後のわずかな黒いフレーム）、特有の音量、及び等しい反復の長さによって特徴付けられる）の識別に対して無理なく適切とすることができる。しかしながら、この従来技術は、より恣意的な用途に対処するのに必要な一般性を欠いている。

対処されていない１つの問題は、さらに短いセグメントの部分的反復、すなわちセグメントの一部分のみが反復されることである。この事例では、セグメント長を識別のための特徴／フィンガープリントとして使用することは不可能である。

対処されていないもう１つの問題は、２つのセグメントうちの一方にテキストオーバレイが存在する場合や、２つのセグメントうちの一方に線形／非線形の歪み（たとえば、ぼやけ、若しくは輝度／コントラスト／彩度の変化）が存在する場合である。より一般的な用途を考える場合には、このような歪みを考慮に入れなければならない。

「method for mining content of video」と題する特許文献３において、ビデオ信号内の類似のセグメントを検出する方法が示されている。未知かつ任意の内容及び長さのビデオが特徴抽出を受ける。特徴は、音声及び映像ベースのもの（たとえば、ＭＰＥＧ−７記述子のような、動きの活発さ、色、音声、テクスチャ）とすることができる。特徴の経時変化（feature progression in time）が時系列を構成する。該時系列の各点間（又は多次元時系列の各ベクトル間）のユークリッド距離を使用して、この時系列から自己距離行列が構築される。特許請求の範囲において、他の測度（具体的にはドット積（角度距離）及びヒストグラムインターセクション）が言及されている。複数の特徴（たとえば、音声、色等）が考慮されるか否かにかかわらず、各特徴に関して、距離行列内で経路を発見する方法が独立に適用される。その後、結果として特定されたセグメントが融合される。

該方法は、動的プログラミング技法を使用して対角行列内の対角線又はほぼ対角線の経路を発見する、すなわち、適切なコスト関数によって規定される最小コストの経路を発見する。このコスト関数は、距離行列において、２つのフレーム間のマッチが「良い」（距離が近い）又は「悪い」（距離が遠い）と考えられる場所を規定する固定の閾値を含む。したがって、その値が閾値を上回る点は考慮されず、一方で、距離行列内の、その値が閾値を下回るすべての点が考慮される。その後、連続する経路（近い終点）が接合され、部分的に又は完全に重なり合う経路が併合される。接合及び併合の後、（終点間の特定の距離を下回る）短い経路が除去される。

特許文献３における技法に伴う１つの欠点は、動的プログラミングを適用して距離行列内の線形パターンを探索することが、非常に計算集中的になる場合があることである。さらに、動的プログラミングは、距離行列内の、特定の固定された閾値下に入るすべての点に対して適用されることを考慮する必要がある。この固定の閾値によって、候補点の数が非常に多く又は少なくなる場合がある。ビデオ内のセグメントの自己相似性が強い、すなわち、セグメント内のフレームが非常に類似している場合に、多数の点が生成される。この事例では、固定の閾値が高すぎると、追跡するには現実的でない多数の点が生成され得る。

ある反復セグメントが偶然にも同一のフレームのみから成る場合には、第１のセグメントの点と第２のセグメントの点とを接続するすべての対角経路が同じコストをもたらすことになるため、最小コスト経路を発見する問題が不良設定となる可能性がある。これによって、非常に多数の平行パターンが生成されることになる。これらのパターンの一例を図４に示す。該発明は自己相似性の強い領域によって生成される平行セグメントのグループを併合する方法を提供しない。

他方、強い非線形編集（たとえば、テキストオーバレイ、ぼかし、増光／減光（brightening/darkening））の存在下では、フレーム間の距離が固定閾値を超えて増大する場合があり、結果として、候補点の数が不十分になる。

複製されたセグメントが部分的に編集される場合（たとえば、セグメントのいくつかのフレームがぼけ、又はテキストオーバレイを伴って複製される場合）、別の問題が生じる場合がある。この場合、最小コストの経路内に中断が生成され、結果として、２つのセグメントが意味的につながっている場合であっても、該２つのセグメントが分離することになる。

特許文献２及び特許文献３の双方に伴うもう１つの問題は、距離行列の計算及びその基礎となる記述子の記憶の複雑度及びコストである。このため、リアルタイム又はより高速の演算が要求される場合にはシーケンスを非常に大きくすることができない。

英国特許出願公開第２４４４０９４号明細書国際公開第２００７／０５３１１２号パンフレット国際公開第２００４／０４０４７９号パンフレット

これらの問題を緩和して、大きなシーケンス、たとえば番組(program)全体の高速処理を可能にする方法が必要とされている。

本発明の特定の態様を添付の特許請求の範囲に記載している。他の態様は下記の実施の形態に記載しており、当業者であれば本明細書を読むことによって理解されよう。

本発明の一実施の形態は、類似のビデオセグメントを検出する新規の方法及び装置を提供する。この実施の形態は、
‐ハミング距離によって比較することができる低コストの２値記述子によってフレームを記述し、それによってハミング距離行列が生じ、計算コストが大幅に節約される。
‐距離行列内の点の小さな部分集合に関する距離行列内の線パターンを発見する。これらは、距離行列に対する極小値である点、又は極小値に隣接する点であり、ここで極小値は距離行列の一次導関数又は二次導関数の有限差分近似によって規定される。
・これらの点はさらに処理され、その値が特定の閾値を下回る点のみが保持される。この閾値は、距離行列の１列あたりに発見される極小値の数に従って適応的に決定される。すなわち、（発見される場合は）最小数以上且つ最大数以下の極小値が保持されることを保証する。
・さらに、同一又はほぼ同一の極小値のシーケンス（すなわち、自己相似性の強いゾーンを表す局所的な谷（valley））が発見されるときは常に、谷内の選択された点のみを発見及び維持する方法が提供され、それによって、生成される平行パターンの数が低減される。
・そうすることによって、本方法は、ハミング距離行列において潜在的に有効なマッチの数を最小化することによって計算的労力を最小限に抑えるため、国際公開第２００４／０４０４７９号パンフレットに対して大きな利点を有する。
‐自己相似性が高いセグメントによって生成される複数の平行パターン（距離行列内の谷）をなくす方法を提供する。
‐輝度シフト、テキストオーバレイ、及び非線形編集（たとえば、ぼかし）に対してロバストであり、極小値に対する適応的閾値を介して弱い類似度を検出する。
‐ヒステリシス的閾値接合方法を介して分離したセグメントを接合する方法を提供することによって、セグメントの部分的な非線形編集に対してロバストである。
‐圧縮ＭＰＥＧビデオストリーム及び非圧縮ビデオに対して動作することができる。圧縮ＭＰＥＧストリームのＩフレームのみに対して動作することができ、したがってビデオストリーム内のＰフレーム及びＢフレームの復号を必要としない。したがって、本方法はビデオの時間的にサブサンプリングされたバージョンに対しても動作することができる。
‐ＤＣ又はサブＤＣのフレーム解像度に対して動作することができ、したがって、計算的労力及びメモリ要件が最小限に抑えられ、フレームをその最大解像度まで復号する必要がない。
‐マルチレベル空間変換に基づいて、各個々のフレームに対する特徴のコンパクトなベクトルに対して動作する。
‐フレーム内の詳細及び高周波の空間的内容を類似性の測度として利用する。
‐フレーム間マッチングに基づいており、分析前のフレームのグループ化を必要としない。
‐音声追跡、遷移／ハードカット／シーン変化の検出、動的内容分析に依存しない。
‐セグメントの長さを等しくするか又は同様とすることを必要としない。
‐フレームレート変化に対してロバストである。
‐ごくわずかな誤検出で高い再現率を有する。

より詳細には、２つのビデオシーケンスが与えられると、本発明の一実施の形態は、各シーケンスの各フレームに対して処理を実施し、
‐マルチレベルの輝度及びクロミナンスの内容（平均値／ローパス）及び相互関係（差分／ハイパス）をキャプチャーするマルチレベル変換に基づいて、コンパクトで計算効率的な記述子を計算する。
‐記述子の要素を２値化する。
‐一方のシーケンスの複数のフレームと、他方のシーケンス内の全フレームとの間のマッチングスコアを、対応する記述子の２値距離にしたがって計算し、その結果をハミング距離行列内に記憶する。
‐不明確な／不完全な／複数のマッチング及び粗いサンプリングに対処するための連続性情報を保存する距離行列内の行及び／又は列に沿って、極小値を発見する。
‐対角経路にわたる連続する最小値および隣接する最小値のシーケンス、連結位置不整合（tacking misalignment）、ならびにマッチの看過を検出し、それらを、それらの全体のマッチングスコアに従って評価する。

これより本発明の実施形態を、添付の図面を参照して例示としてのみ説明する。

一実施形態における処理動作を示すフローチャートである。一実施形態における処理動作を示すフローチャートである。極小値及び谷点の検出を示す図である。直線上にある極小値の検出を示す図である。ヒステリシス的線セグメント（hysteretic line segment）接合アルゴリズムを適用する処理動作の流れ図である。処理の結果の一例を示す図である。処理動作を実施する処理装置の一実施形態を示す図である。

これより、本発明の一実施形態における処理装置によって実施される方法を説明する。本方法は、いくつかの処理動作を含む。本明細書の末尾において説明するように、これらの処理動作は、ハードウェア、ファームウェア、コンピュータプログラム命令に従って動作する処理ユニット、又はそれらの組合せを使用する処理装置によって実施することができる。

２つのビデオシーケンスＳ_a及びＳ_bが与えられると、一実施形態において実施される処理は、２つのシーケンス間における類似のセグメントを発見する。

本実施形態によれば、ビデオフレーム

は、任意の適切な色空間におけるそれらの画素値（たとえば、ＲＧＢ空間又はＹＵＶ空間においてはＣ＝３、又はグレイスケール画像に対してはＣ＝１）によって、又はそれらから導出される任意の適切な記述子において記述することができる。

本発明の１つの実施形態では、Ｓ_a及びＳ_b内の各フレームをその画素値によって記述する。本発明の好ましい一実施形態（図１）では、ＹＵＶカラーチャネル内のフレームのハイパス内容及びローパス内容をキャプチャーする記述子によって、Ｓ_a及びＳ_b内の各フレームを記述する（ステップＳ１）。

このような記述子は、相互参照によりその全内容が本明細書に援用される、欧州特許出願公開第１６４０９１３号明細書及び欧州特許出願公開第１６４０９１４号明細書に記載の技法を使用して計算することができる。たとえば、このような記述子は、Haar変換又はDaubechiesのウェーブレット変換のようなマルチ解像度変換（ＭＲＴ）を使用して計算することができる。好ましい一実施形態では、慣習的なより高速の変換を使用する。これは、２×２画素ウィンドウ上でローカルに計算されるものであり、以下のように定義される。

Haar変換と同様に、このＭＲＴは、寸法がＮもＭも２の累乗である再サンプリングされたフレーム内の、重なり合わないすべての２×２ウィンドウに対して適用される。Ｎ×ＭフレームＦ（ｎ，ｍ）について、各カラーチャネルｃに対して、（Ｎ×Ｍ）／４個のＬＰ^c要素と、（３×Ｎ×Ｍ）／４個のＨＰ^c要素とが生成される。次いで、これを既に計算されたＬＰ^c要素に適用して、最終的に、１つのカラーチャネルあたり１つのみのＬＰ^c要素及び（Ｎ×Ｍ−１）個のＨＰ^c要素が残るまで同様に続ける。

各フレームＦ（ｎ，ｍ）について、ＬＰ要素及びＨＰ要素又はそれらの適切な部分集合を、ベクトル（以下、「記述子」と称する）Φ＝［φ_d］（ｄ＝１．．．Ｄ）内に配列ｓる（ステップＳ２）。ここで、各要素φ_dはＬＰ成分及びＨＰ成分の適切な部分集合に属する（たとえば、Ｄ＝Ｃ×Ｎ×Ｍ）。

次いで、ベクトルφ_dの各要素を、その最上位ビット（ＭＳＢ）の値に従って２値化（量子化）する（ステップＳ３）。

本発明の異なる実施形態では、異なるフレーム記述子、又は各記述子の異なる要素は、個々の２値化（量子化）パラメータ（たとえばＭＳＢ選択、局所センシティブハッシング（locality sensitive hashing）（たとえば、Samet H.著「Foundations of Multidimensional and Metric Data Structures」（Morgan Kaufmann, 2006）に記載）、等）を受ける。

Ｓ_a＝［Ｆ^(a) _i］（ｉ＝１．．．Ａ）内の各フレームＦ^(a) _iと、Ｓ_b＝［Ｆ^(b) _j］（ｊ＝１．．．Ｂ）であるＳ_b内の各フレームＦ^(b) _jとを、それぞれの２値化された記述子のハミング距離δ_ijによって比較する。

要素δ_ijを距離行列内に配列する（ステップＳ４）。

本発明の好ましい実施形態（図２）では、Δの各列（ステップＳ５）について、極小値μを探索する（ステップＳ６）。極小値は、検討中の列の一次導関数におけるゼロ交差であって二次導関数が正となるものとして定義される。一般的な手法は、列を平滑な微分可能曲線（たとえば、高次多項式）を用いて補間し、その後、一次導関数及び二次導関数を計算するために、該曲線を２回解析的に微分する。より実際的な手法は、一次導関数を、平滑且つ有限の差分の組合せとして計算する。１つの実施形態では、計算コストを最小限に抑えるために、一次有限差分と二次有限差分との暗黙の組合せ(implicit combination)を実施し、ここで、極小値は（列ごとの）先行する値及び次の値の方が高い場合に発見される（ステップＳ６）。

Δのｉ番目の行に表れる、ｊ番目の列の極小値μ_ijは、フレームＦ^(a) _iが、その列ごとの近傍集合(neighbourhood)

内でＦ^(b) _jと最も類似していることを示す。上述の単純な極小値発見手順では、この近傍集合は

として定義される。したがって、極小値μ_ijがｊ番目の列内で大域的でもある場合には、フレームＦ^(a) _iがＦ^(b) _jに対する最良のマッチであることを示す。極小値を閾値に対して評価する（ステップＳ７）。このアルゴリズムは、その値が十分に小さい極小値、すなわちＳ_a及びＳ_b内の対応するフレーム間の十分に強いマッチを暗示する極小値のみを保存する。

Ｓ７における閾値は、少なくとも最小量ｍｍの極小値及び多くとも最大量Ｍｍの極小値が保持されるように、適応的に計算される。しかしながら、ステップＳ６において発見される極小値の数がｍｍよりも小さい場合、閾値はその後、それらのすべてを保存するように適合される。

各極小値μについて、谷点(valley points)の集合Ｖを発見する（ステップＳ８）。これらは、（Δ内の列ごとの）対応する極小値の直上及び直下の、極小値でない複数の点として定義される。すなわち、以下の通りである。

ここで、ｖは（３のような）デフォルトのパラメータであるか、又は代替的にヒューリスティックに規定される。Ｖの目的は、各μの近傍集合内の連続性情報を提供し、ひいては、任意の形態のサンプリング、非線形編集から生じる、不連続性及び非共線性（これらは、一般的には２つのシーケンスＳ_aとＳ_bとの間の「強い」マッチングを欠く）を利用することである。

谷点を閾値に対して評価する（ステップＳ９）。アルゴリズムは、谷点のうちその値が十分に小さいもののみ、すなわち、Ｓ_a及びＳ_b内の対応するフレーム間の十分に強いマッチを暗示する谷点のみを保存する。

極小値及び谷点を、まとめて候補マッチングセグメント点πと命名する（ステップＳ１０）。πの一例を図３に示す。図３では、極小値は円で示されており、谷点は×印として示されている。

本発明の異なる実施形態では、極小値及び谷点を距離行列の列ではなく行に沿って同様に探索することができることは留意されたい。本発明のさらに別の実施形態では、極小値及び谷点を、距離行列の双方の次元において同様に探索することができる。

線セグメント探索アルゴリズムをπの集合に適用する（ステップＳ１１）。その原理は、Ｓ_aのビデオセグメントがＳ_b内で反復されている場合、これがΔ内に、θ＝ｔａｎ^-1（ρ_a／ρ_b）に方向付けられている線セグメントσ内に配列された連続する（隣接する）πの集合を生じることであり、ここでρ_aはＳ_aのフレームレートであり、ρ_bはＳ_bのフレームレートである。Ｓ_aからＳ_bまででフレームレートが変化しない場合、ρ_a＝ρ_b且つθ＝４５度ということになる。

したがって、谷点Ｖは、ノイズの存在に起因して、又は何らかの粗い時間サンプリングに起因する不完全なマッチングに起因して生じる、あらゆる間隙を埋める役割を果たす。線セグメント探索アルゴリズムの一例を図４に示す。

本発明の好ましい一実施形態では、線セグメント探索に加えて、ヒステリシス的線セグメント接合アルゴリズムを続けて行う（図５）。これは、局所的な非線形編集、ノイズ、サンプリング又は不正確なマッチングから生じ得る、線セグメント間の間隙をさらに埋める役割を果たす。共線である(collinear)２つの線セグメントが、それらの近位端間で、Δ内の点の数でみた所与の距離よりも近い場合（ステップＳ１２）、対応する中間δ値の平均をとる。この平均値

が所与の閾値よりも低く、したがってＳ_a及びＳ_b内の中間フレーム間の十分なマッチングを示す場合、２つの線セグメントを連結する（ステップＳ１３）。

好ましい一実施形態では、線セグメントσ（ステップＳ１４）、すなわちマッチするビデオセグメントを、以下のように計算されるΔ内のそれらの平均値に従って検証する。

ここで、Ｌ（σ）は線セグメントσの長さ（πの数）である（ステップＳ１５）。所与の閾値よりも高い

をもたらす線セグメントを、誤ったマッチとして破棄する。これは、高い

はフレームの不十分なマッチングを表すためである（図５）。

好ましい一実施形態では、曖昧性解消手順（ＡＲ）を利用して複数のマッチ及び曖昧な結果を除去する。最終結果の一例を図６に示す。

ＡＲは以下のように２つのステージにおいて動作する。

［ステージ１：シャドウ除去］
１．線セグメントをそれらの長さに従ってソートする。より長い線セグメントを最初に考慮する。各線セグメントσは「方形シャドウ」ζ（σ）を射影する、すなわち、その対角線がσである正方形の領域を規定する。σがその開始座標及び終端座標ｘ_xtart（σ）、ｘ_xtop（σ）、ｙ_xtart（σ）、ｙ_xtop（σ）によって規定されるとき、点π＝（ｘ_π，ｙ_π）は以下の場合にσによってシャドーイングされる（shadowed）。

したがって、線セグメントσ_aは以下の場合にσ_bによってシャドーイングされる。

自明的に、以下のようになる。

２つの線セグメント間の部分的なシャドーイングは、１つの線セグメントからの点の部分集合のみが他の線セグメントによってシャドーイングされ、また逆もあることを暗示する。この事例では、相対的な長さに関して仮定を引き出すことはできない。

２．より長い線セグメントσ_longerによってシャドーイングされる線セグメントσ_shorterを除去する。しかしながら、σ_shorterがσ_longerによって部分的にしかシャドーイングされない場合には、点π_shorter＝π∈σ_shorter：π_shorter∈ζ（σ_longer）のみが除去される。しかしながら、σ_shorterの長さ（又は代替的にそのシャドーイングされる部分の長さ）がσ_longerの長さの半分以上であり（すなわちＬ（σ_shorter）≧Ｌ（σ_longer）／２であり）、且つσ_shorterの平均値（又は代替的にそのシャドーイングされる部分の平均値）がσ_longerの平均値よりも低い場合、すなわち

である場合（したがって、σ_shorterがそれぞれのビデオシーケンスに対するより良好な平均マッチを推定する場合）には、σ_shorterによってシャドーイングされるσ_longerのこれらの点（すなわち、これらの点π_longer＝π∈σ_longer：π_longer∈ζ（σ_shorter））が除去され、この手順が反復される。

［ステージ２：複数のマッチ］
本発明の１つの実施形態では、Ｓ_a内の（Ｓ_b内の）２つ以上のビデオセグメントがＳ_b内に（Ｓ_a内に）同じマッチを有する事例を考慮する。Δ内の対応する線セグメントは、それらが「競合して」Ｓ_b内の（Ｓ_a内の）同じフレームをＳ_a内の（Ｓ_b内の）異なるフレームに関連付けているとして、競合していると言われる。自明的に、競合している線セグメントは互いにシャドーイングしない（これは最終的にはステージ２によって対処されることになる）。２つの線セグメントσ₁、σ₂が与えられると、σ₁は以下の場合にσ₂と競合していると言われる。
Ｓ_a内の同一のセグメントについて競合している：

Ｓ_b内の同一のセグメントについて競合している：

競合するフレームセグメントが発生する場合があるが、競合する線セグメントの存在は実際にはアルゴリズムによる誤った結果を表す場合があり、従ってそれらは以下のように評価される。

１．すべての競合する線セグメントσの平均値

を考える。最初に、最低の

をもたらすものを真の（勝者）マッチσ_winnerとみなす。

２．任意の他の競合する線セグメントσが、勝者平均

からのある上界内の

をもたらす場合、すなわち

（ここで、κ＞０は適切な閾値である）である場合、σはσ_winnerの別のインスタンスであると考えられる。そうでない場合、σは誤検出であると考えられ、破棄される。

本発明の異なる実施形態において、また目的の用途に従って、ステージ１若しくはステージ２のいずれか又はＡＲ手順全体を省略することができる。

本発明の１つの実施形態では、２つのビデオセグメントＳ_a及びＳ_bは同一、すなわちＳ_a＝Ｓ_b＝Ｓであり、本方法は、Ｓ内の反復ビデオセグメントを発見することを目標とする。この事例では、Ｓ_b＝Ｓ_aであることによって、Δが対称であり且つ主対角線が大域的最小点の軌跡である（自己相似性）ことが自明的に暗示されるため、Δの上三角部分のみが処理を必要とする。そのため、線セグメントσ｛ｘ_start，ｘ_stop，ｙ_start，ｙ_stop｝が与えられると、ｘ_xtart＜ｙ_xtart，ｘ_xtop＜ｙ_xtopであることを保証する必要がある。さらに、自己相似性が検出されることを回避するために、いかなる検出された線セグメントも、Ｓ_a及びＳ_b内の２つの重なり合わない時間インターバルを推定することを確実にする必要がある。換言すれば、ｙ_xtop＜ｘ_xtartでなければならない、すなわち、Ｓ_b内の反復ビデオセグメントはＳ_a内のそのコピーの終端の後に開始しなければならない。しかしながら、ｙ_xtart＜ｙ_xtop，ｘ_xtart＜ｘ_xtopであることから、条件ｙ_xtop＜ｘ_xtartは、そのセグメントが上三角部分内にあることも暗示するという点で十分条件である。本発明の代替的な一実施形態では、距離行列の上三角部分の代わりに下三角部分を同様に処理することができる。

本発明の異なる実施形態では、Ｓ_a及びＳ_bを複数の記述子によって（たとえば異なるカラーチャネルに対して且つ／又はＬＰ係数及びＨＰ係数に対して別個に）記述することができ、この場合には結果として複数の距離行列Δがもたらされる。これは、色、明度、詳細、平均色／明度等における類似度に別個に対処することによって、フレーム間の類似度をより良好に利用するものと理解される。

好ましい一実施形態では、ＹＵＶ色空間を考え、Ｙチャネルに対するＨＰ係数とＬＰ係数とを分離し、Ｕチャネル及びＶチャネルのＬＰ係数のみを維持する。この結果として、３つの距離行列Δ_Y-HP、Δ_Y-LP、及びΔ_UV-LPがもたらされる。このような実施形態では、各距離行列を個々に処理することができる。たとえば、Δ_Y-HP上で発見される極小値及び谷点を、Δ_Y-LP及びΔ_L-HPにおけるそれらの値に従ってさらに検証することができる。同様に、線セグメントσを、３つの行列内のそれらの平均値に従って、すなわち、

に従って検証することができる。

本発明の異なる実施形態では、記述子要素は２値化されず、異なるビット数、たとえば２ビット又は３ビットに量子化され、その場合、ハミング距離の代わりに、適切な距離測度、たとえばＬ１が用いられ、これはハミング距離に対して一般に利用されているものと同様に、テーブルルックアップ動作を使用して効率的に実施することができる。

本発明の異なる実施形態では、上記の複数の記述子のうちの１つ又は複数を、対応する部分の一部分、たとえば中央セクションのみから計算することができる。これによって計算コストを低減することができ、精度を向上させることができる。

本発明の異なる実施形態では、フレーム記述子を空間的に且つ／又は時間的にサブサンプリングされたビデオから（たとえば低解像度ビデオフレーム表現から、またはフレームスキップを利用して）計算することができる。１つの実施形態では、Ｓ_a及び／又はＳ_bはＭＰＥＧ符号化され、フレームマッチングはＩフレームのＤＣ表現又はサブサンプリングされたＤＣ表現に基づいて実施される。これは、ビデオ復号が必要なく、結果として計算効率が大幅に向上することを意味する。

上述の処理動作を実施するデータ処理装置１を図７に示す。装置１は、たとえば、パーソナルデスクトップコンピュータ又はポータブルコンピュータとすることができる。

装置１は、データ処理装置の従来の要素を備える。これらの要素は当業者に既知であるため、詳細な説明は必要ない。手短に、図７の装置１は、記憶媒体５又は信号７のようなコンピュータプログラム製品から、コンピュータプログラム命令と、処理されるビデオデータとを受信する入力データインタフェース３を備える。処理システムはたとえば、ＣＰＵ９、ランダムアクセスメモリ１１、及び読出し専用メモリ１３（これらはバス１５によって接続される）によって提供される。ＣＰＵ９は動作全体を制御する。ＲＡＭ１１は、ＣＰＵ９によって、プログラムを実行するために、また、プログラム及び他のデータを記憶するＲＯＭ４を制御するために、使用される作業メモリである。装置１の処理装置は、本明細書において上述したように画像を規定する画像データを処理する方法を実施するように構成される。この処理の結果は出力インタフェース１７によって出力される。

上述の処理装置１はコンピュータプログラム命令に従って処理を実施するが、代替的な処理装置を、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの任意の適切な組合せとして、任意の適切な又は望ましい方法で実施することができる。本発明は、プログラム可能処理装置内にロードされ、該装置上で実行されると、上述の画像データ処理方法のうちの１つを実行するコンピュータプログラムとして具現化することもでき、また、コンピュータプログラム製品（たとえばこのようなコンピュータプログラムを記憶するデータキャリア）として具現化することもできることにさらに留意されたい。

Claims

画像の第１のシーケンス及び画像の第２のシーケンスを処理して、前記第１のシーケンスと前記第２のシーケンスとを比較する方法であって、
前記方法は、
（ａ）前記第１のシーケンスの各前記画像、及び前記第２のシーケンスの各前記画像について、
前記画像内の複数の画素近傍集合のそれぞれに対する前記画像データを処理することであって、前記画素近傍集合のそれぞれに対して少なくとも１つの記述子要素を生成する、前記画像データを処理すること、及び
前記記述子要素から全体画像記述子を形成すること、
（ｂ）前記第１のシーケンス内の各前記画像と、前記第２のシーケンス内の各前記画像とを、比較される前記画像のそれぞれの前記全体画像記述子間の距離を計算することによって比較すること、
（ｃ）前記距離を行列内に配列すること、並びに
（ｄ）類似画像を特定するために前記行列を処理すること、
を含む、方法。
各前記距離はハミング距離を含む、請求項１に記載の方法。
各前記全体画像記述子は２値化された記述子要素から形成される、請求項１又は２に記載の方法。
前記行列内の前記距離内の極小値を特定するために前記行列を処理すること、
特定された極小値のそれぞれを閾値と比較することであって、前記閾値は、前記行列の行又は列ごとに特定される極小値の数に従って適応的に決定される、特定された極小値のそれぞれを閾値と比較すること、及び、前記閾値を下回る極小値を維持すること、並びに
前記維持された極小値に従って類似画像を特定すること、
によって、前記行列が処理されて類似画像が特定される、請求項１〜３のいずれか１項に記載の方法。
前記行列内の前記距離内の極小値を特定するために前記行列を処理すること、
前記行列値内の局所的な谷を検出すること、
前記局所的な谷内の前記点の部分集合を維持すること、及び
前記維持された点に従って類似画像を特定すること、
によって、前記行列が処理されて類似画像が特定される、請求項１〜３のいずれか１項に記載の方法。
前記行列内の前記距離内の極小値を特定するために前記行列を処理すること、
直線上にある極小値を特定するために線セグメント探索アルゴリズムを適用すること、
特定された線セグメント間の間隙を埋めるためにヒステリシス的線セグメント接合アルゴリズムを適用すること、及び
マッチする画像を特定するために前記処理の結果を使用すること、
によって、前記行列が処理されて類似画像が特定される、請求項１〜３のいずれか１項に記載の方法。
画像の第１のシーケンス及び画像の第２のシーケンスを処理して、前記第１のシーケンスと前記第２のシーケンスとを比較する装置であって、
前記装置は画像記述子生成手段を備え、
前記画像記述子生成手段は、
前記画像内の複数の画素近傍集合のそれぞれに対する前記画像データを処理することであって、前記画素近傍集合のそれぞれに対して少なくとも１つの記述子要素を生成する、前記画像データを処理すること、及び
前記記述子要素から全体画像記述子を形成すること、
によって、前記第１のシーケンスの各前記画像、及び前記第２のシーケンスの各前記画像を処理するように構成され、
前記装置は比較手段を備え、前記比較手段は、前記第１のシーケンス内の各前記画像と、前記第２のシーケンス内の各前記画像とを、比較される前記画像のそれぞれの前記全体画像記述子間の距離を計算することによって比較するように構成され、
前記装置は、前記距離を行列内に配列するように構成される行列生成手段を備え、
前記装置は、類似画像を特定するために前記行列を処理するように構成される類似画像識別手段を備える
装置。
前記比較手段は、比較される前記画像のそれぞれの前記全体画像記述子間の距離であってハミング距離を含むものを計算するように構成される、請求項７に記載の装置。
前記画像記述子生成手段は、各前記全体画像記述子を２値化された記述子要素から形成するように構成される、請求項７又は８に記載の装置。
前記類似画像識別手段は、
前記行列内の前記距離内の極小値を特定するために前記行列を処理すること、
特定された極小値のそれぞれを閾値と比較することであって、前記閾値は、前記行列の行又は列ごとに特定される極小値の数に従って適応的に決定される、特定された極小値のそれぞれを閾値と比較すること、及び、前記閾値を下回る極小値を維持すること、並びに
前記維持された極小値に従って類似画像を特定すること、
によって、前記行列を処理して類似画像を特定するように構成される、請求項７〜９のいずれか１項に記載の方法。
前記類似画像識別手段は、
前記行列内の前記距離内の極小値を特定するために前記行列を処理すること、
前記行列値内の局所的な谷を検出すること、
前記局所的な谷内の前記点の部分集合を維持すること、及び
前記維持された点に従って類似画像を特定すること、
によって、前記行列を処理して類似画像を特定するように構成される、請求項７〜９のいずれか１項に記載の方法。
前記類似画像識別手段は、
前記行列内の前記距離内の極小値を特定するために前記行列を処理すること、
直線上にある極小値を特定するために線セグメント探索アルゴリズムを適用すること、
特定された線セグメント間の間隙を埋めるためにヒステリシス的線セグメント接合アルゴリズムを適用すること、及び
マッチする画像を特定するために前記処理の結果を使用すること、
によって、前記行列を処理して類似画像を特定するように構成される、請求項７〜９のいずれか１項に記載の方法。
プログラム可能処理装置を、請求項１〜６の少なくとも１項に記載の方法を実施するように動作可能になるようにプログラミングする、コンピュータプログラム命令を記憶する記憶媒体。
プログラム可能処理装置を、請求項１〜６の少なくとも１項に記載の方法を実施するように動作可能になるようにプログラミングする、コンピュータプログラム命令を搬送する信号。