JP5662917B2

JP5662917B2 - 二次元ビジュアルフィンガープリントを用いるプレゼンテーション及びリッチドキュメントコンテンツの混合コレクションにおける類似コンテンツの発見方法

Info

Publication number: JP5662917B2
Application number: JP2011220169A
Authority: JP
Inventors: ドロン・クレッター
Original assignee: Palo Alto Research Center Inc
Current assignee: Palo Alto Research Center Inc
Priority date: 2010-10-19
Filing date: 2011-10-04
Publication date: 2015-02-04
Anticipated expiration: 2031-10-04
Also published as: EP2444921A2; US8554021B2; JP2012090264A; EP2444921B1; EP2444921A3; US20120093354A1

Description

本出願は、二次元（２Ｄ）ビジュアルフィンガープリントを用いて、リッチドキュメントコンテンツを含む大規模な混合型ドキュメントコレクションにおけるドキュメントコンテンツを発見することに関する。

混合型オブジェクトを有するリッチコンテンツドキュメント画像ページを含むドキュメントコレクションにおいて類似コンテンツを発見するための方法及びシステム、並びにこれによりハイブリッド混合コンテンツフィンガープリントの形成が回避される方法及びシステムへの需要が高まっている。

ドキュメント画像コンテンツを検出する方法、また、コンテンツを検出するために画像のピクセルを分類し、前記画像をフィンガープリントしかつ前記画像の前記フィンガープリントを使用する方法を提供することは利点であろう。

本開示のプロセスは、ドキュメント画像コンテンツを検出する方法であって、ドキュメント画像ページを複数の画像層に分離することと、前記複数の画像層の二次元ビジュアルフィンガープリントを生成することと、前記画像層の前記形成される二次元ビジュアルフィンガープリントを層カテゴリタイプ別にタグ付けしかつ記憶することと、複数のドキュメント画像ページについて、前記ドキュメント画像ページの分離、前記二次元ビジュアルフィンガープリントの生成及び前記二次元ビジュアルフィンガープリントの記憶を反復することと、前記二次元ビジュアルフィンガープリントを用いて画像コンテンツを検出することを含む方法を含む。

また、本開示のプロセスは、コンテンツを検出するために画像のピクセルを分類し、前記画像をフィンガープリントしかつ前記画像の前記フィンガープリントを使用する方法であって、局所的画像ウィンドウを画定することと、特定のカレントピクセルにセンタリングされている前記局所的画像ウィンドウ内の画像のピクセルの画像特性を、（ｉ）色の数及び様相を決定するために、色尺度検出器によって前記局所的ウィンドウにおけるピクセルの色分布を分析することと、（ｉｉ）第２のコントラスト尺度検出器によって、前記局所的ウィンドウ内のエッジピクセルの正規化されたコントラスト及びエッジの鮮明さを分析することと、（ｉｉｉ）第３のきめ尺度検出器によって、前記局所的ウィンドウ内のピクセルの正規化されたきめのレスポンスを分析すること、によって調べることと、前記検出器から出力されるピクセルを、テキストピクセル、線画ピクセル及び写真画像ピクセルのうちの少なくとも１つとしてラベリングしかつ決定ルックアップテーブルに格納することと、前記ピクセルのコンテンツを、前記ピクセルへ貼付されるラベルに従ってテキスト画像層、線画画像層及び写真画像層のうちの１つまたはそれ以上にコピーすることと、前記テキスト画像層、前記線画画像層及び前記写真画像層の二次元ビジュアルフィンガープリントを形成することであって、前記画像層の各々の前記二次元ビジュアルフィンガープリントを形成することは他の前記画像層とは独立して達成されることと、前記出力層の前記形成された二次元ビジュアルフィンガープリントを格納することと、前記格納された二次元ビジュアルフィンガープリントを比較して、前記格納された二次元ビジュアルフィンガープリントに一致するクエリドキュメント画像ページのコンテンツを決定することを含む方法を含む。

リッチドキュメントの１ページを示す。リッチドキュメントの１ページを示す。一方法を示す。一環境を提示している。一方法である。図６Ａは三角形の比を求める方法を示す。図６Ｂは三角形の比の量子化を示す。一方法である。一方法を示す。一方法である。クエリ検索を示す。

以下、図１のドキュメント画像ページ１００等のテキスト１０２、線画１０４及び写真１０６等の混合型オブジェクトを有するリッチコンテンツドキュメント画像ページを含むドキュメントコレクションにおいて類似コンテンツを発見するための、これによりハイブリッド混合コンテンツフィンガープリントの形成が回避される方法及びシステムを開示する。リッチドキュメント画像ページは、そのページ上に２つ以上のデータタイプを有するドキュメントページである。

分類器は、テキスト、線画及び写真のオブジェクトタイプ等の特徴を、局所的画像特性に基づいて自動的に分類する。分類器は、画像コンテンツを、オブジェクトのカテゴリタイプに基づいて複数の画像層に分離する。各画像層を独立してフィンガープリントしかつ結果的に生じるビジュアルフィンガープリントをカテゴリタイプ別にタグづけすることによって、ハイブリッド混合コンテンツフィンガープリントの生成は回避される。

ビジュアルフィンガープリントの間にドキュメント画像ページコンテンツを１つの画像層へと「扁平にする」代わりに、本方法及びシステムは、各々が異なるオブジェクトカテゴリに対応する複数の画像層を生成する。例えば、図１において、３つの画像層１０８、１１０及び１１２は３つのオブジェクトカテゴリタイプ、即ちテキスト１０２、線画１０４及び写真１０６に対応している。

（別々のオブジェクトカテゴリを表す）複数の画像層の各層は、個々にフィンガープリントされる。テキスト、線画及び写真のオブジェクト情報を独立した画像層に分離することにより、結果として生じるビジュアルフィンガープリントはカテゴリタイプに忠実であり続け、異なるカテゴリタイプに渡る情報の局所的「混合」を防止する。各ビジュアルフィンガープリントは、他のカテゴリによって汚染されることなく、対応するカテゴリの純粋な局所的出現を一意に捕捉する。

レンダリングエンジンがタイプ別にページオブジェクトにアクセスできれば、これらの実施形態では、カテゴリタイプによって個々の画像ピクセル毎に完全な割当てを取得することが可能である。

この一般的事例において、カテゴリタイプへのピクセルの割当ては取得することが知られていない、または困難である場合がある。さらに、レンダリングオペレーションの間は異なるタイプのオブジェクトが互いに配合または混ざり合うことがあり、よって、結果的に得られるカテゴリを決定することは不可能である。図２のドキュメント画像ページ２００に示されているように、テキストオブジェクト２０２は写真オブジェクト２０４上に置かれて配合されることがある。

分類器は、「扁平にされた」画像を複数の画像層に分離し、かつカテゴリタイプに画像ピクセルを割り当てるために用いられる。このシステム及び方法は、内部表現のフォーマット及び詳細に関わらず、任意のドキュメントタイプに広く適用されることが可能である。

分類器は、コンテンツのタイプを特定のオブジェクトタイプ（例えば、テキスト、線画または写真コンテンツ）として識別しかつラベリングするために、「扁平にされた」画像層における局所的画像特性を分析する。オブジェクトラベルは、局所的画像特性に基づいて最も適切なものが貼付（分類）される。分類は、互いに排他的である必要はない。２つのオブジェクトカテゴリラベル（例えば、テキスト及び写真）間に重大な不確定性が存在する場合、本方法及びシステムは、双方のラベルを宣言し、テキスト及び写真のフィンガープリントを独立して計算しかつ何れかのセットを順次クエリ画像フィンガープリントとマッチングしてもよい。不確定のピクセルエリア２１０、２１２が双方の層に提示される場合には、図２の画像層２０６及び２０８にオーバーラップ状況が描かれる。これらの不確定性エリアがどのオブジェクトに分類されるべきかに関する最終的決定は、返される結果を加重することによって下される。他のタイプの混合は通常、先にレンダリングされたオブジェクトの上に部分的に透明なオブジェクトを置いて「シースルー」効果を生じさせる場合等、透明性が包含される場合に発生する。

テキスト、線画または写真コンテンツ間の区別は、各オブジェクトタイプの属性を基礎とする。テキストオブジェクトは、高いコントラスト、２色間のはっきりとしたエッジ遷移、前景（テキストカラー）及び背景（フィルカラー）によって特徴づけられる。全景または背景の何れかは、透明であってもよい。

これに対して、普通の写真画像オブジェクトは、通常、滑らかなカラーグラデーション、多様なコントラスト及びエッジ情報、並びに多様なきめによって特徴づけられる。

クリップアート、描画及び会社ロゴ等のコンピュータで生成される線画及びビジネスグラフィックスのオブジェクトは、エッジのコントラスト及び鮮明さが普通の写真画像より高いマルチモードの色分布を有する傾向がある。

図３には、入力された画像ピクセルの局所的画像特性を基礎とする分類が示されている。図示されている分類器３０２は、入力画像３００を受け入れる。入力画像をラベリングされた３つの画像層、即ち（ａ）テキスト層３６０、（ｂ）線画層３７０及び（ｃ）写真層３８０に分離するために、局所的画像ウィンドウ３１０が設けられ、入力画像３００を引き渡される。局所的画像ウィンドウのサイズは、ビジュアルフィンガープリント方法に依存して一定であっても、可変であってもよい。局所的出現を基礎とするフィンガープリントの場合は、一定のウィンドウサイズが使用される。

入力画像３００の各画像ピクセル毎に、分類器は、特定のカレント入力画像ピクセルにセンタリングされている局所的画像ウィンドウ３１０内の画像特性を調べる。ウィンドウコンテンツは、３つの独立した検出器によって並行して調べられる。

色尺度検出器３２０は、色の数及び様相を決定するために局所的ウィンドウ内のピクセルの色分布を分析する。狭く集中された２色はテキスト状の特性を示し、３つ以上のはっきりした色の集合は線画特性を示し、かつ色が滑らかに変わる領域は写真画像を示している。

コントラスト尺度検出器３３０は、局所的ウィンドウ内のエッジピクセルの正規化されたコントラスト及びエッジの鮮明さを分析する。エッジピクセルは、輝度の差が所定のしきい値を超える隣接するピクセルとして分類される。しきい値の値は、局所的ウィンドウのコンテンツから動的に計算される。高いコントラスト及び鮮明なエッジはテキスト状の特性を示し、低いピクセル間コントラストは自然な写真画像を示している。

きめ尺度検出器３４０は、局所的ウィンドウ内のピクセルの正規化されたきめのレスポンスを分析する。きめの反応は、局所的ウィンドウ内部の重複する３ｘ３窓位置において見出される特定ピークの数として規定される。但し、ピークは、任意の水平、垂直または対角方向でその直近の８つの近傍ピクセルの何れよりも指定されたしきい値だけ大きい、または小さい、３ｘ３ウィンドウにおける中心ピクセルを指す。このようなピークの数は、局所的ウィンドウにおける周波数に比例する。きめの尺度の値は、印刷で従来行われているように、シミュレートされる色の幻影を生成するために前もってディザリングされている場合もある中間調及び他のオブジェクトを、シアン、マゼンタ、イエロー及びブラック等の原色による小さい部分集合から弁別する際に有用である。

３つの検出器３２０−３４０の出力は、決定ルックアップテーブル３５０へ供給される。決定ルックアップテーブルは、検出器の出力を結合し、かつ局所的画像特性に基づいて、各画像ピクセル毎に、これらの出力をテキスト、線画及び／または写真画像として分類する概して１つの、かつ時には２つ以上の区別的な出力ラベルを生成するように構成される。ルックアップテーブルは、内的には、その各々が（ａ）テキスト層３６０、（ｂ）線画層３７０及び（ｃ）写真層３８０等の出力層の１つに対する特定の画像ピクセルの割当てを制御する３つの独立したテーブルとして構成される。３つのルックアップテーブルの各々について、色尺度３２０、コントラスト尺度３３０及びきめ尺度３４０の様々な検出器出力値に基づいて別々のアドレスが計算される。ピーク二色分布と結合された場合の高いコントラスト値は、テキストコンテンツの存在を示す可能性が高い。対応するテキスト層のテーブルコンテンツは、コントラスト値が所定のしきい値及び２色の周囲の色尺度出力ピークを超えると入力ピクセルをテキスト層出力へ送るようにプログラムされる。様々な検出器出力が互いに連結されてテーブルへのアドレスが形成され、かつ特定の公式及びしきい値が前もって個々のルックアップテーブルコンテンツへとプログラムされる。決定ルックアップテーブル３５０の出力は、互いに排他的なラベルを有するように限定されても、されなくてもよい。

最後に、調査されているピクセル（例えば、中央のウィンドウピクセル）のコンテンツは、分類器の決定ルックアップテーブル３５０により出力されるラベルに従って画像層、即ちテキスト層３６０、線画層３７０及び／または写真層３８０のうちの１つまたはそれ以上へコピーされる。

画像層３６０−３８０は、局所的画像ウィンドウ３１０を入力画像面積全体をカバーするように入力画像３００内で左から右へ、かつ上から下へスライドしかつ各ウィンドウ位置で上述のプロセスを反復することによって形成される。各画像層は独立してフィンガープリントされ、結果的に得られるビジュアルフィンガープリントはその層のカテゴリレベルに対応してタグ付けされる。次に、フィンガープリントは記憶されてインデックスを付けられる。インデックス付けの間、異なるタイプのフィンガープリント（例えば、テキストとラベリングされるフィンガープリント、線画とラベリングされるフィンガープリント及び写真とラベリングされるフィンガープリント）は独立してハッシュされ、高速かつ効率的なフィンガープリントルックアップ用に編成される。上述のプロセスはドキュメントコレクションの複数の入力ドキュメント画像について反復され、よって、テキストフィンガープリント、線画フィンガープリント及び写真フィンガープリントとして分類されるフィンガープリントのデータベースが格納される。

ドキュメントコンテンツの検索またはマッチングの間、分類器３００へクエリドキュメント画像ページが提供され、かつドキュメント画像ページの入力画像と同様にして処理される。クエリドキュメント画像ページは、カテゴリタイプ別に複数の画像層に分離され、各層は先に概説した方法と同じ方法でフィンガープリントされる。結果的に得られるクエリ画像フィンガープリントはカテゴリタイプ別にルックアップされ、ドキュメント画像ページのコレクションの一部として格納されている対応するフィンガープリントと比較される。結果として得られるマッチングするドキュメントのリストは合体され、加重された信頼度及び／またはページ類似レベルに基づいて単一のリストが形成される。コレクション内の最良一致ドキュメントは、次には、全カテゴリタイプ（例えば、テキスト、線画、写真画像）に渡って最大の全体加重フィンガープリント信頼度及び／またはページ類似レベルを有するドキュメントとなる。

各カテゴリ（例えば、テキスト、線画または写真画像）の重みは、全体マッチングにおける特定のオブジェクトカテゴリの相対的重要さを高める、または下げるように調整されてもよい。

異なるタイプのクエリフィンガープリントは、そのコレクションにおける同じタイプのフィンガープリントとのみ比較される。

本明細書に記述されているシステム及び方法は、図４に示されているようなネットワークを含む、但しこれに限定されない様々な環境内で動作してもよい。ネットワーク４００は一連のワイヤ４０２等の接続部で構成され、ワイヤ４０２はワイヤ接合部４０４で第３のワイヤ４０６と分岐し、スタンドアロン型周辺デバイスに接続してもよく、または周辺機器を通過してコンピュータ４０８、４０９等の他のデバイスへ接続してもよい。ネットワークは、カラープリンタ４１０、カラー以外のプリンタ４１２、カラーレーザプリンタ４２０、４２２またはカラーレーザ以外の１つのプリンタ４２４を組み込んでもよい。またネットワークは、スキャナ４３０、ファックス機４４０、写真複写機４５０、カラー写真複写機４５２、カラープリンタ／スキャナ／ファックスの複合機４５４も組み込んでもよい。またネットワークは、コンピュータ端末４６０またはスタンドアロン型ハードドライブデータ記憶媒体４６４も含んでもよい。またネットワークは、無線ネットワーク送受信機４７０及びラップトップコンピュータ４７２または複数のラップトップコンピュータ４７４とのインタフェースも含んでもよい。ネットワークは、インターネット、イントラネットまたは他の通信ネットワークを含む、但しこれらに限定されない任意の形式のネットワーク４８０と相互接続してもよい。本システム及び方法は、デジタル静止画カメラ４９１、デジタルビデオカメラ４９２、携帯電話４９３、スキャナ４９４、パーソナルデータアシスタント４９５またはドキュメントインデクシングシステム４９６を含む複数の周辺データ捕捉デバイス４９０とインタフェースしてもよい。本概念は、単一デバイスを有するネットワークから何千もの、またはそれ以上の接続デバイスを含むネットワークに至る、上述のコンポーネントの様々な組合せを有するネットワークにおいて実装されてもよい。さらに、上述のコンポーネントのうちの様々なものは、後述の概念の実装に有用であり得る幾つかの既知の構成のうちの何れにも配置されるメモリ記憶領域を有してもよい。記憶領域は、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ウェブサービス、クラウド記憶ファシリティまたは本出願の概念を組み込むソフトウェアを保持できる他のメモリタイプであってもよい。コンピュータ等、但しこれに限定されない図４のコンポーネントのうちの様々なものは、コンピュータ上にロードされたソフトウェア、またはその他コンポーネントによってアクセス可能なソフトウェアからの命令を処理するためのプロセッサを含む。プロセッサを有するコンポーネントのうちの様々なものは２つ以上のプロセッサを有してもよく、よって命令の処理が複数のプロセッサ間で分割され得ることは理解されるべきである。或いは、単一のプロセッサは命令を分けるように動作することができ、よって処理はマルチスレッド環境において発生することが可能である。コンピュータは上述のもの以外の演算デバイスであってもよく、電子／デジタルプロセッサ並びに、または代替的にグラフィカル電子／デジタルプロセッサ（ＧＰＵ）を含む。
ａ．１ドキュメントキーポイントの検出

キーポイント識別の目的は、キーポイントを発見することにある。

図５には、フィンガープリントされるべきターゲット画像５１０のドキュメントキーポイント位置を検出する一プロセス５００が示されている。適応しきい値画像処理、ブラーリング及び接続コンポーネントコレクションによる画像処理は文献において周知である。

第１の適応しきい値モジュール５２０のバイナリ出力画像５２５は、ＣＣサイズ推定モジュール５３０へ送信される。ＣＣは接続されるコンポーネントの略語であって、同じ極性を有するバイナリピクセルの最大限に接続されたサブグループである。２つのピクセルは、両者間に同じ極性のピクセル経路が存在する場合に限り、同じ接続コンポーネント内に存在する。ＣＣサイズ推定モジュール５３０の目的は、ターゲット画像５１０について一画像毎に、放射状ブラーモジュール５４０において適用されるべきブラーパラメータ５３５またはブラーフィルタサイズを動的に推定することにある。ブラーリングプロセスは、ロバストで信頼的かつ反復可能なキーポイント識別を提供し、ノイズを除去しかつページ上の小さい隔絶された特徴を排除する。例えば近似ガウス形状である、但しこれに限定されないブラーフィルタの形状は、望ましくないアーチファクトの導入を防止するに足る滑らかなものであるべきである。

放射状ブラーモジュール５４０の出力は、グレースケール画像５４５である。適応しきい値モジュール５５０は、グレースケール放射状ブラー５４０の画像出力５４５を適応しきい値処理５５０によってバイナリ白黒出力５５５に変換する。

第２の適応しきい値モジュール５５０のバイナリ出力はバイナリ画像５５５であり、接続コンポーネントモジュール５６０へ転送される。

重心計算モジュール５７０は、接続コンポーネントモジュール５６０の出力における各接続コンポーネントの視覚的中心を決定する。接続コンポーネントの各々について、その水平重心位置が、接続コンポーネントの各帰属ピクセルの水平座標を合計しかつその結果を帰属ピクセル総数で除算することによって計算される。垂直重心位置も同様に、各帰属ピクセルの垂直座標を合計して帰属ピクセル数で除算することによって計算される。合計は、接続コンポーネントの分析中にオンザフライで効果的に実行されることが可能である。所定の接続コンポーネントのピクセルメンバのみが、その重心位置に寄与し、他の任意の非帰属ピクセルの「ホール」は無視される。各接続コンポーネントの視覚的重心はサブピクセル精度で計算されるが、これは、多くの言語において、接続コンポーネントはテキストラインに定置される傾向があるためである。

重心計算モジュール５７０からの接続コンポーネント重心位置のリスト５７５は複製除去モジュール５８０によって認証され、複製除去モジュール５８０はキーポイントのリスト５８５を生成する。認証の目的は、２つの接続コンポーネントが所定の許容差レベル内に同じ重心位置を持たないことの保証にある。ほぼ同じ重心位置を有する複製接続コンポーネントは除去される。

複製除去モジュール５８０の出力における残りの接続コンポーネント重心のリストは、最終的なクエリキーポイント候補リスト５９５となる。キーポイント候補５９０の全体数は、入力画像のコンテンツ及び接続コンポーネントの処理タイプに依存する。
ａ．２フィンガープリントの構築

この項目では、局所的なキーポイントグループからフィンガープリントを計算しかつこれらのフィンガープリントを効率的に格納するためにフィンガープリントルックアップインデックスまたはデータベースに圧縮するプロセスについて説明する。フィンガープリントは、フィンガープリントのルックアップインデックスまたはデータベースのサイズを縮小しかつ格納要件を低減するために圧縮される。

我々は、入力画像において、広範なノイズ、視覚条件及び画像歪においても安定しているロバストな２Ｄビジュアルフィンガープリントを識別することを目指している。フィンガープリントのサイズは、システムが超大型のドキュメントコレクションサイズを処理すべく効率的にスケールアップできるように最小化されることが可能である。

フィンガープリントは、所定のキーポイントとその最近の（Ｎ−１）個の近傍キーポイントとの相対的２Ｄ位置から導出される、持続的比率と呼ばれる量子化された変換−不変２Ｄ比のシーケンスとして構築される。従って、各フィンガープリントは、特定のキーポイント辺りの小さい画像近傍へ局在化される。フィンガープリントシーケンスは、特定のキーポイントとその最近の（Ｎ−１）個の近傍キーポイントとの間の相対的な２Ｄジオメトリにのみ依存する。近傍キーポイントの数Ｎは、フィンガープリントの強度に影響する設計パラメータである。

本出願は、フィンガープリントをスキュー、捻れ、回転、平行移動、スケール、解像度の変化及びこれらに類似するもの等の画像歪に対してロバストにする。

図６Ａに示されているように、オブジェクト表面上で三角形ＡＢＣ６５０及び第２の三角形ＡＣＤ６６０を構成する同一直線上にない４つの点｛Ａ，Ｂ，Ｃ，Ｄ｝（即ち、６１０，６２０，６３０，６４０）から成る任意の所定の多角形６００の場合、三角形の面積比（ＡＢＣ／ＡＣＤ）６７０が任意のアフィン変換下で一定のままであることは技術上周知である。故に、三角形の比６７０として示されている１つの三角形の面積比の計算に必要な点は、Ｐ＝４個のみである。このアフィン変換は、多くの実際的状況におけるカメラ対平坦オブジェクトのジオメトリを説明するための容認できるモデルを提供するために示されている。

この変換は、２つの三角形比の積である１つの持続的比率を計算するために、（４ではなく）Ｐ＝５点を用いて透視変換を処理するように拡張されることが可能である。

従って、単一のフィンガープリントは、時計回り順にソートされた最近のＮ個の近傍キーポイントによるグループに関する量子化された持続的変換比率のシーケンスで構成される。フィンガープリントのサイズを小さく保つために、変換率はＱレベル６８０に量子化される。Ｑの値は、便宜的に、２進法の２のべき乗であるように選択されることが可能である。図６Ｂには、Ｑ＝８の場合の量子化プロセスが図６Ａの三角形の比６８０の量子化として示されている。量子化前の三角形の比の有効範囲（０，∞）は、図６Ｂ（６９０）に示されているように、「０」から「７」まででラベリングされたＱ＝８個の区間に分けられる。区間の境界は、代表的ドキュメントの大集合に渡って量子化ラベルの略均一な分布をもたらすように経験的に決定される。到来する三角形比の値６８０は、増大する区間境界と順次比較されて第１の高次または等しい区間境界が決定され、この時点でプロセスは終了し、対応するラベル区間が量子化された結果として割り当てられる。例えば、１．０より低くかつ先行する区間境界より高い到来する三角形の比０．８２５３６９４には、量子化された値「３」が割り当てられる。

最近近傍法の使用における潜在的問題は、透視変換下では近いことが必ずしも持続されない点にある。任意のアフィン変換または透視変換下では、所定のキーポイントの最近のＮ個の近傍キーポイントが正確に同じＮ個のキーポイントであり続けるという保証はない。それでも、最も近いキーポイントは、もっと遠いキーポイントよりも最近のＮ個の近傍キーポイントのリスト内に留まる傾向が強い。

上述の問題を克服するために、本出願は、アフィン変換または透視変換に対するフィンガープリントのロバスト性をさらに高めるべく近傍キーポイントのうちの１つまたはそれ以上が不在であることを許容する。１つのキーポイントは、局在化された小さい近傍においてアフィン歪が限定的であることを考慮して、除外されることが許容される。従って、所定の各キーポイントは、一度に１つのキーポイントを除外することによって幾つかのフィンガープリントＮを生み出す。各フィンガープリントは、残りのキーポイント数、Ｎ−１個を放射状の方位順で体系的に歩き、かつＰ個の点の組合せとして可能な全てのもの（アフィン変換のＰ＝４、透視変換のＰ＝５）について量子化された持続的比率のシーケンスを記録することによって生成される。

図７には、フィンガープリントのプロセス７００が示されている。フィンガープリントプロセス７００への入力は、入力画像７０５に関するキーポイント候補７１０のリストである。図７におけるフィンガープリントの第１の処理ステップは、キーポイント三角形分割モジュール７２０である。ドロネーまたはキーポイント三角形分割７２０は、局所的近傍において所定の各キーポイントに最も近いキーポイントを識別するために使用される。三角形分割のリンクに従えば、所定の任意キーポイントに最も近い（Ｎ−１）個の近傍キーポイントを効果的に決定することができる。

各キーポイント候補及びその最も近い（Ｎ−１）個の近傍キーポイントは、フィンガープリント候補として考慮される。現行のキーポイント候補Ｋｐは各々、入力リスト７１０から次のキーポイント取得モジュール７３０によって順次選択される。各キーポイントＫｐについて、最近近傍キーポイント発見モジュール７４０は、所定のキーポイントＫｐへの距離が最も近い（Ｎ−１）個の最近キーポイントを識別する。但し、Ｎは所定の変数である。最近近傍キーポイント発見モジュールは、ドロネーまたはキーポイント三角形分割結果７２０を用いて、Ｋｐからの距離の増大順にソートされたＫｐへの最近キーポイントのリストを返す。返されるリストの最初のエレメントは、常に現行キーポイントＫｐ（距離ゼロ）である。変数Ｎの値は、１フィンガープリント当たりの演算数として定量化されるフィンガープリントの「強度」または識別力、即ち全体的なシステムパフォーマンスと、結果的に生じるデータベースのサイズまたはフィンガープリントサイズとの間に妥当な得失評価をもたらすように調整される。本例では、値Ｎ＝８、１２または１６が使用される。

最近近傍キーポイント発見モジュール７４０の点は、面積比のシーケンスがデータベース画像とクエリ画像との間で同じキーポイント／近傍に対して一貫性があるように、一貫した順序で取り入れられる必要がある。時計回り順ソートモジュール７５０は、所定のキーポイントに最も近いＮ個の近傍キーポイントのリストを時計回り方位の増大順にソートする。

時計回り順ソートモジュール７５０は、ほぼ同一直線上にあるキーポイントの一般的事例に対してキーポイントの順序づけを安定させるための方法及びシステムを含む。時計回り順ソートモジュール７５０は、リスト上の（所定のキーポイントに最も近い）最初のＭ個の最近近傍キーポイントを用いてサブグループの原点中心を計算する。但し、Ｍ＜Ｎである。最も遠い（Ｎ−Ｍ）個のキーポイントは、アフィンまたは透視変換下では原点が安定したままであることを保証するために、サブグループの原点中心の計算には使用されない。時計回り順ソートモジュール７５０は、キーポイントの順序づけを決定するために、合計Ｎ＝８の場合はＭ＝５個の最近近傍キーポイントの平均位置を原点中心として使用する。

現行の近傍キーポイントクラスタの原点中心を決定した後、時計回り順ソートモジュール７５０は、キーポイントを時計回り方位の増大順にソートすることに進む。ソートは、方位及び距離の双方に基づいて行われる。順序は、時計回り方位の増大順である。しかしながら、２つ以上の点がほぼ同じ方位を有していて、その差が予め規定された許容差レベル内であれば、これらの点は略類似方位の全ての点について距離の増大順にさらに順序づけされる。

Ｎ個のキーポイントによる一意の部分集合の各々について、次のサブグループ組合せモジュール７６０は、アフィン変換または透視変換の場合に依存して、次のサブグループの組合せであるＰ＝４またはＰ＝５個のキーポイントを体系的かつ系統的に選択する。例えば、Ｎ＝８の場合、Ｐ＝４のキーポイントサブグループには一意の組合せが７０存在する。

Ｐ＝４個のキーポイントの次のサブグループの組合せの各々について、圧縮された量子化比率モジュール７７０は単一の持続的比率を計算し、かつ予め規定された区間境界しきい値の集合を用いてこれを量子化する。量子化レベルの数Ｑは、設計パラメータである。これらの例では、Ｑ＝８、またはＱ＝１６が使用されている。量子化しきい値は、特定タイプのドキュメントの大型コレクションにおける持続的比率の分布を調査することによって経験的に決定される。

フィンガープリントデータベース７８５のサイズをさらに縮小するために、圧縮量子化比率モジュール７７０は、結果的に生じる幾つかの量子化された持続的比率を１つの機械語に圧縮する。例えば、Ｎ＝８、Ｐ＝４及びＱ＝８の場合、７０のサブグループ組合せの全体的なフィンガープリントシーケンスは３つ以下の６４ビットワードに密に圧縮されることが可能である。圧縮されたフィンガープリントのサイズは、合計３つの６４ビットワード及び３つの８ビットバイトを占有し、複数のワードまたはバイトに渡って部分的情報を分割する必要はない。

フィンガープリントを計算して圧縮するプロセスは、一度に１つの持続的比率で、最終組合せモジュール７８０によって最後の組合せが検出されるまで順次継続する。現行のＰサブグループ組合せがまだ最後の組合せ７８１でなければ、最終組合せモジュール７８０は、次のＰサブグループを取得しかつその量子化された持続的比率の計算及びその圧縮へと進むためにこの流れを次のサブグループ組合せモジュール７６０へとルーティングして戻す。このプロセスは、７８２において最後のＰサブグループ組合せが処理されるまで続く。最後のＰサブグループ組合せが処理された時点で、結果的に得られる圧縮されたフィンガープリントデータ７８３はフィンガープリントデータベース７８５へ書き込まれる。フィンガープリントデータは、圧縮された各フィンガープリントデータが利用可能になるにつれて、フィンガープリントデータベース７８５へ一度に１つのフィンガープリントについて順次書き込まれることが可能である。

フィンガープリントを書き込むプロセスは、残りの全てのキーポイントについて、最終キーポイントモジュール７９０によって最後のキーポイントが検出されるまで順次継続する。現行のキーポイント組合せがまだ最後のキーポイント７９１でなければ、最終キーポイントモジュール７９０は、次のキーポイントを取得しかつプロセスを反復してその圧縮されたフィンガープリントの計算及びフィンガープリントデータベース７８５へのその追加へと進むためにこの流れを次のキーポイント取得モジュール７３０へとルーティングして戻す。フィンガープリントプロセス。最後のキーポイントがアドレス指定されていれば、７９５においてプロセスは終了する。

図８Ａ−図８Ｂには、フィンガープリントの原点中心の計算が示されている。図８Ａは、所定の画像例８００に関するプロセスを示す。処理画像は、キーポイントまたはワードの重心が円８０１−８０２によって識別されて示されている。図中の他の円も、やはりワードの重心である。例えば、数字（１−７）もまた、点Ｘに近い近傍キーポイントであるワードの重心を表している。図８Ｂは、明瞭さを高めるために背景の処理画像を除去しているが、他は図８Ａと同じである。この例では、局所的近傍における７つの追加キーポイント（１−７）を用いてキーポイントＸのフィンガープリントが計算される。第１のステップにおいて、このフィンガープリントの原点中心はキーポイントＸに最も近いＭ＝５個のキーポイントを用いて、即ち点｛Ｘ，１，２，３及び５｝の平均位置を用いて計算される。これは、原点中心を点Ｘから離れて、かつキーポイントＸを含むテキストラインＹに沿ってキーポイントの同一直線上にあるラインから離れて、点０への矢印線８２０に従って新たな原点中心へと移動させるものと思われる。７個（１−７）のうちで最も遠い３つのキーポイント（４，６，７）は、任意のアフィンまたは透視変換によって点３つまではシフトされるものと見込むことによって点０の位置を安定させるために、原点中心の計算には使用されない。第２のステップでは、８個のキーポイント（Ｘ及び１−７）の全体集合が、新たに計算されたサブグループの原点中心（０）に対して時計回り順８１０にソートされ、この場合は結果的に、（１，Ｘ，２，３，４，５，６，７）という最終的な出力シーケンス順序が得られる。キーポイントのこの順序づけに注目すれば、上述の順序づけが基準点に依存することは理解されるべきである。基準点として「０」が使用されれば、１は「０」からの点線より上にあることから、結果的なシーケンスは２３４Ｘ５６７１となっていたであろう。本明細書における代替方法は、Ｘを基準として使用し続けるがキーポイントの質量は「０」へ移動されるものと見せかけることであり、これにより先に述べたシーケンスがもたらされる。先では、基準として原初のキーポイント位置を保つ一方で、点「０」はＸの回りを移動してキーポイントシーケンス順をひっくり返させ得ることから、後者が使用されていた。しかしながらこれは、どちらの場合も達成される必要があるものはターゲット画像及びクエリ画像の双方で同じシーケンスを反復できることであるという理由により、どちらの方法で行うことも可能である。第２のステップの目的は、距離ではなく時計回り順にソートすることである点に留意されたい。

所定のキーポイントについて最近のＮ個の近傍キーポイントの順序づけが確立されると、フィンガープリントを生成することができる。フィンガープリントは、近傍におけるキーポイントによるサイズＰ＝４の連続する部分集合から、一度に１つまたはそれ以上のキーポイントを除外しかつ除外されないキーポイントで残りのサブグループ組合せのシーケンスを構築することによって形成される。従って、サブグループ組合せの圧縮されたシーケンスからフィンガープリントのグループを効果的に構築することができる。Ｎ個のキーポイントによるＰ個の部分集合は、体系的かつ一貫した方式で考察される。その各々について、本明細書で記述しているように、そのＰ部分集合の持続的面積比を計算しかつその面積比を整数にマッピングすることによって整数が決定される。所定のキーポイントのフィンガープリントの長さは、このようなＰ個の部分集合の合計数である。これは、Ｎ個のキーポイントから一意のＰ個のキーポイントを選択するための組合せの数によって決定される。例えば、Ｎ＝８及びＰ＝４であれば、サブグループ組合せとして可能性のある数は７０個の持続的比率である。このうち、各々長さが３５サブグループ組合せである８個のフィンガープリントは、例えば一度に１つのキーポイントを除外することによって構築されることが可能である。
ａ．３高速マッチングのためのフィンガープリント情報の作成

図７に示されているように、フィンガープリントデータベース７８５内のフィンガープリントは、メモリサイズ及びロード時間を縮小するために圧縮フォーマットで記憶される。従って、効率的なフィンガープリントマッチングを促進するために、これらは解凍され、かつ図９のフロー９００により示されるようにファン木データ構造に従って一意の方法で編成し直される。フィンガープリントデータベースは、最初の画像クエリ時に一度だけ作成すればよいことに留意されたい。（未解凍のフィンガープリントシーケンスを含む）ファン木データ構造はメモリに保持され、かつ続いて任意数の画像クエリにより再使用されることが可能である。

圧縮されたフィンガープリントデータベース７８５（図９の９１０としても示されている）の作成方法は、図７で記述した。次に図９では、フィンガープリント情報を迅速に検索できるように、フィンガープリントデータベースからファン木を構築する方法について説明する。フィンガープリントデータベースのエントリが各々、複数のフィンガープリント候補を発生させることは留意される。

本プロセスにおいて、キーポイント除外モジュール９２０は、フィンガープリントキーポイント９３０のうちの１つまたはそれ以上を除外することによって複数のフィンガープリントキーポイント組合せ候補を選択する。これは、局所的近傍キーポイント間の１つまたは複数の不在キーポイントを見込んでいる。本実装において、キーポイント除外モジュールは１つのキーポイントを除外する。局所的近傍がＮ個のキーポイントである場合、各キーポイント毎に１つのデータベースエントリが行われることから、これは、各データベースエントリ毎にＮ個のフィンガープリント、または１つのキーポイント当たりＮ個のフィンガープリントを発生させる。

フィンガープリントシーケンスモジュール９５０は、各キーポイント毎にＮ個のフィンガープリント候補のシーケンスを生成する。例えば、Ｎ＝８のとき、キーポイント除外モジュール９２０は、第１のキーポイントを除外して残りの７個のキーポイントを選択することにより第１のフィンガープリントを生成させる。この後、キーポイント除外モジュールは第２のキーポイントを除外して第１のキーポイント及び最後の６個のキーポイントを選択し、第２のフィンガープリントを生成する。このプロセスは、除外されるキーポイント全ての組み合わせが実行されるまで続く。この例では、各データベースエントリは８個のフィンガープリント候補を生成し、各々が７個から４個を選ぶ３５通りの長さを有する。

Ｎ＝８及びＰ＝４のとき、４個のキーポイントによるサブグループの一意の組合せは（８個から４個を選ぶ）＝７０通りある。これが、キーポイント毎の圧縮フォーマットでデータベース９１０に格納される。

次に、１つのキーポイントが不在である場合のフィンガープリントが生成される。しかしながら、どのキーポイントがなくなるかは事前に分からないため、全ての可能性についての準備が行われる。Ｎ＝８の場合、１つのキーポイントが不在となる可能性は８通り、即ち第１のキーポイント、または第２のキーポイント、または第３のキーポイント、他と、合計８つの場合がある。これらの事例の各々について、異なるフィンガープリントが計算される。この場合の各フィンガープリントは、（原初の８個のうちの１つが不在であるために）７個のキーポイントのみを基礎とする。従って、この場合、各フィンガープリントの長さは（７個から４個を選ぶ）＝３５であり、それが合計８個存在する。これは、各フィンガープリントが０−７の範囲の３５個の整数（量子化比率）のシーケンスから成ることを意味する。８個のフィンガープリントは、ファン木データへ追加される。

クエリ時には、８個のキーポイント（現行の１つ及び最近の７個）が生成され、かつ同じ方法を使用しかつ同様に一度に１つのキーポイントを除外して再度８個のクエリフィンガープリントが計算される。次に、キーポイントとファン木のコンテンツとのマッチングが試行される。マッチングは、最初にマッチングが達成された時点で停止される。クエリ画像から１つのキーポイントが欠けていれば（どのキーポイントであるかは問題ではない）、８個のうちの１つのクエリフィンガープリントは必ず（他の７個が存在する状態で１つとの）マッチングを有する。どのキーポイントも欠けていなければ（８個全てが存在する）、最初の肯定的マッチの後にプロセスが停止してチェックを続ける必要がない場合を除いて、（７の任意のグループはマッチすることから）８個のマッチが存在することになる。しかしながら、同時に２つ以上のキーポイントが欠けていれば、この位置についてはマッチが存在しない。所望されれば、本システムは、より多くの不在キーポイント（例えば、８個のうちの２個、他）を許容するように方法を拡張することによって、より多くの不在キーポイントを容易に処理することも可能である。

フィンガープリントシーケンスモジュール９５０から出力されるフィンガープリントデータ９６０は、現行画像のデータベースから検索される一意の画像ＩＤ９４０と共にフィンガープリントレコード９８０を形成する。フィンガープリントレコード９８０は、ファン木アドレス指定モジュール９７０によってアドレス指定される対応するファン木葉ノード位置に格納される。ファン木葉ノード情報は、対応するフィンガープリントデータ構造９９０内にフィンガープリントレコード９８０の連結リストとして格納される。ポピュレートは、実数のフィンガープリントに対応する実際のファン木葉ノードのみに行われる。特定の葉ノードに到達する第１のフィンガープリントは、その葉ノードを最初にポピュレートする。同じ葉ノードにおいて期せずして（即ち、同じファン木経路を辿って）再度２つ以上のフィンガープリントが到着すれば、新しいフィンガープリント情報は、新しいフィンガープリント情報をその葉ノード上の先行する最後のフィンガープリント情報と連結することによって、その同じ葉ノードへ追加される。

クエリオペレーションでは、ドキュメントコレクションにおけるページ画像を作成するために使用される上述のプロセスのうちの様々なものが、幾分かの修正を加えて同様に使用可能であることは理解されるべきである。例えば、図５のキーポイント候補識別プロセスは、例えば画像強調を包含するように修正されて、クエリキーポイント候補の識別に同様に使用されることが可能である。さらに、とりわけノーズガード等の結果精度を高めるための追加的な処理オペレーションも利用可能である。

さらに、上記ではキーポイントがそこから生成されかつドキュメントクエリが実行されるオブジェクト（例えば、とりわけテキスト、線画、写真）を分類するためのシステム及び方法について記述しているが、Ｋｌｅｔｔｅｒ、Ｓａｕｎｄ、Ｊａｎｓｓｅｎ、Ａｔｋｉｎｓｏｎらの「局在化された二次元ビジュアルフィンガープリントを用いてドキュメントコレクションにおいて文書画像を発見する方法とシステム」と題する米国特許出願第１２／１４７，６２４（２００８０１６６−ＵＳ−ＮＰ）号に記された方法及びシステムに従って、一実施形態において、ドキュメントのフィンガープリントを発見しかつクエリ検索を実行するための代替処理が本出願の概念に従って使用され得ることは理解されるべきである。

例えば、Ｋｌｅｔｔｅｒによる「局在化された二次元ビジュアルフィンガープリントを用いて画像コレクションにおいてピクチャ画像を発見する方法」と題する米国特許出願第１２／１６３，１８６（２００８０３０３−ＵＳ−ＮＰ）号は、写真オブジェクトを有するドキュメント画像の改良されたフィンガープリントを提供することができかつとりわけ本出願の分類概念を採用し得るシステム及び方法について記述している。

具体的には、上記出願は、キーポイント三角形分割（図７の７２０）の代わりにアンカキーポイントを使用している。アンカキーポイント識別モジュールが、入力画像において発見されるキーポイント候補の中からキーポイントの強度、スケール、位置及び／または他のキーポイントへの近接性等の様々な基準に基づいて適切なアンカキーポイントの部分集合を選択すれば、次のキーポイント（図７の７３０）を取得した後に、プロセスは、最近の近傍キーポイント（図７の７４０）を発見するより前に最近のアンカポイントを発見する。別の差異は、時計回り順プロセスでのソートにおいて、時計回り順ソートモジュール（例えば、図７の７５０）は、ターゲット画像とクエリ画像との間に量子化面積比の一貫したシーケンスを提供するために、所定のキーポイントのＮ−１個の最近のアンカキーポイント及び非アンカキーポイントのリストを時計回り方位の増大順にソートすることにある。各フィンガープリントについて、時計回り順ソートモジュールは、現行キーポイント及び最も近いＮａ個のアンカキーポイントを用いてサブグループの原点中心を計算する。非アンカキーポイントは、非アンカキーポイントが幾つか余分に存在する、または幾つか欠ける場合でも原点が安定したままであることを保証するために、サブグループの原点中心の計算には使用されない。

異なるオブジェクトを別個の画像層に分類しかつ分離することにより、次には、そのオブジェクトクラスをフィンガープリントするプロセスのために、特定のオブジェクトタイプにさらに適する特有のフィンガープリント技術が使用される。例えば、写真オブジェクト（即ちピクチャ）を決定するように設計されるフィンガープリントプロセスが写真層におけるマテリアルをフィンガープリントするために使用可能であり、一方で別個のフィンガープリントプロセスがテキスト層におけるオブジェクトのためのフィンガープリントを生成するために使用される。この能力は、フィンガープリントプロセスの精度を高め、さらには図１０に示されているもの等のドキュメント検索及びマッチングプロセスの精度を高める。図１０のプロセスは、上述の教示に従って分類されたフィンガープリントを使用しているものと理解される。

クエリ時には、図１０は、特定のクエリ画像１０１０に対するリアルタイム画像クエリ１０００を、特定のクエリ画像１０１０においてキーポイント位置１０２０を識別してクエリキーポイントの局所的グループからクエリキーポイント毎にフィンガープリント情報１０３０を計算し、既存のファン木フィンガープリントデータ１０８０におけるクエリフィンガープリント１０４０をルックアップしかつマッチングしてコレクションにおける最良一致のドキュメントまたはドキュメント集合を決定することによって実行することを示している。各クエリフィンガープリントはファン木のアドレス１０５０を計算するために使用され、ファン木のアドレス１０５０は、原初のドキュメントコレクションフィンガープリントレコード１０８５の部分集合を含む特定のファン木葉ノードリストをもたらす。部分集合リストからの原初の各フィンガープリントは、次に、フィンガープリントマッチング１０６０のために現行クエリと順次比較される。クエリフィンガープリントが検索されたフィンガープリントレコードのうちの１つとマッチングする度に、そのドキュメントのマッチングするフィンガープリントの数の計数が増分される。さらに、フィンガープリントの強度及びそれがターゲットフィンガープリントとどの程度一意に相関するかに基づいて、各フィンガープリントマッチにスコアが割り当てられる。最後に、フィンガープリントスコア分析モジュール１０９０は、各ドキュメントについて結果的に得られる蓄積されたスコアのリスト及びマッチングするフィンガープリント１０７０の計数を調べ、そのコレクション内でクエリ画像１０１０に最も良く一致する最良一致ドキュメントまたはドキュメント集合１０９５を決定する。マッチングするドキュメント毎の全体スコアは、フィンガープリントマッチの数とその相対スコアを結合することによって計算される。アプリケーションに依存して、フィンガープリントスコア分析モジュール１０９０は、全体スコアが最も高い１つのドキュメントを選択する場合もあれば、所定の値より高い全体スコアを有する全てのドキュメントを選択する場合もある。マッチングするドキュメント集合は、次に、図４のコンポーネントのうちの１つによって検索されて印刷され、電子送信され、表示されかつ／または記憶されることが可能である。

Claims

ドキュメント画像コンテンツを検出する方法であって、
ドキュメント画像ページを、各々異なるカテゴリに対応する複数の画像層であって、各画像層が他の画像層とは異なる特徴を有する前記複数の画像層に分離することと、
前記複数の画像層の二次元ビジュアルフィンガープリントであって、前記二次元ビジュアルフィンガープリントのテクニクスが、対応する異なる前記複数の画像層の各々のために用いられる前記二次元ビジュアルフィンガープリントを生成することと、
前記画像層の前記生成される二次元ビジュアルフィンガープリントを層カテゴリタイプ別にラベル付けしかつ記憶することと、
複数のドキュメント画像ページについて、前記ドキュメント画像ページの分離、前記二次元ビジュアルフィンガープリントの生成及び前記二次元ビジュアルフィンガープリントのラベル付け及び記憶を反復することと、
前記ラベル付けされた二次元ビジュアルフィンガープリントを用いて、クエリドキュメント画像ページと前記複数のドキュメント画像ページとの間の画像コンテンツを検出することと、
を含み、
前記方法は、少なくとも１つ電子プロセッサの利用によって行われる
方法。
前記画像コンテンツを検出することは、
前記クエリドキュメント画像ページを複数のクエリ画像層であって、各クリエ画像層が他のクリエ画像層とは異なる特徴を有する前記複数のクエリ画像層に分離することと、
前記複数のクエリ画像層の二次元ビジュアルフィンガープリントであって、異なる二次元ビジュアルフィンガープリントのテクニクスが異なる複数のクリエ画像層の各々のために用いられる前記二次元ビジュアルフィンガープリントを生成することと、
層カテゴリタイプ毎に、前記複数のクエリ画像層の前記二次元ビジュアルフィンガープリントを前記複数の画像層の前記二次元ビジュアルフィンガープリントと比較することと、
前記複数のドキュメント画像ページ及び前記クエリドキュメント画像ページのうちの少なくとも一方のコンテンツを決定することを含む、請求項１に記載の方法。
前記ドキュメント画像ページ毎に前記複数の画像層の各々について前記二次元ビジュアルフィンガープリントを生成することは、同じドキュメント画像ページの他の画像層とは独立して達成される、請求項２に記載の方法。
前記クエリドキュメント画像ページの前記複数のクエリ画像層の各々の前記二次元ビジュアルフィンガープリントを生成することは、他のクエリ画像層とは独立して達成される、請求項２に記載の方法。
前記決定することは、
その二次元ビジュアルフィンガープリントが前記クエリドキュメント画像ページの前記二次元ビジュアルフィンガープリントにある程度マッチングするドキュメント画像ページのリストを生成することと、
加重された信頼度及びページ類似レベルの少なくとも一方に基づいて、単一のリストを形成するためにマッチングする前記ドキュメント画像ページのリストを合体することと、
前記クエリドキュメント画像ページに最も良く一致するドキュメント画像ページを識別することを含み、前記最も良く一致するドキュメント画像ページは、前記複数の画像層に渡って最も大きい全体的な加重二次元ビジュアルフィンガープリント信頼度またはページ類似レベルを有するドキュメント画像ページである、請求項２に記載の方法。