JP5183578B2 - 局所的視覚的2次元指紋を用いた、文書コレクション内の文書画像を発見する方法およびシステム - Google Patents

局所的視覚的2次元指紋を用いた、文書コレクション内の文書画像を発見する方法およびシステム Download PDF

Info

Publication number
JP5183578B2
JP5183578B2 JP2009148493A JP2009148493A JP5183578B2 JP 5183578 B2 JP5183578 B2 JP 5183578B2 JP 2009148493 A JP2009148493 A JP 2009148493A JP 2009148493 A JP2009148493 A JP 2009148493A JP 5183578 B2 JP5183578 B2 JP 5183578B2
Authority
JP
Japan
Prior art keywords
fingerprint
image
module
query
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009148493A
Other languages
English (en)
Other versions
JP2010009597A5 (ja
JP2010009597A (ja
Inventor
クレッター ドロン
サウンド エリック
シー ジャンセン ジュニア ウィリアム
アール アトキンソン ラッセル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2010009597A publication Critical patent/JP2010009597A/ja
Publication of JP2010009597A5 publication Critical patent/JP2010009597A5/ja
Application granted granted Critical
Publication of JP5183578B2 publication Critical patent/JP5183578B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18143Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
    • G06V30/18152Extracting features based on a plurality of salient regional features, e.g. "bag of words"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本願は、文書の大規模コレクションに組み入れられた目標文書ないし文書セットの画像を、目標画像の不完全なコピーである質問文書の画像に基づいて見つけ出すソフトウェアプログラムおよびアルゴリズムを組み込んだコンピュータ操作可能なシステムおよび方法に関する。質問画像はデジタルカメラ、携帯データ端末、文書スキャナ、テキストリーダ、ビデオカメラ、映画用フィルムカメラ、コンピュータ、携帯電話カメラ、またはデジタル表現が可能な他の装置の少なくとも1つにより取り込まれるものでもよいが、それらに限られない。目標画像はモニタまたはコンピュータスクリーンおよび上記装置の1つにより直接得られるその写真上に表示するか、または最初にプリンタまたは類似の出力装置および目標画像の用紙上再生に関する上記装置の1つにより得られる写真上に印刷してもよい。代替的に、質問画像は格納された電子的な質問画像から再生することも可能である。質問画像の取込みに用いられる方式および装置のために、取り込まれた質問画像は多くの場合、目標画像と比較して低解像度、不鮮明、回転および射影による歪み、明度のムラを伴う。
このように本願は、印刷および/または手書きの単語および、例えば線画や写真などであるがそれらに限定されない他の形式の画像内容を含む文書に関する画像の発見に関するものであり、質問画像は一般的に、対応する目標画像より品質が低い。質問および/または目標画像はコンピュータメモリ、データベース、バッファメモリ、またはコンピュータで使用可能な他の媒体から格納および検索してもよい。
大阪府立大学の黄瀬浩一および知能メディア処理研究グループは、以下のステップを含む文書画像の検索方法を提案している。
1.目標画像および質問画像の双方に確実に発見される可能性が高い、画像内の安定した代表点を識別する。文書の画像に関して、良好な代表点は単語画素質量中心または提示された画像の終点である。代表点は画像内の対象の一貫して識別可能な態様である。代表点は、局所的な画像特徴を用いて特定の関心点における対象の外観から導かれる。代表点は、画像スケールおよび回転に対して不変であり、照度、ノイズ、オクルージョン、および視点の小さな変化に対して堅牢である。さらに、代表点は、非常に特徴的であり、不一致の確率が低い抽出が相対的に容易であり、ほぼリアルタイムの作業において局所的な画像特徴の(大型の場合もある)データベースに対する照合を容易に行なうことができる。
2.代表点の局所的近傍の2次元空間配置を表す「指紋(fingerprints)」を形成する。指紋は、各近傍における代表点の間の歪み不変三角面積比を符号化する量子化された整数の列である。代表的な実施によれば、指紋は[0,7]の範囲に量子化された一連の整数であってもよい。所定の目標または質問画像は代表的に、文書内容に応じて数千の指紋を発生させる。代表点が非常に安定している場合、これら指紋の過半は同じ文書の目標画像と質問画像の間で同一となるが、異なる文書の目標画像と質問画像の間で一致する指紋はほとんどない。
3.前処理段階において、収集された目標画像のコーパス(すなわち本体ないしデータベース)を解析して各画像から数千の指紋が抽出される。非常に規模の大きい画像コーパスでは、低い確率ではあるが所定の指紋が複数の目標画像内に発見されるかもしれない。指紋は、[0,7]の範囲内にある約35個の量子化された整数の数列で構成可能であり、35次元のベクトル空間として翻訳可能な高次元のものである。これらはハッシュ表にハッシュされるが、それらの入力は連結された指紋記録のリストを含むものである。各指紋記録は、特定の指紋の属性、その値(指紋列)、およびその指紋を含む目標画像の属性を含むものである。ハッシュ表の入力とは第1の指紋記録を指す。1より多い文書が同じ指紋を含む場合、対応する指紋記録は連結されたリストの連鎖として相互に連結され、所定のハッシュ表入力の記録の全リストは、それらの連結を横断することにより順次追跡可能になっている。
4.質問時間において、指紋が質問画像から抽出される。連続して、各指紋は、ハッシュ表の内容を調べるための鍵として用いられ、目標画像の適切な候補指紋記録が検索される。そのような各指紋記録については、潜在的なハッシュ表の抵触のため、質問指紋列が目標文書の指紋列と比較される。特定の目標文書指紋列との正確な一致がみられる場合、その目標画像に関する投票数が増加する。多くの投票が質問および候補目標画像の間の正確な一致に関して生じ、少数の指紋の偶然の一致の結果としての不正確な一致に関して生じる投票はほとんどないことが期待される。
論文「特徴点の局所的配置に基づくデジタルカメラを用いた高速文書画像検索」(著者:中居友弘、黄瀬浩一、岩村雅一、論文誌名:電子情報通信学会論文誌D Vol.J89-D、No.9、2045〜2054頁)
この方法は、文書ページの画像2万枚までのデータベースに関して実施可能であると記述されている。しかしながら、前述の方法には少なくとも以下の欠点が存すると考えられる。
第1に、この方法は、数千から数百万の画像規模に対応できるかどうか明らかでない。多くの場合、質問および適正な目標文書に発見される指紋は厳密な一致ではなく、ノイズおよび量子化誤差により数字1個ないし数個が異なる。ハッシュ法は高次元空間における近傍の発見には好適でないので、特定の文書に関する投票数は、そのような数字の不一致のため有意に低下することがある。この問題に対処する1つの方法は、実現可能な変更されたニアミス指紋の組合せの付加的記録を多数入力することである。しかしながら、実際には、実現可能な指紋の組合せの数は単一の数字変化の数とともに指数関数的に増大するので、この方法は限定された数の数字変化にのみ適用可能である。
第2に、この方法は、質問および目標コレクション文書で同一の指紋を生成するため、各局所的近傍において同じ順序の代表点を取得する能力に依存している。既存の方法に共通する問題は、単語は一般に文章列に沿って並べられるので単語の重心は多くの場合、同一線上にあり、正確な代表点の順序を決定することは困難である。例えば大多数の既存の方法のように、角度を増すことにより同一線上の代表点の組を配列することは、特にノイズおよび丸め精度誤差を招きやすく、質問および目標文書の間で正確に指紋が一致することが少なくなる。
さらに、以下のページにおいて上記方法の欠点を記述し、それらの欠点を克服するための方法およびシステムを詳細に論述する。
本発明に係る画像管理方法は、質問文書の質問画像内の代表点と、潜在的目標文書のコレクションの潜在的目標文書画像内の代表点とを含む画像内の代表点を識別するステップと、代表点から指紋情報を生成するステップと、質問画像の指紋情報を、潜在的目標文書のコレクション内の潜在的目標文書画像の指紋情報と比較するステップと、質問画像と潜在的目標文書画像との指紋情報の最良の一致を判定するステップと、判定ステップに基づき少なくとも1個の目標文書画像を検索するステップと、検索された少なくとも1個の目標文書画像の表示、印刷、格納、伝送の少なくとも1つを行なうステップと、を含む画像データを格納、索引付け、探索および/または検索する画像管理方法であって、前記代表点が、ある画像の一貫して識別可能な態様を含むことを特徴とする。
図1は、本願の概念を実現可能な環境を示す。 図2A−2Eは、成功した質問照合の説明である。 図2A−2Eは、成功した質問照合の説明である。 図2A−2Eは、成功した質問照合の説明である。 図2A−2Eは、成功した質問照合の説明である。 図2A−2Eは、成功した質問照合の説明である。 図3A,3Bは、2次元視覚的指紋を用いた文書発見のための文書コレクション準備方法の概略を示す。 図3A,3Bは、2次元視覚的指紋を用いた文書発見のための文書コレクション準備方法の概略を示す。 図4は、2次元視覚的指紋を用いた文書発見のための継続的動作を示す。 図5は、文書コレクションに関する指紋データベースを生成する方法である。 図6は、目標文書内で候補代表点を識別する方法である。 図7A−7Dは、画像質問の間の主要画像処理の説明である。 図7A−7Dは、画像質問の間の主要画像処理の説明である。 図7A−7Dは、画像質問の間の主要画像処理の説明である。 図7A−7Dは、画像質問の間の主要画像処理の説明である。 図8A−8Dは、画像処理の拡大図である。 図8A−8Dは、画像処理の拡大図である。 図8A−8Dは、画像処理の拡大図である。 図8A−8Dは、画像処理の拡大図である。 図9Aは、指紋の構成に関する三角比の取得方法を示す。 図9Bは、図9Aの三角比の量子化である。 図10Aは、当初取り込まれた画像である。 図10Bは、図10Aの射影変換を示す。 図11は、アンパックされた指紋データ内容の説明である。 図12は、代表点からパック化された指紋データベースを生成する方法である。 図13A,13Bは、時計回り方位順で最近傍代表点をソートする方法を示す。 図13A,13Bは、時計回り方位順で最近傍代表点をソートする方法を示す。 図14は、指紋データベースからファンツリーを構築する方法である。 図15は、ファンツリー構造および対応する指紋データ内容の説明である。 図16は、文書コレクション指紋データベースからファンツリー構造を構築する工程のフローチャートである。 図17は、リアルタイムで質問画像を照合する工程のフローチャートである。 図18は、質問候補代表点を識別する工程のフローチャートである。 図19は、質問指紋処理に関する工程のフローチャートである。 図20は、質問指紋を照合して文書のヒットを計数する工程のフローチャートである。
本明細書で記述されるようなシステムおよび方法は、図1に示すようなコンピュータネットワークのパラメータ内で動作してもよい。コンピュータネットワーク100は、その多くがワイヤ接合部104で第3ワイヤ106と分岐ないし合流する一連のワイヤ102で構成してもよく、スタンドアロンの周辺装置に接続するか、周辺装置を通してコンピュータ108、109など他の装置に接続してもよく、この場合、コンピュータは周辺装置と見なしてもよい。ネットワークには、少なくともカラーレーザープリンタ120、122または1台のカラー以外のレーザープリンタ124とともにカラープリンタ110またはカラー以外のプリンタ112を組み込んでもよい。またネットワークには、スキャナ130、またはファクシミリ機器140、写真複写機150、カラー写真複写機152、または複合カラープリンタ/スキャナ/ファクシミリ機器154を組み込んでもよい。またネットワークは、パーソナルコンピュータおよび/またはスタンドアロンのコンピュータ端末160、またはスタンドアロンのハードドライブデータ記憶媒体164を含んでもよい。またネットワークは、無線ネットワーク送受信機170と、少なくとも1台のラップトップコンピュータ172または複数のラップトップコンピュータ174に対するインタフェースとを含んでもよい。ネットワークは、インターネット、イントラネットまたは他の通信ネットワークを含むがそれらに限定されない、いかなる形態のネットワーク180と相互接続してもよい。別の形態のネットワークとのインタフェースを用いることにより、本システムおよび方法を、デジタルスチルカメラ191、デジタルビデオカメラ192、携帯電話193、スキャナ194、携帯データ端末195、または文書索引付けシステム196を含むがそれらに限定されない複数の周辺データ捕捉装置190とインタフェースで接続してもよい。本概念は、単一の装置を有するネットワークから数千以上の接続された装置を含むものまで、上記構成要素の様々な組合せを有するネットワークにおいて実現可能であると理解すべきである。さらに、上記構成要素のうちいくつかは、記述される概念を実現する上で有用な多くの既知の構成により配置された記憶装置領域を有してもよい。記憶領域は、RAM、ROM、フラッシュメモリ、または本願の概念を組み入れたソフトウェアを保持することが可能な他のメモリ形式であってもよい。他の記憶装置領域は、多くのデータベース記述形式のいずれかで様々なデジタル画像を保持するように構成してもよい。
さらに、例えばコンピュータであるがそれらに限定されない図1の構成要素のいくつかは、構成要素にロードされるかまたは他の方法でアクセス可能なソフトウェアからの命令を処理するためプロセッサを備えている。プロセッサを有する構成要素のいくつかは複数のプロセッサを有してもよく、それにより命令の処理を複数のプロセッサの間で分割可能であると理解すべきである。代替的には、単一のプロセッサが命令を分割するように動作可能であり、それにより処理がマルチスレッド環境で行なわれるようにできる。
図2Aから2Eには、本願の方法およびシステムを用いて成功した画像質問探索が図示されている。最初に、図2Aに示すように、質問画像をカメラ、スキャナ、または他のそのような装置により取り込むか、電子的に格納された目標画像から再生する。手で部分的に遮っているのは、質問画像の一部分が他の対象により部分的に遮られている場合など、質問画像が何らかの様態で劣化している場合でも達成可能な本願の概念を強調するためである。図2Bは、文書コレクション内に格納可能な目標画像に関する代表点の同様の抽出を示している。質問画像は図2Cに示すような単語の重心代表点を抽出するように処理される。代表点は図2Cにおけるノードであり、三角形分割の結果に基づいて連結される。図2Dの質問画像および目標画像の代表点の間で多くの指紋が一致し、他の画像(図示せず)の間で一致する指紋はほとんどないので、正しい目標画像が発見される。図2Eの点は、質問画像および目標画像の間で一致している指紋の位置を表している。明らかに、図2Eの中央左下部分では点が欠落している。この一致の欠落は、図2Aの手の存在で遮られている画像の部分に対応している。
本願のそのような方法およびシステムを図3A、3Bおよび4を参照して略述する。図3A、3Bおよび4は本システムおよび方法の概略を示すものと理解すべきであり、これらの図面に提示された概念は以下の各節でより詳細に説明される。
図3Aの前処理フローチャート300において、ある文書コレクションの内容が前処理され、安定した再現可能な代表点が識別される。目標画像310のコレクション内の各文書に関し、代表点を識別し(320)、各代表点に関し、指紋操作を行なうことにより代表点の局所的グループから指紋情報を計算する(330)。この結果得られる指紋データ情報340はコンパクトな指紋データベース350に格納される。
次の図3Bは、指紋データベース350を編成するために用いられるフローチャート355を提示している。このプロセスでは、様々な指紋の組合せ360を有する情報がファンツリー(Fan Tree)アドレシング方法370によりファンツリーに編成される。高速かつ効率的な指紋照合を容易にするため、対応する指紋データ構造380が提供される。指紋データベース350内の各入力指紋に関して、一連の候補となる指紋の組合せ360が生成され、ファンツリー370および対応する指紋データ構造380に格納される。一連の指紋の組合せ360の目的は、実施可能な変換、例えば質問画像のアフィン変換により1以上の代表点欠落を許容しながら、指紋を高精度で正確に検出可能とすることにある。
質問時間において、図4は、特定の質問画像410内の代表点の位置420を識別し、質問代表点の局所的グループから各質問代表点に関する指紋情報430を算出し、質問指紋440を既存のファンツリー指紋データ480と照合してコレクション内の文書または文書セットの最良の一致を判定することによる、特定の質問画像410に関するリアルタイム画像質問400の実施を図示している。各質問指紋を用いて、あるファンツリーアドレス450が計算され、そこからオリジナル文書コレクション指紋記録485のサブセットを含む特定のファンツリーリーフノードリストが得られる。サブセットリストからの各オリジナル指紋は、指紋照合460のため最新の質問と順次比較される。質問指紋が検索された指紋記録の1つと一致するたびに、その文書に関する一致指紋の数の計数が増大する。さらに、指紋の強度およびそれが目標指紋とどれだけ一意的に相関しているかに基づいて各指紋の一致に得点が割り当てられる。最後に、指紋得点解析モジュール490は、各文書に関する一致指紋470の蓄積された得点および計数の結果リストを調査し、質問画像410と最良に一致するコレクション内の最良一致文書または文書セット495を決定する。指紋の一致数とそれらの相対的得点とを組み合わせることにより、一致する各文書に関して総合得点が算出される。用途によって、指紋得点解析モジュール490は、総合得点が最も高い単一の文書を選択するか、または総合得点が所定の値より高いすべての文書を選択してもよい。一致する文書セットは、図1の構成要素の1つにより、検索、印刷、電子的な伝達、表示および/または格納を行なうことができる。
I.a.文書コレクション前処理
図5に文書コレクション前処理フローチャート500を示す。このフローチャートにおいて、目標画像510を順次1つずつ処理し、それらの視覚的指紋情報を代表点の識別に基づいて抽出する。
代表点識別処理モジュール/ステップ520では、入力画像内容に基づいて1組の代表点を識別するために各目標画像510が処理される。この方法の成否は、共通の準アフィン歪みおよび様々な照明条件の下で完全な目標画像とそれら画像の劣化したものとでほぼ同じ代表点を発見するその能力に依存している。代表点識別モジュール520には、以下のページで詳述される以下のステップ/モジュールが組み込まれている。これらモジュール/ステップは、入力画像を2値に変換するための第1の順応式しきい値処理モジュールを備えている。2値出力は、2値画像に適用するのに適切な放射フィルタサイズを選択するため平均文字高さを自動的に決定するように、推計連結構成モジュールにより処理される。結果的な放射ブラーグレースケール出力は第2の順応式しきい値モジュールにより処理され、連結構成要素のリストが生成され、そのために各連結構成要素の重心位置が算出される。最後に、重複除去モジュールが、ほぼ同じ重心位置を有する重複した連結構成要素を取り除く。この結果得られる単語の重心位置が候補画像代表点として選択される。代表点識別モジュール520の出力は、代表点およびそれらのページ上の位置のリストである。
次に、指紋構成処理ステップ530では、局所的近傍における代表点の小グループから指紋が計算される。局所的指紋を使用することは、特にカメラが小範囲の近傍における画像形状および照明を考慮すればよいという点で、この方法の柔軟性および堅牢性(robustness)に大きく寄与する。この結果得られる指紋は指紋データベース550に格納されるが、ここでは各画像が目標画像510に対応する固有の画像ID540を有する。
I.a.1 文書代表点の検出
代表点識別モジュール(例えば図5の520)の目的は、ノイズ、情景照明の変化、例えば傾斜、曲がり、回転、並進、縮尺、解像度の変化などアフィン変換の少なくとも1つを受けるか、それらに限定されない劣化した画像においても同数の代表点を繰り返し確実に発見することである。
目標画像610の文書代表点位置600を検出するプロセスを図6に示す。順応式しきい値処理、ブラーリング、連結構成要素コレクションに関する画像処理は文献において周知である。最良の結果のためには、人間の視覚システムの特性に従って知覚像空間内で代表点識別処理を行なうことが望ましい。
第1順応式しきい値モジュール620の2値出力画像625は、推計CCサイズモジュール630に送られる。ここでCCとは、同じ極性を有する2値画素の最大限に連結された部分群である連結構成要素(Connected Component)を表している。2つの画素は、それらの間に極性が同じ画素の経路が存する場合、その場合にのみ同じ連結構成要素内にある。推計CCサイズモジュール630の目的は、画像ごとに目標画像610に関して、次の放射ブラーモジュール640に適用すべきブラーパラメータ635またはブラーフィルタ寸法を動的に推計することである。ブラーリング処理の目的は堅牢、確実かつ再現可能な代表点識別を実現することである。またブラーリングにより、霜降りノイズのようなノイズの除去が容易になるとともに、ページ上の孤立した小さい特徴を除くことが容易になる。例えば近似ガウス形であるがこれに限らないブラーリングフィルタの形状は、望ましくない人工物の進入を防ぐため十分に滑らかなものとすべきである。
ブラーリングの正しい量を決定する上での1つの問題は、入力ページ上の代表的な文字の大きさが前もって分からないということである。本願のある実施形態は、例えば10ないし14ポイントのローマ字体に関し、ある範囲の標準活字書式を通じて良好な折衷案を提供するようにあらかじめ固定された所定の放射ブラーパラメータ635を開示している。本願の第2の実施形態では、放射ブラーパラメータ635は、ユーザが文書ごとに適用する最適な設定を指定できるように選択可能になっている。これら実施形態のいずれでも、推計CCサイズモジュール630は使用されず、その出力は選択された所定の放射ブラーパラメータ635と置き換えられる。
本願の第3の実施形態では、推計CCサイズモジュール630を用いて入力目標画像610の内容を調査することにより、最適な放射ブラーパラメータが自動的に推計される。この場合、推計CCモジュール630は順応式しきい値モジュール620からの2値出力を用いる。推計CCモジュール630は2値画像625を処理して連結構成要素を集約し、連結構成要素高さのヒストグラムへと進む。これは、多くのローマ系言語において文字高さは文字幅よりも変化が少なくフォントサイズをより良く表すからである。高さヒストグラムを用いて、発生頻度に基づき適切な放射ブラーパラメータが決定される。このプロセスの間、推計CCモジュール630は、少数の孤立した画素からなる場合にサイズが小さすぎるとき、または線または枠がページの周囲に面していてサイズが大きすぎるときなどに、ノイズを誘起された連結構成要素の除去に注意を払うことにより、与えられた推計値が少数の非常に大きいか非常に小さい連結構成要素により偏りを受けないようになっている。さらに、ページはフォントサイズの混合した取合せを含んでもよいので、推計CCアルゴリズムは、混合したフォントセットの場合でも良好な折衷案により、控え目な推計値を提供するように設計されている。
本願の第4の実施形態では、推計CCサイズモジュール630は、例えば、最初はポイントの小さい文章を含むある画像領域からより大きなフォントを含む別の近傍領域に動的に移動する場合に、局所的なサブイメージ領域内の入力画像内容を解析することと、領域ごとにブラーリングパラメータを順応的に変化させることとに基づいて順応的ブラーリングパラメータを動的に供給してもよい。
放射ブラーリングモジュール640の出力はグレースケール画像645である。順応式しきい値モジュール650は、グレースケール放射ブラー640の画像出力645を順応式しきい値処理650により2値白黒出力655に変換する。
第2順応式しきい値モジュール650の2値出力は2値画像655であり、連結構成要素モジュール660へ送出される。連結構成要素法は当該技術において周知であり、グラフにおいて1組の最大限に連結された構成要素と見なしてもよい。
本願の第1の実施形態では、すべての利用可能な連結構成要素が利用される。第2の実施形態では、利用可能な連結構成要素は、例えば連結構成要素の大きさ、画素総数、アスペクト比、および/または他の連結構成要素に対する近接性の最適条件に重みづけする相対強度によりソートされ、連結構成要素のより小さい部分集合のみが出力される。第3の実施形態では、入力目標画像610を1組の重なり合うか重ならない領域に細分化し、各領域から多数の連結構成要素を選択して、ある領域が他のすべてに優越することを防止してもよい。
重心計算モジュール670は、連結構成要素モジュール660の出力における各連結構成要素の視覚的中心を決定する。各連結構成要素に関して、連結構成要素の各構成画素の水平方向座標を合計し結果を構成画素の総数で除することにより、水平方向の重心位置が算出される。垂直方向の重心位置は、各構成画素の垂直方向座標を合計し構成画素の数で除することにより同様に算出される。この合算は連結構成要素解析の進行中に効果的に実行することができる。所定の連結構成要素の構成画素のみが、他の非構成画素の「穴」を無視すると、その重心位置に寄与することに留意すべきである。多くの言語において連結構成要素は文章列の中に位置する傾向があるので、各連結構成要素の視覚的中心は画素未満の精度で算出される。
代表点識別段階の最終処理工程において、重心計算モジュール670からの連結構成要素重心位置のリスト675が重複除去モジュール680により認証され、重複除去モジュール680は代表点のリスト685を生成する。認証の目的は、どの2つの連結構成要素も所定の許容差内で同じ重心位置を有さないようにすることである。ほぼ同じ重心位置を有する重複した連結構成要素は取り除かれる。
重複除去モジュール680の出力における残る連結構成要素重心のリストは最終候補質問代表点リスト695となる。候補代表点690の総数は入力画像内容および連結構成要素処理の方式に依存している。一般的な機械印刷ページに関して数百の代表点が存する場合がある。
図7Aから7Dは、上記記述に従って処理された入力質問画像の一例を示している。図7Aは、図6の入力画像610の一例を示す。図7Bは、図6の第1順応式しきい値モジュール620の準備後の代表的出力を示す。図7Cは、図6の第2順応式しきい値モジュール650の動作後のブラーリングされた出力を示している。図7Dは、グラフノードとしての結果的な連結構成要素の重心位置を示す。
図8Aから8Dは、上記記述に従って処理された入力質問画像の一例を示している。図8Aは、図7Aの画像のある領域に関する画像処理の拡大図を提示している。図8Bは、第1順応式しきい値620の動作後の出力の拡大図を示しており、図8Cは、第2順応式しきい値モジュール650の動作後のブラーリングされた出力の拡大図を示している。図8Bと図8Cとを比較することにより、単語を形成するように「連結」されている文字の意味を評価することができ、それにより図8Bの例における個々の文字が、ブラーリング後に図8Cにおいて連結され、単語または句ごとに概ね1つの連結構成要素を形成する。図8Dは、重畳したグラフノードとしての連結構成要素の重心位置を示している。
I.a.2.指紋の構成
本節では、代表点の局所的グループから指紋を計算し、指紋データベース(例えば図3A、3Bの350)への効率的な格納のため指紋をパック化する処理について説明する。これら指紋をパック化することにより指紋データベースの大きさおよび格納の要件が縮減される。
我々は、広範なノイズ、観察条件および画像歪みに関して安定的な入力画像内の堅牢な2次元視覚指紋を識別しようとする。さらに、数百万ないし数十億の文書を含むコレクションのような非常に大きい文書コレクションサイズを扱うように、システムを効果的にスケールアップ可能とするため指紋の大きさを最小化することが可能である。指紋データベースはコレクション内のすべての有効な指紋からなっているからである。同時に、指紋は高い精度および信頼性でそれらが表している個々の内容を識別することが期待されている。
指紋は、持続的比率(persistent ratio)と呼ばれる量子化された変換不変2次元比の列として構成され、これらの比率は、所定の代表点およびその(N−1)個の最近傍代表点の相対的2次元位置から導かれる。これにより各指紋は、対象の代表点周囲の小さい画像近傍に局所化される。ある指紋列は、対象の代表点とその(N−1)個の最近代表点近傍との間の相対的2次元形状のみに依存している。近傍Nの数は指紋強度に影響を与える設計パラメータである。
本願のある態様は、デジタルカメラまたは携帯電話カメラによる画像のスキャンまたは撮影プロセスの間に普通に発生する例えば傾斜、曲がり、回転、並進、縮尺、解像度の変化などであるがそれらに限定されない一定の画像歪みに対して指紋を堅牢にすることにある。
図9Aに示すように、三角形ABC950と第2の三角形ACD960とを含む、対象表面上の同一線上にない4つの点{A,B,C,D}(すなわち910、920、930、940)からなる所定のポリグラム(polygram)900に関して、三角形の面積比(ABC/ACD)970はいかなるアフィン変換を受けても一定のままであることは当該技術において周知である。したがって三角比970として図示されている、ある三角面積比を算出するにはP=4点が必要となるだけである。このアフィン変換は、多くの実際的状況における平面的物体形状に対してカメラを記述する許容可能なモデルを提供するように示されている。
本願の別の実施形態では、画像モデルを説明するためアフィンより大きい変換次数が必要とされる状況に関して、(4ではなく)P=5点を用いた射影変換を扱い、2つの三角比の積である単一の持続的比率を算出するために変換を拡張することができる。
したがって1個の指紋は、時計回り順にソートされたN個の最近傍代表点のグループに関する量子化された持続的変換比率の列からなる。指紋サイズを小さく保つため、変換比率はQレベル980に量子化される。ある実施形態では、Qの値は2の2進べき乗となるように好都合に選択可能である。図9Bでは、量子化プロセスがQ=8の場合の図9Aの三角比970の量子化として図示されている。量子化以前の三角比の有効範囲(0,∞)は,図9B(990)に示すように「0」から「7」で標識されたQ=8個の間隔に分割される。この間隔の境界は、量子化標識を代表的文書の大規模なセットに対してほぼ一様に分布させるように経験に基づいて決定される。入力される三角比の値980は、増加する間隔境界と順次比較されて第1のより高いか等しい間隔境界が決定され、そこでプロセスが終了し、対応する標識間隔が量子化された結果として割り当てられる。例えば、入力される三角比が0.8253694である場合、1.0より小さく、その前の間隔境界より大きいので、量子化された値「3」が割り当てられる。
図10A、10Bに示すように、最近傍法を用いる上で1つの潜在的な問題は、射影変換に対して近接度が必ずしも保持されないということである。図10A、10Bは適切な例を示すため一例を提示するものである。図10Aは当初取り込まれた質問画像1000を示しており、図10Bは画像1000の射影変換1010の一例を示している。図10Aの指示点A、B、C、Dは図10Bの4つの角部に写像されている。図10Aの破線は、図10Bの全面積を満たすように変換される画像の部分を取り囲んでいる。点Xに対する8つの最近傍点は、図10Aおよび10Bの双方において別個に、水平線から右へ時計回り順に(すなわち1〜8として)ソートされる。本例では、図10Aにおいて点Xから最も遠い点8が、変換後、図10Bの点2となっている。よって、所定の代表点のN個の最近傍が任意のアフィンまたは射影変換によっても丁度同じN個の代表点のままである保証はない。それでも、最も近い代表点は、より遠い代表点より、N個の最近傍のリストに残る可能性が高い。
上記問題を克服するため、本願は、指紋のアフィンまたは射影変換に対する堅牢性をさらに高めるため近傍代表点の1以上の欠落を許容することを提案する。本願のある実施形態では、局所的な小さい近傍における限定されたアフィン歪みを考慮してある代表点を除外することができる。したがって各所定の代表点は一度に1つの代表点を省くことにより、多くの指紋Nを発生させる。各指紋は、残余の数の代表点N−1を半径方向の方位順に系統的に辿り、P個の点(アフィン変換に関してはP=4、射影変換に関してはP=5)のすべての可能な組合せについて量子化された持続的比率の列を記録することにより作成される。図11は、N=8、P=4、Q=8の場合の単一ページに関する指紋出力の一例を示している。各代表点は複数の指紋列を発生させる。ある状況では、複数の指紋列は長さ35の8つの指紋列であってもよい。
図12に指絞処理プロセス1200を詳細に示す。指絞処理プロセス1200に対する入力は、入力画像1205に関する候補代表点1210のリストである。図12において第1の指絞処理工程は代表点三角形分割モジュール1220である。本実施形態では、ドローネーまたは代表点三角形分割1220を用いて局所的近傍における各所定の代表点に対する最も近い代表点が識別される。図7Dおよび8Dには、この三角形分割の結果が示されている(連結構成要素の重心をつなぐ線連結)。三角形分割の連結を辿ることにより、所定の代表点に対する最も近い(N−1)個の近傍を効果的に決定することができる。
各候補代表点およびその(N−1)個の最近傍は指紋候補と見なされる。各最新の候補代表点Kpは次代表点取得モジュール1230により入力リスト1210から順次選択される。各代表点Kpに関し、最近傍発見モジュール1240が、所定の代表点Kpに対する距離が最も近い(N−1)個の最近代表点(Nは所定のパラメータ)を識別する。最近傍発見モジュールはドローネーまたは代表点三角形分割の結果1220を用いて、Kpからの距離を増すことによってソートされた最近代表点のリストをKpに返す。返されたリストの最初の要素は常に(距離がゼロの)最新の代表点Kpである。パラメータNの値は、指紋「強度」ないし特徴、指紋ごとの計算の数として定量化された全体的システム性能、およびその結果得られるデータベースまたは指紋の大きさの間で合理的なトレードオフが生じるように調整される。本例では、N=8、12または16の値が用いられる。
最近傍発見モジュール1240の各点は、データベースと質問画像とで同じ代表点/近傍に関して面積比の列が一定となるように一定の順序で取得することが必要である。時計回り順ソートモジュール1250は、所定の代表点のN個の最近傍代表点のリストを時計回り方位昇順でソートする。
時計回り順ソートモジュール1250は、代表点がほぼ同一線上の一般的場合に対して代表点の順序を安定化させるための方法およびシステムを含む。時計回り順ソートモジュール1250は、(所定の代表点に最も近い)リスト上の最初のM個の最近傍(M<N)を用いて原点の部分群中心を算出する。最遠の(N−M)個の代表点は、原点をアフィンまたは射影変換によっても安定的なままとするため、原点の部分群中心の計算では使用されない。この実現方式では、時計回り順ソートモジュール1250は、代表点の順序を決定するため、全体でN=8の場合のM=5個の最近傍代表点の平均位置を原点の中心として用いる。
最新の近傍代表点クラスタの原点中心を決定後、時計回り順ソートモジュール1250は続いて、代表点を時計回り方位昇順でソートする。このソーティングは、方位および距離の双方において行なわれる。その順序は時計回り方位昇順である。しかし、2以上の点が、概ね同じ方位を有していてその違いが所定の許容差レベル内にある場合、それらの点は、方位が実質的に同様のすべての点に関して距離の昇順に下位順序付けされる。
N個の代表点の独自の各サブセットに関し、次部分群組合せモジュール1260は、アフィンまたは射影変換の場合に応じてP=4またはP=5の代表点の次の部分群組合せを系統的かつ方法論的に選択する。例えば、N=8に対してP=4の代表点の部分群に関し70の独自の組合せが存在する。
P=4の代表点の次の各部分群組合せについて、パック化量子化比率モジュール1270が単一の持続的比率を算出し、これを1組の所定の間隔境界しきい値を用いて量子化する。量子化レベルQの数は設計パラメータである。これらの例では、Q=8またはQ=16が用いられる。量子化しきい値は、特定の種類の文書の大規模コレクションにおける持続的比率の分布を調査することにより経験に基づいて決定される。
指紋データベース1285の大きさをさらに縮小するため、パック化量子化比率モジュール1270は多くの結果的な量子化された持続的比率を1つの機械語にパック化する。例えば、N=8、P=4、Q=8の場合、70の部分群の組合せに関する指紋列全体を4個未満の64ビット語に密にパック化することができる。本願のある実施形態では、パック化された指紋の大きさは、複数の語またはバイトに部分情報を分ける必要なく3個の64ビット語および3個の8ビットバイトの全体を占める。
指紋を算出およびパック化するプロセスは、最終の組合せが最終組合せモジュール1280により検出されるまで、一度に1つの持続的比率に関して順次続けられる。最新のP部分群組合せがまだ最終の組合せ1281でない場合、最終組合せモジュール1280はフローを次部分群組合せモジュール1260に戻し、次のP部分群を取得してその量子化された持続的比率の計算およびパック化へと移行する。このプロセスは、最終のP部分群組合せが処理される(1282)まで続く。このとき、結果的なパック化された指紋データ1283が指紋データベース1285に書き込まれる。指紋データは、パック化された各指紋データが利用可能になるにつれて指紋1個ずつを順次指紋データベース1285に書き込み可能であることに留意すべきである。
最後に、指紋を書き込むプロセスは、最終の代表点が最終代表点モジュール1290により検出されるまで、残る代表点すべてについて順に続く。最新の代表点組合せがまだ最終の代表点1291でない場合、最終代表点モジュール1290はフローを次代表点取得モジュール1230に返し、次の代表点を取得して引き続きプロセスを繰り返し、そのパック化された指紋を計算して指紋データベース1285への追加を行なう。指絞処理プロセスは、このようにして最終の代表点組合せの最終の対応する指紋が処理され(1292)指紋データベース1285に追加されるまで続く。最終の代表点がアドレス指定されると、プロセスが終了する(1295)。
指紋の原点中心を算出する方法を、図13A、13Bに示す。図13Aは、所定の画像例1300に対するプロセスを示している。処理された画像は、円1301、1302などの円により識別された代表点または単語の重心とともに図示されている。これらは単なる例示として記述されており、図内のその他の円も単語の重心である。例えば、数字(1−7)も、点Xに対する近傍代表点である単語の重心を表している。図13B(1300)は、明瞭化のため背景の処理された画像を除いたものであるが、他の点では図13Aと同じである。本例では、局所的近傍における7個の付加的な代表点(1−7)を用いて代表点Xに関する指紋が計算される。第1の工程では、代表点Xに対する最近のM=5個の代表点を用いて、この指紋に関する原点の中心、すなわち点{X,1,2,3および5}の平均位置を計算する。これにより原点の中心は、点Xから離れて、また代表点Xを含む文章列Yに沿った代表点の共直線から離れて、点0までの矢印線1320に従い新しい原点中心まで移動する可能性が高い。7個の(1−7)のうち最遠の3つの代表点(4,6,7)は、3つまでの点の任意のアフィンまたは射影変換による移動を許容することにより点0の位置を安定させるため原点中心の計算には使用されない。第2の工程では、8個の代表点(Xおよび1−7)の組全体が、新規に算出された部分群の原点中心(0)に対して時計回り順1310にソートされ、その結果、この場合、最終の出力列の順序は(1,X,2,3,4,5,6,7)となる。代表点の順序に注目すると、上記順序は基準点に依存していると理解すべきである。「0」を基準点として用いる場合、1は「0」からの破線の上方にあるので結果的な順序は234X5671となるであろう。ここで用いられる代替的方法は、Xを基準として使用し続けるが、代表点の質量が「0」に移動するものと仮定し、リストに記載された順序を得るものである。上記においては、当初の代表点位置が基準として維持される一方、点「0」がXの周囲を移動して代表点順序の反転を生じてもよいので、後者が使用されている。しかし、いずれの場合も、実現する必要があるのは、目標画像と質問画像双方において同じ順序を再現可能とすることなので、いずれの方法でも実施可能である。第2の工程の目的は、距離によってではない時計回り順でのソートであることに留意すべきである。
所定の代表点に関してN個の最近傍代表点の順序が設定されると、指紋を生成することができる。一度に1以上の代表点を除外し、除外されなかった代表点の残る部分群組合せの列を構成することにより、近傍内における代表点の大きさP=4の連続したサブセットから指紋が形成される。こうして部分群組合せのパック化された列から指紋の群を効果的に構成可能である。N個の代表点のP個のサブセットは系統的かつ一貫した方式で検討される。各々に関し、このPサブセットの持続的面積比を計算し本明細書に記述されているようにこの面積比をある整数に写像することにより、ある整数が決定される。所定の代表点に関する指紋の長さは、そのようなPサブセットの総数である。これはN個の代表点のうち独自のP個の代表点を選択するための組合せの数によって決定される。例えば、N=8かつP=4の場合、実現可能な部分群の組合せの数は70の持続的比率となる。これらのうち、35の部分群組合せによる長さの8個の指紋を、例えば一度に1個の代表点を除外することにより、各々構成することが可能である。
I.b.高速照合のための指紋情報準備
図14に示すように、指紋データベース1410内の指紋は記憶容量およびローディング時間縮減のためパック化された形式で格納されるので、効率的な指紋照合を容易にするため、まずファンツリーデータ構造に従った独自の方式でアンパックおよび再編成を行なわなければならない。最初の画像質問にあたっては、指紋データベースの準備が一度だけ必要であることに留意すべきである。ファンツリーデータ構造(アンパックされた指紋列を含む)はメモリ内に保持され、その後、いかなる数の画像質問に対しても再使用することができる。
パック化された指紋データベース1410の準備方法は、上述の図12に示されている。指紋情報は指紋データベース1410から検索される。各指紋データベース入力は複数の候補指紋を生じさせる。
代表点除外モジュール1420は、指紋代表点1430のうち1以上を除外することにより複数の候補指紋代表点の組合せを選択する。これにより、局所的近傍代表点の間で1以上の欠落代表点が許容される。この実現方式では、代表点除外モジュールが1個の代表点を除外する。N個の代表点による局所的近傍の場合、これにより各データベース入力ごとにN個の指紋が生じるか、あるデータベース入力は代表点ごとになされるので代表点ごとにN個の指紋が生じる。
指紋列モジュール1450は、各代表点についてN個の候補指紋からなる列を発生させる。例えば、N=8の場合、代表点除外モジュール1420は、第1の代表点を除外し残る7個の代表点を選択することにより第1の指紋を発生させるであろう。その後、代表点除外モジュールは、第2の指紋を作成するため、第2の代表点を除外し第1および残る6個の代表点を選択する。このプロセスは、除外されるすべての代表点組合せが実行されるまで続く。本例では、各データベース入力は、各々の長さが7個から4個を選択=35である8個の候補指紋を発生させる。
N=8およびP=4の場合、4つの代表点部分群に関して(8個から4個を選択)=70の独自の組合せが存する。これは、各代表点についてパック化された形式でデータベース1410に格納されるものである。
欠落代表点が1個の場合、次の指紋が生成される。しかし、どの代表点が欠落するかは前もって分からないので、すべての可能性に対する準備が行なわれる。N=8の場合、単一の欠落代表点に関し1番目、または2番目、または3番目などのいずれかとして総計で8つの場合、8つの可能性がある。これらの場合の各々に関し異なる指紋が計算される。この場合の各指紋は、(当初の8個のうち1個が欠落するので)7個の代表点のみに基づいている。このようにして、この場合の各指紋の長さは(7個から4個を選択)=35となり、それら全体のうち8つが存在する。これは、各指紋が範囲0〜7の35個の整数(量子化された比率)からなっていることを意味する。これら8個の指紋はファンツリーデータに加えられる。
質問時間において、8個の(最新および7個の最近の)代表点が生成され、さらに同じ方法を用いて同様に一度に1個の代表点を除外することにより8個の質問指紋が計算される。ここでファンツリー内容に対する代表点の照合のための試行が行なわれる。最初の照合が得られると照合操作は停止する。1個の代表点(どれでも構わない)が質問画像から欠落すると、8個のうちの1個の質問指紋は(他の7個の代表点が存在している当該の1個と)一致しなければならない。欠落している代表点が無い場合(8個すべてが存在)、最初の肯定的一致の後、照合を続ける必要がないのでプロセスが停止する場合を除き、(どの7個のグループも一致するので)8個の一致が生じるであろう。しかし、2個以上の代表点が同時に欠落している場合、この位置に関して一致は生じないであろう。望ましい場合、このシステムでは、より多くの欠落代表点(例えば8個のうち2個など)を許容するように方法を拡張することで、より多くの欠落代表点を容易に扱うことができる。
指紋列モジュール1450から出力された指紋データ1460は、最新画像に関してデータベースから検索された固有の画像ID1440とともに指紋記録1480を生成する。指紋記録1480は、ファンツリーモジュール1470によりアドレス指定される対応するファンツリーリーフノード位置に格納される。ファンツリーリーフノードの情報は、対応する指紋データ構造1490に指紋記録1480の関連リストとして格納される。現実の指紋に対応する実際のファンツリーリーフノードのみが配置される。特定のリーフノードに到達する最初の指紋は当該リーフノードに初めて位置を占める。複数の指紋が偶然同じリーフノードに再び(すなわち同じファンツリー経路を辿って)到達すると、新しい指紋情報をそのリーフノード上の直前の指紋情報と関連づけることにより、新しい指紋情報が同じリーフノードにおいて追加される。
I.b.1.指紋置換
本節では、各質問指紋に関して一致する候補指紋の総数を実質的に低減することにより顕著な性能向上をもたらすために有用な方法およびシステムについて説明する。
指紋照合中に生じることがある1つの問題は、質問画像が、照合される目標画像に対して異なる方位を有することである。質問画像を目標画像に対して回転させると、結果的な指紋列は、2つの指紋が同じ数字の組を共有していても、列内で数字の順序が異なるために目標列と一致しそうにない。指紋列全体の各々すべての対応する量子化比率の数字の間で1対1の一致がある場合に2つの指紋が一致するだけである。
所定の指紋の量子化比率の特定の列は、その代表点の特定の順序に依存している。例えば、質問画像を当初の基準に対して回転させると、始点の代表点が異なるものとなり、量子化比率の列が完全に異なるものとなる場合がある。実現可能な指紋の一致を決定するためには、まず2つの指紋の対応する代表点を同じ列順序で配置しなければならない。
上記問題を克服するための1つの方法は、画像回転の結果として潜在的に発生しうるすべての実現可能な指紋列を生成し、それらを一致可能性のある候補指紋としてファンツリーに登録することである。しかし、この方法は複数の一致を確認しなければならず非効率的であり、かつ各候補指紋について複数の指紋をメモリに格納しなければならず不経済である。
本願で提案されるのは、配列順の不確実性のゆえに質問画像内で発見されそうな基本的指紋の異なる置換を得ることにより付加的な指紋を生成する新規の方法である。置換を用いると、照合すべき候補指紋の数が大幅に低減される。
目標代表点はまず、方位の昇順で環状にソートされる。2以上の代表点が互いに所定の許容差内で実質的に同様の方位を有することが分かった場合、それらはグループ内の第2のソート基準として原点の中心からの距離の昇順にさらにソートされる。上記ソートプロセスは、多くの実現可能な候補代表点組合せを除くために有用であるが、任意の変換に対する質問画像の最初に観察された代表点と目標画像の最初に観察された代表点との方位の違いを前もって判定することは不可能である。
本願の第1の実施形態では、質問画像の最初に観察された代表点の目標画像位置に対する回転の方位を確定するためテストが実施される。このテストは、N個の実現可能な最初に観察された質問代表点組合せの各々を評価し最良の列の一致を選択することにより実施される。
本願の第2の実施形態では、N個の実現可能な最初に観察される質問代表点組合せが前もって事前に計算され、照合すべき付加的候補指紋列として格納される。質問時間において、N個の事前に計算された組合せの1つと一致するいかなる質問指紋も一致と見なされる。誤った質問指紋が特別な組合せの1つと実際に一致する可能性は小さい。第2実施形態の主要な利点は、付加的な候補第1代表点指紋の組合せを格納するための記憶装置が多少大きくなる代わりに、より高い照合性能が実現可能となり、第1実施形態に対して質問計算負荷が低減することにある。
第3の実施形態では、最小共通最小量子化数字(Smallest Least Common Quantization Digit)(SLCD)法が用いられる。第1の工程では、最小共通最小量子化数字を決定するため指紋数字列のヒストグラムが実施される。一例として以下の1個の指紋列を考察する。
指紋=「14603616376756326322477662652206667」
指紋列の数字は、各値の種類ごとに何個存在するかを決定するように計数される。例えば、上記の指紋は2個の「0」、2個の「1」、6個の「2」、4個の「3」、2個の「4」などを有する。最小共通最小数字は、指紋数字列に少なくとも1度現れる最小頻度最小数字、すなわち計数が非ゼロである最小の数字である。上記指紋例においては、計数1の数字は無く、指紋列内に計数2の数字が少なくとも3個(「0」、「1」、および「4」)有り、「0」はその他の数字「1」または「4」より小さいので、最小頻度最小数字は数字「0」である。全体的な置換の数を最小化するため、常により小さい計数に優先順位が与えられる。
指紋列内の最小共通最小数字の値を決定した後、指紋列内の最小共通最小数字の位置を決定するため指紋列が走査される。各位置に関して、最小共通最小数字の位置までの列の開始部分は指紋列の終端へ置換される一方、開始部分および終端部分の内部配列は不変に保たれる。したがって置換の数は指紋ごとに変化する。各指紋列に関して、置換の数は指紋の最小共通最小数字の計数と等しい。SLCD法の利点は、すべての実現可能な指紋列数字の置換の空間を通じて全数探索を行なう必要なく、良好に平衡した計算負荷で指紋ごとの置換の数を最小化しようとすることにある。
上記サンプル指紋の場合、SLCDの実施形態による方法に従った結果的な置換は以下の2つの候補列を含む。
置換1=「03616376756326322477662652206667146」
置換2=「06667146036163767563263224776626522」
これにより質問指紋は、本例において2つの候補指紋置換に対してソートおよび照合される。各置換は、開始位置から最小共通最小数字(この場合は0)の位置までの当初の指紋列を、置換される指紋列の終端へ移動させることにより形成される。置換の下の標識「∧」は、当初の指紋列の終端位置を説明のため示すものである。本願のこの実施形態では、当初の指紋列の代わりに、置換された指紋列が用いられる。置換を用いる利点は、照合が必要な候補指紋列の数が大幅に減ることである。当初の指紋列の実現可能なすべての循環組合せを試験する代わりに、最小共通最小数字のわずかな置換のみが考察される。この置換は、指紋データベース準備の間に前もって生成、格納される。質問時間においては、すべての置換が前もって格納されていて、適正なものが自動的に発見されるので、質問指紋列の第1の置換のみが照合に用いられ、付加的な質問置換を照査する必要はない。
I.b.2.ファンツリー
本願のある態様は、高速かつ効率的な指紋照合を容易にするため、独自の方式で指紋情報を編成する方法である。既存の方法は、文書コレクション内の質問画像と候補指紋との間の指紋照合のためハッシュ方式を用いる。代わりに、本システムおよび方法は、整数の列である指紋を索引付けする方法としてファンツリーと呼ばれるツリー式の方法を用いる。通常のハッシュ技法と異なり、ファンツリーは高次元空間における効率的な近傍指紋(例えば1個ないし数個の数字の変化を除いて同じ列を有するニアミス指紋)の探索を可能とするものであり、少なくともハッシュ表方式と同程度に高速である。
図15は、格納されたデータの編成に用いられる指紋内容1500のファンツリー構造および対応する編成を示している。ファンツリーは3種類のノード、すなわち(a)ルートノード1510、(b)中間レベルツリーノード(例えば1520、1521、1530、1531および1532)、(c)枝の末端における終端リーフノード(例えば1540、1541、1542、1543および1544)からなる。ファンツリーはルートノード1510が始点となる。ルートおよび中間レベルツリーノードは各々、N個(この場合N=8)までの子を、持続的面積比の各量子化レベルについて一個ずつ有する。これにより指紋は、分岐によって追跡されるファンツリーのルートからリーフノードまでの経路となる。
例えば、図15の経路(1510−1520−1530−1540)は、ルートノード1510から特定のリーフノード1540まで延びる1個の指紋に対応している。(この単純な例における)この特定の指紋の表現は、宛先リーフノード1540に到達するのに3つの分岐コード(すなわち(0)で標識された分岐3回である「各ノードで左の経路をとる」)を用いる。
ファンツリーの潜在的サイズは、この場合では8*8^35と大きいが、実際のファンツリーは、データベース内で実際に発生する指紋に関していかなる所定のノードにも分岐が構成されるので疎らに構成される。ルートの近傍では、多くのノードが8個すべての分岐を含んでいるが、数レベル下では拡張している分岐はわずかの場合がある。
リーフノードは発出する分岐を持たない点でその他のツリーノードの種類と異なる。その代わり、各有効なリーフノードは、質問時間において質問指紋と照合される図15の要素(1550,1551,1552,1553,1554,1555,1560,1561,1562および1563)を含むがそれらに限定されない指紋記録1570のリストを内包する連結リストデータ構造を指し示している。これらも指紋データ内容1580を構成する。
指紋データは、データベース内の関連する指紋記録に対する迅速なアクセスを容易にする一方、同時に、対象とする最新の質問指紋に関して無関係の指紋記録を調査する必要を除くように効率的に編成される。
ファンツリー方式により、数個の数字の変化を除いてほぼ同じ整数列を有するニアミス指紋を扱う2つの方法が可能になる。すなわち、(1)ニアミス指紋の組合せを計算してファンツリー内に事前格納することができる。(2)ニアミス指紋の組合せを質問時間の間に質問指紋列から計算し、探索時間においてファンツリー経路を後戻りすることができる。第1の方法は、付加的なニアミス指紋の組合せを格納するための記憶装置が大きくなる代わりに、計算の大部分をオフラインで実行するという利点がある。他方、第2の方法は、実際の質問時間において付加的な計算が必要になるが、格納のための特別な記憶装置は不要である。
ファンツリー1500によって、より効率的なシステムパフォーマンスおよび非常に大規模の(例えば数百万の文書を含む)文書コレクションにスケールアップする能力が実現可能になる。ファンツリーは、大規模な文書コレクションに特に適している。事実、良好に指紋を設計すれば、ファンツリーを用いた探索時間は文書コレクションの大きさに対して緩慢にしか増大しない。リーフ1545および指紋記録1554および1563は破線で描かれていることが留意される。これは、ファンツリーが、例えば破線で示されるような要素であるがそれらに限定されない項目を付加および/または除去可能であることを表すためである。
I.b.3.文書コーパスからのファンツリー構築
図16に示すように、指紋データベース1605内の指紋は記憶容量およびローディング時間縮減のためパック化された簡潔な形式で格納される。本節では、文書コレクションから抽出される高密度の指紋データベースからファンツリーをいかに構築するかを説明する。所定の文書コーパスに関してファンツリーの構築が必要なのは1回だけである。ファンツリーが構築された後は、(指紋データを含む)ファンツリーデータ構造をメモリ内に保持し、その後、いかなる数の画像質問に対しても再使用することができる。
所定の指紋データベースからファンツリーを構築するプロセスを1600で示す。このプロセスは、次ページモジュール1610を用いて指紋データベース内容を一度に1ページ画像ずつ読み込むことにより開始される。各ページに関して、以下の情報がデータベースから検索される。(a)指紋データベース作成時間に固有画像IDモジュールにより割り当てられた固有画像ID、(b)最新ページ上の識別された指紋の数、(c)最新ページに関する指紋記録の内容
固有画像IDは、特定のページ画像およびそれが属する文書を固有に識別する内部整数表現である。画像ID表現は(その文書について従来のURL(Universal Resource Locator)文字列を用いるよりもコンパクト、かつ必要な空間が小さいので)内部索引付けに好都合に用いられる。実際の文書内容は指紋情報を除いて指紋データベースには格納されない。
最新のページ内容が次ページモジュール1610により指紋データベース1605から検索された後、フローは最新ページの指紋記録検索へと進み、それらを用いて一度に指紋1個ずつファンツリー構造を構築する。次指紋モジュール1620は、最新のページに処理すべき指紋記録がさらに存在する限り、データベースから最新のパック化された(例えば長さ70の)指紋記録を検索する。指紋アンパックモジュール1630は指紋内容をアンパックし、次いで上記Ib節で記述したように代表点除外モジュール1640により1個以上の代表点を除外する。
最新の指紋の特定の経路は、ファンツリー内に既に存在していても、していなくてもよい。最新の指紋経路またはその一部がファンツリー内に存在しない場合、経路の欠落部分がファンツリーに加えられ、新しいリーフノードが、最新ページの固有画像ID番号および最新の指紋番号に加えて最新の指紋記録を格納するように初期化される。他方、最新の指紋経路がファンツリー内に既に存在する場合、ファンツリー構造は変化を加えられず、最新ページの固有画像ID番号および最新の指紋番号に加えて最新の指紋記録だけが既存のリーフノードリストに加えられリンクされる。このようにファンツリー構造は、一度に指紋1個ずつ末尾から上方へ構築され、データベース作成の間に実際に観察される実際の指紋データを表すノードおよび分岐のみを含む。
代表点除外モジュール1640の出力における各候補指紋に関して、置換ソートモジュール1650が上記I.b.1節で記述したような最小共通最小量子化数字(SLCD)アルゴリズムに従って指紋列の置換を発生させる。
置換ソートモジュール1650の出力は、対象とする最新の指紋に関する置換された指紋量子化比列のリストである。このリストは、本願の最小共通最小数字アルゴリズムの特性に従って少なくとも1個の置換入力を含むように常に保証されている。時により、置換された指紋列のリストに複数の置換が存してもよい。このリスト内の置換された指紋列の数(すなわちリストの大きさ)は、対象とする最新の指紋に関する最小共通最小数字の計数である。置換を用いない本願の実施形態では、置換ソートモジュール1650はバイパスされ、置換されない指紋列が代表点除外モジュール1640から次置換モジュール1660の出力へ直接渡される。
次置換モジュール1660は、置換ソートモジュール1650の出力から最新の指紋置換列を検索する。置換された各指紋は順次登録される。ファンツリー置換登録モジュール1670は、ファンツリーに最新の置換を登録し、対応するデータ記録を既存の指紋データ内容に追加する。この登録プロセスは、新しい指紋列を記述するのに必要なノードおよび分岐のみを追加することによりファンツリーを末尾から上方へ構築することに相当する。指紋経路すべてがファンツリー内に既に存在する場合、ツリー構造は変更されず、最新の指紋記録だけが直前の入力にリンクされることにより既存の指紋データ内容に追加される。
他方、新しい指紋経路の全体がファンツリー内に存在していない場合、欠落しているツリーノードおよび分岐が経路完成のため必要に応じてファンツリーに追加される。さらに、最新の指紋記録が既存の指紋データ内容に追加され、新規に形成されたリーフノードにリンクされる。最終結果として、ファンツリーが最新の指紋を含むように拡張され、その内容記録が一度に指紋経路1つずつ指紋データ内容に追加される。
次の指紋置換を登録してそのデータ記録1670を追加するファンツリーのプロセスは、最終置換モジュール1675により最終の置換が検出されるまで、置換1個ずつ順次続行される。最新の置換がまだ最終置換1676でない間は、最終置換モジュール1675はフローを戻し、次の置換1660を取得して引き続きその内容をファンツリーに登録する。これは、最終の置換が処理される(1677)まで続く。
対象とする最新の指紋に関するすべての置換がファンツリーに登録された後、手順は最終除外代表点モジュール1680に移行する。これが最終候補指紋組合せでない場合(1681)、プロセスは代表点除外モジュール1640に戻され、次の代表点を除外して次の候補指紋組合せが処理される。これは除外代表点のすべての可能な組合せがファンツリーに登録され(1682)、それらの内容が指紋データ1605に追加されるまで続く。
アンパック、代表点除外、置換ソート、およびすべての結果的置換のファンツリー登録のプロセスは、最終指紋モジュール1685により最終の指紋が検出されるまで、一度に指紋組合せを1つずつ順次続けられる。最新の指紋がまだ最終の指紋でない場合(1686)、最終指紋モジュール1685はフローを次指紋モジュール1620に戻し、次の指紋を取得して、引き続きアンパック、置換ソート、およびそれらすべてのファンツリーおよび関連する指紋データ内容への登録を行なう。このプロセスは、対象とする最新ページに関する最終の指紋が処理される(1687)まで続く。
対象とする最新のページに関するすべての指紋が上記方式で処理され、それらの置換すべてのファンツリーへの登録および指紋データ内容への追加が成功すると、ページURL追加モジュール1690は最新ページのURL(Universal Resource Locator)を検索し、ファンツリーまたは指紋データ内容と無関係に内部固有画像IDから真の文書URLへの逆写像を別の表(データ構造)に追加する。よりコンパクトであるため、固有画像ID番号は全プロセスを通じて、対象とする最新ページを参照するため内部的に使用される。
最後に、それらの指紋を指紋データベース1605から検索、アンパック、ソート、およびすべての置換をファンツリーおよび指紋データ記録に登録するページの処理は、最終ページモジュール1695により最終ページが検出されるまで、一度に1ページずつ順次続けられる。最新のページがまだ最終ページでない場合(1696)、最終ページモジュール1695はフローを次ページモジュール1610に戻し、次のページを取得して、引き続きその指紋置換内容をファンツリーおよび関連する指紋データ内容に登録する(1670)。このプロセスは、最終ページが初期質問での使用のため準備されるまで続き(1697)、プロセスが終了する(1698)。
ファンツリーを構築する全プロセスは最初の画像質問前にオフラインで実施可能である。指紋データベースが本願の実施形態に従って準備されると、これを続きの画像質問で使用することができる。目標画像の追加または削除後など、参照画像データが変化した場合はファンツリーを再構築すればよい。
I.b.4.ノイズ防護法
本節では、既存の問題を克服して優れた指紋照合性能をもたらすノイズ防護方法およびシステムとして認識される別の概念を紹介する。本節では導入であるが、以下の節ではノイズ防護のより詳細な説明を行なう。
指紋に関する重要な問題は、三角面積比の連続値空間が離散空間へ量子化されることである。例えば、ノイズおよび/または有限の丸め誤差による代表点位置の小さな変化も最新の量子化間隔境界を不用意に越え、指紋のこの位置に関して異なる量子化整数値をもたらすことがあるので、持続的比率が量子化境界に接近するときに問題が生じる。
図19においてノイズ防護モジュール1971は、質問指紋列における三角比のうち1以上が偶然、量子化しきい値の1つのいずれかの側に極めて接近する場合に対処するように設計されている。持続的比率値からその最近傍の量子化しきい値までの距離が所定の許容差レベルを下回る場合、ノイズ防護モジュール1971は、可能な候補として双方の量子化数列を発生させ、適正な選択が結果的な候補の1つとして含まれるようになっている。
指紋「14603616376756326322477662652206667」を考察する。
5番目の持続的比率の値は1.0の間隔境界をわずかに下回り、図9に示すように整数値「3」に量子化される0.9999であると仮定する。これはコレクション内の目標画像に関するものである。
劣化した質問画像においては、この持続的比率の計算におけるノイズまたは小さな丸め誤差の存在により、その値が間隔境界のわずか上、例えば1.0001(0.9999から0.0002の非常に小さな変化)に押し上げられる可能性もある。これは1.0よりも大きいので、「3」ではなく「4」に量子化され、結果的な質問指紋は、もはや一致しなくなる。「14604616376756326322477662652206667」 5番目の数字における分岐は、まったく異なるファンツリー経路を辿ることになる。
上記ノイズ防護法は、ある間隔境界に偶然接近しているかどうかを確かめるため量子化以前に、入力される持続的比率を監視するものである。十分に接近している場合に限り、双方の指紋列がファンツリーに加えられる。すなわち、目標画像に関して、1個の指紋列に代わり、一方が「3」を有しもう一方が「4」を有する2個の指紋が加えられる。
質問画像時間においては、質問指紋が計算されるが、「3」か「4」かは問題とならない。なぜならば、いずれもファンツリー内に存在しており正しい一致が常に発見されるからである。
ノイズ防護法の長所は、間隔境界に近い場合に組合せが加えられるだけであるという点にある。もしすべての数字に関して機械的に同じことを試みるならば、非実用的に大きい、各指紋に関する2^35の可能性が生じる。
従来のハッシュ方式は、入力数列を無作為に「刻む」ように設計されており、一方の位置を他方の位置を知ることにより決定する有効な方法が無く2個のほぼ同一の数列が一般的に相互に離れてしまうので、そのような数字の変化に対し感応的であることも指摘すべきである。これは、ファンツリーを用いる1つの利点である。
このようにノイズ防護モジュール1971の利点は、量子化ノイズ感応性を低減することにより指紋処理の堅牢性が向上することにある。しかしこれは、量子化がしきい値に接近するごとに候補指紋列の数が倍加するので、付加的な計算の代償として達成される。幸いにも、三角比がしきい値に接近する事象は、質問画像のノイズレベルにもよるが非常に稀有なので、平均してその影響はさほど重大でない。さらに、(多くの三角比が量子化しきい値に接近している指紋はあまり特徴的でないので)全体的な性能レベルを維持するため各指紋にノイズ防護を適用する回数には上限が設定される。ある実現方式では、指紋ごとに数字5個の変化、すなわち各指紋について25=32通りの指紋組合せ可能性の限界を設けてノイズ防護モジュールを用いた。
上記ノイズ防護法は、文書コレクションの前処理時間中にオフラインで、あるいは質問時間にオンラインで適用可能である。格納の見地からは、付加的なノイズ組合せは、コレクション全体に関して事前ではなく質問時間に生成する方がより経済的である。
しかし、質問時間においてノイズ防護を適用すると、付加的な計算によりリアルタイムの性能がわずかに低下するかもしれない。格納とリアルタイム性能とのトレードオフは、予期されるノイズレベルおよび量子化誤差の見込みに応じて最適化が可能である。
I.c.実行時質問
質問指紋1700を照合するプロセスを図17に示す。照合される質問画像1710は入力において提示される。質問画像1710は代表点識別ステップ/モジュール1720により候補代表点位置を識別するように処理される。1720における代表点識別プロセスは、文書コーパスに関する代表点発見に用いられるプロセスと同様であるが、重要な相違は質問画像の予期される品質の低下に関するものである。
質問代表点1725は、照合のための指紋処理ステップ/モジュール1730における候補質問指紋を生成するように小規模な局所的近傍群内において処理される。質問画像に関する指絞処理方法は、文書コーパスに関する指絞処理方法と同様であるが、重要な例外はノイズ防護法などの質問画像の予期される品質低下および異なる質問指紋置換方式に関するものである。
本願のある実施形態では、すべての利用可能な代表点が利用される。別の実施形態では、利用可能な連結構成要素は、例えば連結構成要素の大きさ、画素総数、アスペクト比、および/または他の連結構成要素に対する近接性の重み付けされた最適条件などであるがそれらに限定されない相対強度によりソートされ、連結構成要素のより小さいサブセットのみが出力される。第3の実施形態では、入力目標画像1710を1組の(重なり合うか重ならない)領域に細分化し、各領域から多数の連結構成要素を選択し、ある領域が他のすべてに優越することを防止してもよい。本願の第4の実施形態では、指絞処理モジュール1730は、稀有かつ異常な数字パターンはより表示的なので、指紋列内の数字または数字パターンの発生頻度の解析に基づいて最も表示的な候補質問指紋を選択さえすればよい。指絞処理モジュール1730の出力は、局所的代表点の各群に関する候補質問指紋1735のリストである。
候補質問指紋1735のリストは、特定の用途および、処理時間および精度に関する望ましい性能レベルに応じて、すべての識別可能な指紋の全体またはサブセットを含んでもよい。例えば、相対的な指紋強度に基づき最も表示的な指紋の小さなサブセットのみを選択してもよい。代替的に、すべての利用可能な候補質問指紋を最良の精度を得るため使用してもよいが、これは処理時間を増大させるかもしれない。このように、指絞モジュール1730の出力における候補質問の数は、精度と速度とのトレードオフとして調整が可能である。
続いて指絞処理モジュール1730の質問指紋は、各質問指紋に関して対応一致するリーフノードを決定するファンツリーアドレシングモジュール1740によりファンツリー経路に変換される。各指紋は、ルートノードから開始して特定のリーフノードで終了するファンツリー内のある経路に対応している。ファンツリーアドレシングモジュール1740は、各候補質問指紋の経路を辿り、対応するリーフノードアドレスを決定する。リーフノードの内容は指紋データ構造1790内で調査され、特定のリーフノードに関して一致する指紋記録1770のリストが検索される。
続いて指絞処理モジュール1730の候補質問指紋情報は、指紋記録1770のリーフノードリストに含まれる各指紋入力1770に対して指紋照合モジュール1750内で照合される。候補質問指紋1730と指紋記録モジュール1770の特定の指紋記録との間に正確な一致が存する場合にのみ、システムは一致指紋記録1770から対応する画像IDおよび指紋ID組合せを検索し、続いてカウンタアレイ内の固有の「<画像ID/指紋ID>」組合せに関する指定された指紋カウンタを初期化(初回のみ)およびインクリメントする。またシステムは、指紋照合段階1750の間に少なくとも1個の指紋が一致した画像IDのリストを、別個のデータ構造内で保持する。指紋照合プロセス1750は、すべての候補質問指紋1730がこのように処理されるまで続く。一致カウンタの結果1755のアレイ内容は、最終の最高得点解析およびコレクション内の最も一致する文書または文書セットの判定のため指紋解析段階1760に送られる。
指紋解析段階1760は、一致カウンタアレイの内容を解析して最終の照合結果を決定する。具体的な指紋解析1760は、適用される特定の照合目的に左右される。多くの照合目的が存在しうる。本願のある実施形態では、この目的は文書コレクション内で最良の画像の一致を発見することであってもよい。この場合、最多の指紋の一致を集めた画像ID、すなわち最高得点の指紋一致ID1765が好ましい候補である。さらに、個々の計数を信頼性の数値として用いて、指紋一致の所定の最小数より小さいページの一致を除外することができる。画像内容により、他よりも多くの指紋を有するページが存することがあるので、これらの計数をあるページ上の指紋の総数によって正規化し、より均一な相対測度を得ることができる。
本願の別の実施形態では、その目的は、所定の最小指紋計数または最小の上記信頼性レベルを満たすコレクションまたはそのサブセット内の一致するすべての画像のリストを返すことであってもよい。本願のさらに別の実施形態では、オリジナルの画像領域をサブイメージの格子に重ね合わせるか重ねずに細分化し、良好な指紋一致が得られる領域の大まかな密度プロファイルを得るため、各サブイメージ内で指紋照合解析を別個に実施してもよい。後者の解析は、オリジナル画像の一部が欠落または情景内の別の対象により部分的に隠されている状況に特に適している。この場合、欠落または隠されていない共通画像領域でも、なお高い一致指紋計数が得られる。本願のさらに別の実施形態では、上記で概説したようなサブイメージへの分割による画像のゾーニングを用いて、ある画像領域の他に対する重みを強くすることができる。例えば、焦点を合わせた対象において、画像の中心付近の指紋一致により大きな重みを付し、外縁部の指紋一致にはより小さな重みを付けることである。この方法は、画像の外側境界に沿ったフレーム境界アーティファクトの除去に関して特に有用である。例えば、電子的オリジナルやその印刷物のスキャナや携帯電話カメラなど(それらに限定されない)からの取り込まれた画像など様々な供給源からの画像を照合する場合である。後者の技法を効果的に用いて、紙の白色やブルースクリーンの色などに対する画像隅部などであるがそれらに限定されない画像境界外側の人工的背景の導入による候補代表点の形成を防止することができる。
指紋解析モジュール1760の出力は、一致画像ID1765の最終リストである。最終工程1780においてこのリストは、固有画像ID1765の内部整数表現から、一致文書の位置およびページ番号を識別する真の文書URLに変換される。この変換は、文書URL調査モジュール1780において実現され、照合結果1785が生成される。ある実施形態では、指紋データベース1790の生成時に固有画像IDモジュール1730により作成される逆写像表を用いて固有画像IDを索引として使用し、当該URLが調査される。最後に、照合結果1785は、電子ディスプレイなどのディスプレイ、ハードコピー出力を供給するプリンタ、記憶装置であってよい出力1795に送るか、あるいは他の適合性ある装置に伝送してもよい。
I.c.1 候補質問代表点の識別
質問代表点識別プロセス1800を図18に示す。質問代表点識別プロセスは、文書コーパスに関する代表点発見に用いられるプロセスと同様である。
上記I.a.1節の記述との相違は、照合される質問画像1805の目標画像コレクションに対する品質の潜在的低下に対処するため画像強調モジュール1810が導入されることである。用途によっては、質問画像にさらなる品質低下を加えてもよい。例えば、目標画像の印刷されたハードコピーまたは画面上の画像から低品質の携帯電話カメラで質問画像を取り込んでもよい。この場合、質問画像は、低解像度、ブラー、ノイズ、照明の変化、反射、遠近法による観測歪みなど多くの要因による大幅な画像劣化を呈するかもしれない。したがって、質問画像の予想される品質により、入力画像品質を改善するための必要な画像強調を適用して質問代表点識別の前に強調画像1815を作成するため、第1画像強調モジュール1810を追加することが望ましい。画像強調モジュール1810による具体的強調および変更は、用途、質問画像の予想される品質、予想される画像歪み、および望ましい精度および性能の目標による。
本願のある実施形態では、画像強調モジュール1810は、質問画像の情景における変化するカメラ照明を評価するため背景評価モジュールを備える。背景評価は、一定の画素領域における明度の最も高い画素レベルの評価および、低次2次元多項曲線を適合させることによる、質問情景における緩慢に変化する照明のモデル化を含んでもよい。多項モデルを逆転することにより、画像における変化する背景照明の効果を中立化し、順応式しきい値操作1820との干渉および明または暗の代表点特徴に関する順応的識別の潜在的な失敗を防止することができる。
本願の他の実施形態では、画像強調モジュール1810は、代表点抽出の前に質問画像の品質をさらに向上させるためコントラスト強調、シャープニング、ノイズ除去など他の既知の画像処理技法を備えてもよい。
順応式しきい値モジュール1820の2値出力画像1825は、推計CCサイズモジュール1830に送られる。推計CCサイズモジュール1830の目的は、画像ごとに質問画像1805に関して、次の放射ブラーモジュール1840に適用すべきブラーパラメータ1835またはブラーフィルタのサイズを動的に推計することである。ブラーリング処理の目的は堅牢、確実かつ再現可能な代表点識別を実現することである。またブラーリングにより、霜降りノイズのようなノイズの除去が容易になるとともに、ページ上の孤立した小さい特徴を除くことが容易になる。例えば近似ガウス形であるがこれに限らないブラーリングフィルタの形状は、望ましくない人工物の進入を防ぐため十分に滑らかなものとすべきである。
ブラーリングの正しい量を決定する上での1つの問題は、入力ページ上の代表的な文字の大きさが前もって分からないということである。本願の第1実施形態は、例えば10ないし14ポイントのローマ字体に関しある範囲の標準活字書式を通じて良好な折衷案を提供するように、あらかじめ固定された所定の放射ブラーパラメータ1835を開示している。本願の第2の実施形態では、放射ブラーパラメータ1835は、ユーザが文書ごとに適用する最適な設定を指定できるように選択可能になっている。これら実施形態のいずれでも、推計CCサイズモジュール1830は使用されず、その出力は選択された所定の放射ブラーパラメータ1835と置き換えられる。
本願の第3の実施形態では、推計CCサイズモジュール1830を用いて入力質問画像1805の内容を調査することにより、最適な放射ブラーパラメータが自動的に推計される。この場合、推計CCモジュール1830は順応式しきい値モジュール1820からの2値出力を用いる。推計CCモジュール1830は2値画像1825を処理して連結構成要素を集約し、連結構成要素高さのヒストグラムへと進む。これは、多くのローマ系言語において文字高さは文字幅よりも変化が少なく、フォントサイズをより良く表すからである。高さヒストグラムを用いて、発生頻度に基づき適切な放射ブラーパラメータが決定される。このプロセスの間、推計CCモジュール1830が、少数の孤立した画素からなる場合にサイズが小さすぎる場合、または線または枠がページの周囲に面していてサイズが大きすぎる場合などにノイズを誘起された連結構成要素の除去に注意を払うことにより、与えられた推計値が少数の非常に大きいか非常に小さい連結構成要素により偏りを受けないようになっている。さらに、ページはフォントサイズの混合した取合せを含んでもよいので、推計CCアルゴリズムは、混合したフォントセットの場合でも良好な折衷案により控え目な推計値を提供するように設計されている。
本願の第4の実施形態では、推計CCサイズモジュール1830は、例えば、最初はポイントの小さい文章を含むある画像領域からより大きなフォントを含む別の近傍領域に動的に移動する場合に、局所的なサブイメージ領域内の入力画像内容を解析することと、領域ごとにブラーリングパラメータを順応的に変化させることとに基づいて、順応的ブラーリングパラメータを動的に供給してもよい。
放射ブラーリングモジュール1840の出力はグレースケール画像1845である。順応式しきい値モジュール1850は、グレースケール放射ブラー1840の画像出力1845を順応式しきい値処理1850により2値白黒出力1855に変換する。
第2順応式しきい値モジュール1850の2値出力は2値画像1855であり、連結構成要素モジュール1860へ送出される。連結構成要素法は当該技術において周知である。
本願の第1の実施形態では、すべての利用可能な連結構成要素が利用される。第2の実施形態では、利用可能な連結構成要素は、例えば連結構成要素の大きさ、画素総数、アスペクト比、および/または他の連結構成要素に対する近接性の最適条件に重みづけする相対強度によりソートされ、連結構成要素のより小さい部分集合のみが出力される。第3の実施形態では、入力質問画像1805を1組の重なり合うか重ならない領域に細分化し、各領域から多数の連結構成要素を選択し、ある領域が他のすべてに優越することを防止してもよい。
重心計算モジュール1870は連結構成要素モジュール1860の出力における各連結構成要素1865の視覚的中心を決定する。各連結構成要素に関して、連結構成要素の各構成画素の水平方向座標を合計し、結果を構成画素の総数で除することにより、水平方向の重心位置が算出される。垂直方向の重心位置は、各構成画素の垂直方向座標を合計し、構成画素の数で除することにより同様に算出される。この合算は、連結構成要素解析の進行中に効果的に実行することができる。所定の連結構成要素の構成画素のみが、他の非構成画素の「穴」を無視すると、その重心位置に寄与することに留意すべきである。多くの言語において連結構成要素は文章列の中に位置する傾向があるので、各連結構成要素の視覚的中心は画素未満の精度で算出される。
代表点識別段階の最終処理工程において、重心計算モジュール1870からの連結構成要素重心位置のリスト1875が重複除去モジュール1880により認証され、重複除去モジュール1880は代表点のリスト1885を生成する。認証の目的は、どの2つの連結構成要素も所定の許容差内に同じ重心位置を有さないようにすることである。ほぼ同じ重心位置を有する重複した連結構成要素は取り除かれる。
重複除去モジュール1880の出力における残存する連結構成要素重心のリストは、候補質問代表点リスト1895となる。候補代表点1890の総数は入力画像内容および連結構成要素処理の方式に依存している。一般的な機械印刷ページに関して数百の代表点が存する場合がある。
I.c.2 質問指紋の計算
本節では、質問指紋を識別して、それらをファンツリー構造内の適切な文書コレクション指紋との照合のため準備するプロセスを紹介する。この質問指紋プロセスを図19に示す。質問画像に関する指絞処理方法は、文書コーパスに関する指絞処理方法と同様である。しかし、質問画像の予期される品質低下、ノイズ防護法の導入、および異なる質問指紋置換方式の提供に関する概念を含むがそれらに限定されない多くの重要な相違が存在する。
(a)1つの相違は、質問指紋を指紋データベースに保存する必要がないので質問指紋がパック化されないということである。その代わり、質問指紋は、一度に1個ずつ単純に処理および照合される。各質問指紋はファンツリーで調査され、照合される適切な候補指紋のリストが検索される。所定の質問指紋の照合プロセスが完了すると、当該質問指紋が破棄され、一致カウンタアレイに関する照合結果のみが、質問ページごとに質問指紋について次々に蓄積され続ける。
(b)質問指紋処理は、置換が文書コレクションの準備段階の間に前もって生成されるので、ソート置換工程を必要とせず、質問時間において1個の置換のみ、すなわち生成される最初のものが用いられる。すべての実現可能な置換が準備されファンツリーに前もって登録されているので、有効な置換は対応する一致対象を有するはずである。
(c)上記I.b.3節で説明したノイズ防護法は、ファンツリー準備段階の間、または質問時間に適用可能である。質問時間においてノイズ防護法を適用すると、特別な記憶装置を必要としない点でより経済的であり、ファンツリーにより、計算のわずかな増加の代わりにニアミス指紋を扱う便利な方法が提供される。
(d)別の相違は、質問照合時間を最小化する必要に関するものである。多くの用途では、質問照合はリアルタイムで行なわれる一方、システムは一定の厳格な性能要件を満たすか上回ることが期待される。そのような状況では一般的に、潜在的な指紋組合せの整理、および質問照合時間を最小化するため前もって可能なものを準備することにより多くの時間を割り当てる不平衡な作業前倒しシステムを備えることが望ましい。例えば、本願の方法は、ファンツリーを構築するオフライン段階の間に、欠落代表点の組合せを含むすべての実現可能な指紋置換を前もって登録するものである。これら組合せのいずれの1つによっても十分に指紋の一致を得ることができる。最初の一致が観察されると、特定の指紋に関する付加的な一致を探索し続ける必要はない。全体的な質問時間は、ファンツリー内で、より一致可能性が高いものを先にソートおよび配置することにより最小化される。
(e)さらに、本願の実施形態により全体的な照合時間を最小化するため、照合すべき最初の質問置換によって、特定の指紋および他の欠落代表点の組合せに関するさらなる置換探索が停止される。
I.c.3 混合テキスト文書の質問指紋処理の詳細
本節では、質問指紋を識別して、それらをファンツリーおよびその関係する指紋データ構造内の適切な文書コレクション指紋との照合のため準備するプロセスを詳細に説明する。
この質問指紋プロセスは、上記I.c.2節で記述したようなオリジナルの指絞処理方法と同様である。しかし、いくつかの明確な相違が存在する。1つの相違は、質問指紋を指紋データベースに保存する必要がないので質問指紋がパック化されないということである。その代わり、質問指紋は、一度に1個ずつ単純に処理および照合される。各質問指紋を用いてファンツリーが調査され、照合される適切な候補指紋のリストが検索される。所定の質問指紋の照合プロセスが完了すると、当該質問指紋が破棄され、一致カウンタアレイに関する照合結果のみが、質問ページごとに質問指紋について次々に蓄積され続ける。
第2の相違は、本願の実施形態において、図16のソート置換工程1650が、オリジナル文書コレクションの指紋処理工程の間に適用されるのみとなることである。対照的に、質問指紋プロセスはソート置換工程を必要としない。これは、置換が文書コレクションの準備段階の間に前もって生成されるからである。しかし、質問時間の間は、1個の置換のみ、すなわち生成される最初のものが用いられる。すべての実現可能な置換が前もって準備され登録されているので、質問時間の間にどの置換が用いられるかは問題でない。したがって、どれであろうと1個の置換は、ファンツリーデータ構造内に対応する一致対象を有するはずである。
図19に注意を戻すと、質問指紋プロセス1900において、質問指絞処理モジュールに対する入力は、上記I.c.1節で記述したような質問代表点識別モジュール1905により出力される候補質問代表点のリスト(例えば図18の入力質問画像1805の1895)である。候補代表点の数は質問画像内容に依存する。一般的な機械印刷ページは通常、数百ないし数千の候補代表点を有する。他方、白ページは、代表点候補をまったく有さない。このため最初に、入力において十分な数の候補代表点が存することを確認するためテストが実施される。候補代表点の数が少なすぎる(所定のしきい値未満の)場合、当該質問画像は棄却され、プロセスが質問ページ上において十分な数の代表点を識別できなかったことを示す通知メッセージが送られる。入力画像に多数の歪みをかけ、代表点の過半が歪んだ画像内に高い確率で繰り返し確実に発見可能な旨を示すことにより、これら代表点の堅牢性および再現性を実証することができる。例えば、本願の実施形態に従って得られた代表点がノイズ、照明条件、および傾斜、曲がり、回転、並進、縮尺、解像度の変化などの透視歪みに対し堅牢であることを示すことができる。
本願による提示された指紋処理方法は、所定の代表点およびその(N−1)個の最近傍代表点の相対的2次元位置から導かれる(以下で述べる)持続的比率と呼ばれる量子化された2次元比の列に基づくものである。これにより各指紋は、対象の代表点周囲の小さい画像近傍に局所化される。ある指紋内容は、対象の代表点とその(N−1)個の最近代表点近傍の間の相対的2次元形状のみに依存している。近傍Nの数は指紋強度に影響を与える設計パラメータである。
上記のように、図19において、指紋処理1900は、上記I.c.1節で記述した代表点三角形分割モジュール1910により開始される。このモジュールの三角形分割アルゴリズムは、点の相対的距離に基づく最小の隣接するが重なり合わない三角形で当該平面を埋めるような方式で、線分を用いて近接する代表点を連結するために用いられる。周知の例はドローネー三角形分割アルゴリズムである。質問指紋の文脈では、三角形分割モジュール1910は、候補質問代表点リスト内の所定の代表点に対する(代表点間の平面距離に関して)最近代表点を決定する簡便かつ効率的な手段として用いられる。さらに、三角形分割の結果を用いて、所定の代表点位置から発して代表点を次々に結ぶ線分連結を辿ることにより、どのような数の最近代表点でも、所定の代表点からの距離の昇順でランク付けすることができる。このようにドローネー三角形分割の結果を効果的に用いて、所定の質問代表点位置周囲の局所的近傍における最近質問代表点を識別することができる。上記のように、本願の実施形態は、(カメラとソース画像の間の)透視形状、平面状表面、照明の変化、およびレンズ非線形性効果の想定が局所近傍において長い距離よりもはるかに顕著でないので、局所的近傍情報の利用を追求するものである。したがって、局所的近傍指紋の利用により、本願による提案された方法の堅牢性が大幅に向上する。
三角形分割モジュール1910は候補代表点のリスト全体に対して1回だけ適用される。三角形分割の結果はメモリに格納され、続いて個々の指紋処理プロセスで使用される。本願の実施形態による三角形分割の結果は、効率的探索を容易にするため質問代表点の順に編成された、各質問代表点からその最近傍までの連結線分のリストである。
三角形分割プロセス1910が完了すると、各候補質問代表点は質問指紋候補と見なされる。候補代表点は1個ずつ処理される。最新の候補質問代表点Qpは次代表点モジュール1920により入力リスト1905から順次選択される。各質問代表点Qpに関し、最近傍発見モジュール1930が、所定の代表点Qpに対する距離が最も近いN個の最近代表点(Nは所定の数)を識別する。最近傍発見モジュールは三角形分割の結果1910を用いて、Qpからの距離の昇順でソートされた最近質問代表点のリストをQpに返す。返されたリストの第1の要素は常に、距離がゼロの最新の質問代表点Qpである。数Nは上記で示したようにプログラム可能なシステムパラメータである。Nの値を大きくすると、より多くの近傍代表点が加わることにより指紋がより強力、特徴的になる傾向があると同時に、平均した指紋面積および計算の複雑性が増大する。本願の実施形態においては、N=8、12または16の値が用いられて成功している。
最近傍発見モジュール1930の出力は、(第1の入力として最新の質問代表点を含む)N個の最近質問代表点のリストである。本願の重要な態様は、どの方位においても指紋の認識および照合が可能なことである。オリジナルの入力画像と質問画像の間の完全な位置合せを期待することは多くの場合、非現実的である。質問画像はオリジナルの入力画像に対して斜めにするか、回転させるか、あるいは全体として知覚的に変換してもよい。したがって、本願の実施形態の重要な態様は、指紋のアフィンまたは射影変換に対し不変であることから持続的比率を基本的照合特徴として用いることである。
時計回り順ソートモジュール1940の目的は、時計回り方位昇順でN個の最近傍のリストをソートすることにより、上記回転依存性を除くことである。時計回りか反時計回りかの選択は、オリジナル文書コレクションに関して一貫して同じ方向で行なわれる限り任意である。当然ながら開始時の最近傍リストは(最近傍決定のため必要に応じて)距離の昇順にソートされる。質問代表点は、オリジナル文書コレクションと同じ方式で方位の昇順にソートされる。方位の順によるソーティングでは、上記と同じ方式で原点中心を安定化することが重要である。時計回り順ソートモジュール1940は質問代表点を時計回り方位昇順でソートする。ソーティングは、方位および距離の双方について行なわれる。主要な順序は方位の時計回り昇順である。しかし、2以上の質問代表点が、概ね同じ方位を有している場合(差異が所定の許容差レベル内)、それらの質問代表点は、方位がほぼ同じすべての代表点に関して距離の昇順に下位順序付けされる。これにより、代表点の順序が安定化しやすくなるとともに、小さなノイズおよび/または有限の精度誤差が順序付けに劇的な影響を及ぼすことを防止しやすくなる。
本願のある態様は、デジタルカメラまたは携帯電話カメラによる画像のスキャンまたは撮影プロセスの間に普通に発生する(例えば傾斜、曲がり、回転、並進、縮尺、解像度の変化などの)透視画像歪みに対して指紋を堅牢にすることにある。最良の場合でも、比較すべき参照画像なしに画像に対するカメラ位置および観測角度を推定することはかなり困難である。しかし、参照画像内容を格納することにより、記憶装置の要件が大幅に増大するだけでなく、情景を候補参照画像と照合するのにかかる時間も増大して、コレクションの大きさが中位である場合もシステムが急速に非実用的となる。代わりに、本願は、画像の回転、並進、縮尺などに関係なく同じ一定の値を有する持続的透視指紋の利用を提案するものである。これにより、この結果得られる指紋は透視歪みに対し堅牢化する。
局所的に平面状の対象の射影変換に関し、対象表面上の同一線上にない所定の4つの点{A,B,C,D}について、三角形面積比(ABC/ACD)はいかなる射影変換を受けても一定のままであることは当該技術において周知である。したがって、射影変換のもとで、ある三角面積比を算出するのに必要なのは4点のみである。射影変換は、多くの実際的状況において平面的物体形状に対するカメラを記述する良好適切なモデルを提供することが示されている。したがって本願の実施形態で略述したように、射影変換は縮小の実施に用いられる。しかし本願のさらに他の実施形態では、提案された方法を、より高次の変換を扱うように拡張することが可能である。例えば、ある射影変換では、2個の三角面積比の積である1個の持続的比率を算出するのに4点でなく5点が必要となる。
本願の実施形態の文脈では、持続的指紋は、時計回り順にソートされたN個の最近傍代表点のグループに関する量子化された変換比率の列からなる。指紋サイズを小さく保つため、変換比率はQレベルに量子化されるが、量Qは2の2進べき乗である。
上記のように時計回り方位でN個の最近傍のリストをソートした後、質問指絞プロセスは、個々の質問指紋を発生させる手順を開始する。
代表点除外モジュール1950は、E個の指紋代表点が欠落してもなお高精度で質問指紋を検出可能とすることにより、潜在的な候補質問指紋組合せの列を発生させる。例えば、質問指紋がN=8個の代表点の局所的近傍の使用に基づいている場合、代表点除外モジュール1950は、所定の時間に1個の質問代表点E=1が欠落した状態で、実現可能なすべての候補質問指紋の列を発生させる。第1質問代表点の欠落から始まり、代表点除外モジュール1950はさらに、第1質問代表点を除く他の7つの質問代表点を用いて候補質問指紋の実現可能なすべての組合せの列を発生させる。これが完了すると、代表点除外モジュール1950はさらに、第2の質問代表点を除く第1の質問代表点および残る6つの質問代表点を用いて、候補指紋の実現可能なすべての組合せの次の列を発生させる。このプロセスは、除外されるすべての質問代表点組合せが実行されるまで、N個の組から異なる質問代表点が除かれるたびに、この方式で繰り返される。上記例においては、質問指紋ごとにN=8個の質問代表点が存するので、質問代表点を1個除いた実現可能な組合せの数はこの場合8である。代表点除外モジュール1950の動作は上記と同様である。
代表点を除外しない本願の他の実施形態では、代表点除外モジュール1950はバイパスされ、N個の最近傍質問代表点のソートされたリストが、質問代表点の除外なしに出力へ直接渡される。
次部分群組合せモジュール1960は、(N−E)の最近傍質問代表点のソートされたリストからP個の質問代表点(P<N)の最新の部分群を選択する(Pは基礎的変換に関して1個の持続的比率を算出するために必要な点の数(アフィン変換ではP=4、射影変換ではP=5など))。P近傍質問代表点部分群は、一度に1つずつ順次処理される。続いてシステムは、系統的かつ一貫した方式で実現可能なすべてのP部分群組合せを選択する。そのようなP部分群の総数は、(N−E)の質問代表点から独自のP個の代表点を選択するための組合せの数によって決定される。例えば、N=8、E=1、P=4の場合、実現可能な部分群の組合せの数は35個の持続的比率となる。
各独自の質問部分群組合せについて、量子化比率付加モジュール1970は、上記方法に従って1個の持続的比率を算出し、続いてこれを上記のように1組の所定のしきい値を用いて量子化する。量子化レベルQの数は設計パラメータである。指紋強度は量子化レベルの数とともに緩慢に向上する。Q=8またはQ=16のレベルにおいて、精度と機械印刷テキスト文書の小さい符号サイズとの良好なトレードオフが得られる。量子化しきい値は、機械印刷テキスト文書の大規模コレクションにおける持続的比率の分布を調査することにより、経験に基づいて決定される。簡単な指紋照合を容易にするため、文書コレクションに関して同じ量子化レベルを維持することが重要である。
本願のある実施形態では、ノイズの存在時にすぐれた質問指紋照合の実現を助けるための改良点として、ノイズ防護モジュール1971が導入される。ノイズ防護モジュール1971は、質問指紋列における三角比のうち1以上が偶然、量子化しきい値の1つのいずれかの側に極めて接近する場合に対処するように設計されている。量子化しきい値のいずれの側が正しいかを知ることはできない。例えば、三角比の観測値が8.500001であり、レベルQ=「3」に関する量子化しきい値が8.5である場合を想定する。この三角比は(いかにわずかであっても)量子化しきい値より大きいので、直接的な結果としてレベル「3」に量子化される。しかし、三角比の値が実際に8.5を下回り、わずかなノイズおよび有限の精度による演算丸め誤差により観測値がしきい値を越えることは十分にありうる。後者の場合、望ましい量子化レベルは当然ながら「3」ではなく「2」となるべきである。ノイズ防護モジュール1971が無い場合、量子化の結果が正しいものとなる確率は50%である。ノイズのために誤った量子化値が得られると、結果的な質問指紋はオリジナル文書の指紋と一致しなくなる。
上記説明に基づき、標準的量子化方式は、量子化しきい値の直近でのノイズに対する感応性において欠点を有することが容易に明らかとなる。わずかなノイズまたは演算精度丸め誤差により量子化レベルが放棄され、(この指紋に関して)質問指紋照合が失敗する場合がある。本願のある実施形態では、この状態を検出し修正処置をとるためノイズ防護モジュール1971が導入される。ノイズ防護モジュール1971は、量子化の前に最新の三角比の値を監視する。この値から所定の量子化しきい値の1つまでの距離が所定のパラメータを下回って小さすぎる場合、ノイズ防護モジュール1971が、2つの可能な候補として例えば「2」および「3」を有する双方の量子化数列を発生させることにより、適正な選択が結果的な候補の中に常に含まれるようになっている。
ノイズ防護モジュール1971を用いる利点は、量子化ノイズ感応性を低減することにより指紋処理の堅牢性が向上することにある。しかしこれは、量子化がしきい値に接近するごとに候補指紋列の数が倍加するので、付加的な計算の代償として達成される。しかしながら、三角比がしきい値に接近する事象は、(質問画像のノイズレベルにもよるが)非常に稀有なので、平均してその影響はさほど重大でない。さらに、(多くの比率が量子化しきい値に接近している指紋はあまり特徴的でないので)全体的な性能レベルを維持するため、各指紋にノイズ防護を適用する回数には上限が設定される。本願のある実施形態では、わずかな時間増加のみで全体的な照合性能を向上させるため、数字5個の変化、すなわち25=32通りの異なる指紋列を上限とするノイズ防護モジュールを用いた。
次の量子化比率を算出して質問指紋列に加えるプロセスは、質問代表点の最終の組合せが最終組合せモジュール1975により検出されるまで、一度に1個の持続的比率によって順次続けられる。最新のP部分群組合せがまだ最終の組合せ1976でない場合、最終組合せモジュール1975はフローを次部分群組合せモジュール1960に戻し、次のP部分群を取得して、その量子化された持続的比率の計算および質問指紋列への追加を引き続き行なう。このプロセスは、最終のP部分群組合せが処理される(1977)まで続く。このとき、結果的な質問指紋列は第1置換モジュール1980に送られる。
第1置換モジュール1980は、ソート置換モジュールと同様の様態で動作する。しかし、質問の場合、第1置換モジュール1980は、すべての実現可能な置換を発生させるわけではない。単一の置換、すなわち最初のものを発生させるのみである。指紋データベース(例えば図3A、3Bの350)内で指紋を発生させるのに用いられる目標入力画像に対して質問画像が異なる方位となる問題に対処するため、指紋列は置換される。例えば、質問ページは想定された射影変換により、回転、鏡映、水平または垂直の反転、斜行、切断および/または拡大縮小させてもよい。特に質問画像が何らかの欠落またはオリジナル画像の部分的に遮られた部分を有しているか、オリジナル目標情景にない新規の内容が導入されている場合、任意の画像内容の解析により上記射影変換パラメータを正確に決定することは、概して困難かつ時間がかかる。同様に、質問画像は、コレクション内の目標画像に対して異なる時間、時期、情景照明(例えば太陽の位置および影の詳細などに関するもの)で取得してもよい。
本願の1つの利点は、指紋比率の量子化された値が、射影変換パラメータに関係なく射影変換を受けても同じ値を保持するはずということである。
しかし、個々の量子化比率が同じ場合でも、所定の指紋の量子化比率の特定の列は、その代表点の特定の順序に依存している。質問画像は、対応するオリジナル目標画像に対して異なる方位を有することがあるので、各画像における代表点の順序も異なる可能性がある。置換工程1980の目的は、質問指紋列を、ファンツリー構造内に格納される文書コレクションの対応する指紋列の同じ順序で配置することであり、それにより質問指紋列と文書指紋列とが高速かつ効率的な方式で直接比較されるようになっている。
本願の実施形態においては、候補指紋列は最小共通最小量子化数字法に従って置換される。最小共通最小量子化数字を決定するため指紋数字列のヒストグラムが実施される。指紋列の数字は、各値の種類ごとに何個が存在するかを決定するために計数される。最小共通最小数字は、指紋数字列に少なくとも1度現れる最小頻度最小数字、すなわち計数が非ゼロである最小の数字である。
質問指紋列内の最小共通最小数字の値を決定した後、指紋列内の最小共通最小数字の最初の位置を決定するため指紋列が走査される。この位置に関して、最小共通最小数字の位置までの列の開始部分は指紋列の終端へ置換される一方、開始部分および終端部分の内部配列は不変に保たれる。
本願のある実施形態に従った2つの置換を有する指紋の一例を考察する。
オリジナル指紋=「14603616376756326322477662652206667」
置換1=「03616376756326322477662652206667146」
置換2=「06667146036163767563263224776626522」
最小共通最小数字「0」は、オリジナル指紋列内の位置3および30に見出される。これらの位置は、オリジナル指紋列の下の「∧」標識により示されている。第1の置換、すなわち置換1は、数列の第1の数字から最小共通最小数字「0」の位置までの列の開始数列「146」を移動させ、最後の数字を越えて数列の終端に再配置することにより形成される。置換の下の「∧」標識は、置換された列内で移動部分が開始する位置を示すものである。さらに、第2の置換、すなわち置換2は最初の30個の数字位置を移動させることにより同様に得られる。
本願のある実施形態では、第1置換モジュール1980は、上記例において第1の置換、すなわち置換1のみを返す。置換1は列の開始位置からの探索の間に(指紋列の位置3において)最初に発見されるので第1の置換と見なされる。指紋列のすべての置換を返す図16のソート置換モジュール1650と異なり、第1置換モジュール1980は、最小共通最小数字の最初の位置を発見すると停止し、質問指紋列の第1の置換のみを返す。
置換された質問指紋列は当初の質問指紋列の代わりに用いられる。置換を用いる利点は、照合が必要な候補指紋列の数が大幅に減ることである。当初の指紋列の実現可能なすべての循環組合せを試験する代わりに、最小共通最小数字のわずかな置換のみが考察される。実現可能なすべての置換は、指紋データベース準備の間に前もって生成、格納される。しかし質問時間においては、質問指紋列の第1の置換が照合のために用いられる。質問時間においては、すべての実現可能な置換がすでに前もって準備されていて、照合プロセス中に適正なものが自動的に発見されるので、第1の置換を越えて付加的な置換を使用する必要はない。本願の実施形態による置換の使用により、平均した置換の数は当初の指紋列の長さよりもはるかに小さいので、わずかな記憶装置の拡張で顕著な性能向上がもたらされる。
置換された質問指紋列は、指絞照合モジュール1981において、本願のファンツリー法を用いて適切な文書コレクション指紋と照合される。最新の指紋列に関する一致が存在しない場合(1982)、プロセスが進んで、最終の除外代表点組合せであるか否かが照査される(1990)。最終の除外代表点組合せでない場合(1991)、手順は代表点除外モジュール1950に戻り、「はい」の場合(1992)、最終代表点1995が質問される。指絞照合モジュール1981のさらなる詳細は、以下の各節において説明される。
特定の質問指紋組合せについて最初に一致が発見されると、一致更新カウンタアレイモジュール1985は、一致する指紋を含むコレクション文書について一致指紋の観測計数をインクリメントする。さらに、最初の一致が発見されると、最新の質問指紋に関する付加的な質問指紋組合せを照査し続ける必要はない。したがって、一致が発見されると、一致更新カウンタアレイモジュール1985から出るフローは、すべての除外された質問代表点組合せがすでに完了したかのように、最終代表点モジュール1995に進められる。
最新の質問指紋組合せが文書コレクションに関して適切な候補指紋のいずれとも一致しない場合、フローは代表点除外モジュール1950に戻され、次の質問代表点を除外して次の候補質問指紋組合せが処理される。このプロセスは、上記のようにノイズ防護モジュール1971により発生する付加的な質問指紋組合せを含む適切な文書コレクション指紋との潜在的照合のため、除外質問代表点のすべての可能な組合せが照査されるまで続く。
最後に、質問指紋を照合するプロセスは、最終の質問代表点が最終代表点モジュール1995により検出される(1997)まで、残る質問代表点すべてについて一度に質問指紋1個ずつ順次続けられる(1996)。最新の質問代表点組合せがまだ最終の質問代表点でない場合、最終代表点モジュール1995はフローを次代表点取得モジュール1920に戻し、次の質問代表点を取得して、引き続き適切な文書コレクション指紋に対する質問指紋の計算照合工程を繰り返す。指絞照合プロセスは、このようにして最終の対応する指紋の最終の質問代表点組合せが処理され、質問画像全体に関してその照合の結果が一致カウンタアレイ1985に追加されるまで続き、1999で終了する。
I.c.4 質問指紋一致の計数
本節では、図19の指紋照合モジュール1981を詳細に説明する。指紋照合を高速かつ効率的にするために留意すべきことがいくつかある。
質問指紋照合モジュール1981は、照合結果を追跡するためメモリ内で3種類のデータアレイ構造を保持および利用する。
(a)文書確認(SeenDocs)アレイは、最新の質問指紋照合の間にそれまで遭遇した文書IDのリストを内包している。文書確認リストは各新規の質問指紋組合せの開始によりクリアされる。
(b)指紋確認(SeenFinger)アレイは、最新の質問指紋照合の間にそれまで遭遇した文書IDごとの指紋IDのリストを内包している。指紋確認アレイは新規の質問画像ごとにクリアされる。
(c)一致計数(MatchCount)アレイは、最新の質問指紋照合の間にそれまで遭遇した文書IDごとの一致指紋の計数のリストを内包している。一致計数アレイは新規の質問画像ごとにクリアされる。本願の実施形態では、上記アレイ(b)および(c)内の文書画像に、連続した画像索引番号が簡便に割り当てられることに留意すべきである。画像索引から固有の画像ID番号への変換は、別のデータ構造内で続行される。
指紋照合モジュール1981の詳細なブロック図を図20に示す。指紋照合プロセス2000は、第1置換モジュール1980の出力からの質問指紋組合せ列により開始される(すなわち開始2005)。質問指紋組合せは上記のように最小共通量子化数字に従って置換されている。質問列取得モジュール2010は、利用可能なセットから照合すべき最新の質問指紋組合せ列を取得する。
ファンツリーアドレスモジュール2015は、最新の質問指紋列を用いてファンツリー構造内の指紋経路を辿る。万一、ファンツリー経路に沿った点において最新のツリーノードが行き止まり(すなわち非占有のツリーノード)になっている場合、最新指紋の照合が終了し、プロセスが最終質問モジュール2095に進められ、照合すべき次の質問指紋列に移行する(すなわち2096)か、最終の質問指紋であった場合はプロセスが終了する(2099)。ツリーノードが空白である場合は異常な状況である。これは、量子化された質問指紋列をもはや一致させない歪みおよびノイズにより、最新の質問指紋列が重大な劣化を受けている場合に起こりうる。これが(所定のページに関する数千のうち)ほんの少数の指紋組合せに生じたものであれば、空白ノードの場合は単純に無視することができる。しかし、多数の質問指紋が(空白のツリーノードにつながる)この挙動を示し始めた場合、質問画像が文書コレクション内に類似の一致画像を持たないかもしれないという良好な証拠となる。
通常の状況では、ファンツリーアドレスモジュール2015は、ルートノードから始まってリーフノードで終了するファンツリーを通る最新の質問指紋経路を辿る。リーフノードリスト取得モジュール2020は、照合すべき適切な指紋記録のリストを含む対応するリーフノードリストのアドレスを検索する。
リスト記録取得モジュール2025は、リーフノードリスト内の最新の指紋記録を検索する。リスト記録取得モジュール2025は、指紋記録から指紋列「コレクション指紋」2027を抽出し、これを出力へ送る。列比較モジュール2030は次に、質問指紋列「質問指紋」2026をリーフノードリストからの最新の目標指紋列2027と比較する。正確一致モジュール2035は、2つの指紋列、すなわち同じ値を有する量子化比率の各対応する対の間の正確な一致を探索する。量子化比率の位置1箇所であっても、1箇所の不一致で、一致無しを宣言するのに十分である。質問指紋列と最新のリーフノードリスト入力との正確な一致が見られない場合(2031)、フローが最終リスト入力モジュール2090に進められ、次のリーフノードリスト入力、すなわちコレクションからの次の候補目標指紋に移行する。
しかし、質問指紋列と最新のリーフノードリスト入力指紋列との間に正確な一致が見られる場合(2032)は、ページID/指紋ID取得モジュール2040が(あらかじめ発生させた)最新のリーフノードリスト記録から最新の固有画像IDおよび指紋IDを検索する。ページID確認モジュール2045は、文書確認アレイ内の固有画像IDを調査して、最新の質問指紋照合の間に最新の文書との遭遇がすでに見られるかどうかを判定する。すでに遭遇が見られる場合(2046)、ページ索引取得モジュール2050は、固有画像ID番号を用いて、写像表から最新文書の対応するページ索引を検索する。そうでない場合(2047)、最新文書は、まだ遭遇していない新規の文書である。新規ページ索引モジュール2060は、最新文書に新しいページ索引番号を割り当て、遭遇があったことを示すため固有画像ID番号を用いて文書確認アレイに新規の入力を加える。同時に、新規ページ索引モジュール2060は、最新ページ索引アドレスにおいて一致計数アレイに新規の入力を加え、その値をこの新規に遭遇したページの初期一致指紋計数としてゼロに初期化する。
次に、指紋ID確認モジュール2080が、最新のリーフノードリスト記録2040から得られた最新の指紋IDが最新の質問指紋照合の間にすでに遭遇を経ているかどうかを調査する。指紋IDを照査する理由は、除外代表点の異なる組合せごとに各指紋がファンツリーに複数回入力されるからである。例えば、N=8、E=1、P=4の場合、欠落代表点を許容するため、異なる代表点が除外されるごとに各指紋がファンツリーに8回入力される。しかし、上記のように、8個の代表点すべてが質問画像および目標画像の双方に存する場合(すなわち欠落代表点無し)、8つの組合せすべてが正確に一致することになる。したがって、除外代表点の複数の指紋組合せによって他の文書よりも多くの計数を得る文書が存在しないよう、各指紋の指紋IDを追跡することが必要である。本願の実施形態では、この問題の解決策として、指紋IDが照査され、各指紋IDに関して一致計数アレイが1回だけ確実にインクリメントされる。指紋ID確認2080の照査は、指紋確認アレイによって実現される。指紋確認アレイは各質問画像の最初にクリアされる。特定の指紋IDの最初の遭遇があると、アレイ内の対応する指紋ID入力は非ゼロにされる。よって指紋IDの状態は、以前に遭遇があろうとなかろうと、指紋確認アレイの各指紋ID入力の(ゼロまたは非ゼロの)状態によって容易に追跡することができる。
最新の指紋IDが指紋ID確認モジュール2080によってすでに遭遇を経ている場合、一致計数アレイ2081をインクリメントする必要はない。指紋入力更新モジュール2055は、必要に応じページ索引および指紋IDにより指紋確認アレイを更新するだけである。他方、最新の指紋IDが指紋ID確認モジュール2080による遭遇を経ていない場合(2082)、新規指紋入力モジュール2065は新しい指紋確認入力を割り当て、その内容を最新ページ索引に関する最新の指紋ID値2040に設定する。さらに、これが最新の質問指紋照合の間のこの特定の指紋IDの最初の遭遇なので、「一致計数+1」(ページ計数)モジュール2070は、最新のページ索引に関する一致計数アレイの内容を1だけインクリメントする。
質問指紋列とファンツリーリーフノードからの最新の指紋列との照合が完了した後、最終リスト入力モジュール2090が、リーフノードリスト内にまだ照合していないさらに多くの目標指紋入力が存在するかどうかを確認する。最新の指紋記録がまだ最終リーフノード入力2091でない場合、リスト入力モジュール2090はフローを記録取得モジュール2025に戻し、リーフノードリストから次の目標指紋記録を取得して、質問指紋列との照合を引き続き行なう。この対の照合プロセスは、最終の目標指紋記録が処理される(2092)まで続く。
最新のリーフノードリストにおけるすべての指紋記録が検索され、最新の質問指紋列と指紋照合された後、手順は最終質問モジュール2095に移行する。これが最終候補質問指紋列でない場合(2096)、プロセスは質問列取得モジュール2010に戻され、次の候補質問指紋組合せを処理してさらに、適切な目標指紋列の自身のリーフノードリストとの照合を行なう。これは質問指紋列のすべての可能な組合せが適切なファンツリー内容2097と照合されるまで続く。
指紋照合プロセスの最終結果は一致計数アレイの内容であり、これは、質問画像2099と一致する少なくとも1個の指紋を有するコレクション内の各文書に関する一致指紋の計数を含んでいる。一致計数アレイ内の入力の数は、質問照合プロセスの間に遭遇した新しい文書の数と同じである。一致計数アレイ内の文書入力は、それらの現在のページ索引によりアドレス指定されることに留意すべきである。しかし、ページ索引は、質問照合プロセスの間に作成される写像表を調査することにより、固有画像ID番号へ容易に変換が可能である。
最後に、一致計数アレイ内の照合結果は、最終得点解析およびコレクション内の最良一致文書または文書セットの判定のため、図17の指紋解析モジュール1760に送られる。
I.c.5.最終決定
質問指紋照合プロセスの間、一致計数アレイは、質問画像と一致する少なくとも1個の指紋を有する適切な文書の各々に関する一致指紋の数を蓄積する。一般的に、コレクション内のある文書、一致する文書は多くの一致指紋(高い計数)を有する一方、他の少数の文書は、特にコレクションの規模が大きい場合に一時的な一致指紋をわずかしか有さないことがある。
一致計数アレイの結果内容は、最終得点解析およびコレクション内の最良一致文書または文書セットの判定のため、図17の指紋解析モジュール1760に送られる。多くの照合目的が存在しうる。目的が文書コレクション内で最良の画像の一致を発見することである場合、高得点により最多の指紋の一致を集めた画像IDが返される。さらに、一致計数を信頼性の数値として用いて、指紋一致の所定の最小数より小さいページの一致を除外し、歪みおよび/またはノイズによる一時的な少数の孤立した計数を除外することができる。画像内容により、他よりも多くの指紋を有するページが存することがあるので、これらの計数をあるページ上の指紋の総数によって正規化し、より均一な測度を得ることができる。
代替的に、上記目的は、一致指紋計数の所定の最小値または最小の上記信頼性レベルを満たすコレクションまたはそのサブセット内の一致するすべての画像のリストを返すことであってもよい。
本願のある実施形態では、オリジナルの画像領域をサブイメージの格子に重ね合わせるか重ねずに細分化し、良好な指紋一致が得られる領域の大まかな密度プロファイルを得るため、各サブイメージ内で指紋照合解析を別個に実施してもよい。後者の解析は、オリジナル画像の一部が欠落または情景内の他の対象により部分的に隠されている状況に特に適している。この場合、質問と、欠落がないかまたは隠されていないオリジナルとの共通画像領域でも、なお、高い一致指紋計数が得られる。
本願のさらに別の実施形態では、上記で概説したようなサブイメージへの分割による画像のゾーニングを用いて、ある画像領域の他に対する重みを強くすることができる。例えば、焦点を合わせた対象において、画像の中心付近の指紋一致により大きな重みを付し、外縁部の指紋一致にはより小さな重みを付けることである。この方法は、画像の外側境界に沿ったフレーム境界アーティファクトの除去に関して特に有用である。例えば、電子的オリジナル、スキャナや携帯電話カメラなど(それらに限定されない)からの取り込まれた画像、画像の印刷物などの様々な供給源からの画像を照合する場合である。取り込まれた画像は、オリジナル画像の一部分でない縁部や白紙枠を含むことがある。後者の技法を用いて、上記画像ゾーニング技法を利用し紙の白色やブルースクリーンなどに対する回転した画像隅部などであるがそれらに限定されない、人工的背景の導入による画像境界に沿った候補代表点の形成を効果的に防止することができる。
図17に引き続き注目すると、指紋解析モジュール1760の出力は、1個以上の一致画像IDの最終リストである。(文書URL調査モジュール1780により実施される)次の工程において、このリストは、内部の固有画像ID整数表現から、一致する文書または文書セットの位置および対応するページ番号を識別する真の文書URLに変換される。指紋データベース550の生成時に固有画像IDモジュール(図5の540)により作成される逆写像表を用いて、固有画像IDを表に対する索引として使用し、当該文書URLが調査される。この時点で、一致した目標文書を、図1の構成要素の1つにより、印刷、電子的に伝達、表示および/または格納してもよい。上記説明において、単語モジュールの使用は、このシステムの方法で実施される1つの工程および/または複数の工程を含むものと理解してよいことが理解されるべきである。
100 コンピュータネットワーク、102 ワイヤ、104 ワイヤ接合部、106 第3ワイヤ、108 コンピュータ、109 コンピュータ、110 カラープリンタ、112 カラー以外のプリンタ、120 カラーレーザープリンタ、122 カラーレーザープリンタ、124 カラー以外のレーザープリンタ、130 スキャナ、140 ファクシミリ機器、150 写真複写機、152 カラー写真複写機、154 複合カラープリンタ/スキャナ/ファクシミリ機器、160 パーソナルコンピュータおよび/またはスタンドアロンのコンピュータ端末、164 スタンドアロンのハードドライブデータ記憶媒体、170 無線ネットワーク送受信機、172 ラップトップコンピュータ、174 ラップトップコンピュータ、180 ネットワーク、190 周辺データ捕捉装置、191 デジタルスチルカメラ、192 デジタルビデオカメラ、193 携帯電話、194 スキャナ、195 携帯データ端末、196 文書索引付けシステム。

Claims (9)

  1. 質問文書の質問画像内の代表点と、潜在的目標文書のコレクションの潜在的目標文書画像内の代表点とを含む、画像内の代表点を識別するステップと、
    前記代表点から指紋情報を生成するステップであって、該指紋情報と付随する画像とが、高次元空間における近傍探索を可能にするファンツリー構造に編成され、前記ファンツリー構造により提供される前記近傍探索が、前記質問画像の同一指紋より所定の許容差だけ少ない指紋を含むニアミス指紋の調査を支援する、指紋情報を生成するステップと、
    前記質問画像の前記指紋情報を、前記潜在的目標文書の前記コレクション内の前記潜在的目標文書画像の前記指紋情報と比較するステップと、
    前記質問画像と前記潜在的目標文書画像との前記指紋情報の最良の一致を判定するステップと、
    前記判定ステップに基づき少なくとも1個の目標文書画像を検索するステップと、
    検索された少なくとも1個の前記目標文書画像の表示、印刷、格納、伝送の少なくとも1つを行なうステップと、
    を含む、画像データを格納、索引付け、探索および/または検索する画像管理方法。
  2. 請求項1に記載の方法であって、さらに、
    実現可能な指紋置換の必要最小限のセットを生成し、該必要最小限のセットを前記ファンツリーに登録するステップを含む。
  3. 請求項1に記載の方法において、
    画像の原点中心は、画像の局所的な指紋の近傍で最も近い代表点であると判定された代表点の集合のサブセットから算出される。
  4. 請求項1に記載の方法において、
    前記指紋は、量子化された変換不変な2次元持続的比率の列を用いて算出される。
  5. 請求項1に記載の方法において、
    前記指紋は、該指紋を表す数字の列に適用される最小共通最小量子化数字法に基づき、代表点の近傍から算出され、
    前記最小共通最小量子化数字法は、
    指紋列における最小共通最小数字の値を決定するステップと、
    前記指紋列を走査して該列内の前記最小共通最小数字の位置を決定するステップと、
    前記指紋列の各位置に関し、前記最小共通最小数字の位置までの前記指紋列の開始部分を該指紋列の終端に置換し、前記開始部分および終端部分の内部配列は変更しない、ステップと、
    を含む。
  6. 質問文書の質問画像内の代表点と、潜在的目標文書のコレクションの潜在的目標文書画像内の代表点とを含む画像内の代表点を識別するように構成された識別モジュールと、
    前記代表点から指紋情報を生成するように構成された指紋生成モジュールであって、該指紋情報の指紋が量子化された変換不変な2次元持続的比率の列であり、かつ前記指紋情報と付随する画像とがファンツリー構造に編成されている、指紋生成モジュールと、
    前記質問画像の前記指紋情報を、前記潜在的目標文書の前記コレクション内の前記潜在的目標文書画像の前記指紋情報と比較するように構成された比較モジュールと、
    前記質問画像と前記潜在的目標文書画像との前記指紋情報の最良の一致を判定するように構成された照合モジュールと、
    該判定に基づき少なくとも1個の目標文書画像を検索するように構成された検索モジュールと、
    検索された少なくとも1個の前記目標文書画像を表示、印刷、格納または伝送するための電子ディスプレイ、プリンタ、記憶装置またはコンピュータネットワークのうち少なくとも1つと、
    を備え、ノイズ防護法を用いて誤差を補償する、画像データを格納、索引付け、探索および/または検索するコンピュータで使用可能なシステム内の画像管理システム。
  7. 請求項6に記載のシステムにおいて、
    前記指紋は、量子化された変換不変な2次元持続的比率の列を用いて算出される。
  8. 請求項1に記載の方法において、
    前記ファンツリー構造により提供される高次元空間での近傍検索は、トレーニング画像、及びコンピュータビジョンにおける特定3次元物体の予想概念を使用することなく、単一の画像を使用するだけでニアミス指紋の調査を支援する。
  9. 請求項1に記載の方法において、
    前記画像には、少なくともテキストが含まれ、
    前記テキストの検索は、画像の視覚的中心を算出する重心を使用して行われる。
JP2009148493A 2008-06-27 2009-06-23 局所的視覚的2次元指紋を用いた、文書コレクション内の文書画像を発見する方法およびシステム Expired - Fee Related JP5183578B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/147,624 US8233722B2 (en) 2008-06-27 2008-06-27 Method and system for finding a document image in a document collection using localized two-dimensional visual fingerprints
US12/147,624 2008-06-27

Publications (3)

Publication Number Publication Date
JP2010009597A JP2010009597A (ja) 2010-01-14
JP2010009597A5 JP2010009597A5 (ja) 2012-08-09
JP5183578B2 true JP5183578B2 (ja) 2013-04-17

Family

ID=41138613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009148493A Expired - Fee Related JP5183578B2 (ja) 2008-06-27 2009-06-23 局所的視覚的2次元指紋を用いた、文書コレクション内の文書画像を発見する方法およびシステム

Country Status (3)

Country Link
US (1) US8233722B2 (ja)
EP (1) EP2138953B1 (ja)
JP (1) JP5183578B2 (ja)

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7953279B2 (en) 2007-06-28 2011-05-31 Microsoft Corporation Combining online and offline recognizers in a handwriting recognition system
WO2009008051A1 (ja) * 2007-07-09 2009-01-15 Fujitsu Limited 利用者認証装置、利用者認証方法および利用者認証プログラム
US9183582B2 (en) 2007-10-26 2015-11-10 Zazzle Inc. Tiling process for digital image retrieval
US9147213B2 (en) 2007-10-26 2015-09-29 Zazzle Inc. Visualizing a custom product in situ
US20130297353A1 (en) * 2008-01-18 2013-11-07 Mitek Systems Systems and methods for filing insurance claims using mobile imaging
WO2009111047A2 (en) 2008-03-05 2009-09-11 Ebay Inc. Method and apparatus for image recognition services
US9495386B2 (en) * 2008-03-05 2016-11-15 Ebay Inc. Identification of items depicted in images
US8086502B2 (en) 2008-03-31 2011-12-27 Ebay Inc. Method and system for mobile publication
US8144947B2 (en) * 2008-06-27 2012-03-27 Palo Alto Research Center Incorporated System and method for finding a picture image in an image collection using localized two-dimensional visual fingerprints
US8233716B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated System and method for finding stable keypoints in a picture image using localized scale space properties
US8818978B2 (en) 2008-08-15 2014-08-26 Ebay Inc. Sharing item images using a similarity score
US8825660B2 (en) 2009-03-17 2014-09-02 Ebay Inc. Image-based indexing in a network-based marketplace
US8548193B2 (en) * 2009-09-03 2013-10-01 Palo Alto Research Center Incorporated Method and apparatus for navigating an electronic magnifier over a target document
JP5676184B2 (ja) * 2009-09-14 2015-02-25 トムソン ライセンシングThomson Licensing 画像系列を時間的に位置合わせする方法及びレジストレーション装置
US9164577B2 (en) 2009-12-22 2015-10-20 Ebay Inc. Augmented reality system, method, and apparatus for displaying an item image in a contextual environment
US9514103B2 (en) * 2010-02-05 2016-12-06 Palo Alto Research Center Incorporated Effective system and method for visual document comparison using localized two-dimensional visual fingerprints
US8086039B2 (en) 2010-02-05 2011-12-27 Palo Alto Research Center Incorporated Fine-grained visual document fingerprinting for accurate document comparison and retrieval
US9233399B2 (en) * 2010-02-09 2016-01-12 Xerox Corporation Document separation by document sequence reconstruction based on information capture
US9922354B2 (en) 2010-04-02 2018-03-20 Apple Inc. In application purchasing
US20110246618A1 (en) 2010-04-02 2011-10-06 Apple Inc. Caching multiple views corresponding to multiple aspect ratios
US8615432B2 (en) 2010-04-02 2013-12-24 Apple Inc. Background process for providing targeted content within a third-party application
US8285058B2 (en) 2010-05-14 2012-10-09 Palo Alto Research Center Incorporated Learning image templates for content anchoring and data extraction
US8285057B2 (en) 2010-05-14 2012-10-09 Palo Alto Research Center Incorporated Learning image anchor templates for document classification
US9213920B2 (en) 2010-05-28 2015-12-15 Zazzle.Com, Inc. Using infrared imaging to create digital images for use in product customization
US9110749B2 (en) 2010-06-01 2015-08-18 Apple Inc. Digital content bundle
US8285074B2 (en) 2010-09-01 2012-10-09 Palo Alto Research Center Incorporated Finding low variance regions in document images for generating image anchor templates for content anchoring, data extraction, and document classification
EP2617012B1 (en) * 2010-09-16 2015-06-17 Mor Research Applications Ltd. Method and system for analyzing images
US10127606B2 (en) 2010-10-13 2018-11-13 Ebay Inc. Augmented reality system and method for visualizing an item
CN102368237B (zh) * 2010-10-18 2013-03-27 中国科学技术大学 图像检索方法、装置及系统
US8554021B2 (en) 2010-10-19 2013-10-08 Palo Alto Research Center Incorporated Finding similar content in a mixed collection of presentation and rich document content using two-dimensional visual fingerprints
US8750624B2 (en) * 2010-10-19 2014-06-10 Doron Kletter Detection of duplicate document content using two-dimensional visual fingerprinting
CN102622366B (zh) 2011-01-28 2014-07-30 阿里巴巴集团控股有限公司 相似图像的识别方法和装置
JP5660574B2 (ja) * 2011-03-02 2015-01-28 公立大学法人大阪府立大学 文書画像データベースの登録方法および検索方法
US9449342B2 (en) 2011-10-27 2016-09-20 Ebay Inc. System and method for visualization of items in an environment using augmented reality
US8892572B2 (en) * 2011-12-30 2014-11-18 Cellco Partnership Video search system and method of use
US9934522B2 (en) 2012-03-22 2018-04-03 Ebay Inc. Systems and methods for batch- listing items stored offline on a mobile device
US10685234B2 (en) 2012-03-31 2020-06-16 Xerox Corporation Automatic and semi-automatic metadata generation via inheritance in homogeneous and heterogeneous environments
US8880899B1 (en) * 2012-04-26 2014-11-04 Google Inc. Systems and methods for facilitating flip-resistant media fingerprinting
US8831339B2 (en) 2012-06-19 2014-09-09 Palo Alto Research Center Incorporated Weighted feature voting for classification using a graph lattice
US9053579B2 (en) * 2012-06-19 2015-06-09 Palo Alto Research Center Incorporated Selective learning for growing a graph lattice
US10846766B2 (en) 2012-06-29 2020-11-24 Ebay Inc. Contextual menus based on image recognition
US8792715B2 (en) 2012-07-02 2014-07-29 Palo Alto Research Center Incorporated System and method for forms classification by line-art alignment
CN103324650A (zh) * 2012-10-23 2013-09-25 深圳市宜搜科技发展有限公司 一种图像检索方法及系统
KR102031284B1 (ko) * 2013-03-14 2019-11-08 삼성전자주식회사 연속 촬영된 이미지를 합성하는 전자 장치 및 방법
US8712566B1 (en) 2013-03-14 2014-04-29 Zazzle Inc. Segmentation of a product markup image based on color and color differences
IL226219A (en) * 2013-05-07 2016-10-31 Picscout (Israel) Ltd Efficient comparison of images for large groups of images
US20150052174A1 (en) * 2013-08-13 2015-02-19 Samsung Electronics Co., Ltd. Adaptive binning of verification data
US9104940B2 (en) * 2013-08-30 2015-08-11 Konica Minolta Laboratory U.S.A., Inc. Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines
US9141676B2 (en) * 2013-12-02 2015-09-22 Rakuten Usa, Inc. Systems and methods of modeling object networks
CN103699691B (zh) * 2014-01-10 2017-09-12 五八同城信息技术有限公司 生成图像指纹及基于此进行相似图像检索的方法
US9172842B2 (en) * 2014-03-07 2015-10-27 Lexmark International, Inc. Image binarization for optical character recognition
WO2016018458A1 (en) * 2014-07-30 2016-02-04 Hewlett-Packard Development Company, L.P. Selection of machine-readable link type
GB2529427B (en) * 2014-08-19 2021-12-08 Zebra Tech Corp Processing query image data
US10346256B1 (en) * 2014-12-19 2019-07-09 EMC IP Holding Company LLC Client side cache for deduplication backup systems
KR101713197B1 (ko) * 2015-04-01 2017-03-09 주식회사 씨케이앤비 서버 컴퓨팅 장치 및 이를 이용한 콘텐츠 인식 기반의 영상 검색 시스템
US9836535B2 (en) * 2015-08-25 2017-12-05 TCL Research America Inc. Method and system for content retrieval based on rate-coverage optimization
US9946918B2 (en) * 2015-11-16 2018-04-17 MorphoTrak, LLC Symbol detection for desired image reconstruction
US10136103B2 (en) * 2015-11-23 2018-11-20 Lexmark International, Inc. Identifying consumer products in images
CN109145926B (zh) * 2017-06-13 2023-04-18 腾讯科技(深圳)有限公司 相似图片识别方法及计算机设备
JP6798430B2 (ja) * 2017-06-15 2020-12-09 京セラドキュメントソリューションズ株式会社 画像形成装置
US10803291B2 (en) * 2017-11-17 2020-10-13 Pixart Imaging Inc. Encoding and decoding method and information recognition device using the same
CN109033933A (zh) * 2018-05-24 2018-12-18 太仓鸿策创达广告策划有限公司 一种指纹对比系统
US11080324B2 (en) * 2018-12-03 2021-08-03 Accenture Global Solutions Limited Text domain image retrieval
US11100331B2 (en) 2019-01-23 2021-08-24 Everseen Limited System and method for detecting scan irregularities at self-checkout terminals
CN111984852B (zh) * 2019-05-21 2024-08-13 微软技术许可有限责任公司 生成式图像获取
US10963733B2 (en) 2019-06-17 2021-03-30 Tianzhi Yang Associating spatial point sets with candidate correspondences
US11080307B1 (en) * 2019-12-31 2021-08-03 Rapid7 , Inc. Detection of outliers in text records
US11164325B2 (en) 2020-02-06 2021-11-02 Tianzhi Yang Generating and evaluating mappings between spatial point sets
CN111784725B (zh) * 2020-06-29 2023-06-20 易思维(杭州)科技有限公司 光条中心提取方法
US11823412B2 (en) 2020-11-30 2023-11-21 Tianzhi Yang Generating and evaluating mappings between spatial point sets with constraints
US11721085B2 (en) 2020-12-20 2023-08-08 Tianzhi Yang Generating and evaluating mappings between spatial point sets in multi-levels
US12118598B2 (en) 2021-03-30 2024-10-15 Zazzle Inc. Generating and using tokens to request services and access to a product collaboration platform
US11330145B1 (en) 2021-06-10 2022-05-10 Bank Of America Corporation Image processing edge device for document noise removal
US11830267B2 (en) * 2021-08-27 2023-11-28 Optum, Inc. Techniques for digital document analysis using document image fingerprinting
CN115269912B (zh) * 2022-09-29 2023-01-06 浙江省公众信息产业有限公司无线运营分公司 图像检索方法及系统
CN116167949B (zh) * 2023-04-25 2023-06-30 天津中智云海软件科技有限公司 一种基于医疗影像大数据的临床辅助决策系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2077274C (en) * 1991-11-19 1997-07-15 M. Margaret Withgott Method and apparatus for summarizing a document without document image decoding
US5465303A (en) * 1993-11-12 1995-11-07 Aeroflex Systems Corporation Automated fingerprint classification/identification system and method
US5465353A (en) * 1994-04-01 1995-11-07 Ricoh Company, Ltd. Image matching and retrieval by multi-access redundant hashing
US5613014A (en) * 1994-10-12 1997-03-18 Martin Marietta Corp. Fingerprint matching system
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition
US6041133A (en) * 1996-12-13 2000-03-21 International Business Machines Corporation Method and apparatus for fingerprint matching using transformation parameter clustering based on local feature correspondences
US7844594B1 (en) * 1999-06-18 2010-11-30 Surfwax, Inc. Information search, retrieval and distillation into knowledge objects
US7359532B2 (en) * 2003-12-11 2008-04-15 Intel Corporation Fingerprint minutiae matching using scoring techniques
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US20060104484A1 (en) * 2004-11-16 2006-05-18 Bolle Rudolf M Fingerprint biometric machine representations based on triangles
EP1914680A4 (en) * 2005-03-01 2012-10-24 Univ Osaka Prefect Public Corp DOCUMENT / IMAGE PROCEDURE AND PROGRAM, AND DOCUMENT / IMAGE RECORDING AND SEARCH APPARATUS
WO2007080133A2 (en) * 2006-01-16 2007-07-19 Thomson Licensing Method for determining and fingerprinting a key frame of a video sequence
ATE470912T1 (de) 2006-04-28 2010-06-15 Toyota Motor Europ Nv Robuster detektor und deskriptor für einen interessenspunkt
US8055079B2 (en) * 2007-03-06 2011-11-08 Sharp Kabushiki Kaisha Image processing method, image processing apparatus, and image forming apparatus
US20090176565A1 (en) * 2008-01-07 2009-07-09 Bally Gaming, Inc. Gaming devices for biometrically identifying a player
US8233716B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated System and method for finding stable keypoints in a picture image using localized scale space properties
US8144947B2 (en) * 2008-06-27 2012-03-27 Palo Alto Research Center Incorporated System and method for finding a picture image in an image collection using localized two-dimensional visual fingerprints

Also Published As

Publication number Publication date
EP2138953B1 (en) 2016-10-19
US8233722B2 (en) 2012-07-31
EP2138953A3 (en) 2014-12-31
US20090324100A1 (en) 2009-12-31
JP2010009597A (ja) 2010-01-14
EP2138953A2 (en) 2009-12-30

Similar Documents

Publication Publication Date Title
JP5183578B2 (ja) 局所的視覚的2次元指紋を用いた、文書コレクション内の文書画像を発見する方法およびシステム
JP5180156B2 (ja) 局所化された2次元の視覚的指紋を使用してイメージコレクション内のピクチャイメージを見つけるシステムおよび方法
JP5753473B2 (ja) 二次元ビジュアルフィンガープリントを用いる複製ドキュメントコンテンツの検出方法
US8655056B2 (en) Content-based matching of videos using local spatio-temporal fingerprints
JP5662917B2 (ja) 二次元ビジュアルフィンガープリントを用いるプレゼンテーション及びリッチドキュメントコンテンツの混合コレクションにおける類似コンテンツの発見方法
US7499588B2 (en) Low resolution OCR for camera acquired documents
US8086039B2 (en) Fine-grained visual document fingerprinting for accurate document comparison and retrieval
JPH07282088A (ja) マッチング装置及びマッチング方法
Attivissimo et al. An automatic reader of identity documents
CN111079648A (zh) 数据集清洗方法、装置和电子系统
CN110781195A (zh) 一种兴趣点信息更新的系统、方法和装置
JP4140221B2 (ja) 画像照合装置および画像照合プログラム
CN111783888A (zh) 一种图片电子作业查重系统及方法
CN109508408B (zh) 一种基于帧密度的视频检索方法及计算机可读存储介质
JP2018124740A (ja) 画像検索システム、画像検索方法及び画像検索プログラム
Valsesia et al. Image retrieval based on compressed camera sensor fingerprints
Guruprasad Handwritten Devanagari word recognition using robust invariant feature transforms
Lei et al. A multi-scale approach to extract meaningful annotations from document images
Digman et al. Mobile Banknote Recognition and Conversion
RETRIEVAL FWM STENTIFORD
Saxena et al. An Automatic Status Report Generation (ASRG) Model for Degraded Manuscript Folios: A novel approach in direction of digital preservation of MSs
Park et al. ANATTENTION BASED SIMILARITY MEASURE FOR FINGERPRINT RETRIEWAL

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120622

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120622

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20120622

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20120724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130115

R150 Certificate of patent or registration of utility model

Ref document number: 5183578

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees