JP5795724B2 - 注釈付き文書の画像からクリーンな文書を再構築するためのシステムと方法 - Google Patents

注釈付き文書の画像からクリーンな文書を再構築するためのシステムと方法 Download PDF

Info

Publication number
JP5795724B2
JP5795724B2 JP2011127703A JP2011127703A JP5795724B2 JP 5795724 B2 JP5795724 B2 JP 5795724B2 JP 2011127703 A JP2011127703 A JP 2011127703A JP 2011127703 A JP2011127703 A JP 2011127703A JP 5795724 B2 JP5795724 B2 JP 5795724B2
Authority
JP
Japan
Prior art keywords
annotated
image
document
document image
annotated document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011127703A
Other languages
English (en)
Other versions
JP2012003753A5 (ja
JP2012003753A (ja
Inventor
マーシャル・ダブリュ・バーン
アレハンドロ・イー・ブリト
フランソワ・ラグネ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Xerox Corp
Original Assignee
Palo Alto Research Center Inc
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc, Xerox Corp filed Critical Palo Alto Research Center Inc
Publication of JP2012003753A publication Critical patent/JP2012003753A/ja
Publication of JP2012003753A5 publication Critical patent/JP2012003753A5/ja
Application granted granted Critical
Publication of JP5795724B2 publication Critical patent/JP5795724B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)

Description

例示的な実施形態は、注釈付き文書の画像セットからクリーンな文書を再構築するためのシステムと方法に関する。
所定の形式が幾名かのユーザによって完成され、かつ概して形式のスキャン及びユーザによる追加の識別を含む処理に提出されることは一般的である。記入済み(注釈付き)書式の固定したテキストから可変テキスト(例えば、氏名、住所、日付け、金額、他)を分離することは、文書走査サービスの分野では困難である可能性がある。ユーザが情報を入力した書式フィールドのロケーションが既知であれば、分離は比較的容易である。しかしながら、過去の何れかの時点で生成されたものと思われる書式などは特に、この情報を入手できない場合が多い。
従って、過去に全く目にしたことがない新しいタイプの書式に関しても、注釈付き文書の画像から注釈付きデータを分離するための、ほぼ完全に自動化された方法を保有することが望ましい。
例示的な実施形態の一態様では、注釈付き文書の画像から文書を再構築するためのコンピュータ実装方法が提供される。本方法は、少なくとも2つの注釈付き文書画像のセットをコンピュータメモリ内へ受信することであって、注釈付き文書画像は各々静止エレメントと注釈付きデータとを備えることと、注釈付き文書画像の各々について、上記注釈付き文書画像セットにおける少なくとも1つの他の注釈付き文書画像に対するアラインメントを実行することを含む。次に、アラインされた注釈付き文書画像を基礎として、上記アラインされた注釈付き文書画像から導出された少なくとも幾つかの注釈付きデータが曖昧にされた合意文書画像が形成される。クリーンな文書は、この合意文書画像を基礎として形成され、かつクリーンな文書は出力デバイスを介するビューイング用に表示される。
別の態様では、注釈付き文書の画像からクリーンな文書を再構築するためのコンピュータベースシステムが提供される。本システムは、コンピュータプロセッサと、グローバルアラインメントモジュール、合意画像形成モジュール及びクリーンアップモジュールを格納するコンピュータメモリとを含む。グローバルアラインメントモジュールは、注釈付き文書画像の各々について、選択された代表画像に対するグローバルアラインメントを実行するように構成される。合意画像形成モジュールは、少なくともアラインされた注釈付き文書画像を基礎として、上記アラインされた注釈付き文書画像から導出された少なくとも幾つかの注釈付きデータが曖昧にされている合意文書画像を形成するように構成される。クリーンアップモジュールは、少なくともこの合意文書画像を基礎としてクリーンな文書を形成しかつクリーンな文書を出力デバイス上へビューイング用に表示するように構成される。コンピュータプロセッサは、これらのモジュールを実装する。
さらに別の態様において、コンピュータプログラムプロダクトは有形媒体符号化命令を含み、上記命令は、コンピュータ上で実行されると、注釈付き文書画像のセットについて、上記注釈付き文書画像セットから代表画像を選択することと、注釈付き文書画像セットにおける複数の他の画像の各々に対して、選択された代表画像に関するグローバルアラインメントを実行してアラインされた注釈付き文書画像のセットを形成することと、アラインされた注釈付き文書画像のセットを基礎として合意文書画像を形成することと、合意文書画像を基礎としてクリーンな文書を形成することを含む方法を実行する。注釈付き文書画像の各々について、注釈付き画像がクリーンな画像と比較されて注釈が識別され、注釈が出力される。
本方法及びシステムは、注釈付き文書画像のセットから代表画像を選択し、かつ注釈付き文書画像セット内の各注釈付き文書画像について、選択された代表画像に対するグローバルアラインメントを実行するように適合化されてもよい。
本方法及びシステムは、選択された代表画像及び注釈付き文書画像のセットを基礎として合意文書画像を形成するように適合化されてもよい。
本方法及びシステムのクリーンな文書は、全ての類似文書上に複写されるための静止エレメントを含む固定されたページレイアウトを有する文書であってもよい。
本方法及びシステムは、少なくとも合意文書画像を基礎とし、ごま塩ノイズ及び隔絶された白黒ピクセルを除去しかつ破断したラインを修復することによってクリーンな文書を形成するように適合化されてもよい。
本方法及びシステムは、注釈付き文書画像のセットから注釈情報データを、各注釈付き文書画像をクリーンな文書と比較することによって抽出するように適合化されてもよい。
本方法及びシステムは、クリーンな文書内のバウンディングボックス及び注釈付き文書画像内の対応するバウンディングボックスを識別し、注釈付き文書画像の各ボックス内に含まれる、クリーンな文書の対応するボックスには存在していない注釈ピクセルを抽出するためにdiff演算を実行し、かつ各バウンディングボックスについて、サイズ及びロケーション、抽出された注釈ピクセル及び注釈データが抽出された注釈付き文書画像を識別する識別子を出力することによって、注釈情報を抽出するように適合化されてもよい。
本方法及びシステムによって選択される代表画像は、注釈付き文書画像のスキューの測度、注釈付き文書画像の鮮明さの測度及び注釈付き文書画像のライン品質の測度のうちの1つを基礎とするものであってもよい。
本方法及びシステムの選択される代表画像及び注釈付き文書画像セットは、合意文書画像の形成前にぼかされてもよい。
本方法及びシステムは、各注釈付き文書画像について、この注釈付き文書画像内の幾つかのブロックを選択し、代表画像において、上記注釈付き文書画像内のブロックとサイズ及びロケーションが一致する同数のブロックを識別し、かつ注釈付き文書画像の各ブロック内の少なくとも1点を代表画像内の対応するブロック内の少なくとも1点へマップする変換マトリクスを計算することによって、グローバルアラインメントを実行するように適合化されてもよい。
本方法及びシステムの変換マトリクスは、注釈付き文書画像内の各ブロックに関する変換の平均であってもよい。
本方法及びシステムは、注釈付き文書のブロック内の黒ピクセルと代表文書のブロック内の黒ピクセルとの重なりの測度を計算することによって、注釈付き文書画像の各ブロック内の少なくとも1点を代表画像内の対応するブロック内の少なくとも1点へマップするように適合化されてもよい。
本方法及びシステムは、注釈付き文書画像のブロックと代表画像のブロックとの間の重なり合った黒ピクセルの数を、注釈付き文書画像のブロック及び代表画像の対応するブロックにおける黒ピクセルの平均数で除したものとして定義される品質スコアを算出することによって、黒ピクセルの重なりの測度を計算するように適合化されてもよい。
本方法及びシステムは、変換マトリクスを計算するために粗い探索から細かい探索までの階層的探索を用いてもよい。
本方法及びシステムの変換マトリクスは、回転、平行移動、均一なスケーリング、ページカールの補正及びキーストーニングの補正を考慮に入れてもよい。
本方法及びシステムは、注釈付き文書画像のセットにおける各注釈付き文書画像について、上記注釈付き文書画像を二次ブロックのセットに分割し、注釈付き文書画像内の各二次ブロックと代表画像内の個々の二次ブロックとの一致を決定し、かつ一致が決定された複数の二次ブロックについて、グローバルアラインメント情報を基礎として、代表画像内の対応するブロックを取得するために注釈付き文書画像内の各二次ブロックへ平行移動ベクトルを割り当てるベクトルフィールドを生成することによって、注釈付き文書画像のセットについてローカルアラインメントを実行するように適合化されてもよい。
本方法及びシステムのベクトルフィールドは、少なくとも1つの二次ブロックの平行移動ベクトルを推定するためにラプラス平滑化処理を用いてもよい。ラプラス平滑化処理は、少なくとも1つの二次ブロックに近接する二次ブロックからのベクトルを平均することによってベクトルを外挿してもよい。
本方法及びシステムは、各々が合意文書画像内に一意の位置を有する複数の合意ピクセルを決定し、割り当てられた注釈付き文書画像の各々における対応するピクセルの特性を合計することを包含し、かつ上記合計を所定のしきい値と比較することによって、合意文書画像を形成するように適合化されてもよい。さらに、上記合計は、代表画像内の対応するピクセルの加重値を含んでもよい。
注釈データなしのクリーンな文書を示すグラフである。 注釈データが追加された図1のクリーンな文書を示すグラフである。 注釈データが追加された図1のクリーンな文書を示すグラフである。 注釈付き文書画像のセットからクリーンな文書を再構築するための例示的なシステムを示すハイレベル概観図である。 図4の例示的なシステムによって実行されるオペレーションを示すフロー図である。 図5に示すグローバルアラインメント方法をさらに詳しく示すフロー図である。 図5及び図6のグローバルアラインメント方法に使用される粗い探索から細かい探索までの階層的探索をさらに詳しく示すフロー図である。 図7に示す粗い探索から細かい探索までの階層的探索によって使用される探索ウィンドウを示すグラフである。 図5によって説明されているローカルアラインメント方法をさらに詳しく示すフロー図である。 注釈付き文書画像へ印加されるべき平行移動ベクトルセットによる歪みマップを示すグラフである。 ノイズを含む合意画像を示す。 図2の注釈付き文書画像から抽出された注釈データを示す。 図3の注釈付き文書画像に関連して図6のグローバルアラインメント方法により選択された最初のブロックを示す。 図3の注釈付き文書画像に関連して図9のローカルアラインメント方法により使用された第2のブロックを示す。
本明細書では、注釈付き文書画像のセットからクリーンな文書を再構築するための方法及びシステムを開示する。
本明細書で使用しているように、「クリーンな文書」は、固定されたテキスト、固定された境界及び全ての類似文書において複写されるための他のページエレメント等の静止エレメントを含む固定されたページレイアウトを有する文書である。例えば、図1はクリーンな文書例2を示している。クリーンな文書2は、ユーザによって情報を記入される(注釈を付けられる)べき未記入の書式と見なすことができる。従って、注釈付き文書は、ユーザまたは他のエージェント(コンピュータシステム等)によって追加された可変データ(注釈)を含む修正されたクリーン文書である。注釈付き文書画像は、走査され、ダウンロードされかつ別途コンピュータメモリへ入力されている注釈付き文書からの1つまたは複数の画像である。図2及び図3は、注釈付き文書画像の例4、6を示す。
この例示的な実施形態では、文書画像に対して、回転、平行移動及びx、y座標の分離スケーリングを考慮に入れる多変数変換が実行される。これは、2つ以上の注釈付き文書画像間のグローバルアラインメントを達成する。複数文書のアラインメントの後、本例示的方法及びシステムは、複数の注釈付き文書画像に共通するピクセルを含む新しい画像を計算する。これは、最初のグローバル変換が単に1ページ画像の他のページ画像に対する平行移動であった早期のアラインメント方法とは対照的である。
図4を参照すると、注釈付き文書画像のセットからクリーンな文書2を再構築するための例示的なシステム100が示されている。システム100は、注釈付き文書画像のセット104を受信するための入力デバイス102を含む。本明細書に提示している本例示的システム及び方法の説明を単純にするために、注釈付き文書画像のセット104は単一のクリーンな文書2に対応する2つ以上の注釈付き文書画像から成ることを想定するが、本方法及びシステムは、複数のクリーン文書に対応する注釈付き文書画像の集合体の処理に使用されることも可能である。入力に先立って、注釈付き文書画像のセット104は、スキャナによって生成されるROMまたはRAMドライブ等の任意の適切な有形媒体に格納されてもよく、かつ/または、例えばインターネットを介してシステム100へ搬送波の形式で入力されてもよい。或いは、注釈付き文書画像104は、システム100自体の内部で生成されてもよい。入力デバイス102は、モデムリンク、有線または無線接続、USBポート、フロッピーまたはハードディスクレシーバまたはこれらに類似するものを含んでもよく、かつシステム100の他のコンポーネントと結合されても、分離されてもよい。
システム100は、処理の間に注釈付き文書画像104を格納するためのデータメモリ106を含む。システム100のメインメモリ108は、代表スキャン選択モジュール110と、グローバルアラインメントモジュール112と、任意選択のローカルアラインメントモジュール114と、合意画像形成モジュール116と、クリーンアップモジュール118と、注釈抽出モジュール119とを格納する。モジュール110、112、114、116、118及び119からの出力はメモリ106、108に格納されてもよく、または出力デバイス120を介してクライアント端末130またはプリンタ132の一方またはそれ以上へ、任意選択としてインターネット等のネットワーク134を通じて出力されてもよい。出力(クリーンな文書2または抽出された注釈157等)は、ビューイング用にクライアント端末130またはプリンタ132上で表示されてもよい。
任意選択の代表スキャン選択モジュール110は、入力として入力デバイス102を介して注釈付き文書画像のセット104を受信し、この注釈付き文書画像のセット104から注釈付き文書画像のセット104を代表する(「最良の」)ものと考えられる注釈付き文書画像150を選択する。選択された代表の注釈付き文書画像150は、次にスキャン選択モジュール110からグローバルアラインメントモジュール112へ送られる。グローバルアラインメントモジュール112は、他の注釈付き文書画像104の各々に対して剛体変換(回転及び/または平行移動等)を実行し、これらを、選択された代表の注釈付き文書画像150へさらに密にアラインする。(任意選択のステップであることから)代表の注釈付き文書画像が選択されていなければ、グローバルアラインメントモジュール112は、注釈付き文書画像104の各々について、他のロケーション情報に関する剛体及び/または相対変換を実行する。例えば、グローバルアラインメントモジュール112は、各注釈付き文書画像が、画像の端に平行する、かつ上記端から定距離を有するテキストの一番上の行(または文書内の所定の行)を有するように、各注釈付き文書画像をアラインしてもよい。グローバルアラインメントモジュール112の出力は、任意選択のローカルアラインメントモジュール114へ送られる変換マトリクス152等の変換セットである。ローカルアラインメントモジュール114はさらに、とりわけページカール、キーストーニング(斜角から撮られた写真等)、他を補正する技術を用いて、選択された代表文書画像150に関して注釈付き文書画像のセット104をアラインする。ローカルアラインメントモジュール114の出力は、合意画像形成モジュール116へ送られるアラインされた文書画像154のセットである。合意画像形成モジュール116はアラインされた各画像を処理し、かつ少なくとも複数のアラインされた画像に幾何学的に共通するピクセルを識別して合意画像156を形成する。共通するピクセルを有することをそのピクセルが合意画像156に属するとして識別される前に必要とされる注釈付き文書画像のしきい値数はシステム実装に依存するが、これについては後に詳述する。合意画像形成モジュール116が合意画像156を形成すると、合意画像156は任意選択としてクリーンアップモジュール118へ送られる。クリーンアップモジュール118は、合意画像156内のごま塩ノイズ等の望ましくないアーチファクトを識別し、かつクリーンな文書2をメモリ106、108、クライアント端末130及びプリンタ132のうちの1つまたはそれ以上へ出力する。注釈抽出モジュール119は、注釈付き文書画像をクリーンな文書2と比較することによって注釈付き文書画像114の各々から注釈情報を抽出する。
この例示的なシステムでは、コンポーネント110、112、114、116、118及び119はメインメモリ108に格納されたソフトウェア命令を備え、これはコンピュータプロセッサ122によって実行される。コンピュータのCPU等のプロセッサ122は、メモリ108に格納された処理命令を実行することによってコンピュータシステム100の全体的なオペレーションを制御してもよい。コンポーネント102、106、108、110、112、114、116、118、119、120及び122は、データ制御バス124によって接続されてもよい。認識されるであろうが、システム100は、同じ機能性を維持しながらより少ない、またはより多いコンポーネントを含んでもよい。例えば、コンポーネント110、112、114、116、118、119は、より少ないコンポーネントを形成するために結合されても、より多い個々のコンポーネントを形成するために機能を分離されてもよい。
認識されるであろうが、クリーン文書再構築システム100は、パーソナルコンピュータ、PDA、ラップトップコンピュータ、サーバコンピュータ、文書処理ケイパビリティを有するスキャンデバイスまたはこれらの組合せ等の1つまたは複数のコンピューティングデバイスを備えてもよい。メモリ106、108は一体型であっても分離型であってもよく、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、磁気ディスクまたはテープ、光ディスク、フラッシュメモリまたはホログラフィックメモリ等の任意タイプのコンピュータ読取り可能媒体を表してもよい。ある実施形態では、メモリ106、108は、ランダムアクセスメモリと読取り専用メモリとの組合せを備える。実施形態によっては、プロセッサ122とメモリ106及び/または108とが1つのチップ内に組み合わされてもよい。
図5を参照すると、注釈付き文書画像のセットからクリーンな文書を再構築するための例示的な方法が示されている。本方法は、図4に示すシステム100を使用してもよい。本例示的方法が図示されているステップより少ない、多い、または異なるステップを含んでもよく、かつ図示されている順序で進行する必要もないことは認識されるべきである。図5に示されている方法は、コンピュータ上で実行され得るコンピュータプログラムプロダクトにおいて実装されてもよい。コンピュータプログラムプロダクトは、コンピュータプログラムが記録される(ディスクまたは他のメモリ格納デバイス等の)有形コンピュータ読取り可能記録媒体であっても、制御プログラムがデータ信号として具現される伝送可能な搬送波であってもよい。図示されている方法は、完全自動式であってもよく、本明細書に記載しているような何らかのユーザ入力を含んでもよい。
本方法は、ステップS100で開始される。ステップS200において、クリーン文書再構築システム100は、入力デバイス102を介してコンピュータメモリ106へ少なくとも2つの注釈付き文書画像のセット104を受信する。セット104内の各注釈付き文書画像は同じ形式またはクリーンな文書画像に対応しているべきであって、唯一異なる注釈を有する。例えば、図2及び図3の注釈付き文書画像4及び6は、画像4及び6が各々10a及び10b等の注釈を含むクリーン文書2の上位セットであることから、共に図1のクリーンな文書画像(即ち、未記入の書式)2に対応している。ある実施形態では、2つの注釈付き文書画像は、これらの2つの注釈付き文書画像が少なくとも所定の比率(例えば、50%)のピクセルを共有していれば同じクリーンな文書画像に対応している。例えば、2つの注釈付き文書画像は、画像の大きさに関して同じ位置に存在する同じ改行及び同じフォントを有する所定量のテキストを共有してもよい。出力されるクリーンな文書画像の品質は、少なくとも部分的に、入力される注釈付き文書画像の数に依存する。本例示的方法及びシステムでは少なくとも10、かつある実施形態では約20またはそれ以上の白黒、グレースケール及び/またはカラー画像がシステム100へ入力される。注釈付き文書画像は、TIFF、JPG、GIF、PDF、他等の処理ソフトウェアによる認識が可能な任意のフォーマットであってもよい。任意選択として、グレースケールまたはカラー画像は、処理の前に2値(白黒)画像に変換されてもよい。
ステップS300では、代表スキャン選択モジュール110が入力された注釈付き文書画像のセット104から1つの注釈付き文書画像を選択し、選択された注釈付き文書画像を代表の注釈付き文書画像150として設定する。代表の注釈付き文書画像150は、入力された注釈付き文書画像のセット104から外されてもよいが、この限りではない。ある代替実施形態では、代表の注釈付き文書画像150はユーザによって手動で選択されてもよい。ある注釈付き文書画像が代表の注釈付き文書画像として選択されることに適するかどうかを決定し得る要素としては、上記注釈付き文書画像のスキュー、鮮明さ及びライン品質が含まれるが、この限りではない。例えば、ある注釈付き文書画像は、それが文書の余白に対して歪められておらず、鮮明でくっきりとしたエッジを有しかつ濃くて容易に区別可能な行を有していれば、代表の注釈付き文書画像と見なされてもよい。代表の注釈付き文書画像150の決定に際しては、これらの要素の任意のもの、または全てが考慮されてもよい。その目的は、最良の注釈付き画像(生成元であったクリーンな画像と構造が最もよく類似していると予想されたもの)を代表の注釈付き文書画像として選択することにあるが、処理ソフトウェアは必ずしも人が最良であると考える注釈付き画像を選択しない場合がある。本例示的実施形態では、代表の注釈付き文書画像の決定に際して、文書画像の鮮明さ、または品質よりも文書画像のスキューの方に重きがおかれる。説明を目的として、ここでは図2を最良の注釈付き画像として選択する。
ステップS350において、代表スキャン選択モジュール110(または他の任意の適切なモジュール)は、任意選択として入力された注釈付き文書画像のセット104及び選択された代表の注釈付き文書画像150をぼかす。使用されるぼかしアルゴリズム及び/またはコンポーネントは、任意の適切なぼかしアルゴリズムを実装してもよい。例えば、所定の実施形態は、周知のガウスぼかしアルゴリズムを実装して注釈付き文書画像104、150をぼかす。他の実施形態では、文書画像の黒ピクセルは膨張される。膨張は、出力されるピクセルの値が入力されるピクセルの近傍における全ピクセルの最大値であるオペレーションを示す。例えば、2値画像において、入力されるピクセルの近傍における任意のピクセルが黒であれば、出力されるピクセルは黒に設定される。ぼかしの目的は、1つまたは2つのピクセルによるピリオドまたはライン等の比較的小さいオブジェクトであっても幅はアライン可能であることの保証にある。
ステップS400において、グローバルアラインメントモジュール112は、入力された注釈付き文書画像のセット104内の各注釈付き文書画像A,A,...,Aを、選択された代表の注釈付き文書画像B150に対してアラインするグローバルアラインメントを実行する。簡単に言えば、グローバルアラインメントモジュール112は、A内の幾つかの初ブロック478(図13)(例えば、本例示的実施形態では約20個−50個のブロック)を選択し、相互相関及び粗い探索から細かい探索までの階層的探索を用いてB内のその対応する(即ち、一致する)初ブロック478を識別する。本例示的実施形態では、文書画像A内の選択された初ブロック478は、多くの黒(またはカラーの場合は暗い)ピクセルを含む複合ブロックである。例えば、ある初ブロック478は、それが10%を超える黒ピクセルを含んでいれば選択されてもよい。初ブロック478は、少なくとも50ピクセルまたは少なくとも100ピクセルを含んでもよく、かつ実施形態によっては、約100,000ピクセルまで含んでもよい。選択された初ブロックは全て同じサイズ及び形状であってもよく、異なる形状及び/またはサイズであってもよい。ある実施形態では、初ブロック478は長方形であるが、他の形状も企図されている。概して、初ブロック478は画像面積の約5%以下の面積を占める。
初ブロック478(図13)の一致する各ペアは、1対の点、即ちA内の(x,y)及びB内の(x’,y’)を与える。一般的な最小二乗法(不良一致を除去する異常値排除を有する)を用いて、グローバルアラインメントモジュール112は、A内の点をB内の点に近似的にマップする変換マトリクスを計算する。変換マトリクスは、回転及び平行移動等の剛体運動のみを許容してもよい。所定の実施形態では、変換マトリクスは(ファックスマシンで発生することが多い)x及びy方向に一様なスケーリングまたは異なるスケーリングも許容してもよく、かつ/またはページカール、キーストーニング、他を含む、但しこれらに限定されない変形部を補正するための追加的な変換も提供してもよい。ステップS400は、図6にさらに詳述されている。グローバルアラインメント法はステップS350から開始されかつS402で始まり、各注釈付き文書画像Aについて、選択された代表の注釈付き文書画像B150に関して実行される。
ステップS402において、グローバルアラインメントモジュール112は、画像A内の複数の初ブロックを選択する。例えば、図13は、選択された複数の初ブロック478を有する図3の注釈付き文書画像6を示している。本例示的実施形態では、30個以上の初ブロック478が選択されている。さらに所定の実施形態では、初ブロック478は、文書画像Aに渡って一様のサイズ、非重複及び一様分布のうちの少なくとも何れかである。初ブロック478は互いに隣接していても、任意サイズのスペースによって分離されてもよい。300DPI文書画像の場合、初ブロック478は、典型的には128x128ピクセルのサイズを有する。初ブロックは、ランダムに選択されても、擬似ランダムに選択されても、ユーザによって選択されてもよいが、この限りではない。初ブロックが擬似ランダムに選択される実施形態では、初ブロックはユーザの手助けによって選択されてもよく、かつ/または所定の条件を満たすように選択されてもよい。
ステップS404において、グローバルアラインメントモジュール112は、文書画像Aの初ブロック478(図13)の各々について、文書画像B内の対応する初ブロック478に対する最近一致を決定する。まず、Aの初ブロックの同じx及びy座標を用いてB内の初ブロックを位置決めすることによって、Aの初ブロック478が暫定的にBの初ブロック478に一致される。文書画像の初ブロックの最近一致は、有効変換の下で文書画像Aの初ブロック478に最も近接して似ている選択された文書画像Bの初ブロックを発見することによって決定される。有効変換には、文書画像の初ブロックの平行移動、文書画像の初ブロックの回転、文書画像の初ブロックのスケーリング及び文書画像の初ブロックのアフィン変換が含まれるが、この限りではない。文書画像の初ブロック478の最近一致は、上記一致の品質に対応する品質スコアにも関連づけられてもよい。所定の実施形態では、選択された文書画像の初ブロックの品質はゼロから1までのスケールで評価される。但し、ゼロは一致が発見されないことを示し、1は完全一致を示す。完全一致は、選択された文書画像の何らかの初ブロックが、回転等の有効変換下で文書画像の初ブロックに正確に一致する場合にのみ存在する。このような実施形態下では、品質スコアは、(適用された任意の変換に続く)文書画像の初ブロックと選択された文書画像の初ブロックとの間の重なり合う黒ピクセル数を、文書画像の初ブロック及びこれに対応する選択された文書画像の初ブロックにおける黒ピクセルの平均数で除したものとして定義されてもよい。さらに、所定の実施形態において、最近一致の品質スコアが信頼度しきい値より低ければ、方法S400の残りのステップに関して文書画像の対応する初ブロックは無視されてもよい(一致なし)。文書画像の対応する初ブロックが注釈データのみ(または主として注釈データ)を含んでいれば、品質スコアは信頼度しきい値より低くなると思われる。
文書画像の初ブロック478(図13)の最近一致を発見するためには、粗い探索から細かい探索までの階層的探索手順が使用されてもよい。図7を参照すると、図8の例示的な15ピクセルx15ピクセルの探索ウィンドウ453へ適用されるような階層的探索手順450が示されている。例示を目的として、探索ウィンドウ453は、図2及び図3における初ブロック478内にも示されている。階層的探索手順は、ステップS452において、文書画像Aの初ブロックを中心として探索ウィンドウ453を画定することによって始まる。探索ウィンドウは、Aの選択された初ブロックに対応する選択された代表画像B内のブロックを発見するために使用される。近似ロケーションを決定するより高度な方法が使用されてもよいが、所定の実施形態では、文書画像の初ブロックのロケーションは単に、選択された文書内の対応するロケーションにマップされる。例えば、幅w及び高さhを有する文書画像内のロケーション(x,y)における初ブロックについて考察されたい。選択された文書画像が幅w及び高さhを有していれば、選択された文書内の対応するロケーション(x,y)は下記のように定義されることが可能である。
Figure 0005795724


Figure 0005795724

ステップS454において、グローバルアラインメントモジュール112は、探索ウィンドウ453より小さくかつ探索ウィンドウ内に中心を置かれた第1のボックス(点457で画定されている)を画定する。
ステップS456において、グローバルアラインメントモジュール112は、第1のボックス内に位置決めされた点457のセットの一致スコアを決定する。所定の実施形態では、一致スコアは、4つ角と、各辺の中点と、ボックスの中心との離隔された9点について決定されるが、離隔された点の数はこれより少なく、または多く選択されてもよい。ある点の一致スコアは、文書画像Aの初ブロックを上記点に近接する選択された文書画像Bの領域へ一致させるべく試行することによって決定される。オペレータは、オペレータによる近接の定義が広義であるほど階層的探索手順450は遅くなるという理解の下で、近接を自らが適当と思うように定義してもよい。よってステップS458では、最も高い一致スコア(この図では、右上の点457)を有する点が選択される。例えば、図2及び図3の探索ウィンドウ453は各々ドル記号($)を含むが、これは、対応する点に関して高い一致スコアを与える。
ステップS460では、先のボックスより小さくかつ先のボックスからの最近一致の辺りに中心を置かれたボックスが(点463によって)画定される。
ステップS462において、グローバルアラインメントモジュール112は、より小さいボックス内に位置決めされた点について、第1のボックスに類似する方法で一致スコアを決定する。ステップS464では、最も高い一致スコアを有する点(この場合は、右中央の点463)が選択される。
ステップS466において、グローバルアラインメントモジュール112は、より小さいボックスの点が類似する一致スコアを有するかどうかを決定する。例えば、点463の一致スコアは互いに比較され、点間の差が所定のしきい値内(例えば、0.0から1.0まで)に含まれるかどうかが決定される。より小さいボックスの点が互いに類似していなければ、ステップS460、S462、S464及びS466が繰り返される。
ステップS468において、グローバルアラインメントモジュール112は、最近一致が探索ウィンドウ453の境界においでであるかどうかを決定する。例えば、点471で表される右側の点のうちの何れかがそのボックスの最近一致であると決定されれば、選択される点は探索ウィンドウの境界に存在する。最近一致が境界上に存在しなければ、方法450はS472へ進む。存在すれば、方法450は、ステップS470において最近一致の辺りに中心が置かれる新しい探索ウィンドウを画定し、ステップS454からS468までを繰り返す。本方法におけるこの時点で、グローバルアラインメントモジュール112は、文書画像A内に、文書画像B内の点セットに対応する9点までのセットを識別している。
図6に戻って参照すると、ステップS406において、グローバルアラインメントモジュール112は、Aへ適用されると文書画像Aを文書画像Bへアラインする文書画像Aの変換マトリクスを決定する。この決定は、最近一致間の差を最小化するための最小二乗分析及び文書画像の対応する初ブロック478(図13)を用いて行われる。基本的には、その目的は、文書画像Aの初ブロック内の点を選択された文書画像Bの対応する初ブロック内の点へマップすることにある。これを実行する際には、最小二乗分析は1つまたは複数の有効変換を考慮してもよい。但し、有効変換には、回転、平行移動、スケーリング、ページカール、キーストーニング、他が含まれるが、この限りではない。所定の実施形態では、最小二乗分析は、誤一致の点ペアに対するプロセス感度を下げるために異常値排除も含む場合がある。
例証のために、選択された文書画像B内の初ブロックrのロケーションを、文書画像A内の対応する初ブロックrのロケーションの関数fとしてモデリングできるものとする。さらに、関数fは、関数fが2つの初ブロック間でどのようにマッピングするかを制御する可変パラメータのベクトルβをとるものとする。パラメータには、回転、スケーリング、平行移動、他の量が含まれてもよい。よって、誤差Sの二乗和は、
Figure 0005795724


と定義されることが可能である。但し、nはステップS402で選択された初ブロックの数に一致し、f()は新しい点となる点(x,y)への変換を適用する関数であり、dは点(x,y)と平行移動点f(x,y)との距離の測度であり、iは選択された文書画像B(即ち、最近一致)内のi番目の初ブロックに対応し、かつf(x,y)は文書画像A内のi番目の初ブロックのロケーションに対応する。
二乗和Sが画定されると、文書画像Aの変換は、ベクトルβの可変パラメータを解くことによって決定される。即ち、ベクトルβはm個のパラメータを有し、かつβはj番目のパラメータに対応するものとする。j番目のパラメータに対する解は、一次方程式等の従来技術を用いてパラメータβを解くことにより決定されることが可能である。
認識されるべきものであるように、このようにして決定される可変パラメータは、選択された文書の初ブロック478(図13)への文書画像の初ブロックのマッピングに付随する誤差の二乗和を最小化する。変換マトリクスが文書画像全体に渡って剛体的に適用される傾向があることを想定すれば、可変パラメータは、文書画像の変換をグローバルに画定するために用いられることが可能である。このグローバルに画定される変換は、文書画像Aについて計算される変換マトリクスの平均であってもよい。従って、ステップS406の終わりでは、グローバルアラインメントモジュール112は文書画像Aの各々について1つの変換マトリクス152を決定している。
再度図5を参照すると、ステップS500において、ローカルアラインメントモジュール114は、任意選択として、入力された注釈付き文書画像のセット104内の各注釈付き文書画像A,A,...,Aについて、選択された代表の注釈付き文書画像B150に関するさらなるローカルアラインメントを実行する。このステップは、グローバルなアラインメント変換は複数の初ブロック478(図13)に渡る平均変換である、という事実を明らかにする手助けをする。文書画像Aの各領域は、全て個々に計算されて文書画像Aへ適用されるその固有の、僅かに異なる変換を有する。簡単に言えば、文書画像Aは、Aを非重複の(または部分的にのみ重なる)二次ブロック480(図14)のグリッドに分割することによってBへ局所的にアラインされる。例えば、128x128ピクセルは、選択された代表の文書画像Bにおける対応ブロックが決定されているA内の各二次ブロックの妥当な二次ブロックサイズマッチである。これらのマッチングは、B内の対応するブロックを取得するためにA内のブロックの中心へ平行移動ベクトルを割り当てるベクトルフィールドと考えることができる。初期ベクトルは、グローバルアラインメントステップ(S400)において計算される変換マトリクスによって決定されるが、最終ベクトルはx及びyの各々において初期ベクトルから約5ピクセルまで偏向されてもよい。確信的には一致され得ない二次ブロックのベクトルは、ラプラス平滑化処理を用いてその近傍から外挿されることが可能であり、この場合、上記ベクトルはその(通常は)4つの近傍ベクトルの平均に設定される。画像A内の任意の点(x,y)における平行移動ベクトルを発見するために、(x,y)を包囲する4つのグリッド点における平行移動ベクトルからの双線形補間(即ち、2点間の変換推定の発見)が用いられる。適用される変換ベクトルのセットにアラインされた画像は、A’で示される。ステップS500は、図9において詳述されている。任意選択であるローカルアラインメント法S500はステップS400の後に開始され、S552で始まる。方法S500は、注釈付き文書画像Aの各々について、かつ二次ブロックの各々について、選択された代表の注釈付き文書画像B150に関して実行される。
ステップS552において、ローカルアラインメントモジュール114は文書画像Aを、上記文書画像全体を包含する二次ブロック480(図14)のセットに分割する。但し、各二次ブロック480は上下左右(境界上の二次ブロックを除く)に近傍ブロックを有する。認識されるべきものであるように、二次ブロック480は文書画像の単なる一領域である。所定の実施形態では、二次ブロック480は、非重複的、二次ブロック480間の間隙を防止するために少し(例えば、10ピクセル)だけ重複的、かつ一様サイズのうちの少なくとも1つである。ローカルアラインメントモジュール114またはユーザは、二次ブロック480のサイズを、任意選択として少なくとも下記の考慮事項、即ち1)二次ブロックのサイズが小さいほど、必要な処理時間は長くなること、及び2)二次ブロックのサイズが大きいほど、ローカルアラインメントの効果は下がること、を加重した後に選択してもよい。本例示的実施形態では、300DPI(1インチ当たりのドット数)文書画像のブロックサイズは128x128ピクセルであり、即ち、各二次ブロック480は少なくとも1cmの面積を有してもよく、かつ画像は少なくとも50個または少なくとも100個の二次ブロックに、例えば二次ブロック5000個にまで分割されてもよい。
ステップS554において、ローカルアラインメントモジュール114は、A内の各ブロックについて文書B内のブロックとの最近一致を決定する。あるブロックの最近一致は、有効変換下の上記ブロックに最もよく似ている選択された文書画像Bの初ブロック478(図13)を発見することによって決定される。さらに、最近一致は、一致の品質に対応する品質スコアを含んでもよい。従って、認識されるべきであるように、あるブロックの最近一致は、図7に関連して論じた文書画像の初ブロック478の最近一致と同じ方法で決定されてもよく、よって前述の論考に注目されたい。
ステップS556において、ローカルアラインメントモジュール114は、ステップS554で決定された選択された文書画像B内の最近一致の二次ブロック480(図14)に対応する文書画像A内の各ブロックの平行移動ベクトルを決定する。文書画像A内の二次ブロック480の平行移動ベクトルは、単に、二次ブロック480が選択された文書画像B内のその最近一致にアラインするために必要とする平行移動の量である。所定の実施形態では、ある最近一致の品質スコアが信頼度しきい値より下であれば、二次ブロック480の平行移動ベクトルはその近傍の平行移動ベクトルから外挿されてもよい。即ち、このような二次ブロック480の平行移動ベクトルは、その近傍の平均平行移動ベクトルに設定されることが可能である。
図10を参照すると、文書画像に適用された平行移動ベクトルのセットを示す文書画像の歪みマップが示されている。本例では、文書画像が6x8グリッドの二次ブロック480(図14)に分割されているが、これより少ない、または多い二次ブロックが使用されてもよい。各ブロックは、1つの平行移動ベクトル(単に平行移動方向を示す矢印によって指示されている)に関連づけられている。ブロックの離散セットの平行移動ベクトルしか決定されていないが、双線形補間を用いれば、文書画像A内の任意の点に関する平行移動ベクトルを、上記点を包囲する4つのグリッド点における平行移動ベクトルから決定することができる。
ステップS558において、ローカルアラインメントモジュール114は、ステップS556からの決定された平行移動を適用することによって文書画像A内の各ブロックをシフトする。
ステップS560において、ローカルアラインメントモジュール114は、ステップS558からのシフトされたブロックを組み立てる(纏めてスティッチする)ことによって変換された文書画像A’を生成する。従って、ステップS560が実行された後は、変換された文書画像154のセットA’,A’,...,A’が生成される。但し、nは入力された文書画像のセット104内の文書画像の数である。制御は次に、S600へ進む。
ステップS600において、合意画像形成モジュール116は、アラインされた文書画像154A’,A’,...,A’を結合して合意画像156を形成する。合意画像156を形成するためにアラインされた文書画像154を結合する方法は幾つか存在する。任意選択として、任意カラーのアラインされた文書画像は、さらなる処理の前にグレースケールまたは2値(白黒)画像に変換されてもよい。アラインされた文書画像を結合する下記の例は何れも、別々に、または組み合わせて使用されてもよい。1つの方法は、単に、所定の特性(カラー値または2進値等)について全画像を合計し、次に適切な値で合計をスレッショルドして、図11に示すようにこれを白黒画像にすることである。合計はピクセル単位であり、よって位置(x,y)における合意ピクセルC(x,y)は合計からスレッショルドされる。
(5) B(x,y)+Σ A’(x,y)≧t
但し、B(x,y)及びA’(x,y)はピクセルのカラー値(但し、白は0、黒は1)であり、iは1からnまでの範囲の指数であり、nはシステム100へ入力される注釈付き文書画像の数であり、tはしきい値である。言い替えれば、位置(x,y)におけるピクセルは、その計算された合計がしきい値以下であれば合意画像から曖昧にされる。例えば、50個の注釈付き文書画像の場合、しきい値は、複合画像内のピクセルが黒に設定されるために文書画像A’の少なくとも例えば30個がロケーション(x,y)において黒ピクセルを有するように設定されてもよく、グレースケール及びカラー画像の場合、所定のしきい値を超える合計されたカラー特性(強度等)に設定されてもよい。また、選択された文書画像B内の(x,y)におけるピクセルのカラー/強度も、式5に示すように、合計へと計数されてもよい。
合意画像を形成する別の方法は、文書画像B及びA’,A’,...,A’内のロケーション(x,y)における各ピクセルが、もしそのピクセルが黒であれば、またはグレースケール及びカラー画像の場合、そのピクセルが所定のしきい値を超えるカラー特性(強度等)を有していれば計数されるプロセスを提案することによる。例えば、合意画像形成モジュール116は、C(x,y)が黒であるために、文書画像B及びA’,A’,...,A’内の(x,y)におけるピクセルの3分の2が黒であることを要求してもよい。
合意画像を形成するためのさらに別の方法は、選択された代表の文書画像Bを特別に処理することである。例えば、C(x,y)は、B(x,y)が黒でありかつA’(x,y),A’(x,y),...,A’(x,y)の3分の2が黒である場合にのみ黒に設定される。
ステップS600が実行された後は、図11に示されているもの等の合意画像8が生成される。合意画像8は、図2及び図3に示す画像4及び画像6等の注釈付き文書画像から形成されることに起因して、十分に画定されたライン(境界等)及びラベル「食料品」及び「娯楽」等の特徴を含む。さらに、重なり合う散乱ピクセルのみを有する注釈付き文書画像104に対する異形及び注釈のスキャンから形成されるノイズ12が存在する場合がある。このノイズ12は、クリーンな文書2を生成するために合意画像8から除去されてもよい。
例えば、ステップS700において、クリーンアップモジュール118は、クリーンな文書画像2を形成するために、ごま塩ノイズ、隔絶された白黒ピクセル及びピクセルの小さい接続されたコンポーネントを除去することによって合意画像8を清浄化する。クリーンアップモジュール118は、破断された水平及び垂直ラインも修復する場合がある。
ステップS750において、注釈抽出モジュール119は、入力された注釈付き文書画像104の各々から注釈情報データ157を、入力された文書画像104をクリーンな文書2と比較することによって抽出する。本例示的実施形態では、注釈抽出モジュール119は、画像データが存在している注釈付き文書画像における空のフィールド及び対応するバウンディングボックスまたはエリアに対応するクリーン文書内のバウンディングボックスまたはエリアを識別し、微分(diff)演算を実行して注釈付き文書画像から注釈情報データを抽出する。抽出される注釈情報データには、注釈自体、バウンディングボックスの座標及び注釈が抽出された注釈付き文書画像を識別する識別子が含まれてもよい。バウンディングボックスは、クリーン文書において、幾何学的配置を基礎として識別される。例えば、図1において、点P1、P2、P3、P4によって境界をつけられるボックスは、長方形(未記入の書式では一般的であると思われる)を形成するためにP1、P2、P3、P4を結ぶラインを有することから、クリーンな文書2の明確なエレメントとして識別される。対応するボックスは、次に、図2のアラインされた注釈付き文書画像4内に同じ相対的な点P1、P2、P3、P4を用いて決定される。バウンディングボックスが決定された後、注釈付きバウンディングボックス内に存在する、クリーンなバウンディングボックスには存在しないピクセルを抽出するために、diff演算が実行される。ある実施形態では、このステップは、アラインされた注釈付き画像ではなく原初の注釈付き画像に対して実行されてもよい。注釈付き画像4のバウンディングボックスP1、P2、P3、P4に関してdiff演算が実行された後は、図12の注釈データ情報が入手される。本例において、注釈データ情報は、「リンゴ、バナナ、ピザ、クッキー、バター」と記入する表記法、注釈付き文書画像4を識別する識別子及びその情報が正確にはどこから抽出されたかを知るために他のコンポーネントによって用いられてもよい座標P1、P2、P3、P4を含む。注釈付き画像から抽出された画像データは、手書きの注釈の場合、テキストのコンテンツを決定するためにOCRまたはワード認識技術を用いて処理されてもよい。
さらに、注釈データ情報が抽出された後、注釈抽出モジュール119は、任意選択として、ワード検出アルゴリズムを用いて注釈データを処理してもよい。
ステップS800において、クリーン文書再構築システム100は、クリーンな文書画像2及び抽出された注釈データ157を、出力デバイス120を介してメモリ106へ、またはクライアント端末130またはプリンタ132等の別の出力デバイスへ出力する。任意選択として、クライアント端末130、プリンタ132及び/または他の任意の出力デバイスは、インターネット等のネットワーク134を介して接続されてもよい。
本方法は、S900で終了する。

Claims (5)

  1. 注釈付き文書画像から文書を再構築するためのコンピュータ実装方法であって、
    少なくとも2つの注釈付き文書画像より成るセットをコンピュータメモリ内へ受信することであって、前記注釈付き文書画像は各々静止エレメントと注釈付きデータとを備えることと、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々のスキューの測度、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々の鮮明さの測度、及び
    前記セットの前記少なくとも2つの注釈付き文書画像の各々のライン品質の測度
    基づいて前記注釈付き文書画像のセットから代表画像を選択することと、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々について、前記選択された代表画像に対するアラインメントを実行することと、
    前記アラインメントが実行された前記セットの前記少なくとも2つの注釈付き文書画像の各々に基づいて、前記アラインメントが実行された前記セットの前記少なくとも2つの注釈付き文書画像の各々から導出された前記注釈付きデータのうちの少なくとも幾つかの前記注釈付きデータが曖昧にされる合意文書画像を形成することと、
    前記合意文書画像を出力することと、
    を含む方法。
  2. 注釈付き文書画像から文書を再構築するためのコンピュータ実装方法であって、
    少なくとも2つの注釈付き文書画像より成るセットをコンピュータメモリ内へ受信することであって、前記注釈付き文書画像は各々静止エレメントと注釈付きデータとを備えることと、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々について、前記注釈付き文書画像セットにおける少なくとも1つの他の注釈付き文書画像に対するアラインメントを実行することと、
    前記アラインメントが実行された前記セットの前記少なくとも2つの注釈付き文書画像の各々に基づいて、前記アラインメントが実行された前記セットの前記少なくとも2つの注釈付き文書画像の各々から導出された前記注釈付きデータのうちの少なくとも幾つかの前記注釈付きデータが曖昧にされる合意文書画像を形成することと、
    前記合意文書画像に基づいて、クリーンな文書を形成することと、
    前記注釈付き文書画像のセットから注釈情報データを、前記セットの前記少なくとも2つの注釈付き文書画像の各々前記クリーンな文書と比較することによって抽出することと、
    を備え、
    前記注釈情報データを抽出することは、
    前記クリーンな文書内のバウンディングボックス及び前記セットの前記少なくとも2つの注釈付き文書画像の各々内の対応するバウンディングボックスを識別することと、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々の各バウンディングボックス内に含まれる、前記クリーンな文書の前記対応するバウンディングボックスには存在していない注釈ピクセルを抽出するために異なる演算を実行することと、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々及び前記クリーンな文書の各バウンディングボックスについて、サイズ及びロケーション、前記抽出された注釈ピクセル、及び前記注釈付きデータが出された前記注釈付き文書画像を識別する識別子を出力することと、
    を含む、
    法。
  3. 注釈付き文書画像から文書を再構築するためのコンピュータ実装方法であって、
    少なくとも2つの注釈付き文書画像より成るセットをコンピュータメモリ内へ受信することであって、前記注釈付き文書画像は各々静止エレメントと注釈付きデータとを備えることと、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々のスキューの測度、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々の鮮明さの測度、及び
    前記セットの前記少なくとも2つの注釈付き文書画像の各々のライン品質の測度
    に基づいて前記注釈付き文書画像のセットから代表画像を選択することと、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々及び前記選択された代表画像において、前記セットの前記少なくとも2つの注釈付き文書画像の各々内の幾つかのブロックを選択し、前記注釈付き文書画像内の前記ブロックとサイズ及びロケーションが一致する前記代表画像における同数のブロックを識別し、かつ前記セットの前記少なくとも2つの注釈付き文書画像の各々前記ブロック内の少なくとも1点を前記代表画像内の対応する前記ブロック内の少なくとも1点へマップする変換マトリクスを計算することによって、前記セットの前記少なくとも2つの注釈付き文書画像の各々についてグローバルアラインメントを実行することと、
    前記選択された代表画像と、前記注釈付き文書画像のセットと、に基づいて、前記グローバルアラインメントが実行された前記セットの前記少なくとも2つの注釈付き文書画像の各々から導出された前記注釈付きデータのうちの少なくとも幾つかの前記注釈付きデータが曖昧にされる合意文書画像を形成することと、
    前記合意文書画像を出力することと、
    を含む方法。
  4. 注釈付き文書画像からクリーンな文書を再構築するためのコンピュータベースシステムであって、
    コンピュータプロセッサと、
    表スキャン選択モジュール、グローバルアラインメントモジュール、合意画像形成モジュール、及びクリーンアップモジュールを格納するコンピュータメモリと、
    を備え、
    前記代表スキャン選択モジュールは、
    少なくとも2つの注釈付き文書画像のセットを受信し、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々のスキューの測度、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々の鮮明さの測度、及び
    前記セットの前記少なくとも2つの注釈付き文書画像の各々のライン品質の測度
    に基づいて前記注釈付き文書画像のセットから代表画像を選択するように動作可能であり、
    前記グローバルアラインメントモジュールは、
    前記注釈付き文書画像のセットについて、前記選択された代表画像に対して、グローバルアラインメントを実行するように動作可能であり、
    前記グローバルアラインメントを実行することは、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々内で幾つかのブロックを選択することと、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々内の前記ブロックとサイズ及びロケーションが一致する前記代表画像における同数のブロックを選択することと、
    前記セットの前記少なくとも2つの注釈付き文書画像の各々の各ブロック内の少なくとも1点を前記代表画像内の対応するブロック内の少なくとも1点へマップする変換マトリクスを計算することと、
    を含み、
    前記合意画像形成モジュールは、
    少なくとも前記グローバルアラインメントが実行された前記セットの前記少なくとも2つの注釈付き文書画像の各々に基づいて、合意文書画像を形成するように動作可能であり、かつ、
    前記クリーンアップモジュールは、
    少なくとも前記合意文書画像に基づいて、クリーンな文書を形成し、かつ、
    前記クリーンな文書を出力するように動作可能であり、
    前記コンピュータプロセッサは、前記代表スキャン選択モジュール、前記グローバルアラインメントモジュール、前記合意画像形成モジュール、及び前記クリーンアップモジュールを実装する
    コンピュータベースシステム。
  5. 前記合意文書画像に基づいて、クリーンな文書を形成することと、
    前記クリーンな文書を出力することと、
    を更に含む請求項1に記載の方法
JP2011127703A 2010-06-21 2011-06-07 注釈付き文書の画像からクリーンな文書を再構築するためのシステムと方法 Active JP5795724B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/819,656 US8606046B2 (en) 2010-06-21 2010-06-21 System and method for clean document reconstruction from annotated document images
US12/819,656 2010-06-21

Publications (3)

Publication Number Publication Date
JP2012003753A JP2012003753A (ja) 2012-01-05
JP2012003753A5 JP2012003753A5 (ja) 2014-07-24
JP5795724B2 true JP5795724B2 (ja) 2015-10-14

Family

ID=44503538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011127703A Active JP5795724B2 (ja) 2010-06-21 2011-06-07 注釈付き文書の画像からクリーンな文書を再構築するためのシステムと方法

Country Status (4)

Country Link
US (1) US8606046B2 (ja)
EP (1) EP2402886B1 (ja)
JP (1) JP5795724B2 (ja)
KR (2) KR20110139113A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011014569A1 (en) * 2009-07-28 2011-02-03 Etxtbk, Llc Systems and methods for distributing electronic content
US9286581B2 (en) * 2010-06-29 2016-03-15 Ricoh Co., Ltd. User interface with inbox mode and document mode for single input work flow routing
US8285074B2 (en) 2010-09-01 2012-10-09 Palo Alto Research Center Incorporated Finding low variance regions in document images for generating image anchor templates for content anchoring, data extraction, and document classification
US8756050B1 (en) * 2010-09-14 2014-06-17 Amazon Technologies, Inc. Techniques for translating content
US9317861B2 (en) 2011-03-30 2016-04-19 Information Resources, Inc. View-independent annotation of commercial data
US9026900B1 (en) * 2012-02-10 2015-05-05 Google Inc. Invisible overlay for dynamic annotation
US20180260759A1 (en) * 2017-03-07 2018-09-13 Mighty AI, Inc. Segmentation of Images
WO2019113576A1 (en) * 2017-12-10 2019-06-13 Walmart Apollo, Llc Systems and methods for automated classification of regulatory reports
US11462037B2 (en) 2019-01-11 2022-10-04 Walmart Apollo, Llc System and method for automated analysis of electronic travel data
US11410446B2 (en) * 2019-11-22 2022-08-09 Nielsen Consumer Llc Methods, systems, apparatus and articles of manufacture for receipt decoding
US11810380B2 (en) 2020-06-30 2023-11-07 Nielsen Consumer Llc Methods and apparatus to decode documents based on images using artificial intelligence
US20220067275A1 (en) * 2020-08-31 2022-03-03 Iron Mountain Incorporated Systems and methods for data extraction from unstructured documents
US11822216B2 (en) 2021-06-11 2023-11-21 Nielsen Consumer Llc Methods, systems, apparatus, and articles of manufacture for document scanning
US11625930B2 (en) 2021-06-30 2023-04-11 Nielsen Consumer Llc Methods, systems, articles of manufacture and apparatus to decode receipts based on neural graph architecture

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06119488A (ja) * 1992-10-01 1994-04-28 Nippon Steel Corp 文字画像入力装置
US5671282A (en) 1995-01-23 1997-09-23 Ricoh Corporation Method and apparatus for document verification and tracking
US5692073A (en) * 1996-05-03 1997-11-25 Xerox Corporation Formless forms and paper web using a reference-based mark extraction technique
JP3558493B2 (ja) * 1997-06-10 2004-08-25 富士通株式会社 用紙位置合わせ装置、用紙位置合わせ方法及び用紙位置合わせプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4078009B2 (ja) * 2000-02-28 2008-04-23 東芝ソリューション株式会社 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
US6909805B2 (en) 2001-01-31 2005-06-21 Matsushita Electric Industrial Co., Ltd. Detecting and utilizing add-on information from a scanned document image
US6968085B2 (en) 2001-09-10 2005-11-22 Xerox Corporation Document matching and annotation lifting
US7526129B2 (en) * 2005-06-23 2009-04-28 Microsoft Corporation Lifting ink annotations from paper
JP2009182870A (ja) * 2008-01-31 2009-08-13 Toshiba Corp 帳票記載履歴管理システム及び帳票記載履歴監視プログラム
JP4604100B2 (ja) * 2008-03-21 2010-12-22 シャープ株式会社 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記憶媒体
US8224092B2 (en) 2008-07-08 2012-07-17 Xerox Corporation Word detection method and system
US8335381B2 (en) 2008-09-18 2012-12-18 Xerox Corporation Handwritten word spotter using synthesized typed queries
US8566349B2 (en) 2009-09-28 2013-10-22 Xerox Corporation Handwritten document categorizer and method of training

Also Published As

Publication number Publication date
KR20160026936A (ko) 2016-03-09
KR20110139113A (ko) 2011-12-28
KR101737338B1 (ko) 2017-05-18
US20110311145A1 (en) 2011-12-22
US8606046B2 (en) 2013-12-10
EP2402886B1 (en) 2019-09-25
EP2402886A3 (en) 2012-11-21
EP2402886A2 (en) 2012-01-04
JP2012003753A (ja) 2012-01-05

Similar Documents

Publication Publication Date Title
JP5795724B2 (ja) 注釈付き文書の画像からクリーンな文書を再構築するためのシステムと方法
US10289924B2 (en) System and method for scanned document correction
JP4847592B2 (ja) 歪み文書画像を補正する方法及びシステム
Ulges et al. Document image dewarping using robust estimation of curled text lines
US8472753B2 (en) Method and system of adaptive reformatting of digital image
US8457403B2 (en) Method of detecting and correcting digital images of books in the book spine area
US6970592B2 (en) Apparatus and method for correcting distortion of input image
KR101297177B1 (ko) 디지털 이미지의 적응적 리포맷팅을 위한 방법 및 시스템
US20150097827A1 (en) Target Region Fill Utilizing Transformations
Wu et al. Document image de-warping for text/graphics recognition
JP2011097251A (ja) 画像処理装置、画像処理方法、画像処理プログラム、画像処理プログラムを記録した記録媒体
US8068695B2 (en) Positional distortion compensation
JP4630777B2 (ja) デジタル文書を変更する方法、装置、コンピュータプログラム及び記憶媒体
JP2009232085A (ja) 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記憶媒体
WO2016197571A1 (en) Image interpolation device and method thereof
JP2011022867A (ja) 画像処理装置、画像処理システムおよびプログラム
Ma et al. Learning from documents in the wild to improve document unwarping
Banerjee et al. Super-resolution of text images using edge-directed tangent field
JP5181350B2 (ja) 画像処理装置、及び画像処理プログラム
JP2002150280A (ja) 歪み補正方式
Koo Segmentation and rectification of pictures in the camera-captured images of printed documents
JP3952188B2 (ja) 画像補間装置、画像補間方法および画像補間プログラム
JP5418057B2 (ja) 画像処理装置及びコンピュータプログラム
Agam et al. Structural rectification of non-planar document images: application to graphics recognition
Dulla Geometric correction of historical Arabic documents

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140605

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150814

R150 Certificate of patent or registration of utility model

Ref document number: 5795724

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250