JP2012003753A

JP2012003753A - 注釈付き文書の画像からクリーンな文書を再構築するためのシステムと方法

Info

Publication number: JP2012003753A
Application number: JP2011127703A
Authority: JP
Inventors: W Bern Marshall; マーシャル・ダブリュ・バーン; E Brito Alejandro; アレハンドロ・イー・ブリト; Raguenet Francois; フランソワ・ラグネ
Original assignee: Palo Alto Research Center Inc; Xerox Corp
Current assignee: Palo Alto Research Center Inc; Xerox Corp
Priority date: 2010-06-21
Filing date: 2011-06-07
Publication date: 2012-01-05
Anticipated expiration: 2031-06-07
Also published as: US8606046B2; EP2402886B1; KR20160026936A; JP5795724B2; EP2402886A3; KR101737338B1; EP2402886A2; US20110311145A1; KR20110139113A

Abstract

【課題】注釈付き文書画像からクリーンな文書を再構築し、かつ注釈付き文書画像から注釈を抽出するためのコンピュータ実装方法及びシステムを提供する。
【解決手段】少なくとも２つの注釈付き文書画像をコンピュータメモリに受信することと、注釈付き文書画像のセットから代表画像を選択することと、注釈付き文書画像セットの各々について、選択された代表画像に対するグローバルアラインメントを実行することと、少なくともアラインされた注釈付き文書画像を基礎として合意文書画像を形成することを含む。次に、少なくとも合意文書画像を基礎とする、注釈を抽出するために使用され得るクリーンな文書を形成する。
【選択図】図５

Description

例示的な実施形態は、注釈付き文書の画像セットからクリーンな文書を再構築するためのシステムと方法に関する。

所定の形式が幾名かのユーザによって完成され、かつ概して形式のスキャン及びユーザによる追加の識別を含む処理に提出されることは一般的である。記入済み（注釈付き）書式の固定したテキストから可変テキスト（例えば、氏名、住所、日付け、金額、他）を分離することは、文書走査サービスの分野では困難である可能性がある。ユーザが情報を入力した書式フィールドのロケーションが既知であれば、分離は比較的容易である。しかしながら、過去の何れかの時点で生成されたものと思われる書式などは特に、この情報を入手できない場合が多い。

従って、過去に全く目にしたことがない新しいタイプの書式に関しても、注釈付き文書の画像から注釈付きデータを分離するための、ほぼ完全に自動化された方法を保有することが望ましい。

例示的な実施形態の一態様では、注釈付き文書の画像から文書を再構築するためのコンピュータ実装方法が提供される。本方法は、少なくとも２つの注釈付き文書画像のセットをコンピュータメモリ内へ受信することであって、注釈付き文書画像は各々静止エレメントと注釈付きデータとを備えることと、注釈付き文書画像の各々について、上記注釈付き文書画像セットにおける少なくとも１つの他の注釈付き文書画像に対するアラインメントを実行することを含む。次に、アラインされた注釈付き文書画像を基礎として、上記アラインされた注釈付き文書画像から導出された少なくとも幾つかの注釈付きデータが曖昧にされた合意文書画像が形成される。クリーンな文書は、この合意文書画像を基礎として形成され、かつクリーンな文書は出力デバイスを介するビューイング用に表示される。

別の態様では、注釈付き文書の画像からクリーンな文書を再構築するためのコンピュータベースシステムが提供される。本システムは、コンピュータプロセッサと、グローバルアラインメントモジュール、合意画像形成モジュール及びクリーンアップモジュールを格納するコンピュータメモリとを含む。グローバルアラインメントモジュールは、注釈付き文書画像の各々について、選択された代表画像に対するグローバルアラインメントを実行するように構成される。合意画像形成モジュールは、少なくともアラインされた注釈付き文書画像を基礎として、上記アラインされた注釈付き文書画像から導出された少なくとも幾つかの注釈付きデータが曖昧にされている合意文書画像を形成するように構成される。クリーンアップモジュールは、少なくともこの合意文書画像を基礎としてクリーンな文書を形成しかつクリーンな文書を出力デバイス上へビューイング用に表示するように構成される。コンピュータプロセッサは、これらのモジュールを実装する。

さらに別の態様において、コンピュータプログラムプロダクトは有形媒体符号化命令を含み、上記命令は、コンピュータ上で実行されると、注釈付き文書画像のセットについて、上記注釈付き文書画像セットから代表画像を選択することと、注釈付き文書画像セットにおける複数の他の画像の各々に対して、選択された代表画像に関するグローバルアラインメントを実行してアラインされた注釈付き文書画像のセットを形成することと、アラインされた注釈付き文書画像のセットを基礎として合意文書画像を形成することと、合意文書画像を基礎としてクリーンな文書を形成することを含む方法を実行する。注釈付き文書画像の各々について、注釈付き画像がクリーンな画像と比較されて注釈が識別され、注釈が出力される。

本方法及びシステムは、注釈付き文書画像のセットから代表画像を選択し、かつ注釈付き文書画像セット内の各注釈付き文書画像について、選択された代表画像に対するグローバルアラインメントを実行するように適合化されてもよい。

本方法及びシステムは、選択された代表画像及び注釈付き文書画像のセットを基礎として合意文書画像を形成するように適合化されてもよい。

本方法及びシステムのクリーンな文書は、全ての類似文書上に複写されるための静止エレメントを含む固定されたページレイアウトを有する文書であってもよい。

本方法及びシステムは、少なくとも合意文書画像を基礎とし、ごま塩ノイズ及び隔絶された白黒ピクセルを除去しかつ破断したラインを修復することによってクリーンな文書を形成するように適合化されてもよい。

本方法及びシステムは、注釈付き文書画像のセットから注釈情報データを、各注釈付き文書画像をクリーンな文書と比較することによって抽出するように適合化されてもよい。

本方法及びシステムは、クリーンな文書内のバウンディングボックス及び注釈付き文書画像内の対応するバウンディングボックスを識別し、注釈付き文書画像の各ボックス内に含まれる、クリーンな文書の対応するボックスには存在していない注釈ピクセルを抽出するためにｄｉｆｆ演算を実行し、かつ各バウンディングボックスについて、サイズ及びロケーション、抽出された注釈ピクセル及び注釈データが抽出された注釈付き文書画像を識別する識別子を出力することによって、注釈情報を抽出するように適合化されてもよい。

本方法及びシステムによって選択される代表画像は、注釈付き文書画像のスキューの測度、注釈付き文書画像の鮮明さの測度及び注釈付き文書画像のライン品質の測度のうちの１つを基礎とするものであってもよい。

本方法及びシステムの選択される代表画像及び注釈付き文書画像セットは、合意文書画像の形成前にぼかされてもよい。

本方法及びシステムは、各注釈付き文書画像について、この注釈付き文書画像内の幾つかのブロックを選択し、代表画像において、上記注釈付き文書画像内のブロックとサイズ及びロケーションが一致する同数のブロックを識別し、かつ注釈付き文書画像の各ブロック内の少なくとも１点を代表画像内の対応するブロック内の少なくとも１点へマップする変換マトリクスを計算することによって、グローバルアラインメントを実行するように適合化されてもよい。

本方法及びシステムの変換マトリクスは、注釈付き文書画像内の各ブロックに関する変換の平均であってもよい。

本方法及びシステムは、注釈付き文書のブロック内の黒ピクセルと代表文書のブロック内の黒ピクセルとの重なりの測度を計算することによって、注釈付き文書画像の各ブロック内の少なくとも１点を代表画像内の対応するブロック内の少なくとも１点へマップするように適合化されてもよい。

本方法及びシステムは、注釈付き文書画像のブロックと代表画像のブロックとの間の重なり合った黒ピクセルの数を、注釈付き文書画像のブロック及び代表画像の対応するブロックにおける黒ピクセルの平均数で除したものとして定義される品質スコアを算出することによって、黒ピクセルの重なりの測度を計算するように適合化されてもよい。

本方法及びシステムは、変換マトリクスを計算するために粗い探索から細かい探索までの階層的探索を用いてもよい。

本方法及びシステムの変換マトリクスは、回転、平行移動、均一なスケーリング、ページカールの補正及びキーストーニングの補正を考慮に入れてもよい。

本方法及びシステムは、注釈付き文書画像のセットにおける各注釈付き文書画像について、上記注釈付き文書画像を二次ブロックのセットに分割し、注釈付き文書画像内の各二次ブロックと代表画像内の個々の二次ブロックとの一致を決定し、かつ一致が決定された複数の二次ブロックについて、グローバルアラインメント情報を基礎として、代表画像内の対応するブロックを取得するために注釈付き文書画像内の各二次ブロックへ平行移動ベクトルを割り当てるベクトルフィールドを生成することによって、注釈付き文書画像のセットについてローカルアラインメントを実行するように適合化されてもよい。

本方法及びシステムのベクトルフィールドは、少なくとも１つの二次ブロックの平行移動ベクトルを推定するためにラプラス平滑化処理を用いてもよい。ラプラス平滑化処理は、少なくとも１つの二次ブロックに近接する二次ブロックからのベクトルを平均することによってベクトルを外挿してもよい。

本方法及びシステムは、各々が合意文書画像内に一意の位置を有する複数の合意ピクセルを決定し、割り当てられた注釈付き文書画像の各々における対応するピクセルの特性を合計することを包含し、かつ上記合計を所定のしきい値と比較することによって、合意文書画像を形成するように適合化されてもよい。さらに、上記合計は、代表画像内の対応するピクセルの加重値を含んでもよい。

注釈データなしのクリーンな文書を示すグラフである。注釈データが追加された図１のクリーンな文書を示すグラフである。注釈データが追加された図１のクリーンな文書を示すグラフである。注釈付き文書画像のセットからクリーンな文書を再構築するための例示的なシステムを示すハイレベル概観図である。図４の例示的なシステムによって実行されるオペレーションを示すフロー図である。図５に示すグローバルアラインメント方法をさらに詳しく示すフロー図である。図５及び図６のグローバルアラインメント方法に使用される粗い探索から細かい探索までの階層的探索をさらに詳しく示すフロー図である。図７に示す粗い探索から細かい探索までの階層的探索によって使用される探索ウィンドウを示すグラフである。図５によって説明されているローカルアラインメント方法をさらに詳しく示すフロー図である。注釈付き文書画像へ印加されるべき平行移動ベクトルセットによる歪みマップを示すグラフである。ノイズを含む合意画像を示す。図２の注釈付き文書画像から抽出された注釈データを示す。図３の注釈付き文書画像に関連して図６のグローバルアラインメント方法により選択された最初のブロックを示す。図３の注釈付き文書画像に関連して図９のローカルアラインメント方法により使用された第２のブロックを示す。

本明細書では、注釈付き文書画像のセットからクリーンな文書を再構築するための方法及びシステムを開示する。

本明細書で使用しているように、「クリーンな文書」は、固定されたテキスト、固定された境界及び全ての類似文書において複写されるための他のページエレメント等の静止エレメントを含む固定されたページレイアウトを有する文書である。例えば、図１はクリーンな文書例２を示している。クリーンな文書２は、ユーザによって情報を記入される（注釈を付けられる）べき未記入の書式と見なすことができる。従って、注釈付き文書は、ユーザまたは他のエージェント（コンピュータシステム等）によって追加された可変データ（注釈）を含む修正されたクリーン文書である。注釈付き文書画像は、走査され、ダウンロードされかつ別途コンピュータメモリへ入力されている注釈付き文書からの１つまたは複数の画像である。図２及び図３は、注釈付き文書画像の例４、６を示す。

この例示的な実施形態では、文書画像に対して、回転、平行移動及びｘ、ｙ座標の分離スケーリングを考慮に入れる多変数変換が実行される。これは、２つ以上の注釈付き文書画像間のグローバルアラインメントを達成する。複数文書のアラインメントの後、本例示的方法及びシステムは、複数の注釈付き文書画像に共通するピクセルを含む新しい画像を計算する。これは、最初のグローバル変換が単に１ページ画像の他のページ画像に対する平行移動であった早期のアラインメント方法とは対照的である。

図４を参照すると、注釈付き文書画像のセットからクリーンな文書２を再構築するための例示的なシステム１００が示されている。システム１００は、注釈付き文書画像のセット１０４を受信するための入力デバイス１０２を含む。本明細書に提示している本例示的システム及び方法の説明を単純にするために、注釈付き文書画像のセット１０４は単一のクリーンな文書２に対応する２つ以上の注釈付き文書画像から成ることを想定するが、本方法及びシステムは、複数のクリーン文書に対応する注釈付き文書画像の集合体の処理に使用されることも可能である。入力に先立って、注釈付き文書画像のセット１０４は、スキャナによって生成されるＲＯＭまたはＲＡＭドライブ等の任意の適切な有形媒体に格納されてもよく、かつ／または、例えばインターネットを介してシステム１００へ搬送波の形式で入力されてもよい。或いは、注釈付き文書画像１０４は、システム１００自体の内部で生成されてもよい。入力デバイス１０２は、モデムリンク、有線または無線接続、ＵＳＢポート、フロッピーまたはハードディスクレシーバまたはこれらに類似するものを含んでもよく、かつシステム１００の他のコンポーネントと結合されても、分離されてもよい。

システム１００は、処理の間に注釈付き文書画像１０４を格納するためのデータメモリ１０６を含む。システム１００のメインメモリ１０８は、代表スキャン選択モジュール１１０と、グローバルアラインメントモジュール１１２と、任意選択のローカルアラインメントモジュール１１４と、合意画像形成モジュール１１６と、クリーンアップモジュール１１８と、注釈抽出モジュール１１９とを格納する。モジュール１１０、１１２、１１４、１１６、１１８及び１１９からの出力はメモリ１０６、１０８に格納されてもよく、または出力デバイス１２０を介してクライアント端末１３０またはプリンタ１３２の一方またはそれ以上へ、任意選択としてインターネット等のネットワーク１３４を通じて出力されてもよい。出力（クリーンな文書２または抽出された注釈１５７等）は、ビューイング用にクライアント端末１３０またはプリンタ１３２上で表示されてもよい。

任意選択の代表スキャン選択モジュール１１０は、入力として入力デバイス１０２を介して注釈付き文書画像のセット１０４を受信し、この注釈付き文書画像のセット１０４から注釈付き文書画像のセット１０４を代表する（「最良の」）ものと考えられる注釈付き文書画像１５０を選択する。選択された代表の注釈付き文書画像１５０は、次にスキャン選択モジュール１１０からグローバルアラインメントモジュール１１２へ送られる。グローバルアラインメントモジュール１１２は、他の注釈付き文書画像１０４の各々に対して剛体変換（回転及び／または平行移動等）を実行し、これらを、選択された代表の注釈付き文書画像１５０へさらに密にアラインする。（任意選択のステップであることから）代表の注釈付き文書画像が選択されていなければ、グローバルアラインメントモジュール１１２は、注釈付き文書画像１０４の各々について、他のロケーション情報に関する剛体及び／または相対変換を実行する。例えば、グローバルアラインメントモジュール１１２は、各注釈付き文書画像が、画像の端に平行する、かつ上記端から定距離を有するテキストの一番上の行（または文書内の所定の行）を有するように、各注釈付き文書画像をアラインしてもよい。グローバルアラインメントモジュール１１２の出力は、任意選択のローカルアラインメントモジュール１１４へ送られる変換マトリクス１５２等の変換セットである。ローカルアラインメントモジュール１１４はさらに、とりわけページカール、キーストーニング（斜角から撮られた写真等）、他を補正する技術を用いて、選択された代表文書画像１５０に関して注釈付き文書画像のセット１０４をアラインする。ローカルアラインメントモジュール１１４の出力は、合意画像形成モジュール１１６へ送られるアラインされた文書画像１５４のセットである。合意画像形成モジュール１１６はアラインされた各画像を処理し、かつ少なくとも複数のアラインされた画像に幾何学的に共通するピクセルを識別して合意画像１５６を形成する。共通するピクセルを有することをそのピクセルが合意画像１５６に属するとして識別される前に必要とされる注釈付き文書画像のしきい値数はシステム実装に依存するが、これについては後に詳述する。合意画像形成モジュール１１６が合意画像１５６を形成すると、合意画像１５６は任意選択としてクリーンアップモジュール１１８へ送られる。クリーンアップモジュール１１８は、合意画像１５６内のごま塩ノイズ等の望ましくないアーチファクトを識別し、かつクリーンな文書２をメモリ１０６、１０８、クライアント端末１３０及びプリンタ１３２のうちの１つまたはそれ以上へ出力する。注釈抽出モジュール１１９は、注釈付き文書画像をクリーンな文書２と比較することによって注釈付き文書画像１１４の各々から注釈情報を抽出する。

この例示的なシステムでは、コンポーネント１１０、１１２、１１４、１１６、１１８及び１１９はメインメモリ１０８に格納されたソフトウェア命令を備え、これはコンピュータプロセッサ１２２によって実行される。コンピュータのＣＰＵ等のプロセッサ１２２は、メモリ１０８に格納された処理命令を実行することによってコンピュータシステム１００の全体的なオペレーションを制御してもよい。コンポーネント１０２、１０６、１０８、１１０、１１２、１１４、１１６、１１８、１１９、１２０及び１２２は、データ制御バス１２４によって接続されてもよい。認識されるであろうが、システム１００は、同じ機能性を維持しながらより少ない、またはより多いコンポーネントを含んでもよい。例えば、コンポーネント１１０、１１２、１１４、１１６、１１８、１１９は、より少ないコンポーネントを形成するために結合されても、より多い個々のコンポーネントを形成するために機能を分離されてもよい。

認識されるであろうが、クリーン文書再構築システム１００は、パーソナルコンピュータ、ＰＤＡ、ラップトップコンピュータ、サーバコンピュータ、文書処理ケイパビリティを有するスキャンデバイスまたはこれらの組合せ等の１つまたは複数のコンピューティングデバイスを備えてもよい。メモリ１０６、１０８は一体型であっても分離型であってもよく、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、磁気ディスクまたはテープ、光ディスク、フラッシュメモリまたはホログラフィックメモリ等の任意タイプのコンピュータ読取り可能媒体を表してもよい。ある実施形態では、メモリ１０６、１０８は、ランダムアクセスメモリと読取り専用メモリとの組合せを備える。実施形態によっては、プロセッサ１２２とメモリ１０６及び／または１０８とが１つのチップ内に組み合わされてもよい。

図５を参照すると、注釈付き文書画像のセットからクリーンな文書を再構築するための例示的な方法が示されている。本方法は、図４に示すシステム１００を使用してもよい。本例示的方法が図示されているステップより少ない、多い、または異なるステップを含んでもよく、かつ図示されている順序で進行する必要もないことは認識されるべきである。図５に示されている方法は、コンピュータ上で実行され得るコンピュータプログラムプロダクトにおいて実装されてもよい。コンピュータプログラムプロダクトは、コンピュータプログラムが記録される（ディスクまたは他のメモリ格納デバイス等の）有形コンピュータ読取り可能記録媒体であっても、制御プログラムがデータ信号として具現される伝送可能な搬送波であってもよい。図示されている方法は、完全自動式であってもよく、本明細書に記載しているような何らかのユーザ入力を含んでもよい。

本方法は、ステップＳ１００で開始される。ステップＳ２００において、クリーン文書再構築システム１００は、入力デバイス１０２を介してコンピュータメモリ１０６へ少なくとも２つの注釈付き文書画像のセット１０４を受信する。セット１０４内の各注釈付き文書画像は同じ形式またはクリーンな文書画像に対応しているべきであって、唯一異なる注釈を有する。例えば、図２及び図３の注釈付き文書画像４及び６は、画像４及び６が各々１０ａ及び１０ｂ等の注釈を含むクリーン文書２の上位セットであることから、共に図１のクリーンな文書画像（即ち、未記入の書式）２に対応している。ある実施形態では、２つの注釈付き文書画像は、これらの２つの注釈付き文書画像が少なくとも所定の比率（例えば、５０％）のピクセルを共有していれば同じクリーンな文書画像に対応している。例えば、２つの注釈付き文書画像は、画像の大きさに関して同じ位置に存在する同じ改行及び同じフォントを有する所定量のテキストを共有してもよい。出力されるクリーンな文書画像の品質は、少なくとも部分的に、入力される注釈付き文書画像の数に依存する。本例示的方法及びシステムでは少なくとも１０、かつある実施形態では約２０またはそれ以上の白黒、グレースケール及び／またはカラー画像がシステム１００へ入力される。注釈付き文書画像は、ＴＩＦＦ、ＪＰＧ、ＧＩＦ、ＰＤＦ、他等の処理ソフトウェアによる認識が可能な任意のフォーマットであってもよい。任意選択として、グレースケールまたはカラー画像は、処理の前に２値（白黒）画像に変換されてもよい。

ステップＳ３００では、代表スキャン選択モジュール１１０が入力された注釈付き文書画像のセット１０４から１つの注釈付き文書画像を選択し、選択された注釈付き文書画像を代表の注釈付き文書画像１５０として設定する。代表の注釈付き文書画像１５０は、入力された注釈付き文書画像のセット１０４から外されてもよいが、この限りではない。ある代替実施形態では、代表の注釈付き文書画像１５０はユーザによって手動で選択されてもよい。ある注釈付き文書画像が代表の注釈付き文書画像として選択されることに適するかどうかを決定し得る要素としては、上記注釈付き文書画像のスキュー、鮮明さ及びライン品質が含まれるが、この限りではない。例えば、ある注釈付き文書画像は、それが文書の余白に対して歪められておらず、鮮明でくっきりとしたエッジを有しかつ濃くて容易に区別可能な行を有していれば、代表の注釈付き文書画像と見なされてもよい。代表の注釈付き文書画像１５０の決定に際しては、これらの要素の任意のもの、または全てが考慮されてもよい。その目的は、最良の注釈付き画像（生成元であったクリーンな画像と構造が最もよく類似していると予想されたもの）を代表の注釈付き文書画像として選択することにあるが、処理ソフトウェアは必ずしも人が最良であると考える注釈付き画像を選択しない場合がある。本例示的実施形態では、代表の注釈付き文書画像の決定に際して、文書画像の鮮明さ、または品質よりも文書画像のスキューの方に重きがおかれる。説明を目的として、ここでは図２を最良の注釈付き画像として選択する。

ステップＳ３５０において、代表スキャン選択モジュール１１０（または他の任意の適切なモジュール）は、任意選択として入力された注釈付き文書画像のセット１０４及び選択された代表の注釈付き文書画像１５０をぼかす。使用されるぼかしアルゴリズム及び／またはコンポーネントは、任意の適切なぼかしアルゴリズムを実装してもよい。例えば、所定の実施形態は、周知のガウスぼかしアルゴリズムを実装して注釈付き文書画像１０４、１５０をぼかす。他の実施形態では、文書画像の黒ピクセルは膨張される。膨張は、出力されるピクセルの値が入力されるピクセルの近傍における全ピクセルの最大値であるオペレーションを示す。例えば、２値画像において、入力されるピクセルの近傍における任意のピクセルが黒であれば、出力されるピクセルは黒に設定される。ぼかしの目的は、１つまたは２つのピクセルによるピリオドまたはライン等の比較的小さいオブジェクトであっても幅はアライン可能であることの保証にある。

ステップＳ４００において、グローバルアラインメントモジュール１１２は、入力された注釈付き文書画像のセット１０４内の各注釈付き文書画像Ａ_１，Ａ_２，．．．，Ａ_ｎを、選択された代表の注釈付き文書画像Ｂ１５０に対してアラインするグローバルアラインメントを実行する。簡単に言えば、グローバルアラインメントモジュール１１２は、Ａ_ｉ内の幾つかの初ブロック４７８（図１３）（例えば、本例示的実施形態では約２０個−５０個のブロック）を選択し、相互相関及び粗い探索から細かい探索までの階層的探索を用いてＢ内のその対応する（即ち、一致する）初ブロック４７８を識別する。本例示的実施形態では、文書画像Ａ_ｉ内の選択された初ブロック４７８は、多くの黒（またはカラーの場合は暗い）ピクセルを含む複合ブロックである。例えば、ある初ブロック４７８は、それが１０％を超える黒ピクセルを含んでいれば選択されてもよい。初ブロック４７８は、少なくとも５０ピクセルまたは少なくとも１００ピクセルを含んでもよく、かつ実施形態によっては、約１００，０００ピクセルまで含んでもよい。選択された初ブロックは全て同じサイズ及び形状であってもよく、異なる形状及び／またはサイズであってもよい。ある実施形態では、初ブロック４７８は長方形であるが、他の形状も企図されている。概して、初ブロック４７８は画像面積の約５％以下の面積を占める。

初ブロック４７８（図１３）の一致する各ペアは、１対の点、即ちＡ_ｉ内の（ｘ，ｙ）及びＢ内の（ｘ’，ｙ’）を与える。一般的な最小二乗法（不良一致を除去する異常値排除を有する）を用いて、グローバルアラインメントモジュール１１２は、Ａ_ｉ内の点をＢ内の点に近似的にマップする変換マトリクスを計算する。変換マトリクスは、回転及び平行移動等の剛体運動のみを許容してもよい。所定の実施形態では、変換マトリクスは（ファックスマシンで発生することが多い）ｘ及びｙ方向に一様なスケーリングまたは異なるスケーリングも許容してもよく、かつ／またはページカール、キーストーニング、他を含む、但しこれらに限定されない変形部を補正するための追加的な変換も提供してもよい。ステップＳ４００は、図６にさらに詳述されている。グローバルアラインメント法はステップＳ３５０から開始されかつＳ４０２で始まり、各注釈付き文書画像Ａ_ｉについて、選択された代表の注釈付き文書画像Ｂ１５０に関して実行される。

ステップＳ４０２において、グローバルアラインメントモジュール１１２は、画像Ａ_ｉ内の複数の初ブロックを選択する。例えば、図１３は、選択された複数の初ブロック４７８を有する図３の注釈付き文書画像６を示している。本例示的実施形態では、３０個以上の初ブロック４７８が選択されている。さらに所定の実施形態では、初ブロック４７８は、文書画像Ａ_ｉに渡って一様のサイズ、非重複及び一様分布のうちの少なくとも何れかである。初ブロック４７８は互いに隣接していても、任意サイズのスペースによって分離されてもよい。３００ＤＰＩ文書画像の場合、初ブロック４７８は、典型的には１２８ｘ１２８ピクセルのサイズを有する。初ブロックは、ランダムに選択されても、擬似ランダムに選択されても、ユーザによって選択されてもよいが、この限りではない。初ブロックが擬似ランダムに選択される実施形態では、初ブロックはユーザの手助けによって選択されてもよく、かつ／または所定の条件を満たすように選択されてもよい。

ステップＳ４０４において、グローバルアラインメントモジュール１１２は、文書画像Ａ_ｉの初ブロック４７８（図１３）の各々について、文書画像Ｂ内の対応する初ブロック４７８に対する最近一致を決定する。まず、Ａ_ｉの初ブロックの同じｘ及びｙ座標を用いてＢ内の初ブロックを位置決めすることによって、Ａ_ｉの初ブロック４７８が暫定的にＢの初ブロック４７８に一致される。文書画像の初ブロックの最近一致は、有効変換の下で文書画像Ａ_ｉの初ブロック４７８に最も近接して似ている選択された文書画像Ｂの初ブロックを発見することによって決定される。有効変換には、文書画像の初ブロックの平行移動、文書画像の初ブロックの回転、文書画像の初ブロックのスケーリング及び文書画像の初ブロックのアフィン変換が含まれるが、この限りではない。文書画像の初ブロック４７８の最近一致は、上記一致の品質に対応する品質スコアにも関連づけられてもよい。所定の実施形態では、選択された文書画像の初ブロックの品質はゼロから１までのスケールで評価される。但し、ゼロは一致が発見されないことを示し、１は完全一致を示す。完全一致は、選択された文書画像の何らかの初ブロックが、回転等の有効変換下で文書画像の初ブロックに正確に一致する場合にのみ存在する。このような実施形態下では、品質スコアは、（適用された任意の変換に続く）文書画像の初ブロックと選択された文書画像の初ブロックとの間の重なり合う黒ピクセル数を、文書画像の初ブロック及びこれに対応する選択された文書画像の初ブロックにおける黒ピクセルの平均数で除したものとして定義されてもよい。さらに、所定の実施形態において、最近一致の品質スコアが信頼度しきい値より低ければ、方法Ｓ４００の残りのステップに関して文書画像の対応する初ブロックは無視されてもよい（一致なし）。文書画像の対応する初ブロックが注釈データのみ（または主として注釈データ）を含んでいれば、品質スコアは信頼度しきい値より低くなると思われる。

文書画像の初ブロック４７８（図１３）の最近一致を発見するためには、粗い探索から細かい探索までの階層的探索手順が使用されてもよい。図７を参照すると、図８の例示的な１５ピクセルｘ１５ピクセルの探索ウィンドウ４５３へ適用されるような階層的探索手順４５０が示されている。例示を目的として、探索ウィンドウ４５３は、図２及び図３における初ブロック４７８内にも示されている。階層的探索手順は、ステップＳ４５２において、文書画像Ａ_ｉの初ブロックを中心として探索ウィンドウ４５３を画定することによって始まる。探索ウィンドウは、Ａ_ｉの選択された初ブロックに対応する選択された代表画像Ｂ内のブロックを発見するために使用される。近似ロケーションを決定するより高度な方法が使用されてもよいが、所定の実施形態では、文書画像の初ブロックのロケーションは単に、選択された文書内の対応するロケーションにマップされる。例えば、幅ｗ_０及び高さｈ_０を有する文書画像内のロケーション（ｘ_０，ｙ_０）における初ブロックについて考察されたい。選択された文書画像が幅ｗ_１及び高さｈ_１を有していれば、選択された文書内の対応するロケーション（ｘ_１，ｙ_１）は下記のように定義されることが可能である。

ステップＳ４５４において、グローバルアラインメントモジュール１１２は、探索ウィンドウ４５３より小さくかつ探索ウィンドウ内に中心を置かれた第１のボックス（点４５７で画定されている）を画定する。

ステップＳ４５６において、グローバルアラインメントモジュール１１２は、第１のボックス内に位置決めされた点４５７のセットの一致スコアを決定する。所定の実施形態では、一致スコアは、４つ角と、各辺の中点と、ボックスの中心との離隔された９点について決定されるが、離隔された点の数はこれより少なく、または多く選択されてもよい。ある点の一致スコアは、文書画像Ａ_ｉの初ブロックを上記点に近接する選択された文書画像Ｂの領域へ一致させるべく試行することによって決定される。オペレータは、オペレータによる近接の定義が広義であるほど階層的探索手順４５０は遅くなるという理解の下で、近接を自らが適当と思うように定義してもよい。よってステップＳ４５８では、最も高い一致スコア（この図では、右上の点４５７）を有する点が選択される。例えば、図２及び図３の探索ウィンドウ４５３は各々ドル記号（＄）を含むが、これは、対応する点に関して高い一致スコアを与える。

ステップＳ４６０では、先のボックスより小さくかつ先のボックスからの最近一致の辺りに中心を置かれたボックスが（点４６３によって）画定される。

ステップＳ４６２において、グローバルアラインメントモジュール１１２は、より小さいボックス内に位置決めされた点について、第１のボックスに類似する方法で一致スコアを決定する。ステップＳ４６４では、最も高い一致スコアを有する点（この場合は、右中央の点４６３）が選択される。

ステップＳ４６６において、グローバルアラインメントモジュール１１２は、より小さいボックスの点が類似する一致スコアを有するかどうかを決定する。例えば、点４６３の一致スコアは互いに比較され、点間の差が所定のしきい値内（例えば、０．０から１．０まで）に含まれるかどうかが決定される。より小さいボックスの点が互いに類似していなければ、ステップＳ４６０、Ｓ４６２、Ｓ４６４及びＳ４６６が繰り返される。

ステップＳ４６８において、グローバルアラインメントモジュール１１２は、最近一致が探索ウィンドウ４５３の境界においでであるかどうかを決定する。例えば、点４７１で表される右側の点のうちの何れかがそのボックスの最近一致であると決定されれば、選択される点は探索ウィンドウの境界に存在する。最近一致が境界上に存在しなければ、方法４５０はＳ４７２へ進む。存在すれば、方法４５０は、ステップＳ４７０において最近一致の辺りに中心が置かれる新しい探索ウィンドウを画定し、ステップＳ４５４からＳ４６８までを繰り返す。本方法におけるこの時点で、グローバルアラインメントモジュール１１２は、文書画像Ａ_ｉ内に、文書画像Ｂ内の点セットに対応する９点までのセットを識別している。

図６に戻って参照すると、ステップＳ４０６において、グローバルアラインメントモジュール１１２は、Ａ_ｉへ適用されると文書画像Ａ_ｉを文書画像Ｂへアラインする文書画像Ａ_ｉの変換マトリクスを決定する。この決定は、最近一致間の差を最小化するための最小二乗分析及び文書画像の対応する初ブロック４７８（図１３）を用いて行われる。基本的には、その目的は、文書画像Ａ_ｉの初ブロック内の点を選択された文書画像Ｂの対応する初ブロック内の点へマップすることにある。これを実行する際には、最小二乗分析は１つまたは複数の有効変換を考慮してもよい。但し、有効変換には、回転、平行移動、スケーリング、ページカール、キーストーニング、他が含まれるが、この限りではない。所定の実施形態では、最小二乗分析は、誤一致の点ペアに対するプロセス感度を下げるために異常値排除も含む場合がある。

例証のために、選択された文書画像Ｂ内の初ブロックｒ_ｓのロケーションを、文書画像Ａ_ｉ内の対応する初ブロックｒ_ｄのロケーションの関数ｆとしてモデリングできるものとする。さらに、関数ｆは、関数ｆが２つの初ブロック間でどのようにマッピングするかを制御する可変パラメータのベクトルβをとるものとする。パラメータには、回転、スケーリング、平行移動、他の量が含まれてもよい。よって、誤差Ｓの二乗和は、

と定義されることが可能である。但し、ｎはステップＳ４０２で選択された初ブロックの数に一致し、ｆ（）は新しい点となる点（ｘ_ｉ，ｙ_ｉ）への変換を適用する関数であり、ｄは点（ｘ_ｉ，ｙ_ｉ）と平行移動点ｆ（ｘ_ｉ，ｙ_ｉ）との距離の測度であり、ｉは選択された文書画像Ｂ（即ち、最近一致）内のｉ番目の初ブロックに対応し、かつｆ（ｘ_ｉ，ｙ_ｉ）は文書画像Ａ_ｉ内のｉ番目の初ブロックのロケーションに対応する。

二乗和Ｓが画定されると、文書画像Ａ_ｉの変換は、ベクトルβの可変パラメータを解くことによって決定される。即ち、ベクトルβはｍ個のパラメータを有し、かつβ_ｊはｊ番目のパラメータに対応するものとする。ｊ番目のパラメータに対する解は、一次方程式等の従来技術を用いてパラメータβ_ｊを解くことにより決定されることが可能である。

認識されるべきものであるように、このようにして決定される可変パラメータは、選択された文書の初ブロック４７８（図１３）への文書画像の初ブロックのマッピングに付随する誤差の二乗和を最小化する。変換マトリクスが文書画像全体に渡って剛体的に適用される傾向があることを想定すれば、可変パラメータは、文書画像の変換をグローバルに画定するために用いられることが可能である。このグローバルに画定される変換は、文書画像Ａ_ｉについて計算される変換マトリクスの平均であってもよい。従って、ステップＳ４０６の終わりでは、グローバルアラインメントモジュール１１２は文書画像Ａ_ｉの各々について１つの変換マトリクス１５２を決定している。

再度図５を参照すると、ステップＳ５００において、ローカルアラインメントモジュール１１４は、任意選択として、入力された注釈付き文書画像のセット１０４内の各注釈付き文書画像Ａ_１，Ａ_２，．．．，Ａ_ｎについて、選択された代表の注釈付き文書画像Ｂ１５０に関するさらなるローカルアラインメントを実行する。このステップは、グローバルなアラインメント変換は複数の初ブロック４７８（図１３）に渡る平均変換である、という事実を明らかにする手助けをする。文書画像Ａ_ｉの各領域は、全て個々に計算されて文書画像Ａ_ｉへ適用されるその固有の、僅かに異なる変換を有する。簡単に言えば、文書画像Ａ_ｉは、Ａ_ｉを非重複の（または部分的にのみ重なる）二次ブロック４８０（図１４）のグリッドに分割することによってＢへ局所的にアラインされる。例えば、１２８ｘ１２８ピクセルは、選択された代表の文書画像Ｂにおける対応ブロックが決定されているＡ_ｉ内の各二次ブロックの妥当な二次ブロックサイズマッチである。これらのマッチングは、Ｂ内の対応するブロックを取得するためにＡ_ｉ内のブロックの中心へ平行移動ベクトルを割り当てるベクトルフィールドと考えることができる。初期ベクトルは、グローバルアラインメントステップ（Ｓ４００）において計算される変換マトリクスによって決定されるが、最終ベクトルはｘ及びｙの各々において初期ベクトルから約５ピクセルまで偏向されてもよい。確信的には一致され得ない二次ブロックのベクトルは、ラプラス平滑化処理を用いてその近傍から外挿されることが可能であり、この場合、上記ベクトルはその（通常は）４つの近傍ベクトルの平均に設定される。画像Ａ_ｉ内の任意の点（ｘ，ｙ）における平行移動ベクトルを発見するために、（ｘ，ｙ）を包囲する４つのグリッド点における平行移動ベクトルからの双線形補間（即ち、２点間の変換推定の発見）が用いられる。適用される変換ベクトルのセットにアラインされた画像は、Ａ’_ｉで示される。ステップＳ５００は、図９において詳述されている。任意選択であるローカルアラインメント法Ｓ５００はステップＳ４００の後に開始され、Ｓ５５２で始まる。方法Ｓ５００は、注釈付き文書画像Ａ_ｉの各々について、かつ二次ブロックの各々について、選択された代表の注釈付き文書画像Ｂ１５０に関して実行される。

ステップＳ５５２において、ローカルアラインメントモジュール１１４は文書画像Ａ_ｉを、上記文書画像全体を包含する二次ブロック４８０（図１４）のセットに分割する。但し、各二次ブロック４８０は上下左右（境界上の二次ブロックを除く）に近傍ブロックを有する。認識されるべきものであるように、二次ブロック４８０は文書画像の単なる一領域である。所定の実施形態では、二次ブロック４８０は、非重複的、二次ブロック４８０間の間隙を防止するために少し（例えば、１０ピクセル）だけ重複的、かつ一様サイズのうちの少なくとも１つである。ローカルアラインメントモジュール１１４またはユーザは、二次ブロック４８０のサイズを、任意選択として少なくとも下記の考慮事項、即ち１）二次ブロックのサイズが小さいほど、必要な処理時間は長くなること、及び２）二次ブロックのサイズが大きいほど、ローカルアラインメントの効果は下がること、を加重した後に選択してもよい。本例示的実施形態では、３００ＤＰＩ（１インチ当たりのドット数）文書画像のブロックサイズは１２８ｘ１２８ピクセルであり、即ち、各二次ブロック４８０は少なくとも１ｃｍ^２の面積を有してもよく、かつ画像は少なくとも５０個または少なくとも１００個の二次ブロックに、例えば二次ブロック５０００個にまで分割されてもよい。

ステップＳ５５４において、ローカルアラインメントモジュール１１４は、Ａ_ｉ内の各ブロックについて文書Ｂ内のブロックとの最近一致を決定する。あるブロックの最近一致は、有効変換下の上記ブロックに最もよく似ている選択された文書画像Ｂの初ブロック４７８（図１３）を発見することによって決定される。さらに、最近一致は、一致の品質に対応する品質スコアを含んでもよい。従って、認識されるべきであるように、あるブロックの最近一致は、図７に関連して論じた文書画像の初ブロック４７８の最近一致と同じ方法で決定されてもよく、よって前述の論考に注目されたい。

ステップＳ５５６において、ローカルアラインメントモジュール１１４は、ステップＳ５５４で決定された選択された文書画像Ｂ内の最近一致の二次ブロック４８０（図１４）に対応する文書画像Ａ_ｉ内の各ブロックの平行移動ベクトルを決定する。文書画像Ａ_ｉ内の二次ブロック４８０の平行移動ベクトルは、単に、二次ブロック４８０が選択された文書画像Ｂ内のその最近一致にアラインするために必要とする平行移動の量である。所定の実施形態では、ある最近一致の品質スコアが信頼度しきい値より下であれば、二次ブロック４８０の平行移動ベクトルはその近傍の平行移動ベクトルから外挿されてもよい。即ち、このような二次ブロック４８０の平行移動ベクトルは、その近傍の平均平行移動ベクトルに設定されることが可能である。

図１０を参照すると、文書画像に適用された平行移動ベクトルのセットを示す文書画像の歪みマップが示されている。本例では、文書画像が６ｘ８グリッドの二次ブロック４８０（図１４）に分割されているが、これより少ない、または多い二次ブロックが使用されてもよい。各ブロックは、１つの平行移動ベクトル（単に平行移動方向を示す矢印によって指示されている）に関連づけられている。ブロックの離散セットの平行移動ベクトルしか決定されていないが、双線形補間を用いれば、文書画像Ａ_ｉ内の任意の点に関する平行移動ベクトルを、上記点を包囲する４つのグリッド点における平行移動ベクトルから決定することができる。

ステップＳ５５８において、ローカルアラインメントモジュール１１４は、ステップＳ５５６からの決定された平行移動を適用することによって文書画像Ａ_ｉ内の各ブロックをシフトする。

ステップＳ５６０において、ローカルアラインメントモジュール１１４は、ステップＳ５５８からのシフトされたブロックを組み立てる（纏めてスティッチする）ことによって変換された文書画像Ａ’_ｉを生成する。従って、ステップＳ５６０が実行された後は、変換された文書画像１５４のセットＡ’_１，Ａ’_２，．．．，Ａ’_ｎが生成される。但し、ｎは入力された文書画像のセット１０４内の文書画像の数である。制御は次に、Ｓ６００へ進む。

ステップＳ６００において、合意画像形成モジュール１１６は、アラインされた文書画像１５４Ａ’_１，Ａ’_２，．．．，Ａ’_ｎを結合して合意画像１５６を形成する。合意画像１５６を形成するためにアラインされた文書画像１５４を結合する方法は幾つか存在する。任意選択として、任意カラーのアラインされた文書画像は、さらなる処理の前にグレースケールまたは２値（白黒）画像に変換されてもよい。アラインされた文書画像を結合する下記の例は何れも、別々に、または組み合わせて使用されてもよい。１つの方法は、単に、所定の特性（カラー値または２進値等）について全画像を合計し、次に適切な値で合計をスレッショルドして、図１１に示すようにこれを白黒画像にすることである。合計はピクセル単位であり、よって位置（ｘ，ｙ）における合意ピクセルＣ（ｘ，ｙ）は合計からスレッショルドされる。
（５）Ｂ（ｘ，ｙ）＋Σ^ｎ _ｉＡ’_ｉ（ｘ，ｙ）≧ｔ
但し、Ｂ（ｘ，ｙ）及びＡ’_ｉ（ｘ，ｙ）はピクセルのカラー値（但し、白は０、黒は１）であり、ｉは１からｎまでの範囲の指数であり、ｎはシステム１００へ入力される注釈付き文書画像の数であり、ｔはしきい値である。言い替えれば、位置（ｘ，ｙ）におけるピクセルは、その計算された合計がしきい値以下であれば合意画像から曖昧にされる。例えば、５０個の注釈付き文書画像の場合、しきい値は、複合画像内のピクセルが黒に設定されるために文書画像Ａ’_ｉの少なくとも例えば３０個がロケーション（ｘ，ｙ）において黒ピクセルを有するように設定されてもよく、グレースケール及びカラー画像の場合、所定のしきい値を超える合計されたカラー特性（強度等）に設定されてもよい。また、選択された文書画像Ｂ内の（ｘ，ｙ）におけるピクセルのカラー／強度も、式５に示すように、合計へと計数されてもよい。

合意画像を形成する別の方法は、文書画像Ｂ及びＡ’_１，Ａ’_２，．．．，Ａ’_ｎ内のロケーション（ｘ，ｙ）における各ピクセルが、もしそのピクセルが黒であれば、またはグレースケール及びカラー画像の場合、そのピクセルが所定のしきい値を超えるカラー特性（強度等）を有していれば計数されるプロセスを提案することによる。例えば、合意画像形成モジュール１１６は、Ｃ（ｘ，ｙ）が黒であるために、文書画像Ｂ及びＡ’_１，Ａ’_２，．．．，Ａ’_ｎ内の（ｘ，ｙ）におけるピクセルの３分の２が黒であることを要求してもよい。

合意画像を形成するためのさらに別の方法は、選択された代表の文書画像Ｂを特別に処理することである。例えば、Ｃ（ｘ，ｙ）は、Ｂ（ｘ，ｙ）が黒でありかつＡ’_１（ｘ，ｙ），Ａ’_２（ｘ，ｙ），．．．，Ａ’_ｎ（ｘ，ｙ）の３分の２が黒である場合にのみ黒に設定される。

ステップＳ６００が実行された後は、図１１に示されているもの等の合意画像８が生成される。合意画像８は、図２及び図３に示す画像４及び画像６等の注釈付き文書画像から形成されることに起因して、十分に画定されたライン（境界等）及びラベル「食料品」及び「娯楽」等の特徴を含む。さらに、重なり合う散乱ピクセルのみを有する注釈付き文書画像１０４に対する異形及び注釈のスキャンから形成されるノイズ１２が存在する場合がある。このノイズ１２は、クリーンな文書２を生成するために合意画像８から除去されてもよい。

例えば、ステップＳ７００において、クリーンアップモジュール１１８は、クリーンな文書画像２を形成するために、ごま塩ノイズ、隔絶された白黒ピクセル及びピクセルの小さい接続されたコンポーネントを除去することによって合意画像８を清浄化する。クリーンアップモジュール１１８は、破断された水平及び垂直ラインも修復する場合がある。

ステップＳ７５０において、注釈抽出モジュール１１９は、入力された注釈付き文書画像１０４の各々から注釈情報データ１５７を、入力された文書画像１０４をクリーンな文書２と比較することによって抽出する。本例示的実施形態では、注釈抽出モジュール１１９は、画像データが存在している注釈付き文書画像における空のフィールド及び対応するバウンディングボックスまたはエリアに対応するクリーン文書内のバウンディングボックスまたはエリアを識別し、微分（ｄｉｆｆ）演算を実行して注釈付き文書画像から注釈情報データを抽出する。抽出される注釈情報データには、注釈自体、バウンディングボックスの座標及び注釈が抽出された注釈付き文書画像を識別する識別子が含まれてもよい。バウンディングボックスは、クリーン文書において、幾何学的配置を基礎として識別される。例えば、図１において、点Ｐ１、Ｐ２、Ｐ３、Ｐ４によって境界をつけられるボックスは、長方形（未記入の書式では一般的であると思われる）を形成するためにＰ１、Ｐ２、Ｐ３、Ｐ４を結ぶラインを有することから、クリーンな文書２の明確なエレメントとして識別される。対応するボックスは、次に、図２のアラインされた注釈付き文書画像４内に同じ相対的な点Ｐ１、Ｐ２、Ｐ３、Ｐ４を用いて決定される。バウンディングボックスが決定された後、注釈付きバウンディングボックス内に存在する、クリーンなバウンディングボックスには存在しないピクセルを抽出するために、ｄｉｆｆ演算が実行される。ある実施形態では、このステップは、アラインされた注釈付き画像ではなく原初の注釈付き画像に対して実行されてもよい。注釈付き画像４のバウンディングボックスＰ１、Ｐ２、Ｐ３、Ｐ４に関してｄｉｆｆ演算が実行された後は、図１２の注釈データ情報が入手される。本例において、注釈データ情報は、「リンゴ、バナナ、ピザ、クッキー、バター」と記入する表記法、注釈付き文書画像４を識別する識別子及びその情報が正確にはどこから抽出されたかを知るために他のコンポーネントによって用いられてもよい座標Ｐ１、Ｐ２、Ｐ３、Ｐ４を含む。注釈付き画像から抽出された画像データは、手書きの注釈の場合、テキストのコンテンツを決定するためにＯＣＲまたはワード認識技術を用いて処理されてもよい。

さらに、注釈データ情報が抽出された後、注釈抽出モジュール１１９は、任意選択として、ワード検出アルゴリズムを用いて注釈データを処理してもよい。

ステップＳ８００において、クリーン文書再構築システム１００は、クリーンな文書画像２及び抽出された注釈データ１５７を、出力デバイス１２０を介してメモリ１０６へ、またはクライアント端末１３０またはプリンタ１３２等の別の出力デバイスへ出力する。任意選択として、クライアント端末１３０、プリンタ１３２及び／または他の任意の出力デバイスは、インターネット等のネットワーク１３４を介して接続されてもよい。

本方法は、Ｓ９００で終了する。

Claims

注釈付き文書の画像から文書を再構築するためのコンピュータ実装方法であって、
少なくとも２つの注釈付き文書画像より成るセットをコンピュータメモリ内へ受信することであって、前記注釈付き文書画像は各々静止エレメントと注釈付きデータとを備えることと、
注釈付き文書画像の各々について、前記注釈付き文書画像セットにおける少なくとも１つの他の注釈付き文書画像に対するアラインメントを実行することと、
前記アラインされた注釈付き文書画像を基礎として、前記アラインされた注釈付き文書画像から導出された少なくとも幾つかの注釈付きデータが曖昧にされる合意文書画像を形成することと、
前記合意文書画像を基礎としてクリーンな文書を形成することと、
前記クリーンな文書をビューイング用に出力デバイスを介して表示することを含む方法。
注釈付き文書の画像からクリーンな文書を再構築するためのコンピュータベースシステムであって、
コンピュータプロセッサと、
コンピュータメモリであって、
グローバルアラインメントモジュールと、
合意画像形成モジュールと、
クリーンアップモジュールとを格納するコンピュータメモリとを備え、
前記グローバルアラインメントモジュールは、
注釈付き文書画像の各々について、前記注釈付き文書画像のセット内の少なくとも１つの他の注釈付き文書画像に対するアラインメントを実行するように動作可能であり、
前記合意画像形成モジュールは、
少なくとも前記アラインされた注釈付き文書画像を基礎として、前記アラインされた注釈付き文書画像から導出された少なくとも幾つかの注釈付きデータが曖昧にされている合意文書画像を形成するように動作可能であり、かつ、
クリーンアップモジュールは、
少なくとも前記合意文書画像を基礎としてクリーンな文書を形成し、かつ、
前記クリーンな文書を出力デバイス上へビューイング用に表示するように動作可能であり、
前記コンピュータプロセッサは前記モジュールを実装するコンピュータベースシステム。
前記グローバルアラインメントモジュールは、
前記注釈付き文書画像内の幾つかのブロックを選択することと、
代表画像内の、前記注釈付き文書画像内のブロックにサイズ及びロケーションが対応する同数のブロックを選択することと、
前記注釈付き文書画像の各ブロック内の少なくとも１つの点を、前記代表画像における対応するブロック内の少なくとも１つの点へマップする変換マトリクスを計算することを含む方法を実行する、請求項２に記載のシステム。
前記注釈付き文書画像のセットにおける各注釈付き文書画像に対して、
前記注釈付き文書画像を二次ブロックのグリッドに分割し、
前記注釈付き文書画像内の各ブロックの、前記代表画像内のブロックとの一致を決定し、
前記代表画像内に対応するブロックを取得するために、前記決定された一致する二次ブロック及びグローバルアラインメント情報を用いて、平行移動ベクトルを前記注釈付き文書画像内の各ブロックの中心へ割り当てるベクトルフィールドを生成するように動作可能なローカルアラインメントモジュールをさらに備える、請求項２に記載のシステム。
各注釈付き文書画像を前記クリーンな文書と比較することにより前記注釈付き文書画像のセットから注釈情報データを抽出することを、
前記クリーンな文書内のバウンディングボックスと、前記注釈付き文書画像内の対応するバウンディングボックスとを識別することと、
ｄｉｆｆ演算を実行して、前記注釈付き文書画像の各ボックス内に含まれる、前記クリーンな文書の前記対応するボックスには存在しない注釈ピクセルを抽出することと、
各バウンディングボックスについて、そのサイズ及びロケーション、抽出された注釈ピクセル及び前記注釈データが抽出される前記注釈付き文書画像を識別する識別子を出力することと、
前記抽出された注釈ピクセルを出力デバイス上で表示すること、を含むプロセスを実行することによって行なうように動作可能な注釈抽出モジュールをさらに備える、請求項２に記載のシステム。