JP3996579B2 - 機械可読フォームのアクティブ領域を識別するためのフォーム処理システム - Google Patents

機械可読フォームのアクティブ領域を識別するためのフォーム処理システム Download PDF

Info

Publication number
JP3996579B2
JP3996579B2 JP2004015005A JP2004015005A JP3996579B2 JP 3996579 B2 JP3996579 B2 JP 3996579B2 JP 2004015005 A JP2004015005 A JP 2004015005A JP 2004015005 A JP2004015005 A JP 2004015005A JP 3996579 B2 JP3996579 B2 JP 3996579B2
Authority
JP
Japan
Prior art keywords
landmarks
landmark
active area
machine
instance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004015005A
Other languages
English (en)
Other versions
JP2004158036A (ja
Inventor
エドワード ヒーシュ デービッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2004158036A publication Critical patent/JP2004158036A/ja
Application granted granted Critical
Publication of JP3996579B2 publication Critical patent/JP3996579B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K17/00Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations
    • G06K17/0032Apparatus for automatic testing and analysing marked record carriers, used for examinations of the multiple choice answer type
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、機械可読フォームの処理の分野に関し、詳細には所望の動作を示す所定のマークを含み得る、機械可読フォームにおける領域の識別に関する。
機械可読フォームは一般に使用されてきた。かかるフォームは、フォームを読んだり解釈したりすること等の人間の介在を要求することなくペーパ上のマークに基づいて動作が行われることを可能にするメカニズムを提供する。かかるフォーム上のマークは、一般にフォームインタプリタと呼ばれるデバイスの制御下で抽出される。フォームは典型的には光学スキャナ等により「読み取られ」、次にフォームインタプリタがフォーム上のマークを捜し出してその特色を明らかにし、例えばマークの存在、ロケーション、性質等のファンクションとして、周辺デバイスに制御信号を出力する等の動作を実行し得る。
フォームインタプリタに、機械可読ドキュメント上に配置されたマークを読み取らせて解釈させるために、チェックボックス、サイン領域、及びハイライト機能等の多様な技術が開発された。基本的な画像処理技術を用いると、フォーム上の指定された領域(以後「アクティブ領域」と称する)に形成されたマークは、フォームの走査画像から読み取られることができ、データ処理システムへの入力として使用されることのできるデータが生成される。かかるフォーム処理技術を用いる製品の一例は、コネチカット州スタンフォードのゼロックス社(Xerox Corporation )により開発されたペーパワーク(PaperWorks)(トレードマーク)製品である。
マークが読み取られて解釈されることができる前に、マークはフォームの走査画像上で捜し出されなければならない。これは確実に困難である。アクティブ領域を示すために用いられる、予め印刷されたグラフィクス(何かあれば)が、走査画像中で形状のみにより確実に識別できるほど十分に特色があるのはまれである。例えば、チェックボックスとしてしばしば使用される小さい四角形のボックスは、表中の小さな欄に非常に類似して見える。このような理由から、フォームインタプリタは通常、機械可読フォーム上のアクティブ領域のロケーションを前もって知らされている必要がある。しかしながら、そうだとしても、スキャナから受け取られたフォームの画像は左右上下にかなりシフトされていたり、伸縮されていたり、あるいは回転していたりすることもあるので、アクティブ領域は走査画像において、それらが理想としてあるべき場所からかなり遠くで現れる可能性がある。これを修正するために、大抵の既存のフォームシステムは、容易に認識されると共にフォーム内の周知のロケーションに配置されるレジストレーションマークの使用を必要とする。フォームインタプリタはまず、これらのマークを見出し、次に、レジストレーションマークの実際のロケーションと、それらがあるべきだと想像される場所との差に基づいて、単純な幾何学的変換を演算する。この変換は、走査されるフォームのインスタンスにおけるアクティブ領域の理想的なロケーションからそれらの実際のロケーションへのマッピングを示し、その結果アクティブマーク領域は正確に捜し出されることができる。
予め規定された静止レジストレーションマークの使用は2つの限界を有している。まず、レジストレーションマークはフォームを乱し、その設計を束縛する(それらは常に図形的に見て非常に邪魔である)。第2に、これらのマークは分かっているロケーションに存在しなければならず、フォームの設計者はそれらを動かしてはならない。いかなるこのようなシステムにおいてもレジストレーションマークの正確な配置が偶然にそこなわれることのないことを確実にするようにフォーム設計者の動作を束縛することは難しいので、上記のことは標準的なページのレイアウトシステムにおいてこれらのマークを含むフォームを作成することが困難であることを意味する。従って、静止レジストレーションマークの配置を必要としない機械可読フォームを有することが望ましい。
フォームランドマークを用いて機械可読フォームのアクティブ領域を識別し、捜し出すフォーム作成及び処理システムを開示する。チェックボックスやサインボックス等の機械可読フォームのアクティブ領域は、ユーザの作成したマークを含むことができる。フォームインタプリタは、フォームのアクティブ領域を調査して、その上にマークが配置されたかどうかを決定する。アクティブ領域を識別するために、本発明はフォーム自体を構成している任意のグラフィックエレメントから推測されるフォームレジストレーション情報(即ちランドマーク)を使用する。特別なレジストレーションマークは必要でない。これは自由なフォーム設計を可能にすると共に、このような機械可読フォームを設計するための非常に幅広い範囲のソフトウェアツールの使用を可能にする。さらに本発明では、多くの既存のフォームを再設計することなく機械により読取り可能であるようにすることができる。
本発明では、フォームはレイアウトされた後、予備分析される。予備分析の目的は、フォーム中の任意のグラフィクスから1セットのグラフィック特性、即ちランドマークを推測することであり、該ランドマークは画像中のそれらのロケーション又はオリエンテーションとは無関係に、その後走査されたフォームの画像において見出されることができる。分析はフォームのグラフィック成分の幾何学的分布及び規則性を見て、1セットのランドマークを選択する。かかるランドマークの例は、テキスト、濃い黒線、又はグレースケール領域を含むことができる。アクティブ領域についてのロケーション及び意味情報と共に各ランドマーク(又はその或るサブセット)の記述はフォーム制御ファイルに書き込まれ、該フォーム制御ファイルは、フォームを処理するためにフォームインタプリタにより用いられる。
フォームインタプリタによりフォームのインスタンスが解釈されると、フォームのインスタンスは走査され、1セットのインスタンスランドマークが識別される。作成されたフォーム制御ファイルを用いて、フォームインタプリタはこのセットのインスタンスランドマークを、フォーム制御ファイル中の指定されたオリジナルランドマークに比較する。これら2つのセットのランドマークの間の対応関係を決定することにより、フォームインタプリタは、インスタンスの走査フォーム画像に対する予備分析で使用された理想のフォーム画像から生じた変形(又は変換)(シフト及び/又はスケーリング)を決定することができる。この変形情報は次に、フォーム制御ファイルから抽出されたアクティブ領域のロケーションを調整するために用いられ、フォームインタプリタに、走査されたフォーム画像のアクティブ領域を正確に見出させ、次いでそれを読み取らせる。
フォームランドマークを用いてフォームのアクティブ領域を識別して捜し出すフォーム作成及び処理システムを開示する。
図1は機械可読フォームの単純な例を示す。図1を参照すると、フォーム101は、埋め込みデータ領域102、フォームタイトル(FORM TITLE)103、付随するテキスト記述(ここでは、ALTERNATIVE 1 、ALTERNATIVE 2 、ALTERNATIVE 3 )を有するチェックボックス104〜106、「Mark Only One Box (ボックスを1つだけマークせよ)」というテキストを有する第1ブロックのテキスト命令107、「Choose the Alternative That Statifies Your Criteria. Sign Below to Authorize Your Selection (基準を満たす選択肢を選択せよ。選択を認可するために以下にサインせよ)」というテキストを有する第2ブロックのテキスト命令108、及びサイン(SIGNATURE )ボックス109を含む。フォーム101のチェックボックス104〜106の各々には、矩形のボックスが関連づけられている。このボックスは、マークがその後認識されてそれに従って処理されることのできる箇所を指示するグラフィカルキューである。なお、その他のグラフィカルキューとして例えば円や線を用いることもできる。埋め込みデータ領域102は、フォームに関する種々の情報を提供するのに使用されることができる。使用され得る1つの埋め込みデータ符号化技術は、「埋め込みディジタルデータのセルフクロッキング(Self-Clocking Embedded Digital Data )」と題されたブルームバーグ(Bloomberg )の米国特許第5,168,147号で述べられており、該特許は本発明の譲渡人に譲渡されている。
フォーム101のインスタンスを処理するアプリケーションは、各チェックボックスが「チェック」された(即ちマークを含む)回数を単純にカウントし、1フォーム当り1つのチェックボックスだけがマークされたことと、処理されているフォームがサインされたことを決定するものであり得る。このアプリケーションはサインが有効であることを確認することができてもできなくてもよい。サインの有効性は本発明の範囲外であるので、かかる有効性確認の技術についてのさらなる詳細な説明は行わない。
フォーム101におけるアクティブ領域は、チェックボックス104〜106及びサインブロック109の矩形のボックスにより示される。アクティブ領域は、フォームインタプリタが調査を行ってアクティブ領域がマークされたかどうかを決定する、完了されたフォームのインスタンス上のロケーションのことである。
フォーム101は種々のランドマークを有するということに注目されたい。ランドマークとは、視覚により識別可能なフォームのコンポーネントのことである。埋め込みデータ領域102、タイトル103、及びテキストブロック107及び108はフォームに対するランドマークとして使用されることができる(しかし、フォームのインスタンスにおける違いのために、これらの領域は常に別個のランドマークとして識別されるわけではない)。フォームのインスタンスのアクティブ領域の実際のロケーションが見出されるのは、インスタンスのフォームのランドマークと、予備分析された「オリジナル」のフォームのランドマークとの間の空間的変形の分析を通してである。
本発明のこの好適な実施の形態は、コンピュータベースシステムにおいて動作する1セットのソフトウェアプログラムとして実行される。ソフトウェアプログラムは機械可読フォームの処理用のツールを示す。このような1セットのソフトウェアプログラムは、一般に「ツールキット」と称される。「ツールキット」はまた、作成された機械可読フォームのインスタンスを処理するソフトウェアアプリケーションに処理サービスを提供する。本発明に関連する処理サービスは、フォームを走査し、走査されたフォームからデータを抽出するためのソフトウェアを含む。種々の画像処理機能を実行したり、光学的に符号化されたデータを分析したりするためのソフトウェアのような他の処理サービスも提供されることができる。
本発明のツールキットの実施形態を図2で示す。ツールキットは、フォーム作成部201、フォーム分析部202、及びフォーム解釈部203を含む。フォーム作成部201は、フォーム205を作成するために、例えばワシントンベルビューのマイクロソフト社から入手できるマイクロソフトワードプログラムのようなページレイアウト又は他のドキュメント作成プログラム204と組み合わせられて作用するのが好ましい。別法としては、フォーム作成部はスタンドアローンプログラムであってもよい。いずれにせよ、フォーム作成部は、フォーム上の「アクティブ領域」が規定されることができるように必要な制御情報の挿入を可能にする。
フォーム分析部202は、フォーム205の表現とフォーム上のアクティブ領域の記述とを入力として受け取り、フォーム制御ファイル206を作成するソフトウェアプログラムであるのが好ましい。この好適な実施の形態では、フォーム制御ファイル206は、フォーム205のアクティブ領域とランドマーク情報とを含む。
好ましくは、フォーム解釈部203は、アプリケーションプログラムにより呼び出されてフォームのインスタンスからデータを抽出する。かかるデータは、アクティブ領域におけるマークの有無の検出であり得る。
上記各部について、以下により詳細に記載する。
従来技術に関して述べたように、機械可読フォームを読み取るための従来のシステムは、予め規定された静止レジストレーションマークの存在を必要とした。本発明ではこのようなレジストレーションマークの必要性はない。本発明のフォーム作成部は、適切なページレイアウト又はドキュメント編集プログラムと共に動作し、新しい機械可読フォームを作成する。作成される機械可読フォームは、新たに構成されてもよいし、あるいは既存の非機械可読フォームの改造であってもよい。
本発明のこの好適な実施の形態では、アクティブ領域はフォーム制御オブジェクトを介して特定される。フォーム制御オブジェクトは、典型的にはドキュメントレイアウト又はドキュメント作成プログラムの使用と共に、作成されているフォームの特定のロケーションに挿入されるオブジェクトである。この好適な実施の形態では、マイクロソフト社のオブジェクトの連結及び埋め込み(Object Linking and Embedding;OLE)として知られるウィンドウズ(トレードマーク)オペレーティングシステムの特徴を用いて、フォーム制御オブジェクトをフォームに埋め込む。OLE特徴は、マイクロソフトワード等のワード処理プログラムにより支持される。フォームが作成さている時に、フォーム制御オブジェクトを挿入することが望ましい場合には、オブジェクトの挿入を可能にするワード処理コマンドが選択される。対応するアクティブ領域のタイプ、ネーム、及びサイズが特定される。フォーム制御オブジェクトが一旦規定されると、該フォーム制御オブジェクトに対応するテキストが入力される。このプロセスは、フォーム上の全ての所望のフォーム制御オブジェクトに対して繰り返される。
既存のフォームを機械により読取り可能なように改造する種々の技術を用いることができる。既存のフォームがハードコピーフォームに存在する場合には、既存のフォームの走査画像を作成し、次に画像編集プログラムを用いてアクティブ領域を特定し配置するのが単純な方法である。コンピュータファイルが既存のフォームに対して存在する場合には、コンピュータファイル中に適切なフォーム制御オブジェクトを挿入することが、適切にイネーブルにされるドキュメントレイアウトプログラムを用いるのと同じくらい単純であり得る。
フォーム分析により得られるのがフォーム制御ファイルである。フォーム制御ファイルは、機械可読フォームからデータを抽出するために、詳細には、フォームのアクティブ領域内に存在するマーキングを識別するために、フォームインタプリタにより用いられる。この好適な実施の形態では、フォーム分析はフォームの"print file (印刷ファイル)" 表現を処理する。print fileは、コンピュータベースシステムに対するフォームを印刷するユーザリクエストにより作成される。コンピュータシステムは次に、ドキュメントを印刷する時にプリンタにより解釈される1セットのグラフィカルコマンドを作成する。この好適な実施の形態では、print fileはまた、アクティブ領域を示すフォーム制御オブジェクトを含む。フォーム制御オブジェクトは、アクティブ領域に対する識別子及びタイプと、アクティブ領域に対するあらゆるグラフィカルキューをレンダリングするためのグラフィカルコマンドを有する。識別子は単に、アクティブ領域が後で参照されることのできるネームである。アクティブ領域のタイプは、どのタイプのデータがその中に位置しているかを示すものである(例えばチェックボックスは、所定の手書きのチェックシンボルを含み、サインボックスはサインを含む)。最後に、フォームのビットマップ表現が内部で生成され、次にそれが用いられてフォーム分析が駆動される。以下に詳細に述べるように、本発明のフォーム分析は、種々の画像処理技術を用いて、作成されたビットマップ表現を評価し、ランドマークを識別する。
図3は、フォーム分析において実行されるステップをより詳細に示す。まず、"print file " がステップ301で受け取られる。上述のように、プリントファイルは、グラフィカルコマンドとフォーム制御オブジェクトのリストを含む。この好適な実施の形態では、"print file"は、300×300dpi 解像度の画像をレンダリングするように用いられる。次いで、ステップ302でprint fileの各エレメントが処理される。エレメントがグラフィックコマンドであるのか、又はフォーム制御オブジェクトであるのかに関して決定が行われる。グラフィックコマンドである場合には、ステップ303でグラフィックコマンドが実行される。グラフィックコマンドを実行することにより、フォームの一部がレンダリングされる。フォーム制御オブジェクトである場合には、フォーム制御オブジェクトに対するレンダリングロケーションがアクティブ領域として示される。フォーム制御オブジェクトは次に、ステップ304でレンダリングされる。フォーム制御オブジェクトのレンダリングロケーションは次に、ステップ305でフォーム制御ファイルにセーブされる。ピクセルのロケーションに関してではなく、フォームのページの左上角からの距離に関してロケーションが格納される。ステップ306では、それがprint fileにおける最後のグラフィックエレメントであるかどうかを決定するためのチェックが行われる。最後のものでなければ、ステップ302で次のコマンドが処理される。最後のエレメントである場合には、次にステップ307で画像のビットマップ表現上でランドマークの抽出が行われる。ランドマークの抽出は、図4のフローチャートに関して詳細に述べることにする。ランドマークが一旦抽出されると、それらはステップ308でフォーム制御ファイルにセーブされる。ランドマーク情報は、ランドマークのタイプ、ランドマークのロケーション、及びランドマークのリストに対する識別を含む。以下に述べるように、フォーム制御ファイルは、フォームインタプリタによるアクセスのために、種々のロケーションに格納されることができる。
図4を参照すると、ステップ401において、フォームのビットマップ表現が十分な情報(例えばテキスト又はグラフィカルデータ)を有し、その結果それがスキュー解除されることができるかどうかに関しての決定を行うことにより、ランドマークの抽出が開始する。この決定は、次のフォーム処理の完全性を確実にするために行われる。スキュー解除されることのできないビットマップ画像は、フォーム処理中にエラーとなることが確認された。フォームがスキュー解除できないことが決定された場合には、ステップ402でフォームは拒絶される。そうでない場合には、次にビットマップ表現はステップ403で「標準的な」ページ濃度に変換される。この好適な実施の形態では、フォームの300×300dpi の画像が、100×100dpi 画像に低減される。この「標準的な」濃度レベルでの処理は、エレメントを印刷及び走査することにより用いられる種々の解像度によりもたらされ得るエラーを減少するということが確認された。3×3ピクセルアレイにおけるオン/オフピクセルのカウントに基づいて3×3ピクセルアレイが単一の値に減少されるしきい値方法を介して、この低減が生じる。
ステップ404において、フォームの圧縮された表現を用いて、連結コンポーネントの分析が行われ、境界ボックスが作成される。連結コンポーネントの分析とは、隣接するピクセルが同じ状態にあるかどうか(即ちオンかブラックか)に基づいてピクセルをグルーピングすることをいう。このような連結コンポーネント分析は、例えば光学文字認識等の多くのドキュメント分析作業において幅広く用いられている。該分析の結果、キャラクタレベルでの矩形が得られる。これらの矩形は、ステップ405において他の近接した矩形と併合される。これは結果的に、「ワード」レベルでの矩形となる。「近接」については、第1しきい値により決定される。次に、ステップ406においてオーバーラップした矩形が併合される。これは結果的に、オーバーラップしていないワードサイズの矩形を収集することになる。
この時点において、より大きいフォーム特性が識別される。ステップ407ではまず、今回は第2のしきい値に従って近接した矩形が併合され、反復カウンタが増分される。以下に述べるように、このステップは現在抽出された矩形の数に依存して繰り返される。ステップ408で、オーバーラップした矩形が併合されて最初のランドマークリストが形成される。次にステップ409で、合理的な数のランドマークが識別されたかどうかが決定される。この決定はまず、所定の数(例えば10)未満のランドマークが識別されたかどうか、又は反復中に形成されたランドマークにおける違いが別の所定のしきい値未満(例えば10%未満)であるかをみるために行われる。いずれにせよ、ランドマークの数が合理的なものでなければ、ステップ407毎にさらなる矩形併合が発生する。そうでない場合には、ステップ410でランドマークのリストと反復カウンタの値がフォーム制御ファイルに格納される。フォーム制御ファイルにおけるランドマークは、「オリジナル」ランドマークと称される。反復カウンタはフォーム解釈部に対し、ステップ407に対応するステップが何回実行されるべきかについての情報を提供するように用いられる。
図5は本発明のフォーム制御ファイルを示す。フォーム制御ファイルはバージョンナンバー501、フォーム制御オブジェクト502、及びランドマーク情報503を含む。各フォーム制御オブジェクトは、制御オブジェクト(CO)識別子、位置、サイズ、及びタイプを含む。ランドマーク情報503は特定ランドマークタイプと、反復カウントと、ランドマークのリストとを含む。各ランドマークはサイズ及び位置を特定する。
この好適な実施の形態のフォームインタプリタは、フォームを処理してフォームのアクティブ領域に含まれるあらゆるマークを識別するアプリケーションプログラム内から呼びされるのが典型的である。フォームインタプリタはアクティブ領域の位置を識別し、アクティブ領域におけるマークの存在を判断し、次いでアプリケーションプログラムにその情報を渡す。図6はフォームから情報を「読み取る」際にフォームインタプリタにより実行されるステップを述べるフローチャートである。まず、ステップ601でフォームのビットマップ表現が得られる。フォームのビットマップ表現はスキャナからの出力であるのが典型的である。次にこのフォームのビットマップ表現は、ステップ602でスキュー解除される。スキュー解除とは、走査プロセスにより又はフォームの再生において生じるあらゆるスキュー歪を修正することを意味する。次に、スキューを修正された表現はステップ603で標準フォーマットに「低減」され、ステップ604でフォーム制御ファイルが読み込まれる。フォーム制御ファイルは種々の方法で得られることができることに注目されたい。例えば、フォーム制御ファイルは、フォーム自体内で符号化され、次いでフォームが処理される時に抽出されることが可能である。又はフォーム制御ファイルは、フォームを処理するコンピュータベースシステムに接続される格納手段中に永久的に格納されることも可能である。あるいは、フォーム制御ファイルは、或るネットワークコネクションを介して得られ、フォームが処理されている間の短い間、格納されることができる。かかる種々の技術を実行することは、本発明の主旨及び範囲を逸脱するものではない。
次に、ランドマーク抽出はステップ605で「インスタンス」ランドマークを見出すように実行される。ランドマークの識別は、図4に関して述べられたステップと略同じプロセスを介して行われる。「近接した」矩形を見出すステップは反復の値で特定される回数で実行され、種々のしきい値は予備分析のものと同じである。いずれにせよ、この時点では、「インスタンス」ランドマークのリストと「オリジナル」ランドマークのリストが形成されたことになる。なお、「インスタンス」リスト中のランドマークと「オリジナル」リスト中のランドマークの数は同じである必要はない。なぜなら、分析されたフォームと走査されたフォームのビットマップ表現には違いがある可能性があるからである。いずれにせよ、インスタンスのランドマークリストとオリジナルのランドマークリストは、ステップ606でフォームページの左上角に対するそれらの位置に基づいて格納される。次に各リスト中のランドマークは、ステップ607で「マッチング」即ち対にされる。このような対を得るための基準は、ランドマークの形状及び位置に基づく。なお、1つのリスト中の各ランドマークが対にされる必要はない。適切な数の対が発生する限り、フォームのインスタンスにおけるアクティブ領域の識別が決定されることができる。この時点で、フォームのインスタンスにおけるアクティブ領域が調査されることができる。この好適な実施の形態では、アクティブ領域の調査は、フォーム処理アプリケーションにより明確にリクエストされなければならない。各リクエストの処理を図7に関して述べる。
図7を参照すると、ステップ701で、調査されているアクティブ領域に「最も近い」2対のランドマークが識別される。「最も近い」2対のランドマークの決定は、アクティブ領域の空間的な位置とフォーム制御ファイルからの「オリジナル」ランドマークとを比較することにより行われる。選択されたランドマーク対のオフセットが許容可能なものかどうかについての決定がステップ702で行われる。許容できないオフセットは、ランドマークの位置が、全ランドマークに対する平均のシフトよりもかなり大きい量でそのオリジナルの位置からシフトしている場合に生じ得る。いずれにせよ、ランドマークが許容可能なオフセットを有していない場合には、ステップ703でランドマークが拒絶され、その後使用されない。処理は残りのランドマークを用いてステップ701に戻る。オフセットが許容可能である場合には、ランドマークがオリジナルのアクティブ領域位置に「近接している」かどうかの決定がステップ704で行われる。それらが近接している場合には、ステップ705において、ランドマーク対における得られたシフトを平均することにより、オフセットが得られる。次にステップ706において、オフセット値がオリジナルアクティブ領域位置と結合されて、調査されるべき位置が形成される。それらが近接していない場合には、ステップ707において、調査されるべき領域は、オリジナルフォームにより規定される座標系空間から、走査されたインスタンスフォームにより規定される座標系空間へのアフィン変換を形成することにより決定される。このアフィン変換は次いで、フォーム制御ファイルにおけるアクティブ領域情報に適用される。いずれにせよ、ステップ708において対応する領域が調査される。調査は単に、対応する領域における任意のマーク(例えば「オン」ピクセル」)の検出であることが可能である。この処理は調査されるべき各アクティブ領域に対して繰り返される。
本発明のこの好適な実施の形態が実行され得るコンピュータベースシステムについて、図8を参照して説明する。図8を参照すると、コンピュータベースシステムは、バス801を介して連結される複数のコンポーネントを含む。バス801は、複数の並列バス(例えばアドレスバス、データバス、及び状態バス)と、バスの階層(例えばプロセッサバス、ローカルバス、及びI/Oバス)とを含むのが典型的である。いずれにせよ、コンピュータベースシステムはさらに、内部メモリ803からバス801を介して提供された命令を実行するプロセッサ802を含む(なお、内部メモリ803はランダムアクセスメモリ又は読取り専用メモリの組み合わせであることが典型的である)。プロセッサ802と内部メモリROM803は、別々のコンポーネントであっても、又はアプリケーション指定集積回路(ASIC)チップ等の単一の総合デバイスであってもよい。
英数字入力を行うためのキーボード804と、データを格納するための外部格納装置805と、カーソルを操作するためのカーソル制御デバイス806と、ビジュアル出力をディスプレイするディスプレイ807も、バス801に接続される。キーボード804は典型的には標準的なQWERTYキーボードであるが、電話のようなキーパッドであってもよい。外部格納装置805は、固定型又は移動型の磁気若しくは光ディスクドライブであってよい。カーソル制御デバイス806は、所定の機能の実行をプログラムされることのできる、協働するボタンやスイッチを有するのが典型的である。バス801にはさらにスキャナ808が接続される。スキャナ808は、フォームのハードコピーインスタンスのビットマップ表現を作成するための手段を提供する。
バス801に連結されることのできる光学素子は、プリンタ809とネットワークコネクション810を含む。ネットワークコネクション810は、ネットワークを超える本発明の使用を可能にするために用いられることができる。例えば、フォームのインスタンスの走査画像は、分析に必要とされる必要なフォームインタプリタを有するシステムに送られる。
機械可読フォーム及び対応するフォーム制御ファイルが作成されるコンピュータベースシステムと、フォームインタプリタが存在するコンピュータベースシステムは同じである必要がないことに注目されたい。
図1の機械可読フォームのランドマークが抽出される例において本発明をさらに説明する。本発明のランドマーク抽出は、媒体のビットマップ表現を分析し、ブロックに関して媒体の構造を識別するように開発された種々の技術に類似する。図9は、図4のフローチャートのステップ404に関して述べられた連結コンポーネントステップの後での矩形を表したものである。この時点では、矩形の各々はキャラクタ、又は少なくともキャラクタの一部を表す。図10は(図4のステップ405で作成され得るように)矩形の併合を示し、ワード等のグルーピングが識別された。最終的に、図11は矩形がさらに併合されたグルーピングを示している。図11のブロックは、ブロック1101〜1108と示される、可能性のあるランドマークを示している。
図12は、ランドマークが識別された、図1の機械可読フォームのインスタンスを示す。種々の理由から、フォームのインスタンスは、図11のものとは違うランドマークのセットを作成した。図12は5つのランドマーク(ランドマーク1201〜1205)を有するだけである。ランドマークは異なる形状を有し得ることに注目されたい。さらに、識別されたランドマークは異なる空間的位置を有するのが典型的である。図12では、テキスト及びチェックボックスの領域が併合されて単一のランドマークとなった。同様に、フォームを完成する命令を含むテキストは、フォームを併合して単一のランドマークとした。
ランドマークのペアリングは以下のように行われる:ランドマーク1101はランドマーク1201と、ランドマーク1102はランドマーク1202と、そしてランドマーク1108はランドマーク1205とペアリングされる。なお、図11のランドマーク1103〜1107とランドマーク1203及び1204はペアリングされない。なぜなら、それらは対にするために必要な位置及び形状基準を満たさないからである。
上記情報を用いて、フォームのインスタンス上の領域が調査され、マーキングがあるかどうかが判断される。第1の選択肢を表すアクティブ領域Aに対する空間的情報が受け取られたと仮定する。ランドマークの近接した2つのペアは1101/1201と1102/1202である。この2つのランドマークペアは「近接している」ので、オフセットは2つの異なるランドマークから生じた変位を平均することにより決定される。ランドマーク1201に対するランドマーク1102によるシフトは(dx1,dy1)により示され、ランドマーク1202に対する1102によるシフトは(dx2,dy2)により示される。従って、アクティブ領域Aに対するオフセット(又はシフト)は、((dx1+dx2)/2,(dy1+dy2)/2)と演算される。フォーム制御ファイルにおいて特定される空間的位置とこのオフセットとを結合したものが、調査されるフォームのインスタンスにおけるアクティブ領域の位置となる。この調査は、規定される全体のアクティブ領域に及ぶ。
上述のように、ランドマークが離れている場合には、調査されるべき領域はアフィン変換により決定される。アフィン変換は或る座標系(オリジナルフォーム空間)から別の座標系(走査フォーム空間)へのマッピングを計算する標準的な算術的演算である。この変換は回転、スケーリング、及び或る空間から他の空間への変換を考慮する。この変換が一旦計算されると、それを使用して1つの点を或る座標系から他の座標系へとマッピングすることができる。本発明では、オリジナルランドマークからの3つの点とインスタンスランドマークからの3つの点とを用いて、この変換が何であるのかを計算する。この変換に基づけば、アクティブオブジェクトに対するオリジナル矩形を、走査座標系の場所へとマッピングするだけである。
アクティブ領域を有する機械可読フォームの一例を示す図である。 好適な実施の形態の機械可読フォームを作成し、解釈するためのツールキットの機能上のコンポーネントのブロック図である。 好適な実施の形態で実行され得るフォーム分析の基本的なステップを示すフローチャートである。 好適な実施の形態で実行され得るランドマークの抽出のステップを示すフローチャートである。 好適な実施の形態におけるフォーム制御ファイルの一例を示す図である。 好適な実施の形態で実行され得るフォーム解釈のステップを示すフローチャートである。 好適な実施の形態で実行され得るフォームのインスタンスのアクティブ領域の位置を決定するステップを示すフローチャートである。 好適な実施の形態で使用され得るコンピュータベースシステムのブロック図である。 好適な実施の形態で実行されるランドマークの抽出が行われる際の図1の機械可読フォームの状態の一例を示す図である。 好適な実施の形態で実行されるランドマークの抽出が行われる際の図1の機械可読フォームの状態の一例を示す図である。 好適な実施の形態で実行されるランドマークの抽出が行われる際の図1の機械可読フォームの状態の一例を示す図である。 図1の機械可読フォームのインスタンスから抽出されたランドマークの一例を示す図である。
符号の説明
201 フォーム作成部
202 フォーム分析部
203 フォーム解釈部
204 ページレイアウト/ドキュメント作成プログラム
205 作成されたフォーム
206 フォーム制御ファイル
207 作成されたフォームのインスタンス

Claims (1)

  1. 所定のレジストレーションマークがない機械可読フォームのアクティブ領域を識別するためのフォーム処理システムであって、前記システムは、
    機械可読フォームのインスタンスをスキャンしてビットマップ表現を作成するスキャナと、
    前記機械可読フォームの前記インスタンスに関連するフォーム制御ファイルを受け取る受け取り回路であって、前記フォーム制御ファイルは前記機械可読フォームのオリジナルランドマークの集合を有し、前記オリジナルランドマークはテキストブロック、グラフィックブロック、水平バー、又は垂直バーを含み、前記フォーム制御ファイルはさらに前記機械可読フォームの各アクティブ領域のオリジナル位置情報を有する、該受け取り回路と、
    前記機械可読フォームの前記ビットマップ表現を分析して、テキストブロック、グラフィックブロック、水平バー、又は垂直バーからなるインスタンスランドマークの集合を識別する機能を提供するように適切に適合された第1の処理回路と、
    前記オリジナルランドマークの集合の中のランドマークと前記インスタンスランドマークの中のランドマークを所定の空間位置と所定の形状閾値に基づいてマッチして、マッチしたランドマークの対を作成する機能を提供するように適切に適合された第2の処理回路と、
    前記マッチしたランドマークの対と処理されるアクティブ領域のオリジナル位置情報とに基づいてオフセットを生成する機能を提供するように適切に適合された第3の処理回路であって、
    前記処理されるアクティブ領域に最も近い、ランドマークの第1及び第2の対を識別する回路と、
    前記ランドマークの第1及び第2の対が前記処理されるアクティブ領域から所定の距離内であるか否かを判定する回路と、
    前記ランドマークの第1及び第2の対が前記処理されるアクティブ領域から所定の距離内であると判定する場合に、前記ランドマークの第1の対の間の距離と前記ランドマークの第2の対の間の距離とを平均することによりオフセットを決定する回路と、
    前記ランドマークの第1及び第2の対が前記処理されるアクティブ領域から所定の距離内ではないと判定する場合に、前記ランドマークの第1及び第2の対のオリジナルランドマークと前記ランドマークの第1及び第2の対のインスタンスランドマークとの間のアフィン変換関数を構築することにより前記オフセットを決定し、前記アフィン変換を前記処理されるアクティブ領域に適用する回路と
    を有する該第3の処理回路と、
    前記処理されるアクティブ領域についてのオリジナル位置情報に前記オフセットを適用する機能を提供するように適切に適合された第4の処理回路と
    を有する、システム。
JP2004015005A 1995-04-21 2004-01-23 機械可読フォームのアクティブ領域を識別するためのフォーム処理システム Expired - Fee Related JP3996579B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US42635495A 1995-04-21 1995-04-21

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP8090826A Division JPH08305778A (ja) 1995-04-21 1996-04-12 ユーザの作成したマークの存在を調査するための方法

Publications (2)

Publication Number Publication Date
JP2004158036A JP2004158036A (ja) 2004-06-03
JP3996579B2 true JP3996579B2 (ja) 2007-10-24

Family

ID=23690457

Family Applications (2)

Application Number Title Priority Date Filing Date
JP8090826A Withdrawn JPH08305778A (ja) 1995-04-21 1996-04-12 ユーザの作成したマークの存在を調査するための方法
JP2004015005A Expired - Fee Related JP3996579B2 (ja) 1995-04-21 2004-01-23 機械可読フォームのアクティブ領域を識別するためのフォーム処理システム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP8090826A Withdrawn JPH08305778A (ja) 1995-04-21 1996-04-12 ユーザの作成したマークの存在を調査するための方法

Country Status (4)

Country Link
US (1) US5748809A (ja)
EP (1) EP0738987B1 (ja)
JP (2) JPH08305778A (ja)
DE (1) DE69633809T2 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6201894B1 (en) * 1996-01-23 2001-03-13 Canon Kabushiki Kaisha Method and apparatus for extracting ruled lines or region surrounding ruled lines
US6236463B1 (en) 1997-01-17 2001-05-22 Moore U.S.A., Inc. Generating high speed variable information printed multiple page documents
BR9809252A (pt) * 1997-05-09 2000-06-27 Neomedia Tech Inc Método e sistema para acessar recursos eletrônicos através dos dados que podem ser lidos por máquina em documentos inteligentes
JP3580670B2 (ja) * 1997-06-10 2004-10-27 富士通株式会社 入力画像を基準画像に対応付ける方法、そのための装置、及びその方法を実現するプログラムを記憶した記憶媒体
US6351559B1 (en) * 1998-12-22 2002-02-26 Matsushita Electric Corporation Of America User-enclosed region extraction from scanned document images
US7088459B1 (en) * 1999-05-25 2006-08-08 Silverbrook Research Pty Ltd Method and system for providing a copy of a printed page
AUPQ291299A0 (en) * 1999-09-17 1999-10-07 Silverbrook Research Pty Ltd A self mapping surface and related applications
US6816274B1 (en) * 1999-05-25 2004-11-09 Silverbrook Research Pty Ltd Method and system for composition and delivery of electronic mail
US7106888B1 (en) * 1999-05-25 2006-09-12 Silverbrook Research Pty Ltd Signature capture via interface surface
US6640010B2 (en) * 1999-11-12 2003-10-28 Xerox Corporation Word-to-word selection on images
US7149347B1 (en) 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
US6741738B2 (en) 2000-03-13 2004-05-25 Tms, Inc. Method of optical mark recognition
US6950553B1 (en) * 2000-03-23 2005-09-27 Cardiff Software, Inc. Method and system for searching form features for form identification
US6816630B1 (en) * 2000-05-22 2004-11-09 Electro-Sensors, Inc. System and method for creating and processing data forms
US6832349B1 (en) * 2001-01-08 2004-12-14 Cardiff Software, Inc. Remote activation of enhanced functionality features in locally created documents
DE60204066T2 (de) * 2001-02-22 2006-02-02 Oce Print Logic Technologies S.A. Automatische Lokalisierung von Tabellen in Dokumenten
US6810232B2 (en) * 2001-03-05 2004-10-26 Ncs Pearson, Inc. Test processing workflow tracking system
US6961482B2 (en) * 2001-03-05 2005-11-01 Ncs Pearson, Inc. System for archiving electronic images of test question responses
US7561734B1 (en) 2002-03-02 2009-07-14 Science Applications International Corporation Machine learning of document templates for data extraction
US7142728B2 (en) * 2002-05-17 2006-11-28 Science Applications International Corporation Method and system for extracting information from a document
US20040008212A1 (en) * 2002-07-11 2004-01-15 Sun Microsystems, Inc., A Delaware Corporation Reshaping irregularly-shaped images for improved compression
RU2003108434A (ru) * 2003-03-28 2004-09-27 "Аби Софтвер Лтд." (CY) Способ предварительной обработки изображения машиночитаемой формы нефиксированного формата
US9224040B2 (en) 2003-03-28 2015-12-29 Abbyy Development Llc Method for object recognition and describing structure of graphical objects
US9015573B2 (en) 2003-03-28 2015-04-21 Abbyy Development Llc Object recognition and describing structure of graphical objects
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
US20060187466A1 (en) * 2005-02-18 2006-08-24 Timbre Technologies, Inc. Selecting unit cell configuration for repeating structures in optical metrology
US7916972B2 (en) * 2006-07-31 2011-03-29 Xerox Corporation Landmark-based form reading with declarative language
US8233714B2 (en) 2006-08-01 2012-07-31 Abbyy Software Ltd. Method and system for creating flexible structure descriptions
US9740692B2 (en) 2006-08-01 2017-08-22 Abbyy Development Llc Creating flexible structure descriptions of documents with repetitive non-regular structures
US20090015875A1 (en) * 2007-06-20 2009-01-15 Ctb/Mcgraw-Hill Companies, Inc. Image manipulation of digitized images of documents
US9917975B2 (en) * 2013-05-29 2018-03-13 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Facsimile requirements monitoring
US10067926B2 (en) 2015-12-21 2018-09-04 Xerox Corporation Image processing system and methods for identifying table captions for an electronic fillable form
US10025766B2 (en) * 2015-12-21 2018-07-17 Xerox Corporation Relational database for assigning orphan fillable fields of electronic fillable forms with associated captions
US10002291B2 (en) 2016-05-25 2018-06-19 Xerox Corporation Method and system of identifying fillable fields of an electronic form

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07107694B2 (ja) * 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
US5140650A (en) * 1989-02-02 1992-08-18 International Business Machines Corporation Computer-implemented method for automatic extraction of data from printed forms
US5060980A (en) * 1990-05-30 1991-10-29 Xerox Corporation Form utilizing encoded indications for form field processing
US5452379A (en) * 1991-09-13 1995-09-19 Meadowbrook Industries, Ltd. Image capture and storage techniques in association with optical mark reading
US5201011A (en) * 1991-11-19 1993-04-06 Xerox Corporation Method and apparatus for image hand markup detection using morphological techniques
US5282052A (en) * 1992-03-20 1994-01-25 Xerox Corporation Techniques for automatic form creation by combining partial operations
US5317646A (en) * 1992-03-24 1994-05-31 Xerox Corporation Automated method for creating templates in a forms recognition and processing system
TW274597B (ja) * 1992-04-27 1996-04-21 Philips Electronics Nv
US5481621A (en) * 1992-05-28 1996-01-02 Matsushita Electric Industrial Co., Ltd. Device and method for recognizing an image based on a feature indicating a relative positional relationship between patterns
US5416849A (en) * 1992-10-21 1995-05-16 International Business Machines Corporation Data processing system and method for field extraction of scanned images of document forms
US5428694A (en) * 1993-10-14 1995-06-27 International Business Machines Corporation Data processing system and method for forms definition, recognition and verification of scanned images of document forms

Also Published As

Publication number Publication date
EP0738987A3 (en) 1999-04-07
JPH08305778A (ja) 1996-11-22
US5748809A (en) 1998-05-05
EP0738987A2 (en) 1996-10-23
JP2004158036A (ja) 2004-06-03
DE69633809D1 (de) 2004-12-16
EP0738987B1 (en) 2004-11-10
DE69633809T2 (de) 2005-03-17

Similar Documents

Publication Publication Date Title
JP3996579B2 (ja) 機械可読フォームのアクティブ領域を識別するためのフォーム処理システム
JP3805005B2 (ja) 画像処理装置及び光学的文字認識装置及びそれらの方法
JP4310288B2 (ja) 画像処理装置及びその方法、プログラム並びに記憶媒体
JP3278471B2 (ja) 領域分割方法
EP0621553A2 (en) Methods and apparatus for inferring orientation of lines of text
US8213717B2 (en) Document processing apparatus, document processing method, recording medium and data signal
US20070228168A1 (en) OCR sheet-inputting device, OCR sheet, program for inputting an OCR sheet and program for drawing an OCR sheet form
JP5121599B2 (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
JP3962891B2 (ja) 文書画像処理装置、文書画像処理方法、及び記憶媒体
CA2341108A1 (en) Method and apparatus for identification of documents, and computer product
EP2136318A2 (en) Image processing apparatus and image processing method
KR100570224B1 (ko) 전표정의데이터 작성방법 및 전표처리장치
KR19990036622A (ko) 비트맵 이미지의 처리 방법 및 처리 장치, 비트맵 이미지의처리를 행하는 이미지 처리 프로그램을 저장한 기억 매체
JPH04195692A (ja) 文書読取装置
US6947596B2 (en) Character recognition method, program and recording medium
US7149352B2 (en) Image processing device, program product and system
JP2021044803A (ja) 画像処理装置、画像処理方法、及びプログラム
JPH08166865A (ja) 画面生成方法及びその装置
US5854860A (en) Image filing apparatus having a character recognition function
JP4281236B2 (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP2002108846A (ja) 文書画像処理装置、文書画像処理方法、および記録媒体
JP3442847B2 (ja) 文字読取装置
JP2022090469A (ja) 書式定義装置、書式定義方法、及びプログラム
CN117391045B (zh) 可复制蒙文的可携带文件格式文件输出方法
JP4651407B2 (ja) 画像処理装置およびコンピュータプログラムおよび記憶媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070802

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110810

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110810

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees