JP2882569B2 - 文書書式認識実行方法および装置 - Google Patents

文書書式認識実行方法および装置

Info

Publication number
JP2882569B2
JP2882569B2 JP6248933A JP24893394A JP2882569B2 JP 2882569 B2 JP2882569 B2 JP 2882569B2 JP 6248933 A JP6248933 A JP 6248933A JP 24893394 A JP24893394 A JP 24893394A JP 2882569 B2 JP2882569 B2 JP 2882569B2
Authority
JP
Japan
Prior art keywords
format
document
line array
master
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP6248933A
Other languages
English (en)
Other versions
JPH0830722A (ja
Inventor
ティモシィ・エス・ベッツ
バレリー・エム・カラス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH0830722A publication Critical patent/JPH0830722A/ja
Application granted granted Critical
Publication of JP2882569B2 publication Critical patent/JP2882569B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/14Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
    • G06K7/1404Methods for optical code recognition
    • G06K7/1439Methods for optical code recognition including a method step for retrieval of the optical code
    • G06K7/1443Methods for optical code recognition including a method step for retrieval of the optical code locating of the code in an image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/14Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Electromagnetism (AREA)
  • General Health & Medical Sciences (AREA)
  • Toxicology (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】開示した本発明は全般的にデータ
処理システムに関し、詳細には、走査された文書イメー
ジの書式認識のための技術に関する。
【0002】本特許出願は、IBM社に譲渡され、引用
によって本明細書に合体された、「Data Processing Sy
stem and Method for Sequentially Repairing Charact
er Recognition Errors for Scanned Images of Docume
nt Forms」と題する1992年4月15日に出願された
同時係属の米国特許出願第07/870129号に関す
る。
【0003】本特許出願は、IBM社に譲渡され、引用
によって本明細書に合体された、「Data Processing Sy
stem and Method for Selecting Customized Character
Recognition Processes and Coded Data Repair Proce
sses for Scanned Images ofDocument Forms」と題する
1992年4月17日に出願された同時係属の米国特許
出願第07/870507号にも関する。
【0004】本特許出願は、IBM社に譲渡され、引用
によって本明細書に合体された、「A Computer Impleme
nted Method for Automatic Extraction of Data From
Printed Forms」と題する米国特許第5140650号
にも関する。
【0005】本特許出願は、IBM社に譲渡され、引用
によって本明細書に合体された、「Method and Apparat
us for Bar Code Recognition in a Digital Image」と
題する米国特許第4992650号にも関する。
【0006】
【従来の技術】上記で引用した関連特許出願第07/8
70129号および第07/870507号は、本明細
書で開示した発明が適用されるシステムの文脈を記載し
ている。関連特許出願第07/870129号および第
07/870507号によって開示されたシステムは、
文書書式を定義し、次いで文書書式の記入済みコピーを
読み取り、それがディジタル・イメージング・システム
に読み込まれる。定義される各文書書式は、手書きまた
はタイプ入力された情報が入力されるいくつかのフィー
ルドを含む。関連特許出願第07/870129号およ
び第07/870507号のシステムは、読み込まれた
書式のディジタル・イメージを検査して書式を識別し、
次いで、文字認識動作のためにそこからイメージを抽出
すべきそれぞれのフィールドを見つける。
【0007】文書書式イメージの処理は、マスタ書式イ
メージを定義する段階と、マスタ書式に従って作成され
た文書イメージを認識する段階と、作成された文書から
フィールド・イメージを分離する段階と、フィールド・
イメージ中のテキスト文字を認識する段階とを含む。そ
のような処理は、上記に引用した関連特許出願第07/
870129号および第07/870507号に記載さ
れている。各マスタ書式は、他のマスタ書式と区別する
ために、割り当てられた固有の識別名または識別番号
(ID)を有する。各マスタ書式は、事前に印刷された
水平線および垂直線によって全体的に区切られたフィー
ルドのアレイを有する。前記水平線および垂直線内にデ
ータをマークし、それによって、文書を作成することが
できる。水平線および垂直線の形状が、書式の線配列で
ある。
【0008】マスタ書式イメージの定義は、書式の名
前、事前に印刷された任意のバー・コードまたはOCR
コードの値、事前に印刷された線配列の特徴付け、フィ
ールドの位置、および通常は各フィールドごとに予期さ
れるテキストのタイプの特徴付けを含む、書式定義デー
タセットに記憶される。書式認識プロセスの目的は、未
知の識別の書式に従って作成された文書を取り、イメー
ジに含まれる手掛かりからその識別を推定することであ
る。識別が確認された後、正しい書式定義データセット
を選択して、作成された文書のフィールドに書き込まれ
たデータの位置決めおよび処理を可能にすることができ
る。
【0009】書式認識時に線配列を使用して、処理中の
作成された文書に対応するマスタ書式を識別することが
できる。簡単な例には、マスタ書式上の水平線および垂
直線の数を使用して対応する書式に従って作成された文
書を認識することが挙げられる。しかし、一般に、事前
に印刷された形状が類似している書式を認識して区別す
るための突合せ動作では線配列のずっと複雑な特徴付け
を使用しなければならない。
【0010】通常、マスタ書式は、書式認識時に、処理
中の作成された文書に対応するマスタ書式を識別するた
めに使用できる、事前に印刷されたバー・コードや事前
に印刷された光学文字認識(OCR)コードなどの識別
マークも有する。バー・コード位置決め読取りプロセス
の一例は、上記で引用した米国特許第4992650号
に記載されている。バー・コード位置を見つけてそれを
読み取るプロセスまたはOCRコードの位置を見つけて
それを読み取るプロセスは完了するのにある時間を要す
るが、それらのプロセスは一般に、線配列突合せ動作を
使用して、処理中の特定の作成された文書の書式認識を
実行するプロセスよりも高速である。
【0011】書式認識プロセスの他の要件は、走査装置
によって受け取られた走査されたイメージの品質の評価
である。完成文書の走査されたイメージが位置ずれして
いる場合、作成された文書上のフィールドおよびテキス
トをより高速にかつより正確に見つけられるように、フ
ィールド分離段または文字認識段、あるいはその両方に
その情報を渡さなければならない。作成された文書のイ
メージがスキャナ中の文書の走行軸からわずかに回転し
ている場合、そのエラーをスキューと呼ぶ。イメージが
スキャナ中の文書の走行路の方向へ垂直に変位している
場合、これをオフセットと呼ぶ。スキャナはそれぞれ品
質が異なり、完成イメージのスキューおよびオフセット
の程度は使用中の特定のスキャナと、オペレータがスキ
ャナに文書を送り込む技術によって変わる。スキューお
よびオフセットは通常、作成された文書の識別が確認さ
れた後、書式認識プロセス時に測定される。書式定義デ
ータセット中で表されるマスタ書式の線配列が、作成さ
れた文書のイメージの線配列と比較され、スキュー補正
値およびオフセット補正値が生成されてプロセスの後の
段に渡される。作成された文書イメージのスキューおよ
びオフセットを測定するこのプロセスはある時間間隔を
占める。
【0012】多数のタイプのマスタ書式文書を使用する
適用業務では、多数の書式定義データセットがシステム
中に記憶される。多数の適用業務では、多数の異なるタ
イプのマスタ書式に対応する作成された文書が同じ日に
受け取られて処理される。作成された文書が大量で、そ
のマスタ書式タイプが多様であると、書式認識プロセス
を実行するのに必要とされる時間を最小限に抑えること
が重要になる。
【0013】
【発明が解決しようとする課題】本発明の一目的は、書
式認識プロセスを実行するのに必要とされる時間を最小
限に抑えることである。
【0014】本発明の他の目的は、定義されたマスタ書
式文書のタイプに応じて適応的に処理シーケンスを変更
することによって、書式認識プロセスを実行するのに必
要とされる時間を最小限に抑えることである。
【0015】本発明の他の目的は、最近処理されたタイ
プの作成された文書イメージに応じて適応的に処理シー
ケンスを変更することによって、書式認識プロセスを実
行するのに必要とされる時間を最小限に抑えることであ
る。
【0016】本発明の他の目的は、最近処理された作成
された文書イメージの測定されたスキューおよびオフセ
ットの量に応じて適応的に処理シーケンスを変更するこ
とによって、書式認識プロセスを実行するのに必要とさ
れる時間を最小限に抑えることである。
【0017】
【課題を解決するための手段】これらおよびその他の目
的、特徴、および利点は本発明によって達成される。処
理シーケンスを適応的に変更することによって、書式認
識プロセスを実行するのに必要とされる時間を最小限に
抑える、改良された書式認識方法およびシステムを開示
する。本発明によれば、システムにおいて新しいマスタ
書式が定義されたとき、新しい処理テンプレートも定義
される。この処理テンプレートは、システムに定義され
たすべてのマスタ書式のプロファイルを与える、テーブ
ルと索引とを含む。この処理テンプレートはその後、特
定の作成された文書の処理を終了するのに必要とされる
時間を最小限に抑えるために、どの書式認識動作を実行
すべきかを適応的に選択するために書式認識処理時に参
照される。
【0018】たとえば、書式認識動作のデフォルト・シ
ーケンスは、まずバー・コード認識を試し、次いでOC
Rコード認識を試し、次いで線配列認識を試し、次いで
スキュー・オフセット補正動作を実行するものでよい。
本発明によれば、バー・コード付き書式がシステムで定
義されていないかどうかを判定するために処理テンプレ
ートが参照され、定義されていない場合、バー・コード
動作が適応的にスキップされる。
【0019】さらに本発明によれば、最近システムで処
理された完成バー・コード付き書式がないかどうかを判
定するたために、以前の書式処理セッションでコンパイ
ルされたテーブルが参照され、前記書式がない場合、バ
ー・コード動作が適応的にスキップされる。
【0020】さらに本発明によれば、OCRコード付き
マスタ書式がシステムに定義されていないかどうかを判
定するために処理テンプレートが参照され、前記書式が
定義されていない場合、OCRコード動作が適応的にス
キップされる。
【0021】さらに本発明によれば、最近システムで処
理されたOCRコード付き書式で作成された文書がない
かどうかを判定するために、その日にコンパイルされた
テーブルが参照され、前記書式がない場合、OCRコー
ド動作が適応的にスキップされる。
【0022】さらに本発明によれば、顕著なスキューま
たはオフセットを有する最近システムで処理された文書
がないかどうかを判定するために、その日にコンパイル
されたテーブルが参照され、前記書式がない場合、スキ
ュー補正動作またはオフセット補正動作、あるいはその
両方が適応的にスキップされる。
【0023】このように、本発明は、作成された文書が
処理されている時にシステムで優勢な条件にプロセス・
シーケンスを適応させることによって、書式認識プロセ
スを実行するのに必要とされる時間を最小限に抑えるも
のである。
【0024】
【実施例】図1ないし8は、本発明の書式の定義、認
識、および検証によって効率的に処理できる一連の8つ
のマスタ書式イメージの例を示す。図1は、マスタ書式
が全体的に100と呼ばれる書式Aを示し、書式Aは線
配列101Aと事前に印刷されたOCRコード「123
−700」102Aとを有する。図2は、同じ線配列1
01Aおよび事前に印刷された異なるOCRコード10
2Bとを含む書式Bを示す。図3は、同じ線配列101
Aと事前に印刷されたバー・コード102Cとを含む書
式Cを示す。図4は、異なる線配列101Dとバー・コ
ード102Dとを含む書式Dを示す。図5は、書式Dと
異なる線配列101Eを含むが、書式Dと同じバー・コ
ード102Dを含む書式Eを示す。図6は、異なる線配
列101Fとバー・コード102Fとを含む書式Fを示
す。図7は、異なる線配列101Gを含み、事前に印刷
されたバー・コードも事前に印刷されたOCRコードも
含まない書式Gを示す。図8は、異なる線配列101H
を含み、事前に印刷されたバー・コードも事前に印刷さ
れたOCRコードも含まない書式Hを示す。
【0025】図1ないし8の8つの異なるマスタ書式イ
メージ上で書式認識を実行するには、いくつかの異なる
タイプの書式認識動作を使用する必要があることが分か
る。バー・コード位置決め読取りの最も効率的な書式認
識動作は書式A、Bに対して作用せず、書式Dと書式E
を区別することができず、書式GおよびHに対しては無
用である。OCRコード位置決め読取り動作は、書式A
およびBには有用であるが、書式CないしHには無用で
ある。線配列認識動作は、書式Aと書式Bと書式Cとを
区別するのには無用であるが、書式Dと書式Eと書式F
と書式Gと書式Hとを区別する上では有用である。本発
明によれば、書式認識動作のデフォルト・シーケンスが
指定される。たとえば、書式認識動作のデフォルト・シ
ーケンスでは、まずバー・コード認識が試され、次い
で、OCRコード認識が試され、次いで、線配列認識が
試される。本発明によれば、システムに対して新しいマ
スタ書式が定義されるたびにコンパイルされる処理テン
プレートが参照される。この処理テンプレートは、バー
・コード付きマスタ書式がシステム中にないかどうかを
判定するものであり、前記書式がない場合、バー・コー
ド動作が適当的にスキップされ、事前に印刷されたその
ようなコードを含んでいない作成された文書にバー・コ
ード位置決め読取り動作を適用するむだな努力に時間を
費やすことが不要になる。同様に、OCRコード・マス
タ書式がシステムに定義されていない場合、OCRコー
ド動作が適応的にスキップされる。この場合も、事前に
印刷されたOCRコードがシステムに存在しない場合、
前記コードを見つけて読み取ろうとすることに時間を費
やすことは不要になる。さらに、最近システムで処理さ
れたバー・コード付き文書がないかどうかを判定するた
めに、作成された文書を処理する1日の間にコンパイル
されたテーブルが参照される。前記書式がない場合、次
に処理すべき作成された文書にバー・コード付き書式が
ある可能性はないという推定を導くことができる。シス
テムは、その推定に応じて、バー・コード動作をスキッ
プし、処理中の現文書に存在する可能性のないバー・コ
ードを見つけて読み取ろうとするのに前記動作が必要と
する時間を費やすことを不要にする。最近処理されたO
CRコード付き文書がない場合にも同様の適応スキップ
動作を適用することができる。
【0026】図9、10、11を参照すると、本発明に
よる方法が示されている。方法200は、実行可能な命
令のシーケンスのプログラムとして実施される。ステッ
プ201は、新しい処理テンプレートおよび書式定義デ
ータセットを作成する方法を開始する。書式定義データ
・セット300を示す図12を参照することができる。
図13に示したマスタ書式存在テーブル320と、図1
4に示したシステム矛盾テーブル330と、図15に示
したバー・コード・インデックス340と、図16に示
したOCRコード・インデックス350と、図17に示
した線配列インデックス360とから成る処理テンプレ
ート390を示す図18を参照することができる。
【0027】図9のステップ201は次いで、新しいマ
スタ書式をシステムに追加しているかどうかを判定する
ステップ202へ流れ、プロセスはステップ204に進
む。その代わりに、古いマスタ書式をシステムから削除
している場合、プロセスはステップ260に流れる。次
いで、プロセスは、図1ないし8に示した書式100の
うちの1つであってよい新しいマスタ書式を走査するス
テップ204に進む。次いで、ステップ206は新しい
書式ID302を割り当てる。新しい書式IDとは、そ
れを識別し、システム中のすべてのマスタ書式と区別す
るためにマスタ書式に割り当てられる固有の名前または
番号である。次いで、ステップ208はバー・コード特
徴付けセグメントを開始する。ステップ210は、マス
タ書式イメージ100に対してバー・コード位置決めル
ーチンを実行し、バー・コード値を得る。上記で引用し
た米国特許第4992650号は、妥当なバー・コード
位置決め読取りルーチンを記述している。ステップ21
1は、バー・コードがあるかどうかを判定し、次いで、
この方法はステップ218でOCRコード・セグメント
に進む。しかし、ステップ212は、バー・コードが見
つかったかどうかを判定し、次いで、バー・コード付き
マスタが存在する場合には図13中のマスタ書式存在テ
ーブル320を増分する。これによって、図13の32
2中の値BC−CNTが増分される。次いで、たとえば
図3中のバー・コード102Cから得たバー・コード値
をキーとして図15のバー・コード・インデックス34
0に置き、次いで、図15のバー・コード・インデック
ス340で書式IDをデータとして使用する。バー・コ
ード・インデックス340では、各バー・コード値と対
応するマスタ書式ID用の項目が342にある。次い
で、図12中の304に示したように、書式定義データ
セット300にバー・コード値を書き込む。図9のプロ
セスは次いで、ステップ214に流れる。
【0028】ステップ214は、図14中のシステム矛
盾テーブル330を検査して、他の書式IDが同じバー
・コード値を有するかどうかを判定する。項目332
は、同じバー・コード値を有する他のあらゆる書式ID
をリストする。次いで、図9のステップ216は、同じ
バー・コード値を有する他の書式IDがあると判定し、
次いでシステム矛盾テーブルを更新する。たとえば、特
定のバー・コード値が2つの名前付き書式IDを有する
ことを示すための項目が図14中の332に作成され
る。次いで、ステップ218はOCRコード特徴付けセ
グメントを開始する。ステップ218は次いで、マスタ
書式イメージ上でOCRコードを見つけてOCRコード
値を得るステップ220に流れる。これは、イメージ中
の事前に印刷された英数字文字を見つけて、次いで、こ
のように見つかった文字イメージに対して文字認識動作
を実行するための、文字認識技術分野で周知の標準技法
である。次いで、ステップ220は、たとえば図1中の
OCRコード102Aが存在しないことなど、マスタ書
式イメージにOCRコードが存在しないかどうかを判定
するステップ221に流れ、次いで、方法は230の線
配列セグメントに進む。ステップ222で、図1中のコ
ード102Aに関して示したように、OCRコードが見
つかった場合、図13のマスタ書式存在テーブル320
はOCRコード付きマスタの存在に対して増分される。
図13の項目342の値OC−CNTが増分される。次
いで、キーとしてのOCRコード値と、データとしての
書式IDとを、図16のOCRコード・インデックス3
50に置く。図16のインデックス350は、システム
に定義されているすべてのOCRコード付きマスタ書式
に関するOCRコード値および対応する書式IDを含む
項目352を有する。次いで、図12の書式定義データ
セット300中の項目306にOCRコード値を書き込
む。
【0029】図9の流れ図は次いで、他の書式IDが同
じOCRコード値を有していないかどうかに関してシス
テム矛盾テーブル330を検査する図10のステップ2
24に進む。システム矛盾テーブルの項目334は、同
じOCRコード値を有する他のあらゆる書式IDをリス
トする。次いで、ステップ226は、同じOCRコード
値を有する他の書式IDがあるかどうかを判定し、ある
場合は、次いで、OCRコード値とその値を有する書式
IDの対応する名前とを示すようにシステム矛盾テーブ
ルの項目334を更新する。
【0030】次いで、この方法は、線配列特徴付けセグ
メントを開始するステップ230に流れる。ステップ2
32は、マスタ書式イメージ100に対して線配列ルー
チンを実行して線配列値を得る。たとえば、図1は8本
の水平線および4本の垂直線を含む線配列101Aを含
む書式Aを有する。線配列101Aの特徴付けを示す項
目308にある線配列値に関して図27を参照すること
ができる。ステップ234は、キーとしての線配列値
と、データとしてのマスタ書式IDとを、図17の線配
列インデックス360に置く。図17の例として線配列
インデックス360を示すことができ、線配列特徴付け
が水平線および垂直線の数である場合、線配列インデッ
クスは、第1のキーとしての水平線カウント362と第
2のキーとしての垂直線カウント364とを含み、二次
元テーブル内に含まれる値として書式IDを含む二次元
インデックスであってよい。たとえば、図1中の書式A
が8本の水平線と4本の垂直線とを有する場合、線配列
インデックス360は図33において、図33の二次元
インデックスの第1列第4行中の項目Aによって示され
る。より複雑な線配列特徴付けの場合はより複雑な形状
突合せインデックスが可能である。
【0031】ステップ234は、キーとしての線配列値
と、データとしての書式IDとを、図17の線配列イン
デックス360に置く。ステップ234は次いで、図1
2の項目308にある書式定義データセット300に線
配列値を書き込む。図1の書式Aに関する特徴付けの一
例を図27の書式定義データセット300Aに示す。次
いで、この方法は、他の書式IDが同じ線配列値を有す
るかどうかに関して図14のシステム矛盾テーブル33
0を検査するステップ236に流れる。図14の項目3
36は、同じ線配列値を有する他のあらゆる書式IDを
含む。次いで、この方法は、同じ線配列値を有する他の
書式IDがあるかどうかを判定するステップ238に流
れ、次いで、システム矛盾テーブルを更新する。
【0032】書式認識処理の他の特徴は、作成された文
書イメージのスキューおよびオフセットの特徴付けであ
り、それによって、フィールド抽出段やフィールド文字
認識段など後の処理段にエラー情報を提供することがで
きる。図10のステップ242は、スキュー・オフセッ
ト補正プロセスをイネーブルするのに十分な情報で書式
定義データ・セットを準備する。マスタ書式には、その
線配列の一部として水平位置合せ線および垂直位置合せ
線が含まれている。ステップ242は、水平位置合せ線
および垂直位置合せ線を見つけて、書式定義データセッ
ト300の項目310にあるマスタ位置合わせ行として
これらの線の座標を書き込む。図27中の書式定義デー
タセット300A中の項目310に図1中の書式Aの場
合のこの例を示す。
【0033】図10の方法は次いで、フィールド定義セ
グメントを開始するステップ244に流れる。この方法
は、フィールド定義ルーチンを実行するステップ246
に流れる。このルーチンは通常、ユーザとの対話型プロ
セスであり、それによって、ユーザは、マウス・ポイン
ティング装置、たとえばキーボードを使用して、指定の
フィールドの座標を記憶できるようにマスタ書式のイメ
ージ上の特定のフィールドを指定し、作成された文書中
のその特定のフィールドに埋め込まれる予期されるフォ
ントまたは文字タイプなどの追加情報を入力することが
できる。ステップ248は、図12に示したように、フ
ィールド定義および書式定義データセットを項目312
に書き込む。
【0034】次いで、本発明によれば、図10の方法は
次いで、図11中のステップ250に流れる。ステップ
250は、図18に示した新しい処理テンプレート39
0をアセンブルする。新しい処理テンプレート390
は、マスタ書式存在テーブル320と、システム矛盾テ
ーブル330、バー・コード・インデックス340と、
OCRコード・インデックス350と、線配列インデッ
クス360とを含む。新しい処理テンプレート390
は、書式定義データセット300によって表される最も
新しく定義された書式を含め、現在システムに定義され
ているすべてのマスタのプロファイルを特徴付ける。次
いで、ステップ252は、図26のブロック図に示した
ように、新しい処理テンプレート390および書式定義
データセット300を書式認識プロセッサ850に出力
する。図11の方法は次いで、ステップ252でメイン
・プログラムに戻る。
【0035】図9で、ユーザが新しいマスタ書式を追加
するのでなく、古いマスタ書式を削除したい場合、この
方法は図11中のステップ260に流れる。ステップ2
60のマスタ書式セグメントの削除で、プログラムは、
削除すべき古いマスタ書式の古いIDを入力するステッ
プ262に流れる。次いで、ステップ264は、マスタ
書式存在テーブル320、システム矛盾テーブル33
0、バー・コード・インデックス340、OCRコード
・インデックス350、および線配列インデックス36
0中の古いマスタ書式の古いIDへのすべての参照を削
除する。次いで、プログラムは、更新された書式存在テ
ーブル320と、システム矛盾テーブル330と、バー
・コード・インデックス340と、OCRコード・イン
デックス350と、線配列インデックス360とを含む
新しい処理テンプレート390をアセンブルするステッ
プ226に流れる。次いで、ステップ268は新しい処
理テンプレート390を書式認識プロセッサ850に出
力する。プログラムは次いで、ステップ270でメイン
・プログラムに戻る。したがって、システムに定義され
ているすべてのマスタ書式のプロファイルが変更される
たびに、新しい処理テンプレート390が方法200に
おいて作成され、書式認識プロセッサ850に分配され
る。
【0036】図1のマスタ書式Aを特徴付ける書式定義
データセット300Aを示す図27を参照することがで
きる。同様に、図28は、図2中に示した書式Bを特徴
付ける書式定義データセット300Bを示す。図29、
30、31、32、33は、第1の2つの書式Aおよび
Bを定義した後の状態のマスタ書式存在テーブル32
0、システム矛盾テーブル330、バー・コード・イン
デックス340、OCRコード化インデックス350、
および線配列インデックス360を示す。
【0037】図34および35はそれぞれ、書式定義デ
ータセット300Cおよび300Dを示す。書式定義デ
ータセット300Cおよび300Dはそれぞれ、図3お
よび4の書式CおよびDをそれぞれ特徴付ける。図3
6、37、38、39、40は、書式A、B、C、Dの
4つのマスタ書式がシステムに定義された後のマスタ書
式存在テーブル320、システム矛盾テーブル330、
バー・コード・インデックス340、OCRコード化イ
ンデックス350、および線配列インデックス360を
示す。
【0038】図41および42はそれぞれ、書式定義デ
ータセット300Eおよび300Fを示す。書式定義デ
ータセット300Eおよび300Fはそれぞれ、図5お
よび6の書式EおよびFをそれぞれ特徴付ける。図4
3、44、45、46、47は、6つのマスタ書式イメ
ージA、B、C、D、E、Fを定義した後の状態のマス
タ書式存在テーブル320、システム矛盾テーブル33
0、バー・コード・インデックス340、OCRコード
化インデックス350、および線配列インデックス36
0を示す。
【0039】図48および49はそれぞれ、書式定義デ
ータセット300Gおよび300Hを示す。書式定義デ
ータセット300Gおよび300Hはそれぞれ、図7お
よび8のマスタ書式イメージGおよびHをそれぞれ特徴
付ける。図50、51、52、53、54はそれぞれ、
8つのマスタ書式イメージA、B、C、D、E、F、
G、Hをシステムに定義した後の状態のマスタ書式存在
テーブル320、システム矛盾テーブル330、バー・
コード・インデックス340、OCRコード化インデッ
クス350、および線配列インデックス360を示す。
【0040】したがって、図9ないし11に示した方法
200の動作によって、一連の8つの書式定義データセ
ットと、システムに定義されたそれら8つのマスタ書式
のプロファイルを特徴付けるテーブルおよびインデック
スの最終状態を要約する1つの最終処理テンプレート3
90とを生成する8つの異なるマスタ書式イメージをシ
ステムに定義できることが分かる。8つの書式定義デー
タセット300および最新の処理テンプレート390は
書式定義プロセッサ850に送信される。
【0041】図9ないし11の方法200を実行する書
式定義プロセッサ800を示す図26を参照することが
できる。書式定義プロセッサ800は、CPU810、
スキャナ812、ディスク・ドライブ814、ローカル
・エリア・ネットワーク・アダプタ816、キーボード
およびディスプレイ18、ならびにマウス・ポインティ
ング装置820にバス815によって接続されたメモリ
802を含む。メモリ802は、書式定義セット作成プ
ログラム200と、マスタ書式イメージ区画600と、
バー・コード位置決め読取りルーチン602と、テーブ
ル・インデックス区画604と、書式定義データセット
区画606と、OCRコード位置決め読取りルーチン6
08と、線配列値生成ルーチン610と、位置合せ線生
成ルーチン612と、フィールド定義ルーチン614
と、文書イメージ処理プログラム616と、オペレーテ
ィング・システム・プログラム618とを含む。メモリ
802に記憶されたすべてのプログラムは実行可能な命
令のシーケンスであり、CPU810中で実行される
と、所期の動作を実行する。LANアダプタ816はL
AN845に接続され、LAN845はさらに、書式認
識プロセッサ850のLANアダプタ876に接続され
ている。ローカル・エリア・ネットワーク845にはフ
ィールド抽出プロセッサ900および文字認識プロセッ
サ950も接続されている。
【0042】マスタ書式イメージ100がシステムに定
義された後、システムによって受信された作成された文
書イメージに書式認識動作を適用することができる。図
21ないし25の方法400は、認識処理シーケンス・
プログラムを実行する。ステップ401は書式認識処理
シーケンス・プログラムを開始し、最新の処理テンプレ
ート390を書式認識プロセッサ850にロードするス
テップ402に流れる。次いで、ステップ404は作成
された文書を走査し、「再試行」の値を2に等しく設定
する。次いで、ステップ406はバー・コード位置決め
セグメントを開始する。ステップ408は、バー・コー
ド付きマスタが存在するかどうかに関して、処理テンプ
レート390中のマスタ書式存在テーブル320を検査
する。ステップ410は、バー・コード付きマスタがシ
ステム中にないかどうかを判定し、次いで、システムは
446でOCRコード位置決めセグメントに進む。これ
は、図29に記載したように、システムに書式Aおよび
Bしか定義されていない場合に当てはまる。ステップ4
10は、バー・コード付きマスタが見つからない場合、
446でOCRコード位置決めセグメントに進む。次い
で、ステップ412は、バー・コード付き書式で作成さ
れた文書が存在するかどうかに関して、図19の最近処
理された文書書式存在テーブル370を検査する。最近
処理された文書書式存在テーブル370は、最近処理さ
れたバー・コード付き書式で作成された文書を反映する
ように更新される。この項目は、図19の372に作成
される。テーブル370は、OCRコード付き書式で作
成された文書が存在する場合にも項目374を更新す
る。これらは、たとえば同じ処理日中の文書として処理
された書式である。最近処理されたバー・コード付き文
書がない場合、次に処理すべき文書がバー・コード付き
文書である確率は低いという推定が導かれる。図21の
ステップ414は、最近処理されたバー・コード付き文
書がないかどうかを判定し、次いで446で、OCRコ
ード位置決めセグメントに進む。次いで、ステップ41
6は、文書に対してバー・コード位置決めルーチンを実
行する。ステップ418は、バーコードがないかどう
か、あるいはバー・コード読取りエラーがあるかどうか
を判定し、次いで、最近処理されたバー・コード付き文
書の数を減分することによって図19の最近処理された
文書書式存在テーブル370を更新する。たとえば、バ
ー・コード付き文書が処理されるたびに、項目372は
1だけ増分される。また、バー・コードを含まない文書
が処理されるたびに、項目372は減分される。このよ
うに、事前に印刷されたバー・コードを含まない一連の
文書が処理される場合、372の項目RB−CNTは最
終的にゼロになる。ステップ418は、バー・コードが
見つからない場合はOCRコード位置決めセグメント4
46に進む。代替統計コンパイル技法を使用することも
できる。
【0043】ステップ420で、バー・コードが見つか
った場合、バー・コード値を得る。次いで、ステップ4
22は、バー・コード値を使用して図15のバー・コー
ド・インデックス340にアクセスして、書式IDを得
る。書式IDが見つからない場合は、OCRコード位置
決めセグメント446に進む。ステップ422は、同じ
バー・コード値を有する書式IDがあるかどうかに関し
てシステム矛盾テーブル330を検査する。ステップ2
46は、同じバー・コード値を有する他の書式IDがあ
るかどうかを判定し、次いで、OCRコード位置決めセ
グメント446に進む。ステップ428は、同じバー・
コード値を有する他の書式IDがないかどうかを判定
し、次いで、書式IDを使用して、それに対応する書式
定義データセット300にアクセスする。次いで、ステ
ップ410は、項目372にある最近処理されたバー・
コード付き文書の数を増分するように、図19の最近処
理された文書書式存在テーブル370を更新する。次い
で、ステップ432は、492で適応的スキュー・オフ
セット補正セグメントに進む。図22は、上述のバー・
コード位置決めセグメントに関して説明したものに類似
の動作を実行する、ステップ446、448、450、
452、454、456、458、460、462、4
64、466、468、470、472を経て至るOC
Rコード位置決めセグメントを示す。ただし、これは完
成OCRコード付き書式に関するものである。本発明に
よれば、文書が処理されている時点でシステムで支配的
な条件にプロセス・シーケンスを適応させることによっ
て、書式処理プロセスを実行するのに必要とされる時間
を最小限にできることが分かる。
【0044】この方法は次いで、図23のステップ47
6に流れて、線配列セグメントを開始する。ステップ4
77は線配列ルーチンを実行し、ステップ478は、線
配列がないかどうかを判定し、次いで510でエラー報
告セグメントに進む。ステップ480は、線配列が見つ
かったかどうかを判定し、次いで、線配列値を得る。ス
テップ482は、線配列値を使用して線配列インデック
スにアクセスして書式IDを得る。線配列インデックス
360は、上述のように、処理中の特定の文書に関する
水平線カウントおよび垂直線カウントに対応する書式I
Dを含む。対応する書式IDは次いで、線配列インデッ
クス360によって返される。次いで、ステップ484
は、同じ線配列値を有する他の書式があるかどうかに関
して、図14中のシステム矛盾テーブルの項目336を
検査する。ステップ486は、同じ線配列値を有する他
の書式IDがあるかどうかを判定し、次いで、510で
エラー報告セグメントに進む。ステップ488は、同じ
線配列値を有する他の書式IDがないかどうかを判定
し、書式IDを使用して、文書に対応する書式定義デー
タセットにアクセスする。次いで、ステップ490は4
92で、適応的スキュー・オフセット補正セグメントに
進む。
【0045】方法400の図24は、ステップ492で
適応的スキュー・オフセット補正セグメントを開始す
る。ステップ494は、所定のしきい値よりも大きいス
キュー値またはオフセット値を有する最近完成された書
式の数に関して、図20の最近処理された文書スキュー
・オフセット・テーブル380を検査する。完成文書の
走査されたイメージが位置ずれしている場合、そのイメ
ージはスキュー・エラーまたはオフセット・エラーを有
する。これは、文書を走査するために使用される特定の
走査装置の関数、またはハード・コピー文書を走査装置
に送るオペレータの技術の関数の数倍である。ステップ
496は、所定のしきい値よりも大きなスキューまたは
オフセットを有する最近処理された文書がないかどうか
を判定する。この情報は、ある処理日中に処理された各
書式ごとにコンパイルされ、図20のテーブル880の
382に入力される。任意選択で、しきい値を384に
含めることもでき、スキュー/オフセット状態と呼ばれ
る状態を図20の386に提供することもできる。ステ
ップ496で、しきい値よりも大きなスキューまたはオ
フセットを有する最近処理された文書がない場合、スキ
ュー/オフセット状態をゼロに等しく設定し、スキュー
値ゼロおよびオフセット値ゼロを図20のフィールド抽
出プロセッサ900に出力する。このように、スキュー
・エラーまたはオフセット・エラーを有する最近処理さ
れた文書がない場合、現在処理中の文書に対して、スキ
ュー・エラーおよびオフセット・エラーを測定する冗長
なプロセスをスキップすることができる。ステップ49
6は次いで、スキュー・オフセット状態がゼロに設定さ
れ、項目386が更新された場合、図20の最近処理さ
れた文書スキュー・オフセット・テーブル380の項目
382を更新する。
【0046】ステップ498も、所定のしきい値よりも
大きなスキュー・エラーまたはオフセット・エラーを有
する最近処理された文書があるかどうかを判定し、ある
場合は、図20の386でスキュー/オフセット状態が
1に等しく設定される。ステップ499で、LAN84
5を介してフィールド抽出プロセッサ900から、ある
いはLAN845を介して文字認識プロセッサ950か
ら受信されたスキュー/オフセット・エラー信号が、そ
れら後の処理段で識別されたスキュー・エラーまたはオ
フセット・エラーがあったことを示す場合、図20の3
86でスキュー/オフセット状態を1に等しく設定す
る。
【0047】次いで、ステップ500は、図12の書式
定義データセット300の310からマスタ位置合せ線
情報を得る。次いで、ステップ502は、マスタ位置合
せ線を使用して走査された書式に対してスキュー・オフ
セット補正を実行し、スキュー・オフセット値を得る。
ステップ504は、スキュー・オフセット値が所定のし
きい値よりも大きいかどうかを判定し、大きい場合、し
きい値よりも大きなスキュー・エラーおよびオフセット
・エラーを有する最近完成された書式の数に関する、図
20の最近処理された文書スキュー・オフセット・テー
ブルの382を増分する。したがって、現在処理中の文
書がスキュー・エラーまたはオフセット・エラーを有す
る場合、図20中の382にある変数SK−CNTは1
だけ増分される。ステップ506で、スキュー値または
オフセット値が所定のしきい値よりも小さい場合、しき
い値よりも大きなスキューまたはオフセットを有する最
近完成された書式の数に関する、図20中の最近処理さ
れた文書スキュー・オフセット・テーブル380の38
2を減分する。したがって、現在処理中の文書は、しき
い値よりも大きなスキュー値およびオフセット値をもた
ず、その場合、SK−CNT値が1だけ減分される。最
終的に、一連の連続する文書がしきい値よりも大きなス
キュー値やオフセット値をもたない場合、図20のSK
−CNTの値はゼロになる。その時点で、前の一連の書
式にスキュー・エラーやオフセット・エラーがなかった
ため、続いて処理される文書にはそのようなエラーがな
いという推定が導かれる。これに応答して、処理中の書
式に対して、スキュー・エラーおよびオフセット・エラ
ーを計算する冗長なプロセスがスキップされる。後で、
プロセッサ900でのフィールド抽出およびプロセッサ
950での文字認識の後続段で、実際にスキュー・エラ
ーまたはオフセット・エラーがあると判定された場合、
この情報は書式認識プロセッサ850にフィードバック
され、ステップ499で再び、スキュー/オフセット段
が1に等しく再設定される。スキュー状態またはオフセ
ット状態386が1に等しく設定された場合、382の
SK−CNT値を増分して、次に処理されるいくつかの
書式に強制的にスキュー・オフセット補正手順を実行さ
せることができる。代替統計コンパイル技法を使用する
こともできる。
【0048】図24の適応的スキュー・オフセット補正
手順でスキュー・オフセット・エラー値が計算された
後、ステップ508はフィールド抽出段900および文
字認識段950にスキュー値およびオフセット値を出力
する。次いで、ステップ509はメイン・プログラムに
戻る。
【0049】図25は、ステップ510から始まり、線
配列障害が発生しており、かつ「再試行」の値が2に等
しいかどうかを判定するステップ512に流れ、次い
で、「再試行」を1に等しく設定し、ステップ416で
バー・コード位置決めセグメントに進む。これによっ
て、バー・コード位置決め読取り手順が再び試されて、
書式に対して有効なバー・コードが識別できるかどうか
が判定される。手順は次いで、線配列障害が発生してお
り、かつ「再試行」が1に等しいかどうかを判定するス
テップ514に流れ、次いで「再試行」を0に等しく設
定し、ステップ456でOCRコード位置決めセグメン
トに進む。これによって、OCRコード・プロセスが再
び試されて、書式上の事前に印刷されたOCRコードを
首尾よく識別できるかどうかが判定される。次いで、プ
ロセスは、線配列障害が発生しおり、かつ値「再試行」
が0に等しいかどうかを判定するステップ516に流
れ、次いで、エラーが報告される。プログラムは次い
で、メイン・プログラムに戻るステップ518に流れ
る。
【0050】図21ないし25の書式認識処理シーケン
ス管理方法400は、実行されたときに方法400を実
行する一連のプログラム命令として実施される。図26
中の書式認識プロセッサはプログラム400を記憶す
る。
【0051】図26の書式認識プロセッサ850は、L
ANアダプタ876、ディスク・ドライブ874、スキ
ャナ872、CPU870、キーボードおよびディスプ
レイ878、ならびにマウス・ポインティング装置88
0にバス875によって接続されたメモリ852を含
む。LANアダプタ876は、本発明によって、LAN
845に接続され、書式定義プロセッサ800、処理テ
ンプレート390、および書式定義データセット300
から受信する。メモリ852は、書式認識処理シーケン
ス・プログラム400と、文書のイメージ区画650
と、処理テンプレート・テーブル652と、バー・コー
ド位置決め読取りルーチン654と、書式ID656
と、書式定義データセット区画658と、OCRコード
位置決め読取りルーチン660と、線配列値生成ルーチ
ン652と、スキュー・オフセット補正ルーチン664
と、エラー報告ルーチン666と、文書イメージ処理プ
ログラム668と、オペレーティング・システム670
とを含む。メモリ852に記憶された他のすべてのプロ
グラムは、CPU870によって実行されたときに所期
の動作を実行する実行可能な命令のシーケンスである。
【0052】第1の瞬間での、最近処理された文書書式
存在テーブル370の状態および最近処理された文書ス
キュー・オフセット・テーブル380の状態の第1の例
を示す図55および56を参照することができる。項目
372は、RB−CNTが30に等しいことを示す。こ
れは、最近処理された30個の完成バー・コード付き書
式があることを意味する。項目374は可変RO−CN
Tが20に等しいことを示す。これは、最近処理された
20個のOCR文書があることを示す。図55のテーブ
ル370のこの状態では、図21の方法400によって
特定の文書を処理しているところであり、ステップ41
4が、最近処理されたバー・コード書式があると判定し
たとき、プログラムはステップ416に流れて、現在処
理中の書式に対してバー・コード位置決めルーチンを実
行する。しかし、図57中の例は、最近処理されたバー
・コード付き書式がないことを意味する0に等しい値R
B−CNTを有する項目372を示す。図57の例の場
合、図21のステップ414によって、方法はステップ
416をスキップし、バー・コード位置決めルーチンの
冗長な計算を不要にする。その代わり、プログラムは4
46のOCRコード位置決めセグメントに進む。最近処
理された20個のOCR文書があることを示す図55の
項目374に関しても同様のことが言える。374が、
最近処理されたOCR文書がないことを示す、図57中
の第2の例とこれを比較する。この場合、方法400
は、特定の書式を実行するときに、例に応じて異なるよ
うにステップ454を実行する。図55の例では、最近
処理されたOCR文書があるので、ステップ454がス
テップ456に流れ、OCR位置決めルーチンが実行さ
れる。図57の第2の例では、最近のOCR文書がない
ので、ステップ454が476での線配列セグメントに
流れ、それによって、OCRコードの位置決めおよび読
取りを実行する冗長な手順をスキップする。
【0053】図58および60に示した、最近処理され
た文書のスキュー・オフセット・テーブル380の例を
参照することができる。図58に示した第2の例では、
項目382はSK−CNT値が10に等しいことを示
す。これは、しきい値に関してスキュー・エラーまたは
オフセット・エラーが発生した最近処理された10個の
書式があることを意味する。図60中の第3の例では、
項目382はSK−CNTが0に等しいことを示す。こ
れは、しきい値よりも大きなスキュー値またはオフセッ
ト値を有する最近処理された書式がないことを意味す
る。したがって、図24の方法400が特定の書式を処
理しているとき、ステップ496は2つの異なる方法で
実行される。図58の第2の例の場合、スキュー・エラ
ーまたはオフセット・エラーを有する最近処理された書
式があるので、ステップ496はステップ498、49
9、500に流れ、502でスキュー・オフセット補正
を実行する。図60の第3の例でも、顕著なスキュー・
エラーまたはオフセット・エラーを有する最近の書式が
ないので、ステップ496はスキュー・エラーおよびオ
フセット・エラーの冗長な計算をスキップする。
【0054】したがって、本発明は、文書が処理されて
いる時点でシステムで支配的な条件にプロセス・シーケ
ンスを適応させることによって、書式認識プロセスを実
行するのに必要とされる時間を最小限に抑える。
【0055】本発明は、基準整合マークの存在および位
置、処理中の書式上での他の特徴付けマークの存在な
ど、他の書式認識特徴に拡張することができる。
【0056】本発明の特定の実施例を開示したが、本発
明の趣旨および範囲から逸脱せずに特定の実施例に変更
を加えられることが当業者には理解されよう。
【0057】たとえば、図26に示したシステムは、ロ
ーカル・エリア・ネットワークによって相互接続された
いくつかの別々のプロセッサではなく単一のマルチタス
ク・プロセッサで実施することができる。
【0058】
【発明の効果】本発明によれば、書式認識プロセスを実
行するのに必要とされる時間を最小限に抑えることがで
きる。
【0059】また、定義されたマスタ書式文書のタイプ
に応じて適応的に処理シーケンスを変更することによっ
て、書式認識プロセスを実行するのに必要とされる時間
を最小限に抑えることができる。
【0060】また、最近処理されたタイプの書式イメー
ジに応じて適応的に処理シーケンスを変更することによ
って、書式認識プロセスを実行するのに必要とされる時
間を最小限に抑えることができる。
【0061】さらには、最近処理された書式イメージの
測定されたスキューおよびオフセットの量に応じて適応
的に処理シーケンスを変更することによって、書式認識
プロセスを実行するのに必要とされる時間を最小限に抑
えることができる。
【図面の簡単な説明】
【図1】マスタ書式イメージの一例を示す図である。
【図2】マスタ書式イメージの一例を示す図である。
【図3】マスタ書式イメージの一例を示す図である。
【図4】マスタ書式イメージの一例を示す図である。
【図5】マスタ書式イメージの一例を示す図である。
【図6】マスタ書式イメージの一例を示す図である。
【図7】マスタ書式イメージの一例を示す図である。
【図8】マスタ書式イメージの一例を示す図である。
【図9】新しい処理テンプレートおよび書式定義データ
セットを作成する方法の流れ図である。
【図10】新しい処理テンプレートおよび書式定義デー
タセットを作成する方法の流れ図である。
【図11】新しい処理テンプレートおよび書式定義デー
タセットを作成する方法の流れ図である。
【図12】本発明によって作成されるテーブルを示す図
である。
【図13】本発明によって作成されるテーブルを示す図
である。
【図14】本発明によって作成されるテーブルを示す図
である。
【図15】本発明によって作成されるテーブルを示す図
である。
【図16】本発明によって作成されるテーブルを示す図
である。
【図17】本発明によって作成されるテーブルを示す図
である。
【図18】本発明によって作成されるテーブルを示す図
である。
【図19】本発明によって作成されるテーブルを示す図
である。
【図20】本発明によって作成されるテーブルを示す図
である。
【図21】書式認識処理シーケンス管理プログラム用の
方法の流れ図である。
【図22】書式認識処理シーケンス管理プログラム用の
方法の流れ図である。
【図23】書式認識処理シーケンス管理プログラム用の
方法の流れ図である。
【図24】書式認識処理シーケンス管理プログラム用の
方法の流れ図である。
【図25】書式認識処理シーケンス管理プログラム用の
方法の流れ図である。
【図26】書式定義プロセッサおよび書式認識プロセッ
サの機能ブロック図である。
【図27】本発明による、書式Aおよび書式B用のテー
ブルの構成を示す図である。
【図28】本発明による、書式Aおよび書式B用のテー
ブルの構成を示す図である。
【図29】本発明による、書式Aおよび書式B用のテー
ブルの構成を示す図である。
【図30】本発明による、書式Aおよび書式B用のテー
ブルの構成を示す図である。
【図31】本発明による、書式Aおよび書式B用のテー
ブルの構成を示す図である。
【図32】本発明による、書式Aおよび書式B用のテー
ブルの構成を示す図である。
【図33】本発明による、書式Aおよび書式B用のテー
ブルの構成を示す図である。
【図34】本発明による、書式Cおよび書式D用のテー
ブルの構成を示す図である。
【図35】本発明による、書式Cおよび書式D用のテー
ブルの構成を示す図である。
【図36】本発明による、書式Cおよび書式D用のテー
ブルの構成を示す図である。
【図37】本発明による、書式Cおよび書式D用のテー
ブルの構成を示す図である。
【図38】本発明による、書式Cおよび書式D用のテー
ブルの構成を示す図である。
【図39】本発明による、書式Cおよび書式D用のテー
ブルの構成を示す図である。
【図40】本発明による、書式Cおよび書式D用のテー
ブルの構成を示す図である。
【図41】本発明による、書式Eおよび書式F用のテー
ブルの構成を示す図である。
【図42】本発明による、書式Eおよび書式F用のテー
ブルの構成を示す図である。
【図43】本発明による、書式Eおよび書式F用のテー
ブルの構成を示す図である。
【図44】本発明による、書式Eおよび書式F用のテー
ブルの構成を示す図である。
【図45】本発明による、書式Eおよび書式F用のテー
ブルの構成を示す図である。
【図46】本発明による、書式Eおよび書式F用のテー
ブルの構成を示す図である。
【図47】本発明による、書式Eおよび書式F用のテー
ブルの構成を示す図である。
【図48】本発明による、書式Gおよび書式H用のテー
ブルの構成を示す図である。
【図49】本発明による、書式Gおよび書式H用のテー
ブルの構成を示す図である。
【図50】本発明による、書式Gおよび書式H用のテー
ブルの構成を示す図である。
【図51】本発明による、書式Gおよび書式H用のテー
ブルの構成を示す図である。
【図52】本発明による、書式Gおよび書式H用のテー
ブルの構成を示す図である。
【図53】本発明による、書式Gおよび書式H用のテー
ブルの構成を示す図である。
【図54】本発明による、書式Gおよび書式H用のテー
ブルの構成を示す図である。
【図55】第1の例のテーブル370および380を示
す図である。
【図56】第1の例のテーブル370および380を示
す図である。
【図57】第2の例のテーブル370および380を示
す図である。
【図58】第2の例のテーブル370および380を示
す図である。
【図59】第3の例のテーブル370および380を示
す図である。
【図60】第3の例のテーブル370および380を示
す図である。
【符号の説明】
100 マスタ書式 101 線配列 102B 事前に印刷されたOCRコード 102C 事前に印刷されたバー・コード 200 方法 300 形式定義データセット 340 バー・コード・インデックス 350 OCRコード・インデックス 360 線配列インデックス 390 処理テンプレート
───────────────────────────────────────────────────── フロントページの続き (72)発明者 バレリー・エム・カラス アメリカ合衆国20895 メリーランド州 ユニバーシティ・ブールバード ナンバ ー310 3333 (56)参考文献 特開 平3−87972(JP,A) 特開 平3−77182(JP,A) 特開 平3−225487(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06K 9/20

Claims (15)

    (57)【特許請求の範囲】
  1. 【請求項1】データ処理システムにおいて文書書式の書
    式認識を実行する方法において、 第1のバー・コードと、第1の線配列と、第1のフィー
    ルド領域とを有する第1のマスタ書式イメージを前記デ
    ータ処理システムに入力し、前記第1のマスタ書式イメ
    ージに第1の書式IDで属性付けするステップと、 前記第1のマスタ書式イメージ中の前記第1のバー・コ
    ードを見つけて、前記バー・コードから第1のバー・コ
    ード値を得るステップと、 前記データ処理システムにおいて前記第1のバー・コー
    ド値および前記第1の書式IDによってバー・コード・
    インデックスを作成するステップと、 前記第1のバー・コード値を第1の書式定義データセッ
    トに書き込むステップと、 前記第1のマスタ書式イメージ中の前記第1の線配列を
    特徴付け、第1の線配列値を前記線配列から得るステッ
    プと、 前記データ処理システムにおいて前記第1の線配列値お
    よび前記第1の書式IDによって線配列値インデックス
    を作成するステップと、 前記第1の線配列値を前記第1の書式定義データセット
    に書き込むステップと、 前記第1のフィールド領域用の第1のフィールド定義を
    前記第1の書式定義データセットに書き込むステップ
    と、 第2の線配列と第2のフィールド領域とを有する第2の
    マスタ書式イメージを前記データ処理システムに入力
    し、前記書式イメージに第2の書式IDで属性付けする
    ステップと、 前記第2のマスタ書式イメージ中の前記第2の線配列を
    特徴付け、第2の線配列値を前記線配列から得るステッ
    プと、 さらに、前記データ処理システムにおいて前記第2の線
    配列値および前記第2の書式IDによって線配列値イン
    デックスを作成するステップと、 前記第2の線配列値を前記第2の書式定義データセット
    に書き込むステップと、 前記第2のフィールド領域用の第2のフィールド定義を
    前記第2の書式定義データセットに書き込むステップ
    と、 前記第1および第2マスタ書式の何れかに従った線配列
    およびフィールド領域に従って作成された文書のイメー
    ジを前記データ処理システムに入力するステップと、 前記作成された文書のイメージ中でバー・コードを探索
    するステップと、 前記探索でバー・コードが見つかった場合、前記データ
    処理システムにおいて前記バー・コード・インデックス
    にアクセスして前記文書に対応する書式IDを得るステ
    ップと、 前記探索でバー・コードが見つかった場合、前記書式I
    Dを使用して前記第1の書式定義データセットにアクセ
    スするステップと、 前記探索でバー・コードが見つかった場合、前記第1の
    書式定義データセットをフィールド処理手段に出力し、
    前記作成された文書イメージの前記フィールド領域内の
    データを処理するステップと、 前記探索でバー・コードが見つからなかった場合、前記
    作成された文書イメージ中の前記線配列を特徴付け、前
    記線配列から線配列値を得るステップと、 前記探索でバー・コードが見つからなかった場合、前記
    データ処理システムにおいて前記線配列値インデックス
    にアクセスして対応する書式IDを得るステップと、 前記探索でバー・コードが見つからなかった場合、前記
    書式IDを使用して前記第2の書式定義データセットに
    アクセスするステップと、 前記探索でバー・コードが見つからなかった場合、前記
    第2の書式定義データセットをフィールド処理手段に出
    力し、前記作成された文書の前記フィールド領域内のデ
    ータを処理するステップとを含むことを特徴とする方
    法。
  2. 【請求項2】バー・コード付きマスタ書式の存在に関す
    るマスタ書式存在テーブルを作成するステップと、 前記探索ステップの前に、バー・コード付きマスタ書式
    が前記システム中に存在することを前記マスタ書式存在
    テーブルから判定し、そのような判定に応じて、前記探
    索ステップをスキップするステップとを含むことを特徴
    とする請求項1に記載の方法。
  3. 【請求項3】最近処理されたバー・コード付き文書の発
    生に関する文書書式存在テーブルを作成するステップ
    と、前記探索ステップの前に、最近前記システムで処理
    されたバー・コード付き文書がないことを前記文書書式
    存在テーブルから判定し、そのような判定に応じて、前
    記探索ステップをスキップするステップとを含むことを
    特徴とする請求項1に記載の方法。
  4. 【請求項4】所定のしきい値よりも大きなスキュー/オ
    フセットを有する最近処理された文書の発生に関する文
    書スキュー/オフセット・テーブルを作成するステップ
    と、前記出力ステップの前に、前記所定のしきい値より
    も大きなスキュー/オフセットを有する前記システムで
    最近処理された文書があることを前記文書スキュー/オ
    フセット・テーブルから判定し、そのような判定に応じ
    て、前記文書イメージのスキュー・オフセット補正を実
    行するステップとを含むことを特徴とする請求項1に記
    載の方法。
  5. 【請求項5】所定のしきい値よりも大きなスキュー/オ
    フセットを有する最近処理された文書の発生に関する文
    書スキュー/オフセット・テーブルを作成するステップ
    と、前記出力ステップの前に、前記所定のしきい値より
    も大きなスキュー/オフセットを有する前記システムで
    最近処理された文書がないことを前記文書スキュー/オ
    フセット・テーブルから判定し、そのような判定に応じ
    て、前記文書イメージのスキュー・オフセット補正の実
    行をスキップするステップとを含むことを特徴とする請
    求項1に記載の方法。
  6. 【請求項6】データ処理システムにおいて文書書式の書
    式認識を実行する方法において、 第1のOCRコードと、第1の線配列と、第1のフィー
    ルド領域とを有する第1のマスタ書式イメージを前記デ
    ータ処理システムに入力し、前記第1のマスタ書式イメ
    ージに第1の書式IDで属性付けするステップと、 前記第1のマスタ書式イメージ中の前記第1のOCRコ
    ードを見つけて、前記バー・コードから第1のOCRコ
    ード値を得るステップと、 前記データ処理システムにおいて前記第1のOCRコー
    ド値および前記第1の書式IDによってOCRコード・
    インデックスを作成するステップと、 前記第1のOCRコード値を第1の書式定義データセッ
    トに書き込むステップと、 前記第1のマスタ書式イメージ中の前記第1の線配列を
    特徴付け、第1の線配列値を前記線配列から得るステッ
    プと、 前記データ処理システムにおいて前記第1の線配列値お
    よび前記第1の書式IDによって線配列値インデックス
    を作成するステップと、 前記第1の線配列値を第1の書式定義データセットに書
    き込むステップと、 前記第1のフィールド領域用の第1のフィールド定義を
    前記第1の書式定義データセットに書き込むステップ
    と、 第2の線配列と第2のフィールド領域とを有する第2の
    マスタ書式イメージを前記データ処理システムに入力
    し、前記文書書式イメージに第2の書式IDで属性付け
    するステップと、 前記第2のマスタ書式イメージ中の前記第2の線配列を
    特徴付け、第2の線配列値を前記線配列から得るステッ
    プと、 さらに、前記データ処理システムにおいて前記第2の線
    配列値および前記第2の書式IDによって前記線配列値
    インデックスを作成するステップと、 前記第2の線配列値を前記第2の書式定義データセット
    に書き込むステップと、 前記第2のフィールド領域用の第2のフィールド定義を
    前記第2の書式定義データセットに書き込むステップ
    と、前記第1および第2マスタ書式の何れかに従った線
    配列およびフィールド領域 に従って作成された文書のイメージを前記データ処理シ
    ステムに入力するステップと、 前記作成された文書のイメージ中でOCRコードを探索
    するステップと、 前記探索でOCRコードが見つかった場合、前記データ
    処理システムにおいて前記OCRコード・インデックス
    にアクセスして前記文書に対応する書式IDを得るステ
    ップと、 前記探索でOCRコードが見つかった場合、前記書式I
    Dを使用して前記第1の書式定義データセットにアクセ
    スするステップと、 前記探索でOCRコードが見つかった場合、前記第1の
    書式定義データセットをフィールド処理手段に出力し、
    前記作成された文書イメージの前記フィールド領域内の
    データを処理するステップと、 前記探索でOCRコードが見つからなかった場合、前記
    作成された文書イメージ中の前記線配列を特徴付け、前
    記線配列から線配列値を得るステップと、 前記探索でOCRコードが見つからなかった場合、前記
    データ処理システムにおいて前記線配列値インデックス
    にアクセスして対応する書式IDを得るステップと、 前記探索でOCRコードが見つからなかった場合、前記
    書式IDを使用して前記第2の書式定義データセットに
    アクセスするステップと、 前記探索でOCRコードが見つからなかった場合、前記
    第2の書式定義データセットをフィールド処理手段に出
    力し、前記作成された文書の前記フィールド領域内のデ
    ータを処理するステップとを含むことを特徴とする方
    法。
  7. 【請求項7】OCRコード付きマスタ書式の存在に関す
    るマスタ書式存在テーブルを作成するステップと、 前記探索ステップの前に、OCRコード付きマスタ書式
    が前記システム中に存在することを前記マスタ書式存在
    テーブルから判定し、そのような判定に応じて、前記探
    索ステップをスキップするステップとを含むことを特徴
    とする請求項6に記載の方法。
  8. 【請求項8】最近処理されたOCRコード付き文書の発
    生に関する文書書式存在テーブルを作成するステップ
    と、 前記探索ステップの前に、最近前記システムで処理され
    たOCRコード付き文書がないことを前記文書書式存在
    テーブルから判定し、そのような判定に応じて、前記探
    索ステップをスキップするステップとを含むことを特徴
    とする請求項6に記載の方法。
  9. 【請求項9】所定のしきい値よりも大きなスキュー/オ
    フセットを有する最近処理された文書の発生に関する文
    書スキュー/オフセット・テーブルを作成するステップ
    と、 前記出力ステップの前に、前記所定のしきい値よりも大
    きなスキュー/オフセットを有する前記システムで最近
    処理された文書があることを前記文書スキュー/オフセ
    ット・テーブルから判定し、そのような判定に応じて、
    前記文書イメージのスキュー・オフセット補正を実行す
    るステップとを含むことを特徴とする請求項6に記載の
    方法。
  10. 【請求項10】所定のしきい値よりも大きなスキュー/
    オフセットを有する最近処理された文書の発生に関する
    文書スキュー/オフセット・テーブルを作成するステッ
    プと、前記出力ステップの前に、前記所定のしきい値よ
    りも大きなスキュー/オフセットを有する前記システム
    で最近処理された文書がないことを前記文書スキュー/
    オフセット・テーブルから判定し、そのような判定に応
    じて、前記文書イメージのスキュー・オフセット補正の
    実行をスキップするステップとを含むことを特徴とする
    請求項6に記載の方法。
  11. 【請求項11】データ処理システムにおいて文書書式の
    書式認識を実行する装置において、 第1のバー・コードと、第1の線配列と、第1のフィー
    ルド領域とを有する第1のマスタ書式イメージを前記デ
    ータ処理システムに入力し、前記第1のマスタ書式イメ
    ージに第1の書式IDで属性付けする手段と、 前記第1のマスタ書式イメージ中の前記第1のバー・コ
    ードを見つけて、前記バー・コードから第1のバー・コ
    ード値を得る手段と、 前記データ処理システムにおいて前記第1のバー・コー
    ド値および前記第1の書式IDによってバー・コード・
    インデックスを作成する手段と、 前記第1のバー・コード値を第1の書式定義データセッ
    トに書き込む手段と、 前記第1のマスタ書式イメージ中の前記第1の線配列を
    特徴付け、第1の線配列値を前記線配列から得る手段
    と、 前記データ処理システムにおいて前記第1の線配列値お
    よび前記第1の書式IDによって線配列値インデックス
    を作成する手段と、 前記第1の線配列値を第1の書式定義データセットに書
    き込む手段と、 前記第1のフィールド領域用の第1のフィールド定義を
    前記第1の書式定義データセットに書き込む手段と、 第2の線配列と第2のフィールド領域とを有する第2の
    マスタ書式イメージを前記データ処理システムに入力
    し、前記書式イメージに第2の書式IDで属性付けする
    手段と、 前記第2のマスタ書式イメージ中の前記第2の線配列を
    特徴付け、第2の線配列値を前記線配列から得る手段
    と、 さらに、前記データ処理システムにおいて前記第2の線
    配列値および前記第2の書式IDによって前記線配列値
    インデックスを作成するための手段と、 前記第2の線配列値を前記第2の書式定義データセット
    に書き込む手段と、 前記第2のフィールド領域用の第2のフィールド定義を
    前記第2の書式定義データセットに書き込む手段と、 前記第1および第2マスタ書式の何れかに従った線配列
    およびフィールド領域に従って作成された文書のイメー
    ジを前記データ処理システムに入力する手段と、 前記作成された文書のイメージ中でバー・コードを探索
    する手段と、 前記探索でバー・コードが見つかった場合、前記データ
    処理システムにおいて前記バー・コード・インデックス
    にアクセスして前記文書に対応する書式IDを得る手段
    と、 前記探索でバー・コードが見つかった場合、前記書式I
    Dを使用して前記第1の書式定義データセットにアクセ
    スする手段と、 前記探索でバー・コードが見つかった場合、前記第1の
    書式定義データセットをフィールド処理手段に出力し、
    前記作成された文書イメージの前記フィールド領域内の
    データを処理する手段と、 前記探索でバー・コードが見つからなかった場合、前記
    作成された文書イメージ中の前記線配列を特徴付け、前
    記線配列から線配列値を得る手段と、 前記探索でバー・コードが見つからなかった場合、前記
    データ処理システムにおいて前記線配列値インデックス
    にアクセスして対応する書式IDを得る手段と、 前記探索でバー・コードが見つからなかった場合、前記
    書式IDを使用して前記第2の書式定義データセットに
    アクセスする手段と、 前記探索でバー・コードが見つからなかった場合、前記
    第2の書式定義データセットをフィールド処理手段に出
    力し、前記作成された文書の前記フィールド領域内のデ
    ータを処理する手段とを含むことを特徴とする装置。
  12. 【請求項12】バー・コード付きマスタ書式の存在に関
    するマスタ書式存在テーブルを作成する手段と、 バー・コード付きマスタ書式が前記システム中に存在す
    ることを前記マスタ書式存在テーブルから判定し、その
    ような判定に応じて、前記探索手段をスキップする手段
    とを含むことを特徴とする請求項11に記載の装置。
  13. 【請求項13】最近処理されたバー・コード付き文書の
    発生に関する文書書式存在テーブルを作成する手段と、 最近前記システムで処理されたバー・コード付き文書が
    ないことを前記文書書式存在テーブルから判定し、その
    ような判定に応じて、前記探索手段をスキップする手段
    とを含むことを特徴とする請求項11に記載の装置。
  14. 【請求項14】所定のしきい値よりも大きなスキュー/
    オフセットを有する最近処理された文書の発生に関する
    文書スキュー/オフセット・テーブルを作成する手段
    と、 前記所定のしきい値よりも大きなスキュー/オフセット
    を有する前記システムで最近処理された文書があること
    を前記文書スキュー/オフセット・テーブルから判定
    し、そのような判定に応じて、前記文書イメージのスキ
    ュー・オフセット補正を実行する手段とを含むことを特
    徴とする請求項11に記載の装置。
  15. 【請求項15】所定のしきい値よりも大きなスキュー/
    オフセットを有する最近処理された文書の発生に関する
    文書スキュー/オフセット・テーブルを作成する手段
    と、 前記所定のしきい値よりも大きなスキュー/オフセット
    を有する前記システムで最近処理された文書がないこと
    を前記文書スキュー/オフセット・テーブルから判定
    し、そのような判定に応じて、前記文書イメージのスキ
    ュー・オフセット補正の実行をスキップする手段とを含
    むことを特徴とする請求項11に記載の装置。
JP6248933A 1993-10-14 1994-10-14 文書書式認識実行方法および装置 Expired - Lifetime JP2882569B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US136643 1993-10-14
US08/136,643 US5428694A (en) 1993-10-14 1993-10-14 Data processing system and method for forms definition, recognition and verification of scanned images of document forms

Publications (2)

Publication Number Publication Date
JPH0830722A JPH0830722A (ja) 1996-02-02
JP2882569B2 true JP2882569B2 (ja) 1999-04-12

Family

ID=22473733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6248933A Expired - Lifetime JP2882569B2 (ja) 1993-10-14 1994-10-14 文書書式認識実行方法および装置

Country Status (2)

Country Link
US (1) US5428694A (ja)
JP (1) JP2882569B2 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5521991A (en) * 1993-10-29 1996-05-28 International Business Machines Corporation Method and system for fast forms recognition of document form images
US7387253B1 (en) * 1996-09-03 2008-06-17 Hand Held Products, Inc. Optical reader system comprising local host processor and optical reader
AU3555595A (en) * 1994-09-20 1996-04-09 William W. Nevin System and method for generating and printing printouts and for detecting and preventing alteration of bank instrument
US5729350A (en) * 1994-12-20 1998-03-17 Canon Kabushiki Kaisha Using information on an input sheet to change apparatus settings
EP0738987B1 (en) * 1995-04-21 2004-11-10 Xerox Corporation Processing machine readable forms
US5768158A (en) * 1995-12-08 1998-06-16 Inventure America Inc. Computer-based system and method for data processing
US6138130A (en) * 1995-12-08 2000-10-24 Inventure Technologies, Inc. System and method for processing data in an electronic spreadsheet in accordance with a data type
JP2973913B2 (ja) * 1996-02-19 1999-11-08 富士ゼロックス株式会社 入力シートシステム
US5936225A (en) * 1996-04-02 1999-08-10 Strategic Quantitative Solutions, Inc. Method and apparatus for tabulating data from a plurality of response forms
US5692073A (en) * 1996-05-03 1997-11-25 Xerox Corporation Formless forms and paper web using a reference-based mark extraction technique
US5805159A (en) * 1996-08-22 1998-09-08 International Business Machines Corporation Mobile client computer interdependent display data fields
US6012070A (en) * 1996-11-15 2000-01-04 Moore Business Forms, Inc. Digital design station procedure
US6594405B1 (en) 1998-12-28 2003-07-15 Gateway, Inc. Method and apparatus for preprinted forms completion
JP2000222523A (ja) * 1999-01-29 2000-08-11 Hitachi Ltd 光学文字読取装置
JP2000251012A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム
US6357658B1 (en) 1999-04-28 2002-03-19 Peripheral Dynamics, Inc. Apparatus and methods for scanning documents including OMR, bar-code, and image data
JP4073120B2 (ja) * 1999-06-03 2008-04-09 富士通株式会社 情報処理装置
AU6336100A (en) * 1999-06-22 2001-01-09 Peripheral Dynamics Inc. Apparatus and methods for image scanning of variable sized documents having variable orientations
US6640010B2 (en) * 1999-11-12 2003-10-28 Xerox Corporation Word-to-word selection on images
US6865284B2 (en) * 1999-12-20 2005-03-08 Hewlett-Packard Development Company, L.P. Method and system for processing an electronic version of a hardcopy of a document
FR2803056B1 (fr) * 1999-12-23 2002-03-29 Roland Tomasi Dispositif informatique et procede pour le remplissage d'imprimes d'ordinateur
US20020037097A1 (en) * 2000-05-15 2002-03-28 Hector Hoyos Coupon recognition system
US7864346B2 (en) * 2000-05-16 2011-01-04 Xerox Corporation Apparatus and method for describing, planning and automatically programming complex finishing tasks
US6640009B2 (en) * 2001-02-06 2003-10-28 International Business Machines Corporation Identification, separation and compression of multiple forms with mutants
US7426486B2 (en) * 2001-10-31 2008-09-16 Call-Tell Llc Multi-party reporting system and method
US7212301B2 (en) * 2001-10-31 2007-05-01 Call-Tell Llc System and method for centralized, automatic extraction of data from remotely transmitted forms
US6996268B2 (en) * 2001-12-28 2006-02-07 International Business Machines Corporation System and method for gathering, indexing, and supplying publicly available data charts
US20070016845A1 (en) * 2002-03-12 2007-01-18 Movaris, Inc Generation of serial routing rules for an electronic document using reverse cone of logic
US7103835B1 (en) * 2002-03-12 2006-09-05 Movaris, Inc. Process builder for a routable electronic document system and method for using the same
WO2004042620A1 (en) * 2002-11-04 2004-05-21 Deepq Technologies, A General Partnership Document processing based on a digital document image input with a confirmatory receipt output
US7870270B1 (en) * 2003-07-25 2011-01-11 Verizon Data Services Llc Methods and systems for providing capability management and user administration
US8645547B1 (en) 2003-07-25 2014-02-04 Verizon Data Services Llc Methods and systems for providing a messaging service
US7870504B1 (en) * 2003-10-01 2011-01-11 TestPlant Inc. Method for monitoring a graphical user interface on a second computer display from a first computer
CA2460888A1 (en) * 2004-03-12 2005-09-12 Harpe And Associates Ltd. Method for image alignment and identification
US8285856B1 (en) 2004-07-23 2012-10-09 Verizon Data Services Llc Methods and systems for integrating a messaging service with an application
US8347203B1 (en) 2004-07-23 2013-01-01 Verizon Data Services Llc Methods and systems for defining a form navigational structure
US7711191B2 (en) * 2006-12-21 2010-05-04 Michael John Kosek Electronic transaction processing server with automated transaction evaluation
US8290272B2 (en) * 2007-09-14 2012-10-16 Abbyy Software Ltd. Creating a document template for capturing data from a document image and capturing data from a document image
US9390321B2 (en) 2008-09-08 2016-07-12 Abbyy Development Llc Flexible structure descriptions for multi-page documents
US8547589B2 (en) 2008-09-08 2013-10-01 Abbyy Software Ltd. Data capture from multi-page documents
JP2012043047A (ja) * 2010-08-16 2012-03-01 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
CN105631393A (zh) 2014-11-06 2016-06-01 阿里巴巴集团控股有限公司 信息识别方法及装置
CN105279525B (zh) * 2015-11-19 2018-11-27 浪潮金融信息技术有限公司 一种图像处理的方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3113555A1 (de) * 1981-04-03 1982-10-21 Siemens AG, 1000 Berlin und 8000 München Verfahren zum automatischen erkennen von weissbloecken sowie text-, graphik- und/oder graubildbereichen auf druckvorlagen
JPS5887652A (ja) * 1981-11-19 1983-05-25 Ricoh Co Ltd 画像処理装置
US4741045A (en) * 1983-09-23 1988-04-26 Dest Corporation Optical character isolation system, apparatus and method
JPH07107694B2 (ja) * 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
JPH0750483B2 (ja) * 1985-05-22 1995-05-31 株式会社日立製作所 文書画像追加情報の蓄積方法
US4616854A (en) * 1985-07-16 1986-10-14 Landrum Van O Insurance form indicia system
US4813077A (en) * 1986-07-30 1989-03-14 Scan-Optics, Inc. Sales transaction record processing system and method
JPS63155386A (ja) * 1986-12-19 1988-06-28 Ricoh Co Ltd 帳票デ−タ読取装置
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US5140650A (en) * 1989-02-02 1992-08-18 International Business Machines Corporation Computer-implemented method for automatic extraction of data from printed forms
US5010580A (en) * 1989-08-25 1991-04-23 Hewlett-Packard Company Method and apparatus for extracting information from forms
US5038392A (en) * 1990-02-12 1991-08-06 International Business Machines Corporation Method and apparatus for adaptive image processing by recognizing a characterizing indicium in a captured image of a document
US4992650A (en) * 1990-03-29 1991-02-12 International Business Machines Corporation Method and apparatus for barcode recognition in a digital image
US5235654A (en) * 1992-04-30 1993-08-10 International Business Machines Corporation Advanced data capture architecture data processing system and method for scanned images of document forms

Also Published As

Publication number Publication date
JPH0830722A (ja) 1996-02-02
US5428694A (en) 1995-06-27

Similar Documents

Publication Publication Date Title
JP2882569B2 (ja) 文書書式認識実行方法および装置
US6678415B1 (en) Document image decoding using an integrated stochastic language model
US7047238B2 (en) Document retrieval method and document retrieval system
EP0752673B1 (en) Information processing method and apparatus for searching image or text information
US7240062B2 (en) System and method for creating a searchable word index of a scanned document including multiple interpretations of a word at a given document location
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
EP0657840A2 (en) Method of, and apparatus for, character recognition through related spelling heuristics
KR100627195B1 (ko) 광학문자인식으로 생성된 전자문서 검색방법 및 그 시스템
JPH0668298A (ja) 文書書式の文字認識及びデータ修復処理のためのデータ処理システム及び方法
JPH10116316A (ja) 文字認識方法及び装置
US5905811A (en) System for indexing document images
JP2008077454A (ja) タイトル抽出装置、画像読取装置、タイトル抽出方法、及びタイトル抽出プログラム
US8208685B2 (en) Word recognition method and word recognition program
JP2010061471A (ja) 文字認識装置およびプログラム
Rosenbaum et al. Multifont OCR postprocessing system
US6668085B1 (en) Character matching process for text converted from images
EP1202213A2 (en) Document format identification apparatus and method
JP3230641B2 (ja) 文字列検索装置
JP3179280B2 (ja) 表を含む帳票処理装置
JP2586372B2 (ja) 情報検索装置及び情報検索方法
US7623714B2 (en) Form recognition system, method, program, and storage medium
JP3353999B2 (ja) イメージデータ認識装置
JPH11143983A (ja) 文字認識装置、文字認識方法及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000132635A (ja) 認識データ確認方法
JP3270551B2 (ja) 文字認識装置および文字認識方法