JP2882569B2

JP2882569B2 - 文書書式認識実行方法および装置

Info

Publication number: JP2882569B2
Application number: JP6248933A
Authority: JP
Inventors: ティモシィ・エス・ベッツ; バレリー・エム・カラス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-10-14
Filing date: 1994-10-14
Publication date: 1999-04-12
Anticipated expiration: 2014-04-12
Also published as: JPH0830722A; US5428694A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】開示した本発明は全般的にデータ
処理システムに関し、詳細には、走査された文書イメー
ジの書式認識のための技術に関する。

【０００２】本特許出願は、ＩＢＭ社に譲渡され、引用
によって本明細書に合体された、「Data Processing Sy
stem and Method for Sequentially Repairing Charact
er Recognition Errors for Scanned Images of Docume
nt Forms」と題する１９９２年４月１５日に出願された
同時係属の米国特許出願第０７／８７０１２９号に関す
る。

【０００３】本特許出願は、ＩＢＭ社に譲渡され、引用
によって本明細書に合体された、「Data Processing Sy
stem and Method for Selecting Customized Character
Recognition Processes and Coded Data Repair Proce
sses for Scanned Images ofDocument Forms」と題する
１９９２年４月１７日に出願された同時係属の米国特許
出願第０７／８７０５０７号にも関する。

【０００４】本特許出願は、ＩＢＭ社に譲渡され、引用
によって本明細書に合体された、「A Computer Impleme
nted Method for Automatic Extraction of Data From
Printed Forms」と題する米国特許第５１４０６５０号
にも関する。

【０００５】本特許出願は、ＩＢＭ社に譲渡され、引用
によって本明細書に合体された、「Method and Apparat
us for Bar Code Recognition in a Digital Image」と
題する米国特許第４９９２６５０号にも関する。

【０００６】

【従来の技術】上記で引用した関連特許出願第０７／８
７０１２９号および第０７／８７０５０７号は、本明細
書で開示した発明が適用されるシステムの文脈を記載し
ている。関連特許出願第０７／８７０１２９号および第
０７／８７０５０７号によって開示されたシステムは、
文書書式を定義し、次いで文書書式の記入済みコピーを
読み取り、それがディジタル・イメージング・システム
に読み込まれる。定義される各文書書式は、手書きまた
はタイプ入力された情報が入力されるいくつかのフィー
ルドを含む。関連特許出願第０７／８７０１２９号およ
び第０７／８７０５０７号のシステムは、読み込まれた
書式のディジタル・イメージを検査して書式を識別し、
次いで、文字認識動作のためにそこからイメージを抽出
すべきそれぞれのフィールドを見つける。

【０００７】文書書式イメージの処理は、マスタ書式イ
メージを定義する段階と、マスタ書式に従って作成され
た文書イメージを認識する段階と、作成された文書から
フィールド・イメージを分離する段階と、フィールド・
イメージ中のテキスト文字を認識する段階とを含む。そ
のような処理は、上記に引用した関連特許出願第０７／
８７０１２９号および第０７／８７０５０７号に記載さ
れている。各マスタ書式は、他のマスタ書式と区別する
ために、割り当てられた固有の識別名または識別番号
（ＩＤ）を有する。各マスタ書式は、事前に印刷された
水平線および垂直線によって全体的に区切られたフィー
ルドのアレイを有する。前記水平線および垂直線内にデ
ータをマークし、それによって、文書を作成することが
できる。水平線および垂直線の形状が、書式の線配列で
ある。

【０００８】マスタ書式イメージの定義は、書式の名
前、事前に印刷された任意のバー・コードまたはＯＣＲ
コードの値、事前に印刷された線配列の特徴付け、フィ
ールドの位置、および通常は各フィールドごとに予期さ
れるテキストのタイプの特徴付けを含む、書式定義デー
タセットに記憶される。書式認識プロセスの目的は、未
知の識別の書式に従って作成された文書を取り、イメー
ジに含まれる手掛かりからその識別を推定することであ
る。識別が確認された後、正しい書式定義データセット
を選択して、作成された文書のフィールドに書き込まれ
たデータの位置決めおよび処理を可能にすることができ
る。

【０００９】書式認識時に線配列を使用して、処理中の
作成された文書に対応するマスタ書式を識別することが
できる。簡単な例には、マスタ書式上の水平線および垂
直線の数を使用して対応する書式に従って作成された文
書を認識することが挙げられる。しかし、一般に、事前
に印刷された形状が類似している書式を認識して区別す
るための突合せ動作では線配列のずっと複雑な特徴付け
を使用しなければならない。

【００１０】通常、マスタ書式は、書式認識時に、処理
中の作成された文書に対応するマスタ書式を識別するた
めに使用できる、事前に印刷されたバー・コードや事前
に印刷された光学文字認識（ＯＣＲ）コードなどの識別
マークも有する。バー・コード位置決め読取りプロセス
の一例は、上記で引用した米国特許第４９９２６５０号
に記載されている。バー・コード位置を見つけてそれを
読み取るプロセスまたはＯＣＲコードの位置を見つけて
それを読み取るプロセスは完了するのにある時間を要す
るが、それらのプロセスは一般に、線配列突合せ動作を
使用して、処理中の特定の作成された文書の書式認識を
実行するプロセスよりも高速である。

【００１１】書式認識プロセスの他の要件は、走査装置
によって受け取られた走査されたイメージの品質の評価
である。完成文書の走査されたイメージが位置ずれして
いる場合、作成された文書上のフィールドおよびテキス
トをより高速にかつより正確に見つけられるように、フ
ィールド分離段または文字認識段、あるいはその両方に
その情報を渡さなければならない。作成された文書のイ
メージがスキャナ中の文書の走行軸からわずかに回転し
ている場合、そのエラーをスキューと呼ぶ。イメージが
スキャナ中の文書の走行路の方向へ垂直に変位している
場合、これをオフセットと呼ぶ。スキャナはそれぞれ品
質が異なり、完成イメージのスキューおよびオフセット
の程度は使用中の特定のスキャナと、オペレータがスキ
ャナに文書を送り込む技術によって変わる。スキューお
よびオフセットは通常、作成された文書の識別が確認さ
れた後、書式認識プロセス時に測定される。書式定義デ
ータセット中で表されるマスタ書式の線配列が、作成さ
れた文書のイメージの線配列と比較され、スキュー補正
値およびオフセット補正値が生成されてプロセスの後の
段に渡される。作成された文書イメージのスキューおよ
びオフセットを測定するこのプロセスはある時間間隔を
占める。

【００１２】多数のタイプのマスタ書式文書を使用する
適用業務では、多数の書式定義データセットがシステム
中に記憶される。多数の適用業務では、多数の異なるタ
イプのマスタ書式に対応する作成された文書が同じ日に
受け取られて処理される。作成された文書が大量で、そ
のマスタ書式タイプが多様であると、書式認識プロセス
を実行するのに必要とされる時間を最小限に抑えること
が重要になる。

【００１３】

【発明が解決しようとする課題】本発明の一目的は、書
式認識プロセスを実行するのに必要とされる時間を最小
限に抑えることである。

【００１４】本発明の他の目的は、定義されたマスタ書
式文書のタイプに応じて適応的に処理シーケンスを変更
することによって、書式認識プロセスを実行するのに必
要とされる時間を最小限に抑えることである。

【００１５】本発明の他の目的は、最近処理されたタイ
プの作成された文書イメージに応じて適応的に処理シー
ケンスを変更することによって、書式認識プロセスを実
行するのに必要とされる時間を最小限に抑えることであ
る。

【００１６】本発明の他の目的は、最近処理された作成
された文書イメージの測定されたスキューおよびオフセ
ットの量に応じて適応的に処理シーケンスを変更するこ
とによって、書式認識プロセスを実行するのに必要とさ
れる時間を最小限に抑えることである。

【００１７】

【課題を解決するための手段】これらおよびその他の目
的、特徴、および利点は本発明によって達成される。処
理シーケンスを適応的に変更することによって、書式認
識プロセスを実行するのに必要とされる時間を最小限に
抑える、改良された書式認識方法およびシステムを開示
する。本発明によれば、システムにおいて新しいマスタ
書式が定義されたとき、新しい処理テンプレートも定義
される。この処理テンプレートは、システムに定義され
たすべてのマスタ書式のプロファイルを与える、テーブ
ルと索引とを含む。この処理テンプレートはその後、特
定の作成された文書の処理を終了するのに必要とされる
時間を最小限に抑えるために、どの書式認識動作を実行
すべきかを適応的に選択するために書式認識処理時に参
照される。

【００１８】たとえば、書式認識動作のデフォルト・シ
ーケンスは、まずバー・コード認識を試し、次いでＯＣ
Ｒコード認識を試し、次いで線配列認識を試し、次いで
スキュー・オフセット補正動作を実行するものでよい。
本発明によれば、バー・コード付き書式がシステムで定
義されていないかどうかを判定するために処理テンプレ
ートが参照され、定義されていない場合、バー・コード
動作が適応的にスキップされる。

【００１９】さらに本発明によれば、最近システムで処
理された完成バー・コード付き書式がないかどうかを判
定するたために、以前の書式処理セッションでコンパイ
ルされたテーブルが参照され、前記書式がない場合、バ
ー・コード動作が適応的にスキップされる。

【００２０】さらに本発明によれば、ＯＣＲコード付き
マスタ書式がシステムに定義されていないかどうかを判
定するために処理テンプレートが参照され、前記書式が
定義されていない場合、ＯＣＲコード動作が適応的にス
キップされる。

【００２１】さらに本発明によれば、最近システムで処
理されたＯＣＲコード付き書式で作成された文書がない
かどうかを判定するために、その日にコンパイルされた
テーブルが参照され、前記書式がない場合、ＯＣＲコー
ド動作が適応的にスキップされる。

【００２２】さらに本発明によれば、顕著なスキューま
たはオフセットを有する最近システムで処理された文書
がないかどうかを判定するために、その日にコンパイル
されたテーブルが参照され、前記書式がない場合、スキ
ュー補正動作またはオフセット補正動作、あるいはその
両方が適応的にスキップされる。

【００２３】このように、本発明は、作成された文書が
処理されている時にシステムで優勢な条件にプロセス・
シーケンスを適応させることによって、書式認識プロセ
スを実行するのに必要とされる時間を最小限に抑えるも
のである。

【００２４】

【実施例】図１ないし８は、本発明の書式の定義、認
識、および検証によって効率的に処理できる一連の８つ
のマスタ書式イメージの例を示す。図１は、マスタ書式
が全体的に１００と呼ばれる書式Ａを示し、書式Ａは線
配列１０１Ａと事前に印刷されたＯＣＲコード「１２３
−７００」１０２Ａとを有する。図２は、同じ線配列１
０１Ａおよび事前に印刷された異なるＯＣＲコード１０
２Ｂとを含む書式Ｂを示す。図３は、同じ線配列１０１
Ａと事前に印刷されたバー・コード１０２Ｃとを含む書
式Ｃを示す。図４は、異なる線配列１０１Ｄとバー・コ
ード１０２Ｄとを含む書式Ｄを示す。図５は、書式Ｄと
異なる線配列１０１Ｅを含むが、書式Ｄと同じバー・コ
ード１０２Ｄを含む書式Ｅを示す。図６は、異なる線配
列１０１Ｆとバー・コード１０２Ｆとを含む書式Ｆを示
す。図７は、異なる線配列１０１Ｇを含み、事前に印刷
されたバー・コードも事前に印刷されたＯＣＲコードも
含まない書式Ｇを示す。図８は、異なる線配列１０１Ｈ
を含み、事前に印刷されたバー・コードも事前に印刷さ
れたＯＣＲコードも含まない書式Ｈを示す。

【００２５】図１ないし８の８つの異なるマスタ書式イ
メージ上で書式認識を実行するには、いくつかの異なる
タイプの書式認識動作を使用する必要があることが分か
る。バー・コード位置決め読取りの最も効率的な書式認
識動作は書式Ａ、Ｂに対して作用せず、書式Ｄと書式Ｅ
を区別することができず、書式ＧおよびＨに対しては無
用である。ＯＣＲコード位置決め読取り動作は、書式Ａ
およびＢには有用であるが、書式ＣないしＨには無用で
ある。線配列認識動作は、書式Ａと書式Ｂと書式Ｃとを
区別するのには無用であるが、書式Ｄと書式Ｅと書式Ｆ
と書式Ｇと書式Ｈとを区別する上では有用である。本発
明によれば、書式認識動作のデフォルト・シーケンスが
指定される。たとえば、書式認識動作のデフォルト・シ
ーケンスでは、まずバー・コード認識が試され、次い
で、ＯＣＲコード認識が試され、次いで、線配列認識が
試される。本発明によれば、システムに対して新しいマ
スタ書式が定義されるたびにコンパイルされる処理テン
プレートが参照される。この処理テンプレートは、バー
・コード付きマスタ書式がシステム中にないかどうかを
判定するものであり、前記書式がない場合、バー・コー
ド動作が適当的にスキップされ、事前に印刷されたその
ようなコードを含んでいない作成された文書にバー・コ
ード位置決め読取り動作を適用するむだな努力に時間を
費やすことが不要になる。同様に、ＯＣＲコード・マス
タ書式がシステムに定義されていない場合、ＯＣＲコー
ド動作が適応的にスキップされる。この場合も、事前に
印刷されたＯＣＲコードがシステムに存在しない場合、
前記コードを見つけて読み取ろうとすることに時間を費
やすことは不要になる。さらに、最近システムで処理さ
れたバー・コード付き文書がないかどうかを判定するた
めに、作成された文書を処理する１日の間にコンパイル
されたテーブルが参照される。前記書式がない場合、次
に処理すべき作成された文書にバー・コード付き書式が
ある可能性はないという推定を導くことができる。シス
テムは、その推定に応じて、バー・コード動作をスキッ
プし、処理中の現文書に存在する可能性のないバー・コ
ードを見つけて読み取ろうとするのに前記動作が必要と
する時間を費やすことを不要にする。最近処理されたＯ
ＣＲコード付き文書がない場合にも同様の適応スキップ
動作を適用することができる。

【００２６】図９、１０、１１を参照すると、本発明に
よる方法が示されている。方法２００は、実行可能な命
令のシーケンスのプログラムとして実施される。ステッ
プ２０１は、新しい処理テンプレートおよび書式定義デ
ータセットを作成する方法を開始する。書式定義データ
・セット３００を示す図１２を参照することができる。
図１３に示したマスタ書式存在テーブル３２０と、図１
４に示したシステム矛盾テーブル３３０と、図１５に示
したバー・コード・インデックス３４０と、図１６に示
したＯＣＲコード・インデックス３５０と、図１７に示
した線配列インデックス３６０とから成る処理テンプレ
ート３９０を示す図１８を参照することができる。

【００２７】図９のステップ２０１は次いで、新しいマ
スタ書式をシステムに追加しているかどうかを判定する
ステップ２０２へ流れ、プロセスはステップ２０４に進
む。その代わりに、古いマスタ書式をシステムから削除
している場合、プロセスはステップ２６０に流れる。次
いで、プロセスは、図１ないし８に示した書式１００の
うちの１つであってよい新しいマスタ書式を走査するス
テップ２０４に進む。次いで、ステップ２０６は新しい
書式ＩＤ３０２を割り当てる。新しい書式ＩＤとは、そ
れを識別し、システム中のすべてのマスタ書式と区別す
るためにマスタ書式に割り当てられる固有の名前または
番号である。次いで、ステップ２０８はバー・コード特
徴付けセグメントを開始する。ステップ２１０は、マス
タ書式イメージ１００に対してバー・コード位置決めル
ーチンを実行し、バー・コード値を得る。上記で引用し
た米国特許第４９９２６５０号は、妥当なバー・コード
位置決め読取りルーチンを記述している。ステップ２１
１は、バー・コードがあるかどうかを判定し、次いで、
この方法はステップ２１８でＯＣＲコード・セグメント
に進む。しかし、ステップ２１２は、バー・コードが見
つかったかどうかを判定し、次いで、バー・コード付き
マスタが存在する場合には図１３中のマスタ書式存在テ
ーブル３２０を増分する。これによって、図１３の３２
２中の値ＢＣ−ＣＮＴが増分される。次いで、たとえば
図３中のバー・コード１０２Ｃから得たバー・コード値
をキーとして図１５のバー・コード・インデックス３４
０に置き、次いで、図１５のバー・コード・インデック
ス３４０で書式ＩＤをデータとして使用する。バー・コ
ード・インデックス３４０では、各バー・コード値と対
応するマスタ書式ＩＤ用の項目が３４２にある。次い
で、図１２中の３０４に示したように、書式定義データ
セット３００にバー・コード値を書き込む。図９のプロ
セスは次いで、ステップ２１４に流れる。

【００２８】ステップ２１４は、図１４中のシステム矛
盾テーブル３３０を検査して、他の書式ＩＤが同じバー
・コード値を有するかどうかを判定する。項目３３２
は、同じバー・コード値を有する他のあらゆる書式ＩＤ
をリストする。次いで、図９のステップ２１６は、同じ
バー・コード値を有する他の書式ＩＤがあると判定し、
次いでシステム矛盾テーブルを更新する。たとえば、特
定のバー・コード値が２つの名前付き書式ＩＤを有する
ことを示すための項目が図１４中の３３２に作成され
る。次いで、ステップ２１８はＯＣＲコード特徴付けセ
グメントを開始する。ステップ２１８は次いで、マスタ
書式イメージ上でＯＣＲコードを見つけてＯＣＲコード
値を得るステップ２２０に流れる。これは、イメージ中
の事前に印刷された英数字文字を見つけて、次いで、こ
のように見つかった文字イメージに対して文字認識動作
を実行するための、文字認識技術分野で周知の標準技法
である。次いで、ステップ２２０は、たとえば図１中の
ＯＣＲコード１０２Ａが存在しないことなど、マスタ書
式イメージにＯＣＲコードが存在しないかどうかを判定
するステップ２２１に流れ、次いで、方法は２３０の線
配列セグメントに進む。ステップ２２２で、図１中のコ
ード１０２Ａに関して示したように、ＯＣＲコードが見
つかった場合、図１３のマスタ書式存在テーブル３２０
はＯＣＲコード付きマスタの存在に対して増分される。
図１３の項目３４２の値ＯＣ−ＣＮＴが増分される。次
いで、キーとしてのＯＣＲコード値と、データとしての
書式ＩＤとを、図１６のＯＣＲコード・インデックス３
５０に置く。図１６のインデックス３５０は、システム
に定義されているすべてのＯＣＲコード付きマスタ書式
に関するＯＣＲコード値および対応する書式ＩＤを含む
項目３５２を有する。次いで、図１２の書式定義データ
セット３００中の項目３０６にＯＣＲコード値を書き込
む。

【００２９】図９の流れ図は次いで、他の書式ＩＤが同
じＯＣＲコード値を有していないかどうかに関してシス
テム矛盾テーブル３３０を検査する図１０のステップ２
２４に進む。システム矛盾テーブルの項目３３４は、同
じＯＣＲコード値を有する他のあらゆる書式ＩＤをリス
トする。次いで、ステップ２２６は、同じＯＣＲコード
値を有する他の書式ＩＤがあるかどうかを判定し、ある
場合は、次いで、ＯＣＲコード値とその値を有する書式
ＩＤの対応する名前とを示すようにシステム矛盾テーブ
ルの項目３３４を更新する。

【００３０】次いで、この方法は、線配列特徴付けセグ
メントを開始するステップ２３０に流れる。ステップ２
３２は、マスタ書式イメージ１００に対して線配列ルー
チンを実行して線配列値を得る。たとえば、図１は８本
の水平線および４本の垂直線を含む線配列１０１Ａを含
む書式Ａを有する。線配列１０１Ａの特徴付けを示す項
目３０８にある線配列値に関して図２７を参照すること
ができる。ステップ２３４は、キーとしての線配列値
と、データとしてのマスタ書式ＩＤとを、図１７の線配
列インデックス３６０に置く。図１７の例として線配列
インデックス３６０を示すことができ、線配列特徴付け
が水平線および垂直線の数である場合、線配列インデッ
クスは、第１のキーとしての水平線カウント３６２と第
２のキーとしての垂直線カウント３６４とを含み、二次
元テーブル内に含まれる値として書式ＩＤを含む二次元
インデックスであってよい。たとえば、図１中の書式Ａ
が８本の水平線と４本の垂直線とを有する場合、線配列
インデックス３６０は図３３において、図３３の二次元
インデックスの第１列第４行中の項目Ａによって示され
る。より複雑な線配列特徴付けの場合はより複雑な形状
突合せインデックスが可能である。

【００３１】ステップ２３４は、キーとしての線配列値
と、データとしての書式ＩＤとを、図１７の線配列イン
デックス３６０に置く。ステップ２３４は次いで、図１
２の項目３０８にある書式定義データセット３００に線
配列値を書き込む。図１の書式Ａに関する特徴付けの一
例を図２７の書式定義データセット３００Ａに示す。次
いで、この方法は、他の書式ＩＤが同じ線配列値を有す
るかどうかに関して図１４のシステム矛盾テーブル３３
０を検査するステップ２３６に流れる。図１４の項目３
３６は、同じ線配列値を有する他のあらゆる書式ＩＤを
含む。次いで、この方法は、同じ線配列値を有する他の
書式ＩＤがあるかどうかを判定するステップ２３８に流
れ、次いで、システム矛盾テーブルを更新する。

【００３２】書式認識処理の他の特徴は、作成された文
書イメージのスキューおよびオフセットの特徴付けであ
り、それによって、フィールド抽出段やフィールド文字
認識段など後の処理段にエラー情報を提供することがで
きる。図１０のステップ２４２は、スキュー・オフセッ
ト補正プロセスをイネーブルするのに十分な情報で書式
定義データ・セットを準備する。マスタ書式には、その
線配列の一部として水平位置合せ線および垂直位置合せ
線が含まれている。ステップ２４２は、水平位置合せ線
および垂直位置合せ線を見つけて、書式定義データセッ
ト３００の項目３１０にあるマスタ位置合わせ行として
これらの線の座標を書き込む。図２７中の書式定義デー
タセット３００Ａ中の項目３１０に図１中の書式Ａの場
合のこの例を示す。

【００３３】図１０の方法は次いで、フィールド定義セ
グメントを開始するステップ２４４に流れる。この方法
は、フィールド定義ルーチンを実行するステップ２４６
に流れる。このルーチンは通常、ユーザとの対話型プロ
セスであり、それによって、ユーザは、マウス・ポイン
ティング装置、たとえばキーボードを使用して、指定の
フィールドの座標を記憶できるようにマスタ書式のイメ
ージ上の特定のフィールドを指定し、作成された文書中
のその特定のフィールドに埋め込まれる予期されるフォ
ントまたは文字タイプなどの追加情報を入力することが
できる。ステップ２４８は、図１２に示したように、フ
ィールド定義および書式定義データセットを項目３１２
に書き込む。

【００３４】次いで、本発明によれば、図１０の方法は
次いで、図１１中のステップ２５０に流れる。ステップ
２５０は、図１８に示した新しい処理テンプレート３９
０をアセンブルする。新しい処理テンプレート３９０
は、マスタ書式存在テーブル３２０と、システム矛盾テ
ーブル３３０、バー・コード・インデックス３４０と、
ＯＣＲコード・インデックス３５０と、線配列インデッ
クス３６０とを含む。新しい処理テンプレート３９０
は、書式定義データセット３００によって表される最も
新しく定義された書式を含め、現在システムに定義され
ているすべてのマスタのプロファイルを特徴付ける。次
いで、ステップ２５２は、図２６のブロック図に示した
ように、新しい処理テンプレート３９０および書式定義
データセット３００を書式認識プロセッサ８５０に出力
する。図１１の方法は次いで、ステップ２５２でメイン
・プログラムに戻る。

【００３５】図９で、ユーザが新しいマスタ書式を追加
するのでなく、古いマスタ書式を削除したい場合、この
方法は図１１中のステップ２６０に流れる。ステップ２
６０のマスタ書式セグメントの削除で、プログラムは、
削除すべき古いマスタ書式の古いＩＤを入力するステッ
プ２６２に流れる。次いで、ステップ２６４は、マスタ
書式存在テーブル３２０、システム矛盾テーブル３３
０、バー・コード・インデックス３４０、ＯＣＲコード
・インデックス３５０、および線配列インデックス３６
０中の古いマスタ書式の古いＩＤへのすべての参照を削
除する。次いで、プログラムは、更新された書式存在テ
ーブル３２０と、システム矛盾テーブル３３０と、バー
・コード・インデックス３４０と、ＯＣＲコード・イン
デックス３５０と、線配列インデックス３６０とを含む
新しい処理テンプレート３９０をアセンブルするステッ
プ２２６に流れる。次いで、ステップ２６８は新しい処
理テンプレート３９０を書式認識プロセッサ８５０に出
力する。プログラムは次いで、ステップ２７０でメイン
・プログラムに戻る。したがって、システムに定義され
ているすべてのマスタ書式のプロファイルが変更される
たびに、新しい処理テンプレート３９０が方法２００に
おいて作成され、書式認識プロセッサ８５０に分配され
る。

【００３６】図１のマスタ書式Ａを特徴付ける書式定義
データセット３００Ａを示す図２７を参照することがで
きる。同様に、図２８は、図２中に示した書式Ｂを特徴
付ける書式定義データセット３００Ｂを示す。図２９、
３０、３１、３２、３３は、第１の２つの書式Ａおよび
Ｂを定義した後の状態のマスタ書式存在テーブル３２
０、システム矛盾テーブル３３０、バー・コード・イン
デックス３４０、ＯＣＲコード化インデックス３５０、
および線配列インデックス３６０を示す。

【００３７】図３４および３５はそれぞれ、書式定義デ
ータセット３００Ｃおよび３００Ｄを示す。書式定義デ
ータセット３００Ｃおよび３００Ｄはそれぞれ、図３お
よび４の書式ＣおよびＤをそれぞれ特徴付ける。図３
６、３７、３８、３９、４０は、書式Ａ、Ｂ、Ｃ、Ｄの
４つのマスタ書式がシステムに定義された後のマスタ書
式存在テーブル３２０、システム矛盾テーブル３３０、
バー・コード・インデックス３４０、ＯＣＲコード化イ
ンデックス３５０、および線配列インデックス３６０を
示す。

【００３８】図４１および４２はそれぞれ、書式定義デ
ータセット３００Ｅおよび３００Ｆを示す。書式定義デ
ータセット３００Ｅおよび３００Ｆはそれぞれ、図５お
よび６の書式ＥおよびＦをそれぞれ特徴付ける。図４
３、４４、４５、４６、４７は、６つのマスタ書式イメ
ージＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆを定義した後の状態のマス
タ書式存在テーブル３２０、システム矛盾テーブル３３
０、バー・コード・インデックス３４０、ＯＣＲコード
化インデックス３５０、および線配列インデックス３６
０を示す。

【００３９】図４８および４９はそれぞれ、書式定義デ
ータセット３００Ｇおよび３００Ｈを示す。書式定義デ
ータセット３００Ｇおよび３００Ｈはそれぞれ、図７お
よび８のマスタ書式イメージＧおよびＨをそれぞれ特徴
付ける。図５０、５１、５２、５３、５４はそれぞれ、
８つのマスタ書式イメージＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、
Ｇ、Ｈをシステムに定義した後の状態のマスタ書式存在
テーブル３２０、システム矛盾テーブル３３０、バー・
コード・インデックス３４０、ＯＣＲコード化インデッ
クス３５０、および線配列インデックス３６０を示す。

【００４０】したがって、図９ないし１１に示した方法
２００の動作によって、一連の８つの書式定義データセ
ットと、システムに定義されたそれら８つのマスタ書式
のプロファイルを特徴付けるテーブルおよびインデック
スの最終状態を要約する１つの最終処理テンプレート３
９０とを生成する８つの異なるマスタ書式イメージをシ
ステムに定義できることが分かる。８つの書式定義デー
タセット３００および最新の処理テンプレート３９０は
書式定義プロセッサ８５０に送信される。

【００４１】図９ないし１１の方法２００を実行する書
式定義プロセッサ８００を示す図２６を参照することが
できる。書式定義プロセッサ８００は、ＣＰＵ８１０、
スキャナ８１２、ディスク・ドライブ８１４、ローカル
・エリア・ネットワーク・アダプタ８１６、キーボード
およびディスプレイ１８、ならびにマウス・ポインティ
ング装置８２０にバス８１５によって接続されたメモリ
８０２を含む。メモリ８０２は、書式定義セット作成プ
ログラム２００と、マスタ書式イメージ区画６００と、
バー・コード位置決め読取りルーチン６０２と、テーブ
ル・インデックス区画６０４と、書式定義データセット
区画６０６と、ＯＣＲコード位置決め読取りルーチン６
０８と、線配列値生成ルーチン６１０と、位置合せ線生
成ルーチン６１２と、フィールド定義ルーチン６１４
と、文書イメージ処理プログラム６１６と、オペレーテ
ィング・システム・プログラム６１８とを含む。メモリ
８０２に記憶されたすべてのプログラムは実行可能な命
令のシーケンスであり、ＣＰＵ８１０中で実行される
と、所期の動作を実行する。ＬＡＮアダプタ８１６はＬ
ＡＮ８４５に接続され、ＬＡＮ８４５はさらに、書式認
識プロセッサ８５０のＬＡＮアダプタ８７６に接続され
ている。ローカル・エリア・ネットワーク８４５にはフ
ィールド抽出プロセッサ９００および文字認識プロセッ
サ９５０も接続されている。

【００４２】マスタ書式イメージ１００がシステムに定
義された後、システムによって受信された作成された文
書イメージに書式認識動作を適用することができる。図
２１ないし２５の方法４００は、認識処理シーケンス・
プログラムを実行する。ステップ４０１は書式認識処理
シーケンス・プログラムを開始し、最新の処理テンプレ
ート３９０を書式認識プロセッサ８５０にロードするス
テップ４０２に流れる。次いで、ステップ４０４は作成
された文書を走査し、「再試行」の値を２に等しく設定
する。次いで、ステップ４０６はバー・コード位置決め
セグメントを開始する。ステップ４０８は、バー・コー
ド付きマスタが存在するかどうかに関して、処理テンプ
レート３９０中のマスタ書式存在テーブル３２０を検査
する。ステップ４１０は、バー・コード付きマスタがシ
ステム中にないかどうかを判定し、次いで、システムは
４４６でＯＣＲコード位置決めセグメントに進む。これ
は、図２９に記載したように、システムに書式Ａおよび
Ｂしか定義されていない場合に当てはまる。ステップ４
１０は、バー・コード付きマスタが見つからない場合、
４４６でＯＣＲコード位置決めセグメントに進む。次い
で、ステップ４１２は、バー・コード付き書式で作成さ
れた文書が存在するかどうかに関して、図１９の最近処
理された文書書式存在テーブル３７０を検査する。最近
処理された文書書式存在テーブル３７０は、最近処理さ
れたバー・コード付き書式で作成された文書を反映する
ように更新される。この項目は、図１９の３７２に作成
される。テーブル３７０は、ＯＣＲコード付き書式で作
成された文書が存在する場合にも項目３７４を更新す
る。これらは、たとえば同じ処理日中の文書として処理
された書式である。最近処理されたバー・コード付き文
書がない場合、次に処理すべき文書がバー・コード付き
文書である確率は低いという推定が導かれる。図２１の
ステップ４１４は、最近処理されたバー・コード付き文
書がないかどうかを判定し、次いで４４６で、ＯＣＲコ
ード位置決めセグメントに進む。次いで、ステップ４１
６は、文書に対してバー・コード位置決めルーチンを実
行する。ステップ４１８は、バーコードがないかどう
か、あるいはバー・コード読取りエラーがあるかどうか
を判定し、次いで、最近処理されたバー・コード付き文
書の数を減分することによって図１９の最近処理された
文書書式存在テーブル３７０を更新する。たとえば、バ
ー・コード付き文書が処理されるたびに、項目３７２は
１だけ増分される。また、バー・コードを含まない文書
が処理されるたびに、項目３７２は減分される。このよ
うに、事前に印刷されたバー・コードを含まない一連の
文書が処理される場合、３７２の項目ＲＢ−ＣＮＴは最
終的にゼロになる。ステップ４１８は、バー・コードが
見つからない場合はＯＣＲコード位置決めセグメント４
４６に進む。代替統計コンパイル技法を使用することも
できる。

【００４３】ステップ４２０で、バー・コードが見つか
った場合、バー・コード値を得る。次いで、ステップ４
２２は、バー・コード値を使用して図１５のバー・コー
ド・インデックス３４０にアクセスして、書式ＩＤを得
る。書式ＩＤが見つからない場合は、ＯＣＲコード位置
決めセグメント４４６に進む。ステップ４２２は、同じ
バー・コード値を有する書式ＩＤがあるかどうかに関し
てシステム矛盾テーブル３３０を検査する。ステップ２
４６は、同じバー・コード値を有する他の書式ＩＤがあ
るかどうかを判定し、次いで、ＯＣＲコード位置決めセ
グメント４４６に進む。ステップ４２８は、同じバー・
コード値を有する他の書式ＩＤがないかどうかを判定
し、次いで、書式ＩＤを使用して、それに対応する書式
定義データセット３００にアクセスする。次いで、ステ
ップ４１０は、項目３７２にある最近処理されたバー・
コード付き文書の数を増分するように、図１９の最近処
理された文書書式存在テーブル３７０を更新する。次い
で、ステップ４３２は、４９２で適応的スキュー・オフ
セット補正セグメントに進む。図２２は、上述のバー・
コード位置決めセグメントに関して説明したものに類似
の動作を実行する、ステップ４４６、４４８、４５０、
４５２、４５４、４５６、４５８、４６０、４６２、４
６４、４６６、４６８、４７０、４７２を経て至るＯＣ
Ｒコード位置決めセグメントを示す。ただし、これは完
成ＯＣＲコード付き書式に関するものである。本発明に
よれば、文書が処理されている時点でシステムで支配的
な条件にプロセス・シーケンスを適応させることによっ
て、書式処理プロセスを実行するのに必要とされる時間
を最小限にできることが分かる。

【００４４】この方法は次いで、図２３のステップ４７
６に流れて、線配列セグメントを開始する。ステップ４
７７は線配列ルーチンを実行し、ステップ４７８は、線
配列がないかどうかを判定し、次いで５１０でエラー報
告セグメントに進む。ステップ４８０は、線配列が見つ
かったかどうかを判定し、次いで、線配列値を得る。ス
テップ４８２は、線配列値を使用して線配列インデック
スにアクセスして書式ＩＤを得る。線配列インデックス
３６０は、上述のように、処理中の特定の文書に関する
水平線カウントおよび垂直線カウントに対応する書式Ｉ
Ｄを含む。対応する書式ＩＤは次いで、線配列インデッ
クス３６０によって返される。次いで、ステップ４８４
は、同じ線配列値を有する他の書式があるかどうかに関
して、図１４中のシステム矛盾テーブルの項目３３６を
検査する。ステップ４８６は、同じ線配列値を有する他
の書式ＩＤがあるかどうかを判定し、次いで、５１０で
エラー報告セグメントに進む。ステップ４８８は、同じ
線配列値を有する他の書式ＩＤがないかどうかを判定
し、書式ＩＤを使用して、文書に対応する書式定義デー
タセットにアクセスする。次いで、ステップ４９０は４
９２で、適応的スキュー・オフセット補正セグメントに
進む。

【００４５】方法４００の図２４は、ステップ４９２で
適応的スキュー・オフセット補正セグメントを開始す
る。ステップ４９４は、所定のしきい値よりも大きいス
キュー値またはオフセット値を有する最近完成された書
式の数に関して、図２０の最近処理された文書スキュー
・オフセット・テーブル３８０を検査する。完成文書の
走査されたイメージが位置ずれしている場合、そのイメ
ージはスキュー・エラーまたはオフセット・エラーを有
する。これは、文書を走査するために使用される特定の
走査装置の関数、またはハード・コピー文書を走査装置
に送るオペレータの技術の関数の数倍である。ステップ
４９６は、所定のしきい値よりも大きなスキューまたは
オフセットを有する最近処理された文書がないかどうか
を判定する。この情報は、ある処理日中に処理された各
書式ごとにコンパイルされ、図２０のテーブル８８０の
３８２に入力される。任意選択で、しきい値を３８４に
含めることもでき、スキュー／オフセット状態と呼ばれ
る状態を図２０の３８６に提供することもできる。ステ
ップ４９６で、しきい値よりも大きなスキューまたはオ
フセットを有する最近処理された文書がない場合、スキ
ュー／オフセット状態をゼロに等しく設定し、スキュー
値ゼロおよびオフセット値ゼロを図２０のフィールド抽
出プロセッサ９００に出力する。このように、スキュー
・エラーまたはオフセット・エラーを有する最近処理さ
れた文書がない場合、現在処理中の文書に対して、スキ
ュー・エラーおよびオフセット・エラーを測定する冗長
なプロセスをスキップすることができる。ステップ４９
６は次いで、スキュー・オフセット状態がゼロに設定さ
れ、項目３８６が更新された場合、図２０の最近処理さ
れた文書スキュー・オフセット・テーブル３８０の項目
３８２を更新する。

【００４６】ステップ４９８も、所定のしきい値よりも
大きなスキュー・エラーまたはオフセット・エラーを有
する最近処理された文書があるかどうかを判定し、ある
場合は、図２０の３８６でスキュー／オフセット状態が
１に等しく設定される。ステップ４９９で、ＬＡＮ８４
５を介してフィールド抽出プロセッサ９００から、ある
いはＬＡＮ８４５を介して文字認識プロセッサ９５０か
ら受信されたスキュー／オフセット・エラー信号が、そ
れら後の処理段で識別されたスキュー・エラーまたはオ
フセット・エラーがあったことを示す場合、図２０の３
８６でスキュー／オフセット状態を１に等しく設定す
る。

【００４７】次いで、ステップ５００は、図１２の書式
定義データセット３００の３１０からマスタ位置合せ線
情報を得る。次いで、ステップ５０２は、マスタ位置合
せ線を使用して走査された書式に対してスキュー・オフ
セット補正を実行し、スキュー・オフセット値を得る。
ステップ５０４は、スキュー・オフセット値が所定のし
きい値よりも大きいかどうかを判定し、大きい場合、し
きい値よりも大きなスキュー・エラーおよびオフセット
・エラーを有する最近完成された書式の数に関する、図
２０の最近処理された文書スキュー・オフセット・テー
ブルの３８２を増分する。したがって、現在処理中の文
書がスキュー・エラーまたはオフセット・エラーを有す
る場合、図２０中の３８２にある変数ＳＫ−ＣＮＴは１
だけ増分される。ステップ５０６で、スキュー値または
オフセット値が所定のしきい値よりも小さい場合、しき
い値よりも大きなスキューまたはオフセットを有する最
近完成された書式の数に関する、図２０中の最近処理さ
れた文書スキュー・オフセット・テーブル３８０の３８
２を減分する。したがって、現在処理中の文書は、しき
い値よりも大きなスキュー値およびオフセット値をもた
ず、その場合、ＳＫ−ＣＮＴ値が１だけ減分される。最
終的に、一連の連続する文書がしきい値よりも大きなス
キュー値やオフセット値をもたない場合、図２０のＳＫ
−ＣＮＴの値はゼロになる。その時点で、前の一連の書
式にスキュー・エラーやオフセット・エラーがなかった
ため、続いて処理される文書にはそのようなエラーがな
いという推定が導かれる。これに応答して、処理中の書
式に対して、スキュー・エラーおよびオフセット・エラ
ーを計算する冗長なプロセスがスキップされる。後で、
プロセッサ９００でのフィールド抽出およびプロセッサ
９５０での文字認識の後続段で、実際にスキュー・エラ
ーまたはオフセット・エラーがあると判定された場合、
この情報は書式認識プロセッサ８５０にフィードバック
され、ステップ４９９で再び、スキュー／オフセット段
が１に等しく再設定される。スキュー状態またはオフセ
ット状態３８６が１に等しく設定された場合、３８２の
ＳＫ−ＣＮＴ値を増分して、次に処理されるいくつかの
書式に強制的にスキュー・オフセット補正手順を実行さ
せることができる。代替統計コンパイル技法を使用する
こともできる。

【００４８】図２４の適応的スキュー・オフセット補正
手順でスキュー・オフセット・エラー値が計算された
後、ステップ５０８はフィールド抽出段９００および文
字認識段９５０にスキュー値およびオフセット値を出力
する。次いで、ステップ５０９はメイン・プログラムに
戻る。

【００４９】図２５は、ステップ５１０から始まり、線
配列障害が発生しており、かつ「再試行」の値が２に等
しいかどうかを判定するステップ５１２に流れ、次い
で、「再試行」を１に等しく設定し、ステップ４１６で
バー・コード位置決めセグメントに進む。これによっ
て、バー・コード位置決め読取り手順が再び試されて、
書式に対して有効なバー・コードが識別できるかどうか
が判定される。手順は次いで、線配列障害が発生してお
り、かつ「再試行」が１に等しいかどうかを判定するス
テップ５１４に流れ、次いで「再試行」を０に等しく設
定し、ステップ４５６でＯＣＲコード位置決めセグメン
トに進む。これによって、ＯＣＲコード・プロセスが再
び試されて、書式上の事前に印刷されたＯＣＲコードを
首尾よく識別できるかどうかが判定される。次いで、プ
ロセスは、線配列障害が発生しおり、かつ値「再試行」
が０に等しいかどうかを判定するステップ５１６に流
れ、次いで、エラーが報告される。プログラムは次い
で、メイン・プログラムに戻るステップ５１８に流れ
る。

【００５０】図２１ないし２５の書式認識処理シーケン
ス管理方法４００は、実行されたときに方法４００を実
行する一連のプログラム命令として実施される。図２６
中の書式認識プロセッサはプログラム４００を記憶す
る。

【００５１】図２６の書式認識プロセッサ８５０は、Ｌ
ＡＮアダプタ８７６、ディスク・ドライブ８７４、スキ
ャナ８７２、ＣＰＵ８７０、キーボードおよびディスプ
レイ８７８、ならびにマウス・ポインティング装置８８
０にバス８７５によって接続されたメモリ８５２を含
む。ＬＡＮアダプタ８７６は、本発明によって、ＬＡＮ
８４５に接続され、書式定義プロセッサ８００、処理テ
ンプレート３９０、および書式定義データセット３００
から受信する。メモリ８５２は、書式認識処理シーケン
ス・プログラム４００と、文書のイメージ区画６５０
と、処理テンプレート・テーブル６５２と、バー・コー
ド位置決め読取りルーチン６５４と、書式ＩＤ６５６
と、書式定義データセット区画６５８と、ＯＣＲコード
位置決め読取りルーチン６６０と、線配列値生成ルーチ
ン６５２と、スキュー・オフセット補正ルーチン６６４
と、エラー報告ルーチン６６６と、文書イメージ処理プ
ログラム６６８と、オペレーティング・システム６７０
とを含む。メモリ８５２に記憶された他のすべてのプロ
グラムは、ＣＰＵ８７０によって実行されたときに所期
の動作を実行する実行可能な命令のシーケンスである。

【００５２】第１の瞬間での、最近処理された文書書式
存在テーブル３７０の状態および最近処理された文書ス
キュー・オフセット・テーブル３８０の状態の第１の例
を示す図５５および５６を参照することができる。項目
３７２は、ＲＢ−ＣＮＴが３０に等しいことを示す。こ
れは、最近処理された３０個の完成バー・コード付き書
式があることを意味する。項目３７４は可変ＲＯ−ＣＮ
Ｔが２０に等しいことを示す。これは、最近処理された
２０個のＯＣＲ文書があることを示す。図５５のテーブ
ル３７０のこの状態では、図２１の方法４００によって
特定の文書を処理しているところであり、ステップ４１
４が、最近処理されたバー・コード書式があると判定し
たとき、プログラムはステップ４１６に流れて、現在処
理中の書式に対してバー・コード位置決めルーチンを実
行する。しかし、図５７中の例は、最近処理されたバー
・コード付き書式がないことを意味する０に等しい値Ｒ
Ｂ−ＣＮＴを有する項目３７２を示す。図５７の例の場
合、図２１のステップ４１４によって、方法はステップ
４１６をスキップし、バー・コード位置決めルーチンの
冗長な計算を不要にする。その代わり、プログラムは４
４６のＯＣＲコード位置決めセグメントに進む。最近処
理された２０個のＯＣＲ文書があることを示す図５５の
項目３７４に関しても同様のことが言える。３７４が、
最近処理されたＯＣＲ文書がないことを示す、図５７中
の第２の例とこれを比較する。この場合、方法４００
は、特定の書式を実行するときに、例に応じて異なるよ
うにステップ４５４を実行する。図５５の例では、最近
処理されたＯＣＲ文書があるので、ステップ４５４がス
テップ４５６に流れ、ＯＣＲ位置決めルーチンが実行さ
れる。図５７の第２の例では、最近のＯＣＲ文書がない
ので、ステップ４５４が４７６での線配列セグメントに
流れ、それによって、ＯＣＲコードの位置決めおよび読
取りを実行する冗長な手順をスキップする。

【００５３】図５８および６０に示した、最近処理され
た文書のスキュー・オフセット・テーブル３８０の例を
参照することができる。図５８に示した第２の例では、
項目３８２はＳＫ−ＣＮＴ値が１０に等しいことを示
す。これは、しきい値に関してスキュー・エラーまたは
オフセット・エラーが発生した最近処理された１０個の
書式があることを意味する。図６０中の第３の例では、
項目３８２はＳＫ−ＣＮＴが０に等しいことを示す。こ
れは、しきい値よりも大きなスキュー値またはオフセッ
ト値を有する最近処理された書式がないことを意味す
る。したがって、図２４の方法４００が特定の書式を処
理しているとき、ステップ４９６は２つの異なる方法で
実行される。図５８の第２の例の場合、スキュー・エラ
ーまたはオフセット・エラーを有する最近処理された書
式があるので、ステップ４９６はステップ４９８、４９
９、５００に流れ、５０２でスキュー・オフセット補正
を実行する。図６０の第３の例でも、顕著なスキュー・
エラーまたはオフセット・エラーを有する最近の書式が
ないので、ステップ４９６はスキュー・エラーおよびオ
フセット・エラーの冗長な計算をスキップする。

【００５４】したがって、本発明は、文書が処理されて
いる時点でシステムで支配的な条件にプロセス・シーケ
ンスを適応させることによって、書式認識プロセスを実
行するのに必要とされる時間を最小限に抑える。

【００５５】本発明は、基準整合マークの存在および位
置、処理中の書式上での他の特徴付けマークの存在な
ど、他の書式認識特徴に拡張することができる。

【００５６】本発明の特定の実施例を開示したが、本発
明の趣旨および範囲から逸脱せずに特定の実施例に変更
を加えられることが当業者には理解されよう。

【００５７】たとえば、図２６に示したシステムは、ロ
ーカル・エリア・ネットワークによって相互接続された
いくつかの別々のプロセッサではなく単一のマルチタス
ク・プロセッサで実施することができる。

【００５８】

【発明の効果】本発明によれば、書式認識プロセスを実
行するのに必要とされる時間を最小限に抑えることがで
きる。

【００５９】また、定義されたマスタ書式文書のタイプ
に応じて適応的に処理シーケンスを変更することによっ
て、書式認識プロセスを実行するのに必要とされる時間
を最小限に抑えることができる。

【００６０】また、最近処理されたタイプの書式イメー
ジに応じて適応的に処理シーケンスを変更することによ
って、書式認識プロセスを実行するのに必要とされる時
間を最小限に抑えることができる。

【００６１】さらには、最近処理された書式イメージの
測定されたスキューおよびオフセットの量に応じて適応
的に処理シーケンスを変更することによって、書式認識
プロセスを実行するのに必要とされる時間を最小限に抑
えることができる。

【図面の簡単な説明】

【図１】マスタ書式イメージの一例を示す図である。

【図２】マスタ書式イメージの一例を示す図である。

【図３】マスタ書式イメージの一例を示す図である。

【図４】マスタ書式イメージの一例を示す図である。

【図５】マスタ書式イメージの一例を示す図である。

【図６】マスタ書式イメージの一例を示す図である。

【図７】マスタ書式イメージの一例を示す図である。

【図８】マスタ書式イメージの一例を示す図である。

【図９】新しい処理テンプレートおよび書式定義データ
セットを作成する方法の流れ図である。

【図１０】新しい処理テンプレートおよび書式定義デー
タセットを作成する方法の流れ図である。

【図１１】新しい処理テンプレートおよび書式定義デー
タセットを作成する方法の流れ図である。

【図１２】本発明によって作成されるテーブルを示す図
である。

【図１３】本発明によって作成されるテーブルを示す図
である。

【図１４】本発明によって作成されるテーブルを示す図
である。

【図１５】本発明によって作成されるテーブルを示す図
である。

【図１６】本発明によって作成されるテーブルを示す図
である。

【図１７】本発明によって作成されるテーブルを示す図
である。

【図１８】本発明によって作成されるテーブルを示す図
である。

【図１９】本発明によって作成されるテーブルを示す図
である。

【図２０】本発明によって作成されるテーブルを示す図
である。

【図２１】書式認識処理シーケンス管理プログラム用の
方法の流れ図である。

【図２２】書式認識処理シーケンス管理プログラム用の
方法の流れ図である。

【図２３】書式認識処理シーケンス管理プログラム用の
方法の流れ図である。

【図２４】書式認識処理シーケンス管理プログラム用の
方法の流れ図である。

【図２５】書式認識処理シーケンス管理プログラム用の
方法の流れ図である。

【図２６】書式定義プロセッサおよび書式認識プロセッ
サの機能ブロック図である。

【図２７】本発明による、書式Ａおよび書式Ｂ用のテー
ブルの構成を示す図である。

【図２８】本発明による、書式Ａおよび書式Ｂ用のテー
ブルの構成を示す図である。

【図２９】本発明による、書式Ａおよび書式Ｂ用のテー
ブルの構成を示す図である。

【図３０】本発明による、書式Ａおよび書式Ｂ用のテー
ブルの構成を示す図である。

【図３１】本発明による、書式Ａおよび書式Ｂ用のテー
ブルの構成を示す図である。

【図３２】本発明による、書式Ａおよび書式Ｂ用のテー
ブルの構成を示す図である。

【図３３】本発明による、書式Ａおよび書式Ｂ用のテー
ブルの構成を示す図である。

【図３４】本発明による、書式Ｃおよび書式Ｄ用のテー
ブルの構成を示す図である。

【図３５】本発明による、書式Ｃおよび書式Ｄ用のテー
ブルの構成を示す図である。

【図３６】本発明による、書式Ｃおよび書式Ｄ用のテー
ブルの構成を示す図である。

【図３７】本発明による、書式Ｃおよび書式Ｄ用のテー
ブルの構成を示す図である。

【図３８】本発明による、書式Ｃおよび書式Ｄ用のテー
ブルの構成を示す図である。

【図３９】本発明による、書式Ｃおよび書式Ｄ用のテー
ブルの構成を示す図である。

【図４０】本発明による、書式Ｃおよび書式Ｄ用のテー
ブルの構成を示す図である。

【図４１】本発明による、書式Ｅおよび書式Ｆ用のテー
ブルの構成を示す図である。

【図４２】本発明による、書式Ｅおよび書式Ｆ用のテー
ブルの構成を示す図である。

【図４３】本発明による、書式Ｅおよび書式Ｆ用のテー
ブルの構成を示す図である。

【図４４】本発明による、書式Ｅおよび書式Ｆ用のテー
ブルの構成を示す図である。

【図４５】本発明による、書式Ｅおよび書式Ｆ用のテー
ブルの構成を示す図である。

【図４６】本発明による、書式Ｅおよび書式Ｆ用のテー
ブルの構成を示す図である。

【図４７】本発明による、書式Ｅおよび書式Ｆ用のテー
ブルの構成を示す図である。

【図４８】本発明による、書式Ｇおよび書式Ｈ用のテー
ブルの構成を示す図である。

【図４９】本発明による、書式Ｇおよび書式Ｈ用のテー
ブルの構成を示す図である。

【図５０】本発明による、書式Ｇおよび書式Ｈ用のテー
ブルの構成を示す図である。

【図５１】本発明による、書式Ｇおよび書式Ｈ用のテー
ブルの構成を示す図である。

【図５２】本発明による、書式Ｇおよび書式Ｈ用のテー
ブルの構成を示す図である。

【図５３】本発明による、書式Ｇおよび書式Ｈ用のテー
ブルの構成を示す図である。

【図５４】本発明による、書式Ｇおよび書式Ｈ用のテー
ブルの構成を示す図である。

【図５５】第１の例のテーブル３７０および３８０を示
す図である。

【図５６】第１の例のテーブル３７０および３８０を示
す図である。

【図５７】第２の例のテーブル３７０および３８０を示
す図である。

【図５８】第２の例のテーブル３７０および３８０を示
す図である。

【図５９】第３の例のテーブル３７０および３８０を示
す図である。

【図６０】第３の例のテーブル３７０および３８０を示
す図である。

【符号の説明】

１００マスタ書式１０１線配列１０２Ｂ事前に印刷されたＯＣＲコード１０２Ｃ事前に印刷されたバー・コード２００方法３００形式定義データセット３４０バー・コード・インデックス３５０ＯＣＲコード・インデックス３６０線配列インデックス３９０処理テンプレート

───────────────────────────────────────────────────── フロントページの続き (72)発明者バレリー・エム・カラスアメリカ合衆国20895 メリーランド州ユニバーシティ・ブールバードナンバー310 3333 (56)参考文献特開平３−87972（ＪＰ，Ａ) 特開平３−77182（ＪＰ，Ａ) 特開平３−225487（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06K 9/20

Claims

(57)【特許請求の範囲】

【請求項１】データ処理システムにおいて文書書式の書
式認識を実行する方法において、第１のバー・コードと、第１の線配列と、第１のフィー
ルド領域とを有する第１のマスタ書式イメージを前記デ
ータ処理システムに入力し、前記第１のマスタ書式イメ
ージに第１の書式ＩＤで属性付けするステップと、前記第１のマスタ書式イメージ中の前記第１のバー・コ
ードを見つけて、前記バー・コードから第１のバー・コ
ード値を得るステップと、前記データ処理システムにおいて前記第１のバー・コー
ド値および前記第１の書式ＩＤによってバー・コード・
インデックスを作成するステップと、前記第１のバー・コード値を第１の書式定義データセッ
トに書き込むステップと、前記第１のマスタ書式イメージ中の前記第１の線配列を
特徴付け、第１の線配列値を前記線配列から得るステッ
プと、前記データ処理システムにおいて前記第１の線配列値お
よび前記第１の書式ＩＤによって線配列値インデックス
を作成するステップと、前記第１の線配列値を前記第１の書式定義データセット
に書き込むステップと、前記第１のフィールド領域用の第１のフィールド定義を
前記第１の書式定義データセットに書き込むステップ
と、第２の線配列と第２のフィールド領域とを有する第２の
マスタ書式イメージを前記データ処理システムに入力
し、前記書式イメージに第２の書式ＩＤで属性付けする
ステップと、前記第２のマスタ書式イメージ中の前記第２の線配列を
特徴付け、第２の線配列値を前記線配列から得るステッ
プと、さらに、前記データ処理システムにおいて前記第２の線
配列値および前記第２の書式ＩＤによって線配列値イン
デックスを作成するステップと、前記第２の線配列値を前記第２の書式定義データセット
に書き込むステップと、前記第２のフィールド領域用の第２のフィールド定義を
前記第２の書式定義データセットに書き込むステップ
と、前記第１および第２マスタ書式の何れかに従った線配列
およびフィールド領域に従って作成された文書のイメー
ジを前記データ処理システムに入力するステップと、前記作成された文書のイメージ中でバー・コードを探索
するステップと、前記探索でバー・コードが見つかった場合、前記データ
処理システムにおいて前記バー・コード・インデックス
にアクセスして前記文書に対応する書式ＩＤを得るステ
ップと、前記探索でバー・コードが見つかった場合、前記書式Ｉ
Ｄを使用して前記第１の書式定義データセットにアクセ
スするステップと、前記探索でバー・コードが見つかった場合、前記第１の
書式定義データセットをフィールド処理手段に出力し、
前記作成された文書イメージの前記フィールド領域内の
データを処理するステップと、前記探索でバー・コードが見つからなかった場合、前記
作成された文書イメージ中の前記線配列を特徴付け、前
記線配列から線配列値を得るステップと、前記探索でバー・コードが見つからなかった場合、前記
データ処理システムにおいて前記線配列値インデックス
にアクセスして対応する書式ＩＤを得るステップと、前記探索でバー・コードが見つからなかった場合、前記
書式ＩＤを使用して前記第２の書式定義データセットに
アクセスするステップと、前記探索でバー・コードが見つからなかった場合、前記
第２の書式定義データセットをフィールド処理手段に出
力し、前記作成された文書の前記フィールド領域内のデ
ータを処理するステップとを含むことを特徴とする方
法。
【請求項２】バー・コード付きマスタ書式の存在に関す
るマスタ書式存在テーブルを作成するステップと、前記探索ステップの前に、バー・コード付きマスタ書式
が前記システム中に存在することを前記マスタ書式存在
テーブルから判定し、そのような判定に応じて、前記探
索ステップをスキップするステップとを含むことを特徴
とする請求項１に記載の方法。
【請求項３】最近処理されたバー・コード付き文書の発
生に関する文書書式存在テーブルを作成するステップ
と、前記探索ステップの前に、最近前記システムで処理
されたバー・コード付き文書がないことを前記文書書式
存在テーブルから判定し、そのような判定に応じて、前
記探索ステップをスキップするステップとを含むことを
特徴とする請求項１に記載の方法。
【請求項４】所定のしきい値よりも大きなスキュー／オ
フセットを有する最近処理された文書の発生に関する文
書スキュー／オフセット・テーブルを作成するステップ
と、前記出力ステップの前に、前記所定のしきい値より
も大きなスキュー／オフセットを有する前記システムで
最近処理された文書があることを前記文書スキュー／オ
フセット・テーブルから判定し、そのような判定に応じ
て、前記文書イメージのスキュー・オフセット補正を実
行するステップとを含むことを特徴とする請求項１に記
載の方法。
【請求項５】所定のしきい値よりも大きなスキュー／オ
フセットを有する最近処理された文書の発生に関する文
書スキュー／オフセット・テーブルを作成するステップ
と、前記出力ステップの前に、前記所定のしきい値より
も大きなスキュー／オフセットを有する前記システムで
最近処理された文書がないことを前記文書スキュー／オ
フセット・テーブルから判定し、そのような判定に応じ
て、前記文書イメージのスキュー・オフセット補正の実
行をスキップするステップとを含むことを特徴とする請
求項１に記載の方法。
【請求項６】データ処理システムにおいて文書書式の書
式認識を実行する方法において、第１のＯＣＲコードと、第１の線配列と、第１のフィー
ルド領域とを有する第１のマスタ書式イメージを前記デ
ータ処理システムに入力し、前記第１のマスタ書式イメ
ージに第１の書式ＩＤで属性付けするステップと、前記第１のマスタ書式イメージ中の前記第１のＯＣＲコ
ードを見つけて、前記バー・コードから第１のＯＣＲコ
ード値を得るステップと、前記データ処理システムにおいて前記第１のＯＣＲコー
ド値および前記第１の書式ＩＤによってＯＣＲコード・
インデックスを作成するステップと、前記第１のＯＣＲコード値を第１の書式定義データセッ
トに書き込むステップと、前記第１のマスタ書式イメージ中の前記第１の線配列を
特徴付け、第１の線配列値を前記線配列から得るステッ
プと、前記データ処理システムにおいて前記第１の線配列値お
よび前記第１の書式ＩＤによって線配列値インデックス
を作成するステップと、前記第１の線配列値を第１の書式定義データセットに書
き込むステップと、前記第１のフィールド領域用の第１のフィールド定義を
前記第１の書式定義データセットに書き込むステップ
と、第２の線配列と第２のフィールド領域とを有する第２の
マスタ書式イメージを前記データ処理システムに入力
し、前記文書書式イメージに第２の書式ＩＤで属性付け
するステップと、前記第２のマスタ書式イメージ中の前記第２の線配列を
特徴付け、第２の線配列値を前記線配列から得るステッ
プと、さらに、前記データ処理システムにおいて前記第２の線
配列値および前記第２の書式ＩＤによって前記線配列値
インデックスを作成するステップと、前記第２の線配列値を前記第２の書式定義データセット
に書き込むステップと、前記第２のフィールド領域用の第２のフィールド定義を
前記第２の書式定義データセットに書き込むステップ
と、前記第１および第２マスタ書式の何れかに従った線
配列およびフィールド領域に従って作成された文書のイメージを前記データ処理シ
ステムに入力するステップと、前記作成された文書のイメージ中でＯＣＲコードを探索
するステップと、前記探索でＯＣＲコードが見つかった場合、前記データ
処理システムにおいて前記ＯＣＲコード・インデックス
にアクセスして前記文書に対応する書式ＩＤを得るステ
ップと、前記探索でＯＣＲコードが見つかった場合、前記書式Ｉ
Ｄを使用して前記第１の書式定義データセットにアクセ
スするステップと、前記探索でＯＣＲコードが見つかった場合、前記第１の
書式定義データセットをフィールド処理手段に出力し、
前記作成された文書イメージの前記フィールド領域内の
データを処理するステップと、前記探索でＯＣＲコードが見つからなかった場合、前記
作成された文書イメージ中の前記線配列を特徴付け、前
記線配列から線配列値を得るステップと、前記探索でＯＣＲコードが見つからなかった場合、前記
データ処理システムにおいて前記線配列値インデックス
にアクセスして対応する書式ＩＤを得るステップと、前記探索でＯＣＲコードが見つからなかった場合、前記
書式ＩＤを使用して前記第２の書式定義データセットに
アクセスするステップと、前記探索でＯＣＲコードが見つからなかった場合、前記
第２の書式定義データセットをフィールド処理手段に出
力し、前記作成された文書の前記フィールド領域内のデ
ータを処理するステップとを含むことを特徴とする方
法。
【請求項７】ＯＣＲコード付きマスタ書式の存在に関す
るマスタ書式存在テーブルを作成するステップと、前記探索ステップの前に、ＯＣＲコード付きマスタ書式
が前記システム中に存在することを前記マスタ書式存在
テーブルから判定し、そのような判定に応じて、前記探
索ステップをスキップするステップとを含むことを特徴
とする請求項６に記載の方法。
【請求項８】最近処理されたＯＣＲコード付き文書の発
生に関する文書書式存在テーブルを作成するステップ
と、前記探索ステップの前に、最近前記システムで処理され
たＯＣＲコード付き文書がないことを前記文書書式存在
テーブルから判定し、そのような判定に応じて、前記探
索ステップをスキップするステップとを含むことを特徴
とする請求項６に記載の方法。
【請求項９】所定のしきい値よりも大きなスキュー／オ
フセットを有する最近処理された文書の発生に関する文
書スキュー／オフセット・テーブルを作成するステップ
と、前記出力ステップの前に、前記所定のしきい値よりも大
きなスキュー／オフセットを有する前記システムで最近
処理された文書があることを前記文書スキュー／オフセ
ット・テーブルから判定し、そのような判定に応じて、
前記文書イメージのスキュー・オフセット補正を実行す
るステップとを含むことを特徴とする請求項６に記載の
方法。
【請求項１０】所定のしきい値よりも大きなスキュー／
オフセットを有する最近処理された文書の発生に関する
文書スキュー／オフセット・テーブルを作成するステッ
プと、前記出力ステップの前に、前記所定のしきい値よ
りも大きなスキュー／オフセットを有する前記システム
で最近処理された文書がないことを前記文書スキュー／
オフセット・テーブルから判定し、そのような判定に応
じて、前記文書イメージのスキュー・オフセット補正の
実行をスキップするステップとを含むことを特徴とする
請求項６に記載の方法。
【請求項１１】データ処理システムにおいて文書書式の
書式認識を実行する装置において、第１のバー・コードと、第１の線配列と、第１のフィー
ルド領域とを有する第１のマスタ書式イメージを前記デ
ータ処理システムに入力し、前記第１のマスタ書式イメ
ージに第１の書式ＩＤで属性付けする手段と、前記第１のマスタ書式イメージ中の前記第１のバー・コ
ードを見つけて、前記バー・コードから第１のバー・コ
ード値を得る手段と、前記データ処理システムにおいて前記第１のバー・コー
ド値および前記第１の書式ＩＤによってバー・コード・
インデックスを作成する手段と、前記第１のバー・コード値を第１の書式定義データセッ
トに書き込む手段と、前記第１のマスタ書式イメージ中の前記第１の線配列を
特徴付け、第１の線配列値を前記線配列から得る手段
と、前記データ処理システムにおいて前記第１の線配列値お
よび前記第１の書式ＩＤによって線配列値インデックス
を作成する手段と、前記第１の線配列値を第１の書式定義データセットに書
き込む手段と、前記第１のフィールド領域用の第１のフィールド定義を
前記第１の書式定義データセットに書き込む手段と、第２の線配列と第２のフィールド領域とを有する第２の
マスタ書式イメージを前記データ処理システムに入力
し、前記書式イメージに第２の書式ＩＤで属性付けする
手段と、前記第２のマスタ書式イメージ中の前記第２の線配列を
特徴付け、第２の線配列値を前記線配列から得る手段
と、さらに、前記データ処理システムにおいて前記第２の線
配列値および前記第２の書式ＩＤによって前記線配列値
インデックスを作成するための手段と、前記第２の線配列値を前記第２の書式定義データセット
に書き込む手段と、前記第２のフィールド領域用の第２のフィールド定義を
前記第２の書式定義データセットに書き込む手段と、前記第１および第２マスタ書式の何れかに従った線配列
およびフィールド領域に従って作成された文書のイメー
ジを前記データ処理システムに入力する手段と、前記作成された文書のイメージ中でバー・コードを探索
する手段と、前記探索でバー・コードが見つかった場合、前記データ
処理システムにおいて前記バー・コード・インデックス
にアクセスして前記文書に対応する書式ＩＤを得る手段
と、前記探索でバー・コードが見つかった場合、前記書式Ｉ
Ｄを使用して前記第１の書式定義データセットにアクセ
スする手段と、前記探索でバー・コードが見つかった場合、前記第１の
書式定義データセットをフィールド処理手段に出力し、
前記作成された文書イメージの前記フィールド領域内の
データを処理する手段と、前記探索でバー・コードが見つからなかった場合、前記
作成された文書イメージ中の前記線配列を特徴付け、前
記線配列から線配列値を得る手段と、前記探索でバー・コードが見つからなかった場合、前記
データ処理システムにおいて前記線配列値インデックス
にアクセスして対応する書式ＩＤを得る手段と、前記探索でバー・コードが見つからなかった場合、前記
書式ＩＤを使用して前記第２の書式定義データセットに
アクセスする手段と、前記探索でバー・コードが見つからなかった場合、前記
第２の書式定義データセットをフィールド処理手段に出
力し、前記作成された文書の前記フィールド領域内のデ
ータを処理する手段とを含むことを特徴とする装置。
【請求項１２】バー・コード付きマスタ書式の存在に関
するマスタ書式存在テーブルを作成する手段と、バー・コード付きマスタ書式が前記システム中に存在す
ることを前記マスタ書式存在テーブルから判定し、その
ような判定に応じて、前記探索手段をスキップする手段
とを含むことを特徴とする請求項１１に記載の装置。
【請求項１３】最近処理されたバー・コード付き文書の
発生に関する文書書式存在テーブルを作成する手段と、最近前記システムで処理されたバー・コード付き文書が
ないことを前記文書書式存在テーブルから判定し、その
ような判定に応じて、前記探索手段をスキップする手段
とを含むことを特徴とする請求項１１に記載の装置。
【請求項１４】所定のしきい値よりも大きなスキュー／
オフセットを有する最近処理された文書の発生に関する
文書スキュー／オフセット・テーブルを作成する手段
と、前記所定のしきい値よりも大きなスキュー／オフセット
を有する前記システムで最近処理された文書があること
を前記文書スキュー／オフセット・テーブルから判定
し、そのような判定に応じて、前記文書イメージのスキ
ュー・オフセット補正を実行する手段とを含むことを特
徴とする請求項１１に記載の装置。
【請求項１５】所定のしきい値よりも大きなスキュー／
オフセットを有する最近処理された文書の発生に関する
文書スキュー／オフセット・テーブルを作成する手段
と、前記所定のしきい値よりも大きなスキュー／オフセット
を有する前記システムで最近処理された文書がないこと
を前記文書スキュー／オフセット・テーブルから判定
し、そのような判定に応じて、前記文書イメージのスキ
ュー・オフセット補正の実行をスキップする手段とを含
むことを特徴とする請求項１１に記載の装置。