JP2957375B2

JP2957375B2 - 文書書式のデジタル・イメージの文字認識誤りを修復するデータ処理システム及び方法

Info

Publication number: JP2957375B2
Application number: JP5055288A
Authority: JP
Inventors: ジェラルド・ビー・アンダーソン; ティモシー・エス・ベッツ; バレリー・エム・キャラス; ルイス・ビー・ネフト; トーマス・エル・ポールソン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-04-15
Filing date: 1993-03-16
Publication date: 1999-10-04
Anticipated expiration: 2014-10-04
Also published as: EP0565911A2; EP0565911A3; JPH06111056A; US5251273A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はデータ処理システム及び
方法に関し、特に走査文書イメージから導出された文字
認識情報の修復技術に関する。

【０００２】

【従来の技術】これまでに表示、通信、及び保管の目的
でハード・コピー文書イメージを獲得するデータ処理シ
ステム及び方法が工夫されてきた。文書イメージの獲得
処理は、イメージ走査装置でハード・コピー文書を走査
することから開始される。イメージ走査装置は黒白、或
いはグレイ・レベルまたはカラー・オブジェクトの形状
をビット・マップ配列により表される対応画素に変換す
る。ビット・マップ配列はラン・レングス・コード化な
どの技術を通じ、冗長を除去するために選択的に圧縮さ
れる。圧縮イメージ・ファイルは次にデータ通信リンク
を解して効率的に転送され、従来のデータ記憶装置に記
憶される。しかしながら、イメージのビット・マップの
情報内容は演算処理及びワード処理アプリケーションが
扱うことのできるコード化データ形式に相当しない。従
って、文書イメージ内の文字の形状の変換が文字認識ス
テップにより実行されなければならない。

【０００３】文字認識はパターン認識処理を利用してビ
ット・マップ化イメージ内の文字を表すイメージの形状
を、ＡＳＣＩＩ英数字コードなどの文字コードに変換す
る。文字認識は文書イメージの記憶または転送に必要な
アドレスを生成するために使用される文字ストリングを
出力する。この処理は自動指標化と称される。文字認識
はまた、システムに走査入力されるハード・コピー文書
から導出される文字ストリングをプログラム・アプリケ
ーションに提供する。

【０００４】文書イメージの保管システムの例が米国特
許出願第５０５８１８５号で説明されている。

【０００５】自動指標化、或いはアプリケーション・プ
ログラムにとって有用な情報を含む文書イメージの重要
部分を捜し出す処理は、ハード・コピー書式の使用によ
り容易となる。ハード・コピー書式は自動指標化及びア
プリケーション・プログラムの両者にとって、重要な意
味を持つ情報の類別を表す単語或いは文節の仕様に対応
する予め定義されたロケーションを提供する。例えば、
ハード・コピー書式は予め指定されたロケーションに書
式の識別を有し、これによりシステムはマスタ書式定義
を迅速にアクセス可能となり、文書イメージ内の他の重
要な文字イメージのロケーションを識別することが可能
となる。他のフィールドについても文字認識において文
字イメージを含む他の重要な類別を捜し出すために、マ
スタ書式定義において予め指定することが可能である。
マスタ書式定義はまた、書式上の特定のフィールドに表
されるものと予想される文字のコード・ページの仕様を
含む。

【０００６】文書書式イメージ上の情報フィールドの文
字認識において発生する問題は、書式上における無関係
なマーク及び配置ミスされたイメージの出現である。書
式文書上における無関係なマーク及びイメージの位置決
めミス或いは配置ミスの問題を克服する技術が、R．G．
Casey及びD．R．Ferguson による審査中の米国特許出願
第０７／３０５８２８号（１９８９年２月２日出願）で
述べられている。

【０００７】R．G．Casey及びD．R．Ferguson により説
明されるように、ブランクのマスタ書式がシステムに走
査入力され、そのデジタル・イメージが記憶される。認
識される各タイプの書式は最初にシステムに定義されね
ばならない。マスタ書式定義はマスタ書式イメージの指
紋を含み、これは書式が正しいことを確認し、全入力書
式が完全に走査されたかを確認するために使用される。
また、マスタ書式定義の一部として、書式或いは他の数
値と関連するか、或いは書式を識別する情報が含まれて
いることを識別するバーコードを含むことも可能であ
る。更にマスタ書式定義における書式の全ての定義フィ
ールドの座標が提供される。

【０００８】システムに走査入力されたハード・コピー
文書書式のイメージは調査され、その特徴がマスタ書式
定義と比較される。走査イメージのラインの配置がマス
タ書式のライン配置の定義と比較される。これはマスタ
書式定義内の各内部ノードに対応して指定される水平或
いは垂直線が、入力文書書式の走査イメージ上に存在す
るかをテストする。またバーコードがマスタ書式定義デ
ータ・セットにおいて定義された各書式と関連される。
バーコードが書式を識別するために使用される場合、走
査は文書イメージの一方サイドから他サイドに移行し、
バーコード情報が識別される。バーコードが見い出され
るとこれは書式の識別を判断するために使用される。書
式の識別が決定されると、その特定の書式タイプに対応
するマスタ書式定義がアクセスされ、書式イメージ内の
全てのフィールドのロケーションが決定される。また書
式の識別がユーザによりキーボードまたは他の入力装置
から入力され、目的の書式定義のアクセスを実施するこ
とも可能である。R．G．Casey及びD．R．Fergusonによ
る"Intelligent Forms Processing、"IBM SystemsJourn
al、Vol．29、No．3、1990、pp．435-450 において、書
式認識の更に詳細が説明されている。

【０００９】書式の書式タイプが認識され対応するマス
タ書式定義がアクセスされた後に、文字認識が適用され
る各フィールドの座標が使用可能となる。各それぞれの
フィールドの座標が文字認識において使用可能となる
と、各文字ストリングのクリーンなイメージが全体的文
書イメージから取出されねばならない。典型的には文書
フィールドは外生的マーク或いは位置決め誤り或いは配
置誤りされた文字ストリングを有し、これらの欠陥は排
除或いは低減される必要がある。これはフィールド抽出
ステップにより実行される。書式が識別され検査される
と書式フィールドからデータが抽出されねばならない。
これはイメージのスキュー及びオフセットを識別するこ
とより開始される。書式上のフィールドのマスタ座標は
入力書式イメージのスキュー及びオフセットを補正する
ように調整されねばならない。次にフィールド調整が実
行されねばならない。各フィールドの境界をチェック
し、データが境界を越えてはみ出していないかの判断が
必要である。データがフィールド境界にオーバーラップ
する場合、取出されるイメージ領域はフィールド境界の
外まで拡張されねばならない。次に外生的ラインの除去
が実行されねばならない。外生的ラインが識別されると
これらのラインはフィールド内の文字イメージを害する
こと無く、フィールド・イメージから除去されねばなら
ない。フィールド抽出の過程はR．G．Casey及びD．R．F
erguson による上述の審査中の米国特許出願及び彼らに
よる上述の技術論文において詳述されている。

【００１０】フィールド・イメージが全体的文書イメー
ジから抽出された後に、文字認識が実行され、抽出フィ
ールド・イメージ内の形状をＡＳＣＩＩなどの英数字表
現に変換しなければならない。マスタ書式定義はコード
・ページ上の情報を含み、これは書式上の各それぞれの
フィールドに存在することが予想される文字を特徴づけ
る。ラテン語などにおける単一バイトの文字セット（Ｓ
ＢＣＳ）に対応して、コード・ページが指定される。漢
字、マンダリン、或いは他の東洋文字などのダブル・バ
イト文字セット（ＤＢＣＳ）に対応して、適切なコード
・ページがマスタ書式定義データ・セットに指定され
る。

【００１１】文字認識処理は２レベル・イメージを取
り、パターン認識オペレーションを実行し、認識文字を
表すＡＳＣＩＩコード・データを返却する。未認識文字
はフラグ化され、文字ストリング内におけるそれらのロ
ケーションが識別される。懐疑文字は任意の文字として
マークされ、適切に認識される文字に対応して設定され
る確率よりも小さな確率レベルにより認識される。文字
認識処理に関するその他の情報については、R．G．Case
y及びD．R．Ferguson による前述の審査中の米国特許出
願及び彼らによる上述の技術論文において説明されてい
る。

【００１２】走査文書イメージにおける書式識別を表す
バー・コード・イメージの認識は、米国特許出願第４９
９２６５０号を参照することにより、より理解される。

【００１３】

【発明が解決しようとする課題】走査文書イメージにお
ける文字ストリングの正確な文字認識に関する従来の問
題は、誤り認識された文字ストリングの修復の必要性に
関する。典型的には誤り認識される文字ストリングの修
復技術は、特定の文字ストリングに対応して予想される
情報タイプ、及びその情報に対応して予想されるコード
・ページ表現に依存する。例えば、数値情報が特定のフ
ィールド内に配置されると予想される場合、文字認識オ
ペレーションはアラビア文字の認識に限られ、ラテン文
字形状の認識は不要となる。例えば、数値フィールドと
識別されるフィールドに不完全に表現される数値"４"が
発生する場合、認識オペレーションはこの形状を"Ｐ"と
解釈するような試みはしない。またフィールドがマスタ
書式定義により任意の名前フィールドであると識別され
る場合、そのフィールド内の文字ストリングは従来の任
意の名前の語彙と比較することにより検査される。同様
に、特定のフィールドがマスタ書式定義において州名と
して定義されると、従来の州名の語彙が比較及びそのフ
ィールド内における、不完全に認識された文字ストリン
グを検査するために使用される。またマスタ・フィール
ド定義により特定のフィールドに漢字情報が表現される
と定義される場合、そのフィールドに対応して、更に異
なる書式による比較及び検査が実施される。

【００１４】未認識文字の修復処理のタイプは様々であ
り、種々の決定要素の中でもとりわけフィールド・タイ
プに依存するため、同一の書式上において発生する認識
誤りフィールドの修復を取扱うために様々な処理が要求
される。ある機構では修復の履歴、及び文書書式イメー
ジにおいて認識誤りされた特定のフィールドの修復要求
を追跡する。

【００１５】別の問題として、文書書式上において認識
誤りされた特定のフィールドに対応する修復履歴の監査
証跡の維持がある。例えば、アプリケーションがイメー
ジ保管システムにおいて文書イメージを指標化するため
に特定のフィールドを利用する場合、またフィールド内
で認識誤りされた文字に対応する文字修復が不備である
場合、保管イメージはシステム内にミス・ファイルされ
ることになる。例えば、これが医療記録である場合、及
びこの文書イメージのミス・ファイルが例えば保険会社
の場合のようにユーザにとって重要な責任を負う場合、
フィールドの修復履歴を追跡する手段が使用できなけれ
ばならない。

【００１６】更に、認識誤りされた文字ストリングの修
復処理を改善する試みがされる場合、以前に処理された
フィールドに対する修復履歴のアクセス性が、文字修復
のための新たな技術の有効性を評価する上で有用とな
る。

【００１７】更に、文字修復の順次的なステージにおい
て、以降の修復ステージを実行するために文字修復の先
行ステージからの情報を要求する場合、フィールド内の
認識誤り文字及び懐疑文字の修復の履歴を追跡する手段
が必要となる。

【００１８】従って本発明の目的は、文書書式イメージ
上の情報の文字認識における改善された技術を提供す
る。

【００１９】本発明の目的は、文書のイメージ化及び保
管システムに走査入力される書式上のフィールド内の認
識誤り文字に対する改善された技術を提供する。

【００２０】更に本発明の目的は、文書書式イメージに
おける認識誤り文字ストリングの修復の履歴を追跡する
改善された技術を提供する。

【００２１】更に本発明の目的は、文書書式イメージに
おける認識誤り文字ストリングの順次的修復を調整する
改善された技術を提供する。

【００２２】更に本発明の目的は、文書書式イメージに
おける認識誤り文字ストリングの修復履歴を監査する改
善された技術を提供する。

【００２３】

【課題を解決するための手段】これらの目的、特徴、及
び利点が本明細書において開示される本発明により達成
される。文書のデジタル・イメージは文書の情報内容を
特定な書式で表現する。情報内容の一部が、プロセッサ
においてオペランドとして使用されるように要求される
場合、文字認識処理はデジタル・イメージを英数字表現
に変換するように適用されねばならない。

【００２４】文字認識処理の初期ステージにおいては、
典型的には入力文書文字の形状の特徴と、以前に記憶さ
れており標準化された形状特徴との一致を確認する。こ
の初期ステージでは少なくとも３つの確率クラスの文字
を有する第１の試行英数字ストリングが生成される。こ
れらはすなわち、（１）その識別が実質上１００％確率
を有する認識文字、（２）その識別が１００％確率より
も著しく小さな懐疑文字、（３）その識別が５０％確率
よりも著しく小さな拒絶文字である。懐疑文字に対して
は認識処理の多数の初期ステージにおいて、次に高い確
率を有する第２の推測文字が出力される。

【００２５】認識処理における確率レベルを向上するた
めに、懐疑文字或いは拒絶文字を有する第１の試行英数
字ストリング出力を修復するために、第２のステージが
使用される。これはそのストリングが表現する情報の類
別に基づいて選択されるテストを適用することにより実
施され得る。これには試行ストリングが抽出された文書
イメージ内のフィールドが、その類別専用フィールドで
あることが要求される。従って、第２のステージの修復
処理は、例えば、名前、住所、市、州などの予め指定さ
れる情報の類別専用のフィールドを有する文書書式に即
座に適用される。

【００２６】例えば、第１の試行ストリングが２文字に
よる州の略字を表す場合、候補となる文字対の数はおお
よそ５０であり、そのストリングの識別の正確度は、第
１の試行ストリングに最も一致する州の略字を識別する
ことにより増加させ得る。これは第２の試行ストリング
と称される。もし、第２の推測文字が初期ステージ処理
により提供されると、代わりの第１の試行ストリングが
第２のステージで解析され、これに最も一致する別の州
の略字が識別され得る。これは代替第２試行ストリング
と称される。従って、文書書式上において可能性のある
フィールド類別数に相当する数の異なるタイプの第２の
ステージの修復処理が存在し得ることが分かる。

【００２７】認識処理において更に正確度を向上させる
ために、第２試行ストリング及び代替第２試行ストリン
グを修復するために第３のステージが使用され得る。文
書の特定の類別フィールドから抽出されたストリング
が、データ・ベースにおける制限された数のストリング
の１つとして、ストリングの有効書式を有するデータ処
理アプリケーションで使用される場合、アプリケーショ
ン・データ・ベース探索が第２試行ストリング及び代替
第２試行ストリングの両者に対し実行され、どちらがア
プリケーション・データ・ベースにおける代表とされる
かを判断する。アプリケーション・データ・ベースにお
ける可能な類別の数に相当する数の異なるタイプの第３
ステージ修復処理が存在することが理解できる。

【００２８】文書書式上の単一の類別フィールドからの
試行ストリングの第２ステージ及び第３ステージ修復を
実行するために、実行された修復の正確な記録が各ステ
ージにおいて保持されねばならない。これらには第２推
測文字及び代替試行ストリングが含まれる。しかしなが
ら、文書書式は典型的にはページ上に１０或いは２０の
類別フィールドを含み、多数の書式が複数のページを有
する。こうした文書において、修復の多数のステージに
渡り各類別に対する修復の履歴を保持する問題が重要と
なる。

【００２９】修復の各ステージにおいて、文書フィール
ドの情報内容の最適な予測が次の修復ステージにおいて
直ちに使用可能となるべきである。

【００３０】また修復の各ステージにおいて、最適な代
替試行ストリング及び第２の推測文字が次の修復ステー
ジにおける各類別フィールドに対し、直ちに使用可能と
なるべきである。

【００３１】認識処理の性能を最大化するために、前回
の修復ステージの結果生ずる試行ストリングに対応する
確率レベルは、次の修復ステージにおいて直ちに使用可
能とならねばならない。これは現行の確率レベルが高い
場合、特定のフィールドに対する以後の修復における続
く試みを回避することを可能とする。

【００３２】障害及び監査以外のすべてが、全体的な認
識処理により生成されなければならない場合、各類別フ
ィールドに対する修復の履歴は直ちに使用可能とならね
ばならない。

【００３３】各類別フィールドに対する修復の履歴を直
ちに使用可能とすることは、文書書式上の類別フィール
ドの文字認識の修復履歴を動的に記録及び使用する機械
生成データ構造（ＭＧＤＳ）を生成、増補、及び使用す
るデータ処理システム、方法、及びコンピュータ・プロ
グラムの提供により達成される。

【００３４】本発明は文書書式のデジタル・イメージの
文字認識誤りを修復するためのデータ処理システムに関
する。これは文書書式のデジタル文書イメージを入力
し、文書イメージからフィールド・イメージを抽出し、
対応する抽出フィールド・イメージを形成する知能的書
式プロセッサを含む。

【００３５】知能的書式プロセッサは次に抽出フィール
ド・イメージから認識コード化データを生成し、文字認
識処理を使用することにより認識誤りデータを生成す
る。

【００３６】本発明によれば、知能的書式プロセッサは
抽出フィールド・イメージのコード化データ・バッファ
部分、及び誤りバッファ部分を含むフィールド・データ
・セグメントを有する機械生成データ構造（ＭＧＤＳ）
をアセンブルする。

【００３７】次に知能的書式プロセッサは認識コード化
データをフィールド・データ・セグメントのコード化デ
ータ・バッファ部分に、また認識誤りデータを誤りバッ
ファ部分に挿入する。

【００３８】知能的書式プロセッサは次にＭＧＤＳを使
用して第２ステージ修復処理を実行するか、或いはＭＧ
ＤＳを別の修復プロセッサに送信する。

【００３９】第１コード化データ修復プロセッサが知能
的書式プロセッサに結合され、ＭＧＤＳを受信し、認識
コード化データを修復する。

【００４０】本発明によれば、第１コード化データ修復
プロセッサはＭＧＤＳに第１修復データ・バッファ部分
を含む第１修復セグメントを増補する。

【００４１】第１コード化データ修復プロセッサは認識
コード化データをフィールド・データ・セグメントのコ
ード化データ・バッファ部分からアクセスし、認識誤り
データを誤りバッファ部分からアクセスし、第１修復処
理により第１の修復コード化データを生成する。

【００４２】次に本発明によれば、第１コード化データ
修復プロセッサは、第１修復コード化データをフィール
ド・データ・セグメントのコード化データ・バッファ部
分に挿入し、認識コード化データを第１修復セグメント
の第１修復データ・バッファ部分に挿入する。このよう
に、抽出フィールド・イメージ内の情報の最適な使用可
能バージョンが、フィールド・データ・セグメントのコ
ード化データ・バッファ部分に保持される。

【００４３】ユーティリゼーション・プロセッサが第１
のコード化データ修復プロセッサに結合され、ＭＧＤＳ
を受信する場合、これはフィールド・データ・セグメン
トのコード化データ・バッファ部分の内容をアクセス
し、認識コード化データの訂正書式として使用する。

【００４４】また第２コード化データ修復プロセッサが
第１コード化データ・プロセッサに結合され、ＭＧＤＳ
を受信し、第１修復コード化データを修復することも可
能である。

【００４５】本発明によれば、第２コード化データ修復
プロセッサはＭＧＤＳに第２修復データ・バッファ部分
を含む第２修復セグメントを増補する。

【００４６】第２コード化データ修復プロセッサはフィ
ールド・データ・セグメントのコード化データ・バッフ
ァ部分から第１修復コード化データをアクセスし、第２
修復処理により第２修復コード化データを生成する。

【００４７】次に本発明によれば、第２コード化データ
修復プロセッサは第２修復コード化データをフィールド
・データ・セグメントのコード化データ・バッファ部分
に挿入し、第１修復コード化データを第２修復セグメン
トの第２修復データ・バッファ部分に挿入する。このよ
うに、抽出フィールド・イメージにおける情報の最適な
使用可能バージョンが、フィールド・データ・セグメン
トのコード化データ・バッファ部分に保持される。

【００４８】また、ワークステーションが第１コード化
データ修復プロセッサに結合され、ＭＧＤＳを受信し、
第１修復コード化データを修復することも可能である。

【００４９】本発明によれば、ワークステーションはＭ
ＧＤＳに第２修復データ・バッファ部分を含む第２修復
セグメントを増補する。

【００５０】次にワークステーションはフィールド・デ
ータ・セグメントのコード化データ・バッファ部分から
第１修復コード化データをアクセスし、これをワークス
テーションに表示する。

【００５１】次に本発明によれば、ワークステーション
はフィールド・データ・セグメントの誤りバッファ部分
から誤りロケーション情報をアクセスし、デジタル文書
イメージをワークステーションに表示し、誤りロケーシ
ョン情報により識別されるフィールドの表示部分を強調
表示する。

【００５２】ワークステーションのオペレータは次にワ
ークステーションにおいて、第２修復コード化データを
生成することができる。

【００５３】次に本発明によれば、ワークステーション
は第２修復コード化データをフィールド・データ・セグ
メントのコード化データ・バッファ部分に挿入し、第１
修復コード化データを第２修復セグメントの第２修復デ
ータ・バッファ部分に挿入する。このように、抽出フィ
ールド・イメージにおける情報の最適な使用可能バージ
ョンが、フィールド・データ・セグメントのコード化デ
ータ・バッファ部分に保持される。

【００５４】ワークステーションは次にＭＧＤＳをユー
ティリゼーション装置に転送し、ユーティリゼーション
装置はフィールド・データ・セグメントのコード化デー
タ・バッファ部分の内容をアクセスし、これを認識コー
ド化データの訂正書式として使用する。

【００５５】本発明によれば、修復の各ステージにおい
て、最適な代替試行ストリング及び第２の推測文字が各
類別フィールドに対応する修復セグメントに含まれ、次
の修復ステージにおいて使用される。

【００５６】また、本発明によれば、前回の修復ステー
ジの結果生ずる修復コード化データに対応する確率レベ
ルは前回の修復セグメントに含まれる。これによりその
フィールドに対応する現行の確率レベルが高い場合、特
定のフィールドに対する以降の修復の試みを回避するこ
とが可能となる。

【００５７】更に本発明によれば、ＭＧＤＳは修復履歴
記憶装置に記憶され、重要な文書書式の文字認識修復の
監査証跡を提供する。これはまた特定のタイプの文書フ
ィールド及び性能目的に対応する特殊目的の文字認識処
理の選択を精密に調整するのに有用である。

【００５８】

【実施例】文書書式の特定のフィールドに対する修復の
履歴は、機械生成データ構造（ＭＧＤＳ）メッセージに
組込まれる。ＭＧＤＳは順序的修復処理とシステム内の
プロセッサ間のデータ・インタフェースとして使用され
る。ＭＧＤＳはまた監査証跡を維持する目的で、特定の
誤認識文字ストリングに対する修復履歴のための貯蔵場
所として機能する。

【００５９】図１乃至図２は図３７に示すように結合さ
れて、文書書式のデジタル・イメージの文字認識誤りを
修復するためのデータ処理システムの全体的体系を表す
図である。ハード・コピー文書１０はスキャナ２２を用
いてシステム内に走査入力され、その結果得られる文書
イメージ１０∧ が図１８に示される。本発明の実施例
では、知能的書式プロセッサ２５（図２９で詳細な体系
図が示される）がスキャナ２２とのスキャナ・インタフ
ェース処理を提供する。図１乃至図２において破線内に
示される知能的書式プロセッサ２５は、またバッファ４
０、書式認識及びフィールド抽出プロセッサ２４、文字
認識プロセッサ２６及び人工知能誤り訂正プロセッサ２
８を含む。本発明の実施例では、これらの種々のプロセ
ッサは対応するコンピュータ・プログラムを通じて実施
され、これらのプログラムは実行されるとそれぞれの処
理を実行する。本発明の別の実施例では、図１乃至図２
に示されるようにスキャナ・プロセッサ２３、バッファ
４０、書式認識及びフィールド抽出プロセッサ２４、文
字認識プロセッサ２６、及び人工知能誤り訂正プロセッ
サ２８はそれぞれ別のプロセッサであり、互いにローカ
ル・エリア・ネットワーク（ＬＡＮ）２０により接続さ
れる。本発明の理解を深めるために図１乃至図２に示さ
れる別々のプロセッサの実施例について、最初に説明す
る。

【００６０】ローカル・エリア・ネットワーク（ＬＡ
Ｎ）２０はスキャナ・プロセッサ２３、バッファ４０、
書式認識及びフィールド抽出プロセッサ２４、文字認識
プロセッサ２６、及び人工知能誤り訂正プロセッサ２８
をホスト・コンピュータ３４と相互接続する。またＬＡ
Ｎ２０にはデータ・ベース誤り訂正プロセッサ３０、及
び手動検査及び訂正プロセッサ３２が接続される。更
に、追加のイメージ獲得機能バッファ・サーバ４０∧
がＬＡＮ２０に接続される。ホスト・コンピュータ３４
には文書イメージ記憶装置３６、コード化データ記憶装
置３５、及び修復履歴記憶装置３８が接続される。

【００６１】文書１０はスキャナ２２によりシステムに
走査入力され、図１８に詳細に示される文書イメージ１
０∧を形成する。文書イメージ１０∧はハード・コピー
文書１０のイメージのビット・マップ表現である。スキ
ャナ２２はローカル・エリア・ネットワーク２０を介
し、書式認識及びフィールド抽出プロセッサ２４に文書
イメージ１０∧を出力する。文書イメージ１０∧のコピ
ーはホスト・プロセッサ３４にも転送可能であり、一時
的な指標化識別が文書イメージ１０∧ に割当てられ、
文書イメージ記憶装置３６に一時的に保管される。

【００６２】書式認識及びフィールド抽出プロセッサ２
４は、システムにより処理される書式のマスタ書式定義
のライブラリを含む。書式のモデルは書式パターン、及
び書式上に含まれる各フィールドの記述を含む。書式パ
ターンは書式タイプを区別するために使用される一連の
特徴である。フィールド記述はデカルト座標により表現
される書式上のフィールドのロケーション、文字認識の
容認閾値、識別及びフィールド指定情報を含む。データ
・フィールドのロケーションは長方形の対角を示す２点
のモデルにより表現できる。

【００６３】文書イメージ１０∧ が書式認識及びフィ
ールド抽出プロセッサ２４に入力される時、書式を識別
するためにイメージが解析され、その結果、適切なマス
タ書式定義データがアクセスされる。書式認識のために
いくつかの方法が使用可能である。１つの方法は典型的
に文書上に印字される書式番号を一致させる。第２の方
法は書式タイプを区別する書式テキスト及び線のレイア
ウト或いは配置を比較する。第３の方法は書式の水平及
び垂直線に頼る。書式の文書イメージ１０∧ が特徴化
されると対応するマスタ書式定義データがアクセス可能
となる。このデータはそれぞれのフィールドの座標、フ
ィールドの名称、及び書式内の各それぞれのフィールド
のコード・ページを定義する。

【００６４】図２１は書式認識処理２４Ａ及びフィール
ド抽出処理２４Ｂにおいて実行されるオペレーション・
ステップのシーケンスの流れ図である。

【００６５】スキャナ２２が文書１０を走査する時、ス
キャナ・プロセッサ２３は再スケール化などのいくつか
の前置オペレーション、及びイメージのイメージ・ファ
イルへの圧縮を実行する。イメージ・ファイルへはファ
イル・アドレスが割当てられる。文書イメージ１０∧
のイメージ・ファイルは一時的にバッファ４０或いはバ
ッファ・サーバ４０∧ 内にバッファされ、割当アドレ
スの下でアクセスされる。或いはスキャナ・プロセッサ
２３は文書イメージ１０∧ を直接的に書式認識及びフ
ィールド抽出プロセッサ２４に出力することができる。

【００６６】図２１に関し、書式認識処理２４Ａはステ
ップ１００で開始され、文書イメージ・ファイル・ポイ
ンタ６０を入力し、これはバッファ６０或いはバッファ
・サーバ４０∧からの文書イメージ１０∧のアクセスを
可能とする。図２１のステップ１０１では図１８で示さ
れる文書イメージ１０∧ を獲得する。走査書式イメー
ジ１０∧ の例は６個のデータ・フィールド及び１個の
書式番号フィールドを有する。書式番号フィールド１１
∧ は書式の識別のバー・コード表現を含みこれは保険
申請書である。第１のデータ・フィールドはラスト・ネ
ーム・フィールド１４∧である。第２のフィールド１６
∧ はファースト・ネーム・フィールドである。第３の
フィールドは州フィールド１２ａ∧である。第４のフィ
ールド１２ｂ∧は住所フィールドである。第５のフィー
ルド４４∧ は署名フィールドであり、第６のフィール
ド１２∧ は通し番号フィールドである。ここで第１か
ら第４のフィールド及び第６のフィールドは英数字のイ
メージを含み、第５のフィールド４４∧ は署名のイメ
ージを含む。

【００６７】図２１のステップ１０２は書式タイプを認
識する。図１８の例では、書式タイプはフィールド１１
∧ 内のバー・コード化書式番号から認識される。次に
図２１のステップ１０３において、システムに走査入力
された書式のスキュー及びオフセットが測定される。ス
キュー及びオフセット値６２は走査書式イメージ１０∧
上のフィールドの実際の位置を突きとめるために、書式
上の各フィールドの予め指定された座標と結合されねば
ならないという点で重要である。

【００６８】図２１の流れ図は次にフィールド抽出処理
２４Ｂを開始するように遷移し、これはステップ１０４
で開始され、書式１０∧ 上のフィールドのフィールド
座標を含むマスタ書式形式１０Ｆをアクセスする。マス
タ書式形式１０Ｆは図１６及び図１７に示される。書式
上の各それぞれのフィールドの座標を表すデータは、マ
スタ書式１０Ｆを表す図１６に画像により示されてい
る。フィールド１１Ｆは書式番号フィールドであり、フ
ィールド１４Ｆはラスト・ネーム・フィールドであり、
後者は境界１３を有する。フィールド１６Ｆはファース
ト・ネーム・フィールドであり、境界１７を有する。フ
ィールド１２ａＦは州フィールドである。フィールド１
２ｂＦは住所フィールドである。フィールド４４Ｆは署
名フィールドであり、フィールド１２Ｆは通し番号フィ
ールドである。図１６に示されるこれらのフィールドは
この例における保険請求書に対応するマスタ書式定義デ
ータ・セットにおいて提供される座標データの画像表現
である。

【００６９】図１７は図１６に示されるマスタ書式１０
Ｆに対応するマスタ書式定義に含まれる追加の情報を示
す。図１７はマスタ機械生成データ構造（ＭＧＤＳ）５
０Ｍを表す。書式名 "申請（CLAIM）"、フィールドの
数、及び図３２に示される書式情報ＦＩ内に示される他
の同様の情報などの固定書式データ６５が、マスタＭＧ
ＤＳ５０Ｍに含まれる。図１７のマスタＭＧＤＳ５
０Ｍの固定書式データ６５には、また書式の各ページに
対応するページ情報ＰＩが含まれる。ここに示される例
では単一のページ書式が使用される。ページに対応する
固定書式データは例えばページ番号を含む。マスタＭＧ
ＤＳ５０Ｍにはまた、図１６のマスタ書式１０Ｆにお
ける６個のデータ・フィールドの各々に対応する固定フ
ィールド・データ６４が含まれる。書式上の各フィール
ドは図１７におけるフィールド・データ・セグメント５
２Ｍなどのフィールド・データ・セグメントにより表さ
れる。これらは図１６の第１のデータ・フィールド１４
Ｆに対応する。フィールド・データ・セグメント５２Ｍ
はフィールド座標６４などの固定フィールド・データ６
７を含む。図１７には図１６のマスタ書式１０Ｆの各長
方形のフィールドの左上隅に対応する座標Ｘ１及びＹ
１、及び右下隅に対応するＸ２及びＹ２が示されてい
る。固定フィールド・データ６７にはまたフィールド名
が含まれ、例えば図１６のラスト・ネーム・フィールド
１４Ｆに対応するフィールド・データ・セグメント５２
Ｍでは、フィールド名６８には"ラスト・ネーム"が指定
される。図１７の固定フィールド・データ６７にはまた
フィールド・タイプ７０が含まれる。例えば、図１７の
フィールド・データ・セグメント５２Ｍは英数字に対応
するフィールド・タイプ"Ａ／Ｎ"を有する。

【００７０】その他のフィールド・データ６７が図３４
に表されるフィールド情報内に示される。図１７に示さ
れるマスタＭＧＤＳ５０Ｍはマスタ書式定義データが
組成されて、書式認識及びフィールド抽出プロセッサ２
４に記憶される様子を示す１つの例である。書式認識及
びフィールド抽出プロセッサ２４は書式情報ＦＩ及びペ
ージ情報ＰＩに対応する固定書式データ６５を組成し、
各それぞれのフィールド・データ・セグメント５２Ｍな
どに対応する固定フィールド・データ６７をマスタＭＧ
ＤＳ５０Ｍ内に組成し、これは文字認識プロセッサ２
６に転送される。こうした転送に先立ち、書式認識処理
ステップ１００から１０３により生成される追加のデー
タが加えられる。特にこうした情報として、書式イメー
ジ１０∧に対応するスキュー及びオフセット・データ６
２が挙げられる。

【００７１】認識処理の後の段階で追加される情報のた
めの追加的空間が、図１７のマスタＭＧＤＳ５０Ｍに
割当てられる。例えば、書式返却フィールド（ＦＲ）７
２用に空間が割当てられ、オプションの文書イメージ・
ファイル・ポインタ６０及びオプションの抽出イメージ
・ファイル・ポインタ７４が割当てられる。コード化デ
ータ部分７５がその他に追加される。ＭＧＤＳ５０Ｍ
に割当てられるこれらのフィールドの各々はシステムに
おいて、対応するデータが書式の文字認識修復において
生成される処理段階に達するまでは空である。

【００７２】図２１のステップ１０４はフィールド抽出
処理２４Ｂのステップ１０５に遷移し、マスタＭＧＤＳ
５０Ｍ内に提供されるフィールド座標６４及びスキュ
ー及びオフセット値６２から、各フィールドのフィール
ド・ロケーションを計算する。フィールド座標値６４は
第１フィールド・データ・セグメント５２Ｍ、第２フィ
ールド・データ・セグメント５４Ｍ、第３フィールド・
データ・セグメント５６Ｍ、第４フィールド・データ・
セグメント１２ｂＭ、第５フィールド・データ・セグメ
ント４４Ｍ、及び第６フィールド・データ・セグメント
１２Ｍに対応する第１フィールドに対し提供される。

【００７３】図２１のフィールド抽出処理２４Ｂは次に
ステップ１０６に遷移し、ここではフィールド抽出処理
により文書イメージ１０∧ からフィールド・イメージ
１０∧∧を抽出する。図３を参照するとフィールド抽出
処理の例が表される。図２０は図１８の文書イメージ上
に現れるファースト・ネーム・フィールドに対応するフ
ィールド・イメージ１６∧を示す。フィールド・イメー
ジ１６∧は周囲ボックス１７、文字１８及び擬似ライン
１９及び１９ａと共に示される。フィールド抽出の過程
において、ボックス１７のイメージは除去される。更に
外生的ラインの除去過程において、外生的ライン１９ａ
が削除される。なぜなら、このラインの一部はフィール
ド１６∧ の予め定義された領域の外側にはみ出してい
るからである。しかしながら、この例では外生的ライン
１９は図２０の抽出フィールド結果１６∧∧に表される
ように、フィールド１６∧ 内の文字イメージ１８から
除去されない。抽出フィールド・イメージ１６∧∧は図
１９に示される書式の抽出フィールド・イメージ１０∧
∧上に現れる。

【００７４】抽出フィールドに残る擬似ラインの追加の
例が、図１８の書式イメージ１０∧内の州フィールド１
２ａ∧ に対して示され、対応する抽出イメージ１２ａ
∧∧はフロリダ州の略字を意味する"ＦＬ"の文字Ｌにオ
ーバーラップする擬似ラインを所有する。

【００７５】次に図２１のフィールド抽出処理２４Ｂは
ステップ１０７に遷移し、書式名６６などの固定書式デ
ータ６５、及びフィールド名６８、タイプ７０、フィー
ルド座標６４などの固定フィールド・データ６７を図１
７に示されるマスタＭＧＤＳ５０Ｍ内にアセンブルす
る。次にステップ１０８において、可変書式データがマ
スタＭＧＤＳ５０Ｍに挿入される。これらには、例え
ば現行値"ゼロ"を有する書式返却コード７２、文書イメ
ージ１０∧ のファイルに対応するポインタ・アドレス
に相当する文書イメージ・ポインタ６０、抽出イメージ
１０∧∧を含むファイルに対するポインタ・アドレスに
相当する抽出イメージ・ポインタ７４、スキュー及びオ
フセット値６２及び、書式認識及びフィールド抽出プロ
セッサ２４における現行ステージにおいて使用可能な他
のデータが含まれる。

【００７６】次に図２１のフィールド抽出処理はステッ
プ１１０に遷移し、図３に示されるＭＧＤＳメッセージ
５０Ａを文字認識プロセッサ２６に出力する。これらの
処理が図２９の知能的書式プロセッサ２５において実施
されるマルチタスクの実施例の場合、ＭＧＤＳメッセー
ジ５０Ａの転送はプロセッサ２５のメモリ内の共通アク
セス可能区分に対して実施される。また、図１乃至図２
のマルチプロセッサＬＡＮの例では、ＭＧＤＳメッセー
ジ５０ＡはＬＡＮ２０を介して文字認識プロセッサ２６
に転送される。

【００７７】図２１の処理は次にステップ１１１に遷移
し、抽出イメージ・ファイル１０∧∧を出力する。抽出
フィールド・イメージ・ファイル１０∧∧はそのアドレ
スが抽出イメージ・ポインタ７４により参照されるファ
イル内に配置され、抽出イメージ１０∧∧は次にバッフ
ァ４０或いはバッファ・サーバ４０∧ に記憶される。
また、抽出フィールド・イメージ１０∧∧を直接、文字
認識プロセッサ２６に転送することも可能である。

【００７８】図３は書式認識及びフィールド抽出プロセ
ッサ２４から出力されるＭＧＤＳ５０Ａの詳細を示す。
特に図３に示されるＭＧＤＳ５０Ａは図１８に示され
る書式イメージ１０∧ の６個のフィールドの内の最初
の２個に対応する第１のフィールド・データ・セグメン
ト５２Ａ、及び第２のフィールド・データ・セグメント
５４Ａを示す。

【００７９】図８はＭＧＤＳ５０Ａのアセンブリにお
ける後のステージにおける書式認識及びフィールド抽出
プロセッサ２４から出力されるＭＧＤＳ５０Ａを示
し、第１のフィールド・データ・セグメント５２Ａ及び
第２のフィールド・データ・セグメント５４Ａだけでは
なく、図１８の書式イメージ１０∧ 上の第３のフィー
ルド１２ａ∧ に対応する第３のフィールド・データ・
セグメント５６Ａが含まれる。

【００８０】書式認識及びフィールド抽出プロセッサ２
４は、図３に詳細に示される第１段階のＭＧＤＳデータ
構造メッセージ５０Ａを生成する。ＭＧＤＳ５０Ａの
書式情報における特定の形式が図３２に示される。書式
返却コード・パラメータは値６を有する長さエンティテ
ィ、ＩＤエンティティ、及びデータ・エンティティを有
する。データ・エンティティは２バイト長、ＩＤエンテ
ィティは２バイト長、長さエンティティは２バイト長で
あり、長さエンティティの値は６であり、これはパラメ
ータにおける合計バイト数を表す。ＭＧＤＳは関連する
パラメータの全グループが容易に転送され解析されるよ
うに、関連パラメータを一緒にグループ化する。いくつ
かのサブ・パラメータを包含するようにパラメータを指
定することにより、パラメータはグループ化される。例
えばフィールド情報パラメータなどのこうした包含パラ
メータ、或いはコンテナ・オブジェクトが図３２に示さ
れており、これらは長さエンティティ、ＩＤエンティテ
ィ、及びデータ・エンティティを有する。データ・エン
ティティには矢印が含まれており、これは包含パラメー
タのデータがパラメータのグループであり、包含パラメ
ータの長さエンティティにおいて指定される長さ以内に
納まることを示している。

【００８１】ＭＧＤＳ５０Ａの最初の部分Ｈに含まれ
る書式情報ＦＩは図３２に示されるパラメータを含む。
ＭＧＤＳパラメータは全ＭＧＤＳ５０Ａを含む包含パ
ラメータである。ＭＧＤＳバージョン・パラメータは使
用されるＭＧＤＳのバージョンを記述する。書式返却コ
ード・パラメータはイメージの処理の際に、誤りに遭遇
したかどうかを示す。返却コードがフィールド・レベル
において誤りが存在することを示すと、正確な誤りを判
断するために、拒絶文字及び懐疑文字の返却コードがチ
ェックされねばならない。書式返却コードは拒絶処理が
文書イメージに対し、要求されるかどうかを判断するた
めの主標識である。負の返却コードは書式或いはフィー
ルド・レベルにおいて誤りが発生しており、書式が実際
に誤って識別される可能性があることを示す。正の返却
コードは書式上の全てのフィールドにおいて見いだされ
た拒絶文字或いは懐疑文字の数を示す。この返却コード
は誤り訂正が成功して実施された後にゼロにリセットさ
れる。

【００８２】変換時（when-to-convert）パラメータは
ＭＧＤＳを生成するアプリケーションすなわち書式認識
及びフィールド抽出プロセッサ２４が、ＭＧＤＳ内の文
字データを適切なホスト・コード・ページに変換したか
どうかを示す。パラメータ値ゼロは、ＭＧＤＳを生成す
るアプリケーションが文字データが生成された元のＡＳ
ＣＩＩコード・ページ内に文字データを残したことを示
し、数値データはワークステーション・バイト順序で現
れ、数値の１６進表現はバイトをフリップすることによ
り読出される。値２はＭＧＤＳを生成するアプリケーシ
ョンが文字データを適切なホストＥＢＣＤＩＣコード・
ページに変換したことを示し、数値データの複製がホス
ト・バイト順序で現れ、この時は数値の１６進表現はバ
イトをフリップすることなく読出される。値１は数値デ
ータのバイト順序及び文字データがコード・ページに変
換されたかどうかを決定するために、書式返却コードの
検査を要求する。

【００８３】書式クラス名パラメータは書式に対応して
認識された書式クラス名を示す。この名前は書式認識オ
ペレーションを実行する書式認識及びフィールド抽出プ
ロセッサ２４により定義される。

【００８４】書式名パラメータは書式名を提供し、これ
についても書式認識オペレーションを実行する書式認識
及びフィールド抽出プロセッサ２４により定義される。

【００８５】汎用コード・ページ・パラメータは未認識
の文字フラグ、書式クラス名、フィールド名、フィール
ド関係、及びフィールド修復パラメータに対応するコー
ド・ページである。これらの全ての項目が１コード・ペ
ージ上に現れるものと仮定する。いくつかのコード・ペ
ージがこれらの異なる項目に対し存在する場合、未認識
文字フラグのコード・ページが使用される。

【００８６】未認識文字フラグ・パラメータは文字デー
タ・バッファ内の未認識文字を表すために使用される。
フィールド・パラメータの数はＭＧＤＳにおいてデータ
が返却されるフィールドの数を示す。

【００８７】書式コード・ページ・パラメータは書式上
の全てのデータに対して使用される。書式上の全てのデ
ータが同一のコード・ページを使用する場合、このパラ
メータはそのコード・ページを示す。書式上において異
なるコード・ページが使用される場合、このフィールド
は返却されず、フィールド・コード・ページ・パラメー
タは各フィールドにおけるコード・ページを示す。デー
タがコード・ページからコード・ページに変換され、Ｍ
ＧＤＳ内に戻され記憶される時、このパラメータは書式
データに対応する現行のコード・ページを反映するべき
である。

【００８８】ホスト書式コード・ページ・パラメータ
は、ホストがイメージから検索された全ての文字情報に
対し指定したコード・ページである。文字は情報が最後
の処理のためにホストに提供される以前にこのコードに
変換されるべきである。書式コード・ページ・パラメー
タに関連する全ての文字情報は、変換時パラメータ値に
もとづきホスト・コード・ページに変換される。

【００８９】ホスト・コード・ページ・パラメータは、
特定のフィールド・コード・ページに対応するフィール
ド情報が変換されるべきホスト・コード・ページを示
す。このパラメータはフィールド・コード・ページ・パ
ラメータが存在する時にはそれと１対１でマップされ、
特定のフィールドのデータが変換されるべきホスト・コ
ード・ページを示す。

【００９０】ページ情報パラメータは文書の各ページに
関する情報を含む包含パラメータである。このパラメー
タは各ページ上のフィールドに関する情報は含まない。

【００９１】フィールド情報パラメータはフィールド・
データ・セグメントに対応する包含パラメータであり、
書式のページ上の各それぞれのフィールドに対応して返
却される全ての情報をグループ化するために使用され
る。各フィールドに対応するフィールド・データの全セ
ットの長さ以外の情報はパラメータ内に存在しない。

【００９２】ページ情報形式が図３３に示される。ペー
ジ番号パラメータはページ情報包含パラメータ内に現れ
る情報に対するページ番号を提供する。ページ解像パラ
メータはページ情報パラメータ内に配置されるページ番
号パラメータにより示される特定のページの解像を提供
する。ページ方向パラメータは特定の書式ページの方向
を提供する。その値は無回転、或いは時計回りの９０
度、１８０度或いは２７０度の回転を示す。

【００９３】図３４はフィールド情報の詳細な形式を表
す。拒絶文字返却コード・パラメータは、文字認識処理
の最中に拒絶文字に遭遇したことを示す。このパラメー
タは文字認識プロセッサがそのオペレーションを実行す
るまで、データにより充填されない。このフィールドの
数はそのフィールドにおいて遭遇した拒絶文字の数を示
す。数が負の場合はフィールドの処理の最中に誤りに遭
遇したことを示す。

【００９４】懐疑文字返却コード・パラメータは、文字
認識プロセッサ２６による文字認識処理の間に懐疑文字
に遭遇したことを示す。このフィールドの数はそのフィ
ールドにおいて遭遇した懐疑文字の数を示す。フィール
ド関連パラメータはそのフィールドをホスト・フィール
ドと関連づけるために使用される。これはユーザがその
関連値を示すために書式定義ユーティリティに入力する
ＩＤであり、書式認識及びフィールド抽出プロセッサ２
４により提供される。このフィールドはフィールド名パ
ラメータとは異なる。なぜなら、これはフィールドを書
式上に現れるフィールドといった観点よりも、アプリケ
ーション使用といった観点で記述することに依存する。
例えば、このフィールドはホスト・アプリケーションに
とって重要な指標化情報を含んだりする。

【００９５】フィールド名パラメータは誤り訂正及びデ
ータ入力の最中にフィールドを記述するために使用され
るフィールド記述である。フィールド書式ページ・パラ
メータはそのフィールドが現れる書式ページである。

【００９６】フィールド座標パラメータは文字認識プロ
セッサ２６により充填され、フィールドの座標はフィー
ルドを強調表示したり、続く修復段階においてフィール
ドを修復するために使用される。これらの座標はフィー
ルドを取り囲む長方形の左上端部及び右下端部の座標を
示し、００座標がイメージの左上端部に配置される座標
系にもとづく。４個の座標値の各々は４バイトを使用
し、それぞれはＸ左端、Ｙ下端、Ｘ右端、及びＹ上端を
示す。

【００９７】図３５に示すコード化データ・パラメータ
は、各フィールドにおいて同一のコード・ページを有す
る全ての文字情報をグループ化するために使用される包
含パラメータである。複数のコード・ページが各フィー
ルドにおいて使用されるため、コード化データ・パラメ
ータはコード・ページ及び文字情報をグループ化する。
文字情報は文字認識プロセッサがそのオペレーションを
実行するまで供給されない。このパラメータにはコード
・ページ及び文字情報の長さ以外の情報は含まれない。
コード化データ・パラメータの存在はフィールド存在パ
ラメータの存在と互いに排他的である。両方のパラメー
タは同一のフィールドに対して同時には存在しない。フ
ィールド存在パラメータはフィールドがデータを含むか
どうかを示し、例えばチェック・ボックス・フィールド
として使用される。

【００９８】図３６に示される拒絶文字情報パラメータ
は文字認識プロセッサ２６により追加される包含パラメ
ータであり、拒絶文字或いは懐疑文字に関する全ての情
報をグループ化するために使用される。拒絶情報の長さ
以外にはこのパラメータには情報は存在しない。

【００９９】オプションとして、イメージ・データ・パ
ラメータ（図示せず）がプロセッサ２４により提供さ
れ、ＭＧＤＳメッセージ５０Ａに含まれる。プロセッサ
２４がそのフィールド抽出オペレーションを実行後に、
フィールドのクリーン・アップされたイメージは順番に
ビット・マップ配列され、時に圧縮され、ＭＧＤＳ５
０Ａにロードされる。

【０１００】図３１を参照すると、ＭＧＤＳメッセージ
構造における種々のＭＧＤＳパラメータ間の関係が表さ
れる。書式情報はＭＧＤＳ５０Ａの最初の部分に相当
する。その後には図３１に一群として示されるページ情
報が続く。更にいくつかのフィールド情報セグメントが
それに続き、各フィールド情報セグメントは本書式のフ
ィールドの１個に対応する。フィールド情報セグメント
内には１個以上のコード化データ・セグメントが含ま
れ、各コード化データ・セグメントは単一のコード・ペ
ージにより特徴づけられるフィールドの一部に対応す
る。全フィールドが単一のコード・ページにより特徴づ
けられる場合、フィールドに対応して単一のコード化デ
ータ・セグメントが存在する。フィールド情報にはまた
文字認識プロセッサ２６により生成される拒絶文字情報
が含まれる。

【０１０１】文字認識プロセッサにより実行される文字
認識処理２６Ａは図３のイメージ１６∧∧に対して作用
し、文字ストリング４２"Ja*n"を生成する。

【０１０２】図２２及び図２３は文字認識処理２６Ａに
対応するオペレーション・ステップのシーケンスの流れ
図である。ステップ１１２は図３に示されるＭＧＤＳ
５０Ａを入力する。次にステップ１１３は図１９に示さ
れる抽出フィールド・イメージ・ファイル１０∧∧を入
力する。

【０１０３】次にステップ１１４は各それぞれのフィー
ルド・データ・セグメントに対してループを開始する。
ステップ１１４は図３に示されるＭＧＤＳメッセージ５
０Ａから各それぞれのフィールド・データ・セグメント
を獲得する。ラスト・ネーム・フィールド１４∧∧に対
応する第１のフィールド・データ・セグメント５２Ａが
最初に処理される。次にループはＭＧＤＳメッセージ５
０Ａから第２のフィールド１６∧∧に対応するフィール
ド・データ・セグメント５４Ａを獲得する。実施例では
ファースト・ネーム・フィールドに相当する第２のフィ
ールド及びそのフィールド・データ・セグメント５４Ａ
に注目する。

【０１０４】図２２のステップ１１５はフィールド・デ
ータ・セグメント５４Ａからフィールド座標６４を獲得
する。次にステップ１１６はフィールド・タイプ情報７
０をフィールド・データ・セグメント５４Ａから獲得す
る。フィールド・タイプ情報７０はフィールドに対応す
ると予想されるタイプとして指定可能な様々な文字スタ
イルを含む。特定の書式が通常、手記により記入される
場合、ハンドプリンティングがフィールド・タイプ情報
７０内に示される。予想されるフィールド・タイプ７０
として指定される他の文字スタイルには、機械印刷によ
る数値或いは漢字、ヘブライ或いはシリル式アルファベ
ットがある。

【０１０５】次に図２２のステップ１１７において、文
字認識処理のタイプがフィールド・タイプ或いはフィー
ルド１６∧∧内に表される文字イメージの他の特徴にも
とづき選択される。特定のフィールドに対応して実施さ
れる文字認識処理のタイプは、情報がフィールドに期待
される文字タイプに関し使用可能であれば、性能或いは
正確度を考慮して最適化される。例えば、ステップ１１
７Ａにおいて、フィールド・タイプ情報７０が、例えば
ＡＳＣＩＩコード・ページなどの機械印刷によるローマ
式アルファベット文字がフィールド内に存在することを
示すと、標準ＯＭＮＩフォント認識処理が使用される。
また、ステップ１１７Ｂにおいて、フィールド・タイプ
情報７０がフィールドがアラビア数字を厳密に使用する
数値フィールドであることを示すと、数値認識処理が使
用される。この処理では認識における曖昧度が、こうし
たフィールドに対応する文字に対立する数値を選択して
解析されるために、より良好な性能を有する。また、ス
テップ１１７Ｃにおいて、フィールド・タイプ情報７０
或いはコード・ページ７１が、フィールドが漢字文字を
含むと予想されることを示す場合、ダブル・バイト認識
処理が使用されなければならない。また、ステップ１１
７Ｂにおいて、フィールド・タイプ情報７０がそれがイ
メージ・フィールドであることを示すと文字認識は実行
されず、その代わりに処理は図２３のステップ１３０に
移行し、イメージ自身が抽出され、フィールド・データ
・セグメントに転送される。また、イメージが署名とし
て指定されると、続け書き文字認識処理が適用される
（図示せず）。更に、署名検査処理が適用される（図示
せず）。

【０１０６】次に図２２のステップ１１８において、図
１９示される抽出フィールド・イメージのビット・マッ
プ１６∧∧が獲得される。次にステップ１１９におい
て、文字認識処理がイメージ１６∧∧に対して実行され
る。

【０１０７】データ抽出処理により生成されたイメージ
は、文字認識プロセッサ２６において認識されるデータ
のクリーンなイメージを提供する。これはフィールドご
とに実施され、各フィールド内の文字は単一のイメージ
・ブロックとして抽出される。フィールド・イメージが
認識される前に、これは個々の文字イメージに区分化さ
れねばならない。これらは文字分類子により認識され
る。区分化により文字間のピッチ或いは距離が識別さ
れ、接触した文字が分離され、壊れた文字が組合わされ
る。また、もし存在する場合には、タイプにおけるスキ
ュー及びフィールド内の特定のストリング・イメージの
他の特質が識別される。文字認識分類子は単一の文字パ
ターンを入力として受諾し、識別シンボル及びＡＳＣＩ
Ｉ或いはＥＢＣＤＩＣコードを返却する。通常の書式上
のタイプ・データの場合のように、文書が多数の異なる
ソースから到来する場合、ツリー論理のライブラリが必
要とされ、各々は遭遇する各フォントに対応する。これ
らの印刷に適合するサイズ的特徴を有するフォントが認
識において試行され、各分類子は自身の認識におけるそ
の固有の正確度予測を提供する。これらの予測はイメー
ジの残りの部分を読出すために最適な分類子を選択する
ために評価される。更に、原型パターンのリストが出力
される。ここで２個の原型は互いに一致することはな
く、また全ての入力パターンがある原型に一致する性質
を有し、各原型はクラスタとして定義される。クラスタ
はそれに一致する全てのパターンを含む。クラスタ情報
は文字認識プロセッサにより出力され、後の修復ステー
ジにおいて使用される。

【０１０８】図４を参照すると、文字認識プロセッサ２
６によりＭＧＤＳメッセージ５０Ｂに加えられるいくつ
かの情報が表される。文字データ・バッファＢは認識文
字ストリングによりロードされ、これは完全に認識され
た文字"J"及び"n"、懐疑文字"a"、及びアスタリスク"*"
で示される拒絶文字或いは未認識文字の位置を含む。更
に、第１の拒絶文字情報Ｓは、文字位置、文字座標、第
２の推測文字、及び文字確率を識別する拒絶文字情報セ
グメント内に配置される。第１の文字に対応する文字位
置は"0"、第２の文字は"1"の様に示される。従って、懐
疑文字"a" に対応する文字位置は"1"と示される。文字
座標が懐疑文字"a"のフィールド・イメージにおけるロ
ケーションに対し提供される。更に、文字認識プロセッ
サ２６は低い確率を有するいくつかの代わりの候補文字
を公式化する。次に高い確率値は文字"o" に相当し、こ
れは第２の推測文字として、拒絶情報セグメントＳの第
２の推測文字パラメータに提供される。更にこの例で
は、文字の確率である５０パーセントが拒絶文字情報セ
グメントＳにロードされる。第２の拒絶文字情報セグメ
ントＲは拒絶文字位置"*" に対して提供される。文字位
置は２として示され、すなわちこれは３番目の文字位置
を示す。また、文字位置に対応する座標がフィールド・
イメージに対して提供される。この情報は図４のＭＧＤ
Ｓメッセージ５０Ｂにロードされる。

【０１０９】図２２及び図２３の文字認識処理２６Ａを
参照すると、ステップ１２０は図２０に示される選択さ
れる認識手順により、コード化データ４２を生成する。
次にステップ１２１において、未認識文字３１が図２０
に示されるようにフラグ化され、図４に示されるように
文字返却コードＲＣが１インクリメントされ、書式返却
コードＦＲもまた１インクリメントされる。

【０１１０】次にステップ１２２において、文字認識処
理は図２０に示されるように"懐疑"文字位置２１を認識
する。これは設定された閾値よりも小さな確率レベルと
して認識される。図４に示されるように懐疑文字返却コ
ードＳＣが１インクリメントされ、書式返却コードＦＲ
もまた１インクリメントされる。

【０１１１】次にステップ１２３において、認識文字"
J"及び"n"を含むコード化データ４２、懐疑文字"a"、及
び拒絶フラグ"*"が、図４に示されるように、フィール
ド・データ・セグメント５４Ｂの文字データ・バッファ
Ｂにロードされる。

【０１１２】次に図４に示されるように、フィールド・
データ・セグメント５４Ｂに懐疑文字誤りデータに対応
するサブ・セグメントＳが増補され、サブ・セグメント
Ｓには懐疑文字のロケーション座標２１がロードされ
る。

【０１１３】次にステップ１２５において、図４に示さ
れるように懐疑文字に対する第２推測文字２９がサブ・
セグメントＳにロードされる。この例では、第２推測文
字２９は"o" である。次にステップ１２６において、懐
疑文字に対する確率値６１が図４のサブ・セグメントＳ
にロードされる。この例では第１の推測文字２７"a"は
５０パーセントであり、この値は確率に相当する値６１
である。

【０１１４】次にステップ１２７において、フィールド
・データ・セグメント５４Ｂに拒絶文字誤り情報に対応
するサブ・セグメントＲが増補される。これには図４に
示されるように、拒絶文字位置のロケーション座標３１
がロードされる。次にステップ１２７はステップ１３４
に移行し、処理される別のフィールド・データ・セグメ
ントが存在するかが判断される。

【０１１５】ステップ１３０は、このフィールドに対応
するタイプ指示がイメージ・フィールドである場合に、
ステップ１１７Ｄから分岐される。ステップ１３０にお
いて、イメージ・フィールドであるフィールド・タイプ
に対し、図１９の抽出イメージ・ビット・マップ４４∧
∧が獲得され、次にステップ１３１において、これは図
１１に示されるフィールド・データ・セグメント４４Ｂ
のイメージ・データ・サブ・セグメント４７にロードさ
れる。これは図１９の抽出フィールド・イメージ１０∧
∧のフィールド４４∧∧に対して発生し、ここには署名
４５が配置される。図１７のフィールド・データ・セグ
メント４４Ｍのフィールド・タイプ７０に対応する固定
フィールド・データは、フィールド・タイプがイメージ
であり、フィールド名が"署名"であることを示し、図１
１の第５フィールド・データ・セグメント４４Ｂは、Ｍ
ＧＤＳ５０Ｂのビット・マップ部分５３にイメージ・
ビット・マップ４４∧∧をロードされる。次に図２３の
ステップ１３１はステップ１３４に移行する。

【０１１６】追加情報が図１１のフィールド・データ・
セグメント４４Ｂに含まれる。例えば、イメージ４４∧
∧に対応する解像及び圧縮情報５１が含まれる。この情
報はフィールド・データ・セグメント４４Ｂのイメージ
・データ部分４７に含まれる。

【０１１７】次に図２３の流れ図はステップ１３４にお
いて、図１９の抽出フィールド・イメージ１０∧∧内に
おいて、更に別のフィールド・データに対応して処理さ
れるフィールド・データ・セグメントが存在するかを判
断する。存在する場合、ループはステップ１１４に戻
る。また、処理されるフィールド・データ・セグメント
が存在しない場合には、処理はステップ１３６に移行
し、図１２に示されるＭＧＤＳメッセージ５０Ｂを出力
する。

【０１１８】第３のフィールド・データ・セグメント５
６Ｂが図９に示され、これは図１９の州フィールド１２
ａ∧∧に対応する。図１９ではフロリダ州の略字の内
の"L" が、その上に重なる擬似マークを有する。文字認
識プロセッサ２６は第２の文字位置に対応する第１の推
測として"A" を解釈する。従って、文字ストリング"FA"
が図９のフィールド・データ・セグメント５６Ｂの文字
データ・バッファＢに入力される。文字認識プロセッサ
２６はまた第２の文字位置に対応する第２の推測とし
て"L"を判断し、この第２の推測"L"２９が図９に示され
る懐疑文字サブ・セグメントＳの第２の推測文字部分に
入力される。

【０１１９】図１２は図１９の書式における６個のフィ
ールドの各フィールド・セグメントにおけるコード化デ
ータに対応する文字バッファＢを示す。第１のフィール
ド・セグメント５２は文字ストリング"Doe" をバッファ
Ｂに有する。第２のフィールド・セグメント５４は文字
ストリング"Ja*n"をバッファＢに有する。第３のフィー
ルド・セグメント５６は文字ストリング"FA"をバッファ
Ｂに有する。第４のフィールド・セグメント１２ｂは、
図１８の書式イメージ１０∧ のフィールド１２ｂ∧ に
対応するイメージ情報が存在しないために、バッファＢ
に空ストリングを有する。第５のフィールド・データ・
セグメント４４はそのフィールド・イメージ部分に署名
イメージ４５を有する。第６のフィールド・データ・セ
グメント１２はそのバッファにストリングW1248 を含
む。各それぞれのフィールド・データ・セグメント内の
文字バッファＢの各々の内容は、図１９の抽出フィール
ド・イメージ１０∧∧のそれぞれのフィールドに含まれ
るイメージに対応する正しい英数字ストリングの現行の
最適な推定に相当する。

【０１２０】図３５に示されるコード化データ情報形式
は、フィールド内の各特定の文字ストリングに対応して
使用されるコード・ページに相当する・フィールド・コ
ード・ページ・パラメータを表す。フィールド内におい
てコード・ページが変化する時、フィールド・ページ・
パラメータはそれを使用する文字ストリングに先行す
る。書式上の全てのコード・ページが同一である場合に
は、フィールド・コード・パラメータは使用される必要
はなく、書式コード・ページ・パラメータが書式上の全
ての文字データに対応て使用されるコード・ページを示
す。

【０１２１】文字バッファ・パラメータＢもまた図３５
に示され、これは１コード・ページを使用する文字スト
リングの記憶ロケーションを示す。フィールドが文字を
含まず、プロセッサ２４により強制的フィールドに指摘
される場合、拒絶文字返却コードはいずれの値も誤りで
はないことを示す。文字バッファはフィールドを表す文
字ストリングの現行の訂正値を記憶する。フィールド修
復の各順序的段階において、フィールドを表す最も確率
の高い文字ストリングが文字バッファＢにロードされ
る。

【０１２２】拒絶情報形式は図３６に詳細に示される。
拒絶文字情報包含パラメータは全フィールドに対応する
文字ストリングにおける、文字の位置を識別する文字位
置パラメータを包含する。これに関し、文字値及びイメ
ージ文字との間の関係がそれぞれの修復ステーションに
おいて、発生することが要求される。この位置はフィー
ルドにおける文字位置を示し、文字に先行するバイト数
は示さない。

【０１２３】ＭＧＤＳメッセージ５０Ｂは、ＬＡＮ２０
を介して人工知能誤り訂正プロセッサ２８に転送され、
そのフィールド・セグメントが誤りを有するフィールド
の第１の修復を実行するために使用される。訂正プロセ
ッサ２８はいくつかの実施例における文字認識プロセッ
サ２６の一部に相当する。人工知能誤り訂正処理の例
は、文字認識プロセッサ２６により生成される文字スト
リングの語彙テストに相当する。一般に、書式の特定の
フィールドに含まれるデータは、全ての文字ストリング
が許容されるわけではないと言った意味において制約さ
れる。量フィールドは典型的には数値データにより充填
され、名前フィールドは典型的にはアルファベット・デ
ータにより充填される。こうした制約は文字認識訂正に
おいて有用である。例えば、特定のフィールドが数値だ
けの場合、フィールド内の懐疑文字と数値との比較が適
切となる。こうした例としてジップ・コード・フィール
ドが挙げられ、ジップ・コード・フィールドのイメージ
における１個以上の数値文字は懐疑的であるか読出され
ない。書式における州、或いは、特に州及び市に対応す
るフィールドが未認識文字を有さずに読出される場合、
語彙解析はジップ・コード・ディレクトリに相当するデ
ータ・ベースを使用することにより、ジップ・コード・
フィールド内の拒絶文字或いは懐疑文字に対応する最も
可能性の高い数値を記入して実行される。特定のタイプ
のフィールドに対し桁だけではなく、文字及び句読点も
読出し誤りされた文字の位置或いは文脈から推論され
る。例えば、特定のフィールドが州フィールドであり、
フィールド内に読出し誤り文字が存在する場合、５０州
のリストが語彙分析のために使用され、正確に認識され
た文字に対する最高確率の一致が見い出され、拒絶文字
或いは懐疑文字に対応する値の推論を可能とする。

【０１２４】本発明における別の応用例は、共通英語の
名前或いはファースト・ネームの場合である。ＭＧＤＳ
５０Ｂは人工知能誤り訂正プロセッサ２８に入力さ
れ、ファースト・ネーム・フィールド１６∧∧は文字イ
メージ１８である文字"John"を含む。文字認識プロセッ
サ２６からの出力文字ストリング４２"Ja*n"は、語彙解
析を使用することにより誤り訂正プロセッサ２８におい
て処理される。ストリング４２内の第２番目の文字に対
応する第２の推測文字"o" もまた、語彙解析を使用して
テストされ、その結果"Jo*n"がテストされる。この場
合、語彙解析は最初の文字が"J"であり、最後の文字が"
n"である４文字を有する任意の名前に対して実施され
る。語彙解析の結果、"Joel"、"Jack"、"John"、"Jak
e"、"Jane"、"Jean"、"Jill"、"Joan"、"Judy"、及び"J
une"が候補名のリストに挙げられる。人工知能訂正プロ
セッサ２８により実行されるこの語彙解析の例では、第
１の修復を発生するために、入力ＭＧＤＳメッセージ５
０Ｂはそのフィールドに関連する情報を供給する。供給
された情報はストリング４２"Ja*n"の文字データ・バッ
ファＢからのストリング及び第２番目の文字位置に対応
する第２の推測文字すなわち"o" である。人工知能訂正
プロセッサ２８はその語彙解析から、ストリング"Joan"
が５０パーセントの確率を有し、ストリング"John"が５
０パーセントの確率を有すると判断する。

【０１２５】人工知能訂正処理２８Ａは図２４及び図２
５のオペレーション・ステップ・シーケンスの流れ図に
示される。処理はステップ１３８で開始され、ＭＧＤＳ
メッセージ５０Ｂを入力する。次にステップ１４０にお
いて、ループが開始され、次のフィールド・データ・セ
グメントの懐疑文字返却コードＳＣ及び拒絶文字返却コ
ードＲＣが調査され、そのフィールドに対応して、懐疑
文字或いは拒絶文字が存在するかが判断される。図４の
第１のフィールド・データ・セグメント５２Ｂで示され
るように、文字認識プロセッサ２６は懐疑文字或いは拒
絶文字が存在しなかったものと判断する。従って、ステ
ップ１４０は次のフィールド・データ・セグメント５４
Ｂに移行し、このフィールドに対応して、懐疑文字或い
は拒絶文字が存在するかを判断する。図４で示されるよ
うにフィールド・データ・セグメント５４Ｂは１に等し
い懐疑文字ＳＣ返却コード、及び１に等しい拒絶文字Ｒ
Ｃ返却コードが存在することを示す。

【０１２６】次に図２４の処理はステップ１４１に遷移
し、ここで本発明によれば、第１修復セグメントＲ１が
図４に示されるＭＧＤＳメッセージ５０Ｂに追加され、
図５に示されるＭＧＤＳメッセージ５０Ｃが生成され
る。第１修復セグメントＲ１は修復の履歴の編集のため
の空間を提供し、これは人工知能訂正処理２８Ａによ
り、図４のフィールド・データ・セグメント５４Ｂの文
字データ・バッファＢの内容に対して生成される。第１
修復セグメントＲ１は人工知能誤り訂正プロセッサ２８
における修復アドレス、訂正タイプの識別、修復タイム
・スタンプ、実行オペレーションなどのデータ、及びフ
ィールド名、修復される文字の位置などのフィールド修
復に関する情報、及び以降で説明される他の情報などを
含む。

【０１２７】図２４の処理２８Ａは次にステップ１４２
に遷移し、図４のフィールド・データ・セグメント５４
ＢのバッファＢからコード化データ４２"Ja*n"を獲得す
る。

【０１２８】次にステップ１４４において、この例の場
合にはどのタイプの人工知能誤り訂正処理が使用される
べきかを判断する。これはもちろんそれぞれのフィール
ドに含まれる情報のタイプに依存する。例えば、ファー
スト・ネーム・フィールド１６∧∧はファースト・ネー
ムを含み、コード化データ４２"Ja*n"と類似な従来のフ
ァースト・ネームの語彙解析を実行することが適切であ
る。またフィールドが例えばフィールド１２ａ∧∧など
の州名の略字に対応する場合、図９の第３のフィールド
・データ・セグメントの文字ストリング４２∧ "FA"と
類似な従来の州名及びそれらの略字の語彙解析を適用す
ることが適当である。

【０１２９】従って、図２４のステップ１４４はフィー
ルド・データ・セグメント５４Ｂにおけるフィールド名
６８がファースト・ネームであるかを判断し、そうであ
る場合、次に"ファースト・ネーム"語彙処理が実行され
る。これはステップ１４５への遷移により発生し、コー
ド化データを共通ファースト・ネームのリストと比較す
る。ステップ１４８はステップ１４８に遷移し、ここで
語彙チェックを実行する。

【０１３０】また、フィールド名６８が"ファースト・
ネーム"ではないが、その代わりにステップ１４６がフ
ィールド名６８が"州"であると判断する場合、次にステ
ップ１４６は"州略字"語彙処理を実行する。これはステ
ップ１４７に遷移して実行され、ここではコード化デー
タを州略字リストと比較する。ステップ１４７は次にス
テップ１４８に遷移し、語彙チェックを実行する。

【０１３１】ステップ１４８は懐疑文字２７"a" を含む
コード化データ４２"Ja*n"の語彙チェックを実行し、選
択語彙処理を使用することにより第１確率値を計算す
る。この場合、選択語彙処理は前述の"ファースト・ネ
ーム"語彙処理である。

【０１３２】次に図２４の処理２８Ａは図２５のステッ
プ１４９に遷移し、第２推測文字２９を獲得する。この
場合、これは図４に示されるフィールド・データ・セグ
メント５４Ｂからの文字"o" であり、この場合、第２の
推測コード化データ４６である"Joan"が形成される。

【０１３３】次に処理２８Ａはステップ１５０に遷移
し、第２推測コード化データ４６の語彙チェックが実行
され、選択語彙処理を使用することにより、第２確率値
が計算される。この場合、選択語彙処理は"ファースト
・ネーム"語彙処理である。

【０１３４】次にステップ１５２において、第２推測コ
ード化データ４６に対応する第２確率が、第１推測コー
ド化データ４２に対応する第１確率よりも大きい場合、
本発明によれば、コード化データ４２"Ja*n"は図５のＭ
ＧＤＳ５０Ｃ内のデータ・バッファＢから転送され、
第１修復セグメントＲ１の入力データ修復部分３７に配
置される。次に第２推測コード化データ４６"Joan"が図
５のフィールド・データ・セグメント５４Ｃのデータ・
バッファＢにロードされる。このように、フィールド１
６∧∧を表す文字ストリングの最適な予測が、フィール
ド・データ・セグメントのコード化データ部分７５の文
字データ・バッファＢに含まれる。

【０１３５】次にステップ１５４において、フィールド
１６∧∧内のイメージを表すコード化データ４６の確率
３９が図５に示される第１修復セグメントＲ１にロード
される。この場合、文字ストリング"Joan"がフィールド
１６∧∧を表す確率は５０パーセントである。

【０１３６】次に処理２８Ａはステップ１５６に遷移
し、コード化データに対応するクラスタ・データ或いは
代替選択４８を第１修復セグメントＲ１にロードする。
人工知能誤り訂正プロセッサ２８はフィールド１６∧∧
のコード化データ表現に対する代替選択を文字ストリン
グ"John"４８と判断し、これが図５に示されるように、
第１修復セグメントＲ１に配置される。

【０１３７】次にステップ１５８において、修復プロセ
ッサ・アドレス"２８"及びプロセッサ２８における修復
のタイム・スタンプが、第１修復セグメントＲ１にロー
ドされる。

【０１３８】処理は次にステップ１６０に遷移し、別の
フィールド・データ・セグメントが存在するかを判断し
存在する場合には、処理はループの開始であるステップ
１４０に遷移する。この場合、図９のＭＧＤＳ５０Ｂ
内の次のフィールド・データ・セグメントは、州フィー
ルド１２ａ∧∧に対応するフィールド・データ・セグメ
ント５６Ｂである。人工知能訂正処理２８Ａはステップ
１４６において、フィールド名６８が"州"であると判断
し、"州略字"語彙処理を実行する。その結果、文字スト
リング４６∧ "FL"がフィールド１２ａ∧∧に対応する
より可能性の高い記述であると判断する。従って、ステ
ップ１５２はコード化データ４２∧ "FA"を図１０の修
復セグメントＲ１∧ のロケーション３７に転送し、ま
た第２推測コード化データ４６∧ "FL"を図１０のフィ
ールド・データ・セグメント５６Ｃのコード化データ部
分７５∧∧の文字データ・バッファＢにロードする。こ
のように、州フィールド１２ａ∧∧のイメージを表すと
思われる最も可能性の高い文字ストリングが、フィール
ド・データ・セグメント５６Ｃのコード化データ部分７
５∧∧の文字データ・バッファＢには存在する。

【０１３９】処理２８Ａのステップ１６０が、解析され
るべき別のフィールド・データ・セグメントがもはや存
在しないと判断すると、次に処理はステップ１６２に遷
移し、図１３に示されるＭＧＤＳメッセージ５０Ｃを出
力する。図１３に示されるＭＧＤＳメッセージ５０Ｃは
６個のフィールド・データ・セグメントを含む。６個の
フィールド・データ・セグメントに加え、２個の修復セ
グメントが存在し、Ｒ１はファースト・ネームに対応す
る第２のフィールドに関連し、修復セグメントＲ１∧
は州に対応する第３のフィールドに関連する。第１のフ
ィールド・データ・セグメント５２は、ＭＧＤＳ５０
Ｂより変更の無いバッファＢを有する。ＭＧＤＳ５０
Ｃに対応するフィールド・データ・セグメント５４は、
新たな文字ストリング"Joan"に変更されたバッファＢを
有する。ＭＧＤＳ５０Ｃにおける第３の州フィールド
・セグメント５６は、文字ストリング"FL"に変更された
バッファＢを有する。第４、第５、及び第６のフィール
ド・セグメントである１２ｂ、４４、及び１２は、それ
ぞれＭＧＤＳ５０Ｃにおいて無変更であり、ＭＧＤＳ
５０Ｂのままである。ファースト・ネーム・フィール
ドを修復した追加の修復セグメントＲ１は、文字ストリ
ング"Ja*n"を含むバッファ３７を有する。州フィールド
を修復した第２の修復セグメントＲ１∧ は、ストリン
グ"FA"を含むバッファ３７を有する。ここで修復の履歴
は修復セグメントＲ１及びＲ１∧ が存在する書式にお
けるＭＧＤＳ５０Ｃ内に蓄積されることが理解され
る。更に、図１９の抽出フィールド・イメージ１０∧∧
における各それぞれのフィールドを表す文字ストリング
の最適な予測が、ＭＧＤＳ５０Ｃ内の各フィールド・
データ・セグメントに対応する各それぞれの文字バッフ
ァＢ内に存在する。

【０１４０】図５において、ＭＧＤＳメッセージ５０Ｃ
は誤り訂正プロセッサ２８により、文字認識プロセッサ
２６から受信されるＭＧＤＳ５０Ｂを使用して形成さ
れる。図５のＭＧＤＳ５０Ｃはプロセッサ２８におけ
る修復アドレスを、ＭＧＤＳ５０Ｂに対して増補された
修復セグメントＲ１に入力している。セグメントＲ１は
また修復ＩＤすなわち人工知能或いは"AI"を有する。更
に修復タイム・スタンプが含まれ、この場合には５時３
分５８秒或いは日である。実行されるオペレーション
は"語彙"として入力され、語彙解析がこの最初の修復に
対応して実行されたことを示す。次に図５のＭＧＤＳ
５０Ｃにおけるフィールド修復包含パラメータは、"フ
ァースト"なるフィールド・ネーム、及び第２の文字或
いはこの例では"1" が使用される文字位置を含む。本発
明によれば、訂正プロセッサ２８において実行される第
１段階の修復は、文字認識プロセッサ２６からの入力Ｍ
ＧＤＳメッセージ５０Ｂに含まれる第１及び第２の選択
情報を利用する。

【０１４１】この時点において、本発明の実施例が如何
に単一の知能的書式プロセッサ２５を使用し、マルチタ
スク形式で書式認識及びフィールド抽出プロセッサ２
４、文字認識プロセッサ２６、及び人工知能誤り訂正プ
ロセッサ２８において実行されるそれぞれの処理を実行
するかについて説明することが適切である。

【０１４２】図２９は知能的書式プロセッサ２５の詳細
体系図を示す。プロセッサ２５はメモリ３０２を含み、
これはバス３２２によりＣＰＵ３１０、大容量記憶装置
３１２、表示及びキーボード３１４、及びＬＡＮアダプ
タ３１６に接続される。スキャナ・アダプタ３１８はス
キャナ２２をバス３２２に接続する。ＬＡＮアダプタ３
１６はＬＡＮ２０をバス３２２に接続する。更に、オプ
ションのＦＡＸ及び通信ネットワーク・アダプタ３２０
がファックス電話線をバス３２２に結合し、データ通信
ネットワークがバス３２２に接続される。ＣＰＵ３１０
は例えばインテル３８６、或いは４８６データ処理装置
である。大容量記憶装置３１２は例えば２００メガバイ
トのハード・ディスク装置などのハード・ディスク記憶
装置であったり、或いはハード・ディスク磁気記憶装置
と光学式読出し／書込み記憶装置との組合せであったり
する。

【０１４３】メモリ３０２はいくつかのコンピュータ・
プログラムを含み、各々は処理を実行するための実行可
能命令のシーケンスである。メモリ３０２は上述のよう
に、スキャナ・プロセッサ２３による処理を実行するた
めのスキャナ・インタフェース・プログラム２３Ａ∧
を含む。メモリ３０２にはまた、バッファ４０のための
区分が含まれる。更に、メモリ３０２には図１６及び図
１７に示されるマスタ書式形式１０Ｆに対応する区分が
提供される。

【０１４４】メモリ３０２は書式認識プログラム２４Ａ
∧ に対応する区分が提供され、これは図２１に示され
る書式認識処理２４Ａを実行する。この区分はまたフィ
ールド抽出プログラム２４Ｂ∧ を含み、これは図２１
に示されるフィールド抽出処理２４Ｂを実行する。書式
認識プログラム２４Ａ∧ 及びフィールド抽出プログラ
ム２４Ｂ∧ の実行の結果、前述のように抽出フィール
ド・イメージ１０∧∧、及びＭＧＤＳ５０Ａが生成さ
れる。

【０１４５】メモリ３０２には文字認識プログラム２６
Ａ∧ に対応する別の区分が提供され、これは図２２乃
至図２３に示される文字認識処理２６Ａを実行する。文
字認識プログラム２６Ａ∧ の実行の結果、ＭＧＤＳ
５０Ｂが生成される。文字認識プログラム２６Ａ∧は書
式認識プログラム２４Ａ∧及びフィールド抽出プログラ
ム２４Ｂ∧ により生成されるＭＧＤＳ５０Ａ上にお
いて作用し、ＭＧＤＳ５０Ｂを生成する。

【０１４６】メモリ３０２には人工知能誤り訂正プログ
ラム２８Ａ∧ に対応する区分が提供され、これは図２
４乃至図２５に示される人工知能処理２８Ａを実行す
る。人工知能誤り訂正プログラム２８Ａ∧は文字認識プ
ログラム２６Ａ∧により生成されるＭＧＤＳ５０Ｂ上
において作用し、ＭＧＤＳ５０Ｃを生成する。

【０１４７】ＩＢＭのOperating System/2、Extended E
ditionなどのマルチタスキング・オペレーティング・シ
ステム３０４がマルチタスキング・モードで使用され
て、メモリ３０２内のプログラムのマルチタスク実行を
制御する。その代わりとして、オペレーティング・シス
テム３０４はアプリケーション・プログラムのマルチタ
スク実行を監視する必要はないが、その代わりにアプリ
ケーション・プログラムはＭＧＤＳ内の特定のデータ・
フィールド・セグメントを処理するために順次的に実行
される。

【０１４８】電話ファクシミリ線をプロセッサ２５に接
続するためのファクシミリ及びネットワーク・アダプタ
３２０は、スキャナ・アダプタ３１８を介し提供される
イメージの代わりに、ファクシミリ・イメージの受信を
可能とする。同様にアダプタ３２０のデータ通信ネット
ワークへの接続は、スキャナ２２によるこうした文書イ
メージ・ファイルの生成の代わりに、ネットワークから
の現存する文書イメージ・ファイルの受信を可能とす
る。

【０１４９】ＭＧＤＳメッセージ５０ＣはＡＩ誤り訂正
プロセッサ２８から、ローカル・エリア・ネットワーク
２０を介し、第２の修復ステーションに相当するデータ
・ベース誤り訂正プロセッサ３０に出力される。データ
・ベース誤り訂正プロセッサ３０は、ホスト・コンピュ
ータ３４上で実行される特定のアプリケーションにおい
て使用される顧客名のデータ・ベースを含む。この例で
はホスト・コンピュータ３４は保険会社における保険書
式の文書イメージ保管システムを管理する。保険会社は
多数の保険顧客を有し、これらの保険顧客のリストはデ
ータ・ベース誤り訂正プロセッサ３０に含まれる。デー
タ・ベース誤り訂正プロセッサ３０に入力されるＭＧＤ
Ｓ５０Ｃにおける提示される文字ストリングを比較す
ることにより、特定のホスト・コンピュータ・アプリケ
ーションにおけるある保険顧客の実際の名前と同じ文字
ストリングが選択される。この例では、ＭＧＤＳ５０
ＣはＡＩ誤り訂正プロセッサ２８からデータ・ベース誤
り訂正プロセッサ３０に入力され、ここで第２の修復セ
グメントＲ２が追加される。第２の修復セグメントＲ２
はプロセッサ３０により実行される第２の修復を特徴づ
ける。本発明の別の実施例では、データ・ベース誤り訂
正プロセッサ３０はマルチタスク・アプリケーションに
おいて、同一のプロセッサ２５内における人工知能誤り
訂正プロセッサ２８及び文字認識プロセッサ２６と組合
わされる。

【０１５０】データ・ベース誤り訂正プロセッサ３０は
文字データ・バッファＢから好適な選択文字ストリン
グ"Joan"４６を取得し、全ての保険顧客名を含むデータ
・ベースとの比較を実行する。"Joan Doe"との一致が存
在しないことが見いだされる。次に、データ・ベース誤
り訂正プロセッサ３０はＭＧＤＳ５０Ｃから受信され
る代わりの選択４８"John"を取得し、これをデータ・ベ
ース内の保険顧客名との比較に適用する。比較は成功
し、"John Doe"が見い出される。この第２の修復オペレ
ーションの結果、ストリング４６"Joan"を有する文字デ
ータ・バッファＢの内容が、第２の修復セグメントＲ２
内の入力データ修復部分３７に転送される。次に、文字
データ・バッファＢの内容として、文字ストリング４
８"John"に対応する修復値がロードされる。

【０１５１】図２６はデータ・ベース誤り訂正プロセッ
サ３０により実行されるデータ・ベース誤り訂正処理３
０Ａを表す。処理は図５で示されるＭＧＤＳメッセージ
５０Ｃを入力するステップ１６４で開始される。次にス
テップ１６６において、ループが開始される。第１のフ
ィールド・データ・セグメント５２ＣはＭＧＤＳ５０
Ｃからアクセスされ、これはラスト・ネーム・フィール
ド１４∧∧である第１のフィールドに対応し、懐疑文字
返却コード或いは拒絶文字返却コードがゼロでない値を
有するかが判断される。第１のフィールド１４∧∧は既
に十分に解析されているので、ステップ１６６は次のフ
ィールド・データ・セグメント５４Ｃを獲得するために
ループする。

【０１５２】ステップ１６６は、図５において見られる
ようにファースト・ネーム・フィールド１６∧∧に対応
するフィールド・データ・セグメント５４Ｃが１に等し
い懐疑文字返却コード、及び１に等しい拒絶文字返却コ
ードを有するかを判断する。ステップ１６６は更に、第
１修復セグメントＲ１が１００パーセントよりも小さな
確率値を有すかどうかを判断する。この場合のフィール
ド・データ・セグメント５４Ｃでは、対応する修復セグ
メントＲ１は５０パーセントの確率値を有するため、ス
テップ１６６の基準に適合する。

【０１５３】図２６のステップ１６８において、第２修
復セグメントＲ２がＭＧＤＳ５０Ｃに追加され、図６
に示されるＭＧＤＳ５０Ｄが形成される。第２修復セ
グメントＲ２は、データ・ベース誤り訂正処理３０によ
り、図６のフィールド・データ・セグメント５４Ｄのコ
ード化データ部分７５のバッファＢ内の文字データに対
して実行される修復履歴を記憶する空間を提供する。

【０１５４】次に図２６のステップ１７０において、文
字ストリング"Joan"に相当するコード化データ４６がフ
ィールド・データ・セグメント５４Ｃ内のデータ・ベー
ス・バッファＢから獲得される。次にステップ１７２に
おいて、コード化データ４６"Joan"に対するデータ・ベ
ース・チェックが実行され、第１確率値が計算される。

【０１５５】次にステップ１７４において、この場合に
は文字ストリング"John"に相当する代替選択コード化デ
ータ４８が、図５に示される第１修復セグメントＲ１か
ら獲得される。次にステップ１７６において、代替選択
コード化データ４８に対しデータ・ベース・チェックが
実行され、第２確率値が計算される。

【０１５６】次にステップ１７８において、コード化デ
ータ４８に対し計算された第２確率値がコード化データ
４６に対し計算された第１確率値よりも大きいかどうか
が判断され、フィールド・データ・セグメント５４Ｃの
データ・バッファＢ内のコード化データ４６"Joan"が、
図６に示される第２修復セグメントＲ２の入力データ修
復バッファ４３に転送される。次に代替選択コード化デ
ータ４８"John"が図６に示される文字データ・バッファ
Ｂにロードされる。このように、フィールド１６∧∧の
イメージを表す最適な予測を有する文字ストリングが、
図６のフィールド・データ・セグメント５４Ｄの文字デ
ータ・バッファＢに存在する。

【０１５７】次に図２６の処理はステップ１８０に遷移
し、図６に示されるようにコード化データ４８"John"に
対応する確率値４１を第２修復セグメントＲ２にロード
する。データ・ベース誤り訂正プロセッサ３０はコード
化データ４８"John"に対応する確率を１００パーセント
と判断している。

【０１５８】次に処理はステップ１８４に遷移し、解析
される別のフィールド・データ・セグメントが存在する
かを判断し存在する場合には、処理はステップ１６６に
ループして戻る。

【０１５９】この例では、次のフィールド・データ・セ
グメントは図１０に示される第３のフィールド・データ
・セグメント５６Ｃである。対応する修復セグメントＲ
１∧は州フィールドに対応する文字ストリング４６∧ "
FL"の確率３９を１００パーセントと示す。従って、ス
テップ１６６はデータ・ベース誤り訂正処理３８におけ
るこのフィールド・データ・セグメントの更なる処理の
基準が充足されていないと判断する。そこでループは処
理３８で処理すべき追加のフィールド・データ・セグメ
ントの探索を継続する。この例では処理すべき他のフィ
ールド・データ・セグメントが存在しないため、ステッ
プ１８４はステップ１８６に遷移し、図１４に示される
ＭＧＤＳメッセージを５０Ｄを出力する。

【０１６０】図１４に示されるＭＧＤＳ５０Ｄは６フ
ィールド・データ・セグメント及び３修復セグメントを
有する。６フィールド・データ・セグメントは図１９の
抽出フィールド・イメージ１０∧∧に存在する６フィー
ルドに対応する。ＭＧＤＳ５０Ｄの各それぞれのフィ
ールド・データ・セグメントにおけるバッファＢは、抽
出フィールド・イメージ１０∧∧の対応するフィールド
内の文字イメージの最適現行予測に相当する文字ストリ
ングを含む。更に文字認識修復履歴が３つの修復セグメ
ントＲ１、Ｒ１∧ 及びＲ２の書式に生成される。これ
ら３つの修復セグメントの存在は、それぞれのフィール
ド・データ・セグメントの後続の解析を支援する。これ
ら３つの修復セグメントの存在はまた、全体的な文字認
識処理を改善するための監査証跡を提供する。

【０１６１】誤り訂正プロセッサ３０は修復アドレス"3
0"をセグメントＲ２にロードし、この場合の修復ＩＤす
なわちデータ・ベース"DB"を第２のセグメントＲ２にロ
ードし、更に修復タイム・スタンプの５時４分１秒をＲ
２の修復タイム・スタンプ・パラメータにロードする。
実行オペレーションが"DATA BASE" としてセグメントＲ
２にロードされ、その時、Ｒ２におけるそれらのフィー
ルド修復包含パラメータにはファースト・ネームを示
す"FIRST" がロードされ、文字位置として変更された文
字がストリング内における３番目の文字に相当すること
を示す"2" がロードされる。データ・ベース照会もまた
入力され、セグメントＲ２において "顧客名" として特
徴化される。更に、確率レベルを示す１００パーセント
がセグメントＲ２に入力される。データ・ベース誤り訂
正プロセッサ３０から出力される完了済みのＭＧＤＳメ
ッセージ５０Ｄを図６に示す。

【０１６２】ＭＧＤＳ５０Ｄは次にローカル・エリア
・ネットワーク２０を介して、手動検査及び訂正プロセ
ッサ３２に転送される。

【０１６３】手動検査及び誤り訂正プロセッサ３２はＭ
ＧＤＳ５０Ｄを受取り、これを第３の修復セグメント
Ｒ３に追加する。アプリケーションに応じて、要求され
る手動検査は特定のフィールドに対応してフラグ化され
た文字ストリングの順次的訂正の結果実行される。

【０１６４】データ・ベース誤り訂正プロセッサ３０か
ら出力され、手動検査及び訂正プロセッサ３２により受
信されるＭＧＤＳメッセージ５０Ｄは、プロセッサ３０
においてオペレータにより検査された文字データ４８"J
ohn"を含む。訂正プロセッサ３２は第３の修復段階に対
応して第３の修復セグメントＲ３を追加し、実際の修復
或いは単に妥当性検査が実行される。修復アドレス"32"
及びオペレータ"Jones" の識別がセグメントＲ３に入力
される。また、修復タイム・スタンプとして５時５分１
５秒がセグメントＲ３に入力される。実行オペレーショ
ンは"検査"としてセグメントＲ３に示される。アプリケ
ーションが要求する文字或いは全ストリングに対応する
座標が、当初文字認識プロセッサ２６により生成された
拒絶文字情報Ｓから抽出される。これらはフィールドに
おけるイメージ・ビット・マップ及び文字認識プロセッ
サ２６より識別される拒絶文字或いは懐疑文字のロケー
ションの座標を示す。訂正プロセッサ３２はフィールド
がオペレータに表示される時に、それらを強調表示及び
／或いは拡大するために、これらの座標を使用する。文
書イメージ１０∧ のコピーはＬＡＮ２０を介し訂正プ
ロセッサ３２に渡され、オペレータにより見られる。拒
絶文字或いは懐疑文字の座標により指定されるロケーシ
ョンは、表示される文書イメージのその部分を強調表示
及び／或いは拡大するために使用される。オペレータは
次に文書イメージの強調表示部分を、同様にプロセッサ
３２の表示画面上に英数字文字により表示される文字ス
トリング４８"John"と迅速に比較することができる。オ
ペレータがストリング４８"John"の表示を容認すると、
次に検査容認がセグメントＲ３に記録される。検査の指
摘がセグメントＲ３に入力され、例えばコメント部分と
して記入される。

【０１６５】また、オペレータがストリング４８をスト
リング４９"JOHN"に変更するために、全ての文字を大文
字化するような変更を望む場合、本発明によればストリ
ング４８は文字データ・バッファＢからセグメントＲ３
の入力データ修復部分５５に転送される。次にプロセッ
サ３２は訂正値ストリング４９"JOHN"を文字データ・バ
ッファＢにロードする。フィールド名、文字位置、及び
コメントなどの他の適切なフィールドがセグメントＲ３
に記入される。

【０１６６】手動検査及び訂正処理３２Ａを図２７及び
図２８に示す。処理は図６に示すＭＧＤＳメッセージ５
０Ｄを入力するステップ１８８で開始される。次にステ
ップ１９０において、ループが開始される。ＭＧＤＳ
５０Ｄ内の各フィールド・データ・セグメントが調査さ
れ、懐疑文字ＳＣ返却コード或いは拒絶文字ＲＣ返却コ
ードがゼロでないか、また１００パーセントよりも小さ
な確率４１を有する対応する第２の修復セグメントＲ２
が存在するかが判断される。更にステップ１９０におい
て他の選択基準も適用可能であり、オペレータが特定の
書式に対応する特定のＭＧＤＳを要求することも可能で
ある。この例では、オペレータは図１８の走査書式イメ
ージ１０∧の第２のフィールド１６∧を選択し調査す
る。これはファースト・ネーム・フィールドであり、図
６のＭＧＤＳ５０Ｄにおける対応するフィールド・デ
ータ・セグメント５４Ｄが、図２７乃至図２８の処理３
２Ａによりオペレートされる。

【０１６７】次の処理はステップ１９２に遷移し、第３
の修復セグメントＲ３を図６のＭＧＤＳメッセージ５０
Ｄに追加し、図７のＭＧＤＳメッセージ５０Ｅを形成す
る。修復セグメントＲ３は手動検査及び訂正プロセッサ
３２により図６のデータ・セグメント５４Ｄのコード化
データ部分７５のバッファＢ内の文字ストリング４８"J
ohn"に対し実行される修復ステップの履歴の記録のため
の空間を提供する。

【０１６８】処理は次にステップ１９４に遷移し、コー
ド化データ４８"John"を図６のフィールド・データ・セ
グメント５４ＤのバッファＢから獲得する。

【０１６９】次にステップ１９６において、コード化デ
ータ４８"John"が修復オペレータに表示される。次にス
テップ１９８において、図１８の書式文書イメージ１０
∧ がアクセスされ、修復オペレータに表示される。

【０１７０】次にステップ２００において、本発明によ
れば懐疑文字イメージの座標２１及び拒絶文字イメージ
の座標３１がフィールド・データ・セグメント５４Ｄか
ら獲得される。次にステップ２０２において、懐疑文字
及び拒絶文字の位置に対応する文字イメージが表示画面
内で強調表示及び／或いは拡大されて修復オペレータに
示される。図２０のフィールド・イメージ１６∧ では
修復オペレータに対し、懐疑文字位置２１及び拒絶文字
位置３１が強調表示される。

【０１７１】ステップ２０４において、オペレータは次
に訂正コード化データ４９をオペレータ・キーボードか
ら入力する。この場合、オペレータは文字ストリング４
８"John"を大文字４９"JOHN"に変更することを望むとす
る。

【０１７２】次にステップ２０６において、本発明によ
ればコード化データ４８がデータ・バッファＢから第３
の修復セグメントＲ３のバッファ５５に転送され、図７
に示されるように、訂正コード化データ４９がバッファ
Ｂにロードされる。このようにして図１８の書式イメー
ジ１０∧のフィールド１６∧内のイメージを表す文字ス
トリングの最適な予測が、図７に示されるＭＧＤＳ５
０Ｅのフィールド・データ・セグメント５４Ｅのコード
化データ部分７５に相当する文字データ・バッファＢ内
に存在する。

【０１７３】次に図２８のステップ２０８において、オ
ペレータは第３修復セグメントＲ３にコメントをロード
する。次にステップ２１０は修復プロセッサ・アドレス
及びタイム・スタンプを第３修復セグメントＲ３にロー
ドする。

【０１７４】処理３２Ａのステップ２１２は処理される
べき別のフィールドが存在するかを判断する。この例で
は、修復オペレータは手動検査及び訂正プロセッサ３２
において、図１０の文字ストリング４６∧ "FL"を変更
することを望む。オペレータは３文字の略字"Fla" への
変更を望む。これは図１５のフィールド・データ・セグ
メント５６に示され、バッファＢは文字ストリング"Fl
a" を含む。従って、追加の修復セグメントＲ３∧ がＭ
ＧＤＳ５０Ｅに追加され、バッファ５５は図１０のバ
ッファＢから獲得された文字データ４６∧ "FL"を含
む。

【０１７５】この例では、手動検査及び訂正処理３２Ａ
により処理するべき他のフィールドは存在しない。従っ
て、処理はステップ２１４に遷移し、図１５に示される
ＭＧＤＳメッセージ５０Ｅを出力する。図１５に示され
るＭＧＤＳメッセージ５０Ｅは６個のフィールド・デー
タ・セグメントを及び５個の修復セグメントを有する。

【０１７６】図１５はＭＧＤＳ５０Ｅの書式を示し、
修復履歴記憶装置３８へ記憶するために、ホスト・コン
ピュータ３４に出力される。ＭＧＤＳ５０Ｅを修復履
歴記憶装置３８に記憶する以前に、ホスト・コンピュー
タ３４は図１８の書式１０∧の６個の各フィールドにお
ける各フィールド・データ・セグメントに対応するバッ
ファＢの内容を取出し、各バッファＢの内容を書式内の
対応するフィールドのイメージを表す文字ストリングの
最適な予測として記憶する。ＭＧＤＳ５０Ｅのフィー
ルド・セグメント５２からのコード化データは、バッフ
ァＢに"Doe" として含まれる。このコード化データは図
１８の走査書式イメージ１０∧ のラスト・ネーム・フ
ィールド１４∧ を表すものとして、ホスト・コンピュ
ータ３４によりコード化データ記憶装置３５に記憶され
る。同様に、文字ストリング"JOHN"を含むフィールド・
データ・セグメント５４に対応するバッファＢは、走査
書式イメージ１０∧のファースト・ネーム・フィールド
１６∧を表す文字ストリングの最適な予測として、ホス
ト・コンピュータ３４によりコード化データ記憶装置３
５に記憶される。同様に、文字ストリング"Fla" を含む
フィールド・データ・セグメント５６のバッファＢの内
容は、図１８の走査書式イメージ１０∧ の州フィール
ド１２ａ∧ の最適な予測として、ホスト・コンピュー
タ３４によりコード化データ記憶装置３５に記憶され
る。

【０１７７】後にホスト・コンピュータ３４が、ＭＧＤ
Ｓ５０Ｅ内の特定のフィールド・データ・セグメント
に対応するバッファＢ内の文字ストリングの修復方法に
関する監査を実施ように命令される場合、そのフィール
ドの文字認識に関する修復の履歴が、修復履歴記憶装置
３８からＭＧＤＳ５０Ｅをアクセスすることにより確
認される。監査されるフィールドに対応する各それぞれ
の修復セグメントは、どのようにして修復が実行された
かを判断するために調査される。例えば、ファースト・
ネーム・フィールド１６∧ を表す第２のフィールド・
セグメント５４に対応して、文字認識修復の監査はフィ
ールド・データ・セグメント５４、修復セグメントＲ
３、修復セグメントＲ２、及び修復セグメントＲ１をこ
の順序で調査する。これはＭＧＤＳ５０Ｅのフィール
ド・データ・セグメント５４に含まれるフィールドの最
後の最適予測から逆方向に作用することを可能とし、す
なわち、そのフィールドに対し実行された修復に対する
逆シーケンスが可能となる。こうした監視が全体的な修
復処理を改善するために実施される場合、修復の各段階
が如何に実行されたかに関する明確な指摘が、ＭＧＤＳ
５０Ｅ内の修復セグメントにより表される集合的な修
復履歴から明らかにされる。

【０１７８】結果的に生ずるＭＧＤＳメッセージ５０Ｅ
は、ファースト・ネーム・フィールド１６の内容に対し
て実行される順序的修復の履歴を含む。ＭＧＤＳメッセ
ージ５０Ｅは次にＬＡＮ２０を介して、一時記憶用のバ
ッファ記憶装置４０∧ に転送される。また、このメッ
セージは長期間記憶のために、修復履歴記憶装置３８に
も転送される。また、ホスト・コンピュータ３４にも転
送され、ストリング４９に相当するフィールド・データ
・セグメント５４のコード化データ・バッファＢの内容
が、コード化データ記憶装置３５にロードされる。この
内容は例えば指標値として使用され、アプリケーション
が文書イメージ１０∧ を記憶するために、保険顧客名
を指標値として使用する。

【０１７９】手動検査及び訂正プロセッサ３２は図３０
にその詳細体系図が示される。プロセッサ３２はメモリ
４０２を含み、これはバス４２２によりＣＰＵ４１０、
大容量記憶装置４１２、表示及びキーボード４１４、Ｌ
ＡＮアダプタ４１６、及びファクシミリ及びネットワー
ク・アダプタ４２０に接続される。ＬＡＮアダプタ４１
６はＬＡＮ２０をバス４２２に接続する。ＦＡＸ及びネ
ットワーク・アダプタ４２０はファクシミリ電話線をバ
ス４２２に接続し、これはデータ通信ネットワーク線を
バス４２２に接続する。

【０１８０】プロセッサ３２のメモリ４０２はいくつか
の区分を含み、これらは上述の処理を実行するための実
行可能命令シーケンスに相当するコンピュータ・プログ
ラムを含む。特に、手動検査及び訂正プログラム３２Ａ
∧ がメモリ４０２に記憶され、その命令がＣＰＵ４１
０によりに実行される時、図２７乃至図２８の手動検査
及び訂正処理３２Ａが実行される。

【０１８１】メモリ４０２はまた図６に詳細に示される
ＭＧＤＳ５０Ｄを受信及び記憶するための区分を含
む。メモリ４０２は更に書式文書イメージ１０∧ を受
信及び記憶するための区分を有する。

【０１８２】メモリ４０２はまた表示バッファ区分４２
４を有し、ここには書式文書イメージ１０∧ が強調表
示領域５８と共にアセンブルされる。強調表示領域はフ
ィールド・イメージ１６∧ 上の懐疑文字位置２１及び
拒絶文字位置３１にスーパーインポーズされる。この合
成イメージは次にプロセッサ３２において、オペレータ
に表示される。更に、表示バッファはコード化データ４
８"John"についても、前述のようにオペレータに表示さ
れるようにアセンブルする。コード化データ４８はＭＧ
ＤＳ５０Ｄのコード化データ部分７５の文字データ・
バッファＢから獲得される。メモリ４０２内の表示バッ
ファ４２４は、表示装置４１４上にその内容が表示され
る。オペレータは代替文字ストリング４９"JOHN"をキー
ボードから入力する。

【０１８３】

【発明の効果】以上説明したように本発明によれば、文
書フィールドの情報内容の最適な予測が、文字修復の次
のステージにおいて即座に使用可能となる。また、修復
の各ステージにおいて、最適な代替試行ストリング及び
第２推測文字が修復の次のステージに対応する類別フィ
ールドに対し、即座に使用可能となる。本発明は前回の
修復ステージの結果、生ずる試行ストリングの確率レベ
ルを次の修復ステージにおいて、即座に使用可能とする
ことにより認識処理の性能を最大化する。これはある確
率値を有するフィールドに対する引き続く修復の回避を
可能とする。結局、本発明は各類別フィールドの修復の
履歴を即座に使用可能とすることにより、全体的な認識
処理の監査を可能とする。

【図面の簡単な説明】

【図１】本発明の全体的体系図である。

【図２】本発明の全体的体系図である。

【図３】書式認識及びフィールド抽出プロセッサ２４か
ら出力される機械生成データ構造（ＭＧＤＳ）５０Ａを
表す図である。

【図４】文字認識プロセッサ２６から出力されるＭＧＤ
Ｓ５０Ｂを表す図である。

【図５】人工知能誤り訂正プロセッサ２８から出力され
る第１の修復セグメントＲ１を含むＭＧＤＳ５０Ｃを
表す図である。

【図６】データ・ベース誤り訂正プロセッサ３０から出
力される第２の修復セグメントＲ２を含むＭＧＤＳ５
０Ｄを表す図である。

【図７】手動検査及び訂正プロセッサ３２から出力され
る第３の修復セグメントＲ３を含むＭＧＤＳ５０Ｅを
表す図である。

【図８】第３のフィールド・データ・セグメント５６Ａ
を生成した後の機械生成データ構造（ＭＧＤＳ）５０Ａ
を表す図である。

【図９】第３のフィールド・データ・セグメント５６Ｂ
に対応する、文字ストリング及び誤り情報を生成した後
のＭＧＤＳ５０Ｂを表す図である。

【図１０】第３のフィールド・データ・セグメント５６
Ｃに対応する、修復セグメントＲ１∧ を生成した後の
ＭＧＤＳ５０Ｃを表す図である。

【図１１】フィールド・イメージ４４∧∧を有する第５
のフィールド・データ・セグメントを生成した後のＭＧ
ＤＳ５０Ｂを表す図である。

【図１２】文字認識プロセッサ２６が書式の全６フィー
ルドにおけるオペレーション完了後のＭＧＤＳ５０Ｂ
を表す図である。

【図１３】人工知能誤り訂正プロセッサ２８が書式の全
６フィールドにおけるオペレーション完了後のＭＧＤＳ
５０Ｃを表す図である。

【図１４】データ・ベース誤り訂正プロセッサ３０が書
式の全６フィールドにおけるオペレーション完了後のＭ
ＧＤＳ５０Ｄを表す図である。

【図１５】手動検査及び訂正プロセッサ３２が書式の全
６フィールドにおけるオペレーション完了後のＭＧＤＳ
５０Ｅを表す図である。

【図１６】マスタ書式１０Ｆを表す図である。

【図１７】図１６のマスタ書式１０Ｆに対応するマスタ
ＭＧＤＳ５０Ｍを表す図である。

【図１８】文書書式の走査書式イメージ１０∧ を表す
図である。

【図１９】図１８の走査書式イメージ１０∧ からの抽
出されたフィールド・イメージ１０∧∧を表す図であ
る。

【図２０】図１８に示される文書書式イメージ１０∧内
のフィールド１６∧に対する処理ステップのシーケンス
を表す図である。

【図２１】書式認識処理２４Ａ及びフィールド抽出処理
２４Ｂに対応するオペレーション・ステップのシーケン
スの流れ図である。

【図２２】文字認識処理２６Ａに対応するオペレーショ
ン・ステップのシーケンスの流れ図である。

【図２３】文字認識処理２６Ａに対応するオペレーショ
ン・ステップのシーケンスの流れ図である。

【図２４】人工知能誤り訂正プロセッサ２８Ａにおける
オペレーション・ステップのシーケンスを示す図であ
る。

【図２５】人工知能誤り訂正プロセッサ２８Ａにおける
オペレーション・ステップのシーケンスを示す図であ
る。

【図２６】データ・ベース誤り訂正処理３０Ａに対応す
るオペレーション・ステップのシーケンスを示す図であ
る。

【図２７】手動検査及び訂正処理３２Ａに対応するオペ
レーション・ステップのシーケンスを示す図である。

【図２８】手動検査及び訂正処理３２Ａに対応するオペ
レーション・ステップのシーケンスを示す図である。

【図２９】知能的書式プロセッサ２５の詳細体系図であ
る。

【図３０】手動検査及び訂正プロセッサ３２の詳細体系
図である。

【図３１】機械生成データ構造（ＭＧＤＳ）パラメータ
間の関係を表す図である。

【図３２】ＭＧＤＳの書式情報部分（ＦＩ）を表す図で
ある。

【図３３】ＭＧＤＳのページ情報部分（ＰＩ）を表す図
である。

【図３４】ＭＧＤＳのフィールド情報形式５４Ａを表す
図である。

【図３５】ＭＧＤＳのコード化データ情報部分７５を表
す図である。

【図３６】ＭＧＤＳの拒絶情報部分Ｓ或いはＲを表す図
である。

【図３７】図１及び図２の結合状態を示す図である。

【符号の説明】

２０ローカル・エリア・ネットワーク（ＬＡＮ）２４書式確認及び訂正プロセッサ２５知能的書式プロセッサ２６文字確認プロセッサ２８人工知能誤り訂正プロセッサ３０データ・ベース誤り訂正プロセッサ３２手動検査及び訂正プロセッサ３６文書イメージ記憶装置３７データ修復部分３８修復履歴記憶装置３４ホスト・コンピュータ６０文書イメージ・ファイル・ポインタ６２スキュー及びオフセット値６４フィールド座標６５固定書式データ６６書式名６７固定フィールド・データ６８フィールド名７０フィールド・タイプ７２書式返却フィールド（ＦＲ）

───────────────────────────────────────────────────── フロントページの続き (72)発明者ティモシー・エス・ベッツアメリカ合衆国20874、メリーランド州ジャーマンタウン、スキップ・ジャック・ドライブ 12113 (72)発明者バレリー・エム・キャラスアメリカ合衆国20895、メリーランド州ケンシントン、ナンバー310、ユニバーシティ・ブールバード 3333、 (72)発明者ルイス・ビー・ネフトアメリカ合衆国20832、メリーランド州オルニー、ジョン・キャロル・ドライブ 3801 (72)発明者トーマス・エル・ポールソンアメリカ合衆国20854、メリーランド州ポトマク、スリーピー・ハロー・レーン 8749 (56)参考文献特開平１−42781（ＪＰ，Ａ) 特開平３−214281（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06K 9/00,9/03

Claims

(57)【特許請求の範囲】

【請求項１】データ処理システムにおける文書書式のデ
ジタル・イメージの文字認識誤りを修復する方法であっ
て、文書書式のデジタル文書イメージを入力し、前記文書イ
メージからフィールド・イメージを抽出し、対応する抽
出フィールド・イメージを形成するステップと、前記抽出フィールド・イメージから認識コード化データ
を生成し、文字認識処理により認識誤りデータを生成す
るステップと、前記抽出フィールド・イメージに対応するコード化デー
タ・バッファ部分及び誤りバッファ部分を含むフィール
ド・データ・セグメントを含む機械生成データ構造（Ｍ
ＧＤＳ）をアセンブルするステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分に挿入し、前記認識誤りデータを前記フィールド
・データ・セグメントの前記誤りバッファ部分に挿入す
るステップと、前記認識コード化データの修復のために、前記ＭＧＤＳ
をコード化データ修復処理に転送するステップと、前記ＭＧＤＳに修復データ・バッファ部分を含む修復セ
グメントを付加するステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分からアクセスし、前記認識誤りデータを前記フィ
ールド・データ・セグメントの前記誤りバッファ部分か
らアクセスし、前記修復処理により修復コード化データ
を生成するステップと、前記修復コード化データを前記フィールド・データ・セ
グメントの前記コード化データ・バッファ部分に挿入
し、前記認識コード化データを前記修復セグメントの前
記修復データ・バッファ部分に挿入するステップと、前記ＭＧＤＳをユーティリゼーション装置に転送し、前
記フィールド・データ・セグメントの前記コード化デー
タ・バッファ部分の内容を、前記認識コード化データの
訂正書式として使用するためにアクセスするステップ
と、を含むことを特徴とする方法。
【請求項２】データ処理システムにおける文書書式のデ
ジタル・イメージの文字認識誤りを修復する方法であっ
て、文書書式のデジタル文書イメージを入力し、前記文書イ
メージからフィールド・イメージを抽出し、対応する抽
出フィールド・イメージを形成するステップと、前記抽出フィールド・イメージから認識コード化データ
を生成し、文字認識処理により認識誤りデータを生成す
るステップと、前記抽出フィールド・イメージに対応するコード化デー
タ・バッファ部分及び誤りバッファ部分を含むフィール
ド・データ・セグメントを含む機械生成データ構造（Ｍ
ＧＤＳ）をアセンブルするステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分に挿入し、前記認識誤りデータを前記フィールド
・データ・セグメントの前記誤りバッファ部分に挿入す
るステップと、前記認識コード化データの修復のために、前記ＭＧＤＳ
を第１のコード化データ修復処理に転送するステップ
と、前記ＭＧＤＳに第１の修復データ・バッファ部分を含む
第１の修復セグメントを付加するステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分からアクセスし、前記認識誤りデータを前記フィ
ールド・データ・セグメントの前記誤りバッファ部分か
らアクセスし、前記第１の修復処理により第１の修復コ
ード化データを生成するステップと、前記第１の修復コード化データを前記フィールド・デー
タ・セグメントの前記コード化データ・バッファ部分に
挿入し、前記認識コード化データを前記第１の修復セグ
メントの前記第１の修復データ・バッファ部分に挿入す
るステップと、前記第１の修復コード化データの修復の
ために、前記ＭＧＤＳを第２のコード化データ修復処理
に転送するステップと、前記ＭＧＤＳに第２の修復データ・バッファ部分を含む
第２の修復セグメントを付加するステップと、前記第１の修復コード化データを前記フィールド・デー
タ・セグメントの前記コード化データ・バッファ部分か
らアクセスし、前記第２の修復処理により第２の修復コ
ード化データを生成するステップと、前記第２の修復コード化データを前記フィールド・デー
タ・セグメントの前記コード化データ・バッファ部分に
挿入し、前記第１の修復コード化データを前記第２の修
復セグメントの前記第２の修復データ・バッファ部分に
挿入するステップと、前記ＭＧＤＳをユーティリゼーション装置に転送し、前
記フィールド・データ・セグメントの前記コード化デー
タ・バッファ部分の内容を、前記認識コード化データの
訂正書式として使用するためにアクセスするステップ
と、を含むことを特徴とする方法。
【請求項３】データ処理システムにおける文書書式のデ
ジタル・イメージの文字認識誤りを修復する方法であっ
て、文書書式のデジタル文書イメージを入力し、前記文書イ
メージからフィールド・イメージを抽出し、対応する抽
出フィールド・イメージを形成するステップと、前記抽出フィールド・イメージから認識コード化データ
を生成し、文字認識処理により認識誤りデータを生成す
るステップと、前記抽出フィールド・イメージに対応するコード化デー
タ・バッファ部分及び誤りバッファ部分を含むフィール
ド・データ・セグメントを含む機械生成データ構造（Ｍ
ＧＤＳ）をアセンブルするステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分に挿入し、前記認識誤りデータを前記フィールド
・データ・セグメントの前記誤りバッファ部分に挿入す
るステップと、前記認識コード化データの修復のために、前記ＭＧＤＳ
を第１のコード化データ修復処理に転送するステップ
と、前記ＭＧＤＳに第１の修復データ・バッファ部分及び代
替データ・バッファ部分を含む第１の修復セグメントを
付加するステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分からアクセスし、前記認識誤りデータを前記フィ
ールド・データ・セグメントの前記誤りバッファ部分か
らアクセスし、前記第１の修復処理により第１の修復コ
ード化データ及び代替コード化データを生成するステッ
プと、前記第１の修復コード化データを前記フィールド・デー
タ・セグメントの前記コード化データ・バッファ部分に
挿入し、前記認識コード化データを前記第１の修復セグ
メントの前記第１の修復データ・バッファ部分に挿入
し、前記代替コード化データを前記第１の修復セグメン
トの前記代替データ・バッファ部分に挿入するステップ
と、前記第１の修復コード化データの修復のために、前記Ｍ
ＧＤＳを第２のコード化データ修復処理に転送するステ
ップと、前記ＭＧＤＳに第２の修復データ・バッファ部分を含む
第２の修復セグメントを付加するステップと、前記第１の修復コード化データを前記フィールド・デー
タ・セグメントの前記コード化データ・バッファ部分か
らアクセスし、前記代替コード化データを前記第１の修
復セグメントの前記代替データ・バッファ部分からアク
セスし、前記第２の修復処理により第２の修復コード化
データを生成するステップと、前記第２の修復コード化データを前記フィールド・デー
タ・セグメントの前記コード化データ・バッファ部分に
挿入し、前記第１の修復コード化データを前記第２の修
復セグメントの前記第２の修復データ・バッファ部分に
挿入するステップと、前記ＭＧＤＳをユーティリゼーション装置に転送し、前
記フィールド・データ・セグメントの前記コード化デー
タ・バッファ部分の内容を、前記認識コード化データの
訂正書式として使用するためにアクセスするステップ
と、を含むことを特徴とする方法。
【請求項４】データ処理システムにおける文書書式のデ
ジタル・イメージの文字認識誤りを修復する方法であっ
て、文書書式のデジタル文書イメージを入力し、前記文書イ
メージからフィールド・イメージを抽出し、対応する抽
出フィールド・イメージを形成するステップと、前記抽出フィールド・イメージから認識コード化データ
を生成し、文字認識処理により誤りロケーション情報を
含む認識誤りデータを生成するステップと、前記抽出フィールド・イメージに対応するコード化デー
タ・バッファ部分及び誤りバッファ部分を含むフィール
ド・データ・セグメントを含む機械生成データ構造（Ｍ
ＧＤＳ）をアセンブルするステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分に挿入し、前記認識誤りデータを前記フィールド
・データ・セグメントの前記誤りバッファ部分に挿入す
るステップと、前記認識コード化データの修復のために、前記ＭＧＤＳ
をコード化データ修復処理に転送するステップと、前記ＭＧＤＳに修復データ・バッファ部分を含む修復セ
グメントを付加するステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分からアクセスし、前記認識誤りデータを前記フィ
ールド・データ・セグメントの前記誤りバッファ部分か
らアクセスし、前記修復処理により修復コード化データ
を生成するステップと、前記修復コード化データを前記フィールド・データ・セ
グメントの前記コード化データ・バッファ部分に挿入
し、前記認識コード化データを前記修復セグメントの前
記修復データ・バッファ部分に挿入するステップと、前記ＭＧＤＳ及び前記デジタル文書イメージをワークス
テーション表示装置に転送するステップと、前記フィールド・データ・セグメントの前記コード化デ
ータ・バッファ部分の内容をアクセスし、これを前記認
識コード化データの訂正書式として前記ワークステーシ
ョンに表示するステップと、前記誤りロケーション情報を前記フィールド・データ・
セグメントの前記誤りバッファ部分からアクセスし、前
記デジタル文書イメージを前記ワークステーションに表
示し、前記誤りロケーション情報により識別される前記
フィールドの表示部分を強調表示するステップと、を含むことを特徴とする方法。
【請求項５】データ処理システムにおける文書書式のデ
ジタル・イメージの文字認識誤りを修復する方法であっ
て、文書書式のデジタル文書イメージを入力し、前記文書イ
メージからフィールド・イメージを抽出し、対応する抽
出フィールド・イメージを形成するステップと、前記抽出フィールド・イメージから認識コード化データ
を生成し、文字認識処理により誤りロケーション情報を
含む認識誤りデータを生成するステップと、前記抽出フィールド・イメージに対応するコード化デー
タ・バッファ部分及び誤りバッファ部分を含むフィール
ド・データ・セグメントを含む機械生成データ構造（Ｍ
ＧＤＳ）をアセンブルするステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分に挿入し、前記認識誤りデータを前記フィールド
・データ・セグメントの前記誤りバッファ部分に挿入す
るステップと、前記認識コード化データの修復のために、前記ＭＧＤＳ
及び前記デジタル文書イメージをワークステーション表
示装置に転送するステップと、前記ＭＧＤＳに修復データ・バッファ部分を含む修復セ
グメントを付加するステップと、前記フィールド・データ・セグメントの前記コード化デ
ータ・バッファ部分の内容をアクセスし、これを前記認
識コード化データとして前記ワークステーションに表示
するステップと、前記誤りロケーション情報を前記フィールド・データ・
セグメントの前記誤りバッファ部分からアクセスし、前
記デジタル文書イメージを前記ワークステーションに表
示し、前記誤りロケーション情報により識別される前記
フィールドの表示部分を強調表示するステップと、前記ワークステーションに修復コード化データを生成す
るステップと、前記修復コード化データを前記フィールド・データ・セ
グメントの前記コード化データ・バッファ部分に挿入
し、前記認識コード化データを前記修復セグメントの前
記修復データ・バッファ部分に挿入するステップと、前記ＭＧＤＳをユーティリゼーション装置に転送し、前
記フィールド・データ・セグメントの前記コード化デー
タ・バッファ部分の内容を、前記認識コード化データの
訂正書式として使用するためにアクセスするステップ
と、を含むことを特徴とする方法。
【請求項６】データ処理システムにおける文書書式のデ
ジタル・イメージの文字認識誤りを修復する方法であっ
て、文書書式のデジタル文書イメージを入力し、前記文書イ
メージからフィールド・イメージを抽出し、対応する抽
出フィールド・イメージを形成するステップと、前記抽出フィールド・イメージから認識コード化データ
を生成し、文字認識処理により誤りロケーション情報を
含む認識誤りデータを生成するステップと、前記抽出フィールド・イメージに対応するコード化デー
タ・バッファ部分及び誤りバッファ部分を含むフィール
ド・データ・セグメントを含む機械生成データ構造（Ｍ
ＧＤＳ）をアセンブルするステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分に挿入し、前記認識誤りデータを前記フィールド
・データ・セグメントの前記誤りバッファ部分に挿入す
るステップと、前記認識コード化データの修復のために、前記ＭＧＤＳ
を第１のコード化データ修復処理に転送するステップ
と、前記ＭＧＤＳに第１の修復データ・バッファ部分を含む
第１の修復セグメントを付加するステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分からアクセスし、前記認識誤りデータを前記フィ
ールド・データ・セグメントの前記誤りバッファ部分か
らアクセスし、前記第１の修復処理により第１の修復コ
ード化データを生成するステップと、前記第１の修復コード化データを前記フィールド・デー
タ・セグメントの前記コード化データ・バッファ部分に
挿入し、前記認識コード化データを前記第１の修復セグ
メントの前記第１の修復データ・バッファ部分に挿入す
るステップと、前記第１の修復コード化データの修復の
ために、前記ＭＧＤＳ及び前記デジタル文書イメージを
ワークステーション表示装置に転送するステップと、前記ＭＧＤＳに第２の修復データ・バッファ部分を含む
第２の修復セグメントを付加するステップと、前記第１の修復コード化データを前記フィールド・デー
タ・セグメントの前記コード化データ・バッファ部分か
らアクセスし、それを前記ワークステーションに表示す
るステップと、前記誤りロケーション情報を前記フィールド・データ・
セグメントの前記誤りバッファ部分からアクセスし、前
記デジタル文書イメージを前記ワークステーションに表
示し、前記誤りロケーション情報により識別される前記
フィールドの表示部分を強調表示するステップと、前記ワークステーションに第２の修復コード化データを
生成するステップと、前記第２の修復コード化データを
前記フィールド・データ・セグメントの前記コード化デ
ータ・バッファ部分に挿入し、前記第１の修復コード化
データを前記第２の修復セグメントの前記第２の修復デ
ータ・バッファ部分に挿入するステップと、前記ＭＧＤＳをユーティリゼーション装置に転送し、前
記フィールド・データ・セグメントの前記コード化デー
タ・バッファ部分の内容を、前記認識コード化データの
訂正書式として使用するためにアクセスするステップ
と、を含むことを特徴とする方法。
【請求項７】データ処理システムにおける文書書式のデ
ジタル・イメージの文字認識誤りを修復する方法であっ
て、文書書式のデジタル文書イメージを入力し、前記文書イ
メージからフィールド・イメージを抽出し、対応する抽
出フィールド・イメージを形成するステップと、前記抽出フィールド・イメージから認識コード化データ
を生成し、文字認識処理により認識誤りデータを生成す
るステップと、前記抽出フィールド・イメージに対応するコード化デー
タ・バッファ部分及び誤りバッファ部分を含むフィール
ド・データ・セグメントを含む機械生成データ構造（Ｍ
ＧＤＳ）をアセンブルするステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分に挿入し、前記認識誤りデータを前記フィールド
・データ・セグメントの前記誤りバッファ部分に挿入す
るステップと、前記認識コード化データの修復のために、前記ＭＧＤＳ
を第１のコード化データ修復処理に転送するステップ
と、前記ＭＧＤＳに第１の修復データ・バッファ部分及び修
復確率バッファ部分を含む第１の修復セグメントを付加
するステップと、前記認識コード化データを前記コード化データ・バッフ
ァ部分からアクセスし、前記認識誤りデータを前記フィ
ールド・データ・セグメントの前記誤りバッファ部分か
らアクセスし、前記第１の修復処理により第１の修復コ
ード化データ及び修復確率値を生成するステップと、前記第１の修復コード化データを前記フィールド・デー
タ・セグメントの前記コード化データ・バッファ部分に
挿入し、前記認識コード化データを前記第１の修復セグ
メントの前記第１の修復データ・バッファ部分に挿入
し、前記修復確率値を前記第１の修復セグメントの前記
修復確率バッファ部分に挿入するステップと、前記第１の修復コード化データの選択的修復のために、
前記ＭＧＤＳを第２のコード化データ修復処理に転送す
るステップと、前記修復確率値を前記第１の修復セグメントからアクセ
スし、それに応答して、前記ＭＧＤＳに第２の修復デー
タ・バッファ部分を含む第２の修復セグメントを選択的
に付加するステップと、前記修復確率値に応答して、前記第１の修復コード化デ
ータを前記フィールド・データ・セグメントの前記コー
ド化データ・バッファ部分から選択的にアクセスし、前
記第２の修復処理により第２の修復コード化データを生
成するステップと、前記修復確率値に応答して、前記第２の修復コード化デ
ータを前記フィールド・データ・セグメントの前記コー
ド化データ・バッファ部分に選択的に挿入し、前記第１
の修復コード化データを前記第２の修復セグメントの前
記第２の修復データ・バッファ部分に挿入するステップ
と、前記ＭＧＤＳをユーティリゼーション装置に転送し、前
記フィールド・データ・セグメントの前記コード化デー
タ・バッファ部分の内容を、前記認識コード化データの
訂正書式として使用するためにアクセスするステップ
と、を含むことを特徴とする方法。
【請求項８】文書書式のデジタル・イメージの文字認識
誤りを修復するデータ処理システムであって、文書書式のデジタル文書イメージを入力し、前記文書イ
メージからフィールド・イメージを抽出し、対応する抽
出フィールド・イメージを形成する知能的書式プロセッ
サを含み、前記知能的書式プロセッサは前記抽出フィールド・イメ
ージから認識コード化データを生成し、文字認識処理に
より認識誤りデータを生成し、前記知能的書式プロセッサは前記抽出フィールド・イメ
ージに対応するコード化データ・バッファ部分及び誤り
バッファ部分を含むフィールド・データ・セグメントを
含む機械生成データ構造（ＭＧＤＳ）をアセンブルし、前記知能的書式プロセッサは前記認識コード化データを
前記フィールド・データ・セグメントの前記コード化デ
ータ・バッファ部分に挿入し、前記認識誤りデータを前
記誤りバッファ部分に挿入し、前記システムは前記知能的書式プロセッサに結合され、
前記ＭＧＤＳを受信し、前記認識コード化データを修復
する第１のコード化データ修復プロセッサを含み、前記第１のコード化データ修復プロセッサは前記ＭＧＤ
Ｓに第１の修復データ・バッファ部分を含む第１の修復
セグメントを付加し、前記第１のコード化データ修復プロセッサは前記認識コ
ード化データを前記フィールド・データ・セグメントの
前記コード化データ・バッファ部分からアクセスし、前
記認識誤りデータを前記誤りバッファ部分からアクセス
し、前記第１の修復処理により第１の修復コード化デー
タを生成し、前記第１のコード化データ修復プロセッサは前記第１の
修復コード化データを前記フィールド・データ・セグメ
ントの前記コード化データ・バッファ部分に挿入し、前
記認識コード化データを前記第１の修復セグメントの前
記第１の修復データ・バッファ部分に挿入し、前記システムは前記第１のコード化データ修復プロセッ
サに結合され、前記ＭＧＤＳを受信し、前記フィールド
・データ・セグメントの前記コード化データ・バッファ
部分の内容を、前記認識コード化データの訂正書式とし
て使用するためにアクセスするユーティリゼーション・
プロセッサを、含むことを特徴とするシステム。
【請求項９】前記第１のコード化データ・プロセッサに
結合され、前記ＭＧＤＳを受信し、前記第１の修復コー
ド化データを修復する第２のコード化データ修復プロセ
ッサを含み、前記第２のコード化データ修復プロセッサは前記ＭＧＤ
Ｓに第２の修復データ・バッファ部分を含む第２の修復
セグメントを付加し、前記第２のコード化データ修復プロセッサは前記第１の
修復コード化データを前記フィールド・データ・セグメ
ントの前記コード化データ・バッファ部分からアクセス
し、前記第２の修復処理により第２の修復コード化デー
タを生成し、前記第２のコード化データ修復プロセッサは前記第２の
修復コード化データを前記フィールド・データ・セグメ
ントの前記コード化データ・バッファ部分に挿入し、前
記第１の修復コード化データを前記第２の修復セグメン
トの前記第２の修復データ・バッファ部分に挿入し、前記ユーティリゼーション・プロセッサは前記第２のコ
ード化データ修復プロセッサに結合され、前記ＭＧＤＳ
を受信し、前記フィールド・データ・セグメントの前記
コード化データ・バッファ部分の内容を、前記認識コー
ド化データの訂正書式として使用するためにアクセスす
る、ことを特徴とする請求項８記載のデータ処理システム。