JP2957375B2 - 文書書式のデジタル・イメージの文字認識誤りを修復するデータ処理システム及び方法 - Google Patents

文書書式のデジタル・イメージの文字認識誤りを修復するデータ処理システム及び方法

Info

Publication number
JP2957375B2
JP2957375B2 JP5055288A JP5528893A JP2957375B2 JP 2957375 B2 JP2957375 B2 JP 2957375B2 JP 5055288 A JP5055288 A JP 5055288A JP 5528893 A JP5528893 A JP 5528893A JP 2957375 B2 JP2957375 B2 JP 2957375B2
Authority
JP
Japan
Prior art keywords
data
repair
coded data
field
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5055288A
Other languages
English (en)
Other versions
JPH06111056A (ja
Inventor
ジェラルド・ビー・アンダーソン
ティモシー・エス・ベッツ
バレリー・エム・キャラス
ルイス・ビー・ネフト
トーマス・エル・ポールソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH06111056A publication Critical patent/JPH06111056A/ja
Application granted granted Critical
Publication of JP2957375B2 publication Critical patent/JP2957375B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はデータ処理システム及び
方法に関し、特に走査文書イメージから導出された文字
認識情報の修復技術に関する。
【0002】
【従来の技術】これまでに表示、通信、及び保管の目的
でハード・コピー文書イメージを獲得するデータ処理シ
ステム及び方法が工夫されてきた。文書イメージの獲得
処理は、イメージ走査装置でハード・コピー文書を走査
することから開始される。イメージ走査装置は黒白、或
いはグレイ・レベルまたはカラー・オブジェクトの形状
をビット・マップ配列により表される対応画素に変換す
る。ビット・マップ配列はラン・レングス・コード化な
どの技術を通じ、冗長を除去するために選択的に圧縮さ
れる。圧縮イメージ・ファイルは次にデータ通信リンク
を解して効率的に転送され、従来のデータ記憶装置に記
憶される。しかしながら、イメージのビット・マップの
情報内容は演算処理及びワード処理アプリケーションが
扱うことのできるコード化データ形式に相当しない。従
って、文書イメージ内の文字の形状の変換が文字認識ス
テップにより実行されなければならない。
【0003】文字認識はパターン認識処理を利用してビ
ット・マップ化イメージ内の文字を表すイメージの形状
を、ASCII英数字コードなどの文字コードに変換す
る。文字認識は文書イメージの記憶または転送に必要な
アドレスを生成するために使用される文字ストリングを
出力する。この処理は自動指標化と称される。文字認識
はまた、システムに走査入力されるハード・コピー文書
から導出される文字ストリングをプログラム・アプリケ
ーションに提供する。
【0004】文書イメージの保管システムの例が米国特
許出願第5058185号で説明されている。
【0005】自動指標化、或いはアプリケーション・プ
ログラムにとって有用な情報を含む文書イメージの重要
部分を捜し出す処理は、ハード・コピー書式の使用によ
り容易となる。ハード・コピー書式は自動指標化及びア
プリケーション・プログラムの両者にとって、重要な意
味を持つ情報の類別を表す単語或いは文節の仕様に対応
する予め定義されたロケーションを提供する。例えば、
ハード・コピー書式は予め指定されたロケーションに書
式の識別を有し、これによりシステムはマスタ書式定義
を迅速にアクセス可能となり、文書イメージ内の他の重
要な文字イメージのロケーションを識別することが可能
となる。他のフィールドについても文字認識において文
字イメージを含む他の重要な類別を捜し出すために、マ
スタ書式定義において予め指定することが可能である。
マスタ書式定義はまた、書式上の特定のフィールドに表
されるものと予想される文字のコード・ページの仕様を
含む。
【0006】文書書式イメージ上の情報フィールドの文
字認識において発生する問題は、書式上における無関係
なマーク及び配置ミスされたイメージの出現である。書
式文書上における無関係なマーク及びイメージの位置決
めミス或いは配置ミスの問題を克服する技術が、R.G.
Casey及びD.R.Ferguson による審査中の米国特許出願
第07/305828号(1989年2月2日出願)で
述べられている。
【0007】R.G.Casey及びD.R.Ferguson により説
明されるように、ブランクのマスタ書式がシステムに走
査入力され、そのデジタル・イメージが記憶される。認
識される各タイプの書式は最初にシステムに定義されね
ばならない。マスタ書式定義はマスタ書式イメージの指
紋を含み、これは書式が正しいことを確認し、全入力書
式が完全に走査されたかを確認するために使用される。
また、マスタ書式定義の一部として、書式或いは他の数
値と関連するか、或いは書式を識別する情報が含まれて
いることを識別するバーコードを含むことも可能であ
る。更にマスタ書式定義における書式の全ての定義フィ
ールドの座標が提供される。
【0008】システムに走査入力されたハード・コピー
文書書式のイメージは調査され、その特徴がマスタ書式
定義と比較される。走査イメージのラインの配置がマス
タ書式のライン配置の定義と比較される。これはマスタ
書式定義内の各内部ノードに対応して指定される水平或
いは垂直線が、入力文書書式の走査イメージ上に存在す
るかをテストする。またバーコードがマスタ書式定義デ
ータ・セットにおいて定義された各書式と関連される。
バーコードが書式を識別するために使用される場合、走
査は文書イメージの一方サイドから他サイドに移行し、
バーコード情報が識別される。バーコードが見い出され
るとこれは書式の識別を判断するために使用される。書
式の識別が決定されると、その特定の書式タイプに対応
するマスタ書式定義がアクセスされ、書式イメージ内の
全てのフィールドのロケーションが決定される。また書
式の識別がユーザによりキーボードまたは他の入力装置
から入力され、目的の書式定義のアクセスを実施するこ
とも可能である。R.G.Casey及びD.R.Fergusonによ
る"Intelligent Forms Processing、"IBM SystemsJourn
al、Vol.29、No.3、1990、pp.435-450 において、書
式認識の更に詳細が説明されている。
【0009】書式の書式タイプが認識され対応するマス
タ書式定義がアクセスされた後に、文字認識が適用され
る各フィールドの座標が使用可能となる。各それぞれの
フィールドの座標が文字認識において使用可能となる
と、各文字ストリングのクリーンなイメージが全体的文
書イメージから取出されねばならない。典型的には文書
フィールドは外生的マーク或いは位置決め誤り或いは配
置誤りされた文字ストリングを有し、これらの欠陥は排
除或いは低減される必要がある。これはフィールド抽出
ステップにより実行される。書式が識別され検査される
と書式フィールドからデータが抽出されねばならない。
これはイメージのスキュー及びオフセットを識別するこ
とより開始される。書式上のフィールドのマスタ座標は
入力書式イメージのスキュー及びオフセットを補正する
ように調整されねばならない。次にフィールド調整が実
行されねばならない。各フィールドの境界をチェック
し、データが境界を越えてはみ出していないかの判断が
必要である。データがフィールド境界にオーバーラップ
する場合、取出されるイメージ領域はフィールド境界の
外まで拡張されねばならない。次に外生的ラインの除去
が実行されねばならない。外生的ラインが識別されると
これらのラインはフィールド内の文字イメージを害する
こと無く、フィールド・イメージから除去されねばなら
ない。フィールド抽出の過程はR.G.Casey及びD.R.F
erguson による上述の審査中の米国特許出願及び彼らに
よる上述の技術論文において詳述されている。
【0010】フィールド・イメージが全体的文書イメー
ジから抽出された後に、文字認識が実行され、抽出フィ
ールド・イメージ内の形状をASCIIなどの英数字表
現に変換しなければならない。マスタ書式定義はコード
・ページ上の情報を含み、これは書式上の各それぞれの
フィールドに存在することが予想される文字を特徴づけ
る。ラテン語などにおける単一バイトの文字セット(S
BCS)に対応して、コード・ページが指定される。漢
字、マンダリン、或いは他の東洋文字などのダブル・バ
イト文字セット(DBCS)に対応して、適切なコード
・ページがマスタ書式定義データ・セットに指定され
る。
【0011】文字認識処理は2レベル・イメージを取
り、パターン認識オペレーションを実行し、認識文字を
表すASCIIコード・データを返却する。未認識文字
はフラグ化され、文字ストリング内におけるそれらのロ
ケーションが識別される。懐疑文字は任意の文字として
マークされ、適切に認識される文字に対応して設定され
る確率よりも小さな確率レベルにより認識される。文字
認識処理に関するその他の情報については、R.G.Case
y及びD.R.Ferguson による前述の審査中の米国特許出
願及び彼らによる上述の技術論文において説明されてい
る。
【0012】走査文書イメージにおける書式識別を表す
バー・コード・イメージの認識は、米国特許出願第49
92650号を参照することにより、より理解される。
【0013】
【発明が解決しようとする課題】走査文書イメージにお
ける文字ストリングの正確な文字認識に関する従来の問
題は、誤り認識された文字ストリングの修復の必要性に
関する。典型的には誤り認識される文字ストリングの修
復技術は、特定の文字ストリングに対応して予想される
情報タイプ、及びその情報に対応して予想されるコード
・ページ表現に依存する。例えば、数値情報が特定のフ
ィールド内に配置されると予想される場合、文字認識オ
ペレーションはアラビア文字の認識に限られ、ラテン文
字形状の認識は不要となる。例えば、数値フィールドと
識別されるフィールドに不完全に表現される数値"4"が
発生する場合、認識オペレーションはこの形状を"P"と
解釈するような試みはしない。またフィールドがマスタ
書式定義により任意の名前フィールドであると識別され
る場合、そのフィールド内の文字ストリングは従来の任
意の名前の語彙と比較することにより検査される。同様
に、特定のフィールドがマスタ書式定義において州名と
して定義されると、従来の州名の語彙が比較及びそのフ
ィールド内における、不完全に認識された文字ストリン
グを検査するために使用される。またマスタ・フィール
ド定義により特定のフィールドに漢字情報が表現される
と定義される場合、そのフィールドに対応して、更に異
なる書式による比較及び検査が実施される。
【0014】未認識文字の修復処理のタイプは様々であ
り、種々の決定要素の中でもとりわけフィールド・タイ
プに依存するため、同一の書式上において発生する認識
誤りフィールドの修復を取扱うために様々な処理が要求
される。ある機構では修復の履歴、及び文書書式イメー
ジにおいて認識誤りされた特定のフィールドの修復要求
を追跡する。
【0015】別の問題として、文書書式上において認識
誤りされた特定のフィールドに対応する修復履歴の監査
証跡の維持がある。例えば、アプリケーションがイメー
ジ保管システムにおいて文書イメージを指標化するため
に特定のフィールドを利用する場合、またフィールド内
で認識誤りされた文字に対応する文字修復が不備である
場合、保管イメージはシステム内にミス・ファイルされ
ることになる。例えば、これが医療記録である場合、及
びこの文書イメージのミス・ファイルが例えば保険会社
の場合のようにユーザにとって重要な責任を負う場合、
フィールドの修復履歴を追跡する手段が使用できなけれ
ばならない。
【0016】更に、認識誤りされた文字ストリングの修
復処理を改善する試みがされる場合、以前に処理された
フィールドに対する修復履歴のアクセス性が、文字修復
のための新たな技術の有効性を評価する上で有用とな
る。
【0017】更に、文字修復の順次的なステージにおい
て、以降の修復ステージを実行するために文字修復の先
行ステージからの情報を要求する場合、フィールド内の
認識誤り文字及び懐疑文字の修復の履歴を追跡する手段
が必要となる。
【0018】従って本発明の目的は、文書書式イメージ
上の情報の文字認識における改善された技術を提供す
る。
【0019】本発明の目的は、文書のイメージ化及び保
管システムに走査入力される書式上のフィールド内の認
識誤り文字に対する改善された技術を提供する。
【0020】更に本発明の目的は、文書書式イメージに
おける認識誤り文字ストリングの修復の履歴を追跡する
改善された技術を提供する。
【0021】更に本発明の目的は、文書書式イメージに
おける認識誤り文字ストリングの順次的修復を調整する
改善された技術を提供する。
【0022】更に本発明の目的は、文書書式イメージに
おける認識誤り文字ストリングの修復履歴を監査する改
善された技術を提供する。
【0023】
【課題を解決するための手段】これらの目的、特徴、及
び利点が本明細書において開示される本発明により達成
される。文書のデジタル・イメージは文書の情報内容を
特定な書式で表現する。情報内容の一部が、プロセッサ
においてオペランドとして使用されるように要求される
場合、文字認識処理はデジタル・イメージを英数字表現
に変換するように適用されねばならない。
【0024】文字認識処理の初期ステージにおいては、
典型的には入力文書文字の形状の特徴と、以前に記憶さ
れており標準化された形状特徴との一致を確認する。こ
の初期ステージでは少なくとも3つの確率クラスの文字
を有する第1の試行英数字ストリングが生成される。こ
れらはすなわち、(1)その識別が実質上100%確率
を有する認識文字、(2)その識別が100%確率より
も著しく小さな懐疑文字、(3)その識別が50%確率
よりも著しく小さな拒絶文字である。懐疑文字に対して
は認識処理の多数の初期ステージにおいて、次に高い確
率を有する第2の推測文字が出力される。
【0025】認識処理における確率レベルを向上するた
めに、懐疑文字或いは拒絶文字を有する第1の試行英数
字ストリング出力を修復するために、第2のステージが
使用される。これはそのストリングが表現する情報の類
別に基づいて選択されるテストを適用することにより実
施され得る。これには試行ストリングが抽出された文書
イメージ内のフィールドが、その類別専用フィールドで
あることが要求される。従って、第2のステージの修復
処理は、例えば、名前、住所、市、州などの予め指定さ
れる情報の類別専用のフィールドを有する文書書式に即
座に適用される。
【0026】例えば、第1の試行ストリングが2文字に
よる州の略字を表す場合、候補となる文字対の数はおお
よそ50であり、そのストリングの識別の正確度は、第
1の試行ストリングに最も一致する州の略字を識別する
ことにより増加させ得る。これは第2の試行ストリング
と称される。もし、第2の推測文字が初期ステージ処理
により提供されると、代わりの第1の試行ストリングが
第2のステージで解析され、これに最も一致する別の州
の略字が識別され得る。これは代替第2試行ストリング
と称される。従って、文書書式上において可能性のある
フィールド類別数に相当する数の異なるタイプの第2の
ステージの修復処理が存在し得ることが分かる。
【0027】認識処理において更に正確度を向上させる
ために、第2試行ストリング及び代替第2試行ストリン
グを修復するために第3のステージが使用され得る。文
書の特定の類別フィールドから抽出されたストリング
が、データ・ベースにおける制限された数のストリング
の1つとして、ストリングの有効書式を有するデータ処
理アプリケーションで使用される場合、アプリケーショ
ン・データ・ベース探索が第2試行ストリング及び代替
第2試行ストリングの両者に対し実行され、どちらがア
プリケーション・データ・ベースにおける代表とされる
かを判断する。アプリケーション・データ・ベースにお
ける可能な類別の数に相当する数の異なるタイプの第3
ステージ修復処理が存在することが理解できる。
【0028】文書書式上の単一の類別フィールドからの
試行ストリングの第2ステージ及び第3ステージ修復を
実行するために、実行された修復の正確な記録が各ステ
ージにおいて保持されねばならない。これらには第2推
測文字及び代替試行ストリングが含まれる。しかしなが
ら、文書書式は典型的にはページ上に10或いは20の
類別フィールドを含み、多数の書式が複数のページを有
する。こうした文書において、修復の多数のステージに
渡り各類別に対する修復の履歴を保持する問題が重要と
なる。
【0029】修復の各ステージにおいて、文書フィール
ドの情報内容の最適な予測が次の修復ステージにおいて
直ちに使用可能となるべきである。
【0030】また修復の各ステージにおいて、最適な代
替試行ストリング及び第2の推測文字が次の修復ステー
ジにおける各類別フィールドに対し、直ちに使用可能と
なるべきである。
【0031】認識処理の性能を最大化するために、前回
の修復ステージの結果生ずる試行ストリングに対応する
確率レベルは、次の修復ステージにおいて直ちに使用可
能とならねばならない。これは現行の確率レベルが高い
場合、特定のフィールドに対する以後の修復における続
く試みを回避することを可能とする。
【0032】障害及び監査以外のすべてが、全体的な認
識処理により生成されなければならない場合、各類別フ
ィールドに対する修復の履歴は直ちに使用可能とならね
ばならない。
【0033】各類別フィールドに対する修復の履歴を直
ちに使用可能とすることは、文書書式上の類別フィール
ドの文字認識の修復履歴を動的に記録及び使用する機械
生成データ構造(MGDS)を生成、増補、及び使用す
るデータ処理システム、方法、及びコンピュータ・プロ
グラムの提供により達成される。
【0034】本発明は文書書式のデジタル・イメージの
文字認識誤りを修復するためのデータ処理システムに関
する。これは文書書式のデジタル文書イメージを入力
し、文書イメージからフィールド・イメージを抽出し、
対応する抽出フィールド・イメージを形成する知能的書
式プロセッサを含む。
【0035】知能的書式プロセッサは次に抽出フィール
ド・イメージから認識コード化データを生成し、文字認
識処理を使用することにより認識誤りデータを生成す
る。
【0036】本発明によれば、知能的書式プロセッサは
抽出フィールド・イメージのコード化データ・バッファ
部分、及び誤りバッファ部分を含むフィールド・データ
・セグメントを有する機械生成データ構造(MGDS)
をアセンブルする。
【0037】次に知能的書式プロセッサは認識コード化
データをフィールド・データ・セグメントのコード化デ
ータ・バッファ部分に、また認識誤りデータを誤りバッ
ファ部分に挿入する。
【0038】知能的書式プロセッサは次にMGDSを使
用して第2ステージ修復処理を実行するか、或いはMG
DSを別の修復プロセッサに送信する。
【0039】第1コード化データ修復プロセッサが知能
的書式プロセッサに結合され、MGDSを受信し、認識
コード化データを修復する。
【0040】本発明によれば、第1コード化データ修復
プロセッサはMGDSに第1修復データ・バッファ部分
を含む第1修復セグメントを増補する。
【0041】第1コード化データ修復プロセッサは認識
コード化データをフィールド・データ・セグメントのコ
ード化データ・バッファ部分からアクセスし、認識誤り
データを誤りバッファ部分からアクセスし、第1修復処
理により第1の修復コード化データを生成する。
【0042】次に本発明によれば、第1コード化データ
修復プロセッサは、第1修復コード化データをフィール
ド・データ・セグメントのコード化データ・バッファ部
分に挿入し、認識コード化データを第1修復セグメント
の第1修復データ・バッファ部分に挿入する。このよう
に、抽出フィールド・イメージ内の情報の最適な使用可
能バージョンが、フィールド・データ・セグメントのコ
ード化データ・バッファ部分に保持される。
【0043】ユーティリゼーション・プロセッサが第1
のコード化データ修復プロセッサに結合され、MGDS
を受信する場合、これはフィールド・データ・セグメン
トのコード化データ・バッファ部分の内容をアクセス
し、認識コード化データの訂正書式として使用する。
【0044】また第2コード化データ修復プロセッサが
第1コード化データ・プロセッサに結合され、MGDS
を受信し、第1修復コード化データを修復することも可
能である。
【0045】本発明によれば、第2コード化データ修復
プロセッサはMGDSに第2修復データ・バッファ部分
を含む第2修復セグメントを増補する。
【0046】第2コード化データ修復プロセッサはフィ
ールド・データ・セグメントのコード化データ・バッフ
ァ部分から第1修復コード化データをアクセスし、第2
修復処理により第2修復コード化データを生成する。
【0047】次に本発明によれば、第2コード化データ
修復プロセッサは第2修復コード化データをフィールド
・データ・セグメントのコード化データ・バッファ部分
に挿入し、第1修復コード化データを第2修復セグメン
トの第2修復データ・バッファ部分に挿入する。このよ
うに、抽出フィールド・イメージにおける情報の最適な
使用可能バージョンが、フィールド・データ・セグメン
トのコード化データ・バッファ部分に保持される。
【0048】また、ワークステーションが第1コード化
データ修復プロセッサに結合され、MGDSを受信し、
第1修復コード化データを修復することも可能である。
【0049】本発明によれば、ワークステーションはM
GDSに第2修復データ・バッファ部分を含む第2修復
セグメントを増補する。
【0050】次にワークステーションはフィールド・デ
ータ・セグメントのコード化データ・バッファ部分から
第1修復コード化データをアクセスし、これをワークス
テーションに表示する。
【0051】次に本発明によれば、ワークステーション
はフィールド・データ・セグメントの誤りバッファ部分
から誤りロケーション情報をアクセスし、デジタル文書
イメージをワークステーションに表示し、誤りロケーシ
ョン情報により識別されるフィールドの表示部分を強調
表示する。
【0052】ワークステーションのオペレータは次にワ
ークステーションにおいて、第2修復コード化データを
生成することができる。
【0053】次に本発明によれば、ワークステーション
は第2修復コード化データをフィールド・データ・セグ
メントのコード化データ・バッファ部分に挿入し、第1
修復コード化データを第2修復セグメントの第2修復デ
ータ・バッファ部分に挿入する。このように、抽出フィ
ールド・イメージにおける情報の最適な使用可能バージ
ョンが、フィールド・データ・セグメントのコード化デ
ータ・バッファ部分に保持される。
【0054】ワークステーションは次にMGDSをユー
ティリゼーション装置に転送し、ユーティリゼーション
装置はフィールド・データ・セグメントのコード化デー
タ・バッファ部分の内容をアクセスし、これを認識コー
ド化データの訂正書式として使用する。
【0055】本発明によれば、修復の各ステージにおい
て、最適な代替試行ストリング及び第2の推測文字が各
類別フィールドに対応する修復セグメントに含まれ、次
の修復ステージにおいて使用される。
【0056】また、本発明によれば、前回の修復ステー
ジの結果生ずる修復コード化データに対応する確率レベ
ルは前回の修復セグメントに含まれる。これによりその
フィールドに対応する現行の確率レベルが高い場合、特
定のフィールドに対する以降の修復の試みを回避するこ
とが可能となる。
【0057】更に本発明によれば、MGDSは修復履歴
記憶装置に記憶され、重要な文書書式の文字認識修復の
監査証跡を提供する。これはまた特定のタイプの文書フ
ィールド及び性能目的に対応する特殊目的の文字認識処
理の選択を精密に調整するのに有用である。
【0058】
【実施例】文書書式の特定のフィールドに対する修復の
履歴は、機械生成データ構造(MGDS)メッセージに
組込まれる。MGDSは順序的修復処理とシステム内の
プロセッサ間のデータ・インタフェースとして使用され
る。MGDSはまた監査証跡を維持する目的で、特定の
誤認識文字ストリングに対する修復履歴のための貯蔵場
所として機能する。
【0059】図1乃至図2は図37に示すように結合さ
れて、文書書式のデジタル・イメージの文字認識誤りを
修復するためのデータ処理システムの全体的体系を表す
図である。ハード・コピー文書10はスキャナ22を用
いてシステム内に走査入力され、その結果得られる文書
イメージ10∧ が図18に示される。本発明の実施例
では、知能的書式プロセッサ25(図29で詳細な体系
図が示される)がスキャナ22とのスキャナ・インタフ
ェース処理を提供する。図1乃至図2において破線内に
示される知能的書式プロセッサ25は、またバッファ4
0、書式認識及びフィールド抽出プロセッサ24、文字
認識プロセッサ26及び人工知能誤り訂正プロセッサ2
8を含む。本発明の実施例では、これらの種々のプロセ
ッサは対応するコンピュータ・プログラムを通じて実施
され、これらのプログラムは実行されるとそれぞれの処
理を実行する。本発明の別の実施例では、図1乃至図2
に示されるようにスキャナ・プロセッサ23、バッファ
40、書式認識及びフィールド抽出プロセッサ24、文
字認識プロセッサ26、及び人工知能誤り訂正プロセッ
サ28はそれぞれ別のプロセッサであり、互いにローカ
ル・エリア・ネットワーク(LAN)20により接続さ
れる。本発明の理解を深めるために図1乃至図2に示さ
れる別々のプロセッサの実施例について、最初に説明す
る。
【0060】ローカル・エリア・ネットワーク(LA
N)20はスキャナ・プロセッサ23、バッファ40、
書式認識及びフィールド抽出プロセッサ24、文字認識
プロセッサ26、及び人工知能誤り訂正プロセッサ28
をホスト・コンピュータ34と相互接続する。またLA
N20にはデータ・ベース誤り訂正プロセッサ30、及
び手動検査及び訂正プロセッサ32が接続される。更
に、追加のイメージ獲得機能バッファ・サーバ40∧
がLAN20に接続される。ホスト・コンピュータ34
には文書イメージ記憶装置36、コード化データ記憶装
置35、及び修復履歴記憶装置38が接続される。
【0061】文書10はスキャナ22によりシステムに
走査入力され、図18に詳細に示される文書イメージ1
0∧を形成する。文書イメージ10∧はハード・コピー
文書10のイメージのビット・マップ表現である。スキ
ャナ22はローカル・エリア・ネットワーク20を介
し、書式認識及びフィールド抽出プロセッサ24に文書
イメージ10∧を出力する。文書イメージ10∧のコピ
ーはホスト・プロセッサ34にも転送可能であり、一時
的な指標化識別が文書イメージ10∧ に割当てられ、
文書イメージ記憶装置36に一時的に保管される。
【0062】書式認識及びフィールド抽出プロセッサ2
4は、システムにより処理される書式のマスタ書式定義
のライブラリを含む。書式のモデルは書式パターン、及
び書式上に含まれる各フィールドの記述を含む。書式パ
ターンは書式タイプを区別するために使用される一連の
特徴である。フィールド記述はデカルト座標により表現
される書式上のフィールドのロケーション、文字認識の
容認閾値、識別及びフィールド指定情報を含む。データ
・フィールドのロケーションは長方形の対角を示す2点
のモデルにより表現できる。
【0063】文書イメージ10∧ が書式認識及びフィ
ールド抽出プロセッサ24に入力される時、書式を識別
するためにイメージが解析され、その結果、適切なマス
タ書式定義データがアクセスされる。書式認識のために
いくつかの方法が使用可能である。1つの方法は典型的
に文書上に印字される書式番号を一致させる。第2の方
法は書式タイプを区別する書式テキスト及び線のレイア
ウト或いは配置を比較する。第3の方法は書式の水平及
び垂直線に頼る。書式の文書イメージ10∧ が特徴化
されると対応するマスタ書式定義データがアクセス可能
となる。このデータはそれぞれのフィールドの座標、フ
ィールドの名称、及び書式内の各それぞれのフィールド
のコード・ページを定義する。
【0064】図21は書式認識処理24A及びフィール
ド抽出処理24Bにおいて実行されるオペレーション・
ステップのシーケンスの流れ図である。
【0065】スキャナ22が文書10を走査する時、ス
キャナ・プロセッサ23は再スケール化などのいくつか
の前置オペレーション、及びイメージのイメージ・ファ
イルへの圧縮を実行する。イメージ・ファイルへはファ
イル・アドレスが割当てられる。文書イメージ10∧
のイメージ・ファイルは一時的にバッファ40或いはバ
ッファ・サーバ40∧ 内にバッファされ、割当アドレ
スの下でアクセスされる。或いはスキャナ・プロセッサ
23は文書イメージ10∧ を直接的に書式認識及びフ
ィールド抽出プロセッサ24に出力することができる。
【0066】図21に関し、書式認識処理24Aはステ
ップ100で開始され、文書イメージ・ファイル・ポイ
ンタ60を入力し、これはバッファ60或いはバッファ
・サーバ40∧からの文書イメージ10∧のアクセスを
可能とする。図21のステップ101では図18で示さ
れる文書イメージ10∧ を獲得する。走査書式イメー
ジ10∧ の例は6個のデータ・フィールド及び1個の
書式番号フィールドを有する。書式番号フィールド11
∧ は書式の識別のバー・コード表現を含みこれは保険
申請書である。第1のデータ・フィールドはラスト・ネ
ーム・フィールド14∧である。第2のフィールド16
∧ はファースト・ネーム・フィールドである。第3の
フィールドは州フィールド12a∧である。第4のフィ
ールド12b∧は住所フィールドである。第5のフィー
ルド44∧ は署名フィールドであり、第6のフィール
ド12∧ は通し番号フィールドである。ここで第1か
ら第4のフィールド及び第6のフィールドは英数字のイ
メージを含み、第5のフィールド44∧ は署名のイメ
ージを含む。
【0067】図21のステップ102は書式タイプを認
識する。図18の例では、書式タイプはフィールド11
∧ 内のバー・コード化書式番号から認識される。次に
図21のステップ103において、システムに走査入力
された書式のスキュー及びオフセットが測定される。ス
キュー及びオフセット値62は走査書式イメージ10∧
上のフィールドの実際の位置を突きとめるために、書式
上の各フィールドの予め指定された座標と結合されねば
ならないという点で重要である。
【0068】図21の流れ図は次にフィールド抽出処理
24Bを開始するように遷移し、これはステップ104
で開始され、書式10∧ 上のフィールドのフィールド
座標を含むマスタ書式形式10Fをアクセスする。マス
タ書式形式10Fは図16及び図17に示される。書式
上の各それぞれのフィールドの座標を表すデータは、マ
スタ書式10Fを表す図16に画像により示されてい
る。フィールド11Fは書式番号フィールドであり、フ
ィールド14Fはラスト・ネーム・フィールドであり、
後者は境界13を有する。フィールド16Fはファース
ト・ネーム・フィールドであり、境界17を有する。フ
ィールド12aFは州フィールドである。フィールド1
2bFは住所フィールドである。フィールド44Fは署
名フィールドであり、フィールド12Fは通し番号フィ
ールドである。図16に示されるこれらのフィールドは
この例における保険請求書に対応するマスタ書式定義デ
ータ・セットにおいて提供される座標データの画像表現
である。
【0069】図17は図16に示されるマスタ書式10
Fに対応するマスタ書式定義に含まれる追加の情報を示
す。図17はマスタ機械生成データ構造(MGDS)5
0Mを表す。書式名 "申請(CLAIM)"、フィールドの
数、及び図32に示される書式情報FI内に示される他
の同様の情報などの固定書式データ65が、マスタMG
DS 50Mに含まれる。図17のマスタMGDS 5
0Mの固定書式データ65には、また書式の各ページに
対応するページ情報PIが含まれる。ここに示される例
では単一のページ書式が使用される。ページに対応する
固定書式データは例えばページ番号を含む。マスタMG
DS 50Mにはまた、図16のマスタ書式10Fにお
ける6個のデータ・フィールドの各々に対応する固定フ
ィールド・データ64が含まれる。書式上の各フィール
ドは図17におけるフィールド・データ・セグメント5
2Mなどのフィールド・データ・セグメントにより表さ
れる。これらは図16の第1のデータ・フィールド14
Fに対応する。フィールド・データ・セグメント52M
はフィールド座標64などの固定フィールド・データ6
7を含む。図17には図16のマスタ書式10Fの各長
方形のフィールドの左上隅に対応する座標X1及びY
1、及び右下隅に対応するX2及びY2が示されてい
る。固定フィールド・データ67にはまたフィールド名
が含まれ、例えば図16のラスト・ネーム・フィールド
14Fに対応するフィールド・データ・セグメント52
Mでは、フィールド名68には"ラスト・ネーム"が指定
される。図17の固定フィールド・データ67にはまた
フィールド・タイプ70が含まれる。例えば、図17の
フィールド・データ・セグメント52Mは英数字に対応
するフィールド・タイプ"A/N"を有する。
【0070】その他のフィールド・データ67が図34
に表されるフィールド情報内に示される。図17に示さ
れるマスタMGDS 50Mはマスタ書式定義データが
組成されて、書式認識及びフィールド抽出プロセッサ2
4に記憶される様子を示す1つの例である。書式認識及
びフィールド抽出プロセッサ24は書式情報FI及びペ
ージ情報PIに対応する固定書式データ65を組成し、
各それぞれのフィールド・データ・セグメント52Mな
どに対応する固定フィールド・データ67をマスタMG
DS 50M内に組成し、これは文字認識プロセッサ2
6に転送される。こうした転送に先立ち、書式認識処理
ステップ100から103により生成される追加のデー
タが加えられる。特にこうした情報として、書式イメー
ジ10∧に対応するスキュー及びオフセット・データ6
2が挙げられる。
【0071】認識処理の後の段階で追加される情報のた
めの追加的空間が、図17のマスタMGDS 50Mに
割当てられる。例えば、書式返却フィールド(FR)7
2用に空間が割当てられ、オプションの文書イメージ・
ファイル・ポインタ60及びオプションの抽出イメージ
・ファイル・ポインタ74が割当てられる。コード化デ
ータ部分75がその他に追加される。MGDS 50M
に割当てられるこれらのフィールドの各々はシステムに
おいて、対応するデータが書式の文字認識修復において
生成される処理段階に達するまでは空である。
【0072】図21のステップ104はフィールド抽出
処理24Bのステップ105に遷移し、マスタMGDS
50M内に提供されるフィールド座標64及びスキュ
ー及びオフセット値62から、各フィールドのフィール
ド・ロケーションを計算する。フィールド座標値64は
第1フィールド・データ・セグメント52M、第2フィ
ールド・データ・セグメント54M、第3フィールド・
データ・セグメント56M、第4フィールド・データ・
セグメント12bM、第5フィールド・データ・セグメ
ント44M、及び第6フィールド・データ・セグメント
12Mに対応する第1フィールドに対し提供される。
【0073】図21のフィールド抽出処理24Bは次に
ステップ106に遷移し、ここではフィールド抽出処理
により文書イメージ10∧ からフィールド・イメージ
10∧∧を抽出する。図3を参照するとフィールド抽出
処理の例が表される。図20は図18の文書イメージ上
に現れるファースト・ネーム・フィールドに対応するフ
ィールド・イメージ16∧を示す。フィールド・イメー
ジ16∧は周囲ボックス17、文字18及び擬似ライン
19及び19aと共に示される。フィールド抽出の過程
において、ボックス17のイメージは除去される。更に
外生的ラインの除去過程において、外生的ライン19a
が削除される。なぜなら、このラインの一部はフィール
ド16∧ の予め定義された領域の外側にはみ出してい
るからである。しかしながら、この例では外生的ライン
19は図20の抽出フィールド結果16∧∧に表される
ように、フィールド16∧ 内の文字イメージ18から
除去されない。抽出フィールド・イメージ16∧∧は図
19に示される書式の抽出フィールド・イメージ10∧
∧上に現れる。
【0074】抽出フィールドに残る擬似ラインの追加の
例が、図18の書式イメージ10∧内の州フィールド1
2a∧ に対して示され、対応する抽出イメージ12a
∧∧はフロリダ州の略字を意味する"FL"の文字Lにオ
ーバーラップする擬似ラインを所有する。
【0075】次に図21のフィールド抽出処理24Bは
ステップ107に遷移し、書式名66などの固定書式デ
ータ65、及びフィールド名68、タイプ70、フィー
ルド座標64などの固定フィールド・データ67を図1
7に示されるマスタMGDS50M内にアセンブルす
る。次にステップ108において、可変書式データがマ
スタMGDS 50Mに挿入される。これらには、例え
ば現行値"ゼロ"を有する書式返却コード72、文書イメ
ージ10∧ のファイルに対応するポインタ・アドレス
に相当する文書イメージ・ポインタ60、抽出イメージ
10∧∧を含むファイルに対するポインタ・アドレスに
相当する抽出イメージ・ポインタ74、スキュー及びオ
フセット値62及び、書式認識及びフィールド抽出プロ
セッサ24における現行ステージにおいて使用可能な他
のデータが含まれる。
【0076】次に図21のフィールド抽出処理はステッ
プ110に遷移し、図3に示されるMGDSメッセージ
50Aを文字認識プロセッサ26に出力する。これらの
処理が図29の知能的書式プロセッサ25において実施
されるマルチタスクの実施例の場合、MGDSメッセー
ジ50Aの転送はプロセッサ25のメモリ内の共通アク
セス可能区分に対して実施される。また、図1乃至図2
のマルチプロセッサLANの例では、MGDSメッセー
ジ50AはLAN20を介して文字認識プロセッサ26
に転送される。
【0077】図21の処理は次にステップ111に遷移
し、抽出イメージ・ファイル10∧∧を出力する。抽出
フィールド・イメージ・ファイル10∧∧はそのアドレ
スが抽出イメージ・ポインタ74により参照されるファ
イル内に配置され、抽出イメージ10∧∧は次にバッフ
ァ40或いはバッファ・サーバ40∧ に記憶される。
また、抽出フィールド・イメージ10∧∧を直接、文字
認識プロセッサ26に転送することも可能である。
【0078】図3は書式認識及びフィールド抽出プロセ
ッサ24から出力されるMGDS50Aの詳細を示す。
特に図3に示されるMGDS 50Aは図18に示され
る書式イメージ10∧ の6個のフィールドの内の最初
の2個に対応する第1のフィールド・データ・セグメン
ト52A、及び第2のフィールド・データ・セグメント
54Aを示す。
【0079】図8はMGDS 50Aのアセンブリにお
ける後のステージにおける書式認識及びフィールド抽出
プロセッサ24から出力されるMGDS 50Aを示
し、第1のフィールド・データ・セグメント52A及び
第2のフィールド・データ・セグメント54Aだけでは
なく、図18の書式イメージ10∧ 上の第3のフィー
ルド12a∧ に対応する第3のフィールド・データ・
セグメント56Aが含まれる。
【0080】書式認識及びフィールド抽出プロセッサ2
4は、図3に詳細に示される第1段階のMGDSデータ
構造メッセージ50Aを生成する。MGDS 50Aの
書式情報における特定の形式が図32に示される。書式
返却コード・パラメータは値6を有する長さエンティテ
ィ、IDエンティティ、及びデータ・エンティティを有
する。データ・エンティティは2バイト長、IDエンテ
ィティは2バイト長、長さエンティティは2バイト長で
あり、長さエンティティの値は6であり、これはパラメ
ータにおける合計バイト数を表す。MGDSは関連する
パラメータの全グループが容易に転送され解析されるよ
うに、関連パラメータを一緒にグループ化する。いくつ
かのサブ・パラメータを包含するようにパラメータを指
定することにより、パラメータはグループ化される。例
えばフィールド情報パラメータなどのこうした包含パラ
メータ、或いはコンテナ・オブジェクトが図32に示さ
れており、これらは長さエンティティ、IDエンティテ
ィ、及びデータ・エンティティを有する。データ・エン
ティティには矢印が含まれており、これは包含パラメー
タのデータがパラメータのグループであり、包含パラメ
ータの長さエンティティにおいて指定される長さ以内に
納まることを示している。
【0081】MGDS 50Aの最初の部分Hに含まれ
る書式情報FIは図32に示されるパラメータを含む。
MGDSパラメータは全MGDS 50Aを含む包含パ
ラメータである。MGDSバージョン・パラメータは使
用されるMGDSのバージョンを記述する。書式返却コ
ード・パラメータはイメージの処理の際に、誤りに遭遇
したかどうかを示す。返却コードがフィールド・レベル
において誤りが存在することを示すと、正確な誤りを判
断するために、拒絶文字及び懐疑文字の返却コードがチ
ェックされねばならない。書式返却コードは拒絶処理が
文書イメージに対し、要求されるかどうかを判断するた
めの主標識である。負の返却コードは書式或いはフィー
ルド・レベルにおいて誤りが発生しており、書式が実際
に誤って識別される可能性があることを示す。正の返却
コードは書式上の全てのフィールドにおいて見いだされ
た拒絶文字或いは懐疑文字の数を示す。この返却コード
は誤り訂正が成功して実施された後にゼロにリセットさ
れる。
【0082】変換時(when-to-convert) パラメータは
MGDSを生成するアプリケーションすなわち書式認識
及びフィールド抽出プロセッサ24が、MGDS内の文
字データを適切なホスト・コード・ページに変換したか
どうかを示す。パラメータ値ゼロは、MGDSを生成す
るアプリケーションが文字データが生成された元のAS
CIIコード・ページ内に文字データを残したことを示
し、数値データはワークステーション・バイト順序で現
れ、数値の16進表現はバイトをフリップすることによ
り読出される。値2はMGDSを生成するアプリケーシ
ョンが文字データを適切なホストEBCDICコード・
ページに変換したことを示し、数値データの複製がホス
ト・バイト順序で現れ、この時は数値の16進表現はバ
イトをフリップすることなく読出される。値1は数値デ
ータのバイト順序及び文字データがコード・ページに変
換されたかどうかを決定するために、書式返却コードの
検査を要求する。
【0083】書式クラス名パラメータは書式に対応して
認識された書式クラス名を示す。この名前は書式認識オ
ペレーションを実行する書式認識及びフィールド抽出プ
ロセッサ24により定義される。
【0084】書式名パラメータは書式名を提供し、これ
についても書式認識オペレーションを実行する書式認識
及びフィールド抽出プロセッサ24により定義される。
【0085】汎用コード・ページ・パラメータは未認識
の文字フラグ、書式クラス名、フィールド名、フィール
ド関係、及びフィールド修復パラメータに対応するコー
ド・ページである。これらの全ての項目が1コード・ペ
ージ上に現れるものと仮定する。いくつかのコード・ペ
ージがこれらの異なる項目に対し存在する場合、未認識
文字フラグのコード・ページが使用される。
【0086】未認識文字フラグ・パラメータは文字デー
タ・バッファ内の未認識文字を表すために使用される。
フィールド・パラメータの数はMGDSにおいてデータ
が返却されるフィールドの数を示す。
【0087】書式コード・ページ・パラメータは書式上
の全てのデータに対して使用される。書式上の全てのデ
ータが同一のコード・ページを使用する場合、このパラ
メータはそのコード・ページを示す。書式上において異
なるコード・ページが使用される場合、このフィールド
は返却されず、フィールド・コード・ページ・パラメー
タは各フィールドにおけるコード・ページを示す。デー
タがコード・ページからコード・ページに変換され、M
GDS内に戻され記憶される時、このパラメータは書式
データに対応する現行のコード・ページを反映するべき
である。
【0088】ホスト書式コード・ページ・パラメータ
は、ホストがイメージから検索された全ての文字情報に
対し指定したコード・ページである。文字は情報が最後
の処理のためにホストに提供される以前にこのコードに
変換されるべきである。書式コード・ページ・パラメー
タに関連する全ての文字情報は、変換時パラメータ値に
もとづきホスト・コード・ページに変換される。
【0089】ホスト・コード・ページ・パラメータは、
特定のフィールド・コード・ページに対応するフィール
ド情報が変換されるべきホスト・コード・ページを示
す。このパラメータはフィールド・コード・ページ・パ
ラメータが存在する時にはそれと1対1でマップされ、
特定のフィールドのデータが変換されるべきホスト・コ
ード・ページを示す。
【0090】ページ情報パラメータは文書の各ページに
関する情報を含む包含パラメータである。このパラメー
タは各ページ上のフィールドに関する情報は含まない。
【0091】フィールド情報パラメータはフィールド・
データ・セグメントに対応する包含パラメータであり、
書式のページ上の各それぞれのフィールドに対応して返
却される全ての情報をグループ化するために使用され
る。各フィールドに対応するフィールド・データの全セ
ットの長さ以外の情報はパラメータ内に存在しない。
【0092】ページ情報形式が図33に示される。ペー
ジ番号パラメータはページ情報包含パラメータ内に現れ
る情報に対するページ番号を提供する。ページ解像パラ
メータはページ情報パラメータ内に配置されるページ番
号パラメータにより示される特定のページの解像を提供
する。ページ方向パラメータは特定の書式ページの方向
を提供する。その値は無回転、或いは時計回りの90
度、180度或いは270度の回転を示す。
【0093】図34はフィールド情報の詳細な形式を表
す。拒絶文字返却コード・パラメータは、文字認識処理
の最中に拒絶文字に遭遇したことを示す。このパラメー
タは文字認識プロセッサがそのオペレーションを実行す
るまで、データにより充填されない。このフィールドの
数はそのフィールドにおいて遭遇した拒絶文字の数を示
す。数が負の場合はフィールドの処理の最中に誤りに遭
遇したことを示す。
【0094】懐疑文字返却コード・パラメータは、文字
認識プロセッサ26による文字認識処理の間に懐疑文字
に遭遇したことを示す。このフィールドの数はそのフィ
ールドにおいて遭遇した懐疑文字の数を示す。フィール
ド関連パラメータはそのフィールドをホスト・フィール
ドと関連づけるために使用される。これはユーザがその
関連値を示すために書式定義ユーティリティに入力する
IDであり、書式認識及びフィールド抽出プロセッサ2
4により提供される。このフィールドはフィールド名パ
ラメータとは異なる。なぜなら、これはフィールドを書
式上に現れるフィールドといった観点よりも、アプリケ
ーション使用といった観点で記述することに依存する。
例えば、このフィールドはホスト・アプリケーションに
とって重要な指標化情報を含んだりする。
【0095】フィールド名パラメータは誤り訂正及びデ
ータ入力の最中にフィールドを記述するために使用され
るフィールド記述である。フィールド書式ページ・パラ
メータはそのフィールドが現れる書式ページである。
【0096】フィールド座標パラメータは文字認識プロ
セッサ26により充填され、フィールドの座標はフィー
ルドを強調表示したり、続く修復段階においてフィール
ドを修復するために使用される。これらの座標はフィー
ルドを取り囲む長方形の左上端部及び右下端部の座標を
示し、00座標がイメージの左上端部に配置される座標
系にもとづく。4個の座標値の各々は4バイトを使用
し、それぞれはX左端、Y下端、X右端、及びY上端を
示す。
【0097】図35に示すコード化データ・パラメータ
は、各フィールドにおいて同一のコード・ページを有す
る全ての文字情報をグループ化するために使用される包
含パラメータである。複数のコード・ページが各フィー
ルドにおいて使用されるため、コード化データ・パラメ
ータはコード・ページ及び文字情報をグループ化する。
文字情報は文字認識プロセッサがそのオペレーションを
実行するまで供給されない。このパラメータにはコード
・ページ及び文字情報の長さ以外の情報は含まれない。
コード化データ・パラメータの存在はフィールド存在パ
ラメータの存在と互いに排他的である。両方のパラメー
タは同一のフィールドに対して同時には存在しない。フ
ィールド存在パラメータはフィールドがデータを含むか
どうかを示し、例えばチェック・ボックス・フィールド
として使用される。
【0098】図36に示される拒絶文字情報パラメータ
は文字認識プロセッサ26により追加される包含パラメ
ータであり、拒絶文字或いは懐疑文字に関する全ての情
報をグループ化するために使用される。拒絶情報の長さ
以外にはこのパラメータには情報は存在しない。
【0099】オプションとして、イメージ・データ・パ
ラメータ(図示せず)がプロセッサ24により提供さ
れ、MGDSメッセージ50Aに含まれる。プロセッサ
24がそのフィールド抽出オペレーションを実行後に、
フィールドのクリーン・アップされたイメージは順番に
ビット・マップ配列され、時に圧縮され、MGDS 5
0Aにロードされる。
【0100】図31を参照すると、MGDSメッセージ
構造における種々のMGDSパラメータ間の関係が表さ
れる。書式情報はMGDS 50Aの最初の部分に相当
する。その後には図31に一群として示されるページ情
報が続く。更にいくつかのフィールド情報セグメントが
それに続き、各フィールド情報セグメントは本書式のフ
ィールドの1個に対応する。フィールド情報セグメント
内には1個以上のコード化データ・セグメントが含ま
れ、各コード化データ・セグメントは単一のコード・ペ
ージにより特徴づけられるフィールドの一部に対応す
る。全フィールドが単一のコード・ページにより特徴づ
けられる場合、フィールドに対応して単一のコード化デ
ータ・セグメントが存在する。フィールド情報にはまた
文字認識プロセッサ26により生成される拒絶文字情報
が含まれる。
【0101】文字認識プロセッサにより実行される文字
認識処理26Aは図3のイメージ16∧∧に対して作用
し、文字ストリング42"Ja*n"を生成する。
【0102】図22及び図23は文字認識処理26Aに
対応するオペレーション・ステップのシーケンスの流れ
図である。ステップ112は図3に示されるMGDS
50Aを入力する。次にステップ113は図19に示さ
れる抽出フィールド・イメージ・ファイル10∧∧を入
力する。
【0103】次にステップ114は各それぞれのフィー
ルド・データ・セグメントに対してループを開始する。
ステップ114は図3に示されるMGDSメッセージ5
0Aから各それぞれのフィールド・データ・セグメント
を獲得する。ラスト・ネーム・フィールド14∧∧に対
応する第1のフィールド・データ・セグメント52Aが
最初に処理される。次にループはMGDSメッセージ5
0Aから第2のフィールド16∧∧に対応するフィール
ド・データ・セグメント54Aを獲得する。実施例では
ファースト・ネーム・フィールドに相当する第2のフィ
ールド及びそのフィールド・データ・セグメント54A
に注目する。
【0104】図22のステップ115はフィールド・デ
ータ・セグメント54Aからフィールド座標64を獲得
する。次にステップ116はフィールド・タイプ情報7
0をフィールド・データ・セグメント54Aから獲得す
る。フィールド・タイプ情報70はフィールドに対応す
ると予想されるタイプとして指定可能な様々な文字スタ
イルを含む。特定の書式が通常、手記により記入される
場合、ハンドプリンティングがフィールド・タイプ情報
70内に示される。予想されるフィールド・タイプ70
として指定される他の文字スタイルには、機械印刷によ
る数値或いは漢字、ヘブライ或いはシリル式アルファベ
ットがある。
【0105】次に図22のステップ117において、文
字認識処理のタイプがフィールド・タイプ或いはフィー
ルド16∧∧内に表される文字イメージの他の特徴にも
とづき選択される。特定のフィールドに対応して実施さ
れる文字認識処理のタイプは、情報がフィールドに期待
される文字タイプに関し使用可能であれば、性能或いは
正確度を考慮して最適化される。例えば、ステップ11
7Aにおいて、フィールド・タイプ情報70が、例えば
ASCIIコード・ページなどの機械印刷によるローマ
式アルファベット文字がフィールド内に存在することを
示すと、標準OMNIフォント認識処理が使用される。
また、ステップ117Bにおいて、フィールド・タイプ
情報70がフィールドがアラビア数字を厳密に使用する
数値フィールドであることを示すと、数値認識処理が使
用される。この処理では認識における曖昧度が、こうし
たフィールドに対応する文字に対立する数値を選択して
解析されるために、より良好な性能を有する。また、ス
テップ117Cにおいて、フィールド・タイプ情報70
或いはコード・ページ71が、フィールドが漢字文字を
含むと予想されることを示す場合、ダブル・バイト認識
処理が使用されなければならない。また、ステップ11
7Bにおいて、フィールド・タイプ情報70がそれがイ
メージ・フィールドであることを示すと文字認識は実行
されず、その代わりに処理は図23のステップ130に
移行し、イメージ自身が抽出され、フィールド・データ
・セグメントに転送される。また、イメージが署名とし
て指定されると、続け書き文字認識処理が適用される
(図示せず)。更に、署名検査処理が適用される(図示
せず)。
【0106】次に図22のステップ118において、図
19示される抽出フィールド・イメージのビット・マッ
プ16∧∧が獲得される。次にステップ119におい
て、文字認識処理がイメージ16∧∧に対して実行され
る。
【0107】データ抽出処理により生成されたイメージ
は、文字認識プロセッサ26において認識されるデータ
のクリーンなイメージを提供する。これはフィールドご
とに実施され、各フィールド内の文字は単一のイメージ
・ブロックとして抽出される。フィールド・イメージが
認識される前に、これは個々の文字イメージに区分化さ
れねばならない。これらは文字分類子により認識され
る。区分化により文字間のピッチ或いは距離が識別さ
れ、接触した文字が分離され、壊れた文字が組合わされ
る。また、もし存在する場合には、タイプにおけるスキ
ュー及びフィールド内の特定のストリング・イメージの
他の特質が識別される。文字認識分類子は単一の文字パ
ターンを入力として受諾し、識別シンボル及びASCI
I或いはEBCDICコードを返却する。通常の書式上
のタイプ・データの場合のように、文書が多数の異なる
ソースから到来する場合、ツリー論理のライブラリが必
要とされ、各々は遭遇する各フォントに対応する。これ
らの印刷に適合するサイズ的特徴を有するフォントが認
識において試行され、各分類子は自身の認識におけるそ
の固有の正確度予測を提供する。これらの予測はイメー
ジの残りの部分を読出すために最適な分類子を選択する
ために評価される。更に、原型パターンのリストが出力
される。ここで2個の原型は互いに一致することはな
く、また全ての入力パターンがある原型に一致する性質
を有し、各原型はクラスタとして定義される。クラスタ
はそれに一致する全てのパターンを含む。クラスタ情報
は文字認識プロセッサにより出力され、後の修復ステー
ジにおいて使用される。
【0108】図4を参照すると、文字認識プロセッサ2
6によりMGDSメッセージ50Bに加えられるいくつ
かの情報が表される。文字データ・バッファBは認識文
字ストリングによりロードされ、これは完全に認識され
た文字"J"及び"n"、懐疑文字"a"、及びアスタリスク"*"
で示される拒絶文字或いは未認識文字の位置を含む。更
に、第1の拒絶文字情報Sは、文字位置、文字座標、第
2の推測文字、及び文字確率を識別する拒絶文字情報セ
グメント内に配置される。第1の文字に対応する文字位
置は"0"、第2の文字は"1"の様に示される。従って、懐
疑文字"a" に対応する文字位置は"1"と示される。文字
座標が懐疑文字"a"のフィールド・イメージにおけるロ
ケーションに対し提供される。更に、文字認識プロセッ
サ26は低い確率を有するいくつかの代わりの候補文字
を公式化する。次に高い確率値は文字"o" に相当し、こ
れは第2の推測文字として、拒絶情報セグメントSの第
2の推測文字パラメータに提供される。更にこの例で
は、文字の確率である50パーセントが拒絶文字情報セ
グメントSにロードされる。第2の拒絶文字情報セグメ
ントRは拒絶文字位置"*" に対して提供される。文字位
置は2として示され、すなわちこれは3番目の文字位置
を示す。また、文字位置に対応する座標がフィールド・
イメージに対して提供される。この情報は図4のMGD
Sメッセージ50Bにロードされる。
【0109】図22及び図23の文字認識処理26Aを
参照すると、ステップ120は図20に示される選択さ
れる認識手順により、コード化データ42を生成する。
次にステップ121において、未認識文字31が図20
に示されるようにフラグ化され、図4に示されるように
文字返却コードRCが1インクリメントされ、書式返却
コードFRもまた1インクリメントされる。
【0110】次にステップ122において、文字認識処
理は図20に示されるように"懐疑"文字位置21を認識
する。これは設定された閾値よりも小さな確率レベルと
して認識される。図4に示されるように懐疑文字返却コ
ードSCが1インクリメントされ、書式返却コードFR
もまた1インクリメントされる。
【0111】次にステップ123において、認識文字"
J"及び"n"を含むコード化データ42、懐疑文字"a"、及
び拒絶フラグ"*"が、図4に示されるように、フィール
ド・データ・セグメント54Bの文字データ・バッファ
Bにロードされる。
【0112】次に図4に示されるように、フィールド・
データ・セグメント54Bに懐疑文字誤りデータに対応
するサブ・セグメントSが増補され、サブ・セグメント
Sには懐疑文字のロケーション座標21がロードされ
る。
【0113】次にステップ125において、図4に示さ
れるように懐疑文字に対する第2推測文字29がサブ・
セグメントSにロードされる。この例では、第2推測文
字29は"o" である。次にステップ126において、懐
疑文字に対する確率値61が図4のサブ・セグメントS
にロードされる。この例では第1の推測文字27"a"は
50パーセントであり、この値は確率に相当する値61
である。
【0114】次にステップ127において、フィールド
・データ・セグメント54Bに拒絶文字誤り情報に対応
するサブ・セグメントRが増補される。これには図4に
示されるように、拒絶文字位置のロケーション座標31
がロードされる。次にステップ127はステップ134
に移行し、処理される別のフィールド・データ・セグメ
ントが存在するかが判断される。
【0115】ステップ130は、このフィールドに対応
するタイプ指示がイメージ・フィールドである場合に、
ステップ117Dから分岐される。ステップ130にお
いて、イメージ・フィールドであるフィールド・タイプ
に対し、図19の抽出イメージ・ビット・マップ44∧
∧が獲得され、次にステップ131において、これは図
11に示されるフィールド・データ・セグメント44B
のイメージ・データ・サブ・セグメント47にロードさ
れる。これは図19の抽出フィールド・イメージ10∧
∧のフィールド44∧∧に対して発生し、ここには署名
45が配置される。図17のフィールド・データ・セグ
メント44Mのフィールド・タイプ70に対応する固定
フィールド・データは、フィールド・タイプがイメージ
であり、フィールド名が"署名"であることを示し、図1
1の第5フィールド・データ・セグメント44Bは、M
GDS 50Bのビット・マップ部分53にイメージ・
ビット・マップ44∧∧をロードされる。次に図23の
ステップ131はステップ134に移行する。
【0116】追加情報が図11のフィールド・データ・
セグメント44Bに含まれる。例えば、イメージ44∧
∧に対応する解像及び圧縮情報51が含まれる。この情
報はフィールド・データ・セグメント44Bのイメージ
・データ部分47に含まれる。
【0117】次に図23の流れ図はステップ134にお
いて、図19の抽出フィールド・イメージ10∧∧内に
おいて、更に別のフィールド・データに対応して処理さ
れるフィールド・データ・セグメントが存在するかを判
断する。存在する場合、ループはステップ114に戻
る。また、処理されるフィールド・データ・セグメント
が存在しない場合には、処理はステップ136に移行
し、図12に示されるMGDSメッセージ50Bを出力
する。
【0118】第3のフィールド・データ・セグメント5
6Bが図9に示され、これは図19の州フィールド12
a∧∧に対応する。図19ではフロリダ州の略字の内
の"L" が、その上に重なる擬似マークを有する。文字認
識プロセッサ26は第2の文字位置に対応する第1の推
測として"A" を解釈する。従って、文字ストリング"FA"
が図9のフィールド・データ・セグメント56Bの文字
データ・バッファBに入力される。文字認識プロセッサ
26はまた第2の文字位置に対応する第2の推測とし
て"L"を判断し、この第2の推測"L"29が図9に示され
る懐疑文字サブ・セグメントSの第2の推測文字部分に
入力される。
【0119】図12は図19の書式における6個のフィ
ールドの各フィールド・セグメントにおけるコード化デ
ータに対応する文字バッファBを示す。第1のフィール
ド・セグメント52は文字ストリング"Doe" をバッファ
Bに有する。第2のフィールド・セグメント54は文字
ストリング"Ja*n"をバッファBに有する。第3のフィー
ルド・セグメント56は文字ストリング"FA"をバッファ
Bに有する。第4のフィールド・セグメント12bは、
図18の書式イメージ10∧ のフィールド12b∧ に
対応するイメージ情報が存在しないために、バッファB
に空ストリングを有する。第5のフィールド・データ・
セグメント44はそのフィールド・イメージ部分に署名
イメージ45を有する。第6のフィールド・データ・セ
グメント12はそのバッファにストリングW1248 を含
む。各それぞれのフィールド・データ・セグメント内の
文字バッファBの各々の内容は、図19の抽出フィール
ド・イメージ10∧∧のそれぞれのフィールドに含まれ
るイメージに対応する正しい英数字ストリングの現行の
最適な推定に相当する。
【0120】図35に示されるコード化データ情報形式
は、フィールド内の各特定の文字ストリングに対応して
使用されるコード・ページに相当する・フィールド・コ
ード・ページ・パラメータを表す。フィールド内におい
てコード・ページが変化する時、フィールド・ページ・
パラメータはそれを使用する文字ストリングに先行す
る。書式上の全てのコード・ページが同一である場合に
は、フィールド・コード・パラメータは使用される必要
はなく、書式コード・ページ・パラメータが書式上の全
ての文字データに対応て使用されるコード・ページを示
す。
【0121】文字バッファ・パラメータBもまた図35
に示され、これは1コード・ページを使用する文字スト
リングの記憶ロケーションを示す。フィールドが文字を
含まず、プロセッサ24により強制的フィールドに指摘
される場合、拒絶文字返却コードはいずれの値も誤りで
はないことを示す。文字バッファはフィールドを表す文
字ストリングの現行の訂正値を記憶する。フィールド修
復の各順序的段階において、フィールドを表す最も確率
の高い文字ストリングが文字バッファBにロードされ
る。
【0122】拒絶情報形式は図36に詳細に示される。
拒絶文字情報包含パラメータは全フィールドに対応する
文字ストリングにおける、文字の位置を識別する文字位
置パラメータを包含する。これに関し、文字値及びイメ
ージ文字との間の関係がそれぞれの修復ステーションに
おいて、発生することが要求される。この位置はフィー
ルドにおける文字位置を示し、文字に先行するバイト数
は示さない。
【0123】MGDSメッセージ50Bは、LAN20
を介して人工知能誤り訂正プロセッサ28に転送され、
そのフィールド・セグメントが誤りを有するフィールド
の第1の修復を実行するために使用される。訂正プロセ
ッサ28はいくつかの実施例における文字認識プロセッ
サ26の一部に相当する。人工知能誤り訂正処理の例
は、文字認識プロセッサ26により生成される文字スト
リングの語彙テストに相当する。一般に、書式の特定の
フィールドに含まれるデータは、全ての文字ストリング
が許容されるわけではないと言った意味において制約さ
れる。量フィールドは典型的には数値データにより充填
され、名前フィールドは典型的にはアルファベット・デ
ータにより充填される。こうした制約は文字認識訂正に
おいて有用である。例えば、特定のフィールドが数値だ
けの場合、フィールド内の懐疑文字と数値との比較が適
切となる。こうした例としてジップ・コード・フィール
ドが挙げられ、ジップ・コード・フィールドのイメージ
における1個以上の数値文字は懐疑的であるか読出され
ない。書式における州、或いは、特に州及び市に対応す
るフィールドが未認識文字を有さずに読出される場合、
語彙解析はジップ・コード・ディレクトリに相当するデ
ータ・ベースを使用することにより、ジップ・コード・
フィールド内の拒絶文字或いは懐疑文字に対応する最も
可能性の高い数値を記入して実行される。特定のタイプ
のフィールドに対し桁だけではなく、文字及び句読点も
読出し誤りされた文字の位置或いは文脈から推論され
る。例えば、特定のフィールドが州フィールドであり、
フィールド内に読出し誤り文字が存在する場合、50州
のリストが語彙分析のために使用され、正確に認識され
た文字に対する最高確率の一致が見い出され、拒絶文字
或いは懐疑文字に対応する値の推論を可能とする。
【0124】本発明における別の応用例は、共通英語の
名前或いはファースト・ネームの場合である。MGDS
50Bは人工知能誤り訂正プロセッサ28に入力さ
れ、ファースト・ネーム・フィールド16∧∧は文字イ
メージ18である文字"John"を含む。文字認識プロセッ
サ26からの出力文字ストリング42"Ja*n"は、語彙解
析を使用することにより誤り訂正プロセッサ28におい
て処理される。ストリング42内の第2番目の文字に対
応する第2の推測文字"o" もまた、語彙解析を使用して
テストされ、その結果"Jo*n"がテストされる。この場
合、語彙解析は最初の文字が"J"であり、最後の文字が"
n"である4文字を有する任意の名前に対して実施され
る。語彙解析の結果、"Joel"、"Jack"、"John"、"Jak
e"、"Jane"、"Jean"、"Jill"、"Joan"、"Judy"、及び"J
une"が候補名のリストに挙げられる。人工知能訂正プロ
セッサ28により実行されるこの語彙解析の例では、第
1の修復を発生するために、入力MGDSメッセージ5
0Bはそのフィールドに関連する情報を供給する。供給
された情報はストリング42"Ja*n"の文字データ・バッ
ファBからのストリング及び第2番目の文字位置に対応
する第2の推測文字すなわち"o" である。人工知能訂正
プロセッサ28はその語彙解析から、ストリング"Joan"
が50パーセントの確率を有し、ストリング"John"が5
0パーセントの確率を有すると判断する。
【0125】人工知能訂正処理28Aは図24及び図2
5のオペレーション・ステップ・シーケンスの流れ図に
示される。処理はステップ138で開始され、MGDS
メッセージ50Bを入力する。次にステップ140にお
いて、ループが開始され、次のフィールド・データ・セ
グメントの懐疑文字返却コードSC及び拒絶文字返却コ
ードRCが調査され、そのフィールドに対応して、懐疑
文字或いは拒絶文字が存在するかが判断される。図4の
第1のフィールド・データ・セグメント52Bで示され
るように、文字認識プロセッサ26は懐疑文字或いは拒
絶文字が存在しなかったものと判断する。従って、ステ
ップ140は次のフィールド・データ・セグメント54
Bに移行し、このフィールドに対応して、懐疑文字或い
は拒絶文字が存在するかを判断する。図4で示されるよ
うにフィールド・データ・セグメント54Bは1に等し
い懐疑文字SC返却コード、及び1に等しい拒絶文字R
C返却コードが存在することを示す。
【0126】次に図24の処理はステップ141に遷移
し、ここで本発明によれば、第1修復セグメントR1が
図4に示されるMGDSメッセージ50Bに追加され、
図5に示されるMGDSメッセージ50Cが生成され
る。第1修復セグメントR1は修復の履歴の編集のため
の空間を提供し、これは人工知能訂正処理28Aによ
り、図4のフィールド・データ・セグメント54Bの文
字データ・バッファBの内容に対して生成される。第1
修復セグメントR1は人工知能誤り訂正プロセッサ28
における修復アドレス、訂正タイプの識別、修復タイム
・スタンプ、実行オペレーションなどのデータ、及びフ
ィールド名、修復される文字の位置などのフィールド修
復に関する情報、及び以降で説明される他の情報などを
含む。
【0127】図24の処理28Aは次にステップ142
に遷移し、図4のフィールド・データ・セグメント54
BのバッファBからコード化データ42"Ja*n"を獲得す
る。
【0128】次にステップ144において、この例の場
合にはどのタイプの人工知能誤り訂正処理が使用される
べきかを判断する。これはもちろんそれぞれのフィール
ドに含まれる情報のタイプに依存する。例えば、ファー
スト・ネーム・フィールド16∧∧はファースト・ネー
ムを含み、コード化データ42"Ja*n"と類似な従来のフ
ァースト・ネームの語彙解析を実行することが適切であ
る。またフィールドが例えばフィールド12a∧∧など
の州名の略字に対応する場合、図9の第3のフィールド
・データ・セグメントの文字ストリング42∧ "FA"と
類似な従来の州名及びそれらの略字の語彙解析を適用す
ることが適当である。
【0129】従って、図24のステップ144はフィー
ルド・データ・セグメント54Bにおけるフィールド名
68がファースト・ネームであるかを判断し、そうであ
る場合、次に"ファースト・ネーム"語彙処理が実行され
る。これはステップ145への遷移により発生し、コー
ド化データを共通ファースト・ネームのリストと比較す
る。ステップ148はステップ148に遷移し、ここで
語彙チェックを実行する。
【0130】また、フィールド名68が"ファースト・
ネーム"ではないが、その代わりにステップ146がフ
ィールド名68が"州"であると判断する場合、次にステ
ップ146は"州略字"語彙処理を実行する。これはステ
ップ147に遷移して実行され、ここではコード化デー
タを州略字リストと比較する。ステップ147は次にス
テップ148に遷移し、語彙チェックを実行する。
【0131】ステップ148は懐疑文字27"a" を含む
コード化データ42"Ja*n"の語彙チェックを実行し、選
択語彙処理を使用することにより第1確率値を計算す
る。この場合、選択語彙処理は前述の"ファースト・ネ
ーム"語彙処理である。
【0132】次に図24の処理28Aは図25のステッ
プ149に遷移し、第2推測文字29を獲得する。この
場合、これは図4に示されるフィールド・データ・セグ
メント54Bからの文字"o" であり、この場合、第2の
推測コード化データ46である"Joan"が形成される。
【0133】次に処理28Aはステップ150に遷移
し、第2推測コード化データ46の語彙チェックが実行
され、選択語彙処理を使用することにより、第2確率値
が計算される。この場合、選択語彙処理は"ファースト
・ネーム"語彙処理である。
【0134】次にステップ152において、第2推測コ
ード化データ46に対応する第2確率が、第1推測コー
ド化データ42に対応する第1確率よりも大きい場合、
本発明によれば、コード化データ42"Ja*n"は図5のM
GDS 50C内のデータ・バッファBから転送され、
第1修復セグメントR1の入力データ修復部分37に配
置される。次に第2推測コード化データ46"Joan"が図
5のフィールド・データ・セグメント54Cのデータ・
バッファBにロードされる。このように、フィールド1
6∧∧を表す文字ストリングの最適な予測が、フィール
ド・データ・セグメントのコード化データ部分75の文
字データ・バッファBに含まれる。
【0135】次にステップ154において、フィールド
16∧∧内のイメージを表すコード化データ46の確率
39が図5に示される第1修復セグメントR1にロード
される。この場合、文字ストリング"Joan"がフィールド
16∧∧を表す確率は50パーセントである。
【0136】次に処理28Aはステップ156に遷移
し、コード化データに対応するクラスタ・データ或いは
代替選択48を第1修復セグメントR1にロードする。
人工知能誤り訂正プロセッサ28はフィールド16∧∧
のコード化データ表現に対する代替選択を文字ストリン
グ"John"48と判断し、これが図5に示されるように、
第1修復セグメントR1に配置される。
【0137】次にステップ158において、修復プロセ
ッサ・アドレス"28"及びプロセッサ28における修復
のタイム・スタンプが、第1修復セグメントR1にロー
ドされる。
【0138】処理は次にステップ160に遷移し、別の
フィールド・データ・セグメントが存在するかを判断し
存在する場合には、処理はループの開始であるステップ
140に遷移する。この場合、図9のMGDS 50B
内の次のフィールド・データ・セグメントは、州フィー
ルド12a∧∧に対応するフィールド・データ・セグメ
ント56Bである。人工知能訂正処理28Aはステップ
146において、フィールド名68が"州"であると判断
し、"州略字"語彙処理を実行する。その結果、文字スト
リング46∧ "FL"がフィールド12a∧∧に対応する
より可能性の高い記述であると判断する。従って、ステ
ップ152はコード化データ42∧ "FA"を図10の修
復セグメントR1∧ のロケーション37に転送し、ま
た第2推測コード化データ46∧ "FL"を図10のフィ
ールド・データ・セグメント56Cのコード化データ部
分75∧∧の文字データ・バッファBにロードする。こ
のように、州フィールド12a∧∧のイメージを表すと
思われる最も可能性の高い文字ストリングが、フィール
ド・データ・セグメント56Cのコード化データ部分7
5∧∧の文字データ・バッファBには存在する。
【0139】処理28Aのステップ160が、解析され
るべき別のフィールド・データ・セグメントがもはや存
在しないと判断すると、次に処理はステップ162に遷
移し、図13に示されるMGDSメッセージ50Cを出
力する。図13に示されるMGDSメッセージ50Cは
6個のフィールド・データ・セグメントを含む。6個の
フィールド・データ・セグメントに加え、2個の修復セ
グメントが存在し、R1はファースト・ネームに対応す
る第2のフィールドに関連し、修復セグメントR1∧
は州に対応する第3のフィールドに関連する。第1のフ
ィールド・データ・セグメント52は、MGDS 50
Bより変更の無いバッファBを有する。MGDS 50
Cに対応するフィールド・データ・セグメント54は、
新たな文字ストリング"Joan"に変更されたバッファBを
有する。MGDS 50Cにおける第3の州フィールド
・セグメント56は、文字ストリング"FL"に変更された
バッファBを有する。第4、第5、及び第6のフィール
ド・セグメントである12b、44、及び12は、それ
ぞれMGDS 50Cにおいて無変更であり、MGDS
50Bのままである。ファースト・ネーム・フィール
ドを修復した追加の修復セグメントR1は、文字ストリ
ング"Ja*n"を含むバッファ37を有する。州フィールド
を修復した第2の修復セグメントR1∧ は、ストリン
グ"FA"を含むバッファ37を有する。ここで修復の履歴
は修復セグメントR1及びR1∧ が存在する書式にお
けるMGDS 50C内に蓄積されることが理解され
る。更に、図19の抽出フィールド・イメージ10∧∧
における各それぞれのフィールドを表す文字ストリング
の最適な予測が、MGDS 50C内の各フィールド・
データ・セグメントに対応する各それぞれの文字バッフ
ァB内に存在する。
【0140】図5において、MGDSメッセージ50C
は誤り訂正プロセッサ28により、文字認識プロセッサ
26から受信されるMGDS 50Bを使用して形成さ
れる。図5のMGDS 50Cはプロセッサ28におけ
る修復アドレスを、MGDS50Bに対して増補された
修復セグメントR1に入力している。セグメントR1は
また修復IDすなわち人工知能或いは"AI"を有する。更
に修復タイム・スタンプが含まれ、この場合には5時3
分58秒或いは日である。実行されるオペレーション
は"語彙"として入力され、語彙解析がこの最初の修復に
対応して実行されたことを示す。次に図5のMGDS
50Cにおけるフィールド修復包含パラメータは、"フ
ァースト"なるフィールド・ネーム、及び第2の文字或
いはこの例では"1" が使用される文字位置を含む。本発
明によれば、訂正プロセッサ28において実行される第
1段階の修復は、文字認識プロセッサ26からの入力M
GDSメッセージ50Bに含まれる第1及び第2の選択
情報を利用する。
【0141】この時点において、本発明の実施例が如何
に単一の知能的書式プロセッサ25を使用し、マルチタ
スク形式で書式認識及びフィールド抽出プロセッサ2
4、文字認識プロセッサ26、及び人工知能誤り訂正プ
ロセッサ28において実行されるそれぞれの処理を実行
するかについて説明することが適切である。
【0142】図29は知能的書式プロセッサ25の詳細
体系図を示す。プロセッサ25はメモリ302を含み、
これはバス322によりCPU310、大容量記憶装置
312、表示及びキーボード314、及びLANアダプ
タ316に接続される。スキャナ・アダプタ318はス
キャナ22をバス322に接続する。LANアダプタ3
16はLAN20をバス322に接続する。更に、オプ
ションのFAX及び通信ネットワーク・アダプタ320
がファックス電話線をバス322に結合し、データ通信
ネットワークがバス322に接続される。CPU310
は例えばインテル386、或いは486データ処理装置
である。大容量記憶装置312は例えば200メガバイ
トのハード・ディスク装置などのハード・ディスク記憶
装置であったり、或いはハード・ディスク磁気記憶装置
と光学式読出し/書込み記憶装置との組合せであったり
する。
【0143】メモリ302はいくつかのコンピュータ・
プログラムを含み、各々は処理を実行するための実行可
能命令のシーケンスである。メモリ302は上述のよう
に、スキャナ・プロセッサ23による処理を実行するた
めのスキャナ・インタフェース・プログラム23A∧
を含む。メモリ302にはまた、バッファ40のための
区分が含まれる。更に、メモリ302には図16及び図
17に示されるマスタ書式形式10Fに対応する区分が
提供される。
【0144】メモリ302は書式認識プログラム24A
∧ に対応する区分が提供され、これは図21に示され
る書式認識処理24Aを実行する。この区分はまたフィ
ールド抽出プログラム24B∧ を含み、これは図21
に示されるフィールド抽出処理24Bを実行する。書式
認識プログラム24A∧ 及びフィールド抽出プログラ
ム24B∧ の実行の結果、前述のように抽出フィール
ド・イメージ10∧∧、及びMGDS 50Aが生成さ
れる。
【0145】メモリ302には文字認識プログラム26
A∧ に対応する別の区分が提供され、これは図22乃
至図23に示される文字認識処理26Aを実行する。文
字認識プログラム26A∧ の実行の結果、MGDS
50Bが生成される。文字認識プログラム26A∧は書
式認識プログラム24A∧及びフィールド抽出プログラ
ム24B∧ により生成されるMGDS 50A上にお
いて作用し、MGDS 50Bを生成する。
【0146】メモリ302には人工知能誤り訂正プログ
ラム28A∧ に対応する区分が提供され、これは図2
4乃至図25に示される人工知能処理28Aを実行す
る。人工知能誤り訂正プログラム28A∧は文字認識プ
ログラム26A∧により生成されるMGDS 50B上
において作用し、MGDS 50Cを生成する。
【0147】IBMのOperating System/2、Extended E
ditionなどのマルチタスキング・オペレーティング・シ
ステム304がマルチタスキング・モードで使用され
て、メモリ302内のプログラムのマルチタスク実行を
制御する。その代わりとして、オペレーティング・シス
テム304はアプリケーション・プログラムのマルチタ
スク実行を監視する必要はないが、その代わりにアプリ
ケーション・プログラムはMGDS内の特定のデータ・
フィールド・セグメントを処理するために順次的に実行
される。
【0148】電話ファクシミリ線をプロセッサ25に接
続するためのファクシミリ及びネットワーク・アダプタ
320は、スキャナ・アダプタ318を介し提供される
イメージの代わりに、ファクシミリ・イメージの受信を
可能とする。同様にアダプタ320のデータ通信ネット
ワークへの接続は、スキャナ22によるこうした文書イ
メージ・ファイルの生成の代わりに、ネットワークから
の現存する文書イメージ・ファイルの受信を可能とす
る。
【0149】MGDSメッセージ50CはAI誤り訂正
プロセッサ28から、ローカル・エリア・ネットワーク
20を介し、第2の修復ステーションに相当するデータ
・ベース誤り訂正プロセッサ30に出力される。データ
・ベース誤り訂正プロセッサ30は、ホスト・コンピュ
ータ34上で実行される特定のアプリケーションにおい
て使用される顧客名のデータ・ベースを含む。この例で
はホスト・コンピュータ34は保険会社における保険書
式の文書イメージ保管システムを管理する。保険会社は
多数の保険顧客を有し、これらの保険顧客のリストはデ
ータ・ベース誤り訂正プロセッサ30に含まれる。デー
タ・ベース誤り訂正プロセッサ30に入力されるMGD
S 50Cにおける提示される文字ストリングを比較す
ることにより、特定のホスト・コンピュータ・アプリケ
ーションにおけるある保険顧客の実際の名前と同じ文字
ストリングが選択される。この例では、MGDS 50
CはAI誤り訂正プロセッサ28からデータ・ベース誤
り訂正プロセッサ30に入力され、ここで第2の修復セ
グメントR2が追加される。第2の修復セグメントR2
はプロセッサ30により実行される第2の修復を特徴づ
ける。本発明の別の実施例では、データ・ベース誤り訂
正プロセッサ30はマルチタスク・アプリケーションに
おいて、同一のプロセッサ25内における人工知能誤り
訂正プロセッサ28及び文字認識プロセッサ26と組合
わされる。
【0150】データ・ベース誤り訂正プロセッサ30は
文字データ・バッファBから好適な選択文字ストリン
グ"Joan"46を取得し、全ての保険顧客名を含むデータ
・ベースとの比較を実行する。"Joan Doe"との一致が存
在しないことが見いだされる。次に、データ・ベース誤
り訂正プロセッサ30はMGDS 50Cから受信され
る代わりの選択48"John"を取得し、これをデータ・ベ
ース内の保険顧客名との比較に適用する。比較は成功
し、"John Doe"が見い出される。この第2の修復オペレ
ーションの結果、ストリング46"Joan"を有する文字デ
ータ・バッファBの内容が、第2の修復セグメントR2
内の入力データ修復部分37に転送される。次に、文字
データ・バッファBの内容として、文字ストリング4
8"John"に対応する修復値がロードされる。
【0151】図26はデータ・ベース誤り訂正プロセッ
サ30により実行されるデータ・ベース誤り訂正処理3
0Aを表す。処理は図5で示されるMGDSメッセージ
50Cを入力するステップ164で開始される。次にス
テップ166において、ループが開始される。第1のフ
ィールド・データ・セグメント52CはMGDS 50
Cからアクセスされ、これはラスト・ネーム・フィール
ド14∧∧である第1のフィールドに対応し、懐疑文字
返却コード或いは拒絶文字返却コードがゼロでない値を
有するかが判断される。第1のフィールド14∧∧は既
に十分に解析されているので、ステップ166は次のフ
ィールド・データ・セグメント54Cを獲得するために
ループする。
【0152】ステップ166は、図5において見られる
ようにファースト・ネーム・フィールド16∧∧に対応
するフィールド・データ・セグメント54Cが1に等し
い懐疑文字返却コード、及び1に等しい拒絶文字返却コ
ードを有するかを判断する。ステップ166は更に、第
1修復セグメントR1が100パーセントよりも小さな
確率値を有すかどうかを判断する。この場合のフィール
ド・データ・セグメント54Cでは、対応する修復セグ
メントR1は50パーセントの確率値を有するため、ス
テップ166の基準に適合する。
【0153】図26のステップ168において、第2修
復セグメントR2がMGDS 50Cに追加され、図6
に示されるMGDS 50Dが形成される。第2修復セ
グメントR2は、データ・ベース誤り訂正処理30によ
り、図6のフィールド・データ・セグメント54Dのコ
ード化データ部分75のバッファB内の文字データに対
して実行される修復履歴を記憶する空間を提供する。
【0154】次に図26のステップ170において、文
字ストリング"Joan"に相当するコード化データ46がフ
ィールド・データ・セグメント54C内のデータ・ベー
ス・バッファBから獲得される。次にステップ172に
おいて、コード化データ46"Joan"に対するデータ・ベ
ース・チェックが実行され、第1確率値が計算される。
【0155】次にステップ174において、この場合に
は文字ストリング"John"に相当する代替選択コード化デ
ータ48が、図5に示される第1修復セグメントR1か
ら獲得される。次にステップ176において、代替選択
コード化データ48に対しデータ・ベース・チェックが
実行され、第2確率値が計算される。
【0156】次にステップ178において、コード化デ
ータ48に対し計算された第2確率値がコード化データ
46に対し計算された第1確率値よりも大きいかどうか
が判断され、フィールド・データ・セグメント54Cの
データ・バッファB内のコード化データ46"Joan"が、
図6に示される第2修復セグメントR2の入力データ修
復バッファ43に転送される。次に代替選択コード化デ
ータ48"John"が図6に示される文字データ・バッファ
Bにロードされる。このように、フィールド16∧∧の
イメージを表す最適な予測を有する文字ストリングが、
図6のフィールド・データ・セグメント54Dの文字デ
ータ・バッファBに存在する。
【0157】次に図26の処理はステップ180に遷移
し、図6に示されるようにコード化データ48"John"に
対応する確率値41を第2修復セグメントR2にロード
する。データ・ベース誤り訂正プロセッサ30はコード
化データ48"John"に対応する確率を100パーセント
と判断している。
【0158】次に処理はステップ184に遷移し、解析
される別のフィールド・データ・セグメントが存在する
かを判断し存在する場合には、処理はステップ166に
ループして戻る。
【0159】この例では、次のフィールド・データ・セ
グメントは図10に示される第3のフィールド・データ
・セグメント56Cである。対応する修復セグメントR
1∧は州フィールドに対応する文字ストリング46∧ "
FL"の確率39を100パーセントと示す。従って、ス
テップ166はデータ・ベース誤り訂正処理38におけ
るこのフィールド・データ・セグメントの更なる処理の
基準が充足されていないと判断する。そこでループは処
理38で処理すべき追加のフィールド・データ・セグメ
ントの探索を継続する。この例では処理すべき他のフィ
ールド・データ・セグメントが存在しないため、ステッ
プ184はステップ186に遷移し、図14に示される
MGDSメッセージを50Dを出力する。
【0160】図14に示されるMGDS 50Dは6フ
ィールド・データ・セグメント及び3修復セグメントを
有する。6フィールド・データ・セグメントは図19の
抽出フィールド・イメージ10∧∧に存在する6フィー
ルドに対応する。MGDS 50Dの各それぞれのフィ
ールド・データ・セグメントにおけるバッファBは、抽
出フィールド・イメージ10∧∧の対応するフィールド
内の文字イメージの最適現行予測に相当する文字ストリ
ングを含む。更に文字認識修復履歴が3つの修復セグメ
ントR1、R1∧ 及びR2の書式に生成される。これ
ら3つの修復セグメントの存在は、それぞれのフィール
ド・データ・セグメントの後続の解析を支援する。これ
ら3つの修復セグメントの存在はまた、全体的な文字認
識処理を改善するための監査証跡を提供する。
【0161】誤り訂正プロセッサ30は修復アドレス"3
0"をセグメントR2にロードし、この場合の修復IDす
なわちデータ・ベース"DB"を第2のセグメントR2にロ
ードし、更に修復タイム・スタンプの5時4分1秒をR
2の修復タイム・スタンプ・パラメータにロードする。
実行オペレーションが"DATA BASE" としてセグメントR
2にロードされ、その時、R2におけるそれらのフィー
ルド修復包含パラメータにはファースト・ネームを示
す"FIRST" がロードされ、文字位置として変更された文
字がストリング内における3番目の文字に相当すること
を示す"2" がロードされる。データ・ベース照会もまた
入力され、セグメントR2において "顧客名" として特
徴化される。更に、確率レベルを示す100パーセント
がセグメントR2に入力される。データ・ベース誤り訂
正プロセッサ30から出力される完了済みのMGDSメ
ッセージ50Dを図6に示す。
【0162】MGDS 50Dは次にローカル・エリア
・ネットワーク20を介して、手動検査及び訂正プロセ
ッサ32に転送される。
【0163】手動検査及び誤り訂正プロセッサ32はM
GDS 50Dを受取り、これを第3の修復セグメント
R3に追加する。アプリケーションに応じて、要求され
る手動検査は特定のフィールドに対応してフラグ化され
た文字ストリングの順次的訂正の結果実行される。
【0164】データ・ベース誤り訂正プロセッサ30か
ら出力され、手動検査及び訂正プロセッサ32により受
信されるMGDSメッセージ50Dは、プロセッサ30
においてオペレータにより検査された文字データ48"J
ohn"を含む。訂正プロセッサ32は第3の修復段階に対
応して第3の修復セグメントR3を追加し、実際の修復
或いは単に妥当性検査が実行される。修復アドレス"32"
及びオペレータ"Jones" の識別がセグメントR3に入力
される。また、修復タイム・スタンプとして5時5分1
5秒がセグメントR3に入力される。実行オペレーショ
ンは"検査"としてセグメントR3に示される。アプリケ
ーションが要求する文字或いは全ストリングに対応する
座標が、当初文字認識プロセッサ26により生成された
拒絶文字情報Sから抽出される。これらはフィールドに
おけるイメージ・ビット・マップ及び文字認識プロセッ
サ26より識別される拒絶文字或いは懐疑文字のロケー
ションの座標を示す。訂正プロセッサ32はフィールド
がオペレータに表示される時に、それらを強調表示及び
/或いは拡大するために、これらの座標を使用する。文
書イメージ10∧ のコピーはLAN20を介し訂正プ
ロセッサ32に渡され、オペレータにより見られる。拒
絶文字或いは懐疑文字の座標により指定されるロケーシ
ョンは、表示される文書イメージのその部分を強調表示
及び/或いは拡大するために使用される。オペレータは
次に文書イメージの強調表示部分を、同様にプロセッサ
32の表示画面上に英数字文字により表示される文字ス
トリング48"John"と迅速に比較することができる。オ
ペレータがストリング48"John"の表示を容認すると、
次に検査容認がセグメントR3に記録される。検査の指
摘がセグメントR3に入力され、例えばコメント部分と
して記入される。
【0165】また、オペレータがストリング48をスト
リング49"JOHN"に変更するために、全ての文字を大文
字化するような変更を望む場合、本発明によればストリ
ング48は文字データ・バッファBからセグメントR3
の入力データ修復部分55に転送される。次にプロセッ
サ32は訂正値ストリング49"JOHN"を文字データ・バ
ッファBにロードする。フィールド名、文字位置、及び
コメントなどの他の適切なフィールドがセグメントR3
に記入される。
【0166】手動検査及び訂正処理32Aを図27及び
図28に示す。処理は図6に示すMGDSメッセージ5
0Dを入力するステップ188で開始される。次にステ
ップ190において、ループが開始される。MGDS
50D内の各フィールド・データ・セグメントが調査さ
れ、懐疑文字SC返却コード或いは拒絶文字RC返却コ
ードがゼロでないか、また100パーセントよりも小さ
な確率41を有する対応する第2の修復セグメントR2
が存在するかが判断される。更にステップ190におい
て他の選択基準も適用可能であり、オペレータが特定の
書式に対応する特定のMGDSを要求することも可能で
ある。この例では、オペレータは図18の走査書式イメ
ージ10∧の第2のフィールド16∧を選択し調査す
る。これはファースト・ネーム・フィールドであり、図
6のMGDS 50Dにおける対応するフィールド・デ
ータ・セグメント54Dが、図27乃至図28の処理3
2Aによりオペレートされる。
【0167】次の処理はステップ192に遷移し、第3
の修復セグメントR3を図6のMGDSメッセージ50
Dに追加し、図7のMGDSメッセージ50Eを形成す
る。修復セグメントR3は手動検査及び訂正プロセッサ
32により図6のデータ・セグメント54Dのコード化
データ部分75のバッファB内の文字ストリング48"J
ohn"に対し実行される修復ステップの履歴の記録のため
の空間を提供する。
【0168】処理は次にステップ194に遷移し、コー
ド化データ48"John"を図6のフィールド・データ・セ
グメント54DのバッファBから獲得する。
【0169】次にステップ196において、コード化デ
ータ48"John"が修復オペレータに表示される。次にス
テップ198において、図18の書式文書イメージ10
∧ がアクセスされ、修復オペレータに表示される。
【0170】次にステップ200において、本発明によ
れば懐疑文字イメージの座標21及び拒絶文字イメージ
の座標31がフィールド・データ・セグメント54Dか
ら獲得される。次にステップ202において、懐疑文字
及び拒絶文字の位置に対応する文字イメージが表示画面
内で強調表示及び/或いは拡大されて修復オペレータに
示される。図20のフィールド・イメージ16∧ では
修復オペレータに対し、懐疑文字位置21及び拒絶文字
位置31が強調表示される。
【0171】ステップ204において、オペレータは次
に訂正コード化データ49をオペレータ・キーボードか
ら入力する。この場合、オペレータは文字ストリング4
8"John"を大文字49"JOHN"に変更することを望むとす
る。
【0172】次にステップ206において、本発明によ
ればコード化データ48がデータ・バッファBから第3
の修復セグメントR3のバッファ55に転送され、図7
に示されるように、訂正コード化データ49がバッファ
Bにロードされる。このようにして図18の書式イメー
ジ10∧のフィールド16∧内のイメージを表す文字ス
トリングの最適な予測が、図7に示されるMGDS 5
0Eのフィールド・データ・セグメント54Eのコード
化データ部分75に相当する文字データ・バッファB内
に存在する。
【0173】次に図28のステップ208において、オ
ペレータは第3修復セグメントR3にコメントをロード
する。次にステップ210は修復プロセッサ・アドレス
及びタイム・スタンプを第3修復セグメントR3にロー
ドする。
【0174】処理32Aのステップ212は処理される
べき別のフィールドが存在するかを判断する。この例で
は、修復オペレータは手動検査及び訂正プロセッサ32
において、図10の文字ストリング46∧ "FL"を変更
することを望む。オペレータは3文字の略字"Fla" への
変更を望む。これは図15のフィールド・データ・セグ
メント56に示され、バッファBは文字ストリング"Fl
a" を含む。従って、追加の修復セグメントR3∧ がM
GDS 50Eに追加され、バッファ55は図10のバ
ッファBから獲得された文字データ46∧ "FL"を含
む。
【0175】この例では、手動検査及び訂正処理32A
により処理するべき他のフィールドは存在しない。従っ
て、処理はステップ214に遷移し、図15に示される
MGDSメッセージ50Eを出力する。図15に示され
るMGDSメッセージ50Eは6個のフィールド・デー
タ・セグメントを及び5個の修復セグメントを有する。
【0176】図15はMGDS 50Eの書式を示し、
修復履歴記憶装置38へ記憶するために、ホスト・コン
ピュータ34に出力される。MGDS 50Eを修復履
歴記憶装置38に記憶する以前に、ホスト・コンピュー
タ34は図18の書式10∧の6個の各フィールドにお
ける各フィールド・データ・セグメントに対応するバッ
ファBの内容を取出し、各バッファBの内容を書式内の
対応するフィールドのイメージを表す文字ストリングの
最適な予測として記憶する。MGDS 50Eのフィー
ルド・セグメント52からのコード化データは、バッフ
ァBに"Doe" として含まれる。このコード化データは図
18の走査書式イメージ10∧ のラスト・ネーム・フ
ィールド14∧ を表すものとして、ホスト・コンピュ
ータ34によりコード化データ記憶装置35に記憶され
る。同様に、文字ストリング"JOHN"を含むフィールド・
データ・セグメント54に対応するバッファBは、走査
書式イメージ10∧のファースト・ネーム・フィールド
16∧を表す文字ストリングの最適な予測として、ホス
ト・コンピュータ34によりコード化データ記憶装置3
5に記憶される。同様に、文字ストリング"Fla" を含む
フィールド・データ・セグメント56のバッファBの内
容は、図18の走査書式イメージ10∧ の州フィール
ド12a∧ の最適な予測として、ホスト・コンピュー
タ34によりコード化データ記憶装置35に記憶され
る。
【0177】後にホスト・コンピュータ34が、MGD
S 50E内の特定のフィールド・データ・セグメント
に対応するバッファB内の文字ストリングの修復方法に
関する監査を実施ように命令される場合、そのフィール
ドの文字認識に関する修復の履歴が、修復履歴記憶装置
38からMGDS 50Eをアクセスすることにより確
認される。監査されるフィールドに対応する各それぞれ
の修復セグメントは、どのようにして修復が実行された
かを判断するために調査される。例えば、ファースト・
ネーム・フィールド16∧ を表す第2のフィールド・
セグメント54に対応して、文字認識修復の監査はフィ
ールド・データ・セグメント54、修復セグメントR
3、修復セグメントR2、及び修復セグメントR1をこ
の順序で調査する。これはMGDS 50Eのフィール
ド・データ・セグメント54に含まれるフィールドの最
後の最適予測から逆方向に作用することを可能とし、す
なわち、そのフィールドに対し実行された修復に対する
逆シーケンスが可能となる。こうした監視が全体的な修
復処理を改善するために実施される場合、修復の各段階
が如何に実行されたかに関する明確な指摘が、MGDS
50E内の修復セグメントにより表される集合的な修
復履歴から明らかにされる。
【0178】結果的に生ずるMGDSメッセージ50E
は、ファースト・ネーム・フィールド16の内容に対し
て実行される順序的修復の履歴を含む。MGDSメッセ
ージ50Eは次にLAN20を介して、一時記憶用のバ
ッファ記憶装置40∧ に転送される。また、このメッ
セージは長期間記憶のために、修復履歴記憶装置38に
も転送される。また、ホスト・コンピュータ34にも転
送され、ストリング49に相当するフィールド・データ
・セグメント54のコード化データ・バッファBの内容
が、コード化データ記憶装置35にロードされる。この
内容は例えば指標値として使用され、アプリケーション
が文書イメージ10∧ を記憶するために、保険顧客名
を指標値として使用する。
【0179】手動検査及び訂正プロセッサ32は図30
にその詳細体系図が示される。プロセッサ32はメモリ
402を含み、これはバス422によりCPU410、
大容量記憶装置412、表示及びキーボード414、L
ANアダプタ416、及びファクシミリ及びネットワー
ク・アダプタ420に接続される。LANアダプタ41
6はLAN20をバス422に接続する。FAX及びネ
ットワーク・アダプタ420はファクシミリ電話線をバ
ス422に接続し、これはデータ通信ネットワーク線を
バス422に接続する。
【0180】プロセッサ32のメモリ402はいくつか
の区分を含み、これらは上述の処理を実行するための実
行可能命令シーケンスに相当するコンピュータ・プログ
ラムを含む。特に、手動検査及び訂正プログラム32A
∧ がメモリ402に記憶され、その命令がCPU41
0によりに実行される時、図27乃至図28の手動検査
及び訂正処理32Aが実行される。
【0181】メモリ402はまた図6に詳細に示される
MGDS 50Dを受信及び記憶するための区分を含
む。メモリ402は更に書式文書イメージ10∧ を受
信及び記憶するための区分を有する。
【0182】メモリ402はまた表示バッファ区分42
4を有し、ここには書式文書イメージ10∧ が強調表
示領域58と共にアセンブルされる。強調表示領域はフ
ィールド・イメージ16∧ 上の懐疑文字位置21及び
拒絶文字位置31にスーパーインポーズされる。この合
成イメージは次にプロセッサ32において、オペレータ
に表示される。更に、表示バッファはコード化データ4
8"John"についても、前述のようにオペレータに表示さ
れるようにアセンブルする。コード化データ48はMG
DS 50Dのコード化データ部分75の文字データ・
バッファBから獲得される。メモリ402内の表示バッ
ファ424は、表示装置414上にその内容が表示され
る。オペレータは代替文字ストリング49"JOHN"をキー
ボードから入力する。
【0183】
【発明の効果】以上説明したように本発明によれば、文
書フィールドの情報内容の最適な予測が、文字修復の次
のステージにおいて即座に使用可能となる。また、修復
の各ステージにおいて、最適な代替試行ストリング及び
第2推測文字が修復の次のステージに対応する類別フィ
ールドに対し、即座に使用可能となる。本発明は前回の
修復ステージの結果、生ずる試行ストリングの確率レベ
ルを次の修復ステージにおいて、即座に使用可能とする
ことにより認識処理の性能を最大化する。これはある確
率値を有するフィールドに対する引き続く修復の回避を
可能とする。結局、本発明は各類別フィールドの修復の
履歴を即座に使用可能とすることにより、全体的な認識
処理の監査を可能とする。
【図面の簡単な説明】
【図1】本発明の全体的体系図である。
【図2】本発明の全体的体系図である。
【図3】書式認識及びフィールド抽出プロセッサ24か
ら出力される機械生成データ構造(MGDS)50Aを
表す図である。
【図4】文字認識プロセッサ26から出力されるMGD
S 50Bを表す図である。
【図5】人工知能誤り訂正プロセッサ28から出力され
る第1の修復セグメントR1を含むMGDS 50Cを
表す図である。
【図6】データ・ベース誤り訂正プロセッサ30から出
力される第2の修復セグメントR2を含むMGDS 5
0Dを表す図である。
【図7】手動検査及び訂正プロセッサ32から出力され
る第3の修復セグメントR3を含むMGDS 50Eを
表す図である。
【図8】第3のフィールド・データ・セグメント56A
を生成した後の機械生成データ構造(MGDS)50A
を表す図である。
【図9】第3のフィールド・データ・セグメント56B
に対応する、文字ストリング及び誤り情報を生成した後
のMGDS 50Bを表す図である。
【図10】第3のフィールド・データ・セグメント56
Cに対応する、修復セグメントR1∧ を生成した後の
MGDS 50Cを表す図である。
【図11】フィールド・イメージ44∧∧を有する第5
のフィールド・データ・セグメントを生成した後のMG
DS 50Bを表す図である。
【図12】文字認識プロセッサ26が書式の全6フィー
ルドにおけるオペレーション完了後のMGDS 50B
を表す図である。
【図13】人工知能誤り訂正プロセッサ28が書式の全
6フィールドにおけるオペレーション完了後のMGDS
50Cを表す図である。
【図14】データ・ベース誤り訂正プロセッサ30が書
式の全6フィールドにおけるオペレーション完了後のM
GDS 50Dを表す図である。
【図15】手動検査及び訂正プロセッサ32が書式の全
6フィールドにおけるオペレーション完了後のMGDS
50Eを表す図である。
【図16】マスタ書式10Fを表す図である。
【図17】図16のマスタ書式10Fに対応するマスタ
MGDS 50Mを表す図である。
【図18】文書書式の走査書式イメージ10∧ を表す
図である。
【図19】図18の走査書式イメージ10∧ からの抽
出されたフィールド・イメージ10∧∧を表す図であ
る。
【図20】図18に示される文書書式イメージ10∧内
のフィールド16∧に対する処理ステップのシーケンス
を表す図である。
【図21】書式認識処理24A及びフィールド抽出処理
24Bに対応するオペレーション・ステップのシーケン
スの流れ図である。
【図22】文字認識処理26Aに対応するオペレーショ
ン・ステップのシーケンスの流れ図である。
【図23】文字認識処理26Aに対応するオペレーショ
ン・ステップのシーケンスの流れ図である。
【図24】人工知能誤り訂正プロセッサ28Aにおける
オペレーション・ステップのシーケンスを示す図であ
る。
【図25】人工知能誤り訂正プロセッサ28Aにおける
オペレーション・ステップのシーケンスを示す図であ
る。
【図26】データ・ベース誤り訂正処理30Aに対応す
るオペレーション・ステップのシーケンスを示す図であ
る。
【図27】手動検査及び訂正処理32Aに対応するオペ
レーション・ステップのシーケンスを示す図である。
【図28】手動検査及び訂正処理32Aに対応するオペ
レーション・ステップのシーケンスを示す図である。
【図29】知能的書式プロセッサ25の詳細体系図であ
る。
【図30】手動検査及び訂正プロセッサ32の詳細体系
図である。
【図31】機械生成データ構造(MGDS)パラメータ
間の関係を表す図である。
【図32】MGDSの書式情報部分(FI)を表す図で
ある。
【図33】MGDSのページ情報部分(PI)を表す図
である。
【図34】MGDSのフィールド情報形式54Aを表す
図である。
【図35】MGDSのコード化データ情報部分75を表
す図である。
【図36】MGDSの拒絶情報部分S或いはRを表す図
である。
【図37】図1及び図2の結合状態を示す図である。
【符号の説明】
20 ローカル・エリア・ネットワーク(LAN) 24 書式確認及び訂正プロセッサ 25 知能的書式プロセッサ 26 文字確認プロセッサ 28 人工知能誤り訂正プロセッサ 30 データ・ベース誤り訂正プロセッサ 32 手動検査及び訂正プロセッサ 36 文書イメージ記憶装置 37 データ修復部分 38 修復履歴記憶装置 34 ホスト・コンピュータ 60 文書イメージ・ファイル・ポインタ 62 スキュー及びオフセット値 64 フィールド座標 65 固定書式データ 66 書式名 67 固定フィールド・データ 68 フィールド名 70 フィールド・タイプ 72 書式返却フィールド(FR)
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ティモシー・エス・ベッツ アメリカ合衆国20874、メリーランド州 ジャーマンタウン、スキップ・ジャッ ク・ドライブ 12113 (72)発明者 バレリー・エム・キャラス アメリカ合衆国20895、メリーランド州 ケンシントン、ナンバー310、ユニバー シティ・ブールバード 3333、 (72)発明者 ルイス・ビー・ネフト アメリカ合衆国20832、メリーランド州 オルニー、ジョン・キャロル・ドライブ 3801 (72)発明者 トーマス・エル・ポールソン アメリカ合衆国20854、メリーランド州 ポトマク、スリーピー・ハロー・レーン 8749 (56)参考文献 特開 平1−42781(JP,A) 特開 平3−214281(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06K 9/00,9/03

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】データ処理システムにおける文書書式のデ
    ジタル・イメージの文字認識誤りを修復する方法であっ
    て、 文書書式のデジタル文書イメージを入力し、前記文書イ
    メージからフィールド・イメージを抽出し、対応する抽
    出フィールド・イメージを形成するステップと、 前記抽出フィールド・イメージから認識コード化データ
    を生成し、文字認識処理により認識誤りデータを生成す
    るステップと、 前記抽出フィールド・イメージに対応するコード化デー
    タ・バッファ部分及び誤りバッファ部分を含むフィール
    ド・データ・セグメントを含む機械生成データ構造(M
    GDS)をアセンブルするステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分に挿入し、前記認識誤りデータを前記フィールド
    ・データ・セグメントの前記誤りバッファ部分に挿入す
    るステップと、 前記認識コード化データの修復のために、前記MGDS
    をコード化データ修復処理に転送するステップと、 前記MGDSに修復データ・バッファ部分を含む修復セ
    グメントを付加するステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分からアクセスし、前記認識誤りデータを前記フィ
    ールド・データ・セグメントの前記誤りバッファ部分か
    らアクセスし、前記修復処理により修復コード化データ
    を生成するステップと、 前記修復コード化データを前記フィールド・データ・セ
    グメントの前記コード化データ・バッファ部分に挿入
    し、前記認識コード化データを前記修復セグメントの前
    記修復データ・バッファ部分に挿入するステップと、 前記MGDSをユーティリゼーション装置に転送し、前
    記フィールド・データ・セグメントの前記コード化デー
    タ・バッファ部分の内容を、前記認識コード化データの
    訂正書式として使用するためにアクセスするステップ
    と、 を含むことを特徴とする方法。
  2. 【請求項2】データ処理システムにおける文書書式のデ
    ジタル・イメージの文字認識誤りを修復する方法であっ
    て、 文書書式のデジタル文書イメージを入力し、前記文書イ
    メージからフィールド・イメージを抽出し、対応する抽
    出フィールド・イメージを形成するステップと、 前記抽出フィールド・イメージから認識コード化データ
    を生成し、文字認識処理により認識誤りデータを生成す
    るステップと、 前記抽出フィールド・イメージに対応するコード化デー
    タ・バッファ部分及び誤りバッファ部分を含むフィール
    ド・データ・セグメントを含む機械生成データ構造(M
    GDS)をアセンブルするステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分に挿入し、前記認識誤りデータを前記フィールド
    ・データ・セグメントの前記誤りバッファ部分に挿入す
    るステップと、 前記認識コード化データの修復のために、前記MGDS
    を第1のコード化データ修復処理に転送するステップ
    と、 前記MGDSに第1の修復データ・バッファ部分を含む
    第1の修復セグメントを付加するステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分からアクセスし、前記認識誤りデータを前記フィ
    ールド・データ・セグメントの前記誤りバッファ部分か
    らアクセスし、前記第1の修復処理により第1の修復コ
    ード化データを生成するステップと、 前記第1の修復コード化データを前記フィールド・デー
    タ・セグメントの前記コード化データ・バッファ部分に
    挿入し、前記認識コード化データを前記第1の修復セグ
    メントの前記第1の修復データ・バッファ部分に挿入す
    るステップと、前記第1の修復コード化データの修復の
    ために、前記MGDSを第2のコード化データ修復処理
    に転送するステップと、 前記MGDSに第2の修復データ・バッファ部分を含む
    第2の修復セグメントを付加するステップと、 前記第1の修復コード化データを前記フィールド・デー
    タ・セグメントの前記コード化データ・バッファ部分か
    らアクセスし、前記第2の修復処理により第2の修復コ
    ード化データを生成するステップと、 前記第2の修復コード化データを前記フィールド・デー
    タ・セグメントの前記コード化データ・バッファ部分に
    挿入し、前記第1の修復コード化データを前記第2の修
    復セグメントの前記第2の修復データ・バッファ部分に
    挿入するステップと、 前記MGDSをユーティリゼーション装置に転送し、前
    記フィールド・データ・セグメントの前記コード化デー
    タ・バッファ部分の内容を、前記認識コード化データの
    訂正書式として使用するためにアクセスするステップ
    と、 を含むことを特徴とする方法。
  3. 【請求項3】データ処理システムにおける文書書式のデ
    ジタル・イメージの文字認識誤りを修復する方法であっ
    て、 文書書式のデジタル文書イメージを入力し、前記文書イ
    メージからフィールド・イメージを抽出し、対応する抽
    出フィールド・イメージを形成するステップと、 前記抽出フィールド・イメージから認識コード化データ
    を生成し、文字認識処理により認識誤りデータを生成す
    るステップと、 前記抽出フィールド・イメージに対応するコード化デー
    タ・バッファ部分及び誤りバッファ部分を含むフィール
    ド・データ・セグメントを含む機械生成データ構造(M
    GDS)をアセンブルするステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分に挿入し、前記認識誤りデータを前記フィールド
    ・データ・セグメントの前記誤りバッファ部分に挿入す
    るステップと、 前記認識コード化データの修復のために、前記MGDS
    を第1のコード化データ修復処理に転送するステップ
    と、 前記MGDSに第1の修復データ・バッファ部分及び代
    替データ・バッファ部分を含む第1の修復セグメントを
    付加するステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分からアクセスし、前記認識誤りデータを前記フィ
    ールド・データ・セグメントの前記誤りバッファ部分か
    らアクセスし、前記第1の修復処理により第1の修復コ
    ード化データ及び代替コード化データを生成するステッ
    プと、 前記第1の修復コード化データを前記フィールド・デー
    タ・セグメントの前記コード化データ・バッファ部分に
    挿入し、前記認識コード化データを前記第1の修復セグ
    メントの前記第1の修復データ・バッファ部分に挿入
    し、前記代替コード化データを前記第1の修復セグメン
    トの前記代替データ・バッファ部分に挿入するステップ
    と、 前記第1の修復コード化データの修復のために、前記M
    GDSを第2のコード化データ修復処理に転送するステ
    ップと、 前記MGDSに第2の修復データ・バッファ部分を含む
    第2の修復セグメントを付加するステップと、 前記第1の修復コード化データを前記フィールド・デー
    タ・セグメントの前記コード化データ・バッファ部分か
    らアクセスし、前記代替コード化データを前記第1の修
    復セグメントの前記代替データ・バッファ部分からアク
    セスし、前記第2の修復処理により第2の修復コード化
    データを生成するステップと、 前記第2の修復コード化データを前記フィールド・デー
    タ・セグメントの前記コード化データ・バッファ部分に
    挿入し、前記第1の修復コード化データを前記第2の修
    復セグメントの前記第2の修復データ・バッファ部分に
    挿入するステップと、 前記MGDSをユーティリゼーション装置に転送し、前
    記フィールド・データ・セグメントの前記コード化デー
    タ・バッファ部分の内容を、前記認識コード化データの
    訂正書式として使用するためにアクセスするステップ
    と、 を含むことを特徴とする方法。
  4. 【請求項4】データ処理システムにおける文書書式のデ
    ジタル・イメージの文字認識誤りを修復する方法であっ
    て、 文書書式のデジタル文書イメージを入力し、前記文書イ
    メージからフィールド・イメージを抽出し、対応する抽
    出フィールド・イメージを形成するステップと、 前記抽出フィールド・イメージから認識コード化データ
    を生成し、文字認識処理により誤りロケーション情報を
    含む認識誤りデータを生成するステップと、 前記抽出フィールド・イメージに対応するコード化デー
    タ・バッファ部分及び誤りバッファ部分を含むフィール
    ド・データ・セグメントを含む機械生成データ構造(M
    GDS)をアセンブルするステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分に挿入し、前記認識誤りデータを前記フィールド
    ・データ・セグメントの前記誤りバッファ部分に挿入す
    るステップと、 前記認識コード化データの修復のために、前記MGDS
    をコード化データ修復処理に転送するステップと、 前記MGDSに修復データ・バッファ部分を含む修復セ
    グメントを付加するステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分からアクセスし、前記認識誤りデータを前記フィ
    ールド・データ・セグメントの前記誤りバッファ部分か
    らアクセスし、前記修復処理により修復コード化データ
    を生成するステップと、 前記修復コード化データを前記フィールド・データ・セ
    グメントの前記コード化データ・バッファ部分に挿入
    し、前記認識コード化データを前記修復セグメントの前
    記修復データ・バッファ部分に挿入するステップと、 前記MGDS及び前記デジタル文書イメージをワークス
    テーション表示装置に転送するステップと、 前記フィールド・データ・セグメントの前記コード化デ
    ータ・バッファ部分の内容をアクセスし、これを前記認
    識コード化データの訂正書式として前記ワークステーシ
    ョンに表示するステップと、 前記誤りロケーション情報を前記フィールド・データ・
    セグメントの前記誤りバッファ部分からアクセスし、前
    記デジタル文書イメージを前記ワークステーションに表
    示し、前記誤りロケーション情報により識別される前記
    フィールドの表示部分を強調表示するステップと、 を含むことを特徴とする方法。
  5. 【請求項5】データ処理システムにおける文書書式のデ
    ジタル・イメージの文字認識誤りを修復する方法であっ
    て、 文書書式のデジタル文書イメージを入力し、前記文書イ
    メージからフィールド・イメージを抽出し、対応する抽
    出フィールド・イメージを形成するステップと、 前記抽出フィールド・イメージから認識コード化データ
    を生成し、文字認識処理により誤りロケーション情報を
    含む認識誤りデータを生成するステップと、 前記抽出フィールド・イメージに対応するコード化デー
    タ・バッファ部分及び誤りバッファ部分を含むフィール
    ド・データ・セグメントを含む機械生成データ構造(M
    GDS)をアセンブルするステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分に挿入し、前記認識誤りデータを前記フィールド
    ・データ・セグメントの前記誤りバッファ部分に挿入す
    るステップと、 前記認識コード化データの修復のために、前記MGDS
    及び前記デジタル文書イメージをワークステーション表
    示装置に転送するステップと、 前記MGDSに修復データ・バッファ部分を含む修復セ
    グメントを付加するステップと、 前記フィールド・データ・セグメントの前記コード化デ
    ータ・バッファ部分の内容をアクセスし、これを前記認
    識コード化データとして前記ワークステーションに表示
    するステップと、 前記誤りロケーション情報を前記フィールド・データ・
    セグメントの前記誤りバッファ部分からアクセスし、前
    記デジタル文書イメージを前記ワークステーションに表
    示し、前記誤りロケーション情報により識別される前記
    フィールドの表示部分を強調表示するステップと、 前記ワークステーションに修復コード化データを生成す
    るステップと、 前記修復コード化データを前記フィールド・データ・セ
    グメントの前記コード化データ・バッファ部分に挿入
    し、前記認識コード化データを前記修復セグメントの前
    記修復データ・バッファ部分に挿入するステップと、 前記MGDSをユーティリゼーション装置に転送し、前
    記フィールド・データ・セグメントの前記コード化デー
    タ・バッファ部分の内容を、前記認識コード化データの
    訂正書式として使用するためにアクセスするステップ
    と、 を含むことを特徴とする方法。
  6. 【請求項6】データ処理システムにおける文書書式のデ
    ジタル・イメージの文字認識誤りを修復する方法であっ
    て、 文書書式のデジタル文書イメージを入力し、前記文書イ
    メージからフィールド・イメージを抽出し、対応する抽
    出フィールド・イメージを形成するステップと、 前記抽出フィールド・イメージから認識コード化データ
    を生成し、文字認識処理により誤りロケーション情報を
    含む認識誤りデータを生成するステップと、 前記抽出フィールド・イメージに対応するコード化デー
    タ・バッファ部分及び誤りバッファ部分を含むフィール
    ド・データ・セグメントを含む機械生成データ構造(M
    GDS)をアセンブルするステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分に挿入し、前記認識誤りデータを前記フィールド
    ・データ・セグメントの前記誤りバッファ部分に挿入す
    るステップと、 前記認識コード化データの修復のために、前記MGDS
    を第1のコード化データ修復処理に転送するステップ
    と、 前記MGDSに第1の修復データ・バッファ部分を含む
    第1の修復セグメントを付加するステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分からアクセスし、前記認識誤りデータを前記フィ
    ールド・データ・セグメントの前記誤りバッファ部分か
    らアクセスし、前記第1の修復処理により第1の修復コ
    ード化データを生成するステップと、 前記第1の修復コード化データを前記フィールド・デー
    タ・セグメントの前記コード化データ・バッファ部分に
    挿入し、前記認識コード化データを前記第1の修復セグ
    メントの前記第1の修復データ・バッファ部分に挿入す
    るステップと、前記第1の修復コード化データの修復の
    ために、前記MGDS及び前記デジタル文書イメージを
    ワークステーション表示装置に転送するステップと、 前記MGDSに第2の修復データ・バッファ部分を含む
    第2の修復セグメントを付加するステップと、 前記第1の修復コード化データを前記フィールド・デー
    タ・セグメントの前記コード化データ・バッファ部分か
    らアクセスし、それを前記ワークステーションに表示す
    るステップと、 前記誤りロケーション情報を前記フィールド・データ・
    セグメントの前記誤りバッファ部分からアクセスし、前
    記デジタル文書イメージを前記ワークステーションに表
    示し、前記誤りロケーション情報により識別される前記
    フィールドの表示部分を強調表示するステップと、 前記ワークステーションに第2の修復コード化データを
    生成するステップと、前記第2の修復コード化データを
    前記フィールド・データ・セグメントの前記コード化デ
    ータ・バッファ部分に挿入し、前記第1の修復コード化
    データを前記第2の修復セグメントの前記第2の修復デ
    ータ・バッファ部分に挿入するステップと、 前記MGDSをユーティリゼーション装置に転送し、前
    記フィールド・データ・セグメントの前記コード化デー
    タ・バッファ部分の内容を、前記認識コード化データの
    訂正書式として使用するためにアクセスするステップ
    と、 を含むことを特徴とする方法。
  7. 【請求項7】データ処理システムにおける文書書式のデ
    ジタル・イメージの文字認識誤りを修復する方法であっ
    て、 文書書式のデジタル文書イメージを入力し、前記文書イ
    メージからフィールド・イメージを抽出し、対応する抽
    出フィールド・イメージを形成するステップと、 前記抽出フィールド・イメージから認識コード化データ
    を生成し、文字認識処理により認識誤りデータを生成す
    るステップと、 前記抽出フィールド・イメージに対応するコード化デー
    タ・バッファ部分及び誤りバッファ部分を含むフィール
    ド・データ・セグメントを含む機械生成データ構造(M
    GDS)をアセンブルするステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分に挿入し、前記認識誤りデータを前記フィールド
    ・データ・セグメントの前記誤りバッファ部分に挿入す
    るステップと、 前記認識コード化データの修復のために、前記MGDS
    を第1のコード化データ修復処理に転送するステップ
    と、 前記MGDSに第1の修復データ・バッファ部分及び修
    復確率バッファ部分を含む第1の修復セグメントを付加
    するステップと、 前記認識コード化データを前記コード化データ・バッフ
    ァ部分からアクセスし、前記認識誤りデータを前記フィ
    ールド・データ・セグメントの前記誤りバッファ部分か
    らアクセスし、前記第1の修復処理により第1の修復コ
    ード化データ及び修復確率値を生成するステップと、 前記第1の修復コード化データを前記フィールド・デー
    タ・セグメントの前記コード化データ・バッファ部分に
    挿入し、前記認識コード化データを前記第1の修復セグ
    メントの前記第1の修復データ・バッファ部分に挿入
    し、前記修復確率値を前記第1の修復セグメントの前記
    修復確率バッファ部分に挿入するステップと、 前記第1の修復コード化データの選択的修復のために、
    前記MGDSを第2のコード化データ修復処理に転送す
    るステップと、 前記修復確率値を前記第1の修復セグメントからアクセ
    スし、それに応答して、前記MGDSに第2の修復デー
    タ・バッファ部分を含む第2の修復セグメントを選択的
    に付加するステップと、 前記修復確率値に応答して、前記第1の修復コード化デ
    ータを前記フィールド・データ・セグメントの前記コー
    ド化データ・バッファ部分から選択的にアクセスし、前
    記第2の修復処理により第2の修復コード化データを生
    成するステップと、 前記修復確率値に応答して、前記第2の修復コード化デ
    ータを前記フィールド・データ・セグメントの前記コー
    ド化データ・バッファ部分に選択的に挿入し、前記第1
    の修復コード化データを前記第2の修復セグメントの前
    記第2の修復データ・バッファ部分に挿入するステップ
    と、 前記MGDSをユーティリゼーション装置に転送し、前
    記フィールド・データ・セグメントの前記コード化デー
    タ・バッファ部分の内容を、前記認識コード化データの
    訂正書式として使用するためにアクセスするステップ
    と、 を含むことを特徴とする方法。
  8. 【請求項8】文書書式のデジタル・イメージの文字認識
    誤りを修復するデータ処理システムであって、 文書書式のデジタル文書イメージを入力し、前記文書イ
    メージからフィールド・イメージを抽出し、対応する抽
    出フィールド・イメージを形成する知能的書式プロセッ
    サを含み、 前記知能的書式プロセッサは前記抽出フィールド・イメ
    ージから認識コード化データを生成し、文字認識処理に
    より認識誤りデータを生成し、 前記知能的書式プロセッサは前記抽出フィールド・イメ
    ージに対応するコード化データ・バッファ部分及び誤り
    バッファ部分を含むフィールド・データ・セグメントを
    含む機械生成データ構造(MGDS)をアセンブルし、 前記知能的書式プロセッサは前記認識コード化データを
    前記フィールド・データ・セグメントの前記コード化デ
    ータ・バッファ部分に挿入し、前記認識誤りデータを前
    記誤りバッファ部分に挿入し、 前記システムは前記知能的書式プロセッサに結合され、
    前記MGDSを受信し、前記認識コード化データを修復
    する第1のコード化データ修復プロセッサを含み、 前記第1のコード化データ修復プロセッサは前記MGD
    Sに第1の修復データ・バッファ部分を含む第1の修復
    セグメントを付加し、 前記第1のコード化データ修復プロセッサは前記認識コ
    ード化データを前記フィールド・データ・セグメントの
    前記コード化データ・バッファ部分からアクセスし、前
    記認識誤りデータを前記誤りバッファ部分からアクセス
    し、前記第1の修復処理により第1の修復コード化デー
    タを生成し、 前記第1のコード化データ修復プロセッサは前記第1の
    修復コード化データを前記フィールド・データ・セグメ
    ントの前記コード化データ・バッファ部分に挿入し、前
    記認識コード化データを前記第1の修復セグメントの前
    記第1の修復データ・バッファ部分に挿入し、 前記システムは前記第1のコード化データ修復プロセッ
    サに結合され、前記MGDSを受信し、前記フィールド
    ・データ・セグメントの前記コード化データ・バッファ
    部分の内容を、前記認識コード化データの訂正書式とし
    て使用するためにアクセスするユーティリゼーション・
    プロセッサを、 含むことを特徴とするシステム。
  9. 【請求項9】前記第1のコード化データ・プロセッサに
    結合され、前記MGDSを受信し、前記第1の修復コー
    ド化データを修復する第2のコード化データ修復プロセ
    ッサを含み、 前記第2のコード化データ修復プロセッサは前記MGD
    Sに第2の修復データ・バッファ部分を含む第2の修復
    セグメントを付加し、 前記第2のコード化データ修復プロセッサは前記第1の
    修復コード化データを前記フィールド・データ・セグメ
    ントの前記コード化データ・バッファ部分からアクセス
    し、前記第2の修復処理により第2の修復コード化デー
    タを生成し、 前記第2のコード化データ修復プロセッサは前記第2の
    修復コード化データを前記フィールド・データ・セグメ
    ントの前記コード化データ・バッファ部分に挿入し、前
    記第1の修復コード化データを前記第2の修復セグメン
    トの前記第2の修復データ・バッファ部分に挿入し、 前記ユーティリゼーション・プロセッサは前記第2のコ
    ード化データ修復プロセッサに結合され、前記MGDS
    を受信し、前記フィールド・データ・セグメントの前記
    コード化データ・バッファ部分の内容を、前記認識コー
    ド化データの訂正書式として使用するためにアクセスす
    る、 ことを特徴とする請求項8記載のデータ処理システム。
JP5055288A 1992-04-15 1993-03-16 文書書式のデジタル・イメージの文字認識誤りを修復するデータ処理システム及び方法 Expired - Lifetime JP2957375B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/870,129 US5251273A (en) 1992-04-15 1992-04-15 Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms
US870129 1992-04-15

Publications (2)

Publication Number Publication Date
JPH06111056A JPH06111056A (ja) 1994-04-22
JP2957375B2 true JP2957375B2 (ja) 1999-10-04

Family

ID=25354834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5055288A Expired - Lifetime JP2957375B2 (ja) 1992-04-15 1993-03-16 文書書式のデジタル・イメージの文字認識誤りを修復するデータ処理システム及び方法

Country Status (3)

Country Link
US (1) US5251273A (ja)
EP (1) EP0565911A3 (ja)
JP (1) JP2957375B2 (ja)

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5359673A (en) * 1991-12-27 1994-10-25 Xerox Corporation Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities
JPH0620089A (ja) * 1992-06-30 1994-01-28 Canon Inc データ入力装置及びデータ処理装置
JP3221947B2 (ja) * 1992-12-03 2001-10-22 株式会社東芝 業務指示処理装置
JPH0793335A (ja) * 1993-06-07 1995-04-07 Internatl Business Mach Corp <Ibm> テキストの言語機能を提供する方法
US5526447A (en) * 1993-07-26 1996-06-11 Cognitronics Imaging Systems, Inc. Batched character image processing
JPH07203400A (ja) * 1993-10-15 1995-08-04 Matsushita Electric Ind Co Ltd マルチメディアレンダリングマーカーとその使用方法
US5555325A (en) * 1993-10-22 1996-09-10 Lockheed Martin Federal Systems, Inc. Data capture variable priority method and system for managing varying processing capacities
US5666490A (en) * 1994-05-16 1997-09-09 Gillings; Dennis Computer network system and method for managing documents
US6363164B1 (en) * 1996-05-13 2002-03-26 Cummins-Allison Corp. Automated document processing system using full image scanning
US5923792A (en) * 1996-02-07 1999-07-13 Industrial Technology Research Institute Screen display methods for computer-aided data entry
US8162125B1 (en) 1996-05-29 2012-04-24 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US20050276458A1 (en) 2004-05-25 2005-12-15 Cummins-Allison Corp. Automated document processing system and method using image scanning
US8204293B2 (en) 2007-03-09 2012-06-19 Cummins-Allison Corp. Document imaging and processing system
US7187795B2 (en) 2001-09-27 2007-03-06 Cummins-Allison Corp. Document processing system using full image scanning
US5719960A (en) * 1996-06-26 1998-02-17 Canon Kabushiki Kaisha System for dispatching task orders into a user network and method
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
US6236365B1 (en) 1996-09-09 2001-05-22 Tracbeam, Llc Location of a mobile station using a plurality of commercial wireless infrastructures
US6249252B1 (en) 1996-09-09 2001-06-19 Tracbeam Llc Wireless location using multiple location estimators
US7714778B2 (en) 1997-08-20 2010-05-11 Tracbeam Llc Wireless location gateway and applications therefor
US7764231B1 (en) 1996-09-09 2010-07-27 Tracbeam Llc Wireless location using multiple mobile station location techniques
US7274332B1 (en) 1996-09-09 2007-09-25 Tracbeam Llc Multiple evaluators for evaluation of a purality of conditions
US9134398B2 (en) 1996-09-09 2015-09-15 Tracbeam Llc Wireless location using network centric location estimators
US7903029B2 (en) 1996-09-09 2011-03-08 Tracbeam Llc Wireless location routing applications and architecture therefor
US8478020B1 (en) 1996-11-27 2013-07-02 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US6028970A (en) * 1997-10-14 2000-02-22 At&T Corp Method and apparatus for enhancing optical character recognition
US8135413B2 (en) 1998-11-24 2012-03-13 Tracbeam Llc Platform and applications for wireless location and other complex services
US6594405B1 (en) 1998-12-28 2003-07-15 Gateway, Inc. Method and apparatus for preprinted forms completion
US6266436B1 (en) 1999-04-09 2001-07-24 Kimberly-Clark Worldwide, Inc. Process control using multiple detections
US6260188B1 (en) 1998-12-31 2001-07-10 Kimberly-Clark Worldwide, Inc. Control model
US6404910B1 (en) 1998-12-31 2002-06-11 Kimberly-Clark Worldwide, Inc. Making absorbent articles using vision imaging system
US6856859B1 (en) 1998-12-31 2005-02-15 Kimberly-Clark Worldwide, Inc. Method of controlling cross-direction alignment in manufacturing process
US6253159B1 (en) 1998-12-31 2001-06-26 Kimberly-Clark Worldwide, Inc. Process control using multiple detections
US6553270B1 (en) 1999-06-30 2003-04-22 Kimberly-Clark Worldwide, Inc. Proactive control of a process after the beginning of a destabilizing event
EP1286735A1 (en) 1999-09-24 2003-03-05 Dennis Jay Dupray Geographically constrained network services
US8701857B2 (en) 2000-02-11 2014-04-22 Cummins-Allison Corp. System and method for processing currency bills and tickets
US10684350B2 (en) 2000-06-02 2020-06-16 Tracbeam Llc Services and applications for a communications network
US9875492B2 (en) 2001-05-22 2018-01-23 Dennis J. Dupray Real estate transaction system
US10641861B2 (en) 2000-06-02 2020-05-05 Dennis J. Dupray Services and applications for a communications network
US7346848B1 (en) 2000-06-21 2008-03-18 Microsoft Corporation Single window navigation methods and systems
US6948135B1 (en) 2000-06-21 2005-09-20 Microsoft Corporation Method and systems of providing information to computer users
US7000230B1 (en) 2000-06-21 2006-02-14 Microsoft Corporation Network-based software extensions
US7191394B1 (en) 2000-06-21 2007-03-13 Microsoft Corporation Authoring arbitrary XML documents using DHTML and XSLT
US7155667B1 (en) 2000-06-21 2006-12-26 Microsoft Corporation User interface for integrated spreadsheets and word processing tables
US6883168B1 (en) 2000-06-21 2005-04-19 Microsoft Corporation Methods, systems, architectures and data structures for delivering software via a network
JP2002300403A (ja) * 2001-03-30 2002-10-11 Fuji Photo Film Co Ltd 画像処理装置
US8082096B2 (en) 2001-05-22 2011-12-20 Tracbeam Llc Wireless location routing applications and architecture therefor
US8433123B1 (en) 2001-09-27 2013-04-30 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US8428332B1 (en) 2001-09-27 2013-04-23 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US8437530B1 (en) 2001-09-27 2013-05-07 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US8944234B1 (en) 2001-09-27 2015-02-03 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US8437529B1 (en) 2001-09-27 2013-05-07 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US7020320B2 (en) 2002-03-06 2006-03-28 Parascript, Llc Extracting text written on a check
US8171567B1 (en) 2002-09-04 2012-05-01 Tracer Detection Technology Corp. Authentication method and system
US8627939B1 (en) 2002-09-25 2014-01-14 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US7415672B1 (en) 2003-03-24 2008-08-19 Microsoft Corporation System and method for designing electronic forms
US7913159B2 (en) 2003-03-28 2011-03-22 Microsoft Corporation System and method for real-time validation of structured data files
US7296017B2 (en) 2003-03-28 2007-11-13 Microsoft Corporation Validation of XML data files
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
CA2475189C (en) * 2003-07-17 2009-10-06 At&T Corp. Method and apparatus for window matching in delta compressors
US7406660B1 (en) 2003-08-01 2008-07-29 Microsoft Corporation Mapping between structured data and a visual surface
US7334187B1 (en) 2003-08-06 2008-02-19 Microsoft Corporation Electronic form aggregation
US8819072B1 (en) 2004-02-02 2014-08-26 Microsoft Corporation Promoting data from structured data files
US7774620B1 (en) 2004-05-27 2010-08-10 Microsoft Corporation Executing applications at appropriate trust levels
IL162878A0 (en) * 2004-07-06 2005-11-20 Hi Tech Solutions Ltd Multi-level neural network based characters identification method and system
US7584417B2 (en) 2004-11-15 2009-09-01 Microsoft Corporation Role-dependent action for an electronic form
US7712022B2 (en) 2004-11-15 2010-05-04 Microsoft Corporation Mutually exclusive options in electronic forms
US7721190B2 (en) 2004-11-16 2010-05-18 Microsoft Corporation Methods and systems for server side form processing
US7937651B2 (en) 2005-01-14 2011-05-03 Microsoft Corporation Structural editing operations for network forms
US7725834B2 (en) 2005-03-04 2010-05-25 Microsoft Corporation Designer-created aspect for an electronic form template
US8010515B2 (en) 2005-04-15 2011-08-30 Microsoft Corporation Query to an electronic form
US8200975B2 (en) 2005-06-29 2012-06-12 Microsoft Corporation Digital signatures for network forms
US8001459B2 (en) 2005-12-05 2011-08-16 Microsoft Corporation Enabling electronic documents for limited-capability computing devices
US8571262B2 (en) * 2006-01-25 2013-10-29 Abbyy Development Llc Methods of object search and recognition
RU2006101908A (ru) * 2006-01-25 2010-04-27 Аби Софтвер Лтд. (Cy) Структурное описание документа, способ описания структуры графических объектов и способы их распознавания (варианты)
US7711191B2 (en) * 2006-12-21 2010-05-04 Michael John Kosek Electronic transaction processing server with automated transaction evaluation
US8538123B1 (en) 2007-03-09 2013-09-17 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US8417017B1 (en) 2007-03-09 2013-04-09 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US20090097769A1 (en) * 2007-10-16 2009-04-16 Sytech Solutions, Inc. Systems and methods for securely processing form data
JP5134383B2 (ja) * 2008-01-29 2013-01-30 株式会社日立製作所 Ocr装置、証跡管理装置及び証跡管理システム
US8929640B1 (en) 2009-04-15 2015-01-06 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US8437532B1 (en) 2009-04-15 2013-05-07 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US8391583B1 (en) 2009-04-15 2013-03-05 Cummins-Allison Corp. Apparatus and system for imaging currency bills and financial documents and method for using the same
US9538493B2 (en) 2010-08-23 2017-01-03 Finetrak, Llc Locating a mobile station and applications therefor
JP5720182B2 (ja) * 2010-11-01 2015-05-20 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US10522133B2 (en) * 2011-05-23 2019-12-31 Nuance Communications, Inc. Methods and apparatus for correcting recognition errors
US9141876B1 (en) 2013-02-22 2015-09-22 Cummins-Allison Corp. Apparatus and system for processing currency bills and financial documents and method for using the same
JP6871840B2 (ja) * 2017-11-06 2021-05-19 株式会社日立製作所 計算機及び文書識別方法
JP7379051B2 (ja) * 2019-09-30 2023-11-14 キヤノン株式会社 情報処理装置、情報処理装置の制御方法及びそのプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4136395A (en) * 1976-12-28 1979-01-23 International Business Machines Corporation System for automatically proofreading a document
DE3113555A1 (de) * 1981-04-03 1982-10-21 Siemens AG, 1000 Berlin und 8000 München Verfahren zum automatischen erkennen von weissbloecken sowie text-, graphik- und/oder graubildbereichen auf druckvorlagen
JPS5887652A (ja) * 1981-11-19 1983-05-25 Ricoh Co Ltd 画像処理装置
US4564752A (en) * 1982-12-23 1986-01-14 Ncr Canada Ltd Concurrent, image-based, reject-re-entry system and method
US4741045A (en) * 1983-09-23 1988-04-26 Dest Corporation Optical character isolation system, apparatus and method
JPH07107694B2 (ja) * 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
JPH0750483B2 (ja) * 1985-05-22 1995-05-31 株式会社日立製作所 文書画像追加情報の蓄積方法
US4616854A (en) * 1985-07-16 1986-10-14 Landrum Van O Insurance form indicia system
US4813077A (en) * 1986-07-30 1989-03-14 Scan-Optics, Inc. Sales transaction record processing system and method
JPS63155386A (ja) * 1986-12-19 1988-06-28 Ricoh Co Ltd 帳票デ−タ読取装置
ES2030819T3 (es) * 1987-10-16 1992-11-16 Computer Gesellschaft Konstanz Mbh Procedimiento para el reconocimiento automatico de caracteres.
US4802231A (en) * 1987-11-24 1989-01-31 Elliot Davis Pattern recognition error reduction system
KR910007752B1 (ko) * 1988-01-18 1991-09-30 가부시키가이샤 도시바 문자인식시스템
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US5058185A (en) * 1988-06-27 1991-10-15 International Business Machines Corporation Object management and delivery system having multiple object-resolution capability
US5054096A (en) * 1988-10-24 1991-10-01 Empire Blue Cross/Blue Shield Method and apparatus for converting documents into electronic data for transaction processing
US5140650A (en) * 1989-02-02 1992-08-18 International Business Machines Corporation Computer-implemented method for automatic extraction of data from printed forms
US5010580A (en) * 1989-08-25 1991-04-23 Hewlett-Packard Company Method and apparatus for extracting information from forms
JPH03144877A (ja) * 1989-10-25 1991-06-20 Xerox Corp 文脈的文字または音素認識方法及びシステム
US5040227A (en) * 1990-03-12 1991-08-13 International Business Machines Corporation Image balancing system and method
US4992650A (en) * 1990-03-29 1991-02-12 International Business Machines Corporation Method and apparatus for barcode recognition in a digital image
US5134669A (en) * 1990-06-13 1992-07-28 National Computer Systems Image processing system for documentary data

Also Published As

Publication number Publication date
JPH06111056A (ja) 1994-04-22
EP0565911A2 (en) 1993-10-20
US5251273A (en) 1993-10-05
EP0565911A3 (en) 1994-08-24

Similar Documents

Publication Publication Date Title
JP2957375B2 (ja) 文書書式のデジタル・イメージの文字認識誤りを修復するデータ処理システム及び方法
JP2968145B2 (ja) 高度なデータ収集方法及びデータ処理システム
US5305396A (en) Data processing system and method for selecting customized character recognition processes and coded data repair processes for scanned images of document forms
JP3689455B2 (ja) 情報処理方法及び装置
JP2882569B2 (ja) 文書書式認識実行方法および装置
JP2749020B2 (ja) ダイアグラム認識システム
KR100627195B1 (ko) 광학문자인식으로 생성된 전자문서 검색방법 및 그 시스템
US6320983B1 (en) Method and apparatus for character recognition, and computer-readable recording medium with a program making a computer execute the method recorded therein
JP2004334334A (ja) 文書検索装置、文書検索方法及び記憶媒体
CN105373365A (zh) 用于管理关于近似串匹配的档案的方法和系统
JP2005018678A (ja) 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム
EP0687991B1 (en) Information processing method and apparatus and computer readable memory medium
CN113469005A (zh) 一种银行回单的识别方法、相关装置及存储介质
JP3230641B2 (ja) 文字列検索装置
JP2004013813A (ja) 情報管理システムおよび情報管理方法
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
US7523031B1 (en) Information processing apparatus and method capable of processing plurality type of input information
JP7172343B2 (ja) 文書検索用プログラム
JP2932667B2 (ja) 情報の検索方法および情報蓄積装置
JPH113401A (ja) 情報処理装置及びその方法
JPH11191143A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JPH0863487A (ja) 文書検索方法及び文書検索装置
JPH07230531A (ja) 文字認識装置及び文字認識方法
US20180012111A1 (en) Recognition device, recognition method, and computer program product
JPH0749924A (ja) 手書き文字認識装置