JP2699998B2 - 変動する処理能力を管理するためのデータ獲得可変優先順位方法およびシステム - Google Patents

変動する処理能力を管理するためのデータ獲得可変優先順位方法およびシステム

Info

Publication number
JP2699998B2
JP2699998B2 JP6229127A JP22912794A JP2699998B2 JP 2699998 B2 JP2699998 B2 JP 2699998B2 JP 6229127 A JP6229127 A JP 6229127A JP 22912794 A JP22912794 A JP 22912794A JP 2699998 B2 JP2699998 B2 JP 2699998B2
Authority
JP
Japan
Prior art keywords
document
field
character recognition
threshold
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP6229127A
Other languages
English (en)
Other versions
JPH07160823A (ja
Inventor
マーク・イー・バーガー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH07160823A publication Critical patent/JPH07160823A/ja
Application granted granted Critical
Publication of JP2699998B2 publication Critical patent/JP2699998B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】ここに開示する本発明は、広義に
はデータ処理に関し、より詳細には文書書式の文字認識
に関する。
【0002】
【従来の技術】本特許出願は、IBMコーポレーション
に譲渡され、参照により本明細書に合体された、199
2年4月15日出願の、"Data Processing System and
Methodfor Sequentially Repairing Character Recogni
tion Errors for Scanned Images of Document Forms"
と題する、T.S.ベッツ(Betts)他の同時係属の米国
特許出願第07/870129号(その後米国特許第
5、251、273号となった)に関連する。
【0003】本特許出願は、IBMコーポレーションに
譲渡され、参照により本明細書に合体された、1992
年4月17日出願の、"Data Processing System and Me
thodfor Selecting Customized Character Recognition
Processes and Coded DataRepair Processes for Scan
ned Images of Document Forms"と題する、ベッツ他の
同時係属の米国特許出願第07/870507号(その
後米国特許第5、305、396号となった)にも関連
する。
【0004】本特許出願はさらに、IBMコーポレーシ
ョンに譲渡され、参照により本明細書に合体された、"A
Computer Implemented Method for Automatic Extract
ionof Data From Printed Forms"と題する、R.G.キ
ャセイ(Casey) 他の米国特許第5140650号、出願
番号07/305828号にも関連する。
【0005】本特許出願はさらに、IBMコーポレーシ
ョンに譲渡され、参照により本明細に合体された、19
93年4月26日出願の、"System and Method for Enh
anced Character Recognition Accuracy by Adaptive P
robability Weighting" と題する、M.P.T.ブラッ
ドレイ(Bradley)他の同時係属の米国特許出願第08/
051972号(その後米国特許第5、455、872
号となった)にも関連する。
【0006】本特許出願はさらに、IBMコーポレーシ
ョンに譲渡され、参照により本明細に合体された、19
93年8月2日出願の、"Method for Defining a Plura
lityof Form Definition Data Sets" と題する、D.
W.ビリングズ(Billings)他の同時係属の米国特許出願
第08/100846号(特願平6−127475に対
応する)にも関連する。
【0007】デジタル・イメージに含まれるデータは、
多くの目的のため、異なる多くの方法で抽出される。書
式から情報を抽出するために必要なものは、データのタ
イプと記憶位置の知識(書式の「フィールド」に関する
情報)である。近年、ほとんどの書式処理アプリケーシ
ョンは、書式を「定義」するための独自の方式を有し、
それぞれの方式は他の方式と互換性がない。異なるいく
つかの書式処理アプリケーションを使用する大きなイメ
ージ・システムでは、各書式を各アプリケーションごと
に別々に定義する必要があり、そのため時間を要し、か
つ書式定義に矛盾が含まれるようになる。同時係属の上
記米国特許出願第08/100846号に開示された方
法は、ほとんどすべての書式処理アプリケーションに使
用できる書式定義のデータ・セットを生成する。
【0008】多くのビジネス・アプリケーションでは、
処理すべき書式の量が経時的に大きく変化する。そのた
め、膨大な数の文書書式イメージをシステムが短時間で
受け取るとき、書式を文字認識するのに要する時間が劇
的に増大する可能性がある。
【0009】
【発明が解決しようとする課題】したがって、本発明の
目的は、複数の文書イメージにおけるテキスト文字の認
識を、改善された形で管理することである。
【0010】本発明の別の目的は、文書書式の特定フィ
ールドの相対的重要度の所定の評価を利用して、そのよ
うな複数の書式の文字認識処理のスループットを管理す
ることである。
【0011】本発明の別の目的は、文字認識装置から出
力された誤認識文字の修正を改善された形で管理するこ
とである。
【0012】
【課題を解決するための手段】上記その他の目的、特徴
および利点は、ここに開示する本発明によって達成され
る。複数の文書イメージにおけるテキスト文字の認識を
管理するためのデータ処理システムおよび方法が開示さ
れる。文書は、認識すべきテキスト文字を含む複数のフ
ィールドを有するあらかじめ定義された書式である。書
式定義データ・セットを使用して、その位置など、書式
上のフィールドの様々な特徴を指定する。
【0013】多くのビジネス・アプリケーションでは、
書式の各フィールドの情報はそれぞれ重要さが異なる。
本発明によれば、少なくともいくつかのフィールドにつ
いて、書式定義データ・セットにおいてデータ獲得優先
順位の値が指定される。この優先順位を使用して、文字
認識処理の作業負荷を管理する。短期間に膨大な数の文
書書式イメージをシステムが受け取ったとき、各書式上
で文字認識されるフィールドの数を減らすことによっ
て、書式を文字認識するための所望のスループットを維
持することができる。各フィールドに対するデータ獲得
優先順位の値を使用することにより、低い優先順位のフ
ィールドの処理を省略するように文字認識プロセッサを
制御することができる。後になって、バッファに入れら
れた未処理の書式イメージの量が減少したとき、認識処
理は低い優先順位のフィールド上の文字認識の実行を再
開できる。
【0014】本発明の方法は、文書イメージ入力、文書
イメージ・バッファ、および文字認識処理手段を含むデ
ータ処理システムに適用される。この方法は一般に、デ
ータ処理システムにおいてコンピュータ・プログラムを
実行することによって実施される。この方法の主な段階
は、システムにおいて第1のフィールド定義用のフィー
ルド定義データ・セットを記憶する段階と、文書書式内
の第1のフィールドに関する第1の位置および第1の優
先順位値とシステムにおける第2のフィールド定義とを
指定する段階と、第2のフィールドに関する第2の位置
および第1の優先順位の値よりも小さい第2の優先順位
値を指定する段階である。この方法では、次に、第1と
第2のフィールドにテキスト文字を含む、文書書式の複
数の文書イメージを文書イメージ・バッファに入れる段
階を実行する。次いで、この方法では、バッファに入れ
られた複数の文書イメージのカウントを文書イメージ・
バッファ内で維持し、バッファに入れられた文書イメー
ジの数が所定値よりも多い場合は、しきい値信号を文字
認識処理手段に送る。
【0015】次にこの方法では、バッファに入れられた
文書イメージの数が所定値よりも少ないとき、文字認識
処理手段によって、第1および第2のフィールドの文字
認識を実行し、またバッファに入れられた文書イメージ
の数が所定値よりも多いときは、しきい値信号に応答し
て、第2のフィールド定義に従って文字認識処理手段に
よる第2のフィールドの文字認識の実行を省略すること
により、文字認識の作業の流れを管理する。
【0016】このようにして、本発明は、処理すべき文
書イメージの量が変動しても処理文書のスループットを
維持するように、複数の文書イメージ内のテキスト文字
の認識を管理する。
【0017】本発明の別の特徴は、システムにログ・オ
ンされたワークステーションの数に応じてその動作を調
整する、多数の手動修復プロセッサを提供することであ
る。手動修復プロセッサは、特定の文書書式タイプに関
するフィールド優先順位をシステムしきい値および文書
書式イメージと共に受け取る。また、文書イメージ内の
誤認識文字および疑わしい文字に関するOCR文字認識
も受け取る。本発明によれば、特定フィールドのフィー
ルド優先順位がしきい値よりも高い場合は、そのフィー
ルドが文書の表示イメージ上で強調表示され、そのフィ
ールドに関する英数字文字列が表示され、手動修復のオ
ペレータに提供される。あるいは、特定フィールドのフ
ィールド優先順位がシステムしきい値に比べて十分に高
くない場合は、その特定フィールドはオペレータに提示
されない。このようにして、作業を行うことができる人
手に変動があっても、手動修復処理の全体的スループッ
トは比較的一定に維持される。
【0018】本発明の別の特徴は、システムにログ・オ
ンされた修復ステーションの数に基づき、手動修復プロ
セッサを動作させるためのしきい値をローカルで調整で
きるようにしたことである。ローカル・ワークステーシ
ョンがログ・オンするとき、他のワークステーションが
いくつログ・オンしたかを判定するために、システムの
全ワークステーションを調べる。ログ・オンされた数が
所定数よりも少ない場合は、高いしきい値にセットされ
る。このように、手動修復プロセッサは、低い優先順位
のフィールドを無視して、高い優先順位のフィールドだ
けを検査のためオペレータに提示する。その逆に、ログ
・オンされたワークステーションの数が所定数よりも大
きい場合は、しきい値が低くセットされ、それによって
誤認識された文字および疑わしいOCR結果文字の修正
のために、修復プロセッサが文書書式上のより多くのフ
ィールドをオペレータに提示することができるようにな
る。
【0019】
【実施例】本発明は、文書イメージにおけるテキスト文
字の認識を管理するためのシステムおよび方法に関す
る。この管理は、文書書式上の様々なフィールドにデー
タ獲得優先順位を割り当てることによって実現される。
未処理文書が大量にバッファに入っているとき、これら
の優先順位を使用することによって、より重要性の高い
フィールドに有利な文字認識処理において、重要性の低
いフィールドを無視または延期することができる。この
ようにして、処理される文書イメージの量が大きく変動
しても、文字認識処理の全体的文書処理のスループット
が維持できる。
【0020】図1は、文字認識処理の管理における可変
優先順位の適用およびデータ獲得優先順位の割当ての概
略ブロック図である。書式Xの定義データ・セット10
0は、前述の米国特許出願第08/100846号に記
載の方式で、3つの文字認識プロセッサ101、10
2、103に適用される。定義データ・セット100
は、フィールドA、B、Cの各々用のデータ獲得優先順
位値を含む。データ獲得優先順位の値は、ユーザの業務
におけるフィールドの相対的重要度のユーザによる評価
に基づいて、文書定義データ・セット100における個
々のフィールドに割り当てられる。本発明によれば、書
式X110の記入済みコピーが走査されてその文書のデ
ジタル化されたビット・マップ・イメージを形成するシ
ステムに入れられ、その文書イメージが各文字認識プロ
セッサ101、102、103によって処理されると
き、それぞれの文字認識プロセッサの出力は、各プロセ
ッサに適用されるシステム全体のしきい値と各フィール
ドに割り当てられるそれぞれのデータ獲得優先順位との
関数になる。例えば、第1の文字認識プロセッサ101
に1のしきい値が割り当てられ、かつフィールドA、
B、Cがそれぞれ1以上の優先順位を有する場合、完成
書式110の各フィールドA、B、Cのそれぞれに含ま
れる情報が、プロセッサ101に関する文字認識動作で
処理されることになる。その結果、3つのフィールドが
すべて文字認識にかけられ、図1に111で示すような
出力を有するようになる。その代わりに、文字認識プロ
セッサ102に2のしきい値が割り当てられている場合
は、2以上の優先順位の値を有する記入済みコピー11
0のフィールドBとCだけが処理される。したがって、
文字認識プロセッサ102の出力は、112で示すよう
にフィールドBとフィールドCだけを含む。同様に、文
字認識プロセッサ103に3のしきい値が割り当てられ
ている場合は、3以上の優先順位の値を有するフィール
ドCだけが処理される。これにより、記入済みコピー1
10においてフィールドCに関する情報だけが処理され
て図1の113で出力されることがわかる。プロセッサ
101、102、103に割り当てられるしきい値は、
処理を待っている未処理の文書イメージ110の量の測
定から導かれる。これらのしきい値は、自動的に割り当
てることもでき、またシステム管理者またはオペレータ
が入力することもできる。
【0021】本発明の代替実施例では、処理するには不
十分な優先順位をもつ特定のフィールドをスキップする
代わりに、そのようなフィールドに低品質の文字認識モ
ードが適用されることを図2に示す。図2に示すよう
に、書式X115の記入済みコピーは、それぞれ英字文
字列「Cornwall」、「Treadwell」、
「Washington」を有するフィールドA、フィ
ールドB、フィールドCを有する。高品質の文字認識動
作では、これらのフィールドはそれぞれ正確に認識され
る。例えば、図2の文字認識プロセッサ101に関し
て、しきい値が1に設定され、各フィールドに割り当て
られた優先順位の値が1以上なので、各フィールドで高
品質の文字認識プロセスが実行され、121に示すよう
に正確な認識出力が得られる。
【0022】しかし、低い優先順位のフィールドに対し
て低品質の文字認識モードが実施される場合は、誤認識
された文字が出力される。例えば、Wは2つの連続する
Vとして誤認識される可能性がある。また、文字RはA
として誤認識される可能性がある。したがってしきい値
2を有する文字認識プロセッサ102に関しては、優先
順位1を有するフィールドAに低品質の文字認識モード
が適用され、2以上の優先順位の値を有するフィールド
BおよびCには高品質の文字認識プロセスが適用され
る。その結果、図2の出力122が得られる。同様に、
文字認識プロセッサ103には、しきい値3が適用され
ることがわかる。フィールドCだけが3以上の優先順位
を有するので、フィールドCだけが正確に文字認識され
る。フィールドAおよびBには低品質の文字認識モード
が適用されるので、123の出力が得られる。
【0023】文書書式における個々のフィールドの相対
的な重要性に関するユーザの評価に基づいて各フィール
ドにデータ獲得優先順位の値を割り当てるこの原理は、
文書処理スループットの全体的管理に適用できる。これ
を図3、図4および図5に示す。図3において、文書イ
メージ処理システムは、スキャナ200を含み、スキャ
ナ200は書式X110の記入済みコピーを走査して文
書イメージ走査ビット・マップ・イメージを作成し、そ
れがバッファ202に転送される。複数の文書イメージ
が文書イメージ・バッファ202に記憶できる。本発明
によって解決される問題は、比較的固定した全体的文書
処理能力を使用しながら、バッファに入れられた大きさ
が可変の未処理の文書イメージをいかに制限するかであ
る。これは、書式X100用の定義データ・セット中で
データ獲得優先順位の値を割り当てることによって達成
される。その場合、フィールドA、フィールドB、フィ
ールドCにそれぞれ1、2、3の優先順位が割り当てら
れたことがわかる。この情報が文字認識プロセッサ10
1に入力される。そしてさらに、本発明によれば、文書
イメージ・バッファ202に入れられた未処理文書イメ
ージの数が、文書カウンタ204でカウントされる。例
えば図3では、文書カウンタ204は文書イメージ・バ
ッファ202に入れられた未処理の5つの文書をカウン
トしている。本発明によれば、例えば5という比較的低
い文書カウントは、しきい値レジスタ206に記憶され
た1の割当てしきい値に対応する。次に、レジスタ20
6内のしきい値が、文字認識プロセッサ101のしきい
値入力に適用される。次に、本発明によれば、しきい値
レジスタ206によって文字認識プロセッサ101に適
用される現在のしきい値と等しいかまたはそれよりも大
きい優先順位の値を有する書式Xのフィールドが文字認
識される。図3に示した例では、3つのフィールドA、
B、Cはすべて現しきい値1と等しいかまたはそれより
も大きい優先順位の値を有するので、3つのフィールド
はすべて文字認識され、出力111を提供する。
【0024】これは、文書カウンタ204の文書カウン
トが20であり、文書イメージ・バッファ202内に2
0個の未処理文書イメージがあることを意味する、図4
の例とは対照的である。本発明によれば、例えば20の
値を有する文書カウンタは、しきい値レジスタ206に
しきい値2を記憶させ、この値が文字認識プロセッサ1
01のしきい値入力に適用される。次に、本発明によれ
ば、フィールドA、フィールドB、フィールドCがそれ
ぞれ文字認識プロセッサ101によって考慮されるが、
フィールドAが現しきい値2よりも小さい優先順位1を
有するので、フィールドAは無視される。フィールドB
およびCは、2以上の優先順位の値を有し、したがって
フィールドBおよびCは文字認識されて、112に示す
出力を提供する。
【0025】これを、文書イメージ・バッファ202に
入っている99個の未処理文書イメージに対応する99
のカウントがカウンタ204でカウントされる、図5と
比較されたい。例えば文書カウントが99のとき、しき
い値3がしきい値レジスタ206に記憶され、その値が
文字認識プロセッサ101のしきい値入力に適用され
る。その結果、フィールドCだけが、現しきい値3と等
しいかまたはそれよりも高い優先順位3を持つ。したが
って、出力113はフィールドCに関する文字認識出力
を提供するだけである。このように、図3、図4および
図5の文書イメージ処理システムは、バッファ202に
入っている未処理文書イメージの数が大きく変動しても
比較的一定速度で維持されるように、処理される文書の
全体的スループットを管理する。
【0026】図6、図7および図8は、2つの文字認識
プロセッサ304と306を並列に使用する例を示す。
文字認識プロセッサ304は数字の認識に適しており、
それに対して文字認識プロセッサ306は英字の認識に
適している。図6、図7および図8に示した例では、書
式Xは、定義データ・セット302でユーザが定義した
データ獲得優先順位を有するフィールドを含む3つのフ
ィールドA、B、Cを有する。フィールドAは優先順位
1、フィールドBは優先順位2、フィールドCは優先順
位3を有することがわかる。書式Xは項目300として
示され、フィールドAは10.00の数字フィールド、
フィールドBはJohn.Jrの英字フィールド、フィ
ールドCは123−45−6789の数字フィールドで
あることがわかる。システムしきい値レジスタ312
は、図6における現システムしきい値1を文字認識プロ
セッサ304および306に適用する。このしきい値
は、未処理の文書イメージ300の量の関数である。3
つのフィールドA、B、Cはしきい値1と等しいかまた
はそれよりも大きい優先順位の値を持つので、数字認識
プロセッサ304に関するフィールドA、B、Cの各出
力が314に示される。この専用数字プロセッサ304
で予期されたように、出力314は、数字フィールドA
とCに関しては正確な認識が実施され、英字フィールド
Bに関しては不正確な認識が実施されたことがわかる。
これと対応して、文字認識プロセッサ306によって、
3つのフィールドA、B、Cがすべて処理され、316
に出力されたことがわかる。フィールドAとCの出力3
16が不正確であり、数字フィールドがあるので予期さ
れるように、プロセッサ306が英字認識に特に適して
いることがわかる。しかし、文字認識プロセッサ306
は英字プロセッサなので、316におけるフィールドB
は"John,Jr."と正確に認識されたことがわか
る。2つの文字認識プロセッサ304と306の各フィ
ールドに関する結果は、それぞれ個々のフィールド内に
より少ない数の誤認識文字を含むように各文字認識プロ
セッサ304または306の各々からの出力を選択す
る、結果選択プロセッサ310によって結合される。そ
の結果、フィールドA、フィールドB、フィールドCに
関する出力318は、300において書式Xのコピーの
3つのフィールドに関する原ビット・マップ・イメージ
の正確な表示の選択結果を有することになる。
【0027】これを、レジスタ312内のシステムしき
い値が値2に変更された、図7における状況と比較され
たい。この事例では、その優先順位がしきい値よりも小
さいので、文字認識プロセッサ304の出力314'は
フィールドAをスキップする。これに対応して、第2の
文字認識プロセッサ306におけるフィールドAの出力
316'もスキップされる。誤認識文字の数がより少な
い304と306からのプロセッサ出力を選択する結果
選択プロセッサ310で結合された結果が、318'に
示されている。特にフィールドAは、プロセッサ304
と306の両方でスキップされるので、318'でもス
キップされていることがわかる。図6に関して考察した
ように、フィールドBとCはプロセッサ304と306
から入手できるため、318'で選択されている。
【0028】これを、レジスタ312においてシステム
しきい値が3に高められた、図8の状況と比較された
い。この事例では、フィールドAとBの両方の出力31
4"と316"はプロセッサ304と306の両方でスキ
ップされ、したがってそれらは結果選択プロセッサ31
0でもスキップされている。フィールドCだけは、しき
い値3と等しいかまたはそれよりも大きい優先順位の値
と等しいかまたはそれよりも大きいしきい値を有するの
で、2つのプロセッサ304と306からの出力を有す
る。314"の出力と316"の出力が結果選択プロセッ
サ310に適用され、結果選択プロセッサ310はプロ
セッサ304から正確なフィールドCの値の出力31
4"を選択する。したがって、定義データ・セット30
2におけるデータ獲得優先順位を割り当てることによ
り、システムによって処理すべき未処理文書の数から割
り当てられるような、レジスタ312におけるシステム
しきい値の変動に対処するように並列文字認識動作を管
理することができる。
【0029】図9は、データ獲得優先順位を使用するこ
とによって文字認識処理のスループットを管理する文書
処理システムのシステム・ブロック図である。ローカル
・エリア・ネットワーク(LAN)400は、書式定義
プロセッサ402を、文書走査プロセッサ406、文書
バッファ・プロセッサ408、第1段文字認識プロセッ
サ412、第2段文字認識プロセッサ414および第3
段文字認識プロセッサ416と相互接続する。文書走査
プロセッサ406は、スキャナ404からビット・マッ
プ文書イメージを受け取る。文書イメージ・バッファ4
10は、文書走査プロセッサ406からローカル・エリ
ア・ネットワーク400を介して出力され、文書バッフ
ァ・プロセッサ408によって処理された文書イメージ
422をバッファに入れる。文書イメージ422の例
は、図22、図23、図24においてそれぞれ910、
912、914として示されている。文書バッファ・プ
ロセッサ408は、図5で説明したような未処理文書イ
メージ・カウンタ204を含み、文書イメージ・バッフ
ァ410に入れられた未処理文書の数に対応するしきい
値を生成する。その結果生じる文書カウントは、しきい
値に変換され、ローカル・エリア・ネットワーク400
上にしきい値メッセージ424として出力される。しき
い値メッセージ424の例は、図21において908と
して示されている。書式定義プロセッサ402は、フィ
ールド優先順位420を含む書式定義データ・セット
と、ローカル・エリア・ネットワーク400を通じて第
1段、第2段、第3段プロセッサ412、414、41
6に伝送される書式データ・セット・メッセージとを出
力する。書式定義データ・セットの例は、図18、図1
9、図20において、それぞれ902、904、906
として示されている。各書式定義データ・セットは、そ
れぞれ、業務上のフィールドの相対的な重要性の評価に
基づいてユーザによって割り当てられたフィールド優先
順位420を含む。文書バッファ・プロセッサ408に
よって生成されたしきい値メッセージ424は、ローカ
ル・エリア・ネットワーク400を介して第1段、第2
段、第3段文字認識プロセッサ412、414、416
に伝送される。第1段文字認識プロセッサ412が第1
の文書イメージを処理してそれぞれのフィールド上で文
字認識を実行するとき、どのフィールドがそのプロセッ
サで受け取ったしきい値メッセージ424中でセットさ
れたしきい値と同じかまたはそれよりも高い優先順位を
有するかを判定するために、文書定義データ・セット9
02、特にフィールド優先順位420を調べる。次に、
第1段文字認識プロセッサ412は、しきい値と等しい
かまたはそれよりも大きいデータ獲得優先順位の値を持
つフィールド上で文字認識動作を実行する。その結果、
第1段結果メッセージ426が、ローカル・エリア・ネ
ットワーク400を介して第2段プロセッサ414また
は第3段プロセッサ416のいずれかに伝送される。第
1段結果メッセージ426の例は、図25において95
2として示される。第1段文字認識プロセッサ412と
それに続く第2段文字認識プロセッサ414によって連
続動作が行われ、両方のプロセッサが同じフィールドに
適用される場合、第2段文字認識プロセッサ414は第
1段結果メッセージ426を受け取り、その情報を、文
書書式内のいくつかのフィールドのうちのどれが処理さ
れるかを判定するためにフィールド優先順位値420お
よび424からのしきい値と組み合わせる。しきい値よ
りも大きい優先順位の値を有するフィールドだけが処理
される。第2段プロセッサ414において結果として生
じる文字認識動作は、第2段結果メッセージ428を生
成し、それがローカル・エリア・ネットワーク400上
に出力され、第3段プロセッサ416に送られる。第2
段結果メッセージ428の例は、図25において954
として示されている。しきい値よりも大きいデータ獲得
優先順位の値を有するフィールド上だけで文字認識動作
を実行するために、第2段結果メッセージ428の結果
を、フィールド優先順位420およびしきい値424と
組み合わせて使用し、同様の順次的段階的動作が第3段
文字認識プロセッサ416で実行される。第3段文字認
識プロセッサ416の出力は、図9の第3段結果バッフ
ァ418に印加される。プロセッサ416による第3段
結果メッセージ出力の例は、図25に956として示さ
れている。
【0030】図10は、文書バッファ・プロセッサ40
8のより詳細な機能ブロック図である。プロセッサ40
8は、バス504によってCPU506に接続されたメ
モリ502と、スキャナ404に接続されたスキャナ・
アダプタ508と、マウス510と、ディスプレイおよ
びキーボード512と、LAN400に接続されるロー
カル・エリア・ネットワーク・アダプタ514と、バッ
ファ410に接続される文書イメージ・バッファ516
とを含む。メモリ502内には、文書走査プロセッサ4
06から受け取ったビット・マップ・イメージ422を
記憶するイメージ・バッファ520が含まれる。メモリ
502内には、図4のバッファ・カウンタ204に関し
て説明した機能を実施するバッファ・カウンタ522も
含まれる。メモリ502内にはさらに、しきい値THレ
ジスタ524、スキップ状態レジスタ526、しきい値
メッセージ・バッファ528、およびスキップ状態メッ
セージ・バッファ530も含まれる。また、メモリ50
2には文書バッファ管理プログラム532も含まれてお
り、その流れ図を図11に示す。文書バッファ管理プロ
グラムは、CPU506によって実行されるとき図11
に示した方法を実行する、一連の実行可能な命令であ
る。またメモリ502内には、オペレーティング・シス
テム・プログラム534も示されている。
【0031】文書バッファ管理プログラム532が、図
11の流れ図に示されている。ステップ600で文書バ
ッファ管理プログラムを開始し、ステップ602に進ん
で文書走査プロセッサ406から文書イメージを文書イ
メージ422として受け取り、その文書イメージを文書
イメージ・バッファ410に記憶する前にバッファ52
0と516に入れる。次にステップ604で、バッファ
・カウンタ522のカウント値CNTを増分する。次に
ステップ606で、しきい値THを計算する。この例で
は、文書カウントCNTが10よりも小さい場合はしき
い値1に対応する。文書カウントが10以上50以下の
場合はしきい値2に対応する。文書カウントが50より
大きい場合はしきい値3に対応する。次に、流れ図はス
テップ608に進み、最後に受け取った文書イメージ4
22を文書イメージ・バッファ410に入れることによ
ってしきい値が変化したかどうかを判定する。変化した
場合は、文書バッファ・プロセッサ408はしきい値メ
ッセージ424を区画528に準備し、それをLAN4
00に出力する。しきい値メッセージ424の例とし
て、図21のメッセージ908を参照することができ
る。また、文書イメージ422の例として、図22、図
23および図24の書式X910、書式Y912、およ
び書式Z914を参照することができる。
【0032】次に、図11の流れ図はステップ610に
進んで、記憶されたイメージに未処理の文書イメージが
あるかどうかを判定する。これらの要求は、第1段文字
認識プロセッサ412により、例えば文書バッファ・プ
ロセッサ408に対して行われる。次にステップ612
で、文書イメージ422が要求されている場合は、その
文書イメージ422に文書イメージ・バッファ410か
らアクセスして、第1段文字認識プロセッサ412など
の要求元にそれを送る。次にステップ614で、バッフ
ァ・カウンタ522を1だけ減分する。次にステップ6
16で、新しいしきい値THを計算する。ステップ61
8で、しきい値THが変化したかどうかを判定する。変
化した場合は、新しいしきい値メッセージ424がロー
カル・エリア・ネットワーク400に出力される。次に
ステップ620で、しきい値がユーザまたはシステム管
理者によってキーボード512などの選択入力で変更さ
れたかどうかを判定する。ユーザがしきい値THの変更
を要求した場合は、新しいしきい値メッセージ424が
ローカル・エリア・ネットワーク400に出力される。
次にステップ622で、スキップ状態が変化したかどう
かを判定する。スキップ状態は、特定のフィールドの優
先順位が現しきい値よりも大きくない場合に、文字認識
プロセッサによって実行されるアクションをユーザが指
示する、ユーザ定義の状態である。この例では、スキッ
プ状態がゼロの場合、プロセッサ412、414、41
6によって、現しきい値よりも低い優先順位を有する任
意のフィールドに低品質の文字認識モードが適用され
る。その代わりに、ユーザによってスキップ状態が値1
に設定される場合は、現しきい値より大きくない優先順
位の値を持つあらゆるフィールドが、文字認識プロセッ
サ412、414または416によってスキップされ
る。次に、図11のステップ624でメイン・プログラ
ムに戻る。
【0033】図12は、図9の第1段OCRプロセッサ
412を示す。図12のプロセッサ412は、バス70
3によってCPU704と、ディスプレイおよびキーボ
ード706と、マウス708と、LAN400に接続さ
れたローカル・エリア・ネットワーク・アダプタ710
とに接続されたメモリ702を含む。メモリ702は、
フィールド優先順位426を含み、図18における定義
データ・セット902を記憶する定義データ・セット・
バッファ712を含む。メモリ702はまた、文書バッ
ファ・プロセッサ408から出力される文書イメージ4
22を記憶するイメージ・バッファ714を含む。メモ
リ702はまた、しきい値メッセージ424内のしきい
値THを記憶するシステムしきい値THバッファ716
を含む。メモリ702はまた、しきい値メッセージ42
4内のスキップ状態値を記憶するスキップ状態バッファ
718を含む。メモリ702は、書式認識プログラム7
20を含むことができる。書式認識プログラム720は
文書イメージ422を分析し、その文書イメージを、書
式ID値によって指定されるいくつかの事前定義された
文書書式のうちの1つとして特徴付ける。書式ID値
は、書式IDバッファ722に記憶される。適切な書式
認識プログラムは、前記の米国特許に記載されている。
書式認識機能は、独立したプロセッサにおいて実施する
こともできる。メモリ702はまた、第1段OCRプロ
グラム724を含む。これは、第1段OCRプロセッサ
412によって実行される文字認識プログラムである。
フィールド優先順位レジスタ726は、定義データ・セ
ット区画712に記憶された書式定義データ・セット9
02によって定義されるような、OCRプログラム72
4によって処理される現フィールドに割り当てられたフ
ィールド優先順位の値を一時的にバッファする。第1段
結果バッファ728は、第1段結果メッセージ426を
記憶する。その例は、図25における952である。バ
ッファ728は、OCR第1段プログラム724の実行
の結果として生じる、正確に認識された文字と誤認識ま
たは省略された文字の両方の文字列を記憶する。またメ
モリ702は、後でより詳細に説明する、図15、図1
6および図17にその流れ図を示す、可変優先順位管理
プログラム800を含む。メモリ702には、オペレー
ティング・システム・プログラム730も含まれる。こ
れらのプログラムはCPU704において実行される。
【0034】図9のシステムにおける第2段OCRプロ
セッサ414は、図13により詳細に示されている。プ
ロセッサ414は、バス733によってCPU734と
ディスプレイおよびキーボード736とマウス738と
LAN400に接続されたローカル・エリア・ネットワ
ーク・アダプタ740とに接続されたメモリ732を含
む。またメモリ732は、定義データ・セット・バッフ
ァ742、イメージ・バッファ744、システムしきい
値THレジスタ746、およびスキップ状態レジスタ7
48を含む。またメモリ732には、第1のOCR結果
メッセージ区画750が含まれる。第1段プロセッサ4
12からの第1段結果メッセージ426(図25では9
52)は、この区画750に記憶される。752におけ
る書式IDは、OCR結果メッセージ426(この例で
は書式X)から得られる。OCR第2段プログラム75
4は、プロセッサ414において第2段文字認識動作を
実行する。フィールド優先順位レジスタ756は、バッ
ファ742に記憶された定義データ・セットに定義され
るような、分析される現フィールドの優先順位を記憶す
る。OCR第2段プログラム754の出力は、第2段結
果バッファ758に入れられる。このバッファの内容
は、第1段文字認識プロセッサ412からの正確に認識
された文字、OCR第2段プログラム754によって正
確に認識された文字、およびOCR第2段プログラム7
54の結果として生じる誤認識または省略された文字を
含むことができる。第2段結果バッファ758は、図2
5では954として示したLAN400上の第2段結果
メッセージ428として出力される。またメモリ732
には、図15、図16および図17で流れ図として示し
た可変優先順位OCR管理プログラム800が含まれ
る。オペレーティング・システム・プログラム760も
メモリ732に含まれる。これらのプログラムはCPU
734上で実行される。
【0035】図9のシステム図の第3段OCRプロセッ
サ416は、図14により詳細に示されている。第3段
OCRプロセッサ416は、バス763によってCPU
764とディスプレイおよびキーボード766とマウス
768とLAN400に接続されたLANアダプタ77
0とに接続されたメモリ762を含む。メモリ762に
は、定義データ・セット・バッファ772、イメージ・
バッファ744、システムしきい値THレジスタ77
6、スキップ状態レジスタ778、および第2段OCR
結果メッセージ区画780が含まれる。第2段結果メッ
セージ428(図25では954)は、区画780に記
憶される。書式ID782は第2段結果メッセージ42
8から得られる。OCR第3段プログラム784は、第
3段プロセッサ416において実行される文字認識プロ
グラムである。フィールド優先順位786は、定義デー
タ・セット・バッファ772において定義されるよう
な、分析中の現フィールドの優先順位である。第3段O
CRプログラム784の出力は、第3段結果バッファ7
88に記憶される。このバッファ778の内容は、図2
5における第3段結果メッセージ956であり、第1段
プロセッサ412からの正確に認識された文字、第2段
プロセッサ414からの正確に認識された文字、第3段
OCRプログラム784からの正確に認識された文字、
第3段OCRプログラム784からの誤認識された文字
と省略文字を含む。次に、第3段結果バッファ788の
内容は、図9のシステムにおける第3段結果418とし
て出力される。またメモリ762には、図15、図16
および図17にその流れ図を示した可変優先順位OCR
管理プログラム800が含まれる。メモリ762には、
オペレーティング・システム・プログラム790も含ま
れる。これらのプログラムはCPU764で実行され
る。
【0036】図15、図16および図17は可変優先順
位OCR管理プログラム800の流れ図であり、そのプ
ログラム800のコピーがプロセッサ412、414、
416のそれぞれにおいて実行される。プログラム80
0の流れ図はステップ802で始まり、ステップ804
に進んで文書イメージ・バッファ410の次の文書イメ
ージ422を検索する。新しいしきい値メッセージ42
4がある場合、ステップ806で新しいしきい値THを
受け取る。ステップ808で、区画722、752、7
82に記憶された書式ID値(例えば"書式X")を得る
ために書式認識動作を実行する。次に、ステップ810
で、書式ID値を利用して書式定義データ・セット(例
えば図18では902)にアクセスし、それを定義デー
タ・セット・バッファ712、742、772に記憶す
る。次にステップ812で、データ・イメージを得るた
めにイメージ分離処理を実行する。この機能は、第1の
プロセッサ412に記憶されたOCR第1段プログラム
724の一部分でもよいし、また別のプロセッサで実行
してもよい。この動作により、書式上の各フィールドに
入力された情報のデータ・イメージが書式のイメージか
ら取り出される
【0037】次にステップ814で、第1のプロセッサ
412において実行される第1のフィールド・ループを
開始する。ステップ816で、書式定義データ・セット
902からフィールドの優先順位を得る。次にステップ
818で、現フィールドの優先順位が、しきい値メッセ
ージ424によって定義されるしきい値よりも大きいか
どうかを判定する。フィールドの優先順位がしきい値よ
りも大きい場合は、ステップ820で、第1段プロセッ
サ412において第1のOCR文字認識動作724を実
行し、その結果得られた文字およびエラーを第1段結果
メッセージ426(図25では952)に組み込む。フ
ィールドの優先順位がしきい値THよりも小さいかまた
は等しいと判定した場合は、ステップ822で、そのフ
ィールドをスキップする。次にステップ824で、次の
フィールドを処理して、ループはステップ814に戻
る。もうフィールドがない場合は、ステップ826で、
任意のフィールドに第1段文字認識動作724の結果と
して生じるエラーがあるかどうかを判定する。エラーが
ある場合は、ステップ828で流れは第2フィールド・
ループに進む。エラーがない場合は、第1段結果426
がその文書について認識した文字の最終出力になり、プ
ログラムはメイン・プログラムに戻る。この最終的な結
果文字列426を、プロセッサ412で利用し、ディス
プレイ706によって表示し、あるいはユーザの業務に
使用するLAN400に接続された別の装置に送ること
ができる。
【0038】図16において、ステップ828で、第2
段文字認識プロセッサ414で実行される第2のフィー
ルド・ループを開始する。ステップ830で、第1段文
字認識412からのフィールドにエラーがないことが第
1段結果メッセージ426によって明らかにされた場合
は、プログラムは次のフィールドにスキップする。ステ
ップ832で、この場合にはバッファ742内にある書
式定義データ・セット902からフィールドの優先順位
を得る。次にステップ834で、その優先順位が、しき
い値メッセージ424内のしきい値と等しいかまたはそ
れよりも高いかどうかを判定する。そのような場合は、
第2段プロセッサ414は第2の文字認識動作754を
実行し、その結果生じる文字およびエラーを第2段結果
メッセージ428(図25では954)の結果ファイル
に組み込む。ステップ838で、フィールドの優先順位
がしきい値THと等しいかまたはそれよりも小さい場合
は、そのフィールドはスキップされる。次にステップ8
40で、次のフィールドを処理して、ループはステップ
828に戻る。もうフィールドがない場合は、ステップ
842でフィールドのどれかにエラーがあるかどうかを
判定し、ある場合は、プログラムは第3のフィールド・
ループのステップ844に進む。一方、第2段結果メッ
セージ428はこの文書に関する最終的な文字認識出力
を含み、プログラムはメイン・プログラムに戻る。最終
的な結果文字列428は、プロセッサ414で利用し、
ディスプレイ736で表示し、あるいはユーザの業務に
使用するLAN400に接続された別の装置に送ること
ができる。
【0039】図17では、第3段文字認識プロセッサ4
16で実行される第3のフィールド・ループを開始す
る。ステップ844で、第3のフィールド・ループを開
始する。スキップ846で、第1または第2の文字認識
プロセッサ412および414からのフィールドにエラ
ーがないことが第2段結果メッセージ428によって明
らかにされたかどうか判定し、次のフィールドにスキッ
プする。ステップ848で、バッファ772の書式定義
データ・セット902からフィールドの優先順位を得
る。ステップ850で、フィールドの優先順位が、しき
い値メッセージ424で指定されたようなしきい値TH
と等しいかまたはそれよりも高いかどうかを判定する。
そうである場合は、スキップ852で、プロセッサ41
6において第3段文字認識動作784を実行し、その結
果およびエラーを、第3段結果バッファ418に出力さ
れる図25の結果ファイル956に組み込む。ステップ
854で、優先順位がしきい値電圧THと等しいかまた
はそれよりも小さいと判定した場合には、そのフィール
ドをスキップする。次にステップ856で、次のフィー
ルドを処理してループをステップ844に戻る。ステッ
プ858は、その文書に関する他のすべてのフィールド
が処理された後で実行され、図25の結果ファイル95
6をバッファ418に出力してメイン・プログラムに戻
る。結果ファイルは、プロセッサ412に関する正確に
認識された文字、プロセッサ414に関する正確に認識
された文字、プロセッサ416に関する正確に認識され
た文字、誤認識された文字および省略された文字を含
む。バッファ418における最終的な文字列は、プロセ
ッサ416で利用し、ディスプレイ766によって表示
し、あるいはユーザの業務で使用するLAN400に接
続された別の装置に送ることができる。
【0040】図9に記載したシステムの動作の例は、図
18、図19および図20の書式定義データ・セット、
図21のしきい値メッセージ、図25のしきい値が1の
第1段、第2段、第3段結果メッセージ952、95
4、956、ならびに図26のしきい値が3の第1段、
第2段、第3段結果メッセージ962、964、966
に関して与えたものである。書式Xが図9のシステム中
に走査され"X"型の書式と認識された場合は、フィール
ドA、B、Cに関するデータ獲得優先順位の値を決定す
るために、図18の定義データ・セット902が呼び出
される。図9のシステム中に走査された書式Xは、図2
2では910で示される。図25の第1の例において、
しきい値424が1であると文書バッファ・プロセッサ
408が判定した場合は、第1段、第2段、第3段結果
メッセージ950が図25に示される。図9の426と
対応する第1段結果メッセージ952は、3つのフィー
ルドA、B、Cすべてについて出力があることを示す。
これは、3つのフィールドA、B、Cがすべて、しきい
値1と等しいかまたはそれより大きいデータ獲得優先順
位の値を有するからである。フィールドAは正確に認識
されているが、フィールドBとCは正確に認識されてい
ないことがわかる。次に図15、図16および図17の
流れ図によると、フィールドAは第1段プロセッサ41
2で正確に認識されているので、第2段文字認識プロセ
ッサ414はフィールドAを再び分析しない。しかしな
がら、フィールドBとCは共にしきい値1と等しいかま
たはそれよりも大きい優先順位の値を有し、また図25
の第1段結果メッセージ426または952で誤認識さ
れた文字またはエラーを有するので、第2段プロセッサ
414はフィールドBとCに対して文字認識動作を実行
する。図9では428また図25では954として示さ
れた第2段文字認識プロセッサ414から出力された第
2段結果メッセージは、フィールドBが正確に認識され
フィールドCがエラーを有することを示す。次に、第2
段結果メッセージ954は、第3段プロセッサ416に
渡される。次に図17の流れ図によると、フィールドA
とBは第2段結果メッセージ954中にエラーや誤認識
された文字をもう持たないので、第3段プロセッサ41
6はフィールドAとBを分析しない。フィールドCはし
きい値1と等しいかまたはそれよりも大きい優先順位の
値を有し、また第1段および第2段文字認識動作からの
残りのエラーを含むので、分析される。第3段プロセッ
サ416はフィールドC上で認識動作を実行して、図2
5の第3段結果メッセージ956に示されるような正し
い文字列を出力する。
【0041】図26に示した第2の例は、文書バッファ
・プロセッサ408によりしきい値メッセージ424を
利用して第1段、第2段、第3段プロセッサ412、4
14、416にそれぞれ適用されるシステムしきい値3
に関するものである。図26に示す第1段結果メッセー
ジ962は、フィールドAとBがスキップされたことを
示す。また、第2段および第3段結果メッセージ964
と966もフィールドAとBがスキップされたことを示
していることがわかる。これは、フィールドAとBに割
り当てられたデータ獲得優先順位の値が、現しきい値3
よりも小さいからである。しかしながら、図26の第1
段結果メッセージ962は、フィールドCが第2段プロ
セッサ412によってすでに分析されており、文字認識
出力が2つの正しい文字と2つの誤認識された文字を含
むことを示している。次に、第1段結果メッセージ96
2が第2段プロセッサ414に渡される。フィールドC
の優先順位がしきい値よりも大きくかつフィールドCが
エラーを含むので、第2段プロセッサはフィールドCを
処理する。図26から明らかなように、文字認識列の部
分的な修正が第2段プロセッサ414によって行われ
る。図26の第2段結果428または964は、第3段
プロセッサ416に出力される。フィールドCの優先順
位がしきい値よりも大きくかつ第1段および第2段文字
認識プロセッサ412と414からの残りのエラーを含
むので、プロセッサ416はフィールドCを処理する。
図26の第3段結果メッセージ966は、フィールドC
が正確に文字認識されたことを示す。したがって図26
から、フィールドAとBがスキップされかつフィールド
Cが文字認識段412、414および416をすべて通
過したことをしきい値3の結果メッセージ960が示す
ことがわかる。第3段結果メッセージ966の出力は、
図9の第3段結果バッファ418に適用される。
【0042】したがって、本発明により、複数の文書イ
メージ内のテキスト文字の認識が改善された形で管理さ
れることがわかる。本発明は、文書書式における特定フ
ィールドの相対的重要性の所定の評価を使用して、その
ような複数の書式の文字認識処理のスループットを管理
する。たとえ処理すべき文書イメージの入力量が変動し
ても、このシステムは、未処理の文書イメージの量の制
限と文書処理の所望のスループットの両方を維持するこ
とができる。
【0043】先の例において、次の段に送られる認識文
字列のパターンが異なるパターンのものも本発明の範囲
内に含まれる。例えば、しきい値が低い場合にすべての
フィールドが次の段に送られ、しきい値が高い場合には
誤認識された文字または疑わしい文字を有するフィール
ドだけが送られる。
【0044】前述したように、図9は、本発明によるシ
ステムの全体的機能ブロック図である。本発明の他の特
徴は、ローカル・エリア・ネットワーク400にログ・
オンされる手動修復プロセッサの数に基づいて調整可能
なしきい値を提供することである。手動修復プロセッサ
450と手動修復プロセッサ452はLAN400に接
続され、第3段結果メッセージ440を受け取り、誤認
識された文字や疑わしい文字がある場合には文書のイメ
ージを表示する。図27に、手動修復処理の流れ図を示
すが、これはステップ1102で始まる。段階1104
で、文書バッファ・プロセッサ408からLAN400
を介してしきい値メッセージ424を受け取って、手動
修復プロセッサ450と452のシステムしきい値を確
立する。図27のプロセスは、手動修復プロセッサ45
0と452の各々で実行される。ステップ1106で、
フィールド優先順位420を受け取り、ステップ110
8で、文書書式イメージ422を受け取る。ステップ1
110で、第3段OCR結果440を受け取る。
【0045】図29と図30に移ると、手動修復プロセ
ッサ450の機能ブロック図が示されている。手動修復
プロセッサ450は、バス1260によってCPU12
62とスキャナ1264とディスク・ドライブ1266
とLAN400に接続されたLANアダプタ1268と
に接続されたメモリ1202を含む。また、このLAN
400は、第2の手動修復プロセッサ452にも接続さ
れている。バス1260には、キーボードとディスプレ
イ1270およびマウス1272も接続されている。メ
モリ1202には、イメージ・バッファ1220、しき
い値メッセージ・バッファ1228、第3段OCR結果
メッセージ・バッファ1230、図27の修復プログラ
ム1100、図28のしきい値調整プログラム115
0、およびオペレーティング・システム1234が含ま
れる。メモリ1202に記憶されたプログラムは実行可
能命令のシーケンスであり、CPU1262で実行され
るとき、所期の動作を実行する。
【0046】メモリ1202のイメージ・バッファ12
20において、イメージ422として受け取った文書イ
メージ1236が、キーボードとディスプレイ1270
上で実際に表示するためにイメージ・バッファ1220
内に表示されていることがわかる。名前、SS番号、都
市、州、推定税額の5つのフィールドの対応する優先順
位が、文書イメージ・バッファ1236に示されてい
る。SS番号と推定税額のフィールドは、名前フィール
ド、都市および州フィールドに割り当てられた優先順位
1よりも高い優先順位3を有することがわかる。またイ
メージ・バッファ1220には、第3段OCRプロセッ
サ416および第3段結果メッセージ430から出力さ
れる英数字結果文字列を記憶する区画1225も含まれ
る。
【0047】本発明によれば、区画1228に記憶され
たしきい値が低くかつ文書イメージ1236内の各フィ
ールドに割り当てられた優先順位がしきい値と等しいか
またはそれよりも高い場合は、これらのフィールドは手
動修正のためにオペレータに提示される。具体的には、
図29においてこのとき、手動修復プロセッサ450は
低いしきい値1である。したがって、名前フィールドは
英数字文字列1250が表示され、SS番号フィールド
は数字フィールド1252が表示され、都市フィールド
は英数字フィールド1254が表示され、州フィールド
は英数字フィールド1256が表示され、推定税額フィ
ールドは数字フィールド1258が表示される。これら
の5つのフィールドはすべて、誤認識された文字の手動
修正のために手動修復プロセッサ450でオペレータに
提示される。
【0048】次に図30に移ると、図29の手動修復プ
ロセッサ450が、高い値3にセットされたしきい値を
有することが示されている。この条件下では、高い優先
順位のフィールドであるSSフィールドと推定税額フィ
ールドだけが、フィールド1252と1258として英
数字書式で表示されていることがわかる。このように、
第3段OCR結果メッセージ440における誤認識され
た文字および疑わしい文字の修正のために、高い優先順
位のフィールドだけがオペレータに提示される。
【0049】ここで再び図27の流れ図に移ると、方法
1100は、ステップ1112から再開して文書イメー
ジ区画1236に文書書式イメージ422を表示する。
次にステップ1114で、フィールド・ループを開始す
る。ステップ1116で、そのフィールドの優先順位が
しきい値よりも大きいかどうかを判定する。大きい場合
は、表示イメージ1236上でそのフィールドを強調表
示し、第3段結果440から先に得られたそのフィール
ドに関する英数字文字列1225を表示する。
【0050】次に、図27のステップ1118で、別の
フィールドがあるかどうかを判定し、ある場合は、プロ
グラムはステップ1114のフィールド・ループの最初
に戻る。ない場合は、プログラムはメイン・プログラム
に戻る。
【0051】本発明のもう1つの特徴は、図28に示し
たしきい値調整プログラム1150である。ステップ1
120で、LAN400にログ・オンされた修復ワーク
ステーションの数に基づいて新しいしきい値の計算を開
始する。図9に示したように、2つの修復ステーション
450と452がある。特定の修復ステーション450
への初期プログラム・ロードで、例えばプロセッサ45
0は、システムから出力されたしきい値メッセージ42
2中で確立されたしきい値を、文書バッファ・プロセッ
サ408から採用する。図28に戻り、ステップ112
2でローカル・ステーションのログ・オンを受け取る。
次にステップ1124で、いくつログ・オンされている
かを決定するために、LAN400上の他のすべてのワ
ークステーションを調べる。これは例えば米国特許第4
914571号に記載されたプロセスによって実施され
る。ステップ1124での調査動作の後、ステップ11
26で、LAN400にログ・オンされた他の手動修復
プロセッサ450、452等の数が所定数よりも少ない
かどうかを判定する。例えば、ワークステーションの所
定数が10に設定されることがあり得る。ログ・オンさ
れた数が所定数よりも少ない場合は、特定の手動修復プ
ロセッサ450のしきい値が高い値にセットされる。こ
のように、ローカル・エリア・ネットワーク400上で
受け取られた各文書イメージにおける高い優先順位のフ
ィールドだけが修復のためにオペレータに提示される。
これにより、特定の労働期間における人手不足に直面し
ても、手動修復処理に委ねられる文書イメージの数を増
やすことができる。
【0052】図28のステップ1126ではまた、LA
N400上のしきい値メッセージを他の修復ワークステ
ーションに出力して、しきい値を高い値にセットする。
ネットワーク上の他のワークステーションが異なるしき
い値を有する場合は、それらは一律に高い値にセットさ
れ、したがってすべてのワークステーションは、十分に
高い優先順位を有する文書イメージ上のフィールドだけ
を検査する。
【0053】図28のプロセス1150はステップ11
28に進み、ログ・オンされた手動修復プロセッサの数
、例えば10以上の所定の数と等しいかまたはそれよ
りも大きいかどうかを判定する。そうである場合は、ロ
グ・オンされたプロセッサのしきい値が低い値にセット
される。このように、手動修復プロセッサ450のよう
な新しくログ・オンされたプロセッサは低いしきい値を
採用し、それによって、誤認識された文字列の手動修復
のために文書イメージ上のより多くのフィールドが検査
できるようになる。ステップ1128では続いて、LA
N400上のしきい値メッセージを他の修復ステーショ
ン452に出力し、例えば低いしきい値にセットする。
このように、すべての修復ステーションは低いしきい値
を採用することができ、それによって、低い優先順位を
有する文書イメージ上のより多くのフィールドの検査が
可能になる。このようにして、手動修復プロセスを実行
するための人手の変動があっても、手動修復ステーショ
ンで検査される文書の全体的スループットが比較的一定
の量に維持される。
【0054】図29と図30に関してわかるように、手
動修復プロセッサがローカル・エリア・ネットワーク4
00にログ・オンし、システムにログ・オンされた手動
修復プロセッサが所定の数よりも少ないことを見つけた
場合、図29の手動修復プロセッサ420にセットされ
た低いしきい値1は、高い値3に高められる
【0055】このように、フィールド優先順位を手動修
復プロセッサ用に確立されたしきい値と共に使用して、
システムの文字認識段から出力される誤認識された文字
列および疑わしい文字列を修正するためのスループット
を比較的一定に維持することができる。
【0056】しきい値および優先順位の相対値は、ここ
に述べた配列と逆にできることを理解されたい。前述の
優先順位およびしきい値の配列では、フィールドの優先
順位の数値が、割り当てられたしきい値と等しいかまた
はそれよりも大きい場合、そのフィールドがあるアプリ
ケーションに関して考慮される。優先順位の数値がしき
い値よりも小さい場合は、そのフィールドは無視され
る。特定の動作を実行するために、優先順位の値の方が
しきい値の数値よりも数値的に小さくなければならない
場合には、これと逆の配列を使用する。どちらの配列も
等価であり、本発明の範囲に含まれる。また、本発明で
使用される優先順位の値およびしきい値は何個でも良
い。更に、認識プロセッサまたは手動修復プロセッサの
各々に対して個別のしきい値を選択するために、システ
ム管理者が手動オーバーライドを課すこともできる。
【0057】本発明の特定の実施例を開示したが、本発
明の趣旨および範囲から逸脱することなく、特定の実施
例に変更が行えることは当業者には明らかであろう。
【0058】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0059】(1)文書イメージ入力と文書イメージ・
バッファと文字認識処理手段とを含むデータ処理システ
ムにおいて、複数の文書イメージにおけるテキスト文字
の認識を管理するための方法であって、ある文書タイプ
中の第1のフィールドに関する第1の位置および第1の
優先順位の値を前記システム内で指定する第1のフィー
ルド定義と、前記文書タイプ中の第2のフィールドに関
する第2の位置および前記第1の優先順位の値よりも小
さい第2の優先順位の値を前記システム内で指定する第
2のフィールド定義とを記憶する段階と、前記第1と第
2のフィールドにテキスト文字を含む、前記文書タイプ
の複数の文書イメージを前記文書イメージ・バッファに
入れる段階と、前記文書イメージ・バッファに入れられ
た前記文書イメージの数を前記システムにおいてカウン
トし、バッファに入れられた前記文書イメージの数が所
定値よりも多い場合は、前記文字認識処理手段にしきい
値信号を送る段階と、前記文書イメージの数が前記所定
値よりも少ないときは、前記文字認識処理手段によって
前記第1および第2のフィールドの文字認識を実行し、
前記文書イメージの数が前記所定値よりも多いときは、
前記しきい値信号に応じて前記第2のフィールド定義に
従って前記文字認識処理手段による前記第2のフィール
ドの文字認識の実行を省略する段階とを含む方法。 (2)文書イメージ入力と文書イメージ・バッファと高
品質認識モードおよび低品質認識モードを有する文字認
識処理手段とを含むデータ処理システムにおいて、複数
の文書イメージにおけるテキスト文字の認識を管理する
ための方法であって、ある文書タイプ中の第1のフィー
ルドに関する第1の位置および第1の優先順位の値を前
記システム内で指定する第1のフィールド定義と、前記
文書タイプ中の第2のフィールドに関する第2の位置お
よび前記第1の優先順位の値よりも小さい第2の優先順
位の値を前記システム内で指定する第2のフィールド定
義とを記憶する段階と、前記第1と第2のフィールドに
テキスト文字を含む、前記文書タイプの複数の文書イメ
ージを前記文書イメージ・バッファに入れる段階と、前
記文書イメージ・バッファ内の前記バッファに入れられ
た文書イメージの数を前記システムにおいてカウント
し、前記バッファに入れられた文書イメージの数が所定
値よりも多い場合は、前記文字認識処理手段にしきい値
信号を送る段階と、前記バッファに入れられた文書イメ
ージの数が前記所定値よりも少ないときは、前記高認識
モードを使用する前記文字認識処理手段によって前記第
1のフィールドおよび第2のフィールドの文字認識を実
施し、前記バッファに入れられた文書イメージの数が前
記所定値よりも多いときは、前記しきい値信号に応じて
前記第2のフィールド定義に従って、前記低認識モード
を使用する前記文字認識処理手段によって前記第2のフ
ィールドの文字認識を実施する段階とを含む方法。 (3)文書イメージ入力と文書イメージ・バッファと第
1の文字認識処理手段および第2の文字認識処理手段と
を含むデータ処理システムにおいて、複数の文書イメー
ジにおけるテキスト文字の認識を管理するための方法で
あって、ある文書タイプ中の第1のフィールドに関する
第1の位置および第1の優先順位の値を前記システム内
で指定する第1のフィールド定義と、前記文書タイプ中
の第2のフィールドに関する第2の位置および前記第1
の優先順位の値よりも小さい第2の優先順位の値を前記
システム内で指定する第2のフィールド定義とを記憶す
る段階と、前記第1と第2のフィールドにテキスト文字
を含む、前記文書タイプの複数の文書イメージを前記文
書イメージ・バッファに入れる段階と、前記文書イメー
ジ・バッファに入れられた前記文書イメージの数を前記
システムにおいてカウントし、バッファに入れられた前
記文書イメージの数が所定値よりも多い場合は、前記文
字認識処理手段にしきい値信号を送る段階と、前記文書
イメージの数が前記所定値よりも少ないときは、前記第
1の文字認識処理手段と前記第2の文字認識処理手段の
両方によって前記第1および第2のフィールドの文字認
識を実行し、前記文書イメージの数が前記所定値よりも
多いときは、前記しきい値信号に応じて前記第2のフィ
ールド定義に従って前記第1の文字認識処理手段と前記
第2の文字認識処理手段による前記第2のフィールドの
文字認識の実行を省略する段階とを含む方法。
【図面の簡単な説明】
【図1】フィールド優先順位に基づくフィールドのスキ
ップを示す構成ブロック図である。
【図2】フィールド優先順位に基づく文字認識品質の低
下を示す構成ブロック図である。
【図3】文書イメージ・バッファにおける低い文書カウ
ントに起因する低いしきい値を示すシステム・ブロック
図である。
【図4】文書イメージ・バッファにおける中位の文書カ
ウントに起因する中位のしきい値を示すブロック図であ
る。
【図5】文書イメージ・バッファにおける高い文書カウ
ントに起因する高いしきい値を示すブロック図である。
【図6】システムしきい値1に応答する2つの文字認識
プロセッサの並列動作を示すブロック図である。
【図7】システムしきい値2に応答する2つの文字認識
プロセッサの並列動作を示すブロック図である。
【図8】システムしきい値3に応答する2つの文字認識
プロセッサの並列動作を示すブロック図である。
【図9】本発明の全体的システム・ブロック図である。
【図10】文書バッファ・プロセッサのより詳細な図で
ある。
【図11】文書バッファ管理プログラムの流れ図であ
る。
【図12】第1段OCRプロセッサの詳細なブロック図
である。
【図13】第2段OCRプロセッサの詳細なブロック図
である。
【図14】第3段OCRプロセッサの詳細なブロック図
である。
【図15】可変優先順位OCR管理プログラムおよび方
法の流れ図である。
【図16】可変優先順位OCR管理プログラムおよび方
法の流れ図である。
【図17】可変優先順位OCR管理プログラムおよび方
法の流れ図である。
【図18】書式Xの定義データ・セットを示す図であ
る。
【図19】書式Yの定義データ・セットを示す図であ
る。
【図20】書式Zの定義データ・セットを示す図であ
る。
【図21】しきい値メッセージを示す図である。
【図22】書式Xを示す図である。
【図23】書式Yを示す図である。
【図24】書式Zを示す図である。
【図25】しきい値1の、第1段、第2段および第3段
結果メッセージを示す図である。
【図26】しきい値3の、第1段、第2段および第3段
結果メッセージを示す図である。
【図27】手動修復プロセス1100の流れ図である。
【図28】ログ・オンされた修正ワークステーションの
数に基づくしきい値調整プロセスの流れ図である。
【図29】低い値1のしきい値を有する手動修復プロセ
ッサ450の機能ブロック図である。
【図30】高い値3のしきい値を有する手動修復プロセ
ッサ450の機能ブロック図である。
【符号の説明】
400 ローカル・エリア・ネットワーク(LAN) 402 書式定義プロセッサ 404 スキャナ 406 文書走査プロセッサ 408 文書バッファ・プロセッサ 410 文書イメージ・バッファ 412 第1段文字認識プロセッサ 414 第2段文字認識プロセッサ 416 第3段文字認識プロセッサ 418 第3段結果バッファ 420 フィールド優先順位 422 文書イメージ 424 しきい値 426 第1段結果メッセージ 428 第2段結果メッセージ 440 第3段結果メッセージ 450 手動修復プロセッサ 452 手動修復プロセッサ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−226889(JP,A) 特開 平5−189336(JP,A) 特開 昭59−60686(JP,A)

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】文書イメージ入力と文書イメージ・バッフ
    ァと文字認識処理手段とを含むデータ処理システムにお
    いて、複数の文書イメージにおけるテキスト文字の認識
    を管理するための方法であって、 ある文書タイプ中の第1のフィールドに関する第1の位
    置および第1の優先順位の値を前記システム内で指定す
    る第1のフィールド定義と、前記文書タイプ中の第2の
    フィールドに関する第2の位置および前記第1の優先順
    位の値よりも小さい第2の優先順位の値を前記システム
    内で指定する第2のフィールド定義とを記憶する段階
    と、 前記第1と第2のフィールドにテキスト文字を含む、前
    記文書タイプの複数の文書イメージを前記文書イメージ
    ・バッファに入れる段階と、 前記文書イメージ・バッファに入れられた前記文書イメ
    ージの数を前記システムにおいてカウントし、バッファ
    に入れられた前記文書イメージの数が所定値よりも多い
    場合は、前記文字認識処理手段にしきい値信号を送る段
    階と、 前記文書イメージの数が前記所定値よりも少ないとき
    は、前記文字認識処理手段によって前記第1および第2
    のフィールドの文字認識を実行し、前記文書イメージの
    数が前記所定値よりも多いときは、前記しきい値信号に
    応じて前記第2のフィールド定義に従って前記文字認識
    処理手段による前記第2のフィールドの文字認識の実行
    を省略する段階とを含む方法。
  2. 【請求項2】文書イメージ入力と文書イメージ・バッフ
    ァと高品質認識モードおよび低品質認識モードを有する
    文字認識処理手段とを含むデータ処理システムにおい
    て、複数の文書イメージにおけるテキスト文字の認識を
    管理するための方法であって、ある文書タイプ中の第1
    のフィールドに関する第1の位置および第1の優先順位
    の値を前記システム内で指定する第1のフィールド定義
    と、前記文書タイプ中の第2のフィールドに関する第2
    の位置および前記第1の優先順位の値よりも小さい第2
    の優先順位の値を前記システム内で指定する第2のフィ
    ールド定義とを記憶する段階と、 前記第1と第2のフィールドにテキスト文字を含む、前
    記文書タイプの複数の文書イメージを前記文書イメージ
    ・バッファに入れる段階と、 前記文書イメージ・バッファ内の前記バッファに入れら
    れた文書イメージの数を前記システムにおいてカウント
    し、前記バッファに入れられた文書イメージの数が所定
    値よりも多い場合は、前記文字認識処理手段にしきい値
    信号を送る段階と、 前記バッファに入れられた文書イメージの数が前記所定
    値よりも少ないときは、前記高認識モードを使用する前
    記文字認識処理手段によって前記第1のフィールドおよ
    び第2のフィールドの文字認識を実施し、前記バッファ
    に入れられた文書イメージの数が前記所定値よりも多い
    ときは、前記しきい値信号に応じて前記第2のフィール
    ド定義に従って、前記低認識モードを使用する前記文字
    認識処理手段によって前記第2のフィールドの文字認識
    を実施する段階とを含む方法。
  3. 【請求項3】文書イメージ入力と文書イメージ・バッフ
    ァと第1の文字認識処理手段および第2の文字認識処理
    手段とを含むデータ処理システムにおいて、複数の文書
    イメージにおけるテキスト文字の認識を管理するための
    方法であって、 ある文書タイプ中の第1のフィールドに関する第1の位
    置および第1の優先順位の値を前記システム内で指定す
    る第1のフィールド定義と、前記文書タイプ中の第2の
    フィールドに関する第2の位置および前記第1の優先順
    位の値よりも小さい第2の優先順位の値を前記システム
    内で指定する第2のフィールド定義とを記憶する段階
    と、 前記第1と第2のフィールドにテキスト文字を含む、前
    記文書タイプの複数の文書イメージを前記文書イメージ
    ・バッファに入れる段階と、 前記文書イメージ・バッファに入れられた前記文書イメ
    ージの数を前記システムにおいてカウントし、バッファ
    に入れられた前記文書イメージの数が所定値よりも多い
    場合は、前記文字認識処理手段にしきい値信号を送る段
    階と、 前記文書イメージの数が前記所定値よりも少ないとき
    は、前記第1の文字認識処理手段と前記第2の文字認識
    処理手段の両方によって前記第1および第2のフィール
    ドの文字認識を実行し、前記文書イメージの数が前記所
    定値よりも多いときは、前記しきい値信号に応じて前記
    第2のフィールド定義に従って前記第1の文字認識処理
    手段と前記第2の文字認識処理手段による前記第2のフ
    ィールドの文字認識の実行を省略する段階とを含む方
    法。
  4. 【請求項4】複数の文書イメージにおけるテキスト文字
    の認識を管理するためのデータ処理システムであって、 ある文書タイプにおける第1のフィールドに関する第1
    の位置および第1の優先順位の値を指定する第1のフィ
    ールド定義と、前記文書タイプにおける第2のフィール
    ドに関する第2の位置と前記第1の優先順位の値よりも
    小さい第2の優先順位の値を指定する第2のフィールド
    定義とを記憶するための記憶手段と、 前記第1と第2のフィールドにテキスト文字を含む、前
    記文書タイプの複数の文書イメージをバッファに入れる
    ための文書イメージ・バッファと、 前記文書イメージ・バッファに結合されており、前記バ
    ッファに入れられた前記文書イメージの数をカウント
    し、バッファに入れられた前記文書イメージの数が所定
    値よりも多い場合にしきい値信号を提供するカウント手
    段と、 前記記憶手段と前記文書イメージ・バッファと前記カウ
    ント手段とに結合されており、前記文書イメージの数が
    前記所定値よりも少ないときは前記第1および第2のフ
    ィールドの文字認識を実行し、前記文書イメージの数が
    前記所定値よりも多いときは、前記しきい値信号に応じ
    て、前記第2のフィールド定義に従って前記第2のフィ
    ールドの文字認識の実行を省略する文字認識処理手段と
    を有するデータ処理システム。
  5. 【請求項5】文書イメージ入力と文書イメージ・バッフ
    ァと文字認識処理手段と手動文字修復プロセッサとを含
    むデータ処理システムにおいて、前記認識処理手段から
    出力されたテキスト文字の修正を管理する方法であっ
    て、 ある文書タイプ中の第1のフィールドに関する第1の位
    置および第1の優先順位の値を前記システム内で指定す
    る第1のフィールド定義と、前記文書タイプ中の第2の
    フィールドに関する第2の位置と前記第1の優先順位の
    値よりも小さい第2の優先順位の値を前記システム内で
    指定する第2のフィールド定義とを記憶する段階と、 前記第1と第2のフィールドにテキスト文字を含む、前
    記文書タイプの複数の文書イメージを前記文書イメージ
    ・バッファに入れる段階と、 前記文書イメージ・バッファに入れられた前記文書イメ
    ージの数を前記システムにおいてカウントし、バッファ
    に入れられた前記文書イメージの数が所定値よりも多い
    場合にしきい値信号を発生する段階と、 前記修復プロセッサにおいて前記しきい値を受け取る段
    階と、 前記修復プロセッサにおいて、特定の文書に関するフィ
    ールド優先順位、文書書式イメージ、および文字認識結
    果を受け取る段階と、 前記修復プロセッサにおいて、表示装置に前記特定文書
    イメージを表示する段階と、 前記第1のフィールドの第1の優先順位の値が前記しき
    い値よりも大きい場合は、前記修復プロセッサにおい
    て、前記特定文書イメージ内の第1のフィールドに関す
    る第1の文字認識文字列を選択的に表示する段階と、 前記第2のフィールドの第2の優先順位の値が前記しき
    い値よりも小さい場合は、前記修復プロセッサにおい
    て、前記特定文書イメージ内の第2のフィールドに関す
    る第2の文字認識文字列の表示を選択的に省略する段階
    とを含む方法。
  6. 【請求項6】前記修復プロセッサに結合された他の複数
    の修復プロセッサを調べて、ログ・オンされた前記他の
    修復プロセッサの数を判定する段階と、 ログ・オンされた前記他の修復プロセッサが所定数より
    も少ない場合に、前記しきい値を高くする段階とを含む
    ことを特徴とする、請求項5に記載の方法。
  7. 【請求項7】前記他の修復プロセッサにしきい値メッセ
    ージを送って、前記しきい値を高くする段階を含むこと
    を特徴とする、請求項6に記載の方法。
  8. 【請求項8】前記修復プロセッサに結合された他の複数
    の修復プロセッサを調べて、ログ・オンされた前記他の
    修復プロセッサの数を判定する段階と、 ログ・オンされた前記他の修復プロセッサが所定数より
    も多い場合に、前記しきい値を低くする段階とを含むこ
    とを特徴とする、請求項5に記載の方法。
  9. 【請求項9】前記他の修復プロセッサにしきい値メッセ
    ージを送って、前記しきい値を低くする段階を含むこと
    を特徴とする、請求項8に記載の方法。
JP6229127A 1993-10-22 1994-09-26 変動する処理能力を管理するためのデータ獲得可変優先順位方法およびシステム Expired - Lifetime JP2699998B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/142,256 US5555325A (en) 1993-10-22 1993-10-22 Data capture variable priority method and system for managing varying processing capacities
US142256 1993-10-22

Publications (2)

Publication Number Publication Date
JPH07160823A JPH07160823A (ja) 1995-06-23
JP2699998B2 true JP2699998B2 (ja) 1998-01-19

Family

ID=22499194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6229127A Expired - Lifetime JP2699998B2 (ja) 1993-10-22 1994-09-26 変動する処理能力を管理するためのデータ獲得可変優先順位方法およびシステム

Country Status (4)

Country Link
US (1) US5555325A (ja)
EP (1) EP0650135B1 (ja)
JP (1) JP2699998B2 (ja)
DE (1) DE69421669T2 (ja)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5258855A (en) * 1991-03-20 1993-11-02 System X, L. P. Information processing methodology
US6683697B1 (en) * 1991-03-20 2004-01-27 Millenium L.P. Information processing methodology
JP3221947B2 (ja) * 1992-12-03 2001-10-22 株式会社東芝 業務指示処理装置
US5815595A (en) * 1995-12-29 1998-09-29 Seiko Epson Corporation Method and apparatus for identifying text fields and checkboxes in digitized images
US5794259A (en) * 1996-07-25 1998-08-11 Lextron Systems, Inc Apparatus and methods to enhance web browsing on the internet
JPH10240658A (ja) * 1996-12-26 1998-09-11 Canon Inc 情報処理装置及びその方法
US6608944B1 (en) * 1997-07-28 2003-08-19 Lucent Technologies Inc. Value based scoring for optical character recognition
JPH11328304A (ja) * 1998-05-13 1999-11-30 Oki Electric Ind Co Ltd 文字読取システム
US6167411A (en) * 1998-06-22 2000-12-26 Lucent Technologies Inc. User interface for entering and editing data in data entry fields
EP2458511A3 (en) 2000-06-21 2014-08-13 Microsoft Corporation System and method for integrating spreadsheets and word processing tables
US6883168B1 (en) 2000-06-21 2005-04-19 Microsoft Corporation Methods, systems, architectures and data structures for delivering software via a network
US7155667B1 (en) 2000-06-21 2006-12-26 Microsoft Corporation User interface for integrated spreadsheets and word processing tables
US7624356B1 (en) 2000-06-21 2009-11-24 Microsoft Corporation Task-sensitive methods and systems for displaying command sets
US6948135B1 (en) 2000-06-21 2005-09-20 Microsoft Corporation Method and systems of providing information to computer users
US7000230B1 (en) 2000-06-21 2006-02-14 Microsoft Corporation Network-based software extensions
US6874143B1 (en) 2000-06-21 2005-03-29 Microsoft Corporation Architectures for and methods of providing network-based software extensions
US7346848B1 (en) 2000-06-21 2008-03-18 Microsoft Corporation Single window navigation methods and systems
US7191394B1 (en) 2000-06-21 2007-03-13 Microsoft Corporation Authoring arbitrary XML documents using DHTML and XSLT
US7120302B1 (en) 2000-07-31 2006-10-10 Raf Technology, Inc. Method for improving the accuracy of character recognition processes
US6621566B1 (en) * 2000-10-02 2003-09-16 Teradyne, Inc. Optical inspection system having integrated component learning
US6741256B2 (en) * 2001-08-27 2004-05-25 Sun Microsystems, Inc. Predictive optimizer for DRAM memory
US7212301B2 (en) * 2001-10-31 2007-05-01 Call-Tell Llc System and method for centralized, automatic extraction of data from remotely transmitted forms
US7426486B2 (en) * 2001-10-31 2008-09-16 Call-Tell Llc Multi-party reporting system and method
US7610556B2 (en) * 2001-12-28 2009-10-27 Microsoft Corporation Dialog manager for interactive dialog with computer user
US7275216B2 (en) 2003-03-24 2007-09-25 Microsoft Corporation System and method for designing electronic forms and hierarchical schemas
US7370066B1 (en) 2003-03-24 2008-05-06 Microsoft Corporation System and method for offline editing of data files
US7415672B1 (en) 2003-03-24 2008-08-19 Microsoft Corporation System and method for designing electronic forms
US7296017B2 (en) 2003-03-28 2007-11-13 Microsoft Corporation Validation of XML data files
US7913159B2 (en) 2003-03-28 2011-03-22 Microsoft Corporation System and method for real-time validation of structured data files
US7516145B2 (en) 2003-03-31 2009-04-07 Microsoft Corporation System and method for incrementally transforming and rendering hierarchical data files
US7451392B1 (en) 2003-06-30 2008-11-11 Microsoft Corporation Rendering an HTML electronic form by applying XSLT to XML using a solution
US7406660B1 (en) 2003-08-01 2008-07-29 Microsoft Corporation Mapping between structured data and a visual surface
US7581177B1 (en) 2003-08-01 2009-08-25 Microsoft Corporation Conversion of structured documents
US7334187B1 (en) 2003-08-06 2008-02-19 Microsoft Corporation Electronic form aggregation
US8819072B1 (en) 2004-02-02 2014-08-26 Microsoft Corporation Promoting data from structured data files
US7430711B2 (en) 2004-02-17 2008-09-30 Microsoft Corporation Systems and methods for editing XML documents
US7496837B1 (en) 2004-04-29 2009-02-24 Microsoft Corporation Structural editing with schema awareness
US7568101B1 (en) 2004-05-13 2009-07-28 Microsoft Corporation Digital signatures with an embedded view
US7774620B1 (en) 2004-05-27 2010-08-10 Microsoft Corporation Executing applications at appropriate trust levels
US7516399B2 (en) 2004-09-30 2009-04-07 Microsoft Corporation Structured-document path-language expression methods and systems
US7712022B2 (en) 2004-11-15 2010-05-04 Microsoft Corporation Mutually exclusive options in electronic forms
US7584417B2 (en) 2004-11-15 2009-09-01 Microsoft Corporation Role-dependent action for an electronic form
US7509353B2 (en) * 2004-11-16 2009-03-24 Microsoft Corporation Methods and systems for exchanging and rendering forms
US7721190B2 (en) 2004-11-16 2010-05-18 Microsoft Corporation Methods and systems for server side form processing
US7904801B2 (en) 2004-12-15 2011-03-08 Microsoft Corporation Recursive sections in electronic forms
US7437376B2 (en) 2004-12-20 2008-10-14 Microsoft Corporation Scalable object model
US7937651B2 (en) 2005-01-14 2011-05-03 Microsoft Corporation Structural editing operations for network forms
US7725834B2 (en) 2005-03-04 2010-05-25 Microsoft Corporation Designer-created aspect for an electronic form template
US7543228B2 (en) 2005-06-27 2009-06-02 Microsoft Corporation Template for rendering an electronic form
US8200975B2 (en) 2005-06-29 2012-06-12 Microsoft Corporation Digital signatures for network forms
US7613996B2 (en) 2005-08-15 2009-11-03 Microsoft Corporation Enabling selection of an inferred schema part
US8001459B2 (en) 2005-12-05 2011-08-16 Microsoft Corporation Enabling electronic documents for limited-capability computing devices
US8667382B2 (en) * 2006-06-28 2014-03-04 International Business Machines Corporation Configurable field definition document
JP4539613B2 (ja) * 2006-06-28 2010-09-08 富士ゼロックス株式会社 画像形成装置、画像生成方法およびプログラム
US8190561B1 (en) * 2006-12-06 2012-05-29 At&T Mobility Ii Llc LDAP replication priority queuing mechanism
US20080212901A1 (en) * 2007-03-01 2008-09-04 H.B.P. Of San Diego, Inc. System and Method for Correcting Low Confidence Characters From an OCR Engine With an HTML Web Form
CN103488982A (zh) * 2012-06-11 2014-01-01 富泰华工业(深圳)有限公司 文字识别系统及方法
US9710806B2 (en) 2013-02-27 2017-07-18 Fiserv, Inc. Systems and methods for electronic payment instrument repository
US20140279303A1 (en) * 2013-03-15 2014-09-18 Fiserv, Inc. Image capture and processing for financial transactions
JP6303531B2 (ja) * 2014-01-22 2018-04-04 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2016071892A (ja) * 2014-09-30 2016-05-09 キヤノンマーケティングジャパン株式会社 帳票システムと、その処理方法及びプログラム
JP2022116983A (ja) 2021-01-29 2022-08-10 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3113555A1 (de) * 1981-04-03 1982-10-21 Siemens AG, 1000 Berlin und 8000 München Verfahren zum automatischen erkennen von weissbloecken sowie text-, graphik- und/oder graubildbereichen auf druckvorlagen
JPS5887652A (ja) * 1981-11-19 1983-05-25 Ricoh Co Ltd 画像処理装置
US4741045A (en) * 1983-09-23 1988-04-26 Dest Corporation Optical character isolation system, apparatus and method
JPH07107694B2 (ja) * 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
JPH0750483B2 (ja) * 1985-05-22 1995-05-31 株式会社日立製作所 文書画像追加情報の蓄積方法
JPS63155386A (ja) * 1986-12-19 1988-06-28 Ricoh Co Ltd 帳票デ−タ読取装置
US4914571A (en) * 1987-06-15 1990-04-03 International Business Machines Corporation Locating resources in computer networks
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
EP0428713A1 (en) * 1989-06-02 1991-05-29 Eastman Kodak Company Method and apparatus for identifying unrecognizable characters in optical character recognition machines
DE69033312D1 (de) * 1989-07-10 1999-11-11 Hitachi Ltd Dokumentdatenverarbeitungsgerät unter Anwendung von Bilddaten
US5257323A (en) * 1991-05-29 1993-10-26 Canon Kabushiki Kaisha Selection agent for a symbol determination system with multiple character recognition processors
US5251273A (en) * 1992-04-15 1993-10-05 International Business Machines Corporation Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms
US5305396A (en) * 1992-04-17 1994-04-19 International Business Machines Corporation Data processing system and method for selecting customized character recognition processes and coded data repair processes for scanned images of document forms
US5235654A (en) * 1992-04-30 1993-08-10 International Business Machines Corporation Advanced data capture architecture data processing system and method for scanned images of document forms

Also Published As

Publication number Publication date
US5555325A (en) 1996-09-10
JPH07160823A (ja) 1995-06-23
EP0650135A2 (en) 1995-04-26
DE69421669T2 (de) 2000-03-09
EP0650135B1 (en) 1999-11-17
DE69421669D1 (de) 1999-12-23
EP0650135A3 (en) 1995-07-26

Similar Documents

Publication Publication Date Title
JP2699998B2 (ja) 変動する処理能力を管理するためのデータ獲得可変優先順位方法およびシステム
JP2882569B2 (ja) 文書書式認識実行方法および装置
US6957235B2 (en) Automatic document archiving for a computer system
US5455872A (en) System and method for enhanced character recogngition accuracy by adaptive probability weighting
JPH06325084A (ja) 文書処理装置及びその方法と文書表示装置及びその方法
JP2000339349A (ja) 電子文書管理方法及び装置並びに記憶媒体
US6718075B1 (en) Image search method and apparatus
JPH10504157A (ja) イメージを処理するためのシステム及び方法
EP0295311A1 (en) TEXT PROCESSING SYSTEM HAVING SEARCH AND REPLACEMENT FUNCTION.
US5535313A (en) Automated quality control in a document conversion system
JP3319203B2 (ja) 文書ファイリング方法及び装置
US5949554A (en) Hierarchical system for processing and dispatching task orders into a user network and method
WO2023026367A1 (ja) 学習データ選別装置、学習データ選別方法、及びプログラム
JP2001297080A (ja) 読取支援装置
JP2002279343A (ja) 認識結果修正装置、認識結果修正方法および記録媒体
JP2004152115A (ja) 入力修正方法および入力修正支援システム
JPH0363895A (ja) 文字認識方式
JP2001075695A (ja) データ処理システム
JP3305782B2 (ja) ソフトウェア標準化方法およびソフトウェア生産物の解析方法
JPH07296100A (ja) イメージデータ認識装置
JPH07334611A (ja) 非認識文字の表示方法
JPH06251185A (ja) Ocrデータエントリシステムにおける出力ファイル生成方式
JP2023170130A (ja) 情報処理装置、情報処理方法及びプログラム
JPH05108879A (ja) 画像処理方法及び装置
JPH0492973A (ja) イメージ情報登録検索装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080926

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090926

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100926

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120926

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130926

Year of fee payment: 16

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term