JP2643092B2 - 文書書式上の事前定義されたフィールドの外側に位置する標準外データを処理する方法およびシステム - Google Patents

文書書式上の事前定義されたフィールドの外側に位置する標準外データを処理する方法およびシステム

Info

Publication number
JP2643092B2
JP2643092B2 JP6204749A JP20474994A JP2643092B2 JP 2643092 B2 JP2643092 B2 JP 2643092B2 JP 6204749 A JP6204749 A JP 6204749A JP 20474994 A JP20474994 A JP 20474994A JP 2643092 B2 JP2643092 B2 JP 2643092B2
Authority
JP
Japan
Prior art keywords
data
image
processing system
extracted
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP6204749A
Other languages
English (en)
Other versions
JPH07182444A (ja
Inventor
マーク・イー・バーガー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH07182444A publication Critical patent/JPH07182444A/ja
Application granted granted Critical
Publication of JP2643092B2 publication Critical patent/JP2643092B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Facsimile Image Signal Circuits (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】ここに開示する本発明は、広くは
データ処理に関し、より詳細には文書書式のデジタル化
イメージの処理に関する。
【0002】
【従来の技術】本特許出願は、IBMコーポレーション
に譲渡され、参照により本明細書に合体された、199
2年4月15日出願の、"Data Processing System and
Methodfor Sequentially Repairing Character Recogni
tion Errors for Scanned Images of Document Forms"
と題する、T.S.ベッツ(Betts)他の同時係属の米
国特許出願第07/870129号に関連する。
【0003】また本特許出願は、IBMコーポレーショ
ンに譲渡され、参照により本明細書に合体された、19
92年4月17日出願の、"Data Processing System an
d Method for Selecting Customized Character Recogn
ition Processes and CodedData Repair Processes for
Scanned Images of Document Forms"と題する、ベッツ
他の同時係属の米国特許出願第07/870507号に
関連する。
【0004】さらに本特許許出願は、IBMコーポレー
ションに譲渡され、参照により本明細書に合体され
た、"A Computer Implemented Method for Automatic E
xtraction of Data From Printed Forms"と題する、
R.G.キャセイ(Casey)他の米国特許第51406
50号、出願番号07/305828号に関連する。
【0005】さらに本特許出願は、IBMコーポレーシ
ョンに譲渡され、参照により本明細書に合体された、1
993年4月26日出願の、"System and Method for E
nhanced Character Recognition Accuracy by Adaptive
Probability Weighting" と題する、M.P.T.ブラ
ッドレイ(Bradley)他の同時係属の米国特許出願第0
8/051972号に関連する。
【0006】さらに本特許出願は、IBMコーポレーシ
ョンに譲渡され、参照により本明細書に合体された、"M
ethod and System for Fast Forms Recognition of Doc
ument Form Images"と題する、D.W.ビリングズ(Bi
llings)他の同時係属の米国特許出願に関連する。
【0007】さらに本特許出願は、IBMコーポレーシ
ョンに譲渡され、参照により本明細書に合体された、"D
ata Processing and Method for Forms Definition,Rec
ognition and Verification of Scanned Images of Doc
ument Forms"と題する、ベッツ他の米国特許出願に関連
する。
【0008】さらに本特許出願は、IBMコーポレーシ
ョンに譲渡され、参照により本明細書に合体された、"D
ata Capture Variable Priority Method and System fo
r Managing Varying Processing Capacities"と題す
る、M.E.バーガー(Burger)の米国特許出願に関連
する。
【0009】デジタル・イメージに含まれるデータは、
様々な目的のため、様々な多くの方法で抽出される。書
式から情報を抽出するために必要なものは、データのタ
イプと記憶位置の知識(書式の「フィールド」に関する
情報)である。近年、ほとんどの書式処理アプリケーシ
ョンは、書式を「定義」するための独自の方式を有し、
各方式は他の方式と互換性がない。異なるいくつかの書
式処理アプリケーションを使用する大きなイメージ・シ
ステムでは、各書式を各アプリケーションごとに別々に
定義する必要があり、そのため時間を要し書式定義に矛
盾が含まれるようになる。同時係属のビリングズ他の上
記米国特許出願に開示された方法は、ほとんどすべての
書式処理アプリケーションに使用できる書式定義データ
・セットを生成する。
【0010】
【発明が解決しようとする課題】従来技術においては、
書式認識が完了した後に問題が生じる。書式内の文書イ
メージの処理の目的は、書式上に事前印刷された背景を
取り去り、提出者によって入力されたデータのイメージ
を文字認識プロセッサに送ることである。提出者が書式
上で事前定義されたフィールドの外の標準外領域にデー
タを入力するときに問題が起こる。例えば、納税者によ
る所得申告書の提出の際に、納税者はしばしば、事前印
刷書式上に傍注として、例えば「添付書類参照」という
ような追加情報を提出する。このデータは業務アプリケ
ーションにおいて識別し認識する必要があるが、文書イ
メージの事前定義されたフィールド内の領域だけに集中
する文字認識プロセスでは通常見落とされる。
【0011】したがって、本発明の目的は、改善された
方法で、文書書式上の事前定義されたフィールドの外側
にある標準外データの存在を検出することである。
【0012】本発明の他の目的は、改善された方法で、
文書書式の所定のフィールドの外側にある標準外データ
の文字認識を行うことである。
【0013】本発明の他の目的は、標準外データの文字
認識が失敗した場合または不可能な場合に、文書書式の
所定フィールドの外側にある標準外データを手動認識ス
テーションに送ることである。
【0014】
【課題を解決するための手段】上記その他の目的、特徴
および利点は、文書書式上の所定フィールドの外側にあ
る標準外データを処理するためのここに開示する方法お
よびシステムによって実現される。本発明は、データ処
理システムにおいて実施される。本発明は、所定のデー
タ・フィールドを有する完全な文書書式イメージにおい
て、標準外データを判別するための方法を含む。本発明
の方法は、完全イメージからデータ・イメージを分離す
る段階を含む。データ・イメージには、事前定義された
フィールド内のフィールド・データと、事前定義された
フィールド内にない標準外データとが含まれる。この方
法はさらに、データ・イメージからフィールド・データ
を除去して第1の抽出データ・イメージを形成する段階
を含む。次に、第1の抽出データ・イメージから斑点イ
メージを除去し、第2の抽出データ・イメージを形成す
る。次に、第2の抽出データ・イメージから人工物(ar
tifact)イメージを除去し、第3の抽出データ・イメー
ジを形成する。
【0015】この方法では、続いて第3の抽出データ・
イメージを圧縮して、あるファイル・サイズを有する圧
縮イメージ・ファイルを形成する。次に、そのファイル
・サイズを所定値と比較する。次に、比較段階でファイ
ル・サイズが所定値よりも大きいと判定された場合は、
比較段階に応じて標準外データ信号を発生する。
【0016】この方法では、続いて発生段階において標
準外データの存在を示す標準外データ・フラグを出力す
る。またこの方法では、標準外データを手動処理ステー
ションに出力することもできる。また標準外データを文
字認識プロセスに出力することもできる。またさらに、
標準外データの位置座標と標準外データのイメージをデ
ィスプレイ・ステーションに出力することもできる。次
いで、ディスプレイ・ステーションは、その位置座標を
使用して標準外データのイメージを選択的に表示するこ
とができる。
【0017】さらにこの方法では、第2の所定値よりも
短い黒画素の連続を識別し、それを斑点イメージとみな
すことにより、斑点を識別して除去することができる。
次に、第1の抽出データ・イメージから斑点イメージを
除去する。次にこの方法ではさらに、第3の所定値より
も長い黒画素の連続を識別し、人工物イメージとみなす
ことにより、人工物を除去する段階を含む。次いで、第
2の抽出データ・イメージから人工物イメージを除去す
る。
【0018】さらにこの方法は、第3の抽出イメージ内
の黒画素のラン・レングス値を計算する圧縮段階を含
む。次にラン・レングスの値を、複数のデジタル・ワー
ドで表す。次にこの方法では、この複数のデジタル・ワ
ードの数を所定値と比較して、データ・イメージ内に標
準外データ・イメージがあるかどうかを判定する。この
方法ではさらに、データ・イメージから標準外データを
除去して、削除データ・イメージを形成することもでき
る。次いで、フィールド・データを認識するために、削
除データ・イメージを文字認識プロセスに出力する。
【0019】このように、本発明は、改善された方法
で、文書書式の事前定義されたフィールドの外にある標
準外データの存在を検出することができる。本発明によ
り、標準外データのまたフィールド・データの文字認識
が可能になる。本発明はまた、文字認識が失敗した場合
に標準外データを手動修復ステーションに送る手段を提
供する。
【0020】
【実施例】書式認識が実施されて提出された書式の識別
が書式IDで確立された後に、ここに開示する本発明で
は、提出された書式上の所定データ・フィールドの外側
にある領域に標準外データが含まれているかどうかを判
定する。図1は、事前印刷背景情報102を含むマスタ
書式イメージ100を示す。マスタ書式イメージ100
は、例えば1993年用の米国連邦所得申告書書式10
40号である。マスタ書式イメージ100において、事
前印刷情報102は、"1040"および"1993"とい
う書式の標題、ならびにいくつかのフィールドを含む。
書式はまた、いくつかの事前定義データ・フィールドを
含む。フィールド104は、「名前」に対応し、フィー
ルド105は「給料」に対応し、フィールド106は
「修正総所得」に対応し、フィールド107は「税金」
に対応し、フィールド108は「署名」に対応する。ま
た、図1のマスタ書式イメージ100上には、フィール
ド107を限定する水平線101、フィールド108を
限定する水平線109、および事前印刷登録ブロックを
含むいくつかの他の事前印刷されたオブジェクトが示さ
れている。
【0021】図2は、マスタ書式イメージ100の完全
イメージ120を示す。完全イメージ120は、納税者
によって入力されたデータを含むフィールドを有する納
税者が提出する書式の外観に対応する。図2に、フィー
ルド・データ110を含む書式120をまとめて示す。
フィールド104は、フィールド・データ124"JO
HN DOE"を含む。フィールド105は、"$1,2
34.56"のフィールド・データ125を含む。フィ
ールド106は、"$789.12"のフィールド・デー
タ126を含む。フィールド107は、データ127で
あるフィールド・データ"$34.56"を含む。フィー
ルド108は、"John Doe"の手書き署名データ
128を含む。書式処理の全体的な目的は、マスタ書式
イメージ100内の事前印刷情報102を取り去って、
フィールド120に示したフィールド・データ110だ
けを残すことである。ここで生じる問題は、納税者の所
得申告書の例では、時々書式上の事前定義フィールドの
外側の領域に標準外データ122を含むことである。こ
の例は、「添付書類参照」という標準外データ122で
ある。この標準外データは、書式の事前定義フィールド
内のデータを認識するために設計されており、書式の事
前定義フィールドの外側のデータを認識するためには設
計されていない、通常の文字認識操作では無視される。
【0022】図3は、この図では参照番号110のフィ
ールド・データと標準外データの両方を含むデータ・イ
メージ130を示す。図4は、フィールド・データ12
4、125、126、127、128を有するが、標準
外データ122がそれから分離された、フィールド・デ
ータ・イメージを示す。事前印刷書式を処理するひとつ
の目的は、図4に示したフィールド・データ・イメージ
140を分離し、それを文字認識プロセッサに送り、事
前定義フィールドに含まれる情報を認識することであ
る。
【0023】図5は、標準外データ122によって表さ
れる標準外データ・イメージ150、すなわち語句「添
付書類参照」を示す。ここに開示する本発明の目的は、
書式150上の標準外データ122の存在を判定するこ
とである。本発明の他の目的は、標準外データ122の
文字認識を行うことである。さらに本発明の他の目的
は、標準外データ122に対して行われる文字認識操作
が失敗した場合または不可能な場合は、標準外データ1
22を手動認識プロセッサに選択的に表示することであ
る。
【0024】図6は、人工物を含むデータ・イメージ1
60を示す。人工物を含むデータ・イメージ160は、
事前印刷書式からデータ分離を行う際に発生する問題を
例示している。スキャナで事前印刷書式が誤登録された
場合、実際にデータ・イメージからある背景事前印刷情
報が消失したり除去されたりしないことがある。これ
は、フィールド・ボックスの残余部分または他の事前印
刷された記号や文字などの人工物を文字認識プロセスで
間違って検査し、そのような人工物の文字認識の実行を
試みるので、文字認識プロセスに混乱を生じる。これ
は、特定の提出書式について、間違いの文字認識出力や
文字認識結果の拒否を招くことになる。図6の人工物を
含むデータ・イメージ160は、書式イメージ上に残っ
ているフィールド・データ104、105、106、1
07、108を示している。また、標準外データ122
も含まれている。イメージ160に関する問題点は、1
01'で示したフィールド・ボックス107の一部分、
および109'で示したフィールド・ボックス108の
一部分が間違って含まれることである。また、図6のイ
メージ160には、事前認識記号103'といくつかの
斑点マーク162も誤って含まれている。
【0025】斑点マークは、書式イメージにおいて、文
字の特徴的な幅と高さまたは文字の縦棒および横棒部分
よりも小さなマークである。例えば、一般に文字が最低
2画素の幅と2画素の高さであり、その通常のデータ・
イメージが少なくとも2画素の幅と2画素の高さで示さ
れる場合は、2画素の高さと2画素の幅よりも小さいデ
ータ・イメージ160の残余マークは、斑点イメージと
みなされる。
【0026】人工物は、イメージに現れることが予想さ
れる最も大きな文字よりも大きい、図6のデータ・イメ
ージ160上に残ったオブジェクトであると見なされ
る。文字が通常8画素よりも幅広くなくまた8画素より
も高くない場合は、例えば8画素よりも幅広いかまたは
8画素よりも高いオブジェクトが人工物である。これら
は、標準的な文字部分よりも小さいまたは文字全体より
も大きい残余イメージが、それぞれ斑点または人工物と
みなされるという原理を例示する、斑点と人工物に関す
る定義の任意の例である。
【0027】図7は、標準外データと人工物のイメージ
170を示す。図7では、図2のデータ・イメージ・フ
ィールド・データ124、125、126、127、1
28が、図6の人工物を含むデータ・イメージ160か
ら削除または除去されていることがわかる。残っている
のは、標準外データ122の「添付書類参照」の他に、
人工物101'、109'および斑点162と人工物10
3'である。本発明の目的のひとつは、標準外データ1
22の存在を識別し標準外データ122の文字認識を実
現するために、イメージ170中の斑点と人工物を有効
に除去し、図5に示すように、標準外データ122をイ
メージ170上に残すことである。
【0028】図8は、本発明による標準外データ判別プ
ロセッサ200を示す。プロセッサ200は、バス20
4によってCPU206とキーボードおよびディスプレ
イ214とマウス指示装置216とに接続されたメモリ
202を含む。またバス204は、スキャナ208と、
ディスク・ドライブ210と、ローカル・エリア・ネッ
トワーク240に接続されたローカル・エリア・ネット
ワーク・アダプタ212とにも接続されている。
【0029】プロセッサ200のメモリ202には、図
10および図11により詳細に示した標準外データ30
0を判別するためのプログラムが含まれる。メモリ20
2にはまた、イメージ分離プログラム250、書式定義
データ・セット区画252、フィールド定義区画25
4、全文書イメージ区画256、抽出イメージ区画25
8、イメージ圧縮プログラム262、削除イメージ区画
260、事前定義値レジスタ264、フラグ・レジスタ
266、座標レジスタ268、文字認識プログラム27
0、文字列レジスタ272も含まれる。また、オペレー
ティング・システム230も含まれる。メモリ202に
含まれるプログラムは一連の実行可能な命令であり、C
PU206によって実行されると、所期の動作を実行す
る。
【0030】図9は、手動修復ステーション203の機
能ブロック図である。これは、ローカル・エリア・ネッ
トワーク240に接続されたローカル・エリア・ネット
ワーク・アダプタ212'にバス204'によって接続さ
れたメモリ202"を含むデータ・プロセッサである。
バス204'はまた、CPU206'と、キーボードおよ
びディスプレイ214'と、マウス指示装置216'とに
も接続されている。またバス204'は、任意のスキャ
ナ208'と、ディスク・ドライブ210'にも接続され
ている。LANアダプタ212'は、LAN294によ
って利用プロセッサに接続される。利用プロセッサは、
分離文字認識プロセッサ、データ・プロセッサ、または
文字認識プログラムおよび手動修復ステーション203
によって出力された文字列を利用する他の記憶装置を含
むことができる。
【0031】また、手動修復ステーション203のメモ
リ202"には、書式ID区画242'、座標レジスタ2
68'、書式定義データ・セット区画252'、標準外デ
ータ・プログラム300、イメージ区画290および文
字列区画292が含まれる。イメージ区画290は、例
えば図5に示したような標準外データ・イメージ150
を記憶する。文字列区画292は、書式150から文字
認識された様々なイメージに関する、プロセッサ200
で文字認識プログラム270から出力された認識文字列
を記憶する。認識プログラム270からその認識文字列
が出力された、イメージ150上の特定のイメージ12
2は、疑わしい文字または誤認識された文字を含み、イ
メージ区画290にその強調表示イメージ224を有す
る。これは、オペレータに、手動修復ステーション20
3で、文字列区画292内の対応する認識文字列27
2'を検査し、文字列区画292内に表示された誤認識
文字または疑わしい文字に代わる正しい文字をキーボー
ド214'で入力する機会を与える。
【0032】図8では、特定の提出書式に関して誤認識
された文字または疑わしい文字の修復を可能にするため
に、メッセージ245がプロセッサ200からLAN2
40を介して手動修復ステーション203に送られるこ
とがわかる。ファイル245は、書式ID242'、文
書書式イメージ120、フィールド・データ認識文字列
284'、標準外イメージ150、誤認識された文字ま
たは疑わしい文字の座標と位置268'、および文字認
識結果文字列272'を含む。
【0033】図9の手動修復ステーション203は、ラ
イン294を介して利用プロセッサにメッセージ275
を出力する。メッセージ275は、書式ID242'、
書式イメージ120、訂正済フィールド・データ文字列
284"、文字認識プログラム270または手動修復ス
テーション203から出力された、書式上のすべてのデ
ータ・フィールドに関する訂正済フィールド・データ文
字列284"を含む。メッセージ275はまた、本発明
に従って、書式上にあるものとして識別された訂正済標
準外データ文字列272"を含む。これらは、誤認識さ
れた文字を訂正するため、文字認識プログラム270ま
たは手動修復ステーション203に提示済みである。標
準外データ文字列272"は、メッセージ275に入れ
て利用プロセッサに提供される。
【0034】本発明の方法を、図10と図11の流れ図
に示す。流れ図は、本発明の原理を実施するために一連
の動作ステップを実行する実行可能命令のシーケンスで
あるプログラムを表す。図10のプログラム300は、
ステップ302で始まり、プロセッサ200に入力され
た完全イメージにイメージ分離処理を適用する。図2に
示した完全イメージ120から図3に示したデータ・イ
メージ130を分離するためのイメージ分離を実行する
のに適したイメージ分離処理の詳細に関しては、IBM
コーポレーションに譲渡され、参照により本明細書に合
体された、シェビオン(Chevion)他の米国特許第51
82656号および第5204756号を参照された
い。米国特許第5182656号および第520475
6号に開示されたような従来技術のイメージ分離方法の
ひとつの問題点は、完全イメージ120がマスタ書式イ
メージ100に対して位置がずれている場合、図6のイ
メージ160に示したように、データ・イメージ内に人
工物と斑点が残ることである。図10と図11の方法
は、この従来技術の問題を解決する。
【0035】図10の方法300はステップ304に進
み、フィールド・データ124、125、126、12
7、128と、標準外データ122と、さらに人工物1
01、103、109と斑点イメージ162とを含む可
能性のある、図1のデータ・イメージ160をバッファ
に入れる。これは、図6に対応する。
【0036】次に、ステップ306で、図1のマスタ書
式イメージ100の各フィールド104、105、10
6、107、108に関する位置およびその他の情報を
識別するフィールド定義を得る。次にステップ308
で、所定のフィールド104、105、106、10
7、108内の領域を全て白画素に変換することによっ
てフィールド領域を消す。これにより、図7の標準外デ
ータおよび人工物のイメージ170が残る。これを、第
1抽出データ・イメージと呼ぶ。この第1の抽出データ
・イメージを、次に斑点除去と人工物除去にかける。
【0037】ステップ310で、図7に示した第1抽出
イメージについて斑点除去を開始する。ステップ312
で、イメージ170上の次の水平行を開始する。ステッ
プ314で、長さ2画素よりも短い黒画素の連続がある
かどうか判定する。この黒画素の連続は、水平方向に隣
接する一連の黒画素である。ステップ316で、長さ2
画素よりも短い黒画素の連続があると判定し、それぞれ
の黒画素の連続を白画素に設定する。これにより、長さ
2画素よりも短い斑点イメージが除去される。これは単
に画素の長さの一例であり、除去のために他の長さを指
定することもできる。次にステップ318で、イメージ
170中に他にまだ行があるかどうかを判定する。他に
まだ行がある場合は、プロセスはステップ312に戻
り、他に行がない場合は、プロセスは斑点162のない
第2の抽出データ・イメージを扱うステップ320に進
む。
【0038】ステップ320で、人工物除去を開始す
る。斑点が除去された結果、第2抽出イメージが生成さ
れる。第2抽出イメージには、図7に示した人工物10
1'、103'、109'がまだ残っている。図10のス
テップ322で、次の行から開始する。ステップ324
で、8画素より長い水平方向の黒画素の連続があるかど
うかを判定する。この例では、予想される文字の最大幅
として8を選んだ。8画素よりも長い水平方向の黒画素
の連続がある場合は、人工物とみなされ除去される。人
工物を指定するために、他の長さの水平方向の画素の連
続を使用することもできる。ステップ326で、長さ8
画素よりも長い黒画素の連続がある場合は、それらの画
素を白に設定する。これにより、図7のイメージ170
から人工物101'、103'、109'が効果的に除去
される。ステップ328で、他にまだ行があるかどうか
を判定する。他にまだある場合は、プログラムはステッ
プ322に進む。他にもうない場合は、プログラムは人
工物のない第3抽出イメージを扱うステップ330に進
む。
【0039】ステップ330で、イメージ圧縮ステップ
を開始する。人工物除去ステップの出力は、第3抽出デ
ータ・イメージ150である。次に第3抽出データ・イ
メージを圧縮して、ある値のファイル・サイズの圧縮イ
メージ・ファイルを形成する。ここに記載する圧縮技法
は、CCITTグループ圧縮技法などの簡単なラン・レ
ングス符号化技法である。本発明に従って、他の無損失
圧縮技法を利用することもできる。ステップ330でイ
メージ圧縮ステップを開始するが、このイメージ圧縮ス
テップの目的は、図7のイメージ170から人工物を除
去し斑点を除去した後に、標準外データがあるかどうか
を判定することである。ステップ332で次の行から開
始する。ステップ334で、第3抽出データ・イメージ
中の水平方向の黒画素の連続の長さを計算する。第3抽
出データ・イメージは、残っている標準外データ122
だけを示す図5のイメージ150によって表される。次
に、図10のステップ336で、他にまだ行があるかど
うかを判定する。他にまだある場合は、プログラムはス
テップ332に進む。他にもうない場合は、プログラム
はステップ338に進む。
【0040】ラン・レングス圧縮の実行の結果として、
図5のイメージ150内にラン・レングス符号化された
黒画素を表す多数バイトのデータが組み立てられた。図
5のイメージ150中に黒画素がなかった場合は、すべ
て白画素のラン・レングス符号化値を表すデータのバイ
ト数は、所定の値となる。例えば、書式イメージ150
上に25ラインあり、それらの幅が水平方向に1000
画素である場合は、書式150上に25000個の白画
素がある。ラン・レングス符号化により1行の1000
個の白画素が数値1000を表す、2バイトのラン・レ
ングス値として符号化される。1行あたり2バイトかけ
る25行は50バイトである。しかしながら、図5のイ
メージ150の行のうちの1行に1個の黒画素がある場
合は、その1行に関するラン・レングス符号化で、例え
ば1バイトが250の白ラン・レングスを表し、第2バ
イトが値1の黒画素を表し、他の2バイトが749個の
白画素の白ラン・レングスを表す。すなわちその1行で
4バイトとなる。例の書式150の25行全部で52バ
イトとなる。したがって、中に1個の黒画素を有する文
書書式150の圧縮イメージと、すべて黒の書式イメー
ジとを比較すると、2バイトの差が出る。この2バイト
の差の検出が、標準外データの存在の検出に対応する。
それが標準外データであるという推測は、図10の流れ
図においてこの圧縮ステップが斑点除去ステップと人工
物除去ステップの後に行われることから出てくる。図1
0のステップ338で、この比較試験を実行する。
【0041】ステップ340で第3抽出データ・イメー
ジが空白イメージよりも大きいと判定された場合、標準
外データ・フラグがセットされる。標準外データ・フラ
グは、プロセッサ200の区画266中でセットされ
る。
【0042】次に、図10のプロセスは図11に移る。
ステップ342で別の結果を提供することができ、標準
外イメージ150がプロセッサ200の文字認識プログ
ラム270などの文字認識プロセスに出力される。図1
1のステップ344で別の結果を提供することができ、
識別された標準外データ122が位置決めされ認識され
る。例えば、「添付書類参照」という標準外データ12
2がプロセス300で識別された場合、この書式150
上の位置の座標268'が、プロセス200のプログラ
ム270などの文字認識プログラムに提供される。次に
ステップ346で、標準外データに関する出力認識文字
列272'を、メッセージ245に入れてLAN240
と線294を介して利用プロセッサに送ることができ
る。出力文字列272'内に誤認識された文字または疑
わしい文字がある場合は、ステップ348で、それが手
動検査ステーション203に出力される。ステップ35
0で、位置座標268'と文字列272'と標準外データ
・イメージ150を、手動修復ステーション203に出
力する。次に、ステップ352で、標準外データの位置
座標268'を使用して、例えば手動修復ステーション
203の区画290に標準外データ・イメージを表示
し、標準外イメージ122の選択的強調表示224を行
う。イメージ150は、ディスプレイ214上の、文字
認識プログラム270から出力されメッセージ245に
入れて手動修復ステーション203に送られた出力文字
列272'の表示の横に表示される。これにより、オペ
レータが、手動修復ステーションで、イメージ区画29
0内の標準外データを迅速に位置決定し、対応する文字
認識出力文字列と文字列区画292を検査し、次にステ
ップ354で、誤認識された文字または疑わしい文字を
訂正するためにキーボード214'から入力できるよう
になる。ステップ356で、訂正済文字列272"が、
メッセージ275に入れて出力される。
【0043】ステップ358で、プロセッサ200にお
けるフィールド・データの位置決定を開始する。ステッ
プ360で、フィールド定義254を使用してフィール
ド・データ・イメージ140を位置決定する。ステップ
362で、フィールド・データ・イメージ140を文字
認識プログラム270に出力する。ステップ364で、
フィールド・データに関する認識結果文字列284'を
LAN240と294を介して利用プロセッサに出力す
る。ステップ366で、フィールド・データ結果文字列
284'内に誤認識された文字または疑わしい文字があ
るかどうかを判定する。それらは手動修復プロセッサ2
03に出力される。
【0044】したがって本発明は、改善された方法で、
文書書式の事前定義されたフィールドの外側にある標準
外データの存在を検出する。本発明は、改善された方法
で標準外データの文字認識を実現する。また、イメージ
と認識文字列の両方の標準外データを手動修復プロセッ
サに送り、そこで標準外データ・イメージを選択的に強
調表示して、オペレータが誤認識された文字列を迅速に
訂正できるようにする。
【0045】本発明の特定の実施例を開示したが、本発
明の趣旨及び範囲から逸脱することなく、その具体的実
施例に変更を加えることができることは当業者には理解
されるであろう。
【0046】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0047】(1)データ処理システムにおいて、事前
定義されたデータ・フィールドを有する完全文書書式イ
メージ内の標準外データを判別する方法であって、前記
データ処理システムにおいて、前記完全イメージから、
前記フィールド中のフィールド・データと前記フィール
ド中にない標準外データとを含むデータ・イメージを分
離する段階と、前記データ処理システムにおいて、前記
データ・イメージから前記フィールド・データを除去し
て、第1の抽出データ・イメージを形成する段階と、前
記データ処理システムにおいて、前記第1抽出データ・
イメージから斑点イメージを除去して、第2の抽出デー
タ・イメージを形成する段階と、前記データ処理システ
ムにおいて、前記第2の抽出データ・イメージから人工
物イメージを除去して、第3の抽出データ・イメージを
形成する段階と、前記データ処理システムにおいて、前
記第3の抽出データ・イメージを圧縮して、あるファイ
ル・サイズを有する圧縮イメージ・ファイルを形成する
段階と、前記データ処理システムにおいて、前記ファイ
ル・サイズを所定値と比較する段階と、前記比較段階で
前記ファイル・サイズが前記所定値よりも大きいと判定
するのに応じて、前記データ処理システムから標準外デ
ータ信号を生成する段階とを含む方法。 (2)前記生成段階において標準外データの存在を示す
標準外データ・フラグを出力する段階をさらに含む、上
記(1)に記載の方法。 (3)前記標準外データを手動処理ステーションに出力
する段階をさらに含む、上記(1)に記載の方法。 (4)前記標準外データを文字認識プロセスに出力する
段階をさらに含む、上記(1)に記載の方法。 (5)前記標準外データの位置座標と前記標準外データ
のイメージを、前記データ処理システム用のディスプレ
イ・ステーションに出力する段階と、前記位置座標を使
用して、前記標準外データの前記イメージを選択的に表
示する段階とをさらに含む、上記(1)に記載の方法。 (6)前記斑点除去段階がさらに、第2の所定値よりも
少ない黒画素の連続を斑点イメージとして識別する段階
と、前記第1の抽出データ・イメージから前記斑点イメ
ージを除去する段階とを含むことを特徴とする、上記
(1)に記載の方法。 (7)前記人工物除去段階がさらに、第2の所定値より
も長い黒画素の連続を人工物イメージとして識別する段
階と、前記第2の抽出データ・イメージから前記人工物
イメージを除去する段階とを含むことを特徴とする、上
記(1)に記載の方法。 (8)前記圧縮段階がさらに、前記第3の抽出イメージ
内の黒画素のラン・レングス値を計算する段階と、前記
ラン・レングス値を複数のデジタル・ワードによって表
す段階と、前記複数のデジタル・ワードの数を前記所定
値と比較する段階とを含むことを特徴とする、上記
(1)に記載の方法。 (9)前記データ・イメージから前記フィールド・デー
タを除去して、フィールド・データ・イメージを形成す
る段階と、前記フィールド・データを認識するために、
前記フィールド・データ・イメージを文字認識プロセス
に出力する段階とをさらに含む、上記(1)に記載の方
法。 (10)前記標準外データを文字認識プロセスに出力す
る段階をさらに含む、上記(9)に記載の方法。 (11)事前定義されたデータ・フィールドを有する完
全文書書式イメージ内の標準外データを判別するための
データ処理システムであって、前記データ処理システム
において、前記完全イメージから、前記フィールド中の
フィールド・データと前記フィールド中にない標準外デ
ータとを含むデータ・イメージを分離する手段と、前記
データ処理システムにおいて、前記データ・イメージか
ら前記フィールド・データを除去して、第1の抽出デー
タ・イメージを形成する手段と、前記データ処理システ
ムにおいて、前記第1の抽出データ・イメージから斑点
イメージを除去して、第2の抽出データ・イメージを形
成する手段と、前記データ処理システムにおいて、前記
第2の抽出データ・イメージから人工物イメージを除去
して、第3の抽出データ・イメージを形成する手段と、
前記データ処理システムにおいて、前記第3の抽出デー
タ・イメージを圧縮して、あるファイル・サイズを有す
る圧縮イメージ・ファイルを形成する手段と、前記デー
タ処理システムにおいて、前記ファイル・サイズを所定
値と比較する手段と、前記比較段階で前記ファイル・サ
イズが前記所定値よりも大きいと判定するのに応じて、
前記データ処理システムから標準外データ信号を生成す
る手段とを含むデータ処理システム。
【図面の簡単な説明】
【図1】マスタ書式イメージを示す図である。
【図2】完全イメージを示す図である。
【図3】データ・イメージを示す図である。
【図4】フィールド・データ・イメージを示す図であ
る。
【図5】標準外データ・イメージを示す図である。
【図6】人工物を含むデータ・イメージを示す図であ
る。
【図7】標準外データと人工物イメージを示す図であ
る。
【図8】標準外データ判別プロセッサを示す図である。
【図9】手動修復ステーションを示す図である。
【図10】標準外データを判別するプログラムの一連の
動作ステップの流れ図を示す。
【図11】標準外データを判別するプログラムの一連の
動作ステップの流れ図を示す。
【符号の説明】
200 標準外データ判別プロセッサ 202 メモリ 204 バス 206 CPU 208 スキャナ 210 ディスク・ドライブ 212 LANアダプタ 214 キーボードとディスプレイ 216 マウス 226 書式認識プログラム 230 オペレーティング・システム 240 LAN 250 イメージ分離プログラム 252 書式定義データ・セット 254 フィールド定義 256 全文書イメージ区画 257 データ・イメージ区画 258 抽出データ・イメージ区画 260 削除データ・イメージ区画 262 イメージ圧縮プログラム 266 フラグ・レジスタ 268 座標レジスタ 272 認識結果文字列レジスタ 300 標準外データ判別プログラム300

Claims (11)

    (57)【特許請求の範囲】
  1. 【請求項1】データ処理システムにおいて、事前定義さ
    れたデータ・フィールドを有する完全文書書式イメージ
    内の標準外データを判別する方法であって、 前記データ処理システムにおいて、前記完全イメージか
    ら、前記フィールド中のフィールド・データと前記フィ
    ールド中にない標準外データとを含むデータ・イメージ
    を分離する段階と、 前記データ処理システムにおいて、前記データ・イメー
    ジから前記フィールド・データを除去して、第1の抽出
    データ・イメージを形成する段階と、 前記データ処理システムにおいて、前記第1抽出データ
    ・イメージから斑点イメージを除去して、第2の抽出デ
    ータ・イメージを形成する段階と、 前記データ処理システムにおいて、前記第2の抽出デー
    タ・イメージから人工物イメージを除去して、第3の抽
    出データ・イメージを形成する段階と、 前記データ処理システムにおいて、前記第3の抽出デー
    タ・イメージを圧縮して、あるファイル・サイズを有す
    る圧縮イメージ・ファイルを形成する段階と、 前記データ処理システムにおいて、前記ファイル・サイ
    ズを所定値と比較する段階と、 前記比較段階で前記ファイル・サイズが前記所定値より
    も大きいと判定するのに応じて、前記データ処理システ
    ムから標準外データ信号を生成する段階とを含む方法。
  2. 【請求項2】前記生成段階において標準外データの存在
    を示す標準外データ・フラグを出力する段階をさらに含
    む、請求項1に記載の方法。
  3. 【請求項3】前記標準外データを手動処理ステーション
    に出力する段階をさらに含む、請求項1に記載の方法。
  4. 【請求項4】前記標準外データを文字認識プロセスに出
    力する段階をさらに含む、請求項1に記載の方法。
  5. 【請求項5】前記標準外データの位置座標と前記標準外
    データのイメージを、前記データ処理システム用のディ
    スプレイ・ステーションに出力する段階と、 前記位置座標を使用して、前記標準外データの前記イメ
    ージを選択的に表示する段階とをさらに含む、請求項1
    に記載の方法。
  6. 【請求項6】前記斑点除去段階がさらに、 第2の所定値よりも少ない黒画素の連続を斑点イメージ
    として識別する段階と、 前記第1の抽出データ・イメージから前記斑点イメージ
    を除去する段階とを含むことを特徴とする、請求項1に
    記載の方法。
  7. 【請求項7】前記人工物除去段階がさらに、 第2の所定値よりも長い黒画素の連続を人工物イメージ
    として識別する段階と、 前記第2の抽出データ・イメージから前記人工物イメー
    ジを除去する段階とを含むことを特徴とする、請求項1
    に記載の方法。
  8. 【請求項8】前記圧縮段階がさらに、 前記第3の抽出イメージ内の黒画素のラン・レングス値
    を計算する段階と、 前記ラン・レングス値を複数のデジタル・ワードによっ
    て表す段階と、 前記複数のデジタル・ワードの数を前記所定値と比較す
    る段階とを含むことを特徴とする、請求項1に記載の方
    法。
  9. 【請求項9】前記データ・イメージから前記フィールド
    ・データを除去して、フィールド・データ・イメージを
    形成する段階と、 前記フィールド・データを認識するために、前記フィー
    ルド・データ・イメージを文字認識プロセスに出力する
    段階とをさらに含む、請求項1に記載の方法。
  10. 【請求項10】前記標準外データを文字認識プロセスに
    出力する段階をさらに含む、請求項9に記載の方法。
  11. 【請求項11】事前定義されたデータ・フィールドを有
    する完全文書書式イメージ内の標準外データを判別する
    ためのデータ処理システムであって、 前記データ処理システムにおいて、前記完全イメージか
    ら、前記フィールド中のフィールド・データと前記フィ
    ールド中にない標準外データとを含むデータ・イメージ
    を分離する手段と、 前記データ処理システムにおいて、前記データ・イメー
    ジから前記フィールド・データを除去して、第1の抽出
    データ・イメージを形成する手段と、 前記データ処理システムにおいて、前記第1の抽出デー
    タ・イメージから斑点イメージを除去して、第2の抽出
    データ・イメージを形成する手段と、 前記データ処理システムにおいて、前記第2の抽出デー
    タ・イメージから人工物イメージを除去して、第3の抽
    出データ・イメージを形成する手段と、 前記データ処理システムにおいて、前記第3の抽出デー
    タ・イメージを圧縮して、あるファイル・サイズを有す
    る圧縮イメージ・ファイルを形成する手段と、 前記データ処理システムにおいて、前記ファイル・サイ
    ズを所定値と比較する手段と、 前記比較段階で前記ファイル・サイズが前記所定値より
    も大きいと判定するのに応じて、前記データ処理システ
    ムから標準外データ信号を生成する手段とを含むデータ
    処理システム。
JP6204749A 1993-10-27 1994-08-30 文書書式上の事前定義されたフィールドの外側に位置する標準外データを処理する方法およびシステム Expired - Fee Related JP2643092B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14408593A 1993-10-27 1993-10-27
US144085 1993-10-27

Publications (2)

Publication Number Publication Date
JPH07182444A JPH07182444A (ja) 1995-07-21
JP2643092B2 true JP2643092B2 (ja) 1997-08-20

Family

ID=22506975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6204749A Expired - Fee Related JP2643092B2 (ja) 1993-10-27 1994-08-30 文書書式上の事前定義されたフィールドの外側に位置する標準外データを処理する方法およびシステム

Country Status (1)

Country Link
JP (1) JP2643092B2 (ja)

Also Published As

Publication number Publication date
JPH07182444A (ja) 1995-07-21

Similar Documents

Publication Publication Date Title
US4992650A (en) Method and apparatus for barcode recognition in a digital image
US5809167A (en) Page segmentation and character recognition system
US6788810B2 (en) Optical character recognition device and method and recording medium
US6909805B2 (en) Detecting and utilizing add-on information from a scanned document image
US5761344A (en) Image pre-processor for character recognition system
US5867277A (en) Reduced resolution document storage and retrieval system
US20070237394A1 (en) Image processor for character recognition
US6959121B2 (en) Document image processing device, document image processing method, and memory medium
US5650799A (en) Programmable function keys for a networked imaging computer system
JPH05143707A (ja) 符号化画像データの処理方法および装置
JPH07200720A (ja) 脱落書式文書画像圧縮
JP2002312385A (ja) 文書自動分割装置
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
JPH08235341A (ja) ドキュメントファイリング装置および方法
US20050226516A1 (en) Image dictionary creating apparatus and method
JP2000285190A (ja) 帳票識別方法および帳票識別装置および記憶媒体
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2643092B2 (ja) 文書書式上の事前定義されたフィールドの外側に位置する標準外データを処理する方法およびシステム
US7508986B2 (en) Document recognition device, document recognition method and program, and storage medium
US8472719B2 (en) Method of stricken-out character recognition in handwritten text
JP3090070B2 (ja) 帳票識別方法及び装置
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JP3435375B2 (ja) 文字認識方法および装置
JPH10171920A (ja) 文字認識装置、その文字認識方法およびその記録媒体
US6678427B1 (en) Document identification registration system

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090502

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100502

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110502

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees