JPH07107694B2 - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH07107694B2
JPH07107694B2 JP59180517A JP18051784A JPH07107694B2 JP H07107694 B2 JPH07107694 B2 JP H07107694B2 JP 59180517 A JP59180517 A JP 59180517A JP 18051784 A JP18051784 A JP 18051784A JP H07107694 B2 JPH07107694 B2 JP H07107694B2
Authority
JP
Japan
Prior art keywords
frames
frame
document
extracted
entered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59180517A
Other languages
English (en)
Other versions
JPS6159568A (ja
Inventor
康明 中野
浩道 藤沢
邦弘 岡田
修 国崎
俊従 尾崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59180517A priority Critical patent/JPH07107694B2/ja
Publication of JPS6159568A publication Critical patent/JPS6159568A/ja
Priority to US07/399,411 priority patent/US4933984A/en
Priority to US07/845,838 priority patent/US5235653A/en
Publication of JPH07107694B2 publication Critical patent/JPH07107694B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は文書処理装置に係り、特表形式の文書上の文字
を読み取る目的に好適な文書処理装置に関する。
〔発明の背景〕
従来の文字読み取り装置(以下、OCRと略する)では、
読み取り領域をOCRが感じない色(ドロツプアウトカラ
ー)を用いて印刷する必要があり、印刷費用が高価にな
る問題があつた。さらに文字読み取り領域の位置を文書
のエツジからの距離として記述し、その領域の文字数や
文字種・チエツク方法などを指定する必要があり、煩雑
であつた。以下、文字読み取り領域の位置情報や領域内
の文字数や文字種・チエツク方法などの情報を書式情報
と呼ぶ。文字認識機能は従来のように専用OCRだけでな
く、文書フアイルやOA用ワークステーシヨンなどにも要
求されているが、上記の問題点が広い普及を阻んでい
た。
従来技術では、たとえば公開特許公報昭和58−207184号
(昭和58年12月2日公開)において、入力画像からあら
かじめメモリ内に格納しておいた定形的な画像を除去す
る方法、ならびに定形的な画像を用いて文書の種類を識
別する方法が開示されている。しかし、この方法ではメ
モリに画像を記憶するのでメモリ量が増大し、また文書
の変形(伸縮・回転・位置ずれなど)が生じたとき正し
く除去できないおそれがあつた。
〔発明の目的〕
本発明の目的は、入力文書の構造を自動的に理解して文
書の書式を自動的に生成することにより、対象文書の範
囲を大幅に拡大するとともに、書式情報作成の手間を簡
略化する手段を提供することにある。
本発明の他の目的は、定形的な入力文書の種類を自動的
に識別してあらかじめ記憶した書式情報を用いることに
より、種類の異なる定形的な文書の連続読み取りを可能
とする手段を提供することにある。
〔発明の概要〕 本発明は、項目の名称を示す文字が記入された項目枠と
上記項目の内容を表す文字が記入される予定のデータ枠
との二種類の枠を含む複数の枠を有する文書の画像を光
電変換し、光電変換した画像をディジタル化してディジ
タル画像を入力する手段と、上記ディジタル画像から線
パターンを抽出して上記複数の枠を抽出する手段と、抽
出した上記複数の枠の間の相対位置関係を抽出する手段
と、抽出した上記複数の枠に対応する領域を上記ディジ
タル画像より取り出して上記枠内に記入された文字を認
識する手段と、抽出した上記複数の枠の間の相対位置関
係および上記枠内に記入された文字を認識した結果を、
あらかじめ記憶している文書構造に関する知識群と参照
することによって、上記文書中に存在する枠の種類、枠
の属性、および複数の枠間の従属関係を含む文書構造を
同定する手段と、同定された上記文書構造を、上記ディ
ジタル画像として読み出された文書の書式情報として登
録する手段とを有することを特徴とする。
更に、上記の各手段に加え、抽出した上記複数の枠、及
び上記枠内に記入された文字を認識した結果を表示する
手段を有することも第2の特徴とする。
〔発明の実施例〕
以下、本発明を図面を用いて詳細に説明する。
第1図は本発明を実施する装置の構成を示すブロツク図
である。装置の各部はバス1に接続され、全体の動作は
制御部2により制御される。文書3上の情報(文書画
像)は光電変換装置4により走査され、さらにデイジタ
ル化され、バス1を介してメモリ51に格納される。メモ
リ51は後述する52,53,54とともにメモリ5の一部をな
す。デイジタル化の際、公知の高効率符号化処理を行つ
てもよく、これにより文書画像を記憶するメモリの記憶
容量を節約できる。また、以下の説明では1画素1ビツ
トに二値化するものとするが、1画素を多値で表現して
もよく、カラースキヤナにより光電変換して色情報を付
与してもよい。
文書の処理には登録モードと識別モードとがある。モー
ドの選択はキーボード6、デイスプレイ7を用いて制御
部2とマンマシン対話により行う。まず、登録モードの
場合を説明する。登録モードの処理の流れ図を第2図に
示す。この処理は制御部2のソフトウエアにより実行さ
れる。第2図で、201は見本文書画像の入力であり、各
文書類型ごとに見本文書を用い、この見本文書上の画像
をメモリ51の中に格納する。202では見本文書画像に対
し位置補正処理、傾き補正処理などの正規化を行い、そ
の結果得られる画像がメモリ52に格納される。この正規
化画像に対し、203で線抽出処理が行われ、抽出された
線パターはメモリ53に格納される。第3図は線パターン
抽出の処理内容を説明する図であり、(A)のような入
力画像から水平方向の線抽出により(B)のような水平
線パターンを得、同様に(A)から垂直方向の線抽出に
より(C)のような垂直線パターンを得、(B)と
(C)との論理和により(D)のような画像を得る。以
後(D)を線パターンと呼ぶ。線パターン抽出処理の詳
細については後述する。204では線パターンから輪郭抽
出により輪郭上の座標点列を抽出する。この座標点列は
輪郭の個数だけ得られる。以下では輪郭の中で内輪郭だ
けを処理する。ここで内輪郭とは白地を取り囲む黒地の
境界であり、白地に右側に黒地を左側に見るようにして
輪郭を一周したとき時計回りに一周するような輪郭を言
う。205ではこの内輪郭の中から長方形をなすものを抽
出する。長方形判定の詳細については後述する。以後長
方形をなす内輪郭を枠と呼ぶ。206では枠の4隅の座標
を用いて枠の順序を左上から右下へと並べ換える。207
では抽出した枠が複数個あつたとき、枠の間の相互関係
すなわち枠mと枠nの間の関係コードCmnを抽出する。
関係コードCmnの定義の例を次に示す。
Cmn= 0:以下の条件が全て不成立 = 1:mがnを包含 =−1:nがmを包含 = 2:mがnの直上 =−2:mがnの直下 = 3:mがnの直左 =−3:mがnの直右 = 4:mがnの上方 =−4:mがnの下方 = 5:mがnの左方 =−5:mがnの右方 208では抽出した枠に対応する領域の画像を原画像から
取り出し、順次この画像を文字認識部8に送つて枠内の
文字を認識する。枠内部の画像のみを文字認識部に送る
ので非ドロツプアウトカラーの表部分や枠外の不用部分
に妨害されることがなく、また帯状領域を対象とするの
で文字の切り出し・認識が容易である。全ての枠の中の
文字を認識した後209では枠mの中の認識文字数Nm、文
字列Km、関係コードCmnとを文書の構造に関する知識と
照合して、入力文書の構造を理解する。知識は「if〜th
en〜」形式、すなわち条件と結論とにより表現される。
知識の例を次に示す。a,b,cは枠番号を示す。
1.(条件)Ka=‘申請者’ (結論)枠aは項目枠 枠aの項目名称=‘申請者’ 2.(条件)Na=0& Kb=‘申請者’& Cab=−3 (結論)枠aは枠bに従属するデータ枠 枠aの属性=‘氏名’(Na=0は空白を示す) 3.(条件)Na=0& Kb=‘都道府県’& Cab=−4 Kc=‘本籍’& Cac=−3 (結論)枠aは枠b,cに属するデータ枠 枠aの属性=‘住所:都道府県’ 4.(条件)Ka=‘昭和年月日’ (結論)枠aは独立なデータ枠 枠aは単位名称=‘日時’ 枠aの属性=‘時間:年月日’ 5.(条件)Na=0 (結論)枠aは独立な項目・データ枠 枠aの項目名称=‘雑’ 枠aの属性=‘雑’ ここで項目枠とは見出しとして使われる枠で、普通はデ
ータが記入されない。データ枠とは項目の内容を表す文
字(文字列)が記入される予定の枠をいい、属性とはそ
の枠に記入される文字の種類や限定範囲などをいう。上
記の知識の具体的な実現法はプログラムの「if〜then
〜」文としてかかれたサブルーチンであり、知識との照
合はa,bのところにm,nを代入し、条件で成立するか否か
を調べた結果を外部に引数として与えればよい。条件が
成立したときは結論も引数として外部に与える。知識た
とえば1.の条件のa,bにあてはまる枠番号m,nが見出され
たとすれば、結論の枠番号aのところに枠番号mを代入
したものを入力文書の構造データとして登録する。構造
データは上記の枠の関係コード、枠の種類(項目枠、デ
ータ枠あるいは両者)、従属関係、項目名称、属性コー
ドとからなる。複数の知識に該当する場合には、一例と
して出現順序の早い知識を優先させると決めればよい。
最も優先度の低い知識として多の知識にあてはまらない
ときの救済措置(上記の場合は5.)を決めておけば、す
べての枠についての構造が決定される。すべての枠につ
いて知識との照合が行われ構造が決定されると、構造デ
ータの登録が終了し、210で構造データ及び枠の物理デ
ータ(枠の4隅の座標など)、マスクデータを出力装置
9に書き出す。マスクデータとは、データ枠の中にあら
かじめ印刷された文字(上記の4.における昭和年月日な
どの単位名称に相当)の位置を示すものである。構造デ
ータ、枠の物理データ、マスクデータは従来のOCRの書
式データに相当する。書き出しに際してキーボード6、
デイスプレイ7を用いて、入力文書に対する識別番号や
フアイル名称を入力する。
次に線パターン抽出処理の詳細を説明する。第4図は、
線パターンを抽出する処理をPAD形式で示す流れ図であ
る。線パターン抽出には水平線抽出と垂直線抽出とがあ
るが、ここでは水平線抽出について述べ、垂直線抽出に
ついては同様であるので省略する。第4図で401は線抽
出への入り口であり、メモリ52に格納されている正規化
画像Qが与えられる。Qは第3図(A)のような二次元
データ Q(i,j),(i=0〜I−1,j=0〜J−1) として表現される。402では403〜409の処理を走査線番
号jについて繰り返すことにより、第3図(B)のよう
な二次元パターンA(i,j)を得る。403は初期化であり
A(i,j)を0にクリアし後述するBを0とする。404は
走査線の中で画素数Iだけ繰り返すループである。
405はQ(i,j)が1か0かを判定し、1の場合には406
で黒の連長Bをカウントする。
Q(i,j)が0の場合には、407の判定によりその前の画
素までの連長Bが閾値εより大きいとき、408で A(i−B,j)〜A(i−1,j) のB個の画素を1(黒)にする処理を行い、409で連長
Bをリセツトする。410〜411の処理は走査線の最終点
(i=I−1)において407以降と同様の処理を行うも
のである。407の判定を加えたことにより十分長い黒の
水平線分があるときのみ線抽出が行われるが、文書上に
記入されている文字・記号は短い線分からなつているの
でほとんど抽出されない。412はこの処理の出口であ
り、パターンA(i,j)を出力に与え、メモリ53に格納
する。以上の説明から分かるように、パターンA(i,
j)は線分の存在を反映したパターンである。
次に長方形抽出処理の詳細を説明する。第5図は、長方
形を抽出する処理の内容を示す図である。内輪郭の座標
は一次元データX(i),Y(i)として表現される。輪
郭点の中で(X(i)+Y(i))の最大値と最小値、
(X(i)−Y(i))の最大値と最小値、を与える点
を求めればこちらは第5図にP4,P2,P3,P1に相当する。P
1〜P4は枠が長方形の場合には4隅の点になる。P1〜P2
の間でXの最大値と最小値を与える点を求めこれをQ12,
Q11とする。P2〜P3の間でYの最大値と最小値を与える
点を求めこれをQ22,Q21とする。他の辺についても同様
にする。P1,Q11,Q12,P2の4点のX座標値の差が小さい
とき、P1〜P2は直線であると判定し、他の3辺について
も同様に直線判定を行い、4辺が直線であるときこの枠
は長方形であると判定する。
次に関係コード抽出処理の詳細を説明する。第6図は、
関係コードを抽出する処理をPAD形式で示す流れ図であ
る。第6図で601は入り口であり、メモリ52に格納され
ている枠の4隅の座標及び輪郭長Rが与えられる。枠m
の4隅を (X1(m),Y1(m))〜(X4(m),Y4(m)) とする。602,603は枠番号m,nに関する二重ループであ
る。604でCmnに初期値0を入れる。605の条件は枠mが
nを包含することを検出し、条件が成立するときはCmn
に1を、Cnmに−1を代入する。以下同様に関係コード
を判定する。606は出口で関係コードからなる行列Cを
出力に与える。
以上で登録モードの説明を終了する。この登録モード処
理はあらかじめ行つて構造データ等の書式情報を格納し
ておくものとするが、次に述べる識別モード処理と統合
して行うことも可能である。
次に識別モードにおける入力対象文書の処理について説
明する。第7図に識別モードの処理の流れ図を示す。70
1は入力文書の画像の取り込み、702は正規化、703は線
パターンの抽出、704は輪郭抽出、705は長方形抽出、70
6は枠順序付け、707は関係コード抽出であり、第2図の
202〜207と同様である。708では見本文書の構造データ
及び物理データを順次メモリ53に読みだし、メモリ54の
入力文書の構造データ及び物理データと比較し、入力文
書がどの見本文書と一致するかを決定する。この見本文
書の構造データ及び物理データを用いて入力文書の読み
取りを以下のようにして行う。709は枠について以下の7
10〜717を繰り返し実行するループである。710はデータ
枠についてのみ読み取りを行う判定である。711ではこ
のデータ枠の内部の領域だけを抽出する。712ではマス
クデータによりあらかじめ印刷された文字を消去する
(マスクデータが存在するときのみ行う)。713では属
性コードにより定まる字種を選択し、認識辞書(文字認
識のための標準パターン)を設定する。714では枠内部
の文字を認識する。715では属性コードにより定まる単
語辞書を選択し、716で単語照合を行つて文字認識結果
の誤読あるいは不読を修正する。717では文字認識結果
と構造データ中の必要な部分を編集し、出力装置9に書
き出す。編集の例として、たとえば、データ枠の属する
項目枠の項目名称が「申請者」であり(前記知識の2.に
相当)、この枠の認識結果が‘山田太郎’であつたとす
れば、 ‘申請者’=‘山田太郎’のようにし、これを1レコー
ドとして書き出す。また、独立な項目枠・データ枠で項
目名称=‘日時’、単位名称=‘昭和年月日’であり
(知識4.に相当)単位名称の部分がマスクデータにより
消去されたため、認識結果が58529だつたとすれば、編
集出力は ‘日時’=‘昭和58年5月29日’ とする。後者の例では認識部8から文字の位置座標を取
り出し、マスクデータと座標の比較により位置を決定し
て編集する。
以上本発明の一実施例について説明した。本実施例に対
して通常の文字認識装置や図形処理装置で行われる処
理、たとえば枠の抽出結果の表示・修正、文字認識結果
の表示・修正などを付加することは容易に想像されよ
う。また、枠認識に際して線抽出や長方形決定の閾値を
複数個設け、自動判定の結果が困難なときはマンマシン
的に最適値を選択したり、二値化レベルを変えて再試行
うなどの変更を加えてもよい。さらに、識別モードにお
いて文書の種類があらかじめ決まつている場合はキーボ
ードから見本文書の番号を与えるようにして、構造デー
タなどの照合を省略してもよい。
なお、本実施例では文書から線パターンを抽出し、それ
から枠を抽出するとしたが原文書パターンから直接輪郭
を抽出し、それから枠を抽出するようにすることも可能
であり、この場合には枠以外の輪郭を後で他の処理たと
えば文字切り出しや文字認識に利用できる。
また、本実施例では文書構造の記述として枠形式のもの
に限定したが、実線あるいは破線などの罫線や、円など
を用いるように拡張することも可能である。たとえば実
線からなる罫線は、細長い外輪郭を抽出することで検出
でき、罫線の上方の領域を切り出すことによつて下線を
引いた表題文字の認識が可能である。円の検出は輪郭座
標系列を極座標表示し、この空間で直接検出すればよ
い。
また、枠の外部の文字も読み取つて、構造記述に利用す
ることもできる、色情報を利用し構造記述に色属性を付
加することも有効である。
さらに、文書から直接光電変換する場合に限定せず、画
像フアイルから読み出した文書画像に対しても適用でき
る。
〔発明の効果〕
以上説明したごとく、本発明によれば入力文書の構造を
自動的に理解して文書の書式を自動的に生成することが
可能で、従来のように人間による書式情報の作成作業が
不要であり、黒色で印刷された表形式の文書が読み取れ
るのでドロツプアウトカラーで印刷し直す必要がなく、
準備作業の手間を簡略化できるとともに、対象文書の範
囲を大幅に拡大することができる。
また本発明によれば、定形的な入力文書の種類を自動的
に識別してあらかじめ記憶した書式情報を用いることが
でき、異なる種類の定形的な文書の連続読み取りが可能
となる。
【図面の簡単な説明】
第1図は本発明の実施例を示す図、第2,4,6,7図は第1
図の制御部における処理を説明するための流れ図、第3,
5図は第2図における処理内容を説明する図である。 1……バス、2……制御部、3……文書、5……メモ
リ、6……キーボード、7……デイスプレイ、8……文
字認識部、9……出力装置。
フロントページの続き (72)発明者 国崎 修 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所マイクロエレクトロニク ス機器研究所内 (72)発明者 尾崎 俊従 神奈川県小田原市国府津2880番地 株式会 社日立製作所小田原工場内 (56)参考文献 特開 昭58−8385(JP,A) 特開 昭56−137480(JP,A) 情報処理学会第21回全国大会講演論文集 P.857−858,(1980) 信学論 Vol.J69−D No.3 P.400−409(1986) 昭和60年度電子通信学会総合全国大会講 演論文集 S10−2,P.6−289〜6− 290 7th International Conference on Patte rn Recognition Proc eedings Volume1 P. 347−349,(1984)

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】項目の名称を示す文字が記入された項目枠
    と上記項目の内容を表す文字が記入される予定のデータ
    枠との二種類の枠を含む複数の枠を有する文書の画像を
    光電変換し、光電変換した画像をディジタル化してディ
    ジタル画像を入力する手段と、 上記ディジタル画像から線パターンを抽出して上記複数
    の枠を抽出する手段と、 抽出した上記複数の枠の間の相対位置関係を抽出する手
    段と、 抽出した上記複数の枠に対応する領域を上記ディジタル
    画像より取り出して上記枠内に記入された文字を認識す
    る手段と、 抽出した上記複数の枠の間の相対位置関係および上記枠
    内に記入された文字を認識した結果を、あらかじめ記憶
    している文書構造に関する知識群と参照することによっ
    て、上記文書中に存在する枠の種類、枠の属性、および
    複数の枠間の従属関係を含む文書構造を同定する手段
    と、 同定された上記文書構造を、上記ディジタル画像として
    読み出された文書の書式情報として登録する手段とを有
    することを特徴とする文書処理装置。
  2. 【請求項2】項目の名称を示す文字が記入された項目枠
    と上記項目の内容を表す文字が記入される予定のデータ
    枠との二種類の枠を含む複数の枠を有する文書の画像を
    光電変換し、光電変換した画像をディジタル化してディ
    ジタル画像を入力する手段と、 上記ディジタル画像から線パターンを抽出して上記複数
    の枠を抽出する手段と、 抽出した上記複数の枠の間の相対位置関係を抽出する手
    段と、 抽出した上記複数の枠に対応する領域を上記ディジタル
    画像より取り出して上記枠内に記入された文字を認識す
    る手段と、 抽出した上記複数の枠、及び上記枠内に記入された文字
    を認識した結果を表示する手段と、 抽出した上記複数の枠の間の相対位置関係および上記枠
    内に記入された文字を認識した結果を、あらかじめ記憶
    している文書構造に関する知識群と参照することによっ
    て、上記文書中に存在する枠の種類、枠の属性、および
    複数の枠間の従属関係を含む文書構造を同定する手段
    と、 同定された上記文書構造を、上記ディジタル画像として
    読み出された文書の書式情報として登録する手段とを有
    することを特徴とする文書処理装置。
JP59180517A 1984-08-31 1984-08-31 文書処理装置 Expired - Lifetime JPH07107694B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP59180517A JPH07107694B2 (ja) 1984-08-31 1984-08-31 文書処理装置
US07/399,411 US4933984A (en) 1984-08-31 1989-08-25 Document analysis system
US07/845,838 US5235653A (en) 1984-08-31 1992-03-06 Document analysis system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59180517A JPH07107694B2 (ja) 1984-08-31 1984-08-31 文書処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP5156561A Division JPH07109610B2 (ja) 1993-06-28 1993-06-28 文書処理装置

Publications (2)

Publication Number Publication Date
JPS6159568A JPS6159568A (ja) 1986-03-27
JPH07107694B2 true JPH07107694B2 (ja) 1995-11-15

Family

ID=16084641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59180517A Expired - Lifetime JPH07107694B2 (ja) 1984-08-31 1984-08-31 文書処理装置

Country Status (2)

Country Link
US (1) US4933984A (ja)
JP (1) JPH07107694B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025452A (zh) * 2016-01-29 2017-08-08 富士通株式会社 图像识别方法和图像识别设备
US11829701B1 (en) * 2022-06-30 2023-11-28 Accenture Global Solutions Limited Heuristics-based processing of electronic document contents

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5235653A (en) * 1984-08-31 1993-08-10 Hitachi, Ltd. Document analysis system
US5101448A (en) * 1988-08-24 1992-03-31 Hitachi, Ltd. Method and apparatus for processing a document by utilizing an image
US5140650A (en) * 1989-02-02 1992-08-18 International Business Machines Corporation Computer-implemented method for automatic extraction of data from printed forms
KR930009639B1 (ko) * 1989-07-09 1993-10-08 가부시끼가이샤 히다찌세이사꾸쇼 화상데이타를 이용하는 문서데이타 처리방법 및 장치
US5369716A (en) * 1989-08-31 1994-11-29 Kabushiki Kaisha Toshiba Document reader and reading processing method therefor
CA1321026C (en) * 1989-09-28 1993-08-03 Arny I. Sokoloff Method and apparatus for optically reading pre-printed survey pages
JP2713622B2 (ja) * 1989-11-20 1998-02-16 富士通株式会社 表形式文書読取装置
US5191525A (en) * 1990-01-16 1993-03-02 Digital Image Systems, Corporation System and method for extraction of data from documents for subsequent processing
US5038392A (en) * 1990-02-12 1991-08-06 International Business Machines Corporation Method and apparatus for adaptive image processing by recognizing a characterizing indicium in a captured image of a document
US5048099A (en) * 1990-05-21 1991-09-10 Eastman Kodak Company Polygon-based method for automatic extraction of selected text in a digitized document
JPH0612540B2 (ja) * 1990-06-28 1994-02-16 富士ゼロックス株式会社 文書作成支援装置
JP2835178B2 (ja) * 1990-11-28 1998-12-14 株式会社東芝 文書読取装置
US5258855A (en) * 1991-03-20 1993-11-02 System X, L. P. Information processing methodology
JPH04343190A (ja) * 1991-05-21 1992-11-30 Hitachi Ltd 文字データ入力方式
US5416308A (en) * 1991-08-29 1995-05-16 Video Lottery Technologies, Inc. Transaction document reader
US5703962A (en) * 1991-08-29 1997-12-30 Canon Kabushiki Kaisha Image processing method and apparatus
US5229589A (en) * 1991-11-21 1993-07-20 Optimum Solutions Corp., Inc. Questionnaire scanning system employing expandable answer mark areas for efficient scanning and mark detection
JPH05151254A (ja) * 1991-11-27 1993-06-18 Hitachi Ltd 文書処理方法およびシステム
US5251273A (en) * 1992-04-15 1993-10-05 International Business Machines Corporation Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms
US5305396A (en) * 1992-04-17 1994-04-19 International Business Machines Corporation Data processing system and method for selecting customized character recognition processes and coded data repair processes for scanned images of document forms
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
TW274597B (ja) * 1992-04-27 1996-04-21 Philips Electronics Nv
US5235654A (en) * 1992-04-30 1993-08-10 International Business Machines Corporation Advanced data capture architecture data processing system and method for scanned images of document forms
US5386482A (en) * 1992-07-16 1995-01-31 Scan-Optics, Inc. Address block location method and apparatus
JPH06131495A (ja) * 1992-10-15 1994-05-13 Fujitsu Ltd 画像情報抽出方式
NL9300310A (nl) * 1993-02-19 1994-09-16 Oce Nederland Bv Inrichting en werkwijze voor syntactische signaal-analyse.
US5528742A (en) * 1993-04-09 1996-06-18 Microsoft Corporation Method and system for processing documents with embedded fonts
US5428694A (en) * 1993-10-14 1995-06-27 International Business Machines Corporation Data processing system and method for forms definition, recognition and verification of scanned images of document forms
US5555325A (en) * 1993-10-22 1996-09-10 Lockheed Martin Federal Systems, Inc. Data capture variable priority method and system for managing varying processing capacities
US5394487A (en) * 1993-10-27 1995-02-28 International Business Machines Corporation Forms recognition management system and method
US5521991A (en) * 1993-10-29 1996-05-28 International Business Machines Corporation Method and system for fast forms recognition of document form images
EP0654746B1 (en) * 1993-11-24 2003-02-12 Canon Kabushiki Kaisha Form identification and processing system
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5729638A (en) * 1993-12-28 1998-03-17 Canon Kabushiki Kaisha Device and method for generating patterns
US5634054A (en) * 1994-03-22 1997-05-27 General Electric Company Document-based data definition generator
JPH08305778A (ja) * 1995-04-21 1996-11-22 Xerox Corp ユーザの作成したマークの存在を調査するための方法
JP3814334B2 (ja) * 1996-04-19 2006-08-30 キヤノン株式会社 画像処理装置及びその方法
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
US6512848B2 (en) 1996-11-18 2003-01-28 Canon Kabushiki Kaisha Page analysis system
US6226402B1 (en) 1996-12-20 2001-05-01 Fujitsu Limited Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US6327387B1 (en) 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
JP3606500B2 (ja) * 1997-01-31 2005-01-05 株式会社リコー 矩形分類方法
US6038351A (en) * 1997-10-28 2000-03-14 Cash Management Solutions Apparatus and method for multi-entity, mixed document environment document identification and processing
JP3022459B2 (ja) 1997-12-24 2000-03-21 日本電気株式会社 帳票識別登録装置
US7054509B2 (en) * 2000-10-21 2006-05-30 Cardiff Software, Inc. Determining form identification through the spatial relationship of input data
JP2002324236A (ja) 2001-04-25 2002-11-08 Hitachi Ltd 帳票識別方法及び帳票登録方法
US7711191B2 (en) * 2006-12-21 2010-05-04 Michael John Kosek Electronic transaction processing server with automated transaction evaluation
JP4825243B2 (ja) * 2008-06-20 2011-11-30 富士通フロンテック株式会社 帳票認識装置、方法、データベース作成装置、方法、及びプログラム
US9152617B2 (en) * 2010-03-11 2015-10-06 A2iA S.A. System and method for processing objects
JP5556524B2 (ja) * 2010-09-13 2014-07-23 株式会社リコー 帳票処理装置、帳票処理方法、帳票処理プログラム、及びそのプログラムを記録した記録媒体
JP6463066B2 (ja) * 2014-07-07 2019-01-30 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP6887909B2 (ja) 2017-08-01 2021-06-16 株式会社東芝 画像処理装置
JP6887910B2 (ja) * 2017-08-01 2021-06-16 株式会社東芝 画像処理装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4115761A (en) * 1976-02-13 1978-09-19 Hitachi, Ltd. Method and device for recognizing a specific pattern
JPS56129981A (en) * 1980-03-14 1981-10-12 Toshiba Corp Optical character reader
JPS56137480A (en) * 1980-03-28 1981-10-27 Nec Corp Format input device
GB2089165B (en) * 1980-10-30 1985-10-09 Canon Kk Character and image processing
JPS57137976A (en) * 1981-02-18 1982-08-25 Nec Corp Zip code discriminating device
JPS57150062A (en) * 1981-03-12 1982-09-16 Fuji Xerox Co Ltd Processing of papers
JPS588385A (ja) * 1981-07-06 1983-01-18 Fujitsu Ltd Ocr帳票の読取位置指定方式
JPH0693738B2 (ja) * 1981-10-09 1994-11-16 株式会社東芝 文書画像認識編集装置
JPS58103266A (ja) * 1981-12-15 1983-06-20 Toshiba Corp 文字画像処理装置
US4493108A (en) * 1982-12-30 1985-01-08 International Business Machines Corporation Video image field cut processing

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
7thInternationalConferenceonPatternRecognitionProceedingsVolume1P.347−349,(1984)
信学論Vol.J69−DNo.3P.400−409(1986)
情報処理学会第21回全国大会講演論文集P.857−858,(1980)
昭和60年度電子通信学会総合全国大会講演論文集S10−2,P.6−289〜6−290

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025452A (zh) * 2016-01-29 2017-08-08 富士通株式会社 图像识别方法和图像识别设备
US11829701B1 (en) * 2022-06-30 2023-11-28 Accenture Global Solutions Limited Heuristics-based processing of electronic document contents

Also Published As

Publication number Publication date
US4933984A (en) 1990-06-12
JPS6159568A (ja) 1986-03-27

Similar Documents

Publication Publication Date Title
JPH07107694B2 (ja) 文書処理装置
JP3088019B2 (ja) 媒体処理装置及び媒体処理方法
US5774580A (en) Document image processing method and system having function of determining body text region reading order
JP3469345B2 (ja) 画像のファイリング装置及びファイリング方法
US5235653A (en) Document analysis system
JP3294995B2 (ja) 帳票読取装置
JP3452774B2 (ja) 文字認識方法
JPH0750483B2 (ja) 文書画像追加情報の蓄積方法
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
JPH08235341A (ja) ドキュメントファイリング装置および方法
JPH07105312A (ja) 光学式文字読取装置における文字イメージのごみ除去方法及び装置
JP2740335B2 (ja) 自動セル属性判定機能を有する表読取装置
JP2544589B2 (ja) 文書処理方法及び装置
JPH0652156A (ja) 文書処理方法及び装置
JPH09319824A (ja) 帳票認識方法
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JP3309084B2 (ja) 図形の電子化方法
JPH0789361B2 (ja) 帳票登録装置
JPS61193281A (ja) 文書入力方式
JPS61193275A (ja) 文書入力方式
JP2005004395A (ja) 帳票、帳票処理方法、帳票処理プログラム、帳票処理プログラムを記録した記録媒体及び帳票処理装置
JP3276554B2 (ja) フォーマット認識装置及び文字読取り装置
JP2708604B2 (ja) 文字認識方法
JP2893781B2 (ja) 文字認識装置
JP3006294B2 (ja) 光学的文字読取装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term