JPH08297720A - 一般文書読み取り装置 - Google Patents

一般文書読み取り装置

Info

Publication number
JPH08297720A
JPH08297720A JP7101064A JP10106495A JPH08297720A JP H08297720 A JPH08297720 A JP H08297720A JP 7101064 A JP7101064 A JP 7101064A JP 10106495 A JP10106495 A JP 10106495A JP H08297720 A JPH08297720 A JP H08297720A
Authority
JP
Japan
Prior art keywords
character
ruled line
candidate
characters
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7101064A
Other languages
English (en)
Inventor
Yukiko Chiba
由紀子 千葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7101064A priority Critical patent/JPH08297720A/ja
Publication of JPH08297720A publication Critical patent/JPH08297720A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 罫線を文字と誤認識して出力してしまうこと
を防ぐ。 【構成】 文字認識部5により候補文字と距離値とから
なる集合を求める際に、罫線を文字列と誤認識した場合
に現れ易い候補文字にチェックフラグを付加する。簡易
罫線形成部6は、各候補文字の第1候補文字から所定の
距離値に内にある候補文字までで罫線チェックフラグが
付加されているものがどれだけあるかを調べ、付加され
ているものが多かった場合には、その文字位置は罫線を
文字列と誤認識したと仮定し、罫線を文字列と誤認識し
たと仮定する文字が一定の個数を越えて連続している場
合は、その連続する文字列の各文字を罫線コードに置き
換え、罫線コードに置き換えた部分以外の候補文字を単
語照合部7に出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般文書を構成する文
字を認識して読み取る一般文書読み取り装置に関するも
のである。
【0002】
【従来の技術】従来の一般文書読み取り装置では、読み
取り対象の文書画像を文字,表,罫線,図および写真の
領域に自動あるいは手動で分割する。文字認識は、罫
線,図および表領域中の罫線は除外され、文字領域およ
び表領域の文字部分についてのみ行われる。文字認識結
果の読み取り精度を向上する方法として、入力文字列に
対応する候補文字集合の列と単語辞書とを使用して単語
照合あるいは言語処理を施し、一致する単語を入力文字
列の答えとする後処理方法が広く使われている。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
一般文書読み取り装置では、文書画像分割時に罫線を文
字と誤認識する場合や、文字領域中に混在する罫線を切
り出すことができない場合がある。すると、本来文字で
はない部分に後処理を行うことになり、その結果、間違
った結果を導いたり、処理速度を遅らせる原因になる。
また、結果をディスプレイや紙上に出力する際に、本来
罫線が出力される部分に文字が出力されることになり、
非常に見にくくなってしまう。
【0004】
【課題を解決するための手段】上述した課題を解決する
ため、本発明は、光電変換で得られる画像信号から、各
文字に対していくつかの候補文字を求めるとともに各文
字の標準字形との距離を求めて候補文字と距離値からな
る集合を求め、さらに、罫線を文字列と誤認識した場合
に現れ易い候補文字に罫線チェックフラグを付加して出
力する文字認識部と、各候補文字の第1位候補文字から
所定の距離値内にある候補文字までで罫線チェックフラ
グが付加されているものがどれだけあるかを調べ、付加
されているものが多かった場合には、その文字位置は罫
線を文字列と誤認識したと仮定し、罫線を文字列と誤認
識したと仮定する文字が一定の個数を越えて連続してい
る場合は、その連続する文字列の各文字を罫線コードに
置き換え、罫線コードに置き換えた部分以外の候補文字
を単語照合部に出力する罫線形成部と、前記罫線形成部
で形成された罫線と単語照合結果を組み合わせて出力す
る出力文字形成部とを備えたものである。
【0005】
【作用】上述した構成を有する本発明は、文字認識によ
り候補文字と距離値からなる集合を求める際に、罫線を
文字列と誤認識した場合に現れ易い候補文字に罫線チェ
ックフラグを付加し、各候補文字の第1位候補文字から
所定の距離値内にある候補文字までで罫線チェックフラ
グが付加されているものがどれだけあるかを調べ、付加
されているものが多かった場合には、その文字位置は罫
線を文字列と誤認識したと仮定し、罫線を文字列と誤認
識したと仮定する文字が一定の個数を越えて連続してい
る場合は、その連続する文字列の各文字を罫線コードに
置き換え、罫線コードに置き換えた部分以外の候補文字
に対して単語照合を行う。
【0006】そして、単語照合結果に罫線コードに置き
換えられた部分を組み合わせて出力する。
【0007】
【実施例】図1は本発明の一実施例における一般文書読
み取り装置のブロック図である。図において、1は読み
取り対象である帳票、2は画像入力装置、3はレイアウ
ト解析部である。このレイアウト解析部3は、帳票画像
を文字,表,罫線,図および写真の領域に分割する。4
は走査部で、この走査部4は、レイアウト解析部3によ
り文字領域と判断された領域と表領域内の文字部分を走
査し、光電変換して得られる画像信号を文字認識部に転
送する。
【0008】5は走査部4から画像信号を受ける文字認
識部で、この文字認識部5は入力文字の字形と各文字の
標準字形との距離(似ている度合い)を計算し、距離の
小さい順に、つまり、字形の似ている順に並んだ候補文
字と距離値からなる集合を形成する。また、各候補文字
に対して、罫線を文字と誤認識した場合に現れ易い文字
や記号を検索して、罫線チェックフラグのセットを行
う。
【0009】6は簡易罫線形成部で、この簡易罫線形成
部6は前記罫線チェックフラグを調べ、罫線チェックフ
ラグの数とつながりに応じて文字候補を罫線コードに置
き換える。また、罫線コードに置き換えられた部分以外
の候補文字情報を出力する。7は単語照合部、8は単語
照合部7で用いる単語辞書で、この単語照合部7は入力
された文字認識結果を適当な位置で区切り、候補文字と
距離値からなる集合の列から組み合わせて作られる文字
列のうち、単語辞書8を検索して該単語辞書8に存在す
る単語を抽出する。
【0010】9は出力文字列形成部で、この出力文字形
成部9は単語照合部7で抽出された候補単語群の中か
ら、出力すべき単語を選択し、これに簡易罫線形成部6
で形成された罫線とを組み合わせて出力する。図2は認
識対象文書の一例を表す説明図で、文字領域11(罫線
が含まれる)、罫線12、表領域13、図および写真領
域14から構成される。
【0011】以下に、本実施例の動作を説明する。画像
入力装置2から入力した文書画像は、レイアウト解析部
3により、自動あるいは手動で文字,表,罫線,図およ
び写真の領域に分割する。走査部4は、レイアウト解析
部3により文字領域と判断された領域と表領域内の文字
部分を走査し、光電変換して得られる画像信号を文字認
識部5に転送する。
【0012】文字認識部5は、入力文字の字形と各文字
の標準文字との距離を計算し、距離の小さい順に、つま
り、字形の似ている順に並べた候補文字と距離値からな
る集合を形成する。図3は文字列を文字認識した結果の
一例を表す説明図である。従来は、上述した候補文字と
距離値とからなる集合をそのまま単語照合部に出力して
いた。単語照合部では入力された文字認識結果を適当な
位置で区切り、候補文字と距離値からなる集合の列から
組み合わせて作られる文字列のうち、単語辞書を検索し
て単語辞書に存在するものを抽出する。上述した候補文
字距離値からなる集合に、文字列と誤認識された罫線が
含まれていた場合、記号が大半を占める当該部分の候補
単語群から辞書単語が抽出されることは考えられず、ま
た、仮に単語辞書が抽出されたとしても、それは間違っ
た結果となる。図4は従来の単語照合結果の一例を表す
説明図で、図2で説明した認識対象文書の文字領域11
のように、1行の中に文字と罫線があるような場合、罫
線が文字列と誤認識されやすく、その結果、罫線の部分
がピリオド等の記号や漢数字の「一」等の文字に置き換
えられてしまう。
【0013】本実施例では、候補文字と距離値とからな
る集合について、各候補文字が罫線を文字と誤認識した
場合に現れ易い文字,記号を検索する。記号の「.」、
「,」、「;」、「:」、「−」、「/」、「 」や、
文字の「一」(漢数字の「一」)、「ー」(長音)等
は、罫線を文字と誤認識したときに現れ易い。文字認識
部5では、上述した候補文字中にこのような文字や記号
があれば、罫線となり得ることを示す「罫線チェックフ
ラグ」をセットする。
【0014】簡易罫線形成部6では、各候補文字につい
て上述した罫線チェックフラグを調べる。図5は各候補
文字の情報の一例を表す説明図で、各文字の第1候補文
字から、第1候補の距離の一定倍値の距離の候補文字ま
でについて、罫線チェックフラグがONのものが多い文
字は、罫線を誤認識したものと仮定する。罫線を誤認識
したと思われる文字がn個以上連続する場合は、その文
字列を罫線と見なして、各文字をテキストの罫線コード
に置き換える。
【0015】そして、簡易罫線形成部6は、単語照合部
7に対して罫線コードに置き換えられた部分以外の候補
文字情報を出力する。単語照合部7では、入力された文
字認識結果を適当な位置で区切り、上述した候補文字と
距離列からなる集合の列から組み合わせて作られる文字
列のうち、単語辞書8を検索して該単語地所8に存在す
るものを抽出する。このとき、文字列と誤認識された罫
線は候補文字列から既に除外されているので、余分な単
語照合を実行したり、間違った文字列を出力することが
無くなり、単語照合部における処理速度を上げることが
できる。
【0016】出力文字列形成部9では、単語照合部7で
の単語照合結果と簡易罫線形成部6で形成された罫線と
を組み合わせて出力する。図6は本実施例における出力
文字列形成例を表す説明図であり、罫線を文字列と誤認
識したと思われる文字や記号についてチェックフラグを
セットし、第1候補の距離の一定倍値の距離の候補文字
までについて、罫線チェックフラグがONのものが多い
文字は、罫線を誤認識したものと仮定して、罫線を誤認
識したと思われる文字がn個以上連続する場合は、その
文字列を罫線と見なすことで、罫線の部分を罫線として
正しく認識でき、誤った出力を防止できる。
【0017】なお、本実施例では、単語照合部の前段に
罫線形成部を設けたが、単語照合部の後段に罫線形成部
を設けてもよい。この場合、文字認識部にて候補文字と
距離値からなる集合を形成するとともに、候補文字中に
罫線を文字と誤認識したときに現れ易い文字や記号があ
れば、罫線となり得ることを示す「罫線チェックフラ
グ」をセットした後、文字認識部からの候補文字情報を
そのまま単語照合部に出力し、単語照合終了時に、単語
辞書と照合がとれなかった文字列について、罫線形成部
でチェックフラグを参照してその文字位置が罫線を文字
位置と誤認識したものか調べ、罫線を文字列と誤認識し
たと思われる文字が一定の個数を越えて連続している場
合はその連続する文字列の各文字を罫線コードに置き換
えて出力する。
【0018】なお、上記各実施例において、文字にアン
ダーラインが付いている場合でも、アンダーラインを次
行と認識させることで、アンダーラインの部分を確実に
罫線として認識できる。
【0019】
【発明の効果】以上説明したように、本発明は、罫線を
文字列と誤認識した場合に現れ易い候補文字に罫線チェ
ックフラグを付加し、各候補文字の第1位候補文字から
所定の距離値内にある候補文字までで罫線チェックフラ
グが付加されているものがどれだけあるかを調べ、付加
されているものが多かった場合には、その文字位置は罫
線を文字列と誤認識したと仮定し、罫線を文字列と誤認
識したと仮定する文字が一定の個数を越えて連続してい
る場合は、その連続する文字列の各文字を罫線コードに
置き換えることとしたので、罫線を文字と誤認識したと
思われる文字列を発見し、その文字列を罫線に置き換え
ることができる。
【0020】これにより、誤認識した文字が出力された
り、処理速度が遅れることが防止され、処理結果をディ
スプレイや紙上に出力する際にも、より読み取り対象に
近い結果を提供することができ、信頼性を高めることが
できる。
【図面の簡単な説明】
【図1】本発明の一実施例における一般文書読み取り装
置のブロック図である。
【図2】認識対象文書の一例を表す説明図である。
【図3】文字列を文字認識した結果の一部を表す説明図
である。
【図4】従来の単語照合結果の一例を表す説明図であ
る。
【図5】各候補文字の情報の一例を表す説明図である。
【図6】本実施例における出力文字列形成例を表す説明
図である。
【符号の説明】
5 文字認識部 6 簡易罫線形成部 7 単語照合部 9 出力文字列形成部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 光電変換で得られる画像信号から、各文
    字に対していくつかの候補文字を求めるとともに各文字
    の標準字形との距離を求めて候補文字と距離値からなる
    集合を求め、さらに、罫線を文字列と誤認識した場合に
    現れ易い候補文字に罫線チェックフラグを付加して出力
    する文字認識部と、 罫線チェックフラグに応じて罫線を文字と誤認識したか
    否かを判定し、罫線と判定した文字列は各文字を罫線コ
    ードに置き換え、罫線コードに置き換えた部分以外の候
    補文字を単語照合部に出力する罫線形成部と、 前記罫線形成部で形成された罫線と単語照合結果を組み
    合わせて出力する出力文字形成部とを備えたことを特徴
    とする一般文書読み取り装置。
  2. 【請求項2】 光電変換で得られる画像信号から、各文
    字に対していくつかの候補文字を求めるとともに各文字
    の標準字形との距離を求めて候補文字と距離値からなる
    集合を求め、さらに、罫線を文字列と誤認識した場合に
    現れ易い候補文字に罫線チェックフラグを付加して単語
    照合部に出力する文字認識部と、 単語照合がとれない文字列に対して、罫線チェックフラ
    グに応じて罫線を文字と誤認識したか否かを判定し、罫
    線と判定した文字列は各文字を罫線コードに置き換えて
    出力する罫線形成部と、 前記罫線形成部で形成された罫線と単語照合結果を組み
    合わせて出力する出力文字形成部とを備えたことを特徴
    とする一般文書読み取り装置。
  3. 【請求項3】 請求項1または2記載の一般文書読み取
    り装置において、 前記罫線形成部は、各候補文字の第1位候補文字から所
    定の距離値内にある候補文字までで罫線チェックフラグ
    が付加されているものがどれだけあるかを調べ、付加さ
    れているものが多かった場合には、その文字位置は罫線
    を文字列と誤認識したと仮定し、罫線を文字列と誤認識
    したと仮定する文字が一定の個数を越えて連続している
    場合は、その連続する文字列の各文字を罫線コードに置
    き換えることを特徴とする一般文書読み取り装置。
JP7101064A 1995-04-25 1995-04-25 一般文書読み取り装置 Pending JPH08297720A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7101064A JPH08297720A (ja) 1995-04-25 1995-04-25 一般文書読み取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7101064A JPH08297720A (ja) 1995-04-25 1995-04-25 一般文書読み取り装置

Publications (1)

Publication Number Publication Date
JPH08297720A true JPH08297720A (ja) 1996-11-12

Family

ID=14290685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7101064A Pending JPH08297720A (ja) 1995-04-25 1995-04-25 一般文書読み取り装置

Country Status (1)

Country Link
JP (1) JPH08297720A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171218B2 (en) 2011-11-24 2015-10-27 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method, and computer readable medium that recognize overlapping elements in handwritten input
JP2017033438A (ja) * 2015-08-05 2017-02-09 コニカミノルタ株式会社 帳票識別装置、帳票識別方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171218B2 (en) 2011-11-24 2015-10-27 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method, and computer readable medium that recognize overlapping elements in handwritten input
JP2017033438A (ja) * 2015-08-05 2017-02-09 コニカミノルタ株式会社 帳票識別装置、帳票識別方法及びプログラム

Similar Documents

Publication Publication Date Title
JP3427692B2 (ja) 文字認識方法および文字認識装置
US8340425B2 (en) Optical character recognition with two-pass zoning
US20120066213A1 (en) Information processing apparatus, information processing method, and computer program product
JP2006092027A (ja) 文字認識装置、文字認識方法および文字認識プログラム
JPH08297720A (ja) 一般文書読み取り装置
JPS63146187A (ja) 文字認識装置
JPH0728935A (ja) 文書画像処理装置
JPH10134141A (ja) 文書照合装置および方法
JP2752499B2 (ja) 文字読取り装置
JPH0614375B2 (ja) 文字入力装置
JPH09218921A (ja) 一般文書読取装置
JP3151866B2 (ja) 英文字認識方法
JPH09185674A (ja) 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法
JP2904517B2 (ja) 文字認識装置
JP2939945B2 (ja) ローマ字住所認識装置
JPH0496882A (ja) 全角/半角判定方法
JP2851102B2 (ja) 文字切出し方法
JP3492442B2 (ja) 語形状トークンを用いる文書内容特性表示
JPH0944604A (ja) 文字認識処理方法
JPH0696285A (ja) 文字認識装置
JPH01171080A (ja) 誤り自動訂正文字認識装置
JPH03156589A (ja) 誤読文字の検出,修正方法
JPH04282789A (ja) 文字読取り装置
JPH08293005A (ja) 日本文読取装置
JPH0562020A (ja) 文字認識装置