JP2988412B2 - 光学式文字読取装置 - Google Patents

光学式文字読取装置

Info

Publication number
JP2988412B2
JP2988412B2 JP9009490A JP949097A JP2988412B2 JP 2988412 B2 JP2988412 B2 JP 2988412B2 JP 9009490 A JP9009490 A JP 9009490A JP 949097 A JP949097 A JP 949097A JP 2988412 B2 JP2988412 B2 JP 2988412B2
Authority
JP
Japan
Prior art keywords
character
straight line
character string
line
strike
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP9009490A
Other languages
English (en)
Other versions
JPH10207984A (ja
Inventor
勝彦 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP9009490A priority Critical patent/JP2988412B2/ja
Publication of JPH10207984A publication Critical patent/JPH10207984A/ja
Application granted granted Critical
Publication of JP2988412B2 publication Critical patent/JP2988412B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は光学式文字読取装置
に関し、特に帳票上に記載された記載事項の取消線検出
手段を有する光学式文字読取装置に関する。
【0002】
【従来の技術】ボールペンやプリンタ印字で作成した書
面に対して内容の変更や削除の必要が生じた場合、該当
箇所の文字の上に線あるいは二重線を引いて取り消すの
が一般的である。図11は帳票上の文字列画像の一例を
示す模式図であり、図中符号1101、1102、11
03は文字列画像であり、1104はドロップアウト罫
線枠帳票、1105は取消線である。図11では文字列
画像1103が横線の取消線1105で削除されてい
る。文字認識においてもこのような取消線を検出し、読
取対象外とする技術が望まれる。
【0003】このための方式として、文字もしくは記号
上に上書きされた直線等を抽出し、これを記載事項の取
消線と判定する特開平4−255088号公報や特開平
7−13984号公報などで開示された発明が知られて
いる。特開平4−255088号に記載の発明では、読
取領域内に予め設定された取消線があるか否かを識別
し、取消線が検出された場合には、その近傍領域から正
しい記入内容を読み取るように制御する光学式文字読取
装置が開示されている。また、特開平7−13984号
に記載の発明では、マークシート等のチエックボックス
に上書きされた直線を検出し、この長さが予め設定され
た長さよりも長い場合に記載内容を取り消す画像処理装
置が開示されている。
【0004】また、図12は従来例の取消マーク欄を有
する帳票の模式図であり、図中符号1201は取消マー
ク欄、1202は数字フィールドを示す。上述のような
取消線の検出は難しく十分な精度が得られないため、図
12に示すごとく帳票上に専用の取消マーク欄を設ける
工夫も広く普及している。
【0005】
【発明が解決しようとする課題】しかしながら、特開平
4−255088号の発明は取消線検出時における文字
切り出し位置の制御に関する発明であるため、取消線の
検出方法については全く触れられていない。また、特開
平7−13984号の発明はチェツクボックスを対象に
した発明であり、直線の長さを調べることによって取消
線か否かを決定する。しかし、文字読取装置に適用した
場合は文字列の長さによって取消線の長さが変化するた
め、長さの閾値を一意に定めることが難しいばかりでな
く、続け字などが書かれる状況下では続け字による長い
領域を取消線として誤抽出してしまう。更に、文字の接
触により、文字を構成するストロークが一直線上に並ぶ
場合にも取消線の誤抽出を引き起こす可能性が高い。
【0006】また、帳票上に専用の取消マーク欄を設け
ることは、帳票上のレイアウトに制限を与えたり、用紙
を大きくする等の問題点があるとともに、専用の帳票を
作成しなければならず、通常の市販帳票や文書には適用
できないという問題点がある。
【0007】本発明の目的は、OCR専用帳票に取消マ
ーク欄を設定することなく記入事項を取り消すことが可
能であり、従来法では検出が困難であった文字列に対す
る取消線、特に続け字が書かれているような文字列に対
する取消線の検出を高精度に行うことができる光学式文
字読み取り装置を提供することにある。
【0008】
【課題を解決するための手段】本発明の光学式文字読取
装置は、読み取った帳票上に記載された文書を文字列に
分離し、分離された各文字列より個々の文字を切り出
し、切り出した文字から文字認識部において文字を読み
取る光学式文字読取装置において、分離された文字列画
像中から文字ピッチよりも長い直線を検出する直線検出
部と、文字列画像より直線を除いた文字領域を検出する
文字領域検出部と、文字領域に対する直線の位置を文字
列方向及びこれに直交する方向において検出する直線位
置検出部と、直線位置検出部で検出された文字領域に対
する直線の位置関係に基づいて、直線が取消線であるか
否かを判定する取消線判定部とを備える。
【0009】また、読み取った帳票上に記載された文書
を文字列に分離し、分離された各文字列より文字を切り
出し、切り出した文字から文字認識部において文字を読
み取る光学式文字読取装置において、分離された文字列
画像中から文字ピッチよりも長い直線を検出する直線検
出部と、文字列画像より直線を除いた文字領域を検出す
る文字領域検出部と、文字領域に対する直線の位置を文
字列方向及びこれに直交する方向において検出する直線
位置検出部と、直線位置検出部で検出された文字領域に
対する直線の位置関係に基づいて、直線が取消線である
か否かを仮に判定し、さらに仮に取消線と判定された直
線を含む文字列から切り出された個々の文字を文字認識
部が読み取る際に、該文字認識部が所定の割合以上の文
字をリジェクトした場合に、直線は取消線であると判定
する取消線判定部とを備えていてもよい。
【0010】さらに、取消線判定部が、直線位置検出部
で検出された文字領域に対する直線の位置関係におい
て、文字列方向においては、直線の存在範囲が文字領域
の存在範囲を包含し、文字列方向に直交する方向におい
ては、文字領域の存在範囲が、直線の存在範囲を包含す
る場合に、直線は取消線であると判定してもよく、直線
位置検出部で検出された文字領域に対する直線の位置関
係において、文字列方向においては、直線の存在範囲が
文字領域の存在範囲を包含し、文字列方向に直交する方
向においては、文字領域の存在範囲が、直線の存在範囲
を包含し、かつ文字列方向に直交する方向の文字領域の
存在範囲に対する直線の位置が文字領域の存在範囲の中
央部の所定の範囲にある場合に、直線は取消線であると
判定してもよく、直線位置検出部で検出された文字領域
に対する直線の位置関係において、文字列方向において
は、直線の存在範囲が文字領域の存在範囲を包含し、文
字列方向に直交する方向においては、文字領域の存在範
囲が、直線の存在範囲を包含し、かつ文字列から切り出
された個々の文字について、文字の個々の文字領域の存
在範囲に対する文字列方向に直交する方向の直線の位置
が、所定の比率で個々の該文字領域の存在範囲の中央部
の所定の範囲にある場合に、直線は取消線であると判定
してもよい。
【0011】筆記される取消線は通常、文字列を貫く直
線である。故に文字列方向に長い直線、特に文字列方向
におけるその存在範囲内に文字の存在範囲を含む直線を
抽出すれば取消線の候補を得ることができる。但し、こ
の条件だけでは取消線以外の長い直線、例えば、続け字
による線分や接触文字によって連続した線分などを誤抽
出する可能性がある。
【0012】続け字によって構成される長い直線はその
ほとんどが後述の図3(c)に示すごとく数字”0”の
続け字によるものであり、文字列上部に出現する。これ
に対し、取消線は通常文字列の中央部に記入されるの
で、文字列方向に直交する方向、すなわち縦方向におけ
る直線と文字列の位置を比較することによって、取消線
と続け字による直線とを区別することができる。
【0013】また、文字同士が接触することによって構
成される長い直線の例として後述の図10(b)に示す
ごとく、数字”4”の横線が連続して接触する場合があ
り得るが、この場合、接触文字を正しく切り出せば文字
を読み取れる。一方、文字上に取消線が筆記されている
場合は通常文字認識結果はリジェクトとなる。そこで、
直線と文字の位置関係の他に、文字認識結果のリジェク
トの割合を考慮することにより、さらに正確に取消線の
検出を行うことができる。
【0014】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。図1は本発明の第1の実施
の形態の光学式文字読取装置のブロック構成図であり、
図中符号101は直線検出部、102は文字領域検出
部、103は直線位置算出部、104は取消線判定部、
105は帳票、106は撮像部、107は画像切り出し
部、108は文字切り出し部、109は文字認識部、1
10は表示部、111は認識結果である。図2は本発明
の実施の形態の入力画像と画素投影の関係を示す模式図
であり、図中符号201は文字列画像、202は投影
面、203は文字列方向、204は文字列に直交する方
向、205は投影値である。
【0015】帳票105、撮像部106、画像切出し部
107は、帳票を読み込んで読取対象領域の画像を取得
するための処理部である。これらは従来技術により構成
されるので詳しい説明は省略する。
【0016】直線検出部101は画像切出し部107が
切り出した文字列画像から長い直線分を抽出する。本処
理部の入力画像は、一例を挙げれば上述の図11に示す
ごとく文字列を含む2値画像1101〜1103であ
る。本図はドロップアウトカラー罫線枠帳票1104を
示しているが、ドロップアウトカラー文字枠帳票の場合
も同様に各欄毎に文字列画像を取得し、各文字列2値画
像について本処理を起動する。
【0017】次に本処理部の原理を図2を用いて説明す
る。まず文字列画像201中の黒画素を文字列方向に直
交する方向204に投影し、黒画素が投影された領域が
投影面205上にいくつあるかを調べる。もし文字列画
像201中に取消線が含まれるならば、取消線の存在す
る範囲内すべてに黒画素が投影されることになるので投
影面205上の領域数は1つとなる。ゆえに、領域数が
1つの場合は、取消線が含まれる可能性があると判断し
て、横書きの場合は横方向に長い直線を、縦書きの場合
は縦方向に長い直線を検出する。
【0018】直線の検出方法としてはさまざまな方法が
考えられるが、ハフ変換によって長い直線の方程式を導
く方法や、ランレングス情報を応用した方法(「GIM
法による枠接触文字の高品位分離」、電子情報通信学会
信学技報PRU93−25、1993−07)などを用
いればよい。
【0019】これらの方法により長い直線を抽出した例
を図3に示す。図3は文字列画像から長い直線を抽出し
た例の模式図であり、(a)は入力文字列画像、(b)
は(a)の入力画像から直線検出部が抽出した直線、
(c)は入力文字列画像、(d)は(c)の入力画像か
ら直線検出部が抽出した直線を示す。
【0020】図3(a)は取消線を含む画像の例であ
り、図3(b)に示すように本画像から取消線を構成す
る直線が抽出される。図3(c)は数字”500”を続
け字で筆記した画像の例であり、図3(d)に示すよう
に続け字のための筆記跡が長い直線として抽出される。
【0021】また、直線検出部101における投影処理
の結果、複数の領域に黒画素が投影されたり、直線検出
により直線が検出されなかった場合は、取消線が含まれ
ないものと判断して、文字領域判定部102及び直線位
置算出部103及び取消線判定部104では何も実行せ
ずに直接に文字切り出し部108以降の処理を起動す
る。
【0022】直線検出部101における投影処理の結
果、黒画素が投影された領域数が1個であったり、直線
検出により直線が検出された場合は、取消線が含まれる
可能性があると判断して、文字領域検出部102で画像
切出し部107が出力する文字列画像中にて文字の存在
すると考えられる矩形領域を文字列方向及び文字列方向
に直交する方向に関して検出する。
【0023】最初に文字列方向における存在範囲を判定
する方法を図2及び図4を用いて説明する。図4は図2
の文字列画像の文字列方向における文字領域を検出する
方法を説明するための投影値の模式図であり、図中符号
205は投影値、401は閾値、402は閾値を超える
領域、403は文字存在領域である。
【0024】まず、画像切り出し部107で出力した文
字列画像201に対し文字列方向203に直交する方向
204に投影値205を求め、この中から値が予め設定
された閾値401以上の箇所を抽出する。図2の投影値
205の場合には、図4のような領域402が選ばれ
る。この場合は2つの領域に分かれるが、領域の数にか
かわらず、その最右端と最左端に挟まれる領域403を
文字列方向における文字の存在範囲とする。ここで、閾
値401は直線検出部101で抽出された直線の線幅以
上の値に設定すればよく、画像の分解能に合わせて実験
的に定めればよい。2本の直線が取消線として用いられ
る場合にも1本の線の幅の2倍以上の値になるように定
めればよい。そして文字列方向の存在範囲である文字存
在領域403が定まったならば、文字列画像201にお
いて範囲内にある黒画素の最上端及び最下端を検出し、
文字列の存在する矩形領域を確定する。
【0025】また、これとは異なる文字領域検出方法と
して、元の文字列画像201から抽出された直線を消去
することによって欠損した文字を含む画像を得、この欠
損文字の外接矩形の位置を求めてもよい。
【0026】直線位置算出部103は、文字領域検出部
102が抽出した文字領域と直線検出部101が求めた
直線の文字列方向及びこれに直交する方向における位置
関係を算出する。
【0027】まず、文字列方向における位置関係の算出
方法について図5を用いて説明する。図5は文字列画像
の文字列方向における直線のはみ出し度の算出方法を説
明する模式図であり、図中符号501は直線の最左端L
l、502は文字列の最左端Cl、503は文字列の最
右瑞Cr、504は直線の最右端Lrを示し、505は
文字列の最上端Cu、506は直線の最上端Lu、50
7は直線の最下端Ld、508は文字列の最下端Cdを
示す。
【0028】通常取消線は文字列より左右にはみ出して
筆記されるので、ここでは文字に対する直線のはみ出し
度を定量的な値として求める。もし、直線のはみ出し度
を(1)はみだしている、もしくは(2)はみだしてい
ない、という2値の値として定義するならば、図5に示
す状態においてはみ出し度Hは、
【0029】
【数1】 というように定義することができる。また、文字列より
左右にはみ出している長さが長いほど取消線らしいと仮
定するならば、
【0030】
【数2】 などのように連続値としてはみ出し度を定義してもよ
い。
【0031】一方、文字列方向に直交する方向において
は、直線が文字に対してどういった位置に存在している
かを判定する。位置の算出方法を図6及び図7を用いて
説明する。図6は文字列画像の文字列方向に直交する方
向における文字列と直線との位置関係を示す模式図であ
り、図中符号605は文字列の最上端Cu、606は直
線の最上端Lu、607は直線の最下端Ld、608は
文字列の最下端Cdを示す。図7は単位文字を切り離し
た文字列画像の文字列方向に直交する方向における文字
列と直線との位置関係を示す模式図であり、図中符号7
05a、705b、705c、705dはそれぞれ文字
列最上端Cu1、Cu2、Cu3、Cu4、706は直
線の最上端Lu、707は直線の最下端Ld、708
a、708b、708c、708dはそれぞれ文字列最
下端Cd1、Cd2、Cd3、Cd4を示す。
【0032】もっとも単純な相対位置の算出方法は文字
の外接矩形位置に対する直線の位置を調べることであ
る。そこで、この算出結果を、(1)文字の中心付近に
ある、もしくは(2)文字の中心付近にない、という2
値の値で表すとすると、図6の場合に文字列方向に直交
する方向での位置Vは、
【0033】
【数3】 と表すことができる。ここで、α、βは定数を表し、0
<α<β<1の関係を満たす。さらに定数α、βの最適
値を求めるためには、取消線を含む画像と含まない画像
における
【0034】
【数4】 の値をそれぞれ多数の画像から算出してその分布を求
め、もっともよく分布が分かれる値を判別分析法等によ
り算出すればよい。また、文字列方向に直交する方向で
の位置Vを連続値で表すならば、
【0035】
【数5】 などと定義することができる。この値が0から0.5の
範囲にあれば、直線の中心位置が文字列最上端601と
文字列最下端604の間にあることになり、0に近いほ
ど文字の分布する範囲の中心付近に存在することを表
す。
【0036】但し、図6に示すように”0”の続け字は
小さく書かれることがあるので、文字列の外接矩形位置
を文字位置とするのは計算は単純であるが、続け字によ
る直線と取消線と区別する上では好ましくない。そこ
で、より精度よく取消線を判定するためには、図7に示
すように文字枠などを単位として文字列画像をn分割
し、各領域内で文字の外接矩形位置と直線の位置を比較
して直線の位置を求め、最後に全領域の位置情報を統合
すればよい。具体的には、領域i内に含まれる文字の最
上端の位置をCui、最下端の位置をCdiとし、直線
の最上端の位置をLu、最下端の位置をLdとすると、
文字列方向に直交する方向における直線の位置は各領域
において、
【0037】
【数6】 と定義でき、すべてのvi が定数γ未満である場合に取
消線の条件を満たすとするならば、直線位置算出部10
3の出力Vは、
【0038】
【数7】 のように定義できる。ここでγは0.5以下の正数であ
り、前述の定数α、βの場合と同様の統計計算を行うこ
とにより最適な値を求めることができる。また、おおむ
ね文字の中心付近に位置すれば良いとするならば、vi
の平均値を用いて、
【0039】
【数8】 と定義してもよい。このようにすれば、”0”が小さく
書かれた場合でも取消線と続け字を判別可能な特徴量が
得られるようになる。
【0040】また、前述のvi は、文字の存在範囲の中
点付近に取消線がくることを仮定した定義であるが、文
字の存在範囲の重心付近に取消線が位置することを仮定
することもできる。更に、2値ではなく、vi の平均値
を直線位置算出部103の出力としてもよい。
【0041】取消線判定部104は、直線位置算出部1
03が算出した、文字列方向における直線のはみ出し
度、及びこれに直交する方向における直線の位置の情報
に基づいて、直線が取消線か否かを判定する。直線位置
算出部103の出力、すなわちはみ出し度及び直線の位
置が2値の場合は、どちらの条件も取消線の条件を満た
す場合に取消線であると判定し、それ以外の場合は取消
線とは判定しない。また、直線位置算出部103の出力
が連続値の場合は、はみ出し度及び直線の位置を重み付
けして加算し、この値がある範囲以内の場合に取消線で
あると判定すればよい。重み付けのための係数を最適に
するためには、実際の画像からはみ出し度x1 及び直線
の位置情報x2 の値を収集し、
【0042】
【数9】 によつて表される1次識別関数g(x)が取消線を含む
画像に対してのみ正の値となるような重みω1 、ω2
ω0 を算出すればよい。
【0043】図8は取消線として2本の直線が引かれた
文字列を示す模式図である。図3(a)の例では横線一
本による取消線の例を示したが、図8に示すように横線
が複数本あってもよい。この場合、直線位置検出部10
2にて直線が複数本見つかるので、それぞれの直線につ
いて以降の処理を行い、どれか一つでも取消線の条件を
満たせば取消線であると判定する。このようにすれば、
続け字の文字列に取消線が筆記されている場合などでも
本来の取消線による直線を検出することによって正しく
以降の処理を行うことができる。
【0044】取消線判定部104で取消線がありと判定
されている場合は文字切り出し部108は何もせずに文
字認識部109に渡す。取消線判定部104で取消線が
ないと判定された場合は、文字切り出し部108は文字
列画像から文字を切り出しその結果を文字認識部109
に渡す。
【0045】取消線判定部104で取消線がありと判定
されている場合は文字認識部109は何もせずに表示部
110に渡す。文字切り出し部108で文字が切り出さ
れた場合は、文字認識部109は文字切り出し部108
から送られてくる画像を認識し、文字コードとして出力
する。
【0046】表示部110は取消線がありと判定されて
いる場合にはその旨を表示する。取消線がないと判定さ
れている場合には、文字認識部109で認識された文字
コードを画面に表示する。
【0047】次に、本発明の第2の実施の形態について
説明する。図9は本発明の第2の実施の形態の光学式文
字読取装置のブロック構成図であり、図中符号901は
直線検出部、902は文字領域検出部、903は直線位
置算出部、904は取消線判定部、905は帳票、90
6は撮像部、907は画像切り出し部、908は文字切
り出し部、909は文字認識部、910は表示部、91
1は認識結果である。
【0048】第1の実施の形態では取消線判定部で取消
線がないと判定された文字列画像のみ文字認識を行なっ
ていたが、本実施の形態では、文字列画像に対し無条件
に文字認識部909にて文字認識を行い、その出力も取
消線判定部904に入力するものである。
【0049】取消線判定部904は直線位置算出部90
3と文字認識部909の出力を総合して取消線か否かを
判定する。この効果を図10を用いて説明する。図10
は文字の接触によって長い直線が抽出される文字列画像
の模式図であり、(a)は下側の線が接触している例、
(b)は内側の線が接触している例である。
【0050】この図のように、文字が接触して筆記され
る場合、文字のストロークが偶然に長い直線を構成して
しまう場合がありうる。こうした場合の誤抽出をさける
ためには文字認識結果が有効になる。取消線が筆記され
ている場合、文字が正しく切り出されてもそこには大き
なノイズ、すなわち取消線が含まれることになるため、
文字認識結果はほとんどの場合リジェクトとなる。しか
し、文字が接触している場合には文字切り出しが正しく
実行されれば正しい文字認識結果が得られると期待でき
る。このことから、リジェクト率が予め設定された閾値
δよりも高い場合には取消線が筆記されている可能性が
高いと判断することができる。閾値δも実験的に求める
ことができる。また、はみ出し度や直線の位置情報と同
じようにリジェクト率を連続値で表すならば、実際の画
像からはみ出し度x1 、直線の位置情報x2 及びリジェ
クト率x3 の値を収集し、
【0051】
【数10】 によつて表される1次識別関数g(x)が取消線を含む
画像に対してのみ正の値となるような重みω1 、ω2
ω3 、ω0 を統計的手法により算出することによって、
3つの特徴量から総合的な判定を下すことができる。
【0052】これまでに示した実施の形態では数字列の
場合を示したが、数字列以外にも漢字列やアルフアベツ
ト列などに対しても本発明を適用することができる。ま
た、直線検出部101では文字ピッチよりも長い直線を
取消線の候補とするが、取消線の長さの下限が既知であ
る場合にはその値よりも長い直線を候補とすればよい。
【0053】さらに、上述の実施例では取消線として一
般的によく用いられる直線を例に挙げたが、直線検出時
の検出解像度を下げたり、ぼかしたりすれば、波線など
の曲線からなる線分でも直線性が検出可能であり、従っ
て本手法によればそういった線分も取消線として取り扱
うことが可能である。
【0054】
【発明の効果】以上説明したように本発明では、0CR
専用帳票に取消マーク欄を設定することなく記入事項を
取り消すことが可能になる。また、従来法では検出が困
難であった文字列に対する取消線、特に続け字が書かれ
るような文字列に対する取消線の検出を高精度に行うこ
とができるという効果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の光学式文字読取装
置のブロック構成図である。
【図2】本発明の実施の形態の入力画像と画素投影の関
係を示す模式図である。
【図3】文字列画像から長い直線を抽出した例の模式図
である。(a)は入力文字列画像を示す。(b)は
(a)の入力画像から直線検出部が抽出した直線を示
す。(c)は入力文字列画像を示す。(d)は(c)の
入力画像から直線検出部が抽出した直線を示す。
【図4】図3の文字列画像の文字列方向における文字領
域を検出する方法を説明するための投影値の模式図であ
る。
【図5】文字列画像の文字列方向における直線のはみ出
し度の算出方法を説明する模式図である。
【図6】文字列画像の文字列方向に直交する方向におけ
る文字列と直線との位置関係を示す模式図である。
【図7】単位文字を切り離した文字列画像の文字列方向
に直交する方向における文字列と直線との位置関係を示
す模式図である。
【図8】取消線として2本の直線が引かれた文字列を示
す模式図である。
【図9】本発明の第2の実施の形態の光学式文字読取装
置のブロック構成図である。
【図10】文字の接触によって長い直線が抽出される文
字列画像の模式図である。(a)は下側の線が接触して
いる例である。(b)は内側の線が接触している例であ
る。
【図11】帳票上の文字列画像の一例を示す模式図であ
る。
【図12】従来例の取消マーク欄を有する帳票の模式図
である。
【符号の説明】
101、901 直線検出部 102、902 文字領域検出部 103、903 直線位置算出部 104、904 取消線判定部 105、905 帳票 106、906 撮像部 107、907 画像切り出し部 108、908 文字切り出し部 109、909 文字認識部 110、910 表示部 111、911 認識結果 201 文字列画像 202 投影面 203 文字列方向 204 文字列に直交する方向 205 投影値 401 閾値 402 閾値を超える領域 403 文字存在領域 501 直線の最左端Ll 502 文字列の最左端Cl 503 文字列の最右瑞Cr 504 直線の最右端Lr 505、605 文字列の最上端Cu 506、606、706 直線の最上端Lu 507、607、707 直線の最下端Ld 508、608 文字列の最下端Cd 705a、705b、705c、705d 文字列最
上端Cu1、Cu2、Cu3、Cu4 708a、708b、708c、708d 文字列最
下端Cd1、Cd2、Cd3、Cd4 1101、1102、1103 文字列画像 1104 ドロップアウト罫線枠帳票 1105 取消線 1201 取消マーク欄 1202 数字フィールド
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06K 9/00 - 9/82

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 読み取った帳票上に記載された文書を文
    字列に分離し、分離された各前記文字列より個々の文字
    を切り出し、切り出した前記文字から文字認識部におい
    て前記文字を読み取る光学式文字読取装置において、 分離された前記文字列画像中から文字ピッチよりも長い
    直線を検出する直線検出部と、 前記文字列画像より前記直線を除いた文字領域を検出す
    る文字領域検出部と、 前記文字領域に対する前記直線の位置を文字列方向及び
    これに直交する方向において検出する直線位置検出部
    と、 前記直線位置検出部で検出された前記文字領域に対する
    前記直線の位置関係に基づいて、前記直線が取消線であ
    るか否かを判定する取消線判定部と、を備えることを特
    徴とする光学式文字読取装置。
  2. 【請求項2】 読み取った帳票上に記載された文書を文
    字列に分離し、分離された各前記文字列より文字を切り
    出し、切り出した前記文字から文字認識部において前記
    文字を読み取る光学式文字読取装置において、 分離された前記文字列画像中から文字ピッチよりも長い
    直線を検出する直線検出部と、 前記文字列画像より前記直線を除いた文字領域を検出す
    る文字領域検出部と、前記文字領域に対する前記直線の
    位置を文字列方向及びこれに直交する方向において検出
    する直線位置検出部と、 前記直線位置検出部で検出された前記文字領域に対する
    前記直線の位置関係に基づいて、前記直線が取消線であ
    るか否かを仮に判定し、さらに仮に取消線と判定された
    前記直線を含む前記文字列から切り出された個々の文字
    を前記文字認識部が読み取る際に、該文字認識部が所定
    の割合以上の文字をリジェクトした場合に、前記直線は
    取消線であると判定する取消線判定部と、を備えること
    を特徴とする光学式文字読取装置。
  3. 【請求項3】 前記取消線判定部が、直線位置検出部で
    検出された前記文字領域に対する前記直線の位置関係に
    おいて、文字列方向においては、前記直線の存在範囲が
    前記文字領域の存在範囲を包含し、文字列方向に直交す
    る方向においては、前記文字領域の存在範囲が、前記直
    線の存在範囲を包含する場合に、前記直線は取消線であ
    ると判定する、請求項1または請求項2に記載の光学式
    文字読取装置。
  4. 【請求項4】 前記取消線判定部が、直線位置検出部で
    検出された前記文字領域に対する前記直線の位置関係に
    おいて、文字列方向においては、前記直線の存在範囲が
    前記文字領域の存在範囲を包含し、文字列方向に直交す
    る方向においては、前記文字領域の存在範囲が、前記直
    線の存在範囲を包含し、かつ文字列方向に直交する方向
    の前記文字領域の存在範囲に対する前記直線の位置が前
    記文字領域の存在範囲の中央部の所定の範囲にある場合
    に、前記直線は取消線であると判定する、請求項1また
    は請求項2に記載の光学式文字読取装置。
  5. 【請求項5】 前記取消線判定部が、直線位置検出部で
    検出された前記文字領域に対する前記直線の位置関係に
    おいて、文字列方向においては、前記直線の存在範囲が
    前記文字領域の存在範囲を包含し、文字列方向に直交す
    る方向においては、前記文字領域の存在範囲が、前記直
    線の存在範囲を包含し、かつ前記文字列から切り出され
    た個々の文字について、前記文字の個々の文字領域の存
    在範囲に対する文字列方向に直交する方向の前記直線の
    位置が、所定の比率で個々の該文字領域の存在範囲の中
    央部の所定の範囲にある場合に、前記直線は取消線であ
    ると判定する、請求項1または請求項2に記載の光学式
    文字読取装置。
JP9009490A 1997-01-22 1997-01-22 光学式文字読取装置 Expired - Lifetime JP2988412B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9009490A JP2988412B2 (ja) 1997-01-22 1997-01-22 光学式文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9009490A JP2988412B2 (ja) 1997-01-22 1997-01-22 光学式文字読取装置

Publications (2)

Publication Number Publication Date
JPH10207984A JPH10207984A (ja) 1998-08-07
JP2988412B2 true JP2988412B2 (ja) 1999-12-13

Family

ID=11721685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9009490A Expired - Lifetime JP2988412B2 (ja) 1997-01-22 1997-01-22 光学式文字読取装置

Country Status (1)

Country Link
JP (1) JP2988412B2 (ja)

Also Published As

Publication number Publication date
JPH10207984A (ja) 1998-08-07

Similar Documents

Publication Publication Date Title
Aradhye A generic method for determining up/down orientation of text in roman and non-roman scripts
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
Yanikoglu et al. Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation
US10606933B2 (en) Method and system for document image layout deconstruction and redisplay
US20030063802A1 (en) Image processing method, apparatus and system
US20090046950A1 (en) System and method of determining image skew using connected components
US20110222773A1 (en) Paragraph recognition in an optical character recognition (ocr) process
CN114299528A (zh) 一种针对扫描文档的信息提取和结构化方法
JP3830998B2 (ja) 罫線除去方法及びこれを用いた文字認識装置
US9110868B2 (en) System and method for logical structuring of documents based on trailing and leading pages
US7149352B2 (en) Image processing device, program product and system
JP4145530B2 (ja) ドキュメントにおける自動的テーブル位置決め
Lue et al. A novel character segmentation method for text images captured by cameras
JP2988412B2 (ja) 光学式文字読取装置
JP5041775B2 (ja) 文字切出方法及び文字認識装置
JP2001256505A (ja) 認識装置、認識方法、紙葉類処理装置、紙葉類処理方法
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
Kumar et al. Line based robust script identification for indianlanguages
JP2009223612A (ja) 画像認識装置及びプログラム
CN111476073B (zh) 信息处理装置、记录媒体及信息处理方法
EP0476873B1 (en) Method of and apparatus for separating image regions
JP7243981B2 (ja) 紙面領域分類装置及びそのプログラム
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
JP4847378B2 (ja) 画像処理装置、画像処理方法、プログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071008

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081008

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091008

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091008

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101008

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111008

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121008

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 14

EXPY Cancellation because of completion of term