JP3662967B2 - 文字ループ候補抽出装置及び文字補完装置 - Google Patents

文字ループ候補抽出装置及び文字補完装置 Download PDF

Info

Publication number
JP3662967B2
JP3662967B2 JP04935295A JP4935295A JP3662967B2 JP 3662967 B2 JP3662967 B2 JP 3662967B2 JP 04935295 A JP04935295 A JP 04935295A JP 4935295 A JP4935295 A JP 4935295A JP 3662967 B2 JP3662967 B2 JP 3662967B2
Authority
JP
Japan
Prior art keywords
loop
character
candidate
frame
loop candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04935295A
Other languages
English (en)
Other versions
JPH08249420A (ja
Inventor
美佐子 諏訪
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP04935295A priority Critical patent/JP3662967B2/ja
Publication of JPH08249420A publication Critical patent/JPH08249420A/ja
Application granted granted Critical
Publication of JP3662967B2 publication Critical patent/JP3662967B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Executing Machine-Instructions (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、文字認識装置において文字を切り出す装置に係わり、特に枠や罫線等に接した文字パターン中の上記枠や罫線等を除去したときに除去されてしまう部分を正しく補完する装置に関する。
【0002】
【従来の技術】
近年、手書き用紙から情報処理装置に該手書きデータをテキスト・データとして入力する周辺装置として、手書き文字認識装置の需要が増加している。この手書き文字認識装置は、前処理として文字列から一文字ずつを切り出す文字の切りだし処理を行う。この文字の切り出し処理は、個々の文字を正確に認識するために重要な処理である。
【0003】
帳票等では、予め、文字を手書きする位置や領域等が、罫線、一文字枠、横または縦一行のブロック枠、表形式のブロック枠、さらには、フリーフォーマット枠として印刷されている。この場合、上記印刷色がドロップ・アウト・カラーであれば、手書きされた文字のみをイメージ・スキャナー等により読み取ることができるが、上記印刷色がドロップ・アウト・カラーではなく、黒色等の手書きされる色と同一色の非ドロップ・アウト・カラーである場合には、上記罫や枠等も手書き文字と一緒に読み取られてしまう。このため、例えば、文字枠内に記入された文字が枠からはみ出していたり、接触していたりする場合、枠を抽出・除去すると切り出した文字の一部が欠けてしまい、誤読が生ずる。
【0004】
このため、従来は、例えば、図19に示すように、枠11からはみ出して手書きされた文字の場合(同図(a)参照)、一度、枠11を除去した後に(同図(b)参照)、枠11付近における枠11からはみ出した部分13と枠内の文字線分15のストロークの方向性や距離を判定して、該枠11の除去により欠けてしまった部分を補完する方法が採用されている(同図(c)参照)。
【0005】
【発明が解決しようとする課題】
しかし、上記従来の方法では、文字が枠と接していて、該文字が該枠からはみ出していない場合、該文字を補完することが出来ないという問題があった。
【0006】
このような例を図20に示す。同図では、文字「B」の下部のループ部分の一部が枠11と接してしまったために(同図(a)参照)、枠11を除去した結果(同図(b)参照)、補完が行われずに(同図(c)参照)、同図(d)に示すように、別の文字「R」に誤読されてしまう。
【0007】
本発明は、枠や罫線等に接した文字を正確に補完できるようにすることを、目的とする。
【0008】
【課題を解決するための手段】
図1は、本発明(第一の発明)の原理を説明する図でる。
この第一の発明は、以下の各手段を備える。
【0009】
検出手段32は、枠または罫線に、その一部が接触してループを形成している文字パターンを検出する。
抽出手段34は、該検出手段32によって検出された文字パターンから、上記枠または罫線を除去した後に残されるパターンを、ループ候補として抽出する。そして、枠または罫線と、文字ストロークとの交点を全て求め、次に、それらの交点の中の2つの交点間を結ぶ文字輪郭線について、該文字輪郭線の始点と終点が互いに隣接する交点であるか否かを調べて、該文字輪郭線が上記ループ候補に該当するか否かを判定する。
【0010】
次に、図2は、本発明(第二の発明)の原理を説明する図である。
この第二の発明は、以下の各手段を備える。
検出手段42は、枠または罫線に、その一部が接触してループを形成している文字パターンを検出する。
【0011】
抽出手段44は、該検出手段42によって検出された文字パターンから、上記枠または罫線を除去した後に残されるパターンを、ループ候補として抽出する。
選別手段46は、該抽出手段44によって抽出されたループ候補の中から、そのループ候補の幾何学的特徴を調べることにより、上記枠または罫線の除去によって途切れたループ部分を有する補完対象のループ候補を選別する。
【0012】
記選別手段46は、例えば、前記ループ候補を、それと接触している枠または罫線と平行な方向に走査して、該走査線と交差する交差点を求め、得られた交差点の最大数が、予め定められたしきい値よりも大きいループ候補を、補完対象から除外する。
【0013】
また、前記選別手段46は、前記ループ候補の左部と右部の曲線らしさの度合いを求める曲線度算出手段と、該曲線度算出手段によって得られた結果に基づいて、上記左部と右部が直線であるか否か判定する直線判定手段と、該直線判定手段により、上記左部と右部が共にほぼ直線に近いと判定されたループ候補を、補完対象から除外する除外手段と、を備える。
【0014】
また、さらに、前記選別手段46は、前記ループ候補の枠接触点付近での左部と右部の線分の傾きを求める傾き算出手段と、該傾き算出手段によって得られた上記左部と右部の線分の傾きの組み合わせに基づいて、補完対象から除外すべきループ候補を判定し、そのループ候補を、補完対象から除外する除外手段と、を備える。
【0015】
また、さらに、前記選別手段46は、前記ループ候補の枠または罫線との接触幅を算出する第1の算出手段と、前記ループ候補の内周部における、上記枠または罫線と平行な方向での最大幅を算出する第2の算出手段と、上記第1及び第2の算出手段によって求められた上記接触幅と最大幅とを基に、補完対象から除外すべきループ候補を判定し、そのループ候補を、補完対象から除外する除外手段と、を備える。
【0016】
図3は、本発明(第三の発明)の原理を説明する図である。
この第三の発明は、以下の各手段を備える。
検出手段52は、枠または罫線に、その一部が接触してループを形成している文字パターンを検出する。
【0017】
抽出手段54は、該検出手段52によって検出された文字パターンから、上記枠または罫線を除去した後に残されるパターンを、ループ候補として抽出する。
選別手段56は、該抽出手段54によって抽出されたループ候補の中から、そのループ候補の幾何学的特徴を調べることにより、記枠または罫線の除去によって途切れたループ部分を有する補完対象のループ候補を選別する。
【0018】
補完手段58は、該選別手段54によって選別されたループ候補の上記途切れたループ部分を補完する。
【0019】
【作用】
前記第一の発明では、まず、検出手段32が、枠または罫線に、その一部が接触してループを形成している文字パターンを検出する。次に、抽出手段34が、該検出手段32によって検出された文字パターンから、上記枠または罫線を除去した後に残されるループ部分を、ループ候補として抽出する。続いて、抽出手段34は、上記枠または罫線と、前記ループ部分のストロークの文字輪郭線との交点を全て求め、次に、それらの交点の中の2つの交点間を結ぶ文字輪郭線について、該文字輪郭線の始点と終点が互いに隣接する交点であるか否かを調べて、該文字輪郭線が上記ループ候補に該当するか否かを判定して、上記文字輪郭線の中から前記ループ候補を抽出する。
【0020】
したがって、枠または罫線に、その一部が接触してループを形成している文字パターンについて、それから枠または罫線に接触している部分を除去した残りのパターンを、ループ候補として抽出することができる。
【0021】
前記第二の発明では、まず、検出手段42が、枠または罫線に、その一部が接触してループを形成している文字パターンを検出する。次に、抽出手段44は、該検出手段42によって検出された文字パターンから上記枠または罫線を除去したパターンを、ループ候補として抽出する。そして、さらに、選別手段46が、該抽出手段44によって抽出されたループ候補の中から、そのループ候補の幾何学的特徴を調べることにより、上記枠または罫線の除去によって途切れた部分を有するループ候補を選別する。
【0022】
したがって、枠または罫線に接触してループを形成している文字パターンから該枠または罫線に接触している部分を除去したパターンであるループ候補の中から、それらの幾何学的特徴を調べることにより、本来、ループであるにもかかわらず、枠または罫線除去後に、その一部が途切れてしまったループ部分を補完する必要のあるループ候補を、選別することができる。
【0023】
第三の発明では、まず、検出手段52が、枠または罫線に、その一部が接触してループを形成している文字パターンを検出する。次に、抽出手段54は、該検出手段52によって検出された文字パターンから、上記枠または罫線を除去した結果得られるパターンを、ループ候補として抽出する。続いて、選別手段56が、該抽出手段54によって抽出されたループ候補の中から、そのループ候補の幾何学的特徴を調べることにより、上記枠または罫線の除去によってループ部分の一部が途切れたループ候補を選別する。そして、補完手段58が、該選別手段56によって選別されたループ候補の上記途切れたループ部分を補完する。
【0024】
したがって、そのループ部分が枠または罫線に接触してしまったために、該枠または罫線除去後に、そのループ部分が途切れてしまった文字パターンを、上記抽出したループ候補の幾何学的特徴を調べることにより、正しく、補完することができる。
【0025】
【実施例】
図4は、本発明の一実施例である光学的文字認識装置(OCR)100の構成を示すブロック図である。
【0026】
観測部101は、帳票上に記入された文字及び該文字と同一色の文字枠または罫線等をイメージ・スキャナ等で光学的に読み取って、それらのイメージ・データを光電変換して二値の画像データに変換する。
【0027】
文字切出し部103は、該観測部101から入力される画像データから、枠や罫線等の画像データを除去して、文字を一文字ずつ切り出す。
正規化部105は、該文字切出し部103によって切り出された文字パターンの大きさを、拡大・縮小したり、画像変換によって文字の変形を減少させる等の文字パターンの正規化処理を行う。
【0028】
特徴抽出部107は、該正規化部105から入力される文字パターンから特徴値を抽出する。
辞書部109は、各文字種の代表的特徴値が格納されている複数の辞書を記憶しているメモリである。
【0029】
照合部111は、上記特徴抽出部107から入力される特徴値と該辞書部109の各辞書に格納されている特徴値との距離計算を行い、最も該距離が短い特徴値が格納されている辞書の属する文字種を中間認識結果として出力する。
【0030】
後処理部113は、例えば、読み取られた文字が書かれていた位置が、人名の入力領域または、住所の入力領域であるなどの情報を基に、上記照合部111から入力される認識結果を再判定する。そして、必要に応じて該認識結果を補正して、最終的な認識結果を外部のホスト装置に出力する。
【0031】
図5は、本実施例の要部である上記文字切出し部103の一構成例を示すブロック図である。
枠抽出部1031は、上記観測部101から入力される二値の画像データ内に枠や罫線の画像データが含まれているか否かを判定し、含まれている場合には該枠や罫線の画像データを抽出する。
【0032】
枠除去部1032は、該枠抽出部1031によって抽出された枠または罫線の画像を上記二値の画像データから除去する。
一文字切り出し部1033は、該枠除去部1033から入力される文字列の画像データから既存の手法(枠幅による分離、ラベリング等)を用いて、一文字毎に文字を切り出す。
【0033】
ストローク補完部1034は、該一文字切り出し部1033から入力される文字の内、上記枠除去部1032によってストロークの途切れた文字について、前述した既存の手法を用いて補完する。
【0034】
ループ候補抽出部1035は、該ストローク補完部1034から入力される文字の内、枠または罫線に接してループを構成する(形成する)文字をループ候補として抽出する。
【0035】
ループ判定部1036は、該ループ候補抽出部1035によってループ候補として抽出された文字について、そのループ候補の幾何学的特徴を調べて、枠または罫線の除去によって、ループが切れてしまった文字を補完すべき文字として判定(選別)する。
【0036】
ループ補完部1037は、該ループ判定部1036によって補完すべきであると判定された文字について、その途切れているループ部分を補完する。
次に、上記構成の実施例の動作を説明する。
【0037】
図6は、下部が枠または罫線と接触したときに、該接触部でループを構成する文字の例を示す図である。これらの文字は、上記枠または罫線除去後に、そのループ部分を補完する必要がある文字とそうでない文字に分けられる。
【0038】
同図に示す文字群210、220は、共に、その下部が、枠あるいは罫線と接触して、ループを形成する複数の文字を示している。
文字群210に属する文字は、そのループ部分が枠または罫線と接触した文字である。これらの文字は、該枠あるいは罫線を除去した後に、該除去に伴ってそのループ部分が消失されるため、その消失されたループ部分を補完する必要のあるものである。
【0039】
一方、右側に示す文字群220に属する文字は、本来、ループ状でない下部が、枠あるいは罫線と接触することによってループを形成する文字である。これらの文字は、該ループがその文字本来のものではないために、上記枠あるいは罫線を除去した後に、その下部を補完する必要が無いものである。
【0040】
このように、枠または罫線を除去した後にループ判定(枠または罫線と接してループを形成するか否かの判定)をすべき文字は、そのループを補完すべき文字とその必要が無い文字とに分けられる。
【0041】
次に、上記ループ候補抽出部1035、ループ判定部1036、及びループ候補抽出部1035の一連の動作を説明する。
まず、ループ候補抽出部1035は、枠の一辺に着目して、当該文字パターンが該枠と接触しているか否か判別する(S11)。そして、該接触が無ければ(S11、NO)、ループ補完処理を中止する。
【0042】
一方、該接触が生じていれば、次に該文字パターンが上記枠からはみ出していないか調べ、もし、はみ出していなければ、上記文字パターンに上記ループ候補(ループ候補部)があるか否か調べ、あれば、そのループ候補部を抽出する(S12)。次に、上記ステップS12で該ループ候補部が抽出されているか否か調べ、抽出されていなければ(S13、NO)、ループ補完処理を中止する。
【0043】
一方、上記ステップS13で、上記文字パターンにループ候補部が抽出されていれば(S13,YES)、該ループ候補部に補完すべきループがあるか否かを判定する(S14)。そして、補完すべきループが存在しなければ、(S15、NO)、ループ補完処理を中止する。
【0044】
一方、補完すべきループが存在すれば(S15、YES)、上記ループ候補部に該当するループ部分の、枠または罫線の除去後に、途切れてしまった部分を補完する(S16)。
【0045】
次に、上述したループ候補抽出部1035の処理(S11〜S12)をより詳細に説明する。
まず、ループ候補の抽出方法を説明する。
【0046】
図8は、接触部における座標軸の設定方法を示す図である。
枠または罫線との接触の形態は、例えば、同図に示すように、下部接触、左部接触、上部接触、または右部接触の4種類がある。これら各形態に応じて同図(a),(b),(c),(d)に示すような二次元の直交X−Y座標系を設定する。
【0047】
上記のような座標系において、まず、上述したように文字パターンが接触し、かつ該パターンが枠外にはみ出していない場合、上記文字パターンと該枠との接触点を求める。該接触点は、X軸の原点に近い方から上記枠を形成する方向に上記文字パターンを走査していったときに、画素値が変化する文字輪郭線上の点とする。
【0048】
図9は、「D」の文字が枠の一辺に接触した場合のループ候補の抽出方法の一例を説明する図である。
ループ候補抽出部1035は、この場合、同図に示すように、白画素から黒画素に変化する左部接触点をo1,o2,...とし、黒画素から白画素に変化する右部接触点をe1,e2,...とする。そして、第N番目の右部接触点en(または左部接触点on)から文字輪郭線上を追跡していったときに、終点が第N+1番目の左部接触点on+1(または第N−1番目の右部接触点en−1)で終わるものを、ル−プ候補とする。 図6の場合には、path1(e1〜o1),2(e2〜o3),3(e3〜o2)の3つのパスにより、文字輪郭線の追跡がなされ、最終的にpath2(e2〜o3)がループ候補として抽出される。
【0049】
続いて、上述したループ判定部1036の処理(S13〜S14)を詳細に説明する。
この場合にも、図8に示す直交X−Y座標系を用いる。また、Y軸の向きは、枠との接触点がY座標の最大値となるように定める。また、以下の説明で用いるしきい値は、予め、実験結果等から得られる最良の値が用いられる。
【0050】
上記補完すべきループ候補の判定は、例えば、以下に述べる1)〜3)の方法を用いる。
1) 曲線度による判定
抽出したループ候補を、接触枠線分と平行の方向に走査して、該走査線との交差点を検出する。そして、上記ループ候補の中で、その得られた交差点数が、予め、定められた最大交差点数よりも大きいものを、ループ候補から除外する。次に、除外されずに残った各ループ候補について、その全体を、左部、右部、上部に分け、該左部と該右部について曲線らしさの度合いを求める。そして、左部、右部共に、直線と判定されたものを、ループ候補から除外する。
【0051】
2) 枠接触点付近のループ候補の傾きによる判定
各ループ候補について、その枠接触点近傍の数画素から構成される近似直線の平均の傾きを求め、その傾きが、予め、定められた条件を満足しないものについては、それを、ループ候補から除外する。
【0052】
3) 枠接触点間距離(接触幅)と最大幅の比による判定
各ループ候補について、枠接触幅に対するループ内部での最大幅との比を求め、その値が予め定められたしきい値以下のものについては、それをループ候補から除外する。
【0053】
上記1)〜3)の方法を単独で、または、組み合わせて使用することにより、最終的に補完すべきループ候補を判定する。
続いて、上記1)〜3)の方法を、図面を用いて、具体的に説明する。
【0054】
この場合、n×m画素の矩形に切り出された文字パターン(文字ループ候補)に対し、そのループ部分に接する枠の線分と平行な方向を、平面座標系のX軸とし、該X軸に垂直となるようにY軸を選ぶ。該Y軸の向きは、枠接触点がY座標の最大値となるように定める。また、各しきい値には、予め、実験によって得られた最良な値を定める。
【0055】
図10は、上記1)の曲線度による判定方法を説明する図である。
この方法では、各Y座標値に対し、X軸方向に走査し、画素値が”1”から”0”に変化する点の数を計数する。そして、その計数値の中の最大値をnmax とする。また、真のループの判定基準となる最大交差点数のしきい値をnt とする。そして、
max −nt >0 (1−1)
となるものを、ループ候補から除外する。
【0056】
これにより、図10(a)に示す、下部が枠と接触した「M」等の例外となる凹型のループ候補を、補完対象から除くことができる。また、図10(b)に示す「O」等のような、補完対象となる凸型のループ候補は、除外されない。
尚、上記nt の値は、理想的には「2」が適切であるが、実際には、「3」程度が最も良い。
【0057】
次に、図11に示すように、同図(a)に示すループ部分をY軸方向に投影し、同図(b)に示すように、該ループ部分のY軸方向での画素数のヒストグラムを求める。このとき、ループ部分の左右の枠接触点を、それぞれ、Ps ,f とする。又、ヒストグラムの値が、しきい値tをこえたときのY座標の値をyt とする。さらに、Y座標値が、yt −1となるループ上の左右の点を、それぞれ、Pl 、Pr とする。尚、yt が無い場合には、Y座標値が最小のループ部分上の点をPとし、P=Ps =Pf とする。ところで、yt は、ループ部分での中央部のY座標値の指標となるものである。
【0058】
次に、Pl とPs 間を結ぶ線分、又は、Pl 、Ps 間に含まれる点列について、それらを表す直線の方程式を、最小二乗法により
1 (x)=al ×x+bl (1−2)
として、求める。同様に、Pf 、Pr 間についても、その直線の方程式を、
r (x)=ar ×x+br (1−3)
として、求める。
【0059】
ここで、aは直線の傾き、bはY軸切片を表す。また、f1 (x)、fr (x)は、それぞれ、ループ部分での左部、右部の近似直線である。
続いて、ループ候補の左右のループ部分の曲線らしさの度合いを、それぞれ、dl , d r で表し、これらを、上記式(1−2)、(1−3)で表される直線の、実際のループ曲線からの距離の二乗和で定義する。
【0060】
l =Σ(yi −al ×xi −bl2 (1−4)
;和は、Pl 、Ps 間に含まれるループ候補上の全ての点(xi 、yi )についてとる
r =Σ(yi −ar ×xi −br2 (1−5)
;和は、Pl 、Ps 間に含まれるループ候補上の全ての点(xi 、yi )についてとる
但し、このままだと、dl 、dr が、上記Pl 、Ps 間、及びPr 、Pf 間の長さ(画素数)に依存してしまうので、これらdl 、dr を、それぞれ、下記の式(1−6)、(1−7)により、正規化する。
【0061】
l ' =dl /gl (1−6)
r ' =dr /gr (1−7)
ここで、gl はループ部分上のPl 、Ps 間に含まれる画素数、
r はループ部分上のPr 、Pf 間に含まれる画素数である。
【0062】
そして、このdl ' 、dr ' を用いて、ループ判定を行う。すなわち、これらdl ' 、dr ' の値が小さい程、ループ候補のストロークの各部分は直線に近く、該ループ候補は文字ループでは無いという可能性が高くなる。左右の部分が、共に、直線から構成される文字ループは、殆ど存在しないので、曲線らしさの度合いのしきい値をqとすれば、判定すべきループ候補の中で、
l ' <q かつ dr ' <q (1−8)
であるものを、ループ候補から除外する。すなわち、ループ候補を左、中央、右の各部に分割し、左右の部分が双方共、直線とみなされるものを、補完対象となるループ候補から除外する。但し、ヒストグラム値がしきい値tを越えるY座標値が無い場合には、中央部は存在しない。
【0063】
次に、図12は、上記2)の枠接触点付近のループ候補の傾きによる判定方法を説明する図である。
同図において、検出されたループ候補と枠との二つの接触点の内、一方の接触点をPs , 他方の接触点をPf する。そして、Ps 、Pf からm番目の画素を、それぞれ、Psm, =(xsm,ysm),Pfm=(xfm,yfm)とする。また、線分Ps −Psm、Pf −Pfmの傾きを、それぞれ、asf で表し、これらを、
s =(xs −xsm)/(ys −ysm) (2−1)
f =(xfm−xf )/(yfm−yf ) (2−2)
と、定義する。
【0064】
尚、(xi ,yi ;i=s,smまたは、i=f,fm)を,ループ候補の各画素PI の座標とする。
そして、この傾きas 、af の符号によって、上記ループ候補の左右部の線分の傾きの方向を判定する。
【0065】
図12において、Ps を左部の接触点、Pf を右部の接触点とすれば、
s >0 または af >0 のとき \方向(右下がりの方向) (2−3)
s <0 または af <0 のとき /方向(右上がりの方向) (2−4)
s =0 または af =0 のとき ―方向(垂直方向) (2−5)
の傾きとなる。但し、実際には、読み取られるループの画像には、多少の凹凸があるので、ごくわずかな傾きを無視するために、しきい値h(>0)を定めて−h<as またはaf <h (2−6)
である場合は、
s 、af =0 (2−7)
とみなす。
【0066】
上記傾きの判定によって、左右の各部の接触点付近のストロークの傾きの組が
左部 右部
\ / ;例 「0」、「6」等の下部接触
― / ;例 「B」、「D」等の下部接触
\ ― ;例 「P」等の上部接触
であるものを、補完すべきループとして判定する。
【0067】
また、
左部 右部
/ \ ;例 「A」、「X」等の下部接触
― \ ;例 「R」、「N」等の下部接触
/ ― ;例 「K」等の上部接触
を、補完すべきでないループと判定する。
【0068】
左部 右部
/ /
― ―
\ \
の組み合わせについては、手書き文字の傾きによって、補完すべきループと補完すべきでないループに分かれるので、この場合は、判定の対象外とする。
【0069】
続いて、図13は、上記3)の枠接触点間距離(枠接触幅)と最大幅の比による判定方法を、より詳細に説明する図である。
この場合、同図に示すように、枠接触幅(左部接触点と右部接触点間の距離)をWd ,ループ候補の内周部をX軸方向に走査して求めた最大値、すなわち、該内周部の枠または罫線と平行な方向の最大幅をWmax とする。そして、枠接触幅Wd に対する上記最大値Wmax の比Wmax /Wd のしきい値をWt とする。
【0070】
この場合、真のループは、
max /Wd >Wt (3−1)
を、満足する。
【0071】
図13の例では、(a)が上記条件を満足する。これは、例えば、「O」、「8」等の下部接触の場合が該当する。一方、(b)は、例えば、Wt ≧1で上記条件が満足されない例であり、例えば、「H」等の下部接触が該当する。
【0072】
次に、上記ループ候補抽出部1035が、ストローク補完部1034から入力される各文字の文字パターンについて、ループ候補を抽出する動作を、図14のフローチャートを参照しながら説明する。
【0073】
まず、ストローク補完部1034から入力される文字について、枠接触文字(罫線との枠接触文字も含む)であるか否かを判別する(S21)。そして、枠接触文字で無ければ(S11、NO)、以後の処理を中止する。
【0074】
一方、枠接触文字で有れば(S11、YES)、左部接触点oi (i=1,2,...)と右部接触点ei (i=1,2,...)の座標を求める(S22)。続いて、ei を始点として文字輪郭線を追跡する(S23)。そして、終点がoi+1 であるか否か判別し(S24)、oi+1 であれば、上記文字輪郭線をループ候補として、記憶する(S25)。他方、終点がoi+1 で無ければ(S24、NO)、ループ候補では無いと判別して(S24、NO),上記ステップS22に戻る。
【0075】
上記ステップS22〜S25の処理を、全ての右部接触点e1 、e2 、...について行い、上記入力文字パターンの文字輪郭線の中から、ループ候補を抽出する。そして、該ループ候補が抽出された文字パターンは、ループ判定部1036に出力される。
【0076】
次に、図15〜17のフローチャートを参照しながら、ループ判定部1036がループ候補抽出部1035によって抽出されたループ候補の中から、補完対象とすべきループ候補(真のループ候補)を判定する処理を説明する。
【0077】
図15は、上記1)の曲線度による判定を用いた処理を、説明するフローチャートである。
まず、文字ループ候補をそれが接触している枠辺と平行な方向に走査し、上記最大交差点数nmax を導出する(S31)。
【0078】
続いて、該nmax を上記しきい値nt と比較し、nmax >nt であるか否か判別する(S32)。そして、上記条件を満足していれば(S32、YES),このループ候補を真のループ候補から除去する。
【0079】
一方、上記条件を満足していなければ(S32、NO),ループ候補をY軸方向に投影して、Y軸での該ループ候補の画素数のヒストグラムを作成する(S34)。そして、ヒストグラム値がしきい値tを越える(ヒストグラム値>t)Y座標yt が存在するか調べる(S35)。
【0080】
そして、該Y座標yt が存在しない場合には(S35、NO),上記ループ候補上のY座標値が最小の点(画素)のY座標値yminを、上記yt に設定して、ステップS37の処理に移る。一方、上記ステップS35でyt が存在すれば(S35、YES)、直ちにステップS37の処理に移る。
【0081】
ステップS37では、Y座標値がyt −1であるループ候補の2点Pl 、Pr を求める。また、該ループ候補の左の枠接触点Ps 、右の枠接触点Pf も求める。
【0082】
次に、Ps 、Pl を通過する左部ストロークを、上記式(1−2)で表される直線f1 (x)で近似すると共に、Pf 、Pr を通過する右部ストロークを、上記式(1−3)で表される直線fr (x)で近似する(S38)。
【0083】
続いて、例えば、上述のようにして、上記左部ストロークの曲線度dl ' と、上記右部ストロークの曲線度dr ' を計算する(S39)。そして、該dl ' とdr ' が共にしきい値qよりも小さい(dl ' 、dr ' <q)か否か、すなわち、上記左右のストロークが共に直線であるか否かを、判別する(S40)。
【0084】
そして、上記条件が満足されており、上記両ストロークが直線であれば(S40、YES)、このループ候補を真のループ候補から除去する。一方、上記条件が満足されず、少なくとも、いずれか一方のストロークが、直線でないときには(S40、NO),このループ候補を保存する(S41)。
【0085】
次に、図16は、ループ判定部1036が、上記2)の枠接触点付近のループ線分の傾きによる判定により、真のループ候補を判定する処理を説明するフローチャートである。
【0086】
まず、ループ候補の枠との2つの接触点Ps 、Pf を求める。次に、該ループ候補上における、これらの枠接触点Ps 、Pf からm番目に位置する画素(点)Psm、Pfmを求める(S51)。
【0087】
続いて、上記方法により、線分Ps −Psmの傾きas と、線分Pf −Pfmの傾きaf を計算する(S52)。そして、−h<as またはaf <h(hはしきい値)となっているか判別する(S53)。そして、該条件が満足されていれば(S53、YES)、as 、af を共に”0”に設定し(S54)、ステップS55に移る。また、上記ステップS53で上記上記条件が満足されていなければ(S53、NO),直ちに、該ステップS55に移る。
【0088】
ステップS55では、以下の条件式(3−1)〜(3−3)が満足されているか否か調べる。
s >0 かつ af <0 (3−1)
s >0 かつ af =0 (3−2)
s =0 かつ af <0 (3−3)
そして、上記式(3−1)〜(3−3)の条件が、いずれも満足されない場合には(S55、NO)、このループ候補を真のループ候補から除去する。
【0089】
一方、上記式(3−1)〜(3−3)の条件が、いずれか一つでも満足される場合には、このループ候補を真のループ候補として保存する(S56)。
次に、図17は、ループ判定部1036が、上記3)の枠接触幅と最大幅の比による判定方法を用いて、ループ候補抽出部1035によって抽出された文字ループ候補の中から、真のループ候補を判定する処理を説明するフローチャートである。
【0090】
まず、枠とループ候補との2つの接触点、すなわち、左右の接触点Ps 、Pf 間の距離Wd を計算する(S61)。
次に、ループ候補の内周部をX軸方向に走査して、該内周部の最大幅Wmax を求める(S62)。
【0091】
続いて、上記Wmax に対するWd x の比Wmax /Wd を計算する(S63)。
そして、該比Wmax /Wd がしきい値Wt よりも大きいか(Wmax /Wd >Wt )否か判別する(S64)。そして、該条件が満足されていなければ(S64、NO)、このループ候補を真のループ候補から除去する。
【0092】
一方、該条件が満足されていれば(S62、YES)、このループ候補を真のループ候補として保存・記憶する(S65)。
ループ判定部1036は、上述した図15〜図17の判定方法を単独に、または組み合わせて、ループ候補抽出部1035によって抽出されたループ候補の中から真のループ候補を判定し、それを、保存する。
【0093】
以上のようにして、真のループ候補が保存された文字パターンは、ループ補完部1037に出力される。
図18は、ループ判定部1036によって、真のループ候補と判定され、枠または罫線除去後に、ループ補完部1037によって、その枠または罫線と接触しているループ部分が補完される文字の例を示す図である。
【0094】
同図(a)は、枠に右部接触した「0」の数字が補完される例である。また、同図(b)は、枠に右部接触した「6」の数字が補完される例である。さらに、同図(c)は、枠に右部接触した「8」の数字が補完される例である。
これらのいずれの例の場合においても、右部接触した各数字は、上記1)〜3)の判定によって、そのループ候補が真のループ候補と判定・保存される。
【0095】
尚、上記実施例では、主に、英数字のループ補完の処理について述べているが、本発明は、これに限定されることなく、そのループ部分が枠または罫線と接する可能性のある全ての文字(漢字やその他の言語で用いられる文字等)や、図形等のル−プ形状部分の補完にも適用可能なものである。
【0096】
【発明の効果】
本発明によれば、枠または罫線等に接してループを構成している(形成している)文字パターンから、該枠または罫線等を除去した後に残されるパターンを、ループ候補として抽出することができる。また、該抽出されたループ候補の中から、該枠または罫線除去後に、その本来のループ部分の一部が途切れてしまった、補完をすべき必要がある真のループ候補を、判定・抽出することができる。また、該補完すべきと判定された真のループ候補について、枠または罫線等を除去したために途切れてしまったループ部分を補完することができる。また、これにより、ループ部分が枠または罫線等に接触した文字の誤読を防止できる。
【図面の簡単な説明】
【図1】本発明の原理を説明する図(その1)である。
【図2】本発明の原理を説明する図(その2)である。
【図3】本発明の原理を説明する図(その3)である。
【図4】本発明の一実施例である光学的文字認識装置のシステム構成を示すブロック図である。
【図5】上記光学的文字認識装置内の文字切出し部の一構成例を示すブロック図である。
【図6】枠と下部接触してループを形成する文字の例を示す図である。
【図7】ループ候補抽出部、ループ判定部、及びループ補完部の一連の動作を説明するフローチャートである。
【図8】枠または罫線との接触の種類に応じた座標軸の設定方法を説明する図である。
【図9】ループ候補の抽出方法を説明する図ある。
【図10】最大交差点数に基づき、抽出されたループ候補の中から、補完対象外のものを除外する方法を説明する図である。
【図11】ループ候補の左右部の曲線度を導出する方法を説明する図である。
【図12】ループ候補の左右部の枠接触点付近での傾きを、求める方法を説明する図である。
【図13】枠接触幅とループ候補の内周方向での最大幅の求めかたを説明する図である。
【図14】ループ候補抽出部の動作を説明するフローチャートである。
【図15】ループ判定部が、曲線度により、補完すべきループ候補を判定・保存する処理を説明するフローチャートである。
【図16】ループ判定部が、枠接触点付近での傾きを用いて、補完すべきループ候補を判定・保存する処理を説明するフローチャートである。
【図17】 ループ判定部が、上記枠接触幅と上記ループ候補の内周方向での最大幅を用いて、補完すべきループ候補を判定・保存する処理を説明するフローチャートである。
【図18】本実施例により、ループ部分が枠または罫線と左部接触した数字が、正しく補完される例を示す図である。
【図19】従来の方法により、枠からはみ出して手書きされた数字が、補完される例を示す図である。
【図20】ループ部分が枠と接触してしまったため、補完がなされず、誤読されてしまう例を示す図でる。
【符号の説明】
32、42、52 検出手段
34、44、54 抽出手段
46、56 選別手段
58 補完手段

Claims (6)

  1. 枠または罫線に、その一部が接触してループを形成している文字パターンを検出する手段と、
    該検出手段によって検出された文字パターンから、上記枠または罫線を除去した後に残されるパターンをループ候補を有するものとして抽出し、上記枠または罫線と前記ループ部分のストロークの文字輪郭線との、白画素から黒画素に変化する左部接触点(O1,O2,・・・)と黒画素から白画素に変化する右部接触点(E1,E2,・・・)を全て求め、次にそれらの接触点の中の2つの接触点間を結ぶ文字輪郭線について、該文字輪郭線の始点と終点が、右部接触点Enと左部接触点On+1であるか、もしくは左部接触点Onと右部接触点En−1であるか否かを調べて、該文字輪郭線が上記ループ候補に該当するか否かを判定して、上記文字輪郭線の中から前記ループ候補を抽出する抽出手段と、
    を備えることを特徴とする文字ループ候補抽出装置
  2. 請求項1記載の文字ループ候補抽出装置において、
    前記抽出手段によって抽出されたループ候補の中から、上記枠または罫線の除去によって途切れた部分を有する補完対象のループ候補を選別する選別手段をさらに備え、
    前記選別手段は、前記ループ候補を、それと接触している枠または罫線と平行な方向に走査して、該走査線と交差する交差点を求め、得られた交差点の最大数が、予め定められたしきい値よりも大きいループ候補を、補完対象から除外することを特徴とする文字ループ候補抽出装置
  3. 請求項1記載の文字ループ候補抽出装置において、
    前記抽出手段によって抽出されたループ候補の中から、上記枠または罫線の除去によって途切れた部分を有する補完対象のループ候補を選別する選別手段をさらに備え、
    前記選別手段は、前記ループ候補の左部と右部の曲線らしさの度合いを求める曲線度算出手段と、該曲線度算出手段によって得られた結果に基づいて、上記左部と右部が直線であるか否か判定する直線判定手段と、該直線判定手段により、上記左部と右部が共にほぼ直線に近いと判定されたループ候補を、補完対象から除外する除外手段とを有することを特徴とする文字ループ候補抽出装置
  4. 請求項1記載の文字ループ候補抽出装置において、
    前記抽出手段によって抽出されたループ候補の中から、上記枠または罫線の除去によって途切れた部分を有する補完対象のループ候補を選別する選別手段をさらに備え、
    前記選別手段は、前記ループ候補の枠接触点付近での左部と右部の線分の傾きを求める傾き算出手段と、該傾き算出手段によって得られた上記左部と右部の線分の傾きの組み合わせに基づいて、補完対象から除外すべきループ候補を判定し、そのループ候補を、補完対象から除外する除外手段とを有することを特徴とする文字ループ候補抽出装置
  5. 請求項1記載の文字ループ候補抽出装置において、
    前記抽出手段によって抽出されたループ候補の中から、上記枠または罫線の除去によって途切れた部分を有する補完対象のループ候補を選別する選別手段をさらに備え、
    前記選別手段は、前記ループ候補の枠または罫線との接触幅を算出する第1の算出手段と、前記ループ候補の内周部における、上記枠または罫線と平行な方向での最大幅を算出する第2の算出手段と、上記第1及び第2の算出手段によって求められた上記接触幅と最大幅とを基に、補完対象から除外すべきループ候補を判定し、そのループ候補を、補完対象から除外する除外手段とを有することを特徴とする文字ループ候補抽出装置
  6. 請求項2乃至5いずれか一つに記載の文字ループ候補抽出装置を備えた文字補完装置において、
    前記選別手段によって選別されたループ候補の上記途切れたループ部分を補完する補完手段を備えたことを特徴とする文字補完装置。
JP04935295A 1995-03-09 1995-03-09 文字ループ候補抽出装置及び文字補完装置 Expired - Fee Related JP3662967B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04935295A JP3662967B2 (ja) 1995-03-09 1995-03-09 文字ループ候補抽出装置及び文字補完装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04935295A JP3662967B2 (ja) 1995-03-09 1995-03-09 文字ループ候補抽出装置及び文字補完装置

Publications (2)

Publication Number Publication Date
JPH08249420A JPH08249420A (ja) 1996-09-27
JP3662967B2 true JP3662967B2 (ja) 2005-06-22

Family

ID=12828631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04935295A Expired - Fee Related JP3662967B2 (ja) 1995-03-09 1995-03-09 文字ループ候補抽出装置及び文字補完装置

Country Status (1)

Country Link
JP (1) JP3662967B2 (ja)

Also Published As

Publication number Publication date
JPH08249420A (ja) 1996-09-27

Similar Documents

Publication Publication Date Title
US7164795B2 (en) Apparatus for extracting ruled line from multiple-valued image
Nikolaou et al. Segmentation of historical machine-printed documents using adaptive run length smoothing and skeleton segmentation paths
US5410611A (en) Method for identifying word bounding boxes in text
US7519226B2 (en) Form search apparatus and method
JP2951814B2 (ja) 画像抽出方式
EP0385009A1 (en) Apparatus and method for use in image processing
US20010041006A1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
EP0381773B1 (en) Character recognition apparatus
JP3830998B2 (ja) 罫線除去方法及びこれを用いた文字認識装置
JP3411472B2 (ja) パターン抽出装置
JP4011646B2 (ja) 行検出方法および文字認識装置
JP5630689B2 (ja) 文字認識方法及び文字認識装置
JP3092576B2 (ja) 文字認識装置
JP4543675B2 (ja) 文字・図形の認識方法
JP3662967B2 (ja) 文字ループ候補抽出装置及び文字補完装置
JP3370934B2 (ja) 光学的文字読み取り方法とその装置
Nguyen et al. Enhanced character segmentation for format-free Japanese text recognition
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JP5039659B2 (ja) 文字認識方法及び文字認識装置
Bushofa et al. Segmentation and Recognition of Printed Arabic Characters.
Sathik et al. TEXT LINE SEGMENTATION IN TAMIL LANGUAGE PALM LEAF MANUSCRIPTS–A NOVEL APPROACH
JPH0877293A (ja) 文字認識装置および文字認識用辞書作成方法
JP3710164B2 (ja) 画像処理装置及び方法
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법
JPH1040333A (ja) 帳票認識装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050325

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080401

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090401

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees