JPH08249420A - ループ候補抽出装置、真のループ候補判定装置、及び文字補完装置 - Google Patents

ループ候補抽出装置、真のループ候補判定装置、及び文字補完装置

Info

Publication number
JPH08249420A
JPH08249420A JP7049352A JP4935295A JPH08249420A JP H08249420 A JPH08249420 A JP H08249420A JP 7049352 A JP7049352 A JP 7049352A JP 4935295 A JP4935295 A JP 4935295A JP H08249420 A JPH08249420 A JP H08249420A
Authority
JP
Japan
Prior art keywords
loop
frame
loop candidate
candidate
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7049352A
Other languages
English (en)
Other versions
JP3662967B2 (ja
Inventor
Misako Suwa
美佐子 諏訪
Satoshi Naoi
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP04935295A priority Critical patent/JP3662967B2/ja
Publication of JPH08249420A publication Critical patent/JPH08249420A/ja
Application granted granted Critical
Publication of JP3662967B2 publication Critical patent/JP3662967B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Executing Machine-Instructions (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【目的】本発明は、文字認識処理における文字切り出し
方式に関し、枠または罫線等に接した文字を、該枠また
は罫線等を除去した後に、正しく補完できるようにする
ことを目的とする。 【構成】ループ候補抽出部1035は、ストローク補完
部1034によって補完された文字パターンの中で、枠
または罫線等に接してループを形成しているものを、ル
ープ候補として抽出する。ループ判定部1036は、そ
れらのループ候補の中から、それらの幾何学的特徴を基
に、枠または罫線等を除去した後に、一部が途切れてし
まった、補完を必要とする真のループ候補を判定する。
ループ補完部1037は、該ループ判定部1036によ
って、補完が必要であると判定されたループ候補を、正
しく、補完する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置において
文字を切り出す装置に係わり、特に枠や罫線等に接した
文字パターン中の上記枠や罫線等を除去したときに除去
されてしまう部分を正しく補完する文字補完装置に関す
る。
【0002】
【従来の技術】近年、手書き用紙から情報処理装置に該
手書きデータをテキスト・データとして入力する周辺装
置として、手書き文字認識装置の需要が増加している。
この手書き文字認識装置は、前処理として文字列から一
文字ずつを切り出す文字の切りだし処理を行う。この文
字の切り出し処理は、個々の文字を正確に認識するため
に重要な処理である。
【0003】帳票等では、予め、文字を手書きする位置
や領域等が、罫線、一文字枠、横または縦一行のブロッ
ク枠、表形式のブロック枠、さらには、フリーフォーマ
ット枠として印刷されている。この場合、上記印刷色が
ドロップ・アウト・カラーであれば、手書きされた文字
のみをイメージ・スキャナー等により読み取ることがで
きるが、上記印刷色がドロップ・アウト・カラーではな
く、黒色等の手書きされる色と同一色の非ドロップ・ア
ウト・カラーである場合には、上記罫や枠等も手書き文
字と一緒に読み取られてしまう。このため、例えば、文
字枠内に記入された文字が枠からはみ出していたり、接
触していたりする場合、枠を抽出・除去すると切り出し
た文字の一部が欠けてしまい、誤読が生ずる。
【0004】このため、従来は、例えば、図19に示す
ように、枠11からはみ出して手書きされた文字の場合
(同図(a)参照)、一度、枠11を除去した後に(同
図(b)参照)、枠11付近における枠11からはみ出
した部分13と枠内の文字線分15のストロークの方向
性や距離を判定して、該枠11の除去により欠けてしま
った部分を補完する方法が採用されている(同図(c)
参照)。
【0005】
【発明が解決しようとする課題】しかし、上記従来の方
法では、文字が枠と接していて、該文字が該枠からはみ
出していない場合、該文字を補完することが出来ないと
いう問題があった。
【0006】このような例を図20に示す。同図では、
文字「B」の下部のループ部分の一部が枠11と接して
しまったために(同図(a)参照)、枠11を除去した
結果(同図(b)参照)、補完が行われずに(同図
(c)参照)、同図(d)に示すように、別の文字
「R」に誤読されてしまう。
【0007】本発明は、枠や罫線等に接した文字を正確
に補完できるようにすることを、目的とする。
【0008】
【課題を解決するための手段】図1は、本発明(第一の
発明)の原理を説明する図でる。この第一の発明は、以
下の各手段を備える。
【0009】検出手段32は、枠または罫線に、その一
部が接触している文字パターンを検出する。抽出手段3
4は、該検出手段32によって検出された文字パターン
から、上記枠または罫線を除去した後に残されるループ
部分を、ループ候補として抽出する。
【0010】前記抽出手段34は、例えば、枠または罫
線と、文字ストロークとの交点を全て求め、次に、それ
らの交点の中の2つの交点間をぶ文字輪郭線について、
該2つの交点の位置関係を調べて、該文字輪郭線が上記
ループ候補に該当するか否かを判定する。
【0011】次に、図2は、本発明(第二の発明)の原
理を説明する図である。この第二の発明は、以下の各手
段を備える。検出手段42は、枠または罫線に、その一
部が接触している文字パターンを検出する。
【0012】抽出手段44は、該検出手段42によって
検出された文字パターンから、上記枠または罫線を除去
した後に残されるループ部分を、ループ候補として抽出
する。
【0013】選別手段46は、該抽出手段44によって
抽出されたループ候補の中から、そのループ候補の幾何
学的特徴を調べることにより、補完すべきループ候補を
選別する。
【0014】前記選別手段46は、例えば、前記選別す
べきループ候補の幾何学的特徴として、手書き文字のよ
うに変形が大きいループでも比較的安定に抽出すること
ができる特徴を用いる。また、これ以外に、手書き文字
のように変形が大きく、かつサイズの小さいループでも
比較的安定に抽出できる特徴を用いる。
【0015】前記選別手段46は、例えば、前記ループ
候補を、それと接触している枠または罫線と平行な方向
に走査して、該走査線と交差する交差点を求め、得られ
た交差点の最大数が、予め定められたしきい値よりも大
きいループ候補を、補完対象から除外する。
【0016】また、前記選別手段46は、前記ループ候
補の左部と右部の曲線らしさの度合いを求める曲線度算
出手段と、該曲線度算出手段によって得られた結果に基
ずいて、上記左部と右部が直線であるか否か判定する直
線判定手段と、該直線判定手段により、上記左部と右部
が共にほぼ直線に近いと判定されたループ候補を、補完
対象から除外する除外手段と、を備える。
【0017】また、さらに、前記選別手段46は、前記
ループ候補の枠接触点付近での左部と右部の線分の傾き
を求める傾き算出手段と、該傾き算出手段によって得ら
れた上記左部と右部の線分の傾きの組み合わせに基ずい
て、補完対象から除外すべきループ候補を判定し、その
ループ候補を、補完対象から除外する除外手段と、を備
える。
【0018】また、さらに、前記選別手段46は、前記
ループ候補の枠または罫線との接触幅を算出する第1の
算出手段と、前記ループ候補の内周部における、上記枠
または罫線と平行な方向での最大幅を算出する第2の算
出手段と、上記第1及び第2の算出手段によって求めら
れた上記接触幅と最大幅とを基に、補完対象から除外す
べきループ候補を判定し、そのループ候補を、補完対象
から除外する除外手段と、を備える。
【0019】図3は、本発明(第三の発明)の原理を説
明する図である。この第三の発明は、以下の各手段を備
える。検出手段52は、枠または罫線に、その一部が接
触している文字パターンを検出する。
【0020】抽出手段54は、該検出手段52によって
検出された文字パターンから、上記枠または罫線を除去
した後に残されるループ部分を、ループ候補として抽出
する。
【0021】選別手段56は、該抽出手段54によって
抽出されたループ候補の中から、そのループ候補の幾何
学的特徴を調べることにより、補完すべきループ候補を
選別する。
【0022】補完手段58は、該選別手段54によって
選別されたループ候補の途切れてしまった部分を補完す
る。
【0023】
【作用】前記第一の発明では、まず、検出手段32が、
枠または罫線に、その一部が接触している文字パターン
を検出する。次に、抽出手段34が、該検出手段32に
よって検出された文字パターンから、上記枠または罫線
を除去した後に残されるループ部分を、ループ候補とし
て抽出する。
【0024】したがって、枠または罫線に、その一部が
接触している文字パターン中における、枠または罫線に
接触してループを構成する部分を、ループ候補として抽
出することができる。
【0025】前記第二の発明では、まず、検出手段42
が、枠または罫線に、その一部が接触している文字パタ
ーンを検出する。次に、抽出手段44は、該検出手段4
2によって検出された文字パターンから、上記枠または
罫線を除去した後に残されるループ部分を、ループ候補
として抽出する。そして、さらに、選別手段46が、該
抽出手段44によって抽出されたループ候補の中から、
そのループ候補の幾何学的特徴を調べることにより、補
完すべきループ候補を選別する。前記選別手段46は、
例えば、前記選別すべきループ候補の幾何学的特徴とし
て、手書き文字のように変形が大きいループでも比較的
安定に抽出することができる特徴を用いる。また、これ
以外に、手書き文字のように変形が大きく、かつサイズ
の小さいループでも比較的安定に抽出できる特徴を用い
る。
【0026】したがって、枠または罫線に接触している
文字パターンにおける、該枠または罫線に接触してルー
プを形成しているループ候補の中から、それらの幾何学
的特徴を調べることにより、本来、ループであるにもか
かわらず、枠または罫線除去後に、その一部が途切れて
しまったループ候補、すなわち、その途切れた部分を補
完する必要のあるループ候補を、選別することができ
る。
【0027】第三の発明では、まず、検出手段52が、
枠または罫線に、その一部が接触している文字パターン
を検出する。次に、抽出手段54は、該検出手段52に
よって検出された文字パターンから、上記枠または罫線
を除去した後に残されるループ部分を、ループ候補とし
て抽出する。続いて、選別手段56が、該抽出手段54
によって抽出されたループ候補の中から、そのループ候
補の幾何学的特徴を調べることにより、補完すべきルー
プ候補を選別する。そして、補完手段58が、該選別手
段56によって選別されたループ候補の途切れてしまっ
た部分を補完する。
【0028】したがって、そのループ部分が枠または罫
線に接触してしまったために、該枠または罫線除去後
に、そのループ部分が途切れてしまった文字パターン
を、正しく、補完することができる。
【0029】
【実施例】図4は、本発明の一実施例である光学的文字
認識装置(OCR)100の構成を示すブロック図であ
る。
【0030】観測部101は、帳票上に記入された文字
及び該文字と同一色の文字枠または罫線等をイメージ・
スキャナ等で光学的に読み取って、それらのイメージ・
データを光電変換して二値の画像データに変換する。
【0031】文字切出し部103は、該観測部101か
ら入力される画像データから、枠や罫線等の画像データ
を除去して、文字を一文字ずつ切り出す。正規化部10
5は、該文字切出し部103によって切り出された文字
パターンの大きさを、拡大・縮小したり、画像変換によ
って文字の変形を減少させる等の文字パターンの正規化
処理を行う。
【0032】特徴抽出部107は、該正規化部105か
ら入力される文字パターンから特徴値を抽出する。辞書
部109は、各文字種の代表的特徴値が格納されている
複数の辞書を記憶しているメモリである。
【0033】照合部111は、上記特徴抽出部107か
ら入力される特徴値と該辞書部109の各辞書に格納さ
れている特徴値との距離計算を行い、最も該距離が短い
特徴値が格納されている辞書の属する文字種を中間認識
結果として出力する。
【0034】後処理部113は、例えば、読み取られた
文字が書かれていた位置が、人名の入力領域または、住
所の入力領域であるなどの情報を基に、上記照合部11
1から入力される認識結果を再判定する。そして、必要
に応じて該認識結果を補正して、最終的な認識結果を外
部のホスト装置に出力する。
【0035】図5は、本実施例の要部である上記文字切
出し部103の一構成例を示すブロック図である。枠抽
出部1031は、上記観測部101から入力される二値
の画像データ内に枠や罫線の画像データが含まれている
か否かを判定し、含まれている場合には該枠や罫線の画
像データを抽出する。
【0036】枠除去部1032は、該枠抽出部1031
によって抽出された枠または罫線の画像を上記二値の画
像データから除去する。一文字切り出し部1033は、
該枠除去部1033から入力される文字列の画像データ
から既存の手法(枠幅による分離、ラベリング等)を用
いて、一文字毎に文字を切り出す。
【0037】ストローク補完部1034は、該一文字切
り出し部1033から入力される文字の内、上記枠除去
部1032によってストロークの途切れた文字につい
て、前述した既存の手法を用いて補完する。
【0038】ループ候補抽出部1035は、該ストロー
ク補完部1034から入力される文字の内、枠または罫
線に接してループを構成する文字を抽出する。また、該
抽出した文字の中から上記ループが本来のループである
か否かを判定するために用いるループ候補を抽出する。
【0039】ループ判定部1036は、該ループ候補抽
出部1035によってループ候補として抽出された文字
について、そのループ候補の幾何学的特徴を調べて、枠
または罫線の除去によって、ループが切れてしまった文
字を判定(選別)する。
【0040】ループ補完部1037は、該ループ判定部
1036によって補完すべきであると判定された文字に
ついて、その途切れているループ部分を補完する。次
に、上記構成の実施例の動作を説明する。
【0041】図6は、下部が枠または罫線と接触したと
きに、該接触部でループを構成する文字の例を示す図で
ある。これらの文字は、上記枠または罫線除去後に、そ
のループ部分を補完する必要がある文字とそうでない文
字に分けられる。
【0042】同図に示す文字群210、220は、共
に、その下部が、枠あるいは罫線と接触して、ループを
形成する複数の文字を示している。文字群210に属す
る文字は、そのループ部分が枠または罫線と接触した文
字である。これらの文字は、該枠あるいは罫線を除去し
た後に、該除去に伴ってそのループ部分が消失されるた
め、その消失されたループ部分を補完する必要のあるも
のである。
【0043】一方、右側に示す文字群220に属する文
字は、本来、ループ状でない下部が、枠あるいは罫線と
接触することによってループを形成する文字である。こ
れらの文字は、該ループがその文字本来のものではない
ために、上記枠あるいは罫線を除去した後に、その下部
を補完する必要が無いものである。
【0044】このように、枠または罫線を除去した後に
ループ判定(枠または罫線と接してループを形成するか
否かの判定)をすべき文字は、そのループをすべき文字
とその必要が無い文字とに分けられる。
【0045】次に、上記ループ候補抽出部1035、ル
ープ判定部1036、及びループ候補抽出部1035の
一連の動作を説明する。まず、ループ候補抽出部103
5は、枠の一辺に着目して、当該文字パターンが該枠と
接触しているか否か判別する(S11)。そして、該接
触が無ければ(S11、NO)、ループ補完処理を中止
する。
【0046】一方、該接触が生じていれば、次に該文字
パターンが上記枠からはみ出していないか調べ、もし、
はみ出してなければ、上記文字パターンに上記ループ候
補(ループ候補部)があるか否か調べ、あれば、そのル
ープ候補部を抽出する(S12)。次に、上記ステップ
S12で該ループ候補部が抽出されているか否か調べ、
抽出されていなければ(S13、NO)、ループ補完処
理を中止する。
【0047】一方、上記ステップS13で、上記文字パ
ターンにループ候補部が抽出されていれば(S13,Y
ES)、該ループ候補部に補完すべきループがあるか否
かを判定する(S14)。そして、補完すべきループが
存在しなければ、(S15、NO)、ループ補完処理を
中止する。
【0048】一方、補完すべきループが存在すれば(S
15、YES)、上記ループ候補部に該当するループ部
分の、枠または罫線の除去後に、途切れてしまった部分
を補完する(S16)。
【0049】次に、上述したループ候補抽出部1035
の処理(S11〜S12)をより詳細に説明する。ま
ず、ループ候補の抽出方法を説明する。
【0050】図8は、接触部における座標軸の設定方法
を示す図である。枠または罫線との接触の形態は、例え
ば、同図に示すように、下部接触、左部接触、上部接
触、または右部接触の4種類がある。これら各形態に応
じて同図(a),(b),(c),(d)に示すような
二次元の直交X−Y座標系を設定する。
【0051】上記のような座標系において、まず、上述
したように文字パターンが接触し、かつ該パターンが枠
外にはみ出していない場合、上記文字パターンと該枠と
の接触点を求める。該接触点は、X軸の原点に近い方か
ら上記枠を形成する方向に上記文字パターンを走査して
いったときに、画素値が変化する文字輪郭線上の点とす
る。
【0052】図9は、「D」の文字が枠の一辺に接触し
た場合のループ候補の抽出方法の一例を説明する図であ
る。ループ候補抽出部1035は、この場合、同図に示
すように、白画素から黒画素に変化する左部接触点をo
1,o2,...とし、黒画素から白画素に変化する右
部接触点をe1,e2,...とする。そして、第N番
目の右部接触点en(または左部接触点on)から文字
輪郭線上を追跡していったときに、終点が第N+1番目
の左部接触点on+1(または第N−1番目の右部接触
点en−1)で終わるものを、ル−プ候補とする。 図
6の場合には、path1(e1〜o1),2(e2〜
o3),3(e3〜o2)の3つのパスにより、文字輪
郭線の追跡がなされ、最終的にpath2(e2〜o
3)がループ候補として抽出される。
【0053】続いて、上述したループ判定部1036の
処理(S13〜S14)を詳細に説明する。この場合に
も、図8に示す直交X−Y座標系を用いる。また、Y軸
の向きは、枠との接触点がY座標の最大値となるように
定める。また、以下の説明で用いるしきい値は、予め、
実験結果等から得られる最良の値が用いられる。
【0054】上記補完すべきループ候補の判定は、例え
ば、以下に述べる1)〜3)の方法を用いる。 1) 曲線度による判定 抽出したループ候補を、接触枠線分と平行の方向に走査
して、該走査線との交差点を検出する。そして、上記ル
ープ候補の中で、その得られた交差点数が、予め、定め
られた最大交差点数よりも大きいものを、ループ候補か
ら除外する。次に、除外されずに残った各ループ候補に
ついて、その全体を、左部、右部、上部に分け、該左部
と該右部について曲線らしさの度合いを求める。そし
て、左部、右部共に、直線と判定されたものを、ループ
候補から除外する。
【0055】2) 枠接触点付近のループ候補の傾きに
よる判定 各ループ候補について、その枠接触点近傍の数画素から
構成される近似直線の平均の傾きを求め、その傾きが、
予め、定められた条件を満足しないものについては、そ
れを、ループ候補から除外する。
【0056】3) 枠接触点間距離(接触幅)と最大幅
の比による判定 各ループ候補について、枠接触幅に対するループ内部で
の最大幅との比を求め、その値が予め定められたしきい
値以下のものについては、それをループ候補から除外す
る。
【0057】上記1)〜3)の方法を単独で、または、
組み合わせて使用することにより、最終的に補完すべき
ループ候補を判定する。続いて、上記1)〜3)の方法
を、図面を用いて、具体的に説明する。
【0058】この場合、n×m画素の矩形に切り出され
た文字パターン(文字ループ候補)に対し、そのループ
部分に接する枠の線分と平行な方向を、平面座標系のX
軸とし、該X軸に垂直となるようにY軸を選ぶ。該Y軸
の向きは、枠接触点がY座標の最大値となるように定め
る。また、各しきい値には、予め、実験によって得られ
た最良な値を定める。
【0059】図10は、上記1)の曲線度による判定方
法を説明する図である。この方法では、各Y座標値に対
し、X軸方向に走査し、画素値が”1”から”0”に変
化する点の数を計数する。そして、その計数値の中の最
大値をnmax とする。また、真のループの判定基準とな
る最大交差点数のしきい値をnt とする。そして、 nmax −nt >0 (1−1) となるものを、ループ候補から除外する。
【0060】これにより、図10(a)に示す、下部が
枠と接触した「M」等の例外となる凹型のループ候補
を、補完対象から除くことができる。また、図10
(b)に示す「O」等のような、補完対象となる凸型の
ループ候補は、除外されない。尚、上記nt の値は、理
想的には「2」が適切であるが、実際には、「3」程度
が最も良い。
【0061】次に、図11に示すように、同図(a)に
示すループ部分をY軸方向に投影し、同図(b)に示す
ように、該ループ部分のY軸方向での画素数のヒストグ
ラムを求める。このとき、ループ部分の左右の枠接触点
を、それぞれ、Ps ,f とする。又、ヒストグラムの
値が、しきい値tをこえたときのY座標の値をyt とす
る。さらに、Y座標値が、yt −1となるループ上の左
右の点を、それぞれ、Pl 、Pr とする。尚、yt が無
い場合には、Y座標値が最小のループ部分上の点をPと
し、P=Ps =Pf とする。ところで、yt は、ループ
部分での中央部のY座標値の指標となるものである。
【0062】次に、Pl とPs 間を結ぶ線分、又は、P
l 、Ps 間に含まれる点列についてを用いて、それらを
表す直線の方程式を、最小二乗法により f1 (x)=al ×x+bl (1−2) として、求める。同様に、Pf 、Pr 間についても、そ
の直線の方程式を、 fr (x)=ar ×x+br (1−3) として、求める。
【0063】ここで、aは直線の傾き、bはY軸切片を
表す。また、f1 (x)、fr (x)は、それぞれ、ル
ープ部分での左部、右部の近似直線である。続いて、ル
ープ候補の左右のループ部分の曲線らしさの度合いを、
それぞれ、dl , d r で表し、これらを、上記式(1−
2)、(1−3)で表される直線の、実際のループ曲線
からの距離の二乗和で定義する。
【0064】 dl =Σ(yi −al ×xi −bl 2 (1−4) ;和は、Pl 、Ps 間に含まれるループ候補上の全ての
点(xi 、yi )についてとる dr =Σ(yi −ar ×xi −br 2 (1−5) ;和は、Pl 、Ps 間に含まれるループ候補上の全ての
点(xi 、yi )についてとる但し、このままだと、d
l 、dr が、上記Pl 、Ps 間、及びPr 、Pf 間の長
さ(画素数)に依存してしまうので、これらdl 、dr
を、それぞれ、下記の式(1−6)、(1−7)によ
り、正規化する。
【0065】 dl ' =dl /gl (1−6) dr ' =dr /gr (1−7) ここで、gl はループ部分上のPl 、Ps 間に含まれる
画素数、gr はループ部分上のPr 、Pf 間に含まれる
画素数である。
【0066】そして、このdl ' 、dr ' を用いて、ル
ープ判定を行う。すなわち、これらdl ' 、dr ' の値
が小さい程、ループ候補のストロークの各部分は直線に
近く、該ループ候補は文字ループでは無いという可能性
が高くなる。左右の部分が、共に、直線から構成される
文字ループは、殆ど存在しないので、曲線らしさの度合
いのしきい値をqとすれば、判定すべきループ候補の中
で、 dl ' <q かつ dr ' <q (1−8) であるものを、ループ候補から除外する。すなわち、ル
ープ候補を左、中央、右の各部に分割し、左右の部分が
双方共、直線とみなされるものを、補完対象となるルー
プ候補から除外する。但し、ヒストグラム値がしきい値
tを越えるY座標値が無い場合には、中央部は存在しな
い。
【0067】次に、図12は、上記2)の枠接触点付近
のループ候補の傾きによる判定方法を説明する図であ
る。同図において、検出されたループ候補と枠との二つ
の接触点の内、一方の接触点をPs , 他方の接触点をP
f する。そして、Ps 、Pf からm番目の画素を、それ
ぞれ、Psm, =(xsm,ysm),Pfm=(xfm,yfm
とする。また、線分Ps −Psm、Pf −Pfmの傾きを、
それぞれ、as f で表し、これらを、 as =(xs −xsm)/(ys −ysm) (2−1) af =(xfm−xf )/(yfm−yf ) (2−2) と、定義する。
【0068】尚、(xi ,yi ;i=s,snまたは、i=
f,fm)を,ループ候補の各画素PIの座標とする。そし
て、この傾きas 、af の符号によって、上記ループ候
補の左右部の線分の傾きの方向を判定する。
【0069】図12において、Ps を左部の接触点、P
f を右部の接触点とすれば、 as >0 または af >0 のとき \方向(右下がりの方向) (2−3) as <0 または af <0 のとき /方向(右上がりの方向) (2−4) as =0 または af =0 のとき |方向(垂直方向) (2−5) の傾きとなる。但し、実際には、読み取られるループの
画像には、多少の凹凸があるので、ごくわずかな傾きを
無視するために、しきい値h(>0)を定めて −h<as またはaf <h (2−6) である場合は、 as 、af =0 (2−7) とみなす。
【0070】上記傾きの判定によって、左右の各部の接
触点付近のストロークの傾きの組が 左部 右部 \ / ;例 「0」、「6」等の下部接触 | / ;例 「B」、「D」等の下部接触 \ | ;例 「P」等の上部接触 であるものを、補完すべきループとして判定する。
【0071】また、 左部 右部 / \ ;例 「A」、「X」等の下部接触 | \ ;例 「R」、「N」等の下部接触 / | ;例 「K」等の上部接触 を、補完すべきでないループと判定する。
【0072】 左部 右部 / / | | \ \ の組み合わせについては、手書き文字の傾きによって、
補完すべきループと補完すべきでないループに分かれる
ので、この場合は、判定の対象外とする。
【0073】続いて、図13は、上記3)の枠接触点間
距離(枠接触幅)と最大幅の比による判定方法を、より
詳細に説明する図である。この場合、同図に示すよう
に、枠接触幅(左部接触点と右部接触点間の距離)をW
d ,ループ候補の内周部をX軸方向に走査して求めた最
大値、すなわち、該内周部の枠または罫線と平行な方向
の最大幅をWmax とする。そして、枠接触幅Wd に対す
る上記最大値Wmax の比Wmax /Wd のしきい値をWt
とする。
【0074】この場合、真のループは、 Wmax /Wd >Wt (3−1) を、満足する。
【0075】図13の例では、(a)が上記条件を満足
する。これは、例えば、「O」、「8」等の下部接触の
場合が該当する。一方、(b)は、例えば、Wt ≧1で
上記条件が満足されない例であり、例えば、「H」等の
下部接触が該当する。
【0076】次に、上記ループ候補抽出部1035が、
ストローク補完部1034から入力される各文字の文字
パターンについて、ループ候補を抽出する動作を、図1
4のフローチャートを参照しながら説明する。
【0077】まず、ストローク補完部1034から入力
される文字について、枠接触文字(罫線との枠接触文字
も含む)であるか否かを判別する(S21)。そして、
枠接触文字で無ければ(S11、NO)、以後の処理を
中止する。
【0078】一方、枠接触文字で有れば(S11、YE
S)、左部接触点oi (i=1,2,...)と右部接
触点ei (i=1,2,...)の座標を求める(S2
2)。続いて、ei を始点として文字輪郭線を追跡する
(S23)。そして、終点がoi+1 であるか否か判別し
(S24)、oi+1 であれば、上記文字輪郭線をループ
候補として、記憶する(S25)。他方、終点がoi+1
で無ければ(S24、NO)、ループ候補では無いと判
別して(S24、NO),上記ステップS22に戻る。
【0079】上記ステップS22〜S25の処理を、全
ての右部接触点e1 、e2 、...について行い、上記
入力文字パターンの文字輪郭線の中から、ループ候補を
抽出する。そして、該ループ候補が抽出された文字パタ
ーンは、ループ判定部1036に出力される。
【0080】次に、図15〜17のフローチャートを参
照しながら、ループ判定部1036がループ候補抽出部
1035によって抽出されたループ候補の中から、補完
対象とすべきループ候補(真のループ候補)を判定する
処理を説明する。
【0081】図15は、上記1)の曲線度による判定を
用いた処理を、説明するフローチャートである。まず、
文字ループ候補をそれが接触している枠辺と平行な方向
に走査し、上記最大交差点数nmax を導出する(S3
1)。
【0082】続いて、該nmax を上記しきい値nt と比
較し、nmax >nt であるか否か判別する(S32)。
そして、上記条件を満足していれば(S32、YE
S),このループ候補を真のループ候補から除去する。
【0083】一方、上記条件を満足していなければ(S
32、NO),ループ候補をY軸方向に投影して、Y軸
での該ループ候補の画素数のヒストグラムを作成する
(S34)。そして、ヒストグラム値がしきい値tを越
える(ヒストグラム値>t)Y座標yt が存在するか調
べる(S35)。
【0084】そして、該Y座標yt が存在しない場合に
は(S35、NO),上記ループ候補上のY座標値が最
小の点(画素)のY座標値yminを、上記yt に設定し
て、ステップS37の処理に移る。一方、上記ステップ
S35でyt が存在すれば(S35、YES)、直ちに
ステップS37の処理に移る。
【0085】ステップS37では、Y座標値がyt −1
であるループ候補の2点Pl 、Prを求める。また、該
ループ候補の左の枠接触点Ps 、右の枠接触点Pf も求
める。
【0086】次に、Ps 、Pl を通過する左部ストロー
クを、上記式(1−2)で表される直線f1 (x)で近
似すると共に、Pf 、Pr を通過する右部ストローク
を、上記式(1−3)で表される直線fr (x)で近似
する(S38)。
【0087】続いて、例えば、上述のようにして、上記
左部ストロークの曲線度dl ' と、上記右部ストローク
の曲線度dr ' を計算する(S39)。そして、該dl
' とdr ' が共にしきい値qよりも小さい(dl ' 、d
r ' <q)か否か、すなわち、上記左右のストロークが
共に直線であるか否かを、判別する(S40)。
【0088】そして、上記条件が満足されており、上記
両ストロークが直線であれば(S40、YES)、この
ループ候補を真のループ候補から除去する。一方、上記
条件が満足されず、少なくとも、いずれか一方のストロ
ークが、直線でないときには(S40、NO),このル
ープ候補を保存する(S41)。
【0089】次に、図16は、ループ判定部1036
が、上記2)の枠接触点付近のループ線分の傾きによる
判定により、真のループ候補を判定する処理を説明する
フローチャートである。
【0090】まず、ループ候補の枠との2つの接触点P
s 、Pf を求める。次に、該ループ候補上における、こ
れらの枠接触点Ps 、Pf からm番目に位置する画素
(点)Psm、Pfmを求める(S51)。
【0091】続いて、上記方法により、線分Ps −Psm
の傾きas と、線分Pf −Pfmの傾きaf を計算する
(S52)。そして、−h<as またはaf <h(hは
しきい値)となっているか判別する(S53)。そし
て、該条件が満足されていれば(S53、YES)、a
s 、af を共に”0”に設定し(S54)、ステップS
55に移る。また、上記ステップS53で上記上記条件
が満足されていなければ(S53、NO),直ちに、該
ステップS55に移る。
【0092】ステップS55では、以下の条件式(3−
1)〜(3−3)が満足されているか否か調べる。 as >0 かつ af <0 (3−1) as >0 かつ af =0 (3−2) as =0 かつ af <0 (3−3) そして、上記式(3−1)〜(3−3)の条件が、いず
れも満足されない場合には(S55、NO)、このルー
プ候補を真のループ候補から除去する。
【0093】一方、上記式(3−1)〜(3−3)の条
件が、いずれか一つでも満足される場合には、このルー
プ候補を真のループ候補として保存する(S56)。次
に、図17は、ループ判定部1036が、上記3)の枠
接触幅と最大幅の比による判定方法を用いて、ループ候
補抽出部1035によって抽出された文字ループ候補の
中から、真のループ候補を判定する処理を説明するフロ
ーチャートである。
【0094】まず、枠とループ候補との2つの接触点、
すなわち、左右の接触点Ps 、Pf間の距離Wd を計算
する(S61)。次に、ループ候補の内周部をX軸方向
に走査して、該内周部の最大幅Wmax を求める(S6
2)。
【0095】続いて、上記Wmax d x の比Wmax /W
d を計算する(S63)。そして、該比Wmax /Wd
しきい値Wt よりも大きいか(Wmax /Wd >W t )否
か判別する(S64)。そして、該条件が満足されてい
なければ(S64、NO)、このループ候補を真のルー
プ候補から除去する。
【0096】一方、該条件が満足されていれば(S3
2、YES)、このループ候補を真のループ候補として
保存・記憶する(S65)。ループ判定部1036は、
上述した図15〜実14の判定方法を単独に、または組
み合わせて、ループ候補抽出部1035によって抽出さ
れたループ候補の中から真のループ候補を判定し、それ
を、保存する。
【0097】以上のようにして、真のループ候補が保存
された文字パターンは、ループ補完部1037に出力さ
れる。図18は、ループ判定部1036によって、真の
ループ候補と判定され、枠または罫線除去後に、ループ
補完部1037によって、その枠または罫線と接触して
いるループ部分が補完される文字の例を示す図である。
【0098】同図(a)は、枠に右部接触した「0」の
数字が補完される例である。また、同図(b)は、枠に
右部接触した「6」の数字が補完される例である。さら
に、同図(c)は、枠に右部接触した「8」の数字が補
完される例である。これらのいずれの例の場合において
も、右部接触した各数字は、上記1)〜3)の判定によ
って、そのループ候補が真のループ候補と判定・保存さ
れる。
【0099】尚、上記実施例では、主に、英数字のルー
プ補完の処理について述べているが、本発明は、これに
限定されることなく、そのループ部分が枠または罫線と
接する可能性のある全ての文字(漢字やその他の言語で
用いられる文字等)や、図形等のル−プ形状部分の補完
にも適用可能なものである。
【0100】
【発明の効果】本発明によれば、枠または罫線等に接し
てループを構成している文字パターンから、該枠または
罫線等を除去した後に残される該ループ部分の一部を、
ループ候補として抽出することができる。また、該抽出
されたループ候補の中から、該枠または罫線除去後に、
その一部が途切れてしまった、本来、ループである真の
ループ候補を、判定・抽出することができる。また、該
補完すべきと判定された真のループ候補について、枠ま
たは罫線等を除去したために途切れてしまった部分を補
完することができる。また、これにより、ループ部分が
枠または罫線等に接触した文字の誤読を防止できる。
【図面の簡単な説明】
【図1】本発明の原理を説明する図(その1)である。
【図2】本発明の原理を説明する図(その2)である。
【図3】本発明の原理を説明する図(その3)である。
【図4】本発明の一実施例である光学的文字認識装置の
システム構成を示すブロック図である。
【図5】上記光学的文字認識装置内の文字切出し部の一
構成例を示すブロック図である。
【図6】枠と下部接触してループを形成する文字の例を
示す図である。
【図7】ループ候補抽出部、ループ判定部、及びループ
補完部の一連の動作を説明するフローチャートである。
【図8】枠または罫線との接触の種類に応じた座標軸の
設定方法を説明する図である。
【図9】ループ候補の抽出方法を説明する図ある。
【図10】最大交差点数に基ずき、抽出されたループ候
補の中から、補完対象外のものを除外する方法を説明す
る図である。
【図11】ループ候補の左右部の曲線度を導出する方法
を説明する図である。
【図12】ループ候補の左右部の枠接触点付近での傾き
を、求める方法を説明する図である。
【図13】枠接触幅とループ候補の内周方向での最大幅
の求めかたを説明する図である。
【図14】ループ候補抽出部の動作を説明するフローチ
ャートである。
【図15】ループ判定部が、曲線度により、補完すべき
ループ候補を判定・保存する処理を説明するフローチャ
ートである。
【図16】ループ判定部が、枠接触点付近での傾きを用
いて、補完すべきループ候補を判定・保存する処理を説
明するフローチャートである。
【図17】ループ判定部が、上記枠接触幅と上記ループ
候補の内周方向での最大幅を用いて、補完すべきループ
候補を判定・保存する処理を説明するフローチャートで
ある。
【図18】本実施例により、ループ部分が枠または罫線
と左部接触した数字が、正しく補完される例を示す図で
ある。
【図19】従来の方法により、枠からはみ出して手書き
された数字が、補完される例を示す図である。
【図20】ループ部分が枠と接触してしまったため、補
完がなされず、誤読されてしまう例を示す図でる。
【符号の説明】
32、42、52 検出手段 34、44、54 抽出手段 46、56 選別手段 58 補完手段

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 枠または罫線に、その一部が接触してい
    る文字パターンを検出する検出手段と、 該検出手段によって検出された文字パターンから、上記
    枠または罫線を除去した後に残されるループ部分を、ル
    ープ候補として抽出する抽出手段と、 を備えたことを特徴とするループ候補抽出装置。
  2. 【請求項2】 前記抽出手段は、 枠または罫線と、前記ループ部分のストロークの文字輪
    郭線との交点を全て求め、次に、それらの交点の中の2
    つの交点間をぶ文字輪郭線について、該2つの交点の位
    置関係を調べて、該文字輪郭線が上記ループ候補に該当
    するか否かを判定して、上記文字輪郭線の中から前記ル
    ープ候補を抽出すること、 を特徴とする請求項1記載の文字ループ候補抽出装置。
  3. 【請求項3】枠または罫線に、その一部が接触している
    文字パターンを検出する検出手段と、 該検出手段によって検出された文字パターンから、上記
    枠または罫線を除去した後に残されるループ部分を、ル
    ープ候補として抽出する抽出手段と、 該抽出手段によって抽出されたループ候補の中から、そ
    のループ候補の幾何学的特徴を調べることにより、補完
    すべきループ候補を選別する選別手段と、 を備えたことを特徴とする真のループ候補抽出装置。
  4. 【請求項4】前記選別手段は、 前記選別すべきループ候補の幾何学的特徴として、手書
    き文字のように変形が大きいループでも比較的安定に抽
    出することができる特徴を用いること、 を特徴とする請求項3記載の真のループ候補抽出装置。
  5. 【請求項5】前記選別手段は、 前記選別すべきループ候補の幾何学的特徴として、手書
    き文字のように変形が大きく、かつサイズの小さいルー
    プでも比較的安定に抽出できる特徴を用いること、 を特徴とする請求項3記載の真のループ候補抽出装置。
  6. 【請求項6】 前記選別手段は、 前記ループ候補を、それと接触している枠または罫線と
    平行な方向に走査して、該走査線と交差する交差点を求
    め、得られた交差点の最大数が、予め定められたしきい
    値よりも大きいループ候補を、補完対象から除外するこ
    と、 を特徴とする請求項3記載の真のループ候補抽出装置。
  7. 【請求項7】 前記選別手段は、 前記ループ候補の左部と右部の曲線らしさの度合いを求
    める曲線度算出手段と、 該曲線度算出手段によって得られた結果に基ずいて、上
    記左部と右部が直線であるか否か判定する直線判定手段
    と、 該直線判定手段により、上記左部と右部が共にほぼ直線
    に近いと判定されたループ候補を、補完対象から除外す
    る除外手段と、 を備えたことを特徴とする請求項3記載の真のループ候
    補抽出装置。
  8. 【請求項8】 前記選別手段は、 前記ループ候補の枠接触点付近での左部と右部の線分の
    傾きを求める傾き算出手段と、 該傾き算出手段によって得られた上記左部と右部の線分
    の傾きの組み合わせに基ずいて、補完対象から除外すべ
    きループ候補を判定し、そのループ候補を、補完対象か
    ら除外する除外手段と、 を備えたことを特徴とする請求項3記載の真のループ候
    補抽出装置。
  9. 【請求項9】 前記選別手段は、 前記ループ候補の枠または罫線との接触幅を算出する第
    1の算出手段と、 前記ループ候補の内周部における、上記枠または罫線と
    平行な方向での最大幅を算出する第2の算出手段と、 上記第1及び第2の算出手段によって求められた上記接
    触幅と最大幅とを基に、補完対象から除外すべきループ
    候補を判定し、そのループ候補を、補完対象から除外す
    る除外手段と、を備えたことを特徴とする請求項3記載
    の真のループ候補抽出装置。
  10. 【請求項10】 枠または罫線に、その一部が接触して
    いる文字パターンを検出する検出手段と、 該検出手段によって検出された文字パターンから、上記
    枠または罫線を除去した後に残されるループ部分を、ル
    ープ候補として抽出する抽出手段と、 該抽出手段によって抽出されたループ候補の中から、そ
    のループ候補の幾何学的特徴を調べることにより、補完
    すべきループ候補を選別する選別手段と、 該選別手段によって選別されたループ候補の途切れてし
    まった部分を補完する補完手段と、 を備えたことを特徴とする文字補完装置。
JP04935295A 1995-03-09 1995-03-09 文字ループ候補抽出装置及び文字補完装置 Expired - Fee Related JP3662967B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04935295A JP3662967B2 (ja) 1995-03-09 1995-03-09 文字ループ候補抽出装置及び文字補完装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04935295A JP3662967B2 (ja) 1995-03-09 1995-03-09 文字ループ候補抽出装置及び文字補完装置

Publications (2)

Publication Number Publication Date
JPH08249420A true JPH08249420A (ja) 1996-09-27
JP3662967B2 JP3662967B2 (ja) 2005-06-22

Family

ID=12828631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04935295A Expired - Fee Related JP3662967B2 (ja) 1995-03-09 1995-03-09 文字ループ候補抽出装置及び文字補完装置

Country Status (1)

Country Link
JP (1) JP3662967B2 (ja)

Also Published As

Publication number Publication date
JP3662967B2 (ja) 2005-06-22

Similar Documents

Publication Publication Date Title
US7519226B2 (en) Form search apparatus and method
EP0854434B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US5410611A (en) Method for identifying word bounding boxes in text
EP0385009A1 (en) Apparatus and method for use in image processing
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6754120B2 (ja) プログラム、情報記憶媒体及び文字分割装置
JP3411472B2 (ja) パターン抽出装置
US6947596B2 (en) Character recognition method, program and recording medium
JPH08167000A (ja) 文字認識装置および方法
CN115082942A (zh) 一种基于YOLO v5的文档图像流程图识别方法、设备及介质
US10984277B2 (en) Image analysis apparatus, image analysis method, and non-transitory computer readable medium
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
Nguyen et al. Enhanced character segmentation for format-free Japanese text recognition
JPH08249420A (ja) ループ候補抽出装置、真のループ候補判定装置、及び文字補完装置
JP5039659B2 (ja) 文字認識方法及び文字認識装置
JP2000322514A (ja) パターン抽出装置及び文字切り出し装置
Bushofa et al. Segmentation and Recognition of Printed Arabic Characters.
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법
JP3710164B2 (ja) 画像処理装置及び方法
JP2925303B2 (ja) 画像処理方法及び装置
JP2000207491A (ja) 文字列読取方法及び装置
JPH0757047A (ja) 文字切出し方式
JP2002334301A (ja) 2値イメージの特徴点抽出方法及び特徴点抽出プログラム
JP4191231B2 (ja) オンライン文字認識装置及びオンライン文字認識方法
JP2974396B2 (ja) 画像処理方法及び装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050325

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080401

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090401

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees