JP2993252B2 - 同形異文字判別方法および装置 - Google Patents

同形異文字判別方法および装置

Info

Publication number
JP2993252B2
JP2993252B2 JP3352072A JP35207291A JP2993252B2 JP 2993252 B2 JP2993252 B2 JP 2993252B2 JP 3352072 A JP3352072 A JP 3352072A JP 35207291 A JP35207291 A JP 35207291A JP 2993252 B2 JP2993252 B2 JP 2993252B2
Authority
JP
Japan
Prior art keywords
character
homomorphic
characters
line
recognizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3352072A
Other languages
English (en)
Other versions
JPH05166007A (ja
Inventor
豊 加藤
佳誠 麻生川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP3352072A priority Critical patent/JP2993252B2/ja
Publication of JPH05166007A publication Critical patent/JPH05166007A/ja
Application granted granted Critical
Publication of JP2993252B2 publication Critical patent/JP2993252B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えば光学式文字認識
装置に用いられる同形異文字判別方法および装置に関す
る。
【0002】
【従来の技術】例えば「C」と「c]のように、形状が
ほぼ同じでもキャラクタとして異なる同形異文字があ
り、文字認識装置ではそのような文字であっても大文字
か、小文字かを認識する必要がある。
【0003】この判別方法として従来は例えば、1行の
文字列を切出したときの行の縦幅を記憶しておき、それ
に対する文字矩形の割合が一定値以上であれば大文字、
それ以下であれば小文字として認識する方法を取ってい
る。
【0004】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の方法は行縦幅が正確に測定されることを前提
としており、例えば「anounce」のように1行中
に縦幅の小さい文字しか存在しないとき、あるいは1行
が傾いて入力されたときなどのように行縦幅が正確に測
定できない場合は判別が困難であった。また、「p]、
「P」のように、縦幅の差がほとんどない同形異文字の
判別も非常に困難であった。
【0005】本発明はこのような状況に鑑みてなされた
もので、認識の処理が終了した1行の文字列の内、所定
の文字から文字毎に定められた切出し位置・大きさ等の
数種類の特徴を抽出して、標準大小文字サイズ推定と基
準線推定を行い、その推定結果と同形異文字の切出し位
置・大きさを比較することによって、同形異文字を判別
するようにするものである。
【0006】
【課題を解決するための手段】この様な課題を解決する
ために本発明の同形異文字判別方法および装置は、入力
された文書画像から文字をその外接矩形に沿って切出し
て認識し、文字コードに変換して文字認識するにあた
り、認識処理が終了した1行の文字列の内、所定の文字
から文字毎に定められた外接矩形の複数の特徴を抽出し
(ステップ150)、抽出結果から、一行の文字列にお
ける、標準的な大文字のサイズと小文字のサイズを推定
するとともに、大文字に対する基準線と小文字に対する
基準線を推定し(ステップ151)、推定結果から、同
形異文字の判別に用いる閾値を求め(ステップ15
3)、認識結果から得られる同形異文字の外接矩形の座
標または大きさと、閾値とを比較して同形異文字を判別
する(ステップ154)ことを特徴とする。
【0007】
【作用】認識結果から標準大小文字サイズの推定、基準
線推定、閾値設定が行われ、その結果に基づいて同形異
文字の判別が行われる。
【0008】
【実施例】次に、本発明の実施例を図面に基づいて説明
する。図1は本発明の同形異文字判別方法を適用した装
置の一実施例を示すブロック図であり、図2はその動作
を示すフローチャートである。図1および図2におい
て、文書画像は画像入力部1を介して取込まれて(ステ
ップ100)、行切出しが行われる(ステップ10
1)。
【0009】その行切出しの行われたデータから文字切
出部2において更に1行内の文字が文字毎の外接矩形に
沿って切出され(ステップ102)、そこで切出された
文字が文字形状認識部3において1行内の文字認識が行
われる(ステップ103)。そして、その認識結果と、
文字切出部2から供給される外接矩形の切出し位置と大
きさの情報によって、同形異文字判別部4で、図6を用
いて後述される処理により、外接矩形の特徴が抽出さ
れ、標準的な大文字のサイズと小文字のサイズ、および
大文字に対する基準線と小文字に対する基準線が推定さ
れ、同形異文字を判定するために用いられる閾値が決定
され、1行内の同形異文字が判別される(ステップ10
4)。そして判別結果が結果出力部5を介して出力され
る。
【0010】このように構成された装置において、図6
に示すフローチャートの手順によって文字決定が行われ
る。最初にステップ150において、同形異文字判別部
4で、先ず信頼できる認識文字の大きさと位置から推定
に必要な次の特徴を採取する。この場合、認識距離があ
る閾値以内であればその認識結果は信頼できるとみなす
ことができる。 (a)ラージh「α」 αという背の高い文字の外接矩形の縦幅 (b)スモールh「α」 αという背の低い文字の外接矩形の縦幅 (c)ローx「α」、ローy「α」 αという上端位置の低い文字の外接矩形の上辺中点の
x,y座標 (d)ベースx「α」、ベースy「α」 αという下端位置がベースライン上にある文字の外接矩
形の下辺中点のx,y座標 (e)ハイx「α」、ハイy「α」 αという上端位置の高い文字の外接矩形の上辺中点の
x,y座標
【0011】例えば認識結果の中に「T]という文字が
あり、この結果が十分に信頼できるなら、この文字から
は(a)、(d)、(e)の情報すなわち、ラージh
「α」、ベースx「α」、ベースy「α」、ハイx
「α」、ハイy「α」の情報を採取できる。同様に文字
「a」からは(b)、(c)、(d)のスモールh
「α」、ローx「α」、ローy「α」ベースx「α」、
ベースy「α」の情報が採取できる。
【0012】このように1行中に認識された全ての文字
から情報を集める(特徴を抽出する)。但し、結果が信
頼できない文字や、「p」あるいは「g」のように情報
を一つも持たない文字からは情報を得ることはできない
ので、これらの文字からの情報採取は行わない。
【0013】図3および図4は情報採取(特徴抽出)
例であり、図3に示す文字列から図4に示すように各種
の情報が得られる。図中、「イ」はラージh、「ロ」は
スモールh、「ハ」はローx,ローy、「ニ」はベース
x,ベースy、「ホ」はハイx,ハイyである。なお、
アルファベットの大文字、小文字については表1のよう
な情報が得られる。表1において○はこの例で使用して
いるもの、△は使用していないが使用可能なものであ
る。
【表1】
【0014】次にステップ151において、ステップ1
50で採取された特徴を用いて大小文字サイズ推定(以
下の(a),(b)におけるパラメータの推定)と基準
線推定(以下の(c),(d),(e)におけるパラメ
ータの推定)を行う。基準線は図5に示すように3本存
在し、上から順にハイライン、ローライン、ベースライ
ンと称する。使用する特徴は次のようにして求める。 (a)平均ラージh ラージh「α」を平均し、その値を平均ラージhとす
る。但しデータが一つもないときはこの値を求めない。 (b)平均スモールh スモールh「α」を平均し、その値を平均スモールhと
する。但し、データが一つもないときはこの値を求めな
い。 (c)インクラインおよびベースy切片b1 ベースx「α」、ベースy「α」をデータとして最小自
乗法による直線近似を行い、その傾きをインクライン、
y切片をベースy切片b1とする。 (d)平均ローy切片b2 ローx「α」、ローy「α」、インクラインから次式に
よってローy切片b2を求め、その平均値を平均ローy
切片b2とする。但し、データが一つもないときあるい
は、インクラインが求められないときは、この値を求め
ない。 b2=(ローy)−(インクライン)×(ローx)・・・・・(1) (e)平均ハイy切片b2 ハイx「α」、ハイy「α」、インクラインから次式に
よってy切片b2を求めて、その平均値を平均ハイy切
片b2とする。但し、データが一つもないときあるいは
インクラインが求められないときは、この値を求めな
い。 b2=(ハイy)−(インクライン)×(ハイx)・・・・・・(2)
【0015】
【0016】そしてステップ152において、平均ラー
ジh、平均スモールhの両方ともが求められたときは、
サイズ推定フラグをオンとする。そうでないときはサイ
ズ推定フラグをオフとする。また、ベースy切片b1、
平均ハイy切片b2が両方とも求められたときは基準線
推定フラグをオンとする。このときどちらか一方だけが
求められたときは、ベースラインとローラインの距離と
ベースラインとハイラインの距離の予め決めてある標準
的比率を用いて、求められた方から他方を推定し、ライ
ン推定フラグはオンとする。ベースy切片b1と、平均
ハイy切片b2の両方とも求められなかったとき、基準
線推定フラグはオフにする。
【0017】そしてサイズ推定フラグがオンのとき平均
ラージhと平均スモールhを平均して、ステップ153
において、その値をサイズ閾値とする。基準線推定フラ
グがオンのとき、ベースy切片b1と平均ハイy切片b
2を平均し、その値を基準線閾値とする。
【0018】次に、同形異文字が「C,c」、「O,
o」、「S,s」、「U,u」、「V,v」、「W,
w」、「X,x」、「Z,z」の文字であればステップ
154において、文字決定処理を行う。この処理はサイ
ズ推定フラグがオンであれば外形矩形の縦幅がサイズ閾
値より大きければ大文字、小さければ小文字と判断す
る。サイズ推定フラグがオフであり、基準線推定フラグ
がオンであれば、外接矩形の上辺の中点座標(x,y)
とインクラインから次式によって求められるy切片b3
が基準線閾値より高ければ大文字、低ければ小文字とす
る。 b3=y−(インクライン)×x・・・・・(3) サイズ推定フラグと基準線推定フラグの両方がオフであ
れば、強制的に小文字とする。
【0019】同形異文字が「P,p」、「’」あるいは
[,」、「 ̄」あるいは「_」であればステップ154
文字位置決定処理を行う。ここで、「P」「’」
「 ̄」のように上端位置の高い文字を「高位置文字」、
「p」「 ,」「_」のように上端位置の低い文字を低
位置文字と称する。
【0020】基準線推定フラグがオンであれば外接矩形
の上辺の中点座標(x,y)とインクラインから次式の
ように求められるy切片bが基準線閾値より高ければ高
位置文字、低ければ低位置文字とする。 b=x−(インクライン)×y・・・・・・(4) 基準線推定フラグがオフであれば強制的に低位置文字と
判断する。
【0021】
【発明の効果】以上説明したように本発明による同形異
文字判別方法および装置は、認識処理が終了した1行の
文字列の内、所定の文字から文字毎に定められた外接矩
形の複数の特徴を抽出し、抽出結果から、一行の文字列
における、標準的な大文字のサイズと小文字のサイズを
推定するとともに、大文字に対する基準線と小文字に対
する基準線を推定し、推定結果から、同形異文字の判別
に用いる閾値を求め、認識結果から得られる同形異文字
の外接矩形の座標または大きさと、閾値とを比較して
形異文字を判別するようにしたので、1行中に縦幅の小
さい文字しか存在しないとき、あるいは1行が傾いて入
力されたときでも正確に判別が行えるという効果を有す
る。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】1行内の同形異文字判別動作を示すフローチャ
ートである。
【図3】認識文字の一例を示す図である。
【図4】得られるデータの例を示す図である。
【図5】基準線の位置を示す図である。
【図6】文字決定動作を示すフローチャートである。
【符号の説明】
1 文字入力部 2 文字切出部 3 文字形状認識部 4 同形異文字判別部 5 結果出力部
フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06K 9/00 - 9/82

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された文書画像から、文字をその外
    接矩形に沿って切出して認識し、文字コードに変換して
    文字認識するにあたり、 前記認識処理が終了した1行の文字列の内、所定の文字
    から文字毎に定められた前記外接矩形の複数の特徴を抽
    出し、 前記抽出結果から、前記一行の文字列における、標準的
    な大文字のサイズと小文字のサイズを推定するととも
    に、大文字に対する基準線と小文字に対する基準線を推
    定し、 前記推定結果から、同形異文字の判別に用いる閾値を求
    め、 前記認識結果から得られる同形異文字の前記外接矩形の
    座標または大きさと、前記閾値とを比較して同形異文字
    を判別することを特徴とする同形異文字判別方法。
  2. 【請求項2】 入力された文書画像から、文字をその外
    接矩形に沿って切出して認識し、文字コードに変換して
    文字認識するにあたり、同形異文字を判別する同形異文
    字判別装置において、 前記認識処理が終了した1行の文字列の内、所定の文字
    から文字毎に定められた前記外接矩形の複数の特徴を抽
    出する抽出手段と、 前記抽出結果から、前記一行の文字列における、標準的
    な大文字のサイズと小文字のサイズを推定するととも
    に、大文字に対する基準線と小文字に対する基準線を推
    定する推定手段と、 前記推定結果から、同形異文字の判別に用いる閾値を決
    定する決定手段と、 前記認識結果から得られる同形異文字の前記外接矩形の
    座標または大きさと、 前記閾値とを比較して同形異文字を判別する判別手段と
    を備えることを特徴とする同形異文字判別装置。
JP3352072A 1991-12-13 1991-12-13 同形異文字判別方法および装置 Expired - Fee Related JP2993252B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3352072A JP2993252B2 (ja) 1991-12-13 1991-12-13 同形異文字判別方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3352072A JP2993252B2 (ja) 1991-12-13 1991-12-13 同形異文字判別方法および装置

Publications (2)

Publication Number Publication Date
JPH05166007A JPH05166007A (ja) 1993-07-02
JP2993252B2 true JP2993252B2 (ja) 1999-12-20

Family

ID=18421590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3352072A Expired - Fee Related JP2993252B2 (ja) 1991-12-13 1991-12-13 同形異文字判別方法および装置

Country Status (1)

Country Link
JP (1) JP2993252B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101035739B1 (ko) * 2009-02-13 2011-05-20 전남대학교산학협력단 문자 인식의 왜곡을 보정하는 방법

Also Published As

Publication number Publication date
JPH05166007A (ja) 1993-07-02

Similar Documents

Publication Publication Date Title
US6643401B1 (en) Apparatus and method for recognizing character
US5410611A (en) Method for identifying word bounding boxes in text
US7519226B2 (en) Form search apparatus and method
US6975762B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
Le et al. Automated borders detection and adaptive segmentation for binary document images
JP2993252B2 (ja) 同形異文字判別方法および装置
JPH0721817B2 (ja) 文書画像処理方法
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JP2002245404A (ja) 領域切り出しプログラムおよび装置
JPH02116987A (ja) 文字認識装置
JP2000357287A (ja) ナンバープレート認識方法および認識装置
JPH0632070B2 (ja) 文字認識装置
JPH0749926A (ja) 文字認識装置
JP3344062B2 (ja) カタカナ手書き文字切り出し回路
JPH09305701A (ja) 帳票認識方法
JP3193573B2 (ja) かぎかっこ付文字認識装置
JP2832035B2 (ja) 文字認識装置
JP3645403B2 (ja) 文字読取装置および文字読取方法
JP2728086B2 (ja) 文字切り出し方法
JP2995818B2 (ja) 文字切り出し方法
JP3220226B2 (ja) 文字列方向判別方法
JP3391223B2 (ja) 文字認識装置
JPH0916715A (ja) 文字認識装置および方法
JPH05135204A (ja) 文字認識装置
JP2510722B2 (ja) 英文の大文字,小文字の判別方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990921

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071022

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081022

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091022

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees