JP3111522B2 - 認識文字修正方法 - Google Patents

認識文字修正方法

Info

Publication number
JP3111522B2
JP3111522B2 JP03213466A JP21346691A JP3111522B2 JP 3111522 B2 JP3111522 B2 JP 3111522B2 JP 03213466 A JP03213466 A JP 03213466A JP 21346691 A JP21346691 A JP 21346691A JP 3111522 B2 JP3111522 B2 JP 3111522B2
Authority
JP
Japan
Prior art keywords
character
pattern
size
area
vertical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03213466A
Other languages
English (en)
Other versions
JPH0554192A (ja
Inventor
保 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP03213466A priority Critical patent/JP3111522B2/ja
Publication of JPH0554192A publication Critical patent/JPH0554192A/ja
Application granted granted Critical
Publication of JP3111522B2 publication Critical patent/JP3111522B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置により文
字パターンを読み取って、その文字パターンから文字の
認識を行う文字認識の際に、認識文字の文字サイズに関
する誤りを修正する認識文字修正方法に関するものであ
る。
【0002】
【従来の技術】近年、文字認識装置は、各種機器の入力
端末装置の一つとして導入が盛んで、実用化が進んでい
る。この文字認識装置における従来の認識文字の大きさ
修正方式では文字パターンの縦の長さ、または横の長さ
を基準とし、これが所定の値より小さい場合には小文
字、大きい場合には大文字に分類していた。
【0003】
【発明が解決しようとする課題】しかしながら上記の従
来の方法では、対象とする書体あるいは字体を限定する
場合にはある程度有効であるが、対象を広げた場合には
修正が困難であるという問題点を有していた。具体例を
用いてこれを説明する。
【0004】図6に書体や字体が異なるが、ポイント数
はいずれも等しい6種類のかな文字(ャ,ヤ,ュ,ユ,
ョ,ヨ)と4種類の漢字(煙,燕,猿,縁)を示す。列
方向は同一フォントである。同図で、たとえばc1は小
文字の「ュ」であり、c2は大文字の「ユ」である。こ
の場合、縦の長さは小文字であるc1が大文字であるc
2より大きく、従来のサイズだけによる方法ではもし認
識の際に小文字か大文字かの文字コードの誤りがあって
も修正が困難であることがわかる。
【0005】本発明は上記課題に留意し、文字認識の際
に文字サイズに関する文字コードの誤りがあっても、確
実にその誤り修正が行われる認識文字修正方法を提供し
ようとするものである。
【0006】
【課題を解決するための手段】上記目的を達成するため
に本発明は、認識すべき文書パターンより文字を認識す
る際に、認識した文字列の文字の中で縦サイズの最大辺
の長さである第1の最大値と、横サイズの最大辺の長さ
である第2の最大値を算出し、認識した文字の中で大文
字と小文字の両方を有するものについては、その縦また
は横の長い方の辺の長さと前記第1または第2の最大値
とから面積比を計算することにより、大文字か小文字か
を判定し、文字サイズに関する修正を行うものである。
【0007】
【作用】上記の手順による本発明の認識文字修正方法
は、文字列の中の文字の縦横サイズのそれぞれの最大値
である第1,第2の最大値を求め、この値と大文字と小
文字の両方を有するかな文字の長い方の辺との比較か
ら、文字の書体または字体の特徴を生かした正確な大文
字,小文字判別が可能なものである。
【0008】以下に図面を用いて本発明の原理について
説明する。図6に書体,字体が異なるが、ポイント数は
どれも等しい6種類の大文字と小文字の両方を有するか
な文字(ャ,ヤ,ュ,ユ,ョ,ヨ)と4種類の漢字
(煙,燕,猿,縁)を示す。列方向は同一の書体または
字体、すなわち同一フォントである。これから以下のこ
とがいえる。
【0009】(1)同一フォントでは、必ずかな大文字
はかな小文字より小さい。 (2)同一フォントでは、かな文字の大文字と小文字に
おける縦と横の長さの比(以下、縦横比)がほぼ等し
い。
【0010】(3)同一フォントでは、かな大文字と漢
字の長辺はほぼ等しい。 本発明では、書体や字体が異なった文字に対して、
(1),(2),(3),の性質を用いることにより効
果的な分類を行う。すなわち、入力文字が大文字と小文
字の両方の可能性があるかな文字であることが既知の場
合(たとえば、「っ」と「つ」など)に、このかな文字
と漢字と推定される文字からそれぞれ求めた縦と横の長
さから推定した大文字の面積を基準とした入力文字の面
積によって大文字と小文字を判定する。すなわち、かな
大文字とほぼ縦横比が等しいという事実から漢字を含め
入力文字が属す文字列中に存在する全ての文字パターン
の縦と横の長さのそれぞれの最大値を求める。
【0011】いま、漢字、および入力されたかな文字の
縦,横の長さをそれぞれM,N,a,bとするとき、漢
字の縦,横の長さがやはり最大値となり、第1の最大値
がM、第2の最大値がNとなる。つぎにかな文字の大文
字,小文字の判定はa<bの場合、かな大文字の面積は
入力かな文字の面積a・bに(N/b)・(N/b)を
乗じた値と推定される。これは文字フォントが同じにな
るように長い辺同士の比を取って、文字サイズの面積比
に等しい値を求めることができる。よって、入力かな文
字のかな大文字に対する面積の比は(b/N)・(b/
N)になる。同様にして、a≧bの場合は(a/M)・
(a/M)となる。この値から大文字か小文字かを判定
することができる。
【0012】
【実施例】図1は本発明の認識文字修正方法を用いた一
実施例における文字認識装置の機能ブロック図を示すも
のである。図1に示すようにその構成要素として1は認
識すべき文書パターンの認識データを光電変換して2値
化データとして文書パターンメモリに記憶させる文字入
力部、2は上記2値化データから文字切り出しを行う文
字切り出し部、3は文字切り出し部2からの文字パター
ンに対応する文字コードを出力する文字認識部、4は文
字認識部3からの認識文字が大文字と小文字を共に有す
る文字である場合に、文字切り出し部2から与えられる
同一文字列中の文字パターンの縦と横の長さのそれぞれ
の最大値が求めるられ、この値と入力パターンの縦と横
の長さから文字パターンが大文字,小文字をどちらであ
るかを判定する文字サイズ判定部、5は文字サイズ判定
部4の結果により文字認識部3からの認識文字の文字サ
イズが間違っている場合にこれを修正する修正部、6は
修正部5の結果を出力する表示部、7は前述の文字切り
出し部2から得られた文字列中の全文字の縦と横の長さ
からそれぞれの最大値を求める機能を有するもので、縦
の第1の最大値と、横の第2の最大値を求める最大辺計
算部である。
【0013】図2は本実施例の文字認識装置の構成を示
すブロック図である。ここで21は認識すべき文書を読
み取るスキャナであり読み取った文書をビットデータに
して出力する。22は読み出し,書き込み可能なメモリ
(以下RAMと略す)であり、スキャナ21からのビッ
トデータを記憶する文書パターン領域23と、この文書
パターン領域23内の文書パターンから切り出された文
字列中に含まれる文字パターンのサイズを記憶する文字
サイズ領域27と、文字サイズ領域27中の縦と横の長
さからそれぞれの最大値を記憶する最大辺領域25と、
文字パターンを記憶する文字パターン領域24と、この
文字パターンを認識して得られる文字コードを記憶する
文字コード領域26と、処理で使用するレジスタ領域2
8とを有している。29は読み出し専用メモリ(以下R
OMと略す)であり大文字と小文字の文字コードと文字
コードに固有なしきい値を記憶した文字サイズ辞書領域
30と、図3に示すフローチャートに従った制御プログ
ラムを記憶したプログラム記憶領域31とを有する。3
2はプログラム記憶領域31に記憶された制御プログラ
ムに従って処理を行う処理回路である。33はデータを
入力するキーボードであり、34は文字パターン領域2
4内の文字パターンと文字コード領域26内の文字コー
ド、またはこれに対応する文字フォントを表示する表示
部である。
【0014】以上のように構成された本実施例の文字認
識装置を用いて本発明の認識文字修正方法について図3
のフローチャートに従って説明する。まず、ステップS
1で、文字入力部1において認識すべき文書パターンか
ら読み込まれた文書パターンから、文字切り出し部2の
処理により文字を切り出し、同一文字列中に存在するす
べての文字パターンの縦と横の長さを文字サイズ領域2
7に書き込む。次のステップS2では最大辺計算部7で
文字サイズ領域27中の縦および横の長さからそれぞれ
の最大値第1の最大値Mと、第2の最大値Nを捜し出
し、結果を最大辺領域25に保存する。次にステップS
3で文字認識部3による文字認識処理を行い、認識文
字,文字コードを文字コード領域26に保存する。ステ
ップS4では、文字コード領域26中の認識文字が文字
サイズ辞書領域30に登録されているかどうかの判断を
行う。登録されている場合、この文字は小文字を有する
のでステップS4で文字サイズ判定処理を行うが、そう
でない場合は処理を終了する。ステップS5では、まず
入力文字パターンの縦aと横bの長さの大小関係を調
べ、a≧bであるときステップS6、a<bの場合ステ
ップS7に進む。ステップS6では(a/M)の2乗
を、ステップS7では(b/N)の2乗を計算する。ス
テップS8ではステップS6またはS7の結果が文字サ
イズ辞書領域30に登録された所定の値よりも小さいと
きは小文字、大きいときは大文字と判定する。最後にス
テップS9で修正部6によりこの判定結果が文字認識部
3における認識文字の文字コードと異なり認識文字の文
字サイズが間違っていた場合に文字コード領域26の内
容を修正する。
【0015】つぎに具体的に認識対象例題文字列パター
ン「ナショナルエレクトリック」を例に、以下その動作
を説明する。まず、文字入力部1で、認識文字列パター
ンを2値画像として入力して文書パターン領域23に記
憶する。次に文字切り出し部2で文字列を切り出した
後、文字切り出し部2が1文字ずつに切り離すが、この
とき同一文字列中に存在するすべての文字パターンの縦
と横の長さを文字サイズ領域27に書き込む。この時点
での文字サイズ領域27を図4に示す。最大辺計算部7
によると、縦,横の長さは「ナ」,「ル」が最大であ
り、それぞれM=60、N=122が得られる。文字認
識部3が認識例題文字列「ナショナルエレクトリック」
を「ナシヨナルェレクトリツク」と認識したとする。文
字サイズ判定部4ではまず認識文字が大文字と小文字の
両方を持つ文字か否かの判断を行う。ここでは「ヨ」,
「ェ」,「ツ」の3つが該当する。「ヨ」は縦が横より
長いので(a/M)の2乗を、「ェ」と「ツ」は横の長
さが長いので(b/N)の2乗を求めると図4のように
なる。一方、文字サイズ辞書領域30には図5のように
大文字,小文字、所定の値が記憶されているので、入力
文字の値が該当する文字の値より大きければ大文字、小
さければ小文字に判定する。これより「ヨ」は小文字で
あり、「エ」は大文字、「ツ」は小文字であることが判
定され、図4の最下段に示すような認識文字が得られ
る。ここで「ヨ」「エ」「ツ」ともに修正部6では認識
文字の文字サイズが間違った場合として修正する。
【0016】以上のように本実施例によれば、最大辺計
算部と文字サイズ判定部と修正部を設けることにより、
文字認識部から出力された認識文字のうち文字サイズの
誤りを修正する場合に、横倍角文字に対しても精度よく
修正できる。
【0017】なお、本実施例では漢字とかな文字につい
て説明したが、アルファベットなどでも書体が確定でき
るものについては、同様な効果を有することは言うまで
もない。
【0018】
【発明の効果】以上の説明より明らかなように、認識し
た文字列中の縦横それぞれの最大辺の長さを基準に
面積比を計算して文字サイズを比較することにより、横
角文字などの特殊な書体字体に対しても認識文字の文
字サイズに関する誤りを精度良く修正を行うことができ
るものである。
【図面の簡単な説明】
【図1】本発明の認識文字修正方法の一実施例を機能別
に示した構成図
【図2】同実施例をハード構成として示した文字認識装
置のブロック図
【図3】同実施例の手順を示すフローチャート
【図4】同実施例の具体的文字列による手順を示す説明
【図5】同実施例の文字サイズ辞書領域に記憶されてい
る記憶内容配置図
【図6】従来の認識文字修正方法を説明するための文字
のパターン図
【符号の説明】
1 文字入力部 2 文字切り出し部 3 文字認識部 4 文字サイズ判定部 5 修正部 6 表示部 7 最大辺計算部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/62 G06K 9/46

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】認識すべき文書パターンを読み取り、前記
    文書パターンから文字を切り出し、 切り出した文字列のなかで文字パターンにおける縦サイ
    ズの最大辺の長さである第1の最大値、及び横サイズの
    最大辺の長さである第2の最大値を計算し、 各文字パターンから文字コードを読みし、前記文字コ
    ードが大文字と小文字の両方を有する可能性を判定し、 前記可能性を有する場合には文字パターンの縦の長さと
    横の長さを比較し、縦の長さが長い場合には縦の長さと
    前記第1の最大値から面積比を計算した値によって大文
    字と小文字を判定し、横の長さが長い場合には横の長さ
    と前記第2の最大値から面積比を計算した値によって大
    文字と小文字を判定し、前記判定結果が、 前記読み出した文字コードと異なる場
    合には前記文字コードを修正する、ことを特徴とする
    識文字修正方法。
JP03213466A 1991-08-26 1991-08-26 認識文字修正方法 Expired - Fee Related JP3111522B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03213466A JP3111522B2 (ja) 1991-08-26 1991-08-26 認識文字修正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03213466A JP3111522B2 (ja) 1991-08-26 1991-08-26 認識文字修正方法

Publications (2)

Publication Number Publication Date
JPH0554192A JPH0554192A (ja) 1993-03-05
JP3111522B2 true JP3111522B2 (ja) 2000-11-27

Family

ID=16639675

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03213466A Expired - Fee Related JP3111522B2 (ja) 1991-08-26 1991-08-26 認識文字修正方法

Country Status (1)

Country Link
JP (1) JP3111522B2 (ja)

Also Published As

Publication number Publication date
JPH0554192A (ja) 1993-03-05

Similar Documents

Publication Publication Date Title
CN112818812B (zh) 图像中表格信息的识别方法、装置、电子设备及存储介质
JP3155577B2 (ja) 文字認識方法及び装置
JPH07104909B2 (ja) 文字認識方法
JP2000315247A (ja) 文字認識装置
JP3111522B2 (ja) 認識文字修正方法
JP3111521B2 (ja) 認識文字修正方法
JPH0516632B2 (ja)
CN113408536A (zh) 票据的金额识别方法、装置、计算机设备及存储介质
JPS6262388B2 (ja)
JP3274014B2 (ja) 文字認識装置および文字認識方法
JPH06348911A (ja) 英文字認識装置
JP2001236467A (ja) パターン認識方法、装置、およびパターン認識プログラムを記録した記録媒体
JPH0728935A (ja) 文書画像処理装置
JP2697790B2 (ja) 文字タイプ決定方法
JP3128357B2 (ja) 文字認識処理装置
JP3173363B2 (ja) Ocrのメンテナンス方法及び装置
JP2930996B2 (ja) 画像認識方法および画像認識装置
JP3195405B2 (ja) 文字認識装置
JP3270551B2 (ja) 文字認識装置および文字認識方法
JP3320083B2 (ja) 文字認識装置及び方法
JPS63269267A (ja) 文字認識方法
JP2972443B2 (ja) 文字認識装置
JPH01171080A (ja) 誤り自動訂正文字認識装置
JPH07152877A (ja) 英文字認識装置
JPH07271911A (ja) 文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080922

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080922

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees