JP3116452B2 - 英文字認識装置 - Google Patents

英文字認識装置

Info

Publication number
JP3116452B2
JP3116452B2 JP03248998A JP24899891A JP3116452B2 JP 3116452 B2 JP3116452 B2 JP 3116452B2 JP 03248998 A JP03248998 A JP 03248998A JP 24899891 A JP24899891 A JP 24899891A JP 3116452 B2 JP3116452 B2 JP 3116452B2
Authority
JP
Japan
Prior art keywords
character
recognition
unit
area
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03248998A
Other languages
English (en)
Other versions
JPH0589293A (ja
Inventor
道明 信岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP03248998A priority Critical patent/JP3116452B2/ja
Publication of JPH0589293A publication Critical patent/JPH0589293A/ja
Application granted granted Critical
Publication of JP3116452B2 publication Critical patent/JP3116452B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は英文一般文書の文字認識
を行う英文字認識装置に関するものである。
【0002】
【従来の技術】近年、文字認識装置を電子計算機等の入
力装置として利用する要求が高まっており、安定な認識
結果を効率的に得ることが出来る文字入力装置が電子計
算機等のシステムの性能向上に不可欠となっている。
【0003】従来の認識装置は、入力された文字画像よ
り文字領域を切り出し、切り出された文字領域の画像の
図形特徴と予め用意された認識辞書とを比較し、認識を
行っている。この文字領域を切り出す際、英文は文字間
隔が一定でなく、また英文字は字種により文字幅が異な
り、同じ字種においてもフォントにより文字幅が異なる
ため、前後を空白に囲まれた領域を文字領域として切り
出していた。
【0004】
【発明が解決しようとする課題】しかしながら、接触あ
るいは文字切れ等が存在する品質の高くない文字の文字
領域に対しては、正しく文字領域を切り出せないことが
多く、認識精度の低下を招いていた。
【0005】本発明が解決しようとする課題は、従来の
これらの問題点を解消し、接触文字・文字切れのある品
質の高くない文字を精度よく認識し、且つ処理速度を高
めることにある。
【0006】
【課題を解決するための手段】本発明は上記課題を解決
するため、認識対象文書を入力する画像入力部と、入力
された文書画像から文章領域を出力する文章領域切り出
し部と、文章領域から単語領域を出力する単語領域切り
出し部と、単語領域から文字領域を出力する文字領域切
り出し部と、切り出された文字領域の画像から文字の図
形特徴を記憶している認識辞書をもとに文字認識を行う
文字認識部と、この文字認識部及び文字領域切り出し部
より得られる文字領域切り出し情報及び文字の図形特徴
を蓄える文字情報格納部と、英単語の綴りを記憶してい
る単語辞書をもとに次の認識対象文字を決定する認識対
象文字決定部と、認識結果を出力する出力部と、を有す
る英文字認識装置であって、文字領域切り出し部及び文
字認識部は、次の認識対象文字と同一の文字が文字情報
格納部に既に認識された出力として格納されている場合
には、文字情報格納部に格納された前記同一の文字の文
字領域切り出し情報を用いて単語領域から次に認識すべ
き図形特徴を抽出し、この抽出された図形特徴と文字情
報格納部に格納された前記同一の文字の図形特徴とを照
合することにより文字認識を行う構成とした。
【0007】
【作用】本発明では、次の認識対象文字と同一の文字が
文字情報格納部に既に認識された出力として格納されて
いる場合には、文字情報格納部に格納された前記同一の
文字の文字領域切り出し情報を用いて単語領域から次に
認識すべき図形特徴を抽出し、この抽出された図形特徴
と文字情報格納部に格納された前記同一の文字の図形特
徴とを照合するので、文字切り出し精度、認識精度の向
上を図ることができる。
【0008】
【実施例】本発明を一実施例とともに示す添付図面とと
もに説明する。
【0009】図1において、1は認識対象文書を文書画
像として入力する画像入力部、2は入力された文書画像
から文字列の集まりを見つけ、文章領域を出力する文章
領域切り出し部、3は文章領域から単語単位の区切りを
見つけ1つの単語の範囲を単語領域として出力する単語
切り出し部、4は文字情報格納部7に蓄えられている情
報をもとに単語領域から文字単位の区切りを見つけ1つ
の文字の範囲を文字領域として出力する文字領域切り出
し部、5は全ての認識対象文字の図形特徴を予め記憶し
ている認識辞書6、あるいは文字領域に蓄えられている
文字の図形特徴を比較し、それらの間との類似性を求
め、認識を行う文字認識部である。
【0010】6は全ての認識対象文字の図形特徴を予め
記憶している認識辞書、7は文字領域切り出し部4より
得られた文字領域の大きさ及び、文字認識部5より得ら
れた文字の図形特徴の情報を蓄えておく文字情報格納
部、8は英単語の綴りを記憶している単語辞書9をもと
に認識対象文字を決定する認識対象文字決定部、9は英
単語の綴りをツリー構造にて表現した単語辞書、10は
認識結果を出力する出力部、11は画像入力部1から文
字認識部5の各部をつなぐ内部バス、12は文字領域切
り出し部4,文字認識部5,認識対象文字決定部8及び
出力部10の各部をつなぐ内部バス、13,14,1
5,16はそれぞれ文字領域切り出し部4と文字情報格
納部7,文字認識部5と文字情報格納部7,文字認識部
5と認識辞書6,認識対象文字決定部8と単語辞書9を
つなぐ内部バスである。
【0011】以上のように構成された英文字認識装置に
ついて、図2に全体フロチャート、図3に文字領域切り
出し処理フロチャート、図4に文字認識処理フロチャー
ト、図5に単語辞書の一部、図6に処理過程の具体的な
説明図を示し、以下その動作を説明する。
【0012】認識したい文書を画像入力部1に文書画像
として入力する(ステップs1)。入力された文書画像
を文章領域切り出し部4に送り、文章領域切り出し部4
にて、文書画像の縦方向及び横方向の黒画素のヒストグ
ラムを求め、これをもとに文章領域を抽出する。そして
文章領域の位置情報を内部データとして蓄える(ステッ
プs2)。
【0013】単語領域切り出し部3に文章領域の位置情
報を送り、文章領域内に対する単語領域の切り出し処理
を行う。単語領域切り出し部3では、単語の前後の空白
が文字間の空白より大きいことに着目し、ある幅以上の
空白に挟まれた文字列を単語領域として切り出す。文章
領域切り出し部2にて見つけられた文章領域内の全ての
単語領域の位置情報を求め、内部データとして蓄える
(ステップs3)。
【0014】例として、図6の(a)に入力画像を、同
図中(b)に文章領域切り出し結果を、同図中(c)に
単語領域切り出し結果を示す。
【0015】認識対象文字決定部8では、単語の文字の
連なりをツリー構造で表現した単語辞書9を走査してい
くことによって、次に切り出し認識処理を行おうとする
認識対象文字を決定する。もし、単語辞書を走査して認
識対象文字が存在しない場合は、認識対象文字を全ての
文字とする。また、単語の第一文字目の処理を行う場合
も同様に認識対象文字を全ての文字とする。図6の文書
において、英単語‘with’内の‘w’,‘i’,
‘t’が認識されているとして、図5の単語辞書を用い
ると認識対象文字は‘h’,‘n’となる。
【0016】文字領域切り出し部4に単語領域の位置情
報及び認識対象文字を送り、単語領域内に対する文字領
域の切り出し処理を行う。
【0017】以下、文字領域の切り出し処理過程を図3
の文字領域切り出し処理フロチャートに沿って示す。
【0018】文字領域切り出し部4では、英文字は左右
に分離していないことに着目し、前後を空白に挟まれた
領域を文字領域としてもとめ、文字の位置情報を、内部
データとして蓄える。認識対象文字が限定され、かつ情
報格納部にこの認識対象文字の情報が蓄えられている場
合、格納されている大きさの情報をもとに、文字領域を
求め、位置情報を内部データとして蓄える(図3のステ
ップs12,s13,s14,s15)。
【0019】図6の例では、英単語‘with’内の
‘t’,‘h’に接触、文字切れが存在するが、既に認
識された英単語‘nothing’内の文字‘t’,
‘h’の文字領域の大きさ情報を用いて、文字領域を切
り出している
【0020】文字認識部に文字領域の位置情報を及び認
識対象文字を送り、文字領域内の文字認識処理を行う。
【0021】以下、文字認識処理過程を図4の文字認識
処理フロチャートに沿って示す。
【0022】文字認識部5では、文字領域の位置情報を
もとに注目する文字領域の画像の図形特徴を抽出する
(ステップs16)。認識対象文字が限定され、かつ認
識対象文字の文字情報が格納されている場合、抽出した
図形特徴と文字情報格納部7に格納されている認識対象
文字の図形特徴との間の類似性を求め、類似性が高く認
識結果に値する文字が存在する場合、その文字を認識結
果とする(ステップs17,s18,s19,s2
0)。
【0023】認識結果に値する文字が存在しなかった場
合、及び認識対象文字が限定されているが文字情報格納
部に認識対象文字の文字情報が格納されていない場合、
抽出した図形特徴と認識辞書内の認識対象文字の図形特
徴との間の類似性を求め、類似性が高く認識結果に値す
る文字が存在する場合、その文字を認識結果とする(ス
テップs21,s22)。認識結果に値しない場合、認
識対象文字を全ての文字とする(ステップs23)。認
識対象文字が全ての文字の場合、文字情報格納部7の格
納されている全ての文字の図形特徴との間の類似性を求
め、認識結果に値する最も類似性の高い文字を認識結果
とする(ステップs24,s25)。
【0024】認識結果に値する文字が存在しない場合、
認識辞書6内の全ての文字の図形特徴との間の類似性を
求め、認識結果に値する最も類似性の高い文字を認識結
果とする(ステップs26,s27)。認識結果に値す
る文字が存在しない場合、認識不能としリジェクトコー
ドを出力部へ送る(ステップs28)。認識結果に値す
る文字が存在する場合、文字情報格納部7へその文字の
認識文字コード、文字領域の大きさ情報、領域内の図形
特徴を送るとともに、出力部10に認識文字コードを送
る(ステップs29)。
【0025】文字情報格納部7は、全ての認識対象文字
毎に認識文字コードをインデックスとする、文字領域の
大きさ、文字領域内の図形特徴を記憶するテーブルを持
ち、文字認識部より送られてきた文字領域の大きさ及び
文字領域内の図形特徴を蓄える。
【0026】出力部10では、送られてきた認識文字コ
ードまたはリジェクトコードを出力する(ステップs
9)。
【0027】以上ステップs4,s5の処理を、全ての
単語領域内に対して行う。文書中の全ての単語が認識さ
れるまでこの処理を繰り返す(ステップs11)ことに
より与えられた文書画像の文字認識処理を行う。
【0028】
【発明の効果】以上説明したように、この発明によっ
て、文字間の接触、文字のかすれ等の低品質文字が存在
する英文一般文書の文字領域切り出し、文字認識処理
を、単語辞書及び同一文章内に存在する文字の情報を用
いて行うことにより、認識精度の向上を図ることができ
る。また、切り出しの際、単語辞書の情報を用いること
により、予め認識の対象とする文字を限定することがで
き、認識処理時間の軽減を図ることができる。
【図面の簡単な説明】
【図1】実施例の構成ブロック図
【図2】実施例の全体のフロチャート
【図3】文字領域切り出し処理のフロチャート
【図4】文字認識処理のフロチャート
【図5】単語辞書の一部を示す説明図
【図6】処理過程の説明図
【符号の説明】
1 画像入力部 2 文章領域切り出し部 3 単語切り出し部 4 文字領域切り出し部 5 文字認識部 6 認識辞書 7 文字情報格納部 8 認識対象文字決定部 9 単語辞書 10 出力部 11 内部バス 12 内部バス 13 内部バス 14 内部バス 15 内部バス 16 内部バス
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/20 340 G06K 9/34 G06K 9/62 G06K 9/70 G06K 9/72 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】認識対象文書を入力する画像入力部と、 入力された文書画像から文章領域を出力する文章領域切
    り出し部と、 文章領域から単語領域を出力する単語領域切り出し部
    と、 単語領域から文字領域を出力する文字領域切り出し部
    と、 切り出された文字領域の画像から文字の図形特徴を記憶
    している認識辞書をもとに文字認識を行う文字認識部
    と、 この文字認識部及び前記文字領域切り出し部より得られ
    る文字領域切り出し情報及び文字の図形特徴を蓄える文
    字情報格納部と、 英単語の綴りを記憶している単語辞書をもとに次の認識
    対象文字を決定する認識対象文字決定部と、 認識結果を出力する出力部と、を有する英文字認識装置
    であって、 前記文字領域切り出し部及び文字認識部は、次の認識対
    象文字と同一の文字が前記文字情報格納部に既に認識さ
    れた出力として格納されている場合には、前記文字情報
    格納部に格納された前記同一の文字の文字領域切り出し
    情報を用いて単語領域から次に認識すべき図形特徴を抽
    出し、この抽出された図形特徴と前記文字情報格納部に
    格納された前記同一の文字の図形特徴とを照合すること
    により文字認識を行うことを特徴とする 英文字認識装
    置。
JP03248998A 1991-09-27 1991-09-27 英文字認識装置 Expired - Fee Related JP3116452B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03248998A JP3116452B2 (ja) 1991-09-27 1991-09-27 英文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03248998A JP3116452B2 (ja) 1991-09-27 1991-09-27 英文字認識装置

Publications (2)

Publication Number Publication Date
JPH0589293A JPH0589293A (ja) 1993-04-09
JP3116452B2 true JP3116452B2 (ja) 2000-12-11

Family

ID=17186491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03248998A Expired - Fee Related JP3116452B2 (ja) 1991-09-27 1991-09-27 英文字認識装置

Country Status (1)

Country Link
JP (1) JP3116452B2 (ja)

Also Published As

Publication number Publication date
JPH0589293A (ja) 1993-04-09

Similar Documents

Publication Publication Date Title
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP3452774B2 (ja) 文字認識方法
US7162086B2 (en) Character recognition apparatus and method
JP2000181931A (ja) 自動オーサリング装置および記録媒体
JP3116452B2 (ja) 英文字認識装置
CN110807322B (zh) 基于信息熵识别新词的方法、装置、服务器及存储介质
JP3116453B2 (ja) 英文字認識装置
JPH06215184A (ja) 抽出領域のラベリング装置
JPH0528324A (ja) 英文字認識装置
JP3197441B2 (ja) 文字認識装置
JP2985243B2 (ja) 文字認識方法
JP3188154B2 (ja) 文字認識処理方法
JP2746345B2 (ja) 文字認識の後処理方法
JP3243389B2 (ja) 文書識別方法
JP3151866B2 (ja) 英文字認識方法
JPH05282493A (ja) 英文字認識装置
JPH04372087A (ja) 英文字認識装置
Verma et al. Robust script identification using Wavelet and EHD features in PCA space
JP3121401B2 (ja) 認識辞書及び文字認識装置
JPH04289989A (ja) 英文字認識装置
JP2794042B2 (ja) 表形式文書の認識装置
JP3428504B2 (ja) 文字認識装置
JP2931485B2 (ja) 文字切出し装置及び方法
JP2963474B2 (ja) 類似文字識別方法
JPH0589279A (ja) 文字認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees