JPH05189615A - 英文字認識装置 - Google Patents

英文字認識装置

Info

Publication number
JPH05189615A
JPH05189615A JP4001239A JP123992A JPH05189615A JP H05189615 A JPH05189615 A JP H05189615A JP 4001239 A JP4001239 A JP 4001239A JP 123992 A JP123992 A JP 123992A JP H05189615 A JPH05189615 A JP H05189615A
Authority
JP
Japan
Prior art keywords
character
area
recognition
image
cutout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4001239A
Other languages
English (en)
Inventor
Michiaki Nobuoka
道明 信岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4001239A priority Critical patent/JPH05189615A/ja
Publication of JPH05189615A publication Critical patent/JPH05189615A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 接触文字や切れ文字を含む英文書の文字認識
の切出し精度を向上させた認識精度の飛躍的に向上させ
た英文字認識装置の提供。 【構成】 入力部1と、入力画像の文章領域切り出し部
2と、文章領域の行領域切り出し部3と、行領域の文字
領域切り出し部と、切り出された文字領域の文字の図形
特徴を記憶する認識辞書6を基に認識する文字認識部5
と、文字認識部5での認識された結果再び文字領域の切
出し及び文字認識を行う必要がある領域を記憶する再切
出し領域格納部7と、文字認識部5で認識結果に値する
と決定された文字の認識文字コードと画像を記憶する文
字画像格納部8と、再切り出し領域格納部7の格納領域
に対し重ね合わせ処理を行う重ね合わせ処理部9と、文
字認識の結果及び位置を記憶している認識結果格納部1
0と、認識結果格納部10に記憶してある認識結果を出
力する認識結果出力部11と、からなる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は英文一般文書の文字認識
を行う英文字認識装置に関するものである。
【0002】
【従来の技術】近年、文字認識装置を電子計算機等の入
力装置として利用する要求が高まっており、認識確度の
高い認識結果を効率的でかつ安定して得ることができる
文字認識装置が電子計算機等のシステムの性能向上に不
可欠となっている。
【0003】従来の英文字認識装置は、文書領域から、
文字領域を切り出す際、英文字は左右に分離していない
ことに着目し、前後が空白に囲まれた領域を文字領域と
して切り出し、認識処理を行っていた。
【0004】
【発明が解決しようとする課題】しかしながら、複写等
により印字品質の低下した文書では左右の2文字が接触
したり(以下、接触文字と言う)、あるいは、一つの文
字が切れたり、擦れたりして2つに分割される(以下、
切れ文字と言う)ことがある。そのため、従来の方法で
は正しく文字領域を切り出すことができず、認識確度が
低く入力作業が煩雑化するという問題点を有していた。
【0005】本発明は上記従来の問題点を解決するもの
で、接触文字や切れ文字を含む英文書の文字認識の切り
出し精度を向上させた認識精度の飛躍的に向上した英文
字認識装置を提供することを目的とする。
【0006】
【課題を解決するための手段】この目的を達成するため
に本発明の英文字認識装置は、文章領域を切り出した
後、行領域を切り出し、行の高さを基に最も文字幅の広
い文字の文字幅を推測する。そして推測された文字幅の
前後で文字領域を切り出し認識を行う。認識を行った結
果、認識結果に値する場合、この文字領域の画像情報を
記憶する。棄却(リジェクト)された場合、この文字領
域に対して、記憶している文字画像を重ね合わせ再度切
り出し、認識処理を行う構成からなり、具体的には、認
識対象文書を入力する画像入力部と、前記画像入力部で
入力された文書画像から文章領域を切り出す文章領域切
り出し部と、文章領域から行領域を切り出す行領域切り
出し部と、行領域から文字領域を切り出す文字領域切り
出し部と、切り出された文字領域の画像から全ての文字
の図形特徴を記憶する認識辞書を基に認識を行う文字認
識部と、前記文字認識部での認識された結果再び文字領
域の切り出し及び文字認識を行う必要がある領域の位置
を記憶する再切り出し領域格納部と、前記文字認識部で
認識結果に値すると決定された文字の認識文字コードと
文字画像を記憶する文字画像格納部と、前記再切出し領
域格納部に格納されている領域に対して前記文字画像格
納部に記憶されている文字画像を重ね合わせ切出し認識
を行う重ね合わせ処理部と、文字認識の結果及び位置を
記憶している認識結果格納部と、前記認識結果格納部に
記憶してある認識結果を出力する認識結果出力部と、を
備えた構成からなる英文字認識装置である。
【0007】
【作用】この構成によって、文字領域の切り出し処理を
行う際、最大文字幅を推定し、文字領域の切り出しを行
うので、切れ文字を分割することなく切り出すことが出
来る。また、認識の結果棄却された場合、この文字領域
に対して同一文書内の認識確度の高い文字の画像を重ね
合わせ、切れ文字、接触文字の切り出しを行うので、品
質の低い文字に対しても認識精度を飛躍的向上させるこ
とができる。
【0008】
【実施例】以下本発明の一実施例について、図面を参照
しながら説明する。
【0009】図1は本実施例の英文字認識装置の全体構
成図である。1は認識対象文書を文書画像として入力す
る画像入力部、2は入力された文書画像から文字列の集
まりを見つけ、文章領域を出力する文章領域切り出し
部、3は文章領域から行単位の区切りを見つけ1つの行
の範囲を行領域として出力する行切り出し部、4は行領
域から文字単位の区切りを見つけ1つの文字の範囲を文
字領域として出力する文字切り出し部、5は全ての認識
対象文字の図形特徴を予め記憶している認識辞書の図形
特徴を比較し、それらの間との類似性を求め、認識を行
う文字認識部、6は全ての認識対象文字の図形特徴を予
め記憶している認識辞書、7は文字認識部においての認
識の結果、再度文字領域を切り出す必要がある領域の位
置を記憶しておく再切り出し領域格納部、8は文字認識
の結果認識確度が高い文字の認識文字コードと画像を記
憶しておく文字画像格納部、9は再切り出し領域格納部
に記憶されている領域に対して、文字画像格納部に記憶
されている画像情報を重ね合わせ、文字領域の切り出
し、認識を行う重ね合わせ処理部、10は認識結果及び
位置を記憶している認識結果格納部、11は前記認識結
果格納部をもとに認識結果を記憶する認識結果出力部、
12は1から5及び7から10の各部をつなぐ内部バ
ス、13,14は各々5と6,10と11をつなぐ内部
バスである。
【0010】以上のように構成された本実施例の英文字
認識装置について、以下、図5の具体例を参照しながら
図2乃至図4を用いてその動作を説明する。
【0011】図2は全体のフローチャートであり、図3
は文字領域切り出し・認識処理のフローチャート、図4
は文字領域再切り出し・認識処理のフローチャート、図
5は処理過程の具体的な説明図である。
【0012】まず図2において、認識したい文書を画像
入力部1に文書画像として入力する(S1)。
【0013】入力された文書画像を文章領域切り出し部
2に送り、文章領域切り出し部2にて、文書画像の縦方
向及び横方向の黒画素のヒストグラムを求め、これをも
とに文章領域を抽出する。そして文章領域の位置情報を
内部データとして蓄える(S2)。
【0014】行領域切り出し部3に文章領域の位置情報
を送り、文章領域内に対する行領域の切り出し処理を行
う。行領域切り出し部3では、文章領域内の横方向のヒ
ストグラムを求め、0に近い極小値を行の区切りとして
行領域を切り出す。文章領域切り出し部2にて見つけら
れた文章領域内の全ての行領域の位置情報を求め、内部
データとして蓄える(S3)。
【0015】次に、文字領域切り出し処理・認識処理
(S4)について、図3の文字領域切り出し、認識処理
フローチャートに沿って説明する。
【0016】文字領域切り出し部4に行領域の位置情報
を送り、文字領域を切り出す。文字領域切り出し部4で
は、送られてきた行領域の位置情報をもとに最大文字幅
を次のように推測する(S9)。
【0017】最大文字幅=行の高さ×1.2 行領域内の画像データの黒画素連結部分の外接矩形を抽
出する(S10)。行の上1/3または下1/3に微少
矩形が存在し、かつ上下方向に、矩形が存在する場合、
i,jのような分離文字とみなし前記外接矩形を統合す
る(S11)。以下この統合した外接矩形を基本矩形と
言う。切り出し位置が行頭の場合、行領域内で最も左に
位置する矩形の左側の辺をX座標、行頭でない場合は、
次に処理を行う外接矩形の左側の辺をX座標とする。こ
の切り出し位置より右側に存在する基本矩形を最大文字
幅の越えない範囲で左に位置する矩形から順に統合す
る。この統合された領域を文字領域として切り出し、位
置情報を内部データとして蓄える。もし、一つの外接矩
形のみで最大文字幅より大きい場合は、その一つの外接
矩形を文字領域として切り出す(S12)。
【0018】文字認識部5に文字領域の位置情報を送
り、認識処理を行う。文字認識部5では、送られてきた
文字領域の位置情報をもとに、文字領域内の画像の図形
特徴を抽出し、抽出した図形特徴と認識辞書6内の全て
の文字の図形特徴との間の類似性を求め(S13)、認
識結果に値するかどうかを判定する(S14)。認識結
果に値する場合、認識の対象としている文字の画像が文
字画像格納部8に既に記憶されているかどうか調べる
(S15)。文字画像格納部8にこの対象とする文字領
域の画像が記憶されていない場合、文字画像格納部8に
認識文字コードと画像を蓄える(S16)。S15にお
いて、対象の画像が文字画像格納部8に記憶されてい
る、記憶されていないいずれの場合も、認識結果格納部
10に認識文字コード及び文字位置情報を送り蓄える
(S17)。S14において、認識結果に値しなかった
場合、すぐ直前の文字領域が再切り出し領域であるか調
べる(S18)。直前の領域が再切り出し領域の場合、
この領域と現在対象としている領域を1つの領域とする
(S19)。再切り出し領域格納部7に対象としている
文字領域(統合した場合はその領域)の位置情報を格納
する(S20)。
【0019】以上S4の処理を文章領域内の全ての文字
に対して行う(S5)。図5の例では、文字領域切り出
し処理・認識処理を終え、文字画像格納部8には、
‘T’,‘a’,‘g’,‘h’,‘i’,‘n’,
‘o’,‘s’,‘t’,‘u’,‘w’,‘y’の文
字画像が、再切り出し領域格納部7には、‘ith’の
文字列が存在する領域の位置情報が記憶されている。
【0020】次に、文字領域再切り出し・認識処理(S
6)について、図4の文字領域再切り出し・認識処理フ
ローチャートに沿って説明する。
【0021】再切り出し領域に格納されている再切り出
し文字領域の文字位置情報を文字領域切り出し部4に送
る(S21)。文字領域切り出し部4では送られてきた
矩形の左側のX座標を切り出し位置とし、内部データに
蓄える(S22)。重ね合わせ処理部9に再切り出し領
域の位置情報、切り出し位置を送る。重ね合わせ処理部
9では、送られてきた再切り出し領域内の画像を取り出
し、切り出し位置より文字画像格納部8に記憶されてい
る画像の内、大きな図形より順に重ね合わせを行い(S
23)、一致する画像が存在するかどうか調べる。一致
する画像が存在した場合、認識結果格納部10に認識結
果及び位置情報を送り蓄える(S31)。一致する画像
が存在しなかった場合、この再切り出し領域内に存在す
る基本矩形の数を数える(S25)。基本矩形の数が2
以上の場合、この領域内で最も右に位置する基本矩形を
取り除き、残りの基本矩形を統合する。この統合した領
域を新しく文字領域とし、位置情報を内部データに蓄え
る(S28)。再度文字認識部5へ新しい文字領域の位
置情報を送り、S13と同様の認識処理を行い(S2
9)、認識結果に値するかどうか判定する。認識結果に
値しない場合、S28以下の処理を繰り返す(S3
0)。認識結果に値する場合、認識の対象としている画
像が、既に記憶されているかどうか調べる(S31)。
文字画像格納部8にこの対象とする文字画像が記憶され
ていない場合、文字画像格納部8に認識文字コードと画
像を蓄える(S32)。S30において、対象の画像が
文字画像格納部8に記憶されている、記憶されていない
いずれの場合も、認識結果格納部10に認識文字コード
及び文字位置情報を送り蓄える(S33)。基本矩形の
数が1の場合、この領域内で接触文字が存在するとみな
し、領域内の黒画素の輪郭の凹部分で切断し、文字領域
とし、位置情報を内部データに蓄える(S26)。文字
認識部5に位置情報を送り、S13と同様の認識処理を
行う(S27)。認識結果に値する場合は認識文字コー
ド及び文字位置情報を、認識結果に値しない場合は棄却
(リジェクト)コード及び位置情報を認識結果格納部1
0へ送り蓄える(S33)。
【0022】処理を行った基本矩形が再切り出し領域に
含まれる基本矩形の中で、最も右に位置する矩形でなけ
れば切り出し位置を切り出された文字領域の右に位置す
る基本矩形の左側の辺をX座標にし(S22)、この位
置情報を文字領域切り出し部4へ送り、以下S23以降
の処理を繰り返す。処理を行った再切り出し領域に含ま
れる基本矩形の内、最も右に位置する基本矩形であれ
ば、この再切り出し領域内の再切り出し、認識処理を終
了する(S34)。
【0023】全ての再切り出し領域に対して、文字領域
再切り出し・認識処理(S6)を行う(S7)。
【0024】図5の例では、再切り出し領域格納部7に
記憶されている文字列‘ith’の領域に対して文字画
像格納部8に記憶されている画像を順次重ね合わせるこ
とにより、‘i’,‘t’,‘h’の認識結果を得る。
【0025】認識結果格納部10より認識文字コード及
び位置情報を認識結果出力部11に送る。認識結果出力
部11では、送られてきた位置情報をもとに認識文字コ
ードを出力する(S8)。
【0026】
【発明の効果】以上のように本発明は、英文一般文書の
文字領域の切り出し処理を行う際、最大文字幅を推定
し、文字領域の切り出しを行うことにより、切れ文字を
分割することなく切り出すことができる。また、認識の
結果棄却された場合、この文字領域に対して、同一文書
内の認識文字確度の高い文字の重ね合わせを行うことに
より、品質の悪い英文書の切れ文字、接触文字の切り出
し認識を行うので、認識精度を飛躍的に向上させること
ができる優れた英文字認識装置を実現できるものであ
る。
【図面の簡単な説明】
【図1】本実施例の英文字認識装置の全体構成図
【図2】本実施例の全体フローチャート
【図3】文字領域切り出し・認識処理フローチャート
【図4】文字領域再切り出し・認識処理フローチャート
【図5】処理過程の具体的説明図
【符号の説明】
1 画像入力部 2 文章領域切り出し部 3 行領域切り出し部 4 文字領域切り出し部 5 文字認識部 6 認識辞書 7 再切り出し領域格納部 8 文字画像格納部 9 重ね合わせ処理部 10 認識結果格納部 11 認識結果出力部 12 1乃至5及び7乃至10の各部をつなぐ内部バス 13 5と6をつなぐ内部バス 14 10と11をつなぐ内部バス

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】認識対象文書を入力する画像入力部と、前
    記画像入力部で入力された文書画像から文章領域を切り
    出す文章領域切り出し部と、文章領域から行領域を切り
    出す行領域切り出し部と、行領域から文字領域を切り出
    す文字領域切り出し部と、切り出された文字領域の画像
    から全ての文字の図形特徴を記憶する認識辞書を基に認
    識を行う文字認識部と、前記文字認識部での認識された
    結果再び文字領域の切り出し及び文字認識を行う必要が
    ある領域の位置を記憶する再切り出し領域格納部と、前
    記文字認識部で認識結果に値すると決定された文字の認
    識文字コードと文字画像を記憶する文字画像格納部と、
    前記再切り出し領域格納部に格納されている領域に対し
    て前記文字画像格納部に記憶されている文字画像を重ね
    合わせ切り出し認識を行う重ね合わせ処理部と、文字認
    識の結果及び位置を記憶している認識結果格納部と、前
    記認識結果格納部に記憶されている認識結果を出力する
    認識結果出力部と、を備えたことを特徴とする英文字認
    識装置。
JP4001239A 1992-01-08 1992-01-08 英文字認識装置 Pending JPH05189615A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4001239A JPH05189615A (ja) 1992-01-08 1992-01-08 英文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4001239A JPH05189615A (ja) 1992-01-08 1992-01-08 英文字認識装置

Publications (1)

Publication Number Publication Date
JPH05189615A true JPH05189615A (ja) 1993-07-30

Family

ID=11495914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4001239A Pending JPH05189615A (ja) 1992-01-08 1992-01-08 英文字認識装置

Country Status (1)

Country Link
JP (1) JPH05189615A (ja)

Similar Documents

Publication Publication Date Title
JPH05282493A (ja) 英文字認識装置
JPH05189615A (ja) 英文字認識装置
JPH0528324A (ja) 英文字認識装置
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JP3197441B2 (ja) 文字認識装置
JPH0452783A (ja) 図面読取装置
JP3116453B2 (ja) 英文字認識装置
JPH08161426A (ja) 手書き文字ストローク切出し装置
JPH05324914A (ja) 英文字認識装置
JP3116452B2 (ja) 英文字認識装置
JPH0785221A (ja) 図面自動認識装置の文字とシンボルの分離・認識方法
JPH05108880A (ja) 英文字認識装置
JP3193573B2 (ja) かぎかっこ付文字認識装置
JPS62257583A (ja) 文字認識方式
JPH09269970A (ja) 文字認識方法とその装置
JP3151866B2 (ja) 英文字認識方法
JPH05174178A (ja) 文字認識方法
JPH0468483A (ja) 文字認識方法
JPH04289989A (ja) 英文字認識装置
JPH04112282A (ja) 単語領域抽出方式
JP2004220625A (ja) 文字画像の正規化方法および文字認識装置
JPH05242294A (ja) 図面読取装置
JPH04169986A (ja) 文字認識装置
JPS63150783A (ja) 文字認識装置
JPH03189888A (ja) 図面読取装置における文字列の種類決定装置