JPH0589294A - 英文字認識装置 - Google Patents

英文字認識装置

Info

Publication number
JPH0589294A
JPH0589294A JP3249001A JP24900191A JPH0589294A JP H0589294 A JPH0589294 A JP H0589294A JP 3249001 A JP3249001 A JP 3249001A JP 24900191 A JP24900191 A JP 24900191A JP H0589294 A JPH0589294 A JP H0589294A
Authority
JP
Japan
Prior art keywords
character
recognition
area
image
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3249001A
Other languages
English (en)
Other versions
JP3116453B2 (ja
Inventor
Michiaki Nobuoka
道明 信岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP03249001A priority Critical patent/JP3116453B2/ja
Publication of JPH0589294A publication Critical patent/JPH0589294A/ja
Application granted granted Critical
Publication of JP3116453B2 publication Critical patent/JP3116453B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 英文一般文書の文字認識において、認識精度
を損なうことなく処理時間の短縮を図ることを目的とす
る。 【構成】 画像を入力する画像入力部1と、文章・単語
・文字の各領域に切り出す文章領域切り出し部2,単語
領域切り出し部3,文字領域切り出し部4と、認識され
た文字を蓄える文字画像格納部7と、文字の図形特徴を
記憶している認識辞書6と、英単語の綴りを記憶してい
る単語辞書9と、これらの辞書の情報と文字画像格納部
7の文字画像とを使って文字認識・文字決定する文字認
識部5,認識対象文字決定部と、これらの結果を出力す
る出力部10とからなっている。 【効果】 文字領域の切り出し、認識を行う際、単語辞
書をもとに次に処理を行う認識対象文字を推定し、同一
文章内に存在する認識対象文字と同じ文字種の画像をも
とに、文字領域の切り出し、文字認識を行うことによ
り、簡単な処理で切り出し、認識処理を行うことがで
き、処理時間の短縮を図ることができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は英文一般文書の文字認識
を行う英文字認識装置に関するものである。
【0002】
【従来の技術】近年、文字認識装置を電子計算機等の入
力装置として利用する要求が高まっており、安定な認識
結果を効率的に得ることが出来る文字入力装置が電子計
算機等のシステムの性能向上に不可欠となっている。
【0003】従来のマルチフォントを対象とする認識装
置では、認識の対象となる全ての文字に対して、予め多
数のフォントより抽出した図形特徴をもとに認識辞書を
作成しておき、入力された文字画像より抽出した図形特
徴と最も近い図形特徴を持つ文字を認識辞書から選び出
すことにより認識処理を行っていた。
【0004】
【発明が解決しようとする課題】しかしながら、入力さ
れた文字画像の図形特徴を抽出し、認識辞書の中から最
も近い図形特徴を持つ文字を選び出すには、多くの演算
を必要とし、処理時間の増大を招いていた。
【0005】本発明が解決しようとする課題は、従来の
これらの問題点を解消し、文字領域の切り出し及び文字
認識の精度と速度を高めた英文字認識装置の提供にあ
る。
【0006】
【課題を解決するための手段】本発明は上記課題を解決
するため、英文一般文書においては、同じフォントが多
数使われ、また分かち書きされた単語のほとんどが予め
登録可能であることに着目し、文字領域の切り出し、認
識処理を行う。
【0007】即ち、本発明では、文字領域切り出し・文
字認識するに際し、既処理の文字の文字画像を参照させ
る為に、これを蓄える文字画像格納部を設けた。この文
字画像格納部と全ての文字の図形特徴を記憶した認識辞
書と英単語の綴りを記憶した英単語辞書を用いて文字領
域切り出し部・文字認識部が文字領域の切り出しと文字
認識を行う。
【0008】
【作用】文字領域切り出し部及び文字認識部において、
文字領域の切り出し、認識処理を行う際、認識対象文字
を推定し、文字画像格納部の同一の文章内に存在する認
識対象文字と同じ文字種の画像と認識対象文字の画像の
重ね合わせにより、文字領域の切り出し、文字認識処理
を行い、認識の精度と処理時間の短縮を図る。
【0009】
【実施例】本発明を一実施例とともに示す添付図面とと
もに説明する。図1において、1は認識対象文書を文書
画像として入力する画像入力部、2は入力された文書画
像から文字列の集まりを見つけ、文章領域を出力する文
章領域切り出し部、3は文章領域から単語単位の区切り
を見つけ1つの単語の範囲を単語領域として出力する単
語領域切り出し部、4は文字画像格納部7に蓄えられて
いる情報をもとに単語領域から文字単位の区切りを見つ
け1つの文字の範囲を文字領域として出力する文字領域
切り出し部、5は全ての認識対象文字の図形特徴を予め
記憶している認識辞書の図形特徴を比較し、それらの間
との類似性を求め、認識を行う、または文字画像格納部
7に蓄えられている画像と認識の対象になっている画像
を重ね合わせることにより認識を行う文字認識部であ
る。
【0010】6は全ての認識対象文字の図形特徴を予め
記憶している認識辞書、7は文字領域切り出し部4より
切り出され、文字認識部5において認識された文字領域
の画像を蓄えておく文字画像格納部、8は英単語の綴り
を記憶している単語辞書9をもとに認識対象文字を決定
する認識対象文字決定部、9は英単語の綴りをツリー構
造にて表現した単語辞書、10は認識結果を出力する出
力部、11は画像入力部1から文字認識部5の各部をつ
なぐ内部バス、12は文字領域切り出し部4,文字認識
部5,認識対象文字決定部8及び出力部10の各部をつ
なぐ内部バス、13,14,15,16はそれぞれ文字
領域切り出し部4と文字画像格納部7,文字認識部5と
文字画像格納部7,文字認識部5と認識辞書6,認識対
象文字決定部8と単語辞書9をつなぐ内部バスである。
【0011】以上のように構成された英文字認識装置に
ついて、図2に全体のフロチャート、図3に文字領域切
り出し・文字認識処理のフロチャート、図4に単語辞書
のツリー構造を示す説明図、図5は処理過程の具体例に
よる処理説明図を示し、以下その動作を説明する。
【0012】一般に、マルチフォントに対する認識は、
認識の対象となる全ての文字に対して、予め多数のフォ
ントより抽出した図形特徴をもとに認識辞書を作成して
おき、入力された文字画像より抽出した図形特徴と最も
近い図形特徴を持つ文字を認識辞書から選び出すことに
よって行っているが、演算量が多い。一方、シングルフ
ォントに対する認識処理は、そのフォントの標準書体の
文字の画像(以下、文字の画像を文字画像と呼ぶ)と入
力された文字画像を重ね合わせ、照合することにより安
定した認識結果を得ることができ、演算量も少ない。そ
の反面、この方法を用いてマルチフォントに対して認識
を行うには、それぞれのフォント毎に標準書体を持たな
ければならない。
【0013】英文一般文書においては、同じフォントが
多数使われ、また分かち書きされた単語のほとんどが予
め登録可能であることに着目し、単語辞書9を用いて認
識の対象となる文字を推定し、この文字と同じ文字種が
同一文書内で認識されていない場合は、前者のマルチフ
ォントに対する一般的認識処理で認識を行ない、この文
字の画像データを蓄えておく。既にこの文字種が同一文
書内で認識されている場合は、蓄えられている文字画像
と重ね合わせを行ない、認識結果を得る。
【0014】具体的な処理過程を以下に示す。認識した
い文書を画像入力部1に文書画像として入力する(ステ
ップs1)。入力された文書画像を文章領域切り出し部
2に送り、文章領域切り出し部2にて、文書画像の縦方
向及び横方向の黒画素のヒストグラムを求め、これをも
とに文章領域を抽出する。そして文章領域の位置情報を
内部データとして蓄える(ステップs2)。
【0015】単語領域切り出し部3に文章領域の位置情
報を送り、文章領域内に対する単語領域の切り出し処理
を行う。単語領域切り出し部3では、単語の前後の空白
が文字間の空白より大きいことに着目し、ある幅以上の
空白に挟まれた文字列を単語領域として切り出す。文章
領域切り出し部2にて見つけられた文章領域内の全ての
単語領域の位置情報を求め、内部データとして蓄える
(ステップs3)。
【0016】例として、図5中21に入力画像を、同図
中22に文章領域切り出し結果を、同図中23に単語領
域切り出し結果を示す。
【0017】認識対象文字決定部8では、単語の文字の
連なりをツリー構造で表現した単語辞書9を走査してい
くことによって、次に切り出し、認識処理を行おうとす
る認識対象文字を決定する(ステップs5)。もし、単
語辞書9を走査して認識対象文字が存在しない場合は、
認識対象文字を全ての文字とする。また、単語の第一文
字目の処理を行う場合も同様に認識対象文字を全ての文
字とする(ステップs6)。文字領域切り出し部4に単
語領域の位置情報及び認識対象文字を送り、単語領域内
に対する文字領域の切り出し処理を行う。
【0018】以下、文字領域の切り出し処理、文字認識
過程を図3の文字領域切り出し・文字認識の処理フロチ
ャートに沿って示す。
【0019】文字領域切り出し部4では、認識対象文字
が限定され、かつ、文字画像格納部7にこの認識対象文
字と同じ文字種の画像が蓄えられている場合(ステップ
s11)、次に認識の対象となる画像の位置情報を内部
データとして蓄える。文字認識部5に次に認識対象とな
る画像の位置情報を送り、認識処理を行う。文字認識部
5では送られてきた位置に、文字画像格納部7に蓄えら
れている認識対象文字と同じ文字種の文字画像を重ね合
わせ認識を行う(ステップs12)。認識結果に値する
一致を見た場合、認識結果とし、認識文字コードを出力
部10へ送る(ステップs19)。
【0020】図5の例では、‘This’,‘has ’,‘no
thing ’,‘to’,‘do’,‘wi’は既に認識を終え、
‘T ’,‘a ’,‘g ’,‘h ’,‘i ’,‘n ’,
‘o ’,‘s ’,‘t ’,‘w ’の文字画像が蓄えられ
ている。図4の単語辞書9を用いると認識対象文字は
‘f ’,‘l ’,‘n ’,‘r ’,‘s ’,‘t ’とな
り、画像格納部7に蓄えられている‘n ’,‘s ’,
‘t’の画像と重ね合わせ、認識結果‘t ’を得る。次
の文字に対しても同様の処理を行ない、認識結果‘h’
を得る(図5中の24)。
【0021】上記の認識において認識結果に値しなかっ
た場合、または認識対象文字が全ての文字の場合、ある
いは認識対象文字と同じ文字種の文字画像が文字画像格
納部7に蓄えられていない場合、まず、文字領域切り出
し部4で文字領域の切り出し処理を行う。英文字は左右
に分離していないことに着目し、前後を空白に挟まれた
領域を文字領域としてもとめ、文字の位置情報を、内部
データとして蓄える(ステップs14)。文字認識部5
に文字領域の位置情報を及び認識対象文字を送り、文字
領域内の文字認識処理を行う。文字認識部5では、文字
領域の位置情報をもとに注目する文字領域の画像の図形
特徴を抽出し(ステップs15)、抽出した図形特徴と
認識辞書6内の全ての文字の図形特徴との間の類似性を
求め(ステップs16)、認識結果に値する最も類似性
の高い文字を認識結果とし、文字画像格納部7に文字領
域の画像を蓄え(ステップs17)、認識文字コードを
出力部へ送る(ステップs18)。認識結果に値する文
字が存在しない場合、認識不能としリジェクトコードを
出力部へ送る(ステップs20)。
【0022】文字画像格納部7は、全ての認識対象文字
毎に認識文字コードをインデックスとする、文字領域の
画像を記憶するバッファを持ち、文字認識部5より送ら
れてきた文字領域の画像を貯える。
【0023】出力部10では、送られてきた認識文字コ
ードまたはリジェクトコードを出力する(ステップs
8)。
【0024】以上ステップs4〜ステップs8の処理
を、単語領域内の全ての文字に対して行う(ステップs
9)。文書中の全ての単語が認識されるまでこの処理を
繰り返す(ステップs10)ことにより与えられた文書
画像の文字認識処理を行う。
【0025】
【発明の効果】以上説明したように、この発明によっ
て、英文一般文書の文字領域切り出し、文字認識処理
を、同一文章内に存在する文字の画像と重ね合わせるこ
とにより認識を行うことにより、処理時間の短縮を図る
ことができるとともに、単語辞書より認識対象文字を推
定することにより誤認識を低減し、認識精度の低下を防
ぐことができる。
【図面の簡単な説明】
【図1】実施例の回路ブロック図
【図2】実施例の全体処理のフロチャート
【図3】文字領域切り出し・文字認識処理のフロチャー
【図4】単語辞書のツリー構造を示す説明図
【図5】処理過程の具体例による処理説明図
【符号の説明】
1 画像入力部 2 文章領域切り出し部 3 単語領域切り出し部 4 文字領域切り出し部 5 文字認識部 6 認識辞書 7 文字画像格納部 8 認識対象文字決定部 9 単語辞書 10 出力部 11 内部バス 12 内部バス 13 内部バス 14 内部バス 15 内部バス 16 内部バス

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】認識対象文書を入力する画像入力部と、入
    力された文書画像から文章領域を出力する文章領域切り
    出し部と、文章領域から単語領域を出力する単語領域切
    り出し部と、単語領域から文字領域を出力する文字領域
    切り出し部と、切り出された文字領域の画像から全ての
    文字の図形特徴を記憶している認識辞書をもとに認識を
    行う文字認識部と、前記文字領域切り出し部より切り出
    され、前記文字認識部で認識された文字画像を蓄える文
    字画像格納部と、英単語の綴りを記憶している英単語辞
    書をもとに認識対象文字を決定する認識対象文字決定部
    と、認識結果を出力する出力部とからなる英文字認識装
    置。
  2. 【請求項2】文字領域切り出し部及び文字認識部は、文
    字画像格納部に認識対象となる文字種の文字領域画像が
    蓄えられている場合、この画像と認識の対象となる文字
    領域の画像を重ね合わせることにより、文字領域の切り
    出し、文字認識を行うことを特徴とする請求項1記載の
    英文字認識装置。
JP03249001A 1991-09-27 1991-09-27 英文字認識装置 Expired - Fee Related JP3116453B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03249001A JP3116453B2 (ja) 1991-09-27 1991-09-27 英文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03249001A JP3116453B2 (ja) 1991-09-27 1991-09-27 英文字認識装置

Publications (2)

Publication Number Publication Date
JPH0589294A true JPH0589294A (ja) 1993-04-09
JP3116453B2 JP3116453B2 (ja) 2000-12-11

Family

ID=17186538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03249001A Expired - Fee Related JP3116453B2 (ja) 1991-09-27 1991-09-27 英文字認識装置

Country Status (1)

Country Link
JP (1) JP3116453B2 (ja)

Also Published As

Publication number Publication date
JP3116453B2 (ja) 2000-12-11

Similar Documents

Publication Publication Date Title
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JPH10207988A (ja) 文字認識方法および文字認識装置
JPH0589294A (ja) 英文字認識装置
JPH0528324A (ja) 英文字認識装置
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JPH0991371A (ja) 文字表示装置
JPH0619962A (ja) テキスト分割装置
JP2746345B2 (ja) 文字認識の後処理方法
JP3116452B2 (ja) 英文字認識装置
JPH05282493A (ja) 英文字認識装置
JP2985243B2 (ja) 文字認識方法
JP3071745B2 (ja) 文字認識結果の後処理方法
JPH08180064A (ja) 文書検索方法及び文書ファイリング装置
JPH0259979A (ja) 文書画像処理装置
JP3121401B2 (ja) 認識辞書及び文字認識装置
JPH04289989A (ja) 英文字認識装置
JPH09269970A (ja) 文字認識方法とその装置
JP2995825B2 (ja) 日本語文字認識装置
JP3151866B2 (ja) 英文字認識方法
JP3243389B2 (ja) 文書識別方法
JPS63269267A (ja) 文字認識方法
JPH10334190A (ja) 文字認識方法、装置および記録媒体
JPH0589279A (ja) 文字認識装置
JPH05189615A (ja) 英文字認識装置
JPH0696277A (ja) 英文字認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees