JPH05108880A - 英文字認識装置 - Google Patents

英文字認識装置

Info

Publication number
JPH05108880A
JPH05108880A JP3269241A JP26924191A JPH05108880A JP H05108880 A JPH05108880 A JP H05108880A JP 3269241 A JP3269241 A JP 3269241A JP 26924191 A JP26924191 A JP 26924191A JP H05108880 A JPH05108880 A JP H05108880A
Authority
JP
Japan
Prior art keywords
character
area
line
recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3269241A
Other languages
English (en)
Inventor
Michiaki Nobuoka
道明 信岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3269241A priority Critical patent/JPH05108880A/ja
Publication of JPH05108880A publication Critical patent/JPH05108880A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 英文一般文書の文字認識において、接触文
字、切れ文字が存在する品質の低い文書に対して認識を
行うことを目的とする。 【構成】 入力された画像より、文書領域を切り出した
後、行領域を切り出し、行の高さをもとに最も文字幅の
広い文字の文字幅を推測する。そして推測された文字幅
の前後で文字領域を切り出し、認識を行う。認識を行っ
た結果、棄却された場合、前記の文字領域内を再度切り
出し、認識処理を行う。 【効果】 文字領域の切り出し処理を行う際、最大文字
幅を推定し、文字領域の切り出しを行うことにより、切
れ文字を分割することなく切り出すことができる。ま
た、認識の結果棄却された場合、再度領域内において再
切り出しを行うことにより、不必要な2文字の統合を防
ぐと同時に、接触文字の切り出しを図ることができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は英文一般文書の文字認識
を行う英文字認識装置に関するものである。
【0002】
【従来の技術】近年、文字認識装置を電子計算機等の入
力装置として利用する要求が高まっており、安定な認識
結果を効率的に得ることができる文字入力装置が電子計
算機等のシステムの性能向上に不可欠となっている。
【0003】従来の英文字認識装置は、文書領域から、
文字領域を切り出す際、英文字は左右に分離していない
ことに着目し、前後を空白に囲まれた領域を文字領域と
して切り出し、認識処理を行っていた。
【0004】
【発明が解決しようとする課題】しかしながら、複写等
により印字品質の低下した文書では左右の2文字が接触
したり(以降これらの文字を接触文字と呼ぶ)、あるい
は、一つの文字が切れて2つに分割される(以降これら
の文字を切れ文字と呼ぶ)ことがある。そのため、従来
の方法では正しく文字領域を切り出すことができず、認
識精度の低下を招いていた。
【0005】
【課題を解決するための手段】本発明は上記問題点を解
決するため、文書領域を切り出した後、行領域を切り出
し、行の高さをもとに最も文字幅の広い文字の文字幅を
推測する。そして推測された文字幅の前後で文字領域を
切り出し、認識を行う。認識を行った結果、棄却(リジ
ェクト)された場合、前記の文字領域を再度切り出し、
認識処理を行うことにより、接触文字、切れ文字を含む
文書の文字領域切り出し精度の向上を図る。
【0006】
【作用】文字領域の切り出し処理を行う際、最大文字幅
を推定し、文字領域の切り出しを行うことにより、切れ
文字を分割することなく切り出すことを図る。また、認
識の結果棄却された場合、再度領域内において再切り出
しを行うことにより、不必要な2文字の統合を防ぐと同
時に、接触文字の切り出しを図る。
【0007】
【実施例】本発明を一実施例とともに示す添付図面とと
もに説明する。
【0008】図1において、1は認識対象文書を文書画
像として入力する画像入力部、2は入力された文書画像
から文字列の集まりを見つけ、文章領域を出力する文章
領域切り出し部、3は文章領域から行単位の区切りを見
つけ1つの行の範囲を行領域として出力する行切り出し
部、4は行領域から文字単位の区切りを見つけ1つの文
字の範囲を文字領域として出力する文字切り出し部、5
は全ての認識対象文字の図形特徴を予め記憶している認
識辞書の図形特徴を比較し、それらの間との類似性を求
め、認識を行う文字認識部、6は全ての認識対象文字の
図形特徴を予め記憶している認識辞書、7は文字認識
部、文字領域再切り出し部の制御を行い認識結果コード
を決定する制御部、8は決定された認識結果コードを出
力する出力部、9は1から5の各部をつなぐ内部バス、
10は4,5及び7の各部をつなぐ内部バス、11,1
2はそれぞれ5と6,7と8をつなぐ内部バスである。
【0009】以上のように構成された英文字認識装置に
ついて、図2に全体フロチャート、図3に切り出し認識
処理フロチャート、図4に処理過程の具体的な説明図を
示し、以下その動作を説明する。
【0010】認識したい文書を画像入力部に文書画像と
して入力する。(S1)。入力された文書画像を文章領
域切り出し部に送り、文章領域切り出し部にて、文書画
像の縦方向及び横方向の黒画素のヒストグラムを求め、
これをもとに文章領域を抽出する。そして文章領域の位
置情報を内部データとして蓄える(S2)。
【0011】行領域切り出し部に文章領域の位置情報を
送り、文章領域内に対する行領域の切り出し処理を行
う。行領域切り出し部では、文章領域内の横方向のヒス
トグラムを求め、0に近い極小値を行の区切りとして行
領域を切り出す。文章領域切り出し部にて見つけられた
文章領域内の全ての行領域の位置情報を求め、内部デー
タとして蓄える(S3)。
【0012】以下、文字領域切り出し処理、文字認識処
理について、図3文字領域切り出し、認識処理フロチャ
ートに沿って説明する。
【0013】文字領域切り出し部に行領域の位置情報を
送り、文字領域を切り出す。文字領域切り出し部では、
送られてきた行領域の位置情報をもとに最大文字幅を以
下のように推測する(S6)。
【0014】最大文字幅=行の高さ×1.2 行領域内の画像データの黒画素連結部分の外接矩形を抽
出する(S7)。行の上1/3または下1/3に微少矩
形が存在し、かつ上下方向に、矩形が存在する場合分離
文字とみなし前記外接矩形を統合する(S8)。以下こ
の統合した矩形のことを基本矩形と呼ぶ。切り出し位置
を行頭の外接矩形の左側の辺のX座標とする(S9)。
この切り出し位置より右側に存在する基本矩形を最大文
字幅の越えない範囲で左に位置する矩形から順に統合す
る(統合された外接矩形の個数をここではN個とす
る)。この統合された領域を文字領域として切り出し、
位置情報を内部データとして蓄える。もし、一つの外接
矩形のみで最大文字幅より大きい場合は、その一つの外
接矩形を文字領域として切り出す(S10)。
【0015】文字認識部に文字領域の位置情報を送り、
認識処理を行う。文字認識部では、送られてきた文字領
域の位置情報をもとに文字領域内の画像の図形特徴を抽
出し、抽出した図形特徴と認識辞書内の全ての文字の図
形特徴との間の類似性を求め、類似性の高かった文字の
類似度及び認識文字コードを内部データとして蓄える
(S11)。
【0016】制御部に類似度、認識文字コード、文字位
置情報を送り、認識結果に値するかどうかを判定し、認
識結果に値する場合は結果の出力を行うようにし、認識
結果に値しない場合は再切り出しを行うようにする。
【0017】制御部では、送られてきた類似度及び認識
文字コードから認識結果に値するに十分な認識度かどう
か判定する(S12)。
【0018】認識結果に値する場合は出力部へ認識文字
コードを送る。認識結果に値しない場合、この文字領域
内に存在する基本矩形の数を数える。基本矩形の数Nが
2以上の場合、この領域内で最も右に位置する基本矩形
を取り除き、残りのN−1個を統合する。
【0019】この統合した領域を新しく文字領域とし、
位置情報を内部データに蓄える(S14)。再度認識部
へ新しい文字領域の位置情報を送り、認識処理(S1
1)以降の処理を繰り返す。基本矩形の数Nが1の場
合、この領域内で接触文字が存在すると見なし、領域内
の黒画素の輪郭の凹部分で切断し、文字領域とし、位置
情報を内部データに蓄える(S15)。
【0020】認識部に位置情報を送り、S11と同様の
認識処理を行う(S16)。制御部では送られてきた類
似度及び認識文字コードより認識結果に値するかどうか
を判定し、認識結果に値する場合は認識文字コードを、
認識結果に値しない場合は棄却(リジェクト)コードを
出力部へ送る。
【0021】出力部では送られてきた認識文字コードま
たは棄却(リジェクト)コードを出力する(S17)。
【0022】制御部では切り出された文字領域内に含ま
れる基本矩形の中で、最も右に位置する基本矩形が、行
領域内で最も右に位置する矩形でなければ、切り出し位
置を切り出された文字領域の最も右に位置する基本矩形
の左側の辺のX座標に1加えたものにし(S19)、こ
の位置情報を文字切り出し部へ送り、以下S10以降の
処理を繰り返す。
【0023】切り出された文字領域内に含まれる基本矩
形の内、最も右に位置する基本矩形が、行領域内で最も
右に位置する矩形であれば、切り出し対象行を次の行に
し、以下文章領域内に含まれる全ての行に対して、S6
〜S20の処理を繰り返す(S20)ことにより、与え
られて文書画像の文字認識処理を行う。
【0024】
【発明の効果】以上説明したように、この発明によっ
て、英文一般文書の文字領域の切り出し処理を行う際、
最大文字幅を推定し、文字領域の切り出しを行うことに
より、切れ文字を分割することなく切り出すことを図る
ことができる。また、認識の結果棄却された場合、再度
領域内において再切り出しを行うことにより、不必要な
2文字の統合を防ぐと同時に、接触文字の正しい位置で
の切り出しを図ることができる。
【図面の簡単な説明】
【図1】本発明の一実施例における英文字認識装置の全
体構成図
【図2】本実施例の処理手順を示す全体フロチャート
【図3】本実施例の文字領域切り出し、認識処理フロチ
ャート
【図4】本実施例の処理過程の具体的説明図
【符号の説明】
1 画像入力部 2 文章領域切り出し部 3 単語領域切り出し部 4 文字領域切り出し部 5 文字認識部 6 認識辞書 7 制御部 8 出力部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】認識対象文書を入力する画像入力部と、入
    力された文書画像から文章領域を出力する文章領域切り
    出し部と、文章領域から行領域を出力する行領域切り出
    し部と、行領域から文字領域を出力する文字領域切り出
    し部と、切り出された文字領域の画像から文字の図形特
    徴を記憶している認識辞書をもとに認識を行う文字認識
    部と、文字認識部と前記文字領域切り出し部との制御を
    行い、認識文字コードを決定する制御部と、決定した認
    識文字コードを出力する出力部とからなる英文字認識装
    置。
JP3269241A 1991-10-17 1991-10-17 英文字認識装置 Pending JPH05108880A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3269241A JPH05108880A (ja) 1991-10-17 1991-10-17 英文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3269241A JPH05108880A (ja) 1991-10-17 1991-10-17 英文字認識装置

Publications (1)

Publication Number Publication Date
JPH05108880A true JPH05108880A (ja) 1993-04-30

Family

ID=17469622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3269241A Pending JPH05108880A (ja) 1991-10-17 1991-10-17 英文字認識装置

Country Status (1)

Country Link
JP (1) JPH05108880A (ja)

Similar Documents

Publication Publication Date Title
JPH05108880A (ja) 英文字認識装置
JP3548234B2 (ja) 文字認識方法及び装置
JP2851087B2 (ja) 表処理方法
JP2728086B2 (ja) 文字切り出し方法
JP3193573B2 (ja) かぎかっこ付文字認識装置
JPH05282493A (ja) 英文字認識装置
JP3140079B2 (ja) 罫線認識方法及び表処理方法
JP2612383B2 (ja) 文字認識処理方式
JP2570415B2 (ja) 文字切り出し方法
JPH05174178A (ja) 文字認識方法
JPH05108882A (ja) 文字認識装置
JPH09269970A (ja) 文字認識方法とその装置
JPH05128305A (ja) 領域分割方法
JPH05189615A (ja) 英文字認識装置
JPH0573718A (ja) 領域属性識別方式
JPH05174185A (ja) 日本語文字認識装置
JP2728085B2 (ja) 文字切り出し方法
JPH05182024A (ja) 文字認識装置
JPH03217993A (ja) 文字サイズ認識装置
JPH06231306A (ja) 文字認識装置
JPH05189604A (ja) 光学的文字読取装置
JPH04169986A (ja) 文字認識装置
JPH05182025A (ja) 文字認識装置
JP2002269496A (ja) 文書認識装置及び文書認識方法を実行させるプログラムが記憶されたコンピュータ読み取り可能な記憶媒体
JPH01124082A (ja) 文字認識装置