JPH0573714A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0573714A
JPH0573714A JP3236054A JP23605491A JPH0573714A JP H0573714 A JPH0573714 A JP H0573714A JP 3236054 A JP3236054 A JP 3236054A JP 23605491 A JP23605491 A JP 23605491A JP H0573714 A JPH0573714 A JP H0573714A
Authority
JP
Japan
Prior art keywords
character
area
histogram
horizontal
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3236054A
Other languages
English (en)
Inventor
Yumiko Ikemure
由美子 池牟禮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3236054A priority Critical patent/JPH0573714A/ja
Publication of JPH0573714A publication Critical patent/JPH0573714A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 スキャナから取り込んだ2値データを基に、
領域の分割、識別を行う。識別結果が文字領域の場合
に、文字組み方向を決定し、自動で文字認識を行う。 【構成】 文字領域と判定された領域に対して、水平/
垂直ヒストグラムの周期が検出可能か否か判定する。水
平方向の周期性が検出できない場合は文字組み方向は縦
組み文字領域となり、垂直方向の周期性が検出できない
場合は文字組み方向は横組み文字領域となる。水平/垂
直の周期性が検出できる場合は、ヒストグラム極小値間
の距離の平均を検出し、文字組み方向を決定する。 【効果】 文字間隔が狭い文字領域や不定ピッチの文字
領域についても文字組み方向の決定が可能となり、高精
度の文字認識が行える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字・図形等が混在す
る印刷文書を文字・図形等の領域の属性に応じた認識を
行うことが可能な文字認識装置に関するものである。
【0002】
【従来の技術】従来の文字認識装置における領域属性識
別方式について、図6のブロック図を基に説明する。
【0003】1は読み取った画像の領域を分割する領域
分割部、2は領域分割部1で分割された各領域の属性を
判定する属性判定部、3は水平及び垂直のヒストグラム
を抽出するヒストグラム抽出部、4はヒストグラム抽出
部3で抽出されたヒストグラムの極小値を検出するヒス
トグラム極小値検出部、5は文字、組み方向決定部、6
は認識処理部である。
【0004】まず、領域分割部1によってスキャナによ
って取り込まれた2値データの白画素情報を基に領域を
分割する。
【0005】次に、属性判定部2において領域の黒画素
密度、及び外接矩形から、領域の属性が文字領域である
か、図形領域であるか、または、写真領域であるかを判
定する。図形であれば図形のベクトル化を行い、写真領
域であれば、画像領域に対してデータ圧縮処理を行う。
【0006】文字領域の場合には、ヒストグラム抽出部
3において文字の組み方向が縦書き領域か、横書き領域
かを決定するため、領域内の水平/垂直ヒストグラムを
検出する。そして、ヒストグラム極小値検出部4におい
て検出された各ヒストグラムのピーク値を検出し、ピー
ク間の距離を求める。この距離は、[文字サイズ+行
間]、あるいは、[文字サイズ+文字間]であり、行間
は文字間よりも大きいという特徴から、水平方向のヒス
トグラムのピーク間距離の平均と垂直方向の平均値を比
較して、文字組み方向決定部5において大きい方向を文
字組み方向とする。
【0007】
【発明が解決しようとする課題】従来の方式で、文字間
ピッチの狭い文字領域や文字ピッチが不定ピッチの文字
領域に対して文字組み判定を行うと、文字組み方向でな
い側のヒストグラムは行の文字間に次行の文字が重な
り、なだらかな形状となる。このため、正確な[文字サ
イズ+文字間]が検出不可能となり、誤判定してしま
う。
【0008】例えば、図2(a)のような文字間隔の狭
い横組み文字領域の組み方向を決定する。ここで、図2
(a)のイメージデータの水平ヒストグラム検出結果が
図3(b)のグラフで極小値が3箇所検出できる。同様
に、垂直ヒストグラム検出結果が図2(c)で極小値が
3箇所検出できる。水平と垂直の極小値間の距離の平均
を計算すると垂直方向の極小値間の距離が水平方向の距
離より大きいため、ここでの文字組み判定結果は縦組み
文字領域と誤判定されてしまう。
【0009】
【課題を解決するための手段】本発明は、この課題を解
決するため、以下に示す手段を設ける。
【0010】領域判定部で文字領域と判定された領域に
対して、スキャナ読み取りデータより水平/垂直方向の
ヒストグラムを抽出し、抽出されたヒストグラムの形状
が正確な極小値の座標を取り得るか否かの判定を行い、
行送りは不定ピッチとはならないという条件より、水平
方向ヒストグラムの形状から周期性を検出できない場合
は文字組み方向は縦組み文字領域とし、垂直方向ヒスト
グラムの形状から周期性を検出できない場合は文字組み
方向は横組み文字領域とし、水平/垂直ヒストグラムの
周期性が検出できる場合は、ブロック11のヒストグラ
ム極小値周期検出部で極小値間の距離の平均を検出し、
文字組み方向を決定する構成でなる。
【0011】
【作用】本発明は前記の構成により、不定文字ピッチの
文字領域についても文字組み方向の決定が可能となる。
【0012】
【実施例】本発明の一実施例における文字認識装置につ
いて図面を参照して説明する。図1は本発明の一実施例
における領域属性識別を実行する装置ブロックを示した
ものである。図1において、7は領域属性識別プログラ
ムが格納されているリードオンリーメモリ(以下ROM
と称する)である。8は領域属性識別を行う中央処理装
置(以下CPUと称する)であって、図3の領域分割
部、領域判定部、ヒストグラム検査部、ヒストグラム極
小値検出部、文字組み方向決定部、認識処理部を有す
る。9はスキャナ10によって取り込まれた2値データ
を格納するランダムアクセスメモリ(以下RAMと称す
る)である。11はCPU2によって識別された領域の
認識結果を表示する表示装置である。
【0013】以下、図4のフローチャートを参照しなが
ら説明する。
【0014】まず、認識を行う文書を2値データとして
スキャナ10から取り込み、RAM9に格納する(s
1)。CPU8において、取り込んだ2値データから領
域分割部によって水平方向の空白帯と、垂直方向の空白
帯を検出する。検出された空白帯によって囲まれている
範囲内を1領域として、検出された全領域の左上と右下
の座標値をRAM9に格納する(s2)。
【0015】領域判定部において、分割された領域の領
域属性の判定を行い(s4)、文字領域以外の場合は
(s16)の認識処理ヘジャンプする(s5)。文字領
域の場合は水平/垂直ヒストグラムを検出して結果をR
AM3に格納する(s6)。そして水平方向のヒストグ
ラムの形状が周期性を持つか否かを検出する。周期性が
無ければその領域は縦組み文字領域であると判定でき、
(s15)へジャンプする。さらに、垂直方向のヒスト
グラムの形状が周期性を持つか否かを検出し、周期性が
無ければ、その領域は横組み文字領域であると判定で
き、(s14)へジャンプする。そして、水平/垂直ヒ
ストグラムの両方共に周期性が検出された場合は、各ヒ
ストグラム周期を算出し、文字組方向決定部において文
字組み方向を決定する(s11〜13)。水平方向のヒ
ストグラム周期が垂直方向のヒストグラム周期よりも大
きければ、その領域は横書き文字領域となり(s1
4)、垂直方向のヒストグラム周期が水平方向のヒスト
グラム周期よりも大きければ、その領域は縦書き文字領
域となる(s15)。
【0016】以下、s7、s9のヒストグラム形状検査
について説明する。
【0017】領域内のヒストグラムの最大値を検出し、
RAM3のhistMaxに格納する図2の水平/垂直
ヒストグラムの最大値は図5(a)、(b)の◎の位置
の黒画素数がセットされる。次にヒストグラム分布が減
少から増加に変化している位置の黒画素の数を調べその
中で最も小さい値をRAM3のhistMinに格納す
る。図2の水平/垂直ヒストグラムの極小最小値は図5
(a)、(b)の○の位置の黒画素数がセットされる。
histMaxとhistMinの結果から周期性の検
定を行う。
【0018】(histMax > histMin
× thresh)を満たせばそのヒストグラムは周期
性を持つとする。
【0019】図2の例では水平方向ヒストグラムは周期
性を持ち、垂直方向ヒストグラムは周期性を持たないと
判定され、この領域は横組み文字領域となる。
【0020】また、周期性を持つと判定されたものにつ
いても、不定文字ピッチ領域の[文字サイズ+行間]
は、ほぼ一定で、[文字+文字間]はばらつきが大きい
という情報から、各極小値間の分散を算出し、分散値が
閾値var以上であれば、他方向が文字組み方向とな
る。
【0021】尚、本実施例では、thresh、var
の値は以下の値とした。
【0022】thresh=3 var=50
【0023】
【発明の効果】今回の方式は上記実施例から明らかなよ
うに、文字間/行間特徴を用いた文字組みの判定を行う
ため、不定文字ピッチの文字領域や文字間の狭い文字組
み判定が可能となり、高精度の文字認識が行えるという
効果を有する。
【図面の簡単な説明】
【図1】本発明の一実施例における領域識別を実行する
装置ブロック図
【図2】文字組み判定を行う例題を示す図
【図3】実施例のブロック図
【図4】実施例におけるフローチャート
【図5】図2における周期性検査の図
【図6】従来例におけるブロック図
【符号の説明】
1 リードオンリメモリ 2 中央処理装置 3 ランダムアクセスメモリ 4 スキャナ 5 表示装置

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】2値化された認識対象文書の領域分割を行
    い、分割された領域の属性を識別し、認識を行う文字認
    識装置において、被認識文書を2値データに変換する手
    段と、2値データの白画素情報から領域を分割する手段
    と、分割された各領域について領域内の黒画素情報から
    領域の属性を識別する手段と、識別結果が文字領域の場
    合に、水平/垂直方向のヒストグラムを検出する手段
    と、ヒストグラム形状から分布の周期性を検査する手段
    と、領域内の行送りは一定のピッチで文字送りは等ピッ
    チあるいは不定ピッチとなるという行間/文字間情報を
    基に周期性検査結果から文字組み方向を決定する手段を
    備え、不定ピッチの文字領域についても文字認識を行う
    ことを特徴とする文字認識装置。
JP3236054A 1991-09-17 1991-09-17 文字認識装置 Pending JPH0573714A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3236054A JPH0573714A (ja) 1991-09-17 1991-09-17 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3236054A JPH0573714A (ja) 1991-09-17 1991-09-17 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0573714A true JPH0573714A (ja) 1993-03-26

Family

ID=16995059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3236054A Pending JPH0573714A (ja) 1991-09-17 1991-09-17 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0573714A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010154575A (ja) * 2001-08-27 2010-07-08 Ricoh Co Ltd 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010154575A (ja) * 2001-08-27 2010-07-08 Ricoh Co Ltd 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム

Similar Documents

Publication Publication Date Title
US8331670B2 (en) Method of detection document alteration by comparing characters using shape features of characters
CN110647882A (zh) 图像校正方法、装置、设备及存储介质
JPH0721310A (ja) 文書認識装置
CN111126266A (zh) 文本处理方法、文本处理系统、设备及介质
JP2644041B2 (ja) 文字認識装置
JPH0573714A (ja) 文字認識装置
CN1983302A (zh) 行方向判定程序、方法以及装置
JP2868134B2 (ja) 画像処理方法及び装置
JPS63205783A (ja) 画調識別装置
JPH06187489A (ja) 文字認識装置
US7103220B2 (en) Image processing apparatus, method and program, and storage medium
CN113255637A (zh) 图像边界的定位方法、图像处理设备、装置和存储介质
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JP3019897B2 (ja) 行切出し方法
JP3223878B2 (ja) 文字列照合装置、方法及び記録媒体
JPH07160810A (ja) 文字認識装置
JP3000480B2 (ja) 文字領域区切り検出方法
Okun et al. Robust text detection from binarized document images
JP4738645B2 (ja) 網掛け領域検出装置、網掛け領域検出方法、プログラムおよび記憶媒体
JPH0573718A (ja) 領域属性識別方式
JP3384634B2 (ja) 文字種識別方法
JP3220226B2 (ja) 文字列方向判別方法
JPH0916715A (ja) 文字認識装置および方法
JP3190794B2 (ja) 文字切り出し装置
JP2022019253A (ja) 情報処理装置、情報処理方法及びプログラム