JPS60122474A - 正規化方法 - Google Patents

正規化方法

Info

Publication number
JPS60122474A
JPS60122474A JP58230244A JP23024483A JPS60122474A JP S60122474 A JPS60122474 A JP S60122474A JP 58230244 A JP58230244 A JP 58230244A JP 23024483 A JP23024483 A JP 23024483A JP S60122474 A JPS60122474 A JP S60122474A
Authority
JP
Japan
Prior art keywords
character
pattern
height
manuscript
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58230244A
Other languages
English (en)
Other versions
JPH0632074B2 (ja
Inventor
Koichi Ejiri
公一 江尻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP58230244A priority Critical patent/JPH0632074B2/ja
Publication of JPS60122474A publication Critical patent/JPS60122474A/ja
Publication of JPH0632074B2 publication Critical patent/JPH0632074B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は1文字認識装置において文字パターンの特徴パ
ラメータを正規化する方式に関する。
〔従来技術〕
一般に文字認識装置においては、読取画像から切り出し
た文字パターンの特徴パラメータを抽出するが1文字パ
ターンのサイズ変動を補正するために、特徴パラメータ
の正規化を行う。
従来は1個々の文字パターンの外接枠を基準として正規
化している。このような方式でも、たとえば第1図に示
す手書き文字パターンのように。
サイズが文字毎に大幅に変動する場合は格別問題はない
。しかし、活字文字パターンの場合には。
大文字と小文字の区別が困難になることがある。
たとえば、第2図(a)に示す大文字OCRのパターン
と、第2図(b)に示すように「つぶれ」 (太線化)
によりサイズが増加した小文字ocrのパターンとを区
別できなくなる。このような問題は、ノイズやパターン
切れによっても起ることがある。
〔目 的〕
本発明は、上記問題点を解消できる正規化方式を提供す
ることを目的とする。
〔実施例〕
以下、一実施例によって1本発明の詳細な説明する。
第3図は本発明を実施する文字認識装置の概略ブロック
図である。この図において、■は原稿を読み取るスキャ
ナであり、2はスキャナlから出力される画信号を2値
化する2値化回路である。
3は2値化回路2によって2値化された画像データを一
行分以上、一時的に蓄積するバッファメモリである。
4はバッファメモリ3に蓄積された画像データから個々
の文字パターンを切り出す切り出し回路、5は切り出さ
れた文字パターンを一時的に記憶する切り出しメモリで
ある。切り出し回路4における切り出し処理は、たとえ
ば画像データの水平射影によって文字行を切り出し、切
り出し・た文字行の垂直射影によって個々の文字パター
ンを切り出す、いわゆる射影法によって行われる。
切り出し回路4によって文字パターンの幅は判るが、高
さは判らない、この高さを検出するのが高さ検出回路6
である。7は切り出しメモリ5に記録された個々の文字
パターンの特徴パラメータを抽出する特徴抽出部である
8は各種文字の特徴パラメータが登録された辞書メモリ
、9は特徴抽出部7によって抽出された特徴パラメータ
と、辞書メモリ8に登録されそいる特徴パラメータとの
マツチングを行うマツチン 9− グ回路である。10け抽出された特徴パラメータや処理
データを記憶するためのメモリ、11け文字認識結果な
どを出力する出力部である。12は装置各部の制御なら
びに各種データ処理を行うプロセサであり、上記1〜1
1の各部とシステムバス13を通し7て接続されている
次に、この文字認識装置における原稿読取から文字認識
までの動作について順に説明する。
文字認識すべき原稿の画像がスキャナ1で読み取られ、
その画信号は2値1ヒ回路2によって2値化されたのち
、バッファメモリ3に蓄積される。
バッファメモリ3に蓄積された画像データから、切り出
し回路4によって個々の文字パターンが切り出され、順
次切り出しメモリ5に書き込まれる。
高さ検出回路6は、切り出し回路4によって切り出され
た個々の文字パターンの高さを検出する。
検出された高さデータはプロセサ12の制御のちとにメ
モリ10に格納される。特徴抽出部7は切り出された個
々の文字パターンの特徴パラメータを抽出する。抽出さ
れた特徴パラメータは、プロセサ12の制御のもとにメ
モリ10に格納される。
以下、第4図のフローチャー1〜を参照して説明するが
、説明中の()内の数字はフローチャートの各ステップ
番号である。
プロセサ12は、原稿読取の開始時にパラメータN、T
Rをクリアする(101)。なお、このクリアは、リジ
ェクト文字が生じた時、あるいは改行時に行ってもよい
つぎに、1行目の文字パターンについて、高さ検出回路
6によって検出されメモリ10に記憶されている高さデ
ータを用い1文字パダ−ンの高さの頻度分布f(h)を
める(102)。
原稿の種類によって1文字パターンの高さ頻度分布は一
般に第5図のようになる。この図において、aは記号、
bはカナ文字やアルファベット。
Cは活字漢字、dは記号のそれぞれの高さのピーク値を
示している。また、h□は最大頻度の高さである。
プロセサ12は、このようにして算出し、た文字パター
ンの高さ頻度分布f(h)を規格化し一4= rF(h)=f(h)/Σf(h)」、高さ頻度のエン
トロピーSをめる(]02)。
S−−ΣF(h)]、ogF(h) h=i 第6図は原稿の種類による高さ頻度のエントロピーの分
布を示す。この図において、eは欧文活字の分布、fは
邦文活字の分布1gは手書き原稿の分布である。後述の
ように、このエントロピーSの値に基づいて1手書き文
字パターンと活字文字パターン、さらには欧文活字と邦
文活字の判別を行毎に行う。
プロセサ12は、算出したエントロピーSが閾値S3 
(S3け第6図参照)より大きいか判定する(103)
。S>S3であれば、プロセサ12は手書き文字パター
ンの行と判定し、特徴抽出部7によって抽出されメモリ
10に記憶されている文字パターンの特徴パラメータを
、その文字パターンの外接枠(その高さはメモリ10に
記憶されている)を基準枠として正規化する(104)
次にプロセサ12け、特徴パラメータをメモリ10から
マツチング回路9に転送し、辞書メモリ8に登録されて
いる特徴パラメータとのマツチングを行わせ、候補文字
C0と、その候補文字の特徴パラメータと文字パラメー
タから抽出された特徴パラメータどの距離R1をめる(
105)。
そし、てプロセサ12は、平均距離RRが閾値R6より
小さいか判定する(106)。RR< R、、の場合、
プロセサ12はn=n+1.TR=TR−t−R,、R
R,=TR/nを計算するとともに、候補文字CIのコ
ートを出力部11へ出力しく+07)、つぎの文字パタ
ーンの処理に進む。
ステップ106の判定結果がNOの場合、プロセサ12
け文字パターンを邦文活字のパターンどみなし2.高さ
頻度分布(h)のピークを示す高さh□をカナの基準枠
として特徴パラメータの正規化を行う(108)。つま
り、正規化定数のり。
・12/h−(h、は文字パターンの高さ、12は仮名
活字の高さ)を、特徴パラメータの座標値に掛けろ。正
規化の特徴パラメータをマツチング回路9に転送し5、
マツチングを行わせ、候補文字C7との距離R7をめる
<1O[)。次にプロセサ12け平均距離RR<Ruの
判定を行う(110)。二の判定の結果がYESの場合
、プロセサ12け候補文字C7のコートを出力部11に
出力し2、n=n+ 1 、TR,=TR+R2,RR
=T R/ nの演算を行い(+1+)、次の文字パタ
ーンの処理に進む。
ステップ110の判定結果がht oの場合、プロセサ
]2のエントロピーSについてS>S、の判定を行う(
112)。この判定結果がYESならばステップ107
に進むが、判定結果がNOの場合、その文字パターンを
邦文活字とみなし、、hmを漢字の外接枠とみなして特
徴パラメータの正規化を行う(1,13)。つまり、正
規化定数h5・]、/hm (]、け活字漢字の高さ)
を特徴パラメータの座標値に掛けろ。そし、で、正規化
した特徴パラメータをマツチング回路9に転送し1、候
補文字Cjとの距離R8をめる(+14)。次いでRR
<R,の判定を行う(115)。この判定7− の結果がYESの場合は、候補文字C3のコードを出力
部11に出力し、n=n+1.7R=TR+R,、RR
=TR/nの演算を行い(116)、次のパターンの処
理に進む。判定結果がNOの場合、ステップl 1.8
に進む。
ステップ103の判定結果がNoの場合、プロセサ12
は5O82(S2け第6図を参照)の判定を行う(11
7)。その判定結果がYESの場合、上述のステップ1
08へ進む。
ステップ117の判定結果がNo、または上述のステッ
プ115の判定結果がNoの場合、プロセサ12はその
文字パターンを欧文活字とみなし、高さhmを小文字の
基準枠として特徴パラメータを正規化する(11.8)
。そして、正規化した特徴パラメータをマツチング回路
9へ転送し、候補文字C4との距離R1をめる(119
)。次にプロセサ12けRR<ROの判定を行う(12
0)。
その判定結果がYESの場合、プロセサ12は候補文字
C1のコードを出力部11に出力し・、n=n+1 、
TR=TR+R4,RR=TR/nの演8− 算を行い(12]) 、次の文字パターンの処理に進む
ステップ]、 20の判定結果がNOの場合、プロセサ
12はS>82の判定を行う(+22)。この判定結果
がYESならば、ステップ116へ進む。
その判定結果がNOの場合、hmを大文字の基準枠とし
て特徴パラメータを正規化する(123)。
そし、て、正規化後の特徴パラメータを用いてマツチン
グを行わせ、距離R6と候補文字C6をめろ(124)
。つぎに、RR<R,の判定を行い<t 25)、YE
Sならば候補文字C5のコードを出力し、n=n+ 1
.、TR=TR+R11,R’R=TR/nの演算を行
い(126)、次の各文字パターンの処理に進む。ステ
ップ125の判定結果がNOの場合、リジェクトコード
を出力し・(127)、次の文字パターンの処理に進む
以上の処理を1行目の最後の文字パターンまで終了する
と1次の行についてステップ102以降の処理が実行さ
れる。
(効 果) 以上説明し、でように1本発明の正規化方式においては
、複数の文字パターンの高さの頻度分布から手書き文字
パターンと活字文字パターンを判別し、その判定結果に
応じて正規化定数を切り換えるから1手書き文字パター
ンのようなサイズ変動の激し、い文字パターンについて
従来と同様なサイズ補正を達成し、かつ活字文字パター
ンについての従来のような問題を解消できる。
【図面の簡単な説明】
第1図は手書き文字パターンの例を示す図、第2図は活
字文字パターンの例を示す図、第3図は本発明を実施す
る文字認識装置の概略ブロック図。 第4図はプロセサの処理を示すフローチャート、第5図
は文字パターンの高さ頻度分布のグラフを示す図、第6
図は高さ頻度のエントロピー分布のグラフを示す図であ
る。 l・・・スキャナ、2・・・2値化回路、 4・・・切
り出し回路、 6・・・高さ検出回路、 7・・・特徴
抽出部、8・・・辞書メモリ、 9・・・マツチング回
路、12・・・プロセサ。

Claims (1)

    【特許請求の範囲】
  1. (1)文字パターンの特徴パラメータに対する正規化方
    式であって、複数の文字パターンのサイズの頻度分布を
    測定し、その頻度分布から手書き文字パターンと活字文
    字パターンの判別を行い、手書き文字パターンと活字文
    字パターンとで正規化定数を切り換えることを特徴とす
    る正規化方式。
JP58230244A 1983-12-06 1983-12-06 正規化方法 Expired - Lifetime JPH0632074B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58230244A JPH0632074B2 (ja) 1983-12-06 1983-12-06 正規化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58230244A JPH0632074B2 (ja) 1983-12-06 1983-12-06 正規化方法

Publications (2)

Publication Number Publication Date
JPS60122474A true JPS60122474A (ja) 1985-06-29
JPH0632074B2 JPH0632074B2 (ja) 1994-04-27

Family

ID=16904776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58230244A Expired - Lifetime JPH0632074B2 (ja) 1983-12-06 1983-12-06 正規化方法

Country Status (1)

Country Link
JP (1) JPH0632074B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6285394A (ja) * 1985-10-09 1987-04-18 Nec Corp 文字認識装置
JPH0337557U (ja) * 1989-08-25 1991-04-11

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6285394A (ja) * 1985-10-09 1987-04-18 Nec Corp 文字認識装置
JPH0337557U (ja) * 1989-08-25 1991-04-11

Also Published As

Publication number Publication date
JPH0632074B2 (ja) 1994-04-27

Similar Documents

Publication Publication Date Title
EP0045803A1 (en) System and method for processing horizontal line characteristics in an image
JP4011646B2 (ja) 行検出方法および文字認識装置
CN112200053A (zh) 一种融合局部特征的表格识别方法
JPS60122474A (ja) 正規化方法
JPH02293989A (ja) 文字認識装置
KR20000025647A (ko) 쉐이딩 알고리즘을 이용한 영상 처리 방법
JP2827960B2 (ja) 宛名行抽出装置
JPH10171924A (ja) 文字認識装置
JP2859307B2 (ja) 文字切出し装置
JP2894111B2 (ja) 光学式活字文字認識装置における認識結果の総合判定方式
JPH0916715A (ja) 文字認識装置および方法
JP3645403B2 (ja) 文字読取装置および文字読取方法
JP2023034823A (ja) 画像処理装置、画像処理装置の制御方法およびプログラム
JP4580520B2 (ja) 文字認識方法および文字認識装置
JP2002158874A (ja) 画像処理装置
JPH0245892A (ja) 文字認識方法及びその装置
JPH10162104A (ja) 文字認識装置
JPS58222384A (ja) フオント識別方式
JPH06231306A (ja) 文字認識装置
JPS63136181A (ja) 文字読取装置
JPS59211175A (ja) 文字認識装置
JPH0816720A (ja) 文字認識装置
JP2000339409A (ja) 文字最適2値化装置
JPH05120482A (ja) 文字認識装置
JPH0969139A (ja) 光学式文字読取方法とその装置