JPH0632074B2 - 正規化方法 - Google Patents

正規化方法

Info

Publication number
JPH0632074B2
JPH0632074B2 JP58230244A JP23024483A JPH0632074B2 JP H0632074 B2 JPH0632074 B2 JP H0632074B2 JP 58230244 A JP58230244 A JP 58230244A JP 23024483 A JP23024483 A JP 23024483A JP H0632074 B2 JPH0632074 B2 JP H0632074B2
Authority
JP
Japan
Prior art keywords
character
character pattern
height
pattern
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58230244A
Other languages
English (en)
Other versions
JPS60122474A (ja
Inventor
公一 江尻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP58230244A priority Critical patent/JPH0632074B2/ja
Publication of JPS60122474A publication Critical patent/JPS60122474A/ja
Publication of JPH0632074B2 publication Critical patent/JPH0632074B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔技術分野〕 本発明は、文字認識装置において文字パターンの特徴パ
ラメータを正規化する方法に関する。
〔従来技術〕
一般に文字認識装置においては、読取画像から切り出し
た文字パターンの特徴パラメータを抽出するが、文字パ
ターンのサイズ変動を補正するために、特徴パラメータ
の正規化を行う。
従来は、個々の文字パターンの外接枠を基準として正規
化している。このような方式でも、たとえば第1図に示
す手書き文字パターンのように、サイズが文字毎に大幅
に変動する場合は格別問題はない。しかし、活字文字パ
ターンの場合には、大文字と小文字の区別が困難になる
ことがある。たとえば、第2図(a)に示す大文字OC
Rのパターンと、第2図(b)に示すように「つぶれ」
(太線化)によりサイズが増加した小文字ocrのパタ
ーンとを区別できなくなる。このような問題は、ノイズ
やパターン切れによっても起ることがある。
〔目 的〕
本発明は、上記問題点を解消できる正規化方法を提供す
ることを目的とする。
〔実施例〕
以下、一実施例によって、本発明を詳細に説明する。
第3図は本発明を実施する文字認識装置の概略ブロック
図である。この図において、1は原稿を読み取るスキャ
ナであり、2はスキャナ1から出力される画信号を2値
化する2値化回路である。3は2値化回路2によって2
値化された画像データを一行分以上、一時的に蓄積する
バッファメモリである。
4はバッファメモリ3に蓄積された画像データから個々
の文字パターンを切り出す切り出し回路、5は切り出さ
れた文字パターンを一時的に記憶する切り出しメモリで
ある。切り出し回路4における切り出し処理は、たとえ
ば画像データの水平射影によって文字行を切り出し、切
り出した文字行の垂直射影によって個々の文字パターン
を切り出す、いわゆる射影法によって行われる。
切り出し回路4によって文字パターンの幅は判るが、高
さは判らない。この高さを検出するのが高さ検出回路6
である。7は切り出しメモリ5に記録された個々の文字
パターンの特徴パラメータを抽出する特徴抽出部であ
る。
8は各種文字の特徴パラメータが登録された辞書メモ
リ、9は特徴抽出部7によって抽出された特徴パラメー
タと、辞書メモリ8に登録されている特徴パラメータと
のマッチングを行うマッチング回路である。10は抽出
された特徴パラメータや処理データを記録するためのメ
モリ、11は文字認識結果などを出力する出力部であ
る。12は装置各部の制御ならびに各種データ処理を行
うプロセサであり、上記1〜11の各部とシステムバス
13を通じて接続されている。
次に、この文字認識装置における原稿読取から文字認識
までの動作について順に説明する。
文字認識すべき原稿の画像がスキャナ1で読み取られ、
その画信号は2値化回路2によって2値化されたのち、
バッファメモリ3に蓄積される。バッファメモリ3に蓄
積された画像データから、切り出し回路4によって個々
の文字パターンが切り出され、順次切り出しメモリ5に
書き込まれる。高さ検出回路6は、切り出し回路4によ
って切り出された個々の文字パターンの高さを検出す
る。検出された高さデータはプロセサ12の制御のもと
にメモリ10に格納される。特徴抽出部7は切り出され
た個々の文字パターンの特徴パラメータを抽出する。抽
出された特徴パラメータは、プロセサ12の制御のもと
にメモリ10に格納される。
以下、第4図のフローチャートを参照して説明するが、
説明中の( )内の数字はフローチャートの各ステップ
番号である。
プロセサ12は、原稿読取の開始時にパラメータN,T
Rをクリアする(101)。なお、このクリアは、リジ
ェクト文字が生じた時、あるいは改行時に行ってもよ
い。
つぎに、1行目の文字パターンについて、高さ検出回路
6によって検出されメモリ10に記憶されている高さデ
ータを用い、文字パターンの高さの頻度分布f(h)を
求める(102)。
原稿の種類によって、文字パターンの高さ頻度分布は一
般に第5図のようになる。この図において、aは記号、
bはカナ文字やアルファベット、cは活字漢字、dは記
号のそれぞれの高さのピーク値を示している。また、h
は最大頻度の高さである。
プロセサ12は、このようにして算出した文字パターン
の高さ頻度分布f(h)を規格化し (F(h)=f(h)/Σf(h))、高さ頻度のエン
トロピーSを求める(102)。
第6図は原稿の種類による高さ頻度のエントロピーの分
布を示す。この図において、eは欧文活字の分布、fは
邦文活字の分布、gは手書き原稿の分布である。後述の
ように、このエントロピーSの値に基づいて、手書き文
字パターンと活字文字パターン、さらには欧文活字と邦
文活字の判別を行毎に行う。
ここで、エントロピーを文字種の判別に使用するのは次
の理由による。対象とするもの(ここでは文字列)の性
質を判定するとき、多数の属性を測定し総合的に判定す
るのが一般的で精度もよい。しかし、パラメータが増え
ば増えるほど、判定に要する時間が長くなるばかりか、
汎用性も減少する。単一のパラメータ「エントロピー」
を用いて文字種を判定する最大の理由はここにあある。
即ち、エントロピーSは、文字の高さの頻度分布f
(h)そのものを判定の材料とするよりははるかに簡潔
であり、判定精度もあまり変らない。
プロセサ12は、算出したエントロピーSが閾値S
(Sは第6図参照)より大きいか判定する(10
3)。S>Sであれば、プロセサ12は手書き文字パ
ターンの行と判定し、特徴抽出部7によって抽出されメ
モリ10に記憶されている文字パターンの特徴パラメー
タを、その文字パターンの外接枠(その高さはメモリ1
0に記憶されている)を基準枠として正規化する(10
4)。
次にプロセサ12は、特徴パラメータをメモリ10から
マッチング回路9に転送し、辞書メモリ8に登録されて
いる特徴パラメータとのマッチングを行わせ、候補文字
と、その候補文字の特徴パラメータと文字パラメー
タから抽出された特徴パラメータとの距離Rを求める
(105)。そしてプロセサ12は、平均距離RRが閾
値Rより小さいか判定する(106)。RR<R
場合、プロセサ12はn=n+1、TR=TR+R
RR=TR/nを計算するとともに、候補文字Cのコ
ードを出力部11へ出力し(107)、つぎの文字パタ
ーンの処理に進む。
ステップ106の判定結果がNOの場合、プロセサ12
は文字パターンを邦文活字のパターンとみなし、高さ頻
度分布(h)のピークを示す高さhをカナの基準枠と
して特徴パラメータの正規化を行う(108)。つま
り、正規化定数のh・l/h(hは文字パター
ンの高さ、lは仮名活字の高さ)を、特徴パラメータ
の座標値に掛ける。正規化の特徴パラメータをマッチン
グ回路9に転送し、マッチングを行わせ、候補文字C
との距離Rを求める(109)。次にプロセサ12は
平均距離RR<Rの判定を行う(110)。この判定
の結果がYESの場合、プロセサ12は候補文字C
コードを出力部11に出力し、n=n+1、TR=TR
+R、RR=TR/nの演算を行い(111)、次の
文字パターンの処理に進む。
ステップ110の判定結果がNOの場合、プロセサ12
のエントロピーSについてS>Sの判定を行う(11
2)。この判定結果がYESならばステップ107に進
むが、判定結果がNOの場合、その文字パターンを邦文
活字とみなし、hを漢字の外接枠とみなして特徴パラ
メータの正規化を行う(113)。つまり、正規化定数
・l/h(lは活字漢字の高さ)を特徴パラ
メータの座標値に掛ける。そして、正規化した特徴パラ
メータをマッチング回路9に転送し、候補文字Cとの
距離Rを求める(114)。次いでRR<Rの判定
を行う(115)。この判定の結果がYESの場合は、
候補文字Cのコードを出力部11に出力し、n=n+
1、TR=TR+R、RR=TR/nの演算を行い
(116)、次のパターンの処理に進む。判定結果がN
Oの場合、ステップ118に進む。
ステップ103の判定結果がNOの場合、プロセサ12
はS>S(Sは第6図を参照)の判定を行う(11
7)。その判定結果がYESの場合、上述のステップ1
08へ進む。
ステップ117の判定結果がNO、または上述のステッ
プ115の判定結果がNOの場合、プロセサ12はその
文字パターンを欧文活字とみなし、高さhを小文字の
基準枠として特徴パラメータを正規化する(118)。
そして、正規化した特徴パラメータをマッチング回路9
へ転送し、候補文字Cとの距離Rを求める(11
9)。次にプロセサ12はRR<Rの判定を行う(1
20)。その判定結果がYESの場合、プロセサ12は
候補文字Cのコードを出力部11に出力し、n=n+
1、TR=TR+R、RR=TR/nの演算を行い
(121)、次の文字パターンの処理に進む。
ステップ120の判定結果がNOの場合、プロセサ12
はS>Sの判定を行う(122)。この判定結果がY
ESならば、ステップ116へ進む。
その判定結果がNOの場合、hを大文字の基準枠とし
て特徴パラメータを正規化する(123)。そして、正
規化後の特徴パラメータを用いてマッチングを行わせ、
距離Rと候補文字Cを求める(124)。つぎに、
RR<Rの判定を行い(125)、YESならば候補
文字Cのコードを出力し、n=n+1、TR=TR+
、RR=TR/nの演算を行い(126)、次の各
文字ステップの処理に進む。ステップ125の判定結果
がNOの場合、リジェクトコードを出力し(127)、
次の文字パターンの処理に進む。
以上の処理を1行目の最後の文字パターンまで終了する
と、次の行についてステップ102以降の処理が実行さ
れる。
〔効 果〕
以上説明してように、本発明の正規化方法においては、
複数の文字パターンの高さの頻度分布を規格化し、高さ
頻度のエントロピーから手書き文字パターンと活字文字
パターンを判別し、その判定結果に応じて正規化定数を
切り換えるから、手書き文字パターンのようなサイズ変
動の激しい文字パターンについて従来と同様なサイズ補
正を達成し、かつ活字文字パターンについての従来のよ
うな問題を解消できる。
また、エントロピーは、文字の高さの頻度分布そのもの
を文字種の判別に用いるよりははるかに簡潔であり、判
定に要する時間が短かくなり、汎用性が増す。
【図面の簡単な説明】
第1図は手書き文字パターンの例を示す図、第2図は活
字文字パターンの例を示す図、第3図は本発明を実施す
る文字認識装置の概略ブロック図、第4図はプロセサの
処理を示すフローチャート、第5図は文字パターンの高
さ頻度分布のグラフを示す図、第6図は高さ頻度のエン
トロピー分布のグラフを示す図である。 1……スキャナ、2……2値化回路、4……切り出し回
路、6……高さ検出回路、7……特徴抽出部、8……辞
書メモリ、9……マッチング回路、12……プロセサ。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】文字パターンの特徴パラメータに対する正
    規化方法であって、複数の文字パターンのサイズの頻度
    分布を測定し、その頻度分布を規格化することにより頻
    度のエントロピー値を求め、該エントロピー値に基づい
    て手書き文字パターンと活字文字パターンの判別を行な
    い、手書き文字パターンと活字文字パターンとで正規化
    定数を切り換えることを特徴とする正規化方法。
JP58230244A 1983-12-06 1983-12-06 正規化方法 Expired - Lifetime JPH0632074B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58230244A JPH0632074B2 (ja) 1983-12-06 1983-12-06 正規化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58230244A JPH0632074B2 (ja) 1983-12-06 1983-12-06 正規化方法

Publications (2)

Publication Number Publication Date
JPS60122474A JPS60122474A (ja) 1985-06-29
JPH0632074B2 true JPH0632074B2 (ja) 1994-04-27

Family

ID=16904776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58230244A Expired - Lifetime JPH0632074B2 (ja) 1983-12-06 1983-12-06 正規化方法

Country Status (1)

Country Link
JP (1) JPH0632074B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0743755B2 (ja) * 1985-10-09 1995-05-15 日本電気株式会社 文字認識装置
JPH0337557U (ja) * 1989-08-25 1991-04-11

Also Published As

Publication number Publication date
JPS60122474A (ja) 1985-06-29

Similar Documents

Publication Publication Date Title
KR100658119B1 (ko) 문자 인식 장치 및 방법
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JPH09311905A (ja) 行検出方法および文字認識装置
JP2644041B2 (ja) 文字認識装置
JPH0632074B2 (ja) 正規化方法
JPH0632070B2 (ja) 文字認識装置
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JP2812256B2 (ja) 文字認識装置および方法
JP2000331122A (ja) 文字認識方法および装置
JP2630261B2 (ja) 文字認識装置
JP3160458B2 (ja) 文字読取装置及び文字読取方法
JP2859307B2 (ja) 文字切出し装置
JP3127413B2 (ja) 文字認識装置
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법
JP3276554B2 (ja) フォーマット認識装置及び文字読取り装置
JPH10171924A (ja) 文字認識装置
JP2578768B2 (ja) 画像処理方法
JP3277977B2 (ja) 文字認識方法
JP2972443B2 (ja) 文字認識装置
JPH0259502B2 (ja)
JP2001143020A (ja) 文字認識装置、文字認識方法、および記録媒体
JPH0498477A (ja) 文字切り出し方法
JPH03122786A (ja) 光学的文字読取装置
JPH08123872A (ja) 光学式文字読取装置
JPH0628522A (ja) 文字認識装置