JPH10143608A - 文字読取装置 - Google Patents

文字読取装置

Info

Publication number
JPH10143608A
JPH10143608A JP8294781A JP29478196A JPH10143608A JP H10143608 A JPH10143608 A JP H10143608A JP 8294781 A JP8294781 A JP 8294781A JP 29478196 A JP29478196 A JP 29478196A JP H10143608 A JPH10143608 A JP H10143608A
Authority
JP
Japan
Prior art keywords
line width
character
complexity
average line
character pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8294781A
Other languages
English (en)
Inventor
Susumu Naitsu
将 内津
Yoshimi Yamada
義美 山田
Yuji Hamazaki
祐児 浜崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP8294781A priority Critical patent/JPH10143608A/ja
Publication of JPH10143608A publication Critical patent/JPH10143608A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文字パターンの複雑度に対応して平均線幅を
判定することにより認識精度を向上させた文字認識装置
を提供する。 【解決手段】 文字認識装置1は、光電変換部2、多値
データバッファ3、二値化回路4、二値データバッファ
5、平均線幅算出部6、複雑度計算部7、しきい値判定
部8、認識部9および認識辞書10とにより構成され
る。平均線幅算出部6は、二値データから文字パターン
の平均線幅を算出する。複雑度計算部7は、二値データ
から文字パターンの複雑度を計算する。しきい値判定部
8は、文字パターンの複雑度に応じて、線幅の適切さを
判定するもので、判定するための許容範囲設定値を予め
格納している。認識部9は、認識辞書10から照合用の
パターンを受けとって、算出された線幅に基づいて文字
を認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、帳票上に記入され
た文字を読取る文字読取装置に関し、とくに手書きで記
入された文字を読取る文字読取装置に関する。
【0002】
【従来の技術】従来、光学式文字読取装置においては、
帳票上に記入された文字を光電変換部で階調のディジタ
ル信号に変換し、このディジタル信号を多値データバッ
ファに格納する。多値データバッファから出力される多
値データを二値データに変換し、この二値データから平
均線幅を求め、求められた線幅が許容範囲内にあるかど
うかを判定する。線幅が許容範囲内にあれば、認識可能
な文字パターンであるとしてそのデータを認識部へ送
り、認識を行う。求められた線幅が許容範囲内にない場
合は、二値データを変換する際のしきい値を設定し直し
て新たに二値データを変換し直し、再度、平均線幅を求
めて、その線幅が許容範囲内にあるかどうか判定するよ
うにしている。
【0003】
【発明が解決しようとする課題】しかしながら、特に手
書き漢字の読取りにおいて、対象となる文字の種類は極
めて多く、また文字の複雑さも多岐に渡っている。一般
に、画数の多い文字群ではパターンのつぶれが多く、画
数の少ない文字群ではかすれが生じやすいというよう
に、字形のくずれる傾向は一様ではない。このような状
況の下にあって、前記従来装置の認識精度は十分満足の
いく結果を得られなかった。
【0004】
【課題を解決するための手段】上記課題を解決するため
に本発明は、帳票上の文字を読取って得られた多値デー
タを二値化して二値データを生成し、この二値データに
基づいて文字認識を行う文字読取装置において、前記二
値データから文字パターンの平均線幅を算出する平均線
幅算出手段と、文字パターンの複雑度を計算する複雑度
計算手段とを設け、前記複雑度計算手段により計算され
た複雑度に応じて前記平均線幅算出手段で算出した平均
線幅が適正かどうかを判定し、適正の場合に文字認識を
行うことを特徴とする。
【0005】上記構成を有する本発明によれば、二値デ
ータから平均線幅算出手段により文字パターンの平均線
幅が算出される。一方、複雑度計算手段により二値デー
タから文字パターンの複雑度が計算される。算出された
平均線幅は複雑度に応じて適切な値かどうか判定され
る。
【0006】
【発明の実施の形態】以下、本発明の実施の形態を図面
にしたがって説明する。なお各図面に共通する要素には
同一の符号を付す。図1は本発明の実施の形態の文字認
識装置を示すブロック図である。
【0007】図1において、実施の形態の文字認識装置
1は、光電変換部2、多値データバッファ3、二値化回
路4、二値データバッファ5、平均線幅算出部6、複雑
度計算部7、しきい値判定部8、認識部9および認識辞
書10とにより構成される。光電変換部2は、図示しな
い帳票上の文字を光センサで読取った光信号を電気信号
に変換するもので、具体的には多値のディジタル信号に
変換する。多値データバッファ3は、得られたディジタ
ル信号を格納する。二値化回路4は、多値データを二値
データに変換する回路で、例えばフィルタ回路等により
構成される。二値データバッファ5は、二値化されたデ
ータを格納する。
【0008】平均線幅算出部6は、二値データから文字
パターンの平均線幅を算出する回路である。複雑度計算
部7は、二値データから文字パターンの複雑度を計算す
る回路である。しきい値判定部8は、文字パターンの複
雑度に応じて、線幅の適切さを判定するもので、判定す
るための許容範囲設定値を予め格納している。認識部9
は、認識辞書10から照合用のパターンを受けとって、
算出された線幅に基づいて文字を認識する回路である。
【0009】次に実施の形態の動作を図2のフローチャ
ートにしたがって説明する。図2は実施の形態の動作を
示すフローチャートである。図示しない帳票上の文字が
図示しない光センサにより読み取られ(ステップ1)、
光電変換部2により多値データに変換される(ステップ
2)。変換された多値データは多値データバッファ3に
格納される。多値データバッファ3から出力されたディ
ジタル信号を二値化回路4により二値化し(ステップ
3)、二値化したデータを二値データバッファ5に格納
する。二値化回路4は二値化を行う際にしきい値を設定
し、このしきい値を基準にして黒データか白データかを
決定する。次に平均線幅算出部6は、二値データバッフ
ァ5から出力された二値データから文字パターンの平均
線幅を算出する(ステップ4)。ここで平均線幅の算出
について説明する。
【0010】図3は平均線幅の算出を示す説明図であ
る。実際の文字パターンは複雑であるので、長方形の簡
略したモデルで説明する。図に示すように、文字パター
ン11を4×10の黒点から成り立っているものとする
と、その総黒点数は4×10=40ドットである。この
パターン11を2×2の格子12で走査する。このとき
2×2の格子12のうちの一点を基準黒点とする。ここ
では左上の黒点13を基準黒点とする。この格子12で
上記の文字パターン11の各点を走査し、格子12のす
べての点が黒点となるときの基準黒点のパターン上のド
ットを四黒点とする。この条件ですべてのドットを走査
すると、四黒点となるドットは図3に斜線で示す部分と
なる。
【0011】平均線幅Wは以下の式で求められる。即
ち、 W=A/(A−Q) (1) ここでAは総黒点数であり、図3の例では40である。
またQは四黒点数であり、図3の例では27(斜線の部
分)である。即ち、図3の例では平均線幅WはW=40
/(40−27)=3.1となる。
【0012】図2のフローチャートに戻って説明する
と、次に複雑度計算部7でパターンの複雑度を計算する
(ステップ5)。複雑度計算部7では、文字パターンの
黒点数(図3でいうA)および四黒点数(図3でいう
Q)から複雑度を計算するが、複雑度Hは次の式で求め
る。即ち、 H=(黒点数A−四黒点Q)/(文字の高さDX+文字
幅DY)×16 次に、しきい値判定部8で文字パターンの複雑度を判定
する(ステップ6、7)。しきい値判定部8には予め文
字パターンの複雑度の大中小に応じて平均線幅のしきい
値が設定されており、このしきい値を基準にして文字パ
ターンの複雑度が大中小のそれぞれに分類される。例え
ば、しきい値をH1、H2(H1>H2)として、ステ
ップ4で計算された複雑度Hの値に応じて以下のように
分類される。 H>H1のとき 複雑度大に分類 H2<H<H1のとき 複雑度中に分類 H<H2のとき 複雑度小に分類 しきい値判定部8には複雑度の大中小毎に平均線幅の上
限値および下限値が設定されており、複雑度の大中小の
それぞれの分類においてステップ4で算出した平均線幅
Wがそれぞれの平均線幅の上限値と下限値の範囲内に入
っているかどうか判定する(ステップ8、9、10)。
平均線幅Wが上限値と下限値の範囲内にある場合は、認
識に適した文字パターンであるとして、そのデータは認
識部9へ送られる。認識部9では送られてきた文字パタ
ーンデータに対して、各文字カテゴリーの判定アルゴリ
ズムを備えた認識辞書10により認識処理を行う(ステ
ップ11)。認識処理を行った後、表示装置等の標準出
力装置に認識結果を出力する(ステップ12)。
【0013】ステップ8、9、10において文字パター
ンの平均線幅Wが上限値と下限値の範囲内に入っていな
い場合は、認識に不適切であるとして、二値化のしきい
値を変え(ステップ13)、再度二値パターンを生成
し、ステップ3以降の動作を繰り返す。
【0014】ここで二値化のしきい値を変更させること
による文字パターンの変化について説明する。図4は文
字パターンの変化を示す説明図である。同図は、同一の
パターンについて二値化のしきい値を変えた場合のパタ
ーンを示すもので、左からしきい値THを0、1、2、
3、4、5、6とした場合のパターンである。しきい値
が大きくなるにしたがってパターンの線幅が太くなって
いるのが見て取れる。しきい値0のパターンは線がかす
れており、パターンに切れが生じている。普通、線幅が
極端に太かったり、極端に細かったりすると、文字のつ
ぶれやかすれあるいは切れが多くなり、認識に適さな
い。したがって、二値化のしきい値を変更することによ
り認識に適する線幅が得られるのである。
【0015】上記の実施の形態は手書きの漢字認識を対
象としたものであるが、このほかにも記入品質にばらつ
きの多い手書のアルファベットや数字の認識、印字のば
らつきの多い活字の認識にも応用が可能である。また線
幅のしきい値の設定の仕方を工夫することにより、より
柔軟な認識制御が可能である。認識制御は光学式文字読
取装置一般に重要であり、本発明を各種の光学式文字読
取装置に展開することが可能である。また上記実施の形
態では文字パターンの複雑度を3段階に分類したが、分
類段階は3段階に限らず、もっと多くの段階に分類して
よいことはいうまでもない。
【0016】
【発明の効果】以上詳細に説明したように本発明によれ
ば、文字パターンの複雑度を計算し、その複雑度毎に線
幅のしきい値を設定し、その設定しきい値に従って線幅
を判定するようにしたので、文字認識における画数の多
様性による字形のばらつきに対応した認識が可能とな
り、認識辞書の性能を効率良く発揮することができる。
これにより認識率の一層の向上が図れる。
【図面の簡単な説明】
【図1】実施の形態の文字認識装置を示すブロック図で
ある。
【図2】実施の形態の動作を示すフローチャートであ
る。
【図3】平均線幅の算出を示す説明図である。
【図4】文字パターンの変化を示す説明図である。
【符号の説明】
1 文字認識装置 4 二値化回路 6 平均線幅算出部 7 複雑度計算部 8 しきい値判定部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 帳票上の文字を読取って得られた多値デ
    ータを二値化して二値データを生成し、この二値データ
    に基づいて文字認識を行う文字読取装置において、 前記二値データから文字パターンの平均線幅を算出する
    平均線幅算出手段と、 文字パターンの複雑度を計算する複雑度計算手段とを設
    け、 前記複雑度計算手段により計算された複雑度に応じて前
    記平均線幅算出手段で算出した平均線幅が適正かどうか
    を判定し、適正の場合に文字認識を行うことを特徴とす
    る文字認識装置。
  2. 【請求項2】 前記平均線幅算出手段で算出した平均線
    幅が適正でないと判定した場合、二値データを生成する
    際のしきい値を変更する請求項1記載の文字認識装置。
  3. 【請求項3】 前記複雑度計算手段が文字パターンの複
    雑度を3段階に計算する請求項1または2記載の文字読
    取装置。
  4. 【請求項4】 前記複雑度計算手段が計算する複雑度は
    文字パターンの大きさと黒点数の比から計算される請求
    項3記載の文字読取装置。
JP8294781A 1996-11-07 1996-11-07 文字読取装置 Withdrawn JPH10143608A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8294781A JPH10143608A (ja) 1996-11-07 1996-11-07 文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8294781A JPH10143608A (ja) 1996-11-07 1996-11-07 文字読取装置

Publications (1)

Publication Number Publication Date
JPH10143608A true JPH10143608A (ja) 1998-05-29

Family

ID=17812208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8294781A Withdrawn JPH10143608A (ja) 1996-11-07 1996-11-07 文字読取装置

Country Status (1)

Country Link
JP (1) JPH10143608A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865290B2 (en) 2000-02-09 2005-03-08 Ricoh Company, Ltd. Method and apparatus for recognizing document image by use of color information

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865290B2 (en) 2000-02-09 2005-03-08 Ricoh Company, Ltd. Method and apparatus for recognizing document image by use of color information

Similar Documents

Publication Publication Date Title
US5212741A (en) Preprocessing of dot-matrix/ink-jet printed text for Optical Character Recognition
US5081690A (en) Row-by-row segmentation and thresholding for optical character recognition
US20040179733A1 (en) Image reading apparatus
EP0676891A2 (en) Method of thresholding document images
JPH02196565A (ja) 画像二値化方式
JPH10143608A (ja) 文字読取装置
JPH10222602A (ja) 光学式文字読取装置
JPS6037952B2 (ja) 最適二値化方式
JP2812256B2 (ja) 文字認識装置および方法
JP3268542B2 (ja) 微細文字画像の拡大方法
JP2002157552A (ja) 光学式文字読取装置
JP2894111B2 (ja) 光学式活字文字認識装置における認識結果の総合判定方式
JPH08237404A (ja) 光学文字認識モードの選択方法
JPH08272902A (ja) 異字体異品質文字の認識方法
JPH0119193B2 (ja)
JP3584478B2 (ja) 2値化処理装置及び2値化処理方法
JPH10233930A (ja) 画像処理装置
JPH08212296A (ja) 光学式文字読取装置
JPH1125221A (ja) 光学式文字読取装置
JPH06274691A (ja) 文字認識装置
JP3210224B2 (ja) 文字認識装置
JPS62260285A (ja) 文字認識装置
JPH04337892A (ja) パターン読取装置
JP2001014468A (ja) 画像処理方法、画像処理装置、地肌除去方法および記録媒体
JPH03125569A (ja) 画像2値化装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040203