JPH04316183A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH04316183A
JPH04316183A JP3083753A JP8375391A JPH04316183A JP H04316183 A JPH04316183 A JP H04316183A JP 3083753 A JP3083753 A JP 3083753A JP 8375391 A JP8375391 A JP 8375391A JP H04316183 A JPH04316183 A JP H04316183A
Authority
JP
Japan
Prior art keywords
cluster
character
clusters
distance
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3083753A
Other languages
English (en)
Inventor
Mitsuru Kubota
満 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP3083753A priority Critical patent/JPH04316183A/ja
Publication of JPH04316183A publication Critical patent/JPH04316183A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語文字等の多くの
文字カテゴリを分類する文字認識装置に関する。
【0002】
【従来の技術】従来、漢字を含む日本語文字認識装置で
は、入力文字パターンより特徴ベクトルを抽出し、得ら
れた特徴ベクトルとあらかじめ蓄えられている特徴辞書
の各標準文字パターンの特徴ベクトルとの距離を調べ、
最も距離が近い標準文字パターンのカテゴリを認識候補
文字としていた。
【0003】
【発明が解決しようとする課題】しかし、日本語文字認
識のように多くの文字カテゴリが存在する場合、特徴辞
書の全てのカテゴリについて距離を調べる方法では、計
算量が増すため、高速な文字認識装置を実現することは
できないという問題点がある。これを解決するために、
各カテゴリを、類似文字を形成する数個のクラスタに分
類し、最初に各クラスタの代表ベクトルとの距離を調べ
、最適なクラスタを選択し、選択されたクラスタ内のカ
テゴリに対して詳細な識別を行なうことにより、高速化
を行なう方法が用いられている。ここで、類似文字を形
成するクラスタの決定に際しては、多くの文字画像を用
いて実験的に求められる。しかし、クラスタとクラスタ
に重なりが生じている場合、クラスタの決定があいまい
となることが問題とされていた。そこで、本発明は、こ
のような問題を解決するもので、クラスタとクラスタの
重なる部分の確率を求めることにより、最適なクラスタ
を選択し、高速かつ正確な文字認識装置を提供するもの
である。
【0004】
【課題を解決するための手段】本発明は、2値化された
文書画像に対して、入力文字パターンを文字枠により切
取る文字枠切取り手段と、文字枠切取り手段により得ら
れた文字パターンから特徴ベクトルを抽出し、あらかじ
め蓄えておいた特徴辞書の各カテゴリの標準ベクトルと
の距離を調べ、距離の大きさにより認識候補文字を決定
する手段からなる文字認識装置において、前記特徴辞書
の各カテゴリの標準ベクトルは、類似文字を形成してい
る各クラスタにあらかじめ分類されており、最初に入力
文字パターンの特徴ベクトルと各クラスタの代表ベクト
ルとの距離を調べ、最も距離が小さいクラスタに応じて
、複数のクラスタを選択することを特徴とする。
【0005】また、前記入力文字パターンの特徴ベクト
ルと各クラスタの代表ベクトルとの距離を調べ、最も距
離が小さい1位候補クラスタに応じて、複数のクラスタ
を選択する方法は、あらかじめ複数の文字パターンを用
いて得られた1位候補クラスタに対する事後確率及びク
ラスタの発生頻度に応じて最適なクラスタを選択するこ
とを特徴とする。
【0006】また、前記最適なクラスタを選択する方法
は、文書画像より得られる事後確率に応じて変更できる
ことを特徴とする。
【0007】
【実施例】
(実施例1)以下に、本発明を図面を用いて詳細に説明
する。
【0008】図1は、本発明の文字認識装置における文
字認識方法を示すブロック図である。2値化された入力
文字画像に対して、文字枠による切取り処理101を行
い、文字パターンを切取る。次に、得られた文字パター
ンより特徴量を抽出102し、特徴ベクトルを作成する
。次に、入力文字パターンの特徴ベクトルと特徴辞書1
03中の各クラスタの代表ベクトルとを比較104し距
離を調べ、最適なクラスタを選択105し、文字を分類
する。次に、選択されたクラスタ内の各文字カテゴリに
対して詳細な識別106を行い、認識候補文字を選択1
07する。
【0009】次に、本発明におけるクラスタ選択方法を
説明する。
【0010】特徴辞書は、あらかじめ複数の文字パター
ンを用いて数個のクラスタに分類されている。図2は、
クラスタAの特徴空間201とクラスタBの特徴空間2
02を表わしたものである。クラスタAに属する入力パ
ターンとクラスタAの代表ベクトル203及びクラスタ
Bの代表ベクトル204との距離を計算すると、斜線領
域205では、クラスタAの代表ベクトルとの距離より
もクラスタBの代表ベクトルとの距離の方が近くなるた
め、誤判別する可能性がある。一般に数個のクラスタに
分類した場合、特徴空間上では、クラスタの分布が重な
ることは必至であり、この重なる部分では、選択するク
ラスタを1つに決定することが不可能となる。従って、
選択されたクラスタ内に正解となる文字カテゴリが含ま
れるようにするために、複数のクラスタを選択する必要
がある。
【0011】複数のクラスタを選択することを前提に、
本発明における最適なクラスタ選択方法について説明す
る。ここでは、特徴空間上での各クラスタの分布を考慮
して、入力文字パターンと各クラスタの代表ベクトルを
比較したとき、距離が最も小さいクラスタを選択したと
きの信頼度、つまりそのクラスタを選択したとき、真に
そのクラスタから生じたものであるかという確率(事後
確率)をあらかじめ求めておくことにより最適なクラス
タを選択する。ここで、事後確率は、図2における斜線
領域を除いたクラスタAの空間における確率密度に相当
する。
【0012】
【表1】
【0013】表1は、複数文字パターンを入力して求め
られた、該当するクラスタが選択されたときの事後確率
を示したものであり、例えば、クラスタ1の距離が最小
となり、クラスタ1を選択したとき、それがクラスタ1
から生じたものである事後確率P(クラスタ1|クラス
タ1)は0.830である。また、クラスタ1を選択し
たとき、クラスタ3から生じたものである事後確率P(
クラスタ3|クラスタ1)は0.017である。これに
よると、クラスタ1の距離が最小となった場合、可能性
のあるクラスタは、クラスタ1、クラスタ3、クラスタ
4、クラスタ5、クラスタ6及びクラスタ7となる。 従って、クラスタ1の距離が最小になったとき、これら
のすべてのクラスタを参照することにより、これらのク
ラスタの中に正解となる文字カテゴリが含まれることに
なる。しかし、可能性のあるすべてのクラスタを参照し
た場合、参照する文字数は非常に多くなり、高速性を望
むことはできない。さらに高速化するという問題に対し
ては、事後確率が低いものは除外し事後確率が高いもの
のみ参照する方法を用いることで解決できる。この場合
、クラスタ1が1位候補クラスタとなったときクラスタ
1である確率は0.830と高く、これに対してクラス
タ3または、クラスタ4である確率は0.017と低い
。本発明では、確率の高低を決定する判定基準として2
つの方法を与える。1つの方法(方法1)は、事後確率
が低いものをしきい値を設定して削除する方法である。 図3は、しきい値α=0.02とした場合において、事
後確率がしきい値αより小さいクラスタを削除したとき
の参照するクラスタを示したものであり、この場合、統
計的な結果に基づきクラスタ3及びクラスタ4である可
能性は低いと判断し除外される。従って、クラスタ1が
選択されたときに参照するクラスタは減少し、高速化が
可能となる。もう1つの方法(方法2)は、クラスタの
発生頻度も考慮して決定する方法である。例えば、 発生頻度×事後確率 を求め、これを評価値として参照するクラスタを決定す
る。表1における場合事後確率P(クラスタ5|クラス
タ1)とP(クラスタ8|クラスタ2)はほぼ同じであ
る。しかし、クラスタ1の発生頻度の方がクラスタ2の
発生頻度より高いため、全体の発生確率としては、クラ
スタ5のもとでクラスタ1が生じる確率の方が大きいと
言える。
【0014】
【表2】
【0015】
【表3】
【0016】表2及び表3は、上記の方法に基づいてし
きい値を設定し、実際にクラスタの参照パターンを作成
したときの結果であり、可能性の低いクラスタを削除し
たときの全体の誤り率と、その時の1文字あたりの平均
候補文字数である。ここで、表2は事後確率を考慮した
場合の全体の誤り率と1文字あたりの平均候補文字数を
示したものであり、表3はクラスタの発生頻度及び事後
確率を考慮したときの全体の誤り率と1文字あたりの平
均候補文字数を示したものである。文字種は1250文
字であり、また、クラスタ数は20とした。可能性のあ
るすべてのクラスタを参照した場合、平均文字数は、3
51文字と多い。これに対して誤り率を1%にした場合
、1文字あたりの平均文字数は、方法1で228文字、
方法2で277文字と減少している。特に方法2では、
事後確率及びクラスタの発生頻度を考慮して求められて
いるため、クラスタの発生頻度及び事後確率の小さいク
ラスタのみが除外されることになり、実用上、誤り率は
問題とならず、高速かつ正確に分類を行なうことができ
る。
【0017】以上学習文字パターンの結果より、最適な
クラスタを決定する方法について示したが、変形した文
字パターンが入力された場合、該当するクラスタを選択
することができずリジェクトされる場合が生じる。例え
ば、クラスタ1が1位候補として選択された場合、正解
となるクラスタが参照するテーブル中に存在しない場合
が起こりうる。この場合、認識結果より、誤認識した情
報を外部操作によりフィードバックすることで常に最適
な参照テーブルが作成できる。図4は、参照テーブルの
書換え方法について示した図であり、まず、最初に文書
画像中の数文字を入力401し、表1における様な統計
をとり、事後確率P1を算出する402。次に差|P1
 −P|としきい値βとを比較403して、差が設定し
たしきい値β以上であれば事後確率を入れ換える。次に
新たに求められた事後確率について参照するクラスタを
上記で述べた方法に基づいて決定し、参照テーブルの書
換え404を行い終了405する。これにより、容易に
参照テーブルを書換えることができ、文字画像に応じて
最適なクラスタを作成することができる。
【0018】
【発明の効果】以上、本発明によれば、事後確率及び発
生頻度を基準として参照するクラスタを決定することに
より、誤り率の少ない、効率のよい参照方法を提供する
ことができる。また、基準が明確であるため、文書画像
に応じて、容易に参照テーブルを設定でき、認識結果に
応じて参照テーブルを再構成することにより、常に高速
な文字認識装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の文字認識装置における文字の分類方法
を示した説明図。
【図2】クラスタA及びクラスタBの分布を示した説明
図。
【図3】発生頻度及び事後確率により選択されたクラス
タを示した説明図。
【図4】参照テーブルの書換え方法を示した説明図。
【符号の説明】
101  文字枠切り取り処理 102  特徴抽出 103  特徴辞書 104  各代表ベクトルとの比較 105  カテゴリの選択 106  詳細識別 107  候補文字の選択 201  クラスタAのベクトル空間 202  クラスタBのベクトル空間 203  クラスタAの代表ベクトル 204  クラスタBの代表ベクトル 205  誤判別される領域 301  削除するクラスタ 302  削除するクラスタ 401  文字入力 402  事後確率の算出 403  しきい値との比較 404  テーブル書換え 405  終了

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】  2値化された文書画像に対して、入力
    文字パターンを文字枠により切取る文字枠切取り手段と
    、文字枠切取り手段により得られた文字パターンから特
    徴ベクトルを抽出し、あらかじめ蓄えておいた特徴辞書
    の各カテゴリの標準ベクトルとの距離を調べ、距離の大
    きさにより認識候補文字を決定する手段からなる文字認
    識装置において、前記特徴辞書の各カテゴリの標準ベク
    トルは、類似文字を形成している各クラスタにあらかじ
    め分類されており、最初に入力文字パターンの特徴ベク
    トルと各クラスタの代表ベクトルとの距離を調べ、最も
    距離が小さいクラスタに応じて、複数のクラスタを選択
    することを特徴とする文字認識装置。
  2. 【請求項2】  前記入力文字パターンの特徴ベクトル
    と各クラスタの代表ベクトルとの距離を調べ、最も距離
    が小さい1位候補クラスタに応じて、複数のクラスタを
    選択する方法は、あらかじめ複数の文字パターンを用い
    て得られた1位候補クラスタに対する事後確率及びクラ
    スタの発生頻度に応じて最適なクラスタを選択すること
    を特徴とする請求項1記載の文字認識装置。
  3. 【請求項3】  前記、最適なクラスタを選択する方法
    は、文書画像より得られる事後確率に応じて変更できる
    ことを特徴とする請求項1記載の文字認識装置。
JP3083753A 1991-04-16 1991-04-16 文字認識装置 Pending JPH04316183A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3083753A JPH04316183A (ja) 1991-04-16 1991-04-16 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3083753A JPH04316183A (ja) 1991-04-16 1991-04-16 文字認識装置

Publications (1)

Publication Number Publication Date
JPH04316183A true JPH04316183A (ja) 1992-11-06

Family

ID=13811302

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3083753A Pending JPH04316183A (ja) 1991-04-16 1991-04-16 文字認識装置

Country Status (1)

Country Link
JP (1) JPH04316183A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009276937A (ja) * 2008-05-13 2009-11-26 Fujitsu Ltd 辞書作成装置、認識装置、認識方法及び認識プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009276937A (ja) * 2008-05-13 2009-11-26 Fujitsu Ltd 辞書作成装置、認識装置、認識方法及び認識プログラム
US8379983B2 (en) 2008-05-13 2013-02-19 Fujitsu Limited Dictionary creating apparatus, recognizing apparatus, and recognizing method

Similar Documents

Publication Publication Date Title
US5058182A (en) Method and apparatus for handwritten character recognition
US5067165A (en) Character recognition method
US4989258A (en) Character recognition apparatus
EP0385009A1 (en) Apparatus and method for use in image processing
US7283669B2 (en) Fine segmentation refinement for an optical character recognition system
US5862259A (en) Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation
US11132576B2 (en) Text recognition method and apparatus, electronic device, and storage medium
KR20170004983A (ko) 라인 분할 방법
US5621818A (en) Document recognition apparatus
JPH06501801A (ja) 文書からの予め定められたデータを位置決定することおよび抽出することを含む文字認識方法および装置
JP4802176B2 (ja) パターン認識装置、パターン認識プログラム及びパターン認識方法
EP0079251A2 (en) Geometric character recognition using skeleton and stroke width representation
Song et al. Recognition of merged characters based on forepart prediction, necessity-sufficiency matching, and character-adaptive masking
JPH07160822A (ja) パターン認識方法
JP3095069B2 (ja) 文字認識装置、学習方法および文字認識プログラムを記録した記録媒体
CN113269743B (zh) 一种基于迭代平移核实的芯片数量检测方法
JPH04316183A (ja) 文字認識装置
Dey Adding feedback to improve segmentation and recognition of handwritten numerals
EP0684576A2 (en) Improvements in image processing
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JPH10154204A (ja) パターン認識装置及びパターン認識方法
JPH0749926A (ja) 文字認識装置
JPH0638276B2 (ja) パターン識別装置
JP3344062B2 (ja) カタカナ手書き文字切り出し回路
JPH06501803A (ja) 抽出されたデータから特定の部分を分離して抽出することを含む文字認識方法