JPH04286087A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH04286087A
JPH04286087A JP3051253A JP5125391A JPH04286087A JP H04286087 A JPH04286087 A JP H04286087A JP 3051253 A JP3051253 A JP 3051253A JP 5125391 A JP5125391 A JP 5125391A JP H04286087 A JPH04286087 A JP H04286087A
Authority
JP
Japan
Prior art keywords
character
category
feature
feature vector
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3051253A
Other languages
English (en)
Inventor
Mitsuru Kubota
久保田満
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP3051253A priority Critical patent/JPH04286087A/ja
Publication of JPH04286087A publication Critical patent/JPH04286087A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語文字等の多くの
文字カテゴリを分類する文字認識装置に関する。
【0002】
【従来の技術】従来、漢字を含む日本語文字認識装置で
は、入力文字パターンより特徴ベクトルを抽出し、得ら
れた特徴ベクトルとあらかじめ蓄えられている特徴辞書
の各標準文字パターンの特徴ベクトルとの距離を調べ、
最も距離が近い標準文字パターンのカテゴリを認識候補
文字としていた。
【0003】
【発明が解決しようとする課題】しかし、日本語文字認
識のように多くの文字カテゴリが存在する場合、特徴辞
書の全てカテゴリの標準ベクトルとの距離を調べる方法
では、計算量が増すため、高速な文字認識装置を実現す
ることはできないという問題点がある。これを解決する
ために、各カテゴリの特徴ベクトルを用いて特徴空間上
にクラスタリングし、文字カテゴリを数個のクラスタに
わけて、各クラスタを代表する特徴量との距離を調べ、
最も距離が近いクラスタの文字カテゴリについて詳細な
識別を行なう方法が一般に用いられている。しかし、こ
の場合、クラスタリングに用いる特徴ベクトルは、抽出
した特徴量の全特徴ベクトルを用いて行なっており、次
元数が高次であること、また、文字カテゴリが多いこと
から、最適なクラスタ数の決定及び、類似文字カテゴリ
の決定が容易でないという問題点がある。そこで、本発
明は、このような問題点を解決するもので、その目的と
するところは、効率のよい文字分類方法を用いて、高速
な文字認識装置を提供することである。
【0004】
【課題を解決するための手段】本発明は、2値化された
文書画像に対して、文字パターンを文字枠により切り取
る文字枠切取り手段と、文字枠切り取り手段により得ら
れた文字パターンから特徴ベクトルを抽出し、あらかじ
め蓄えておいた特徴辞書の各カテゴリの標準ベクトルと
の距離を調べ、距離の大きさにより認識候補文字を決定
する手段からなる文字認識装置において、前記特徴辞書
は、あらかじめ類似文字カテゴリごとに各クラスタにま
とめられており、入力文字パターンの特徴ベクトルと各
クラスタを代表する特徴ベクトルとの距離を調べ、距離
が最も近いクラスタに属するカテゴリと詳細な識別を行
なうことを特徴とする。
【0005】また、前記類似文字カテゴリごとに各クラ
スタにまとめる方法は、文字を構成する篇及び冠の特徴
を用いて行なうことを特徴とする。
【0006】
【実施例】(実施例1)以下に、本発明を図面を用いて
詳細に説明する。
【0007】図1は、本発明の文字認識装置における文
字認識方法を示すブロック図である。2値化された文字
画像に対して、文字枠による切り取り処理101を行い
、文字パターンを切り取る。次に、得られた文字パター
ンより特徴量を抽出102し、特徴ベクトルを作成する
。次に、入力文字パターンの特徴ベクトルと特徴辞書1
03中の各クラスタの代表ベクトルとを比較104し距
離を調べ、最適なクラスタを選択し、文字を分類する。 次に、選択されたクラスタ内の各文字カテゴリに対して
詳細な識別105を行い、認識候補文字を選択106す
る。
【0008】次に、本発明における文字の分類方法を説
明する。文字パターンを、特徴空間上に位置づける、す
なわち、クラスタリングを行なう場合、文字パターンの
全特徴空間を用いて行なわれる場合が多い。しかし、日
本語文字のような複雑度の高い文字カテゴリを精度よく
認識するためには、高次元の特徴ベクトルが必要であり
、これら全次元の特徴ベクトルを用いて文字の分類を行
なうことは、初期の類似カテゴリの設定方法及び最適な
クラスタ数を決定する点で困難である。そこで、本発明
では、日本語文字の多くの文字カテゴリは、篇または、
冠により構成されていることに注目し、篇及び冠の部分
特徴ベクトルを用いて文字の分類を行なう。
【0009】この場合、特徴ベクトルとしては、文字パ
ターンの篇及び冠などの部分パターンの特徴を反映して
いることが条件である。ここでは、文字部の背景部の特
徴を用いて文字の分類を行なう。図2は本発明に用いる
特徴ベクトルの抽出方法を示した図である。文字パター
ン201に対して、外接枠の縦及び横をそれぞれn分割
し、外接枠の各分割辺から文字部に向かって走査し、文
字部にぶつかるまでの面積を計数しこれを特徴ベクトル
202とする。この場合、特に左側分割辺203から文
字部に向かって走査した特徴ベクトルは、文字パターン
が篇により構成されているときには、篇の背景部の特徴
を反映していることになる。また、上側分割辺204か
ら文字部に向かって走査した特徴ベクトルは、文字パタ
ーンが冠によって構成されている場合、冠の背景部の特
徴を反映していることになる。従って、これらの左側及
び上側から走査したときの特徴ベクトルを用いて文字の
分類を行なう。
【0010】まず最初に、外接枠の左側からの特徴ベク
トル、つまり篇の特徴ベクトルに注目した文字の分類方
法を「ぎょうにんべん」と「こざとへん」の関係を例に
とって説明する。
【0011】図3は「ぎょうにんべん」の特徴ベクトル
空間301及び「こざとへん」の特徴ベクトル空間30
2を示した図であり、分割辺をn分割して特徴抽出した
場合、n次元の特徴ベクトル空間を形成する。個々の「
ぎょうにんべん」の特徴ベクトル303及び「こざとへ
ん」の特徴ベクトル304は、それぞれの特徴ベクトル
空間301及び302の中に存在している。そこで、カ
テゴリの平均ベクトルをカテゴリの代表特徴ベクトルと
して、「ぎょうにんべん」の代表特徴ベクトル305ま
たは、「こざとへん」の代表特徴ベクトル306と各特
徴ベクトルとのユークリッド距離307及び308を用
いてカテゴリ間の関係を表わし、これを用いて文字の分
類を行なう。ここで、2つのベクトル間のユークリッド
距離は次のように定義される。
【0012】LXY  =  √[Σ(Xi−Yi)2
]ただし、Xi はリファレンスの特徴ベクトル、Yi
 は入力の特徴ベクトルである。
【0013】図4は、実際に5種類のフォントパターン
を用いて、「ぎょうにんべん」(26文字/フォント)
の代表ベクトルを中心にユークリッド距離に基づく分散
401及び「こざとへん」(33文字/フォント)との
ユークリッド距離に基づく分散402を示したものであ
る。横軸は代表ベクトルとのユークリッド距離、縦軸は
各距離に存在する確率を表わしている。図4からわかる
ように各カテゴリは重なることなく分散しており、しき
い値を設定することにより2つのカテゴリを分類するこ
とができる。
【0014】次に、この方法を用いて、文字カテゴリ数
を拡張する場合について説明する。上記の例では、2つ
のカテゴリの場合について説明したが、実際には、篇の
カテゴリ数は数10個存在し、カテゴリ数も多く、カテ
ゴリのとりかたによっては、重なる部分が生じる場合が
ある。図5は「ぎょうにんべん」の分散501と「てへ
ん」の分散502の様子を示したものであり、2つのカ
テゴリは、距離的にも接近しており、図4における場合
と異なり、しきい値を用いて分類することは困難である
。この場合、「ぎょうにんべん」と「てへん」を同一の
クラスタとして考えることで解決できる。同一クラスタ
であるか否かの判断は、各カテゴリの代表ベクトル間の
距離があるしきい値以内に収まるものを同一のクラスタ
として判断する。例えば、図6のようにカテゴリAの代
表ベクトル601、カテゴリBの代表ベクトル602及
びカテゴリCの代表ベクトル603の3つの代表ベクト
ルがある場合、Aの代表ベクトルとBの代表ベクトルと
のユークリッド距離をLAB604、Bの代表ベクトル
とC代表ベクトルとのユークリッド距離をLBC605
、そしてC代表ベクトルとAの代表ベクトルとのユーク
リッド距離をLCA606として、βをしきい値とする
とき、 LAB  <  β かつ      LBC  <  β かつ      LCA  <  β の条件が成立するときカテゴリA、カテゴリB及びカテ
ゴリCを同一のクラスタにまとめるものとする。このよ
うにして得られたクラスタを表1に示す。
【0015】
【表1】
【0016】クラスタ1には「きへん」「おんなへん」
「ぎょうにんべん」「けものへん」「てへん」及び「か
ねへん」の6個のカテゴリが含まれている。このクラス
タに含まれる文字数は391文字(JIS第1水準)で
ある。また、別なクラスタ2には、「こざとへん」「ひ
へん」及び「うおへん」の3個のカテゴリが含まれる。 このクラスタに含まれる文字数は77文字である。図7
はクラスタ1の代表ベクトルを中心としたクラスタ1に
属する各特徴ベクトルとのユークリッド距離に基づく分
散701、及びクラスタ2に属する各特徴ベクトルとの
ユークリッド距離に基づく分散702を示したものであ
る。
【0017】このように、類似カテゴリを同一のクラス
タとすることにより、カテゴリ数が増えた場合において
も文字の分類を行なうことができる。また、図7におけ
る場合、近接する類似カテゴリを同一のクラスタとして
まとめ、おおまかな文字の分類をした後、図4のように
同一クラスタ中の類似カテゴリを詳細に分類できるよう
なクラスタを構成してもよい。これにより、さらに候補
文字を絞ることができるため、効率のよい文字認識を行
なうことができる。
【0018】以上、篇の部分特徴ベクトルを用いたクラ
スタリングの方法について示したが冠の部分特徴ベクト
ルを用いた文字の分類も同様に行なうことができる。こ
れら2種類の分類方法を併用することにより、候補文字
数を絞ることができ、全ての文字カテゴリの特徴辞書と
比較する必要がなくなり、高速な文字認識を行なうこと
ができる。
【0019】
【発明の効果】本発明によれば、篇及び冠の部分特徴ベ
クトルに注目して、文字の分類を行なうことにより効率
よく文字を分類することができる。これにより、高速な
文字認識装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の文字認識装置における文字の分類方法
を示したブロック図である。
【図2】入力文字パターンより得られる特徴抽出方法を
示した図である。
【図3】「ぎょうにんべん」及び「こざとへん」の特徴
ベクトル空間を示した説明図である。
【図4】「ぎょうにんべん」及び「こざとへん」のユー
クリッド距離に基づく分散を示した図である。
【図5】「ぎょうにんべん」及び「てへん」のユークリ
ッド距離に基づく分散を示した図である。
【図6】カテゴリA、カテゴリB及びカテゴリCの各ユ
ークリッド距離を示した図である。
【図7】クラスタ1及びクラスタ2のユークリッド距離
に基づく分散を示した図である。
【符号の説明】
101  文字枠切り取り処理 102  特徴抽出 103  特徴辞書 104  各クラスタ代表ベクトルとの比較105  
詳細識別 106  候補文字の選択 201  文字パターン 202  特徴ベクトル 203  左側外接矩形辺 204  上側外接矩形辺 301  「ぎょうにんべん」特徴ベクトル空間302
  「こざとへん」特徴ベクトル空間303  「ぎょ
うにんべん」特徴ベクトル304  「こざとへん」特
徴ベクトル305  「ぎょうにんべん」平均ベクトル
306  「こざとへん」平均ベクトル307  ユー
クリッド距離 308  ユークリッド距離 401  「ぎょうにんべん」の分散 402  「こざとへん」の分散 501  「ぎょうにんべん」の分散 502  「てへん」の分散 601  カテゴリAの代表ベクトル 602  カテゴリBの代表ベクトル 603  カテゴリCの代表ベクトル 604  カテゴリAとBとのユークリッド距離605
  カテゴリBとCとのユークリッド距離606  カ
テゴリCとAとのユークリッド距離701  クラスタ
1の分散 702  クラスタ2の分散

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】  2値化された文書画像に対して、文字
    パターンを文字枠により切り取る文字枠切取り手段と、
    文字枠切り取り手段により得られた文字パターンから特
    徴ベクトルを抽出し、あらかじめ蓄えておいた特徴辞書
    の各カテゴリの標準ベクトルとの距離を調べ、距離の大
    きさにより認識候補文字を決定する手段からなる文字認
    識装置において、前記特徴辞書は、あらかじめ類似文字
    カテゴリごとに各クラスタにまとめられており、入力文
    字パターンの特徴ベクトルと各クラスタを代表する特徴
    ベクトルとの距離を調べ、距離が最も近いクラスタに属
    するカテゴリと詳細な識別を行なうことを特徴とする文
    字認識装置。
  2. 【請求項2】  前記類似文字カテゴリごとに各クラス
    タにまとめる方法は、文字を構成する篇及び冠の特徴を
    用いて行なうことを特徴とする請求項1記載の文字認識
    装置。
JP3051253A 1991-03-15 1991-03-15 文字認識装置 Pending JPH04286087A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3051253A JPH04286087A (ja) 1991-03-15 1991-03-15 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3051253A JPH04286087A (ja) 1991-03-15 1991-03-15 文字認識装置

Publications (1)

Publication Number Publication Date
JPH04286087A true JPH04286087A (ja) 1992-10-12

Family

ID=12881787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3051253A Pending JPH04286087A (ja) 1991-03-15 1991-03-15 文字認識装置

Country Status (1)

Country Link
JP (1) JPH04286087A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254269B2 (en) 2000-08-31 2007-08-07 Hewlett-Packard Development Company, L.P. Character recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254269B2 (en) 2000-08-31 2007-08-07 Hewlett-Packard Development Company, L.P. Character recognition system

Similar Documents

Publication Publication Date Title
US6970601B1 (en) Form search apparatus and method
US6335986B1 (en) Pattern recognizing apparatus and method
JP2973944B2 (ja) 文書処理装置および文書処理方法
US5995659A (en) Method of searching and extracting text information from drawings
US5005205A (en) Handwriting recognition employing pairwise discriminant measures
Shijian et al. Script and language identification in noisy and degraded document images
GB2273808A (en) Neural network-based diacritical marker recognition
Lehal et al. Feature extraction and classification for OCR of Gurmukhi script
Biswas et al. Writer identification of Bangla handwritings by radon transform projection profile
US5621818A (en) Document recognition apparatus
JPH06501801A (ja) 文書からの予め定められたデータを位置決定することおよび抽出することを含む文字認識方法および装置
Lin et al. A text line detection method for mathematical formula recognition
Hussain et al. Keyword based information retrieval system for Urdu document images
Ali et al. Different handwritten character recognition methods: a review
Lin et al. Classifying textual components of bilingual documents with decision-tree support vector machines
JPH04286087A (ja) 文字認識装置
Han et al. Coarse classification of Chinese characters via stroke clustering method
JPH06180771A (ja) 英文字認識装置
Lam et al. Differentiating between oriental and European scripts by statistical features
JP3372005B2 (ja) 文字認識装置
JP3790736B2 (ja) 文字認識用辞書作成装置及び文字認識装置
JP3344062B2 (ja) カタカナ手書き文字切り出し回路
JPH05120483A (ja) 文字認識装置
JP2974145B2 (ja) 文字認識結果の修正方法
JP2002312719A (ja) 文字切り出し装置及び文字切り出し方法並びに文字切り出し用プログラム