JP2728117B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JP2728117B2
JP2728117B2 JP6301802A JP30180294A JP2728117B2 JP 2728117 B2 JP2728117 B2 JP 2728117B2 JP 6301802 A JP6301802 A JP 6301802A JP 30180294 A JP30180294 A JP 30180294A JP 2728117 B2 JP2728117 B2 JP 2728117B2
Authority
JP
Japan
Prior art keywords
feature pattern
classification
feature
character
large classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP6301802A
Other languages
English (en)
Other versions
JPH08161431A (ja
Inventor
雅彦 濱中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP6301802A priority Critical patent/JP2728117B2/ja
Publication of JPH08161431A publication Critical patent/JPH08161431A/ja
Application granted granted Critical
Publication of JP2728117B2 publication Critical patent/JP2728117B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置に関し、
特に入力された文字パタンの複雑度によって適応的に分
類を行って文字認識を行う文字認識装置に関する。
【0002】
【従来の技術】文字認識装置は、例えば、光学的文字読
取装置(OCR)として利用され、計算機システムへの
文字データの入力等に用いられている。
【0003】従来の、漢字を含む文字を認識する文字認
識装置では、認識の対象となる字種が多いので、次のよ
うな文字認識方法を採用している。即ち、初めに、比較
的簡単な処理(大分類)で字種の候補を絞りこみ、その
後、丁寧な処理(詳細識別、後処理)を行って最終的な
認識結果を出力する、といった階層的な分類処理方法を
採用している。
【0004】例えば、「電子情報通信学会研究会技報、
1990年6月、PRU90-20」には、大分類と詳細分類と
で同一の特徴次元数(要素数)を用い、大分類では、単
純マッチングによる簡単な距離計算を、詳細分類では、
ずらしマッチングによる複雑な距離計算を行うことによ
り文字認識を行う方法が記載されている。この文字認識
方法の大分類では、求めた距離が小さいものから順に数
十個(予め定められた一定値)の候補を残すようにして
いる。
【0005】また、「日経エレクトロニクス、197
7、10、31、pp102-128 」には、大分類で、複雑指
数と呼ばれる1又は2次元の特徴量の比較を行い、その
差が所定範囲内にある候補を残す。この場合、残った候
補の数は、入力文字の複雑さによって変化する。
【0006】
【発明が解決しようとする課題】大分類と詳細分類とで
同一の特徴次元数を用いる文字認識方法では、大分類に
おいて候補を数十程度に絞り込むために、高い次元数の
計算が行われる。しかしながら、すべての候補につい
て、高い次元数の計算を行うので、処理速度が遅いとい
う問題点がある。
【0007】また、複雑指数を用いる大分類では、次元
数が低く、高速処理が可能であるが、候補の数は不定
で、特に不雑な文字に対しては、得られた候補の数が、
ときには1000以上になるなど、精度に問題がある。
【0008】本発明は、認識精度が高く、高速処理がで
きる文字認識装置を提供すること目的とする。
【0009】
【課題を解決するための手段】本発明によれば、文字イ
メージを記憶する文字イメージ記憶手段と、前記文字イ
メージに対して正規化を施し特徴を抽出して正規化特徴
を得る正規化特徴抽出手段と、前記正規化特徴に基づい
て前記文字イメージの複雑度を計算する複雑度計算手段
と、前記複雑度に基づき大分類に使用される大分類用特
徴パタンの次元数を決定する大分類次元数決定手段と、
前記正規化特徴に基づいて詳細分類用特徴パタンを生成
する詳細分類用特徴パタン生成手段と、前記大分類用特
徴パタンの次元数が低次元の場合は前記正規化特徴から
前記大分類用特徴パタンを生成し、前記大分類用特徴パ
タンの次元数が高次元の場合は前記詳細分類用特徴パタ
ンから前記大分類用特徴パタンを生成する大分類用特徴
パタン生成手段と、複数の文字にそれぞれ対応する標準
特徴パタンを記憶する辞書記憶部と、前記大分類用特徴
パタンと前記標準特徴パタンとの類似性を演算により求
め、所定数の文字候補を選び出す大分類手段と、前記詳
細分類用特徴パタンと前記標準パタンとの類似性比較を
前記文字候補に関して行ない、文字の識別を行なう詳細
分類手段とを有することを特徴とする文字認識装置が得
られる。
【0010】
【実施例】以下、図面を参照して本発明の実施例を説明
する。初めに、図1に本発明の参考例のブロック図を示
す。本参考例の文字認識装置は、文字イメージ記憶部1
1、正規化特徴抽出部12、複雑度計算部13、大分類
次元数決定部14、詳細分類用特徴パタン生成部15、
大分類用特徴パタン生成部16、辞書記憶部17、大分
類部18、及び詳細分類部19とを有している。なお、
辞書記憶部17は、大分類及び詳細分類のための複数の
次元数の各文字の標準特徴パタンを予め記憶している。
【0011】次に本参考例の文字認識装置の動作を説明
する。文字イメージ記憶部11は、図示しない入力装置
から入力された文字イメージを記憶している。文字イメ
ージ記憶部11に記憶された文字イメージは順次、正規
化特徴抽出部12に供給される。正規化特徴抽出部12
は、文字イメージ記憶部11から供給される文字イメー
ジに正規化処理を施しながらその特徴(正規化特徴とい
う)を抽出する。なお、この特徴抽出法としては、例え
ば、「電子情報通信学会研究会技法、1990年6月、
PRU90-20」に記載された非線形正規化法及び方向特徴抽
出法を用いることができる。
【0012】複雑度計算部13は、正規化特徴抽出部1
2からの正規化特徴、あるいは、正規化特徴が得られる
までの途中段階で得られる情報から文字イメージの複雑
度を求める。この複雑度を求める方法は、例えば、「日
経エレクトロニクス、1977、10、31、pp102-12
8 」に記載された方向特徴の総和を用いる方法や、特開
平4−47485号公報に記載された正規化関数を計算
する段階でストローク間隔の情報を用いる方法が使用で
きる。
【0013】大分類次元数決定部14は、複雑度計算部
13から得られる複雑度から、大分類を行う際の特徴次
元数を決定する。この設定は、通常、実験的に決定され
る。実際には、大分類で限定しようとする候補数に対し
て、文字の複雑度と、その文字がその候補の中に、ある
設定した精度で含まれるために必要な次元数との関数を
調べて設定する。
【0014】一方、詳細分類用特徴パタン生成部15
は、正規化特徴抽出部12より得られる正規化特徴から
詳細分類に適した次元数の詳細分類用特徴パタンを生成
する。
【0015】大分類用特徴パタン生成部16は、詳細分
類特徴パタン生成部15から得られた詳細分類用特徴パ
タンから、大分類次元数決定部14から得られる次元数
のパタンを大分類用特徴パタンとして生成する。
【0016】大分類部18は、大分類用特徴パタン生成
部16から得られる大分類用特徴パタンと、辞書記憶部
17に記憶されている標準特徴パタンの内、次元数が対
応する各文字の標準特徴パタンとを比較し、距離値の小
さい文字を一定の個数だけ探し出す。
【0017】詳細分類部19は、大分類部18で候補と
された各文字に関して、詳細分類用特徴パタン生成部1
5から得られる特徴パタンと、辞書記憶部17に記憶さ
れている標準特徴パタンの内、次元数が対応する各文字
の標準特徴パタンと比較し、距離値の小さい文字を探す
ことにより、文字識別を実行する。
【0018】次に、図2をも参照して、具体的に本参考
の文字認識装置の動作を説明する。例えば、図2
(a)に示す文字「う」が、文字イメージ記憶部11に
記憶されているとする。そして、正規化特徴抽出部12
が、この「う」から方向特徴を抽出すると仮定すると、
図2(b)に示すような正規化特徴F0(k,i)が得
られる。ここでは、縦、右上がり、横、及び右下がり
の、4方向の特徴を抽出するものとする。なお、kは、
特徴検出方向番号(k=1〜4)を示し、iは、各方向
プレーンの要素番号を示す(i=1〜4096、ただ
し、各プレーンは64×64=4096個の要素を有す
る)。
【0019】詳細分類用特徴パタン生成部15は、正規
化特徴抽出部12から得られた正規化特徴F0(k,
i)から、図2(c)に示すような、詳細分類に適した
次元数の詳細分類用特徴パタンF1(k,j)を生成す
る(j=1〜64)。ここでは、正規化特徴の64要素
を1つの要素にまとめ、各プレーンの要素数を256要
素(次元)として、特徴パタンを求めている。なお、図
2(c)に示す各要素の濃淡は特徴量の大きさを示す。
【0020】他方、複雑度計算部13は、正規化特徴抽
出部12からの正規化特徴の各特徴量の和より複雑度C
を求める。複雑度Cは、数式1で表わされる。
【0021】
【数1】 この複雑度Cは、単純な文字では小さく、複雑な文字で
は大きくなる。例えば、単純な文字「う」では、C=
2.5、複雑な文字「慮」では、C=6.0となる。
【0022】大分類次元数決定部14では、予め、複雑
度Cと大分類に使用するパタンの次元数との関係が表1
の様に定められており、この関係に基づいて次元数を決
定する。
【0023】
【表1】 例えば、「う」では次元数4、「慮」では、次元数25
6となる。
【0024】大分類用特徴パタン生成部16は、大分類
次元数決定部14で決定された次元数に対応する大分類
の特徴パタンを生成する。これは、256次元の詳細
分類用特徴パタンを、4要素づつ順次統合していくこと
により、64次元、16次元、4次元、及び1次元の特
徴パタンを生成することができる。例えば、「う」は次
元数4なので、256次元の詳細分類用特徴パタンを、
64要素づつ足し合わせて4次元の特徴パタンを作り出
す。また、「慮」は、次元数256なので、詳細分類様
の特徴パタンをそのまま大分類に使用する。
【0025】大分類部18は、大分類用特徴パタン生成
部16から得られる大分類用特徴パタンと、辞書記憶部
17に記憶されている標準特徴パタンの内、次元数が対
応する各文字の標準特徴パタンと比較し、距離値の小さ
い文字を一定の個数だけ探し出す。なお、辞書記憶部1
7は、各文字について、それぞれ1、4、16、64、
及び256次元の標準特徴パタンが記憶されている。
【0026】この後、詳細分類部19が文字識別を実行
する。
【0027】このように、本参考例のよれば、識別しよ
うとす文字の複雑さに応じて大分類に使用する特徴パタ
ンの次元数を適応的に変化させるようにしたので、所定
数の候補を高速かつ安定した精度で得ることができる。
【0028】次に図3を参照して本発明の実施例につい
て説明する。図3に示すように、本実施例の文字認識装
置は、正規化特徴抽出部12が大分類用特徴パタン生成
部16に接続されている点を除いて、参考例と同じであ
る。以下、参考例と異なる点についてのみ説明する。
【0029】大分類用特徴パタン生成部16は、正規化
特徴抽出部12より得られる正規化特徴から、または詳
細分類用特徴パタン生成部15より得られる詳細分類用
特徴パタンから、大分類次元数決定部14により決定さ
れた次元数の大分類用特徴パタンを生成する。これは、
詳細分類用特徴パタンから大分類用特徴パタンを生成し
ても、その生成法によっては、低次元の特徴パタンが分
類に有効でない場合が生じるため、その際には、正規化
特徴から大分類用特徴パタンを得るようにしたものであ
る。
【0030】例えば、詳細分類用特徴パタン生成部15
が、正規化された詳細分類用特徴パタンを生成する場合
を考える。この場合、詳細分類用特徴パタン生成部15
が生成する正規化された詳細分類用特徴パタンF2
(k,j)は、前述の正規化されていない詳細分類用特
徴パタンF1(k,j)を用いて数式2で表わされる。
【0031】
【数2】 さて、大分類用特徴パタン生成部16が、この正規化さ
れた詳細分類用特徴パタンF2(k,j)から1次元の
大分類用特徴パタンを求めようとすると、正規化した詳
細分類用特徴パタンF2(k,j)の256要素の和を
求め無ければならないが、その和は、Σk Σi F2
(k,j)=B(一定)となる。したがって、このよう
な1次元の大分類用特徴パタンは、分類特徴として意味
を持たない。
【0032】そこで、このような場合には、正規化され
ていない詳細分類用特徴パタンF1(k,j)を用いて
大分類用特徴パタンを生成する。ただし、F1(k,
j)は、正規化特徴F0(k,i)から生成されるの
で、その特徴量は、正規化特徴抽出手段12で予め求め
ておくことができる。例えば、1次元と4次元の大分類
様特徴パタンをそれぞれG1、及びG4(k)(k=1
〜4)とすると、それぞれ数式3及び数式4によって求
めることができる。
【0033】
【数3】
【0034】
【数4】 ここで、G1は、複雑度計算部13で得られる複雑度C
に比例(C=A・G1)する量である。したがって、正
規化特徴抽出部12において、G4(k)を求めておけ
ば、複雑度と、大分類様特徴パタンの求める際に容易に
利用することができる。
【0035】なお、上記実施例では、詳細分類用特徴パ
タンの次元数(要素数)を256としたが、これに限る
ものではない。また、大分類様特徴パタンの次元数も
{1,4,16,64,256}としたが、これに限る
ものでもない。
【0036】また、上記実施例では、辞書記憶部17に
文字ごとに各次元数の特徴パタンを記憶させるものとし
たが、実際には、大分類で使用される次元数の範囲は、
各文字ごとに限定されるため、すべての次元数の特徴パ
タンを記憶させる必要はない。
【0037】
【発明の効果】本発明によれば、文字の複雑度によっ
て、大分類を行う際に使用する大分類特徴パタンの次元
数を変更するようにしたことで、所定数の候補への絞り
込みが、高速かつ安定した精度で行うことができる。
【図面の簡単な説明】
【図1】本発明の参考例のブロック図である。
【図2】図1の文字認識装置の動作を説明するため図で
あって、(a)は、文字イメージ記憶部に記憶された文
字イメージの一例を示す図、(b)は、(a)の文字イ
メージの正規化特徴を示す図、(c)は、(a)の文字
イメージの詳細分類用特徴パタンを示す図である。
【図3】本発明の実施例のブロック図である。
【符号の説明】
11 文字イメージ記憶部 12 正規化特徴抽出部 13 複雑度計算部 14 大分類次元数決定部 15 詳細分類用特徴パタン生成部 16 大分類用特徴パタン生成部 17 辞書記憶部 18 大分類部 19 詳細分類部

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 文字イメージを記憶する文字イメージ記
    憶手段と、前記文字イメージに対して正規化を施し特徴
    を抽出して正規化特徴を得る正規化特徴抽出手段と、前
    記正規化特徴に基づいて前記文字イメージの複雑度を計
    算する複雑度計算手段と、前記複雑度に基づき大分類に
    使用される大分類用特徴パタンの次元数を決定する大分
    類次元数決定手段と、前記正規化特徴に基づいて詳細分
    類用特徴パタンを生成する詳細分類用特徴パタン生成手
    段と、前記大分類用特徴パタンの次元数が低次元の場合
    は前記正規化特徴から前記大分類用特徴パタンを生成
    し、前記大分類用特徴パタンの次元数が高次元の場合は
    前記詳細分類用特徴パタンから前記大分類用特徴パタン
    を生成する大分類用特徴パタン生成手段と、複数の文字
    にそれぞれ対応する標準特徴パタンを記憶する辞書記憶
    部と、前記大分類用特徴パタンと前記標準特徴パタンと
    の類似性を演算により求め、所定数の文字候補を選び出
    す大分類手段と、前記詳細分類用特徴パタンと前記標準
    パタンとの類似性比較を前記文字候補に関して行ない、
    文字の識別を行なう詳細分類手段とを有することを特徴
    とする文字認識装置。
JP6301802A 1994-12-06 1994-12-06 文字認識装置 Expired - Fee Related JP2728117B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6301802A JP2728117B2 (ja) 1994-12-06 1994-12-06 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6301802A JP2728117B2 (ja) 1994-12-06 1994-12-06 文字認識装置

Publications (2)

Publication Number Publication Date
JPH08161431A JPH08161431A (ja) 1996-06-21
JP2728117B2 true JP2728117B2 (ja) 1998-03-18

Family

ID=17901349

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6301802A Expired - Fee Related JP2728117B2 (ja) 1994-12-06 1994-12-06 文字認識装置

Country Status (1)

Country Link
JP (1) JP2728117B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7221796B2 (en) 2002-03-08 2007-05-22 Nec Corporation Character input device, character input method and character input program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58123179A (ja) * 1982-01-18 1983-07-22 Oki Electric Ind Co Ltd 文字認識方式
JPS6121583A (ja) * 1984-06-15 1986-01-30 Fujitsu Ltd パタ−ン認識装置

Also Published As

Publication number Publication date
JPH08161431A (ja) 1996-06-21

Similar Documents

Publication Publication Date Title
EP0355748B1 (en) A pattern recognition apparatus and method for doing the same
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
JP5202148B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
JPH05217019A (ja) ビジネスフォーム識別システム及び画像処理システム
US5359671A (en) Character-recognition systems and methods with means to measure endpoint features in character bit-maps
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
JP4300098B2 (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
WO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および記録媒体
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Hung et al. Automatic vietnamese passport recognition on android phones
Chatbri et al. An application-independent and segmentation-free approach for spotting queries in document images
JP2728117B2 (ja) 文字認識装置
Thakur et al. Offline handwritten mathematical recognition using adversarial learning and transformers
US5596657A (en) Method of sorting out candidate characters in character recognition system
Vaidya et al. Handwritten numeral identification system using pixel level distribution features
Goswami et al. High level shape representation in printed Gujarati character
Sotoodeh et al. A music symbols recognition method using pattern matching along with integrated projection and morphological operation techniques
US20040197023A1 (en) Image processing device, image processing method, storage medium, and computer program product
Sastry et al. A 3d approach for palm leaf character recognition using histogram computation and distance profile features
Halder et al. Comparison of the classifiers in Bangla handwritten numeral recognition
Padma et al. Feature extraction of handwritten Kannada characters using curvelets and principal component analysis
Bharathi et al. Query-based word spotting in handwritten documents using HMM
Saudagar et al. Arabic character extraction and recognition using traversing approach.
Safonov et al. Document image classification on the basis of layout information

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19971112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071212

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081212

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091212

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091212

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101212

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101212

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131212

Year of fee payment: 16

LAPS Cancellation because of no payment of annual fees