JPH08161431A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH08161431A
JPH08161431A JP6301802A JP30180294A JPH08161431A JP H08161431 A JPH08161431 A JP H08161431A JP 6301802 A JP6301802 A JP 6301802A JP 30180294 A JP30180294 A JP 30180294A JP H08161431 A JPH08161431 A JP H08161431A
Authority
JP
Japan
Prior art keywords
classification
feature
feature pattern
character
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6301802A
Other languages
English (en)
Other versions
JP2728117B2 (ja
Inventor
Masahiko Hamanaka
雅彦 濱中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP6301802A priority Critical patent/JP2728117B2/ja
Publication of JPH08161431A publication Critical patent/JPH08161431A/ja
Application granted granted Critical
Publication of JP2728117B2 publication Critical patent/JP2728117B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 認識精度が高く、高速処理ができる文字認識
装置を提供する。 【構成】 正規化特徴抽出部12は、文字イメージ記憶
部11からの文字イメージから正規化特徴を得る。複雑
度計算部13は、正規化特徴に基づいて文字イメージの
複雑度を計算する。大分類次元数決定部14は、複雑度
に基づいて大分類の次元数を決定する。詳細分類用特徴
パタン生成部15は、正規化特徴に基づいて詳細分類用
特徴パタンを生成する。大分類用特徴パタン生成部16
は、詳細分類用特徴パタンから大分類の次元数にあう大
分類用特徴パタンを生成する。大分類部18は、大分類
用特徴パタンと辞書記憶部17から読出したその次元数
に対応する標準特徴パタンとの類似性を比較し、所定数
の文字候補を選び出す。詳細分類部19は、詳細分類用
特徴パタンと辞書記憶部17から読出したその次元数に
対応する標準特徴パタンとの類似性を比較し文字の識別
を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置に関し、
特に入力された文字パタンの複雑度によって適応的に分
類を行って文字認識を行う文字認識装置に関する。
【0002】
【従来の技術】文字認識装置は、例えば、光学的文字読
取装置(OCR)として利用され、計算機システムへの
文字データの入力等に用いられている。
【0003】従来の、漢字を含む文字を認識する文字認
識装置では、認識の対象となる字種が多いので、次のよ
うな文字認識方法を採用している。即ち、初めに、比較
的簡単な処理(大分類)で字種の候補を絞りこみ、その
後、丁寧な処理(詳細識別、後処理)を行って最終的な
認識結果を出力する、といった階層的な分類処理方法を
採用している。
【0004】例えば、「電子情報通信学会研究会技報、
1990年6月、PRU90-20」には、大分類と詳細分類と
で同一の特徴次元数(要素数)を用い、大分類では、単
純マッチングによる簡単な距離計算を、詳細分類では、
ずらしマッチングによる複雑な距離計算を行うことによ
り文字認識を行う方法が記載されている。この文字認識
方法の大分類では、求めた距離が小さいものから順に数
十個(予め定められた一定値)の候補を残すようにして
いる。
【0005】また、「日経エレクトロニクス、197
7、10、31、pp102-128 」には、大分類で、複雑指
数と呼ばれる1又は2次元の特徴量の比較を行い、その
差が所定範囲内にある候補を残す。この場合、残った候
補の数は、入力文字の複雑さによって変化する。
【0006】
【発明が解決しようとする課題】大分類と詳細分類とで
同一の特徴次元数を用いる文字認識方法では、大分類に
おいて候補を数十程度に絞り込むために、高い次元数の
計算が行われる。しかしながら、すべての候補につい
て、高い次元数の計算を行うので、処理速度が遅いとい
う問題点がある。
【0007】また、複雑指数を用いる大分類では、次元
数が低く、高速処理が可能であるが、候補の数は不定
で、特に不雑な文字に対しては、得られた候補の数が、
ときには1000以上になるなど、精度に問題がある。
【0008】本発明は、認識精度が高く、高速処理がで
きる文字認識装置を提供すること目的とする。
【0009】
【課題を解決するための手段】本発明によれば、文字イ
メージを記憶する文字イメージ記憶手段と、前記文字イ
メージに対して正規化を施し特徴を抽出して正規化特徴
を得る正規化特徴抽出手段と、前記正規化特徴に基づい
て前記文字イメージの複雑度を計算する複雑度計算手段
と、前記複雑度に基づき大分類に使用される大分類用特
徴パタンの次元数を決定する大分類次元数決定手段と、
前記正規化特徴に基づいて詳細分類用特徴パタンを生成
する詳細分類用特徴パタン生成手段と、前記詳細分類用
特徴パタンと前記大分類用特徴パタンの次元数とに基づ
いて前記大分類用特徴パタンを生成する大分類用特徴パ
タン生成手段と、複数の文字にそれぞれ対応する標準特
徴パタンを記憶する辞書記憶部と、前記大分類用特徴パ
タンと前記標準特徴パタンとの類似性を演算により求
め、所定数の文字候補を選び出す大分類手段と、前記詳
細分類用特徴パタンと前記標準パタンとの類似性比較を
前記文字候補に関して行い、文字の識別を行う詳細分類
手段とを有することを特徴とする文字認識装置が得られ
る。
【0010】
【実施例】以下、図面を参照して本発明の実施例を説明
する。図1に本発明の第1の実施例のブロック図を示
す。本実施例の文字認識装置は、文字イメージ記憶部1
1、正規化特徴抽出部12、複雑度計算部13、大分類
次元数決定部14、詳細分類用特徴パタン生成部15、
大分類用特徴パタン生成部16、辞書記憶部17、大分
類部18、及び詳細分類部19とを有している。なお、
辞書記憶部17は、大分類及び詳細分類のための複数の
次元数の各文字の標準特徴パタンを予め記憶している。
【0011】次に本実施例の文字認識装置の動作を説明
する。文字イメージ記憶部11は、図示しない入力装置
から入力された文字イメージを記憶している。文字イメ
ージ記憶部11に記憶された文字イメージは順次、正規
化特徴抽出部12に供給される。正規化特徴抽出部12
は、文字イメージ記憶部11から供給される文字イメー
ジに正規化処理を施しながらその特徴(正規化特徴とい
う)を抽出する。なお、この特徴抽出法としては、例え
ば、「電子情報通信学会研究会技法、1990年6月、
PRU90-20」に記載された非線形正規化法及び方向特徴抽
出法を用いることができる。
【0012】複雑度計算部13は、正規化特徴抽出部1
2からの正規化特徴、あるいは、正規化特徴が得られる
までの途中段階で得られる情報から文字イメージの複雑
度を求める。この複雑度を求める方法は、例えば、「日
経エレクトロニクス、1977、10、31、pp102-12
8 」に記載された方向特徴の総和を用いる方法や、特開
平4−47485号公報に記載された正規化関数を計算
する段階でストローク間隔の情報を用いる方法が使用で
きる。
【0013】大分類次元数決定部14は、複雑度計算部
13から得られる複雑度から、大分類を行う際の特徴次
元数を決定する。この設定は、通常、実験的に決定され
る。実際には、大分類で限定しようとする候補数に対し
て、文字の複雑度と、その文字がその候補の中に、ある
設定した精度で含まれるために必要な次元数との関数を
調べて設定する。
【0014】一方、詳細分類用特徴パタン生成部15
は、正規化特徴抽出部12より得られる正規化特徴から
詳細分類に適した次元数の詳細分類用特徴パタンを生成
する。
【0015】大分類用特徴パタン生成部16は、詳細分
類特徴パタン生成部15から得られた詳細分類用特徴パ
タンから、大分類次元数決定部14から得られる次元数
のパタンを大分類用特徴パタンとして生成する。
【0016】大分類部18は、大分類用特徴パタン生成
部16から得られる大分類用特徴パタンと、辞書記憶部
17に記憶されている標準特徴パタンの内、次元数が対
応する各文字の標準特徴パタンとを比較し、距離値の小
さい文字を一定の個数だけ探し出す。
【0017】詳細分類部19は、大分類部18で候補と
された各文字に関して、詳細分類用特徴パタン生成部1
5から得られる特徴パタンと、辞書記憶部17に記憶さ
れている標準特徴パタンの内、次元数が対応する各文字
の標準特徴パタンと比較し、距離値の小さい文字を探す
ことにより、文字識別を実行する。
【0018】次に、図2をも参照して、具体的に本実施
例の文字認識装置の動作を説明する。例えば、図2
(a)に示す文字「う」が、文字イメージ記憶部11に
記憶されているとする。そして、正規化特徴抽出部12
が、この「う」から方向特徴を抽出すると仮定すると、
図2(b)に示すような正規化特徴F0(k,i)が得
られる。ここでは、縦、右上がり、横、及び右下がり
の、4方向の特徴を抽出するものとする。なお、kは、
特徴検出方向番号(k=1〜4)を示し、iは、各方向
プレーンの要素番号を示す(i=1〜4096、ただ
し、各プレーンは64×64=4096個の要素を有す
る)。
【0019】詳細分類用特徴パタン生成部15は、正規
化特徴抽出部12から得られた正規化特徴F0(k,
i)から、図2(c)に示すような、詳細分類に適した
次元数の詳細分類用特徴パタンF1(k,j)を生成す
る(j=1〜64)。ここでは、正規化特徴の64要素
を1つの要素にまとめ、各プレーンの要素数を256要
素(次元)として、特徴パタンを求めている。なお、図
2(c)に示す各要素の濃淡は特徴量の大きさを示す。
【0020】他方、複雑度計算部13は、正規化特徴抽
出部12からの正規化特徴の各特徴量の和より複雑度C
を求める。複雑度Cは、数式1で表わされる。
【0021】
【数1】 この複雑度Cは、単純な文字では小さく、複雑な文字で
は大きくなる。例えば、単純な文字「う」では、C=
2.5、複雑な文字「慮」では、C=6.0となる。
【0022】大分類次元数決定部14では、予め、複雑
度Cと大分類に使用するパタンの次元数との関係が表1
の様に定められており、この関係に基づいて次元数を決
定する。
【0023】
【表1】 例えば、「う」では次元数4、「慮」では、次元数25
6となる。
【0024】大分類用特徴パタン生成部16は、大分類
次元数決定部14で決定された次元数に対応する大分類
様の特徴パタンを生成する。これは、256次元の詳細
分類用特徴パタンを、4要素づつ順次統合していくこと
により、64次元、16次元、4次元、及び1次元の特
徴パタンを生成することができる。例えば、「う」は次
元数4なので、256次元の詳細分類用特徴パタンを、
64要素づつ足し合わせて4次元の特徴パタンを作り出
す。また、「慮」は、次元数256なので、詳細分類様
の特徴パタンをそのまま大分類に使用する。
【0025】大分類部18は、大分類用特徴パタン生成
部16から得られる大分類用特徴パタンと、辞書記憶部
17に記憶されている標準特徴パタンの内、次元数が対
応する各文字の標準特徴パタンと比較し、距離値の小さ
い文字を一定の個数だけ探し出す。なお、辞書記憶部1
7は、各文字について、それぞれ1、4、16、64、
及び256次元の標準特徴パタンが記憶されている。
【0026】この後、詳細分類部19が文字識別を実行
する。
【0027】このように、本実施例のよれば、識別しよ
うとす文字の複雑さに応じて大分類に使用する特徴パタ
ンの次元数を適応的に変化させるようにしたので、所定
数の候補を高速かつ安定した精度で得ることができる。
【0028】次に図3を参照して本発明の第2の実施例
について説明する。図3に示すように、本実施例の文字
認識装置は、正規化特徴抽出部12が大分類用特徴パタ
ン生成部16に接続されている点を除いて、第1の実施
例と同じである。以下、第1の実施例と異なる点につい
てのみ説明する。
【0029】大分類用特徴パタン生成部16は、正規化
特徴抽出部12より得られる正規化特徴から、または詳
細分類用特徴パタン生成部15より得られる詳細分類用
特徴パタンから、大分類次元数決定部14により決定さ
れた次元数の大分類用特徴パタンを生成する。これは、
詳細分類用特徴パタンから大分類用特徴パタンを生成し
ても、その生成法によっては、低次元の特徴パタンが分
類に有効でない場合が生じるため、その際には、正規化
特徴から大分類用特徴パタンを得るようにしたものであ
る。
【0030】例えば、詳細分類用特徴パタン生成部15
が、正規化された詳細分類用特徴パタンを生成する場合
を考える。この場合、詳細分類用特徴パタン生成部15
が生成する正規化された詳細分類用特徴パタンF2
(k,j)は、前述の正規化されていない詳細分類用特
徴パタンF1(k,j)を用いて数式2で表わされる。
【0031】
【数2】 さて、大分類用特徴パタン生成部16が、この正規化さ
れた詳細分類用特徴パタンF2(k,j)から1次元の
大分類用特徴パタンを求めようとすると、正規化した詳
細分類用特徴パタンF2(k,j)の256要素の和を
求め無ければならないが、その和は、Σk Σi F2
(k,j)=B(一定)となる。したがって、このよう
な1次元の大分類用特徴パタンは、分類特徴として意味
を持たない。
【0032】そこで、このような場合には、正規化され
ていない詳細分類用特徴パタンF1(k,j)を用いて
大分類用特徴パタンを生成する。ただし、F1(k,
j)は、正規化特徴F0(k,i)から生成されるの
で、その特徴量は、正規化特徴抽出手段12で予め求め
ておくことができる。例えば、1次元と4次元の大分類
様特徴パタンをそれぞれG1、及びG4(k)(k=1
〜4)とすると、それぞれ数式3及び数式4によって求
めることができる。
【0033】
【数3】
【0034】
【数4】 ここで、G1は、複雑度計算部13で得られる複雑度C
に比例(C=A・G1)する量である。したがって、正
規化特徴抽出部12において、G4(k)を求めておけ
ば、複雑度と、大分類様特徴パタンの求める際に容易に
利用することができる。
【0035】なお、上記第1及び第2の実施例では、詳
細分類用特徴パタンの次元数(要素数)を256とした
が、これに限るものではない。また、大分類様特徴パタ
ンの次元数も{1,4,16,64,256}とした
が、これに限るものでもない。
【0036】また、上記実施例では、辞書記憶部17に
文字ごとに各次元数の特徴パタンを記憶させるものとし
たが、実際には、大分類で使用される次元数の範囲は、
各文字ごとに限定されるため、すべての次元数の特徴パ
タンを記憶させる必要はない。
【0037】
【発明の効果】本発明によれば、文字の複雑度によっ
て、大分類を行う際に使用する大分類特徴パタンの次元
数を変更するようにしたことで、所定数の候補への絞り
込みが、高速かつ安定した精度で行うことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例のブロック図である。
【図2】図1の文字認識装置の動作を説明するため図で
あって、(a)は、文字イメージ記憶部に記憶された文
字イメージの一例を示す図、(b)は、(a)の文字イ
メージの正規化特徴を示す図、(c)は、(a)の文字
イメージの詳細分類用特徴パタンを示す図である。
【図3】本発明の第2の実施例のブロック図である。
【符号の説明】
11 文字イメージ記憶部 12 正規化特徴抽出部 13 複雑度計算部 14 大分類次元数決定部 15 詳細分類用特徴パタン生成部 16 大分類用特徴パタン生成部 17 辞書記憶部 18 大分類部 19 詳細分類部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 文字イメージを記憶する文字イメージ記
    憶手段と、前記文字イメージに対して正規化を施し特徴
    を抽出して正規化特徴を得る正規化特徴抽出手段と、前
    記正規化特徴に基づいて前記文字イメージの複雑度を計
    算する複雑度計算手段と、前記複雑度に基づき大分類に
    使用される大分類用特徴パタンの次元数を決定する大分
    類次元数決定手段と、前記正規化特徴に基づいて詳細分
    類用特徴パタンを生成する詳細分類用特徴パタン生成手
    段と、前記詳細分類用特徴パタンと前記大分類用特徴パ
    タンの次元数とに基づいて前記大分類用特徴パタンを生
    成する大分類用特徴パタン生成手段と、複数の文字にそ
    れぞれ対応する標準特徴パタンを記憶する辞書記憶部
    と、前記大分類用特徴パタンと前記標準特徴パタンとの
    類似性を演算により求め、所定数の文字候補を選び出す
    大分類手段と、前記詳細分類用特徴パタンと前記標準パ
    タンとの類似性比較を前記文字候補に関して行い、文字
    の識別を行う詳細分類手段とを有することを特徴とする
    文字認識装置。
  2. 【請求項2】 前記辞書記憶部は、複数の文字にそれぞ
    れ対応する標準特徴パタンとして、複数の次元のパタン
    を記憶しており、前記大分類手段及び前記詳細分類手段
    は、それぞれ、大分類用特徴パタン及び詳細分類用特徴
    パタンに等しい次元数の前記標準パタンを読出して類似
    性の判断を行うことを特徴とする請求項1の文字認識装
    置。
  3. 【請求項3】 前記大分類特徴パタン生成手段が、前記
    詳細分類用特徴パタン及び前記正規化特徴のうち、選択
    された一方と、前記大分類用特徴パタンの次元数とに基
    づいて前記大分類用特徴パタンを生成するようにしたこ
    とを特徴とする請求項1の文字認識装置。
JP6301802A 1994-12-06 1994-12-06 文字認識装置 Expired - Fee Related JP2728117B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6301802A JP2728117B2 (ja) 1994-12-06 1994-12-06 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6301802A JP2728117B2 (ja) 1994-12-06 1994-12-06 文字認識装置

Publications (2)

Publication Number Publication Date
JPH08161431A true JPH08161431A (ja) 1996-06-21
JP2728117B2 JP2728117B2 (ja) 1998-03-18

Family

ID=17901349

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6301802A Expired - Fee Related JP2728117B2 (ja) 1994-12-06 1994-12-06 文字認識装置

Country Status (1)

Country Link
JP (1) JP2728117B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7221796B2 (en) 2002-03-08 2007-05-22 Nec Corporation Character input device, character input method and character input program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58123179A (ja) * 1982-01-18 1983-07-22 Oki Electric Ind Co Ltd 文字認識方式
JPS6121583A (ja) * 1984-06-15 1986-01-30 Fujitsu Ltd パタ−ン認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58123179A (ja) * 1982-01-18 1983-07-22 Oki Electric Ind Co Ltd 文字認識方式
JPS6121583A (ja) * 1984-06-15 1986-01-30 Fujitsu Ltd パタ−ン認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7221796B2 (en) 2002-03-08 2007-05-22 Nec Corporation Character input device, character input method and character input program

Also Published As

Publication number Publication date
JP2728117B2 (ja) 1998-03-18

Similar Documents

Publication Publication Date Title
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
KR100297482B1 (ko) 수기입력의문자인식방법및장치
JP2667954B2 (ja) 静的及び動的パラメータを使用する自動手書き文字認識装置及び方法
AU737039B2 (en) Methods and apparatuses for handwriting recognition
US6226403B1 (en) Handwritten character recognition using multi-resolution models
JP2750057B2 (ja) 自動手書き文字認識に対する統計的混合手法
EP2172856A2 (en) Image processing apparatus, image processing method and program
JP4300098B2 (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
JPH05217019A (ja) ビジネスフォーム識別システム及び画像処理システム
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
Wang et al. A coarse-to-fine word spotting approach for historical handwritten documents based on graph embedding and graph edit distance
JP2013246731A (ja) 手書き文字検索装置、方法及びプログラム
JP2013246732A (ja) 手書き文書検索装置、方法及びプログラム
Khan Online Urdu handwritten character recognition: Initial half form single stroke characters
JP4570995B2 (ja) マッチング方法およびマッチング装置ならびにプログラム
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
JP2007213416A (ja) 手書き文字列検索装置、手書き文字列検索方法及びプログラム
Rahul et al. Multilingual text detection and identification from Indian signage boards
Sushma et al. Kannada handwritten word conversion to electronic textual format using HMM model
JP2728117B2 (ja) 文字認識装置
Wadhwa et al. Dissected Urdu Dots Recognition Using Image Compression and KNN Classifier
Kesidis et al. Providing Access to Old Greek Documents Using Keyword Spotting Techniques
JP6030172B2 (ja) 手書き文字検索装置、方法及びプログラム
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
Saudagar et al. Arabic character extraction and recognition using traversing approach.

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19971112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071212

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081212

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091212

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091212

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101212

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101212

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131212

Year of fee payment: 16

LAPS Cancellation because of no payment of annual fees