JPH0322189A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0322189A
JPH0322189A JP1157504A JP15750489A JPH0322189A JP H0322189 A JPH0322189 A JP H0322189A JP 1157504 A JP1157504 A JP 1157504A JP 15750489 A JP15750489 A JP 15750489A JP H0322189 A JPH0322189 A JP H0322189A
Authority
JP
Japan
Prior art keywords
candidate
character
recognition
character string
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1157504A
Other languages
English (en)
Inventor
Yasunao Isaki
伊崎 保直
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1157504A priority Critical patent/JPH0322189A/ja
Publication of JPH0322189A publication Critical patent/JPH0322189A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔目次〕 概要 産業上の利用分野 従来の技術 発明が解決しようとする課題 課題を解決するための手段(第1図) 作用 実施例(第2図〜第5図) 発明の効果 〔概要〕 文字認識装置に関し、 認識速度を極端に低下させることなく、一位の認識率を
向上させることを目的とし、 イメージデータの入力文字列から一文字分の領域を切り
出し、その切り出された領域からL2識するための特徴
を抽出し、その抽出された特徴を、標準パターン辞書と
照合することにより認識し、候補列を出力する文字認識
装置において、再照合部と、重みパターンテーブルと、
標準パターン辞書と、最終候補の並べ替え処理部とを設
け、文字全体の特徴を使用して認識した候補文字列のそ
れぞれの候補文字について、重み付けをして再照合を行
うことにより、前記候補文字の順位を変えて最終候補文
字列を出力できるように構或する。
〔産業上の利用分野〕
本発明は文字認識装置に関し、更に詳しくいえば、例え
ばイメージデータとして取り込んだ帳票上の記入文字、
または印刷文字等を認識するのに利用され、特に、一位
の認識率を向上させた文字認識装置に関する。
〔従来の技術〕
従来、例えば帳票上に記入された文字、または印刷され
た文字等をイメージデータとして装置内へ入力し、該イ
メージデータから文字を認識する文字認識装置が知られ
ていた. この装置は、イメージデータから一文字分に相当する領
域を切り出し、その切り出された領域から認識するため
の特徴を抽出し、その抽出された特徴を標準パターン辞
書と照合することにより認識し、候補列を出力するもの
である. 例えば、特徴の例として、文字線の密度、文字線の方向
性、文字線の背景部における文字線間の領域特徴を使っ
ている. そして、前記特徴と、認識文字種の標準パターンとを照
合し、相違度の小さい順、あるいは類似度の大きい順に
候補として出力している。この時に使用する抽出特徴は
、文字の全体から抽出される特徴を使用している. これは、例えば、認識対象字種は日本語の場合、数字、
英字から漢字まで4000種にわたっているため、先ず
文字の全体をみることにより分類を行う必要があるため
である. 〔発明が解決しようとする課題〕 上記のような従来のものにおいては、文字全体の特徴を
使用しているために、文字の局所的な部分で識別可能な
文字であっても候補の一位になるとは限らない。
認識結果が候補列として出力される時、認識対象字種が
多くなると、例えば漢字の認識では一位の認識率が低下
する。
N位までの累積認識率をみた時には、使用に耐える認識
率であると考えられるので、一位の認識率を向上させる
必要がある。
本発明は、このような従来の欠点を解消し、認識速度を
極端に低下させることなく、一位の認識率を向上させる
ようにすることを目的とする。
〔課題を解決するための手段〕
第1図は本発明の原理図であり、以下、この図に基づい
て本発明の原理を説明する. 図において、1は特徴抽出部、2は照合部、3は標準パ
ターン辞書(1)、4は再照合部、5は重みパターンテ
ーブル、6は標準パターン辞書(n)、7は最終候補の
並べ替え処理部を示す.特徴抽出部1は、入力文字パタ
ーンから特徴データを抽出し照合部2へ送る。照合部2
では、前記特徴データに基づき、標準パターン辞書(1
)3を参照しながら照合を行い、第1候補の文字列を出
力する(複数文字). 再照合部4は、第1候補の文字列について、順次再照合
を行う。この場合、重みパターンテーブル5により、各
第1候補の文字につい′て重み付けを行い、標準パター
ン辞書(II)を参照して再照合を行うものである。
最終候補の並べ替え処理部7では、前記再照合の結果得
られた最終候補文字列について、類似度順に並べ替えて
最終候補の文字列を出力する。
上記の照合部2では、文字全体の特徴で認識を行い、再
照合部4では、局所部分に重み付けをして認識を行う。
〔作用〕
本発明は上記のように構威したので、次のような作用が
ある. イメージデータである入力文字列から、一文字に相当す
る領域(文字パターン〉を切り出し、その切り出された
部分から認識するための特徴を抽出し、その抽出された
特徴を標準パターン辞書と照合することにより、文字全
体の特徴を使用した認識結果の第1候補文字列を得る。
前記第1候補文字列のそれぞれの候補文字について、そ
の候補文字カテゴリの標準パターンとの照合を再度行い
、その再度行う照合では、その候補カテゴリに特有の重
み付けを行って照合し、第1候補文字列の順位を変える
即ち、全体の特徴で認識した候補において、その候補カ
テゴリとしてとるべき局所部分に重みを強くして、その
カテゴリの標準パターンと再度照合することにより、相
違度または類似度の順に候補を並べ変えて最終候補の文
字列を出力するものである。
このように、第1候補の各カテゴリに対して、そのカテ
ゴリに特定な重みを付けた標準パターンとの照合により
類似度が求まり、その類似度により前記候補を並べ替え
ることにより、文字全体での特徴だけでは2位以降にな
っていた候補を一位に上げることも可能であり、一位の
認識精度が向上する. 〔実施例〕 以下、本発明の実施例を図面に基づいて説明する. 第2図は本発明の第1実施例のブロック図であり、1は
特徴抽出部、2は照合部、3は標準パターン辞書(1)
、4は再照合部、5は重みパターンテーブル、6は標準
パターン辞書(n) 、7は最終候補の並べ替え処理部
、8は第1候補メモリ、9は類似度判定部、10は最終
候補メモリを示す.特徴抽出部lは、入力文字パターン
から文字の特徴を抽出し、抽出した特徴データを照合部
2へ送る。
照合部2は、特徴抽出部lから特徴データを受け取り、
標準パターン辞書(■〉3を参照して認識を行う. 第l候補メモリ8は、照合部2からの出力データである
第l候補の文字データを受け取り格納する。
再照合部4では、第1候補メモリ8から1文字単位で文
字データを取り出し、再照合を行う。この場合、重みパ
ターンテーブル5により局所的に重み付けを行い、標準
パターン辞書(■〉のデータを参照しながら照合を行い
、文字の認識をする.類似度判定部9では、再照合の結
果の類似度を判定し、順位付けをして最終候補メモリl
Oに格納し、これを第1候補の文字データについて順次
実行し、最終候補の文字を得る。
第3図は重みパターンの例(「2」の重みパターン)を
示した図、第4図は4方向コードの説明図であり、以下
、この図を用いて上記第1実施例を詳細に説明する. 今、例えば入力文字パターンが「3」であったとする。
この人力文字パターンは、特徴抽出部1でその特徴とす
るデータが抽出され照合部2へ送られて標準パターン辞
書(■)3内のデータと照合が行われる。
その結果、第1候補メモリ8には、第1候補の文字列C
1=2、C2=3、C3−5−が格納される. この候補C1=2のカテゴリに対する重みパターンは、
第3図のようになっており、これらの重みパターンデー
タは、各文字毎に重みパターンテーブル5に格納されて
いる. この重みパターンはMxN (l例としてM−N一9)
の領域に分割されており、それぞれの領域では、a (
文字の部分)は+1, b (黒い部分)は−1、C(
その他の部分〉は0という重みを持つパターンである. このパターンは、この重みパターンを作る際の学習パタ
ーンの統計値により、文字線として出現頻度の高い部分
aを+1、背景部として出現頻度の高い部分bを−1、
どちらか一方に決まらない部分Cを0として作或する。
同様に、カテゴリ(第1候補の文字)Cx=3、C3=
5についてもそれぞれ重みパターンがある。
特徴抽出部1での人力文字パターンの特徴抽出において
は、第4図に示す4方向コードが付けられた文字線の画
素を垂直、水平に投影したヒストグラムを文字の特徴と
する。文字の大きさは例えば48X48画素とする。
この4方向コードは、(イ〉に示したように、垂直方向
(V−V) 、水平方向(H−H) 、及びその中間の
方向(R−R,L−L)とに分けられる。
これら4方向のコードを決定するには、例えば(ロ)に
示したまうな3×3領域から戒る単位領域を用いる。例
えばR−R方向は図示のような領域に黒点があることに
より認識でき、他の方向についても、この単位領域の黒
点により認識できる.上記特徴抽出部1からの特徴デー
タは、照合部2において、標準パターン辞書(1)が照
合され、第1候補の文字列が求まる。
この第1候補の各々のカテゴリにより重みパターンを選
択し、標準パターン辞書(■)6の中の標準パターンが
選択され、入力文字パターンからは、重みづけられた特
徴、即ち、重みパターンと先に抽出された4方向コード
が掛け合わされる。
I[11チ、48X4Bの方向コードパターンの内、+
1の重みのある部分はそのまま加算され、−1の重みの
ある部分は減算され、0の部分は加算も減算もされずに
投影されヒストグラムが求められる. そして、求められた特徴と選択された標準パターンとの
類似度が計算される. このように計算された各候補の類似度は、類似度判定部
9により判定され、順位付けして並べ替えられ、最終候
補メモリ10に格納される.なお、上記の特徴抽出は、
4方向コードに限らず、線の密度、線間の領域特徴にも
適用でき、重みパターンも+1、−1、0だけでなく、
もっと多くの値をとることも可能である. 第5図は、本発明の第2実施例のブロンク図であり、第
2図と同符号は同一のものを示す.図において、1は特
徴抽出部、2は照合部、3は標準パターン辞書(I)、
4は再照合部、5は重みパターンテーブル、6は標準パ
ターン辞書(n)、7は最終候補の並べ替え処理部、8
は第1候補メモリ、9は類似度判定部、10は最終候補
メモリ、l1は類似度判定部、12は第1候補選択部を
示す。
この例では、照合部2と第1候補メモリ8との間に、類
似度判定部11を設け、さらに、第1候補メモリ8と再
照合部4との間に第1候補選択部12を設けた点を特徴
とする。
前記類似度判定部11では、照合部2の出力データであ
る第1候補の文字列を判定して順位付けを行う。
また、第1候補選択部12では、順位付けされた第1候
補メモリ8内の候補文字の内、あまり似ていない文字を
除いて、残りの文字を再照合部4へ送る.これにより、
余分な再照合をしなくて済む. このように、第l候補の文字列の1位の相違度が所定の
闇値THIより小さく、且つ2位以降との差が所定の閾
値TH2以上離れている時は、再照合を行わないように
することで、再照合を余分に行うことによる認識速度の
低下を抑えることができる。
〔発明の効果〕
以上説明したように、全体の特徴で認識した第1候補に
ついて、その候補カテゴリに特有な重み付けを行って再
度照合を行い、候補文字の順位を変えるようにしたので
、認識速度を極端に低下させることなく、一位の認識率
を向上させることができる効果がある. 4
【図面の簡単な説明】
第1図は本発明に係る文字L2識装置の原理図、第2図
は本発明の第1実施例のブロック図、第3図は重みパタ
ーンの例を示した図、第4図は4方向コードの説明図、 第5図は第2実施例のブロック図である。 嘘拳 @優 1−・一特徴抽出部 2・一照合部 3一標準パターン辞書(1) 4−・・・再照合部 5一重みパターンテーブル 6一標準パターン辞書(If) 7・−・最終候補の並べ替え処理部

Claims (1)

  1. 【特許請求の範囲】 イメージデータの入力文字列から一文字分の領域を切り
    出し、その切り出された領域から認識するための特徴を
    抽出し、その抽出された特徴を、標準パターン辞書と照
    合することにより認識し、候補列を出力する文字認識装
    置において、 前記候補列の中のそれぞれの候補文字について、再度照
    合を行う再照合部(4)と、 前記再照合部(4)での照合に際し、それぞれの候補文
    字に、その候補カテゴリに特有の重み付けを行うための
    重みパターンを有する重みパターンテーブル(5)と、 前記再度照合の際に、候補文字と照合する標準パターン
    を有する標準パターン辞書(6)と、前記再照合の結果
    得られた最終候補文字について判定し、候補文字の順位
    を並べ替える最終候補の並べ替え処理部(7)とを設け
    、 文字全体の特徴を使用して認識した候補文字列のそれぞ
    れの候補文字について、重み付けをして再照合を行うこ
    とにより、前記候補文字の順位を変えて最終候補文字列
    を出力できるようにしたことを特徴とする文字認識装置
JP1157504A 1989-06-20 1989-06-20 文字認識装置 Pending JPH0322189A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1157504A JPH0322189A (ja) 1989-06-20 1989-06-20 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1157504A JPH0322189A (ja) 1989-06-20 1989-06-20 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0322189A true JPH0322189A (ja) 1991-01-30

Family

ID=15651129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1157504A Pending JPH0322189A (ja) 1989-06-20 1989-06-20 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0322189A (ja)

Similar Documents

Publication Publication Date Title
Khan et al. KNN and ANN-based recognition of handwritten Pashto letters using zoning features
Blumenstein et al. A novel feature extraction technique for the recognition of segmented handwritten characters
Bhattacharya et al. On recognition of handwritten Bangla characters
JP3105967B2 (ja) 文字認識方法及び装置
US5005205A (en) Handwriting recognition employing pairwise discriminant measures
JPH11120293A (ja) 文字認識/修正方式
US5621818A (en) Document recognition apparatus
EP0432937B1 (en) Hand-written character recognition apparatus
Naz et al. Arabic script based language character recognition: Nasta'liq vs Naskh analysis
JPH0322189A (ja) 文字認識装置
US5940533A (en) Method for analyzing cursive writing
Das Bebartta et al. Algorithm for segmenting script-dependant portion in a bilingual Optical Character Recognition system
KR940007345B1 (ko) 온라인 한글 필기체 문자의 인식방법
Han et al. Coarse classification of Chinese characters via stroke clustering method
Premaratne et al. Recognition of printed sinhala characters using linear symmetry
Vikram et al. Subspace models for document script and language identification
JPS60138689A (ja) 文字認識方法
JP2677271B2 (ja) 文字認識装置
Kim et al. Segmentation of touching characters in printed Korean/English document recognition
Shilbayeh et al. Recognition offline handwritten Hindi digits using multilayer Perceptron neural networks
JPH11120291A (ja) パタン認識システム
JPS6059487A (ja) 手書文字認識装置
Tierney et al. Printed Cyrillic character recognition system
JPH1021325A (ja) 文字認識方法
JP2746899B2 (ja) 文字認識装置