JPH06231310A - 文字認識装置における文字認識方法 - Google Patents

文字認識装置における文字認識方法

Info

Publication number
JPH06231310A
JPH06231310A JP5018464A JP1846493A JPH06231310A JP H06231310 A JPH06231310 A JP H06231310A JP 5018464 A JP5018464 A JP 5018464A JP 1846493 A JP1846493 A JP 1846493A JP H06231310 A JPH06231310 A JP H06231310A
Authority
JP
Japan
Prior art keywords
character
dictionary
character recognition
determination
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5018464A
Other languages
English (en)
Inventor
Misako Suwa
美佐子 諏訪
Haruo Akimoto
晴雄 秋元
東善 ▲はい▼
Touzen Hai
Toshiyuki Yoshitake
敏幸 吉武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP5018464A priority Critical patent/JPH06231310A/ja
Publication of JPH06231310A publication Critical patent/JPH06231310A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は文字認識装置における文字認識方法
に関し、特定類似文字種間に関する識別能力を向上させ
ることを目的とする。 【構成】 特徴抽出部4で、文字画像から特徴を抽出
し、照合部5で、辞書部6の辞書の特徴と比較し文字認
識を行う文字認識装置1において、類似文字種の学習文
字パターンに対し、共通部分を切り出して取り除き、切
り出した残りのパターンの部分の特徴抽出を行い、各文
字種毎に再判定用辞書部9の辞書を作成しておき、文字
認識時には、照合部5から出力する文字認識結果を中間
認識結果とし、これが、選択された特定の類似文字種グ
ループに属するか否かを判断し、属する場合には、再判
定部8が、中間認識結果に対し、再度再判定用辞書部9
の辞書で再判定し、文字認識結果とするように構成し
た。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学的手書き文字読み
取り装置(以下、単に「OCR」という)の文字認識装
置で、手書き文字の認識処理を行う場合に利用される文
字認識装置における文字認識方法に関する。
【0002】
【従来の技術】図7〜図9は、従来例を示した図であ
り、図7はOCR(光学的手書き文字読み取り装置)の
構成図、図8は方向指数特徴の例を示した図、図9は辞
書照合処理の説明図である。
【0003】図7〜図9中、1はOCR(光学的手書き
文字読み取り装置)、2は観測部、3は前処理部、4は
特徴抽出部、5は照合部、6は辞書部、7は後処理部を
示す。
【0004】§1:一般的な手書き文字認識処理の説明 一般的に、「手書き文字の認識」とは、大雑把にいえ
ば、予め作成されている各文字種毎の辞書と、識別した
い文字とを比較して、一番似ている辞書の文字種を読み
取りの結果として出力するといったものである。
【0005】手書き文字を読み取る装置としては、OC
R(光学的手書き文字読み取り装置)がある。 §2:OCRの説明・・・図7参照 一般的なOCRの構成図を図7に示す。図示のように、
この例では、OCR1に、観測部2、前処理部3、特徴
抽出部4、照合部5、辞書部6、後処理部7等を設け
る、 :OCR1に対して、識別したい文字を入力すると、
観測部2では、光電変換を行って、2値の画像データ
(文字画像データ)として取り込む。
【0006】:その後、前処理部3では、文字データ
のノイズを除去し、正規化(大きさ、傾きの補正)等の
処理を行う。 :続いて、特徴抽出部4では、文字パターンの特徴
を、所定の方法により、数値として取り出す。
【0007】特徴の例として、図8に、方向指数特徴を
示す。図8において、例えば、方向成分が、水平成分7
個、左上成分9個、右上成分0個、根垂直成分6個であ
った場合、文字の座標表示は、m(X)=m(・・・,
7,9,0,6・・・)のようになる。
【0008】このように、特徴値のセットによって、文
字の座標付けがされたことになる。 :辞書部6は、予め作成された各文字種の辞書データ
が格納されているファイルである。
【0009】辞書というのは、各文字種の代表的な特徴
値であり、多数収集された辞書作成用文字(学習用文
字)の特徴値から、変形に応じて、各文字種に対し、複
数個作成されている。
【0010】:照合部5では、図9に示したように、
入力文字の特徴値と、各辞書の特徴値の距離計算を行
い、一番近い辞書の属する文字種を認識結果(中間認識
結果)として出力する。この部分は、必要に応じて、大
識別と、詳細識別の多段階に分かれている。
【0011】:その後、後処理部7で、後処理を行っ
て、最終の認識結果を出力する。
【0012】
【発明が解決しようとする課題】上記のような従来のも
のにおいては、次のような課題があった。 :手書き文字の認識処理において、例えば、一連の
「門がまえ」の付く漢字間や、{ば、ぱ}等の濁点、半
濁点の付く平仮名間、或いは、{鳥、烏}等のストロー
ク数が1本だけ違うといった様な文字間、{2,3}の
ような書き方によっては区別しにくい数字間、即ち、類
似文字間では、誤読が発生し易い。
【0013】なお、このような誤読の生じる一因として
は、大まかな外形が一致してしまうと、より細部の差が
識別にきいてこないという事が考えられる。 :上記のような類似文字間では、誤読が発生し易いた
め、OCRの文字認識処理に対する信頼性の向上が困難
である。
【0014】本発明は、このような従来の課題を解決
し、文字認識装置(OCR)の特定類似文字種間に関す
る識別能力を向上させることを目的とする。
【0015】
【課題を解決するための手段】図1は本発明の原理説明
図であり、図1中、図7〜図9と同じものは、同一符号
で示してある。また、8は再判定部、9は再判定用辞書
部を示す。
【0016】本発明は上記の課題を解決するため、次の
ように構成した。 :文字画像から特徴を抽出し、この抽出した特徴と、
予め用意された辞書(辞書部6の辞書)の特徴とを比較
することにより、文字認識を行う文字認識装置におい
て、上記辞書とは別に、上記文字認識結果を再判定する
ための再判定用辞書(再判定用辞書部9の辞書)を作成
しておき、上記辞書(辞書部6の辞書)の特徴と比較し
て得られた文字認識結果を、文字の中間認識結果とし、
該中間認識結果に対し、これが、選択された特定の類似
文字種グループに属するか否かを判断し、属しない場合
は、上記中間認識結果をそのまま文字認識結果とし、属
する場合には、上記中間認識結果に対し、再度、上記再
判定用辞書(再判定用辞書部9の辞書)を用いて再判定
し、この再判定の結果を、文字認識結果とするように構
成した。
【0017】:構成において、上記再判定用辞書
(再判定用辞書部9の辞書)を作成する際、類似文字種
の学習文字パターンに対し、共通部分を切り出して、取
り除き、切り出した残りのパターンの部分の特徴抽出を
行い、各文字種毎に、上記再判定用辞書を作成するよう
に構成した。
【0018】:構成において、再判定用辞書(再判
定用辞書部9の辞書)を作成する際、類似文字種の学習
文字パターンに対し、非共通部分に対する辞書数は、変
形に応じて、複数作成するように構成した。
【0019】:構成において、再判定用辞書(再判
定用辞書部9の辞書)を作成する際、切り出す類似文字
種の学習文字パターンの共通部分は、「漢字の部首」等
のような離れた一部分だけでなく、ストロークの一部分
(例えば、「2」、「3」の上部)も含めて切り出すよ
うに構成した。
【0020】
【作用】上記構成に基づく本発明の作用を、図1に基づ
いて説明する。 :上記の再判定用辞書は例えば、図1(A)のように
して作成する。図1(A)は、門がまえの付く文字間の
識別に強い辞書を作成する例を示している。
【0021】先ず、門がまえの付く十分多くの学習用文
字パターンから、共通部分である門がまえのみを切り出
し取り除く。そして、残りの部分、すなわち、「日、
耳、口、etc.」に対して、正規化、特徴抽出を行
い、従来の任意の方法で、それぞれ複数個の辞書を作成
する。
【0022】このようにして作成した辞書に、門がまえ
の付く、ということしか分からない未知の文字を認識さ
せたい場合、門がまえを除いた残りの部分を認識させ
る。このようにして、文字種決定に重要な細部の差が無
視されるといった問題は解消され、文字の誤読が減少す
る。
【0023】:また、文字認識処理時には、図1
(B)に示した文字認識装置(OCR)1において、次
のように処理を行う。前処理を行った画像データに対
し、特徴抽出部4で、文字の特徴抽出を行ない、照合部
5で、辞書部6の辞書を使用して、抽出した文字の特徴
の照合を行ない、中間認識結果を出力する。
【0024】その後、OCR1では、上記照合部5より
出力された中間認識結果が、選択された特定の類似文字
種グループに属するか否かを判断し、特定の類似文字種
グループに属しない場合は、最終認識結果の出力を行
う。
【0025】しかし、中間認識結果が、選択された特定
の類似文字種グループに属する場合には、再判定部8
は、再判定用辞書部9の再判定用辞書を使用して、再判
定を行ない、最終認識結果の出力を行う。
【0026】以上のようにして、再判定用辞書部9の再
判定用辞書による認識結果の再判定を行うことにより、
OCRの特定類似文字種間に関する識別能力を向上させ
る事が出来る。
【0027】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図2〜図6は、本発明の実施例を示した図であ
り、図2は類似文字間誤読の生じる原因の例を示した
図、図3は再判定用辞書作成処理の説明図、図4はOC
Rの構成図、図5は再判定用辞書作成処理フローチャー
ト、図6は文字認識処理フローチャートを示す。
【0028】図2〜図6中、図1、及び図7〜図9と同
じものは、同一符号で示してある。 §1:類似文字間誤読の生じる原因の例の説明・・・図
2参照 類似文字間誤読の生じる原因の例を図2に示す。例え
ば、図2に示したように、真の文字種「間」の辞書と、
「門」の部分の形状の違いの方が強かったため、言い換
えると、間違った文字種「問」の辞書と、「門」の部分
が似てしまった為に、「日」の部分の差が無視されてし
まい、誤読となった例である。
【0029】このように、大まかな外形が一致してしま
うと、より細部の差が識別にきいてこないために、誤読
が発生する。 §2:類似文字間誤読を減少させるための基本的な説明 上記のような類似文字間誤読を減少させるため、本発明
では、次のようにして、再判定用辞書を作成する。
【0030】:OCRで、互いに間違い易い類似文字
種の手書き文字を多数収集し、これを、再判定用辞書作
成用(学習用)文字とする。これらの学習用文字パター
ン全てから、パターン間に共通な部分のみを取り出し、
取り除く。
【0031】:各文字種毎に、文字パターンの残りの
部分に対して特徴抽出を行い、変形に対応するよう辞書
を複数個作成する。 §3:再判定用辞書作成時の処理の基本的な説明・・・
図3参照 上記の再判定用辞書は例えば、次のようにして作成す
る。図3は、門がまえの付く文字間の識別に強い辞書を
作成する例を示している。
【0032】先ず、門がまえの付く十分多くの学習用文
字パターンから、共通部分である門がまえのみを切り出
し取り除く。そして、残りの部分、すなわち、「日、
耳、口、etc.」に対して、正規化、特徴抽出を行
い、従来の任意の方法で、それぞれ複数個の辞書を作成
する。
【0033】このようにして作成した辞書に、門がまえ
の付く、ということしか分からない未知の文字を認識さ
せたい場合、門がまえを除いた残りの部分を認識させる
ことで、「文字種決定に重要な細部の差が無視される」
といった問題は解消される。
【0034】また、再判定用辞書部9の辞書を作成する
際、類似文字種の学習文字パターンに対し、非共通部分
に対する辞書数は、変形に応じて、複数作成する。更
に、再判定用辞書部9の辞書を作成する際、切り出す類
似文字種の学習文字パターンの共通部分は、「漢字の部
首」等のような離れた一部分だけでなく、ストロークの
一部分、例えば、数字の「2」、「3」の上部も含めて
切り出すようにする。
【0035】§4:OCRの説明・・図4参照 本実施例のOCRの構成図を図4に示す。図示のよう
に、この例では、OCR1に、観測部2、前処理部3、
特徴抽出部4、照合部5、辞書部6、後処理部7、再判
定部8、再判定用辞書部9等を設ける。
【0036】再判定用辞書部9は、再判定用辞書の格納
部(ファィル)であり、再判定部8は再判定用辞書部9
の再判定用辞書を使用して、照合部5から出力する中間
認識結果を再判定するものである。
【0037】なお、再判定部8及び、再判定用辞書部9
以外の構成は、従来例と同じなので、説明は省略する。 §5:再判定用辞書(類似文字種識別用辞書)作成処理
の説明・・・図5参照 再判定用辞書作成処理フローチャートを図5に示す。以
下、図5の処理フローチャートに基づいて、再判定用辞
書の作成処理を説明する。なお、S1〜S7は各処理番
号を示す。
【0038】:上記辞書を作成する場合には、従来の
OCRで、互いに誤読する率の高い、類似文字種のセッ
トを選んでおく。そして、従来の方法での辞書作成に使
用した学習文字データ(光電変換済み)の内、選んだ文
字種に属する文字を、再判定用辞書作成用データ(学習
用文字データ)として用いる。
【0039】なお、この再判定用辞書作成用データ(学
習用文字データ)は、図5の学習用文字データファイル
に格納しておく。 :先ず、学習用文字データファイルから、学習用文字
データの読み込みを行い(S1)、特定の類似文字種の
収集を行う(S2)。
【0040】その後、上記§3で説明した方法により、
収集した類似文字種のセットの各々に対して、文字パタ
ーンの共通部分の切り出し(S3)を行い、該共通部分
を取り除いた残りの部分(非共通部分)を正規化する
(S4)。
【0041】続いて、非共通部分の特徴抽出を行い(S
5)、それらの特徴値から、各類似文字種のセットに対
する辞書を、所定の作成方法で(任意の辞書作成方法
で)作成する(S6)。
【0042】作成した辞書は、再判定用辞書(類似文字
種識別用辞書)として、OCR1の再判定用辞書部(フ
ァイル)9に格納する(S7)。 §6:文字認識処理の説明・・・図6参照 文字認識処理フローチャートを図6に示す。以下、図4
に示したOCRにおける文字認識処理を、図6の処理フ
ローチャートに基づいて説明する。なお、S11〜S1
8は各処理番号を示す。
【0043】:先ず、OCR1で帳票を読んで、文字
の入力を行い(S11)、観測部2で、文字の光電変換
処理を行う(S12)。その後、前処理部3で、正規
化、及びノイズ除去処理等を行い(S13)、特徴抽出
部4で、文字の特徴抽出を行う(S14)。
【0044】続いて、照合部5は、辞書部6の辞書を使
用して、抽出した文字の特徴の照合を行う(S15)。
その結果、照合部5より、中間認識結果を出力する。な
お、以上のS11〜S15の処理は、従来の処理と同じ
である。
【0045】:次に、OCR1では、上記照合部5よ
り出力された中間認識結果が、選択された特定の類似文
字種グループに属するか否かを判断し(S16)、特定
の類似文字種グループに属しない場合は、後処理部7で
の後処理を行って、最終認識結果の出力を行う(S1
8)。
【0046】しかし、中間認識結果が、選択された特定
の類似文字種グループに属する場合には、再判定部8
は、再判定用辞書9を使用して、再判定を行う(S1
7)。その後、後処理部7での後処理を行って、最終認
識結果の出力を行う(S18)。
【0047】
【発明の効果】以上説明したように、本発明によれば次
のような効果がある。 :詳細な識別用の辞書による認識結果の再判定を行う
ことにより、OCRの特定類似文字種間に関する識別能
力を向上させる事が出来る。
【0048】:OCRの文字認識精度が向上し、OC
Rの信頼性が向上する。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】類似文字間誤読の生じる原因の例を示した図で
ある。
【図3】再判定用辞書作成処理の説明図である。
【図4】実施例におけるOCRの構成図である。
【図5】実施例における再判定用辞書作成処理フローチ
ャートである。
【図6】実施例における文字認識処理フローチャートで
ある。
【図7】従来のOCRの構成図である。
【図8】方向指数特徴の例を示した図である。
【図9】辞書照合処理の説明図である。
【符号の説明】
4 特徴抽出部 5 照合部 6 辞書部 8 再判定部 9 再判定用辞書部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 吉武 敏幸 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文字画像から特徴を抽出し、この抽出し
    た特徴と、予め用意された辞書(6)の特徴とを比較す
    ることにより、文字認識を行う文字認識装置において、 上記辞書(6)とは別に、上記文字認識結果を再判定す
    るための再判定用辞書(9)を作成しておき、 上記辞書(6)の特徴と比較して得られた文字認識結果
    を、文字の中間認識結果とし、 該中間認識結果に対し、これが、選択された特定の類似
    文字種グループに属するか否かを判断し、 属しない場合は、上記中間認識結果をそのまま文字認識
    結果とし、 属する場合には、上記中間認識結果に対し、再度、上記
    再判定用辞書(9)を用いて再判定し、 この再判定の結果を、文字認識結果とすることを特徴と
    した文字認識装置における文字認識方法。
  2. 【請求項2】 上記再判定用辞書(9)を作成する際、 類似文字種の学習文字パターンに対し、共通部分を切り
    出して、取り除き、 切り出した残りのパターンの部分の特徴抽出を行い、 各文字種毎に、上記再判定用辞書(9)を作成すること
    を特徴とした請求項1記載の文字認識装置における文字
    認識方法。
  3. 【請求項3】 上記再判定用辞書(9)を作成する際、 類似文字種の学習文字パターンに対し、非共通部分に対
    する辞書数は、変形に応じて、複数作成することを特徴
    とした請求項2記載の文字認識装置における文字認識方
    法。
  4. 【請求項4】 上記再判定用辞書(9)を作成する際、 切り出す類似文字種の学習文字パターンの共通部分は、
    「漢字の部首」等のような離れた一部分だけでなく、ス
    トロークの一部分(例えば、「2」、「3」の上部)も
    含めて切り出すことを特徴とした請求項2記載の文字認
    識装置における文字認識方法。
JP5018464A 1993-02-05 1993-02-05 文字認識装置における文字認識方法 Pending JPH06231310A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5018464A JPH06231310A (ja) 1993-02-05 1993-02-05 文字認識装置における文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5018464A JPH06231310A (ja) 1993-02-05 1993-02-05 文字認識装置における文字認識方法

Publications (1)

Publication Number Publication Date
JPH06231310A true JPH06231310A (ja) 1994-08-19

Family

ID=11972363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5018464A Pending JPH06231310A (ja) 1993-02-05 1993-02-05 文字認識装置における文字認識方法

Country Status (1)

Country Link
JP (1) JPH06231310A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001344593A (ja) * 2000-05-31 2001-12-14 Ibiden Co Ltd パターン検査装置およびパターン検査方法
JP2005301663A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001344593A (ja) * 2000-05-31 2001-12-14 Ibiden Co Ltd パターン検査装置およびパターン検査方法
JP2005301663A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
US7889926B2 (en) 2004-04-12 2011-02-15 Fuji Xerox Co., Ltd. Image dictionary creating apparatus, coding apparatus, image dictionary creating method

Similar Documents

Publication Publication Date Title
US6259812B1 (en) Key character extraction and lexicon reduction cursive text recognition
US5321768A (en) System for recognizing handwritten character strings containing overlapping and/or broken characters
US5410611A (en) Method for identifying word bounding boxes in text
Kanai et al. Automated evaluation of OCR zoning
US6389166B1 (en) On-line handwritten Chinese character recognition apparatus
US20010051965A1 (en) Apparatus for rough classification of words, method for rough classification of words, and record medium recording a control program thereof
US20020114515A1 (en) Character string recognition apparatus, character string recognizing method, and storage medium therefor
Deodhare et al. Preprocessing and Image Enhancement Algorithms for a Form-based Intelligent Character Recognition System.
Simoncini et al. A system for reading USA census' 90 hand-written fields
JPH06231310A (ja) 文字認識装置における文字認識方法
Srinivas et al. An overview of OCR research in Indian scripts
Fan et al. A feature point clustering approach to the recognition of form documents
Oliveira et al. A synthetic database to assess segmentation algorithms
JP2751865B2 (ja) 文字列認識装置
KR19980058349A (ko) 영상정보를 이용한 사람 식별 방법
Ting et al. A syntactic business form classifier
Patil Character recognition system for Modi script
JP2851865B2 (ja) 文字認識装置
JP2972443B2 (ja) 文字認識装置
JP2902097B2 (ja) 情報処理装置及び文字認識装置
JP2993252B2 (ja) 同形異文字判別方法および装置
Nagajyothi et al. Recognition of Hand written Numerals on bank Cheques using Neural Networks
JP3006823B2 (ja) 文字および単語の認識方式
JP3151866B2 (ja) 英文字認識方法
JPS63269267A (ja) 文字認識方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20011120