JP3476872B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JP3476872B2
JP3476872B2 JP24711693A JP24711693A JP3476872B2 JP 3476872 B2 JP3476872 B2 JP 3476872B2 JP 24711693 A JP24711693 A JP 24711693A JP 24711693 A JP24711693 A JP 24711693A JP 3476872 B2 JP3476872 B2 JP 3476872B2
Authority
JP
Japan
Prior art keywords
character
characters
recognition
candidate
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP24711693A
Other languages
English (en)
Other versions
JPH07105307A (ja
Inventor
三喜男 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP24711693A priority Critical patent/JP3476872B2/ja
Publication of JPH07105307A publication Critical patent/JPH07105307A/ja
Application granted granted Critical
Publication of JP3476872B2 publication Critical patent/JP3476872B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 【0001】 【産業上の利用分野】本発明は、印刷された文字等を認
識しコード情報として出力する文字認識装置に関する。 【0002】 【従来の技術】文字認識装置は、辞書として所有してい
る標準文字の特徴辞書と入力された画像から抽出した文
字の特徴とを比較し、辞書の中で最も特徴の近い文字を
入力画像の文字であると判断し、文字コードを出力す
る。従って、辞書の基となる文字(以降学習文字と言
う)の特徴と入力文字の特徴が近いものであればその認
識率は高いものとなるが、学習文字と入力文字の特徴が
異なる場合には、認識率は非常に低いものとなる。従来
この認識率をできる限り高くする方法として、異なった
特徴の文字を多く学習し辞書を作成する方法、認識処理
を行いながら入力文字に合わせて辞書を修正していく方
法等が採用されてきた。また、この方法は認識そのもの
の信頼度をあげる方法であるが、最終的な認識率を向上
させる方法として、知識を用いた認識結果の修正方法も
多く採用されている。 【0003】認識しながら辞書を修正していく方法とし
て特開平2ー186484がある。この方法は、認識対
象文字中に、認識不能文字が存在していた場合には、そ
の文字の特徴と辞書内の対応する文字の特徴を合成して
新しい辞書として登録するか、あるいは、認識辞書に追
加することにより、以降出現する同一文字の認識を可能
とするものである。また、知識処理により認識率を向上
させる例として、特開昭59ー161787がある。こ
の方法は、認識手段において、複数個の候補文字を選出
し、認識対象文字の前後関係において文字列として言語
的に妥当か否かを候補文字に対して判定しながら認識率
を向上させる方法である。また、特開平4ー37971
に示されているように、あらかじめ各認識対象カテゴリ
ごとに知識データベースが用意されており、認識結果を
最もデータベースに近くなるように修正する方法も多く
用いられている。 【0004】 【発明が解決しようとする課題】しかしながら、特開平
2ー186484の方法の場合、認識を重ねる毎に認識
辞書はその文書、もしくはユーザに特化したものとなり
認識率が向上する特徴があるものの、全く文字種の異な
る文書、あるいは別の環境で認識を行った場合には、全
く学習のやり直しが要求されるばかりか、本来の認識率
も保証されない可能性がある。また、特開昭59ー16
1787、特開平4ー37971の場合は、認識結果を
参考に知識処理で結果を修正、確定する方法であり、非
常に信頼度が高い方法である。しかしながら、このどち
らの方法も単語としての情報等の知識情報が適応できる
文字のみに於いて有効であり、それ以外の文字に対して
は、未処理のままとなる。 【0005】そこで、本発明はこの様な課題を解決する
もので、その目的とするところは、認識対象文字種ごと
に文字の特徴を学習し、単語等の知識情報を持たない文
字に対しても認識結果を修正することのできる、精度の
高い文字認識装置を提供することにある。 【0006】 【課題を解決するための手段】本発明の文字認識装置
は、光学的に入力した文字画像から文字を抽出して認識
する文字認識手段を有する文字認識装置であって、前記
文字認識手段にて認識した文字を、住所情報等の知識情
報に基づいて、確定した文字とするとともに、前記確定
した文字の候補文字と正解文字との対応関係を作成する
認識文字確定手段と、前記対応関係を参照し、前記認識
文字確定手段では確定不能な文字に対して、似たような
候補文字の傾向にある認識文字を前記正解文字に修正し
確定し、また、単語単位で一致具合を比較するときに
は、前記単語単位の一致スコア情報に基づいて似たよう
な候補文字の傾向にある認識文字を前記正解文字に修正
し確定する認識文字修正手段と、を備えてなることを特
徴とする。 【0007】 【0008】 【0009】 【実施例】図1は本発明の文字認識装置のブロック図で
あり、本発明の文字認識装置は以下のような動作をす
る。 【0010】画像入力手段101はセンサ、レンズ及び
LEDで構成されており、LEDから照射された光は文
字等が印字、あるいは書かれている紙面で反射し、レン
ズを通ってセンサに結像されてる。更に、センサからの
出力値を2値化し、データ記憶手段102に画像データ
として情報を蓄積する。(以上一般的光学系であるため
図示せず) 次に、データ記憶手段102に蓄積された文字画像は文
字認識手段103により1文字毎に切り出され、文字の
特徴を抽出した後、標準文字の特徴が記憶されている認
識辞書109の特徴と比較され、特徴の近い順に認識結
果として出力される。 【0011】続いて、文字確定手段104により文字認
識手段103によって認識された結果が正しいか否か、
知識辞書105のデータに基づいて確定を行う。ここで
の文字の確定の手段として、例えば、認識対象画像のカ
テゴリ属性に着目する方法や、文章の文法的妥当性等を
判断する方法など、いろいろ考えられるが、如何なる方
法でも、文字を確定することが可能であれば、上記例及
び以下の具体的実施例に限ったものではない。また、こ
の文字確定手段に於いて、文字の確定を行うと同時に、
認識した結果の候補文字と正解文字との対応表107を
作成する。 【0012】つぎに、文字確定手段104では知識処理
の対象外となり、確定できなかった文字についての確認
を文字修正手段106において行う。文字修正手段で
は、文字確定手段により作成された候補文字対応表10
7の結果と、未確定文字の候補文字の内容を比較する。
あるいは、単語単位での、候補文字の内容を比較し、内
容が非常に似たものがあるか確認をし、もし、候補文字
が非常に似ていると判断された場合にはその単語の修正
を行う。 【0013】以上のようにして、確定、修正された結果
は、表示手段108に表示される。 【0014】次に具体的に、処理の内容を説明する。認
識対象画像のカテゴリ属性が住所であると前もって解っ
ている文字画像(正解は文字列201)について認識処
理を行った結果、第4位までの認識候補文字202が出
力された。ここで、第1位候補を認識結果として出力す
ると、「上牙束センター東京部古束匹上牙」と言う認識
結果を出力することになる。なお、本実施例では、この
文字画像のカテゴリ属性は住所であることが前もって解
っており、知識辞書として図3に示すような、全国の地
名の接続関係をツリー構造的に表現してある住所データ
を所有している。 【0015】そこで、文字確定手段において知識辞書1
05と認識結果202とを比較する。この結果、領域2
04が住所領域であることが判明し、領域204の正解
は「東京都台東区上野」であることが判明する。これと
同時に、領域204の認識結果を「東京都台東区上野」
に修正し、確定する。なお、ここで領域204が住所領
域であると判断する方法は一般的に広く使われているD
Pマッチングで候補文字を比較することにより簡単に求
めることができる。 【0016】つづいて、本発明の文字認識装置では、こ
の領域204の文字について、正解文字と候補文字との
対応図4を作成する。なお、この対応図において「東」
と言う文字は2度出現する。また、それらの候補文字は
部分的に異なるため、対応図を作成すると図4の文字No
1の候補文字に示すように5つ文字が候補文字として対
応付けされる。その結果、文字としては7つの文字、単
語では3つの単語についての候補文字の対応図401を
作成できる。この対応図401が文書を読み込ませたと
きの、文書に使われている文字種、あるいは筆者の文字
の特徴であり、文字認識装置は、その特徴により最初か
ら所有している認識辞書109との違いをデータとして
持ち、間違いの傾向と学習することにより、誤認識を減
らすことができるのである。本実施例では、候補文字対
応図401は単語レベルと文字レベルとを判断している
が、実際には確定できる範囲内で得られる情報を用いれ
ばよい。 【0017】つぎに、残りの領域203について文字修
正手段106で文字の修正、確定を行う。まず最初に、
残りの領域において、7つの文字のいずれかに似た傾向
の候補文字が出力されているか確認する。その結果、文
字No6「上」の候補文字と候補文字208とが2文字一
致し、同一文字の可能性があると判断される。しかし、
2文字程度では異なる文字でも候補文字が一致すること
がしばしばあるため、候補文字208は確定しない。つ
づいて、文字No7「野」と候補文字209が4つの候補
文字についてすべて一致する。ここで、候補文字が全く
同じであるので、候補文字209に対応した文字は
「野」であると判断し、修正確定する。又、続く候補文
字206も文字No1「東」の候補文字と3文字一致する
ため、正解文字は「東」であると判断できる。この結
果、候補文字206と209が確定できる。 続いて、
3つの単語のいずれかが存在するか確認する。単語の候
補文字の比較では、1文字当りの候補文字の一致文字数
が低くても、前後の連結の状態が似た傾向であれば、そ
の分一致スコアを高くして同一か否かの判断を行う。そ
の結果、文字単位の比較では、領域208の文字は文字
No6の文字と同一であるとは確定できなかったが、単語
として判断することにより、領域208を含む領域20
5の単語が3つめの単語「上野」の候補文字に同一の単
語であると判断でき、領域205を単語「上野」に修正
し確定する。ここで、文字としての比較では、確定でき
ない文字を単語としての比較で救うことは、同一文書、
あるいは同一画像では、同じ単語が何度も出現する可能
性が非常に高く、また、文字種も同一であるため、統計
的にみても信頼度が高いものである。 【0018】この結果、知識処理手段では対応不可能
な、カテゴリ属性が不定、あるいは未知な領域に対して
も知識処理を行うことが可能となった。また、この知識
処理は、対応文書毎にその文字の特徴に合わせて正解文
字と候補文字の対応図を作成するので、従来のようにあ
らかじめ予想される間違い候補文字のデータを持つ必要
がなく、又、対象文書の文字種の変化に柔軟に対応でき
る。その結果、入力文字画像に合わせた出力結果を得る
ことが可能となり、より信頼度の高い文字認識装置を提
供することが可能となった。 【0019】 【発明の効果】以上のように本発明の文字認識装置は、
文字認識手段と、認識文字確定手段を有し、確定した文
字の候補文字と正解文字との対応関係を作成する。その
結果、知識処理では、修正、確定不能な文字に対しても
文字の修正が可能となる。さらに、本発明の文字認識装
置は、誤認識の傾向を前もってデータとして作成した
り、また、認識を繰り返しながら学習し、対象文字に合
わせて辞書を作成する必要が全く無い。その結果、対象
文字の範囲が非常に広く、汎用性のある文字認識装置と
なる。また、正解文字と認識候補文字との対応関係を用
いた知識処理の信頼度は高いものであり、少ない知識処
理用の辞書データで多くの文字に対して、また、如何な
るカテゴリ属性の文字に対しても知識処理が可能とな
る。その結果、信頼度の高い文字認識結果を出力するこ
とが可能となる。
【図面の簡単な説明】 【図1】 本発明の文字認識装置のブロック図。 【図2】 本発明の認識文字修正、確定説明図。 【図3】 知識辞書説明図。 【図4】 正解文字、候補文字対応図。 【符号の説明】 101・・・画像入力手段 102・・・データ記憶手段 103・・・文字認識手段 104・・・文字確定手段 105・・・知識辞書 106・・・文字修正手段 107・・・候補文字対応表 108・・・表示手段 201・・・認識正解文字列 202・・・認識候補文字
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/03 G06K 9/62 - 9/72

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1】 光学的に入力した文字画像から文字を抽
    出して認識する文字認識手段を有する文字認識装置であ
    って、 前記文字認識手段にて認識した文字を、住所情報等の知
    識情報に基づいて、確定した文字とするとともに、前記
    確定した文字の候補文字と正解文字との対応関係を作成
    する認識文字確定手段と、 前記対応関係を参照し、前記認識文字確定手段では確定
    不能な文字に対して、似たような候補文字の傾向にある
    認識文字を前記正解文字に修正し確定し、また、単語単
    位で一致具合を比較するときには、前記単語単位の一致
    スコア情報に基づいて似たような候補文字の傾向にある
    認識文字を前記正解文字に修正し確定する認識文字修正
    手段と、 を備えてなることを特徴とする文字認識装置。
JP24711693A 1993-10-01 1993-10-01 文字認識装置 Expired - Lifetime JP3476872B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24711693A JP3476872B2 (ja) 1993-10-01 1993-10-01 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24711693A JP3476872B2 (ja) 1993-10-01 1993-10-01 文字認識装置

Publications (2)

Publication Number Publication Date
JPH07105307A JPH07105307A (ja) 1995-04-21
JP3476872B2 true JP3476872B2 (ja) 2003-12-10

Family

ID=17158679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24711693A Expired - Lifetime JP3476872B2 (ja) 1993-10-01 1993-10-01 文字認識装置

Country Status (1)

Country Link
JP (1) JP3476872B2 (ja)

Also Published As

Publication number Publication date
JPH07105307A (ja) 1995-04-21

Similar Documents

Publication Publication Date Title
US6219453B1 (en) Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
JPH10105655A (ja) 光学文字認識のための検証および訂正の方法およびシステム
JPH0684006A (ja) オンライン手書き文字認識方法
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
JPH10230226A (ja) 住所読み取り装置
JP3476872B2 (ja) 文字認識装置
JPH06124366A (ja) 住所読取装置
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JPH0728935A (ja) 文書画像処理装置
US9443139B1 (en) Methods and apparatus for identifying labels and/or information associated with a label and/or using identified information
JP3071745B2 (ja) 文字認識結果の後処理方法
JP2001236467A (ja) パターン認識方法、装置、およびパターン認識プログラムを記録した記録媒体
JPH08287188A (ja) 文字列認識装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH0256086A (ja) 文字認識の後処理方法
JP3270590B2 (ja) 文字認識装置
JP2746345B2 (ja) 文字認識の後処理方法
JP2784004B2 (ja) 文字認識装置
JPH02171876A (ja) パターン認識処理方式
JPH0290384A (ja) 文字認識装置の後処理方式
JPH0239290A (ja) 単語照合方式
JPH0944604A (ja) 文字認識処理方法
JP2001022773A (ja) イメージ文書のキーワード抽出方法
JP3345469B2 (ja) 単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置
JPH0540854A (ja) 文字認識結果の後処理方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080926

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080926

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090926

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090926

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100926

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100926

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120926

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130926

Year of fee payment: 10

EXPY Cancellation because of completion of term