JP3486246B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JP3486246B2
JP3486246B2 JP31698594A JP31698594A JP3486246B2 JP 3486246 B2 JP3486246 B2 JP 3486246B2 JP 31698594 A JP31698594 A JP 31698594A JP 31698594 A JP31698594 A JP 31698594A JP 3486246 B2 JP3486246 B2 JP 3486246B2
Authority
JP
Japan
Prior art keywords
character
dictionary
recognition
candidate
error pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP31698594A
Other languages
English (en)
Other versions
JPH08171606A (ja
Inventor
雄二 中島
Original Assignee
エー・アイ・ソフト株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エー・アイ・ソフト株式会社 filed Critical エー・アイ・ソフト株式会社
Priority to JP31698594A priority Critical patent/JP3486246B2/ja
Publication of JPH08171606A publication Critical patent/JPH08171606A/ja
Application granted granted Critical
Publication of JP3486246B2 publication Critical patent/JP3486246B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 【0001】 【産業上の利用分野】本発明は、光学式文字読み取り装
置で読みとった画像から辞書を参照することで、効率よ
く認識率を向上させるための認識装置に関する。 【0002】 【従来の技術】光学式文字読取装置(OCR)は、光学
式読取部で読み取った画像から文字部分を判別し、認識
辞書を参照してその文字を認識し、その後言語辞書を参
照して言語処理を行なって認識結果をCRTなどの表示
部へ表示するものである。認識辞書とは、文字画像の特
徴を保存した辞書であり、言語辞書は、認識辞書を参照
しながら認識した結果を言語処理して、認識率を高める
ために使用する辞書である。 【0003】このOCRにおける認識装置は従来、誤認
識された文字の画像データを1文字ずつ表示部に表示
し、それに対して操作者が正解文字コードを入力すると
いうものであった。また、特開平4−24783号公報
は1文字ずつの入力では効率的に学習ができないなどの
理由から、単語単位で複数文字を一度に学習させるとい
う方式のものであるが、基本的には文字画像データとそ
の正解文字コードを対として登録して学習させるもので
ある。 【0004】 【発明が解決しようとする課題】上記の従来の学習方式
は、文字の画像データを登録して学習させる方式である
ため、登録した文字画像そのものに対しては確実に学習
の効果で正解文字となるが、画像データが光学的読取部
から読み取る際の状態に応じて多少変化したり、同一文
字であっても他の書体であったような場合に、必ずしも
正解になるとは限らない。そのような時には、この異な
る文字画像データを再度登録する必要が生ずる。このよ
うに登録が増えることは、OCRで最も処理時間のかか
る認識辞書の参照処理を複雑にすることに加えて、登録
前には正解となっていた形状の似ている他の文字が不正
解になってしまうといった悪影響が考えられるという欠
点を有している。 【0005】そこで本発明の目的は、この処理時間の増
大と時として結果への悪影響を招く可能性のある文字画
像データそのものの登録を行なわずに、その代わりとし
て認識辞書を参照して認識された結果である文字コード
に対して操作者の登録した文字コードを追加させる手段
を設けることで、処理時間の増大を極力抑え、かつ悪影
響を及ぼす可能性をも低減させた有効なOCRによる認
識装置を提供することにある。 【0006】ここで誤りパターン辞書6とは操作者の登
録した文字コードとその対の文字コードデータをパター
ンとして保存しておく辞書である。 【0007】 【課題を解決するための手段】本発明は、文字画像の特
徴を保存した認識辞書と、前記認識辞書を参照しながら
所定数の複数の候補文字をそれぞれ文字コードとして生
成する文字認識制御部と、言語辞書を参照しながら前記
文字認識制御部で生成した結果を言語処理して認識率を
高めるための言語処理部と、操作者の登録した文字コー
ドを追加しその文字コードの対の文字コードデータを保
存しておく誤りパターン辞書と、前記文字認識制御部で
生成された文字コードに対して前記誤りパターン辞書を
参照して対応する文字コードを追加する候補文字追加部
と、前記誤りパターン辞書の内容を表示し操作者の入力
によって誤りパターンを追加、修正、削除する誤りパタ
ーン保守部と、を備え、誤認識された文字画像の認識結
果の文字に対して、それを元の文字として、該元の文字
の文字コードと、対となる追加文字の文字コードとをパ
ターンとして前記誤りパターン辞書に登録しておき、前
記候補文字追加部は、元の文字が候補文字として出力さ
れると前記誤りパターン辞書の内容を参照して前記元の
文字の次位の文字の候補文字として出力する処理を、前
記所定数の複数の候補文字全てに対して行なうことを特
徴とする。 【0008】 【0009】 【実施例】図1は、本発明の学習方式を採用した日本語
OCRの一例を示すブロック図である。同図において1
は入力部としてのキーボード、2は表示部としてのCR
T、3は光学的読取部(図示せず)で読み取られた画像
データを1文字ごとに認識辞書4を参照しつつ認識し、
認識結果たる文字コードを生成する文字認識制御部、5
はこの文字認識制御部3で生成された文字コードに対し
て誤りパターン辞書6を参照して対応する文字コードを
候補文字として追加する候補文字追加部、7は文字認識
制御部で生成された文字を単語単位で言語辞書8を参照
しつつ修正して正解文字列を生成する言語処理部、9は
誤りパターン辞書6の内容をCRT2に表示させ、か
つ、キーボード1からの操作者の入力によって誤りパタ
ーンを追加、修正、削除することを可能とする誤りパタ
ーン保守部である。ここで誤りパターン辞書6とは操作
者の登録した文字コードとその対の文字コードデータを
パターンとして保存しておく辞書である。 【0010】上記の文字認識制御部3はパターンマッチ
ングの認識手法に基づき、1文字画像データから濃淡特
徴などを抽出し、次に抽出した濃淡特徴と認識辞書4内
の特徴との一致度を距離計算で調べて認識処理を行なっ
た後、距離の小さいものから順に第10位までの候補文
字を認識結果として出力する。 【0011】上記言語処理部5は上述の処理での認識辞
書4による認識結果をもとにそれぞれの第10位までの
候補文字を組み合わせて文字列を生成し、生成した文字
列が言語辞書8に存在する場合には、たとえそれが第1
位の候補文字でなくともそれを正解とすることで認識率
の向上をはかるものである。 【0012】上記誤りパターン保守部9は、操作者がキ
ーボード1から誤って認識された結果を元の文字とし
て、元の文字とその正解文字を文字コードの対として入
力し、誤りパターン辞書6にその対を追加したり、また
その辞書内のパターンをCRT2に表示して、操作者に
よる修正や削除を可能とするものである。また、このよ
うにして作成された誤りパターン辞書6は、認識辞書4
内の文字との一致度を距離計算で調べて認識処理を行な
った際に新たな候補文字を作成するために用いられるも
のであり、すなわち操作者によって入力された誤りパタ
ーンの対のうち元の文字が認識処理後の候補文字にあれ
ばその次の候補文字として正解文字を補うようにしたも
のである。上記構成の文字認識装置について図2〜図6
を参照しつつ次に述べる。 【0013】図2および図3は実際に認識された結果出
力される候補文字を示している。図2では「公開」とい
う画像データから各文字との一致度を距離計算して距離
の小さい順に候補文字を第1位から第10位まで示して
ある(図6のS1〜S4参照)。ここで「公」という文
字は認識された結果も「公」となっているが、「開」と
いう文字は「間」と誤って認識されており、正解の
「開」という文字は第3位として出力されている。この
文字ごとの認識処理では「公開」という文字画像データ
は「公間」と誤認識されてしまっている。しかしながら
「開」という文字が候補文字の第3位にあることから、
言語処理部7が言語辞書8を参照することで「公開」を
正解として出力することが可能である。これに対して図
3では「改革」という画像データを認識させた結果、そ
れぞれの文字の認識結果の第1位は「改」「草」となっ
ている。ここで「革」が「草」に誤って認識されている
わけであるが、結果として「革」という文字が候補文字
の第10位までに存在しないことから、言語処理部7が
言語辞書8を参照しても、最終的な認識結果を「改革」
とすることは不可能である。 【0014】これに対して操作者は誤りパターン保守部
9により、図4のように元の文字11「草」を追加文字
12「革」として、「草→革」のパターンを文字コード
として辞書に追加する。これによって文字認識制御部3
が「革」という文字画像を認識して、第1位に「草」と
いう文字コードを出力した時点で「草→革」という誤り
パターン辞書6の内容を参照して、第2位に「革」とい
う文字コードを出力する(図6のS5〜S7参照)。そ
の後、図3で第2位であった「亭」が第3位に、第3位
であった「辛」が第4位になり、結果的に図5aのよう
な認識結果が得られる。この場合には図3の場合と違っ
て「革」という文字コードが候補文字として存在するこ
とから、言語処理部7が言語辞書8を参照することで、
「改革」を正解として出力することが可能となる。図4
は、追加文字「草→革」の他に、元の文字「賛」に対し
て追加文字「費」とする「賛→費」の場合、その他同様
にして「垂→重」、「墳→境」をパターン一覧13とし
て表示させる、画面の一例を示している。 【0015】また、図5aの例では「草」という文字が
第1位として認識されているが、図5bに示すごとく、
仮に第3位の認識結果として出力されたとしても、同様
に誤りパターン辞書6の内容から「革」という文字は第
4位として出力されるわけであり、結果として「改革」
を正解として出力できることには変わりがない。 【0016】 【発明の効果】このように本発明の文字認識装置では、
誤って認識された文字コードとその正解文字コードを対
として辞書に登録するだけで、認識にかかる処理時間を
あまり増加させず、また悪影響を及ぼす可能性を極めて
低減させた上で、容易に認識率を向上させることが可能
となる。
【図面の簡単な説明】 【図1】本発明によるブロックダイヤグラムを示す図。 【図2】本発明を説明するための図。 【図3】本発明を説明するための図。 【図4】本発明による一実施例を示す図。 【図5】本発明による一実施例を示す図。 【図6】本発明によるフローチャート。 【符号の説明】 1:キーボード 2:表示体(CRT) 3:文字認識制御部 4:認識辞書 5:候補文字追加部 6:誤りパターン辞書 7:言語処理部 8:言語辞書 9:誤りパターン保守部 11:元の文字 12:追加文字 13:パターン一覧

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1】文字画像の特徴を保存した認識辞書と、 前記認識辞書を参照しながら所定数の複数の候補文字を
    それぞれ文字コードとして生成する文字認識制御部と、 言語辞書を参照しながら前記文字認識制御部で生成した
    結果を言語処理して認識率を高めるための言語処理部
    と、 操作者の登録した文字コードを追加しその文字コードの
    対の文字コードデータを保存しておく誤りパターン辞書
    と、 前記文字認識制御部で生成された文字コードに対して前
    記誤りパターン辞書を参照して対応する文字コードを追
    加する候補文字追加部と、 前記誤りパターン辞書の内容を表示し操作者の入力によ
    って誤りパターンを追加、修正、削除する誤りパターン
    保守部と、 を備え、 誤認識された文字画像の認識結果の文字に対して、それ
    を元の文字として、該元の文字の文字コードと、対とな
    る追加文字の文字コードとをパターンとして前記誤りパ
    ターン辞書に登録しておき、 前記候補文字追加部は、元の文字が候補文字として出力
    されると前記誤りパターン辞書の内容を参照して前記元
    の文字の次位の文字の候補文字として出力する処理を、
    前記所定数の複数の候補文字全てに対して行なうことを
    特徴とする文字認識装置。
JP31698594A 1994-12-20 1994-12-20 文字認識装置 Expired - Lifetime JP3486246B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31698594A JP3486246B2 (ja) 1994-12-20 1994-12-20 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31698594A JP3486246B2 (ja) 1994-12-20 1994-12-20 文字認識装置

Publications (2)

Publication Number Publication Date
JPH08171606A JPH08171606A (ja) 1996-07-02
JP3486246B2 true JP3486246B2 (ja) 2004-01-13

Family

ID=18083139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31698594A Expired - Lifetime JP3486246B2 (ja) 1994-12-20 1994-12-20 文字認識装置

Country Status (1)

Country Link
JP (1) JP3486246B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016159245A (ja) * 2015-03-03 2016-09-05 株式会社東芝 配達物処理装置、および配達物処理プログラム

Also Published As

Publication number Publication date
JPH08171606A (ja) 1996-07-02

Similar Documents

Publication Publication Date Title
JPH10134192A (ja) パタンマッチング符号化装置及び方法
JP3486246B2 (ja) 文字認識装置
JP3730073B2 (ja) テンプレート作成方法、装置、およびテンプレート作成プログラムを記録した記録媒体
JP3221968B2 (ja) 文字認識装置
JP2976990B2 (ja) 文字認識装置
JPH01292586A (ja) 文字認識支援装置
JPH053631B2 (ja)
JPH0749924A (ja) 手書き文字認識装置
JP3352467B2 (ja) オンライン文字認識装置
JPH0475184A (ja) 入力装置
JP3045086B2 (ja) 光学式文字読取方法および装置
JPH0696283A (ja) 光学式文字読取装置における文字学習方式
JPH0728957A (ja) 英文字認識装置
JPH11184962A (ja) 光学的文字読取装置、照合修正方法、及び記録媒体
JPH03161886A (ja) Ocrの誤読修正方法
JP2000020638A (ja) 文字列方向判別方法
JPH04268986A (ja) 文字認識装置
JPH03164887A (ja) 光学式文字読取装置
JPS60207952A (ja) 外字登録方式
JPH08194772A (ja) 光学的文字読取り装置
JPH0344784A (ja) 文字認識装置
JPH08287187A (ja) 手書き文字認識装置および手書き文字認識方法
JPS59132031A (ja) 文字入力装置
JPH06251204A (ja) 文字認識装置
JPH05108871A (ja) 文字認識装置

Legal Events

Date Code Title Description
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081024

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091024

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101024

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101024

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131024

Year of fee payment: 10

EXPY Cancellation because of completion of term