JP2875678B2 - 文字認識結果の後処理方法 - Google Patents

文字認識結果の後処理方法

Info

Publication number
JP2875678B2
JP2875678B2 JP4043238A JP4323892A JP2875678B2 JP 2875678 B2 JP2875678 B2 JP 2875678B2 JP 4043238 A JP4043238 A JP 4043238A JP 4323892 A JP4323892 A JP 4323892A JP 2875678 B2 JP2875678 B2 JP 2875678B2
Authority
JP
Japan
Prior art keywords
character
word
candidate
cost value
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4043238A
Other languages
English (en)
Other versions
JPH05242304A (ja
Inventor
明利 塚本
節正 広垣
直弘 天本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP4043238A priority Critical patent/JP2875678B2/ja
Publication of JPH05242304A publication Critical patent/JPH05242304A/ja
Application granted granted Critical
Publication of JP2875678B2 publication Critical patent/JP2875678B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学的に読み取った文
字を認識して出力する装置に関し、特に認識結果に誤り
が存在した場合に、これを自動的に修正して出力する文
字認識結果の後処理方法に関するものである。
【0002】
【従来の技術】従来、この分野の技術としては、例え
ば、特開平2ー267670に示されるものがあった。
上記文献に開示された技術は、単語中に認識不能文字
(リジェクト文字)が存在した場合、このリジェクト文
字の前後の文字、前後の文字配列及び位置に基づいて文
字テーブルから自動的に候補文字を呼出し、これをリジ
ェクト文字に置き換えた単語について検索を行うことに
より、文字認識結果の修正を行うものであった。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
文字認識結果の修正方法では、次のような課題があっ
た。
【0004】(a)従来の文字認識結果の修正方法で
は、認識の過程において認識不能かどうかを判定するこ
とが必要であり、また単語中に複数のリジェクト文字が
存在した場合、それらの位置が近接していると候補文字
を検索することができないという問題点があった。
【0005】(b)前記(a)の問題点を解決するため
に、本願出願人は、先に特願平01ー196509号明
細書において文字認識結果の後処理方法を提案した。こ
の提案では、文字認識結果をあらかじめ準備した単語辞
書を参照しながら修正を行って出力する文字認識結果の
後処理方法において、文字認識結果である候補文字及び
該候補文字と文字パターンとの距離をもとに、最も距離
の小さい第1候補文字を並べた参照単語を作成し、前記
単語辞書を検索して前記参照単語と同じ長さで一致する
文字数が最も多い単語を候補単語として取り出し、前記
候補文字から候補単語を作成した後、前記距離の合計で
あるコスト値を算出し、該コスト値が最小である単語を
選択して出力するというものであった。
【0006】ところが、この方法では、参照単語に最も
多くの文字が一致する単語を辞書中の単語から検索して
いるため、参照単語と辞書中の単語の文字タイプ(大文
字,小文字)が異なっていると候補単語を正しく検索す
ることができない。このため辞書中には単語を大文字、
および小文字の両方で登録しておかなければならず、辞
書が大きくなるという問題点があった。
【0007】本発明は、前記従来技術が持っていた課題
として、参照単語と辞書中の単語の文字タイプが異なっ
ている場合に、正しい単語が候補単語に含まれず、認識
結果に誤りが存在した場合に、これを自動的に修正する
ことができないという点について解決した文字認識結果
の後処理方法を提供するものである。
【0008】
【課題を解決するための手段】前記問題点を解決するた
めに、本発明は、文字認識結果をあらかじめ準備した単
語辞書を参照しながら修正を行って出力する文字認識結
果の後処理方法において、文字認識結果である候補文字
及び該候補文字と文字パターンとの距離をもとに、最も
距離の小さい第1候補文字を並べた参照単語を作成し、
該参照単語の文字タイプを辞書中の文字タイプに合わせ
て変更し、該変更した参照単語と同じ長さで一致する文
字数が最も多い単語を単語辞書の中から検索し候補単語
として取り出す。次に、各候補単語について各候補単語
の文字ごとの距離の合計であるコスト値を算出する。こ
のとき文字タイプの異なる同じ文字が候補文字に存在し
たときは、距離の小さいほうの文字タイプを選択し、該
距離をコスト値算出に用いるとともに、コスト値算出に
用いた文字を候補単語の文字と入れ換える。最後に、コ
スト値が最小である候補単語を選択して出力するもので
ある。
【0009】
【作用】本発明によれば、以上のように文字認識結果の
後処理方法を構成したので、参照単語の文字タイプを辞
書中の文字タイプに合わせて変更し、該変更した参照単
語と同じ長さで一致する文字数が最も多い単語を単語辞
書の中から検索し候補単語として取り出す。次に、各候
補単語についてのコスト値算出時に、文字タイプの異な
る同じ文字が候補文字に存在したときは、距離の小さい
ほうの文字タイプを選択し、該距離をコスト値算出に用
いるとともに、コスト値算出に用いた文字を候補単語の
文字と入れ換えている。したがって、誤って認識した文
字のタイプが辞書中の単語の文字タイプと異なっている
場合にも、自動的に修正することが可能になり、前記課
題を解決できるのである。
【0010】
【実施例】以下、本発明の実施例について図面を参照し
ながら詳細に説明する。図1は本発明の実施例に係る文
字認識結果の後処理方法を示す流れ図、図2は単語の認
識結果を示す一例、図3は候補単語作成の実行例、図4
はコスト値の計算例、図5は図1のコスト値算出処理S
6の詳細内容を示す流れ図である。
【0011】まず図1の認識処理1において、単語を入
力し文字の認識を行う。次に参照単語作成処理2におい
て、認識処理1で認識した単語の各文字の第1位認識候
補文字を並べた参照単語を作成する。図2は文字パター
ンworldに対する認識結果の一例を示しており、そ
れぞれの文字パターンに対する候補文字と、該候補文字
と文字パターンとの近さを表す距離が与えられている。
この場合、第1位候補文字を並べた参照単語はwo’l
2となる。図1の大文字変換処理3において、参照単語
を辞書の文字タイプに合わせて変更する。本実施例では
辞書の文字タイプを大文字としているので、参照単語を
大文字に変更しWO’L2とする。
【0012】候補単語作成処理4において単語辞書5を
使用する。該単語辞書5には予め単語を大文字で登録し
ておく。候補単語作成処理4では、単語辞書5から参照
単語と同じ長さで、かつ一致する文字数が最大の単語を
検索し候補単語とする。図3の場合、候補単語としては
一致文字数が3のWORLDおよびWOULDが挙げら
れる。
【0013】次に、コスト値算出処理6においてすべて
の候補単語に対しコスト値を算出する。コスト値算出処
理6の詳細な処理内容を図5に示す。ステップ11は算
出するコスト値を予め0に初期化する。ステップ12は
候補単語中の各文字について繰り返し制御を行い、ステ
ップ13は候補単語の第i番目の文字に対する各候補文
字について繰り返し制御を行う。ステップ14におい
て、第i番目の文字に対する第j位候補文字を変数a及
びbに代入し、ステップ15において候補単語の第i番
目の文字を変数cに代入する。ステップ16において変
数b及び変数cの内容を比較する。ステップ16におい
ては大文字・小文字の区別を行わず同じものとして比較
する。
【0014】変数b及び変数cの内容が同じ場合には、
ステップ17において候補単語の第i番目の文字を変数
aの内容に変更する。ステップ18においてコスト値を
調べコスト値がXでなければ、ステップ19でコスト値
に該候補文字の距離を加算する。ステップ18でコスト
値がXのときは、ステップ13に進み、候補単語の次の
文字に対し処理を続ける。候補単語の第i番目の文字が
候補文字中に存在しなかった場合、ステップ20におい
て、コスト値を特定の値Xとする。特定の値Xとして
は、十分大きな数値とする。さらにステップ20では、
候補単語のi番目の文字を、図1の認識処理で作成した
ときの参照単語のi番目の文字のタイプに従って変更し
てもよい。ステップ21では算出した候補単語のコスト
値を図1の結果出力処理7に渡す。結果出力処理7で
は、各候補単語のコスト値を比較し、コスト値が最も小
さい候補単語を結果として出力する。
【0015】図5の処理結果は図4に示す通り、候補単
語WORLDはworldに変換され、コスト値は37
5となる。また候補単語WOULDはwouldに変換
され、コスト値は420となる。従って、コスト値が最
小の候補単語のworldが結果として出力される。
【0016】図1の結果出力7において、すべての候補
単語のコスト値が特定の値Xである場合には、認識処理
1で認識した単語が未知語であるとみなし、未知語であ
ることを出力するか、あるいは特願平3ー196509
に提案されている未知語処理などを行い出力する単語を
決定してもよい。
【0017】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、参照単語の文字タイプを単語辞書の文字タイプ
と同じものに変更してから単語辞書を検索し、得られた
候補単語に対するコスト値を算出する際に、候補単語の
文字を距離の小さいほうの文字タイプに変更しておき、
コスト値が最小の候補単語を出力することにより、単語
辞書と異なる文字タイプの単語の認識結果に対しても、
誤認識を修正することができる。
【図面の簡単な説明】
【図1】本発明の実施例に係る文字認識結果の後処理方
法を示す流れ図である。
【図2】単語の認識結果の一例を示す図である。
【図3】候補単語作成の実行例を示す図である。
【図4】コスト値の計算例を示す図である。
【図5】図1のコスト値算出処理6の詳細内容を示す流
れ図である。
【符号の説明】
1 認識処理 2 参照単語作成処理 3 大文字変換処理 4 候補単語作成処理 5 単語辞書 6 コスト算出 7 結果出力

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 文字認識結果をあらかじめ準備した単語
    辞書を参照しながら修正を行って出力する文字認識結果
    の後処理方法において、(a)文字認識結果である候補
    文字及び該候補文字と文字パターンとの距離をもとに、
    最も距離の小さい第1候補文字を並べた参照単語を作成
    し、(b)該参照単語の文字タイプを辞書中の文字タイ
    プに合わせて変更し、(c)該変更した参照単語と同じ
    長さで一致する文字数が最も多い単語を単語辞書の中か
    ら検索し候補単語として取り出し、(d)該候補単語つ
    いて各候補単語の文字ごとの距離の合計であるコスト値
    を算出し、(e)前記コスト値算出時に文字タイプの異
    なる同じ文字が候補文字に存在したときは、距離の小さ
    いほうの文字タイプの候補文字を選択し、該距離をコス
    ト値算出に用い、コスト値算出に用いた候補文字を候補
    単語の文字と入れ換え、(f)コスト値が最小である候
    補単語を選択して出力することを特徴とする文字認識結
    果の後処理方法。
JP4043238A 1992-02-28 1992-02-28 文字認識結果の後処理方法 Expired - Lifetime JP2875678B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4043238A JP2875678B2 (ja) 1992-02-28 1992-02-28 文字認識結果の後処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4043238A JP2875678B2 (ja) 1992-02-28 1992-02-28 文字認識結果の後処理方法

Publications (2)

Publication Number Publication Date
JPH05242304A JPH05242304A (ja) 1993-09-21
JP2875678B2 true JP2875678B2 (ja) 1999-03-31

Family

ID=12658324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4043238A Expired - Lifetime JP2875678B2 (ja) 1992-02-28 1992-02-28 文字認識結果の後処理方法

Country Status (1)

Country Link
JP (1) JP2875678B2 (ja)

Also Published As

Publication number Publication date
JPH05242304A (ja) 1993-09-21

Similar Documents

Publication Publication Date Title
Lehal et al. A shape based post processor for Gurmukhi OCR
JP2945454B2 (ja) パターン識別方法
JP2875678B2 (ja) 文字認識結果の後処理方法
JP3659688B2 (ja) 文字認識装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH06259595A (ja) 文字認識処理装置及び認識処理方法
JP4143148B2 (ja) 文字認識装置
JPH02171876A (ja) パターン認識処理方式
JP2930996B2 (ja) 画像認識方法および画像認識装置
JP2639314B2 (ja) 文字認識方式
JPH05298489A (ja) 文字認識方式
JPH07114622A (ja) 文字認識装置の後処理方法
JP2851865B2 (ja) 文字認識装置
JPS646514B2 (ja)
JPS60138689A (ja) 文字認識方法
JPH0540854A (ja) 文字認識結果の後処理方法
JPH09237322A (ja) 認識装置の候補修正方式
JPH0291785A (ja) 画像認識方法及び装置
JPH03161890A (ja) 文字認識装置
JPH0258187A (ja) 文字認識装置
JPH07141370A (ja) 英語形態素解析装置
JPS63208182A (ja) パタ−ン認識装置
JPH0391094A (ja) 文字認識装置
JPH0652367A (ja) 文字認識結果の後処理方法
JPS6344287A (ja) 文字読取装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990105