JP2875678B2 - 文字認識結果の後処理方法 - Google Patents
文字認識結果の後処理方法Info
- Publication number
- JP2875678B2 JP2875678B2 JP4043238A JP4323892A JP2875678B2 JP 2875678 B2 JP2875678 B2 JP 2875678B2 JP 4043238 A JP4043238 A JP 4043238A JP 4323892 A JP4323892 A JP 4323892A JP 2875678 B2 JP2875678 B2 JP 2875678B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- word
- candidate
- cost value
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Discrimination (AREA)
Description
【0001】
【産業上の利用分野】本発明は、光学的に読み取った文
字を認識して出力する装置に関し、特に認識結果に誤り
が存在した場合に、これを自動的に修正して出力する文
字認識結果の後処理方法に関するものである。
字を認識して出力する装置に関し、特に認識結果に誤り
が存在した場合に、これを自動的に修正して出力する文
字認識結果の後処理方法に関するものである。
【0002】
【従来の技術】従来、この分野の技術としては、例え
ば、特開平2ー267670に示されるものがあった。
上記文献に開示された技術は、単語中に認識不能文字
(リジェクト文字)が存在した場合、このリジェクト文
字の前後の文字、前後の文字配列及び位置に基づいて文
字テーブルから自動的に候補文字を呼出し、これをリジ
ェクト文字に置き換えた単語について検索を行うことに
より、文字認識結果の修正を行うものであった。
ば、特開平2ー267670に示されるものがあった。
上記文献に開示された技術は、単語中に認識不能文字
(リジェクト文字)が存在した場合、このリジェクト文
字の前後の文字、前後の文字配列及び位置に基づいて文
字テーブルから自動的に候補文字を呼出し、これをリジ
ェクト文字に置き換えた単語について検索を行うことに
より、文字認識結果の修正を行うものであった。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
文字認識結果の修正方法では、次のような課題があっ
た。
文字認識結果の修正方法では、次のような課題があっ
た。
【0004】(a)従来の文字認識結果の修正方法で
は、認識の過程において認識不能かどうかを判定するこ
とが必要であり、また単語中に複数のリジェクト文字が
存在した場合、それらの位置が近接していると候補文字
を検索することができないという問題点があった。
は、認識の過程において認識不能かどうかを判定するこ
とが必要であり、また単語中に複数のリジェクト文字が
存在した場合、それらの位置が近接していると候補文字
を検索することができないという問題点があった。
【0005】(b)前記(a)の問題点を解決するため
に、本願出願人は、先に特願平01ー196509号明
細書において文字認識結果の後処理方法を提案した。こ
の提案では、文字認識結果をあらかじめ準備した単語辞
書を参照しながら修正を行って出力する文字認識結果の
後処理方法において、文字認識結果である候補文字及び
該候補文字と文字パターンとの距離をもとに、最も距離
の小さい第1候補文字を並べた参照単語を作成し、前記
単語辞書を検索して前記参照単語と同じ長さで一致する
文字数が最も多い単語を候補単語として取り出し、前記
候補文字から候補単語を作成した後、前記距離の合計で
あるコスト値を算出し、該コスト値が最小である単語を
選択して出力するというものであった。
に、本願出願人は、先に特願平01ー196509号明
細書において文字認識結果の後処理方法を提案した。こ
の提案では、文字認識結果をあらかじめ準備した単語辞
書を参照しながら修正を行って出力する文字認識結果の
後処理方法において、文字認識結果である候補文字及び
該候補文字と文字パターンとの距離をもとに、最も距離
の小さい第1候補文字を並べた参照単語を作成し、前記
単語辞書を検索して前記参照単語と同じ長さで一致する
文字数が最も多い単語を候補単語として取り出し、前記
候補文字から候補単語を作成した後、前記距離の合計で
あるコスト値を算出し、該コスト値が最小である単語を
選択して出力するというものであった。
【0006】ところが、この方法では、参照単語に最も
多くの文字が一致する単語を辞書中の単語から検索して
いるため、参照単語と辞書中の単語の文字タイプ(大文
字,小文字)が異なっていると候補単語を正しく検索す
ることができない。このため辞書中には単語を大文字、
および小文字の両方で登録しておかなければならず、辞
書が大きくなるという問題点があった。
多くの文字が一致する単語を辞書中の単語から検索して
いるため、参照単語と辞書中の単語の文字タイプ(大文
字,小文字)が異なっていると候補単語を正しく検索す
ることができない。このため辞書中には単語を大文字、
および小文字の両方で登録しておかなければならず、辞
書が大きくなるという問題点があった。
【0007】本発明は、前記従来技術が持っていた課題
として、参照単語と辞書中の単語の文字タイプが異なっ
ている場合に、正しい単語が候補単語に含まれず、認識
結果に誤りが存在した場合に、これを自動的に修正する
ことができないという点について解決した文字認識結果
の後処理方法を提供するものである。
として、参照単語と辞書中の単語の文字タイプが異なっ
ている場合に、正しい単語が候補単語に含まれず、認識
結果に誤りが存在した場合に、これを自動的に修正する
ことができないという点について解決した文字認識結果
の後処理方法を提供するものである。
【0008】
【課題を解決するための手段】前記問題点を解決するた
めに、本発明は、文字認識結果をあらかじめ準備した単
語辞書を参照しながら修正を行って出力する文字認識結
果の後処理方法において、文字認識結果である候補文字
及び該候補文字と文字パターンとの距離をもとに、最も
距離の小さい第1候補文字を並べた参照単語を作成し、
該参照単語の文字タイプを辞書中の文字タイプに合わせ
て変更し、該変更した参照単語と同じ長さで一致する文
字数が最も多い単語を単語辞書の中から検索し候補単語
として取り出す。次に、各候補単語について各候補単語
の文字ごとの距離の合計であるコスト値を算出する。こ
のとき文字タイプの異なる同じ文字が候補文字に存在し
たときは、距離の小さいほうの文字タイプを選択し、該
距離をコスト値算出に用いるとともに、コスト値算出に
用いた文字を候補単語の文字と入れ換える。最後に、コ
スト値が最小である候補単語を選択して出力するもので
ある。
めに、本発明は、文字認識結果をあらかじめ準備した単
語辞書を参照しながら修正を行って出力する文字認識結
果の後処理方法において、文字認識結果である候補文字
及び該候補文字と文字パターンとの距離をもとに、最も
距離の小さい第1候補文字を並べた参照単語を作成し、
該参照単語の文字タイプを辞書中の文字タイプに合わせ
て変更し、該変更した参照単語と同じ長さで一致する文
字数が最も多い単語を単語辞書の中から検索し候補単語
として取り出す。次に、各候補単語について各候補単語
の文字ごとの距離の合計であるコスト値を算出する。こ
のとき文字タイプの異なる同じ文字が候補文字に存在し
たときは、距離の小さいほうの文字タイプを選択し、該
距離をコスト値算出に用いるとともに、コスト値算出に
用いた文字を候補単語の文字と入れ換える。最後に、コ
スト値が最小である候補単語を選択して出力するもので
ある。
【0009】
【作用】本発明によれば、以上のように文字認識結果の
後処理方法を構成したので、参照単語の文字タイプを辞
書中の文字タイプに合わせて変更し、該変更した参照単
語と同じ長さで一致する文字数が最も多い単語を単語辞
書の中から検索し候補単語として取り出す。次に、各候
補単語についてのコスト値算出時に、文字タイプの異な
る同じ文字が候補文字に存在したときは、距離の小さい
ほうの文字タイプを選択し、該距離をコスト値算出に用
いるとともに、コスト値算出に用いた文字を候補単語の
文字と入れ換えている。したがって、誤って認識した文
字のタイプが辞書中の単語の文字タイプと異なっている
場合にも、自動的に修正することが可能になり、前記課
題を解決できるのである。
後処理方法を構成したので、参照単語の文字タイプを辞
書中の文字タイプに合わせて変更し、該変更した参照単
語と同じ長さで一致する文字数が最も多い単語を単語辞
書の中から検索し候補単語として取り出す。次に、各候
補単語についてのコスト値算出時に、文字タイプの異な
る同じ文字が候補文字に存在したときは、距離の小さい
ほうの文字タイプを選択し、該距離をコスト値算出に用
いるとともに、コスト値算出に用いた文字を候補単語の
文字と入れ換えている。したがって、誤って認識した文
字のタイプが辞書中の単語の文字タイプと異なっている
場合にも、自動的に修正することが可能になり、前記課
題を解決できるのである。
【0010】
【実施例】以下、本発明の実施例について図面を参照し
ながら詳細に説明する。図1は本発明の実施例に係る文
字認識結果の後処理方法を示す流れ図、図2は単語の認
識結果を示す一例、図3は候補単語作成の実行例、図4
はコスト値の計算例、図5は図1のコスト値算出処理S
6の詳細内容を示す流れ図である。
ながら詳細に説明する。図1は本発明の実施例に係る文
字認識結果の後処理方法を示す流れ図、図2は単語の認
識結果を示す一例、図3は候補単語作成の実行例、図4
はコスト値の計算例、図5は図1のコスト値算出処理S
6の詳細内容を示す流れ図である。
【0011】まず図1の認識処理1において、単語を入
力し文字の認識を行う。次に参照単語作成処理2におい
て、認識処理1で認識した単語の各文字の第1位認識候
補文字を並べた参照単語を作成する。図2は文字パター
ンworldに対する認識結果の一例を示しており、そ
れぞれの文字パターンに対する候補文字と、該候補文字
と文字パターンとの近さを表す距離が与えられている。
この場合、第1位候補文字を並べた参照単語はwo’l
2となる。図1の大文字変換処理3において、参照単語
を辞書の文字タイプに合わせて変更する。本実施例では
辞書の文字タイプを大文字としているので、参照単語を
大文字に変更しWO’L2とする。
力し文字の認識を行う。次に参照単語作成処理2におい
て、認識処理1で認識した単語の各文字の第1位認識候
補文字を並べた参照単語を作成する。図2は文字パター
ンworldに対する認識結果の一例を示しており、そ
れぞれの文字パターンに対する候補文字と、該候補文字
と文字パターンとの近さを表す距離が与えられている。
この場合、第1位候補文字を並べた参照単語はwo’l
2となる。図1の大文字変換処理3において、参照単語
を辞書の文字タイプに合わせて変更する。本実施例では
辞書の文字タイプを大文字としているので、参照単語を
大文字に変更しWO’L2とする。
【0012】候補単語作成処理4において単語辞書5を
使用する。該単語辞書5には予め単語を大文字で登録し
ておく。候補単語作成処理4では、単語辞書5から参照
単語と同じ長さで、かつ一致する文字数が最大の単語を
検索し候補単語とする。図3の場合、候補単語としては
一致文字数が3のWORLDおよびWOULDが挙げら
れる。
使用する。該単語辞書5には予め単語を大文字で登録し
ておく。候補単語作成処理4では、単語辞書5から参照
単語と同じ長さで、かつ一致する文字数が最大の単語を
検索し候補単語とする。図3の場合、候補単語としては
一致文字数が3のWORLDおよびWOULDが挙げら
れる。
【0013】次に、コスト値算出処理6においてすべて
の候補単語に対しコスト値を算出する。コスト値算出処
理6の詳細な処理内容を図5に示す。ステップ11は算
出するコスト値を予め0に初期化する。ステップ12は
候補単語中の各文字について繰り返し制御を行い、ステ
ップ13は候補単語の第i番目の文字に対する各候補文
字について繰り返し制御を行う。ステップ14におい
て、第i番目の文字に対する第j位候補文字を変数a及
びbに代入し、ステップ15において候補単語の第i番
目の文字を変数cに代入する。ステップ16において変
数b及び変数cの内容を比較する。ステップ16におい
ては大文字・小文字の区別を行わず同じものとして比較
する。
の候補単語に対しコスト値を算出する。コスト値算出処
理6の詳細な処理内容を図5に示す。ステップ11は算
出するコスト値を予め0に初期化する。ステップ12は
候補単語中の各文字について繰り返し制御を行い、ステ
ップ13は候補単語の第i番目の文字に対する各候補文
字について繰り返し制御を行う。ステップ14におい
て、第i番目の文字に対する第j位候補文字を変数a及
びbに代入し、ステップ15において候補単語の第i番
目の文字を変数cに代入する。ステップ16において変
数b及び変数cの内容を比較する。ステップ16におい
ては大文字・小文字の区別を行わず同じものとして比較
する。
【0014】変数b及び変数cの内容が同じ場合には、
ステップ17において候補単語の第i番目の文字を変数
aの内容に変更する。ステップ18においてコスト値を
調べコスト値がXでなければ、ステップ19でコスト値
に該候補文字の距離を加算する。ステップ18でコスト
値がXのときは、ステップ13に進み、候補単語の次の
文字に対し処理を続ける。候補単語の第i番目の文字が
候補文字中に存在しなかった場合、ステップ20におい
て、コスト値を特定の値Xとする。特定の値Xとして
は、十分大きな数値とする。さらにステップ20では、
候補単語のi番目の文字を、図1の認識処理で作成した
ときの参照単語のi番目の文字のタイプに従って変更し
てもよい。ステップ21では算出した候補単語のコスト
値を図1の結果出力処理7に渡す。結果出力処理7で
は、各候補単語のコスト値を比較し、コスト値が最も小
さい候補単語を結果として出力する。
ステップ17において候補単語の第i番目の文字を変数
aの内容に変更する。ステップ18においてコスト値を
調べコスト値がXでなければ、ステップ19でコスト値
に該候補文字の距離を加算する。ステップ18でコスト
値がXのときは、ステップ13に進み、候補単語の次の
文字に対し処理を続ける。候補単語の第i番目の文字が
候補文字中に存在しなかった場合、ステップ20におい
て、コスト値を特定の値Xとする。特定の値Xとして
は、十分大きな数値とする。さらにステップ20では、
候補単語のi番目の文字を、図1の認識処理で作成した
ときの参照単語のi番目の文字のタイプに従って変更し
てもよい。ステップ21では算出した候補単語のコスト
値を図1の結果出力処理7に渡す。結果出力処理7で
は、各候補単語のコスト値を比較し、コスト値が最も小
さい候補単語を結果として出力する。
【0015】図5の処理結果は図4に示す通り、候補単
語WORLDはworldに変換され、コスト値は37
5となる。また候補単語WOULDはwouldに変換
され、コスト値は420となる。従って、コスト値が最
小の候補単語のworldが結果として出力される。
語WORLDはworldに変換され、コスト値は37
5となる。また候補単語WOULDはwouldに変換
され、コスト値は420となる。従って、コスト値が最
小の候補単語のworldが結果として出力される。
【0016】図1の結果出力7において、すべての候補
単語のコスト値が特定の値Xである場合には、認識処理
1で認識した単語が未知語であるとみなし、未知語であ
ることを出力するか、あるいは特願平3ー196509
に提案されている未知語処理などを行い出力する単語を
決定してもよい。
単語のコスト値が特定の値Xである場合には、認識処理
1で認識した単語が未知語であるとみなし、未知語であ
ることを出力するか、あるいは特願平3ー196509
に提案されている未知語処理などを行い出力する単語を
決定してもよい。
【0017】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、参照単語の文字タイプを単語辞書の文字タイプ
と同じものに変更してから単語辞書を検索し、得られた
候補単語に対するコスト値を算出する際に、候補単語の
文字を距離の小さいほうの文字タイプに変更しておき、
コスト値が最小の候補単語を出力することにより、単語
辞書と異なる文字タイプの単語の認識結果に対しても、
誤認識を修正することができる。
よれば、参照単語の文字タイプを単語辞書の文字タイプ
と同じものに変更してから単語辞書を検索し、得られた
候補単語に対するコスト値を算出する際に、候補単語の
文字を距離の小さいほうの文字タイプに変更しておき、
コスト値が最小の候補単語を出力することにより、単語
辞書と異なる文字タイプの単語の認識結果に対しても、
誤認識を修正することができる。
【図1】本発明の実施例に係る文字認識結果の後処理方
法を示す流れ図である。
法を示す流れ図である。
【図2】単語の認識結果の一例を示す図である。
【図3】候補単語作成の実行例を示す図である。
【図4】コスト値の計算例を示す図である。
【図5】図1のコスト値算出処理6の詳細内容を示す流
れ図である。
れ図である。
1 認識処理 2 参照単語作成処理 3 大文字変換処理 4 候補単語作成処理 5 単語辞書 6 コスト算出 7 結果出力
Claims (1)
- 【請求項1】 文字認識結果をあらかじめ準備した単語
辞書を参照しながら修正を行って出力する文字認識結果
の後処理方法において、(a)文字認識結果である候補
文字及び該候補文字と文字パターンとの距離をもとに、
最も距離の小さい第1候補文字を並べた参照単語を作成
し、(b)該参照単語の文字タイプを辞書中の文字タイ
プに合わせて変更し、(c)該変更した参照単語と同じ
長さで一致する文字数が最も多い単語を単語辞書の中か
ら検索し候補単語として取り出し、(d)該候補単語つ
いて各候補単語の文字ごとの距離の合計であるコスト値
を算出し、(e)前記コスト値算出時に文字タイプの異
なる同じ文字が候補文字に存在したときは、距離の小さ
いほうの文字タイプの候補文字を選択し、該距離をコス
ト値算出に用い、コスト値算出に用いた候補文字を候補
単語の文字と入れ換え、(f)コスト値が最小である候
補単語を選択して出力することを特徴とする文字認識結
果の後処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4043238A JP2875678B2 (ja) | 1992-02-28 | 1992-02-28 | 文字認識結果の後処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4043238A JP2875678B2 (ja) | 1992-02-28 | 1992-02-28 | 文字認識結果の後処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05242304A JPH05242304A (ja) | 1993-09-21 |
JP2875678B2 true JP2875678B2 (ja) | 1999-03-31 |
Family
ID=12658324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4043238A Expired - Lifetime JP2875678B2 (ja) | 1992-02-28 | 1992-02-28 | 文字認識結果の後処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2875678B2 (ja) |
-
1992
- 1992-02-28 JP JP4043238A patent/JP2875678B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH05242304A (ja) | 1993-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lehal et al. | A shape based post processor for Gurmukhi OCR | |
JP2945454B2 (ja) | パターン識別方法 | |
JP2875678B2 (ja) | 文字認識結果の後処理方法 | |
JP3659688B2 (ja) | 文字認識装置 | |
JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
JPH06259595A (ja) | 文字認識処理装置及び認識処理方法 | |
JP4143148B2 (ja) | 文字認識装置 | |
JPH02171876A (ja) | パターン認識処理方式 | |
JP2930996B2 (ja) | 画像認識方法および画像認識装置 | |
JP2639314B2 (ja) | 文字認識方式 | |
JPH05298489A (ja) | 文字認識方式 | |
JPH07114622A (ja) | 文字認識装置の後処理方法 | |
JP2851865B2 (ja) | 文字認識装置 | |
JPS646514B2 (ja) | ||
JPS60138689A (ja) | 文字認識方法 | |
JPH0540854A (ja) | 文字認識結果の後処理方法 | |
JPH09237322A (ja) | 認識装置の候補修正方式 | |
JPH0291785A (ja) | 画像認識方法及び装置 | |
JPH03161890A (ja) | 文字認識装置 | |
JPH0258187A (ja) | 文字認識装置 | |
JPH07141370A (ja) | 英語形態素解析装置 | |
JPS63208182A (ja) | パタ−ン認識装置 | |
JPH0391094A (ja) | 文字認識装置 | |
JPH0652367A (ja) | 文字認識結果の後処理方法 | |
JPS6344287A (ja) | 文字読取装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19990105 |