JP2918380B2 - 文字認識結果の後処理方法 - Google Patents

文字認識結果の後処理方法

Info

Publication number
JP2918380B2
JP2918380B2 JP4013104A JP1310492A JP2918380B2 JP 2918380 B2 JP2918380 B2 JP 2918380B2 JP 4013104 A JP4013104 A JP 4013104A JP 1310492 A JP1310492 A JP 1310492A JP 2918380 B2 JP2918380 B2 JP 2918380B2
Authority
JP
Japan
Prior art keywords
word
candidate
characters
character
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4013104A
Other languages
English (en)
Other versions
JPH05205108A (ja
Inventor
明利 塚本
節正 広垣
直弘 天本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP4013104A priority Critical patent/JP2918380B2/ja
Publication of JPH05205108A publication Critical patent/JPH05205108A/ja
Application granted granted Critical
Publication of JP2918380B2 publication Critical patent/JP2918380B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学的に読み取った文
字を認識して出力する装置に関し、特に認識結果に誤り
が存在した場合に、これを自動的に修正して出力する文
字認識結果の後処理方法に関するものである。
【0002】
【従来の技術】従来、この分野の技術としては、例え
ば、特開平2ー267670に示されるものがあった。
上記文献に開示された技術は、単語中に認識不能文字
(リジェクト文字)が存在した場合、このリジェクト文
字の前後の文字、前後の文字配列及び位置に基づいて文
字テーブルから自動的に候補文字を呼出し、これをリジ
ェクト文字に置き換えた単語について検索を行うことに
より、文字認識結果の修正を行うものであった。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
文字認識結果の修正方法では、次のような課題があっ
た。
【0004】(a)従来の文字認識結果の修正方法で
は、認識の過程において認識不能かどうかを判定するこ
とが必要であり、また単語中に複数のリジェクト文字が
存在した場合、それらの位置が近接していると候補文字
を検索することができないという問題点があった。
【0005】(b)前記(a)の問題点を解決するため
に、本願出願人は、先に特願平01ー196509号明
細書において文字認識結果の後処理方法を提案した。こ
の提案では、文字認識結果をあらかじめ準備した単語辞
書を参照しながら修正を行って出力する文字認識結果の
後処理方法において、文字認識結果である候補文字及び
該候補文字と文字パターンとの距離をもとに、最も距離
の小さい第1候補文字を並べた参照単語を作成し、前記
単語辞書を検索して前記参照単語と同じ長さで一致する
文字数が最も多い単語を候補単語として取り出し、前記
候補文字から候補単語を作成した後、前記距離の合計で
あるコスト値を算出し、該コスト値が最小である単語を
選択して出力するというものであった。
【0006】ところが、この方法では、参照単語と同じ
長さの辞書中の単語から候補単語を検索しているため、
単語の前後に括弧やピリオドなどの特殊記号が付加して
いるときに、文字認識結果、特殊記号が参照単語に含ま
れ、文字数が増加するため正しい単語が候補単語に含ま
れなくなるという問題点があった。
【0007】本発明は、前記従来技術が持っていた課題
として、認識結果の単語の先頭・末尾に特殊記号が含ま
れる場合に、正しい単語が候補単語に含まれず、認識結
果に誤りが存在した場合に、これを自動的に修正するこ
とができないという点について解決した文字認識結果の
後処理方法を提供するものである。
【0008】
【課題を解決するための手段】文字認識結果を予め準備
した単語辞書を参照しながら修正を行って出力する文字
認識結果の後処理方法において、文字認識結果である候
補文字及び該候補文字と文字パターンとの距離をもと
に、最も距離の小さい第1候補文字を並べた参照単語A
を作成する第1の処理と、単語辞書を検索して参照単語
Aと同じ文字数で、かつ、参照単語Aの各文字位置に存
在する文字と一致する文字を含む単語のうち一致する文
字数が最も多い単語をすべて取り出し候補単語Aとする
第2の処理と、参照単語Aの先頭または末尾が特殊記号
であるときに、該特殊記号を一文字削除して参照単語B
とする第3の処理と、単語辞書を検索して参照単語Bと
同じ文字数で、かつ、参照単語Bの各文字位置に存在す
る文字と一致する文字を含む単語のうち一致する文字数
が最も多い単語をすべて取り出す第4の処理と、第3の
処理において削除した先頭または末尾の特殊記号を第4
の処理で取り出した各単語の同じ位置に付加したものを
候補単語Bとする第5の処理と、候補単語Bの各候補単
語につき、第3の処理で特殊文字を削除する前の参照単
語Aの各文字位置に存在する文字と一致する文字数を検
出する第6の処理と、候補単語Bの一致文字数と、候補
単語Aの一致文字数を比較し、一致文字数が等しい場合
には候補単語Aに候補単語Bを追加し、候補単語Bの一
致文字数が多い場合には候補単語Aを候補単語Bと置き
換え、改めて候補単語Aとする第7の処理と、参照単語
Bの先頭または末尾がさらに特殊記号であるときに、参
照単語Bを改めて参照単語Aとみなして第3から第4の
処理を行い、第4の処理で取り出したすべての単語に前
記第3の処理で削除したすべての特殊記号を付加したも
のを候補単語Cとし、元の参照単語Aの各文字位置に存
在する文字と一致する文字数を検出する第8の処理と、
候補単語Cの一致文字数と、候補単語Aの一致文字数を
比較し、一致文字数が等しい場合には候補単語Aに候補
単語Cを追加し、候補単語Cの一致文字数が多い場合に
は候補単語Aを候補単語Cと置き換え、改めて候補単語
Aとする第9の処理と、第8の処理と第9の処理を、第
3の処理によって得られる参照単語Bの先頭または末尾
が特殊記号である間繰り返し行う第10の処理と、候補
単語Aのすべての単語について距離の合計であるコスト
値を算出し、該コスト値が最小である単語を選択して出
力する第11の処理とを、実行して文字認識結果を修正
し出力するものである。
【0009】
【作用】本発明によれば、以上のように文字認識結果の
後処理方法を構成したので、まず、文字認識結果である
候補文字及び該候補文字と文字パターンとの距離をもと
に、最も距離の小さい第1候補文字を並べた参照単語を
作成する。該参照単語の先頭と末尾の部分に特殊記号が
付加されている場合には、該特殊記号を削除した参照単
語を新たに参照単語とし、該参照単語を単語辞書で検索
し、候補単語とする。したがって、先頭・末尾に特殊記
号が含まれている単語の認識結果に誤りが生じた場合に
も、自動的に修正することが可能になり、前記課題を解
決できるのである。
【0010】
【実施例】以下、本発明の実施例について図面を参照し
ながら詳細に説明する。図1は本発明の実施例に係る文
字認識結果の後処理方法を示す流れ図、図2は単語の認
識結果を示す一例、図3は単語辞書の一例、図4は図1
のステップS3の候補単語作成処理の詳細内容を示す流
れ図である。
【0011】まず図1のステップS1において、認識し
た単語の各文字の第1位認識候補文字を並べた参照単語
を作成する。図2は認識した単語がsystemである
場合の例を示しており、各文字に対する候補文字と、該
候補文字と文字パターンとの近さを表す距離が与えられ
ている。この場合、参照単語はsystcn,となる。
図1のステップS2において、参照単語と候補単語の一
致する文字数を計数するための一致文字数カウンタを0
に初期化する。ステップS3で候補単語作成処理を実行
する。
【0012】候補単語作成処理の詳細内容は図4に示す
ように、まずステップS6で参照単語の先頭文字が特殊
記号かどうかを判定する。特殊記号でない場合は、ステ
ップS14に進み、次に参照単語の末尾に特殊記号があ
るかどうかを判定する。ステップS6で参照単語の先頭
文字が特殊記号である場合は、ステップS7で該先頭文
字をバッファbufに退避し、ステップS8で参照単語
の先頭文字を削除した後、ステップS9で候補単語作成
処理を再帰的に実行する。ステップS10でこの結果得
られた候補単語の先頭に、バッファbufに退避させて
おいた特殊記号を付加する。
【0013】ステップS11で、それまでの一致文字数
と新たに作成した候補単語の一致文字数を比較する。該
一致文字数が等しい場合には、ステップS12におい
て、新しい候補単語をそれまでの候補単語に追加し、一
致文字数が増加した場合は、ステップS13において、
以前の候補単語を消去し、新しい候補単語だけを記憶す
る。一致文字数が減少した場合は、ステップS14に進
む。
【0014】ステップS14において、参照単語の末尾
の文字が特殊記号かどうかを判定し、特殊記号でない場
合は、ステップS22に進む。参照単語の末尾文字が特
殊記号である場合は、ステップS15で該末尾文字をバ
ッファbufに退避し、ステップS16で参照単語の末
尾文字を削除した後、ステップS17で候補単語作成処
理を再帰的に実行する。ステップS18でこの結果得ら
れた候補単語の末尾に、バッファbufに退避させてお
いた特殊記号を付加する。
【0015】ステップS19で、それまでの一致文字数
と新たに作成した候補単語の一致文字数を比較する。該
一致文字数が等しい場合には、ステップS20におい
て、新しい候補単語をそれまでの候補単語に追加し、一
致文字数が増加した場合は、ステップS21において、
以前の候補単語を消去し、新しい候補単語だけを記憶す
る。一致文字数が減少した場合は、ステップS22に進
む。
【0016】ステップS22において、単語辞書から参
照単語と同じ長さで、かつ一致する文字数が最大の単語
を検索し新しい候補単語とする。ステップS23で、新
しい候補単語の一致文字数を以前の一致文字数と比較す
る。該一致文字数が等しい場合には、ステップS24に
おいて、新しい候補単語をそれまでの候補単語に追加
し、一致文字数が増加した場合は、ステップS25にお
いて、以前の候補単語を消去し、新しい候補単語だけを
記憶する。一致文字数が減少した場合は、処理を終了す
る。
【0017】図2の例の場合、参照単語はsystc
n,であり、末尾文字が,の特殊記号であるので、該特
殊記号,を削除したsystcnが改めて参照単語とな
る。該参照単語のsystcnと同じ文字数で、かつ、
参照単語のsystcnの各文字位置に存在する文字と
一致数する文字を含む単語のうち一致する文字数が最も
多い単語を図3の辞書から検索し、単語systemお
よびsysterを得る。一致文字数は、sとyとsと
tの4である。該単語に削除した,の特殊記号を付加し
たsystem,およびsyster,が候補単語とな
る。該候補単語と参照単語systcn,との一致文字
数はsとyとsとtと,の5となる。S19で一致文字
数4のsystemおよびsysterと一致文字数5
のsystem,およびsyster,を比較し、一致
文字数が増加しているのでsystem,およびsys
ter,が新しい候補単語となる。
【0018】また、元の参照単語systcn,に対し
ては、図3の辞書からsystemsおよびsyste
rsが候補単語として得られるが、該候補単語と参照単
systcn,との一致文字数はsとyとsとtの
であるので、前記候補単語system,およびsys
ter,が候補単語となる。
【0019】次に、図1のステップS4において、前記
ステップS3の候補単語作成処理で得られた各候補単語
について、該各候補単語を候補文字から作成したときに
使用した候補文字の距離の和であるコスト値を算出す
る。ステップS5において、候補単語のうち最もコスト
値が小さい候補単語を出力単語として選択する。図2の
例の場合には、候補単語system,に対するコスト
値は550、またsyster,に対するコスト値は文
字rが候補文字に含まれていないので算出不能である。
従って、出力単語としてsystem,を選択する。
【0020】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、単語の先頭・末尾に特殊記号が付加されている
場合においても、それらを削除したものに対して辞書検
索の処理を行うことにより、単語に特殊記号が付加され
ている単語の認識結果に対しても、誤認識を修正するこ
とができる。
【図面の簡単な説明】
【図1】本発明の実施例に係る文字認識結果の後処理方
法を示す流れ図である。
【図2】単語の認識結果の一例を示す図である。
【図3】単語辞書の一例を示す図である。
【図4】図1のステップS3の候補単語作成処理の詳細
内容を示す流れ図である。
【符号の説明】
S1 参照単語作成処理 S2 一致文字数の初期化処理 S3 候補単語作成処理 S4 コスト値算出処理 S5 出力単語決定処理
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭63−103393(JP,A) 特開 平2−21387(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06K 9/72

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 文字認識結果を予め準備した単語辞書を
    参照しながら修正を行って出力する文字認識結果の後処
    理方法において、 文字認識結果である候補文字及び該候補文字と文字パタ
    ーンとの距離をもとに、最も距離の小さい第1候補文字
    を並べた参照単語Aを作成する第1の処理と、 前記単語辞書を検索して前記参照単語Aと同じ文字数
    で、かつ、前記参照単語Aの各文字位置に存在する文字
    と一致する文字を含む単語のうち一致する文字数が最も
    多い単語をすべて取り出し候補単語Aとする第2の処理
    と、 前記参照単語Aの先頭または末尾が特殊記号であるとき
    に、該特殊記号を一文字削除して参照単語Bとする第3
    の処理と、 前記単語辞書を検索して前記参照単語Bと同じ文字数
    で、かつ、前記参照単語Bの各文字位置に存在する文字
    と一致する文字を含む単語のうち一致する文字数が最も
    多い単語をすべて取り出す第4の処理と、 第3の処理において削除した先頭または末尾の前記特殊
    記号を前記第4の処理で取り出した各単語の同じ位置に
    付加したものを候補単語Bとする第5の処理と、 前記候補単語Bの各候補単語につき、前記第3の処理で
    特殊文字を削除する前の前記参照単語Aの各文字位置に
    存在する文字と一致する文字数を検出する第6の処理
    と、 前記候補単語Bの一致文字数と、前記候補単語Aの一致
    文字数を比較し、一致文字数が等しい場合には前記候補
    単語Aに前記候補単語Bを追加し、前記候補単語Bの一
    致文字数が多い場合には前記候補単語Aを前記候補単語
    Bと置き換え、改めて候補単語Aとする第7の処理と、 前記参照単語Bの先頭または末尾がさらに特殊記号であ
    るときに、前記参照単語Bを改めて参照単語Aとみなし
    て前記第3から第4の処理を行い、前記第4の処理で取
    り出したすべての単語に前記第3の処理で削除したすべ
    ての特殊記号を付加したものを候補単語Cとし、元の参
    照単語Aの各文字位置に存在する文字と一致する文字数
    を検出する第8の処理と、 前記候補単語Cの一致文字数と、前記候補単語Aの一致
    文字数を比較し、一致 文字数が等しい場合には前記候補
    単語Aに前記候補単語Cを追加し、前記候補単語Cの一
    致文字数が多い場合には前記候補単語Aを前記候補単語
    Cと置き換え、改めて候補単語Aとする第9の処理と、 前記第8の処理と前記第9の処理を、前記第3の処理に
    よって得られる前記参照単語Bの先頭または末尾が特殊
    記号である間繰り返し行う第10の処理と、 前記候補単語Aのすべての単語について前記距離の合計
    であるコスト値を算出し、該コスト値が最小である単語
    を選択して出力する第11の処理とを、 実行して文字認識結果を修正し出力することを特徴とす
    る文字認識結果の後処理方法。
JP4013104A 1992-01-28 1992-01-28 文字認識結果の後処理方法 Expired - Lifetime JP2918380B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4013104A JP2918380B2 (ja) 1992-01-28 1992-01-28 文字認識結果の後処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4013104A JP2918380B2 (ja) 1992-01-28 1992-01-28 文字認識結果の後処理方法

Publications (2)

Publication Number Publication Date
JPH05205108A JPH05205108A (ja) 1993-08-13
JP2918380B2 true JP2918380B2 (ja) 1999-07-12

Family

ID=11823847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4013104A Expired - Lifetime JP2918380B2 (ja) 1992-01-28 1992-01-28 文字認識結果の後処理方法

Country Status (1)

Country Link
JP (1) JP2918380B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5372110B2 (ja) 2011-10-28 2013-12-18 シャープ株式会社 情報出力装置、情報出力方法、及びコンピュータプログラム

Also Published As

Publication number Publication date
JPH05205108A (ja) 1993-08-13

Similar Documents

Publication Publication Date Title
JPH06266900A (ja) 連続パターンからパターン群を認識する方法およびパターン認識装置
JP2918380B2 (ja) 文字認識結果の後処理方法
JP2000089786A (ja) 音声認識結果の修正方法および装置
JP2998054B2 (ja) 文字認識方法及び文字認識装置
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
JPH06215184A (ja) 抽出領域のラベリング装置
JP3071745B2 (ja) 文字認識結果の後処理方法
JP3188154B2 (ja) 文字認識処理方法
JP2894305B2 (ja) 認識装置の候補修正方式
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2982244B2 (ja) 文字認識後処理方式
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JPS646514B2 (ja)
JPH0540854A (ja) 文字認識結果の後処理方法
JP2969751B2 (ja) 文字認識処理方式
JP2746345B2 (ja) 文字認識の後処理方法
JPH0540853A (ja) 文字認識結果の後処理方式
JP2002014981A (ja) 文書ファイリング装置
JPH1069494A (ja) 画像検索方法とその装置
JP2839515B2 (ja) 文字読取システム
KR100957416B1 (ko) 동의어를 이용한 검색 서비스 제공 방법 및 시스템
JP3725206B2 (ja) 文字認識装置
JP3387582B2 (ja) 文字処理装置
JP2790064B2 (ja) 記号列読み取り装置
JP2935533B2 (ja) 文字処理方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990406