JPH0540854A - 文字認識結果の後処理方法 - Google Patents

文字認識結果の後処理方法

Info

Publication number
JPH0540854A
JPH0540854A JP3196509A JP19650991A JPH0540854A JP H0540854 A JPH0540854 A JP H0540854A JP 3196509 A JP3196509 A JP 3196509A JP 19650991 A JP19650991 A JP 19650991A JP H0540854 A JPH0540854 A JP H0540854A
Authority
JP
Japan
Prior art keywords
word
candidate
characters
character
cost value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3196509A
Other languages
English (en)
Inventor
Akitoshi Tsukamoto
明利 塚本
Sadamasa Hirogaki
節正 広垣
Naohiro Amamoto
直弘 天本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3196509A priority Critical patent/JPH0540854A/ja
Publication of JPH0540854A publication Critical patent/JPH0540854A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 認識の過程において認識可能かどうかの判定
を不要にし、かつ、複数のリジェクト文字が近接してい
る場合においても正しい単語を出力する。 【構成】 ステップ1において文字認識結果である候補
文字及びその候補文字と文字パターンとの類似度を現す
距離をもとに、最も距離の小さい第1候補文字を並べた
参照単語を作成する。次に、ステップ2において単語辞
書を検索して、参照単語と同じ長さで一致する文字数が
最も多い単語を候補単語として取り出す。次に、ステッ
プ3において候補文字から候補単語を作成した後、距離
の合計であるコスト値を算出する。そして、ステップ4
においてコスト値が最小である単語を選択して出力す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学的に読み取った文
字を認識して出力する装置に関し、特に認識結果に誤り
が存在した場合に、これを自動的に修正して出力する文
字認識結果の後処理方法に関するものである。
【0002】
【従来の技術】従来、この分野の技術としては、例え
ば、特開平2−267670に示されるものがあった。
上記文献に開示された技術は、単語中に認識不能文字
(リジェクト文字)が存在した場合、このリジェクト文
字の前後の文字、前後の文字配列及び位置に基づいて文
字テーブルから自動的に候補文字を呼出し、これをリジ
ェクト文字に置き換えた単語について検索を行うことに
より、文字認識結果の修正を行うものであった。
【0003】
【発明が解決しようとする課題】しかしながら、上記の
方法では、認識の過程において認識不能かどうかを判定
することが必要であり、また単語中に複数のリジェクト
文字が存在した場合、それらの位置が近接していると候
補文字を検索することができないという問題点があっ
た。
【0004】本発明は、前記問題点を解決して、認識の
過程において認識不能かどうかの判定が不要であり、か
つ、複数のリジェクト文字が近接している場合において
も候補文字の検索を可能にした文字認識結果の後処理方
法を提供することを目的とする。
【0005】
【課題を解決するための手段】前記問題点を解決するた
めに、本発明は、文字認識結果をあらかじめ準備した単
語辞書を参照しながら修正を行って出力する文字認識結
果の後処理方法において、文字認識結果である候補文字
及びその候補文字と文字パターンとの距離をもとに、最
も距離の小さい第1候補文字を並べた参照単語を作成
し、単語辞書を検索して参照単語と同じ長さで一致する
文字数が最も多い単語を候補単語として取り出し、候補
文字から候補単語を作成した後、距離の合計であるコス
ト値を算出し、コスト値が最小である単語を選択して出
力するものである。
【0006】
【作用】本発明によれば、以上のように文字認識結果の
後処理方法を構成したので、文字認識結果である候補文
字及びその候補文字と文字パターンとの距離をもとに、
最も距離の小さい第1候補文字を並べた参照単語を作成
し、単語辞書を検索して参照単語と同じ長さで一致する
文字数が最も多い単語を候補単語として取り出し、候補
文字から候補単語を作成した後、距離の合計であるコス
ト値を算出し、参照単語または候補単語の中からコスト
値が最小である単語を選択して出力する。したがって、
認識の過程において認識不能かどうかの判定を行うこと
なく、複数のリジェクト文字が近接している場合におい
ても候補文字の検索が行われる。
【0007】
【実施例】以下、本発明の実施例について図面を参照し
ながら詳細に説明する。図1は本発明の実施例に係る文
字認識結果の後処理方法を示す流れ図、図2は本発明の
実施例に係る文字認識結果の後処理方法を実施する文字
認識装置を示すブロック図、図3は本発明の実施例にお
ける候補文字と距離の一例を示す図、図4は本発明の実
施例における候補単語作成処理を示すフローチャート、
図5は本発明の実施例における候補単語作成処理の説明
図、図6は本発明の実施例におけるコスト値算出の一例
を示す図である。
【0008】図2において、11は装置全体を制御する
CPU、12は文書上の単語を読取る文書読取り手段、
13は読取った文字を認識し、認識結果として候補文字
とその距離を出力する文字認識手段、14は認識結果で
ある候補文字とその候補文字と文字パターンとの類似度
を表す距離を記憶する認識結果記憶手段、15は距離が
最小の候補文字を組合わせて参照単語を作成する参照単
語作成手段、16は単語辞書、17は単語辞書を検索し
て候補単語を作成する候補単語検索手段、18は候補単
語のコスト値を算出するコスト値算出手段、19は未知
語判定手段、20は出力単語決定手段、21は決定され
た出力単語の表示等を行う結果表示・出力手段である。
【0009】以下、図1〜図6を参照しながら本発明の
実施例に係る文字認識結果の後処理方法の処理動作を説
明する。 (1)参照単語作成(ステップ1) まず、参照単語の作成の前に、文書読取り手段12によ
り文書を読取り、文字認識手段13により、読取った単
語の各文字を認識して候補文字を作成するとともに、候
補文字と文字パターンとの類似度を表す距離を計算し、
候補文字と距離を認識結果記憶手段14に記憶してお
く。
【0010】文字パターンが「world」で、各文字
に対する候補単語と距離が図3に示すように計算された
場合、参照単語作成手段15において、認識結果記憶手
段14に記憶されている各文字に対する距離が最小の候
補文字を組合わせることにより、参照単語として「w
o’12」が作成される。 (2)候補単語作成(ステップ2) 次に、候補単語検索手段17が単語辞書16を用いて参
照単語に最も近い「候補単語」を作成する。
【0011】まず、図4のステップ31において単語辞
書16を検索し、参照単語と同じ長さの単語があるかど
うか判定する。同じ長さの単語がある場合には、ステッ
プ32において検索の結果得られた単語と参照単語との
一致文字数を算出する。次に、ステップ33においてこ
の一致文字数とそれまでの候補単語の一致文字数とを比
較する。そして、一致文字数が増加している時には、ス
テップ34においてそれまでの候補単語を削除して検索
結果の単語を新規に候補単語として登録する。また、一
致文字数が同じ時には、ステップ35において検索結果
の単語を候補単語に追加する。
【0012】図5に示した例の場合では、参照単語「w
o’12」と最も多くの文字が一致する単語「worl
d」及び「would」が候補単語として登録される。
次に、各文字パターンに対する候補文字を組み合わせ
て、各候補単語の作成を試みる。 (3)コスト値算出(ステップ3) 候補文字から候補単語が作成できた場合には、コスト値
算出手段18によりその際に使用する候補文字の距離の
和を、その候補単語に対するコスト値として算出する。
【0013】(4)出力単語決定(ステップ4) 出力単語決定手段20が最もコスト値が小さい候補単語
を出力単語として選択する。図6の例の場合には、候補
単語「world」のコスト値は375である。また、
候補単語「would」のコスト値は420である。こ
の結果、最もコスト値の小さい候補単語「world」
が選択される。そして、選択された単語が文字認識の後
処理の結果として、結果表示・出力手段21から出力さ
れる。
【0014】次に、候補単語作成時にすべての候補単語
が候補文字から作成できない場合の処理について説明す
る。例えば、元の文字パターンが「UN」で、文字認識
の結果「U」に対する候補文字として距離の小さい順に
「U」,「V」,「J」が作成され、「N」に対する候
補文字として同様に「N」,「H」が作成された場合、
参照単語は「UN」になる。このとき、単語辞書から得
られた候補単語が「AN」,「IN」,「ON」であっ
た場合(「UN」は辞書に記載されていなかったものと
仮定)、「A」,「I」,「O」は候補文字にないた
め、すべての候補単語が候補文字から作成することがで
きない。このような時は、元の文字が未知語であるかど
うかを判定するために、未知語判定手段19により次の
条件を調べる。 1.一致文字数が単語の長さの半分未満。 2.一致しなかった文字数が5以上ある。 3.候補単語が5個以上ある。
【0015】このどれかの条件が真の時は、処理対象の
単語は未知語であると判定し、参照単語を処理結果とし
て出力する。また、これ以外の時は未知語でないと判断
するが、候補単語が1つの時はその候補単語を、そうで
ない時は参照単語を出力する。以上、本発明の実施例を
英単語の場合について説明したが、辞書の内容を変える
ことにより、本発明は他の言語に対しても実施すること
が可能である。
【0016】また、本発明は上記実施例に限定されるも
のではなく、本発明の趣旨に基づき種々の変形が可能で
あり、それらを本発明の範囲から排除するものではな
い。
【0017】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、文字認識結果をもとに、最も距離の小さい第1
候補文字を並べた参照単語を作成し、単語辞書を検索し
て参照単語と同じ長さで一致する文字数が最も多い単語
を候補単語として取り出し、候補文字から候補単語を作
成した後、距離の合計であるコスト値を算出し、コスト
値が最小である単語を選択して出力するので、認識の過
程において認識不能かどうかの判定が不要になり、か
つ、複数のリジェクト文字が近接している場合において
も候補文字の検索が可能になる。
【図面の簡単な説明】
【図1】本発明の実施例に係る文字認識結果の後処理方
法を示す流れ図である。
【図2】本発明の実施例に係る文字認識結果の後処理方
法を実施する文字認識装置を示すブロック図である。
【図3】本発明の実施例における候補文字と距離の一例
を示す図である。
【図4】本発明の実施例における候補単語作成処理を示
すフローチャートである。
【図5】本発明の実施例における候補単語作成処理の説
明図である。
【図6】本発明の実施例におけるコスト値算出の一例を
示す図である。
【符号の説明】
1 参照単語作成 2 候補単語作成 3 コスト値算出 4 出力単語決定

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 文字認識結果をあらかじめ準備した単語
    辞書を参照しながら修正を行って出力する文字認識結果
    の後処理方法において、 (a)文字認識結果である候補文字及び該候補文字と文
    字パターンとの距離をもとに、最も距離の小さい第1候
    補文字を並べた参照単語を作成し、 (b)前記単語辞書を検索して前記参照単語と同じ長さ
    で一致する文字数が最も多い単語を候補単語として取り
    出し、 (c)前記候補文字から該候補単語を作成した後、前記
    距離の合計であるコスト値を算出し、 (d)該コスト値が最小である単語を選択して出力する
    ことを特徴とする文字認識結果の後処理方法。
  2. 【請求項2】 すべての候補単語が候補文字から作成で
    きない時に、未知語かどうかを判定し、未知語である場
    合には参照単語を出力し、そうでない場合には候補単語
    の数に応じて参照単語または候補単語を出力する処理を
    付加した請求項1記載の文字認識結果の後処理方法。
JP3196509A 1991-08-06 1991-08-06 文字認識結果の後処理方法 Pending JPH0540854A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3196509A JPH0540854A (ja) 1991-08-06 1991-08-06 文字認識結果の後処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3196509A JPH0540854A (ja) 1991-08-06 1991-08-06 文字認識結果の後処理方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP9339611A Division JP3071745B2 (ja) 1997-12-10 1997-12-10 文字認識結果の後処理方法

Publications (1)

Publication Number Publication Date
JPH0540854A true JPH0540854A (ja) 1993-02-19

Family

ID=16358938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3196509A Pending JPH0540854A (ja) 1991-08-06 1991-08-06 文字認識結果の後処理方法

Country Status (1)

Country Link
JP (1) JPH0540854A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138435A (ja) * 2009-12-29 2011-07-14 Omron Corp 単語認識方法および単語認識用のプログラムならびに情報処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0296886A (ja) * 1988-10-03 1990-04-09 Ricoh Co Ltd 誤認識修正方法および誤認識修正装置
JPH0373086A (ja) * 1989-04-14 1991-03-28 Nippon Telegr & Teleph Corp <Ntt> 文字認識後処理方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0296886A (ja) * 1988-10-03 1990-04-09 Ricoh Co Ltd 誤認識修正方法および誤認識修正装置
JPH0373086A (ja) * 1989-04-14 1991-03-28 Nippon Telegr & Teleph Corp <Ntt> 文字認識後処理方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138435A (ja) * 2009-12-29 2011-07-14 Omron Corp 単語認識方法および単語認識用のプログラムならびに情報処理装置

Similar Documents

Publication Publication Date Title
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
JPH01250184A (ja) 文字認識方法及び文字の回転角度判定方法
JP3071745B2 (ja) 文字認識結果の後処理方法
JPH0540854A (ja) 文字認識結果の後処理方法
JPH06215184A (ja) 抽出領域のラベリング装置
JP2998054B2 (ja) 文字認識方法及び文字認識装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2918380B2 (ja) 文字認識結果の後処理方法
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JPH0540853A (ja) 文字認識結果の後処理方式
JP3159745B2 (ja) 文字認識方法及びその装置
JP2875678B2 (ja) 文字認識結果の後処理方法
JPS646514B2 (ja)
JPH06325213A (ja) 文字認識方法及び文字認識装置
JPH05298493A (ja) 文字認識結果の後処理方法
JPH10261049A (ja) 文字認識装置
JPS60138689A (ja) 文字認識方法
JP3476872B2 (ja) 文字認識装置
JPH1069494A (ja) 画像検索方法とその装置
CN112069838A (zh) 翻译质量的评估方法、翻译检查方法及装置
JPH0757059A (ja) 文字認識装置
JPH06309507A (ja) 文字認識装置
JP2004348584A (ja) 単語分割のための方法、装置、記憶媒体およびプログラム
JPH04111186A (ja) 住所文字列に対する文字認識結果修正方法
JP2007257249A (ja) 文字認識方法及びその装置及びそのプログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19980519