JP3101073B2 - 文字認識の後処理方法 - Google Patents

文字認識の後処理方法

Info

Publication number
JP3101073B2
JP3101073B2 JP04101818A JP10181892A JP3101073B2 JP 3101073 B2 JP3101073 B2 JP 3101073B2 JP 04101818 A JP04101818 A JP 04101818A JP 10181892 A JP10181892 A JP 10181892A JP 3101073 B2 JP3101073 B2 JP 3101073B2
Authority
JP
Japan
Prior art keywords
word
character
candidate
character data
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04101818A
Other languages
English (en)
Other versions
JPH05274483A (ja
Inventor
明利 塚本
節正 広垣
直弘 天本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP04101818A priority Critical patent/JP3101073B2/ja
Publication of JPH05274483A publication Critical patent/JPH05274483A/ja
Application granted granted Critical
Publication of JP3101073B2 publication Critical patent/JP3101073B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置により読
み取った文字を認識して出力した結果に誤りが存在した
場合にこれを自動的に修正する文字認識の後処理方法に
関するものである。
【0002】
【従来の技術】文字認識装置は、文書中に手書き等によ
り記載された各文字をそれぞれ別個のパターンとして認
識するものであるが、各文字は文書中の単語を構成して
いるため、単語中の1字又は2字程度の認識誤りは文字
認識の後処理を行なって修正することができる。従来の
文字認識の後処理方法は、次のようにして行なわれてい
た。即ち、まず、原文字パターンに対する候補文字と、
原文字パターンと各候補文字との形状の相異の度合いを
表わす「距離」を文字認識装置から受け取る。そして、
この「距離」が最も小さい値を取る「第1候補文字」を
並べた「参照単語」を作成する。次に、この参照単語と
同じ長さで、かつ最も多くの文字が一致する単語を単語
辞書から選び、これを「候補単語」として挙げる。そし
て、これらの候補単語を候補文字から作成するときに用
いる文字の距離の総和(「コスト値」)を求め、これが
最小となる単語を結果として出力する(例えば、特願平
3−196509号参照)。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た従来の技術には、次のような問題があった。即ち、文
字認識により読み取った結果に、画像入力時の汚れやち
りなどの「ゴミ」が文書に付着したまま入力され、これ
がそのまま文字として切り出されることがある。この場
合、文字認識装置で認識されて得られたデータにおいて
は実際の単語に比べてその単語の文字数が変化する。こ
の結果、違う文字数の単語が辞書から検索されて候補単
語に挙げられる。このため、正しい単語が候補単語に挙
げられないという問題がある。本発明は、以上の点に着
目してなされたもので、認識結果に「ゴミらしい」文字
が存在した場合には、それを削除する処理を行なうこと
により、文書の認識結果の自動修正処理を高速且つ高精
度で行なう文字認識の後処理方法を提供することを目的
とするものである。
【0004】
【課題を解決するための手段】本発明の文字認識の後処
理方法は、認識対象である文書中から切り出された任意
の単語中の各文字を、それぞれ文字データ辞書中の各文
字データと比較することにより、各文字データについて
前記切り出された任意の単語中の文字との近似する程度
を表わす距離を求め、当該距離が比較的小さい文字デー
タを前記切り出された任意の単語中の文字に対応する複
数又は単数の候補として挙げた文字認識の結果に対し、
前記文字認識の対象とした文書中に存在すると予測され
る単語を予め登録した単語辞書を用意し、まず、前記切
り出された任意の単語中の各文字に対応する複数の候補
の文字データのうち、前記距離が最小の文字データを第
1候補とし、前記距離が小さい順に順次第2、第3及び
それ以降の候補とし、当該第1候補とされた各文字デー
タを配列して構成した単語を、前記単語辞書を参照する
ための参照単語とし、当該参照単語を前記単語辞書中の
各登録単語と比較し、当該各登録単語のうち、その各文
字が前記参照単語中の各文字データと一致する数が最も
多い登録単語を候補単語として選択し、当該候補単語の
うち、各文字に対応する文字データのすべてが前記第1
候補から始まる複数の候補のいずれかに挙げられている
候補単語が存在するときは、当該候補単語中の各文字に
対応する文字データの前記距離の合計であるコスト値を
算出し、当該コスト値が最小の候補単語を出力する一
方、前記各文字に対応する文字データのすべてが前記複
数の候補のいずれかに挙げられている候補単語が1つも
ないこと及び前記コスト値が最小の候補単語が複数ある
ことのいずれかを判別したときには、次に、前記参照単
語中の第1候補とされた各文字データのうちの所定の文
字データを削除して削除された文字以外の各文字を再配
列することにより、前記参照単語を作成し直し、前記単
語辞書中の各登録単語からの候補単語の選択、当該選択
された各候補単語中の各文字に対応する文字データの距
離の合計であるコスト値の算出及び最終的な出力単語の
決定を行なうことを特徴とするものである。
【0005】
【作用】本発明の文字認識の後処理方法においては、認
識対象である文書中から切り出された任意の単語中の各
文字を、それぞれ文字データ辞書中の各文字データと比
較することにより、各文字データについて前記切り出さ
れた任意の単語中の文字との近似する程度を表わす距離
を求め、当該距離が比較的小さい文字データを前記切り
出された任意の単語中の文字に対応する複数又は単数の
候補として挙げた文字認識の結果に対し、前記文字認識
の対象とした文書中に存在すると予測される単語を予め
登録した単語辞書を用意しておき、以下の手順の処理を
行なう。まず、前記切り出された任意の単語中の各文字
に対応する複数の候補の文字データのうち、前記距離が
最小の文字データを第1候補とし、前記距離が小さい順
に順次第2、第3及びそれ以降の候補とする。そして、
当該第1候補とされた各文字データを配列して構成した
単語を、前記単語辞書を参照するための参照単語とす
る。続いて、当該参照単語を前記単語辞書中の各登録単
語と比較し、当該各登録単語のうち、その各文字が前記
参照単語中の各文字データと一致する数が最も多い登録
単語を候補単語として選択する。そして、当該候補単語
のうち、各文字に対応する文字データのすべてが前記第
1候補から始まる複数の候補のいずれかに挙げられてい
る候補単語が存在するときは、当該候補単語中の各文字
に対応する文字データの前記距離の合計であるコスト値
を算出し、当該コスト値が最小の候補単語を出力する。
一方、前記各文字に対応する文字データのすべてが前記
複数の候補のいずれかに挙げられている候補単語が1つ
もないこと及び前記コスト値が最小の候補単語が複数あ
ることのいずれかを判別したときには、次に、以下の処
理を行なう。まず、前記参照単語中の第1候補とされた
各文字データのうちの所定の文字データを削除する。そ
して、削除された文字以外の各文字を再配列することに
より、前記参照単語を作成し直す。その後、前記単語辞
書中の各登録単語からの候補単語の選択、当該選択され
た各候補単語中の各文字に対応する文字データの距離の
合計であるコスト値の算出及び最終的な出力単語の決定
を行なう。
【0006】
【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。図1は、本発明の文字認識の後処理方法を
適用した装置の一実施例のブロック図である。図示の文
字認識後処理装置10は、候補文字決定手段1と、参照
単語作成手段2と、候補単語選択手段3と、コスト値算
出手段4と、判別手段5と、削除手段6と、単語出力手
段7とから成る。
【0007】候補文字決定手段1は、文字認識装置12
により認識された文書13中の各文字について候補文字
を決定する。即ち、文字認識装置12は、文字データ辞
書14を備えており、文書13中の文字「t」等と、文
字データ辞書14中の文字データ「a」、「b」、その
他とを比較して距離を算出し、距離の比較的小さい文字
データ「t」、「c」等をいくつか挙げる。候補文字決
定手段1は、これらの文字データ「t」、「c」等のう
ち、距離の最小のものから順に第1候補「t」、第2候
補「c」というふうに順位を付ける。参照単語作成手段
2は、第1候補とされた各文字データを配列して参照単
語「traf|fic」を作成する。
【0008】候補単語選択手段3は、参照単語「tra
f|fic」を単語辞書11中の各登録単語「traf
fics」、「spacific」、「transmi
t」、「spaghetti」、「traffic」等
と比較する。そして、各登録単語のうち、その各文字が
参照単語「traf|fic」中の各文字データ
「t」、「r」、「a」、「f」、「|」、「f」、
「i」、「c」と一致する数が最も多い登録単語を候補
単語として選択する。図示の例では、同じ文字数の登録
単語のうち、対応する位置の文字「t,r,a,f」、
「a,f,i,c」、「t,r,a,i」が同じ登録単
語「traffics」、「spacific」、「t
ransmit」が選択される。この場合、一致文字数
は“4”である。
【0009】コスト値算出手段4は、候補単語のうち、
すべての文字が文字認識装置12による候補として挙げ
られているもののコスト値を算出する。図示の例では、
いずれの候補単語「traffics」、「spaci
fic」、「transmit」も候補でない文字を含
んでいる。従って、いずれの候補単語についても、コス
ト値の算出は不能である。判別手段5は、いずれの候補
単語についてもコスト値の算出が不能であることを判別
する。即ち、図示の例ような状態を判別する。また、判
別手段5は、最小のコスト値が複数算出され、いずれを
出力単語として決定することもできないことも判別す
る。
【0010】削除手段6は、参照単語「traf|fi
c」中の各文字データ「t」、「r」、「a」、
「f」、「|」、「f」、「i」、「c」のうち、「ゴ
ミ文字」と思われる文字データを削除する。図示の例で
は、文字データ「|」を削除する。「ゴミ文字」は、
「|」、「!」等の特殊文字あるいは第1候補として挙
げられていながら、距離が大きい文字とする。単語出力
手段7は、最終的にコスト値が最小の候補単語が唯一と
なったとき、この候補単語を出力単語としてディスプレ
イ15に表示する。図示の例では、「traffic」
が表示される。また、最終的にコスト値が最小の唯一の
候補単語が絞れなかったときは、参照単語そのものを出
力する。
【0011】図2は、本発明に係る文字認識手順を説明
するフローチャートである。まず、文書画像を入力する
(ステップS1)。入力に際してはスキャナなどの紙面
等の反射光を光電変換して読み取る装置や、あるいはフ
ァクシミリによって伝送されてくる画像データの受信装
置又はファイルに蓄積された画像データの読取装置など
が用いられる。入力された画像は、入力画像記憶装置に
記憶される(ステップS2)。次に、入力画像記憶装置
に記憶された入力画像より、文字行及び単語の位置を検
出して1単語ずつ抽出する。そして、抽出された単語か
ら1文字ずつ抽出を行なう。
【0012】次に、文字データ辞書14を参照しつつ、
切り出された各文字を認識する(ステップS4)。これ
により、切り出された文字データと文字データ辞書14
の文字データとの比較が行なわれる。この結果、抽出文
字データと文字データ辞書14の文字データの近似度
(「距離」)が得られる。そして、得られた距離データ
のうち、最小値をもつ文字を第1候補文字とし、この最
小距離の定数倍(2倍程度)以下の距離をもつ文字を第
2候補以降の候補文字とする。こうして得られた候補文
字及び距離データは距離の小さい順(候補順位の高い
順)に認識結果記憶装置に格納され(ステップS5)、
1つの単語について認識処理が終わる毎に、以降の認識
後修正処理(ステップS6)に引き渡される。
【0013】認識後修正処理では、単語辞書11を参照
しつつ、1つの単語についての認識後修正処理を行なう
(ステップS6)。そして、修正処理の結果、出力単語
が得られる(ステップS7)。この処理を文書13内の
すべての単語について行なうことにより、文書データの
認識結果が得られる。
【0014】図3は、本発明の動作内容を説明するフロ
ーチャートである。図3の処理では、認識結果格納装置
にある候補文字及び距離データが用いられる。また、予
め準備した単語辞書11が参照される。まず、単語内の
各文字に対する第1候補文字を並べることにより、参照
単語を作成する(ステップS11)。次に、単語辞書1
1を検索し、参照単語と同じ長さで、かつ最も多くの文
字が一致しているものを候補単語として挙げる(ステッ
プS12)。そして、得られた各候補単語について、コ
スト値を算出する(ステップS13)。ここでいうコス
ト値とは、従来例にあるように候補単語のすべての文字
がそれぞれの文字位置における候補文字に存在している
かどうかを判定した結果、存在している場合の各候補文
字の距離の和である。候補文字に存在しない文字が現わ
れている候補単語に対しては、コスト値は与えない。
【0015】次に、各候補単語に対して与えられたコス
ト値に基づき、どの候補単語を出力するかを判定する
(ステップS14)。判定方法の一例として、以下に説
明する方法で判定を行なうことができる。例えば、上記
コスト値が与えられた候補単語に対して、そのうち最も
小さいコスト値を与えられた候補単語の個数を調べ(ス
テップS14)、そのような候補単語がただ1つだけ存
在している場合には、その候補単語を出力する(ステッ
プS19)。
【0016】コスト値が最小の候補単語が複数存在する
場合及びコスト値が算出される候補単語が1つもない場
合は、候補単語内の各文字に対する候補文字の中に「ゴ
ミ文字」が含まれているかどうかを調べる(ステップS
15)。ここでいう「ゴミ文字」とは、画像入力時に、
いわゆる「ゴミ」などが文書に付着したまま入力され、
これがそのまま文字として切り出され、認識された結果
得られた候補文字である。このようなゴミ文字は、実際
の文書には存在しない(あるいは存在しても意味をなさ
ない)ものである。ゴミ文字としては、認識結果の距離
が比較的大きいものや、特定の特殊文字(「|」や
「!」など)とするのが適当である。候補文字の中にこ
のようなゴミ文字が含まれている場合には、そのゴミ文
字が含まれている文字位置のすべての候補文字を削除
し、改めてこの後処理を再起的に行なう(ステップS1
7)。そして、得られた結果を出力する(ステップS1
8)。上記のいずれの条件も満たされない場合には、参
照単語を出力する(ステップS16)。
【0017】図4は、認識結果の候補文字・距離データ
の一例である。同図の入力単語欄は、入力画像において
記述されている文字である。その右側の欄には、それぞ
れの文字に対する認識結果の候補文字及び距離の値が候
補順位の順に記述されている。1つの単語についての認
識が終えられる毎に、認識結果記憶装置に記憶されてい
る図示のような認識結果が以降の修正処理に渡される。
【0018】図5は、図4の認識結果に対する修正処理
の説明図である。同図の入力単語欄に示すのは、入力画
像において記述されている単語である。次の参照単語欄
に示すのは、図3のステップS11において作成される
参照単語である。これは、上述の通りそれぞれの文字に
対する第1候補文字を並べたものである。次のコスト値
欄に示すのは、図3のステップS13において算出され
る各候補単語に対するコスト値である。但し、前述の通
り候補文字に存在しない文字が現われている候補単語に
対しては、コスト値欄がXとなっている。最後の出力単
語欄には、本実施例の修正が行なわれた結果として出力
される単語が示されている。
【0019】図5において、最初の入力単語「fas
t」に対する参照単語は図4より「fa5t」であり、
第3文字目の認識が誤っている。辞書検索の結果、この
単語に対する候補単語として図5に示すように「fas
t」及び「fact」が得られる。それぞれの候補単語
に対してコスト値を算出すると図4より候補単語「fa
st」に対しては“510 ”、「fact」に対しては
“530 ”である。従って、図3のステップS14の判定
によって、候補単語「fast」が出力される。
【0020】次に、入力単語「traffic」に対し
ては、図4の認識結果データである第1候補文字にある
ように、文字「ff」の間に「ゴミ文字」が付加してい
る。この場合、参照単語は「traf|fic」であ
り、辞書検索の結果、この単語に対する候補単語として
図5に示すように4文字が一致する「traffic
s」、「spacific」、「transmit」が
得られる。しかし、いずれの候補単語にも、候補文字に
ない文字が含まれており、コスト値は算出不能である。
従って、図3のステップS14における条件は満たされ
ず、候補単語は出力されない。従って、ステップS15
において「ゴミ文字」の判定が行なわれる。この場合、
「ゴミ文字」が存在するので、ステップS17において
ゴミ文字を削除した認識結果データに対して、改めて修
正処理が行なわれる。この処理の内容が図5における参
照単語欄に「traffic」がある行に示されてお
り、候補単語「traffic」がステップS18にお
いて出力される。
【0021】参照単語「traffic」に対する候補
単語として、上述した辞書検索の結果、同じ単語「tr
affic」が得られており、これがそのまま出力単語
となる。尚、上述した実施例においては、欧文文書を認
識した場合の後処理方法について説明したが、本発明は
これに限らず、日本語その他の言語の文書の認識の後処
理にも適用することができる。
【0022】
【発明の効果】以上説明したように、本発明の文字認識
の後処理方法によれば、適当な候補単語がないときは、
「ゴミ文字」を検出してこれを取り除いてから再び候補
単語を作成し、これらの候補単語に対して改めて修正処
理を行なって結果を出力するようにしたので、入力文書
に「ゴミ」が付着して単語の文字数が変化した際にも高
精度な修正処理を行なうことができる。
【図面の簡単な説明】
【図1】本発明の方法を適用した装置の一実施例のブロ
ック図である。
【図2】本発明に係る文字認識手順を説明するフローチ
ャートである。
【図3】本発明に係る認識結果の修正処理手順を説明す
るフローチャートである。
【図4】認識結果の候補文字・距離データの一例を示す
図である。
【図5】認識結果に対する修正処理の説明図である。
【符号の説明】
1 候補文字決定手段 2 距離算出手段 3 参照単語作成手段 4 候補単語選択手段 5 判別手段 6 単語出力手段 10 文字認識後処理装置
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−231192(JP,A) 特開 昭63−279388(JP,A) 特開 平2−264363(JP,A) 特開 平3−46070(JP,A) 特開 平2−299086(JP,A) 特開 昭63−245580(JP,A) 特開 昭63−103393(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/72 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 認識対象である文書中から切り出された
    任意の単語中の各文字を、それぞれ文字データ辞書中の
    各文字データと比較することにより、各文字データにつ
    いて前記切り出された任意の単語中の文字との近似する
    程度を表わす距離を求め、当該距離が比較的小さい文字
    データを前記切り出された任意の単語中の文字に対応す
    る複数又は単数の候補として挙げた文字認識の結果に対
    し、 前記文字認識の対象とした文書中に存在すると予測され
    る単語を予め登録した単語辞書を用意し、 まず、前記切り出された任意の単語中の各文字に対応す
    る複数の候補の文字データのうち、前記距離が最小の文
    字データを第1候補とし、前記距離が小さい順に順次第
    2、第3及びそれ以降の候補とし、 当該第1候補とされた各文字データを配列して構成した
    単語を、前記単語辞書を参照するための参照単語とし、 当該参照単語を前記単語辞書中の各登録単語と比較し、
    当該各登録単語のうち、その各文字が前記参照単語中の
    各文字データと一致する数が最も多い登録単語を候補単
    語として選択し、 当該候補単語のうち、各文字に対応する文字データのす
    べてが前記第1候補から始まる複数の候補のいずれかに
    挙げられている候補単語が存在するときは、当該候補単
    語中の各文字に対応する文字データの前記距離の合計で
    あるコスト値を算出し、当該コスト値が最小の候補単語
    を出力する一方、 前記各文字に対応する文字データのすべてが前記複数の
    候補のいずれかに挙げられている候補単語が1つもない
    こと及び前記コスト値が最小の候補単語が複数あること
    のいずれかを判別したときには、 次に、前記参照単語中の第1候補とされた各文字データ
    のうちの所定の文字データを削除して削除された文字以
    外の各文字を再配列することにより、前記参照単語を作
    成し直し、 前記単語辞書中の各登録単語からの候補単語の選択、当
    該選択された各候補単語中の各文字に対応する文字デー
    タの距離の合計であるコスト値の算出及び最終的な出力
    単語の決定を行なうことを特徴とする文字認識の後処理
    方法。
JP04101818A 1992-03-27 1992-03-27 文字認識の後処理方法 Expired - Fee Related JP3101073B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04101818A JP3101073B2 (ja) 1992-03-27 1992-03-27 文字認識の後処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04101818A JP3101073B2 (ja) 1992-03-27 1992-03-27 文字認識の後処理方法

Publications (2)

Publication Number Publication Date
JPH05274483A JPH05274483A (ja) 1993-10-22
JP3101073B2 true JP3101073B2 (ja) 2000-10-23

Family

ID=14310708

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04101818A Expired - Fee Related JP3101073B2 (ja) 1992-03-27 1992-03-27 文字認識の後処理方法

Country Status (1)

Country Link
JP (1) JP3101073B2 (ja)

Also Published As

Publication number Publication date
JPH05274483A (ja) 1993-10-22

Similar Documents

Publication Publication Date Title
US5428694A (en) Data processing system and method for forms definition, recognition and verification of scanned images of document forms
US5526443A (en) Method and apparatus for highlighting and categorizing documents using coded word tokens
JP3230641B2 (ja) 文字列検索装置
JP3589007B2 (ja) 文書ファイリングシステムおよび文書ファイリング方法
JP3101073B2 (ja) 文字認識の後処理方法
JPH08221510A (ja) 帳票文書処理装置および帳票文書処理方法
JP3202402B2 (ja) イメージ入力されたバーコードの認識処理方法
JP2954968B2 (ja) 光学的文字読取装置及び光学的読取装置におけるサブセット情報の追加方法
JPH07282193A (ja) 表を含む帳票処理装置
JP3221968B2 (ja) 文字認識装置
JP3071745B2 (ja) 文字認識結果の後処理方法
JP3159745B2 (ja) 文字認識方法及びその装置
JP3149859B2 (ja) ビデオコーディングシステム及び方法
JP2902097B2 (ja) 情報処理装置及び文字認識装置
JPH0363895A (ja) 文字認識方式
JP2996823B2 (ja) 文字認識装置
JPH1069494A (ja) 画像検索方法とその装置
JP2864777B2 (ja) 線画像照合装置
JPH05298493A (ja) 文字認識結果の後処理方法
JPH06274702A (ja) 文字認識装置
JP3310063B2 (ja) 文書処理装置
JP2683711B2 (ja) 文字・記号データの認識・修正方法
JPH0520490A (ja) 光学的文字読取修正システム
JP3226355B2 (ja) 認識結果評価方法
JP3097225B2 (ja) かな漢字変換装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees