JP2908132B2 - 文字認識結果の後処理方法 - Google Patents

文字認識結果の後処理方法

Info

Publication number
JP2908132B2
JP2908132B2 JP4224443A JP22444392A JP2908132B2 JP 2908132 B2 JP2908132 B2 JP 2908132B2 JP 4224443 A JP4224443 A JP 4224443A JP 22444392 A JP22444392 A JP 22444392A JP 2908132 B2 JP2908132 B2 JP 2908132B2
Authority
JP
Japan
Prior art keywords
word
character
dictionary
recognition result
class name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4224443A
Other languages
English (en)
Other versions
JPH0676120A (ja
Inventor
佳孝 濱口
節正 広垣
直弘 天本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP4224443A priority Critical patent/JP2908132B2/ja
Publication of JPH0676120A publication Critical patent/JPH0676120A/ja
Application granted granted Critical
Publication of JP2908132B2 publication Critical patent/JP2908132B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識を、単語照合
を行うことによって改善する後処理において、読取り条
件や、認識処理による認識結果の誤り傾向を利用して未
知語の判定を行うことにより、認識性能を向上させる文
字認識結果の後処理方法に関するものである。
【0002】
【従来の技術】従来から、文字認識結果を単語辞書と照
合することにより、認識性能を向上させる後処理が行わ
れている。この後処理では、単語の照合を行うにあた
り、認識された単語が、単語辞書に登録されている単語
であるか、登録されていない未知語であるかの判定が重
要となる。従来、この未知語判定には、例えば、特開平
3−67364号公報に記載されているように、認識部
が出力する候補文字の組合せで単語を作るために、候補
文字のいかなる組合せも単語辞書中にない場合に未知語
と判定する方法等が知られている。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
方法では、読取り条件、認識処理の癖等から、正解文字
が候補文字には含まれないが、あげられた候補文字と誤
り傾向から正解文字を予測できるような場合も、未知語
と判定されてしまう。このように、従来の方法では、未
知語の判定が不正確であるため、単語辞書にある単語で
あるにもかかわらず、未知語として処理され、単語照合
による認識結果の改善が行われない等の不都合が生じ、
後処理による文字認識性能の向上が阻害されていた。本
発明は、前記従来技術が持っていた課題として、未知語
の判定が不正確であるという点について解決し、認識結
果の誤り傾向を利用した未知語判定を行うことにより、
文字認識の後処理の性能の向上を図る、文字認識結果の
後処理方法を提供するものである。
【0004】
【課題を解決するための手段】前記課題を解決するため
に、本発明のうちの第1の発明は、入力文字パターンの
文字認識結果と複数の単語が登録された単語辞書との照
合を行うにあたり、認識された単語が該単語辞書に登録
されているか、登録されていない未知語であるかの判定
を行う文字認識結果の後処理方法において、同様の誤り
傾向を持つ文字を分類した文字分類形式の誤り傾向知識
辞書を有し、前記文字認識結果の各文字を、前記誤り傾
向知識辞書中でその各文字が属する類の類名に置き換え
た文字認識結果の類名表記を作成する文字認識結果類名
表記処理と、前記単語辞書に登録されている単語の各文
字を、前記誤り傾向知識辞書中でその各文字が属する類
の類名に置き換えた単語辞書中単語の類名表記を作成す
る単語辞書中単語類名表記処理と、前記文字認識結果の
類名表記と前記単語辞書中単語の類名表記を照合する照
合処理とを行うことにより、前記未知語の判定を行うよ
うにしている。
【0005】第2の発明では、第1の発明の文字認識結
果の後処理方法において、前記文字認識結果と前記単語
辞書に登録されている文字との相違度を、前記文字認識
結果である候補文字と文字パターンとの距離から算出す
る算出処理と、前記照合処理と前記算出処理の結果を用
いて前記未知語の判定を行うようにしている。 第3の発
明では、第1又は第2の発明の文字認識結果の後処理方
法において、前記誤り傾向知識辞書は、前記文字認識結
果の各文字を同様の誤り傾向を持つ文字に分類した認識
側文字分類と、該認識側文字分類に対応した前記単語辞
書に登録されている単語の各文字を同様の誤り傾向を持
つ文字に分類した候補単語側文字分類とを有し、前記文
字認識結果類名表記処理は、前記文字認識結果の各文字
を、前記誤り傾向知識辞書の前記認識側文字分類中でそ
の各文字が属する類の類名に置き換えた文字認識結果の
類名表記を作成し、前記単語辞書中単語類名表記処理
は、前記単語辞書に登録されている単語の各文字を、前
記誤り傾向知識辞書の前記候補単語側文字分類中でその
各文字が属する類の類名に置き換えた単語辞書中単語の
類名表記を作成するようにしている。
【0006】
【作用】第1の発明によれば、以上のように文字認識結
果の後処理方法を構成したので、誤り傾向知識辞書を参
照して文字認識結果類名表記処理で文字認識結果の類名
表記が作成され、誤り傾向知識辞書を参照して単語辞書
中単語類名表記処理で単語辞書中単語の類名表記が作成
される。それらの文字認識結果の類名表記と単語辞書中
単語の類名表記とが、照合処理で照合され、未知語の判
定が行われる。
【0007】第2の発明によれば、文字認識結果と単語
辞書に登録されている文字との相違度が、算出処理で算
出され、照合処理とその算出処理の結果を用いて未知語
の判定が行われる。 第3の発明によれば、文字認識結果
類名表記処理において、誤り傾向知識辞書の認識側文字
分類を用いて文字認識結果の類名表記が作成され、単語
辞書中単語類名表記処理において、誤り傾向知識辞書の
候補単語側文字分類を用いて単語辞書中単語の類名表記
が作成される。
【0008】
【実施例】図1は、本発明の実施例における文字認識結
果の後処理方法を実施するための文字認識装置を示す機
能ブロック図である。図2は、図1の誤り傾向知識辞書
及び未知語判定部の構成例を示す機能ブロック図であ
る。図1に示す文字認識装置は、入力文字パターンの認
識を行って候補文字と距離の認識結果を出力する文字認
識部10と、複数の単語が登録された単語辞書20とを
備え、それらの出力側に、単語照合部30が接続されて
いる。単語照合部30は、文字認識部10の文字認識結
果を単語辞書20と照合し、候補単語を出力する機能を
有し、その出力側にコスト値算出部40が接続されてい
る。コスト値算出部40は、文字認識部10の文字認識
結果と単語照合部30からの候補単語との相違度を示す
コスト値を算出する算出処理機能を有し、その出力側に
は未知語判定部60が接続されている。
【0009】未知語判定部60には、文字認識部10
と、認識結果の誤り傾向の知識を収めた誤り傾向知識辞
書50とが、接続されている。未知語判定部60は、文
字認識結果と候補単語の相違を、誤り傾向知識辞書50
と照合し、その照合結果とコスト値から、認識した単語
が未知語であるか否かを判定する機能を有し、その出力
側には、既知識語処理部70と未知語処理部80が接続
されている。既知識語処理部70は、未知語判定部60
により既知識語と判定された単語について、候補単語か
ら、結果として出力する単語を選出する機能を有してい
る。未知語処理部80は、未知語判定部60により未知
語と判定された単語について、文字認識結果から、出力
する単語を作成する機能を有している。この既知識語処
理部70と未知語処理部80の出力側には、後処理の結
果を表示装置等に出力するための結果出力部90が接続
されている。
【0010】図2に示すように、誤り傾向知識辞書50
は、文字認識結果の第1位候補文字を同様の誤り傾向を
持つ文字に分類した認識側文字分類51と、その各類に
対応した候補単語側文字分類52とを有し、各類を表わ
す類名からなる表の形式で該辞書が構成されている。未
知語判定部60は、コスト値算出部40からの候補単語
とコスト値からコスト値のチェックを行うコスト値チェ
ック部61と、誤り傾向の照合を行うための文字認識結
果の類名表記を作成する文字認識結果類名表記処理機
能、及び単語辞書中単語の類名表記を作成する単語辞書
中単語類名表記処理機能を有する類名表記作成部62
と、該コスト値チェック部61及び類名表記作成部62
の出力に基づき類名表記の比較を行って誤り傾向知識辞
書50との照合処理を行う類名表記比較部63とで、構
成されている。
【0011】次に、図1及び図2に示す文字認識装置を
用いた本実施例における文字認識結果の後処理方法を、
図3〜図5を参照しつつ、説明する。図3は、図1中の
文字認識部10による文字認識結果の例を示す図であ
る。図4は、図2中の誤り傾向知識辞書の例を示す図で
ある。図5は、図3の例に基づく図1の各部の処理結果
例を示す図である。例えば、図3に示すような入力文字
パターンが図1の文字認識部10に入力されると、該文
字認識部10では、入力文字パターンの認識を行い、そ
の文字認識結果として入力文字パターンに対する候補文
字と、各候補文字について入力文字パターンとの相違度
である距離とを、出力し、単語照合部30、未知語判定
部60、未知語処理部80へ送る。単語照合部30で
は、文字認識部10からの文字認識結果を、単語辞書2
0と照合する処理を行う。この照合処理では、先ず、文
字認識結果の第1候補を並べたものを参照単語とする。
図5に示すように、図3の例に対する参照単語は、それ
ぞれ「Kansai」、「|ab」となる。次に、参照単語と最
も一致文字数が多い単語を単語辞書20から検索し、図
5に示すように候補単語「cab ,dab ,gab ,jab ,la
b ,nab ,tab 」とし、それらをコスト値算出部40へ
送る。
【0012】コスト値算出部40は、文字認識結果と候
補単語の相違度を示すコスト値を算出する。このコスト
値算出処理では、候補文字の各文字と入力文字パターン
の距離の和をコスト値とし、候補単語に候補文字にない
文字が含まれる場合はコスト値を無限大とする。図5の
処理例では、全ての候補単語において候補文字にない文
字が含まれており、コスト値が無限大(∞)となり、そ
の結果を未知語判定部60へ送る。未知語判定部60で
は、文字認識結果と候補単語の相違を、誤り傾向知識辞
書50と照合し、その照合結果とコスト値から、認識し
た単語が未知語であるか否かを判定する。即ち、図2に
示すコスト値チェック部61において、コスト値算出部
40より候補単語と各候補単語のコスト値とを入力し、
該コスト値が無限大ではない候補単語が含まれるときに
は既知識語であると判定し、候補単語と各候補単語のコ
スト値を既知識語処理部70へ送る。全ての候補単語の
コスト値が無限大であった場合、誤り傾向知識辞書50
との照合のため、候補単語を類名表記作成部62、及び
類名表記比較部63へ送る。図5の処理例では、全ての
コスト値が無限大(∞)となるので、コスト値チェック
部61が候補単語を類名表記作成部62、及び類名表記
比較部63へ送る。
【0013】類名表記作成部62は、誤り傾向の照合を
行うための類名表記を作成する。この類名表記作成処理
において、単語辞書中単語の類名表記(即ち、候補単語
の類名表記を作成する場合は、各候補単語について候
補単語と候補単語側文字分類52より類名表記を作成
し、認識結果については第1位候補を並べたものである
参照単語と認識側文字分類51より、文字認識結果の
名表記を作成する。類名表記の作成は、単語の各文字を
その文字の含まれる文字類の類名で置き換えることによ
り行われる。例えば、図5に示すように、「Kansai」で
あれば「K」は類μ、「a」はε、と置き換えていき、
類名表記はμεφγεθとなる。
【0014】次に、類名表記比較部63では、類名表記
作成部62によって得られた文字認識結果の類名表記と
候補単語の類名表記を比較することにより、誤り傾向知
識辞書50との照合処理を行う。この照合処理におい
て、各候補単語の類名表記を認識結果の類名表記と比較
し、一致しない場合はその候補単語を除外する。この
処理の結果、1つ以上の候補単語が残った場合は、そ
の残った候補単語を既知識語処理部70へ送り、全ての
候補単語が除外された候補単語数が0となった場合は、
認識した単語が未知語であると判定し、未知語処理部8
0へ処理を移す。図5の例では、候補単語「Kansas」の
類名表記が認識結果「Kansai」の類名表記と一致せず、
候補単語「Kansas」が除外されるため、「Kansai」に対
する候補単語が0となり、未知語と判定される。「lab
」については、認識結果「|ab」の類名表記と一致す
る類名表記を持つ候補単語「lab 」が候補単語として残
り、既知識語として候補単語「lab 」が既知識語処理部
70に渡される。
【0015】以上のようにして認識結果と候補単語の相
違を、誤り傾向知識辞書50と照合する未知語判定が行
われ、図1の既知識語処理部70及び未知語処理部80
の処理へ移る。既知識語処理部70では、未知語判定部
60により既知識語と判定された単語について、候補単
語から、結果として出力する単語を選出する。ここで
は、候補単語のうち、コスト値の最小となるものを選出
する。図5の例では、既知識語と判定された入力文字パ
ターン「lab 」については、未知語判定部60によって
候補単語の除外が行われた結果、候補単語が「lab 」だ
けであるので、その「lab」が選出され、結果出力部9
0へ送られる。
【0016】一方、未知語処理部80では、未知語判定
部60によって未知語と判定された単語について、文字
認識結果から、出力する単語を作成し、結果出力部90
へ送る。ここでは、認識結果の第1位候補を並べたもの
とする。図5の例では、未知語と判定された「Kansai」
については、図3に示された認識結果の第1位候補を並
べ、「Kansai」となる。最後に、結果出力部90は、既
知識語処理部70で選出された候補、あるいは未知語処
理部80によって認識結果から作成された単語を、表示
装置等に出力して後処理を終了する。
【0017】以上のように、本実施例では、次のような
利点を有する。従来の後処理方法では、例えば図3及び
図5の例において、「lab 」が「|ab」となり、第1文
字目について「l 」が候補にあがっていないような場
合、「|」が「l 」の間違いであるのは容易に推測でき
るにもかかわらず、未知語と判定されてしまう。これに
対し、本実施例では、未知語判定処理において誤り傾向
知識辞書50を用いるので、従来に比べ、高精度な未知
語判定を行うことが可能となり、これによって文字認識
の後処理の性能が向上する。
【0018】なお、本発明は上記実施例に限定されず、
種々の変形が可能である。その変形例としては、例えば
次のようなものがある。 (a) 上記実施例では入力文字が英単語の場合につい
て説明したが、単語辞書20、及び誤り傾向知識辞書5
0の内容を変えることにより、他の言語の入力文字に対
しても上記実施例を適用できる。 (b) 誤り傾向知識辞書50を図2及び図4以外の他
の内容に変更したり、あるいは未知語判定部60を図2
と異なる処理内容に変更する等、種々の変形が可能であ
る。
【0019】
【発明の効果】以上詳細に説明したように、第1の発明
によれば、未知語判定に、誤り傾向の知識を用いるよう
にしているので、従来に比べ、高精度な未知語判定を行
うことが可能となり、これによって文字認識の後処理の
性能を向上できる。特に、文字認識結果の類名表記と単
語辞書中単語の類名表記を照合することによって照合処
理を実行するようにしているので、照合処理を簡単かつ
的確に行うことができる。
【0020】第2の発明によれば、算出処理で相違度を
算出し、第1の発明の照合処理とその算出処理の結果を
用いて未知語の判定を行うようにしているので、第1の
発明の照合処理に対し、算出処理によって未知語の判定
誤差を補完でき、それによって未知語の判定精度がより
向上する。第3の発明によれば、誤り傾向の知識を文字
分類の辞書の形式で保有するので、類名表記の作成の際
に、誤り傾向の知識を利用し易く、またその辞書の内容
を変えることにより、他の言語等に対しても適用でき
る。
【図面の簡単な説明】
【図1】本発明の実施例における文字認識結果の後処理
方法を実施するための文字認識装置の機能ブロック図で
ある。
【図2】図1の誤り傾向知識辞書及び未知語判定部の構
成例を示す機能ブロック図である。
【図3】図1の文字認識結果の例を示す図である。
【図4】図2の誤り傾向知識辞書の例を示す図である。
【図5】図3の例に基づく図1の処理結果を示す図であ
る。
【符号の説明】
10 文字認識部 20 単語辞書 30 単語照合部 40 コスト値算出部 50 誤り傾向知識辞書 51 認識側文字分類 52 候補単語側文字分類 60 未知語判定部 61 コスト値チェック部 62 類名表記作成部 63 類名表記比較部 70 既知識語処理部 80 未知語処理部 90 結果出力部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭64−73483(JP,A) 特開 平2−96886(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06K 9/72

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力文字パターンの文字認識結果と複数
    の単語が登録された単語辞書との照合を行うにあたり、
    認識された単語が該単語辞書に登録されているか、登録
    されていない未知語であるかの判定を行う文字認識結果
    の後処理方法において、 同様の誤り傾向を持つ文字を分類した文字分類形式の誤
    り傾向知識辞書を有し、 前記文字認識結果の各文字を、前記誤り傾向知識辞書中
    でその各文字が属する類の類名に置き換えた文字認識結
    果の類名表記を作成する文字認識結果類名表記処理と、 前記単語辞書に登録されている単語の各文字を、前記誤
    り傾向知識辞書中でその各文字が属する類の類名に置き
    換えた単語辞書中単語の類名表記を作成する単語辞書中
    単語類名表記処理と、 前記文字認識結果の類名表記と前記単語辞書中単語の類
    名表記を照合する照合処理とを行うことにより、 前記未知語の判定を行うことを特徴とする文字認識結果
    の後処理方法。
  2. 【請求項2】 請求項1記載の文字認識結果の後処理方
    法において、 前記文字認識結果と前記単語辞書に登録されている文字
    との相違度を、前記文字認識結果である候補文字と文字
    パターンとの距離から算出する算出処理と、 前記照合処理と前記算出処理の結果を用いて前記未知語
    の判定を行うことを特徴とする文字認識結果の後処理方
    法。
  3. 【請求項3】 請求項1又は2記載の文字認識結果の後
    処理方法において、 前記誤り傾向知識辞書は、前記文字認識結果の各文字を
    同様の誤り傾向を持つ文字に分類した認識側文字分類
    と、該認識側文字分類に対応した前記単語辞書に登録さ
    れている単語の各文字を同様の誤り傾向を持つ文字に分
    類した候補単語側文字分類とを有し、 前記文字認識結果類名表記処理は、前記文字認識結果の
    各文字を、前記誤り傾 向知識辞書の前記認識側文字分類
    中でその各文字が属する類の類名に置き換えた文字認識
    結果の類名表記を作成し、 前記単語辞書中単語類名表記処理は、前記単語辞書に登
    録されている単語の各文字を、前記誤り傾向知識辞書の
    前記候補単語側文字分類中でその各文字が属する類の類
    名に置き換えた単語辞書中単語の類名表記を作成するこ
    とを特徴とする文字認識結果の後処理方法。
JP4224443A 1992-08-24 1992-08-24 文字認識結果の後処理方法 Expired - Fee Related JP2908132B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4224443A JP2908132B2 (ja) 1992-08-24 1992-08-24 文字認識結果の後処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4224443A JP2908132B2 (ja) 1992-08-24 1992-08-24 文字認識結果の後処理方法

Publications (2)

Publication Number Publication Date
JPH0676120A JPH0676120A (ja) 1994-03-18
JP2908132B2 true JP2908132B2 (ja) 1999-06-21

Family

ID=16813855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4224443A Expired - Fee Related JP2908132B2 (ja) 1992-08-24 1992-08-24 文字認識結果の後処理方法

Country Status (1)

Country Link
JP (1) JP2908132B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013108347A1 (ja) * 2012-01-19 2013-07-25 日本電気株式会社 文字認識装置、それを備えた区分装置、文字認識方法および制御プログラム

Also Published As

Publication number Publication date
JPH0676120A (ja) 1994-03-18

Similar Documents

Publication Publication Date Title
US5933531A (en) Verification and correction method and system for optical character recognition
JP2908132B2 (ja) 文字認識結果の後処理方法
JP3469375B2 (ja) 認識結果の確信度決定方法及び文字認識装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3470927B2 (ja) 自然語解析方法及び装置
CN112800987B (zh) 一种汉字处理方法和装置
JP3188154B2 (ja) 文字認識処理方法
JP2908460B2 (ja) 誤認識修正方法及び装置
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH0256086A (ja) 文字認識の後処理方法
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3348909B2 (ja) 形態素解析装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPS63103393A (ja) 単語認識装置
JPS63268082A (ja) パタ−ン認識装置
JPS6274152A (ja) 日本語文章認識方式
JP3245415B2 (ja) 文字認識方法
JP2923295B2 (ja) パターン同定処理方式
JP2904517B2 (ja) 文字認識装置
JPS646514B2 (ja)
JPH0795337B2 (ja) 単語認識方式
JPH10240736A (ja) 形態素解析装置
JPS62285189A (ja) 文字認識後処理方式
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JPH02103690A (ja) 文字読取り装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990323

LAPS Cancellation because of no payment of annual fees