JPH06111076A - 文字認識装置 - Google Patents
文字認識装置Info
- Publication number
- JPH06111076A JPH06111076A JP4257801A JP25780192A JPH06111076A JP H06111076 A JPH06111076 A JP H06111076A JP 4257801 A JP4257801 A JP 4257801A JP 25780192 A JP25780192 A JP 25780192A JP H06111076 A JPH06111076 A JP H06111076A
- Authority
- JP
- Japan
- Prior art keywords
- character
- word
- unit
- reject
- corrected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 文書画像から文字を認識する文字認識装置に
関するもので、文字切り出し誤り、候補外文字、単語辞
書の未登録語があっても、これらの誤りを検出し、文字
認識率の低下を防ぐ。 【構成】 文字修正部18から出力された修正文字列中
の単語に対して、単語不正解度演算部19で単語の不正
解度を計算し、さらに、単語不正解度を基に修正文字列
中の各単語の誤訂正度を単語誤訂正度演算部21で計算
する。単語誤訂正度を基にリジェクト処理部22でリジ
ェクト文字を決定する。リジェクト文字はその文字領域
に対して再切り出しを行う。また、リジェクト文字置換
処理部23では、修正文字列中のリジェクト文字を文字
認識部12における第1候補文字と置換して認識文字列
として出力する。
関するもので、文字切り出し誤り、候補外文字、単語辞
書の未登録語があっても、これらの誤りを検出し、文字
認識率の低下を防ぐ。 【構成】 文字修正部18から出力された修正文字列中
の単語に対して、単語不正解度演算部19で単語の不正
解度を計算し、さらに、単語不正解度を基に修正文字列
中の各単語の誤訂正度を単語誤訂正度演算部21で計算
する。単語誤訂正度を基にリジェクト処理部22でリジ
ェクト文字を決定する。リジェクト文字はその文字領域
に対して再切り出しを行う。また、リジェクト文字置換
処理部23では、修正文字列中のリジェクト文字を文字
認識部12における第1候補文字と置換して認識文字列
として出力する。
Description
【0001】
【産業上の利用分野】本発明は、文字を読みとるための
文字認識装置に関するものである。
文字認識装置に関するものである。
【0002】
【従来の技術】近年、データベースの発展に伴い、高速
で認識率の高い文字認識装置に対する要求が高まってい
る。
で認識率の高い文字認識装置に対する要求が高まってい
る。
【0003】従来から、文字認識装置に知識処理を導入
して、認識精度の向上が図られている。この知識処理
は、1文字ごとの認識結果に対して、単語辞書及び文法
辞書を用いることにより、認識結果を最も確からしい文
字に修正する方式である。
して、認識精度の向上が図られている。この知識処理
は、1文字ごとの認識結果に対して、単語辞書及び文法
辞書を用いることにより、認識結果を最も確からしい文
字に修正する方式である。
【0004】従来の文字認識装置としては、例えば、特
開平3−164887号公報に示されている。図6は従来の文
字認識装置を示すものである。切り出し部11は文書画像
から1文字の部分の画像を切り出し、その切り出された
画像から文字認識部12は1文字につきN個の候補文字を
出力する。文節検索部13は、単語辞書16や文法辞書17を
用いて、候補文字列集合の中から文節を構成する文字の
組み合せを求め、文節評価値演算部14で、候補文節の語
彙的および文法的な正しさを示す文節評価値を求める。
候補文節比較部31で各候補文節の文節評価値を比較し、
最大文節評価値を持つ候補文節が複数存在する場合に
は、候補文字列比較部32で各候補文節文字列を文字単位
に比較し、文字の一致しない桁を検出した場合は、この
文字をリジェクトして、文字認識の誤り位置を出力す
る。
開平3−164887号公報に示されている。図6は従来の文
字認識装置を示すものである。切り出し部11は文書画像
から1文字の部分の画像を切り出し、その切り出された
画像から文字認識部12は1文字につきN個の候補文字を
出力する。文節検索部13は、単語辞書16や文法辞書17を
用いて、候補文字列集合の中から文節を構成する文字の
組み合せを求め、文節評価値演算部14で、候補文節の語
彙的および文法的な正しさを示す文節評価値を求める。
候補文節比較部31で各候補文節の文節評価値を比較し、
最大文節評価値を持つ候補文節が複数存在する場合に
は、候補文字列比較部32で各候補文節文字列を文字単位
に比較し、文字の一致しない桁を検出した場合は、この
文字をリジェクトして、文字認識の誤り位置を出力す
る。
【0005】以上のようにして、文字をリジェクトする
ことにより、文字認識の誤り位置を出力することがで
き、認識の向上及び修正作業の効率化を図ることができ
る。
ことにより、文字認識の誤り位置を出力することがで
き、認識の向上及び修正作業の効率化を図ることができ
る。
【0006】
【発明が解決しようとする課題】しかしながら、上記の
文字認識装置では、候補文節が複数存在するときにその
文節中の文字をリジェクトするために、多くの単語を含
む一般の文書に対して適用するとほとんどの文字がリジ
ェクト文字として出力される。また、手書き文字のよう
に、文字認識部での文字認識率が低い場合には、文字認
識部から出力される候補文字の数が増える。これによ
り、候補文節の数も増えるために、候補文節が複数存在
する確率が増え、必要以上に文字がリジェクトされる。
文字認識装置では、候補文節が複数存在するときにその
文節中の文字をリジェクトするために、多くの単語を含
む一般の文書に対して適用するとほとんどの文字がリジ
ェクト文字として出力される。また、手書き文字のよう
に、文字認識部での文字認識率が低い場合には、文字認
識部から出力される候補文字の数が増える。これによ
り、候補文節の数も増えるために、候補文節が複数存在
する確率が増え、必要以上に文字がリジェクトされる。
【0007】本発明はこのような従来の課題を解決する
もので、知識処理を用いて修正された文字列の中の誤訂
正文字や誤認識文字を検出することにより、文字認識率
を高くすることを目的としている。
もので、知識処理を用いて修正された文字列の中の誤訂
正文字や誤認識文字を検出することにより、文字認識率
を高くすることを目的としている。
【0008】
【課題を解決するための手段】本発明は上記目的を達成
するために、文字修正部において訂正された文字を含む
単語に対して、単語に含まれる文字の文字認識部におけ
る評価値と文字種類から単語の不正解度を求め、さら
に、各単語の不正解度とその前後の単語の不正解度から
単語の誤訂正度を求め、誤訂正度の高い単語のリジェク
トを行う。リジェクトされた単語の情報を切り出し部に
送り、もう一度切り出しを行い、切り出し誤りをなくす
る。
するために、文字修正部において訂正された文字を含む
単語に対して、単語に含まれる文字の文字認識部におけ
る評価値と文字種類から単語の不正解度を求め、さら
に、各単語の不正解度とその前後の単語の不正解度から
単語の誤訂正度を求め、誤訂正度の高い単語のリジェク
トを行う。リジェクトされた単語の情報を切り出し部に
送り、もう一度切り出しを行い、切り出し誤りをなくす
る。
【0009】
【作用】本発明は上記した構成により、文字修正部が誤
訂正を行った場合でも、単語誤訂正度を評価し、リジェ
クト単語を決定することにより、誤訂正文字を減らすこ
とができる。さらにリジェクト単語に対して再切り出し
処理することにより切り出し誤りをなくすことができ
る。よって、文字認識率が向上する。
訂正を行った場合でも、単語誤訂正度を評価し、リジェ
クト単語を決定することにより、誤訂正文字を減らすこ
とができる。さらにリジェクト単語に対して再切り出し
処理することにより切り出し誤りをなくすことができ
る。よって、文字認識率が向上する。
【0010】
【実施例】以下、第1の発明の実施例について説明す
る。図2にこの実施例の文字認識装置の全体の構成を示
す。
る。図2にこの実施例の文字認識装置の全体の構成を示
す。
【0011】文字切り出し部11は、文書画像より文字の
切り出しを行い、画像を1文字づつの領域に切り出す。
切り出しを行い、画像を1文字づつの領域に切り出す。
【0012】文字認識部12は、文字の画像より文字認識
を行い、1文字につき第1候補文字から第n候補文字ま
でのn個の候補文字を持つ候補文字集合を出力する。
を行い、1文字につき第1候補文字から第n候補文字ま
でのn個の候補文字を持つ候補文字集合を出力する。
【0013】文節検索部13は、単語辞書16を検索するこ
とにより候補文字集合の組み合わせの中から、単語辞書
16に存在する単語と一致する候補文字の組み合わせを選
び出し、さらに文法辞書17を参照して文節となりえる単
語の組み合わせを選び出す。文節評価値演算部14は、文
節検索部13で検索された文節の語彙的および文法的な正
しさを文節中の単語の長さや頻度などを基準として評価
値を計算する。文節選択部15は、文節の候補の中で評価
値の最も大きい文節を選択し、修正文字列を出力する。
とにより候補文字集合の組み合わせの中から、単語辞書
16に存在する単語と一致する候補文字の組み合わせを選
び出し、さらに文法辞書17を参照して文節となりえる単
語の組み合わせを選び出す。文節評価値演算部14は、文
節検索部13で検索された文節の語彙的および文法的な正
しさを文節中の単語の長さや頻度などを基準として評価
値を計算する。文節選択部15は、文節の候補の中で評価
値の最も大きい文節を選択し、修正文字列を出力する。
【0014】単語不正解度演算部19は、文字修正部18か
ら出力された修正文字列と修正文字列に含まれる各文字
の文字認識部12での評価から、訂正単語正解率データ20
を参照して、修正文字列中の各単語の不正解度を計算す
る。
ら出力された修正文字列と修正文字列に含まれる各文字
の文字認識部12での評価から、訂正単語正解率データ20
を参照して、修正文字列中の各単語の不正解度を計算す
る。
【0015】単語誤訂正度演算部21は、単語の不正解度
から各単語が文字修正部18で誤訂正された度合(単語誤
訂正度)を計算する。
から各単語が文字修正部18で誤訂正された度合(単語誤
訂正度)を計算する。
【0016】単語リジェクト処理部22は、単語誤訂正度
からリジェクトする単語を判定し、リジェクト位置を出
力する。
からリジェクトする単語を判定し、リジェクト位置を出
力する。
【0017】上記の構成の文字認識装置において次のよ
うにして文字認識を行う。まず、認識対象の文書画像を
文字切り出し部11で処理し、1文字ごとの領域に画像を
切り出す。次に、文字認識部12で、切り出された1文字
ごとの画像に対して文字認識を行い、1文字につき第1
候補文字から第n候補文字までのn個の候補文字を持つ
候補文字集合を出力する。
うにして文字認識を行う。まず、認識対象の文書画像を
文字切り出し部11で処理し、1文字ごとの領域に画像を
切り出す。次に、文字認識部12で、切り出された1文字
ごとの画像に対して文字認識を行い、1文字につき第1
候補文字から第n候補文字までのn個の候補文字を持つ
候補文字集合を出力する。
【0018】さらに、文節検索部13で、単語辞書16を検
索することにより候補文字集合の組み合わせの中から、
単語辞書16に存在する単語と一致する候補文字の組み合
わせを選び出し、さらに、文法辞書17を参照して文節と
なりえる単語の組み合わせを選び出す。文節検索部13で
検索された文節の語彙的および文法的な正しさを文節中
の単語の長さや頻度などを基準として文節評価値を計算
する。文節評価値を求めた候補文節に対して文節評価値
を基準にして、文節選択部15で正しい文節の組み合わせ
を選択し修正文字列を出力する。
索することにより候補文字集合の組み合わせの中から、
単語辞書16に存在する単語と一致する候補文字の組み合
わせを選び出し、さらに、文法辞書17を参照して文節と
なりえる単語の組み合わせを選び出す。文節検索部13で
検索された文節の語彙的および文法的な正しさを文節中
の単語の長さや頻度などを基準として文節評価値を計算
する。文節評価値を求めた候補文節に対して文節評価値
を基準にして、文節選択部15で正しい文節の組み合わせ
を選択し修正文字列を出力する。
【0019】単語不正解度演算部19は、文字修正部18か
ら出力された修正文字列と修正文字列に含まれる各文字
の文字認識部12での評価を基準にして、単語不正解度を
計算する。訂正単語正解率データ20は、文字修正部18が
文字を修正した時にどのような単語に対して正解に訂正
しているかの統計データを持っている。訂正単語正解率
データ20は、訂正された単語の文字数、訂正文字数(第
1候補文字以外の文字を修正文字として出力した文字
数)、単語を構成する文字の種類により、それぞれ訂正
単語が正解である確率を持っている。(表1)に実験に
用いた文字修正部の訂正単語正解率データを示す。
ら出力された修正文字列と修正文字列に含まれる各文字
の文字認識部12での評価を基準にして、単語不正解度を
計算する。訂正単語正解率データ20は、文字修正部18が
文字を修正した時にどのような単語に対して正解に訂正
しているかの統計データを持っている。訂正単語正解率
データ20は、訂正された単語の文字数、訂正文字数(第
1候補文字以外の文字を修正文字として出力した文字
数)、単語を構成する文字の種類により、それぞれ訂正
単語が正解である確率を持っている。(表1)に実験に
用いた文字修正部の訂正単語正解率データを示す。
【0020】
【表1】
【0021】単語不正解度演算部19は、文字修正部18か
ら出力される各単語wに対して、訂正単語正解率データ2
0と単語wに含まれる各文字の文字認識部12での評価から
単語wが不正解である度合である単語不正解度Pwを求め
る。例えば、単語wの単語不正解度Pwは、(数1)によ
って計算することができる。
ら出力される各単語wに対して、訂正単語正解率データ2
0と単語wに含まれる各文字の文字認識部12での評価から
単語wが不正解である度合である単語不正解度Pwを求め
る。例えば、単語wの単語不正解度Pwは、(数1)によ
って計算することができる。
【0022】
【数1】
【0023】(数1)は訂正単語正解率データにおいて
正解率が高い単語ほど単語不正解度Pwを小さくし、訂正
文字と第1候補文字の文字認識部12での評価値の差が大
きいほど単語不正解度Pwを大きくして、単語不正解度を
計算する。
正解率が高い単語ほど単語不正解度Pwを小さくし、訂正
文字と第1候補文字の文字認識部12での評価値の差が大
きいほど単語不正解度Pwを大きくして、単語不正解度を
計算する。
【0024】訂正単語の不正解度は、単語の文字数別、
単語の訂正文字数別および単語の文字種類別の統計デー
タを基にして計算するために、各訂正単語が不正解であ
る確率を反映した値となる。
単語の訂正文字数別および単語の文字種類別の統計デー
タを基にして計算するために、各訂正単語が不正解であ
る確率を反映した値となる。
【0025】そして、単語誤訂正度演算部21は、単語不
正解度から単語誤訂正度を計算する。単語wの単語誤訂
正度Cwは、単語誤訂正度を求めたい単語の前の単語w-1
の単語不正解度Pw-1と後の単語w+1の単語不正解度Pw+1
から計算する。例えば、単語wの単語誤訂正度Cwは、
(数2)によって計算することができる。
正解度から単語誤訂正度を計算する。単語wの単語誤訂
正度Cwは、単語誤訂正度を求めたい単語の前の単語w-1
の単語不正解度Pw-1と後の単語w+1の単語不正解度Pw+1
から計算する。例えば、単語wの単語誤訂正度Cwは、
(数2)によって計算することができる。
【0026】
【数2】
【0027】(数2)は単語wの前後の単語の単語不正
解度が大きければ単語wの単語誤訂正度が大きくなる。
これは、単語の誤訂正の原因となるのは、主に3つの原
因であり、文書画像からの文字の切り出し誤り、候補外
文字(文字認識部12の出力において候補文字集合の中に
正解文字が含まれない)、単語辞書16の未登録語の場合
に誤訂正が起きる。このような原因が存在する場合に
は、誤訂正の原因となる文字や単語を含む文節におい
て、文節検索部13で正解の単語を検索することができな
いために、隣接の単語を誤訂正し認識率が低下する。こ
のことより、単語誤訂正度を求めたい単語の前後の単語
を調べることにより、単語の誤訂正度を正しく計算でき
る。
解度が大きければ単語wの単語誤訂正度が大きくなる。
これは、単語の誤訂正の原因となるのは、主に3つの原
因であり、文書画像からの文字の切り出し誤り、候補外
文字(文字認識部12の出力において候補文字集合の中に
正解文字が含まれない)、単語辞書16の未登録語の場合
に誤訂正が起きる。このような原因が存在する場合に
は、誤訂正の原因となる文字や単語を含む文節におい
て、文節検索部13で正解の単語を検索することができな
いために、隣接の単語を誤訂正し認識率が低下する。こ
のことより、単語誤訂正度を求めたい単語の前後の単語
を調べることにより、単語の誤訂正度を正しく計算でき
る。
【0028】単語リジェクト部22は、各単語の単語誤訂
正度を調べ、単語誤訂正度がある閾値以上であれば、そ
の単語に含まれる文字をリジェクト文字として出力す
る。
正度を調べ、単語誤訂正度がある閾値以上であれば、そ
の単語に含まれる文字をリジェクト文字として出力す
る。
【0029】本実施例の単語誤訂正度演算部21を用いる
ことにより、修正文字列から誤訂正箇所を推測すること
が可能になり、単語のリジェクト処理が実現でき、文字
認識後の修正作業を効率良く行うことができる。
ことにより、修正文字列から誤訂正箇所を推測すること
が可能になり、単語のリジェクト処理が実現でき、文字
認識後の修正作業を効率良く行うことができる。
【0030】次に、第2の発明の実施例について説明す
る。図3にこの実施例の文字認識装置の全体の構成を示
す。
る。図3にこの実施例の文字認識装置の全体の構成を示
す。
【0031】文字切り出し部11、文字認識部12、文字修
正部18、単語不正解度演算部19、訂正単語正解率データ
20、単語誤訂正度演算部21、リジェクト処理部22は、第
1の発明の実施例と同じである。
正部18、単語不正解度演算部19、訂正単語正解率データ
20、単語誤訂正度演算部21、リジェクト処理部22は、第
1の発明の実施例と同じである。
【0032】リジェクト文字置換処理部23は、リジェク
ト処理部22からリジェクト文字を受け取り、修正文字列
に対してリジェクト文字を文字認識部12における第1候
補文字と置き換える。
ト処理部22からリジェクト文字を受け取り、修正文字列
に対してリジェクト文字を文字認識部12における第1候
補文字と置き換える。
【0033】上記の構成の文字認識装置において次のよ
うにして文字認識を行う。まず、認識対象の文書画像を
文字切り出し部11で処理し、1文字ごとの領域に画像を
切り出す。次に、文字認識部12で、切り出された1文字
ごとの画像に対して文字認識を行い、1文字につき第1
候補文字から第n候補文字までのn個の候補文字を持つ
候補文字集合を出力する。
うにして文字認識を行う。まず、認識対象の文書画像を
文字切り出し部11で処理し、1文字ごとの領域に画像を
切り出す。次に、文字認識部12で、切り出された1文字
ごとの画像に対して文字認識を行い、1文字につき第1
候補文字から第n候補文字までのn個の候補文字を持つ
候補文字集合を出力する。
【0034】さらに、文節検索部13で、単語辞書16を検
索することにより候補文字集合の組み合わせの中から、
単語辞書16に存在する単語と一致する候補文字の組み合
わせを選び出し、さらに、文法辞書17を参照して文節と
なりえる単語の組み合わせを選び出す。文節検索部13で
検索された文節の語彙的および文法的な正しさを文節中
の単語の長さや頻度などを基準として文節評価値を計算
する。文節評価値を求めた候補文節に対して文節評価値
を基準にして、文節選択部15で正しい文節の組み合わせ
を選択し修正文字列を出力する。
索することにより候補文字集合の組み合わせの中から、
単語辞書16に存在する単語と一致する候補文字の組み合
わせを選び出し、さらに、文法辞書17を参照して文節と
なりえる単語の組み合わせを選び出す。文節検索部13で
検索された文節の語彙的および文法的な正しさを文節中
の単語の長さや頻度などを基準として文節評価値を計算
する。文節評価値を求めた候補文節に対して文節評価値
を基準にして、文節選択部15で正しい文節の組み合わせ
を選択し修正文字列を出力する。
【0035】単語不正解度演算部19で、第1の発明の実
施例と同様にして単語不正解度を計算し、単語誤訂正度
演算部21で、第1の発明の実施例と同様にして単語誤訂
正度を計算する。
施例と同様にして単語不正解度を計算し、単語誤訂正度
演算部21で、第1の発明の実施例と同様にして単語誤訂
正度を計算する。
【0036】単語リジェクト部22は、各単語の単語誤訂
正度を調べ、単語誤訂正度がある閾値以上であれば、そ
の単語に含まれる文字をリジェクト文字として出力す
る。
正度を調べ、単語誤訂正度がある閾値以上であれば、そ
の単語に含まれる文字をリジェクト文字として出力す
る。
【0037】リジェクト文字置換処理部23は、修正文字
列の中でリジェクト文字である文字に対して、修正文字
を文字認識部12における第1候補文字と置き換え、認識
文字列として出力する。
列の中でリジェクト文字である文字に対して、修正文字
を文字認識部12における第1候補文字と置き換え、認識
文字列として出力する。
【0038】本実施例により文字認識を行った結果の一
部を図4に示す。図4の(1)では、「正確な」という文
字の認識に対して、『確』の文字が候補文字集合に入っ
ていないために修正文字列が「5枚だ」となった。この
修正文字列に対して、リジェクト処理部22は、3文字す
べてリジェクト文字として出力し、リジェクト文字置換
処理部23では、修正文字列中のリジェクト文字を第1候
補文字と置換した結果、認識文字列は、「正磁な」とな
った。図4の(2)では、「ユーラシア大陸に」という文
字の認識に対して、『ユーラシア』の単語が単語辞書16
にないために修正文字列が「二一ラン7人陸に」となっ
た。この修正文字列に対して、リジェクト処理部22は、
「二一ラン7人」の6文字をリジェクト文字として出力
し、リジェクト文字置換処理部23では、修正文字列中の
リジェクト文字を第1候補文字と置換した結果、認識文
字列は、「ユーラシア大陸に」となった。このように、
リジェクト文字を文字認識部12の第1候補文字と置換す
ることにより、候補文字集合に入らない文字や単語辞書
16の未登録語があっても誤訂正による文字認識率の低下
を防ぐことができる。
部を図4に示す。図4の(1)では、「正確な」という文
字の認識に対して、『確』の文字が候補文字集合に入っ
ていないために修正文字列が「5枚だ」となった。この
修正文字列に対して、リジェクト処理部22は、3文字す
べてリジェクト文字として出力し、リジェクト文字置換
処理部23では、修正文字列中のリジェクト文字を第1候
補文字と置換した結果、認識文字列は、「正磁な」とな
った。図4の(2)では、「ユーラシア大陸に」という文
字の認識に対して、『ユーラシア』の単語が単語辞書16
にないために修正文字列が「二一ラン7人陸に」となっ
た。この修正文字列に対して、リジェクト処理部22は、
「二一ラン7人」の6文字をリジェクト文字として出力
し、リジェクト文字置換処理部23では、修正文字列中の
リジェクト文字を第1候補文字と置換した結果、認識文
字列は、「ユーラシア大陸に」となった。このように、
リジェクト文字を文字認識部12の第1候補文字と置換す
ることにより、候補文字集合に入らない文字や単語辞書
16の未登録語があっても誤訂正による文字認識率の低下
を防ぐことができる。
【0039】次に、第3の発明の実施例について説明す
る。図1にこの実施例の文字認識装置の全体の構成を示
す。
る。図1にこの実施例の文字認識装置の全体の構成を示
す。
【0040】文字切り出し部11、文字認識部12、文字修
正部18、単語不正解度演算部19、訂正単語正解率データ
20、単語誤訂正度演算部21、リジェクト処理部22は、リ
ジェクト文字置換処理部23は第1の発明の実施例と同じ
である。
正部18、単語不正解度演算部19、訂正単語正解率データ
20、単語誤訂正度演算部21、リジェクト処理部22は、リ
ジェクト文字置換処理部23は第1の発明の実施例と同じ
である。
【0041】再切り出し位置指示部24は、リジェクト文
字の文書画像中の領域を調べ文字切り出し部11に再切り
出し位置を指示する。
字の文書画像中の領域を調べ文字切り出し部11に再切り
出し位置を指示する。
【0042】上記の構成の文字認識装置において次のよ
うにして文字認識を行う。まず、認識対象の文書画像を
文字切り出し部11で処理し、1文字ごとの領域に画像を
切り出す。次に、文字認識部12で、切り出された1文字
ごとの画像に対して文字認識を行い、1文字につき第1
候補文字から第n候補文字までのn個の候補文字を持つ
候補文字集合を出力する。
うにして文字認識を行う。まず、認識対象の文書画像を
文字切り出し部11で処理し、1文字ごとの領域に画像を
切り出す。次に、文字認識部12で、切り出された1文字
ごとの画像に対して文字認識を行い、1文字につき第1
候補文字から第n候補文字までのn個の候補文字を持つ
候補文字集合を出力する。
【0043】さらに、文節検索部13で、単語辞書16を検
索することにより候補文字集合の組み合わせの中から、
単語辞書16に存在する単語と一致する候補文字の組み合
わせを選び出し、さらに、文法辞書17を参照して文節と
なりえる単語の組み合わせを選び出す。文節検索部13で
検索された文節の語彙的および文法的な正しさを文節中
の単語の長さや頻度などを基準として文節評価値を計算
する。文節評価値を求めた候補文節に対して文節評価値
を基準にして、文節選択部15で正しい文節の組み合わせ
を選択し修正文字列を出力する。
索することにより候補文字集合の組み合わせの中から、
単語辞書16に存在する単語と一致する候補文字の組み合
わせを選び出し、さらに、文法辞書17を参照して文節と
なりえる単語の組み合わせを選び出す。文節検索部13で
検索された文節の語彙的および文法的な正しさを文節中
の単語の長さや頻度などを基準として文節評価値を計算
する。文節評価値を求めた候補文節に対して文節評価値
を基準にして、文節選択部15で正しい文節の組み合わせ
を選択し修正文字列を出力する。
【0044】単語不正解度演算部19で、第1の発明の実
施例と同様にして単語不正解度を計算し、単語誤訂正度
演算部21で、第1の発明の実施例と同様にして単語誤訂
正度を計算する。
施例と同様にして単語不正解度を計算し、単語誤訂正度
演算部21で、第1の発明の実施例と同様にして単語誤訂
正度を計算する。
【0045】単語リジェクト部22は、各単語の単語誤訂
正度を調べ、単語誤訂正度がある閾値以上であれば、そ
の単語に含まれる文字をリジェクト文字として出力す
る。
正度を調べ、単語誤訂正度がある閾値以上であれば、そ
の単語に含まれる文字をリジェクト文字として出力す
る。
【0046】再切り出し位置指示部24は、リジェクト文
字の文書画像中での領域を調べ、その位置を文字切り出
し部11に指示する。文字切り出し部11は、指示された領
域を初めに切り出した時とは別の文字領域に分割する切
り出しをする。新たに切り出された文字領域に対して、
文字認識部12で、切り出された1文字ごとの画像に対し
て文字認識を行い、1文字につき第1候補文字から第n
候補文字までのn個の候補文字を持つ候補文字集合を出
力する。
字の文書画像中での領域を調べ、その位置を文字切り出
し部11に指示する。文字切り出し部11は、指示された領
域を初めに切り出した時とは別の文字領域に分割する切
り出しをする。新たに切り出された文字領域に対して、
文字認識部12で、切り出された1文字ごとの画像に対し
て文字認識を行い、1文字につき第1候補文字から第n
候補文字までのn個の候補文字を持つ候補文字集合を出
力する。
【0047】さらに、初めに文字認識した候補文字集合
とリジェクト文字に対応する文書領域から文字認識した
候補文字集合を合わせて、再度、文節検索部13で、単語
辞書16を検索することにより候補文字集合の組み合わせ
の中から、単語辞書16に存在する単語と一致する候補文
字の組み合わせを選び出し、さらに、文法辞書17を参照
して文節となりえる単語の組み合わせを選び出す。文節
検索部13で検索された文節の語彙的および文法的な正し
さを文節中の単語の長さや頻度などを基準として文節評
価値を計算する。文節評価値を求めた候補文節に対して
文節評価値を基準にして、文節選択部15で正しい文節の
組み合わせを選択し修正文字列を出力する。
とリジェクト文字に対応する文書領域から文字認識した
候補文字集合を合わせて、再度、文節検索部13で、単語
辞書16を検索することにより候補文字集合の組み合わせ
の中から、単語辞書16に存在する単語と一致する候補文
字の組み合わせを選び出し、さらに、文法辞書17を参照
して文節となりえる単語の組み合わせを選び出す。文節
検索部13で検索された文節の語彙的および文法的な正し
さを文節中の単語の長さや頻度などを基準として文節評
価値を計算する。文節評価値を求めた候補文節に対して
文節評価値を基準にして、文節選択部15で正しい文節の
組み合わせを選択し修正文字列を出力する。
【0048】単語不正解度演算部19で、第1の発明の実
施例と同様にして単語不正解度を計算し、単語誤訂正度
演算部21で、第1の発明の実施例と同様にして単語誤訂
正度を計算する。
施例と同様にして単語不正解度を計算し、単語誤訂正度
演算部21で、第1の発明の実施例と同様にして単語誤訂
正度を計算する。
【0049】単語リジェクト部22は、各単語の単語誤訂
正度を調べ、単語誤訂正度がある閾値以上であれば、そ
の単語に含まれる文字をリジェクト文字として出力す
る。
正度を調べ、単語誤訂正度がある閾値以上であれば、そ
の単語に含まれる文字をリジェクト文字として出力す
る。
【0050】リジェクト文字置換処理部23は、修正文字
列の中でリジェクト文字である文字に対して、修正文字
を文字認識部12における第1候補文字と置き換え、認識
文字列として出力する。
列の中でリジェクト文字である文字に対して、修正文字
を文字認識部12における第1候補文字と置き換え、認識
文字列として出力する。
【0051】本実施例により文字認識を行った結果の一
部を図5に示す。図5では、正解文字列「1000字」
に対して、文字切り出し部11での最初の切り出しでは、
「10」と「00」を1文字の領域として出力した。そ
のため最初の修正文字列は、「刈皿字」となった。この
修正文字列に対して、リジェクト処理部22は、3文字す
べてをリジェクト文字として出力した。このリジェクト
文字に対応する文字領域を文字切り出し部11で再度切り
出したところ、「1000字」のすべての文字が正確に
切り出せた。この切り出し結果に対する修正文字列は、
「1000字」となり、さらに、この修正文字列に対す
るリジェクト文字はなく、認識文字列として「1000
字」が出力され、正解文字列を認識文字列として出力す
ることができた。このように、リジェクト文字に対応す
る文字領域を再度切り出し処理することにより、初めに
切り出し誤りのあっても、文字の切り出しを正しく行う
ことができる。よって、切り出し誤りが減少するために
文字認識の認識率を向上させることができる。
部を図5に示す。図5では、正解文字列「1000字」
に対して、文字切り出し部11での最初の切り出しでは、
「10」と「00」を1文字の領域として出力した。そ
のため最初の修正文字列は、「刈皿字」となった。この
修正文字列に対して、リジェクト処理部22は、3文字す
べてをリジェクト文字として出力した。このリジェクト
文字に対応する文字領域を文字切り出し部11で再度切り
出したところ、「1000字」のすべての文字が正確に
切り出せた。この切り出し結果に対する修正文字列は、
「1000字」となり、さらに、この修正文字列に対す
るリジェクト文字はなく、認識文字列として「1000
字」が出力され、正解文字列を認識文字列として出力す
ることができた。このように、リジェクト文字に対応す
る文字領域を再度切り出し処理することにより、初めに
切り出し誤りのあっても、文字の切り出しを正しく行う
ことができる。よって、切り出し誤りが減少するために
文字認識の認識率を向上させることができる。
【0052】なお、本実施例では一度文字修正部18で処
理した修正文字列からリジェクト文字を決定し、そのリ
ジェクト文字の領域をもう一度切り出し処理し、その切
り出しの結果から作られた候補文字集合を基に修正文字
列、認識文字列を出力したが、さらに、この結果で出力
されたリジェクト文字の領域をもう一度切り出し処理し
ても良い。
理した修正文字列からリジェクト文字を決定し、そのリ
ジェクト文字の領域をもう一度切り出し処理し、その切
り出しの結果から作られた候補文字集合を基に修正文字
列、認識文字列を出力したが、さらに、この結果で出力
されたリジェクト文字の領域をもう一度切り出し処理し
ても良い。
【0053】これらの実施例で示したように修正文字列
と各文字の文字認識部12の評価からリジェクト文字を得
ることができ、リジェクト文字の領域を再度文字切り出
し処理することにより、切り出し誤りを減らすことがで
きる。また、リジェクト文字を文字認識部12の第1候補
文字と置き換えることにより、文字認識部12で正解文字
が候補文字集合に入らない文字や単語辞書16の未登録語
があっても、誤訂正をなくすことができ、文字認識率を
向上することができる。
と各文字の文字認識部12の評価からリジェクト文字を得
ることができ、リジェクト文字の領域を再度文字切り出
し処理することにより、切り出し誤りを減らすことがで
きる。また、リジェクト文字を文字認識部12の第1候補
文字と置き換えることにより、文字認識部12で正解文字
が候補文字集合に入らない文字や単語辞書16の未登録語
があっても、誤訂正をなくすことができ、文字認識率を
向上することができる。
【0054】
【発明の効果】本発明の構成の文字認識装置を使用する
ことにより、訂正単語の正解率を基準にして修正文字列
と文字認識部での評価からリジェクト文字を決定する。
これにより、候補文節が複数存在する一般の文書であっ
てもリジェクト文字を決めることができる。
ことにより、訂正単語の正解率を基準にして修正文字列
と文字認識部での評価からリジェクト文字を決定する。
これにより、候補文節が複数存在する一般の文書であっ
てもリジェクト文字を決めることができる。
【0055】このリジェクト文字を用いて、修正文字列
中のリジェクト文字の部分を文字認識部における第1候
補文字に置き換えることにより、文字認識部12で正解文
字が候補文字集合に入らない文字や単語辞書16の未登録
語による誤訂正を防ぐことができる。
中のリジェクト文字の部分を文字認識部における第1候
補文字に置き換えることにより、文字認識部12で正解文
字が候補文字集合に入らない文字や単語辞書16の未登録
語による誤訂正を防ぐことができる。
【0056】また、リジェクト文字の文書画像における
文字領域を再度文字切り出し処理することにより、切り
出し誤りによる誤訂正を防ぐことができる。
文字領域を再度文字切り出し処理することにより、切り
出し誤りによる誤訂正を防ぐことができる。
【0057】以上の構成で文字認識を行うために認識率
が向上し、その実用的効果は大きい。
が向上し、その実用的効果は大きい。
【図1】本発明の第3の実施例の文字認識装置の構成図
【図2】本発明の第1の実施例の文字認識装置の構成図
【図3】本発明の第2の実施例の文字認識装置の構成図
【図4】本発明の第2の実施例の実験結果出力図
【図5】本発明の第3の実施例の実験結果出力図
【図6】従来の文字認識装置の構成図
11 文字切り出し部 12 文字認識部 13 文節検索部 14 文節評価値演算部 15 文節選択部 16 単語辞書 17 文法辞書 18 文字修正部 19 単語不正解度演算部 20 訂正単語正解率データ 21 単語誤訂正度演算部 22 リジェクト処理部 23 リジェクト文字置換処理部 24 再切り出し位置指示部 31 候補文節比較部 32 候補文字列比較部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 前川 英嗣 大阪府門真市大字門真1006番地 松下電器 産業株式会社内
Claims (3)
- 【請求項1】文書画像を1文字ごとの領域に切り出す文
字切り出し部と、1文字に付きN個の候補文字を出力す
る文字認識部と、候補文字列の集合から語彙的及び文法
的に正しい文節を検索する文節検索部と、文節の語彙的
および文法的な正しさを計算する文節評価値演算部と、
文節の評価値を基準にして文節を選択し修正文字列を出
力する文節選択部と、訂正単語の正解率データを基準に
して修正文字列中の単語の不正解度を求める単語不正解
度演算部と、修正文字列中の単語の誤訂正度を求める単
語誤訂正度演算部と、単語誤訂正度からリジェクト文字
を決定するリジェクト処理部とを備えたことを特徴とす
る文字認識装置。 - 【請求項2】文書画像を1文字ごとの領域に切り出す文
字切り出し部と、1文字に付きN個の候補文字を出力す
る文字認識部と、候補文字列の集合から語彙的及び文法
的に正しい文節を検索する文節検索部と、文節の語彙的
および文法的な正しさを計算する文節評価値演算部と、
文節の評価値を基準にして文節を選択し修正文字列を出
力する文節選択部と、訂正単語の正解率データを基準に
して修正文字列中の単語の不正解度を求める単語不正解
度演算部と、修正文字列中の単語の誤訂正度を求める単
語誤訂正度演算部と、単語誤訂正度からリジェクト文字
を決定するリジェクト処理部と、修正文字列中のリジェ
クト文字を文字認識部での第1候補文字に置き換えるリ
ジェクト文字置換処理部とを備えたことを特徴とする文
字認識装置。 - 【請求項3】文書画像を1文字ごとの領域に切り出す文
字切り出し部と、1文字に付きN個の候補文字を出力す
る文字認識部と、候補文字列の集合から語彙的及び文法
的に正しい文節を検索する文節検索部と、文節の語彙的
および文法的な正しさを計算する文節評価値演算部と、
文節の評価値を基準にして文節を選択し修正文字列を出
力する文節選択部と、訂正単語の正解率データを基準に
して修正文字列中の単語の不正解度を求める単語不正解
度演算部と、修正文字列中の単語の誤訂正度を求める単
語誤訂正度演算部と、単語誤訂正度からリジェクト文字
を決定するリジェクト処理部と、修正文字列中のリジェ
クト文字を文字認識部での第1候補文字に置き換えるリ
ジェクト文字置換処理部と、リジェクト文字の文書画像
での領域の再切り出しを指示する再切り出し位置指示部
とを備えたことを特徴とする文字認識装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4257801A JPH06111076A (ja) | 1992-09-28 | 1992-09-28 | 文字認識装置 |
US08/513,294 US6041141A (en) | 1992-09-28 | 1995-08-10 | Character recognition machine utilizing language processing |
US08/965,534 US5987170A (en) | 1992-09-28 | 1997-11-06 | Character recognition machine utilizing language processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4257801A JPH06111076A (ja) | 1992-09-28 | 1992-09-28 | 文字認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06111076A true JPH06111076A (ja) | 1994-04-22 |
Family
ID=17311302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4257801A Pending JPH06111076A (ja) | 1992-09-28 | 1992-09-28 | 文字認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06111076A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794485A (zh) * | 2015-04-09 | 2015-07-22 | 广东小天才科技有限公司 | 一种识别书写字的方法及装置 |
-
1992
- 1992-09-28 JP JP4257801A patent/JPH06111076A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794485A (zh) * | 2015-04-09 | 2015-07-22 | 广东小天才科技有限公司 | 一种识别书写字的方法及装置 |
CN104794485B (zh) * | 2015-04-09 | 2018-04-03 | 广东小天才科技有限公司 | 一种识别书写字的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH06111076A (ja) | 文字認識装置 | |
JP4047895B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JPH07262320A (ja) | 住所認識装置 | |
JPH09325962A (ja) | 文書校正装置およびプログラム記憶媒体 | |
JPH09274645A (ja) | 文字認識方法および装置 | |
JP4318223B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JP3350127B2 (ja) | 文字認識装置 | |
JPH0528324A (ja) | 英文字認識装置 | |
JPH06348911A (ja) | 英文字認識装置 | |
JPH07271921A (ja) | 文字認識装置および文字認識方法 | |
JPH09185674A (ja) | 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法 | |
JP3085107B2 (ja) | 文字認識装置 | |
JP3595081B2 (ja) | 文字認識方法 | |
JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
JP2006338682A (ja) | 文書校正装置およびプログラム記憶媒体 | |
JPH06119497A (ja) | 文字認識方法 | |
JP3345469B2 (ja) | 単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置 | |
JPH0757059A (ja) | 文字認識装置 | |
JPH04120679A (ja) | 英文字認識装置 | |
JP3665435B2 (ja) | 文字認識装置および文字認識方法 | |
JP3123181B2 (ja) | 文字認識装置 | |
JPH0290384A (ja) | 文字認識装置の後処理方式 | |
JPH01277989A (ja) | 文字列パターン読み取り装置 | |
JPS60138689A (ja) | 文字認識方法 | |
JPS63150788A (ja) | 文字認識装置 |