JP4049289B2 - 文字認識方法、文字認識装置及び記録媒体 - Google Patents

文字認識方法、文字認識装置及び記録媒体 Download PDF

Info

Publication number
JP4049289B2
JP4049289B2 JP22075299A JP22075299A JP4049289B2 JP 4049289 B2 JP4049289 B2 JP 4049289B2 JP 22075299 A JP22075299 A JP 22075299A JP 22075299 A JP22075299 A JP 22075299A JP 4049289 B2 JP4049289 B2 JP 4049289B2
Authority
JP
Japan
Prior art keywords
character
recognized
image
character image
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22075299A
Other languages
English (en)
Other versions
JP2001052114A (ja
Inventor
秀明 山形
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP22075299A priority Critical patent/JP4049289B2/ja
Publication of JP2001052114A publication Critical patent/JP2001052114A/ja
Application granted granted Critical
Publication of JP4049289B2 publication Critical patent/JP4049289B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文字認識技術に関する。
【0002】
【従来の技術】
文字認識系においては、一般に、高い認識率を得ようとすると非常に複雑な特徴抽出やマッチング処理を用いるため、処理に時間がかかるという問題がある。この処理時間の問題を解決する1つの手法として、認識処理を終わった文字画像と認識結果を対応付けて保存しておき、認識しようとする文字画像を認識済みの文字画像と比較し、同一とみなせる認識済み文字画像が見つかった場合には、その認識済み文字画像に対応して保存されている認識結果を、そのまま認識結果として出力する、いわゆる画像キャッシュ処理を利用する方法が知られている(例えば、特開平7−72906号)。
【0003】
【発明が解決しようとする課題】
このような画像キャッシュ処理を利用する方法は、特開平7−72906号公報に見られるように、文字画像の比較処理と、認識処理とを並行して実行し、文字画像の比較処理で一致がとれた場合に認識処理を中止させるような装置構成とすれば、認識済みの文字画像と同一の文字画像がほとんど出現しない場合でも、格別不都合はない。しかし、まず文字画像の比較を行い、一致しないことが判明した段階で文字認識処理を開始するような順次処理とした場合、認識済み文字画像と同じ文字画像が繰り返し出現する頻度が低いと、文字画像の比較及び文字画像と認識結果の保存のための処理が増える分だけ、かえって処理時間が増加するという問題がある。特に、このような文字認識方法を一般的なコンピュータを利用しソフトウェアによって実施する場合には順次処理となることが多いため、その問題点は重要である。
【0004】
本発明の目的は、そのような問題点を解決した文字認識方法及び装置を提供することにある。
【0005】
【課題を解決するための手段】
上記目的を達成するため、本発明の主たる特徴は、入力画像中の認識対象文字数が所定値を越えるか否かを判断し、認識対象文字数が所定値を越えないと判断される場合には画像キャッシュ処理を無効とし、認識対象文字数が所定値を越えると判断される場合にのみ画像キャッシュ処理を有効にするとこにある。このような本発明の特徴、その他の特徴について以下に詳細に説明する。
【0006】
【発明の実施の形態】
以下、添付図面を参照し、本発明の実施の形態を説明する。なお、説明の繰り返しを避けるため、添付図面中の複数の図面において、同一部分又は対応部分に対して同一又は同様の参照符号を用いる。
【0007】
図1は、本発明による文字認識装置のブロック構成の一例を示す。ここに示す文字認識装置は、画像入力部100、認識処理部110、画像キャッシュ制御部120、文字認識用辞書122、言語辞書123、及び、画像キャッシュ記憶部121から構成される。
【0008】
画像入力部100は、文書画像(文書全体の画像又は文書中の個々の認識対象領域の画像)を入力する部分である。具体的には、画像入力部100は、例えば、イメージスキャナ等の画像入力機器を利用して文書原稿をスキャンして画像を取り込んだり、記録媒体から画像を読み込んだり、あるいは、通信回線を介して外部から画像を取り込んだりする。なお、入力された文書画像や、それに対する処理の過程で発生するデータ等を記憶するための記憶装置も当然に存在するが、図中には明示されていない。
【0009】
認識処理部110は、文書画像上の文字画像の切り出しを行う文字切り出し部112、切り出された文字画像と画像キャッシュ記憶部121に記憶されている文字画像との比較を行う文字画像比較部112、文字画像の特徴を用いて1文字単位の文字認識を行う文字認識部113、文字認識部113による認識結果に対する後処理を行う後処理部114、文字認識部113による文字画像に対する認識結果(マッチング結果)を、その文字画像と対応付けて画像キャッシュ記憶部121に保存する処理を行うキャッシュ処理部115、及び、それら各部の動作の制御及び文字認識結果の確信度の計算等を行う制御部116からなる。文字認識用辞書122は文字認識部113による1文字単位の文字認識のために利用される辞書である。言語辞書123は、後処理部114による後処理のために利用される単語等の言語知識を格納した辞書である。画像キャッシュ記憶部121は、キャッシュ処理部115によって、文字の画像(あるいは、その文字の入力画像上での座標)に対応付けて、文字認識部113による認識結果)が書き込まれる記憶部である。
【0010】
画像キャッシュ制御部120は、画像入力部100による入力画像(文書全体又は個々の認識対象領域の画像、以下同様)中の認識対象文字数が所定値を超える否かを判断して、認識処理部110における画像キャッシュ処理を有効又は無効にする部分である。
【0011】
このような本発明による文字認識装置は、専用のハードウェアとして実現してもよいし、一般的な構成のコンピュータ上でソフトウェアによって実現してもよい。後者の場合、画像入力部100、認識処理部110、画像キャッシュ制御部120の機能をコンピュータ上で実現させるためのプログラム、換言すれば、本発明による文書認識方法のための処理ステップを実行させるためのプログラムが、コンピュータのメモリにロードされてCPUにより実行される。そのようなプログラムが記録されたフロッピーディスク、CD−ROM、RAM、ROM等の記録媒体も本発明に包含される。
【0012】
本発明による文字認識装置は、その一部の構成要素間をネットワークを介して接続するような構成としてもよい。例えば図2に示すように、クライアント/サーバー・システム上に本発明による文字認識装置を構築し、サーバー130側に認識処理部110と画像キャッシュ制御部120を置き、サーバー130とネットワーク135を介して接続された各クライアント140側に、文字認識用辞書122、言語辞書123及び画像キャッシュ記憶部121を置くような構成が可能である。処理対象となる文書の種類はユーザによって異なる場合が多いので、扱われる文書に用いられるフォント、文字、語句などもユーザ毎に違いがあることが多い。したがって、この例のように、複数のユーザで共通の認識処理部110を利用するようなシステム構成の場合には、ユーザ別の文字認識用辞書122、言語辞書123及び画像キャッシュ記憶部121を各クライアント140側に配置し、特定のユーザの文書に対する処理に、そのユーザ専用の文字認識用辞書122、言語辞書123及び画像キャッシュ記憶部121を利用できるような構成は認識精度や処理効率の面で有利である。また、認識処理部110の性能向上などは、認識処理部110そのもの、又はそのためのプログラムの更新をサーバー130側だけで処置することができ、その性能向上の利益を各ユーザが享受できる等のメリットがある。
【0013】
以下、図1又は図2に示したような本発明の文字認識装置の動作について説明する。まず、画像キャッシュ制御部120における処理について説明する。図3は、そのフローチャートである。
【0014】
画像キャッシュ制御部120において、画像入力部100による入力画像中の認識対象文字数を推定する(ステップ200)。その推定は、後述のように様々な方法によって行うことが可能である。
【0015】
文字画像の比較処理を、1文字分の文字認識処理(特徴抽出処理やマッチング処理)よりも高速に行うことができる場合、文書画像中の認識対象文字数が多いほど同じ文字画像が繰り返し出現する可能性が高いた。したがって、画像キャッシュ処理を利用すると、文書画像中の認識対象文字数と1文字単位の文字認識処理速度との間には、一般に図4に示すような関係が認められる。ここに示す処理速度は、画像キャッシュ処理を行わない場合の速度を100として、画像キャッシュ処理を利用した場合の相対処理速度である。認識対象文字数が閾値αを越えると、画像キャッシュ処理による処理速度の向上が見込まれるわけである。この文字数の閾値αは、認識対象文書の種類(オフィス文書、新聞、帳票など)によって異なるため、文字認識装置がターゲットとする文書毎に予め調べておく必要がある。また、入力画像中の文字数は、文字認識が完了するまでは確定しないため、画像キャッシュ制御部120においては前述のように推定文字数を用いることになるが、推定文字数は推定方法によって値が変動するものであり、必ずしも実際の認識対象文字数とは一致しない。したがって、採用する推定方法に応じて、推定した文字数と実際の文字数とのずれを考慮し、予め文字数閾値αの修正値を用意する必要がある。以下の説明においては、文字数閾値αは、そのような修正が施された値であるものとする。
【0016】
画像キャッシュ制御部120は、推定した文字数が閾値αを越えているか調べる(ステップ201)。推定した文字数が閾値αを越えている場合には、認識処理部110における画像キャッシュ処理を有効に設定し(ステップ202)、そうでない場合は画像キャッシュ処理を無効に設定する(ステップ203)。画像キャッシュ処理が無効に設定された場合、認識処理部110の文字画像比較部112とキャッシュ処理部115は動作しない。
【0017】
前述のように、認識対象文字数の推定は様々な方法によって行うことができるが、そのいくつかの例を以下に示す。
【0018】
一実施例によれば、入力画像中の文字行数Nl と、認識対象の文書について予め見積もった行内の文字数Nc を掛け合わせて、認識対象文字数Nt を推定する。認識処理部110の文字切り出し部111は、通常、文字行の切り出しを行ってから1文字単位の文字画像の切り出しを行うことが多いので、文字切り出し部111によって切り出された文字行の数をNl として用いることができる。ただし、文字行の切り出しは、入力画像の行方向の射影等を利用することで容易に行うことが可能であるので、画像キャッシュ制御部120において文字行数Nl を実際に測定してもよい。
【0019】
なお、行内の文字数Nc の見積もりが困難な場合は、文字行数に定数を掛け合わせることによって認識対象文字数を推定することも可能である(それに対応して文字数閾値αも修正しておく必要がある)。このようにすると文字数の推定精度が低いため、結果として画像キャッシュ処理の有効/無効の判断の精度は低下するが、文字数閾値αを適切に修正すれば、最悪でも処理速度の低下を発生させないようにすることは可能である。
【0020】
もう1つの実施例によれば、入力画像の各行内の文字数Nc を推定し、それ全行について累積することにより入力画像中の認識対象文字数Nt を推定する。各行内の文字数Nc の推定は、例えば、行の幅Lw と高さLh を測定し、
Nc =Lw /Lh
で計算することができる。ただし、この計算式は、認識対象とする文書のフォントや印字ピッチ等に応じて適宜変更してよい。行の幅Lw と高さLh は、認識処理部110の文字切り出し部111による行切り出しの際に求まるので、それを利用してもよい。ただし、前述のような射影を利用するような方法により簡単な行切り出しを画像キャッシュ制御部120で行って、行の切り出しと、その各行の幅と高さを測定してもよい。なお、全ての文字行の幅と高さが均一とみなせる文書を対象とする場合には、1つの行について行内文字数を推定し、それに行数を掛け合わせて認識対象文字数を推定してもよい。
【0021】
他の実施例によれば、認識処理部110の文字切り出し部111により入力画像から切り出された文字画像の個数を、そのまま認識対象文字数と推定するか、あるいは、その文字画像個数に適当な補正定数を掛けて修正した値を認識対象文字数と推定する。認識処理部110において、文字切り出し部111で切り出した画像を文字画像の候補として扱って文字認識を行い、後処理部114による後処理において、例えば特開平5−35917号公報や特開平9−297817号公報等に述べられているような、切り出された前後の文字画像候補中から文字らしい画像を最終的に文字画像として選択する、いわゆるパス選択処理を行うような場合には、文字切り出しで切り出された文字数は最終的に出力される認識結果の文字数とは一致しないことが多い。しかし、その誤差を予めを考慮して文字数閾値αを修正しておけば、画像キャッシュ処理の有効/無効を適切に判断可能である。
【0022】
別の実施例によれば、入力画像中の黒画素の連結成分(黒画素がつなかっている塊)の個数Nr から認識対象文字数Nt を推定する。黒画素の連結成分の個数と、実際の文字数との間には正の相関が認められるため、その相関を予め求めておくことで、このような推定が可能である。例えば、最も簡単な例としては、黒画素連結成分数Nr と実際の文字数Nt との間に
Nt =A・Nr (Aは定数)
なる相関がある場合には、測定した黒画素連結成分数に定数Aを掛け合わせるだけで認識対象文字数Nt を推定できる。なお、黒画素連結成分の個数を画像キャッシュ制御部120で実際に測定してもよいが、認識処理部110の文字切り出し部111において文字切り出しの際に黒画素連結成分の抽出が行われる場合には、そこで抽出された黒画素連結成分の個数を利用してもよい。
【0023】
もう1つの実施例によれば、上に述べた黒画素の連結成分の個数の代わりに、ランの個数を用いて、同様に認識対象文字数を推定する。もう1つの実施例によれば、上に述べた黒画素の連結成分の個数の代わりに、輪郭の長さ(黒画素と白画素の隣り合わせの個数)を用いて、同様の認識対象文字数の推定を行う。また別の実施例によれば、文字画像の大きさ(認識対象領域の大きさ)から、認識対象文字数を推定する。以上、認識対象文字数の推定方法の例を挙げたが、他の推定方法を用いてもよい。
【0024】
次に、認識処理部110の動作を説明する。図5は、その処理フローの一例を示すフローチャートである。
【0025】
まず、文字切り出し部111において、画像入力部100により入力された画像(前述のように、文書全体の画像又は個々の文字認識対象領域の画像)から文字画像を1文字単位で切り出す(ステップ300)。この文字切り出しの方法は任意であるが、行切り出しを行ってから行内の文字を切り出す方法であれば、前述のように、切り出した行の個数を画像キャッシュ制御部120で認識対象文字数の推定に利用可能である。また、文字切り出しの際に黒画素の連結成分の抽出を行う方法であれば、前述のように連結成分の個数を認識対象文字数の推定に利用できる。この文字切り出しでは必ずしも正確に1文字単位で文字画像が切り出される必要はなく、文字画像の候補が切り出されればよい。なお、ここでは入力画像中の全ての文字画像の切り出しを一括して行うものとして説明するが、1行単位で文字切り出しと文字認識を行うような構成としてもよい。
【0026】
次に、制御部116は、画像キャッシュ制御部120によって画像キャッシュ処理が有効に設定されるか無効に設定されるかによって、処理フローの切り替えを行う(ステップ301)。すなわち、画像キャッシュ処理が有効に設定された場合には、ステップ306以降の処理が選択され、文字画像比較部112及びキャッシュ処理部115が動作可能となる。画像キャッシュ処理が無効に設定された場合には、ステップ302以降の処理が選択され、文字画像比較部112及びキャッシュ処理部115の動作は抑止される。
【0027】
《画像キャッシュ処理が無効の場合》 まず、画像キャッシュ処理が無効に設定された場合の動作を説明する。文字認識部113において、文字切り出し部111から入力された文字画像の特徴量を抽出し、その特徴量と文字認識用辞書122に格納されている特徴量とのマッチングを行うことにより、認識結果を得る
(ステップ302)。次に、後処理部114において、文字認識部113により得られた認識結果(マッチング結果)に対する後処理を行う(ステップ303)。この後処理において、前述のようなパス選択処理を行って文字切り出しの修正をしてもよい。
【0028】
同様の処理を繰り返し、未処理の文字画像が無くなると(ステップ304,Yes)、制御部116は最終的な認識結果を外部の記録媒体やディスプレイ等へ出力し(ステップ305)処理を終了する。
【0029】
1文字単位の文字認識処理(ステップ303,308)及びその後処理(ステップ303,309,313)には様々な手法を用いることができ、また、文字認識用辞書122として様々な構成のものを用いることができる。ここでは、1つの具体例として、図6に示すような構成の文字認識用辞書122を用いる場合について説明する。
【0030】
ここに示す文字認識用辞書122は、文字認識用特徴量(例えば公知の多層方向ヒストグラムによる特徴量)を含む辞書レコードに、その文字認識用特徴量を持つ文字のコードを含む候補データを1つ又は2つ以上リンクさせ、さらに必要に応じて類似文字処理データを候補データにリンクさせた構成である(辞書レコードと候補データの詳細構造は図8を参照)。
【0031】
文字認識用特徴量の抽出は文字画像を正規化した後に行われるのが一般的であるため、文字認識用特徴量だけでは区別が困難な類似文字も少なくない。類似文字処理用データは、後処理において、そのような類似文字に関して、文字画像の相対的な大きさ等により候補データを絞り込むために利用されるものである。ここに示す例では、特開平6−176196号公報に開示されている方法と同様に、文字画像の相対的な大きさ等として文字画像の縦横比、面積比及び上空白比という3種類のパラメータを用いる。文字行の最大の文字幅をA、最大の文字高さをB、行の上基準線(行内文字列を包含する外接矩形の上辺)から文字画像の上端までの距離をC、文字画像の幅をD、高さをEとすると、それらパラメータの値は、例えば、
縦横比=(D/E)×256
面積比=(E×D)/(A×B)×256
上空白比=(C/B)×256
により計算される。類似文字処理データは、このような文字画像の縦横比、面積比及び上空白比という3種類のパラメータそれぞれに関するメンバシップ関数を指定するためのパラメータを内容としている(図8参照)。このメンバシップ関数とは、パラメータ値が標準値のときに最大となり、標準値からずれるにしたがい値が減少し、そのずれが限界値を越えると値が0になるような関数である。
【0032】
後処理においては、まず、文字切り出し時に検出された文字画像の3つのパラメータ値と、各候補データにリンクされた類似文字処理データで指定されたメンバシップ関数を用いて、それぞれのパラメータのメンバシップ値を求め、その合成値が大きい候補データほど上位の候補とし、また、メンバシップ値の合成値
(最も単純な例では、3つのメンバシップ値の合計値)が0あるいは所定値未満となった候補データをリジェクトするといった処理を行う。次に、前後した文字列に対する候補データ中の文字コードの組み合わせと言語辞書123に格納されている単語との照合を行って、もっともらしい文字コードの組み合わせとなる候補データを最終的な認識結果とする。なお、このような言語処理において行端で分裂した単語に対する単語照合の間違いを回避するため、特開平4−252390号公報に述べられているように、各行において、処理した文字以降の末処理文字の数が閾値以下となった場合に、それら未処理文字列が次行の先頭の文字列につながったものとして扱うような処理をしてもよい。これ以外にも様々な言語処理の手法が知られているが、それらの手法も本発明において利用可能である。
【0033】
ここで、入力画像上に図7に示すような2行の文字列が含まれているとして、1行目の2文字目「ょ」を認識する場合について説明する。画像キャッシュ記憶部121にはまだ何も記憶されていないものとする。ステップ302において、文字認識部113は、その文字画像「ょ」の特徴量を抽出し、その特徴量と文字認識用辞書122内の各辞書レコードの特徴量とのマッチングを行い、特徴量の相違度の小さい順に例えば3つの辞書レコードを選び、それらを候補辞書レコードとして出力する。図8は、そのマッチング結果の一例を示している(文字コード、リンク数以外のデータは便宜的なものである)。次のステップ303において、後処理部114は、各候補辞書レコードにリンクした候補データに対し、前述のような文字画像の縦横比、面積比及び上空白比を用いた後処理を行う。この後処理によって、特徴量の相違度が最小で第1位の候補となった「よ」と「ょ」の中で「よ」が不適当と判断されて候補から除外され、第2位の候補となった「お」と「ぉ」の中で「お」が不適当と判断されて候補から除外される。第3位の候補となった「ま」も不適当と判断されて候補から除外される。このようにして絞り込まれた候補のみが次の言語処理の対象となる。
【0034】
《画像キャッシュ処理が有効な場合》 次に、画像キャッシュ処理が有効に設定され場合の動作を説明する。この場合、文字画像比較部112とキャッシュ処理部115による画像キャッシュ処理が有効となる。
【0035】
まず、文字画像比較部112において、文字切り出し部111より入力された文字画像を、画像キャッシュ記憶部121に記憶されている文字画像と比較し、同一の画像とみなせるか否か判定する(ステップ306)。この文字画像の同一性の判定にはどのような手法を利用しても構わないが、例えば米国特許第5,303,313号に示されているような、2つの文字画像の間で、エッジのずれや黒画素数の差等の複数項目のテストを行い、1つの項目のテストで合格すると1票を投じるという投票操作を実行し、得票数が所定値を越えた場合に、それら2つの文字画像が一致したと判断する手法を利用可能である。
【0036】
画像キャッシュ記憶部121に認識結果が記憶されている認識済み文字画像のいずれとも入力文字画像が一致しな場合には(ステップ307,No)、その入力文字画像は文字画像比較部112より文字認識部113へ送り出されて、入力文字画像と文字認識用辞書122との特徴量のマッチングが行われ(ステップ308)、そのマッチング結果に対して後処理部114で前述の後処理が施される(ステップ309)。そして、キャッシュ処理部115は、入力文字画像に対する認識結果の確からしさ(確信度)が高いか調べ(ステップ310)、確信度が高いと判定したときには、その認識結果(マッチング結果)を、入力文字画像そのもの、又は、入力文字画像の文書画像上の位置を指定する座標(文字座標)と対応付けて画像キャッシュ記憶部121に書き込む(ステップ311)。確信度が低いと判定したときには、そのような画像キャッシュ記憶部121への書き込みは行われない。なお、入力文字画像の文字座標が書き込まれる場合には、文字画像比較部112は、その文字座標を用いて対応する文字画像を入力画像から取り込むか、文字切り出し部111で切り出された文字画像が保存されているならば、保存されている文字画像の中から文字座標を用いて対応する文字画像を取り込み、それを入力文字画像と比較することになる。
【0037】
各文字画像に対する認識結果の確信度の求め方は種々提案されている。例えば、特開平7−72906号公報に述べられているような、マッチング結果の第1位候補の辞書との距離の逆数や、第1位候補と第2位候補の辞書との距離の比を確信度とする方法、特開平5−35917号公報に述べられているような、マッチング結果の第1位候補の辞書との距離を文字画像の総輪郭数で除した値を確信度とする方法といった比較的単純な方法を用いることができる。これらの確信度は、文字認識用辞書122とのマッチング結果に対する確信度であるが、文字切り出しや後処理などを含めた確信度を算出してもよい。そのような確信度を得る方法としては、例えば特開平5−182014号公報に述べられているような、文字切り出し、文字認識用辞書122とのマッチング、後処理の各段階で得られた情報を総合して確信度を計算する方法がある。
【0038】
文字画像比較部112による比較で同一とみなされる認識済み文字画像が1つ又は2つ以上見つかった場合には(ステップ307,Yes)、文字画像比較部112は、入力文字画像と同一画像と判断された各文字画像と対応付けられて画像キャッシュ記憶部121に記憶されているマッチング結果(例えば図8に示すようなデータ)を読み出し、それを入力文字画像に対する認識結果として後処理部114へ送り出し、後処理を行わせる(ステップ313)。
【0039】
ステップ306から始まる処理が繰り返され、未処理の文字画像が無くなると(テップ314,Yes)、制御部116は最終的な認識結果を外部の記録媒体やディスプレイ等へ出力し(ステップ305)処理を終了する。
【0040】
図7に示した2行の文字列を処理する場合について説明する。1行目には、同一の文字が出現しないので、それぞれの文字に対する認識結果の確信度が高ければ、それら文字画像又は文字座標がマッチング結果と対応付けられて画像キャッシュ記憶部121に保存される。例えば、「き」「ょ」「の」「て」「ん」「き」の各文字に対して求められた確信度がそれぞれ「98」「93」「97」「88」「98」「99」「89」で、キャッシュ処理部115で「90」以上の確信度を高いと判定する場合には、1行目の処理を終了した時点で画像キャッシュ記憶部121には「き」「ょ」「う」「て」「ん」の文字画像又は文字座標とマッチング結果が保存されていることになる。
【0041】
2文字目の「ょ」に関しては、図10に示すようなキャッシュデータが画像キャッシュ記憶部121に保存される。ここに示すキャッシュデータは、文字画像そのものではなく文字座標を保存する例であり、文字座標に候補辞書レコードをリンクさせた構造となっている。
【0042】
2行目の文字は、1行目より文字サイズが小さいため、先頭の「よ」の文字画像が、保存されいる「ょ」の文字画像と同じ画像であると判断される。したがって、「ょ」のマッチング結果が取り出されて後処理部114へ渡され後処理が施される。文字の縦横比、面積比、上空白比による後処理によって、「ょ」と「ぉ」の候補データが不適切と判断されて候補から除外され、「よ」が第1位候補、「お」が第2位候補、「ま」が第3位候補となる。
【0043】
近年の高精度な文字認識系においては、非常に複雑な特徴抽出/マッチング処理を用いることが多く、その処理に必要な時間は一般に文字画像の比較処理に比べ相当に長い場合が多い。したがって、2行目の「よ」のように認識処理済みの文字画像と同一とみなし得る文字画像が出現すれば、時間のかかる特徴抽出/マッチング処理が省かれる分、処理の高速化を期待できる。
【0044】
【発明の効果】
請求項1又は3記載の発明によれば、文字数が多く、同じ文字画像が繰り返し出現する可能性の高い文書画像に対しては、画像キャッシュ処理を利用することによって処理時間の短縮を図ることができ、他方、文字数が少なく同じ文字画像が繰り返し出現する可能性が低い文書画像に対しては画像キャッシュ処理を無効にすることにより、画像キャッシュ処理と文字認識処理とを順次に行う場合であっても、無用な画像キャッシュ処理による処理時間の増加を回避することができる。請求項2又は4記載の発明によれば、不確かな認識結果を保存することによる認識誤りを回避することができる。請求項5又は6記載の発明によれば、文字認識装置の複数のユーザがそれぞれの扱う文書に対応したキャッシュデータを利用できるため、ユーザ毎に文書の種類等が異なる場合に認識率及び処理効率の面で有利であり、請求項6記載の発明によれば、さらに、認識処理のための手段の性能向上などをサーバー130側だけで処置することができ、その性能向上の利益を各ユーザが享受できる等のメリットがある。請求項7記載の発明によれば、一般的なコンピュータを利用し用意に請求項1記載の発明による文字認識を実施できる、等々の効果を得られる。
【図面の簡単な説明】
【図1】本発明による文字認識装置のブロック構成の一例を示すブロック図である。
【図2】クライアント/サーバー・システム上に構築した本発明による文字認識装置のブロック構成の一例を示すブロック図である。
【図3】画像キャッシュ制御部の処理フローの一例を示すフローチャートである。
【図4】画像キャッシュ処理による処理速度の向上効果と認識対象文字数との関係を示すグラフである。
【図5】認識処理部の処理フローの一例を示すフローチャートである。
【図6】文字認識用辞書の構成の一例を示す図である。
【図7】文書画像上の文字列の一例を示す図である。
【図8】「ょ」のマッチング結果の一例を示す図である。
【図9】「ょ」のキャッシュデータの一例を示す図である。
【符号の説明】
100 画像入力部
110 認識処理部
111 文字切り出し部
112 文字画像比較部
113 文字認識部
114 後処理部
115 キャッシュ処理部
116 制御部
120 画像キャッシュ制御部
121 画像キャッシュ記憶部
122 文字認識用辞書
123 言語辞書
130 サーバー
135 ネットワーク
140 クライアント

Claims (7)

  1. 入力画像中の認識対象文字数が所定値を越えるか否かを判断し、
    認識対象文字数が所定値を越えないと判断される場合に、入力画像中の認識しようとする文字画像に対し文字認識処理を行って認識結果を取得し、
    認識対象文字数が所定値を越えると判断される場合に、
    入力画像中の認識しようとする文字画像を認識済みの文字画像と比較し、
    認識しようとする文字画像と同一と見なし得る認識済み文字画像が見つからなかったときに、その認識しようとする文字画像に対し文字認識処理を行って認識結果を取得するとともに、取得した認識結果をその文字画像と対応付けて保存し、
    認識しようとする文字画像と同一と見なし得る認識済み文字画像が見つかったときに、その認識済み文字画像に対応付けて保存されている認識結果を認識しようとする文字画像に対する認識結果として取得する、ことを特徴とする文字認識方法。
  2. 確信度の高い認識結果のみが文字画像と対応付けられて保存されることを特徴とする請求項1記載の文字認識方法。
  3. 文書の全体又は個々の認識対象領域の画像を入力するための第1手段と、この第1手段による入力画像中の認識対象文字数が所定値を越えるか否かを判断するための第2手段と、前記入力画像中の文字画像を切り出すための第3手段と、この第3手段により切り出された文字画像に対し文字認識処理を行って認識結果を取得するための第4手段と、この第4手段により取得された認識結果を文字画像と対応付けて記憶手段に保存するための第5手段と、前記第3手段により切り出された文字画像と、前記記憶手段に保存されている認識結果に対応した認識済み文字画像とを比較するための第6手段とを具備し、
    前記第2手段により認識対象文字数が所定値を越えないと判断された場合に、
    前記入力画像から切り出された文字画像に対する認識結果が前記第4手段による文字認識処理によって取得され、
    前記第2手段により認識対象文字数が所定値を越えると判断された場合に、
    前記入力画像から切り出された、認識しようとする文字画像と、前記記憶手段に保存されている認識結果に対応した認識済み文字画像とが前記第6手段によって比較され、
    認識しようとする文字画像と同一と見なし得る認識済み文字画像が見つからなかったときに、その認識しようとする文字画像に対する認識結果が前記第4手段による文字認識処理によって取得され、この認識結果がその文字画像と対応付けられて前記第5手段により前記記憶手段に保存され、
    認識しようとする文字画像と同一と見なし得る認識済み文字画像が見つかったときに、その認識済み文字画像に対応付けられて前記記憶手段に保存されている認識結果が、認識しようとする文字画像に対する認識結果として取得される、
    ことを特徴とする文字認識装置。
  4. 前記第5手段によって確信度の高い認識結果のみが文字画像と対応付けられて前記記憶手段に保存されることを特徴とする請求項3記載の文字認識装置。
  5. 前記記憶手段がユーザ別に用意されることを特徴とする請求項3記載の文字認識装置。
  6. クライアント/サーバー・システムのサーバー側に前記第2手段、第3手段、第4手段、第5手段及び第6手段を設け、クライアント側に前記第4手段による文字認識処理のために参照される辞書及び前記記憶手段を設けてなることを特徴とする請求項3又は4記載の文字認識装置。
  7. 入力画像中の認識対象文字数が、所定値を越えるか否かの判断、
    認識対象文字数が所定値を越えないと判断される場合に、入力画像中の認識しようとする文字画像に対し文字認識処理を行って認識結果を取得する処理、
    認識対象文字数が所定値を越えると判断される場合に、
    入力画像中の認識しようとする文字画像を認識済みの文字画像との比較、
    認識しようとする文字画像と同一と見なし得る認識済み文字画像が見つからなかったときに、その認識しようとする文字画像に対し文字認識処理を行って認識結果を取得するとともに、取得した認識結果をその文字画像と対応付けて保存する処理、
    認識しようとする文字画像と同一と見なし得る認識済み文字画像が見つかったときに、その認識済み文字画像に対応付けて保存されている認識結果を認識しようとする文字画像に対する認識結果として取得する処理、
    をコンピュータに実行させるためのプログラムが記録されたことを特徴とするコンピュータ読み取り可能記録媒体。
JP22075299A 1999-08-04 1999-08-04 文字認識方法、文字認識装置及び記録媒体 Expired - Fee Related JP4049289B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22075299A JP4049289B2 (ja) 1999-08-04 1999-08-04 文字認識方法、文字認識装置及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22075299A JP4049289B2 (ja) 1999-08-04 1999-08-04 文字認識方法、文字認識装置及び記録媒体

Publications (2)

Publication Number Publication Date
JP2001052114A JP2001052114A (ja) 2001-02-23
JP4049289B2 true JP4049289B2 (ja) 2008-02-20

Family

ID=16755994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22075299A Expired - Fee Related JP4049289B2 (ja) 1999-08-04 1999-08-04 文字認識方法、文字認識装置及び記録媒体

Country Status (1)

Country Link
JP (1) JP4049289B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243707A (zh) * 2010-05-12 2011-11-16 株式会社东芝 字符识别结果验证设备和字符识别结果验证方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200312A (zh) * 2020-09-10 2021-01-08 北京达佳互联信息技术有限公司 文字识别模型的训练方法、装置及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243707A (zh) * 2010-05-12 2011-11-16 株式会社东芝 字符识别结果验证设备和字符识别结果验证方法
US8411957B2 (en) 2010-05-12 2013-04-02 Kabushiki Kaisha Toshiba Character recognition result verification apparatus and character recognition result verification method
CN102243707B (zh) * 2010-05-12 2013-06-26 株式会社东芝 字符识别结果验证设备和字符识别结果验证方法

Also Published As

Publication number Publication date
JP2001052114A (ja) 2001-02-23

Similar Documents

Publication Publication Date Title
JP2821348B2 (ja) 指紋照合装置
US20110268360A1 (en) Word recognition of text undergoing an ocr process
JP2001283152A (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000353215A (ja) 文字認識装置および文字認識プログラムを記録した記録媒体
CN111985323B (zh) 基于深度卷积神经网络的人脸识别方法及系统
US20070292005A1 (en) Method and apparatus for adaptive hierarchical processing of print images
KR100480316B1 (ko) 문자인식방법및장치
US8208685B2 (en) Word recognition method and word recognition program
JP4049289B2 (ja) 文字認識方法、文字認識装置及び記録媒体
KR100765749B1 (ko) 이진영상 압축장치 및 방법
JPH10307889A (ja) 文字認識方法、装置及び文字認識プログラムを記録した記録媒体
JP2022095391A (ja) 情報処理装置、及び情報処理プログラム
JPH1166238A (ja) 手書き文字認識方法
JP2022028912A (ja) 照合処理装置、照合処理方法、及び、照合処理プログラムが格納された記録媒体
JP2019164687A (ja) 情報処理装置
US9015573B2 (en) Object recognition and describing structure of graphical objects
JP2008217688A (ja) 照合装置
JP3180792B2 (ja) 文字認識装置、文字学習装置およびコンピュータ可読記録媒体
JP3466899B2 (ja) 文字認識装置及び方法並びにプログラム記憶媒体
JP4209511B2 (ja) 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
JP4633271B2 (ja) 辞書学習方法及び辞書学習プログラム
JP3115139B2 (ja) 文字切り出し方法
JP4215385B2 (ja) パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2768289B2 (ja) 文字切り出し装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131207

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees