JP3985926B2 - 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体 - Google Patents
文字認識方法、文字認識装置、文書画像処理システム及び記録媒体 Download PDFInfo
- Publication number
- JP3985926B2 JP3985926B2 JP23226599A JP23226599A JP3985926B2 JP 3985926 B2 JP3985926 B2 JP 3985926B2 JP 23226599 A JP23226599 A JP 23226599A JP 23226599 A JP23226599 A JP 23226599A JP 3985926 B2 JP3985926 B2 JP 3985926B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- recognition
- document
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
Description
【発明の属する技術分野】
本発明は、文書画像処理の分野に係り、特に、文字認識処理に関する。
【0002】
【従来の技術】
文字認識系においては、一般に、高い認識率を得ようとすると非常に複雑な特徴抽出やマッチング処理を用いるため、処理に時間がかかるという問題がある。
この処理時間の問題を解決する1つの手法として、特開平7−72906号公報に述べられているようなキャッシュ処理を行う方法がある。同公報には、2つの方法が開示されている。その1つは、認識処理を終わった文字画像そのものを認識結果とともに保存しておき、認識しようとする文字画像を保存されている認識済みの文字画像と比較し、同一とみなせる認識済み文字画像が見つかったときには、その認識済み文字画像に対応して保存されている認識結果を、そのまま認識結果として用いる方法である。もう1つは、認識処理を終わった文字画像の簡易特徴量を認識結果とともに保存しておき、認識しようとする文字画像の簡易特徴量と保存されている簡易特徴量とを比較し、同一とみなせる簡易特徴量が見つかったときには、その簡易特徴量に対応して保存されている認識結果を、そのまま認識結果として用いる方法である。
【0003】
【発明が解決しようとする課題】
同じ文字画像が再度出現しないとキャッシュ処理の効果はないため、キャッシュ処理の効果を期待するためには、ある程度の文字数をキャッシュ処理の対象にする必要がある。しかし、文字画像そのものはデータ量が一般にかなり大きく、例えば、48×43画素の文字画像では、1画素を1ビットで表現すると258バイトものデータ量となる。したがって、前述の文字画像そのものを保存する方法には、キャッシュ処理に必要な記憶容量がかなり大きくなるという問題がある。文字認識処理の場合、パターン辞書や言語辞書のように記憶量量を多く必要とするデータもあるため、キャッシュ処理に必要な記憶容量はできるだけ少ないことが好ましい。このような文字画像そのものを保存する方法に比べれば、前述の簡易特徴量を保存する方法はキャッシュ処理のための記憶容量をかなり減らすことが可能である。しかし、簡易特徴量は文字画像の特徴の一部を表現したものにすぎず、異なった文字画像の間で簡易特徴量が一致してしまう可能性が大きいため、文字画像そのものを保存する方法に比べ信頼性が低いという問題がある。
【0004】
よって、本発明の1つの目的は、以上に述べた従来のキャッシュ処理に関わる2つの問題点を解決することにある。
【0005】
また、一般的に、各種装置又はシステムを開発する場合、各処理をモジュール化することが開発効率の観点から好ましい。文書画像処理においても同様で、技術的な成熟度が増し処理内容が複雑になるにつれ、文書画像処理に用いられる各処理のモジュール化は必須の課題となりつつある。
【0006】
文書画像処理において文字認識処理がモジュール化された場合、その文字認識モジュール(ハードウェア・モジュール又はプログラム・モジュール)の処理単位は、1つの文書画像の全体ではなく、その部分である可能性が高い。例えば、レイアウト解析等の処理によって、文書画像から個々の記事、カラムといった認識対象領域が抽出され、それぞれの領域毎に、その座標を指定して文字認識モジュールが呼び出される可能性が高い。
【0007】
この場合、個々の認識対象領域に含まれる文字数は、一般に1つの文書画像の全体に含まれる文字数よりかなり少ないため、個々の認識対象領域をキャッシュ処理の単位とした場合、キャッシュ処理の対象となる文字数が不足し、キャッシュ処理の効果を十分に期待できない心配がある。したがって、文字認識処理がモジュール化された場合も、個々の認識対象領域ではなく1つの文書画像の全体を対象としたキャッシュ処理が行われるのが望ましい。
【0008】
よって、本発明のもう1つの目的は、文字認識処理がモジュール化された場合のように、認識対象領域毎に文字認識処理を行う環境で、キャッシュ処理のために必要な記憶容量の増加を回避しつつ、文書画像単位でのキャッシュ処理を可能にすることにある。本発明の他の目的は、独立性の高い高速・高精度の文字認識モジュールを提供することにある。
【0009】
【課題を解決するための手段】
本発明の1つの主要な特徴は、キャッシュ処理において、文字画像そのものではなく、文書画像上での文字画像の座標(文字座標)をキャッシュ記憶手段に保存しておき、文書画像記憶手段に記憶されている文字画像上の、キャッシュ記憶手段に保存されている文字座標の位置にある画像と、文字認識しようとする文字画像とを比較することにより、認識しようとする文字画像と同一とみなされる認識済み文字画像を見つけることである。
【0010】
文字座標として、文字画像の外接矩形の対向した2コーナーの座標を用いるものとして、各コーナーのx座標、y座標をそれぞれ2バイト、計4バイトで表現したとしても、1文字分のキャッシュに必要な記憶容量は8バイトで済む。48×43画素の大きさの文字画像そのものをキャッシュする場合、1画素を1ビットで表現したとしても258バイトが必要である。したがって、文字座標をキャッシュ記憶手段に保存する方法は、キャッシュ処理に必要な記憶容量を大幅に削減できる。しかも、比較は文字画像間で行うので、文字画像の簡易特徴量を用いる方法のような信頼性低下の問題はないため、文字画像そのものをキャッシュする方法と同様に高精度の文字認識処理が可能である。
【0011】
このような文字座標をキャッシュする手法では、現在のキャッシュデータが得られた際に処理された文書画像と、これから認識しようとする文字画像が含まれている文書画像とが同一であることが当然の前提となる。1つの文書画像を処理の単位とする環境では、新しい文書画像に対する処理の開始段階で、それまでのキャッシュデータをクリアすることで、その条件を容易に満たすことができ、また、キャッシュ処理の対象文字数も十分に多くなるため、キャッシュ処理の十分な効果を期待できる。
【0012】
一方、文字認識処理をモジュール化し、文書画像の個々の認識対象領域毎に文字認識モジュールを起動するような環境では、文字認識処理の単位は1つの文書画像の全体ではなく個々の認識対象領域である。しかして、本発明のもう1つの主要な特徴は、そのような文書画像の個々の認識対象領域を処理の単位とするような環境においても、1つの文書画像を単位としたキャッシュ処理を可能にするため、文書画像記憶手段に記憶されている文書画像の個々の認識対象領域に対する認識処理に先立ち、認識対象領域が含まれている現在の文書画像(文書画像記憶手段に記憶されている文書画像)が、キャッシュ記憶手段の記憶内容が得られた際に処理された文書画像と同一であるか判定し、同一でないと判定したときにはキャッシュ記憶手段を初期化することである。
【0013】
好ましい態様によれば、一部の文字画像について、文字画像そのものも文字座標とともにキャッシュ記憶手段に保存しておき、文書画像記憶手段に記憶されている文書画像において、キャッシュ記憶手段に保存された文字画像と同じ画像が、その文字画像の文字座標の位置に存在するときに文書画像が同一であると判定し、そうでないときに文書画像が同一でないと判定する。全くランダムに白画素と黒画素が配置された100画素の画像が、異なった2つの文書画像上の同じ位置に偶然現れる確率は2の100乗分の1であるから、保存されている文字画像と同一とみなされる画像が同じ位置にあるときには同一の文書画像であると判断して実用上支障はない。ただし、文書画像においては、異なる文書画像の同じ位置に同じ形状の文字画像が存在する可能性はそれより高くなる傾向があるので、文書画像の同一性の判定に利用するためにキャッシュ記憶手段に保存する文字画像を選ぶ何らかの基準を用意するのが一般に好ましい。
【0014】
このような文書画像の同一性判定方法は、文字認識モジュールを呼び出す制御モジュール側から文書画像の同一性を示す何らかの情報を文字認識モジュールに与える方法に比べ、文字認識モジュールの独立性確保の観点から有利である。また、後者の方法では誤った情報が与えられた場合に認識精度が大幅に悪化する危険があるが、それも回避できる。
【0015】
以上に述べた本発明の特徴と、その他の特徴について、以下の説明において詳細に説明する。
【0016】
【発明の実施の形態】
以下、添付図面を参照し、本発明の実施の形態を説明する。なお、説明の繰り返しを避けるため、添付図面中の複数の図面において同一部分又は対応部分には同一の参照符号又は同様の参照符号を用いる。
【0017】
図1に、本発明の一実施形態である文書画像処理システムのブロック構成の一例を示す。ここに示す文書画像処理システムは、文書画像処理のための前処理、レイアウト解析、文字認識処理の各処理がモジュール化されたもので、それぞれの処理モジュールとして前処理モジュール100、レイアウト解析モジュール101、文字認識モジュール102を備え、また、それら各モジュールの実行を制御するための制御モジュール116を備える。また、文字認識モジュール102によって利用される文字認識用辞書110、言語辞書111及びキャッシュ記憶部112、処理すべき文書画像を入力する画像入力部113、入力された文書画像を記憶するための文書画像記憶部114を備えている。
【0018】
画像入力部113は、イメージスキャナ等の画像入力機器を利用して文書原稿をスキャンしその画像を入力したり、記録媒体に予め記憶されている文書画像を取り込んだり、あるいは、通信回線を介して外部より文書画像を取り込んだりする部分である。
【0019】
文字認識用辞書110は文字画像の特徴量を用いた1文字単位の文字認識のためのパターン辞書である。言語辞書111は1文字単位の文字認識処理の結果に対する後処理のために利用される単語等の言語知識を格納した辞書である。
【0020】
文書画像記憶部114に新しい文書画像が格納されると、制御モジュール116によって前処理モジュール100が起動される。この前処理モジュール100は、起動されると、文書画像記憶部114に記憶されている文書画像に対し、ノイズ除去や傾き補正などの前処理を施す部分である。このモジュールは、場合によっては省略し得る。
【0021】
この前処理が終了すると、制御モジュール116によって、レイアウト解析モジュール101が起動される。このレイアウト制御モジュール101は、前処理後の文書画像を認識対象領域(文字の領域)と、それ以外の図又は表の領域とに分類する。このような領域分割については、文書画像中の連結成分を囲む最小矩形を求め、大きな矩形の領域を図や表の領域とし、残りの小さな矩形の集まった領域を認識対象領域とする等、様々な手法が知られている。本発明においても、そのような公知の手法を利用し得る。
【0022】
文字認識処理に関連しては、認識対象領域を抽出するのみで十分であるが、認識結果を文書の構造と関連付けるような処理まで考慮する場合には、認識対象領域について、そのレイアウト構造上の属性であるヘッダ、フッタ、タイトル、本文等の識別等も行う。このようなレイアウト解析に関しては、特開平5−258098号公報、特開平8−87528号公報、特開平10−177641号公報、特開平10−198705号公報等に見られるように数多くの手法が提案されている。本発明においても、そのような公知の手法を利用し得る。例えば、扱う文書のレイアウトが固定している場合には、予め用意されたフォーマット情報中に指定されている座標値から、ヘッダ、タイトル、本文、フッタなどの領域とその属性を識別するような、よく知られた手法を利用し得る。フォーマットの異なる複数種類の文書を扱う場合には、例えば前記特開平10−198705号公報に述べられているように、文字サイズなどに基づいて文書の種類を特定したうえで、その種類の文書に対応したフォーマット情報を利用して文書画像上の領域と属性の識別を行うような手法を利用してよい。
【0023】
文書画像の例と、そのレイアウト解析結果の例を、図2及び図3に模式化して示す。
【0024】
レイアウト解析モジュール101によるレイアウト解析が終了した後、あるいはレイアウト解析処理の途中から、制御モジュール116は、抽出された1つの認識対象領域の座標を指定して文字認識モジュール102を起動する。起動された文字認識モジュール102は、指定された認識対象領域に対する文字認識処理を行うが、その処理内容については後述する。
【0025】
文字認識モジュール102は、機能的に分割すると、文書画像記憶部114に記憶されている文書画像と、キャッシュ記憶部112に保存されている現在のキャッシュデータが得れらた時に処理された文書画像との同一性を認識対象領域毎に判定する文書同一性判定部103、文字画像の切り出しを行う文字切り出し部104、切り出された認識対象の文字画像とキャッシュされた文字画像との比較を行い、認識対象の文字画像と同一とみなされる認識済み文字画像を見つける文字画像比較部105、認識対象の文字画像の特徴量を抽出し、その特徴量と文字認識用辞書110に格納されている特徴量とのマッチングを行って1文字単位の文字認識を行う文字認識部106、文字認識部106による認識結果に対する後処理を行う後処理部107、キャッシュ処理を行うためのキャッシュ処理部108、及び、それら各部の動作の制御及び文字認識結果の確信度の計算等を行う制御部109から構成されている。
【0026】
キャッシュ記憶部112はキャッシュデータの保存のための記憶部であり、キャッシュ処理部108によって、文字画像の文字座標と認識結果(一部の文字画像について、文字画像そのものも)が対応付けられて書き込まれる。文書同一性判定部103で文書画像が同一でないと判定された時にキャッシュ記憶部112は制御部109により初期化されるが、文書画像が同一と判定される間はキャッシュ記憶部112の記憶内容は保存される。
【0027】
図4に文字認識ジュール102の処理フローの一例を示す。以下、この処理フローに沿って文字認識モジュールにおける処理内容を説明する。
【0028】
文字認識モジュール102は、制御ジュール116によって1つの認識対象領域の座標を指定されて起動されると、まず、指定された座標を用いて文書画像記憶部114より1つの認識対象領域の画像を取り込む(ステップ200)。なお、画像を取り込まず、文書画像記憶部114上の指定された認識対象領域の画像をそのまま処理に用いることも可能であるが、その場合、処理途中に文書画像記憶部114の書き換えを禁止する等の制御を行わないと処理エラーが起きる危険がある。
【0029】
次に、文書同一性判定部103において、キャッシュ記憶部112に保存されている現在のキャッシュデータが得られた時に処理された文書画像と、目下処理しようしている認識対象領域が含まれている文書画像、すなわち文書画像記憶部114に現在記憶されている文書画像とが同一であるか否かを判定する(ステップ201)。好ましい態様では、この文書画像の同一性判定は次のようにして行われる。まず、キャッシュ記憶部112に文字画像(認識済みの文字画像)が記憶されているか調べ、文字画像が記憶されているならば、その文字画像と、それに対応して記憶されている文字座標をキャッシュ記憶部112より取り込む。次に、文書画像記憶部114に記憶されている文書画像上の、その文字座標の位置にある画像を取り込む。そして、文書画像から取り込んだ画像と、キャッシュ記憶部112より取り込んだ文字画像とを比較し、それらが同一の画像とみなせるならば同一の文書画像であると判定し、そうでなければ同一の文書画像ではないと判定する。比較ができない場合、つまりキャッシュ記憶部112に文字画像がまったく記憶されていない場合には、安全のため同一でないと判定する。
【0030】
なお、キャッシュ記憶部112に2つ以上の文字画像が保存されている場合、その2つ又はそれ以上の文字画像に関する画像比較がすべて一致したときに、文書画像を同一と判定すれば、より高い判定精度を期待できる。ただし、1つの文字画像に関してのみ画像比較を行い、その一致をもって文書画像が同一であると判定しても、相当に高精度の判定が可能であることは前述の通りである。
【0031】
なお、制御モジュール116側で、文書画像の入れ替わりを管理し、文字認識モジュール102を呼び出す際に、それ以前に処理された文書画像と同一であるか否かの情報を文字認識モジュール102に与え、この情報に基づいて文書同一性判定部103が文書画像の同一性を判断する方法も可能である。しかし、このような方法は、制御モジュール116における制御が複雑になるとともに、誤った情報が文字認識モジュール102に与えられた場合に認識精度が大きく悪化する危険がある。文字画像の比較によって文書画像の同一性を判定する方法は、そのような問題を解決できるとともに、文字認識モジュール102の独立性確保の観点からも有利である。
【0032】
文書画像の同一性判定のための画像比較にはどのような手法を利用しても構わないが、例えば米国特許第5,303,313号に示されているような、2つの画像間で、エッジのずれや黒画素数の差等の複数項目のテストを行い、1つの項目のテストで合格すると1票を投じるという投票操作を実行し、得票数が所定値を越えた場合に、それら2つの画像を同一と判断する手法を利用可能である。後述する文字画像比較部105における文字画像の比較においても、同様の手法を利用してよい。
【0033】
さて、文書同一性判定部103で文書画像が同一でないと判定されたときには(ステップ202,No)、制御部109によりキャッシュ記憶部112が初期化される(ステップ203)。すなわち、異なった文書画像の処理には現在のキャッシュデータは利用できないため、それが破棄される。
【0034】
次に、文字切り出し部104において、モジュール内に取り込まれた認識対象領域の画像から文字画像(文字画像の候補)を1文字単位で切り出す(ステップ204)。この文字切り出しについては様々な手法が知られており、そのどのような手法を利用してもよい。例えば、行方向の射影等を利用して行の切り出しを行い、切り出した各行の垂直な方向の射影等を利用して行内の文字を切り出すような方法や、黒画素の連結成分を抽出し、1文字とみなし得る単独の連結成分、あるいは複数の連結成分の塊を文字画像として切り出すような方法を利用し得る。ここで切り出された文字画像(候補)が認識対象の文字画像となる。以下の処理は1文字ずつの繰り返し処理である。
【0035】
まず、文字画像比較部105において、キャッシュ記憶部112に記憶されている認識済み文字画像の文字座標を読み出し、この文字座標の位置にある画像を文書画像記憶部114より取り込み、その画像を認識対象の文字画像と比較することにより、認識対象の文字画像と同一とみなされる認識済み文字画像を見つける(ステップ205)。認識対象の文字画像と同一とみなされる認識済み文字画像がみつかったならば(ステップ206,Yes)、制御部109により、その認識済み文字画像の文字座標と対応付けられてキャッシュ記憶部112に記憶されている認識結果(文字認識部106による1文字単位の認識結果)が、そのまま認識対象の文字画像に対する認識結果として取り出され(ステップ207)、後処理部107に与えられる。後処理部107では、与えられた認識結果に対する後処理を行う(ステップ208)。後処理には様々な手法が知られており、本発明にいても任意の公知の手法を利用できる。例えば、文字認識部106では文字画像の特徴量を抽出する前に文字画像の正規化を行うのが一般的であるから、抽出した特徴量だけでは区別が困難な類似文字が少なくない。このような類似文字を識別するために有効な後処理の手法として、特開平6−176196号公報に開示されているように、文字画像の行内における相対的な大きさ(同公報に述べられている縦横比、面積比、上空白比など)を利用して認識結果を修正する後処理法を利用できる。また、このような文字単位の後処理の後に、認識結果の文字コードの組み合わせと言語辞書111に格納されている単語とを照合し、もっともらしい文字コードの組み合わせを上位の候補とするような後処理を利用できる。また、このような後処理の結果に基づいて、文字切り出しの段階で切り出された前後の文字画像(候補)のうちで、文字らしい画像だけを最終的に文字画像として選択する、いわゆるパス選択処理を行ってもよい。このような後処理を終わると、ステップ205に戻り次の文字画像に対する処理が実行される。
【0036】
文字画像比較部105で、認識対象の文字画像と同一とみなされる認識済み文字画像がみつからなかった場合(ステップ206,No)、文字認識部106で、その認識対象の文字画像の特徴量(例えば公知の多層方向ヒストグラムによる特徴量)を抽出し、その特徴量と文字認識用辞書110に格納されている特徴量とのマッチングを行うことにより認識結果を得る(ステップ209)。この認識結果に対し、前述のような後処理が後処理部107で実行される(ステップ210)。次に、この文字画像に対し、キャッシュ処理部108によるキャッシュ処理が行われる(ステップ211〜214)。
【0037】
キャッシュ処理部108においては、まず、制御部109で算出された、その文字画像に対する認識結果の確からしさ(確信度)が高いか否かを判定し(ステップ211)、確信度が低いときには、その文字画像をキャッシュ処理の対象から除外する。なお、確信度の求め方は種々提案されている。例えば、特開平7−72906号公報に述べられているように、文字認識用辞書110とのマッチングで得られた第1位候補の辞書との距離の逆数や、第1位候補と第2位候補の辞書との距離の比を確信度とする方法、特開平5−35917号公報に述べられているように、文字認識用辞書110とのマッチングで得られた第1位候補の辞書との距離を文字画像の総輪郭数で除した値を確信度とする方法といった比較的単純な方法を用いることができる。これらの確信度は、文字認識用辞書122とのマッチング結果に対する確信度であるが、例えば特開平5−182014号公報に述べられているように、文字切り出し、文字認識用辞書110とのマッチング、後処理の各段階で得られた情報を総合して確信度を計算する方法を用いることもできる。
【0038】
ステップ211で確信度が高いと判定された場合には、その文字画像そのものも保存すべきか否かの判定を行う(ステップ212)。保存すべきでないと判定した場合には、その文字画像の文字座標と認識結果だけを対応付けてキャッシュ記憶部112に書き込み(ステップ213)、保存すべきであると判定した場合には、その文字画像そのものも、文字座標及び認識結果と対応付けてキャッシュ記憶部112に書き込む(ステップ214)。ステップ211で確信度が低いと判定した場合には直ちに、ステップ211で確信度が高いと判定した場合はステップ213又はステップ214の実行後にステップ205に戻り、次の文字画像に対する処理が繰り返される。
【0039】
以上の1文字単位の処理が繰り返され、認識対象領域から切り出された全ての文字画像が処理済みとなると(ステップ215,Yes)、制御部109は最終的な認識結果を外部の記録媒体やディスプレイ等へ出力し(ステップ216)、1つの認識対象領域に対する文字認識処理を終了する。
【0040】
ここで、ステップ212の判定基準について説明する。この判定基準は、その文字画像が文書同一性判定に用いるために相応しい文字画像であるか否かであり、具体的には次に述べるような基準を用いる得る。
【0041】
(a)文字画像の複雑さが所定の程度を越えること。
あまりに単純な文字画像は、別の文書画像の同じ位置の画像と比較した時に偶然一致する危険がある。したがって、キャッシュ記憶部112に保存する文字画像は、ある程度以上の複雑さを持つ文字画像に限定するとよい。
文字画像の複雑さの尺度としては、輪郭長や黒画素数などの図形の形状的な特徴から算出される値や、書籍『画像認識の基礎[II] 第1版』(株式会社オーム社)の第198頁から第199頁に述べられているような、文字画像のエネルギー、エントロピー、相関等の統計的な尺度を用いることができる。例えば、文字画像の輪郭長を2乗した値を黒画素数で除した値Cを尺度として用い、この値Cがある閾値(例えば2.5)を越えた場合に、その文字画像も保存すべきと判定する。なお、この閾値を固定した場合に、1つも文字画像が保存されなかったり、逆に必要以上に多くの文字画像が保存されてしまい、キャッシュデータ量が過大になるといった不都合が心配されるときには、図4のフローチャートには明示しないが、キャッシュ処理の対象となった文字画像とキャッシュ記憶部112に保存されている文字画像の間で複雑さを比較し、キャッシュ処理対象の文字画像より単純な文字画像がキャッシュ記憶部112に保存されているならば、その単純な文字画像を削除し、それに代えてキャッシュ処理対象の文字画像をキャッシュ記憶部112に書き込むことにより、複雑さの順に選ばれた所定個数の文字画像がキャッシュ記憶部112に残るようにしてもよい。
【0042】
(b)文字画像の大きさが、ある範囲内であること。
小さすぎる文字画像を文書同一性判定に用いると、異なる文書画像においても画像の比較で誤って一致がとれる可能性が高くなる。逆に、大きすぎる文字画像は、そのデータ量が大きくなるため保存するのは好ましくない。したがって、例えば文字画像の外接矩形の面積が、ある下限閾値を越え、かつ、ある上限閾値より小さい場合にのみ、その文字画像を保存するのがよい。なお、文字画像の面積に加えて、文字画像の外接矩形の縦横比も判断の基準として利用することも有効である。すなわち、縦横比が極端に小さいか大きい文字画像は、線分等との比較で一致する可能性があるが、縦横比を基準に加えれば、そのような文字画像の保存を避けることができる。
【0043】
(c)文字画像の色が特異であること。
ある文書画像上の特異な色の文字画像は、別の文字画像の同じ位置に存在する可能性は小さいため、文書同一性判定に用いるのに適当である。最も簡単には、黒以外の色の文字画像について、文字画像そのものを保存するような方法を用いることができる。処理はすこし複雑になるが、文字画像の色の分布をとり、出現頻度の低い特定の色の文字画像を保存するような方法も可能である。
【0044】
(d)認識結果が特定の文字コードであること。
例えば、漢数字の一の文字画像は、漢数字の三のような他の文字画像の一部分であったり、罫線などの線分と同一とみなされる可能性があるので、文書同一性判定に利用するには適当でない。したがって、このような他の文字や図形の一部となり得る文字コードや、形状の似た文字が多い文字コードが認識結果となった文字画像はキャッシュ記憶部112には保存しない、とする方法を利用し得る。なお、文書同一性判定にどのような画像比較手法を利用するかによって、文字画像を保存するのが不適当な文字コードも異なる。
【0045】
(e)出現頻度が低いこと。
出現頻度が高い文字画像は、異なる文書画像の同じ位置に偶然出現する可能性も高くなるため、文書同一性判定に用いる文字画像としては適当でない。そこで、キャッシュ記憶部112に保存する文字画像を、出現頻度が低い文字画像だけに限定してもよい。なお、その具体例を図5に関連して後述する。
【0046】
(f)文字画像の複雑さ、大きさ、色、認識結果、出現頻度などの2項目以上の尺度の総合評価が高いこと。
例えば、文字画像が十分に複雑ならば何点、そうでなければ0点、文字画像の大きさが所定の範囲内ならば何点、範囲外ならば0点、文字画像の色が特異色ならば何点、そうでなければ0点というように、尺度毎のスコアを求め、評価する2項目以上の尺度のスコアの合計を総合評価とし、総合評価が所定の値を越えた文字画像のみを保存する方法である。
【0047】
なお、文書画像の同一性判定のための文字画像は1個ないし数個あれば十分であるから、キャッシュ記憶部112に所定個数の文字画像が書き込まれた時点で、それ以降のキャッシュ処理では文字画像そのものの書き込みを行わないようにすることも可能である。
【0048】
次に、図2に示す文書画像の各認識対象領域を順次処理し、続いて図3に示す文書画像の各認識対象領域を処理する場合について説明する。
【0049】
図2に示す文書画像の[領域1−1]の座標を指定して文字認識モジュール102が起動される。この領域は新たな文書画像上の認識対象領域であるから、文書同一性判定部103は画像比較で一致がとれないので、文書画像が同一でないと判定する(ステップ201)。したがって、キャッシュ記憶部112は初期化される(ステップ203)。続いて[領域1−1]内の文字画像が切り出され、1文字ずつ処理されていく。この認識対象領域には同じ文字画像が繰り返し出現しないので、領域内の文字画像の中で、認識結果の確信度が高く、前述した文字画像保存の判定基準を満たす文字画像については、文字画像と文字座標と認識結果がキャッシュ記憶部112に保存され、認識結果の確信度は高いが文字画像保存の判定基準を満たさない文字画像については文字座標と認識結果がキャッシュ記憶部112に保存される(ステップ206,ステップ209〜214)。
【0050】
次に、[領域1−2]の座標を指定して文字認識モジュール102が起動される。この場合は、[領域1−1]の処理時にキャッシュ記憶部112に保存された文字画像と同じ画像が文書画像の同じ位置に存在するので、文書同一性判定部103で同一文書画像であると判定され、したがってキャッシュ記憶部112に保存されているキャッシュデータは破棄されることはない。続いて、[領域1−2]内の文字画像が切り出され、1文字ずつ処理される。この処理において、それまでに認識済みでキャッシュ記憶部112に文字座標と認識結果が保存されている文字画像と同じ文字画像が認識対象となった場合、文字画像比較部105で、その認識済み文字画像が見つかり、その認識結果がキャッシュ記憶部112から取り出され、認識対象の文字画像に対する認識結果として用いられ、文字認識部106による文字認識はスキップされる。また、この認識対象の文字画像はキャッシュ処理の対象外となる。
【0051】
以下同様にして、図2に示す文書画像の[領域1−3]、[領域1−4]、[領域1−5]、[領域1−6]の文字認識処理が実行されるが、それらの認識対象領域は同じ文書画像上の領域であるからキャッシュ記憶部112内のキャッシュデータは破棄されない。
【0052】
次に、図3に示す文書画像が入力されてレイアウト解析が行われ、その[領域2−2]の座標が指定されて文字認識モジュール102が起動されたとする。前の文書画像の例えば[領域1−1]内の文字画像がキャッシュ記憶部112に保存されているものとすると、その文字画像の位置は、図3の文書画像の図領域である[領域2−1]の内部にあたるため、文書同一性判定部103での画像比較が一致しないことは明らかであり、文書画像が同一でないと判定される結果、キャッシュ記憶部112が初期化され、それまでのキャッシュデータは破棄される。次の[領域2−3]、[領域2−4]では、同一の文書画像と判定されるため、キャッシュ記憶部112の初期化は行われない。
【0053】
文字認識モジュール102の処理フローの別の一例を図5に示す。図5において、図4中のステップと同じ番号のステップは同じ内容の処理ステップであるので説明を割愛する。図4に示した処理フローとの相違点は、キャッシュ処理部108による処理(ステップ300〜303)だけであるので、それについて以下に説明する。
【0054】
キャッシュ処理部108においては、認識対象となった文字画像に対する認識結果の確信度が高い場合(ステップ211,Yes)、その文字画像に関する文字画像比較(ステップ205)で同一とみなされる認識済み文字画像が見つかったか否かを確認し(ステップ300)、同一の認識済み文字画像が見つからなかったときには、その認識対象となった文字画像そのもの、その文字座標、及びその認識結果を対応付けてキャッシュ記憶部112に書き込む(ステップ301)。同一とみなされる認識済み文字画像が見つかったときには(ステップ300,Yes)、その認識済み文字画像そのものがキャッシュ記憶部112に保存されているか調べ(ステップ302)、保存されているならば、その文字画像をキャッシュ記憶部112から削除する(ステップ303)。ただし、削除されるのは文字画像だけであり、その文字座標と認識結果はキャッシュ記憶部112に残される。
【0055】
このように、ここに示す処理フローの例では、キャッシュされた文字画像と一致しなかった文字画像については、認識結果の確信度が低くない限り、一旦、文字画像そのものもキャッシュ記憶部112に保存し、その後に、その文字画像と同じ文字画像が認識対象となったときには削除するわけである。すなわち、出現回数が1回の文字画像のみを保存し、2回以上出現する文字画像は保存しないということであり、これは前述の出現頻度を基準として文字画像そのものを保存するか否かを判断する方法の一例である。このように出現頻度が低い文字画像をキャッシュ記憶部112に保存し、文書同一性判定で利用すると、異なる文書画像において偶然同じ位置に同じ文字画像が存在することによる誤判定の可能性が低くなる利益があることは前述した通りである。
【0056】
以上に説明した本発明の文書画像システムは、コンピュータ上でソフトウエアにより実現することもできる。すなわち、前処理モジュール100、レイアウト解析モジュール101、文字認識ジュール102、制御モジュール116に対応するプログラム・モジュール(便宜、同じ参照番号100,101,102,116で表す)、さらに文字認識用辞書110、言語辞書111がコンピュータのメモリにロードされる。文書画像記憶部114、キャッシュ記憶部112としてはメモリの一部領域が用いられる。文書画像が入力されると、制御モジュール116が前処理モジュール100を呼び出し、前処理を実行させる。これが終わると、制御モジュール116はレイアウト解析モジュール101を呼び出し、レイアウト解析処理を実行させる。このレイアウト解析処理が終了した後、あるいは、その処理中に、制御モジュール116は、抽出された1つの認識対象領域の座標を指定して文字認識モジュール102を呼び出し、その認識対象領域に対する文字認識処理を実行させる。1つの認識対象領域に対する処理の終了後、別の未処理の認識対象領域がある場合には、その1つの認識対象領域の座標を指定して文字認識モジュール102を再度呼び出して、その認識対象領域に対する文字認識処理を実行させる。このようにして、コンピュータ上で一連の文書画像処理が遂行される。各プログラム・モジュールは、例えば、それが記録されたフロッピーディスク、CD−ROM、メモリカード等の記録媒体から読み込まれたり、通信回線を通じて取り込まれたりする。そのようなプログラム・モジュール、例えば図4又は図5にフローチャートとして示された文字認識処理のための各ステップをコンピュータに実行させるためのプログラム・モジュールが記録されたフロッピーディスク、CD−ROM、半導体ROM、半導体RAM等の記録媒体も本発明に包含される。
【0057】
また、本発明による文書画像処理システムは、ネットワークが介在するような形態もとり得る。そのような文書画像処理システムをサーバー/クライアント・システム上に構築する例を図6によって説明する。図6において、400はサーバー・コンピュータであり、このサーバー・コンピュータ400にネットワーク(LAN又はWAN)402を介して複数のクライアント・コンピュータ404が接続される。サーバー・コンピュータ400は、CPU410、メモリ411、補助記憶装置412、ネットワーク通信制御部413等からなる一般的な構成のコンピュータで構わない。また、各クライアント・コンピュータ404も、CPU420、メモリ421、補助記憶装置422、ネットワーク通信制御部423等からなる一般的な構成のもので構わない。ただし、各クライアント・コンピュータ404は、画像入力部113としてのメージ・スキャナ424なども備えることになろう。サーバー・コンピュータ400には、例えばその補助記憶装置412上に、文書画像処理のための前処理モジュール100、レイアウト解析モジュール101、文字認識ジュール102、及び制御モジュール116が置かれる。
【0058】
各クライアント・コンピュータ404には、そのユーザ専用の文字認識用辞書110と言語辞書111が、例えばその補助記憶装置422上に置かれる。文書画像処理に必要な文書画像記憶部114及びキャッシュ記憶部112も、各クライアント・コンピュータ404に置かれるが、それ専用のメモリ等を用意するのではなく(そのようにしても構わないが)、それらが必要な時に、メモリ421上に文書画像記憶部114及びキャッシュ記憶部112としての記憶域が動的に確保されるのが一般的であろう。
【0059】
各クライアント・コンピュータ404においては、ネットワーク402を介して、サーバー・コンピュータ400から文書画像処理のための各モジュール100〜102,116をダウンロードしてメモリ421に展開し動作させることによって、イメージスキャナ424等から入力した文書画像に対する処理を実行することができる。この際、そのクライアント・コンピュータ404のユーザに専用の文字認識用辞書110及び言語辞書111と、キャッシュ記憶部112が利用されることになる。
【0060】
このようなシステム形態には、次のような利点がある。その1つは、サーバー・コンピュータ400側で文書画像処理のプログラム・モジュール100〜102,116を最新のもに更新するだけで、全てのクライアント・コンピュータ404のユーザが最新のプログラム・モジュール100〜102,116を利用して文書画像処理を行うことができることである。もう1つの利点、各クライアント・コンピュータ404のユーザが、専用の文字認識用辞書110及び言語辞書111を文字認識処理に利用できることである。ユーザによって文書中に用いるフォントの種類や語句等に違いがある場合、ユーザ専用の辞書を利用すると認識率の向上を期待できる。
【0061】
このように、サーバー・コンピュータ400から各プログラム・モジュール100〜102,116をダウンロードすることにより、各クライアント・コンピュータ404上に図1に示したような文書画像処理システムを構築し、サーバー・コンピュータ400から切り離された状態で文書画像処理を実行する形態は、WANを介してサーバー/クライアント間が接続されるような環境に一般に好適であろう。
【0062】
しかし、LANを介してサーバー/クライアント間が接続されるような環境では、次に述べるようなシステム形態も有効であろう。以下、図6を援用して説明する。各クライアント・コンピュータ404側で、文書画像処理が必要となった場合に、イメージ・スキャナ424等を用いて文書画像を入力したうえで、サーバー・コンピュータ400に対して文書画像処理要求を発行し、文書画像を送信する。サーバー・コンピュータ400側では、文書画像処理要求を受け付けると、メモリ411上に文書画像記憶域(文書画像記憶部114に相当)とキャッシュ記憶域(キャッシュ記憶部112に相当)を確保し、受信した文書画像を文書画像記憶域に格納するとともに、各プログラム・モジュール100〜102,116をメモリ411にロードし文書画像処理を開始する。この際、要求元のクライアント・コンピュータ404に置かれている文字認識用辞書110及び言語辞書111が文字認識処理に利用される。すなわち、サーバー・コンピュータ400側で、ネットワーク402を介してそれらの辞書を逐次参照するか、あるいは、それら辞書の内容を予めネットワーク402を介してメモリ411に取り込んだ上で参照する。文字認識用辞書110や言語辞書111のデータ量はかなり大きいが、ネットワーク402がLANであるような環境では、そのような大量のデータをサーバー・コンピュータ400へ転送したり、あるいは、クライアント・コンピュータ404側にある辞書をサーバー・コンピュータ400側から逐次参照することは必ずしも非実用的ではない。文書画像処理が終了すると、処理結果が発行元のクライアント・コンピュータ404へ返される。
【0063】
このような文書画像処理をサーバー・コンピュータ400側で実行させるシステム形態は、先に述べたシステム形態の場合と同様の利益を得られるほかに、サーバー・コンピュータ400として高性能なコンピュータを用いれば、その高い性能を各クライアント・コンピュータ404のユーザが文書画像処理に利用できるという利点もある。
【0064】
【発明の効果】
以上の詳細な説明から明らかなように、請求項1乃至9,11,12の各項記載の発明によれば、キャッシュ処理のために必要な記憶容量の増大を避けることができるとともに、文字画像間の比較によって認識しようとする文字画像と同一の認識済み文字画像を探すため、文字画像の簡易特徴量を用いる方法の問題点であった信頼性の低下も避けられる。文字認識処理をモジュール化した環境においても、1文書画像を単位としたキャッシュ処理を行って高速かつ高精度な文字認識処理が可能となる。文字認識処理をモジュール化した場合に、そのモジュールに対し外部から文書画像の同一性を指示する情報を与えることなく、モジュール内部で文書画像の同一性を判断して必要なキャッシュデータの廃棄を行うことができるため、独立性の高い文字認識モジュールを実現可能である。請求項2乃至7の各項記載の発明によれば、適切な文字画像を文書画像の同一性判定に用いることができるため、確実な文書画像同一性判定が可能になる。請求項9記載の発明によれば、認識結果が不確かな文字画像がキャッシュされることによる認識エラーの発生を回避できる。請求項10記載の発明によれば、請求項1乃至9の各項記載の発明を一般的なコンピュータを利用して容易に実施可能になる。請求項11又は12記載の発明によれば、文字認識処理のモジュール化に適した高速かつ高精度な文字認識装置を実現できる。請求項13乃至16の各項記載の発明によれば、文書画像処理のための各処理をモジュール化した高精度の文書画像処理システムを実現できる。請求項15又は16記載の発明によれば、第1のコンピュータ側で文書画像処理用モジュールを最新のもに更新するだけで、第1のコンピュータにネットワーク経由で接続される全ての第2のコンピュータのユーザが最新の文書画像処理用モジュールを利用可能となり、また、第2のコンピュータの各ユーザが専用の辞書を文字認識処理に利用可能となる。請求項16記載の発明によれば、高性能のコンピュータを第1のコンピュータとして用いれば、その高い性能を全ての第2のコンピュータのユーザが文書画像処理に利用できる、等々の効果を得られる。
【図面の簡単な説明】
【図1】 本発明による文書画像処理システムのブロック構成の一例を示すブロック図である。
【図2】 文書画像とそのレイアウト解析結果の一例を模式的に示す図である。
【図3】 文書画像とそのレイアウト解析結果の他の一例を模式的に示す図である。
【図4】 本発明による文字認識モジュールの処理フローの一例を示すフローチャートである。
【図5】 本発明による文字認識モジュールの処理フローの他の一例を示すフローチャートである。
【図6】 クライアント/サーバー・システム上に構築された本発明による文書画像処理システムを説明するためのブロック図である。
【符号の説明】
100 前処理モジュール
101 レイアウト解析モジュール
102 文字認識モジュール
103 文書同一性判定部
104 文字切り出し部
105 文字画像比較部
106 文字認識部
107 後処理部
108 キャッシュ処理部
110 文字認識用辞書
111 言語辞書
112 キャッシュ記憶部
113 画像入力部
114 文書画像記憶部
116 制御モジュール
400 サーバー・コンピュータ
402 ネットワーク
404 クライアント・コンピュータ
Claims (16)
- 文書画像記憶手段に記憶されている文書画像の個々の認識対象領域毎に文字認識処理を行う文字認識方法であって、
各認識対象領域に対する文字認識処理の開始に先だって、
前記文書画像記憶手段に記憶されている文書画像が、キャッシュ記憶手段の記憶
内容が得られた際に処理された文書画像と同一であるか否かを判定する文書同一性
判定ステップ、
前記文書同一性判定ステップで文書画像が同一でないと判定されたときに、前記
キャッシュ記憶手段を初期化するステップ、
各認識対象領域に対する文字認識処理において、
前記文書画像記憶手段に記憶されている文書画像から認識対象領域の文字画像を
切り出す文字切り出しステップ、
前記文字切り出しステップで切り出された認識対象の文字画像と、前記文書画像
記憶手段に記憶されている文書画像上の、前記キャッシュ記憶手段に記憶されてい
る文字座標の示す位置にある画像とを比較し、認識対象の文字画像と同一とみなさ
れる認識済み文字画像を見つける比較ステップ、
前記比較ステップで認識対象の文字画像と同一とみなされる認識済み文字画像が
見つからなかったときに、当該認識対象の文字画像に対し文字認識を行って認識結
果を得る文字認識ステップ、
前記文字認識ステップで得られた認識結果と認識対象の文字画像の文字座標とを
対応付けて前記キャッシュ記憶手段に書き込むキャッシュ処理ステップ、
前記比較ステップで認識対象の文字画像と同一とみなされる認識済み文字画像が
見つかったときに、当該認識済み文字画像に関し前記キャッシュ記憶手段に記憶さ
れている認識結果を、当該認識対象の文字画像に対する認識結果として取り出す認
識結果取り出しステップ、
を有し、
前記キャッシュ処理ステップは、一部の認識済み文字画像そのものも文字座標とともに前記キャッシュ記憶手段に書き込み、
前記文書同一性判定ステップは、前記キャッシュ記憶手段に文字座標と対応付けて記憶されている文字画像と同一の画像が、前記文書画像記憶手段に記憶されている文書画像上の当該文字座標の示す位置に存在するときに文書画像が同一であると判定し、そうでないときに文書画像が同一でないと判定する、
ことを特徴とする文字認識方法。 - 前記キャッシュ処理ステップは、文字画像そのものを前記キャッシュ記憶手段に書き込むか否かを、その文字画像の複雑さに基づいて決定することを特徴とする請求項1記載の文字認識方法。
- 前記キャッシュ処理ステップは、文字画像そのものを前記キャッシュ記憶手段に書き込むか否かを、その文字画像の大きさに基づいて決定することを特徴とする請求項1記載の文字認識方法。
- 前記キャッシュ処理ステップは、文字画像そのものを前記キャッシュ記憶手段に書き込むか否かを、その文字画像の色に基づいて決定することを特徴とする請求項1記載の文字認識方法。
- 前記キャッシュ処理ステップは、文字画像そのものを前記キャッシュ記憶手段に書き込むか否かを、その文字画像に対する認識結果に基づいて決定することを特徴とする請求項1記載の文字認識方法。
- 前記キャッシュ処理ステップは、文字画像そのものを前記キャッシュ記憶手段に書き込むか否かを、その文字画像の出現頻度に基づいて決定することを特徴とする請求項1記載の文字認識方法。
- 前記キャッシュ処理ステップは、文字画像そのものを前記キャッシュ記憶手段に書き込むか否かを、その文字画像の複雑さ、大きさ、色、認識結果等の2項目以上の尺度の総合評価に基づいて決定することを特徴とする請求項1記載の文字認識方法。
- 文書画像記憶手段に記憶されている文書画像の個々の認識対象領域毎に文字認識処理を行う文字認識方法であって、
各認識対象領域に対する文字認識処理の開始に先だって、
前記文書画像記憶手段に記憶されている文書画像が、キャッシュ記憶手段の記憶
内容が得られた際に処理された文書画像と同一であるか否かを判定する文書同一性
判定ステップ、
前記文書同一性判定ステップで文書画像が同一でないと判定されたときに、前記
キャッシュ記憶手段を初期化するステップ、
各認識対象領域に対する文字認識処理において、
前記文書画像記憶手段に記憶されている文書画像から認識対象領域の文字画像を
切り出す文字切り出しステップ、
前記文字切り出しステップで切り出された認識対象の文字画像と、前記文書画像
記憶手段に記憶されている文書画像上の、前記キャッシュ記憶手段に保存されてい
る文字座標の示す位置にある画像とを比較し、認識対象の文字画像と同一とみなさ
れる認識済み文字画像を見つける比較ステップ、
前記比較ステップで認識対象の文字画像と同一とみなされる認識済み文字画像が
見つかったときに、当該認識済み文字画像に関し前記キャッシュ記憶手段に記憶さ
れている認識結果を、当該認識対象の文字画像に対する認識結果として取り出す認
識結果取り出しステップ、
前記比較ステップで認識対象の文字画像と同一とみなされる認識済み文字画像が
見つからなかったときに、当該認識対象の文字画像に対して文字認識を行って認識
結果を得る文字認識ステップ、
前記比較ステップで認識対象の文字画像と同一とみなされる認識済み文字画像が
見つからなかった場合に、当該認識対象の文字画像そのものを、その文字座標、及
び、当該認識対象の文字画像に対し前記文字認識ステップで得られた認識結果と対
応付けて前記キャッシュ記憶手段に書き込み、前記比較ステップで認識対象の文字
画像と同一とみなされる認識済み文字画像が見つかった場合に、当該認識済み文字
画像そのものが前記キャッシュ記憶手段に記憶されているときは、当該認識済み文
字画像そのものを前記キャッシュ記憶手段から削除するキャッシュ処理ステップ、
を有し、
前記文書同一性判定ステップは、前記キャッシュ記憶手段に文字座標と対応付けて記憶されている文字画像と同一の画像が、前記文書画像記憶手段に記憶されている文書画像上の当該文字座標の示す位置に存在するときに文書画像が同一であると判定し、そうでないときに文書画像が同一でないと判定する、
ことを特徴とする文字認識方法。 - 認識結果の確信度が低い文字画像は前記キャッシュ処理ステップの処理対象から除外されることを特徴とする請求項1乃至8のいずれか1項記載の文字認識方法。
- 請求項1乃至9のいずれか1項記載の文字認識方法の各ステップをコンピュータに実行させるためのプログラムが記録されたことを特徴とするコンピュータ読み取り可能記録媒体。
- 文書画像記憶手段に記憶されている文書画像の個々の認識対象領域毎に文字認識処理を行う文字認識装置であって、
各認識対象領域に対する文字認識処理の開始に先だって、
前記文書画像記憶手段に記憶されている文書画像が、キャッシュ記憶手段の記憶
内容が得られた際に処理された文書画像と同一であるか否かを判定する文書同一性
判定手段、
前記文書同一性判定手段により文書画像が同一でないと判定されたときに前記キ
ャッシュ記憶手段を初期化する手段、
各認識対象領域に対する文字認識処理において、
前記文書画像記憶手段に記憶されている文書画像から認識対象領域の文字画像を
切り出す文字切り出し手段、
前記文字切り出し手段により切り出された認識対象の文字画像と、前記文書画像
記憶手段に記憶されている文書画像上の、前記キャッシュ記憶手段に記憶されてい
る文字座標の示す位置にある画像とを比較し、認識対象の文字画像と同一とみなさ
れる認識済み文字画像を見つける文字画像比較手段、
前記文字画像比較手段により認識対象の文字画像と同一とみなされる認識済み文
字画像が見つかったときに、当該認識済み文字画像に関し前記キャッシュ記憶手段
に記憶されている認識結果を、当該認識対象の文字画像に対する認識結果として取
り出す認識結果取り出し手段、
前記文字画像比較手段によって認識対象の文字画像と同一とみなされる認識済み
文字画像が見つからなかったときに、当該認識対象の文字画像に対し文字認識を行
って認識結果を得る文字認識手段、
前記文字認識手段によって得られた認識結果と認識対象の文字画像の文字座標と
を対応付けて前記キャッシュ記憶手段に書き込むキャッシュ処理手段、
を具備し、
前記キャッシュ処理手段は、一部の認識済み文字画像そのものも文字座標とともに前記キャッシュ記憶手段に書き込み、
前記文書同一性判定手段は、前記キャッシュ記憶手段に文字座標と対応付けられて記憶されている文字画像と同一の画像が、前記文書画像記憶手段に記憶されている文書画像上の当該文字座標の示す位置に存在するときに文書画像が同一であると判定し、そうでないときに文書画像が同一でないと判定する、
ことを特徴とする文字認識装置。 - 文書画像記憶手段に記憶されている文書画像の個々の認識対象領域毎に文字認識処理を行う文字認識装置であって、
各認識対象領域に対する文字認識処理の開始に先だって、
前記文書画像記憶手段に記憶されている文書画像が、キャッシュ記憶手段の記憶
内容が得られた際に処理された文書画像と同一であるか否かを判定する文書同一性
判定手段、
前記文書同一性判定手段で文書画像が同一でないと判定されたときに、前記キャ
ッシュ記憶手段を初期化する手段、
各認識対象領域に対する文字認識処理において、
前記文書画像記憶手段に記憶されている文書画像から認識対象領域の文字画像を
切り出す文字切り出し手段、
前記文字切り出し手段により切り出された認識対象の文字画像と、前記文書画像
記憶手段に記憶されている文書画像上の、前記キャッシュ記憶手段に記憶されてい
る文字座標の示す位置にある画像とを比較し、認識対象の文字画像と同一とみなさ
れる認識済み文字画像を見つける文字画像比較手段、
前記文字画像比較手段により認識対象の文字画像と同一とみなされる認識済み文
字画像が見つかったときに、当該認識済み文字画像に関し前記キャッシュ記憶手段
に記憶されている認識結果を、当該認識対象の文字画像に対する認識結果として取
り出す認識結果取り出し手段、
前記文字画像比較手段により認識対象の文字画像と同一とみなされる認識済み文
字画像が見つからなかったときに、当該認識対象の文字画像に対し文字認識を行っ
て認識結果を得る文字認識手段、
前記文字画像比較手段により認識対象の文字画像と同一とみなされる認識済み文
字画像が見つからなかった場合に、当該認識対象の文字画像そのものを、その文字
座標、及び、当該認識対象の文字画像に対し前記文字認識手段で得られた認識結果
と対応付けて前記キャッシュ記憶手段に書き込み、前記文字画像比較手段により認
識対象の文字画像と同一とみなされる認識済み文字画像が見つかった場合に、当該
認識済み文字画像そのものが前記キャッシュ記憶手段に記憶されているときは、当
該認識済み文字画像そのものを前記キャッシュ記憶手段から削除するキャッシュ処
理手段、
を具備し、
前記文書同一性判定手段は、前記キャッシュ記憶手段に文字座標と対応付けられて記憶されている文字画像と同一の画像が、前記文書画像記憶手段に記憶されている文書画像上の当該文字座標の示す位置に存在するときに文書画像が同一であると判定し、そうでないときに文書画像が同一でないと判定する、
ことを特徴とする文字認識装置。 - 文書画像記憶手段と、
キャッシュ記憶手段と、
前記文書画像記憶手段に記憶されている文書画像の認識対象領域を抽出する認識対象領域抽出手段と、
請求項11又は12記載の文字認識装置と、
前記認識対象領域抽出手段を起動して前記文書画像記憶手段に記憶されている文書画像の認識対象領域を抽出させ、抽出された個々の認識対象領域毎に、領域の座標を指定して前記文字認識装置を起動し指定された認識対象領域に対する文字認識処理を行わせる制御手段と
を具備することを特徴とする文書画像処理システム。 - コンピュータ上に、文書画像記憶手段、キャッシュ記憶手段、文字認識処理のための辞書、文書画像の認識対象領域を抽出する処理を行う第1のプログラム・モジュール、請求項1乃至9のいずれか1項記載の文字認識方法の各ステップを実行するための第2のプログラム・モジュール、前記第1及び第2のプログラム・モジュールの実行を制御する第3のプログラム・モジュールを置き、
前記第3のプログラム・モジュールにより前記第1のプログラム・モジュールを呼び出して前記文書画像記憶手段に記憶されている文書画像の認識対象領域の抽出を行わせ、抽出された個々の認識対象領域毎に、前記第3のプログラム・モジュールにより領域の座標を指定して前記第2のプログラム・モジュールを呼び出し、前記文書画像記憶手段に記憶されている文書画像の指定され認識対象領域に対する文字認識処理を行わせることを特徴とする文書画像処理システム。 - 第1のコンピュータに、文書画像の認識対象領域を抽出する処理を行うための第1のプログラム・モジュール、請求項1乃至9のいずれか1項記載の文字認識方法の各ステップを実行するための第2のプログラム・モジュール、前記第1及び第2のプログラム・モジュールの実行を制御する第3のプログラム・モジュールを置き、
前記第1のコンピュータとネットワークを介して接続される複数の第2のコンピュータのそれぞれに、文書画像記憶手段、キャッシュ記憶手段、文字認識処理のための辞書を置き、
前記第2のコンピュータにおいて、前記第1のコンピュータより前記第1、第2及び第3のプログラム・モジュールをダウンロードし、前記第3のプログラム・モジュールにより前記第1のプログラム・モジュールを呼び出して前記文書画像記憶手段に記憶されている文書画像の認識対象領域の抽出を行わせ、抽出された個々の認識対象領域毎に、前記第3のプログラム・モジュールにより領域の座標を指定して前記第2のプログラム・モジュールを呼び出し、前記文書画像記憶手段に記憶されている文書画像の指定された認識対象領域に対する文字認識処理を行わせることを特徴とする文書画像処理システム。 - 第1のコンピュータに、文書画像の認識対象領域を抽出する処理を行うための第1のプログラム・モジュール、請求項1乃至9のいずれか1項記載の文字認 識方法の各ステップを実行するための第2のプログラム・モジュール、前記第1及び第2のプログラム・モジュールの実行を制御する第3のプログラム・モジュール、文書画像記憶手段、キャッシュ記憶手段を置き、
前記第1のコンピュータとネットワークを介して接続される複数の第2のコンピュータのそれぞれに文字認識処理のための辞書を置き、
前記第2のコンピュータより前記第1のコンピュータに対し文書画像処理要求を発行するとともに文書画像を送信し、
前記第1のコンピュータにおいて、文書画像処理要求元の前記第2のコンピュータから受信した文書画像を前記文書画像処理手段に格納し、前記第3のプログラム・モジュールにより前記第1のプログラム・モジュールを呼び出して前記文書画像記憶手段に記憶されている文書画像の認識対象領域の抽出を行わせ、これにより抽出された個々の認識対象領域毎に、前記第3のプログラム・モジュールにより領域の座標を指定して前記第2のプログラム・モジュールを呼び出し、前記文書画像記憶手段に記憶されている文書画像の指定された認識対象領域に対する文字認識処理を行わせ、この文字認識処理の際に文書画像処理要求元の前記第2のコンピュータに置かれている前記辞書が利用されることを特徴とする文書画像処理システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23226599A JP3985926B2 (ja) | 1999-08-19 | 1999-08-19 | 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23226599A JP3985926B2 (ja) | 1999-08-19 | 1999-08-19 | 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001056840A JP2001056840A (ja) | 2001-02-27 |
JP3985926B2 true JP3985926B2 (ja) | 2007-10-03 |
Family
ID=16936551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP23226599A Expired - Fee Related JP3985926B2 (ja) | 1999-08-19 | 1999-08-19 | 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3985926B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4807489B2 (ja) * | 2005-02-28 | 2011-11-02 | 富士ゼロックス株式会社 | 教材処理装置、教材処理方法および教材処理プログラム |
JP5018601B2 (ja) * | 2008-03-31 | 2012-09-05 | 日本電気株式会社 | 受信文書の言語判別方法及び受信文書翻訳システム並びにその制御プログラム |
-
1999
- 1999-08-19 JP JP23226599A patent/JP3985926B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001056840A (ja) | 2001-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI321294B (en) | Method and device for determining at least one recognition candidate for a handwritten pattern | |
JP3919617B2 (ja) | 文字認識装置および文字認識方法、プログラムおよび記憶媒体 | |
JP2973944B2 (ja) | 文書処理装置および文書処理方法 | |
US7630551B2 (en) | Method and system for line extraction in digital ink | |
JP4366108B2 (ja) | 文書検索装置、文書検索方法及びコンピュータプログラム | |
KR100487386B1 (ko) | 부수 모델에 기초한 초서체 한자 수기 주석의 검색법 | |
JPH08255236A (ja) | 画像のファイリング装置及びファイリング方法 | |
JP4704601B2 (ja) | 文字認識方法,プログラム及び記録媒体 | |
JPH0772906B2 (ja) | 文書認識装置 | |
JP3917349B2 (ja) | 文字認識結果を利用して情報を検索する検索装置および方法 | |
CN113408536A (zh) | 票据的金额识别方法、装置、计算机设备及存储介质 | |
JP2022095391A (ja) | 情報処理装置、及び情報処理プログラム | |
JP3985926B2 (ja) | 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体 | |
US7133556B1 (en) | Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition | |
JPH11328306A (ja) | 文書画像の論理要素抽出方法、装置および記録媒体 | |
CN115398489A (zh) | 墨水数据的改正方法、信息处理装置及程序 | |
JP2002063197A (ja) | 検索装置、記録媒体およびプログラム | |
JP2000090117A (ja) | 文書画像の論理要素抽出方法、装置および記録媒体 | |
JP2000259847A (ja) | 情報検索方法、装置および記録媒体 | |
JPH06223121A (ja) | 情報検索装置 | |
JP2906758B2 (ja) | 文字読取装置 | |
JP4261831B2 (ja) | 文字認識処理方法、文字認識処理装置、文字認識プログラム | |
JP4328511B2 (ja) | パターン認識装置、パターン認識方法、プログラムおよび記憶媒体 | |
JPS6142083A (ja) | 文字認識装置 | |
JP2023029196A (ja) | データ処理装置、データ処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070705 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100720 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110720 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120720 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120720 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130720 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |