JP3985926B2

JP3985926B2 - 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体

Info

Publication number: JP3985926B2
Application number: JP23226599A
Authority: JP
Inventors: 秀明山形
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1999-08-19
Filing date: 1999-08-19
Publication date: 2007-10-03
Anticipated expiration: 2019-08-19
Also published as: JP2001056840A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書画像処理の分野に係り、特に、文字認識処理に関する。
【０００２】
【従来の技術】
文字認識系においては、一般に、高い認識率を得ようとすると非常に複雑な特徴抽出やマッチング処理を用いるため、処理に時間がかかるという問題がある。
この処理時間の問題を解決する１つの手法として、特開平７−７２９０６号公報に述べられているようなキャッシュ処理を行う方法がある。同公報には、２つの方法が開示されている。その１つは、認識処理を終わった文字画像そのものを認識結果とともに保存しておき、認識しようとする文字画像を保存されている認識済みの文字画像と比較し、同一とみなせる認識済み文字画像が見つかったときには、その認識済み文字画像に対応して保存されている認識結果を、そのまま認識結果として用いる方法である。もう１つは、認識処理を終わった文字画像の簡易特徴量を認識結果とともに保存しておき、認識しようとする文字画像の簡易特徴量と保存されている簡易特徴量とを比較し、同一とみなせる簡易特徴量が見つかったときには、その簡易特徴量に対応して保存されている認識結果を、そのまま認識結果として用いる方法である。
【０００３】
【発明が解決しようとする課題】
同じ文字画像が再度出現しないとキャッシュ処理の効果はないため、キャッシュ処理の効果を期待するためには、ある程度の文字数をキャッシュ処理の対象にする必要がある。しかし、文字画像そのものはデータ量が一般にかなり大きく、例えば、４８×４３画素の文字画像では、１画素を１ビットで表現すると２５８バイトものデータ量となる。したがって、前述の文字画像そのものを保存する方法には、キャッシュ処理に必要な記憶容量がかなり大きくなるという問題がある。文字認識処理の場合、パターン辞書や言語辞書のように記憶量量を多く必要とするデータもあるため、キャッシュ処理に必要な記憶容量はできるだけ少ないことが好ましい。このような文字画像そのものを保存する方法に比べれば、前述の簡易特徴量を保存する方法はキャッシュ処理のための記憶容量をかなり減らすことが可能である。しかし、簡易特徴量は文字画像の特徴の一部を表現したものにすぎず、異なった文字画像の間で簡易特徴量が一致してしまう可能性が大きいため、文字画像そのものを保存する方法に比べ信頼性が低いという問題がある。
【０００４】
よって、本発明の１つの目的は、以上に述べた従来のキャッシュ処理に関わる２つの問題点を解決することにある。
【０００５】
また、一般的に、各種装置又はシステムを開発する場合、各処理をモジュール化することが開発効率の観点から好ましい。文書画像処理においても同様で、技術的な成熟度が増し処理内容が複雑になるにつれ、文書画像処理に用いられる各処理のモジュール化は必須の課題となりつつある。
【０００６】
文書画像処理において文字認識処理がモジュール化された場合、その文字認識モジュール（ハードウェア・モジュール又はプログラム・モジュール）の処理単位は、１つの文書画像の全体ではなく、その部分である可能性が高い。例えば、レイアウト解析等の処理によって、文書画像から個々の記事、カラムといった認識対象領域が抽出され、それぞれの領域毎に、その座標を指定して文字認識モジュールが呼び出される可能性が高い。
【０００７】
この場合、個々の認識対象領域に含まれる文字数は、一般に１つの文書画像の全体に含まれる文字数よりかなり少ないため、個々の認識対象領域をキャッシュ処理の単位とした場合、キャッシュ処理の対象となる文字数が不足し、キャッシュ処理の効果を十分に期待できない心配がある。したがって、文字認識処理がモジュール化された場合も、個々の認識対象領域ではなく１つの文書画像の全体を対象としたキャッシュ処理が行われるのが望ましい。
【０００８】
よって、本発明のもう１つの目的は、文字認識処理がモジュール化された場合のように、認識対象領域毎に文字認識処理を行う環境で、キャッシュ処理のために必要な記憶容量の増加を回避しつつ、文書画像単位でのキャッシュ処理を可能にすることにある。本発明の他の目的は、独立性の高い高速・高精度の文字認識モジュールを提供することにある。
【０００９】
【課題を解決するための手段】
本発明の１つの主要な特徴は、キャッシュ処理において、文字画像そのものではなく、文書画像上での文字画像の座標（文字座標）をキャッシュ記憶手段に保存しておき、文書画像記憶手段に記憶されている文字画像上の、キャッシュ記憶手段に保存されている文字座標の位置にある画像と、文字認識しようとする文字画像とを比較することにより、認識しようとする文字画像と同一とみなされる認識済み文字画像を見つけることである。
【００１０】
文字座標として、文字画像の外接矩形の対向した２コーナーの座標を用いるものとして、各コーナーのｘ座標、ｙ座標をそれぞれ２バイト、計４バイトで表現したとしても、１文字分のキャッシュに必要な記憶容量は８バイトで済む。４８×４３画素の大きさの文字画像そのものをキャッシュする場合、１画素を１ビットで表現したとしても２５８バイトが必要である。したがって、文字座標をキャッシュ記憶手段に保存する方法は、キャッシュ処理に必要な記憶容量を大幅に削減できる。しかも、比較は文字画像間で行うので、文字画像の簡易特徴量を用いる方法のような信頼性低下の問題はないため、文字画像そのものをキャッシュする方法と同様に高精度の文字認識処理が可能である。
【００１１】
このような文字座標をキャッシュする手法では、現在のキャッシュデータが得られた際に処理された文書画像と、これから認識しようとする文字画像が含まれている文書画像とが同一であることが当然の前提となる。１つの文書画像を処理の単位とする環境では、新しい文書画像に対する処理の開始段階で、それまでのキャッシュデータをクリアすることで、その条件を容易に満たすことができ、また、キャッシュ処理の対象文字数も十分に多くなるため、キャッシュ処理の十分な効果を期待できる。
【００１２】
一方、文字認識処理をモジュール化し、文書画像の個々の認識対象領域毎に文字認識モジュールを起動するような環境では、文字認識処理の単位は１つの文書画像の全体ではなく個々の認識対象領域である。しかして、本発明のもう１つの主要な特徴は、そのような文書画像の個々の認識対象領域を処理の単位とするような環境においても、１つの文書画像を単位としたキャッシュ処理を可能にするため、文書画像記憶手段に記憶されている文書画像の個々の認識対象領域に対する認識処理に先立ち、認識対象領域が含まれている現在の文書画像（文書画像記憶手段に記憶されている文書画像）が、キャッシュ記憶手段の記憶内容が得られた際に処理された文書画像と同一であるか判定し、同一でないと判定したときにはキャッシュ記憶手段を初期化することである。
【００１３】
好ましい態様によれば、一部の文字画像について、文字画像そのものも文字座標とともにキャッシュ記憶手段に保存しておき、文書画像記憶手段に記憶されている文書画像において、キャッシュ記憶手段に保存された文字画像と同じ画像が、その文字画像の文字座標の位置に存在するときに文書画像が同一であると判定し、そうでないときに文書画像が同一でないと判定する。全くランダムに白画素と黒画素が配置された１００画素の画像が、異なった２つの文書画像上の同じ位置に偶然現れる確率は２の１００乗分の１であるから、保存されている文字画像と同一とみなされる画像が同じ位置にあるときには同一の文書画像であると判断して実用上支障はない。ただし、文書画像においては、異なる文書画像の同じ位置に同じ形状の文字画像が存在する可能性はそれより高くなる傾向があるので、文書画像の同一性の判定に利用するためにキャッシュ記憶手段に保存する文字画像を選ぶ何らかの基準を用意するのが一般に好ましい。
【００１４】
このような文書画像の同一性判定方法は、文字認識モジュールを呼び出す制御モジュール側から文書画像の同一性を示す何らかの情報を文字認識モジュールに与える方法に比べ、文字認識モジュールの独立性確保の観点から有利である。また、後者の方法では誤った情報が与えられた場合に認識精度が大幅に悪化する危険があるが、それも回避できる。
【００１５】
以上に述べた本発明の特徴と、その他の特徴について、以下の説明において詳細に説明する。
【００１６】
【発明の実施の形態】
以下、添付図面を参照し、本発明の実施の形態を説明する。なお、説明の繰り返しを避けるため、添付図面中の複数の図面において同一部分又は対応部分には同一の参照符号又は同様の参照符号を用いる。
【００１７】
図１に、本発明の一実施形態である文書画像処理システムのブロック構成の一例を示す。ここに示す文書画像処理システムは、文書画像処理のための前処理、レイアウト解析、文字認識処理の各処理がモジュール化されたもので、それぞれの処理モジュールとして前処理モジュール１００、レイアウト解析モジュール１０１、文字認識モジュール１０２を備え、また、それら各モジュールの実行を制御するための制御モジュール１１６を備える。また、文字認識モジュール１０２によって利用される文字認識用辞書１１０、言語辞書１１１及びキャッシュ記憶部１１２、処理すべき文書画像を入力する画像入力部１１３、入力された文書画像を記憶するための文書画像記憶部１１４を備えている。
【００１８】
画像入力部１１３は、イメージスキャナ等の画像入力機器を利用して文書原稿をスキャンしその画像を入力したり、記録媒体に予め記憶されている文書画像を取り込んだり、あるいは、通信回線を介して外部より文書画像を取り込んだりする部分である。
【００１９】
文字認識用辞書１１０は文字画像の特徴量を用いた１文字単位の文字認識のためのパターン辞書である。言語辞書１１１は１文字単位の文字認識処理の結果に対する後処理のために利用される単語等の言語知識を格納した辞書である。
【００２０】
文書画像記憶部１１４に新しい文書画像が格納されると、制御モジュール１１６によって前処理モジュール１００が起動される。この前処理モジュール１００は、起動されると、文書画像記憶部１１４に記憶されている文書画像に対し、ノイズ除去や傾き補正などの前処理を施す部分である。このモジュールは、場合によっては省略し得る。
【００２１】
この前処理が終了すると、制御モジュール１１６によって、レイアウト解析モジュール１０１が起動される。このレイアウト制御モジュール１０１は、前処理後の文書画像を認識対象領域（文字の領域）と、それ以外の図又は表の領域とに分類する。このような領域分割については、文書画像中の連結成分を囲む最小矩形を求め、大きな矩形の領域を図や表の領域とし、残りの小さな矩形の集まった領域を認識対象領域とする等、様々な手法が知られている。本発明においても、そのような公知の手法を利用し得る。
【００２２】
文字認識処理に関連しては、認識対象領域を抽出するのみで十分であるが、認識結果を文書の構造と関連付けるような処理まで考慮する場合には、認識対象領域について、そのレイアウト構造上の属性であるヘッダ、フッタ、タイトル、本文等の識別等も行う。このようなレイアウト解析に関しては、特開平５−２５８０９８号公報、特開平８−８７５２８号公報、特開平１０−１７７６４１号公報、特開平１０−１９８７０５号公報等に見られるように数多くの手法が提案されている。本発明においても、そのような公知の手法を利用し得る。例えば、扱う文書のレイアウトが固定している場合には、予め用意されたフォーマット情報中に指定されている座標値から、ヘッダ、タイトル、本文、フッタなどの領域とその属性を識別するような、よく知られた手法を利用し得る。フォーマットの異なる複数種類の文書を扱う場合には、例えば前記特開平１０−１９８７０５号公報に述べられているように、文字サイズなどに基づいて文書の種類を特定したうえで、その種類の文書に対応したフォーマット情報を利用して文書画像上の領域と属性の識別を行うような手法を利用してよい。
【００２３】
文書画像の例と、そのレイアウト解析結果の例を、図２及び図３に模式化して示す。
【００２４】
レイアウト解析モジュール１０１によるレイアウト解析が終了した後、あるいはレイアウト解析処理の途中から、制御モジュール１１６は、抽出された１つの認識対象領域の座標を指定して文字認識モジュール１０２を起動する。起動された文字認識モジュール１０２は、指定された認識対象領域に対する文字認識処理を行うが、その処理内容については後述する。
【００２５】
文字認識モジュール１０２は、機能的に分割すると、文書画像記憶部１１４に記憶されている文書画像と、キャッシュ記憶部１１２に保存されている現在のキャッシュデータが得れらた時に処理された文書画像との同一性を認識対象領域毎に判定する文書同一性判定部１０３、文字画像の切り出しを行う文字切り出し部１０４、切り出された認識対象の文字画像とキャッシュされた文字画像との比較を行い、認識対象の文字画像と同一とみなされる認識済み文字画像を見つける文字画像比較部１０５、認識対象の文字画像の特徴量を抽出し、その特徴量と文字認識用辞書１１０に格納されている特徴量とのマッチングを行って１文字単位の文字認識を行う文字認識部１０６、文字認識部１０６による認識結果に対する後処理を行う後処理部１０７、キャッシュ処理を行うためのキャッシュ処理部１０８、及び、それら各部の動作の制御及び文字認識結果の確信度の計算等を行う制御部１０９から構成されている。
【００２６】
キャッシュ記憶部１１２はキャッシュデータの保存のための記憶部であり、キャッシュ処理部１０８によって、文字画像の文字座標と認識結果（一部の文字画像について、文字画像そのものも）が対応付けられて書き込まれる。文書同一性判定部１０３で文書画像が同一でないと判定された時にキャッシュ記憶部１１２は制御部１０９により初期化されるが、文書画像が同一と判定される間はキャッシュ記憶部１１２の記憶内容は保存される。
【００２７】
図４に文字認識ジュール１０２の処理フローの一例を示す。以下、この処理フローに沿って文字認識モジュールにおける処理内容を説明する。
【００２８】
文字認識モジュール１０２は、制御ジュール１１６によって１つの認識対象領域の座標を指定されて起動されると、まず、指定された座標を用いて文書画像記憶部１１４より１つの認識対象領域の画像を取り込む（ステップ２００）。なお、画像を取り込まず、文書画像記憶部１１４上の指定された認識対象領域の画像をそのまま処理に用いることも可能であるが、その場合、処理途中に文書画像記憶部１１４の書き換えを禁止する等の制御を行わないと処理エラーが起きる危険がある。
【００２９】
次に、文書同一性判定部１０３において、キャッシュ記憶部１１２に保存されている現在のキャッシュデータが得られた時に処理された文書画像と、目下処理しようしている認識対象領域が含まれている文書画像、すなわち文書画像記憶部１１４に現在記憶されている文書画像とが同一であるか否かを判定する（ステップ２０１）。好ましい態様では、この文書画像の同一性判定は次のようにして行われる。まず、キャッシュ記憶部１１２に文字画像（認識済みの文字画像）が記憶されているか調べ、文字画像が記憶されているならば、その文字画像と、それに対応して記憶されている文字座標をキャッシュ記憶部１１２より取り込む。次に、文書画像記憶部１１４に記憶されている文書画像上の、その文字座標の位置にある画像を取り込む。そして、文書画像から取り込んだ画像と、キャッシュ記憶部１１２より取り込んだ文字画像とを比較し、それらが同一の画像とみなせるならば同一の文書画像であると判定し、そうでなければ同一の文書画像ではないと判定する。比較ができない場合、つまりキャッシュ記憶部１１２に文字画像がまったく記憶されていない場合には、安全のため同一でないと判定する。
【００３０】
なお、キャッシュ記憶部１１２に２つ以上の文字画像が保存されている場合、その２つ又はそれ以上の文字画像に関する画像比較がすべて一致したときに、文書画像を同一と判定すれば、より高い判定精度を期待できる。ただし、１つの文字画像に関してのみ画像比較を行い、その一致をもって文書画像が同一であると判定しても、相当に高精度の判定が可能であることは前述の通りである。
【００３１】
なお、制御モジュール１１６側で、文書画像の入れ替わりを管理し、文字認識モジュール１０２を呼び出す際に、それ以前に処理された文書画像と同一であるか否かの情報を文字認識モジュール１０２に与え、この情報に基づいて文書同一性判定部１０３が文書画像の同一性を判断する方法も可能である。しかし、このような方法は、制御モジュール１１６における制御が複雑になるとともに、誤った情報が文字認識モジュール１０２に与えられた場合に認識精度が大きく悪化する危険がある。文字画像の比較によって文書画像の同一性を判定する方法は、そのような問題を解決できるとともに、文字認識モジュール１０２の独立性確保の観点からも有利である。
【００３２】
文書画像の同一性判定のための画像比較にはどのような手法を利用しても構わないが、例えば米国特許第５，３０３，３１３号に示されているような、２つの画像間で、エッジのずれや黒画素数の差等の複数項目のテストを行い、１つの項目のテストで合格すると１票を投じるという投票操作を実行し、得票数が所定値を越えた場合に、それら２つの画像を同一と判断する手法を利用可能である。後述する文字画像比較部１０５における文字画像の比較においても、同様の手法を利用してよい。
【００３３】
さて、文書同一性判定部１０３で文書画像が同一でないと判定されたときには（ステップ２０２，Ｎｏ）、制御部１０９によりキャッシュ記憶部１１２が初期化される（ステップ２０３）。すなわち、異なった文書画像の処理には現在のキャッシュデータは利用できないため、それが破棄される。
【００３４】
次に、文字切り出し部１０４において、モジュール内に取り込まれた認識対象領域の画像から文字画像（文字画像の候補）を１文字単位で切り出す（ステップ２０４）。この文字切り出しについては様々な手法が知られており、そのどのような手法を利用してもよい。例えば、行方向の射影等を利用して行の切り出しを行い、切り出した各行の垂直な方向の射影等を利用して行内の文字を切り出すような方法や、黒画素の連結成分を抽出し、１文字とみなし得る単独の連結成分、あるいは複数の連結成分の塊を文字画像として切り出すような方法を利用し得る。ここで切り出された文字画像（候補）が認識対象の文字画像となる。以下の処理は１文字ずつの繰り返し処理である。
【００３５】
まず、文字画像比較部１０５において、キャッシュ記憶部１１２に記憶されている認識済み文字画像の文字座標を読み出し、この文字座標の位置にある画像を文書画像記憶部１１４より取り込み、その画像を認識対象の文字画像と比較することにより、認識対象の文字画像と同一とみなされる認識済み文字画像を見つける（ステップ２０５）。認識対象の文字画像と同一とみなされる認識済み文字画像がみつかったならば（ステップ２０６，Ｙｅｓ）、制御部１０９により、その認識済み文字画像の文字座標と対応付けられてキャッシュ記憶部１１２に記憶されている認識結果（文字認識部１０６による１文字単位の認識結果）が、そのまま認識対象の文字画像に対する認識結果として取り出され（ステップ２０７）、後処理部１０７に与えられる。後処理部１０７では、与えられた認識結果に対する後処理を行う（ステップ２０８）。後処理には様々な手法が知られており、本発明にいても任意の公知の手法を利用できる。例えば、文字認識部１０６では文字画像の特徴量を抽出する前に文字画像の正規化を行うのが一般的であるから、抽出した特徴量だけでは区別が困難な類似文字が少なくない。このような類似文字を識別するために有効な後処理の手法として、特開平６−１７６１９６号公報に開示されているように、文字画像の行内における相対的な大きさ（同公報に述べられている縦横比、面積比、上空白比など）を利用して認識結果を修正する後処理法を利用できる。また、このような文字単位の後処理の後に、認識結果の文字コードの組み合わせと言語辞書１１１に格納されている単語とを照合し、もっともらしい文字コードの組み合わせを上位の候補とするような後処理を利用できる。また、このような後処理の結果に基づいて、文字切り出しの段階で切り出された前後の文字画像（候補）のうちで、文字らしい画像だけを最終的に文字画像として選択する、いわゆるパス選択処理を行ってもよい。このような後処理を終わると、ステップ２０５に戻り次の文字画像に対する処理が実行される。
【００３６】
文字画像比較部１０５で、認識対象の文字画像と同一とみなされる認識済み文字画像がみつからなかった場合（ステップ２０６，Ｎｏ）、文字認識部１０６で、その認識対象の文字画像の特徴量（例えば公知の多層方向ヒストグラムによる特徴量）を抽出し、その特徴量と文字認識用辞書１１０に格納されている特徴量とのマッチングを行うことにより認識結果を得る（ステップ２０９）。この認識結果に対し、前述のような後処理が後処理部１０７で実行される（ステップ２１０）。次に、この文字画像に対し、キャッシュ処理部１０８によるキャッシュ処理が行われる（ステップ２１１〜２１４）。
【００３７】
キャッシュ処理部１０８においては、まず、制御部１０９で算出された、その文字画像に対する認識結果の確からしさ（確信度）が高いか否かを判定し（ステップ２１１）、確信度が低いときには、その文字画像をキャッシュ処理の対象から除外する。なお、確信度の求め方は種々提案されている。例えば、特開平７−７２９０６号公報に述べられているように、文字認識用辞書１１０とのマッチングで得られた第１位候補の辞書との距離の逆数や、第１位候補と第２位候補の辞書との距離の比を確信度とする方法、特開平５−３５９１７号公報に述べられているように、文字認識用辞書１１０とのマッチングで得られた第１位候補の辞書との距離を文字画像の総輪郭数で除した値を確信度とする方法といった比較的単純な方法を用いることができる。これらの確信度は、文字認識用辞書１２２とのマッチング結果に対する確信度であるが、例えば特開平５−１８２０１４号公報に述べられているように、文字切り出し、文字認識用辞書１１０とのマッチング、後処理の各段階で得られた情報を総合して確信度を計算する方法を用いることもできる。
【００３８】
ステップ２１１で確信度が高いと判定された場合には、その文字画像そのものも保存すべきか否かの判定を行う（ステップ２１２）。保存すべきでないと判定した場合には、その文字画像の文字座標と認識結果だけを対応付けてキャッシュ記憶部１１２に書き込み（ステップ２１３）、保存すべきであると判定した場合には、その文字画像そのものも、文字座標及び認識結果と対応付けてキャッシュ記憶部１１２に書き込む（ステップ２１４）。ステップ２１１で確信度が低いと判定した場合には直ちに、ステップ２１１で確信度が高いと判定した場合はステップ２１３又はステップ２１４の実行後にステップ２０５に戻り、次の文字画像に対する処理が繰り返される。
【００３９】
以上の１文字単位の処理が繰り返され、認識対象領域から切り出された全ての文字画像が処理済みとなると（ステップ２１５，Ｙｅｓ）、制御部１０９は最終的な認識結果を外部の記録媒体やディスプレイ等へ出力し（ステップ２１６）、１つの認識対象領域に対する文字認識処理を終了する。
【００４０】
ここで、ステップ２１２の判定基準について説明する。この判定基準は、その文字画像が文書同一性判定に用いるために相応しい文字画像であるか否かであり、具体的には次に述べるような基準を用いる得る。
【００４１】
（ａ）文字画像の複雑さが所定の程度を越えること。
あまりに単純な文字画像は、別の文書画像の同じ位置の画像と比較した時に偶然一致する危険がある。したがって、キャッシュ記憶部１１２に保存する文字画像は、ある程度以上の複雑さを持つ文字画像に限定するとよい。
文字画像の複雑さの尺度としては、輪郭長や黒画素数などの図形の形状的な特徴から算出される値や、書籍『画像認識の基礎［II］第１版』（株式会社オーム社）の第１９８頁から第１９９頁に述べられているような、文字画像のエネルギー、エントロピー、相関等の統計的な尺度を用いることができる。例えば、文字画像の輪郭長を２乗した値を黒画素数で除した値Ｃを尺度として用い、この値Ｃがある閾値（例えば２．５）を越えた場合に、その文字画像も保存すべきと判定する。なお、この閾値を固定した場合に、１つも文字画像が保存されなかったり、逆に必要以上に多くの文字画像が保存されてしまい、キャッシュデータ量が過大になるといった不都合が心配されるときには、図４のフローチャートには明示しないが、キャッシュ処理の対象となった文字画像とキャッシュ記憶部１１２に保存されている文字画像の間で複雑さを比較し、キャッシュ処理対象の文字画像より単純な文字画像がキャッシュ記憶部１１２に保存されているならば、その単純な文字画像を削除し、それに代えてキャッシュ処理対象の文字画像をキャッシュ記憶部１１２に書き込むことにより、複雑さの順に選ばれた所定個数の文字画像がキャッシュ記憶部１１２に残るようにしてもよい。
【００４２】
（ｂ）文字画像の大きさが、ある範囲内であること。
小さすぎる文字画像を文書同一性判定に用いると、異なる文書画像においても画像の比較で誤って一致がとれる可能性が高くなる。逆に、大きすぎる文字画像は、そのデータ量が大きくなるため保存するのは好ましくない。したがって、例えば文字画像の外接矩形の面積が、ある下限閾値を越え、かつ、ある上限閾値より小さい場合にのみ、その文字画像を保存するのがよい。なお、文字画像の面積に加えて、文字画像の外接矩形の縦横比も判断の基準として利用することも有効である。すなわち、縦横比が極端に小さいか大きい文字画像は、線分等との比較で一致する可能性があるが、縦横比を基準に加えれば、そのような文字画像の保存を避けることができる。
【００４３】
（ｃ）文字画像の色が特異であること。
ある文書画像上の特異な色の文字画像は、別の文字画像の同じ位置に存在する可能性は小さいため、文書同一性判定に用いるのに適当である。最も簡単には、黒以外の色の文字画像について、文字画像そのものを保存するような方法を用いることができる。処理はすこし複雑になるが、文字画像の色の分布をとり、出現頻度の低い特定の色の文字画像を保存するような方法も可能である。
【００４４】
（ｄ）認識結果が特定の文字コードであること。
例えば、漢数字の一の文字画像は、漢数字の三のような他の文字画像の一部分であったり、罫線などの線分と同一とみなされる可能性があるので、文書同一性判定に利用するには適当でない。したがって、このような他の文字や図形の一部となり得る文字コードや、形状の似た文字が多い文字コードが認識結果となった文字画像はキャッシュ記憶部１１２には保存しない、とする方法を利用し得る。なお、文書同一性判定にどのような画像比較手法を利用するかによって、文字画像を保存するのが不適当な文字コードも異なる。
【００４５】
（ｅ）出現頻度が低いこと。
出現頻度が高い文字画像は、異なる文書画像の同じ位置に偶然出現する可能性も高くなるため、文書同一性判定に用いる文字画像としては適当でない。そこで、キャッシュ記憶部１１２に保存する文字画像を、出現頻度が低い文字画像だけに限定してもよい。なお、その具体例を図５に関連して後述する。
【００４６】
（ｆ）文字画像の複雑さ、大きさ、色、認識結果、出現頻度などの２項目以上の尺度の総合評価が高いこと。
例えば、文字画像が十分に複雑ならば何点、そうでなければ０点、文字画像の大きさが所定の範囲内ならば何点、範囲外ならば０点、文字画像の色が特異色ならば何点、そうでなければ０点というように、尺度毎のスコアを求め、評価する２項目以上の尺度のスコアの合計を総合評価とし、総合評価が所定の値を越えた文字画像のみを保存する方法である。
【００４７】
なお、文書画像の同一性判定のための文字画像は１個ないし数個あれば十分であるから、キャッシュ記憶部１１２に所定個数の文字画像が書き込まれた時点で、それ以降のキャッシュ処理では文字画像そのものの書き込みを行わないようにすることも可能である。
【００４８】
次に、図２に示す文書画像の各認識対象領域を順次処理し、続いて図３に示す文書画像の各認識対象領域を処理する場合について説明する。
【００４９】
図２に示す文書画像の［領域１−１］の座標を指定して文字認識モジュール１０２が起動される。この領域は新たな文書画像上の認識対象領域であるから、文書同一性判定部１０３は画像比較で一致がとれないので、文書画像が同一でないと判定する（ステップ２０１）。したがって、キャッシュ記憶部１１２は初期化される（ステップ２０３）。続いて［領域１−１］内の文字画像が切り出され、１文字ずつ処理されていく。この認識対象領域には同じ文字画像が繰り返し出現しないので、領域内の文字画像の中で、認識結果の確信度が高く、前述した文字画像保存の判定基準を満たす文字画像については、文字画像と文字座標と認識結果がキャッシュ記憶部１１２に保存され、認識結果の確信度は高いが文字画像保存の判定基準を満たさない文字画像については文字座標と認識結果がキャッシュ記憶部１１２に保存される（ステップ２０６，ステップ２０９〜２１４）。
【００５０】
次に、［領域１−２］の座標を指定して文字認識モジュール１０２が起動される。この場合は、［領域１−１］の処理時にキャッシュ記憶部１１２に保存された文字画像と同じ画像が文書画像の同じ位置に存在するので、文書同一性判定部１０３で同一文書画像であると判定され、したがってキャッシュ記憶部１１２に保存されているキャッシュデータは破棄されることはない。続いて、［領域１−２］内の文字画像が切り出され、１文字ずつ処理される。この処理において、それまでに認識済みでキャッシュ記憶部１１２に文字座標と認識結果が保存されている文字画像と同じ文字画像が認識対象となった場合、文字画像比較部１０５で、その認識済み文字画像が見つかり、その認識結果がキャッシュ記憶部１１２から取り出され、認識対象の文字画像に対する認識結果として用いられ、文字認識部１０６による文字認識はスキップされる。また、この認識対象の文字画像はキャッシュ処理の対象外となる。
【００５１】
以下同様にして、図２に示す文書画像の［領域１−３］、［領域１−４］、［領域１−５］、［領域１−６］の文字認識処理が実行されるが、それらの認識対象領域は同じ文書画像上の領域であるからキャッシュ記憶部１１２内のキャッシュデータは破棄されない。
【００５２】
次に、図３に示す文書画像が入力されてレイアウト解析が行われ、その［領域２−２］の座標が指定されて文字認識モジュール１０２が起動されたとする。前の文書画像の例えば［領域１−１］内の文字画像がキャッシュ記憶部１１２に保存されているものとすると、その文字画像の位置は、図３の文書画像の図領域である［領域２−１］の内部にあたるため、文書同一性判定部１０３での画像比較が一致しないことは明らかであり、文書画像が同一でないと判定される結果、キャッシュ記憶部１１２が初期化され、それまでのキャッシュデータは破棄される。次の［領域２−３］、［領域２−４］では、同一の文書画像と判定されるため、キャッシュ記憶部１１２の初期化は行われない。
【００５３】
文字認識モジュール１０２の処理フローの別の一例を図５に示す。図５において、図４中のステップと同じ番号のステップは同じ内容の処理ステップであるので説明を割愛する。図４に示した処理フローとの相違点は、キャッシュ処理部１０８による処理（ステップ３００〜３０３）だけであるので、それについて以下に説明する。
【００５４】
キャッシュ処理部１０８においては、認識対象となった文字画像に対する認識結果の確信度が高い場合（ステップ２１１，Ｙｅｓ）、その文字画像に関する文字画像比較（ステップ２０５）で同一とみなされる認識済み文字画像が見つかったか否かを確認し（ステップ３００）、同一の認識済み文字画像が見つからなかったときには、その認識対象となった文字画像そのもの、その文字座標、及びその認識結果を対応付けてキャッシュ記憶部１１２に書き込む（ステップ３０１）。同一とみなされる認識済み文字画像が見つかったときには（ステップ３００，Ｙｅｓ）、その認識済み文字画像そのものがキャッシュ記憶部１１２に保存されているか調べ（ステップ３０２）、保存されているならば、その文字画像をキャッシュ記憶部１１２から削除する（ステップ３０３）。ただし、削除されるのは文字画像だけであり、その文字座標と認識結果はキャッシュ記憶部１１２に残される。
【００５５】
このように、ここに示す処理フローの例では、キャッシュされた文字画像と一致しなかった文字画像については、認識結果の確信度が低くない限り、一旦、文字画像そのものもキャッシュ記憶部１１２に保存し、その後に、その文字画像と同じ文字画像が認識対象となったときには削除するわけである。すなわち、出現回数が１回の文字画像のみを保存し、２回以上出現する文字画像は保存しないということであり、これは前述の出現頻度を基準として文字画像そのものを保存するか否かを判断する方法の一例である。このように出現頻度が低い文字画像をキャッシュ記憶部１１２に保存し、文書同一性判定で利用すると、異なる文書画像において偶然同じ位置に同じ文字画像が存在することによる誤判定の可能性が低くなる利益があることは前述した通りである。
【００５６】
以上に説明した本発明の文書画像システムは、コンピュータ上でソフトウエアにより実現することもできる。すなわち、前処理モジュール１００、レイアウト解析モジュール１０１、文字認識ジュール１０２、制御モジュール１１６に対応するプログラム・モジュール（便宜、同じ参照番号１００，１０１，１０２，１１６で表す）、さらに文字認識用辞書１１０、言語辞書１１１がコンピュータのメモリにロードされる。文書画像記憶部１１４、キャッシュ記憶部１１２としてはメモリの一部領域が用いられる。文書画像が入力されると、制御モジュール１１６が前処理モジュール１００を呼び出し、前処理を実行させる。これが終わると、制御モジュール１１６はレイアウト解析モジュール１０１を呼び出し、レイアウト解析処理を実行させる。このレイアウト解析処理が終了した後、あるいは、その処理中に、制御モジュール１１６は、抽出された１つの認識対象領域の座標を指定して文字認識モジュール１０２を呼び出し、その認識対象領域に対する文字認識処理を実行させる。１つの認識対象領域に対する処理の終了後、別の未処理の認識対象領域がある場合には、その１つの認識対象領域の座標を指定して文字認識モジュール１０２を再度呼び出して、その認識対象領域に対する文字認識処理を実行させる。このようにして、コンピュータ上で一連の文書画像処理が遂行される。各プログラム・モジュールは、例えば、それが記録されたフロッピーディスク、ＣＤ−ＲＯＭ、メモリカード等の記録媒体から読み込まれたり、通信回線を通じて取り込まれたりする。そのようなプログラム・モジュール、例えば図４又は図５にフローチャートとして示された文字認識処理のための各ステップをコンピュータに実行させるためのプログラム・モジュールが記録されたフロッピーディスク、ＣＤ−ＲＯＭ、半導体ＲＯＭ、半導体ＲＡＭ等の記録媒体も本発明に包含される。
【００５７】
また、本発明による文書画像処理システムは、ネットワークが介在するような形態もとり得る。そのような文書画像処理システムをサーバー／クライアント・システム上に構築する例を図６によって説明する。図６において、４００はサーバー・コンピュータであり、このサーバー・コンピュータ４００にネットワーク（ＬＡＮ又はＷＡＮ）４０２を介して複数のクライアント・コンピュータ４０４が接続される。サーバー・コンピュータ４００は、ＣＰＵ４１０、メモリ４１１、補助記憶装置４１２、ネットワーク通信制御部４１３等からなる一般的な構成のコンピュータで構わない。また、各クライアント・コンピュータ４０４も、ＣＰＵ４２０、メモリ４２１、補助記憶装置４２２、ネットワーク通信制御部４２３等からなる一般的な構成のもので構わない。ただし、各クライアント・コンピュータ４０４は、画像入力部１１３としてのメージ・スキャナ４２４なども備えることになろう。サーバー・コンピュータ４００には、例えばその補助記憶装置４１２上に、文書画像処理のための前処理モジュール１００、レイアウト解析モジュール１０１、文字認識ジュール１０２、及び制御モジュール１１６が置かれる。
【００５８】
各クライアント・コンピュータ４０４には、そのユーザ専用の文字認識用辞書１１０と言語辞書１１１が、例えばその補助記憶装置４２２上に置かれる。文書画像処理に必要な文書画像記憶部１１４及びキャッシュ記憶部１１２も、各クライアント・コンピュータ４０４に置かれるが、それ専用のメモリ等を用意するのではなく（そのようにしても構わないが）、それらが必要な時に、メモリ４２１上に文書画像記憶部１１４及びキャッシュ記憶部１１２としての記憶域が動的に確保されるのが一般的であろう。
【００５９】
各クライアント・コンピュータ４０４においては、ネットワーク４０２を介して、サーバー・コンピュータ４００から文書画像処理のための各モジュール１００〜１０２，１１６をダウンロードしてメモリ４２１に展開し動作させることによって、イメージスキャナ４２４等から入力した文書画像に対する処理を実行することができる。この際、そのクライアント・コンピュータ４０４のユーザに専用の文字認識用辞書１１０及び言語辞書１１１と、キャッシュ記憶部１１２が利用されることになる。
【００６０】
このようなシステム形態には、次のような利点がある。その１つは、サーバー・コンピュータ４００側で文書画像処理のプログラム・モジュール１００〜１０２，１１６を最新のもに更新するだけで、全てのクライアント・コンピュータ４０４のユーザが最新のプログラム・モジュール１００〜１０２，１１６を利用して文書画像処理を行うことができることである。もう１つの利点、各クライアント・コンピュータ４０４のユーザが、専用の文字認識用辞書１１０及び言語辞書１１１を文字認識処理に利用できることである。ユーザによって文書中に用いるフォントの種類や語句等に違いがある場合、ユーザ専用の辞書を利用すると認識率の向上を期待できる。
【００６１】
このように、サーバー・コンピュータ４００から各プログラム・モジュール１００〜１０２，１１６をダウンロードすることにより、各クライアント・コンピュータ４０４上に図１に示したような文書画像処理システムを構築し、サーバー・コンピュータ４００から切り離された状態で文書画像処理を実行する形態は、ＷＡＮを介してサーバー／クライアント間が接続されるような環境に一般に好適であろう。
【００６２】
しかし、ＬＡＮを介してサーバー／クライアント間が接続されるような環境では、次に述べるようなシステム形態も有効であろう。以下、図６を援用して説明する。各クライアント・コンピュータ４０４側で、文書画像処理が必要となった場合に、イメージ・スキャナ４２４等を用いて文書画像を入力したうえで、サーバー・コンピュータ４００に対して文書画像処理要求を発行し、文書画像を送信する。サーバー・コンピュータ４００側では、文書画像処理要求を受け付けると、メモリ４１１上に文書画像記憶域（文書画像記憶部１１４に相当）とキャッシュ記憶域（キャッシュ記憶部１１２に相当）を確保し、受信した文書画像を文書画像記憶域に格納するとともに、各プログラム・モジュール１００〜１０２，１１６をメモリ４１１にロードし文書画像処理を開始する。この際、要求元のクライアント・コンピュータ４０４に置かれている文字認識用辞書１１０及び言語辞書１１１が文字認識処理に利用される。すなわち、サーバー・コンピュータ４００側で、ネットワーク４０２を介してそれらの辞書を逐次参照するか、あるいは、それら辞書の内容を予めネットワーク４０２を介してメモリ４１１に取り込んだ上で参照する。文字認識用辞書１１０や言語辞書１１１のデータ量はかなり大きいが、ネットワーク４０２がＬＡＮであるような環境では、そのような大量のデータをサーバー・コンピュータ４００へ転送したり、あるいは、クライアント・コンピュータ４０４側にある辞書をサーバー・コンピュータ４００側から逐次参照することは必ずしも非実用的ではない。文書画像処理が終了すると、処理結果が発行元のクライアント・コンピュータ４０４へ返される。
【００６３】
このような文書画像処理をサーバー・コンピュータ４００側で実行させるシステム形態は、先に述べたシステム形態の場合と同様の利益を得られるほかに、サーバー・コンピュータ４００として高性能なコンピュータを用いれば、その高い性能を各クライアント・コンピュータ４０４のユーザが文書画像処理に利用できるという利点もある。
【００６４】
【発明の効果】
以上の詳細な説明から明らかなように、請求項１乃至９，１１，１２の各項記載の発明によれば、キャッシュ処理のために必要な記憶容量の増大を避けることができるとともに、文字画像間の比較によって認識しようとする文字画像と同一の認識済み文字画像を探すため、文字画像の簡易特徴量を用いる方法の問題点であった信頼性の低下も避けられる。文字認識処理をモジュール化した環境においても、１文書画像を単位としたキャッシュ処理を行って高速かつ高精度な文字認識処理が可能となる。文字認識処理をモジュール化した場合に、そのモジュールに対し外部から文書画像の同一性を指示する情報を与えることなく、モジュール内部で文書画像の同一性を判断して必要なキャッシュデータの廃棄を行うことができるため、独立性の高い文字認識モジュールを実現可能である。請求項２乃至７の各項記載の発明によれば、適切な文字画像を文書画像の同一性判定に用いることができるため、確実な文書画像同一性判定が可能になる。請求項９記載の発明によれば、認識結果が不確かな文字画像がキャッシュされることによる認識エラーの発生を回避できる。請求項１０記載の発明によれば、請求項１乃至９の各項記載の発明を一般的なコンピュータを利用して容易に実施可能になる。請求項１１又は１２記載の発明によれば、文字認識処理のモジュール化に適した高速かつ高精度な文字認識装置を実現できる。請求項１３乃至１６の各項記載の発明によれば、文書画像処理のための各処理をモジュール化した高精度の文書画像処理システムを実現できる。請求項１５又は１６記載の発明によれば、第１のコンピュータ側で文書画像処理用モジュールを最新のもに更新するだけで、第１のコンピュータにネットワーク経由で接続される全ての第２のコンピュータのユーザが最新の文書画像処理用モジュールを利用可能となり、また、第２のコンピュータの各ユーザが専用の辞書を文字認識処理に利用可能となる。請求項１６記載の発明によれば、高性能のコンピュータを第１のコンピュータとして用いれば、その高い性能を全ての第２のコンピュータのユーザが文書画像処理に利用できる、等々の効果を得られる。
【図面の簡単な説明】
【図１】本発明による文書画像処理システムのブロック構成の一例を示すブロック図である。
【図２】文書画像とそのレイアウト解析結果の一例を模式的に示す図である。
【図３】文書画像とそのレイアウト解析結果の他の一例を模式的に示す図である。
【図４】本発明による文字認識モジュールの処理フローの一例を示すフローチャートである。
【図５】本発明による文字認識モジュールの処理フローの他の一例を示すフローチャートである。
【図６】クライアント／サーバー・システム上に構築された本発明による文書画像処理システムを説明するためのブロック図である。
【符号の説明】
１００前処理モジュール
１０１レイアウト解析モジュール
１０２文字認識モジュール
１０３文書同一性判定部
１０４文字切り出し部
１０５文字画像比較部
１０６文字認識部
１０７後処理部
１０８キャッシュ処理部
１１０文字認識用辞書
１１１言語辞書
１１２キャッシュ記憶部
１１３画像入力部
１１４文書画像記憶部
１１６制御モジュール
４００サーバー・コンピュータ
４０２ネットワーク
４０４クライアント・コンピュータ

Claims

文書画像記憶手段に記憶されている文書画像の個々の認識対象領域毎に文字認識処理を行う文字認識方法であって、
各認識対象領域に対する文字認識処理の開始に先だって、
前記文書画像記憶手段に記憶されている文書画像が、キャッシュ記憶手段の記憶
内容が得られた際に処理された文書画像と同一であるか否かを判定する文書同一性
判定ステップ、
前記文書同一性判定ステップで文書画像が同一でないと判定されたときに、前記
キャッシュ記憶手段を初期化するステップ、
各認識対象領域に対する文字認識処理において、
前記文書画像記憶手段に記憶されている文書画像から認識対象領域の文字画像を
切り出す文字切り出しステップ、
前記文字切り出しステップで切り出された認識対象の文字画像と、前記文書画像
記憶手段に記憶されている文書画像上の、前記キャッシュ記憶手段に記憶されてい
る文字座標の示す位置にある画像とを比較し、認識対象の文字画像と同一とみなさ
れる認識済み文字画像を見つける比較ステップ、
前記比較ステップで認識対象の文字画像と同一とみなされる認識済み文字画像が
見つからなかったときに、当該認識対象の文字画像に対し文字認識を行って認識結
果を得る文字認識ステップ、
前記文字認識ステップで得られた認識結果と認識対象の文字画像の文字座標とを
対応付けて前記キャッシュ記憶手段に書き込むキャッシュ処理ステップ、
前記比較ステップで認識対象の文字画像と同一とみなされる認識済み文字画像が
見つかったときに、当該認識済み文字画像に関し前記キャッシュ記憶手段に記憶さ
れている認識結果を、当該認識対象の文字画像に対する認識結果として取り出す認
識結果取り出しステップ、
を有し、
前記キャッシュ処理ステップは、一部の認識済み文字画像そのものも文字座標とともに前記キャッシュ記憶手段に書き込み、
前記文書同一性判定ステップは、前記キャッシュ記憶手段に文字座標と対応付けて記憶されている文字画像と同一の画像が、前記文書画像記憶手段に記憶されている文書画像上の当該文字座標の示す位置に存在するときに文書画像が同一であると判定し、そうでないときに文書画像が同一でないと判定する、
ことを特徴とする文字認識方法。
前記キャッシュ処理ステップは、文字画像そのものを前記キャッシュ記憶手段に書き込むか否かを、その文字画像の複雑さに基づいて決定することを特徴とする請求項１記載の文字認識方法。
前記キャッシュ処理ステップは、文字画像そのものを前記キャッシュ記憶手段に書き込むか否かを、その文字画像の大きさに基づいて決定することを特徴とする請求項１記載の文字認識方法。
前記キャッシュ処理ステップは、文字画像そのものを前記キャッシュ記憶手段に書き込むか否かを、その文字画像の色に基づいて決定することを特徴とする請求項１記載の文字認識方法。
前記キャッシュ処理ステップは、文字画像そのものを前記キャッシュ記憶手段に書き込むか否かを、その文字画像に対する認識結果に基づいて決定することを特徴とする請求項１記載の文字認識方法。
前記キャッシュ処理ステップは、文字画像そのものを前記キャッシュ記憶手段に書き込むか否かを、その文字画像の出現頻度に基づいて決定することを特徴とする請求項１記載の文字認識方法。
前記キャッシュ処理ステップは、文字画像そのものを前記キャッシュ記憶手段に書き込むか否かを、その文字画像の複雑さ、大きさ、色、認識結果等の２項目以上の尺度の総合評価に基づいて決定することを特徴とする請求項１記載の文字認識方法。
文書画像記憶手段に記憶されている文書画像の個々の認識対象領域毎に文字認識処理を行う文字認識方法であって、
各認識対象領域に対する文字認識処理の開始に先だって、
前記文書画像記憶手段に記憶されている文書画像が、キャッシュ記憶手段の記憶
内容が得られた際に処理された文書画像と同一であるか否かを判定する文書同一性
判定ステップ、
前記文書同一性判定ステップで文書画像が同一でないと判定されたときに、前記
キャッシュ記憶手段を初期化するステップ、
各認識対象領域に対する文字認識処理において、
前記文書画像記憶手段に記憶されている文書画像から認識対象領域の文字画像を
切り出す文字切り出しステップ、
前記文字切り出しステップで切り出された認識対象の文字画像と、前記文書画像
記憶手段に記憶されている文書画像上の、前記キャッシュ記憶手段に保存されてい
る文字座標の示す位置にある画像とを比較し、認識対象の文字画像と同一とみなさ
れる認識済み文字画像を見つける比較ステップ、
前記比較ステップで認識対象の文字画像と同一とみなされる認識済み文字画像が
見つかったときに、当該認識済み文字画像に関し前記キャッシュ記憶手段に記憶さ
れている認識結果を、当該認識対象の文字画像に対する認識結果として取り出す認
識結果取り出しステップ、
前記比較ステップで認識対象の文字画像と同一とみなされる認識済み文字画像が
見つからなかったときに、当該認識対象の文字画像に対して文字認識を行って認識
結果を得る文字認識ステップ、
前記比較ステップで認識対象の文字画像と同一とみなされる認識済み文字画像が
見つからなかった場合に、当該認識対象の文字画像そのものを、その文字座標、及
び、当該認識対象の文字画像に対し前記文字認識ステップで得られた認識結果と対
応付けて前記キャッシュ記憶手段に書き込み、前記比較ステップで認識対象の文字
画像と同一とみなされる認識済み文字画像が見つかった場合に、当該認識済み文字
画像そのものが前記キャッシュ記憶手段に記憶されているときは、当該認識済み文
字画像そのものを前記キャッシュ記憶手段から削除するキャッシュ処理ステップ、
を有し、
前記文書同一性判定ステップは、前記キャッシュ記憶手段に文字座標と対応付けて記憶されている文字画像と同一の画像が、前記文書画像記憶手段に記憶されている文書画像上の当該文字座標の示す位置に存在するときに文書画像が同一であると判定し、そうでないときに文書画像が同一でないと判定する、
ことを特徴とする文字認識方法。
認識結果の確信度が低い文字画像は前記キャッシュ処理ステップの処理対象から除外されることを特徴とする請求項１乃至８のいずれか１項記載の文字認識方法。
請求項１乃至９のいずれか１項記載の文字認識方法の各ステップをコンピュータに実行させるためのプログラムが記録されたことを特徴とするコンピュータ読み取り可能記録媒体。
文書画像記憶手段に記憶されている文書画像の個々の認識対象領域毎に文字認識処理を行う文字認識装置であって、
各認識対象領域に対する文字認識処理の開始に先だって、
前記文書画像記憶手段に記憶されている文書画像が、キャッシュ記憶手段の記憶
内容が得られた際に処理された文書画像と同一であるか否かを判定する文書同一性
判定手段、
前記文書同一性判定手段により文書画像が同一でないと判定されたときに前記キ
ャッシュ記憶手段を初期化する手段、
各認識対象領域に対する文字認識処理において、
前記文書画像記憶手段に記憶されている文書画像から認識対象領域の文字画像を
切り出す文字切り出し手段、
前記文字切り出し手段により切り出された認識対象の文字画像と、前記文書画像
記憶手段に記憶されている文書画像上の、前記キャッシュ記憶手段に記憶されてい
る文字座標の示す位置にある画像とを比較し、認識対象の文字画像と同一とみなさ
れる認識済み文字画像を見つける文字画像比較手段、
前記文字画像比較手段により認識対象の文字画像と同一とみなされる認識済み文
字画像が見つかったときに、当該認識済み文字画像に関し前記キャッシュ記憶手段
に記憶されている認識結果を、当該認識対象の文字画像に対する認識結果として取
り出す認識結果取り出し手段、
前記文字画像比較手段によって認識対象の文字画像と同一とみなされる認識済み
文字画像が見つからなかったときに、当該認識対象の文字画像に対し文字認識を行
って認識結果を得る文字認識手段、
前記文字認識手段によって得られた認識結果と認識対象の文字画像の文字座標と
を対応付けて前記キャッシュ記憶手段に書き込むキャッシュ処理手段、
を具備し、
前記キャッシュ処理手段は、一部の認識済み文字画像そのものも文字座標とともに前記キャッシュ記憶手段に書き込み、
前記文書同一性判定手段は、前記キャッシュ記憶手段に文字座標と対応付けられて記憶されている文字画像と同一の画像が、前記文書画像記憶手段に記憶されている文書画像上の当該文字座標の示す位置に存在するときに文書画像が同一であると判定し、そうでないときに文書画像が同一でないと判定する、
ことを特徴とする文字認識装置。
文書画像記憶手段に記憶されている文書画像の個々の認識対象領域毎に文字認識処理を行う文字認識装置であって、
各認識対象領域に対する文字認識処理の開始に先だって、
前記文書画像記憶手段に記憶されている文書画像が、キャッシュ記憶手段の記憶
内容が得られた際に処理された文書画像と同一であるか否かを判定する文書同一性
判定手段、
前記文書同一性判定手段で文書画像が同一でないと判定されたときに、前記キャ
ッシュ記憶手段を初期化する手段、
各認識対象領域に対する文字認識処理において、
前記文書画像記憶手段に記憶されている文書画像から認識対象領域の文字画像を
切り出す文字切り出し手段、
前記文字切り出し手段により切り出された認識対象の文字画像と、前記文書画像
記憶手段に記憶されている文書画像上の、前記キャッシュ記憶手段に記憶されてい
る文字座標の示す位置にある画像とを比較し、認識対象の文字画像と同一とみなさ
れる認識済み文字画像を見つける文字画像比較手段、
前記文字画像比較手段により認識対象の文字画像と同一とみなされる認識済み文
字画像が見つかったときに、当該認識済み文字画像に関し前記キャッシュ記憶手段
に記憶されている認識結果を、当該認識対象の文字画像に対する認識結果として取
り出す認識結果取り出し手段、
前記文字画像比較手段により認識対象の文字画像と同一とみなされる認識済み文
字画像が見つからなかったときに、当該認識対象の文字画像に対し文字認識を行っ
て認識結果を得る文字認識手段、
前記文字画像比較手段により認識対象の文字画像と同一とみなされる認識済み文
字画像が見つからなかった場合に、当該認識対象の文字画像そのものを、その文字
座標、及び、当該認識対象の文字画像に対し前記文字認識手段で得られた認識結果
と対応付けて前記キャッシュ記憶手段に書き込み、前記文字画像比較手段により認
識対象の文字画像と同一とみなされる認識済み文字画像が見つかった場合に、当該
認識済み文字画像そのものが前記キャッシュ記憶手段に記憶されているときは、当
該認識済み文字画像そのものを前記キャッシュ記憶手段から削除するキャッシュ処
理手段、
を具備し、
前記文書同一性判定手段は、前記キャッシュ記憶手段に文字座標と対応付けられて記憶されている文字画像と同一の画像が、前記文書画像記憶手段に記憶されている文書画像上の当該文字座標の示す位置に存在するときに文書画像が同一であると判定し、そうでないときに文書画像が同一でないと判定する、
ことを特徴とする文字認識装置。
文書画像記憶手段と、
キャッシュ記憶手段と、
前記文書画像記憶手段に記憶されている文書画像の認識対象領域を抽出する認識対象領域抽出手段と、
請求項１１又は１２記載の文字認識装置と、
前記認識対象領域抽出手段を起動して前記文書画像記憶手段に記憶されている文書画像の認識対象領域を抽出させ、抽出された個々の認識対象領域毎に、領域の座標を指定して前記文字認識装置を起動し指定された認識対象領域に対する文字認識処理を行わせる制御手段と
を具備することを特徴とする文書画像処理システム。
コンピュータ上に、文書画像記憶手段、キャッシュ記憶手段、文字認識処理のための辞書、文書画像の認識対象領域を抽出する処理を行う第１のプログラム・モジュール、請求項１乃至９のいずれか１項記載の文字認識方法の各ステップを実行するための第２のプログラム・モジュール、前記第１及び第２のプログラム・モジュールの実行を制御する第３のプログラム・モジュールを置き、
前記第３のプログラム・モジュールにより前記第１のプログラム・モジュールを呼び出して前記文書画像記憶手段に記憶されている文書画像の認識対象領域の抽出を行わせ、抽出された個々の認識対象領域毎に、前記第３のプログラム・モジュールにより領域の座標を指定して前記第２のプログラム・モジュールを呼び出し、前記文書画像記憶手段に記憶されている文書画像の指定され認識対象領域に対する文字認識処理を行わせることを特徴とする文書画像処理システム。
第１のコンピュータに、文書画像の認識対象領域を抽出する処理を行うための第１のプログラム・モジュール、請求項１乃至９のいずれか１項記載の文字認識方法の各ステップを実行するための第２のプログラム・モジュール、前記第１及び第２のプログラム・モジュールの実行を制御する第３のプログラム・モジュールを置き、
前記第１のコンピュータとネットワークを介して接続される複数の第２のコンピュータのそれぞれに、文書画像記憶手段、キャッシュ記憶手段、文字認識処理のための辞書を置き、
前記第２のコンピュータにおいて、前記第１のコンピュータより前記第１、第２及び第３のプログラム・モジュールをダウンロードし、前記第３のプログラム・モジュールにより前記第１のプログラム・モジュールを呼び出して前記文書画像記憶手段に記憶されている文書画像の認識対象領域の抽出を行わせ、抽出された個々の認識対象領域毎に、前記第３のプログラム・モジュールにより領域の座標を指定して前記第２のプログラム・モジュールを呼び出し、前記文書画像記憶手段に記憶されている文書画像の指定された認識対象領域に対する文字認識処理を行わせることを特徴とする文書画像処理システム。
第１のコンピュータに、文書画像の認識対象領域を抽出する処理を行うための第１のプログラム・モジュール、請求項１乃至９のいずれか１項記載の文字認識方法の各ステップを実行するための第２のプログラム・モジュール、前記第１及び第２のプログラム・モジュールの実行を制御する第３のプログラム・モジュール、文書画像記憶手段、キャッシュ記憶手段を置き、
前記第１のコンピュータとネットワークを介して接続される複数の第２のコンピュータのそれぞれに文字認識処理のための辞書を置き、
前記第２のコンピュータより前記第１のコンピュータに対し文書画像処理要求を発行するとともに文書画像を送信し、
前記第１のコンピュータにおいて、文書画像処理要求元の前記第２のコンピュータから受信した文書画像を前記文書画像処理手段に格納し、前記第３のプログラム・モジュールにより前記第１のプログラム・モジュールを呼び出して前記文書画像記憶手段に記憶されている文書画像の認識対象領域の抽出を行わせ、これにより抽出された個々の認識対象領域毎に、前記第３のプログラム・モジュールにより領域の座標を指定して前記第２のプログラム・モジュールを呼び出し、前記文書画像記憶手段に記憶されている文書画像の指定された認識対象領域に対する文字認識処理を行わせ、この文字認識処理の際に文書画像処理要求元の前記第２のコンピュータに置かれている前記辞書が利用されることを特徴とする文書画像処理システム。