JP2006072524A

JP2006072524A - 情報処理装置および情報処理方法

Info

Publication number: JP2006072524A
Application number: JP2004252907A
Authority: JP
Inventors: Hiroaki Ikeda; 裕章池田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-08-31
Filing date: 2004-08-31
Publication date: 2006-03-16

Abstract

【課題】文書画像から文字認識により検索用のテキスト情報を作成し、両者を関連付けて管理する際に、文字認識における文書方向の誤判定に起因する検索漏れを低減する。
【解決手段】入力された文書画像からテキスト領域を抽出し、抽出された前記テキスト領域における文書方向を判定し、判定された文書方向に従ってテキスト領域を文字認識する。一方、文書方向の判定の信頼度が所定のしきい値以下であれば、判定された文書方向とは異なる文書方向に従ってテキスト領域を再度文字認識する。これらの文字認識処理により得られた文字情報から検索用のテキスト情報を作成して、文書画像と対応づけて保存する。
【選択図】図２

Description

本発明は、文書画像に含まれる文字を認識し、認識された文字を文字列検索用として保存する技術に関するものである。

紙文書を読み込んで文書画像として保存するだけでは、文書画像が多量になったときに所望の文書画像を見つけにくくなる。そのため、任意のインデックスやキーワードを文書画像とともに保存する必要がある。このようにすれば、文字列検索により、所望の文書画像を検索抽出できるため便利である。

しかしながら、文書画像に不適切なインデックスが付加されてしまうと、検索時に所望の文書画像がヒットしなくなることがある。また、操作者が、適切なインデックスを選んで手動で入力するのは大変な労力を要する。

一方、文字認識技術を利用することで、インデックスを自動抽出できる。また、文字認識結果をすべて保存しておけば、全文検索も実行できる。

特許文献１によれば、入力画像から文字画像が存在するテキスト領域を抽出し、抽出されたテキスト領域に対して文字認識処理を行い、文字認識処理により得られた候補文字を蓄積するファイリング装置が開示されている。

特許文献２によれば、抽出されたテキスト領域のテキスト連続成分の長さ及び幅、連続成分間の水平及び垂直の間隙、及びそれらの位置によって、縦書きか横書きかなどの文書方向を決定する技術が開示されている。そして、決定された文書方向に従って文字認識処理が実行される。

特許文献３によれば、画像データの白画素と黒画素の分布に基づいて行間空白領域を検出し、行間空白領域の延びる方向に基づいて縦書きか横書きかを決定する技術が開示されている。
特開平８−２７２８１３号公報特開平７−２３４９１８号公報特開平６−２２３１５１号公報

しかしながら上記従来技術では、文書方向を誤判定したまま文字認識処理によりインデックスを作成してしまうと、作成されたインデックスは不適切なものとなってしまう。そのような不適切なインデックスが付された文書画像は、検索精度が低くなってしまう。

とくに文書画像中の文字領域の大きさが比較的に小さい場合、領域内の文字数が比較的に少ない場合、または行間と文字間の差が比較的に少ない場合には、文書方向を誤判定する可能性が高い。

そこで、本発明は、このような課題および他の課題の少なくとも一つを解決することを目的とする。なお、他の課題については明細書の全体を通して理解できよう。

本発明によれば、例えば、文書方向の判定の信頼度が低いテキスト領域については、縦書きと横書きの双方の文書方向について文字認識を行い、双方の文字認識結果を検索用のテキスト情報として保存するようにする。

すなわち、入力された文書画像からテキスト領域を抽出し、抽出された前記テキスト領域における文書方向を判定し、判定された文書方向に従ってテキスト領域を文字認識する。一方、文書方向の判定の信頼度が所定のしきい値以下であれば、判定された文書方向とは異なる文書方向に従ってテキスト領域を再度文字認識する。これらの文字認識処理により得られた文字情報から検索用のテキスト情報を作成して、文書画像と対応づけて保存する。

本発明によれば、文書方向の判定信頼度が低いテキスト領域については、判定された文書方向とは異なる文書方向についても文字認識して検索用のテキスト情報を作成するようにしたので、信頼度を考慮しない場合に比較し、ファイリングされた文書画像の検索ヒット率を向上できる。また、すべてのテキスト領域について両方の文書方向についての文字認識結果をすべて文書画像に対応付けて保存する場合に比較し、検索用のテキスト情報の量を削減できる。

以下に本発明の上位概念、中位概念および下位概念の理解に役立つ一実施形態を示す。なお、以下の実施形態に含まれる概念について、そのすべてが特許請求の範囲に記載されているとは限らない。ただし、これは特許発明の技術的範囲から意識的に除外したのではなく、特許発明と均等の関係にあるため特許請求の範囲には記載していない場合があることを理解していただきたい。

［第１の実施形態］
図１は、実施形態に係る情報処理装置の一例を示すブロック図である。ＣＰＵ１０１は、ＲＯＭ１０２に格納されている制御プログラムに従って本装置全体の制御を行なう演算処理装置である。ＲＯＭ１０２は、ＣＰＵ１０１が実行する後述するフローチャートに示す処理等本装置の制御プログラム等を格納する記憶手段である。ＲＡＭ１０３は、文書画像等を記憶する記憶手段である。ＨＤＤ１０４は、磁気ディスク等の記憶手段である。ディスプレイ１０５は、液晶表示装置などの表示手段である。キーボード１０６、マウス等のポインティングデバイス１０７は、入力装置の一例である。スキャナ部１０８は、文書画像などを読み取る画像読み取り手段である。ネットワークインターフェース１０９は、図示しない遠隔地に存在する装置と通信するための通信手段であり、当該装置からプログラムやデータなどを受信したり、当該装置にデータなどを送信したりする。イメージスキャナ１０８やディスプレイ１０５などを、インターフェイスを介してＣＰＵバスに接続することで、本発明の情報処理装置を実現してもよい。

本発明は汎用的なコンピュータでも実施可能である。その場合、記憶媒体等により提供される制御プログラムをＨＤＤ１０４に記憶し、オペレータの指示等に応じてＣＰＵ１０１が当該制御プログラムを実行することで、本発明の情報処理装置が実現される。

図２は、実施形態に係るファイリング処理の一例を示すフローチャートである。ステップＳ２０１において、ＣＰＵ１０１は、ファイリング対象となる原稿をスキャナ部１０８により読み取り、文書画像を作成してＲＡＭ１０３に記憶する。

ステップＳ２０２において、ＣＰＵ１０１は、ＲＡＭ２０２に記憶されている文書画像を領域分割し、少なくともテキスト領域を抽出する。領域分割方法としては、例えば、特開平８−２７２８１３号公報に開示されている方法など、任意の方法を採用できる。

ステップＳ２０３において、ＣＰＵ１０１は、抽出されたテキスト領域ごとに文書の方向を認識し、認識された文書方向の情報をＲＡＭ１０３に記憶する。縦書き横書きなどの文書方向の認識方法としては、例えば、特開平６−２２３６１５１号公報に記載の方法を採用できる。

ステップＳ２０４において、ＣＰＵ１０１は、文書画像に含まれるすべてのテキスト領域について文字認識等が終了したかどうかを判定する。終了したらステップＳ２０９に進む。終了していなければ、ステップＳ２０５に進む。

ステップＳ２０５において、ＣＰＵ１０１は、認識された文書方向に従って、抽出されたテキスト領域を文字認識し、文字認識結果として得られた文字列をＲＡＭ１０３に記憶する。

ステップＳ２０６において、ＣＰＵ１０１は、抽出されたテキスト領域の形状を認識し、認識された形状が所定の形状条件に合っているか否かを判定する。形状条件に合致すればステップＳ２０７に進み、合致しなければステップＳ２０８に進む。この形状条件は、文書方向判定の信頼度を表す尺度の一例である。すなわち、形状条件に合致すれば、信頼度が所定のしきい値より低いことになり、形状条件に合致しなければ、信頼度が所定のしきい値よりも高いことになる。もちろん、形状条件の合致度合いを数値化して信頼度とし、所定のしきい値と比較してもよいことはいうまでもない。

図３および図４は、実施形態に係る形状条件の一例を示す図である。図３に示される形状条件は、縦書きで、幅Ｗが高さＨの３倍以上、かつ高さＨが文字認識時に得られた標準文字高さｈの２倍以下である。図４に示される形状条件は、横書きで、高さＨが幅Ｗの３倍以上、かつ幅Ｗが文字認識時に得られた標準文字幅ｗの２倍以下である。すなわち、形状条件とは、文書方向を誤判定しやすいような特殊なテキスト領域の形状を意味する。

ステップＳ２０７において、ＣＰＵ１０１は、ステップＳ２０３において判定された文書方向とは異なる文書方向に従って、当該テキスト領域を再度文字認識する。すなわち、文書方向を変更して文字認識を実行する。例えば、文書方向判定（Ｓ２０３）により、縦書きと判定されていた場合は、横書きに設定して再度文字認識を実行する。ＣＰＵ１０１は、文字認識により得られた文字列をＲＡＭ１０３に記憶する。このとき、ステップＳ２０５において得られた文字認識結果を破棄することなく、ＲＡＭ１０３に記憶しておく。

ステップＳ２０８において、ＣＰＵ１０１は、処理対象を次のテキスト領域に設定する。例えば、テキスト領域の数をカウントするカウンタの値をインクリメントする。その後、ステップＳ２０４に戻り、上述の処理を繰り返す。

すべてのテキスト領域について文字認識処理が終了したら、ステップＳ２０９に進み、ＣＰＵ１０１は、文字認識により得られた文字列を検索用のテキスト情報として、入力された文書画像に対応付けてファイルに保存し、当該ファイルをＨＤＤ１０４に記憶する。

図６は、実施形態に係る保存ファイルの一例を示す図である。保存ファイル６００には、各ページごとのヘッダ情報６０１と、文書画像６０２と、検索用のテキスト情報６０３とが含まれている。もちろん、ＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）など、よく知られたファイリング形式を採用してもよいことはいうまでもない。

この検索用のテキスト情報を保存する際に、ＣＰＵ１０１は、各文字の座標情報を同時に格納してもよい。各文字の座標については、例えば、ＣＰＵ１０１が、領域分割処理（Ｓ２０２）によりテキスト領域の座標を算出し、文字認識処理（Ｓ２０５またはＳ２０７）の際にテキスト領域内の座標を算出し、これらの算出結果から文書画像における座標情報を作成する。座標の単位は、ドット、インチ、ｃｍなど任意のものを採用できる。

また、ＣＰＵ１０１は、文字認識処理（Ｓ２０５またはＳ２０７）の際に認識された文字に加え、他の候補文字も含めて検索用のテキスト情報を作成してもよい。

以上説明したように、本実施形態によれば、文書方向の誤判定が含まれている可能性が高いテキスト領域を再度文字認識処理するため、すべてのテキスト領域をすべての方向について文字認識する場合に比較し、ファイリングの処理時間を削減できる効果がある。

また、文書方向の誤判定が含まれている可能性が高いテキスト領域については、複数の文書方向についての文字認識結果を検索用のテキスト情報として保存するので、一方向でしか文字認識しない場合に比較し、検索時のヒット確率が向上する効果がある。すなわち、文書方向の誤判定に伴う検索漏れを低減できる。

また、認識された文字の座標情報を格納することで、検索でヒットした文字に対応する文字画像の位置を特定できる効果がある。

また、文字認識により得られた他の候補文字も含めて検索用テキスト情報を作成する場合には、文字の誤認識による検索漏れを減らす効果がある。

［第２の実施形態］
本実施形態では、画像と検索用のテキスト情報（インデックス）とが管理テーブルを用いて管理されているものとする。管理テーブルは、保存されている画像と１つ以上の検索用インデックスとの関連付けを記憶している。

図５は、第２の実施形態に係るファイリング処理の例示的なフローチャートである。なお、既に説明した個所については、同一参照符号を付すことにより説明を省略する。

ステップＳ２０１ないしステップＳ２０３を実行した後で、ステップＳ５０４に進み、ＣＰＵ１０１は、抽出されたそれぞれのテキスト領域の大きさを認識し、認識された大きさが所定の大きさ条件に合致するか判定する。大きさ条件も、文書方向判定の信頼度を表す尺度の一つである。すなわち、大きさ条件に合致すれば、信頼度が所定のしきい値より低いことになり、形状条件に合致しなければ、信頼度が所定のしきい値よりも高いことになる。

大きさは、例えば、ＣＰＵ１０１が、文書画像の読込み時の設定（ｄｐｉ：ドット・パー・インチなどの読み取り解像度）から１ｃｍあたりの画素数を取得し、テキスト領域の縦および横のそれぞれの画素数をカウントし、これらからテキスト領域のサイズを算出する。大きさ条件とは、例えば、縦２ｃｍ横２ｃｍ以下の如く、文書方向の誤判定が発生しやすいようなサイズとする。大きさ条件に合致しなければ、ステップＳ２０４に進み、条件に合致すれば、ステップＳ３０５に進む。

ステップＳ３０５において、ＣＰＵ１０１は、判定された文書方向が疑わしいことを表す信頼度情報をＲＡＭ１０３に記憶する。

ステップＳ２０４において、ＣＰＵ１０１は、すべてのテキスト領域の処理が終了したかどうかを判断し、終了していればステップＳ５０９に進む。終了していなければステップＳ２０５に進み、テキスト領域を文字認識し、ステップＳ５０６に進む。

ステップＳ５０６において、ＣＰＵ１０１は、ＲＡＭ１０３から信頼度情報を読み出し、文書方向の判定が疑わしいかどうかを判定する。疑わしければ、ステップＳ２０７に進む。疑わしくなければ、ステップＳ５０７に進む。

ステップＳ５０７において、ＣＰＵ１０１は、現在処理対象となっているテキスト領域の行間隔と文字間隔とを認識する。さらに、認識された行間隔と文字間隔とが、他のテキスト領域の文字認識で予め得られている標準的な行間隔と標準的な文字間隔（行間／文字間条件と称す。）とに合致するか否かを判定する。このように行間隔と文字間隔とを用いて、文書方向判定の信頼度を判定する。行間／文字間条件も、文書方向判定の信頼度を表す尺度の一つである。すなわち、行間／文字間条件に合致すれば、信頼度が所定のしきい値より低いことになり、行間／文字間条件に合致しなければ、信頼度が所定のしきい値よりも高いことになる。

行間／文字間条件は、例えば、標準的な行を単位とした場合に２行以下の行間であること、および標準的な文字を単位とした場合に２文字以下の文字間隔であるなど、文書方向が誤判定されている確率が高いような行間や文字間を条件とすればよい。行間／文字間条件に合致すれば、ステップＳ２０７に進み、合致しなければステップＳ５０８に進む。

ステップＳ５０８において、ＣＰＵ１０１は、Ｓ２０５の文字認識結果により得られた文字数をカウントする。さらに、カウントされた文字数が、文字数条件に合致するかどうかを判定する。このようにテキスト領域に含まれていた文字数を用いて、文書方向判定の信頼度を判定する。文字数条件も、文書方向判定の信頼度を表す尺度の一つである。すなわち、文字数条件に合致すれば、信頼度が所定のしきい値より低いことになり、文字数条件に合致しなければ、信頼度が所定のしきい値よりも高いことになる。

文字数条件は、例えば、２文字から１２文字までなど、文書方向が誤判定されている確率が高いような文字数を条件とすればよい。文字数条件に合致すれば、ステップＳ２０７に進み、合致しなければステップＳ２０８に進む。

このように、テキスト領域が、大きさ条件から文書方向の誤判定が疑われる場合、行間文字間隔条件から文書方向の誤判定が疑われる場合、および文字数条件から文書方向の誤判定が疑われる場合には、ステップＳ２０７において、文書方向を変えて文字認識することで、文書方向の誤判定にともなう検索漏れを低減できる。

すべてのテキスト領域について文字認識処理が終了すると、ステップＳ５０９に進み、
ＣＰＵ１０１は、文字認識結果をＲＡＭ１０３から読み出し、読み出した文字認識結果らから検索用のインデックスを抽出する。例えば、単語など、検索に使用されやすい言葉を抽出する。

ステップＳ５１０において、ＣＰＵ１０１は、入力された文書画像と、抽出された検索用インデックスとをそれぞれＨＤＤ１０４に保存するとともに、文書画像とインデックスを関連付ける管理テーブルを更新し、ＨＤＤ１０４に記憶する。

図７は、実施形態に係る管理テーブルの一例を示す図である。管理テーブル７００には、各文書画像のファイル名７０１と、検索用テキスト情報のファイル名７０２とが対応付けて記憶されている。実際の文書画像７０３と、検索用テキスト情報７０４は、それぞれ個別のファイルにより管理されていることが図から理解できよう。

以上説明したように本実施形態によれば、文書方向の誤判定が含まれている可能性が高いテキスト領域だけを再度文字認識処理するため、全テキスト領域を全方向について文字認識する場合に比較し、処理時間を低減できる効果がある。

とりわけ、テキスト領域の大きさ、行間、文字間、認識された文字数を、文書方向判定の信頼度として採用し、文書方向が誤判定されていそうなテキスト領域については複数の文書方向について文字認識を行なって検索用のインデックスを作成するようにしたので、文書方向の誤判定にともなう検索漏れを低減できる。

また、インデックス等の検索用情報と、文書画像とを個別に管理、保存する場合であっても、管理テーブルによって双方の対応関係を保持しているので、同一のファイル内に文書画像と検索用情報とを埋め込む場合と同様に、検索漏れを低減できる。

［他の実施形態］
第１の実施形態においては、検索用のテキスト情報（全文またはインデックス）と文書画像とを同一のファイル内に格納するものとして説明したが、第２の実施形態で説明したようにそれぞれ個別に保存し、管理テーブルによって両者の対応関係を管理するようにしてもよい。また第２の実施形態において、検索用のテキスト情報と文書画像とを同一のファイル内に格納するようにしてもよい。すなわち、ステップ２０９と、ステップＳ５０９およびＳ５１０とを相互に置換することができる。

また、第２の実施形態においては、テキスト領域の大きさ、行間、文字間、認識された文字数を、文書方向判定の信頼度として採用したが、少なくとも一つだけを利用してもよい。また、これらの条件の少なくとも一つと、第１の実施形態で利用した形状条件とを組み合わせてもよい。

本発明は、前述した実施形態の各機能を実現するソフトウェア（本実施形態では図２や図５に示すフローチャートに対応するコンピュータプログラムなど）を、システム若しくは装置に対して直接または遠隔から供給し、そのシステム若しくは装置に含まれるコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される。

図８は、実施形態に係るデータ処理プログラムを格納する記憶媒体の例示的なメモリマップである。なお、特に図示しないが、各種プログラムに従属するデータ、例えば認識辞書などもディレクトリ情報により管理されている。また、各種プログラムをコンピュータにインストールするためのプログラム等が記憶される場合もある。

従って、本発明の機能・処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、上記機能・処理を実現するためのコンピュータプログラム自体も本発明の一つである。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記録媒体としては、たとえば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明の構成要件となる場合がある。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

図１は、実施形態に係る情報処理装置の一例を示すブロック図である。図２は、実施形態に係るファイリング処理の一例を示すフローチャートである。、図３および図４は、実施形態に係る形状条件の一例を示す図である。図５は、第２の実施形態に係るファイリング処理の例示的なフローチャートである。図６は、実施形態に係る保存ファイルの一例を示す図である。図７は、実施形態に係る管理テーブルの一例を示す図である。図８は、実施形態に係るデータ処理プログラムを格納する記憶媒体の例示的なメモリマップである。

符号の説明

１０１・・・ＣＰＵ
１０２・・・ＲＯＭ
１０３・・・ＲＡＭ
１０４・・・外部記憶装置
１０５・・・ディスプレイ
１０６・・・キーボード
１０７・・・ポインティングデバイス
１０８・・・スキャナ部
１０９・・・ネットワークインターフェース

Claims

入力された文書画像からテキスト領域を抽出する領域抽出手段と、
抽出された前記テキスト領域における文書方向を判定する判定手段と、
判定された前記文書方向に従って前記テキスト領域を文字認識する第１の文字認識手段と、
判定された前記文書方向の信頼度を決定する信頼度決定手段と、
決定された前記信頼度が所定のしきい値以下である場合に、判定された前記文書方向とは異なる文書方向に従って前記テキスト領域を文字認識する第２の文字認識手段と、を含むことを特徴とする情報処理装置。
前記信頼度決定手段は、
前記テキスト領域の形状を認識する形状認識手段を含み、
認識された前記テキスト領域の形状に基づいて前記信頼度を決定することを特徴とする請求項１に記載の情報処理装置。
前記信頼度決定手段は、
前記テキスト領域の大きさを認識する大きさ認識手段を含み、
認識された前記テキスト領域の大きさに基づいて前記信頼度を決定することを特徴とする請求項１に記載の情報処理装置。
前記第１の文字認識手段は、
前記テキスト領域の行間、及び文字間を認識する行間文字間認識手段を含み、
前記信頼度決定手段は、認識された前記行間および前記文字間に基づいて前記信頼度を決定することを特徴とする請求項１に記載の情報処理装置。
前記信頼度決定手段は、
前記第１の文字認識手段の文字認識結果として得られた文字の数をカウントするカウント手段を含み、
前記文字の数に基づいて前記信頼度を決定することを特徴とする請求項１に記載の情報処理装置。
さらに、前記情報処理装置は、前記第１の文字認識手段と前記第２の文字認識手段との双方の文字認識結果から検索用のテキスト情報を作成する作成手段と、
作成された前記検索用のテキスト情報を保存する保存手段とを含み、
前記保存手段は、
前記第１または前記第２の文字認識手段により認識された文字に対応する文字画像の座標情報を、前記検索用のテキスト情報とともに保存することを特徴とする請求項１に記載の情報処理装置。
さらに、前記情報処理装置は、前記第１の文字認識手段と前記第２の文字認識手段との双方の文字認識結果から検索用のテキスト情報を作成する作成手段と、
作成された前記検索用のテキスト情報を保存する保存手段とを含み、
前記作成手段は、前記第１または第２の文字認識手段において認識された文字に加え、他の候補文字も含めて前記検索用のテキスト情報を作成することを特徴とする請求項１に記載の情報処理装置。
入力された文書画像からテキスト領域を抽出する領域抽出工程と、
抽出された前記テキスト領域における文書方向を判定する判定工程と、
判定された前記文書方向に従って前記テキスト領域を文字認識する第１の文字認識工程と、
前記文書方向の判定の信頼度を決定する信頼度決定工程と、
決定された前記信頼度が所定のしきい値以下である場合に、判定された前記文書方向とは異なる文書方向に従って前記テキスト領域を文字認識する第２の文字認識工程と
を含むことを特徴とする情報処理方法。
前記信頼度決定工程は、
前記テキスト領域の形状を認識する形状認識工程を含み、
認識された前記テキスト領域の形状に基づいて前記信頼度を決定することを特徴とする請求項８に記載の情報処理方法。
前記信頼度決定工程は、
前記テキスト領域の大きさを認識する大きさ認識工程を含み、
認識された前記テキスト領域の大きさに基づいて前記信頼度を決定することを特徴とする請求項８に記載の情報処理方法。
前記第１の文字認識工程は、
前記テキスト領域の行間、及び文字間を認識する行間文字間認識工程を含み、
前記信頼度決定工程は、認識された前記行間および前記文字間に基づいて前記信頼度を決定することを特徴とする請求項８に記載の情報処理方法。
前記信頼度決定工程は、
前記第１の文字認識工程の文字認識結果として得られた文字の数をカウントするカウント工程を含み、
前記文字の数に基づいて前記信頼度を決定することを特徴とする請求項８に記載の情報処理方法。
さらに、前記第１の文字認識工程と前記第２の文字認識工程との双方の文字認識結果から検索用のテキスト情報を作成する作成工程と、
作成された前記検索用のテキスト情報を保存する保存工程と
を含み、
前記保存工程は、
前記第１または前記第２の文字認識工程により認識された文字に対応する文字画像の座標情報を、前記検索用のテキスト情報とともに保存することを特徴とする請求項８に記載の情報処理方法。
さらに、前記第１の文字認識工程と前記第２の文字認識工程との双方の文字認識結果から検索用のテキスト情報を作成する作成工程と、
作成された前記検索用のテキスト情報を保存する保存工程と
を含み、
前記作成工程は、前記第１または第２の文字認識工程において認識された文字に加え、他の候補文字も含めて前記検索用のテキスト情報を作成することを特徴とする請求項８に記載の情報処理方法。
記憶手段と制御手段とを備えるコンピュータに対し、
前記記憶手段から文書画像を読み出し、読み出した該入力画像からテキスト領域を抽出する領域抽出工程と、
抽出された前記テキスト領域における文書方向を判定する判定工程と、
判定された前記文書方向に従って前記テキスト領域を文字認識する第１の文字認識工程と、
前記文書方向の判定の信頼度を決定する信頼度決定工程と、
決定された前記信頼度が所定のしきい値以下である場合に、判定された前記文書方向とは異なる文書方向に従って前記テキスト領域を文字認識する第２の文字認識工程と
を実行させるコンピュータプログラム。