JP2009223391A

JP2009223391A - 画像処理装置及び画像処理プログラム

Info

Publication number: JP2009223391A
Application number: JP2008064319A
Authority: JP
Inventors: Katsuhiko Itonori; 勝彦糸乘; Masahiro Kato; 雅弘加藤; Daisuke Tatsumi; 大祐辰巳; Etsuko Ito; 悦子伊藤; Hironari Konno; 裕也今野
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2008-03-13
Filing date: 2008-03-13
Publication date: 2009-10-01

Abstract

【課題】複数枚の画像からの情報抽出結果に対して、その中からどの画像の情報抽出結果に誤りがあるかの確認ができるようにした画像処理装置を提供する。
【解決手段】画像処理装置の画像取得手段は、第１の画像を複数取得し、情報抽出手段は、前記画像取得手段によって取得された第１の画像から所定の情報を抽出し、抽出情報判定手段は、前記情報抽出手段によって所定の情報が抽出されたか否かを判定し、画像情報記憶手段は、前記抽出情報判定手段によって所定の情報が抽出されていないと判定された場合、その対象とした画像を特定するための情報を記憶する。
【選択図】図１

Description

本発明は、画像処理装置及び画像処理プログラムに関する。

従来、紙に印刷されている文書の画像から情報を抽出するために文字認識装置を使う方法が知られている。文字認識装置の認識率は１００％ではないため、その文字認識結果を確認する作業が必要である。
また、画像取得装置であるスキャナでは、自動文書送り装置を備えているものがある。自動文書送り装置（ＡＤＦ：ＡｕｔｏＤｏｃｕｍｅｎｔＦｅｅｄｅｒ、オートシートフィーダー、オートフィーダーともいわれる。以下、ＡＤＦともいう）とは、積み重ねられた文書をスキャナに読み込ませるために、その文書を１枚ずつスキャナに送り込む装置である。この自動文書送り装置を使用して大量の文書を一度に入力することができるようになってきている。

これに関連する技術として、例えば、特許文献１には、文字認識装置等から送信される文書データの誤認をオペレータが簡単に発見することを可能とすることを目的とし、文字コード化された文書データを格納する文書記憶部と、予め定義された文字コード集合を格納する文字コード集合記憶部と、前記文字コード集合記憶部に格納された文字コード集合を検索して、前記文書記憶部に格納された文書データの各文字が前記文字コード集合記憶部に格納されているかを検出する検出部と、前記検出部の検出結果に基づいて、前記文字コード集合に属するか前記文字コード集合に属さないかを判定する判定部とを具備してなる文書処理装置が開示されている。

また、例えば、特許文献２には、登録済みのフォーマット情報に誤りがあるかどうかを容易に判断することができるようにすることを目的とし、帳票を読み取る画像読取手段と、フォーマット情報が格納された記憶装置と、制御装置と、表示装置とを有し、制御装置は、画像読取手段によって読み取られた帳票に対応する帳票イメージを格納するイメージメモリと、帳票イメージを表示装置に表示するイメージ表示手段と、イメージメモリに格納された帳票イメージに、フォーマット情報に対応するダミーデータを重ねて書き込むダミーデータ書込手段とを備え、制御装置は、画像読取手段によって帳票を読み取り、帳票イメージをイメージメモリに格納し、次に、記憶装置から帳票のフォーマット情報を読み出し、フォーマット情報に対応するダミーデータを帳票イメージに重ねて書き込むことが開示されている。

また、例えば、特許文献３には、文書や帳票の読み取りにおいて、手書き文字でも正確に認識するとともに、認識結果の誤認識や判読困難な文字を精度よく棄却する文字認識装置を提供することを課題とし、文字画像抽出部は、文書画像入力受付部で受け付けられた文書画像から文字画像を切り出し、特徴量抽出部は文字画像から特徴量を抽出し、候補文字選択部は分類辞書の基準特徴量と抽出された特徴量との類似度を算出し候補文字を選択し、候補文字判定部は選択された候補文字同士が類似候補文字識別辞書に記載されているとき、いずれの文字が適切かを判定し、個別文字検証部は、候補文字を個別検証辞書の肯定条件又は否定条件に示されるルールに従い「有効」又は「棄却」とし、認識検証部は、同一文字行に複数の同一候補文字があるとき、文字画像同士の類似度を用いて、候補文字の変更処理を行うことが開示されている。
特開平０７−９３４７１号公報特開平０８−２０２８１８号公報特開２００７−１３３８５０号公報

ところで、従来の文字認識結果の修正については、１枚の文書の画像に対しての文字認識誤りを発見するものであり、複数枚の文書画像の認識結果に対して、その中からどの文書画像の認識結果に誤りが潜んでいるかの判定を容易にすることはできなかった。
本発明は、複数枚の画像からの情報抽出結果に対して、その中からどの画像の情報抽出結果に誤りがあるかの確認ができるようにした画像処理装置及び画像処理プログラムを提供することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項１の発明は、第１の画像を複数取得する画像取得手段と、前記画像取得手段によって取得された第１の画像から所定の情報を抽出する情報抽出手段と、前記情報抽出手段によって所定の情報が抽出されたか否かを判定する抽出情報判定手段と、前記抽出情報判定手段によって所定の情報が抽出されていないと判定された場合、その対象とした画像を特定するための情報を記憶する画像情報記憶手段を具備することを特徴とする画像処理装置である。

請求項２の発明は、前記画像取得手段は、第２の画像を複数取得し、前記情報抽出手段は、前記画像取得手段によって取得された第２の画像を、前記画像情報記憶手段に記憶された画像を特定するための情報によって特定し、該特定された画像から所定の情報を抽出することを特徴とする請求項１に記載の画像処理装置である。

請求項３の発明は、前記画像情報記憶手段に記憶された画像を特定するための情報を選択する画像選択手段をさらに具備し、前記情報抽出手段は、前記画像取得手段によって取得された第２の画像を、前記画像選択手段によって選択された画像を特定するための情報によって特定し、該特定された画像から所定の情報を抽出することを特徴とする請求項２に記載の画像処理装置である。

請求項４の発明は、前記情報抽出手段は、前記画像内の所定の位置にある情報又は画像内の所定の属性名に対応する情報を抽出することを特徴とする請求項１から３のいずれか一項に記載の画像処理装置である。

請求項５の発明は、前記抽出情報判定手段は、前記情報抽出手段によって抽出された情報の有無又は該抽出された情報が所定の文字列を含むか否かによって、所定の情報が抽出されたか否かを判定することを特徴とする請求項１から４のいずれか一項に記載の画像処理装置である。

請求項６の発明は、前記画像情報記憶手段は、前記画像を特定するための情報として、前記画像取得手段によって取得された第１の画像の順番又は該第１の画像の縮小画像を記憶することを特徴とする請求項１から５のいずれか一項に記載の画像処理装置である。

請求項７の発明は、前記画像取得手段は、自動文書送り装置を用いて複数の文書を読み込むことによって、複数の第１の画像及び複数の第２の画像を取得し、前記第２の画像に対応する前記文書は、前記第１の画像に対応する前記文書であることを特徴とする請求項３から６のいずれか一項に記載の画像処理装置である。

請求項８の発明は、前記画像取得手段は、前記第１の画像の取得条件とは異なる条件によって前記第２の画像を取得することを特徴とする請求項２から７のいずれか一項に記載の画像処理装置である。

請求項９の発明は、前記画像情報記憶手段に記憶されている画像を特定するための情報に基づいて、利用者に再度読み込ませるべき画像を選択させるための第３の画像を出力する画像出力手段をさらに具備し、前記画像選択手段は、前記画像出力手段によって出力された画像内の前記利用者によって付された符号に基づいて、前記第２の画像を選択することを特徴とする請求項３から８のいずれか一項に記載の画像処理装置である。

請求項１０の発明は、前記画像取得手段によって取得された第１の画像の特徴を抽出する特徴抽出手段と、前記特徴抽出手段によって抽出された特徴に基づいて、前記第１の画像内で類似している画像を抽出する類似画像抽出手段をさらに具備し、前記画像出力手段は、前記類似画像抽出手段によって抽出された類似する画像を他のものと異なるように出力することを特徴とする請求項９に記載の画像処理装置である。

請求項１１の発明は、前記画像取得手段によって取得された第１の画像の特徴を抽出する特徴抽出手段と、前記特徴抽出手段によって抽出された第１の画像の特徴に基づいて、該第１の画像を分類する画像分類手段と、前記画像取得手段によって取得された第１の画像から切り出すべき領域を前記分類毎に記憶する領域記憶手段をさらに具備し、前記画像出力手段は、前記第１の画像に対しての前記画像分類手段による分類結果に基づいて、前記領域記憶手段に記憶されている領域を該第１の画像から切り出して、前記第３の画像を出力することを特徴とする請求項９に記載の画像処理装置である。

請求項１２の発明は、第１の画像を複数取得する画像取得手段と、前記画像取得手段によって取得された第１の画像から所定の情報を抽出する情報抽出手段と、前記情報抽出手段によって所定の情報が抽出されたか否かを判定する抽出情報判定手段と、前記抽出情報判定手段によって所定の情報が抽出されていないと判定された場合、前記画像取得手段によって取得された第１の画像を記憶する画像情報記憶手段を具備することを特徴とする画像処理装置である。

請求項１３の発明は、前記画像取得手段は、第２の画像を取得し、前記第２の画像は、前記画像情報記憶手段に記憶されている第１の画像と類似しているか否かを判断する類似画像判断手段をさらに具備し、前記情報抽出手段は、前記類似画像判断手段によって類似していると判断された前記第２の画像から所定の情報を抽出することを特徴とする請求項１２に記載の画像処理装置である。

請求項１４の発明は、前記情報抽出手段は、前記第２の画像から抽出した情報を、前記類似画像判断手段によって該第２の画像と類似していると判断された第１の画像の情報として抽出することを特徴とする請求項１３に記載の画像処理装置である。

請求項１５の発明は、コンピュータを、第１の画像を複数取得する画像取得手段と、前記画像取得手段によって取得された第１の画像から所定の情報を抽出する情報抽出手段と、前記情報抽出手段によって所定の情報が抽出されたか否かを判定する抽出情報判定手段と、前記抽出情報判定手段によって所定の情報が抽出されていないと判定された場合、その対象とした画像を特定するための情報を記憶する画像情報記憶手段として機能させることを特徴とする画像処理プログラムである。

請求項１６の発明は、コンピュータを、第１の画像を複数取得する画像取得手段と、前記画像取得手段によって取得された第１の画像から所定の情報を抽出する情報抽出手段と、前記情報抽出手段によって所定の情報が抽出されたか否かを判定する抽出情報判定手段と、前記抽出情報判定手段によって所定の情報が抽出されていないと判定された場合、前記画像取得手段によって取得された第１の画像を記憶する画像情報記憶手段として機能させることを特徴とする画像処理プログラムである。

請求項１の画像処理装置によれば、複数枚の画像の情報抽出結果に対して、その中からどの画像の情報抽出結果に誤りがあるかの確認ができるようになる。

請求項２の画像処理装置によれば、情報抽出結果に誤りがあった画像を再度取得して、その画像の情報抽出ができるようになる。

請求項３の画像処理装置によれば、情報抽出結果に誤りがあった画像を選択して、その選択した画像の情報抽出ができるようになる。

請求項４の画像処理装置によれば、本構成を有していない場合に比較して、情報抽出結果に誤りがあるか否かを容易に判断できるようになる。

請求項５の画像処理装置によれば、本構成を有していない場合に比較して、情報抽出結果に誤りがあるか否かを容易に判断できるようになる。

請求項６の画像処理装置によれば、本構成を有していない場合に比較して、情報抽出結果に誤りがあった画像の特定が容易にできるようになる。

請求項７の画像処理装置によれば、自動文書送り装置を用いた画像取得に対しても、情報抽出結果に誤りがあった画像を選択して、その選択した画像の情報抽出ができるようになる。

請求項８の画像処理装置によれば、本構成を有していない場合に比較して、再度取得した画像の情報抽出の精度を高めることができるようになる。

請求項９の画像処理装置によれば、本構成を有していない場合に比較して、情報抽出結果に誤りがあった画像の選択が容易にできるようになる。

請求項１０の画像処理装置によれば、本構成を有していない場合に比較して、類似した画像があっても、情報抽出結果に誤りがあった画像の選択が容易にできるようになる。

請求項１１の画像処理装置によれば、本構成を有していない場合に比較して、注目すべき画像を切り出すことができ、情報抽出結果に誤りがあった画像の選択が容易にできるようになる。

請求項１２の画像処理装置によれば、複数枚の画像の情報抽出結果に対して、その中からどの画像の情報抽出結果に誤りがあるかの確認ができるようになる。

請求項１３の画像処理装置によれば、情報抽出結果に誤りがあった画像を再度取得して、その画像の情報抽出ができるようになる。

請求項１４の画像処理装置によれば、情報抽出結果に誤りがあった画像の情報抽出結果を、その誤りがあった画像の情報抽出結果として扱うことができるようになる。

請求項１５の画像処理プログラムによれば、複数枚の画像の情報抽出結果に対して、その中からどの画像の情報抽出結果に誤りがあるかの確認ができるようになる。

請求項１６の画像処理プログラムによれば、複数枚の画像の情報抽出結果に対して、その中からどの画像の情報抽出結果に誤りがあるかの確認ができるようになる。

以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
＜第１の実施の形態＞
図１は、第１の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（データの授受、指示、データ間の参照関係等）を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。
なお、所定という用語は、予め定められたの意の他に、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じての意を含めて用いる。

第１の実施の形態は、図１に示すように、画像取得モジュール１０１、情報抽出モジュール１０２、抽出情報判定モジュール１０３、文書情報記憶モジュール１０４、文書選択モジュール１０５、文字認識モジュール１０６を有している。これらのモジュールは、それぞれ接続されている。
また、図２は、第１の実施の形態を実現するためのハードウェア例の構成図である。つまり、画像入力装置２０１、ＣＰＵ２０２、表示装置２０３、入力装置２０４、記憶装置２０５、外部記憶装置２０６を有している。これらは、バスを介してそれぞれ接続されている。
画像取得モジュール１０１は画像入力装置２０１によって実現され、情報抽出モジュール１０２、抽出情報判定モジュール１０３、文書選択モジュール１０５、文字認識モジュール１０６はＣＰＵ２０２、記憶装置２０５によって実現され、文書情報記憶モジュール１０４は外部記憶装置２０６によって実現される。また、利用者による操作、設定等は、入力装置２０４によって行われ、その表示は表示装置２０３によって行われる。

画像取得モジュール１０１は、まず、文書の画像を複数取得する。また、同一文書に対して２回目の画像を取得する。つまり、２回目に取得した画像は、最初に取得した画像に対応する。そして、取得した画像を１枚ずつ順に情報抽出モジュール１０２へ渡す。例えば、画像取得モジュール１０１は、自動文書送り装置を設けたスキャナであり、その自動文書送り装置を用いて複数の文書の画像を１枚ずつ読み取る。なお、文書とは、文字（記号等を含む）、図形等が印刷（手書きを含む）された紙等の媒体であり、その内容は問わず、またそのサイズも問わない。以下、主に、文書として帳票を例示するが、その帳票には請求書、領収書等がある。

情報抽出モジュール１０２は、画像取得モジュール１０１によって取得された画像から所定の情報を抽出する。つまり、所定の指定情報に基づいて、画像内の情報を文字認識モジュール１０６によって抽出する。所定の指定情報とは、例えば、文書画像中の情報を読み取る場所を座標値で指定した情報である読取領域テーブル３００である。
図３に示すように、読取領域テーブル３００は、文書名欄３０１、座標値欄３１０（左欄３１１、上欄３１２、右欄３１３、下欄３１４で矩形領域の左上、右下を指定）、名前欄３２１、文字種欄３３１で構成される。また、読取領域テーブル３００は、その領域内に記載されているべき文字種（数字、記号、漢字、ひらがな（図３では「かな」）、カタカナ（図３では「カナ」）、アルファベット等）が記憶されている。
これらの座標値は、図４に示すような各領域に対応し、それぞれの領域から切り出された画像に対して文字認識モジュール１０６により文字認識処理が行われ、情報が抽出される。図３に示す読取領域テーブル３００内の各領域は、図４の点線で示した領域に相当する。つまり、文書名が請求書である文書４００に対して、読取領域テーブル３００の日付行３５１、金額行３５２、会社名行３５３は、文書４００の読取領域（日付）４５１、読取領域（金額）４５２、読取領域（会社名）４５３に対応する。

情報抽出の結果は、図５に示すような読取領域テーブル５００として文書情報記憶モジュール１０４に一時的に記憶される。読取領域テーブル５００は、文書名欄５０１、名前欄５０２、文字種欄５０３、値欄５０４を有している。文字認識モジュール１０６による文字認識処理の結果は、読取領域テーブル５００の値欄５０４に設定される。
文字認識モジュール１０６は、情報抽出モジュール１０２からの指示に基づいて、画像取得モジュール１０１によって取得された画像内の指定された部分の領域の文字認識を行う。

抽出情報判定モジュール１０３は、情報抽出モジュール１０２によって所定の情報が抽出されたか否かを判定する。より具体的には、例えば、情報抽出モジュール１０２によって抽出された情報の有無又はその抽出された情報が所定の文字列を含むか否かによって、所定の情報が抽出されたか否かを判定するようにしてもよい。つまり、文書情報記憶モジュール１０４に記憶された情報抽出の結果から、所定の情報が抽出されたかを判定する。判定の基準は、値欄５０４に情報が入っていない、又は文字種欄５０３に指定された以外の文字種が値欄５０４に設定されているときに、情報抽出に失敗したと判定する。例えば、図５に示す読取領域テーブル５００では、名前欄５０２が金額の値欄５０４に何も設定されていないので、この画像に対しての情報抽出は失敗していると判定する。また、名前欄５０２が日付の文字種欄５０３に指定されている文字種は“数字”と“記号”であるが、値欄５０４に設定されている文字列の中に漢字“日”が含まれているため、ここでも情報抽出に失敗したと判定することとなる。

文書情報記憶モジュール１０４は、抽出情報判定モジュール１０３によって所定の情報が抽出されていないと判定された場合、その対象とした画像を特定するための情報を記憶する。つまり、抽出情報判定モジュール１０３による処理結果、情報抽出に失敗した画像を特定するための情報を外部記憶装置２０６に記憶する。ここで記憶する画像を特定するための情報として、画像取得モジュール１０１によって１回目（後述の図６に示すフローチャートのステップＳ６０４）に取得された画像の順番又はその画像のサムネイル画像（縮小画像）がある。つまり、自動文書送り装置上に設定された文書中の何枚目（ページ数）であるかという情報又はそのサムネイル画像を記憶する。また、サムネイル画像の他に、画像そのものを記憶するようにしてもよい。

第１の実施の形態において、画像を取得し、その画像から情報を抽出し、その情報抽出の判定をする等の処理フローを図６に示す。
まず、自動文書送り装置に設定された文書の何枚目を処理しているかをカウントするページカウンタを記憶装置２０５に用意し、その値をリセットする（ステップＳ６０１）。
次に自動文書送り装置上に文書が残っているかを判断し（ステップＳ６０２）、文書がある場合にはステップＳ６０３の処理へ進み、それ以外の場合は終了する（ステップＳ６９９）。
ステップＳ６０３では、ページカウンタの値を１つ増加させた値に更新する。そして、画像を読み取る（ステップＳ６０４）。

情報抽出モジュール１０２によって情報抽出処理（ステップＳ６０５）を実行し、読み取った画像から情報を取得する。
抽出情報判定モジュール１０３によって、所定の情報が抽出されているか否かを判定し（ステップＳ６０６）、情報が抽出されていれば（ステップＳ６０６でＹｅｓ）、抽出した情報とともに読み取った画像を記憶する（ステップＳ６０７）。このとき、記憶する場所は、予め指定してある文書管理サーバーなど、外部の機器としてもよい。
情報が抽出されていないと判断された場合（ステップＳ６０６でＮｏ）には、記憶装置２０５の現在のページカウンタの値を文書情報記憶モジュール１０４に記憶する（ステップＳ６０８）。このとき、ページカウンタの値だけでなく、取得した画像のサムネイル画像を一緒に記憶するようにしてもよい。
以上の処理を自動文書送り装置に設定された文書がなくなるまで続ける（ステップＳ６０２）。

次に情報抽出に失敗した文書がある場合の処理を説明する。
文書選択モジュール１０５は、文書情報記憶モジュール１０４に記憶された画像を特定するための情報を選択する。より具体的には、例えば、情報の抽出に失敗した文書がある場合には、情報抽出に失敗したと判定された文書の一覧を表示装置２０３上に表示する。このとき文書の一覧は、記憶されているページカウンタの値を表示する。利用者は、マウスやキーボードなどの入力装置２０４を使って、もう一度取得が必要な文書を表示されたページカウンタの値を指定することで選択する。このとき、ページカウンタの値だけでなく、記憶したサムネイル画像を表示装置２０３上に表示して、具体的に文書が利用者に分かるようにしてもよい。選択した文書に対応するページカウンタの値は、記憶装置２０５に記憶される。

選択した後、利用者は最初に自動文書送り装置に設定したすべての文書をもう一度同じ順番で、自動文書送り装置に設定し、再読み取りの処理を実行する。つまり、画像取得モジュール１０１は、同一文書の画像を再度取得する。
そして、情報抽出モジュール１０２は、画像取得モジュール１０１によって再度取得されたその画像を、文書情報記憶モジュール１０４に記憶された画像を特定するための情報によって特定し、その特定された画像から、文字認識モジュール１０６を用いて所定の情報を抽出する。また、画像取得モジュール１０１によって再度取得されたその画像を、文書選択モジュール１０５によって選択された画像を特定するための情報によって特定し、その特定された画像から所定の情報を抽出するようにしてもよい。つまり、ステップＳ６０８によって記憶されたページ（情報の抽出に失敗した文書のページ）に対して、情報抽出を行う。

第１の実施の形態において、再読み取りの処理フローを図７に示す。
まず、ページカウンタを記憶装置２０５上に用意し、その値をリセットする（ステップＳ７０１）。
自動文書送り装置に設定された文書が残っているかを判断し（ステップＳ７０２）、文書がある場合にはステップＳ７０３の処理へ進み、それ以外の場合は終了する（ステップＳ７９９）。
ステップＳ７０３では、ページカウンタの値を１つ増加させた値に更新する。

次に、先の処理（ステップＳ６０８）で記憶されている選択文書に対応するページカウンタの値と現在のページカウンタの値を比較し、一致していれば先の処理で情報抽出に失敗し、再取得を指定された文書であると判断し（ステップＳ７０４でＹｅｓ）、画像取得モジュール１０１は画像の読み取りを行う（ステップＳ７０５）。
再取得を指定された文書ではない場合（ステップＳ７０４でＮｏ）には、ステップＳ７０２へ戻り、自動文書送り装置に設定されている次の文書の処理を行う。
次に、情報抽出モジュール１０２は、ステップＳ７０５で読み取った画像中から情報を抽出し（ステップＳ７０６）、抽出された情報を記憶する（ステップＳ７０７）。なお、ステップＳ７０６、ステップＳ７０７の処理は、それぞれステップＳ６０５、ステップＳ６０７と同等の処理である。
以上の処理を自動文書送り装置に設定された文書がなくなるまで続ける（ステップＳ７０２）。

画像取得モジュール１０１による画像の再取得処理（ステップＳ７０５）の場合、画像内の文字を認識しやすくするために、解像度、コントラストなどの読取条件を変更して、画像の取得を行うようにしてもよい。つまり、１回目に取得した画像の取得条件とは異なる条件によって、２回目の画像を取得する。第２の実施の形態から第４の実施の形態でも同等である。
第１の実施の形態では、予め情報抽出の座標を指定する方法を用いている。つまり、情報抽出モジュール１０２は、画像内の所定の位置にある情報を抽出するようにしているが、画像内の所定の属性名に対応する情報を抽出するようにしてもよい。つまり、情報抽出すべき領域を指定するために必要なキーワードを与えて、そのキーワードに相当する領域を文字認識モジュール１０６による文字認識対象とする方法としてもよい。例えば、このような情報抽出方法は、特開２００６−９２２０７号公報に開示の方法を利用することができる。

＜第２の実施の形態＞
次に、第２の実施の形態を説明する。
第２の実施の形態は、図８に示すように、画像取得モジュール８０１、情報抽出モジュール８０２、抽出情報判定モジュール８０３、文書情報記憶モジュール８０４、文書選択モジュール８０５、文字認識モジュール８０６、非抽出情報印刷モジュール８０７を有している。これらのモジュールは、それぞれ接続されている。
また、図９は、第２の実施の形態を実現するためのハードウェア例の構成図である。つまり、画像入力装置９０１、ＣＰＵ９０２、表示装置９０３、入力装置９０４、記憶装置９０５、外部記憶装置９０６、印刷装置９０７を有している。これらは、バスを介してそれぞれ接続されている。
画像取得モジュール８０１は画像入力装置９０１によって実現され、情報抽出モジュール８０２、抽出情報判定モジュール８０３、文書選択モジュール８０５、文字認識モジュール８０６はＣＰＵ９０２、記憶装置９０５によって実現され、文書情報記憶モジュール８０４は外部記憶装置９０６によって実現され、非抽出情報印刷モジュール８０７は印刷装置９０７によって実現される。また、利用者による操作、設定等は、入力装置９０４によって行われ、その表示は表示装置９０３によって行われる。
なお、第２の実施の形態は、前述の第１の実施の形態に非抽出情報印刷モジュール８０７を加え、同様に、ハードウェア構成では、印刷装置９０７を加えたものである。同等の名称のもの（例えば、画像取得モジュール８０１と画像取得モジュール１０１等）は、第１の実施の形態と同等の機能・働きをする。ただし、同等の名称のものであっても、特に、以下に説明するものは、第１の実施の形態の機能・働きに置換又は付加したものである。

非抽出情報印刷モジュール８０７は、文書情報記憶モジュール８０４に記憶されている画像を特定するための情報に基づいて、利用者に再度読み取らせるべき画像を選択させるための画像を出力する。つまり、非抽出情報印刷モジュール８０７は、抽出情報判定モジュール８０３で情報の抽出に失敗したとして、文書情報記憶モジュール８０４に記憶されているページカウンタの値に対応するサムネイル画像を所定の書式で印刷を行う。
そして、画像取得モジュール８０１は、非抽出情報印刷モジュール８０７によって出力された画像（後述するように、利用者によって符号が付されている）を取得する。
文書選択モジュール８０５は、画像取得モジュール８０１によって取得された画像内の利用者によって付された符号に基づいて、２回目に取得された画像を選択する。
情報抽出モジュール８０２は、文書選択モジュール８０５によって選択された画像内から所定の情報を抽出する。

次に、非抽出情報印刷モジュール８０７によって出力された画像に対して、利用者によって符号が付されることについて説明する。
非抽出情報印刷モジュール８０７によって印刷された紙を用いて、利用者が再取得の指示を行う。再取得の指定の位置の判定を行いやすいような書式を用いる。例えば、図１０の例に示す印刷書式１０００のように紙面を格子状に区切り、各区分に対してサムネイル画像を印刷するサムネイル画像表示領域１００１を設定し、その中にサムネイル画像を印刷する。図１１に示す例は、図１０に示した印刷書式１０００に従って、サムネイル画像１１０１からサムネイル画像１１０８を配置したものである。このとき、各サムネイル画像の下にページカウンタの値を印刷してもよい。
利用者は、このサムネイル画像印刷文書１１００に対して図１２の例に示すように再取得が必要なサムネイル画像にチェックマーク１１２２、１１２８を記入する。

利用者は、自動文書送り装置に設定したすべての文書の一番上（読み取られる順番が最初）にこの用紙をセットして、再度自動文書送り装置にすべての文書と共に設定する。
画像取得モジュール８０１による再読取が始まると、最初の文書からチェックされている場所を文書選択モジュール８０５が判定する。
チェックの有無の判定は、取得文書と文書情報記憶モジュール８０４に記憶されているサムネイル画像との差分を取り（ＥＯＲ論理演算等）、チェックマークが付されている場所には、差分の画素が多く残るので、画素の残っている区画を検索することで、どの文書が選択されているかを容易に判断することができる。例えば、区画に左上から右方向へ順に１番目、２番目としておくことで、その区画に画素が残っているかで、どの画像かを判断することができる。つまり、Ｎ番目の区画に画素が残っていると、文書情報記憶モジュール８０４に記憶されている情報のＮ番目の情報が選択されていることが判明するので、Ｎ番目に記憶されている情報のページカウンタの値を取得することで、選択された文書を特定することができる。

次に、第２の実施の形態の変形例を説明する。サムネイル画像は小さく、類似した文書であると、利用者がその文書の区別がつかないということがあり得る。変形例は、これに対応したものである。
第２の実施の形態の変形例は、図１３に示すように、画像取得モジュール１３０１、情報抽出モジュール１３０２、抽出情報判定モジュール１３０３、文書情報記憶モジュール１３０４、文書選択モジュール１３０５、文字認識モジュール１３０６、非抽出情報印刷モジュール１３０７、特徴量計算モジュール１３０８、類似度計算モジュール１３０９を有している。これらのモジュールは、それぞれ接続されている。同等の名称のもの（例えば、画像取得モジュール１３０１と画像取得モジュール８０１等）は、第２の実施の形態と同等の働きをする。この変形例を実現するためのハードウェア例は、図９の例に示したものと同等である。

非抽出情報印刷モジュール１３０７には、特徴量計算モジュール１３０８、類似度計算モジュール１３０９も接続されている。非抽出情報印刷モジュール１３０７は、特徴量計算モジュール１３０８、類似度計算モジュール１３０９を制御して、情報の抽出に失敗した画像のサムネイル画像を印刷する。
つまり、類似度計算モジュール１３０９によって抽出された類似する画像を他のものと異なるように出力する。これは、利用者に類似した画像の区別がつきやすいように出力する場合に用いる。
例えば、画像間又はサムネイル画像間で類似度の高いものは、似ている文書であるとしてそれらのサムネイル画像だけ、サイズを変更して（例えば拡大して）印刷する。図１６に、サムネイル画像のサイズを変更して印刷した例を示す。つまり、類似しているサムネイル画像１６０１とサムネイル画像１６０４は、他のサムネイル画像１６０２等よりも大きく拡大して印刷したサムネイル画像印刷文書１６００の例である。

また、類似度の高いサムネイルの間で差分を取るようにしてもよい。そして、その差分の大きい部分を似ている文書の中での相違が大きい部分としてその領域を切り出して、その切り出した画像を拡大して印刷するようにしてもよい。図１７に、差分の大きい部分を拡大して印刷した例を示す。つまり、類似しているサムネイル画像１７０１とサムネイル画像１７０４については、差分が大きい部分である差異部分画像１７１１、１７１４を拡大して、それぞれサムネイル画像１７０１、１７０４の近辺に配置して印刷したサムネイル画像印刷文書１７００の例である。

特徴量計算モジュール１３０８は、非抽出情報印刷モジュール１３０７と接続されており、画像取得モジュール１３０１によって１回目に取得された画像（ステップＳ６０４に相当）の特徴を抽出する。特徴抽出する画像は、サムネイル画像であってもよい。特徴量計算モジュール１３０８で抽出する特徴としては、画像を複数の格子状に区切り、各矩形内での画素密度、又は画像の射影を特徴量とするなどの、比較的簡単な特徴量を用いることができる。より複雑な、文書構造を利用した特徴量などを用いてもよい。図１４に対象画像１４００を格子状に区分した例、図１５に対象画像１５００の射影（射影（横）１５０１、射影（縦）１５０２）を計算した例を示す。
類似度計算モジュール１３０９は、非抽出情報印刷モジュール１３０７と接続されており、特徴量計算モジュール１３０８によって抽出された特徴に基づいて、その画像内で類似している画像を抽出する。類似しているか否かの判断は、所定の閾値を用いて、その閾値との比較によって判断する。

第２の実施の形態では、サムネイル画像が１枚の用紙に収まっている例を示している。そして、この用紙を、自動文書送り装置に設定したすべての文書の一番上にセットして、１枚目の画像を画像取得モジュール８０１（１３０１）が文書選択モジュール８０５（１３０５）に渡すようにしている。
しかし、情報の抽出に失敗する画像が多数出現し、複数の用紙に渡ってサムネイル画像を印刷することがある。そのような場合には、情報抽出に失敗した画像であることを示す情報が表されている情報画像（例えば、ＱＲコードやバーコード等）をその用紙に印刷する。そして、画像取得モジュール８０１（１３０１）は、その情報を探知することでサムネイル画像が印刷されている画像であるかどうかを判定する。サムネイル画像が印刷されている画像であると判定された場合は、その複数の画像を画像取得モジュール８０１（１３０１）が文書選択モジュール８０５（１３０５）に渡すようにしてもよい。帳票内で異なる部分としては、例えば、件名、商品名、金額等の欄を用いることができる。

＜第３の実施の形態＞
次に、第３の実施の形態を説明する。ここでは、文書として特に帳票を例示する。取得される帳票の種別は、ある程度決まっている場合が多い。そのため、第３の実施の形態では、同等の種類の帳票に対しては、その帳票内で最も異なる部分を予め指定し、その部分を拡大してサムネイル画像を作成する。

第３の実施の形態は、図１８に示すように、画像取得モジュール１８０１、情報抽出モジュール１８０２、抽出情報判定モジュール１８０３、文書情報記憶モジュール１８０４、文書選択モジュール１８０５、文字認識モジュール１８０６、非抽出情報印刷モジュール１８０７、特徴量計算モジュール１８０８、帳票分類モジュール１８０９、帳票辞書モジュール１８１０、帳票特定領域辞書モジュール１８１１を有している。これらのモジュールは、それぞれ接続されている。同等の名称のもの（例えば、画像取得モジュール１８０１と画像取得モジュール８０１等）は、第２の実施の形態と同等の機能・働きをする。この第３の実施の形態を実現するためのハードウェア例は、図９の例に示したものと同等である。ただし、同等の名称のものであっても、特に、以下に説明するものは、第２の実施の形態の機能・働きに置換又は付加したものである。

第３の実施の形態では、前述の第２の実施の形態に特徴量計算モジュール１８０８、帳票分類モジュール１８０９、帳票辞書モジュール１８１０、帳票特定領域辞書モジュール１８１１を加えたものである。これらは、非抽出情報印刷モジュール１８０７に接続されており、非抽出情報印刷モジュール１８０７によって制御される。
非抽出情報印刷モジュール１８０７は、１回目に取得した画像に対しての帳票分類モジュール１８０９による分類結果に基づいて、帳票特定領域辞書モジュール１８１１に記憶されている領域をその画像から切り出して、情報抽出に失敗した画像を出力する。つまり、非抽出情報印刷モジュール１８０７は、帳票分類モジュール１８０９により分類した帳票に対応する切り出し領域を帳票特定領域辞書モジュール１８１１により決定し、１回目の取得画像から指定された領域を切り出し、サムネイル画像を作成して印刷する。

特徴量計算モジュール１８０８は、非抽出情報印刷モジュール１８０７と接続されており、画像取得モジュール１８０１によって取得された１回目の画像の特徴を抽出する。つまり、帳票辞書モジュール１８１０に記憶されている特徴をその取得した画像から計算する。特徴としては、図１４、１５に示したような画像特徴を用いて、パターンマッチングする方法を採ることができる。また、帳票内の各セルの位置情報から帳票を分類する方法（例えば、特開２０００−３３９４０６号公報に開示されている方法）により、各セルの関係と属性を決定し、帳票辞書モジュール１８１０に記憶されている同等の情報を比較して判定することもできる。

帳票分類モジュール１８０９は、非抽出情報印刷モジュール１８０７と接続されており、特徴量計算モジュール１８０８によって抽出された１回目に取得した画像の特徴に基づいて、その画像を分類する。つまり、画像取得モジュール１８０１によって取得された１回目の画像の特徴と帳票辞書モジュール１８１０に記憶されている特徴とを比較して、その画像がどの帳票であるかを判定する。
帳票辞書モジュール１８１０は、非抽出情報印刷モジュール１８０７と接続されており、予め取得される帳票の特徴をそれぞれ記憶している。
帳票特定領域辞書モジュール１８１１は、非抽出情報印刷モジュール１８０７と接続されており、画像取得モジュール１８０１によって取得された１回目の画像から切り出すべき領域を帳票の分類毎に記憶する。例えば、図２０に示す帳票特定領域テーブル２０００のようなデータ構造を有している。帳票特定領域テーブル２０００は、分類欄２００１、特定領域欄２０１０を有している。さらに、特定領域欄２０１０は、左欄２０１１、上欄２０１２、右欄２０１３、下欄２０１４を有している。つまり、帳票の分類毎に、切り出す位置を特定領域欄２０１０に記憶している。
なお、第３の実施の形態では、帳票の分類処理が必要となるため、文書情報記憶モジュール１８０４には画像取得モジュール１８０１が取得した画像のサムネイル画像ではなく、取得画像そのものを記憶する。

第３の実施の形態において、非抽出情報印刷モジュール１８０７が行う処理フローについて図１９を用いて説明する。
文書情報記憶モジュール１８０４に記憶されている情報抽出に失敗したと判定されたすべての画像を、帳票分類モジュール１８０９において分類を行う（ステップＳ１９０１）。
ステップＳ１９０２では、未処理の文書（サムネイル画像が生成されていない画像）があるか否かを判断する。かかる判断によって残っていると判断した場合（Ｙｅｓ）はステップＳ１９０３へ進み、それ以外の場合（Ｎｏ）はステップＳ１９０７へ進む。

そして、分類済みの文書から一つ選び、その画像の分類名から切り出す領域を決定する。画像を外部記憶装置９０６に一時的に記憶する。切り出し位置は、帳票特定領域辞書モジュール１８１１に図２０の例に示すようなデータ構造で記憶されているため、その画像の分類（分類欄２００１）に対応する領域の座標（特定領域欄２０１０）を取り出し、その領域の画像を切り出す（ステップＳ１９０３）。
次に、その画像のサムネイル画像を生成し、同様に外部記憶装置９０６に一時的に記憶する（ステップＳ１９０４）。
切り出した特定領域とサムネイル画像を合成し（ステップＳ１９０５）、印刷すべき画像上に配置する（ステップＳ１９０６）。

文書情報記憶モジュール１８０４に記憶されている画像に対して、前述の処理を行い、処理すべき画像がなくなった場合（ステップＳ１９０２でＮｏ）は、印刷装置９０７から画像を印刷する（ステップＳ１９０７）。
以上の処理は、類似している画像に対して、サムネイル画像では判別できないような文書の差を、利用者にとってより的確に把握されるようなサムネイル画像の一覧を作成するものである。例えば、ステップＳ１９０７で印刷される画像は、図２１の例に示すサムネイル画像印刷文書２１００のようなものである。つまり、サムネイル画像印刷文書２１００には、情報の抽出に失敗した画像のサムネイル画像２１０１等が印刷され、その近辺には非抽出情報印刷モジュール１８０７によって切り出された差異部分画像２１１１等が印刷されている。

＜第４の実施の形態＞
次に、第４の実施の形態を説明する。第４の実施の形態は、１回目の画像取得後に再度の画像取得のために自動文書送り装置にすべての文書を設定しなおしたときに、文書の順番が異なっていたり、文書に過不足があったりする場合（例えば、いくつかの文書を載せ忘れた場合）に対処するものである。

第４の実施の形態は、図２２に示すように、画像取得モジュール２２０１、情報抽出モジュール２２０２、抽出情報判定モジュール２２０３、文書情報記憶モジュール２２０４、文書選択モジュール２２０５、文字認識モジュール２２０６、類似度計算モジュール２２０７を有している。これらのモジュールは、それぞれ接続されている。
また、図２３は、第４の実施の形態を実現するためのハードウェア例の構成図である。つまり画像入力装置２３０１、ＣＰＵ２３０２、表示装置２３０３、入力装置２３０４、記憶装置２３０５、外部記憶装置２３０６を有している。これらは、バスを介してそれぞれ接続されている。
画像取得モジュール２２０１は画像入力装置２３０１によって実現され、情報抽出モジュール２２０２、抽出情報判定モジュール２２０３、文書選択モジュール２２０５、文字認識モジュール２２０６、類似度計算モジュール２２０７はＣＰＵ２３０２、記憶装置２３０５によって実現され、文書情報記憶モジュール２２０４は外部記憶装置２３０６によって実現される。また、利用者による操作、設定等は、入力装置２３０４によって行われ、その表示は表示装置２３０３によって行われる。
なお、第４の実施の形態は、前述の第１の実施の形態に類似度計算モジュール２２０７を加えたものである。同等の名称のもの（例えば、画像取得モジュール２２０１と画像取得モジュール１０１等）は、第１の実施の形態と同等の機能・働きをする。ただし、同等の名称のものであっても、特に、以下に説明するものは、第１の実施の形態の機能・働きに置換又は付加したものである。

文書情報記憶モジュール２２０４は、文書選択モジュール２２０５によって所定の情報が抽出されていないと判定された場合、画像取得モジュール２２０１によって１回目に取得された画像を記憶する。また、その画像とともに画像を特定するための情報を記憶するようにしてもよい。
類似度計算モジュール２２０７は、画像取得モジュール２２０１によって２回目に取得された画像は、情報抽出モジュール２２０２に記憶されている１回目に取得された画像と類似しているか否かを判断する。
情報抽出モジュール２２０２は、類似度計算モジュール２２０７によって類似していると判断され、２回目に取得された画像から所定の情報を抽出する。また、その２回目に取得された画像から抽出した情報を、類似度計算モジュール２２０７によってその２回目に取得された画像と類似していると判断された１回目に取得された画像の情報として抽出するようにしてもよい。

第４の実施の形態において、画像を取得し、その画像から情報を抽出し、その情報抽出の判定をする等の処理フローを図２４に示す。
ステップＳ２４０１からステップＳ２４０６までの処理は、図６の例に示した第１の実施の形態のフローチャートのステップＳ６０１からステップＳ６０６までと同等である。ステップＳ２４０６以降の処理について説明する。

抽出情報判定モジュール２２０３によって、所定の情報が抽出されているか否かを判定し（ステップＳ２４０６）、情報が抽出されていれば（ステップＳ２４０６でＹｅｓ）、抽出した情報とともに読み取った画像を記憶する（ステップＳ２４０７）。このとき、記憶する場所は、予め指定してある文書管理サーバーなど、外部の機器としてもよい。
情報が抽出されていないと判断された場合（ステップＳ２４０６でＮｏ）には、文書情報記憶モジュール２２０４に現在のページカウンタの値とその画像を記憶しておく。このとき、取得した画像のサムネイル画像を一緒に記憶するようにしてもよい。
以上の処理を自動文書送り装置に設定された文書がなくなるまで続ける（ステップＳ２４０２）。

第４の実施の形態において、再読み取りの処理フローを図２５に示す。このときに、利用者は、第１の実施の形態と同様に、最初に自動文書送り装置に設定したすべての文書をもう一度自動文書送り装置に設定し、再読み取りの処理を実行する。このとき、第４の実施の形態では、例えば、文書の順番が変わっていたり自動文書送り装置に載せ忘れていた文書があったりしても対応できる。

まず、ページカウンタを記憶装置２３０５上に用意し、その値をリセットする（ステップＳ２５０１）。
自動文書送り装置に設定された文書が残っているかを判断し（ステップＳ２５０２）、文書がある場合（Ｙｅｓ）にはステップＳ２５０３の処理へ進み、それ以外の場合（Ｎｏ）は終了する（ステップＳ２５９９）。
ステップＳ２５０３では、ページカウンタの値を１つ増加させた値に更新する。

次に、自動文書送り装置に設定された文書を１枚読み取る（ステップＳ２５０４）。
読み取られた画像と文書情報記憶モジュール２２０４に記憶されている全ての画像（ステップＳ２４０８で記憶された画像）との類似度を計算し、類似度の一覧を記憶装置２３０５に記憶する（ステップＳ２５０５）。
その類似度の一覧の中から、類似度が最大のものであり、かつその類似度が所定の閾値以上であることを条件として、その画像がステップＳ２５０４で読み取られた画像に一致するかを判断する（ステップＳ２５０６）。一致する文書である場合（Ｙｅｓ）は、ステップＳ２５０７へ進み、それ以外の場合（Ｎｏ）はステップＳ２５０２へ戻り、自動文書送り装置に設定されている次の文書の処理を行う。
次に、情報抽出モジュール２２０２は、ステップＳ２５０４で読み取った画像中から情報を抽出し（ステップＳ２５０７）、抽出された情報を記憶する（ステップＳ２５０８）。なお、ステップＳ２５０７、ステップＳ２５０８の処理は、ステップＳ２４０５、ステップＳ２４０７と同等の処理である。
以上の処理を自動文書送り装置に設定された文書がなくなるまで続ける（ステップＳ２５０２）。

第１の実施の形態と同様に、再度取得すべき文書を利用者が選択するようにしてもよい。また、第２、第３の実施の形態と同様に、文書情報記憶モジュール２２０４に記憶されているサムネイル画像を印刷し、用紙上で再度取得すべき文書を選択する構成としてもよい。
また、第１から第４の実施の形態は、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。

また、第４の実施の形態は、文書選択モジュール２２０５によって選択されたと判定された文書に対応している文書情報記憶モジュール２２０４に記憶されているページカウンタの値を用いることで、１回目に自動文書送り装置に設定した順番で抽出した情報を並べ替えることができる。例えば、抽出した情報を文書毎にファイルに保存し、そのファイル名にページ番号を使用する場合に、文書情報記憶モジュール２２０４に記憶されているページカウンタの値を用いることができる。
また、抽出した情報を何らかの書式で１つのファイルにまとめている場合、抽出したページカウンタの値を用いて適切な場所に抽出情報を挿入することができる。例えば、図２６（ａ）に示すように、ＸＭＬで記述された抽出情報ファイル２６００に抽出された情報がまとめられており、ＸＭＬのタグに各文書毎にｐａｇｅタグ（抽出情報ファイル２６００内の＜Ｐａｇｅｎｕｍ＝１＞等、＜／Ｐａｇｅ＞）が設けられている書式の場合を例示する。この場合、図２６（ｂ）に示すような再取得画像２６１０をページＮの次（つまり、Ｎ＋１）に挿入するとする。そして、図２６（ｃ）に示すように、ページＮのｐａｇｅタグを探索して、ページカウンタに対応する場所に抽出情報である挿入情報２６２１を挿入できる。

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。

第１の実施の形態の構成例についての概念的なモジュール構成図である。第１の実施の形態を実現するためのハードウェア例の構成図である。第１の実施の形態に係わる読取領域テーブルの例を示す説明図である。文書画像と読取領域の対応例を示す説明図である。第１の実施の形態に係わる情報抽出の結果の例を示す説明図である。第１の実施の形態による情報抽出等の処理例を示すフローチャートである。第１の実施の形態による再度の情報抽出等の処理例を示すフローチャートである。第２の実施の形態の構成例についての概念的なモジュール構成図である。第２の実施の形態を実現するためのハードウェア例の構成図である。サムネイル画像を印刷する書式の例を示す説明図である。サムネイル画像を印刷した例を示す説明図である。利用者によって文書が選択された場合の例を示す説明図である。第２の実施の形態の変形例の構成例についての概念的なモジュール構成図である。画像を格子状に区切った例を示す説明図である。画像の射影を計算した例を示す説明図である。サムネイル画像のサイズを変更した印刷例を示す説明図である。差分の大きい部分を拡大処理した印刷例を示す説明図である。第３の実施の形態の構成例についての概念的なモジュール構成図である。第３の実施の形態の非抽出情報印刷モジュールによる処理例を示すフローチャートである。第３の実施の形態に係わる帳票の特定領域指定テーブルの例を示す説明図である。第３の実施の形態に係わる印刷例を示す説明図である。第４の実施の形態の構成例についての概念的なモジュール構成図である。第４の実施の形態を実現するためのハードウェア例の構成図である。第４の実施の形態による情報抽出等の処理例を示すフローチャートである。第４の実施の形態による再度の情報抽出等の処理例を示すフローチャートである。第４の実施の形態による再度の情報抽出によって得た情報を挿入した例を示す説明図である。

符号の説明

１０１…画像取得モジュール
１０２…情報抽出モジュール
１０３…抽出情報判定モジュール
１０４…文書情報記憶モジュール
１０５…文書選択モジュール
１０６…文字認識モジュール
２０１…画像入力装置
２０２…ＣＰＵ
２０３…表示装置
２０４…入力装置
２０５…記憶装置
２０６…外部記憶装置

Claims

第１の画像を複数取得する画像取得手段と、
前記画像取得手段によって取得された第１の画像から所定の情報を抽出する情報抽出手段と、
前記情報抽出手段によって所定の情報が抽出されたか否かを判定する抽出情報判定手段と、
前記抽出情報判定手段によって所定の情報が抽出されていないと判定された場合、その対象とした画像を特定するための情報を記憶する画像情報記憶手段
を具備することを特徴とする画像処理装置。
前記画像取得手段は、第２の画像を複数取得し、
前記情報抽出手段は、前記画像取得手段によって取得された第２の画像を、前記画像情報記憶手段に記憶された画像を特定するための情報によって特定し、該特定された画像から所定の情報を抽出する
ことを特徴とする請求項１に記載の画像処理装置。
前記画像情報記憶手段に記憶された画像を特定するための情報を選択する画像選択手段
をさらに具備し、
前記情報抽出手段は、前記画像取得手段によって取得された第２の画像を、前記画像選択手段によって選択された画像を特定するための情報によって特定し、該特定された画像から所定の情報を抽出する
ことを特徴とする請求項２に記載の画像処理装置。
前記情報抽出手段は、前記画像内の所定の位置にある情報又は画像内の所定の属性名に対応する情報を抽出する
ことを特徴とする請求項１から３のいずれか一項に記載の画像処理装置。
前記抽出情報判定手段は、前記情報抽出手段によって抽出された情報の有無又は該抽出された情報が所定の文字列を含むか否かによって、所定の情報が抽出されたか否かを判定する
ことを特徴とする請求項１から４のいずれか一項に記載の画像処理装置。
前記画像情報記憶手段は、前記画像を特定するための情報として、前記画像取得手段によって取得された第１の画像の順番又は該第１の画像の縮小画像を記憶する
ことを特徴とする請求項１から５のいずれか一項に記載の画像処理装置。
前記画像取得手段は、自動文書送り装置を用いて複数の文書を読み込むことによって、複数の第１の画像及び複数の第２の画像を取得し、
前記第２の画像に対応する前記文書は、前記第１の画像に対応する前記文書である
ことを特徴とする請求項３から６のいずれか一項に記載の画像処理装置。
前記画像取得手段は、前記第１の画像の取得条件とは異なる条件によって前記第２の画像を取得する
ことを特徴とする請求項２から７のいずれか一項に記載の画像処理装置。
前記画像情報記憶手段に記憶されている画像を特定するための情報に基づいて、利用者に再度読み込ませるべき画像を選択させるための第３の画像を出力する画像出力手段
をさらに具備し、
前記画像選択手段は、前記画像出力手段によって出力された画像内の前記利用者によって付された符号に基づいて、前記第２の画像を選択する
ことを特徴とする請求項３から８のいずれか一項に記載の画像処理装置。
前記画像取得手段によって取得された第１の画像の特徴を抽出する特徴抽出手段と、
前記特徴抽出手段によって抽出された特徴に基づいて、前記第１の画像内で類似している画像を抽出する類似画像抽出手段
をさらに具備し、
前記画像出力手段は、前記類似画像抽出手段によって抽出された類似する画像を他のものと異なるように出力する
ことを特徴とする請求項９に記載の画像処理装置。
前記画像取得手段によって取得された第１の画像の特徴を抽出する特徴抽出手段と、
前記特徴抽出手段によって抽出された第１の画像の特徴に基づいて、該第１の画像を分類する画像分類手段と、
前記画像取得手段によって取得された第１の画像から切り出すべき領域を前記分類毎に記憶する領域記憶手段
をさらに具備し、
前記画像出力手段は、前記第１の画像に対しての前記画像分類手段による分類結果に基づいて、前記領域記憶手段に記憶されている領域を該第１の画像から切り出して、前記第３の画像を出力する
ことを特徴とする請求項９に記載の画像処理装置。
第１の画像を複数取得する画像取得手段と、
前記画像取得手段によって取得された第１の画像から所定の情報を抽出する情報抽出手段と、
前記情報抽出手段によって所定の情報が抽出されたか否かを判定する抽出情報判定手段と、
前記抽出情報判定手段によって所定の情報が抽出されていないと判定された場合、前記画像取得手段によって取得された第１の画像を記憶する画像情報記憶手段
を具備することを特徴とする画像処理装置。
前記画像取得手段は、第２の画像を取得し、
前記第２の画像は、前記画像情報記憶手段に記憶されている第１の画像と類似しているか否かを判断する類似画像判断手段
をさらに具備し、
前記情報抽出手段は、前記類似画像判断手段によって類似していると判断された前記第２の画像から所定の情報を抽出する
ことを特徴とする請求項１２に記載の画像処理装置。
前記情報抽出手段は、前記第２の画像から抽出した情報を、前記類似画像判断手段によって該第２の画像と類似していると判断された第１の画像の情報として抽出する
ことを特徴とする請求項１３に記載の画像処理装置。
コンピュータを、
第１の画像を複数取得する画像取得手段と、
前記画像取得手段によって取得された第１の画像から所定の情報を抽出する情報抽出手段と、
前記情報抽出手段によって所定の情報が抽出されたか否かを判定する抽出情報判定手段と、
前記抽出情報判定手段によって所定の情報が抽出されていないと判定された場合、その対象とした画像を特定するための情報を記憶する画像情報記憶手段
として機能させることを特徴とする画像処理プログラム。
コンピュータを、
第１の画像を複数取得する画像取得手段と、
前記画像取得手段によって取得された第１の画像から所定の情報を抽出する情報抽出手段と、
前記情報抽出手段によって所定の情報が抽出されたか否かを判定する抽出情報判定手段と、
前記抽出情報判定手段によって所定の情報が抽出されていないと判定された場合、前記画像取得手段によって取得された第１の画像を記憶する画像情報記憶手段
として機能させることを特徴とする画像処理プログラム。