JP2018018303A

JP2018018303A - 情報抽出装置及びこれを備えた画像形成装置

Info

Publication number: JP2018018303A
Application number: JP2016148095A
Authority: JP
Inventors: 山田　篤志; Atsushi Yamada; 篤志山田
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2016-07-28
Filing date: 2016-07-28
Publication date: 2018-02-01
Also published as: CN107665346A; US10452903B2; US20180032809A1

Abstract

【課題】ＰＣを用いずに情報を抽出する領域を容易に設定できるようにする。
【解決手段】情報抽出装置は、記憶部、画像読取装置、制御部を含む。制御部は、参照原稿に基づく参照画像データのうちの彩色領域を認識し、彩色領域の色に基づき彩色領域を第１彩色領域と第２彩色領域に分類し、第１彩色領域を含む特徴画像データと、特徴画像データから第２彩色領域までの距離と方向を示す位置データを記憶部に記憶させ、参照原稿の読み取り後の比較原稿の読み取りで得られた比較画像データ内に特徴画像データとマッチングする領域が含まれているとき、特徴画像データとマッチングする領域の位置と位置データに基づく距離と方向に基づき抽出領域を定め、抽出領域から抽出した抽出情報を記憶部に記憶させる。
【選択図】図５

Description

本発明は、画像データから情報を抽出する装置に関する。

書類のフォーマット（書式）を登録しておき、書類（原稿）のスキャンで得られた画像データのフォーマットが、登録フォーマットと一致するか否かを判定し、登録フォーマットを含む画像データから情報を抽出することがある。このようなフォーマットに基づく情報の抽出に関する技術の一例が特許文献１に記載されている。

具体的に、特許文献１には、記憶されたフォーマットデータを参照して複数のセルがある規則に従って配置されている文書のレイアウトを解析し、各セルに存在する情報のタイプとセル間の隣接関係を規定したフォーマットデータを記憶し、文書のイメージデータを抽出し、イメージデータからの複数のセルの抽出とセル間の隣接関係を求め、文書のセル間の隣接関係をフォーマットデータが規定するセル間の隣接関係と比較し、文書におけるセルのうち対応するフォーマットデータが規定するセルを特定して文書中の情報の配置を特定し、特定された情報の配置に従って文書に含まれる情報を認識するシステムの一例が記載されている。これにより、セルの配置の順序は変わらないがセルの位置、大きさが異なる文書に対応可能なフォーマットを提供しようとする（特許文献１：請求項９、段落［０００８］）。

特開平１０−０６３７４４号公報

帳票のような書類には、例えば、氏名、住所、電話番号のような情報が記載される。書類の画像データから所望の情報を自動的に抽出し、データ化できれば、書類を見ながら入力者が情報をキーボードで手入力する必要がなくなり、便利である。また、書類には、回答者の選択肢の記入欄（回答欄）が設けられることもある。例えば、回答欄は、チェックボックスや丸で囲われる記号を含む。記入者は、該当するボックスへのチェックや、該当する記号を丸で囲む。回答欄でどのような選択がなされているか（どのような記号がどのような位置に記入されているか）の情報を自動的に抽出してまとめることができれば、作業者が書類を１枚ずつめくって選ばれた回答を確認しなくて済む。

従来、書類に含まれる情報を自動抽出するには、書類のフォーマットを定義するための画像データやフォーマットのうち、情報を抽出する領域（情報抽出領域）の位置を情報処理装置に予め登録しておくことが必要である。例えば、フォーマットの画像データをＰＣで閲覧しつつ、マウスのようなポインティングデバイスを用いて矩形の領域を定める操作によって、情報抽出領域が定められる。通常、フォーマットの登録や情報抽出領域の設定作業にはＰＣが用いられる。

また、設定した情報抽出領域にズレがあると、正確に所望の情報を得られない場合がある。そのため、情報抽出領域のサイズや位置を細かく調整できる（設定できる）ようにする場合がある。しかし、ＰＣ上での操作が細かいほど、情報抽出領域の設定操作が難しくなりやすいという問題がある。

特許文献１に記載の技術では、１つのフォーマットデータで、セルの大きさは異なるが隣接関係が同じ文書を識別する点は記載されている。しかし、ＰＣでの利用が前提である。また、情報を抽出する領域を設定する点は記載されていない。従って、特許文献１記載の技術は、上記の問題を解決できない。

本発明は、上記問題点を鑑み、ＰＣを用いずに情報を抽出する領域を容易に設定できるようにする。

上記目的を達成するために請求項１に係る情報抽出装置は、記憶部、画像読取装置、制御部を含む。前記記憶部は、データを記憶する。前記画像読取装置は、原稿を読み取って前記原稿の画像データを生成する。前記制御部は、前記画像読取装置による参照原稿の読み取りで得られた参照画像データのうち、彩色された領域である彩色領域を認識し、前記彩色領域の色に基づき前記彩色領域を第１彩色領域と第２彩色領域に分類し、前記参照画像データから前記第１彩色領域を含む特徴画像データを前記記憶部に記憶させ、前記特徴画像データから前記第２彩色領域までの距離と方向を示す位置データを前記記憶部に記憶させ、前記参照原稿の読み取り後の前記画像読取装置による比較原稿の読み取りで得られた比較画像データ内に前記特徴画像データとマッチングする領域が含まれているか否かを判定し、含まれていると判定したとき、前記比較画像データ内の前記特徴画像データとマッチングする領域の位置と前記位置データに基づく距離と方向に基づき抽出領域を定め、前記抽出領域に含まれる情報を抽出情報として抽出し、前記抽出情報を前記記憶部に記憶させ、含まれていないと判定したとき、前記抽出領域を定めず前記抽出情報を抽出しない。

本発明によれば、マーカーで着色するだけで、情報抽出の対象とする書類（フォーマット）や情報を抽出する領域の位置を容易に設定することができる。また、ＰＣを用いて複雑で細かな操作、作業をしなくてすむ。

実施形態に係る複合機の一例を示す図である。実施形態に係る情報抽出装置での参照原稿の読み取りの流れの一例を示すフローチャートである。実施形態に係る参照原稿の一例を示す図である。実施形態に係る情報抽出モード設定画面の一例を示す図である。実施形態に係る情報抽出装置での比較原稿の読み取りの流れの一例を示すフローチャートである。

以下、図１〜図５を用いて、本発明に係る情報抽出装置１と、情報抽出装置１を含む画像形成装置を説明する。画像形成装置として複合機１００を例に挙げて説明する。但し、本実施の形態に記載されている構成、配置等の各要素は、発明の範囲を限定するものではなく単なる説明例にすぎない。

（複合機１００の概要）
まず、図１を用いて実施形態に係る複合機１００を説明する。図１は、実施形態に係る複合機１００の一例を示す図である。

複合機１００は、制御部２と記憶部３を含む。制御部２は、装置全体の動作を統括し複合機１００の各部を制御する。制御部２はＣＰＵ２１、画像処理部２２、マッチング処理部２３、ＯＣＲ処理部２４を含む。ＣＰＵ２１は、制御に関する演算を行う。画像処理部２２は、ジョブに必要な画像処理を画像データに施す。

マッチング処理部２３は、特徴画像データＤ２と比較画像データＤ４との比較を行う（詳細は後述）。そして、マッチング処理部２３は、特徴画像データＤ２とマッチングする領域（類似度が閾値以上である領域）が比較画像データＤ４に含まれているか否かを判定する。ＯＣＲ処理部２４は、画像データのＯＣＲ処理を行い、画像データからテキストデータを抽出する。記憶部３は、ＲＯＭ、ＲＡＭ、ＨＤＤのような記憶装置を含み、制御用プログラムや各種データを記憶する。

又、制御部２は、画像読取装置４と通信可能に接続される。画像読取装置４は、原稿搬送部４ａ、画像読取部４ｂを含む。原稿搬送部４ａは、セットされた１又は複数枚の原稿を読み取り位置に向けて搬送する。画像読取部４ｂは、光源やイメージセンサーを含むスキャナユニットである。画像読取部４ｂは、原稿搬送部４ａが搬送する原稿や、原稿台（コンタクトガラス）にセットされた原稿を読み取り、画像データを生成する。画像読取部４ｂは、カラーでの読み取りが可能である。制御部２は、原稿搬送部４ａと画像読取部４ｂの動作を制御する。

操作パネル５は、表示パネル５１（メッセージ出力部に相当）、タッチパネル５２、ハードキー５３を含む。制御部２は表示パネル５１の表示を制御する。制御部２は、設定用画面を表示パネル５１に表示させる。制御部２は、タッチパネル５２の出力に基づき、表示パネル５１に表示されたソフトキーのような操作画像のうち操作された画像を認識する。また、制御部２は、操作されたハードキー５３を認識する。制御部２は操作に応じた画面への切替を表示パネル５１に行わせる。制御部２は、操作パネル５でなされた設定操作の内容を認識し、設定どおりに動作するように複合機１００を制御する。

又、複合機１００は、印刷部６を含む。印刷部６は、給紙部６ａ、搬送部６ｂ、画像形成部６ｃ、中間転写部６ｄ、定着部６ｅを含む。制御部２は、印刷ジョブのとき用紙を一枚ずつ給紙部６ａに供給させる。制御部２は、用紙を画像形成部６ｃ、定着部６ｅを経て機外（排出トレイ）まで搬送部６ｂに搬送させる。制御部２は、搬送部６ｂより搬送される用紙にのせるトナー像を画像形成部６ｃに形成させる。制御部２は、画像形成部６ｃで形成されたトナー像の中間転写ベルトへの一次転写を中間転写部６ｄに行わせ、中間転写ベルト上のトナー像の用紙への二次転写を中間転写部６ｄに行わせる。制御部２は、用紙の加熱、加圧を定着部６ｅに行わせる。これにより、トナー像は用紙に定着する。印刷済用紙は搬送部６ｂにより排出トレイに排出する。

又、複合機１００は通信部２５を含む。通信部２５は、ＰＣやサーバーのようなコンピューター２００と通信するためのインターフェイスである。通信部２５は、コンピューター２００から画像データのような印刷内容を示すデータや印刷に関する設定を示すデータを含むジョブ用データを受信する。制御部２は、ジョブ用データに基づく印刷を印刷部６に行わせる。

（参照原稿７の読み取り）
次に、図２〜図４を用いて、実施形態に係る情報抽出装置１での参照原稿７の読み取りの流れの一例を説明する。図２は、実施形態に係る情報抽出装置１での参照原稿７の読み取りの流れの一例を示すフローチャートである。図３は実施形態に係る参照原稿７の一例を示す図である。図４は、実施形態に係る情報抽出モード設定画面Ｓ１の一例を示す図である。

原稿から情報の抽出を行うモードとするための操作を操作パネル５に行うことにより、複合機１００は、情報抽出モードとなる。この情報抽出モードのとき、記憶部３、画像読取装置４、制御部２、操作パネル５は情報抽出装置１として機能する。言い換えると、複合機１００は、情報抽出装置１を含む。

情報抽出モードでは、情報の抽出が行われる。情報を抽出する原稿を読み取る前に、１枚の参照原稿７を読み取る。参照原稿７は、これから情報を抽出しようとする書類のフォーマットの原稿であって、使用者に彩色された原稿である。参照原稿７の読み取りの後、情報を抽出する原稿の読み取りと、読み取りで得られた画像データからの情報を抽出する処理がなされる（情報の抽出の詳細は後述）。

図２のフローチャートを用いて、参照原稿７の読み取りを説明する。図２のスタートは、情報抽出モードを利用する操作が操作パネル５になされた時点である。情報抽出モードの開始に伴い、使用者によって参照原稿７が原稿搬送部４ａ又は画像読取部４ｂにセットされる（ステップ♯１１）。

図３は、参照原稿７の一例を示す図である。図３は、ある申請書の一例を示す。参照原稿７は、情報を抽出しようとする書類のフォーマットを有する原稿から１枚を選び出したものである。参照原稿７は、情報を抽出しようとする書類と同じフォーマットを有し、情報の記入欄が空欄状態の用紙（未記入用紙）でもよい。参照原稿７は１枚あればよい。

使用者は、枠線や表題や様式番号のようなフォーマットの特徴点（特徴箇所７１）を有彩色のマーカーで彩色する。使用者は、フォーマット内で抽出しようとする情報が記載された部分（情報箇所７２）を特徴箇所７１と異なる色であって有彩色のマーカーで彩色する。例えば、マーカーは、蛍光ペンである。マーカーには、特徴箇所７１の文字、図形、記号が識別不能とならない程度の濃さのものを利用できる。例えば、特徴箇所７１を緑の蛍光ペン、情報箇所７２を青の蛍光ペンで彩色する。

図３の各図は、「○○申請書」という標題部分を特徴箇所７１として彩色し、氏名の欄を情報箇所７２として彩色する例を示す。

図３の左側の図に示すように、特徴箇所７１の色として選択した色のマーカーで特徴箇所７１とする領域を塗りつぶしてもよい。また、情報箇所７２の色として選択した色のマーカーで情報箇所７２とする領域を塗りつぶしてもよい。

また、図３の右側の図に示すように、特徴箇所７１の色として選択した色のマーカーを用いて、特徴箇所７１とする領域を線で囲ってもよい。また、情報箇所７２の色として選択した色のマーカーを用いて情報箇所７２とする領域を線で囲ってもよい。この場合、使用者は、特徴箇所７１又は情報箇所７２とする枠線や、文字、図形、記号の周囲をマーカーでなぞる。マーカーの線内は塗りつぶさなくてもよい。

制御部２は、セットされた参照原稿７を画像読取装置４に読み取らせる（ステップ♯１２）。続いて、制御部２は、参照原稿７の読み取りで得られた画像データ（参照画像データＤ１、参照原稿７をカラーで読み取って得られた画像データ）を記憶部３に記憶させる（ステップ♯１３）。

制御部２（画像処理部２２）は、参照画像データＤ１のうち彩色された領域（彩色領域、有彩色の領域）を認識する（ステップ♯１４）。彩色領域の色に基づき、制御部２は、彩色領域を特徴箇所７１を含む第１彩色領域７１ａと、情報箇所７２を含む第２彩色領域７２ａに分類する（ステップ♯１５）。図３の例で言えば、制御部２は、「○○申請書」の文字を含むように彩色された領域を第１彩色領域７１ａに分類する。また、制御部２は、氏名記入欄の領域を第２彩色領域７２ａに分類する。

具体的に、制御部２（画像処理部２２）は、参照画像データＤ１内の各画素の画素値を確認し、特徴箇所７１の色として選択された色に対応する画素値の画素で塗られている（覆われている）領域、または、特徴箇所７１の色として選択された色に対応する画素値の色の線で囲まれている領域（輪郭内の領域）を第１彩色領域７１ａと認識する。

また、制御部２（画像処理部２２）は、参照画像データＤ１内の各画素の画素値を確認し、情報箇所７２の色として選択された色に対応する画素値の画素で塗られている（覆われている）の領域、または、情報箇所７２の色として選択された色に対応する画素値の色の線で囲まれている領域（輪郭内の領域）を第２彩色領域７２ａと認識する。

ここで、図４に示すように、特徴箇所７１を彩色する色（第１彩色領域７１ａに分類する色）と情報箇所７２を彩色する色（第２彩色領域７２ａに分類する色）を設定できるようにしてもよい。図４は、情報抽出モード設定画面Ｓ１の一例を示す。操作パネル５の画面に所定の操作が行われたとき、制御部２は、情報抽出モード設定画面Ｓ１を表示パネル５１に表示させる。情報抽出モード設定画面Ｓ１には、複数の色選択キーＫ１が設けられる。制御部２は、色選択キーＫ１への操作に基づき、特徴箇所７１と情報箇所７２を彩色する色を認識する。

桃、赤、黄、青、緑、橙、紫のような各色選択キーＫ１に対応する色ごとに、その色と扱う画素値の組み合わせが予め定められ、組み合わせを定義したデータが記憶部３に記憶される。２４ビットのＲＧＢ形式において、例えば緑色の場合、Ｒ：Ｇ：Ｂ＝１０３：２２８：１２６（薄緑）、１１：２１８：８１（マラカイトグリーン）、１２７：２４６：８５（萌葱）のような緑色と扱う値の組み合わせが予め定められる。

そして、制御部２は、参照画像データＤ１のうち、第１彩色領域７１ａに基づいて特徴画像データＤ２と扱う部分を定める（ステップ♯１６）。そして、制御部２は、特徴画像データＤ２を記憶部３に記憶させる（ステップ♯１７）。

制御部２は、第１彩色領域７１ａそのものを特徴画像データＤ２として記憶部３に記憶させてもよい。また、第１彩色領域７１ａが枠内に含まれている場合もある。そこで、制御部２は、第１彩色領域７１ａを含む枠内の全領域を特徴画像データＤ２として記憶部３に記憶させてもよい。例えば、制御部２（画像処理部２２）は、参照画像データＤ１のうち、所定値以上の濃さの画素値が所定の長さ以上連続する直線を罫線と認識し、複数本（４本）の罫線で閉じられた領域を枠と認識する。

蛍光ペンは画像データで濃く現れにくい傾向はある。しかし、マーカーによる彩色のため、特徴画像データＤ２の各画素の画素値は、彩色されていない参照原稿（彩色されていない同じフォーマットの原稿）には含まれない色成分を含む。そこで、制御部２は、特徴画像データＤ２の色の調整を行ってもよい。調整を行う場合、マーカーの彩色のために加わっている色成分を除去するため、例えば、制御部２の画像処理部２２は、特徴画像データＤ２の画素の色味を補正する。どの色の濃度をどれだけ弱めるかというような色味の補正処理の内容は、特徴箇所７１の指定に用いた色ごと定めればよい。

また、制御部２は、第２彩色領域７２ａの位置に基づき、特徴画像データＤ２から第２彩色領域７２ａまでの距離と方向を示す位置データＤ３を記憶部３に記憶させる（ステップ♯１８）。なお、以降の処理では参照画像データＤ１を用いないので、制御部２は参照画像データＤ１を記憶部３に消去させる（ステップ♯１９）。そして、参照原稿７の読み取りに関する処理は終了する（エンド）。

制御部２は、特徴画像データＤ２中の特定位置の画素を第１基準画素とし、第２彩色領域７２ａ中の特定位置の画素を第２基準画素とし、第１基準画素から第２基準画素までの距離と方向を示すデータを位置データＤ３として記憶させる。特定位置は適宜定めることができる。特定位置は、特徴画像データＤ２や第２彩色領域７２ａの中心でもよいし、右上、右下、左上、左下のような隅を特定位置としてもよい。制御部２は、第１基準画素に対し、第２基準画素は、上（又は下）方向に何画素、左（又は右）方向に何画素ずれているというように、特徴画像データＤ２と第２彩色領域７２ａの相対的な位置（座標）の差を位置データＤ３と記憶させてもよい。

（比較原稿の読み取りと情報抽出）
次に、図５を用いて、実施形態に係る情報抽出装置１での比較原稿の読み取りの流れの一例を説明する。図５は、実施形態に係る情報抽出装置１での比較原稿の読み取りの流れの一例を示すフローチャートである。

以下、比較原稿の読み取りと、比較原稿の読み取りで得られた画像データからの情報の抽出を説明する。比較原稿は、画像読取装置４（原稿搬送部４ａ）にセットされる。使用者は、参照原稿７と同じフォーマットの書類のみの束を比較原稿としてセットしてもよい。また、比較原稿の束のなかに参照原稿７と異なるフォーマットの原稿が含まれていてもよい。例えば、複数種の書類を含む書類ファイルから取り出した全書類を原稿搬送部４ａにそのままセットしてもよい。図５のフローチャートでは、原稿搬送部４ａに複数枚の原稿束をセットしてデータ抽出を行う例を説明する。

図５のスタートは、図２のフローチャートが完了した時点（参照原稿７の読み取りが完了した時点）である。参照原稿７の読み取り完了に伴い、使用者によって比較原稿が原稿搬送部４ａにセットされる（ステップ♯２１）。なお、図２のステップ♯１１の段階で、参照原稿７を１枚目とし、２枚目以降を比較原稿とした原稿束を原稿搬送部４ａにセットするようにしてもよい。

原稿搬送部４ａは、原稿が載置される原稿トレイ（不図示）を含む。原稿搬送部４ａには原稿セットセンサー４１（図１参照）が設けられる。原稿セットセンサー４１は、例えば、光センサーである。原稿セットセンサー４１の出力値のレベルは、原稿トレイに原稿がセットされているときと、セットされていないときで異なる。制御部２は、原稿セットセンサー４１の出力に基づき、原稿搬送部４ａ（原稿トレイ）に原稿がセットされているか否かを認識する。

制御部２は、セットされた比較原稿を１枚、原稿搬送部４ａに搬送させ、画像読取部４ｂに搬送されている比較原稿を読み取らせる（ステップ♯２２）。なお、原稿搬送部４ａは、読み取った比較原稿を排出トレイ（不図示）に排出する。また、制御部２は、比較原稿の読み取りで得られた画像データ（比較画像データＤ４、比較原稿を読み取って得られた画像データ）を記憶部３に記憶させる（ステップ♯２３）。

そして、制御部２（マッチング処理部２３）は、比較画像データＤ４に特徴画像データＤ２とマッチングする領域が含まれるか否かを判定する（ステップ♯２４）。例えば、マッチング処理部２３は、特徴画像データＤ２をテンプレートとするテンプレートマッチングを行ってもよい。テンプレートマッチングを行う場合、マッチング処理部２３は、特徴画像データＤ２をテンプレートとし、比較画像データＤ４上で移動させつつ、比較画像データＤ４の画素と特徴画像データＤ２の画素を比較し、類似度が最大となる位置を求める。そして、マッチング処理部２３は、類似度が最大となる位置での類似度が所定値以上のとき、比較画像データＤ４に特徴画像データＤ２とマッチングする領域が含まれると判定し、所定値未満のとき、比較画像データＤ４に特徴画像データＤ２とマッチングする領域が含まれないと判定する。また、マッチング処理部２３は、特徴画像データＤ２と比較画像データＤ４のそれぞれから予め定められた条件に合致する特徴点を検出し、特徴点の配置に基づきマッチングを行ってもよい。

更に、マッチングの判定に制御部２のＯＣＲ処理部２４を用いてもよい。この場合、ＯＣＲ処理部２４は、比較画像データＤ４と特徴画像データＤ２のそれぞれに含まれる文字や数字のような情報をＯＣＲ処理部２４にテキストデータ化させる。特徴画像データＤ２から抽出されたテキスト列と同じテキスト列が比較画像データＤ４から抽出されたテキストに含まれているとき、制御部２（マッチング処理部２３）は、比較画像データＤ４に特徴画像データＤ２とマッチングする領域が含まれると判定する。特徴画像データＤ２から抽出されたテキスト列と同じテキスト列が比較画像データＤ４から抽出されたテキストに含まれていないとき、制御部２は、比較画像データＤ４に特徴画像データＤ２とマッチングする領域が含まれないと判定する。

判定結果に基づき、制御部２は、比較原稿が参照原稿７と同じフォーマットの書類であるか否かを確認する（ステップ♯２５）。比較画像データＤ４に特徴画像データＤ２とマッチングする領域が含まれるとき（ステップ♯２５のＹｅｓ）、制御部２は、同じフォーマットの書類と判断する。比較画像データＤ４に特徴画像データＤ２とマッチングする領域が含まれないとき（ステップ♯２５のＮｏ）、制御部２は、異なるフォーマットの書類と判断する。

同じフォーマットのとき（ステップ♯２５のＹｅｓ）、比較画像データＤ４中の特徴画像データＤ２とマッチングした領域（特徴画像データＤ２と最もマッチングした領域）と位置データＤ３に基づき、制御部２は、抽出領域を定める（ステップ♯２６）。

例えば、制御部２は、マッチングした領域のうちの特定位置の画素（第３基準画素）から位置データＤ３で示される距離、方向分、移動した先の画素を抽出領域の特定位置の画素（第４基準画素）と定める。言い換えると、第３基準画素と第４基準画素の相対的な位置関係と、第１基準画素と第２基準画素の相対的な位置関係を同じにする。

そして、制御部２は、第４基準画素が抽出領域の特定位置の画素となるように、かつ、第２彩色領域７２ａと同じ面積（広さ）となるように抽出領域を定めてもよい。また、第４基準画素が枠内の画素のとき、制御部２は、第４基準画素が含まれる枠内の全領域を抽出領域と定めてもよい。この場合、抽出領域は、第２彩色領域７２ａより広くてもよい。

そして、制御部２は、抽出領域に含まれる情報を抽出し、抽出情報Ｄ５を記憶部３に記憶させる（ステップ♯２７）。制御部２は、抽出領域の画像データを抽出情報Ｄ５として記憶部３に記憶させてもよい。また、制御部２は、抽出領域の画像データに対して、ＯＣＲ処理部２４がＯＣＲ処理を行うことにより得られたテキストデータを抽出情報Ｄ５として記憶部３に記憶させてもよい。また、制御部２は、画像データとテキストデータの両方を記憶部３に記憶させてもよい。なお、図４に示すように、情報抽出モード設定画面Ｓ１にチェックボックスＣ１、Ｃ２を設け、画像データとテキストデータのうちいずれを抽出情報Ｄ５として記憶部３に記憶させるか、操作パネルで予め設定できるようにしてもよい。

比較原稿のうち、所望の領域に印刷されている情報や、所望の領域に手書きで記入された情報を自動的にデータ化することができる。そして、制御部２は、抽出情報Ｄ５が抽出された旨のメッセージを表示パネル５１に表示出力させる（ステップ♯２８）。

一方、比較画像データＤ４に特徴画像データＤ２とマッチングする領域が含まれないとき（ステップ♯２５のＮｏ）、制御部２は、読み取った比較原稿は参照原稿７と同じフォーマットではないと判定する（ステップ♯２９）。そして、制御部２は、抽出情報Ｄ５が抽出されなかった旨のメッセージを表示パネル５１に表示出力させる（ステップ♯２１０）。

ステップ♯２８及びステップ♯２１０の後、制御部２は、原稿セットセンサー４１の出力に基づき、読み取るべき比較原稿が残っているかを確認する（ステップ♯２１１）。比較原稿が残っていないとき（ステップ♯２１１のＮｏ）、本フローは終了する（エンド）。なお、参照原稿７のときと同様に、制御部２は、全ての比較画像データＤ４を記憶部３に消去させてもよい。

一方、比較原稿が残っているとき（ステップ♯２１１のＹｅｓ）、制御部２は、次の比較原稿の給紙を原稿搬送部４ａに開始させる（ステップ♯２１２）。そして、フローは、ステップ♯２２に戻る。

（抽出情報Ｄ５の出力）
次に、図１を用いて、比較原稿から抽出した抽出情報Ｄ５の出力を説明する。

情報抽出装置１（複合機１００）では、データ化された抽出情報Ｄ５を印刷出力することができる。抽出情報Ｄ５の印刷出力を指示する操作が操作パネル５になされたとき、制御部２は、データ化された抽出情報Ｄ５を印刷部６に印刷させる。

また、情報抽出装置１（複合機１００）では、通信部２５を介し、コンピューター２００にデータ化された抽出情報Ｄ５を送信出力することができる。抽出情報Ｄ５の送信出力を指示する操作が操作パネル５になされたとき、制御部２は、指定されたコンピューター２００に向けて、データ化された抽出情報Ｄ５を通信部２５に送信させる。抽出情報Ｄ５がテキストデータ化されている場合、送信する抽出情報Ｄ５の形式は、ＣＳＶファイルのようなデータ編集に用いやすいデータ形式としてもよい。なお、図４に示すように、情報抽出モード設定画面Ｓ１に送信先設定欄Ｃ３を設け、送信先のコンピューター２００を予め設定できるようにしてもよい。

このようにして、実施形態に係る情報抽出装置１は、記憶部３、画像読取装置４、制御部２を含む。記憶部３は、データを記憶する。画像読取装置４は、原稿を読み取って原稿の画像データを生成する。制御部２は、画像読取装置４による参照原稿７の読み取りで得られた参照画像データＤ１のうち、彩色された領域である彩色領域を認識し、彩色領域の色に基づき彩色領域を第１彩色領域７１ａと第２彩色領域７２ａに分類し、参照画像データＤ１から第１彩色領域７１ａを含む特徴画像データＤ２を記憶部３に記憶させ、特徴画像データＤ２から第２彩色領域７２ａまでの距離と方向を示す位置データＤ３を記憶部３に記憶させ、参照原稿７の読み取り後の画像読取装置４による比較原稿の読み取りで得られた比較画像データＤ４内に特徴画像データＤ２とマッチングする領域が含まれているか否かを判定し、含まれていると判定したとき、比較画像データＤ４内の特徴画像データＤ２とマッチングする領域の位置と位置データＤ３に基づく距離と方向に基づき抽出領域を定め、抽出領域に含まれる情報を抽出情報Ｄ５として抽出し、抽出情報Ｄ５を記憶部３に記憶させ、含まれていないと判定したとき、抽出領域を定めず抽出情報Ｄ５を抽出しない。

これにより、参照原稿７にマーカー（蛍光ペンのような筆記具）で色を付すだけで書類のフォーマット（書式）を識別するための特徴部分（特徴画像データＤ２）を指定することができる。また、参照原稿７にマーカーで色を付すだけで情報を抽出する領域を指定することができる。従って、比較原稿の束に複数のフォーマットの書類が混在していても、比較原稿のうち、参照原稿７と同じフォーマットの原稿のみから、第２彩色領域７２ａに対応する色で彩色した場所に位置する情報を抽出することができる。このように、情報を抽出するフォーマットの指定とフォーマット内で情報を抽出する領域の指定にＰＣを用いる必要がない。また、マーカーで色を参照原稿７に付けるだけでよいので、フォーマットと情報抽出領域の指定を容易に行うことができる。

また、罫線機能の豊富なワープロソフトとして表計算ソフトを用いて書類が作成されることがある。例えば、セルを方眼紙のマスのように扱ったり、セルの結合を駆使したりして視覚的な美しさ（見栄え）が優先して書類が作成されることがある。見栄えを優先して作られた書類は、表計算ソフトで作成されているのに、データの再利用性が極めて低い。例えば、ＣＳＶファイル化した場合、セル結合や罫線が消え、意味がとれなくなる。しかし、このような見栄えを優先して作られた書類でも、表計算ソフトで作成されたファイルの解析や加工を行わなくても、特定のフォーマットの書類から所望の情報を抽出することができる。

また、情報抽出装置１は、参照原稿７の読み取り後、比較原稿の読み取りごとに抽出情報Ｄ５が抽出されたか否かを示すメッセージを出力するメッセージ出力部（表示パネル５１）を含む。これにより、画像読取装置４が読み取った原稿のうち、どの原稿で情報が抽出され、どの原稿で情報が抽出されなかったかを使用者に示すことができる。使用者は、参照原稿７と同じフォーマットの書類で情報の抽出漏れがあったことや、参照原稿７と異なるフォーマットの書類から誤って情報が抽出されたことを認識できる。

また、制御部２は、抽出領域の画像データと、抽出領域の画像データに対してＯＣＲ処理を行って得られたテキストデータの何れか一方又は両方を抽出情報Ｄ５として記憶部３に記憶させる。これにより、比較原稿内の所望の領域に記された情報を、画像データやテキストデータとして抽出することができる。

また、制御部２は、第２彩色領域７２ａと同じ大きさ又は第２彩色領域７２ａよりも広い領域を抽出領域と定める。これにより、比較原稿から所望の情報を正確に抽出することができる。

また、制御部２は、枠を基準に特徴画像データＤ２の範囲及び抽出領域を定める。これにより、枠内の情報を漏れなく抽出することができる。

また、操作パネル５は、第１彩色領域７１ａと分類する色と、第２彩色領域７２ａと分類する色の設定を受け付ける。制御部２は、操作パネル５で設定された色に基づき、第１彩色領域７１ａと第２彩色領域７２ａを分類する。これにより、特徴画像データＤ２の指定に用いる色を設定することができる。また、情報を抽出する領域を指定するために用いる色を設定することができる。従って、使用者は、所望の色のマーカーを用いて書類から情報を抽出することができる。

また、画像形成装置は、情報抽出装置１を含む。書類の束に複数種の書類が混ざっていても、所望のフォーマットの書類から、所望の情報を抽出する画像形成装置を提供することができる。

以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で種々の変更を加えて実施することができる。

本発明は、原稿を読み取る画像読取装置を含む装置に利用可能である。

１００複合機（画像形成装置）１情報抽出装置
２制御部２３マッチング処理部
２４ＯＣＲ処理部３記憶部
４画像読取装置４ａ原稿搬送部
４ｂ画像読取部５操作パネル
５１表示パネル（メッセージ出力部）７参照原稿
７１ａ第１彩色領域７２ａ第２彩色領域
Ｄ１参照画像データＤ２特徴画像データ
Ｄ３位置データＤ４比較画像データ
Ｄ５抽出情報

Claims

データを記憶する記憶部と、
原稿を読み取って前記原稿の画像データを生成する画像読取装置と、
前記画像読取装置による参照原稿の読み取りで得られた参照画像データのうち、彩色された領域である彩色領域を認識し、前記彩色領域の色に基づき前記彩色領域を第１彩色領域と第２彩色領域に分類し、前記参照画像データから前記第１彩色領域を含む特徴画像データを前記記憶部に記憶させ、前記特徴画像データから前記第２彩色領域までの距離と方向を示す位置データを前記記憶部に記憶させ、前記参照原稿の読み取り後の前記画像読取装置による比較原稿の読み取りで得られた比較画像データ内に前記特徴画像データとマッチングする領域が含まれているか否かを判定し、含まれていると判定したとき、前記比較画像データ内の前記特徴画像データとマッチングする領域の位置と前記位置データに基づく距離と方向に基づき抽出領域を定め、前記抽出領域に含まれる情報を抽出情報として抽出し、前記抽出情報を前記記憶部に記憶させ、含まれていないと判定したとき、前記抽出領域を定めず前記抽出情報を抽出しない制御部と、を含むことを特徴とする情報抽出装置。
前記参照原稿の読み取り後、前記比較原稿の読み取りごとに前記抽出情報が抽出されたか否かを示すメッセージを出力するメッセージ出力部を含むことを特徴とする請求項１に記載の情報抽出装置。
前記制御部は、前記抽出領域の画像データと、前記抽出領域の画像データに対してＯＣＲ処理を行って得られたテキストデータの何れか一方又は両方を前記抽出情報として前記記憶部に記憶させることを特徴とする請求項１又は２に記載の情報抽出装置。
前記制御部は、前記第２彩色領域と同じ大きさ又は前記第２彩色領域よりも広い領域を前記抽出領域と定めることを特徴とする請求項１乃至３の何れか１項に記載の情報抽出装置。
前記制御部は、枠を基準に前記特徴画像データの範囲及び前記抽出領域を定めることを特徴とする請求項１乃至４の何れか１項に記載の情報抽出装置。
前記第１彩色領域と分類する色と、前記第２彩色領域と分類する色の設定を受け付ける操作パネルを含み、
前記制御部は、前記操作パネルで設定された色に基づき、前記第１彩色領域と前記第２彩色領域を分類することを特徴とする請求項１乃至５の何れか１項に記載の情報抽出装置。
請求項１乃至６の何れか１項に記載の情報抽出装置を含むことを特徴とする画像形成装置。