JP4724428B2 - 画像読み取り装置および画像処理方法 - Google Patents

画像読み取り装置および画像処理方法 Download PDF

Info

Publication number
JP4724428B2
JP4724428B2 JP2005023178A JP2005023178A JP4724428B2 JP 4724428 B2 JP4724428 B2 JP 4724428B2 JP 2005023178 A JP2005023178 A JP 2005023178A JP 2005023178 A JP2005023178 A JP 2005023178A JP 4724428 B2 JP4724428 B2 JP 4724428B2
Authority
JP
Japan
Prior art keywords
document
pages
image
page
scanning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005023178A
Other languages
English (en)
Other versions
JP2006155550A (ja
Inventor
尚司 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005023178A priority Critical patent/JP4724428B2/ja
Priority to US11/275,737 priority patent/US7933048B2/en
Publication of JP2006155550A publication Critical patent/JP2006155550A/ja
Application granted granted Critical
Publication of JP4724428B2 publication Critical patent/JP4724428B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

本発明は、帳票原稿を読み取り可能な画像読み取り装置、画像処理方法に関するものである。
従来よりさまざまな業務において、情報の伝達、保存には紙の帳票を用いるのが一般的だが、これを電子化しコンピュータシステムで取り扱えるようにして業務の効率を上げる努力がなされてきている。
そして、紙の帳票を電子化する際には、スキャナを用いてビットマップイメージを作成するが、帳票そのままのイメージとして扱うと容量が大きく、また再利用が困難であるため、これをテキスト化し情報の扱いを容易にするシステムがOCR(Optical Character Recognition)システムである。
このOCRシステムにおいては、帳票の定型パターンが決まっていることを利用して、文字認識率を上げる工夫がなされている。例えばページ上のどの位置にどのパターンの文字が書かれているかをあらかじめテンプレートとして用意しておけば、文字認識時の選択の幅が縮まるので文字認識率が飛躍的に向上する。
1帳票が1ページから構成されるのであればテンプレートを使用した処理は容易だが、実際には書き込み位置が異なる複数のページからなるものが一般的であり、1帳票あたりに複数ページ分のテンプレートが用意され、いくつかの処理方法が取られている。
具体的には、(1)スキャナから1帳票だけ読込み、その帳票単位でテキスト化するもの、(2)ドキュメントフィーダから一括してスキャンし、ページ単位でどのページかを自動的に判断し(一般に帳票認識と呼ばれる)最適なテンプレートを選択するもの、(3)一般に、ドキュメントフィーダから一括して複数の帳票を読み込ませるもの等がある。なお、(3)の場合は、全て同じ形式の帳票であることが多い。
特開2004−005268号公報
しかしながら、上記方法(1)においては、確実に該当するページのテンプレートを用いることができるが、スキャナの操作を一帳票単位ごとに行わなければならないため、処理の時間と人手がかかる。
上記方法(2)の方法においては、ドキュメントフィーダを用いることで大量のドキュメントを一括読込みすることができ、処理の手間が軽減できる。ところが、帳票認識において、用意されているページのテンプレート全てから最適なものを選ぶため、どのページかを誤認識しやすく、また非常に処理が重くなり時間がかかってしまう。
また、原稿が紙として用意されているのではなく、PDFファイルやアプリケーションファイルで用意されていて帳票原稿の作成者が各自印刷する、といった場合には、作成者の環境によって片面と両面のいずれの形で帳票原稿として作成されるかわからないケースがある。このような場合、上記方法(3)の方法においては、同じ形式の帳票であっても、単純にOCR処理をかけるわけにはいかず、白紙ページ除去などの前処理を行う必要がある。さらに、上記方法(3)の方法においては、一括読込みの際、ある帳票の途中で区切られたら、OCR処理の帳票単位にまとめようとした際に、次の一括読込みの処理とOCR処理が終わるまで待たされる、といった問題もある。
本発明は、上記の課題を解決するためになされたもので、本発明の目的は、複数の帳票種別を含む帳票原稿を一括して読み取る場合に、サーバ側での帳票認識処理負担を大幅に軽減できる帳票原稿データをサーバ装置に転送できる仕組みを提供することである。
上記目的を達成する本発明の画像読取り装置は以下に示す構成を備える。
帳票原稿を読み取って得られる画像情報をネットワークを介してサーバ装置に転送可能な画像読取り装置であって、複数のページから構成される帳票種別に対応し、少なくとも前記帳票種別のページ数を含む帳票構成情報を記憶する帳票情報記憶手段と、読み取る帳票原稿の帳票の種別を指定する指定手段と、前記指定手段により指定された帳票種別のページ数を、前記帳票情報記憶手段に記憶されている前記情報構成情報に基づいて取得する取得手段と、複数の帳票を含む帳票原稿をページ単位にスキャンして帳票原稿データを生成するスキャン手段と、前記取得手段により取得された前記帳票種別のページ数に基づいて、前記スキャン手段により生成された帳票原稿データを1帳票分のページ数からなる帳票原稿データに分割する分割手段と、前記分割手段により分割されたそれぞれの帳票原稿データに対して、前記帳票構成情報を割り当て、前記サーバに送信する送信手段と、を有することを特徴とする。
本発明によれば、画像読取り装置側でサーバ装置側での帳票認識処理負担を大幅に軽減できる帳票データを効率よく生成することができる。
また、サーバ装置側で帳票認識処理負担を大幅に軽減した文字認識処理を行い、短時間に効率的に帳票データを電子化して蓄積することができる。
さらに、画像読取り装置側でサーバ装置側での帳票認識処理負担を大幅に軽減できる帳票データを効率よく生成し、該生成された帳票データをサーバ装置が取得して、帳票認識処理負担を大幅に軽減した文字認識処理を行い、短時間に効率的に帳票データを電子化して蓄積するシステムを自在に構築できる。
次に本発明を実施するための最良の形態について図面を参照して説明する。
〔第1実施形態〕
図1は、本発明の第1実施形態を示す画像読取り装置およびサーバ装置を適用可能な画像処理システムの構成を説明するブロック図である。なお、本実施形態では、画像読取り装置として、マルチファンクション装置を例とするが、ネットワーク通信機能を備えているスキャナ装置であっても、本発明を適用可能である。
図1において、110はマルチファンクション装置(MFP)で、スキャン機能、プリント機能、コピー機能等を備える。120はサーバ装置(サーバ)で、帳票認識処理およびOCR処理を行う。130はクライアントPCで、サーバ120での帳票認識およびOCRの処理結果を確認したり修正したりする。
140はクライアントPCで、クライアントPC130での確認・修正結果を承認する。150は業務用サーバであり、クライアントPC140で承認された電子データを使用する。なお、MFP110、サーバ120、クライアントPC130,業務用サーバ150はそれぞれネットワークを介して通信可能に構成されている。
図2は、図1に示したMFP110とサーバ120の原稿処理状例を説明する概略図であり、MFP110のスキャナ機能を利用して原稿画像を読み取り、サーバ120へ読み取った画像データを転送する原稿処理例に対応する。
図2において、111はスキャナで、ドキュメントフィーダ113から給送される原稿の各ページを読み取り、帳票データの一例であるページ単位にビットマップ化したイメージデータのイメージファイル300をサーバ120へ転送する。なお、イメージファイル300は、ビットマップデータだけでなく、JPEGやTIFFなど、圧縮済のイメージデータなどで構成されてもよい。
112はパネルで、MFP110に対する機能設定や読取り処理等の指示を行うキーとディスプレイ等から構成されている。113はドキュメントフィーダで、複数部の帳票を1ページずつスキャナ111に送り込む。210、220、230、240、250、260はそれぞれ同じフォーマットの帳票である。なお、帳票210は、複数のページ、例えば1〜3頁の帳票211、212、213から構成されている。
また、現在ドキュメントフィーダ113上には、帳票210から帳票260までの複数帳票の束がドキュメントフィーダ113にセットされている。
300はイメージファイルで、帳票210、220、230、240、250、260からスキャンされて、コントローラ部CONT1の内部メモリに一時的に蓄積したり、HD110A内に蓄積される。
310はイメージ帳票で、内部メモリ上に蓄積されたイメージファイル300からコントローラ部CONT1のCPUまたは図示しない画像処理プロセッサ等により帳票単位(帳票210、220、230、240、250、260)に切り出される。121は例えばハードディスク(HD110A)で構成されるイメージ帳票スプーラで、サーバ120内に設けられる。
320は帳票パターン情報テーブルで、読み込み得る帳票に関するページ構成情報等を持つ。データ処理装置で作成、保存され、適当なタイミングでネットワークを介してMFP110へダウンロードされる。
なお、MFP110内で切り出されたイメージ帳票310がイメージ帳票スプーラ121に対してネットワーク経由で送られる。この際、コントローラ部CONT1がイメージ帳票ファイルを所定の圧縮形式データ圧縮処理を行い、サーバ装置120で該圧縮されたイメージ帳票ファイルを解凍して処理することは任意である。
サーバ装置120には、CPU,RAM,ROM等を含むコントローラ部CONT2を備え、図示しないネットワークコントローラを介してネットワーク上のクライアントPCやMFP110と通信可能に構成され、後述するフローチャートの手順に従い、MFP110から取得するイメージ帳票310をネットワークを介して取得し、ハードディスク(HD)120A内に帳票種別毎のフォームテンプレートを参照してOCR処理を行い、電子化帳票を生成する。なお、生成された電子化帳票を、所定の電子文書形式(例えばPDF形式)や、業務に汎用のアプリケーションに対応付けられた文書ファイルに変換してスプールするように構成してもよい。
また、コントローラ部CONT2は、ハードディスク(HD)120A内の帳票認識処理プログラムを実行して、イメージ帳票310から帳票認識処理を行うことも可能に構成されている。
さらに、ハードディスク120Aは、イメージ帳票、フォームテンプレート、電子化帳票等を記憶するスプーラとしても機能する。
なお、上記実施形態では、パネル112から帳票種別を指定入力する場合を説明するが、ネットワーク上のクライアントPC130、140から指定される構成であっても構わない。
また、MFP110のコントローラ部CONT1が、サーバ装置120より帳票エラー通知がなされる場合を考慮して、生成されたイメージ帳票をHD110Aに保持して、そのエラーがページ構成の順序が異なる場合には、そのページ順序を入れ替え等を行い、再度サーバ装置120に転送制御するように構成してもよい。
図3は、図1に示したサーバ120のデータ処理例を説明する概略図であり、図2と同一のものには同一の符号を付してある。
図3において、イメージ帳票スプーラ121内のイメージ帳票310が、イメージページ311、312、313から構成されている。
122はOCR処理部で、図示しない外部記憶装置に記憶されたOCRモジュールを図示しないワークメモリ上に読み込んで、イメージページ311、312、313に対してOCR処理を実行する。
123はフォームテンプレート部で、ユーザ等から登録されたフォームテンプレートが複数登録されており、OCR処理部122がそのフォームテンプレートを参照可能に構成されている。
410は電子化帳票Aであり、OCR処理部122でOCR処理済みのテキストページ411、412、413から構成されている。124は電子化帳票スプーラで、電子化帳票を蓄積する。
図4は、図3に示したイメージ帳票ファイル310のフォーマット例を示す構造図であり、図1と同一のものには同一の符号を付してある。
図4において、501はイメージ帳票ID、502は帳票種別、503はページ数でありイメージページ311、312、313からなる。なお、イメージページ311、312、313からなイメージ帳票310は帳票イメージスプーラ121上に連続して確されるイメージ領域に格納している。
図5は、本発明に係る画像読取り装置における第1のデータ処理手順の一例を示すフローチャートであり、クライアントPC140からユーザがログインする際のMFP110内の処理手順に対応する。なお、S1〜S9は各ステップを示す。また、各ステップは、MFP110のコントローラ部CONT1内のCPUにより実行されることで実現される。
MFP110は、特に処理を行っていない場合は、入力を待っており(S1)、パネル112からのログイン入力があることをコントローラ部CONT1内のCPUが検出すると、パネル112からのログイン入力を読み込む(S2)。
そして、入力されるログイン入力と内部にもつログインアカウント情報とを上記コントローラ部CONT1内のCPUが照合し(S3)、照合結果が一致する(OK)状態か否かを判断して(S4)、認証結果が一致しない場合には、ステップS1へ戻る。
一方、ステップS4で、認証結果が一致すると判断した場合は、さらに、入力を待ち(S5)、パネル112から入力される帳票種別を読み込み(S6)、該読み込んだ帳票種別がMFP110のハードディスクHD110A等に登録されているかをコントローラ部CONT1のCPUが照合し(S7)、帳票種別が登録されているものと一致して照合OKとなったかどうかをコントローラ部CONT1のCPUが判別して、一致していないと判別した場合は、ステップS5へ戻る。
一方、ステップS8で、帳票種別が登録されているものと一致して照合OKであると判別した場合は、その帳票のページ数を帳票パターン情報テーブル320から取得し(S9)、本処理を終了する。
次に、図6に示すフローチャートに従って、ユーザが帳票をドキュメントフィーダ113から読込ませる際のMFP110内の処理を説明する。
図6は、本発明に係る画像読取り装置における第2のデータ処理手順の一例を示すフローチャートであり、ユーザが帳票をドキュメントフィーダ113から読込ませる際のMFP110内の処理手順に対応する。なお、S11〜S18は各ステップを示す。また、各ステップは、MFP110のコントローラ部CONT1内のCPUにより実行されることで実現される。
先ず、MFP110は、ドキュメントフィーダ113にドキュメントがセットされているかどうかを検出する図示しないセンサからのセンサ出力状態をコントローラ部CONT1の内のCPUが監視しており(S11)、原稿がドキュメントフィーダ113にセットされたことを検出したら(S12)、パネル112に付随するキーの入力を待つ(S13)。
そして、パネル112の読込みキー(図示しない)が押されたことをコントローラ部CONT1内のCPUが検出すると(S14)、次に、ドキュメントフィーダ113にセットされた全ドキュメントの全ページをスキャンし終えたか否かをコントローラ部CONT1内のCPUが判別して(S15)、終了していないと判別した場合は、ステップS16以降へ進み、終了していると判別した場合には、本処理を終了する。
一方、ステップS15で、終了していないと判別した場合は、ドキュメントフィーダ113が、図2に示す帳票210の紙ページ211をフィードさせ(S16)、スキャナ111でページをスキャンし(S17)、スキャナ111で読み込まれたビットマップイメージを圧縮処理してイメージファイル300に書き込み(S18)、例えばHD110A上に蓄積した後、ステップS15へ戻る。
このようにして、ドキュメントフィーダ113にセットされた全ドキュメント(帳票210、220、230、240、250、260)の全ページの一括スキャンと、イメージデータの圧縮処理等を終了する。
次に、図7のフローチャートに従って、読込んだイメージファイル300を分割送信するMFP110内部処理を説明する。
図7は、本発明に係る画像読取り装置における第3のデータ処理手順の一例を示すフローチャートであり、読込んだイメージファイル300を分割送信するMFP110内部処理手順に対応する。なお、S21〜S31は各ステップを示す。また、各ステップは、MFP110のコントローラ部CONT1内のCPUにより実行されることで実現される。
まず、ドキュメントフィーダ113の1回の連続的な読込みにより完成した1つのイメージファイル300をHD110A上からコントローラ部CONT1内のCPUが取得する(S21)。次に、前回のイメージファイルの分割送信処理において、残ページがあったかどうかをコントローラ部CONT1内のCPUがチェックし(S22)、残ページがあると判別した場合は、それらの残ページを取り出し(S23)、ステップS24へ進む。
一方、ステップS22で、残ページがないと判別した場合は、残ページおよびイメージページ300内に一帳票分の未処理のページがあるかどうかをコントローラ部CONT1のCPUが判別して(S24)、一帳票分の未処理のページがあると判別した場合は、1帳票分のページのイメージをHD110A上から読み出し(S25)、図4に示したフォーマットに従って1つのファイルにまとめて(S26)、コントローラ部CONT1のCPUが帳票種別502とページ数503とをファイルの属性として付与し(S27)、イメージ帳票310としてネットワークを介してサーバ120に転送して(S28)、ステップS24へ戻る。つまり、イメージファイル300に一帳票分の未処理のページが残っている限りステップS24に戻り、ステップS24〜S28に戻り処理を繰り返す。
一方、ステップS24で、一帳票分の未処理のページがないと判別した場合は、ステップS29で、未処理のイメージファイル300にページが1つでも残っているか否かをコントローラ部内のCPUが判別して(S29)、もし一帳票分の未処理のページが残っていないが、残ページがあると判別した場合は、残ページとして保存し(S30)、ステップS31へ進む。
一方、ステップS29で、残ページがないと判別した場合は、イメージファイル300をHD110A上から削除し(S31)、本処理を終了する。
次に、図8のフローチャートに従って、帳票認識処理とOCR処理を行うサーバ120の内部処理を説明する。
図8は、本発明に係るサーバ装置における第1のデータ処理手順の一例を示すフローチャートであり、サーバ120による読込んだイメージ帳票310に対する帳票認識処理とOCR処理手順に対応する。なお、S51〜S62は各ステップを示し、各ステップは、サーバ120内のCPUおよびOCR処理部122が実行するステップである。
先ず、図1に示したようにネットワークを介してMFP110から送信されたイメージ帳票310のファイルを取得し(S51)、取得したファイルが図4に示したフォーマットに従う帳票種別502を持っているか否かをサーバ120内のCPUがチェックし(S52)、もし帳票種別502を持たない、もしくは図4のフォーマットに従っていない形式であると判別した場合は、各ページに対して帳票認識の処理を行う(S53)。そして、帳票認識の結果から一帳票にページをまとめて(S54)、ステップS55へ進み、一帳票単位の処理に入る。
一方、ステップS52で、イメージ帳票310より帳票種別が明確であると判別した場合は、特になにもせず、ステップS55以降の一帳票単位の処理に入る。
そして、全ページの終了状態をサーバ120内のCPUが判別して(S55)で、全ページを終了していないと判別した場合は、1つのイメージ帳票300から1ページ分のイメージページを取り出し(S56)、指定された帳票種別502の該当ページのテンプレートを図3に示すようにサーバ120内のメモリに記憶されているフォームテンプレート123から取り出し(S57)、このテンプレートを使用してOCR処理部122によりページのテキスト領域に対してOCR処理を行う(S59)。
そして、OCR処理によりページ単位にテキストページ411として抽出したら(S59)、それらを電子化帳票410に書き加え(S60)、ステップS55へ戻る。
そして、ステップS55で、ページ数503で特定される一帳票分全ページの処理が終了したと判別した場合は、1つの電子化帳票410として電子化帳票スプーラ124に対して出力し(S61)、MFP110から取得してワークメモリ上に保持されるイメージ帳票310を削除して(S62)、本処理を終了する。
なお、この帳票のOCR処理に誤認識があれば、ポストエディット用のクライアントPC130から人手で修正し、承認用のクライアントPC140で承認する。
そして、完成した電子化帳票410は、さらに業務用サーバ150内の電子化帳票スプーラ124(例えばサーバ120内のハードディスク等内に確保される)に送られ、帳票データベースとして各業務のクライアントPCからの参照要求に応え、さまざまな形で共有されるデータとして記憶管理される。
このようにして、ドキュメントフィーダ113から一括して同じ形式の帳票を複数読込ませるようなケースでは、帳票認識処理とOCR処理として機能するサーバ120において、取得するファイルに帳票種別502を付与することができ、ステップS53、ステップS54の処理が全く不要になる。
なお、ステップS54の処理は、用意されているテンプレートの数が多いと、その全てのテンプレートと入力ページのマッチングが行なわれるので非常に処理が重くなるため、この処理を省略できることによる負荷の軽減効果は大きい。
また、帳票認識処理とOCR処理とを行うサーバ120においては、必ず帳票単位で処理を行うため、ドキュメントフィーダにセットした紙の途中で一つの帳票が区切られてしまっても、次の読込み処理が終わるまで処理が待たされてしまうといったこともない。
以上の説明から、ドキュメントフィーダ113を用いることで大量のドキュメントを一括読込みすることができ、確実にOCR処理用のページのテンプレートを選択でき、また帳票認識の処理の必要がなくなるため、サーバ120のデータ処理負担が大幅に軽減され、より高速にデータ処理を行い、電子化帳票スプーラ124に対して、電子化された電子化帳票410を効率よく蓄積できる。
〔第2実施形態〕
上記第1実施形態では、あらかじめサーバ120のフォームテンプレート123に登録されている帳票種別502とページ数503とからMFP110から取得されるイメージ帳票310の各ページに対してOCR処理を実行する場合について説明したが、イメージ帳票内のページ読込順序と登録されているテンプレート中のページの順序とが異なる場合にはOCR処理がエラーとなる場合がある。そこで、帳票の種別があらかじめわかっていても、MFP110からネットワークを介して取得するイメージ帳票310に対して全ページに帳票認識処理をかけることで、ドキュメントフィーダ113への入力時に各帳票単位で、各ページ順序が入れ替わっていたり、別のページが混入していることに気が付かないまま処理を継続してしまったりする事態を避けることができるように構成してもよい。以下、その実施形態について説明する。
なお、第2実施形態では、帳票認識処理とOCR処理とを行うサーバ120の内部処理以外は第1実施形態と同じであるため、ハードウエアに関する説明を割愛する。
図9は、本発明に係るサーバ装置における第2のデータ処理手順の一例を示すフローチャートであり、帳票認識処理とOCR処理とを行うサーバ120の内部処理手順に対応する。なお、S71〜S84は各ステップを示す。
先ず、MFP110からネットワークを介して送信されたイメージ帳票310のファイルを取得し(S71)、図4に示したフォーマットに従って帳票種別502を取得し(S72)、全ページの終了状態をサーバ120内のCPUが判別して(S73)、終了していないと判別した場合は、各ページに対して帳票認識処理をかける(S74)。そして、ステップS73へ戻る。
一方、ステップS73で、1帳票分の全ページの帳票認識処理が終了していると判別した場合は、帳票認識結果と取得した帳票種別502とをサーバ120内のCPUが比較して両者が一致するか否かを判別し(S75)、一致しないページが見つかったと判別した場合は、ポストエディット用のクライアントPC130もしくは承認用のクライアントPC140に対しエラーを通知して(S76)、クライアント側の表示装置にその旨を表示し、本帳票の処理を終了する。
一方、ステップS75で、全ページの終了状態をサーバ120内のCPUが判別して(S77)、すべてのページが終了していないと判別した場合は、1イメージ帳票から1ページ分のイメージを取り出し(S78)、指定された帳票種別の該当ページのテンプレートをフォームテンプレート123から取り出し(S79)、このテンプレートを使用してOCR処理部122によりページのOCR処理を行う(S80)。
そして、OCR処理部122のOCR処理により、ページ単位にテキストページ411として抽出したら(S81)、それらを電子化帳票410に書き加え(S82)、ステップS77へ戻る。
一方、ステップS77で、1帳票分全ページの処理が終了していると判別した場合は、1つの電子化帳票410として電子化帳票スプーラ124に対して出力し(S83)、MFP110から取得しているイメージ帳票310をワーク上から削除して(S84)、本処理を終了する。
このようにして、帳票の種別があらかじめわかっていても、全ページに帳票認識処理をかけることで、ドキュメントフィーダへの入力時にページ順序が入れ替わっていたり、別のページが混入していたりすることに気が付かないまま処理を継続するのを避けることができる。
この場合、帳票認識処理があるため、サーバ120によるデータ処理負荷の軽減はできないが、ユーザが処理速度とエラー処理のトレードオフにより機能を選択することができ、ユーザの利便性が向上する。
以上の説明から、サーバの処理速度に余裕がある場合には、帳票認識処理による帳票の照合を行うことで、ドキュメントフィーダでの入力でのミスを容易に発見するシステムを供給でき、使い勝手のよい画像処理システムを構築できる。
上記実施形態によれば、ドキュメントフィーダを用いることで大量のドキュメントを一括読込みすることができ、確実にOCR処理用のページのテンプレートを選択でき、サーバの負荷を軽減し、より高速に処理を行えるシステムを供給できる。
また、サーバの処理速度に余裕がある場合には、ドキュメントフィーダでの入力でのミスを容易に発見するシステムを供給できる。
〔第3実施形態〕
上記第1実施形態では、MFP110において、イメージファイル300が完成した後に、分割送信処理を行っている場合について説明したが、読み込む帳票のページ数が多いとその時間が無駄になるので、イメージファイル300が完成する前にページを読み出し、分割送信処理を行うよう構成してもよい。以下、その実施形態について説明する。
なお、第3実施形態では、ユーザログイン処理とドキュメントフィーダ113からの読み込み処理とを行うMFP110の内部処理以外は第1実施形態と同じであるため、説明を割愛する。
図10は、本発明に係る画像読取り装置における第4のデータ処理手順の一例を示すフローチャートであり、読込んだイメージファイル300を分割送信するMFP110内部処理手順に対応する。なお、S91〜S102は各ステップを示す。また、各ステップは、MFP110のコントローラ部CONT1内のCPUにより実行されることで実現される。
まず、ドキュメントフィーダ113の1回の連続的な読込みが開始され、1つのイメージファイル300がHD110A上に作成されると同時に、分割処理を開始する。この時点では、イメージファイル300内にはまだページが書き込まれていない。
前回のイメージファイルの分割送信処理において、残ページがあったかどうかをコントローラ部CONT1内のCPUがチェックし(S91)、残ページがあると判別した場合は、それらの残ページを取り出し(S92)、もし残ページがない場合は、何もせずステップS93へ進む。
イメージファイル300が既に閉じられてもうページが増えない状態であるかを、コントローラ部CONT1のCPUが判別し(S93)、まだ増えるようであれば、ページが蓄積されるのを監視する(S94)。もし増えていて一帳票分の未処理ページが蓄積したら(S95)、一帳票分のページのイメージを読み出す(S96)。もし、ステップS95である一定時間一帳票分の未処理ページが蓄積しなければ、ステップS93へ戻り、処理を繰り返す。
そして、ステップS96で読み出した一帳票分の未処理ページを一つのファイルにまとめて(S97)、コントローラ部CONT1のCPUが帳票種別502とページ数503とをファイルの属性として付与し(S98)、イメージ帳票310としてネットワークを介してサーバ120に転送して(S99)、ステップS93へ戻る。つまり、イメージファイル300に一帳票分の未処理のページが残っている限りS93に戻り処理を繰り返す。
一方、ステップS95で、一帳票分の未処理のページがないと判別され、またステップS93でもうこれ以上ページが増えないことが検知された場合は、ステップS100で、未処理のイメージファイル300にページが1つでも残っているか否かをコントローラ部内のCPUが判別して(S100)、もし一帳票分の未処理のページが残っていないが、残ページがあると判別した場合は、残ページとして保存し(S101)、ステップS102へ進む。
一方、ステップS100で、残ページがないと判別した場合は、イメージファイル300をHD110A上から削除し(S102)、本処理を終了する。
このようにして、イメージページ300の完成を待たずに、分割転送処理を開始することで、読み込み処理中にも分割転送処理を開始でき、ひいてはサーバ120における帳票認識処理、OCR処理も開始することができる。
そうすると、物理的な制約の大きいドキュメントフィーダ113の動作速度と比較すると、より高速化の著しいCPUの速度に依存する分割転送処理、帳票認識処理およびOCR処理を同時に進めることができ、システム全体の処理速度が向上する。
以上の説明から、イメージファイル300の完成を待たずに分割送信処理を開始することで、帳票認識処理およびOCR処理を同時に進めることができ、より高速に処理を行えるシステムを供給できる。
上記実施形態によれば、ドキュメントフィーダを用いることで大量のドキュメントを一括読込みすることができ、確実にOCR処理用のページのテンプレートを選択でき、サーバの負荷を軽減し、より高速に処理を行えるシステムを供給できる。
〔第4実施形態〕
上記第1実施形態では、MFP110において、読み込む原稿すべてが片面か両面かをユーザが見て判断し、それに従ってドキュメントフィーダを動作させる場合の説明をしたが、あらかじめその帳票原稿が必ず片面もしくは必ず両面であることが明白である、もしくは帳票単位に片面の帳票原稿と両面の帳票原稿が混ざっていることが明白であるならば帳票パターン情報に事前に記録しておき、ドキュメントフィーダの動作に利用する構成にしてもよい。さらに、OCR処理が不必要なページが原稿内に含まれていたり、OCR処理に向いたスキャンモードがページ単位であらかじめ判断できる場合、これも帳票パターン情報に記録しておきスキャン時に利用する構成にしてもよい。以下、その実施形態について説明する。
なお、第4実施形態では、MFP110の分割送信処理およびサーバ120の処理は第1実施形態と同じであるため、説明を割愛する。
図11は、本発明に係る画像読取り装置における第5のデータ処理手順の一例を示すフローチャートであり、クライアントPC140からユーザがログインする際のMFP110内の処理手順に対応する。なお、S211〜S221は各ステップを示す。また、各ステップは、MFP110のコントローラ部CONT1内のCPUにより実行されることで実現される。
MFP110は、特に処理を行っていない場合は、入力を待っており(S201)、パネル112からのログイン入力があることをコントローラ部CONT1内のCPUが検出すると、パネル112からのログイン入力を読み込む(S202)。
そして、入力されるログイン入力と内部にもつログインアカウント情報とを上記コントローラ部CONT1内のCPUが照合し(S203)、照合結果が一致する(OK)状態か否かを判断して(S204)、認証結果が一致しない場合には、ステップS201へ戻る。
一方、ステップS204で、認証結果が一致すると判断した場合は、さらに、入力を待ち(S205)、パネル112から入力される帳票種別を読み込み(S206)、該読み込んだ帳票種別がMFP110のハードディスクHD110A等に登録されているかをコントローラ部CONT1のCPUが照合し(S207)、帳票種別が登録されているものと一致して照合OKとなったかどうかをコントローラ部CONT1のCPUが判別して(S208)、一致していないと判別した場合は、ステップS205へ戻る。
なお、帳票種別は、図12の帳票パターン情報テーブル320の形式でHD110Aに登録されている。
一方、ステップS208で、帳票種別が登録されているものと一致して照合OKであると判別した場合は、その帳票種別を元に帳票パターン情報テーブルから、必要ページ数、総ページ数、両面属性、スキャンモードリストを取得し(S209)、さらに保存して(S210)、本処理を終了する。
図12は、図2に示した帳票パターン情報テーブル320の一例を示す図である。
図12に示すように、本実施形態では、帳票パターン情報テーブル320は、帳票種別に、必要ページ数、総ページ数、両面属性、スキャンモードリスト等を記憶している。
次に、図13に示すフローチャートに従って、ユーザが帳票をドキュメントフィーダ113から読込ませる際のMFP110内の処理を説明する。
図13は、本発明に係る画像読取り装置における第6のデータ処理手順の一例を示すフローチャートであり、ユーザが帳票をドキュメントフィーダ113から読込ませる際のMFP110内の処理手順に対応する。なお、S211〜S221は各ステップを示す。また、各ステップは、MFP110のコントローラ部CONT1内のCPUにより実行されることで実現される。
先ず、MFP110は、ドキュメントフィーダ113にドキュメントがセットされているかどうかを検出する図示しないセンサからのセンサ出力状態をコントローラ部CONT1の内のCPUが監視しており(S211)、原稿がドキュメントフィーダ113にセットされたことを検出したら(S212)、パネル112に付随するキーの入力を待つ(S213)。
そして、パネル112の読込みキー(図示しない)が押されたことをコントローラ部CONT1内のCPUが検出すると(S214)、第1のデータ処理手順により保存したページ属性を取得し(S215)、その両面属性が片面であれば、ドキュメントフィーダ113を片面のみ読み取るよう動作設定し(S217)、原稿のスキャン処理を行い(S218)、処理を終了する。
一方、ステップS216で、両面属性が両面であると判断した場合は、ドキュメントフィーダ113を両面とも読み取るよう動作設定し(S219)、片面の時と同様の原稿のスキャン処理を行い(S218)、処理を終了する。
さらに、ステップS216で、両面属性が混在であると判断した場合は、ドキュメントフィーダ113を両面とも読み取るよう動作設定し(S220)、片面と両面の原稿が混在しているケースのスキャン処理を行い(S221)、処理を終了する。
次に、図14に示すフローチャートに従って、図14のステップS218のスキャン処理をより詳細に説明する。
図14は、本発明に係る画像読取り装置における第7のデータ処理手順の一例を示すフローチャートであり、ユーザが帳票をドキュメントフィーダ113から読込ませる際のMFP110内の処理手順であって、図14のステップS218のスキャン処理の詳細手順に対応する。なお、S231〜S238は各ステップを示す。また、各ステップは、MFP110のコントローラ部CONT1内のCPUにより実行されることで実現される。
まず、一連のドキュメントをドキュメントフィーダ113で読み取る処理に入り、フィーダに積載した分のスキャン処理が終了しているかどうかコントローラ部CONT1内のCPUが判断する(S231)。なお、終了していると判断した場合は、本処理を終了する。
ステップS231で、最初は、まだ一つも帳票の処理が行われていないので、ステップS232へ進み、1帳票分のスキャン処理を終了しているかどうかをコントローラ部CONT1内のCPUが判断して(S232)、終了していると判断した場合は、ページ属性のスキャンモードリストの先頭を参照する(S233)。そして、ペーパをフィードし(S235)、参照先のスキャンモードが「無視」であるかどうかをコントローラ部CONT1内のCPUが判断して(S236)、無視であると判断した場合は、スキャンせずにステップS231に戻る。
一方、ステップS236において、参照先のスキャンモードが「無視」でないと判断した場合は、そのモードである「文書」もしくは「写真」の動作に従って最初のページをスキャンし(S237)、結果を圧縮してイメージファイル300に書き込み(S238)、ステップS231に戻る。
そして、ステップS231において、ドキュメントフィーダ113に積載したドキュメントのペーパーフィードが全て終了すれば、本処理を終了し、それ以外であると判断した場合は、ステップS232へ行き処理を継続する。
一方、ステップS232で、まだ一帳票の処理途中であると判断した場合は、スキャンモードリストの参照先を次のページへ進め(S234)、該一帳票の処理が終われば再度ステップS233に進み、参照先をページ属性のスキャンモードリストの先頭に戻し、ペーパーフィード以降の処理を繰り返す。
このようにして、ドキュメントフィーダ113にセットされた全ドキュメント(帳票210、220、230、240、250、260)の全ページの一括スキャンと、イメージデータの圧縮処理等を終了する。
以上の説明から、両面属性が片面もしくは両面の時、イメージファイル300には、OCR処理に必要なページが、期待されるスキャンモードでスキャンした結果で収められることがわかる。さらに必要なページ数で分割することで、サーバに送られるイメージファイル310が、各帳票ごとに作成されることがわかる。
次に、図15に示すフローチャートに従って、図13のステップS221のスキャン処理をより詳細に説明する。
図15は、本発明に係る画像読取り装置における第8のデータ処理手順の一例を示すフローチャートであり、ユーザが帳票をドキュメントフィーダ113から読込ませる際のMFP110内の処理手順であって、図13のステップS221の混在原稿スキャン処理の詳細手順に対応する。なお、S241〜S245は各ステップを示す。また、各ステップは、MFP110のコントローラ部CONT1内のCPUにより実行されることで実現される。
まず一連のドキュメントをドキュメントフィーダ113で読み取る処理に入る(S241)。そして、ドキュメントフィーダ113によりペーパをフィードし(S242)、1ページ分のスキャンを行う(S243)。このとき図13に示したステップS220で両面読み取りの設定が行なわれているため、必ず両面でスキャンされる。
そして、もしページをスキャンした結果が白紙ページであるかどうかを判断して(S244)、白紙ページであると判断した場合、そのページをどこにも保存することなくステップS241に戻る。
一方、ステップS244で、白紙ページでないと判断した場合は、そのページを圧縮処理(MFP110のコントローラ部CONT1内のCPUにより圧縮処理される)して、イメージファイル300に書き込む。
以上の処理を繰り返し、ステップS241で、ドキュメントフィーダ113に積載したドキュメントのペーパーフィードが全て終了すれば、処理を終了する。
このようにして、ドキュメントフィーダ113にセットされた全ドキュメント(帳票210、220、230、240、250、260)の全ページの一括スキャンと、イメージデータの圧縮処理等を終了する。
以上の説明から、両面属性が混在の時、イメージファイル300には、OCR処理に必要なページが収められることがわかる。さらに、必要なページ数で分割することで、サーバに送られるイメージファイル310が、帳票一部ごとに作成されることがわかる。
以下、図12、図16および図17を用いて、ドキュメントフィーダ113に置かれた各原稿のページがどのようにしてイメージ帳票310としてサーバに送られるかの例を具体的に説明する。
図16は、本発明に係る画像読取り装置における片面の帳票原稿とイメージ帳票ファイルの関係の例を示す概略図であり、指定された帳票のページ構成は、必要ページ数が3ページ、総ページ数が3ページ、両面属性が片面、スキャンモードリストが文書―文書―写真であり、3部の帳票原稿がドキュメントフィーダ113に置かれた場合に対応する。この帳票は、図12の帳票パターン情報テーブル320の帳票Cに該当する。
図13のフローチャートで説明したように、両面属性が片面である場合、ドキュメントフィーダ113は、常に片面でスキャンを行うので、図16に示した左の列にある9枚の帳票原稿から9ページ分の片面スキャンを行い、図16中の真中の列のように、9ページ分のスキャン結果が得られる。
また、スキャンモードリストが文書―文書―写真であるので、トータルで3ページ目、6ページ目、9ページ目が写真モードで、他のページは文書モードでスキャンされる。これらはイメージファイル300に書き込まれる。
さらに、必要ページ数、総ページ数とも3ページであるため、先頭から3ページずつ分割され、右の列のように3ページから構成されるイメージ帳票310が3つ作成される。
図17は、本発明に係る画像読取り装置における混在の帳票原稿とイメージ帳票ファイルの関係の例を示す概略図であり、指定された帳票のページ構成は、必要ページ数が3ページ、総ページ数が3ページ、両面属性が混在であり、1部の片面の帳票原稿と1部の両面の帳票原稿が連続してドキュメントフィーダ113に置かれた場合に対応する。この帳票は図12の帳票パターン情報テーブル320の帳票Dに該当する。
図13のフローチャートで説明したように、両面属性が混在である場合、ドキュメントフィーダ113は、常に両面でスキャンを行うので、図17に示す左の列にある5枚の帳票原稿から10ページ分の両面スキャンを行い、真中の列のように、10ページ分のスキャン結果が得られる。
図14に示したフローチャートで説明したように、これらのうち白紙ページでないページだけがイメージファイル300に書き込まれるので、色のついた6ページ分が残る。さらに必要ページ数、総ページ数とも3ページであるため、先頭から3ページずつ分割され、右の列のように3ページから構成されるイメージ帳票310が2つ作成される。
以上の説明から、同じページ数からなる帳票が、片面印刷されているものと両面印刷されているものが混在している場合でも、原稿の裏面が白紙であれば、OCR処理をかける際には、同じページ数からなる1ファイルとして扱うことができることがわかる。
以下、図18,図19に示すメモリマップを参照して本実施形態に係る画像読取り装置およびサーバ装置を適用可能な画像処理システムで読み取り可能なデータ処理プログラムの構成について説明する。
図18は、本実施形態に係る画像読取り装置を適用可能な画像処理システムで読み取り可能な各種データ処理プログラムを格納する記憶媒体のメモリマップを説明する図であり、図19は、本実施形態に係るサーバ装置を適用可能な画像処理システムで読み取り可能な各種データ処理プログラムを格納する記憶媒体のメモリマップを説明する図である。
なお、特に図示しないが、記憶媒体に記憶されるプログラム群を管理する情報、例えばバージョン情報,作成者等も記憶され、かつ、プログラム読み出し側のOS等に依存する情報、例えばプログラムを識別表示するアイコン等も記憶される場合もある。
さらに、各種プログラムに従属するデータも上記ディレクトリに管理されている。また、各種プログラムをコンピュータにインストールするためのプログラムや、インストールするプログラムが圧縮されている場合に、解凍するプログラム等も記憶される場合もある。
本実施形態における図5,図6,図7,図8,図9,図10、図11,図13,図14,図15に示す機能が外部からインストールされるプログラムによって、ホストコンピュータにより遂行されていてもよい。そして、その場合、CD−ROMやフラッシュメモリやFD等の記憶媒体により、あるいはネットワークを介して外部の記憶媒体から、プログラムを含む情報群を出力装置に供給される場合でも本発明は適用されるものである。
以上のように、前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
従って、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記憶媒体としては、例えばフレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVDなどを用いることができる。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは、圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバやftpサーバ等も本発明の請求項に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明は上記実施形態に限定されるものではなく、本発明の趣旨に基づき種々の変形(各実施形態の有機的な組合せを含む)が可能であり、それらを本発明の範囲から排除するものではない。
本発明の様々な例と実施形態を示して説明したが、当業者であれば、本発明の趣旨と範囲は、本明細書内の特定の説明に限定されるのではなく、以下の実施態様も含まれることはいうまでもない。以下、その実施態様1〜23について説明する。
〔実施態様1〕
帳票原稿を読み取って得られる画像情報をネットワークを介してサーバ装置に転送可能な画像読取り装置であって、読み取る帳票原稿の種別と各帳票のページ構成情報を記憶する帳票情報記憶手段(例えば図2に示すHD110a)と、読み取る帳票原稿の種別を指定する指定手段(例えばパネル112)と、複数部数一括して帳票原稿をページ単位にスキャンして帳票原稿イメージを出力するスキャン手段(図2に示すスキャナ111)と、前記スキャン手段により一括してスキャンされる前記帳票原稿イメージを前記指定手段により指定される帳票原稿の種別に基づき、前記帳票情報記憶手段に記憶されるページ情報に基づいてまとった帳票イメージファイルを生成する生成手段(図2に示すコントローラ部CONT1による)と、前記生成手段により生成される帳票イメージファイルを前記サーバに送信する送信手段(図2に示すコントローラ部CONT1が図示しないネットワークコントローラに接続されるネットワークを介してサーバ120に送信する)とを有することを特徴とする画像読取り装置。
これにより、入力される帳票原稿束の切れ目等を考慮することなく、複数束の帳票原稿を一括して画像読取り処理を実行させて、読取り処理効率を向上させることが可能となる。また、読み取られた帳票イメージが指定される帳票種別で登録されたページ数で自動的に分割されて1つの帳票データが生成されるため、帳票イメージの切れ目が他の帳票イメージに混ざった状態でサーバ装置に送信してしまう事態を確実に防止できる。
〔実施態様2〕
前記各帳票のページ構成情報は、実際に必要なページ数と、総ページ数と、各ページのページサイズと、両面属性と、各ページスキャンモードのリストとを含むことを特徴とする実施態様1記載の画像読取り装置。
これにより、帳票原稿の構成を自在に編成できるため、種々のサイズの帳票原稿が混在していても正確に各帳票の切れ目を認識した帳票原稿読み取りを正確に行える。
〔実施態様3〕
前記生成手段は、前記帳票データに帳票種別、ページ数、帳票イメージを付与可能とすることを特徴とする実施態様1記載の画像読取り装置。
これにより、帳票種別とページ数をサーバ装置に通知して、帳票イメージの帳票認識処理を行うことなく、文字認識処理を実行させて、電子化帳票作成効率を格段に向上させることができる。
〔実施態様4〕
前記生成手段は、前記スキャン手段によりスキャンされた前記原稿イメージが白紙ページかどうかを認識可能とすることを特徴とする実施態様1記載の画像読取り装置。
これにより、スキャンされた原稿イメージから白紙ページを除去することができ、正確に各帳票の切れ目を認識した帳票原稿読み取りを正確に行える。
〔実施態様5〕
前記各帳票のページ構成情報は、ネットワークを介してデータ処理装置からダウンロード可能とすることを特徴とする実施態様1記載の画像読取り装置。
これにより、各帳票のページ構成情報の詳細をデータ処理装置から取得して画像処理装置に対して正確に入力することができる。
〔実施態様6〕
前記各帳票のページ構成情報の両面属性は、片面、両面、混在の属性値を持つことを特徴とする実施態様1記載の画像読取り装置。
これにより、原稿のスキャン時にどの面をスキャンするのかの指示を省略でき、作業負荷を軽減することができる。
〔実施態様7〕
前記各帳票のページ構成情報のスキャンモードリストは、ページ単位に文書モード、写真モード、無視モードの属性値を持つリストであることを特徴とする実施態様1記載の画像読取り装置。
これにより、原稿のスキャン時にページ単位でスキャンの方法を変えることができ、文字認識の確度を向上させ、また無駄なページを作成しないことで、電子化帳票作成効率を格段に向上させることができる。
〔実施態様8〕
ネットワークを介して画像読取り装置により生成される帳票データを取得可能なサーバ装置であって、文字認識処理するための帳票構成を示すテンプレートを帳票種別毎に記憶するテンプレート記憶手段(図3に示すフォームテンプレート123)と、前記帳票データに付与される帳票種別に従い前記テンプレート記憶手段から特定されるテンプレートに基づき、前記帳票データの各ページに文字認識処理を行う文字認識処理手段(図3に示すOCR処理部122)と、前記文字認識処理手段により認識される各ページのテキストデータを電子化帳票ファイルとして生成するファイル生成手段(図3に示すOCR処理部122)とを有することを特徴とするサーバ装置。
これにより、帳票データに対して帳票認識処理を行うことなく、各帳票データの文字認識処理を実行でき、最終的な電子化帳票を作成までに要する処理時間を大幅に短縮して、サーバ装置側の認識処理負担を大幅に軽減できる。
〔実施態様9〕
前記帳票データの各ページの帳票認識を行う帳票認識手段(図3に示すOCR処理部122)と、前記帳票認識手段により認識される各ページの帳票認識結果と前記テンプレート記憶手段に記憶される帳票種別が一致しない場合に、帳票エラーを通知する通知手段(図2に示すコントローラ部CONT2が図示しないネットワークコントローラに接続されるネットワークを介して図1に示したクライアントPC130等に通知する)とを有することを特徴とする実施態様8記載のサーバ装置。
これにより、取得される帳票データの各ページが登録されている帳票種別に一致するか判別することで、画像読取り装置側で帳票原稿中の各ページの順序が変更されて読み取られた場合や、画像読取り装置側で帳票原稿中に他の帳票原稿が紛れ込んで読み取られた場合を事前に認識して、帳票データの真偽性を考慮した、帳票認識処理を行うことも可能となり、電子化される帳票の各ページのデータに対する信頼性を高めることができる。
〔実施態様10〕
前記通知手段は、前記画像読取り装置、またはネットワークを介して通信可能なデータ処理装置に帳票エラーを通知することを特徴とする実施態様8記載のサーバ装置。
これにより、帳票エラーとなっている帳票データが生成されていることを、帳票入力者等にその旨を確実に通知して、帳票原稿の確認と再入力作業を催促することができる。
〔実施態様11〕
画像読取り装置が読み取る画像情報をネットワークを介してサーバ装置に転送して画像処理を行う画像処理システムであって、前記画像読取り装置は、読み取る帳票原稿の種別と各帳票のページ構成情報を記憶する帳票情報記憶手段と、読み取る帳票原稿の種別を指定する指定手段と、複数部数一括して帳票原稿をページ単位にスキャンして帳票原稿イメージを出力するスキャン手段と、前記スキャン手段により一括してスキャンされる前記帳票原稿イメージを前記指定手段により指定される帳票原稿の種別に基づき、前記帳票情報記憶手段に記憶されるページ情報に基づいてまとった帳票データを生成する生成手段と、前記生成手段により生成される帳票データを前記サーバに送信する送信手段とを有し、前記サーバ装置は、文字認識処理するための帳票構成を示すテンプレートを帳票種別毎に記憶するテンプレート記憶手段と、前記帳票データに付与される帳票種別に従い前記テンプレート記憶手段から特定されるテンプレートに基づき、前記帳票データの各ページに文字認識処理を行う文字認識処理手段と、前記文字認識処理手段により認識される各ページのテキストデータを電子化帳票ファイルとして生成するファイル生成手段とを有することを特徴とする画像処理システム。
これにより、実施態様1、8と同等の効果を期待できる。
〔実施態様12〕
読み取る帳票原稿の種別と各帳票のページ構成情報を記憶する帳票情報記憶手段を備え、帳票原稿を読み取って得られる画像情報をネットワークを介してサーバ装置に転送可能な画像読取り装置における画像処理方法であって、読み取る帳票原稿の種別を指定する指定ステップ(図5に示すステップS5)と、複数部数一括して帳票原稿をページ単位にスキャンして帳票原稿イメージを出力するスキャンステップ(図6に示すステップS17)と、前記スキャンステップにより一括してスキャンされる前記帳票原稿イメージを前記指定ステップにより指定される帳票原稿の種別に基づき、前記帳票情報記憶手段に記憶されるページ情報に基づいてまとった帳票データを生成する生成ステップ(図6に示すステップS18)と、前記生成ステップにより生成される帳票データを前記サーバに送信する送信ステップ(図7に示すステップS28)とを有することを特徴とする画像処理方法。
これにより、実施態様1と同等の効果を期待できる。
〔実施態様13〕
前記各帳票のページ構成情報は、実際に必要なページ数と、総ページ数と、各ページのページサイズと、両面属性と、各ページスキャンモードのリストを含むことを特徴とする実施態様12記載の画像処理方法。
これにより、実施態様2と同等の効果を期待できる。
〔実施態様14〕
前記生成ステップは、前記帳票データに帳票種別、ページ数、帳票イメージを付与可能とすることを特徴とする実施態様12記載の画像処理方法。
これにより、実施態様3と同等の効果を期待できる。
〔実施態様15〕
前記生成ステップは、前記スキャン手段によりスキャンされた前記原稿イメージが白紙ページかどうかを認識可能とすることを特徴とする実施態様12記載の画像処理方法。
これにより、実施態様4と同等の効果を期待できる。
〔実施態様16〕
前記各帳票のページ構成情報は、ネットワークを介してデータ処理装置からダウンロード可能とすることを特徴とする実施態様12記載の画像処理方法。
これにより、実施態様5と同等の効果を期待できる。
〔実施態様17〕
前記各帳票のページ構成情報の両面属性は、片面、両面、混在の属性値を持つことを特徴とする実施態様12記載の画像処理方法。
これにより、実施態様6と同等の効果を期待できる。
〔実施態様18〕
前記各帳票のページ構成情報のスキャンモードリストは、ページ単位に文書モード、写真モード、無視モードの属性値を持つリストであることを特徴とする実施態様12記載の画像処理方法。
これにより、実施態様7と同等の効果を期待できる。
〔実施態様19〕
文字認識処理するための帳票構成を示すテンプレートを帳票種別毎に記憶するテンプレート記憶手段を備え、ネットワークを介して画像読取り装置により生成される帳票データを取得可能なサーバ装置における画像処理方法であって、前記帳票データに付与される帳票種別に従い前記テンプレート記憶手段から特定されるテンプレートに基づき、前記帳票データの各ページに文字認識処理を行う文字認識処理ステップ(図8に示すステップS58、S59)と、前記文字認識処理ステップにより認識される各ページのテキストデータを電子化帳票ファイルとして生成するファイル生成ステップ(図8に示すステップS60)とを有することを特徴とする画像処理方法。
これにより、実施態様8と同等の効果を期待できる。
〔実施態様20〕
前記帳票データの各ページの帳票認識を行う帳票認識ステップ(図9に示すステップS74)と、前記帳票認識ステップにより認識される各ページの帳票認識結果と前記テンプレート記憶手段に記憶される帳票種別が一致しない場合に、帳票エラーを通知する通知ステップ(図9に示すステップS76)とを有することを特徴とする実施態様19記載の画像処理方法。
これにより、実施態様9と同等の効果を期待できる。
〔実施態様21〕
前記通知ステップは、前記画像読取り装置、またはネットワークを介して通信可能なデータ処理装置に帳票エラーを通知することを特徴とする実施態様20記載の画像処理方法。
これにより、実施態様10と同等の効果を期待できる。
〔実施態様22〕
実施態様12〜21のいずれかに記載の画像処理方法を実行させるためのプログラムを格納したことを特徴とするコンピュータが読み取り可能な記憶媒体。
これにより、実施態様12〜21と同等の効果を期待できる。
〔実施態様23〕
実施態様12〜21のいずれかに記載の画像処理方法を実行させることを特徴とするプログラム。
これにより、実施態様12〜21と同等の効果を期待できる。
第1実施形態を示す画像読取り装置およびサーバ装置を適用可能な画像処理システムの構成を説明するブロック図である。 図1に示したMFPとサーバの原稿処理状例を説明する概略図である。 図1に示したサーバのデータ処理例を説明する概略図である。 図3に示したイメージ帳票ファイルのフォーマット例を示す構造図である。 本実施形態に係る画像読取り装置における第1のデータ処理手順の一例を示すフローチャートである。 本実施形態に係る画像読取り装置における第2のデータ処理手順の一例を示すフローチャートである。 本実施形態に係る画像読取り装置における第3のデータ処理手順の一例を示すフローチャートである。 本実施形態に係るサーバ装置における第1のデータ処理手順の一例を示すフローチャートである。 本実施形態に係るサーバ装置における第2のデータ処理手順の一例を示すフローチャートである。 本実施形態に係る画像読取り装置における第4のデータ処理手順の一例を示すフローチャートである。 本実施形態に係る画像読取り装置における第5のデータ処理手順の一例を示すフローチャートである。 図2に示した帳票パターン情報テーブルの一例を示す図である。 本実施形態に係る画像読取り装置における第6のデータ処理手順の一例を示すフローチャートである。 本実施形態に係る画像読取り装置における第7のデータ処理手順の一例を示すフローチャートである。 本実施形態に係る画像読取り装置における第8のデータ処理手順の一例を示すフローチャートである。 本実施形態に係る画像読取り装置における片面の帳票原稿とイメージ帳票ファイルの関係の例を示す概略図である。 本実施形態に係る画像読取り装置における混在の帳票原稿とイメージ帳票ファイルの関係の例を示す概略図である。 本実施形態に係る画像読取り装置を適用可能な画像処理システムで読み取り可能な各種データ処理プログラムを格納する記憶媒体のメモリマップを説明する図である。 本実施形態に係るサーバ装置を適用可能な画像処理システムで読み取り可能な各種データ処理プログラムを格納する記憶媒体のメモリマップを説明する図である。
符号の説明
110 MFP
111 スキャナ
113 ドキュメントフィーダ
120 サーバ装置
121 イメージ帳票スプーラ
300 イメージファイル
310 イメージ帳票
320 帳票パターン情報テーブル
CONT コントローラ部

Claims (10)

  1. 帳票原稿を読み取って得られる画像情報をネットワークを介してサーバ装置に転送可能な画像読取り装置であって、
    複数のページから構成される帳票種別に対応し、少なくとも前記帳票種別のページ数を含む帳票構成情報を記憶する帳票情報記憶手段と、
    読み取る帳票原稿の帳票種別を指定する指定手段と、
    前記指定手段により指定された帳票種別のページ数を、前記帳票情報記憶手段に記憶されている前記情報構成情報に基づいて取得する取得手段と、
    複数の帳票を含む帳票原稿をページ単位にスキャンして帳票原稿データ生成するスキャン手段と、
    前記取得手段により取得された前記帳票種別のページ数に基づいて、前記スキャン手段により生成された帳票原稿データを1帳票分のページ数からなる帳票原稿データに分割する分割手段と、
    前記分割手段により分割されたそれぞれの帳票原稿データに対して、前記帳票構成情報を割り当て、前記サーバに送信する送信手段と、
    を有することを特徴とする画像読取り装置。
  2. 前記分割手段は、前記スキャン手段により生成された帳票原稿データのうち、1帳票分のページ数に満たない帳票原稿データを保存しておき、次に分割を行う際に、前記保存しておいた帳票原稿データを取得し、前記スキャン手段により新たに生成された帳票原稿データと合わせて分割を行うことを特徴とする請求項1に記載の画像読取り装置。
  3. 前記帳票情報記憶手段に記憶されている前記情報構成情報は、対応する帳票種別の両面属性を少なくとも含み、
    前記スキャン手段は、前記指定手段により指定された帳票種別に対応する両面属性に従って、原稿のスキャン及び前記帳票原稿データの生成を行うことを特徴とする請求項1または2のいずれかに記載の画像読取り装置。
  4. 前記スキャン手段は、前記指定手段により指定された帳票種別に対応する両面属性が片面である場合には、帳票原稿の片面のみをスキャンし、前記指定手段により指定された帳票種別に対応する両面属性が両面である場合には、帳票原稿の両面をスキャンし、前記指定手段により指定された帳票種別に対応する両面属性が片面と両面との混在である場合には、帳票原稿をスキャンし、スキャンした原稿に含まれる複数ページのうち、白紙であるページの帳票原稿データを生成せず、スキャンした原稿に含まれる白紙でないページの帳票原稿データを生成することを特徴とする請求項3に記載の画像読取り装置。
  5. 前記帳票情報記憶手段に記憶されている前記情報構成情報は、対応する帳票種別に含まれる各ページにおけるスキャンの必要の有無を示すスキャンモード情報を少なくとも含み、
    前記スキャン手段は、帳票原稿に含まれる複数ページのうち、前記指定手段により指定された帳票種別に対応するスキャンモード情報においてスキャンの必要があると示されているページをスキャンし、スキャンの必要がないと示されているページをスキャンしないことを特徴とする請求項1乃至4のいずれか1項に記載の画像読取り装置。
  6. 帳票原稿を読み取って得られる画像情報をネットワークを介してサーバ装置に転送可能な画像読取り装置における画像処理方法であって、
    複数のページから構成される帳票種別に対応し、少なくとも前記帳票種別のページ数を含む帳票構成情報を帳票情報記憶手段に記憶する帳票情報記憶工程と、
    読み取る帳票原稿の帳票種別を指定する指定工程と、
    前記指定工程により指定された帳票種別のページ数を、前記帳票情報記憶手段に記憶されている前記情報構成情報に基づいて取得する取得工程と、
    複数の帳票を含む帳票原稿をページ単位にスキャンして帳票原稿データ生成するスキャン工程と、
    前記取得工程により取得された前記帳票種別のページ数に基づいて、前記スキャン工程により生成された帳票原稿データを1帳票分のページ数からなる帳票原稿データに分割する分割工程と、
    前記分割工程により分割されたそれぞれの帳票原稿データに対して、前記帳票構成情報を割り当て、前記サーバに送信する送信工程と、
    を有することを特徴とする画像処理方法。
  7. 前記分割工程は、前記スキャン工程により生成された帳票原稿データのうち、1帳票分のページ数に満たない帳票原稿データを保存しておき、次に分割を行う際に、前記保存しておいた帳票原稿データを取得し、前記スキャン工程により新たに生成された帳票原稿データと合わせて分割を行うことを特徴とする請求項6に記載の画像処理方法
  8. 前記帳票情報記憶工程に記憶されている前記情報構成情報は、対応する帳票種別の両面属性を少なくとも含み、
    前記スキャン工程は、前記指定工程により指定された帳票種別に対応する両面属性に従って、原稿のスキャン及び前記帳票原稿データの生成を行うことを特徴とする請求項6または7のいずれかに記載の画像処理方法
  9. 前記スキャン工程は、前記指定工程により指定された帳票種別に対応する両面属性が片面である場合には、帳票原稿の片面のみをスキャンし、前記指定工程により指定された帳票種別に対応する両面属性が両面である場合には、帳票原稿の両面をスキャンし、前記指定工程により指定された帳票種別に対応する両面属性が片面と両面との混在である場合には、帳票原稿をスキャンし、スキャンした原稿に含まれる複数ページのうち、白紙であるページの帳票原稿データを生成せず、スキャンした原稿に含まれる白紙でないページの帳票原稿データを生成することを特徴とする請求項8に記載の画像処理方法
  10. 前記帳票情報記憶手段に記憶されている前記情報構成情報は、対応する帳票種別に含まれる各ページにおけるスキャンの必要の有無を示すスキャンモード情報を少なくとも含み、
    前記スキャン工程は、帳票原稿に含まれる複数ページのうち、前記指定工程により指定された帳票種別に対応するスキャンモード情報においてスキャンの必要があると示されているページをスキャンし、スキャンの必要がないと示されているページをスキャンしないことを特徴とする請求項6乃至9のいずれか1項に記載の画像処理方法
JP2005023178A 2004-10-26 2005-01-31 画像読み取り装置および画像処理方法 Active JP4724428B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005023178A JP4724428B2 (ja) 2004-10-26 2005-01-31 画像読み取り装置および画像処理方法
US11/275,737 US7933048B2 (en) 2005-01-31 2006-01-26 Image reading apparatus, server apparatus, and image processing system

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004310351 2004-10-26
JP2004310351 2004-10-26
JP2005023178A JP4724428B2 (ja) 2004-10-26 2005-01-31 画像読み取り装置および画像処理方法

Publications (2)

Publication Number Publication Date
JP2006155550A JP2006155550A (ja) 2006-06-15
JP4724428B2 true JP4724428B2 (ja) 2011-07-13

Family

ID=36633724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005023178A Active JP4724428B2 (ja) 2004-10-26 2005-01-31 画像読み取り装置および画像処理方法

Country Status (1)

Country Link
JP (1) JP4724428B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494368B2 (en) 2020-01-22 2022-11-08 Fujifilm Business Innovation Corp. Information processing appratus and non-transitory computer readable medium

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009251914A (ja) * 2008-04-04 2009-10-29 Hiroaki Matsuda シンクライアントネットワークシステム
KR102036717B1 (ko) * 2013-01-24 2019-10-25 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 화상 독취 장치, 관리 서버, 화상 독취 장치의 제어 방법, 및 관리 서버의 제어 방법
US10558677B2 (en) 2015-03-23 2020-02-11 Dropbox, Inc. Viewing and editing content items in shared folder backed integrated workspaces
US10719807B2 (en) 2016-12-29 2020-07-21 Dropbox, Inc. Managing projects using references
US10970656B2 (en) 2016-12-29 2021-04-06 Dropbox, Inc. Automatically suggesting project affiliations
US10402786B2 (en) 2016-12-30 2019-09-03 Dropbox, Inc. Managing projects in a content management system
US11226939B2 (en) 2017-12-29 2022-01-18 Dropbox, Inc. Synchronizing changes within a collaborative content management system

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103408A (ja) * 1992-09-22 1994-04-15 Hitachi Electron Eng Co Ltd Ocrの画像条件設定方法
JPH10105654A (ja) * 1996-09-30 1998-04-24 Aibitsukusu Kk 帳票用文字認識装置
JPH10161478A (ja) * 1996-12-02 1998-06-19 Konica Corp 画像形成装置及び画像読取装置
JP2001126026A (ja) * 1999-10-22 2001-05-11 Toshiba Tec Corp 情報入力装置
JP2003317076A (ja) * 2002-04-19 2003-11-07 Canon Inc 画像管理装置、画像管理方法、及び制御プログラム
JP2004171326A (ja) * 2002-11-21 2004-06-17 Hitachi Ltd ソフトウェアの使用方法
JP2004178107A (ja) * 2002-11-25 2004-06-24 Canon Inc 帳票処理装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4164392B2 (ja) * 2003-03-14 2008-10-15 キヤノン株式会社 データ送信装置、データ送信方法、プログラムおよび記憶媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103408A (ja) * 1992-09-22 1994-04-15 Hitachi Electron Eng Co Ltd Ocrの画像条件設定方法
JPH10105654A (ja) * 1996-09-30 1998-04-24 Aibitsukusu Kk 帳票用文字認識装置
JPH10161478A (ja) * 1996-12-02 1998-06-19 Konica Corp 画像形成装置及び画像読取装置
JP2001126026A (ja) * 1999-10-22 2001-05-11 Toshiba Tec Corp 情報入力装置
JP2003317076A (ja) * 2002-04-19 2003-11-07 Canon Inc 画像管理装置、画像管理方法、及び制御プログラム
JP2004171326A (ja) * 2002-11-21 2004-06-17 Hitachi Ltd ソフトウェアの使用方法
JP2004178107A (ja) * 2002-11-25 2004-06-24 Canon Inc 帳票処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494368B2 (en) 2020-01-22 2022-11-08 Fujifilm Business Innovation Corp. Information processing appratus and non-transitory computer readable medium

Also Published As

Publication number Publication date
JP2006155550A (ja) 2006-06-15

Similar Documents

Publication Publication Date Title
JP4724428B2 (ja) 画像読み取り装置および画像処理方法
US7957038B2 (en) Code information printing apparatus, printing method, restoration apparatus, and restoration method
US20060112021A1 (en) Printing apparatus, control method thereof, and recording medium
JP4784506B2 (ja) 画像履歴管理装置及びプログラム
US8270018B2 (en) Canceling a workflow from an image processing apparatus
EP1686784A1 (en) Data processing apparatus, image processing apparatus, data processing method, image processing method and programs for implementing the methods
JP5004142B2 (ja) 文書管理システム、画像処理装置、情報処理装置、文書管理方法、制御方法およびプログラム。
KR100956186B1 (ko) 워크플로우 지원 장치 및 그 제어 방법과 워크플로우 지원 시스템
JP5424619B2 (ja) ワークフロー実行システム、ワークフロー実行装置およびその制御方法、プログラム、記憶媒体
US7933048B2 (en) Image reading apparatus, server apparatus, and image processing system
JP2008257338A (ja) 情報処理装置、機能制限方法、記憶媒体及びプログラム
JP5825195B2 (ja) 文書管理システム、画像処理装置、情報処理装置、文書管理方法、制御方法およびプログラム。
JP2010056770A (ja) 文書管理システム、画像形成装置、サーバ、文書管理方法、及びプログラム
JP6127597B2 (ja) 情報処理装置、その制御方法及びプログラム
JP4340482B2 (ja) 文書管理システム
US8605325B2 (en) Device, method, and computer readable medium for inserting a user selected thumbnail into an image file
US7653658B2 (en) Data file storage/management apparatus and electronic mail processing program thereof
JP4817669B2 (ja) データ処理装置、データ処理方法、及びプログラム
JP2008211747A (ja) 画像処理装置、サーバ装置、タスク処理方法、記憶媒体、プログラム
JP2007317210A (ja) データ制御装置およびその制御方法、画像出力装置、およびコンピュータプログラム
JP4455358B2 (ja) 画像処理装置およびその方法
CN102257802B (zh) 图像形成设备和图像形成设备的控制方法
JP2008293523A (ja) 画像管理装置及びコンピュータプログラム
JP6946932B2 (ja) 画像処理システム、処理装置及びプログラム
US11797767B2 (en) Methods and systems for generating multiple scanned files based on keywords

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080130

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110411

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4724428

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150