JP2008165386A - 文書管理装置、文書管理方法、文書管理プログラム - Google Patents

文書管理装置、文書管理方法、文書管理プログラム Download PDF

Info

Publication number
JP2008165386A
JP2008165386A JP2006352551A JP2006352551A JP2008165386A JP 2008165386 A JP2008165386 A JP 2008165386A JP 2006352551 A JP2006352551 A JP 2006352551A JP 2006352551 A JP2006352551 A JP 2006352551A JP 2008165386 A JP2008165386 A JP 2008165386A
Authority
JP
Japan
Prior art keywords
document
image
attribute
attribute information
image document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006352551A
Other languages
English (en)
Inventor
Shinichiro Ohira
慎一郎 大平
Yuuko Yoshimura
裕興 吉村
Naoyuki Kameoka
直行 亀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon IT Solutions Inc
Original Assignee
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon IT Solutions Inc filed Critical Canon IT Solutions Inc
Priority to JP2006352551A priority Critical patent/JP2008165386A/ja
Publication of JP2008165386A publication Critical patent/JP2008165386A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Facsimiles In General (AREA)
  • Storing Facsimile Image Data (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】登録シートから文書属性を判断できるようにし、以ってユーザの作業の負担を軽減することを可能とする文書管理システムを提供する。
【解決手段】文書管理サーバに記録されている文書属性に応じた文書保存先情報を記載した登録シートを印刷し、その登録シートを含む紙書類をスキャンすることで電子化されたイメージ文書を作成する。次にこのイメージ文書から登録シートを抽出した上で、OCR処理を行い、この結果を用いて文書属性の判定処理をする。さらに、この文書属性に対応してイメージ文書をページ毎に体裁を整えるための整理処理、および、イメージ文書を分割し、文書管理サーバの所定の場所に記録する。
【選択図】図12

Description

本発明は、コンピュータを利用した文書管理システムに関する技術であって、詳しくは、提案書、報告書、各種申請書等の紙文書を、スキャナ等で読み込んで対応付したイメージ文書を、属性情報(文書名、作成者、顧客、作成日時など、以下、文書属性)からコンピュータの記憶装置の所定の場所に保存するための技術に関する。
会社等の種々の機関では、一般に、提案書、報告書、各種申請書等の紙文書を、スキャナ等に読み込ませてスキャンイメージ(以下、イメージ文書と言う)にして、コンピュータに入力し管理することが行なわれる。このとき、各イメージ文書は文書名や目的等各文書属性に対応した、コンピュータの記憶装置の所定の場所に記録される。
イメージ文書をコンピュータの記憶装置の所定の場所に記録するためには、イメージ文書毎に文書属性を付与する必要があるが、これは、紙文書に記載されている文書内容をユーザが読み取り文書属性を判断してキー操作で付与する方法がある。或いは、OCR(Optical Character Reader)帳票と称される文書属性付与用の紙(登録シート)を用意し、その登録シートの所定位置に所定の文書属性を手で記入して(所定位置に記入できれば印刷でも可)、記入したその用紙を紙文書の表紙にし、紙文書と共にスキャナ等に読込ませることで付与する方法がある。特に、自動原稿送り機能を有するスキャナ等を利用すれば、複数枚の紙書類を一括して、処理することも可能になる。この場合は、コンピュータ又はスキャナ等に搭載されるOCRソフト(OCR機能を持つアプリケーションソフト)が、紙文書の1枚目を登録シートとみなして、その紙の各所定位置から記入内容を抽出して認識し、認識した記入内容を文書属性としてイメージ文書に付与する。さらに、複数種類の紙書類を、それぞれの種類ごとに登録シートを用意し、一括して処理することも可能になる。このようにして付与された属性情報に基づき、イメージ文書はコンピュータの記憶装置の所定の場所に記録される。
このとき、登録シートを用いたとしても、文書読み取りミスのために付与する属性情報の間違いが発生する場合があるが、この問題を解決する技術として、例えば、特許文献1が提案されている。この方法は、文書管理サーバにあらかじめ文書管理番号を含む文書属性データを登録しておき、この情報を元に登録シートを印刷する一方で、OCRで読み取った結果から文書管理番号に対応する文書属性を付与するものである。
特開2005−122324号公報
しかしながら、特許文献1の技術ではスキャナ等の自動原稿送り装置の動作不良に起因した読み取りミスや、登録シートを表裏逆にセットしたことによるユーザの操作ミスに起因した登録シートの読み飛ばしが発生する場合がある。この場合、ユーザの意図通りの文書属性とならないばかりか、失敗を認識できないまま処理は終了するため、ユーザによる発見が遅れるのとともに、誤った処理の特定のための調査や再処理などの事後処理の負荷がかえって増大するといった問題がある。
また、ユーザの操作ミスに起因した登録シートを含め紙書類の原稿を上下逆にセットしてしまう場合もある。この場合、イメージ文書は上下逆に記録されてしまうため、ユーザが記録されたイメージ文書の各ページを確認しながら、回転処理などの体裁を整える処理が必要である。さらに、ユーザの操作ミスに起因した紙書類の原稿を裏表逆にセットしてしまう場合もある。この場合も、ユーザが記録されたイメージ文書の各ページを確認しながら、ページ入替処理をするなどが必要であり、結局、ユーザの負荷が軽減されないといった問題がある。
さらに、両面読み取り機能を有するスキャナ等を利用した場合、登録シートおよびその裏面についても、通常はイメージ文書として記録されてしまう。この場合、上記同様ユーザが記録されたイメージ文書の各ページを確認しながら、削除処理などの体裁を整える処理が必要で、結局、ユーザの負荷が軽減されないといった問題がある。
従って、本発明の目的は、コンピュータを利用した文書管理において、登録シートから文書属性を判断できるようにし、以ってユーザの作業の負担を軽減することを目的とする。
上記課題を解決するために、請求項1記載の文書管理装置は、紙文書から電子化して作成したイメージ文書の属性情報に基づき保存先を決定する文書管理装置において、紙書類をスキャンし電子化したイメージ文書を作成するイメージ文書作成手段と、前記イメージ文書から属性を決定させるための属性識別用書類を抽出する属性識別用書類抽出手段と、前記イメージ文書中の前記属性識別用書類から文書属性情報を抽出する文書属性情報抽出手段と、前記文書属性情報に応じて前記イメージ文書をページ毎に体裁を整えるための整理処理する整理手段と、前記文書属性情報に基づいて前記イメージ文書を所定の場所に保存する保存手段とを備えることを特徴とする。
請求項2記載の文書管理装置は、請求項1記載の文書管理装置において、前記属性識別用書類抽出手段により抽出された属性識別用書類の位置を区切りとして、前記イメージ文書を分割する分割手段を備えることを特徴とする。
請求項3記載の文書管理装置は、請求項1または2記載の文書管理装置において、前記保存手段は、文書属性情報に基づいて文書名を付与し、特定される保存先に前記イメージ文書を保存することを特徴とする。
請求項4記載の文書管理装置は、請求項1または2記載の文書管理装置において、前記文書属性識別情報から上下区分が逆である場合は、前記整理手段はイメージ文書をページ毎に上下反転処理を行うことを特徴とする。
請求項5記載の文書管理装置は、請求項1または2記載の文書管理装置において、前記文書属性識別情報から裏表区分が裏である場合は、前記整理手段はイメージ文書を前のページと入れ替える処理を行うことを特徴とする。
請求項6記載の文書管理装置は、請求項1または2記載の文書管理装置において、前記文書属性識別情報からスキャン分が両面である場合は、前記整理手段はイメージ文書の属性識別用書類とその次のページとを削除する処理を行うことを特徴とする。
請求項7記載の文書管理装置は、請求項1または2記載の文書管理装置において、前記文書属性情報のシート順が、前のイメージ文書の文書属性情報のシート順に連続していない場合は、前記イメージ文書をエラーフォルダに保存することを特徴とする。
上記課題を解決するために、請求項8記載の文書管理方法は、紙文書から電子化して作成したイメージ文書の属性情報に基づき保存先を決定する文書管理方法において、紙書類をスキャンし電子化したイメージ文書を作成するイメージ文書ステップと、前記イメージ文書から属性を決定させるための属性識別用書類を抽出する属性識別用書類抽出ステップと、前記イメージ文書中の前記属性識別用書類から文書属性情報を抽出する文書属性情報抽出ステップと、前記文書属性情報に応じて前記イメージ文書をページ毎に体裁を整えるための整理処理する整理ステップと、前記文書属性情報に基づいて前記イメージ文書を所定の場所に保存する保存ステップとを備えることを特徴とする。
上記課題を解決するために、請求項9記載の文書プログラムは、紙文書から電子化して作成したイメージ文書の属性情報に基づき保存先を決定する文書管理方法をコンピュータに実行させるプログラムであって、紙書類をスキャンし電子化したイメージ文書を作成するイメージ文書モジュールと、前記イメージ文書から属性を決定させるための属性識別用書類を抽出する属性識別用書類抽出モジュールと、前記イメージ文書中の前記属性識別用書類から文書属性情報を抽出する文書属性情報抽出モジュールと、前記文書属性情報に応じて前記イメージ文書をページ毎に体裁を整えるための整理処理する整理モジュールと、前記文書属性情報に基づいて前記イメージ文書を所定の場所に保存する保存モジュールとを備えることを特徴とする。
本発明によれば、登録シートから文書属性を判断でき、以ってユーザの作業の負担を軽減しながらイメージ文書の管理をすることが可能となる。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
図1は、本発明の一実施形態に係るシステムの全体構成を示すブロック図である。
図1において、文書管理システム101は、紙書類からイメージを読取る画像読取装置102と、作成された、例えばPDF形式のイメージデータであるイメージ文書を記録しておく文書管理サーバ103と、作成されたイメージ文書のイメージデータにOCR処理を行い、紙書類の文書属性を示す文書属性データを付与し、イメージ文書の記録先を振り分けする振分サーバ104と、文書管理システム101のユーザが検索や閲覧のために操作する利用者端末105とを備え、これらの各装置を互いに接続するネットワーク106から構成される。
ここでの画像読取装置102は印刷機能を有した複合機を例として説明する。ユーザからの指示があれば、紙文書のイメージをスキャンする機能と共に、登録シート(識別用書類)を印刷する機能を有するものである。登録シートの例を図2に示すが、これは、シート名“文書登録シート“と共に、登録シートのタイトル202、登録シート番号203、文書名を記載した文書名領域206、保存先を記入した保存先領域207、さらに、ユーザが記入する領域のシート順204、スキャンの区分205、イメージ文書や保存先指定するチェックボックス206−1、207−1があり、それぞれの情報が記載されている。
また、画像読取装置102は、ユーザが行う作業を軽減するための自動原稿送り機能や両面スキャン機能を有するものである。さらに、PDF形式やTIFF形式などのイメージデータであるイメージ文書を作成する機能を有したものとして説明するが、この機能は、文書管理サーバ103や振分サーバ104など別の装置に有ってもよい。
文書管理サーバ103は、画像読取装置102で作成されたイメージ文書を一時的に記録するとともに、文書属性に応じて振り分けられたイメージ文書を記録しておくものである。
文書管理サーバ103の構成を図17示す。なお、振分サーバ104も利用者端末105も同様の構成を有するので、それらの説明は省略する。
図17において、文書管理サーバ103は、プログラムを実行するCPU11と、CPU11の主メモリやワークエリア等として機能するRAM12と、CPU11が動作するためのプログラムが格納されているROM13と、記憶装置としてのHDD14と、脱着自在な記録媒体にデータを記録可能な記録装置15と、表示機能を提供するビデオアダプタ16及び表示装置(不図示)と、入力装置としてのキーボード(K/B)17及びマウス18と、ネットワークに接続すると共に通信するデータを電気信号に変換するためのネットワークインターフェースカード(NIC:Network Inter face Card)19とを備える。
また、HDD14のイメージ文書を記憶する領域は、例えば図11に示すフォルダの構成である。一時フォルダ1101は、画像読取装置102で作成されたイメージ文書を一時的に記憶しておく領域である。保存先フォルダ1102は、この例では、出張清算書フォルダ1102−1や通勤定期代申請書フォルダ1102−2などのサブフォルダーを有し、文書属性に応じて振り分けられたイメージ文書を記憶しておく領域である。エラーフォルダ1103は、後述する振分処理においてエラーが発生されたイメージ文書を記憶しておく領域である。
振分サーバ104は、文書管理サーバ103が一時的に記憶しているイメージ文書に対してOCR処理を行い、紙書類の文書属性を示す文書属性データを付与するアプリケーションソフトを備える。また、振分サーバ104は、振分処理に必要となる登録シートを作成する等のための振分情報をHDD14に記憶している。
具体的な例としては、図8に示すユニークな登録シート番号に対応した登録シート名を定義した登録シートテーブル(TS)と、図9に示す登録シート番号毎に文書名記載領域206に記載する場合のポジションと文書名を定義した登録シート文書名テーブル(TB)と、図10に示す登録シート番号毎に保存先記載領域207に記載する場合のポジションとサーバ103に記憶する領域を特定する情報を定義した登録シート保存先テーブル(TH)である。
さらに、振分サーバ104は振分処理の結果である文書属性データをHDD14に記憶している。具体的な例としては、図4に示すOCR処理の結果を記憶したシステムコントロールテーブル(SC)と、図6に示す文書名および保存先を記憶した振分データテーブル(FD)と、図5に示すシート毎に区分を記憶したスキャンデータテーブル(SD)、および、図7に示すエラーが発生したイメージ文書を記憶するエラーチェックテーブル(EC)、および、図8に示す登録シート番号に対応した登録シート名を記憶した登録シートテーブル(TS)である。
なお、後述する振分処理ができるのであれば、ここに例示したそれぞれのテーブルおよびテーブル構成以外でもよく、さらに、ネットワーク106を通じて各装置間でデータの送受信が可能であるため、振分サーバ104以外の他の装置に記憶されたものであってもよい。
また、振分サーバ104は、OCR処理を行う領域を切り出すために必要となる画像切り出し位置情報(例えば、図3に示す301、302、302,304)とOCR処理結果を対応付けるデータ項目(例えば、「登録シート番号.」、「シート順」、「両面スキャン」など)とを記憶している。
利用者端末105は、文書管理サーバ103に記憶されているイメージ文書を表示したり、プリンター(不図示)による印刷を行ったりするためのものである。なお、エラーが発生したイメージ文書をユーザの指示を受け付けて編集したり、移動させたりする処理も行う。
ネットワーク106は、LANを例として説明するが、有線でも無線でもよいし、インターネットや公衆回線を利用したものでもよく、情報を送受信することができる通信回線であればよい。
図12は、文書管理システム全体によって実行させる処理のフローチャートである。
図12において、まず、読取装置102はステップS1501で、ユーザからの指示に基づき登録シート(図3)を印刷する処理を行い、ステップS1502でユーザによってセットされた紙書類をスキャンし、その結果のイメージ文書を文書管理サーバ103に一時的に記録する。次に、振分サーバ104はステップS1503で一時的に記憶されているイメージ文書から登録シートを抽出、OCR処理など行い、文書属性を判定する。さらに、ステップS1504で文書属性に応じて、シート毎に体裁を整えるための整理処理をした上、ステップS1505でイメージ文書を分割し、文書管理サーバ103の所定の場所に記録する分割保存処理をするものである。それぞれの処理について詳細を以下に説明する。
ステップS1501の登録シート作成処理は、画像読取装置102がユーザからの指示入力があれば、振分サーバ104に対して、登録シート番号「NO=15」を含んだ登録シート作成要求を出す。振分サーバ104はこの要求に対して、登録シートテーブル(TS)と登録シート文書名テーブル(TB)と登録シート保存先テーブル(TH)を参照して、登録シート番号「NO=15」に対応する登録シート名「経理部用シート」と、記載するポジションと文書名「01:出張精算費、02:通勤定期代申請」など、および、保存先「01:経理部¥経理関連、02:経理部その他」などの印刷シート作成情報を抽出する。次に、この情報から図3に示す様式で登録シートを作成し、印刷ジョブとして画像読取装置102に返す。画像読取装置102は、この印刷ジョブに対応して印刷処理をすることで、登録シートが作成される。
なお、本処理は、画像読取装置102がユーザからの指示入力を受け付け処理を開始するものとし説明したが、これは、利用者端末105がユーザからの指示入力を受け付け処理を開始するものであってもよい。
図13によりステップS1502のスキャン処理を説明する。ステップS1502のスキャン処理では、上記で作成された登録シートは、ユーザにより紙書類の一枚目に置かれ、読取装置102の自動原稿送り装置にセットされた後、スキャンの指示入力があれば、処理を開始する。
ステップS1601は、自動原稿送り装置により原稿が送り込まれると原稿をスキャンし、読取装置102内のメモリ(不図示)に記録する。なお、ユーザから両面原稿読み取り処理要求があれば、両面についてスキャンするものである。ここで、スキャンが正常に終了すれば、つまりステップS1602でYESであればステップS1603に進むが、異常が発生すれば、つまりステップS1602でNOであればユーザに対して警告情報を表示し、正常にスキャンできるまで繰り返す。
ステップS1603で自動原稿送り装置にセットされた原稿の有無を判断して、次の原稿が存在する場合、つまりステップS1603でNOであればステップS1601に戻り、すべての原稿のスキャンが終了し次の原稿が存在しない場合、つまりステップS1603でYESであればステップS1604に進む。
ステップS1604ではメモリ(不図示)に記録されたイメージデータを1つのPDF形式のイメージ文書ファイルに変換する処理をして、文書管理サーバ103の一時フォルダ1101に、日時分秒から作成したファイル名を付与し記録する。
なお、ファイル名はユニークなものであれば、ほかのルールに基づき作成するものであってもよい。最後に、ステップS1605で、読取装置102は振分サーバ104に対してファイル名を含んだ登録シート判定処理要求を送信しスキャン処理は終了する。
図14−1および図14−2によりステップS1503の登録シート判定処理を説明する。ステップS1503の登録シート判定処理は、ステップS1605で読取装置102が送信した登録シート判定処理要求を、振分サーバ104が受信した時点で開始する。また本処理は、振分サーバ104のHDD14に記録されているプログラムによる制御に従ってCPU11が行うものである。
先ず、振分サーバ104はステップS1701で、システムコントロールテーブル(SC)、スキャンデータテーブル(SD)、振分データテーブル(FD)、エラーチェックテーブル(EC)の各テーブルのデータを削除し、イニシャライズ処理する。
次にステップS1702で、先に受信したファイル名からイメージ文書ファイルを文書管理サーバ103の一時フォルダ1101から読み込み、RAM12に記録する。あわせて、総ページ数を得るために最終ページ番号を取得し、この値でシステムコントロールテーブル(SC)の最終ページ番号を更新する。
次に、ステップS1703で現在のページ番号を示すnを“0”に更新し初期化し、ステップS1704で、nをインクリメントした上で(n=1)、ステップS1705で、スキャンデータテーブル(SD)にページ番号“1”のレコードを作成する。このとき、現在のページが最終ページであるかを判断するため、ステップS1706でnをシステムコントロールテーブル(SC)の最終ページ番号と比較し、同一であればYESの方向に進み、ステップS1707でシステムコントロールテーブル(SC)の最終ページ区分のデータを“1”に更新した上で、次のS1708の処理に進む。
次に、ステップS1706でイメージ文書のn(=1)ページ目のイメージデータのみを切り出し、RAM12に記録する。次に、このイメージデータに対して、OCR処理をするために、さらに、画像切り出し位置情報(例えば、図3に示す301、302、302,304)に基づきイメージデータを切り出す。
なお、イメージデータは上下が逆の場合もあるので、切り出す位置も上下が逆の位置に相当する部分も切り出し、RAM12にさらに記録する。次に、切り出されたそれぞれのイメージデータに対してOCR処理を行い、その結果を位置情報と共にRAM12に記録する。例えば、切出位置301のOCR処理結果は“文書登録シート”、切出位置302のOCR処理結果は、“15“と記録する。なお、ここで行うOCR処理は、周知の技術を利用したものである。
この結果から、ステップS1710で文書登録シートであるかを判断する。つまりシート名位置のイメージデータのOCR結果データに“文書登録シート”と同じデータがあるかを検索し、無ければ、つまりステップS1710でNOの場合、ステップS1722に進む。
ステップS1722では、白紙か実紙かを判断する。つまりOCR処理の結果のいずれかがデータ“なし”でない場合、つまりステップS1722でNOの場合、ステップS1724に進み、スキャンデータテーブル(SD)のシート区分を2(実紙)としレコードを追加する。また、OCR処理の結果が全てデータ“なし”である場合、つまりステップS1722でYESの場合、白紙と判断してステップS1723に進みスキャンデータテーブル(SD)のシート区分を0(白紙)としレコードを更新し、後述するステップS1807に進む。
一方、ステップS1710の処理でYESの場合、当該ページが登録シートであると判断した場合、ステップS1711の処理でスキャンデータテーブル(SD)のシート区分データを1(登録シート)としレコードを更新する。
次に、ステップS1712で原稿がユーザのミスにより上下逆でスキャンされたかを判断する。つまり文書登録シートのデータがあった切出し位置が上下正常の位置のものであれば、つまりステップS1712でNOの場合はステップS1714に進む。逆に、上下逆の位置のものであれば、つまりステップS1712でYESの場合、ステップS1713に進み、システムコントロールテーブル(SC)の上下区分データを1(逆)に更新する。
また、ステップS1714で原稿が両面読取装置を利用し読み取られたかを判断する。つまり両面スキャン情報位置のイメージデータのOCR結果データに、“レ”が有るかをステップS1714で検索し、無ければ、つまりステップS1714でNOの場合、ステップS1718に進むが、有れば、つまりステップS1714でYESの場合、当該原稿が両面読取装置を利用してスキャンされたデータであると判断し、ステップS1715でスキャンデータテーブル(SD)のスキャン区分データを“1”に更新する。
なお、ここでは、登録シートにユーザが記載し、そのイメージデータを利用しOCR処理して判断するものとし説明したが、ステップS1605で、読取装置102が振分サーバ104に対してファイル名を含んだ登録シート判定処理要求を送信するとき、両面スキャンかどうかの情報を送信し、この情報から振分サーバ104が判断するものであっても良いし、設定情報をイメージ文書に埋め込み、この情報から振分サーバ104が判断するものであっても良い。
また、ステップS1716で登録シートがユーザのミスで裏面にセットされたかを判断する。つまり現在のページ番号を2で除算をし、余りがあれば、つまりステップS1716でNOの場合、S1718に進むが、偶数であれば、つまりS1716でYESの場合、裏面にセットされたと判断してステップS1717でシステムコントロールテーブル(SC)の表裏区分を1(裏)に更新する。
さらに、ステップS1718で登録シートが自動原稿送り装置の不具合による読み取りミスやユーザの原稿セットミスなどがなかったかを判断する。つまりシステムコントロールテーブル(SC)のシーケンス番号をインクリメントして、シート順情報位置のイメージデータのOCR結果データと一致している場合、つまりステップS1718でNOの場合、ステップS1720に進み、一致していない場合、つまりステップS1718でYESの場合、読み取りミスなどが発生したと判断して、ステップS1719でエラーチェックテーブル(EC)の登録シート番号とシーケンス番号のデータを、OCR結果である登録シート番号およびシート順のデータとしてレコードを追加する。
なお、ステップS1719の処理をする時点でシステムコントロールテーブル(SC)に記憶されているシーケンス番号は、イニシャル値、または、前に処理をした分割イメージ文書のシーケンス番号である。
そのため、エラーチェックテーブルに追加されるシーケンス番号は、上記シーケンス番号となる。つまり、このような処理とすることで、エラー処理の対象は、登録シートを読み飛ばしたりしたときは、不要なデータを含んでいる可能性のある、前に処理をした分割イメージ文書にすることが可能となる。さらに、以降の分割イメージ文書について同様の処理を繰り返すことで、正常なシーケンス番号が続くのであれば、それらはいずれもエラー処理の対象にならいないこととすることが可能となる。
次に、ステップS1720でイメージ文書の記録先を特定するためのデータを作成する処理について説明する。OCR結果から、登録シート番号とシーケンス番号を読み出すと共に、文書名と保存先でチェックされたポジションを読み出し、それぞれの組み合わせを満たすデータセットを作成した上で、振分データテーブル(FD)に新しいレコードとして追加する。
そして、ステップS1721で、システムコントロールテーブル(SC)の登録シート番号、シーケンス番号をOCR処理結果のデータで更新し、登録シート判定処理を終了する。
なお、今回の説明では、“文書登録シート”というタイトルについて判定するものとし説明したが、これは、登録シートと登録すべき紙書類とが区別できるものなら、どのような文字、図形、記号などでも良いことはいうまでもなく、同様に“レ”で両面スキャンやポジションを判断するものと説明したが、データの有無を判断できるものであればよい。
さらに、ステップS1708で全ての切出しデータについて、OCR処理をするものとして説明したが、一旦、登録シートか否かを判断した後、登録シートである場合のみ、他の領域の切出イメージデータについてもOCR処理するものとしても良い。
更に、OCR処理による結果を用いるものとして説明したが、これが、パターンマッチング技術を利用するものであっても良い。
図15によりステップS1504の整理処理を説明する。ステップS1504の整理処理は、ステップS1503の登録シート判定処理が終了した時点で開始する。また本処理は、振分サーバ104のHDD14に記録されているプログラムによる制御に従ってCPU11が行うものである。
先ず、ステップS1801で、ステップS1721で更新したシステムコントロールテーブル(SC)の表裏区分、上下区分、最終ページ区分の各データを読み込み、RAM12に記録する。
ここで、上下区分のデータが“1”であるかを判断し、“0”の場合、つまりステップS1802でNOの場合はステップS1804に進み、“1”の場合、つまりステップS1802でYESの場合は、ステップS1803でRAM12に記録されているイメージ文書のnページ目のイメージデータに対して上下反転処理をした上でステップS1804に進む。
次に、表裏区分のデータが“1”であるかを判断し、“0”の場合、つまりステップS1804でNOの場合はステップS1807に進み、“1”の場合、つまりステップS1804でYESの場合、さらに偶数ページかをステップS1716同様の処理でページ番号から判断し、偶数ページでない場合、つまりステップS1805でNOの場合はステップS1807に進み、偶数ページの場合、つまりステップS1805でYESの場合は、ステップS1806で、ステップS1803でRAM12に記録されているイメージ文書の前(n−1)ページ目のイメージデータとnページ目のイメージデータとを入れ替える処理をする。なお、ここで行う上下反転処理およびページ入替処理は、周知の技術を利用したものである。
上記の処理を全てのページに対して行うために、ステップS1807で、最終ページ区分が“1”であるかを判断し、“0”の場合、つまりステップS1807でNOの場合はステップS1704に戻り次のページの処理を開始するが、“1”の場合、つまりステップS1807でYESの場合は、整理処理を終了する。
図16によりステップS1505の分割保存処理を説明する。ステップS1505の分割保存処理は、ステップS1504の整理処理が終了した時点で開始する。また本処理は、振分サーバ104のHDD14に記録されているプログラムによる制御に従ってCPU11が行うものである。
先ず、ステップS1901でスキャンデータテーブル(SD)を読み出し、シート区分が“1”となるページ番号の前のページごとに、イメージ文書を分割する。その結果の分割イメージ文書ファイルをステップS1902で、仮ファイル名を付与した上で、RAM12に記録する。ここで仮ファイル名は、ユニークなものであれば良いが、ここでは登録シート番号とシート順と時分秒で作成するものとして説明する。
次に、ステップS1903で、スキャンデータテーブル(SD)のシート区分が“0(白紙)”、または“1(登録シート)”である不要なページデータを削除する処理を行う。さらに、両面スキャンした場合は登録シートの裏面が不要であるため、ステップS1904で、スキャン区分が“1”であるかを判断し、“0”の場合、つまりステップS1904でNOの場合はステップS1906に進み、“1”の場合、つまりステップS1904でYESの場合は、シート区分が“1”となる次のページデータについても削除する。なお、ここでページ単位で行う削除処理は、周知の技術を利用したものである。
次に、エラーの発生した分の分割イメージ文書ファイルについての処理になるが、ステップS1906でエラーチェックテーブル(EC)にデータが無い場合、つまりステップS1906でNOの場合はステップS1908に進むが、エラーのデータがある場合、つまりステップS1906でYESの場合ステップS1907に進む。
また、ステップS1502で読み取りミスなどがあった分割イメージ文書ファイルかを判断するため、ステップS1907でエラーチェックテーブル(EC)のシーケンス番号と振分データテーブル(FD)のシーケンス番号を比較し、一致している場合、つまりステップS1907でNOの場合、ステップS1911の処理に進むが、一致していない場合、つまりステップS1907でYESの場合、ステップS1908に進む。さらに保存先の指定がされていないかを判断するが、ステップS1908で振分データテーブル(FD)の文書名、または保存先のポジションNOが“0”の場合、つまりステップS1908でNOの場合はステップS1911の処理に進み、ステップS1908で振分データテーブル(FD)の文書名、および保存先のポジションNOがともに“0”でない場合、つまりステップS1908でYESの場合はステップS1909の処理に進む。
次のステップS1909で、振分データテーブル(FD)の文書名および保存先のポジションNOから、登録文書文書名テーブル(TB)、および登録シートテーブル(TH)を検索した結果に応じて、ステップS1910でそれぞれに対応する保存先に、文書名をつけて文書管理サーバ103の保存先フォルダ1102に記録し、ステップS1913に進む。
なお、エラー処理の対象となる分割イメージ文書ファイルについては、ステップS1911で文書管理サーバ103のエラーフォルダ1103に記録した上で、ステップS1912でエラーチェックテーブル(EC)の対応するレコードを削除し、ステップS1913に進む。
ステップ1913で、RAM12から処理対象の分割イメージ文書ファイルを削除する。
上記の処理を全ての分割イメージ文書ファイルに対して行うために、ステップS1914で、RAM12に分割イメージ文書ファイルあるかを判断し、“ある”の場合、つまりステップS1914でYESの場合はステップS1906に戻り次の分割イメージ文書ファイルの処理を開始するが、“ない”の場合、つまりステップS1914でNOの場合は、分割保存処理を終了する。
上記の処理を終えて振り分けられた分割イメージ文書ファイルは、利用者端末105から検索が可能であり、検索後は分割イメージ文書ファイルの閲覧・印刷・修正・削除を行うことを可能とする。また本処理は、利用者端末105のHDD14に記録されているプログラムによる制御に従ってCPU11が行うものである。
分割イメージ文書ファイルを検索する場合、利用者端末105がユーザからのファイル検索指示があれば文書管理サーバ103に対して、分割イメージ文書ファイルの一覧情報要求を送信する。このとき、日時(タイムスタンプ)・文書名・保存先など検索範囲を限定するための条件を付加しても良い。
次に、要求に対する結果を受信し、表示装置(不図示)に一覧情報を表示する。次に、ユーザから指定された分割イメージ文書ファイルの表示要求があれば、PDF形式のファイルを表示するアプリケーションソフトを起動し、文書管理サーバ103から分割イメージ文書ファイルを受信の上、表示装置(不図示)に表示する。なお、ここで利用するアプリケーションソフトは汎用的なブラウザであってもよい。
また、検索対象の分割イメージ文書ファイルとしては、正常に振り分けられた分割イメージ文書ファイルだけでなく、エラーとして処理され、ステップS1911でエラーフォルダ1103に振り分けられた分割イメージ文書ファイルも含むものであってもよい。
上記同様、表示された一覧情報について、ユーザから指定された分割イメージ文書ファイルの表示要求があれば、PDF形式のファイルを表示するアプリケーションソフトを起動し、文書管理サーバ103から分割イメージ文書ファイルを受信の上、表示装置(不図示)に表示する。さらに、修正・削除の処理を行ったり、ファイルの名前を変え文書管理サーバ103の所定フォルダに保存する処理を行ったりする。ここでのファイルの検索・閲覧・印刷・修正・削除機能は、周知の技術を利用したものである。
なお、本発明は、上記実施の形態に例示したものに限定されるものではなく、本発明の要旨を逸脱しない範囲において適宜変更可能である。
また、本発明の目的は、以下の処理を実行することによって達成される。即ち、上述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)が記憶媒体に格納されたプログラムコードを読み出す処理である。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。
また、プログラムコードを供給するための記憶媒体としては、次のものを用いることができる。例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROM等である。または、プログラムコードをネットワークを介してダウンロードしてもよい。
また、コンピュータが読み出したプログラムコードを実行することにより、上記実施の形態の機能が実現される場合も本発明に含まれる。加えて、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
更に、前述した実施形態の機能が以下の処理によって実現される場合も本発明に含まれる。即ち、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行う場合である。
なお、図18に、上述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体のメモリマップを示す。
本発明の実施形態に係る文書管理装置の構成を示す図である。 図12のステップ1501で作成される登録シートの一例を示す図である。 図14−1のステップ1708で行うOCR処理のする部分を説明する図である。 実施形態のシステムコントロールテーブルのテーブル構造の一例を示す図である。 実施形態のスキャンデータテーブルのテーブル構造の一例を示す図である。 実施形態の振分データテーブルのテーブル構造の一例を示す図である。 実施形態のエラーチェックテーブルのテーブル構造の一例を示す図である。 実施形態の登録シートテーブルのテーブル構造の一例を示す図である。 実施形態の登録シート文書名テーブルのテーブル構造の一例を示す図である。 実施形態の登録シート保存先テーブルのテーブル構造の一例を示す図である。 図1における文書管理サーバ103のディレクトリ構成の一例を示す図である。 図1における文書管理装置によって実行される文書管理処理のフローチャートである。 図12のステップS1502におけるスキャン処理のフローチャートである。 図12のステップS1503における前半部分の登録シート判定処理のフローチャートである。 図12のステップS1503における登録シート判定処理の後半部分のフローチャートである。 図12のステップS1504における整理処理のフローチャートである。 図12のステップS1505における分割保存処理のフローチャートである。 図1における利用者端末2の構成を示すブロック図である。 本実施形態を示す文書管理装置で読み取り可能な各種データ処理プログラムを格納する記憶媒体のメモリマップを説明する図である。
符号の説明
101 文書管理システム
102 画像読取装置
103 文書管理サーバ
104 振分サーバ
105 利用者端末
106 ネットワーク
11 CPU
12 RAM
13 ROM
14 HDD
15 記録媒体ドライブ
16 ビデオアダプタ
17 キーボード
18 ポインティングデバイス
19 ネットワークI/F

Claims (9)

  1. 紙文書から電子化して作成したイメージ文書の属性情報に基づき保存先を決定する文書管理装置において、
    紙書類をスキャンし電子化したイメージ文書を作成するイメージ文書作成手段と、
    前記イメージ文書から属性を決定させるための属性識別用書類を抽出する属性識別用書類抽出手段と、
    前記イメージ文書中の前記属性識別用書類から文書属性情報を抽出する文書属性情報抽出手段と、
    前記文書属性情報に応じて前記イメージ文書をページ毎に体裁を整えるための整理処理する整理手段と、前記文書属性情報に基づいて前記イメージ文書を所定の場所に保存する保存手段と、
    を備えることを特徴とする文書管理装置。
  2. 前記属性識別用書類抽出手段により抽出された属性識別用書類の位置を区切りとして、前記イメージ文書を分割する分割手段を備えることを特徴とした請求項1記載の文書管理装置。
  3. 前記保存手段は、文書属性情報に基づいて文書名を付与し、特定される保存先に前記イメージ文書を保存することを特徴とする請求項1または2記載の文書管理装置。
  4. 前記文書属性識別情報から上下区分が逆である場合は、前記整理手段はイメージ文書をページ毎に上下反転処理を行うことを特徴とする請求項1または2記載の文書管理装置。
  5. 前記文書属性識別情報から裏表区分が裏である場合は、前記整理手段はイメージ文書を前のページと入れ替える処理を行うことを特徴とする請求項1または2記載の文書管理装置。
  6. 前記文書属性識別情報からスキャン分が両面である場合は、前記整理手段はイメージ文書の属性識別用書類とその次のページとを削除する処理を行うことを特徴とする請求項1または2記載の文書管理装置。
  7. 前記文書属性情報のシート順が、前のイメージ文書の文書属性情報のシート順に連続していない場合は、前記イメージ文書をエラーフォルダに保存することを特徴とする請求項1または2記載の文書管理装置。
  8. 紙文書から電子化して作成したイメージ文書の属性情報に基づき保存先を決定する文書管理方法において、
    紙書類をスキャンし電子化したイメージ文書を作成するイメージ文書ステップと、
    前記イメージ文書から属性を決定させるための属性識別用書類を抽出する属性識別用書類抽出ステップと、
    前記イメージ文書中の前記属性識別用書類から文書属性情報を抽出する文書属性情報抽出ステップと、
    前記文書属性情報に応じて前記イメージ文書をページ毎に体裁を整えるための整理処理する整理ステップと、
    前記文書属性情報に基づいて前記イメージ文書を所定の場所に保存する保存ステップと、を備えることを特徴とする文書管理方法。
  9. 紙文書から電子化して作成したイメージ文書の属性情報に基づき保存先を決定する文書管理方法をコンピュータに実行させるプログラムであって、
    紙書類をスキャンし電子化したイメージ文書を作成するイメージ文書モジュールと、
    前記イメージ文書から属性を決定させるための属性識別用書類を抽出する属性識別用書類抽出モジュールと、
    前記イメージ文書中の前記属性識別用書類から文書属性情報を抽出する文書属性情報抽出モジュールと、
    前記文書属性情報に応じて前記イメージ文書をページ毎に体裁を整えるための整理処理する整理モジュールと、
    前記文書属性情報に基づいて前記イメージ文書を所定の場所に保存する保存モジュールと、
    を備えることを特徴とする文書管理プログラム。
JP2006352551A 2006-12-27 2006-12-27 文書管理装置、文書管理方法、文書管理プログラム Withdrawn JP2008165386A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006352551A JP2008165386A (ja) 2006-12-27 2006-12-27 文書管理装置、文書管理方法、文書管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006352551A JP2008165386A (ja) 2006-12-27 2006-12-27 文書管理装置、文書管理方法、文書管理プログラム

Publications (1)

Publication Number Publication Date
JP2008165386A true JP2008165386A (ja) 2008-07-17

Family

ID=39694833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006352551A Withdrawn JP2008165386A (ja) 2006-12-27 2006-12-27 文書管理装置、文書管理方法、文書管理プログラム

Country Status (1)

Country Link
JP (1) JP2008165386A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011232811A (ja) * 2010-04-23 2011-11-17 Fujitsu Frontech Ltd 文書管理プログラム、文書管理方法及び文書管理装置
JP2013242713A (ja) * 2012-05-21 2013-12-05 Elecom Co Ltd 撮像対象用具を撮像した画像データを保存するための画像処理プログラム、装置および方法
JP2017117128A (ja) * 2015-12-22 2017-06-29 株式会社内田洋行 校務支援システム
CN109479081A (zh) * 2017-07-03 2019-03-15 京瓷办公信息系统株式会社 原稿读取装置
JP2021005317A (ja) * 2019-06-27 2021-01-14 キヤノン株式会社 画像処理装置、その制御方法及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011232811A (ja) * 2010-04-23 2011-11-17 Fujitsu Frontech Ltd 文書管理プログラム、文書管理方法及び文書管理装置
JP2013242713A (ja) * 2012-05-21 2013-12-05 Elecom Co Ltd 撮像対象用具を撮像した画像データを保存するための画像処理プログラム、装置および方法
JP2017117128A (ja) * 2015-12-22 2017-06-29 株式会社内田洋行 校務支援システム
CN109479081A (zh) * 2017-07-03 2019-03-15 京瓷办公信息系统株式会社 原稿读取装置
CN109479081B (zh) * 2017-07-03 2019-12-17 京瓷办公信息系统株式会社 原稿读取装置
JP2021005317A (ja) * 2019-06-27 2021-01-14 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
US11800024B2 (en) 2019-06-27 2023-10-24 Canon Kabushiki Kaisha Image processing apparatus having checking image data erroneous recognition, method for control the same, and storage medium
JP7446724B2 (ja) 2019-06-27 2024-03-11 キヤノン株式会社 画像処理装置、その制御方法及びプログラム

Similar Documents

Publication Publication Date Title
US8326090B2 (en) Search apparatus and search method
US8014039B2 (en) Document management system, a document management method, and a document management program
US7552381B2 (en) Check boxes for identifying and processing stored documents
KR100897635B1 (ko) 문서 관리 시스템 및 그 방법과 정보 처리 장치 및 그 제어 방법
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
JP2006120125A (ja) ドキュメント画像情報管理装置及びドキュメント画像情報管理プログラム
US8166382B2 (en) Data processing apparatus, method of registering electronic document, and computer program
US20050105116A1 (en) Document processing apparatus and document processing method
CN100545846C (zh) 文档搜索设备和方法
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US20060262347A1 (en) Information processing apparatus and device selection method
US8379253B2 (en) Structured document conversion apparatus, structured document conversion method, and storage medium
JP2005025736A (ja) ドキュメント管理方法、ドキュメント管理プログラム及びドキュメント管理システム
JP6786658B2 (ja) 書類読取システム
JP2006065524A (ja) 文書処理装置および方法
US8144988B2 (en) Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
JP5426843B2 (ja) 情報処理装置、情報処理方法、プログラムおよびプログラムを格納する記憶媒体
JP2008165386A (ja) 文書管理装置、文書管理方法、文書管理プログラム
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
US7698630B2 (en) Document administration apparatus, document administration method, storage medium storing computer-readable program, and program
JP5207688B2 (ja) 画像処理装置および統合ドキュメント生成方法
US12101449B2 (en) Image forming apparatus, image forming system, and image forming method for determining a file name for scanned image data
US20060209106A1 (en) Document management apparatus, document management method, program for implementing the method, and document management system
JP4811133B2 (ja) 画像形成装置及び画像処理装置
US8194982B2 (en) Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100302