JP2008129792A - 文書処理システム - Google Patents

文書処理システム Download PDF

Info

Publication number
JP2008129792A
JP2008129792A JP2006313146A JP2006313146A JP2008129792A JP 2008129792 A JP2008129792 A JP 2008129792A JP 2006313146 A JP2006313146 A JP 2006313146A JP 2006313146 A JP2006313146 A JP 2006313146A JP 2008129792 A JP2008129792 A JP 2008129792A
Authority
JP
Japan
Prior art keywords
ocr
function
data
processing system
document processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006313146A
Other languages
English (en)
Inventor
Takeshi Hayakawa
武志 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2006313146A priority Critical patent/JP2008129792A/ja
Publication of JP2008129792A publication Critical patent/JP2008129792A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】 バックエンドシステムで利用されるOCR処理を行うワークフローにおいて、帳票フォームを登録したり、既存の帳票フォームを修正したときにワークフローに影響を与えないのが理想である。従来は古い帳票フォームでOCRしたデータは最初からやりなおすしかなく、一度オペレータにより修正した文字データもOCRされてしまい、再度修正しなければならないため、上記のようなメンテナンスにより多くの工数が発生していた。
【解決手段】 前記課題を解決する手段として、本発明では既存の帳票フォームに対し、修正/変更が行われる場合に、修正箇所のみの差分帳票フォームを作成し、データ内容に差異が生じた場合は必要となる差分フォームを用い再OCR処理を行う。
【選択図】 図4

Description

本発明は画像データから文字情報を抽出するための技術に関する。
従来の文字認識装置及びOCR(Optical Character Reader)技術では、入力された画像データから特定の領域を参照し、その領域内に記載されている文字を読み取り、読み取った文字の特徴と、登録フォームに設定されている文字認識用の辞書から近似するものを比較し、画像に記述されている文字(または候補文字)を特定するパターン認識処理を行っている。これら特定された文字の一致精度は、画像データに記述されている筆記状態よって大きく変動する。そのため画像データの文字と認識した文字が、認識のたびに完全に一致させることは現在の技術では困難である。そこで、文字認識を行った結果を表示し、オペレータの手によって確認作業を行い誤認識している文字に関しては手作業で補完していた。
1日に数千枚を扱うような大規模なシステムにおいて上記のような帳票記入文字を認識させるOCRの需要は多い。もちろん正確なデータで運用するにはオペレータの介在が必須であるため規模に比例し作業量も増えてしまう。また大規模になればコンピュータのディスク領域やデータ管理方法への影響も無視できない。それでも電子化するメリットが大きいため現在までに負荷軽減する様々な手法(学習機能を設けた辞書や、特定領域に分割しての画像保存など)が考案されてきた(特許文献1〜特許文献3参照)。
このように小規模から大規模まで幅広く運用できるようになったことや、企業の電子データ化の動きに伴い、OCR技術は銀行や証券会社など様々な業種で使用されるようになってきた。これらの導入先は自社内でOCR技術を持たないため、既存の運用システムにOCRモジュールを付け加えるようなシステム構築を行うことが多い。そこで、それら(バックエンド側のシステム)に対しOCR機能を備えるワークフローシステムが提供されるようになった。
図13はOCR機能を備えるワークフローのシステム構成図である。本発明は0001の情報通信網によってネットワークが構築されている環境を実施例として想定する。ネットワークは近傍(ビル内やフロア内)のコンピュータをデータ転送能力を持つ方法で接続したLAN環境や、遠隔にある前記LANを、公衆回線を使い接続したWAN、さらにLAN、WANを専用線もしくは電話回線によって接続した巨大なネットワーク網であるインターネットのことである。0002〜0005はネットワーク通信機能をもつ情報処理装置である。一般的なパーソナルコンピュータが該当するため、以下PCと表記する。図1.1に示す通り、本システムの実施例では複数のPCによりシステム構成が成される。各PCの役割は、0005をサーバとし、0001〜0004までをクライアントとする。(もちろん図13に示す以上のPC台数で構成されてもよい)0005のサーバPCは特定のサービスを提供するシステムの位置付けでデータベースサービスをはじめ、ファイルサービスや プリントサービスなどの機能提供を行う。0001〜0004はそのサーバからのサービスを利用するクライアントPCである。0006はネットワーク機能と画像を読み取り電子データを生成するスキャナ部と生成されたデータを保持する機能と生成されたデータを印刷する機能を有した画像形成装置で、以下Multi Function Printer:MFPと表記する。
特開平07-200731号公報 特開2003-150906号公報 特開平11-316802号公報
前記のOCR機能を備えるワークフローシステムでは、バックエンド側に送るデータが正確でなければならない。従来のようにオペレータが修正を行う部位に加え、データの正当性(バックエンドで要求されたデータかどうか)のチェックなども必要な機能となる。また、画像データの入力方法もバックエンドにより変化するため柔軟な構造を用意する必要がある。(例えば、Fax用紙のスキャン認識や、電子データのOCR、定期的に大量のスキャンを行う場合などである)さらに上記のデータの整合性に加え、帳票フォームのメンテナンスもOCR機能を備えるワークフローシステムで行う必要がある。
これらのOCR機能を備えるワークフローでは、常時ワークフローを滞らせないことが課題である。帳票フォームの登録や修正のたびに業務を停止させるのでは、効率が非常に悪く、また夜間バッチなど大量のデータを扱う状況でも、通常のワークが行われるような仕組みを提供する必要がある。また、帳票フォームの修正によってバックエンドへ送るデータに差異なく保つ必要がある。従来このようなワークフローでは帳票フォームが修正変更された場合、これまで行った結果も全てOCRし直さなければならなかった。例として、図1の帳票フォーマットを用いて説明する。1001はスキャンされた帳票の全体である。1002は利用者が記入する欄を表す。1003は利用者が記入した中のOCR対象とする1番目の領域である。1004は利用者が記入した中のOCR対象とする2番目の領域である。図2は帳票フォーム1001に第3のOCR領域2005を付け加えたものである。
2001はスキャンされた帳票の全体で、2002は利用者が記入する欄を表す。2003は利用者が記入した中のOCR対象とする1番目の領域である。2004は利用者が記入した中のOCR対象とする2番目の領域であることに変わりはない。
今、図1の1002の利用者記入欄に手書き文字が記入されて送られてきたとする。このときワークフローのOCR機能部は、帳票フォーム1001と特長を比較し対象イメージが帳票フォーム1001に該当すると判断する。次に帳票フォーム1001に設定されているOCR箇所1003と1004を確認しOCR処理を行う。次にこの帳票フォーム1001が2001のフォームに修正されたとする。以後利用者記入欄に手書き文字が記入されて送られてくるものは2001のフォームと特長を比較し対象イメージが帳票フォーム2001に該当すると判断する。この場合は2003〜2005の領域について文字認識を行う。
図3はOCR機能によって文字認識された結果保持部である。3001は領域全体をあらわす。この領域は外部との通信機能を有する情報機器上のメモリに作成される。(例:ネットワーク通信機能を有するコンピュータのデータベースなど)3002、3003は格納されているデータをあらわす。特に3002は前記1001の帳票フォームでOCR処理を行ったもの、3003は前記2001の帳票フォームでOCR処理を行ったものとする。このとき文字認識結果領域3004に差異があることがわかる。3002の結果では帳票フォーム1001の1003、1004の2個の領域分のデータしか格納することができない。それに対し3003の結果では帳票フォーム2001の2003、2004、2005の3個の領域分のデータを格納することができる。このように帳票フォームが変更になることで、同様の形式の画像イメージをOCRしてもデータの内容に差異をもつことになってしまう。
バックエンドシステムに対し前記のような、同じ種類の画像の認識結果に差異を持つデータ(いわゆる整合性のないデータ)を送ってしまうことはワークフローとして重大な欠点となる。
従来、このような課題を解決する手法として、図3の結果保持部3001を定期的に監視し、データ内容に差異が生じた場合、欠落しているデータをもつ画像イメージを再度新しい帳票フォームでOCRするというものがある。しかしながらこの方法であると既に、オペレータが修正し正しく確定させてしまったデータに対しても再度OCRを行うため、1回目と同様に誤認識して再度オペレータが修正しなければならなかった。(図3で表せば3004のゾーン1とゾーン2に関しては再OCRする必要がない)
前記課題を解決する手段として、本発明では既存の帳票フォームに対し、修正/変更が行われる場合に、修正箇所のみの差分帳票フォームを作成し、データ内容に差異が生じた場合は必要となる差分フォームを用い再OCR処理を行う。
帳票フォーム修正によって発生する再OCR処理の高速化、及び作業軽減が行え、バックエンドに送るデ−タの整合性を保つことができる。
図4は本発明の実施例で考えられる、バックエンドにOCR機能を提供するワークフローシステムである。4001はOCR対象の元となる紙帳票である。4002はネットワーク機能と画像を読み取り電子データを生成するスキャナ部と生成されたデータを保持する機能と生成されたデータを印刷する機能を有した画像形成装置である。(以下Multi Function Printer:MFPと表記)4003はOCR機能の一部である帳票認識機能をあらわす。この機能はネットワーク通信機能を持つ情報機器(以下パーソナルコンピュータ:PCと表記)上で動作する。4004はPCから抽出する文字領域に従いOCRを行い、その結果をオペレータが修正する部位である。この作業もPCを用いて行われる。ただし4002を動作させるPCと同一のマシンである必要はない。4005は4004にて修正された文字データを4006のバックエンド側に送ってよいかどうかの承認処理を行う部位である。4003、4004同様にPC上で作業を行うが、これも同一のマシンである必要はない。4006はワークフローの提供先であるバックエンドシステムである。本実施例ではどのようなバックエンドシステムかは明示しないが、銀行の自動申し込みシステムや、お中元自動発注登録システムなどが導入先として考えられる。もちろんその他のシステムでも前記ワークフローを有効に活用できることはいうまでもない。4007は帳票投入者、4008は文字修正者、4009は承認者である。
今、4007の帳票投入者によってMFPに4001の手書き入力がされている紙帳票がスキャン実行されたとする。スキャンされた内容に相当する電子データがMFP内で生成される。生成された電子データはMFPとPC間の通信経路を介し4003の帳票認識部へと送られる。4003は送られてきた電子データに対し、あらかじめ登録されている帳票フォーム郡から特徴の一致するものを探し出す。帳票フォームとは紙帳票の特徴(枠線座標など)を有するものである。一致する帳票フォームが見つかった場合は4004へ進みOCR処理が行われる。OCR処理とは1001に示す、紙帳票からOCRを行う領域や文字認識時に使用する辞書情報をもつファイルを参照し、必要な情報を取得し文字認識を行う。文字認識が行われた結果は4008の持つPC上で閲覧することができる。4008の文字修正者はOCRで文字認識された文字と実際の紙帳票の文字が一致しているかを確認し、不一致な場合はPCを介し所定の情報を修正する。修正が終わった結果はPC上に保持される。(結果を保持するPCは4008の使用するPCでも良いが、一般的にはネットワークを介して使用できるデータベースに保持する)次に4005の与信処理が4009によって行われる。4005は4008が修正したデータの整合性をチェックし、4006のバックエンドシステムに情報を流してよいかの判断を下す。承認された場合は4006に送られる。
図5は図4のワークフローを帳票修正用に追記したものである。5001〜5006の部位は図4と同様であり5001はOCR対象の元となる紙帳票である。5002はMFPである。5003はPC上で動作させるOCR機能の一部である帳票認識機能をあらわす。5004はPCから抽出する文字領域に従いOCRを行い、その結果をオペレータが修正する部位である。5005は5004にて修正された文字データを5006のバックエンド側に送ってよいかどうかの承認処理を行う部位である。5006はワークフローの提供先であるバックエンドシステムである。追加された5007は文字認識結果を保持しておくデータベースである。5004の修正結果を保持しておき、5010の承認がおりた場合は5006のバックエンドへとデータが送信される。図では与信処理内に組み込まれているが、ネットワークを介して使用できるデータベースであればどこにあってもよい。5008は与信処理をさらに細分化したもので、特に帳票の登録/修正/管理を行う管理者である。5009は5004が修正した結果を5007を介して参照し、整合性のチェックを行い承認を下すものである。5010は同様に最終承認をする者である。5011は修正された帳票をあらわし、5012は帳票フォームを保持しておくデータベースである。
今、5009承認者が5007のデータをみて、帳票の間違いに気づき、帳票フォームの修正が必要になったとする。まず帳票フォームを管理している5008に通知を出し、該当フォームの修正を依頼する。5008は依頼を受け修正した帳票フォーム5011を作成する。作成された5011はデータベース5012に保持され、以後MFP5002から帳票フォームを参照する際に使用される。
図6は本発明の帳票認識とOCR処理に関する処理フローチャートである。S6001は前記4002のMFPにスキャン対象画像が投入されることを表す。S6002は図5の5012の帳票フォームデータベースを参照し、フォーム情報を取得する。次にS6003で取得した帳票フォームとスキャン画像と特徴が一致する物を探しだす。ここで一致するものがない場合は、S6004で不明帳票フォームと判定されOCRは不要となり処理を終了する。一致するものが見つかった場合はS6005においてOCR処理を行い、文字認識を行う。このOCR処理は本発明の修正帳票フォーム、統合帳票フォームを使用する2種の形態があるので別フロー図10で説明する。文字認識を行った結果はS6006で前記5007の認識結果データベースに保存されることとなる。次にS6007において保持されている結果を図4、4008の文字修正者が整合性のチェックを行い、誤認識の結果を手動で修正していく。修正結果はS6008で与信が行われる。与信の結果正しいデータとみとめられた場合には、S6009で図5の認識結果データベース5007に保存し5006のバックエンドに送信する。S6008の判定処理で、与信結果が不正であると判断された場合S6010に進み、帳票フォームの修正が必要かどうかの判断をくだす。帳票フォームの修正が不要な場合は、S6011で図4、4008の文字修正者に再度文字のチェックを行うよう通知しS5008へ戻る。S6010にて帳票フォームの修正が必要だと判断した場合には、S6012の帳票フォーム修正フローへと進む。
図7は前記S6012の帳票フォーム修正フローの詳細である。帳票フォーム修正を行う場合は、S7001で図5の帳票フォームデータベース5012から修正対象となるフォームの情報を取得する。それをもとにS7002で修正処理を施し、S7003で既存のものと差異が生じたかの判定を行う。ここで相違点がみつからない場合は、修正はおこなわれなかったとしてフローを終了する。相違点が検出された場合には、S7004で帳票フォームの差分情報を抽出する。(すなわち修正が行われた箇所をピックアップする)次にS7005で帳票フォームを識別する修正IDを割り振り、図5の帳票フォームデータベース5012に登録する。修正IDについては図8で説明する。S7006では差分帳票フォームをもとに、それらを統合した帳票フォームを作成し、S7007にて帳票フォームデータベース5012に登録し、フローを終了する。
図8は帳票フォームデータベース5012の登録内容をあらわしたものである。8001はデータフィールドをあらわし、帳票ごとにユニークな値となる帳票IDを記録する。8002は修正された帳票に付加される修正IDを記録する。この値もユニークである。8003は帳票種別のデータフィールドをあらわし、原本、修正、統合の3種のステータスを持たせる。8004は帳票IDに対応する帳票フォームファイルを記録する。8005〜8007はOCR領域の情報を記録する。OCR領域の情報とは、領域の座標や前処理の手法、使用辞書などである。図8では代表的な例として辞書名と座標を示す。8008は登録されている帳票IDである。1001のIDを持つものが登録されている。(例として図1の帳票が登録されているわけである)8009は他のID2001をもつものである。(例として図2の帳票が登録されているわけである)8010は帳票フォーム8008に修正を加えたフィーム1001_1が登録されていることを表す。(1001_1は図9で説明する)8011は8008の帳票フォームの種別を表す。「原本」のステータスは最初に作成されたフォームであることを示す。8012は8010の帳票フォームの種別を表す。「修正」のステータスは8008に修正を加え作成された修正帳票フォームであることを示す。8013は8009の帳票フォームの種別を表す。「統合」のステータスは8008とその修正フォーム8010のフォームを統合した包含帳票フォームであることを示す。8014には実際に帳票フォームファイル名が登録されている。図8ではファイル名に帳票名+ID、ファイル拡張子に.pafを用いているが、実際の運用形態はこの限りではない。8015は帳票ID1001、2001及び修正ID1001_1のOCR領域に設定されている値である。それぞれ辞書名とOCR領域の座標が登録されていうる例である。
図8は帳票フォームデータベースの一実施例であるが、このように帳票IDと修正IDを持つことで、フォームの対応付けがなされているのが望ましい。S6005やS7001およびS7005での処理が効率よく行えるからである。また8009の帳票ID2001のフォームは図7、S7006で作成される統合フォームである。8015のフィールド情報は、8008、8010の帳票ID/修正IDの情報を包含した形で設定される。これは本発明の1つの特徴である。この統合フォーム8009を作成することで、再OCRの場合と、新規OCRの場合で使い分けることができ、OCRにかかる作業工程を減らすことができる。
図9は図8の帳票フォームデータベースに登録されているフォームの例である。帳票フォーム9001は図8の8008(帳票ID1001)のフォームである。9001は9002と9003の2つのOCR領域をもつ。それらの情報は8005、8006のフィールドで設定されている。帳票フォーム9002は図8の8010(修正ID1001_1)のフォームである。9002は9005のOCR領域をもつ。その情報は8007のフィールドで設定されている。帳票フォーム9006は図8の8009(帳票ID2001)のフォームである。9006は9007と9008と9009の3つのOCR領域をもつ。それらの情報は8005、8006、8007のフィールドで設定されている。このように帳票フォーム9006は9001、9004のフォーム情報を包含していることを特徴とする。
図10は図6のS6005のOCR処理の詳細フローチャートである。図8の帳票フォームデータベースの内容をもとにOCR処理のフローを表す。図6のS6004で不明帳票の場合の処理が行われているので、図10のフローチャートには不明帳票が混入されていることはない。まずS10001でOCR処理を依頼された帳票が新規帳票であるか、再OCRであるかを判定する。(依頼指定方法の実施例については後述する)新規OCRである場合は、S10002で図8、8003の帳票種別が「統合」になっている物から一致するものを探す。ここでは帳票8009が該当する。「統合」ステータスが複数ある場合でも、それらの帳票フォームに対しOCRエンジンが帳票認識を行うことで、どの帳票と一致するかが明示される。次にS10003で取得したフォーム情報より各ゾーンにおいてOCRを行い終了する。結果は図6のS6006で認識結果データベースに保存される。(認識結果データベースは図11で説明)S10001で再OCR依頼であった場合にはS10004で認識結果データベースより帳票IDを取得する。S10005で取得した帳票IDと図8の帳票種別が「修正」になっているものの8002データフィールドに保持されている修正IDとを比較する。結果が一致した場合は現在最新の修正帳票結果なので、OCRを行わないで終了する。不一致であった場合は、再OCRの必要ありとみなされる。修正は修正帳票の回数行われる。S10006で最新の修正IDかどうかの判定を行い満たさすまで繰り返す。S10007は文字認識のOCR処理で、該当する修正IDをもつ帳票フォームから情報を取得しOCRを行う。OCRが終わったら、S10008にて修正IDを更新しS10006に戻る。最新の修正IDになった場合はフローを終了し、図6のS6006で示される認識結果データベースに保存される。
図11は認識結果データベースの実施例である。11001はワークIDのデータフィールドをあらわす。本実施例では各認識結果にワークIDを割り振り、現在何件のOCRが完了したかを示すIDとしている。IDは連番で登録した順にユニークに割り当てられる。(ワークIDは本発明の特徴ではない)11002はワーク状態のデータフィールドをあらわす。この値は主に図4の4008、4009などによって参照され、どのようなジョブが保持されているかの目安となる。(未承認の他に、承認済み、修正待ちなどの状態が考えられるがワーク状態は本発明の特徴ではないため、詳細は記述しない)11003は帳票IDのデータフィールドをあらわす。この帳票IDは最後にOCRをしたフォームのIDが割り振られる。11004は帳票フォーム名のデータフィールドをあらわす。図8の8004に登録されているフォーム名から使用したものが登録される。11005、11006、11007はOCR処理後の認識文字データを格納するデータフィールドである。各帳票フォームの設定情報をもとにOCRされた結果が格納される。該当ゾーンがないものに関しては「×」印などを格納し、データがないことを明示的にあらわす。11008〜11011は格納されている帳票IDである。11012はワークごとに格納されているワーク状態である。11013はワークごとに格納されている帳票フォーム名である。11014はワークごとに格納されている文字認識結果である。これらの値からどのようにOCR処理を依頼するかを、次の図12を使い説明する。
今、文字認識した結果が図11に示す認識結果データベースに保持されていて、図5の帳票修正ワークフローの管理者5008から図9の9001帳票フォームについて、9002のように修正処理が行われたとする。このとき前記の通り、統合帳票フォーム9006は自動的に作成され、図8の帳票フォームデータベースに反映される。その後いくつかの帳票が入力されOCR処理を行い図11の認識結果データベースが更新されたとする。
図12は再OCR通知処理のフローチャートである。S12001は定期的に図8の帳票フォームデータベースの内容を参照し確認する。S12002は帳票修正フォームが追加されたかを判定する。追加がない場合は引き続き監視にもどる。今、9002帳票フォームが追加されたので、追加有りと判断しS12003に進む。S12003は図11の認識結果データベースの帳票IDフィールド11003に追加された9002帳票フォーム以前のフォームでOCRされた物がないかを探す。S12004で判定を行い、該当なしの場合は始めの監視処理に戻る。ここでは、図8帳票ID11008と11009が該当する。このように該当があった場合はS12005に進みOCR処理を行う。OCR処理は図10の手順で行われる。OCRで得られた文字認識結果をS12006で図11の認識結果データベースに更新し、作業を終了する。
このように本実施例では、帳票フォームに修正用を識別するIDをもたせ、定期的に文字認識結果を監視することで、データに差異があった場合に自動的にOCRを行わせ、常に最新の帳票フォームデータでのOCRを結果として保持することができる。
[その他の実施形態]
また、本発明の目的は、以下のようにすることによって達成されることはいうまでもない。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行する。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
また、コンピュータが読み出したプログラムコードを実行することにより、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行う。その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれたとする。その後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
一般的な帳票フォームを示すものである。 図1の帳票フォームに修正を加えたものである。 OCR結果保持部示すものである。 実施例の1つとしてのOCR機能を持つワークフローである。 実施例の1つとしての帳票修正のワークフローである。 実施例の1つとしての帳票認識とOCR処理のフローチャートである。 実施例の1つとしての帳票フォーム修正フローチャートである。 実施例の1つとしての帳票フォームデータベースの登録内容である。 実施例の1つとしての帳票フォームである。 図6に記載されているOCR処理の詳細フローチャートである。 実施例の1つとしての認識結果データベースの登録内容である。 実施例の1つとしての再OCR通知処理のフローチャートである。 OCR機能を備えるワークフローのシステム構成図である。

Claims (7)

  1. OCR機能を使用し、入力された文書画像データから、特徴を抽出する手段と、抽出された画像の情報と、OCR機能として予め登録されている複数の画像(複数の登録フォーム)との特徴情報を比較して、最も近似する結果を得られる登録フォームを識別するフォーム識別手段を有し、また、登録フォーム内に設定項目(OCR領域や辞書情報)のみが異なるフォームを、関連のあるフォームとし原本フォームと差分フォームの区分を設け認識する手段をもち、差分フォームまたは原本フォームと特徴の一致する文書画像データを識別した場合に、原本フォームおよび差分フォームに設定されている情報をもとにOCRを行い、フォームに設定されている領域に記述されている文字と最も特徴の近い文字を特定し、それぞれのフォームでの結果を合わせて、文書画像データの文字認識データとする手段を有することを特徴とする文書処理システム。
  2. OCR機能として入力画像と比較し得る登録フォームを作成する機能を有し、その登録済みのフォームに修正/変更を加える場合に、修正前との差分のみを新規フォームとして登録し保持する機能を有することを特徴とする請求項1記載の文書処理システム。
  3. 請求項2で作成された新規フォームに対し、再度修正/変更を加えた場合には、連鎖的に同様の差分情報をもつ新規フォームを作成し、登録し保持する機能を有する請求項1記載の文書処理システム。
  4. 請求項2または請求項3で作成された新規フォームがどの登録済みフォームから生成されたものなのかを関連つけるための識別子を保持する機能を有することを特徴とする請求項1記載の文書処理システム。
  5. 請求項2または請求項3で作成された、関連付けされている複数のフォームを包含する1つの新規フォームを作成し、登録し保持する機能を有することを特徴とする請求項1記載の文書処理システム。
  6. 文書画像データの入力経路により、請求項2または請求項3の複数のフォームを用いる場合と、請求項5の1つのフォームを用いる場合を自動的に使い分ける機能を有することを特徴とする請求項1記載の文書処理システム。
  7. 請求項1の文書処理システムで特定した文字情報データを保持する機能を有し、保持されたデータの内容から、登録データの該当フォームが請求項3の機能により更新されている場合に、自動的に再OCRを行いデータを抽出し保持する機能をもつことを特徴とする請求項1記載の文書処理システム。
JP2006313146A 2006-11-20 2006-11-20 文書処理システム Withdrawn JP2008129792A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006313146A JP2008129792A (ja) 2006-11-20 2006-11-20 文書処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006313146A JP2008129792A (ja) 2006-11-20 2006-11-20 文書処理システム

Publications (1)

Publication Number Publication Date
JP2008129792A true JP2008129792A (ja) 2008-06-05

Family

ID=39555553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006313146A Withdrawn JP2008129792A (ja) 2006-11-20 2006-11-20 文書処理システム

Country Status (1)

Country Link
JP (1) JP2008129792A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264151B2 (en) 2015-11-16 2019-04-16 Fuji Xerox Co., Ltd. Information processing device, image processing system and non-transitory computer readable medium storing program
US11495040B2 (en) 2020-03-27 2022-11-08 Fujifilm Business Innovation Corp. Information processing apparatus for designation of image type, image reading apparatus, and non-transitory computer readable medium storing program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264151B2 (en) 2015-11-16 2019-04-16 Fuji Xerox Co., Ltd. Information processing device, image processing system and non-transitory computer readable medium storing program
US11495040B2 (en) 2020-03-27 2022-11-08 Fujifilm Business Innovation Corp. Information processing apparatus for designation of image type, image reading apparatus, and non-transitory computer readable medium storing program

Similar Documents

Publication Publication Date Title
US8014039B2 (en) Document management system, a document management method, and a document management program
JP4561474B2 (ja) 電子化文書保管システム
US8705081B2 (en) System and method for including input method information on a printed document
US7865042B2 (en) Document management method using barcode to store access history information
US7965400B2 (en) Image processing apparatus, image processing system, computer readable medium, and image processing method
US8310711B2 (en) Output device and its control method for managing and reusing a job history
US8099384B2 (en) Operation procedure extrapolating system, operation procedure extrapolating method, computer-readable medium and computer data signal
JP2005025736A (ja) ドキュメント管理方法、ドキュメント管理プログラム及びドキュメント管理システム
CN101969520A (zh) 图像形成设备、收费信息记录方法及记录介质
US8266526B2 (en) Distributed and decentralized document management system and method
CN101211361B (zh) 信息处理装置、信息处理系统和信息处理方法
US8675216B2 (en) Selective duplicating system and information management server device
US20080024834A1 (en) Information registration apparatus for registering information onto registering destination on network and method thereof
JP4172478B2 (ja) 文書管理装置及び文書管理方法
JP2009294792A (ja) 情報処理装置、その制御方法、情報処理システム及び制御プログラム
US8712155B2 (en) Device for identifying types of document files
JP2008129792A (ja) 文書処理システム
JP6870159B1 (ja) データ処理装置、データ処理方法及びプログラム
US8234237B2 (en) System and method for automatic return letter generation
JP2008129791A (ja) 文書処理システム
KR100908406B1 (ko) 스캐닝 이미지 데이터 검증장치
JP5436040B2 (ja) 画像入出力装置および監視システム
JP2008147947A (ja) 情報処理装置、プログラム、及び画像履歴管理システム
JP4535176B2 (ja) 作業制御プログラム及び作業制御システム
JP2008123080A (ja) 文書管理システム、画像形成装置、廃棄装置、廃棄証明発行装置、文書属性管理装置、プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100202