JP2003085529A - 文書処理システム、方法、プログラム及び記憶媒体 - Google Patents

文書処理システム、方法、プログラム及び記憶媒体

Info

Publication number
JP2003085529A
JP2003085529A JP2001275065A JP2001275065A JP2003085529A JP 2003085529 A JP2003085529 A JP 2003085529A JP 2001275065 A JP2001275065 A JP 2001275065A JP 2001275065 A JP2001275065 A JP 2001275065A JP 2003085529 A JP2003085529 A JP 2003085529A
Authority
JP
Japan
Prior art keywords
document
image
registration
document image
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001275065A
Other languages
English (en)
Other versions
JP4147014B2 (ja
Inventor
Tomoshi Yoshida
知史 吉田
Shinji Todaka
伸治 戸高
Masafumi Yahara
雅史 矢原
Naoyuki Matsumoto
直之 松本
Yasunari Satake
康徳 佐竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001275065A priority Critical patent/JP4147014B2/ja
Publication of JP2003085529A publication Critical patent/JP2003085529A/ja
Application granted granted Critical
Publication of JP4147014B2 publication Critical patent/JP4147014B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書画像データに一致する登録フォームを精
度よく検出し、該登録フォームを用いて、該文書画像デ
ータに効率よくインデックスを付加することを課題とす
る。 【解決手段】 文書画像から特徴データを抽出し、前記
抽出された該文書画像の特徴情報と、前記格納されてい
る複数の登録フォームそれぞれの特徴情報とを比較する
ことで登録フォームを識別し、該文書画像の特徴情報と
該識別された登録フォームの特徴情報とに基づいて、差
を抽出して該文書画像を補正し、その補正された文書画
像のエリアを抽出して認識処理を行い、その認識結果を
インデックスとして登録する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、スキャナ等から読
み取った文書(帳票)画像と予め登録されている画像
(登録フォーム)とを比較し、画像間の位置ズレやサイ
ズの違い等を補正する文書処理システム、方法、プログ
ラム及び記憶媒体に関するものである。
【0002】
【従来の技術】スキャナから読み取った入力帳票画像
を、あらかじめデータベースに登録されている複数の登
録帳票(登録フォーム)と比較して、該帳票画像のフォ
ーマットを特定するものがある。
【0003】
【発明が解決しようとする課題】しかしながら、スキャ
ナから読み取られた入力帳票画像と予めデータベースに
登録された登録フォームとを比較し、データベースから
類似した登録フォームを特定することは、スキャナから
読み取った入力帳票画像に傾きなどがあると、一致精度
が悪くなるという課題があった。
【0004】また、読み取った入力帳票画像に位置ズ
レ、傾き、スキャン時の解像度の違いなどがあると、該
入力帳票画像の所定のエリアに含まれる文字の文字認識
処理を行った場合、文字の認識精度が悪くなるといった
課題があった。
【0005】
【課題を解決するための手段】上記課題を解決するため
に、本発明の文書処理システムは、文書画像データを管
理する文書管理部に、該文書画像データとインデックス
とを登録する文書処理システムであって、複数の登録フ
ォームを格納する格納手段と、入力された文書画像デー
タから、特徴情報を抽出する特徴抽出手段と、前記抽出
された該文書画像の特徴情報と、前記格納されている複
数の登録フォームそれぞれの特徴情報とを比較して、該
比較結果が一致すると判断される登録フォームを識別す
るフォーム識別手段と、前記識別された登録フォームの
特徴情報と、前記文書画像の特徴情報とに基づいて、前
記登録フォームと前記文書画像との差を抽出する差抽出
手段と、前記抽出された差に基づいて、前記文書画像を
補正する画像補正手段と、前記識別された登録フォーム
に設定されているエリアに基づいて、前記補正された文
書画像の対応するエリアを抽出するエリア抽出手段と、
前記抽出されたエリアの画像を認識処理する認識手段
と、前記認識手段による認識結果をインデックスとし
て、前記文書画像データとともに前記文書管理部に登録
する登録手段とを有することを特徴とする。
【0006】上記課題を解決するために、本発明の文書
処理方法は、文書画像データを管理する文書管理部に、
該文書画像データとインデックスとを登録する文書処理
方法であって、入力された文書画像データから、特徴情
報を抽出する特徴抽出ステップと、前記抽出された該文
書画像の特徴情報と、格納手段に格納されている複数の
登録フォームそれぞれの特徴情報とを比較して、該比較
結果が一致すると判断される登録フォームを識別するフ
ォーム識別ステップと、前記識別された登録フォームの
特徴情報と、前記文書画像の特徴情報とに基づいて、前
記登録フォームと前記文書画像との差を抽出する差抽出
ステップと、前記抽出された差に基づいて、前記文書画
像を補正する画像補正ステップと、前記識別された登録
フォームに設定されているエリアに基づいて、前記補正
された文書画像の対応するエリアを抽出するエリア抽出
ステップと、前記抽出されたエリアの画像を認識処理す
る認識ステップと、前記認識ステップでの認識結果をイ
ンデックスとして、前記文書画像データとともに前記文
書管理部に登録する登録ステップとを有することを特徴
とする。
【0007】
【発明の実施の形態】図1は、本実施形態におけるシス
テム構成図を示す。
【0008】ここでは、ネットワーク上に、ユーザ端末
(100、101、102)、ファックス・スキャナ・プリンタ
・コピー機能を有するMFP(マルチファンクションペ
リフェラル)(110)、文書登録システム(120)、ファ
イルサーバ(130)、文書管理システム(140)が接続さ
れている。
【0009】各ユーザ端末は、ファイルサーバ130、
文書管理システム140を用いて、各種文書の共有を図
っている。文書の種類としては、一般的な文書作成アプ
リケーションによって作成される文書、スキャナで読み
こまれた文書、ファクス受信された文書等各種混在して
いる。
【0010】また、本実施形態では、文書入力デバイス
として、複数の機能を有するMFP110を用いること
としたが、MFPの代わりにスキャナ装置やファクシミ
リ装置など、単機能のデバイスであってもよい。
【0011】ファイルサーバ130は、一時的に格納さ
れる文書を中心に管理する。例えば、MFP110のス
キャナ部で読み取った文書画像を一時的に格納して、ユ
ーザ端末や文書登録システム120が該文書画像を取得
することができる。
【0012】文書管理システム140では、長期に渡っ
て保存が必要な文書を中心に管理するもので、文書登録
システムから送信された文書をインデックスとともに格
納し、ユーザ端末から所望の文書を送信するよう依頼さ
れた場合、インデックス等に基いて該文書を検索して送
信できるようになっている。また、文書管理システムで
は、1つの文書に対して複数のインデックスをつけるこ
とができ、また、これら複数のインデックスは、インデ
ックス項目毎に分類されて管理されている。なお、本実
施形態では、文書管理システム140は1台の文書管理
装置で構成されるものとするが、複数の機器の組合せで
構成されるようにしても良い。また、文書管理システム
140が複数存在するようにしてもよい。
【0013】文書登録システム120は、MFP110
やユーザ端末で生成される文書(ファックス受信文書画
像、スキャナ読取文書画像等)や、ファイルサーバに格
納されている文書を、自動的もしくは手動で指定して取
得し、該文書を取得した時の情報や該文書を解析して得
られる情報をもとに該文書のインデックス(属性情報・
検索情報)を自動的に作成して、該文書とインデックス
とを一緒にして文書管理システム140(の所望のディ
レクトリ)に登録する機能を有する。また、ユーザが手
入力した各種インデックスを付加して文書管理システム
に文書を登録させる機能や、すでに文書管理システムに
登録された文書の属性情報等を再編集できる機能等も有
している。なお、本実施形態では、文書登録システム1
20は1台の文書登録装置で構成されるものとするが、
複数の機器の組合せで構成されるようにしてもよい。ま
た、複数人のユーザでインデックス付けや確認などの作
業が行えるように、複数台の文書登録装置を用い、各装
置毎に処理を行う権限を与えて、複数台の文書登録装置
で協調処理を行うことで文書登録システムを構成するよ
うにしてもよい。
【0014】なお、本実施形態では、文書登録装置は、
実際の処理演算を行うCPU、プログラムを読み込んで
ワークエリアとして用いるRAM、後述するフローチャ
ートに対応する処理を実行するためのプログラムや各種
データを格納するための記憶媒体(ハードディスク、R
OM、リムーバブルディスク(フロッピー(登録商標)
ディスク、CD−ROM等)など)、各種操作を行うた
めのキーボードやポインティングデバイス、処理対象の
文書等を表示するためのディスプレイ、ネットワークと
接続するためのネットワークインターフェースなどで構
成されるコンピュータである。CPUに実行させるため
の該プログラムは、前記記憶媒体から供給されるもので
あってもよいし、ネットワークを介して外部装置から読
み込むものであってもよい。なお、本実施形態はコンピ
ュータがプログラムを実行することにより実現するもの
とするが、その一部又は全てをハードウェアで構成する
ようにしても構わない。
【0015】図2は、文書登録システム120の構造を
示すブロック図である。
【0016】<文書登録システムへの文書入力処理>ま
ず、文書登録システム120への文書入力処理(文書登
録システムによる文書取得処理)について説明する。
【0017】デバイス制御部210は、ファックス機能
やスキャナ機能などを有するデバイス(MFP)110
から文書データを得て後段の処理に入力する。なお、デ
バイス制御部210では、デバイスを定期的に監視する
などして文書データを吸い上げたり、デバイス側からプ
ッシュ式で送信される文書データを受信したりする処理
がなされる。
【0018】130はファイルサーバ等における文書が
格納されたフォルダ(記憶装置)であり、フォルダ制御
部212は該ファイルサーバのフォルダ内の文書データ
を取得する。例えば、フォルダ制御部212は、ファイ
ルサーバの所定のフォルダを定期的に監視して、新しい
文書がある場合に該文書の取得処理などを行う。
【0019】201は本システムにおける操作部となっ
ており、各種システムの設定、操作を行えるようになっ
ており、さらに、文書登録システムを操作するユーザが
文書を指定することにより、ユーザ端末やファイルサー
バなどから文書データをインポート(取得)して、ファ
イル制御部214を介して、該手動指定で取得した文書
データの入力処理をすることができるようになってい
る。
【0020】220は入力制御部であり、デバイス制御
部210、フォルダ制御部212、ファイル制御部21
4などからの入力を統括制御できるようになっている。
【0021】<文書登録システムの内部処理>次に、文
書登録システム内の処理について説明する。
【0022】221は、ジョブ制御部であり、後述する
ジョブに関する制御を行う。
【0023】222は、文書データ処理部であり、画像
フォーマット変換処理等を行う。
【0024】223は、インデックス処理部であり、後
述するインデックス処理に関する制御を行う。
【0025】224は、データ管理部であり、後述する
テンプレート、ワークシート、ジョブ等に関するデータ
を250のデータ記憶エリアに保存、管理する。
【0026】225は、OCR制御部であり、辞書デー
タ251を用いて文字認識を行う。
【0027】226は、フォーム(帳票)解析部であ
り、登録フォームデータ252を用いて、各種フォー
ム、例えば帳票ファーマットを自動的に識別できるよう
になっている。
【0028】240は、メール処理部であり、主に、自
動的に文書を取得して登録処理を行うようにしている場
合に、該自動処理が行われると、あらかじめ登録された
宛て先にその結果を通知するために使用される。
【0029】<文書登録システムにおける文書管理シス
テムへのアクセス処理>続いて、文書登録システムにお
ける文書管理システムとのインターフェースについて説
明する。
【0030】227は、文書管理システム制御部であ
り、文書管理システム140の種類に応じて提供されて
いるアクセス制御部230を介して、文書及びインデッ
クスの登録や、すでに文書管理システムに登録されてい
る文書のインデックス変更などの処理を行う。
【0031】253は、文書管理システムにアクセスす
るにあたって必要なアクセスデータを格納するデータベ
ースであり、254は、文書管理システムへ登録するデ
ータを一時的に保存するデータエリアであり、文書登録
時に、所定の画像変換等の文書データ処理が必要な場
合、このエリアをバッファとして使用する。
【0032】<<文書登録システムの基本フロー(図
3)>>図3は、文書登録システム120における基本
フロー図である。
【0033】まず、手動で文書(画像)を取得し、その
後、インデックス(属性情報)の入力を行い、その文書
とインデックスを文書管理システムに登録する際の処理
フローを説明する。
【0034】ステップS100で、文書管理システムの
データベースのインデックス構造を取得して、該インデ
ックス構造からワークシートを作成するためのテンプレ
ート(雛型)を作成する。このテンプレートには、該文
書管理システムへのアクセス情報と、インデックス構造
から作成されたスキーマ情報(インデックスとして用い
ることができる項目情報)とが含まれている。テンプレ
ート作成処理の詳細は、図4を用いて後述する。
【0035】ステップS101では、テンプレートから
ワークシートを作成する。この作成処理は図5に詳述す
る。このワークシートにおいて、実際にインデックス情
報の登録を行うフィールド(項目)等を設定する。ま
た、本実施形態においては、取得した文書の管理、文書
に対して付加するインデックス情報等は、このワークシ
ート単位で(管理テーブルとして)一連の処理が実行、
管理されるようになっている。なお、ここではステップ
S100で作成されたテンプレートからワークシートを
作成することとするが、ステップS100を省略して予
め作成・保存されているテンプレートを選択し、選択さ
れたテンプレートからワークシートを作成するようにし
てもよい。
【0036】また、既に作成・登録されているワークシ
ートを選択して、そのワークシートに文書情報とインデ
ックス情報とを入力することも可能である。この場合、
ステップS110で、データエリア250に格納されて
いるワークシートの中からユーザによって選択されたワ
ークシートを取り出し、ステップS102に進む。
【0037】ステップS102では、ステップS101
で作成されたワークシート、もしくはステップS110
で選択されたワークシートをディスプレイに表示させ
る。
【0038】ステップS103で、デバイスから取得し
た文書を入力する。
【0039】ステップS104で、ワークシートにその
文書情報が登録される。具体的には、ワークシートの文
書名(文書ID)の項目(スキーマ情報)に、入力され
た文書名(文書ID)が登録され、そのワークシートに
登録される文書の識別が可能になる。
【0040】ステップS105で、該ワークシートの各
項目に、必要なインデックス(属性)情報の入力、管理
を行う。このインデックス情報の入力は、ユーザの手入
力で行われても良いし、文書に対して自動的にOCRな
どを行って得た情報が入力されるようにしてもよい。イ
ンデックス情報入力の詳細は、図10で後述する。
【0041】ステップS106で、更に他の文書の入力
を行う必要がある場合は、ステップS103に戻る。
【0042】ステップS107で、以上の処理で取得・
設定したワークシート内のデータを、文書管理システム
へリリース処理(登録処理)する。リリース処理の詳細
は、図11を用いて後述する。
【0043】次に、文書入力処理をGUI(グラフィカ
ル・ユーザ・インターフェース)上の入力起動ボタンに
予め設定(図8)しておき、該入力起動ボタンが押下さ
れると該処理が実行されるようにした場合の処理を説明
する。
【0044】ステップS120で、入力起動ボタンが押
下されたことを検知すると、該ボタンに予め設定されて
いる処理を判断し、ステップS121で、該設定されて
いる条件に応じた文書取得処理(例えば、予め指定され
ているフォルダに新たに格納されている文書を取得する
処理や、予め指定されているスキャナに原稿を読み取ら
せて文書画像を取得する処理)を実行し、予め設定され
ているワークシートに登録する。入力起動ボタン処理の
実行は図9で後述する。
【0045】ステップS122で、該ワークシートにイ
ンデックスを入力する。インデックス入力処理の詳細は
図10で後述する。
【0046】ステップS123で、以上の処理で取得・
設定したワークシート内のデータを、文書管理システム
へリリース処理(登録処理)する。リリース処理の詳細
は、図11を用いて後述する。
【0047】また、予め、文書取得設定、インデックス
設定、リリース設定を指定してジョブとして作成・保存
しておき、保存されている複数のジョブの中からユーザ
に選択(ステップS130)されたジョブを実行する
(ステップS131)こともできる。ジョブの選択・実
行処理の詳細は、図13を用いて後述する。
【0048】また、詳細は後述するが、ステップS10
5及びS122でのインデックス入力の際に、フォーム
を用いて自動的にインデックス入力を行うことも可能で
ある。ステップS140で、このフォームを登録する処
理を行い、ステップS141で、フォームにエリアを設
定する。フォーム登録処理の詳細は図6を用いて、エリ
ア登録処理の詳細は図7を用いて後述する。
【0049】ステップS150では、以上のような処理
を実行するための各種設定処理(ジョブ設定処理(図1
2)、入力起動ボタン設定処理(図8)など)を行う。
【0050】以上述べた処理を以下に詳述する。
【0051】<テンプレート作成処理(図4)>図4を
用いて、テンプレート作成処理(ステップS100)を
詳述する。
【0052】ステップS200で、まず文書登録先の文
書管理システムへ接続する。
【0053】ステップS201で、文書管理システム内
のデータベースのインデックス構造(文書を格納させる
フォルダ等に設定されているスキーマ情報(検索用イン
デックスとして運用可能な情報)など)を取得する。
【0054】ステップS202で、文書管理システムへ
の接続情報と、スキーマ情報とを一括管理するテンプレ
ートを作成し、作成したテンプレートを識別するための
識別情報(テンプレート名)を付加して保存する。
【0055】<ワークシート作成処理(図5)>図5を
用いて、保存されているテンプレートからワークシート
を作成するワークシート作成処理(ステップS101)
を詳述する。
【0056】ステップS300において、まず、文書登
録先の文書管理システムに対応するテンプレートをユー
ザに選択させる。なお、図4で作成されたテンプレート
から直接ワークシートを作成する場合は、この選択ステ
ップは省略してもよい。
【0057】ステップS301で、テンプレートに保存
されている文書管理システムのスキーマ情報に対して、
インデックス入力する必要のないものがあれば、そのス
キーマ情報に対応するフィールドを入力対象として選択
する等の編集を行なうかどうかの指示がされたか判断す
る。
【0058】フィールド編集を行うと判断された場合
は、ステップS302で、そのフィールド編集作業を行
う。基本的には、スキーマ情報として用いることのでき
るテンプレートの項目領域(フィールド)の中から、必
要なフィールドを選択する操作であるが、場合によって
は、領域(フィールド)の拡張を指示できる。
【0059】ステップS303で、フィールドの編集な
ど、所定の設定を確認して、該選択されたテンプレート
からワークシートを作成する。
【0060】ステップS304で、作成したワークシー
トを識別するための識別情報(ワークシート名)を付加
して保存する。
【0061】<フォーム登録処理(図6)>図6を用い
て、入力された文書を識別するための処理や、インデッ
クスとして画像から情報を抽出する処理などで用いるた
めのフォームを登録するフォーム登録処理(ステップS
140)について詳述する。
【0062】ステップS400で、フォーム解析時の基
準とするイメージデータを取得する。
【0063】ステップS401で、各種フォームを管理
するフォーム管理シートに、先に入手したイメージデー
タを登録する。
【0064】ステップS402で、フォーム解析処理
(フォームを構成する枠・表に関する位置及び大きさの
情報や、記載されている文字情報などを解析)をするフ
ォーム解析部226に該イメージデータを渡して、該イ
メージデータのフォーム解析処理を行い、該フォーム解
析結果を該イメージデータと対応づけてフォーム管理シ
ートに登録し、登録フォームデータ252として管理す
る。
【0065】ステップS403で、新規追加された登録
フォームデータを識別情報(フォーム登録名)を付加し
て保存する。
【0066】<エリア登録処理(図7)>図7を用い
て、登録フォーム上に、文字認識やバーコード認識など
を行うエリアを設定するエリア登録処理(ステップS1
41)について詳述する。このエリアは、文書にインデ
ックスをつける際に、登録フォームに設定されているエ
リアに対応する文書の領域内を認識処理して、認識結果
をインデックスとしてワークシートに登録するために用
いられるものである。
【0067】ステップS500では、まずエリアを設定
するフォームをユーザに選択させる。
【0068】ステップS501では、フォーム解析対象
エリアとする領域をユーザに指定させる。
【0069】ステップS502では、そのエリアの解析
モードを指定する。解析モードとして、認識率を向上さ
せるための詳細な条件を設定する。例えば、英数字文字
認識、仮名漢字文字認識の指定や、バーコード認識等の
解析エンジンの指定等も、エリア毎に指定可能である。
また、ここでエリアとテンプレートの項目(ワークシー
トの項目)との対応づけ設定を行っておくことができ、
文書画像を解析・登録する際には、各エリアの認識結果
を対応するワークシートの項目にインデックスとして入
力される。なお、エリアとワークシートの項目(テンプ
レートの項目)との対応付けは、インデックス入力処理
を行う際に変更できるようにしてもよい。
【0070】ステップS503では、他にエリアを設定
する指示がなされたか判断し、更に他のエリアを設定す
る場合はステップS501に戻り、エリア設定が終了な
らばステップS504に進む。
【0071】ステップS504では、設定されたエリア
に関する設定情報を、登録フォームデータに対する付加
情報として登録する。
【0072】<入力起動ボタン設定(図8)>図8を用
いて、入力起動ボタンの設定処理(ステップS150)
を詳述する。入力起動ボタンは、押下されると、各種デ
ータソース(フォルダやスキャナなど)からの入力処理
を一括処理させるためのものである。
【0073】ステップS600では、入力起動ボタンが
押下された場合に設定されたデータソースから取得した
文書を登録するためのワークシートをユーザに選択させ
る。
【0074】ステップS601では、文書データの取得
先となるデータソース(フォルダやスキャナなど)をユ
ーザに選択させる。
【0075】ステップS602では、スキャナがデータ
ソースとして指定されているか判断し、スキャナが指定
されている場合は、ステップS603でスキャナの読み
取りモード(読み取り解像度、読み取り領域など)を設
定する。
【0076】ステップS604では、フォルダがデータ
ソースとして指定されているか判断し、フォルダが指定
されている場合は、ステップS605でフォルダのアク
セス設定(アクセス権の設定などのアクセス条件)を行
う。
【0077】ステップS610では、設定された条件を
入力起動ボタンに対応付けて登録し、該入力起動ボタン
をGUIとして表示する。また、設定条件に応じて、ボ
タン名や形状を変えるなどして、複数の入力起動ボタン
を登録・表示させることができる。
【0078】<入力起動ボタン実行処理(図9)>図9
を用いて、入力起動ボタンが押下されたときの実行処理
(ステップS121)を詳述する。
【0079】ステップS700では、押下された入力起
動ボタンに設定されている条件(設定モード)を読み出
す。
【0080】ステップS710で、スキャナ指定されて
いるか判断し、スキャナが設定されている場合は、ステ
ップS711に進んで設定モードとして設定されている
スキャナ読み取り条件に従ったスキャンを行って文書画
像を取得し、ステップS712で該文書をワークシート
に保存する。
【0081】ステップS720で、フォルダからの文書
取得が設定されているかどうか判断し、フォルダからの
取得が設定されている場合、ステップ721へ進み、フ
ォルダからの文書取得の条件(例えば、新たに入力され
た文書を取得するような条件や、所定のフォーマットの
文書を取得するような条件)に従って、フォルダの内容
のチェックを行い、ステップS722で該条件を満たす
文書が存在するかどうか判断し、存在する場合は、ステ
ップS723で該文書の取得を行い、ステップS724
でワークシートへ該文書を保存する。一方、ステップS
722で条件を満たす文書が存在しないと判断した場合
は、ステップS725へ進む。
【0082】ステップS725は、定期的にフォルダの
確認(ポーリング)を行って文書を取得するような条件
が設定されているときに用いられる判断処理であり、定
期的フォルダ確認の中止が指示された場合もしくは元々
定期的フォルダ確認の設定条件が為されていなかった場
合は、処理を終了し、そうでなければ、再度ステップS
721に戻り、定期的に指定フォルダの内容を確認処理
する。
【0083】<インデックス入力処理(図10)>図1
0を用いて、ワークシートに文書のインデックスを入力
するインデックス入力処理(S105、S122、S1
121など)を詳述する。
【0084】ステップS800では、ジョブなどの自動
処理を実行するように指定されたか判断し、自動処理の
場合は、ステップS815へ処理を遷移させ、そうでな
い場合は、順次ワークシート、フォームの選択をする。
【0085】自動処理でない場合、ステップS801
で、ユーザがワークシートを指定することにより、該ワ
ークシートを選択する。
【0086】ステップS802で、インデックスの入力
をユーザの手入力で行うか、登録フォームを用いてイン
デックスの入力を行うかを判断する。ユーザにより手動
でインデックス情報を入力すると指示された場合、ステ
ップS803で手動でのインデックス入力を行い、その
後、ステップS804でまだ処理すべき文書が他にある
かどうか判断し、他の文書がある場合はステップS80
0に戻り、なければ処理を終了する。
【0087】一方、ステップS802で登録フォームを
用いてインデックス入力を行うよう指示されたと判断さ
れた場合、ステップS810に進み、自動フォーム検出
機能を利用するか否かの判断を行う。自動フォーム検出
機能を利用が指示されたと判断した場合、ステップS8
11で、登録されている複数の登録フォームの中から、
入力された文書と一致するフォームを検出するフォーム
検出処理を行う。フォーム検出処理により一致するフォ
ームが検出された場合はステップS812からステップ
S820に進み、一致するフォームが検出されなかった
場合はステップS812からステップS813に進む。
一方、ステップS810で自動フォーム検出機能の利用
が指示されずに手動でのフォーム選択が指示されたと判
断した場合、ステップS813に進む。ステップS81
3では、複数の登録フォームの中からユーザの指示によ
って手動で所望のフォームを選択する。
【0088】ステップS820で、自動検出又は手動で
選択された登録フォームに設定されているエリアを検索
する。
【0089】ステップS821で、当該文書において、
登録フォームに設定された全てのエリアに対応する領域
内の情報を用いたインデックス付け処理が終了したか判
断し、終了している場合はステップS804に進んで次
文書があるかの判断を行い、一方、終了していない場合
はステップS822に進む。
【0090】ステップS822で、登録フォームに設定
されているエリアの解析条件に従ってエリア解析する。
なお、ここで、エリアの解析条件として設定された領域
範囲を、ユーザが能動的に領域範囲を調整することも可
能である。この領域範囲の調整は、入力された文書画像
を表示している状態で、設定されているエリアの解析条
件として設定されている領域範囲を所定の色の矩形を重
ねて表示し、ユーザはこの矩形を調整することで該領域
範囲を調整することができる。更に、領域範囲に従って
切り出された画像データに対して文字画像のスムージン
グ処理(黒画素塊のエッジのスムージング処理)を施
す。ここでいう文字画像には、バーコードデータ、絵文
字等ビットマップのビット配列の形状で意味を伝達する
もの全てが含まれる。なお、この文字画像のスムージン
グ処理は、OCR制御部225にライブラリソフトウェ
アという形態で包括される。このスムージング処理を施
すことにより、傾き補正、ずれ補正、変倍補正などの画
像処理をおこなった際に生じるジャギー(ドットばらつ
き)が低減され、文字認識処理の認識率の向上が図れ
る。
【0091】ステップS823では、エリア解析処理に
異常が発生することなく成功したかどうか判断する。異
常終了した場合は、ステップS824に進み、自動処理
モードかを判断して、自動処理モードでなければステッ
プS825でユーザにインデックスの手動入力をさせ、
自動処理モードの場合はステップS826で暫定処理を
行う。ここで、暫定処理とは、例えばエリア解析が不成
功であったことを示すNGマークをつけたり、その他の
デフォルトとして規定した値をインデックスとして出力
したりする処理である。
【0092】ステップS830では、エリアの解析処理
した結果をワークシートへ保存し、ステップS820に
戻って他の未処理のエリアを検索する。
【0093】一方、ステップS800でジョブなどの自
動処理が指定されたと判断された場合、ステップS81
5において、該自動処理に対応付けられているワークシ
ートを選択して、自動インデクス付け処理の前処理を行
う。ここで、該自動処理には、ワークシートがあらかじ
め設定されていることを前提としている。該自動処理に
登録フォームもあらかじめ指定されている場合は、その
ままステップS816でフォームが検出されているとし
てステップS820に進む。また、該自動処理に登録フ
ォームを自動的に検出して選択させる設定になっている
場合は、この前処理において、ステップS811と同様
のフォーム検出処理を行い、一致する登録フォームが検
出された場合は、ステップS816でフォームが検出さ
れたとしてステップS820に進み、一方、登録フォー
ムが定まらなかった場合は、ステップS817の後処理
に進み、処理ができなかった文書として、ワークシート
上に当該文書が管理されて、ステップS804に進んで
次文書の処理を行うか判断される。
【0094】<リリース(データ登録)処理(図11)
>図11を用いて、ワークシートで管理されているデー
タ(文書情報及びインデックス情報)を、文書管理シス
テムにリリース(登録)する処理(S107、S12
3、S1131等)を詳述する。
【0095】ステップS900で、自動リリースが指定
されているか判断し、自動リリースであると判断された
場合はステップS901に進み、自動リリースでないと
判断された場合はステップS910に進む。
【0096】自動リリースの場合、ステップS901
で、まず自動リリースの設定情報(登録先の文書管理シ
ステムへの接続情報や登録先のフォルダ情報など)をワ
ークシートから取得し、ステップS902で、該文書管
理システムの格納フォルダへ接続処理を行い、ステップ
S920に進んでリリースするデータの準備を行う。
【0097】自動リリースでない場合、ステップS91
0で、まずワークシートで管理されている文書から、登
録対象の文書の選択や、文書管理システムへ登録後に文
書登録システムに格納されている文書の扱い(削除な
ど)の設定ができるようになっている。登録対象の文書
の選択は、ワークシートで管理されている複数の登録対
象の文書IDとそれぞれの文書に対応するインデックス
とを、ワークシートの表形式で表示し、ユーザにその中
から登録処理する文書を選択させることができる。な
お、選択処理時には、ワークシート上で選択された文書
ID及びインデックスをハイライト表示し、選択されて
いることが分かりやすいようにする。
【0098】ステップS911で、登録先とする文書管
理システムへログイン処理し、文書を格納するフォルダ
を指定する。
【0099】ステップS912で、文書登録時のオプシ
ョン設定ができるようになっており、文書登録処理に関
する実行ログをとる設定をしたり、文書登録時の文書フ
ォーマットの変換設定をしたりできるようになってい
る。
【0100】ステップS920では、文書管理システム
へ登録する文書情報等を一旦内部の出力用データエリア
254に保存して登録準備を行う。
【0101】ステップS930では、登録する文書画像
のフォーマット変換、もしくは、文書画像をOCR解析
した結果を付加する処理等が指示されているか判断し、
指示されていると判断した場合はステップS931で、
該指示に従って画像処理を行う。
【0102】ステップS940で、準備された文書デー
タ等を、登録先の文書管理システムのフォルダへ登録処
理を行う。
【0103】ステップS950において、文書管理シス
テムへの文書登録後に、文書登録システム内に格納され
ている該文書の削除が指示されているか判断し、削除指
示が為されている場合はステップS951で該文書の削
除処理を行い、リリース処理を終了する。
【0104】<ジョブ作成処理(図12)>図12を用
いて、文書取得処理、インデックス処理、リリース処理
の各設定を定めて、1つのジョブとして作成する処理
(S150)を詳述する。
【0105】ステップS1000で、自動文書取得のジ
ョブ設定が指定されたか判断し、設定する場合は、ステ
ップS1001に進み、使用するワークシートの設定、
ならびにソースデバイスとしてのスキャナやフォルダの
指定などを行って、文書取得のための設定を行う。
【0106】ステップS1010で、インデックス入力
の自動処理の設定が指示されたか判断し、設定する場合
は、ステップS1011において、使用するワークシー
トの設定、登録フォームの指定又は登録フォームの自動
検索の指定など、インデックス処理を自動的に処理する
ために必要な項目を設定する。
【0107】ステップS1020で、自動リリース(文
書登録)の設定が指示されたか判断し、設定する場合
は、ステップS1021において、処理の対象となるワ
ークシート、文書登録先(文書管理システム、フォル
ダ)、登録後の文書の扱いなど、自動リリース処理する
ために必要な情報を設定する。
【0108】ステップS1030では、ステップS10
01、S1011、S1021で設定された設定情報
を、識別情報(ジョブ名)を付加して保存する。
【0109】なお、各種設定を組み合わせたジョブを複
数登録・保存することが可能である。
【0110】<ジョブ実行処理(図13)>図13を用
いて、ジョブ実行処理(S130,131)を詳述す
る。
【0111】ステップS1100で、まず登録保存され
ている複数のジョブの中から、ユーザが所望するジョブ
を選択する。
【0112】ステップS1101で、その選択されたジ
ョブに設定されている条件を読出してジョブ実行処理を
開始する。
【0113】ステップS1110で、自動文書取得のジ
ョブが設定されているかどうか判断し、設定されている
と判断した場合、ステップS1111で設定に従ってデ
バイスから文書取得処理を行い、ステップS1112
で、取得した文書をワークシートで管理し、保存する。
【0114】ステップS1120で、インデックス入力
の自動処理が設定されているかどうか判断し、設定され
ていると判断した場合、ステップS1121において、
設定された条件に従って自動インデクス処理を実行す
る。この自動インデックス処理において、自動フォーム
検出を行う場合、各種変倍、位置ズレ補正等の画像処理
を施し、さらにエリア(領域)の設定に従い、画像上に
記載されている情報を取得する。さらにその画像情報に
スムージング処理を施した上で文字認識(OCR)処理
を行うことでテキストデータによるインデックスデータ
が自動作成できる。
【0115】ステップS1130で、自動リリース(文
書登録)処理が設定されているかどうか判断し、設定さ
れていると判断した場合、ステップS1131におい
て、設定された条件に従って文書管理システムへ自動リ
リース処理をする。
【0116】文書取得から、文書登録までをジョブに設
定することで、一連の処理を一括処理させることが可能
になっている。
【0117】<拡張されたデバイス制御部(図14)>
本実施形態では、更に図2のデバイス制御を行って、デ
バイスから文書を取得する方式として、複数の形態に対
応できるように拡張することが可能である。図14を用
いて、この拡張したデバイス制御を説明する。
【0118】デバイス制御部A(210)は、文書登録
システムからデバイス側にアクセスして、文書を取得す
る。この制御部Aを用いて、同等のアクセス取得方式に
対応した複数デバイス(110、111)から文書デー
タを取得することが可能である。
【0119】デバイス制御部B(211)は、文書登録
システムからのアクセスではなく、デバイス側からアク
セスされて、送信されてきた文書を取得する。この場合
も、同等のアクセス方式に対応した、複数のデバイス
(112、113)から、文書を取得することが可能で
ある。
【0120】また、デバイス制御部Bには、独自にデー
タフォルダ300を設けて、複数のデバイスからの同時
の文書転送処理に対応している。更には、このデータフ
ォルダを、階層を有するフォルダとして構成することを
可能としておき、デバイス側からフォルダパスを指定し
ての文書転送処理も可能とする。なお、この場合のアク
セスプロトコルとして、汎用的なファイル転送プロトコ
ルを採用することにより、デバイス側の対応を容易に
し、一般のコンピュータから文書転送させることも可能
になる。
【0121】更には、文書データを取得する際に、文書
画像以外にも、当該文書データに関連した付加(属性)
情報(例えば、各文書のオーナー情報、ファクス受信文
書なら送信元情報、接続デバイスに関する情報等)を取
得し、そのデータをシステム内で利用できる手段も有す
る。
【0122】入力制御部220は、各デバイス制御部で
取得された文書データを混同しないよう、統括してハン
ドリングできるようになっている。
【0123】<拡張された文書管理システム制御部(図
15)>本実施形態では、様々な異なる形式で文書を管
理する複数の文書管理システムに対して、デバイス等か
ら取得される文書データならびにそのインデックス(付
加情報)を登録できるように拡張できる。図15は、ネ
ットワーク上に、異なる形式で文書を管理する文書管理
システムAと文書管理システムBとが混在した場合の対
応を説明する図である。
【0124】ここでは、文書管理システムの種類によっ
て、そのアクセス手段や、扱える文書のファイル形式が
異なっているのが一般的なので、文書管理システムA
(140)に対しては、アクセス制御部A(230)、
文書管理システムB(141)に対しては、アクセス制
御部B(231)を提供する。そして、文書登録システ
ム120は、登録先の文書管理システムに応じて、利用
するアクセス制御部を変えることにより、異なる形式で
文書を管理する複数の文書管理システムが混在する場合
に対応できる。
【0125】なお、各文書管理システムへアクセスなど
行う際に必要な情報を、管理データ253として保持
し、必要に応じて取り出して使用する。
【0126】<図11のリリース処理の補足(図16)
>図16を用いて、文書管理システムへのリリース(登
録)処理(ステップS940)に関する補足を述べる。
【0127】ステップS1200で、リリース処理を開
始するにあたっての設定処理であり、終了通知の要否の
確認、終了通知先の情報取得処理等を行う。
【0128】ステップS1210では、文書管理システ
ムへ登録すべき残りのデータの有無の確認処理であり、
登録すべき全てのデータが送信されていなければステッ
プS1211へ進み、残りが無ければステップS122
0へ進む。
【0129】ステップS1211で、文書管理システム
へ登録すべきデータを送信して登録する登録処理であ
る。
【0130】ステップS1212で、該送信したデータ
が登録されたかどうか判断し、登録されたのが確認され
たならばステップS1210へ戻り、登録に失敗した場
合はステップS1213へ進む。
【0131】ステップS1213は、文書管理システム
へのデータ登録がエラーした場合の処理であり、所定の
ワークシートに、登録エラーを起こした文書に関するデ
ータを登録エラー文書データとして登録し、その後、手
動による再登録処理ができるようになっている。
【0132】ステップS1220では、S1200での
設定に基き、ユーザに登録終了通知を行う必要があるか
判断し、必要なければ処理を終了する。
【0133】終了通知を行う必要があると判断した場
合、ステップS1221で、データ登録処理の結果にエ
ラーがあるか判断し、エラーがなければステップS12
22で、あらかじめ登録された登録通知のメールアドレ
スへ新規文書が登録された旨のメール通知処理を行い、
一方、エラーが発生していると判断された場合は、ステ
ップSS1223で、あらかじめ登録されたエラー通知
のメールアドレスへ、エラー情報をメール通知処理され
るようになっている。
【0134】<デバイスから送信された文書の自動文書
登録処理(図17)>図17は、デバイスから送られて
くる文書データを、自動的に文書登録までの処理をさせ
るフローに関して説明する。なお、この図17では、文
書管理システムへの文書登録自動処理および、登録フォ
ームとして文書登録システムへのフォーム登録自動処理
を記載している。
【0135】ステップS1300で、自動文書処理を実
行するにあたって必要となる各種項目の設定を事前に行
い、この設定された自動文書処理の起動を行う。
【0136】ここで行う設定項目には、文書入力処理に
関する設定、フォーム登録処理用に運用されるフォル
ダ、使用する属性情報の設定、ならびに各属性に対応し
た処理を行うためのワークシートの設定、自動インデッ
クス入力を行うために使用されるフォームの設定等があ
る。
【0137】なお、属性情報の例としては、以下のもの
がある。属性情報は自動処理の判別、およびインデック
ス入力などに使用される。
【0138】・デバイスの種類 ・フォルダパス(ファイルサーバ130、デバイス制御
部用データフォルダ300) ・文書のオーナー情報 ・FAX受信文書における送信元情報 ・エリア解析結果、などステップS1301では、文書
入力されたかどうか検知し、文書入力があるとステップ
S1302に進む。本実施形態では、デバイスからデバ
イス制御部経由で入力される文書データ、デバイスから
フォルダ制御部経由で入力される文書データを統括して
扱えるようになっている。本実施形態では、デバイスか
らプッシュ式で送信されてきた文書はデバイス制御部の
データフォルダを介して入力されるものとする。なお、
フォルダに新たな文書が入力されたかどうかの検知は、
図9のS721〜S725と同様に定期的にフォルダを
チェックすることによって為される。
【0139】ステップS1302で、入力された文書
が、どのルートで入ってきたかを確認する。
【0140】ステップS1310で、フォーム登録用フ
ォルダを経由して入力された文書であるか判断し、該フ
ォーム登録用フォルダを経由して入力されたと判断され
れば、ステップS1311で、自動的にフォーム登録用
処理部を起動し、入力された文書をフォームとして登録
する。
【0141】ステップS1320では、各種属性情報の
解析をし、得られた属性情報に対応した処理が定義され
ているか否かを確認する。例えば、所定のフォルダAを
介して入力された文書や、所定のデバイスから入力され
た文書が、所定の文書管理システムのフォルダXへ登録
する自動処理を行うと定義されているものとする。
【0142】なお、属性情報としては、入力制御部22
0で得られるデバイスやフォルダなどに関する情報と、
この段階で自動インデックス処理に相当する処理を呼ん
で、フォーム解析してターゲットとする所定のエリアか
ら得られる情報などがある。
【0143】ステップS1321では、当該入力された
文書の属性情報に対応する自動処理が検出されたかどう
か判断し、検出されなかった場合は、ステップS132
3に進んで当該入力された文書を一時保存し、後でユー
ザが手動で処理できるようになっている。
【0144】一方、対応する処理が検出された場合(例
えば所定の文書管理システムのフォルダXへの登録処理
が検出された場合)は、ステップS1324に進み、自
動インデックス処理および自動リリース処理に必要な情
報を読出し、ステップS1330で、必要に応じてフォ
ームに対応するエリア情報等を用いて自動インデックス
入力を行い、ステップS1340で、該文書とインデッ
クスとを文書管理システムに登録する自動リリース処理
を行う。
【0145】ステップS1350で、自動文書処理の終
了要求がなされたか判断し、なされていれば処理を終了
させ、そうでなければ、ステップS1301に戻り、処
理を継続する。
【0146】<フォーム解析部の構成(図18)>図1
8は、フォーム解析部(帳票処理部)の詳細構成図を示
す。
【0147】フォーム解析部は、画像処理エンジン18
01、画像特徴抽出エンジン1802、画像特徴比較エ
ンジン1803、画像処理設定1804、画像特徴登録
エンジン1805、画像特徴処理エンジン1806、画
像特徴差分抽出エンジン1807、画像特徴登録管理1
808、データ登録データベース1809の各モジュー
ルで構成される。
【0148】読み込まれた画像に基いてフォーム(雛
型)を作成登録する場合は、まず、画像処理エンジン1
801で、画像に対して傾き補正などの画像処理がされ
た後、画像特徴抽出エンジン1802により該画像の特
徴(例えば、枠・表形状の大きさや位置など)が抽出さ
れ、画像特徴登録管理1808によりデータ登録DB1
809に該特徴を登録フォームとして格納する。
【0149】複数の登録フォームの中で、入力された画
像に一致する登録フォームを検索する処理は、まず、画
像処理エンジンで、入力された文書画像に対して傾き補
正などの画像処理がされた後、画像特徴抽出エンジン1
802で該文書画像の特徴データ(枠・表形状など)を
抽出する。抽出された特徴データと、データ登録DB1
809に登録されている登録フォームの特徴データと
を、画像特徴比較エンジン1803にて比較して入力さ
れた文書画像に一致する登録フォームを求める。画像特
徴差分抽出エンジン1807により、文書画像と登録フ
ォームの原点位置の差分や変倍率などを求め、画像特徴
処理エンジン1805にて、該文書画像の差分や変倍率
を補正するように画像処理を実行する。
【0150】そして、このように画像処理が実行された
文書画像と、識別された登録フォームの情報とをOCR
制御部へ送り、OCR制御部では、登録フォームに設定
されたエリア情報に基づいて、該画像処理が実行された
文書画像から領域画像を抽出し、その抽出した領域画像
にスムージング処理を施した後、文字認識処理を行っ
て、該文字認識処理結果をインデックスとしてワークシ
ートに格納する。
【0151】<画像処理例(図19)>図19は、画像
処理エンジン1801で画像データを処理する際の一例
である。
【0152】1911は、用紙に印刷された文書をスキ
ャナなどから読み取った場合の画像データであり、文書
が傾いて読み取られてしまっている。画像処理エンジン
で傾き補正を行い、原点位置も補正することで、190
1のような傾きのない文書画像が得られる。なお、19
02及び1912は、登録フォームに設定されているエ
リア領域が対応する文書画像上の位置を示しており、1
911のような傾いた画像では所望の情報が得られない
が、1901のような画像処理が行われた画像では所望
の情報が得られることになる。なお、1913は画像処
理された画像1901のエリア1902を、補正前の画
像で相対的な位置を示したものであり、1912と19
13の位置が大きく違うことが分かる。
【0153】<画像特徴比較エンジンの構成図(図2
0)>図20は、登録フォームを識別する際に用いる画
像特徴比較エンジンの構成図を示す。
【0154】画像特徴比較エンジン2000は、文書画
像に記載されている文字を文字認識して登録フォームに
記載されている文字と比較することで登録フォームを検
出するOCRエンジン2002と、文書画像の表枠の構
成・大きさなどを登録フォームの表枠情報と比較して登
録フォームを検出する帳票認識エンジン2003と、文
書画像に記載されているバーコードを認識して登録フォ
ームのバーコード情報と比較して登録フォームを検出す
るバーコードエンジン2004などを組み合わせて、画
像特徴の比較を行って、一致する登録フォームを求め
る。画像特徴比較エンジン管理部2001は、これらの
エンジンを制御する。
【0155】なお、本実施形態では、OCR、帳票、バ
ーコードのエンジンを用いることとするが、その中のい
くつかの組合せであってもよいし、その他のエンジン2
005を追加してもよい。
【0156】<フォーム登録処理の詳細(図21)>図
21は、画像を登録フォームとして登録する処理におい
て、フォーム解析処理をおこなってフォーム情報を抽出
して登録する処理(S402)の詳細を示す。
【0157】ステップS2100から、画像をフォーム
として解析して登録する処理を開始する。ステップS2
101で画像データをデバイス又は所定のフォルダか
ら、自動的もしくは手動で取得する。
【0158】ステップS2102では、取り込んだ画像
データの色深度を調べ、多値画像(カラー画像)であれ
ばステップS2103に進み、色深度の分布に基づいて
2値化閾値を最適な値に設定し、ステップS2104で
画像データを減色処理して白黒2値画像に変換してステ
ップS2105に進む。一方、取り込んだ画像が多値画
像でなく、2値画像であれば、ステップS2105に進
む。
【0159】ステップS2105では、文書画像データ
に傾きやよれなどがあるかどうか調べ、これらを修正す
るかどうか判断する。スキャナから読み取られた画像な
ど大抵のデバイスから入力された画像の場合は、傾いて
読み取られている場合が多いので、ステップS2106
へ進む。一方、入力した画像データに傾きが無い場合に
はステップS2109へ進む。なお、ステップS210
5で画像処理を行うか否かの判断は、画像取得先のデバ
イスの種類(スキャナ、FAX、フォルダなど)毎に予
め決めておいてもよいし、取得した画像に含まれる罫線
方向や文字画像の向きを判断して傾き補正が必要かどう
かを判断するようにしてもよい。
【0160】ステップS2106では、取り込んだ文書
画像データの外側の縁に黒色の部分があるかどうか判断
する。スキャナでスキャンする面の背景が黒色の場合、
原稿が傾いている場合、もしくは原稿サイズがスキャン
面より小さい場合には、図19の1911のように、読
み取った画像の外側の縁に背景の黒色が含まれる。黒色
部分がある場合は、ステップS2108へ進み、黒色部
分と原稿の境界が分かるので、その境界線に基づいて原
稿の傾きを求め、この傾き角度により文書画像の傾きを
補正する。一方、黒色部分がない場合は、ステップS2
107へ進み、文書画像中の文字列の並び具合、もしく
は表枠の罫線方向に基づいて、傾き角度を求めて、文書
画像データの文字が正立するように傾き補正をする。
【0161】ステップS2109では、補正された文書
画像データから特徴を抽出する方法と、所定の処理を実
行するエリアの指定を行う。また、ここで該文書画像デ
ータから特徴データを抽出する。ここで指定できる画像
の特徴情報の抽出エンジンは、図20で示したように、
OCRエンジン2002、帳票認識エンジン2003、
バーコードエンジン2004、その他2005などであ
る。
【0162】ステップS2110では、ステップS21
09で指定されたエンジン設定と、エリアと、そのエリ
ア(又は文書全体)に対する処理(スムージング処理な
ど)と、指定されたエンジンで該文書画像データから特
徴抽出して得た画像特徴データとを、登録フォームとし
て保存する。
【0163】<比較検索処理と登録処理実行の詳細(図
22)>図22は、取得した文書データと登録フォーム
とを比較して、一致する登録フォームを検索する比較検
索処理(S811)の詳細と、設定された登録処理(S
822)の実行を示すフローチャートである。
【0164】ステップS2201で、文書画像データを
デバイスなどから、手動もしくは自動で取得する。
【0165】ステップS2202では、取得した画像デ
ータの色深度を調べ、2値画像の場合にはステップS2
203に進み、多値画像(カラー画像)の場合にはステ
ップS2202に進んで、2値化閾値を最適な値に設定
し、ステップS2203にて画像データを減色処理し白
黒2値画像に変換する。
【0166】ステップS2204では、画像データの文
書に傾きやよれなどがあるかどうか調べ、これらを修正
するかどうか判断する。スキャナから読み取られた画像
など大抵のデバイスから入力された画像の場合は、傾い
て読み取られている場合が多いのでステップS2205
へ進む。一方、入力した画像データに傾きが無い場合に
はステップS2208へ進む。
【0167】ステップS2205では、取り込んだ文書
画像データの外側の縁に黒色の部分があるかどうか判断
する。スキャナでスキャンする面の背景が黒色の場合、
原稿が傾いている場合、もしくは原稿サイズがスキャン
面より小さい場合には、図19の1911のように、読
み取った画像の外側の縁に背景の黒色が含まれる。黒色
部分がある場合は、ステップS2207へ進み、黒色部
分と原稿の境界が分かるので、その境界線に基づいて原
稿の傾きを求め、この傾き角度により文書画像の傾きを
補正する。一方、黒色部分がない場合は、ステップS2
206へ進み、文書画像中の文字列の並び具合、もしく
は表枠の罫線方向に基づいて、傾き角度を求めて、文書
画像データの文字が正立するように傾き補正をする。
【0168】ステップS2208では、登録フォームの
特徴抽出方法と同じ方法(ステップS2109で指定し
た方法)で、画像特徴を抽出する。
【0169】ステップS2209では、ステップS22
08で抽出した画像特徴と、登録フォームの画像特徴の
情報とを比較し、その結果、画像特徴情報が一致する
(または似通っている)登録フォームを識別する。
【0170】ステップS2210で、該文書画像に対し
て、該文書画像の原点と識別された登録フォームの原点
との間のズレや、変倍などを補正する。
【0171】ステップS2211では、補正された画像
から、エリアの領域画像を抽出し、該エリアに登録され
ている処理を実行させる。例えば、該エリアに対しOC
Rを行ってインデックスとして用いるよう処理が登録さ
れていた場合は、OCR制御部に該エリアの領域画像を
渡し、スムージング処理を施して文字認識処理(バーコ
ード認識処理でもよい)を実行して、認識結果をインデ
ックスとして用いるように制御する。
【0172】<比較検索・画像補正の詳細処理(図2
3)>図23は、ステップS2209〜S2210の比
較検索・画像補正処理の詳細を示す図である。
【0173】ステップS2301では、登録フォームの
画像特徴情報と、デバイスなどから送られてきた文書画
像より画像特徴を抽出(S2208)した情報とを比較
する。
【0174】ステップS2302では、ステップS23
01で比較した結果、同じ画像特徴をもつと判断した場
合、ステップS2303に進み、同じであると判断され
た登録フォームと文書画像との一致度をそれぞれの画像
特徴から計算し、該登録フォームのIDと一致度とをデ
ータベースに一時保存する。一方、同じと判断されなか
った場合は、ステップS2304に進む。(なお、本実
施形態(図23)では、それぞれの特徴として枠表罫線
の構成を用い、枠表罫線の構成が相似の構成を有するな
らば一致したと判断するものとする。) ステップS2304では、予め全ての登録フォームと比
較検索したかどうかを調べ、全ての比較が終わった場合
には、ステップS2305に進み、全ての比較が終了し
ていない場合には、ステップS2302に戻って次の登
録フォームとの比較を行う。
【0175】ステップS2305では、ステップS23
03でデータベースに保存された結果に基づいて、一番
一致度が高い登録フォームに関するデータを取り出す。
【0176】ステップS2306で、文書画像の原点
と、登録フォームの原点をそれぞれ求める。
【0177】ステップS2307では、ステップS23
06で求めた原点を比較し、原点がX座標、Y座標とも
に同じと判断された場合は、ステップS2310に進
み、異なると判断された場合は、ステップS2308に
進む。
【0178】ステップS2308では、それぞれの原点
位置から差分を求める。
【0179】ステップS2309では、該差分に基づい
て、文書画像のズレを補正する。
【0180】ステップS2310では、ステップS23
05で取り出した登録フォームの画像特徴と、文書画像
の特徴とに基づいて、それぞれの画像の大きさを比較
し、どのくらいの比率で拡大縮小されているかを求め
る。
【0181】ステップS2311では、ステップS23
10にて求められた結果を元に、拡大縮小があるか判断
し、あると判断した場合はステップS2312に進み、
そうでない場合には、ステップS2313に進む。
【0182】ステップS2312では、ステップS23
11で求めた比率に従って、ステップS2309で補正
した情報を更に補正する。
【0183】
【発明の効果】以上説明したように、本実施形態によれ
ば、識別された登録フォームに基づいて、文書画像の補
正処理を行ってから、エリア画像を抽出して認識処理
し、その認識結果をインデックスとして用いるので、認
識精度が高くなる。また、認識精度が高くなるので効率
よくインデックス入力を行うことができる。
【0184】また、補正後の画像をスムージングするこ
とにより、更に認識精度を高めることができる。
【図面の簡単な説明】
【図1】本発明の実施形態のシステム構成図
【図2】文書登録システム120の構造を示すブロック
【図3】文書登録システムの基本フロー
【図4】テンプレート作成処理
【図5】ワークシート作成処理
【図6】フォーム登録処理
【図7】エリア登録処理
【図8】入力起動ボタン設定
【図9】入力起動ボタン実行処理
【図10】インデックス入力処理
【図11】リリース(データ登録)処理
【図12】ジョブ作成処理
【図13】ジョブ実行処理
【図14】拡張されたデバイス制御部
【図15】拡張された文書管理システム制御部
【図16】リリース処理の補足
【図17】デバイスから送信された文書の自動文書登録
処理
【図18】フォーム解析部の構成
【図19】画像処理例
【図20】画像特徴比較エンジンの構成図
【図21】フォーム登録処理の詳細
【図22】比較検索処理と登録処理実行の詳細
【図23】比較検索・画像補正の詳細処理
【符号の説明】
100〜102 ユーザ端末 110 MFP 120 文書登録システム 130 ファイルサーバ 140 文書管理システム
───────────────────────────────────────────────────── フロントページの続き (72)発明者 矢原 雅史 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 松本 直之 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 佐竹 康徳 千葉県市川市湊新田1丁目3−19アビタシ オン及川303号 Fターム(参考) 5B050 AA10 BA10 BA16 CA08 DA02 DA03 DA06 EA05 EA07 EA12 EA13 FA02 GA08 5B057 AA11 BA02 BA30 CA02 CA08 CA16 CB02 CB06 CB12 CB16 CC01 CD02 CD03 CD05 CE05 CE12 DC05 DC09 5B075 ND06 NK07 PR06 QM08

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 文書画像データを管理する文書管理部
    に、該文書画像データとインデックスとを登録する文書
    処理システムであって、 複数の登録フォームを格納する格納手段と、 入力された文書画像データから、特徴情報を抽出する特
    徴抽出手段と、 前記抽出された該文書画像の特徴情報と、前記格納され
    ている複数の登録フォームそれぞれの特徴情報とを比較
    して、該比較結果が一致すると判断される登録フォーム
    を識別するフォーム識別手段と、 前記識別された登録フォームの特徴情報と、前記文書画
    像の特徴情報とに基づいて、前記登録フォームと前記文
    書画像との差を抽出する差抽出手段と、 前記抽出された差に基づいて、前記文書画像を補正する
    画像補正手段と、 前記識別された登録フォームに設定されているエリアに
    基づいて、前記補正された文書画像の対応するエリアを
    抽出するエリア抽出手段と、 前記抽出されたエリアの画像を認識処理する認識手段
    と、 前記認識手段による認識結果をインデックスとして、前
    記文書画像データとともに前記文書管理部に登録する登
    録手段とを有することを特徴とする文書処理システム。
  2. 【請求項2】 更に、前記エリア抽出手段により抽出さ
    れたエリアの画像をスムージング処理するスムージング
    手段を有し、 前記認識手段は、該スムージング処理されたエリア画像
    を認識処理することを特徴とする請求項1に記載の文書
    処理システム。
  3. 【請求項3】 前記差抽出手段により抽出される差は、
    原点位置のずれであることを特徴とする請求項1に記載
    の文書処理システム。
  4. 【請求項4】 前記差抽出手段により抽出される差は、
    変倍率であることを特徴とする請求項1に記載の文書処
    理システム。
  5. 【請求項5】 前記認識手段は、文字認識処理を行うこ
    とを特徴とする請求項1乃至4のいずれかに記載の文書
    処理システム。
  6. 【請求項6】 前記認識手段は、バーコード認識処理を
    行うことを特徴とする請求項1乃至5のいずれかに記載
    の文書処理システム。
  7. 【請求項7】 更に、前記入力された文書画像データの
    傾きを補正する傾き補正手段を有し、 前記特徴抽出手段は、前記傾き補正された文書画像デー
    タから、特徴情報を抽出することを特徴とする請求項1
    乃至6のいずれかに記載の文書処理システム。
  8. 【請求項8】 前記傾き補正手段は、前記入力された文
    書画像の縁の黒色部分を検知し、該黒色部分と文書部分
    との境界線に基づいて傾き角度を求め、該傾き角度に従
    って傾き補正を行うことを特徴とする請求項7に記載の
    文書処理システム。
  9. 【請求項9】 前記傾き補正手段は、前記入力された文
    書画像内の文字画像が正立する方向に基づいて傾き補正
    を行うことを特徴とする請求項7に記載の文書処理シス
    テム。
  10. 【請求項10】 文書画像データを管理する文書管理部
    に、該文書画像データとインデックスとを登録する文書
    処理方法であって、 入力された文書画像データから、特徴情報を抽出する特
    徴抽出ステップと、 前記抽出された該文書画像の特徴情報と、格納手段に格
    納されている複数の登録フォームそれぞれの特徴情報と
    を比較して、該比較結果が一致すると判断される登録フ
    ォームを識別するフォーム識別ステップと、 前記識別された登録フォームの特徴情報と、前記文書画
    像の特徴情報とに基づいて、前記登録フォームと前記文
    書画像との差を抽出する差抽出ステップと、 前記抽出された差に基づいて、前記文書画像を補正する
    画像補正ステップと、 前記識別された登録フォームに設定されているエリアに
    基づいて、前記補正された文書画像の対応するエリアを
    抽出するエリア抽出ステップと、 前記抽出されたエリアの画像を認識処理する認識ステッ
    プと、 前記認識ステップでの認識結果をインデックスとして、
    前記文書画像データとともに前記文書管理部に登録する
    登録ステップとを有することを特徴とする文書処理方
    法。
  11. 【請求項11】 更に、前記エリア抽出ステップで抽出
    されたエリアの画像をスムージング処理するスムージン
    グステップを有し、 前記認識ステップでは、該スムージング処理されたエリ
    ア画像を認識処理することを特徴とする請求項10に記
    載の文書処理方法。
  12. 【請求項12】 前記差抽出ステップで抽出される差
    は、原点位置のずれであることを特徴とする請求項10
    に記載の文書処理方法。
  13. 【請求項13】 前記差抽出ステップで抽出される差
    は、変倍率であることを特徴とする請求項10に記載の
    文書処理方法。
  14. 【請求項14】 前記認識ステップでは、文字認識処理
    を行うことを特徴とする請求項10乃至13のいずれか
    に記載の文書処理方法。
  15. 【請求項15】 前記認識ステップでは、バーコード認
    識処理を行うことを特徴とする請求項10乃至14のい
    ずれかに記載の文書処理方法。
  16. 【請求項16】 更に、前記入力された文書画像データ
    の傾きを補正する傾き補正ステップを有し、 前記特徴抽出ステップでは、前記傾き補正された文書画
    像データから、特徴情報を抽出することを特徴とする請
    求項10乃至15のいずれかに記載の文書処理方法。
  17. 【請求項17】 前記傾き補正ステップでは、前記入力
    された文書画像の縁の黒色部分を検知し、該黒色部分と
    文書部分との境界線に基づいて傾き角度を求め、該傾き
    角度に従って傾き補正を行うことを特徴とする請求項1
    6に記載の文書処理方法。
  18. 【請求項18】 前記傾き補正ステップでは、前記入力
    された文書画像内の文字画像が正立する方向に基づいて
    傾き補正を行うことを特徴とする請求項16に記載の文
    書処理方法。
  19. 【請求項19】 請求項10乃至18のいずれかに記載
    の文書処理方法をコンピュータで実現させるためのコン
    ピュータ実行可能なプログラム。
  20. 【請求項20】 請求項10乃至18のいずれかに記載
    の文書処理方法をコンピュータで実現させるためのコン
    ピュータ読み取り可能なプログラムを格納した記憶媒
    体。
JP2001275065A 2001-09-11 2001-09-11 文書処理システム、方法、プログラム及び記憶媒体 Expired - Fee Related JP4147014B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001275065A JP4147014B2 (ja) 2001-09-11 2001-09-11 文書処理システム、方法、プログラム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001275065A JP4147014B2 (ja) 2001-09-11 2001-09-11 文書処理システム、方法、プログラム及び記憶媒体

Publications (2)

Publication Number Publication Date
JP2003085529A true JP2003085529A (ja) 2003-03-20
JP4147014B2 JP4147014B2 (ja) 2008-09-10

Family

ID=19099995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001275065A Expired - Fee Related JP4147014B2 (ja) 2001-09-11 2001-09-11 文書処理システム、方法、プログラム及び記憶媒体

Country Status (1)

Country Link
JP (1) JP4147014B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196659A (ja) * 2004-01-09 2005-07-21 Fuji Xerox Co Ltd 画像処理装置、プログラムおよび記録媒体
JP2006157758A (ja) * 2004-12-01 2006-06-15 Hitachi Ltd 映像再生機器および映像検出・利用方法
JP2006178753A (ja) * 2004-12-22 2006-07-06 Fuji Xerox Co Ltd 画像処理装置及び画像処理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196659A (ja) * 2004-01-09 2005-07-21 Fuji Xerox Co Ltd 画像処理装置、プログラムおよび記録媒体
JP2006157758A (ja) * 2004-12-01 2006-06-15 Hitachi Ltd 映像再生機器および映像検出・利用方法
JP2006178753A (ja) * 2004-12-22 2006-07-06 Fuji Xerox Co Ltd 画像処理装置及び画像処理方法
JP4645186B2 (ja) * 2004-12-22 2011-03-09 富士ゼロックス株式会社 画像処理装置

Also Published As

Publication number Publication date
JP4147014B2 (ja) 2008-09-10

Similar Documents

Publication Publication Date Title
JP4235411B2 (ja) 文書登録システム、方法、プログラム及び記憶媒体
JP6849387B2 (ja) 画像処理装置、画像処理システム、画像処理装置の制御方法、及びプログラム
JP5020781B2 (ja) 設定引継ぎシステム、および設定引継ぎ方法
JP4261783B2 (ja) 文書登録システム、方法、プログラム及び記憶媒体
US7847968B2 (en) Image processing apparatus and method for bookbinding processing
US20080117472A1 (en) Document management system, a document management method, and a document management program
US8223389B2 (en) Information processing apparatus, information processing method, and program and storage medium therefor
US20080062471A1 (en) Usability-Improved Image Processing Apparatus, Image Processing System, and Program
US20090279116A1 (en) Image data processing apparatus
US20060050297A1 (en) Data control device, method for controlling the same, image output device, and computer program product
JP2018046416A (ja) 情報処理装置及びプログラム
KR20210122130A (ko) 서버, 정보 처리 방법, 및 저장 매체
US20130335792A1 (en) Detecting common errors in repeated scan workflows by use of job profile metrics
US20080316545A1 (en) Image processing apparatus and method, and program for implementing the method
JP4147014B2 (ja) 文書処理システム、方法、プログラム及び記憶媒体
JP2021047517A (ja) 画像処理装置、その制御方法およびプログラム
JP2020184207A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2005268906A (ja) 画像形成装置、方法およびプログラム
JP2008040598A (ja) 画像入力装置
WO2015174473A1 (en) Information processing system, information processing apparatus and information processing method
JP2008301502A (ja) 画像処理装置および画像処理方法
US8736929B2 (en) Recording and recalling of scan build job and scan batch job settings
JP2009094597A (ja) 文書管理装置、文書管理プログラム、しおり画像付原稿生成装置、しおり画像付原稿生成プログラム
JP2003085076A (ja) 文書登録システム、方法、プログラム及び記憶媒体
JP5339657B2 (ja) 文書登録システム、方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080617

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080623

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130627

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees