JP4241115B2 - Document filing device - Google Patents

Document filing device Download PDF

Info

Publication number
JP4241115B2
JP4241115B2 JP2003074046A JP2003074046A JP4241115B2 JP 4241115 B2 JP4241115 B2 JP 4241115B2 JP 2003074046 A JP2003074046 A JP 2003074046A JP 2003074046 A JP2003074046 A JP 2003074046A JP 4241115 B2 JP4241115 B2 JP 4241115B2
Authority
JP
Japan
Prior art keywords
document
image data
page
document image
page image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003074046A
Other languages
Japanese (ja)
Other versions
JP2004280691A (en
Inventor
景則 長尾
仁 岡本
真之 久武
伸一 矢田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2003074046A priority Critical patent/JP4241115B2/en
Publication of JP2004280691A publication Critical patent/JP2004280691A/en
Application granted granted Critical
Publication of JP4241115B2 publication Critical patent/JP4241115B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、紙文書を電子化する技術に関する。
【0002】
【従来の技術】
紙文書は、情報の伝達や記録を行うための媒体として優れたものであるが、これを保存するためのスペースを必要とする。また、情報を紙文書に記録して保存する場合、後にその紙文書が必要になったときには、例えば書庫に収納された多くの紙文書の中から目的とする紙文書を探さなければならない。従って、紙文書に記録して保存するという形態は、業務の効率化の観点からも好ましくない。このような背景の下、紙文書を電子化して保存することが行われるようになってきている。具体的には、ユーザは1ページずつ紙文書をスキャナ装置にセットし、このスキャナ装置により、紙文書の各ページを読み込み、画像データとして電子ファイルに格納する。
【0003】
このような方法は、電子ファイル化すべき紙文書のページ数が多い場合には非効率的である。このため、紙文書のページ数が多い場合には、オートドキュメントフィーダ(ADF)と呼ばれる自動給紙機構(以下、単にADFという)を備えたスキャナ装置を用いて、紙文書の各ページを連続して自動的に読み取る処理が広く行われている。
【0004】
ところで、状況によっては、電子化すべき紙文書が一度に多数発生する場合がある。このような場合に、各紙文書を一文書ずつADFにセットして読み取り処理を行わせれば、文書単位で紙文書を電子ファイル化することが可能である。しかし、この方法を採った場合、一文書毎に、紙文書をADFにセットし、読み取り処理を行わせるための操作を行わなければならないので、ユーザにとって煩雑である。一方、複数種類の紙文書を全部まとめてADFにセットし、読み取り処理を行わせれば、複数種類の紙文書を一括して電子ファイル化することができる。しかし、この方法を採った場合、1つの電子化ファイルに複数種類の紙文書の画像データがまとめて格納されるので、後に個々の紙文書を検索し閲覧するのに不便である。
そこで、複数種類の紙文書を一括して読み取り、かつ、紙文書の画像データを文書毎に電子ファイル化する技術が求められるに至ったこのようなニーズに対し、従来から幾つかの技術が提案されている。
【0005】
例えば、特許文献1には、次のような電子ファイリング装置が開示されている。まず、該装置のユーザは、電子化したい文書が複数ある場合に、それらの複数の文書間にあらかじめ特定の文書区切り用原稿を挿入しておく。そして、この文書区切り用原稿が挿入された複数文書からなる原稿をADFにセットし、該装置に画像読み取り処理を行わせる。該装置では、この画像読み取り処理により得られた全ページのページ画像データの中から、文書区切り用原稿に相当する画像データを認識し、ページ画像データを文書単位に電子ファイル化する。
【0006】
【特許文献1】
特開平1−162474号公報
【0007】
また、特許文献2には、次のような電子ファイリング装置が開示されている。すなわち、該装置のユーザは、電子ファイル化したい文書が複数ある場合に、各文書において文書区切りとなるページの裏面に文書区切りマークを予め付加しておく。該装置では、複数文書からなる原稿の各ページの裏表両面をイメージスキャナで読み取り、この文書区切りマークを認識して各文書のページ画像データを文書単位に電子ファイル化する。
【0008】
【特許文献2】
特開平7−287747号公報
【0009】
また、特許文献3には、次のような電子ファイリング装置が開示されている。すなわち、該装置は、イメージスキャナで読み取った画像データからあらかじめ設定しておいた文字認識エリア部分を切り出し、文字認識処理を行い、この文字認識結果に基づき文書の区切りを判定する。
【0010】
【特許文献3】
特開平10−21380号公報
【0011】
さらに、ADFを持つイメージスキャナにより複数の文書を一括して読み取り、読み取った原稿画像の特徴量を算出し、この特徴量に基づいて文書単位の区切りを判定する方法がある。この方法によれば、あらかじめ文書区切り用原稿を各文書間に挿入したり、文書区切りとなるページに手を加えたりすることなく文書の区切りが判定できるため、ユーザに強いる負担を大幅に軽減することができる。このような装置の一例が下記の特許文献4に開示されている。
【0012】
【特許文献4】
特開2002−24258号公報
【0013】
【発明が解決しようとする課題】
上記いずれの従来技術においてもADFが用いられるが、このADFに一度にセットできる原稿枚数には上限が存在する。このため、以下のような問題があった。
【0014】
まず、処理すべき原稿が複数種類の文書の原稿(以下、文書原稿という)からなり、且つ大量である場合、次のような作業形態をとることができればユーザにとって便利であると考えられる。
すなわち、ユーザは山積みされた原稿の束からADFにセットすることが可能な適量の原稿束を取り出してADFにセットし、スキャナ装置にこの原稿束の読み取りを行わせるのである。以下では,この一連の作業をスキャンジョブと呼ぶことにする。このようなスキャンジョブを、原稿束がなくなるまで、繰り返し行えば、全ての原稿についての画像読み取り処理が完了することができる。
しかしながら、このような作業形態においては、例えば、ある原稿束がADFにセットされ、N番目のスキャンジョブが行われた場合に、その原稿束がある文書の途中のページで終わっているようなことが起こりうる。この場合、その文書の残りのページは、N+1番目のスキャンジョブにおいて処理されることとなる。
【0015】
このような場合において、スキャンジョブ単位で、読み取った画像データの電子ファイル化を行うと、同一文書から取得された画像データが、その文書の前半部分に対応したものと後半部分に対応したものとに分断され、あたかも別々の文書の画像データであるかの如く、別々の電子ファイルに格納されてしまう。これでは、文書単位での電子ファイル化を行う上で支障を来す。
これを避けるためには、ユーザが原稿の束をセットする前に、文書原稿の区切りを目視確認し、単一の文書原稿の処理が2のスキャンジョブに跨って実行されないようにする必要がある。しかしながら、このような作業は、ユーザにとって面倒である。
【0016】
さらに、一つの文書の総ページ数がADFの処理上限を超える場合には、単一文書を複数のスキャンジョブで跨って処理せざるを得ないという問題がある。例えば、ADFにセットすることができる原稿枚数が100ページである場合において,総ページ数が150枚の文書原稿を処理するような場合である。
【0017】
本発明は、以上説明した事情に鑑みてなされたものであり、単一の文書原稿の処理が複数のスキャンジョブに跨って行われ、同一文書の画像データが分断されて2つの電子ファイルに格納された場合に、その旨を検知することができる、文書ファイリングのための方法および装置を提供することを目的とする。
【0018】
【課題を解決するための手段】
本発明は、一の態様において、制御部と記憶部と原稿を読取る原稿読取部とを備えた文書ファイリング装置において、前記原稿読取部が、文書を構成する個々のページを表す1または複数のページ画像データからなる文書画像データ集合を複数取得して前記記憶部に記憶する第1のステップと、前記制御部が、前記記憶部を参照し、前記複数の文書画像データ集合における第1の文書画像データ集合に含まれる文書画像データ毎に、当該文書画像データにおける全てのページ画像データから特徴量ベクトルを抽出し、各ページ画像データから抽出した各特徴量ベクトルが特徴量空間内に形成するクラスタ領域を決定するとともに、前記複数の文書画像データ集合における第2の文書画像データ集合内の先頭ページのページ画像データから特徴量ベクトルを抽出し、該特徴量ベクトルが前記クラスタ領域に属するか否かによって、前記第1の文書画像データ集合および前記第2の文書画像データ集合が同一の文書から取得されたものであるか否かを判定する第2のステップとを有する文書分断判定方法を提供する。
好ましい態様において、前記複数の文書画像データ集合の各々は、前記原稿読取部にて1のスキャンジョブにおいて1の原稿束から読み取られた文書画像データによって構成され、前記第1の文書画像データ集合および前記第2の文書画像データ集合は、連続したスキャンジョブにおいて2つの原稿束から読み取られた文書画像データによって構成される。
本発明は、他の観点において、文書を構成する個々のページを表す1または複数のページ画像データからなる文書画像データの集合を複数取得する文書入力部と、前記複数の文書画像データ集合における第1の文書画像データ集合に含まれる文書画像データ毎に、当該文書画像データにおける全てのページ画像データから特徴量ベクトルを抽出し、各ページ画像データから抽出した各特徴量ベクトルが特徴量空間内に形成するクラスタ領域を決定するとともに、前記複数の文書画像データ集合における第2の文書画像データ集合内の先頭ページのページ画像データから特徴量ベクトルを抽出し、該特徴量ベクトルが前記クラスタ領域に属するか否かによって、前記第1の文書画像データ集合および前記第2の文書画像データ集合が同一の文書から取得されたものであるか否かを判定する文書分断判定部とを有する文書ファイリング装置を提供する。
好ましい態様において、前記文書入力部は、セットされた原稿束から1ページずつ紙を取り出すADFと、該ADFによって順次取り出される紙から原稿を読み取ってページ画像データを出力するスキャナ装置を備え、前記ADFにセットされた1つの原稿束から得られたページ画像データにより1つの文書画像データ集合を構成する。
別の好ましい態様において、前記文書分断判定部は、時間的に連続して得られた2つの文書画像データ集合を前記第1の文書画像データ集合および前記第2の文書画像データ集合として取り扱う。
【0019】
なお、以下の説明においては、ある文書の一ページ分の画像データを「ページ画像データ」とよぶ。また、ある文書の各ページの画像データから成るページ画像データの集合であって、一文書分の画像データを「文書画像データ」とよぶ。
【0020】
【発明の実施の形態】
<A.第1実施形態>
<1.構成>
図1は、本発明の第1実施形態に係る文書ファイリング装置1の概略図である。同図に示すように、本実施形態における文書ファイリング装置1は、ADFを備えた文書入力部101と、文書区切り部102と、文書蓄積部103と、文書分断判定部104と、特徴量抽出部105と、類似度評価部106と、分断文書連結部107と、ユーザインターフェース108と、文書出力部109と、を備えている。
【0021】
文書入力部101は、例えば、ADFを備えたスキャナ装置とその制御部等から構成される。この文書入力部101において、ユーザによってADFに原稿がセットされると、この原稿が順に一ページずつスキャナ装置に送られて画像読み取り処理が行われる。この画像読み取り処理により、原稿のページ画像データが取得され、1つの電子ファイルにまとめられて文書蓄積部103に格納される。本実施形態では、このように1つのジョブスキャンにおいて取得されたページ画像データが、1つの電子ファイルにまとめられ、文書蓄積部103に格納される。
【0022】
文書区切り部102は、CPU、画像処理プロセッサ、RAM、ROMから構成されている。この文書区切り部102は、文書入力部101により文書蓄積部103に格納された各電子ファイルを読み出し、各電子ファイル毎に、その電子ファイル内のページ画像データにおける文書間の区切り位置を決定する。そして、文書区切り部102は、所定の文書区切り処理を実行することにより、電子ファイル内のページ画像データを、決定された区切り位置において区切り、文書単位に区分されたページ画像データを文書蓄積部103に蓄積する。ここで、文書区切り判定法および文書区切り処理としては種々の既存手法を用いることができ、「従来の技術」において解説した手法を用いても良い。一例を挙げれば、読み込まれたページ画像データに対し文字認識を行い、文書区切り位置を特定し、文書単位に分離して文書蓄積部103に蓄積する方法が考えられる。
【0023】
文書蓄積部103は、ハードディスクドライブやDVD−RAM(Digital Versatile Disc-Random Access Memory)ドライブ等の大容量記憶装置から構成され、文書入力部101によって入力されたページ画像データおよび文書区切り部102により文書単位に分割されたページ画像データを格納する手段として用いられる。
【0024】
文書分断判定部104は、特徴量抽出部105と類似度評価部106を具備し、単一の文書が複数の回のスキャンジョブに跨ってスキャンされているか否か、すなわち、単一の文書のページ画像データが2つの電子ファイルに分断されて文書蓄積部103に格納されているか否かを判定する。
【0025】
特徴量抽出部105は、ページ画像データから特徴量を抽出する手段である。また、類似度評価部106は、特徴量抽出部105によって抽出された特徴量を用いて、N番目のスキャンジョブにより得られたページ画像データとN+1番目のスキャンジョブにより得られたページ画像データとの類似性を判定する。ここで、比較対象として用いるページ画像データは一ページ分のページ画像データであってもよいし、複数ページ分の画像データであってもよい。詳細は後述する。
【0026】
分断文書連結部107は、文書分断判定部104によって単一文書が分断されて読み込まれたと判定された場合に、該文書のページ画像データに対し連結・統合処理を行い、単一の文書画像データに再構成する。
【0027】
ユーザインターフェース部108は、キーボードやマウス等の入力デバイスであって、ユーザからの文書入力指示や文書出力指示を入力する。
【0028】
文書出力部109は、入力されたページ画像データをユーザからの指示に応じて所定の方法で所定の場所に出力する。本実施形態では、この文書出力部109として次のようなものを想定している。すなわち、CRT(Cathode Ray Tube)または液晶パネルとその制御手投とを有する表示部、プリンタ装置および制御部等を有する印刷部、磁気ディスクやメモリカード等のリード/ライト装置およびその制御部等を有する記憶部、またはネットワーク等を介してデータの授受を行うデータ転送装置である。例えば、入力されたページ画像データをCRTに出力し、ユーザからの指示に従ってこのデータを編集し、これをHTML(Hyper Text Markup Language)形式に変換して記憶媒体に格納してもよい。
【0029】
<2.動作>
以下の説明では、複数ページからなる紙原稿がM個の束に分割され、それらの分割された束が、M個のスキャンジョブにより処理される場合を想定する。また、ユーザは既にN回のスキャンジョブを終了しており、これから(N+1)回目のスキャンジョブを行うものとする。ただし、MおよびNは自然数であり、且つ、M>Nである。
【0030】
ユーザは、1または複数ページからなる紙原稿を第(N+1)回目のスキャンジョブとしてADFにセットする。この際、紙原稿は単一の文書であってもよいし、単一文書の一部のページであってもよい。あるいは、複数の文書から構成されていてもよい。また、紙原稿をセットする際にユーザは文書の区切りを意識する必要はない。ユーザがセットする紙原稿の初めに、ある文書の後半部分が含まれていてもよいし、紙原稿の最後に、ある原稿の前半部分が含まれていても良い。ただし、文書区切り部102が文書区切り用原稿に基づいて文書の区切り位置を検出する手法を用いている場合は、予め文書の区切り位置に文書区切り用原稿を挿入して等の所定の処理をしておくものとする。ADFにセットする紙原稿の枚数は、ADFが一回に処理できるページ数の上限を超えてはならないことは言うまでもない。
【0031】
ADFにセットされた紙原稿は1ページずつスキャナ装置に送られ、セットした紙原稿のページ数分のページ画像データが生成され、それらのページ画像データは(N+1)回目のスキャンジョブに対応付けられた電子ファイルとして文書蓄積部103に格納される。例えば、一度に100枚の紙原稿をセットし、全て両面をスキャンする場合は、200ページ分のページ画像データが入力されることになる。
【0032】
なお、説明が煩雑になるを防ぐため、以下の説明においては、文書dn(m)と記述した場合、n番目のスキャンジョブにおいてm番目に読み取られた文書を表すものとする。さらに、dP,K(L)と記述した場合、L番目のスキャンジョブにおいて、P番目にスキャンされた文書の先頭からKページ目の紙原稿を表すものとし、さらにこのページのページ画像データをDP,K(L)と表す。従って、例えば、N番目のスキャンジョブで2番目にスキャンされた文書はd2(N)であり、該文書にかかるページ画像データは、3つのページ画像データD2,1(N)、D2,2(N)およびD2,3(N)から構成される(図2参照)。
【0033】
入力されたページ画像データは、文書区切り部102によって文書の区切り位置が判定され、文書単位に分離された後、文書蓄積部103に蓄積される。文書単位に分離して蓄積する方法としては、文書毎にファイルフォルダを用意し、一の文書にかかるページ画像データの各々に対し入力された順に番号を付けたものをファイル名とし、これらを対応するファイルフォルダへ格納する方法がある。具体的には、文書dm(n)を格納すべきフォルダには「文書画像データ(ジョブ番号、文書n)」のフォルダ名を付与する。例えば、文書d2(N)に係る文書画像データを保存するためのフォルダのフォルダ名は、「文書画像データ(ジョブN、文書2)」であり、該フォルダには、3つのページ画像データD2,1(N)、D2,2(N)およびD2,3(N)が格納されることになる。ここでは、ページ画像データDP,K(L)には、データファイル名「ページ画像データ(ジョブN、文書M、ページP)」を付与するものとする。例えば、ページ画像データD2,1(N)のファイル名は「ページ画像データ(ジョブN、文書2、ページ1)」となる。
【0034】
次に、図3に示すように、文書分断判定部104が、N番目のスキャンジョブにおける最後の文書である文書d3(N)と(N+1)番目のスキャンジョブにおける最初の文書である文書d1(N+1)とが同一文書を分断したものかどうかを判定する。
【0035】
具体的には、まず特徴量抽出部105は、文書d3(N)の最後のページに係るページ画像データD3,3(N)と、文書d1(N+1)の最初のページにかかるページ画像データD1,1(N+1)との各々から特徴量を抽出する。
より具体的には、1ページ分のページ画像データの特徴を表す特徴ベクトルを決定する。このベクトルの成分は以下のようにして求める。すなわち、まず、ページ画像データD3,3(N)から、例えば画像全体の色調、縦横比、輝度や色の分布状態、エッジの分布状態、平坦なエリアの分布状態といった、そのページ画像データの特徴を示す量を抽出する。この抽出過程を、図4を使ってより具体的に説明する。まず、一つのページ画像データの領域を縦方向にX分割、横方向にY分割する。すなわち、一のページ画像データをX×Y個の領域に分割する。
【0036】
次に、各々の領域について、画像解析処理を行い当該領域の特徴量を算出する。特徴量としては、上述したように様々なパラメータ採用することができるが、ここでは一例として階調度を採用する。より具体的には、まず1つの領域の色のR、G、Bの各成分を求める。このR,G、Bの各成分をL*a*b空間(特徴色空間)での色成分を表す3個の量に変換する。これらの3個の量を1つの領域に対応した特徴量として使用する。以上により、1ページ分のページ画像データから、(X×Y×3)個の特徴量が抽出される。
図4の左側の部分においては、一例としてX=6、Y=4の場合が示されており、このページ画像データからは計72個の特徴量が算出されている(図4中央参照)。すなわち、72個の成分を持った一つの72次元ベクトルが生成される(図4右側参照)。同様の処理をページ画像データD1,1(N+1)に対しても行う。
【0037】
次に、類似度評価部106は、このようにして得られた2つのベクトル間の距離を計算する。ここで距離としては、ユークリッド距離またはマハラノビス距離等を用いる。図5に示すように、計算された距離が所定の基準値よりも小さい場合は、ページ画像データD3,3(N)とページ画像データD1,1(N+1)とは類似であり、同一の文書に属すると判定する。換言すれば、文書d3(N)および文書d1(N+1)は同一の文書の前半および後半であると判定する(図5左側参照)。計算された距離が所定の値よりも大きい場合は、ページ画像データD3,3(N)とページ画像データD1,1(N+1)とは非類似であり、異なる文書に属するものであると判定する。換言すれば、文書d3(N)と文書d1(N+1)とは異なる文書であると判定する(図5右側参照)。
【0038】
文書分断判定部104において、文書d3(N)と文書d1(N+1)とが同一の文書であると判断された場合は、分断文書連結部107は文書d3(N)と文書d1(N+1)とを連結する処理を行う。具体的には、ページ画像データD3,1(N)、D3,2(N)、およびD3,3(N)と、ページ画像データD1,1(N+1)、D1,2(N+1)、およびD1,3(N+1)とを結合する。
より具体的には、まず、フォルダ「文書画像データ(ジョブN+1、文書1)」に格納されているページ画像データD1,1(N+1)D1,2(N+1)D1,3(N+1)を、フォルダ「文書画像データ(ジョブN、文書3)」に移行する。次に、移行したデータのデータファイル名を変更する。すなわち、移行したデータのファイル名が、ページ画像データD3,3(N)の後に続くようにファイル名を付与しなおす。具体的には、ファイル名「ページ画像データ(ジョブN+1、文書1、ページ1)」を「ページ画像データ(ジョブN、文書3、ページ4)」と、ページ画像データ(ジョブN+1、文書1、ページ2)」を「ページ画像データ(ジョブN、文書3、ページ5)と、ページ画像データ(ジョブN+1、文書1、ページ2)」を「ページ画像データ(ジョブN、文書3、ページ6)と、変更する。
【0039】
以上の処理を全ての連続するスキャンジョブについて行う。すなわち、全部でM回のスキャンジョブを行う場合、一番目のスキャンジョブをスキャンジョブ1と呼ぶとすると、連続したスキャンジョブは、スキャンジョブ1とスキャンジョブ2、スキャンジョブ2とスキャンジョブ3、・・・スキャンジョブM−1とスキャンジョブM、およびスキャンジョブMとスキャンジョブ1の計M個ある。従って、第1番目の先頭のスキャンジョブから順に、連続するスキャンジョブに係る文書画像データの全てについて、上述した文書分断判定処理を計M回行う。
このようにすれば、各フォルダには一つの文書を構成する全ページのページ画像データのみが格納されるため、M束の紙原稿において分断されたページ画像データの全てを正しく結合し、まとめて格納することができる。
【0040】
なお、Tiff等の複数ページ画像を保持できる画像ファイルフォーマットを用いて文書画像データを保存する場合、上述した処理を行った後、フォルダ「文書画像データ(ジョブN、文書M)」に格納されているページ画像データの全てを結合して一つのファイルを生成する。ファイル名は、例えば、フォルダ名と同じものにしてもよい。
【0041】
なお、N+1番目のスキャンジョブにおける最初の文書である文書d1(N+1)と、N番目のスキャンジョブにおける最後の文書である文書d3(N)との分断判定を行う際に、フォルダ「文書画像データ(ジョブN、文書M)」(Mは任意の整数)に格納されているページ画像データが存在しない場合がある。これは、一つの文書が3つ以上に跨ってスキャンされている場合である。この場合、N番目のスキャンジョブで得られたページ画像データは、すでにN―1番目以下のスキャンジョブにかかるページ画像データと結合処理がされているため、当該フォルダは空となっている。
このように、分断を判定する対象となるページ画像データが直前のスキャンジョブに係るフォルダに存在しない場合は、その前のスキャンジョブにかかるページ画像データと結合処理を行う。すなわち、結合対象となるページ画像データが見つかるまでフォルダの番号の若いフォルダへ順次さかのぼって検索し、見つかったら文書の分断判定を行う。そして結合が必要であると判断された場合は、上記の同様の結合処理を行う。
【0042】
生成されたページ画像データのスキャンジョブ番号がユーザにとって不要である場合は、生成されたフォルダをスキャンジョブの実行された順に並べ、新たに、文書ごとに番号を付与してもよい。このようにすれば、各フォルダには格納されている文書を区別するための通し番号が振られるので、スキャンジョブ番号を用いることなく、より簡明な文書画像データの整理が実現される。
【0043】
B.変形例
<1.特徴量>
上記実施形態においては、ページ画像データを特徴付けるものとして、画像全体の色調、縦横比、輝度や色の分布状態、エッジの分布状態、または平坦なエリアの分布状態等の情報を抽出した。このような情報は、プレゼンテーション用資料等のように原稿の全部またはほとんどを画像が占めている場合には非常に有効である。しかしながら、契約書等のように大部分が文字から成るような原稿である場合には、あまり有効ではないこともある。従って、本変形例においては、ページ画像データから色調や輝度といった情報を抽出するのではなく、文字の高さ、字間、行間、縦書き・横書き等の文書フォーマットの特徴を示す情報(以下、文書フォーマット特徴量という)を抽出し、この文書フォーマット特徴量に基づいて2つの文書が同一であるか否かを判定する。
【0044】
本実施形態に係るページ画像データの比較方法は、2ページ分の文書画像が同一文書に属するのか、異なる文書に属するのかを判定するのに有効である。何故なら、1つの文書ではその体裁を統一するのが一般的であるから、上述したような文書フォーマットの特徴が同様なページ画像データは、同一の文書に属すると推定することができるからである。反対に、異なる文書に属するページ画像間では、意図的に同一のフォーマットで作成された文書でない限り、フォーマット特徴が等しくなることは極めて稀である。従って、ほとんど文字によって構成される文書の場合は、そのページ画像データの類似性を正確に判定することができる。
【0045】
スキャナ等から入力した文書画像から、文字の高さ、字間、行間などのフォーマット特徴を求めるには、各種従来技術が適用可能である。そのような従来技術の一例が特開平5−108793の段落番号0009から0012の部分に開示されている。当該技術においては、横書きであることを前提としてbを行間、dを字間としている。しかし、通常は行間の方が字間より大きいので、bとdを比較して大きい方を行間、小さい方を字間とし、bの方が大きい場合は横書き、dの方が大きい場合は縦書きと、縦書き・横書きの別も判断してもよい。
【0046】
一般には同一文書に属するページであっても、タイトル行、要約部、本文など、文書を構成する部位によってフォントの大きさや行間隔などが多少異なる場合もある。例えば、表題の文字は、本文よりも大きいフォントに設定される場合である。従って、上述したフォーマット特徴を抽出しても、文書を構成する部位によってその値は異なり、ページ全体で一貫しないのが普通である。フォーマット特徴の値が一貫しないと、フォーマット特徴量を用いて各々のページの文書画像が同一文書に属するのか否かを判定するのが困難になる。この問題については以下のようにして対処することができる。
【0047】
まず、図4を参照して説明した方法と同様、入力されたページ画像データを複数の領域に分割する。次に分割された領域の各々について、文字の高さ、字間、行間、縦書き・横書きなど情報を含むフォーマット特徴量を算出する。例えば、文字の高さ「10pt」、字間「15pt」、行間「10.5pt」、縦書き・横書き「0」という値が得られる。ここでは、縦書きの場合には「0」を、横書きの場合は「1」を対応付けるものとする。
【0048】
次に、算出された全ての領域に係る特徴量のなかで最も頻繁に出現する値を決定し、これをそのページの特徴量とする。例えば、全24個の領域のうち、20個の領域において文字の高さが「10pt」であり、3個の領域において「12pt」、一つの領域では「16pt」であった場合は、当該ページの文字の高さにかかる特徴量として「10pt」が算出される。字間、行間、縦書き・横書きについても同様である。
【0049】
一般的に言えば、表題や見出しがページ全体に占める割合は、文書を特徴付けている本文に比べて小さい。従って、最頻出の値は、本文の特徴を表した量であるとみなすことができる。これによって、文書に表題や見出し部が存在したとしても、ページ画像データから的確に特徴量を得ることができる。
【0050】
このようにして、1ページ分のページ画像データから、当該ページの文書フォーマットの特徴を表す特徴ベクトル(以下、フォーマット特徴ベクトルという)が求められる。下にフォーマット特徴ベクトルのfの一例を示す。
【0051】
【数1】
f=(文字の高さ、字間、行間、[縦書き:0,横書き:1])
【0052】
この場合は、4個の成分をもつ4次元ベクトルである。
【0053】
次に、類似度評価部106は、類似性を比較すべき2つのページ画像データの各々から求められたフォーマット特徴ベクトル間の距離Lを求める。特徴ベクトルをそれぞれfa、fbとすれば、距離Lは以下の様に表すことができる。
【0054】
【数2】
L=‖fa-fb‖
【0055】
但し、上式において‖v‖はベクトルvのノルムを表す。このLが所定の値より小さい場合は、二つのページ画像データは類似性があり、それぞれ同一の文書に属するものであると判定する。Lが所定の値よりも大きい場合には、二つのページ画像データは類似性がなく、それぞれは異なる文書に属するものであると判定する。
【0056】
<2.比較対象画像データ>
上記実施形態においては、N番目のスキャンジョブにおける最後の文書である文書dLAST(N)とN+1番目のスキャンジョブにおける最初の文書である文書d1(N+1)とを連結すべきかどうかを判定に際し、文書d3(N)の最後のページに係るページ画像データD3,3(N)と、文書d1(N+1)の最初のページにかかるページ画像データD1,1(N+1)とを比較した。
しかしながら、これに限らず、文書d3(N)の全てのページに係るページ画像データと、文書d1(N+1)の全てのページに係るページ画像データを比較してもよい。具体的には、図6に示すように、文書d3(N)のページに係るページ画像データの各々から上記実施形態と同様の方法で特徴量を抽出し、ページ枚数分の特徴量ベクトルを生成する。次に、これらのベクトルの平均ベクトルを求め、これを文書d3(N)の特徴ベクトルとする。この処理を文書d1(N+1)に対しても同様な処理を行う。そして、図7に示すように、このように得られた2つの特徴ベクトル間の距離を計算することによって、文書d3(N)と文書d1(N+1)の類似性を判定する。なお、ここでの特徴量は画像データ特徴量であってもよいし、文書フォーマット特徴量であってもよい。
【0057】
<3.比較判定方法>
上記実施形態においては、ベクトル間の距離を計算することによってページ画像データの類似性を判定したが、これに限らず、クラスタリング手法を用いて画像データの類似性を判定してもよい。具体的には、図8に示すように、上記実施形態と同様、N番目のスキャンジョブとN+1番目のスキャンジョブについて、読み取られた全てのページのページ画像データについて特徴量を抽出し、ベクトル空間内にマッピングする。
次に、ベクトル空間にマッピングされた特徴量の集合に対し適当なクラスタリング手法を適用し、クラスタに分割する。クラスタリング手法としては様々な手法が存在するが、一例としては特開2001−256244号公報で示されているものを挙げることができる。
そして、文書dLAST(N)の最後のページのページ画像データと、文書d1(N+1)の最初のページのページ画像データD1,1(N+1)の特徴量を示すベクトル空間内の一点が同一クラスタに属する場合は、2つの文書は同一の文書に属すると判定する。
【0058】
<4.特徴量および抽出方法>
小領域から抽出すべき特徴量は、画像全体の色調、縦横比、輝度や色の分布状態、エッジの分布状態、平坦なエリアの分布状態のどれか一つでもよいし、複数であってもよい。例えば、ページ画像データの領域を24分割した場合、1つの小領域から色調、エッジ状態を抽出し、特徴量を144次元のベクトルとして表してもよい。また、主成分解析等の手法を用いて、ページ画像データの特徴をできるだけ損なうことなく抽出した特徴量を減らしてもよい。これにより、文書分断判定部が行うべき演算量を減少し、演算にかかる時間が減少する。以上を換言すれば、抽出すべきパラメータの数は任意である。また、分割領域の数も問わない
【0059】
文書ファイリング装置1は、得られたページ画像データを解析し、解析結果に基づいて抽出方法および抽出すべきパラメータの種類および数を決定してもよい。決定にあたっては、類似判定の精度と演算量と判定速度とを比較考量することが望ましい。
あるいは、文書ファイリング装置1は、スキャン開始時または分断判定時に、判定精度および処理時間をユーザに指定させてもよい。この場合、文書画像ファイリング装置1は、ユーザからの指定に基づいて、抽出方法および抽出パラメータの種類および数等を決定する。
【0060】
<5.スキャナ装置>
上記実施形態においては、文書入力部101は、1台のスキャナ装置から構成される場合を前提として説明を行った。しかしながら、文書入力部101を、複数のスキャナ装置から構成し、複数のスキャンジョブを並列処理することも可能である。
例えば、10台のスキャナ装置を使用する場合を考える。仮に、全部で1000枚の原稿を処理する場合、まずユーザは100ずつの原稿束に分ける。そして、各原稿束を、順に、付与された番号の若い順のスキャナ装置にセットし、各原稿束を読み取らせる。
この場合、隣接するスキャンジョブ(N番目のスキャンジョブとN+1番目のスキャンジョブ)をどのように定義するかが問題となるが、これは以下に示す方法を用いることで解決することができる。
【0061】
すなわち、第1の方法としては、予め複数台のスキャナを一意に特定する為番号を割り当ておく。例えば、10台のスキャナ装置を使用する場合を考える。仮に、全部で1000枚の原稿を処理する場合、まずユーザは100ずつの原稿束に分ける。そして、各原稿束を、順に、付与された番号の若い順のスキャナ装置のADFにセットしていく。
具体的には、全部でK台のスキャナがあるとすると、文書の連結処理は、スキャナ1とスキャナ2、スキャナ2とスキャナ3、…、スキャナK−1とスキャナK、スキャナKとスキャナ1という組み合わせでしか発生しない。従って、文書分断判定部104は、これらの組み合わせのスキャンジョブについてのみ分断の判定を行えばよい。
【0062】
第2の方法としては、まず、文書ファイリング装置1に複数台のスキャナの各々が原稿の読み取りを開始した時刻を取得するための装置を設ける。そして、文書分断判定部104は、スキャン開始時刻が隣接するスキャナ装置におけるスキャンジョブについてのみ分断の判定を行う。これは、ユーザが紙原稿を各々のスキャナ装置にセットした順に読み取り処理が開始されることを鑑みたものである。
【0063】
【発明の効果】
同一の文書原稿が2以上のスキャンジョブに跨って読み込まれた場合でも、分断されて格納されたページ画像データの結合作業をユーザが手作業で行う必要がなくなる。
【図面の簡単な説明】
【図1】 本発明の一実施形態である文書ファイリング装置1の全体構成を示すブロック図である。
【図2】 1回のスキャンジョブで入力される文書を示す図である。
【図3】 比較対象となるページを示す図である。
【図4】 ページ画像データ特徴量の抽出方法を示す図である。
【図5】 ページ画像データの類似・非類似を判定する方法を示す図である。
【図6】 一の変形例において、比較対象となるページを示す図である。
【図7】 当該変形例において、特徴量の比較方法を示す図である。
【図8】 別の変形例において、ページ画像データの類似・非類似を判定する方法を示す図である。
【符号の説明】
1・・・文書ファイリング装置
101・・・文書入力部
102・・・文書区切り部
103・・・文書蓄積部
104・・・文書分断判定部
105・・・特徴量抽出部
106・・・類似度評価部
107・・・文書分断連結部
108・・・ユーザインターフェース
109・・・文書出力部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a technique for digitizing paper documents.
[0002]
[Prior art]
A paper document is an excellent medium for transmitting and recording information, but requires a space for storing it. In addition, when information is recorded and stored in a paper document, when the paper document becomes necessary later, the target paper document must be searched from among many paper documents stored in a library. Therefore, the form of recording and storing in a paper document is not preferable from the viewpoint of improving business efficiency. Under such circumstances, paper documents are digitized and stored. Specifically, the user sets a paper document page by page in the scanner device, reads each page of the paper document with this scanner device, and stores it in an electronic file as image data.
[0003]
Such a method is inefficient when the number of pages of a paper document to be converted into an electronic file is large. For this reason, when the number of pages of a paper document is large, each page of the paper document is continuously used by using a scanner device having an automatic paper feeding mechanism (hereinafter simply referred to as ADF) called an auto document feeder (ADF). Automatic reading is widely performed.
[0004]
By the way, depending on the situation, a large number of paper documents to be digitized may be generated at one time. In such a case, if each paper document is set in the ADF one by one and read processing is performed, the paper document can be converted into an electronic file in document units. However, when this method is adopted, a paper document must be set in the ADF for each document and an operation for performing a reading process must be performed, which is cumbersome for the user. On the other hand, if all types of paper documents are collectively set in the ADF and read processing is performed, the plurality of types of paper documents can be collectively converted into an electronic file. However, when this method is adopted, image data of a plurality of types of paper documents are stored together in one electronic file, which is inconvenient for searching and browsing individual paper documents later.
Therefore, several technologies have been proposed in the past to meet the need for a technology that reads multiple types of paper documents at once and converts the image data of paper documents into electronic files for each document. Has been.
[0005]
For example, Patent Document 1 discloses the following electronic filing device. First, when there are a plurality of documents to be digitized, the user of the apparatus inserts a specific document separator document between the plurality of documents in advance. Then, an original composed of a plurality of documents into which the document separation original is inserted is set on the ADF, and the apparatus is caused to perform image reading processing. The apparatus recognizes image data corresponding to a document separation document from page image data of all pages obtained by the image reading process, and converts the page image data into an electronic file for each document.
[0006]
[Patent Document 1]
JP-A-1-162474
[0007]
Patent Document 2 discloses the following electronic filing device. That is, when there are a plurality of documents to be converted into electronic files, the user of the apparatus adds a document delimiter mark in advance to the reverse side of the page that becomes a document delimiter in each document. In this apparatus, both the front and back sides of each page of a document composed of a plurality of documents are read by an image scanner, the document separation mark is recognized, and the page image data of each document is converted into an electronic file for each document.
[0008]
[Patent Document 2]
JP-A-7-287747
[0009]
Patent Document 3 discloses the following electronic filing device. That is, the apparatus cuts out a character recognition area portion set in advance from image data read by an image scanner, performs character recognition processing, and determines a document break based on the character recognition result.
[0010]
[Patent Document 3]
Japanese Patent Laid-Open No. 10-21380
[0011]
Further, there is a method in which a plurality of documents are collectively read by an image scanner having an ADF, a feature amount of the read document image is calculated, and a document unit break is determined based on the feature amount. According to this method, the document separation can be determined without inserting a document separation document between the documents in advance or modifying the page that becomes the document separation, so that the burden on the user is greatly reduced. be able to. An example of such an apparatus is disclosed in Patent Document 4 below.
[0012]
[Patent Document 4]
Japanese Patent Laid-Open No. 2002-24258
[0013]
[Problems to be solved by the invention]
In any of the above prior arts, an ADF is used, but there is an upper limit on the number of documents that can be set in the ADF at one time. For this reason, there were the following problems.
[0014]
First, if the manuscript to be processed is composed of manuscripts of a plurality of types of documents (hereinafter referred to as document manuscripts) and is in large quantities, it is considered convenient for the user if the following work mode can be taken.
That is, the user takes out an appropriate amount of original bundles that can be set on the ADF from the stacked original bundles, sets the original bundles on the ADF, and causes the scanner device to read the original bundles. Hereinafter, this series of operations is referred to as a scan job. If such a scan job is repeated until there are no more original bundles, the image reading process for all the originals can be completed.
However, in such a work mode, for example, when a document bundle is set in the ADF and the Nth scan job is performed, the document bundle ends with a page in the middle of the document. Can happen. In this case, the remaining pages of the document are processed in the (N + 1) th scan job.
[0015]
In such a case, when the scanned image data is converted into an electronic file for each scan job, the image data acquired from the same document corresponds to the first half and the second half of the document. Are stored in separate electronic files as if they were image data of separate documents. This hinders the creation of electronic files in document units.
In order to avoid this, it is necessary for the user to visually check the separation of document originals before setting a bundle of originals so that processing of a single document original is not performed across two scan jobs. . However, such work is troublesome for the user.
[0016]
Furthermore, when the total number of pages of one document exceeds the ADF processing upper limit, there is a problem that a single document must be processed across a plurality of scan jobs. For example, when the number of originals that can be set in the ADF is 100 pages, a document original having a total number of 150 pages is processed.
[0017]
The present invention has been made in view of the circumstances described above, and processing of a single document original is performed across a plurality of scan jobs, and image data of the same document is divided and stored in two electronic files. It is an object of the present invention to provide a method and apparatus for document filing that can detect such a situation.
[0018]
[Means for Solving the Problems]
  In one aspect, the present invention provides a document filing apparatus including a control unit, a storage unit, and an original reading unit for reading an original, wherein the original reading unit represents one or more pages representing individual pages constituting the document. A first step of acquiring a plurality of document image data sets made up of image data and storing them in the storage unit; and the control unit refers to the storage unit and a first document image in the plurality of document image data sets. For each document image data included in the data set, a feature amount vector is extracted from all page image data in the document image data, and each feature amount vector extracted from each page image data forms in a feature amount space. And determining from the page image data of the first page in the second document image data set in the plurality of document image data sets Whether or not the first document image data set and the second document image data set are obtained from the same document depending on whether or not the feature quantity vector belongs to the cluster region. And a second method for determining whether or not a document is divided.
  In a preferred aspect, each of the plurality of document image data sets includes document image data read from one original bundle in one scan job by the original reading unit, and the first document image data set and The second document image data set is composed of document image data read from two original bundles in a continuous scan job.
  In another aspect, the present invention provides a document input unit that acquires a plurality of sets of document image data composed of one or a plurality of page image data representing individual pages constituting a document, and a first of the plurality of document image data sets. For each document image data included in one document image data set, feature quantity vectors are extracted from all page image data in the document image data, and each feature quantity vector extracted from each page image data is stored in the feature quantity space. A cluster area to be formed is determined, and a feature quantity vector is extracted from page image data of the first page in the second document image data set in the plurality of document image data sets, and the feature quantity vector belongs to the cluster area Whether the first document image data set and the second document image data set are the same. Providing a document filing apparatus including a determining document dividing determination section whether or not that is al acquired.
  In a preferred aspect, the document input unit includes an ADF that takes out the paper one page at a time from the set of originals, and a scanner device that reads the original from the paper sequentially taken out by the ADF and outputs page image data. A set of document image data is constituted by page image data obtained from one original bundle set in the.
  In another preferable aspect, the document segmentation determination unit treats two document image data sets obtained sequentially in time as the first document image data set and the second document image data set.
[0019]
In the following description, image data for one page of a document is referred to as “page image data”. Further, it is a set of page image data composed of image data of each page of a document, and the image data for one document is called “document image data”.
[0020]
DETAILED DESCRIPTION OF THE INVENTION
<A. First Embodiment>
<1. Configuration>
FIG. 1 is a schematic diagram of a document filing apparatus 1 according to the first embodiment of the present invention. As shown in the figure, the document filing apparatus 1 according to the present embodiment includes a document input unit 101 having an ADF, a document separator 102, a document storage unit 103, a document segmentation determination unit 104, and a feature amount extraction unit. 105, a similarity evaluation unit 106, a divided document connection unit 107, a user interface 108, and a document output unit 109.
[0021]
The document input unit 101 includes, for example, a scanner device having an ADF and its control unit. In the document input unit 101, when a document is set on the ADF by the user, the document is sequentially sent to the scanner device page by page and image reading processing is performed. Through this image reading process, page image data of the document is acquired, and is collected into one electronic file and stored in the document storage unit 103. In the present embodiment, the page image data acquired in one job scan as described above is collected into one electronic file and stored in the document storage unit 103.
[0022]
The document delimiter 102 includes a CPU, an image processor, a RAM, and a ROM. The document delimiter 102 reads each electronic file stored in the document storage unit 103 by the document input unit 101, and determines a delimiter position between documents in the page image data in the electronic file for each electronic file. Then, the document delimiter 102 executes predetermined document delimiter processing to delimit the page image data in the electronic file at the determined delimiter position, and the page image data divided in document units is stored in the document storage unit 103. To accumulate. Here, various existing methods can be used as the document separation determination method and document separation processing, and the method described in “Prior Art” may be used. As an example, a method is conceivable in which character recognition is performed on the read page image data, a document break position is specified, and the document is stored in the document storage unit 103 separately in document units.
[0023]
The document storage unit 103 includes a large-capacity storage device such as a hard disk drive or a DVD-RAM (Digital Versatile Disc-Random Access Memory) drive, and the page image data input by the document input unit 101 and the document delimiter unit 102 It is used as means for storing page image data divided into units.
[0024]
The document segmentation determination unit 104 includes a feature amount extraction unit 105 and a similarity evaluation unit 106, and whether or not a single document is scanned across a plurality of scan jobs, that is, a single document It is determined whether the page image data is divided into two electronic files and stored in the document storage unit 103.
[0025]
The feature amount extraction unit 105 is a means for extracting feature amounts from page image data. Further, the similarity evaluation unit 106 uses the feature amount extracted by the feature amount extraction unit 105, and page image data obtained by the Nth scan job and page image data obtained by the N + 1th scan job, Determine the similarity of. Here, the page image data used as a comparison target may be page image data for one page or image data for a plurality of pages. Details will be described later.
[0026]
When the document segmentation determination unit 104 determines that a single document has been segmented and read, the segmented document concatenation unit 107 performs concatenation / integration processing on the page image data of the document to obtain a single document image data Reconfigure to
[0027]
The user interface unit 108 is an input device such as a keyboard and a mouse, and inputs a document input instruction and a document output instruction from the user.
[0028]
The document output unit 109 outputs the input page image data to a predetermined place by a predetermined method in accordance with an instruction from the user. In the present embodiment, the following is assumed as the document output unit 109. That is, a display unit having a CRT (Cathode Ray Tube) or liquid crystal panel and its control hand throw, a printing unit having a printer device and a control unit, a read / write device such as a magnetic disk and a memory card, and its control unit, etc. A data transfer apparatus that exchanges data via a storage unit or a network. For example, the input page image data may be output to a CRT, the data may be edited in accordance with an instruction from the user, converted into an HTML (Hyper Text Markup Language) format, and stored in a storage medium.
[0029]
<2. Operation>
In the following description, it is assumed that a paper document consisting of a plurality of pages is divided into M bundles, and these divided bundles are processed by M scan jobs. Further, it is assumed that the user has already completed N scan jobs and will perform the (N + 1) th scan job from now on. However, M and N are natural numbers, and M> N.
[0030]
The user sets a paper document consisting of one or more pages in the ADF as the (N + 1) th scan job. At this time, the paper document may be a single document or a partial page of a single document. Alternatively, it may be composed of a plurality of documents. Further, when setting a paper document, the user does not need to be aware of document separation. The second half of a certain document may be included at the beginning of a paper document set by the user, or the first half of a certain document may be included at the end of the paper document. However, when the document separation unit 102 uses a technique for detecting the document separation position based on the document separation document, predetermined processing such as inserting the document separation document into the document separation position in advance is performed. Shall be kept. It goes without saying that the number of paper originals set in the ADF must not exceed the upper limit of the number of pages that can be processed at one time by the ADF.
[0031]
The paper document set in the ADF is sent to the scanner device page by page, and page image data corresponding to the number of pages of the set paper document is generated. The page image data is associated with the (N + 1) th scan job. And stored in the document storage unit 103 as an electronic file. For example, when 100 paper originals are set at a time and all sides are scanned, page image data for 200 pages is input.
[0032]
In order to prevent the explanation from becoming complicated, in the following explanation, the document dnWhen (m) is described, it represents the mth read document in the nth scan job. And dP, KWhen (L) is described, it is assumed that the Lth scan job represents a K page paper manuscript from the beginning of the Pth scanned document, and the page image data of this page is represented by DP, K(L). Thus, for example, the second scanned document in the Nth scan job is d2(N), and the page image data relating to the document is three page image data D2,1(N), D2,2(N) and D2,3(N) (see FIG. 2).
[0033]
The input page image data is stored in the document storage unit 103 after the document separation unit 102 determines the document separation position and is separated into document units. As a method of storing separately for each document, a file folder is prepared for each document, and each page image data related to one document is numbered in the order of input, and the file name is used. There is a method to store in the file folder. Specifically, document dmA folder name “document image data (job number, document n)” is assigned to the folder in which (n) is to be stored. For example, document d2The folder name of the folder for storing the document image data according to (N) is “document image data (job N, document 2)”, and the page includes three page image data D2,1(N), D2,2(N) and D2,3(N) is stored. Here, page image data DP, KIt is assumed that a data file name “page image data (job N, document M, page P)” is assigned to (L). For example, page image data D2,1The file name of (N) is “page image data (job N, document 2, page 1)”.
[0034]
Next, as shown in FIG. 3, the document segmentation determination unit 104 performs a document d that is the last document in the Nth scan job.ThreeDocument d, which is the first document in the (N) and (N + 1) th scan jobs1It is determined whether (N + 1) is the same document.
[0035]
Specifically, first, the feature amount extraction unit 105 performs document d.ThreePage image data D relating to the last page of (N)3,3(N) and document d1Page image data D relating to the first page of (N + 1)1,1A feature amount is extracted from each of (N + 1).
More specifically, a feature vector representing the feature of page image data for one page is determined. The component of this vector is obtained as follows. That is, first, page image data D3,3From (N), for example, quantities indicating the characteristics of the page image data such as the color tone, aspect ratio, luminance and color distribution state, edge distribution state, and flat area distribution state of the entire image are extracted. This extraction process will be described more specifically with reference to FIG. First, an area of one page image data is divided into X in the vertical direction and Y in the horizontal direction. That is, one page image data is divided into X × Y areas.
[0036]
Next, for each region, image analysis processing is performed to calculate a feature amount of the region. As described above, various parameters can be adopted as the feature amount, but here, the gradation is adopted as an example. More specifically, first, R, G, and B components of the color of one region are obtained. The R, G, and B components are converted into three quantities representing color components in the L * a * b space (characteristic color space). These three quantities are used as feature quantities corresponding to one area. As described above, (X × Y × 3) feature amounts are extracted from the page image data for one page.
In the left part of FIG. 4, the case of X = 6 and Y = 4 is shown as an example, and a total of 72 feature values are calculated from this page image data (see the center of FIG. 4). That is, one 72-dimensional vector having 72 components is generated (see the right side of FIG. 4). Similar processing is performed for page image data D.1,1Repeat for (N + 1).
[0037]
Next, the similarity evaluation unit 106 calculates the distance between the two vectors thus obtained. Here, the Euclidean distance or Mahalanobis distance is used as the distance. As shown in FIG. 5, when the calculated distance is smaller than a predetermined reference value, page image data D3,3(N) and page image data D1,1It is similar to (N + 1) and is determined to belong to the same document. In other words, document dThree(N) and document d1(N + 1) is determined to be the first half and the second half of the same document (see the left side of FIG. 5). If the calculated distance is greater than a predetermined value, page image data D3,3(N) and page image data D1,1(N + 1) is dissimilar to and is determined to belong to a different document. In other words, document dThree(N) and document d1It is determined that the document is different from (N + 1) (see the right side of FIG. 5).
[0038]
In the document segmentation determination unit 104, the document dThree(N) and document d1If it is determined that (N + 1) is the same document, the divided document concatenation unit 107 determines that the document dThree(N) and document d1A process of linking (N + 1) is performed. Specifically, page image data D3,1(N), D3,2(N) and D3,3(N) and page image data D1,1(N + 1), D1,2(N + 1), and D1,3Combine (N + 1).
More specifically, first, page image data D stored in the folder “document image data (job N + 1, document 1)”.1,1(N + 1) D1,2(N + 1) D1,3(N + 1) is transferred to the folder “document image data (job N, document 3)”. Next, the data file name of the migrated data is changed. That is, the file name of the migrated data is the page image data D3,3Rename the file so that it follows (N). Specifically, the file name “page image data (job N + 1, document 1, page 1)” is “page image data (job N, document 3, page 4)” and page image data (job N + 1, document 1, page 1). "Page 2)" is "page image data (job N, document 3, page 5) and page image data (job N + 1, document 1, page 2)" is "page image data (job N, document 3, page 6)". And change.
[0039]
The above processing is performed for all continuous scan jobs. That is, when performing M scan jobs in total, if the first scan job is called scan job 1, the continuous scan jobs are scan job 1 and scan job 2, scan job 2 and scan job 3,. There are a total of M scan jobs M-1 and M, and scan job M and scan job 1. Therefore, the document segmentation determination process described above is performed a total of M times for all the document image data related to successive scan jobs in order from the first head scan job.
In this way, since only the page image data of all pages constituting one document is stored in each folder, all the page image data divided in the M bundle of paper originals are correctly combined and combined. Can be stored.
[0040]
When the document image data is stored using an image file format such as Tiff that can hold a plurality of page images, the document image data is stored in the folder “document image data (job N, document M)” after performing the above-described processing. All the existing page image data are combined to generate one file. The file name may be the same as the folder name, for example.
[0041]
Note that the document d which is the first document in the (N + 1) th scan job1(N + 1) and the document d which is the last document in the Nth scan jobThreeWhen performing the division determination with (N), page image data stored in the folder “document image data (job N, document M)” (M is an arbitrary integer) may not exist. This is a case where one document is scanned over three or more. In this case, since the page image data obtained by the Nth scan job has already been combined with the page image data related to the N−1th and lower scan jobs, the folder is empty.
As described above, when the page image data to be determined for division does not exist in the folder related to the immediately preceding scan job, the page image data related to the previous scan job is combined. That is, until the page image data to be combined is found, the search is sequentially performed up to the folder with the lower folder number, and if it is found, the document is determined to be divided. If it is determined that the combination is necessary, the same combination process as described above is performed.
[0042]
If the scan job number of the generated page image data is unnecessary for the user, the generated folders may be arranged in the order in which the scan job is executed, and a new number may be assigned to each document. In this way, since a serial number for distinguishing stored documents is assigned to each folder, a simpler arrangement of document image data is realized without using a scan job number.
[0043]
B. Modified example
<1. Features>
In the embodiment described above, information such as the color tone, aspect ratio, luminance and color distribution state, edge distribution state, or flat area distribution state of the entire image is extracted as characterizing the page image data. Such information is very effective when an image occupies all or most of the original document such as a presentation material. However, in the case of a manuscript consisting mostly of characters, such as a contract, it may not be very effective. Therefore, in the present modification, instead of extracting information such as color tone and brightness from the page image data, information indicating the characteristics of the document format such as character height, character spacing, line spacing, vertical writing / horizontal writing (hereinafter, referred to as “character writing”). The document format feature value is extracted, and it is determined whether the two documents are the same based on the document format feature value.
[0044]
The page image data comparison method according to the present embodiment is effective for determining whether two pages of document images belong to the same document or different documents. This is because, since it is common for a document to have a uniform appearance, page image data with similar document format characteristics as described above can be assumed to belong to the same document. . Conversely, page images belonging to different documents rarely have the same format characteristics unless they are intentionally created in the same format. Therefore, in the case of a document composed almost of characters, the similarity of the page image data can be accurately determined.
[0045]
Various conventional techniques can be applied to obtain format characteristics such as character height, character spacing, and line spacing from a document image input from a scanner or the like. An example of such a prior art is disclosed in paragraph Nos. 0009 to 0012 of JP-A-5-108793. In the technique, b is a line spacing and d is a character spacing on the premise of horizontal writing. However, since the line spacing is usually larger than the character spacing, comparing b and d, the larger one is the line spacing, the smaller one is the character spacing, horizontal writing when b is larger, and vertical when d is larger. Whether writing or vertical / horizontal writing may be determined.
[0046]
In general, even for pages belonging to the same document, the font size, line spacing, and the like may be slightly different depending on the parts constituting the document, such as the title line, summary section, and body. For example, the title character is set to a font larger than the text. Therefore, even if the format features described above are extracted, the values differ depending on the parts constituting the document and are generally not consistent throughout the page. If the value of the format feature is not consistent, it is difficult to determine whether or not the document image of each page belongs to the same document using the format feature amount. This problem can be dealt with as follows.
[0047]
First, similarly to the method described with reference to FIG. 4, the input page image data is divided into a plurality of regions. Next, a format feature amount including information such as character height, character spacing, line spacing, vertical writing and horizontal writing is calculated for each of the divided areas. For example, the values of character height “10 pt”, character spacing “15 pt”, line spacing “10.5 pt”, vertical writing / horizontal writing “0” are obtained. Here, “0” is associated with vertical writing, and “1” is associated with horizontal writing.
[0048]
Next, a value that appears most frequently among the calculated feature values of all the regions is determined, and this is used as the feature value of the page. For example, if the height of a character is “10 pt” in 20 areas out of a total of 24 areas, “12 pt” in 3 areas, and “16 pt” in one area, the page concerned “10 pt” is calculated as the feature amount related to the height of the character. The same applies to character spacing, line spacing, vertical writing, and horizontal writing.
[0049]
Generally speaking, the ratio of titles and headings to the entire page is small compared to the body that characterizes the document. Therefore, the most frequently occurring value can be regarded as an amount representing the feature of the text. As a result, even if the document has a title and a heading, the feature amount can be accurately obtained from the page image data.
[0050]
In this way, a feature vector (hereinafter referred to as a format feature vector) representing the document format feature of the page is obtained from page image data for one page. An example of the format feature vector f is shown below.
[0051]
[Expression 1]
f = (character height, character spacing, line spacing, [vertical writing: 0, horizontal writing: 1])
[0052]
In this case, it is a four-dimensional vector having four components.
[0053]
Next, the similarity evaluation unit 106 obtains the distance L between the format feature vectors obtained from each of the two page image data whose similarity should be compared. If the feature vectors are fa and fb, respectively, the distance L can be expressed as follows.
[0054]
[Expression 2]
L = ‖fa-fb‖
[0055]
In the above equation, ‖v‖ represents the norm of the vector v. If L is smaller than a predetermined value, it is determined that the two page image data are similar and belong to the same document. When L is larger than a predetermined value, it is determined that the two page image data have no similarity and belong to different documents.
[0056]
<2. Comparison target image data>
In the above embodiment, the document d, which is the last document in the Nth scan job.LAST(N) and document d which is the first document in the (N + 1) th scan job1In determining whether to link (N + 1), the document dThreePage image data D relating to the last page of (N)3,3(N) and document d1Page image data D relating to the first page of (N + 1)1,1(N + 1) was compared.
However, the document d is not limited to this.Three(N) page image data relating to all pages and document d1You may compare the page image data concerning all the pages of (N + 1). Specifically, as shown in FIG.ThreeFeature values are extracted from each of the page image data related to the page (N) by the same method as in the above embodiment, and feature vector vectors for the number of pages are generated. Next, an average vector of these vectors is obtained, and this is expressed as document d.ThreeLet (N) be the feature vector. This process is document d1Similar processing is performed for (N + 1). Then, as shown in FIG. 7, by calculating the distance between the two feature vectors thus obtained, the document dThree(N) and document d1The similarity of (N + 1) is determined. The feature amount here may be an image data feature amount or a document format feature amount.
[0057]
<3. Comparative judgment method>
In the above embodiment, the similarity of page image data is determined by calculating the distance between vectors. However, the present invention is not limited to this, and the similarity of image data may be determined using a clustering method. Specifically, as shown in FIG. 8, for the Nth scan job and the (N + 1) th scan job, feature amounts are extracted for page image data of all read pages, as in the above embodiment, and a vector space Map within.
Next, an appropriate clustering method is applied to the set of feature values mapped in the vector space to divide it into clusters. Various methods exist as the clustering method, and an example is disclosed in Japanese Patent Application Laid-Open No. 2001-256244.
And document dLASTThe page image data of the last page of (N) and the document d1Page image data D of the first page of (N + 1)1,1If one point in the vector space indicating the (N + 1) feature quantity belongs to the same cluster, it is determined that the two documents belong to the same document.
[0058]
<4. Features and Extraction Method>
The feature amount to be extracted from the small area may be one of the color tone, aspect ratio, luminance and color distribution state, edge distribution state, and flat area distribution state of the entire image, or may be plural. Good. For example, when the area of the page image data is divided into 24, the tone and edge state may be extracted from one small area, and the feature amount may be expressed as a 144-dimensional vector. Further, the extracted feature amount may be reduced by using a method such as principal component analysis without damaging the features of the page image data as much as possible. As a result, the amount of calculation to be performed by the document division determination unit is reduced, and the time required for the calculation is reduced. In other words, the number of parameters to be extracted is arbitrary. The number of divided areas is not limited.
[0059]
The document filing apparatus 1 may analyze the obtained page image data and determine the extraction method and the type and number of parameters to be extracted based on the analysis result. In the determination, it is desirable to compare and consider the accuracy of similarity determination, the amount of calculation, and the determination speed.
Alternatively, the document filing device 1 may allow the user to specify the determination accuracy and the processing time at the start of scanning or at the time of determination of division. In this case, the document image filing device 1 determines the extraction method, the type and number of extraction parameters, and the like based on designation from the user.
[0060]
<5. Scanner Device>
In the above embodiment, the document input unit 101 has been described on the assumption that the document input unit 101 includes a single scanner device. However, it is also possible to configure the document input unit 101 from a plurality of scanner devices and process a plurality of scan jobs in parallel.
For example, consider the case of using 10 scanner devices. If a total of 1000 originals are processed, the user first divides the original into 100 original bundles. Then, each document bundle is sequentially set in the scanner apparatus in the order of the assigned number, and each document bundle is read.
In this case, the problem is how to define adjacent scan jobs (Nth scan job and N + 1th scan job), which can be solved by using the following method.
[0061]
That is, as a first method, a number is assigned in advance to uniquely identify a plurality of scanners. For example, consider the case of using 10 scanner devices. If a total of 1000 originals are processed, the user first divides the original into 100 original bundles. Then, each document bundle is sequentially set on the ADF of the scanner apparatus in the order of the assigned number.
Specifically, assuming that there are K scanners in total, the document linking process is called scanner 1 and scanner 2, scanner 2 and scanner 3,..., Scanner K-1 and scanner K, scanner K and scanner 1. It only occurs in combination. Therefore, the document segmentation determination unit 104 only needs to determine segmentation for scan jobs of these combinations.
[0062]
As a second method, first, the document filing apparatus 1 is provided with an apparatus for acquiring the time when each of a plurality of scanners starts reading a document. Then, the document division determination unit 104 determines the division only for the scan job in the scanner device whose scan start time is adjacent. This is because the reading process is started in the order in which the user sets a paper document in each scanner device.
[0063]
【The invention's effect】
Even when the same document document is read across two or more scan jobs, the user does not have to manually combine the page image data divided and stored.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an overall configuration of a document filing apparatus 1 according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating a document input in one scan job.
FIG. 3 is a diagram illustrating pages to be compared.
FIG. 4 is a diagram illustrating a method of extracting page image data feature values.
FIG. 5 is a diagram illustrating a method of determining similarity / dissimilarity of page image data.
FIG. 6 is a diagram showing pages to be compared in one modified example.
FIG. 7 is a diagram illustrating a feature amount comparison method in the modification.
FIG. 8 is a diagram showing a method of determining similarity / dissimilarity of page image data in another modified example.
[Explanation of symbols]
1 ... Document filing device
101 ... Document input part
102 ... Document separator
103 ... Document storage unit
104... Document division determination unit
105... Feature amount extraction unit
106: Similarity evaluation unit
107 ... Document division connection
108 ... User interface
109 ... Document output section

Claims (5)

制御部と記憶部と原稿を読取る原稿読取部とを備えた文書ファイリング装置において、
前記原稿読取部が、文書を構成する個々のページを表す1または複数のページ画像データからなる文書画像データ集合を複数取得して前記記憶部に記憶する第1のステップと、
前記制御部が、前記記憶部を参照し、記複数の文書画像データ集合における第1の文書画像データ集合に含まれる文書画像データ毎に、当該文書画像データにおける全てのページ画像データから特徴量ベクトルを抽出し、各ページ画像データから抽出した各特徴量ベクトルが特徴量空間内に形成するクラスタ領域を決定するとともに、前記複数の文書画像データ集合における第2の文書画像データ集合内の先頭ページのページ画像データから特徴量ベクトルを抽出し、該特徴量ベクトルが前記クラスタ領域に属するか否かによって、前記第1の文書画像データ集合および前記第2の文書画像データ集合が同一の文書から取得されたものであるか否かを判定する第2のステップと
を有する文書分断判定方法。
In a document filing apparatus including a control unit, a storage unit, and a document reading unit that reads a document,
A first step in which the document reading unit acquires a plurality of document image data sets composed of one or a plurality of page image data representing individual pages constituting a document and stores them in the storage unit ;
Wherein the control unit, referring to the storage unit, for each document image data included in the first document image data set in the previous SL plurality of document image data set, features from all the page image data in the document image data A vector is extracted to determine a cluster area formed in each feature quantity space by each feature quantity vector extracted from each page image data, and the first page in the second document image data set in the plurality of document image data sets The feature vector is extracted from the page image data, and the first document image data set and the second document image data set are obtained from the same document depending on whether or not the feature vector belongs to the cluster area. And a second step of determining whether or not the document has been processed.
前記複数の文書画像データ集合の各々は、前記原稿読取部にて1のスキャンジョブにおいて1の原稿束から読み取られた文書画像データによって構成され、前記第1の文書画像データ集合および前記第2の文書画像データ集合は、連続したスキャンジョブにおいて2つの原稿束から読み取られた文書画像データによって構成される
ことを特徴とする請求項1に記載の文書分断判定方法。
Each of the plurality of document image data sets is constituted by document image data read from one original bundle in one scan job by the original reading unit , and the first document image data set and the second document image data set. 2. The document fragmentation determination method according to claim 1, wherein the document image data set is composed of document image data read from two original bundles in a continuous scan job.
文書を構成する個々のページを表す1または複数のページ画像データからなる文書画像データの集合を複数取得する文書入力部と、
前記複数の文書画像データ集合における第1の文書画像データ集合に含まれる文書画像データ毎に、当該文書画像データにおける全てのページ画像データから特徴量ベクトルを抽出し、各ページ画像データから抽出した各特徴量ベクトルが特徴量空間内に形成するクラスタ領域を決定するとともに、前記複数の文書画像データ集合における第2の文書画像データ集合内の先頭ページのページ画像データから特徴量ベクトルを抽出し、該特徴量ベクトルが前記クラスタ領域に属するか否かによって、前記第1の文書画像データ集合および前記第2の文書画像データ集合が同一の文書から取得されたものであるか否かを判定する文書分断判定部と
を有する文書ファイリング装置。
A document input unit for obtaining a plurality of sets of document image data composed of one or a plurality of page image data representing individual pages constituting the document;
For each document image data included in the first document image data set in the plurality of document image data sets, feature amount vectors are extracted from all page image data in the document image data, and each extracted from each page image data Determining a cluster region formed by the feature amount vector in the feature amount space, extracting a feature amount vector from page image data of a first page in the second document image data set in the plurality of document image data sets, and Document fragmentation for determining whether the first document image data set and the second document image data set are obtained from the same document depending on whether a feature vector belongs to the cluster area A document filing device having a determination unit.
前記文書入力部は、セットされた原稿束から1ページずつ紙を取り出すADFと、該ADFによって順次取り出される紙から原稿を読み取ってページ画像データを出力するスキャナ装置を備え、前記ADFにセットされた1つの原稿束から得られたページ画像データにより1つの文書画像データ集合を構成する
ことを特徴とする請求項3に記載の文書ファイリング装置。
The document input unit includes an ADF that takes out paper one page at a time from a set of originals set, and a scanner device that reads the originals from the paper sequentially taken out by the ADF and outputs page image data, and is set in the ADF The document filing apparatus according to claim 3, wherein one document image data set is constituted by page image data obtained from one document bundle.
前記文書分断判定部は、時間的に連続して得られた2つの文書画像データ集合を前記第1の文書画像データ集合および前記第2の文書画像データ集合として取り扱うことを特徴とする請求項3に記載の文書ファイリング装置。  The document fragmentation determination unit treats two document image data sets obtained successively in time as the first document image data set and the second document image data set. Document filing device described in 1.
JP2003074046A 2003-03-18 2003-03-18 Document filing device Expired - Fee Related JP4241115B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003074046A JP4241115B2 (en) 2003-03-18 2003-03-18 Document filing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003074046A JP4241115B2 (en) 2003-03-18 2003-03-18 Document filing device

Publications (2)

Publication Number Publication Date
JP2004280691A JP2004280691A (en) 2004-10-07
JP4241115B2 true JP4241115B2 (en) 2009-03-18

Family

ID=33289790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003074046A Expired - Fee Related JP4241115B2 (en) 2003-03-18 2003-03-18 Document filing device

Country Status (1)

Country Link
JP (1) JP4241115B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007032710A1 (en) 2005-09-13 2007-03-22 Sca Hygiene Products Ab Absorbent articles and laminates containing a bonding pattern
US7875136B2 (en) 2005-12-07 2011-01-25 Sca Hygiene Products Ab Method for manufacturing an absorbent article

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7760372B2 (en) * 2005-01-11 2010-07-20 Xerox Corporation Method for automated document selection
JP5742612B2 (en) * 2011-09-13 2015-07-01 ブラザー工業株式会社 Image processing program, image processing apparatus, and image processing method
JP6934824B2 (en) * 2018-03-01 2021-09-15 株式会社東芝 Image reader and image reading method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007032710A1 (en) 2005-09-13 2007-03-22 Sca Hygiene Products Ab Absorbent articles and laminates containing a bonding pattern
US7875136B2 (en) 2005-12-07 2011-01-25 Sca Hygiene Products Ab Method for manufacturing an absorbent article

Also Published As

Publication number Publication date
JP2004280691A (en) 2004-10-07

Similar Documents

Publication Publication Date Title
KR102403964B1 (en) Image processing apparatus, image processing method, and storage medium
JP3048330B2 (en) Apparatus and method for extracting articles from documents
JP5111268B2 (en) Image processing apparatus, image processing method, program thereof, and storage medium
US7596751B2 (en) Contact sheet based image management
JP4577931B2 (en) Document processing system and index information acquisition method
US7684620B2 (en) Image processing apparatus and method for dividing an image into component images
US20040220898A1 (en) Information processing apparatus, method, storage medium and program
US7574044B2 (en) Image processing apparatus, image processing method and image processing program
JP4785655B2 (en) Document processing apparatus and document processing method
JP2002024258A (en) Image acquisition device and method, and computer- readable recording medium recorded with image acquisition processing program
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
US5592574A (en) Method and apparatus for expansion of white space in document images on a digital scanning device
US20080244384A1 (en) Image retrieval apparatus, method for retrieving image, and control program for image retrieval apparatus
US20100238474A1 (en) Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program
JP4261988B2 (en) Image processing apparatus and method
JP4241115B2 (en) Document filing device
JP5412916B2 (en) Document image processing apparatus, document image processing method, and document image processing program
US8181108B2 (en) Device for editing metadata of divided object
JP5194995B2 (en) Document processing apparatus, document summary creation method, and document summary creation program
JP4492701B2 (en) Information processing apparatus, information processing system, and information processing program
JPH11238072A (en) Document keeping device
JP4569162B2 (en) Image processing method, image processing program, and image processing apparatus
JP2004288015A (en) Document filing device and document dividing method
JP6798309B2 (en) Image processing equipment, image processing methods and programs
JP7314627B2 (en) CONTROL DEVICE, IMAGE FORMING APPARATUS, CONTROL METHOD AND CONTROL PROGRAM

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080909

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140109

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees