JP2004280691A

JP2004280691A - 文書ファイリング装置

Info

Publication number: JP2004280691A
Application number: JP2003074046A
Authority: JP
Inventors: Kagenori Nagao; 景則長尾; Hitoshi Okamoto; 仁岡本; Masayuki Hisatake; 真之久武; Shinichi Yada; 伸一矢田
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2003-03-18
Filing date: 2003-03-18
Publication date: 2004-10-07
Anticipated expiration: 2023-03-18
Also published as: JP4241115B2

Abstract

【課題】ページ画像データが分断されたか否かを判定し、必要な場合には当該データの連結処理を行う。
【解決手段】文書ファイリング装置１は、まずＮ番目のスキャンジョブとＮ＋１番目のスキャンジョブで読み込まれたページ画像データから特徴量を抽出する。そして、抽出された特徴量を用いて２つのページ画像データを比較し、その類似性を判定する。類似であると判定された場合は、２つのページ画像データは同一の文書に属するものであると決定する。次に当該ページ画像データの連結処理を行う。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、紙文書を電子化する技術に関する。
【０００２】
【従来の技術】
紙文書は、情報の伝達や記録を行うための媒体として優れたものであるが、これを保存するためのスペースを必要とする。また、情報を紙文書に記録して保存する場合、後にその紙文書が必要になったときには、例えば書庫に収納された多くの紙文書の中から目的とする紙文書を探さなければならない。従って、紙文書に記録して保存するという形態は、業務の効率化の観点からも好ましくない。このような背景の下、紙文書を電子化して保存することが行われるようになってきている。具体的には、ユーザは１ページずつ紙文書をスキャナ装置にセットし、このスキャナ装置により、紙文書の各ページを読み込み、画像データとして電子ファイルに格納する。
【０００３】
このような方法は、電子ファイル化すべき紙文書のページ数が多い場合には非効率的である。このため、紙文書のページ数が多い場合には、オートドキュメントフィーダ（ＡＤＦ）と呼ばれる自動給紙機構（以下、単にＡＤＦという）を備えたスキャナ装置を用いて、紙文書の各ページを連続して自動的に読み取る処理が広く行われている。
【０００４】
ところで、状況によっては、電子化すべき紙文書が一度に多数発生する場合がある。このような場合に、各紙文書を一文書ずつＡＤＦにセットして読み取り処理を行わせれば、文書単位で紙文書を電子ファイル化することが可能である。しかし、この方法を採った場合、一文書毎に、紙文書をＡＤＦにセットし、読み取り処理を行わせるための操作を行わなければならないので、ユーザにとって煩雑である。一方、複数種類の紙文書を全部まとめてＡＤＦにセットし、読み取り処理を行わせれば、複数種類の紙文書を一括して電子ファイル化することができる。しかし、この方法を採った場合、１つの電子化ファイルに複数種類の紙文書の画像データがまとめて格納されるので、後に個々の紙文書を検索し閲覧するのに不便である。
そこで、複数種類の紙文書を一括して読み取り、かつ、紙文書の画像データを文書毎に電子ファイル化する技術が求められるに至ったこのようなニーズに対し、従来から幾つかの技術が提案されている。
【０００５】
例えば、特許文献１には、次のような電子ファイリング装置が開示されている。まず、該装置のユーザは、電子化したい文書が複数ある場合に、それらの複数の文書間にあらかじめ特定の文書区切り用原稿を挿入しておく。そして、この文書区切り用原稿が挿入された複数文書からなる原稿をＡＤＦにセットし、該装置に画像読み取り処理を行わせる。該装置では、この画像読み取り処理により得られた全ページのページ画像データの中から、文書区切り用原稿に相当する画像データを認識し、ページ画像データを文書単位に電子ファイル化する。
【０００６】
【特許文献１】
特開平１−１６２４７４号公報
【０００７】
また、特許文献２には、次のような電子ファイリング装置が開示されている。すなわち、該装置のユーザは、電子ファイル化したい文書が複数ある場合に、各文書において文書区切りとなるページの裏面に文書区切りマークを予め付加しておく。該装置では、複数文書からなる原稿の各ページの裏表両面をイメージスキャナで読み取り、この文書区切りマークを認識して各文書のページ画像データを文書単位に電子ファイル化する。
【０００８】
【特許文献２】
特開平７−２８７７４７号公報
【０００９】
また、特許文献３には、次のような電子ファイリング装置が開示されている。すなわち、該装置は、イメージスキャナで読み取った画像データからあらかじめ設定しておいた文字認識エリア部分を切り出し、文字認識処理を行い、この文字認識結果に基づき文書の区切りを判定する。
【００１０】
【特許文献３】
特開平１０−２１３８０号公報
【００１１】
さらに、ＡＤＦを持つイメージスキャナにより複数の文書を一括して読み取り、読み取った原稿画像の特徴量を算出し、この特徴量に基づいて文書単位の区切りを判定する方法がある。この方法によれば、あらかじめ文書区切り用原稿を各文書間に挿入したり、文書区切りとなるページに手を加えたりすることなく文書の区切りが判定できるため、ユーザに強いる負担を大幅に軽減することができる。このような装置の一例が下記の特許文献４に開示されている。
【００１２】
【特許文献４】
特開２００２−２４２５８号公報
【００１３】
【発明が解決しようとする課題】
上記いずれの従来技術においてもＡＤＦが用いられるが、このＡＤＦに一度にセットできる原稿枚数には上限が存在する。このため、以下のような問題があった。
【００１４】
まず、処理すべき原稿が複数種類の文書の原稿（以下、文書原稿という）からなり、且つ大量である場合、次のような作業形態をとることができればユーザにとって便利であると考えられる。
すなわち、ユーザは山積みされた原稿の束からＡＤＦにセットすることが可能な適量の原稿束を取り出してＡＤＦにセットし、スキャナ装置にこの原稿束の読み取りを行わせるのである。以下では，この一連の作業をスキャンジョブと呼ぶことにする。このようなスキャンジョブを、原稿束がなくなるまで、繰り返し行えば、全ての原稿についての画像読み取り処理が完了することができる。
しかしながら、このような作業形態においては、例えば、ある原稿束がＡＤＦにセットされ、Ｎ番目のスキャンジョブが行われた場合に、その原稿束がある文書の途中のページで終わっているようなことが起こりうる。この場合、その文書の残りのページは、Ｎ＋１番目のスキャンジョブにおいて処理されることとなる。
【００１５】
このような場合において、スキャンジョブ単位で、読み取った画像データの電子ファイル化を行うと、同一文書から取得された画像データが、その文書の前半部分に対応したものと後半部分に対応したものとに分断され、あたかも別々の文書の画像データであるかの如く、別々の電子ファイルに格納されてしまう。これでは、文書単位での電子ファイル化を行う上で支障を来す。
これを避けるためには、ユーザが原稿の束をセットする前に、文書原稿の区切りを目視確認し、単一の文書原稿の処理が２のスキャンジョブに跨って実行されないようにする必要がある。しかしながら、このような作業は、ユーザにとって面倒である。
【００１６】
さらに、一つの文書の総ページ数がＡＤＦの処理上限を超える場合には、単一文書を複数のスキャンジョブで跨って処理せざるを得ないという問題がある。例えば、ＡＤＦにセットすることができる原稿枚数が１００ページである場合において，総ページ数が１５０枚の文書原稿を処理するような場合である。
【００１７】
本発明は、以上説明した事情に鑑みてなされたものであり、単一の文書原稿の処理が複数のスキャンジョブに跨って行われ、同一文書の画像データが分断されて２つの電子ファイルに格納された場合に、その旨を検知することができる、文書ファイリングのための方法および装置を提供することを目的とする。
【００１８】
【課題を解決するための手段】
本発明の文書ファイリング装置１は、本実施形態における文書ファイリング装置１は、文書入力部と、文書区切り部と、文書蓄積部と、文書分断判定部と、特徴量抽出部と、類似度評価部と、分断文書連結部と、ユーザインターフェースと、文書出力部とを具備する。文書ファイリング装置１は、連続したスキャンジョブで読み込まれた文書の画像データを比較し、両者の特徴量を抽出する。そして、同一の文書が２回のスキャンジョブに跨って読み込まれたか否かを判定し、そのように判定された場合は文書の連結処理を行う。これにより、同一の文書が複数のスキャンジョブに跨って読み込まれた場合であっても、分断された画像データファイルに対し連結処理を行うことにより、文書ごとにまとめて画像データを格納することができる。
【００１９】
なお、以下の説明においては、ある文書の一ページ分の画像データを「ページ画像データ」とよぶ。また、ある文書の各ページの画像データから成るページ画像データの集合であって、一文書分の画像データを「文書画像データ」とよぶ。
【００２０】
【発明の実施の形態】
＜Ａ．第１実施形態＞
＜１．構成＞
図１は、本発明の第１実施形態に係る文書ファイリング装置１の概略図である。同図に示すように、本実施形態における文書ファイリング装置１は、ＡＤＦを備えた文書入力部１０１と、文書区切り部１０２と、文書蓄積部１０３と、文書分断判定部１０４と、特徴量抽出部１０５と、類似度評価部１０６と、分断文書連結部１０７と、ユーザインターフェース１０８と、文書出力部１０９と、を備えている。
【００２１】
文書入力部１０１は、例えば、ＡＤＦを備えたスキャナ装置とその制御部等から構成される。この文書入力部１０１において、ユーザによってＡＤＦに原稿がセットされると、この原稿が順に一ページずつスキャナ装置に送られて画像読み取り処理が行われる。この画像読み取り処理により、原稿のページ画像データが取得され、１つの電子ファイルにまとめられて文書蓄積部１０３に格納される。本実施形態では、このように１つのジョブスキャンにおいて取得されたページ画像データが、１つの電子ファイルにまとめられ、文書蓄積部１０３に格納される。
【００２２】
文書区切り部１０２は、ＣＰＵ、画像処理プロセッサ、ＲＡＭ、ＲＯＭから構成されている。この文書区切り部１０２は、文書入力部１０１により文書蓄積部１０３に格納された各電子ファイルを読み出し、各電子ファイル毎に、その電子ファイル内のページ画像データにおける文書間の区切り位置を決定する。そして、文書区切り部１０２は、所定の文書区切り処理を実行することにより、電子ファイル内のページ画像データを、決定された区切り位置において区切り、文書単位に区分されたページ画像データを文書蓄積部１０３に蓄積する。ここで、文書区切り判定法および文書区切り処理としては種々の既存手法を用いることができ、「従来の技術」において解説した手法を用いても良い。一例を挙げれば、読み込まれたページ画像データに対し文字認識を行い、文書区切り位置を特定し、文書単位に分離して文書蓄積部１０３に蓄積する方法が考えられる。
【００２３】
文書蓄積部１０３は、ハードディスクドライブやＤＶＤ−ＲＡＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ−ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）ドライブ等の大容量記憶装置から構成され、文書入力部１０１によって入力されたページ画像データおよび文書区切り部１０２により文書単位に分割されたページ画像データを格納する手段として用いられる。
【００２４】
文書分断判定部１０４は、特徴量抽出部１０５と類似度評価部１０６を具備し、単一の文書が複数の回のスキャンジョブに跨ってスキャンされているか否か、すなわち、単一の文書のページ画像データが２つの電子ファイルに分断されて文書蓄積部１０３に格納されているか否かを判定する。
【００２５】
特徴量抽出部１０５は、ページ画像データから特徴量を抽出する手段である。また、類似度評価部１０６は、特徴量抽出部１０５によって抽出された特徴量を用いて、Ｎ番目のスキャンジョブにより得られたページ画像データとＮ＋１番目のスキャンジョブにより得られたページ画像データとの類似性を判定する。ここで、比較対象として用いるページ画像データは一ページ分のページ画像データであってもよいし、複数ページ分の画像データであってもよい。詳細は後述する。
【００２６】
分断文書連結部１０７は、文書分断判定部１０４によって単一文書が分断されて読み込まれたと判定された場合に、該文書のページ画像データに対し連結・統合処理を行い、単一の文書画像データに再構成する。
【００２７】
ユーザインターフェース部１０８は、キーボードやマウス等の入力デバイスであって、ユーザからの文書入力指示や文書出力指示を入力する。
【００２８】
文書出力部１０９は、入力されたページ画像データをユーザからの指示に応じて所定の方法で所定の場所に出力する。本実施形態では、この文書出力部１０９として次のようなものを想定している。すなわち、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）または液晶パネルとその制御手投とを有する表示部、プリンタ装置および制御部等を有する印刷部、磁気ディスクやメモリカード等のリード／ライト装置およびその制御部等を有する記憶部、またはネットワーク等を介してデータの授受を行うデータ転送装置である。例えば、入力されたページ画像データをＣＲＴに出力し、ユーザからの指示に従ってこのデータを編集し、これをＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）形式に変換して記憶媒体に格納してもよい。
【００２９】
＜２．動作＞
以下の説明では、複数ページからなる紙原稿がＭ個の束に分割され、それらの分割された束が、Ｍ個のスキャンジョブにより処理される場合を想定する。また、ユーザは既にＮ回のスキャンジョブを終了しており、これから（Ｎ＋１）回目のスキャンジョブを行うものとする。ただし、ＭおよびＮは自然数であり、且つ、Ｍ＞Ｎである。
【００３０】
ユーザは、１または複数ページからなる紙原稿を第（Ｎ＋１）回目のスキャンジョブとしてＡＤＦにセットする。この際、紙原稿は単一の文書であってもよいし、単一文書の一部のページであってもよい。あるいは、複数の文書から構成されていてもよい。また、紙原稿をセットする際にユーザは文書の区切りを意識する必要はない。ユーザがセットする紙原稿の初めに、ある文書の後半部分が含まれていてもよいし、紙原稿の最後に、ある原稿の前半部分が含まれていても良い。ただし、文書区切り部１０２が文書区切り用原稿に基づいて文書の区切り位置を検出する手法を用いている場合は、予め文書の区切り位置に文書区切り用原稿を挿入して等の所定の処理をしておくものとする。ＡＤＦにセットする紙原稿の枚数は、ＡＤＦが一回に処理できるページ数の上限を超えてはならないことは言うまでもない。
【００３１】
ＡＤＦにセットされた紙原稿は１ページずつスキャナ装置に送られ、セットした紙原稿のページ数分のページ画像データが生成され、それらのページ画像データは（Ｎ＋１）回目のスキャンジョブに対応付けられた電子ファイルとして文書蓄積部１０３に格納される。例えば、一度に１００枚の紙原稿をセットし、全て両面をスキャンする場合は、２００ページ分のページ画像データが入力されることになる。
【００３２】
なお、説明が煩雑になるを防ぐため、以下の説明においては、文書ｄ_ｎ（ｍ）と記述した場合、ｎ番目のスキャンジョブにおいてｍ番目に読み取られた文書を表すものとする。さらに、ｄ_Ｐ，Ｋ（Ｌ）と記述した場合、Ｌ番目のスキャンジョブにおいて、Ｐ番目にスキャンされた文書の先頭からＫページ目の紙原稿を表すものとし、さらにこのページのページ画像データをＤ_Ｐ，Ｋ（Ｌ）と表す。従って、例えば、Ｎ番目のスキャンジョブで２番目にスキャンされた文書はｄ_２（Ｎ）であり、該文書にかかるページ画像データは、３つのページ画像データＤ_２，１（Ｎ）、Ｄ_２，２（Ｎ）およびＤ_２，３（Ｎ）から構成される（図２参照）。
【００３３】
入力されたページ画像データは、文書区切り部１０２によって文書の区切り位置が判定され、文書単位に分離された後、文書蓄積部１０３に蓄積される。文書単位に分離して蓄積する方法としては、文書毎にファイルフォルダを用意し、一の文書にかかるページ画像データの各々に対し入力された順に番号を付けたものをファイル名とし、これらを対応するファイルフォルダへ格納する方法がある。
具体的には、文書ｄ_ｍ（ｎ）を格納すべきフォルダには「文書画像データ（ジョブ番号、文書ｎ）」のフォルダ名を付与する。例えば、文書ｄ_２（Ｎ）に係る文書画像データを保存するためのフォルダのフォルダ名は、「文書画像データ（ジョブＮ、文書２）」であり、該フォルダには、３つのページ画像データＤ_２，１（Ｎ）、Ｄ_２，２（Ｎ）およびＤ_２，３（Ｎ）が格納されることになる。ここでは、ページ画像データＤ_Ｐ，Ｋ（Ｌ）には、データファイル名「ページ画像データ（ジョブＮ、文書Ｍ、ページＰ）」を付与するものとする。例えば、ページ画像データＤ_２，１（Ｎ）のファイル名は「ページ画像データ（ジョブＮ、文書２、ページ１）」となる。
【００３４】
次に、図３に示すように、文書分断判定部１０４が、Ｎ番目のスキャンジョブにおける最後の文書である文書ｄ_３（Ｎ）と（Ｎ＋１）番目のスキャンジョブにおける最初の文書である文書ｄ_１（Ｎ＋１）とが同一文書を分断したものかどうかを判定する。
【００３５】
具体的には、まず特徴量抽出部１０５は、文書ｄ_３（Ｎ）の最後のページに係るページ画像データＤ_３，３（Ｎ）と、文書ｄ_１（Ｎ＋１）の最初のページにかかるページ画像データＤ_１，１（Ｎ＋１）との各々から特徴量を抽出する。
より具体的には、１ページ分のページ画像データの特徴を表す特徴ベクトルを決定する。このベクトルの成分は以下のようにして求める。すなわち、まず、ページ画像データＤ_３，３（Ｎ）から、例えば画像全体の色調、縦横比、輝度や色の分布状態、エッジの分布状態、平坦なエリアの分布状態といった、そのページ画像データの特徴を示す量を抽出する。この抽出過程を、図４を使ってより具体的に説明する。まず、一つのページ画像データの領域を縦方向にＸ分割、横方向にＹ分割する。すなわち、一のページ画像データをＸ×Ｙ個の領域に分割する。
【００３６】
次に、各々の領域について、画像解析処理を行い当該領域の特徴量を算出する。特徴量としては、上述したように様々なパラメータ採用することができるが、ここでは一例として階調度を採用する。より具体的には、まず１つの領域の色のＲ、Ｇ、Ｂの各成分を求める。このＲ，Ｇ、Ｂの各成分をＬ＊ａ＊ｂ空間（特徴色空間）での色成分を表す３個の量に変換する。これらの３個の量を１つの領域に対応した特徴量として使用する。以上により、１ページ分のページ画像データから、（Ｘ×Ｙ×３）個の特徴量が抽出される。
図４の左側の部分においては、一例としてＸ＝６、Ｙ＝４の場合が示されており、このページ画像データからは計７２個の特徴量が算出されている（図４中央参照）。すなわち、７２個の成分を持った一つの７２次元ベクトルが生成される（図４右側参照）。同様の処理をページ画像データＤ_１，１（Ｎ＋１）に対しても行う。
【００３７】
次に、類似度評価部１０６は、このようにして得られた２つのベクトル間の距離を計算する。ここで距離としては、ユークリッド距離またはマハラノビス距離等を用いる。図５に示すように、計算された距離が所定の基準値よりも小さい場合は、ページ画像データＤ_３，３（Ｎ）とページ画像データＤ_１，１（Ｎ＋１）とは類似であり、同一の文書に属すると判定する。換言すれば、文書ｄ_３（Ｎ）および文書ｄ_１（Ｎ＋１）は同一の文書の前半および後半であると判定する（図５左側参照）。計算された距離が所定の値よりも大きい場合は、ページ画像データＤ_３，３（Ｎ）とページ画像データＤ_１，１（Ｎ＋１）とは非類似であり、異なる文書に属するものであると判定する。換言すれば、文書ｄ_３（Ｎ）と文書ｄ_１（Ｎ＋１）とは異なる文書であると判定する（図５右側参照）。
【００３８】
文書分断判定部１０４において、文書ｄ_３（Ｎ）と文書ｄ_１（Ｎ＋１）とが同一の文書であると判断された場合は、分断文書連結部１０７は文書ｄ_３（Ｎ）と文書ｄ_１（Ｎ＋１）とを連結する処理を行う。具体的には、ページ画像データＤ_３，１（Ｎ）、Ｄ_３，２（Ｎ）、およびＤ_３，３（Ｎ）と、ページ画像データＤ_１，１（Ｎ＋１）、Ｄ_１，２（Ｎ＋１）、およびＤ_１，３（Ｎ＋１）とを結合する。
より具体的には、まず、フォルダ「文書画像データ（ジョブＮ＋１、文書１）」に格納されているページ画像データＤ_１，１（Ｎ＋１）Ｄ_１，２（Ｎ＋１）Ｄ_１，３（Ｎ＋１）を、フォルダ「文書画像データ（ジョブＮ、文書３）」に移行する。次に、移行したデータのデータファイル名を変更する。すなわち、移行したデータのファイル名が、ページ画像データＤ_３，３（Ｎ）の後に続くようにファイル名を付与しなおす。具体的には、ファイル名「ページ画像データ（ジョブＮ＋１、文書１、ページ１）」を「ページ画像データ（ジョブＮ、文書３、ページ４）」と、ページ画像データ（ジョブＮ＋１、文書１、ページ２）」を「ページ画像データ（ジョブＮ、文書３、ページ５）と、ページ画像データ（ジョブＮ＋１、文書１、ページ２）」を「ページ画像データ（ジョブＮ、文書３、ページ６）と、変更する。
【００３９】
以上の処理を全ての連続するスキャンジョブについて行う。すなわち、全部でＭ回のスキャンジョブを行う場合、一番目のスキャンジョブをスキャンジョブ１と呼ぶとすると、連続したスキャンジョブは、スキャンジョブ１とスキャンジョブ２、スキャンジョブ２とスキャンジョブ３、・・・スキャンジョブＭ−１とスキャンジョブＭ、およびスキャンジョブＭとスキャンジョブ１の計Ｍ個ある。従って、第１番目の先頭のスキャンジョブから順に、連続するスキャンジョブに係る文書画像データの全てについて、上述した文書分断判定処理を計Ｍ回行う。
このようにすれば、各フォルダには一つの文書を構成する全ページのページ画像データのみが格納されるため、Ｍ束の紙原稿において分断されたページ画像データの全てを正しく結合し、まとめて格納することができる。
【００４０】
なお、Ｔｉｆｆ等の複数ページ画像を保持できる画像ファイルフォーマットを用いて文書画像データを保存する場合、上述した処理を行った後、フォルダ「文書画像データ（ジョブＮ、文書Ｍ）」に格納されているページ画像データの全てを結合して一つのファイルを生成する。ファイル名は、例えば、フォルダ名と同じものにしてもよい。
【００４１】
なお、Ｎ＋１番目のスキャンジョブにおける最初の文書である文書ｄ_１（Ｎ＋１）と、Ｎ番目のスキャンジョブにおける最後の文書である文書ｄ_３（Ｎ）との分断判定を行う際に、フォルダ「文書画像データ（ジョブＮ、文書Ｍ）」（Ｍは任意の整数）に格納されているページ画像データが存在しない場合がある。これは、一つの文書が３つ以上に跨ってスキャンされている場合である。この場合、Ｎ番目のスキャンジョブで得られたページ画像データは、すでにＮ―１番目以下のスキャンジョブにかかるページ画像データと結合処理がされているため、当該フォルダは空となっている。
このように、分断を判定する対象となるページ画像データが直前のスキャンジョブに係るフォルダに存在しない場合は、その前のスキャンジョブにかかるページ画像データと結合処理を行う。すなわち、結合対象となるページ画像データが見つかるまでフォルダの番号の若いフォルダへ順次さかのぼって検索し、見つかったら文書の分断判定を行う。そして結合が必要であると判断された場合は、上記の同様の結合処理を行う。
【００４２】
生成されたページ画像データのスキャンジョブ番号がユーザにとって不要である場合は、生成されたフォルダをスキャンジョブの実行された順に並べ、新たに、文書ごとに番号を付与してもよい。このようにすれば、各フォルダには格納されている文書を区別するための通し番号が振られるので、スキャンジョブ番号を用いることなく、より簡明な文書画像データの整理が実現される。
【００４３】
Ｂ．変形例
＜１．特徴量＞
上記実施形態においては、ページ画像データを特徴付けるものとして、画像全体の色調、縦横比、輝度や色の分布状態、エッジの分布状態、または平坦なエリアの分布状態等の情報を抽出した。このような情報は、プレゼンテーション用資料等のように原稿の全部またはほとんどを画像が占めている場合には非常に有効である。しかしながら、契約書等のように大部分が文字から成るような原稿である場合には、あまり有効ではないこともある。従って、本変形例においては、ページ画像データから色調や輝度といった情報を抽出するのではなく、文字の高さ、字間、行間、縦書き・横書き等の文書フォーマットの特徴を示す情報（以下、文書フォーマット特徴量という）を抽出し、この文書フォーマット特徴量に基づいて２つの文書が同一であるか否かを判定する。
【００４４】
本実施形態に係るページ画像データの比較方法は、２ページ分の文書画像が同一文書に属するのか、異なる文書に属するのかを判定するのに有効である。何故なら、１つの文書ではその体裁を統一するのが一般的であるから、上述したような文書フォーマットの特徴が同様なページ画像データは、同一の文書に属すると推定することができるからである。反対に、異なる文書に属するページ画像間では、意図的に同一のフォーマットで作成された文書でない限り、フォーマット特徴が等しくなることは極めて稀である。従って、ほとんど文字によって構成される文書の場合は、そのページ画像データの類似性を正確に判定することができる。
【００４５】
スキャナ等から入力した文書画像から、文字の高さ、字間、行間などのフォーマット特徴を求めるには、各種従来技術が適用可能である。そのような従来技術の一例が特開平５−１０８７９３の段落番号０００９から００１２の部分に開示されている。当該技術においては、横書きであることを前提としてｂを行間、ｄを字間としている。しかし、通常は行間の方が字間より大きいので、ｂとｄを比較して大きい方を行間、小さい方を字間とし、ｂの方が大きい場合は横書き、ｄの方が大きい場合は縦書きと、縦書き・横書きの別も判断してもよい。
【００４６】
一般には同一文書に属するページであっても、タイトル行、要約部、本文など、文書を構成する部位によってフォントの大きさや行間隔などが多少異なる場合もある。例えば、表題の文字は、本文よりも大きいフォントに設定される場合である。従って、上述したフォーマット特徴を抽出しても、文書を構成する部位によってその値は異なり、ページ全体で一貫しないのが普通である。フォーマット特徴の値が一貫しないと、フォーマット特徴量を用いて各々のページの文書画像が同一文書に属するのか否かを判定するのが困難になる。この問題については以下のようにして対処することができる。
【００４７】
まず、図４を参照して説明した方法と同様、入力されたページ画像データを複数の領域に分割する。次に分割された領域の各々について、文字の高さ、字間、行間、縦書き・横書きなど情報を含むフォーマット特徴量を算出する。例えば、文字の高さ「１０ｐｔ」、字間「１５ｐｔ」、行間「１０．５ｐｔ」、縦書き・横書き「０」という値が得られる。ここでは、縦書きの場合には「０」を、横書きの場合は「１」を対応付けるものとする。
【００４８】
次に、算出された全ての領域に係る特徴量のなかで最も頻繁に出現する値を決定し、これをそのページの特徴量とする。例えば、全２４個の領域のうち、２０個の領域において文字の高さが「１０ｐｔ」であり、３個の領域において「１２ｐｔ」、一つの領域では「１６ｐｔ」であった場合は、当該ページの文字の高さにかかる特徴量として「１０ｐｔ」が算出される。字間、行間、縦書き・横書きについても同様である。
【００４９】
一般的に言えば、表題や見出しがページ全体に占める割合は、文書を特徴付けている本文に比べて小さい。従って、最頻出の値は、本文の特徴を表した量であるとみなすことができる。これによって、文書に表題や見出し部が存在したとしても、ページ画像データから的確に特徴量を得ることができる。
【００５０】
このようにして、１ページ分のページ画像データから、当該ページの文書フォーマットの特徴を表す特徴ベクトル（以下、フォーマット特徴ベクトルという）が求められる。下にフォーマット特徴ベクトルのｆの一例を示す。
【００５１】
【数１】
ｆ＝（文字の高さ、字間、行間、［縦書き：０，横書き：１］）
【００５２】
この場合は、４個の成分をもつ４次元ベクトルである。
【００５３】
次に、類似度評価部１０６は、類似性を比較すべき２つのページ画像データの各々から求められたフォーマット特徴ベクトル間の距離Ｌを求める。特徴ベクトルをそれぞれｆａ、ｆｂとすれば、距離Ｌは以下の様に表すことができる。
【００５４】
【数２】
Ｌ＝‖ｆａ−ｆｂ‖
【００５５】
但し、上式において‖ｖ‖はベクトルｖのノルムを表す。このＬが所定の値より小さい場合は、二つのページ画像データは類似性があり、それぞれ同一の文書に属するものであると判定する。Ｌが所定の値よりも大きい場合には、二つのページ画像データは類似性がなく、それぞれは異なる文書に属するものであると判定する。
【００５６】
＜２．比較対象画像データ＞
上記実施形態においては、Ｎ番目のスキャンジョブにおける最後の文書である文書ｄ_ＬＡＳＴ（Ｎ）とＮ＋１番目のスキャンジョブにおける最初の文書である文書ｄ_１（Ｎ＋１）とを連結すべきかどうかを判定に際し、文書ｄ_３（Ｎ）の最後のページに係るページ画像データＤ_３，３（Ｎ）と、文書ｄ_１（Ｎ＋１）の最初のページにかかるページ画像データＤ_１，１（Ｎ＋１）とを比較した。
しかしながら、これに限らず、文書ｄ_３（Ｎ）の全てのページに係るページ画像データと、文書ｄ_１（Ｎ＋１）の全てのページに係るページ画像データを比較してもよい。具体的には、図６に示すように、文書ｄ_３（Ｎ）のページに係るページ画像データの各々から上記実施形態と同様の方法で特徴量を抽出し、ページ枚数分の特徴量ベクトルを生成する。次に、これらのベクトルの平均ベクトルを求め、これを文書ｄ_３（Ｎ）の特徴ベクトルとする。この処理を文書ｄ_１（Ｎ＋１）に対しても同様な処理を行う。そして、図７に示すように、このように得られた２つの特徴ベクトル間の距離を計算することによって、文書ｄ_３（Ｎ）と文書ｄ_１（Ｎ＋１）の類似性を判定する。なお、ここでの特徴量は画像データ特徴量であってもよいし、文書フォーマット特徴量であってもよい。
【００５７】
＜３．比較判定方法＞
上記実施形態においては、ベクトル間の距離を計算することによってページ画像データの類似性を判定したが、これに限らず、クラスタリング手法を用いて画像データの類似性を判定してもよい。具体的には、図８に示すように、上記実施形態と同様、Ｎ番目のスキャンジョブとＮ＋１番目のスキャンジョブについて、読み取られた全てのページのページ画像データについて特徴量を抽出し、ベクトル空間内にマッピングする。
次に、ベクトル空間にマッピングされた特徴量の集合に対し適当なクラスタリング手法を適用し、クラスタに分割する。クラスタリング手法としては様々な手法が存在するが、一例としては特開２００１−２５６２４４号公報で示されているものを挙げることができる。
そして、文書ｄ_ＬＡＳＴ（Ｎ）の最後のページのページ画像データと、文書ｄ_１（Ｎ＋１）の最初のページのページ画像データＤ_１，１（Ｎ＋１）の特徴量を示すベクトル空間内の一点が同一クラスタに属する場合は、２つの文書は同一の文書に属すると判定する。
【００５８】
＜４．特徴量および抽出方法＞
小領域から抽出すべき特徴量は、画像全体の色調、縦横比、輝度や色の分布状態、エッジの分布状態、平坦なエリアの分布状態のどれか一つでもよいし、複数であってもよい。例えば、ページ画像データの領域を２４分割した場合、１つの小領域から色調、エッジ状態を抽出し、特徴量を１４４次元のベクトルとして表してもよい。また、主成分解析等の手法を用いて、ページ画像データの特徴をできるだけ損なうことなく抽出した特徴量を減らしてもよい。これにより、文書分断判定部が行うべき演算量を減少し、演算にかかる時間が減少する。以上を換言すれば、抽出すべきパラメータの数は任意である。また、分割領域の数も問わない
【００５９】
文書ファイリング装置１は、得られたページ画像データを解析し、解析結果に基づいて抽出方法および抽出すべきパラメータの種類および数を決定してもよい。決定にあたっては、類似判定の精度と演算量と判定速度とを比較考量することが望ましい。
あるいは、文書ファイリング装置１は、スキャン開始時または分断判定時に、判定精度および処理時間をユーザに指定させてもよい。この場合、文書画像ファイリング装置１は、ユーザからの指定に基づいて、抽出方法および抽出パラメータの種類および数等を決定する。
【００６０】
＜５．スキャナ装置＞
上記実施形態においては、文書入力部１０１は、１台のスキャナ装置から構成される場合を前提として説明を行った。しかしながら、文書入力部１０１を、複数のスキャナ装置から構成し、複数のスキャンジョブを並列処理することも可能である。
例えば、１０台のスキャナ装置を使用する場合を考える。仮に、全部で１０００枚の原稿を処理する場合、まずユーザは１００ずつの原稿束に分ける。そして、各原稿束を、順に、付与された番号の若い順のスキャナ装置にセットし、各原稿束を読み取らせる。
この場合、隣接するスキャンジョブ（Ｎ番目のスキャンジョブとＮ＋１番目のスキャンジョブ）をどのように定義するかが問題となるが、これは以下に示す方法を用いることで解決することができる。
【００６１】
すなわち、第１の方法としては、予め複数台のスキャナを一意に特定する為番号を割り当ておく。例えば、１０台のスキャナ装置を使用する場合を考える。仮に、全部で１０００枚の原稿を処理する場合、まずユーザは１００ずつの原稿束に分ける。そして、各原稿束を、順に、付与された番号の若い順のスキャナ装置のＡＤＦにセットしていく。
具体的には、全部でＫ台のスキャナがあるとすると、文書の連結処理は、スキャナ１とスキャナ２、スキャナ２とスキャナ３、…、スキャナＫ−１とスキャナＫ、スキャナＫとスキャナ１という組み合わせでしか発生しない。従って、文書分断判定部１０４は、これらの組み合わせのスキャンジョブについてのみ分断の判定を行えばよい。
【００６２】
第２の方法としては、まず、文書ファイリング装置１に複数台のスキャナの各々が原稿の読み取りを開始した時刻を取得するための装置を設ける。そして、文書分断判定部１０４は、スキャン開始時刻が隣接するスキャナ装置におけるスキャンジョブについてのみ分断の判定を行う。これは、ユーザが紙原稿を各々のスキャナ装置にセットした順に読み取り処理が開始されることを鑑みたものである。
【００６３】
【発明の効果】
同一の文書原稿が２以上のスキャンジョブに跨って読み込まれた場合でも、分断されて格納されたページ画像データの結合作業をユーザが手作業で行う必要がなくなる。
【図面の簡単な説明】
【図１】本発明の一実施形態である文書ファイリング装置１の全体構成を示すブロック図である。
【図２】１回のスキャンジョブで入力される文書を示す図である。
【図３】比較対象となるページを示す図である。
【図４】ページ画像データ特徴量の抽出方法を示す図である。
【図５】ページ画像データの類似・非類似を判定する方法を示す図である。
【図６】一の変形例において、比較対象となるページを示す図である。
【図７】当該変形例において、特徴量の比較方法を示す図である。
【図８】別の変形例において、ページ画像データの類似・非類似を判定する方法を示す図である。
【符号の説明】
１・・・文書ファイリング装置
１０１・・・文書入力部
１０２・・・文書区切り部
１０３・・・文書蓄積部
１０４・・・文書分断判定部
１０５・・・特徴量抽出部
１０６・・・類似度評価部
１０７・・・文書分断連結部
１０８・・・ユーザインターフェース
１０９・・・文書出力部

Claims

文書を構成する個々のページを表す１または複数のページ画像データからなる文書画像データの集合を複数取得する第１のステップと、
前記複数の文書画像データ集合における第１の文書画像データ集合に含まれ、ある文書の先頭ページを含んだ１または複数のページから取得された第１の文書画像データにおける少なくとも１つのページ画像データと、前記複数の文書画像データ集合における第２の文書画像データ集合に含まれ、ある文書の最終ページを含んだ１または複数のページから取得された第２の文書画像データにおける少なくとも１つのページ画像データとに基づき、前記第１の文書画像データおよび前記第２の文書画像データが同一の文書から取得されたものであるか否かを判定する第２のステップと
を備えることを特徴とする文書分断判定方法。
前記複数の文書画像データ集合の各々は、１のスキャンジョブにおいて１の原稿束から読み取られた文書画像データによって構成され、前記第１の文書画像データ集合および前記第２の文書画像データ集合は、連続したスキャンジョブにおいて２つの原稿束から読み取られた文書画像データによって構成される
ことを特徴とする請求項１に記載の文書分断判定方法。
前記第２のステップにおいては、前記第１の文書画像データにおける少なくとも１のページ画像データと前記第２の文書画像データにおける少なくとも１のページ画像データの各々から、各ページ画像データによって表されるページの画像の特徴を表す特徴量を抽出し、各特徴量に基づいて、前記第１の文書画像データおよび前記第２の文書画像データが同一の文書原稿から取得されたものであるか否かを判定する
ことを特徴とする請求項１に記載の文書分断判定方法。
前記第２のステップにおいて、
前記第１の文書画像データにおける少なくとも１のページ画像データと前記第２の文書画像データにおける少なくとも１のページ画像データの各々から各ページ画像データによって表されるページのフォーマットの特徴を表す特徴量を算出し、該特徴量に基づいて、前記第１の文書画像データおよび前記第２の文書画像データが同一の文書から取得されたものであるか否かを判定する
ことを特徴とする請求項１に記載の文書分断判定方法。
前記第２のステップにおいては、前記第１の文書画像データにおける複数のページ画像データから各々抽出された特徴量の平均と、前記第２の文書画像データにおける複数のページ画像データから各々抽出された特徴量の平均とに基づいて、前記第１の文書画像データおよび前記第２の文書画像データが同一の文書原稿から取得されたものであるか否かを判定する
ことを特徴とする請求項３または４に記載の文書分断判定方法。
前記第２のステップにおいては、前記第１の文書画像データ集合に含まれる各文書画像データ毎に、当該文書画像データにおける全てのページ画像データから特徴量ベクトルを抽出し、各ページ画像データから抽出した各特徴量ベクトルが特徴量空間内に形成するクラスタ領域を決定するとともに、前記第２の文書画像データにおける先頭ページのページ画像データから特徴量ベクトルを抽出し、該特徴量ベクトルが前記クラスタ領域に属するか否かにより、前記第１の文書画像データおよび前記第２の文書画像データが同一の文書から取得されたものであるか否かを判定する
ことを特徴とする請求項１に記載の文書分断判定方法。
文書を構成する個々のページを表す１または複数のページ画像データからなる文書画像データの集合を複数取得する文書入力部と、
前記複数の文書画像データ集合における第１の文書画像データ集合に含まれ、ある文書の先頭ページを含んだ１または複数のページから取得された第１の文書画像データにおける少なくとも１つのページ画像データと、前記複数の文書画像データ集合における第２の文書画像データ集合に含まれ、ある文書の最終ページを含んだ１または複数のページから取得された第２の文書画像データにおける少なくとも１つのページ画像データとに基づき、前記第１の文書画像データおよび前記第２の文書画像データが同一の文書から取得されたものであるか否かを判定する文書分断判定部と
を備えることを特徴とする文書ファイリング装置。
前記文書入力部は、セットされた原稿束から１ページずつ紙を取り出すＡＤＦと、該ＡＤＦによって順次取り出される紙から原稿を読み取ってページ画像データを出力するスキャナ装置を備え、前記ＡＤＦにセットされた１つの原稿束から得られたページ画像データにより１つの文書画像データ集合を構成することを特徴とする請求項７に記載の文書ファイリング装置。
前記文書分断判定部は、時間的に連続して得られた２つの文書画像データ集合を前記第１の文書画像データ集合および前記第２の文書画像データ集合として取り扱うことを特徴とする請求項８に記載の文書ファイリング装置。