JP2011141664A

JP2011141664A - 文書比較装置、文書比較方法、及びプログラム

Info

Publication number: JP2011141664A
Application number: JP2010001242A
Authority: JP
Inventors: Masami Hisagai; 正己久貝
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-01-06
Filing date: 2010-01-06
Publication date: 2011-07-21

Abstract

【課題】文書認識を高速に行うことができない。
【解決手段】文書比較対象となる候補文書を絞り込むための大まかな分類の処理を事前に行う文書比較装置、文書比較方法及びプログラムを提供する。文書画像を解析して表ブロックとテキストブロックを求め、また文書画像をエリアに分割する。そして、エリア毎について、各エリアと重複するブロックを示す表面積特徴とテキスト面積特徴を求めて、該特徴を使って文書の類似度を計算して文書の比較を行う。
【選択図】図６

Description

本発明は、入力した文書と登録済みの文書とを比較して両者が類似しているかどうかを判定する技術に関する。

文書をイメージスキャナで取り込み、取り込んだ入力文書画像を登録文書画像と比較してフォーマットの一致する登録文書を決定する文書認識技術は、帳票処理の分野で重要な技術として利用されている。

従来このような文書認識は、罫線のある帳票を対象とし、罫線を含む表構造を解析して表構造の特徴を使って文書間の類似度を求める方法が主流であった。しかしながら、罫線のない文書をスキャナで読み込んで登録文書との比較を行い、その結果決定された文書フォーマットにしたがって適切な処理を施すという応用分野も存在する。そこで、表構造を含まない文書のフォーマットを決定する方法が提案されている（例えば、特許文献１参照）。特許文献１には、次の技術が開示されている。すなわち、文書画像を複数のセルに分割し、分割された各セルについての特性値を導出し、導出された入力文書画像についての各セルの特性値と登録文書についての各セルの特性値とを用いて、登録文書と入力文書画像との類似度を計算する。

特開２００９−０２０８１６号公報

しかしながら、特許文献１に記載の技術のように、表構造を含まない文書フォーマットを決定する処理においては登録文書の個数が１０００個以上のように多くなった場合、認識の処理時間が多くかかってしまう問題があった。

本発明の文書比較装置は、文書を入力し文書画像に変換する入力手段と、前記文書画像を解析しオブジェクトの種類ごとのブロックのブロック情報を抽出する文書解析手段と、前記文書画像を複数のエリアに分割しエリア情報を出力するエリア分割手段と、前記ブロック情報と前記エリア情報とに基づいて、前記エリア毎において少なくとも１つの種類のブロックについての面積特徴を抽出する面積抽出手段と、前記入力手段で入力された第１の文書画像と、該第１の文書画像に関して前記面積抽出手段により抽出された面積特徴とを関連付けて登録する文書登録手段と、前記入力手段により入力された第２の文書画像に関して前記面積抽出手段により抽出された面積特徴と、前記登録された第１の文書の面積特徴とを比較し類似度を求める類似度計算手段と、前記類似度が所定の閾値以上ならば、前記第２の文書画像が前記第１の文書画像と類似していると判定する判定手段とを有する。

本発明によれば、文書の分類処理を高速に行うことができる。

本発明の実施形態における文書比較装置のハードウェア構成図である。本発明の実施形態における前段処理のフローチャートである。本発明の実施形態における文書登録のフローチャートである。本発明の実施形態における文書比較のフローチャートである。文書画像を文書解析した結果の説明図である。文書解析後の文書画像をエリア分割した結果の説明図である。ブロックとエリアの位置座標を説明する図である。ブロックとエリアが重なった第1の場合の説明図である。ブロックとエリアが重なった第2の場合の説明図である。ブロックとエリアが重なった第3の場合の説明図である。ブロックとエリアが重なった第4の場合の説明図である。ブロックとエリアが重ならない場合の説明図である。本発明の実施形態における類似度を計算する処理のフローチャートである。

以下、実施形態の説明に先立って、罫線などの表形式が含まれない文書のフォーマットを認識する利用例について説明する。たとえば、外部の検査機関に検査を依頼するために、医療機関で利用されているカルテのような検査記録帳票などの帳票の複製を作成する場合などにおいては、個人情報の領域に対して適切な処理（例えばマスキング処理）を施した複製文書を作成する必要がある。このマスキング処理を複写時に自動で行うためには、入力した帳票のどの部分に個人情報が記載されているか、すなわち、入力した帳票がどのような文書フォーマットで作成された検査記録帳票であるかを特定する必要がある。ここで、検査記録帳票の文書フォーマットは目的に応じて複数の種類があるため、入力した検査記録帳票の種類を認識して対応する文書フォーマットを決定する必要がある。ところが、このような検査記録帳票は表形式でない場合が多く存在するため、罫線が含まれていない文書についての文書フォーマットの認識が必要となるのである。

なお、以下で説明する実施形態においては、文書フォーマットの大分類を行う処理について説明するが、処理の結果抽出された候補文書に対しては、例えば特許文献１に記載の技術を用いて詳細な比較処理を引き続き行うことが可能である。また、罫線を含まない文書フォーマットの認識技術としては、特許文献１の他にも、特開２００８−１８６２５６号公報に記載の技術などを用いることも可能である。

図１は、本発明の実施形態における文書比較装置のハードウェア構成図である。１０１はデータ／アドレスバス、１０２は装置の制御を司るＣＰＵ(Central Processing Unit)である。１０３は制御プログラムを記憶するＲＯＭ(Read Only Memory)、１０４は制御プログラムが作業領域としてデータを一時記憶するＲＡＭ(Random Access Memory)である。１０５は文書画像を記憶するハードディスク装置ＨＤＤ(Hard Disk Drive)、１０６はディスプレイ装置ＤＳＰ(Display)、１０７はキーボードとマウス、１０８は文書を画像（文書画像）に変換するイメージスキャナである。

図２は、本実施形態の前段処理のフローチャートである。以下で示す各種の処理は、ＲＯＭ１０３からＲＡＭ１０４に読み出された制御プログラムをＣＰＵ１０２が実行することによって実行される。図２に沿って前段処理を説明する。この前段処理は、読み込んだ文書を登録文書として登録する処理と、読み込んだ文書を登録文書と比較する処理とにおいてそれぞれ行われる共通の処理である。文書比較装置はステップ２０１で、イメージスキャナ１０８により文書を読み取り、読み取った文書を文書画像データに変換し、該文書画像データをＨＤＤ１０５に記憶させる。次にステップ２０２で、ＨＤＤ１０５から前記文書画像データを読み込み、文書解析を行う。そして、文書画像データをブロックに分割し、表ブロックとテキストブロックを抽出する。このような文書解析は、例えば特許第３３５９０９５号によって開示されている公知の技術によって実行可能である。テキストブロックとは文書画像の中で、テキストが記載されている部分（矩形領域）のことである。表ブロックとは、文書画像の中で表が記載されている部分のことである。このように、本明細書においては、「ブロック」とは文書画像データを解析して得られた特定の属性を有するオブジェクトが含まれる一定範囲の領域のことを意味する。

図５は、文書解析によって抽出されたブロックを表した図であり、図中の点線枠のブロック５０５〜５０８はテキストブロック、実線枠のブロック５０２〜５０４は表ブロックをそれぞれあらわしている。分割した各ブロックについて、左上コーナの点の位置座標と右下コーナの点の位置座標が求まっている。図７（ａ）はブロックの位置座標の例を表す図で、（ａ１，ａ２)はブロックの左上のコーナＡの座標であり、（ｂ１，ｂ２）はブロックの右下のコーナＢの座標である。なお、座標軸のＸ軸、Ｙ軸は、図７のように定義されているものとする。このように所定のブロックの位置情報を含む情報をブロック情報として抽出することができる。

次にステップ２０３で、文書画像を３×３のエリアに等分割する。本明細書における「エリア」とは、このように等分割された一定領域のことを意味する。なお、エリアは必ずしも等分割される必要はなく、文書画像が予め決められた一定の比率で分割されていれば本明細書の「エリア」に該当する。ここで本明細書において用いる用語について整理すると、「ブロック」は文書画像の中の属性に応じた領域を示しており、一方「エリア」は、属性とは関係なく文書画像全体に対して予め決められた位置で分割された一定の領域を意味する。なお、本実施形態においては、エリアは３×３の等分割の領域を示しているが、４×４のエリアや２×２のエリアに分割してもよい。後述するように、本実施形態においては各エリアにおいて各ブロックとの重なりを算出し、算出した値を用いて文書の比較処理を行うことになる。従って、エリアを詳細に分割するほど文書比較処理の精度は高まる一方、詳細に分割し過ぎると処理効率は低下する。このため、上述したように適度なエリアに分割することが好ましい。

各エリアについても、ブロックと同様にエリアの左上コーナと右下コーナの座標が求まっている。図７（ｂ）はエリアを表す図で、（ｓ１，ｓ２）は左上コーナＳの座標、（ｔ１，ｔ２）は右下コーナＴの座標である。座標軸のＸ軸、Ｙ軸についてもブロックと同様に図７のように定義されているものとする。このように所定のエリアの位置情報を含む情報をエリア情報として生成して出力することができる。

図６は、Ｓ２０２において文書解析で求まったブロック５０２〜５０８とともに、Ｓ２０３において文書画像を分割して作成された９個のエリアＡ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇ，Ｈ，Ｉとを示した図である。図６に示すように一般的に、ブロックが複数のエリアにまたがっているケースがある。

次にステップ２０４で、各エリアについて、表ブロックと重なった領域の面積を求める。その計算アルゴリズムは以下のようになる。

図７のブロックとエリアが重なっていたと想定して、その重なった矩形領域の左上コーナＰの座標を（ｐ１，ｐ２）、右下コーナＱの座標を（ｑ１，ｑ２）であらわす。図８〜図１１にブロックとエリアが重なった場合の点Ｐと点Ｑの例を示す。

点Pの座標は以下のように計算される。
a1−s1 ≧ 0 and a2−s2 ≧ 0 ならば、 p1=a1, p2=a2 とする。（１）
a1−s1 ＜ 0 and a2−s2 ＜ 0 ならば、 p1=s1, p2＝s2 とする。（２）
a1−s1 ≧ 0 and a2―s2 ＜ 0 ならば、 p1＝a1, p2=s2 とする。（３）
a1―s1 ＜ 0 and a2−s2 ≧ 0 ならば、 p1＝s1, p2＝a2 とする。（４）
また、点Qの座標は次のように計算される。
b1−t1 ≧ 0 and b2−t2 ≧ 0 ならば、 q1＝t1, q2＝t2 とする。（５）
b1−t1 ＜ 0 and b2−t2 ＜ 0 ならば、 q1＝b1, q2＝b2 とする。（６）
b1−t1 ≧ 0 and b2−t2 ＜ 0 ならば、 q1＝t1, q2＝b2 とする。（７）
b1−t1 ＜ 0 and b2−t2 ≧ 0 ならば、 q1＝b1, q2＝t2 とする。（８）

たとえば、図８の場合には、エリアＥの左上コーナのＸ座標ａ１よりもブロック５０６の左上コーナＸ座標ｓ１の方が小さく、左上コーナのエリアＥのＹ座標ａ２よりもブロック５０６の左上コーナのＹ座標ｓ２の方が小さい。このような場合、点Ｐは、（４）で決定されｐ１＝ｓ１，ｐ２＝ｓ２となる。また、エリアＥの右下コーナのＸ座標ｔ１よりもブロック５０６の右下コーナのＸ座標ｂ１の方が大きく、エリアＥの右下コーナのＹ座標ｔ２よりもブロック５０６の右下コーナのＹ座標ｂ２の方が小さい。このような場合、点Ｑは、（５）で決定され、ｑ１＝ｔ１，ｑ２＝ｂ２となる。同様に、図９のような場合は、点Pは、（４）で決定され、点Qは、（５）で決定される。また、図１０の場合は、点Ｐは、（４）で決定され、点Ｑは、（８）で決定される。また、図１１の場合は、点Pが、（１）で決定され、点Qが（５）で決定される。

このように決定された点Ｐ及び点Ｑに関して、p1≧q1またはp2≧q2の場合には、点Ｐが点Ｑに対して左上に位置しないので、矩形領域ＰＱは有意な面積を有するとはいえず、面積は０になる。たとえば、図１２のようなケースの場合には面積が０となる。これに対して、p1＜q1かつp2＜q2の場合は、点Ｐが点Ｑに対して左上に位置するため、矩形領域ＰＱは有意な面積を有し、その面積は、（q1−p1）×（q2−p2）として計算される。

各エリアについて、そのエリアにおけるすべての表ブロックとの重なりを上記のアルゴリズムで計算して、重畳部分の面積を求めて、それらの合計値を求める。エリアＩについての、表面積（全ての表ブロックと重畳した領域の面積の合計）をＨ（ｉ）とあらわす。ベクトルＨ（ｉ）を表面積特徴と呼ぶ。

次にステップ２０５に行き、各エリアについて、そのエリアにおける全てのテキストブロックと重畳する領域の面積の合計Ｔ（ｉ）を上記と同様に求める。ベクトルＴ（ｉ）をテキスト面積特徴と呼ぶ。インデックスｉは、エリアＡ，Ｂ，・・・Ｉを表す。
一連の処理の流れで説明したが、必ずしもこの順番で処理が一連の処理の流れで説明したが、必ずしもこの順番で処理が行われなくてもよい。例えば、ステップ２０２の文書解析とステップ２０３のエリア分割の処理を逆に行っても良い。ステップ２０４とステップ２０５の面積抽出処理についても同様である。

なお、本実施形態以外の方法で、文書画像を各エリアの画像に分割した後、当該分割された各エリア画像を文書解析して、テキストブロックと表ブロックを求めてテキスト面積と表面積を求める手法が考え付くかもしれない。しかしながら、そのような方法では、例えば図６のエリアＢ、Ｃなどのように、その中に表の一部を含む場合は、エリア内の表部分が完全な罫線で囲まれていないために、文書解析では表ブロックとして検出することがそもそもできない。

一方、本実施形態では、文書全体に対して文書解析を行った結果のテキストブロックと表ブロックを用いて、各エリアに含まれるテキスト面積と表面積とを求めている。このように文書解析を文書全体に対しておこなっているので、複数のエリアにブロックがまたがっているような場合においても、適切に文書解析をして文書比較の精度を高めることができることが本実施形態の特徴の１つである。

次に図３のフローチャートに従って、文書登録を説明する。まず、ステップ３０１で、図２の前段処理を行って、イメージスキャナから文書を読み取り文書画像データ（第１の文書画像データ）に変換（ステップ２０１）しＨＤＤ１０５に文書画像データを記憶する。そして、文書解析を行って（ステップ２０２）表ブロックとテキストブロックを抽出する。そしてエリア分割を行う（ステップ２０３）。上記に説明したアルゴリズムで表面積特徴Ｈ（ｉ）を求める。同様にテキスト面積特徴Ｔ（ｉ）を求める。

そして、ステップ３０２で、前記文書画像データとともに、表面積特徴Ｈ（ｉ）と、テキスト面積特徴Ｔ（ｉ）とを関連付けてハードディスク１０５に記憶させる。文書登録は、識別対象とする文書すべてについて行われ、登録された文書には、文書を一意に特定する文書ＩＤが付けられる。

なお、上記においては表面積の面積特徴を算出しているが、本実施形態においては表面積の面積特徴が少ない場合が想定される。なぜならば、本発明の目的の１つが表形式を有さない文書の比較処理を行うための大分類を行うことであるからである。従って、入力される文書に表形式が含まれる部分が少ない、あるいはほとんど無い場合が想定され、その場合には、表面積の面積特徴はそれに応じて少なくなる。しかしながら、大分類を行う上においては、表面積の面積特徴が少なくても十分な効果を得ることができる。

次に図４にしたがって、文書比較の処理を説明する。以下の説明で、変数ｉは、１〜９の整数を取るが、１〜９は、エリア記号Ａ〜Ｉに対応する。従って、分割するエリア数が変われば、そのエリア数に応じて変数も変動する。

ステップ４０１で前段処理を行い、イメージスキャナから認識対象文書を読み取り文書画像データに変換（ステップ２０１）しＨＤＤ１０５に文書画像データ（第２の文書画像データ）を記憶する。そして、文書解析（ステップ２０２）、エリア分割（ステップ２０３）、表面積抽出（ステップ２０４）、テキスト面積抽出（ステップ２０５）を行って、認識対象文書の表面積特徴Ｈ₂（ｉ）とテキスト面積特徴Ｔ₂（ｉ）を求める。

そして、ステップ４０２に行き、全ての登録文書との比較が終了したかどうかを判定する。全ての登録文書との比較が終了していなければ、ステップ４０３にいく。

ステップ４０３では、ハードディスク１０５から次の（初めての比較なら「最初の」）登録文書の表面積特徴Ｈ₁（ｉ）とテキスト面積特徴Ｔ₁（ｉ）を読み込む。
そして、以下のようにして、類似度を求める。図１３は、表面積特徴の類似度を求めるフローチャートである。

ステップ１３０１で、類似度の変数を０に、カウンター変数ｉを１にセットする。このカウンター変数はエリアに対応する。次にステップ１３０２に行き、変数ｉが１０に等しいか、すなわち全てのエリアについての類似度を計算したかを判定し、１０に等しければ、すなわち全てのエリアについて類似度を計算した場合には類似度計算は終了する。１０に等しくなければ、ステップ１３０３に行き、
abs（Ｈ₂（ｉ）−Ｈ₁（ｉ））／Ｈ₁（ｉ）＝Ｍ
を計算する。ここで、abs（・・・）は絶対値を求める関数である。Ｍが０．２以下であれば、ステップ１３０４に行き、Ｍが0.2よりも大きければステップ４をスキップしてステップ１３０５に行く。ステップ１３０４では、類似度Ｓを１増やす。そして、ステップ１３０５に行き、カウンター変数ｉを１増やす。そして、ステップ１３０２に行きループする。図１３の処理が終了すれば、Ｓに類似度が求まっている。Ｓは、０〜９の範囲の整数となる。同様にして、テキスト面積特徴についても類似度を求める。

ステップ４０４では次のように判定を行う。
１．表面積特徴の類似度が７以上であれば、認識対象文書を登録文書と類似していると判定する。
２．テキスト面積特徴の類似度が７以上であれば、認識対象文書を登録文書と類似していると判定する。
３．上記以外の場合は、認識対象文書は登録文書と異なると判定する。

なお、上記の例では、類似度を算出する所定の閾値として７であるとして説明し、所定の閾値以上の場合に認識対象文書は登録文書と類似するとして説明した。しかしながら、この閾値は適宜変更することができることは言うまでもない。

判定の結果、類似していた場合は、登録文書ＩＤをＲＡＭ１０４に記憶させる。そして、ステップ４０２に戻りループして、次々と登録文書との比較を行い、類似した登録文書のＩＤを求めていき、ＲＡＭ１０４に記憶させていく。

ステップ４０２で、全ての登録文書との比較が終了したとなったら、ステップ４０５に行き、ＲＡＭ１０４から、類似登録文書ＩＤを読み込み、これらの文書ＩＤを絞り込まれた候補文書のＩＤとしてＨＤＤ１０５に記憶保存する。

以上の処理によって、認識対象文書と類似する登録文書を、候補文書として抽出することが可能となる。なお、図１３で示した処理は一例であり、その他の方法で類似度を判定してもよい。

上記の説明においては、テキスト面積特徴と表面積特徴との２種類に基づいた判定処理を行う例を説明した。しかしながら、例えば必要に応じてイメージブロックなど、他のブロックを用いて、あるいはこれらを任意で組み合わせて、面積特徴を算出して判定処理を行っても良い。また、上記の説明においてはエリア全てについてブロックの面積特徴を算出し、比較する処理について説明したが、エリアの一部について上記面積特徴を算出して比較する処理を行ってもよい。

以上の処理によって、認識対象文書と類似する登録文書（候補文書）が抽出される。その後は、当該抽出された候補文書を用いて、例えば先に説明したように、特許文献１や特開２００８−１８６２５６号公報に記載されている公知の方法によって、詳細な比較（詳細分類処理）を行い、最終的に一致する登録文書を1個だけ特定することができる。

なお、本実施形態のような大分類を行う技術と、特開２０００−２８５１９０号公報及び特開２００４−３３４３３７号公報に記載されている方法とを比較すると以下のような違いがある。

特開２０００−２８５１９０号公報には、文書を文書解析して、背景画面や黒領域などのブロックを求め、比較する文書についてすべてのブロックの位置とサイズを比べて、類似度を求める方法が記載されている。

また、特開２００４−３３４３３７号公報に記載の技術は、文書を３個×３個のエリアにわけ、各エリアの画像特徴量を求めて、対応するエリア同士の画像特徴量を比較して類似度を求める方法がある。特開２００４−３３４３３７号公報では画像特徴量としては、ＲＧＢの平均値や黒画素濃度を使う。

しかしながら、特開２０００−２８５１９０号公報に記載の方法では、文書解析した場合に、求まるブロックの個数は数１０〜１００個程度あるため、２つの文書の比較で、比べるブロックの個数が多く類似度を求めるのに処理時間は多くかかってしまう。従って、大分類自体に処理時間を要してしまい、結局のところ文書比較処理を高速化することができない。

また、特開２００４−３３４３３７号公報に記載の方法では、２つの文書の対応するエリアの一方がイメージのオブジェクトであり、他方が文字列テキストのオブジェクトである場合に画像特徴量に違いがないケースが起こりえる。このため、文書フォーマットの識別に効果のある類似度を求めることができない。

本実施形態においては、エリア毎にブロックの重複部分を算出して、これを用いて類似度を算出するため、詳細な識別処理の前に文書候補を絞り込む大分類処理を高速に行うことを可能となる。これにより、表の有無に依存することなく文書フォーマットの特定を高精度かつ高速に行うことが可能となる。

なお、上記の説明においては、同一の文書比較装置において文書登録処理と文書比較処理とを行う例について説明した。しかしながら、他の装置に本実施形態で説明した文書登録処理を行わせ、その登録文書の情報を文書比較装置が取得して文書比較処理を行うというような分散型のシステムも本発明の範疇に含まれる。

＜その他の実施例＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

文書を入力し文書画像に変換する入力手段と、
前記文書画像を解析しオブジェクトの種類ごとのブロックのブロック情報を抽出する文書解析手段と、
前記文書画像を複数のエリアに分割しエリア情報を出力するエリア分割手段と、
前記ブロック情報と前記エリア情報とに基づいて、前記エリア毎において少なくとも１つの種類のブロックについての面積特徴を抽出する面積抽出手段と、
前記入力手段で入力された第１の文書画像と、該第１の文書画像に関して前記面積抽出手段により抽出された面積特徴とを関連付けて登録する文書登録手段と、
前記入力手段により入力された第２の文書画像に関して前記面積抽出手段により抽出された面積特徴と、前記登録された第１の文書の面積特徴とを比較し類似度を求める類似度計算手段と、
前記類似度が所定の閾値以上ならば、前記第２の文書画像が前記第１の文書画像と類似していると判定する判定手段と
を有する文書比較装置。
前記文書解析手段は、表の種類とテキストの種類のブロック情報を抽出し、
前記面積抽出手段は、表の面積特徴とテキストの面積特徴の２種類の面積特徴を抽出し、
前記類似度計算手段は、前記表の面積特徴と前記テキストの面積特徴についてそれぞれ類似度を算出し、
前記判定手段は、前記表の面積特徴または前記テキストの面積特徴の少なくとも１つの類似度が所定の閾値以上である場合に、前記第２の文書画像が前記第１の文書画像と類似していると判定することを特徴とする請求項１に記載の文書比較装置。
前記ブロック情報には、前記文書画像における当該ブロックの位置情報が含まれ、前記エリア情報には、前記文書画像における当該エリアの位置情報が含まれ、前記面積抽出手段は、前記各位置情報に基づいて、エリアとブロックとの重複部分を面積特徴として抽出することを特徴とする請求項１に記載の文書比較装置。
前記判定手段で前記第２の文書画像に類似していると判定された第１の文書画像に関して、更に、所定の詳細分類処理を実行することを特徴とする請求項１に記載の文書比較装置。
文書を入力し文書画像に変換する入力手段と、
前記文書画像を解析しオブジェクトの種類ごとのブロックのブロック情報を抽出する文書解析手段と、
前記文書画像を複数のエリアに分割しエリア情報を出力するエリア分割手段と、
前記ブロック情報と前記エリア情報とに基づいて、前記エリア毎において少なくとも１つの種類のブロックについての面積特徴を抽出する面積抽出手段と、
前記入力手段で入力された文書画像と、該文書画像に関して前記面積抽出手段により抽出された面積特徴とを関連付けて登録する文書登録手段と、
を備えることを特徴とする文書登録装置。
文書を入力し文書画像に変換する入力ステップと、
前記文書画像を解析しオブジェクトの種類ごとのブロックのブロック情報を抽出する文書解析ステップと、
前記文書画像を複数のエリアに分割しエリア情報を出力するエリア分割ステップと、
前記ブロック情報と前記エリア情報とに基づいて、前記エリア毎において少なくとも１つの種類のブロックについての面積特徴を抽出する面積抽出ステップと、
前記入力ステップで入力された第１の文書画像と、該第１の文書画像に関して前記面積抽出ステップにより抽出された面積特徴とを関連付けて登録する文書登録ステップと、
前記入力ステップにより入力された第２の文書画像に関して前記面積抽出ステップにより抽出された面積特徴と、前記登録された第１の文書の面積特徴とを比較し類似度を求める類似度計算ステップと、
前記類似度が所定の閾値以上ならば、前記第２の文書画像が前記第１の文書画像と類似していると判定する判定ステップと
を有する文書比較方法。
請求項６に記載の文書比較方法をコンピュータに実行させるためのプログラム。