JP2011141664A - 文書比較装置、文書比較方法、及びプログラム - Google Patents
文書比較装置、文書比較方法、及びプログラム Download PDFInfo
- Publication number
- JP2011141664A JP2011141664A JP2010001242A JP2010001242A JP2011141664A JP 2011141664 A JP2011141664 A JP 2011141664A JP 2010001242 A JP2010001242 A JP 2010001242A JP 2010001242 A JP2010001242 A JP 2010001242A JP 2011141664 A JP2011141664 A JP 2011141664A
- Authority
- JP
- Japan
- Prior art keywords
- area
- document
- document image
- block
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】文書認識を高速に行うことができない。
【解決手段】文書比較対象となる候補文書を絞り込むための大まかな分類の処理を事前に行う文書比較装置、文書比較方法及びプログラムを提供する。文書画像を解析して表ブロックとテキストブロックを求め、また文書画像をエリアに分割する。そして、エリア毎について、各エリアと重複するブロックを示す表面積特徴とテキスト面積特徴を求めて、該特徴を使って文書の類似度を計算して文書の比較を行う。
【選択図】図6
【解決手段】文書比較対象となる候補文書を絞り込むための大まかな分類の処理を事前に行う文書比較装置、文書比較方法及びプログラムを提供する。文書画像を解析して表ブロックとテキストブロックを求め、また文書画像をエリアに分割する。そして、エリア毎について、各エリアと重複するブロックを示す表面積特徴とテキスト面積特徴を求めて、該特徴を使って文書の類似度を計算して文書の比較を行う。
【選択図】図6
Description
本発明は、入力した文書と登録済みの文書とを比較して両者が類似しているかどうかを判定する技術に関する。
文書をイメージスキャナで取り込み、取り込んだ入力文書画像を登録文書画像と比較してフォーマットの一致する登録文書を決定する文書認識技術は、帳票処理の分野で重要な技術として利用されている。
従来このような文書認識は、罫線のある帳票を対象とし、罫線を含む表構造を解析して表構造の特徴を使って文書間の類似度を求める方法が主流であった。しかしながら、罫線のない文書をスキャナで読み込んで登録文書との比較を行い、その結果決定された文書フォーマットにしたがって適切な処理を施すという応用分野も存在する。そこで、表構造を含まない文書のフォーマットを決定する方法が提案されている(例えば、特許文献1参照)。特許文献1には、次の技術が開示されている。すなわち、文書画像を複数のセルに分割し、分割された各セルについての特性値を導出し、導出された入力文書画像についての各セルの特性値と登録文書についての各セルの特性値とを用いて、登録文書と入力文書画像との類似度を計算する。
しかしながら、特許文献1に記載の技術のように、表構造を含まない文書フォーマットを決定する処理においては登録文書の個数が1000個以上のように多くなった場合、認識の処理時間が多くかかってしまう問題があった。
本発明の文書比較装置は、文書を入力し文書画像に変換する入力手段と、前記文書画像を解析しオブジェクトの種類ごとのブロックのブロック情報を抽出する文書解析手段と、前記文書画像を複数のエリアに分割しエリア情報を出力するエリア分割手段と、前記ブロック情報と前記エリア情報とに基づいて、前記エリア毎において少なくとも1つの種類のブロックについての面積特徴を抽出する面積抽出手段と、前記入力手段で入力された第1の文書画像と、該第1の文書画像に関して前記面積抽出手段により抽出された面積特徴とを関連付けて登録する文書登録手段と、前記入力手段により入力された第2の文書画像に関して前記面積抽出手段により抽出された面積特徴と、前記登録された第1の文書の面積特徴とを比較し類似度を求める類似度計算手段と、前記類似度が所定の閾値以上ならば、前記第2の文書画像が前記第1の文書画像と類似していると判定する判定手段とを有する。
本発明によれば、文書の分類処理を高速に行うことができる。
以下、実施形態の説明に先立って、罫線などの表形式が含まれない文書のフォーマットを認識する利用例について説明する。たとえば、外部の検査機関に検査を依頼するために、医療機関で利用されているカルテのような検査記録帳票などの帳票の複製を作成する場合などにおいては、個人情報の領域に対して適切な処理(例えばマスキング処理)を施した複製文書を作成する必要がある。このマスキング処理を複写時に自動で行うためには、入力した帳票のどの部分に個人情報が記載されているか、すなわち、入力した帳票がどのような文書フォーマットで作成された検査記録帳票であるかを特定する必要がある。ここで、検査記録帳票の文書フォーマットは目的に応じて複数の種類があるため、入力した検査記録帳票の種類を認識して対応する文書フォーマットを決定する必要がある。ところが、このような検査記録帳票は表形式でない場合が多く存在するため、罫線が含まれていない文書についての文書フォーマットの認識が必要となるのである。
なお、以下で説明する実施形態においては、文書フォーマットの大分類を行う処理について説明するが、処理の結果抽出された候補文書に対しては、例えば特許文献1に記載の技術を用いて詳細な比較処理を引き続き行うことが可能である。また、罫線を含まない文書フォーマットの認識技術としては、特許文献1の他にも、特開2008−186256号公報に記載の技術などを用いることも可能である。
図1は、本発明の実施形態における文書比較装置のハードウェア構成図である。101はデータ/アドレスバス、102は装置の制御を司るCPU(Central Processing Unit)である。103は制御プログラムを記憶するROM(Read Only Memory)、104は制御プログラムが作業領域としてデータを一時記憶するRAM(Random Access Memory)である。105は文書画像を記憶するハードディスク装置HDD(Hard Disk Drive)、106はディスプレイ装置DSP(Display)、107はキーボードとマウス、108は文書を画像(文書画像)に変換するイメージスキャナである。
図2は、本実施形態の前段処理のフローチャートである。以下で示す各種の処理は、ROM103からRAM104に読み出された制御プログラムをCPU102が実行することによって実行される。図2に沿って前段処理を説明する。この前段処理は、読み込んだ文書を登録文書として登録する処理と、読み込んだ文書を登録文書と比較する処理とにおいてそれぞれ行われる共通の処理である。文書比較装置はステップ201で、イメージスキャナ108により文書を読み取り、読み取った文書を文書画像データに変換し、該文書画像データをHDD105に記憶させる。次にステップ202で、HDD105から前記文書画像データを読み込み、文書解析を行う。そして、文書画像データをブロックに分割し、表ブロックとテキストブロックを抽出する。このような文書解析は、例えば特許第3359095号によって開示されている公知の技術によって実行可能である。テキストブロックとは文書画像の中で、テキストが記載されている部分(矩形領域)のことである。表ブロックとは、文書画像の中で表が記載されている部分のことである。このように、本明細書においては、「ブロック」とは文書画像データを解析して得られた特定の属性を有するオブジェクトが含まれる一定範囲の領域のことを意味する。
図5は、文書解析によって抽出されたブロックを表した図であり、図中の点線枠のブロック505〜508はテキストブロック、実線枠のブロック502〜504は表ブロックをそれぞれあらわしている。分割した各ブロックについて、左上コーナの点の位置座標と右下コーナの点の位置座標が求まっている。図7(a)はブロックの位置座標の例を表す図で、(a1,a2)はブロックの左上のコーナAの座標であり、(b1,b2)はブロックの右下のコーナBの座標である。なお、座標軸のX軸、Y軸は、図7のように定義されているものとする。このように所定のブロックの位置情報を含む情報をブロック情報として抽出することができる。
次にステップ203で、文書画像を3×3のエリアに等分割する。本明細書における「エリア」とは、このように等分割された一定領域のことを意味する。なお、エリアは必ずしも等分割される必要はなく、文書画像が予め決められた一定の比率で分割されていれば本明細書の「エリア」に該当する。ここで本明細書において用いる用語について整理すると、「ブロック」は文書画像の中の属性に応じた領域を示しており、一方「エリア」は、属性とは関係なく文書画像全体に対して予め決められた位置で分割された一定の領域を意味する。なお、本実施形態においては、エリアは3×3の等分割の領域を示しているが、4×4のエリアや2×2のエリアに分割してもよい。後述するように、本実施形態においては各エリアにおいて各ブロックとの重なりを算出し、算出した値を用いて文書の比較処理を行うことになる。従って、エリアを詳細に分割するほど文書比較処理の精度は高まる一方、詳細に分割し過ぎると処理効率は低下する。このため、上述したように適度なエリアに分割することが好ましい。
各エリアについても、ブロックと同様にエリアの左上コーナと右下コーナの座標が求まっている。図7(b)はエリアを表す図で、(s1,s2)は左上コーナSの座標、(t1,t2)は右下コーナTの座標である。座標軸のX軸、Y軸についてもブロックと同様に図7のように定義されているものとする。このように所定のエリアの位置情報を含む情報をエリア情報として生成して出力することができる。
図6は、S202において文書解析で求まったブロック502〜508とともに、S203において文書画像を分割して作成された9個のエリアA,B,C,D,E,F,G,H,Iとを示した図である。図6に示すように一般的に、ブロックが複数のエリアにまたがっているケースがある。
次にステップ204で、各エリアについて、表ブロックと重なった領域の面積を求める。その計算アルゴリズムは以下のようになる。
図7のブロックとエリアが重なっていたと想定して、その重なった矩形領域の左上コーナPの座標を(p1,p2)、右下コーナQの座標を(q1,q2)であらわす。図8〜図11にブロックとエリアが重なった場合の点Pと点Qの例を示す。
点Pの座標は以下のように計算される。
a1−s1 ≧ 0 and a2−s2 ≧ 0 ならば、 p1=a1, p2=a2 とする。 (1)
a1−s1 < 0 and a2−s2 < 0 ならば、 p1=s1, p2=s2 とする。 (2)
a1−s1 ≧ 0 and a2―s2 < 0 ならば、 p1=a1, p2=s2 とする。 (3)
a1―s1 < 0 and a2−s2 ≧ 0 ならば、 p1=s1, p2=a2 とする。 (4)
また、点Qの座標は次のように計算される。
b1−t1 ≧ 0 and b2−t2 ≧ 0 ならば、 q1=t1, q2=t2 とする。 (5)
b1−t1 < 0 and b2−t2 < 0 ならば、 q1=b1, q2=b2 とする。 (6)
b1−t1 ≧ 0 and b2−t2 < 0 ならば、 q1=t1, q2=b2 とする。 (7)
b1−t1 < 0 and b2−t2 ≧ 0 ならば、 q1=b1, q2=t2 とする。 (8)
a1−s1 ≧ 0 and a2−s2 ≧ 0 ならば、 p1=a1, p2=a2 とする。 (1)
a1−s1 < 0 and a2−s2 < 0 ならば、 p1=s1, p2=s2 とする。 (2)
a1−s1 ≧ 0 and a2―s2 < 0 ならば、 p1=a1, p2=s2 とする。 (3)
a1―s1 < 0 and a2−s2 ≧ 0 ならば、 p1=s1, p2=a2 とする。 (4)
また、点Qの座標は次のように計算される。
b1−t1 ≧ 0 and b2−t2 ≧ 0 ならば、 q1=t1, q2=t2 とする。 (5)
b1−t1 < 0 and b2−t2 < 0 ならば、 q1=b1, q2=b2 とする。 (6)
b1−t1 ≧ 0 and b2−t2 < 0 ならば、 q1=t1, q2=b2 とする。 (7)
b1−t1 < 0 and b2−t2 ≧ 0 ならば、 q1=b1, q2=t2 とする。 (8)
たとえば、図8の場合には、エリアEの左上コーナのX座標a1よりもブロック506の左上コーナX座標s1の方が小さく、左上コーナのエリアEのY座標a2よりもブロック506の左上コーナのY座標s2の方が小さい。このような場合、点Pは、(4)で決定されp1=s1,p2=s2となる。また、エリアEの右下コーナのX座標t1よりもブロック506の右下コーナのX座標b1の方が大きく、エリアEの右下コーナのY座標t2よりもブロック506の右下コーナのY座標b2の方が小さい。このような場合、点Qは、(5)で決定され、q1=t1,q2=b2となる。同様に、図9のような場合は、点Pは、(4)で決定され、点Qは、(5)で決定される。また、図10の場合は、点Pは、(4)で決定され、点Qは、(8)で決定される。また、図11の場合は、点Pが、(1)で決定され、点Qが(5)で決定される。
このように決定された点P及び点Qに関して、p1≧q1またはp2≧q2の場合には、点Pが点Qに対して左上に位置しないので、矩形領域PQは有意な面積を有するとはいえず、面積は0になる。たとえば、図12のようなケースの場合には面積が0となる。これに対して、p1<q1かつp2<q2の場合は、点Pが点Qに対して左上に位置するため、矩形領域PQは有意な面積を有し、その面積は、(q1−p1)×(q2−p2)として計算される。
各エリアについて、そのエリアにおけるすべての表ブロックとの重なりを上記のアルゴリズムで計算して、重畳部分の面積を求めて、それらの合計値を求める。エリアIについての、表面積(全ての表ブロックと重畳した領域の面積の合計)をH(i)とあらわす。ベクトルH(i)を表面積特徴と呼ぶ。
次にステップ205に行き、各エリアについて、そのエリアにおける全てのテキストブロックと重畳する領域の面積の合計T(i)を上記と同様に求める。ベクトルT(i)をテキスト面積特徴と呼ぶ。インデックスiは、エリアA,B,・・・Iを表す。
一連の処理の流れで説明したが、必ずしもこの順番で処理が一連の処理の流れで説明したが、必ずしもこの順番で処理が行われなくてもよい。例えば、ステップ202の文書解析とステップ203のエリア分割の処理を逆に行っても良い。ステップ204とステップ205の面積抽出処理についても同様である。
一連の処理の流れで説明したが、必ずしもこの順番で処理が一連の処理の流れで説明したが、必ずしもこの順番で処理が行われなくてもよい。例えば、ステップ202の文書解析とステップ203のエリア分割の処理を逆に行っても良い。ステップ204とステップ205の面積抽出処理についても同様である。
なお、本実施形態以外の方法で、文書画像を各エリアの画像に分割した後、当該分割された各エリア画像を文書解析して、テキストブロックと表ブロックを求めてテキスト面積と表面積を求める手法が考え付くかもしれない。しかしながら、そのような方法では、例えば図6のエリアB、Cなどのように、その中に表の一部を含む場合は、エリア内の表部分が完全な罫線で囲まれていないために、文書解析では表ブロックとして検出することがそもそもできない。
一方、本実施形態では、文書全体に対して文書解析を行った結果のテキストブロックと表ブロックを用いて、各エリアに含まれるテキスト面積と表面積とを求めている。このように文書解析を文書全体に対しておこなっているので、複数のエリアにブロックがまたがっているような場合においても、適切に文書解析をして文書比較の精度を高めることができることが本実施形態の特徴の1つである。
次に図3のフローチャートに従って、文書登録を説明する。まず、ステップ301で、図2の前段処理を行って、イメージスキャナから文書を読み取り文書画像データ(第1の文書画像データ)に変換(ステップ201)しHDD105に文書画像データを記憶する。そして、文書解析を行って(ステップ202)表ブロックとテキストブロックを抽出する。そしてエリア分割を行う(ステップ203)。上記に説明したアルゴリズムで表面積特徴H(i)を求める。同様にテキスト面積特徴T(i)を求める。
そして、ステップ302で、前記文書画像データとともに、表面積特徴H(i)と、テキスト面積特徴T(i)とを関連付けてハードディスク105に記憶させる。文書登録は、識別対象とする文書すべてについて行われ、登録された文書には、文書を一意に特定する文書IDが付けられる。
なお、上記においては表面積の面積特徴を算出しているが、本実施形態においては表面積の面積特徴が少ない場合が想定される。なぜならば、本発明の目的の1つが表形式を有さない文書の比較処理を行うための大分類を行うことであるからである。従って、入力される文書に表形式が含まれる部分が少ない、あるいはほとんど無い場合が想定され、その場合には、表面積の面積特徴はそれに応じて少なくなる。しかしながら、大分類を行う上においては、表面積の面積特徴が少なくても十分な効果を得ることができる。
次に図4にしたがって、文書比較の処理を説明する。以下の説明で、変数iは、1〜9の整数を取るが、1〜9は、エリア記号A〜Iに対応する。従って、分割するエリア数が変われば、そのエリア数に応じて変数も変動する。
ステップ401で前段処理を行い、イメージスキャナから認識対象文書を読み取り文書画像データに変換(ステップ201)しHDD105に文書画像データ(第2の文書画像データ)を記憶する。そして、文書解析(ステップ202)、エリア分割(ステップ203)、表面積抽出(ステップ204)、テキスト面積抽出(ステップ205)を行って、認識対象文書の表面積特徴H2(i)とテキスト面積特徴T2(i)を求める。
そして、ステップ402に行き、全ての登録文書との比較が終了したかどうかを判定する。全ての登録文書との比較が終了していなければ、ステップ403にいく。
ステップ403では、ハードディスク105から次の(初めての比較なら「最初の」)登録文書の表面積特徴H1(i)とテキスト面積特徴T1(i)を読み込む。
そして、以下のようにして、類似度を求める。図13は、表面積特徴の類似度を求めるフローチャートである。
そして、以下のようにして、類似度を求める。図13は、表面積特徴の類似度を求めるフローチャートである。
ステップ1301で、類似度の変数を0に、カウンター変数iを1にセットする。このカウンター変数はエリアに対応する。次にステップ1302に行き、変数iが10に等しいか、すなわち全てのエリアについての類似度を計算したかを判定し、10に等しければ、すなわち全てのエリアについて類似度を計算した場合には類似度計算は終了する。10に等しくなければ、ステップ1303に行き、
abs(H2(i)−H1(i))/H1(i)= M
を計算する。ここで、abs(・・・)は絶対値を求める関数である。Mが0.2以下であれば、ステップ1304に行き、Mが0.2よりも大きければステップ4をスキップしてステップ1305に行く。ステップ1304では、類似度Sを1増やす。そして、ステップ1305に行き、カウンター変数iを1増やす。そして、ステップ1302に行きループする。図13の処理が終了すれば、Sに類似度が求まっている。Sは、0〜9の範囲の整数となる。同様にして、テキスト面積特徴についても類似度を求める。
abs(H2(i)−H1(i))/H1(i)= M
を計算する。ここで、abs(・・・)は絶対値を求める関数である。Mが0.2以下であれば、ステップ1304に行き、Mが0.2よりも大きければステップ4をスキップしてステップ1305に行く。ステップ1304では、類似度Sを1増やす。そして、ステップ1305に行き、カウンター変数iを1増やす。そして、ステップ1302に行きループする。図13の処理が終了すれば、Sに類似度が求まっている。Sは、0〜9の範囲の整数となる。同様にして、テキスト面積特徴についても類似度を求める。
ステップ404では次のように判定を行う。
1.表面積特徴の類似度が7以上であれば、認識対象文書を登録文書と類似していると判定する。
2.テキスト面積特徴の類似度が7以上であれば、認識対象文書を登録文書と類似していると判定する。
3.上記以外の場合は、認識対象文書は登録文書と異なると判定する。
1.表面積特徴の類似度が7以上であれば、認識対象文書を登録文書と類似していると判定する。
2.テキスト面積特徴の類似度が7以上であれば、認識対象文書を登録文書と類似していると判定する。
3.上記以外の場合は、認識対象文書は登録文書と異なると判定する。
なお、上記の例では、類似度を算出する所定の閾値として7であるとして説明し、所定の閾値以上の場合に認識対象文書は登録文書と類似するとして説明した。しかしながら、この閾値は適宜変更することができることは言うまでもない。
判定の結果、類似していた場合は、登録文書IDをRAM104に記憶させる。そして、ステップ402に戻りループして、次々と登録文書との比較を行い、類似した登録文書のIDを求めていき、RAM104に記憶させていく。
ステップ402で、全ての登録文書との比較が終了したとなったら、ステップ405に行き、RAM104から、類似登録文書IDを読み込み、これらの文書IDを絞り込まれた候補文書のIDとしてHDD105に記憶保存する。
以上の処理によって、認識対象文書と類似する登録文書を、候補文書として抽出することが可能となる。なお、図13で示した処理は一例であり、その他の方法で類似度を判定してもよい。
上記の説明においては、テキスト面積特徴と表面積特徴との2種類に基づいた判定処理を行う例を説明した。しかしながら、例えば必要に応じてイメージブロックなど、他のブロックを用いて、あるいはこれらを任意で組み合わせて、面積特徴を算出して判定処理を行っても良い。また、上記の説明においてはエリア全てについてブロックの面積特徴を算出し、比較する処理について説明したが、エリアの一部について上記面積特徴を算出して比較する処理を行ってもよい。
以上の処理によって、認識対象文書と類似する登録文書(候補文書)が抽出される。その後は、当該抽出された候補文書を用いて、例えば先に説明したように、特許文献1や特開2008−186256号公報に記載されている公知の方法によって、詳細な比較(詳細分類処理)を行い、最終的に一致する登録文書を1個だけ特定することができる。
なお、本実施形態のような大分類を行う技術と、特開2000−285190号公報及び特開2004−334337号公報に記載されている方法とを比較すると以下のような違いがある。
特開2000−285190号公報には、文書を文書解析して、背景画面や黒領域などのブロックを求め、比較する文書についてすべてのブロックの位置とサイズを比べて、類似度を求める方法が記載されている。
また、特開2004−334337号公報に記載の技術は、文書を3個×3個のエリアにわけ、各エリアの画像特徴量を求めて、対応するエリア同士の画像特徴量を比較して類似度を求める方法がある。特開2004−334337号公報では画像特徴量としては、RGBの平均値や黒画素濃度を使う。
しかしながら、特開2000−285190号公報に記載の方法では、文書解析した場合に、求まるブロックの個数は数10〜100個程度あるため、2つの文書の比較で、比べるブロックの個数が多く類似度を求めるのに処理時間は多くかかってしまう。従って、大分類自体に処理時間を要してしまい、結局のところ文書比較処理を高速化することができない。
また、特開2004−334337号公報に記載の方法では、2つの文書の対応するエリアの一方がイメージのオブジェクトであり、他方が文字列テキストのオブジェクトである場合に画像特徴量に違いがないケースが起こりえる。このため、文書フォーマットの識別に効果のある類似度を求めることができない。
本実施形態においては、エリア毎にブロックの重複部分を算出して、これを用いて類似度を算出するため、詳細な識別処理の前に文書候補を絞り込む大分類処理を高速に行うことを可能となる。これにより、表の有無に依存することなく文書フォーマットの特定を高精度かつ高速に行うことが可能となる。
なお、上記の説明においては、同一の文書比較装置において文書登録処理と文書比較処理とを行う例について説明した。しかしながら、他の装置に本実施形態で説明した文書登録処理を行わせ、その登録文書の情報を文書比較装置が取得して文書比較処理を行うというような分散型のシステムも本発明の範疇に含まれる。
<その他の実施例>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
Claims (7)
- 文書を入力し文書画像に変換する入力手段と、
前記文書画像を解析しオブジェクトの種類ごとのブロックのブロック情報を抽出する文書解析手段と、
前記文書画像を複数のエリアに分割しエリア情報を出力するエリア分割手段と、
前記ブロック情報と前記エリア情報とに基づいて、前記エリア毎において少なくとも1つの種類のブロックについての面積特徴を抽出する面積抽出手段と、
前記入力手段で入力された第1の文書画像と、該第1の文書画像に関して前記面積抽出手段により抽出された面積特徴とを関連付けて登録する文書登録手段と、
前記入力手段により入力された第2の文書画像に関して前記面積抽出手段により抽出された面積特徴と、前記登録された第1の文書の面積特徴とを比較し類似度を求める類似度計算手段と、
前記類似度が所定の閾値以上ならば、前記第2の文書画像が前記第1の文書画像と類似していると判定する判定手段と
を有する文書比較装置。 - 前記文書解析手段は、表の種類とテキストの種類のブロック情報を抽出し、
前記面積抽出手段は、表の面積特徴とテキストの面積特徴の2種類の面積特徴を抽出し、
前記類似度計算手段は、前記表の面積特徴と前記テキストの面積特徴についてそれぞれ類似度を算出し、
前記判定手段は、前記表の面積特徴または前記テキストの面積特徴の少なくとも1つの類似度が所定の閾値以上である場合に、前記第2の文書画像が前記第1の文書画像と類似していると判定することを特徴とする請求項1に記載の文書比較装置。 - 前記ブロック情報には、前記文書画像における当該ブロックの位置情報が含まれ、前記エリア情報には、前記文書画像における当該エリアの位置情報が含まれ、前記面積抽出手段は、前記各位置情報に基づいて、エリアとブロックとの重複部分を面積特徴として抽出することを特徴とする請求項1に記載の文書比較装置。
- 前記判定手段で前記第2の文書画像に類似していると判定された第1の文書画像に関して、更に、所定の詳細分類処理を実行することを特徴とする請求項1に記載の文書比較装置。
- 文書を入力し文書画像に変換する入力手段と、
前記文書画像を解析しオブジェクトの種類ごとのブロックのブロック情報を抽出する文書解析手段と、
前記文書画像を複数のエリアに分割しエリア情報を出力するエリア分割手段と、
前記ブロック情報と前記エリア情報とに基づいて、前記エリア毎において少なくとも1つの種類のブロックについての面積特徴を抽出する面積抽出手段と、
前記入力手段で入力された文書画像と、該文書画像に関して前記面積抽出手段により抽出された面積特徴とを関連付けて登録する文書登録手段と、
を備えることを特徴とする文書登録装置。 - 文書を入力し文書画像に変換する入力ステップと、
前記文書画像を解析しオブジェクトの種類ごとのブロックのブロック情報を抽出する文書解析ステップと、
前記文書画像を複数のエリアに分割しエリア情報を出力するエリア分割ステップと、
前記ブロック情報と前記エリア情報とに基づいて、前記エリア毎において少なくとも1つの種類のブロックについての面積特徴を抽出する面積抽出ステップと、
前記入力ステップで入力された第1の文書画像と、該第1の文書画像に関して前記面積抽出ステップにより抽出された面積特徴とを関連付けて登録する文書登録ステップと、
前記入力ステップにより入力された第2の文書画像に関して前記面積抽出ステップにより抽出された面積特徴と、前記登録された第1の文書の面積特徴とを比較し類似度を求める類似度計算ステップと、
前記類似度が所定の閾値以上ならば、前記第2の文書画像が前記第1の文書画像と類似していると判定する判定ステップと
を有する文書比較方法。 - 請求項6に記載の文書比較方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010001242A JP2011141664A (ja) | 2010-01-06 | 2010-01-06 | 文書比較装置、文書比較方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010001242A JP2011141664A (ja) | 2010-01-06 | 2010-01-06 | 文書比較装置、文書比較方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011141664A true JP2011141664A (ja) | 2011-07-21 |
Family
ID=44457474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010001242A Pending JP2011141664A (ja) | 2010-01-06 | 2010-01-06 | 文書比較装置、文書比較方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011141664A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016031721A (ja) * | 2014-07-30 | 2016-03-07 | 株式会社東芝 | 検索装置、方法及びプログラム |
KR20190033451A (ko) * | 2017-09-21 | 2019-03-29 | 캐논 가부시끼가이샤 | 화상 처리 장치, 화상 처리 방법, 및 저장 매체 |
CN114048707A (zh) * | 2021-11-17 | 2022-02-15 | 北京字跳网络技术有限公司 | 信息处理方法、装置、终端和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08153117A (ja) * | 1994-11-30 | 1996-06-11 | Canon Inc | 文書検索装置及び方法 |
JP2004355370A (ja) * | 2003-05-29 | 2004-12-16 | Canon Inc | 文書処理装置 |
JP2007164648A (ja) * | 2005-12-16 | 2007-06-28 | Ricoh Co Ltd | 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体 |
JP2007172077A (ja) * | 2005-12-19 | 2007-07-05 | Fuji Xerox Co Ltd | 画像検索システム及び方法及びプログラム |
-
2010
- 2010-01-06 JP JP2010001242A patent/JP2011141664A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08153117A (ja) * | 1994-11-30 | 1996-06-11 | Canon Inc | 文書検索装置及び方法 |
JP2004355370A (ja) * | 2003-05-29 | 2004-12-16 | Canon Inc | 文書処理装置 |
JP2007164648A (ja) * | 2005-12-16 | 2007-06-28 | Ricoh Co Ltd | 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体 |
JP2007172077A (ja) * | 2005-12-19 | 2007-07-05 | Fuji Xerox Co Ltd | 画像検索システム及び方法及びプログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016031721A (ja) * | 2014-07-30 | 2016-03-07 | 株式会社東芝 | 検索装置、方法及びプログラム |
KR20190033451A (ko) * | 2017-09-21 | 2019-03-29 | 캐논 가부시끼가이샤 | 화상 처리 장치, 화상 처리 방법, 및 저장 매체 |
JP2019057173A (ja) * | 2017-09-21 | 2019-04-11 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP7013182B2 (ja) | 2017-09-21 | 2022-01-31 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
KR102403964B1 (ko) * | 2017-09-21 | 2022-06-02 | 캐논 가부시끼가이샤 | 화상 처리 장치, 화상 처리 방법, 및 저장 매체 |
CN114048707A (zh) * | 2021-11-17 | 2022-02-15 | 北京字跳网络技术有限公司 | 信息处理方法、装置、终端和存储介质 |
WO2023088378A1 (zh) * | 2021-11-17 | 2023-05-25 | 北京字跳网络技术有限公司 | 信息处理方法、装置、终端和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6402265B2 (ja) | 意思決定モデルを構築する方法、コンピュータデバイス及び記憶デバイス | |
US8965127B2 (en) | Method for segmenting text words in document images | |
US8442327B2 (en) | Application of classifiers to sub-sampled integral images for detecting faces in images | |
US8687886B2 (en) | Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features | |
JP2004139484A (ja) | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム | |
JP6393230B2 (ja) | オブジェクト検出方法及び画像検索システム | |
JP2004522228A (ja) | ディジタル画像を表現し比較する方法 | |
JP2006338313A (ja) | 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体 | |
JP5103955B2 (ja) | 画像検索方法、装置およびプログラム | |
WO2017056312A1 (ja) | 画像処理プログラムおよび画像処理装置 | |
KR20090109047A (ko) | 화상 처리 장치, 화상 처리 방법 및 기록 매체 | |
WO2020071558A1 (ja) | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 | |
JP6690089B2 (ja) | 帳票認識方法、帳票認識装置、及び帳票認識プログラム | |
US20130322773A1 (en) | Methods of object search and recognition | |
JP6565661B2 (ja) | 画像処理システム、画像類似判定方法および画像類似判定プログラム | |
JP2011141664A (ja) | 文書比較装置、文書比較方法、及びプログラム | |
JP4518212B2 (ja) | 画像処理装置及びプログラム | |
JP6175904B2 (ja) | 照合対象抽出システム、照合対象抽出方法、照合対象抽出プログラム | |
JP6336827B2 (ja) | 画像検索装置、画像検索方法および検索システム | |
Calarasanu et al. | From text detection to text segmentation: a unified evaluation scheme | |
JP2018005506A (ja) | 画像認識手法評価装置、画像認識手法評価方法、及びプログラム | |
JP5083162B2 (ja) | 画像データ判定装置、画像データ判定システム、及びプログラム | |
JP2010262578A (ja) | 帳票辞書生成装置、帳票識別装置、帳票辞書生成方法、及びプログラム | |
JP6485072B2 (ja) | 画像探索装置、画像探索方法および画像探索プログラム | |
JP6485084B2 (ja) | 画像探索装置、画像探索方法および画像探索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140225 |