JP2012181765A - 文書画像データベースの登録方法および検索方法 - Google Patents
文書画像データベースの登録方法および検索方法 Download PDFInfo
- Publication number
- JP2012181765A JP2012181765A JP2011045513A JP2011045513A JP2012181765A JP 2012181765 A JP2012181765 A JP 2012181765A JP 2011045513 A JP2011045513 A JP 2011045513A JP 2011045513 A JP2011045513 A JP 2011045513A JP 2012181765 A JP2012181765 A JP 2012181765A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- document image
- feature point
- search
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 79
- 238000000605 extraction Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 12
- 230000015654 memory Effects 0.000 abstract description 48
- 230000006872 improvement Effects 0.000 abstract description 14
- 230000009467 reduction Effects 0.000 abstract description 11
- 238000005070 sampling Methods 0.000 abstract description 10
- 238000013341 scale-up Methods 0.000 abstract 2
- 230000010485 coping Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 26
- 238000002474 experimental method Methods 0.000 description 24
- 230000000694 effects Effects 0.000 description 20
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 17
- 238000012795 verification Methods 0.000 description 12
- 230000007423 decrease Effects 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000004793 poor memory Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
【解決手段】以下の3 点の改良を施す。第1は、ハッシュに保存する特徴点をサンプリングすることによる必要メモリ量の削減である。第2は、特徴量の次元数を増加させることによる識別性向上である。第3は、特徴量のうち冗長性のある次元を削除することによる安定性向上である。
【選択図】図3
Description
文書画像検索とは、与えられた検索質問(クエリ)に対応する文書画像を、データベースから見つける処理である。その中でも、デジタルカメラを用いた文書画像検索は、デジタルカメラで撮影された文書画像を検索質問とするものである。このような形式の文書画像検索を用いれば、印刷文書を撮影し、撮影された印刷文書を検索質問に用いて検索することでさまざまなサービスへの応用が可能になる。具体的には、学術論文の撮影による参考文献の取得や、関連Web サイトへのアクセス等のサービスが考えられる。
(I)コンピュータが、文書画像データベースに登録すべき文書画像から、その文書画像の局所的特徴を表す特徴点を抽出する特徴点抽出ステップと、幾何学的変換に対する不変量を用いた各特徴点の特徴量であって、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とする特徴量計算ステップと、前記文書画像から抽出された各特徴点について、(1)前記文書画像の参照に用いる参照子、(2)その特徴点を他の特徴点と区別する識別子および(3)その特徴点の特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記データ組を前記文書画像と共に前記文書画像データベースに登録する登録ステップとを実行し、前記特徴点抽出ステップは、文書を構成する文書を構成する線の連結成分を決定し、所定面積より小さい連結成分の重心を特徴点として抽出し、抽出された特徴点の数が閾値に満たないとき、各特徴点の近傍にある連結成分の重心をさらに特徴点として抽出して閾値以上の特徴点が得られるように抽出し、前記特徴量計算ステップは、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算することを特徴とする文書画像データベースの登録方法を提供する。
(II)コンピュータが、検索質問として取り込まれた文書画像から、その文書画像の局所的特徴を表す複数のクエリ特徴点を抽出する特徴点抽出ステップと、各クエリ特徴点に係るクエリ特徴量を計算する特徴量計算ステップと、前記登録方法により文書画像が登録された文書画像データベースを参照し、その文書画像データベースに登録されているデータ組の中から、各クエリ特徴点と同一もしくは類似の特徴量を有するデータ組を探索し、見出されたデータ組の参照子を得る個別探索ステップと、各クエリ特徴点について探索を行い、得られた各文書識別子を統計的に処理し、検索結果として推奨すべき文書画像を特定する投票ステップとを実行し、前記特徴点抽出ステップは、文書を構成する文書を構成する線の連結成分を決定し、各連結成分の重心を特徴点として抽出し、前記特徴量計算ステップは、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、かつ、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とすることを特徴とする文書画像の検索方法を提供する。
(III)コンピュータが、文書画像データベースに登録すべき文書画像から、その文書画像の局所的特徴を表す特徴点を抽出する特徴点抽出ステップと、幾何学的変換に対する不変量を用いた各特徴点の特徴量であって、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とする特徴量計算ステップと、前記文書画像から抽出された各特徴点について、(1)前記文書画像の参照に用いる参照子、(2)その特徴点を他の特徴点と区別する識別子および(3)その特徴点の特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記データ組を前記文書画像と共に前記文書画像データベースに登録する登録ステップとを実行し、前記特徴点抽出ステップは、文書を構成する文書を構成する線の連結成分を決定し、所定面積より小さい連結成分の重心を特徴点として抽出し、抽出された特徴点の数が閾値に満たないとき、各特徴点の近傍にある連結成分の重心をさらに特徴点として抽出して閾値以上の特徴点が得られるように抽出する文書画像データベースの登録方法を提供する。
(IV)コンピュータが、検索質問として取り込まれた文書画像から、その文書画像の局所的特徴を表す複数のクエリ特徴点を抽出する特徴点抽出ステップと、各クエリ特徴点に係るクエリ特徴量を計算する特徴量計算ステップと、前記登録方法により文書画像が登録された文書画像データベースを参照し、その文書画像データベースに登録されているデータ組の中から、各クエリ特徴点と同一もしくは類似の特徴量を有するデータ組を探索し、見出されたデータ組の参照子を得る個別探索ステップと、各クエリ特徴点について探索を行い、得られた各文書識別子を統計的に処理し、検索結果として推奨すべき文書画像を特定する投票ステップとを実行し、前記特徴点抽出ステップは、文書を構成する文書を構成する線の連結成分を決定し、各連結成分の重心を特徴点として抽出し、前記特徴量計算ステップは、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とすることを特徴とする文書画像の検索方法を提供する。
この発明によれば、登録ページ数が100 万ページから1,000 万におよぶ大規模な文書画像データベースへの適用が可能になる。
この発明の登録方法において、前記登録ステップは、(1)前記参照子、(2)前記識別子および(3)前記特徴量またはその特徴量を簡略化した簡易特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記特徴量に応じて各特徴点を分類すべく予め定義された計算を行ってその特徴点が属する類のインデックスを得、インデックスに応じた類に前記データ組を分類し、前記文書画像と共に前記文書画像データベースに登録してもよい。このようにすれば、前記データ組が分類されて登録されるので、検索は何れか一つの類に登録された特徴点に探索の対象が絞り込まれ、探索に要する処理時間を短縮できる。
この発明の好ましい態様は、ここで示した複数の態様のうち何れかを組み合わせたものも含む。
この発明の理解を容易にするため、まず、この発明の基礎となる従来のLLAH についてここで簡単に説明しておく。
1.処理の概要
図1は、この発明の基礎となる従来のLLAH による文書画像検索の処理の概要を示す説明図である。図1に示すように、従来のLLAH は、文書画像検索の環境を構築する段階であって、登録すべき文書画像が与えられたとき、その文書画像から特徴点を抽出して文書画像データベースに登録する段階に適用される。さらに、従来のLLAH は、検索質問としての文書画像が与えられたとき、検索質問から特徴点を抽出して文書画像データベースの中からその検索質問に対応する文書画像を検索する段階において適用される。登録と検索は何れもコンピュータによって処理が実行される。なお、この明細書でコンピュータは、CPUあるいはマイクロコンピュータ等、プログラムに従って処理を行う装置の総称として用いる。また、処理を実行するコンピュータは、単独のCPU構成に限らず、いわゆるクラウド・コンピューティングやグリッド・コンピューティングなど複数のCPUによる構成を含む。さらに、前記検索に係る処理を実行するコンピュータは、前記登録に係る処理を実行するコンピュータと同一のものでなくてもよい。
投票処理は、一般に、得られた証拠に基づいて選択肢の何れかに得点を与え、すべての証拠を集計した結果に基づいて選択肢を選択する処理をいう。通常は、最高得票数を獲得した選択肢を選択するが、得票数だけでなく、所定の得票率を上回ったか、下位の選択肢との得票差が所定以上あるか等統計的な観点から妥当性を評価することによって、複数の選択肢を選択する場合や何も選択しないこともある。以下、処理の詳細を説明する。
従来のLLAH において、コンピュータは、特徴点の配置に基づいて特徴量を算出し、算出された特徴量を用いて文書画像のマッチングを行う。従って、特徴点抽出処理では、与えられた文書画像に射影歪みやノイズが生じていたり、低解像度であったりしても同一の特徴点を抽出する必要がある。一つの手法は、文書画像の文書を構成する単語が占める領域(以下、単語領域)に着目し、単語領域の重心を特徴点として用いるものである。また、日本語のような、分かち書きされない文書については、単語領域に代えて例えば漢字の「へん」や「つくり」を構成する連結成分に着目し、連結成分の重心と面積とを求め、面積比と面積順位を用いて重心(特徴点)に係る特徴量を計算する手法が提案されている(例えば、特許文献1の明細書段落0006、0043、0046参照)。単語領域は、文字を構成する線をぼかして得られる連結成分といえる。以下、連結成分の例としての単語領域について説明する。
特徴量とは、文書画像の特徴点を表現する値であり、特徴点のマッチングは特徴量に基づいて行われる。正確な検索のためには、ロバストな特徴量が必要である。また、与えられた文書画像がカメラで撮影されたものである場合、文書画像とカメラの位置関係により、通常は射影歪みが含まれる。そのため、射影歪みに対して不変となる幾何学的不変量を特徴量として用いる必要がある。そこで、ある特徴点S0 に対応する特徴量として、点S0 を含む近傍の4 点ABCD から、以下の式で求められる値を計算し、特徴量として用いる。
登録処理において、コンピュータは、各特徴点を特徴量に従ってハッシュに登録する。そして、すべての文書画像を同じハッシュに登録する。ハッシュ表のインデックスHindex は以下に示すハッシュ関数で計算される。
検索の段階では、検索質問から特徴点を抽出し、各特徴点の特徴量を算出してインデックス(Hindex の値)および商Q を得る。得られたインデックスを用いて、対応するビンに登録されたデータ組があればそれを参照する。参照したデータ組について商Q が一致するかを調べる。個別の特徴点探索である。検索質問から抽出された各特徴点について個別の特徴点探索を行う。参照したデータ組の商Q が一致していたら、そのデータ組の文書ID に投票を行う。これが投票処理である。文書ID ごとに初期値ゼロのカウンタが設けられた投票テーブルが用意されている。コンピュータは、投票テーブルの文書ID のうち、投票すべき文書ID のカウンタをインクリメントする。検索質問の各特徴点につきハッシュ表を参照し、ビンの内容に応じて投票を行う。最大の得票数を得た文書ID が付された文書画像を、正解画像として出力する。
1.メモリ使用量の削減
従来のLLAH では、特徴点抽出処理において得られたすべての特徴点を、原則としてハッシュ表に保存する。ハッシュの衝突回数(リストの長さ)が制限値を超えた場合のみが例外である。そのため、メモリ使用量が多くなる。しかし、すべての特徴点を保存しなくとも、検索はできると考えられる。これは、検索に投票処理を用いているためである。そこで、特徴点のサンプリングを行い、ハッシュに保存するデータ量を削減する。これによって、メモリ使用量の削減を図るのである。
文書画像中の特徴点の分布に疎密ができると、疎な部分では正解画像が十分な得票数を得ることができず、精度の低下を招くと考えられる。
つまり、撮影範囲にロバストであるためには、サンプリングされる特徴点がある程度均等に分散して分布していなければならない。
そこでこの発明では、連結成分の面積に着目してサンプリングを行う。サンプリングの例を図3に示す。図3は、文書画像の一部を示している。なお、S0 〜S6 は6つの連結成分の重心として得られるそれぞれの特徴点を示す符号である。いま、中央部の“in”という単語に注目すると、その連結成分は、周囲の連結成分より面積が小さいことがわかる。サンプリングでは、このような連結成分から抽出した特徴点S0 を有効な特徴点として採用する。周囲より面積の小さい連結成分は、字数の少ない連結成分であって、前置詞や冠詞なとどして文書中に頻出する。よって、位置的に偏りのないサンプリングが行えると考えられる。
データベースの大規模化に伴い、ハッシュ表に登録される特徴量は膨大になる。そのため、一般的にハッシュの衝突回数が増加すると考えられる。換言すれば、類似の特徴点が増えると考えられる。そのため、誤投票が増加することになり、検索精度に影響が出ると考えられる。しかし、ハッシュの衝突回数を抑えるためにその制限値を低く設定すれば、それに伴って削除されるデータ組が大量に出現すると考えられる。従って、検索に必要なデータまで削除されてしまい、検索精度が低下すると考えられる。以上のことから、特徴点の識別性を高め、衝突回数を抑制する必要がある。異なる特徴点と区別され易くするということである。
この発明では、特徴点S0 の近傍の特徴点数をn = 8,m = 7 とすることによって、次元数を増加させる。具体的には、アフィン不変量ベクトルが7C4 = 35 次元、面積比特徴量が7 次元となり、合計42 次元の特徴量を得ることができる。従来のLLAH に比べて2倍の次元数である。
そこで、この発明では、前述のジレンマを解決するため、特徴量から互いに関連性のある次元を削除する。
これまでに説明した改良されたLLAH は、コンピュータに所定の処理を行わせるための処理プログラムの態様、その処理プログラムをコンピュータ読取り可能に記憶する不揮発性の記憶媒体の態様、およびその処理プログラムをコンピュータが実行することにより改良されたLLAHの機能を実現するシステムの態様として捉えることができる。
1.実験例1:改良されたLLAH の効果
前述のメモリ使用量の削減と、特徴点の識別性・安定性向上の効果を明確にするため、以下の3つのバージョンのLLAH を作成した。
i.従来のLLAH 手法
ii.メモリ使用量削減版
iii.メモリ使用量削減版に識別性、安定性向上処理を加えた総合版
iは比較の基準となる従来のLLAH であり、iiおよびiiiが改良されたLLAH に係るものである。
登録された文書画像は、主に予稿集のCD-ROM から集められた、1段組および2段組の英語論文である。それらの英語論文は、PDF ファイルを解像度200dpi で画像に変換したものである。登録された文書画像の一例を図5に示す。検索質問として、印刷文書を紙面に対して斜め方向(約60°)から文書全体を撮影した画像を1003 枚用意した。撮影には、1200万画素のデジタルカメラを用いた。検索質問画像の一例を図6に示す。登録画像と検索質問の撮影角度は異なる。登録されたものと異なる撮影角度の検索質問は、各バージョンの射影歪みに対するロバスト性を明らかに示すことができる。ハッシュ表のサイズは230−1 である。実験に用いたコンピュータは、CPU がAMD 社製のOpteron(登録商標)、CPUクロック周波数が2.8GHz、メモリ容量が128GB のものである。
以下の表1に結果を示す。表1で、「使用メモリ」はハッシュ表に格納されるデータ量を表している。データ構造としてのハッシュ表自体に使用されるメモリ容量は含まれていない。
iiのメモリ削減版は、従来手法と比較して、約70% のメモリ削減を実現した。これは、従来手法でハッシュに登録していた特徴点数の約70% を削除したことと同義である。また、iiiの総合版は、従来手法と比較して、約65% のメモリ削減を実現した。これだけの特徴点を削除したにも関わらず、精度には全く影響がなかった。その理由の一つとして、本実験で用いた検索質問が、文書全体を撮影したものであるということが挙げられる。そこで、撮影範囲の違いによる精度への影響を検証する必要があるが、これについては後の「部分撮影への耐性」の項目で述べる。
以上のことから、改良されたLLAH は、精度を低下させることなくメモリ使用量の削減を実現し、さらに、メモリ使用量の削減と特徴点の識別性、安定性の向上を実現しているといえる。
文書画像データベースの大規模化に対する改良されたLLAH のスケーラビリティを検証した。登録ページ数を1 万、10 万、100 万、1,000万とした4つの異なるデータベースを作成し、登録ページ数と必要メモリ量、検索精度、処理時間の関係をそれぞれ調べた。実験例2における改良されたLLAHは、実験例1におけるiiiの総合版に対応する。
比較のために、従来のLLAH 手法の結果を併記した。検索質問は、実験例1と同じものを使用した。ハッシュ表のサイズは230−1 、リスト長の制限値は100 である。
文書画像データベースへの登録ページ数と必要メモリ量の関係を図7 に示す。ここで必要メモリ量は、検索するために必要なすべてのメモリ使用量を表す。また、ハッシュ表を確保するためにメモリを8GB 使用している。従来手法では1,000 万ページのデータベースは作成不可能なため、100 万から1,000 万までは推定値を表す。どちらの手法も、登録ページ数が増加するに伴い、必要メモリ量も増加した。ただし、従来のLLAH と比較して、改良されたLLAH の必要メモリ量は約50% 程度となっていることがわかる。
登録ページ数と検索精度の関係を図8に示す。改良されたLLAH は、従来のLLAH よりも高い検索精度を示した。また、改良されたLLAH では1,000 万ページの文書画像データベースにおいて99.4% という高い精度で検索可能であることが確認された。これより、改良された特徴量は、大規模化に耐え得る高い識別性と安定性を備えていると考えられる。しかし、登録ページ数の増加に伴い、検索精度が低下した。大規模化に伴い検索に失敗した例を図9に示す。この画像のように、ページの大部分を図表が占め、テキストの量が少ない検索質問で検索に失敗した。これは、得られる特徴点の数が少ないため、正解の文書が十分な得票数を得られないことが原因であると考えられる。
登録ページ数と処理時間の関係を図10に示す。登録ページ数の増加と比較して、処理時間の増加は抑制されている。これは、ハッシュを用いて検索することによる効果であると考えられる。また、1,000 万ページの文書画像データベースにおいて、38ms で検索可能であることが確認された。従って、改良されたLLAH は、1,000万ページの文書画像データベースにおいて実時間検索が可能であるといえる。
実験例1で述べたように、改良されたLLAH で高い検索精度となっている理由の1つに、検索質問が文書画像全体を写していることが挙げられる。文書画像全体を撮影することにより、参照する特徴点数が増加し、正解画像が多くの得票数を得ることができるためである。文書画像の一部分が撮影された検索質問では、特徴点数が減少するために精度が低下すると考えられる。そこで、文書画像の一部分を撮影した検索質問を作成し、部分撮影への耐性を検証した。
これまでに述べた実験例は、特徴点をサンプリングしてメモリ使用量を削減する手法(以下、間引きと呼ぶ)と特徴量の識別性を向上させつつ安定性を確保するために特徴量の冗長性を排除する手法(以下、特徴量選択と呼ぶ)とを組み合わせた態様である。次に、それらの手法の単独の効果を確認する実験を行った。
まず、間引き有無、特徴量選択有無の態様を組み合わせ、必要メモリ量、検索精度および処理時間を確認した。ただし、間引きがないと必要なメモリ量が膨大になってしまい現行の実験装置が対応できない。そのため、登録ページ数100万で実験を行った。結果を表2に示す。
続いて、登録ページ数1000万ページで、特徴量選択の有無による違いを比較した。結果を表3に示す。
特徴量選択の有無で必要メモリ量に違いがあるのは、主として特徴点1つあたりに計算される特徴量数(特徴ベクトルの次元数)の違いによるものである。特徴量選択なしの場合は21 次元、特徴量選択ありの場合は24 次元である。
以上の結果から、特徴点の間引きは、メモリ使用量の削減に大きく寄与している一方、特徴量の選択は検索精度の向上に寄与していることがわかる。
登録ページ数が1000万におよぶ大規模な文書画像データベースへの対応には、いずれの手法も非常に有効なものといえる。
Claims (9)
- コンピュータが、
文書画像データベースに登録すべき文書画像から、その文書画像の局所的特徴を表す特徴点を抽出する特徴点抽出ステップと、
幾何学的変換に対する不変量を用いた各特徴点の特徴量であって、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とする特徴量計算ステップと、
前記文書画像から抽出された各特徴点について、(1)前記文書画像の参照に用いる参照子、(2)その特徴点を他の特徴点と区別する識別子および(3)その特徴点の特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記データ組を前記文書画像と共に前記文書画像データベースに登録する登録ステップとを実行し、
前記特徴点抽出ステップは、文書を構成する文書を構成する線の連結成分を決定し、所定面積より小さい連結成分の重心を特徴点として抽出し、抽出された特徴点の数が閾値に満たないとき、各特徴点の近傍にある連結成分の重心をさらに特徴点として抽出して閾値以上の特徴点が得られるように抽出し、
前記特徴量計算ステップは、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算することを特徴とする文書画像データベースの登録方法。 - 前記登録ステップは、(1)前記参照子、(2)前記識別子および(3)前記特徴量またはその特徴量を簡略化した簡易特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記特徴量に応じて各特徴点を分類すべく予め定義された計算を行ってその特徴点が属する類のインデックスを得、インデックスに応じた類に前記データ組を分類し、前記文書画像と共に前記文書画像データベースに登録する請求項1に記載の登録方法。
- 前記特徴量計算ステップは、3つの特徴点を頂点とする三角形を前記幾何学的要素としてその三角形の面積を前記特性値とし、4つ以上の特徴点の何れか3点を頂点とする三角形の組み合わせのうち一辺を共有する2つの三角形の面積比を一つの不変量とする請求項1または2に記載の登録方法。
- コンピュータが、
検索質問として取り込まれた文書画像から、その文書画像の局所的特徴を表す複数のクエリ特徴点を抽出する特徴点抽出ステップと、
各クエリ特徴点に係るクエリ特徴量を計算する特徴量計算ステップと、
請求項1に記載の登録方法により文書画像が登録された文書画像データベースを参照し、その文書画像データベースに登録されているデータ組の中から、各クエリ特徴点と同一もしくは類似の特徴量を有するデータ組を探索し、見出されたデータ組の参照子を得る個別探索ステップと、
各クエリ特徴点について探索を行い、得られた各文書識別子を統計的に処理し、検索結果として推奨すべき文書画像を特定する投票ステップとを実行し、
前記特徴点抽出ステップは、文書を構成する文書を構成する線の連結成分を決定し、各連結成分の重心を特徴点として抽出し、
前記特徴量計算ステップは、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、かつ、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とすることを特徴とする文書画像の検索方法。 - コンピュータが、
検索質問として取り込まれた文書画像から、その文書画像の局所的特徴を表す複数のクエリ特徴点を抽出する特徴点抽出ステップと、
各クエリ特徴点に係るクエリ特徴量を計算する特徴量計算ステップと、
請求項2に記載の登録方法により文書画像が登録された文書画像データベースを参照し、その文書画像データベースに登録されている特徴点の中から、各クエリ特徴点と局所的特徴が類似する特徴点を探索し、見出された類似の特徴点に関連づけられた参照子を得る個別探索ステップと、
各クエリ特徴点について探索を行い、得られた各文書識別子を統計的に処理し、検索結果として推奨すべき文書画像を特定する投票ステップとを実行し、
前記特徴点抽出ステップは、文書を構成する文書を構成する線の連結成分を決定し、各連結成分の重心を特徴点として抽出し、
前記特徴量計算ステップは、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、かつ、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とし、
前記個別探索ステップは、請求項2に記載の登録方法に対応する計算によって各クエリ特徴点のインデックスを得、そのインデックスに係る類として登録されたデータ組を参照し、そのデータ組が簡易特徴量を有する場合は前記クエリ特徴点に係る簡易特徴量を求めたうえで同一もしくは最も類似の簡易特徴量を有するデータ組に係る参照子を得、登録されたデータ組が特徴量を有する場合は同一もしくは最も類似の特徴量を有するデータ組に係る参照子を得ることを特徴とする文書画像の検索方法。 - 前記特徴量計算ステップは、3つの特徴点を頂点とする三角形を前記幾何学的要素としてその三角形の面積を前記特性値とし、4つ以上の特徴点の何れか3点を頂点とする三角形の組み合わせのうち一辺を共有する2つの三角形の面積比を一つの不変量とする請求項4または5に記載の検索方法。
- コンピュータが、
文書画像データベースに登録すべき文書画像から、その文書画像の局所的特徴を表す特徴点を抽出する特徴点抽出ステップと、
幾何学的変換に対する不変量を用いた各特徴点の特徴量であって、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とする特徴量計算ステップと、
前記文書画像から抽出された各特徴点について、(1)前記文書画像の参照に用いる参照子、(2)その特徴点を他の特徴点と区別する識別子および(3)その特徴点の特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記データ組を前記文書画像と共に前記文書画像データベースに登録する登録ステップとを実行し、
前記特徴点抽出ステップは、文書を構成する文書を構成する線の連結成分を決定し、所定面積より小さい連結成分の重心を特徴点として抽出し、抽出された特徴点の数が閾値に満たないとき、各特徴点の近傍にある連結成分の重心をさらに特徴点として抽出して閾値以上の特徴点が得られるように抽出することを特徴とする文書画像データベースの登録方法。 - コンピュータが、
検索質問として取り込まれた文書画像から、その文書画像の局所的特徴を表す複数のクエリ特徴点を抽出する特徴点抽出ステップと、
各クエリ特徴点に係るクエリ特徴量を計算する特徴量計算ステップと、
請求項1に記載の登録方法により文書画像が登録された文書画像データベースを参照し、その文書画像データベースに登録されているデータ組の中から、各クエリ特徴点と同一もしくは類似の特徴量を有するデータ組を探索し、見出されたデータ組の参照子を得る個別探索ステップと、
各クエリ特徴点について探索を行い、得られた各文書識別子を統計的に処理し、検索結果として推奨すべき文書画像を特定する投票ステップとを実行し、
前記特徴点抽出ステップは、文書を構成する文書を構成する線の連結成分を決定し、各連結成分の重心を特徴点として抽出し、
前記特徴量計算ステップは、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、かつ、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とすることを特徴とする文書画像の検索方法。 - コンピュータが、
検索質問として取り込まれた文書画像から、その文書画像の局所的特徴を表す複数のクエリ特徴点を抽出する特徴点抽出ステップと、
各クエリ特徴点に係るクエリ特徴量を計算する特徴量計算ステップと、
請求項8に記載の登録方法により文書画像が登録された文書画像データベースを参照し、その文書画像データベースに登録されているデータ組の中から、各クエリ特徴点と同一もしくは類似の特徴量を有するデータ組を探索し、見出されたデータ組の参照子を得る個別探索ステップと、
各クエリ特徴点について探索を行い、得られた各文書識別子を統計的に処理し、検索結果として推奨すべき文書画像を特定する投票ステップとを実行し、
前記特徴点抽出ステップは、文書を構成する文書を構成する線の連結成分を決定し、各連結成分の重心を特徴点として抽出し、
前記特徴量計算ステップは、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とすることを特徴とする文書画像の検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011045513A JP5660574B2 (ja) | 2011-03-02 | 2011-03-02 | 文書画像データベースの登録方法および検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011045513A JP5660574B2 (ja) | 2011-03-02 | 2011-03-02 | 文書画像データベースの登録方法および検索方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012181765A true JP2012181765A (ja) | 2012-09-20 |
JP2012181765A5 JP2012181765A5 (ja) | 2014-04-03 |
JP5660574B2 JP5660574B2 (ja) | 2015-01-28 |
Family
ID=47012893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011045513A Expired - Fee Related JP5660574B2 (ja) | 2011-03-02 | 2011-03-02 | 文書画像データベースの登録方法および検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5660574B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006092957A1 (ja) * | 2005-03-01 | 2006-09-08 | Osaka Prefecture University Public Corporation | 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 |
JP2008257469A (ja) * | 2007-04-04 | 2008-10-23 | Canon Inc | 画像処理装置及び画像検索方法 |
JP2009032109A (ja) * | 2007-07-27 | 2009-02-12 | Osaka Prefecture Univ | 文書画像検索方法、文書画像登録方法、そのプログラムおよび装置 |
JP2009070066A (ja) * | 2007-09-12 | 2009-04-02 | Osaka Prefecture Univ | 文書および/または画像のデータベースへの登録方法およびその検索方法 |
JP2010009597A (ja) * | 2008-06-27 | 2010-01-14 | Palo Alto Research Center Inc | 局所的視覚的2次元指紋を用いた、文書コレクション内の文書画像を発見する方法およびシステム |
-
2011
- 2011-03-02 JP JP2011045513A patent/JP5660574B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006092957A1 (ja) * | 2005-03-01 | 2006-09-08 | Osaka Prefecture University Public Corporation | 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 |
JP2008257469A (ja) * | 2007-04-04 | 2008-10-23 | Canon Inc | 画像処理装置及び画像検索方法 |
JP2009032109A (ja) * | 2007-07-27 | 2009-02-12 | Osaka Prefecture Univ | 文書画像検索方法、文書画像登録方法、そのプログラムおよび装置 |
JP2009070066A (ja) * | 2007-09-12 | 2009-04-02 | Osaka Prefecture Univ | 文書および/または画像のデータベースへの登録方法およびその検索方法 |
JP2010009597A (ja) * | 2008-06-27 | 2010-01-14 | Palo Alto Research Center Inc | 局所的視覚的2次元指紋を用いた、文書コレクション内の文書画像を発見する方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
JP5660574B2 (ja) | 2015-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5522408B2 (ja) | パターン認識装置 | |
US9201879B2 (en) | Method, apparatus and system for generating a feature vector | |
JP4332556B2 (ja) | 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 | |
US11580763B2 (en) | Representative document hierarchy generation | |
US9411849B2 (en) | Method, system and computer storage medium for visual searching based on cloud service | |
US8838657B1 (en) | Document fingerprints using block encoding of text | |
JP6211407B2 (ja) | 画像検索システム、画像検索装置、検索サーバ装置、画像検索方法、及び画像検索プログラム | |
CN111191652A (zh) | 一种证件图像识别方法、装置、电子设备及存储介质 | |
CN113033269B (zh) | 一种数据处理方法及装置 | |
CN106933824B (zh) | 在多个文档中确定与目标文档相似的文档集合的方法和装置 | |
US20230138491A1 (en) | Continuous learning for document processing and analysis | |
JP5304781B2 (ja) | 画像照合装置、画像照合用特徴量格納記憶媒体、画像照合方法および画像照合用プログラム | |
JP6017277B2 (ja) | 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法 | |
CN110688995B (zh) | 地图查询的处理方法,计算机可读存储介质和移动终端 | |
JP5004082B2 (ja) | 文書画像検索方法、文書画像登録方法、そのプログラムおよび装置 | |
JP2014225168A (ja) | 特徴点集合で表される画像間の類似度を算出するプログラム、装置及び方法 | |
JP5660574B2 (ja) | 文書画像データベースの登録方法および検索方法 | |
Liu et al. | Mobile retriever-finding document with a snapshot | |
JP5414631B2 (ja) | 文字列探索方法、文字列探索装置、記録媒体 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN113516598A (zh) | 图像校正方法、装置和服务器 | |
JP2020166811A (ja) | 文書フォームの識別 | |
Qu et al. | Neural-network-based Approach to Detect and Recognize Distorted Text in Images with Complicated Background | |
US11893012B1 (en) | Content extraction using related entity group metadata from reference objects | |
Dang et al. | Polygon-shape-based scale and rotation invariant features for camera-based document image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140218 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140723 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140805 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5660574 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |