JP5660574B2 - Document image database registration and search method - Google Patents

Document image database registration and search method Download PDF

Info

Publication number
JP5660574B2
JP5660574B2 JP2011045513A JP2011045513A JP5660574B2 JP 5660574 B2 JP5660574 B2 JP 5660574B2 JP 2011045513 A JP2011045513 A JP 2011045513A JP 2011045513 A JP2011045513 A JP 2011045513A JP 5660574 B2 JP5660574 B2 JP 5660574B2
Authority
JP
Japan
Prior art keywords
feature
document image
feature point
search
invariant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011045513A
Other languages
Japanese (ja)
Other versions
JP2012181765A (en
JP2012181765A5 (en
Inventor
一貴 竹田
一貴 竹田
浩一 黄瀬
浩一 黄瀬
雅一 岩村
雅一 岩村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osaka Prefecture University
Original Assignee
Osaka Prefecture University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osaka Prefecture University filed Critical Osaka Prefecture University
Priority to JP2011045513A priority Critical patent/JP5660574B2/en
Publication of JP2012181765A publication Critical patent/JP2012181765A/en
Publication of JP2012181765A5 publication Critical patent/JP2012181765A5/ja
Application granted granted Critical
Publication of JP5660574B2 publication Critical patent/JP5660574B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Description

この発明は、文書画像データベースの登録方法および検索方法に関する。より詳細には、文書画像から特徴点を抽出し、文書画像と共に文書画像データベースに登録する登録方法および検索方法に係り、特に文書画像の登録ページ数が100 万ページから1,000 万におよぶ大規模な文書画像データベースへの適用に関する。   The present invention relates to a document image database registration method and search method. More specifically, the present invention relates to a registration method and a search method for extracting feature points from a document image and registering them together with the document image in a document image database. The present invention relates to application to a document image database.

近年、携帯電話の分野においてデジタルカメラの付属が一般的となっている。また、それら品質が著しく向上しており、通常のデジタルカメラと比較して遜色ないものとなっている。これにより、一般の利用者が高品質なデジタルカメラを常に携帯するという状況が生じている。そこで、デジタルカメラで撮影された画像を用いた画像検索が注目を集めている。この発明では、画像検索の中でも特に文書画像検索について考える。   In recent years, digital cameras are commonly attached in the field of mobile phones. In addition, the quality is remarkably improved, which is comparable to that of a normal digital camera. As a result, a situation occurs in which a general user always carries a high-quality digital camera. Therefore, image retrieval using an image taken with a digital camera has attracted attention. In the present invention, document image search is considered among image searches.

この明細書で文書画像は、文書あるいは文書を含む画像を指す。
文書画像検索とは、与えられた検索質問(クエリ)に対応する文書画像を、データベースから見つける処理である。その中でも、デジタルカメラを用いた文書画像検索は、デジタルカメラで撮影された文書画像を検索質問とするものである。このような形式の文書画像検索を用いれば、印刷文書を撮影し、撮影された印刷文書を検索質問に用いて検索することでさまざまなサービスへの応用が可能になる。具体的には、学術論文の撮影による参考文献の取得や、関連Web サイトへのアクセス等のサービスが考えられる。
In this specification, a document image refers to a document or an image including a document.
The document image search is a process of finding a document image corresponding to a given search question (query) from a database. Among them, document image search using a digital camera uses a document image taken with a digital camera as a search question. By using a document image search of such a format, it is possible to apply to various services by photographing a printed document and retrieving the photographed printed document using a retrieval question. Specifically, services such as obtaining references by taking academic papers and accessing related websites can be considered.

撮影画像に対応する文書画像をデータベースから検索する手法として、Locally Likely Arrangement Hashing(LLAH)が提案されている(例えば、特許文献1、2および非特許文献1参照)。LLAH とは、例えば文書画像中の単語の重心を特徴点とし、特徴点の配置から特徴量を求め、検索する手法である。LLAH の特徴として、現実的な利用において生じる撮影方向の変化や隠れ、紙面の湾曲などの外乱にロバストであるという点が挙げられる。また、単純な検索の繰り返しによりリアルタイム検索が実現できるほどの高速性を持つ。これは、特徴量計算の計算量が、検索対象の特徴点数N に対してO(N) であることに起因する(例えば、非特許文献2参照)。ここで、O(N) は、問題を解くために必要なおおよその計算量の表記方法であって、O(N) はNが定まったときの計算量がa×N+b(a, bは定数)以下で収まることを表す。これらの性質により、文書への拡張現実(例えば、非特許文献3、4参照)や、カメラペンシステム(例えば、非特許文献5参照)等の応用がなされている。   Locally Likely Arrangement Hashing (LLAH) has been proposed as a technique for retrieving a document image corresponding to a photographed image from a database (see, for example, Patent Documents 1 and 2 and Non-Patent Document 1). LLAH is a method of searching for a feature amount from the feature point arrangement using, for example, the centroid of a word in a document image as a feature point. A characteristic of LLAH is that it is robust against disturbances such as changes in the shooting direction, hiding, and curvature of the paper that occur in practical use. In addition, it is fast enough to realize real-time search by repeating simple search. This is because the calculation amount of the feature amount calculation is O (N) with respect to the number N of feature points to be searched (for example, see Non-Patent Document 2). Here, O (N) is a notation method of the approximate amount of calculation required to solve the problem, and O (N) is the amount of calculation when N is determined as a × N + b (a and b are constants) ) Indicates that it fits below. Due to these properties, applications such as augmented reality (for example, see Non-Patent Documents 3 and 4) and camera pen systems (for example, see Non-Patent Document 5) are applied to documents.

特開2009−32109号公報JP 2009-32109 A 特開2009−70066号公報JP 2009-70066 A

中居友弘、黄瀬浩一、岩村雅一、“デジタルカメラを用いた高速文書画像検索におけるアフィン不変量および相似不変量の利用”、電子情報通信学会技術研究報告、vol.105,no.PRMU-614,pp.25-30,Feb. 2006.Tomohiro Nakai, Koichi Kise, Masakazu Iwamura, “Use of Affine and Similar Invariants in High-speed Document Image Retrieval Using Digital Cameras”, IEICE Technical Report, vol.105, no.PRMU-614, pp.25-30, Feb. 2006. 中居友弘、黄瀬浩一、岩村雅一、“特徴点の局所的配置に基づくデジタルカメラを用いた高速文書画像検索”、電子情報通信学会論文誌D,vol.J89-D,no.9,pp.2045-2054,Sept. 2006.Tomohiro Nakai, Koichi Kise, Masakazu Iwamura, “High-speed document image retrieval using a digital camera based on local arrangement of feature points”, IEICE Transactions D, vol.J89-D, no.9, pp. 2045-2054, Sept. 2006. R.T. Azuma, “A survey of augmented reality,” Presence, vol.6, no.4, pp.355-385, 1997.R.T.Azuma, “A survey of augmented reality,” Presence, vol.6, no.4, pp.355-385, 1997. 中居友弘、黄瀬浩一、岩村雅一、“特徴点の局所的配置に基づくリアルタイム文書画像検索とその拡張現実への応用”、電子情報通信学会技術研究報告、vol.106,no.PRMU-229,pp.41-48,Sept. 2006.Tomohiro Nakai, Koichi Kise, Masakazu Iwamura, “Real-time document image retrieval based on local arrangement of feature points and its application to augmented reality”, IEICE technical report, vol.106, no.PRMU-229, pp.41-48, Sept. 2006. 近野恵、岩田和将、黄瀬浩一、岩村雅一、内田誠一、大町真一郎、“カメラペンシステムにおける射影歪みを考慮した文書画像検索の精度向上法”、画像の認識・理解シンポジウム(MIRU2010)論文集、pp.239-246,July 2010.Megumi Konno, Kazumasa Iwata, Koichi Kise, Masakazu Iwamura, Seiichi Uchida, Shinichiro Omachi, “A Method for Improving Document Image Retrieval Considering Projection Distortion in Camera Pen Systems”, Image Recognition and Understanding Symposium (MIRU2010) , Pp.239-246, July 2010.

一方、LLAH には高い精度とロバスト性を実現するために、大量のメモリを使用するという側面がある。具体的な一例では、10,000 ページの文書画像がデータベースに登録されている場合に約200MB、1,000 万ページの文書画像を登録するためには約150GB のメモリが必要となる。このようなメモリ効率の悪さは、LLAH のスケーラビリティを制限するものである。また、データベースの登録ページ数の増加に伴い、類似した特徴点の配置を持つ文書が登録される可能性が高くなる。これにより、検索精度の低下を招くと考えられる。そのため、大規模化を行うためにはより高い識別性を持つ特徴量が求められる。   On the other hand, LLAH has an aspect of using a large amount of memory in order to achieve high accuracy and robustness. As a specific example, if 10,000 pages of document images are registered in the database, about 200 MB of memory is required, and about 150 GB of memory is required to register 10 million pages of document images. Such poor memory efficiency limits the scalability of LLAH. Further, as the number of registered pages in the database increases, the possibility that documents having similar feature point arrangements are registered increases. This is thought to cause a decrease in search accuracy. Therefore, in order to increase the scale, a feature quantity having higher discriminability is required.

この発明は、以上のような事情を考慮してなされたものであって、文書画像データベースの大規模化に伴って顕在化するLLAH のメモリ効率の問題、および、特徴量の識別性の問題を解決する改善手法を提供する。   The present invention has been made in consideration of the above-described circumstances, and solves the problem of memory efficiency of LLAH and the problem of distinguishability of feature quantities that become apparent as the document image database becomes larger. Provide improvement methods to solve.

この発明は、
(I)コンピュータが、文書画像データベースに登録すべき文書画像から、その文書画像の局所的特徴を表す特徴点を抽出する特徴点抽出ステップと、幾何学的変換に対する不変量を用いた各特徴点の特徴量であって、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とする特徴量計算ステップと、前記文書画像から抽出された各特徴点について、(1)前記文書画像の参照に用いる参照子、(2)その特徴点を他の特徴点と区別する識別子および(3)その特徴点の特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記データ組を前記文書画像と共に前記文書画像データベースに登録する登録ステップとを実行し、前記特徴点抽出ステップは、文書を構成する線の連結成分を決定し、所定面積より小さい連結成分の重心を特徴点として抽出し、抽出された特徴点の数が閾値に満たないとき、各特徴点の近傍にある連結成分の重心をさらに特徴点として抽出して閾値以上の特徴点が得られるように抽出し、前記特徴量計算ステップは、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算することを特徴とする文書画像データベースの登録方法を提供する。
This invention
(I) A feature point extracting step in which a computer extracts a feature point representing a local feature of a document image from a document image to be registered in the document image database, and each feature point using an invariant for geometric transformation The characteristic values of each feature point are determined by a predetermined calculation for a plurality of geometric elements determined by each feature point and its neighboring n (n is a natural number) feature points. (1) for a feature quantity calculating step in which a plurality of invariants are combined, and a feature quantity is a vector whose dimension is the calculated invariant, and each feature point extracted from the document image A reference set used for referring to the document image, (2) an identifier for distinguishing the feature point from other feature points, and (3) a data set in which the features (1) to (3) of the feature point are associated with each other. Generate the data A registration step of registering a data set together with the document image in the document image database, wherein the feature point extraction step determines a connected component of lines constituting the document, and features a centroid of the connected component smaller than a predetermined area. When the number of extracted feature points is less than the threshold value, the centroid of the connected components in the vicinity of each feature point is further extracted as a feature point so that feature points above the threshold value can be obtained. In the document image database, the feature amount calculating step calculates each invariant using a geometric element that does not overlap with a geometric element used for one invariant as another invariant. Provide a method.

さらに、この発明は、
(II)コンピュータが、検索質問として取り込まれた文書画像から、その文書画像の局所的特徴を表す複数のクエリ特徴点を抽出する特徴点抽出ステップと、各クエリ特徴点に係るクエリ特徴量を計算する特徴量計算ステップと、前記登録方法により文書画像が登録された文書画像データベースを参照し、その文書画像データベースに登録されているデータ組の中から、各クエリ特徴点と同一もしくは類似の特徴量を有するデータ組を探索し、見出されたデータ組の参照子を得る個別探索ステップと、各クエリ特徴点について探索を行い、得られた各文書識別子を統計的に処理し、検索結果として推奨すべき文書画像を特定する投票ステップとを実行し、前記特徴点抽出ステップは、文書を構成する線の連結成分を決定し、各連結成分の重心を特徴点として抽出し、前記特徴量計算ステッ

プは、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、かつ、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とすることを特徴とする文書画像の検索方法を提供する。
Furthermore, this invention
(II) A feature point extraction step in which a computer extracts a plurality of query feature points representing local features of a document image from a document image taken as a search question, and calculates a query feature amount related to each query feature point A feature quantity calculation step, and a feature quantity that is the same as or similar to each query feature point from a data set registered in the document image database with reference to the document image database in which the document image is registered by the registration method. Search for a data set that has an individual search step to obtain a reference for the found data set, search for each query feature point, statistically process each obtained document identifier, and recommend it as a search result A voting step for specifying a document image to be determined, and the feature point extracting step determines a connected component of lines constituting the document and specifies a center of gravity of each connected component. Extracted as points, the feature amount calculation step

Is obtained by calculating each characteristic value by a predetermined operation for a plurality of geometric elements determined by each feature point and its neighboring n (n is a natural number) feature points, and combining those characteristic values Calculate multiple invariants and calculate each invariant using a geometric element that does not overlap with the geometric element used for one invariant for the other invariant. Provided is a document image search method characterized in that a dimension vector is used as the feature amount.

この発明において、従来のLLAH のメモリ使用量を削減する基本的なアイディアは、データベースに保存する特徴点をサンプリングするというものである。また、特徴量の識別性を向上させるためには、次元数を増加させる。ただし、単純に次元数を増加させると、特徴量の安定性を損なうことになる(前述の、非特許文献1参照)。そこで、特徴量の次元数を増加させると同時に冗長性のある次元を削除する。これにより、情報の損失を防ぎつつ、特徴量の安定性を向上させ高い検索精度を実現できる。   In the present invention, the basic idea for reducing the memory usage of the conventional LLAH is to sample feature points stored in the database. In addition, the number of dimensions is increased in order to improve the distinguishability of the feature amount. However, if the number of dimensions is simply increased, the stability of the feature amount is impaired (see Non-Patent Document 1 described above). Thus, the number of dimensions of the feature quantity is increased and at the same time redundant dimensions are deleted. As a result, it is possible to improve the stability of the feature quantity and realize high search accuracy while preventing loss of information.

また、この発明は、
(III)コンピュータが、文書画像データベースに登録すべき文書画像から、その文書画像の局所的特徴を表す特徴点を抽出する特徴点抽出ステップと、幾何学的変換に対する不変量を用いた各特徴点の特徴量であって、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とする特徴量計算ステップと、前記文書画像から抽出された各特徴点について、(1)前記文書画像の参照に用いる参照子、(2)その特徴点を他の特徴点と区別する識別子および(3)その特徴点の特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記データ組を前記文書画像と共に前記文書画像データベースに登録する登録ステップとを実行し、前記特徴点抽出ステップは、文書を構成する線の連結成分を決定し、所定面積より小さい連結成分の重心を特徴点として抽出し、抽出された特徴点の数が閾値に満たないとき、各特徴点の近傍にある連結成分の重心をさらに特徴点として抽出して閾値以上の特徴点が得られるように抽出する文書画像データベースの登録方法を提供する。
In addition, this invention
(III) A feature point extracting step in which a computer extracts a feature point representing a local feature of a document image from a document image to be registered in the document image database, and each feature point using an invariant for geometric transformation The characteristic values of each feature point are determined by a predetermined calculation for a plurality of geometric elements determined by each feature point and its neighboring n (n is a natural number) feature points. (1) for a feature quantity calculating step in which a plurality of invariants are combined, and a feature quantity is a vector whose dimension is the calculated invariant, and each feature point extracted from the document image A reference set used for referring to the document image, (2) an identifier for distinguishing the feature point from other feature points, and (3) a data set in which the features (1) to (3) of the feature point are associated with each other. Generate the data A registration step of registering a data set together with the document image in the document image database, wherein the feature point extraction step determines a connected component of lines constituting the document, and features a centroid of the connected component smaller than a predetermined area. When the number of extracted feature points is less than the threshold value, the centroid of the connected component in the vicinity of each feature point is further extracted as the feature point so that a feature point equal to or higher than the threshold value can be obtained. A document image database registration method is provided.

さらに、この発明は、
(IV)コンピュータが、検索質問として取り込まれた文書画像から、その文書画像の局所的特徴を表す複数のクエリ特徴点を抽出する特徴点抽出ステップと、各クエリ特徴点に係るクエリ特徴量を計算する特徴量計算ステップと、前記登録方法により文書画像が登録された文書画像データベースを参照し、その文書画像データベースに登録されているデータ組の中から、各クエリ特徴点と同一もしくは類似の特徴量を有するデータ組を探索し、見出されたデータ組の参照子を得る個別探索ステップと、各クエリ特徴点について探索を行い、得られた各文書識別子を統計的に処理し、検索結果として推奨すべき文書画像を特定する投票ステップとを実行し、前記特徴点抽出ステップは、文書を構成する線の連結成分を決定し、各連結成分の重心を特徴点として抽出し、前記特徴量計算ステップは、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とすることを特徴とする文書画像の検索方法を提供する。
Furthermore, this invention
(IV) A feature point extraction step in which a computer extracts a plurality of query feature points representing local features of a document image from a document image taken as a search question, and calculates a query feature amount related to each query feature point A feature quantity calculation step, and a feature quantity that is the same as or similar to each query feature point from a data set registered in the document image database with reference to the document image database in which the document image is registered by the registration method. Search for a data set that has an individual search step to obtain a reference for the found data set, search for each query feature point, statistically process each obtained document identifier, and recommend it as a search result and executes the Tohyo Suteppu identifying the Subeki Bunsho Gazo, the feature point extraction Suteppu is to Kettei the Renketsu Seibun of lines that constituting the document, the center of gravity of Kaku Renketsu Seibun The feature amount calculating step extracts each characteristic value by performing a predetermined operation on a plurality of geometric elements determined by each feature point and n feature points in the vicinity (n is a natural number). There is provided a document image search method characterized in that a plurality of invariants obtained by combining these characteristic values are calculated, and a vector having each dimension of the calculated invariants is used as the feature amount.

検索精度よりもメモリ量の削減を優先させる必要がある場合は、特徴量の次元数を増加させない代わりに冗長性のある次元を削減しない態様も考えられる。   When it is necessary to prioritize the reduction of the memory amount over the search accuracy, there may be a mode in which the redundant dimension is not reduced instead of increasing the number of feature quantity dimensions.

前記(I)および(III)の登録方法において、前記特徴点抽出ステップは所定面積より小さい複数の連結成分の重心を特徴点として抽出し、抽出された特徴点の数が閾値に満たないとき、各特徴点の近傍にある連結成分の重心をさらに特徴点として抽出して閾値以上の特徴点が得られるように抽出するので、すべての連結成分の重心を特徴点とする場合に比べて抽出される特徴点の数が少なくなり、必要なメモリ量を節約できる。   In the registration methods of (I) and (III), the feature point extraction step extracts the centroids of a plurality of connected components smaller than a predetermined area as feature points, and when the number of extracted feature points is less than a threshold value, The centroid of the connected components in the vicinity of each feature point is further extracted as a feature point so that feature points above the threshold can be obtained, so it is extracted compared to the case where the centroid of all connected components is used as the feature point. The number of feature points to be reduced is reduced, and the required amount of memory can be saved.

さらに、前記(I)の登録方法において、前記特徴量計算ステップは、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算するので、それらの不変量を組み合わせてなる特徴量は、同一の特性値が異なる特徴量の計算に用いられるといった不変量間の関連性、即ち、一種の冗長性がない。よって、各特徴点は、高い識別性を有しつつ前記冗長性が排除された特徴量で表される。換言すれば、各特徴点は、射影歪み、ノイズおよび/または解像度の違い等による誤差の影響が抑制され安定した特徴量で表される。
この発明によれば、登録ページ数が100 万ページから1,000 万におよぶ大規模な文書画像データベースへの適用が可能になる。
Further, in the registration method of (I), the feature amount calculating step calculates each invariant using a geometric element that does not overlap with a geometric element used for one invariant as another invariant. Therefore, the feature quantity formed by combining these invariants does not have the relationship between the invariants that the same characteristic value is used for calculating different feature quantities, that is, there is no kind of redundancy. Therefore, each feature point is represented by a feature amount having high discrimination and eliminating the redundancy. In other words, each feature point is represented by a stable feature amount in which the influence of errors due to projection distortion, noise, and / or a difference in resolution is suppressed.
According to the present invention, it is possible to apply to a large-scale document image database in which the number of registered pages ranges from 1 million to 10 million.

また、前記(II)および(IV)の検索方法は、前述の登録方法により作成される文書画像データベースに用いる検索方法を提供するので、登録ページ数が100 万ページから1,000 万におよぶ大規模な文書画像データベースの検索が可能になる。   The search methods (II) and (IV) provide a search method used for the document image database created by the registration method described above, so that the number of registered pages ranges from 1 million to 10 million. A document image database can be searched.

文書画像の局所的特徴とは、文書画像中の一部の領域に記載された文字、単語あるいは画像の幾何学的な特徴をいう。実施形態では、この発明では単語に対応する領域が示す幾何学的な特徴を指すが、必ずしもこれに限定されるものではない。   A local feature of a document image refers to a geometric feature of a character, word, or image described in a partial area in the document image. In the embodiment, the present invention refers to a geometric feature indicated by a region corresponding to a word, but is not necessarily limited thereto.

幾何学的変換は、文書画像を回転させ、並進させ、拡大縮小し、せん断変形させ、および/または扇形変形させる変換である。回転及び並進を含むユークリッド変換、それに拡大縮小を加えた相似変換、さらにせん断変形を加えたアフィン変換、それに仰木が多辺形を加えた射影変換がある(例えば、佐藤淳著、「コンピュータビジョン−視覚の幾何学−」、第1版、株式会社コロナ社、2003 年7 月30 日、p.42−65参照)。   A geometric transformation is a transformation that rotates, translates, scales, shears, and / or fans out a document image. There is Euclidean transformation including rotation and translation, similarity transformation with scaling, affine transformation with shear deformation, and projection transformation with polygons added to the back (see, for example, “Computer Vision” Visual geometry-", 1st edition, Corona, Inc., July 30, 2003, p.42-65).

不変量とは、幾何学的変換を通じて変化しない値であり、幾何学的変換の種類に応じた不変量が存在する。例えば、図形の面積はユークリッド変換に対する不変量の例である。辺の長さの比は、相似変換に対する不変量の例である。後述するように、図形の面積比はアフィン変換に対する不変量(アフィン不変量)の例である。また、複比は射影変換に対する不変量(射影不変量)の例である。図形の面積が小さければ、前述の面積比は近似的に射影不変量として扱える。   An invariant is a value that does not change through geometric transformation, and there is an invariant according to the type of geometric transformation. For example, the area of a figure is an example of an invariant for Euclidean transformation. The ratio of side lengths is an example of an invariant for similarity transformation. As will be described later, the area ratio of a figure is an example of an invariant (affine invariant) for affine transformation. The cross ratio is an example of an invariant (projection invariant) for the projective transformation. If the area of the figure is small, the above-mentioned area ratio can be treated approximately as a projection invariant.

この発明において、幾何学的要素から所定の演算により求まる特性値は、不変量を構成する要素をいう。具体的には、前述の不変量に係る図形の面積および辺の長さが特性値に該当する。   In the present invention, a characteristic value obtained from a geometric element by a predetermined calculation refers to an element constituting an invariant. Specifically, the area of the figure and the length of the side relating to the invariant correspond to the characteristic values.

また、連結成分は、単語の文字を構成する線が連結した成分、または、その線を所定量ぼかしたときに連結した成分をいう。連結成分は、画像の中にあって互いに繋がっている画素の集まりである。なお、後述する実施形態ではぼかし処理を行って解像度を下げたときの連結成分を採用している。ぼかし処理の量は、分かち書きされる英語のような文書では一つの連結成分が単語に対応する程度に設定すればよい。分かち書きされない日本語のような文書では、一つの連結成分が、例えば漢字を構成する「へん」や「つくり」に対応する程度に設定すればよい。   The connected component is a component in which lines constituting the characters of the word are connected, or a component connected when the line is blurred by a predetermined amount. A connected component is a collection of pixels in an image that are connected to each other. In the embodiment described later, a connected component when the resolution is lowered by performing the blurring process is employed. The amount of blurring processing may be set to such an extent that one connected component corresponds to a word in a document such as English to be written separately. In a document such as Japanese that is not divided, one connected component may be set to an extent corresponding to, for example, “hen” or “making” that constitutes a kanji.

文書識別子の統計的処理とは、選択肢として挙げられた多数の文書識別子の中から妥当な文書識別子を選択する処理である。具体的には、投票処理が挙げられる。   The statistical processing of the document identifier is processing for selecting an appropriate document identifier from among a large number of document identifiers listed as options. Specifically, a voting process can be mentioned.

特徴点の識別性とは、一の特徴点を他と区別できるようにする、その特徴点の特性をいう。また、特徴点の安定性とは、特徴点に係る特徴量が歪み、ノイズおよび/または解像度の違い等による誤差の影響を受けにくい性質をいう。   The distinguishability of a feature point is a characteristic of the feature point that makes it possible to distinguish one feature point from another. The stability of feature points refers to the property that feature quantities related to feature points are less susceptible to errors due to distortion, noise, and / or resolution differences.

後述するように、10,000 ページの文書画像を登録したデータベースを用いて実験した結果、特徴点のサンプリングにより、メモリ使用量が最大で約70% 削減されることを確認した。また1,000 万ページデータベースを用いた実験では、検索精度99.4% 、処理時間38ms で検索可能であることを確認した。   As will be described later, as a result of experiments using a database in which 10,000 pages of document images were registered, it was confirmed that the memory usage could be reduced by about 70% by sampling feature points. In an experiment using a 10 million page database, it was confirmed that search was possible with a search accuracy of 99.4% and a processing time of 38 ms.

この発明基礎となる従来のLLAH の処理を示す説明図である。It is explanatory drawing which shows the process of the conventional LLAH used as this invention foundation. この発明基礎となる従来のLLAH で用いるハッシュ表の構成を示す説明図である。It is explanatory drawing which shows the structure of the hash table used by conventional LLAH used as the foundation of this invention. この発明の改良されたLLAH で用いる特徴点のサンプリングを示す説明図である。It is explanatory drawing which shows the sampling of the feature point used by improved LLAH of this invention. この発明の改良されたLLAH で用いる特徴量の冗長な次元の削除について説明する説明図である。It is explanatory drawing explaining deletion of the redundant dimension of the feature-value used by improved LLAH of this invention. この発明の改良されたLLAH の効果実証実験において、データベースに登録された文書画像の一例を示す説明図である。It is explanatory drawing which shows an example of the document image registered into the database in the effect verification experiment of the improved LLAH of this invention. この発明の改良されたLLAH の効果実証実験において、検索質問の一例を示す説明図である。FIG. 6 is an explanatory diagram showing an example of a search question in the LLAH effect demonstration experiment of the present invention. この発明の改良されたLLAH の効果実証実験の結果として、登録ページ数と必要メモリ量の関係を示すグラフである。It is a graph which shows the relationship between the number of registration pages, and a required memory amount as a result of the verification experiment of the improved LLAH of this invention. この発明の改良されたLLAH の効果実証実験の結果として、登録ページ数と検索精度の関係を示すグラフである。It is a graph which shows the relationship between the number of registration pages and search precision as a result of the verification experiment of the improved LLAH of this invention. この発明の改良されたLLAH の効果実証実験において、検索に失敗した文書画像の例を示す説明図である。It is explanatory drawing which shows the example of the document image which failed in the search in the verification experiment of the effect of improved LLAH of this invention. この発明の改良されたLLAH の効果実証実験の結果として、登録ページ数と処理時間の関係を示すグラフである。It is a graph which shows the relationship between the number of registration pages, and processing time as a result of the effect verification experiment of the improved LLAH of this invention. この発明の改良されたLLAH の効果実証実験の結果として、登録ページ数と平均リスト長の関係を示すグラフである。It is a graph which shows the relationship between the number of registration pages, and average list length as a result of the effect verification experiment of the improved LLAH of this invention. この発明の改良されたLLAH の効果実証実験において、部分撮影の耐性を調べるために用いた検索質問の第一の例を示す説明図である。It is explanatory drawing which shows the 1st example of the search question used in order to investigate the tolerance of partial imaging | photography in the effect verification experiment of the improved LLAH of this invention. この発明の改良されたLLAH の効果実証実験において、部分撮影の耐性を調べるために用いた検索質問の第一の例を示す説明図である。It is explanatory drawing which shows the 1st example of the search question used in order to investigate the tolerance of partial imaging | photography in the effect verification experiment of the improved LLAH of this invention. この発明の改良されたLLAH の効果実証実験において、部分撮影の耐性を調べるために用いた検索質問の第一の例を示す説明図である。It is explanatory drawing which shows the 1st example of the search question used in order to investigate the tolerance of partial imaging | photography in the effect verification experiment of the improved LLAH of this invention. この発明の改良されたLLAH の効果実証実験の結果として、撮影範囲による検索精度の違いを示すグラフである。It is a graph which shows the difference in the search precision by the imaging | photography range as a result of the verification experiment of the improved LLAH of this invention. この発明の改良されたLLAH の効果実証実験において、部分撮影での検索に失敗した文書画像の例を示す説明図である。It is explanatory drawing which shows the example of the document image which failed in the search by partial imaging | photography in the effect verification experiment of the improved LLAH of this invention. この発明の改良されたLLAH の効果実証実験において、検索に失敗した特徴点の例を示す説明図である。(a)は、「”」、(b)は「.」の失敗例である。It is explanatory drawing which shows the example of the feature point which failed in the search in the effect verification experiment of the improved LLAH of this invention. (A) is a failure example of “” ”and (b) is a failure example of“. ”. この発明の改良されたLLAH の効果実証実験において、特徴量選択の有無による平均リスト長の違いを示すグラフである。6 is a graph showing a difference in average list length depending on whether or not a feature amount is selected in the LLAH effect demonstration experiment of the present invention.

以下、この発明の好ましい態様について説明する。
この発明の登録方法において、前記登録ステップは、(1)前記参照子、(2)前記識別子および(3)前記特徴量またはその特徴量を簡略化した簡易特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記特徴量に応じて各特徴点を分類すべく予め定義された計算を行ってその特徴点が属する類のインデックスを得、インデックスに応じた類に前記データ組を分類し、前記文書画像と共に前記文書画像データベースに登録してもよい。このようにすれば、前記データ組が分類されて登録されるので、検索は何れか一つの類に登録された特徴点に探索の対象が絞り込まれ、探索に要する処理時間を短縮できる。
Hereinafter, preferred embodiments of the present invention will be described.
In the registration method of the present invention, the registration step includes (1) the reference, (2) the identifier, and (3) the feature quantity or a simplified feature quantity obtained by simplifying the feature quantity (1) to (3 ) Is generated, and a predefined calculation is performed to classify each feature point according to the feature amount to obtain an index of a class to which the feature point belongs. Data sets may be classified and registered in the document image database together with the document images. In this way, since the data sets are classified and registered, the search target is narrowed down to the feature points registered in any one of the classes, and the processing time required for the search can be shortened.

また、前記特徴量計算ステップは、3つの特徴点を頂点とする三角形を前記幾何学的要素としてその三角形の面積を前記特性値とし、4つ以上の特徴点の何れか3点を頂点とする三角形の組み合わせのうち一辺を共有する2つの三角形の面積比を一つの不変量としてもよい。このようにすれば、アフィン不変量としての図形の面積比を最も少ない特徴点から得ることができる。また、特徴点を頂点とする三角形の面積は、それらの特徴点を頂点とする四角形以上の図形に比べて小さいので、射影不変量としてより優れた近似特性を有している。   In the feature quantity calculating step, a triangle having three feature points as vertices is used as the geometric element, the area of the triangle is used as the characteristic value, and any three of four or more feature points are used as vertices. An area ratio of two triangles sharing one side in a combination of triangles may be set as one invariant. In this way, the figure area ratio as an affine invariant can be obtained from the smallest feature point. Further, since the area of a triangle having a feature point as a vertex is smaller than a quadrilateral or more figure having those feature points as vertices, it has approximate characteristics more excellent as a projection invariant.

この発明の検索方法において、インデックスに応じた類にデータ組が分類されて登録された文書画像データベースの検索方法については、前記特徴点抽出ステップは、文書を構成する線の連結成分を決定し、各連結成分の重心を特徴点として抽出し、前記特徴量計算ステップは、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、かつ、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とし、前記個別探索ステップは、前記登録方法に対応する計算によって各クエリ特徴点のインデックスを得、そのインデックスに係る類として登録されたデータ組を参照し、そのデータ組が簡易特徴量を有する場合は前記クエリ特徴点に係る簡易特徴量を求めたうえで同一もしくは最も類似の簡易特徴量を有するデータ組に係る参照子を得、登録されたデータ組が特徴量を有する場合は同一もしくは最も類似の特徴量を有するデータ組に係る参照子を得るようにしてもよい。このようにすれば、インデックスに応じた類にデータ組が分類されて登録された文書画像データベースについても検索方法が提供される。データ組が分類されているので、短時間に検索を行うことができる。 In the search method of the present invention, for the search method of the document image database in which the data set is classified and registered in a class according to the index, the feature point extraction step determines a connected component of lines constituting the document , The center of gravity of each connected component is extracted as a feature point, and the feature amount calculation step performs a predetermined operation on a plurality of geometric elements determined by each feature point and n feature points in the vicinity (n is a natural number). Each characteristic value is obtained by calculating a plurality of invariants by combining these characteristic values, and a geometric element that does not overlap with the geometric element used for one invariant is changed to another invariant. Each invariant is used to calculate a vector having the calculated invariant as each dimension as the feature quantity, and the individual search step obtains an index of each query feature point by calculation corresponding to the registration method. , Referring to a data set registered as a class related to the index, and if the data set has a simple feature quantity, the simple feature quantity related to the query feature point is obtained and then the same or most similar simple feature quantity is obtained. It is also possible to obtain a reference related to a data set having the same or the most similar feature quantity when the registered data set has a feature quantity. In this way, a search method is also provided for a document image database in which data sets are classified and registered according to the index. Since the data set is classified, the search can be performed in a short time.

また、この発明の検索方法において、前記特徴量計算ステップは、3つの特徴点を頂点とする三角形を前記幾何学的要素としてその三角形の面積を前記特性値とし、4つ以上の特徴点の何れか3点を頂点とする三角形の組み合わせのうち一辺を共有する2つの三角形の面積比を一つの不変量としてもよい。
この発明の好ましい態様は、ここで示した複数の態様のうち何れかを組み合わせたものも含む。
In the search method of the present invention, the feature amount calculating step includes a triangle having three feature points as vertices as the geometric element, an area of the triangle as the characteristic value, and any of four or more feature points. Alternatively, the area ratio of two triangles sharing one side in a combination of triangles having three vertices as vertices may be set as one invariant.
Preferred embodiments of the present invention include combinations of any of the plurality of embodiments shown here.

以下、図面を用いてこの発明をさらに詳述する。なお、以下の説明は、すべての点で例示であって、この発明を限定するものと解されるべきではない。
この発明の理解を容易にするため、まず、この発明の基礎となる従来のLLAH についてここで簡単に説明しておく。
Hereinafter, the present invention will be described in more detail with reference to the drawings. In addition, the following description is an illustration in all the points, Comprising: It should not be interpreted as limiting this invention.
In order to facilitate understanding of the present invention, a conventional LLAH that is the basis of the present invention will be briefly described here.

≪従来のLLAH による文書画像検索≫
1.処理の概要
図1は、この発明の基礎となる従来のLLAH による文書画像検索の処理の概要を示す説明図である。図1に示すように、従来のLLAH は、文書画像検索の環境を構築する段階であって、登録すべき文書画像が与えられたとき、その文書画像から特徴点を抽出して文書画像データベースに登録する段階に適用される。さらに、従来のLLAH は、検索質問としての文書画像が与えられたとき、検索質問から特徴点を抽出して文書画像データベースの中からその検索質問に対応する文書画像を検索する段階において適用される。登録と検索は何れもコンピュータによって処理が実行される。なお、この明細書でコンピュータは、CPUあるいはマイクロコンピュータ等、プログラムに従って処理を行う装置の総称として用いる。また、処理を実行するコンピュータは、単独のCPU構成に限らず、いわゆるクラウド・コンピューティングやグリッド・コンピューティングなど複数のCPUによる構成を含む。さらに、前記検索に係る処理を実行するコンピュータは、前記登録に係る処理を実行するコンピュータと同一のものでなくてもよい。
≪Document image search by conventional LLAH≫
1. Outline of Processing FIG. 1 is an explanatory diagram showing an outline of processing of document image retrieval by conventional LLAH which is the basis of the present invention. As shown in FIG. 1, the conventional LLAH is a stage for building a document image search environment. When a document image to be registered is given, feature points are extracted from the document image and stored in a document image database. Applies to the registration stage. Furthermore, when a document image as a search question is given, the conventional LLAH is applied at the stage of extracting feature points from the search question and searching the document image corresponding to the search question from the document image database. . Both registration and search are executed by a computer. In this specification, a computer is used as a general term for devices that perform processing according to a program, such as a CPU or a microcomputer. The computer that executes the process is not limited to a single CPU configuration, but includes a configuration of a plurality of CPUs such as so-called cloud computing and grid computing. Furthermore, the computer that executes the process related to the search may not be the same as the computer that executes the process related to the registration.

前記登録と前記検索において、コンピュータは共通の特徴点抽出処理を実行する。特徴点抽出処理において、コンピュータは、文書画像から複数の特徴点を抽出して特徴点の集合でその文書画像を表す。さらに、コンピュータは、抽出された特徴点を用いて登録処理または検索処理を実行する。即ち、登録の段階では登録処理を実行し、検索の段階では検索処理を実行する。登録処理と検索処理は、共通の特徴量計算処理を含む。   In the registration and the search, the computer executes a common feature point extraction process. In the feature point extraction process, the computer extracts a plurality of feature points from the document image and represents the document image as a set of feature points. Furthermore, the computer executes registration processing or search processing using the extracted feature points. That is, registration processing is executed at the registration stage, and search processing is executed at the search stage. The registration process and the search process include a common feature amount calculation process.

登録処理において、コンピュータは、登録すべき文書画像から抽出された各特徴点につき、特徴量をそれぞれ算出する。そして、前記コンピュータは、各特徴点から算出された特徴量およびその特徴点が抽出された文書画像への参照符号をその特徴点と関連づけて文書画像データベースに登録する。つまり、前記登録処理は、特徴量によって文書画像が索引付けされるようにして文書画像を文書画像データベースに登録する。   In the registration process, the computer calculates a feature amount for each feature point extracted from the document image to be registered. Then, the computer registers the feature amount calculated from each feature point and the reference code for the document image from which the feature point is extracted in the document image database in association with the feature point. That is, the registration process registers the document image in the document image database so that the document image is indexed by the feature amount.

検索処理において、コンピュータは、与えられた検索質問画像から抽出された各特徴点につき、登録処理と同様に特徴量を算出する。そして、前記コンピュータは、各特徴点から算出された特徴量を用いて文書画像データベースにアクセスする。即ち、検索質問画像の各特徴点と似た特徴点を含む文書画像が登録されていればその文書画像への参照符号を得る。検索質問からは通常多数の特徴点が抽出される。よって、それらの特徴点を票の単位とする投票処理を行って検索質問に対応する文書画像への参照符号を得る。
投票処理は、一般に、得られた証拠に基づいて選択肢の何れかに得点を与え、すべての証拠を集計した結果に基づいて選択肢を選択する処理をいう。通常は、最高得票数を獲得した選択肢を選択するが、得票数だけでなく、所定の得票率を上回ったか、下位の選択肢との得票差が所定以上あるか等統計的な観点から妥当性を評価することによって、複数の選択肢を選択する場合や何も選択しないこともある。以下、処理の詳細を説明する。
In the search process, the computer calculates a feature amount for each feature point extracted from the given search query image, as in the registration process. The computer accesses the document image database using the feature amount calculated from each feature point. That is, if a document image including a feature point similar to each feature point of the search query image is registered, a reference code for the document image is obtained. A large number of feature points are usually extracted from the search query. Therefore, a voting process using these feature points as a vote unit is performed to obtain a reference code for the document image corresponding to the search question.
The voting process generally refers to a process of assigning a score to any of the options based on the obtained evidence and selecting the option based on the result of totaling all the evidence. Normally, the option with the highest number of votes is selected, but not only from the number of votes, but also from the statistical point of view, such as whether the number of votes exceeds the specified number of votes, or whether there is a difference in the number of votes from lower options By evaluating, a plurality of options may be selected or nothing may be selected. Details of the processing will be described below.

2.特徴点抽出処理
従来のLLAH において、コンピュータは、特徴点の配置に基づいて特徴量を算出し、算出された特徴量を用いて文書画像のマッチングを行う。従って、特徴点抽出処理では、与えられた文書画像に射影歪みやノイズが生じていたり、低解像度であったりしても同一の特徴点を抽出する必要がある。一つの手法は、文書画像の文書を構成する単語が占める領域(以下、単語領域)に着目し、単語領域の重心を特徴点として用いるものである。また、日本語のような、分かち書きされない文書については、単語領域に代えて例えば漢字の「へん」や「つくり」を構成する連結成分に着目し、連結成分の重心と面積とを求め、面積比と面積順位を用いて重心(特徴点)に係る特徴量を計算する手法が提案されている(例えば、特許文献1の明細書段落0006、0043、0046参照)。単語領域は、文字を構成する線をぼかして得られる連結成分といえる。以下、連結成分の例としての単語領域について説明する。
2. Feature Point Extraction Processing In conventional LLAH, a computer calculates feature amounts based on the arrangement of feature points, and matches document images using the calculated feature amounts. Therefore, in the feature point extraction processing, it is necessary to extract the same feature point even if a given document image has projection distortion or noise or has a low resolution. One method focuses on an area occupied by words constituting the document of the document image (hereinafter, word area) and uses the centroid of the word area as a feature point. In addition, for documents that are not separated, such as Japanese, instead of the word area, focus on the connected components that make up the kanji characters "hen" and "make". And a technique for calculating a feature amount related to the center of gravity (feature point) using the area ranking has been proposed (see, for example, paragraphs 0006, 0043, and 0046 of Patent Document 1). It can be said that the word region is a connected component obtained by blurring the lines constituting the characters. Hereinafter, word regions as examples of connected components will be described.

単語領域の重心を特徴点として抽出する手順を以下に示す。まず、与えられた文書画像を適応二値化して二値画像を得る。次に、二値画像をガウシアンフィルタでぼかし、再度適応二値化を行うと、単語ごとに連結された画像が得られる。最後に連結成分の重心を計算して特徴点とする。   The procedure for extracting the centroid of the word region as a feature point is shown below. First, a given document image is adaptively binarized to obtain a binary image. Next, when the binary image is blurred with a Gaussian filter and adaptive binarization is performed again, an image concatenated for each word is obtained. Finally, the centroid of the connected component is calculated as a feature point.

3.特徴量計算
特徴量とは、文書画像の特徴点を表現する値であり、特徴点のマッチングは特徴量に基づいて行われる。正確な検索のためには、ロバストな特徴量が必要である。また、与えられた文書画像がカメラで撮影されたものである場合、文書画像とカメラの位置関係により、通常は射影歪みが含まれる。そのため、射影歪みに対して不変となる幾何学的不変量を特徴量として用いる必要がある。そこで、ある特徴点S0 に対応する特徴量として、点S0 を含む近傍の4 点ABCD から、以下の式で求められる値を計算し、特徴量として用いる。
3. Feature Quantity Calculation A feature quantity is a value that represents a feature point of a document image, and matching of feature points is performed based on the feature quantity. A robust feature is required for accurate search. When a given document image is taken by a camera, projection distortion is usually included due to the positional relationship between the document image and the camera. Therefore, it is necessary to use a geometric invariant that is invariant to the projection distortion as the feature quantity. Therefore, as a feature amount corresponding to a certain feature point S0, a value obtained by the following expression is calculated from four neighboring points ABCD including the point S0 and used as the feature amount.

ここで、P(A, B, C) は頂点ABC からなる三角形の面積であり、この2つの三角形は必ず1辺を共有する。2つの三角形の面積比である式(1)はアフィン不変量である。さらに、三角形の面積比は、面積の小さい局所領域では射影不変量に近似できる値である。LLAH ではアフィン不変量を用いることで、射影歪みに対するロバスト性を実現している。   Here, P (A, B, C) is the area of a triangle composed of vertices ABC, and these two triangles always share one side. Equation (1), which is the area ratio of two triangles, is an affine invariant. Furthermore, the area ratio of the triangle is a value that can be approximated to a projection invariant in a local area having a small area. LLAH uses affine invariants to achieve robustness against projection distortion.

射影歪のない状態で文書画像が文書画像データベースに登録されており、その文書画像に対応する検索質問を用いて検索を行う場合、検索質問が射影歪みを含んでいるとする。その場合、検索質問から抽出される特徴点S0 の近傍4点が、登録された文書画像から抽出される特徴点の近傍4点と異なることが起こりえる。射影歪みの影響により、点S0 とその近傍の特徴点との距離関係が元の文書画像と異なってしまう場合がそれである。そうであっても、近傍n 点のうちm 点(m およびn は自然数で4≦m <n )までは共通のものが得られる可能性が高いと考えられることから、そのすべての組合せnCm 通りを調べることにする。すなわち、特徴点1つあたりnCm 個の特徴量を計算する。このm 点からアフィン不変量の計算に必要な4点を選ぶ組合せはmC4 通りある。すべての組合せからアフィン不変量を求め、それらmC4個の数値の列(r(0), r(1), …, r(mC4) )を特徴量とする。 It is assumed that a document image is registered in the document image database in a state where there is no projection distortion, and when a search is performed using a search question corresponding to the document image, the search question includes projection distortion. In that case, the four neighboring points of the feature point S0 extracted from the search question may differ from the four neighboring points of the feature point extracted from the registered document image. This is the case when the distance relationship between the point S0 and the neighboring feature points differs from the original document image due to the influence of the projection distortion. Even so, since the distance from the point m of the neighboring n points (m and n are 4 ≦ m a natural number <n) is considered to be likely be common to obtain, all of the combinations n C Let's examine m streets. That is, n C m feature values are calculated for each feature point. The combination is ways m C 4 to select the four points necessary for the calculation of the affine invariant from the point m. An affine invariant is obtained from all combinations, and a sequence of m C 4 numerical values (r (0) , r (1) , ..., r (mC4) ) is used as a feature quantity.

なお、近傍m 点から4点を選ぶ際、どの点からどの順番に4点を選んでアフィン不変量の計算を行うかという規則を定め、不変量の計算量を削減する手法も提案されている(例えば、特許文献2の明細書段落0049参照)。処理時間を短縮するためである。   In addition, when four points are selected from the neighboring m points, a method has been proposed in which a rule for selecting the four points from which point and in which order to calculate the affine invariant is determined, and the amount of invariant calculation is reduced. (For example, refer to paragraph 0049 of the specification of Patent Document 2). This is to shorten the processing time.

また、前述のようにして得られた列(r(0), r(1), …, r(mC4) )の特徴量に、特徴点抽出の過程で得られる連結成分の面積から得られる特徴量をさらに付加する。まず、アフィン不変量の計算に用いた近傍m 点の連結成分の面積を求める。次に、隣り合う連結成分の組に番号を与え、その連結成分の面積比を計算する。つまり、全部でm 個の連結成分の組が作られる。そして、面積比の大きさの順番で連結成分の組の番号を並べる。このm 個の数値の列を、既に得られたmC4個の列(r(0), r(1), …, r(mC4) )に追加する。したがって、特徴点1つあたりにつきnCm 個の特徴量が得られ、各特徴量は、(mC4 +m )個の数値の列で表される。即ち、各特徴量は、前述の数値列を要素とする(mC4 +m )次元のベクトル(特徴ベクトル)として表される。 In addition, the feature obtained from the sequence (r (0) , r (1) , ..., r (mC4) ) obtained as described above is added to the feature obtained from the area of the connected component obtained in the feature point extraction process. Add more quantity. First, the area of the connected components at the neighborhood m points used in the calculation of the affine invariant is obtained. Next, a number is assigned to a set of adjacent connected components, and the area ratio of the connected components is calculated. That is, a total of m connected component sets are created. Then, the numbers of sets of connected components are arranged in the order of the area ratio. The m numeric columns are added to the already obtained m C 4 columns (r (0) , r (1) ,..., R (mC4) ). Therefore, n C m feature quantities are obtained for each feature point, and each feature quantity is represented by a sequence of ( m C 4 + m) numeric values. That is, each feature amount is represented as a ( m C 4 + m) -dimensional vector (feature vector) having the above-described numerical sequence as an element.

4.登録処理
登録処理において、コンピュータは、各特徴点を特徴量に従ってハッシュに登録する。そして、すべての文書画像を同じハッシュに登録する。ハッシュ表のインデックスHindex は以下に示すハッシュ関数で計算される。
4). Registration Process In the registration process, the computer registers each feature point in the hash according to the feature amount. All document images are registered in the same hash. The index H index of the hash table is calculated by the following hash function.

ここでr(i) は特徴量の各次元の値、d は離散化レベル数、Hsize はハッシュ表のサイズ(ビンの数)である。商Q は、すべての特徴量に対して一意に決定される。つまり、同一の特徴ベクトルからは、同一のHindex と商Q が得られる。検索処理では文書画像データベースに登録された各特徴点の中で、検索質問から抽出された各特徴点に対応する特徴点を探索するところ、その探索は、インデックスHindex の照合と商Q の照合とに分割できる。即ち、検索質問から抽出された各特徴点と等しいインデックスHindex を有する類のビンに探索の対象をまず絞り込むことができる。次いで、そのビンに登録された特徴点と検索質問から抽出された特徴点とを照合する。同一ビンに登録された特徴点との照合は、特徴ベクトルの(mC4 +m )次元どうしの比較に代えて、商Q どうしの比較で済ませることができる。商Q は、照合用に特徴量を簡略化した特性値といえる。 Here, r (i) is the value of each dimension of the feature quantity, d is the number of discretization levels, and H size is the size of the hash table (number of bins). The quotient Q is uniquely determined for all feature quantities. That is, the same H index and quotient Q can be obtained from the same feature vector. In the search process, a feature point corresponding to each feature point extracted from the search question is searched for among the feature points registered in the document image database. The search is performed by checking the index H index and the quotient Q. And can be divided into That is, the search target can be narrowed down first to a class of bins having an index H index equal to each feature point extracted from the search question. Next, the feature points registered in the bin are collated with the feature points extracted from the search question. The matching with the feature points registered in the same bin can be performed by comparing the quotients Q instead of comparing the ( m C 4 + m) dimensions of the feature vectors. The quotient Q can be said to be a characteristic value obtained by simplifying the feature value for collation.

そこで図2に示すように、文書ID、点ID、商Q のデータ組をハッシュ表に登録する。ハッシュ表は、インデックス(ここでは、Hindex の値)ごとに区画されたビン構造を有し、登録すべきデータをインデックスの値に応じたビンに分類して登録するデータ構造である。LLAH でハッシュ表に登録されるデータは、前述のように文書ID、点ID、商Q のデータ組である。ここで、文書ID とは文書画像の識別番号であり、前述の参照符号に相当するものである。点ID とは文書画像の他の特徴点と区別するためその特徴点に付される固有の番号である。データはインデックスの値に応じたビンに登録される。登録すべきデータの中にインデックス値が等しいものが複数個存在する場合、それらのデータを同一のビンに登録しなければならない。この状態をハッシュの衝突と呼ぶ。衝突が生じた場合は、それらのデータをリスト形式でビンに登録する。リストの長さには制限値を設けておく。その制限値を超えた場合、リストでリンクされた全てのデータをインデックスごと削除する。以降、削除されたインデックスは使用しないこととする。即ち、そのインデックス値に応じたデータ組は、ハッシュ表に登録しない。それらのデータ組に係る特徴点は、類似するものが多く検索に有用でないと考えられるからである。なお、メモリ使用量を削減するため、ハッシュの衝突が生じるリストを全て削除し、ハッシュ表を単純化する手法は、既に提案されている(例えば、特許文献2の明細書段落0044、0045参照)。 Therefore, as shown in FIG. 2, the data set of the document ID, the point ID, and the quotient Q is registered in the hash table. The hash table has a bin structure partitioned for each index (here, the value of H index ), and is a data structure that classifies and registers data to be registered into bins according to the value of the index. The data registered in the hash table by LLAH is a data set of document ID, point ID, and quotient Q as described above. Here, the document ID is an identification number of the document image and corresponds to the above-mentioned reference code. The point ID is a unique number assigned to a feature point to distinguish it from other feature points of the document image. Data is registered in the bin according to the index value. When there are a plurality of data having the same index value among the data to be registered, these data must be registered in the same bin. This state is called hash collision. If a collision occurs, those data are registered in the bin in the form of a list. A limit is set for the length of the list. When the limit value is exceeded, all data linked in the list is deleted together with the index. Thereafter, the deleted index is not used. That is, the data set corresponding to the index value is not registered in the hash table. This is because many of the feature points related to these data sets are similar and are considered not useful for searching. In order to reduce the memory usage, a method for deleting all lists in which hash collisions occur and simplifying the hash table has already been proposed (see, for example, paragraphs 0044 and 0045 of the specification of Patent Document 2). .

5.検索処理
検索の段階では、検索質問から特徴点を抽出し、各特徴点の特徴量を算出してインデックス(Hindex の値)および商Q を得る。得られたインデックスを用いて、対応するビンに登録されたデータ組があればそれを参照する。参照したデータ組について商Q が一致するかを調べる。個別の特徴点探索である。検索質問から抽出された各特徴点について個別の特徴点探索を行う。参照したデータ組の商Q が一致していたら、そのデータ組の文書ID に投票を行う。これが投票処理である。文書ID ごとに初期値ゼロのカウンタが設けられた投票テーブルが用意されている。コンピュータは、投票テーブルの文書ID のうち、投票すべき文書ID のカウンタをインクリメントする。検索質問の各特徴点につきハッシュ表を参照し、ビンの内容に応じて投票を行う。最大の得票数を得た文書ID が付された文書画像を、正解画像として出力する。
5. Search Process At the search stage, feature points are extracted from the search question, feature quantities of each feature point are calculated, and an index (value of H index ) and a quotient Q are obtained. Using the obtained index, if there is a data set registered in the corresponding bin, it is referred to. Check if the quotient Q matches for the referenced data set. It is an individual feature point search. An individual feature point search is performed for each feature point extracted from the search question. If the quotient Q of the referenced data set matches, vote for the document ID of that data set. This is the voting process. A voting table with a counter with an initial value of zero is prepared for each document ID. The computer increments the counter of the document ID to be voted out of the document IDs in the voting table. Refer to the hash table for each feature point of the search question, and vote according to the contents of the bin. The document image with the document ID that obtained the maximum number of votes is output as the correct image.

≪この発明によるLLAH の改良点≫
1.メモリ使用量の削減
従来のLLAH では、特徴点抽出処理において得られたすべての特徴点を、原則としてハッシュ表に保存する。ハッシュの衝突回数(リストの長さ)が制限値を超えた場合のみが例外である。そのため、メモリ使用量が多くなる。しかし、すべての特徴点を保存しなくとも、検索はできると考えられる。これは、検索に投票処理を用いているためである。そこで、特徴点のサンプリングを行い、ハッシュに保存するデータ量を削減する。これによって、メモリ使用量の削減を図るのである。
≪Improvements of LLAH according to this invention≫
1. Reduction of memory usage In conventional LLAH, all feature points obtained in the feature point extraction process are stored in a hash table in principle. The only exception is when the number of hash collisions (list length) exceeds the limit. As a result, the amount of memory used increases. However, it is possible to search without saving all feature points. This is because voting is used for the search. Therefore, feature points are sampled to reduce the amount of data stored in the hash. As a result, the memory usage is reduced.

特徴点をサンプリングする際に注意しなければならないのは、ハッシュに登録する特徴点に、位置的な偏りが生じないように考慮することである。
文書画像中の特徴点の分布に疎密ができると、疎な部分では正解画像が十分な得票数を得ることができず、精度の低下を招くと考えられる。
つまり、撮影範囲にロバストであるためには、サンプリングされる特徴点がある程度均等に分散して分布していなければならない。
It should be noted when sampling feature points that consideration should be given so as not to cause positional bias in the feature points registered in the hash.
If the distribution of the feature points in the document image can be made sparse / dense, it is considered that the correct image cannot obtain a sufficient number of votes in the sparse part, resulting in a decrease in accuracy.
That is, in order to be robust in the shooting range, the feature points to be sampled must be distributed evenly to some extent.

さらに、サンプリングされる特徴点が、検索に有効なものであることも重要である。
そこでこの発明では、連結成分の面積に着目してサンプリングを行う。サンプリングの例を図3に示す。図3は、文書画像の一部を示している。なお、S0 〜S6 は6つの連結成分の重心として得られるそれぞれの特徴点を示す符号である。いま、中央部の“in”という単語に注目すると、その連結成分は、周囲の連結成分より面積が小さいことがわかる。サンプリングでは、このような連結成分から抽出した特徴点S0 を有効な特徴点として採用する。周囲より面積の小さい連結成分は、字数の少ない連結成分であって、前置詞や冠詞なとどして文書中に頻出する。よって、位置的に偏りのないサンプリングが行えると考えられる。
Further, it is important that the feature points to be sampled are effective for the search.
Therefore, in the present invention, sampling is performed by paying attention to the area of the connected component. An example of sampling is shown in FIG. FIG. 3 shows a part of the document image. S0 to S6 are symbols indicating respective feature points obtained as centroids of the six connected components. Now, focusing on the word “in” in the center, it can be seen that the connected component has a smaller area than the surrounding connected components. In sampling, the feature point S0 extracted from such a connected component is adopted as an effective feature point. A connected component having an area smaller than that of the surrounding is a connected component having a small number of characters, and frequently appears in a document as a preposition or article. Therefore, it can be considered that sampling without positional deviation can be performed.

また、連結成分の面積が小さいということは、近傍の特徴点との距離が小さくなるということである。近傍の特徴点S1 〜S6 との距離が小さければ小さいほど、射影歪みの影響を受けにくく、安定した特徴量が得られると考えられる。しかし、これだけではハッシュに登録される特徴点数が少なすぎる場合が考えられる。そのため、サンプリングした特徴点の近傍k 点もハッシュに登録する。この実施形態では、登録する特徴点数が1文書あたり約200 点となるよう、k の値を設定する。従って、特徴点数が200 点に満たない文書画像に対しては特徴点のサンプリングを行なわず、すべての特徴点をハッシュに登録する。また、検索時にサンプリングの有無を判別することは困難である。そのため、検索時には、検索質問から得られた全ての特徴点についてハッシュを参照する。   Moreover, the fact that the area of the connected component is small means that the distance from nearby feature points is small. It is considered that the smaller the distance from the nearby feature points S1 to S6, the less affected by the projective distortion, and the more stable feature value can be obtained. However, there are cases where the number of feature points registered in the hash is too small. Therefore, k points near the sampled feature points are also registered in the hash. In this embodiment, the value of k is set so that the number of feature points to be registered is about 200 per document. Therefore, for a document image having less than 200 feature points, the feature points are not sampled and all feature points are registered in the hash. In addition, it is difficult to determine the presence or absence of sampling during a search. Therefore, at the time of retrieval, the hash is referred to for all feature points obtained from the retrieval question.

2.特徴点の識別性・安定性の向上
データベースの大規模化に伴い、ハッシュ表に登録される特徴量は膨大になる。そのため、一般的にハッシュの衝突回数が増加すると考えられる。換言すれば、類似の特徴点が増えると考えられる。そのため、誤投票が増加することになり、検索精度に影響が出ると考えられる。しかし、ハッシュの衝突回数を抑えるためにその制限値を低く設定すれば、それに伴って削除されるデータ組が大量に出現すると考えられる。従って、検索に必要なデータまで削除されてしまい、検索精度が低下すると考えられる。以上のことから、特徴点の識別性を高め、衝突回数を抑制する必要がある。異なる特徴点と区別され易くするということである。
2. Improvement of distinguishability and stability of feature points As the database becomes larger, the amount of features registered in the hash table becomes enormous. Therefore, it is generally considered that the number of hash collisions increases. In other words, it is considered that similar feature points increase. For this reason, the number of false votes increases, which is thought to affect the search accuracy. However, if the limit value is set low in order to suppress the number of hash collisions, it is considered that a large number of data sets to be deleted appear. Therefore, it is considered that data necessary for the search is deleted, and the search accuracy is lowered. From the above, it is necessary to improve the distinguishability of feature points and suppress the number of collisions. This means that it can be easily distinguished from different feature points.

識別性向上の基本的な考えは、特徴量の次元数を増加させることである。従来のLLAH では、着目する特徴点S0 の特徴量計算に用いる点S0 の近傍の特徴点数をn = 7,m = 6 として、21次元の特徴量を用いている。従来のLLAH では、登録するページ数を10,000 程度に想定しているため、この次元数でも特徴点は十分な識別性を持つ。また、低次元の特徴量を使用することにより、安定性を高めているとも考えられる。
この発明では、特徴点S0 の近傍の特徴点数をn = 8,m = 7 とすることによって、次元数を増加させる。具体的には、アフィン不変量ベクトルが7C4 = 35 次元、面積比特徴量が7 次元となり、合計42 次元の特徴量を得ることができる。従来のLLAH に比べて2倍の次元数である。
The basic idea of improving discrimination is to increase the number of dimensions of feature quantities. In the conventional LLAH, the number of feature points near the point S0 used for the feature amount calculation of the feature point S0 of interest is n = 7 and m = 6, and 21-dimensional feature amounts are used. In conventional LLAH, since the number of registered pages is assumed to be about 10,000, the feature points are sufficiently discriminable even with this number of dimensions. It is also considered that stability is enhanced by using low-dimensional feature values.
In the present invention, the number of dimensions is increased by setting the number of feature points in the vicinity of the feature point S0 to n = 8 and m = 7. Specifically, the affine invariant vector is 7 C 4 = 35 dimensions and the area ratio feature quantity is 7 dimensions, and a total of 42 dimensions can be obtained. The number of dimensions is twice that of conventional LLAH.

ただし、特徴量の次元数を単純に増加させると安定性の面で不利益が伴う。m の値が大きければ大きいほど、計算される不変量の数が多くなる。そのため、検索質問に係る特徴点と同じ特徴量を有する特徴点が、その検索質問と無関係な文書画像中に偶然に現れる可能性は低くなる。しかし、検索質問の特徴点と正解画像の特徴点の特徴量が一致するためには、特徴量がすべての次元で一致する必要がある。しかし、特徴量の次元数が増加すると、射影歪み、ノイズおよび/または解像度の違い等による誤差の影響で、対応すべき特徴点から異なる特徴量が算出されてしまう可能性が高くなる。よって、特徴量の次元数を増加させると特徴点の識別性は向上するが、それと引き換えに、特徴点の安定性が低下するというジレンマが生じる。
そこで、この発明では、前述のジレンマを解決するため、特徴量から互いに関連性のある次元を削除する。
However, simply increasing the dimensionality of the feature value is disadvantageous in terms of stability. The larger the value of m, the more invariants will be calculated. Therefore, the possibility that a feature point having the same feature amount as the feature point related to the search question appears accidentally in a document image unrelated to the search question is low. However, in order for the feature points of the search question and the feature points of the correct image to match, the feature amounts must match in all dimensions. However, when the dimensionality of the feature quantity increases, there is a high possibility that a different feature quantity is calculated from the feature points to be handled due to the influence of errors due to projection distortion, noise, and / or resolution differences. Therefore, if the number of dimensions of the feature quantity is increased, the distinguishability of the feature points is improved, but in exchange, the dilemma that the stability of the feature points is lowered occurs.
Therefore, in the present invention, in order to solve the above-mentioned dilemma, dimensions that are related to each other are deleted from the feature amount.

互いに関連性のある次元は、次のように考える。従来のLLAH で、特徴量の計算は、図4で示すように、異なるアフィン不変量の計算に同一の三角形を重複して使用する。ここで、異なるアフィン不変量とは、従来のLLAH における特徴点抽出処理の項目で述べたごとく、mC4個の数値の列(r(0), r(1), …, r(mC4) )を構成する各数値のことである。重複した三角形を使用する不変量は互いに関連があるといえる。そして、この関連性は、一種の冗長性と考えることができる。 The dimensions related to each other are considered as follows. In the conventional LLAH, as shown in FIG. 4, the feature amount is calculated by overlapping the same triangle for calculating different affine invariants. Here, the different affine invariants are m C 4 numerical sequences (r (0) , r (1) ,…, r (mC4) ). Invariants that use overlapping triangles are related to each other. This relationship can be considered as a kind of redundancy.

図4で、特徴点S0 の近傍に特徴点S1, S2, S3, S4, S5, S6 が特徴点S0 を取り囲むように存在する。特徴点S0 に係るアフィン不変量は、図4の右側に示す不変量1、不変量2および不変量3を含む。不変量1は、頂点が特徴点S0, S1, S2 からなる三角形1と、特徴点S0, S2, S3 からなる三角形2の面積比として算出される。不変量2は、三角形2と、頂点が特徴点S0, S3, S4 からなる三角形3の面積比として算出される。不変量3は、三角形3と、頂点が特徴点S0, S4, S5 からなる三角形4の面積比として算出される。不変量2は、三角形2を重複使用する点で不変量1と関連が高く、三角形3を重複使用する点で不変量3と関連が高い。よって、三角形2および三角形3の何れも重複使用する不変量2は、前述の冗長性があると考えられる。   In FIG. 4, feature points S1, S2, S3, S4, S5, and S6 exist in the vicinity of the feature point S0 so as to surround the feature point S0. The affine invariant relating to the feature point S0 includes invariant 1, invariant 2 and invariant 3 shown on the right side of FIG. The invariant 1 is calculated as the area ratio of the triangle 1 whose vertices are made up of feature points S0, S1, S2 and the triangle 2 made up of feature points S0, S2, S3. The invariant 2 is calculated as the area ratio of the triangle 2 and the triangle 3 whose vertices are feature points S0, S3, S4. The invariant 3 is calculated as the area ratio of the triangle 3 and the triangle 4 whose vertices are feature points S0, S4, S5. The invariant 2 is highly related to the invariant 1 in that the triangle 2 is redundantly used, and is highly related to the invariant 3 in that the triangle 3 is redundantly used. Therefore, it is considered that the invariant 2 in which both the triangle 2 and the triangle 3 are used redundantly has the above-described redundancy.

この不変量2のような次元を削除するのである。結果、特徴量計算に使用されるいずれの三角形も、異なる不変量の計算に重複して使用されることがない。冗長性のある次元の削除により、情報の損失を抑えつつ特徴量の安定性向上を図る。当初の35次元のアフィン不変量ベクトルは、冗長性のある次元を削除することによって約半分の17次元にまで削減される、面積比特徴量7 次元との合計は24 次元となる。
これまでに説明した改良されたLLAH は、コンピュータに所定の処理を行わせるための処理プログラムの態様、その処理プログラムをコンピュータ読取り可能に記憶する不揮発性の記憶媒体の態様、およびその処理プログラムをコンピュータが実行することにより改良されたLLAHの機能を実現するシステムの態様として捉えることができる。
The dimension like this invariant 2 is deleted. As a result, any triangle used for feature quantity calculation is not used redundantly for different invariant calculations. By deleting redundant dimensions, the stability of feature quantities is improved while suppressing information loss. The original 35-dimensional affine invariant vector is reduced to about half of 17 dimensions by deleting redundant dimensions, and the total of area ratio feature quantity 7 dimensions is 24 dimensions.
The improved LLAH described so far is an aspect of a processing program for causing a computer to perform a predetermined process, an aspect of a non-volatile storage medium that stores the processing program in a computer-readable manner, and the processing program. Can be regarded as an aspect of a system that realizes an improved LLAH function.

≪実験例≫
1.実験例1:改良されたLLAH の効果
前述のメモリ使用量の削減と、特徴点の識別性・安定性向上の効果を明確にするため、以下の3つのバージョンのLLAH を作成した。
i.従来のLLAH 手法
ii.メモリ使用量削減版
iii.メモリ使用量削減版に識別性、安定性向上処理を加えた総合版
iは比較の基準となる従来のLLAH であり、iiおよびiiiが改良されたLLAH に係るものである。
≪Experimental example≫
1. Experimental Example 1: Effect of improved LLAH In order to clarify the effects of reducing the amount of memory used and improving the distinguishability and stability of feature points, the following three versions of LLAH were created.
i. Traditional LLAH method
ii. Memory usage reduction version
iii. Comprehensive version i with distinction and stability improvement processing added to the memory usage reduced version is conventional LLAH as a reference for comparison, and ii and iii are related to improved LLAH.

実験で用いた文書画像データベースの登録ページ数は10,000 である。
登録された文書画像は、主に予稿集のCD-ROM から集められた、1段組および2段組の英語論文である。それらの英語論文は、PDF ファイルを解像度200dpi で画像に変換したものである。登録された文書画像の一例を図5に示す。検索質問として、印刷文書を紙面に対して斜め方向(約60°)から文書全体を撮影した画像を1003 枚用意した。撮影には、1200万画素のデジタルカメラを用いた。検索質問画像の一例を図6に示す。登録画像と検索質問の撮影角度は異なる。登録されたものと異なる撮影角度の検索質問は、各バージョンの射影歪みに対するロバスト性を明らかに示すことができる。ハッシュ表のサイズは230−1 である。実験に用いたコンピュータは、CPU がAMD 社製のOpteron(登録商標)、CPUクロック周波数が2.8GHz、メモリ容量が128GB のものである。
以下の表1に結果を示す。表1で、「使用メモリ」はハッシュ表に格納されるデータ量を表している。データ構造としてのハッシュ表自体に使用されるメモリ容量は含まれていない。
The number of registered pages in the document image database used in the experiment is 10,000.
Registered document images are mainly single-column and double-column English articles collected from the CD-ROM of the proceedings. These English papers are PDF files converted to images with a resolution of 200 dpi. An example of the registered document image is shown in FIG. As a search question, we prepared 1003 images of the entire printed document taken from an oblique direction (approximately 60 °) to the paper. A 12-megapixel digital camera was used for shooting. An example of the search question image is shown in FIG. The shooting angle of the registered image and search query is different. Search queries with different shooting angles than those registered can clearly show the robustness to projection distortion of each version. The size of the hash table is 2 30 −1. The computer used in the experiment has an Opteron (registered trademark) CPU manufactured by AMD, a CPU clock frequency of 2.8 GHz, and a memory capacity of 128 GB.
The results are shown in Table 1 below. In Table 1, “used memory” represents the amount of data stored in the hash table. The memory capacity used for the hash table itself as a data structure is not included.

また「正投票率」は、検索で見つかった対応点数のうち、正解画像に対応したものの割合を表す。正投票率の割合が高いほど、識別性・安定性が高いことを示す。
iiのメモリ削減版は、従来手法と比較して、約70% のメモリ削減を実現した。これは、従来手法でハッシュに登録していた特徴点数の約70% を削除したことと同義である。また、iiiの総合版は、従来手法と比較して、約65% のメモリ削減を実現した。これだけの特徴点を削除したにも関わらず、精度には全く影響がなかった。その理由の一つとして、本実験で用いた検索質問が、文書全体を撮影したものであるということが挙げられる。そこで、撮影範囲の違いによる精度への影響を検証する必要があるが、これについては後の「部分撮影への耐性」の項目で述べる。
The “correct vote rate” represents the proportion of the corresponding points found in the search corresponding to the correct image. The higher the percentage of correct votes, the higher the discrimination and stability.
The memory reduction version of ii realized about 70% memory reduction compared to the conventional method. This is synonymous with deleting about 70% of the number of feature points registered in the hash by the conventional method. In addition, the comprehensive version of iii realized a memory reduction of about 65% compared to the conventional method. Despite deleting these feature points, the accuracy was not affected at all. One reason for this is that the search question used in this experiment is a photograph of the entire document. Therefore, it is necessary to verify the effect on accuracy due to the difference in the shooting range, which will be described later in the item “resistance to partial shooting”.

次に、iiのメモリ削減版とiiiの総合版とを比較すると、メモリ使用量が10MB 増加している。これは近傍特徴点数n の値を変えることにより、1つの特徴点から得られる特徴量が増加するためである。また、誤投票が約20% 低下していることから、特徴量の識別性が向上していると考えられる。さらに、精度には全く影響がないことから、特徴量の安定性も確保できていると考えられる。処理時間が3ms 増加しているが、これは1つの特徴点で計算されるアフィン不変量の数が増加するためである。
以上のことから、改良されたLLAH は、精度を低下させることなくメモリ使用量の削減を実現し、さらに、メモリ使用量の削減と特徴点の識別性、安定性の向上を実現しているといえる。
Next, comparing the memory-reduced version of ii with the comprehensive version of iii, the memory usage has increased by 10MB. This is because the feature amount obtained from one feature point is increased by changing the value of the number of neighboring feature points n. In addition, the mis-voting is reduced by about 20%, so it is considered that the distinguishability of the feature is improved. Furthermore, since the accuracy is not affected at all, it is considered that the stability of the feature amount can be secured. The processing time is increased by 3 ms because the number of affine invariants calculated at one feature point is increased.
From the above, the improved LLAH has achieved a reduction in memory usage without degrading accuracy, and has also achieved a reduction in memory usage and improved distinction and stability of feature points. I can say that.

2.実験例2:大規模化への対応
文書画像データベースの大規模化に対する改良されたLLAH のスケーラビリティを検証した。登録ページ数を1 万、10 万、100 万、1,000万とした4つの異なるデータベースを作成し、登録ページ数と必要メモリ量、検索精度、処理時間の関係をそれぞれ調べた。実験例2における改良されたLLAHは、実験例1におけるiiiの総合版に対応する。
比較のために、従来のLLAH 手法の結果を併記した。検索質問は、実験例1と同じものを使用した。ハッシュ表のサイズは230−1 、リスト長の制限値は100 である。
2. Experimental example 2: Correspondence to enlargement The improved scalability of LLAH for the enlargement of document image database was verified. Four different databases with 10,000, 100,000, 1 million, and 10 million registered pages were created, and the relationship between the number of registered pages, required memory, search accuracy, and processing time was examined. The improved LLAH in Experimental Example 2 corresponds to the comprehensive version of iii in Experimental Example 1.
For comparison, the results of the conventional LLAH method are also shown. The same search question as in Experimental Example 1 was used. The size of the hash table is 2 30 -1, list length limit is 100.

2−1.必要メモリ量
文書画像データベースへの登録ページ数と必要メモリ量の関係を図7 に示す。ここで必要メモリ量は、検索するために必要なすべてのメモリ使用量を表す。また、ハッシュ表を確保するためにメモリを8GB 使用している。従来手法では1,000 万ページのデータベースは作成不可能なため、100 万から1,000 万までは推定値を表す。どちらの手法も、登録ページ数が増加するに伴い、必要メモリ量も増加した。ただし、従来のLLAH と比較して、改良されたLLAH の必要メモリ量は約50% 程度となっていることがわかる。
2-1. Required Memory Figure 7 shows the relationship between the number of pages registered in the document image database and the required memory. Here, the necessary memory amount represents all the memory usage necessary for searching. Also, 8GB of memory is used to secure the hash table. Since the conventional method cannot create a database of 10 million pages, 1 million to 10 million represents an estimated value. Both methods require more memory as the number of registered pages increases. However, it can be seen that the required memory capacity of the improved LLAH is about 50% compared to the conventional LLAH.

2−2.検索精度
登録ページ数と検索精度の関係を図8に示す。改良されたLLAH は、従来のLLAH よりも高い検索精度を示した。また、改良されたLLAH では1,000 万ページの文書画像データベースにおいて99.4% という高い精度で検索可能であることが確認された。これより、改良された特徴量は、大規模化に耐え得る高い識別性と安定性を備えていると考えられる。しかし、登録ページ数の増加に伴い、検索精度が低下した。大規模化に伴い検索に失敗した例を図9に示す。この画像のように、ページの大部分を図表が占め、テキストの量が少ない検索質問で検索に失敗した。これは、得られる特徴点の数が少ないため、正解の文書が十分な得票数を得られないことが原因であると考えられる。
2-2. Search accuracy The relationship between the number of registered pages and search accuracy is shown in FIG. The improved LLAH showed higher search accuracy than the conventional LLAH. In addition, it was confirmed that the improved LLAH can be searched with high accuracy of 99.4% in a document image database of 10 million pages. From this, it is considered that the improved feature amount has high discrimination and stability that can withstand a large scale. However, as the number of registered pages increased, the search accuracy decreased. FIG. 9 shows an example of a search failure due to an increase in scale. Like this image, charts occupy most of the page, and search failed with a search question with a small amount of text. This is probably because the correct document cannot obtain a sufficient number of votes because the number of obtained feature points is small.

2−3.処理時間
登録ページ数と処理時間の関係を図10に示す。登録ページ数の増加と比較して、処理時間の増加は抑制されている。これは、ハッシュを用いて検索することによる効果であると考えられる。また、1,000 万ページの文書画像データベースにおいて、38ms で検索可能であることが確認された。従って、改良されたLLAH は、1,000万ページの文書画像データベースにおいて実時間検索が可能であるといえる。
2-3. Processing Time The relationship between the number of registered pages and processing time is shown in FIG. Compared with an increase in the number of registered pages, an increase in processing time is suppressed. This is considered to be the effect of searching using a hash. In addition, it was confirmed that a 10 million page document image database can be searched in 38 ms. Thus, the improved LLAH can be searched in real time in a 10 million page document image database.

文書画像データベースの大規模化に伴い、従来のLLAH と改良されたLLAH とで処理時間の逆転が起こった。登録ページ数が少ない場合、従来のLLAH の処理時間がより短い。これは特徴点あたりの特徴量数と、特徴量あたりのアフィン不変量数の相違による。従来のLLAH では、7C6 = 7 個の特徴量と、特徴量あたり6C4 = 15 個の不変量を計算する。改良されたLLAH では、8C7 = 8 個の特徴量と、24 個の不変量を計算する。このように、従来のLLAH の計算量は改良されたLLAH よりも少ないため、処理時間が短くなったと考えられる。 With the enlargement of the document image database, the processing time was reversed between the conventional LLAH and the improved LLAH. When the number of registered pages is small, the processing time of conventional LLAH is shorter. This is due to the difference between the number of features per feature point and the number of affine invariants per feature. In conventional LLAH, 7 C 6 = 7 feature quantities and 6 C 4 = 15 invariants per feature quantity are calculated. The improved LLAH calculates 8 C 7 = 8 features and 24 invariants. Thus, since the amount of calculation of the conventional LLAH is less than that of the improved LLAH, it is considered that the processing time is shortened.

しかし、登録ページ数の増加に伴い、改良されたLLAH は従来のLLAH より高い性能を示した。これは、ハッシュ表におけるリスト長の違いが原因であると考えられる。ここで、ハッシュ表においてリスト長がゼロでないもののリスト長の平均を図11に示す。従来のLLAH と改良されたLLAH の何れも、登録ページ数の増加に伴って、平均リスト長が増加していることがわかる。   However, as the number of registered pages increased, the improved LLAH performed better than the conventional LLAH. This is considered to be caused by the difference in the list length in the hash table. Here, FIG. 11 shows an average of the list lengths of the hash table whose list length is not zero. It can be seen that both the conventional LLAH and the improved LLAH increase the average list length as the number of registered pages increases.

特に、100 万ページの文書画像データベースにおいて、従来のLLAH が改良されたLLAH に比べて約2倍のリスト長となっている。リスト長が大きくなると、リストをたどるために要する処理時間が増加する。従来のLLAHは、その部分でより多くの処理時間を要する。そのため、処理時間の逆転が起こったと考えられる。以上のことから、登録ページ数が増加すればするほど、改良されたLLAH は、処理時間の点で従来のLLAHよりも有利になると考えられる。   In particular, in a document image database of 1 million pages, the list length is about twice that of LLAH, which is an improvement of conventional LLAH. As the list length increases, the processing time required to follow the list increases. Conventional LLAH requires more processing time in that part. Therefore, it is considered that the processing time has been reversed. From the above, it is considered that as the number of registered pages increases, the improved LLAH is more advantageous than the conventional LLAH in terms of processing time.

3.実験例3:部分撮影への耐性
実験例1で述べたように、改良されたLLAH で高い検索精度となっている理由の1つに、検索質問が文書画像全体を写していることが挙げられる。文書画像全体を撮影することにより、参照する特徴点数が増加し、正解画像が多くの得票数を得ることができるためである。文書画像の一部分が撮影された検索質問では、特徴点数が減少するために精度が低下すると考えられる。そこで、文書画像の一部分を撮影した検索質問を作成し、部分撮影への耐性を検証した。
3. Experiment 3: Tolerance to partial shooting As described in Experiment 1, one of the reasons why the improved LLAH has high search accuracy is that the search query shows the entire document image. . This is because by capturing the entire document image, the number of feature points to be referenced increases, and the correct image can obtain a large number of votes. In a search query in which a part of a document image is taken, the number of feature points decreases, so that the accuracy is considered to decrease. Therefore, we created a search query that captured a part of the document image and verified its resistance to partial shooting.

実験例3で用いる文書画像データベースには、1,000 万ページの文書画像が登録されている。まず、実験例1および2で用いた検索質問から、図表が大半を占めるものを除いた989 枚を選択した。次に、それらの検索質問から文章が写っている部分を切り抜き、疑似的な部分撮影クエリを作成した。撮影範囲の大きさとして、全体の1/2,1/4,1/8の3パターンを用意した。撮影範囲の例を、それぞれ図12、図13および図14に示す。   In the document image database used in Experimental Example 3, 10 million page document images are registered. First, 989 items were selected from the search questions used in Experimental Examples 1 and 2, excluding those that occupy most of the charts. Next, the part where the text was reflected was extracted from those search questions, and a pseudo partial shooting query was created. Three patterns of 1/2, 1/4, and 1/8 of the entire photographing range were prepared. Examples of shooting ranges are shown in FIGS. 12, 13, and 14, respectively.

結果を図15に示す。撮影範囲が狭くなるに伴い、検索精度が低下することがわかる。これは、検索質問から得られる特徴点数が少なく、正解画像が十分な得票数を得られないことが原因と考えられる。検索に失敗した例を図16に示す。このように、文章の中に「.」や「”」が数多く分布していると、検索に失敗する傾向があった。これは、それらがノイズとなって、安定した特徴点を抽出することが困難であるためである。図17に、検索に失敗したときの特徴点の例を示す。図17の(a)および(b)のそれぞれについて、左側が検索質問、右側に登録文書画像を表す。(a)のように「”」が連結成分から離れて新たな特徴点となったり、(b)のように「.」が特徴点として抽出されなかったりする事象が生じる。これは、特徴点抽出処理における適応二値化による影響であると考えられる。これについては、特徴点抽出に新たな処理を追加する等の改良が必要である。   The results are shown in FIG. It can be seen that the search accuracy decreases as the shooting range becomes narrower. This is considered to be because the number of feature points obtained from the search question is small, and the correct image cannot obtain a sufficient number of votes. An example of the search failure is shown in FIG. As described above, when a large number of “.” And “” ”are distributed in the sentence, the search tends to fail. This is because they become noise and it is difficult to extract stable feature points. FIG. 17 shows an example of feature points when the search fails. In each of FIGS. 17A and 17B, the left side represents a search question and the right side represents a registered document image. As shown in (a), “” ”is separated from the connected component and becomes a new feature point, or“. ”Is not extracted as a feature point as shown in (b). This is considered to be an effect of adaptive binarization in the feature point extraction process. For this, it is necessary to improve the feature point extraction by adding a new process.

4.実験例4:特徴点の間引きと特徴量選択の効果
これまでに述べた実験例は、特徴点をサンプリングしてメモリ使用量を削減する手法(以下、間引きと呼ぶ)と特徴量の識別性を向上させつつ安定性を確保するために特徴量の冗長性を排除する手法(以下、特徴量選択と呼ぶ)とを組み合わせた態様である。次に、それらの手法の単独の効果を確認する実験を行った。
まず、間引き有無、特徴量選択有無の態様を組み合わせ、必要メモリ量、検索精度および処理時間を確認した。ただし、間引きがないと必要なメモリ量が膨大になってしまい現行の実験装置が対応できない。そのため、登録ページ数100万で実験を行った。結果を表2に示す。
4). Experimental example 4: Effect of thinning out feature points and selection of feature amount The experimental examples described so far show how to reduce the memory usage by sampling feature points (hereinafter referred to as thinning) and distinguishability of feature amounts. This is a mode in which a technique for eliminating redundancy of feature quantities (hereinafter referred to as feature quantity selection) is combined in order to ensure stability while improving. Next, an experiment was conducted to confirm the single effect of these methods.
First, the required memory amount, search accuracy, and processing time were confirmed by combining the presence / absence of thinning and the feature selection / non-existence. However, if there is no thinning-out, the required amount of memory becomes enormous and the current experimental apparatus cannot cope. Therefore, the experiment was conducted with 1 million registered pages. The results are shown in Table 2.

表2を見ると、特徴量選択なしの条件下で間引きなしの使用メモリ量は16.2 GB対し、間引きありでは6.4 GBである。また、特徴量選択ありの条件下で間引きなしの使用メモリ量は18.7 GBに対し、間引きありでは7.3 GBである。メモリ使用量の削減については、特徴量選択の効果はあまりなく、間引きの効果が目立つ。特徴量選択の有無による検索精度の差はそれほど大きくないようにも見える。しかし、登録ページ数が1000万ページになると、特徴量選択を行わない検索精度の差がより大きくなる。
続いて、登録ページ数1000万ページで、特徴量選択の有無による違いを比較した。結果を表3に示す。
Looking at Table 2, the amount of used memory without thinning out under the condition without feature selection is 16.2 GB, and with thinning out is 6.4 GB. In addition, the amount of used memory without thinning out under the condition with feature amount selection is 18.7 GB, while that with thinning out is 7.3 GB. Regarding the reduction of memory usage, there is not much effect of feature quantity selection, and the effect of thinning out is conspicuous. It seems that the difference in search accuracy depending on whether or not a feature is selected is not so large. However, when the number of registered pages reaches 10 million pages, the difference in search accuracy without performing feature amount selection becomes larger.
Next, we compared the difference between the number of registered pages and the selection of feature quantity for 10 million pages. The results are shown in Table 3.

表3で、「必要メモリ量」は、検索に必要なすべてのメモリ使用量である。「処理時間」は、特徴点抽出処理にかかる時間を含まない。「平均リスト長」は、ハッシュにおいてリスト長がゼロでないものの平均値である。「ハッシュ表の使用率(以下,使用率)」は、リスト長がゼロでないものの割合である。
特徴量選択の有無で必要メモリ量に違いがあるのは、主として特徴点1つあたりに計算される特徴量数(特徴ベクトルの次元数)の違いによるものである。特徴量選択なしの場合は21 次元、特徴量選択ありの場合は24 次元である。
In Table 3, “necessary memory amount” is all the memory usage necessary for the search. The “processing time” does not include the time required for the feature point extraction process. “Average list length” is an average value of non-zero list lengths in the hash. “Hash table usage rate (hereinafter referred to as usage rate)” is a ratio of a list whose length is not zero.
The difference in the required memory amount depending on whether or not the feature amount is selected is mainly due to the difference in the number of feature amounts (the number of dimensions of the feature vector) calculated per feature point. When there is no feature selection, it is 21 dimensions, and when there is feature selection, it is 24 dimensions.

特徴量選択ありでの検索精度99.4 %に対して特徴量なしの検索精度は98.6 %に下がっている。精度100 %からの差分で考えたときの検索誤りの割合は、約2倍の差がある。特徴量選択なしにおける検索精度の低下は、誤投票の増加によるものと考えられる。しかし、特徴量選択の有無で平均リスト長がほぼ同じであるため、誤投票の増加が衝突回数の増加によるものかわからない。そこでハッシュ表のリスト長の頻度を調べた。その結果を図18に示す。   The search accuracy without feature amount is reduced to 98.6% compared to the search accuracy with feature amount selection of 99.4%. The ratio of search errors when considering the difference from the accuracy of 100% has a difference of about twice. The decrease in search accuracy without feature quantity selection is considered to be due to an increase in false votes. However, since the average list length is almost the same depending on whether or not the feature amount is selected, it is not known whether the increase in false voting is due to the increase in the number of collisions. Therefore, the frequency of the list length of the hash table was examined. The result is shown in FIG.

図18から、特徴選択なしの場合は、特徴量選択ありの場合に比べてリスト長の長いものが多いことがわかる。これが誤投票の増加につながったと考えられる。
以上の結果から、特徴点の間引きは、メモリ使用量の削減に大きく寄与している一方、特徴量の選択は検索精度の向上に寄与していることがわかる。
登録ページ数が1000万におよぶ大規模な文書画像データベースへの対応には、いずれの手法も非常に有効なものといえる。
From FIG. 18, it can be seen that when there is no feature selection, there are many items with a longer list length than when feature amount selection is performed. This is thought to have led to an increase in false votes.
From the above results, it can be understood that the thinning out of the feature points greatly contributes to the reduction of the memory usage amount, while the selection of the feature amount contributes to the improvement of the search accuracy.
Both methods are very effective in dealing with a large-scale document image database with 10 million registered pages.

改良されたLLAH では、大規模文書画像検索に対応するために、所要メモリ量の削減と、特徴点の識別性・安定性の向上の点で改良を行った。その結果、実験により1,000 万ページデータベースにおいて精度99.4% 、処理時間38ms で検索が可能であることが確かめられた。以上のことから、改良されたLLAH では、スケーラビリティが向上したといえる。   In the improved LLAH, in order to support large-scale document image retrieval, improvements were made in terms of reducing the amount of memory required and improving the distinguishability and stability of feature points. As a result, it was confirmed by experiments that a search can be performed with an accuracy of 99.4% and a processing time of 38 ms in a 10 million page database. From the above, it can be said that the improved LLAH has improved scalability.

前述した実施の形態の他にも、この発明について種々の変形例があり得る。それらの変形例は、この発明の範囲に属さないと解されるべきものではない。この発明には、請求の範囲と均等の意味および前記範囲内でのすべての変形とが含まれるべきである。   In addition to the embodiments described above, there can be various modifications of the present invention. These modifications should not be construed as not belonging to the scope of the present invention. The present invention should include the meaning equivalent to the scope of the claims and all modifications within the scope.

S0、S1、S2、S3、S4、S5、S6:特徴点 S0, S1, S2, S3, S4, S5, S6: Features

Claims (8)

コンピュータが、
文書画像データベースに登録すべき文書画像から、その文書画像の局所的特徴を表す特徴点を抽出する特徴点抽出ステップと、
幾何学的変換に対する不変量を用いた各特徴点の特徴量であって、各特徴点とその近傍n個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とする特徴量計算ステップと、
前記文書画像から抽出された各特徴点について、(1)前記文書画像の参照に用いる参照子、(2)その特徴点を他の特徴点と区別する識別子および(3)その特徴点の特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記データ組を前記文書画像と共に前記文書画像データベースに登録する登録ステップとを実行し、
前記特徴点抽出ステップは、文書を構成する線の連結成分を決定し、所定面積より小さい連結成分の重心を特徴点として抽出し、抽出された特徴点の数が閾値に満たないとき、各特徴点の近傍にある連結成分の重心をさらに特徴点として抽出して閾値以上の特徴点が得られるように抽出し、
前記特徴量計算ステップは、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算することを特徴とする文書画像データベースの登録方法。
Computer
A feature point extracting step for extracting a feature point representing a local feature of the document image from the document image to be registered in the document image database;
A feature value of each feature point using an invariant for geometric transformation, and a predetermined amount of geometric elements determined by each feature point and n feature points in the vicinity (n is a natural number) Each characteristic value is obtained by calculation, a plurality of invariants obtained by combining these characteristic values is calculated, and a feature quantity calculating step using a vector having each dimension as the calculated invariant as the feature quantity,
For each feature point extracted from the document image, (1) a reference used for referring to the document image, (2) an identifier for distinguishing the feature point from other feature points, and (3) a feature amount of the feature point Generating a data set formed by associating (1) to (3), and registering the data set together with the document image in the document image database,
The feature point extracting step determines a connected component of lines constituting the document, extracts a centroid of a connected component smaller than a predetermined area as a feature point, and each feature is extracted when the number of extracted feature points is less than a threshold value. Extract the centroid of the connected components in the vicinity of the point as a feature point and extract it so that a feature point above the threshold is obtained,
The document image database registration method characterized in that the feature quantity calculating step calculates each invariant using a geometric element that does not overlap with a geometric element used for one invariant as another invariant. .
前記登録ステップは、(1)前記参照子、(2)前記識別子および(3)前記特徴量またはその特徴量を簡略化した簡易特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記特徴量に応じて各特徴点を分類すべく予め定義された計算を行ってその特徴点が属する類のインデックスを得、インデックスに応じた類に前記データ組を分類し、前記文書画像と共に前記文書画像データベースに登録する請求項1に記載の登録方法。   The registration step includes (1) the reference, (2) the identifier, and (3) the feature quantity or a simple feature quantity obtained by simplifying the feature quantity (1) to (3) in association with the data set. And performing a predefined calculation to classify each feature point according to the feature amount to obtain an index of a class to which the feature point belongs, classify the data set into a class according to the index, and The registration method according to claim 1, wherein the registration is performed together with the document image in the document image database. 前記特徴量計算ステップは、3つの特徴点を頂点とする三角形を前記幾何学的要素としてその三角形の面積を前記特性値とし、4つ以上の特徴点の何れか3点を頂点とする三角形の組み合わせのうち一辺を共有する2つの三角形の面積比を一つの不変量とする請求項1または2に記載の登録方法。   In the feature amount calculating step, a triangle having three feature points as vertices is used as the geometric element, and the area of the triangle is used as the characteristic value. The registration method according to claim 1 or 2, wherein an area ratio of two triangles sharing one side of the combination is one invariant. コンピュータが、
検索質問として取り込まれた文書画像から、その文書画像の局所的特徴を表す複数のクエリ特徴点を抽出する特徴点抽出ステップと、
各クエリ特徴点に係るクエリ特徴量を計算する特徴量計算ステップと、
請求項1に記載の登録方法により文書画像が登録された文書画像データベースを参照し、その文書画像データベースに登録されているデータ組の中から、各クエリ特徴点と同一もしくは類似の特徴量を有するデータ組を探索し、見出されたデータ組の参照子を得る個別探索ステップと、
各クエリ特徴点について探索を行い、得られた各文書識別子を統計的に処理し、検索結果として推奨すべき文書画像を特定する投票ステップとを実行し、
前記特徴点抽出ステップは、文書を構成する線の連結成分を決定し、各連結成分の重心を特徴点として抽出し、
前記特徴量計算ステップは、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、かつ、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とすることを特徴とする文書画像の検索方法。
Computer
A feature point extraction step of extracting a plurality of query feature points representing local features of the document image from the document image captured as a search question;
A feature amount calculating step for calculating a query feature amount related to each query feature point;
The document image database in which the document image is registered by the registration method according to claim 1 is referred to, and the feature amount is the same as or similar to each query feature point from the data set registered in the document image database. A separate search step for searching the data set to obtain a reference to the found data set;
A search is performed for each query feature point, each document identifier obtained is statistically processed, and a voting step for identifying a document image to be recommended as a search result is performed.
The feature point extraction step determines a connected component of lines constituting the document, extracts a centroid of each connected component as a feature point,
The feature amount calculating step obtains respective characteristic values by a predetermined calculation for a plurality of geometric elements determined by each feature point and n feature points (n is a natural number) in the vicinity thereof, and the characteristic values Calculates multiple invariants that are a combination of, and calculates each invariant using a geometric element that does not overlap with the geometric element used for one invariant for the other invariant. A document image search method, wherein a vector having invariants as dimensions is used as the feature amount.
コンピュータが、
検索質問として取り込まれた文書画像から、その文書画像の局所的特徴を表す複数のクエリ特徴点を抽出する特徴点抽出ステップと、
各クエリ特徴点に係るクエリ特徴量を計算する特徴量計算ステップと、
請求項2に記載の登録方法により文書画像が登録された文書画像データベースを参照し、その文書画像データベースに登録されている特徴点の中から、各クエリ特徴点と局所的特徴が類似する特徴点を探索し、見出された類似の特徴点に関連づけられた参照子を得る個別探索ステップと、
各クエリ特徴点について探索を行い、得られた各文書識別子を統計的に処理し、検索結果として推奨すべき文書画像を特定する投票ステップとを実行し、
前記特徴点抽出ステップは、文書を構成する線の連結成分を決定し、各連結成分の重心を特徴点として抽出し、
前記特徴量計算ステップは、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、かつ、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とし、
前記個別探索ステップは、請求項2に記載の登録方法に対応する計算によって各クエリ特徴点のインデックスを得、そのインデックスに係る類として登録されたデータ組を参照し、そのデータ組が簡易特徴量を有する場合は前記クエリ特徴点に係る簡易特徴量を求めたうえで同一もしくは最も類似の簡易特徴量を有するデータ組に係る参照子を得、登録されたデータ組が特徴量を有する場合は同一もしくは最も類似の特徴量を有するデータ組に係る参照子を得ることを特徴とする文書画像の検索方法。
Computer
A feature point extraction step of extracting a plurality of query feature points representing local features of the document image from the document image captured as a search question;
A feature amount calculating step for calculating a query feature amount related to each query feature point;
A feature point in which a local feature is similar to each query feature point from among feature points registered in the document image database with reference to the document image database in which the document image is registered by the registration method according to claim 2. And a separate search step to obtain a reference associated with the found similar feature point;
A search is performed for each query feature point, each document identifier obtained is statistically processed, and a voting step for identifying a document image to be recommended as a search result is performed.
The feature point extraction step determines a connected component of lines constituting the document, extracts a centroid of each connected component as a feature point,
The feature amount calculating step obtains respective characteristic values by a predetermined calculation for a plurality of geometric elements determined by each feature point and n feature points (n is a natural number) in the vicinity thereof, and the characteristic values Calculates multiple invariants that are a combination of, and calculates each invariant using a geometric element that does not overlap with the geometric element used for one invariant for the other invariant. A vector having an invariant as each dimension as the feature amount,
The individual search step obtains an index of each query feature point by calculation corresponding to the registration method according to claim 2, refers to a data set registered as a class related to the index, and the data set is a simple feature amount. Is obtained after obtaining a simple feature amount related to the query feature point, and a reference is obtained for the data set having the same or the most similar simple feature amount, and the same when the registered data set has the feature amount. Alternatively, a document image search method comprising obtaining a reference related to a data set having the most similar feature amount.
前記特徴量計算ステップは、3つの特徴点を頂点とする三角形を前記幾何学的要素としてその三角形の面積を前記特性値とし、4つ以上の特徴点の何れか3点を頂点とする三角形の組み合わせのうち一辺を共有する2つの三角形の面積比を一つの不変量とする請求項4または5に記載の検索方法。   In the feature amount calculating step, a triangle having three feature points as vertices is used as the geometric element, and the area of the triangle is used as the characteristic value. The search method according to claim 4 or 5, wherein an area ratio of two triangles sharing one side of the combination is one invariant. コンピュータが、
文書画像データベースに登録すべき文書画像から、その文書画像の局所的特徴を表す特徴点を抽出する特徴点抽出ステップと、
幾何学的変換に対する不変量を用いた各特徴点の特徴量であって、各特徴点とその近傍n個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とする特徴量計算ステップと、
前記文書画像から抽出された各特徴点について、(1)前記文書画像の参照に用いる参照子、(2)その特徴点を他の特徴点と区別する識別子および(3)その特徴点の特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記データ組を前記文書画像と共に前記文書画像データベースに登録する登録ステップとを実行し、
前記特徴点抽出ステップは、文書を構成する線の連結成分を決定し、所定面積より小さい連結成分の重心を特徴点として抽出し、抽出された特徴点の数が閾値に満たないとき、各特徴点の近傍にある連結成分の重心をさらに特徴点として抽出して閾値以上の特徴点が得られるように抽出することを特徴とする文書画像データベースの登録方法。
Computer
A feature point extracting step for extracting a feature point representing a local feature of the document image from the document image to be registered in the document image database;
A feature value of each feature point using an invariant for geometric transformation, and a predetermined amount of geometric elements determined by each feature point and n feature points in the vicinity (n is a natural number) Each characteristic value is obtained by calculation, a plurality of invariants obtained by combining these characteristic values is calculated, and a feature quantity calculating step using a vector having each dimension as the calculated invariant as the feature quantity,
For each feature point extracted from the document image, (1) a reference used for referring to the document image, (2) an identifier for distinguishing the feature point from other feature points, and (3) a feature amount of the feature point Generating a data set formed by associating (1) to (3), and registering the data set together with the document image in the document image database,
The feature point extracting step determines a connected component of lines constituting the document, extracts a centroid of a connected component smaller than a predetermined area as a feature point, and each feature is extracted when the number of extracted feature points is less than a threshold value. A document image database registration method, wherein a centroid of connected components in the vicinity of a point is further extracted as a feature point so as to obtain a feature point equal to or greater than a threshold value.
コンピュータが、
検索質問として取り込まれた文書画像から、その文書画像の局所的特徴を表す複数のクエリ特徴点を抽出する特徴点抽出ステップと、
各クエリ特徴点に係るクエリ特徴量を計算する特徴量計算ステップと、
請求項7に記載の登録方法により文書画像が登録された文書画像データベースを参照し、その文書画像データベースに登録されているデータ組の中から、各クエリ特徴点と同一もしくは類似の特徴量を有するデータ組を探索し、見出されたデータ組の参照子を得る個別探索ステップと、
各クエリ特徴点について探索を行い、得られた各文書識別子を統計的に処理し、検索結果として推奨すべき文書画像を特定する投票ステップとを実行し、
前記特徴点抽出ステップは、文書を構成する線の連結成分を決定し、各連結成分の重心を特徴点として抽出し、
前記特徴量計算ステップは、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、かつ、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とすることを特徴とする文書画像の検索方法。
Computer
A feature point extraction step of extracting a plurality of query feature points representing local features of the document image from the document image captured as a search question;
A feature amount calculating step for calculating a query feature amount related to each query feature point;
The document image database in which the document image is registered by the registration method according to claim 7 is referred to, and the feature amount is the same or similar to each query feature point from the data set registered in the document image database. A separate search step for searching the data set to obtain a reference to the found data set;
A search is performed for each query feature point, each document identifier obtained is statistically processed, and a voting step for identifying a document image to be recommended as a search result is performed.
The feature point extraction step determines a connected component of lines constituting the document, extracts a centroid of each connected component as a feature point,
The feature amount calculating step obtains respective characteristic values by a predetermined calculation for a plurality of geometric elements determined by each feature point and n feature points (n is a natural number) in the vicinity thereof, and the characteristic values Calculates multiple invariants that are a combination of, and calculates each invariant using a geometric element that does not overlap with the geometric element used for one invariant for the other invariant. A document image search method, wherein a vector having invariants as dimensions is used as the feature amount.
JP2011045513A 2011-03-02 2011-03-02 Document image database registration and search method Expired - Fee Related JP5660574B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011045513A JP5660574B2 (en) 2011-03-02 2011-03-02 Document image database registration and search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011045513A JP5660574B2 (en) 2011-03-02 2011-03-02 Document image database registration and search method

Publications (3)

Publication Number Publication Date
JP2012181765A JP2012181765A (en) 2012-09-20
JP2012181765A5 JP2012181765A5 (en) 2014-04-03
JP5660574B2 true JP5660574B2 (en) 2015-01-28

Family

ID=47012893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011045513A Expired - Fee Related JP5660574B2 (en) 2011-03-02 2011-03-02 Document image database registration and search method

Country Status (1)

Country Link
JP (1) JP5660574B2 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4332556B2 (en) * 2005-03-01 2009-09-16 公立大学法人大阪府立大学 Document / image retrieval method and program thereof, document / image registration apparatus and retrieval apparatus
JP5096776B2 (en) * 2007-04-04 2012-12-12 キヤノン株式会社 Image processing apparatus and image search method
JP5004082B2 (en) * 2007-07-27 2012-08-22 公立大学法人大阪府立大学 Document image search method, document image registration method, program and apparatus thereof
JP4958228B2 (en) * 2007-09-12 2012-06-20 公立大学法人大阪府立大学 Registration method of document and / or image in database and search method thereof
US8233722B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated Method and system for finding a document image in a document collection using localized two-dimensional visual fingerprints

Also Published As

Publication number Publication date
JP2012181765A (en) 2012-09-20

Similar Documents

Publication Publication Date Title
US9201879B2 (en) Method, apparatus and system for generating a feature vector
JP4332556B2 (en) Document / image retrieval method and program thereof, document / image registration apparatus and retrieval apparatus
US9411849B2 (en) Method, system and computer storage medium for visual searching based on cloud service
US8036497B2 (en) Method, program and apparatus for storing document and/or image using invariant values calculated from feature points and method, program and apparatus for retrieving document based on stored document and/or image
JPWO2010092952A1 (en) Pattern recognition device
US8838657B1 (en) Document fingerprints using block encoding of text
JP6211407B2 (en) Image search system, image search device, search server device, image search method, and image search program
JPWO2010143573A1 (en) Object recognition image database creation method, creation apparatus, and creation processing program
CN111191652A (en) Certificate image identification method and device, electronic equipment and storage medium
CN106933824B (en) Method and device for determining document set similar to target document in multiple documents
CN113033269B (en) Data processing method and device
CN112445926A (en) Image retrieval method and device
JP6017277B2 (en) Program, apparatus and method for calculating similarity between contents represented by set of feature vectors
JP2019211869A (en) Retrieval object information narrowing-down system
JP5004082B2 (en) Document image search method, document image registration method, program and apparatus thereof
CN110688995B (en) Map query processing method, computer-readable storage medium and mobile terminal
JPWO2009110410A1 (en) Image collation device, image collation feature storage medium, image collation method, and image collation program
Terasawa et al. A fast appearance-based full-text search method for historical newspaper images
JP5660574B2 (en) Document image database registration and search method
Liu et al. Mobile retriever-finding document with a snapshot
Dang et al. Srif: Scale and rotation invariant features for camera-based document image retrieval
JP2009070066A (en) Method for registering document and/or image in database and its retrieval method
JP2014225168A (en) Program, device, and method for calculating similarity between images represented by feature point set
JP2012008979A (en) Character string search method, character string search device and recording medium
Qu et al. Neural-network-based Approach to Detect and Recognize Distorted Text in Images with Complicated Background

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141126

R150 Certificate of patent or registration of utility model

Ref document number: 5660574

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees