JP4941513B2 - 検索方法、検索プログラム及び検索システム - Google Patents
検索方法、検索プログラム及び検索システム Download PDFInfo
- Publication number
- JP4941513B2 JP4941513B2 JP2009146476A JP2009146476A JP4941513B2 JP 4941513 B2 JP4941513 B2 JP 4941513B2 JP 2009146476 A JP2009146476 A JP 2009146476A JP 2009146476 A JP2009146476 A JP 2009146476A JP 4941513 B2 JP4941513 B2 JP 4941513B2
- Authority
- JP
- Japan
- Prior art keywords
- descriptor
- sub
- label
- document
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18143—Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
- G06V30/18152—Extracting features based on a plurality of salient regional features, e.g. "bag of words"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、本発明の一実施形態のシステムの構成について説明する。図1は画像をキャプチャするカメラが搭載された電子デスクトップを示す。例えば、図1に示すように、主たる構成としては、検索対象とする画像を取得するカメラ310、このカメラ310の画像をソフトウェアモジュールを用いて処理するコンピュータ等の処理装置、この処理装置と一体もしくはネットワークを介する等して別途設けられた電子ドキュメントライブラリを記憶するサーバーなどの記憶装置、さらに検索された電子ドキュメントを表示するディスプレイが接続される。処理装置や記憶装置は、例えば、パーソナル・コンピュータ(PC)等の電子デスクトップ(図示せず)に設けてもよい。
本実施形態においては、イメージの特徴を表すディスクリプタとして、スケール不変特徴変換(SIFT:Scale Invariant Feature Transform)特徴とk次元(kd)ツリーを、検索のロバスト性と検索速度を改善するために変更して用いる。
SIFT法として知られるスケール不変特徴変換はロウにより提案され、画像の倍率と回転に不変である画像特徴のセットから構成される(非特許文献5)。グローバル特徴と比較して、SIFTディスクリプタはその空間ドメイン中のある位置におけるよりよい記述が可能な局所的な特徴である。その特徴を収集する領域は全体画像よりも小さく、その特徴セットは閉塞空間(occlusion:オクルージョン)を原因とする干渉、局所的な照明の変化、背景干渉、そして局所画像ノイズを回避することができる。さらに、サンプリング領域がより小さいので、SIFT特徴は透視変換に対してよりロバスト性が高くなる。
kdツリーはk次元空間での点群を管理するための空間分割データ構造である。kdツリーは、例えば範囲検索や最近傍検索といった多次元の検索キーを含む、検索などのいくつかのアプリケーションにとって有効なデータ構造である。kdツリーはバイナリー空間分割(BSP:Binary Space partitioning)ツリーの特別なケースである。kdツリーはその座標系の軸のうちの一つに垂直な分割平面だけを有する。これが任意の分割面が用いられるBPSツリーとの差である。加えて、kdツリーの各ノードは、根(root)から葉(leaf)まで、一つの点(point)を保持する。即ち、BSPツリーの一種であるkdツリーは、葉が点もしくは他の幾何学的な基本要素(primitive)を保持する通常唯一のノードであるBPSツリーとは相違する。
一様に分布したn個の点に関して、kdツリーの期待空間(expected space)とクエリ時間計算量(time complexity)は、それぞれO-記法で、O(n)およびO(logn)で表される。この期待計算複雑性(computational complexity)は、ブルータルフォースサーチ(brutal force search 腕力探索法)O(d×n)の計算複雑性よりもずっとよい。ここで、dはデータポイントの次元である。これがkdツリーを使ってデータ検索をする上での有力な点である。
オリジナルのSIFT特徴とマッチング手法のデザイン(設計)は、それぞれ個別のマッチングポイントを識別することに主眼をおいている。ミスマッチを減らすために、ディスクリプタの弁別性向上させることは重要である。本発明の多様な実施形態において、その目標は正確にドキュメントを認識できることである。ただし実施例のいくつかでは、最終的な目標に影響が無い範囲で、ポイントのミスマッチは許容される。
SIFT特徴とkdツリーの問題を克服するために、本実施形態では、各SIFT特徴を複数のサブ特徴に分割する。このため、kdツリーはそれぞれを低次元のサブ特徴から構成することが可能となる。マッチング基準も、k−最近傍投票法(k-nearest-neighbor voting)に変更することができる。このようにして、サブ特徴のkdツリーフォレストを得ることができる。各サブ特徴kdツリーにより生成された結果を融合させるために、各サブ特徴のkdツリーマッチングはその森(フォレスト)のk個のサブ特徴に対して‘k’個の投票を割り当て、投票結果に基づいて最頻出のラベルを電子ドキュメント(検索画像)に割り当てる。
本適用例において、2つの電子デスクトップ(そのうち一つを図1に示す。)間のコラボレーションが2つの異なる地点間で可能となる。電子デスクトップは、画像をキャプチャするカメラが搭載されたテーブルとコンピュータディスプレイ等から構成され、第1の電子デスクトップ上に紙ドキュメントが置かれたとき、第2のデスクトップのユーザは第2の電子デスクトップ上でそのドキュメントの複製を見ることができる。第1の電子デスクトップの縁に搭載されたカメラは、テーブル上に置かれた紙ドキュメントをキャプチャするために使われる。紙ドキュメントはテーブル上の任意の箇所に配置することができるので、カメラで撮影されたドキュメントの画像は歪んでいるかもしれない。
本適用例では、紙ドキュメントを編集するために、その紙ドキュメントの低解像画像をキャプチャし、オリジナル電子ドキュメントを見つけ開くために用いる。開かれた後は、テキストや図が編集できるようになる。
本適用例では、紙ドキュメントを電子メールするために、紙ドキュメントが多機能複合機(MFD)でスキャンされ、受信者に送信され、オリジナルのスキャン画像に応じた電子ドキュメントを検索することができる。MFDで得られた低解像度画像は、電子ドキュメントの代理リンクとして働く。
本適用例は、ドキュメントをファクシミリ送信するのに変えて、紙ドキュメントをMFDでスキャンし、低解像度スキャン画像が所望のファクシミリに送信され、そのスキャン画像に基づいて、オリジナルの電子ドキュメント検索することができる。低解像度画像は電子ドキュメントの代理ファクシミリとして用いられ、スキャンノイズやファックス伝送ノイズなしに高品質紙ドキュメントを提供する。
本適用例では、携帯電話を有するモバイルユーザが紙ドキュメントを職場で共有するものである。例えば、会社役員は空港で紙ドキュメントを読み、いくつか変更したいとする。役員は自分の秘書に変更したいページの画像を送る。低解像の携帯電話画像は、オリジナルドキュメントを検索するために用いられ、秘書のデスクトップ上にそれが提示される。本実施形態では、ドキュメントの特定箇所を送信することもできる。携帯電話のスクリーン中央の十字は紙ドキュメントの位置に対して相対的に記録することができる。修正の特定箇所を探す補助として、記録された中央点の位置は秘書に送信される。
本適用例では、紙ドキュメント中でアノテーション付けされ、ハイライトされた位置が電子ドキュメント上でも表示される。上の例で説明したように、画像はアノテーション付けされた紙ドキュメントに基づいて、オリジナルの電子ドキュメントを探すために用いることができる。紙ドキュメントの画像とオリジナル電子ドキュメントを比較することによって、アノテーション付けされた領域とハイライトされた領域を見つけることができ、同じアノテーションを電子ドキュメントに導入することもできる。
本実験例では、改良されたアルゴリズムが、ALOI(Amsterdam Library of Object Images)ライブラリ中の1000個の小さいオブジェクト画像を用いてテストされた。図6(A)はこのライブラリから集められたオブジェクトの幾つかを示す。図6(B)は各オブジェクトについてライブラリが有するいくつかの写真を示す。ライブラリはオブジェクトの画像を45°おきに集めてあるので、このライブラリはトレーニング用のデータを生成したり、多くの異なる撮影方向での実験を行うのに有効である。
400 画像
410 ガウシアン窓
420 ディスクリプタ(例えば、SIFT特徴)
430 勾配の大きさと配向を示す矢印
440 サブディスクリプタ(例えば、SIFTサブ特徴)
Claims (9)
- コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第1のラベルと、前記電子ドキュメントを視覚化した参照画像の特徴を表わす第1のディスクリプタの各々を分割して得られた前記第1のディスクリプタより低次元の複数の第1のサブディスクリプタとを保持するライブラリと、
検索の対象となる対象画像を取得する取得手段と、
前記対象画像から前記対象画像の特徴を記述する第2のディスクリプタを生成するディスクリプタ生成手段と、
前記第2のディスクリプタを分割して前記第2のディスクリプタより低次元の複数の第2のサブディスクリプタを生成するサブディスクリプタ生成手段と、
前記ライブラリ中の前記複数の第1のサブディスクリプタと複数の各前記第2のサブディスクリプタとの間でk−近似最近傍を決定するk−近似最近傍決定手段と、
前記各第2のサブディスクリプタの前記k−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第2のサブディスクリプタに第2のラベルをそれぞれ設定する第2ラベル設定手段と、
前記複数の第2のサブディスクリプタに設定された第2のラベルに基づいて前記対象画像にドキュメントラベルを割り当てるドキュメントラベル割り当て手段と、
前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索する検索手段と、
を備えることを特徴とする検索システム。 - 前記第1のサブディスクリプタは、前記参照画像中の予め定めた特徴点における特徴を記述したものであると共に、前記第2のサブディスクリプタは、前記対象画像中の予め定めた特徴点における特徴を記述したものであることを特徴とする請求項1記載の検索システム。
- 前記第2ラベル設定手段は、前記複数の第2のサブディスクリプタの各々について、前記k−近似最近傍に対応する前記電子ドキュメントに設定されているk個のラベルのうち、最も頻度の高いラベルを前記第2のサブディスクリプタに第2のラベルを設定することを特徴とする請求項1又は2記載の検索システム。
- 前記第2ラベル設定手段は、前記第2のサブディスクリプタに第2のラベルを設定するために、k−最近傍投票法をマッチング基準として用いて設定することを特徴とする請求項1から3までの何れか1項記載の検索システム。
- 前記第1のディスクリプタ及び前記第2のディスクリプタが、スケール不変変換(SIFT)画像特徴であることを特徴とする請求項1から4までの何れか1項記載の検索システム。
- 前記スケール不変変換(SIFT)画像特徴を空間的に整数分の1に分割して生成する局所的サブ特徴を、前記第1のサブディスクリプタ及び前記第2のサブディスクリプタとすることを特徴とする請求項5記載の検索システム。
- 前記ライブラリには前記第1のサブディスクリプタに基づいて予め生成されたkdツリーが記憶され、前記第2ラベル設定手段は、前記kdツリーに基づいて、前記第2のサブディスクリプタのk−近似最近傍を決定することを特徴とする請求項1から6までの何れか1項記載の検索システム。
- 前記kdツリーの各ノードには、前記第1のサブディスクリプタ及び前記第1のラベルが関連付けられることを特徴とする請求項7記載の検索システム。
- コンピュータに、ライブラリから電子ドキュメントを検索させるための検索プログラムであって、
前記ライブラリは、コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第1のラベルと、前記電子ドキュメントを視覚化した参照画像の特徴を表わす第1のディスクリプタの各々を分割して得られた前記第1のディスクリプタより低次元の複数の第1のサブディスクリプタとを備えており、
前記コンピュータに、
検索の対象となる対象画像を取得し、
前記対象画像から前記対象画像の特徴を記述する第2のディスクリプタを生成し、
前記第2のディスクリプタを分割して前記第2のディスクリプタより低次元の複数の第2のサブディスクリプタを生成し、
前記ライブラリ中の前記複数の第1のサブディスクリプタと複数の各前記第2のサブディスクリプタとの間でk−近似最近傍を決定し、
前記各第2のサブディスクリプタの前記k−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第2のサブディスクリプタに第2のラベルをそれぞれ設定し、
前記複数の第2のサブディスクリプタに設定された第2のラベルに基づいて前記対象画像にドキュメントラベルを割り当て、
前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索する、
各手順を実行させるための検索プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/184,124 US8139860B2 (en) | 2008-07-31 | 2008-07-31 | Retrieving and sharing electronic documents using paper |
US12/184,124 | 2008-07-31 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2010040032A JP2010040032A (ja) | 2010-02-18 |
JP2010040032A5 JP2010040032A5 (ja) | 2012-01-26 |
JP4941513B2 true JP4941513B2 (ja) | 2012-05-30 |
Family
ID=41609376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009146476A Expired - Fee Related JP4941513B2 (ja) | 2008-07-31 | 2009-06-19 | 検索方法、検索プログラム及び検索システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8139860B2 (ja) |
JP (1) | JP4941513B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8818103B2 (en) * | 2009-03-04 | 2014-08-26 | Osaka Prefecture University Public Corporation | Image retrieval method, image retrieval program, and image registration method |
JP5366212B2 (ja) * | 2010-03-01 | 2013-12-11 | Kddi株式会社 | 多数の参照用映像の中から検索キー用映像を用いて検索する映像検索装置、プログラム及び方法 |
US8625888B2 (en) * | 2010-07-21 | 2014-01-07 | Microsoft Corporation | Variable kernel size image matting |
JP5552981B2 (ja) * | 2010-09-15 | 2014-07-16 | 株式会社リコー | 索引方法、検索方法、及びその記憶媒体 |
US9218526B2 (en) * | 2012-05-24 | 2015-12-22 | HJ Laboratories, LLC | Apparatus and method to detect a paper document using one or more sensors |
US8768049B2 (en) | 2012-07-13 | 2014-07-01 | Seiko Epson Corporation | Small vein image recognition and authorization using constrained geometrical matching and weighted voting under generic tree model |
US8941847B2 (en) | 2012-07-26 | 2015-01-27 | Fuji Xerox Co., Ltd. | Mobile scan setup and context capture prior to scanning |
US10846562B2 (en) * | 2018-01-12 | 2020-11-24 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for image matching |
US10730293B1 (en) | 2019-02-27 | 2020-08-04 | Ricoh Company, Ltd. | Medium classification mechanism |
US11704312B2 (en) * | 2021-08-19 | 2023-07-18 | Microsoft Technology Licensing, Llc | Conjunctive filtering with embedding models |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3952592B2 (ja) * | 1998-04-30 | 2007-08-01 | キヤノン株式会社 | 画像検索装置及び方法 |
US9373029B2 (en) * | 2007-07-11 | 2016-06-21 | Ricoh Co., Ltd. | Invisible junction feature recognition for document security or annotation |
JP2005141776A (ja) * | 2005-02-07 | 2005-06-02 | Fuji Xerox Co Ltd | 画像抽出装置および方法 |
JP4332556B2 (ja) * | 2005-03-01 | 2009-09-16 | 公立大学法人大阪府立大学 | 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 |
JP4968882B2 (ja) * | 2005-06-03 | 2012-07-04 | キヤノン株式会社 | 画像検索装置、画像検索方法およびプログラム |
US20070071323A1 (en) * | 2005-09-26 | 2007-03-29 | Cognisign Llc | Apparatus and method for processing user-specified search image points |
US7720289B2 (en) * | 2005-12-14 | 2010-05-18 | Mitsubishi Electric Research Laboratories, Inc. | Method for constructing covariance matrices from data features |
US8705810B2 (en) * | 2007-12-28 | 2014-04-22 | Intel Corporation | Detecting and indexing characters of videos by NCuts and page ranking |
-
2008
- 2008-07-31 US US12/184,124 patent/US8139860B2/en not_active Expired - Fee Related
-
2009
- 2009-06-19 JP JP2009146476A patent/JP4941513B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010040032A (ja) | 2010-02-18 |
US8139860B2 (en) | 2012-03-20 |
US20100030778A1 (en) | 2010-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4941513B2 (ja) | 検索方法、検索プログラム及び検索システム | |
US20210397838A1 (en) | Systems and methods for image-feature-based recognition | |
US8276088B2 (en) | User interface for three-dimensional navigation | |
US8738647B2 (en) | Method and system for image matching | |
US8144921B2 (en) | Information retrieval using invisible junctions and geometric constraints | |
US8234277B2 (en) | Image-based retrieval for high quality visual or acoustic rendering | |
US8868555B2 (en) | Computation of a recongnizability score (quality predictor) for image retrieval | |
US8510283B2 (en) | Automatic adaption of an image recognition system to image capture devices | |
US8086038B2 (en) | Invisible junction features for patch recognition | |
US9373029B2 (en) | Invisible junction feature recognition for document security or annotation | |
US20090015676A1 (en) | Recognition and Tracking Using Invisible Junctions | |
US20090070415A1 (en) | Architecture for mixed media reality retrieval of locations and registration of images | |
US20090070110A1 (en) | Combining results of image retrieval processes | |
JP2001209803A (ja) | 内容基盤イメージ検索システム及びその方法 | |
JP2011008752A (ja) | ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム | |
US20210303650A1 (en) | Delivering information about an image corresponding to an object at a particular location | |
US7751621B1 (en) | Method and system for rapid object recall within images | |
do Valle Jr | Local-descriptor matching for image identification systems | |
Chen et al. | Mobile visual search from dynamic image databases | |
JP2004280514A (ja) | Pdfファイル及びpdfファイル作成システム | |
Havasi et al. | Search in WikiImages using mobile phone | |
CN116563527A (zh) | 图像处理系统以及处理图像的方法 | |
KR20020008880A (ko) | 질감기술자를 이용한 명함 검색 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111207 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111207 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20111207 |
|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20120124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120131 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4941513 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |