JP4941513B2 - 検索方法、検索プログラム及び検索システム - Google Patents

検索方法、検索プログラム及び検索システム Download PDF

Info

Publication number
JP4941513B2
JP4941513B2 JP2009146476A JP2009146476A JP4941513B2 JP 4941513 B2 JP4941513 B2 JP 4941513B2 JP 2009146476 A JP2009146476 A JP 2009146476A JP 2009146476 A JP2009146476 A JP 2009146476A JP 4941513 B2 JP4941513 B2 JP 4941513B2
Authority
JP
Japan
Prior art keywords
descriptor
sub
label
document
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009146476A
Other languages
English (en)
Other versions
JP2010040032A5 (ja
JP2010040032A (ja
Inventor
リュウ チョン
チィーウ パトリック
ディー.ウィルコックス リン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2010040032A publication Critical patent/JP2010040032A/ja
Publication of JP2010040032A5 publication Critical patent/JP2010040032A5/ja
Application granted granted Critical
Publication of JP4941513B2 publication Critical patent/JP4941513B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18143Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
    • G06V30/18152Extracting features based on a plurality of salient regional features, e.g. "bag of words"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子ドキュメントの検索方法、検索プログラム及び検索システムに関する。
ペーパレスオフィスが十年以上提案されているものの、我々の日常生活においてはいまだに紙は好適な媒体である。L.シーアによれば、オフィスで一人が毎週使う紙は平均で2.5ポンド(1.1キログラム)であり、アメリカ人は毎年オフィス用紙を4百万トン廃棄しているという(非特許文献1)。
現在、人々はドキュメントのオリジナルを探すために、ディレクトリ構造を探索インターフェースを使っている。このインターフェースでは、ユーザは多くのディレクトリやファイルを探し出す必要がある。また、電子ドキュメントを見つけるのにディレクトリやファイル名を探す作業を減らすために、利用者は入力文字列に基づいて検索するインターフェースを利用している。こうしたインターフェースは、検索用語がファイルの名前や本文に含まれているときには探しているドキュメントを返す一方で、多くの無関係のファイルも返すことになり、検索結果のリストをユーザが見直さなければならない。
また他に、ドキュメント画像を用いてそのドキュメントを検索する関連手法がある。例えば、チィーウらによる離散コサイン変換係数(DCT係数)のマッチングに基づくドキュメント検索方法(非特許文献2)、エロールらによる光学文字認識(OCR)の結果と線のプロファイルに基づく画像中のドキュメント検索(非特許文献3)、リュウらによるSIFT(Scale Invariant Feature Transform)法により表示されるドキュメントに応じた電子ドキュメントを識別する方法(非特許文献4)、などが挙げられる。
L.シーア(L. Shea)、「紙の利用とリサイクル:どの位我々は紙を無駄にしているか?(Paper Usage and Recycling : How much Paper do we Waste?)」、[online]、[平成20年5月23日検索]インターネット< http://www.lisashea.com/lisabase/aboutme/paperusage.html > P.チィーウ(P. Chiu)ら、「リアビュー付きの部屋:マルチメディア会議室での会議のキャプチャ(Room with a Rear View: Meeting Capture in a Multimedia Conference Room)」、IEEEマルチメディアマガジン(IEEE Multimedia Magazine)、2000年、第7巻第4号、第48〜54頁 B.エロール(B. Erol)ら「画像解析を用いた会議ドキュメントの結合(Linking Presentation Documents Using Image Analysis)」、第37回信号、システムとコンピュータのアシロマー会議(カリフォルニア州パシフィックグローブ)(Asilomar Conference on Signals, Systems, and Computers, Pacific Grove, CA)、2003年11月、第1巻第97−101頁 Q.リュウ(Q. Liu)ら「モバイルカメラでのドキュメントのリダイレクティング(On Redirecting Documents with a Mobile Camera」、2006年10月、2006年IEEE第8回マルチメディア信号処理に関するワークショップ(ビクトリア、カナダ)(in Proceeding of 2006 IEEE 8th workshop on Multimedia Signal Processing, Victoria, BC, Canada)、第467−470頁、) D.G.ロウ(D.G. Lowe)「倍率不変キーポイントからの特有画像特徴(Distinctive image features from scale-invariant keypoints)」、2004年、コンピュータビジョン国際ジャーナル(International Journal on Computer Vision)、第60巻(、91-110頁) スプロウル(R. L. Sproull)、「最近接検索の改善(Refinements to nearest-neighbor searching)」, 1991年、アルゴリズミカ(Algorithmica)、第6巻、第579−589頁 S.アルヤ(S. Arya)ら、「近似最近接検索の最適アルゴリズム(An optimal algorithm for approximate nearest neighbor searching)」、1998年、ACMジャーナル(Journal of the ACM)、第45号、第6巻、第891−923頁 D.M.マウント(D.M. Mount)、「ANNプログラミングマニュアル( ANN Programming Manual )」、[online]、[平成20年5月23日検索]、インターネット<http://www.cs.umd.edu/~mount/ANN/Files/1.1.1/ANNmanual_1.1.1.pdf>) S.アルヤ(S. Arya)ら、「固定次元での近似最近接検索(Approximate nearest neighbor queries in fixed dimensions)」、1993年、第4回ACM−SIAMシンポジウムオンディスクリートアルゴリズム予稿(In Proc. 4th ACM-SIAM Symposium on Discrete Algorithms)、第271−280頁
確認が必要な紙の書類が積み重なっていると、ドキュメントを見つけることは難しい。同様にオリジナルの電子ファイルを見つけることも難しい。ディレクトリ構造を探索するインターフェースは、ユーザが多くのディレクトリやファイル名を覚えることができるなら有効である。しかし、ディレクトリやファイルの数が増えると、このインターフェースは面倒で時間を食う。キーワード検索を用いるインターフェースは、ユーザによる特定の検索キーワードを用いて絞り込んでファイル検索するので時間の節約にはなる。しかし、ユーザは適切なキーワードを入力する必要があり、所望の電子ドキュメントが単独で特定される保証は無い。
チィーウらの手法は、DCT係数のマッチングに基づいており、画像中でそのドキュメントが大きい面積を占めている必要があり、あるいは画像中のドキュメント領域がセグメントアルゴリズムにより識別されている必要がある(非特許文献2)。これらの制約により、画像中に不規則な場所でキャプチャされたドキュメントを見出すことは困難が伴う。同時に画像中に複数のドキュメントが存在する場合には、セグメント解析が十分になされないと、このアプローチでは問題がおきかねない。
エロールの手法は、OCRと線のプロファイルに基づいており、高解像度のOCRが必要となる(非特許文献3)。OCRは同じ画像中に複数のドキュメントが含まれているときにはうまく働かない。さらに、エロールの手法は、非テキスト画像には適用できない。
さらに、テキストが使われる場合には、この手法は検索を補助する言語の知識を使うこともできる。この手法には有利な点もあるが、アルゴリズムが働くようにするため、OCRで文字列がはっきりキャプチャできる高解像度のカメラが必要となる。高解像カメラが必要であるために、通常のユーザ向けのシステムには採用し難い。さらに、そのドキュメントに少ししか単語が無いとか、OCRが対応していない外国語で書かれているようなとき、テキスト検索アルゴリズムは不利となる。
リュウによる手法は、少量のドキュメントからの検索では非常に有効である(非特許文献4)。しかし、画像の特徴次元が128次元と高いことから、大量のドキュメントコレクションを対象にこのアルゴリズムを適用することは実用的とは言いにくい。加えて、128次元を検索するための画像パッチが大きく、全体的な外乱とカメラによる透視歪化が発生する原因となりやすい。
チィーウ、エロール、リュウの各手法の限界は、ディレクトリ探索やキーワード検索などの一般的な検索インターフェースと同様の問題点に帰着することである。
下記の利点から、これまでに紙を用いた電子ドキュメントの検索、再生、共有システムを構成するいくつもの試みがあったが、実用化に至っていない。第1に、多様なカメラや撮影環境下での取得ドキュメントを表現するのにはロバストな特徴が必要である。第2に、高速な検索アルゴリズムは大量のドキュメントを高速に処理できることが必要である。第3に、言語に依存しないアルゴリズムでは任意のドキュメントの検索が可能であり、国外とのコラボレーションをサポートできることも期待できる。
本発明は上述の問題点を踏まえて成されたものであり、本発明は、ロバスト性が高く且つより高速の検索が可能な、電子ドキュメントの検索方法、検索プログラム及び検索システムを提供することを目的とする。
上記課題を解決するために、請求項1に係る発明は、コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第1のラベルと、前記電子ドキュメントを視覚化した参照画像の空間的な特徴を表わす第1のディスクリプタを空間的に複数の領域に分割してなる複数の第1のサブディスクリプタとを保持するライブラリと、検索の対象となる対象画像を取得する取得手段と、前記対象画像から前記対象画像の空間的な特徴を記述する第2のディスクリプタを生成するディスクリプタ生成手段と、前記第2のディスクリプタを空間的に複数の領域に分割して複数の第2のサブディスクリプタを生成しサブディスクリプタ生成手段と、前記ライブラリ中の前記複数の第1のサブディスクリプタと複数の各前記第2のサブディスクリプタとの間でk−近似最近傍を決定するk−近似最近傍決定手段と、前記各第2のサブディスクリプタの前記k−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第2のサブディスクリプタに第2のラベルをそれぞれ設定する第2ラベル設定手段と、前記複数の第2のサブディスクリプタに設定された第2のラベルに基づいて前記対象画像にドキュメントラベルを割り当てるドキュメントラベル割り当て手段と、前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索する検索手段と、を備えることを特徴とする検索システムである。
請求項2に係る発明は、前記第1のサブディスクリプタは、前記参照画像中の予め定めた特徴点における特徴を記述したものであると共に、前記第2のサブディスクリプタは、前記対象画像中の予め定めた特徴点における特徴を記述したものであることを特徴とする請求項1記載の検索システムである。
請求項3に係る発明は、前記第2ラベル設定手段は、前記複数の第2のサブディスクリプタの各々について、前記k−近似最近傍に対応する前記電子ドキュメントに設定されているk個のラベルのうち、最も頻度の高いラベルを前記第2のサブディスクリプタに第2のラベルを設定することを特徴とする請求項1又は2記載の検索システムである。
請求項4に係る発明は、前記第2ラベル設定手段は、前記第2のサブディスクリプタに第2のラベルを設定するために、k−最近傍投票法をマッチング基準として用いて設定することを特徴とする請求項1から3までの何れか1項記載の検索システムである。
請求項5に係る発明は、前記第1のディスクリプタ及び前記第2のディスクリプタが、スケール不変変換(SIFT)画像特徴であることを特徴とする請求項1から4までの何れか1項記載の検索システムである。
請求項6に係る発明は、前記スケール不変変換(SIFT)画像特徴を空間的に整数分の1に分割して生成する局所的サブ特徴を、前記第1のサブディスクリプタ及び前記第2のサブディスクリプタとすることを特徴とする請求項5記載の検索システムである。
請求項7に係る発明は、前記ライブラリには前記第1のサブディスクリプタに基づいて予め生成されたkdツリーが記憶され、前記第2ラベル設定手段は、前記kdツリーに基づいて、前記第2のサブディスクリプタのk−近似最近傍を決定することを特徴とする請求項1から6までの何れか1項記載の検索システムである。
請求項8に係る発明は、前記kdツリーの各ノードには、前記第1のサブディスクリプタ及び前記第1のラベルが関連付けられることを特徴とする請求項7記載の検索システムである。
請求項9に係る発明は、コンピュータに、ライブラリから電子ドキュメントを検索させるための検索プログラムであって、前記ライブラリは、コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第1のラベルと、前記電子ドキュメントを視覚化した参照画像の空間的な特徴を表わす第1のディスクリプタを空間的に複数の領域に分割してなる複数の第1のサブディスクリプタとを備えており、前記コンピュータに、検索の対象となる対象画像を取得し、前記対象画像から前記対象画像の空間的な特徴を記述する第2のディスクリプタを生成し、前記第2のディスクリプタを空間的に複数の領域に分割して複数の第2のサブディスクリプタを生成し、前記ライブラリ中の前記複数の第1のサブディスクリプタと複数の各前記第2のサブディスクリプタとの間でk−近似最近傍を決定し、前記各第2のサブディスクリプタの前記k−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第2のサブディスクリプタに第2のラベルをそれぞれ設定し、前記複数の第2のサブディスクリプタに設定された第2のラベルに基づいて前記対象画像にドキュメントラベルを割り当て、前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索する、各手順を実行させるための検索プログラムである。
請求項10に係る発明は、ライブラリから電子ドキュメントを検索する検索方法であって、前記ライブラリは、コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第1のラベルと、前記電子ドキュメントを視覚化した参照画像の空間的な特徴を表わす第1のディスクリプタを空間的に複数の領域に分割してなる複数の第1のサブディスクリプタとを備え、前記ライブラリから電子ドキュメントを検索する検索方法が、検索の対象となる対象画像を取得し、前記対象画像から前記対象画像の空間的な特徴を記述する第2のディスクリプタを生成し、前記第2のディスクリプタを空間的に複数の領域に分割して複数の第2のサブディスクリプタを生成し、前記ライブラリ中の前記複数の第1のサブディスクリプタと複数の各前記第2のサブディスクリプタとの間でk−近似最近傍を決定し、前記各第2のサブディスクリプタの前記k−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第2のサブディスクリプタに第2のラベルをそれぞれ設定し、前記複数の第2のサブディスクリプタに設定された第2のラベルに基づいて前記対象画像にドキュメントラベルを割り当て、前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索する、ことを特徴とする検索方法である。
本発明によれば、従来の技術と比較して、検索のロバスト性が向上すると共に検索速度が速くなる、という効果がある。
画像をキャプチャするカメラが搭載された電子デスクトップを示す図である。 画像の完全なディスクリプタの模式図である。 完全なディスクリプタを4分割したサブディスクリプタの模式図である。 本発明に関わる電子ドキュメントの検索および識別に関する一般的な工程を示すフローチャートである。 本発明に関わるSIFTディスクリプタとkdツリーを用いて電子ドキュメントの検索と識別を行う工程を示すフローチャートである。 (A)及び(B)は、アムステルダム ライブラリ オブ オブジェクト イメージ(ALOI)ライブラリから取得した小さいオブジェクト画像である。 本発明の手法による一例と既存のSIFT法を利用したときの、精度と平均検索コストの比較結果を示すグラフである。
本発明は、コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第1のラベルと、前記電子ドキュメントを視覚化した参照画像の空間的な特徴を表わす第1のディスクリプタを空間的に複数の領域に分割してなる複数の第1のサブディスクリプタとを備えたライブラリから電子ドキュメントを検索する検索方法等に関するものであり、検索の対象となる対象画像を取得し、前記対象画像から前記対象画像の空間的な特徴を記述する第2のディスクリプタを生成し、前記第2のディスクリプタを空間的に複数の領域に分割して複数の第2のサブディスクリプタを生成し、前記ライブラリ中の前記複数の第1のサブディスクリプタと複数の各前記第2のサブディスクリプタとの間でk−近似最近傍を決定し、前記各第2のサブディスクリプタの前記k−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第2のサブディスクリプタに第2のラベルをそれぞれ設定し、前記複数の第2のサブディスクリプタに設定された第2のラベルに基づいて前記対象画像にドキュメントラベルを割り当て、前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索することを特徴とする検索方法等である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<システム概要>
まず、本発明の一実施形態のシステムの構成について説明する。図1は画像をキャプチャするカメラが搭載された電子デスクトップを示す。例えば、図1に示すように、主たる構成としては、検索対象とする画像を取得するカメラ310、このカメラ310の画像をソフトウェアモジュールを用いて処理するコンピュータ等の処理装置、この処理装置と一体もしくはネットワークを介する等して別途設けられた電子ドキュメントライブラリを記憶するサーバーなどの記憶装置、さらに検索された電子ドキュメントを表示するディスプレイが接続される。処理装置や記憶装置は、例えば、パーソナル・コンピュータ(PC)等の電子デスクトップ(図示せず)に設けてもよい。
プログラミング可能なカメラ(例、携帯電話の内蔵カメラ)又はプログラムできないカメラ(例えば、図1のようにPCに直接接続されたカメラ)を用いたシステムを実現するうえで構成は多少異なるが、ソフトウェアは3種類のモジュール(モバイルクライアントモジュール、サービスプロキシモジュール、およびドキュメント操作モジュール)に分けることができる。
モバイルクライアントモジュールは、カメラからドキュメントイメージをキャプチャするために用いられるクライアントアプリケーションである。カメラが携帯電話に内蔵されている場合は、このアプリケーションは携帯電話自体によって実行することができる。図1に示すように、もしカメラ310が遠隔会議システム又はサーバーPCに接続されている場合は、ソフトウェアモジュールはカメラ310に接続されたPC上で実行される。このモジュールをメインシステムから分離することで、複数のカメラを制御するシステムのスケールアップが容易になる。
サービスプロキシモジュールは、様々なカメラがドキュメント操作モジュールと通信をするためのウェブサービスを提供する。詳細には、サービスプロキシモジュールはキャプチャした画像を解析し、低レベルの画像特徴を検索し、それらの検索された特徴にマッチするオリジナルの電子ドキュメントを検索する。本発明の実施形態では、異なるプロキシサービスが同じハードウェアの異なるドキュメントシステムに提供される。
ドキュメント操作モジュールは、オリジナルの電子ドキュメントにアクセスする権限を持つサービスアプリケーションモジュールである。これはドキュメントレポジトリにアクセスする装置に設けられる。このサービスの実行を補うために、ドキュメント操作モジュールはウェブサイトから直接開始させることもできる。
<特徴検索および検索>
本実施形態においては、イメージの特徴を表すディスクリプタとして、スケール不変特徴変換(SIFT:Scale Invariant Feature Transform)特徴とk次元(kd)ツリーを、検索のロバスト性と検索速度を改善するために変更して用いる。
本実施形態は、ハードディスク等のドキュメントのライブラリ(あるいはリポジトリ)からドキュメントを検索するものであり、検索対象のドキュメントの画像を取得し、その画像に基づいて複数のSIFT画像特徴を生成し、各SIFT画像特徴に基づいて複数の局所的サブ特徴を生成し、各局所的サブ特徴毎のkdツリーを用いk−近似最近傍を決定し、各局所的サブ特徴の最頻出ラベルに基づいて各SIFT画像特徴の各局所的サブ特徴にラベルを割り当て、最頻出の局所的サブ特徴ラベルに基づいて電子ドキュメントにドキュメントラベルを割り当て、そのドキュメントラベル割り当てに基づいてドキュメントの検索を行う。
なお、ライブラリ中の電子ドキュメントは予め書類名や種類などのラベル、電子ドキュメントを可視化した画像から後で述べる方法でサブ特徴を生成し、これらを電子ドキュメントと関連付けて記憶してある。
<SIFT特徴>
SIFT法として知られるスケール不変特徴変換はロウにより提案され、画像の倍率と回転に不変である画像特徴のセットから構成される(非特許文献5)。グローバル特徴と比較して、SIFTディスクリプタはその空間ドメイン中のある位置におけるよりよい記述が可能な局所的な特徴である。その特徴を収集する領域は全体画像よりも小さく、その特徴セットは閉塞空間(occlusion:オクルージョン)を原因とする干渉、局所的な照明の変化、背景干渉、そして局所画像ノイズを回避することができる。さらに、サンプリング領域がより小さいので、SIFT特徴は透視変換に対してよりロバスト性が高くなる。
ロウの手法によれば、各SIFTディスクリプタは128次元を持つ(非特許文献5)。特徴検索の定義に基づいて、ディスクリプタの最小サンプリング領域は16×16画素とされる。より高次元で広範囲のサンプリング空間だと、SIFT特徴には強みと弱みの両方が生まれる。128次元では、SIFTディスクリプタは非常に特徴的な記述子である。しかし、あまりSIFTディスクリプタの次元が高いと、後で検索に障害が生まれる。ロウの手法では、高速検索のために、ベストビンファースト(Best-Bin-Fast:BBF)アルゴリズムの使用を提案してはいるが、BBFは次元がそれほど高くない(例えば、8〜15次元)ときに良好なパフォーマンスを与えるだけである。加えて、16×16画素のサンプリング領域は、オクルージョンや局所ノイズに対して、より小さいサンプリング領域の場合よりも、影響を受け易い。
<kdツリー>
kdツリーはk次元空間での点群を管理するための空間分割データ構造である。kdツリーは、例えば範囲検索や最近傍検索といった多次元の検索キーを含む、検索などのいくつかのアプリケーションにとって有効なデータ構造である。kdツリーはバイナリー空間分割(BSP:Binary Space partitioning)ツリーの特別なケースである。kdツリーはその座標系の軸のうちの一つに垂直な分割平面だけを有する。これが任意の分割面が用いられるBPSツリーとの差である。加えて、kdツリーの各ノードは、根(root)から葉(leaf)まで、一つの点(point)を保持する。即ち、BSPツリーの一種であるkdツリーは、葉が点もしくは他の幾何学的な基本要素(primitive)を保持する通常唯一のノードであるBPSツリーとは相違する。
<kdツリー利用の困難性>
一様に分布したn個の点に関して、kdツリーの期待空間(expected space)とクエリ時間計算量(time complexity)は、それぞれO-記法で、O(n)およびO(logn)で表される。この期待計算複雑性(computational complexity)は、ブルータルフォースサーチ(brutal force search 腕力探索法)O(d×n)の計算複雑性よりもずっとよい。ここで、dはデータポイントの次元である。これがkdツリーを使ってデータ検索をする上での有力な点である。
しかし、データポイントが不均一な分布のとき、kdツリーの計算複雑性は次元に従って非常に急激に増加する(非特許文献6)。アルヤらによれば、漸近的実行時間中に隠れたkdツリーの計算複雑性定係数は、少なくとも2のd乗と同様の速さで増加し、データポイントnの数が2のd乗よりも十分に大きくない場合、境界効果は指数関数的な次元依存性での緩やかな減少だけとなる(非特許文献7)。高次元空間でのこの複雑性の変化により、多くの画像コレクションにSIFT特徴を用いることは難しくなる。
本実施形態では、予め、ハードディスク等のドキュメントのライブラリあるいはリポジトリからドキュメントを検索し、これらのドキュメントの画像(参照画像)を取得して電子ドキュメントとして取り扱い、その画像に基づいて複数のディスクリプタを生成し、各ディスクリプタを空間的に複数の領域に分割して複数のローカルサブディスクリプタを生成し、複数のサブディスクリプタのそれぞれに対してkdツリーを作成する。kdツリーの各ノードにはサブディスクリプタとドキュメント名等のラベルが与えられる。これらの関連付けられたデータはライブラリに保持される。
ドキュメントを検索する場合、その対象ドキュメント(対象画像)についても同様にサブディスクリプタを生成し、このkdツリーを用いてサブディスクリプタのk近似最近傍を決定し、このk個の結果のうちで最頻出ラベルに基づいて各サブディスクリプタにラベルを割り当て、それらのうちで最頻出サブディスクリプタラベルに基づいて検索ドキュメントにドキュメントラベルを割り当て、そのドキュメントラベルに基づいてドキュメントの検索を行う。
<SIFT特徴マッチング手法>
オリジナルのSIFT特徴とマッチング手法のデザイン(設計)は、それぞれ個別のマッチングポイントを識別することに主眼をおいている。ミスマッチを減らすために、ディスクリプタの弁別性向上させることは重要である。本発明の多様な実施形態において、その目標は正確にドキュメントを認識できることである。ただし実施例のいくつかでは、最終的な目標に影響が無い範囲で、ポイントのミスマッチは許容される。
ロウの手法では、マッチングポイントは最近傍の点と2番目に最近傍の点との距離の比に応じて識別される(非特許文献5)。ロウのマッチング手法は、最近傍点と2番目の近傍点との正確な最近傍検索が必要となる。マウントの手法によれば、既存の最近傍検索アルゴリズムは、非常に低次元で無い限り、腕力探索法(brute-force search)と比べてさほど検索結果は良くはないとされる(非特許文献8)。
ただし、もしユーザが検索で多少の誤りを許容する場合であれば、実行時間の面では最近傍探索アルゴリズムは顕著な改善を達成することができる(非特許文献9)。したがって、SIFT特徴マッチング手法の変更により、ドキュメント認識時間の総時間を減少させることが可能である。
<SIFTサブ特徴とkdツリーフォレスト>
SIFT特徴とkdツリーの問題を克服するために、本実施形態では、各SIFT特徴を複数のサブ特徴に分割する。このため、kdツリーはそれぞれを低次元のサブ特徴から構成することが可能となる。マッチング基準も、k−最近傍投票法(k-nearest-neighbor voting)に変更することができる。このようにして、サブ特徴のkdツリーフォレストを得ることができる。各サブ特徴kdツリーにより生成された結果を融合させるために、各サブ特徴のkdツリーマッチングはその森(フォレスト)のk個のサブ特徴に対して‘k’個の投票を割り当て、投票結果に基づいて最頻出のラベルを電子ドキュメント(検索画像)に割り当てる。
図2は画像の完全なディスクリプタの模式図である。図2はロウにより採用され、最大8×8マトリクスのディスクリプタ420により構成する画像400の一部を示したものであり、8×8マトリクスの各サンプルポイントでの勾配の大きさと配向が矢印430で示されている。この矢印(即ち、各サンプルポイントでの勾配の大きさと配向)はディスクリプタに反映され、ガウシアン窓410により重み付けられる。
一方、本発明の実施形態においては、k−近似最近傍を得る手法として、完全SIFT特徴を空間的に分割した複数のSIFTサブ特徴とそのサブ特徴のkdツリーフォレストを使うことにより、次元の増加による問題が克服できる。さらに、サブ特徴は完全な特徴よりも局所化されており、決定が投票によりなされるので、サブ特徴はよりオクルージョンや他の局所化ノイズ干渉に対し耐性がある。
図3は完全なディスクリプタを4分割したサブディスクリプタの模式図である。図3は、画像400の各特徴420を、4つのサブ特徴440に分割することを図示したものである。サブ特徴を挿入することによりミスマッチが問題となりうる。しかし、ミスマッチが特徴空間に渡って一様に分布しているなら、ミスマッチにより生ずる誤ったドキュメント検索失敗アラームはkdツリー投票プロセスによって打ち消される。各サブ特徴マッチングの信頼度が完全特徴マッチングと比べて低い場合でも、この信頼度は実際のドキュメント検索に対し殆ど否定的影響を与えない。加えて、各サブ特徴は、完全特徴中のサブ特徴位置に応じて、サブ特徴kdツリーの一つに割り当てることができる。結果として、連関するサブ特徴の部分における、ミスマッチの減少を維持することができる。
また、本発明の他のより具体的な実施形態では、ハードディスク等のドキュメントのライブラリあるいはリポジトリからドキュメントを検索し、ドキュメントの画像を取得し、その画像に基づいて複数の128次元SIFT画像特徴(ディスクリプタ)を生成し、各128次元SIFT画像特徴に基づいて4つの32次元の局所的サブ特徴(ローカルサブディスクリプタ)を生成し、各局所的サブ特徴毎のkdツリーを作成し、各局所的サブ特徴の最頻出ラベルに基づいて各SIFT画像特徴の各局所的サブ特徴にラベルを割り当て、最頻出の局所的サブ特徴ラベルに基づいて電子ドキュメントにドキュメントラベルを割り当て、そのドキュメントラベル割り当てに基づいてドキュメントの検索を行う。
図4は、本発明に関わる電子ドキュメントの検索および識別に関する一般的な工程を示すフローチャートである。図4は、本発明の一実施形態であって、電子ドキュメントファイルの検索に関する一般的な手順を示す。一旦検索用ドキュメント画像(対象画像)が得られると(510)、まず全ディスクリプタが生成され(520)、全ディスクリプタに基づいてローカルサブディスクリプタが生成される(530)。続いて、各ローカルサブディスクリプタのk−最近傍が決定され(540)、k−最近傍の最頻出ラベルが各ローカルサブディスクリプタのラベルとして割り当てられる(550)。全てのサブディスクリプタの中の最頻出ラベルを、電子ドキュメントのドキュメントラベルとして割り当てる(560)。ドキュメントラベルは電子ドキュメントを検索するのに用いられる(570)。
図5は、本発明に関わるSIFTディスクリプタとkdツリーを用いて電子ドキュメントの検索と識別を行う工程を示すフローチャートである。図5は、本発明の実施形態であって、SIFTディスクリプタとkdツリーを用いた電子ドキュメントの検索および識別方法を示す。検索用ドキュメント画像(対象画像)が取得されると(610)、複数のSIFT画像特徴が生成される(620)。SIFT画像特徴に基づいて、複数の局所的サブ特徴(ローカルサブディスクリプタ)が生成される(630)。各局所的サブ特徴とkdツリーを用いた検索結果に基づいて、各サブ特徴にラベルが付与される(640、650)。全てのサブ特徴の最頻出ラベルを電子ドキュメントのドキュメントラベルとして選択する(660)。ドキュメントラベルは電子ドキュメントを検索するのに用いられる(670)。
本発明の実施形態では、ユーザはいかなる撮影方向から撮影した関心ある対象物(OOI:Object Of Interest)の画像を用いる自由があり、ドキュメント検索のために1以上の画像を用いる自由がある。さらに、ユーザは一つの画像が不十分なときにはよりよい対象物の認識のために異なった角度からのOOI画像をさらに使用することもできる。この手法はユーザに複数の画像を使用することを強要はしない。これは普通のユーザにとっては自然である。さらにOOIをある背景から分離することができないときに、より柔軟性を与える。
二つの類似する局所的特徴が、二つの異なる画像中のまったく異なる位置であることもある。もしこれらの2つの特徴に対してそれら2つの異なる位置を見つけることができないときには、このアルゴリズムでそれら2つの特徴を比較することは難しい。本発明の実施形態では、それら2つの特徴の2つの異なる位置を検出するのにアンカーポイントを用いることができる。アンカーポイント(画像中の特徴的な位置)は局所的特徴を特定の場所に限定する手段として作用する。
本発明の実施形態において、ライブラリおよび検索用のドキュメント(即ち、参照画像及び対象画像)のハードコピーはスキャンすることで利用できるし、PDFあるいは他の写真画像はその同じドキュメントのデジタルバージョンを見つけるディスクリプタを作成するのに用いることができる。例えば、ハードコピーとされた写真はスキャンで用いることができ、PDFあるいは他の写真画像は同じ写真のデジタルバージョンを見つけるディスクリプタに用いることができる。あるいは、マイクロソフト社のワード(登録商標)やパワーポイント(登録商標)で作成されたドキュメントのハードコピーを、そのドキュメントの電子版を検索するのに用いることができる。
<適用例1>
本適用例において、2つの電子デスクトップ(そのうち一つを図1に示す。)間のコラボレーションが2つの異なる地点間で可能となる。電子デスクトップは、画像をキャプチャするカメラが搭載されたテーブルとコンピュータディスプレイ等から構成され、第1の電子デスクトップ上に紙ドキュメントが置かれたとき、第2のデスクトップのユーザは第2の電子デスクトップ上でそのドキュメントの複製を見ることができる。第1の電子デスクトップの縁に搭載されたカメラは、テーブル上に置かれた紙ドキュメントをキャプチャするために使われる。紙ドキュメントはテーブル上の任意の箇所に配置することができるので、カメラで撮影されたドキュメントの画像は歪んでいるかもしれない。
さらに、既存のカメラのハードウェアでは、キャプチャされたドキュメントはブレやカメラの低解像度のためにぼやけてしまうかもしれない。本実施形態では、オリジナルのドキュメントを検索するために、本発明の手法を用いて、ドキュメントの画像を第2のデスクトップに低解像度画像で送り、第2の電子デスクトップはその低解像度の画像を検索し、第1の電子デスクトップのデータベース(あるいは一般的なデータベース)を検索することができる。そして検索された高解像度のドキュメントが第2の電子デスクトップに表示される。
<適用例2>
本適用例では、紙ドキュメントを編集するために、その紙ドキュメントの低解像画像をキャプチャし、オリジナル電子ドキュメントを見つけ開くために用いる。開かれた後は、テキストや図が編集できるようになる。
<適用例3>
本適用例では、紙ドキュメントを電子メールするために、紙ドキュメントが多機能複合機(MFD)でスキャンされ、受信者に送信され、オリジナルのスキャン画像に応じた電子ドキュメントを検索することができる。MFDで得られた低解像度画像は、電子ドキュメントの代理リンクとして働く。
<適用例4>
本適用例は、ドキュメントをファクシミリ送信するのに変えて、紙ドキュメントをMFDでスキャンし、低解像度スキャン画像が所望のファクシミリに送信され、そのスキャン画像に基づいて、オリジナルの電子ドキュメント検索することができる。低解像度画像は電子ドキュメントの代理ファクシミリとして用いられ、スキャンノイズやファックス伝送ノイズなしに高品質紙ドキュメントを提供する。
<適用例5>
本適用例では、携帯電話を有するモバイルユーザが紙ドキュメントを職場で共有するものである。例えば、会社役員は空港で紙ドキュメントを読み、いくつか変更したいとする。役員は自分の秘書に変更したいページの画像を送る。低解像の携帯電話画像は、オリジナルドキュメントを検索するために用いられ、秘書のデスクトップ上にそれが提示される。本実施形態では、ドキュメントの特定箇所を送信することもできる。携帯電話のスクリーン中央の十字は紙ドキュメントの位置に対して相対的に記録することができる。修正の特定箇所を探す補助として、記録された中央点の位置は秘書に送信される。
<適用例6>
本適用例では、紙ドキュメント中でアノテーション付けされ、ハイライトされた位置が電子ドキュメント上でも表示される。上の例で説明したように、画像はアノテーション付けされた紙ドキュメントに基づいて、オリジナルの電子ドキュメントを探すために用いることができる。紙ドキュメントの画像とオリジナル電子ドキュメントを比較することによって、アノテーション付けされた領域とハイライトされた領域を見つけることができ、同じアノテーションを電子ドキュメントに導入することもできる。
<実験例>
本実験例では、改良されたアルゴリズムが、ALOI(Amsterdam Library of Object Images)ライブラリ中の1000個の小さいオブジェクト画像を用いてテストされた。図6(A)はこのライブラリから集められたオブジェクトの幾つかを示す。図6(B)は各オブジェクトについてライブラリが有するいくつかの写真を示す。ライブラリはオブジェクトの画像を45°おきに集めてあるので、このライブラリはトレーニング用のデータを生成したり、多くの異なる撮影方向での実験を行うのに有効である。
通常のSIFT特徴と一つのkdツリーを用いたALOIライブラリから対象の電子ドキュメントの検索を、従来のSIFT特徴と今回の4つのサブ特徴ベースのkdツリーで検索したときと比較した。一つのkdツリーは、各ノードがデータ空間中のデータポイントとその対応するラベルを含んだ最近傍検索のための構造である。kdツリーはロウらの手法のSIFT検索を高速化するために用いられる。この検索テストは、対象の一以上の画像にアルゴリズムを適用し、もっとも類似する対象のIDを検索することにより行われた。もしトレーニングデータ中の最も類似したオブジェクトのIDが入力した画像の対象IDとマッチしたときに、そのサーチは正確に行われたとカウントする。対象認識の正確性は正確に検索された数を全検索数で割った値として計算した。
なお、予めトレーニングデータセットはALOIから対象物を30°間隔で撮影した写真を用いて構成した(すなわち、0°、30°、60°、...、330°)。より認識精度を高めるには、小さい間隔とし多くのメモリと大きなkdツリーを用いることで可能である。トレーニングデータの収集に続いて、これらのSIFT特徴とサブSIFT特徴が各写真から検索され、対応するオブジェクトIDに関連付けられる。テストデータセットは、30°間隔で15°のオフセットを設けて撮影されたもので構成された(つまり、15°、45°、75°、...、345°)。システムは30°の撮影方向間隔のトレーニングイメージを持つので、15°の撮影方向オフセットは実際にカメラで撮影するときに生ずる最大のオフセットである。それゆえ、ここで示す結果は同様の撮影環境下では最悪のシナリオに近いものである。
テストデータセットとともに、5種類の検索条件(クエリ)が設定された。クエリタイプ1は一つのオブジェクトの一つの画像からの特徴を含む。クエリタイプ2は互いに対向する方向から撮影した2つの画像からの特徴を含む(例えば15°、195°)。クエリタイプ3は120°間隔の3つの画像からの特徴を含む。クエリタイプ4は90度間隔の4つの画像からの特徴を含む。クエリタイプ5は60°間隔の6つの画像からの特徴を含む。
比較はデュアルコアペンティアム(登録商標)コンピュータを用いて行った。k−最近傍検索で、kは3に設定した。テスト中は、アルゴリズムはCPUの動作パワーの50%を使った。それぞれの検索の時間コストがkdツリーのマッチングポイントの位置に大きく依存して変化するので、比較のために検索時間は多くの検索の平均とした。検索時間の平均は1画像クエリで12000、2画像クエリでは6000、...といった回数の検索結果について行った。
通常の正確なkdツリー検索は、非常に長い時間がかかる(約45223ミリ秒/画像)ので、近似最近傍(ANN)アプローチをすべてのkdツリー検索に用いた。ANNの主な考え方は、他の点への最近接距離の(1+ε)倍の半径内の近似最近傍を見つけるものである。εを2.0に設定することで、一つの画像検索の平均検索時間は、45223ミリ秒/画像から2204ミリ秒/画像へと改善する。このため、本発明の実施形態では正確な最近傍計算よりは20倍速いアルゴリズムである近似最近傍を使用した。
図7は、本発明の手法による一例と既存のSIFT法を利用したときの、精度と平均検索コストの比較結果を示すグラフである。縦軸(垂直軸)はオブジェクト認識率を示し、横軸(水平軸)はクエリ当たりの平均時間コストを示す。5つのすべてのひし形マークが本発明の実施形態で得られた結果である。全ての丸いマークは従来のSIFT特徴と一つのkdツリー検索(最近傍検索と等価)とを組み合わせて得られた結果である。図7中のそれぞれのマークの右の数値は各クエリで用いられた画像の数に対応する。図7中で、マーク810は、全ての検索アルゴリズムでの理想位置を表す。即ち、100%の認識率で且つ時間コストがない(ゼロである)場合の点に相当する。
一つのツリーベースの検索と比較して、本発明の実施形態はより理想位置に近い結果を有する。予想を上回り、略同じオブジェクト認識率(例えば、ひし形4と丸2)について平均時間コストを比較すると、本発明の実施例の検索手法は既存のSIFT法の約1/13の時間であった。この結果から、より大きなデータセットの場合にはさらに時間の節約が大きくなると予測される。この予期せぬ結果から、本発明の実施形態は、従来のSIFTベース検索をオブジェクト認識に用いた場合に対して、高速化の点で優れていることが示された。
なお、他の公知の画像を記述するディスクリプタを用いる手法と同様に、本発明は検索対象の画像に一致する電子ドキュメントを検索する以外にも、入力された対象画像と関連するラベルを有する電子ドキュメントを検索するためのカテゴリー検索等にも利用することもできる。
本発明において検索対象とする電子ドキュメントとしては、写真や印刷したドキュメントの画像であってもよい。検索対象となる画像を取得するときの画像の取得には、例えばデジタルカメラや、カメラ内蔵の携帯電話(低解像度でも可能)を使用して、その画像を本システムに送ることで使用することもできる。ドキュメントを検索するときに、デスクトップシステムに加えて、PDAや携帯電話などで利用することもできる。
また、電子会議の際にドキュメントを共有する手段としても、本発明は有効である。テレビ会議システムのカメラの解像度が不十分であっても、電子ドキュメントを検索できれば、それを参加者に送信したり、遠隔スクリーンに表示、あるいは印刷することでドキュメントのコピーを参加者に提供することもできる。電子メール、ファクシミリといった手段で送信することで参加者がこれを利用することもできる。もちろん、共有するだけでなく、個人に対してこれを送信するのに利用することもできる。
なお、本発明の多様な実施形態は、コンピュータ技術の当業者であれば明らかなように、本発明の開示の教示に基づき、プログラムされたプロセッサを用いて実現することもできる。この開示の教示に基づき、ソフトウェア分野における当業者であれば適当なソフトウェアコードを用いてプログラムを実現することができることも自明である。本発明は集積回路化して実現することや、コンピュータネットワークに相互接続することと組み合わせて実現できることも当業者に自明である。
本発明を実現するために、一つ以上のコンピュータ可読媒体上に記憶され、プロセッサの制御、ユーザもしくは他のデバイスと相互作用するためのソフトウェアを用いることもできる。ソフトウェアには、デバイスドライバ、インターフェースドライバ、オペレーティングシステム、実行環境/コンテナ、ユーザインターフェースとアプリケーションなどを含んでもよい。
コードの実行は直接あるいは間接的であってよい。コードにはコンパイルされたもの、インタープリテッド、他の形式の言語を含んでよい。実行、コード伝送、機能のコードセグメントは、他のソフトウェア、デバイス、ローカル、リモートで、その機能の呼び出し、コールを含んでよい。予備出しあるいはコールは、ライブラリモジュール、デバイスドライバ、インターフェースドライバ、リモートソフトウェアへのその機能の実行のための呼び出しやコールを含んでもよい。呼び出しやコールは分散、クライアント/サーバシステムへの呼び出しや実行を含んでもよい。
ここで示した本発明の方法、システム、プログラムの実施形態は、例示を目的とするものであって、発明を限定するものではない。他の実施態様も可能であり、それは本発明によりカバーされるものである。そうした実施形態はこの教示に基づいて関連する技術分野の当業者であれば容易に実施することができることは明らかである。
310 カメラ
400 画像
410 ガウシアン窓
420 ディスクリプタ(例えば、SIFT特徴)
430 勾配の大きさと配向を示す矢印
440 サブディスクリプタ(例えば、SIFTサブ特徴)

Claims (9)

  1. コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第1のラベルと、前記電子ドキュメントを視覚化した参照画像の特徴を表わす第1のディスクリプタの各々を分割して得られた前記第1のディスクリプタより低次元の複数の第1のサブディスクリプタとを保持するライブラリと、
    検索の対象となる対象画像を取得する取得手段と、
    前記対象画像から前記対象画像の特徴を記述する第2のディスクリプタを生成するディスクリプタ生成手段と、
    前記第2のディスクリプタを分割して前記第2のディスクリプタより低次元の複数の第2のサブディスクリプタを生成するサブディスクリプタ生成手段と、
    前記ライブラリ中の前記複数の第1のサブディスクリプタと複数の各前記第2のサブディスクリプタとの間でk−近似最近傍を決定するk−近似最近傍決定手段と、
    前記各第2のサブディスクリプタの前記k−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第2のサブディスクリプタに第2のラベルをそれぞれ設定する第2ラベル設定手段と、
    前記複数の第2のサブディスクリプタに設定された第2のラベルに基づいて前記対象画像にドキュメントラベルを割り当てるドキュメントラベル割り当て手段と、
    前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索する検索手段と、
    を備えることを特徴とする検索システム。
  2. 前記第1のサブディスクリプタは、前記参照画像中の予め定めた特徴点における特徴を記述したものであると共に、前記第2のサブディスクリプタは、前記対象画像中の予め定めた特徴点における特徴を記述したものであることを特徴とする請求項1記載の検索システム。
  3. 前記第2ラベル設定手段は、前記複数の第2のサブディスクリプタの各々について、前記k−近似最近傍に対応する前記電子ドキュメントに設定されているk個のラベルのうち、最も頻度の高いラベルを前記第2のサブディスクリプタに第2のラベルを設定することを特徴とする請求項1又は2記載の検索システム。
  4. 前記第2ラベル設定手段は、前記第2のサブディスクリプタに第2のラベルを設定するために、k−最近傍投票法をマッチング基準として用いて設定することを特徴とする請求項1から3までの何れか1項記載の検索システム。
  5. 前記第1のディスクリプタ及び前記第2のディスクリプタが、スケール不変変換(SIFT)画像特徴であることを特徴とする請求項1から4までの何れか1項記載の検索システム。
  6. 前記スケール不変変換(SIFT)画像特徴を空間的に整数分の1に分割して生成する局所的サブ特徴を、前記第1のサブディスクリプタ及び前記第2のサブディスクリプタとすることを特徴とする請求項5記載の検索システム。
  7. 前記ライブラリには前記第1のサブディスクリプタに基づいて予め生成されたkdツリーが記憶され、前記第2ラベル設定手段は、前記kdツリーに基づいて、前記第2のサブディスクリプタのk−近似最近傍を決定することを特徴とする請求項1から6までの何れか1項記載の検索システム。
  8. 前記kdツリーの各ノードには、前記第1のサブディスクリプタ及び前記第1のラベルが関連付けられることを特徴とする請求項7記載の検索システム。
  9. コンピュータに、ライブラリから電子ドキュメントを検索させるための検索プログラムであって、
    前記ライブラリは、コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第1のラベルと、前記電子ドキュメントを視覚化した参照画像の特徴を表わす第1のディスクリプタの各々を分割して得られた前記第1のディスクリプタより低次元の複数の第1のサブディスクリプタとを備えており、
    前記コンピュータに、
    検索の対象となる対象画像を取得し、
    前記対象画像から前記対象画像の特徴を記述する第2のディスクリプタを生成し、
    前記第2のディスクリプタを分割して前記第2のディスクリプタより低次元の複数の第2のサブディスクリプタを生成し、
    前記ライブラリ中の前記複数の第1のサブディスクリプタと複数の各前記第2のサブディスクリプタとの間でk−近似最近傍を決定し、
    前記各第2のサブディスクリプタの前記k−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第2のサブディスクリプタに第2のラベルをそれぞれ設定し、
    前記複数の第2のサブディスクリプタに設定された第2のラベルに基づいて前記対象画像にドキュメントラベルを割り当て、
    前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索する、
    各手順を実行させるための検索プログラム。
JP2009146476A 2008-07-31 2009-06-19 検索方法、検索プログラム及び検索システム Expired - Fee Related JP4941513B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/184,124 US8139860B2 (en) 2008-07-31 2008-07-31 Retrieving and sharing electronic documents using paper
US12/184,124 2008-07-31

Publications (3)

Publication Number Publication Date
JP2010040032A JP2010040032A (ja) 2010-02-18
JP2010040032A5 JP2010040032A5 (ja) 2012-01-26
JP4941513B2 true JP4941513B2 (ja) 2012-05-30

Family

ID=41609376

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009146476A Expired - Fee Related JP4941513B2 (ja) 2008-07-31 2009-06-19 検索方法、検索プログラム及び検索システム

Country Status (2)

Country Link
US (1) US8139860B2 (ja)
JP (1) JP4941513B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8818103B2 (en) * 2009-03-04 2014-08-26 Osaka Prefecture University Public Corporation Image retrieval method, image retrieval program, and image registration method
JP5366212B2 (ja) * 2010-03-01 2013-12-11 Kddi株式会社 多数の参照用映像の中から検索キー用映像を用いて検索する映像検索装置、プログラム及び方法
US8625888B2 (en) * 2010-07-21 2014-01-07 Microsoft Corporation Variable kernel size image matting
JP5552981B2 (ja) * 2010-09-15 2014-07-16 株式会社リコー 索引方法、検索方法、及びその記憶媒体
US9218526B2 (en) * 2012-05-24 2015-12-22 HJ Laboratories, LLC Apparatus and method to detect a paper document using one or more sensors
US8768049B2 (en) 2012-07-13 2014-07-01 Seiko Epson Corporation Small vein image recognition and authorization using constrained geometrical matching and weighted voting under generic tree model
US8941847B2 (en) 2012-07-26 2015-01-27 Fuji Xerox Co., Ltd. Mobile scan setup and context capture prior to scanning
US10846562B2 (en) * 2018-01-12 2020-11-24 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for image matching
US10730293B1 (en) 2019-02-27 2020-08-04 Ricoh Company, Ltd. Medium classification mechanism
US11704312B2 (en) * 2021-08-19 2023-07-18 Microsoft Technology Licensing, Llc Conjunctive filtering with embedding models

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3952592B2 (ja) * 1998-04-30 2007-08-01 キヤノン株式会社 画像検索装置及び方法
US9373029B2 (en) * 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
JP2005141776A (ja) * 2005-02-07 2005-06-02 Fuji Xerox Co Ltd 画像抽出装置および方法
JP4332556B2 (ja) * 2005-03-01 2009-09-16 公立大学法人大阪府立大学 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置
JP4968882B2 (ja) * 2005-06-03 2012-07-04 キヤノン株式会社 画像検索装置、画像検索方法およびプログラム
US20070071323A1 (en) * 2005-09-26 2007-03-29 Cognisign Llc Apparatus and method for processing user-specified search image points
US7720289B2 (en) * 2005-12-14 2010-05-18 Mitsubishi Electric Research Laboratories, Inc. Method for constructing covariance matrices from data features
US8705810B2 (en) * 2007-12-28 2014-04-22 Intel Corporation Detecting and indexing characters of videos by NCuts and page ranking

Also Published As

Publication number Publication date
JP2010040032A (ja) 2010-02-18
US8139860B2 (en) 2012-03-20
US20100030778A1 (en) 2010-02-04

Similar Documents

Publication Publication Date Title
JP4941513B2 (ja) 検索方法、検索プログラム及び検索システム
US20210397838A1 (en) Systems and methods for image-feature-based recognition
US8276088B2 (en) User interface for three-dimensional navigation
US8738647B2 (en) Method and system for image matching
US8144921B2 (en) Information retrieval using invisible junctions and geometric constraints
US8234277B2 (en) Image-based retrieval for high quality visual or acoustic rendering
US8868555B2 (en) Computation of a recongnizability score (quality predictor) for image retrieval
US8510283B2 (en) Automatic adaption of an image recognition system to image capture devices
US8086038B2 (en) Invisible junction features for patch recognition
US9373029B2 (en) Invisible junction feature recognition for document security or annotation
US20090015676A1 (en) Recognition and Tracking Using Invisible Junctions
US20090070415A1 (en) Architecture for mixed media reality retrieval of locations and registration of images
US20090070110A1 (en) Combining results of image retrieval processes
JP2001209803A (ja) 内容基盤イメージ検索システム及びその方法
JP2011008752A (ja) ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム
US20210303650A1 (en) Delivering information about an image corresponding to an object at a particular location
US7751621B1 (en) Method and system for rapid object recall within images
do Valle Jr Local-descriptor matching for image identification systems
Chen et al. Mobile visual search from dynamic image databases
JP2004280514A (ja) Pdfファイル及びpdfファイル作成システム
Havasi et al. Search in WikiImages using mobile phone
CN116563527A (zh) 图像处理系统以及处理图像的方法
KR20020008880A (ko) 질감기술자를 이용한 명함 검색 방법 및 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111207

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20111207

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120213

R150 Certificate of patent or registration of utility model

Ref document number: 4941513

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees