JP4941513B2

JP4941513B2 - 検索方法、検索プログラム及び検索システム

Info

Publication number: JP4941513B2
Application number: JP2009146476A
Authority: JP
Inventors: リュウチョン; チィーウパトリック; ディー．ウィルコックスリン
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2008-07-31
Filing date: 2009-06-19
Publication date: 2012-05-30
Anticipated expiration: 2029-06-19
Also published as: JP2010040032A; US8139860B2; US20100030778A1

Description

本発明は、電子ドキュメントの検索方法、検索プログラム及び検索システムに関する。

ペーパレスオフィスが十年以上提案されているものの、我々の日常生活においてはいまだに紙は好適な媒体である。Ｌ．シーアによれば、オフィスで一人が毎週使う紙は平均で２．５ポンド（１．１キログラム）であり、アメリカ人は毎年オフィス用紙を４百万トン廃棄しているという（非特許文献１）。

現在、人々はドキュメントのオリジナルを探すために、ディレクトリ構造を探索インターフェースを使っている。このインターフェースでは、ユーザは多くのディレクトリやファイルを探し出す必要がある。また、電子ドキュメントを見つけるのにディレクトリやファイル名を探す作業を減らすために、利用者は入力文字列に基づいて検索するインターフェースを利用している。こうしたインターフェースは、検索用語がファイルの名前や本文に含まれているときには探しているドキュメントを返す一方で、多くの無関係のファイルも返すことになり、検索結果のリストをユーザが見直さなければならない。

また他に、ドキュメント画像を用いてそのドキュメントを検索する関連手法がある。例えば、チィーウらによる離散コサイン変換係数（ＤＣＴ係数）のマッチングに基づくドキュメント検索方法（非特許文献２）、エロールらによる光学文字認識（ＯＣＲ）の結果と線のプロファイルに基づく画像中のドキュメント検索（非特許文献３）、リュウらによるＳＩＦＴ（Scale Invariant Feature Transform）法により表示されるドキュメントに応じた電子ドキュメントを識別する方法（非特許文献４）、などが挙げられる。

Ｌ．シーア（L. Shea）、「紙の利用とリサイクル：どの位我々は紙を無駄にしているか？（Paper Usage and Recycling : How much Paper do we Waste?）」、[online]、[平成２０年５月２３日検索]インターネット< http://www.lisashea.com/lisabase/aboutme/paperusage.html > Ｐ．チィーウ（P. Chiu）ら、「リアビュー付きの部屋：マルチメディア会議室での会議のキャプチャ（Room with a Rear View: Meeting Capture in a Multimedia Conference Room)」、ＩＥＥＥマルチメディアマガジン(IEEE Multimedia Magazine)、2000年、第７巻第４号、第４８〜５４頁Ｂ.エロール（B. Erol）ら「画像解析を用いた会議ドキュメントの結合（Linking Presentation Documents Using Image Analysis）」、第３７回信号、システムとコンピュータのアシロマー会議（カリフォルニア州パシフィックグローブ）(Asilomar Conference on Signals, Systems, and Computers, Pacific Grove, CA)、２００３年１１月、第１巻第９７−１０１頁Ｑ．リュウ(Q. Liu)ら「モバイルカメラでのドキュメントのリダイレクティング（On Redirecting Documents with a Mobile Camera」、2006年10月、２００６年ＩＥＥＥ第８回マルチメディア信号処理に関するワークショップ（ビクトリア、カナダ）(in Proceeding of 2006 IEEE 8th workshop on Multimedia Signal Processing, Victoria, BC, Canada）、第４６７−４７０頁、) Ｄ．Ｇ．ロウ（D.G. Lowe）「倍率不変キーポイントからの特有画像特徴（Distinctive image features from scale-invariant keypoints)」、２００４年、コンピュータビジョン国際ジャーナル（International Journal on Computer Vision）、第６０巻（、９１-１１０頁）スプロウル（R. L. Sproull）、「最近接検索の改善（Refinements to nearest-neighbor searching）」, １９９１年、アルゴリズミカ（Algorithmica）、第６巻、第５７９−５８９頁Ｓ.アルヤ（S. Arya）ら、「近似最近接検索の最適アルゴリズム（An optimal algorithm for approximate nearest neighbor searching）」、１９９８年、ＡＣＭジャーナル（Journal of the ACM）、第４５号、第６巻、第８９1−９２３頁Ｄ.Ｍ.マウント（D.M. Mount）、「ＡＮＮプログラミングマニュアル( ANN Programming Manual )」、[online]、[平成２０年５月２３日検索]、インターネット<http://www.cs.umd.edu/~mount/ANN/Files/1.1.1/ANNmanual_1.1.1.pdf>）Ｓ.アルヤ（S. Arya）ら、「固定次元での近似最近接検索（Approximate nearest neighbor queries in fixed dimensions）」、１９９３年、第４回ＡＣＭ−ＳＩＡＭシンポジウムオンディスクリートアルゴリズム予稿（In Proc. 4th ACM-SIAM Symposium on Discrete Algorithms）、第２７１−２８０頁

確認が必要な紙の書類が積み重なっていると、ドキュメントを見つけることは難しい。同様にオリジナルの電子ファイルを見つけることも難しい。ディレクトリ構造を探索するインターフェースは、ユーザが多くのディレクトリやファイル名を覚えることができるなら有効である。しかし、ディレクトリやファイルの数が増えると、このインターフェースは面倒で時間を食う。キーワード検索を用いるインターフェースは、ユーザによる特定の検索キーワードを用いて絞り込んでファイル検索するので時間の節約にはなる。しかし、ユーザは適切なキーワードを入力する必要があり、所望の電子ドキュメントが単独で特定される保証は無い。

チィーウらの手法は、ＤＣＴ係数のマッチングに基づいており、画像中でそのドキュメントが大きい面積を占めている必要があり、あるいは画像中のドキュメント領域がセグメントアルゴリズムにより識別されている必要がある（非特許文献２）。これらの制約により、画像中に不規則な場所でキャプチャされたドキュメントを見出すことは困難が伴う。同時に画像中に複数のドキュメントが存在する場合には、セグメント解析が十分になされないと、このアプローチでは問題がおきかねない。

エロールの手法は、ＯＣＲと線のプロファイルに基づいており、高解像度のＯＣＲが必要となる（非特許文献３）。ＯＣＲは同じ画像中に複数のドキュメントが含まれているときにはうまく働かない。さらに、エロールの手法は、非テキスト画像には適用できない。

さらに、テキストが使われる場合には、この手法は検索を補助する言語の知識を使うこともできる。この手法には有利な点もあるが、アルゴリズムが働くようにするため、ＯＣＲで文字列がはっきりキャプチャできる高解像度のカメラが必要となる。高解像カメラが必要であるために、通常のユーザ向けのシステムには採用し難い。さらに、そのドキュメントに少ししか単語が無いとか、ＯＣＲが対応していない外国語で書かれているようなとき、テキスト検索アルゴリズムは不利となる。

リュウによる手法は、少量のドキュメントからの検索では非常に有効である（非特許文献４）。しかし、画像の特徴次元が１２８次元と高いことから、大量のドキュメントコレクションを対象にこのアルゴリズムを適用することは実用的とは言いにくい。加えて、１２８次元を検索するための画像パッチが大きく、全体的な外乱とカメラによる透視歪化が発生する原因となりやすい。

チィーウ、エロール、リュウの各手法の限界は、ディレクトリ探索やキーワード検索などの一般的な検索インターフェースと同様の問題点に帰着することである。

下記の利点から、これまでに紙を用いた電子ドキュメントの検索、再生、共有システムを構成するいくつもの試みがあったが、実用化に至っていない。第１に、多様なカメラや撮影環境下での取得ドキュメントを表現するのにはロバストな特徴が必要である。第２に、高速な検索アルゴリズムは大量のドキュメントを高速に処理できることが必要である。第３に、言語に依存しないアルゴリズムでは任意のドキュメントの検索が可能であり、国外とのコラボレーションをサポートできることも期待できる。

本発明は上述の問題点を踏まえて成されたものであり、本発明は、ロバスト性が高く且つより高速の検索が可能な、電子ドキュメントの検索方法、検索プログラム及び検索システムを提供することを目的とする。

上記課題を解決するために、請求項１に係る発明は、コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第１のラベルと、前記電子ドキュメントを視覚化した参照画像の空間的な特徴を表わす第１のディスクリプタを空間的に複数の領域に分割してなる複数の第１のサブディスクリプタとを保持するライブラリと、検索の対象となる対象画像を取得する取得手段と、前記対象画像から前記対象画像の空間的な特徴を記述する第２のディスクリプタを生成するディスクリプタ生成手段と、前記第２のディスクリプタを空間的に複数の領域に分割して複数の第２のサブディスクリプタを生成しサブディスクリプタ生成手段と、前記ライブラリ中の前記複数の第１のサブディスクリプタと複数の各前記第２のサブディスクリプタとの間でｋ−近似最近傍を決定するｋ−近似最近傍決定手段と、前記各第２のサブディスクリプタの前記ｋ−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第２のサブディスクリプタに第２のラベルをそれぞれ設定する第２ラベル設定手段と、前記複数の第２のサブディスクリプタに設定された第２のラベルに基づいて前記対象画像にドキュメントラベルを割り当てるドキュメントラベル割り当て手段と、前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索する検索手段と、を備えることを特徴とする検索システムである。

請求項２に係る発明は、前記第１のサブディスクリプタは、前記参照画像中の予め定めた特徴点における特徴を記述したものであると共に、前記第２のサブディスクリプタは、前記対象画像中の予め定めた特徴点における特徴を記述したものであることを特徴とする請求項１記載の検索システムである。

請求項３に係る発明は、前記第２ラベル設定手段は、前記複数の第２のサブディスクリプタの各々について、前記ｋ−近似最近傍に対応する前記電子ドキュメントに設定されているｋ個のラベルのうち、最も頻度の高いラベルを前記第２のサブディスクリプタに第２のラベルを設定することを特徴とする請求項１又は２記載の検索システムである。

請求項４に係る発明は、前記第２ラベル設定手段は、前記第２のサブディスクリプタに第２のラベルを設定するために、ｋ−最近傍投票法をマッチング基準として用いて設定することを特徴とする請求項１から３までの何れか１項記載の検索システムである。

請求項５に係る発明は、前記第１のディスクリプタ及び前記第２のディスクリプタが、スケール不変変換（ＳＩＦＴ）画像特徴であることを特徴とする請求項１から４までの何れか１項記載の検索システムである。

請求項６に係る発明は、前記スケール不変変換（ＳＩＦＴ）画像特徴を空間的に整数分の１に分割して生成する局所的サブ特徴を、前記第１のサブディスクリプタ及び前記第２のサブディスクリプタとすることを特徴とする請求項５記載の検索システムである。

請求項７に係る発明は、前記ライブラリには前記第１のサブディスクリプタに基づいて予め生成されたｋｄツリーが記憶され、前記第２ラベル設定手段は、前記ｋｄツリーに基づいて、前記第２のサブディスクリプタのｋ−近似最近傍を決定することを特徴とする請求項１から６までの何れか１項記載の検索システムである。

請求項８に係る発明は、前記ｋｄツリーの各ノードには、前記第１のサブディスクリプタ及び前記第１のラベルが関連付けられることを特徴とする請求項７記載の検索システムである。

請求項９に係る発明は、コンピュータに、ライブラリから電子ドキュメントを検索させるための検索プログラムであって、前記ライブラリは、コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第１のラベルと、前記電子ドキュメントを視覚化した参照画像の空間的な特徴を表わす第１のディスクリプタを空間的に複数の領域に分割してなる複数の第１のサブディスクリプタとを備えており、前記コンピュータに、検索の対象となる対象画像を取得し、前記対象画像から前記対象画像の空間的な特徴を記述する第２のディスクリプタを生成し、前記第２のディスクリプタを空間的に複数の領域に分割して複数の第２のサブディスクリプタを生成し、前記ライブラリ中の前記複数の第１のサブディスクリプタと複数の各前記第２のサブディスクリプタとの間でｋ−近似最近傍を決定し、前記各第２のサブディスクリプタの前記ｋ−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第２のサブディスクリプタに第２のラベルをそれぞれ設定し、前記複数の第２のサブディスクリプタに設定された第２のラベルに基づいて前記対象画像にドキュメントラベルを割り当て、前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索する、各手順を実行させるための検索プログラムである。

請求項１０に係る発明は、ライブラリから電子ドキュメントを検索する検索方法であって、前記ライブラリは、コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第１のラベルと、前記電子ドキュメントを視覚化した参照画像の空間的な特徴を表わす第１のディスクリプタを空間的に複数の領域に分割してなる複数の第１のサブディスクリプタとを備え、前記ライブラリから電子ドキュメントを検索する検索方法が、検索の対象となる対象画像を取得し、前記対象画像から前記対象画像の空間的な特徴を記述する第２のディスクリプタを生成し、前記第２のディスクリプタを空間的に複数の領域に分割して複数の第２のサブディスクリプタを生成し、前記ライブラリ中の前記複数の第１のサブディスクリプタと複数の各前記第２のサブディスクリプタとの間でｋ−近似最近傍を決定し、前記各第２のサブディスクリプタの前記ｋ−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第２のサブディスクリプタに第２のラベルをそれぞれ設定し、前記複数の第２のサブディスクリプタに設定された第２のラベルに基づいて前記対象画像にドキュメントラベルを割り当て、前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索する、ことを特徴とする検索方法である。

本発明によれば、従来の技術と比較して、検索のロバスト性が向上すると共に検索速度が速くなる、という効果がある。

画像をキャプチャするカメラが搭載された電子デスクトップを示す図である。画像の完全なディスクリプタの模式図である。完全なディスクリプタを４分割したサブディスクリプタの模式図である。本発明に関わる電子ドキュメントの検索および識別に関する一般的な工程を示すフローチャートである。本発明に関わるＳＩＦＴディスクリプタとｋｄツリーを用いて電子ドキュメントの検索と識別を行う工程を示すフローチャートである。（Ａ）及び（Ｂ）は、アムステルダムライブラリオブオブジェクトイメージ（ＡＬＯＩ）ライブラリから取得した小さいオブジェクト画像である。本発明の手法による一例と既存のＳＩＦＴ法を利用したときの、精度と平均検索コストの比較結果を示すグラフである。

本発明は、コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第１のラベルと、前記電子ドキュメントを視覚化した参照画像の空間的な特徴を表わす第１のディスクリプタを空間的に複数の領域に分割してなる複数の第１のサブディスクリプタとを備えたライブラリから電子ドキュメントを検索する検索方法等に関するものであり、検索の対象となる対象画像を取得し、前記対象画像から前記対象画像の空間的な特徴を記述する第２のディスクリプタを生成し、前記第２のディスクリプタを空間的に複数の領域に分割して複数の第２のサブディスクリプタを生成し、前記ライブラリ中の前記複数の第１のサブディスクリプタと複数の各前記第２のサブディスクリプタとの間でｋ−近似最近傍を決定し、前記各第２のサブディスクリプタの前記ｋ−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第２のサブディスクリプタに第２のラベルをそれぞれ設定し、前記複数の第２のサブディスクリプタに設定された第２のラベルに基づいて前記対象画像にドキュメントラベルを割り当て、前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索することを特徴とする検索方法等である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜システム概要＞
まず、本発明の一実施形態のシステムの構成について説明する。図１は画像をキャプチャするカメラが搭載された電子デスクトップを示す。例えば、図１に示すように、主たる構成としては、検索対象とする画像を取得するカメラ３１０、このカメラ３１０の画像をソフトウェアモジュールを用いて処理するコンピュータ等の処理装置、この処理装置と一体もしくはネットワークを介する等して別途設けられた電子ドキュメントライブラリを記憶するサーバーなどの記憶装置、さらに検索された電子ドキュメントを表示するディスプレイが接続される。処理装置や記憶装置は、例えば、パーソナル・コンピュータ（ＰＣ）等の電子デスクトップ（図示せず）に設けてもよい。

プログラミング可能なカメラ（例、携帯電話の内蔵カメラ）又はプログラムできないカメラ（例えば、図１のようにＰＣに直接接続されたカメラ）を用いたシステムを実現するうえで構成は多少異なるが、ソフトウェアは３種類のモジュール（モバイルクライアントモジュール、サービスプロキシモジュール、およびドキュメント操作モジュール）に分けることができる。

モバイルクライアントモジュールは、カメラからドキュメントイメージをキャプチャするために用いられるクライアントアプリケーションである。カメラが携帯電話に内蔵されている場合は、このアプリケーションは携帯電話自体によって実行することができる。図１に示すように、もしカメラ３１０が遠隔会議システム又はサーバーＰＣに接続されている場合は、ソフトウェアモジュールはカメラ３１０に接続されたＰＣ上で実行される。このモジュールをメインシステムから分離することで、複数のカメラを制御するシステムのスケールアップが容易になる。

サービスプロキシモジュールは、様々なカメラがドキュメント操作モジュールと通信をするためのウェブサービスを提供する。詳細には、サービスプロキシモジュールはキャプチャした画像を解析し、低レベルの画像特徴を検索し、それらの検索された特徴にマッチするオリジナルの電子ドキュメントを検索する。本発明の実施形態では、異なるプロキシサービスが同じハードウェアの異なるドキュメントシステムに提供される。

ドキュメント操作モジュールは、オリジナルの電子ドキュメントにアクセスする権限を持つサービスアプリケーションモジュールである。これはドキュメントレポジトリにアクセスする装置に設けられる。このサービスの実行を補うために、ドキュメント操作モジュールはウェブサイトから直接開始させることもできる。

＜特徴検索および検索＞
本実施形態においては、イメージの特徴を表すディスクリプタとして、スケール不変特徴変換（ＳＩＦＴ：Scale Invariant Feature Transform）特徴とｋ次元（ｋｄ）ツリーを、検索のロバスト性と検索速度を改善するために変更して用いる。

本実施形態は、ハードディスク等のドキュメントのライブラリ（あるいはリポジトリ）からドキュメントを検索するものであり、検索対象のドキュメントの画像を取得し、その画像に基づいて複数のＳＩＦＴ画像特徴を生成し、各ＳＩＦＴ画像特徴に基づいて複数の局所的サブ特徴を生成し、各局所的サブ特徴毎のｋｄツリーを用いｋ−近似最近傍を決定し、各局所的サブ特徴の最頻出ラベルに基づいて各ＳＩＦＴ画像特徴の各局所的サブ特徴にラベルを割り当て、最頻出の局所的サブ特徴ラベルに基づいて電子ドキュメントにドキュメントラベルを割り当て、そのドキュメントラベル割り当てに基づいてドキュメントの検索を行う。

なお、ライブラリ中の電子ドキュメントは予め書類名や種類などのラベル、電子ドキュメントを可視化した画像から後で述べる方法でサブ特徴を生成し、これらを電子ドキュメントと関連付けて記憶してある。

＜ＳＩＦＴ特徴＞
ＳＩＦＴ法として知られるスケール不変特徴変換はロウにより提案され、画像の倍率と回転に不変である画像特徴のセットから構成される（非特許文献５）。グローバル特徴と比較して、ＳＩＦＴディスクリプタはその空間ドメイン中のある位置におけるよりよい記述が可能な局所的な特徴である。その特徴を収集する領域は全体画像よりも小さく、その特徴セットは閉塞空間（occlusion：オクルージョン）を原因とする干渉、局所的な照明の変化、背景干渉、そして局所画像ノイズを回避することができる。さらに、サンプリング領域がより小さいので、ＳＩＦＴ特徴は透視変換に対してよりロバスト性が高くなる。

ロウの手法によれば、各ＳＩＦＴディスクリプタは１２８次元を持つ（非特許文献５）。特徴検索の定義に基づいて、ディスクリプタの最小サンプリング領域は１６×１６画素とされる。より高次元で広範囲のサンプリング空間だと、ＳＩＦＴ特徴には強みと弱みの両方が生まれる。１２８次元では、ＳＩＦＴディスクリプタは非常に特徴的な記述子である。しかし、あまりＳＩＦＴディスクリプタの次元が高いと、後で検索に障害が生まれる。ロウの手法では、高速検索のために、ベストビンファースト（Best-Bin-Fast:BBF）アルゴリズムの使用を提案してはいるが、ＢＢＦは次元がそれほど高くない（例えば、８〜１５次元）ときに良好なパフォーマンスを与えるだけである。加えて、１６×１６画素のサンプリング領域は、オクルージョンや局所ノイズに対して、より小さいサンプリング領域の場合よりも、影響を受け易い。

＜ｋｄツリー＞
ｋｄツリーはｋ次元空間での点群を管理するための空間分割データ構造である。ｋｄツリーは、例えば範囲検索や最近傍検索といった多次元の検索キーを含む、検索などのいくつかのアプリケーションにとって有効なデータ構造である。ｋｄツリーはバイナリー空間分割（ＢＳＰ：Binary Space partitioning）ツリーの特別なケースである。ｋｄツリーはその座標系の軸のうちの一つに垂直な分割平面だけを有する。これが任意の分割面が用いられるＢＰＳツリーとの差である。加えて、ｋｄツリーの各ノードは、根(root)から葉(leaf)まで、一つの点(point)を保持する。即ち、ＢＳＰツリーの一種であるｋｄツリーは、葉が点もしくは他の幾何学的な基本要素(primitive)を保持する通常唯一のノードであるＢＰＳツリーとは相違する。

＜ｋｄツリー利用の困難性＞
一様に分布したｎ個の点に関して、ｋｄツリーの期待空間（expected space）とクエリ時間計算量（time complexity）は、それぞれＯ-記法で、Ｏ（ｎ）およびＯ（logｎ）で表される。この期待計算複雑性（computational complexity）は、ブルータルフォースサーチ（brutal force search 腕力探索法）Ｏ（ｄ×ｎ）の計算複雑性よりもずっとよい。ここで、ｄはデータポイントの次元である。これがｋｄツリーを使ってデータ検索をする上での有力な点である。

しかし、データポイントが不均一な分布のとき、ｋｄツリーの計算複雑性は次元に従って非常に急激に増加する（非特許文献６）。アルヤらによれば、漸近的実行時間中に隠れたｋｄツリーの計算複雑性定係数は、少なくとも２のｄ乗と同様の速さで増加し、データポイントｎの数が２のｄ乗よりも十分に大きくない場合、境界効果は指数関数的な次元依存性での緩やかな減少だけとなる（非特許文献７）。高次元空間でのこの複雑性の変化により、多くの画像コレクションにＳＩＦＴ特徴を用いることは難しくなる。

本実施形態では、予め、ハードディスク等のドキュメントのライブラリあるいはリポジトリからドキュメントを検索し、これらのドキュメントの画像（参照画像）を取得して電子ドキュメントとして取り扱い、その画像に基づいて複数のディスクリプタを生成し、各ディスクリプタを空間的に複数の領域に分割して複数のローカルサブディスクリプタを生成し、複数のサブディスクリプタのそれぞれに対してｋｄツリーを作成する。ｋｄツリーの各ノードにはサブディスクリプタとドキュメント名等のラベルが与えられる。これらの関連付けられたデータはライブラリに保持される。

ドキュメントを検索する場合、その対象ドキュメント（対象画像）についても同様にサブディスクリプタを生成し、このｋｄツリーを用いてサブディスクリプタのｋ近似最近傍を決定し、このｋ個の結果のうちで最頻出ラベルに基づいて各サブディスクリプタにラベルを割り当て、それらのうちで最頻出サブディスクリプタラベルに基づいて検索ドキュメントにドキュメントラベルを割り当て、そのドキュメントラベルに基づいてドキュメントの検索を行う。

＜ＳＩＦＴ特徴マッチング手法＞
オリジナルのＳＩＦＴ特徴とマッチング手法のデザイン（設計）は、それぞれ個別のマッチングポイントを識別することに主眼をおいている。ミスマッチを減らすために、ディスクリプタの弁別性向上させることは重要である。本発明の多様な実施形態において、その目標は正確にドキュメントを認識できることである。ただし実施例のいくつかでは、最終的な目標に影響が無い範囲で、ポイントのミスマッチは許容される。

ロウの手法では、マッチングポイントは最近傍の点と２番目に最近傍の点との距離の比に応じて識別される（非特許文献５）。ロウのマッチング手法は、最近傍点と２番目の近傍点との正確な最近傍検索が必要となる。マウントの手法によれば、既存の最近傍検索アルゴリズムは、非常に低次元で無い限り、腕力探索法（brute-force search）と比べてさほど検索結果は良くはないとされる（非特許文献８）。

ただし、もしユーザが検索で多少の誤りを許容する場合であれば、実行時間の面では最近傍探索アルゴリズムは顕著な改善を達成することができる（非特許文献９）。したがって、ＳＩＦＴ特徴マッチング手法の変更により、ドキュメント認識時間の総時間を減少させることが可能である。

＜ＳＩＦＴサブ特徴とｋｄツリーフォレスト＞
ＳＩＦＴ特徴とｋｄツリーの問題を克服するために、本実施形態では、各ＳＩＦＴ特徴を複数のサブ特徴に分割する。このため、ｋｄツリーはそれぞれを低次元のサブ特徴から構成することが可能となる。マッチング基準も、ｋ−最近傍投票法（k-nearest-neighbor voting）に変更することができる。このようにして、サブ特徴のｋｄツリーフォレストを得ることができる。各サブ特徴ｋｄツリーにより生成された結果を融合させるために、各サブ特徴のｋｄツリーマッチングはその森(フォレスト）のｋ個のサブ特徴に対して‘ｋ’個の投票を割り当て、投票結果に基づいて最頻出のラベルを電子ドキュメント（検索画像）に割り当てる。

図２は画像の完全なディスクリプタの模式図である。図２はロウにより採用され、最大８×８マトリクスのディスクリプタ４２０により構成する画像４００の一部を示したものであり、８×８マトリクスの各サンプルポイントでの勾配の大きさと配向が矢印４３０で示されている。この矢印（即ち、各サンプルポイントでの勾配の大きさと配向）はディスクリプタに反映され、ガウシアン窓４１０により重み付けられる。

一方、本発明の実施形態においては、ｋ−近似最近傍を得る手法として、完全ＳＩＦＴ特徴を空間的に分割した複数のＳＩＦＴサブ特徴とそのサブ特徴のｋｄツリーフォレストを使うことにより、次元の増加による問題が克服できる。さらに、サブ特徴は完全な特徴よりも局所化されており、決定が投票によりなされるので、サブ特徴はよりオクルージョンや他の局所化ノイズ干渉に対し耐性がある。

図３は完全なディスクリプタを４分割したサブディスクリプタの模式図である。図３は、画像４００の各特徴４２０を、４つのサブ特徴４４０に分割することを図示したものである。サブ特徴を挿入することによりミスマッチが問題となりうる。しかし、ミスマッチが特徴空間に渡って一様に分布しているなら、ミスマッチにより生ずる誤ったドキュメント検索失敗アラームはｋｄツリー投票プロセスによって打ち消される。各サブ特徴マッチングの信頼度が完全特徴マッチングと比べて低い場合でも、この信頼度は実際のドキュメント検索に対し殆ど否定的影響を与えない。加えて、各サブ特徴は、完全特徴中のサブ特徴位置に応じて、サブ特徴ｋｄツリーの一つに割り当てることができる。結果として、連関するサブ特徴の部分における、ミスマッチの減少を維持することができる。

また、本発明の他のより具体的な実施形態では、ハードディスク等のドキュメントのライブラリあるいはリポジトリからドキュメントを検索し、ドキュメントの画像を取得し、その画像に基づいて複数の１２８次元ＳＩＦＴ画像特徴（ディスクリプタ）を生成し、各１２８次元ＳＩＦＴ画像特徴に基づいて４つの３２次元の局所的サブ特徴（ローカルサブディスクリプタ）を生成し、各局所的サブ特徴毎のｋｄツリーを作成し、各局所的サブ特徴の最頻出ラベルに基づいて各ＳＩＦＴ画像特徴の各局所的サブ特徴にラベルを割り当て、最頻出の局所的サブ特徴ラベルに基づいて電子ドキュメントにドキュメントラベルを割り当て、そのドキュメントラベル割り当てに基づいてドキュメントの検索を行う。

図４は、本発明に関わる電子ドキュメントの検索および識別に関する一般的な工程を示すフローチャートである。図４は、本発明の一実施形態であって、電子ドキュメントファイルの検索に関する一般的な手順を示す。一旦検索用ドキュメント画像（対象画像）が得られると（５１０）、まず全ディスクリプタが生成され（５２０）、全ディスクリプタに基づいてローカルサブディスクリプタが生成される（５３０）。続いて、各ローカルサブディスクリプタのｋ−最近傍が決定され（５４０）、ｋ−最近傍の最頻出ラベルが各ローカルサブディスクリプタのラベルとして割り当てられる（５５０）。全てのサブディスクリプタの中の最頻出ラベルを、電子ドキュメントのドキュメントラベルとして割り当てる（５６０）。ドキュメントラベルは電子ドキュメントを検索するのに用いられる（５７０）。

図５は、本発明に関わるＳＩＦＴディスクリプタとｋｄツリーを用いて電子ドキュメントの検索と識別を行う工程を示すフローチャートである。図５は、本発明の実施形態であって、ＳＩＦＴディスクリプタとｋｄツリーを用いた電子ドキュメントの検索および識別方法を示す。検索用ドキュメント画像（対象画像）が取得されると（６１０）、複数のＳＩＦＴ画像特徴が生成される（６２０）。ＳＩＦＴ画像特徴に基づいて、複数の局所的サブ特徴（ローカルサブディスクリプタ）が生成される（６３０）。各局所的サブ特徴とｋｄツリーを用いた検索結果に基づいて、各サブ特徴にラベルが付与される（６４０、６５０）。全てのサブ特徴の最頻出ラベルを電子ドキュメントのドキュメントラベルとして選択する（６６０）。ドキュメントラベルは電子ドキュメントを検索するのに用いられる（６７０）。

本発明の実施形態では、ユーザはいかなる撮影方向から撮影した関心ある対象物（ＯＯＩ：Object Of Interest)の画像を用いる自由があり、ドキュメント検索のために１以上の画像を用いる自由がある。さらに、ユーザは一つの画像が不十分なときにはよりよい対象物の認識のために異なった角度からのＯＯＩ画像をさらに使用することもできる。この手法はユーザに複数の画像を使用することを強要はしない。これは普通のユーザにとっては自然である。さらにＯＯＩをある背景から分離することができないときに、より柔軟性を与える。

二つの類似する局所的特徴が、二つの異なる画像中のまったく異なる位置であることもある。もしこれらの２つの特徴に対してそれら２つの異なる位置を見つけることができないときには、このアルゴリズムでそれら２つの特徴を比較することは難しい。本発明の実施形態では、それら２つの特徴の２つの異なる位置を検出するのにアンカーポイントを用いることができる。アンカーポイント（画像中の特徴的な位置）は局所的特徴を特定の場所に限定する手段として作用する。

本発明の実施形態において、ライブラリおよび検索用のドキュメント（即ち、参照画像及び対象画像）のハードコピーはスキャンすることで利用できるし、ＰＤＦあるいは他の写真画像はその同じドキュメントのデジタルバージョンを見つけるディスクリプタを作成するのに用いることができる。例えば、ハードコピーとされた写真はスキャンで用いることができ、ＰＤＦあるいは他の写真画像は同じ写真のデジタルバージョンを見つけるディスクリプタに用いることができる。あるいは、マイクロソフト社のワード（登録商標）やパワーポイント（登録商標）で作成されたドキュメントのハードコピーを、そのドキュメントの電子版を検索するのに用いることができる。

＜適用例１＞
本適用例において、２つの電子デスクトップ（そのうち一つを図１に示す。）間のコラボレーションが２つの異なる地点間で可能となる。電子デスクトップは、画像をキャプチャするカメラが搭載されたテーブルとコンピュータディスプレイ等から構成され、第１の電子デスクトップ上に紙ドキュメントが置かれたとき、第２のデスクトップのユーザは第２の電子デスクトップ上でそのドキュメントの複製を見ることができる。第１の電子デスクトップの縁に搭載されたカメラは、テーブル上に置かれた紙ドキュメントをキャプチャするために使われる。紙ドキュメントはテーブル上の任意の箇所に配置することができるので、カメラで撮影されたドキュメントの画像は歪んでいるかもしれない。

さらに、既存のカメラのハードウェアでは、キャプチャされたドキュメントはブレやカメラの低解像度のためにぼやけてしまうかもしれない。本実施形態では、オリジナルのドキュメントを検索するために、本発明の手法を用いて、ドキュメントの画像を第２のデスクトップに低解像度画像で送り、第２の電子デスクトップはその低解像度の画像を検索し、第１の電子デスクトップのデータベース（あるいは一般的なデータベース）を検索することができる。そして検索された高解像度のドキュメントが第２の電子デスクトップに表示される。

＜適用例２＞
本適用例では、紙ドキュメントを編集するために、その紙ドキュメントの低解像画像をキャプチャし、オリジナル電子ドキュメントを見つけ開くために用いる。開かれた後は、テキストや図が編集できるようになる。

＜適用例３＞
本適用例では、紙ドキュメントを電子メールするために、紙ドキュメントが多機能複合機（ＭＦＤ）でスキャンされ、受信者に送信され、オリジナルのスキャン画像に応じた電子ドキュメントを検索することができる。ＭＦＤで得られた低解像度画像は、電子ドキュメントの代理リンクとして働く。

＜適用例４＞
本適用例は、ドキュメントをファクシミリ送信するのに変えて、紙ドキュメントをＭＦＤでスキャンし、低解像度スキャン画像が所望のファクシミリに送信され、そのスキャン画像に基づいて、オリジナルの電子ドキュメント検索することができる。低解像度画像は電子ドキュメントの代理ファクシミリとして用いられ、スキャンノイズやファックス伝送ノイズなしに高品質紙ドキュメントを提供する。

＜適用例５＞
本適用例では、携帯電話を有するモバイルユーザが紙ドキュメントを職場で共有するものである。例えば、会社役員は空港で紙ドキュメントを読み、いくつか変更したいとする。役員は自分の秘書に変更したいページの画像を送る。低解像の携帯電話画像は、オリジナルドキュメントを検索するために用いられ、秘書のデスクトップ上にそれが提示される。本実施形態では、ドキュメントの特定箇所を送信することもできる。携帯電話のスクリーン中央の十字は紙ドキュメントの位置に対して相対的に記録することができる。修正の特定箇所を探す補助として、記録された中央点の位置は秘書に送信される。

＜適用例６＞
本適用例では、紙ドキュメント中でアノテーション付けされ、ハイライトされた位置が電子ドキュメント上でも表示される。上の例で説明したように、画像はアノテーション付けされた紙ドキュメントに基づいて、オリジナルの電子ドキュメントを探すために用いることができる。紙ドキュメントの画像とオリジナル電子ドキュメントを比較することによって、アノテーション付けされた領域とハイライトされた領域を見つけることができ、同じアノテーションを電子ドキュメントに導入することもできる。

＜実験例＞
本実験例では、改良されたアルゴリズムが、ＡＬＯＩ（Amsterdam Library of Object Images）ライブラリ中の１０００個の小さいオブジェクト画像を用いてテストされた。図６（Ａ）はこのライブラリから集められたオブジェクトの幾つかを示す。図６（Ｂ）は各オブジェクトについてライブラリが有するいくつかの写真を示す。ライブラリはオブジェクトの画像を４５°おきに集めてあるので、このライブラリはトレーニング用のデータを生成したり、多くの異なる撮影方向での実験を行うのに有効である。

通常のＳＩＦＴ特徴と一つのｋｄツリーを用いたＡＬＯＩライブラリから対象の電子ドキュメントの検索を、従来のＳＩＦＴ特徴と今回の４つのサブ特徴ベースのｋｄツリーで検索したときと比較した。一つのｋｄツリーは、各ノードがデータ空間中のデータポイントとその対応するラベルを含んだ最近傍検索のための構造である。ｋｄツリーはロウらの手法のＳＩＦＴ検索を高速化するために用いられる。この検索テストは、対象の一以上の画像にアルゴリズムを適用し、もっとも類似する対象のＩＤを検索することにより行われた。もしトレーニングデータ中の最も類似したオブジェクトのＩＤが入力した画像の対象ＩＤとマッチしたときに、そのサーチは正確に行われたとカウントする。対象認識の正確性は正確に検索された数を全検索数で割った値として計算した。

なお、予めトレーニングデータセットはＡＬＯＩから対象物を３０°間隔で撮影した写真を用いて構成した（すなわち、０°、３０°、６０°、...、３３０°）。より認識精度を高めるには、小さい間隔とし多くのメモリと大きなｋｄツリーを用いることで可能である。トレーニングデータの収集に続いて、これらのＳＩＦＴ特徴とサブＳＩＦＴ特徴が各写真から検索され、対応するオブジェクトＩＤに関連付けられる。テストデータセットは、３０°間隔で１５°のオフセットを設けて撮影されたもので構成された（つまり、１５°、４５°、７５°、...、３４５°）。システムは３０°の撮影方向間隔のトレーニングイメージを持つので、１５°の撮影方向オフセットは実際にカメラで撮影するときに生ずる最大のオフセットである。それゆえ、ここで示す結果は同様の撮影環境下では最悪のシナリオに近いものである。

テストデータセットとともに、５種類の検索条件（クエリ）が設定された。クエリタイプ１は一つのオブジェクトの一つの画像からの特徴を含む。クエリタイプ２は互いに対向する方向から撮影した２つの画像からの特徴を含む（例えば１５°、１９５°）。クエリタイプ３は１２０°間隔の３つの画像からの特徴を含む。クエリタイプ４は９０度間隔の４つの画像からの特徴を含む。クエリタイプ５は６０°間隔の６つの画像からの特徴を含む。

比較はデュアルコアペンティアム(登録商標）コンピュータを用いて行った。ｋ−最近傍検索で、ｋは３に設定した。テスト中は、アルゴリズムはＣＰＵの動作パワーの５０％を使った。それぞれの検索の時間コストがｋｄツリーのマッチングポイントの位置に大きく依存して変化するので、比較のために検索時間は多くの検索の平均とした。検索時間の平均は１画像クエリで１２０００、２画像クエリでは６０００、...といった回数の検索結果について行った。

通常の正確なｋｄツリー検索は、非常に長い時間がかかる（約４５２２３ミリ秒／画像）ので、近似最近傍（ＡＮＮ）アプローチをすべてのｋｄツリー検索に用いた。ＡＮＮの主な考え方は、他の点への最近接距離の（１＋ε）倍の半径内の近似最近傍を見つけるものである。εを２．０に設定することで、一つの画像検索の平均検索時間は、４５２２３ミリ秒／画像から２２０４ミリ秒／画像へと改善する。このため、本発明の実施形態では正確な最近傍計算よりは２０倍速いアルゴリズムである近似最近傍を使用した。

図７は、本発明の手法による一例と既存のＳＩＦＴ法を利用したときの、精度と平均検索コストの比較結果を示すグラフである。縦軸（垂直軸）はオブジェクト認識率を示し、横軸（水平軸）はクエリ当たりの平均時間コストを示す。５つのすべてのひし形マークが本発明の実施形態で得られた結果である。全ての丸いマークは従来のＳＩＦＴ特徴と一つのｋｄツリー検索（最近傍検索と等価）とを組み合わせて得られた結果である。図７中のそれぞれのマークの右の数値は各クエリで用いられた画像の数に対応する。図７中で、マーク８１０は、全ての検索アルゴリズムでの理想位置を表す。即ち、１００％の認識率で且つ時間コストがない（ゼロである）場合の点に相当する。

一つのツリーベースの検索と比較して、本発明の実施形態はより理想位置に近い結果を有する。予想を上回り、略同じオブジェクト認識率（例えば、ひし形４と丸２）について平均時間コストを比較すると、本発明の実施例の検索手法は既存のＳＩＦＴ法の約１／１３の時間であった。この結果から、より大きなデータセットの場合にはさらに時間の節約が大きくなると予測される。この予期せぬ結果から、本発明の実施形態は、従来のＳＩＦＴベース検索をオブジェクト認識に用いた場合に対して、高速化の点で優れていることが示された。

なお、他の公知の画像を記述するディスクリプタを用いる手法と同様に、本発明は検索対象の画像に一致する電子ドキュメントを検索する以外にも、入力された対象画像と関連するラベルを有する電子ドキュメントを検索するためのカテゴリー検索等にも利用することもできる。

本発明において検索対象とする電子ドキュメントとしては、写真や印刷したドキュメントの画像であってもよい。検索対象となる画像を取得するときの画像の取得には、例えばデジタルカメラや、カメラ内蔵の携帯電話（低解像度でも可能）を使用して、その画像を本システムに送ることで使用することもできる。ドキュメントを検索するときに、デスクトップシステムに加えて、ＰＤＡや携帯電話などで利用することもできる。

また、電子会議の際にドキュメントを共有する手段としても、本発明は有効である。テレビ会議システムのカメラの解像度が不十分であっても、電子ドキュメントを検索できれば、それを参加者に送信したり、遠隔スクリーンに表示、あるいは印刷することでドキュメントのコピーを参加者に提供することもできる。電子メール、ファクシミリといった手段で送信することで参加者がこれを利用することもできる。もちろん、共有するだけでなく、個人に対してこれを送信するのに利用することもできる。

なお、本発明の多様な実施形態は、コンピュータ技術の当業者であれば明らかなように、本発明の開示の教示に基づき、プログラムされたプロセッサを用いて実現することもできる。この開示の教示に基づき、ソフトウェア分野における当業者であれば適当なソフトウェアコードを用いてプログラムを実現することができることも自明である。本発明は集積回路化して実現することや、コンピュータネットワークに相互接続することと組み合わせて実現できることも当業者に自明である。

本発明を実現するために、一つ以上のコンピュータ可読媒体上に記憶され、プロセッサの制御、ユーザもしくは他のデバイスと相互作用するためのソフトウェアを用いることもできる。ソフトウェアには、デバイスドライバ、インターフェースドライバ、オペレーティングシステム、実行環境／コンテナ、ユーザインターフェースとアプリケーションなどを含んでもよい。

コードの実行は直接あるいは間接的であってよい。コードにはコンパイルされたもの、インタープリテッド、他の形式の言語を含んでよい。実行、コード伝送、機能のコードセグメントは、他のソフトウェア、デバイス、ローカル、リモートで、その機能の呼び出し、コールを含んでよい。予備出しあるいはコールは、ライブラリモジュール、デバイスドライバ、インターフェースドライバ、リモートソフトウェアへのその機能の実行のための呼び出しやコールを含んでもよい。呼び出しやコールは分散、クライアント／サーバシステムへの呼び出しや実行を含んでもよい。

ここで示した本発明の方法、システム、プログラムの実施形態は、例示を目的とするものであって、発明を限定するものではない。他の実施態様も可能であり、それは本発明によりカバーされるものである。そうした実施形態はこの教示に基づいて関連する技術分野の当業者であれば容易に実施することができることは明らかである。

３１０カメラ
４００画像
４１０ガウシアン窓
４２０ディスクリプタ（例えば、ＳＩＦＴ特徴）
４３０勾配の大きさと配向を示す矢印
４４０サブディスクリプタ（例えば、ＳＩＦＴサブ特徴）

Claims

コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第１のラベルと、前記電子ドキュメントを視覚化した参照画像の特徴を表わす第１のディスクリプタの各々を分割して得られた前記第１のディスクリプタより低次元の複数の第１のサブディスクリプタとを保持するライブラリと、
検索の対象となる対象画像を取得する取得手段と、
前記対象画像から前記対象画像の特徴を記述する第２のディスクリプタを生成するディスクリプタ生成手段と、
前記第２のディスクリプタを分割して前記第２のディスクリプタより低次元の複数の第２のサブディスクリプタを生成するサブディスクリプタ生成手段と、
前記ライブラリ中の前記複数の第１のサブディスクリプタと複数の各前記第２のサブディスクリプタとの間でｋ−近似最近傍を決定するｋ−近似最近傍決定手段と、
前記各第２のサブディスクリプタの前記ｋ−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第２のサブディスクリプタに第２のラベルをそれぞれ設定する第２ラベル設定手段と、
前記複数の第２のサブディスクリプタに設定された第２のラベルに基づいて前記対象画像にドキュメントラベルを割り当てるドキュメントラベル割り当て手段と、
前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索する検索手段と、
を備えることを特徴とする検索システム。
前記第１のサブディスクリプタは、前記参照画像中の予め定めた特徴点における特徴を記述したものであると共に、前記第２のサブディスクリプタは、前記対象画像中の予め定めた特徴点における特徴を記述したものであることを特徴とする請求項１記載の検索システム。
前記第２ラベル設定手段は、前記複数の第２のサブディスクリプタの各々について、前記ｋ−近似最近傍に対応する前記電子ドキュメントに設定されているｋ個のラベルのうち、最も頻度の高いラベルを前記第２のサブディスクリプタに第２のラベルを設定することを特徴とする請求項１又は２記載の検索システム。
前記第２ラベル設定手段は、前記第２のサブディスクリプタに第２のラベルを設定するために、ｋ−最近傍投票法をマッチング基準として用いて設定することを特徴とする請求項１から３までの何れか１項記載の検索システム。
前記第１のディスクリプタ及び前記第２のディスクリプタが、スケール不変変換（ＳＩＦＴ）画像特徴であることを特徴とする請求項１から４までの何れか１項記載の検索システム。
前記スケール不変変換（ＳＩＦＴ）画像特徴を空間的に整数分の１に分割して生成する局所的サブ特徴を、前記第１のサブディスクリプタ及び前記第２のサブディスクリプタとすることを特徴とする請求項５記載の検索システム。
前記ライブラリには前記第１のサブディスクリプタに基づいて予め生成されたｋｄツリーが記憶され、前記第２ラベル設定手段は、前記ｋｄツリーに基づいて、前記第２のサブディスクリプタのｋ−近似最近傍を決定することを特徴とする請求項１から６までの何れか１項記載の検索システム。
前記ｋｄツリーの各ノードには、前記第１のサブディスクリプタ及び前記第１のラベルが関連付けられることを特徴とする請求項７記載の検索システム。
コンピュータに、ライブラリから電子ドキュメントを検索させるための検索プログラムであって、
前記ライブラリは、コンピュータにより視覚化される電子ドキュメントと、前記電子ドキュメントに設定された第１のラベルと、前記電子ドキュメントを視覚化した参照画像の特徴を表わす第１のディスクリプタの各々を分割して得られた前記第１のディスクリプタより低次元の複数の第１のサブディスクリプタとを備えており、
前記コンピュータに、
検索の対象となる対象画像を取得し、
前記対象画像から前記対象画像の特徴を記述する第２のディスクリプタを生成し、
前記第２のディスクリプタを分割して前記第２のディスクリプタより低次元の複数の第２のサブディスクリプタを生成し、
前記ライブラリ中の前記複数の第１のサブディスクリプタと複数の各前記第２のサブディスクリプタとの間でｋ−近似最近傍を決定し、
前記各第２のサブディスクリプタの前記ｋ−近似最近傍に対応する前記電子ドキュメントに設定されているラベルに基づいて各前記第２のサブディスクリプタに第２のラベルをそれぞれ設定し、
前記複数の第２のサブディスクリプタに設定された第２のラベルに基づいて前記対象画像にドキュメントラベルを割り当て、
前記ドキュメントラベルに基づいて、前記ライブラリから前記対象画像と一致又は関連する前記電子ドキュメントを検索する、
各手順を実行させるための検索プログラム。