JP2010530998A

JP2010530998A - 画像ベース情報検索の方法およびシステム

Info

Publication number: JP2010530998A
Application number: JP2010506785A
Authority: JP
Inventors: クワックティル; バイヘルベルト
Original assignee: アイトゲネーシッシュテヒニッシュホーホシューレチューリッヒ; コオアバアーゲー
Priority date: 2007-05-08
Filing date: 2007-05-08
Publication date: 2010-09-16
Also published as: WO2008134901A1; WO2008134901A8; US20100309226A1; EP2147392A1

Abstract

画像に基づき情報を検索するために、第１の画像が通信端末（１）に関連するデジタルカメラを使用して撮像される（Ｓ１）。第１の画像に関するクエリデータが、通信ネットワーク（２）を介してリモート認識サーバ（３）へ伝送される（Ｓ３）。リモート認識サーバ（３）において、参照画像が、クエリデータに基づき識別される（Ｓ４）。続いて、リモート認識サーバ（３）において、ホモグラフィが、参照画像およびクエリデータに基づき算出され（Ｓ５）、ホモグラフィは、参照画像を第１の画像にマッピングする。さらに、リモート認識サーバ（３）において、第２の画像が選択され（Ｓ６）、ホモグラフィを使用して第２の画像の投影画像が算出される（Ｓ７）。第１の画像の一部を投影画像の少なくとも一部と置き換えることにより、拡張画像が、生成され（Ｓ８、Ｓ１０）、通信端末（１）において表示される（Ｓ１１）。カメラにより撮像された第１の画像の効果的な拡張が、平面空間の状態のまま、二次元の画像および物体のみを扱うことにより可能にされる。

Description

本発明は、画像に基づく情報検索の方法およびシステムに関する。具体的には、本発明は、デジタルカメラを使用して撮像され、リモート認識サーバにおいて識別される画像に基づく、情報検索の方法およびシステムに関する。

低価格で小型のデジタル（電子）カメラの有用性に伴い、これらのカメラが、携帯電話、ラップトップコンピュータおよびＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）コンピュータ、ならびに他の電子装置に組み込まれることは、時間の問題であった。特に、デジタルカメラの特徴と通信端末の特徴を組み合わせることにより、カメラで撮像した画像を、固定のまたは無線の通信回線を介して、他の通信端末または更なる処理のためにリモートサーバへ伝送する新しいアプリケーションを可能にした。

欧州特許第１６４０８７９号には、データベース内の画像を検索する方法が記載されている。画像はモバイルカメラを使用して撮像され、電気通信ネットワークを介してデータベースに記憶するために伝送される。ユーザは、例えば地理的位置データの画像にメタデータを割り当てており、このメタデータに基づき、データベース内の画像を続けて検索することが可能。

欧州特許第１２３０８１４号には、商品を注文する方法が記載され、それによると、カメラを用いて注文する商品の写真を撮る。写真は、携帯電話を使用して、リモートサーバへ伝送される。所望の商品を識別するため、サーバは、受け取った写真を、例えば、ニューロンネットワークを用いて商品データベースの写真と比較し、それぞれの携帯電話加入者の注文の処理を開始する。

ドイツ特許１０２４５９００号には、カメラを内蔵する端末が、電気通信ネットワークを介して、画像をサーバコンピュータに伝送する、画像ベース情報検索のシステムが記載される。サーバは、受け取った画像を分析し、象徴的指標を画像に割り当てる、物体認識プログラムを使用する。検索エンジンは、画像に関連する情報を見つけるために指標を使用し、この情報を端末に返す。

米国特許公開２００６／０２４０８６２号には、携帯電話、リモート認識サーバおよびリモートメディアサーバを含む、画像ベース情報検索システムが記載される。携帯端末は、内蔵カメラを備え、カメラにより撮像した画像を認識サーバへ伝送するよう構成される。一実施形態において、携帯端末は、画像から特徴ベクトルを決定し、それらを認識サーバへ伝送するよう構成される。認識サーバは、入ってくる画像または特徴ベクトルをデータベースに記憶される物体表現とマッチングする。認識サーバは、例えば、顔、テクスチャのある物体、文字またはバーコード等の特定の種類のパターンを認識するよう特化された、多数のエンジンを使用する。認識が成功すると、物体のテキスト識別子が与えられる。これらの識別子は、メディアサーバへ送られ、メディアサーバは、対応するマルチメディアコンテンツ、例えば、テキスト、画像、音楽、オーディオクリップ、または、携帯電話上でウェブブラウザを使用してメディアコンテンツを検索するためのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）リンク、を携帯電話へ送り返す。例えば、印刷されたテキストの写真をサブミットすることにより、ユーザがテキストに関する追加の情報を得ることが可能であり、または、広告看板の写真によって、宣伝されている商品についての更なる情報を得ることが可能である。

ＬｉｎｄｅｂｅｒｇＴ．：Ｆｅａｔｕｒｅｄｅｔｅｃｔｉｏｎｗｉｔｈａｕｔｏｍａｔｉｃｓｃａｌｅｓｅｌｅｃｔｉｏｎ（自動スケール選択による特徴量検出）．ＩＪＣＶ３０（２）（１９９８）７９−１１６．Ｍｉｋｏｌａｊｃｚｉｋ，Ｋ．，Ｓｃｈｍｉｄ，Ｃ．：Ａｎａｆｆｉｎｅｉｎｖａｒｉａｎｔｉｎｔｅｒｅｓｔｐｏｉｎｔｄｅｔｅｃｔｏｒ（アフィン不変の関心点検出器）．ＥＣＣＶ（２００２）１２８−１４２．Ｔｕｙｔｅｌａａｒｓ，Ｔ．ＶａｎＧｏｏｌ，Ｌ．：Ｗｉｄｅｂａｓｅｌｉｎｅｓｔｅｒｅｏｂａｓｅｄｏｎｌｏｃａｌａｆｆｉｎｅｌｙｉｎｖａｒｉａｎｔｒｅｇｉｏｎｓ（局所アフィン不変領域に基づくワイドベースラインステレオ）．ＢＭＶＣ（２０００）４１２−４２２．Ｍａｔａｓ，Ｊ．，Ｃｈｕｍ，Ｏ．，Ｍ．，Ｕ．，Ｐａｊｄｌａ，Ｔ．：Ｒｏｂｕｓｔｗｉｄｅｂａｓｅｌｉｎｅｓｔｅｒｅｏｆｒｏｍｍａｘｉｍａｌｌｙｓｔａｂｌｅｅｘｔｒｅｍａｌｒｅｇｉｏｎｓ（最大限に安定した極値領域からのロバストワイドベースラインステレオ）．ＢＭＶＣ（２００２）３８４−３９３．Ｈａｒｒｉｓ，Ｃ．，Ｓｔｅｐｈｅｎｓ，Ｍ．：Ａｃｏｍｂｉｎｅｄｃｏｒｎｅｒａｎｄｅｄｇｅｄｅｔｅｃｔｏｒ（複合コーナー・エッジ検出器）：ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｌｖｅｙＶｉｓｉｏｎＣｏｎｆｅｒｅｎｃｅ．（１９８８）１４７−１５１．Ｌｏｗｅ，Ｄ．：Ｄｉｓｔｉｎｃｔｉｖｅｉｍａｇｅｆｅａｔｕｒｅｓｆｒｏｍｓｃａｌｅ−ｉｎｖａｒｉａｎｔｋｅｙｐｏｉｎｔｓ（スケール不変のキーポイントからの特異的画像特徴）．ＩＪＣＶ６０（２００４）９１−１１０．Ｂａｙ，Ｈ．，Ｔｕｙｔｅｌａａｒｓ，Ｔ．，ＶａｎＧｏｏｌ，Ｌ．：ＳＵＲＦ：ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ（高速化ロバスト特徴）．ＥＣＣＶ（２００６）４０４−４１７．

画像ベース情報検索の既知のシステムは、別個のデータオブジェクトとして、テキスト、音声または画像等の追加の情報を、通信ネットワークを介して受け取った画像データ、例えば、画像または対応する特徴ベクトル、に応答して提供するよう構成され、既知のシステムは、画像関連情報を、それぞれの画像の一体化された部分として提供しない。

本発明の目的は、画像ベース情報検索の方法およびシステムを提供することであり、このシステムおよび方法は、従来技術における不都合を有しない。特に、本発明の目的は、情報検索の（クエリの）基準として使用されたそれぞれの画像の一体化された部分として、画像関連情報を提供する、画像ベース情報検索の方法およびシステムを提供することである。

本発明によると、これらの目的は特に独立請求項の特徴を通して達成される。加えて、さらに有利な実施形態は、従属請求項および詳細な説明から得られる。

本発明によると、上述の目的は、特に以下において達成され、それにおいては、画像に基づき情報を検索するために、第１の画像が、通信端末に関連するデジタル（電子）カメラを使用して撮像され、第１の画像に関するクエリデータが、通信ネットワークを介して少なくとも１つのリモート認識サーバへ伝送され、リモート認識サーバにおいて、クエリデータに基づき参照画像が識別され、リモート認識サーバにおいて、透視変換行列、すなわち、ホモグラフィが、第１の画像から参照画像およびクエリデータに基づき算出され、そのホモグラフィは、参照画像の平面を第１の画像に現れる参照画像の平面にマッピングし、リモート認識サーバにおいて、第２の画像が選択され、リモート認識サーバにおいて、ホモグラフィを使用して第２の画像の投影画像が算出され、第１の画像の少なくとも一部を投影画像の少なくとも一部と置き換えることにより、拡張画像が生成され、拡張画像が通信端末に表示されるか、または別の端末に伝送される。好ましくは、通信端末は、無線通信用に構成されるモバイル通信端末である。実施形態によると、第１の画像（クエリ画像）のそれぞれの一部と投影画像の一部との置き換えは、認識サーバ上または通信端末上で行われる。従って、投影画像は、通信端末へ（別個に）それ自体が、または拡張クエリ画像の一部として、伝送される。一実施形態において、投影画像または拡張クエリ画像を伝送するステップはそれぞれ、通信端末に情報サーバへのリンクを伝送するステップを含む。そして、リンクが通信端末内で起動され、投影画像または拡張クエリ画像がそれぞれ、情報サーバから検索される。情報サーバは、認識サーバと同じまたは異なるコンピュータ上に設置される。参照画像をクエリ画像にマッピングするためにホモグラフィを決定すること、および第２の画像（修正中画像）の投影画像を決定することにより、ユーザが自分のカメラで撮像したクエリ画像を効果的に拡張することが可能になる。効果的な拡張は、平面空間内の状態のまま、二次元の画像および物体のみを扱うことにより可能になる。三次元の物体が三次元景観に投影される従来の拡張現実の方法と異なり、平面−平面変換、すなわち、ホモグラフィを使用して、クエリ画像の一部を修正中画像の投影画像の対応する一部と置き換えることにより、複雑な三次元投影、視点依存の変換、および、影、反射等の計算を必要とすることなく、クエリ画像を拡張することが可能となる。従って、拡張（クエリ）画像が、クエリ画像の一体化された部分である修正中画像の投影と共にユーザに表示される。アプリケーケションおよび／またはユーザが指定した操作により、クエリ画像内にキャプチャされた現実の世界の物体を、本来はクエリ画像内には見えないであろう追加の視覚的情報、例えば、物体の内部（ｘ線モード）または以前の（歴史的な）時間もしくは未来の時間（タイムトラベルモード）における物体の状態、と共にユーザに提示することが可能である。典型的には、修正中画像は参照画像の修正されたバージョンである。しかし、異なるアプリケーションにおいては、修正中画像は、参照画像から独立したものであり、例えば、通信端末からリモート認識サーバへ、クエリ画像に関するデータの一部として伝送され、または、ユーザまたはユーザコミュニティによりリモート認識サーバへ前もって伝送される。クエリ画像をテキストを用いて拡張するさらなる変形においては、第２の画像がテキストデータに基づき生成され、例えば、通信端末からリモート認識サーバへ、クエリ画像に関するデータの一部として伝送され、または、ユーザまたはユーザコミュニティによりリモート認識サーバへ前もって伝送される。また、多数の画像（画像シーケンス）を使用して、クエリ画像を拡張することが可能である。

一実施形態において、クエリデータをリモート認識サーバへ伝送するステップには、第１の画像（クエリ画像）をリモート認識サーバへ伝送するステップが含まれる。本実施形態において、参照画像は、クエリ画像に対応する参照画像を決定することにより識別され、ホモグラフィは、参照画像およびクエリ画像に基づき算出される。本実施形態において、好ましくは、参照画像を識別するステップには、クエリ画像の画素を分析して、スケール不変、関心点を検出するステップと、再現性のあるオリエンテーションを各関心点に割り当てるステップと、各関心点に対して、関心点の中心に近接する画素値の導関数（例えば、差分）に基づき記述子ベクトルを算出するステップと、クエリ画像に関連して決定した記述子ベクトルをリモート認識サーバのデータベースに記憶される記述子ベクトルと比較することにより、および、対応する記述子ベクトルを有する記憶された画像から、クエリ画像の関心点に対して幾何学的に（再度、ホモグラフィまたは基本行列を介して）対応する関心点を有する参照画像を選択することにより（この対応はユークリッド距離または他の種類の距離に依存する）、画像マッチングするステップと、が含まれる。クエリ画像を認識サーバへ伝送するステップおよび認識サーバ内の参照画像をクエリ画像に基づき決定するステップでは、有利には、（モバイル）通信端末はクエリ画像を分析するための任意の画像処理能力を備えていなくても良い。

代替の好ましい一実施形態において、方法は、クエリ画像の画素を分析して、スケール、アフィン変換および／または透視の歪みに対して任意の不変性を持つ関心点を自動的に検出することにより、再現性のあるオリエンテーションを各関心点に割り当てることにより、および、各関心点に対して、各関心点の中心に近接する画素値の導関数（例えば、差分）に基づき、記述子ベクトルを算出することにより、通信端末においてクエリデータ（クエリ画像）を決定するステップをさらに含む。同様に、参照画像を識別するステップには、クエリ画像に関する受け取った記述子ベクトルをリモート認識サーバのデータベースに記憶される記述子ベクトルと比較することにより、および、対応する記述子ベクトルを有する記憶された画像から、クエリ画像の関心点に対して幾何学的に対応する関心点を有する参照画像を選択することにより（この対応はユークリッド距離または他の種類の距離に依存する）、画像マッチングするステップが含まれる。（モバイル）通信端末において記述子ベクトルを決定するステップは、認識サーバは、複数の通信端末によりサブミットされるクエリ画像の記述子ベクトルを算出するように構成される必要がないという利点を有する。さらに、クライアント側で記述子ベクトルを算出することは、増大するユーザのプライバシーにさらに有利である。ユーザにより撮像される実際のクエリ画像は、通信ネットワークを介して伝送されず、従ってユーザ以外の誰からも隠されるが、元のクエリ画像を記述子ベクトルから導き出すことができないからである。

一実施形態において、第１の画像（クエリ画像）に関するクエリデータをリモート認識サーバへ伝送するステップが、追加のクエリ情報、例えば、地理的位置情報、日時情報、カレンダ日付情報、歴史的年情報、未来年情報、リモート認識サーバにて実行させる動作を指定するユーザ命令情報、および／または、血圧情報、血糖値情報および／または心拍情報等の生物医学的情報、を伝送するステップをさらに含む。同様に、第２の画像（修正中画像）が、この追加のクエリ情報を使用して選択される。従って、修正中画像は、ユーザの現在の地理的場所、ユーザの現在の生物医学的状態および／または規定された時点に対して特有である認識サーバにおいて、選択されることが可能である。さらに、一実施形態において、第２の画像が、例えばリモート認識サーバにおいて記憶されたユーザプロフィール情報を使用して、選択される。従って、それぞれのユーザに関連するプロフィールに基づき、異なる画像の情報がユーザに返される。例えば、若い人および／または女性は、それぞれ年配者および／または男性とは異なる情報を受け取るであろう。好ましくは、参照画像もまた、何らかの追加のクエリ情報、例えば、ユーザの現在の地理的位置および／または現在の時間／日付、を使用して識別されて、検索空間を縮小し、参照画像を検索する時間を減少させる。

さらなる実施形態において、第２の画像（修正中画像）が、インタラクティブ画像部を示すビジュアルマーカ、例えば、グラフィックのラベルまたはシンボルを含み、第１の画像（クエリ画像）が、クエリ画像の一部としてビジュアルマーカと共に表示される。従って、カメラで撮像されたクエリ画像が自動的に拡張され、ユーザがクエリ画像を見るときに、クエリ画像内のインタラクティブ領域がビジュアルマーカによりユーザに示される。好ましくは、このモードの動作は、連続する（ほぼ）実時間のものであるため、クエリ画像は、連続する流れの中でビデオシーケンスの撮像の一部として撮像される。さらに、クエリ画像の対応する一部を置き換える投影画像の一部が、クエリ画像に示される現実の世界の物体に対して固定されたまま、一方で、カメラがビデオシーケンスを撮像しており、および／または、現実の世界の物体が動いている。従って、インタラクティブ画像部を示すビジュアルマーカは、通信端末のディスプレイ上の現実の世界の物体に固定されて示される。ユーザは、ビジュアルマーカまたは関連するインタラクティブ画像部をそれぞれ例えばポイント及びクリックすることにより、選択的に起動することが可能であり、および／または、実行させるそれぞれの動作を指定することが可能である。従って、ビジュアルマーカを第１の画像の一部として表示する一方、ビジュアルマーカの１つに関連するユーザ命令が、ユーザから受け取られ、リモート認識サーバへ伝送される。リモート認識サーバにおいて、ユーザ命令に基づき、第３の画像が、選択され（次の修正中画像）、および／または参照画像が、次の修正中画像として修正される。ホモグラフィを使用して、リモート認識サーバが、次の修正中画像の投影画像を算出し、第１の画像の一部を第３の画像（画像シーケンス）の投影画像の少なくとも一部と置き換えることにより、さらなる拡張画像を生成する。さらなる拡張画像は、通信端末において表示される。従って、第１の拡張ステップにおいて表示されるビジュアルマーカに基づき、ユーザは、カメラを使用して、現実の世界の物体の中からインタラクティブな物体を検索することが可能であり、第２の拡張ステップにおいて、そのような現実の世界の物体の拡張画像を撮像することが可能である。

本発明は、図面を参照して、例としてさらに詳細に説明される。
画像に基づく情報検索のシステムの例示の構成を概略的に説明するブロック図である。ホモグラフィを介した参照画像のクエリ画像への変換、および、ホモグラフィを使用した修正中画像の修正中画像の投影への変換を、概略的に説明するブロック図である。本発明に従った画像ベース情報検索で実行される工程のシーケンスの一例を説明するフロー図である。異なるスケール（サイズ）の、検出された（スケール不変の）関心点を囲む、検出されたオリエンテーションに整列された、二次記述子ウィンドウの例を示す図である。ｘ方向（ａ）およびｙ方向（ｂ）の一次導関数を有し、関心点が円形領域の中心である、一次導関数を有する離散化した円形領域の例を示す図である。関心点を中心とし、スケール独立の辺長を持ち、記述子ベクトルの算出に対して独立して検討される１６のサブ領域に分割された、記述子ウィンドウの例を示す図である。

図１に例示するように、画像に基づく情報検索のシステムは、少なくとも１つの通信端末１および通信端末１に関連するデジタル（電子）カメラ１０と、リモートコンピュータベースの認識サーバ３と、を備え、通信端末１は、電気通信ネットワーク２を介して認識サーバ３に接続可能である。

電気通信ネットワーク２は、固定ネットワークおよび／または無線ネットワークを含む。例えば、電気通信ネットワーク２は、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＩＳＤＮ（ｉｎｔｅｇｒａｔｅｄｓｅｒｖｉｃｅｓｄｉｇｉｔａｌｎｅｔｗｏｒｋ：総合デジタル通信網）、インターネット、ＧＳＭ（ｇｌｏｂａｌｓｙｓｔｅｍｆｏｒｍｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ）、ＵＭＴＳ（ｕｎｉｖｅｒｓａｌｍｏｂｉｌｅｔｅｌｅｐｈｏｎｅｓｙｓｔｅｍ）または他の携帯電話システム、および／または無線ＬＡＮ（ＷＬＡＮ）を含む。

通信端末１は、電子機器、例えば、携帯電話、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、または、ラップトップコンピュータもしくはパームトップコンピュータ等のモバイル通信端末を含む。通信端末１はまた、車などの移動性の機器、または、建物もしくは冷蔵庫等の固定された機器に統合される。好ましくは、カメラ１０は、通信端末１に接続され、例えば、取り付けられ、または同一の筐体に一体化された部分としてある。通信端末１は、表示スクリーン１１１を有する表示モジュール１１と、データ入力要素１６、例えば、キーボード、タッチパッド、トラックボール、ジョイスティック、ボタン、スイッチ、音声認識モジュール、または任意の他のデータ入力要素と、を含む。通信端末１は、制御モジュール１２、ユーザインターフェースモジュール１３、オプションの画像拡張モジュール１４およびオプションの特徴記述モジュール１５等の機能モジュールを、さらに含む。

図１において、参照番号３は、電気通信ネットワーク２を介して電気通信端末１およびユーザコミュニティＣの追加の通信端末１’に接続可能なコンピュータベースの認識サーバを参照する。一実施形態において、認識サーバ３は、電気通信ネットワーク２を介して電気通信端末１に接続可能なコンピュータベースの情報サーバ４に接続される。情報サーバ４は、同じコンピュータ上または、認識サーバ３とは分離したコンピュータ上に設置される。認識サーバ３は、データベース３５と、画像認識モジュール３１、画像マッピングモジュール３２、修正選択モジュール３３およびオプションの画像拡張モジュール３４等の機能モジュールと、を含む。さらに、図１は、木５１、茂み５２、家５３または広告看板５４等のいくつかの現実の世界の物体を伴う、現実の世界の情景５を概略的に例示する。参照番号５’は、カメラ１０により撮像された現実の世界の情景５内の広告看板５４のクエリ画像を示す。

好ましくは、機能モジュールおよびデータベース３５が、プログラムソフトウェアモジュールとして実装される。ソフトウェアモジュールのコンピュータプログラムコードは、コンピュータプログラム製品、すなわち、コンピュータ可読媒体である、通信端末１もしくは認識サーバ３のコンピュータそれぞれに統合されるメモリ内、または、通信端末１もしくは認識サーバ３のコンピュータそれぞれに挿入可能なデータキャリア上、に記憶される。ソフトウェアモジュールのコンピュータプログラムコードが、通信端末または認識サーバそれぞれのプロセッサを制御するため、通信端末１または認識サーバ３それぞれは、図２から６を参照してより詳細に後述する種々の機能を実行させる。当業者は、機能モジュールが、ハードウェア手段により部分的または全体的に実装可能であることを理解するであろう。

表示モジュール１１は、キャプチャまたは拡張された画像を表示スクリーン１１１上に表示するよう構成される。ユーザインターフェースモジュール１３は、表示スクリーン１１１上にグラフィカルユーザインターフェースを視覚化するよう、および、グラフィカルユーザインターフェースとデータ入力要素１６とを介してユーザインタラクションを扱うよう、構成される。

図３において、ブロックＡは、通信端末１、１’と認識サーバ３の間で実行される準備工程を例示する。ステップＳ００において、ユーザコミュニティＣに関連する通信端末１’が、コミュニティデータを認識サーバ３へ伝送する。ステップＳ０１において、認識サーバ３が、受け取ったコミュニティデータをデータベース３５に記憶する。ステップＳ０２において、通信端末１が、ユーザプロフィールデータを認識サーバ３へ伝送する。ステップＳ０３において、認識サーバ３が、受け取ったユーザプロフィールデータをデータベース３５に記憶する。コミュニティデータおよび／またはユーザプロフィールデータは、例えば、評価情報等の、特定の地理的場所および／または（画像）物体に割り当てられる情報を含み、情報は、１人のユーザ、規定のユーザグループ、またはコミュニティ全体に特有のものとすることができる。ユーザプロフィールデータは、特定のユーザに関する年齢、性別、趣味および他の情報を含む。

図３において、ブロックＢは、画像に基づく情報検索の工程の例示のシーケンスを図示する。

ステップＳ１において、カメラ１０は、ユーザにより、興味のある領域、例えば、現実の世界の情景５、特にその情景の中の広告看板５４、に向けられ、カメラ１０が起動されて単一の画像（写真モード）または画像の連続する流れ（探索中またはビデオモード）を撮像する。以下の段落において、クエリ画像Ｉ₂は、図２に例示されるように、カメラ１０により写真モードで撮像された単一の画像、またはカメラ１０によりビデオモードで撮像された画像シーケンスの特定の画像フレーム、に関係する。

ステップＳ２において、制御モジュール１２が、カメラ１０によりキャプチャされたクエリ画像Ｉ₂に関するクエリデータを準備する。好ましい実施形態において、制御モジュールは、特徴記述モジュール１５を起動して、キャプチャされたクエリ画像Ｉ₂に関する記述子ベクトルを生成する。まず、特徴記述モジュール１５は、スケール不変の関心点を検出するために、キャプチャされたクエリ画像Ｉ₂の画素を分析する。続いて、特徴記述モジュール１５は、再現性のあるオリエンテーションを各関心点に割り当て、各関心点に対して、関心点に近接する画素値の導関数に基づき、記述子ベクトルを算出する。記述子ベクトルの決定については詳細に後述する。代替の一実施形態において、制御モジュール１２は、記述子ベクトルよりむしろ、クエリデータ内のキャプチャされたクエリ画像Ｉ₂を含む。

実施形態、アプリケーションおよび／またはユーザ設定またはユーザ命令によっては、制御モジュール１２は、クエリデータ内に追加のクエリ情報を含み、例えば、地理的場所（位置）情報、日時情報、カレンダ日付情報、および／または、歴史的年情報、未来年情報、リモート認識サーバにて実行させる動作を特定するユーザ命令情報等のアプリケーション情報、および／または、血圧情報、血糖値情報および／または心拍情報等の生物医学的情報、および／または、年齢、性別、および／または趣味等のユーザプロフィール情報などである。地理的場所情報は、測位システム、例えば、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）、ＧＮＳＳ（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ）、ＬＰＳ（ＬｏｃａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ：位置検地システム）もしくはガリレオの受信機を利用して、または、ネットワーク情報、例えば基地局識別のデータもしくはセルベースのモバイル無線ネットワークにおけるセル識別のデータから、通信端末１において決定される。歴史的年情報または未来年情報、およびユーザ命令情報は、ユーザによりユーザインターフェースモジュール１３を介してデータ入力要素１６を使用して入力される。生物医学的情報は、通信端末１に連結される各生物医学センサを利用してキャプチャされる。変形例において、修正中画像はまた、クエリデータと共に含まれる。

ステップＳ３において、クエリデータが通信端末１からリモート認識サーバ３へ伝送される。変形例において、クエリデータは、２つ以上の（並列処理）リモート認識サーバ３へ伝送される。

ステップＳ４において、受け取ったクエリデータに基づき、画像認識モジュール３１が、データベース３５に記憶される参照画像Ｉ₁を識別する。好ましい実施形態において、画像認識モジュール３１が、クエリ画像Ｉ₂に関する受け取った記述子ベクトルを、データベース３５に記憶される記述子ベクトルと比較する。クエリデータが追加のクエリ情報を含む場合、画像認識モジュール３１は、参照画像Ｉ₁の検索を、地理的場所、日時および／またはカレンダ日付等の追加のクエリ情報に関する、データベース３５内の画像に限定して、検索および応答の時間を減らす。続いて、画像認識モジュール３１が、受け取った記述子ベクトルに対応する記述子ベクトルに関連する記憶される画像から、受け取った記述子ベクトルにより定義されるように、画像内の幾何学的配置についてクエリ画像Ｉ₂の関心点に対して対応する関心点を有する参照画像Ｉ₁を選択する。例えば、基本行列、三焦点テンソルを算出することにより、または、クエリの関心点と候補の関心点の間のホモグラフィ（部分的には平面物体の）を検証することにより、幾何学的検証が実行される。

代替の一実施形態において、クエリ画像Ｉ₂が、記述子ベクトルよりもむしろクエリデータと共に伝送され、画像認識モジュール３１が、クエリ画像Ｉ₂の画素を分析してスケール不変の関心点を検出することにより、そして、再現性のあるオリエンテーションを各関心点に割り当てることにより、クエリ画像Ｉ₂に対応する参照画像Ｉ₁を識別する。続いて、各関心点に対して、画像認識モジュール３１は、関心点に近接する画素値の導関数に基づき、記述子ベクトルを算出する。記述子ベクトルの決定については、より詳細に後述する。そして、追加のクエリ情報に基づき検索をできるだけ制限し、画像認識モジュール３１は、上記で説明したように、クエリ画像Ｉ₂に関連する記述子ベクトルをデータベース３５に記憶される記述子ベクトルと比較することにより画像マッチングして、参照画像Ｉ₁を識別する。

ステップＳ５において、画像マッピングモジュール３２がホモグラフィＨを算出し、これにより、図２に例示するように、参照平面内の参照画像Ｉ₁が射影平面内のクエリ画像Ｉ₂に変換される。

ホモグラフィは、点を１平面から別の平面にマッピングする一般的な透視変換行列である。平面Π１と、カメラの網膜平面上のその射影（画像）Π２について考えると、Π１からΠ２の全ての点をマッピングする一意的なホモグラフィＨが存在する。このホモグラフィは、２つの平面Π１とΠ２との間に４点対応のみを用いて推定される。参照画像Ｉ₁と、それと対になる修正された対照物Ｉ_1'について考え、クエリ画像Ｉ₂を参照画像Ｉ₁の射影（画像）として定義すると、ホモグラフィＨを、参照画像Ｉ₁とクエリ画像Ｉ₂との間の点対応から算出することが可能である。この同じホモグラフィＨを使用して、クエリ画像Ｉ₂を、修正された参照画像Ｉ_1'を用いて「拡張」させ、それによって、投影画像Ｉ_2'生成する。従来の拡張現実に対する違いは次元数にある。拡張現実が現実の世界において３Ｄの物体を投影するのに対して、現在の画像拡張のアプローチは、ホモグラフィに基づき、２Ｄの物体のみを扱う。

ステップＳ６において、修正選択モジュール３３が、修正中画像Ｉ_1'を選択する。上述したように、一実施形態において、修正中画像Ｉ_1'は、認識サーバ３へ伝送されたクエリデータに含まれる。しかし、好ましくは、修正中画像Ｉ_1'は、受け取られたクエリデータに含まれる追加のクエリ情報に基づき、データベース３５から選択される。例えば、修正中画像Ｉ_1'は、ユーザの現在の地理的場所、現在の時間および／または日付に基づき、ユーザの現在の血圧、血糖値および／または心拍数に基づき、および／または、歴史的年、未来の年もしくはユーザ命令等の指定されたアプリケーション特有の情報、または、年齢、性別、趣味等のユーザプロフィール情報に基づき、選択される。図２に示す例において、修正中画像Ｉ_1'は、参照画像Ｉ₁の修正Ｍの結果である。時間依存性の情報は、検索空間を縮小させるだけでなく、特に新聞の見出しへの応答を特定するのに役立つ。ユーザが新聞の話題に関する最新のニュースを所望する場合、時間は重要な問題である。生物医学情報に基づくアプリケーションの例には、受け取られた記述子ベクトルにより定義される周囲の分析から推定して、現在の状況に対して糖尿病患者のインシュリン率を適合させること、または、相手探索または広告キャンペーン等における、特定の画像に対する人の感情的反応を推定すること、などが含まれる。

ステップＳ７において、画像マッピングモジュール３２が、ステップＳ５において決定されたホモグラフィＨを使用して、ステップＳ６において選択された修正中画像Ｉ_1'の投影画像Ｉ_2'を算出する。

次に、拡張画像Ｉ_Aが、クエリ画像Ｉ₂の少なくとも一部を、投影画像Ｉ_2'の対応する一部と置き換えることにより、生成される。実施形態によると、拡張画像Ｉ_Aは、ステップＳ８において、認識サーバ３内の拡張モジュール３４により生成されるか、または、拡張画像Ｉ_Aは、ステップＳ１０において、通信端末１内の拡張モジュール１４により生成される。例えば、投影画像Ｉ_2'は、「空の」バウンディングボックス６に含まれ、投影画像Ｉ_2'を、元のクエリ画像Ｉ₂、５’において見える、変更されていない画像の物体（例えば、木５１、茂み５２および家５３の一部）を損なうことなく、（図１内の参照番号５’により参照される）元のクエリ画像Ｉ₂と組み合わせることが可能である。

オプションのステップＳ９１において、修正中画像Ｉ_1'の投影画像Ｉ_2'、情報サーバ４へ伝送されるが、実施形態によっては、投影画像Ｉ_2'が、情報サーバ４へ、拡張画像Ｉ_Aの一部としてまたは別個の画像として、伝送される。

ステップＳ９において、投影画像Ｉ_2'または拡張画像Ｉ_Aはそれぞれ、通信端末１へ伝送されるが、実施形態によっては、投影画像Ｉ_2'または拡張画像Ｉ_Aはそれぞれ、画像としてのコンテンツにより、または、情報サーバ４上に記憶されるそれぞれの画像へのリンクとしての参照によって伝送される。例えば、リンクまたは画像は、通信端末１へ、ＨＴＴＰ、ＭＭＳ、ＳＭＳ、ＵＭＴＳ等を使用して伝送される。リンクは、種々の行動をトリガすることが可能である。第三者による定義によっては、リンクはインターネットへのアクセスを提供して、マルチメディアのコンテンツを、ユーザまたは第三者により指定される宛先に送るなどの異なった処理を起動し、または、物体の３Ｄモデルの生成、パノラマスティッチング、ソース画像の拡張等を行う、異なるオブジェクト依存のアプリケーションを作動させる。異なる変形例において、リンクは１つまたは複数の通信端末へ伝送されるが、必ずしも、クエリ画像をサブミットした端末へ伝送（相手探索）しなくとも良い。

参照による伝送の場合、オプションのステップＳ９２において、ステップＳ９において受け取られたリンクを使用して、通信端末１の制御モジュール１２が、情報サーバ４上の投影画像Ｉ_2'または拡張画像Ｉ_Aそれぞれにアクセスする。オプションのステップＳ９３において、投影画像Ｉ_2'または拡張画像Ｉ_Aそれぞれが、情報サーバ４から通信端末１へ伝送される。

オプションのステップＳ１０において、画像拡張がリモート認識サーバ３上で実行されない場合、通信端末１の拡張モジュール１４が、上述したように、クエリ画像Ｉ₂の少なくとも一部を投影画像Ｉ_2'の対応する一部と置き換えることにより、拡張画像Ｉ_Aを生成する。

ステップＳ１１において、表示モジュール１１が、表示スクリーン１１１上に拡張画像Ｉ_Aを示す。

ビデオモードで、ブロックＢが連続して繰り返して実行され、カメラ１０で撮像されたビデオ画像シーケンスの個々の画像フレームが、一定して連続して修正中画像とともに拡張され、よって、ユーザに対して表示スクリーン１１１上に拡張画像フレームのシーケンスから成る拡張されたビデオを作製する。

現実の世界の物体、例えば、電子ディスプレイ、広告看板５４または別の印刷媒体等の視覚的媒体には、例えば、インタラクティブ画像部を示す、視覚的媒体上に印刷されたラベルまたはシンボル、もしくは、画像拡張によって見ることができる描かれた物体などの現実のビジュアルマーカが備えられ、または、隠れた存在と通信する、定義された（グローバルな）表示子を使用して、隠れたインタラクティブ画像部が存在する。

さらなる実施形態において、ビジュアルマーカは、現実の世界の物体上に印刷されず、ユーザに対して拡張画像Ｉ_A内で視覚化される。言い換えれば、カメラ１０が、ユーザによって現実の世界の情景５に対して向けられる一方で、クエリ画像の連続する流れが、拡張可能な物体または部分を示すビジュアルマーカを含む修正中画像Ｉ_1'とともに、拡張される。例えば、ビジュアルマーカは、アイコン、フレーム、特異的な色、または拡張現実の物体である。ユーザが、拡張画像Ｉ_A内にそのようなビジュアルマーカと共に与えられる現実の世界の物体、例えば広告看板５４、に対してカメラ１０を向け、データ入力要素１６を使用してコマンドを入力する、例えば規定のキーをワンクリックする場合、その現実の世界の物体のクエリ画像Ｉ₂が、写真モードで撮像され、ブロックＢで拡張され、表示スクリーン１１１上に拡張画像Ｉ_Aとして表示される。

上記で概説したように、本発明により、１つまたは複数のカメラを備え、無線または有線の接続を介して１つまたは複数の認識サーバへ接続される、携帯用または固定の装置を使用して、現実の世界の物体を仮想コンテンツにリンクすることが可能にされる。

一例示のアプリケーションにおいて、ユーザは、車の広告のポスターの画像、具体的には車またはその車の興味ある特定の領域、を撮像する。このクエリ画像が認識サーバ３へ伝送される。拡張画像がユーザに伝送されて戻される。拡張画像はクエリ画像に対応するが、画像拡張処理を施され、車両のエンジンが、元のポスターには見えないが、露出されている。このアプリケーションは、上述のｘ線効果の例である。

別の例示のアプリケーションにおいて、拡張画像がタイムトラベルをシミュレートする。例えば、アルプスの氷河の画像が、クエリ画像として撮像され、戻される拡張画像が４０年前の氷河を示す。

さらなる例示のアプリケーションにおいて、例えば、建物または他の現実の世界の物体に関連する、秘密のメッセージまたは隠された芸術品が、画像拡張処理を施されユーザに対して視覚化される。

認識サーバ３はまた、レストラン、クラブ、バー、自動車修理店等の場所を評価し、および、評価情報を視覚的および地理的な手掛かりに基づき共有する、コミュニティを支援するよう構成される。従って、認識サーバ３は、地理的な場所もしくは物体に関連する、または地理的な場所もしくは物体に割り当てられる情報を、ユーザから受け取り、データベース３５に記憶するよう構成される。例えば、レストランを訪れた後、そのレストランの肯定的な評価を与えるために、内蔵のカメラを有する自分の通信端末１を使用して、ユーザはレストランの外部の写真を撮り、おそらく肯定的な評価と共に、認識サーバ３または、例えばインターネット上の関連するコミュニティサーバへ送信する。好ましくは、通信端末１は、写真の電送に場所情報を含む。次のユーザは、そのレストランの画像をクエリ画像として認識サーバ３へ送信することにより、評価情報を検索する。このクエリの検索は、クエリを行っているユーザのプロフィールに似たプロフィールを有するユーザにより与えられた情報（例えば評価情報）に、結果を限定するように、ユーザプロフィール情報を用いてさらに制限される。

記述子ベクトルの生成
上記で概説したように、離散した画像の対応の検索は、３つの主工程に分けることが可能である。最初に、関心点が、異なるスケールで特異的な画像の位置で選択される。次に、全ての関心点の近傍が、記述子によって表される。この記述子は、特異的であると同時に、ノイズ、検出誤差、幾何学的ゆがみ、および光度的ゆがみに対してロバストであるべきである。最後に、記述子が、異なる画像間でマッチングされる。マッチングは、典型的には、ベクトル間の距離、例えば、ユークリッド距離の評価、に基づく。

多くの関心点検出器が、文献で提案されており、（参考文献１から７を参照）、異なる性質の各検出器が、形の外観および不変性（スケール、アフィン、透視）の程度に関する特定の特性を有する。提案される方法およびシステムでは、関心点検出器の性質は重要ではない。好ましくは、２つ以上のこれらの検出器が、多数の異なる関心点特性（ブロブ（かたまり）、コーナー等）および不変性を補うために、同時に使用される。

提案される方法およびシステムは、複数の画素を持つ画像内にある関心点の記述子と、画像内に場所がある関心点と、スケール（サイズ）と、オリエンテーションと、を導き出す方法を使用する。記述子を導き出す方法は、関心点のオリエンテーションに整列された、関心点を囲む、スケール依存のサイズの二次記述子ウィンドウであって、画素の組を含む記述子ウィンドウを識別するステップ（図４参照）と、オリエンテーションに対して固定した関係を持つｘおよびｙ方向の関心点の記述子ウィンドウ内の導関数を調べて、少なくとも１つのデジタルフィルタを使用して、それによって独立して各方向の一次導関数を生成するステップと、各要素が、特定のサイズの矩形内の二次元領域内のただ１つの方向からの一次導関数の統計的評価である、要素を含む、多次元記述子を生成するステップと、から成る。

これらの多次元記述子（記述子ベクトル）は、各画像内の関心点の組に対して独立して抽出される。

統計的記述子
与えられる記述子は、２つの互いに直交する方向の、画像の一次導関数の統計的情報から成る。導関数を使用することで、撮影環境の線光の変化へ向けた記述子の不変性を増加させる。所定の関心点の記述子を構築するために、第１の工程は、関心点を囲む円形領域内の画素情報に基づき、関心点を囲む再現性のあるオリエンテーションを固定することにある。そして、二次領域（記述子ウィンドウ）が、選択されたオリエンテーションに整列され、記述子が、この局在され整列された二次領域から抽出される。関心点は、参考文献１から７に概説される任意の適切な方法により得られる。

オリエンテーションの割り当て
回転に対して不変であるために、再現性のあるオリエンテーションαが各検出された関心点に対してスケールｓで識別される。オリエンテーションは、関心点を囲む、画像内の二次元の領域内で抽出される。この領域は、参考文献６および７と同様、複数の検出されたスケールｓ、例えば４ｓ、の半径の、関心点を囲む離散化した円形領域である。

この領域から、ｘおよびｙ方向の導関数が計算される（図５参照）。

得られた円形領域内の任意の点ｘにおける導関数ｄｘ（ｘ）およびｄｙ（ｘ）が、符号および相対値に従って８つのビンＢ_i、ｉ＝｛１，２，３，．．．，８｝にクラスタ化される（表１参照）。導関数は、次に、全てのビンから１ビンにつき２つの合計Σｄｘ（ｘ）およびΣｄｙ（ｘ）を得るように、独立して合計される。主要なオリエンテーションを決定するために、１６の異なる構成の勾配が検討される。これらの勾配は、各ビンＢ₁、．．．、Ｂ₈に対して、また、加えて、各２つの近接するビン、例えば、Ｂ₁とＢ₂、Ｂ₂とＢ₃、．．．Ｂ₈とＢ₁、に対して算出される。勾配ｔのノルムが、全ての組み合わせに対して、全ての単一のビンのΣｄｘ（ｘ）およびΣｄｙ（ｘ）を使用して算出されるか、または、追加の状況の場合、近接するビンと合計される。

表１：導関数のビニング

主要な勾配のオリエンテーション、α＝ａｒｃｔａｎ（Σｄｘ（ｘ）／Σｄｙ（ｘ））、は関心点のオリエンテーションとして使用される。このオリエンテーションαを使用して、記述子を構築する。

記述子
関心点の主要なオリエンテーションを求めた後、参考文献６および７と同様、近接する画素値が、一意的で特異的な記述子により記述される。記述子の抽出には、関心点を中心とし、上記のオリエンテーション割り当て手順（図４参照）で選択されたオリエンテーションに沿って配置される、記述子ウィンドウの構築から成る第１の工程が含まれる。このウィンドウのサイズはまた、関心点のスケールｓに依存する。図６に示すように、新しい領域が、より小さなサブ領域に分割される。

各サブ領域に対して、４つの記述子特徴量が計算される。これらの記述子特徴量のうちの最初の２つが、サブ領域内の導関数ｄｘ’（ｘ）およびｄｙ’（ｘ）の平均値により定義される。ｄｘ’（ｘ）およびｄｙ’（ｘ）は、上記で定義したようなオリエンテーションαに関して、ｘおよびｙ方向の導関数ｄｘ（ｘ）およびｄｙ（ｘ）と対になる回転した対照物である。
ｄｘ’（ｘ）＝ｄｘ（ｘ）ｓｉｎ（α）＋ｄｙ（ｘ）ｃｏｓ（α）
ｄｙ’（ｘ）＝ｄｘ（ｘ）ｃｏｓ（α）−ｄｙ（ｘ）ｓｉｎ（α）

１サブ領域当りの第３および第４の記述子特徴量は、ｘおよびｙ方向の導関数の統計的分散量である。あるいは、これらの４つの記述子特徴量は、ｘおよびｙ方向の正および負の導関数の平均値である。別の代替では、サブ領域内のｘおよびｙ方向の導関数の最大値および最小値のみが検討される。

上記をまとめると、異なる要素が、関心点（記述子ウィンドウ）のオリエンテーションに関してｘおよびｙ方向の導関数に依存する多次元のベクトルｖにより、記述子を定義することが可能である。以下の表は、所定のサブ領域の異なる代替を示す。

表２：全てのサブ領域の基本の記述子を算出するための異なる代替

上記で定義したように、１６のサブ領域のすべてに対して４つの基本の記述子特徴量を構築すると、全ての関心点に対して６４次元の記述子が得られる。

マッチング
クエリ／検索処理において、記述子は以下のようにマッチングされる。異なる物体の組の、ラベルを付けた多数の参照画像と、同一の組の、１オブジェクトが含有する１クエリ画像と、を考える。クエリ画像上に現れる特定の物体の検出は、３つの工程からなる。最初に、関心点およびそのそれぞれの記述子が、全ての画像（参照画像およびクエリ画像）内で自動的に検出される。次に、クエリ画像が、複数の参照画像と対にして比較されるが、これは画像対の記述子ベクトルの全ての可能性のある構成の間のユークリッド距離を算出することによる。記述子ベクトル間のマッチングは、後者間のユークリッド距離が、固定された値であるまたは適応される特定の閾値より小さいときに、求められる。この工程は、一方の側の参照画像の組と他方側のクエリ画像で形成される全ての画像対に対して繰り返される。クエリ画像とのマッチングが最大数になる参照画像が、クエリ画像と同じ物体を含有すると考えられる。次に、参照画像のラベルを使用して、クエリ画像上に現れている物体を識別する。多数の不測の不一致による誤認識を避けるため、平面（または区分的に平面の物体）のホモグラフィ、または一般の３Ｄ物体の基本行列を使用して、関心点対応は幾何学的に検証することが可能である。

本発明の実施形態の上述の開示は、例示および記載の目的で示された。本開示は、網羅的であること、または本発明を開示された正確な形式に限定することを意図していない。本明細書に記載される実施形態の多数の変形および修正が、上記の開示に照らして当業者にとって明らかであろう。本発明の範囲は、ここに添付される請求項によって、およびその等価物によってのみ定義されるべきである。具体的には、記載においては、コンピュータプログラムコードが特定のソフトウェアモジュールに関連したが、しかし、当業者は理解するであろうが、コンピュータプログラムコードは、本発明の範囲から逸脱することなく、異なって構築される。さらに、本明細書に記載される、工程の特定の順番は、請求項に対する制限と解釈されるべきではない。

Claims

画像に基づく情報検索の方法であって、前記方法が
第１の画像（Ｉ₂）を、通信端末（１）に関連するデジタルカメラ（１０）を使用して、撮像するステップと、
前記第１の画像（Ｉ₂）に関するクエリデータを、通信ネットワーク（２）を介してリモート認識サーバ（３）へ伝送するステップと、
前記リモート認識サーバ（３）において、前記クエリデータに基づき参照画像（Ｉ₁）を識別するステップと、
前記リモート認識サーバ（３）において、前記参照画像（Ｉ₁）および前記クエリデータに基づき、ホモグラフィを算出し、前記ホモグラフィは、前記参照画像（Ｉ₁）を前記第１の画像（Ｉ₂）にマッピングするステップと、
前記リモート認識サーバ（３）内の第２の画像（Ｉ_1'）を選択するステップと、
前記リモート認識サーバ（３）において、前記ホモグラフィを使用して、前記第２の画像（Ｉ₁’）の投影画像（Ｉ_2'）を算出するステップと、
前記第１の画像（Ｉ₂）の少なくとも一部を、前記投影画像（Ｉ_2'）の少なくとも一部と置き換えることにより、拡張画像（Ｉ_A）を生成するステップと、
前記通信端末（１）において前記拡張画像（Ｉ_A）を表示するステップと
を含むことを特徴とする方法。
前記クエリデータを前記リモート認識サーバ（３）へ伝送するステップが、前記第１の画像（Ｉ₂）を前記リモート認識サーバ（３）へ伝送するステップを含み、前記参照画像（Ｉ₁）を識別するステップが、前記第１の画像（Ｉ₂）に対応する前記参照画像（Ｉ₁）を決定するステップを含み、ホモグラフィを算出するステップが、前記参照画像（Ｉ₁）および前記第１の画像（Ｉ₂）に基づきホモグラフィを算出するステップを含むことを特徴とする請求項１に記載の方法。
前記参照画像（Ｉ₁）を識別するステップが、前記第１の画像（Ｉ₂）の画素を分析して、スケール、アフィン変換および透視の少なくとも１つに関して不変である関心点を検出するステップと、再現性のあるオリエンテーションを各関心点に割り当てるステップと、各関心点に対して、関心点に近接する画素値の導関数に基づき記述子ベクトルを算出するステップと、前記第１の画像（Ｉ₂）に関する記述子ベクトルを前記リモート認識サーバ（３）のデータベースに記憶される記述子ベクトルと比較することにより、および、対応する記述子ベクトルを有する記憶された画像から、前記第１の画像（Ｉ₂）の関心点に対して幾何学的に対応する関心点を有する前記参照画像（Ｉ₁）を選択することにより、画像マッチングするステップと、と含むことを特徴とする請求項２に記載の方法。
前記第１の画像（Ｉ₂）の画素を分析して、スケール、アフィン変換および透視の少なくとも１つに関して不変である関心点を検出することにより、再現性のあるオリエンテーションを各関心点に割り当てることにより、および、各関心点に対して、前記関心点に近接する画素値の導関数に基づき記述子ベクトルを算出することにより、前記第１の画像（Ｉ₂）に関する前記クエリデータを決定するステップをさらに含み、前記参照画像（Ｉ₁）を識別するステップが、前記第１の画像（Ｉ₂）に関する記述子ベクトルを前記リモート認識サーバ（３）のデータベースに記憶される記述子ベクトルと比較することにより、および、対応する記述子ベクトルを有する記憶された画像から、前記第１の画像（Ｉ₂）の関心点に対して幾何学的に対応する関心点を有する前記参照画像（Ｉ₁）を選択することにより、画像マッチングするステップを含むことを特徴とする請求項１に記載の方法。
クエリデータを前記リモート認識サーバ（３）に伝送するステップが、追加のクエリ情報をさらに含み、前記第２の画像（Ｉ_1'）を選択するステップが、追加のクエリ情報を使用して実行され、前記追加のクエリ情報が、地理的位置情報、日時情報、カレンダ日付情報、歴史的年情報、未来年情報、前記リモート認識サーバ（３）にて実行させる動作を指定するユーザ命令情報、血圧情報、血糖値情報、心拍情報、およびユーザプロフィール情報の少なくとも１つを含むことを特徴とする請求項１から４のいずれかの項に記載の方法。
第１の画像（Ｉ₂）を撮像するステップは、ビデオシーケンスを撮像するステップの一部であり、前記第１の画像（Ｉ₂）の対応する一部を置き換える前記投影画像（Ｉ_2'）の一部が、前記第１の画像（Ｉ₂）に示される現実の世界の物体に対して固定され、一方で、カメラ（１０）がビデオシーケンスを撮像しており、および／または現実の世界の物体が動いていることを特徴とする請求項１から５のいずれかの項に記載の方法。
前記第２の画像（Ｉ_1'）が、インタラクティブ画像部を示すビジュアルマーカを含み、前記第１の画像（Ｉ₂）を表示するステップが、前記第１の画像（Ｉ₂）の一部として前記ビジュアルマーカを表示するステップを含むことを特徴とする請求項１から６のいずれかの項に記載の方法。
ユーザからユーザ命令を受け取り、一方でビジュアルマーカを前記第１の画像（Ｉ₂）の一部として表示するステップであって、前記ユーザ命令が前記ビジュアルマーカに関連するステップと、前記ユーザ命令を前記リモート認識サーバ（３）に伝送するステップと、前記ユーザ命令に基づき、前記リモート認識サーバ（３）において、第３の画像を選択し、および／または、前記参照画像（Ｉ₁）を前記第３の画像として修正するステップと、前記リモート認識サーバ（３）において、前記第３の画像の投影画像（Ｉ_2'）をホモグラフィを使用して算出するステップと、前記第１の画像（Ｉ₂）の少なくとも一部を前記第３の画像の前記投影画像（Ｉ₂’）の少なくとも一部と置き換えることにより、さらなる拡張画像（Ｉ_A）を生成するステップと
をさらに含むことを特徴とする請求項７に記載の方法。
前記第２の画像（Ｉ_1'）が画像のシーケンスを含み、前記拡張画像（Ｉ_A）を表示するステップが画像のシーケンスを前記拡張画像（Ｉ_A）の一部として表示するステップを含むことを特徴とする請求項１から８のいずれかの項に記載の方法。
前記第２の画像（Ｉ_1'）が、前記参照画像（Ｉ₁）の修正されたバージョンであることを特徴とする請求項１から９のいずれかの項に記載の方法。
前記方法が、前記クエリデータの一部として前記第２の画像（Ｉ_1'）を前記通信端末（１）から前記リモート認識サーバ（３）へ伝送するステップをさらに含むことを特徴とする請求項１から１０のいずれかの項に記載の方法。
画像に基づく情報検索のシステムであって、前記システムが、
第１の画像（Ｉ₂）を撮像するデジタルカメラ（１０）と、
前記カメラ（１０）に接続され、前記第１の画像（Ｉ₂）に関するクエリデータを通信ネットワーク（２）を介して伝送するよう構成される、通信端末（１）と、
前記クエリデータを受け取るよう、および、前記クエリデータに基づき参照画像（Ｉ₁）を識別するよう構成されるリモート認識サーバ（３）と、
前記通信端末（１）において拡張画像（Ｉ_A）を表示する表示モジュール（１１）と
を備え、
前記リモート認識サーバ（３）をさらに構成して、前記参照画像（Ｉ₁）および前記クエリデータに基づき、ホモグラフィを算出し、前記ホモグラフィは前記参照画像（Ｉ₁）を前記第１の画像（Ｉ₂）にマッピングし、第２の画像（Ｉ_1'）を選択し、前期ホモグラフィを使用して前記第２の画像（Ｉ_1'）の投影画像（Ｉ_2'）を算出し、
前記システムが、前記第１の画像（Ｉ₂）の少なくとも一部を前記投影画像（Ｉ_2'）の一部と置き換えることにより、前記拡張画像（Ｉ_A）を生成するよう構成された、画像拡張モジュール（１４、３４）をさらに備えることを特徴とするシステム。
前記通信端末（１）が、前記リモート認識サーバ（３）へ前記第１の画像（Ｉ₂）を前記クエリデータの一部として伝送するよう構成され、前記リモート認識サーバ（３）が、前記第１の画像（Ｉ₂）に対応する前記参照画像（Ｉ₁）を識別するよう、および、前記参照画像（Ｉ₁）および前記第１の画像（Ｉ₂）に基づきホモグラフィを算出するよう構成されることを特徴とする請求項１２に記載のシステム。
前記リモート認識サーバ（３）が、前記第１の画像（Ｉ₂）の画素を分析して、スケール、アフィン変換および透視の少なくとも１つに関して不変である関心点を検出することにより、再現性のあるオリエンテーションを各関心点に割り当てることにより、および、各関心点に対して、関心点に近接する画素値の導関数に基づき記述子ベクトルを算出することにより、ならびに、前記第１の画像（Ｉ₂）に関する記述子ベクトルを前記リモート認識サーバ（３）のデータベースに記憶される記述子ベクトルと比較することによる、および、対応する記述子ベクトルを有する記憶された画像から、前記第１の画像（Ｉ₂）の関心点に対して幾何学的に対応する関心点を有する前記参照画像（Ｉ₁）を選択することによる、画像マッチングを介して、前記参照画像（Ｉ₁）を識別するようさらに構成されることを特徴とする請求項１３に記載のシステム。
前記通信端末（１）が、前記第１の画像（Ｉ₂）の画素を分析して、スケール、アフィン変換および透視の少なくとも１つに関して不変である関心点を検出することにより、再現性のあるオリエンテーションを各関心点に割り当てることにより、および、各関心点に対して、関心点に近接する画素値の導関数に基づき記述子ベクトルを算出することにより、前記第１の画像（Ｉ₂）に関する前記クエリデータを決定するようさらに構成され、前記リモート認識サーバ（３）が、前記第１の画像（Ｉ₂）に関する記述子ベクトルを前記リモート認識サーバ（３）のデータベースに記憶される記述子ベクトルと比較することによる、および、対応する記述子ベクトルを有する記憶された画像から、前記第１の画像（Ｉ₂）の関心点に対して幾何学的に対応する関心点を有する前記参照画像（Ｉ₁）を選択することによる、画像マッチングを介して、前記参照画像（Ｉ₁）を識別するようさらに構成されることを特徴とする請求項１２に記載のシステム。
前記通信端末（１）が、前記リモート認識サーバ（３）へ前記第１の画像（Ｉ₂）に関する前記クエリデータと共に追加のクエリ情報を伝送するようさらに構成され、追加の情報が、地理的位置情報、日時情報，カレンダ日付情報、歴史的年情報、未来年情報、前記リモート認識サーバ（３）にて実行させる動作を指定するユーザ命令情報、血圧情報、血糖値情報、および心拍情報の少なくとも１つを含み、前記リモート認識サーバ（３）が、前記追加のクエリ情報を使用して前記第２の画像（Ｉ_1'）を選択するようさらに構成されることを特徴とする請求項１２から１５のいずれかの項に記載のシステム。
ユーザプロフィール情報をさらに備え、前記リモート認識サーバ（３）が、前記ユーザプロフィール情報を使用して前記第２の画像（Ｉ_1'）を選択するようさらに構成されることを特徴とする請求項１２から１６のいずれかの項に記載のシステム。
前記通信端末（１）が、前記第１の画像（Ｉ₂）をビデオシーケンスの撮像の一部として撮像するようさらに構成され、前記画像拡張モジュール（１４，３４）が、前記第１の画像（Ｉ₂）の対応する一部を置き換える前記投影画像（Ｉ_2'）の一部が前記第１の画像（Ｉ₂）に示される現実の世界の物体に対して固定されたまま、一方で、前記カメラ（１０）がビデオシーケンスを撮像しており、および／または、現実の世界の物体が動いているように、さらに構成されることを特徴とする請求項１２から１７のいずれかの項に記載のシステム。
前記第２の画像（Ｉ_1'）が、インタラクティブ画像部を示すビジュアルマーカを備え、前記拡張画像（Ｉ_A）が、前記ビジュアルマーカを備えることを特徴とする請求項１２から１８のいずれかの項に記載のシステム。
前記通信端末（１）が、ビジュアルマーカを前記第１の画像（Ｉ₂）の一部として表示する一方、ビジュアルマーカに関連するユーザ命令をユーザから受け取るよう、および、ユーザ命令を前記リモート認識サーバ（３）へ伝送するようさらに構成され、前記リモート認識サーバ（３）が、前記ユーザ命令に基づき、第３の画像を選択、および／または前記参照画像（Ｉ₁）を前記第３の画像として修正するよう、および、ホモグラフィを使用して前記第３の画像の投影画像（Ｉ_2'）を算出するようさらに構成され、前記画像拡張モジュールが、第１の画像（Ｉ₂）の少なくとも一部を前記第３の画像の投影画像（Ｉ_2'）の少なくとも一部と置き換えることにより、さらなる拡張画像（Ｉ_A）を生成するようさらに構成されることを特徴とする請求項１９に記載のシステム。
前記第２の画像（Ｉ_1'）が画像のシーケンスを含み、前記拡張画像（Ｉ_A）が前記画像のシーケンスを含むことを特徴とする請求項１２から２０のいずれかの項に記載のシステム。
前記第２の画像（Ｉ_1'）が、前記参照画像（Ｉ₁）の修正されたバージョンであることを特徴とする請求項１２から２１のいずれかの項に記載のシステム。
前記通信端末（１）が、前記リモート認識サーバ（３）へ前記第２の画像（Ｉ_1'）を前記クエリデータと共に伝送するようさらに構成されることを特徴とする請求項１２から２２のいずれかの項に記載のシステム。