JP2010530998A - 画像ベース情報検索の方法およびシステム - Google Patents

画像ベース情報検索の方法およびシステム Download PDF

Info

Publication number
JP2010530998A
JP2010530998A JP2010506785A JP2010506785A JP2010530998A JP 2010530998 A JP2010530998 A JP 2010530998A JP 2010506785 A JP2010506785 A JP 2010506785A JP 2010506785 A JP2010506785 A JP 2010506785A JP 2010530998 A JP2010530998 A JP 2010530998A
Authority
JP
Japan
Prior art keywords
image
recognition server
information
interest
remote recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010506785A
Other languages
English (en)
Inventor
クワック ティル
バイ ヘルベルト
Original Assignee
アイトゲネーシッシュ テヒニッシュ ホーホシューレ チューリッヒ
コオアバ アーゲー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイトゲネーシッシュ テヒニッシュ ホーホシューレ チューリッヒ, コオアバ アーゲー filed Critical アイトゲネーシッシュ テヒニッシュ ホーホシューレ チューリッヒ
Publication of JP2010530998A publication Critical patent/JP2010530998A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

画像に基づき情報を検索するために、第1の画像が通信端末(1)に関連するデジタルカメラを使用して撮像される(S1)。第1の画像に関するクエリデータが、通信ネットワーク(2)を介してリモート認識サーバ(3)へ伝送される(S3)。リモート認識サーバ(3)において、参照画像が、クエリデータに基づき識別される(S4)。続いて、リモート認識サーバ(3)において、ホモグラフィが、参照画像およびクエリデータに基づき算出され(S5)、ホモグラフィは、参照画像を第1の画像にマッピングする。さらに、リモート認識サーバ(3)において、第2の画像が選択され(S6)、ホモグラフィを使用して第2の画像の投影画像が算出される(S7)。第1の画像の一部を投影画像の少なくとも一部と置き換えることにより、拡張画像が、生成され(S8、S10)、通信端末(1)において表示される(S11)。カメラにより撮像された第1の画像の効果的な拡張が、平面空間の状態のまま、二次元の画像および物体のみを扱うことにより可能にされる。

Description

本発明は、画像に基づく情報検索の方法およびシステムに関する。具体的には、本発明は、デジタルカメラを使用して撮像され、リモート認識サーバにおいて識別される画像に基づく、情報検索の方法およびシステムに関する。
低価格で小型のデジタル(電子)カメラの有用性に伴い、これらのカメラが、携帯電話、ラップトップコンピュータおよびPDA(Personal Digital Assistant)コンピュータ、ならびに他の電子装置に組み込まれることは、時間の問題であった。特に、デジタルカメラの特徴と通信端末の特徴を組み合わせることにより、カメラで撮像した画像を、固定のまたは無線の通信回線を介して、他の通信端末または更なる処理のためにリモートサーバへ伝送する新しいアプリケーションを可能にした。
欧州特許第1640879号には、データベース内の画像を検索する方法が記載されている。画像はモバイルカメラを使用して撮像され、電気通信ネットワークを介してデータベースに記憶するために伝送される。ユーザは、例えば地理的位置データの画像にメタデータを割り当てており、このメタデータに基づき、データベース内の画像を続けて検索することが可能。
欧州特許第1230814号には、商品を注文する方法が記載され、それによると、カメラを用いて注文する商品の写真を撮る。写真は、携帯電話を使用して、リモートサーバへ伝送される。所望の商品を識別するため、サーバは、受け取った写真を、例えば、ニューロンネットワークを用いて商品データベースの写真と比較し、それぞれの携帯電話加入者の注文の処理を開始する。
ドイツ特許10245900号には、カメラを内蔵する端末が、電気通信ネットワークを介して、画像をサーバコンピュータに伝送する、画像ベース情報検索のシステムが記載される。サーバは、受け取った画像を分析し、象徴的指標を画像に割り当てる、物体認識プログラムを使用する。検索エンジンは、画像に関連する情報を見つけるために指標を使用し、この情報を端末に返す。
米国特許公開2006/0240862号には、携帯電話、リモート認識サーバおよびリモートメディアサーバを含む、画像ベース情報検索システムが記載される。携帯端末は、内蔵カメラを備え、カメラにより撮像した画像を認識サーバへ伝送するよう構成される。一実施形態において、携帯端末は、画像から特徴ベクトルを決定し、それらを認識サーバへ伝送するよう構成される。認識サーバは、入ってくる画像または特徴ベクトルをデータベースに記憶される物体表現とマッチングする。認識サーバは、例えば、顔、テクスチャのある物体、文字またはバーコード等の特定の種類のパターンを認識するよう特化された、多数のエンジンを使用する。認識が成功すると、物体のテキスト識別子が与えられる。これらの識別子は、メディアサーバへ送られ、メディアサーバは、対応するマルチメディアコンテンツ、例えば、テキスト、画像、音楽、オーディオクリップ、または、携帯電話上でウェブブラウザを使用してメディアコンテンツを検索するためのURL(Uniform Resource Locator)リンク、を携帯電話へ送り返す。例えば、印刷されたテキストの写真をサブミットすることにより、ユーザがテキストに関する追加の情報を得ることが可能であり、または、広告看板の写真によって、宣伝されている商品についての更なる情報を得ることが可能である。
Lindeberg T.:Feature detection with automatic scale selection(自動スケール選択による特徴量検出). IJCV 30(2)(1998)79−116. Mikolajczik,K.,Schmid,C.:An affine invariant interest point detector(アフィン不変の関心点検出器).ECCV(2002)128−142. Tuytelaars,T.Van Gool,L.:Wide baseline stereo based on local affinely invariant regions(局所アフィン不変領域に基づくワイドベースラインステレオ).BMVC(2000)412−422. Matas,J.,Chum,O.,M.,U.,Pajdla,T.:Robust wide baseline stereo from maximally stable extremal regions(最大限に安定した極値領域からのロバストワイドベースラインステレオ).BMVC(2002)384−393. Harris,C.,Stephens,M.:A combined corner and edge detector(複合コーナー・エッジ検出器): Proceedings of the Alvey Vision Conference.(1988)147−151. Lowe, D.:Distinctive image features from scale−invariant key points(スケール不変のキーポイントからの特異的画像特徴).IJCV 60(2004)91−110. Bay,H.,Tuytelaars,T.,Van Gool,L.:SURF:Speeded Up Robust Features(高速化ロバスト特徴).ECCV (2006)404−417.
画像ベース情報検索の既知のシステムは、別個のデータオブジェクトとして、テキスト、音声または画像等の追加の情報を、通信ネットワークを介して受け取った画像データ、例えば、画像または対応する特徴ベクトル、に応答して提供するよう構成され、既知のシステムは、画像関連情報を、それぞれの画像の一体化された部分として提供しない。
本発明の目的は、画像ベース情報検索の方法およびシステムを提供することであり、このシステムおよび方法は、従来技術における不都合を有しない。特に、本発明の目的は、情報検索の(クエリの)基準として使用されたそれぞれの画像の一体化された部分として、画像関連情報を提供する、画像ベース情報検索の方法およびシステムを提供することである。
本発明によると、これらの目的は特に独立請求項の特徴を通して達成される。加えて、さらに有利な実施形態は、従属請求項および詳細な説明から得られる。
本発明によると、上述の目的は、特に以下において達成され、それにおいては、画像に基づき情報を検索するために、第1の画像が、通信端末に関連するデジタル(電子)カメラを使用して撮像され、第1の画像に関するクエリデータが、通信ネットワークを介して少なくとも1つのリモート認識サーバへ伝送され、リモート認識サーバにおいて、クエリデータに基づき参照画像が識別され、リモート認識サーバにおいて、透視変換行列、すなわち、ホモグラフィが、第1の画像から参照画像およびクエリデータに基づき算出され、そのホモグラフィは、参照画像の平面を第1の画像に現れる参照画像の平面にマッピングし、リモート認識サーバにおいて、第2の画像が選択され、リモート認識サーバにおいて、ホモグラフィを使用して第2の画像の投影画像が算出され、第1の画像の少なくとも一部を投影画像の少なくとも一部と置き換えることにより、拡張画像が生成され、拡張画像が通信端末に表示されるか、または別の端末に伝送される。好ましくは、通信端末は、無線通信用に構成されるモバイル通信端末である。実施形態によると、第1の画像(クエリ画像)のそれぞれの一部と投影画像の一部との置き換えは、認識サーバ上または通信端末上で行われる。従って、投影画像は、通信端末へ(別個に)それ自体が、または拡張クエリ画像の一部として、伝送される。一実施形態において、投影画像または拡張クエリ画像を伝送するステップはそれぞれ、通信端末に情報サーバへのリンクを伝送するステップを含む。そして、リンクが通信端末内で起動され、投影画像または拡張クエリ画像がそれぞれ、情報サーバから検索される。情報サーバは、認識サーバと同じまたは異なるコンピュータ上に設置される。参照画像をクエリ画像にマッピングするためにホモグラフィを決定すること、および第2の画像(修正中画像)の投影画像を決定することにより、ユーザが自分のカメラで撮像したクエリ画像を効果的に拡張することが可能になる。効果的な拡張は、平面空間内の状態のまま、二次元の画像および物体のみを扱うことにより可能になる。三次元の物体が三次元景観に投影される従来の拡張現実の方法と異なり、平面−平面変換、すなわち、ホモグラフィを使用して、クエリ画像の一部を修正中画像の投影画像の対応する一部と置き換えることにより、複雑な三次元投影、視点依存の変換、および、影、反射等の計算を必要とすることなく、クエリ画像を拡張することが可能となる。従って、拡張(クエリ)画像が、クエリ画像の一体化された部分である修正中画像の投影と共にユーザに表示される。アプリケーケションおよび/またはユーザが指定した操作により、クエリ画像内にキャプチャされた現実の世界の物体を、本来はクエリ画像内には見えないであろう追加の視覚的情報、例えば、物体の内部(x線モード)または以前の(歴史的な)時間もしくは未来の時間(タイムトラベルモード)における物体の状態、と共にユーザに提示することが可能である。典型的には、修正中画像は参照画像の修正されたバージョンである。しかし、異なるアプリケーションにおいては、修正中画像は、参照画像から独立したものであり、例えば、通信端末からリモート認識サーバへ、クエリ画像に関するデータの一部として伝送され、または、ユーザまたはユーザコミュニティによりリモート認識サーバへ前もって伝送される。クエリ画像をテキストを用いて拡張するさらなる変形においては、第2の画像がテキストデータに基づき生成され、例えば、通信端末からリモート認識サーバへ、クエリ画像に関するデータの一部として伝送され、または、ユーザまたはユーザコミュニティによりリモート認識サーバへ前もって伝送される。また、多数の画像(画像シーケンス)を使用して、クエリ画像を拡張することが可能である。
一実施形態において、クエリデータをリモート認識サーバへ伝送するステップには、第1の画像(クエリ画像)をリモート認識サーバへ伝送するステップが含まれる。本実施形態において、参照画像は、クエリ画像に対応する参照画像を決定することにより識別され、ホモグラフィは、参照画像およびクエリ画像に基づき算出される。本実施形態において、好ましくは、参照画像を識別するステップには、クエリ画像の画素を分析して、スケール不変、関心点を検出するステップと、再現性のあるオリエンテーションを各関心点に割り当てるステップと、各関心点に対して、関心点の中心に近接する画素値の導関数(例えば、差分)に基づき記述子ベクトルを算出するステップと、クエリ画像に関連して決定した記述子ベクトルをリモート認識サーバのデータベースに記憶される記述子ベクトルと比較することにより、および、対応する記述子ベクトルを有する記憶された画像から、クエリ画像の関心点に対して幾何学的に(再度、ホモグラフィまたは基本行列を介して)対応する関心点を有する参照画像を選択することにより(この対応はユークリッド距離または他の種類の距離に依存する)、画像マッチングするステップと、が含まれる。クエリ画像を認識サーバへ伝送するステップおよび認識サーバ内の参照画像をクエリ画像に基づき決定するステップでは、有利には、(モバイル)通信端末はクエリ画像を分析するための任意の画像処理能力を備えていなくても良い。
代替の好ましい一実施形態において、方法は、クエリ画像の画素を分析して、スケール、アフィン変換および/または透視の歪みに対して任意の不変性を持つ関心点を自動的に検出することにより、再現性のあるオリエンテーションを各関心点に割り当てることにより、および、各関心点に対して、各関心点の中心に近接する画素値の導関数(例えば、差分)に基づき、記述子ベクトルを算出することにより、通信端末においてクエリデータ(クエリ画像)を決定するステップをさらに含む。同様に、参照画像を識別するステップには、クエリ画像に関する受け取った記述子ベクトルをリモート認識サーバのデータベースに記憶される記述子ベクトルと比較することにより、および、対応する記述子ベクトルを有する記憶された画像から、クエリ画像の関心点に対して幾何学的に対応する関心点を有する参照画像を選択することにより(この対応はユークリッド距離または他の種類の距離に依存する)、画像マッチングするステップが含まれる。(モバイル)通信端末において記述子ベクトルを決定するステップは、認識サーバは、複数の通信端末によりサブミットされるクエリ画像の記述子ベクトルを算出するように構成される必要がないという利点を有する。さらに、クライアント側で記述子ベクトルを算出することは、増大するユーザのプライバシーにさらに有利である。ユーザにより撮像される実際のクエリ画像は、通信ネットワークを介して伝送されず、従ってユーザ以外の誰からも隠されるが、元のクエリ画像を記述子ベクトルから導き出すことができないからである。
一実施形態において、第1の画像(クエリ画像)に関するクエリデータをリモート認識サーバへ伝送するステップが、追加のクエリ情報、例えば、地理的位置情報、日時情報、カレンダ日付情報、歴史的年情報、未来年情報、リモート認識サーバにて実行させる動作を指定するユーザ命令情報、および/または、血圧情報、血糖値情報および/または心拍情報等の生物医学的情報、を伝送するステップをさらに含む。同様に、第2の画像(修正中画像)が、この追加のクエリ情報を使用して選択される。従って、修正中画像は、ユーザの現在の地理的場所、ユーザの現在の生物医学的状態および/または規定された時点に対して特有である認識サーバにおいて、選択されることが可能である。さらに、一実施形態において、第2の画像が、例えばリモート認識サーバにおいて記憶されたユーザプロフィール情報を使用して、選択される。従って、それぞれのユーザに関連するプロフィールに基づき、異なる画像の情報がユーザに返される。例えば、若い人および/または女性は、それぞれ年配者および/または男性とは異なる情報を受け取るであろう。好ましくは、参照画像もまた、何らかの追加のクエリ情報、例えば、ユーザの現在の地理的位置および/または現在の時間/日付、を使用して識別されて、検索空間を縮小し、参照画像を検索する時間を減少させる。
さらなる実施形態において、第2の画像(修正中画像)が、インタラクティブ画像部を示すビジュアルマーカ、例えば、グラフィックのラベルまたはシンボルを含み、第1の画像(クエリ画像)が、クエリ画像の一部としてビジュアルマーカと共に表示される。従って、カメラで撮像されたクエリ画像が自動的に拡張され、ユーザがクエリ画像を見るときに、クエリ画像内のインタラクティブ領域がビジュアルマーカによりユーザに示される。好ましくは、このモードの動作は、連続する(ほぼ)実時間のものであるため、クエリ画像は、連続する流れの中でビデオシーケンスの撮像の一部として撮像される。さらに、クエリ画像の対応する一部を置き換える投影画像の一部が、クエリ画像に示される現実の世界の物体に対して固定されたまま、一方で、カメラがビデオシーケンスを撮像しており、および/または、現実の世界の物体が動いている。従って、インタラクティブ画像部を示すビジュアルマーカは、通信端末のディスプレイ上の現実の世界の物体に固定されて示される。ユーザは、ビジュアルマーカまたは関連するインタラクティブ画像部をそれぞれ例えばポイント及びクリックすることにより、選択的に起動することが可能であり、および/または、実行させるそれぞれの動作を指定することが可能である。従って、ビジュアルマーカを第1の画像の一部として表示する一方、ビジュアルマーカの1つに関連するユーザ命令が、ユーザから受け取られ、リモート認識サーバへ伝送される。リモート認識サーバにおいて、ユーザ命令に基づき、第3の画像が、選択され(次の修正中画像)、および/または参照画像が、次の修正中画像として修正される。ホモグラフィを使用して、リモート認識サーバが、次の修正中画像の投影画像を算出し、第1の画像の一部を第3の画像(画像シーケンス)の投影画像の少なくとも一部と置き換えることにより、さらなる拡張画像を生成する。さらなる拡張画像は、通信端末において表示される。従って、第1の拡張ステップにおいて表示されるビジュアルマーカに基づき、ユーザは、カメラを使用して、現実の世界の物体の中からインタラクティブな物体を検索することが可能であり、第2の拡張ステップにおいて、そのような現実の世界の物体の拡張画像を撮像することが可能である。
本発明は、図面を参照して、例としてさらに詳細に説明される。
画像に基づく情報検索のシステムの例示の構成を概略的に説明するブロック図である。 ホモグラフィを介した参照画像のクエリ画像への変換、および、ホモグラフィを使用した修正中画像の修正中画像の投影への変換を、概略的に説明するブロック図である。 本発明に従った画像ベース情報検索で実行される工程のシーケンスの一例を説明するフロー図である。 異なるスケール(サイズ)の、検出された(スケール不変の)関心点を囲む、検出されたオリエンテーションに整列された、二次記述子ウィンドウの例を示す図である。 x方向(a)およびy方向(b)の一次導関数を有し、関心点が円形領域の中心である、一次導関数を有する離散化した円形領域の例を示す図である。 関心点を中心とし、スケール独立の辺長を持ち、記述子ベクトルの算出に対して独立して検討される16のサブ領域に分割された、記述子ウィンドウの例を示す図である。
図1に例示するように、画像に基づく情報検索のシステムは、少なくとも1つの通信端末1および通信端末1に関連するデジタル(電子)カメラ10と、リモートコンピュータベースの認識サーバ3と、を備え、通信端末1は、電気通信ネットワーク2を介して認識サーバ3に接続可能である。
電気通信ネットワーク2は、固定ネットワークおよび/または無線ネットワークを含む。例えば、電気通信ネットワーク2は、LAN(local area network)、ISDN(integrated services digital network:総合デジタル通信網)、インターネット、GSM(global system for mobile communication)、UMTS(universal mobile telephone system)または他の携帯電話システム、および/または無線LAN(WLAN)を含む。
通信端末1は、電子機器、例えば、携帯電話、PDA(Personal Digital Assistant)、または、ラップトップコンピュータもしくはパームトップコンピュータ等のモバイル通信端末を含む。通信端末1はまた、車などの移動性の機器、または、建物もしくは冷蔵庫等の固定された機器に統合される。好ましくは、カメラ10は、通信端末1に接続され、例えば、取り付けられ、または同一の筐体に一体化された部分としてある。通信端末1は、表示スクリーン111を有する表示モジュール11と、データ入力要素16、例えば、キーボード、タッチパッド、トラックボール、ジョイスティック、ボタン、スイッチ、音声認識モジュール、または任意の他のデータ入力要素と、を含む。通信端末1は、制御モジュール12、ユーザインターフェースモジュール13、オプションの画像拡張モジュール14およびオプションの特徴記述モジュール15等の機能モジュールを、さらに含む。
図1において、参照番号3は、電気通信ネットワーク2を介して電気通信端末1およびユーザコミュニティCの追加の通信端末1’に接続可能なコンピュータベースの認識サーバを参照する。一実施形態において、認識サーバ3は、電気通信ネットワーク2を介して電気通信端末1に接続可能なコンピュータベースの情報サーバ4に接続される。情報サーバ4は、同じコンピュータ上または、認識サーバ3とは分離したコンピュータ上に設置される。認識サーバ3は、データベース35と、画像認識モジュール31、画像マッピングモジュール32、修正選択モジュール33およびオプションの画像拡張モジュール34等の機能モジュールと、を含む。さらに、図1は、木51、茂み52、家53または広告看板54等のいくつかの現実の世界の物体を伴う、現実の世界の情景5を概略的に例示する。参照番号5’は、カメラ10により撮像された現実の世界の情景5内の広告看板54のクエリ画像を示す。
好ましくは、機能モジュールおよびデータベース35が、プログラムソフトウェアモジュールとして実装される。ソフトウェアモジュールのコンピュータプログラムコードは、コンピュータプログラム製品、すなわち、コンピュータ可読媒体である、通信端末1もしくは認識サーバ3のコンピュータそれぞれに統合されるメモリ内、または、通信端末1もしくは認識サーバ3のコンピュータそれぞれに挿入可能なデータキャリア上、に記憶される。ソフトウェアモジュールのコンピュータプログラムコードが、通信端末または認識サーバそれぞれのプロセッサを制御するため、通信端末1または認識サーバ3それぞれは、図2から6を参照してより詳細に後述する種々の機能を実行させる。当業者は、機能モジュールが、ハードウェア手段により部分的または全体的に実装可能であることを理解するであろう。
表示モジュール11は、キャプチャまたは拡張された画像を表示スクリーン111上に表示するよう構成される。ユーザインターフェースモジュール13は、表示スクリーン111上にグラフィカルユーザインターフェースを視覚化するよう、および、グラフィカルユーザインターフェースとデータ入力要素16とを介してユーザインタラクションを扱うよう、構成される。
図3において、ブロックAは、通信端末1、1’と認識サーバ3の間で実行される準備工程を例示する。ステップS00において、ユーザコミュニティCに関連する通信端末1’が、コミュニティデータを認識サーバ3へ伝送する。ステップS01において、認識サーバ3が、受け取ったコミュニティデータをデータベース35に記憶する。ステップS02において、通信端末1が、ユーザプロフィールデータを認識サーバ3へ伝送する。ステップS03において、認識サーバ3が、受け取ったユーザプロフィールデータをデータベース35に記憶する。コミュニティデータおよび/またはユーザプロフィールデータは、例えば、評価情報等の、特定の地理的場所および/または(画像)物体に割り当てられる情報を含み、情報は、1人のユーザ、規定のユーザグループ、またはコミュニティ全体に特有のものとすることができる。ユーザプロフィールデータは、特定のユーザに関する年齢、性別、趣味および他の情報を含む。
図3において、ブロックBは、画像に基づく情報検索の工程の例示のシーケンスを図示する。
ステップS1において、カメラ10は、ユーザにより、興味のある領域、例えば、現実の世界の情景5、特にその情景の中の広告看板54、に向けられ、カメラ10が起動されて単一の画像(写真モード)または画像の連続する流れ(探索中またはビデオモード)を撮像する。以下の段落において、クエリ画像I2は、図2に例示されるように、カメラ10により写真モードで撮像された単一の画像、またはカメラ10によりビデオモードで撮像された画像シーケンスの特定の画像フレーム、に関係する。
ステップS2において、制御モジュール12が、カメラ10によりキャプチャされたクエリ画像I2に関するクエリデータを準備する。好ましい実施形態において、制御モジュールは、特徴記述モジュール15を起動して、キャプチャされたクエリ画像I2に関する記述子ベクトルを生成する。まず、特徴記述モジュール15は、スケール不変の関心点を検出するために、キャプチャされたクエリ画像I2の画素を分析する。続いて、特徴記述モジュール15は、再現性のあるオリエンテーションを各関心点に割り当て、各関心点に対して、関心点に近接する画素値の導関数に基づき、記述子ベクトルを算出する。記述子ベクトルの決定については詳細に後述する。代替の一実施形態において、制御モジュール12は、記述子ベクトルよりむしろ、クエリデータ内のキャプチャされたクエリ画像I2を含む。
実施形態、アプリケーションおよび/またはユーザ設定またはユーザ命令によっては、制御モジュール12は、クエリデータ内に追加のクエリ情報を含み、例えば、地理的場所(位置)情報、日時情報、カレンダ日付情報、および/または、歴史的年情報、未来年情報、リモート認識サーバにて実行させる動作を特定するユーザ命令情報等のアプリケーション情報、および/または、血圧情報、血糖値情報および/または心拍情報等の生物医学的情報、および/または、年齢、性別、および/または趣味等のユーザプロフィール情報などである。地理的場所情報は、測位システム、例えば、GPS(Global Positioning System)、GNSS(Global Navigation Satellite System)、LPS(Local Positioning System:位置検地システム)もしくはガリレオの受信機を利用して、または、ネットワーク情報、例えば基地局識別のデータもしくはセルベースのモバイル無線ネットワークにおけるセル識別のデータから、通信端末1において決定される。歴史的年情報または未来年情報、およびユーザ命令情報は、ユーザによりユーザインターフェースモジュール13を介してデータ入力要素16を使用して入力される。生物医学的情報は、通信端末1に連結される各生物医学センサを利用してキャプチャされる。変形例において、修正中画像はまた、クエリデータと共に含まれる。
ステップS3において、クエリデータが通信端末1からリモート認識サーバ3へ伝送される。変形例において、クエリデータは、2つ以上の(並列処理)リモート認識サーバ3へ伝送される。
ステップS4において、受け取ったクエリデータに基づき、画像認識モジュール31が、データベース35に記憶される参照画像I1を識別する。好ましい実施形態において、画像認識モジュール31が、クエリ画像I2に関する受け取った記述子ベクトルを、データベース35に記憶される記述子ベクトルと比較する。クエリデータが追加のクエリ情報を含む場合、画像認識モジュール31は、参照画像I1の検索を、地理的場所、日時および/またはカレンダ日付等の追加のクエリ情報に関する、データベース35内の画像に限定して、検索および応答の時間を減らす。続いて、画像認識モジュール31が、受け取った記述子ベクトルに対応する記述子ベクトルに関連する記憶される画像から、受け取った記述子ベクトルにより定義されるように、画像内の幾何学的配置についてクエリ画像I2の関心点に対して対応する関心点を有する参照画像I1を選択する。例えば、基本行列、三焦点テンソルを算出することにより、または、クエリの関心点と候補の関心点の間のホモグラフィ(部分的には平面物体の)を検証することにより、幾何学的検証が実行される。
代替の一実施形態において、クエリ画像I2が、記述子ベクトルよりもむしろクエリデータと共に伝送され、画像認識モジュール31が、クエリ画像I2の画素を分析してスケール不変の関心点を検出することにより、そして、再現性のあるオリエンテーションを各関心点に割り当てることにより、クエリ画像I2に対応する参照画像I1を識別する。続いて、各関心点に対して、画像認識モジュール31は、関心点に近接する画素値の導関数に基づき、記述子ベクトルを算出する。記述子ベクトルの決定については、より詳細に後述する。そして、追加のクエリ情報に基づき検索をできるだけ制限し、画像認識モジュール31は、上記で説明したように、クエリ画像I2に関連する記述子ベクトルをデータベース35に記憶される記述子ベクトルと比較することにより画像マッチングして、参照画像I1を識別する。
ステップS5において、画像マッピングモジュール32がホモグラフィHを算出し、これにより、図2に例示するように、参照平面内の参照画像I1が射影平面内のクエリ画像I2に変換される。
ホモグラフィは、点を1平面から別の平面にマッピングする一般的な透視変換行列である。平面Π1と、カメラの網膜平面上のその射影(画像)Π2について考えると、Π1からΠ2の全ての点をマッピングする一意的なホモグラフィHが存在する。このホモグラフィは、2つの平面Π1とΠ2との間に4点対応のみを用いて推定される。参照画像I1と、それと対になる修正された対照物I1'について考え、クエリ画像I2を参照画像I1の射影(画像)として定義すると、ホモグラフィHを、参照画像I1とクエリ画像I2との間の点対応から算出することが可能である。この同じホモグラフィHを使用して、クエリ画像I2を、修正された参照画像I1'を用いて「拡張」させ、それによって、投影画像I2'生成する。従来の拡張現実に対する違いは次元数にある。拡張現実が現実の世界において3Dの物体を投影するのに対して、現在の画像拡張のアプローチは、ホモグラフィに基づき、2Dの物体のみを扱う。
ステップS6において、修正選択モジュール33が、修正中画像I1'を選択する。上述したように、一実施形態において、修正中画像I1'は、認識サーバ3へ伝送されたクエリデータに含まれる。しかし、好ましくは、修正中画像I1'は、受け取られたクエリデータに含まれる追加のクエリ情報に基づき、データベース35から選択される。例えば、修正中画像I1'は、ユーザの現在の地理的場所、現在の時間および/または日付に基づき、ユーザの現在の血圧、血糖値および/または心拍数に基づき、および/または、歴史的年、未来の年もしくはユーザ命令等の指定されたアプリケーション特有の情報、または、年齢、性別、趣味等のユーザプロフィール情報に基づき、選択される。図2に示す例において、修正中画像I1'は、参照画像I1の修正Mの結果である。時間依存性の情報は、検索空間を縮小させるだけでなく、特に新聞の見出しへの応答を特定するのに役立つ。ユーザが新聞の話題に関する最新のニュースを所望する場合、時間は重要な問題である。生物医学情報に基づくアプリケーションの例には、受け取られた記述子ベクトルにより定義される周囲の分析から推定して、現在の状況に対して糖尿病患者のインシュリン率を適合させること、または、相手探索または広告キャンペーン等における、特定の画像に対する人の感情的反応を推定すること、などが含まれる。
ステップS7において、画像マッピングモジュール32が、ステップS5において決定されたホモグラフィHを使用して、ステップS6において選択された修正中画像I1'の投影画像I2'を算出する。
次に、拡張画像IAが、クエリ画像I2の少なくとも一部を、投影画像I2'の対応する一部と置き換えることにより、生成される。実施形態によると、拡張画像IAは、ステップS8において、認識サーバ3内の拡張モジュール34により生成されるか、または、拡張画像IAは、ステップS10において、通信端末1内の拡張モジュール14により生成される。例えば、投影画像I2'は、「空の」バウンディングボックス6に含まれ、投影画像I2'を、元のクエリ画像I2、5’において見える、変更されていない画像の物体(例えば、木51、茂み52および家53の一部)を損なうことなく、(図1内の参照番号5’により参照される)元のクエリ画像I2と組み合わせることが可能である。
オプションのステップS91において、修正中画像I1'の投影画像I2'、情報サーバ4へ伝送されるが、実施形態によっては、投影画像I2'が、情報サーバ4へ、拡張画像IAの一部としてまたは別個の画像として、伝送される。
ステップS9において、投影画像I2'または拡張画像IAはそれぞれ、通信端末1へ伝送されるが、実施形態によっては、投影画像I2'または拡張画像IAはそれぞれ、画像としてのコンテンツにより、または、情報サーバ4上に記憶されるそれぞれの画像へのリンクとしての参照によって伝送される。例えば、リンクまたは画像は、通信端末1へ、HTTP、MMS、SMS、UMTS等を使用して伝送される。リンクは、種々の行動をトリガすることが可能である。第三者による定義によっては、リンクはインターネットへのアクセスを提供して、マルチメディアのコンテンツを、ユーザまたは第三者により指定される宛先に送るなどの異なった処理を起動し、または、物体の3Dモデルの生成、パノラマスティッチング、ソース画像の拡張等を行う、異なるオブジェクト依存のアプリケーションを作動させる。異なる変形例において、リンクは1つまたは複数の通信端末へ伝送されるが、必ずしも、クエリ画像をサブミットした端末へ伝送(相手探索)しなくとも良い。
参照による伝送の場合、オプションのステップS92において、ステップS9において受け取られたリンクを使用して、通信端末1の制御モジュール12が、情報サーバ4上の投影画像I2'または拡張画像IAそれぞれにアクセスする。オプションのステップS93において、投影画像I2'または拡張画像IAそれぞれが、情報サーバ4から通信端末1へ伝送される。
オプションのステップS10において、画像拡張がリモート認識サーバ3上で実行されない場合、通信端末1の拡張モジュール14が、上述したように、クエリ画像I2の少なくとも一部を投影画像I2'の対応する一部と置き換えることにより、拡張画像IAを生成する。
ステップS11において、表示モジュール11が、表示スクリーン111上に拡張画像IAを示す。
ビデオモードで、ブロックBが連続して繰り返して実行され、カメラ10で撮像されたビデオ画像シーケンスの個々の画像フレームが、一定して連続して修正中画像とともに拡張され、よって、ユーザに対して表示スクリーン111上に拡張画像フレームのシーケンスから成る拡張されたビデオを作製する。
現実の世界の物体、例えば、電子ディスプレイ、広告看板54または別の印刷媒体等の視覚的媒体には、例えば、インタラクティブ画像部を示す、視覚的媒体上に印刷されたラベルまたはシンボル、もしくは、画像拡張によって見ることができる描かれた物体などの現実のビジュアルマーカが備えられ、または、隠れた存在と通信する、定義された(グローバルな)表示子を使用して、隠れたインタラクティブ画像部が存在する。
さらなる実施形態において、ビジュアルマーカは、現実の世界の物体上に印刷されず、ユーザに対して拡張画像IA内で視覚化される。言い換えれば、カメラ10が、ユーザによって現実の世界の情景5に対して向けられる一方で、クエリ画像の連続する流れが、拡張可能な物体または部分を示すビジュアルマーカを含む修正中画像I1'とともに、拡張される。例えば、ビジュアルマーカは、アイコン、フレーム、特異的な色、または拡張現実の物体である。ユーザが、拡張画像IA内にそのようなビジュアルマーカと共に与えられる現実の世界の物体、例えば広告看板54、に対してカメラ10を向け、データ入力要素16を使用してコマンドを入力する、例えば規定のキーをワンクリックする場合、その現実の世界の物体のクエリ画像I2が、写真モードで撮像され、ブロックBで拡張され、表示スクリーン111上に拡張画像IAとして表示される。
上記で概説したように、本発明により、1つまたは複数のカメラを備え、無線または有線の接続を介して1つまたは複数の認識サーバへ接続される、携帯用または固定の装置を使用して、現実の世界の物体を仮想コンテンツにリンクすることが可能にされる。
一例示のアプリケーションにおいて、ユーザは、車の広告のポスターの画像、具体的には車またはその車の興味ある特定の領域、を撮像する。このクエリ画像が認識サーバ3へ伝送される。拡張画像がユーザに伝送されて戻される。拡張画像はクエリ画像に対応するが、画像拡張処理を施され、車両のエンジンが、 元のポスターには見えないが、露出されている。このアプリケーションは、上述のx線効果の例である。
別の例示のアプリケーションにおいて、拡張画像がタイムトラベルをシミュレートする。例えば、アルプスの氷河の画像が、クエリ画像として撮像され、戻される拡張画像が40年前の氷河を示す。
さらなる例示のアプリケーションにおいて、例えば、建物または他の現実の世界の物体に関連する、秘密のメッセージまたは隠された芸術品が、画像拡張処理を施されユーザに対して視覚化される。
認識サーバ3はまた、レストラン、クラブ、バー、自動車修理店等の場所を評価し、および、評価情報を視覚的および地理的な手掛かりに基づき共有する、コミュニティを支援するよう構成される。従って、認識サーバ3は、地理的な場所もしくは物体に関連する、または地理的な場所もしくは物体に割り当てられる情報を、ユーザから受け取り、データベース35に記憶するよう構成される。例えば、レストランを訪れた後、そのレストランの肯定的な評価を与えるために、内蔵のカメラを有する自分の通信端末1を使用して、ユーザはレストランの外部の写真を撮り、おそらく肯定的な評価と共に、認識サーバ3または、例えばインターネット上の関連するコミュニティサーバへ送信する。好ましくは、通信端末1は、写真の電送に場所情報を含む。次のユーザは、そのレストランの画像をクエリ画像として認識サーバ3へ送信することにより、評価情報を検索する。このクエリの検索は、クエリを行っているユーザのプロフィールに似たプロフィールを有するユーザにより与えられた情報(例えば評価情報)に、結果を限定するように、ユーザプロフィール情報を用いてさらに制限される。
記述子ベクトルの生成
上記で概説したように、離散した画像の対応の検索は、3つの主工程に分けることが可能である。最初に、関心点が、異なるスケールで特異的な画像の位置で選択される。次に、全ての関心点の近傍が、記述子によって表される。この記述子は、特異的であると同時に、ノイズ、検出誤差、幾何学的ゆがみ、および光度的ゆがみに対してロバストであるべきである。最後に、記述子が、異なる画像間でマッチングされる。マッチングは、典型的には、ベクトル間の距離、例えば、ユークリッド距離の評価、に基づく。
多くの関心点検出器が、文献で提案されており、(参考文献1から7を参照)、異なる性質の各検出器が、形の外観および不変性(スケール、アフィン、透視)の程度に関する特定の特性を有する。提案される方法およびシステムでは、関心点検出器の性質は重要ではない。好ましくは、2つ以上のこれらの検出器が、多数の異なる関心点特性(ブロブ(かたまり)、コーナー等)および不変性を補うために、同時に使用される。
提案される方法およびシステムは、複数の画素を持つ画像内にある関心点の記述子と、画像内に場所がある関心点と、スケール(サイズ)と、オリエンテーションと、を導き出す方法を使用する。記述子を導き出す方法は、関心点のオリエンテーションに整列された、関心点を囲む、スケール依存のサイズの二次記述子ウィンドウであって、画素の組を含む記述子ウィンドウを識別するステップ(図4参照)と、オリエンテーションに対して固定した関係を持つxおよびy方向の関心点の記述子ウィンドウ内の導関数を調べて、少なくとも1つのデジタルフィルタを使用して、それによって独立して各方向の一次導関数を生成するステップと、各要素が、特定のサイズの矩形内の二次元領域内のただ1つの方向からの一次導関数の統計的評価である、要素を含む、多次元記述子を生成するステップと、から成る。
これらの多次元記述子(記述子ベクトル)は、各画像内の関心点の組に対して独立して抽出される。
統計的記述子
与えられる記述子は、2つの互いに直交する方向の、画像の一次導関数の統計的情報から成る。導関数を使用することで、撮影環境の線光の変化へ向けた記述子の不変性を増加させる。所定の関心点の記述子を構築するために、第1の工程は、関心点を囲む円形領域内の画素情報に基づき、関心点を囲む再現性のあるオリエンテーションを固定することにある。そして、二次領域(記述子ウィンドウ)が、選択されたオリエンテーションに整列され、記述子が、この局在され整列された二次領域から抽出される。関心点は、参考文献1から7に概説される任意の適切な方法により得られる。
オリエンテーションの割り当て
回転に対して不変であるために、再現性のあるオリエンテーションαが各検出された関心点に対してスケールsで識別される。オリエンテーションは、関心点を囲む、画像内の二次元の領域内で抽出される。この領域は、参考文献6および7と同様、複数の検出されたスケールs、例えば4s、の半径の、関心点を囲む離散化した円形領域である。
この領域から、xおよびy方向の導関数が計算される(図5参照)。
得られた円形領域内の任意の点xにおける導関数dx(x)およびdy(x)が、符号および相対値に従って8つのビンBi、i={1,2,3,...,8}にクラスタ化される(表1参照)。導関数は、次に、全てのビンから1ビンにつき2つの合計Σdx(x)およびΣdy(x)を得るように、独立して合計される。主要なオリエンテーションを決定するために、16の異なる構成の勾配が検討される。これらの勾配は、各ビンB1、...、B8に対して、また、加えて、各2つの近接するビン、例えば、B1とB2、B2とB3、...B8とB1、に対して算出される。勾配tのノルムが、全ての組み合わせに対して、全ての単一のビンのΣdx(x)およびΣdy(x)を使用して算出されるか、または、追加の状況の場合、近接するビンと合計される。
Figure 2010530998
表1:導関数のビニング
主要な勾配のオリエンテーション、α=arctan(Σdx(x)/Σdy(x))、は関心点のオリエンテーションとして使用される。このオリエンテーションαを使用して、記述子を構築する。
記述子
関心点の主要なオリエンテーションを求めた後、参考文献6および7と同様、近接する画素値が、一意的で特異的な記述子により記述される。記述子の抽出には、関心点を中心とし、上記のオリエンテーション割り当て手順(図4参照)で選択されたオリエンテーションに沿って配置される、記述子ウィンドウの構築から成る第1の工程が含まれる。このウィンドウのサイズはまた、関心点のスケールsに依存する。図6に示すように、新しい領域が、より小さなサブ領域に分割される。
各サブ領域に対して、4つの記述子特徴量が計算される。これらの記述子特徴量のうちの最初の2つが、サブ領域内の導関数dx’(x)およびdy’(x)の平均値により定義される。dx’(x)およびdy’(x)は、上記で定義したようなオリエンテーションαに関して、xおよびy方向の導関数dx(x)およびdy(x)と対になる回転した対照物である。
dx’(x)=dx(x)sin(α)+dy(x)cos(α)
dy’(x)=dx(x)cos(α)−dy(x)sin(α)
1サブ領域当りの第3および第4の記述子特徴量は、xおよびy方向の導関数の統計的分散量である。あるいは、これらの4つの記述子特徴量は、xおよびy方向の正および負の導関数の平均値である。別の代替では、サブ領域内のxおよびy方向の導関数の最大値および最小値のみが検討される。
上記をまとめると、異なる要素が、関心点(記述子ウィンドウ)のオリエンテーションに関してxおよびy方向の導関数に依存する多次元のベクトルvにより、記述子を定義することが可能である。以下の表は、所定のサブ領域の異なる代替を示す。
Figure 2010530998
表2:全てのサブ領域の基本の記述子を算出するための異なる代替
上記で定義したように、16のサブ領域のすべてに対して4つの基本の記述子特徴量を構築すると、全ての関心点に対して64次元の記述子が得られる。
マッチング
クエリ/検索処理において、記述子は以下のようにマッチングされる。異なる物体の組の、ラベルを付けた多数の参照画像と、同一の組の、1オブジェクトが含有する1クエリ画像と、を考える。クエリ画像上に現れる特定の物体の検出は、3つの工程からなる。最初に、関心点およびそのそれぞれの記述子が、全ての画像(参照画像およびクエリ画像)内で自動的に検出される。次に、クエリ画像が、複数の参照画像と対にして比較されるが、これは画像対の記述子ベクトルの全ての可能性のある構成の間のユークリッド距離を算出することによる。記述子ベクトル間のマッチングは、後者間のユークリッド距離が、固定された値であるまたは適応される特定の閾値より小さいときに、求められる。この工程は、一方の側の参照画像の組と他方側のクエリ画像で形成される全ての画像対に対して繰り返される。クエリ画像とのマッチングが最大数になる参照画像が、クエリ画像と同じ物体を含有すると考えられる。次に、参照画像のラベルを使用して、クエリ画像上に現れている物体を識別する。多数の不測の不一致による誤認識を避けるため、平面(または区分的に平面の物体)のホモグラフィ、または一般の3D物体の基本行列を使用して、関心点対応は幾何学的に検証することが可能である。
本発明の実施形態の上述の開示は、例示および記載の目的で示された。本開示は、網羅的であること、または本発明を開示された正確な形式に限定することを意図していない。本明細書に記載される実施形態の多数の変形および修正が、上記の開示に照らして当業者にとって明らかであろう。本発明の範囲は、ここに添付される請求項によって、およびその等価物によってのみ定義されるべきである。具体的には、記載においては、コンピュータプログラムコードが特定のソフトウェアモジュールに関連したが、しかし、当業者は理解するであろうが、コンピュータプログラムコードは、本発明の範囲から逸脱することなく、異なって構築される。さらに、本明細書に記載される、工程の特定の順番は、請求項に対する制限と解釈されるべきではない。

Claims (23)

  1. 画像に基づく情報検索の方法であって、前記方法が
    第1の画像(I2)を、通信端末(1)に関連するデジタルカメラ(10)を使用して、撮像するステップと、
    前記第1の画像(I2)に関するクエリデータを、通信ネットワーク(2)を介してリモート認識サーバ(3)へ伝送するステップと、
    前記リモート認識サーバ(3)において、前記クエリデータに基づき参照画像(I1)を識別するステップと、
    前記リモート認識サーバ(3)において、前記参照画像(I1)および前記クエリデータに基づき、ホモグラフィを算出し、前記ホモグラフィは、前記参照画像(I1)を前記第1の画像(I2)にマッピングするステップと、
    前記リモート認識サーバ(3)内の第2の画像(I1')を選択するステップと、
    前記リモート認識サーバ(3)において、前記ホモグラフィを使用して、前記第2の画像(I1’)の投影画像(I2')を算出するステップと、
    前記第1の画像(I2)の少なくとも一部を、前記投影画像(I2')の少なくとも一部と置き換えることにより、拡張画像(IA)を生成するステップと、
    前記通信端末(1)において前記拡張画像(IA)を表示するステップと
    を含むことを特徴とする方法。
  2. 前記クエリデータを前記リモート認識サーバ(3)へ伝送するステップが、前記第1の画像(I2)を前記リモート認識サーバ(3)へ伝送するステップを含み、前記参照画像(I1)を識別するステップが、前記第1の画像(I2)に対応する前記参照画像(I1)を決定するステップを含み、ホモグラフィを算出するステップが、前記参照画像(I1)および前記第1の画像(I2)に基づきホモグラフィを算出するステップを含むことを特徴とする請求項1に記載の方法。
  3. 前記参照画像(I1)を識別するステップが、前記第1の画像(I2)の画素を分析して、スケール、アフィン変換および透視の少なくとも1つに関して不変である関心点を検出するステップと、再現性のあるオリエンテーションを各関心点に割り当てるステップと、各関心点に対して、関心点に近接する画素値の導関数に基づき記述子ベクトルを算出するステップと、前記第1の画像(I2)に関する記述子ベクトルを前記リモート認識サーバ(3)のデータベースに記憶される記述子ベクトルと比較することにより、および、対応する記述子ベクトルを有する記憶された画像から、前記第1の画像(I2)の関心点に対して幾何学的に対応する関心点を有する前記参照画像(I1)を選択することにより、画像マッチングするステップと、と含むことを特徴とする請求項2に記載の方法。
  4. 前記第1の画像(I2)の画素を分析して、スケール、アフィン変換および透視の少なくとも1つに関して不変である関心点を検出することにより、再現性のあるオリエンテーションを各関心点に割り当てることにより、および、各関心点に対して、前記関心点に近接する画素値の導関数に基づき記述子ベクトルを算出することにより、前記第1の画像(I2)に関する前記クエリデータを決定するステップをさらに含み、前記参照画像(I1)を識別するステップが、前記第1の画像(I2)に関する記述子ベクトルを前記リモート認識サーバ(3)のデータベースに記憶される記述子ベクトルと比較することにより、および、対応する記述子ベクトルを有する記憶された画像から、前記第1の画像(I2)の関心点に対して幾何学的に対応する関心点を有する前記参照画像(I1)を選択することにより、画像マッチングするステップを含むことを特徴とする請求項1に記載の方法。
  5. クエリデータを前記リモート認識サーバ(3)に伝送するステップが、追加のクエリ情報をさらに含み、前記第2の画像(I1')を選択するステップが、追加のクエリ情報を使用して実行され、前記追加のクエリ情報が、地理的位置情報、日時情報、カレンダ日付情報、歴史的年情報、未来年情報、前記リモート認識サーバ(3)にて実行させる動作を指定するユーザ命令情報、血圧情報、血糖値情報、心拍情報、およびユーザプロフィール情報の少なくとも1つを含むことを特徴とする請求項1から4のいずれかの項に記載の方法。
  6. 第1の画像(I2)を撮像するステップは、ビデオシーケンスを撮像するステップの一部であり、前記第1の画像(I2)の対応する一部を置き換える前記投影画像(I2')の一部が、前記第1の画像(I2)に示される現実の世界の物体に対して固定され、一方で、カメラ(10)がビデオシーケンスを撮像しており、および/または現実の世界の物体が動いていることを特徴とする請求項1から5のいずれかの項に記載の方法。
  7. 前記第2の画像(I1')が、インタラクティブ画像部を示すビジュアルマーカを含み、前記第1の画像(I2)を表示するステップが、前記第1の画像(I2)の一部として前記ビジュアルマーカを表示するステップを含むことを特徴とする請求項1から6のいずれかの項に記載の方法。
  8. ユーザからユーザ命令を受け取り、一方でビジュアルマーカを前記第1の画像(I2)の一部として表示するステップであって、前記ユーザ命令が前記ビジュアルマーカに関連するステップと、前記ユーザ命令を前記リモート認識サーバ(3)に伝送するステップと、前記ユーザ命令に基づき、前記リモート認識サーバ(3)において、第3の画像を選択し、および/または、前記参照画像(I1)を前記第3の画像として修正するステップと、前記リモート認識サーバ(3)において、前記第3の画像の投影画像(I2')をホモグラフィを使用して算出するステップと、前記第1の画像(I2)の少なくとも一部を前記第3の画像の前記投影画像(I2’)の少なくとも一部と置き換えることにより、さらなる拡張画像(IA)を生成するステップと
    をさらに含むことを特徴とする請求項7に記載の方法。
  9. 前記第2の画像(I1')が画像のシーケンスを含み、前記拡張画像(IA)を表示するステップが画像のシーケンスを前記拡張画像(IA)の一部として表示するステップを含むことを特徴とする請求項1から8のいずれかの項に記載の方法。
  10. 前記第2の画像(I1')が、前記参照画像(I1)の修正されたバージョンであることを特徴とする請求項1から9のいずれかの項に記載の方法。
  11. 前記方法が、前記クエリデータの一部として前記第2の画像(I1')を前記通信端末(1)から前記リモート認識サーバ(3)へ伝送するステップをさらに含むことを特徴とする請求項1から10のいずれかの項に記載の方法。
  12. 画像に基づく情報検索のシステムであって、前記システムが、
    第1の画像(I2)を撮像するデジタルカメラ(10)と、
    前記カメラ(10)に接続され、前記第1の画像(I2)に関するクエリデータを通信ネットワーク(2)を介して伝送するよう構成される、通信端末(1)と、
    前記クエリデータを受け取るよう、および、前記クエリデータに基づき参照画像(I1)を識別するよう構成されるリモート認識サーバ(3)と、
    前記通信端末(1)において拡張画像(IA)を表示する表示モジュール(11)と
    を備え、
    前記リモート認識サーバ(3)をさらに構成して、前記参照画像(I1)および前記クエリデータに基づき、ホモグラフィを算出し、前記ホモグラフィは前記参照画像(I1)を前記第1の画像(I2)にマッピングし、第2の画像(I1')を選択し、前期ホモグラフィを使用して前記第2の画像(I1')の投影画像(I2')を算出し、
    前記システムが、前記第1の画像(I2)の少なくとも一部を前記投影画像(I2')の一部と置き換えることにより、前記拡張画像(IA)を生成するよう構成された、画像拡張モジュール(14、34)をさらに備えることを特徴とするシステム。
  13. 前記通信端末(1)が、前記リモート認識サーバ(3)へ前記第1の画像(I2)を前記クエリデータの一部として伝送するよう構成され、前記リモート認識サーバ(3)が、前記第1の画像(I2)に対応する前記参照画像(I1)を識別するよう、および、前記参照画像(I1)および前記第1の画像(I2)に基づきホモグラフィを算出するよう構成されることを特徴とする請求項12に記載のシステム。
  14. 前記リモート認識サーバ(3)が、前記第1の画像(I2)の画素を分析して、スケール、アフィン変換および透視の少なくとも1つに関して不変である関心点を検出することにより、再現性のあるオリエンテーションを各関心点に割り当てることにより、および、各関心点に対して、関心点に近接する画素値の導関数に基づき記述子ベクトルを算出することにより、ならびに、前記第1の画像(I2)に関する記述子ベクトルを前記リモート認識サーバ(3)のデータベースに記憶される記述子ベクトルと比較することによる、および、対応する記述子ベクトルを有する記憶された画像から、前記第1の画像(I2)の関心点に対して幾何学的に対応する関心点を有する前記参照画像(I1)を選択することによる、画像マッチングを介して、前記参照画像(I1)を識別するようさらに構成されることを特徴とする請求項13に記載のシステム。
  15. 前記通信端末(1)が、前記第1の画像(I2)の画素を分析して、スケール、アフィン変換および透視の少なくとも1つに関して不変である関心点を検出することにより、再現性のあるオリエンテーションを各関心点に割り当てることにより、および、各関心点に対して、関心点に近接する画素値の導関数に基づき記述子ベクトルを算出することにより、前記第1の画像(I2)に関する前記クエリデータを決定するようさらに構成され、前記リモート認識サーバ(3)が、前記第1の画像(I2)に関する記述子ベクトルを前記リモート認識サーバ(3)のデータベースに記憶される記述子ベクトルと比較することによる、および、対応する記述子ベクトルを有する記憶された画像から、前記第1の画像(I2)の関心点に対して幾何学的に対応する関心点を有する前記参照画像(I1)を選択することによる、画像マッチングを介して、前記参照画像(I1)を識別するようさらに構成されることを特徴とする請求項12に記載のシステム。
  16. 前記通信端末(1)が、前記リモート認識サーバ(3)へ前記第1の画像(I2)に関する前記クエリデータと共に追加のクエリ情報を伝送するようさらに構成され、追加の情報が、地理的位置情報、日時情報,カレンダ日付情報、歴史的年情報、未来年情報、前記リモート認識サーバ(3)にて実行させる動作を指定するユーザ命令情報、血圧情報、血糖値情報、および心拍情報の少なくとも1つを含み、前記リモート認識サーバ(3)が、前記追加のクエリ情報を使用して前記第2の画像(I1')を選択するようさらに構成されることを特徴とする請求項12から15のいずれかの項に記載のシステム。
  17. ユーザプロフィール情報をさらに備え、前記リモート認識サーバ(3)が、前記ユーザプロフィール情報を使用して前記第2の画像(I1')を選択するようさらに構成されることを特徴とする請求項12から16のいずれかの項に記載のシステム。
  18. 前記通信端末(1)が、前記第1の画像(I2)をビデオシーケンスの撮像の一部として撮像するようさらに構成され、前記画像拡張モジュール(14,34)が、前記第1の画像(I2)の対応する一部を置き換える前記投影画像(I2')の一部が前記第1の画像(I2)に示される現実の世界の物体に対して固定されたまま、一方で、前記カメラ(10)がビデオシーケンスを撮像しており、および/または、現実の世界の物体が動いているように、さらに構成されることを特徴とする請求項12から17のいずれかの項に記載のシステム。
  19. 前記第2の画像(I1')が、インタラクティブ画像部を示すビジュアルマーカを備え、前記拡張画像(IA)が、前記ビジュアルマーカを備えることを特徴とする請求項12から18のいずれかの項に記載のシステム。
  20. 前記通信端末(1)が、ビジュアルマーカを前記第1の画像(I2)の一部として表示する一方、ビジュアルマーカに関連するユーザ命令をユーザから受け取るよう、および、ユーザ命令を前記リモート認識サーバ(3)へ伝送するようさらに構成され、前記リモート認識サーバ(3)が、前記ユーザ命令に基づき、第3の画像を選択、および/または前記参照画像(I1)を前記第3の画像として修正するよう、および、ホモグラフィを使用して前記第3の画像の投影画像(I2')を算出するようさらに構成され、前記画像拡張モジュールが、第1の画像(I2)の少なくとも一部を前記第3の画像の投影画像(I2')の少なくとも一部と置き換えることにより、さらなる拡張画像(IA)を生成するようさらに構成されることを特徴とする請求項19に記載のシステム。
  21. 前記第2の画像(I1')が画像のシーケンスを含み、前記拡張画像(IA)が前記画像のシーケンスを含むことを特徴とする請求項12から20のいずれかの項に記載のシステム。
  22. 前記第2の画像(I1')が、前記参照画像(I1)の修正されたバージョンであることを特徴とする請求項12から21のいずれかの項に記載のシステム。
  23. 前記通信端末(1)が、前記リモート認識サーバ(3)へ前記第2の画像(I1')を前記クエリデータと共に伝送するようさらに構成されることを特徴とする請求項12から22のいずれかの項に記載のシステム。
JP2010506785A 2007-05-08 2007-05-08 画像ベース情報検索の方法およびシステム Pending JP2010530998A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CH2007/000230 WO2008134901A1 (en) 2007-05-08 2007-05-08 Method and system for image-based information retrieval

Publications (1)

Publication Number Publication Date
JP2010530998A true JP2010530998A (ja) 2010-09-16

Family

ID=38332476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010506785A Pending JP2010530998A (ja) 2007-05-08 2007-05-08 画像ベース情報検索の方法およびシステム

Country Status (4)

Country Link
US (1) US20100309226A1 (ja)
EP (1) EP2147392A1 (ja)
JP (1) JP2010530998A (ja)
WO (1) WO2008134901A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011519193A (ja) * 2008-03-14 2011-06-30 アルカテル−ルーセント モバイル端末でリッチビデオを実施するための方法
KR101444816B1 (ko) * 2013-04-01 2014-09-26 한국과학기술연구원 얼굴 인상 변환을 위한 영상처리방법 및 영상처리장치
JP2015528961A (ja) * 2012-08-01 2015-10-01 成都理想境界科技有限公司 拡張現実技術に基づくビデオ再生方法及びビデオ再生システム並びに携帯端末

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8171237B2 (en) 2006-10-31 2012-05-01 Yahoo! Inc. Automatic association of reference data with primary process data based on time and shared identifier
US8406531B2 (en) * 2008-05-15 2013-03-26 Yahoo! Inc. Data access based on content of image recorded by a mobile device
US9753948B2 (en) 2008-05-27 2017-09-05 Match.Com, L.L.C. Face search in personals
US8098894B2 (en) 2008-06-20 2012-01-17 Yahoo! Inc. Mobile imaging device as navigator
US8385971B2 (en) 2008-08-19 2013-02-26 Digimarc Corporation Methods and systems for content processing
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
FR2946439A1 (fr) * 2009-06-08 2010-12-10 Total Immersion Procedes et dispositifs d'identification d'objets reels, de suivi de la representation de ces objets et de realite augmentee, dans une sequence d'images, en mode client-serveur
FI126909B (fi) * 2009-06-26 2017-07-31 Intel Corp Tekniikoita videokopioiden havaitsemiseksi
DE102009043641A1 (de) * 2009-09-09 2011-03-10 Sureinstinct Gmbh I.G. Verfahren zum Anzeigen von ein Objekt betreffende Informationen
US8391611B2 (en) * 2009-10-21 2013-03-05 Sony Ericsson Mobile Communications Ab Methods, systems and computer program products for identifying descriptors for an image
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
JP5578691B2 (ja) * 2010-06-01 2014-08-27 サーブ アクティエボラーグ 拡張現実のための方法および装置
KR101722550B1 (ko) * 2010-07-23 2017-04-03 삼성전자주식회사 휴대용 단말에서 증강현실 컨텐츠 제작과 재생 방법 및 장치
US9442677B2 (en) 2010-09-27 2016-09-13 Hewlett-Packard Development Company, L.P. Access of a digital version of a file based on a printed version of the file
KR101692399B1 (ko) * 2010-10-14 2017-01-03 삼성전자주식회사 감성 기반의 영상을 얻을 수 있는 디지털 영상 처리 장치 및 디지털 영상 처리 방법
KR20120042440A (ko) * 2010-10-25 2012-05-03 한국전자통신연구원 조립 과정 가시화 장치 및 방법
DE102011075372A1 (de) * 2011-05-05 2012-11-08 BSH Bosch und Siemens Hausgeräte GmbH System für die erweiterte Informationsbereitstellung für Kunden in einem Verkaufsraum für Hausgeräte sowie zugehöriges Verfahren und Computerprogrammprodukt
US8818706B1 (en) 2011-05-17 2014-08-26 Google Inc. Indoor localization and mapping
DE102011076074A1 (de) * 2011-05-18 2012-11-22 BSH Bosch und Siemens Hausgeräte GmbH System für die erweiterte Informationsbereitstellung zu einem Produkt sowie zugehöriges Verfahren und Computerprogrammprodukt
US8164599B1 (en) 2011-06-01 2012-04-24 Google Inc. Systems and methods for collecting and providing map images
WO2012176317A1 (ja) * 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
JP2013055569A (ja) * 2011-09-06 2013-03-21 Sony Corp 撮像装置、情報処理装置、それらの制御方法、および、プログラム
US20130069980A1 (en) * 2011-09-15 2013-03-21 Beau R. Hartshorne Dynamically Cropping Images
US9639857B2 (en) 2011-09-30 2017-05-02 Nokia Technologies Oy Method and apparatus for associating commenting information with one or more objects
US8768377B2 (en) * 2011-11-22 2014-07-01 Sony Corporation Portable electronic device and method of providing location-based information associated with an image
WO2013075316A1 (en) * 2011-11-24 2013-05-30 Microsoft Corporation Interactive multi-modal image search
US8971571B1 (en) 2012-01-06 2015-03-03 Google Inc. Visual completion
US9170113B2 (en) 2012-02-24 2015-10-27 Google Inc. System and method for mapping an indoor environment
DE102012101537A1 (de) 2012-02-27 2013-08-29 Miele & Cie. Kg Haushaltsgerät mit einer Kommunikationseinrichtung
US20140015858A1 (en) * 2012-07-13 2014-01-16 ClearWorld Media Augmented reality system
WO2014094874A1 (en) 2012-12-21 2014-06-26 Vidinoti Sa Method and apparatus for adding annotations to a plenoptic light field
JP6286123B2 (ja) * 2012-12-27 2018-02-28 サターン ライセンシング エルエルシーSaturn Licensing LLC 情報処理装置、コンテンツ提供方法及びコンピュータプログラム
EP2808805A1 (en) * 2013-05-30 2014-12-03 Thomson Licensing Method and apparatus for displaying metadata on a display and for providing metadata for display
US9177410B2 (en) 2013-08-09 2015-11-03 Ayla Mandel System and method for creating avatars or animated sequences using human body features extracted from a still image
US9426539B2 (en) * 2013-09-11 2016-08-23 Intel Corporation Integrated presentation of secondary content
US10297083B2 (en) * 2013-09-16 2019-05-21 Apple Inc. Method and system for determining a model of at least part of a real object
US10346753B2 (en) 2013-10-28 2019-07-09 Nant Holdings Ip, Llc Intent engines, systems and method
CN106165387A (zh) * 2013-11-22 2016-11-23 维迪诺蒂有限公司 光场处理方法
US10453097B2 (en) 2014-01-13 2019-10-22 Nant Holdings Ip, Llc Sentiments based transaction systems and methods
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
RU2604725C2 (ru) * 2014-12-25 2016-12-10 Общество С Ограниченной Ответственностью "Яндекс" Система и способ генерирования информации о множестве точек интереса
CN106033418B (zh) 2015-03-10 2020-01-31 阿里巴巴集团控股有限公司 语音添加、播放方法及装置、图片分类、检索方法及装置
JP6218787B2 (ja) * 2015-09-29 2017-10-25 株式会社ソニー・インタラクティブエンタテインメント 撮像装置、情報処理装置、表示装置、情報処理システム、画像データ送出方法、および画像表示方法
US9846808B2 (en) * 2015-12-31 2017-12-19 Adaptive Computation, Llc Image integration search based on human visual pathway model
EP3497590B1 (en) * 2016-08-08 2024-03-06 Netradyne, Inc. Distributed video storage and search with edge computing
US9940753B1 (en) * 2016-10-11 2018-04-10 Disney Enterprises, Inc. Real time surface augmentation using projected light
US11037200B2 (en) * 2016-12-16 2021-06-15 United States Postal Service System and method of providing augmented reality content with a distribution item
US10432765B2 (en) * 2017-08-24 2019-10-01 Asher Wilens System, method and apparatus for augmented viewing of real world objects
CN111712807A (zh) * 2018-02-16 2020-09-25 麦克赛尔株式会社 便携信息终端、信息提示系统以及信息提示方法
US10938568B2 (en) 2018-06-05 2021-03-02 Eight Plus Ventures, LLC Image inventory production
US10289915B1 (en) 2018-06-05 2019-05-14 Eight Plus Ventures, LLC Manufacture of image inventories
US10606888B2 (en) 2018-06-05 2020-03-31 Eight Plus Ventures, LLC Image inventory production
US10296729B1 (en) * 2018-08-23 2019-05-21 Eight Plus Ventures, LLC Manufacture of inventories of image products
US10467391B1 (en) 2018-08-23 2019-11-05 Eight Plus Ventures, LLC Manufacture of secure printed image inventories
EP3884467A4 (en) * 2018-11-23 2022-06-08 GEENEE GmbH SYSTEMS AND METHODS FOR AUGMENTED REALITY USING WEB BROWSERS
US20200192932A1 (en) * 2018-12-13 2020-06-18 Sap Se On-demand variable feature extraction in database environments
US10565358B1 (en) 2019-09-16 2020-02-18 Eight Plus Ventures, LLC Image chain of title management
CN112532856B (zh) * 2019-09-17 2023-10-17 中兴通讯股份有限公司 一种拍摄方法、装置和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05266215A (ja) * 1992-03-18 1993-10-15 Toshiba Corp 画像表示装置
JP2004297274A (ja) * 2003-03-26 2004-10-21 Fuji Photo Film Co Ltd 人物画像処理方法及び装置並びにシステム
WO2006085106A1 (en) * 2005-02-11 2006-08-17 The University Court Of The University Of Edinburgh Storing information for access using a captured image

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MXPA02004851A (es) * 1999-11-16 2003-10-14 Swisscom Mobil Ag Metodo y sistema de orden de producto.
AU2002100284A4 (en) * 2001-05-11 2002-05-09 Bowyer, Tim Patrick Interactive Electronic Publishing
US20070035562A1 (en) * 2002-09-25 2007-02-15 Azuma Ronald T Method and apparatus for image enhancement
DE10245900A1 (de) * 2002-09-30 2004-04-08 Neven jun., Hartmut, Prof.Dr. Bildbasiertes Anfragesystem für Suchmaschinen für mobile Endgeräte mit eingebauter Kamera
US7519236B2 (en) 2003-04-09 2009-04-14 Arcsoft, Inc. Image retrieval
US7379627B2 (en) * 2003-10-20 2008-05-27 Microsoft Corporation Integrated solution to digital image similarity searching
US7233708B2 (en) * 2003-11-07 2007-06-19 Microsoft Corporation Systems and methods for indexing and retrieving images
US7751805B2 (en) * 2004-02-20 2010-07-06 Google Inc. Mobile image-based information retrieval system
US7565139B2 (en) * 2004-02-20 2009-07-21 Google Inc. Image-based search engine for mobile phones with camera
US7382897B2 (en) * 2004-04-27 2008-06-03 Microsoft Corporation Multi-image feature matching using multi-scale oriented patches
EP1720131B1 (en) * 2005-05-03 2009-04-08 Seac02 S.r.l. An augmented reality system with real marker object identification
US7412089B2 (en) * 2005-05-23 2008-08-12 Nextcode Corporation Efficient finder patterns and methods for application to 2D machine vision problems
US20070205963A1 (en) * 2006-03-03 2007-09-06 Piccionelli Gregory A Heads-up billboard
US8023725B2 (en) * 2007-04-12 2011-09-20 Samsung Electronics Co., Ltd. Identification of a graphical symbol by identifying its constituent contiguous pixel groups as characters
US7912289B2 (en) * 2007-05-01 2011-03-22 Microsoft Corporation Image text replacement

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05266215A (ja) * 1992-03-18 1993-10-15 Toshiba Corp 画像表示装置
JP2004297274A (ja) * 2003-03-26 2004-10-21 Fuji Photo Film Co Ltd 人物画像処理方法及び装置並びにシステム
WO2006085106A1 (en) * 2005-02-11 2006-08-17 The University Court Of The University Of Edinburgh Storing information for access using a captured image

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011519193A (ja) * 2008-03-14 2011-06-30 アルカテル−ルーセント モバイル端末でリッチビデオを実施するための方法
JP2015528961A (ja) * 2012-08-01 2015-10-01 成都理想境界科技有限公司 拡張現実技術に基づくビデオ再生方法及びビデオ再生システム並びに携帯端末
US9384588B2 (en) 2012-08-01 2016-07-05 Chengdu Idealsee Technology Co., Ltd. Video playing method and system based on augmented reality technology and mobile terminal
KR101444816B1 (ko) * 2013-04-01 2014-09-26 한국과학기술연구원 얼굴 인상 변환을 위한 영상처리방법 및 영상처리장치

Also Published As

Publication number Publication date
WO2008134901A1 (en) 2008-11-13
WO2008134901A8 (en) 2009-11-12
US20100309226A1 (en) 2010-12-09
EP2147392A1 (en) 2010-01-27

Similar Documents

Publication Publication Date Title
JP2010530998A (ja) 画像ベース情報検索の方法およびシステム
US10121099B2 (en) Information processing method and system
US8180146B2 (en) Method and apparatus for recognizing and localizing landmarks from an image onto a map
JP5871976B2 (ja) ナビゲータとしてのモバイルイメージング装置
US7992181B2 (en) Information presentation system, information presentation terminal and server
US8842941B2 (en) Image capture and identification system and process
US10606824B1 (en) Update service in a distributed environment
JP2010518507A (ja) 特徴マッチング方法
US20100142758A1 (en) Method for Providing Photographed Image-Related Information to User, and Mobile System Therefor
US10810466B2 (en) Method for location inference from map images
JP2013109773A (ja) 特徴マッチング方法及び商品認識システム
Bae et al. Fast and scalable structure-from-motion based localization for high-precision mobile augmented reality systems
US20180247122A1 (en) Method and system of providing information pertaining to objects within premises
CN107430498A (zh) 扩展照片的视场
Revaud et al. Did it change? learning to detect point-of-interest changes for proactive map updates
JPWO2007004521A1 (ja) マーカ特定装置及びマーカ特定方法
KR101320247B1 (ko) 증강현실 서비스를 지원하는 시스템에서 영상 정합을 위한 장치 및 방법
JP2016038790A (ja) 画像処理装置ならびにその画像特徴検出方法、プログラムおよび装置
KR20210094396A (ko) 이미지 기반 검색 어플리케이션 및 그를 위한 검색 서버
Omerčević et al. Hyperlinking reality via camera phones
JP2006003963A (ja) 地域案内システム
US20230044871A1 (en) Search Results With Result-Relevant Highlighting
KR101920465B1 (ko) 실외환경에서의 피사체 식별 시스템 및 방법
KR20080036231A (ko) 정보 제시 시스템, 정보 제시 단말기 및 서버
De Ves et al. Intelligent Eye: location-based multimedia information for mobile phones

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111028

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120319