JP5654127B2 - インクリメントな特徴抽出を使用するオブジェクト認識 - Google Patents

インクリメントな特徴抽出を使用するオブジェクト認識 Download PDF

Info

Publication number
JP5654127B2
JP5654127B2 JP2013523231A JP2013523231A JP5654127B2 JP 5654127 B2 JP5654127 B2 JP 5654127B2 JP 2013523231 A JP2013523231 A JP 2013523231A JP 2013523231 A JP2013523231 A JP 2013523231A JP 5654127 B2 JP5654127 B2 JP 5654127B2
Authority
JP
Japan
Prior art keywords
octave
processor
descriptors
scale
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013523231A
Other languages
English (en)
Other versions
JP2013534342A (ja
Inventor
バヘティ、パワン・クマー
バドダディー、サンディープ
スワミナサン、アシュウィン
レズニク、ユリー
ハムシシー、オヌル・シー.
チャリ、ムラリ・ラマスワミイ
ホン、ジョン・エイチ.
リー、チョン・ウク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013534342A publication Critical patent/JP2013534342A/ja
Application granted granted Critical
Publication of JP5654127B2 publication Critical patent/JP5654127B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/88Image or video recognition using optical means, e.g. reference filters, holographic masks, frequency domain filters or spatial domain filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)
  • Position Input By Displaying (AREA)

Description

本開示は、画像処理システムに関連し、さらに詳細には、画像中のオブジェクト認識に関連する。
コンピューティングデバイスまたはコンピュータのコンテキスト中の視覚探索は、コンピュータまたは他のデバイスが、1つ以上の画像中のオブジェクトに対するアイデンティティ情報を提供することを可能にする技術のことを指す。視覚サーチにおける最近の関心は、部分的に隠蔽されたオブジェクトを、および/または、画像スケール、ノイズ、照度および局所的な幾何学的な歪みにおける変化を含む、幅広いさまざまな可変画像条件中の特徴を、コンピュータが識別することを可能にするアルゴリズムを結果として生じている。これと同期間中に、カメラを備える移動デバイスが登場しているが、このような移動デバイスは、テキストを入力するための限定されたユーザインターフェース、または、そうでなければ、他の移動デバイスとのインターフェースを有しているかもしれない。移動デバイスおよび移動デバイスアプリケーションの開発者は、移動デバイスとのユーザ対話を強化するために、移動デバイスのカメラを利用しようとしている。
1つの強化を説明すると、移動デバイスのユーザは、店舗で買い物をする間に、移動デバイスのカメラを使用して、何らかの所定の製品の画像を取り込んでもよい。移動デバイスはその後、さまざまな画像に対するアーカイブの特徴記述子のセット内で視覚サーチアルゴリズムを開始させ、マッチング画像に基づいて製品を識別してもよい。製品を識別した後に、移動デバイスはその後、インターネットベースのサーチを開始し、識別した製品についての情報を含むウェブページを提示する。ウェブページは、例えば、近くの売買業者および/またはオンライン売買業者から製品が入手可能な最低価格を含む。別の例では、オブジェクト認識は、拡張現実感と呼ばれるものを達成するように、移動デバイスのディスプレイ中にオーバーレイできる補足的な情報を発生させるために使用してもよい。
概要
一般的に、本開示は、デジタル画像中のオブジェクト識別に対する技術を記述している。これらの技術は、画像中のオブジェクトを識別する計算の複雑性を低減できる。予め定められている数のオクターブから特徴記述子を抽出することよりむしろ、本開示の技術は、オクターブを通して進行する、インクリメントな特徴記述子抽出を提供する。さらに、本開示は、開始オクターブを選択する技術と、特徴記述子を抽出する後続するオクターブを選択する技術とを提供する。
1つの例では、方法は、受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットを抽出することと、キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを計算することと、記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を受信し、結果は、受信した画像中のオブジェクトのアイデンティティを記述する情報を含むことと、信頼値が信頼しきい値を超えないときに、受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを抽出することとを含む。
別の例では、装置はプロセッサを具備し、プロセッサは、受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットを抽出し、キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを計算し、記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を受信し、結果は、受信した画像中のオブジェクトのアイデンティティを記述する情報を含み、信頼値が信頼しきい値を超えないときに、受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを抽出するように構成されている。
別の例では、装置は、受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットを抽出する手段と、キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを計算する手段と、記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を受信し、結果は、受信した画像中のオブジェクトのアイデンティティを記述する情報を含む手段と、信頼値が信頼しきい値を超えないときに、受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを抽出する手段とを具備する。
別の例では、コンピュータプログラムプロダクトは、その上に記憶されている命令を有するコンピュータ読取可能媒体を含む。命令は、実行されるとき、受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットをプロセッサに抽出させ、キーポイントの第1のセットに対する1つ以上の記述子の第1のセットをプロセッサに計算させ、記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値をプロセッサに受信させ、結果は、受信した画像中のオブジェクトのアイデンティティを記述する情報を含み、信頼値が信頼しきい値を超えないときに、受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットをプロセッサに抽出させる。
図1は、インクリメントな特徴記述子抽出に対する技術が適用される例示的なシステムを図示しているブロックダイヤグラムである。 図2は、キーポイント抽出において使用するために決定されているガウシアンの差分(DoG)ピラミッドを図示している概念図である。 図3は、キーポイントの検出をより詳細に図示している概念図である。 図4は、特徴抽出ユニットが勾配分布および方向ヒストグラムを取得できる例示的な技術を図示している概念図である。 図5は、さまざまなガウシアンスケール空間にわたる例示的なキーポイント分布を図示しているチャートの線図である。 図6は、インクリメントな特徴記述子抽出を実行するための例示的な方法を図示しているフローチャートである。
詳細な説明
一般的に、本開示は、デジタル画像中のオブジェクト識別に対する技術を記述している。これらの技術は、画像中のオブジェクトを識別する計算の複雑性を低減できる。予め定められている数のオクターブから特徴記述子を抽出することよりむしろ、本開示の技術は、オクターブを通して進行する、インクリメントな特徴記述子抽出を提供する。特徴記述子は、一般的に1つ以上のオクターブから抽出され、各オクターブは、画像の特定のサイズ(例えば、ピクセル解像度)に対応する。所定のオクターブに対して、入力画像は、解像度に関係するサイズにスケーリングされてもよい。さらに、次第にガウシアンぼけする複数の画像が形成されてもよく、各々は、オクターブに関係する解像度を有する。オクターブに対して次第にぼけるこれらの画像は、特徴記述子を抽出するために解析されてもよい。
予め定められている数のオクターブに対する特徴記述子を抽出することよりむしろ、本開示の技術は、第1のオクターブに対する特徴記述子を抽出して、この特徴記述子の第1のセットに基づいて、画像中のオブジェクトを検出するように試行することに向けられている。これらの特徴記述子を使用してオブジェクトを検出できる場合に、それ以上のオクターブが解析される必要はない。しかしながら、第1のオクターブからオブジェクトを決定できない場合に、後続するオクターブから特徴記述子が検出されてもよい。
さらに、本開示は、開始オクターブを選択する技術と、特徴記述子を抽出する後続するオクターブを選択する技術とを提供する。さまざまなファクタを使用して、開始オクターブを選択してもよい。例えば、画像に対する倍率(スケーリングファクタ)は初めに、例えば、画像が屋内または屋外で取り込まれたか、および/または、その画像を取り込むために使用したカメラに対する、画像中のオブジェクトの深度(すなわち、カメラから画像中のオブジェクトまでの距離)に基づいて、推定されてもよい。
カメラを含むデバイス、例えば、スマートフォン、タブレットコンピューティングデバイス、ラップトップコンピュータまたは他の移動デバイスのような、移動デバイスは、画像が取り込まれたときに、デバイスが屋内または屋外にあったかを推定するために使用できるセンサを備えていてもよい。例えば、グローバルポジショニングシステム(GPS)ユニットは、画像が取り込まれたときのカメラのロケーションを示す情報を提供してもよい。このロケーションは、カメラが屋内または屋外にあったかを決定するために使用されてもよい。別の例として、デバイスが、画像が取り込まれたときにワイヤレスアクセスポイントに接続されていたワイヤレスネットワークインターフェースを備えていた場合、このことは、カメラが取り込まれたときに、デバイスが屋内にあったか否かを推定するためのファクタとして使用されてもよい。さらに別の例として、画像中のオブジェクトに対する深度情報は、例えば、デバイスがステレオカメラ配置を有するときに決定されてもよい。
いくつかの例では、デバイスは、ステレオカメラ配置を使用して実行される深度推定の他に、または、ステレオカメラ配置を使用して実行される深度推定の代わりに、画像中のオブジェクトに対する深度を推定するように構成されている深度推定ユニットを備えていてもよい。例えば、デバイスは、シーン中のオブジェクトの相対的な深度を推定するために、1つ以上の赤外線センサから測定データを収集する深度推定ユニットを備えていてもよい。別の例として、デバイスは、画像中のオブジェクトの深度を推定する、光検出および測距(LIDAR)ユニットのような、アクティブプロービングセンサを備えていてもよい。LIDARユニットは、オブジェクトを投影するために紫外線、可視光線または赤外線を使用して、戻ってきた信号を処理し、オブジェクトに対する深度を推定してもよい。これらの深度推定ユニットは、画像中のオブジェクトの深度を推定するために、単独で、または、互いに任意の組み合わせで使用されてもよい。深度推定ユニットは、ユニットが、カメラからの画像データを実際に処理することなく、カメラによって取り込まれた画像中のオブジェクトに対する深度を決定できるように、画像を取り込むカメラと実質的に同時に動作してもよい。
デバイスは、推定したオブジェクトスケールとともに、例えば、画像、および、デバイスの追加のセンサに基づいて、さまざまなファクタに関係付けるコンフィグレーションデータを備えていてもよい。例えば、コンフィグレーションデータは、特定の開始オクターブおよびスケールをオブジェクトに対するさまざまなロケーションセル(または、“ロクセル(loxel)”)(すなわち、オブジェクトが生じるロクセル)にマッピングしてもよい。例として、使用量統計は、所定のロクセル中でオブジェクトが生じるときに、開始スケールおよび/またはオクターブとともに、後続するスケールおよび/またはオクターブを決定するために、最も可能性の高いスケールおよび/またはオクターブに対する推定を提供してもよい。言い換えると、いくつかの例では、本開示の技術は、オブジェクトが生じるロクセルに基づいて、オブジェクトに対する開始オクターブおよび/またはスケール(とともに、後続するオクターブ)を選択してもよい。
いくつかの例では、キーポイント分布を使用して、オブジェクトに対するスケールを推定してもよい。キーポイントは、一般的に、特徴記述子を生成させるために使用できる画像のエリアである。一般的に、比較的大きなスケールにおいて検出されたキーポイントは、オブジェクトの比較的大きな特徴に対応する。同様に、画像解像度が減少するにつれて、より細かいディテールを認識することがより困難になる。それゆえ、より大きな解像度に対してより大きなスケールで検出されるディテールは、典型的に、より小さな解像度に対してより低いスケールで検出される(したがって、より細かいディテールになる)。スケール空間にわたるキーポイントの分布を示す統計を収集することができ、統計は、画像の倍率を推定するために使用されてもよい。前のオクターブに対して検出されたキーポイントを使用して、制御ユニットは、問い合わせ(クエリ)画像のオブジェクトに対するスケールを推定し、推定したスケールを使用して、サーチする特徴記述子のデータベースの最低オクターブを選択してもよい。すなわち、制御ユニットは、最低オクターブ以上であって、最低オクターブよりも低くないオクターブにおける特徴記述子のみをデータベースに問い合わせさせてもよい。
いくつかのケースでは、デバイスのカメラは継続的に画像を取り込んでもよく、プロセッサ、または、オブジェクト認識のための他のユニットは、取り込んだ画像のすべて、または、取り込んだ画像のうちのサブセットの中でオブジェクトを検出しようと試行してもよい。いくつかのケースでは、プロセッサは、先の画像のうちの1つの中でオブジェクトスケールの近似に到達してもよい。本開示の技術は、例えば、ユーザが移動して、画像トラッカーが前もって獲得したターゲットを見失った後に、前のピクチャに対する前もって決定されたオブジェクトスケール情報を使用して、現在の画像に対するオブジェクトスケールの推定を初期化してもよい。
一般的に、オブジェクト認識に対して、特徴記述子のセットおよび他の差別的な情報のデータベースが、トレーニング画像から導出される。その後、特徴記述子が、ターゲット画像から抽出され、データベースに問い合わせて、所定の問い合わせ画像のコンテンツを評価するために使用される。拡張現実感または視覚探索アプリケーションに対して、クライアント(例えば、セル電話機)は、対象のオブジェクトの画像を取り込み、画像、特徴およびメタデータ情報のデータベースとそれを比較する。このデータベースは、ネットワーク上のサーバ上に記憶されることができ、局所的な処理のために、または、代替的に、クライアントによって取り出すことができ、問い合わせは、サーバに送信されて、ネットワークリソースを使用して処理されることができる。本開示の技術は、一般的に、キーポイントのローカリゼーションおよび特徴記述子の抽出を実行するスケール不変特徴変換(SIFT)アルゴリズムに関して記述されている。各SIFT特徴は以下の属性を有していてもよい:2D(x,y)特徴ロケーション、特徴が検出されるスケール、特徴の近隣(feature neighborhood)における最も強い画像勾配の特徴により与えられる特徴の回転方向、および、判別法(discriminating way)で局所的なピクセル変化を、本質的には局所的な画像勾配のヒストグラムを記述するベクトル。
キーポイント識別および記述子抽出は、計算的に要求が厳しい。例えば、典型的なハーフサイズビデオグラフィックアレイ(HVGA)画像は、数千のSIFT特徴を生成させることができる。反復マッチングプロセスを含むSIFTアルゴリズムの実現は、いくつかの移動体プラットフォーム上で利用可能な計算のリソースを上回ることになる。しかしながら、最も現実的なケースでは、データベース中の特徴記述子とのマッチにつながる実際の特徴記述子の数は、実際に計算される特徴記述子の数よりもはるかに少ない傾向がある。つまり、計算された特徴記述子のセットのうちの、小さなサブセットがオブジェクト識別結果をもたらしてもよい。これは、最終的に少数のみがデータベース中の特徴とマッチするように特徴記述子に影響する、問い合わせ画像中の異なる画像化条件(例えば、照度、遠近感等)によっていくぶん引き起こされるかもしれない。本開示の技術は、スケール空間中のキーポイント間での相互関係を活用し、記述子抽出およびマッチングプロセスにより課せられる計算的な負荷を減少させるように支援してもよい。また、所定のシーン内に複数のオブジェクトを認識/追跡するとき、偽陽性は、特にいくつかのオブジェクトが類似している場合に問題を引き起こすことになる。いくつかの例では、これらの技術は、偽陽性を低減させるためにマッチングを制約する、シーンの大まかで相対的な深度マップの計算を含んでいてもよい。
図1は、インクリメントな特徴記述子抽出に対する技術を適用できる例示的なシステム2を図示しているブロックダイヤグラムである。この例では、システム2は、ネットワーク40を介して通信する、クライアントデバイス10およびサーバデバイス50を備える。クライアントデバイス10は、この例では、ラップトップ、ネットブックと呼ばれるもの、タブレットコンピュータ、パーソナルデジタルアシスタント(PDA)、(“スマートフォン”と呼ばれるものを含む)セルラもしくは移動電話機もしくはハンドセット、グローバルポジショニングシステム(GPS)デバイス、デジタルカメラ、デジタルメディアプレイヤ、ゲームデバイス、または、サーバデバイス50と通信することが可能な他の任意の移動デバイスのような、移動デバイスを表す。本開示では、移動クライアントデバイス10に関して記述されているが、本開示中で記述されている技術は、この点に関して移動クライアントデバイスに限定されるべきではない。代わりに、技術はローカルオブジェクトデータベースを記憶することが可能な、および/または、ネットワーク40または他の任意の通信媒体を介してサーバデバイス50と通信することが可能な任意のデバイスにより実現されてもよい。
サーバデバイス50は、接続、例えば、伝送制御プロトコル(TCP)接続を受け入れ、問い合わせデータを受信して、識別データを提供するTCPセッションを形成するために、それ自体のTCP接続により応答するサーバデバイスを表す。サーバデバイス50は、サーバデバイス50が、画像内の1つ以上の特徴またはオブジェクトを識別する視覚探索アルゴリズムを実行、または、そうでなければ実現する、視覚探索サーバデバイスを表してもよい。
ネットワーク40は、クライアント10およびサーバデバイス50を相互接続する、インターネットのような、パブリックネットワークを表す。通常、ネットワーク40は、オープンシステム相互接続(OSI)モデルのさまざまなレイヤを実現して、クライアントデバイス10とサーバデバイス50との間の通信またはデータの転送を促進する。ネットワーク40は、典型的に、スイッチ、ハブ、ルータ、サーバのような、クライアントデバイス10とサーバデバイス50との間のデータの転送を可能にする任意の数のネットワークデバイスを含む。単一のネットワークとして示されているが、ネットワーク40は、ネットワーク40を形成するために相互接続されている1つ以上のサブネットワークを備えていてもよい。これらのサブネットワークは、ネットワーク40全体を通してデータの転送を提供するための、サービスプロバイダネットワーク、アクセスネットワーク、バックエンドネットワーク、または、通常パブリックネットワーク中で用いられる他の任意のタイプのネットワークを含む。この例では、パブリックネットワークとして記述されているが、ネットワーク40は、一般的に公共でアクセス可能ではないプライベートネットワークを含んでもよい。
図1の例の中で示されているように、クライアントデバイス10は、カメラ12、センサ14、制御ユニット20、ローカルオブジェクトデータベース30およびネットワークインターフェース32を備える。制御ユニット20は、この例では、特徴抽出ユニット22、スケール推定ユニット24、および、深度情報ユニット26を備える。いくつかの例では、制御ユニット20はまた、サーバデバイス50の特徴マッチングユニット62および信頼評価ユニット64に類似するユニットを備える。例示の目的のために、これらのユニットは、サーバデバイス50に関して論じられるが、類似したユニットがクライアントデバイス10の制御ユニット20内に含まれていてもよいことを理解すべきである。
制御ユニット20および制御ユニット60ならびにこれらのサブユニットに帰する機能性は、ハードウェア、ソフトウェアおよび/またはファームウェアの任意の組み合わせにより実現されてもよい。制御ユニット20に帰する1つ以上の機能が、ソフトウェアまたはファームウェアで実現されるとき、制御ユニット20は、ソフトウェアに対する命令を記憶する1つ以上のコンピュータ読取可能記憶媒体とともに、ソフトウェアを実行する1つ以上のハードウェアベースの処理ユニットを備えていてもよい。処理ユニットは、1つ以上の汎用プロセッサを備えていてもよい。制御ユニット20および制御ユニット60は、1つ以上のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、または、他の同等な集積または離散論理回路のような、1つ以上のハードウェアユニットを追加的にまたは代替的に備えていてもよい。制御ユニット20および制御ユニット60に帰する機能性のうちのいくつかまたはすべては、それらの、任意のそれぞれのハードウェア、ソフトウェアまたはファームウェアにより実行されてもよい。したがって、図1の例では、制御ユニット20および60内に別々のユニットが図示されているが、実際には、これらのような別々のユニットは、任意の妥当な方法で組み合わせられてもよい。
カメラ12は、例えば、行および列で構成された、個々の画像センサエレメントの2次元アレイを含んでもよい。カメラ12は、例えば、相補的金属酸化膜半導体(CMOS)センサのような、ソリッドステートセンサエレメントまたは他のセンサエレメントのアレイを備えていてもよい。カメラ12内の画像センサエレメントは、シーンから光情報を取得し、シーンのデジタル画像を取り込むためにシーンにさらされている。デジタル画像は、ピクセル値の2次元行列を含んでいてもよく、ピクセル値の2次元行列は、例えば、赤−緑−青の値を有する、または、ピクセル輝度(強度もしくは明るさ)値ならびにピクセルクロミナンス(カラー)値を有する、特定のカラー空間中に規定されてもよい。
センサ14は、情報を制御ユニット20に提供する1つ以上の環境センサを備える。制御ユニット20は、この情報を使用して、カメラ12により取り込まれた画像中のオブジェクトのスケールを予想してもよい。いくつかの例では、センサ14は、グローバルポジショニングシステム(GPS)衛星と対話して、クライアントデバイス10の地理的ロケーションを決定する、GPSユニットを備えていてもよい。GPSユニットはまた、画像が取り込まれたときにカメラ12が向けられていた方位の指示を提供する。制御ユニット20は、このロケーションおよび方位情報を使用して、カメラ12の照準線上にある可能性がある潜在的なオブジェクトにサーチを限定してもよい。
例えば、遠隔オブジェクトデータベース52は、遠隔オブジェクトデータベース52のオブジェクトに対する地理的ロケーションを記憶してもよい。センサ14のGPSユニットがカメラ12の地理的ロケーションおよび方位を決定するとき、制御ユニット20は、カメラ12の照準線上にある地理的ロケーションを有するデータのサブセットを遠隔オブジェクトデータベース52から取り出して、取り出したデータをローカルオブジェクトデータ30として記憶させる。特徴抽出ユニット22はその後、画像から特徴記述子を抽出して、抽出した特徴記述子によりローカルオブジェクトデータベース30に問い合わせてもよい。
別の例として、特徴抽出ユニット22は、地理的ロケーション方位を使用して、カメラ12の照準線上にあるオブジェクトの最初のスケールを予想してもよい。例えば、遠隔オブジェクトデータベース52は、センサ14のGPSユニットによって決定されたクライアントデバイス10のロケーションに基づいて、クライアントデバイス10の近くの地理的ロケーションにおけるオブジェクト、および、カメラ12の照準線上にあるオブジェクトに対する最も可能性の高いスケールを記憶してもよい。特徴抽出ユニット22はその後、遠隔オブジェクトデータ52に問い合わせために、この最初のスケールを使用して、特徴記述子を初めに抽出し、ネットワーク40を介してサーバデバイス50に問い合わせを送ってもよい。問い合わせは、いくつかの例では、特徴記述子に加えて、ロケーション情報を含んでもよい。
センサの他の例は、例えば、温度センサ、圧力センサ(例えば、気圧センサ)、光センサ、赤外線センサ、紫外線センサ、湿度センサ、二酸化炭素(CO2)センサ、あるいは、これらのような他の環境センサを含んでもよく、これらのうちのいくつかまたはすべては、それぞれの感知した値に対して値を提供してもよい。制御ユニット20は、屋内および屋外環境を示す、これらのセンサのうちのいくつかまたはすべてに対するデータ領域を含んでもよい。制御ユニット20は、センサのうちのいくつかまたはすべてに対する現在の値を対応するデータ領域と比較して、カメラ12が問い合わせ画像を取り込んだときに、クライアントデバイス10が屋内または屋外にあったかを決定してもよい。
特徴抽出ユニット22は、スケール不変特徴変換(SIFT)アルゴリズム、勾配の圧縮ヒストグラム(CHoG)アルゴリズム、または、他のキーポイントもしくは特徴記述子抽出アルゴリズムのような、特徴抽出アルゴリズムにしたがって、特徴抽出を実行するユニットを表す。一般的に、特徴抽出ユニット22は、カメラ12、または、クライアントデバイス10内に備えられている他の画像取り込みデバイスを使用して局所的に取り込まれてもよい画像データについて動作する。代替的に、クライアントデバイス10は、例えば、ネットワーク40を介して、別のコンピューティングデバイスとのワイヤード接続を介して局所的に、または、接続の他の任意のワイヤードまたはワイヤレス形態を介して、画像データをダウンロードすることにより、この画像データ自体を取り込まずに、画像データを記憶させてもよい。
スケール推定ユニット24は、例えば、カメラ12により取り込まれた問い合わせ画像中のオブジェクトに対するスケールを推定するユニットを表す。例えば、スケール推定ユニット24は、画像に対するさまざまなスケールからの実際のキーポイント分布と比較して、(例えば、トレーニング画像のセットから導き出された)さまざまなスケールから予期されるキーポイントの分布に基づいて、問い合わせ画像中のオブジェクトに対するスケールを推定してもよい。特徴抽出ユニット22は、画像に対する前のオクターブに対してのキーポイントを抽出し、スケール推定ユニット24にこれらのキーポイントを提供し、スケール推定ユニット24は、これらのキーポイントを使用し、コンフィグレーションデータを使用して、問い合わせ画像中のオブジェクトに対するスケールを予想してもよい。推定したスケールを使用して、スケール推定ユニット24は、サーチするデータベース(例えば、ローカルオブジェクトデータベース30および/または遠隔オブジェクトデータベース52のうちのいずれか、または、双方)の最低オクターブを計算してもよい。
スケール推定ユニット24は、さまざまなスケールに対するキーポイント分布を記述するコンフィグレーションデータを記憶してもよい。スケール推定ユニット24はその後、問い合わせ画像に対するキーポイントの分布をコンフィグレーションデータの分布と比較してもよい。スケール推定ユニット24はその後、問い合わせ画像中のオブジェクトに対するおおよそのスケールを、最良のマッチングキーポイント分布を有するスケールとして決定する。すなわち、スケール推定ユニット24は、さまざまなスケールにおける、問い合わせ画像に対するキーポイント分布を表す値を決定し、それらの値を、コンフィグレーションデータのさまざまなスケールのキーポイント分布に対して予期される値とを比較してもよい。スケール推定ユニット24は、問い合わせ画像からのキーポイント分布値が、対応するスケールに対してコンフィグレーションデータから推定されたキーポイント分布値に最もよくマッチするスケールとして、オブジェクトのスケールを予想してもよい。
本開示の技術にしたがって、特徴抽出ユニット22は、問い合わせ画像に対する推定されたスケールに対応するオクターブにおいて開始してもよい。すなわち、特徴抽出ユニット22は、推定されたスケールに対応するオクターブに対する特徴記述子を、そのオクターブから抽出したキーポイントを使用して抽出してもよい。その後、制御ユニット20は、問い合わせ画像中のオブジェクトのアイデンティティが、それらの特徴記述子のみを使用して決定できるか否かを決定し、決定できない場合は、後続するオクターブに対する特徴記述子を抽出するように進めてもよい。
深度推定ユニット26は、一般的に、カメラ12により取り込まれた画像中の1つ以上のオブジェクトに対する深度を推定するように構成されている。深度推定ユニット26は、飛行時間センサ、構造光センサまたはキネクト(Kinect)のような、深度センサを備えていてもよい。いくつかの例では、クライアントデバイス10は、例えば、3次元の画像および/またはビデオデータを取り込むために、2つ以上のカメラを有するカメラアレイを備えていてもよい。このような例では、深度推定ユニット26は、カメラアレイにより取り込まれた画像中のオブジェクトに対する深度情報を計算するように構成されていてもよい。例えば、深度推定ユニット26は、カメラアレイにより取り込まれたシーンのうちの2つ以上の画像を受け取ってもよい。画像の類似したピクセルの水平ロケーションを比較することにより、深度推定ユニット26は、画像間の類似したピクセルの水平格差(すなわち、視差)を計算し、この格差に基づいて、ピクセルに対応するオブジェクトの深度を決定してもよい。深度推定ユニット26は、1つ以上の深度値(例えば、深度マップ)を特徴抽出ユニット22に送ってもよく、特徴抽出ユニット22は、特定記述子を抽出する開始オクターブを決定するときに、深度値を使用してもよい。
いくつかの例では、デバイスは、深度推定ユニットを備えている必要はなく、本開示の特定の技術は依然として動作可能であってもよい。しかしながら、デバイスが、深度推定ユニット26のような深度推定ユニットを備えるとき、デバイスは、特徴が計算されるオクターブと、オクターブが処理される順序とを選択するために、深度情報を使用するように構成されていてもよい。例えば、カメラ12が、比較的大きなオブジェクトに直接(すなわち、正面から)向かい合って場合に、オブジェクトに対応するピクセルは、一般的に、クライアントデバイス10からの同じ距離において生じてもよい。このような情報は、いくつかの例では、最も価値あるキーポイントが見つかることになるだろうスケールを決定するために使用されてもよい。加えて、または、代替として、深度情報は、最も価値あるキーポイントが見つかるスケールを決定するために、信頼値に加えて使用できる。同様に、いくつかの例では、オブジェクトが、カメラに対して斜めに置かれている場合に、オブジェクト中の、最も近いポイントと最も遠いポイントとの間の深度差は、最も価値あるキーポイントが見つかるスケールの領域を識別するために使用することが可能である。この方法では、深度情報は、画像中のオブジェクトに対するスケール値を推定するために、少なくとも一部使用されてもよい。
以下で説明するように、ネットワークインターフェース32は、ワイヤレスネットワークインターフェースを含んでいてもよい。ネットワークインターフェース32が、ワイヤレスネットワークインターフェースを含むとき、ワイヤレスネットワークインターフェースは、IEEE802.11標準規格(例えば、802.11a/b/g/n)、第3世代移動体電気通信(3G)標準規格、第4世代電気通信標準規格(モバイルワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(モバイルWiMAX(登録商標))、3Gロングタームエボリューション(LTE)、LTEアドバンスド、ワイヤレスMAN−アドバンスド(IEEE802.16)を含んでもよい)、または、他のワイヤレスネットワークプロトコルのうちの1つ以上のもののような、1つ以上のワイヤレスネットワークプロトコルを実現してもよい。一般的に、ワイヤレスネットワークが利用可能な場合、制御ユニット20は、クライアントデバイス10が屋内にある可能性が非常に高いことを決定してもよい。クライアントデバイス10が屋内にあるとき、制御ユニット20は、カメラ12により取り込まれた画像中のオブジェクトのサイズが比較的小さい可能性が高いことを決定してもよい。したがって、特徴抽出ユニット22は、問い合わせ画像に対する特徴記述子を抽出する開始オクターブを決定する際のファクタとして、ワイヤレスネットワークが利用可能であるか否かを取り扱うように構成されていてもよい。
図1の例では、クライアントデバイス10がローカルオブジェクトデータベース30を記憶する一方で、サーバデバイス50は遠隔オブジェクトデータベース52を記憶する。クライアントデバイス10は、ネットワーク40を介して、サーバデバイス50から、ローカルオブジェクトデータベース30に対するデータを取り出してもよい。したがって、ローカルオブジェクトデータベース30は、遠隔オブジェクトデータベース52のすべてまたは一部を表してもよい。いくつかの例では、ローカルオブジェクトデータベース30は、遠隔オブジェクトデータベース52からのデータとともに、(図1中には示されていない)他のサーバデバイスの他の遠隔オブジェクトデータベースからのデータを含んでもよい。一般的に、本開示の技術は、画像中のオブジェクトのアイデンティティを決定するために、ローカルオブジェクトデータベース30および/または遠隔オブジェクトデータベース52のうちのいずれかまたは双方を問い合わせる。
以下でより詳細に記述されるように、特徴抽出ユニット22は、一般的に、オリジナル画像に基づいてフィルタリングされた画像のさまざまなセットからキーポイントを抽出してもよい。いくつかの例では、オリジナル画像はガウシアンフィルタを使用してフィルタリングされ、ガウシアンぼかし画像のセットが生成されてもよい。さまざまなフィルタリング技術が適用されてもよいことを理解すべきである一方、本開示は、主に、例としてガウシアンフィルタに的を絞っている。しかしながら、他の類似したフィルタリング技術も、本開示の技術から逸脱することなく適用されてもよい。一般的に、1つのセット中のフィルタリングされた画像のそれぞれは、(例えば、ピクセル解像度の点から)類似したサイズを有していてもよく、ここで、セット中の各画像は、漸進的にさらにフィルタリングされてもよい。セットのそれぞれは、“オクターブ”と呼ばれてもよい。ガウシアンぼかしは、一般的に、規定されたスケールにおいて、特定のオクターブに対する画像データとガウシアンぼかし関数の畳み込みをとることを含む。特徴抽出ユニット22は、インクリメントに画像データの畳み込みをとってもよく、ここで、可変シグマ(σ)により参照される固定乗法的因子(fixed multiplicative factor)は、オクターブ内の結果としてのガウシアンフィルタをインクリメントさせる。特徴抽出ユニット22は、特定のオクターブに対して、ガウシアンぼかし画像のそれぞれを有する、“ガウシアンピラミッド”と呼ばれるものを形成してもよい。特徴抽出ユニット22は、その後、ピラミッド中の連続してスタックされた2つのガウシアンぼかし画像を比較して、ガウシアンの差分(DoG)画像を発生させる。DoG画像は、“DoG空間”と呼ばれるものを形成してもよい。
このDoG空間に基づいて、特徴抽出ユニット22は、キーポイントを検出してもよく、ここで、キーポイントは、幾何学的な観点から潜在的に関心がある画像データ中の、特定のサンプルポイントまたはピクセルの周りの、ピクセルの領域またはパッチのことを指す。一般的に、特徴抽出ユニット22は、構築されたDoG空間中の局所的な最大値および/または局所的な最小値として、キーポイントを識別する。特徴抽出ユニット22は、その後、キーポイントが検出されたパッチに対する局所的な画像勾配の方位に基づいて、1つ以上の方向、すなわち方位をこれらのキーポイントに割り振ってもよい。これらの方向を特徴付けるために、特徴抽出ユニット22は、勾配方向ヒストグラムに関して方向を規定してもよい。特徴抽出ユニット22は、その後、ロケーションおよび(例えば、勾配方向ヒストグラムによる)方向として特徴記述子を規定してもよい。特徴記述子を規定した後、特徴抽出ユニット22は、例えば、特徴記述子によりローカルオブジェクトデータベース30または遠隔データベース52に問い合わせることにより、特徴記述子を出力してもよい。特徴抽出ユニット22は、このプロセスを使用して、特徴記述子のセットを出力してもよい。
ネットワークインターフェース32は、ワイヤレスインターフェースおよびワイヤードインターフェースを含む、ネットワーク40を介してサーバデバイス50と通信することができる任意のタイプのインターフェースを表す。ネットワークインターフェース32は、ワイヤレスセルラインターフェースを表してもよく、ワイヤレスセルラネットワークを介してネットワーク40と、ネットワーク40を介してサーバデバイス50と通信するための、アンテナ、変調器およびこれらに類するもののような、必要なハードウェアまたは他のコンポーネントを含む。この例では、図1の例中では示されていないが、ネットワーク40は、ワイヤレスセルラネットワークインターフェース32がネットワーク40と通信するワイヤレスセルラアクセスネットワークを含む。図1中には図示されていないが、クライアントデバイス10はさらに、ディスプレイ、例えば、オブジェクトアイデンティティが決定されている画像データ、または、他の任意のタイプのデータのような、画像を表示することができる任意のタイプのディスプレイユニットを備えていてもよい。ディスプレイは、例えば、発光ダイオード(LED)ディスプレイデバイス、オーガニックLED(OLED)ディスプレイデバイス、液晶ディスプレイ(LCD)デバイス、プラズマディスプレイデバイス、または、他の任意のタイプのディスプレイデバイスを含んでもよい。
サーバデバイス50は、ネットワークインターフェース54、遠隔オブジェクトデータベース52および制御ユニット60を備える。制御ユニット60は、この例では、特徴マッチングユニット62および信頼評価ユニット64を備える。ネットワークインターフェース54は、ネットワーク40のようなネットワークと通信することができる任意のタイプのインターフェースをネットワークインターフェース54が表している点で、クライアントデバイス10のネットワークインターフェース32に類似しているかもしれない。特徴マッチングユニット62は、クライアントデバイス10から受信した特徴記述子に基づいて、画像データ中の1つ以上の特徴またはオブジェクトを識別するために、特徴マッチングを実行するユニットは表す。
特徴マッチングユニット62は、この特徴識別を実行するために、遠隔オブジェクトデータベース52にアクセスしてもよく、ここで、遠隔オブジェクトデータベース52は、特徴記述子を規定するデータを記憶し、受信した特徴記述子のうちの少なくともいくつかを、画像データから抽出された対応する特徴またはオブジェクトを識別する識別データに関係付ける。信頼評価ユニット64は、受信した特徴識別子に対応するとして識別されたオブジェクトが、画像データ中のオブジェクトの実際のアイデンティティであるという信頼を表す信頼値を決定する。
遠隔オブジェクトデータベース52中に記憶されているオブジェクトは、複数の特徴記述子を含んでいてもよく、クライアントデバイス10から受信した特徴記述子は、遠隔オブジェクトデータベース52中のオブジェクトの特徴記述子のサブセットのみにマッチしてもよい。一般的に、信頼値は、受信した特徴記述子と、対応するオブジェクトに関係する特徴記述子との間のマッチ間の対応を表す。したがって、より大きい信頼値は、受信した特徴記述子が、遠隔オブジェクトデータベース52により記憶されているオブジェクトの相対的に多数の特徴記述子にマッチすることを反映してもよい一方で、より小さい信頼値は、受信した特徴記述子が、遠隔オブジェクトデータベース52により記憶されているオブジェクトの相対的に少数の特徴記述子にマッチすることを反映してもよい。
クライアントデバイス10から受信した特徴記述子に対するオブジェクトのアイデンティティを決定した後に、特徴マッチングユニット62は、決定したアイデンティティを表す識別データを提供する。同様に、信頼評価ユニット64は、決定したアイデンティティが、受信した特徴記述子に適切にマッチするという信頼を評価し、対応する信頼値を発生させ、信頼値をクライアントデバイス10に提供する。クライアントデバイス10は、信頼値がしきい値を超えているか否かを決定し、超えていない場合には、画像データに対するさらなるオクターブからの追加の特徴記述子を抽出し、さらなる解析のために、それらの追加の特徴記述子をサーバデバイス50に送ってもよい。
初めに、クライアントデバイス10のユーザは、クライアントデバイス10とインターフェースして、視覚探索を開始させてもよい。ユーザは、ユーザインターフェースと、または、クライアントデバイス10のディスプレイにより示されている他のタイプのインターフェースとインターフェースして、画像データを選択し、その後、1つ以上の特徴を、または、画像データとして記憶されている画像の焦点であるオブジェクトを識別する視覚探索を開始する。例えば、画像データは、一枚の著名な芸術作品の画像に対応していてもよい。ユーザは、クライアントデバイス10のカメラ12を使用して、この画像を取り込んだとしてもよく、ネットワーク40からこの画像をダウンロードしたとしてもよく、または、別のコンピュータデバイスとのワイヤードもしくはワイヤレス通信を介して、画像を局所的に取り込んだとしてもよい。何らかのイベントにおいて、画像データを選択した後に、ユーザは、視覚探索を開始して、この例では、例えば、名称、芸術家および完成日により、一枚の著名な芸術作品を識別してもよい。
視覚探索を開始することに応答して、クライアントデバイス10は、特徴抽出ユニット22を読み出して、画像データの解析を通して見つかった“キーポイント”と呼ばれるもののうちの1つを記述する少なくとも1つの特徴記述子を抽出する。制御ユニット20は、特徴記述子を使用してローカルオブジェクトデータベース30に問い合わせてもよく、および/または、ネットワーク40を介してサーバデバイス50に特徴記述子を送って、特徴記述子を使用して遠隔オブジェクトデータベース52に問い合わせてもよい。いくつかの例では、特徴抽出ユニット22は、特徴記述子を特徴圧縮ユニット(この例には示されていない)に転送し、特徴圧縮ユニットは、ネットワーク40を介しての特徴記述子の送信の前に特徴記述子を圧縮してもよい。サーバデバイス50送られるとき、制御ユニット20は、例えば、TCP/IPパケットのような、ネットワークパケットとして、特徴記述子(カプセル化の前に圧縮されていてもよい)をカプセル化してもよい。
本開示では、開示した技術を実行するように構成されているデバイスの機能的な態様を強調するために、さまざまなコンポーネント、モジュールまたはユニットが記載されているが、これらのユニットは、必ずしも異なるハードウェアユニットによる実現を必要とするわけではない。むしろ、さまざまなユニットは、ハードウェアユニット中で組み合わせられていてもよく、あるいは、コンピュータ読取可能媒体に記憶されている適切なソフトウェアおよび/またはファームウェアとともに、上述した1つ以上のプロセッサを含む相互動作可能なハードウェアユニットの集合によって提供されてもよい。この態様では、本開示中のユニットへの参照は、別々のハードウェアユニット、ならびに/あるいは、ハードウェアおよびソフトウェアユニットとして、実現されてもよく、または、実現されなくてもよい異なる機能ユニットを提案することが意図されている。
上記で論じたように、本開示の技術にしたがった特徴抽出ユニット22は、カメラ12により取り込まれた画像から、特徴記述子をシーケンシャルに抽出するように構成されていてもよい。つまり、特徴抽出ユニット22は、第1のオクターブから特徴記述子を抽出し、それらの特徴記述子を使用して、画像中のオブジェクトのアイデンティティを正確に決定できるか否かを決定し、決定できない場合に、1つ以上の後続するオクターブから特徴記述子を抽出してもよい。さらに、特徴抽出ユニット22にデータを提供してもよい、センサ14、ネットワークインターフェース32、ローカルオブジェクトデータベース30中に記憶されているデータ、スケール推定ユニット24、および/または、深度推定ユニット26のような、クライアントデバイス10のエレメントは、第1および/または後続のオクターブを選択するために使用してもよい。一般的に、上位オクターブは、比較的よりスムーズであり、下位オクターブよりも比較的安定していてもよい。したがって、いくつかの例では、特徴抽出ユニット22は、第1のオクターブが結果を出さなかった場合に、最後のオクターブを試してもよく、最後のオクターブが結果を出さない場合には、より高いオクターブにより後続される。いくつかの例では、オクターブゼロ(0)を試すときにマッチが存在しない場合、データベース中の参照画像は、より高いスケールにおいて存在しているかもしれず、したがって、特徴抽出ユニット22は、特徴抽出のために、より高いオクターブに移動してもよい。
トレーニング画像またはテスト画像からの特徴属性は、特徴生成およびマッチングにおける複雑性を低減させるために使用されてもよい。これらの統計は、特徴抽出プロセス中に含まれているパラメータを初期化するために使用されてもよい。いったん初期化されると、特徴抽出ユニット22は、特徴をインクリメントに抽出し、認識および/または推測を実行し、認識が、画像中のオブジェクトのアイデンティティに関する信頼できる決定に対して十分ではなかった場合に、特徴抽出の次のセットのために、特徴抽出パラメータを更新してもよい。トレーニングデータ(ローカルオブジェクトデータベース30中に記憶されていてもよく、および/または、遠隔オブジェクトデータベース52から取り出されてもよい)と、過去の問い合わせ統計とを使用して、問い合わせ画像中のオブジェクトの認識は、より少ないステップで達成でき、結果として計算を省くことができる。
スケール推定ユニット24は、特徴属性に基づいて、オブジェクトのスケールを識別するように試行してもよい。オブジェクトのスケールは、問い合わせる、データベースの最低オクターブを選択するために使用されてもよい。つまり、特徴記述子をデータベースにサブミットするとき、データベースは、最低オクターブが特定されているときに、最低オクターブ以上であり、最低オクターブより少なくないオクターブをサーチしてもよい。したがって、キーポイントの各セットが抽出された後に、スケール推定ユニット24は、キーポイントの分布を使用して、画像中のオブジェクトに対するスケールを予想してもよく、スケールを使用して、最低オクターブを推定してもよい。以下の図5は、キーポイント分布と対応する最低オクターブとの間の例示的な関係を図示している。データベースの最低オクターブを推定するためのキーポイント分布の使用に関連するさらなる詳細が、図5に関して以下に論じられる。任意のケースでは、特徴記述子のインクリメントな抽出とともに、最低オクターブを使用することは、初めに、より少ない特徴記述子を抽出することと、実際にサーチされるデータベースの量を低減させることとの双方により、相対的により速いサーチを提供してもよい。
深度推定ユニット26は、問い合わせ画像に対する深度値を決定してもよい。例えば、深度推定ユニット26は、問い合わせ画像に対する深度マップを発生させてもよく、ここで、深度マップは、問い合わせ画像中のピクセルまたはオブジェクトに対する深度値を含んでいてもよい。深度マップを使用して、特徴抽出ユニット22は、マッチングまたはトラッキングを制約してもよく、このことは、結果として偽陽性を少なくすることができる。さらに、特徴抽出ユニット22は、特定の深度レベルへのマッチングまたはトラッキングを制限してもよく、このことは、結果として複雑性を低減できる。
この方法で、本開示の技術は、特徴記述子抽出における特定の観測の利益を得てもよい。それらの観測は、初めに、問い合わせ画像中のオブジェクトのスケールが、一般的に、そのキーポイントがスケール空間中でどのように分散されるかを決定してもよいことを含む。より小さいオブジェクトは、スケール空間中でより低いスケールへ圧縮される分布を有する傾向がある。また、画像中の特定の領域が他の領域よりもざらつきがある場合に、結果としてのキーポイントは、それらの安定性の点で異なる傾向がある。同様に、キーポイントにおいてくくられる特徴記述子に対する品質も、それらの安定性の点で異なる。さらに、画像品質は、一般的に、より良い造影条件(例えば、良好な照度)により向上し、このことは、結果として画像からのキーポイントがより多くなってもよい。しかしながら、解像度が相対的に高いときに、それに対するデータが、例えば、ローカルオブジェクトデータベース30および/または遠隔オブジェクトデータベース52中に記憶されているトレーニング画像と比べて、より大きな変化、つまり、より大きなディテールであるために、実際の特徴記述子の数はより少なくなる傾向がある。これらの差分は、異なる照度、遠近感、または、他の写真技術パラメータからの結果であってもよい。
上記で論じたローカルオブジェクトデータベース30および/または遠隔オブジェクトデータベース52は、一般的に、トレーニング画像のセットに対するさまざまなデータを記憶する。このデータは、さまざまなオブジェクトに対する特徴記述子とともに、スケール推定、深度マッピング、および/または、画像中のオブジェクト認識の複雑性を低減する他の技術を支援するデータを含む。例えば、データベースは、画像の所定のロケーションセル(すなわち、“ロクセル”)における特徴記述子をいずれのオクターブおよびスケールから抽出するかを示すデータを記憶してもよい。画像は、ロクセルと呼ばれる2次元行列の領域に分割されてもよい。データベースデータは、オクターブおよびスケールの順序、および/または、マッチング特徴がいずれのオクターブおよびスケールに典型的に属するかについてのサイド情報を含んでもよい。データベースはまた、所定のロクセル内にうまくマッチする可能性が最も高いスケールまたはオクターブを記述する使用量統計を記憶してもよい。
いくつかの例では、データベースは、画像スケール推定に基づくキーポイント分布を記憶してもよい。データベースはまた、いくつかの例では、センサベースのロケーション情報に対応するデータを記憶してもよく、センサベースのロケーション情報は、特徴抽出において供給するスケールおよびオクターブパラメータを初期化するために使用されてもよい。例えば、制御ユニット20は、センサ14からGPS情報を使用して、問い合わせ画像が屋外環境のものであることを決定してもよく、データベースは、問い合わせ画像が取り込まれるときに、クライアントデバイス10の地理的ロケーションに対するオブジェクトのロケーションについての情報を記憶してもよい。制御ユニット20は、ワイヤレスネットワークが利用可能であるか否かを決定することのような屋内ポジショニング技術に基づいて、問い合わせ画像が屋内環境であることを決定してもよい。ステレオカメラは、問い合わせ画像中のオブジェクトの深度を推定するために使用されてもよく、オブジェクトの深度は、オクターブ選択を初期化する際に支援してもよい。カメラ内部パラメータ(例えば、焦点距離、、、主点、画像フォーマット)を使用して、オブジェクトに対する深度を推定してもよい。いくつかの例では、内部パラメータは、希薄な深度マップに対してアプリオリに構成される必要はない。いくつかの例では、制御ユニット20は、例えば、8点アルゴリズムを使用して、特徴対応から内部パラメータおよび外部パラメータを計算してもよい。一般的に、8点アルゴリズムは、ステレオ画像対に対する本質的な行列または基礎となる行列を計算するために、ステレオ画像対中の8個の対応するポイントを使用することを含む。
いくつかの例では、制御ユニット20は、特徴抽出を実行する最初のスケールまたはオクターブを決定するために、履歴データを使用するように構成されていてもよい。例えば、制御ユニット20により実行される(示されていない)トラッカーは、カメラ12により取り込まれた画像中のオブジェクトに対する深度またはスケールを決定する。トラッカーがターゲットを見失った場合、制御ユニット20は、より新しい画像中のオブジェクトに対するスケールを決定するときに、追跡したターゲットのスケールについての1番最近の“良好な”情報を使用してもよい。
上述したデータのうちのいくつかまたはすべてを使用して、制御ユニット20は、問い合わせ画像中のオブジェクトのアイデンティティを決定するように構成されていてもよい。例えば、特徴抽出ユニット22は、初めに、好ましいオクターブおよびスケールのセットを選択し、好ましいオクターブおよびスケールのセットに対する特徴記述子を抽出してもよい。特徴抽出ユニット22は、必要とされるときに、スケール空間中に次のオクターブを漸進的に追加してもよく、このことは、プロセスを早まって終了させるリスクなしで、オブジェクト認識プロセスの早い終了を可能にしてもよい。オクターブおよびスケールのセットに対するプリファレンスは、ローカルオブジェクトデータベース30および/または遠隔オブジェクトデータベース52からのデータから、ならびに/あるいは、トラッカーからの問い合わせ統計から、取り出すことができる。スケール推定ユニット24は、キーポイント抽出の各反復の後に、累積のしきい値統計を使用して、オブジェクトのスケールを推定してもよく、これはまた、データベースのデータを使用して精錬されてもよい。さらに、推定されたスケールは、センサ14からのデータ、深度推定ユニット26により決定された深度情報、または、他のデータのような、追加の入力に基づいて精錬されてもよい。
本開示の技術は、1つ以上の利点を提供してもよい。例えば、これらの技術は、例えば、SIFTに対して、SIFTが別の方法で達成するだろうものよりも、より速い特徴記述子の局所的な抽出を提供してもよい。これらの技術は、処理に対するスケール空間レベル(例えば、オクターブレベル)の最も適切なサブセットの推定を可能にしてもよく、このことは、オブジェクト認識のスピードおよび複雑性を向上させてもよい。これらの技術はさらに、クライアントデバイス10(例えば、移動電話機)のローカルオブジェクトデータベース30中をより速くサーチすることを可能にしてもよい。つまり、これらの技術は、初めに、上位レベルからの特徴記述子抽出を、そして、十分な正確度に到達するときにアルゴリズムを終了させることを可能する。この方法では、図1のシステム2のような、分配された視覚探索システムにおける比較的短い応答とすることができる。特徴記述子は、初めに、上位レベルで開始して、ネットワーク40を介して、サーバデバイス50に漸進的に送信されてもよく、サーバデバイス50は、受信したデータについてのサーチのいくつかの反復を実行して、いったん十分な正確なマッチがみつかると、結果をまたは終了信号を送り返してもよい。クライアントデバイス10は、サーチの結果または終了信号を受信した後に、サーバデバイス50に特徴記述子を送ることを終了してもよい。
本開示の技術はまた、トラッキングの複雑性を低減させて、スピードを向上させてもよい。いったん画像中のオブジェクトが認識されると、その関連するスケールも同様に既知になってもよい。トラッカーがオブジェクトを見失った場合、次のサーチ動作は、以前に追跡されていたオブジェクトのスケールを使用して簡略化されてもよい。これらの技術は、推定されたスケールを使用して、キーポイントのクラスタ化に対するカーネルサイズを初期化し、その後、関連する深度マップ推定に基づいて、セグメント化を実行してもよい。
この方法で、クライアントデバイス10は、プロセッサを備えるデバイスの例を表す。プロセッサは、受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットを抽出し、キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを計算し、記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を受信し、結果は、受信した画像中のオブジェクトのアイデンティティを記述する情報を含み、信頼値が信頼しきい値を超えないときに、受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを抽出するように構成されている。
図2は、キーポイント抽出において使用するために決定されているガウシアンの差分(DoG)ピラミッド104を図示している概念図である。図2の例は、ガウシアンピラミッド102および対応するDoGピラミッド104中の画像のセット100を図示しており、ここで、セット100は、第1の選択されたオクターブ、ならびに、ガウシアンピラミッド122および対応するDoGピラミッド124中の画像の第2のセット120に対応し、セット120は、第2のオクターブに対応する。この開示の技術にしたがうと、制御ユニット20は、セット100に対するデータを使用して識別されたオブジェクトが、しきい値を下回る信頼値を生じさせるときに、セット120に対してデータを発生させるように構成されていてもよい。
図1の特徴抽出ユニット22は、ガウシアンピラミッド102中の任意の2つの連続するガウシアンぼかし画像の差分を計算することにより、DoGピラミッド104を構築してもよい。図1の例の中の特徴抽出ユニット22によってカメラ12から受け取られたかもしれない入力画像I(x,y)は、ガウシアンピラミッド102を構築するために、段階的にガウシアンぼかしされる。ガウシアンぼかしは、一般的に、ガウシアンぼかし関数L(x,y,c)がL(x,y,c)=G(x,y,c)*I(x,y)として規定されるように、スケールcにおいてオリジナル画像I(x,y)とガウシアンぼかし関数G(x,y,c)の畳み込みをとるプロセスを含む。ここで、Gは、ガウシアンカーネルであり、cは、画像I(x,y)をぼかすために使用される、ガウシアン関数の標準偏差を示す。cが変化するにつれて(c0<c1<c2<c3<c4)、標準偏差cは変化し、段階的なぼかしが取得される。シグマは、ベーススケール変数(本質的には、ガウシアンカーネルの幅)である。最初の画像I(x,y)がインクリメントにガウシアンGと畳み込まれ、ぼかし画像Lを生成させるとき、ぼかし画像Lは、スケール空間中で定数因子cにより分離される。SIFTの例では、ガウシアンカーネルは、スケール空間を発生させるために使用されてもよい。いくつかの例では、代替的な、ローパスカーネルを使用して、スケール空間、例えば、直方体関数、三角関数または他のこのような関数を発生させてもよい。
DoG空間またはピラミッド104では、D(x,y,a)=L(x,y,cn)−L(x,y,cn-1)である。DoG画像D(x,y,)は、スケールcnおよびcn-1における2つの近接するガウシアンぼかし画像L間での差分である。D(x,y,)のスケールは、cnとcn-1との間のどこかに存在する。ガウシアンぼかし画像Lの数が増加し、ガウシアンピラミッド102に対して提供された近似が連続空間に近づくにつれて、2つのスケールも1つのスケールに近づく。畳み込みまれた画像Lは、オクターブによりグループ化されてもよく、ここで、オクターブは、標準偏差の値の倍加に対応する。さらに、畳み込まれた画像Lの固定数がオクターブ毎に取得されるように、乗数kの値(例えば、c0<c1<c2<c3<c4)が選択される。その後、DoG画像Dは、オクターブ毎の近似ガウシアンぼかし画像Lから取得されてもよい。
本開示の技術にしたがうと、所定のオクターブに対して画像Dが取得された後に、特徴抽出ユニット22は、オクターブに対するキーポイントを抽出し、それらの抽出したキーポイントに対する特徴記述子を決定してもよい。現在のオクターブ(および任意の以前のオクターブ)に対する特徴記述子は、画像中のオブジェクトのアイデンティティを決定するように試行するために使用されてもよい。オブジェクトのアイデンティティが決定された後に、制御ユニット20は、決定されたアイデンティティに対する信頼値を取得してもよい。信頼値がしきい値より小さい場合に、特徴抽出ユニット22は、後続のオクターブに進んでもよく、後続のオクターブに対する追加の特徴記述子を決定し、再び、画像中のオブジェクトのアイデンティティを決定するように試行する。その一方で、信頼値がしきい値を超えるときは、特徴抽出ユニット22は、後続するオクターブへ進む必要はない。下記でより詳細に記述するように、制御ユニット20は、例えば、画像中のオブジェクトに対して予想されたスケール、問い合わせ画像が屋内または屋外環境で取り込まれたかを示すセンサデータ、および/または、問い合わせ画像中のオブジェクトに対する深度値を示す、問い合わせ画像に対する深度マップのような、さまざまなファクタに基づいて、第1のオクターブおよび後続するオクターブを選択してもよい。
特徴抽出ユニット22は、その後、DoGピラミッド104を使用して、画像I(x,y)に対するキーポイントを識別してもよい。キーポイント抽出を実行する際に、特徴抽出ユニット22は、画像中の特定のサンプルポイントまたはピクセルの周りの局所的な領域またはパッチが、潜在的に(幾何学的に言って)対象のパッチであるか否かを決定する。一般的に、特徴抽出ユニット22は、DoG空間104中の局所的な最大値および/または局所的な最小値を識別し、DoG空間104中のキーポイントロケーションとして、これらの最大値および最小値のロケーションを使用する。図2中で図示されている例では、特徴抽出ユニット22は、パッチ106内のキーポイント108を識別する。(局所的極値検出としても知られている)局所的な最大値および最小値の発見は、DoG空間104中の各ピクセル(例えば、キーポイント108に対するピクセル)を、同一のスケールにおけるその8個の隣接するピクセルと、両側の隣接スケールのそれぞれにおける(近接パッチ110および112中の)9個の隣接するピクセルとの合計26ピクセル(9×2+8=26)とを比較することにより達成されてもよい。キーポイント106に対するピクセル値が、パッチ106、110および108における、26個のすべての比較されたピクセルの中で最大値または最小値である場合に、特徴抽出ユニット22はキーポイントとしてこれを選択する。特徴抽出ユニット22は、これらロケーションがより正確に識別されるように、キーポイントをさらに処理してもよい。特徴抽出ユニット22は、いくつかの例では、低コントラストのキーポイントおよびエッジのキーポイントのような、キーポイントのうちのいくつかを廃棄してもよい。
図3は、キーポイントの検出をより詳細に図示している概念図である。図3の例では、パッチ106、110および112のそれぞれが3×3ピクセル領域を含む。特徴抽出ユニット22は、初め、対象(例えば、キーポイント108)のピクセルを、同一スケール(例えば、パッチ106)におけるその8個の隣接するピクセル132、ならびに、キーポイント108の両側の隣接するスケールのそれぞれにおける隣接するパッチ110および112中の9個の隣接するピクセル134および136と比較する。
特徴抽出ユニット22は、局所的な画像勾配の方位に基づいて、1つ以上の方向、すなわち方位を各キーポイントに割り振ってもよい。局所的な画像プロパティに基づいて、各キーポイントに矛盾のない方向を割り振ることにより、特徴抽出ユニット22は、この方向に関連するキーポイント記述子を表し、それゆえ、画像回転に対する不変性を達成してもよい。特徴抽出ユニット22は、その後、ガウシアンぼかし画像L中の、および/または、キーポイントスケールにおける、キーポイント108の周りの隣接する領域中のすべてのピクセルに対する大きさおよび方位を計算する。(x,y)に位置付けられているキーポイント108に対する勾配の大きさは、m(x,y)として表されてもよく、(x,y)におけるキーポイントに対する勾配の方向または方位は、Γ(x,y)として表されてもよい。
特徴抽出ユニット22は、その後、すべての計算がスケールが変化しない方法で実行されるように、キーポイントのスケールを使用して、キーポイント108のスケールに最も近いスケールを持つガウシアン平滑化画像Lを選択する。このスケールにおける各画像サンプルL(x,y)に対して、特徴抽出ユニット22は、ピクセル差分を使用して、勾配の大きさm(x,y)および方向Γ(x,y)を計算する。例えば、大きさm(x,y)は、以下の方程式(1)にしたがって計算されてもよい。
Figure 0005654127
特徴抽出ユニット22は、以下の方程式(2)にしたがって、方位または方向Γ(x,y)を計算してもよい。
Figure 0005654127
方程式(2)では、L(x,y)は、キーポイントのスケールでもあるスケールにおける、ガウシアンぼかし画像L(x,y,)のサンプルを表す。
特徴抽出ユニット22は、DoG空間中のキーポイントの面よりも高いスケールにおける、上側にあるガウシアンピラミッド中の面に対するキーポイント、または、キーポイントよりも低いスケールにおける、下側にあるガウシアンピラミッドの面中のキーポイントのうちのいずれかに対する勾配を矛盾なく計算してもよい。いずれにしても、各キーポイントに対して、特徴抽出ユニット22は、キーポイントを囲む長方形エリア(例えば、パッチ)中の同一のスケールにおける勾配を計算する。さらに、画像信号の周波数は、ガウシアンぼかし画像のスケールにおいて反映される。しかしながら、SIFT、および、勾配の圧縮ヒストグラム(CHoG)アルゴリズムのような他のアルゴリズムは単に、パッチ(例えば、長方形エリア)中のすべてのピクセルにおける勾配値を使用する。パッチは、キーポイントの周りで規定され、サブブロックはブロック内で規定され、サンプルはサブブロック内で規定され、この構造は、たとえキーポイントのスケールが異なるときでもすべてのキーポイントに対して同じものが維持される。それゆえ、画像信号の周波数は、同一のオクターブにおける、ガウシアン平滑フィルタの連続のアプリケーションによって変化するが、異なるスケールにおいて識別されたキーポイントは、スケールにより表される、画像信号の周波数における変化に関わらず、同数のサンプルによりサンプリングされてもよい。
キーポイント方向を特徴付けるために、特徴抽出ユニット22は、例えば、勾配の圧縮ヒストグラム(CHoG)を使用して、勾配方向ヒストグラム(図4参照)を生成されてもよい。各隣接するピクセルのコントリビューションは、勾配の大きさおよびガウシアンウィンドウにより重み付けされてもよい。ヒストグラム中のピークは、優位方向に対応する。特徴抽出ユニット22は、キーポイント方向に関連するキーポイントのすべてのプロパティを測定してもよく、これは、回転に対する不変性を提供してもよい。
1つの例では、特徴抽出ユニット22は、各ブロックに対するガウシアン重み付け勾配の分布を計算し、ここでは、各ブロックは、2サブブロック×2サブブロックの合計4サブブロックである。ガウシアン重み付け勾配の分布を計算するために、特徴抽出ユニット22は、いくつかのビンを持つ方向ヒストグラムを形成し、各ビンは、キーポイントの周りのエリアの一部をカバーする。例えば、方向ヒストグラムは、36個のビンを有していてもよく、各ビンは、方向の360度の範囲のうちの10度をカバーする。代替的に、ヒストグラムは8個のビンを有していてもよく、それぞれは、360度の範囲のうちの45度をカバーする。ここに記述するヒストグラムコーディング技術は、任意の数のビンのヒストグラムに適応可能であってもよいことは明白であるべきである。
図4は、特徴抽出ユニット22が勾配分布および方向ヒストグラムを取得できる例示的な技術を図示している概念図である。ここで、2次元勾配分布(dx,dy)(例えば、ブロック156)は、1次元分布(例えば、ヒストグラム164)に変換される。キーポイント108は、キーポイント108を囲む(セルまたは領域とも呼ばれる)パッチ156の中心に位置付けられている。ピラミッドの各レベルに対して予め計算されている勾配が、各サンプルロケーション158における小さな矢印として示されている。示されているように、サンプル158の4×4グループは、サブブロック160を形成し、サブブロックの2×2グループは、ブロック156を形成する。ブロック156を、記述子ウィンドウと呼ぶこともある。
ガウシアン重み付け関数は、円152により示され、サンプルポイント158のそれぞれの大きさに重みを割り振るために使用されてもよい。円形ウィンドウ152中の重みはスムーズに減少する。ガウシアンウィンドウ152の目的は、ウィンドウのポジションにおける小さな変化により記述子における突然の変化を回避し、記述子の中心から遠い勾配に少ない強調を与えることである。方向ヒストグラム162の2×2=4アレイは、ヒストグラムの各ビン中に8方向を持つ2×2サブブロック、結果として、(2×2)×8=32次元特徴記述子ベクトルから取得される。例えば、方向ヒストグラム163および165は、サブブロック160に対する勾配分布に対応してもよい。しかしながら、各ヒストグラム中の8方向を持つヒストグラム(8ビンヒストグラム)の4×4アレイ、結果として、各キーポイントに対する(4×4)×8=128次元特徴記述子ベクトルを使用することは、より良好な結果をもたらす場合がある。(例えば、異なるボロノイセル構造を持つ)他のタイプの量子化ビン配列もまた、勾配分布を取得するために使用されてもよいことに留意すべきである。
ここで使用されるヒストグラムはマッピングkiであり、マッピングkiは、ビンとして知られている、さまざまな互いに素なカテゴリに分類される、観測、サンプルまた実現値(例えば、勾配)の数をカウントする。ヒストグラムのグラフは、ヒストグラムを表す1つの方法に過ぎない。したがって、kが、観測、サンプルまたは実現値の総数であり、mがビンの総数である場合、ヒストグラムki中の周波数は、以下の条件を満たす。
Figure 0005654127
ここで、Σは、加算演算子である。
ヒストグラム162に追加される各サンプルは、標準偏差を持つ、ガウシアン重み付け円状ウィンドウ152内のその勾配の大きさ、つまり、キーポイントのスケールの1.5倍により重み付けされてもよい。結果としての方向ヒストグラム164中のピークは、局所的な勾配の優位方位に対応する。ヒストグラム中の最も高いピークが検出され、その後、最も高いピークのうちの、80%のような、特定のパーセンテージ内である、他の何らかの局所的なピークも使用されて、その方向を持つキーポイントを作成する。それゆえ、類似した大きさの複数のピークを持つロケーションに対して、同一のロケーションおよびスケールではあるが、異なる方向において、複数のキーポイントを作成できる。
サブブロックからのヒストグラムは、キーポイントに対する特徴記述子ベクトルを取得するために連結されてもよい。16個のサブブロックからの8個のビンのヒストグラム中の勾配が使用される場合、128次元特徴記述子ベクトルが結果として生じてもよい。
この方法では、各キーポイントに対して、記述子が取得されてもよく、ここで、このような記述子は、ガウシアン重み付け勾配の分布の、ロケーション(x,y)、方向および記述子により特徴付けられてもよい。画像は、1つ以上のキーポイント記述子(画像記述子とも呼ばれる)により特徴付けられてもよいことに留意すべきである。
いくつかの例示的なアプリケーションでは、画像は、移動デバイスにより取得および/または取り込まれてもよく、オブジェクト認識は、取り込まれた画像上、または、取り込まれた画像の一部について実行されてもよい。第1のオプションにしたがうと、取り込まれた画像は移動デバイスによりサーバへ送られてもよく、そこで、画像は(例えば、1つ以上の記述子を取得するために)処理され、および/または、複数の画像(例えば、複数の画像に対する1つ以上の記述子)と比較されて、マッチ(例えば、取り込まれた画像またはその中のオブジェクトの識別)を取得してもよい。しかしながら、このオプションでは、取り込まれた画像全体が送られ、このことは、そのサイズにより望ましくないかもしれない。第2のオプションでは、移動デバイスは、画像を処理(例えば、画像について特徴抽出を実行)して、1つ以上の画像記述子を取得し、画像および/またはオブジェクト識別のために、記述子をサーバに送る。画像よりもむしろ、画像に対するキーポイント記述子が送られることから、これには、画像に対するキーポイント記述子が画像自体よりも小さい限り、より少ない送信時間を要してもよい。したがって、キーポイント記述子のサイズを圧縮することは、極めて望ましいことかもれしない。
キーポイント記述子のサイズを最小化するために、勾配の分布の記述子を圧縮することが有益であるかもしれない。勾配の分布の記述子はヒストグラムにより表されるので、ヒストグラムに対する効率的なコーディング技術をここに記述する。
特徴記述子を効率的に表すおよび/または圧縮するために、分布の記述子(例えば、方向ヒストグラム)は、より効果的に表されてもよい。したがって、ヒストグラムの効率的なコーディングに対する1つ以上の方法または技術をここに記述する。これらの方法または技術は、圧縮された形態でヒストグラムを効率的に(または、もっと言えば最適に)コード化するために、任意のタイプのヒストグラムインプリメンテーションにより実現されてもよい。ヒストグラムの効率的なコーディングは、従来のエンコーディング技術により取り扱われない特異な問題である。従来のエンコーディング技術は、値のシーケンスの効率的なエンコーディングに的を絞っていた。ヒストグラムでは、シーケンス情報が使用されないことから、ヒストグラムの効率的なエンコーディングは、従来の技術により取り扱われた問題とは異なる問題である。
第1のステップにおいて、ヒストグラムの最適な(最小サイズまたは長さの)コーディングが考慮される。情報理論上の原理を適用して、ヒストグラムの無損失および/または有損失のエンコーディングに対する最大の長さを取得してもよい。
上記で述べたように、(例えば、セルまたは領域とも呼ばれることが多い)特定のパッチに対して、パッチ中の勾配の分布はヒストグラムで表されてもよい。ヒストグラムは、m個のシンボル(2≦m≦∞)の長さを持つアルファベットAで表されてもよく、ここで、各シンボルは、ヒストグラム中のビンに関係する。それゆえ、ヒストグラムは、m個のビンの総数を有する。例えば、アルファベットA中の各シンボル(ビン)は、規定されている勾配/方向のセットからの勾配/方向に対応してもよい。ここで、
Figure 0005654127
になるように、nは、観測、サンプルまたは実現値(セル、パッチまたは領域中の勾配サンプル)の総数を表してもよく、kは、特定のビン中の観測、サンプルまたは実現値の数を表す(例えば、k1は、第1のビン中の勾配サンプルの数であり...kmは、m番目のビン中の勾配サンプルの数である)。つまり、ヒストグラムのビン中のすべての勾配サンプルの合計は、パッチ中の勾配サンプルの総数に等しい。ヒストグラムは、セル、マッチまたは領域内の勾配サンプルの第1の分布に対する確率分布を表してもよいことから、勾配サンプルの(第1の分布とは異なる)第2の分布を有する異なるセル、パッチまたは領域がそれでもなお同一のヒストグラムを有する可能性がある。
Pが、mに関する確率分布[p1,...pm]を示す場合、この分布のエントロピーH(P)は、
Figure 0005654127
のように規定できる。
このケースでは、2つの既知の分布PおよびQの間の相対エントロピーD(P||Q)は、
Figure 0005654127
により与えられる。
勾配分布の所定のサンプルwに対して、各勾配値が現れる回数は、(i=1,...mに対して)kiにより与えられると仮定する。サンプルwの確率P(w)は、したがって、
Figure 0005654127
により与えられる。
ここで、Πは積演算子である。
例えば、セルまたはパッチのケースでは、確率P(w)は、特定のセルまたはパッチの確率である。
しかしながら、方程式6は、分布Pが既知であると仮定する。ソース分布が既知ではないケースでは、パッチ中に典型的な勾配を持つケースであるとして、サンプルwの確率は、Krichecvsky-Trofimov(KT)推定により与えられてもよい。
Figure 0005654127
ここで、
Figure 0005654127
であるように、Γはガンマ関数である。
サンプルwは、その確率のKT推定を使用してエンコードされることになる場合に、(実際の分布Pの下での)このようなエンコーディングの長さLは、
Figure 0005654127
を満たす。
方程式8は、ヒストグラムの無損失エンコーディングに対する最大コード長を提供する。KT推定量ベースのコードの冗長は、
Figure 0005654127
により与えられてもよい。
これは、実際のソース分布に依存しない。このことは、このようなコードが普遍的であることを意味する。したがって、KT推定量は、使用されるサンプルwが十分長い限りは、実際の確率Pに近い近似を提供する。
KT推定量は、分布に対する確率を計算する唯一の方法であることに留意すべきである。例えば、最尤(ML)推定量も使用されてもよい。
また、ヒストグラムをコード化するとき、エンコーダおよびデコーダの双方は、ヒストグラム中のサンプルの総数nおよびヒストグラムに対するビンの数mを決定できる、または、ヒストグラム中のサンプルの総数nおよびヒストグラムに対するビンの数mにより構成されていることが仮定されてもよい。したがって、このケースでは、この情報はエンコードされる必要がない。それゆえ、エンコーディングは、m個のビンのそれぞれに対するサンプルの数にフォーカスされる。
キーポイント(または画像)記述子の一部としてヒストグラム自体を送信するよりもむしろ、ヒストグラムの圧縮形態を使用してもよい。これを達成するために、ヒストグラムをタイプにより表してもよい。一般的に、タイプは、ヒストグラムの圧縮表示である(例えば、タイプは、ヒストグラム全体よりもむしろ、ヒストグラムの形状を表す)。サンプルwのタイプtは、タイプt(w)が、そのシンボルの周波数のセット(例えば、勾配分布kiの周波数)を表すように、
Figure 0005654127
として規定されてもよい。タイプはまた、サンプルwを生成させたソースの真の分布の推定として理解できる。したがって、タイプt(w)のエンコーディングおよび送信は、それが特定のサンプルwに基づいて推定できることから、分布の形状のエンコーディングおよび送信と同等なものである。
しかしながら、従来のエンコーディング技術は、値のシーケンスの効率的なエンコーディングにフォーカスされていた。ヒストグラムではシーケンス情報が使用されないことから、ヒストグラムの効率的なエンコーディングは、従来のエンコーディング技術により取り扱われた問題とは異なる問題である。ビンの数がエンコーダおよびデコーダに対して既知であると仮定すると、ヒストグラムのエンコーディングは、ポイント(例えば、勾配)の総数、および、ビン毎のポイントの総数のエンコーディングを含む。
以下、1つの目標は、タイプt(w)をどのように効率的にエンコードするかを見つけ出すことである。何らかの所定のタイプtは、
Figure 0005654127
として規定できることに注目されたい。
ここで、K1からKmは、サンプルの総数nを与えられた、可能性あるタイプtの数を示す。それゆえ、タイプtを持つ可能性あるシーケンスの総数は、
Figure 0005654127
により与えられることができる。
ここで、ξ(t)は、母集団tを持つシンボルの可能性ある配置の総数である。
可能性あるタイプの総数は、本質的に、k1...+km=nになるように、すべての整数k1,...,kmの数であり、これは、マルチセット係数により与えられる。
Figure 0005654127
タイプtの任意のサンプルwの実現値の確率は、P(t)により示されてもよい。可能性あるサンプルのようなξ(t)が存在し、それらがすべて同一の確率を有ていることから、それなら:
Figure 0005654127
である。
この密度P(t)は、タイプの分布として参照されてもよい。これは、明らかに、
Figure 0005654127
における最大値(モード)を持つ多項分布である。
タイプの分布のエントロピーが、(集合プロパティにより)後続する。
Figure 0005654127
長さnのサンプルwが与えられると、ユニバーサルエンコーダのタスクは、その最も悪いケースの平均冗長:
Figure 0005654127
が最小になるように、コードf(w)(または、同等に、その誘導分布Pf(w))を設計することである。方程式17および18は、ユニバーサルコーディングにより取り扱われる問題を描いており、シーケンスが与えられ、平均コード長とn*H(P)との間の差分が、すべての可能性ある入力分布に対して最小であるコード長が求められる。つまり、最小の最も悪いケースのコード長は、予め分布を知らずに求められる。
同一のタイプのサンプルの確率が同一であることから、コード誘導分布Pf(w)は、このプロパティを保つことが予期され、Pf(w)は、
Figure 0005654127
として規定できる。ここで、Pf(t)は、タイプt(w)の確率であり、ξ(t)は、同一タイプt(w)内のシーケンスの総数である。タイプt(w)に割り振られたコードの確率Pfは、したがって、
Figure 0005654127
は、タイプのコード誘導分布である、として規定できる。
このような分解を方程式18に当てはめて、タイプを超えて(個々のサンプルの代わりに)加法を変更することにより、平均冗長R*(n)は、
Figure 0005654127
として、規定できる。ここで、“sup”は、上限(supremum)演算子であり、値は、それが少なくともそのセットのうちの任意のエレメントと同じくらいの大きさである場合、セットに関する上限である。これらの方程式は、タイプのコーディングの問題は、最小冗長ユニバーサル(minimum redundancy universal)コーディングの問題と同等であることを意味する。
結果として、タイプの無損失コーディングの問題は、タイプのKT推定分布を使用することにより、漸近的に最適に解決できる。
Figure 0005654127
この方程式22.2に基づいて、単一の母集団を持つタイプ(0回のカウントを持つもの)がそのピークになる一方で、近くの均一な母集団を持つタイプが推定密度の谷に落ちることは明白になる。
図5は、さまざまなガウシアンスケール空間にわたる例示的なキーポイント分布を図示しているチャート180の線図である。グラフ180に対するデータは、トレーニング画像のセット、すなわち、700×1000ピクセルの解像度を持つ105個の画像から発生された。各画像に対して、データは、1.0(グラフ186)、0.75(グラフ188)、0.5(グラフ190)、および、0.25(グラフ192)のスケールに対して収集された。チャート180は、スケール空間にわたる、キーポイントの典型的な分布を示す。この観測に基づいて、制御ユニット20(図1)は、画像の倍率の推定を可能にする統計を計算してもよい。
グラフ180のX軸184は、データのこの特定の例示的なセットに対するガウシアンスケール空間(GSS)中の、可能性あるスケールインデックスおよび対応するスケールを表す。Y軸182は、この例に対するキーポイントの数を表す。
自然な画像に対して、示されているガウシアンスケール空間にしたがう、スケールパラメータに関して検出されたキーポイントの分布が存在してもよい。より高いスケールにおいて検出されたキーポイントは、一般的により大きな特徴に対応する。画像解像度が増加するにつれて(例えば、ユーザがターゲットから遠くに離れていくにつれて)、より細かいディテールは低減され、より高いスケール(粗いディテールに対応する)において検出されたディテールは、より低いスケール(より細かなディテールに対応する)に移動する。キーポイントのうちのほとんどは、それゆえ、より低いスケールに属する。ビン中心としてスケール空間レベルにより構築されたキーポイントのヒストグラムは、画像サイズが増加するにつれて、ヒストグラムのエリアのうちのほとんどは、より低いビン中心に集中してもよいという特性を有していてもよい。実質上、これは、スケール空間におけるキーポイントの分布はテクスチャに依存しており、そして、オブジェクトからのカメラの距離にしたがって変化することを意味している。
所定のシーンにおいて、多数のオブジェクトが現れる可能性があり、それぞれは、カメラからのそれ独自の距離において、それゆえ、一意的なスケールにある。ユーザが対話することを望むオブジェクトに関係するスケールを適切に評価するために、いくつかの粗いセグメント化を実行して、画像中の他のものからオブジェクトを分離して、オブジェクトのスケールについての局所的な推論を行ってもよい。これは、例えば、ダイナミックウィンドウ、または、オブジェクト領域間の境界をおおよそ描く他のアルゴリズムを使用することにより達成できる。
サーチするデータベースの最低オクターブを決定するのに使用できるカットオフスケールを計算するために、スケール推定ユニット24は、キーポイントP(s)のヒストグラムにより、スケール空間レベルsにわたるキーポイントの分布を推定してもよい。次に、スケール推定ユニット24は、キーポイントのうちのおよそ90%が、カットオフスケールscまでのスケールレベル内に保たれるように、scを推定してもよい。形式的には、スケール推定ユニット24は、以下の公式(23)を計算してもよい。
Figure 0005654127
その後、スケール推定ユニット24は、追跡したスケール空間カットオフレベルを画像倍率Yにマッピングする関数を推定する。すなわち、スケール推定ユニット24は、
Figure 0005654127
を計算してもよい。
ここで、Yは画像倍率であり、scはカットオフスケール空間レベルである。関数を知るために、スケール推定ユニット24は、最も反復されたパス、例えば、グラフ186、188、190または192の1つから、Yおよびscデータポイントを拾ってもよい。
一般的に、画像解像度が増加するにつれて、scはスケール空間においてさらに上に移動し、逆もまた同じである。グラフ180はまた、この例示的なデータセットにおける、1.0(ポイント198)、0.75(ポイント196)、および、0.5(ポイント194)のスケールに対する、例示的なカットオフスケール(最低オクターブに対応する)を図示している。この例から、解像度が減少するにつれて、カットオフスケールは、左に向かって移動することが分かる。つまり、解像度が減少するにつれて、カットオフスケールが減少する。
図6は、インクリメントな特徴記述子抽出を実行するための例示的な方法を図示しているフローチャートである。説明の目的のために、図6の方法は、クライアントデバイス10のコンポーネントに関して記述されている。しかしながら、図6の方法は、他のデバイスにより実行されてもよく、または、さまざまなデバイスにより共同で実行されてもよいことを理解すべきである。例えば、サーバデバイス50(図1)の制御ユニット60は、図6の方法を実行するように構成されていてもよい。同様に、追加のステップが実行されてもよく、または、特定のステップが省略され、方法のステップが、本開示の技術から逸脱することなく、異なる順序で(または、並行して)実行されてもよい。
図6の例では、初めに、制御ユニット20は、オブジェクトの(問い合わせ画像とも呼ばれる)画像を受信する(200)。例えば、制御ユニット20は、カメラ12から画像を受信してもよい。代替的に、制御ユニット20は、クライアントデバイス10のメモリから、記憶された画像を取り出してもよい。制御ユニット20の特徴抽出ユニット22はその後、特徴記述子を抽出する画像に対する第1のオクターブを選択してもよい(202)。
特徴抽出ユニット22は、本開示において論じた、技術の組み合わせを含む、さまざまな技術のうちの任意のものを使用して、第1のオクターブを選択してもよい。例えば、特徴抽出ユニット22は、特徴抽出ユニット22が第1のオクターブを選択するために使用してもよいセンサ14から、データを受信してもよい。特徴抽出ユニット22は、例えば、クライアントデバイス10のロケーションを示す、センサ14のGPSユニットからのロケーションデータを受信してもよい。特徴抽出ユニット22は、ロケーションデータを使用して、クライアントデバイス10の近くのオブジェクトのロケーションを決定してもよい。特徴抽出ユニット22は、画像中のオブジェクトに対するスケールを予想するために、クライアントデバイス10の近くのオブジェクトを使用してもよい。
例えば、GPSデータが、クライアントデバイス10がフランスのパリのエッフェル塔付近にあると示す場合に、特徴抽出ユニット22は、画像中のオブジェクトの可能性あるスケールは比較的大きいと決定してもよい。この決定は、画像がエッフェル塔のものであるという(コンフィグレーションデータを通しての)仮定に基づいていてもよく、この仮定は、特徴記述子抽出および比較を通して確定されてもよい。一方で、GPSデータが、クライアントデバイス10がフランスのパリのルーブル美術館付近もしくは中にあると示す場合に、特徴抽出ユニット22は、画像中のオブジェクトのスケールが比較的小さいと決定してもよい。この決定は、例えば、画像がルーブル美術館内に保存されている作品のものであるという(コンフィグレーションデータを通しての)仮定に基づいていてもよい。
GPSユニットからのロケーションデータ、または、他のタイプの感知されたデータに加えて、または、代替実施形態において、制御ユニット20は、深度推定ユニット26によって計算された深度マップに基づいて第1のオクターブを選択してもよい。深度推定ユニット26は、深度マップを計算するさまざまな技術のうちの任意のものを使用してもよい。例えば、深度推定ユニット26は、ステレオカメラによって取り込まれた2つ以上の画像のピクセル間での、水平差異(すなわち視差)を解析してもよい。これらの画像のうちの1つは、問い合わせ画像に対応してもよい。問い合わせ画像中のオブジェクトに対する深度に基づいて、制御ユニット20は、オブジェクトに対するスケールを決定し、このスケールは第1のオクターブに対応してもよい。第1のオクターブに影響し得る他のファクタは、例えば、画像中でオブジェクトが存在するロクセル、ワイヤレスネットワークが利用可能であるか否か(例えば、ワイヤレスアクセスポイントが領域内にあるか否か)、トラッカーが見失って以来の以前の新しい問い合わせ画像に対してスケールが決まっていたか否か、または、他のファクタを含む。
第1のオクターブを決定した後に、特徴抽出ユニット22は、第1のオクターブに対するキーポイントを抽出してもよい(204)。上記で論じたように、特徴抽出ユニット22は、上で選択した第1のオクターブに対応するサイズに、問い合わせ画像の解像度をスケーリングすることにより、問い合わせ画像から、第1のオクターブに対する画像を計算してもよい。特徴抽出ユニット22は、その後、種々の第1のオクターブ画像にガウシアンぼかしフィルタを適用して、キーポイントをそこから抽出するガウシアンの差分ピラミッドを計算してもよい。キーポイントを使用して、特徴抽出ユニット22は、問い合わせ画像の第1のオクターブに対して、1つ以上の特徴記述子を抽出してもよい(206)。
特徴抽出ユニット22は、その後、特徴記述子を使用して、問い合わせ画像中のオブジェクトのアイデンティティを決定するように試行してもよい(208)。いくつかの例では、制御ユニット20は、遠隔オブジェクトデータベース52のすべてまたは一部を取り出して、データをローカルオブジェクトデータベース30として局所的に記憶してもよい。他の例では、制御ユニット20は、抽出された特徴記述子のうちの1つ以上をネットワーク40を介してサーバデバイス50に送ってもよい。特徴マッチングユニット62は、クライアントデバイス10から受信した特徴記述子のいくつかまたはすべてが、遠隔オブジェクトデータベース52のオブジェクトにマッチするか否かを決定してもよい。特徴マッチングユニット62は、特徴記述子に対する1つ以上のマッチを決定してもよい。特徴マッチングユニット62が、サーチする最低オクターブの指示を受信していた場合に、特徴マッチングユニット62は、最低オクターブにおける、または、最低オクターブを上回るオクターブであるが、特定された最低オクターブを下回るオクターブに対する特徴記述子のみをサーチしてもよい。信頼評価ユニット64は、その後、マッチがどのくらいうまく特徴記述子に適合するかを示す、マッチのそれぞれに対する信頼値を決定してもよい。制御ユニット60は、その後、決定されたマッチのそれぞれに対する識別子およびそれぞれの信頼値を含む情報を、ネットワーク40を介してクライアントデバイス10送ってもよい。
サーバデバイス50から情報を受信した後に、クライアントデバイス10の制御ユニット20は、オブジェクトのさまざまな決定されたアイデンティティに対する信頼値のうちのいずれかのものがしきい値を超えるか否かを決定してもよい(210)。例えば、制御ユニット20は、最も大きな信頼値がしきい値を超えるか否かを決定してもよい。最も大きい信頼値がしきい値を超えない場合(210の“いいえ”の枝)、制御ユニット20は、下記に記述するように、特徴記述子を抽出するための次のオクターブとともに、いくつかの例において問い合わせされているデータベースの(最低オクターブとも呼ばれる)カットオフスケールを決定してもよい。
スケール推定ユニット24は、いずれのスケールが最も厳密にキーポイント分布に適合するかを決定し、その後、最良に適合しているスケールが、オブジェクトのスケールである可能性が高いことを決定してもよい(212)。スケールのこの近似に基づいて、特徴抽出ユニット22は、抽出された特徴記述子と比較するための、データベース中の最低オクターブを選択してもよい(214)。特徴抽出ユニット22はまた、キーポイントを抽出する次のオクターブを選択してもよい(216)。特徴抽出ユニット22は、その後、この次に決定されたオクターブに対するキーポイントを抽出し(218)、抽出したキーポイントを使用して、現在のオクターブに対する特徴記述子を抽出してもよい(206)。特徴抽出ユニット22は、その後、再び、抽出された特徴記述子を使用して、オブジェクトアイデンティティを決定してもよい(208)。特に、特徴抽出ユニット22は、抽出された特徴記述子を使用して選択した最低オクターブにおける、または、選択した最低オクターブを上回るデータベースのオクターブにおいて、データベースにオブジェクトをサーチさせ、オブジェクトの決定されたアイデンティティにおける新たな信頼値を受け取らせてもよい。
決定されたオブジェクトのアイデンティティ中の信頼値がしきい値を超える場合(210の“はい”の枝)、特徴抽出ユニット22は、画像中のオブジェクトに対するアイデンティティ情報を出力してもよい(218)。いくつかの例では、特徴抽出ユニット22は、制御ユニット20により実行されるウェブブラウザと対話して、ウェブブラウザに、サーチ用語またはキーワードとして決定されたアイデンティティを使用して、インターネットベースのサーチエンジンにサーチ問い合わせをサブミットさせてもよい。サーチは、例えば、オブジェクトの別の画像、(例えば、オブジェクトがランドマークである場合に)オブジェクトのロケーション情報、(例えば、オブジェクトまたはそのレプリカが購入可能である場合に)プライス情報、オブジェクトに対するより多くの情報を持つウェブアドレスへのリンク(例えば、ユニフォームリソースロケータ(URL))、または、これらのような他の情報のような、画像中のオブジェクトに対するさまざまな情報をウェブブラウザに表示させてもよい。
この方法で、図6は、受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットを抽出することと、キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを計算することと、記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を受信し、結果は、受信した画像中のオブジェクトのアイデンティティを記述する情報を含むことと、信頼値が信頼しきい値を超えないときに、受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを抽出することとを含む方法の例を表す。
1つ以上の例において、記述される機能は、ハードウェア、ソフトウェア、ファームウェア、あるいはそれらの任意の組み合わせで実現されてもよい。ソフトウェアで実現された場合、機能は、1つ以上の命令またはコードとしてコンピュータ読取可能媒体上に記憶されてもよく、あるいは、1つ以上の命令またはコードとしてコンピュータ読取可能媒体へ送信されてもよく、ハードウェアベースの処理ユニットにより実行されてもよい。コンピュータ読取可能媒体は、データ記憶媒体のような有形の媒体に対応するコンピュータ読取可能記憶媒体、あるいは、例えば、通信プロトコルにしたがって、1つの場所から別の場所へのコンピュータプログラムの伝送を促進する任意の媒体を含む通信媒体を含んでもよい。この方法では、コンピュータ読取可能媒体は、一般的に、(1)一時的ではない有形のコンピュータ読取可能記憶媒体、あるいは、(2)信号または搬送波のような通信媒体に対応してもよい。データ記憶媒体は、本開示中で説明した技術のインプリメンテーションのための命令、コードおよび/またはデータ構造を取り出すために、1つ以上のコンピュータ、または、1つ以上のプロセッサによってアクセスできる任意の利用可能な媒体であってもよい。コンピュータプログラムプロダクトは、コンピュータ読取可能媒体を含んでもよい。
限定ではなく例として、有形のコンピュータ読取可能記憶媒体は、RAM、ROM、EEPROM、CD−ROMまたは他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、フラッシュメモリ、あるいは、コンピュータによってアクセスでき、命令もしくはデータ構造の形式で所望のプログラムコードを記憶するために使用可能である他の任意の媒体を備えることができる。また、任意の接続は、コンピュータ読取可能媒体と適切に呼ばれる。例えば、命令が、ウェブサイトから、サーバから、あるいは、同軸ケーブル、光ファイバケーブル、撚り対、デジタル加入者線(DSL)、または、赤外線、無線、マイクロ波のようなワイヤレス技術を使用する他の遠隔ソースから送信された場合、同軸ケーブル、光ファイバケーブル、撚り対、DSL、あるいは、赤外線、無線およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ読取可能記憶媒体およびデータ記憶媒体は、接続、搬送波、信号または他の一時的な媒体を含まず、代わりに、一時的ではない、有形の記憶媒体に向けられていることを理解すべきである。ここで使用するようなディスク(diskおよびdisc)は、コンパクトディスク(CD)、レーザディスク(登録商標)、光ディスク、デジタル多用途ディスク(DVD)、フロッピー(登録商標)ディスク、および、ブルーレイ(登録商標)ディスクを含んでいる。ここで、ディスク(disk)が通常、データを磁気的に再生する一方で、ディスク(disc)はデータをレーザによって光学的に再生する。上記のものの組み合わせも、コンピュータ読取可能媒体の範囲内に含められるべきである。
命令は、1つ以上のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、または、他の同等な集積または離散論理回路のような、1つ以上のプロセッサにより実行されてもよい。したがって、ここで使用される“プロセッサ”という用語は、前述の構造のうちの任意のもの、または、ここで記述した技術のインプリメンテーションに適切な他の何らか構造のことを指してもよい。加えて、いくつかの態様では、ここで記述した機能性は、エンコーディングおよびデコーディングのために構成されている、あるいは、組み合わせたコーデック中に組み込まれている、専用のハードウェアおよび/またはソフトウェアモジュール内で提供されてもよい。また、技術は、1つ以上の回路または論理エレメント中で完全に実現できる。
本開示の技術は、ワイヤレスハンドセット、集積回路(IC)、または、ICのセット(例えば、チップセット)を含む、幅広いさまざまなデバイスまたは装置で実現してもよい。開示した技術を実行するように構成されているデバイスの機能的な態様を強調するために、本開示中では、さまざまなコンポーネント、モジュールまたはユニットが記述されているが、必ずしも異なるハードウェアユニットによる実現を必要とするわけではない。むしろ、上述したように、さまざまなユニットは、適切なソフトウェアおよび/またはファームウェアと併用して、コーデックハードウェアユニット中で組み合わされてもよく、または、上述したような1つ以上のプロセッサを含む、相互動作可能なハードウェアユニットを集めたものによって提供されてもよい。
以下に、本願出願時の特許請求の範囲に記載された発明を付記する。
[1]画像中のオブジェクトに対するアイデンティティを決定する方法において、
受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットを抽出することと、
前記キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを計算することと、
前記記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を受信し、前記結果は、前記受信した画像中のオブジェクトのアイデンティティを記述する情報を含むことと、
前記信頼値が信頼しきい値を超えないときに、前記受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを抽出することとを含む方法。
[2]前記信頼値が前記信頼しきい値を超えていないことを決定することと、
前記決定に基づいて、前記第2のオクターブのぼかし画像の第2のセットから、前記
キーポイントの第2のセットを抽出することと、
前記キーポイントの第2のセットから、1つ以上の記述子の第2のセットを計算することと、
前記記述子の第1のセットおよび前記記述子の第2のセットを含む記述子のセットにより、前記特徴記述子データベースに問い合わせることとをさらに含む[1]記載の方法。
[3]前記受信した画像中の前記オブジェクトに対するスケール値を推定することと、
前記推定したスケールに基づいて、前記特徴記述子データベースの最低オクターブを選択することと、
前記特徴記述子データベース中の前記選択した最低オクターブにおいて、または、前記特徴記述子データベース中の前記選択した最低オクターブより上で、特徴記述子をサーチするための前記特徴記述子データベースのサーチを起こすように、前記特徴記述子データベース中の最低オクターブの指示を提供することとをさらに含む[1]記載の方法。
[4]前記スケール値を推定することは、
スケール空間にわたる前記キーポイントの第1のセットの分布を解析することと、
前記キーポイントのうちのおおよそ90%がスケールレベルより下に属するように、前記分布中の前記スケールレベルに対応するカットオフポイントを決定することと、
前記決定したカットオフポイントの関数として、前記スケール値を推定することとを含む[3]記載の方法。
[5]前記オブジェクトに対する深度情報を取得することをさらに含み、
前記スケール値を推定することは、前記オブジェクトに対する深度情報の少なくとも一部に基づいて、前記スケール値を推定することを含む[3]記載の方法。
[6]前記受信した画像を取り込んだカメラに関係する1つ以上のセンサからのセンサ情報を解析することと、
前記センサ情報の解析に基づいて、前記第1のオクターブおよび前記第2のオクターブのうちの少なくとも1つに対するオクターブレベルを決定することとをさらに含む[1]記載の方法。
[7]前記センサ情報を解析することは、グローバルポジショニングシステム(GPS)情報を解析して、前記受信した画像が取り込まれたときに前記カメラが屋外環境に位置付けられていたか否かを決定することを含む[6]記載の方法。
[8]前記センサ情報を解析することは、GPS情報を解析して、前記受信した画像が取り込まれたときの、前記カメラに比較的近いオブジェクトのロケーションを決定することと、前記オブジェクトに対する記述データから、前記オブジェクトに対するサイズを決定することとを含む[6]記載の方法。
[9]前記センサ情報を解析することは、前記受信した画像が取り込まれたときに、前記カメラを備えているデバイスがワイヤレスネットワークに通信可能に結合されていたか否かを示すネットワークデータに基づいて、前記カメラが屋内環境に位置付けられていたか否かを決定することを含む[6]記載の方法。
[10]前記センサ情報を解析することは、前記受信した画像が取り込まれたときの、前記受信した画像中の1つ以上のオブジェクトと前記カメラとの間の距離を示す深度情報を計算することを含む[6]記載の方法。
[11]前記センサ情報を解析することは、アクティブプロービングセンサにより提供されるデータを使用して、前記オブジェクトに対する深度値を推定することを含む[6]記載の方法。
[12]前記1つ以上の記述子をサーバに送って、前記サーバに、前記1つ以上の記述子を使用して前記特徴記述子データベースに問い合わせさせることをさらに含み、
前記信頼値を受信することは、前記問い合わせに応答して前記サーバから前記信頼値を受信することを含む[1]記載の方法。
[13]画像中のオブジェクトに対するアイデンティティを決定するための装置において、
プロセッサを具備し、
前記プロセッサは、
受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットを抽出し、
前記キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを計算し、
前記記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を受信し、前記結果は、前記受信した画像中のオブジェクトのアイデンティティを記述する情報を含み、
前記信頼値が信頼しきい値を超えないときに、前記受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを抽出するように構成されている装置。
[14]前記画像を取り込み、前記画像を前記プロセッサに提供するように構成されているカメラをさらに具備する[13]記載の装置。
[15]前記プロセッサが、前記信頼値が前記信頼しきい値を超えないと決定するときに、前記プロセッサは、
前記決定に基づいて、前記第2のオクターブのぼかし画像の第2のセットから、前記
キーポイントの第2のセットを抽出し、
前記キーポイントの第2のセットから、1つ以上の記述子の第2のセットを計算し、
前記記述子の第1のセットおよび前記記述子の第2のセットを含む記述子のセットにより、前記特徴記述子データベースに問い合わせるようにさらに構成されている[13]記載の装置。
[16]前記プロセッサは、
前記受信した画像中の前記オブジェクトに対するスケール値を推定し、
前記推定したスケールに基づいて、前記特徴記述子データベースの最低オクターブを選択し、
前記特徴記述子データベース中の記述子をサーチするようにさらに構成され、
前記サーチした記述子は、前記選択した最低オクターブにおける、または、前記選択した最低オクターブより上の、前記特徴記述子データベース中のオクターブに対応する[15]記載の装置。
[17]前記スケール値を推定するために、前記プロセッサは、
スケール空間にわたる前記キーポイントの第1のセットの分布を解析し、
前記キーポイントのうちのおおよそ90%がスケールレベルより下に属するように、前記分布中の前記スケールレベルに対応するカットオフポイントを決定し、
前記決定したカットオフポイントの関数として、前記スケール値を計算するように構成されている[16]記載の装置。
[18]前記オブジェクトに対する深度情報を取得するように構成されている深度推定ユニットをさらに具備し、
前記プロセッサは、前記オブジェクトに対する深度情報の少なくとも一部に基づいて、前記スケール値を推定するように構成されている[16]記載の装置。
[19]前記プロセッサは、
前記受信した画像を取り込んだカメラに関係する1つ以上のセンサからのセンサ情報を解析し、
前記センサ情報の解析に基づいて、前記第1のオクターブおよび前記第2のオクターブのうちの少なくとも1つに対するオクターブレベルを決定するようにさらに構成されている[13]記載の装置。
[20]前記装置に対するロケーション情報を決定するように構成されているグローバルポジショニングシステム(GPS)ユニットをさらに具備し、
前記センサ情報を解析するために、前記プロセッサは、前記GPSユニットにより決定されたロケーション情報に基づいて、前記受信した画像が取り込まれたときに前記カメラが屋外環境に位置付けられていたか否かを決定するように構成されている[19]記載の装置。
[21]前記装置に関連するロケーション情報を決定するように構成されているGPSユニットをさらに具備し、
前記センサ情報を解析するために、前記プロセッサは、前記GPSユニットにより決定されたロケーション情報を解析して、前記受信した画像が取り込まれたときの、前記カメラに比較的近いオブジェクトのロケーションを決定し、前記オブジェクトに対する記述データから、前記オブジェクトに対するサイズを決定するように構成されている[19]記載の装置。
[22]ワイヤレスネットワークインターフェースをさらに具備し、
前記センサ情報を解析するために、前記プロセッサは、前記受信した画像が取り込まれたときに、前記ワイヤレスネットワークインターフェースがワイヤレスネットワークに通信可能に結合されていたか否かを示すネットワークデータに基づいて、前記カメラが屋内環境に位置付けられていたか否かを決定するように構成されている[19]記載の装置。
[23]前記受信した画像を取り込んだカメラを含む少なくとも2つのカメラを備えるカメラアレイをさらに具備し、
前記センサ情報を解析するために、前記プロセッサは、前記受信した画像が取り込まれたときの、前記受信した画像中の1つ以上のオブジェクトと前記カメラとの間の距離を示す、前記カメラアレイにより取り込まれた画像からの深度情報を計算するように構成されている[19]記載の装置。
[24]前記1つ以上のセンサは、前記オブジェクトに対する深度値を推定するように構成されているアクティブプロービングセンサを備える[19]記載の装置。
[25]前記プロセッサは、前記1つ以上の記述子をサーバに送って、前記サーバに、前記1つ以上の記述子を使用して前記特徴記述子データベースに問い合わせさせ、前記問い合わせに応答して前記サーバから前記信頼値を受信するように構成されている[13]記載の装置。
[26]前記装置は、
集積回路と、
マイクロプロセッサと、
前記プロセッサを含むワイヤレス通信デバイスとのうちの少なくとも1つを具備する[13]記載の装置。
[27]画像中のオブジェクトに対するアイデンティティを決定する装置において、
受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットを抽出する手段と、
前記キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを計算する手段と、
前記記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を受信し、前記結果は、前記受信した画像中のオブジェクトのアイデンティティを記述する情報を含む手段と、
前記信頼値が信頼しきい値を超えないときに、前記受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを抽出する手段とを具備する装置。
[28]前記信頼値が前記信頼しきい値を超えていないことを決定する手段と、
前記決定に基づいて、前記第2のオクターブのぼかし画像の第2のセットから、前記
キーポイントの第2のセットを抽出する手段と、
前記キーポイントの第2のセットから、1つ以上の記述子の第2のセットを計算する手段と、
前記記述子の第1のセットおよび前記記述子の第2のセットを含む記述子のセットにより、前記特徴記述子データベースに問い合わせる手段とをさらに具備する[27]記載の装置。
[29]前記受信した画像中の前記オブジェクトに対するスケール値を推定する手段と、
前記推定したスケールに基づいて、前記特徴記述子データベースの最低オクターブを選択する手段と、
前記特徴記述子データベース中の前記選択した最低オクターブにおいて、または、前記特徴記述子データベース中の前記選択した最低オクターブより上で、特徴記述子をサーチするための前記特徴記述子データベースのサーチを起こすように、前記特徴記述子データベース中の最低オクターブの指示を提供する手段とをさらに具備する[28]記載の装置。
[30]前記スケール値を推定する手段は、
スケール空間にわたる前記キーポイントの第1のセットの分布を解析する手段と、
前記キーポイントのうちのおおよそ90%がスケールレベルより下に属するように、前記分布中の前記スケールレベルに対応するカットオフポイントを決定する手段と、
前記決定したカットオフポイントの関数として、前記スケール値を推定する手段とを具備する[29]記載の装置。
[31]前記オブジェクトに対する深度情報を取得する手段をさらに具備し、
前記スケール値を推定する手段は、前記オブジェクトに対する深度情報の少なくとも一部に基づいて、前記スケール値を推定する手段を備える[29]記載の装置。
[32]前記受信した画像を取り込んだカメラに関係する1つ以上のセンサからのセンサ情報を解析する手段と、
前記センサ情報の解析に基づいて、前記第1のオクターブおよび前記第2のオクターブのうちの少なくとも1つに対するオクターブレベルを決定する手段とをさらに具備する[27]記載の装置。
[33]グローバルポジショニングシステム(GPS)情報を受信する手段をさらに具備し、
前記センサ情報を解析する手段は、前記GPS情報を解析して、前記受信した画像が取り込まれたときに前記カメラが屋外環境に位置付けられていたか否かを決定する手段を備える[32]記載の装置。
[34]GPS情報を受信する手段をさらに具備し、
前記センサ情報を解析する手段は、
前記GPS情報を解析して、前記受信した画像が取り込まれたときの、前記カメラに比較的近いオブジェクトのロケーションを決定する手段と、
前記オブジェクトに対する記述データから、前記オブジェクトに対するサイズを決定する手段とを備える[32]記載の装置。
[35]少なくとも1つのワイヤレスネットワークプロトコルを介して通信する手段をさらに具備し、
前記センサ情報を解析する手段は、前記受信した画像が取り込まれたときに、前記ワイヤレスネットワークプロトコルを介して通信する手段がワイヤレスネットワークに通信可能に結合されていたか否かを示すネットワークデータに基づいて、前記カメラが屋内環境に位置付けられていたか否かを決定する手段を備える[32]記載の装置。
[36]シーンのうちの2つ以上の画像を取り込む手段をさらに具備し、
前記2つ以上の画像のうちの1つは、前記受信した画像を含み、
前記センサ情報を解析する手段は、前記受信した画像が取り込まれたときの、前記受信した画像中の1つ以上のオブジェクトと前記カメラとの間の距離を示す、前記シーンのうちの2つの画像からの深度情報を計算する手段を備える[32]記載の装置。
[37]前記センサ情報を解析する手段は、アクティブプロービングセンサにより提供されるデータを使用して、前記オブジェクトに対する深度値を推定する手段を備える[32]記載の装置。
[38]前記1つ以上の記述子をサーバに送って、前記サーバに、前記1つ以上の記述子を使用して前記特徴記述子データベースに問い合わせさせる手段をさらに具備し、
前記信頼値を受信する手段は、前記問い合わせに応答して前記サーバから前記信頼値を受信する手段を備える[27]記載の装置。
[39]その上に記憶されている命令を有するコンピュータ読取可能媒体を含むコンピュータプログラムプロダクトにおいて、
前記命令は、実行されるとき、
受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットをプロセッサに抽出させ、
前記キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを前記プロセッサに計算させ、
前記記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を前記プロセッサに受信させ、前記結果は、前記受信した画像中のオブジェクトのアイデンティティを記述する情報を含み、
前記信頼値が信頼しきい値を超えないときに、前記受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを前記プロセッサに抽出させるコンピュータプログラムプロダクト。
[40]前記信頼値が前記信頼しきい値を超えていないことを前記プロセッサに決定させ、
前記決定に基づいて、前記第2のオクターブのぼかし画像の第2のセットから、前記
キーポイントの第2のセットを前記プロセッサに抽出させ、
前記キーポイントの第2のセットから、1つ以上の記述子の第2のセットを前記プロセッサに計算させ、
前記記述子の第1のセットおよび前記記述子の第2のセットを含む記述子のセットにより、前記特徴記述子データベースに前記プロセッサに問い合わせさせる命令をさらに含む[39]記載のコンピュータプログラムプロトコル。
[41]前記受信した画像中の前記オブジェクトに対するスケール値を前記プロセッサに推定させ、
前記推定したスケールに基づいて、前記特徴記述子データベースの最低オクターブを前記プロセッサに選択させ、
前記特徴記述子データベース中の前記選択した最低オクターブにおいて、または、前記特徴記述子データベース中の前記選択した最低オクターブより上で、特徴記述子をサーチするための前記特徴記述子データベースのサーチを起こすように、前記特徴記述子データベース中の最低オクターブの指示を前記プロセッサに提供させる命令をさらに含む[39]記載のコンピュータプログラムプロダクト。
[42]前記スケール値を前記プロセッサに推定させる命令は、
スケール空間にわたる前記キーポイントの第1のセットの分布を前記プロセッサに解析させ、
前記キーポイントのうちのおおよそ90%がスケールレベルより下に属するように、前記分布中の前記スケールレベルに対応するカットオフポイントを前記プロセッサに決定させ、
前記決定したカットオフポイントの関数として、前記スケール値を前記プロセッサに推定させる[41]記載のコンピュータプログラムプロダクト。
[43]前記オブジェクトに対する深度情報を前記プロセッサに取得させる命令をさらに含み、
前記スケール値を前記プロセッサに推定させる命令は、前記オブジェクトに対する深度情報の少なくとも一部に基づいて、前記スケール値を前記プロセッサに推定させる命令を有する[41]記載のコンピュータプログラムプロダクト。
[44]前記受信した画像を取り込んだカメラに関係する1つ以上のセンサからのセンサ情報を前記プロセッサに解析させ、
前記センサ情報の解析に基づいて、前記第1のオクターブおよび前記第2のオクターブのうちの少なくとも1つに対するオクターブレベルを前記プロセッサに決定させる命令をさらに含む[39]記載のコンピュータプログラムプロダクト。
[45]前記センサ情報を前記プロセッサに解析させる命令は、グローバルポジショニングシステム(GPS)情報を前記プロセッサに解析させ、前記受信した画像が取り込まれたときに前記カメラが屋外環境に位置付けられていたか否かを決定させる命令を含む[44]記載のコンピュータプログラムプロダクト。
[46]前記センサ情報を前記プロセッサに解析させる命令は、GPS情報を前記プロセッサに解析させ、前記受信した画像が取り込まれたときの、前記カメラに比較的近いオブジェクトのロケーションを決定させ、前記オブジェクトに対する記述データから、前記オブジェクトに対するサイズを前記プロセッサに決定させる命令を含む[44]記載のコンピュータプログラムプロダクト。
[47]前記センサ情報を前記プロセッサに解析させる命令は、前記受信した画像が取り込まれたときに、前記カメラを備えているデバイスがワイヤレスネットワークに通信可能に結合されていたか否かを示すネットワークデータに基づいて、前記カメラが屋内環境に位置付けられていたか否かを前記プロセッサに決定させる命令を含む[44]記載のコンピュータプログラムプロダクト。
[48]前記センサ情報を前記プロセッサに解析させる命令は、前記受信した画像が取り込まれたときの、前記受信した画像中の1つ以上のオブジェクトと前記カメラとの間の距離を示す深度情報を前記プロセッサに計算させる命令を含む[44]記載のコンピュータプログラムプロダクト。
[49]前記センサ情報を前記プロセッサに解析させる命令は、アクティブプロービングセンサにより提供されるデータを使用して、前記オブジェクトに対する深度値を前記プロセッサに推定させる命令を含む[44]記載のコンピュータプログラムプロダクト。
[50]前記1つ以上の記述子をサーバに送って、前記サーバに、前記1つ以上の記述子を使用して前記特徴記述子データベースに問い合わせさせるように前記プロセッサにさせる命令をさらに含み、
前記信頼値を前記プロセッサに受信させる命令は、前記問い合わせに応答して前記サーバから前記信頼値を前記プロセッサに受信させる命令を含む[39]記載のコンピュータプログラムプロダクト。

Claims (50)

  1. 画像中のオブジェクトに対するアイデンティティを決定する方法において、
    受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットを抽出することと、
    前記キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを計算することと、
    前記記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を受信し、前記結果は、前記受信した画像中のオブジェクトのアイデンティティを記述する情報を含むことと、
    前記信頼値が信頼しきい値を超えないときに、前記受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを抽出することとを含む方法。
  2. 前記信頼値が前記信頼しきい値を超えていないとの判定に応じて、前記判定に基づいて、前記第2のオクターブのぼかし画像の第2のセットから、前記キーポイントの第2のセットを抽出することと、前記キーポイントの第2のセットから、1つ以上の記述子の第2のセットを計算することと、前記記述子の第1のセットおよび前記記述子の第2のセットを含む記述子のセットにより、前記特徴記述子データベースに問い合わせることとをさらに含む請求項1記載の方法。
  3. 前記受信した画像中の前記オブジェクトに対するスケール値を推定することと、
    前記推定したスケールに基づいて、前記特徴記述子データベースの最低オクターブを選択することと、
    前記特徴記述子データベース中の前記選択した最低オクターブにおいて、または、前記特徴記述子データベース中の前記選択した最低オクターブより上で、特徴記述子をサーチするための前記特徴記述子データベースのサーチを起こすように、前記特徴記述子データベース中の最低オクターブの指示を提供することとをさらに含む請求項1記載の方法。
  4. 前記スケール値を推定することは、
    スケール空間にわたる前記キーポイントの第1のセットの分布を解析することと、
    前記キーポイントのうちのおおよそ90%がスケールレベルより下に属するように、前記分布中の前記スケールレベルに対応するカットオフポイントを決定することと、
    前記決定したカットオフポイントの関数として、前記スケール値を推定することとを含む請求項3記載の方法。
  5. 前記オブジェクトに対する深度情報を取得することをさらに含み、
    前記スケール値を推定することは、前記オブジェクトに対する深度情報の少なくとも一部に基づいて、前記スケール値を推定することを含む請求項3記載の方法。
  6. 前記受信した画像を取り込んだカメラに関係する1つ以上のセンサからのセンサ情報を解析することと、
    前記センサ情報の解析に基づいて、前記第1のオクターブおよび前記第2のオクターブのうちの少なくとも1つに対するオクターブレベルを決定することとをさらに含む請求項1記載の方法。
  7. 前記センサ情報を解析することは、グローバルポジショニングシステム(GPS)情報を解析して、前記受信した画像が取り込まれたときに前記カメラが屋外環境に位置付けられていたか否かを決定することを含む請求項6記載の方法。
  8. 前記センサ情報を解析することは、GPS情報を解析して、前記受信した画像が取り込まれたときの、前記カメラに比較的近いオブジェクトのロケーションを決定することと、前記オブジェクトに対する記述データから、前記オブジェクトに対するサイズを決定することとを含む請求項6記載の方法。
  9. 前記センサ情報を解析することは、前記受信した画像が取り込まれたときに、前記カメラを備えているデバイスがワイヤレスネットワークに通信可能に結合されていたか否かを示すネットワークデータに基づいて、前記カメラが屋内環境に位置付けられていたか否かを決定することを含む請求項6記載の方法。
  10. 前記センサ情報を解析することは、前記受信した画像が取り込まれたときの、前記受信した画像中の1つ以上のオブジェクトと前記カメラとの間の距離を示す深度情報を計算することを含む請求項6記載の方法。
  11. 前記センサ情報を解析することは、アクティブプロービングセンサにより提供されるデータを使用して、前記オブジェクトに対する深度値を推定することを含む請求項6記載の方法。
  12. 前記1つ以上の記述子をサーバに送って、前記サーバに、前記1つ以上の記述子を使用して前記特徴記述子データベースに問い合わせさせることをさらに含み、
    前記信頼値を受信することは、前記問い合わせに応答して前記サーバから前記信頼値を受信することを含む請求項1記載の方法。
  13. 画像中のオブジェクトに対するアイデンティティを決定するための装置において、
    プロセッサを具備し、
    前記プロセッサは、
    受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットを抽出し、
    前記キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを計算し、
    前記記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を受信し、前記結果は、前記受信した画像中のオブジェクトのアイデンティティを記述する情報を含み、
    前記信頼値が信頼しきい値を超えないときに、前記受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを抽出するように構成されている装置。
  14. 前記画像を取り込み、前記画像を前記プロセッサに提供するように構成されているカメラをさらに具備する請求項13記載の装置。
  15. 前記プロセッサが、前記信頼値が前記信頼しきい値を超えないと判定するときに、前記プロセッサは、
    前記判定に基づいて、前記第2のオクターブのぼかし画像の第2のセットから、前記キーポイントの第2のセットを抽出し、
    前記キーポイントの第2のセットから、1つ以上の記述子の第2のセットを計算し、
    前記記述子の第1のセットおよび前記記述子の第2のセットを含む記述子のセットにより、前記特徴記述子データベースに問い合わせるようにさらに構成されている請求項13記載の装置。
  16. 前記プロセッサは、
    前記受信した画像中の前記オブジェクトに対するスケール値を推定し、
    前記推定したスケールに基づいて、前記特徴記述子データベースの最低オクターブを選択し、
    前記特徴記述子データベース中の記述子をサーチするようにさらに構成され、
    前記サーチした記述子は、前記選択した最低オクターブにおける、または、前記選択した最低オクターブより上の、前記特徴記述子データベース中のオクターブに対応する請求項15記載の装置。
  17. 前記スケール値を推定するために、前記プロセッサは、
    スケール空間にわたる前記キーポイントの第1のセットの分布を解析し、
    前記キーポイントのうちのおおよそ90%がスケールレベルより下に属するように、前記分布中の前記スケールレベルに対応するカットオフポイントを決定し、
    前記決定したカットオフポイントの関数として、前記スケール値を計算するように構成されている請求項16記載の装置。
  18. 前記オブジェクトに対する深度情報を取得するように構成されている深度推定ユニットをさらに具備し、
    前記プロセッサは、前記オブジェクトに対する深度情報の少なくとも一部に基づいて、前記スケール値を推定するように構成されている請求項16記載の装置。
  19. 前記プロセッサは、
    前記受信した画像を取り込んだカメラに関係する1つ以上のセンサからのセンサ情報を解析し、
    前記センサ情報の解析に基づいて、前記第1のオクターブおよび前記第2のオクターブのうちの少なくとも1つに対するオクターブレベルを決定するようにさらに構成されている請求項13記載の装置。
  20. 前記装置に対するロケーション情報を決定するように構成されているグローバルポジショニングシステム(GPS)ユニットをさらに具備し、
    前記センサ情報を解析するために、前記プロセッサは、前記GPSユニットにより決定されたロケーション情報に基づいて、前記受信した画像が取り込まれたときに前記カメラが屋外環境に位置付けられていたか否かを決定するように構成されている請求項19記載の装置。
  21. 前記装置に関連するロケーション情報を決定するように構成されているGPSユニットをさらに具備し、
    前記センサ情報を解析するために、前記プロセッサは、前記GPSユニットにより決定されたロケーション情報を解析して、前記受信した画像が取り込まれたときの、前記カメラに比較的近いオブジェクトのロケーションを決定し、前記オブジェクトに対する記述データから、前記オブジェクトに対するサイズを決定するように構成されている請求項19記載の装置。
  22. ワイヤレスネットワークインターフェースをさらに具備し、
    前記センサ情報を解析するために、前記プロセッサは、前記受信した画像が取り込まれたときに、前記ワイヤレスネットワークインターフェースがワイヤレスネットワークに通信可能に結合されていたか否かを示すネットワークデータに基づいて、前記カメラが屋内環境に位置付けられていたか否かを決定するように構成されている請求項19記載の装置。
  23. 前記受信した画像を取り込んだカメラを含む少なくとも2つのカメラを備えるカメラアレイをさらに具備し、
    前記センサ情報を解析するために、前記プロセッサは、前記受信した画像が取り込まれたときの、前記受信した画像中の1つ以上のオブジェクトと前記カメラとの間の距離を示す、前記カメラアレイにより取り込まれた画像からの深度情報を計算するように構成されている請求項19記載の装置。
  24. 前記1つ以上のセンサは、前記オブジェクトに対する深度値を推定するように構成されているアクティブプロービングセンサを備える請求項19記載の装置。
  25. 前記プロセッサは、前記1つ以上の記述子をサーバに送って、前記サーバに、前記1つ以上の記述子を使用して前記特徴記述子データベースに問い合わせさせ、前記問い合わせに応答して前記サーバから前記信頼値を受信するように構成されている請求項13記載の装置。
  26. 前記装置は、
    集積回路と、
    マイクロプロセッサと、
    前記プロセッサを含むワイヤレス通信デバイスとのうちの少なくとも1つを具備する請求項13記載の装置。
  27. 画像中のオブジェクトに対するアイデンティティを決定する装置において、
    受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットを抽出する手段と、
    前記キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを計算する手段と、
    前記記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を受信し、前記結果は、前記受信した画像中のオブジェクトのアイデンティティを記述する情報を含む手段と、
    前記信頼値が信頼しきい値を超えないときに、前記受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを抽出する手段とを具備する装置。
  28. 前記信頼値が前記信頼しきい値を超えていないと判定する手段と、
    前記判定に基づいて、前記第2のオクターブのぼかし画像の第2のセットから、前記キーポイントの第2のセットを抽出する手段と、
    前記キーポイントの第2のセットから、1つ以上の記述子の第2のセットを計算する手段と、
    前記記述子の第1のセットおよび前記記述子の第2のセットを含む記述子のセットにより、前記特徴記述子データベースに問い合わせる手段とをさらに具備する請求項27記載の装置。
  29. 前記受信した画像中の前記オブジェクトに対するスケール値を推定する手段と、
    前記推定したスケールに基づいて、前記特徴記述子データベースの最低オクターブを選択する手段と、
    前記特徴記述子データベース中の前記選択した最低オクターブにおいて、または、前記特徴記述子データベース中の前記選択した最低オクターブより上で、特徴記述子をサーチするための前記特徴記述子データベースのサーチを起こすように、前記特徴記述子データベース中の最低オクターブの指示を提供する手段とをさらに具備する請求項28記載の装置。
  30. 前記スケール値を推定する手段は、
    スケール空間にわたる前記キーポイントの第1のセットの分布を解析する手段と、
    前記キーポイントのうちのおおよそ90%がスケールレベルより下に属するように、前記分布中の前記スケールレベルに対応するカットオフポイントを決定する手段と、
    前記決定したカットオフポイントの関数として、前記スケール値を推定する手段とを具備する請求項29記載の装置。
  31. 前記オブジェクトに対する深度情報を取得する手段をさらに具備し、
    前記スケール値を推定する手段は、前記オブジェクトに対する深度情報の少なくとも一部に基づいて、前記スケール値を推定する手段を備える請求項29記載の装置。
  32. 前記受信した画像を取り込んだカメラに関係する1つ以上のセンサからのセンサ情報を解析する手段と、
    前記センサ情報の解析に基づいて、前記第1のオクターブおよび前記第2のオクターブのうちの少なくとも1つに対するオクターブレベルを決定する手段とをさらに具備する請求項27記載の装置。
  33. グローバルポジショニングシステム(GPS)情報を受信する手段をさらに具備し、
    前記センサ情報を解析する手段は、前記GPS情報を解析して、前記受信した画像が取り込まれたときに前記カメラが屋外環境に位置付けられていたか否かを決定する手段を備える請求項32記載の装置。
  34. GPS情報を受信する手段をさらに具備し、
    前記センサ情報を解析する手段は、
    前記GPS情報を解析して、前記受信した画像が取り込まれたときの、前記カメラに比較的近いオブジェクトのロケーションを決定する手段と、
    前記オブジェクトに対する記述データから、前記オブジェクトに対するサイズを決定する手段とを備える請求項32記載の装置。
  35. 少なくとも1つのワイヤレスネットワークプロトコルを介して通信する手段をさらに具備し、
    前記センサ情報を解析する手段は、前記受信した画像が取り込まれたときに、前記ワイヤレスネットワークプロトコルを介して通信する手段がワイヤレスネットワークに通信可能に結合されていたか否かを示すネットワークデータに基づいて、前記カメラが屋内環境に位置付けられていたか否かを決定する手段を備える請求項32記載の装置。
  36. シーンのうちの2つ以上の画像を取り込む手段をさらに具備し、
    前記2つ以上の画像のうちの1つは、前記受信した画像を含み、
    前記センサ情報を解析する手段は、前記受信した画像が取り込まれたときの、前記受信した画像中の1つ以上のオブジェクトと前記カメラとの間の距離を示す、前記シーンのうちの2つの画像からの深度情報を計算する手段を備える請求項32記載の装置。
  37. 前記センサ情報を解析する手段は、アクティブプロービングセンサにより提供されるデータを使用して、前記オブジェクトに対する深度値を推定する手段を備える請求項32記載の装置。
  38. 前記1つ以上の記述子をサーバに送って、前記サーバに、前記1つ以上の記述子を使用して前記特徴記述子データベースに問い合わせさせる手段をさらに具備し、
    前記信頼値を受信する手段は、前記問い合わせに応答して前記サーバから前記信頼値を受信する手段を備える請求項27記載の装置。
  39. その上に記憶されている命令を有するコンピュータ読取可能記録体において、
    前記命令は、実行されるとき、
    受信した画像の第1のオクターブのぼかし画像の第1のセットから、1つ以上のキーポイントの第1のセットをプロセッサに抽出させ、
    前記キーポイントの第1のセットに対する1つ以上の記述子の第1のセットを前記プロセッサに計算させ、
    前記記述子の第1のセットにより特徴記述子データベースに問い合わせることにより生じた結果に対する信頼値を前記プロセッサに受信させ、前記結果は、前記受信した画像中のオブジェクトのアイデンティティを記述する情報を含み、
    前記信頼値が信頼しきい値を超えないときに、前記受信した画像の第2のオクターブのぼかし画像の第2のセットから、1つ以上のキーポイントの第2のセットを前記プロセッサに抽出させるコンピュータ読取可能記録媒体
  40. 前記信頼値が前記信頼しきい値を超えていないことを前記プロセッサに判定させ、
    前記判定に基づいて、前記第2のオクターブのぼかし画像の第2のセットから、前記キーポイントの第2のセットを前記プロセッサに抽出させ、
    前記キーポイントの第2のセットから、1つ以上の記述子の第2のセットを前記プロセッサに計算させ、
    前記記述子の第1のセットおよび前記記述子の第2のセットを含む記述子のセットにより、前記特徴記述子データベースに前記プロセッサに問い合わせさせる命令をさらに含む請求項39記載のコンピュータ読取可能記録媒体
  41. 前記受信した画像中の前記オブジェクトに対するスケール値を前記プロセッサに推定させ、
    前記推定したスケールに基づいて、前記特徴記述子データベースの最低オクターブを前記プロセッサに選択させ、
    前記特徴記述子データベース中の前記選択した最低オクターブにおいて、または、前記特徴記述子データベース中の前記選択した最低オクターブより上で、特徴記述子をサーチするための前記特徴記述子データベースのサーチを起こすように、前記特徴記述子データベース中の最低オクターブの指示を前記プロセッサに提供させる命令をさらに含む請求項39記載のコンピュータ読取可能記録媒体
  42. 前記スケール値を前記プロセッサに推定させる命令は、
    スケール空間にわたる前記キーポイントの第1のセットの分布を前記プロセッサに解析させ、
    前記キーポイントのうちのおおよそ90%がスケールレベルより下に属するように、前記分布中の前記スケールレベルに対応するカットオフポイントを前記プロセッサに決定させ、
    前記決定したカットオフポイントの関数として、前記スケール値を前記プロセッサに推定させる請求項41記載のコンピュータ読取可能記録媒体
  43. 前記オブジェクトに対する深度情報を前記プロセッサに取得させる命令をさらに含み、
    前記スケール値を前記プロセッサに推定させる命令は、前記オブジェクトに対する深度情報の少なくとも一部に基づいて、前記スケール値を前記プロセッサに推定させる命令を有する請求項41記載のコンピュータ読取可能記録媒体
  44. 前記受信した画像を取り込んだカメラに関係する1つ以上のセンサからのセンサ情報を前記プロセッサに解析させ、
    前記センサ情報の解析に基づいて、前記第1のオクターブおよび前記第2のオクターブのうちの少なくとも1つに対するオクターブレベルを前記プロセッサに決定させる命令をさらに含む請求項39記載のコンピュータ読取可能記録媒体
  45. 前記センサ情報を前記プロセッサに解析させる命令は、グローバルポジショニングシステム(GPS)情報を前記プロセッサに解析させ、前記受信した画像が取り込まれたときに前記カメラが屋外環境に位置付けられていたか否かを決定させる命令を含む請求項44記載のコンピュータ読取可能記録媒体
  46. 前記センサ情報を前記プロセッサに解析させる命令は、GPS情報を前記プロセッサに解析させ、前記受信した画像が取り込まれたときの、前記カメラに比較的近いオブジェクトのロケーションを決定させ、前記オブジェクトに対する記述データから、前記オブジェクトに対するサイズを前記プロセッサに決定させる命令を含む請求項44記載のコンピュータ読取可能記録媒体
  47. 前記センサ情報を前記プロセッサに解析させる命令は、前記受信した画像が取り込まれたときに、前記カメラを備えているデバイスがワイヤレスネットワークに通信可能に結合されていたか否かを示すネットワークデータに基づいて、前記カメラが屋内環境に位置付けられていたか否かを前記プロセッサに決定させる命令を含む請求項44記載のコンピュータ読取可能記録媒体
  48. 前記センサ情報を前記プロセッサに解析させる命令は、前記受信した画像が取り込まれたときの、前記受信した画像中の1つ以上のオブジェクトと前記カメラとの間の距離を示す深度情報を前記プロセッサに計算させる命令を含む請求項44記載のコンピュータ読取可能記録媒体
  49. 前記センサ情報を前記プロセッサに解析させる命令は、アクティブプロービングセンサにより提供されるデータを使用して、前記オブジェクトに対する深度値を前記プロセッサに推定させる命令を含む請求項44記載のコンピュータ読取可能記録媒体
  50. 前記1つ以上の記述子をサーバに送って、前記サーバに、前記1つ以上の記述子を使用して前記特徴記述子データベースに問い合わせさせるように前記プロセッサにさせる命令をさらに含み、
    前記信頼値を前記プロセッサに受信させる命令は、前記問い合わせに応答して前記サーバから前記信頼値を前記プロセッサに受信させる命令を含む請求項39記載のコンピュータ読取可能記録媒体
JP2013523231A 2010-07-30 2011-07-29 インクリメントな特徴抽出を使用するオブジェクト認識 Expired - Fee Related JP5654127B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US36922810P 2010-07-30 2010-07-30
US61/369,228 2010-07-30
US13/193,294 2011-07-28
US13/193,294 US8625902B2 (en) 2010-07-30 2011-07-28 Object recognition using incremental feature extraction
PCT/US2011/045942 WO2012016168A2 (en) 2010-07-30 2011-07-29 Object recognition using incremental feature extraction

Publications (2)

Publication Number Publication Date
JP2013534342A JP2013534342A (ja) 2013-09-02
JP5654127B2 true JP5654127B2 (ja) 2015-01-14

Family

ID=44534653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013523231A Expired - Fee Related JP5654127B2 (ja) 2010-07-30 2011-07-29 インクリメントな特徴抽出を使用するオブジェクト認識

Country Status (7)

Country Link
US (1) US8625902B2 (ja)
EP (1) EP2599034B1 (ja)
JP (1) JP5654127B2 (ja)
KR (1) KR101528081B1 (ja)
CN (1) CN103026368B (ja)
IN (1) IN2013CN00117A (ja)
WO (1) WO2012016168A2 (ja)

Families Citing this family (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9310892B2 (en) 2000-11-06 2016-04-12 Nant Holdings Ip, Llc Object information derived from object images
US8224078B2 (en) 2000-11-06 2012-07-17 Nant Holdings Ip, Llc Image capture and identification system and process
US7899243B2 (en) 2000-11-06 2011-03-01 Evryx Technologies, Inc. Image capture and identification system and process
US7680324B2 (en) 2000-11-06 2010-03-16 Evryx Technologies, Inc. Use of image-derived information as search criteria for internet and other search engines
US7565008B2 (en) 2000-11-06 2009-07-21 Evryx Technologies, Inc. Data capture and identification system and process
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US9071868B2 (en) * 2009-05-29 2015-06-30 Cognitive Networks, Inc. Systems and methods for improving server and client performance in fingerprint ACR systems
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US10395125B2 (en) * 2016-10-06 2019-08-27 Smr Patents S.A.R.L. Object detection and classification with fourier fans
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US20120109993A1 (en) * 2010-10-28 2012-05-03 Qualcomm Incorporated Performing Visual Search in a Network
US8965130B2 (en) * 2010-11-09 2015-02-24 Bar-Ilan University Flexible computer vision
WO2012090181A1 (en) * 2010-12-29 2012-07-05 Nokia Corporation Depth map coding
KR101165357B1 (ko) * 2011-02-14 2012-07-18 (주)엔써즈 이미지 특징 데이터 생성 장치 및 방법
US9036925B2 (en) 2011-04-14 2015-05-19 Qualcomm Incorporated Robust feature matching for visual search
US8706711B2 (en) 2011-06-22 2014-04-22 Qualcomm Incorporated Descriptor storage and searches of k-dimensional trees
US8953889B1 (en) * 2011-09-14 2015-02-10 Rawles Llc Object datastore in an augmented reality environment
JP6103243B2 (ja) * 2011-11-18 2017-03-29 日本電気株式会社 局所特徴量抽出装置、局所特徴量抽出方法、及びプログラム
US8489585B2 (en) * 2011-12-20 2013-07-16 Xerox Corporation Efficient document processing system and method
US9031326B2 (en) * 2012-02-16 2015-05-12 Sony Corporation System and method for effectively performing an image categorization procedure
ITTO20120602A1 (it) 2012-07-09 2014-01-10 Sisvel Technology Srl Method for transforming an image descriptor based on a gradient histogram and relative image processing apparatus.
WO2014023338A1 (en) * 2012-08-07 2014-02-13 Metaio Gmbh A method of providing a feature descriptor for describing at least one feature of an object representation
US20150234908A1 (en) * 2012-09-24 2015-08-20 President And Fellows Of Harvard College Techniques for data synchronization using compressive sensing
US8861793B1 (en) * 2012-11-05 2014-10-14 Pixelworks, Inc. Depth map generation based on vanishing lines and vanishing points
EP2746962B8 (en) * 2012-12-20 2018-05-16 Alcatel Lucent Method and arrangement for image retrieval based on multiple images
US9946963B2 (en) * 2013-03-01 2018-04-17 Layar B.V. Barcode visualization in augmented reality
US9202129B2 (en) * 2013-03-12 2015-12-01 Qualcomm Incorporated Reducing object detection time by utilizing space localization of features
US9924102B2 (en) * 2013-03-14 2018-03-20 Qualcomm Incorporated Image-based application launcher
US9581431B1 (en) 2014-03-18 2017-02-28 Jeffrey M. Sieracki Method and system for parallactically synced acquisition of images about common target
US9367811B2 (en) * 2013-03-15 2016-06-14 Qualcomm Incorporated Context aware localization, mapping, and tracking
US10694106B2 (en) 2013-06-14 2020-06-23 Qualcomm Incorporated Computer vision application processing
US20140374600A1 (en) * 2013-06-19 2014-12-25 Silicon Laboratories Inc. Ultraviolet Sensor
JP6261199B2 (ja) * 2013-06-21 2018-01-17 キヤノン株式会社 情報処理装置、情報処理方法、及び、コンピュータプログラム
US9336440B2 (en) * 2013-11-25 2016-05-10 Qualcomm Incorporated Power efficient use of a depth sensor on a mobile device
US10318576B2 (en) * 2013-12-12 2019-06-11 Nant Holdings Ip, Llc Image recognition verification
US9607409B2 (en) * 2013-12-23 2017-03-28 Empire Technology Development Llc Suppression of real features in see-through display
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
CN106575365B (zh) * 2014-02-28 2020-09-22 河谷控股Ip有限责任公司 对象识别特点分析系统和方法
US20150355309A1 (en) * 2014-06-05 2015-12-10 University Of Dayton Target tracking implementing concentric ringlets associated with target features
CN105224582B (zh) * 2014-07-03 2018-11-09 联想(北京)有限公司 信息处理方法和设备
US9978887B2 (en) 2014-10-28 2018-05-22 Silicon Laboratories Inc. Light detector using an on-die interference filter
US9830527B2 (en) * 2015-01-09 2017-11-28 Stmicroelectronics S.R.L. Image processing system for extraction of contextual information and associated methods
CN108337925B (zh) 2015-01-30 2024-02-27 构造数据有限责任公司 用于识别视频片段以及显示从替代源和/或在替代设备上观看的选项的方法
CN105987694B (zh) * 2015-02-09 2019-06-07 株式会社理光 识别移动设备的用户的方法和装置
CN104866873B (zh) * 2015-04-10 2018-06-26 长安大学 一种基于手机图像匹配的室内定位方法
DE102015004939A1 (de) * 2015-04-17 2016-10-20 Diehl Bgt Defence Gmbh & Co. Kg Verfahren zum Lenken eines Flugkörpers
CA2982797C (en) 2015-04-17 2023-03-14 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US9613273B2 (en) * 2015-05-19 2017-04-04 Toyota Motor Engineering & Manufacturing North America, Inc. Apparatus and method for object tracking
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
EP3323055A1 (en) 2015-07-16 2018-05-23 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
JP6903653B2 (ja) 2015-07-16 2021-07-14 インスケイプ データ インコーポレイテッド 共通メディアセグメントの検出
CN108337912A (zh) 2015-07-16 2018-07-27 构造数据有限责任公司 对视频段的未来收看的预测以优化系统资源利用
US9754182B2 (en) * 2015-09-02 2017-09-05 Apple Inc. Detecting keypoints in image data
CN105205782B (zh) * 2015-09-06 2019-08-16 京东方科技集团股份有限公司 超解像方法和系统、服务器、用户设备及其方法
CN105095919A (zh) 2015-09-08 2015-11-25 北京百度网讯科技有限公司 图像识别方法和装置
US9858498B2 (en) * 2015-09-23 2018-01-02 Qualcomm Incorporated Systems and methods for incremental object detection using dual-threshold local binary pattern operators
US9727800B2 (en) * 2015-09-25 2017-08-08 Qualcomm Incorporated Optimized object detection
US10169684B1 (en) 2015-10-01 2019-01-01 Intellivision Technologies Corp. Methods and systems for recognizing objects based on one or more stored training images
US10755380B2 (en) * 2015-11-11 2020-08-25 Texas Instruments Incorporated Down scaling images in a computer vision system
US10122996B2 (en) * 2016-03-09 2018-11-06 Sony Corporation Method for 3D multiview reconstruction by feature tracking and model registration
CN105843891A (zh) * 2016-03-22 2016-08-10 浙江大学 一种增量式的在线特征提取分析方法及系统
US10410365B2 (en) * 2016-06-02 2019-09-10 Verily Life Sciences Llc System and method for 3D scene reconstruction with dual complementary pattern illumination
CN107680028B (zh) * 2016-08-01 2020-04-21 北京百度网讯科技有限公司 用于缩放图像的处理器和方法
US20180122079A1 (en) * 2016-10-27 2018-05-03 Qualcomm Incorporated Systems and methods for determining histograms
DE102016124594A1 (de) * 2016-12-16 2018-06-21 Jena-Optronik Gmbh Verfahren zur Erfassung einer 3D-Szene mittels eines LIDAR-Systems und LIDAR-System hierzu
US20180196125A1 (en) * 2017-01-09 2018-07-12 Qualcomm Incorporated Systems and methods for lidar interference mitigation
WO2018187592A1 (en) 2017-04-06 2018-10-11 Inscape Data, Inc. Systems and methods for improving accuracy of device maps using media viewing data
JP6815290B2 (ja) * 2017-07-13 2021-01-20 ヤンマーパワーテクノロジー株式会社 物体識別システム
WO2019040339A1 (en) * 2017-08-19 2019-02-28 Wave Computing, Inc. RECONFIGURABLE MATRIX DATA ROUTING
US10095925B1 (en) * 2017-12-18 2018-10-09 Capital One Services, Llc Recognizing text in image data
US20190205693A1 (en) * 2017-12-28 2019-07-04 MorphoTrak, LLC Scale-Invariant Feature Point Extraction in Edge Map
DE112018007287T5 (de) * 2018-03-15 2020-12-10 Harman International Industries, Incorporated Fahrzeugsystem und -verfahren zum erfassen von objekten und einer objektentfernung
CN110321767B (zh) * 2018-03-30 2023-01-31 株式会社日立制作所 图像提取装置和方法、行为分析系统和存储介质
GB2572756B (en) * 2018-04-05 2020-05-06 Imagination Tech Ltd Sampling for feature detection
US10769474B2 (en) 2018-08-10 2020-09-08 Apple Inc. Keypoint detection circuit for processing image pyramid in recursive manner
EP3641275A1 (de) * 2018-10-18 2020-04-22 Siemens Aktiengesellschaft Verfahren, vorrichtung und computerprogramm zur automatischen verarbeitung von datenbezeichnern
US10956719B2 (en) * 2018-11-30 2021-03-23 Qualcomm Incorporated Depth image based face anti-spoofing
CN109635004B (zh) * 2018-12-13 2023-05-05 广东工业大学 一种数据库的对象描述提供方法、装置及设备
US10992714B2 (en) * 2019-01-07 2021-04-27 International Business Machines Corporation Certifying authenticity via dynamic dimensional coordinate scanning and decentralized data storage
CN111213155A (zh) * 2019-02-15 2020-05-29 深圳市大疆创新科技有限公司 图像处理方法、设备、可移动平台、无人机及存储介质
US11521316B1 (en) 2019-04-03 2022-12-06 Kentucky Imaging Technologies Automatic extraction of interdental gingiva regions
US11343454B2 (en) 2019-08-16 2022-05-24 Semiconductor Components Industries, Llc Imaging systems and methods for performing pixel binning and variable integration for analog domain regional feature extraction
CN110796119A (zh) * 2019-11-14 2020-02-14 深圳一块互动网络技术有限公司 一种互动阅读实现方法
CN111327827B (zh) * 2020-03-05 2023-12-26 瞬联软件科技(北京)有限公司 拍摄场景识别控制方法、装置及拍摄设备
CN114494087A (zh) * 2020-11-12 2022-05-13 安霸国际有限合伙企业 无监督的多尺度视差/光流融合
US20220188547A1 (en) * 2020-12-16 2022-06-16 Here Global B.V. Method, apparatus, and computer program product for identifying objects of interest within an image captured by a relocatable image capture device
JP7055186B2 (ja) * 2020-12-16 2022-04-15 ヤンマーパワーテクノロジー株式会社 物体識別システム
US11900662B2 (en) 2020-12-16 2024-02-13 Here Global B.V. Method, apparatus, and computer program product for training a signature encoding module and a query processing module to identify objects of interest within an image utilizing digital signatures
US11829192B2 (en) 2020-12-23 2023-11-28 Here Global B.V. Method, apparatus, and computer program product for change detection based on digital signatures
US11587253B2 (en) 2020-12-23 2023-02-21 Here Global B.V. Method, apparatus, and computer program product for displaying virtual graphical data based on digital signatures
US11830103B2 (en) 2020-12-23 2023-11-28 Here Global B.V. Method, apparatus, and computer program product for training a signature encoding module and a query processing module using augmented data
US11475240B2 (en) * 2021-03-19 2022-10-18 Apple Inc. Configurable keypoint descriptor generation
US11810266B2 (en) 2021-03-19 2023-11-07 Apple Inc. Pattern radius adjustment for keypoint descriptor generation
US11991295B2 (en) 2021-12-07 2024-05-21 Here Global B.V. Method, apparatus, and computer program product for identifying an object of interest within an image from a digital signature generated by a signature encoding module including a hypernetwork

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7009A (en) * 1850-01-08 Machinery for dressing shingles
US5850490A (en) * 1993-12-22 1998-12-15 Xerox Corporation Analyzing an image of a document using alternative positionings of a class of segments
JPH0848199A (ja) * 1994-08-09 1996-02-20 Hitachi Ltd 障害物警報システム
US5852823A (en) * 1996-10-16 1998-12-22 Microsoft Image classification and retrieval system using a query-by-example paradigm
US6236768B1 (en) * 1997-10-14 2001-05-22 Massachusetts Institute Of Technology Method and apparatus for automated, context-dependent retrieval of information
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
JP2001238177A (ja) * 1999-10-28 2001-08-31 Fuji Photo Film Co Ltd 画像処理方法および装置
US6304197B1 (en) 2000-03-14 2001-10-16 Robert Allen Freking Concurrent method for parallel Huffman compression coding and other variable length encoding and decoding
US7454037B2 (en) * 2005-10-21 2008-11-18 The Boeing Company System, method and computer program product for adaptive video processing
US7787711B2 (en) * 2006-03-09 2010-08-31 Illinois Institute Of Technology Image-based indexing and classification in image databases
JP4196302B2 (ja) 2006-06-19 2008-12-17 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7545293B2 (en) 2006-11-14 2009-06-09 Qualcomm Incorporated Memory efficient coding of variable length codes
CN101046846A (zh) * 2006-12-31 2007-10-03 北京交通大学 掌纹图像信息采集、识别装置及方法
WO2008087466A1 (en) 2007-01-17 2008-07-24 Rosen Stefanov Run-length encoding of binary sequences followed by two independent compressions
JP2008194239A (ja) 2007-02-13 2008-08-28 Toshiba Corp 画像処理装置及びその方法
US8396331B2 (en) * 2007-02-26 2013-03-12 Microsoft Corporation Generating a multi-use vocabulary based on image data
CN101419090B (zh) * 2007-10-22 2011-03-16 中国科学院声学研究所 一种目标噪声测量中的阵列噪声信号的聚焦方法
JP5151472B2 (ja) * 2007-12-27 2013-02-27 株式会社豊田中央研究所 距離画像生成装置、環境認識装置、及びプログラム
US8214139B2 (en) * 2008-01-25 2012-07-03 Garmin Switzerland Gmbh Position source selection
JP2009223527A (ja) * 2008-03-14 2009-10-01 Seiko Epson Corp 画像処理装置、画像処理方法、画像処理のためのコンピュータプログラム
JP4871909B2 (ja) * 2008-04-25 2012-02-08 日立オートモティブシステムズ株式会社 物体認識装置、および物体認識方法
US8233716B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated System and method for finding stable keypoints in a picture image using localized scale space properties
CN101327126A (zh) * 2008-07-23 2008-12-24 天津大学 人体赤足迹形态学特征提取方法
WO2010096986A1 (zh) * 2009-02-27 2010-09-02 华为技术有限公司 移动搜索方法及装置
CN101582260B (zh) * 2009-05-20 2012-01-11 王卫东 电子耳蜗中的非幅度调制语音编码方法及装置
US20100303354A1 (en) 2009-06-01 2010-12-02 Qualcomm Incorporated Efficient coding of probability distributions for image feature descriptors
US20100310174A1 (en) 2009-06-05 2010-12-09 Qualcomm Incorporated Efficient incremental coding of probability distributions for image feature descriptors
US9036925B2 (en) * 2011-04-14 2015-05-19 Qualcomm Incorporated Robust feature matching for visual search

Also Published As

Publication number Publication date
KR20130057465A (ko) 2013-05-31
WO2012016168A3 (en) 2012-06-07
EP2599034A2 (en) 2013-06-05
JP2013534342A (ja) 2013-09-02
US8625902B2 (en) 2014-01-07
US20120027290A1 (en) 2012-02-02
CN103026368A (zh) 2013-04-03
CN103026368B (zh) 2015-12-16
WO2012016168A2 (en) 2012-02-02
EP2599034B1 (en) 2015-07-08
KR101528081B1 (ko) 2015-06-10
IN2013CN00117A (ja) 2015-10-02

Similar Documents

Publication Publication Date Title
JP5654127B2 (ja) インクリメントな特徴抽出を使用するオブジェクト認識
JP6437514B2 (ja) 特徴の空間局所化を利用することによる物体検出時間の減少
KR101420550B1 (ko) 이미지 인식을 위한 기술자 패치들의 고속 서브스페이스 투영을 위한 방법, 디바이스 및 컴퓨터-판독가능 저장 매체
JP5749394B2 (ja) 視覚探索のための堅牢な特徴マッチング
KR101420549B1 (ko) 쿼리 및 모델 이미지들에서 검출된 키포인트들을 클러스터링함에 따른 특징 매칭 방법, 디바이스 그리고 프로세서 판독가능 매체
JP5911578B2 (ja) 画像の特徴点位置情報を符号化する方法、コンピュータプログラム、モバイルデバイス
JP5639277B2 (ja) ネットワークにおける視覚探索の実行
JP5563494B2 (ja) 対応参照画像検索装置及び方法、コンテンツ重畳装置、システム、及び方法、並びにコンピュータプログラム
KR20130019430A (ko) 미리 계산된 스케일-공간으로부터의 데이지 서술자 생성
CN110532413B (zh) 基于图片匹配的信息检索方法、装置、计算机设备
CN111709317B (zh) 一种基于显著性模型下多尺度特征的行人重识别方法
CN116664892A (zh) 基于交叉注意与可形变卷积的多时相遥感图像配准方法
CN115937546A (zh) 图像匹配、三维图像重建方法、装置、电子设备以及介质
JP2022541559A (ja) 視覚的測位方法及び関連装置
CN110120090B (zh) 三维全景模型构建方法、装置及可读存储介质
CN108335329B (zh) 应用于飞行器中的位置检测方法和装置、飞行器
JP2004318365A (ja) 画像検索システム、画像検索方法およびそのプログラム
Bal et al. Image‐based locating and guiding for unmanned aerial vehicles using scale invariant feature transform, speeded‐up robust features, and oriented fast and rotated brief algorithms
Abdulkadhem et al. Geo-localization of videobased on proposed LBP-SVD method
CN116977677A (zh) 基于聚类的图像特征点匹配筛选方法、装置、设备及介质
You et al. A High-Performance Image Matching and Recognition System for Multimedia Applications

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131210

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140307

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141021

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141119

R150 Certificate of patent or registration of utility model

Ref document number: 5654127

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees