JP5932992B2 - ロケーションを利用した認識 - Google Patents

ロケーションを利用した認識 Download PDF

Info

Publication number
JP5932992B2
JP5932992B2 JP2014515929A JP2014515929A JP5932992B2 JP 5932992 B2 JP5932992 B2 JP 5932992B2 JP 2014515929 A JP2014515929 A JP 2014515929A JP 2014515929 A JP2014515929 A JP 2014515929A JP 5932992 B2 JP5932992 B2 JP 5932992B2
Authority
JP
Japan
Prior art keywords
image
feature
processor
similarity
feature descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014515929A
Other languages
English (en)
Other versions
JP2014523015A (ja
JP2014523015A5 (ja
Inventor
ヘダウ,ヴァーシャ
シンハ,スディプタ
ローレンス ジトニック,チャールズ
ローレンス ジトニック,チャールズ
シェリスキ,リチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2014523015A publication Critical patent/JP2014523015A/ja
Publication of JP2014523015A5 publication Critical patent/JP2014523015A5/ja
Application granted granted Critical
Publication of JP5932992B2 publication Critical patent/JP5932992B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Description

カメラを備えるモバイル装置の急増は、モバイル装置のカメラから撮られる画像を認識することができるロケーション認識アプリケーションの必要性を高めている。モバイル装置は記憶容量及び計算資源が限られているので、視覚的なロケーション認識のタスクは、しばしば、遠隔で行われる。モバイル装置は、撮られた画像をモバイル装置からサーバへアップロードしてよい。サーバは、その画像を、サーバ上に記憶されている類似画像とマッチングする。記憶されている画像は、その画像のロケーションに関連する地理的データにより注釈を付されている。サーバは、画像のロケーションをモバイル装置にダウンロードする。しかし、モバイル装置は、サーバと通信するための帯域幅が限られている。モバイル装置とサーバとの間で画像及びデータを送信することに伴うレイテンシは、モバイル装置が実時間でロケーション認識を行う障害である。
この項目は、詳細な説明において以下で更に記載される簡単化された形態において概念の選択を導入するために設けられている。この項目は、請求対象の重要な特徴又は必須の特徴を特定するよう意図されず、且つ、請求対象の適用範囲を決定する助けとして使用されるよう意図されない。
モバイル装置は、サーバからの最小限の支援を有して実時間のロケーション認識を行う。モバイル装置の地球物理学的ロケーションは、モバイル装置からサーバへアップロードされる。サーバは、モバイル装置の地球物理学的ロケーションに基づき、コンパクトな分類子及び特徴記述子をモバイル装置に与える。次いで、モバイル装置は画像を捕捉してよく、該画像は、次いで、コンパクトな分類子及び特徴記述子を用いて分類される。この分類の結果は、画像が特定のクラス又はランドマークであるとの確率の推定である。
分類子及び特徴記述子は、オフラインのトレーニング段階を通じて生成され、計算処理を最小限にするよう構成される。実施例において、分類子は、地球物理学的ロケーション及びクラスを同じくする記憶されている画像を用いてトレーニングされるランダム決定フォレストである。ランダム決定フォレストをトレーニングする方法は、画像において存在する最も特徴的な特徴を自動選択する。これは、コンパクトであり、従って、モバイル装置へ瞬時にダウンロードされ得、更には、分類ステップのための計算がモバイル装置において実時間で実行されることを可能にする分類子をもたらす。
これら及び他の特徴及び利点は、以下の詳細な説明を読むこと及び関連する図面の見ることから明らかであろう。当然に、上記の概要及び以下の詳細な説明は、請求される態様を説明するためであり、それらの限定ではない。
ロケーションを利用した認識のための例となるシステムのブロック図を表す。 トレーニング段階のための例となる方法を表すフローチャートである。 実時間のクエリ段階のための例となる方法を表すフローチャートである。 分類子をトレーニングするための例となる方法を表すフローチャートである。 特徴抽出のための例となる方法を表すブロック図である。 密マッチングのための例となる方法を表すブロック図である。 密マッチングのための他の例となる方法を表すブロック図である。 モバイル装置からロケーションを利用した認識を行うための例となる方法を表すフローチャートである。 分類子をトレーニングするための例となる方法を表すブロック図である。 動作環境を表すブロック図である。 動作環境におけるモバイル装置の例となる構成要素を表すブロック図である。 動作環境におけるサーバの例となる構成要素を表すブロック図である。
種々の実施形態は、実時間のロケーションを利用した認識を行う技術に向けられている。ロケーション認識は、多大な記憶及び計算時間を要する計算上厄介なプロセスである。実時間のロケーション認識は、計算上効率的な技術が使用される場合に、モバイル装置にとって実用的である。ここで記載される技術は、認識の精度を下げることなくそのような計算負荷を減らすために圧縮データ構造及び技術の使用に依存する。
分類子は、モバイル装置におけるカメラによって捕捉された画像を、該画像を特定の地球物理学的ロケーション内の所定のクラス又はランドマークの組の中の1つとして分類することによって、認識するために使用されてよい。実施例において、分類子は、複数のランダム決定木を有するランダム決定フォレストであってよい。ランダム決定木は、捕捉された画像の特徴を、同じ地球物理学的ロケーション及びクラスを有するトレーニング画像と比較するために使用されてよい。クラスは、画像を記述する識別子、例えば、ランドマーク、特定の建物、又は構造物である。分類は、一連の比較を通じてルートノードからリーフノードまでランダム決定木を走査することを伴う。夫々の比較は、特定の特徴が捕捉画像において存在するかどうかを評価する二分試験に相当する。これは、最初に、捕捉画像からハミング距離のようなメトリックにより最も類似する特徴を探し、それを閾値と比較することによって、行われる。閾値は、トレーニング画像から分かる一致の可能性を定量化する。木の走査は、捕捉画像が特定のクラス又はランドマークであるとの可能性を示すリーフノードで終わる。分類は、ランダム決定フォレストにおける各ランダム決定木によって独立して行われる。各ランダム決定木を走査することにより生じる全ての確率の平均は、画像の最もありそうなクラスを推定するために使用されてよい。
実施例において、サーバは、モバイル装置をその実時間のロケーション認識において支援するために使用されてよい。サーバは、オフラインのトレーニング段階の間、夫々の地球物理学的ロケーション及びクラスについて、ランダム決定フォレストを生成する。ランダム決定フォレストにおけるランダム決定木は、地球物理学的ロケーション及びクラスを同じくする記憶された画像を用いてトレーニングされる。ランダム決定木は、画像の最も顕著な特徴を含むと解析された特徴記述子の組を用いて、生成される。
オフラインのトレーニング段階において、同じ地球物理学的ロケーションに関連するトレーニング画像は、画像の最も顕著な特徴を決定するよう解析される。特徴抽出プロセスが実行され、トレーニング画像から特徴を抽出し、それらを、特徴的な特徴を有するサブセットを選択するよう解析する。そのサブセットに含まれる夫々の特徴は、次いで、特徴記述子として知られる、よりコンパクトな表現に変換される。密マッチング(dense matching)プロセスが実行され、どの特徴記述子が画像においてより顕著な特徴を表すのかを決定する。
顕著な特徴の検索は、各画像における特徴記述子ごとに、ハミング距離のような類似度を計算することによって、実行される。この検索に伴うハミング距離の計算の回数を最小限とするために、Min−Hashプロセスが使用され、どの特徴記述子が類似しており、それによりハミング距離の計算を必要とするのかを決定する。ハミング距離の計算は、異なる特徴記述子について、それらの類似度が低めであろう場合に、回避される。各トレーニング画像に対応する特徴記述子を含むテーブルは、ランダム決定フォレストをトレーニングするために使用される。その特徴記述子の各要素は、各特徴記述子と画像全体において見られる最も類似する記述子との間の類似度を計算することによって、求められる。ランダム決定フォレストをトレーニングする方法は、様々なクラスの画像において存在する最も特徴的な特徴を自動選択する。これは、コンパクトであり、従って、モバイル装置へ瞬時にダウンロードされ得、更には、分類ステップのための計算がモバイル装置において実時間で実行されることを可能にする分類子をもたらす。
実施例において、モバイル装置は、モバイル装置の地球物理学的ロケーションのみを用いてクエリによりサーバからランダム決定フォレスト及び特徴記述子を得る。実施例において、地球物理学的ロケーションは、モバイル装置のGPS座標であってよい。このように、サーバとモバイル装置との間のデータの送受信におけるレイテンシは、最小限にされる。次いで、モバイル装置は画像を捕捉し、該画像は、次いで、ランダム決定フォレストを用いて分類される。その結果は、画像が特定のクラスである確率の推定をもたらす。ここで、ロケーションを利用した認識のための実施形態についてのより詳細な説明に注意を向ける。
図1を参照すると、ロケーションを利用した認識のためのシステム100が示されている。システム100は、1又はそれ以上のモバイル装置104と通信するサーバ102を含んでよい。実施例において、サーバ102及びモバイル装置104は、通信ネットワーク106を介して通信上結合されてよい。通信ネットワーク106は、様々なタイプの通信媒体から成ってよく、該通信媒体には、有線若しくは無線の通信媒体、又はそれらのあらゆる組み合わせが含まれてよい。例えば、モバイル装置104は、有線通信媒体を通じてサーバ102へ結合される無線アクセスポイントへ、無線通信媒体を通じて通信してよい。代替的に、モバイル装置104は、サーバ102へ直接に、無線通信媒体を通じて通信してよい。無線通信媒体は、あらゆる無線技術、例えば、制限なしで、IEEE802ファミリの無線標準、Wi−Fi、WiMax、ブルートゥース、又はそれらのあらゆる組み合わせを用いて動作してよい。
サーバ102は、制限なしで、コンピュータ、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、手持ち式コンピュータ、サーバアレイ若しくはサーバファーム、ミニコンピュータ、メインフレームコンピュータ、スーパーコンピュータ、分散型コンピューティングシステム、マルチプロセッサシステム、又はそれらの組み合わせを含んでよい。モバイル装置104は、無線通信媒体、例えば、制限なしで、パーソナルデジタルアシスタント、モバイルコンピュータ装置、スマートホン、タブレット型パーソナルコンピュータ、携帯電話機、メッセージ装置又はそれらの組み合わせを介して通信する機能を備えるあらゆる手持ち式電子機器であってよい。
サーバ102は、画像データベース108と、分類子データベース110とを有してよい。画像データベース108に記憶されている画像は、地球物理学的ロケーション及びクラス識別子を含むジオタグにより注釈を付されている。実施例において、地球物理学的ロケーションは、地球上の場所の地理的な緯度及び経度による地理座標に基づく。地球物理学的ロケーションは、2つの数として表されよい。すなわち、1つの数は、地理緯度を示し、第2の数は地理経度を示す。クラスは、画像において見られるランドマーク又は場所を特定する。例えば、クラスは、具体的な場所又は道の曲がり角、建物、山等の市街ランドマークのタイプであってよい。クラス識別子は、特定のクラスを表す整数である。画像は、どのランドマーク又は建物が対応する画像において観測されるのかを示すクラス識別子と、関連する地球物理学的ロケーションとともに、画像データベースにおいて記憶されてよい。
分類子データベース110は、分類子を含む。分類子は、同じ地球物理学的ロケーション及びクラスを有する画像の組を用いてトレーニングされる学習機能である。実施例において、分類子は、ランダム決定フォレストであってよい。ランダム決定フォレストは、ランダム決定木の組を含み、各ランダム決定木は、クラス又はランドマークの組に関して確率分布を決定するために使用される。
トレーニング段階111は、分類子を計算するための複数のフェーズを含んでよい。トレーニング段階111は、画像データベース108において記憶されるランドマークに対応する地球物理学的ロケーション及びクラスを有する画像の組を用いる。次いで、各画像は、画像修正モジュール112を通じて、その画像において存在し得る遠近歪み(perspective distortion)を除くよう修正される。画像修正は、遠近歪みが削除されるか又は最小限とされるように、異なる奥行きから撮られた画像を変換する幾何学変換である。
再現可能であり且つ異なるランドマークに一意である顕著な特徴は、特徴抽出モジュール114によって特定される。特徴抽出モジュール114は、それらの顕著な特徴の外観を、対応する画像パッチ内のペアワイズ・ピクセル比較から形成される2進列に符号化する。それらは、特徴記述子と称される。トレーニング密マッチングモジュール116は、特徴記述子の組の各記述子について、最も類似する画像パッチを検索する。画像パッチは、デジタル化された画像において顕著な特徴の位置の周囲の正方形領域内のピクセルに対応する。画像ごとに、特定の特徴記述子に最も類似する画像パッチが見つけられ、類似度が計算される。全ての特徴記述子に対応する類似度はテーブルにおいて記憶される。テーブルにおいて、画像ごとに1つの列が存在する。密マッチングは、画像全体における最も類似する特徴記述子の密検索を加速するために使用されるMin−Hashプロセスを用いて加速される。
サーバ102は、モバイル装置104に該モバイル装置の概算の地球物理学的ロケーションに対応する分類子を与えることによって、モバイル装置104を、その実時間のロケーション認識において支援する。クエリ段階の間、ロケーション支援モジュール120は、モバイル装置104の地球物理学的ロケーションを含むクエリをモバイル装置104から受け取る(ブロック122)。これに応答して、サーバ102は、モバイル装置の概算の地球物理学的ロケーションに関連する分類子及び特徴記述子の組といったデータをモバイル装置104へ返送する(ブロック124)。
モバイル装置104は、その地球物理学的ロケーションを決定するためのメカニズムを有してよい。モバイル装置104は、モバイル装置の地球物理学的ロケーションを追跡する機載衛星受信器と相互作用するロケーションモジュール127を有してよい。実施例において、機載衛星受信器は、モバイル装置のGPS座標を示すGPS信号を受信するよう構成されてよい。代替的に、ロケーションモジュール127は、セルラーネットワークとの通信において無線受信器と相互作用してよい。ロケーションモジュール127は、モバイル装置のGPS座標を決定するためにセルラーネットワークを利用してよい。
モバイル装置104は、サーバ102と相互作用するサーバインターフェースモジュール126を更に有してよい。サーバインターフェースモジュール126は、モバイル装置の地球物理学的ロケーション(例えば、GPS座標)を含むクエリをサーバへアップロードする(ブロック128)。サーバインターフェースモジュール126は、次いで、分類子及び特徴記述子等のデータをサーバ102から受信する(ブロック130)。写真捕捉モジュール132は、デジタル化された画像として記憶される対象又はランドマークの画像を捕捉するために使用されてよい。画像は、次いで、遠近歪みを除くよう画像修正モジュール134によって修正される。
クエリ段階の間、実時間密マッチングモジュール136は、ダウンロードされた特徴記述子の夫々に対応する最も類似する画像パッチを捕捉画像において密に検索することによって、捕捉画像について高次の特徴ベクトルを構築する。特徴ベクトルの各要素は、夫々のダウンロードされた特徴記述子と、捕捉画像において見られる最も類似する画像パッチ又は特徴記述子との間のハミング距離を計算することによって、求められる。Min−Hash技術が、この検索を加速するために使用される。同じMin−Hash値を有する特徴記述子の対は、類似する可能性が高い。従って、特定の特徴記述子に最も類似した記述子を検索する場合に、参照記述子のMin−Hash値とは異なるMin−Hash値を有する特徴記述子は、ハミング距離の計算を行うことなく早期に拒絶される。これは、不必要なハミング距離の計算を除き、計算全体におけるスピードアップをもたらす。
分類モジュール138は、所与の地球物理学的ロケーションに関連するクラスごとに確率推定をもたらす夫々のランダム決定木を走査するために、高次の特徴ベクトルを用いる。分類モジュール138の結果は、ディスプレイ140に表されてよく、画像においてクラスの確率によってソートされるランドマーク又は場所のリストの形をとってよい。代替的に、結果は、クラスごとに確率推定を視覚的に表すヒストグラムの形をとってよい。他の視覚的な表現が同様に分類結果を表すために使用されてよいことが、留意されるべきである。
ここで、様々な例となる方法を参照して、ロケーションを利用した認識システム100の実施形態の動作のより詳細な議論に注意を向ける。当然に、表される方法は、別段示されない限り、必ずしも、提示されている順序において、又は如何なる特定の順序においても実行される必要はない。更に、方法に関連して記載される様々な動作は、直列若しくは並列に、又は直列及び並列な動作のあらゆる組み合わせにおいて、実行され得る。方法は、設計及び性能の制約の所与の組について望まれるように、記載される実施形態又は代替の実施形態の1又はそれ以上のハードウェア要素及び/又はソフトウェア要素を用いて実施され得る。例えば、方法は、論理デバイス(例えば、汎用又は特定目的のコンピュータ)による実行のために、ロジック(例えば、コンピュータプログラム命令)として実施されてよい。
図2を参照すると、サーバ102によって実行されるトレーニングが示されている(ブロック152)。実施例において、トレーニング段階は、クエリ段階に容易に利用可能な分類子を有するために、クエリ処理からオフラインで実行される。なお、トレーニングは、意図される実施のために望まれるように、ロケーション認識プロセスにおける別な時点で実行されてよい。
図3を参照すると、サーバ102は、モバイル装置104からのクエリが係属中であるかどうかを確認してよい(ブロック156)。クエリがモバイル装置104から受信される場合(ブロック156−“はい”)、サーバ102は、モバイル装置104の概算の地球物理学的ロケーションに対応する分類子及び特徴記述子を分類子データベース110から取り出し、それらをモバイル装置104へ送信する(ブロック158)。そうではない場合(ブロック156−“いいえ”)、サーバ102は、処理を終える(ブロック160−“はい”)べきかどうかを確認し、終えるべきでない場合(ブロック160−“いいえ”)、サーバ102は続けて、モバイル装置104からのクエリを確認する。
図4は、トレーニング段階152の間に実行される動作を表すフローチャートである。最初に、画像が収集され、画像データベース108に記憶される。各画像は、上述されたように、地理的な場所及びクラスにより注釈を付される。分類子は、画像データベース108から得られる特定の地理的な場所及びクラスに対応する画像に対してトレーニングされる(ブロック170)。
画像修正モジュール112は、次いで、画像における垂直及び水平な線が夫々、修正された画像における垂直及び水平な線として見られることを確かにするよう、画像における遠近歪みを除く幾何学変換である画像修正を実行する(ブロック172)。このように、密マッチングしか、画像における全ての位置にわたって且つスケールの範囲にわたって実行される必要がない。確実に直線を検出して、それらから消失点を推定することに依存する、市街画像において捕捉される画像の画像修正を実行するための既知の技術が複数存在し、それらの技術の中のいずれかが利用されてよい。加えて、モバイル装置において存在し得るモーションセンサからのモバイル装置の3次元回転から推定を得る他の技術も、利用されてよい。
次に、特徴抽出が実行される(ブロック174)。特徴抽出モジュール114は、画像において顕著且つ一意であり、更に再現可能である外観を有する特徴の組を特定する(ブロック176)。すなわち、特徴は、同じ場面の異なる画像において現れる。実施例において、特徴の候補の組が特定される。特徴の候補の組は、ブロブ検出、エッジ検出、コーナー検出、リッジ検出、及びスケールによって影響を受けない関心点検出のためのSIFT(scale invariant feature transform)、並びにそれらの組み合わせといった複数の既知の技術の中のいずれか1つを用いて特定されてよい。かかる特徴は、各画像におけるその場所、スケール及び方位によって表される。特徴記述子は、SIFT記述子のように、各画像における候補特徴ごとに計算される。ロバストなペアワイズ・マッチングが、同じクラスを有するトレーニング画像の全ての対の間で実行される。類似すると見なされる特徴の対は、特徴記述子のサブセットを形成するよう結び付けられる。最後に、候補特徴は、このサブセット内の全ての他の特徴記述子に対して最小の総ユークリッド距離を有する特徴記述子に関連する特徴を選択することによって、このサブセットから選択される。これは、各クラスに対応する候補特徴の組が更なる使用のために選択される方法である。
次に、特徴記述子は、夫々の選択された特徴について生成されてよい(ブロック178)。各特徴の外観は、特徴記述子として符号化される。実施例において、各特徴は、一意のBRIEF(binary robust independent elementary feature)記述子によって表されてよい。この記述子は、最初に、各特徴に対応する画像パッチを32×32のピクセルパッチに再サンプリングすることによって計算される2進ベクトルである。次に、ランダムピクセルのk個の対が、この32×32のパッチ内からサンプリングされる。特徴の中心に中心を置くガウス分布が、個々のピクセル位置を無作為サンプリングするために使用される。実施例において、k=192であり、特徴記述子は192ビット長である。特徴記述子における各ビットは、特徴における2つの無作為に選択されたピクセルの間の強度レベルの比較を表す。第1のピクセルが第2のピクセルよりも高い強度を有する場合は、ビットは‘1’に設定され、第2のピクセルが第1のピクセルよりも高い強度を有する場合は、ビットは‘0’に設定される。k番目のビットは、ピクセルのk番目の対の間の比較の結果を表す。
図5を参照すると、画像180が示されている。特徴抽出モジュール114は、画像180の全体にわたって小さなボックスとして示されている複数の画像パッチ又は候補特徴を特定する。候補特徴のサブセットが選択される。例えば、特徴182が選択される。特徴182におけるピクセルの強度レベルのペアワイズ比較はブロック184において示されている。特徴抽出モジュール114は、次いで、ブロック184において示され且つ上述された比較からの結果を表す192ビットのBRIEF特徴記述子186を生成する。図5は1つの特徴についての特徴抽出モジュール114のプロセスを表すが、このプロセスは、トレーニング段階において使用される各画像の特徴ごとに実行される。そのようなものとして、単一のクラスについて生成される数百の特徴記述子が存在してよい。
図4に戻って、トレーニング密マッチングモジュール116は、特徴抽出モジュール114によって選択された特徴記述子に対して密マッチングを実行する(ブロック180)。密マッチングにおいて、各特徴は、画像の組における全ての位置及びスケールにわたって最も類似する特徴を決定するために、あらゆる画像における夫々の位置にわたってマッチングされる。類似性は、特徴記述子と、画像における画像パッチの特徴記述子との間の距離に基づく。幾つかの実施例において、最小距離はハミング距離であってよい。画像の大きなサイズ及びスケールに起因して、密マッチングは、計算時間及び記憶スペースの両方において計算上費用がかかるプロセスである。高速な認識を達成するために、Min−Hash(すなわち、最小値独立置換族(min-wise independent permutations))プロセスが、密マッチングを加速するために使用されてよい(ブロック182)。Min−Hashは、画像内の特徴記述子に対応する最も類似する画像パッチを検索する間に実行されるハミング距離の計算の回数を減らすために使用される。
Min−Hash関数は、2つの2進特徴記述子が類似するかどうかを決定する組間のJaccard類似性測度に基づく。2つの2進特徴記述子におけるビットの大部分が一致する場合は、Jaccard類似性は1により近く、特徴記述子は類似のMin−Hash値を有すると思われる。Min−Hash関数は、2進特徴記述子において含まれるビットに対する無作為置換として実施される。Min−Hash値は、その特徴記述子の無作為置換における最初の正ビット(‘1’)のインデックスである。スケッチは、独立したMin−Hash値の順序づけられたn組(n-tuple)である。記述子の対は、5つのスケッチの中の少なくとも2つが同一であると認められる場合に、類似すると見なされる(ブロック184)。
特徴記述子ごとに、画像において見られるその最も類似する記述子による類似度が、密マッチングテーブルにおいて記憶される(ブロック186)。実施例において、類似度はハミング距離である。画像yにおける特徴記述子xについての類似度は、記述子xと、画像yにおけるその最も近い一致を示す特徴記述子zとの間のハミング距離を表す。
図6は、Min−Hashプロセスを表す。図6を参照すると、多数の特徴記述子の組から2つの特徴記述子188A及び188Bが示されている。各特徴記述子188A、188Bは、5つの関連するスケッチをもたらすようMin−Hashを適用される。例示のためにのみ、図6において、夫々の特徴記述子190A、190Bについて、3つのスケッチが示されている。各スケッチ192A〜192E、194A〜194Eは5つのMin−Hash値を示し、各Min−Hash値は、BRIEF特徴記述子におけるビットの無作為置換の下で1に設定されるBRIEF特徴記述子における第1のビットのインデックスを表す。
全てのスケッチを含む組196が形成される。スケッチ198A〜Fの対の間のMin−Hash値が比較される。少なくとも2つのMin−Hash値が同じである場合は、スケッチは一致すると見なされる。図6に示されるように、スケッチ198B及び198Cは、ともに丸で囲まれて示されている同じMin−Hash値を有する。スケッチ198E及び198Fは、同じくともに丸で囲まれて示されている同じMin−Hash値を有する。スケッチ198B及び198Cに関連する特徴記述子は一致すると見なされ、スケッチ198E及び198Fに関連する特徴記述子も一致すると見なされる。ハミング距離は、2つの特徴記述子をとる関数であり、異なるビットの数を決定することによってそれらの間の距離を決定する。ハミング距離は、記述子の全ての対について、それらのスケッチの中の少なくとも2つが同じである場合に、計算される。画像における最も近い特徴記述子は、参照特徴記述子から最小ハミング距離を有する特徴記述子である。
ここで、図7を参照すると、全てのスケッチ198A〜198Fを含む組196から、一致するスケッチ198B、198C及び198E、198Fが示されている。密マッチングテーブル200は、m個の行及びn個の列を有するm×nの表として示されている。各行204A〜204Mは特徴記述子を表し、各列202A〜202Nは画像を表す。表における各セルは、特定の行に関連する特徴記述子と、特定の列に関連する画像において見られる最も類似する特徴記述子との間のハミング距離を含む。
図4に戻って、分類子トレーニングモジュール118は、分類子をトレーニングする(ブロック188)。実施例において、分類子は、ランダム決定フォレストとして実施されてよい。ランダム決定フォレストは、別個にトレーニングされる独立したランダム決定木の集合である。ランダム決定木は、内部ノード及びリーフノードを有する2分木として構成される。各内部ノードは、2つの特徴記述子の間のハミング距離を閾値と比較する特徴テストである。例えば、実施例において、特徴テストは、次のように:HD(x,s)<Tと構成されてよい。ここで、関数HD()は2つの特徴記述子の間のハミング距離であり、x及びsは特徴記述子であり、Tはsについての閾ハミング距離である。リーフノードは、クラス又はランドマークの組に対して定義されるクラスの確率分布を記憶する。
ランダム決定木は、再帰的にルートノードから始まるよう構築される。特徴記述子は、ルートノードを左右の子ノードに分割するために使用される。各ノードにおいて、分割は、ジニ不純度基準(gini impurity criteria)のような何らかの情報理論基準に基づく。各ノードにおける特徴の分割は、選択されていない残りの特徴記述子から無作為に選択される。ランダム決定木は、現在のノードにおいて分割すべき特徴記述子がもはや存在しないか、又は木の深さが所定の限界を超える場合に、成長するのを止める。特徴記述子は、所定の数のランダム決定木が形成されるまで、他のランダム決定木を無作為にトレーニングするために再び使用される。ランダム決定フォレストは、次いで、全てのランダム決定木の総集合として形成されてよい。ランダム決定フォレストは、次いで、ランダム決定フォレストをトレーニングするために使用された特徴記述子とともに、分類子データベースにおいて記憶されてよい。
ランダム決定フォレストが形成されると、各ランダム決定木は、独立した分類決定を得るために走査され得る。各ランダム決定木は、高次の特徴ベクトルを用いて上から下まで走査される。特徴ベクトルの要素の夫々は、各内部ノードにおいて特定の閾値と比較される。走査がリーフノードに達する場合に、リーフノードによって表されるクラスに関連する確率分布が記録される。各木からのクラスごとの確率は平均化されて、最終のクラス確率を決定するために使用される。
ここで、ロケーションを利用した認識においてモバイル装置104によって実行される動作に注意を向ける。図8を参照すると、モバイル装置104は、サーバ102へ、モバイル装置の地球物理学的ロケーションを含むクエリをアップロードする(ブロック222)。実施例において、モバイル装置104は、モバイル装置104の地球物理学的ロケーションを直接に取得し追跡することができる衛星又は無線トランシーバを装備されてよい。衛星又は無線トランシーバは、GPS(Global Positioning System)、GLONASS、Galileo、及びBeidou衛星を用いるGNSS(Global Navigation Satellite System)のようないずれかの衛星ポジションシステムから信号を受信するよう構成されてよい。他の実施例において、モバイル装置104は、セルラーネットワークからの無線周波数信号を受信することができる無線トランシーバを装備されてよい。無線トランシーバは、セルラーネットワークから間接的にその地球物理学的ロケーションを得て追跡するために使用され得る。実施例において、地球物理学的ロケーションは、モバイル装置の地球物理学的ロケーションに関連するGPS緯度及び経度座標から成ってよい。
モバイル装置104は、その概算の地球物理学的ロケーションに対応する分類子及び特徴記述子を受信する(ブロック224)。モバイル装置104は、ユーザが写真を捕捉する(ブロック226)ことを可能にするカメラを装備されてよい。捕捉された画像は、次いで、画像修正モジュール134によって修正されてよい(ブロック228)。他の実施例において、モーションセンサからモバイル装置の3D回転の推定を得る技術が、モバイル装置において存在する場合に画像修正を実行するために使用されてよい。
実時間の密マッチングが、ダウンロードされた特徴記述子について捕捉画像内のそれらの最も近い記述子に対する類似度を含む高次の特徴ベクトルを生成することによって、ダウンロードされた特徴記述子の夫々に対する最も近い一致を捕捉画像から探すよう実行される(ブロック230)。実時間密マッチングモジュール136は、ダウンロードされた特徴記述子と、捕捉された写真における画像パッチを表す特徴記述子とにMin−Hash技術を適用して、ダウンロードされた特徴記述子の中のどれが捕捉画像においてより類似する特徴を有するのかを特定する(ブロック232)。Min−Hash技術は、特徴記述子の夫々についてスケッチを生成し、類似するスケッチを有する特徴記述子を特定し、類似する特徴記述子について類似度を生成することにおいて、図6及び図7に関して先に記載されたように動作する。類似度の最小値は高次の特徴ベクトルにおいて記憶される(ブロック234)。
高次の特徴ベクトルは、次いで、分類を実行するために使用されてよい(ブロック236)。分類モジュール138は、様々な特徴記述子の類似度を含む高次の特徴ベクトルに基づき各ランダム決定木を走査する。分類の結果は、捕捉画像からマッチングされているクラスを表すクラスに関する確率である。結果は、確率が減少する順序において順位付けされたクラスのリストの形でユーザに表示されてよい(ブロック238)。
図9を参照すると、サーバから得られる特徴記述子242A〜242Nの組が示されている。特徴記述子242A〜242Nの夫々は、ハミング距離のような類似度の比較を通じて、捕捉画像における画像パッチを表す特徴記述子と密にマッチングされてよい。類似度は、高次の特徴ベクトル244において記録されてよい。各決定木は、当該決定木における各内部ノードに含まれる閾値及び特徴記述子に対応する類似度に基づき走査される。ランダム決定木の走査の結果は、リーフノードによって表される様々なクラスについての確率分布である。クラス確率分布は全ての木にわたって平均化され、画像の最も可能性が高いクラスが決定される。ここで、例となる動作実施形態の議論に注目を向ける。
ここで図10を参照すると、例となる動作環境300の略ブロック図が示されている。動作環境300は、1又はそれ以上のサーバ306と通信フレームワーク304を介して通信する1又はそれ上のクライアント302を有してよい。実施例において、クライアント302は、モバイル装置104として実施されてよく、サーバ306は、サーバ102として実施されてよい。
クライアント302は、ハードウェア装置、ソフトウェアモジュール、又はそれらの組み合わせとして具現されてよい。そのようなハードウェア装置の例には、コンピュータ(例えば、サーバ、パーソナルコンピュータ、ラップトップ、等)、携帯電話機、パーソナルデジタルアシスタント、又はあらゆるタイプのコンピュータ装置、等があるが、これらに限られない。また、クライアント302は、単一の実行経路、複数の同時実行経路(例えば、スレッド、プロセス、等)、又はその他の方法において実行する命令を有するソフトウェアモジュールとして具現されてよい。
サーバ306は、ハードウェア装置、ソフトウェアモジュール、又はそれらの組み合わせとして具現されてよい。そのようなハードウェア装置の例には、コンピュータ(例えば、サーバ、パーソナルコンピュータ、ラップトップ、等)、携帯電話機、パーソナルデジタルアシスタント、又はあらゆるタイプのコンピュータ装置、等があるが、これらに限られない。また、サーバ306は、単一の実行経路、複数の同時実行経路(例えば、スレッド、プロセス、等)、又はその他の方法において実行する命令を有するソフトウェアモジュールとして具現されてよい。
通信フレームワーク304は、クライアント302とサーバ306との間の通信を助ける。実施例において、通信フレームワーク304は、通信ネットワーク106として具現されてよい。通信フレームワーク304は、あらゆる通信プロトコルを用いる有線又は無線ネットワークのようなあらゆるタイプの通信媒体を体現してもよい。
図11を参照すると、モバイル装置104は、プロセッサ312、メモリ314、ネットワークインターフェース316、無線トランシーバ318、及びディスプレイ320を有してよい。プロセッサ312は、あらゆる市販のプロセッサであってよく、デュアルマイクロプロセッサ及びマルチプロセッサアーキテクチャを有してよい。ネットワークインターフェース316は、モバイル装置104とサーバ102との間に通信経路を設けるために、モバイル装置104と通信ネットワーク106との間の有線又は無線通信を助ける。無線トランシーバ318は、衛星に基づく無線信号、セルラーに基づく無線信号、及びそれらのあらゆる組み合わせであってよい無線周波数信号を送信及び受信する能力を有する。ディスプレイ320は、モバイル装置のユーザに視覚的な表現を表示することができるあらゆるタイプのスクリーンであってよい。
メモリ314は、プロセッサにより実行可能な命令、プロシージャ、アプリケーション、及びデータを記憶することができるあらゆるコンピュータ可読記憶媒体又はコンピュータ可読媒体であってよい。コンピュータ可読媒体は、搬送波により送信される変調データ信号のような伝播信号とは関係がない。それは、あらゆるタイプのメモリデバイス(例えば、ランダムアクセスメモリ、読出専用メモリ、等)、磁気記憶装置、揮発性記憶装置、不揮発性記憶装置、光学記憶装置、DVD、CD、フロッピー(登録商標)ドライブ、ディスクドライブ、フラッシュメモリ、等であってよい。メモリ314はまた、1以上の外部記憶装置又は遠隔に置かれた記憶装置を有してよい。メモリ314は、次のような命令及びデータを含んでよい:
・オペレーティングシステム320;
・ロケーションモジュール127;
・写真捕捉モジュール132;
・画像修正モジュール134;
・実時間密マッチングモジュール136;
・分類モジュール138;
・サーバインターフェースモジュール126;及び
・様々な他のアプリケーション及びデータ322。
図12を参照すると、サーバ102は、プロセッサ330、メモリ332、及びネットワークインターフェース334を有してよい。プロセッサ330は、あらゆる市販のプロセッサであってよく、デュアルマイクロプロセッサ及びマルチプロセッサアーキテクチャを有してよい。ネットワークインターフェース334は、モバイル装置104とサーバ102との間に通信経路を設けるために、サーバ102と通信ネットワーク106との間の有線又は無線通信を助ける。
メモリ332は、プロセッサにより実行可能な命令、プロシージャ、アプリケーション、及びデータを記憶することができるあらゆるコンピュータ可読記憶媒体又はコンピュータ可読媒体であってよい。コンピュータ可読媒体は、搬送波により送信される変調データ信号のような伝播信号とは関係がない。それは、あらゆるタイプのメモリデバイス(例えば、ランダムアクセスメモリ、読出専用メモリ、等)、磁気記憶装置、揮発性記憶装置、不揮発性記憶装置、光学記憶装置、DVD、CD、フロッピードライブ、ディスクドライブ、フラッシュメモリ、等であってよい。メモリ332はまた、1以上の外部記憶装置又は遠隔に置かれた記憶装置を有してよい。メモリ332は、次のような命令及びデータを含んでよい:
・オペレーティングシステム336;
・画像データベース108;
・画像修正モジュール112;
・特徴抽出モジュール114:
・トレーニング密マッチングモジュール116;
・分類子トレーニングモジュール118;
・ロケーション支援モジュール120;
・分類子データベース110;及び
・他のアプリケーション及びデータ338。
ここで記載される技術は、モバイル装置が遠隔サーバからの支援を有して高速な実時間のロケーション認識を実行することを可能にするという利点を与える。当該技術は、通信媒体に起因するレイテンシを改善するために、モバイル装置とサーバとの間で送信されるデータの量を最小限とする。画像全体ではなく、地球物理学的な位置座標がサーバへ送信される。ランダム決定フォレストをトレーニングするアプローチは、様々なランドマークを区別するための最も特徴的な特徴を自動選択する。このアプローチは、より高速にダウンロードすることができ且つ低帯域幅通信アプリケーションとって有益であるよりコンパクトなデータ構造であるランダム決定フォレストをもたらす。かかる技術は、モバイル装置が実時間のロケーション認識の要求を満たすことを可能にする。
対象は、構造的な特徴及び/又は方法論的な動作に特有の言語において記載されてきたが、特許請求の範囲において定義される対象は、必ずしも、記載される具体的な特徴又は動作に制限されないことが理解されるべきである。むしろ、具体的な特徴及び動作は、特許請求の範囲を実施する例となる形態として開示される。
例えば、システム100の様々な実施形態は、ハードウェア要素、ソフトウェア要素、又はそれらの組み合わせにより実施されてよい。ハードウェア要素の例には、デバイス、コンポーネント、プロセッサ、マイクロプロセッサ、回路、回路素子、集積回路、特定用途向け集積器回路、プログラム可能論理デバイス、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ、メモリユニット、論理ゲート等がある。ソフトウェア要素の例には、ソフトウェアコンポーネント、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、機械プログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、関数、方法、プロシージャ、ソフトウェアインターフェース、アプリケーションプログラムインターフェース、命令セット、コンピュータコード、コードセグメント、及びそれらのあらゆる組み合わせがある。実施形態がハードウェア要素及び/又はソフトウェア要素により実施されるかどうかを決定することは、所与の実施について望まれるような所望の計算速度、電力レベル、帯域幅、計算時間、負荷バランス、メモリ資源、データバス速度、及び他の設計又は性能の制約等の要因のいずれかに従って変化しうる。
幾つかの実施形態は、命令又はロジックを記憶する記憶媒体を有してよい。記憶媒体の例には、揮発性メモリ又は不揮発性メモリ、リムーバブル又は非リムーバブルメモリ、消去可能又は消去不可能メモリ、書込可能又は書換可能メモリ、等を含む、電子データを記憶することができる1又はそれ以上のタイプのコンピュータ可読記憶媒体がある。ロジックの例には、プログラム、プロシージャ、モジュール、アプリケーション、コードセグメント、プログラムスタック、ミドルウェア、ファームウェア、方法、ルーチン等のような様々なソフトウェアコンポーネントがある。実施例において、例えば、コンピュータ可読記憶媒体は、プロセッサによって実行される場合に、プロセッサに、記載される実施形態に従って方法及び/又は動作を実行させる実行可能なコンピュータプログラム命令を記憶してよい。実行可能なコンピュータプログラム命令は、特定の機能を実行するようコンピュータに指示するための、予め定義されたコンピュータ言語、方法又はシンタックスに従って実施されてよい。命令は、あらゆる適切なハイレベル、ローレベル、オブジェクト指向の、視覚的な、コンパイルされた及び/又は解釈されたプログラミング言語を用いて実施されてよい。
様々な実施形態において、ここで記載されるシステム100は、複数のコンポーネント、プログラム、プロシージャ、モジュールを備える、コンピュータにより実施されるシステムを有してよい。ここで使用されるように、それらの用語は、ハードウェア、ハードウェア及びソフトウェアの組み合わせ、又はソフトウェアのいずれかを有する、コンピュータ関連エンティティに言及するよう意図される。例えば、コンポーネントは、プロセッサで実行されるプロセス、ハードディスクドライブ、(光学及び/又は磁気記憶媒体の)複数の記憶デバイス、オブジェクト、実行ファイル、実行のスレッド、プログラム、及び/又はコンピュータとして実施されてよい。例として、サーバで実行されるアプリケーション及びサーバは両方とも、コンポーネントであってよい。1又はそれ以上のコンポーネントが実行のスレッド及び/又はプロセス内に存在してよく、コンポーネントは、所与の実施のために望まれるように、1のコンピュータにおいてローカライズされ、且つ/あるいは、2又はそれ以上のコンピュータの間で分配されてよい。実施形態はこの態様において制限されない。
上記の実施形態に加えて、以下の付記を開示する。
(付記1)
地球学的ロケーションに関連する第1の組の特徴記述子及びコンパクト分類子を受け取るステップと、
前記地球学的ロケーションに関連する、未知のクラスを有する画像を捕捉するステップと、
前記捕捉された画像から第2の組の特徴記述子を生成するステップと、
前記第2の組に含まれる各特徴記述子により、前記第1の組に含まれる特徴記述子ごとにMin−Hash値を計算するステップと、
前記第1の組に含まれる特徴記述子と類似するMin−Hash値を有する前記第2の組に含まれる特徴記述子ごとに類似度を生成するステップと、
前記捕捉された画像のクラスを決定するよう前記類似度に基づき前記コンパクト分類子を前記捕捉された画像へ適用するステップと
を有する、コンピュータによって実施される方法。
(付記2)
第1の装置の地球物理学的ロケーションを含むリクエストにより、前記第1の装置から前記コンパクト分類子を要求するステップを更に有し、
前記コンパクト分類子は、前記第1の装置から遠く離れて位置する第2の装置によって受け取られる、
付記1に記載の方法。
(付記3)
前記コンパクト分類子は、複数のランダム決定木を有するランダム決定フォレストであり、
前記コンパクト分類子を前記捕捉された画像へ適用するステップは、
前記捕捉された画像が前記ランダム決定木のうちの特定の1つに関連する特定のクラスと一致する確率を得るよう、前記第2の組の特徴記述子の類似度に基づき各ランダム決定木を走査することを含む、
付記1に記載の方法。
(付記4)
前記確率は確率分布を有し、
当該方法は、前記捕捉された画像に関連しそうなクラスを決定するよう、全ての前記ランダム決定木にわたってクラス毎にそれぞれの確率分布を平均するステップを更に有する、
付記3に記載の方法。
(付記5)
ランダム決定木の各ノードは、閾値と関連づけられ、
各ランダム決定木を走査することは、前記第2の組の特徴記述子の類似度を、ランダム決定木に含まれる各ノードに関連する閾値と比較することを含む、
付記3に記載の方法。
(付記6)
各特徴記述子は、BRIEF特徴記述子である、
付記1に記載の方法。
(付記7)
各対が前記第1の組からの1つの特徴記述子及び前記第2の組のからの他の1つの特徴記述子とを含む特徴記述子の対についてMin−Hash値を決定し、類似したMin−Hashを有する対について類似度を計算することにより、類似度に基づき第3の組の特徴記述子を特定するステップ
を更に有する付記1に記載の方法。
(付記8)
前記類似度はハミング距離に基づく、
付記1に記載の方法。
(付記9)
前記コンパクト分類子及び前記特徴記述子は、オフラインのトレーニングフェーズを通じて生成される、
付記1に記載の方法。
(付記10)
当該方法は、モバイル装置において実施される、
付記1に記載の方法。
(付記11)
プロセッサによって実行される場合に、該プロセッサに、
1又はそれ以上の特徴記述子を得る動作と、
捕捉された画像に関して、特徴記述子ごとに類似度を決定する動作であって、前記類似度は、特徴記述子と当該捕捉された画像における画像パッチとの最も近い一致を表し、前記捕捉された画像における画像パッチと一致する特徴記述子について計算され、該一致する特徴記述子は、Min−Hashプロセスを用いて決定される、動作と、
前記類似度の使用により前記捕捉された画像を認識する動作と
を実行させるプロセッサ実行可能命令を記憶するコンピュータ可読記憶媒体。
(付記12)
前記プロセッサ実行可能命令は、前記プロセッサによって実行される場合に、該プロセッサに更に、
地球学的ロケーションに関連する特徴記述子を取得するために使用される前記地球学的ロケーションを決定する動作を
実行させる、付記11に記載のコンピュータ可読記憶媒体。
(付記13)
前記プロセッサ実行可能命令は、前記プロセッサによって実行される場合に、該プロセッサに更に、
前記特徴記述子に関連する地球学的ロケーションに関連する分類子を取得する動作と、
前記捕捉された画像があるクラスに関連する少なくとも1つの確率を決定するよう前記特徴記述子及び類似度に前記分類子を適用する動作と
を実行させる、請求項11に記載のコンピュータ可読記憶媒体。
(付記14)
前記プロセッサ実行可能命令は、前記プロセッサによって実行される場合に、該プロセッサに更に、
前記類似度の決定より前に前記捕捉された画像を修正する動作
を実行させる、付記11に記載のコンピュータ可読記憶媒体。
(付記15)
前記プロセッサ実行可能命令は、前記プロセッサによって実行される場合に、該プロセッサに更に、
前記類似度をハミング距離として表す動作と、
一致する画像パッチを有すると特定される特徴記述子について前記ハミング距離を計算する動作と
を実行させる、付記11に記載のコンピュータ可読記憶媒体。
(付記16)
プロセッサによって実行される場合に、該プロセッサに、
共通の地球物理学的ロケーションに関連する1又はそれ以上のトレーニング画像から、1又はそれ以上の特徴記述子を得る動作と、
各トレーニング画像に関して、特徴記述子ごとに、当該特徴記述子と当該トレーニング画像における画像パッチに対応する全ての特徴記述子の中の最も類似した特徴記述子との間の類似を表す類似度を決定し、それらの一致する特徴記述子が、当該トレーニング画像に関して当該特徴記述子に適用されるMin−Hashプロセスを用いて加速されるハミング距離計算を行うことによって決定される、動作と、
前記類似度の使用により分類子をトレーニングする動作と
実行させるプロセッサ実行可能命令を記憶するコンピュータ可読記憶媒体。
(付記17)
前記プロセッサ実行可能命令は、前記プロセッサによって実行される場合に、該プロセッサに更に、
より顕著な特徴を有する前記トレーニング画像における画像パッチから前記特徴記述子を選択する動作
を実行させる、付記16に記載のコンピュータ可読記憶媒体。
(付記18)
前記プロセッサ実行可能命令は、前記プロセッサによって実行される場合に、該プロセッサに更に、
1又はそれ以上のランダム決定木を前記分類子として生成する動作
を実行させ、
各ランダム決定木は、前記特徴記述子と前記類似度とを用いてトレーニングされる、
付記16に記載のコンピュータ可読記憶媒体。
(付記19)
前記プロセッサ実行可能命令は、前記プロセッサによって実行される場合に、該プロセッサに更に、
前記類似度をハミング距離として表す動作と、
トレーニング画像における画像パッチと一致する特徴記述子について前記ハミング距離を計算する動作と
を実行させる、付記16に記載のコンピュータ可読記憶媒体。
(付記20)
前記プロセッサ実行可能命令は、前記プロセッサによって実行される場合に、該プロセッサに更に、
類似するMin−Hash値を有する特徴記述子を決定するよう前記特徴記述子にMin−Hashを適用する動作と、
類似するMin−Hashスケッチを有する特徴記述子について前記ハミング距離を計算する動作と
を実行させる、付記19に記載のコンピュータ可読記憶媒体。

Claims (10)

  1. 地球学的ロケーションに関連する第1の組の特徴記述子及びコンパクト分類子を受け取るステップと、
    前記地球学的ロケーションに関連する、未知のクラスを有する画像を捕捉するステップと、
    前記捕捉された画像から第2の組の特徴記述子を生成するステップと、
    前記第2の組に含まれる各特徴記述子により、前記第1の組に含まれる特徴記述子ごとにMin−Hash値を計算するステップと、
    前記第1の組に含まれる特徴記述子と類似するMin−Hash値を有する前記第2の組に含まれる特徴記述子ごとに類似度を生成するステップと、
    前記捕捉された画像のクラスを決定するよう前記類似度に基づき前記コンパクト分類子を前記捕捉された画像へ適用するステップと
    を有する、コンピュータによって実施される方法。
  2. 第1の装置の地球物理学的ロケーションを含むリクエストにより、前記第1の装置から前記コンパクト分類子を要求するステップを更に有し
    前記コンパクト分類子は、前記第1の装置から遠く離れて位置する第2の装置によって受け取られる、
    請求項1に記載の方法。
  3. 前記コンパクト分類子は、複数のランダム決定木を有するランダム決定フォレストであり、
    前記コンパクト分類子を前記捕捉された画像へ適用するステップは、
    前記捕捉された画像が前記ランダム決定木のうちの特定の1つに関連する特定のクラスと一致する確率を得るよう、前記第2の組の特徴記述子の類似度に基づき各ランダム決定木を走査することを含む、
    請求項1に記載の方法。
  4. 前記確率は確率分布を有し、
    当該方法は、前記捕捉された画像に関連しそうなクラスを決定するよう、全ての前記ランダム決定木にわたってクラス毎にそれぞれの確率分布を平均するステップを更に有する、
    請求項3に記載の方法。
  5. ランダム決定木の各ノードは、閾値と関連づけられ、
    各ランダム決定木を走査することは、前記第2の組の特徴記述子の類似度を、ランダム決定木に含まれる各ノードに関連する閾値と比較することを含む、
    請求項3に記載の方法。
  6. プロセッサによって実行される場合に、該プロセッサに、
    1又はそれ以上の特徴記述子を得る動作と、
    捕捉された画像に関して、特徴記述子ごとに類似度を決定する動作であって、前記類似度は、特徴記述子と当該捕捉された画像における画像パッチとの最も近い一致を表し、前記捕捉された画像における画像パッチと一致する特徴記述子について計算され、該一致する特徴記述子は、Min−Hashプロセスを用いて決定される、動作と、
    前記類似度の使用により前記捕捉された画像を認識する動作と
    を実行させるプロセッサ実行可能命令を記憶するコンピュータ可読記憶媒体。
  7. プロセッサによって実行される場合に、該プロセッサに、
    共通の地球物理学的ロケーションに関連する1又はそれ以上のトレーニング画像から、1又はそれ以上の特徴記述子を得る動作と、
    各トレーニング画像に関して、特徴記述子ごとに、当該特徴記述子と当該トレーニング画像における画像パッチに対応する全ての特徴記述子の中の最も類似した特徴記述子との間の類似を表す類似度を決定し、それらの一致する特徴記述子が、当該トレーニング画像に関して当該特徴記述子に適用されるMin−Hashプロセスを用いて加速されるハミング距離計算を行うことによって決定される、動作と、
    前記類似度の使用により分類子をトレーニングする動作
    実行させるプロセッサ実行可能命令を記憶するコンピュータ可読記憶媒体。
  8. 前記プロセッサ実行可能命令は、前記プロセッサによって実行される場合に、該プロセッサに更に、
    より顕著な特徴を有する前記トレーニング画像における画像パッチから前記特徴記述子を選択する動作
    実行させる、請求項に記載のコンピュータ可読記憶媒体。
  9. 前記プロセッサ実行可能命令は、前記プロセッサによって実行される場合に、該プロセッサに更に、
    1又はそれ以上のランダム決定木を前記分類子として生成する動作
    実行させ
    各ランダム決定木は、前記特徴記述子と前記類似度とを用いてトレーニングされる、
    請求項に記載のコンピュータ可読記憶媒体。
  10. 前記プロセッサ実行可能命令は、前記プロセッサによって実行される場合に、該プロセッサに更に、
    前記類似度をハミング距離として表す動作と、
    トレーニング画像における画像パッチと一致する特徴記述子について前記ハミング距離を計算する動作
    実行させる、請求項に記載のコンピュータ可読記憶媒体。
JP2014515929A 2011-06-17 2012-06-13 ロケーションを利用した認識 Active JP5932992B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/162,591 2011-06-17
US13/162,591 US9152882B2 (en) 2011-06-17 2011-06-17 Location-aided recognition
PCT/US2012/042106 WO2012174024A1 (en) 2011-06-17 2012-06-13 Location-aided recognition

Publications (3)

Publication Number Publication Date
JP2014523015A JP2014523015A (ja) 2014-09-08
JP2014523015A5 JP2014523015A5 (ja) 2015-07-09
JP5932992B2 true JP5932992B2 (ja) 2016-06-08

Family

ID=47353707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014515929A Active JP5932992B2 (ja) 2011-06-17 2012-06-13 ロケーションを利用した認識

Country Status (6)

Country Link
US (1) US9152882B2 (ja)
EP (1) EP2721884A4 (ja)
JP (1) JP5932992B2 (ja)
KR (1) KR101895647B1 (ja)
CN (1) CN103609178B (ja)
WO (1) WO2012174024A1 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9152882B2 (en) * 2011-06-17 2015-10-06 Microsoft Technology Licensing, Llc. Location-aided recognition
US9298982B2 (en) * 2011-07-26 2016-03-29 Xerox Corporation System and method for computing the visual profile of a place
WO2013019561A1 (en) * 2011-07-29 2013-02-07 Karyopharm Therapeutics, Inc. Nuclear transport modulators and uses thereof
US8666169B2 (en) * 2011-10-24 2014-03-04 Hewlett-Packard Development Company, L.P. Feature descriptors
US20130130729A1 (en) * 2011-11-21 2013-05-23 Ronald Steven Cok User method for making event-related media collection
US8738633B1 (en) 2012-01-31 2014-05-27 Google Inc. Transformation invariant media matching
US8774509B1 (en) * 2012-03-01 2014-07-08 Google Inc. Method and system for creating a two-dimensional representation of an image based upon local representations throughout the image structure
SG194265A1 (en) * 2012-05-02 2013-11-29 Agency Science Tech & Res A system for learning trail application creation
US9298494B2 (en) 2012-05-14 2016-03-29 Qualcomm Incorporated Collaborative learning for efficient behavioral analysis in networked mobile device
US9609456B2 (en) 2012-05-14 2017-03-28 Qualcomm Incorporated Methods, devices, and systems for communicating behavioral analysis information
US9324034B2 (en) * 2012-05-14 2016-04-26 Qualcomm Incorporated On-device real-time behavior analyzer
US9202047B2 (en) 2012-05-14 2015-12-01 Qualcomm Incorporated System, apparatus, and method for adaptive observation of mobile device behavior
US9690635B2 (en) 2012-05-14 2017-06-27 Qualcomm Incorporated Communicating behavior information in a mobile computing device
US9319897B2 (en) 2012-08-15 2016-04-19 Qualcomm Incorporated Secure behavior analysis over trusted execution environment
US9747440B2 (en) 2012-08-15 2017-08-29 Qualcomm Incorporated On-line behavioral analysis engine in mobile device with multiple analyzer model providers
US9495537B2 (en) 2012-08-15 2016-11-15 Qualcomm Incorporated Adaptive observation of behavioral features on a mobile device
US9330257B2 (en) 2012-08-15 2016-05-03 Qualcomm Incorporated Adaptive observation of behavioral features on a mobile device
US8996583B2 (en) * 2012-09-28 2015-03-31 Emc Corporation Interactive visual data mining for increasing classification accuracy
US9686023B2 (en) 2013-01-02 2017-06-20 Qualcomm Incorporated Methods and systems of dynamically generating and using device-specific and device-state-specific classifier models for the efficient classification of mobile device behaviors
US10089582B2 (en) 2013-01-02 2018-10-02 Qualcomm Incorporated Using normalized confidence values for classifying mobile device behaviors
US9684870B2 (en) 2013-01-02 2017-06-20 Qualcomm Incorporated Methods and systems of using boosted decision stumps and joint feature selection and culling algorithms for the efficient classification of mobile device behaviors
US9742559B2 (en) 2013-01-22 2017-08-22 Qualcomm Incorporated Inter-module authentication for securing application execution integrity within a computing device
US9491187B2 (en) 2013-02-15 2016-11-08 Qualcomm Incorporated APIs for obtaining device-specific behavior classifier models from the cloud
US9058683B2 (en) * 2013-02-21 2015-06-16 Qualcomm Incorporated Automatic image rectification for visual search
JP6278042B2 (ja) * 2013-04-05 2018-02-14 日本電気株式会社 情報処理装置、及び、画像処理方法
RU2643465C2 (ru) * 2013-06-18 2018-02-01 Общество с ограниченной ответственностью "Аби Девелопмент" Устройства и способы, которые используют иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы
US9558426B2 (en) * 2014-04-24 2017-01-31 Nant Holdings Ip, Llc Robust feature identification for image-based object recognition
US9684826B2 (en) * 2014-08-28 2017-06-20 Retailmenot, Inc. Reducing the search space for recognition of objects in an image based on wireless signals
US9495619B2 (en) * 2014-12-30 2016-11-15 Facebook, Inc. Systems and methods for image object recognition based on location information and object categories
US10043097B2 (en) 2015-03-10 2018-08-07 Fringefy Ltd. Image abstraction system
US10055672B2 (en) * 2015-03-11 2018-08-21 Microsoft Technology Licensing, Llc Methods and systems for low-energy image classification
US10268886B2 (en) 2015-03-11 2019-04-23 Microsoft Technology Licensing, Llc Context-awareness through biased on-device image classifiers
US10846610B2 (en) * 2016-02-05 2020-11-24 Nec Corporation Scalable system and method for real-time predictions and anomaly detection
EP3504663B1 (en) 2016-08-26 2024-08-14 Nokia Technologies Oy Method, apparatus and computer program for removing weather elements from images
US10818188B2 (en) * 2016-12-13 2020-10-27 Direct Current Capital LLC Method for dispatching a vehicle to a user's location
US10331978B2 (en) 2017-01-31 2019-06-25 Wipro Limited Method and a system for generating a multi-level classifier for image processing
US10997120B2 (en) * 2017-03-16 2021-05-04 Cisco Technology, Inc. Systems and methods for device visiting frequency estimation
US10346717B1 (en) * 2017-04-19 2019-07-09 The United States Of America As Represented By The Secretary Of The Navy System and method for thresholding of local image descriptors
US10554957B2 (en) * 2017-06-04 2020-02-04 Google Llc Learning-based matching for active stereo systems
US11493348B2 (en) 2017-06-23 2022-11-08 Direct Current Capital LLC Methods for executing autonomous rideshare requests
US11501522B2 (en) * 2017-12-06 2022-11-15 Nec Corporation Image recognition model generating device, image recognition model generating method, and image recognition model generating program storing medium
CN109960539A (zh) * 2017-12-21 2019-07-02 广东欧珀移动通信有限公司 应用程序预加载方法、装置、存储介质及移动终端
US11341736B2 (en) * 2018-03-01 2022-05-24 Intel Corporation Methods and apparatus to match images using semantic features
US10657388B2 (en) * 2018-03-13 2020-05-19 Honda Motor Co., Ltd. Robust simultaneous localization and mapping via removal of dynamic traffic participants
US10592780B2 (en) 2018-03-30 2020-03-17 White Raven Ltd. Neural network training system
WO2019212537A1 (en) 2018-05-01 2019-11-07 Google Llc Accelerated large-scale similarity calculation
CN110674208B (zh) * 2018-07-03 2022-12-02 百度在线网络技术(北京)有限公司 用于确定用户的职住地信息的方法和装置
CN110209859B (zh) 2019-05-10 2022-12-27 腾讯科技(深圳)有限公司 地点识别及其模型训练的方法和装置以及电子设备
CN113841152B (zh) * 2019-10-10 2022-11-15 格步计程车控股私人有限公司 用于确定道路交叉路口的方法、数据处理装置和计算机程序产品
CN111353011B (zh) * 2020-02-27 2024-05-17 北京市商汤科技开发有限公司 地点数据集及其建立方法和装置、数据处理方法和装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118573A (ja) 2002-09-26 2004-04-15 Fuji Photo Film Co Ltd 画像整理装置およびプログラム
US7774158B2 (en) 2002-12-17 2010-08-10 Evolution Robotics, Inc. Systems and methods for landmark generation for visual simultaneous localization and mapping
US20050063563A1 (en) 2003-09-23 2005-03-24 Soliman Samir S. System and method for geolocation using imaging techniques
US7734779B1 (en) * 2005-08-25 2010-06-08 Gregory Alexander Piccionelli Password protection system and method
US7663671B2 (en) 2005-11-22 2010-02-16 Eastman Kodak Company Location based image classification with map segmentation
US8073263B2 (en) 2006-07-31 2011-12-06 Ricoh Co., Ltd. Multi-classifier selection and monitoring for MMR-based image recognition
US8150098B2 (en) * 2007-12-20 2012-04-03 Eastman Kodak Company Grouping images by location
US8406531B2 (en) * 2008-05-15 2013-03-26 Yahoo! Inc. Data access based on content of image recorded by a mobile device
US20100009713A1 (en) * 2008-07-14 2010-01-14 Carl Johan Freer Logo recognition for mobile augmented reality environment
JP5349004B2 (ja) * 2008-10-27 2013-11-20 Kddi株式会社 コンテンツ検索システムおよびコンテンツ検索プログラム
US8385660B2 (en) * 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
US8391611B2 (en) 2009-10-21 2013-03-05 Sony Ericsson Mobile Communications Ab Methods, systems and computer program products for identifying descriptors for an image
US8180146B2 (en) 2009-12-22 2012-05-15 The Chinese University Of Hong Kong Method and apparatus for recognizing and localizing landmarks from an image onto a map
US9501714B2 (en) * 2010-10-29 2016-11-22 Qualcomm Incorporated Systems and methods to improve feature generation in object recognition
US9152882B2 (en) * 2011-06-17 2015-10-06 Microsoft Technology Licensing, Llc. Location-aided recognition
FR2984559B1 (fr) * 2011-12-20 2015-10-23 Morpho Identification d'individus par calcul securise
KR20140102038A (ko) * 2013-02-13 2014-08-21 삼성전자주식회사 영상 정합 장치 및 영상 정합 방법
US20140337375A1 (en) * 2013-05-07 2014-11-13 Exeray Inc. Data search and storage with hash table-based data structures

Also Published As

Publication number Publication date
US9152882B2 (en) 2015-10-06
JP2014523015A (ja) 2014-09-08
EP2721884A4 (en) 2015-04-15
US20120321175A1 (en) 2012-12-20
EP2721884A1 (en) 2014-04-23
WO2012174024A1 (en) 2012-12-20
CN103609178B (zh) 2017-05-31
KR20140043393A (ko) 2014-04-09
CN103609178A (zh) 2014-02-26
KR101895647B1 (ko) 2018-09-05

Similar Documents

Publication Publication Date Title
JP5932992B2 (ja) ロケーションを利用した認識
US20210224998A1 (en) Image recognition method, apparatus, and system and storage medium
CN109101602B (zh) 图像检索模型训练方法、图像检索方法、设备及存储介质
Milford Vision-based place recognition: how low can you go?
Cao et al. Graph-based discriminative learning for location recognition
JP6099793B2 (ja) 1つ以上の画像処理アルゴリズムの自動選択のための方法およびシステム
Sun et al. A dataset for benchmarking image-based localization
US9292766B2 (en) Techniques for ground-level photo geolocation using digital elevation
KR101399804B1 (ko) 회전 불변형 특징 디스크립터를 이용한 추적 및 인식을 위한 방법 및 장치
Majdik et al. Air‐ground matching: Appearance‐based GPS‐denied urban localization of micro aerial vehicles
US20120011119A1 (en) Object recognition system with database pruning and querying
US20220148302A1 (en) Method for visual localization and related apparatus
CN111222395A (zh) 目标检测方法、装置与电子设备
JP5563494B2 (ja) 対応参照画像検索装置及び方法、コンテンツ重畳装置、システム、及び方法、並びにコンピュータプログラム
WO2012006580A1 (en) Feedback to improve object recognition
US10943321B2 (en) Method and system for processing image data
US11830218B2 (en) Visual-inertial localisation in an existing map
JP2019185787A (ja) 地理的地域内のコンテナのリモート決定
CN115115856A (zh) 图像编码器的训练方法、装置、设备及介质
US10853972B2 (en) Apparatus for processing image and method thereof
CN111488771B (zh) Ocr挂接方法、装置与设备
US20200058158A1 (en) System and method for object location detection from imagery
Bouaziz Visual SLAM with automatic map update in dynamic environments
Sharma et al. GANTAVYA: A LANDMARK RECOGNITION SYSTEM
KR102249380B1 (ko) 기준 영상 정보를 이용한 cctv 장치의 공간 정보 생성 시스템

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150519

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150519

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150523

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160428

R150 Certificate of patent or registration of utility model

Ref document number: 5932992

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250