JP7318239B2 - 地図画像背景から位置を推定するためのシステム、方法、及びプログラム - Google Patents

地図画像背景から位置を推定するためのシステム、方法、及びプログラム Download PDF

Info

Publication number
JP7318239B2
JP7318239B2 JP2019045894A JP2019045894A JP7318239B2 JP 7318239 B2 JP7318239 B2 JP 7318239B2 JP 2019045894 A JP2019045894 A JP 2019045894A JP 2019045894 A JP2019045894 A JP 2019045894A JP 7318239 B2 JP7318239 B2 JP 7318239B2
Authority
JP
Japan
Prior art keywords
map
nearest neighbor
image
captured image
electronic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019045894A
Other languages
English (en)
Other versions
JP2020030795A (ja
Inventor
ケネディー リンドン
クーパー マシュー
アイマン シャンマ デービッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2020030795A publication Critical patent/JP2020030795A/ja
Application granted granted Critical
Publication of JP7318239B2 publication Critical patent/JP7318239B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Description

例示的な実装形態の態様は、物理的地図の画像を取り込み、畳み込みニューラルネットワーク及び最近傍アルゴリズムを使用して当該地図の地理位置情報を抽出する方法、システム、プログラム、及びインタフェースに関する。
従来技術では、1人又は複数のユーザは、実世界の情報を伝達することを意図した画像又はその他の視覚データに遭遇する場合がある。そのような画像又はその他の視覚データには、これらに限定されないが、時刻表、メニュー、図形、及びグラフが含まれうる。具体的な例として、地図は、1人又は複数のユーザが遭遇しうる情報視覚化である。たとえば、これらに限定されないが、地図は、鉄道の駅にいるユーザに提供される地図などのように、実際にその場所にいるユーザに、周囲の地理的な関係を表現した描写を表示することができる。同様に、地図は、レストランなどの施設の予約の際に確認したり、受領書などの中で、ユーザが受け取る追加情報として含まれていてもよい。
ある位置に物理的に設置された地図や印刷された地図は、新しい場所に向かう際1人又は複数のユーザを助けることができるが、それらの地図は、恒久的に看板に貼り付けられていたり、物理的な形態のみの場合がある。結果として、1人又は複数のユーザは、地図上の関連情報を電子的に取り込むことができず、ひいては、地図から位置的に離れる際に、看板状の地図の情報を一緒に持ち歩くことができない。たとえば、図1Aは、(たとえば、公共のディスプレイに)印刷された従来技術の地図100を示す。この例では地図は、反射コーティングを施した物理標識上の観光情報地図である。地図は物理的な物体なので、それはメタデータなどのいかなる標示も含まない。
一方、1人又は複数のユーザは、通常、パーソナルモバイルスマートデバイスなどの電子通信装置上に対話式に表示された地図を使用して、自分の現在位置や方向を把握し、端末上の地図を使ってナビゲートする場合がある。たとえば、図1Bは、携帯電話に表示された地図(たとえば、現地語で「あなたはここにいる」というピンドロップマーキング(pin drop marking)を有する)などの、オンラインモバイルアプリケーションに固有の従来技術の地図101を示し、図1Aの物理的地図100と同様の領域をカバーする。しかしながら、地図100は電子的な情報ではなく、いかなるメタデータももたず、物理的な地図にすぎない。
したがって、地図100は、地図101と電子的に関連付けられていない。さらに、様々な電子地図を手動で取得し比較して、自動リアルタイム方式で最も適合する地図を特定する総当り(brute force)手法は利用できない。
したがって、従来技術では、固定又は印刷された物理的な地図から情報を抽出し、オンラインモバイルアプリケーションに情報を送る手法に関して、満たされていないニーズが存在する。
BROMLEY, J. et al., "Signature Verification using a "Siamese" Time Delay Neural Network" In Advance in Neural Information Processing Systems, 1993年, pp. 737-744 HADSELL, R. et al. "Dimensionality Reduction by Learning an Invariant Mapping" In Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference, 2015年11月, 第2巻, pp. 1735-1742 KALANTIDIS, Y. "Locally Optimized Product Quantization for Approximate Nearest Neighbor Search" In Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition, 2014年 LI, X. et al., "Learning Social Tag Relevance by Neighbor Voting" IEEE Transactions on Multimedia, 2009年11月,11巻7号,pp. 1310-1322 MOHEDANO, R. et al., "Camera Localization Using Trajectories and Maps" IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014年4月,第36巻4号,pp. 684-697 HAYS, J. "IM2GPS: estimating geographic information from a single image", In Computer Vision and Pattern Recognition, 2008年 KENNEDY, L. et al., "How Flickr Helps us Make Sense of the World: Context and Content in Community Contributed Media Collections" In Proceedings of the 15th ACM International Conference on Multimedia, 2007年9月, pp. 631-640 CHOI, J., et al. "The Placing Task: A Large-Scale Geo-Estimation Challenge for Social-Media Videos and Images" In Proceedings of the 3rd ACM Multimedia Workshop on Geotagging and Its Applications in Multimedia, 2014年,pp. 27-31
本開示の技術は、非電子情報である地図を電子情報である地図と関連付けるコンピュータ実装システム、方法、及びプログラムを提供することを目的とする。
例示的な実装形態の態様は、非電子情報である地図を電子情報である地図と関連付けるコンピュータ実装方法を含み、本方法は、取得されたオンラインデータ集合に対して、畳み込みニューラルネットワーク(CNN)を適用して、スタイル不変かつ位置可変の地図表現のデータベースを生成し、地理的位置のメタデータをもたない、非電子情報である地図に関連付けられた取込み画像に対して、最近傍ヒューリスティックを適用して取込み画像を地図表現と比較し、取込み画像と地図表現との間の一致を生成し、一致に関連付けられた表示動作を実行することを含む。
例示的な実装形態の追加的態様は、地図表現と取込み画像との一致のオーバーレイを提供することからなる表示動作を含む。
例示的な実装形態のさらなる態様は、各々が同一の畳み込み及び重みを有する複数のサブネットワークを有する深層シャム畳み込みニューラルネットワーク(Siamese convolutional neural network)を含む畳み込みニューラルネットワークを含み、サブネットワークの各々の最終レイヤの出力が対比損失(contrastive loss)比較の対象となり、対比損失比較の結果に基づいて重みが更新される。サブネットワークの各々は、入力として地図表現の一つをそれぞれ受信し、複数の連続する畳み込みレイヤを順番に含み、対比損失比較への出力を提供する1又は複数の全結合レイヤがこれらに続く。
本方法は、前記最近傍ヒューリスティックの適用前に、粗い地理情報を統合することをさらに含み、前記粗い地理情報が、都市レベルの最近の地理情報を含んでいてもよい。
例示的な実装形態の他の態様は、問合せ(クエリ)としての取り込まれた画像について、局所最適化直積量子化(locally optimized product quantization:LOPQ)によってインデックス付けされたデータベースに最近傍ヒューリスティックを適用して、所定数の最近傍一致(nearest match)を取得し、真の距離に基づいて最近傍一致を並べ替え、提案GPS座標を画像に提供することを含む、最近傍ヒューリスティックを含む。
例示的な実装形態の態様はまた、色選択及びレンダリング(描画)スタイルのうちの少なくとも1つを含むスタイル不変の地図表現を含み、位置可変表現はGPS座標に関連付けられる。
さらに、例示的な実装形態の態様は、ビデオからの1又は複数の画像を含む非電子情報である地図及び電子情報である地図の少なくとも一方を含む。
別の例示的な実装態様は、コンピュータに非電子情報である地図を電子情報である地図と関連付ける方法を実行させるプログラムであって、前記方法が、取得されたオンラインデータ集合に対して、畳み込みニューラルネットワークのアプリケーションによってスタイル不変及び位置可変の地図表現のデータベースを生成し、地理的位置のメタデータをもたないと共に前記非電子である地図に関連付けられた取込み画像に対して、最近傍ヒューリスティックを適用して前記取込み画像を前記地図表現と比較し、前記取込み画像と前記地図表現との間の一致を生成し、前記一致に関連付けられた表示動作を実行することを含む。
前記表示動作が、前記地図表現と前記取込み画像との一致のオーバーレイを提供することを含んでいてもよい。
前記畳み込みニューラルネットワークが、各々が同一の畳み込み及び重みを有する複数のサブネットワークを有する深層シャム畳み込みニューラルネットワークを含み、前記サブネットワークの各々の最終レイヤの出力が対比損失比較の対象となり、前記重みが前記対比損失比較の結果に基づいて更新され、前記サブネットワークの各々が、入力として前記地図表現の一つをそれぞれ受信し、複数の連続する畳み込みレイヤを順番に含み、前記対比損失比較への出力を提供する1又は複数の全結合レイヤがこれらに続くよう構成されていてもよい。
本プログラムにおいて、前記最近傍ヒューリスティックの適用前に、粗い地理情報を統合することをさらに含み、前記粗い地理情報が、都市レベルの最近の地理情報を含んでいてもよい。
前記最近傍ヒューリスティックが、問合せとしての前記取り込まれた画像について、局所最適化直積量子化(LOPQ)によってインデックス付けされた前記データベースに前記最近傍ヒューリスティックを適用して、所定数の最近傍一致を取得し、真の距離に基づいて前記最近傍一致を並べ替え、前記画像に提案GPS座標を提供することを含んでいてもよい。
前記スタイル不変の地図表現が色選択及びレンダリングスタイルのうちの少なくとも1つを含み、前記位置可変表現がGPS座標に関連付けられていてもよい。
前記非電子情報である地図及び前記電子情報である地図の少なくとも一つが、ビデオからの1又は複数の画像を含んでいてもよい。
また別の例示的な実装態様は、プロセッサ及び記憶装置を含み、1又は複数の画像を取り込んでメディアオブジェクトを生成するように構成された画像取込み装置であって、前記プロセッサが、地理的位置のメタデータをもたないと共に前記非電子情報である地図に関連付けられた画像を取り込み、取得されたオンラインデータ集合に対して最近傍ヒューリスティックを適用して、前記取込み画像を、畳み込みニューラルネットワークの適用によって取得されたスタイル不変及び位置可変の地図表現のデータベースと比較し、前記取込み画像と前記地図表現との間の一致を生成し、前記一致に関連付けられた表示動作を実行するための命令を受信することのために前記取込み画像を提供することを実行する。
前記表示動作が、前記地図表現と前記取込み画像との一致のオーバーレイを提供することを含んでいてもよい。
前記畳み込みニューラルネットワークが、各々が同一の畳み込み及び重みを有する複数のサブネットワークを有する深層シャム畳み込みニューラルネットワークを含み、前記サブネットワークの各々の最終レイヤの出力が対比損失比較の対象となり、前記重みが前記対比損失比較の結果に基づいて更新され、前記サブネットワークの各々が、入力として前記地図表現の一つをそれぞれ受信し、複数の連続する畳み込みレイヤを順番に含み、前記対比損失比較への出力を提供する1又は複数の全結合レイヤがこれらに続き、前記最近傍ヒューリスティックの適用前に、前記取得されたオンラインデータ集合の範囲を狭めるために粗い地理情報が統合され、前記粗い地理情報が、都市レベルの最近の地理情報を含んでいてもよい。
前記最近傍ヒューリスティックが、問合せとしての前記取り込まれた画像について、局所最適化直積量子化(LOPQ)によってインデックス付けされた前記データベースに前記最近傍ヒューリスティックを適用して、所定数の最近傍一致を取得し、真の距離に基づいて前記最近傍一致を並べ替え、前記画像に提案GPS座標を提供することを含んでいてもよい。
前記スタイル不変の地図表現が色選択及びレンダリングスタイルのうちの少なくとも1つを含み、前記位置可変表現がGPS座標に関連付けられていてもよい。
前記非電子情報である地図及び前記電子情報である地図の少なくとも一つが、ビデオからの1又は複数の画像を含んでいてもよい。
本特許又は出願ファイルは、カラーで制作された少なくとも1つの図面を含む。カラー図面を有する本特許又は出願の刊行物の写しは、請求及び必要な手数料の支払いを行うと米国特許庁によって提供される。
従来技術の物理的地図を示す図である。 従来技術の携帯電話地図を示す図である。 例示的な実装形態による、位置推定のためのデータフローを示す図である。 例示的な実装形態による、訓練データセット内の異なるレンダリングスタイルの地図タイルの例を示す図である。 例示的な実装形態による、位置ベースの地図画像類似性を学習するために使用されるシャムネットワークアーキテクチャ(siamese network architecture)を示す図である。 例示的な実装形態による方法を示す図である。 例示的な実装形態における使用に適した例示的なコンピュータ装置を有する例示的なコンピューティング環境を示す図である。 いくつかの例示的な実装形態に適した例示的な環境を示す図である。
以下の詳細な説明は、本出願の図及び例示的な実装形態のさらなる詳細を提供する。図面間において重複する要素の参照番号及び説明は、明確性のため省略されている。説明全体にわたって使用される用語は例として提供され、限定するものではない。たとえば、これに限定されないが、本明細書で使用される「地図タイル」という用語は、緯度/経度の組合せなどの地理的位置標示に関連付けられた地理的タイルを指してもよい。
例示的な実装形態の態様は、メタデータをもたない物理的に表示された地図に関連付けられた地理的位置情報を抽出するための方法に関し、当該地図の画像は、カメラ又は他のデジタル構造を介して取り込まれる。たとえば、これに限定されないが、カメラを介して取り込まれた、現実世界の地図に関連付けられた地図画像の場合、例示的な実装形態は地図画像を世界において位置特定し、データベースからの表現が決定され、全地球測位システム(GPS)座標を返す。所望により、物理的地図の画像内に取り込まれた元の物理的地図からの注釈は、データベースから提供された最も近い一致に追加されてもよい。また、所望により、粗い地理情報(たとえば、都市又は地域のスケールなどの、座標よりも広いスケールでの最近の地理情報)も、初期(たとえば、粗い)フィルタとして提供され探索空間の初期の絞り込みを実現するために使用されてもよい。次いで、GPS座標がマッピング及びナビゲーションのためにスマートデバイス内で使用されてもよい。
例示的な手法を実装するために、方法に関連付けられた作業は、大規模なコンテンツベースの画像検索を含む。動作中、既知の地理座標を有する地図画像の大きい集合が集められる。物理的地図に関連付けられ、いかなるメタデータももたない、ユーザによって提供される問合せ画像の場合、現実世界の地図の画像と地図画像の集合との間の最も近い一致がデータベースから識別される。たとえば、これに限定されないが、データベースは、オープンソースの自由に利用可能なデータベースから供給されてもよい。結果として、問合せに応答して、一致した画像の地理座標が返される。上述のように、データベースからの地図画像の収集を限定するために、最近の地理情報(たとえば、最近の都市レベルの地理情報)に基づくより幅広いレベルのフィルタがさらに使用されてもよい。
例示的な実装形態によれば、深層シャム畳み込みニューラルネットワークは、訓練データ(たとえば、集められた訓練データ)に対して訓練され、様々な異なるスタイルでレンダリングされた地図画像の位置的な意味を取り込むように学習し、埋め込み(embedding)を行う。
たとえば、これに限定されないが、集められた訓練データは、地図がレンダリングされるスタイルにかかわらず、同じ位置を描写する地図タイルを特徴空間内で近くに保つ表現を学習するために適用されてもよい。さらに、大きな集合にわたるインデックス付け及び検索が、近似最近傍などのアルゴリズムの使用によって実行されてもよい。しかしながら、他のヒューリスティック又は探索が最近傍アルゴリズムに代わって使用されてもよい。
学習された埋め込みは、地図画像の集合にわたって類似性検索を行うための特徴空間として適用される。たとえば、これに限定されないが、考慮されるべき探索空間を狭めることにより探索を加速するために、粗い地理情報(たとえば、地域レベル又は都市レベルの最近の地理情報)が使用されてもよい。
例示的な実装形態に関連付けられた地理情報は、ナビゲーションのためにユーザによって適用されてもよいが、本発明はそれに限定されない。たとえば、これに限定されないが、当業者に知られているように、他の用途のために地図が利用されてもよい。
大規模なコンテンツベースの画像検索を実行するために、情報抽出は、メタデータをもたない非電子情報である物理的地図に関連付けられた、取得された地図画像から自動位置特定を行うために、いくつかの重要な(キーとなる)構成要素に従って実行されてもよい。これらの構成要素には、これらに限定されないが、地図画像への地理的参照をもつ大規模データベース、依然として地理的意味を取り込むことが可能ながら、地図スタイルに対して不変である(たとえば、地図のスタイルに依存しない)地図表現を作成するための方法、及び高次元特徴ベクトルの大きな集合にわたって最近傍探索を行うための方法が含まれる。上述のように、探索を加速するために、探索は、都市レベルの最近の地理情報に基づいて境界又は限定されてもよい。
図2は、位置推定の方法に関連付けられた、例示的な実装形態によるデータフロー200を示す。図の中で、破線矢印はオフライン処理を示し、実線矢印はテスト時間(たとえば、大規模データベース生成用の動作時間)に実行される処理を示す。
データフローによれば、入力画像201が最初に分割され、地図サブ領域が検出される。それに応じて、203において、地図上の関心領域(ROI)の検出が実行される。205において、検出されたサブ領域が特徴抽出のために入力される。サブ領域は、その特徴表現を抽出するために、シャムネットワーク内のCNNサブネットワークのいずれかに入力されてもよい。画像データの変動性が高いため、他の特徴に対する不変性を保ちながら、ある特徴を強調する必要があるかもしれない。207において、画像と位置との間の関連付けに基づく訓練データのセットを適用することにより、特徴抽出205は、オフライン(たとえば、非リアルタイム)処理の一部として、209において、埋め込まれた情報と位置との間の関連付けを有する訓練データを生成することができる。
205での特徴抽出が完了すると、埋め込まれた情報を位置と関連付ける情報を含む訓練データ209も使用することにより、データベース内で最も類似する訓練インスタンスを識別するために、最近傍ヒューリスティック又はアルゴリズムが211において適用される。それに応じて、213において対応する位置が最終推定値として返される。
所望により、局所的に最適化された直積量子化(LOPQ;locally optimized product quantization)などのモデルを使用する最近傍アルゴリズム211は、低信頼シナリオで応答を禁止するために閾値処理された信頼度として特徴付けることができる、特徴空間内の距離を返してもよい。同様に、データベースは、複数のソースからの同じ位置を表す地図タイルを含んでもよい。トップリターンの結果セットで表される異なる場所を調停するために、投票手法が適用されてもよい。上記で説明されたように、破線矢印は、ネットワーク訓練に続いてオフラインで抽出することができる訓練データ用の特徴を示し、実線矢印は、リアルタイムなどのテスト時間に実行される処理を示すが、それらに限定されない。
例示的な実装形態によれば、201で提供された入力画像の物理的なオブジェクトの周りにメタデータが作成されてもよい。さらに、メタデータを有する既存のファイルへのリンクが提供されてもよい。
上記205に示されたように、深層シャム畳み込みニューラルネットワークは、地図の意味を反映する地図画像の特徴空間埋め込み、及び地図用の複数のレンダリングスタイルにわたって地図を比較するために使用できる重要な合図(cue)を学習することを対象とする。シャムニューラルネットワークでは、訓練インスタンスがペアとして提示される。ペアは、正解ラベリング(ground truth labeling)に従って、類似していない又は類似していると特定される。各ペア内の各画像は、次いで、構造及び重み付けパラメータの両方において同一である双子サブネットワークを通される。
各ネットワークの終端で出力される表現は、たとえば、これに限定されないが、対比損失(contrastive loss)関数を使用して比較される。対比損失関数は、正解(ground truth)類似ペアの間のユークリッド近似に報酬を与える一方、正解(ground truth)非類似見本の近いペアにペナルティを課す。比較の目的は、画像間の位置ベースの類似性を捉えており、かつ、色の選択、レンダリングスタイル、又は描写されている実際の位置と実質的に無関係のその他の表示態様に対して不変であるという表現を、ニューラルネットワークが学習することである。
前述の例示的な実装形態では、生の入力画像は複数のソースから収集されてもよい。たとえば、1つの非限定的で例示的な実装形態によれば、生の入力画像は、OpenStreetMap(登録商標)及びStamenから取得され、256×256ピクセルのサイズを有する。データを集めるために、対象都市などの対象物理的地理位置に関連付けられた境界ボックスに対して問合せが実行される。次いで、都市ごとに、対応する地図タイル画像のすべてがダウンロードされる。上記で説明されたように、探索空間は、粗い地理情報(たとえば、都市レベルの最近の地理情報)を適用することによって狭められてもよい。
各地図タイルは、/z/x/y.pngという形式の具体的なURLをもつことができ、ここで、zは現在のズームレベルであり、lon=x/z・360-180であり、lat=arctan(sinh(π-y/2))・180/πである。したがって、所与のタイトルのURLについて、そのタイルのIon/lat(経度/緯度)境界ボックスを計算することができる。さらに、データセットは、たとえば、Stamen Designによって提供され得るものなどの、位置の様々な他のレンダリングによって拡張されてもよい。前述のレンダリングは、OpenStreetMap(登録商標)からの同じ基礎をなす地理空間情報を使用するが、それらはまったく異なるように見える地図画像をレンダリングする。
たとえば、図3(a)~(d)は、訓練データセット内の異なるレンダリングスタイルの地図タイルの例を示す。より具体的には、図3(a)はOpenStreetMap(登録商標)レンダリング301を示し、図3(b)は地形レンダリング303を示し、図3(c)はトナーレンダリング305を示し、図3(d)は水彩レンダリング307を示す。例示的な実装形態によれば、描写されている実際の位置とは無関係の異なるレンダリングスタイルにかかわらず、表現及び類似性の分析は、位置ベースの類似性を対象とし、異なるレンダリングスタイルに対して不変である。レンダリングはさらに64×64ピクセルにダウンサンプリングされ、グレースケールに変換されてもよい。
得られた205の出力は、図4に示されたシャムネットワークへの入力として提供される。より具体的には、ネットワーク400は、双子サブネットワーク410及び420から構成される。サブネットワーク410、420の各々は、複数の完全畳み込みレイヤ405a~405d及び407a~407dをそれぞれ含む。本例では、完全畳み込みレイヤ用の実装形態が提供される。しかしながら、当業者によって理解されるように、完全畳み込みレイヤの数は変更されてもよい。
レイヤ405a~405d及び407a~407dの各々は畳み込みを含み、その後に最大プーリング(max-pooling)及びReLU活性化関数が続く。次いで、各サブネットワーク内の最終畳み込みレイヤの出力が平坦化され、1又は複数の全結合レイヤを介して供給される。本例示的な実装形態では、1024次元の全結合レイヤ409a、409b及び411a、411bが提供される。この例示的な実装形態では、第1のレイヤ409a、411aはReLU活性化関数を有し、第2のレイヤ409b、411bはシグモイド活性化関数を有する。次いで、両方のサブネットワーク410、420の最終レイヤ409b、411bからの出力が、たとえば、対比損失413を使用して比較される。この比較に基づいて、両方のネットワークに対する重みが同じように更新される。
上記のように、サブネットワーク410、420は、同じ数の共有重み、畳み込み、接続されたレイヤなどを有する。このように入力401、403は互いに比較され、地図情報を含むデータベースが構築される。画像が類似している場合、より細かいレイヤ409b、411bは類似性に報酬を与え、非類似性にペナルティを課す。
したがって、一組の地図タイル位置をランダムに選択することによって、「類似」画像のペアが定義される。位置ごとに、ランダム選択を実行して利用可能なレンダリングスタイルのうちの2つを取得し、これら2つの例をネットワークへの肯定的な訓練例として供給してもよい。さらに、2つの別個の画像タイル位置をランダムに選択することで、同数の「非類似」画像をバッチごとの集合からランダムに選択し、次いで各位置について1つのレンダリングスタイルをランダムに選択し、それらの画像を否定的な訓練例として供給する。
モデルが訓練されると、画像のデータベース全体が双子サブネットワークの1つに供給され、最終レイヤでの出力が画像ごとの特徴空間表現として保持される。問合せ時において、新しく未知の画像も、それらの特徴表現を抽出するためにネットワークに供給されてもよく、同様の画像を照会するために使用されてもよい。
上記で説明されたように、211において、最近傍探索が行われる。この探索は、高次元ベクトルを粗いサブ空間にインデックス付けするために、LOPQなどを使用して、迅速且つ大規模に行われてもよい。上記で説明されたように、探索は、粗い地理情報(たとえば、都市レベルの最近の地理情報)の使用によって加速されてもよい。従って、近似最近傍探索が提供され、これは、高速応答時間を有する単一機械上の数十億の規模の項目に対して動作する。より具体的には、データベース内のすべての画像がLOPQインデックスに配置される。
入ってくる問合せ画像に対し、LOPQは、1000個の最近傍一致などの、所定数の最近傍一致を見つけるために使用される。LOPQは、最近傍のおおよそのランク付けを提供する。従って、所定数、たとえば1000個の返された最近傍画像の各々について特徴ベクトルが検索され、画像は真の距離に基づいて並べ替えられる。次いで、問合せ画像に対する提案GPS座標として、並べ替え後の最も近い画像のGPS座標が返される。この入力に基づいて、地図タイルが決定されてもよい。
例示的な実装形態は、様々な利益及び利点を有することができる。たとえば、例示的な実装形態は、コンテンツベースの画像検索を、地図などの非写実的地理的指向画像に適用して、地図画像のデータベースから抽出された地理的メタデータを用いて、遭遇した地図を拡張することができる。対照的に、従来技術は、コンテンツベースの画像検索を実行するための追加のメタデータ、及び大規模な集合で見つかった画像に関連付けられた他のメタデータを用いて画像を充実させること、又はランドマーク画像を位置特定することに焦点を当てている。
従来技術の手法は、ソーシャルメディアサイト上のユーザの行動を集約したジオタグに基づいて、ランドマークを識別して位置を特定するために、巨大なソーシャルに貢献されたマルチメディアコレクションをマイニングし、ソーシャルコミュニティーのコレクションで見つかった共通の視点に基づいて、ランドマークの視覚的外観をモデリングすることによって機能しようとしている。しかしながら、例示的な実装形態は、従来技術で使われているような特定の位置からの写真画像ではなく、地図やその他の視覚化表現などのようなグラフィック表現を対象とする。
前述の例示的な実装形態は、カメラによって取り込まれた物理的地図の画像を対象としているが、本発明の概念はそれに限定されない。たとえば、これに限定されないが、ビデオ内の地図画像からの位置特定及び推定を実行するために、フレーム単位で、又はビデオベースなどで、前述の手法が採用されてもよい。
さらに、例示的な実装形態は、モバイル装置内の地図アプリケーションの文脈で示されているが、本発明の概念が採用され得る実装形態はこれに限定されない。たとえば、これに限定されないが、入力情報は、物理的位置にある物理的地図ではなく、パンフレット又はガイドブックからもたらされてもよい。さらに、複数の言語のうちの1又は複数が、個別に採用されるか、又はモデル内で混合されてもよい。また、出力は地図アプリケーションを対象にするだけでなく、レストランアプリケーション、ホテルアプリケーション、観光若しくは旅行アプリケーション、又はナビゲーション機能と共に使用され得る他のオンラインアプリケーションなどの他のアプリケーションに統合されてもよい。
例示的な実装形態に基づく方法によれば、以下の動作が実行されてもよい。ユーザは、物理的地図の画像を取り込むことができ、例示的な実装形態は、画像から地図を抽出することができる。さらに、例示的な実装形態は、物理的地図の画像にピンドロップなどの他の特徴を追加することができる。CNN及びニューラルネットワーク、並びに最近傍アルゴリズムを使用して、データベース内の最も近い既存の地図タイルが提供されてもよい。ユーザは、提供された最も近い既存の地図タイルが一致するかどうかに対して、投票するか、さもなければ入力を提供する機会を提供されてもよい。さらに、訓練データ内の情報に対して計算が実行されてもよく、候補が装置固有のナビゲーションツールに表示されてもよい。さらに、データベースからのタイルは、物理的地図上に透明又は半透明のオーバーレイとして提供されてもよい。
図5は、例示的な実装形態による例示的な処理500を示す。501において、データ集合が取得される。上述されたように、データ集合は、1又は複数のフォーマットを有する1又は複数のソースから取得されてもよい。異なるフォーマットのレンダリングを標準化するか、又はさらに下流での処理のためにフォーマットを変換するために、取得されたデータに対して演算が実行されてもよい。
503において、地理的位置情報に基づく相違を維持しながら、レンダリング、色などに関して不変である地図タイルなどの地図表現を含むデータベースが生成される。さらに、モデルを訓練し、画像のデータベース全体を入力するために、深層シャム畳み込みニューラルネットワークが使用される。
505において、メタデータをもたない物理的地図の取込み画像が提供される。例えば、これに限定されないが、取込み画像は、上述されたように、ユーザによって鉄道駅内の地図の写真を撮ることで取り込まれてもよい。
507において、505の取込み画像を503のデータベースと比較するために探索が実行される。たとえば、データベースと取込み画像との間の最も近い一致を特定するために、最近傍アルゴリズムが利用されてもよい。
509において、探索の結果及び取込み画像が表示動作により提供される。例えば、これに限定されないが、探索の結果は、取込み画像上のオーバーレイとして提供されてもよい。
図6は、いくつかの例示的な実装形態における使用に適した例示的なコンピュータ装置605を有する例示的なコンピューティング環境600を示す。コンピューティング環境600内のコンピュータ装置605は、1若しくは複数の処理ユニット、コア、若しくはプロセッサ610、メモリ615(たとえば、RAM、ROMなど)、内部記憶装置620(たとえば、磁気記憶装置、光記憶装置、半導体記憶装置、及び/若しくは有機記憶装置)、及びI/Oインタフェース625を含むことができ、これらのうちのいずれも、情報を通信するための、又はコンピュータ装置605内に組み込まれた、通信機構又はバス630上で結合することができる。
コンピュータ装置605は、入力/インタフェース635及び出力装置/インタフェース640に通信可能に結合することができる。入力/インタフェース635及び出力装置/インタフェース640のうちのいずれか1つ又は両方は、有線又は無線インタフェースであってよく、取外し可能であってもよい。入力/インタフェース635は、入力を提供するように使用され得る、物理的又は仮想の、任意の装置、構成要素、センサ、又はインタフェース(たとえば、ボタン、タッチスクリーンインタフェース、キーボード、ポインティング/カーソールコントロール、マイクロフォン、カメラ、点字、モーションセンサ、光学レーダーなど)を含んでもよい。
出力装置/インタフェース640は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含んでもよい。いくつかの例示的な実装形態では、入力/インタフェース635(たとえば、ユーザインタフェース)及び出力装置/インタフェース640は、コンピュータ装置605に組み込むことができるか、又は物理的に結合することができる。他の例示的な実装形態では、他のコンピュータ装置は、コンピュータ装置605用の入力/インタフェース635及び出力装置/インタフェース640として機能するか、又はその機能を提供することができる。これらの要素は、これに限定されないが、ユーザがAR環境と対話することを可能にするために、周知のARハードウェア入力を含んでもよい。
コンピュータ装置605は、例えば、これらに限定されないが、高移動性装置(たとえば、スマートフォン、車両及び他の機械内の装置、人間及び動物が持ち運ぶ装置など)、モバイル装置(たとえば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど)、並びに移動用に設計されていない装置(たとえば、デスクトップコンピュータ、サーバ装置、他のコンピュータ、情報キオスク、1又は複数のプロセッサが組み込まれるか又は結合されたテレビ、ラジオなど)が含まれてもよい。
コンピュータ装置605は、外部記憶装置645、並びに、同じ又は異なる構成の1又は複数のコンピュータ装置を含む、任意の数のネットワーク化された構成要素、装置、及びシステムと通信するためのネットワーク650に、(たとえば、I/Oインタフェース625を介して)通信結合することができる。コンピュータ装置605又は任意の接続されたコンピュータ装置は、サーバ、クライアント、シンサーバ、汎用機械、専用機械、又は別のラベルとして機能しているか、そのサービスを提供しているか、又はそう呼ばれ得る。
I/Oインタフェース625は、これに限定されないが、コンピューティング環境600内の少なくともすべての接続された構成要素、装置、及びネットワークとの間で情報を通信するための、任意の通信又はI/Oプロトコル又は規格(たとえば、Ethernet(登録商標)、802.11xs、ユニバーサルシステムバス、WiMAX(登録商標)、モデム、セルラーネットワークプロトコルなど)を使用する、有線及び無線の少なくとも一方のインタフェースを含むことができる。ネットワーク650は、任意のネットワーク又はネットワークの組合せ(たとえば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、セルラーネットワーク、衛星ネットワークなど)であってよい。
コンピュータ装置605は、一時的媒体及び持続性媒体を含む、コンピュータ使用可能媒体又はコンピュータ可読媒体を使用し、これらを使用して通信することができる。一時的媒体には、伝送媒体(たとえば、金属ケーブル、光ファイバ)、信号、搬送波などが含まれる。持続性媒体には、磁気媒体(たとえば、ディスク及びテープ)、光媒体(たとえば、CD ROM、デジタルビデオディスク、Blu-ray(登録商標)ディスク)、半導体媒体(たとえば、RAM、ROM、フラッシュメモリ、半導体記憶装置(solid-state storage))、並びに他の持続性記憶装置又はメモリが含まれる。
コンピュータ装置605は、いくつかの例示的なコンピューティング環境内で技法、方法、アプリケーション、処理、又はコンピュータ実行可能命令を実装するために使用することができる。コンピュータ実行可能命令は、一時的媒体から取り出され、持続性媒体に記憶され、持続性媒体から取り出され得る。実行可能命令は、任意のプログラミング言語、スクリプト言語、及び機械語(たとえば、C、C++、C#、Java(登録商標)、Visual Basic(登録商標、Python(登録商標)、Perl、JavaScript(登録商標)など)のうちの1又は複数から生じることができる。
プロセッサ610は、ネイティブ環境又は仮想環境において、任意のオペレーティングシステム(OS)(図示せず)の下で実行することができる。論理ユニット655、アプリケーションプログラミングインタフェース(API)ユニット660、入力ユニット665、出力ユニット670、ROI検出ユニット675、特徴抽出ユニット680、探索/照合ユニット685、及び異なるユニットが互いにOS及び他のアプリケーション(図示せず)と通信するためのユニット間通信機構695を含む1又は複数のアプリケーションを配置することができる。
たとえば、ROI検出ユニット675、特徴抽出ユニット680、及び探索/照合ユニット685は、図2、図4、及び図5に示された1又は複数の処理を実施することができる。記載されたユニット及び要素は、設計、機能、構成、又は実装において異なり得るし、提供された説明に限定されない。
いくつかの例示的な実装形態では、情報又は実行命令がAPIユニット660によって受信されると、それは1又は複数の他のユニット(たとえば、論理ユニット655、入力ユニット665、ROI検出ユニット675、特徴抽出ユニット680、及び探索/照合ユニット685)に通信されてもよい。たとえば、ROI検出ユニット675は、物理的地図に関連付けられたカメラからの入力を識別し、関心領域を特定することができる。特徴抽出ユニット680は、深層シャムCNNを使用して特徴抽出を実行することができる。さらに、探索/照合ユニット685は、物理的地図画像とデータベースとの間の最良の一致を特定するために検索を実行し、出力を提供することができる。
いくつかの例では、論理ユニット655は、ユニット間の情報フローを制御し、上述された例示的な実装形態においてAPIユニット660、入力ユニット665、ROI検出ユニット675、特徴抽出ユニット680、及び探索/照合ユニット685によって提供されるサービスを指示するように構成されてもよい。たとえば、1又は複数の処理又は実施の流れは、論理ユニット655単独により、又はAPIユニット660と連携して制御されてもよい。
図7は、いくつかの例示的な実装形態に適した例示的な環境を示す図である。環境700は、装置705~745を含み、各々は、たとえばネットワーク760を介して(たとえば、有線及び/又は無線接続によって)、少なくとも1つの他の装置に通信可能に接続される。いくつかの装置は、1又は複数の記憶装置730及び745に通信可能に接続されてもよい。
1又は複数の装置705~745は例として、それぞれ、図6に記載されたコンピュータ装置605であってもよい。装置705~745は、これに限定されないが、上述されたようなモニタ及び関連するウェブカメラを有するコンピュータ705(たとえば、ラップトップコンピュータ装置)、モバイル装置710(たとえば、スマートフォン又はタブレット)、テレビジョン715、車両720に関連付けられた装置、サーバコンピュータ725、コンピュータ装置735~740、記憶装置730及び745を含んでもよい。装置は、ユーザが拡張現実(AR)、仮想現実(VR)、複合現実、又は他の環境内で対話することを可能にするために、当技術分野で周知のAR周辺機器に通信可能に接続されてもよい。さらに、装置は、当業者によって理解されるように、メディアオブジェクト取込みハードウェアを含んでもよい。
いくつかの実装形態では、装置705~720は、企業のユーザに関連付けられたユーザ装置と見なされてもよい。装置725~745は、サービスプロバイダに関連付けられた装置(たとえば、上述され様々な図面により説明されたサービスを提供したり、ウェブページ、テキスト、テキスト部分、画像、画像部分、オーディオ、オーディオセグメント、ビデオ、ビデオセグメント、及びそれらに関する情報などの少なくとも1つのデータを記憶する、外部ホストによって使用される)であってもよい。
上述されたように、例示的な実装形態は、物理的地図の画像を取り込み、その取込み画像を使用して、モバイルコンピュータ装置から遠隔にあるサーバに送信される信号を提供するオンラインモバイルアプリケーションに関する。サーバは次いで、人工知能技術を使用して訓練された大規模データベースからの最も近いオンライン情報と取込み画像を照合し、その最も近い一致をモバイルアプリケーションに返す。例示的な実装形態では、取込み画像と最も近い一致との間にオーバーレイとが存在してもよく、オーバーレイがモバイルアプリケーションに提供されてもよい。しかしながら、例示的な実装形態はこれらに限定されず、したがって、本発明の範囲から逸脱することなく、他の実装形態が置き換えられてもよい。たとえば、これに限定されないが、取込み画像は衛星画像から提供されてもよい。たとえば、これに限定されないが、地図はまた、航空機から撮られた航空写真、トポロジカル地図、又は当業者によって理解されるはずの、メタデータをもたない他の地図であってもよい。
さらに、信頼度は、アプリケーションがゲームのような方式で提供されるように調整されてもよく、その結果、情報のすべてではなく一部のみがモバイル装置のディスプレイ上に表示されてもよい。1つの例示的な実装形態では、特定の属性のみが表示されてもよく、それによりユーザはアプリケーションを、オリエンテーション及びナビゲーションスキルについて学習することができるチュートリアルとして使用することができる。さらに別の例示的な実装形態では、取込み画像は、特定の画像センサ又はナビゲーションルートに関連付けられた他の標識を探索していてもよい。例えば、これに限定されないが、視力障害がある人々のために、歩道上の異なる色の領域は、モバイル装置に表示されたときに、ルールエンジンからの特別な指示により扱われてもよい。このような手法は、より正確であり、より安全でもある移動経路をユーザに提供することができる。
さらに、不変の属性に関する判定は、例示的な実装形態のアプリケーションに応じて調整されてもよい。たとえば、ナビゲーション機能用の例示的な実装形態では、自動車ルート、自転車ルート、及び歩行ルートに関連付けられたオンラインアプリケーションに対して異なるビューが提示されてもよい。
オンラインモバイルアプリケーションに加えて、他の視覚的表示手法が実装されてもよい。たとえば、これに限定されないが、拡張現実的手法では、ユーザは、訪問する都市に関連付けられた拡張現実空間内にいて、歩き回ることができ、次いでユーザは、読めない言語のパンフレットを受け取る。たとえば、パンフレットは、ユーザが訪れたいレストランを示していてもよい。ユーザはパンフレットの写真を撮ることができ、例示的な実装形態は、ユーザのGPSに基づいて、ユーザがどこにいるかの指示をユーザに提供するピン拡張現実を地図上にドロップすることができる。このようにして、ユーザは、拡張現実システムをのぞき込み、都市内のどこをナビゲートするかに関する情報を取得することができる。
別の例示的な実装形態によれば、物理的地図はキオスクで提供されてもよい。たとえば、地図は、ユーザが理解できない言語であってもよい。例示的な実装形態では、ユーザが理解できない言語の物理的地図に対し、大規模データベースからのユーザが理解できる言語のオーバーレイを提供してもよい。このようにして、ユーザは、ランドマーク又は他の関心ポイントをより容易に見つけることができ、ローカルキオスクが所望の情報を含むローカル言語の地図のみを提供し、ネイティブ地図アプリケーションが、キオスク内の地図に最も近い一致を提供せず、キオスクの地図に存在する重要な情報を省略する場合に発生する従来技術の問題を回避することができる。例示的な実装形態を使用して、キオスク上の物理的地図と一致する大規模データベースから最も近い地図を見つけることにより、ユーザは、ランドマークを示す情報だけでなく、ナビゲーション又は観光などの他の活動中のユーザを補助することができる主観的なコメントをも示す追加情報を提供されることができる。さらに、アプリケーションは、カレンダー、電子メール、ソーシャルネットワーキングサービス、又は、当業者によって理解されるはずの他のオンラインアプリケーションなどの、他のオンラインアプリケーションに統合されてもよい。
さらに別の例示的な実装形態によれば、物理的環境地図は、地理的又はGPSベースの手法に限定されなくてもよく、本発明の範囲から逸脱することなく他の尺度により他の手法を含んでもよい。例えば、これに限定されないが、画像が教科書に提供され、教科書内の画像に関連付けられた物理的環境にカメラが存在する実装形態では、本例示的な実装形態は、作業を完了するための支援をユーザに提供することができる。1つの例示的な実装形態では、医学教科書が対象組織などの画像を提供することができ、人体の内部などにあるカメラが実際に組織を撮像することができる。体内のカメラによって撮像された身体組織の状態に関する評価を提供するために、最も近い一致が提供されてもよい。さらに、対象組織の状態を評価し、場合によっては治療選択肢を提供するユーザを支援するために、仮想現実及び拡張現実の少なくとも一方が統合された方式で提供されてもよい。
別の例示的な実装形態では、航空機、ドローンなどにカメラが設けられてもよい。航空カメラによって取り込まれた物理的画像が、照合のために大規模データベースと比較されてもよい。取り込まれた画像に関して、取得された情報及び最も近い地図に基づいて評価が行われてもよい。このようなアプリケーションは、農業又は農業活動に関連付けられた資源管理、捜索救助、治安、又は他の分野などの分野で使用されてもよい。
さらに、前述の例示的な実装形態は、設定内で又は動的に選好を設定する能力をユーザに提供するように修正されてもよい。たとえば、自動車による移動に関心があるユーザは、道路を示す地図に対する選好を設定することができる。自転車又は徒歩での移動に関心があるユーザは、それぞれ、自転車道又は歩行経路を示す地図に対する選好を設定することができる。このような主観的選好が、前述のモデルに組み込まれていてもよい。
いくつかの例示的な実装形態が示され記載されたが、これらの例示的な実装形態は、本明細書に記載された主題をこの分野に精通する人々に伝えるために提供される。本明細書に記載された主題は、記載された例示的な実装形態に限定されることなく、様々な形態で実装されてもよいことを理解されたい。本明細書に記載された主題は、具体的に定義或いは記載された事項、又は記載されていない他の或いは異なる要素或いは事項なしに実践することができる。添付の特許請求の範囲及びそれらの均等物で定義された本明細書に記載された主題から逸脱することなく、これらの例示的な実装形態において変更が行われてもよいことは、この分野に精通する人々によって諒解されよう。

Claims (20)

  1. 非電子情報である地図を電子情報である地図と関連付けるコンピュータで実施される方法であって、
    取得されたオンラインデータ集合に対して、畳み込みニューラルネットワークのアプリケーションによってスタイル不変及び位置可変の地図表現のデータベースを生成し、
    地理的位置のメタデータをもたないと共に前記非電子情報である地図に関連付けられた取込み画像に対して、最近傍ヒューリスティックを適用して前記取込み画像を前記地図表現と比較し、前記取込み画像と前記地図表現との間の一致を生成し、
    前記一致に関連付けられた表示動作を実行すること
    を含む、方法。
  2. 前記表示動作が、前記地図表現と前記取込み画像との一致のオーバーレイを提供することを含む、請求項1に記載の方法。
  3. 前記畳み込みニューラルネットワークが、各々が同一の畳み込み及び重みを有する複数のサブネットワークを有する深層シャム畳み込みニューラルネットワークを含み、前記サブネットワークの各々の最終レイヤの出力が対比損失比較の対象となり、前記重みが前記対比損失比較の結果に基づいて更新され、前記サブネットワークの各々が、入力として前記地図表現の一つをそれぞれ受信し、複数の連続する畳み込みレイヤを順番に含み、前記対比損失比較への出力を提供する1又は複数の全結合レイヤがこれらに続く、請求項1に記載の方法。
  4. 前記最近傍ヒューリスティックの適用前に、粗い地理情報を統合することをさらに含み、前記粗い地理情報が、都市レベルの最近の地理情報を含む、請求項1に記載の方法。
  5. 前記最近傍ヒューリスティックが、問合せとしての前記取込み画像について、局所的に最適化された直積量子化によってインデックス付けされた前記データベースに前記最近傍ヒューリスティックを適用して、所定数の最近傍一致を取得し、真の距離に基づいて前記最近傍一致を並べ替え、前記画像に提案GPS座標を提供することを含む、請求項1に記載の方法。
  6. 前記スタイル不変の地図表現が色選択及びレンダリングスタイルのうちの少なくとも1つを含み、前記位置可変の地図表現がGPS座標に関連付けられる、請求項1に記載の方法。
  7. 前記非電子情報である地図及び前記電子情報である地図の少なくとも一つが、ビデオからの1又は複数の画像を含む、請求項1に記載の方法。
  8. コンピュータに非電子情報である地図を電子情報である地図と関連付ける方法を実行させるプログラムであって、前記方法が、
    取得されたオンラインデータ集合に対して、畳み込みニューラルネットワークのアプリケーションによってスタイル不変及び位置可変の地図表現のデータベースを生成し、
    地理的位置のメタデータをもたないと共に前記非電子情報である地図に関連付けられた取込み画像に対して、最近傍ヒューリスティックを適用して前記取込み画像を前記地図表現と比較し、前記取込み画像と前記地図表現との間の一致を生成し、
    前記一致に関連付けられた表示動作を実行すること
    を含む、プログラム。
  9. 前記表示動作が、前記地図表現と前記取込み画像との一致のオーバーレイを提供することを含む、請求項8に記載のプログラム。
  10. 前記畳み込みニューラルネットワークが、各々が同一の畳み込み及び重みを有する複数のサブネットワークを有する深層シャム畳み込みニューラルネットワークを含み、前記サブネットワークの各々の最終レイヤの出力が対比損失比較の対象となり、前記重みが前記対比損失比較の結果に基づいて更新され、前記サブネットワークの各々が、入力として前記地図表現の一つをそれぞれ受信し、複数の連続する畳み込みレイヤを順番に含み、前記対比損失比較への出力を提供する1又は複数の全結合レイヤがこれらに続く、請求項8に記載のプログラム。
  11. 前記最近傍ヒューリスティックの適用前に、粗い地理情報を統合することをさらに含み、前記粗い地理情報が、都市レベルの最近の地理情報を含む、請求項8に記載のプログラム。
  12. 前記最近傍ヒューリスティックが、問合せとしての前記取込み画像について、局所的に最適化された直積量子化によってインデックス付けされた前記データベースに前記最近傍ヒューリスティックを適用して、所定数の最近傍一致を取得し、真の距離に基づいて前記最近傍一致を並べ替え、前記画像に提案GPS座標を提供することを含む、請求項8に記載のプログラム。
  13. 前記スタイル不変の地図表現が色選択及びレンダリングスタイルのうちの少なくとも1つを含み、前記位置可変の地図表現がGPS座標に関連付けられる、請求項8に記載のプログラム。
  14. 前記非電子情報である地図及び前記電子情報である地図の少なくとも一つが、ビデオからの1又は複数の画像を含む、請求項8に記載のプログラム。
  15. プロセッサ及び記憶装置を含み、1又は複数の画像を取り込んでメディアオブジェクトを生成するように構成された画像取込み装置であって、前記プロセッサが、
    地理的位置のメタデータをもたないと共に非電子情報である地図に関連付けられた画像を取り込み、
    取得されたオンラインデータ集合に対して最近傍ヒューリスティックを適用して、前記取込み画像を、畳み込みニューラルネットワークの適用によって取得されたスタイル不変及び位置可変の地図表現のデータベースと比較し、前記取込み画像と前記地図表現との間の一致を生成し、
    前記一致に関連付けられた表示動作を実行するための命令を受信すること
    のために前記取込み画像を提供することを実行する、画像取込み装置。
  16. 前記表示動作が、前記地図表現と前記取込み画像との一致のオーバーレイを提供することを含む、請求項15に記載の画像取込み装置。
  17. 前記畳み込みニューラルネットワークが、各々が同一の畳み込み及び重みを有する複数のサブネットワークを有する深層シャム畳み込みニューラルネットワークを含み、前記サブネットワークの各々の最終レイヤの出力が対比損失比較の対象となり、前記重みが前記対比損失比較の結果に基づいて更新され、前記サブネットワークの各々が、入力として前記地図表現の一つをそれぞれ受信し、複数の連続する畳み込みレイヤを順番に含み、前記対比損失比較への出力を提供する1又は複数の全結合レイヤがこれらに続き、前記最近傍ヒューリスティックの適用前に、前記取得されたオンラインデータ集合の範囲を狭めるために粗い地理情報が統合され、前記粗い地理情報が、都市レベルの最近の地理情報を含む、請求項15に記載の画像取込み装置。
  18. 前記最近傍ヒューリスティックが、問合せとしての前記取り込まれた画像について、局所的に最適化された直積量子化によってインデックス付けされた前記データベースに前記最近傍ヒューリスティックを適用して、所定数の最近傍一致を取得し、真の距離に基づいて前記最近傍一致を並べ替え、前記画像に提案GPS座標を提供することを含む、請求項15に記載の画像取込み装置。
  19. 前記スタイル不変の地図表現が色選択及びレンダリングスタイルのうちの少なくとも1つを含み、前記位置可変の地図表現がGPS座標に関連付けられる、請求項15に記載の画像取込み装置。
  20. 前記非電子情報である地図及び電子情報である地図の少なくとも一つが、ビデオからの1又は複数の画像を含む、請求項15に記載の画像取込み装置。
JP2019045894A 2018-08-23 2019-03-13 地図画像背景から位置を推定するためのシステム、方法、及びプログラム Active JP7318239B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/111,065 US10810466B2 (en) 2018-08-23 2018-08-23 Method for location inference from map images
US16/111065 2018-08-23

Publications (2)

Publication Number Publication Date
JP2020030795A JP2020030795A (ja) 2020-02-27
JP7318239B2 true JP7318239B2 (ja) 2023-08-01

Family

ID=69587239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019045894A Active JP7318239B2 (ja) 2018-08-23 2019-03-13 地図画像背景から位置を推定するためのシステム、方法、及びプログラム

Country Status (3)

Country Link
US (1) US10810466B2 (ja)
JP (1) JP7318239B2 (ja)
CN (1) CN110858213A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200242736A1 (en) * 2019-01-29 2020-07-30 Nvidia Corporation Method for few-shot unsupervised image-to-image translation
US11408746B2 (en) * 2019-12-04 2022-08-09 Toyota Connected North America, Inc. Systems and methods for generating attributes-based recommendations
CN111464938B (zh) * 2020-03-30 2021-04-23 滴图(北京)科技有限公司 定位方法、装置、电子设备和计算机可读存储介质
US20210334582A1 (en) * 2020-04-28 2021-10-28 Gsi Technology Inc. Satellite imagery
CN111986553B (zh) * 2020-08-19 2022-07-26 炬星科技(深圳)有限公司 基于语义标签进行地图关联的方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012195624A (ja) 2011-03-14 2012-10-11 Nippon Telegr & Teleph Corp <Ntt> 登録装置、登録方法及び登録プログラム
WO2015191010A1 (en) 2014-06-12 2015-12-17 Sun Vasan Searching for a map using an input image as a search query
JP2017528685A (ja) 2014-05-30 2017-09-28 オックスフォード ユニバーシティ イノベーション リミテッドOxford University Innovation Limited 車両位置の推定
JP2018032078A (ja) 2016-08-22 2018-03-01 Kddi株式会社 他の物体の画像領域も考慮して物体を追跡する装置、プログラム及び方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004012307A (ja) * 2002-06-07 2004-01-15 Fujitsu Ten Ltd 画像表示装置
CN101046802A (zh) * 2006-03-31 2007-10-03 马飞涛 一种地理图片搜索方法
US8483715B2 (en) * 2009-03-26 2013-07-09 Yahoo! Inc. Computer based location identification using images
US8331611B2 (en) * 2009-07-13 2012-12-11 Raytheon Company Overlay information over video
US8934008B2 (en) * 2009-12-07 2015-01-13 Cognitech, Inc. System and method for determining geo-location(s) in images
CN101945327A (zh) * 2010-09-02 2011-01-12 郑茂 基于数字图像识别和检索的无线定位方法、系统
TW201222288A (en) * 2010-11-22 2012-06-01 Inst Information Industry Image retrieving system and method and computer program product thereof
US9098229B2 (en) * 2012-05-04 2015-08-04 Aaron Hallquist Single image pose estimation of image capture devices
CN104422439B (zh) * 2013-08-21 2017-12-19 希姆通信息技术(上海)有限公司 导航方法、装置、服务器、导航系统及其使用方法
CN104850563B (zh) * 2014-02-18 2019-01-11 歌乐株式会社 目的地图像比较检索装置、目的地图像比较检索系统、以及目的地图像比较检索方法
US10031925B2 (en) * 2014-10-15 2018-07-24 Thinkcx Technologies, Inc. Method and system of using image recognition and geolocation signal analysis in the construction of a social media user identity graph
KR101859050B1 (ko) * 2016-06-02 2018-05-21 네이버 주식회사 내용 기반의 지도 이미지 탐색 방법 및 시스템
US10740596B2 (en) * 2016-11-08 2020-08-11 Nec Corporation Video security system using a Siamese reconstruction convolutional neural network for pose-invariant face recognition
EP3551967A2 (en) * 2016-12-09 2019-10-16 TomTom Global Content B.V. Method and system for video-based positioning and mapping
EP3343431A1 (en) * 2016-12-28 2018-07-04 Volvo Car Corporation Method and system for vehicle localization from camera image
CN107131883B (zh) * 2017-04-26 2021-02-12 中山大学 基于视觉的全自动移动终端室内定位系统
JP7011472B2 (ja) * 2018-01-15 2022-01-26 キヤノン株式会社 情報処理装置、情報処理方法
US10592780B2 (en) * 2018-03-30 2020-03-17 White Raven Ltd. Neural network training system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012195624A (ja) 2011-03-14 2012-10-11 Nippon Telegr & Teleph Corp <Ntt> 登録装置、登録方法及び登録プログラム
JP2017528685A (ja) 2014-05-30 2017-09-28 オックスフォード ユニバーシティ イノベーション リミテッドOxford University Innovation Limited 車両位置の推定
WO2015191010A1 (en) 2014-06-12 2015-12-17 Sun Vasan Searching for a map using an input image as a search query
JP2018032078A (ja) 2016-08-22 2018-03-01 Kddi株式会社 他の物体の画像領域も考慮して物体を追跡する装置、プログラム及び方法

Also Published As

Publication number Publication date
US20200065629A1 (en) 2020-02-27
CN110858213A (zh) 2020-03-03
JP2020030795A (ja) 2020-02-27
US10810466B2 (en) 2020-10-20

Similar Documents

Publication Publication Date Title
JP7318239B2 (ja) 地図画像背景から位置を推定するためのシステム、方法、及びプログラム
US11367281B2 (en) Systems and methods for augmented reality navigation
US20220075806A1 (en) Natural language image search
US9542778B1 (en) Systems and methods related to an interactive representative reality
US10606824B1 (en) Update service in a distributed environment
US10089762B2 (en) Methods for navigating through a set of images
Anagnostopoulos et al. Gaze-Informed location-based services
CN110263746A (zh) 基于姿势的视觉搜索
Ip et al. Saliency-assisted navigation of very large landscape images
US11094079B2 (en) Determining a pose of an object from RGB-D images
Zamir et al. Introduction to large-scale visual geo-localization
US20190279011A1 (en) Data anonymization using neural networks
CN113330455A (zh) 使用有条件的生成对抗网络查找互补的数字图像
Sekhavat et al. The effect of tracking technique on the quality of user experience for augmented reality mobile navigation
Münster et al. An automated pipeline for a browser-based, city-scale mobile 4d vr application based on historical images
Park et al. Estimating the camera direction of a geotagged image using reference images
Khan et al. A review of benchmark datasets and training loss functions in neural depth estimation
Semenkov et al. Inpainting Semantic and Depth Features to Improve Visual Place Recognition in the Wild
Pedersen et al. Geolocating traffic signs using crowd-sourced imagery
Fatima et al. Mobile travel guide using image recognition and GPS/Geo tagging: A smart way to travel
US20180189602A1 (en) Method of and system for determining and selecting media representing event diversity
Porzi et al. An automatic image-to-DEM alignment approach for annotating mountains pictures on a smartphone
Li et al. Looking into the world on Google Maps with view direction estimated photos
Bamigbade et al. Computer Vision for Multimedia Geolocation in Human Trafficking Investigation: A Systematic Literature Review
Li et al. Where the photos were taken: location prediction by learning from flickr photos

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230703

R150 Certificate of patent or registration of utility model

Ref document number: 7318239

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150