JP7318239B2

JP7318239B2 - 地図画像背景から位置を推定するためのシステム、方法、及びプログラム

Info

Publication number: JP7318239B2
Application number: JP2019045894A
Authority: JP
Inventors: ケネディーリンドン; クーパーマシュー; アイマンシャンマデービッド
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-08-23
Filing date: 2019-03-13
Publication date: 2023-08-01
Anticipated expiration: 2039-03-13
Also published as: US20200065629A1; CN110858213A; JP2020030795A; US10810466B2

Description

例示的な実装形態の態様は、物理的地図の画像を取り込み、畳み込みニューラルネットワーク及び最近傍アルゴリズムを使用して当該地図の地理位置情報を抽出する方法、システム、プログラム、及びインタフェースに関する。

従来技術では、１人又は複数のユーザは、実世界の情報を伝達することを意図した画像又はその他の視覚データに遭遇する場合がある。そのような画像又はその他の視覚データには、これらに限定されないが、時刻表、メニュー、図形、及びグラフが含まれうる。具体的な例として、地図は、１人又は複数のユーザが遭遇しうる情報視覚化である。たとえば、これらに限定されないが、地図は、鉄道の駅にいるユーザに提供される地図などのように、実際にその場所にいるユーザに、周囲の地理的な関係を表現した描写を表示することができる。同様に、地図は、レストランなどの施設の予約の際に確認したり、受領書などの中で、ユーザが受け取る追加情報として含まれていてもよい。

ある位置に物理的に設置された地図や印刷された地図は、新しい場所に向かう際１人又は複数のユーザを助けることができるが、それらの地図は、恒久的に看板に貼り付けられていたり、物理的な形態のみの場合がある。結果として、１人又は複数のユーザは、地図上の関連情報を電子的に取り込むことができず、ひいては、地図から位置的に離れる際に、看板状の地図の情報を一緒に持ち歩くことができない。たとえば、図１Ａは、（たとえば、公共のディスプレイに）印刷された従来技術の地図１００を示す。この例では地図は、反射コーティングを施した物理標識上の観光情報地図である。地図は物理的な物体なので、それはメタデータなどのいかなる標示も含まない。

一方、１人又は複数のユーザは、通常、パーソナルモバイルスマートデバイスなどの電子通信装置上に対話式に表示された地図を使用して、自分の現在位置や方向を把握し、端末上の地図を使ってナビゲートする場合がある。たとえば、図１Ｂは、携帯電話に表示された地図（たとえば、現地語で「あなたはここにいる」というピンドロップマーキング（ｐｉｎｄｒｏｐｍａｒｋｉｎｇ）を有する）などの、オンラインモバイルアプリケーションに固有の従来技術の地図１０１を示し、図１Ａの物理的地図１００と同様の領域をカバーする。しかしながら、地図１００は電子的な情報ではなく、いかなるメタデータももたず、物理的な地図にすぎない。

したがって、地図１００は、地図１０１と電子的に関連付けられていない。さらに、様々な電子地図を手動で取得し比較して、自動リアルタイム方式で最も適合する地図を特定する総当り（ｂｒｕｔｅｆｏｒｃｅ）手法は利用できない。

したがって、従来技術では、固定又は印刷された物理的な地図から情報を抽出し、オンラインモバイルアプリケーションに情報を送る手法に関して、満たされていないニーズが存在する。

BROMLEY, J. et al., "Signature Verification using a "Siamese" Time Delay Neural Network" In Advance in Neural Information Processing Systems, １９９３年, pp. 737-744 HADSELL, R. et al. "Dimensionality Reduction by Learning an Invariant Mapping" In Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference, ２０１５年１１月, 第２巻, pp. 1735-1742 KALANTIDIS, Y. "Locally Optimized Product Quantization for Approximate Nearest Neighbor Search" In Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition, ２０１４年 LI, X. et al., "Learning Social Tag Relevance by Neighbor Voting" IEEE Transactions on Multimedia, ２００９年１１月，１１巻７号，pp. 1310-1322 MOHEDANO, R. et al., "Camera Localization Using Trajectories and Maps" IEEE Transactions on Pattern Analysis and Machine Intelligence, ２０１４年４月，第３６巻４号，pp. 684-697 HAYS, J. "IM2GPS: estimating geographic information from a single image", In Computer Vision and Pattern Recognition, ２００８年 KENNEDY, L. et al., "How Flickr Helps us Make Sense of the World: Context and Content in Community Contributed Media Collections" In Proceedings of the 15th ACM International Conference on Multimedia, ２００７年９月, pp. 631-640 CHOI, J., et al. "The Placing Task: A Large-Scale Geo-Estimation Challenge for Social-Media Videos and Images" In Proceedings of the 3rd ACM Multimedia Workshop on Geotagging and Its Applications in Multimedia, ２０１４年，pp. 27-31

本開示の技術は、非電子情報である地図を電子情報である地図と関連付けるコンピュータ実装システム、方法、及びプログラムを提供することを目的とする。

例示的な実装形態の態様は、非電子情報である地図を電子情報である地図と関連付けるコンピュータ実装方法を含み、本方法は、取得されたオンラインデータ集合に対して、畳み込みニューラルネットワーク（ＣＮＮ）を適用して、スタイル不変かつ位置可変の地図表現のデータベースを生成し、地理的位置のメタデータをもたない、非電子情報である地図に関連付けられた取込み画像に対して、最近傍ヒューリスティックを適用して取込み画像を地図表現と比較し、取込み画像と地図表現との間の一致を生成し、一致に関連付けられた表示動作を実行することを含む。

例示的な実装形態の追加的態様は、地図表現と取込み画像との一致のオーバーレイを提供することからなる表示動作を含む。

例示的な実装形態のさらなる態様は、各々が同一の畳み込み及び重みを有する複数のサブネットワークを有する深層シャム畳み込みニューラルネットワーク（Ｓｉａｍｅｓｅｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を含む畳み込みニューラルネットワークを含み、サブネットワークの各々の最終レイヤの出力が対比損失（ｃｏｎｔｒａｓｔｉｖｅｌｏｓｓ）比較の対象となり、対比損失比較の結果に基づいて重みが更新される。サブネットワークの各々は、入力として地図表現の一つをそれぞれ受信し、複数の連続する畳み込みレイヤを順番に含み、対比損失比較への出力を提供する１又は複数の全結合レイヤがこれらに続く。

本方法は、前記最近傍ヒューリスティックの適用前に、粗い地理情報を統合することをさらに含み、前記粗い地理情報が、都市レベルの最近の地理情報を含んでいてもよい。

例示的な実装形態の他の態様は、問合せ（クエリ）としての取り込まれた画像について、局所最適化直積量子化（ｌｏｃａｌｌｙｏｐｔｉｍｉｚｅｄｐｒｏｄｕｃｔｑｕａｎｔｉｚａｔｉｏｎ：ＬＯＰＱ）によってインデックス付けされたデータベースに最近傍ヒューリスティックを適用して、所定数の最近傍一致（ｎｅａｒｅｓｔｍａｔｃｈ）を取得し、真の距離に基づいて最近傍一致を並べ替え、提案ＧＰＳ座標を画像に提供することを含む、最近傍ヒューリスティックを含む。

例示的な実装形態の態様はまた、色選択及びレンダリング（描画）スタイルのうちの少なくとも１つを含むスタイル不変の地図表現を含み、位置可変表現はＧＰＳ座標に関連付けられる。

さらに、例示的な実装形態の態様は、ビデオからの１又は複数の画像を含む非電子情報である地図及び電子情報である地図の少なくとも一方を含む。

別の例示的な実装態様は、コンピュータに非電子情報である地図を電子情報である地図と関連付ける方法を実行させるプログラムであって、前記方法が、取得されたオンラインデータ集合に対して、畳み込みニューラルネットワークのアプリケーションによってスタイル不変及び位置可変の地図表現のデータベースを生成し、地理的位置のメタデータをもたないと共に前記非電子である地図に関連付けられた取込み画像に対して、最近傍ヒューリスティックを適用して前記取込み画像を前記地図表現と比較し、前記取込み画像と前記地図表現との間の一致を生成し、前記一致に関連付けられた表示動作を実行することを含む。

前記表示動作が、前記地図表現と前記取込み画像との一致のオーバーレイを提供することを含んでいてもよい。

前記畳み込みニューラルネットワークが、各々が同一の畳み込み及び重みを有する複数のサブネットワークを有する深層シャム畳み込みニューラルネットワークを含み、前記サブネットワークの各々の最終レイヤの出力が対比損失比較の対象となり、前記重みが前記対比損失比較の結果に基づいて更新され、前記サブネットワークの各々が、入力として前記地図表現の一つをそれぞれ受信し、複数の連続する畳み込みレイヤを順番に含み、前記対比損失比較への出力を提供する１又は複数の全結合レイヤがこれらに続くよう構成されていてもよい。

本プログラムにおいて、前記最近傍ヒューリスティックの適用前に、粗い地理情報を統合することをさらに含み、前記粗い地理情報が、都市レベルの最近の地理情報を含んでいてもよい。

前記最近傍ヒューリスティックが、問合せとしての前記取り込まれた画像について、局所最適化直積量子化（ＬＯＰＱ）によってインデックス付けされた前記データベースに前記最近傍ヒューリスティックを適用して、所定数の最近傍一致を取得し、真の距離に基づいて前記最近傍一致を並べ替え、前記画像に提案ＧＰＳ座標を提供することを含んでいてもよい。

前記スタイル不変の地図表現が色選択及びレンダリングスタイルのうちの少なくとも１つを含み、前記位置可変表現がＧＰＳ座標に関連付けられていてもよい。

前記非電子情報である地図及び前記電子情報である地図の少なくとも一つが、ビデオからの１又は複数の画像を含んでいてもよい。

また別の例示的な実装態様は、プロセッサ及び記憶装置を含み、１又は複数の画像を取り込んでメディアオブジェクトを生成するように構成された画像取込み装置であって、前記プロセッサが、地理的位置のメタデータをもたないと共に前記非電子情報である地図に関連付けられた画像を取り込み、取得されたオンラインデータ集合に対して最近傍ヒューリスティックを適用して、前記取込み画像を、畳み込みニューラルネットワークの適用によって取得されたスタイル不変及び位置可変の地図表現のデータベースと比較し、前記取込み画像と前記地図表現との間の一致を生成し、前記一致に関連付けられた表示動作を実行するための命令を受信することのために前記取込み画像を提供することを実行する。

前記畳み込みニューラルネットワークが、各々が同一の畳み込み及び重みを有する複数のサブネットワークを有する深層シャム畳み込みニューラルネットワークを含み、前記サブネットワークの各々の最終レイヤの出力が対比損失比較の対象となり、前記重みが前記対比損失比較の結果に基づいて更新され、前記サブネットワークの各々が、入力として前記地図表現の一つをそれぞれ受信し、複数の連続する畳み込みレイヤを順番に含み、前記対比損失比較への出力を提供する１又は複数の全結合レイヤがこれらに続き、前記最近傍ヒューリスティックの適用前に、前記取得されたオンラインデータ集合の範囲を狭めるために粗い地理情報が統合され、前記粗い地理情報が、都市レベルの最近の地理情報を含んでいてもよい。

本特許又は出願ファイルは、カラーで制作された少なくとも１つの図面を含む。カラー図面を有する本特許又は出願の刊行物の写しは、請求及び必要な手数料の支払いを行うと米国特許庁によって提供される。

従来技術の物理的地図を示す図である。従来技術の携帯電話地図を示す図である。例示的な実装形態による、位置推定のためのデータフローを示す図である。例示的な実装形態による、訓練データセット内の異なるレンダリングスタイルの地図タイルの例を示す図である。例示的な実装形態による、位置ベースの地図画像類似性を学習するために使用されるシャムネットワークアーキテクチャ（ｓｉａｍｅｓｅｎｅｔｗｏｒｋａｒｃｈｉｔｅｃｔｕｒｅ）を示す図である。例示的な実装形態による方法を示す図である。例示的な実装形態における使用に適した例示的なコンピュータ装置を有する例示的なコンピューティング環境を示す図である。いくつかの例示的な実装形態に適した例示的な環境を示す図である。

以下の詳細な説明は、本出願の図及び例示的な実装形態のさらなる詳細を提供する。図面間において重複する要素の参照番号及び説明は、明確性のため省略されている。説明全体にわたって使用される用語は例として提供され、限定するものではない。たとえば、これに限定されないが、本明細書で使用される「地図タイル」という用語は、緯度／経度の組合せなどの地理的位置標示に関連付けられた地理的タイルを指してもよい。

例示的な実装形態の態様は、メタデータをもたない物理的に表示された地図に関連付けられた地理的位置情報を抽出するための方法に関し、当該地図の画像は、カメラ又は他のデジタル構造を介して取り込まれる。たとえば、これに限定されないが、カメラを介して取り込まれた、現実世界の地図に関連付けられた地図画像の場合、例示的な実装形態は地図画像を世界において位置特定し、データベースからの表現が決定され、全地球測位システム（ＧＰＳ）座標を返す。所望により、物理的地図の画像内に取り込まれた元の物理的地図からの注釈は、データベースから提供された最も近い一致に追加されてもよい。また、所望により、粗い地理情報（たとえば、都市又は地域のスケールなどの、座標よりも広いスケールでの最近の地理情報）も、初期（たとえば、粗い）フィルタとして提供され探索空間の初期の絞り込みを実現するために使用されてもよい。次いで、ＧＰＳ座標がマッピング及びナビゲーションのためにスマートデバイス内で使用されてもよい。

例示的な手法を実装するために、方法に関連付けられた作業は、大規模なコンテンツベースの画像検索を含む。動作中、既知の地理座標を有する地図画像の大きい集合が集められる。物理的地図に関連付けられ、いかなるメタデータももたない、ユーザによって提供される問合せ画像の場合、現実世界の地図の画像と地図画像の集合との間の最も近い一致がデータベースから識別される。たとえば、これに限定されないが、データベースは、オープンソースの自由に利用可能なデータベースから供給されてもよい。結果として、問合せに応答して、一致した画像の地理座標が返される。上述のように、データベースからの地図画像の収集を限定するために、最近の地理情報（たとえば、最近の都市レベルの地理情報）に基づくより幅広いレベルのフィルタがさらに使用されてもよい。

例示的な実装形態によれば、深層シャム畳み込みニューラルネットワークは、訓練データ（たとえば、集められた訓練データ）に対して訓練され、様々な異なるスタイルでレンダリングされた地図画像の位置的な意味を取り込むように学習し、埋め込み（ｅｍｂｅｄｄｉｎｇ）を行う。

たとえば、これに限定されないが、集められた訓練データは、地図がレンダリングされるスタイルにかかわらず、同じ位置を描写する地図タイルを特徴空間内で近くに保つ表現を学習するために適用されてもよい。さらに、大きな集合にわたるインデックス付け及び検索が、近似最近傍などのアルゴリズムの使用によって実行されてもよい。しかしながら、他のヒューリスティック又は探索が最近傍アルゴリズムに代わって使用されてもよい。

学習された埋め込みは、地図画像の集合にわたって類似性検索を行うための特徴空間として適用される。たとえば、これに限定されないが、考慮されるべき探索空間を狭めることにより探索を加速するために、粗い地理情報（たとえば、地域レベル又は都市レベルの最近の地理情報）が使用されてもよい。

例示的な実装形態に関連付けられた地理情報は、ナビゲーションのためにユーザによって適用されてもよいが、本発明はそれに限定されない。たとえば、これに限定されないが、当業者に知られているように、他の用途のために地図が利用されてもよい。

大規模なコンテンツベースの画像検索を実行するために、情報抽出は、メタデータをもたない非電子情報である物理的地図に関連付けられた、取得された地図画像から自動位置特定を行うために、いくつかの重要な（キーとなる）構成要素に従って実行されてもよい。これらの構成要素には、これらに限定されないが、地図画像への地理的参照をもつ大規模データベース、依然として地理的意味を取り込むことが可能ながら、地図スタイルに対して不変である（たとえば、地図のスタイルに依存しない）地図表現を作成するための方法、及び高次元特徴ベクトルの大きな集合にわたって最近傍探索を行うための方法が含まれる。上述のように、探索を加速するために、探索は、都市レベルの最近の地理情報に基づいて境界又は限定されてもよい。

図２は、位置推定の方法に関連付けられた、例示的な実装形態によるデータフロー２００を示す。図の中で、破線矢印はオフライン処理を示し、実線矢印はテスト時間（たとえば、大規模データベース生成用の動作時間）に実行される処理を示す。

データフローによれば、入力画像２０１が最初に分割され、地図サブ領域が検出される。それに応じて、２０３において、地図上の関心領域（ＲＯＩ）の検出が実行される。２０５において、検出されたサブ領域が特徴抽出のために入力される。サブ領域は、その特徴表現を抽出するために、シャムネットワーク内のＣＮＮサブネットワークのいずれかに入力されてもよい。画像データの変動性が高いため、他の特徴に対する不変性を保ちながら、ある特徴を強調する必要があるかもしれない。２０７において、画像と位置との間の関連付けに基づく訓練データのセットを適用することにより、特徴抽出２０５は、オフライン（たとえば、非リアルタイム）処理の一部として、２０９において、埋め込まれた情報と位置との間の関連付けを有する訓練データを生成することができる。

２０５での特徴抽出が完了すると、埋め込まれた情報を位置と関連付ける情報を含む訓練データ２０９も使用することにより、データベース内で最も類似する訓練インスタンスを識別するために、最近傍ヒューリスティック又はアルゴリズムが２１１において適用される。それに応じて、２１３において対応する位置が最終推定値として返される。

所望により、局所的に最適化された直積量子化（ＬＯＰＱ；locally optimized product quantization）などのモデルを使用する最近傍アルゴリズム２１１は、低信頼シナリオで応答を禁止するために閾値処理された信頼度として特徴付けることができる、特徴空間内の距離を返してもよい。同様に、データベースは、複数のソースからの同じ位置を表す地図タイルを含んでもよい。トップリターンの結果セットで表される異なる場所を調停するために、投票手法が適用されてもよい。上記で説明されたように、破線矢印は、ネットワーク訓練に続いてオフラインで抽出することができる訓練データ用の特徴を示し、実線矢印は、リアルタイムなどのテスト時間に実行される処理を示すが、それらに限定されない。

例示的な実装形態によれば、２０１で提供された入力画像の物理的なオブジェクトの周りにメタデータが作成されてもよい。さらに、メタデータを有する既存のファイルへのリンクが提供されてもよい。

上記２０５に示されたように、深層シャム畳み込みニューラルネットワークは、地図の意味を反映する地図画像の特徴空間埋め込み、及び地図用の複数のレンダリングスタイルにわたって地図を比較するために使用できる重要な合図（ｃｕｅ）を学習することを対象とする。シャムニューラルネットワークでは、訓練インスタンスがペアとして提示される。ペアは、正解ラベリング（ｇｒｏｕｎｄｔｒｕｔｈｌａｂｅｌｉｎｇ）に従って、類似していない又は類似していると特定される。各ペア内の各画像は、次いで、構造及び重み付けパラメータの両方において同一である双子サブネットワークを通される。

各ネットワークの終端で出力される表現は、たとえば、これに限定されないが、対比損失（ｃｏｎｔｒａｓｔｉｖｅｌｏｓｓ）関数を使用して比較される。対比損失関数は、正解（ｇｒｏｕｎｄｔｒｕｔｈ）類似ペアの間のユークリッド近似に報酬を与える一方、正解（ｇｒｏｕｎｄｔｒｕｔｈ）非類似見本の近いペアにペナルティを課す。比較の目的は、画像間の位置ベースの類似性を捉えており、かつ、色の選択、レンダリングスタイル、又は描写されている実際の位置と実質的に無関係のその他の表示態様に対して不変であるという表現を、ニューラルネットワークが学習することである。

前述の例示的な実装形態では、生の入力画像は複数のソースから収集されてもよい。たとえば、１つの非限定的で例示的な実装形態によれば、生の入力画像は、ＯｐｅｎＳｔｒｅｅｔＭａｐ（登録商標）及びＳｔａｍｅｎから取得され、２５６×２５６ピクセルのサイズを有する。データを集めるために、対象都市などの対象物理的地理位置に関連付けられた境界ボックスに対して問合せが実行される。次いで、都市ごとに、対応する地図タイル画像のすべてがダウンロードされる。上記で説明されたように、探索空間は、粗い地理情報（たとえば、都市レベルの最近の地理情報）を適用することによって狭められてもよい。

各地図タイルは、／ｚ／ｘ／ｙ．ｐｎｇという形式の具体的なＵＲＬをもつことができ、ここで、ｚは現在のズームレベルであり、ｌｏｎ＝ｘ／ｚ^２・３６０－１８０であり、ｌａｔ＝ａｒｃｔａｎ（ｓｉｎｈ（π－ｙ／２^ｚ））・１８０／πである。したがって、所与のタイトルのＵＲＬについて、そのタイルのＩｏｎ／ｌａｔ（経度／緯度）境界ボックスを計算することができる。さらに、データセットは、たとえば、ＳｔａｍｅｎＤｅｓｉｇｎによって提供され得るものなどの、位置の様々な他のレンダリングによって拡張されてもよい。前述のレンダリングは、ＯｐｅｎＳｔｒｅｅｔＭａｐ（登録商標）からの同じ基礎をなす地理空間情報を使用するが、それらはまったく異なるように見える地図画像をレンダリングする。

たとえば、図３（ａ）～（ｄ）は、訓練データセット内の異なるレンダリングスタイルの地図タイルの例を示す。より具体的には、図３（ａ）はＯｐｅｎＳｔｒｅｅｔＭａｐ（登録商標）レンダリング３０１を示し、図３（ｂ）は地形レンダリング３０３を示し、図３（ｃ）はトナーレンダリング３０５を示し、図３（ｄ）は水彩レンダリング３０７を示す。例示的な実装形態によれば、描写されている実際の位置とは無関係の異なるレンダリングスタイルにかかわらず、表現及び類似性の分析は、位置ベースの類似性を対象とし、異なるレンダリングスタイルに対して不変である。レンダリングはさらに６４×６４ピクセルにダウンサンプリングされ、グレースケールに変換されてもよい。

得られた２０５の出力は、図４に示されたシャムネットワークへの入力として提供される。より具体的には、ネットワーク４００は、双子サブネットワーク４１０及び４２０から構成される。サブネットワーク４１０、４２０の各々は、複数の完全畳み込みレイヤ４０５ａ～４０５ｄ及び４０７ａ～４０７ｄをそれぞれ含む。本例では、完全畳み込みレイヤ用の実装形態が提供される。しかしながら、当業者によって理解されるように、完全畳み込みレイヤの数は変更されてもよい。

レイヤ４０５ａ～４０５ｄ及び４０７ａ～４０７ｄの各々は畳み込みを含み、その後に最大プーリング（ｍａｘ－ｐｏｏｌｉｎｇ）及びＲｅＬＵ活性化関数が続く。次いで、各サブネットワーク内の最終畳み込みレイヤの出力が平坦化され、１又は複数の全結合レイヤを介して供給される。本例示的な実装形態では、１０２４次元の全結合レイヤ４０９ａ、４０９ｂ及び４１１ａ、４１１ｂが提供される。この例示的な実装形態では、第１のレイヤ４０９ａ、４１１ａはＲｅＬＵ活性化関数を有し、第２のレイヤ４０９ｂ、４１１ｂはシグモイド活性化関数を有する。次いで、両方のサブネットワーク４１０、４２０の最終レイヤ４０９ｂ、４１１ｂからの出力が、たとえば、対比損失４１３を使用して比較される。この比較に基づいて、両方のネットワークに対する重みが同じように更新される。

上記のように、サブネットワーク４１０、４２０は、同じ数の共有重み、畳み込み、接続されたレイヤなどを有する。このように入力４０１、４０３は互いに比較され、地図情報を含むデータベースが構築される。画像が類似している場合、より細かいレイヤ４０９ｂ、４１１ｂは類似性に報酬を与え、非類似性にペナルティを課す。

したがって、一組の地図タイル位置をランダムに選択することによって、「類似」画像のペアが定義される。位置ごとに、ランダム選択を実行して利用可能なレンダリングスタイルのうちの２つを取得し、これら２つの例をネットワークへの肯定的な訓練例として供給してもよい。さらに、２つの別個の画像タイル位置をランダムに選択することで、同数の「非類似」画像をバッチごとの集合からランダムに選択し、次いで各位置について１つのレンダリングスタイルをランダムに選択し、それらの画像を否定的な訓練例として供給する。

モデルが訓練されると、画像のデータベース全体が双子サブネットワークの１つに供給され、最終レイヤでの出力が画像ごとの特徴空間表現として保持される。問合せ時において、新しく未知の画像も、それらの特徴表現を抽出するためにネットワークに供給されてもよく、同様の画像を照会するために使用されてもよい。

上記で説明されたように、２１１において、最近傍探索が行われる。この探索は、高次元ベクトルを粗いサブ空間にインデックス付けするために、ＬＯＰＱなどを使用して、迅速且つ大規模に行われてもよい。上記で説明されたように、探索は、粗い地理情報（たとえば、都市レベルの最近の地理情報）の使用によって加速されてもよい。従って、近似最近傍探索が提供され、これは、高速応答時間を有する単一機械上の数十億の規模の項目に対して動作する。より具体的には、データベース内のすべての画像がＬＯＰＱインデックスに配置される。

入ってくる問合せ画像に対し、ＬＯＰＱは、１０００個の最近傍一致などの、所定数の最近傍一致を見つけるために使用される。ＬＯＰＱは、最近傍のおおよそのランク付けを提供する。従って、所定数、たとえば１０００個の返された最近傍画像の各々について特徴ベクトルが検索され、画像は真の距離に基づいて並べ替えられる。次いで、問合せ画像に対する提案ＧＰＳ座標として、並べ替え後の最も近い画像のＧＰＳ座標が返される。この入力に基づいて、地図タイルが決定されてもよい。

例示的な実装形態は、様々な利益及び利点を有することができる。たとえば、例示的な実装形態は、コンテンツベースの画像検索を、地図などの非写実的地理的指向画像に適用して、地図画像のデータベースから抽出された地理的メタデータを用いて、遭遇した地図を拡張することができる。対照的に、従来技術は、コンテンツベースの画像検索を実行するための追加のメタデータ、及び大規模な集合で見つかった画像に関連付けられた他のメタデータを用いて画像を充実させること、又はランドマーク画像を位置特定することに焦点を当てている。

従来技術の手法は、ソーシャルメディアサイト上のユーザの行動を集約したジオタグに基づいて、ランドマークを識別して位置を特定するために、巨大なソーシャルに貢献されたマルチメディアコレクションをマイニングし、ソーシャルコミュニティーのコレクションで見つかった共通の視点に基づいて、ランドマークの視覚的外観をモデリングすることによって機能しようとしている。しかしながら、例示的な実装形態は、従来技術で使われているような特定の位置からの写真画像ではなく、地図やその他の視覚化表現などのようなグラフィック表現を対象とする。

前述の例示的な実装形態は、カメラによって取り込まれた物理的地図の画像を対象としているが、本発明の概念はそれに限定されない。たとえば、これに限定されないが、ビデオ内の地図画像からの位置特定及び推定を実行するために、フレーム単位で、又はビデオベースなどで、前述の手法が採用されてもよい。

さらに、例示的な実装形態は、モバイル装置内の地図アプリケーションの文脈で示されているが、本発明の概念が採用され得る実装形態はこれに限定されない。たとえば、これに限定されないが、入力情報は、物理的位置にある物理的地図ではなく、パンフレット又はガイドブックからもたらされてもよい。さらに、複数の言語のうちの１又は複数が、個別に採用されるか、又はモデル内で混合されてもよい。また、出力は地図アプリケーションを対象にするだけでなく、レストランアプリケーション、ホテルアプリケーション、観光若しくは旅行アプリケーション、又はナビゲーション機能と共に使用され得る他のオンラインアプリケーションなどの他のアプリケーションに統合されてもよい。

例示的な実装形態に基づく方法によれば、以下の動作が実行されてもよい。ユーザは、物理的地図の画像を取り込むことができ、例示的な実装形態は、画像から地図を抽出することができる。さらに、例示的な実装形態は、物理的地図の画像にピンドロップなどの他の特徴を追加することができる。ＣＮＮ及びニューラルネットワーク、並びに最近傍アルゴリズムを使用して、データベース内の最も近い既存の地図タイルが提供されてもよい。ユーザは、提供された最も近い既存の地図タイルが一致するかどうかに対して、投票するか、さもなければ入力を提供する機会を提供されてもよい。さらに、訓練データ内の情報に対して計算が実行されてもよく、候補が装置固有のナビゲーションツールに表示されてもよい。さらに、データベースからのタイルは、物理的地図上に透明又は半透明のオーバーレイとして提供されてもよい。

図５は、例示的な実装形態による例示的な処理５００を示す。５０１において、データ集合が取得される。上述されたように、データ集合は、１又は複数のフォーマットを有する１又は複数のソースから取得されてもよい。異なるフォーマットのレンダリングを標準化するか、又はさらに下流での処理のためにフォーマットを変換するために、取得されたデータに対して演算が実行されてもよい。

５０３において、地理的位置情報に基づく相違を維持しながら、レンダリング、色などに関して不変である地図タイルなどの地図表現を含むデータベースが生成される。さらに、モデルを訓練し、画像のデータベース全体を入力するために、深層シャム畳み込みニューラルネットワークが使用される。

５０５において、メタデータをもたない物理的地図の取込み画像が提供される。例えば、これに限定されないが、取込み画像は、上述されたように、ユーザによって鉄道駅内の地図の写真を撮ることで取り込まれてもよい。

５０７において、５０５の取込み画像を５０３のデータベースと比較するために探索が実行される。たとえば、データベースと取込み画像との間の最も近い一致を特定するために、最近傍アルゴリズムが利用されてもよい。

５０９において、探索の結果及び取込み画像が表示動作により提供される。例えば、これに限定されないが、探索の結果は、取込み画像上のオーバーレイとして提供されてもよい。

図６は、いくつかの例示的な実装形態における使用に適した例示的なコンピュータ装置６０５を有する例示的なコンピューティング環境６００を示す。コンピューティング環境６００内のコンピュータ装置６０５は、１若しくは複数の処理ユニット、コア、若しくはプロセッサ６１０、メモリ６１５（たとえば、ＲＡＭ、ＲＯＭなど）、内部記憶装置６２０（たとえば、磁気記憶装置、光記憶装置、半導体記憶装置、及び／若しくは有機記憶装置）、及びＩ／Ｏインタフェース６２５を含むことができ、これらのうちのいずれも、情報を通信するための、又はコンピュータ装置６０５内に組み込まれた、通信機構又はバス６３０上で結合することができる。

コンピュータ装置６０５は、入力／インタフェース６３５及び出力装置／インタフェース６４０に通信可能に結合することができる。入力／インタフェース６３５及び出力装置／インタフェース６４０のうちのいずれか１つ又は両方は、有線又は無線インタフェースであってよく、取外し可能であってもよい。入力／インタフェース６３５は、入力を提供するように使用され得る、物理的又は仮想の、任意の装置、構成要素、センサ、又はインタフェース（たとえば、ボタン、タッチスクリーンインタフェース、キーボード、ポインティング／カーソールコントロール、マイクロフォン、カメラ、点字、モーションセンサ、光学レーダーなど）を含んでもよい。

出力装置／インタフェース６４０は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含んでもよい。いくつかの例示的な実装形態では、入力／インタフェース６３５（たとえば、ユーザインタフェース）及び出力装置／インタフェース６４０は、コンピュータ装置６０５に組み込むことができるか、又は物理的に結合することができる。他の例示的な実装形態では、他のコンピュータ装置は、コンピュータ装置６０５用の入力／インタフェース６３５及び出力装置／インタフェース６４０として機能するか、又はその機能を提供することができる。これらの要素は、これに限定されないが、ユーザがＡＲ環境と対話することを可能にするために、周知のＡＲハードウェア入力を含んでもよい。

コンピュータ装置６０５は、例えば、これらに限定されないが、高移動性装置（たとえば、スマートフォン、車両及び他の機械内の装置、人間及び動物が持ち運ぶ装置など）、モバイル装置（たとえば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど）、並びに移動用に設計されていない装置（たとえば、デスクトップコンピュータ、サーバ装置、他のコンピュータ、情報キオスク、１又は複数のプロセッサが組み込まれるか又は結合されたテレビ、ラジオなど）が含まれてもよい。

コンピュータ装置６０５は、外部記憶装置６４５、並びに、同じ又は異なる構成の１又は複数のコンピュータ装置を含む、任意の数のネットワーク化された構成要素、装置、及びシステムと通信するためのネットワーク６５０に、（たとえば、Ｉ／Ｏインタフェース６２５を介して）通信結合することができる。コンピュータ装置６０５又は任意の接続されたコンピュータ装置は、サーバ、クライアント、シンサーバ、汎用機械、専用機械、又は別のラベルとして機能しているか、そのサービスを提供しているか、又はそう呼ばれ得る。

Ｉ／Ｏインタフェース６２５は、これに限定されないが、コンピューティング環境６００内の少なくともすべての接続された構成要素、装置、及びネットワークとの間で情報を通信するための、任意の通信又はＩ／Ｏプロトコル又は規格（たとえば、Ｅｔｈｅｒｎｅｔ（登録商標）、８０２．１１ｘｓ、ユニバーサルシステムバス、ＷｉＭＡＸ（登録商標）、モデム、セルラーネットワークプロトコルなど）を使用する、有線及び無線の少なくとも一方のインタフェースを含むことができる。ネットワーク６５０は、任意のネットワーク又はネットワークの組合せ（たとえば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、セルラーネットワーク、衛星ネットワークなど）であってよい。

コンピュータ装置６０５は、一時的媒体及び持続性媒体を含む、コンピュータ使用可能媒体又はコンピュータ可読媒体を使用し、これらを使用して通信することができる。一時的媒体には、伝送媒体（たとえば、金属ケーブル、光ファイバ）、信号、搬送波などが含まれる。持続性媒体には、磁気媒体（たとえば、ディスク及びテープ）、光媒体（たとえば、ＣＤＲＯＭ、デジタルビデオディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク）、半導体媒体（たとえば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、半導体記憶装置（ｓｏｌｉｄ－ｓｔａｔｅｓｔｏｒａｇｅ））、並びに他の持続性記憶装置又はメモリが含まれる。

コンピュータ装置６０５は、いくつかの例示的なコンピューティング環境内で技法、方法、アプリケーション、処理、又はコンピュータ実行可能命令を実装するために使用することができる。コンピュータ実行可能命令は、一時的媒体から取り出され、持続性媒体に記憶され、持続性媒体から取り出され得る。実行可能命令は、任意のプログラミング言語、スクリプト言語、及び機械語（たとえば、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）、ＶｉｓｕａｌＢａｓｉｃ（登録商標、Ｐｙｔｈｏｎ（登録商標）、Ｐｅｒｌ、ＪａｖａＳｃｒｉｐｔ（登録商標）など）のうちの１又は複数から生じることができる。

プロセッサ６１０は、ネイティブ環境又は仮想環境において、任意のオペレーティングシステム（ＯＳ）（図示せず）の下で実行することができる。論理ユニット６５５、アプリケーションプログラミングインタフェース（ＡＰＩ）ユニット６６０、入力ユニット６６５、出力ユニット６７０、ＲＯＩ検出ユニット６７５、特徴抽出ユニット６８０、探索／照合ユニット６８５、及び異なるユニットが互いにＯＳ及び他のアプリケーション（図示せず）と通信するためのユニット間通信機構６９５を含む１又は複数のアプリケーションを配置することができる。

たとえば、ＲＯＩ検出ユニット６７５、特徴抽出ユニット６８０、及び探索／照合ユニット６８５は、図２、図４、及び図５に示された１又は複数の処理を実施することができる。記載されたユニット及び要素は、設計、機能、構成、又は実装において異なり得るし、提供された説明に限定されない。

いくつかの例示的な実装形態では、情報又は実行命令がＡＰＩユニット６６０によって受信されると、それは１又は複数の他のユニット（たとえば、論理ユニット６５５、入力ユニット６６５、ＲＯＩ検出ユニット６７５、特徴抽出ユニット６８０、及び探索／照合ユニット６８５）に通信されてもよい。たとえば、ＲＯＩ検出ユニット６７５は、物理的地図に関連付けられたカメラからの入力を識別し、関心領域を特定することができる。特徴抽出ユニット６８０は、深層シャムＣＮＮを使用して特徴抽出を実行することができる。さらに、探索／照合ユニット６８５は、物理的地図画像とデータベースとの間の最良の一致を特定するために検索を実行し、出力を提供することができる。

いくつかの例では、論理ユニット６５５は、ユニット間の情報フローを制御し、上述された例示的な実装形態においてＡＰＩユニット６６０、入力ユニット６６５、ＲＯＩ検出ユニット６７５、特徴抽出ユニット６８０、及び探索／照合ユニット６８５によって提供されるサービスを指示するように構成されてもよい。たとえば、１又は複数の処理又は実施の流れは、論理ユニット６５５単独により、又はＡＰＩユニット６６０と連携して制御されてもよい。

図７は、いくつかの例示的な実装形態に適した例示的な環境を示す図である。環境７００は、装置７０５～７４５を含み、各々は、たとえばネットワーク７６０を介して（たとえば、有線及び／又は無線接続によって）、少なくとも１つの他の装置に通信可能に接続される。いくつかの装置は、１又は複数の記憶装置７３０及び７４５に通信可能に接続されてもよい。

１又は複数の装置７０５～７４５は例として、それぞれ、図６に記載されたコンピュータ装置６０５であってもよい。装置７０５～７４５は、これに限定されないが、上述されたようなモニタ及び関連するウェブカメラを有するコンピュータ７０５（たとえば、ラップトップコンピュータ装置）、モバイル装置７１０（たとえば、スマートフォン又はタブレット）、テレビジョン７１５、車両７２０に関連付けられた装置、サーバコンピュータ７２５、コンピュータ装置７３５～７４０、記憶装置７３０及び７４５を含んでもよい。装置は、ユーザが拡張現実（ＡＲ）、仮想現実（ＶＲ）、複合現実、又は他の環境内で対話することを可能にするために、当技術分野で周知のＡＲ周辺機器に通信可能に接続されてもよい。さらに、装置は、当業者によって理解されるように、メディアオブジェクト取込みハードウェアを含んでもよい。

いくつかの実装形態では、装置７０５～７２０は、企業のユーザに関連付けられたユーザ装置と見なされてもよい。装置７２５～７４５は、サービスプロバイダに関連付けられた装置（たとえば、上述され様々な図面により説明されたサービスを提供したり、ウェブページ、テキスト、テキスト部分、画像、画像部分、オーディオ、オーディオセグメント、ビデオ、ビデオセグメント、及びそれらに関する情報などの少なくとも１つのデータを記憶する、外部ホストによって使用される）であってもよい。

上述されたように、例示的な実装形態は、物理的地図の画像を取り込み、その取込み画像を使用して、モバイルコンピュータ装置から遠隔にあるサーバに送信される信号を提供するオンラインモバイルアプリケーションに関する。サーバは次いで、人工知能技術を使用して訓練された大規模データベースからの最も近いオンライン情報と取込み画像を照合し、その最も近い一致をモバイルアプリケーションに返す。例示的な実装形態では、取込み画像と最も近い一致との間にオーバーレイとが存在してもよく、オーバーレイがモバイルアプリケーションに提供されてもよい。しかしながら、例示的な実装形態はこれらに限定されず、したがって、本発明の範囲から逸脱することなく、他の実装形態が置き換えられてもよい。たとえば、これに限定されないが、取込み画像は衛星画像から提供されてもよい。たとえば、これに限定されないが、地図はまた、航空機から撮られた航空写真、トポロジカル地図、又は当業者によって理解されるはずの、メタデータをもたない他の地図であってもよい。

さらに、信頼度は、アプリケーションがゲームのような方式で提供されるように調整されてもよく、その結果、情報のすべてではなく一部のみがモバイル装置のディスプレイ上に表示されてもよい。１つの例示的な実装形態では、特定の属性のみが表示されてもよく、それによりユーザはアプリケーションを、オリエンテーション及びナビゲーションスキルについて学習することができるチュートリアルとして使用することができる。さらに別の例示的な実装形態では、取込み画像は、特定の画像センサ又はナビゲーションルートに関連付けられた他の標識を探索していてもよい。例えば、これに限定されないが、視力障害がある人々のために、歩道上の異なる色の領域は、モバイル装置に表示されたときに、ルールエンジンからの特別な指示により扱われてもよい。このような手法は、より正確であり、より安全でもある移動経路をユーザに提供することができる。

さらに、不変の属性に関する判定は、例示的な実装形態のアプリケーションに応じて調整されてもよい。たとえば、ナビゲーション機能用の例示的な実装形態では、自動車ルート、自転車ルート、及び歩行ルートに関連付けられたオンラインアプリケーションに対して異なるビューが提示されてもよい。

オンラインモバイルアプリケーションに加えて、他の視覚的表示手法が実装されてもよい。たとえば、これに限定されないが、拡張現実的手法では、ユーザは、訪問する都市に関連付けられた拡張現実空間内にいて、歩き回ることができ、次いでユーザは、読めない言語のパンフレットを受け取る。たとえば、パンフレットは、ユーザが訪れたいレストランを示していてもよい。ユーザはパンフレットの写真を撮ることができ、例示的な実装形態は、ユーザのＧＰＳに基づいて、ユーザがどこにいるかの指示をユーザに提供するピン拡張現実を地図上にドロップすることができる。このようにして、ユーザは、拡張現実システムをのぞき込み、都市内のどこをナビゲートするかに関する情報を取得することができる。

別の例示的な実装形態によれば、物理的地図はキオスクで提供されてもよい。たとえば、地図は、ユーザが理解できない言語であってもよい。例示的な実装形態では、ユーザが理解できない言語の物理的地図に対し、大規模データベースからのユーザが理解できる言語のオーバーレイを提供してもよい。このようにして、ユーザは、ランドマーク又は他の関心ポイントをより容易に見つけることができ、ローカルキオスクが所望の情報を含むローカル言語の地図のみを提供し、ネイティブ地図アプリケーションが、キオスク内の地図に最も近い一致を提供せず、キオスクの地図に存在する重要な情報を省略する場合に発生する従来技術の問題を回避することができる。例示的な実装形態を使用して、キオスク上の物理的地図と一致する大規模データベースから最も近い地図を見つけることにより、ユーザは、ランドマークを示す情報だけでなく、ナビゲーション又は観光などの他の活動中のユーザを補助することができる主観的なコメントをも示す追加情報を提供されることができる。さらに、アプリケーションは、カレンダー、電子メール、ソーシャルネットワーキングサービス、又は、当業者によって理解されるはずの他のオンラインアプリケーションなどの、他のオンラインアプリケーションに統合されてもよい。

さらに別の例示的な実装形態によれば、物理的環境地図は、地理的又はＧＰＳベースの手法に限定されなくてもよく、本発明の範囲から逸脱することなく他の尺度により他の手法を含んでもよい。例えば、これに限定されないが、画像が教科書に提供され、教科書内の画像に関連付けられた物理的環境にカメラが存在する実装形態では、本例示的な実装形態は、作業を完了するための支援をユーザに提供することができる。１つの例示的な実装形態では、医学教科書が対象組織などの画像を提供することができ、人体の内部などにあるカメラが実際に組織を撮像することができる。体内のカメラによって撮像された身体組織の状態に関する評価を提供するために、最も近い一致が提供されてもよい。さらに、対象組織の状態を評価し、場合によっては治療選択肢を提供するユーザを支援するために、仮想現実及び拡張現実の少なくとも一方が統合された方式で提供されてもよい。

別の例示的な実装形態では、航空機、ドローンなどにカメラが設けられてもよい。航空カメラによって取り込まれた物理的画像が、照合のために大規模データベースと比較されてもよい。取り込まれた画像に関して、取得された情報及び最も近い地図に基づいて評価が行われてもよい。このようなアプリケーションは、農業又は農業活動に関連付けられた資源管理、捜索救助、治安、又は他の分野などの分野で使用されてもよい。

さらに、前述の例示的な実装形態は、設定内で又は動的に選好を設定する能力をユーザに提供するように修正されてもよい。たとえば、自動車による移動に関心があるユーザは、道路を示す地図に対する選好を設定することができる。自転車又は徒歩での移動に関心があるユーザは、それぞれ、自転車道又は歩行経路を示す地図に対する選好を設定することができる。このような主観的選好が、前述のモデルに組み込まれていてもよい。

いくつかの例示的な実装形態が示され記載されたが、これらの例示的な実装形態は、本明細書に記載された主題をこの分野に精通する人々に伝えるために提供される。本明細書に記載された主題は、記載された例示的な実装形態に限定されることなく、様々な形態で実装されてもよいことを理解されたい。本明細書に記載された主題は、具体的に定義或いは記載された事項、又は記載されていない他の或いは異なる要素或いは事項なしに実践することができる。添付の特許請求の範囲及びそれらの均等物で定義された本明細書に記載された主題から逸脱することなく、これらの例示的な実装形態において変更が行われてもよいことは、この分野に精通する人々によって諒解されよう。

Claims

非電子情報である地図を電子情報である地図と関連付けるコンピュータで実施される方法であって、
取得されたオンラインデータ集合に対して、畳み込みニューラルネットワークのアプリケーションによってスタイル不変及び位置可変の地図表現のデータベースを生成し、
地理的位置のメタデータをもたないと共に前記非電子情報である地図に関連付けられた取込み画像に対して、最近傍ヒューリスティックを適用して前記取込み画像を前記地図表現と比較し、前記取込み画像と前記地図表現との間の一致を生成し、
前記一致に関連付けられた表示動作を実行すること
を含む、方法。
前記表示動作が、前記地図表現と前記取込み画像との一致のオーバーレイを提供することを含む、請求項１に記載の方法。
前記畳み込みニューラルネットワークが、各々が同一の畳み込み及び重みを有する複数のサブネットワークを有する深層シャム畳み込みニューラルネットワークを含み、前記サブネットワークの各々の最終レイヤの出力が対比損失比較の対象となり、前記重みが前記対比損失比較の結果に基づいて更新され、前記サブネットワークの各々が、入力として前記地図表現の一つをそれぞれ受信し、複数の連続する畳み込みレイヤを順番に含み、前記対比損失比較への出力を提供する１又は複数の全結合レイヤがこれらに続く、請求項１に記載の方法。
前記最近傍ヒューリスティックの適用前に、粗い地理情報を統合することをさらに含み、前記粗い地理情報が、都市レベルの最近の地理情報を含む、請求項１に記載の方法。
前記最近傍ヒューリスティックが、問合せとしての前記取込み画像について、局所的に最適化された直積量子化によってインデックス付けされた前記データベースに前記最近傍ヒューリスティックを適用して、所定数の最近傍一致を取得し、真の距離に基づいて前記最近傍一致を並べ替え、前記画像に提案ＧＰＳ座標を提供することを含む、請求項１に記載の方法。
前記スタイル不変の地図表現が色選択及びレンダリングスタイルのうちの少なくとも１つを含み、前記位置可変の地図表現がＧＰＳ座標に関連付けられる、請求項１に記載の方法。
前記非電子情報である地図及び前記電子情報である地図の少なくとも一つが、ビデオからの１又は複数の画像を含む、請求項１に記載の方法。
コンピュータに非電子情報である地図を電子情報である地図と関連付ける方法を実行させるプログラムであって、前記方法が、
取得されたオンラインデータ集合に対して、畳み込みニューラルネットワークのアプリケーションによってスタイル不変及び位置可変の地図表現のデータベースを生成し、
地理的位置のメタデータをもたないと共に前記非電子情報である地図に関連付けられた取込み画像に対して、最近傍ヒューリスティックを適用して前記取込み画像を前記地図表現と比較し、前記取込み画像と前記地図表現との間の一致を生成し、
前記一致に関連付けられた表示動作を実行すること
を含む、プログラム。
前記表示動作が、前記地図表現と前記取込み画像との一致のオーバーレイを提供することを含む、請求項８に記載のプログラム。
前記畳み込みニューラルネットワークが、各々が同一の畳み込み及び重みを有する複数のサブネットワークを有する深層シャム畳み込みニューラルネットワークを含み、前記サブネットワークの各々の最終レイヤの出力が対比損失比較の対象となり、前記重みが前記対比損失比較の結果に基づいて更新され、前記サブネットワークの各々が、入力として前記地図表現の一つをそれぞれ受信し、複数の連続する畳み込みレイヤを順番に含み、前記対比損失比較への出力を提供する１又は複数の全結合レイヤがこれらに続く、請求項８に記載のプログラム。
前記最近傍ヒューリスティックの適用前に、粗い地理情報を統合することをさらに含み、前記粗い地理情報が、都市レベルの最近の地理情報を含む、請求項８に記載のプログラム。
前記最近傍ヒューリスティックが、問合せとしての前記取込み画像について、局所的に最適化された直積量子化によってインデックス付けされた前記データベースに前記最近傍ヒューリスティックを適用して、所定数の最近傍一致を取得し、真の距離に基づいて前記最近傍一致を並べ替え、前記画像に提案ＧＰＳ座標を提供することを含む、請求項８に記載のプログラム。
前記スタイル不変の地図表現が色選択及びレンダリングスタイルのうちの少なくとも１つを含み、前記位置可変の地図表現がＧＰＳ座標に関連付けられる、請求項８に記載のプログラム。
前記非電子情報である地図及び前記電子情報である地図の少なくとも一つが、ビデオからの１又は複数の画像を含む、請求項８に記載のプログラム。
プロセッサ及び記憶装置を含み、１又は複数の画像を取り込んでメディアオブジェクトを生成するように構成された画像取込み装置であって、前記プロセッサが、
地理的位置のメタデータをもたないと共に非電子情報である地図に関連付けられた画像を取り込み、
取得されたオンラインデータ集合に対して最近傍ヒューリスティックを適用して、前記取込み画像を、畳み込みニューラルネットワークの適用によって取得されたスタイル不変及び位置可変の地図表現のデータベースと比較し、前記取込み画像と前記地図表現との間の一致を生成し、
前記一致に関連付けられた表示動作を実行するための命令を受信すること
のために前記取込み画像を提供することを実行する、画像取込み装置。
前記表示動作が、前記地図表現と前記取込み画像との一致のオーバーレイを提供することを含む、請求項１５に記載の画像取込み装置。
前記畳み込みニューラルネットワークが、各々が同一の畳み込み及び重みを有する複数のサブネットワークを有する深層シャム畳み込みニューラルネットワークを含み、前記サブネットワークの各々の最終レイヤの出力が対比損失比較の対象となり、前記重みが前記対比損失比較の結果に基づいて更新され、前記サブネットワークの各々が、入力として前記地図表現の一つをそれぞれ受信し、複数の連続する畳み込みレイヤを順番に含み、前記対比損失比較への出力を提供する１又は複数の全結合レイヤがこれらに続き、前記最近傍ヒューリスティックの適用前に、前記取得されたオンラインデータ集合の範囲を狭めるために粗い地理情報が統合され、前記粗い地理情報が、都市レベルの最近の地理情報を含む、請求項１５に記載の画像取込み装置。
前記最近傍ヒューリスティックが、問合せとしての前記取り込まれた画像について、局所的に最適化された直積量子化によってインデックス付けされた前記データベースに前記最近傍ヒューリスティックを適用して、所定数の最近傍一致を取得し、真の距離に基づいて前記最近傍一致を並べ替え、前記画像に提案ＧＰＳ座標を提供することを含む、請求項１５に記載の画像取込み装置。
前記スタイル不変の地図表現が色選択及びレンダリングスタイルのうちの少なくとも１つを含み、前記位置可変の地図表現がＧＰＳ座標に関連付けられる、請求項１５に記載の画像取込み装置。
前記非電子情報である地図及び電子情報である地図の少なくとも一つが、ビデオからの１又は複数の画像を含む、請求項１５に記載の画像取込み装置。