JP7336653B2

JP7336653B2 - ディープラーニングを利用した屋内位置測位方法

Info

Publication number: JP7336653B2
Application number: JP2021550081A
Authority: JP
Inventors: キム、ケン; ウクチュン、チ; フダイバーガノフ、ファルハド
Original assignee: ３アイインコーポレイテッド
Priority date: 2020-10-26
Filing date: 2021-02-22
Publication date: 2023-09-01
Anticipated expiration: 2041-02-22
Also published as: JP2023509105A; US20220130069A1; US11961256B2

Description

本発明は、ディープラーニングを利用した屋内位置測位方法に関するものである。具体的に、本発明は、ユーザーが撮影した画像をもとに、３Ｄツアー内で屋内の位置測位をする方法に関するもので、屋内位置測位の正確度を向上させるために、ディープラーニング技術を利用する。

３Ｄ空間を記録するための最良の方法は、空間を全方位３６０度方面から撮影して、３６０度の画像形態で保存し、それぞれの位置に対する３６０度の画像を連結して３Ｄツアーの形態に作成する方法である。

３６０度の画像を得るために、一般的に３６０度カメラを使用する。３６０度カメラは、一つ又は二つ以上の広角レンズを利用して周辺の背景情報を画像で生成することができる装置である。３６０度カメラは、水平及び上下３６０度を全方向撮影して、３６０度の写真や映像を作る。３６０度カメラで撮影された写真や映像は、サーバーとユーザー端末など、さまざまな場所に送受信することができる。

また、「３Ｄツアー」は、複数の地点でそれぞれ３６０度で撮影して保存された画像（例えば、パノラマ画像）の組み合わせで構成することができる。このとき、「３Ｄツアー」は、それぞれの画像が撮影された位置情報を含むことができ、それぞれの位置情報は平面図上にマッピングされ、ユーザーに提供することができる。

このように生成された３Ｄツアーは、仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ；ＶＲ）または拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ；ＡＲ）の形態でユーザーに提供することができる。このとき、３Ｄツアーは、ユーザーの動きに応じて一緒に移動するように同期化することができる。また、ユーザーの動きに応じた３Ｄツアーの屋内ナビゲーション機能を提供することが可能である。

これらの屋内ナビゲーション機能を実装するためには、既存の３Ｄツアーとユーザーの現在位置に対するマッチング作業が優先されるべきだが、この過程で３Ｄツアーとユーザーが提供した画像の特徴点（ｆｅａｔｕｒｅ）を抽出する作業が先行されるべきである。

本発明の目的は、３Ｄツアーに含まれるパノラマ画像（ｐａｎｏｒａｍａｉｍａｇｅ）とユーザーが提供したパースペクティブ画像（ｐｅｒｓｐｅｃｔｉｖｅｉｍａｇｅ）との間の正確かつ迅速なマッチングのために、ディープラーニングを介して抽出されたグローバルフィーチャー（Ｇｌｏｂａｌｆｅａｔｕｒｅ）を利用して、屋内位置を測位する方法を提供するものである。

また、本発明の目的は、複数のパラメータを用いたランキングシステム（ＲａｎｋｉｎｇＳｙｓｔｅｍ）をもとに、ユーザーが提供したパースペクティブ画像と最も類似度が高いパノラマ画像を選定することにより、屋内位置を測位する方法を提供するものである。

本発明の目的は、以上で言及した目的に制限されず、言及されていない本発明の他の目的及び利点は、下記の説明によって理解することができ、本発明の実施例によってさらに明確に理解されるだろう。また、本発明の目的と利点は、特許請求の範囲に示した手段及びその組み合わせによって実現できることを容易に知ることができるだろう。

前記の技術的課題を達成するための本発明の実施形態に係るディープラーニングを利用した屋内位置測位方法は、複数のパノラマ画像を含む３Ｄツアーを呼び出す段階、前記ユーザー端末に備えられたカメラで撮影した第１パースペクティブ画像を受信する段階、前記第１パースペクティブ画像と、前記３Ｄツアーに含まれている前記複数のパノラマ画像のそれぞれに対するグローバルフィーチャーを算出する段階、算出された前記グローバルフィーチャーを利用して、前記第１パースペクティブ画像と最も類似したパノラマ画像を選定する段階、前記選定されたパノラマ画像及び前記第１パースペクティブ画像に含まれている特徴点を利用して、前記３Ｄツアー上で、前記カメラの位置に対応する屋内位置を計算する段階、及び前記計算された屋内位置を前記ユーザー端末に提供する段階を含む。

また、前記グローバルフィーチャーを算出する段階は、前記３Ｄツアーに含まれる特定のパノラマ画像を複数の第２パースペクティブ画像に変換する（ａ）段階と、前記変換された第２パースペクティブ画像に対するそれぞれのグローバルフィーチャー及び前記パノラマ画像に対するグローバルフィーチャーを算出する（ｂ）段階を含むことができる。

また、前記（ａ）段階は、前記特徴パノラマ画像を球面座標系（ｓｐｈｅｒｉｃａｌｃｏｏｒｄｉｎａｔｅ）に投影させて複数個の区域に区分し、前記区分された各区域に対応する画像を、２次元画像である前記第２パースペクティブ画像に変換するが、前記複数の第２パースペクティブ画像は、相互間で一部オーバーラップされる領域を含むことができる。

また、前記（ｂ）段階は、同じ場所を撮影した画像に対して同じグローバルフィーチャーが出力されるように事前に学習されたディープラーニングモジュールを利用して、前記グローバルフィーチャーを算出するが、前記ディープラーニングモジュールは、一つ以上のニューラルネットワークモジュールと、前記ニューラルネットワークモジュールから出力された値の類似度を算出する類似度判断モジュールと、算出された前記類似度に対して加重値を適用し、これをもとに結果値を出力する加重値モジュールと、前記加重値モジュールで互いに異なる時点で出力された結果値の間の差分値を導出し、導出された前記差分値を、前記ニューラルネットワークモジュールにフィードバックとして提供するフィードバックモジュールを含むことができる。

また、前記ニューラルネットワークモジュールは、前記フィードバックモジュールから受信したフィードバック値をもとに、前記ニューラルネットワークモジュールに含まれているニューラルネットワークに適用される加重値を調節することができる。

また、前記類似度判断モジュールは、前記パノラマ画像に対する第１グローバルフィーチャー、前記第２パースペクティブ画像に対する第２グローバルフィーチャー、比較群画像に対する第３グローバルフィーチャー、及び前記パノラマ画像に対する基準値に対応される第４グローバルフィーチャーを受信し、前記第１乃至第４グローバルフィーチャー間の類似度を、コサイン距離（ｃｏｓｉｎｅｄｉｓｔａｎｃｅ）関数を利用して算出することができる。

また、前記第１パースペクティブ画像と、前記複数のパノラマ画像に対する分類情報（ｃｌａｓｓ）、位置情報（ｐｏｓｉｔｉｏｎ）、キャプション（ｃａｐｔｉｏｎ）、及びセグメンテーション（ｓｅｇｍｅｎｔａｔｉｏｎ）を導出する段階を含むが、前記最も類似したパノラマ画像を算出する段階は、導出された前記グローバルフィーチャー、前記分類情報、前記位置情報、前記キャプション、及び前記セグメンテーションをもとに、前記パノラマ画像と前記第１パースペクティブ画像との間の各パラメータに対する類似度を計算する（ｃ１）段階と、前記各パラメータに対する類似度をもとに順位を算出し、前記順位が最も高いパノラマ画像を選定する（ｄ）段階を含むことができる。

また、前記最も類似したパノラマ画像を算出する段階は、前記パノラマ画像をもとに生成された第２パースペクティブ画像と、前記ユーザー端末から受信した第１パースペクティブ画像と間の類似度を計算し、あらかじめ定められた基準値以上に類似した前記第２パースペクティブ画像の画像数を各パノラマ画像別にカウントして、前記カウントされた数値をもとに、各パノラマ画像の加重値を決定する（ｃ２）段階をさらに含むことができる。

また、前記（ｄ）段階は、導出された前記グローバルフィーチャー、前記分類情報、前記位置情報、前記キャプション、及び前記セグメンテーションに対する前記パノラマ画像と前記第１パースペクティブ画像との間の類似度と、前記パノラマ画像に対する加重値を利用して、前記第１パースペクティブ画像と類似度が最も高いパノラマ画像を選定することを含むことができる。

また、前記屋内位置を計算する段階は、前記算出されたパノラマ画像に対するローカルフィーチャーを算出する段階と、前記パースペクティブ画像に対するローカルフィーチャーを算出する段階と、前記算出されたローカルフィーチャーをもとに３Ｄツアー上のカメラの位置に該当する屋内位置を計算する段階を含むことができる。

本発明に係るディープラーニングを利用した屋内位置測位方法は、３Ｄツアーに含まれている複数のパノラマ画像のうち、ユーザーが提供したパースペクティブ画像と最もマッチング率が高いパノラマ画像を迅速に抽出し、抽出されたパノラマ画像とパースペクティブ画像との間の位置関係を把握して、ユーザー端末の位置を正確に算出することにより、ユーザーが位置する屋内位置測位に対する正確度とマッチング速度を向上させることができる。

本発明の効果は、前述した効果に限定されず、本発明の当業者は、本発明の構成から本発明の様々な効果を簡単に導出することができる。

本発明の実施形態に係る３Ｄツアー提供システムを示す概略図である。図１の３Ｄツアー提供システムで行われる屋内位置測位方法を説明するための流れ図である。図２のＳ１３０段階及びＳ１４０段階を行うハイブリッド画像検索モジュールを説明するためのブロック図である。図３の変換モジュールに対するそれぞれの動作を説明するためのブロック図である。図３の変換モジュールに対するそれぞれの動作を説明するためのブロック図である。図３の変換モジュールに対するそれぞれの動作を説明するためのブロック図である。図３の変換モジュールに対するそれぞれの動作を説明するためのブロック図である。図３の変換モジュールに対するそれぞれの動作を説明するためのブロック図である。図２のＳ１５０段階及びＳ１６０段階を行うローカルフィーチャー抽出モジュールを説明するためのブロック図である。図２のＳ１５０段階及びＳ１６０段階を行うローカルフィーチャー抽出モジュールを説明するためのブロック図である。本発明の屋内位置測位方法の例示を説明するための図面である。本発明の実施形態に係る３Ｄツアー提供サーバーの構成を概略的に説明するための図面である。本発明の実施形態に係る屋内位置測位方法のためにニューラルネットワークのフィーチャーを利用する概念を説明するための図面である。本発明の実施形態に係るニューラルネットワークフィーチャーを利用する場合の利点を説明するための図面である。本発明の実施形態に係るニューラルネットワークフィーチャーを利用する場合の利点を説明するための図面である。本発明の実施形態に係るニューラルネットワークフィーチャーに対応するフィーチャー位置を説明するための図面である。本発明の実施形態に係る屋内位置測位方法で画像をマッピングするための方法を説明するための流れ図である。

本発明の利点及び特徴、そしてそれらを達成する方法は、添付される図面と共に詳細に後述されている実施例を参照すると明確になるだろう。しかし、本発明は、以下で開示される実施例に限定されるものではなく、互いに異なる多様な形態で実装されるものであり、単に本実施例は、本発明の開示が完全になるようにし、本発明が属する技術分野で通常の知識を持つ者に発明の範疇を完全に知らせるために提供されるものであり、本発明は、請求項の範疇によって定義されるだけである。明細書全体にわたって同一参照符号は同一構成要素を指す。

本明細書で使用される用語は、実施例を説明するためのものであり、本発明を制限するものではない。本明細書において、単数形は、文言で特に言及しない限り、複数形も含む。明細書で使用される「含む（ｃｏｍｐｒｉｓｅｓ）」および／または「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」は、言及された構成要素、段階、動作、および／または素子は、一つ以上の他の構成要素、段階、動作、および／または素子の存在または追加を排除しない。

他の定義がない場合、本明細書で使用されるすべての用語（技術及び科学的用語を含む）は、本発明が属する技術分野における通常の知識を有する者に共通に理解される意味で使用することができるだろう。また、一般的に使用される辞書に定義されている用語は、明白に特別に定義されていない限り、理想的にまたは過度に解釈されることはない。

本発明において「３Ｄツアー」は、複数の地点でそれぞれ３６０度で撮影して保存された画像（例えば、パノラマ画像）の組み合わせで構成することができる。このとき、「３Ｄツアー」は、複数の画像が撮影されたそれぞれの位置情報及び方向情報を含むことができる。

ここで、それぞれの位置情報は、平面図上にマッピングされ、ユーザーに提供することができる。また、３Ｄツアーの撮影時、３６０度カメラを移動しながら導出された位置情報及び方向情報は、ユーザーの移動経路を算出するのに利用され、導出された移動経路は、ユーザー端末上に表示されることがある。

また、本発明において、ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）は、物やデータをクラスタリングしたり分類したりするのに使われる技術である。すなわち、ディープラーニングは、大量のデータをコンピュータに入力して、似たようなもの同士に分類する技術である。このとき、データをどのように分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。ディープラーニングは、人工ニューラルネットワークの限界を克服するために提案された機械学習方法である。

より詳細に説明すると、マシンラーニング（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）の一種であるディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）技術は、データに基づいて多段階で深いレベルまで学習するものである。

ディープラーニング（Ｄｅｅｐｌｅａｒｎｉｎｇ）は、段階を上げるほど複数のデータから核心的なデータを抽出するマシンラーニング（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）アルゴリズムの集合を示すことができる。

ディープラーニング構造は、人工ニューラルネットワーク（ＡＮＮ）を含むことができ、例えば、ディップランニングの人工ニューラルネットワーク構造は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ；コンボリューショナルニューラルネットワーク）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ；リカレントニューラルネットワーク）、ＤＢＮ（ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋ；ディープビリーフネットワーク）などのディープニューラルネットワーク（ＤＮＮ）で構成することができる。ただし、本発明がこれに限定されるものではなく、様々なディープラーニングの人工ニューラルネットワーク構造を本発明に採用することができるのは、通常の技術者にとって自明である。

以下では、図面を参照して、本発明の実施形態に係るディープラーニングを利用した屋内位置測位方法について詳細に説明する。

図１は、本発明のいくつかの実施形態に係る３Ｄツアー提供システムを示す概略図である。ここで、３Ｄツアー提供システムは、本発明のいくつかの実施形態に係る屋内位置測位方法を実施する実行主体であることを前提に説明する。

図１を参照すると、本発明の実施形態に係る３Ｄツアー提供システムは、３Ｄツアー提供サーバー（１１００）、ユーザー端末（１２００）、及び３６０度カメラ（１３００）を含む。

３Ｄツアー提供サーバー（１１００）とユーザー端末（１２００）は、クライアンドサーバーシステムに実装することができる。３Ｄツアー提供サーバー（１１００）は、有線または無線ネットワークを介してユーザー端末（１２００）とデータを送受信することができる。

このとき、３Ｄツアー提供サーバー（１１００）は、ユーザーが選択した３Ｄツアーの特定地点に対応するパノラマ画像を選択して、ユーザー端末（１２００）に提供することができる。選定されたパノラマ画像は、３Ｄ形式に変換され、ユーザー端末（１２００）の画面に表示することができる。また、３Ｄツアー提供サーバー（１１００）は、ユーザーが提供した特定の画像に対応する地点の位置情報を算出して、ユーザー端末（１２００）に提供し、ユーザー端末（１２００）に表示される３Ｄツアー上に表示することができる。

３６０度カメラ（１３００）は、特定地点に対する３６０度の画像（例えば、パノラマ画像）を生成して、３Ｄツアー提供サーバー（１１００）に伝送することができる。３Ｄツアー提供サーバー（１１００）は、３６０度カメラ（１３００）から受信した複数の３６０度の画像をもとに３Ｄツアーを生成して、ユーザー端末（１２００）に提供することができる。

このとき、３６０度カメラ（１３００）は、ユーザー端末（１２００）を介して３Ｄツアー提供サーバー（１１００）とデータを送受信することができる。また、他の実施例では、３６０度カメラ（１３００）は、ネットワークを介して３Ｄツアー提供サーバー（１１００）と直接的にデータを送受信することができる。

図面上には１つのユーザー端末（１２００）及び３６０度カメラ（１３００）だけを図示したが、本発明がこれに限定されるものではなく、３Ｄツアー提供サーバー（１１００）は、複数のユーザー端末（１２００）及び３６０度カメラ（１３００）に連動して動作することができる。

３Ｄツアー提供サーバー（１１００）は、複数の３Ｄツアーを保存及び管理することができる。また、３Ｄツアー提供サーバー（１１００）は、ユーザー端末（１２００）に備えられたカメラで撮影した画像をもとに、ユーザーの正確な位置を計算して、ユーザー端末（１２００）に提供することができる。このとき、３Ｄツアー提供サーバー（１１００）は、ユーザー端末（１２００）のＧＰＳを介して受信した位置情報を利用せず、ユーザー端末（１２００）から受信した撮影画像（以下、パースペクティブ画像（ｐｅｒｓｐｅｃｔｉｖｅｉｍａｇｅ））のフィーチャー（ｆｅａｔｕｒｅ；例えば、グローバルフィーチャーまたはローカルフィーチャー）と、３Ｄツアーに含まれている複数のパノラマ画像のフィーチャー（ｆｅａｔｕｒｅ；例えば、グローバルフィーチャーまたはローカルフィーチャー）を比較することにより、ユーザー端末（１２００）の正確な位置を計算することができる。

また、３Ｄツアー提供サーバー（１１００）は、３Ｄツアーに含まれているパノラマ画像と、ユーザー端末（１２００）が提供したパースペクティブ画像との間の正確かつ迅速なマッチングのためにディープラーニング技術を利用することができる。

すなわち、３Ｄツアー提供サーバー（１１００）は、ＧＰＳ情報を利用せずに、３Ｄツアーとユーザーから受信した撮影画像を利用して、屋内でも正確なユーザーの位置を推定するローカライゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）の動作を実行することができる。このとき、３Ｄツアー提供サーバー（１１００）は、ローカライゼーション動作の正確度と速度を上げるために、ディープラーニングを利用して、グローバルフィーチャー（Ｇｌｏｂａｌｆｅａｔｕｒｅ）とローカルフィーチャー（Ｌｏｃａｌｆｅａｔｕｒｅ）を抽出する前処理過程を行う。これらの前処理過程に対する詳細な内容は、以下で記述するようにする。

まず、以下では本発明の実施形態に係る３Ｄ比較ツアーシステム（１１００）で実行される屋内位置測位方法の全体ロジックについて概略的に説明する。

図２は、図１の３Ｄツアー提供システムで実行される屋内位置測位方法を説明するための流れ図である。以下では、説明の便宜のために３Ｄツアー提供サーバー（１１００）を実行主体にして説明する。

図２を参照すると、３Ｄツアー提供サーバー（１１００）（以下、サーバー）は、３Ｄツアーを呼び出す（Ｓ１１０）。それぞれの３Ｄツアーには固有のツアーＩＤ（ｔｏｕｒＩＤ）が付与され、ユーザー端末（１２００）を介して選択された３Ｄツアーに該当するツアーＩＤを受信する場合、サーバー（１１００）は、データベースに既に保存されている３Ｄツアーを呼び出す。

続いて、サーバー（１１００）は、ユーザーが特定地点で撮影した画像（以下、パースペクティブ画像（ｐｅｒｓｐｅｃｔｉｖｅｉｍａｇｅ））をユーザー端末（１２００）から受信する（Ｓ１２０）。ここで、パースペクティブ画像は、ユーザー端末（１２００）に備えられたカメラで撮影した２Ｄ画像（または、一つのカメラレンズで撮影された断片的画像）を意味する。

続いて、サーバー（１１００）は、受信したツアーＩＤに該当する３Ｄツアーに含まれている複数のパノラマ画像（ｐａｎｏｒａｍａｉｍａｇｅ）に対するそれぞれのグローバルフィーチャー（Ｇｌｏｂａｌｆｅａｔｕｒｅ）を算出する（Ｓ１３０）。また、サーバー（１１００）は、ユーザーが提供したパースペクティブ画像に対するグローバルフィーチャーを算出する。

このとき、サーバー（１１００）は、事前に学習されたディープラーニングモジュールを利用して、それぞれのパノラマ画像に対するグローバルフィーチャーを算出する。ここで、グローバルフィーチャーはベクトル形式を有し、ディープラーニングモジュールは、一つの画像に対する一つのグローバルフィーチャーを出力する。

ここで、ディープラーニングモジュールは、同じ場所に対するパノラマ画像とパースペクティブ画像に対し、同じグローバルフィーチャー（ＵｎｉｆｉｅｄＧｌｏｂａｌＦｅａｔｕｒｅ）を出力するようにトレーニングすることができる。

続いて、サーバー（１１００）は、算出されたパノラマ画像のグローバルフィーチャーとパースペクティブ画像のグローバルフィーチャーの類似度を計算し、パースペクティブ画像に最も近いグローバルフィーチャーを持つパノラマ画像を選定する（Ｓ１４０）。すなわち、ユーザーが提供したパースペクティブ画像と最も類似して関連性の高いパノラマ画像を選定する。

そのため、サーバー（１１００）は、ハイブリッド画像検索モジュール（ｈｙｂｒｉｄｉｍａｇｅｒｅｔｒｉｅｖａｌｍｏｄｕｌｅ）を利用することができる。具体的には、ハイブリッド画像検索モジュールは、ベクトル形式の各グローバルフィーチャーとの演算（例えば、コサイン距離（ｃｏｓｉｎｅｄｉｓｔａｎｃｅ））を介して、各画像間の類似度を計算することができる。このとき、サーバー（１１００）は、グローバルフィーチャーだけではなく、各画像に対するオブジェクト（ｏｂｊｅｃｔ）、画像キャプション（ｉｍａｇｅｃａｐｔｉｏｎ）、セグメンテーション（ｓｅｇｍｅｎｔａｔｉｏｎ）に関するデータに対する類似度も追加で計算することができる。

続いて、ハイブリッド画像検索モジュールは、算出された各画像間の類似度をもとに、ヒストグラム（ｈｉｓｔｏｇｒａｍ）を利用して、各パノラマ画像に対する加重値を計算することができる。このとき、ハイブリッド画像検索モジュールは、特定のパノラマ画像から生成されたパースペクティブ画像と、ユーザーから受信したパースペクティブ画像間の類似画像の数をカウントすることができる。これをもとに、ハイブリッド画像検索モジュールは、類似画像の数が多いパノラマ画像に高い加重値を付与することができる。

続いて、ハイブリッド画像検索モジュールは、各パラメータに対する類似度と加重値をもとに、それぞれのパノラマ画像のランキングを算出し、これをもとに、ユーザーが提供したパースペクティブ画像と最も類似したパノラマ画像を選別することができる。ハイブリッド画像検索モジュールに対する構造および動作方法は、以下で詳細に説明する。

続いて、サーバー（１１００）は、選定されたパノラマ画像に対するローカルフィーチャー（Ｌｏｃａｌｆｅａｔｕｒｅ）を算出する（Ｓ１５０）。

このとき、ローカルフィーチャーは、画像から抽出されたそれぞれのキーポイント（Ｋｅｙｐｏｉｎｔ：ＫＰ）を中心に導出されたパッチ（Ｐａｔｃｈ）に対するベクトル値及び位置情報（例えば、ｘ座標、ｙ座標、及びスケールを含む場所情報）を含み、一つの画像から複数のローカルフィーチャーを抽出することができる。このとき、ローカルフィーチャーに対するベクトル値は、事前に学習されたディープラーニングモジュールによって導出されるが、ディープラーニングモジュールは、同じキーポイント（ＫＰ）に対して同じローカルフィーチャー（ＵｎｉｆｉｅｄＬｏｃａｌＦｅａｔｕｒｅ）が出力するようにトレーニングすることができる。

同様に、サーバー（１１００）は、ユーザーから受信したパースペクティブ画像に対するローカルフィーチャーを算出する（Ｓ１６０）。このとき、サーバー（１１００）は、同一の事前に学習されたディープラーニングモジュールを利用して、ローカルフィーチャーを算出する。

続いて、サーバー（１１００）は、算出されたローカルフィーチャーを利用して、ユーザーのパースペクティブ画像を撮影したカメラの位置に対応する屋内位置を計算する（Ｓ１７０）。

続いて、サーバー（１１００）は、計算された屋内位置をユーザー端末（１２００）に提供する（Ｓ１８０）。

これにより、サーバー（１１００）は、ユーザーが提供したパースペクティブ画像に対する正確な位置をディープラーニングモジュールを利用して導出することができる。また、ＧＰＳ情報を利用せずに、画像間の比較を介してユーザーの正確な位置を導出することができるので、屋内でもユーザーの正確な位置に対する情報提供が可能である。また、事前に学習されたディープラーニングを利用して導出されたグローバルフィーチャーおよび／またはローカルフィーチャーを利用することにより、従来の方法よりも迅速かつ正確にユーザーの屋内位置を導出して、これに対応する３Ｄツアーの情報をユーザー端末（１２００）に提供することができる。

さらに、本発明の他の実施例において、本発明の前述したグローバルフィーチャーを算出する方法及びローカルフィーチャーを算出する方法のいずれかは、ハンドクラフトフィーチャーポイントを利用する方法、又は既に公開された従来のフィーチャー抽出方法が代替されて利用されることがある。

以下では、前述したＳ１３０段階及びＳ１４０段階を実行するハイブリッド画像検索モジュールについて、具体的に調べてみる。

図３は、図２のＳ１３０段階及びＳ１４０段階を実行するハイブリッド画像検索モジュールを説明するためのブロック図である。図４乃至図８は、図３の変換モジュールに対するそれぞれの動作を説明するためのブロック図である。

図３を参照すると、本発明の実施形態に係るハイブリッド画像検索モジュールは、パノラマフィルタモジュール（１１０）（Ｐａｎｏｒａｍａｆｉｌｔｅｒｍｏｄｕｌｅ）、データベース（１２０）（Ｄａｔａｂａｓｅ）、変換モジュール（２００）（ｔｒａｎｓｆｏｒｍａｔｉｏｎｍｏｄｕｌｅ）、ヒストグラムモジュール（３１０）（ｈｉｓｔｏｇｒａｍｍｏｄｕｌｅ）、ランキングモジュール（３２０）（ｒａｎｋｉｎｇｍｏｄｕｌｅ）を含む。

まず、パノラマフィルタモジュール（１１０）は、一つのパノラマ画像を複数のパースペクティブ画像に変換する。ここで、パノラマ画像は、一つの地点を基準に３６０度を全方位で撮影して一つの画像に合成した３Ｄ画像を意味し、複数のレンズを利用して撮影された画像を併合して生成することができる。サーバー（１１００）は、パノラマ画像を利用して、仮想の３Ｄ空間を実現することができる。一方、パースペクティブ画像は一つのレンズで撮影した２Ｄ画像に該当する。

したがって、パノラマフィルタモジュール（１１０）は、パノラマ画像を球面座標系（ｓｐｈｅｒｉｃａｌｃｏｏｒｄｉｎａｔｅ）に投影させた後、これを複数個の区域に区分することができる。例えば、パノラマフィルタモジュール（１１０）は、一つのパノラマ画像を球面座標系に投影させた後、１８個の区域に区分することができる。

続いて、パノラマフィルタモジュール（１１０）は、区分された各区域に対応するパノラマ画像（すなわち、３Ｄ画像）の一部をパースペクティブ画像（すなわち、２Ｄ画像）の形態に変換する。例えば、一つのパノラマ画像が１８個の区域に区分された場合、パノラマフィルタモジュール（１１０）は、区分された各区域を１８個のパースペクティブ画像に生成することができる。このとき、それぞれのパースペクティブ画像は、相互間で一部のオーバーラップされる領域を含むことができる。

変換モジュール（２００）は、グローバルディスクリプタモジュール（２１０）（Ｇｌｏｂａｌｄｅｓｃｒｉｐｔｏｒｍｏｄｕｌｅ；以下、第１モジュール）、屋内オブジェクト検出モジュール（２２０）（ＩｎｄｏｏｒＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｍｏｄｕｌｅ；以下、第２モジュール）、画像キャプション生成モジュール（２３０）（ＩｍａｇｅＣａｐｔｉｏｎｇｅｎｅｒａｔｉｏｎｍｏｄｕｌｅ；以下、第３モジュール）、セグメンテーションモジュール（２４０）（Ｓｅｇｍｅｎｔａｔｉｏｎｍｏｄｕｌｅ；以下、第４モジュール）を含む。

まず、図４を参照すると、第１モジュール（２１０）は、入力された画像に対するグローバルフィーチャーをベクトルの形態で出力する。例えば、第１モジュール（２１０）から出力されるグローバルフィーチャーは、｛１Ｘ２０４８｝のベクトル形式を持つことができ、１２８ｂｉｔになることができる。

このとき、第１モジュール（２１０）は、ニューラルネットワークを含むディープラーニングモジュールを含むことができ、同じ場所を撮影した画像に対して同じグローバルフィーチャーが出力されるように学習することができる。たとえば、サーバー（１１００）が同じ場所に対するパノラマ画像とパースペクティブ画像を第１モジュール（２１０）に入力した場合、第１モジュール（２１０）は、同一又は類似度が高いグローバルフィーチャーを出力することができる。

具体的には、図５を参照すると、第１モジュール（２１０）は、互いに異なる画像が入力される複数のニューラルネットワークモジュール（２１１）、各ニューラルネットワークモジュールから出力された値の類似度を算出する類似度判断モジュール（２１３）（ｄｉｓｔａｎｃｅｃａｌｃｕｌａｔｏｒ）、算出された各類似度に対する加重値を調節する加重値モジュール（２１５）（ｗｅｉｇｈｔｃａｌｃｕｌａｔｏｒ）、及び結果値の誤差に対するフィードバックを提供するフィードバックモジュール（２１７）（ｆｅｅｄｂａｃｋｍｏｄｕｌｅ）を含む。

第１モジュール（２１０）は、基本的に三重項損失（ｔｒｉｐｌｅｔｌｏｓｓ）の機械学習アルゴリズムを利用する。したがって、ニューラルネットワークモジュール（２１１）には、互いに異なる３つのニューラルネットワークサブモジュール（２１１ａ、２１１ｂ、２１１ｃ）が含まれており、それぞれのサブモジュール（２１１ａ、２１１ｂ、２１１ｃ）には、互いに異なる画像が入力される。

例えば、第１サブモジュール（２１１ａ）には、パノラマ画像（Ｉ１）が入力され、第２サブモジュール（２１１ｂ）には、パノラマ画像（Ｉ１）と同じ対象を含むパースペクティブ画像（Ｉ２）が入力され、第３サブモジュール（２１１ｃ）には、Ｉ１、Ｉ２と非類似の比較群画像（Ｉ３）（ＮｅｇａｔｉｖｅＩｍａｇｅ）が入力される。

このとき、それぞれのサブモジュール（２１１ａ、２１１ｂ、２１１ｃ）の間にはニューラルネットワークの加重値が共有されることがある。

それぞれのサブモジュール（２１１ａ、２１１ｂ、２１１ｃ）から出力された出力値（Ａｖ、Ｐｖ、Ｎｖ）は、ベクトル値を持つことができ、それぞれのベクトル値は、前述したグローバルフィーチャーと同じ形式をとることができる。

続いて、それぞれのサブモジュール（２１１ａ、２１１ｂ、２１１ｃ）から出力された出力値（Ａｖ、Ｐｖ、Ｎｖ）は、類似度判断モジュール（２１３）に入力される。また、類似度判断モジュール（２１３）には、入力されたパノラマ画像（Ｉ１）に対する基準値（ＧｒｏｕｎｄＴｒｕｔｈ；ＧＴ）が入力される。

類似度判断モジュール（２１３）は、入力された出力値（Ａｖ、Ｐｖ、Ｎｖ）及び基準値（ＧＴ）を利用して、各値の間の類似度を計算する。例えば、類似度判断モジュール（２１３）は、コサイン距離（Ｃｏｓｉｎｅｄｉｓｔａｎｃｅ）関数を利用して、入力された値の類似度を算出することができる。

このとき、類似度判断モジュール（２１３）は、パノラマ画像に対する第１結果値（Ａｖ）とパースペクティブ画像に対する第２結果値（Ｐｖ）との間の第１類似度、第１結果値（Ａｖ）と比較群画像に対する第３結果値（Ｎｖ）との間の第２類似度、第２結果値（Ｐｖ）と第３結果値（Ｎｖ）との間の第３類似度、第１結果値（Ａｖ）と基準値（ＧＴ）との間の第４類似度、第２結果値（Ｐｖ）と基準値（ＧＴ）との間の第５類似度を導出して、加重値モジュール（２１５）に伝達することができる。また、図面に図示されてはいないが、類似度判断モジュール（２１３）は、第３結果値（Ｎｖ）と基準値（ＧＴ）との間の第６類似度を追加的に導出し、加重値モジュール（２１５）に伝達することができる。

続いて、加重値モジュール（２１５）は、受信した類似度にあらかじめ設定された加重値を適用して、第１時点の結果値（Ｔ（ｔ））を出力することができる。例えば、加重値モジュール（２１５）は、第１乃至第３類似度には０．６の加重値を適用し、第４及び第５類似度には０．４の加重値を適用することにより、第１時点の結果値（Ｔ（ｔ））を導出することができる。

続いて、加重値モジュール（２１５）で出力された結果値（Ｔ（ｔ））は、フィードバックモジュール（２１７）に提供することができ、フィードバックモジュール（２１７）は、加重値モジュール（２１５）から第１時点に受信した第１結果値（Ｔ（ｔ））と第２時点に受信した第２結果値（Ｔ（ｔ－１））との間の差分値を導出し、導出された値をフィードバック値としてニューラルネットワークモジュール（２１１）に提供することができる。

ニューラルネットワークモジュール（２１１）は、受信したフィードバック値を利用して各ニューラルネットワークサブモジュール（２１１ａ、２１１ｂ、２１１ｃ）に対する加重値を調整することができる。

また、前述した第１モジュール（２１０）は、学習モードと実行モードに分けて動作することができる。

学習モードにおいて、第１モジュール（２１０）はあらかじめ設定された学習データセットを介して、各画像の類似度判断の正確性を高めるように学習することができる。第１モジュール（２１０）は、データセットを利用した十分な学習を介して、同じ対象を含むパノラマ画像とパースペクティブ画像に対して同一または類似度が高いグローバルフィーチャーを出力することができる。

実行モードにおいて、第１モジュール（２１０）は、一つの画像だけを入力することができ、これにより、第１モジュール（２１０）は、学習されたニューラルネットワークを利用して入力された画像に対するグローバルフィーチャーを出力することができる。

再び図３を参照すると、データセットによって学習されたディープラーニングモジュールを含む第１モジュール（２１０）は、パノラマ画像及びパノラマ画像で導出されたパースペクティブ画像がそれぞれ入力され、入力されたそれぞれの画像に対するグローバルフィーチャー（ＧＦＶｅｃｔｏｒ）を出力することができる。出力されたグローバルフィーチャーはベクトル値を持ち、データベース（１２０）に各画像のＩＤ別に保存することができる。

一方、図３を参照すると、第２モジュール（２２０）は、画像に含まれている物体（ｏｂｊｅｃｔ）を検出し、検出された物体がどのような物体であるかを分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）して、その物体がどこに位置するかをバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘ）を利用して位置情報（ｐｏｓｉｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）を出力することができる。

このとき、第２モジュール（２２０）は、事前に学習されたディープラーニングモジュールを利用して、画像に含まれている物体を検出し、検出された物体を分類し、検出された物体の位置情報を抽出することができる。

例えば、図６を参照すると、画像に猫一匹が含まれている場合、第２モジュール（２２０）は、その猫が含まれるバウンディングボックスを設定し、そのバウンディングボックスに含まれている物体が猫と判断して分類し、分類情報（ｃｌａｓｓ）とバウンディングボックスの位置情報（ｐｏｓｉｔｉｏｎ）を出力することができる。これらの動作は、複数の物体が含まれている場合でも同じく動作し、第２モジュール（２２０）は、複数の物体それぞれに対する分類情報（ｃｌａｓｓ）と位置情報（ｐｏｓｉｔｉｏｎ）を出力することができる。出力された情報は、データベース（１２０）に伝達され、対応する画像のＩＤに帰属され、保存することができる。

再び図３を参照すると、第３モジュール（２３０）は、画像に含まれている物体に対する説明をテキスト（ｔｅｘｔ）の形態で出力する。同様に、第３モジュール（２３０）も事前に学習されたディープラーニングモジュールを利用して、画像に含まれている物体を検出し、当該物体に対応するテキストをキャプション（ｃａｐｔｉｏｎ）に出力することができる。このとき、キャプション（ｃａｐｔｉｏｎ）は、単語またはその単語を含む文章で構成することができる。

例えば、図６を参照すると、画像に猫、犬、アヒルが含まれている場合、第３モジュール（２３０）は、各物体を検出し、これに対する説明を単語の形態で出力することができる。図７を参照すると、第３モジュール（２３０）は、画像に対する物体と各物体に対する動作の形態を検出し、これに対する説明を文章の形態で出力することができる。第３モジュール（２３０）から出力された情報は、データベース（１２０）に伝達され、対応する画像のＩＤに帰属され、保存することができる。

再び図３を参照すると、第４モジュール（２４０）は、画像の領域を分割するセグメンテーション（ｓｅｇｍｅｎｔａｔｉｏｎ）の動作を実行し、各分割された領域をアルゴリズムを利用して再び合わせるオブジェクトセグメンテーション（ｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎ）の動作を実行することができる。続いて、第４モジュール（２４０）は、同じ分類（ｃｌａｓｓ）の物体（ｏｂｊｅｃｔ）を同じ領域に分割する。このとき、第４モジュール（２４０）は、同じクラスの物体を同じ領域に区分したり、互いに異なる色で区別して互いに異なる領域に区分したりした後、境界を表示するバウンダリセグメンテーション（ｂｏｕｎｄａｒｙｓｅｇｍｅｎｔａｔｉｏｎ）又はセマンティックインスタンスセグメンテーション（ｓｅｍａｎｔｉｃｉｎｓｔａｎｃｅｓｅｇｍｅｎｔａｔｉｏｎ）の動作を実行することができる。

例えば、図６を参照すると、第４モジュール（２４０）は、インスタンスセグメンテーション（ｉｎｓｔａｎｃｅｓｅｇｍｅｎｔａｔｉｏｎ）を介して各動物の境界線を区分し、これに対する領域を分離して出力することができる。第４モジュール（２４０）から出力された情報は、データベース（１２０）に伝達され、対応する画像のＩＤに帰属され、保存することができる。

このとき、第２モジュール（２２０）、第３モジュール（２３０）、第４モジュール（２４０）は、具体的な動作方法で、従来の公開されたアルゴリズムを利用し、そのアルゴリズムに対する情報はすでに公開されているので、ここでは詳細な説明は省略する。

続いて、ヒストグラムモジュール（３１０）は、パノラマ画像をもとに生成されたそれぞれのパースペクティブ画像とユーザーから受信した画像（すなわち、パースペクティブ画像）との間の類似度を計算し、各パノラマ画像に対してあらかじめ定められた基準値以上に類似したパースペクティブ画像の数をカウントする。

例えば、図８を参照すると、ヒストグラムモジュール（３１０）は、第１乃至第４のパノラマ画像（Ｐａ１、Ｐａ２Ｐａ３、Ｐａ４）から生成されたパースペクティブ画像とユーザーから受信した画像に類似した画像の数をカウントして、グラフで表示することができる。

ヒストグラムモジュール（３１０）は、それぞれのパノラマ画像のＩＤ別に類似したパースペクティブ画像の数字を出力することができ、算出された結果をもとに算定された各パノラマ画像の加重値は、ランキングモジュール（３２０）に伝達することができる。

追加的に、ヒストグラムモジュール（３１０）で、各画像間の類似度を判断する方法は、多様に前述したパラメータの一部を利用したり、従来の画像類似度を判断したりする様々な方法を利用することができる。

続いて、ランキングモジュール（３２０）は、データベース（１２０）に保存された各パノラマ画像に対するグローバルフィーチャー（ＧＦＶｅｃｔｏｒ）、分類情報（ｃｌａｓｓ）、位置情報（ｐｏｓｉｔｉｏｎ）、キャプション（ｃａｐｔｉｏｎ）、セグメンテーション（Ｓｅｇｍｅｎｔａｔｉｏｎ）を参照して、ユーザーから受信した画像との類似度を計算することができる。

このとき、ランキングモジュール（３２０）は、ヒストグラムモジュール（３１０）から受信した各パノラマ画像に対する加重値も一緒に考慮して類似度を計算することができる。

ランキングモジュール（３２０）は、パノラマ画像から導出された各パラメータに対する類似度と、ヒストグラムモジュール（３１０）から受信した加重値を利用して類似度を算出し、これをもとに、ユーザーが提供した画像と類似度が最も高いパノラマ画像を選定することができる。

これにより、ランキングモジュール（３２０）は、選定されたパノラマ画像に対応するＩＤを出力することができる。

続いて、本発明の屋内位置測位方法は、ランキングモジュール（３２０）から出力されたＩＤに対応するパノラマ画像と、ユーザーが提供したパースペクティブ画像との相対的な位置関係を計算するために、各画像のローカルフィーチャーを抽出して利用する。このとき、本発明のサーバー（１１００）は、ディープラーニング技術を利用して、ローカルフィーチャーを抽出することができる。

追加的に、本発明の他の実施形態に係るハイブリッド画像検索モジュールにおいて、ヒストグラムモジュール（３１０）またはランキングモジュール（３２０）は省略されて実施されることがある。

以下では、選定されたパノラマ画像とユーザーが提供した画像からローカルフィーチャーを抽出するローカルフィーチャー抽出モジュール（ＬｏｃａｌｆｅａｔｕｒｅＥｘｔｒａｃｔｉｏｎＭｏｄｕｌｅ）について詳細に説明する。

図９は、図２のＳ１５０段階及びＳ１６０段階を実行するモジュールを説明するためのブロック図である。

図９を参照すると、本発明の実施形態に係るローカルフィーチャー抽出モジュール（ＬｏｃａｌＦｅａｔｕｒｅＥｘｔｒａｃｔｉｏｎＭｏｄｕｌｅ）は、キーポイント推定器（４１０）（ＫｅｙｐｏｉｎｔＥｓｔｉｍａｔｏｒ）、プロジェクション変換器（４２０）（ＰｒｏｊｅｃｔｉｏｎＴｒａｎｓｆｏｒｍａｔｏｒ）、ディスクリプタ抽出器（４３０）（ＤｅｓｃｒｉｐｔｅｒＥｘｔｒａｃｔｏｒ）、マルチパッチロス算出器（４４０）（ＭｕｌｔｉＰａｔｃｈｌｏｓｓＣａｌｃｕｌａｔｏｒ）を含む。

具体的に、キーポイント推定器（４１０）は、画像に含まれているキーポイント（ＫＰ；以下特徴点）を抽出する。このとき、キーポイント推定器（４１０）は、互いに異なるレベルの画像からそれぞれ特徴点（ＫＰ）を抽出して利用することができる。

たとえば、キーポイント推定器（４１０）は、互いに異なる大きさに変換させた３つの層から特徴点（ＫＰ）を抽出することができ、第２層は、第１層の１／４の大きさであり、第３層は、第２層の１／４の大きさに設定することができる。また、それぞれの層では、互いに異なる数字の特徴点（ＫＰ）を抽出することができる。

続いて、キーポイント推定器（４１０）は、抽出された各特徴点（ＫＰ）に対し、各特徴点（ＫＰ）を基準に、あらかじめ決められた大きさのパッチ（Ｐａｔｃｈ）を生成することができる。たとえば、パッチ（Ｐａｔｃｈ）は特徴点（ＫＰ）を中心に、３２Ｘ３２ピクセルで構成された画像であることができ、前述した各層別に（例えば、それぞれの第１乃至第３層）形成することができる。

キーポイント推定器（４１０）で生成された各特徴点（ＫＰ）に対するパッチ（Ｐａｔｃｈ）は、ディスクリプタ抽出器（４３０）に伝達することができる。また、抽出された各特徴点（ＫＰ）に対する位置情報（ｐｏｓｉｔｉｏｎ）は、プロジェクション変換器（４２０）に伝達することができる。

プロジェクション変換器（４２０）は、受信した特徴点（ＫＰ）に対する位置情報をもとに入力されたパノラマ画像に対するパッチを形成することができる。ただし、パノラマ画像の場合、球面座標系（ｓｐｈｅｒｉｃａｌｃｏｏｒｄｉｎａｔｅ）で構成されるので、プロジェクション変換器（４２０）は、受信した特徴点（ＫＰ）に対応する領域を設定したあと、座標系変換を介してパースペクティブ画像に対応する形態でパッチ（Ｐａｔｃｈ）を変換する。

すなわち、プロジェクション変換器（４２０）は、特徴点（ＫＰ）に対応する位置の領域をパノラマ画像上で特定して、特定された領域をパースペクティブ画像と比較可能な形態に変換することにより、パッチ（Ｐａｔｃｈ）を生成する。

同様に、プロジェクション変換器（４２０）で生成された各特徴点（ＫＰ）に対するパッチ（Ｐａｔｃｈ）は、ディスクリプタ抽出器（４３０）に伝達することができる。

ディスクリプタ抽出器（４３０）は、各パッチ（Ｐａｔｃｈ）ごとにローカルフィーチャーに対応する値を演算して出力することができる。このとき、ローカルフィーチャーはベクトル値（ＬＦＶｅｃｔｏｒ；例えば、１２８桁のベクトル値）を含むことができ、座標情報（［ｎ］ｘ３；例えば、ｘ座標、ｙ座標、スケール（ｓｃａｌｅ））を含むことができる。

このとき、ディスクリプタ抽出器（４３０）は、ニューラルネットワークを含むディープラーニングアルゴリズムで実装することができ、同じ対象に対するパッチ（Ｐａｔｃｈ）について、同一または類似したローカルフィーチャーが出力されるよう学習することができる。

ディスクリプタ抽出器（４３０）から出力される各パッチ（Ｐａｔｃｈ）のローカルフィーチャーは、マルチパッチロス算出器（４４０）に提供される。

マルチパッチロス算出器（４４０）は、ディスクリプタ抽出器（４３０）に含まれるニューラルネットワークモジュールを学習させるフィードバック値を提供することができる。すなわち、マルチパッチロス算出器（４４０）は、ディスクリプタ抽出器（４３０）から互いに異なる時点で出力された結果値の間の差分値を導出し、導出された前記差分値をディスクリプタ抽出器（４３０）にフィードバックとして提供することができる。

例えば、互いに同一対象を含むパノラマ画像とパースペクティブ画像に対してパッチ（Ｐａｔｃｈ）を抽出し、当該パッチ（Ｐａｔｃｈ）に対応するローカルフィーチャーが入力されたとき、マルチパッチロス算出器（４４０）は、ローカルフィーチャーとの間の差分値をフィードバックとしてディスクリプタ抽出器（４３０）に提供することができる。

ディスクリプタ抽出器（４３０）は、指定されたフィードバック値を利用してニューラルネットワークの加重値を変換させることができる。このとき、ディスクリプタ抽出器（４３０）は、ニューラルネットワークに加重値を適用し、これをもとに、結果値を出力する加重値モジュールをさらに含むことができる。これにより、ディスクリプタ抽出器（４３０）は、同じ対象を表すパッチ（Ｐａｔｃｈ）に対して同じローカルフィーチャーを出力するように学習することができる。

一方、ローカルフィーチャー抽出モジュールにパノラマ画像が入力される場合、パノラマ画像は、プロジェクション変換器（４２０）を介してパッチ（Ｐａｔｃｈ）を生成することができる。一方、ローカルフィーチャー抽出モジュールにパースペクティブ画像が入力される場合、パースペクティブ画像はプロジェクション変換器（４２０）を経由せずに、キーポイント推定器（４１０）でパッチ（Ｐａｔｃｈ）を生成することができる。

ローカルフィーチャー抽出モジュールは、学習モードと実行モードに分けて動作することができる。

学習モードにおいて、ローカルフィーチャー抽出モジュールは、あらかじめ設定された学習データセットを介して、各画像の類似度判断の正確度を高めるように学習することができる。

学習モードにおいて、ディスクリプタ抽出器（４３０）は、プロジェクション変換器（４２０）から受信した第１パッチ（１ｓｔＰａｔｃｈ）と、キーポイント推定器（４１０）から受信した第２パッチ（２ｎｄＰａｔｃｈ）に対するそれぞれの第１及び第２のローカルフィーチャーを生成して、マルチパッチロス算出器（４４０）に伝達する。マルチパッチロス算出器（４４０）は、第１パッチと第２パッチに対する第１及び第２のローカルフィーチャーの類似度を算出して、フィードバック値（Ｆｅｅｄｂａｃｋｖａｌｕｅ）を算出し、算出されたフィードバック値をディスクリプタ抽出器（４３０）に提供することができる。

これにより、ローカルフィーチャー抽出モジュールは、同じ対象を示すパッチ（Ｐａｔｃｈ）に対して同じローカルフィーチャーが出力されるように学習することができる。

一方、実行モードにおいて、ローカルフィーチャー抽出モジュールにパノラマ画像が入力される場合、パノラマ画像はプロジェクション変換器（４２０）を介して第１パッチが生成され、ディスクリプタ抽出器（４３０）は、生成された第１パッチに対する第１ローカルフィーチャーを出力することができる。

また、ローカルフィーチャー抽出モジュールにパースペクティブ画像が入力される場合、パースペクティブ画像はプロジェクション変換器（４２０）を経由せずに、キーポイント推定器（４１０）で第２パッチ（Ｐａｔｃｈ）が生成され、ディスクリプタ抽出器（４３０）は、生成された第２パッチに対する第２ローカルフィーチャーを出力することができる。

すなわち、本発明のローカルフィーチャー抽出モジュールにおいて、パノラマ画像に対する第１パッチの第１ローカルフィーチャーを生成する過程は、パースペクティブ画像に対する第２パッチの第２ローカルフィーチャーを生成する過程と互いに異なる構成になることができる。

追加的に、図１０のディスクリプタ抽出器（４３０）及びマルチパッチロス算出器（４４０）の組み合わせはディープラーニングモジュールに含まれることがあり、前記ディープラーニングモジュールは、前述した図５の第１モジュール（２１０）と実質的に類似した構造を持つことができる。また、本技術に対する通常の技術者は、前述した説明をもとに、ディスクリプタ抽出器（４３０）の構造を容易に導出することができるので、ここで重複説明は省略する。

ディスクリプタ対象抽出器（４３０）に含まれるニューラルネットワークモジュールは、人工ニューラルネットワーク（ＡＮＮ）を含むことができる。例えば、ディープラーニングの構造は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ；コンボリューショナルニューラルネットワーク）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ；リカレントニューラルネットワーク）、ＤＢＮ（ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋ；ディープビリーフネットワーク）、ＧＮＮ（ＧｒａｐｈｉｃＮｅｕｒａｌＮｅｔｗｏｒｋｓ；グラフニューラルネットワーク）などのディープニューラルネットワーク（ＤＮＮ）で構成することができる。また、ディープラーニングモジュールは、三重項損失（Ｔｒｉｐｌｅｔｌｏｓｓ）のようなモデルが適用されるのはもちろんのことである。ただし、これは一つの例示に過ぎず、本発明が前記実施例に限定されるものではないため、ここでこれに対する詳細な説明は省略する。

続いて、サーバ（１１００）は、先に選定されたパノラマ画像と、ユーザーが提供したパースペクティブ画像との間のマッピングを行うことができる。このとき、選定されたパノラマ画像とユーザーが提供したパースペクティブ画像はマッピング画像になることができる。

続いて、サーバ（１１００）は、マッピングされたパノラマ画像及びパースペクティブ画像に対する位置関係を算出することができる。

ここで、マッピング画像は、互いに最も近い位相関係を持つ画像を意味することができる。最も近い位相関係は、距離が近いだけでなく、空間的にも直接的に互いに移動が可能でなければならない場合であり、これらの例は、共通の空間が最も多く含まれている画像であることができる。

また、マッピングを行うということは、二つの画像間の整合を意味することもあるが、本明細書では、二つの画像の位相、すなわち相対的な位置関係を把握する場合を中心に説明する。

図１１は、本発明の屋内位置測位方法の例示を説明するための図面である。図１２は、本発明の実施形態に係る３Ｄツアー提供サーバーの構成を概略的に説明するための図面である。図１３は、本発明の実施形態に係る屋内位置測位方法のために、ニューラルネットワークのフィーチャーを利用する概念を説明するための図面である。図１４及び図１５は、本発明の実施形態に係るニューラルネットワークフィーチャーを利用する場合の利点を説明するための図面である。

３Ｄツアー提供システムは、複数個（例えば、５個）の画像を入力することができる。その後、３Ｄツアー提供システムは、複数個の画像のうち、互いにマッピングできる画像、すなわちマッピング画像がどのようなものなのかを把握し、把握したマッピング画像のマッピングを行うことができる。

例えば、本発明の実施例において、画像は互いに異なる位置で撮影された全方位画像（３６０画像）であることができる。そしてマッピング画像は、互いに共通の空間を最も多く共有している画像フェアであることができる。

例えば、図１１に示すように、位置ａ、ｂ、ｃ、ｄ、ｅで撮影された画像のそれぞれが、画像１、画像２、画像３、画像４、及び画像５であることができる。

このような場合、画像１と画像２と画像３は、共通の撮影された映像内に共通の空間が相当多く含まれているが、相対的に画像１と画像２に、より多くの共通空間が含まれている可能性がある。したがって、画像１のマッピング画像は画像２であることができる。

そうすると、画像２に対してマッピング画像を検索しなければならず、このとき、すでにマッピング画像が確定された画像１は除外される。すると、画像２のマッピング画像は、画像３になることができる。

このような方式で、画像３のマッピング画像は画像４になることができ、画像４のマッピング画像は画像５になることができる。

そうすると、３Ｄツアー提供システムは、画像１を基準にマッピング画像である画像２に対するマッピングを行うことができる。すなわち、画像２の画像１に対する位相、画像２の画像１に対する相対的な位置を把握することができる。そして画像３の画像２に対する位相、画像４の画像３に対する位相、及び画像５の画像４に対する位相を順次的に把握することにより、全体の画像間の位相関係が特定されることが可能になる。

結局、従来は全方位画像が複数存在し、それぞれの全方位画像の正確な位置を知ることができない場合には、複数の画像の位置関係を把握するために、相当の時間と資源が必要になる。

例えば、従来の方式によれば、すべての画像別に所定のフィーチャーポイント（例えば、前述したキーポイント（ＫＰ））を抽出し、抽出されたフィーチャーポイントを利用して、すべての画像のペア別に共通のフィーチャーポイントがどれだけ存在するかを把握しなければならない。そして共通のフィーチャーポイントが最も多い画像のペアが、互いにマッピング画像として把握されることがあり、共通のフィーチャーポイントの位置によってマッピング、すなわち相対的な位置関係が決定されることがある。もし整合が必要な場合には、共通のフィーチャーポイントを最小限のエラーで重ね合わせるための変換行列が決定され、これらの変換行列によるいずれかの画像の変換を介して、二つの画像は連結（整合）されることがある。

しかし、このような従来の方式で使われるフィーチャーポイントは、フィーチャーポイントの抽出にも相当な時間と演算量が必要となる。また、マッピング画像を把握するために、すべての画像のペア別にフィーチャーポイントを比較する演算を実行しなければならないが、画像のフィーチャーポイントの数が多いほど、このような演算は、相当な時間がかかるという問題点がある。

しかし、前述したように、本発明の技術的思想によれば、迅速かつ正確に自動的にこれらの複数の画像の中からマッピング画像を検索し、検索されたマッピング画像に対するマッピングを行うことができる。

これらの問題点を解決するために、本発明の技術的思想による３Ｄツアー提供システムは、ニューラルネットワークフィーチャーを利用することができる。

本明細書で定義されるニューラルネットワークフィーチャーは、所定の目的を達成するために学習されたニューラルネットワークの所定の層のフィーチャーマップ（ｆｅａｔｕｒｅｍａｐ）で選択された全部または一部のフィーチャーを意味することができる。

これらのフィーチャーは、特定の目的を達成するために、学習されたニューラルネットワーク（例えば、コンボリューショナルニューラルネットワーク（ＣＮＮ））で利用され、特定の目的を達成するようにニューラルネットワークが学習されると、学習されたニューラルネットワークによって導出される情報であることができる。

例えば、図１３に示すようなニューラルネットワーク（２０）が存在することができ、ニューラルネットワークは、コンボリューショナルニューラルネットワーク（ＣＮＮ）であることができる。

このような場合、複数の層（２１、２２、２３、２４）がニューラルネットワーク（２０）に含まれることがあり、入力層（２１）と出力層（２４）と複数の隠れ層（２２、２３）が存在することができる。出力層（２４）は、以前の層と完全連結（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）された層であることができ、本発明の技術的思想による３Ｄツアー提供システムは、出力層（２４）またはプーリーコネクテッド層以前の任意のフィーチャーマップが含まれる層（例えば、２３）でニューラルネットワークフィーチャー（ｆ１、ｆ２、ｆ３）を選択することができる。

３Ｄツアー提供システムが利用するニューラルネットワークフィーチャー（ｆ１、ｆ２、ｆ３）は、当該層のフィーチャーマップに含まれるすべてのフィーチャーであることもあり、この中で、一部の選択されたフィーチャーであることもある。

３Ｄツアー提供システムは、これらのフィーチャーを従来のハンドクラフトフィーチャーポイント、例えば、ＳＩＦＴ（Ｓｃａｌｅ－ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）、ＳＵＲＦ（ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ）、またはＯＲＢ（ＯｒｉｅｎｔｅｄＦＡＳＴａｎｄＲｏｔａｔｅｄＢＲＩＥＦ）の代わりに利用してマッピング画像を把握したり、マッピング画像間のマッピングを行ったりするのに利用することができる。すなわち、従来のハンドクラフトフィーチャーの代わりにコンボリューショナルニューラルネットワークで使われるフィーチャーを利用することができる。

一般的に、画像のフィーチャーは、スケール（ｓｃａｌｅ）またはオリエンテーション（ｏｒｉｅｎｔａｔｉｏｎ）に関係なく同じ特性を持つのが好ましいが、コンボリューショナルニューラルネットワークで出力層（２３）以前の層は、複数の非線形的コンボリューション関数および／またはプーリング関数などを介して、これらの特徴を持つようになる。さらに、従来のハンドクラフトフィーチャーは、画像での角などのように、人が定義した特徴的な位置でのみ抽出され、通常は、エッジが存在する所（例えば、エッジが折れる位置など）でのみ抽出された特徴がある。

しかし、ニューラルネットワークフィーチャーは、これらの位置ではなく、画像のフラット（ｆｌａｔ）な領域でも発見できるように、ニューラルネットワーク（２０）が学習できる長所がある。また、ハンドクラフトフィーチャーは、画像の歪みや画像の品質によってフィーチャーポイントが検出されなければならないにもかかわらず、検出されない場合がたびたび発生する。それに比べ、ニューラルネットワークフィーチャーは、これらの画像の歪みに強い特性があって、フィーチャー抽出においても正確度の向上が存在することができる。

ニューラルネットワーク（２０）は、それ自体がフィーチャー抽出器（１１３０）（ｆｅａｔｕｒｅｅｘｔｒａｃｔｅｒ）であることができる。例えば、出力層（２４）またはプーリーコネクテッド直前層（２３）でフィーチャーが選択される場合、出力層（２４）は直前層（２３）の選択されたフィーチャー（ｆ１、ｆ２、ｆ３）自体を出力するように設計されることもあり、このような場合はニューラルネットワーク（２０）自体がフィーチャー抽出器（１１３０）として動作することができる。

また、ニューラルネットワーク（２０）は、別個の固有の目的（例えば、分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）、物体検出（ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）など）を達成するために学習されたものであることができる。このような場合にも、所定の層で常に一貫したフィーチャーを選択し、ニューラルネットワークフィーチャーとして利用することができる。例えば、図１３の場合には、出力層（２４）を除いた残りの層の結合がフィーチャー抽出器（１１３０）として動作することができる。

本発明の一実施例によれば、ニューラルネットワーク（２０）は、いずれかの画像を重ねる領域が存在するように分割した後、分割した画像のそれぞれの重なる共通領域で、それぞれ抽出される互いに対応するポイントがマッチングされるように、最適の変換関係（例えば、エラーが最小になる）を導出できるように学習されたニューラルネットワークであることができる。

例えば、図１４に示すように、所定の画像（６）の全部または一部は、重なる共通領域（６－３）が存在するように分割することができる。そして、分割された画像（６－１と６－２）のそれぞれから互いに対応するポイント（例えば、Ｐ１１乃至Ｐ１４、Ｐ２１乃至Ｐ２４）を所定の数ほど抽出することができる。

そうすると、第１分割画像（６－１）から抽出されたポイント（Ｐ１１乃至Ｐ１４）が第２分割画像（６－２）から抽出されたポイント（Ｐ２１乃至Ｐ２４）を最小エラーで変換できるように（例えば、変換行列のパラメータを決定）学習されるニューラルネットワークをニューラルネットワーク（２０）で実装することができる。

このとき、ポイント（例えば、Ｐ１１乃至Ｐ１４、Ｐ２１乃至Ｐ２４）は、任意に選択されるポイントであることもでき、それぞれの画像の共通領域で所定の方式で抽出されたフィーチャーポイントであることもできる。

いずれの場合も、所定の目的を達成するためによく学習されたニューラルネットワーク（２０）の全部又は一部が、画像からフィーチャーを選択して抽出するフィーチャー抽出器（図１２の１１３０）として利用されることがある。

そして、これらのフィーチャー抽出器（１１３０）を利用して、３Ｄツアー提供システムに入力された互いに異なる画像のそれぞれに含まれる共通領域では、同じフィーチャーを抽出することができる。したがって、ある一つの画像で同じフィーチャー（互いに対応するフィーチャー）が最も多く存在する画像がマッピング画像と判断することができる。

一方、本発明の技術的思想によると、ニューラルネットワークフィーチャーはベクトルで表現されるので、特定画像のマッピング画像を検索するために、従来のように画像のペアごとにフィーチャーを比較するのではなく、高速演算が可能なベクトルサーチエンジン（図１２の１１５０）を利用することで、より迅速な位置関係の判断が可能である。

大容量のベクトルを高速にサーチする技術が最近広く公開されたことがある。

ベクトルサーチエンジン（１１５０）は、入力されたベクトル（またはベクトルセット）と最も近い（近距離の）ベクトルを高速に探すために構築されるエンジンであることができる。すべてのベクトルは、データベース上にインデックス化されて保存され、ベクトルサーチエンジン（１１５０）は、入力されたベクトル（またはベクトルセット）と最も近いベクトル（またはベクトルセット）を出力できるように設計することができる。

これらのベクトルサーチエンジン（１１５０）は、例えば、Ｆａｉｓｓ（Ｆａｃｅｂｏｏｋ（登録商標）ＡＩＳｉｍｉｌａｒｉｔｙＳｅａｒｃｈ）などのような知られたベクトルサーチ手法を利用して構築することができる。これらのベクトルサーチエンジン（１１５０）は、ＧＰＵベースに実行される場合、大容量の高速演算が可能な効果がある。

本発明の技術的思想に基づくベクトルサーチエンジン（１１５０）は、対象の画像（例えば、画像１）で抽出されたフィーチャーのセットが入力されて、それに対する応答として最も類似した（近距離）ベクトル又はベクトルの集合を出力することができる。そして、このようなベクトル又はベクトルの集合のソースがどんな画像であるかを判断することで、高速で対象の画像のマッピング画像が決定されることがある。

例えば、第１画像から抽出されたフィーチャーのすべてをベクトルサーチエンジン（１１５０）に入力することができる。ベクトルサーチエンジン（１１５０）は、ベクトルデータベースで入力されたフィーチャーのそれぞれと、最も距離が短いベクトル又は最も距離が短いベクトルとの距離を出力することができる。これらのタスクは、画像別に実行することができる。

例えば、５つの画像が存在し、それぞれの画像別に１０個のフィーチャーが抽出された場合を想定すると、ベクトルデータベースには、５０個のベクトルがインデックス化されて保存される。そして、それぞれのソース画像に対する情報を一緒に保存することができる。

すると、べクトルサーチエンジン（１１５０）は、第１画像から抽出された１０個のベクトルを入力することができる。そしてベクトルサーチエンジン（１１５０）は、１０個のベクトルのそれぞれと第２画像から抽出されたベクトルの中で距離が最も短いベクトル１０個、またはこれらの距離の合計を出力することができる。このような方式で、第３画像から抽出されたベクトル、第４画像から抽出されたベクトル、第５の画像から抽出されたベクトルに対して実行すると、入力されたベクトルセットと最も近いフィーチャーセットを含む画像が高速で検索される。そして検出された画像を第１画像のマッピング画像として決定することができる。

実施例によっては、ベクトルサーチエンジン（１１５０）は、第１画像から出力された１０個のベクトルのそれぞれについて、第１画像から抽出された１０個のベクトルを除いた残りのベクトル（４０個）の全体に対して距離が最も短いベクトル順に出力することができる。例えば、１０個のベクトルのリストが出力されると、３Ｄツアー提供システムは、これらのベクトルのリストを分析して、マッピング画像を出力することができる。

ベクトルサーチエンジン（１１５０）が出力する結果又は方式は多様である。しかし、いずれの場合も、本発明の技術的思想によれば、入力された画像のそれぞれからフィーチャーを抽出し、これらのフィーチャーをベクトルサーチが可能になるように構築されたデータベースに入力することができ、ベクトルサーチエンジン（１１５０）は、入力されたベクトルまたはベクトルセットが入力されると、最も類似した（距離が短い）ベクトルまたはベクトルセットを出力する機能を行うことができる。これらの機能により、マッピング画像を高速に検索することができる。

実施例によっては、対象の画像、すなわち、マッピング画像を探そうとする画像（例えば、第１画像）のすべてのフィーチャーが入力されず、一部のフィーチャーがベクトルサーチエンジン（１１５０）に入力されることもある。例えば、画像の中、あらかじめ定義された領域に対応するフィーチャーだけが位置関係を把握するためにベクトルサーチエンジン（１１５０）に入力されることもある。

あらかじめ定義された領域は、通常、画像の中央部分ではなく、左右上下の角に隣接した領域になることができるので、画像の外郭側の領域を任意に設定し、設定された領域に対応する位置のフィーチャーが選択的にベクトルサーチのための入力として利用されることもある。もちろんベクトルデータベースも、これらの外郭領域に対応するフィーチャーだけが入力されることもあり、全体のフィーチャーが入力されることもある。

また、本発明の技術的思想に基づくニューラルネットワークフィーチャーは、それ自体では抽出された画像での位置が特定されない。したがってニューラルネットワークフィーチャーに対応する元画像での位置（ポイント）が特定されてこそ、マッピングを実行することができる。したがって、ニューラルネットワークフィーチャーに対応する元画像上の位置を特定する技術的思想が求められるが、これについては図１６を参照して、後述するようにする。

上述したような技術的思想を実装するための３Ｄツアー提供サーバー（１１００）は、図１２に示すような機能的または論理的構成で定義することができる。

図１２を参照すると、本発明の技術的思想に基づくサーバー（１１００）は、制御モジュール（１１１０）、インターフェースモジュール（１１２０）、フィーチャー抽出器（１１３０）を含む。サーバー（１１００）は、マッピングモジュール（１１４０）および／またはベクトルサーチエンジン（１１５０）をさらに含むこともできる。

サーバー（１１００）は、本発明の技術的思想を実装するために必要なハードウェアリソース（ｒｅｓｏｕｒｃｅ）および／またはソフトウェアを備えた論理的な構成を意味することができ、必ずしも一つの物理的な構成要素を意味するか、一つの装置を意味するものではない。すなわち、サーバー（１１００）は、本発明の技術的思想を実装するために備えられるハードウェアおよび／またはソフトウェアの論理的な結合を意味することができ、必要な場合には、互いに離隔した装置に設置され、それぞれの機能を行うことにより、本発明の技術的思想を実現するための論理的な構成の集合として実装することもできる。

また、サーバー（１１００）は、本発明の技術的思想を実現するためのそれぞれの機能又は役割ごとに別途に実現される構成の集合を意味することもできる。例えば、制御モジュール（１１１０）、インターフェースモジュール（１１２０）、フィーチャー抽出器（１１３０）、マッピングモジュール（１１４０）、および／またはベクトルサーチエンジン（１１５０）のそれぞれは、互いに異なる物理的装置に位置することもあり、同じ物理的装置に位置することもある。

また、実施例によっては、制御モジュール（１１１０）、インターフェースモジュール（１１２０）、フィーチャー抽出器（１１３０）、マッピングモジュール（１１４０）、および／またはベクトルサーチエンジン（１１５０）のそれぞれを構成するソフトウェアおよび／またはハードウェアの結合も互いに異なる物理的装置に位置し、互いに異なる物理的装置に位置する構成が互いに有機的に結合され、それぞれのモジュールを実装することもできる。

また、本明細書においてモジュールとは、本発明の技術的思想を実行するためのハードウェア及びハードウェアを駆動するためのソフトウェアの機能的、構造的結合を意味することができる。例えば、モジュールは、所定のコードと所定のコードが実行されるためのハードウェアリソース（ｒｅｓｏｕｒｃｅ）の論理的な単位を意味することができ、必ずしも物理的に連結されたコードを意味したり、一種類のハードウェアを意味したりするものではないのは、本発明の技術分野の平均の専門家には容易に推論することができる。

制御モジュール（１１１０）は、本発明の技術的思想を実現するためにサーバー（１１００）に含まれている他の構成（例えば、インターフェースモジュール（１１２０）、フィーチャー抽出器（１１３０）、マッピングモジュール（１１４０）、および／またはベクトルサーチエンジン（１１５０）など）を制御することができる。

インターフェースモジュール（１１２０）は、外部から複数の画像を入力することができる。複数の画像は、互いに異なる位置で撮影された映像であることができる。一例によれば、複数の画像は、屋内で撮影された３Ｄツアーに含まれている複数のパノラマ画像（すなわち、３６０映像）であることができる。また、インターフェースモジュール（１１２０）は、ユーザーが直接撮影したパースペクティブ画像を受信することができる。

複数の画像の中には、共通の空間を異なる位置で撮影したものが存在することができ、共通の空間、すなわち、共通領域を含む２の画像は、マッピング可能な関係にあると定義することができる。その中で最も多い共通領域を含む画像をマッピング画像として定義することができ、これは対応するフィーチャーが最も多い画像として定義することもできる。

インターフェースモジュール（１１２０）を介して入力された複数の画像のそれぞれから、フィーチャー抽出器（１１３０）は、本発明の技術的思想に基づいて定義されるフィーチャー、すなわち、ニューラルネットワークフィーチャーを抽出することができる。ここでニューラルネットワークフィーチャーは、前述したグローバルフィーチャーおよび／またはローカルフィーチャーを含む概念として理解することができる。以下では、説明の便宜のために、前述したグローバルフィーチャーまたはローカルフィーチャーをニューラルネットワークフィーチャーに置換して説明する。

ニューラルネットワークフィーチャーは、所定のニューラルネットワーク（例えば、ＣＮＮ）で出力層の以前に特定される画像のフィーチャーであり得ることは、前述した通りである。

フィーチャー抽出器（１１３０）は、図５を参照して前述したハイブリッド画像検索モジュールのグローバルディスクリプタモジュール（２１０）に対応することができる。また、フィーチャー抽出器（１１３０）は、図９及び図１０を参照して説明したディスクリプタ抽出器（４３０）に対応することができる。

また、フィーチャー抽出器（１１３０）は、図１３に示すようなニューラルネットワーク（２０）その自体であることができ、入力層（２１）からニューラルネットワークで出力層（２４）以前の所定の層（例えば、２３）までの構成を意味することもできる。層（２３）によって定義されるフィーチャーマップに含まれているフィーチャーの全部または一部がニューラルネットワークフィーチャーであることができる。

ニューラルネットワーク（２０）は、ニューラルネットワークフィーチャーを抽出するための目的以外の別個の目的（例えば、分類、ディテクチンなど）のために学習された可能性があるが、前述したように、二つの画像を最小のエラーで整合するために設計されたニューラルネットワークであるか、またはニューラルネットワークフィーチャーを抽出する目的で、学習されるものであることもできる。例えば、後者の場合は、ユーザーが任意に設定した位置および／または画像の特徴をよく表現することができるハンドクラフトフィーチャーポイントを出力できるように学習されることもあり、このような場合は、ニューラルネットワーク（２０）自体がフィーチャー抽出器（１１３０）になることができる。

ユーザーが任意に設定した位置は、所定のオブジェクト（例えば、壁、ドアなど）でユーザーが設定した位置（例えば、当該オブジェクトの中央位置）に設定することができる。また、これらのユーザー設定位置は、従来のハンドクラフトフィーチャーポイントとは異なり、フラットな領域、すなわち、エッジまたは角が存在しないフラット（ｆｌａｔ）な画像領域に設定することができる。このような場合、従来のハンドクラフトフィーチャーポイントではフィーチャーポイントとして抽出されないフラットな画像領域内でもフィーチャーが定義されることがあり、これを活用する場合、もっと正確度のあるマッピング画像の判断及びマッピングが実行されることもある。

図１５に示すように、フィーチャー抽出器（１１３０）は、あらかじめ定められたオブジェクト（例えば、壁、ドア、テーブル）内の任意の位置がフィーチャーポイント（ｆｐ１、ｆｐ２、ｆｐ３）で特定されるように学習することができる。

また、図１５に示すように、任意の位置は、オブジェクト別にあらかじめ決められた位置（例えば、壁の中心、テーブルの中心、ドアの中心など）のように一般的にフラットな画像領域内に設定することができる。

もちろんフィーチャー抽出器（１１３０）は、従来のエッジまたは角が折れた部分などのように、ハンドクラフトフィーチャーポイントに対応するフィーチャーを抽出できるように学習することもできる。

例えば、ユーザは、多数の画像にオブジェクト別にハンドクラフトフィーチャーポイント、ユーザーが設定したフラットな領域の設定位置などをアノテーションし、これを学習データとして利用してニューラルネットワーク（２０）を学習させることもできる。このような場合、それぞれのフィーチャーポイント（ｆｐ１、ｐ２、ｆｐ３）に対応するフィーチャーを抽出することがあり、フィーチャーポイント自体が出力されることもある。

いずれの場合もニューラルネットワークフィーチャーを利用する場合には、図１４に示すように、従来のハンドクラフトフィーチャーとしては、抽出されない位置がフィーチャーに活用することができるので、より画像の特性を定義したり、画像をマッピングしたりするのに有利な効果がある。

一方、ニューラルネットワークフィーチャーは、ニューラルネットワーク（２０）が望む目的を出力するために、複数のコンボリューションおよび／またはプーリングを介して決定される画像の特徴的な情報ではあるが、このようなニューラルネットワークフィーチャー自体が、該当する元画像での特定の位置を示すものではないかもしれない。

したがってニューラルネットワークフィーチャーが抽出された場合でも、ニューラルネットワークフィーチャーに対応する元画像上の位置、すなわち、フィーチャーの位置が特定される必要がある。これらのフィーチャーの位置が特定されてこそ、画像のマッピングが行われるからである。

このように、ニューラルネットワークフィーチャーのフィーチャー位置を特定するための技術的思想は、図１６を参照して説明する。

図１６は、本発明の実施例によるニューラルネットワークフィーチャーに対応するフィーチャー位置を説明するための図面である。

図１６に示すように、所定の層からニューラルネットワークフィーチャー（ｆ）を抽出することができる。このような場合、ニューラルネットワークフィーチャー（ｆ）は、以前、所定の層（Ｌ－Ｌａｙｅｒ）では所定の対応領域（Ｓｌ）と対応され、このような対応領域（Ｓｌ）に含まれているピクセル情報が、あらかじめ定義されたコンボリューション及びプーリング関数によって、ニューラルネットワークフィーチャー（ｆ）にマッピングされることがある。

このとき、Ｌ－層でのニューラルネットワークフィーチャー（ｆ）の対応領域（Ｓｌ）内の所定の位置（例えば、中央または特定の頂点など）をニューラルネットワークフィーチャー（ｆ）のＬ－層での対応位置（Ｐｓｌ）として定義することができる。

すると、同様の方法で、Ｌ－層での対応位置（ＰＳｌ）に対応する元画像上での対応領域（Ｓｏ）を元画像とＬ－層の間のコンボリューション及びポーリング関係によって特定することができ、対応領域（Ｓｏ）内の所定の位置（例えば、中央）をニューラルネットワークフィーチャー（ｆ）の元画像上での対応位置、すなわち、フィーチャー位置に特定することができる。

このような方式でニューラルネットワークフィーチャー別にフィーチャーの位置が決定されると、それぞれのフィーチャーの位置が画像のマッピングのためのフィーチャーポイントになることができる。

すると、マッピングモジュール（１１４０）は、マッピング画像間の互いに対応されるフィーチャーの位置を利用して、画像のマッピングを行うことができる。

二つの画像間の画像マッピングは、二つの画像間の相対的な位置関係を特定するマッピングの場合には、二つの画像のそれぞれで互いに対応するポイントを利用して実行することができる。このとき、互いに対応するポイントは、二つの画像のそれぞれから抽出されたニューラルネットワークフィーチャーのフィーチャーポイントであることができ、互いに対応するフィーチャーポイントはベクトルサーチエンジン（１１５０）を介して容易に検索することができる。

このとき、ベクトルサーチエンジン（１１５０）は、図３を参照して、前述したハイブリッド画像検索モジュールを含むことができる。たとえば、ベクトルサーチエンジン（１１５０）は、３Ｄツアーに含まれている複数のパノラマ画像と、ユーザから受信したパースペクティブ画像のそれぞれに対するグローバルフィーチャーを算出する。続いて、ベクトルサーチエンジン（１１５０）は、算出されたグローバルフィーチャーを利用して、パースペクティブ画像と最も類似したパノラマ画像を選定することができる。

続いて、フィーチャー抽出器（１１３０）は、選定されたパノラマ画像のローカルフィーチャーと、ユーザーから受信したパースペクティブ画像のそれぞれのローカルフィーチャーを算出する。このとき、選定されたパノラマ画像とパースペクティブ画像はマッピング対象の画像になることができる。

続いて、マッピングモジュール（１１４０）は、マッピング対象の画像の相対的な位置関係を算出する。

互いに対応するポイント（空間上で同じ位置を示す）がそれぞれ異なる画像に存在する場合、これらの二つの画像の相対的な位置関係を特定するための技術的思想は、公知の通りである。

例えば、エピポーラ幾何（ＥｐｉｐｏｌａｒＧｅｏｍｅｔｒｙ）を利用して、相対的な位置関係を判断できるということは、本発明の技術分野の通常の専門家において容易に推論することができる。他にも様々な方法が可能である。

他の実施例によれば、二つの画像、すなわち、マッピング画像間のマッピングが二つの画像を整合する場合には、二つの画像を整合するための変換行列を特定することが、マッピングを行うことであるかもしれない。

これらの変換行列を特定するためには、互いに対応するフィーチャーの３つのペアを抽出し、抽出された３つのペアが変換できるように変換行列が定義されることは広く知られている。そして、これらのフィーチャーの３つのペアは、すべてのフィーチャーが最も小さなエラーに変換されるように検索することができ、ＲＡＮＳＡＣ（Ｒａｎｄｏｍｓａｍｐｌｅｃｏｎｓｅｎｓｕｓ；ランダムサンプルコンセンサス）などのアルゴリズムが利用できるのはもちろんである。

図１７は、本発明の実施形態に係る屋内位置測位方法で画像をマッピングする方法を説明するための流れ図である。

図１７を参照すると、本発明の技術的思想に基づくサーバー（１１００）は、互いにマッピング画像と判断された第１画像（例えば、選定されたパノラマ画像）と第２画像（例えば、ユーザーが提供したパースペクティブ画像）をマッピングするために、第１画像から抽出されたフィーチャーに対応するフィーチャーの位置を特定することができる（Ｓ２１０）。そのため、サーバー（１１００）は、図１６に示すような方法を利用することができる。

続いて、サーバ（１１００）は、第２画像から抽出されたフィーチャーに対応するフィーチャーの位置を特定することができる（Ｓ２２０）。

続いて、サーバ（１１００）は、それぞれの画像のフィーチャーの位置に基づいて、エピポーラ幾何（ＥｐｉｐｏｌａｒＧｅｏｍｅｔｒｙ）アルゴリズムを介した相対的な位置関係を判断したり、画像の連結のための変換行列を所定の方式（例えば、ＲＡＮＳＡＣアルゴリズム）を介して決定したりすることができる（Ｓ２３０）。

これにより、サーバー（１１００）は、選定されたパノラマ画像とユーザーから受信したパースペクティブの画像との間の位置関係を算出することができる。

したがって、サーバー（１１００）は、パースペクティブ画像を撮影したユーザー端末（１２００）の屋内位置を計算することができる。計算されたユーザー端末（１２００）の屋内位置は、ユーザー端末（１２００）に伝送することができ、屋内ナビゲーション機能を提供する上で、正確な３Ｄツアーをユーザー端末（１２００）に提供することができる。

本発明の実施形態に係る屋内位置測位方法は、コンピュータで読み取り可能な記録媒体にコンピュータが読み取り可能なコードとして実装することが可能である。コンピュータが読み取り可能な記録媒体は、コンピュータシステムによって読み取れるデータが保存されているすべての種類の記録装置を含む。コンピュータが読み取り可能な記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、ハードディスク、フロッピー（登録商標）ディスク、光データ保存装置などがある。また、コンピュータが読み取り可能な記録媒体は、ネットワークに接続されたコンピュータシステムに分散されて、分散方式でコンピュータが読み取り可能なコードが保存され、実行される。そして、本発明を実装するための機能的な（ｆｕｎｃｔｉｏｎａｌ）プログラム、コード、及びコードセグメントは、本発明が属する技術分野のプログラマーによって容易に推論することができる。

以上のように、本発明は、たとえ限定された実施例と図面によって説明されたが、本発明は、前記の実施例に限定されるものではなく、これは、本発明が属する分野において通常の知識を有する者であれば、このような記載から多様な修正及び変形が可能である。したがって、本発明の思想は、下記の特許請求の範囲によってのみ把握されるべきであり、異議均等または等価的変形のいずれも本発明の思想の範疇に属するといえる。

Claims

ユーザー端末と連携して動作する３Ｄツアー提供サーバーで実行される屋内位置測位方法において、
複数のパノラマ画像を含む３Ｄツアーを呼び出す段階、
前記ユーザー端末に備えられたカメラで撮影した第１パースペクティブ画像を受信する段階、
前記第１パースペクティブ画像と、前記３Ｄツアーに含まれている前記複数のパノラマ画像のそれぞれに対するグローバルフィーチャーを算出する段階、
算出された前記グローバルフィーチャーを利用して、前記第１パースペクティブ画像と最も類似したパノラマ画像を選定する段階、
前記選定されたパノラマ画像及び前記第１パースペクティブ画像に含まれている特徴点を利用して、前記３Ｄツアー上で、前記カメラの位置に対応する屋内位置を計算する段階、及び
前記計算された屋内位置を前記ユーザー端末に提供する段階を含み、
前記グローバルフィーチャーを算出する段階は、
前記３Ｄツアーに含まれる特定のパノラマ画像を複数の第２パースペクティブ画像に変換する（ａ）段階と、
前記変換された第２パースペクティブ画像に対するそれぞれのグローバルフィーチャー及び前記パノラマ画像に対するグローバルフィーチャーを算出する（ｂ）段階を含み、
前記第１パースペクティブ画像と最も類似したパノラマ画像を選定する段階は、
前記パノラマ画像に対する第１グローバルフィーチャー、前記第２パースペクティブ画像に対する第２グローバルフィーチャー、比較群画像に対する第３グローバルフィーチャー、及び前記パノラマ画像に対する基準値に対応される第４グローバルフィーチャーを受信し、
前記第１グローバルフィーチャー乃至前記第４グローバルフィーチャー間の類似度を、コサイン距離（ｃｏｓｉｎｅｄｉｓｔａｎｃｅ）関数を利用して算出し、
前記第１グローバルフィーチャー乃至前記第４グローバルフィーチャー間の類似度に基づいて、前記第１パースペクティブ画像と最も類似したパノラマ画像を選定する、
ことを含む、
屋内位置測位方法。
前記（ａ）段階は、
特徴パノラマ画像を球面座標系（ｓｐｈｅｒｉｃａｌｃｏｏｒｄｉｎａｔｅ）に投影させて複数個の区域に区分し、
前記区分された各区域に対応する画像を、２次元画像である前記第２パースペクティブ画像に変換するが、
前記複数の第２パースペクティブ画像は、相互間で一部オーバーラップされる領域を含む、
請求項１に記載の屋内位置測位方法。
前記（ｂ）段階は、
同じ場所を撮影した画像に対して同じグローバルフィーチャーが出力されるように事前に学習されたディープラーニングモジュールを利用して、前記グローバルフィーチャーを算出するが、
前記ディープラーニングモジュールは、
一つ以上のニューラルネットワークモジュールと、
前記ニューラルネットワークモジュールから出力された値の類似度を算出する類似度判断モジュールと、
算出された前記類似度に対して加重値を適用し、これをもとに結果値を出力する加重値モジュールと、
前記加重値モジュールで互いに異なる時点で出力された結果値の間の差分値を導出し、導出された前記差分値を、前記ニューラルネットワークモジュールにフィードバックとして提供するフィードバックモジュールを含む、
請求項１に記載の屋内位置測位方法。
前記ニューラルネットワークモジュールは、
前記フィードバックモジュールから受信したフィードバック値をもとに、前記ニューラルネットワークモジュールに含まれているニューラルネットワークに適用される加重値を調節する、
請求項３に記載の屋内位置測位方法。
前記第１パースペクティブ画像と、前記複数のパノラマ画像に対する分類情報（ｃｌａｓｓ）、位置情報（ｐｏｓｉｔｉｏｎ）、キャプション（ｃａｐｔｉｏｎ）、及びセグメンテーション（ｓｅｇｍｅｎｔａｔｉｏｎ）を導出する段階を含むが、
前記最も類似したパノラマ画像を算出する段階は、
導出された前記グローバルフィーチャー、前記分類情報、前記位置情報、前記キャプション、及び前記セグメンテーションをもとに、前記パノラマ画像と前記第１パースペクティブ画像との間の各パラメータに対する類似度を計算する（ｃ１）段階と、
前記各パラメータに対する類似度をもとに順位を算出し、前記順位が最も高いパノラマ画像を選定する（ｄ）段階を含む、
請求項１に記載の屋内位置測位方法。
ユーザー端末と連携して動作する３Ｄツアー提供サーバーで実行される屋内位置測位方法において、
複数のパノラマ画像を含む３Ｄツアーを呼び出す段階、
前記ユーザー端末に備えられたカメラで撮影した第１パースペクティブ画像を受信する段階、
前記第１パースペクティブ画像と、前記３Ｄツアーに含まれている前記複数のパノラマ画像のそれぞれに対するグローバルフィーチャーを算出する段階、
算出された前記グローバルフィーチャーを利用して、前記第１パースペクティブ画像と最も類似したパノラマ画像を選定する段階、
前記選定されたパノラマ画像及び前記第１パースペクティブ画像に含まれている特徴点を利用して、前記３Ｄツアー上で、前記カメラの位置に対応する屋内位置を計算する段階、及び
前記計算された屋内位置を前記ユーザー端末に提供する段階を含み、
前記第１パースペクティブ画像と、前記複数のパノラマ画像に対する分類情報（ｃｌａｓｓ）、位置情報（ｐｏｓｉｔｉｏｎ）、キャプション（ｃａｐｔｉｏｎ）、及びセグメンテーション（ｓｅｇｍｅｎｔａｔｉｏｎ）を導出する段階を含むが、
前記最も類似したパノラマ画像を算出する段階は、
導出された前記グローバルフィーチャー、前記分類情報、前記位置情報、前記キャプション、及び前記セグメンテーションをもとに、前記パノラマ画像と前記第１パースペクティブ画像との間の各パラメータに対する類似度を計算する（ｃ１）段階と、
前記各パラメータに対する類似度をもとに順位を算出し、前記順位が最も高いパノラマ画像を選定する（ｄ）段階を含み、
前記最も類似したパノラマ画像を算出する段階は、
前記パノラマ画像をもとに生成された第２パースペクティブ画像と、前記ユーザー端末から受信した第１パースペクティブ画像との間の類似度を計算し、あらかじめ定められた基準値以上に類似した前記第２パースペクティブ画像の画像数を各パノラマ画像別にカウントして、前記カウントされた数値をもとに、各パノラマ画像の加重値を決定する（ｃ２）段階をさらに含む、
屋内位置測位方法。
前記（ｄ）段階は、
導出された前記グローバルフィーチャー、前記分類情報、前記位置情報、前記キャプション、及び前記セグメンテーションに対する前記パノラマ画像と前記第１パースペクティブ画像との間の類似度と、前記パノラマ画像に対する加重値を利用して、前記第１パースペクティブ画像と類似度が最も高いパノラマ画像を選定することを含む、
請求項６に記載の屋内位置測位方法。
前記屋内位置を計算する段階は、
前記算出されたパノラマ画像に対するローカルフィーチャーを算出する段階と、
パースペクティブ画像に対するローカルフィーチャーを算出する段階と、
前記算出されたローカルフィーチャーをもとに３Ｄツアー上のカメラの位置に該当する屋内位置を計算する段階を含む、
請求項６に記載の屋内位置測位方法。
ユーザー端末と連携して動作する３Ｄツアー提供サーバーで実行される屋内位置測位方法において、
複数のパノラマ画像を含む３Ｄツアーを呼び出す段階、
前記ユーザー端末に備えられたカメラで撮影したパースペクティブ画像を受信する段階、
前記複数のパノラマ画像と前記パースペクティブ画像に対するグローバルフィーチャーを算出する段階、
前記算出されたグローバルフィーチャーを利用して、前記パースペクティブ画像と最も類似したパノラマ画像を選定する段階、
前記選定されたパノラマ画像及び前記パースペクティブ画像に対するローカルフィーチャーを算出する段階、
前記算出されたローカルフィーチャーをもとに、３Ｄツアー上の前記カメラの位置に対応する屋内位置を計算する段階、及び
前記計算された屋内位置をユーザーに提供する段階を含み、
前記グローバルフィーチャーを算出する段階は、
前記３Ｄツアーに含まれる特定のパノラマ画像を複数の第２パースペクティブ画像に変換する（ａ）段階と、
前記変換された第２パースペクティブ画像に対するそれぞれのグローバルフィーチャー及び前記パノラマ画像に対するグローバルフィーチャーを算出する（ｂ）段階を含み、
前記パースペクティブ画像と最も類似したパノラマ画像を選定する段階は、
前記パノラマ画像に対する第１グローバルフィーチャー、前記第２パースペクティブ画像に対する第２グローバルフィーチャー、比較群画像に対する第３グローバルフィーチャー、及び前記パノラマ画像に対する基準値に対応される第４グローバルフィーチャーを受信し、
前記第１グローバルフィーチャー乃至前記第４グローバルフィーチャー間の類似度を、コサイン距離（ｃｏｓｉｎｅｄｉｓｔａｎｃｅ）関数を利用して算出し、
前記第１グローバルフィーチャー乃至前記第４グローバルフィーチャー間の類似度に基づいて、前記パースペクティブ画像と最も類似したパノラマ画像を選定する、
ことを含む、
屋内位置測位方法。
前記ローカルフィーチャーを算出する段階で、
前記パノラマ画像に対する第１パッチを生成する過程は、前記パースペクティブ画像に対する第２パッチを生成する過程と互いに異なる構成となる、
請求項９に記載の屋内位置測位方法。
前記ローカルフィーチャーを算出する段階は、
前記パノラマ画像を互いに異なる大きさの複数の層に変換する（ａ）段階と、
変換された前記複数の層でキーポイント（ＫＰ）を抽出し、抽出された前記キーポイントに対応する第１パッチを生成する（ｂ）段階と、
前記第１パッチに対する第１ローカルフィーチャーを導出する（ｃ）段階を含む、
請求項９に記載の屋内位置測位方法。
前記（ａ）段階で、
前記複数の層は、
前記パノラマ画像と同じ大きさの第１層と、
前記第１層をあらかじめ決められた割合で変換させた第２層と、
前記第２層を前記あらかじめ決められた割合で変換させた第３層を含む、
請求項１１に記載の屋内位置測位方法。
前記（ｂ）段階は、
前記パノラマ画像の前記複数の層にそれぞれに対するキーポイントの位置情報を抽出する段階と、
前記パノラマ画像を球面座標系（ｓｐｈｅｒｉｃａｌｃｏｏｒｄｉｎａｔｅ）に投影させ、前記位置情報に対応する領域のパッチを抽出する段階と、
前記抽出されたパッチを２次元画像である前記第１パッチに変換する段階を含む、
請求項１１に記載の屋内位置測位方法。
前記（ｃ）段階で、
前記第１ローカルフィーチャーは、あらかじめ決められた大きさのベクトル値であり、
前記第１パッチに対する第１軸の座標、前記第１軸と交差する第２軸の座標、及びスケールを含む座標情報を出力することをさらに含む、
請求項１２に記載の屋内位置測位方法。
前記ローカルフィーチャーを算出する段階は、
前記パースペクティブ画像を互いに異なる大きさの複数の層に変換する（ａ）段階と、
変換された前記複数の層でキーポイント（ＫＰ）を抽出し、抽出された前記キーポイントに対応する第２パッチを生成する（ｂ）段階と、
前記第２パッチに対する第２ローカルフィーチャーを導出する（ｃ）段階を含む、
請求項９に記載の屋内位置測位方法。
前記ローカルフィーチャーを算出する段階は、
同じ場所を撮影した画像に対して、同じローカルフィーチャーが出力されるように事前に学習されたディープラーニングモジュールを利用して、前記ローカルフィーチャーを算出するが、
前記ディープラーニングモジュールは、
一つ以上のニューラルネットワークモジュールと、前記ニューラルネットワークモジュールに加重値を適用し、これをもとに結果値を出力する加重値モジュールを含むディスクリプタ抽出器と、
前記ディスクリプタ抽出器から互いに異なる時点で出力された結果値の間の差分値を導出し、導出された前記差分値を前記ディスクリプタ抽出器にフィードバックとして提供するマルチパッチロス算出器を含む、
請求項９に記載の屋内位置測位方法。
前記マルチパッチロス算出器は、
前記パノラマ画像に対する第１パッチの第１ローカルフィーチャーと、前記パースペクティブ画像に対する第２パッチの第２ローカルフィーチャーを受信し、
前記第１ローカルフィーチャー及び第２ローカルフィーチャー間の類似度を、コサイン距離（ｃｏｓｉｎｅｄｉｓｔａｎｃｅ）関数を利用して算出することを含む、
請求項１６に記載の屋内位置測位方法。
前記屋内位置を計算する段階は、
第１ローカルフィーチャー及び第２ローカルフィーチャーをもとに、前記パースペクティブ画像を提供したユーザーの屋内位置を算出するが、
前記第１ローカルフィーチャー及び第２ローカルフィーチャーの位置に基づいて、エピポーラ幾何（ＥｐｉｐｏｌａｒＧｅｏｍｅｔｒｙ）アルゴリズムを介した相対的な位置関係を判断したり、画像の接続のための変換行列を利用する方法を介して相対的な位置関係を判断することにより、前記屋内位置を算出することを含む、
請求項９に記載の屋内位置測位方法。