JP2023056466A

JP2023056466A - グローバル測位装置及び方法

Info

Publication number: JP2023056466A
Application number: JP2022112854A
Authority: JP
Inventors: 惠媛文; Hye Won Moon; 知▲よん▼ 金; Jiyeon Kim; ▲みん▼廷孫; Minjung Son
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-10-07
Filing date: 2022-07-14
Publication date: 2023-04-19
Also published as: US20230114734A1; EP4163873A1; CN115953464A; KR20230049969A

Abstract

【課題】グローバル測位装置及び方法を提供する。【解決手段】一実施形態に係るグローバル測位モデルに基づいたグローバル測位方法は、入力イメージを第１ネットワークに印加し、フィーチャーを抽出するステップと、抽出されたフィーチャーを第２ネットワークに印加し、入力イメージに対応する座標マップを推定するステップと、定された座標マップに基づいて、入力イメージに対応するポーズを推定するステップとを含む。【選択図】図１

Description

以下の開示は、グローバル測位装置及び方法に関する。

グローバル測位（Ｇｌｏｂａｌｌｏｃａｌｉｚａｔｉｏｎ）技術は、目標空間に対する事前マップ情報があるとき、これをベースに機器の６－ＤＯＦポーズを推定する技術を意味する。決定されたマップの座標を基準にして機器の絶対的な位置を推定し、目標空間内で機器の初期ポーズ推定又は以後の機器位置のトラッキングを逃がした状況で活用され得る。機器で撮影又は検知されたイメージを使用するグローバル測位技術方式は、クエリイメージとマッチングされるイメージを１つ以上探して該当イメージに対応するポーズ情報を推定するイメージ検索（ｉｍａｇｅｒｅｔｒｉｅｖａｌ）方式、ポーズ回帰ディープネットワーク（ｐｏｓｅｒｅｇｒｅｓｓｉｏｎｄｅｅｐｎｅｔｗｏｒｋ）を用いてクエリイメージからポーズを直ちに回帰する直接ポーズ回帰（ｄｉｒｅｃｔｐｏｓｅｒｅｇｒｅｓｓｉｏｎ）方式、３Ｄマップを構成するポイントクラウドにフィーチャー情報を格納しておき、クエリイメージの２Ｄフィーチャーとマッチングして２Ｄ－３Ｄマッチング関係を探す希少フィーチャーマッチング（ｓｐａｒｓｅｆｅａｔｕｒｅｍａｔｃｈｉｎｇ）方式、２Ｄ－３Ｄマッチング関係を回帰問題で求める場面座標回帰（Ｓｃｅｎｅｃｏｏｒｄｉｎａｔｅｒｅｇｒｅｓｓｉｏｎ）方式を含む。

本発明の実施形態に介してグローバル測位のためのニューラルネットワークの学習方法の改善を通して２Ｄ－３Ｄマッチングを推定し、機器のグローバル測位を算出する技術の正確度及び活用度を改善することにある。

本発明の実施形態を介してグローバル測位のためのニューラルネットワークを学習する過程において、３Ｄマップから取得可能な合成イメージを学習データとして使用し、イメージを撮影した機器の正確なポーズ情報がラベリングされた学習データを取得し難しいという問題を解決することにある。

本発明の実施形態を介して、グローバル測位のためのニューラルネットワークを学習する過程において、ＧＡＮに基づいたドメイン適応を用いて合成イメージで学習されたモデルの実際イメージに対する性能が低下するという問題を解決することにある。

一側面に係るグローバル測位方法は、入力イメージを第１ネットワークに印加し、フィーチャーを抽出するステップと、前記抽出されたフィーチャーを第２ネットワークに印加し、前記入力イメージに対応する座標マップを推定するステップと、前記推定された座標マップに基づいて、前記入力イメージに対応するポーズを推定するステップとを含み、前記第１ネットワーク及び前記第２ネットワークのうち少なくとも１つは、３次元マップデータによって決定された合成イメージに基づいて前記第１ネットワークから抽出された第１フィーチャー、及び実際イメージに基づいて前記第１ネットワークから抽出された第２フィーチャーに基づいて決定された第１ＧＡＮロスと、前記第１フィーチャーに基づいて前記第２ネットワークで推定された第１座標マップ、及び前記第２フィーチャーに基づいて前記第２ネットワークで推定された第２座標マップに基づいて決定された第２ＧＡＮロスとのうち少なくとも１つに基づいて学習される。

前記第１ネットワーク及び前記第２ネットワークのうち少なくとも１つは、前記第１座標マップ及び前記合成イメージに対応する正解データに基づいて決定された第１ロスと、前記第１座標マップに基づいて推定された第１ポーズ及び前記合成イメージに対応する正解データに基づいて決定された第２ロスとのうち少なくとも１つにさらに基づいて学習されることができる。

前記正解データは、前記合成イメージを撮影した仮想のカメラのポーズ及び前記合成イメージの各ピクセルに対応する３次元座標データを含むことができる。

前記ポーズは、前記入力イメージを撮影した機器の６ＤＯＦポーズを含むことができる。

一実施形態に係る第１ネットワーク及び第２ネットワークを含むグローバル測位モデルの学習方法は、３次元マップデータに基づいて、合成データセット（前記合成データセットは、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び前記合成イメージの各ピクセルに対応する３次元座標データを含む）を決定するステップと、前記合成イメージを前記第１ネットワークに印加して決定された第１フィーチャー、及び実際のカメラで撮影された実際イメージを前記第１ネットワークに印加して決定された第２フィーチャーに基づいて第１ＧＡＮロスを決定するステップと、前記第１フィーチャーを前記第２ネットワークに印加して決定された第１座標マップ、及び前記第２フィーチャーを前記第２ネットワークに印加して決定された第２座標マップに基づいて第２ＧＡＮロスを決定するステップと、前記第１座標マップ及び前記合成イメージに対応する前記３次元座標データに基づいて第１ロスを決定するステップと、前記第１座標マップに基づいて推定された第１ポーズ及び前記仮想のカメラのポーズに基づいて第２ロスを決定するステップと、前記第１ロス、前記第２ロス、前記第１ＧＡＮロス、及び前記第２ＧＡＮロスのうち少なくとも１つに基づいて、前記第１ネットワーク及び前記第２ネットワークのうち少なくとも１つを学習させるステップとを含む。

前記合成データセットを決定するステップは、前記合成イメージを前記第１ネットワークに印加し、前記第１フィーチャーを抽出するステップと、前記抽出された第１フィーチャーを前記第２ネットワークに印加し、前記合成イメージの各ピクセルに対応する前記第１座標マップを推定するステップと、前記推定された第１座標マップに基づいて、前記合成イメージに対応する第１ポーズを推定するステップと、前記実際イメージを前記第１ネットワークに印加し、前記第２フィーチャーを抽出するステップと、前記抽出された第２フィーチャーを前記第２ネットワークに印加し、前記実際イメージの各ピクセルに対応する前記第２座標マップを推定するステップとをさらに含むことができる。

前記学習させるステップは、前記第１ＧＡＮロスに基づいて、前記合成イメージから抽出された前記第１フィーチャー及び前記実際イメージから抽出された前記第２フィーチャーを区分する第１弁別器と前記第１ネットワークを学習させるステップを含むことができる。

前記学習させるステップは、前記第２ＧＡＮロスに基づいて、前記合成イメージで推定された前記第１座標マップ及び前記実際イメージで推定された第２座標マップを区分する第２弁別器と前記第２ネットワークを学習させるステップを含むことができる。

前記学習させるステップは、前記第１ロスに基づいて決定されたグラジエントを前記第１ネットワーク及び前記第２ネットワークに繰り返し逆伝播させるステップを含むことができる。

前記学習させるステップは、前記第２ロスに基づいて決定されたグラジエントを前記第１ネットワーク及び前記第２ネットワークに繰り返し逆伝播させるステップを含むことができる。

前記グローバル測位モデルの学習方法は、前記第１ネットワーク及び前記第２ネットワークのうち少なくとも１つの学習に応答して、入力イメージを前記第１ネットワークに印加し、フィーチャーを抽出するステップと、前記抽出されたフィーチャーを前記第２ネットワークに印加し、前記入力イメージに対応する座標マップを推定するステップと、前記推定された座標マップに基づいて、前記入力イメージに対応するポーズを推定するステップとをさらに含むことができる。

一実施形態に係るグローバル測位装置は、入力イメージをグローバル測位モデルの第１ネットワークに印加して前記入力イメージのフィーチャーを抽出し、前記抽出されたフィーチャーを前記グローバル測位モデルの第２ネットワークに印加して前記入力イメージに対応する座標マップを推定し、前記推定された座標マップを前記グローバル測位モデルのポーズ推定器に印加してグローバル測位結果に対応するポーズを推定する、少なくとも１つのプロセッサを含み、前記グローバル測位モデルは、３次元マップデータに基づいて、合成データセット（前記合成データセットは任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び前記合成イメージの各ピクセルに対応する３次元座標データを含む）を決定するステップと、前記第１ネットワーク及び前記第２ネットワークのパラメータをアップデートするために、前記グローバル測位モデルに関する少なくとも１つのロスに基づいて決定されたグラジエントを繰り返し逆伝播させるステップを行うことにより製造（又は構築）され、前記グローバル測位モデルに関するロスは、前記合成イメージに基づいて前記第１ネットワークから抽出された第１フィーチャー、及び実際イメージに基づいて前記第１ネットワークから抽出された第２フィーチャーに基づいて決定された第１ＧＡＮロスと、前記第１フィーチャーに基づいて前記第２ネットワークで推定された第１座標マップ、及び前記第２フィーチャーに基づいて前記第２ネットワークで推定された第２座標マップに基づいて決定された第２ＧＡＮロスのうち少なくとも１つを含む。

前記グローバル測位モデルに関するロスは、前記第１座標マップ及び前記合成イメージに対応する正解データに基づいて決定された第１ロスと、前記第１座標マップに基づいて前記ポーズ推定器で推定された第１ポーズ及び前記合成イメージに対応する正解データに基づいて決定された第２ロスのうち少なくとも１つをさらに含むことができる。

前記繰り返し逆伝播させるステップは、前記第１ＧＡＮロスに基づいて、第１弁別器に前記第１フィーチャーを入力して決定されたグラジエントを前記第１弁別器及び前記第１ネットワークに繰り返し逆伝播させるステップと、前記第１ＧＡＮロスに基づいて、前記第１弁別器に前記第２フィーチャーを入力して決定されたグラジエントを前記第１弁別器及び前記第１ネットワークに繰り返し逆伝播させるステップとを含み、前記第１弁別器は、前記合成イメージから抽出された前記第１フィーチャーに基づいて前記合成イメージを指示する値を出力し、前記実際イメージから抽出された前記第２フィーチャーに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含むことができる。

前記繰り返し逆伝播させるステップは、前記第２ＧＡＮロスに基づいて、第２弁別器に前記第１座標マップを入力して決定されたグラジエントを前記第２弁別器及び前記第２ネットワークに繰り返し逆伝播させるステップと、前記第２ＧＡＮロスに基づいて、前記第２弁別器に前記第２座標マップを入力して決定されたグラジエントを前記第２弁別器及び前記第２ネットワークに繰り返し逆伝播させるステップとを含み、前記第２弁別器は、前記合成イメージで推定された前記第１座標マップに基づいて前記合成イメージを指示する値を出力し、前記実際イメージで推定された前記第２座標マップに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含むことができる。

前記グローバル測位装置は、前記少なくとも１つのプロセッサによって実行される命令を格納するメモリをさらに含み、前記命令は、前記少なくとも１つのプロセッサにより前記入力イメージのフィーチャーが抽出され、前記入力イメージに対応する座標マップを推定し、前記グローバル測位結果に対応するポーズを推定する動作を実行させることができる。

一実施形態に係るコンピュータ読み出し可能な記録媒体に格納されたグローバル測位器において、前記グローバル測位器は、３次元マップデータに基づいて、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び前記合成イメージの各ピクセルに対応する３次元座標データを決定するステップと、前記グローバル測位器に含まれているニューラルネットワークのパラメータをアップデートするために、前記グローバル測位器に関する少なくとも１つのロスに基づいて決定されたグラジエントを繰り返し逆伝播させるステップと、前記ニューラルネットワークのパラメータを前記記録媒体に格納するステップを行うことにより製造され、前記グローバル測位器に含まれているニューラルネットワークは、入力イメージのフィーチャーを抽出する第１ネットワーク、及び前記第１ネットワークの出力に基づいて前記入力イメージの座標マップを推定する第２ネットワークを含み、前記グローバル測位器に関する少なくとも１つのロスは、前記合成イメージに基づいて前記第１ネットワークから抽出された第１フィーチャー、及び実際イメージに基づいて前記第１ネットワークから抽出された第２フィーチャーに基づいて決定された第１ＧＡＮロスと、
前記第１フィーチャーに基づいて前記第２ネットワークで推定された第１座標マップ、及び前記第２フィーチャーに基づいて前記第２ネットワークで推定された第２座標マップに基づいて決定された第２ＧＡＮロスのうち少なくとも１つを含む。

前記グローバル測位器に関する少なくとも１つのロスは、前記第１座標マップ及び前記合成イメージに対応する正解データに基づいて決定された第１ロスと、前記第１座標マップに基づいて推定された第１ポーズ及び前記合成イメージに対応する正解データに基づいて決定された第２ロスのうち少なくとも１つをさらに含むことができる。

本発明によると、グローバル測位のためのニューラルネットワークの学習方法の改善を介して２Ｄ－３Ｄマッチングを推定し、機器のグローバル測位を算出する技術の正確度及び活用度を改善することができる。

本発明によると、グローバル測位のためのニューラルネットワークを学習する過程において、３Ｄマップから取得可能な合成イメージを学習データとして使用し、イメージを撮影した機器の正確なポーズ情報がラベリングされた学習データを取得し難しいという問題を解決することができる。

本発明によると、グローバル測位のためのニューラルネットワークを学習する過程において、ＧＡＮに基づいたドメイン適応を用いて合成イメージで学習されたモデルの実際イメージに対する性能が低下するという問題を解決することができる。

一実施形態に係るグローバル測位モデル１００のフレームワークを例示する図である。一実施形態に係るグローバル測位モデルの入力データであるイメージを説明するための図である。一実施形態に係る座標マップを説明するための図である。一実施形態に係るグローバル測位モデルによるグローバル測位結果に該当するポーズを説明するための図である。一実施形態に係るグローバル測位モデルの学習方法のフレームワークを例示する図である。一実施形態に係る３次元マップデータを説明するための図である。一実施形態に係るグローバル測位モデルの学習方法の動作フローチャートである。一実施形態に係るグローバル測位モデル８００のフレームワークを例示する図である。一実施形態に係るグローバル測位モデルの学習方法のフレームワークを例示する図である。一実施形態に係るグローバル測位装置の構成の例示図である。

以下、添付する図面を参照しながら実施形態を詳細に説明する。添付図面を参照して説明するにおいて、図面符号に関係なく同じ構成要素には同じ参照符号を付与し、これに対する重複する説明は省略することにする。

図１は、一実施形態に係るグローバル測位（ｇｌｏｂａｌｌｏｃａｌｉｚａｔｉｏｎ）モデル１００のフレームワークを例示する図である。

図１を参照すると、一実施形態に係るグローバル測位モデル（又は、グローバル測位器）１００は、イメージ１０１（例えば、１つ以上のイメージ）が入力され、グローバル測位結果に該当するポーズ１０２を出力するグローバル測位方法を行うモデルである。グローバル測位モデル１００は、学習されたニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）の第１ネットワーク１１０及び第２ネットワーク１２０を含み、ポーズ推定器１３０を含む。以下で、グローバル測位モデル１００は、簡略に「モデル」のように称する。

一実施形態に係るイメージ１０１は、３次元の空間に位置しているオブジェクトを２次元の平面に投影した像であって、撮影位置及び撮影角度に応じてイメージに投影されたオブジェクトの形状が変わり得る。

例えば、図２を参照すると、３次元の空間に位置しているオブジェクト２０１を特定位置及び特定角度で撮影し、２次元の平面に投影されたイメージ２０２が取得され得る。撮影位置及び／又は撮影角度が変わると、イメージ２０２に含まれているオブジェクト２０１の形状は変わり得る。イメージ２０２に含まれているオブジェクト２０１の形状は、オブジェクトの撮影位置及び撮影角度、言い換えれば、オブジェクト２０１を撮影又は検出した機器２０３のポーズに応じてオブジェクト２０１の実際の形状が投影変換されたものである。

再び図１を参照すると、モデル１００は、入力されたイメージ１０１に投影されたオブジェクトの３次元の空間に対応する３次元の座標が分かる場合、オブジェクトの撮影位置及び撮影角度（例えば、オブジェクトを撮影又は検出した機器のポーズ）を推定することができる。モデル１００は、学習されたニューラルネットワーク１１０，１２０に基づいてオブジェクトの投影を含むイメージの各ピクセルに対応する３次元座標（以下、座標マップ）を推定することができる。モデル１００は、ポーズ推定器１３０に基づいてイメージ１０１内のピクセルの２次元座標と該当ピクセルに対応する３次元座標の関係に基づいて、入力されたイメージ１０１を撮影した機器のポーズ１０２を推定することができる。

一実施形態に係るグローバル測位モデル１００は、学習によってパラメータが決定された少なくとも１つのレイヤを含むニューラルネットワークである第１ネットワーク１１０及び第２ネットワーク１２０を含む。

一実施形態に係るグローバル測位モデル１００に基づいたグローバル測位方法は、入力イメージ１０１を第１ネットワーク１１０に印加し、フィーチャーを抽出するステップ、抽出されたフィーチャーを第２ネットワーク１２０に印加し、入力イメージ１０１に対応する座標マップを推定するステップ、及び推定された座標マップをポーズ推定器１３０に印加することにより、入力イメージ１０１に対応するポーズ１０２を推定するステップを含む。

一実施形態によれば、第１ネットワーク１１０は、入力されたイメージからフィーチャー（ｆｅａｔｕｒｅ）を抽出するように学習されたニューラルネットワークである。

一実施形態によれば、第２ネットワーク２３０は、第１ネットワーク１１０から抽出されたフィーチャーに基づいて、入力されたイメージ１０１に対応する座標マップを推定するように学習されたニューラルネットワークに該当する。座標マップは、イメージの各ピクセルに対応する３次元空間内の領域の３次元座標である。

例えば、図３を参照すると、イメージ３１０に含まれているピクセル３１１は、３次元空間内の点３２１に対応し、該当ピクセル３１１に対応する３次元空間内の点３２１の３次元座標値は（ｘ_ｐ、ｙ_ｐ、ｚ_ｐ）に該当する。座標マップ３２０は、イメージ３１０に含まれているピクセル（ｐ＝｛ｐ_ｉ、ｊ｜ｉ＝０、１、…、ｎ、ｊ＝０、１、…、ｍ｝）に対応する元素（ｃ＝｛ｃ_ｉ、ｊ｜ｉ＝０、１、…、ｎ、ｊ＝０、１、…、ｍ｝）の行列を含んでもよく、各ピクセル（ｐ_ｉ、ｊ）に対応する元素（ｃ_ｉ、ｊ）の値は、該当ピクセルに対応する３次元座標（ｃ_ｉ、ｊ＝［ｘ_ｉ、ｊ、ｙ_ｉ、ｊ、ｚ_ｉ、ｊ］）に該当する。

再び図１を参照すると、一実施形態に係るポーズ推定器１３０は、第２ネットワーク１２０で推定された座標マップに基づいて、入力されたイメージ１０１に対応するポーズ１０２を推定することができる。例えば、ポーズ推定器１３０は、座標マップが入力され、ポーズ１０２を出力するｓｏｌｖｅＰｎＰ（Ｐｅｒｓｐｅｃｔｉｖｅ－ｎ－Ｐｏｉｎｔ）関数を含んでもよい。ポーズ推定器１３０から出力されるポーズ１０２は、入力されたイメージ１０１を撮影、又は、検出した機器の位置情報及び方向情報を含む。例えば、機器は、カメラ、カメラを含む装置、画像センサを含む装置を含んでもよい。

一実施形態に係るポーズ１０２は６ＤＯＦポーズを含む。６ＤＯＦポーズは、垂直、水平、及び深度方向の互いに直交する３つの軸に対する３次元の位置情報、及び３つの軸に対する傾き程度に関する方向情報を含む。

例えば、図４を参照すると、グローバル測位モデルは、イメージ内のピクセルの２次元座標と該当ピクセルに対応する３次元座標の関係に基づいて、オブジェクト４０１の投影を含むイメージを撮影した機器（例えば、カメラ）４０２の該当オブジェクト４０１が位置している空間における位置情報及び方向情報を含む６ＤＯＦポーズを推定することができる。

一実施形態によれば、グローバル測位モデル１００は、学習されたニューラルネットワークである第１ネットワーク１１０及び第２ネットワーク１２０を含み、第１ネットワーク１１０及び第２ネットワーク１２０は、逆伝播アルゴリズムによる学習過程によって決定されたパラメータを含む。

言い換えれば、一実施形態に係るグローバル測位モデル１００は、３次元マップデータに基づいて、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び合成イメージの各ピクセルに対応する３次元座標データを取得するステップと、グローバル測位モデルに含まれているニューラルネットワークである第１ネットワーク１１０及び第２ネットワーク１２０のパラメータをアップデートするために、グローバル測位モデルに関する少なくとも１つのロス（又は損失）（ｌｏｓｓ）に基づいて取得されたグラジエントを繰り返し逆伝播させるステップと、第１ネットワーク１１０及び第２ネットワーク１２０のパラメータを格納するステップとを含むグローバル測位モデルの学習過程によって生成又は製造されることができる。

一例として、第１ネットワーク１１０及び／又は第２ネットワーク１２０は、学習データに含まれているイメージに対応する正解データを出力するよう学習されてもよい。学習データに含まれているイメージは、該当イメージに対応する正確な座標マップ及び該当イメージに対応する正確なポーズでラベリング（ｌａｂｅｌｉｎｇ）された合成イメージを含む。合成イメージは、３次元マップデータに基づいて仮想のカメラで撮影されたイメージを仮定して生成されたイメージであって、実際の空間を実際のカメラで撮影した実際イメージ（ｒｅａｌｉｍａｇｅ）と区分される。制限されない例として、合成イメージを含む学習データについては以下で詳細に説明する。

一実施形態によれば、第１ネットワーク１１０及び第２ネットワーク１２０のうち少なくとも１つは、学習データに含まれている合成イメージに基づいて第２ネットワーク１２０により推定された座標マップ、及び学習データに含まれている合成イメージ（ｓｙｎｔｈｅｔｉｃｉｍａｇｅ）に対応する正解データに基づいて取得された第１ロス及び合成イメージに基づいてポーズ推定器１３０で推定されたポーズ及び学習データに含まれている合成イメージに対応する正解データに基づいて取得された第２ロスのうち少なくとも１つに基づいて学習されることができる。学習データに含まれている合成イメージに対応する正解データは、該当合成イメージに対応する座標マップのグラウンドトルース（ｇｒｏｕｎｄｔｒｕｔｈ；ＧＴ）及び該当合成イメージに対応するポーズのグラウンドトルースを含む。制限されない例として、第１ロス及び／又は第２ロスに基づいてグローバル測位モデルを学習する具体的な方法について以下で詳細に説明する。

また、一例として、第１ネットワーク１１０及び／又は第２ネットワーク１２０は、実際イメージと合成イメージとを区分する弁別器（又は識別器）（ｄｉｓｃｒｉｍｉｎａｔｏｒ）によるＧＡＮロスに基づいて弁別器と敵対的に学習されてもよい。より具体的に、第１ネットワーク１１０及び第２ネットワーク１２０のうち少なくとも１つは、第１ＧＡＮロス及び第２ＧＡＮロスのうち少なくとも１つに基づいて学習され得る。第１ＧＡＮロスは、３次元マップデータによって取得された合成イメージに基づいて、第１ネットワーク１１０から抽出された第１フィーチャー及び実際イメージに基づいて第１ネットワーク１１０から抽出された第２フィーチャーに基づいて取得されたロスである。第２ＧＡＮロスは、第１フィーチャーに基づいて第２ニューラルネットワーク１２０で推定された第１座標マップ、及び第２フィーチャーに基づいて第２ニューラルネットワーク１２０で推定された第２座標マップに基づいて取得されたロスである。第１ＧＡＮロス及び／又は第２ＧＡＮロスに基づいてグローバル測位モデルを学習する具体的な方法については以下で詳細に説明する。

図５は、一実施形態に係るグローバル測位モデルの学習方法のフレームワークを例示する図である。

図５を参照すると、一実施形態に係るグローバル測位モデルの学習データは、合成データセット５０１及び実際イメージ５０５を含む。合成データセット５０１は、任意のポーズに対応する仮想のカメラで撮影された合成イメージ５０４、及び合成イメージ５０４の各ピクセルに対応する３次元座標データを含む。合成イメージ５０４の各ピクセルに対応する３次元座標データは、合成イメージ５０４に対応する座標マップの正解データ（又は、ＧＴ座標マップ）５０３に該当する。一実施形態によれば、合成データセット５０１に含まれている合成イメージ５０４は、合成イメージ５０４を撮影した仮想カメラのポーズ情報が分かる。言い換えれば、合成データセット５０１は、合成イメージ５０４に対応するポーズの正解データ（又は、ＧＴポーズ）５０２をさらに含むことができる。言い換えれば、一実施形態に係る合成データセット５０１に含まれている合成イメージ５０４は、座標マップの正解データ５０３及びポーズの正解データ５０２にラベリングされ得る。

一実施形態によれば、合成データセット５０１は、３次元マップデータに基づいて取得されることができる。例えば、図６Ａを参照すると、３次元マップデータ６１０は、任意の空間に対応するポイントクラウド６１１を含む。言い換えれば、３次元マップデータ６１０は、任意の空間に含まれている少なくとも１つのオブジェクトを３次元の仮想の空間内の点の集合であるポイントクラウド６１１でモデリングしたデータに該当する。例えば、図６Ｂを参照すると、ポイントクラウドに含まれている点は、３次元の仮想の空間内の特定位置６２１を原点にする３次元の座標系６２０に示され、各点に対応する３次元の座標は、該当点の３次元空間内の位置を意味するものとして理解される。一実施形態に係るポイントクラウドに含まれている点は、位置を指示する３次元座標及び色を指示するＲＧＢ値を含む。

再び図５を参照すると、一実施形態に係る３次元マップデータに基づいて、任意のポーズに対応する仮想のカメラで撮影された合成イメージ５０４が取得されることができる。合成イメージ５０４は、３次元マップデータに対応する空間の特定位置に特定角度に配置されている仮想のカメラで３次元マップデータに含まれているオブジェクトを撮影したものと仮定して合成されたオブジェクトの投影イメージである。言い換えれば、合成イメージ５０４は、３次元マップデータに含まれている一部の点を投影変換することによって、生成したイメージで実際の空間を実際のカメラで撮影して生成された実際イメージ５０５と区分することができる。投影変換は、仮想のカメラの位置及び角度に基づいて決定され得る。一実施形態によれば、合成イメージ５０４は、合成イメージ５０４に投影された点のＲＧＢ値に基づいた色情報をさらに含み得る。

一実施形態に係る合成イメージ５０４は、各ピクセルに対応する領域の３次元マップデータ内の３次元座標値を正確に把握することができるため、合成イメージ５０４に対応する座標マップの正解データ５０３が取得され得る。また、一実施形態に係る合成イメージ５０４は、３次元のマップデータに基づいて、仮想のカメラの配置を仮定して生成されたイメージであるため、合成イメージ５０４を撮影した仮想の機器のポーズを正確に把握することができることから、合成イメージ５０４に対応するポーズの正解データ５０２も取得され得る。

一実施形態によれば、合成データセット５０１は、合成イメージ５０４及び合成イメージ５０４に対応するＧＴ座標５０３マップ及びＧＴポーズ５０２を含んでいるため、学習過程で第２ネットワーク５２０により推定された座標マップに関する第１ロス５０６、及びポーズ推定器５３０により推定されたポーズに関する第２ロス５０７が算出されることができる。

一実施形態によれば、第１ロス５０６は、合成イメージ５０４に基づいて第２ネットワーク５２０から出力された第１座標マップ、及び合成イメージ５０４に対応するＧＴ座標マップ５０３に基づいて取得される。第１座標マップは、合成イメージ５０４に基づいて第１ネットワーク５１０から出力された第１フィーチャーが、第２ネットワーク５２０に印加された結果から出力されてもよい。一例として、第１ロス５０６に基づいて取得されたグラジエント（又は勾配）（ｇｒａｄｉｅｎｔ）は、第１ネットワーク５１０及び第２ネットワーク５２０に繰り返し逆伝播されることで、第１ネットワーク５１０及び第２ネットワーク５２０の加重値が更新され得る。第１ロス５０６に基づいて取得されたグラジエントは、第２ネットワークで合成イメージ５０４に基づいて出力された第１座標マップと合成イメージ５０４に対応するＧＴ座標マップ５０３との差により取得されたグラジエントに対応する。

一実施形態によれば、第２ロス５０７は、合成イメージ５０４に基づいてポーズ推定器５３０から出力された第１ポーズ、及び合成イメージ５０４に対応するＧＴポーズ５０２に基づいて取得されることができる。第１ポーズは、合成イメージ５０４に基づいて第２ネットワーク５２０から出力された第１座標マップが、ポーズ推定器５３０に入力された結果から出力され得る。一例として、第２ロス５０７に基づいて取得されたグラジエントは、第１ネットワーク５１０及び第２ネットワーク５２０に繰り返し逆伝播されることで、第１ネットワーク５１０及び第２ネットワーク５２０の加重値が更新され得る。第２ロス５０７に基づいて取得されたグラジエントは、ポーズ推定器５３０で合成イメージ５０４に基づいて出力された第１ポーズと合成イメージ５０４に対応するＧＴポーズ５０２との差により取得されたグラジエントに対応する。

一例として、第２ネットワーク５２０の加重値をｗ_ｓとするとき、ｗ_ｓはＧＴ座標マップとの差を最小化する過程と、例えば、ＧＴポーズとの差を最小化する２つの過程を経て学習され得る。例えば、ＧＴ座標マップとの差を最小化する過程とＧＴポーズとの差を最小化する２つの過程に対する式は、それぞれの下記の数式（１）及び（２）のように定義されることができる。

数式（１）において、ｆは第１ネットワーク５１０の出力、Ｓは第２ネットワーク５２０、ｓ＝Ｓ（ｆ；ｗ）は、第２ネットワーク５２０の加重値であるｗによってｆから出力された座標マップ、ｓ^＊はＧＴ座標マップ、Ｌ_ｓは第１ロス５０６である。第１ロス５０６Ｌ_ｓは、第２ネットワーク５２０で推定された座標マップｓとＧＴ座標マップｓ^＊との間の誤差として、合成イメージ５０４に含まれているピクセルｉに対して推定されたｓ_ｉ及び正解データであるｓ_ｉ ^＊のノルマ（ｎｏｒｍ）の和として定義される。

数式（２）において、Ｐはポーズ推定器、ｐ＝Ｐ（Ｓ（ｆ；ｗ））は、第２ネットワーク５２０から出力された座標マップｓ＝Ｓ（ｆ；ｗ）に基づいてポーズ推定器５３０で出力されたポーズ、Ｌ_ｐは第２ロス５０７である。第２ロス５０７Ｌ_ｐは、ポーズ推定器５３０で推定されたポーズｐとＧＴポーズｐ^＊との間の誤差として、回転誤差（ｒｏｔａｔｉｏｎｅｒｒｏｒ）∠（θ、θ^＊）と平行移動誤差（ｔｒａｎｓｌａｔｉｏｎｅｒｒｏｒ）||t-t^*||のうち最大値に決定されることができる。

一実施形態によれば、合成データセット５０１についてのみグローバル測位モデルの学習を行う場合、合成イメージ５０４と他のドメインに該当する実際イメージ５０５に対しては、グローバル測位の性能が低下する。一実施形態によれば、グローバル測位モデルの合成イメージ５０４と実際イメージ５０５との間のドメインギャップ（ｄｏｍａｉｎｇａｐ）を低減するために、第１弁別器５４０及び第２弁別器５５０を用いて学習過程をさらに行うことができる。

一実施形態によれば、第１弁別器５４０は、第１ネットワーク５１０の出力であるフィーチャーのドメイン分類を実行し、第２弁別器５５０は、第２ネットワーク５２０の出力である座標マップのドメイン分類を行う。ドメイン分類は、入力データが合成イメージ５０４に対応するものであるか、又は、実際イメージ５０５に対応するものであるかを判断する動作である。

例えば、第１弁別器５４０は、合成イメージ５０４から抽出されたフィーチャーに基づいて合成イメージ５０４を指示する値を出力し、実際イメージ５０５から抽出されたフィーチャーに基づいて、実際イメージ５０５を指示する値を出力するためのニューラルネットワークを含む。第１弁別器５４０は、入力されたフィーチャーが合成イメージ５０４から抽出されたフィーチャーと判断される場合、合成イメージ５０４を指示する値（例えば、１）を出力し、入力されたフィーチャーが実際イメージ５０５から抽出されたフィーチャーであると判断される場合、実際イメージ５０５を指示する値（例えば、０）を出力するよう学習されることができる。

例えば、第２弁別器５５０は、合成イメージ５０４で推定された座標マップに基づいて合成イメージ５０４を指示する値を出力し、実際イメージ５０５で推定された座標マップに基づいて実際イメージ５０５を指示する値を出力するためのニューラルネットワークを含んでもよい。第２弁別器５５０は、入力された座標マップが合成イメージ５０４に基づいて推定された座標マップであると判断される場合、合成イメージ５０４を指示する値（例えば、１）を出力し、入力された座標マップが実際イメージ５０５に基づいて推定された座標マップと判断される場合、実際イメージ５０５を指示する値（例えば、０）を出力するように学習されることができる。

一実施形態によれば、第１ネットワーク５１０は、第１ＧＡＮロス５０８に基づいて、第１弁別器５４０と敵対的に学習されてもよい。第１ＧＡＮロス５０８は、合成イメージ５０４に基づいて第１ネットワーク５１０から抽出された第１フィーチャー、及び実際イメージ５０５に基づいて第１ネットワーク５１０から抽出された第２フィーチャーに基づいて取得されることができる。より具体的に、第１ＧＡＮロス５０８は、グローバル測位モデルに合成イメージ５０４が入力された場合、第１フィーチャーに基づいて第１弁別器５４０から出力された結果と、第１フィーチャーに対応するドメイン分類の正解データである合成イメージ５０４を指示する値の差に基づいて算出されることができる。第１ＧＡＮロス５０８は、グローバル測位モデルに実際イメージ５０５が入力された場合、第２フィーチャーに基づいて第１弁別器５４０から出力された結果と、第２フィーチャーに対応するドメイン分類の正解データである実際イメージ５０５を指示する値の差に基づいて算出されることができる。

一例として、第１ＧＡＮロス５０８に基づいて取得されたグラジエントは、第１弁別器５４０及び第１ネットワーク５１０に繰り返し逆伝播されることで、第１弁別器５４０及び第１ネットワーク５１０の加重値が更新され得る。第１ＧＡＮロス５０８に基づいて取得されたグラジエントは、第１弁別器５４０で入力されたフィーチャーに基づいて出力されたドメイン分類結果と、入力されたフィーチャーに対応するドメイン分類の正解データの差によって取得されたグラジエントに対応する。例えば、第１ＧＡＮロス５０８に基づいて、第１弁別器５４０は、入力されたフィーチャーに基づいてドメイン分類の正解データを出力するように学習され、第１ネットワーク５１０は、第１弁別器５４０がドメイン分類を実行し難しいフィーチャーを抽出するように学習されることができる（例えば、第１ネットワーク５１０は、抽出された特徴に基づいて第１弁別器５４０によって実行されたドメイン分類の正確度が所定の閾値未満である特徴を抽出するよう学習されることができる）。

一実施形態によれば、学習過程において、合成イメージ５０４及び実際イメージ５０５は、グローバル測位モデルに交互に入力されてもよい。一例として、合成イメージ５０４が入力されることで第１ＧＡＮロス５０８に基づいて第１フィーチャーを第１弁別器５４０に入力して取得されたグラジエントを逆伝播させる過程、及び実際イメージ５０５が入力されることで第１ＧＡＮロス５０８に基づいて第２フィーチャーを第１弁別器５４０に入力して取得されたグラジエントを逆伝播させる過程は、交互に実行されてもよい。また、一例として、合成イメージ５０４が入力されることで第２ＧＡＮロス５０９に基づいて第１座標マップを第２弁別器５５０に入力して取得されたグラジエントを逆伝播させる過程、及び実際イメージ５０５が入力されることで第２ＧＡＮロス５０９に基づいて第２座標マップを第２弁別器５５０に入力して取得されたグラジエントを逆伝播させる過程は、交互に実行されてもよい。

一実施形態によれば、第２ネットワーク５２０は、第２ＧＡＮロス５０９に基づいて、第２弁別器５５０と敵対的に学習されてもよい。第２ＧＡＮロス５０９は、第１フィーチャーに基づいて第２ネットワーク５２０で推定された第１座標マップ、及び第２フィーチャーに基づいて第２ネットワーク５２０で推定された第２座標マップに基づいて取得されることができる。詳説したように、第１フィーチャーは、第１ネットワーク５１０で合成イメージ５０４に基づいて出力されたフィーチャーであり、第２フィーチャーは、第１ネットワーク５１０で実際イメージ５０５に基づいて出力されたフィーチャーである。より具体的に、第２ＧＡＮロス５０９は、グローバル測位モデルに合成イメージ５０４が入力された場合、第１座標マップに基づいて第２弁別器５５０から出力された結果と、第１座標マップに対応するドメイン分類の正解データである合成イメージ５０４を指示する値の差に基づいて算出されることができる。第２ＧＡＮロス５０９は、グローバル測位モデルに実際イメージ５０５が入力された場合、第２座標マップに基づいて第２弁別器５５０から出力された結果と、第２座標マップに対応するドメイン分類の正解データである実際イメージ５０５を指示する値の差に基づいて算出されることができる。

一例として、第２ＧＡＮロス５０９に基づいて取得されたグラジエントは、第２弁別器５５０及び第２ネットワーク５２０に繰り返し逆伝播されることによって、第２弁別器５５０及び第２ネットワーク５２０の加重値が更新され得る。第２ＧＡＮロス５０９に基づいて取得されたグラジエントは、第２弁別器５５０で入力された座標マップに基づいて出力されたドメイン分類結果と入力された座標マップに対応するドメイン分類の正解データの差によって取得されたグラジエントに対応する。例えば、第２ＧＡＮロス５０９に基づいて、第２弁別器５５０は、入力された座標マップに基づいてドメイン分類の正解データを出力するように学習され、第２ネットワーク５２０は、第２弁別器５５０がドメイン分類を実行し難しい座標マップを抽出するように学習される（例えば、第２ネットワーク５２０は、抽出された座標マップに基づいて第２弁別器５５０によって実行されたドメイン分類の正確度が、所定の閾値未満の座標マップを抽出するように学習され得る）。

一実施形態によれば、第２ＧＡＮロス５０９のグラジエントは、第２弁別器５５０及び第２ネットワーク５２０だけでなく、第１ネットワーク５１０にも逆伝播され、これにより第１ネットワーク５１０の加重値が更新され得る。

一実施形態によれば、第１ＧＡＮロス５０８に基づいて取得されたグラジエントの逆伝播過程は、第１ＧＡＮロス５０８に基づいて第１弁別器５４０に第１フィーチャーを入力して取得された出力に対応する誤差のグラジエントを第１弁別器５４０及び第１ネットワーク５１０に逆伝播させる過程、及び第１ＧＡＮロス５０８に基づいて第１弁別器５４０に第２フィーチャーを入力して取得された出力に対応する誤差のグラジエントを第１弁別器５４０及び第１ネットワーク５１０に繰り返し逆伝播させる過程を含む。一例として、第１弁別器５４０に第１フィーチャーを入力して取得された出力に対応する誤差のグラジエント、及び第１弁別器５４０に第２フィーチャーを入力して取得された出力に対応する誤差のグラジエントは、交互に逆伝播されてもよい。

一実施形態によれば、第１ネットワーク５１０及び第２ネットワーク５２０のうち少なくとも１つを学習させるステップは、第２ＧＡＮロス５０９に基づいて合成イメージ５０４で推定された座標マップ及び実際イメージ５０５で推定された座標マップを区分する第２弁別器５５０と第２ネットワーク５２０を学習させるステップを含む。第２ＧＡＮロス５０９は、第１フィーチャーに基づいて第２ネットワーク５２０で推定された第１座標マップ、及び第２フィーチャーに基づいて第２ネットワーク５２０で推定された第２座標マップに基づいて取得されたロスを含む。一例として、合成イメージ５０４及び実際イメージ５０５は交互にモデルに入力され、第２ＧＡＮロス５０９に基づいて取得された誤差のグラジエントは、第２弁別器５５０及び第２ネットワーク５２０に繰り返し逆伝播されてもよい。

一実施形態によれば、第２ＧＡＮロス５０９に基づいて取得された誤差のグラジエントの逆伝播過程は、第２ＧＡＮロス５０９に基づいて第２弁別器５５０に第１フィーチャーを入力して取得された出力に対応する誤差のグラジエントを第２弁別器５５０及び第２ネットワーク５２０に逆伝播させる過程、及び第２ＧＡＮロス５０９に基づいて第２弁別器５５０に第２フィーチャーを入力して取得された出力に対応する誤差のグラジエントを第２弁別器５５０及び第２ネットワーク５２０に繰り返し逆伝播させる過程を含むことができる。一例として、合成イメージ５０４及び実際イメージ５０５は交互にモデルに入力され、第２弁別器５５０に第１フィーチャーを入力して取得された出力に対応する誤差のグラジエント、及び第２弁別器５５０に第２フィーチャーを入力して取得された出力に対応する誤差のグラジエントは交互に逆伝播されてもよい。

一例として、一実施形態に係る第１弁別器５４０の加重値をｗ_Ｄ１といい、第２弁別器５５０の加重値をｗ_Ｄ２とするとき、ｗ_Ｄ１及びｗ_Ｄ２はそれぞれドメイン分類の正解データとの差を最小化する過程を経て学習され、例えば、２つの過程に対する式は、それぞれの下記の数式（３）及び（４）のように定義されることができる。

数式（３）及び（４）において、ｄ^＊∈｛０、１｝はドメイン分類の正解データであって、合成イメージ５０４又は実際イメージ５０５を指示する２進変数（ｂｉｎａｒｙｖａｒｉａｂｌｅ）を使用でき、Ｄ_１は第１弁別器５４０、Ｄ_１（ｆ；ｗ）は、入力されたフィーチャーｆに基づいて第１弁別器５４０から出力されたドメイン分類結果、Ｌ_Ｄ１は第１ＧＡＮロス５０８、Ｄ_２は第２弁別器５５０、Ｄ_２（ｓ；ｗ）は、入力された座標マップｓに基づいて第２弁別器５５０から出力されたドメイン分類結果、Ｌ_Ｄ２は第２ＧＡＮロス５０９に該当する。第１ＧＡＮロス５０８Ｌ_Ｄ１及び第２ＧＡＮロス５０９Ｌ_Ｄ２は、２進クロスエントロピー（ｂｉｎａｒｙｃｒｏｓｓｅｎｔｒｏｐｙ）を使用することができる。

上述したように、第１ＧＡＮロス５０８に基づいて、第１ネットワーク５１０は、第１弁別器５４０と敵対的に学習され、第１ロス５０６及び第２ロス５０７に基づいて学習されることができる。一例として、第１ネットワーク５１０の学習過程は、第１ＧＡＮロス５０８及び第１ロス５０６に基づいて第１ネットワーク５１０の加重値をアップデートするための学習過程、及び第１ＧＡＮロス５０８及び第２ロス５０７に基づいて第１ネットワーク５１０の加重値をアップデートするための学習過程の２つのステップにおいて、それぞれ数式（５）及び（６）のように定義されることができる。

上述したように、第２ＧＡＮロス５０９に基づいて、第２ネットワーク５２０は、第２弁別器５５０と敵対的に学習され、第１ロス５０６及び第２ロス５０７に基づいて学習されることができる。一例として、第２ネットワーク５２０の学習過程は、第２ＧＡＮロス５０９及び第１ロス５０６に基づいて第２ネットワーク５２０の加重値をアップデートするための学習過程、及び第２ＧＡＮロス５０９及び第２ロス５０７に基づいて第２ネットワーク５２０の加重値をアップデートするための学習過程の２つのステップにおいて、それぞれ数式（７）及び（８）のように定義されることができる。

上述したように、第２ＧＡＮロス５０９のグラジエントは、第２弁別器５５０及び第２ネットワーク５２０だけでなく、第１ネットワーク５１０にも逆伝播され、第１ネットワーク５１０は、第２ＧＡＮロス５０９に基づいて第１ネットワーク５１０の加重値をアップデートするための学習過程が実行されることができる。

図７は、一実施形態に係るグローバル測位モデルの学習方法の動作フローチャートである。

図７を参照すると、一実施形態に係るグローバル測位モデルの学習方法は、３次元マップデータに基づいて、合成データセットを取得するステップＳ７１０、第１ＧＡＮロスを取得するステップＳ７２０、第２ＧＡＮロスを取得するステップＳ７３０、第１ロスを取得するステップＳ７４０、第２ロスを取得するステップＳ７５０、及び第１ネットワーク及び第２ネットワークのうち少なくとも１つを学習させるステップＳ７６０を含む。一実施形態に係るグローバル測位モデルの学習方法の動作は、少なくとも１つのプロセッサによって実行されることができる。

一実施形態に係るステップＳ７１０は、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び合成イメージの各ピクセルに対応する３次元座標データを含む合成データセットを取得するステップを含む。上述したように、合成イメージの各ピクセルに対応する３次元座標データはＧＴ座標マップに対応し、合成データセットは合成イメージに対応するＧＴポーズをさらに含む。

一実施形態に係るグローバル測位モデルの学習方法は、ステップＳ７１０以後に合成イメージを第１ネットワークに印加し、第１フィーチャーを抽出するステップ、抽出された第１フィーチャーを第２ネットワークに印加し、合成イメージの各ピクセルに対応する第１座標マップを推定するステップ、及び推定された第１座標マップに基づいて合成イメージに対応する第１ポーズを推定するステップをさらに含み、実際のカメラで撮影された実際イメージを第１ネットワークに印加して第２フィーチャーを抽出するステップ、及び抽出された第２フィーチャーを第２ネットワークに印加して実際イメージの各ピクセルに対応する第２座標マップを推定するステップをさらに含むことができる。

一実施形態に係る第１ＧＡＮロスを取得するステップＳ７２０は、合成イメージを第１ネットワークに印加して取得された第１フィーチャー、及び実際イメージを第１ネットワークに印加して取得された第２フィーチャーに基づいて、第１ＧＡＮロスを取得するステップを含むことができる。

一実施形態に係る第２ＧＡＮロスを取得するステップＳ７３０は、第１フィーチャーを第２ネットワークに印加して取得された第１座標マップ、及び第２フィーチャーを第２ネットワークに印加して取得された第２座標マップに基づいて、第２ＧＡＮロスを取得するステップを含むことができる。

一実施形態に係る第１ロスを取得するステップＳ７４０は、第１座標マップ及び合成イメージに対応する３次元座標データに基づいて、第１ロスを取得するステップを含むことができる。

一実施形態に係る第２ロスを取得するステップＳ７５０は、第１座標マップに基づいて推定された第１ポーズ及び仮想のカメラのポーズに基づいて第２ロスを取得するステップを含むことができる。

一実施形態に係る学習させるステップＳ７６０は、ステップは第１ロス、第２ロス、第１ＧＡＮロス及び第２ＧＡＮロスのうち少なくとも１つ（例えば、第１ＧＡＮロス及び第２ＧＡＮロスのいずれか１つ、又は、第１ＧＡＮロス及び第２ＧＡＮロス両方）に基づいて、第１ネットワーク及び第２ネットワークのうち少なくとも１つを学習させるステップを含む。一例として、ステップＳ７６０は、グローバル測位モデルに含まれているニューラルネットワーク（例えば、第１ネットワーク及び第２ネットワークのうち少なくとも１つ）のパラメータをアップデートするために、グローバル測位モデルに関する少なくとも１つのロス（例えば、第１ロス、第２ロス、第１ＧＡＮロス及び第２ＧＡＮロスのうち少なくとも１つ）に基づいて取得されたグラジエントを繰り返し逆伝播させるステップ、及びニューラルネットワークのパラメータを格納するステップを含む。ニューラルネットワークのパラメータは、グローバル測位モデルが格納された記録媒体又はメモリに格納され得る。

一実施形態によれば、学習させるステップＳ７６０は、第１ＧＡＮロスに基づいて合成イメージから抽出されたフィーチャーと実際イメージから抽出されたフィーチャーとを区分する第１弁別器及び第１ネットワークを学習させるステップを含む。例えば、ステップＳ７６０は、第１ＧＡＮロスに基づいて、第１弁別器に第１フィーチャーを入力して取得されたグラジエントを第１弁別器及び第１ネットワークに繰り返し逆伝播させるステップ、及び第１ＧＡＮロスに基づいて第１弁別器に第２フィーチャーを入力して取得されたグラジエントを第１弁別器及び第１ネットワークに繰り返し逆伝播させるステップを含む。上述したように、１弁別器は合成イメージから抽出されたフィーチャーに基づいて合成イメージを指示する値を出力し、実際イメージから抽出されたフィーチャーに基づいて実際イメージを指示する値を出力するためのニューラルネットワークを含むことができる。

一実施形態によれば、学習させるステップＳ７６０は、第２ＧＡＮロスに基づいて合成イメージで推定された座標マップと実際イメージで推定された座標マップとを区分する第２弁別器及び第２ネットワークを学習させるステップを含む。例えば、ステップＳ７６０は、第２ＧＡＮロスに基づいて第２弁別器に第１座標マップを入力して取得されたグラジエントを第２弁別器及び第２ネットワークに繰り返し逆伝播させるステップ、及び第２ＧＡＮロスに基づいて第２弁別器に第２座標マップを入力して取得されたグラジエントを第２弁別器及び第２ネットワークに繰り返し逆伝播させるステップを含む。詳説したように、第２弁別器は、合成イメージで推定された座標マップに基づいて合成イメージを指示する値を出力し、実際イメージで推定された座標マップに基づいて実際イメージを指示する値を出力するためのニューラルネットワークを含むことができる。

一例として、学習させるステップＳ７６０は、第１ロスに基づいて取得されたグラジエントを第１ネットワーク及び第２ネットワークに繰り返し逆伝播させるステップを含んでもよい。また、一例として、学習させるステップＳ７６０は、第２ロスに基づいて取得されたグラジエントを第１ネットワーク及び第２ネットワークに繰り返し逆伝播させるステップを含んでもよい。

図８は、一実施形態に係るグローバル測位モデル８００のフレームワークを例示する図である。

図８を参照すると、一実施形態に係るグローバル測位モデル８００は、イメージ８０１が入力され、グローバル測位結果に該当するポーズ８０２を出力するグローバル測位方法を行うモデルである。グローバル測位モデル８００は、学習されたニューラルネットワークを含み、ニューラルネットワークは第１ネットワーク８１０及び第３ネットワーク８２０を含む。

一実施形態によれば、グローバル測位モデル８００の入力データであるイメージ８０１及び出力データであるポーズ８０２は、図１を参照して上述したグローバル測位モデル１００の入力データであるイメージ１０１及び出力データであるポーズ１０２にそれぞれ対応する。

一実施形態に係る第１ネットワーク８１０は、入力されたイメージからフィーチャーを抽出するように学習されたニューラルネットワークであり、図１を参照して上述した第１ネットワーク１１０に対応する。

一実施形態によれば、第３ネットワーク８２０は、第１ネットワーク８１０から抽出されたフィーチャーに基づいて入力されたイメージ８０１に対応するポーズを推定するように学習されたニューラルネットワークである。図１を参照して上述したポーズ推定器１３０は、第２ネットワーク１２０の出力である座標マップが入力され、入力されたイメージ１０１に対応するポーズ１０２をＰｎＰアルゴリズムなどを介して推定するモジュールである一方、第３ネットワーク８２０は、第１ネットワーク８１０の出力であるフィーチャーが入力され、入力されたイメージ８０１に対応するポーズ８０２を推定するニューラルネットワークであることから、図８に示されたグローバル測位モデル８００は、図１に示されたグローバル測位モデル１００と差がある。

一実施形態によれば、グローバル測位モデル８００に含まれている第１ネットワーク８１０及び第３ネットワーク８２０は、逆伝播アルゴリズムによる学習過程によって決定されたパラメータを含む。言い換えれば、一実施形態に係るグローバル測位モデル８００は、３次元マップデータに基づいて任意のポーズに対応する仮想のカメラで撮影された合成イメージを取得するステップ、グローバル測位モデル８００に含まれているニューラルネットワーク８１０，８２０のパラメータをアップデートするために、グローバル測位モデルに関する少なくとも１つのロスに基づいて取得されたグラジエントを繰り返し逆伝播させるステップ、及びニューラルネットワーク８１０，８２０のパラメータを格納するステップを含むグローバル測位モデルの学習過程によって生成又は製造されることができる。

一例として、第１ネットワーク８１０及び／又は第４ネットワーク８２０は、学習データに含まれているイメージに対応する正解データを出力するように学習されてもよい。一実施形態によれば、第１ネットワーク８１０及び第３ネットワーク８２０は、学習データに含まれている合成イメージに基づいて第３ネットワーク８２０で推定されたポーズ、及び学習データに含まれている合成イメージに対応する正解データに基づいて取得された第２ロスに基づいて学習されることができる。学習データに含まれている合成イメージに対応する正解データは、該当合成イメージに対応するポーズのグラウンドトルースを含む。第２ロスは、図１～図７を参照して上述した第２ロスに対応する。第２ロスに基づいてグローバル測位モデルを学習する具体的な方法については、以下で説明する。

また、一例として、第１ネットワーク８１０及び第３ネットワーク８２０は、実際イメージと合成イメージを区分する弁別器によるＧＡＮロス（ｌｏｓｓ）に基づいて弁別器と敵対的に学習されてもよい。より具体的に、第１ネットワーク８１０は、第１ＧＡＮロスに基づいて学習されることができる。第１ＧＡＮロスは、図１～図７を参照して上述した第１ＧＡＮロスに対応する。言い換えれば、第１ＧＡＮロスは、３次元マップデータによって取得された合成イメージに基づいて第１ネットワーク８１０から抽出された第１フィーチャー、及び実際イメージに基づいて第１ネットワーク８１０から抽出された第２フィーチャーに基づいて取得されたロスである。第１ＧＡＮロスに基づいてグローバル測位モデルを学習する具体的な方法については、以下で詳細に説明する。

図９は、一実施形態に係るグローバル測位モデルの学習方法のフレームワークを例示する図である。

図９を参照すると、一実施形態に係るグローバル測位モデルの学習データは、合成データセット９０１及び実際イメージ９０３を含む。合成データセット９０１は任意のポーズに対応する仮想のカメラで撮影された合成イメージ９０３及び合成イメージ９０３に対応するポーズの正解データ（又は、ＧＴポーズ）９０２を含む。上述したように、合成データセット９０１に含まれている合成イメージ９０３は、合成イメージ５０４を撮影した仮想カメラのポーズ情報が分かるため、ポーズの正解データ９０２にラベリングされることができる。

一実施形態によれば、第２ロス９０５は、図５を参照して上述した第２ロス５０７に対応する。言い換えれば、第２ロス９０５は、第３ネットワーク９２０で合成イメージ９０３に基づいて推定されたポーズ及び合成イメージ９０３に対応するポーズの正解データ９０２に基づいて取得されることができる。一例として、第２ロス９０２に基づいて取得されたグラジエントは、第１ネットワーク９１０及び第３ネットワーク９２０に繰り返し逆伝播されることで、第１ネットワーク９１０及び第３ネットワーク９２０の加重値が更新され得る。

一実施形態によれば、第１ネットワーク９１０は、第１ＧＡＮロス９０６に基づいて、第１弁別器９３０と敵対的に学習されてもよい。第１弁別器９３０は、図５を参照して上述した第１弁別器５４０に対応する。言い換えれば、第１弁別器９３０は、入力されたフィーチャーが合成イメージ９０３から抽出されたフィーチャーであると判断される場合、合成イメージ９０３を指示する値（例えば、１）を出力し、入力されたフィーチャーが実際イメージ９０４から抽出されたフィーチャーであると判断される場合、実際イメージ９０４を指示する値（例えば、０）を出力するように学習されることができる。

一実施形態によれば、第１ＧＡＮロス９０６は、図５を参照して上述した第１ＧＡＮロス５０８に対応する。第１ＧＡＮロス９０６に基づいて取得されたグラジエントは、第１弁別器９３０及び第１ネットワーク９１０に繰り返し逆伝播されることで、第１弁別器９３０及び第１ネットワーク９１０の加重値が更新され得る。例えば、第１ＧＡＮロス９０６に基づいて第１弁別器９３０は、入力されたフィーチャーに基づいてドメイン分類の正解データを出力するように学習され、第１ネットワーク９１０は、第１弁別器９３０がドメイン分類を実行し難しいフィーチャーを抽出するように学習されることができる（例えば、第１ネットワーク９１０は、抽出された特徴に基づいて第１弁別器９３０によって実行されたドメイン分類の正確度が所定の閾値未満である特徴を抽出するように訓練されることができる）。

図１０は、一実施形態に係るグローバル測位装置の構成の例示図である。

図１０を参照すると、一実施形態に係るグローバル測位装置１０００は、プロセッサ１００１（例えば、１つ以上のプロセッサ）、メモリ１００３（例えば、１つ以上のメモリ）、及び入出力装置１００５を含む。装置１０００は、例えば、ユーザデバイス（例えば、スマートフォン、パーソナルコンピュータ、タブレットＰＣなど）、ＡＲｇｌａｓｓｅｓ、サーバを含む。

一実施形態に係る装置１０００は、グローバル測位モデルが記録されたメモリ１００３を含む。グローバル測位モデルは、図１～図７を参照して上述したグローバル測位モデル、又は、図８～図９を参照して上述したグローバル測位モデルを含むことができる。一実施形態に係るメモリ７０３は、揮発性メモリまたは不揮発性メモリであってもよい。

以下では、メモリ７０３に記録されたグローバル測位モデルは、図１～図７を参照して上述したグローバル測位モデルであるものと例にして説明する。言い換えれば、グローバル測位モデルは、入力イメージのフィーチャーを抽出する第１ネットワーク、第１ネットワークの出力に基づいて入力イメージの座標マップを推定する第２ネットワーク、及び第２ネットワークの出力に基づいてグローバル測位結果に該当するポーズを推定するポーズ推定器を含む。

上述したように、グローバル測位モデルは、グローバル測位モデルの学習方法によって生成及び製造されることができる。例えば、グローバル測位モデルは、３次元来マップデータに基づいて合成データセットを取得するステップ、グローバル測位モデルに含まれているニューラルネットワークのパラメータをアップデートするために、グローバル測位モデルに関する少なくとも１つのロスに基づいて取得されたグラジエントを繰り返し逆伝播させるステップ、ニューラルネットワークのパラメータをメモリ１００３に格納するステップによって製造又は生成されることができる。一例として、グローバル測位モデルに含まれているニューラルネットワークは、図１を参照して上述したように、第１ネットワーク及び第２ネットワークを含むことができる。また、一例として、グローバル測位モデルに含まれているニューラルネットワークは、図８を参照して上述したように第１ネットワーク及び第３ネットワークを含んでもよい。

一実施形態によれば、メモリ１００３は、詳説したグローバル測位モデルが具現されたプログラムを格納することができ、プロセッサ１００１は、メモリ１００３に格納されたプログラムを実行し、装置１０００を制御することができる。一例として、プロセッサ１００１は、入力イメージを第１ネットワークに印加し、第１ネットワークで出力された入力イメージのフィーチャーを取得し、フィーチャーを第２ネットワークに印加し、第２ネットワークで出力された入力イメージに対応する座標マップを取得し、座標マップに基づいてポーズ推定器で出力された入力イメージに対応するポーズを取得することができる。プロセッサ１００１は、図１～図９を参照して前述した動作の一部又は全てを行ってもよい。

一側面に係る装置１０００は、入出力装置１００５を介して外部装置（例えば、パーソナルコンピュータ、サーバ又はネットワーク）に接続され、データを交換することができる。例えば、装置１０００は、入出力装置７０５を介してイメージを受信し、グローバル測位モデルの結果であるイメージに基づいて推定されたポーズを出力することができる。

以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。

上記で説明したハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、他の具現、他の実施形態および特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。

Claims

入力イメージを第１ネットワークに印加し、フィーチャーを抽出するステップと、
前記抽出されたフィーチャーを第２ネットワークに印加し、前記入力イメージに対応する座標マップを推定するステップと、
前記推定された座標マップに基づいて、前記入力イメージに対応するポーズを推定するステップと、
を含み、
前記第１ネットワーク及び前記第２ネットワークのうち少なくとも１つは、
３次元マップデータによって決定された合成イメージに基づいて前記第１ネットワークから抽出された第１フィーチャー、及び実際イメージに基づいて前記第１ネットワークから抽出された第２フィーチャーに基づいて決定された第１ＧＡＮロスと、
前記第１フィーチャーに基づいて前記第２ネットワークで推定された第１座標マップ、及び前記第２フィーチャーに基づいて前記第２ネットワークで推定された第２座標マップに基づいて決定された第２ＧＡＮロスと、
のうち少なくとも１つに基づいて学習される、グローバル測位方法。
前記第１ネットワーク及び前記第２ネットワークのうち少なくとも１つは、
前記第１座標マップ及び前記合成イメージに対応する正解データに基づいて決定された第１ロスと、
前記第１座標マップに基づいて推定された第１ポーズ及び前記合成イメージに対応する正解データに基づいて決定された第２ロスと、
のうち少なくとも１つにさらに基づいて学習される、請求項１に記載のグローバル測位方法。
前記正解データは、前記合成イメージを撮影した仮想のカメラのポーズ及び前記合成イメージの各ピクセルに対応する３次元座標データを含む、請求項２に記載のグローバル測位方法。
前記ポーズは、前記入力イメージを撮影した機器の６ＤＯＦポーズを含む、請求項１に記載のグローバル測位方法。
第１ネットワーク及び第２ネットワークを含むグローバル測位モデルの学習方法であって、
３次元マップデータに基づいて、合成データセットであって、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び前記合成イメージの各ピクセルに対応する３次元座標データを含む合成データセットを決定するステップと、
前記合成イメージを前記第１ネットワークに印加して決定された第１フィーチャー、及び実際のカメラで撮影された実際イメージを前記第１ネットワークに印加して決定された第２フィーチャーに基づいて第１ＧＡＮロスを決定するステップと、
前記第１フィーチャーを前記第２ネットワークに印加して決定された第１座標マップ、及び前記第２フィーチャーを前記第２ネットワークに印加して決定された第２座標マップに基づいて第２ＧＡＮロスを決定するステップと、
前記第１座標マップ及び前記合成イメージに対応する前記３次元座標データに基づいて第１ロスを決定するステップと、
前記第１座標マップに基づいて推定された第１ポーズ及び前記仮想のカメラのポーズに基づいて第２ロスを決定するステップと、
前記第１ロス、前記第２ロス、前記第１ＧＡＮロス、及び前記第２ＧＡＮロスのうち少なくとも１つに基づいて、前記第１ネットワーク及び前記第２ネットワークのうち少なくとも１つを学習させるステップと、
を含む、グローバル測位モデルの学習方法。
前記合成データセットを決定するステップは、
前記合成イメージを前記第１ネットワークに印加し、前記第１フィーチャーを抽出するステップと、
前記抽出された第１フィーチャーを前記第２ネットワークに印加し、前記合成イメージの各ピクセルに対応する前記第１座標マップを推定するステップと、
前記推定された第１座標マップに基づいて、前記合成イメージに対応する第１ポーズを推定するステップと、
前記実際イメージを前記第１ネットワークに印加し、前記第２フィーチャーを抽出するステップと、
前記抽出された第２フィーチャーを前記第２ネットワークに印加し、前記実際イメージの各ピクセルに対応する前記第２座標マップを推定するステップと、
をさらに含む、請求項５に記載のグローバル測位モデルの学習方法。
前記学習させるステップは、前記第１ＧＡＮロスに基づいて、前記合成イメージから抽出された前記第１フィーチャー及び前記実際イメージから抽出された前記第２フィーチャーを区分する第１弁別器と前記第１ネットワークを学習させるステップを含む、請求項５に記載のグローバル測位モデルの学習方法。
前記学習させるステップは、前記第２ＧＡＮロスに基づいて、前記合成イメージで推定された前記第１座標マップ及び前記実際イメージで推定された第２座標マップを区分する第２弁別器と前記第２ネットワークを学習させるステップを含む、請求項５に記載のグローバル測位モデルの学習方法。
前記学習させるステップは、前記第１ロスに基づいて決定されたグラジエントを前記第１ネットワーク及び前記第２ネットワークに繰り返し逆伝播させるステップを含む、請求項５に記載のグローバル測位モデルの学習方法。
前記学習させるステップは、前記第２ロスに基づいて決定されたグラジエントを前記第１ネットワーク及び前記第２ネットワークに繰り返し逆伝播させるステップを含む、請求項５に記載のグローバル測位モデルの学習方法。
前記第１ネットワーク及び前記第２ネットワークのうち少なくとも１つの学習に応答して、
入力イメージを前記第１ネットワークに印加し、フィーチャーを抽出するステップと、
前記抽出されたフィーチャーを前記第２ネットワークに印加し、前記入力イメージに対応する座標マップを推定するステップと、
前記推定された座標マップに基づいて、前記入力イメージに対応するポーズを推定するステップと、
をさらに含む、請求項５に記載のグローバル測位モデルの学習方法。
請求項１～１１のいずれか一項に記載の方法をコンピュータに実行させるコンピュータプログラム。
グローバル測位装置であって、
入力イメージをグローバル測位モデルの第１ネットワークに印加して前記入力イメージのフィーチャーを抽出し、前記抽出されたフィーチャーを前記グローバル測位モデルの第２ネットワークに印加して前記入力イメージに対応する座標マップを推定し、前記推定された座標マップを前記グローバル測位モデルのポーズ推定器に印加してグローバル測位結果に対応するポーズを推定する、少なくとも１つのプロセッサを含み、
前記グローバル測位モデルは、
３次元マップデータに基づいて、合成データセットであって、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び前記合成イメージの各ピクセルに対応する３次元座標データを含む合成データセットを決定するステップと、
前記第１ネットワーク及び前記第２ネットワークのパラメータをアップデートするために、前記グローバル測位モデルに関する少なくとも１つのロスに基づいて決定されたグラジエントを繰り返し逆伝播させるステップと、
を行うことにより構築され、
前記グローバル測位モデルに関するロスは、
前記合成イメージに基づいて前記第１ネットワークから抽出された第１フィーチャー、及び実際イメージに基づいて前記第１ネットワークから抽出された第２フィーチャーに基づいて決定された第１ＧＡＮロスと、
前記第１フィーチャーに基づいて前記第２ネットワークで推定された第１座標マップ、及び前記第２フィーチャーに基づいて前記第２ネットワークで推定された第２座標マップに基づいて決定された第２ＧＡＮロスと、
のうち少なくとも１つを含む、グローバル測位装置。
前記グローバル測位モデルに関するロスは、
前記第１座標マップ及び前記合成イメージに対応する正解データに基づいて決定された第１ロスと、
前記第１座標マップに基づいて前記ポーズ推定器で推定された第１ポーズ及び前記合成イメージに対応する正解データに基づいて決定された第２ロスと、
のうち少なくとも１つをさらに含む、請求項１３に記載のグローバル測位装置。
前記繰り返し逆伝播させるステップは、
前記第１ＧＡＮロスに基づいて、第１弁別器に前記第１フィーチャーを入力して決定されたグラジエントを前記第１弁別器及び前記第１ネットワークに繰り返し逆伝播させるステップと、
前記第１ＧＡＮロスに基づいて、前記第１弁別器に前記第２フィーチャーを入力して決定されたグラジエントを前記第１弁別器及び前記第１ネットワークに繰り返し逆伝播させるステップと、
を含み、
前記第１弁別器は、
前記合成イメージから抽出された前記第１フィーチャーに基づいて前記合成イメージを指示する値を出力し、前記実際イメージから抽出された前記第２フィーチャーに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含む、請求項１３に記載のグローバル測位装置。
前記繰り返し逆伝播させるステップは、
前記第２ＧＡＮロスに基づいて、第２弁別器に前記第１座標マップを入力して決定されたグラジエントを前記第２弁別器及び前記第２ネットワークに繰り返し逆伝播させるステップと、
前記第２ＧＡＮロスに基づいて、前記第２弁別器に前記第２座標マップを入力して決定されたグラジエントを前記第２弁別器及び前記第２ネットワークに繰り返し逆伝播させるステップと、
を含み、
前記第２弁別器は、
前記合成イメージで推定された前記第１座標マップに基づいて前記合成イメージを指示する値を出力し、前記実際イメージで推定された前記第２座標マップに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含む、請求項１３に記載のグローバル測位装置。
前記少なくとも１つのプロセッサによって実行される命令を格納するメモリをさらに含み、
前記命令は、前記少なくとも１つのプロセッサにより前記入力イメージのフィーチャーが抽出され、前記入力イメージに対応する座標マップを推定し、前記グローバル測位結果に対応するポーズを推定する動作を実行させる、請求項１３ないし１６のうちの何れか一項に記載のグローバル測位装置。
コンピュータ読み出し可能な記録媒体に格納されたグローバル測位器であって、
前記グローバル測位器は、
３次元マップデータに基づいて、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び前記合成イメージの各ピクセルに対応する３次元座標データを決定するステップと、
前記グローバル測位器に含まれているニューラルネットワークのパラメータをアップデートするために、前記グローバル測位器に関する少なくとも１つのロスに基づいて決定されたグラジエントを繰り返し逆伝播させるステップと、
前記ニューラルネットワークのパラメータを前記記録媒体に格納するステップと、
を行うことにより構築され、
前記グローバル測位器に含まれているニューラルネットワークは、
入力イメージのフィーチャーを抽出する第１ネットワーク、及び前記第１ネットワークの出力に基づいて前記入力イメージの座標マップを推定する第２ネットワークを含み、
前記グローバル測位器に関する少なくとも１つのロスは、
前記合成イメージに基づいて前記第１ネットワークから抽出された第１フィーチャー、及び実際イメージに基づいて前記第１ネットワークから抽出された第２フィーチャーに基づいて決定された第１ＧＡＮロスと、
前記第１フィーチャーに基づいて前記第２ネットワークで推定された第１座標マップ、及び前記第２フィーチャーに基づいて前記第２ネットワークで推定された第２座標マップに基づいて決定された第２ＧＡＮロスと、
のうち少なくとも１つを含む、グローバル測位器。
前記グローバル測位器に関する少なくとも１つのロスは、
前記第１座標マップ及び前記合成イメージに対応する正解データに基づいて決定された第１ロスと、
前記第１座標マップに基づいて推定された第１ポーズ及び前記合成イメージに対応する正解データに基づいて決定された第２ロスと、
のうち少なくとも１つをさらに含む、請求項１８に記載のグローバル測位器。
前記繰り返し逆伝播させるステップは、
前記第１ＧＡＮロスに基づいて、第１弁別器に前記第１フィーチャーを入力して決定されたグラジエントを前記第１弁別器及び前記第１ネットワークに繰り返し逆伝播させるステップと、
前記第１ＧＡＮロスに基づいて、前記第１弁別器に前記第２フィーチャーを入力して決定されたグラジエントを前記第１弁別器及び前記第１ネットワークに繰り返し逆伝播させるステップと、
を含み、
前記第１弁別器は、前記合成イメージから抽出された前記第１フィーチャーに基づいて前記合成イメージを指示する値を出力し、前記実際イメージから抽出された前記第２フィーチャーに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含む、請求項１８に記載のグローバル測位器。
前記繰り返し逆伝播させるステップは、
前記第２ＧＡＮロスに基づいて、第２弁別器に前記第１座標マップを入力して決定されたグラジエントを前記第２弁別器及び前記第２ネットワークに繰り返し逆伝播させるステップと、
前記第２ＧＡＮロスに基づいて、前記第２弁別器に前記第２座標マップを入力して決定されたグラジエントを前記第２弁別器及び前記第２ネットワークに繰り返し逆伝播させるステップと、
を含み、
前記第２弁別器は、前記合成イメージで推定された前記第１座標マップに基づいて前記合成イメージを指示する値を出力し、前記実際イメージで推定された前記第２座標マップに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含む、請求項１８ないし２０のうちの何れか一項に記載のグローバル測位器。