JP2023056466A - グローバル測位装置及び方法 - Google Patents
グローバル測位装置及び方法 Download PDFInfo
- Publication number
- JP2023056466A JP2023056466A JP2022112854A JP2022112854A JP2023056466A JP 2023056466 A JP2023056466 A JP 2023056466A JP 2022112854 A JP2022112854 A JP 2022112854A JP 2022112854 A JP2022112854 A JP 2022112854A JP 2023056466 A JP2023056466 A JP 2023056466A
- Authority
- JP
- Japan
- Prior art keywords
- network
- image
- global positioning
- loss
- coordinate map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000013528 artificial neural network Methods 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 13
- 239000002131 composite material Substances 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 26
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C11/00—Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
- G01C11/04—Interpretation of pictures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
【課題】グローバル測位装置及び方法を提供する。【解決手段】一実施形態に係るグローバル測位モデルに基づいたグローバル測位方法は、入力イメージを第1ネットワークに印加し、フィーチャーを抽出するステップと、抽出されたフィーチャーを第2ネットワークに印加し、入力イメージに対応する座標マップを推定するステップと、定された座標マップに基づいて、入力イメージに対応するポーズを推定するステップとを含む。【選択図】図1
Description
以下の開示は、グローバル測位装置及び方法に関する。
グローバル測位(Global localization)技術は、目標空間に対する事前マップ情報があるとき、これをベースに機器の6-DOFポーズを推定する技術を意味する。決定されたマップの座標を基準にして機器の絶対的な位置を推定し、目標空間内で機器の初期ポーズ推定又は以後の機器位置のトラッキングを逃がした状況で活用され得る。機器で撮影又は検知されたイメージを使用するグローバル測位技術方式は、クエリイメージとマッチングされるイメージを1つ以上探して該当イメージに対応するポーズ情報を推定するイメージ検索(image retrieval)方式、ポーズ回帰ディープネットワーク(pose regression deep network)を用いてクエリイメージからポーズを直ちに回帰する直接ポーズ回帰(direct pose regression)方式、3Dマップを構成するポイントクラウドにフィーチャー情報を格納しておき、クエリイメージの2Dフィーチャーとマッチングして2D-3Dマッチング関係を探す希少フィーチャーマッチング(sparse feature matching)方式、2D-3Dマッチング関係を回帰問題で求める場面座標回帰(Scene coordinate regression)方式を含む。
本発明の実施形態に介してグローバル測位のためのニューラルネットワークの学習方法の改善を通して2D-3Dマッチングを推定し、機器のグローバル測位を算出する技術の正確度及び活用度を改善することにある。
本発明の実施形態を介してグローバル測位のためのニューラルネットワークを学習する過程において、3Dマップから取得可能な合成イメージを学習データとして使用し、イメージを撮影した機器の正確なポーズ情報がラベリングされた学習データを取得し難しいという問題を解決することにある。
本発明の実施形態を介して、グローバル測位のためのニューラルネットワークを学習する過程において、GANに基づいたドメイン適応を用いて合成イメージで学習されたモデルの実際イメージに対する性能が低下するという問題を解決することにある。
一側面に係るグローバル測位方法は、入力イメージを第1ネットワークに印加し、フィーチャーを抽出するステップと、前記抽出されたフィーチャーを第2ネットワークに印加し、前記入力イメージに対応する座標マップを推定するステップと、前記推定された座標マップに基づいて、前記入力イメージに対応するポーズを推定するステップとを含み、前記第1ネットワーク及び前記第2ネットワークのうち少なくとも1つは、3次元マップデータによって決定された合成イメージに基づいて前記第1ネットワークから抽出された第1フィーチャー、及び実際イメージに基づいて前記第1ネットワークから抽出された第2フィーチャーに基づいて決定された第1GANロスと、前記第1フィーチャーに基づいて前記第2ネットワークで推定された第1座標マップ、及び前記第2フィーチャーに基づいて前記第2ネットワークで推定された第2座標マップに基づいて決定された第2GANロスとのうち少なくとも1つに基づいて学習される。
前記第1ネットワーク及び前記第2ネットワークのうち少なくとも1つは、前記第1座標マップ及び前記合成イメージに対応する正解データに基づいて決定された第1ロスと、前記第1座標マップに基づいて推定された第1ポーズ及び前記合成イメージに対応する正解データに基づいて決定された第2ロスとのうち少なくとも1つにさらに基づいて学習されることができる。
前記正解データは、前記合成イメージを撮影した仮想のカメラのポーズ及び前記合成イメージの各ピクセルに対応する3次元座標データを含むことができる。
前記ポーズは、前記入力イメージを撮影した機器の6DOFポーズを含むことができる。
一実施形態に係る第1ネットワーク及び第2ネットワークを含むグローバル測位モデルの学習方法は、3次元マップデータに基づいて、合成データセット(前記合成データセットは、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び前記合成イメージの各ピクセルに対応する3次元座標データを含む)を決定するステップと、前記合成イメージを前記第1ネットワークに印加して決定された第1フィーチャー、及び実際のカメラで撮影された実際イメージを前記第1ネットワークに印加して決定された第2フィーチャーに基づいて第1GANロスを決定するステップと、前記第1フィーチャーを前記第2ネットワークに印加して決定された第1座標マップ、及び前記第2フィーチャーを前記第2ネットワークに印加して決定された第2座標マップに基づいて第2GANロスを決定するステップと、前記第1座標マップ及び前記合成イメージに対応する前記3次元座標データに基づいて第1ロスを決定するステップと、前記第1座標マップに基づいて推定された第1ポーズ及び前記仮想のカメラのポーズに基づいて第2ロスを決定するステップと、前記第1ロス、前記第2ロス、前記第1GANロス、及び前記第2GANロスのうち少なくとも1つに基づいて、前記第1ネットワーク及び前記第2ネットワークのうち少なくとも1つを学習させるステップとを含む。
前記合成データセットを決定するステップは、前記合成イメージを前記第1ネットワークに印加し、前記第1フィーチャーを抽出するステップと、前記抽出された第1フィーチャーを前記第2ネットワークに印加し、前記合成イメージの各ピクセルに対応する前記第1座標マップを推定するステップと、前記推定された第1座標マップに基づいて、前記合成イメージに対応する第1ポーズを推定するステップと、前記実際イメージを前記第1ネットワークに印加し、前記第2フィーチャーを抽出するステップと、前記抽出された第2フィーチャーを前記第2ネットワークに印加し、前記実際イメージの各ピクセルに対応する前記第2座標マップを推定するステップとをさらに含むことができる。
前記学習させるステップは、前記第1GANロスに基づいて、前記合成イメージから抽出された前記第1フィーチャー及び前記実際イメージから抽出された前記第2フィーチャーを区分する第1弁別器と前記第1ネットワークを学習させるステップを含むことができる。
前記学習させるステップは、前記第2GANロスに基づいて、前記合成イメージで推定された前記第1座標マップ及び前記実際イメージで推定された第2座標マップを区分する第2弁別器と前記第2ネットワークを学習させるステップを含むことができる。
前記学習させるステップは、前記第1ロスに基づいて決定されたグラジエントを前記第1ネットワーク及び前記第2ネットワークに繰り返し逆伝播させるステップを含むことができる。
前記学習させるステップは、前記第2ロスに基づいて決定されたグラジエントを前記第1ネットワーク及び前記第2ネットワークに繰り返し逆伝播させるステップを含むことができる。
前記グローバル測位モデルの学習方法は、前記第1ネットワーク及び前記第2ネットワークのうち少なくとも1つの学習に応答して、入力イメージを前記第1ネットワークに印加し、フィーチャーを抽出するステップと、前記抽出されたフィーチャーを前記第2ネットワークに印加し、前記入力イメージに対応する座標マップを推定するステップと、前記推定された座標マップに基づいて、前記入力イメージに対応するポーズを推定するステップとをさらに含むことができる。
一実施形態に係るグローバル測位装置は、入力イメージをグローバル測位モデルの第1ネットワークに印加して前記入力イメージのフィーチャーを抽出し、前記抽出されたフィーチャーを前記グローバル測位モデルの第2ネットワークに印加して前記入力イメージに対応する座標マップを推定し、前記推定された座標マップを前記グローバル測位モデルのポーズ推定器に印加してグローバル測位結果に対応するポーズを推定する、少なくとも1つのプロセッサを含み、前記グローバル測位モデルは、3次元マップデータに基づいて、合成データセット(前記合成データセットは任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び前記合成イメージの各ピクセルに対応する3次元座標データを含む)を決定するステップと、前記第1ネットワーク及び前記第2ネットワークのパラメータをアップデートするために、前記グローバル測位モデルに関する少なくとも1つのロスに基づいて決定されたグラジエントを繰り返し逆伝播させるステップを行うことにより製造(又は構築)され、前記グローバル測位モデルに関するロスは、前記合成イメージに基づいて前記第1ネットワークから抽出された第1フィーチャー、及び実際イメージに基づいて前記第1ネットワークから抽出された第2フィーチャーに基づいて決定された第1GANロスと、前記第1フィーチャーに基づいて前記第2ネットワークで推定された第1座標マップ、及び前記第2フィーチャーに基づいて前記第2ネットワークで推定された第2座標マップに基づいて決定された第2GANロスのうち少なくとも1つを含む。
前記グローバル測位モデルに関するロスは、前記第1座標マップ及び前記合成イメージに対応する正解データに基づいて決定された第1ロスと、前記第1座標マップに基づいて前記ポーズ推定器で推定された第1ポーズ及び前記合成イメージに対応する正解データに基づいて決定された第2ロスのうち少なくとも1つをさらに含むことができる。
前記繰り返し逆伝播させるステップは、前記第1GANロスに基づいて、第1弁別器に前記第1フィーチャーを入力して決定されたグラジエントを前記第1弁別器及び前記第1ネットワークに繰り返し逆伝播させるステップと、前記第1GANロスに基づいて、前記第1弁別器に前記第2フィーチャーを入力して決定されたグラジエントを前記第1弁別器及び前記第1ネットワークに繰り返し逆伝播させるステップとを含み、前記第1弁別器は、前記合成イメージから抽出された前記第1フィーチャーに基づいて前記合成イメージを指示する値を出力し、前記実際イメージから抽出された前記第2フィーチャーに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含むことができる。
前記繰り返し逆伝播させるステップは、前記第2GANロスに基づいて、第2弁別器に前記第1座標マップを入力して決定されたグラジエントを前記第2弁別器及び前記第2ネットワークに繰り返し逆伝播させるステップと、前記第2GANロスに基づいて、前記第2弁別器に前記第2座標マップを入力して決定されたグラジエントを前記第2弁別器及び前記第2ネットワークに繰り返し逆伝播させるステップとを含み、前記第2弁別器は、前記合成イメージで推定された前記第1座標マップに基づいて前記合成イメージを指示する値を出力し、前記実際イメージで推定された前記第2座標マップに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含むことができる。
前記グローバル測位装置は、前記少なくとも1つのプロセッサによって実行される命令を格納するメモリをさらに含み、前記命令は、前記少なくとも1つのプロセッサにより前記入力イメージのフィーチャーが抽出され、前記入力イメージに対応する座標マップを推定し、前記グローバル測位結果に対応するポーズを推定する動作を実行させることができる。
一実施形態に係るコンピュータ読み出し可能な記録媒体に格納されたグローバル測位器において、前記グローバル測位器は、3次元マップデータに基づいて、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び前記合成イメージの各ピクセルに対応する3次元座標データを決定するステップと、前記グローバル測位器に含まれているニューラルネットワークのパラメータをアップデートするために、前記グローバル測位器に関する少なくとも1つのロスに基づいて決定されたグラジエントを繰り返し逆伝播させるステップと、前記ニューラルネットワークのパラメータを前記記録媒体に格納するステップを行うことにより製造され、前記グローバル測位器に含まれているニューラルネットワークは、入力イメージのフィーチャーを抽出する第1ネットワーク、及び前記第1ネットワークの出力に基づいて前記入力イメージの座標マップを推定する第2ネットワークを含み、前記グローバル測位器に関する少なくとも1つのロスは、前記合成イメージに基づいて前記第1ネットワークから抽出された第1フィーチャー、及び実際イメージに基づいて前記第1ネットワークから抽出された第2フィーチャーに基づいて決定された第1GANロスと、
前記第1フィーチャーに基づいて前記第2ネットワークで推定された第1座標マップ、及び前記第2フィーチャーに基づいて前記第2ネットワークで推定された第2座標マップに基づいて決定された第2GANロスのうち少なくとも1つを含む。
前記第1フィーチャーに基づいて前記第2ネットワークで推定された第1座標マップ、及び前記第2フィーチャーに基づいて前記第2ネットワークで推定された第2座標マップに基づいて決定された第2GANロスのうち少なくとも1つを含む。
前記グローバル測位器に関する少なくとも1つのロスは、前記第1座標マップ及び前記合成イメージに対応する正解データに基づいて決定された第1ロスと、前記第1座標マップに基づいて推定された第1ポーズ及び前記合成イメージに対応する正解データに基づいて決定された第2ロスのうち少なくとも1つをさらに含むことができる。
前記繰り返し逆伝播させるステップは、前記第1GANロスに基づいて、第1弁別器に前記第1フィーチャーを入力して決定されたグラジエントを前記第1弁別器及び前記第1ネットワークに繰り返し逆伝播させるステップと、前記第1GANロスに基づいて、前記第1弁別器に前記第2フィーチャーを入力して決定されたグラジエントを前記第1弁別器及び前記第1ネットワークに繰り返し逆伝播させるステップとを含み、前記第1弁別器は、前記合成イメージから抽出された前記第1フィーチャーに基づいて前記合成イメージを指示する値を出力し、前記実際イメージから抽出された前記第2フィーチャーに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含むことができる。
前記繰り返し逆伝播させるステップは、前記第2GANロスに基づいて、第2弁別器に前記第1座標マップを入力して決定されたグラジエントを前記第2弁別器及び前記第2ネットワークに繰り返し逆伝播させるステップと、前記第2GANロスに基づいて、前記第2弁別器に前記第2座標マップを入力して決定されたグラジエントを前記第2弁別器及び前記第2ネットワークに繰り返し逆伝播させるステップとを含み、前記第2弁別器は、前記合成イメージで推定された前記第1座標マップに基づいて前記合成イメージを指示する値を出力し、前記実際イメージで推定された前記第2座標マップに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含むことができる。
本発明によると、グローバル測位のためのニューラルネットワークの学習方法の改善を介して2D-3Dマッチングを推定し、機器のグローバル測位を算出する技術の正確度及び活用度を改善することができる。
本発明によると、グローバル測位のためのニューラルネットワークを学習する過程において、3Dマップから取得可能な合成イメージを学習データとして使用し、イメージを撮影した機器の正確なポーズ情報がラベリングされた学習データを取得し難しいという問題を解決することができる。
本発明によると、グローバル測位のためのニューラルネットワークを学習する過程において、GANに基づいたドメイン適応を用いて合成イメージで学習されたモデルの実際イメージに対する性能が低下するという問題を解決することができる。
以下、添付する図面を参照しながら実施形態を詳細に説明する。添付図面を参照して説明するにおいて、図面符号に関係なく同じ構成要素には同じ参照符号を付与し、これに対する重複する説明は省略することにする。
図1は、一実施形態に係るグローバル測位(global localization)モデル100のフレームワークを例示する図である。
図1を参照すると、一実施形態に係るグローバル測位モデル(又は、グローバル測位器)100は、イメージ101(例えば、1つ以上のイメージ)が入力され、グローバル測位結果に該当するポーズ102を出力するグローバル測位方法を行うモデルである。グローバル測位モデル100は、学習されたニューラルネットワーク(neural network)の第1ネットワーク110及び第2ネットワーク120を含み、ポーズ推定器130を含む。以下で、グローバル測位モデル100は、簡略に「モデル」のように称する。
一実施形態に係るイメージ101は、3次元の空間に位置しているオブジェクトを2次元の平面に投影した像であって、撮影位置及び撮影角度に応じてイメージに投影されたオブジェクトの形状が変わり得る。
例えば、図2を参照すると、3次元の空間に位置しているオブジェクト201を特定位置及び特定角度で撮影し、2次元の平面に投影されたイメージ202が取得され得る。撮影位置及び/又は撮影角度が変わると、イメージ202に含まれているオブジェクト201の形状は変わり得る。イメージ202に含まれているオブジェクト201の形状は、オブジェクトの撮影位置及び撮影角度、言い換えれば、オブジェクト201を撮影又は検出した機器203のポーズに応じてオブジェクト201の実際の形状が投影変換されたものである。
再び図1を参照すると、モデル100は、入力されたイメージ101に投影されたオブジェクトの3次元の空間に対応する3次元の座標が分かる場合、オブジェクトの撮影位置及び撮影角度(例えば、オブジェクトを撮影又は検出した機器のポーズ)を推定することができる。モデル100は、学習されたニューラルネットワーク110,120に基づいてオブジェクトの投影を含むイメージの各ピクセルに対応する3次元座標(以下、座標マップ)を推定することができる。モデル100は、ポーズ推定器130に基づいてイメージ101内のピクセルの2次元座標と該当ピクセルに対応する3次元座標の関係に基づいて、入力されたイメージ101を撮影した機器のポーズ102を推定することができる。
一実施形態に係るグローバル測位モデル100は、学習によってパラメータが決定された少なくとも1つのレイヤを含むニューラルネットワークである第1ネットワーク110及び第2ネットワーク120を含む。
一実施形態に係るグローバル測位モデル100に基づいたグローバル測位方法は、入力イメージ101を第1ネットワーク110に印加し、フィーチャーを抽出するステップ、抽出されたフィーチャーを第2ネットワーク120に印加し、入力イメージ101に対応する座標マップを推定するステップ、及び推定された座標マップをポーズ推定器130に印加することにより、入力イメージ101に対応するポーズ102を推定するステップを含む。
一実施形態によれば、第1ネットワーク110は、入力されたイメージからフィーチャー(feature)を抽出するように学習されたニューラルネットワークである。
一実施形態によれば、第2ネットワーク230は、第1ネットワーク110から抽出されたフィーチャーに基づいて、入力されたイメージ101に対応する座標マップを推定するように学習されたニューラルネットワークに該当する。座標マップは、イメージの各ピクセルに対応する3次元空間内の領域の3次元座標である。
例えば、図3を参照すると、イメージ310に含まれているピクセル311は、3次元空間内の点321に対応し、該当ピクセル311に対応する3次元空間内の点321の3次元座標値は(xp、yp、zp)に該当する。座標マップ320は、イメージ310に含まれているピクセル(p={pi、j|i=0、1、…、n、j=0、1、…、m})に対応する元素(c={ci、j|i=0、1、…、n、j=0、1、…、m})の行列を含んでもよく、各ピクセル(pi、j)に対応する元素(ci、j)の値は、該当ピクセルに対応する3次元座標(ci、j=[xi、j、yi、j、zi、j])に該当する。
再び図1を参照すると、一実施形態に係るポーズ推定器130は、第2ネットワーク120で推定された座標マップに基づいて、入力されたイメージ101に対応するポーズ102を推定することができる。例えば、ポーズ推定器130は、座標マップが入力され、ポーズ102を出力するsolvePnP(Perspective-n-Point)関数を含んでもよい。ポーズ推定器130から出力されるポーズ102は、入力されたイメージ101を撮影、又は、検出した機器の位置情報及び方向情報を含む。例えば、機器は、カメラ、カメラを含む装置、画像センサを含む装置を含んでもよい。
一実施形態に係るポーズ102は6DOFポーズを含む。6DOFポーズは、垂直、水平、及び深度方向の互いに直交する3つの軸に対する3次元の位置情報、及び3つの軸に対する傾き程度に関する方向情報を含む。
例えば、図4を参照すると、グローバル測位モデルは、イメージ内のピクセルの2次元座標と該当ピクセルに対応する3次元座標の関係に基づいて、オブジェクト401の投影を含むイメージを撮影した機器(例えば、カメラ)402の該当オブジェクト401が位置している空間における位置情報及び方向情報を含む6DOFポーズを推定することができる。
一実施形態によれば、グローバル測位モデル100は、学習されたニューラルネットワークである第1ネットワーク110及び第2ネットワーク120を含み、第1ネットワーク110及び第2ネットワーク120は、逆伝播アルゴリズムによる学習過程によって決定されたパラメータを含む。
言い換えれば、一実施形態に係るグローバル測位モデル100は、3次元マップデータに基づいて、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び合成イメージの各ピクセルに対応する3次元座標データを取得するステップと、グローバル測位モデルに含まれているニューラルネットワークである第1ネットワーク110及び第2ネットワーク120のパラメータをアップデートするために、グローバル測位モデルに関する少なくとも1つのロス(又は損失)(loss)に基づいて取得されたグラジエントを繰り返し逆伝播させるステップと、第1ネットワーク110及び第2ネットワーク120のパラメータを格納するステップとを含むグローバル測位モデルの学習過程によって生成又は製造されることができる。
一例として、第1ネットワーク110及び/又は第2ネットワーク120は、学習データに含まれているイメージに対応する正解データを出力するよう学習されてもよい。学習データに含まれているイメージは、該当イメージに対応する正確な座標マップ及び該当イメージに対応する正確なポーズでラベリング(labeling)された合成イメージを含む。合成イメージは、3次元マップデータに基づいて仮想のカメラで撮影されたイメージを仮定して生成されたイメージであって、実際の空間を実際のカメラで撮影した実際イメージ(real image)と区分される。制限されない例として、合成イメージを含む学習データについては以下で詳細に説明する。
一実施形態によれば、第1ネットワーク110及び第2ネットワーク120のうち少なくとも1つは、学習データに含まれている合成イメージに基づいて第2ネットワーク120により推定された座標マップ、及び学習データに含まれている合成イメージ(synthetic image)に対応する正解データに基づいて取得された第1ロス及び合成イメージに基づいてポーズ推定器130で推定されたポーズ及び学習データに含まれている合成イメージに対応する正解データに基づいて取得された第2ロスのうち少なくとも1つに基づいて学習されることができる。学習データに含まれている合成イメージに対応する正解データは、該当合成イメージに対応する座標マップのグラウンドトルース(ground truth;GT)及び該当合成イメージに対応するポーズのグラウンドトルースを含む。制限されない例として、第1ロス及び/又は第2ロスに基づいてグローバル測位モデルを学習する具体的な方法について以下で詳細に説明する。
また、一例として、第1ネットワーク110及び/又は第2ネットワーク120は、実際イメージと合成イメージとを区分する弁別器(又は識別器)(discriminator)によるGANロスに基づいて弁別器と敵対的に学習されてもよい。より具体的に、第1ネットワーク110及び第2ネットワーク120のうち少なくとも1つは、第1GANロス及び第2GANロスのうち少なくとも1つに基づいて学習され得る。第1GANロスは、3次元マップデータによって取得された合成イメージに基づいて、第1ネットワーク110から抽出された第1フィーチャー及び実際イメージに基づいて第1ネットワーク110から抽出された第2フィーチャーに基づいて取得されたロスである。第2GANロスは、第1フィーチャーに基づいて第2ニューラルネットワーク120で推定された第1座標マップ、及び第2フィーチャーに基づいて第2ニューラルネットワーク120で推定された第2座標マップに基づいて取得されたロスである。第1GANロス及び/又は第2GANロスに基づいてグローバル測位モデルを学習する具体的な方法については以下で詳細に説明する。
図5は、一実施形態に係るグローバル測位モデルの学習方法のフレームワークを例示する図である。
図5を参照すると、一実施形態に係るグローバル測位モデルの学習データは、合成データセット501及び実際イメージ505を含む。合成データセット501は、任意のポーズに対応する仮想のカメラで撮影された合成イメージ504、及び合成イメージ504の各ピクセルに対応する3次元座標データを含む。合成イメージ504の各ピクセルに対応する3次元座標データは、合成イメージ504に対応する座標マップの正解データ(又は、GT座標マップ)503に該当する。一実施形態によれば、合成データセット501に含まれている合成イメージ504は、合成イメージ504を撮影した仮想カメラのポーズ情報が分かる。言い換えれば、合成データセット501は、合成イメージ504に対応するポーズの正解データ(又は、GTポーズ)502をさらに含むことができる。言い換えれば、一実施形態に係る合成データセット501に含まれている合成イメージ504は、座標マップの正解データ503及びポーズの正解データ502にラベリングされ得る。
一実施形態によれば、合成データセット501は、3次元マップデータに基づいて取得されることができる。例えば、図6Aを参照すると、3次元マップデータ610は、任意の空間に対応するポイントクラウド611を含む。言い換えれば、3次元マップデータ610は、任意の空間に含まれている少なくとも1つのオブジェクトを3次元の仮想の空間内の点の集合であるポイントクラウド611でモデリングしたデータに該当する。例えば、図6Bを参照すると、ポイントクラウドに含まれている点は、3次元の仮想の空間内の特定位置621を原点にする3次元の座標系620に示され、各点に対応する3次元の座標は、該当点の3次元空間内の位置を意味するものとして理解される。一実施形態に係るポイントクラウドに含まれている点は、位置を指示する3次元座標及び色を指示するRGB値を含む。
再び図5を参照すると、一実施形態に係る3次元マップデータに基づいて、任意のポーズに対応する仮想のカメラで撮影された合成イメージ504が取得されることができる。合成イメージ504は、3次元マップデータに対応する空間の特定位置に特定角度に配置されている仮想のカメラで3次元マップデータに含まれているオブジェクトを撮影したものと仮定して合成されたオブジェクトの投影イメージである。言い換えれば、合成イメージ504は、3次元マップデータに含まれている一部の点を投影変換することによって、生成したイメージで実際の空間を実際のカメラで撮影して生成された実際イメージ505と区分することができる。投影変換は、仮想のカメラの位置及び角度に基づいて決定され得る。一実施形態によれば、合成イメージ504は、合成イメージ504に投影された点のRGB値に基づいた色情報をさらに含み得る。
一実施形態に係る合成イメージ504は、各ピクセルに対応する領域の3次元マップデータ内の3次元座標値を正確に把握することができるため、合成イメージ504に対応する座標マップの正解データ503が取得され得る。また、一実施形態に係る合成イメージ504は、3次元のマップデータに基づいて、仮想のカメラの配置を仮定して生成されたイメージであるため、合成イメージ504を撮影した仮想の機器のポーズを正確に把握することができることから、合成イメージ504に対応するポーズの正解データ502も取得され得る。
一実施形態によれば、合成データセット501は、合成イメージ504及び合成イメージ504に対応するGT座標503マップ及びGTポーズ502を含んでいるため、学習過程で第2ネットワーク520により推定された座標マップに関する第1ロス506、及びポーズ推定器530により推定されたポーズに関する第2ロス507が算出されることができる。
一実施形態によれば、第1ロス506は、合成イメージ504に基づいて第2ネットワーク520から出力された第1座標マップ、及び合成イメージ504に対応するGT座標マップ503に基づいて取得される。第1座標マップは、合成イメージ504に基づいて第1ネットワーク510から出力された第1フィーチャーが、第2ネットワーク520に印加された結果から出力されてもよい。一例として、第1ロス506に基づいて取得されたグラジエント(又は勾配)(gradient)は、第1ネットワーク510及び第2ネットワーク520に繰り返し逆伝播されることで、第1ネットワーク510及び第2ネットワーク520の加重値が更新され得る。第1ロス506に基づいて取得されたグラジエントは、第2ネットワークで合成イメージ504に基づいて出力された第1座標マップと合成イメージ504に対応するGT座標マップ503との差により取得されたグラジエントに対応する。
一実施形態によれば、第2ロス507は、合成イメージ504に基づいてポーズ推定器530から出力された第1ポーズ、及び合成イメージ504に対応するGTポーズ502に基づいて取得されることができる。第1ポーズは、合成イメージ504に基づいて第2ネットワーク520から出力された第1座標マップが、ポーズ推定器530に入力された結果から出力され得る。一例として、第2ロス507に基づいて取得されたグラジエントは、第1ネットワーク510及び第2ネットワーク520に繰り返し逆伝播されることで、第1ネットワーク510及び第2ネットワーク520の加重値が更新され得る。第2ロス507に基づいて取得されたグラジエントは、ポーズ推定器530で合成イメージ504に基づいて出力された第1ポーズと合成イメージ504に対応するGTポーズ502との差により取得されたグラジエントに対応する。
一例として、第2ネットワーク520の加重値をwsとするとき、wsはGT座標マップとの差を最小化する過程と、例えば、GTポーズとの差を最小化する2つの過程を経て学習され得る。例えば、GT座標マップとの差を最小化する過程とGTポーズとの差を最小化する2つの過程に対する式は、それぞれの下記の数式(1)及び(2)のように定義されることができる。
数式(1)において、fは第1ネットワーク510の出力、Sは第2ネットワーク520、s=S(f;w)は、第2ネットワーク520の加重値であるwによってfから出力された座標マップ、s*はGT座標マップ、Lsは第1ロス506である。第1ロス506Lsは、第2ネットワーク520で推定された座標マップsとGT座標マップs*との間の誤差として、合成イメージ504に含まれているピクセルiに対して推定されたsi及び正解データであるsi *のノルマ(norm)の和として定義される。
数式(2)において、Pはポーズ推定器、p=P(S(f;w))は、第2ネットワーク520から出力された座標マップs=S(f;w)に基づいてポーズ推定器530で出力されたポーズ、Lpは第2ロス507である。第2ロス507Lpは、ポーズ推定器530で推定されたポーズpとGTポーズp*との間の誤差として、回転誤差(rotation error)∠(θ、θ*)と平行移動誤差(translation error)||t-t*||のうち最大値に決定されることができる。
一実施形態によれば、合成データセット501についてのみグローバル測位モデルの学習を行う場合、合成イメージ504と他のドメインに該当する実際イメージ505に対しては、グローバル測位の性能が低下する。一実施形態によれば、グローバル測位モデルの合成イメージ504と実際イメージ505との間のドメインギャップ(domain gap)を低減するために、第1弁別器540及び第2弁別器550を用いて学習過程をさらに行うことができる。
一実施形態によれば、第1弁別器540は、第1ネットワーク510の出力であるフィーチャーのドメイン分類を実行し、第2弁別器550は、第2ネットワーク520の出力である座標マップのドメイン分類を行う。ドメイン分類は、入力データが合成イメージ504に対応するものであるか、又は、実際イメージ505に対応するものであるかを判断する動作である。
例えば、第1弁別器540は、合成イメージ504から抽出されたフィーチャーに基づいて合成イメージ504を指示する値を出力し、実際イメージ505から抽出されたフィーチャーに基づいて、実際イメージ505を指示する値を出力するためのニューラルネットワークを含む。第1弁別器540は、入力されたフィーチャーが合成イメージ504から抽出されたフィーチャーと判断される場合、合成イメージ504を指示する値(例えば、1)を出力し、入力されたフィーチャーが実際イメージ505から抽出されたフィーチャーであると判断される場合、実際イメージ505を指示する値(例えば、0)を出力するよう学習されることができる。
例えば、第2弁別器550は、合成イメージ504で推定された座標マップに基づいて合成イメージ504を指示する値を出力し、実際イメージ505で推定された座標マップに基づいて実際イメージ505を指示する値を出力するためのニューラルネットワークを含んでもよい。第2弁別器550は、入力された座標マップが合成イメージ504に基づいて推定された座標マップであると判断される場合、合成イメージ504を指示する値(例えば、1)を出力し、入力された座標マップが実際イメージ505に基づいて推定された座標マップと判断される場合、実際イメージ505を指示する値(例えば、0)を出力するように学習されることができる。
一実施形態によれば、第1ネットワーク510は、第1GANロス508に基づいて、第1弁別器540と敵対的に学習されてもよい。第1GANロス508は、合成イメージ504に基づいて第1ネットワーク510から抽出された第1フィーチャー、及び実際イメージ505に基づいて第1ネットワーク510から抽出された第2フィーチャーに基づいて取得されることができる。より具体的に、第1GANロス508は、グローバル測位モデルに合成イメージ504が入力された場合、第1フィーチャーに基づいて第1弁別器540から出力された結果と、第1フィーチャーに対応するドメイン分類の正解データである合成イメージ504を指示する値の差に基づいて算出されることができる。第1GANロス508は、グローバル測位モデルに実際イメージ505が入力された場合、第2フィーチャーに基づいて第1弁別器540から出力された結果と、第2フィーチャーに対応するドメイン分類の正解データである実際イメージ505を指示する値の差に基づいて算出されることができる。
一例として、第1GANロス508に基づいて取得されたグラジエントは、第1弁別器540及び第1ネットワーク510に繰り返し逆伝播されることで、第1弁別器540及び第1ネットワーク510の加重値が更新され得る。第1GANロス508に基づいて取得されたグラジエントは、第1弁別器540で入力されたフィーチャーに基づいて出力されたドメイン分類結果と、入力されたフィーチャーに対応するドメイン分類の正解データの差によって取得されたグラジエントに対応する。例えば、第1GANロス508に基づいて、第1弁別器540は、入力されたフィーチャーに基づいてドメイン分類の正解データを出力するように学習され、第1ネットワーク510は、第1弁別器540がドメイン分類を実行し難しいフィーチャーを抽出するように学習されることができる(例えば、第1ネットワーク510は、抽出された特徴に基づいて第1弁別器540によって実行されたドメイン分類の正確度が所定の閾値未満である特徴を抽出するよう学習されることができる)。
一実施形態によれば、学習過程において、合成イメージ504及び実際イメージ505は、グローバル測位モデルに交互に入力されてもよい。一例として、合成イメージ504が入力されることで第1GANロス508に基づいて第1フィーチャーを第1弁別器540に入力して取得されたグラジエントを逆伝播させる過程、及び実際イメージ505が入力されることで第1GANロス508に基づいて第2フィーチャーを第1弁別器540に入力して取得されたグラジエントを逆伝播させる過程は、交互に実行されてもよい。また、一例として、合成イメージ504が入力されることで第2GANロス509に基づいて第1座標マップを第2弁別器550に入力して取得されたグラジエントを逆伝播させる過程、及び実際イメージ505が入力されることで第2GANロス509に基づいて第2座標マップを第2弁別器550に入力して取得されたグラジエントを逆伝播させる過程は、交互に実行されてもよい。
一実施形態によれば、第2ネットワーク520は、第2GANロス509に基づいて、第2弁別器550と敵対的に学習されてもよい。第2GANロス509は、第1フィーチャーに基づいて第2ネットワーク520で推定された第1座標マップ、及び第2フィーチャーに基づいて第2ネットワーク520で推定された第2座標マップに基づいて取得されることができる。詳説したように、第1フィーチャーは、第1ネットワーク510で合成イメージ504に基づいて出力されたフィーチャーであり、第2フィーチャーは、第1ネットワーク510で実際イメージ505に基づいて出力されたフィーチャーである。より具体的に、第2GANロス509は、グローバル測位モデルに合成イメージ504が入力された場合、第1座標マップに基づいて第2弁別器550から出力された結果と、第1座標マップに対応するドメイン分類の正解データである合成イメージ504を指示する値の差に基づいて算出されることができる。第2GANロス509は、グローバル測位モデルに実際イメージ505が入力された場合、第2座標マップに基づいて第2弁別器550から出力された結果と、第2座標マップに対応するドメイン分類の正解データである実際イメージ505を指示する値の差に基づいて算出されることができる。
一例として、第2GANロス509に基づいて取得されたグラジエントは、第2弁別器550及び第2ネットワーク520に繰り返し逆伝播されることによって、第2弁別器550及び第2ネットワーク520の加重値が更新され得る。第2GANロス509に基づいて取得されたグラジエントは、第2弁別器550で入力された座標マップに基づいて出力されたドメイン分類結果と入力された座標マップに対応するドメイン分類の正解データの差によって取得されたグラジエントに対応する。例えば、第2GANロス509に基づいて、第2弁別器550は、入力された座標マップに基づいてドメイン分類の正解データを出力するように学習され、第2ネットワーク520は、第2弁別器550がドメイン分類を実行し難しい座標マップを抽出するように学習される(例えば、第2ネットワーク520は、抽出された座標マップに基づいて第2弁別器550によって実行されたドメイン分類の正確度が、所定の閾値未満の座標マップを抽出するように学習され得る)。
一実施形態によれば、第2GANロス509のグラジエントは、第2弁別器550及び第2ネットワーク520だけでなく、第1ネットワーク510にも逆伝播され、これにより第1ネットワーク510の加重値が更新され得る。
一実施形態によれば、第1GANロス508に基づいて取得されたグラジエントの逆伝播過程は、第1GANロス508に基づいて第1弁別器540に第1フィーチャーを入力して取得された出力に対応する誤差のグラジエントを第1弁別器540及び第1ネットワーク510に逆伝播させる過程、及び第1GANロス508に基づいて第1弁別器540に第2フィーチャーを入力して取得された出力に対応する誤差のグラジエントを第1弁別器540及び第1ネットワーク510に繰り返し逆伝播させる過程を含む。一例として、第1弁別器540に第1フィーチャーを入力して取得された出力に対応する誤差のグラジエント、及び第1弁別器540に第2フィーチャーを入力して取得された出力に対応する誤差のグラジエントは、交互に逆伝播されてもよい。
一実施形態によれば、第1ネットワーク510及び第2ネットワーク520のうち少なくとも1つを学習させるステップは、第2GANロス509に基づいて合成イメージ504で推定された座標マップ及び実際イメージ505で推定された座標マップを区分する第2弁別器550と第2ネットワーク520を学習させるステップを含む。第2GANロス509は、第1フィーチャーに基づいて第2ネットワーク520で推定された第1座標マップ、及び第2フィーチャーに基づいて第2ネットワーク520で推定された第2座標マップに基づいて取得されたロスを含む。一例として、合成イメージ504及び実際イメージ505は交互にモデルに入力され、第2GANロス509に基づいて取得された誤差のグラジエントは、第2弁別器550及び第2ネットワーク520に繰り返し逆伝播されてもよい。
一実施形態によれば、第2GANロス509に基づいて取得された誤差のグラジエントの逆伝播過程は、第2GANロス509に基づいて第2弁別器550に第1フィーチャーを入力して取得された出力に対応する誤差のグラジエントを第2弁別器550及び第2ネットワーク520に逆伝播させる過程、及び第2GANロス509に基づいて第2弁別器550に第2フィーチャーを入力して取得された出力に対応する誤差のグラジエントを第2弁別器550及び第2ネットワーク520に繰り返し逆伝播させる過程を含むことができる。一例として、合成イメージ504及び実際イメージ505は交互にモデルに入力され、第2弁別器550に第1フィーチャーを入力して取得された出力に対応する誤差のグラジエント、及び第2弁別器550に第2フィーチャーを入力して取得された出力に対応する誤差のグラジエントは交互に逆伝播されてもよい。
一例として、一実施形態に係る第1弁別器540の加重値をwD1といい、第2弁別器550の加重値をwD2とするとき、wD1及びwD2はそれぞれドメイン分類の正解データとの差を最小化する過程を経て学習され、例えば、2つの過程に対する式は、それぞれの下記の数式(3)及び(4)のように定義されることができる。
数式(3)及び(4)において、d*∈{0、1}はドメイン分類の正解データであって、合成イメージ504又は実際イメージ505を指示する2進変数(binary variable)を使用でき、D1は第1弁別器540、D1(f;w)は、入力されたフィーチャーfに基づいて第1弁別器540から出力されたドメイン分類結果、LD1は第1GANロス508、D2は第2弁別器550、D2(s;w)は、入力された座標マップsに基づいて第2弁別器550から出力されたドメイン分類結果、LD2は第2GANロス509に該当する。第1GANロス508 LD1及び第2GANロス509 LD2は、2進クロスエントロピー(binary cross entropy)を使用することができる。
上述したように、第1GANロス508に基づいて、第1ネットワーク510は、第1弁別器540と敵対的に学習され、第1ロス506及び第2ロス507に基づいて学習されることができる。一例として、第1ネットワーク510の学習過程は、第1GANロス508及び第1ロス506に基づいて第1ネットワーク510の加重値をアップデートするための学習過程、及び第1GANロス508及び第2ロス507に基づいて第1ネットワーク510の加重値をアップデートするための学習過程の2つのステップにおいて、それぞれ数式(5)及び(6)のように定義されることができる。
上述したように、第2GANロス509に基づいて、第2ネットワーク520は、第2弁別器550と敵対的に学習され、第1ロス506及び第2ロス507に基づいて学習されることができる。一例として、第2ネットワーク520の学習過程は、第2GANロス509及び第1ロス506に基づいて第2ネットワーク520の加重値をアップデートするための学習過程、及び第2GANロス509及び第2ロス507に基づいて第2ネットワーク520の加重値をアップデートするための学習過程の2つのステップにおいて、それぞれ数式(7)及び(8)のように定義されることができる。
上述したように、第2GANロス509のグラジエントは、第2弁別器550及び第2ネットワーク520だけでなく、第1ネットワーク510にも逆伝播され、第1ネットワーク510は、第2GANロス509に基づいて第1ネットワーク510の加重値をアップデートするための学習過程が実行されることができる。
図7は、一実施形態に係るグローバル測位モデルの学習方法の動作フローチャートである。
図7を参照すると、一実施形態に係るグローバル測位モデルの学習方法は、3次元マップデータに基づいて、合成データセットを取得するステップS710、第1GANロスを取得するステップS720、第2GANロスを取得するステップS730、第1ロスを取得するステップS740、第2ロスを取得するステップS750、及び第1ネットワーク及び第2ネットワークのうち少なくとも1つを学習させるステップS760を含む。一実施形態に係るグローバル測位モデルの学習方法の動作は、少なくとも1つのプロセッサによって実行されることができる。
一実施形態に係るステップS710は、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び合成イメージの各ピクセルに対応する3次元座標データを含む合成データセットを取得するステップを含む。上述したように、合成イメージの各ピクセルに対応する3次元座標データはGT座標マップに対応し、合成データセットは合成イメージに対応するGTポーズをさらに含む。
一実施形態に係るグローバル測位モデルの学習方法は、ステップS710以後に合成イメージを第1ネットワークに印加し、第1フィーチャーを抽出するステップ、抽出された第1フィーチャーを第2ネットワークに印加し、合成イメージの各ピクセルに対応する第1座標マップを推定するステップ、及び推定された第1座標マップに基づいて合成イメージに対応する第1ポーズを推定するステップをさらに含み、実際のカメラで撮影された実際イメージを第1ネットワークに印加して第2フィーチャーを抽出するステップ、及び抽出された第2フィーチャーを第2ネットワークに印加して実際イメージの各ピクセルに対応する第2座標マップを推定するステップをさらに含むことができる。
一実施形態に係る第1GANロスを取得するステップS720は、合成イメージを第1ネットワークに印加して取得された第1フィーチャー、及び実際イメージを第1ネットワークに印加して取得された第2フィーチャーに基づいて、第1GANロスを取得するステップを含むことができる。
一実施形態に係る第2GANロスを取得するステップS730は、第1フィーチャーを第2ネットワークに印加して取得された第1座標マップ、及び第2フィーチャーを第2ネットワークに印加して取得された第2座標マップに基づいて、第2GANロスを取得するステップを含むことができる。
一実施形態に係る第1ロスを取得するステップS740は、第1座標マップ及び合成イメージに対応する3次元座標データに基づいて、第1ロスを取得するステップを含むことができる。
一実施形態に係る第2ロスを取得するステップS750は、第1座標マップに基づいて推定された第1ポーズ及び仮想のカメラのポーズに基づいて第2ロスを取得するステップを含むことができる。
一実施形態に係る学習させるステップS760は、ステップは第1ロス、第2ロス、第1GANロス及び第2GANロスのうち少なくとも1つ(例えば、第1GANロス及び第2GANロスのいずれか1つ、又は、第1GANロス及び第2GANロス両方)に基づいて、第1ネットワーク及び第2ネットワークのうち少なくとも1つを学習させるステップを含む。一例として、ステップS760は、グローバル測位モデルに含まれているニューラルネットワーク(例えば、第1ネットワーク及び第2ネットワークのうち少なくとも1つ)のパラメータをアップデートするために、グローバル測位モデルに関する少なくとも1つのロス(例えば、第1ロス、第2ロス、第1GANロス及び第2GANロスのうち少なくとも1つ)に基づいて取得されたグラジエントを繰り返し逆伝播させるステップ、及びニューラルネットワークのパラメータを格納するステップを含む。ニューラルネットワークのパラメータは、グローバル測位モデルが格納された記録媒体又はメモリに格納され得る。
一実施形態によれば、学習させるステップS760は、第1GANロスに基づいて合成イメージから抽出されたフィーチャーと実際イメージから抽出されたフィーチャーとを区分する第1弁別器及び第1ネットワークを学習させるステップを含む。例えば、ステップS760は、第1GANロスに基づいて、第1弁別器に第1フィーチャーを入力して取得されたグラジエントを第1弁別器及び第1ネットワークに繰り返し逆伝播させるステップ、及び第1GANロスに基づいて第1弁別器に第2フィーチャーを入力して取得されたグラジエントを第1弁別器及び第1ネットワークに繰り返し逆伝播させるステップを含む。上述したように、1弁別器は合成イメージから抽出されたフィーチャーに基づいて合成イメージを指示する値を出力し、実際イメージから抽出されたフィーチャーに基づいて実際イメージを指示する値を出力するためのニューラルネットワークを含むことができる。
一実施形態によれば、学習させるステップS760は、第2GANロスに基づいて合成イメージで推定された座標マップと実際イメージで推定された座標マップとを区分する第2弁別器及び第2ネットワークを学習させるステップを含む。例えば、ステップS760は、第2GANロスに基づいて第2弁別器に第1座標マップを入力して取得されたグラジエントを第2弁別器及び第2ネットワークに繰り返し逆伝播させるステップ、及び第2GANロスに基づいて第2弁別器に第2座標マップを入力して取得されたグラジエントを第2弁別器及び第2ネットワークに繰り返し逆伝播させるステップを含む。詳説したように、第2弁別器は、合成イメージで推定された座標マップに基づいて合成イメージを指示する値を出力し、実際イメージで推定された座標マップに基づいて実際イメージを指示する値を出力するためのニューラルネットワークを含むことができる。
一例として、学習させるステップS760は、第1ロスに基づいて取得されたグラジエントを第1ネットワーク及び第2ネットワークに繰り返し逆伝播させるステップを含んでもよい。また、一例として、学習させるステップS760は、第2ロスに基づいて取得されたグラジエントを第1ネットワーク及び第2ネットワークに繰り返し逆伝播させるステップを含んでもよい。
図8は、一実施形態に係るグローバル測位モデル800のフレームワークを例示する図である。
図8を参照すると、一実施形態に係るグローバル測位モデル800は、イメージ801が入力され、グローバル測位結果に該当するポーズ802を出力するグローバル測位方法を行うモデルである。グローバル測位モデル800は、学習されたニューラルネットワークを含み、ニューラルネットワークは第1ネットワーク810及び第3ネットワーク820を含む。
一実施形態によれば、グローバル測位モデル800の入力データであるイメージ801及び出力データであるポーズ802は、図1を参照して上述したグローバル測位モデル100の入力データであるイメージ101及び出力データであるポーズ102にそれぞれ対応する。
一実施形態に係る第1ネットワーク810は、入力されたイメージからフィーチャーを抽出するように学習されたニューラルネットワークであり、図1を参照して上述した第1ネットワーク110に対応する。
一実施形態によれば、第3ネットワーク820は、第1ネットワーク810から抽出されたフィーチャーに基づいて入力されたイメージ801に対応するポーズを推定するように学習されたニューラルネットワークである。図1を参照して上述したポーズ推定器130は、第2ネットワーク120の出力である座標マップが入力され、入力されたイメージ101に対応するポーズ102をPnPアルゴリズムなどを介して推定するモジュールである一方、第3ネットワーク820は、第1ネットワーク810の出力であるフィーチャーが入力され、入力されたイメージ801に対応するポーズ802を推定するニューラルネットワークであることから、図8に示されたグローバル測位モデル800は、図1に示されたグローバル測位モデル100と差がある。
一実施形態によれば、グローバル測位モデル800に含まれている第1ネットワーク810及び第3ネットワーク820は、逆伝播アルゴリズムによる学習過程によって決定されたパラメータを含む。言い換えれば、一実施形態に係るグローバル測位モデル800は、3次元マップデータに基づいて任意のポーズに対応する仮想のカメラで撮影された合成イメージを取得するステップ、グローバル測位モデル800に含まれているニューラルネットワーク810,820のパラメータをアップデートするために、グローバル測位モデルに関する少なくとも1つのロスに基づいて取得されたグラジエントを繰り返し逆伝播させるステップ、及びニューラルネットワーク810,820のパラメータを格納するステップを含むグローバル測位モデルの学習過程によって生成又は製造されることができる。
一例として、第1ネットワーク810及び/又は第4ネットワーク820は、学習データに含まれているイメージに対応する正解データを出力するように学習されてもよい。一実施形態によれば、第1ネットワーク810及び第3ネットワーク820は、学習データに含まれている合成イメージに基づいて第3ネットワーク820で推定されたポーズ、及び学習データに含まれている合成イメージに対応する正解データに基づいて取得された第2ロスに基づいて学習されることができる。学習データに含まれている合成イメージに対応する正解データは、該当合成イメージに対応するポーズのグラウンドトルースを含む。第2ロスは、図1~図7を参照して上述した第2ロスに対応する。第2ロスに基づいてグローバル測位モデルを学習する具体的な方法については、以下で説明する。
また、一例として、第1ネットワーク810及び第3ネットワーク820は、実際イメージと合成イメージを区分する弁別器によるGANロス(loss)に基づいて弁別器と敵対的に学習されてもよい。より具体的に、第1ネットワーク810は、第1GANロスに基づいて学習されることができる。第1GANロスは、図1~図7を参照して上述した第1GANロスに対応する。言い換えれば、第1GANロスは、3次元マップデータによって取得された合成イメージに基づいて第1ネットワーク810から抽出された第1フィーチャー、及び実際イメージに基づいて第1ネットワーク810から抽出された第2フィーチャーに基づいて取得されたロスである。第1GANロスに基づいてグローバル測位モデルを学習する具体的な方法については、以下で詳細に説明する。
図9は、一実施形態に係るグローバル測位モデルの学習方法のフレームワークを例示する図である。
図9を参照すると、一実施形態に係るグローバル測位モデルの学習データは、合成データセット901及び実際イメージ903を含む。合成データセット901は任意のポーズに対応する仮想のカメラで撮影された合成イメージ903及び合成イメージ903に対応するポーズの正解データ(又は、GTポーズ)902を含む。上述したように、合成データセット901に含まれている合成イメージ903は、合成イメージ504を撮影した仮想カメラのポーズ情報が分かるため、ポーズの正解データ902にラベリングされることができる。
一実施形態によれば、第2ロス905は、図5を参照して上述した第2ロス507に対応する。言い換えれば、第2ロス905は、第3ネットワーク920で合成イメージ903に基づいて推定されたポーズ及び合成イメージ903に対応するポーズの正解データ902に基づいて取得されることができる。一例として、第2ロス902に基づいて取得されたグラジエントは、第1ネットワーク910及び第3ネットワーク920に繰り返し逆伝播されることで、第1ネットワーク910及び第3ネットワーク920の加重値が更新され得る。
一実施形態によれば、第1ネットワーク910は、第1GANロス906に基づいて、第1弁別器930と敵対的に学習されてもよい。第1弁別器930は、図5を参照して上述した第1弁別器540に対応する。言い換えれば、第1弁別器930は、入力されたフィーチャーが合成イメージ903から抽出されたフィーチャーであると判断される場合、合成イメージ903を指示する値(例えば、1)を出力し、入力されたフィーチャーが実際イメージ904から抽出されたフィーチャーであると判断される場合、実際イメージ904を指示する値(例えば、0)を出力するように学習されることができる。
一実施形態によれば、第1GANロス906は、図5を参照して上述した第1GANロス508に対応する。第1GANロス906に基づいて取得されたグラジエントは、第1弁別器930及び第1ネットワーク910に繰り返し逆伝播されることで、第1弁別器930及び第1ネットワーク910の加重値が更新され得る。例えば、第1GANロス906に基づいて第1弁別器930は、入力されたフィーチャーに基づいてドメイン分類の正解データを出力するように学習され、第1ネットワーク910は、第1弁別器930がドメイン分類を実行し難しいフィーチャーを抽出するように学習されることができる(例えば、第1ネットワーク910は、抽出された特徴に基づいて第1弁別器930によって実行されたドメイン分類の正確度が所定の閾値未満である特徴を抽出するように訓練されることができる)。
図10は、一実施形態に係るグローバル測位装置の構成の例示図である。
図10を参照すると、一実施形態に係るグローバル測位装置1000は、プロセッサ1001(例えば、1つ以上のプロセッサ)、メモリ1003(例えば、1つ以上のメモリ)、及び入出力装置1005を含む。装置1000は、例えば、ユーザデバイス(例えば、スマートフォン、パーソナルコンピュータ、タブレットPCなど)、ARglasses、サーバを含む。
一実施形態に係る装置1000は、グローバル測位モデルが記録されたメモリ1003を含む。グローバル測位モデルは、図1~図7を参照して上述したグローバル測位モデル、又は、図8~図9を参照して上述したグローバル測位モデルを含むことができる。一実施形態に係るメモリ703は、揮発性メモリまたは不揮発性メモリであってもよい。
以下では、メモリ703に記録されたグローバル測位モデルは、図1~図7を参照して上述したグローバル測位モデルであるものと例にして説明する。言い換えれば、グローバル測位モデルは、入力イメージのフィーチャーを抽出する第1ネットワーク、第1ネットワークの出力に基づいて入力イメージの座標マップを推定する第2ネットワーク、及び第2ネットワークの出力に基づいてグローバル測位結果に該当するポーズを推定するポーズ推定器を含む。
上述したように、グローバル測位モデルは、グローバル測位モデルの学習方法によって生成及び製造されることができる。例えば、グローバル測位モデルは、3次元来マップデータに基づいて合成データセットを取得するステップ、グローバル測位モデルに含まれているニューラルネットワークのパラメータをアップデートするために、グローバル測位モデルに関する少なくとも1つのロスに基づいて取得されたグラジエントを繰り返し逆伝播させるステップ、ニューラルネットワークのパラメータをメモリ1003に格納するステップによって製造又は生成されることができる。一例として、グローバル測位モデルに含まれているニューラルネットワークは、図1を参照して上述したように、第1ネットワーク及び第2ネットワークを含むことができる。また、一例として、グローバル測位モデルに含まれているニューラルネットワークは、図8を参照して上述したように第1ネットワーク及び第3ネットワークを含んでもよい。
一実施形態によれば、メモリ1003は、詳説したグローバル測位モデルが具現されたプログラムを格納することができ、プロセッサ1001は、メモリ1003に格納されたプログラムを実行し、装置1000を制御することができる。一例として、プロセッサ1001は、入力イメージを第1ネットワークに印加し、第1ネットワークで出力された入力イメージのフィーチャーを取得し、フィーチャーを第2ネットワークに印加し、第2ネットワークで出力された入力イメージに対応する座標マップを取得し、座標マップに基づいてポーズ推定器で出力された入力イメージに対応するポーズを取得することができる。プロセッサ1001は、図1~図9を参照して前述した動作の一部又は全てを行ってもよい。
一側面に係る装置1000は、入出力装置1005を介して外部装置(例えば、パーソナルコンピュータ、サーバ又はネットワーク)に接続され、データを交換することができる。例えば、装置1000は、入出力装置705を介してイメージを受信し、グローバル測位モデルの結果であるイメージに基づいて推定されたポーズを出力することができる。
以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。
上記で説明したハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、他の具現、他の実施形態および特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。
Claims (21)
- 入力イメージを第1ネットワークに印加し、フィーチャーを抽出するステップと、
前記抽出されたフィーチャーを第2ネットワークに印加し、前記入力イメージに対応する座標マップを推定するステップと、
前記推定された座標マップに基づいて、前記入力イメージに対応するポーズを推定するステップと、
を含み、
前記第1ネットワーク及び前記第2ネットワークのうち少なくとも1つは、
3次元マップデータによって決定された合成イメージに基づいて前記第1ネットワークから抽出された第1フィーチャー、及び実際イメージに基づいて前記第1ネットワークから抽出された第2フィーチャーに基づいて決定された第1GANロスと、
前記第1フィーチャーに基づいて前記第2ネットワークで推定された第1座標マップ、及び前記第2フィーチャーに基づいて前記第2ネットワークで推定された第2座標マップに基づいて決定された第2GANロスと、
のうち少なくとも1つに基づいて学習される、グローバル測位方法。 - 前記第1ネットワーク及び前記第2ネットワークのうち少なくとも1つは、
前記第1座標マップ及び前記合成イメージに対応する正解データに基づいて決定された第1ロスと、
前記第1座標マップに基づいて推定された第1ポーズ及び前記合成イメージに対応する正解データに基づいて決定された第2ロスと、
のうち少なくとも1つにさらに基づいて学習される、請求項1に記載のグローバル測位方法。 - 前記正解データは、前記合成イメージを撮影した仮想のカメラのポーズ及び前記合成イメージの各ピクセルに対応する3次元座標データを含む、請求項2に記載のグローバル測位方法。
- 前記ポーズは、前記入力イメージを撮影した機器の6DOFポーズを含む、請求項1に記載のグローバル測位方法。
- 第1ネットワーク及び第2ネットワークを含むグローバル測位モデルの学習方法であって、
3次元マップデータに基づいて、合成データセットであって、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び前記合成イメージの各ピクセルに対応する3次元座標データを含む合成データセットを決定するステップと、
前記合成イメージを前記第1ネットワークに印加して決定された第1フィーチャー、及び実際のカメラで撮影された実際イメージを前記第1ネットワークに印加して決定された第2フィーチャーに基づいて第1GANロスを決定するステップと、
前記第1フィーチャーを前記第2ネットワークに印加して決定された第1座標マップ、及び前記第2フィーチャーを前記第2ネットワークに印加して決定された第2座標マップに基づいて第2GANロスを決定するステップと、
前記第1座標マップ及び前記合成イメージに対応する前記3次元座標データに基づいて第1ロスを決定するステップと、
前記第1座標マップに基づいて推定された第1ポーズ及び前記仮想のカメラのポーズに基づいて第2ロスを決定するステップと、
前記第1ロス、前記第2ロス、前記第1GANロス、及び前記第2GANロスのうち少なくとも1つに基づいて、前記第1ネットワーク及び前記第2ネットワークのうち少なくとも1つを学習させるステップと、
を含む、グローバル測位モデルの学習方法。 - 前記合成データセットを決定するステップは、
前記合成イメージを前記第1ネットワークに印加し、前記第1フィーチャーを抽出するステップと、
前記抽出された第1フィーチャーを前記第2ネットワークに印加し、前記合成イメージの各ピクセルに対応する前記第1座標マップを推定するステップと、
前記推定された第1座標マップに基づいて、前記合成イメージに対応する第1ポーズを推定するステップと、
前記実際イメージを前記第1ネットワークに印加し、前記第2フィーチャーを抽出するステップと、
前記抽出された第2フィーチャーを前記第2ネットワークに印加し、前記実際イメージの各ピクセルに対応する前記第2座標マップを推定するステップと、
をさらに含む、請求項5に記載のグローバル測位モデルの学習方法。 - 前記学習させるステップは、前記第1GANロスに基づいて、前記合成イメージから抽出された前記第1フィーチャー及び前記実際イメージから抽出された前記第2フィーチャーを区分する第1弁別器と前記第1ネットワークを学習させるステップを含む、請求項5に記載のグローバル測位モデルの学習方法。
- 前記学習させるステップは、前記第2GANロスに基づいて、前記合成イメージで推定された前記第1座標マップ及び前記実際イメージで推定された第2座標マップを区分する第2弁別器と前記第2ネットワークを学習させるステップを含む、請求項5に記載のグローバル測位モデルの学習方法。
- 前記学習させるステップは、前記第1ロスに基づいて決定されたグラジエントを前記第1ネットワーク及び前記第2ネットワークに繰り返し逆伝播させるステップを含む、請求項5に記載のグローバル測位モデルの学習方法。
- 前記学習させるステップは、前記第2ロスに基づいて決定されたグラジエントを前記第1ネットワーク及び前記第2ネットワークに繰り返し逆伝播させるステップを含む、請求項5に記載のグローバル測位モデルの学習方法。
- 前記第1ネットワーク及び前記第2ネットワークのうち少なくとも1つの学習に応答して、
入力イメージを前記第1ネットワークに印加し、フィーチャーを抽出するステップと、
前記抽出されたフィーチャーを前記第2ネットワークに印加し、前記入力イメージに対応する座標マップを推定するステップと、
前記推定された座標マップに基づいて、前記入力イメージに対応するポーズを推定するステップと、
をさらに含む、請求項5に記載のグローバル測位モデルの学習方法。 - 請求項1~11のいずれか一項に記載の方法をコンピュータに実行させるコンピュータプログラム。
- グローバル測位装置であって、
入力イメージをグローバル測位モデルの第1ネットワークに印加して前記入力イメージのフィーチャーを抽出し、前記抽出されたフィーチャーを前記グローバル測位モデルの第2ネットワークに印加して前記入力イメージに対応する座標マップを推定し、前記推定された座標マップを前記グローバル測位モデルのポーズ推定器に印加してグローバル測位結果に対応するポーズを推定する、少なくとも1つのプロセッサを含み、
前記グローバル測位モデルは、
3次元マップデータに基づいて、合成データセットであって、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び前記合成イメージの各ピクセルに対応する3次元座標データを含む合成データセットを決定するステップと、
前記第1ネットワーク及び前記第2ネットワークのパラメータをアップデートするために、前記グローバル測位モデルに関する少なくとも1つのロスに基づいて決定されたグラジエントを繰り返し逆伝播させるステップと、
を行うことにより構築され、
前記グローバル測位モデルに関するロスは、
前記合成イメージに基づいて前記第1ネットワークから抽出された第1フィーチャー、及び実際イメージに基づいて前記第1ネットワークから抽出された第2フィーチャーに基づいて決定された第1GANロスと、
前記第1フィーチャーに基づいて前記第2ネットワークで推定された第1座標マップ、及び前記第2フィーチャーに基づいて前記第2ネットワークで推定された第2座標マップに基づいて決定された第2GANロスと、
のうち少なくとも1つを含む、グローバル測位装置。 - 前記グローバル測位モデルに関するロスは、
前記第1座標マップ及び前記合成イメージに対応する正解データに基づいて決定された第1ロスと、
前記第1座標マップに基づいて前記ポーズ推定器で推定された第1ポーズ及び前記合成イメージに対応する正解データに基づいて決定された第2ロスと、
のうち少なくとも1つをさらに含む、請求項13に記載のグローバル測位装置。 - 前記繰り返し逆伝播させるステップは、
前記第1GANロスに基づいて、第1弁別器に前記第1フィーチャーを入力して決定されたグラジエントを前記第1弁別器及び前記第1ネットワークに繰り返し逆伝播させるステップと、
前記第1GANロスに基づいて、前記第1弁別器に前記第2フィーチャーを入力して決定されたグラジエントを前記第1弁別器及び前記第1ネットワークに繰り返し逆伝播させるステップと、
を含み、
前記第1弁別器は、
前記合成イメージから抽出された前記第1フィーチャーに基づいて前記合成イメージを指示する値を出力し、前記実際イメージから抽出された前記第2フィーチャーに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含む、請求項13に記載のグローバル測位装置。 - 前記繰り返し逆伝播させるステップは、
前記第2GANロスに基づいて、第2弁別器に前記第1座標マップを入力して決定されたグラジエントを前記第2弁別器及び前記第2ネットワークに繰り返し逆伝播させるステップと、
前記第2GANロスに基づいて、前記第2弁別器に前記第2座標マップを入力して決定されたグラジエントを前記第2弁別器及び前記第2ネットワークに繰り返し逆伝播させるステップと、
を含み、
前記第2弁別器は、
前記合成イメージで推定された前記第1座標マップに基づいて前記合成イメージを指示する値を出力し、前記実際イメージで推定された前記第2座標マップに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含む、請求項13に記載のグローバル測位装置。 - 前記少なくとも1つのプロセッサによって実行される命令を格納するメモリをさらに含み、
前記命令は、前記少なくとも1つのプロセッサにより前記入力イメージのフィーチャーが抽出され、前記入力イメージに対応する座標マップを推定し、前記グローバル測位結果に対応するポーズを推定する動作を実行させる、請求項13ないし16のうちの何れか一項に記載のグローバル測位装置。 - コンピュータ読み出し可能な記録媒体に格納されたグローバル測位器であって、
前記グローバル測位器は、
3次元マップデータに基づいて、任意のポーズに対応する仮想のカメラで撮影された合成イメージ及び前記合成イメージの各ピクセルに対応する3次元座標データを決定するステップと、
前記グローバル測位器に含まれているニューラルネットワークのパラメータをアップデートするために、前記グローバル測位器に関する少なくとも1つのロスに基づいて決定されたグラジエントを繰り返し逆伝播させるステップと、
前記ニューラルネットワークのパラメータを前記記録媒体に格納するステップと、
を行うことにより構築され、
前記グローバル測位器に含まれているニューラルネットワークは、
入力イメージのフィーチャーを抽出する第1ネットワーク、及び前記第1ネットワークの出力に基づいて前記入力イメージの座標マップを推定する第2ネットワークを含み、
前記グローバル測位器に関する少なくとも1つのロスは、
前記合成イメージに基づいて前記第1ネットワークから抽出された第1フィーチャー、及び実際イメージに基づいて前記第1ネットワークから抽出された第2フィーチャーに基づいて決定された第1GANロスと、
前記第1フィーチャーに基づいて前記第2ネットワークで推定された第1座標マップ、及び前記第2フィーチャーに基づいて前記第2ネットワークで推定された第2座標マップに基づいて決定された第2GANロスと、
のうち少なくとも1つを含む、グローバル測位器。 - 前記グローバル測位器に関する少なくとも1つのロスは、
前記第1座標マップ及び前記合成イメージに対応する正解データに基づいて決定された第1ロスと、
前記第1座標マップに基づいて推定された第1ポーズ及び前記合成イメージに対応する正解データに基づいて決定された第2ロスと、
のうち少なくとも1つをさらに含む、請求項18に記載のグローバル測位器。 - 前記繰り返し逆伝播させるステップは、
前記第1GANロスに基づいて、第1弁別器に前記第1フィーチャーを入力して決定されたグラジエントを前記第1弁別器及び前記第1ネットワークに繰り返し逆伝播させるステップと、
前記第1GANロスに基づいて、前記第1弁別器に前記第2フィーチャーを入力して決定されたグラジエントを前記第1弁別器及び前記第1ネットワークに繰り返し逆伝播させるステップと、
を含み、
前記第1弁別器は、前記合成イメージから抽出された前記第1フィーチャーに基づいて前記合成イメージを指示する値を出力し、前記実際イメージから抽出された前記第2フィーチャーに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含む、請求項18に記載のグローバル測位器。 - 前記繰り返し逆伝播させるステップは、
前記第2GANロスに基づいて、第2弁別器に前記第1座標マップを入力して決定されたグラジエントを前記第2弁別器及び前記第2ネットワークに繰り返し逆伝播させるステップと、
前記第2GANロスに基づいて、前記第2弁別器に前記第2座標マップを入力して決定されたグラジエントを前記第2弁別器及び前記第2ネットワークに繰り返し逆伝播させるステップと、
を含み、
前記第2弁別器は、前記合成イメージで推定された前記第1座標マップに基づいて前記合成イメージを指示する値を出力し、前記実際イメージで推定された前記第2座標マップに基づいて前記実際イメージを指示する値を出力するためのニューラルネットワークを含む、請求項18ないし20のうちの何れか一項に記載のグローバル測位器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210133117A KR20230049969A (ko) | 2021-10-07 | 2021-10-07 | 글로벌 측위 장치 및 방법 |
KR10-2021-0133117 | 2021-10-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023056466A true JP2023056466A (ja) | 2023-04-19 |
Family
ID=81850199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022112854A Pending JP2023056466A (ja) | 2021-10-07 | 2022-07-14 | グローバル測位装置及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230114734A1 (ja) |
EP (1) | EP4163873A1 (ja) |
JP (1) | JP2023056466A (ja) |
KR (1) | KR20230049969A (ja) |
CN (1) | CN115953464A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152370B (zh) * | 2023-10-30 | 2024-02-02 | 碳丝路文化传播(成都)有限公司 | 基于aigc的3d地形模型生成方法、系统、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11107228B1 (en) * | 2020-04-02 | 2021-08-31 | Ford Global Technologies, Llc | Realistic image perspective transformation using neural networks |
-
2021
- 2021-10-07 KR KR1020210133117A patent/KR20230049969A/ko unknown
-
2022
- 2022-03-21 US US17/699,657 patent/US20230114734A1/en active Pending
- 2022-05-05 CN CN202210483160.0A patent/CN115953464A/zh active Pending
- 2022-05-24 EP EP22175221.5A patent/EP4163873A1/en active Pending
- 2022-07-14 JP JP2022112854A patent/JP2023056466A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230114734A1 (en) | 2023-04-13 |
EP4163873A1 (en) | 2023-04-12 |
CN115953464A (zh) | 2023-04-11 |
KR20230049969A (ko) | 2023-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10977818B2 (en) | Machine learning based model localization system | |
KR102647351B1 (ko) | 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치 | |
JP6430064B2 (ja) | データを位置合わせする方法及びシステム | |
KR101791590B1 (ko) | 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법 | |
US9177381B2 (en) | Depth estimate determination, systems and methods | |
WO2015135323A1 (zh) | 一种摄像机跟踪方法及装置 | |
KR20190042187A (ko) | 깊이 값을 추정하는 방법 및 장치 | |
US11049270B2 (en) | Method and apparatus for calculating depth map based on reliability | |
CN112154486B (zh) | 用于多用户增强现实购物的系统和方法 | |
KR102455632B1 (ko) | 스테레오 매칭 방법 및 장치 | |
Li et al. | Scene coordinate regression with angle-based reprojection loss for camera relocalization | |
JP2019190974A (ja) | キャリブレーション装置、キャリブレーション方法、及びプログラム | |
JP6515039B2 (ja) | 連続的な撮影画像に映り込む平面物体の法線ベクトルを算出するプログラム、装置及び方法 | |
JP6662382B2 (ja) | 情報処理装置および方法、並びにプログラム | |
da Silveira et al. | Dense 3D scene reconstruction from multiple spherical images for 3-DoF+ VR applications | |
GB2567245A (en) | Methods and apparatuses for depth rectification processing | |
CN114565668A (zh) | 即时定位与建图方法及装置 | |
US10346949B1 (en) | Image registration | |
JP2023056466A (ja) | グローバル測位装置及び方法 | |
US10977810B2 (en) | Camera motion estimation | |
Bajramovic et al. | Global Uncertainty-based Selection of Relative Poses for Multi Camera Calibration. | |
WO2023020327A1 (zh) | 图像处理 | |
JP2023065296A (ja) | 平面検出装置及び方法 | |
WO2017042852A1 (en) | Object recognition appratus, object recognition method and storage medium | |
Kim et al. | Pose initialization method of mixed reality system for inspection using convolutional neural network |