JP7221203B2

JP7221203B2 - モバイル装置の位置特定方法

Info

Publication number: JP7221203B2
Application number: JP2019539772A
Authority: JP
Inventors: ワン，セン; クラーク，ロナルド; トリゴニ，ニキ
Original assignee: オックスフォードユニヴァーシティイノヴェーションリミテッド
Priority date: 2017-01-23
Filing date: 2018-01-17
Publication date: 2023-02-13
Anticipated expiration: 2038-01-17
Also published as: JP2020506471A; AU2018208816A1; CN110785777A; US11436749B2; WO2018134589A1; CN110785777B; US20210350563A1; EP3571665B1; AU2018208816B2; EP3571665A1

Description

本発明は、モバイル装置の位置を特定することに関する。より詳細には、排他的ではないが、本発明は、モバイル装置のカメラによって取り込まれた画像からモバイル装置の位置を特定するために、ニューラルネットワークを使用することに関する。

特に、本発明は、排他的ではないが、モバイル装置が自律型ロボットである場合に適用可能なものである。しかしながら、本発明は、携帯電話、スマートウォッチ、及びそれらの類のものといった、他の種類のモバイル及びウェアラブル装置にも適用可能である。

本明細書で扱う「位置」は、モバイル装置が緯度及び経度によって規定される地球上の位置にある、といった絶対位置を指し、又、別の位置に対する相対位置を指すこともある（例えば、モバイル装置は最初の開始位置からの距離及び方向）。位置の特定には、例えば地球の磁場に関する絶対的な用語での、及び初期の向きに対する特定量の回転のような相対的な用語での、向きの特定も含まれることが多い。

ＧＰＳ信号が利用できない場所で、モバイル装置の位置を特定できることが望ましい。これは、正確な誘導を可能にする自律型ロボットの場合に特に当てはまる。既知のアプローチは、位置を特定するためにカメラからの画像を使用することである。しかしながら、そのようなシステムでは、位置を確実に特定する場合、カメラに非常に正確な較正が必要になる傾向がある。従来のビジュアル・オドメトリ技術には、スパース法（特徴の検出及び照合と動きの推定及び最適化とを含む、幾つかのステップを含む）、及び直接法（動きの推定及び最適化のステップを含む）が含まれる。そのような技術は、正確なカメラ較正を必要とする傾向があり、テクスチャの少ない環境（すなわち特徴が少ない環境）や、画像を取り込むカメラが急速に回転する場合に、失敗することがよくある。更に、このようなシステムは、通常、移動経路の形状を判定することはできるが、大抵はスケール、つまり実際の移動距離を推定することはできない。

或いは、位置を特定するために、ニューラルネットワークを使用してカメラからの画像を処理することが知られている。モハンティ等作、ＤｅｅｐＶＯ：単眼ビジュアル・オドメトリのための深層学習方法、ａｒＸｉｖ識別子：１６１１．０６０６９、２０１６年１１月１８日公開の論文は、そのようなシステムを開示している。しかしながら、ニューラルネットワークを使用する既知のシステムには様々な問題がある。それらは、使用される特定の環境向けのトレーニングを必要とする傾向があるため、最初に適切なトレーニングが行われないと、新しい環境で使用することができない。

本発明は、上述した問題を軽減しようとするものである。又、代替的及び／又は付加的に、本発明は、モバイル装置の位置を特定する改善された方法を提供しようとするものである。

本発明の第１の態様によれば、カメラを含むモバイル装置の位置を特定するための、コンピュータで実行される方法であって、カメラを使用して、一定期間にわたって一連の画像を取り込むステップと、一連の画像からの、複数の連続した一対の画像について、各一対の画像のうち１番目の画像が取り込まれた時間と、各一対の画像のうち２番目の画像が取り込まれた時間との間の、装置の動きを示す特徴を、第１のニューラルネットワークを用いて抽出するステップと、一連の連続した画像について、第１のニューラルネットワークによって抽出された特徴から、装置の位置を示す特徴を、第２のニューラルネットワークを用いて抽出するステップと、一連の連続した画像について、第２のニューラルネットワークによって抽出された特徴から、装置の位置を特定するステップと、含む方法が提供される。

２つのニューラルネットワークの組み合わせを使用することで、はるかに堅牢で信頼性の高い位置特定が可能になることが判明した。特に、第１のニューラルネットワークは、画像間の差分によって示唆される動きを示す画像から、特徴を最も効果的に抽出するようにトレーニングすることができ、前記動きは、２つの画像のみに依存し、以前に特定された位置のような履歴情報に依存しない。しかしながら、以前に特定された場所といった履歴情報が非常に有用であると、第１のニューラルネットワークによって抽出された特徴から、モバイル装置の位置を最も効果的に特定するように、第２のニューラルネットワークを同時にトレーニングすることができる。このように２つのニューラルネットワークに処理を分割することにより、段階的な動きと総体的な位置との双方のトレーニングを、効果的に達成することができる。更に、システム全体をトレーニングすることで、双方のニューラルネットワークを同時にトレーニングできるため、特に、実際には使用に最適なタイプの特徴ではない虞がある事前に選択された属性で、動きの特徴を抽出するようにトレーニングするのではなく、システム全体の動作に最適な動きの特徴を抽出するように、第１のニューラルネットワークをトレーニングすることができる。

好ましくは、装置の位置に加えて装置の向きが特定される。従って、装置の「ポーズ」が特定される。
好ましくは、一連の画像の画像が単眼画像である。

好適には、第１のニューラルネットワークが畳み込みニューラルネットワークである。この種のニューラルネットワークは、画像データ等の多数のパラメータを有するデータを処理するのに特に適している。

好適には、第２のニューラルネットワークがリカレントニューラルネットワークである。この場合、好ましくは、第２のニューラルネットワークが長・短期記憶ニューラルネットワークである。リカレントニューラルネットワーク、特に長・短期記憶タイプのものは、時間依存型データの処理に特に適している。

好ましくは、本方法は、更に、第２のニューラルネットワークによって抽出された特徴から、連続して取り込まれた各一対の画像について、装置の相対的な位置及び向きの情報を抽出するステップを含む。この場合、好ましくは、装置の位置を特定するステップが、第２のニューラルネットワークによって抽出された特徴から抽出される、相対的な位置及び向きの情報を構成することを含む。換言すれば、装置の位置は、連続した動きの推定からオドメトリ的に（odometrically）特定される。

好適には、本方法は、更に、連続して取り込まれた各一対の画像について、相対的な位置及び向きの情報に対応する不確実性の情報を抽出するステップを含む。不確実性の情報は、ポーズの情報と共に、同時ローカリゼーション及びマッピング（ＳＬＡＭ）アルゴリズムへの入力として使用することができる。

一連の画像の各画像は、その対応する位置の情報に関連付けられていてもよく、本方法は、更に、対応する位置の情報を使用して、第１及び第２のニューラルネットワークを訓練するステップを含んでいてもよい。好ましくは、各画像は、その向きの情報にも関連付けられている。

装置は、自律型ロボットであってもよい。或いは、装置は、携帯電話、ウェアラブル装置、又は他の適切なモバイル装置であってもよい。

本発明の第２の態様によれば、モバイル装置であって、メモリ、プロセッサ、及びカメラを含み、カメラを使用して、一定期間にわたって一連の画像を取り込み、一連の画像からの、複数の連続した一対の画像について、各一対の画像のうち１番目の画像が取り込まれた時間と、各一対の画像のうち２番目の画像が取り込まれた時間との間の、装置の動きを示す特徴を、プロセッサにより提供される第１のニューラルネットワークを用いて抽出し、一連の連続した画像について、第１のニューラルネットワークによって抽出された特徴から、位置を示す特徴を、プロセッサにより提供される第２のニューラルネットワークを用いて抽出し、一連の連続した画像について、第２のニューラルネットワークによって抽出された特徴から、装置の位置を特定するように構成されている装置が提供される。

好ましくは、本装置は、装置の位置に加えて装置の向きを特定するように構成されている。
好ましくは、一連の画像の画像が単眼画像である。

好適には、第１のニューラルネットワークが畳み込みニューラルネットワークである。
好適には、第２のニューラルネットワークがリカレントニューラルネットワークである。この場合、好ましくは、第２のニューラルネットワークが長・短期記憶ニューラルネットワークである。

好ましくは、本装置は、更に、第２のニューラルネットワークによって抽出された特徴から、連続して取り込まれた各一対の画像について、装置の相対的な位置及び向きの情報を抽出するように構成されている。この場合、好ましくは、本装置は、第２のニューラルネットワークによって抽出された特徴から抽出される、相対的な位置及び向きの情報を構成することによって、装置の位置を特定するように構成されている。

好適には、本装置は、更に、連続して取り込まれた各一対の画像について、相対的な位置及び向きの情報に対応する不確実性の情報を抽出するように構成されている。

本発明の第３の態様によれば、モバイル装置で実行されたときに、上述した何れかの方法を実行するように構成された、コンピュータプログラム製品が提供される。

本発明の第４の態様によれば、モバイル装置で実行されたときに、上述した何れかのモバイル装置を提供するように構成された、コンピュータプログラム製品が提供される。

当然のことながら、本発明の一態様に関連して説明された特徴が、本発明の他の態様に組み込まれてもよいことは、理解されるであろう。例えば、本発明の方法は、本発明のモバイル装置を参照して説明された何れの特徴をも組み込むことができ、その逆もまた同様である。

ここで、本発明の実施形態について、添付の概略的な図面を参照しながら、単なる例として説明する。

本発明の実施形態に係る自律型ロボットの概略図である。図１の自律型ロボットの、その位置を推定するための動作を示すフローチャートである。図２の手順を表す概略図である。図２及び図３の手順で使用されるＬＳＴＭの概略図である。

本発明の実施形態に係る自律型ロボットの概略図を、図１に示している。自律型ロボット１は、プロセッサ２を含んでいる。異なる実施形態では、プロセッサ２がシングルプロセッサシステム、デュアルプロセッサシステム、或いはその他の適切なプロセッサシステムであってもよいことは、理解されるであろう。プロセッサ２は、カメラ３及び（とりわけ）カメラ３によって取り込まれた画像を記憶するメモリ４と、通信を行う。

ここで、自律型ロボット１がその位置を特定するための動作について、図２のフローチャートを参照して説明する。その手順を図３にも概略的に示している。各時間ステップにおいて、自律型ロボット１は、現在利用可能な情報に基づいてその位置を特定する。図３は、３つの連続した時間ステップｔ、ｔ＋１、及びｔ＋２を示しており、各時間ステップについての自律型ロボット１の「ポーズ（pose）」である、Ｐｏｓｅ_ｔ、Ｐｏｓｅ_ｔ＋１、及びＰｏｓｅ_ｔ＋２の夫々が特定され、ポーズは、位置と進路情報（すなわち自律型ロボットが向いている向き）との組み合わせである。

まず、カメラ３によって連続的に取り込まれた一対の画像を取得する（ステップ２１、図３の部分３１）。次に、画像のサンプルセットから平均ＲＧＢチャネル値を減算することにより、各画像を前処理する（ステップ２２、図３の部分３２）。画像のセットは、例えば後に詳細に説明するように、自律型ロボット１が訓練される際の画像であってもよい。更に、画像を６４の倍数になるようにサイズ変更する。但し、このような前処理はオプションであって、他の実施形態では存在しない。図３から分かるように、時間ステップｔの場合、最初の一対の画像は前処理された画像ＲＧＢ_ｔ及びＲＧＢ_ｔ＋１になるが、時間ステップｔ＋１の場合、前処理された画像はＲＧＢ_ｔ＋１及びＲＧＢ_ｔ＋２であり、他の時間ステップについても同じように続いていく。

プロセッサ２及びメモリ４によって実装される畳み込みニューラルネットワーク（ＣＮＮ）は、前処理された一対の画像を取得し、それを使用して特徴を抽出する（ステップ２３、図３の部分３３）。ＣＮＮは、以下の説明のように実行されたそのトレーニングに従って、特徴を抽出する。

ＣＮＮは、ネットワーク構造に畳み込み層を組み込むニューラルネットワークの一種であるため、他の種類のニューラルネットワークで使用される全結合層とは対照的に、データの空間的規則性を活用することができる。つまり、ＣＮＮに必要なパラメータの数が大幅に削減され、高次元の入力（生の画像データ等）を取り扱うことができるようになる。ＣＮＮでは、各畳み込み層で複数の畳み込み演算が適用され、前の層の出力マップから多くの特徴が抽出される。例えば［３８］で説明されているように、マップの畳み込みに使用されるフィルターカーネルは、トレーニング中に学習される。

ＣＮＮは、前処理された連続した一対の画像を積み重ねることによって生成されたテンソルを、入力として受け取る。ＣＮＮは、９つの畳み込み層で構成され、最後を除く夫々に正規化線形ユニット（ＲｅＬＵ）非線形活性化（non-linearity activation）が続くことで、合計で１７層になる。それらの層は次のように構成される。

ネットワーク内の受容野のサイズは、７×７から５×５、そして３×３へと徐々に小さくなり、小さな興味深い特徴を捉えている。受容野の構成に適応するため、或いは、畳み込み後にテンソルの空間次元を保持するために、ゼロパディングが導入される。チャネル数、すなわち、特徴検出用のフィルター数は、様々な特徴を学習するために増加する。

本実施形態ではＣＮＮが５５００万の訓練可能な重みを有するが、他の実施形態では異なる数の重みを使用できることは、理解されるであろう。
そして、最終層（つまりＣｏｎｖ６）からの特徴が、ＣＮＮの出力になる。

次に、リカレントニューラルネットワーク（ＲＮＮ）が、ＣＮＮによって生成された特徴を取得し、それらから動きの特徴を抽出する（ステップ２４、図３の部分３４のＬＳＴＭボックス）。ＣＮＮと同様に、ＲＮＮは、以下に詳しく説明するそのトレーニングに従ってこれを行う。

ＲＮＮは、ニューラルネットワークの一種で、層は入力に対して作用するが、隠れ層及び／又は出力の遅延バージョンに対しても作用する。この方法において、ＲＮＮは、過去の入力及び対応する特定を追跡するための「メモリ」として使用できる、内部状態を有している。

本実施形態では、図４に示すような長・短期記憶（ＬＳＴＭ）アーキテクチャを備えたＲＮＮが使用され（その様々なバリエーションが存在する）、図４において、丸中黒符号（○の中に●がある符号）は、要素単位の積を示し、丸囲み＋符号（○の中に＋がある符号）は、２つのベクトルの加算を示している。メモリセルの内容は、ｃ_ｔに保存される。入力ゲートｉ_ｔは、現在の時間ステップで入力がメモリの内容に入る方法を制御する。忘却ゲートｆ_ｔは、必要に応じてメモリセルをクリアする制御信号０～１を生成することにより、メモリセルを空にするタイミングを決定する。最後に、出力ゲートｏ_ｔは、メモリセルの内容を現在の時間ステップで使用するか否かを決定する。ＲＮＮの動作は、以下の式で説明される。

パラメータＷ_ｉ,ｊ及びｂ_ｉは、ＲＮＮの動作を完全にパラメータ化し、トレーニング中に学習される。再帰的な隠れ層により、ネットワークは、入力データの時間的規則性を利用してパフォーマンスを向上させることができる。

従来のＬＳＴＭモデルでは、隠れ状態のみが前の時間ステップから引き継がれるが、本実施形態では、前の時間ステップについて特定されたポーズが、入力としてＲＮＮに直接送られる。これは図３で確認することができ、この図では、次の時間ステップのために、時間ステップのポーズがＬＳＴＭボックスに送られる。これを行う理由は、位置推定の場合、出力が基本的に各時間ステップでの連続する変位の積分であるためである。従って、前の時間ステップで特定されたポーズは、特に重要である。

本実施形態において、ＬＳＴＭは、２０００ユニットのセルを備えた２つの層を有するが、他の実施形態では、異なる数の層及びユニットを使用できることは、理解されるであろう。

次に、（高次元の）ＲＮＮによって抽出された動きの特徴は、全結合層に渡され（ステップ２５）、それは低次元（少なくともポーズについて６、不確実性について６、更にポーズ及び不確実性の推定にガウス混合を使用する場合は各々についてより多いかもしれない）の特徴を出力する。

次に、全結合層からの低次元の特徴は、ＳＥ（３）層に渡される（ステップ２６、図３の部分３４のＳＥ３ボックス）。ＳＥ（３）は、各時間ステップで自律型ロボット１の位置（実際には、時間ステップｔについてのＰｏｓｅ_ｔ等のポーズ）を特定するために、各時間ステップで連続した動きの特徴を構成する。

ＳＥ３は、その要素が変換行列である特別なユークリッド群であって、特別な直交群ＳＯ３からの回転と並進ベクトルとで構成される。

ＳＯ３コンポーネントが直交行列である必要があるため、ＳＥ３に属する変換推定値の生成は簡単ではない。しかしながら、ＳＥ３のリー代数ｓｅ３は、直交性の制約を受けないコンポーネントによって記述することができる。

そして、ｓｅ３とＳＥ３との間の変換は、指数マップを使用して実行できる。

別の実施形態では、行列表現の代わりに回転の四元数表現が使用される。特に、ω成分はベクトルに変換される。

これらの量の勾配の計算は、単純な線形代数演算のみを使用して実行することができる。更に、指数マップを計算するために必要な、高価な固有値の代償（expensive eigenvalue decompensation）が回避される。
従って、このようにして自律型ロボット１は、カメラ３からの画像を使用して、その位置、特にそのポーズを推定する。

連続したセンサ測定値からの位置の推定（すなわちオドメトリ）は、必然的にドリフトの影響を受ける。結果的に、それをループ閉じ込み、マップマッチング、又はポーズグラフ最適化手法と組み合わせて使用して、同時ローカリゼーション及びマッピング（ＳＬＡＭ）システムを作成するのが一般的である。オドメトリ測定をそのようなシステムに統合する重要な側面は、不確実性の推定値の可用性である。

そのような推定値を提供するために、全結合層の出力が使用される（ＳＥ（３）層の前）。全結合層によって生成された推定値は、訓練データからのグラウンドトゥルース・ポーズ情報と比較され、ポーズ（位置及び向き）の誤差分布をもたらす。そして、不確実性を表すガウス分布の混合の予測をトレーニングするために、最尤法が利用される。

動作させるためには、当然のことながら、ニューラルネットワークを訓練する必要があり、これは、テストデータと最小化される目的関数（cost function）とを提供することによって行われる。現在説明されている自律型ロボット１のＣＮＮとＲＮＮとのトレーニングは、実際、その双方が同時に訓練される。

上述したように、本実施形態のシステムは、ポーズと不確実性との双方を推定する。テストデータは、一連の画像であり、それらの画像の「グラウンドトゥルース」ポーズ（つまり正しいポーズ）が含まれる。トレーニングのための目的関数は、２つの部分で構成され、最初の部分がポーズの推定に関連し、２番目の部分が不確実性の推定に関連している。ポーズの推定については、推定されたポーズとグラウンドトゥルース・ポーズとの差を最小化するように、目的関数の最初の部分でシステムを訓練する。不確実性の推定については、ニューラルネットワークの出力をポーズラベルと比較することにより、目的関数の２番目の部分でシステムを訓練する。その後、時間を通して誤差逆伝播によるトレーニングを行い、ＣＮＮとＲＮＮとの重みを調整して、目的関数の結果を最適に最小化する。

このように、ＣＮＮは、ＲＮＮへの入力に最も適した特徴を提供するように訓練され、同時にＲＮＮは、それらの特徴（及び以前の特定）から自律型ロボット１のポーズ（及びその不確実性）を最も正確に特定するように訓練されることが分かる。特にＣＮＮは、特定の種類の特徴又は特定の性質を備えた特徴を最適に提供するようには訓練されず、むしろ、システム全体の運用に最適な特徴を提供するように単純に訓練される。しかしながら、特定の実施形態では、初期の訓練プロセスを高速化するために、ＣＮＮが最初に単独で訓練され（或いはそのような訓練の効果を有する重みが与えられ）、連続する画像間の動きを示す特徴を提供する。これにより、ＣＮＮの初期状態が提供され、システムが全体として訓練されるにつれて、更に最適な訓練が行われる。

特定の実施形態を参照しながら、本発明について説明及び図示してきたが、当業者は、本明細書に具体的に示されていない多くの異なる変形例に、本発明が適していることを理解されるであろう。

前述の説明において、既知の、明白な又は予見可能な同等物を有する完全形（integer）や要素が言及されている場合、そのような同等物は、個別に記載されたものとして本明細書に組み込まれる。本発明の真の範囲の判定には特許請求の範囲を参照すべきであり、そのような同等物を包含するように解釈されるべきである。又、読者は、好ましいもの、有利なもの、便利なもの、又はそれらの類のものとして説明されている、本発明の完全形や特徴が任意のものであり、独立請求項の範囲を限定するものではないことは、理解されるであろう。更に、そのような任意の完全形や特徴は、本発明の幾つかの実施形態では可能な利点があるが、他の実施形態では望ましくないことがあり、従って存在しない場合があることを理解されたい。

１：自律型ロボット、２：プロセッサ、３：カメラ、４：メモリ

Claims

カメラを含むモバイル装置の位置を特定するための、コンピュータで実行される方法であって、
前記カメラを使用して、一定期間にわたって一連の画像を取り込むステップと、
前記一連の画像からの、複数の連続した一対の画像について、各一対の画像のうち１番目の画像が取り込まれた時間と、各一対の画像のうち２番目の画像が取り込まれた時間との間の、前記装置の動きを示す特徴を、第１のニューラルネットワークを用いて抽出するステップと、
一連の連続した画像について、前記第１のニューラルネットワークによって抽出された特徴から、前記装置の位置を示す特徴を、第２のニューラルネットワークを用いて抽出するステップと、
一連の連続した画像について、前記第２のニューラルネットワークによって抽出された特徴から、前記装置の位置を特定するステップと、
テストデータ及び目的関数を提供して、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークを訓練するステップと、
前記第２のニューラルネットワークによって抽出された特徴から、連続して取り込まれた各一対の画像について、前記装置の相対的な位置及び向きの情報を抽出するステップと、
連続して取り込まれた各一対の画像について、前記相対的な位置及び向きの情報に対応する不確実性の情報を抽出するステップと、を含み、
前記目的関数を、前記相対的な位置及び向きの情報の推定に関連する部分と、前記不確実性の情報に関連する部分とで構成することを特徴とする方法。
前記装置の位置を特定するステップは、前記第２のニューラルネットワークによって抽出された特徴から抽出される、前記相対的な位置及び向きの情報を構成することを含むことを特徴とする請求項１記載の方法。
前記装置の位置に加えて、前記装置の向きを特定することを特徴とする請求項１又は２記載の方法。
前記一連の画像の画像は、単眼画像であることを特徴とする請求項１から３のいずれか１項記載の方法。
前記第１のニューラルネットワークは、畳み込みニューラルネットワークであることを特徴とする請求項１から４のいずれか１項記載の方法。
前記第２のニューラルネットワークは、リカレントニューラルネットワークであることを特徴とする請求項１から５のいずれか１項記載の方法。
前記第２のニューラルネットワークは、長・短期記憶ニューラルネットワークであることを特徴とする請求項６記載の方法。
前記一連の画像の各画像は、その対応する位置及び向きの情報に関連付けられており、
前記第１のニューラルネットワーク及び前記第２のニューラルネットワークを訓練するステップは、更に前記対応する位置及び向きの情報を使用することを特徴とする請求項１から７のいずれか１項記載の方法。
前記装置は、自律型ロボットであることを特徴とする請求項１から８のいずれか１項記載の方法。
モバイル装置であって、
メモリ、プロセッサ、及びカメラを含み、
前記カメラを使用して、一定期間にわたって一連の画像を取り込み、
前記一連の画像からの、複数の連続した一対の画像について、各一対の画像のうち１番目の画像が取り込まれた時間と、各一対の画像のうち２番目の画像が取り込まれた時間との間の、当該装置の動きを示す特徴を、前記プロセッサにより提供される第１のニューラルネットワークを用いて抽出し、
一連の連続した画像について、前記第１のニューラルネットワークによって抽出された特徴から、当該装置の位置を示す特徴を、前記プロセッサにより提供される第２のニューラルネットワークを用いて抽出し、
一連の連続した画像について、前記第２のニューラルネットワークによって抽出された特徴から、当該装置の位置を特定するように構成され、
前記第１のニューラルネットワーク及び前記第２のニューラルネットワークは、テストデータ及び目的関数が提供されて訓練されたものであり、
更に、前記第２のニューラルネットワークによって抽出された特徴から、連続して取り込まれた各一対の画像について、当該装置の相対的な位置及び向きの情報を抽出するように構成され、
更に、連続して取り込まれた各一対の画像について、前記相対的な位置及び向きの情報に対応する不確実性の情報を抽出するように構成され、
前記目的関数が、前記相対的な位置及び向きの情報の推定に関連する部分と、前記不確実性の情報に関連する部分とで構成されていることを特徴とする装置。
前記第２のニューラルネットワークによって抽出された特徴から抽出される、前記相対的な位置及び向きの情報を構成することにより、当該装置の位置を特定するように構成されていることを特徴とする請求項１０記載の装置。
当該装置の位置に加えて、当該装置の向きを特定するように構成されていることを特徴とする請求項１０又は１１記載の装置。
前記一連の画像の画像は、単眼画像であることを特徴とする請求項１０から１２のいずれか１項記載の装置。
前記第１のニューラルネットワークは、畳み込みニューラルネットワークであることを特徴とする請求項１０から１３のいずれか１項記載の装置。
前記第２のニューラルネットワークは、リカレントニューラルネットワークであることを特徴とする請求項１０から１４のいずれか１項記載の装置。
前記第２のニューラルネットワークは、長・短期記憶ニューラルネットワークであることを特徴とする請求項１５記載の装置。
モバイル装置で実行されたときに、請求項１から９のいずれか１項記載の方法を実行するように構成されていることを特徴とするコンピュータプログラム。
モバイル装置で実行されたときに、請求項１０から１６のいずれか１項記載のモバイル装置を提供するように構成されていることを特徴とするコンピュータプログラム。