JP7357676B2

JP7357676B2 - 自己改良ビジュアルオドメトリを実施するためのシステムおよび方法

Info

Publication number: JP7357676B2
Application number: JP2021526271A
Authority: JP
Inventors: ダニエルデトン，; トマシュジャンマリシーウィッツ，; アンドリューラビノビッチ，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2018-11-15
Filing date: 2019-11-13
Publication date: 2023-10-06
Anticipated expiration: 2039-11-13
Also published as: WO2020102417A1; JP2022508103A; US20220028110A1; US11921291B2; CN113272713A; EP3881125A4; EP3881125A1

Description

本開示は、ビジュアルオドメトリを実施するために、ニューラルネットワークを訓練することに関する。

ビジュアルオドメトリは、カメラ画像（例えば、デバイスの視点から取得されるカメラ画像）の分析に基づいて、デバイス（例えば、頭部搭載型ディスプレイデバイス）の位置および配向を決定するプロセスである。いくつかの実装では、ビジュアルオドメトリは、少なくとも部分的に、１つ以上の画像内の着目点を識別し、着目点間の関係を決定し、その関係に基づいて、デバイスの位置および配向を決定することによって、実施される。

本開示は、概して、ビジュアルオドメトリに関する。より具体的には、本開示の実施形態は、ニューラルネットワークを使用して、１つ以上の画像内の着目点を検出および記述し、それらの着目点に基づいて、ビジュアルオドメトリを実施するためのシステム、デバイス、および方法を提供する。本開示の一部は、拡張現実（ＡＲ）デバイスを参照して説明されるが、本開示は、コンピュータビジョンおよび画像ディスプレイシステムにおける種々の用途に適用可能である。

ある側面では、ビジュアルオドメトリを実施するために、ニューラルネットワークを訓練するための方法が、実施される。本方法は、１つ以上のコンピュータシステムを使用して実装される、ニューラルネットワークによって、環境の複数の画像を受信するステップを含む。本方法はまた、ニューラルネットワークによって、画像毎に、着目点の個別のセットおよび個別の記述子を決定するステップを含む。本方法はまた、ニューラルネットワークによって、複数の画像の着目点のセットおよび記述子に基づいて、複数の画像間の対応を決定するステップを含む。複数の画像間の対応を決定するステップは、着目点のセット間の１つ以上の点対応を決定するステップを含む。各点対応は、１つの画像の着目点と別の画像の着目点との間の個別の対応を示し、複数の画像間の対応を決定するステップはまた、１つ以上の点対応に基づいて、候補着目点のセットを決定するステップを含む。各候補着目点は、３次元空間内の環境内の個別の特徴を示す。本方法はまた、候補着目点毎に、個別の安定性メトリックを決定するステップと、１つ以上の候補着目点に基づいて、ニューラルネットワークを修正するステップとを含む。

本側面の実施形態は、以下の特徴のうちの１つ以上のものを含むことができる。

いくつかの実施形態では、候補着目点毎に、個別の安定性メトリックを決定するステップは、第１の候補着目点が安定していることを決定するステップを含む。

いくつかの実施形態では、候補着目点のうちの１つ以上のものに基づいて、ニューラルネットワークを修正するステップは、第１の候補着目点が安定していることの決定に応答して、複数の画像の中から、第１の候補着目点および第１の対の画像を選択し、ニューラルネットワークを訓練するステップを含む。第１の対の画像は、環境内の第１の候補着目点を描写する。

いくつかの実施形態では、第１の候補着目点が安定していることを決定するステップは、第１の候補着目点が、第１の閾値数を超える複数の画像の画像の数に描写されていることを決定するステップと、第１の候補着目点と関連付けられる再投影誤差が、第１の閾値誤差レベル未満であることを決定するステップとを含む。

いくつかの実施形態では、候補着目点毎に、個別の安定性メトリックを決定するステップは、第２の候補着目点が不安定であることを決定するステップを含む。

いくつかの実施形態では、候補着目点のうちの１つ以上のものに基づいて、ニューラルネットワークを修正するステップは、第２の候補着目点が不安定であることの決定に応答して、複数の画像の中から、第２の候補着目点および第２の対の画像を選択し、ニューラルネットワークを訓練するステップを含む。第２の対の画像は、環境内の第２の候補着目点を描写する。

いくつかの実施形態では、第２の候補着目点が不安定であることを決定するステップは、第２の候補着目点が、第２の閾値数を超える複数の画像の画像の数に描写されていることを決定するステップと、第２の候補着目点と関連付けられる再投影誤差が、第２の閾値誤差レベルを上回ることを決定するステップとを含む。

いくつかの実施形態では、第１の閾値数は、第２の閾値数に等しい。

いくつかの実施形態では、第１の閾値誤差レベルは、第２の閾値誤差レベル未満である。

いくつかの実施形態では、候補着目点毎に、個別の安定性メトリックを決定するステップは、第３の候補着目点が、ニューラルネットワークの訓練から省略されるべきであることを決定するステップを含む。

いくつかの実施形態では、第３の候補着目点が、ニューラルネットワークの訓練から省略されるべきであることを決定するステップは、（ｉ）第３の候補着目点が、第３の閾値数未満の複数の画像の画像の数に描写されていること、または（ｉｉ）第３の候補着目点と関連付けられる再投影誤差が、第１の閾値誤差レベルと第２の閾値誤差レベルとの間であることを決定することのうちの少なくとも１つを決定するステップを含む。

いくつかの実施形態では、第３の閾値数は、第１の閾値数に等しい。

いくつかの実施形態では、複数の画像は、ビデオシーケンスから抽出された２次元画像を含む。

いくつかの実施形態では、複数の画像は、ビデオシーケンスの非連続的フレームに対応する。

いくつかの実施形態では、本方法はさらに、ニューラルネットワークを修正するステップに続いて、ニューラルネットワークによって、第２の環境の第２の複数の画像を頭部搭載型ディスプレイデバイスから受信するステップを含む。本方法はまた、ニューラルネットワークによって、第２の着目点のセットを識別するステップと、ニューラルネットワークによって、第２の複数の画像および第２の着目点のセットに基づいて、第２の環境に対してビジュアルオドメトリを実施するステップとを含む。

いくつかの実施形態では、第２の環境に対してビジュアルオドメトリを実施するステップは、第２の着目点のセットを目印として使用して、頭部搭載型ディスプレイデバイスの位置および配向を決定するステップを含む。

他の実施形態は、前述の方法のいくつかまたは全ての実施を促進するために、システム、装置、および非一過性コンピュータ可読媒体を対象とする。

本開示の実施形態は、種々の技術的利点を提供することができる。例えば、少なくともいくつかの実施形態は、着目点検出器および記述子を訓練し、ビジュアルオドメトリの実施を促進するために、自己教師ありフレームワークを提供する。本開示の実施形態は、多様な単一またはマルチチャネル２次元（２Ｄ）画像（例えば、インターネットＲＧＢ写真、小型ロボットグレースケールカメラ、水中画像、航空画像、望遠鏡画像、深度センサ画像、赤外線カメラ画像等）を分析するために使用されることができ、実質的人間の介入を伴わずに、種々の多視点幾何学形状問題を解法するために使用されることができる。さらに、少なくともいくつかの実施形態は、ともに、１つの順方向通過において、ピクセルレベル着目点場所および関連付けられる記述子を算出する、完全サイズ画像に作用する、完全畳み込みモデルを提供する。さらに、少なくともいくつかの実施形態は、ホモグラフィ適合、すなわち、着目点検出正確度を上昇させ、クロスドメイン適合（例えば、合成対実際）を実施するためのマルチスケールマルチホモグラフィアプローチとして説明され得る。さらに、少なくともいくつかの実施形態は、より高い点合致正確度およびより正確なホモグラフィ推定（例えば、従来的角検出器、従来的記述子、および／または事前に適合された深層モデルと比較して）を伴って、より豊富な着目点の検出を可能にする。さらに、少なくともいくつかの実施形態は、明示的幾何学的対応情報を要求せず、したがって、多種多様な環境およびユースケースにおいて展開されることができる。他の利点も、当業者に容易に明白となるであろう。

１つ以上の実施形態の詳細は、付随の図面および下記の説明に記載される。他の特徴および利点は、説明および図面および請求項から明白となるであろう。
本発明は、例えば、以下の項目を提供する。
（項目１）
ビジュアルオドメトリを実施するために、ニューラルネットワークを訓練する方法であって、前記方法は、
１つ以上のコンピュータシステムを使用して実装される前記ニューラルネットワークによって、環境の複数の画像を受信することと、
前記ニューラルネットワークによって、画像毎に、個別の着目点のセットおよび個別の記述子を決定することと、
前記ニューラルネットワークによって、前記複数の画像の前記着目点のセットおよび前記記述子に基づいて、前記複数の画像間の対応を決定することであって、前記複数の画像間の対応を決定することは、
着目点のセット間の１つ以上の点対応を決定することであって、各点対応は、１つの画像の着目点と別の画像の着目点との間の個別の対応を示す、ことと、
前記１つ以上の点対応に基づいて、候補着目点のセットを決定することであって、各候補着目点は、３次元空間内の環境内の個別の特徴を示す、ことと
を含む、ことと、
候補着目点毎に、個別の安定性メトリックを決定することと、
１つ以上の候補着目点に基づいて、前記ニューラルネットワークを修正することと
を含む、方法。
（項目２）
候補着目点毎に、前記個別の安定性メトリックを決定することは、第１の候補着目点が安定していることを決定することを含む、項目１に記載の方法。
（項目３）
前記候補着目点の１つ以上のものに基づいて、前記ニューラルネットワークを修正することは、
前記第１の候補着目点が安定していることの決定に応答して、前記複数の画像の中から、第１の候補着目点および第１の対の画像を選択し、前記ニューラルネットワークを訓練することであって、前記第１の対の画像は、前記環境内の第１の候補着目点を描写する、こと
を含む、項目２に記載の方法。
（項目４）
前記第１の候補着目点が安定していることを決定することは、
前記第１の候補着目点が、第１の閾値数を超える前記複数の画像の画像の数に描写されていることを決定することと、
前記第１の候補着目点と関連付けられる再投影誤差が、第１の閾値誤差レベル未満であることを決定することと
を含む、項目２に記載の方法。
（項目５）
候補着目点毎に、前記個別の安定性メトリックを決定することは、第２の候補着目点が不安定であることを決定することを含む、項目２に記載の方法。
（項目６）
前記候補着目点の１つ以上のものに基づいて、前記ニューラルネットワークを修正することは、
前記第２の候補着目点が不安定であることの決定に応答して、前記複数の画像の中から、前記第２の候補着目点および第２の対の画像を選択し、前記ニューラルネットワークを訓練することであって、前記第２の対の画像は、前記環境内の第２の候補着目点を描写する、こと
を含む、項目５に記載の方法。
（項目７）
前記第２の候補着目点が不安定であることを決定することは、
前記第２の候補着目点が、第２の閾値数を超える前記複数の画像の画像の数に描写されていることを決定することと、
前記第２の候補着目点と関連付けられる再投影誤差が、第２の閾値誤差レベルを上回ることを決定することと
を含む、項目５に記載の方法。
（項目８）
前記第１の閾値数は、前記第２の閾値数に等しい、項目７に記載の方法。
（項目９）
前記第１の閾値誤差レベルは、前記第２の閾値誤差レベル未満である、項目７に記載の方法。
（項目１０）
候補着目点毎に、前記個別の安定性メトリックを決定することは、第３の候補着目点が、前記ニューラルネットワークの訓練から省略されるべきであることを決定することを含む、項目６に記載の方法。
（項目１１）
前記第３の候補着目点が、前記ニューラルネットワークの訓練から省略されるべきであることを決定することは、
前記第３の候補着目点が、第３の閾値数未満の前記複数の画像の画像の数に描写されていること、または
前記第３の候補着目点と関連付けられる再投影誤差が、前記第１の閾値誤差レベルと前記第２の閾値誤差レベルとの間であることを決定すること
のうちの少なくとも１つを決定すること
を含む、項目１０に記載の方法。
（項目１２）
前記第３の閾値数は、前記第１の閾値数に等しい、項目１１に記載の方法。
（項目１３）
前記複数の画像は、ビデオシーケンスから抽出された２次元画像を備える、項目１に記載の方法。
（項目１４）
前記複数の画像は、前記ビデオシーケンスの非連続的フレームに対応する、項目１３に記載の方法。
（項目１５）
前記ニューラルネットワークを修正することに続いて、前記ニューラルネットワークによって、第２の環境の第２の複数の画像を頭部搭載型ディスプレイデバイスから受信することと、
前記ニューラルネットワークによって、第２の着目点のセットを識別することと、
前記ニューラルネットワークによって、前記第２の複数の画像および前記第２の着目点のセットに基づいて、前記第２の環境に対してビジュアルオドメトリを実施することと
をさらに含む、項目１に記載の方法。
（項目１６）
前記第２の環境に対してビジュアルオドメトリを実施することは、前記第２の着目点のセットを目印として使用して、前記頭部搭載型ディスプレイデバイスの位置および配向を決定することを含む、項目１５に記載の方法。
（項目１７）
システムであって、
１つ以上のプロセッサと、
１つ以上の非一過性コンピュータ可読媒体であって、前記１つ以上の非一過性コンピュータ可読媒体は、命令の１つ以上のシーケンスを含んでおり、前記命令の１つ以上のシーケンスは、前記１つ以上のプロセッサによって実行されると、
１つ以上のコンピュータシステムを使用して実装されるニューラルネットワークによって、環境の複数の画像を受信することと、
前記ニューラルネットワークによって、画像毎に、個別の着目点のセットおよび個別の記述子を決定することと、
前記ニューラルネットワークによって、前記複数の画像の前記着目点のセットおよび前記記述子に基づいて、前記複数の画像間の対応を決定することであって、前記複数の画像間の対応を決定することは、
着目点のセット間の１つ以上の点対応を決定することであって、各点対応は、１つの画像の着目点と別の画像の着目点との間の個別の対応を示す、ことと、
前記１つ以上の点対応に基づいて、候補着目点のセットを決定することであって、各候補着目点は、３次元空間内の環境内の個別の特徴を示す、ことと
を含む、ことと、
候補着目点毎に、個別の安定性メトリックを決定することと、
１つ以上の候補着目点に基づいて、前記ニューラルネットワークを修正することと
を生じさせる、１つ以上の非一過性コンピュータ可読媒体と
を備える、システム。
（項目１８）
候補着目点毎に、前記個別の安定性メトリックを決定することは、第１の候補着目点が安定していることを決定することを含む、項目１７に記載のシステム。
（項目１９）
前記候補着目点の１つ以上のものに基づいて、前記ニューラルネットワークを修正することは、
前記第１の候補着目点が安定していることの決定に応答して、前記複数の画像の中から、前記第１の候補着目点および第１の対の画像を選択し、前記ニューラルネットワークを訓練することであって、前記第１の対の画像は、前記環境内の第１の候補着目点を描写する、こと
を含む、項目１８に記載のシステム。
（項目２０）
前記第１の候補着目点が安定していることを決定することは、
前記第１の候補着目点が、第１の閾値数を超える前記複数の画像の画像の数に描写されていることを決定することと、
前記第１の候補着目点と関連付けられる再投影誤差が、第１の閾値誤差レベル未満であることを決定することと
を含む、項目１８に記載のシステム。
（項目２１）
候補着目点毎に、前記個別の安定性メトリックを決定することは、第２の候補着目点が不安定であることを決定することを含む、項目１８に記載のシステム。
（項目２２）
前記候補着目点の１つ以上のものに基づいて、前記ニューラルネットワークを修正することは、
前記第２の候補着目点が不安定であることの決定に応答して、前記複数の画像の中から、前記第２の候補着目点および第２の対の画像を選択して、前記ニューラルネットワークを訓練することであって、前記第２の対の画像は、前記環境内の第２の候補着目点を描写する、こと
を含む、項目２１に記載のシステム。
（項目２３）
前記第２の候補着目点が不安定であることを決定することは、
前記第２の候補着目点が、第２の閾値数を超える前記複数の画像の画像の数に描写されていることを決定することと、
前記第２の候補着目点と関連付けられる再投影誤差が、第２の閾値誤差レベルを上回ることを決定することと
を含む、項目２１に記載のシステム。
（項目２４）
前記第１の閾値数は、前記第２の閾値数に等しい、項目２３に記載のシステム。
（項目２５）
前記第１の閾値誤差レベルは、前記第２の閾値誤差レベル未満である、項目２３に記載のシステム。
（項目２６）
候補着目点毎に、前記個別の安定性メトリックを決定することは、第３の候補着目点が、前記ニューラルネットワークの訓練から省略されるべきであることを決定することを含む、項目２２に記載のシステム。
（項目２７）
前記第３の候補着目点が、前記ニューラルネットワークの訓練から省略されるべきであることを決定することは、
前記第３の候補着目点が、第３の閾値数未満の前記複数の画像の画像の数に描写されていること、または
前記第３の候補着目点と関連付けられる再投影誤差が、前記第１の閾値誤差レベルと前記第２の閾値誤差レベルとの間であることを決定すること
のうちの少なくとも１つを決定することを含む、項目２６に記載のシステム。
（項目２８）
前記第３の閾値数は、前記第１の閾値数に等しい、項目２７に記載のシステム。
（項目２９）
前記複数の画像は、ビデオシーケンスから抽出された２次元画像を備える、項目１７に記載のシステム。
（項目３０）
前記複数の画像は、前記ビデオシーケンスの非連続的フレームに対応する、項目２９に記載のシステム。
（項目３１）
前記命令の１つ以上のシーケンスは、１つ以上のプロセッサによって実行されると、
前記ニューラルネットワークを修正することに続いて、前記ニューラルネットワークによって、第２の環境の第２の複数の画像を頭部搭載型ディスプレイデバイスから受信することと、
前記ニューラルネットワークによって、第２の着目点のセットを識別することと、
前記ニューラルネットワークによって、前記第２の複数の画像および前記第２の着目点のセットに基づいて、前記第２の環境に対してビジュアルオドメトリを実施することと
をさらに生じさせる、項目１７に記載のシステム。
（項目３２）
前記第２の環境に対してビジュアルオドメトリを実施することは、前記第２の着目点のセットを目印として使用して、前記頭部搭載型ディスプレイデバイスの位置および配向を決定することを含む、項目３１に記載のシステム。

図１は、ニューラルネットワークを使用した、一対の入力画像の着目点間の点対応の決定を図示する。図２は、ニューラルネットワークの一般的アーキテクチャを図示する。図３は、着目点検出器サブネットワークが、１つ以上の合成画像を含む、合成データセットを使用して訓練される、第１の訓練ステップを図示する。図４は、基準データセットが、ホモグラフィ適合を使用してコンパイルされる、第２の訓練ステップを図示する。図５は、ニューラルネットワークが、基準データセットを使用して訓練される、第３の訓練ステップを図示する。図６は、ニューラルネットワークを使用した、２つの捕捉された画像間のホモグラフィの計算を図示する。図７は、合成データセットの実施例を図示する。図８は、未標識データセットの実施例を図示する。図９は、ニューラルネットワークの例示的アーキテクチャを図示する。図１０は、第２の訓練ステップの間に採用される、ホモグラフィ適合の種々のステップを図示する。図１１は、ランダムホモグラフィ生成のある側面を図示する。図１２は、本明細書に説明される実施形態を利用し得る、ＡＲデバイスの概略図を図示する。図１３は、ニューラルネットワークを訓練し、ニューラルネットワークを使用して、画像着目点検出および記述を実施する方法を図示する。図１４は、画像着目点検出および記述のためのニューラルネットワークを訓練する方法を図示する。図１５は、検出された着目点の推定される安定性に基づいて、ニューラルネットワークを訓練するための例示的プロセスを図示する。図１６は、例示的Ｓｉａｍｅｓｅ訓練プロセスを図示する。図１７は、着目点を標識化する実施例を図示する。図１８は、ビジュアルオドメトリを実施するために、ニューラルネットワークを訓練するための方法を図示する。図１９は、本明細書に説明されるいくつかの実施形態による、簡略化されたコンピュータシステムを図示する。

畳み込みニューラルネットワークは、画像を入力として要求するほぼ全てのタスクにおいて、手動で作り出された表現より優れていることが示されている。特に、２次元（２Ｄ）「特徴点」または「目印」を予測する、完全畳み込みニューラルネットワークは、人間の姿勢推定、オブジェクト検出、および部屋レイアウト推定等の種々のタスクに関して、広く研究されている。これらの技法のうちのいくつかは、人間の注釈を伴って標識される、２Ｄグラウンドトゥルース場所の大量データセットを利用する。着目点検出を大規模教師あり機械学習問題と同様に公式化し、それらを検出するように最新畳み込みニューラルネットワークアーキテクチャを訓練することは、自然であると考えられる。残念ながら、ネットワークが、口角または左足首等の意味論的身体部分を検出するように訓練される、人間の身体特徴点推定等のより多くの意味論タスクと比較して、着目点検出の概念は、意味論的に明確に定義されていない。本難点は、畳み込みニューラルネットワークを着目点の強教師あり学習を用いて訓練することを簡単でないものにする。

人間の教師あり学習を使用して、実画像内の着目点を定義する代わりに、本明細書に説明される実施形態の少なくともいくつかは、自己訓練を使用した自己教師ありソリューションをもたらす。本明細書に説明される実施形態のアプローチでは、実画像内の擬似グラウンドトゥルース着目点場所の大量データセットが、作成され、人間の知識ではなく、着目点検出器自体によって教師あり学習される。擬似グラウンドトゥルース着目点を生成するために、完全畳み込みニューラルネットワークは、最初に、合成画像データセットからの数百万例の一意の実施例において訓練される。特徴抽出は、画像シーケンスにおける画像マッチングおよび追跡のための基本ステップであるため、明確に異なる点の検出および精密な位置特定が重要であり得ることが、認められた。これらの明確に異なる点は、角、縁（多角体の分析のための基本要素）、および孔、ディスク、またはリング等の円形特徴の中心として特性評価された。合流点（Ｙ、Ｘ、Ｔ、Ｌ）もまた、そのような明確に異なる点を検出するために重要と見なされた。例えば、Ｔ－合流点は、一般的に、介在、故に、深度途絶を示す。

これらの洞察を取り入れると、着目点検出器の大規模訓練のための合成形状の大量データセットは、着目点場所に曖昧性が存在しない、単純幾何学的形状から成るように作成され得る。本明細書に説明されるような着目点検出器は、合成形状のデータセットにおいて、従来の着目点検出器より有意に優れていることが示された。実画像に適用されると、着目点検出器は、ドメイン適合が合成画像において訓練するときの既知の問題であることを考慮して、優れた性能を発揮する。しかしながら、古典的着目点検出器と比較して、画像テクスチャおよびパターンの多様なセットでは、着目点検出器の性能は、それほど一貫しない。着目点検出器と古典的検出器との間の実世界画像における性能における溝を埋めるために、本明細書に説明される実施形態の少なくともいくつか（代替として、本明細書では、ホモグラフィ適合と称される）は、マルチスケールマルチ変換を可能にする。

ホモグラフィ適合は、着目点検出器の自己教師あり訓練を可能にする。いくつかの実施形態では、着目点検出器が、多くの異なる視点およびスケールからの場面を確認することに役立てるために、複数回、入力画像をワーピングさせる。擬似グラウンドトゥルース着目点を生成し、検出器の性能を上昇させるために、着目点検出器と併用されると、結果として生じる検出は、より再現可能である。ロバストかつ再現可能着目点を検出した後の１つのステップは、固定された次元記述子ベクトルを各点（または全ての画像ピクセル）に結び付けることであって、これは、画像を横断して着目点をマッチングさせるために使用され得る。したがって、本明細書に説明される実施形態の少なくともいくつかでは、着目点検出器サブネットワークは、記述子サブネットワークと組み合わせられてもよい。結果として生じるネットワークは、図１に示されるように、点を一対の画像から抽出し、点対応を確立するために使用されることができる。

自己教師ありアプローチを含む、本明細書に記載の少なくともいくつかの実施形態によると、初期着目点検出器およびホモグラフィ適合プロシージャは、標的未標識ドメインからの画像を自動的に標識する。生成された標識は、ひいては、ともに、点および記述子を画像から抽出する、完全畳み込みネットワークを訓練するために使用される。完全畳み込みネットワークは、広範囲の用途、特に、２つの画像間のホモグラフィを算出する等の画像／画像幾何学形状タスクを伴うものにおいて使用されることができる。ホモグラフィは、カメラ中心の周囲の回転のみを伴うカメラ運動、オブジェクトまでの大距離を伴う場面、および平面場面に関する正確またはほぼ正確な画像間変換を与える。世界の大部分は、合理的に平面であるため、ホモグラフィは、同一３次元（３Ｄ）点が異なる視点から見られるときに発生するものに関する良好なモデルである。ホモグラフィは、３Ｄ情報を要求しないため、それらは、ランダムにサンプリングされ、双線形補間と大差なく、任意の２Ｄ画像に容易に適用されることができる。これらの理由から、ホモグラフィは、本明細書に説明される実施形態の少なくともいくつかにおいて利用される。

図１は、ニューラルネットワーク１００を使用した、一対の入力画像１０２の着目点間の点対応１０６の決定を図示する。具体的には、図１は、点対応を利用する単一順方向通過において、スケール不変量特徴量変換（ＳＩＦＴ）様２Ｄ着目点場所および記述子を算出する、完全畳み込みニューラルネットワークである、ニューラルネットワーク１００の２つのインスタンス化（すなわち、ニューラルネットワーク１００－１、１００－２）を示す。入力画像１０２－１、１０２－２を入力として受信すると、ニューラルネットワーク１００－１、１００－２は、それぞれ、入力画像１０２－１、１０２－２に基づいて、計算された着目点のセット１０８－１、１０８－２および計算された記述子１１０－１、１１０－２を計算する。点対応１０６は、次いで、着目点のそれぞれと関連付けられた記述子によって情報を与えられる、計算された着目点１０８－１、１０８－２間の比較によって決定される。例えば、異なる着目点と関連付けられた記述子が、マッチングされてもよい。最も類似する記述子を有する異なる画像に対応する、着目点が、いくつかの可能性として考えられる類似性スコア化プロシージャのうちの１つに従って、相互に対応すると決定されてもよい。

一実施例によると、入力画像１０２－１に対応する第１の着目点は、第１の着目点に対する５つの最も近い着目点（ピクセル間ピクセル距離に従って）の中から、５つの最も近い着目点と関連付けられた記述子と比較して、第２の着目点と関連付けられた記述子が、第１の着目点と関連付けられた記述子に最も類似する（例えば、Ｌ２距離を使用することによって決定される）ことを決定することによって、入力画像１０２－２に対応する第２の着目点に対応すると決定されてもよい。別の実施例によると、入力画像１０２－１に対応する第１の着目点は、入力画像１０２－２に対応する全ての着目点の中から、第２の着目点と関連付けられた記述子が、入力画像１０２－２に対応する全ての着目点と関連付けられた記述子と比較して、第１の着目点と関連付けられた記述子に最も類似することを決定することによって、入力画像１０２－２に対応する第２の着目点に対応すると決定されてもよい。

図２は、ニューラルネットワーク１００の一般的アーキテクチャを図示する。ニューラルネットワーク１００は、着目点検出器サブネットワーク１１２と、記述子サブネットワーク１１４とを含んでもよく、２つのサブネットワークはそれぞれ、単一サブネットワーク入力１２０－１、１２０－２（それぞれ）と、単一サブネットワーク出力１２２－１、１２２－２（それぞれ）とを有する。２つのサブネットワークは、別個に図示されるが、それらは、図９を参照して説明されるように、１つ以上の畳み込み層および／またはニューロンを共有してもよい。いくつかの実施形態では、ニューラルネットワーク１００は、入力画像１０２を入力として受信するように構成される、ネットワーク入力１１６を含んでもよい。入力画像１０２は、次いで、サブネットワーク入力１２０－１、１２０－２にフィードされてもよい。サブネットワーク入力１２０－１における入力画像１０２の受信に応じて、着目点検出器サブネットワーク１１２は、着目点１０８を計算し、計算された着目点１０８をサブネットワーク出力１２２－１において出力してもよく、これは、次いで、ネットワーク出力１１８－１の中にフィードされる。サブネットワーク入力１２０－２における入力画像１０２の受信に応じて、記述子サブネットワーク１１４は、記述子１１０を計算し、計算された記述子１１０をサブネットワーク出力１２２－２において出力してもよく、これは、次いで、ネットワーク出力１１８－２の中にフィードされる。故に、サブネットワーク１１２、１１４は、同一入力に基づいて、異なる出力を提供し、ニューラルネットワーク１００の異なる分岐を表すことができる。

ニューラルネットワーク１００は、完全サイズの画像に作用してもよく、単一順方向通過において、固定長記述子を伴う着目点検出を生産してもよい。いくつかの実施形態では、入力画像１０２は、Ｈ×Ｗの寸法を有してもよく、Ｈは、ピクセル単位における入力画像１０２の高さであって、Ｗは、ピクセル単位における入力画像１０２の幅である。同一実施形態では、計算された着目点１０８は、着目点ピクセル場所のリスト（例えば、座標対のリスト）であってもよい、または加えて、または代替として、計算された着目点１０８は、Ｈ×Ｗの寸法を有する、２Ｄマップであってもよく、各ピクセルは、入力（すなわち、入力画像１０２）内のそのピクセルに関する確率「点」に対応する。同一実施形態では、計算された記述子１１０は、それぞれ、識別された着目点に対応する、固定長記述子のセットであってもよい、または加えて、または代替として、計算された記述子１１０は、Ｈ×Ｗ×Ｄの寸法を有してもよく、Ｄは、Ｈ×Ｗ画像の各ピクセルにおいて計算された記述子の長さである。故に、着目点を含有する低確率を有する、ピクセルさえ、長さＤの記述子を有する。

ニューラルネットワーク１００の訓練は、ネットワークモディファイア１２６および／またはサブネットワークモディファイア１２４－１、１２４－２によって可能にされてもよく、これは、訓練位相の間、誤差信号、損失信号、および／または補正信号を受信し、ネットワークの層および／またはニューロンを修正させてもよい。ニューラルネットワーク１００は、ネットワーク出力（計算された着目点１０８および計算された記述子１１０）とグラウンドトゥルースデータとの間の誤差が、同一入力画像１０２または異なる画像を用いた後続実行の間、低減され得るように、修正されてもよい。例えば、ニューラルネットワーク１００は、出力とグラウンドトゥルースとの間の差異を示す、誤差信号／値に基づいて、最小限にされるべきある数量を示す、損失信号／値に基づいて、および／またはニューラルネットワーク１００に対して行われるべき具体的修正を示す、補正信号に基づいて、修正されてもよい。ニューラルネットワーク１００を修正するステップは、着目点検出器サブネットワーク１１２のみを修正するステップ、記述子サブネットワーク１１４のみを修正するステップ、および／またはサブネットワーク１１２、１１４の両方を修正するステップを含んでもよい。

図３は、着目点検出器サブネットワーク１１２が、１つ以上の合成画像を含む、合成データセット１２８を使用して訓練される、第１の訓練ステップを図示する。図３に図示される訓練ステップは、着目点検出器サブネットワーク１１２のみを含んでもよく、記述子サブネットワーク１１４を無視してもよい。着目点が標識された画像の既存の大量のデータベースが存在しないため、深層着目点検出器は、四辺形、三角形、線、および楕円形の合成データレンダリングを介した、簡略化された２Ｄ幾何学形状から成る、大規模合成データセットの作成から利点を享受する。これらの形状の実施例は、図７を参照して示される。本データセットでは、標識曖昧性は、単純Ｙ－合流点、Ｌ－合流点、Ｔ－合流点および小楕円形の中心および線分の終点を用いて、着目点をモデル化することによって除去されることができる。

いったん合成画像が、レンダリングされると、ホモグラフィワーピングが、各画像に適用され、訓練実施例の数を増大させる。データは、リアルタイムで生成されてもよく、実施例は、２回、ネットワークによって確認されなくてもよい。単一訓練反復の間、合成画像１３０が、着目点検出器サブネットワーク１１２に提供され、これは、計算された着目点１０８のセットを計算する。合成画像１３０に対応する合成着目点１３２のセットは、計算された着目点１０８と比較され、損失１３４が、比較に基づいて計算される。着目点検出器サブネットワーク１１２は、次いで、損失１３４に基づいて、修正される。複数の訓練反復が、損失１３４が所定の閾値を下回る、および／または合成データセット１２８が包括的に使用される等の１つ以上の条件が満たされるまで、実施される。

ＦＡＳＴ、Ｈａｒｒｉｓ角、およびＳｈｉ－Ｔｏｍａｓｉの「ＧｏｏｄＦｅａｔｕｒｅｓＴｏＴｒａｃｋ」等の他の従来の角検出アプローチと比較して、着目点検出器サブネットワーク１１２は、合成データセット１２８において、より優れた結果を生産する。着目点検出器サブネットワークのさらなる評価は、人間がグラウンドトゥルース角場所を用いて容易に標識し得る、単純合成幾何学形状の使用から構成された。１つの性能評価では、着目点検出器サブネットワーク１１２の２つの異なるモデルが、使用された。両モデルは、同一エンコーダアーキテクチャを共有するが、層あたりニューロンの数が異なり、第１のモデルは、層あたり６４－６４－６４－６４－１２８－１２８－１２８－１２８－１２８個のニューロンを有し、第２のモデルは、層あたり９－９－１６－１６－３２－３２－３２－３２－３２個のニューロンを有した。各検出器は、合成データセット１２８を伴う、評価データセットを与えられ、それらが単純角を位置特定した正確度を決定した。評価は、着目点検出器サブネットワーク１１２が、全てのカテゴリにおいて、古典的検出器より優れており、古典的検出器が、特に、ランダム入力に関して難点を有することを実証した。

図４は、基準データセット１４４が、ホモグラフィ適合を使用してコンパイルされる、第２の訓練ステップを図示する。基準データセット１４４は、例えば、実世界画像を含む、未標識データセット１３６から得られた画像、および基準着目点および基準記述子を含む、擬似グラウンドトゥルースデータセットを表す。入力画像１０２は、未標識データセット１３６から得られ、ニューラルネットワーク１００に提供され、これは、入力画像１０２に基づいて、計算された着目点１０８のセットと、計算された記述子１１０とを計算する。データは、基準データセット１４４内に、基準セット１４２として記憶されてもよく、各基準セット１４２は、入力画像１０２と、入力画像１０２に対応する計算された着目点１０８と、入力画像１０２に対応する計算された記述子１１０とを含む。

単一訓練反復の間、ホモグラフィ適合が、入力画像１０２の多数のホモグラフィワーピングを横断して平均応答を使用するために採用されてもよい。ホモグラフィ生成器１３８は、画像をニューラルネットワーク１００を通して通過させることに先立って、１つ以上のランダムまたは擬似ランダムホモグラフィを入力画像１０２に適用するために使用されてもよい。ニューラルネットワーク１００の他側では、逆ホモグラフィ生成器１４０が、１つ以上の逆ホモグラフィを計算された着目点１０８に適用するために使用されてもよく、１つ以上の逆ホモグラフィは、計算された着目点１０８をワーピング解除するような１つ以上のホモグラフィの逆である。プロセスは、同一入力画像１０２に関して繰り返され、１つ以上のワーピング解除された計算された着目点を取得してもよい。１つ以上のワーピング解除された計算された着目点は、集約され／組み合わせられ、基準データセット１４４内に、入力画像１０２および基準記述子とともに、基準セット１４２の一部として記憶される、基準着目点のセットを取得してもよい。

加えて、または代替として、ホモグラフィ適合は、ニューラルネットワーク１００によって出力された記述子を改良するために採用されてもよい。例えば、単一訓練反復の間、ホモグラフィ生成器１３８は、画像をニューラルネットワーク１００を通して通過させることに先立って、１つ以上のランダムまたは擬似ランダムホモグラフィを入力画像１０２に適用するために使用されてもよい。ニューラルネットワーク１００の他側では、逆ホモグラフィ生成器１４０が、１つ以上の逆ホモグラフィを計算された記述子１１０に適用するために使用されてもよく、１つ以上の逆ホモグラフィは、計算された記述子１１０をワーピング解除するような１つ以上のホモグラフィの逆である。プロセスは、同一入力画像１０２に関して繰り返され、１つ以上のワーピング解除された計算された記述子を取得してもよい。１つ以上のワーピング解除された計算された記述子は、集約され／組み合わせられ、基準データセット１４４内に、入力画像１０２および基準着目点のセットとともに、基準セット１４２の一部として記憶される、基準記述子を取得してもよい。

ホモグラフィワーピングＮ_ｈの数は、本アプローチのハイパーパラメータである。いくつかの実施形態では、第１のホモグラフィは、Ｎ_ｈ＝１（無適合を意味する）であるように、単位元と等しくなるように設定される。試験では、Ｎ_ｈの範囲は、好ましい値を試し、決定するように変動され、Ｎ_ｈは、いくつかの実施形態では、低値（Ｎ_ｈ＝１０）から、中値（Ｎ_ｈ＝１００）、高値（Ｎ_ｈ＝１０００）まで実行された。結果は、１００を上回るホモグラフィを実施するとき、収穫逓減が存在することを示唆する。ＭＳ－ＣＯＣＯからの画像のホールドアウトされたセットにおいて、０．６７の再現性スコアが、任意のホモグラフィ適合を伴わずに、満たされ、Ｎ_ｈ＝１００の変換を実施するときの２１％の再現性上昇およびＮ_ｈ＝１，０００のときの２２％の再現性上昇は、１００を上回るホモグラフィを使用することの最小限の利点を十分に実証した。

着目点応答マップまたは記述子マップを組み合わせるとき、スケール内集約とスケール横断集約との間で区別することが有益であり得る。実世界画像は、典型的には、異なるスケールにおける特徴を含有し、高分解能画像に関係すると見なされるであろう、いくつかの点は、多くの場合、より粗くより低い分解能画像内では可視でさえない。しかしながら、単一スケール内では、回転および平行移動等の画像の変換は、着目点を出現／消失させないはずである。画像の本下層マルチスケール性質は、スケール内およびスケール横断集約方略に関する異なる含意を有する。スケール内集約は、セットの交わりの算出に類似するはずであって、スケール横断集約は、セットの和に類似するはずである。スケールを横断した平均応答はまた、着目点信頼度のマルチスケール測定値として使用されることができる。スケールを横断した平均応答は、着目点が全てのスケールを横断して可視であるとき、最大限にされ、これらは、追跡用途のための最もロバストな着目点である可能性が高い。

スケールを横断して集約するとき、検討されるスケールの数Ｎ_ｓは、アプローチのハイパーパラメータである。Ｎ_ｓ＝１の設定は、無マルチスケール集約（または単に、大きな可能性として考えられる画像サイズのみを横断した集約）に対応する。いくつかの実施形態では、Ｎ_ｓ＞１に関して、処理されている画像のマルチスケールセットは、「マルチスケール画像ピラミッド」と称される。ピラミッドのレベルに異なるように加重する、加重スキームは、より高い分解能画像に、より大きい加重を与え得る。これは、より低い分解能において検出された着目点が、不良位置特定能力を有し、最終的な集約された点が、同様に位置特定されるはずであるため、重要であり得る。実験結果は、スケール内集約が、再現性に最大効果を及ぼすことを実証した。いくつかの実施形態では、ホモグラフィ適合技法は、実画像上におけるサブネットワーク１１２、１１４およびネットワーク１００の一般化能力を改良するために、訓練時間に適用される。

ホモグラフィ適合アプローチのための理論的裏付けが、以下の段落に説明される。いくつかの実施形態では、初期着目点関数は、以下のように、ｆ_θ（・）によって表され、Ｉは、入力画像であって、ｘは、結果として生じる点であって、Ｈは、ランダムホモグラフィである。

理想的着目点演算子は、ホモグラフィに対して共変するはずである。関数ｆ_θ（・）は、出力が入力に伴って変換される場合、Ｈに伴って共変する。換言すると、共変検出器は、あらゆる場合において、以下を満たすであろう。

明確にするために、表記Ｈｘは、結果として生じる着目点に適用される、ホモグラフィ行列Ｈを示し、Ｈ（Ｉ）は、ホモグラフィ行列Ｈによってワーピングされる、画像Ｉ全体を示す。ホモグラフィ関連項を右に移動させることは、以下を生産する。

実際は、着目点検出器は、完璧に共変ではなく、前の方程式における異なるホモグラフィは、異なる着目点ｘをもたらすであろう。いくつかの実施形態では、これは、ランダムＨの十分に大量のサンプルにわたる経験的総和を実施することによって、対処される。サンプルにわたる結果として生じる集約は、以下のように定義される、より優れた着目点検出器Ｆ（・）をもたらす。

いくつかの実施形態では、全ての行列が、良好な結果を生産するわけではなく、技術的能力の欠如のためではなく、全ての可能性として考えられるランダムホモグラフィが妥当と思われるカメラ変換を表すわけではないためである。いくつかの実施形態では、潜在的ホモグラフィは、切断正規分布を使用して、平行移動、スケール、面内回転、および対称投影歪みに関して、所定の範囲内でサンプリングすることによって、より単純であまり表現的ではない変換クラスに分解される。これらの変換は、初期基底中心クロッピングとともに構成され、境界アーチファクトを回避することに役立つ。

図５は、ニューラルネットワーク１００が、基準データセット１４４を使用して訓練される、第３の訓練ステップを図示する。単一訓練反復の間、基準データセット１４４内に含有される単一基準セット１４２が、読み出される。各基準セット１４２は、入力画像１０２と、入力画像１０２に対応する基準着目点のセット１４８と、（随意に）入力画像１０２に対応する基準記述子１５０とを含んでもよい。１つ以上のホモグラフィ生成器１３８を使用して、ワーピングされた入力画像１０３が、ホモグラフィを入力画像１０２に適用することによって生成され、基準着目点のワーピングされたセット１４９が、同一ホモグラフィを基準着目点１４８に適用することによって生成される。順次または並行して、ニューラルネットワーク１００－１は、入力画像１０２を受信し、入力画像１０２に基づいて、計算された着目点のセット１０８および計算された記述子１１０を計算し、ニューラルネットワーク１００－２は、ワーピングされた入力画像１０３を受信し、ワーピングされた入力画像１０３に基づいて、計算されたワーピングされた着目点のセット１０９および計算されたワーピングされた記述子１１１を計算する。

損失Ｌが、本明細書に説明されるように、計算された着目点１０８、計算された記述子１１０、計算されたワーピングされた着目点１０９、計算されたワーピングされた記述子１１１、基準着目点１４８、ワーピングされた基準着目点１４９、および／またはホモグラフィＨに基づいて、計算されてもよい。ニューラルネットワーク１００は、次いで、損失Ｌに基づいて、修正されてもよい。損失Ｌに基づいて、ニューラルネットワーク１００を修正するステップは、着目点検出器サブネットワーク１１２のみを修正するステップ、記述子サブネットワーク１１４のみを修正するステップ、および／またはサブネットワーク１１２、１１４の両方を修正するステップを含んでもよい。いくつかの実施形態では、ニューラルネットワーク１００は、損失Ｌが、同一基準セット１４２を使用して、後続実行に関して低減されるように修正される。複数の訓練反復が、損失Ｌが所定の閾値を下回る、および／または基準データセット１４４が包括的に使用される等の１つ以上の条件が満たされるまで、実施される。

いくつかの実施形態では、損失Ｌは、２つの中間損失の和である、すなわち、１つは、着目点検出器に関するものＬ_ｐであって、１つは、記述子に関するものＬ_ｄである。同時損失最適化は、（ａ）擬似グラウンドトゥルース着目点場所と、（ｂ）２つの画像を関連させる、ランダムに生成されたホモグラフィＨからのグラウンドトゥルース対応の両方を有する、対の合成ワーピングされた画像の可用性に起因して、可能にされる。損失Ｌは、以下によって、λにおける関数として平衡される。
式中、Ｘは、計算された着目点１０８であって（またはそれに関連し）、Ｘ’は、計算されたワーピングされた着目点１０９であって（またはそれに関連し）、Ｙは、基準着目点１４８であって（またはそれに関連し）、Ｙ’は、ワーピングされた基準着目点１４９であって（またはそれに関連し）、Ｄは、計算された記述子１１０であって（またはそれに関連し）、Ｄ’は、計算されたワーピングされた記述子１１１である（またはそれに関連する）。Ｓは、類似性スコア行列であって、全体的に、ランダムに生成されたホモグラフィＨに基づいて決定され得る。図５に図示されるように、ホモグラフィＨまたは類似性スコア行列Ｓのいずれかが、損失計算機の中にフィードされてもよい。

着目点検出器損失関数Ｌ_ｐは、セルｘ_ｈｗ∈Ｘにわたる完全畳み込みクロスエントロピ損失である。対応するグラウンドトゥルース着目点標識Ｙおよび個々のエントリは、ｙ_ｈｗである。損失は、したがって、以下となる。
式中、
記述子損失は、入力画像１０２からのｄ_ｈｗ∈Ｄとワーピングされた入力画像１０３からのｄ’_ｈ’ｗ’∈Ｄ’の記述子セルの全ての対に適用される。（ｈ，ｗ）セルと（ｈ’，ｗ’）セルとの間のホモグラフィ誘発対応は、以下のように記述され得る。
式中、ｐ_ｈｗは、（ｈ、ｗ）セル内の中心ピクセルの場所を示し、
は、セル場所ｐ_ｈｗとホモグラフィＨの乗算を示す。一対の画像に関する対応のセット全体は、Ｓである。

いくつかの実施形態では、加重項λ_ｄは、負のものより正の対応の存在を平衡することに役立つ。記述子損失は、以下によって与えられる。
式中、
である。

図６は、ニューラルネットワーク１００を使用した、２つの捕捉された画像１５４－１、１５４－２間のホモグラフィＨの計算を図示する。図示される実施形態は、光学デバイス、例えば、他の可能性の中でもとりわけ、ＡＲまたは複合現実（ＭＲ）デバイス、自動運転車両、無人航空機、有人車両、ロボット等、ニューラルネットワーク１００を利用する、いくつかのシステムまたはデバイスに対応してもよい。

本明細書に説明される技法を使用して訓練後、ニューラルネットワーク１００は、捕捉された画像１５４－１、１５４－２が、単一カメラ１５２から、または複数のカメラから、受信される、ランタイムモードで動作してもよい。例えば、捕捉された画像１５４－１は、第１のカメラから受信されてもよく、捕捉された画像１５４－２は、第２のカメラから受信されてもよい。捕捉された画像１５４－１、１５４－２は、異なるカメラによって、同時に、または異なるカメラによって、または単一カメラによって、異なる時間に、捕捉されてもよい。ニューラルネットワーク１００は、捕捉された画像１５４－１、１５４－２を、ネットワーク入力１１６を介して受信してもよく、捕捉された画像１５４－１に基づいて、計算された着目点１０８－１および計算された記述子１１０－１のセットと、捕捉された画像１５４－２に基づいて、計算された着目点１０８－２および計算された記述子１１０－２のセットとを計算してもよい。

いくつかの実施形態では、ホモグラフィＨを決定するステップに先立って、点対応１０６が、着目点のそれぞれと関連付けられた記述子によって情報を与えられる、計算された着目点１０８－１と１０８－２との間の比較によって決定される。例えば、異なる着目点と関連付けられた記述子が、マッチングされてもよい。最も類似する記述子を有する、異なる画像に対応する着目点は、いくつかの可能性として考えられる類似性スコア化プロシージャのうちの１つに従って、相互に対応すると決定されてもよい。ホモグラフィＨは、点対応１０６から計算されてもよい。例えば、捕捉された画像１５４－１、１５４－２間の相対的姿勢は、点対応１０６に基づいて、計算されてもよく、ホモグラフィＨは、相対的姿勢のカメラ回転および平行移動を表す、行列として計算されてもよい。加えて、または代替として、相対的姿勢は、ホモグラフィＨと等しくてもよい。

図７は、合成データセット１２８の実施例を図示する。いくつかの実施形態では、合成データセット１２８は、円形、三角形、四辺形（例えば、正方形、長方形、菱形、平行四辺形等）、五角形、六角形、星形、立方体、球体、楕円体、円筒形、錐体、角柱、角錐、線等の比較的に明確に定義された着目点を有する、多数の形状タイプを表す１つ以上の形状を含有してもよい。

図８は、未標識データセット１３６の実施例を図示する。未標識データセット１３６は、可変照明、雑音、カメラ効果等を有する、実世界の画像を含有してもよい。実画像は、合成画像よりはるかに雑然とし、雑音が多く、合成世界内で容易にモデル化されることができない、多様な視覚的効果を含有する。

図９は、ニューラルネットワーク１００の例示的アーキテクチャを図示する。図示される実施形態では、ニューラルネットワーク１００は、入力画像寸法を処理および低減させる、単一共有エンコーダを含む。いったんエンコーダによって処理されると、いくつかの実施形態では、アーキテクチャは、２つのデコーダ「ヘッド」に分割され、これは、タスク特有加重を学習し、一方は、着目点検出のためのものであって、他方は、着目点記述のためのものである。

いくつかの実施形態では、ニューラルネットワーク１００は、ＶＧＧ式エンコーダを使用して、画像の寸法を低減させる。エンコーダは、畳み込み層、プーリング演算を介した空間ダウンサンプリング、および非線形活性化関数から成る。いくつかの実施形態では、エンコーダは、３つの最大プーリング層であって、寸法Ｈ×Ｗの画像Ｉに関するＨ_ｃ＝Ｈ／８およびＷ_ｃ＝Ｗ／８を定義する。より低い寸法の出力におけるピクセルは、セルと称され、エンコーダ内の３つの２×２非重複最大プーリング演算は、８×８ピクセルセルをもたらす。エンコーダは、入力画像Ｉ∈Ｒ^{Ｈｃ×Ｗｃ×Ｆ}とより小さい空間寸法およびより大きいチャネル深度（すなわち、Ｈ_ｃ＜Ｈ、Ｗ_ｃ＜Ｗ、およびＦ＞１）をマッピングする。

いくつかのインスタンスでは、稠密予測のためのネットワーク設計は、エンコーダ－デコーダペアを伴ってもよく、空間分解能は、プーリングまたはストライド畳み込みを介して減少され、次いで、上方畳み込み演算を介して、完全に分解能に戻るようにアップサンプリングされる。残念ながら、アップサンプリング層は、多量の算出を追加する傾向にあり、望ましくない市松模様アーチファクトを導入し得、したがって、本明細書に開示される実施形態のうちのいくつかに関して、着目点検出デコーダヘッドは、明示的デコーダを利用して、モデルの算出を低減させる。いくつかの実施形態では、着目点検出器ヘッドは、値Ｘ∈Ｒ^{Ｈｃ×Ｗｃ×６５}を算出し、テンソルサイズＸ∈Ｒ^Ｈ×Ｗを出力する。６５チャネルは、ピクセルの局所非重複８×８グリッド領域＋余剰「無着目点」ダストビンに対応する。チャネル毎ソフトマックス関数後、ダストビン寸法は、除去され、Ｒ^{Ｈｃ×Ｗｃ×６４}からＲ^Ｈ×Ｗへの再変換関数が、実施される。

記述子ヘッドは、Ｄ∈Ｒ^{Ｈｃ×Ｗｃ×Ｄ}を算出し、テンソルサイズＲ^{Ｈ×Ｗ×Ｄ}を出力する。Ｌ２正規化固定長記述子の稠密マップを出力するために、ＵＣＮに類似するモデルが、最初に、記述子の準稠密グリッド（例えば、８ピクセル毎に１つ）を出力するために使用されてもよい。稠密的にではなく、準稠密的に記述子を学習することは、訓練メモリを低減させ、ランタイムをトレース可能に保つ。デコーダは、次いで、記述子の双三次補間を実施し、次いで、活性化を単位長にＬ２正規化する。図９に描写されるように、両デコーダは、入力の共有され、空間的に低減された表現に作用する。モデルを訓練が高速かつ容易であるように保つために、いくつかの実施形態では、両デコーダは、学習されていないアップサンプリングを使用して、表現をＲ^Ｈ×Ｗに戻す。

いくつかの実施形態では、エンコーダは、８つの３×３畳み込み層サイズの６４－６４－６４－６４－１２８－１２８－１２８－１２８を伴う、ＶＧＧ状アーキテクチャである。２つの層毎に、２×２最大プーリング層が存在する。各デコーダヘッドは、２５６単位の単一３×３畳み込み層に続いて、それぞれ、着目点検出器および記述子のための６５単位および２５６単位を伴う、１×１畳み込み層を有する。ネットワーク内の全ての畳み込み層後に、ＲｅＬＵ非線形活性化およびＢａｔｃｈＮｏｒｍ正規化が続いてもよい。

図１０は、第２の訓練ステップ（図４を参照して説明される）の間に採用される、ホモグラフィ適合の種々のステップを図示する。ステップ１００２では、未標識画像（例えば、入力画像１０２）が、未標識データセット１３６から得られる。ステップ１００４では、いくつかのランダムホモグラフィが、ホモグラフィ生成器１３８においてサンプリングされる。ステップ１００６では、ランダムホモグラフィが、未標識画像に適用され、いくつかのワーピングされた画像を生成する。ステップ１００８では、ワーピングされた画像は、着目点検出器サブネットワーク１１２を通して通過される。ステップ１０１０では、いくつかの点応答（例えば、計算された着目点のセット１０８）が、着目点検出器サブネットワーク１１２によって計算される。ステップ１０１２では、点応答（すなわち、ヒートマップ）が、いくつかの逆ホモグラフィ（逆ホモグラフィ生成器１４０によって生成された）を点応答に適用し、いくつかのワーピング解除されたヒートマップを生成することによって、ワーピング解除される。ステップ１０１４では、ワーピング解除されたヒートマップは、例えば、種々の利用可能な技法のうちの１つを通して、平均する、総和する、または組み合わせることによって、集約される。

図１１は、ランダムホモグラフィ生成のある側面を図示する。ランダムな現実的ホモグラフィ変換を生成するために、ホモグラフィは、平行移動、スケーリング、回転、および対称投影歪み等のより単純な変換に分解されることができる。サンプル領域が、オリジナル画像の外側のピクセルを含有するときに発生する、境界アーチファクトを回避することに役立てるために、ランダムホモグラフィは、図１１に図示されるように、中心クロッピングから開始する。単純変換の変換大きさは、ランダムガウスおよび一様分布である。最終ホモグラフィ変換を生成するために、ランダムにサンプリングされた単純変換が、連続的に適用され、最終ホモグラフィを取得する。

図１２は、本明細書に説明される実施形態を利用し得る、ＡＲデバイス１２００の概略図を図示する。ＡＲデバイス１２００は、左接眼レンズ１２０２Ａと、右接眼レンズ１２０２Ｂとを含んでもよい。いくつかの実施形態では、ＡＲデバイス１２００は、限定ではないが、他の可能性の中でもとりわけ、左接眼レンズ１２０２Ａに直接またはその近傍に取り付けられる、左正面に向いた世界カメラ１２０６Ａと、右接眼レンズ１２０２Ｂに直接またはその近傍に取り付けられる、右正面に向いた世界カメラ１２０６Ｂと、左接眼レンズ１２０２Ａに直接またはその近傍に取り付けられる、左側に向いた世界カメラ１２０６Ｃと、右接眼レンズ１２０２Ｂに直接またはその近傍に取り付けられる、右側に向いた世界カメラ１２０６Ｄと、ユーザの左眼を観察するように位置付けられる、左眼トラッカと、ユーザの右眼を観察するように位置付けられる、右眼トラッカと、周囲光センサとを含む、１つ以上のセンサを含む。いくつかの実施形態では、ＡＲデバイス１２００は、左接眼レンズ１２０２Ａに光学的に連結される、左プロジェクタ１２１４Ａおよび右接眼レンズ１２０２Ｂに光学的に連結される、右プロジェクタ１２１４Ｂ等の１つ以上の画像投影デバイスを含む。

ＡＲデバイス１２００のコンポーネントの一部または全部は、投影された画像がユーザによって視認され得るように、頭部搭載型であってもよい。１つの特定の実装では、図１２に示されるＡＲデバイス１２００のコンポーネントは全て、ユーザによって装着可能な単一デバイス（例えば、単一ヘッドセット）上に搭載される。別の実装では、処理モジュール１２５０の１つ以上のコンポーネントは、物理的に別個であって、１つ以上の有線および／または無線接続によって、ＡＲデバイス１２００の他のコンポーネントに通信可能に結合される。例えば、処理モジュール１２５０は、ＡＲデバイス１２００の頭部搭載部分上のローカルモジュール１２５２と、ローカルモジュール１２５２と物理的に別個であって、それに通信可能に連結される、遠隔モジュール１２５６とを含んでもよい。遠隔モジュール１２５６は、フレームに固定して取り付けられる、ユーザによって装着されるヘルメットまたは帽子に固定して取り付けられる、ヘッドホンに内蔵される、または別様に、ユーザに除去可能に取り付けられる（例えば、リュック式構成において、ベルト結合式構成において等）等、種々の構成において搭載されてもよい。

処理モジュール１２５０は、プロセッサと、不揮発性メモリ（例えば、フラッシュメモリ）等の関連付けられたデジタルメモリとを含んでもよく、その両方とも、データの処理、キャッシュ、および記憶を補助するために利用され得る。データは、カメラ１２０６、周囲光センサ、眼トラッカ、マイクロホン、慣性測定ユニット、加速度計、コンパス、ＧＰＳユニット、無線デバイス、および／またはジャイロスコープ等、（例えば、ＡＲデバイス１２００に動作可能に結合される、または別様にユーザに取り付けられ得る）センサから捕捉されるデータを含んでもよい。例えば、処理モジュール１２５０は、画像１２２０をカメラ１２０６から受信してもよい。具体的には、処理モジュール１２５０は、左正面画像１２２０Ａを左正面に向いた世界カメラ１２０６Ａから、右正面画像１２２０Ｂを右正面に向いた世界カメラ１２０６Ｂから、左側画像１２２０Ｃを左側に向いた世界カメラ１２０６Ｃから、および右側画像１２２０Ｄを右側に向いた世界カメラ１２０６Ｄから受信してもよい。いくつかの実施形態では、画像１２２０は、単一画像、一対の画像、画像のストリームを含むビデオ、ペアリングされた画像のストリームを含むビデオ、および同等物を含んでもよい。画像１２２０は、ＡＲデバイス１２００が電源オンである間、周期的に、生成され、処理モジュール１２５０に送信されてもよい、または処理モジュール１２５０によってカメラのうちの１つ以上のものに送信される命令に応答して、生成されてもよい。別の実施例として、処理モジュール１２５０は、周囲光情報を周囲光センサから受信してもよい。別の実施例として、処理モジュール１２５０は、視線情報を眼トラッカから受信してもよい。別の実施例として、処理モジュール１２５０は、画像情報（例えば、画像明度値）をプロジェクタ１２１４の一方または両方から受信してもよい。

接眼レンズ１２０２Ａ、１２０２Ｂは、それぞれ、プロジェクタ１２１４Ａ、１２１４Ｂからの光を指向および外部結合するように構成される、透明または半透明導波管を含んでもよい。具体的には、処理モジュール１２５０は、左プロジェクタ１２１４Ａに、左仮想画像光１２２２Ａを左接眼レンズ１２０２Ａ上に出力させてもよく、右プロジェクタ１２１４Ｂに、右仮想画像光１２２２Ｂを右接眼レンズ１２０２Ｂ上に出力させてもよい。いくつかの実施形態では、接眼レンズ１２０２はそれぞれ、異なる色および／または異なる深度平面に対応する、１つ以上の導波管を含んでもよい。カメラ１２０６Ａ、１２０６Ｂは、それぞれ、ユーザの左および右眼の視野と実質的に重複する、画像を捕捉するように位置付けられてもよい。故に、カメラ１２０６の設置は、ユーザの眼の近傍であるが、ユーザの視野を曖昧にしないようにあまり近傍ではなくてもよい。代替として、または加えて、カメラ１２０６Ａ、１２０６Ｂは、それぞれ、仮想画像光１２２２Ａ、１２２２Ｂの内部結合場所と整合するように位置付けられてもよい。カメラ１２０６Ｃ、１２０６Ｄは、例えば、ユーザの周辺視覚内またはユーザの周辺視覚外のユーザの側面に対する画像を捕捉するように位置付けられてもよい。カメラ１２０６Ｃ、１２０６Ｄを使用して捕捉された画像１２２０Ｃ、１２２０Ｄは、必ずしも、カメラ１２０６Ａ、１２０６Ｂを使用して捕捉された画像１２２０Ａ、１２２０Ｂと重複する必要はない。

図１３は、ニューラルネットワーク１００を訓練し、ニューラルネットワーク１００を使用して、画像着目点検出および記述を実施する方法１３００を図示する。方法１３００の１つ以上のステップは、図示される実施形態に示されるものと異なる順序で実施されてもよく、方法１３００の１つ以上のステップは、方法１３００の実施の間、省略されてもよい。

ステップ１３０２では、ニューラルネットワーク１００が、訓練される。ステップ１３０２－１では、ニューラルネットワーク１００の着目点検出器サブネットワーク１１２が、合成データセット１２８を使用して訓練される。合成データセット１２８は、１つ以上の合成画像と、１つ以上の合成画像に対応する、合成着目点の１つ以上のセットとを含んでもよい。ステップ１３０２－１はさらに、図３を参照して説明される。

ステップ１３０２－２では、基準データセット１４４が、着目点検出器サブネットワーク１１２および／または記述子サブネットワーク１１４を使用して生成される。いくつかの実施形態では、基準データセット１４４は、１つ以上のワーピングされた画像が、１つ以上のホモグラフィを入力画像１０２に適用することによって生成される、ホモグラフィ適合を使用して生成され、１つ以上の計算された着目点のセット１０８は、１つ以上のワーピングされた画像を着目点検出器サブネットワーク１１２を通して通過させることによって計算される。１つ以上の計算された着目点のセット１０８は、次いで、ワーピング解除および集約され、基準データセット１４４内に記憶される、基準着目点のセットを取得する。加えて、または代替として、１つ以上の計算された記述子１１０は、１つ以上のワーピングされた画像を記述子サブネットワーク１１４を通して通過させることによって計算される。１つ以上の計算された記述子１１０は、次いで、ワーピング解除および集約され、基準データセット１４４内に記憶される、基準記述子を取得する。ステップ１３０２－２はさらに、図４を参照して説明される。

ステップ１３０２－３では、着目点検出器サブネットワーク１１２および記述子サブネットワーク１１４が、基準データセット１４４を使用して、並行して訓練される。単一訓練反復の間、入力画像１０２と、基準着目点１４８と、（随意に）基準記述子１５０とを含む、基準セット１４２が、基準データセット１４４から読み出され、損失Ｌを計算するために使用される。着目点検出器サブネットワーク１１２および記述子サブネットワーク１１４の一方または両方は、計算された損失Ｌに基づいて修正されてもよい。ステップ１３０２－３はさらに、図５を参照して説明される。

ステップ１３０４では、画像着目点検出および記述が、ニューラルネットワーク１００を使用して実施される。いくつかの実施形態では、第１の捕捉された画像１５４－１および第２の捕捉された画像１５４－２は、カメラ１５２または２つの異なるカメラを使用して捕捉される。捕捉された画像１５４－１、１５４－２は、次いで、ニューラルネットワーク１００を通して通過されてもよい。計算された着目点１０８－１、１０８－２および計算された記述子１１０－１、１１０－２は、ホモグラフィＨを計算するために使用されてもよい。いくつかの実施形態では、ＡＲデバイス１２００は、ホモグラフィＨに基づいて、仮想画像光１２２２Ａ、１２２２Ｂの一方または両方を調節してもよい。例えば、ＡＲデバイス１２００のユーザが、プロジェクタ１２１４Ａ、１２１４Ｂによって接眼レンズ１２０２Ａ、１２０２Ｂ上に投影された仮想画像光１２２２Ａ、１２２２Ｂを視認する、ユーザによって知覚される仮想コンテンツを視認しながら、その頭部を方向転換させると、仮想光は、新しい視認角度と関連付けられたホモグラフィＨに基づいて、調節される必要があるであろう。ステップ１３０４はさらに、図６を参照して説明される。

図１４は、画像着目点検出および記述のためのニューラルネットワーク１００を訓練する方法１４００を図示する。方法１４００の１つ以上のステップは、図示される実施形態に示されるものと異なる順序で実施されてもよく、方法１４００の１つ以上のステップは、方法１４００の実施の間、省略されてもよい。

ステップ１４０２では、ワーピングされた入力画像１０３が、ホモグラフィを入力画像１０２に適用することによって生成される。ステップ１４０４では、ワーピングされた基準着目点１４９が、ホモグラフィを基準着目点１４８に適用することによって生成される。ステップ１４０６では、計算された着目点１０８および計算された記述子１１０が、入力画像１０２を入力として受信する、ニューラルネットワーク１００によって、計算される。ステップ１４０８では、計算されたワーピングされた着目点１０９および計算されたワーピングされた記述子１１１が、ワーピングされた入力画像１０３を入力として受信する、ニューラルネットワーク１００によって、計算される。

ステップ１４１０では、損失Ｌが、計算された着目点１０８、計算された記述子１１０、計算されたワーピングされた着目点１０９、計算されたワーピングされた記述子１１１、基準着目点１４８、ワーピングされた基準着目点１４９、およびホモグラフィのうちの１つ以上のものに基づいて、計算される。いくつかの実施形態では、損失Ｌはさらに、ホモグラフィに基づいて計算される。ステップ１４１２では、ニューラルネットワーク１００は、損失Ｌに基づいて修正される。
着目点安定性推定に基づく自己改良ビジュアルオドメトリ：

本明細書に説明されるように、ニューラルネットワーク１００は、その性能を改良するために、基準データセット１４４を使用して訓練されることができる。例えば、基準データセット１４４は、例えば、実世界画像および基準着目点および基準記述子を含む、未標識データセット１３６から得られた画像を含むことができる。例えば、図４を参照すると、入力画像１０２は、未標識データセット１３６から得られることができ、ニューラルネットワーク１００に提供されることができ、これは、入力画像１０２に基づいて、計算された着目点１０８（例えば、１つ以上の着目点）および計算された記述子１１０を計算する。データは、基準セット１４２として、基準データセット１４４内に記憶されてもよく、各基準セット１４２は、入力画像１０２と、入力画像１０２に対応する、計算された着目点１０８と、入力画像１０２に対応する、計算された記述子１１０とを含む。いくつかの実施形態では、あるデータは、基準データセット１４４内に選択的に記憶されることができる（例えば、ニューラルネットワーク１００を訓練するためにより好適なデータ）一方、ある他のデータは、基準データセット１４４から選択的に省略されることができる（例えば、ニューラルネットワーク１００を訓練するためにあまり好適ではないデータ）。これは、例えば、ビジュアルオドメトリに関連して使用するためにより好適な画像内の着目点とビジュアルオドメトリに関連して使用するためにあまり好適ではない画像内の着目点とを区別するための訓練プロセスの能力を改良する際に有益であり得る。

いくつかの実施形態では、データは、各入力画像１０２内の計算された着目点１０８の推定される安定性に基づいて、基準データセット１４４内への含有のために選択されることができる。実施例として、ニューラルネットワーク１００は、入力画像１０２内の計算された着目点１０８毎に、計算された着目点１０８が（例えば、シーケンスにおける１つ以上の画像を横断して）安定して追跡され得る程度を示す、安定性メトリックを計算することができる。安定した（例えば、十分に高安定性メトリックを有する）計算された着目点１０８を有する、入力画像１０２は、基準データセット１４４内に含まれることができる（例えば、ビジュアルオドメトリに関連して使用するためにより好適な画像内の着目点を識別するニューラルネットワーク１００の能力を改良するために）。不安定な（例えば、十分に低い安定性メトリックを有する）計算された着目点１０８を有する、入力画像１０２もまた、基準データセット１４４内に含まれることができる（例えば、ビジュアルオドメトリに関連して使用するためにあまり好適ではない画像内の着目点を識別するニューラルネットワーク１００の能力を改良するために）。安定または不安定のいずれでもない（例えば、十分に高いまたは十分に低いのいずれでもない、安定性メトリックを有する）、計算された着目点１０８を有する、入力画像１０２は、基準データセット１４４から除外されることができる。これは、例えば、ニューラルネットワーク１００を訓練するためにあまり好適ではない場合がある、曖昧なデータ（例えば、安定着目点の明白な実施例または不安定着目点の明白な実施例のいずれも提供しない、データ）を除外するため、有益であり得る。

図１５は、検出された着目点の推定される安定性に基づいてニューラルネットワークを訓練するための例示的プロセスの概要を示す。いったん訓練されると、ニューラルネットワークは、１つ以上の入力画像に基づいて、ビジュアルオドメトリを実施するために使用されることができる。いくつかの実施形態では、ニューラルネットワークは、頭部搭載型ディスプレイシステムの環境内の頭部搭載型ディスプレイシステムの配向および位置を追跡するために使用されることができる（例えば、仮想現実または拡張現実画像の提示を促進するために）。いくつかの実施形態では、ニューラルネットワークは、頭部搭載型ディスプレイシステムの一部として実装されることができる。いくつかの実施形態では、ニューラルネットワークは、頭部搭載型ディスプレイシステムから遠隔の１つ以上のコンピュータシステム（例えば、「クラウド」コンピューティングシステム等の遠隔サーバ）を使用して、実装されることができる。

図１５に示されるように、単眼画像１５００が、取得される。単眼画像１５００のうちの少なくともいくつかは、順次捕捉された画像（例えば、ビデオシーケンスからのフレーム）のセットから取得されることができる。単眼画像１５００は、畳み込みフロントエンド１５０２の中に入力され、これは、画像内の１つ以上の点対応（例えば、異なる画像を横断して着目点または「特徴点」間の対応を示す、「点追跡」）を識別する。点対応は、本明細書に説明される技法のうちの１つ以上のものを使用して決定されることができる。さらに、畳み込みフロントエンド１５０２は、着目点毎に、安定性、（例えば、２次元空間内の）場所、および記述子を含む、種々のメトリックを計算する。

本情報は、ビジュアルオドメトリバックエンド１５０４の中に入力される。ビジュアルオドメトリバックエンド１５０４は、３次元空間内の着目点のそれぞれの場所を推定する。さらに、ビジュアルオドメトリバックエンド１５０４は、着目点毎に、例えば、３次元空間内の安定性メトリックを計算する。実施例として、ビジュアルオドメトリバックエンド１５０４は、各着目点を「安定」（例えば、ニューラルネットワークを訓練し、ビジュアルオドメトリに関連して使用するためにより好適な着目点を認識するために使用され得る、着目点）、「不安定」（例えば、ニューラルネットワークを訓練し、ビジュアルオドメトリに関連して使用するためにあまり好適ではない、着目点を認識するために使用され得る、着目点）、または「無視」（例えば、訓練プロセスから除外され得る、着目点）として分類することができる。「安定」および「不安定」着目点（およびその関連付けられる点対応および記述子）は、監視信号として使用され、畳み込みフロントエンドを訓練する（例えば、自己監視プロセス１６０６に従って）。

安定性着目点（例えば、図９に関して説明される着目点検出デコーダヘッドによって出力された着目点）は、安定性分類子ヘッドによって決定されることができる。いくつかの実施形態では、安定性分類子ヘッドは、安定性メトリック
を決定することができる。ピクセルレベル予測を算出するために、大まかな予測が、双線形補間で補間され、その後、２つの出力チャネルにわたるチャネル毎ソフトマックスが続き、最終安定性確率値を得る。いくつかの実施形態では、安定性分類子デコーダヘッドは、２５６ユニットの単一３×３畳み込み層に続いて、「安定」対「不安定」のバイナリ分類のための２つのユニットを伴う、１×１畳み込み層を有することができる。

いったん訓練されると、ニューラルネットワーク（例えば、図４のニューラルネットワーク１００）は、画像シーケンスのための疎オプティカルフロー追跡を形成するために使用されることができる。いくつかの実施形態では、これは、「点と点を結び付ける」アルゴリズムを使用して、連続する対の画像内で点および記述子を関連付けることによって実施されることができる。例えば、単眼画像のセット
を前提として、ニューラルネットワークは、２Ｄ特徴点の対応するセット
および記述子
（Ｏ_Ｉは、画像ｉ内で検出された点の数に等しい）を算出することができる。

一対の画像Ｉ_ａおよびＩ_ｂを横断して点を合致させるために、ニューラルネットワークは、対応するＤ_ａおよびＤ_ｂの双方向最近傍を求めることができる。双方向最近傍合致
は、ｄ_ａｉからＤ_ｂまでの最近傍合致が、ｄ_ｂｊであって、ｄ_ｂｊからＤ_ａまでの最近傍合致が、ｄ_ａｉであるようなものである。本パラメータなし技法は、アルゴリズムが、可能な限り少ないパラメータを使用することに役立ち、実践において良好に機能する。合致の第２の除去は、
であるように、全ての合致を除去するように実施されることができる。いくつかの実施形態では、τ＝０．７である。追跡を形成するために、同一プロシージャが、全ての連続する対の画像
のために行われる。これは、例えば、良好な追跡を選択することにおいて有力なヒューリスティックを提供する際に有益である。

いったん追跡のセットが、確立されると、ニューラルネットワークは、シーケンス内の各追跡を単一３Ｄ点として取り扱い、追跡を使用して、３Ｄ場面構造およびカメラ姿勢をともに推定することができる。

ニューラルネットワークは、多視点幾何学形状と組み合わせられる、その独自の出力を使用して、教師あり訓練データセットを作成する。特に、単眼ビデオの時間的側面および実世界の主にリジッドな性質は、実世界の非平面性に対する不変性を達成するために利用されることができる。本アプローチは、「ビジュアルオドメトリ（ＶＯ）適合」と称され得る。ＶＯ適合は、ＶＯを活用して、経時的に安定して追跡され得る点を標識し、安定追跡を使用して、多くのビューにわたって特徴点対応を学習する。ＶＯ適合は、少なくとも部分的に、本明細書に説明される技法を使用して実施されることができる。
最適化変数

Ｎ個の画像の単眼シーケンスでは、ｉ番目のカメラに関するカメラ姿勢のセットは、その回転および平行移動
によって表される。

Ｎ個の画像のいくつかまたは全ての中に再投影される、Ｍ個の３Ｄ点を伴う場面に関して、各点は、Ｘ_ｊ（Ｘ_ｊ∈Ｒ^３）によって表される。カメラに近すぎる（またはその背後にある）またはそこから遠すぎる、点構成にペナルティを科す、深度正則化関数ｄ（Ｚ）（本明細書でさらに詳細に議論される）以外、いかなる３Ｄの以前の構造も、再構築上に課されない。

カメラ固有性質Ｋは、主点（ｃ_ｘ、ｃ_ｙ）とともに、焦点距離ｆ_ｘおよびｆ_ｙから成る、上三角形行列である。画像毎に、１つのＫにわたって最適化することが可能であるが（典型的には、ＳｆＭパイプライン内で行われるように）、いくつかの実施形態では、ニューラルネットワークは、単一の固定Ｋを仮定し得る。
観察変数

Ｕは、画像毎に１つのＮ個の行列の集合である、２Ｄ点観察のセットである。
（Ｏ_ｉは、画像ｉ内の２Ｄ観察の数に等しい）。単一画像測定が、ｕ_ｉｊ∈Ｒ^２によって表される。

Ｗは、観察信頼度加重のセットである。観察信頼度加重は、最適化の間、より信頼度のある観察をあまり確信的ではないものを上回って優先順位化するために使用される。各画像は、関連付けられるスカラー加重
のセットを有する。各スカラー加重は、０～１である、すなわち、ｗ_ｉｊ∈［０，１］である。

Ａは、３Ｄ／２Ｄ関連付け追跡のセットである。疎３Ｄマップ内の全ての３Ｄ点Ｘ_ｊが、移動するカメラおよび場面オクルージョンに起因して、全てのフレーム内で観察されるわけではないため、画像毎に３Ｄ／２Ｄ関連付けベクトルのセット
が存在する。各関連付け整数は、それが対応し、ゼロ～場面内の点の総数である、３Ｄマップ点インデックス、すなわち、ａ_ｉｊ∈［１，Ｍ］を示す。
３Ｄ投影モデル

ニューラルネットワークは、３Ｄ世界点が、カメラ姿勢およびカメラ固有性質を前提として、２Ｄ画像の中に投影される方法を解説する、カメラ投影のためのピンホールカメラモデルを採用することができる。

Ｘ_ｊ∈Ｒ^３が、ｊ番目の３Ｄ点を示し、（Ｒ_ｉ，ｔ_ｉ）が、ｉ番目のカメラ姿勢を示し、Ｋが、カメラ固有性質を示し、ｕ_ｉｊ∈Ｒ^２が、対応する２Ｄ投影を示すとする。

上記の方程式における～は、投影品質を示す。計算を簡略化するために、ニューラルネットワークは、３Ｄから２Ｄへの変換を実施する、Ｒ^３→Ｒ^２投影関数Π（Ｘ）を使用することができる。

推定されるカメラ姿勢および３Ｄ点の品質を測定するために、ニューラルネットワークは、各３Ｄ点の各カメラの中への再投影を測定することができる。ｉ番目の画像内のｊ番目の３Ｄ点に関する二乗再投影誤差ｅ_ｉｊは、以下のように表され得る。
深度正則化

ニューラルネットワークは、深度正則化関数
を採用することができ、式中、［・］は、ベクトルの第３の成分を求めることを意味し、これは、２つのスカラーｄ_ｍｉｎおよびｄ_ｍａｘによってパラメータ化される、カメラに近すぎるまたはそこから遠すぎる、推定される３Ｄ点深度Ｚ_ｉｊ’に関する二次ペナルティを被る。また、これは、深度がカメラ中心の背後に移動することを防止する。いくつかの実施形態では、
は、特に、屋内場面のために好適であり得る。本項は、以下となる。
カメラ姿勢および点深度初期化

ニューラルネットワークは、前のフレーム（Ｒ_Ｎ，ｔ_Ｎ）からのカメラ姿勢を用いて、各新しいカメラ姿勢（Ｒ_Ｎ＋１，ｔ_Ｎ＋１）を初期化することができる。新しい３Ｄ点深度は、１．０に初期化されることができる。３Ｄ点深度Ｚ_ｉｊ’は、線形三角測量方法を使用して初期化されることができるが、いくつかの実施形態では、これは、ＶＯ結果を有意に改良せず、より複雑性をシステムに追加し得る。いくつかの実施形態では、点深度は、１の深度に初期化されることができ、深度正則化項の追加は、バンドル調整最適化が良好に機能するために十分な事前確率であり得る。
最終バンドル調整目的

最終バンドル調整目的は、誤対応に対処することに役立てるための再投影誤差関数ｅ_ｉｊ ^２、深度正則化関数、２Ｄ観察荷重ｗ_ｉｊ、およびＨｕｂｅｒロバスト損失関数ｐ（・）の組み合わせである。バンドル調整のための最終目的関数Ω_ＢＡ（・）は、以下のように示され得る。
ＶＯバックエンド実装

いくつかの実施形態では、バンドル調整最適化は、直近のＮ_ｌａｓｔ＝３０の姿勢（例えば、約１秒の運動に対応する）の固定ウィンドウにわたって実施されることができる。いくつかの実施形態では、ｃｅｒｅｓ－ｓｏｌｖｅｒパッケージが、Ｌｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ最適化を上記のバンドル調整Ω_ＢＡ（・）にわたって実施するために使用されることができる。いくつかの実施形態では、新しい画像毎に、バンドル調整は、最大１００回の反復にわたって実施されることができ、これは、平均して、フレームあたり約１秒かかる。
安定性の標識化

いったんＶＯが、所与のシーケンスのために完了すると、３Ｄ点毎の観察および再投影誤差の数が、安定性を標識するために使用される。点が、合理的に長時間にわたって追跡される場合、その再投影誤差は、それを「安定」対「不安定」として分類するために使用されることができる。

例えば、Ｔ_ｊが、３Ｄ点Ｘ_ｊを形成するために追跡された観察の数を示し、ｍｅａｎ（ｅ_ｊ）およびｍａｘ（ｅ_ｊ）が、それぞれ、各観察されるカメラの中への再投影の平均値および最大値であるとする。その３Ｄ点の安定性Ｓ_ｊは、以下のように定義され得る。

換言すると、安定点は、少なくとも所定の数のフレーム（例えば、１０個のフレーム）にわたって追跡され、所定の数のピクセル（例えば、１ピクセル）未満の平均再投影誤差を有するものである。不安定点は、少なくとも所定の数のフレーム（例えば、１０個のフレーム）にわたって追跡され、所定の数のピクセル（例えば、５ピクセル）を上回る最大再投影誤差を有するものである。これらの２つの制約を満たさない点は、訓練の間、無視される。すなわち、ネットワークは、選定する際に、それらを安定、不安定、またはいずれでもないとして取り扱うことを決定することができる。

自己標識化プロシージャは、深度断絶を横断したＴ分岐、陰影およびハイライト上の特徴、人々のような動的オブジェクト、および同等物等の不安定領域を発見する。

例示的閾値が、上記に説明されるが、実践では、他の閾値も、実装に応じて使用されることができる。例えば、安定点および／または不安定点は、１０以外の異なる閾値数のフレーム（例えば、５、１５、２０、２５、またはある他の数のフレーム）に基づいて決定されることができる。別の実施例として、安定点は、１以外の異なる閾値誤差値（例えば、０．１、０．５、１．５、またはある他の誤差値）に基づいて決定されることができる。別の実施例として、安定点は、５以外の異なる閾値誤差値（例えば、２、３、４、またはある他の誤差値）に基づいて決定されることができる。いくつかの実施形態では、閾値は、実験的に（例えば、サンプルデータ上で行われる実験に基づいて）決定されることができる。
Ｓｉａｍｅｓｅ訓練

いくつかの実施形態では、ニューラルネットワークは、Ｓｉａｍｅｓｅ訓練技法を使用して訓練されることができる。例えば、記述子は、Ｓｉａｍｅｓｅメトリック学習を使用して訓練されることができ、特徴点検出器は、ソフトマックス＋クロスエントロピ損失を使用して訓練されることができる。対は、＋／－所定の数のフレーム（例えば、６０フレーム）の時間的ウィンドウからランダムにサンプリングされ、所定の秒数（例えば、約４秒）の最大時間ウィンドウを伴う対をもたらすことができる。損失関数はまた、「無視クラス」を組み込むことができ、これは、未知の対応および未知の２Ｄ点場所のために使用される。

安定性分類子を訓練するために、ニューラルネットワークは、安定性損失を示す最終損失
に対して余剰損失項を採用することができる。安定性損失は、標準的バイナリクロスエントロピ損失関数を用いて訓練されることができる。

Ｓｉａｍｅｓｅ訓練プロセスの概略実施例は、図１６に示される。画像１６０２の標識されたシーケンスが、取得される（例えば、標識された着目点および記述子を含む）。ランダム近隣画像対が、標識されたシーケンスから選択され、本明細書に説明されるネットワークタスク（例えば、ビジュアルオドメトリタスク１６０４）を訓練するために使用される前に、ランダムホモグラフィ（例えば、Ｈ_１およびＨ_２）によってワーピングされる。安定性、特徴点、および／または記述子損失が、訓練プロセスの連続反復を横断して計算され、最小限にされ得る。
着目点の例示的標識化：

図１７は、本明細書に説明される技法を使用して着目点を標識化する実施例を示す。５つの異なる効果に起因して低安定性を有するようにＶＯによって標識されたパターンの５つの実施例が、各列に示される。行（ａ）は、畳み込みフロントエンドからの疎点追跡を示す。行（ｂ）は、算出されたＶＯバックエンドカメラ姿勢軌道および疎３Ｄマップのオーバーヘッド投影を示す。行（ｃ）は、再投影誤差残差画像を示す（誤差の大きさは、行（ｃ）内の色バーに従って色コーディングされる）。行（ｄ）は、安定性ラベル（より明るい菱形＝安定、中程度の菱形＝不安定、より暗い菱形＝無視、囲まれた中程度の菱形＝不安定点の特性実施例）を伴う、標識された点追跡を示す。
ビジュアルオドメトリを実施するために、ニューラルネットワークを訓練するための例示的方法：

図１８は、ビジュアルオドメトリを実施するために、ニューラルネットワークを訓練するための例示的方法１８００を示す。方法１８００は、本明細書に説明される技法および／またはシステムのうちの１つ以上のものを実施することができる。実施例として、方法１８００は、少なくとも部分的に、ニューラルネットワーク１００によって実施され、１つ以上のコンピュータシステムを使用して実装されることができる。

方法１８００に従って、ニューラルネットワークは、環境の複数の画像を受信する（ステップ１８０２）。いくつかの実施形態では、複数の画像は、ビデオシーケンスから抽出された２次元画像を含む。いくつかの実施形態では、複数の画像は、ビデオシーケンスの非連続的フレームに対応する。

ニューラルネットワークは、画像毎に、着目点の個別のセットおよび個別の記述子を決定する（ステップ１８０４）。着目点は、本明細書に説明される技法のうちの１つ以上のものを使用して決定されることができる。例えば、着目点は、図９に関して説明される着目点検出デコーダヘッドによって決定されることができる。

ニューラルネットワークは、複数の画像の着目点のセットおよび記述子に基づいて、複数の画像間の対応を決定する（ステップ１８０６）。いくつかの実施形態では、対応を決定するステップは、着目点のセット間の１つ以上の点対応を決定するステップを含み、各点対応は、１つの画像の着目点と別の画像の着目点との間の個別の対応を示す。いくつかの実施形態では、対応を決定するステップはさらに、１つ以上の点対応に基づいて、候補着目点のセットを決定するステップを含む。各候補着目点は、３Ｄ空間内の環境内の個別の特徴を示すことができる。

ニューラルネットワークは、候補着目点毎に、個別の安定性メトリックを決定する（ステップ１８０８）。

いくつかの実施形態では、候補着目点毎に、個別の安定性メトリックを決定するステップは、第１の候補着目点が安定していることを決定するステップを含む。ニューラルネットワークは、本決定に基づいて修正されることができる。例えば、第１の候補着目点が安定していることの決定に応答して、ニューラルネットワークは、複数の画像の中から、第１の候補着目点および第１の対の画像を選択し、ニューラルネットワークを訓練することができ、第１の対の画像は、環境内の第１の候補着目点を描写する。

いくつかの実施形態では、ニューラルネットワークは、第１の候補着目点が、第１の閾値数を超える複数の画像の画像の数に描写されていることを決定するステップと、第１の候補着目点と関連付けられる再投影誤差が、第１の閾値誤差レベル未満であることを決定するステップとによって、第１の候補着目点が安定していることを決定することができる。

いくつかの実施形態では、候補着目点毎に、個別の安定性メトリックを決定するステップは、第２の候補着目点が安定していることを決定するステップを含む。ニューラルネットワークは、本決定に基づいて修正されることができる。例えば、第２の候補着目点が安定していることの決定に応答して、ニューラルネットワークは、複数の画像の中から、第２の候補着目点および第２の対の画像を選択し、ニューラルネットワークを訓練することができ、第２の対の画像は、環境内の第２の候補着目点を描写する。

いくつかの実施形態では、ニューラルネットワークは、第２の候補着目点が、第２の閾値数を超える複数の画像の画像の数に描写されていることを決定するステップと、第２の候補着目点と関連付けられる再投影誤差が、第２の閾値誤差レベルを上回ることを決定するステップとによって、第２の候補着目点が不安定であることを決定することができる。いくつかの実施形態では、第１の閾値数は、第２の閾値数に等しくあることができる。いくつかの実施形態では、第１の閾値誤差レベルは、第２の閾値誤差レベル未満であることができる。

いくつかの実施形態では、候補着目点毎に、個別の安定性メトリックを決定するステップは、第３の候補着目点が、ニューラルネットワークの訓練から省略されるべきであることを決定するステップを含む。いくつかの実施形態では、ニューラルネットワークは、（ｉ）第３の候補着目点が、第３の閾値数未満の複数の画像の画像の数に描写されていること、および／または（ｉｉ）第３の候補着目点と関連付けられる再投影誤差が、第１の閾値誤差レベルと第２の閾値誤差レベルとの間であることを決定することによって、第３の候補着目点が、ニューラルネットワークの訓練から省略されるべきであることを決定することができる。いくつかの実施形態では、第３の閾値数は、第１の閾値数に等しくあることができる。

ニューラルネットワークは、１つ以上の候補着目点に基づいて修正される（ステップ１８１０）。例えば、ニューラルネットワークは、その個別の安定性メトリックに応じて、候補着目点のうちの少なくともいくつかに基づいて、訓練されることができる。例えば、候補着目点（例えば、安定および不安定着目点）のうちの少なくともいくつかは、ニューラルネットワークを訓練し、ビジュアルオドメトリに関連して使用するためにより好適な画像内の着目点とビジュアルオドメトリに関連して使用するためにあまり好適ではない画像内の着目点を区別するために使用されることができる。他の着目点は、訓練プロセスから省略されることができる。

いくつかの実施形態では、ニューラルネットワークを修正するステップに続いて、ニューラルネットワークは、第２の環境の第２の複数の画像を頭部搭載型ディスプレイデバイスから受信することができる。さらに、ニューラルネットワークは、第２の着目点のセットを識別し、第２の複数の画像および第２の着目点のセットに基づいて、第２の環境に対してビジュアルオドメトリを実施することができる。第２の環境に対してビジュアルオドメトリを実施するステップは、第２の着目点のセットを目印として使用して、頭部搭載型ディスプレイデバイスの位置および配向を決定するステップを含むことができる。
例示的コンピュータシステム：

図１９は、本明細書に説明されるいくつかの実施形態による、簡略化されたコンピュータシステム１９００を図示する。図１９は、種々の実施形態によって提供される方法のステップのいくつかまたは全てを実施し得る、コンピュータシステム１９００の一実施例の概略例証を提供する。図１９は、種々のコンポーネントの一般化された例証を提供するためだけに意図され、そのいずれかまたは全てが、必要に応じて利用されてもよいことに留意されたい。図１９は、したがって、広義には、個々のシステム要素が比較的に分離された様式または比較的により統合された様式において実装され得る状況を図示する。

コンピュータシステム１９００は、バス１９０５を介して電気的に結合されることができる、または必要に応じて別様に通信し得る、ハードウェア要素を含むように示される。ハードウェア要素は、限定ではないが、デジタル信号処理チップ、グラフィック加速プロセッサ、および／または同等物等の、１つ以上の汎用プロセッサおよび／または１つ以上の特殊目的プロセッサを含む、１つ以上のプロセッサ１９１０と、限定ではないが、マウス、キーボード、カメラ、および／または同等物を含むことができる、１つ以上の入力デバイス１９１５と、限定ではないが、ディスプレイデバイス、プリンタ、および／または同等物を含むことができる、１つ以上の出力デバイス１９２０とを含んでもよい。

コンピュータシステム１９００はさらに、限定ではないが、ローカルおよび／またはネットワークアクセス可能記憶装置を含むことができ、および／または、限定ではないが、プログラム可能である、フラッシュ更新可能である、および／または同等物であることができる、ディスクドライブ、ドライブアレイ、光学記憶デバイス、ランダムアクセスメモリ（「ＲＡＭ」）等のソリッドステート記憶デバイス、および／または読取専用メモリ（「ＲＯＭ」）を含むことができる、１つ以上の非一過性記憶デバイス１９２５を含む、および／またはそれと通信してもよい。そのような記憶デバイスは、限定ではないが、種々のファイルシステム、データベース構造、および／または同等物を含む、任意の適切なデータ記憶を実装するように構成されてもよい。

コンピュータシステム１９００はまた、限定ではないが、Ｂｌｕｅｔｏｏｔｈ（登録商標）デバイス、８０２．１１デバイス、ＷｉＦｉデバイス、ＷｉＭａｘデバイス、セルラー通信設備等、および／または同等物等のモデム、ネットワークカード（無線または有線）、赤外線通信デバイス、無線通信デバイス、および／またはチップセットを含むことができる、通信サブシステム１９１９を含み得る。通信サブシステム１９１９は、１つ以上の入力および／または出力通信インターフェースを含み、データが、一実施例として挙げるために以下に説明されるネットワーク、すなわち、他のコンピュータシステム、テレビ、および／または本明細書に説明される任意の他のデバイス等のネットワークと交換されることを可能にしてもよい。所望の機能性および／または他の実装懸念に応じて、ポータブル電子デバイスまたは類似デバイスは、通信サブシステム１９１９を介して、画像および／または他の情報を通信してもよい。他の実施形態では、ポータブル電子デバイス、例えば、第１の電子デバイスは、コンピュータシステム１９００、例えば、電子デバイスの中に入力デバイス１９１５として組み込まれてもよい。いくつかの実施形態では、コンピュータシステム１９００はさらに、作業メモリ１９３５を含み、これは、上記に説明されるようなＲＡＭまたはＲＯＭデバイスを含むことができる。

コンピュータシステム１９００はまた、種々の実施形態によって提供されるコンピュータプログラムを含み得る、および／または本明細書に説明されるような他の実施形態によって提供される方法を実装し、および／またはシステムを構成するように設計され得る、１つ以上のアプリケーションプログラム１９４５等のオペレーティングシステム１９４０、デバイスドライバ、実行可能ライブラリ、および／または他のコードを含む、作業メモリ１９３５内に現在位置するものとして示される、ソフトウェア要素を含むことができる。単に、一例として、上記に議論される方法に関して説明される１つ以上のプロシージャは、コンピュータまたはコンピュータ内のプロセッサによって実行可能なコードおよび／または命令として実装され得、ある側面では、次いで、そのようなコードおよび／または命令は、説明される方法に従って１つ以上の動作を実施するように汎用コンピュータまたは他のデバイスを構成および／または適合するために使用されることができる。

これらの命令および／またはコードのセットは、上記に説明される記憶デバイス１９２５等の非一過性コンピュータ可読記憶媒体上に記憶されてもよい。ある場合には、記憶媒体は、コンピュータシステム１９００等のコンピュータシステム内に組み込まれ得る。他の実施形態では、記憶媒体は、コンピュータシステムと別個である、例えば、コンパクトディスク等の可撤性媒体である、および／または記憶媒体が、汎用コンピュータをその上に記憶される命令／コードを用いてプログラム、構成、および／または適合するために使用され得るように、インストールパッケージ内に提供され得る。これらの命令は、コンピュータシステム１９００によって実行可能である、実行可能コードの形態をとり得る、および／または、例えば、種々の概して利用可能なコンパイラ、インストールプログラム、圧縮／解凍ユーティリティ等のいずれかを使用したコンピュータシステム１９００上へのコンパイルおよび／またはインストールに応じて、次いで、実行可能コードの形態をとる、ソースおよび／またはインストール可能コードの形態をとり得る。

実質的な変形例が、具体的要件に従って構成されてもよいことが、当業者に明白となるであろう。例えば、カスタマイズされたハードウェアもまた、使用され得る、および／または特定の要素が、ハードウェア、アプレット等のポータブルソフトウェアを含む、ソフトウェア、または両方内に実装され得る。さらに、ネットワーク入力／出力デバイス等の他のコンピューティングデバイスへの接続も、採用されてもよい。

上記に述べられたように、一側面では、いくつかの実施形態は、コンピュータシステム１９００等のコンピュータシステムを採用し、本技術の種々の実施形態による方法を実施してもよい。一式の実施形態によると、そのような方法のプロシージャの一部または全部は、プロセッサ１９１０が、オペレーティングシステム１９４０の中に組み込まれ得る、１つ以上の命令の１つ以上のシーケンス、および／または作業メモリ１９３５内に含有される、アプリケーションプログラム１９４５等の他のコードを実行することに応答して、コンピュータシステム１９００によって実施される。そのような命令は、記憶デバイス１９２５のうちの１つ以上のもの等の別のコンピュータ可読媒体から作業メモリ１９３５の中に読み取られてもよい。単に、一例として、作業メモリ１９３５内に含有される命令のシーケンスの実行は、プロセッサ１９１０に、本明細書に説明される方法の１つ以上のプロシージャを実施させ得る。加えて、または代替として、本明細書に説明される方法の一部は、特殊ハードウェアを通して実行されてもよい。

用語「機械可読媒体」および「コンピュータ可読媒体」は、本明細書で使用されるとき、機械を具体的方式で動作させるデータを提供することに関わる、任意の媒体を指す。コンピュータシステム１８００を使用して実装される、ある実施形態では、種々のコンピュータ可読媒体は、実行のための命令／コードをプロセッサ１９１０に提供する際に関わり得る、および／またはそのような命令／コードを記憶および／または搬送するために使用され得る。多くの実装では、コンピュータ可読媒体は、物理的および／または有形記憶媒体である。そのような媒体は、不揮発性媒体または揮発性媒体の形態をとってもよい。不揮発性媒体は、例えば、記憶デバイス１９２５等の光学および／または磁気ディスクを含む。揮発性媒体は、限定ではないが、作業メモリ１９３５等の動的メモリを含む。

一般的形態の物理的および／または有形コンピュータ可読媒体は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、または任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、孔のパターンを伴う任意の他の物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップまたはカートリッジ、またはコンピュータが命令および／またはコードを読み取ることができる、任意の他の媒体を含む。

種々の形態のコンピュータ可読媒体が、実行のための１つ以上の命令の１つ以上のシーケンスをプロセッサ１９１０に搬送する際に関わってもよい。単に、一例として、命令は、最初に、遠隔コンピュータの磁気ディスクおよび／または光学ディスク上で搬送されてもよい。遠隔コンピュータは、命令をその動的メモリの中にロードし、コンピュータシステム１９００によって受信および／または実行される伝送媒体を経由して、命令を信号として送信し得る。

通信サブシステム１９１９および／またはそのコンポーネントは、概して、信号を受信し、バス１９０５が、次いで、信号および／または信号によって搬送されるデータ、命令等を作業メモリ１９３５に搬送し得、そこから、プロセッサ１９１０が、命令を読み出し、実行する。作業メモリ１９３５によって受信された命令は、随意に、プロセッサ１９１０による実行前または後のいずれかにおいて、非一過性記憶デバイス１９２５上に記憶されてもよい。

上記に議論される方法、システム、およびデバイスは、実施例である。種々の構成は、必要に応じて、種々のプロシージャまたはコンポーネントを省略、代用、または追加してもよい。例えば、代替構成では、本方法は、説明されるものと異なる順序で実施されてもよく、および／または種々の段階は、追加される、省略される、および／または組み合わせられてもよい。また、ある構成に関して説明される特徴は、種々の他の構成において組み合わせられてもよい。構成の異なる側面および要素は、類似様式で組み合わせられてもよい。また、技術は、進歩するものであって、したがって、要素の多くは、実施例であって、本開示の範囲または請求項を限定するものではない。

具体的詳細が、実装を含む、例示的構成の完全な理解を提供するために説明に与えられる。しかしながら、構成は、これらの具体的詳細を伴わずに実践されてもよい。例えば、周知の回路、プロセス、アルゴリズム、構造、および技法は、構成を曖昧にすることを回避するために、不必要な詳細を伴わずに示されている。本説明は、例示的構成のみを提供し、請求項の範囲、可用性、または構成を限定するものではない。むしろ、構成の前述の説明は、当業者に説明される技法を実装するための有効な説明を提供するであろう。種々の変更が、本開示の精神または範囲から逸脱することなく、要素の機能および配列に行われてもよい。

また、構成は、概略フローチャートまたはブロック図として描写される、プロセスとして説明され得る。それぞれ、シーケンシャルプロセスとして動作を説明し得るが、動作の多くは、並行して、または同時に実施されてもよい。加えて、動作の順序は、再配列されてもよい。プロセスは、図内に含まれない付加的ステップを有してもよい。さらに、本方法の実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、または任意のそれらの組み合わせによって実装されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコード内に実装されるとき、必要タスクを実施するためのプログラムコードまたはコードセグメントは、記憶媒体等の非一過性コンピュータ可読媒体内に記憶されてもよい。プロセッサは、説明されるタスクを実施してもよい。

いくつかの例示的構成が説明されたが、種々の修正、代替構造、および均等物が、本開示の精神から逸脱することなく、使用されてもよい。例えば、前述の要素は、より大きいシステムのコンポーネントであってもよく、他のルールが、本技術の用途に優先する、または別様にそれを修正してもよい。また、いくつかのステップは、前述の要素が検討される前、間、または後に行われてもよい。故に、前述の説明は、請求項の範囲を束縛するものではない。

本明細書および添付の請求項で使用されるように、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈によって明確に別様に示されない限り、複数参照を含む。したがって、例えば、「ユーザ」の言及は、１つ以上のそのようなユーザを含み、「プロセッサ」の言及は、１つ以上のプロセッサおよび当業者に公知のその均等物等の言及を含む。

また、単語「ｃｏｍｐｒｉｓｅ（～を備える）」、「ｃｏｍｐｒｉｓｉｎｇ（～を備える）」、「ｃｏｎｔａｉｎｓ（～を含有する）」、「ｃｏｎｔａｉｎｉｎｇ（～を含有する）」、「ｉｎｃｌｕｄｅ（～を含む）」、「ｉｎｃｌｕｄｉｎｇ（～を含む）」、および「ｉｎｃｌｕｄｅｓ（～を含む）」は、本明細書および以下の請求項で使用されるとき、述べられた特徴、整数、コンポーネント、またはステップの存在を規定するために意図されるが、それらは、１つ以上の他の特徴、整数、コンポーネント、ステップ、行為、またはグループの存在または追加を除外するものではない。

また、本明細書に説明される実施例および実施形態は、例証目的のみのためのものであって、それに照らして、種々の修正または変更が、当業者に示唆され、本願の精神および権限および添付の請求項の範囲内に含まれることを理解されたい。

Claims

ビジュアルオドメトリを実施するために、ニューラルネットワークを訓練する方法であって、前記方法は、
１つ以上のコンピュータシステムを使用して実装される前記ニューラルネットワークによって、環境の複数の画像を受信することと、
前記ニューラルネットワークによって、画像毎に、個別の着目点のセットおよび個別の記述子を決定することと、
前記ニューラルネットワークによって、前記複数の画像の前記着目点のセットおよび前記記述子に基づいて、前記複数の画像間の対応を決定することであって、前記複数の画像間の対応を決定することは、
前記着目点のセット間の１つ以上の点対応を決定することであって、各点対応は、１つの画像の着目点と別の画像の着目点との間の個別の対応を示す、ことと、
前記１つ以上の点対応に基づいて、候補着目点のセットを決定することであって、各候補着目点は、３次元空間内の前記環境内の個別の特徴を示す、ことと
を含む、ことと、
候補着目点毎に、個別の安定性メトリックを決定することと、
１つ以上の候補着目点に基づいて、前記ニューラルネットワークを修正することと
を含む、方法。
候補着目点毎に、前記個別の安定性メトリックを決定することは、第１の候補着目点が安定していることを決定することを含む、請求項１に記載の方法。
前記候補着目点の１つ以上のものに基づいて、前記ニューラルネットワークを修正することは、
前記第１の候補着目点が安定していることの決定に応答して、前記複数の画像の中から、前記第１の候補着目点および第１の対の画像を選択し、前記ニューラルネットワークを訓練することであって、前記第１の対の画像は、前記環境内の前記第１の候補着目点を描写する、こと
を含む、請求項２に記載の方法。
前記第１の候補着目点が安定していることを決定することは、
前記第１の候補着目点が、第１の閾値数を超える前記複数の画像の画像の数に描写されていることを決定することと、
前記第１の候補着目点と関連付けられる再投影誤差が、第１の閾値誤差レベル未満であることを決定することと
を含む、請求項２に記載の方法。
候補着目点毎に、前記個別の安定性メトリックを決定することは、第２の候補着目点が不安定であることを決定することを含む、請求項４に記載の方法。
前記候補着目点の１つ以上のものに基づいて、前記ニューラルネットワークを修正することは、
前記第２の候補着目点が不安定であることの決定に応答して、前記複数の画像の中から、前記第２の候補着目点および第２の対の画像を選択し、前記ニューラルネットワークを訓練することであって、前記第２の対の画像は、前記環境内の前記第２の候補着目点を描写する、こと
を含む、請求項５に記載の方法。
前記第２の候補着目点が不安定であることを決定することは、
前記第２の候補着目点が、第２の閾値数を超える前記複数の画像の画像の数に描写されていることを決定することと、
前記第２の候補着目点と関連付けられる再投影誤差が、第２の閾値誤差レベルを上回ることを決定することと
を含む、請求項５に記載の方法。
前記第１の閾値数は、前記第２の閾値数に等しい、請求項７に記載の方法。
前記第１の閾値誤差レベルは、前記第２の閾値誤差レベル未満である、請求項７に記載の方法。
候補着目点毎に、前記個別の安定性メトリックを決定することは、第３の候補着目点が、前記ニューラルネットワークの訓練から省略されるべきであることを決定することを含む、請求項７に記載の方法。
前記第３の候補着目点が、前記ニューラルネットワークの訓練から省略されるべきであることを決定することは、
前記第３の候補着目点が、第３の閾値数未満の前記複数の画像の画像の数に描写されていること、または
前記第３の候補着目点と関連付けられる再投影誤差が、前記第１の閾値誤差レベルと前記第２の閾値誤差レベルとの間であることを決定すること
のうちの少なくとも１つを決定すること
を含む、請求項１０に記載の方法。
前記第３の閾値数は、前記第１の閾値数に等しい、請求項１１に記載の方法。
前記複数の画像は、ビデオシーケンスから抽出された２次元画像を備える、請求項１に記載の方法。
前記複数の画像は、前記ビデオシーケンスの非連続的フレームに対応する、請求項１３に記載の方法。
前記ニューラルネットワークを修正することに続いて、前記ニューラルネットワークによって、第２の環境の第２の複数の画像を頭部搭載型ディスプレイデバイスから受信することと、
前記ニューラルネットワークによって、第２の着目点のセットを識別することと、
前記ニューラルネットワークによって、前記第２の複数の画像および前記第２の着目点のセットに基づいて、前記第２の環境に対してビジュアルオドメトリを実施することと
をさらに含む、請求項１に記載の方法。
前記第２の環境に対してビジュアルオドメトリを実施することは、前記第２の着目点のセットを目印として使用して、前記頭部搭載型ディスプレイデバイスの位置および配向を決定することを含む、請求項１５に記載の方法。
システムであって、
１つ以上のプロセッサと、
１つ以上の非一過性コンピュータ可読媒体であって、前記１つ以上の非一過性コンピュータ可読媒体は、命令の１つ以上のシーケンスを含んでおり、前記命令の１つ以上のシーケンスは、前記１つ以上のプロセッサによって実行されると、
１つ以上のコンピュータシステムを使用して実装されるニューラルネットワークによって、環境の複数の画像を受信することと、
前記ニューラルネットワークによって、画像毎に、個別の着目点のセットおよび個別の記述子を決定することと、
前記ニューラルネットワークによって、前記複数の画像の前記着目点のセットおよび前記記述子に基づいて、前記複数の画像間の対応を決定することであって、前記複数の画像間の対応を決定することは、
前記着目点のセット間の１つ以上の点対応を決定することであって、各点対応は、１つの画像の着目点と別の画像の着目点との間の個別の対応を示す、ことと、
前記１つ以上の点対応に基づいて、候補着目点のセットを決定することであって、各候補着目点は、３次元空間内の前記環境内の個別の特徴を示す、ことと
を含む、ことと、
候補着目点毎に、個別の安定性メトリックを決定することと、
１つ以上の候補着目点に基づいて、前記ニューラルネットワークを修正することと
を生じさせる、１つ以上の非一過性コンピュータ可読媒体と
を備える、システム。
候補着目点毎に、前記個別の安定性メトリックを決定することは、第１の候補着目点が安定していることを決定することを含む、請求項１７に記載のシステム。
前記候補着目点の１つ以上のものに基づいて、前記ニューラルネットワークを修正することは、
前記第１の候補着目点が安定していることの決定に応答して、前記複数の画像の中から、前記第１の候補着目点および第１の対の画像を選択し、前記ニューラルネットワークを訓練することであって、前記第１の対の画像は、前記環境内の前記第１の候補着目点を描写する、こと
を含む、請求項１８に記載のシステム。
前記第１の候補着目点が安定していることを決定することは、
前記第１の候補着目点が、第１の閾値数を超える前記複数の画像の画像の数に描写されていることを決定することと、
前記第１の候補着目点と関連付けられる再投影誤差が、第１の閾値誤差レベル未満であることを決定することと
を含む、請求項１８に記載のシステム。
候補着目点毎に、前記個別の安定性メトリックを決定することは、第２の候補着目点が不安定であることを決定することを含む、請求項２０に記載のシステム。
前記候補着目点の１つ以上のものに基づいて、前記ニューラルネットワークを修正することは、
前記第２の候補着目点が不安定であることの決定に応答して、前記複数の画像の中から、前記第２の候補着目点および第２の対の画像を選択して、前記ニューラルネットワークを訓練することであって、前記第２の対の画像は、前記環境内の前記第２の候補着目点を描写する、こと
を含む、請求項２１に記載のシステム。
前記第２の候補着目点が不安定であることを決定することは、
前記第２の候補着目点が、第２の閾値数を超える前記複数の画像の画像の数に描写されていることを決定することと、
前記第２の候補着目点と関連付けられる再投影誤差が、第２の閾値誤差レベルを上回ることを決定することと
を含む、請求項２１に記載のシステム。
前記第１の閾値数は、前記第２の閾値数に等しい、請求項２３に記載のシステム。
前記第１の閾値誤差レベルは、前記第２の閾値誤差レベル未満である、請求項２３に記載のシステム。
候補着目点毎に、前記個別の安定性メトリックを決定することは、第３の候補着目点が、前記ニューラルネットワークの訓練から省略されるべきであることを決定することを含む、請求項２３に記載のシステム。
前記第３の候補着目点が、前記ニューラルネットワークの訓練から省略されるべきであることを決定することは、
前記第３の候補着目点が、第３の閾値数未満の前記複数の画像の画像の数に描写されていること、または
前記第３の候補着目点と関連付けられる再投影誤差が、前記第１の閾値誤差レベルと前記第２の閾値誤差レベルとの間であることを決定すること
のうちの少なくとも１つを決定することを含む、請求項２６に記載のシステム。
前記第３の閾値数は、前記第１の閾値数に等しい、請求項２７に記載のシステム。
前記複数の画像は、ビデオシーケンスから抽出された２次元画像を備える、請求項１７に記載のシステム。
前記複数の画像は、前記ビデオシーケンスの非連続的フレームに対応する、請求項２９に記載のシステム。
前記命令の１つ以上のシーケンスは、１つ以上のプロセッサによって実行されると、
前記ニューラルネットワークを修正することに続いて、前記ニューラルネットワークによって、第２の環境の第２の複数の画像を頭部搭載型ディスプレイデバイスから受信することと、
前記ニューラルネットワークによって、第２の着目点のセットを識別することと、
前記ニューラルネットワークによって、前記第２の複数の画像および前記第２の着目点のセットに基づいて、前記第２の環境に対してビジュアルオドメトリを実施することと
をさらに生じさせる、請求項１７に記載のシステム。
前記第２の環境に対してビジュアルオドメトリを実施することは、前記第２の着目点のセットを目印として使用して、前記頭部搭載型ディスプレイデバイスの位置および配向を決定することを含む、請求項３１に記載のシステム。