JP2023515669A

JP2023515669A - マルチビューステレオのための疎点の三角測量および緻密化を学習することによる深度推定のためのシステムおよび方法

Info

Publication number: JP2023515669A
Application number: JP2022552548A
Authority: JP
Inventors: アヤントゥヒネンドゥシンハ，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2020-03-05
Filing date: 2021-03-05
Publication date: 2023-04-13
Also published as: US11948320B2; EP4115145A1; EP4115145A4; WO2021178919A1; CN115210532A; US20210279904A1

Abstract

マルチビューステレオのための疎点の三角測量および緻密化を学習することによる深度推定のためのシステムおよび方法が提供される。エンドツーエンドプロセスにおいて、仮想現実、拡張現実、または複合現実（集合的に、クロスリアリティ）システム等の空間コンピューティングシステムのユーザを囲繞する、場面または環境内の特徴の深度を推定するためのシステムおよび方法。推定される深度は、空間コンピューティングシステムによって利用され、例えば、正確かつ効果的３Ｄクロスリアリティ体験を提供することができる。

Description

本発明は、コンピューティング、学習ネットワーク構成、および接続されたモバイルコンピューティングシステム、方法、および構成に関し、より具体的には、推定される深度が、仮想および／または拡張現実動作のために構成される、少なくとも１つのウェアラブルコンポーネントを特徴とする、モバイルコンピューティングシステム、方法、および構成において使用され得る、マルチビュー画像からの場面内の特徴の深度を推定するためのシステムおよび方に関する。

現代のコンピューティングおよびディスプレイ技術は、集合的に、「クロスリアリティ」環境または体験と称される、いわゆる仮想現実（「ＶＲ」）、拡張現実（「ＡＲ」）、および／または複合現実（「ＭＲ」）体験のためのシステムの開発を促進している。これは、頭部搭載型ディスプレイを通して、コンピュータ生成画像をユーザに提示することによって行われることができる。本画像は、感覚体験を作成し、これは、ユーザをシミュレートされた環境に没入させる。本データは、例えば、ユーザが、物理的世界の一部として、感知または知覚し、仮想オブジェクトと相互作用し得るようにレンダリングされ得る、仮想オブジェクトを説明し得る。ユーザは、例えば、頭部搭載型ディスプレイデバイス等のユーザインターフェースデバイスを通してレンダリングおよび提示されているデータの結果として、これらの仮想オブジェクトを体験し得る。データは、ユーザに見えるように表示され得る、またはユーザに聞こえるように再生される、オーディオを制御し得る、または触知的（または触覚的）インターフェースを制御し、ユーザが、仮想オブジェクトを感じるにつれて、ユーザが感知または知覚する、タッチ感覚を体験することを可能にし得る。

ＸＲシステムは、科学的可視化、医療訓練、工学設計、およびプロトタイプ化、遠隔操作およびテレプレゼンス、および個人的娯楽の分野に及ぶ、多くの用途のために有用であり得る。ＶＲシステムは、典型的には、実際の実世界視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。

ＡＲシステムは、概して、実世界環境をシミュレートされた要素で補完する。例えば、ＡＲシステムは、ユーザに、頭部搭載型ディスプレイを介して、周囲の実世界環境のビューを提供し得る。コンピュータ生成画像はまた、周囲の実世界環境を向上させるために頭部搭載型ディスプレイ上に提示されることもできる。本コンピュータ生成画像は、周囲の実世界環境にコンテキスト的に関連する、要素を含むことができる。そのような要素は、シミュレートされたテキスト、画像、オブジェクト、および同等物を含むことができる。ＭＲシステムはまた、シミュレートされたオブジェクトを実世界環境に導入するが、これらのオブジェクトは、典型的には、ＡＲシステムを上回る相互作用の程度を特徴とする。

ＡＲ／ＭＲシナリオは、多くの場合、実世界オブジェクトに関連して仮想画像要素の提示を含む。例えば、ＡＲ／ＭＲ場面は、ＡＲ／ＭＲ技術のユーザに、構造、オブジェクト等を含む、ユーザを囲繞する環境を特徴とする、実世界場面が見えるように描写される。これらの特徴に加え、ＡＲ／ＭＲ技術のユーザは、そのような特徴が実世界環境内に存在しない場合でも、彼らにコンピュータ生成された特徴（すなわち、仮想オブジェクト）が「見える」と知覚する。故に、ＡＲおよびＭＲは、ＶＲと対照的に、物理的世界の実オブジェクトに関連して、１つまたはそれを上回る仮想オブジェクトを含む。仮想オブジェクトはまた、実世界オブジェクトと相互作用し、したがって、ＡＲ／ＭＲシステムは、ユーザを囲繞する３Ｄ世界とのシステムの相互作用に関連して、「空間コンピューティング」システムとも称され得る。実オブジェクトと相互作用する仮想オブジェクトの体験は、ＸＲシステムを使用する際、ユーザの享受を大幅に向上させ、また、物理的世界が改変され得る方法についての現実的かつ容易に理解可能な情報を提示する、種々の用途のための可能性を広げる。

脳の視覚中枢は、貴重な知覚情報を相互に対する両眼およびその構成要素の運動から得る。相互に対する２つの眼の輻輳・開散運動移動（すなわち、眼の視線をオブジェクト上に収束させ、それを固視するための相互に向かってまたはそこから離れる瞳孔の回転移動）は、眼の水晶体の遠近調節（または合焦）と緊密に関連付けられる。正常条件下、眼を遠近調節し、または眼の水晶体の焦点を変化させ、異なる距離におけるオブジェクト上に合焦させることは、「遠近調節－輻輳・開散運動反射」として知られる関係下、同一距離への輻輳・開散運動の整合変化を自動的に生じさせるであろう。同様に、輻輳・開散運動の変化が、正常条件下、遠近調節の合致する変化を誘起するであろう。本反射に逆らう作用は、大部分の従来の立体視ＶＲ／ＡＲ／ＭＲ構成におけるように、眼精疲労、頭痛、または他の形態の不快感をユーザにもたらすことが知られている。

立体視ウェアラブル眼鏡は、概して、３次元視点がヒト視覚系によって知覚されるように、若干異なる要素提示を伴う画像を表示するように構成される、２つのディスプレイ（左眼に１つ、右眼に１つ）を特徴とする。そのような構成は、輻輳・開散運動と遠近調節との間の不整合（「輻輳・開散運動－遠近調節衝突」）に起因して、多くのユーザにとって不快であることが見出されており、これは、３次元における画像を知覚するために克服されなければならない。実際、一部のユーザは、立体視構成に耐えることが不可能である。これらの限界は、ＶＲ、ＡＲ、およびＭＲシステムに該当する。故に、大部分の従来のＶＲ／ＡＲ／ＭＲシステムは、部分的に、従来のシステムが、輻輳・開散運動－遠近調節衝突を含む、ヒト知覚系の基本側面のうちのいくつかに対処することができないため、ユーザにとって快適かつ最大限に有用となるであろう様式において、豊かな両眼３次元体験を提示するために最適に好適ではない。

種々のシステムおよび方法が、輻輳・開散運動－遠近調節衝突に対処するために開示されている。例えば、米国特許出願第１４／５５５，５８５号は、光および光によってレンダリングされた画像が複数の深度面から生じるように現れるように、１つまたはそれを上回る光誘導光学要素を使用して、光をユーザの眼に投影させることによって、輻輳・開散運動－遠近調節衝突に対処する、ＶＲ／ＡＲ／ＭＲシステムおよび方法を開示する。光誘導光学要素は、デジタルまたは仮想オブジェクトに対応する仮想光を内部結合し、それを全内部反射（「ＴＩＲ」）によって伝搬し、次いで、仮想光を外部結合し、仮想オブジェクトをユーザの眼に表示するように設計される。ＡＲ／ＭＲシステムでは、光誘導光学要素はまた、実際の実世界オブジェクトからの（例えば、そこから反射する）光に対して透過性であるように設計される。したがって、光誘導光学要素の一部は、ＴＩＲを介した伝搬のために仮想光を反射させながら、ＡＲ／ＭＲシステム内の実世界オブジェクトからの実世界光に対して透過性であるように設計される。

ＡＲ／ＭＲシナリオは、多くの場合、仮想オブジェクトと実世界の物理的環境との間の相互作用を含む。同様に、いくつかのＶＲシナリオは、完全仮想オブジェクトと他の仮想オブジェクトとの間の相互作用を含む。物理的環境内のオブジェクトの輪郭を描くことは、それらの相互作用の境および境界線を画定することによって（例えば、物理的環境内の特定の構造またはオブジェクトの範囲を画定することによって）、仮想オブジェクトとの相互作用を促進する。例えば、ＡＲ／ＭＲシナリオが、物理的環境内の特定のオブジェクトから延在する仮想オブジェクト（例えば、触手または拳）を含む場合、３次元内のオブジェクトの範囲を画定することは、ＡＲ／ＭＲシステムがより現実的ＡＲ／ＭＲシナリオを提示することを可能にする。逆に言えば、オブジェクトの範囲が、画定されない、または不正確に画定される場合、アーチファクトおよび誤差が、表示される画像に生じるであろう。例えば、仮想オブジェクトは、オブジェクトの表面からの代わりに、部分的または完全に、オブジェクトに隣接する空中から延在するように現れ得る。別の実施例では、ＡＲ／ＭＲシナリオが、物理的環境内の特定の水平表面上を歩いている仮想キャラクタを含む場合、表面の範囲を不正確に画定することは、落下せずに、代わりに、空中に浮遊して、表面から離れて歩いているように現れる、仮想キャラクタをもたらし得る。

故に、周囲環境等の場面の深度感知は、クロスリアリティシステムから自律運転に及ぶ、広範囲の用途のために有用である。場面の深度を推定することは、広義には、以下のクラス、すなわち、能動的および受動的感知に分割されることができる。能動的感知技法は、ＬｉＤＡＲ、構造化光、および飛行時間（ＴｏＦ）カメラを含む一方、単眼カメラまたはカメラのアレイの立体視を使用する、深度推定は、受動的感知と称される。能動的センサは、現在、事実上、可変環境内における良好な正確度および短待ち時間に起因して、深度感知を要求する用途の標準である（［参考文献４４］参照）。括弧内の付番された参考文献（「［参考文献＃＃］））は、下記に添付の参考文献一覧を指し、これらの参考文献はそれぞれ、参照することによってその全体として本明細書に組み込まれる。

しかしながら、能動的センサは、その独自の限界を有する。ＬｉＤＡＲは、法外に高価であって、かつ疎測定を提供する。構造化光およびＴｏＦ深度カメラは、光輸送の物理学に起因して、限定された範囲および完全性を有する。さらに、それらは、電力を大量消費し、ウェアラブル上のＡＲ／ＶＲ用途のために重要なモビリティを阻害する。その結果、コンピュータビジョン研究者は、能動的センサの普遍的、コスト効果的、かつエネルギー効率的代替として、受動的感知技法を追求している（［参考文献３０］参照）。

ステレオカメラを使用する、受動的深度感知は、正確な深度推定のために大規模ベースラインおよび慎重な較正を要求する（［参考文献３］参照）。大規模ベースラインは、電話およびウェアラブルのようなモバイルデバイスにとって、実行不可能である。代替は、可動単眼カメラのためのマルチビューステレオ（ＭＶＳ）技法を使用して、深度を推定するものである。ＭＶＳは、概して、既知のカメラ姿勢および固有性質を伴う、複数の画像から、３Ｄ場面構造を再構築する問題を指す（［参考文献１４］参照）。カメラ運動の制約されない本質は、ステレオリグのベースライン限界を緩和し、アルゴリズムは、持続的に変動する視点からの同一場面の複数の観察から利益を享受する（［参考文献１７］参照）。しかしながら、カメラ運動はまた、姿勢不確実性および運動アーチファクトの追加される複雑性に起因して、剛性ステレオリグに対して、深度推定をより困難にする。大部分のＭＶＳアプローチは、通常、平面掃引ステレオアプローチを用いて、３Ｄコスト体積を構築することを伴う（［参考文献４１、１８］参照）。ＭＶＳを使用する、正確な深度推定は、コスト体積上での３Ｄ畳み込みに依拠し、これは、メモリ上および算出上の両方において高価であって、分解能の３乗に比例する。さらに、冗長算出が、カメラ姿勢推定、故に、任意のＭＶＳ技法にとって必要な先行処理である、着目点およびその記述子等の有用な画像レベル性質を無視することによって、追加される。これは、受動的感知のための全体的コストおよびエネルギー要件を増加させる。

単一画像を使用する、受動的感知は、基本的に、２Ｄ画像内のスケール曖昧性に起因して、信頼性がない。深層学習ベースの単眼深度推定アプローチは、問題を深度回帰として公式化し（［参考文献１０、１１］参照）、能動的センサのものとの性能上の間隙を低減させている（［参考文献２６、２４］参照）が、依然として、実践的ものには遠く及ばない。最近、疎／稠密深度推定アプローチが、スケール曖昧性を除去し、単眼深度推定のロバスト性を改良するために提案されている（［参考文献３０］参照）。実際、０．５％未満の深度サンプルを伴う、最近の疎／稠密アプローチは、より広い範囲および高い完全性を伴って、能動的センサと同等である正確度を有する、（［参考文献６］参照）。しかしながら、これらのアプローチは、能動的センサからの正確なまたはシード深度サンプルを仮定し、これは、限定的である。代替は、同時位置特定およびマッピング（ＳＬＡＭ）（［参考文献３１］参照）または視覚慣性オドメトリ（ＶＩＯ）（［参考文献３３］参照）のための最良性能アルゴリズムから出力された疎３Ｄ目印を使用するものである。しかしながら、能動的センサからの深度の代わりに、これらの疎目印から評価される深度を使用することは、性能を有意に劣化させる（［参考文献４３］参照）。これは、学習された疎／稠密ネットワークが、ＳＬＡＭまたはＶＩＯアルゴリズム内に存在する潜在的に有用なキュー、構造化雑音、およびバイアスを無視するため、驚くべきことではない。

疎特徴ベースの方法は、その高速性および正確度に起因して、ＳＬＡＭまたはＶＩＯ技法のための標準である。検出後記述アプローチは、疎特徴抽出に対する最も一般的アプローチであって、着目点が、検出され、次いで、点の周囲のパッチに関して記述される。記述子は、角、ブロブ等の典型的低レベル着目点によって欠失される、より高いレベルの情報をカプセル化する。深層学習革命以前は、ＳＩＦＴ（［参考文献２８］参照）およびＯＲＢ（［参考文献３７］参照）のような古典的システムが、低レベル視覚タスクに関する特徴マッチングのための記述子として普遍的に使用されていた。目前の目的を直接最適化する、深層ニューラルネットワークは、現在、多様な用途を横断して、これらの手動で工作された特徴に取って代わっている。しかしながら、そのようなエンドツーエンドネットワークは、成分が非可微分であることに起因して、ＳＬＡＭ（［参考文献３２］参照）にとって分かりにくいままである。ＳｕｐｅｒＰｏｉｎｔ（［参考文献９］参照）、ＬＩＦＴ（［参考文献４２］参照）、およびＧＩＦＴ（［参考文献２７］参照）等の方法によって学習された汎用記述子は、可微分ＳＬＡＭに向かって、間隙を埋めることを狙いとする。

ＭＶＳアプローチは、３Ｄ体積を直接再構築するか、または３Ｄ再構築物または他の用途のためにフレキシブルに使用され得る、深度マップを出力するかのいずれかである。３Ｄ体積を再構築する方法（［参考文献４１、５］参照）は、３Ｄボクセル化空間で動作する高メモリ負荷に起因して（［参考文献３５、３９］参照）、または複雑な環境内での点表現を学習することの困難度に起因して（［参考文献３４］参照）のいずれかにおいて、小空間または隔離されたオブジェクトに制限される。屋内環境内で捕捉されたマルチビュー画像の使用が、最近、学習されたパッチマッチングアプローチを提案した、ＤｅｅｐＭＶＳ（［参考文献１８］参照）から開始して、進歩している。ＭＶＤｅｐｔｈＮｅｔ（［参考文献４０］参照）およびＤＰＳＮｅｔ（［参考文献１９］参照）は、深度推定のためのコスト体積を構築する。最近、ＧＰ－ＭＶＳＮｅｔ（［参考文献１７］参照）が、ＭＶＤｅｐｔｈＮｅｔを踏まえ、ガウスプロセスを使用して、時間的情報をコヒーレントに融合させた。全てのこれらの方法は、深度推定のある段階の間、平面掃引アルゴリズムを利用し、正確度対効率性のトレードオフをもたらす。

疎／稠密深度推定もまた、最近、電力予算に基づいて動作するときのその範囲限界に起因して、能動的深度センサを補完するため、および暗いまたは反射性オブジェクト等の検出が困難な領域における深度を充填するための方法として、出現している。１つのアプローチが、Ｍａｅｔ．ａｌ（［参考文献３０］参照）によって提案され、その後、Ｃｈｅｎｅｔ．ａｌ（［参考文献６、４３］参照）が続き、これは、革新を表現およびネットワークアーキテクチャに導入した。畳み込み空間伝搬モジュールが、欠失深度値を充填するために提案される［参考文献７］。最近、自己教師ありアプローチ（［参考文献１３、１２］参照）が、疎／稠密問題に関して模索されている（［参考文献２９］参照）。

マルチビューステレオ（ＭＶＳ）は、能動的深度感知の正確度と単眼深度推定の実践性との間の有利な中間アプローチを表すことが分かる。３Ｄ畳み込みニューラルネットワーク（ＣＮＮ）を採用する、コスト体積ベースのアプローチは、ＭＶＳシステムの正確度を著しく改良している。しかしながら、本正確度は、高算出コストの結果となり、これは、実践的採用を妨害する。

故に、コストがかかり、かつ非効果的能動的深度感知に依存せず、かつ以前の受動的深度感知技法の効率および／または正確度を改良する、場面の深度推定のための改良されたシステムおよび方法の必要性が存在する。加えて、軽量、低コスト、小形状因子を有し、広仮想画像視野を有し、可能な限り透明である、ディスプレイを有する、深度推定のためのシステムおよび方法は、ＸＲシステム内に実装可能であるべきである。

本明細書に開示される実施形態は、エンドツーエンドプロセスにおいて、ＸＲシステム等の空間コンピューティングシステムのユーザを囲繞する、場面または環境内の特徴の深度を推定するためのシステムおよび方法を対象とする。推定される深度は、空間コンピューティングシステムによって、例えば、正確かつ効果的３ＤＸＲ体験を提供するために利用されることができる。結果として生じる３ＤＸＲ体験は、部分的に、輻輳・開散運動－遠近調節不整合等のヒト知覚系の基本側面のうちのいくつかに対処する様式において、画像を提示し得るため、ユーザにとって快適かつ最大限に有用である、豊かな両眼３次元体験において表示可能である。例えば、推定される深度は、正確な深度データを有し、３Ｄ画像が複数の焦点面内に表示されることを有効にする、３Ｄ再構築物を生成するために使用されてもよい。３Ｄ再構築物はまた、仮想オブジェクト、他の仮想オブジェクト、および／または実世界オブジェクト間の相互作用の正確な管理を有効にしてもよい。

故に、一実施形態は、マルチビュー画像からの場面内の特徴の深度を推定するための方法を対象とする。最初に、場面のアンカ画像と、場面の基準画像のセットとを含む、マルチビュー画像が、取得される。これは、ＸＲシステムのカメラ等の１つまたはそれを上回る好適なカメラによって遂行され得る。アンカ画像および基準画像は、（１）アンカ画像および各基準画像に関する記述子の個別の記述子フィールドを出力し、（ｉｉ）相対的姿勢と併せて、アンカ画像内の着目点を検出し、代替視点から基準画像内の検索空間を決定し、（ｉｉｉ）中間特徴マップを出力する、共有ＲＧＢエンコーダおよび記述子デコーダを通して通過される。個別の記述子は、各基準画像の検索空間内でサンプリングされ、検索空間内の記述子を決定し、識別された記述子とアンカ画像内の着目点に関する記述子をマッチングさせる。マッチングされる記述子は、マッチングされた特徴点と称される。マッチングされた特徴点は、特異値分解（ＳＶＤ）を使用して三角測量され、３Ｄ点を出力する。３Ｄ点は、疎深度エンコーダを通して通過され、疎深度画像を３Ｄ点から作成し、特徴マップを出力する。深度デコーダは、次いで、疎深度エンコーダに関する出力特徴マップと、ＲＧＢエンコーダからの中間特徴マップとに基づいて、稠密深度画像を生成する。

本方法の別の側面では、共有ＲＧＢエンコーダおよび記述子デコーダは、ＲＧＢ画像エンコーダおよび疎深度画像エンコーダを含む、２つのエンコーダと、着目点検出エンコーダ、記述子デコーダ、および稠密深度予測エンコーダを含む、３つのデコーダとを備えてもよい。

さらに別の側面では、共有ＲＧＢエンコーダおよび記述子デコーダは、アンカ画像およびトランザクション画像の完全分解能に作用するように構成される、完全畳み込みニューラルネットワークであってもよい。

さらに別の側面では、本方法はさらに、ＲＧＢエンコーダからの特徴マップを第１のタスク特有のデコーダヘッドの中にフィードし、アンカ画像内の着目点の検出のための加重を決定し、着目点記述を出力するステップを含んでもよい。

本方法のさらに別の側面では、記述子デコーダは、Ｕ－Ｎｅｔ様アーキテクチャを備え、識別された記述子と着目点に関する記述子をマッチングさせるための微細および粗大レベル画像情報を融合させてもよい。

本方法の別の側面では、検索空間は、基準画像内の個別のエピポーラ線＋エピポーラ線の両側上の固定されたオフセットに制約され、エピポーラ線に沿った実行可能深度感知範囲内にあってもよい。

さらに本方法の別の側面では、双線形サンプリングが、共有ＲＧＢエンコーダおよび記述子デコーダによって使用され、個別の記述子を記述子フィールド内の所望の点において出力してもよい。

本方法の別の側面では、マッチングされた特徴点を三角測量するステップは、空間軸を横断して、ｓｏｆｔｍａｘを算出し、相互相関マップを出力することによって、着目点の個別の２次元（２Ｄ）位置を推定するステップと、ｓｏｆｔ－ａｒｇｍａｘ演算を実施し、節点の２Ｄ位置を対応する相互相関マップの質量中心として計算するステップと、線形代数三角測量を２Ｄ推定値から実施するステップと、特異値分解（ＳＶＤ）を使用して、３Ｄ点を出力するステップとを含む。

別の開示される実施形態は、クロスリアリティ（ＸＲ）システムを対象とし、これは、深度を推定するように構成され、本明細書に説明されるような深度のために利用される。クロスリアリティシステムは、ディスプレイシステムを有する、頭部搭載型ディスプレイデバイスを備える。例えば、頭部搭載型ディスプレイは、一対の接眼ディスプレイを眼鏡状構造内に有してもよい。コンピューティングシステムは、頭部搭載型ディスプレイと動作可能に通信する。複数のカメラセンサは、コンピューティングシステムと動作可能に通信する。コンピューティングシステムは、上記に説明される方法のいずれかにおいて、カメラセンサによって捕捉された複数のマルチビュー画像からの場面内の特徴の深度を推定するように構成される。クロスリアリティシステムの付加的側面では、プロセスは、上記に説明されるクロスリアリティシステムの付加的側面のうちの任意の１つまたはそれを上回るものを含んでもよい。例えば、プロセスは、カメラセンサからのカメラセンサの視野内の場面のアンカ画像と、場面の基準画像のセットとを含む、マルチビュー画像を取得するステップと、（１）アンカ画像および各基準画像に関する記述子の個別の記述子フィールドを出力し、（ｉｉ）相対的姿勢と併せて、アンカ画像内の着目点を検出し、代替視点から基準画像内の検索空間を決定し、（ｉｉｉ）中間特徴マップを出力する、共有ＲＧＢエンコーダおよび記述子デコーダを通して、アンカ画像および基準画像を通過させるステップと、各基準画像の検索空間内の個別の記述子をサンプリングし、検索空間内の記述子を決定し、識別された記述子とアンカ画像内の着目点に関する記述子をマッチングさせるステップであって、そのようなマッチングされる記述子は、マッチングされた特徴点と称される、ステップと、特異値分解（ＳＶＤ）を使用して、マッチングされた特徴点を三角測量し、３Ｄ点を出力するステップと、３Ｄ点を疎深度エンコーダを通して通過させ、疎深度画像を３Ｄ点および出力特徴マップから作成するステップと、深度デコーダが、疎深度エンコーダに関する出力特徴マップと、ＲＧＢエンコーダからの中間特徴マップとに基づいて、稠密深度画像を生成するステップとを含んでもよい。

図面は、本開示の好ましい実施形態の設計および有用性を図示し、その中で類似要素は、共通参照番号によって参照される。本開示の上記および他の利点および目的が取得される方法をより深く理解するために、上記に簡単に説明される、本開示のより具体的説明が、付随の図面に図示される、その具体的実施形態を参照することによって与えられるであろう。これらの図面は、本開示の典型的実施形態のみを描写し、したがって、その範囲の限定と見なされないことを理解した上で、本開示は、付随の図面の使用を通して、付加的具体性および詳細とともに記載および説明されるであろう。

図１は、一実施形態による、クロスリアリティ体験を提供するための例示的クロスリアリティシステムの概略図である。

図２は、一実施形態による、場面の深度推定のための方法の概略図である。

図３は、一実施形態による、図２の方法内で使用される、共有ＲＧＢエンコーダおよび記述子デコーダのアーキテクチャのブロック図である。

図４は、一実施形態による、図２の方法内で使用されるように、エピポーラサンプリングおよび深度範囲サンプリングを使用して、検索空間の範囲を制限するためのプロセスを図示する。

図５は、一実施形態による、図２の方法内で使用されるように、特徴点ネットワークのためのアーキテクチャを図示する、ブロック図である。

図６は、図２の方法の実施例と種々の他の異なる方法との間の定質的比較を図示する。

図７は、本明細書に説明される、図２の方法の実施例の推定される深度マップＩからの場面のサンプル３Ｄ再構築物を示す。

図８は、ＳｃａｎＮｅｔ上での異なる記述子の性能の比較を有する、表１を示す。

図９は、ＳｃａｎＮｅｔ上での深度推定の性能の比較を有する、表２を示す。

図１０は、異なる数の画像に関するＳｃａｎＮｅｔ上での深度推定の性能の比較を有する、表３を示す。

図１１は、Ｓｕｎ３Ｄ上での深度推定の比較を有する、表４を示す。

図１２は、一実施形態による、図２の方法内で使用されるように、画像視点毎に、その対応するエピポーラ線に沿って、記述子フィールドで畳み込まれる各着目点の記述子のためのプロセスに関する方程式を記載する。

図１３－１６は、一実施形態による、図２の方法内で使用されるように、３Ｄ点を取得するための代数三角測量のためのプロセスに関する方程式を記載する。図１３－１６は、一実施形態による、図２の方法内で使用されるように、３Ｄ点を取得するための代数三角測量のためのプロセスに関する方程式を記載する。図１３－１６は、一実施形態による、図２の方法内で使用されるように、３Ｄ点を取得するための代数三角測量のためのプロセスに関する方程式を記載する。図１３－１６は、一実施形態による、図２の方法内で使用されるように、３Ｄ点を取得するための代数三角測量のためのプロセスに関する方程式を記載する。

詳細な説明
以下は、エンドツーエンドプロセスにおいて、ＸＲシステム等の空間コンピューティングシステムのユーザを囲繞する、場面または環境内の特徴の深度を推定するためのシステムおよび方法の種々の実施形態を説明する。種々の実施形態が、ここで、当業者が本開示を実践することを可能にするように、本開示の例証的実施例として提供される、図面を参照して詳細に説明されるであろう。着目すべきこととして、以下の図および実施例は、本開示の範囲を限定することを意味するものではない。本開示のある要素が、部分的または完全に、公知のコンポーネント（または方法またはプロセス）を使用して実装され得る場合、本開示の理解のために必要なそのような公知のコンポーネント（または方法またはプロセス）の一部のみが、説明され、そのような公知のコンポーネント（または方法またはプロセス）の他の部分の詳細な説明は、本開示を曖昧にしないように、省略されるであろう。さらに、種々の実施形態は、本明細書に例証として参照されるコンポーネントの現在および将来的公知の均等物を包含する。

さらに、空間コンピューティングシステムのユーザを囲繞する、場面または環境内の特徴の深度を推定するためのシステムおよび方法はまた、ＸＲシステムから独立して実装されてもよく、本明細書に描写される実施形態は、例証的目的のみのために、ＸＲシステムに関連して説明される。

図１を参照すると、一実施形態による、例示的ＸＲシステム１００が、図示される。ＸＲシステム１００は、頭部搭載型ディスプレイデバイス２（ヘッド装着型視認コンポーネント２とも称される）と、ハンドヘルドコントローラ４（ハンドヘルドコントローラコンポーネント４とも称される）と、ベルトパックまたは同等物として、ユーザ上に装着されるように構成され得る、相互接続された補助コンピューティングシステムまたはコントローラ６（相互接続される補助コンピューティングシステムまたはコントローラコンポーネント６とも称される）とを含む。これらのコンポーネントはそれぞれ、ＩＥＥＥ８０２．１１、Ｂｌｕｅｔｏｏｔｈ（登録商標）（ＲＴＭ）、および他のコネクティビティ規格および構成によって規定されたもの等の有線または無線通信接続１０、１２、１４、１６、１７、１８を介して、相互および他の接続されたリソース８（クラウドコンピューティングまたはクラウド記憶リソース等）と動作可能に通信する（すなわち、動作可能に結合される）。頭部搭載型ディスプレイデバイス２は、それを通してユーザには、その周囲の世界が、関連付けられるシステムコンポーネントによって生産されたビデオ画像および視覚的コンポーネントとともに見え得る、２つの描写される光学要素２０を含み、一対の画像源（例えば、マイクロディスプレイパネル）と、拡張現実体験のためにコンピュータ生成された画像を光学要素２０上に表示するための視認光学系とを含む。図示される実施形態では、頭部搭載型ディスプレイデバイス２および対の画像源は、軽量、低コスト、小形状因子を有し、広仮想画像視野を有し、かつ可能な限り透明である。図１に図示されるように、ＸＲシステム１００はまた、限定ではないが、種々のカメラタイプセンサ２２、２４、２６（モノクロ、カラー／ＲＧＢ、および／または熱等）、深度カメラセンサ２８、および／または音センサ３０（マイクロホン等）を含む、ユーザの環境周囲に関する情報を提供するように構成される、種々のセンサを含む。

加えて、ＸＲシステム１００は、輻輳・開散運動－遠近調節不整合に関する容認可能許容値を超えずに、様々なユースケースのために実践的であるために、仮想画像情報を複数の焦点面（例えば、２つまたはそれを上回る）内に提示するように構成されることが望ましい。米国特許出願第１４／５５５，５８５号、第１４／６９０，４０１号、第１４／３３１，２１８号、第１５／４８１，２５５号、第６２／６２７，１５５号、第６２／５１８，５３９号、第１６／２２９，５３２号、第１６／１５５，５６４号、第１５／４１３，２８４号、第１６／０２０，５４１号、第６２，７０２，３２２号、第６２／２０６，７６５号、第１５，５９７，６９４号、第１６／２２１，０６５号、第１５／９６８，６７３号、および第６２／６８２，７８８号（それぞれ、参照することによってその全体として本明細書に組み込まれる）は、ＸＲシステム１００およびそのコンポーネントの種々の側面をさらに詳細に説明する。

種々の実施形態では、ユーザが、図１に描写されるＸＲシステム１００等の拡張現実システムを装着し、これは、動作されるときのユーザの周囲の３次元世界とのそのようなシステムの相互作用に関連して、「空間コンピューティング」システムとも称され得る。カメラ２２、２４、２６およびコンピューティングシステム６が、ユーザの環境周囲をマッピングし、および／または壁、床、椅子、および同等物等のユーザの環境周囲内の種々のオブジェクトの幾何学形状を表す種々の点を備える、そのような環境の「メッシュ」を作成するように構成される。空間コンピューティングシステムは、ユーザの周囲の環境をマッピングまたはメッシュ化し、ＭａｇｉｃＬｅａｐ，Ｉｎｃ．（Ｐｌａｎａｔｉｏｎ，Ｆｌｏｒｉｄａ）から利用可能なもの等のソフトウェアを起動または動作させるように構成されてもよく、これは、部屋のマップまたはメッシュを利用して、ユーザが、ユーザの周囲の３次元空間内の種々のオブジェクトおよび要素を設置、操作、可視化、作成、および修正することを補助するように構成されてもよい。図１に示されるように、ＸＲシステム１００はまた、クラウドまたは他のコネクティビティ構成によって、他のコンピューティングシステム等の付加的接続されたリソース８に動作可能に結合されてもよい。

本明細書に説明される方法、システム、および構成は、適切なセンサおよび利用可能な関連付けられるデータに従って、ＸＲシステム１００等のウェアラブル空間コンピューティングの領域の外側の種々のシナリオに広く適用可能であることを理解されたい。

場面の深度推定のための以前のシステムおよび方法と対照的に、本開示のシステムおよび方法は、（ａ）ＭＶＳ技法におけるコスト体積への依存性を除去し、したがって、算出量を有意に低減させ、（ｂ）検出された着目点および記述子を再使用することによって、疎ＶＩＯまたはＳＬＡＭを使用して、カメラ姿勢推定を補完し、（ｃ）幾何学形状ベースのＭＶＳ概念を利用して、アルゴリズムを誘導し、解釈可能性を改良し、（ｄ）疎／稠密技法の正確度および効率性から利益を享受するように、エンドツーエンド様式において、疎／稠密公式と併せて、疎３Ｄ目印を学習する。本システムおよび方法におけるネットワークは、ＲＧＢ画像のために１つと、疎深度画像のために１つとの、２つのエンコーダと、着目点検出のために１つと、記述子のために１つと、稠密深度予測のために１つとの、３つのデコーダとから成る、エンコーダ－デコーダ構造で構成される、マルチタスクモデル（［参考文献２２］参照）である。効率的に、幾何学的初期値を使用して、点を三角測量し、着目点デコーダと、記述子デコーダと、疎深度エンコーダとの間の重要な連結を形成し、エンドツーエンド訓練を有効にする、可微分モジュールもまた、利用される。

これらの方法および構成は、適切なセンサおよび関連付けられるデータが利用可能であることを条件として、ウェアラブル空間コンピューティングの領域外の種々のシナリオにも広く適用可能である。

空間コンピューティングにおける課題のうちの１つは、例えば、ユーザの周囲の３次元世界に関連し得る、コンピュータビジョンおよび／またはオブジェクト認識課題等において、ユーザに有用および／または重要な決定を行う際に、ＸＲシステム１００の種々の動作可能に結合されるセンサ（図１のシステム１００の要素２２、２４、２６、２８等）によって捕捉されたデータの利用に関する。本明細書に開示されるものは、深度センサ２８からの深度データを使用せずに、カメラ２２、２４、および２６からのＲＧＢ画像等のＲＧＢ画像のみを使用して、ＸＲシステム１００のユーザを囲繞する３Ｄ環境等の場面の３Ｄ再構築物を生成するための方法およびシステムである。

屋内環境等の場面の深度推定の以前の方法と対照的に、本開示は、マルチビューステレオのための疎点の三角測量および緻密化を学習することによって、深度推定のためのアプローチを導入する。コスト体積アプローチと明確に異なり、本開示のシステムおよび方法は、最初に、（ａ）着目点を検出し、それに関する記述子を評価し、次いで、（ｂ）着目点の小集合をマッチングおよび三角測量するように学習し、最終的に、ＣＮＮを使用して、３Ｄ点の本疎集合を稠密化することによって、効率的深度推定アプローチを利用する。エンドツーエンドネットワークは、効率的に、全３つのステップを深層学習フレームワーク内で実施し、深度監視とともに、中間２Ｄ画像および３Ｄ幾何学的監視を用いて、訓練される。重大なこととして、本開示の方法の第１のステップは、着目点検出および記述子学習を使用して、姿勢推定を補完する。本方法は、より低い算出量を伴って、異なる場面長に関して、最先端結果を深度推定上で生産することが示される。さらに、本方法は、より新しい環境に対して一般化され、ネットワークによって出力された記述子は、優先的に、強固なベースラインと比較される。

本開示の方法では、疎３Ｄ目印は、（ａ）ＭＶＳ技法におけるようなコスト体積への依存性を除去し、したがって、算出コストを有意に低減させ、（ｂ）検出された着目点および記述子を再使用することによって、疎ＶＩＯまたはＳＬＡＭを使用して、カメラ姿勢推定を補完し、（ｃ）幾何学形状ベースのＭＶＳ概念を利用して、アルゴリズムを誘導し、解釈可能性を改良し、（ｄ）疎／稠密技法の正確度および効率性から利益を享受するように、エンドツーエンド様式において、疎／稠密公式と併せて学習される。方法内で使用されるネットワークは、ＲＧＢ画像のために１つと、疎深度画像のために１つとの、２つのエンコーダと、着目点検出のために１つと、記述子のために１つと、稠密深度予測のために１つとの、３つのデコーダとから成る、エンコーダ－デコーダ構造で構成される、マルチタスクモデル（［参考文献２２］参照）である。本方法また、効率的に、幾何学的初期値を使用して、点を三角測量し、着目点デコーダと、記述子デコーダと、疎深度エンコーダとの間の重要な連結を形成し、エンドツーエンド訓練を有効にする、可微分モジュールを利用する。

場面の深度推定のための方法１１０およびシステム１１０の一実施形態は、広義には、図２の概略図に図示されるように、３つのステップに細分割されることができる。方法１１０は、広義には、図２に図示されるように、３つのステップに細分割されることができる。第１のステップ１１２では、標的またはアンカ画像１１４およびマルチビュー画像１１６が、共有ＲＧＢエンコーダおよび記述子デコーダ１１８（ＲＧＢ画像エンコーダ１１９、検出器デコーダ１２１、および記述子デコーダ１２３を含む）を通して通過され、画像１１４、１１６毎に、記述子フィールド１２０を出力する。着目点１２２もまた、標的またはアンカ画像１１４に関して検出される。第２のステップ１２４では、アンカ画像１１４内の着目点１２２が、相対的姿勢１２６と併せて、代替視点から、基準画像１１６内の検索空間を決定するために使用される。記述子１３２は、それぞれ、エピポーラサンプラ１２７および点サンプラ１２９を使用して、検索空間内でサンプリングされ、サンプリングされた記述子１２８を出力し、ソフトマッチャ１３０によって、着目点１２２に関する記述子１２８とマッチングされる。次いで、マッチングされた特徴点１３４は、三角測量モジュール１３６を使用する、ＳＶＤを使用して、三角測量され、３Ｄ点１３８を出力する。出力された３Ｄ点１３８は、疎深度エンコーダ１４０によって使用され、疎深度画像を作成する。第３かつ最終のステップ１４２では、疎深度エンコーダ１４０に関する出力特徴マップおよびＲＧＢエンコーダ１１９からの中間特徴マップが、集合的に、深度デコーダ１４４に通知し、稠密深度画像１４６を出力するために使用される。３つのステップはそれぞれ、下記により詳細に説明される。

上記に説明されるように、共有ＲＧＢエンコーダおよび記述子デコーダ１１８は、２つのエンコーダ、すなわち、ＲＧＢ画像エンコーダ１１９および疎深度画像エンコーダ１４０と、３つのデコーダ、すなわち、検出器デコーダ１２１（着目点検出器デコーダ１２１とも称される）、記述子デコーダ１２３、および稠密深度デコーダ１４４（稠密深度予測器デコーダ１４４とも称される）とから成る。一実施形態では、共有ＲＧＢエンコーダおよび記述子デコーダ１１８は、完全畳み込みニューラルネットワークアーキテクチャのＳｕｐｅｒＰｏｉｎｔ様（［参考文献９］参照）公式を備えてもよく、これは、完全分解能画像に作用し、固定長記述子を伴う着目点検出を生産する。モデルは、単一共有エンコーダに、入力画像次元を処理および低減させる。ＲＧＢエンコーダ１１９からの特徴マップは、２つのタスク特有のデコーダ「ヘッド」の中にフィードされ、これは、着目点検出および着目点記述に関する加重を学習する。ＳｕｐｅｒＰｏｉｎｔにおける着目点検出および記述の本共同公式は、検出および記述タスクおよび深度推定の下流タスクに関する算出量を共有することを有効にする。しかしながら、ＳｕｐｅｒＰｏｉｎｔは、グレースケール画像上で訓練され、高フレームレートビデオストリーム上での持続的姿勢推定のための着目点検出および記述に焦点が当てられており、故に、比較的に浅層エンコーダを有する。対照的に、本方法は、十分なベースライン、その結果、後続フレーム間のより長いインターバルを伴う、画像シーケンスに着目する。さらに、疎点分析のために好適なＳｕｐｅｒＰｏｉｎｔの浅層バックボーンは、稠密深度推定の我々の下流タスクにとって、限定された容量を有する。故に、浅層バックボーンは、ＲｅｓＮｅｔ－５０（［参考文献１６］参照）エンコーダと置換され、これは、効率性および性能を平衡させる。着目点検出器デコーダ１２１の出力分解能は、ＳｕｐｅｒＰｏｉｎｔのものと同じである。点マッチングのために重要な微細および粗大レベル画像情報を融合させるために、方法１１０は、記述子デコーダ１２３のために、Ｕ－Ｎｅｔ（［参考文献３６］参照）様アーキテクチャを利用してもよい。記述子デコーダ１２３は、ＳｕｐｅｒＰｏｉｎｔと同様に、画像分解能の１／８において、Ｎ次元記述子テンソル１２０を出力する。本アーキテクチャは、図３に図示される。着目点検出器ネットワークは、オリジナルＳｕｐｅｒＰｏｉｎｔネットワークの出力を希釈することによって訓練され、記述子は、下記に説明されるマッチング公式によって訓練される。

前のステップは、アンカ画像に関する着目点と、全ての画像、すなわち、アンカ画像および基準画像の完全セットに関する記述子とを提供する。方法１１０の次のステップ１２４は、点マッチングおよび三角測量を含む。単純なアプローチは、アンカ画像１１４の記述子フィールド１２０からサンプリングされる着目点１２２の記述子を各基準画像１１６内のあらゆる可能性として考えられる位置にマッチングさせるためのものとなるであろう。しかしながら、これは、算出上法外となる。故に、方法１１０は、幾何学的制約を呼び出し、検索空間を制限し、効率性を改良する。マルチビュー幾何学形状からの概念を使用して、方法１００は、基準画像内のエピポーラ線に沿ってのみ検索する（［図１４］参照）。エピポーラ線は、関係ｘＦｘ^Ｔ＝０（式中、ｘは、画像内の点の集合である）を使用する、基本行列Ｆを使用して決定される。マッチングされる点は、理想的シナリオでは、エピポーラ線上にあることが保証される。しかしながら、完璧な姿勢を取得することの実践的限界は、小固定オフセットを両側に伴う、エピポーラ線に沿った検索につながる。さらに、エピポーラ線は、深度値に関して、－∞から∞まで伸展する。検索空間は、エピポーラ線から実行可能深度感知範囲内にあるように制約され、サンプリングレートは、図４に図示されるように、実装目的のために、同一出力形状を伴う記述子フィールドを取得するために、本制限された範囲内で変動される。双線形サンプリングが、記述子フィールド１２０内の所望の点において記述子を取得するために使用される。各着目点１２２の記述子は、図１２の方程式（１）に図示され、また、下記に再現されるように、画像視点毎に、その対応するエピポーラ線に沿って、記述子フィールド１２０で畳み込まれる。

３Ｄ点を取得するために、［参考文献２１］において提案される、代数三角測量アプローチが、追従される。各着目点ｊが、相互から独立して処理される。アプローチは、各相互相関マップ内のピーク値から取得される２Ｄ位置とともに、２Ｄ着目点を三角測量することに応じて、構築される。２Ｄ位置を推定するために、空間軸を横断して、ｓｏｆｔｍａｘが、図１３の方程式（２）に図示され、また、下記に再現されるように、最初に算出される。

次いで、図１４の方程式（３）（また、下記に再現される）を使用して、節点の２Ｄ位置が、ｓｏｆｔ－ａｒｇｍａｘ演算とも称される、対応する相互相関マップの質量中心として、計算される。

ｓｏｆｔ－ａｒｇｍａｘの重要な特徴は、最大値のインデックスを得るのではなく、勾配がマッチングされた点ｘ_{ｊ，ｋ}の出力された２Ｄ位置から相互相関マップＣ_{ｊ，ｋ}にフローバックすることを可能にすることである。換言すると、ａｒｇｍａｘと異なり、ｓｏｆｔ－ａｒｇｍａｘ演算子は、可微分である。節点の３Ｄ位置をその２Ｄ推定値ｘ_{ｊ，ｋ}から推測するために、線形代数三角測量アプローチが、使用される。本方法は、図１５の方程式４に図示され、また、下記に再現されるように、点ｚ_ｊの３Ｄ座標を見出すステップを、点

のホモジニアス３Ｄ座標ベクトルの方程式の優決定系を解くステップに還元する。

単純な三角測量アルゴリズムは、各ビューからの点座標が、相互から独立し、したがって、全て、同等の寄与を三角測量に行うと仮定する。しかしながら、あるビューでは、２Ｄ点場所は、確実に推定されることができず（例えば、オクルージョン、アーチファクト等に起因して）、最終三角測量結果の不必要な劣化につながる。これは、代数再投影誤差を最適化し、非均一注意を異なるビューに払う、方法の傾向を大幅に悪化させる。本問題は、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ）を、Ｈｕｂｅｒ損失（正対応に対応する、再投影誤差をスコア化するために使用される）とともに適用することによって、解決されることができる。しかしながら、これは、その独自の短所を有する。例えば、ＲＡＮＳＡＣを使用することは、除外されたビューへの勾配フローを完全に排除し得る。前述の問題に対処するために、加重ｗ_ｋが、図１６の方程式（５）に図示されるように、異なるビューに対応する行列の係数に追加される。加重ｗは、各相互相関マップ内の最大値であるように設定される。これは、着目点を三角測量する間、各カメラビューの寄与がより低く加重されることを可能にする。着目点の信頼度値は、１に設定されることに留意されたい。下記に再現される、図１６の方程式（５）は、行列Ｂ＝ＵＤＶ^Ｔの可微分特異値分解（ＳＶＤ）を介して解かれ、そこから

が、Ｖの最後の列として設定される。

ｚの最終非ホモジニアス値は、ホモジニアス３Ｄ座標ベクトル

をその第４座標

によって除算することによって取得される。

次に、疎深度点の緻密化を含む、方法１１０のステップ１４２が、説明されるであろう。特徴点検出器ネットワークが、点の位置を提供する。三角測量された点のｚ座標は、深度を提供する。入力画像と同一分解能の疎深度画像が、これらの疎点の深度を用いて代入される。勾配は、疎深度画像から入力画像までの３Ｄ特徴点に逆伝搬し得ることに留意されたい。これは、ＳｅｇＮｅｔ（［参考文献１］参照）におけるスイッチアンプーリングに類似する。疎深度画像は、画像エンコーダネットワーク１１９のより限られたバージョンである、エンコーダネットワークを通して通過される。より具体的には、チャネル幅を伴う、ＲｅｓＮｅｔ－５０エンコーダが、画像エンコーダの１／４であるように、各層の後に使用される。これらの特徴は、画像エンコーダ１１９から取得される特徴と連結される。画像およびデコーダ内の同一分解能の中間特徴マップと連結された疎深度エンコーダの両方からの中間特徴マップを伴う、Ｕ－ＮＥＴスタイルデコーダが、［参考文献６］と同様に、使用される。４つのスケールにわたる深層監視が、提供される（［参考文献２５］参照）。空間ピラミッドプーリングブロックもまた、含まれ、異なる受容野サイズにおける特徴混合を促す（［参考文献１５、４］参照）。本アーキテクチャの詳細は、図５に示される。

全体的訓練目的が、ここで説明されるであろう。ネットワーク全体が、（ａ）着目点検出器デコーダの出力テンソルとＳｕｐｅｒＰｏｉｎｔから取得されるグラウンドトゥルース着目点場所との間のクロスエントロピ損失と、（ｂ）ｓｏｆｔ－ａｒｇｍａｘおよびグラウンドトゥルース２Ｄ点マッチング後の２Ｄ点出力間の平滑－Ｌ１損失と、（ｃ）ＳＶＤ三角測量後の３Ｄ点出力とグラウンドトゥルース３Ｄ点との間の平滑－Ｌ１損失と、（ｄ）出力稠密深度マップ上の縁を意識した平滑度損失と、（ｅ）予測される稠密深度マップ出力とグラウンドトゥルース３Ｄ深度マップとの間の複数のスケールにわたる平滑－Ｌ１損失との組み合わせを用いて、訓練される。全体的訓練目的は、以下である。

実施例：

実装詳細：

訓練：大部分のＭＶＳデータセットは、ＤＥＭＯＮデータセット上で訓練される。しかしながら、ＤＥＭＯＮデータセットは、主に、関連付けられる深度および姿勢情報を伴う、対の画像を含有する。相対的信頼度推定は、我々のアルゴリズムにおける正確な三角測量に重要であって、信頼度を正確に推定し、着目点を全体的に三角測量するために、３つまたはそれを上回る長さのシーケンスを必要とする。故に、我々は、ＭＶＳ深度推定のための従来的データセットから退避し、代わりに、ＳｃａｎＮｅｔ（［参考文献８］参照）を使用する。ＳｃａｎＮｅｔは、３Ｄカメラ姿勢、表面再構築物、およびインスタンスレベル意味論セグメント化を用いて注釈が付けられた、１，５００を上回る走査内の２５０万ビューを含有する、ＲＧＢ－Ｄビデオデータセットである。２０フレームの固定インターバルにおける走査からの３つのビューが、姿勢および深度情報とともに、我々の方法における訓練データ点を形成する。標的フレームは、着目点を検出するために、ＳｕｐｅｒＰｏｉｎｔを通して通過され、これは、次いで、我々のネットワークを訓練しながら、損失Ｌ_ｉｐを使用して希釈される。我々は、深度画像を使用して、グラウンドトゥルース２Ｄマッチングを決定し、深度を投影解除し、グラウンドトゥルース３Ｄ点を決定する。我々は、２４のバッチサイズを伴う、ＰｙＴｏｒｃｈフレームワークと、学習率０．０００１（β１＝０．９、β２＝０．９９９）を伴う、ＡＤＡＭオプティマイザとを使用して、１０万回の反復にわたって、我々のモデルを訓練する。我々は、画像の分解能をｑＶＧＡ（２４０×３２０）および着目点の数を各画像内で５１２に固定し、着目点の最大で半分が、５ｅ－４で閾値化された着目点検出器から選定され、点の残りは、画像からランダムに選定される。ランダム点を選定することは、画像内の疎点の均一分布を確実にし、高密度化プロセスに役立つ。我々は、マッチングが２５と同程度に小さい長さに関してさえロバストであることが見出したにもかかわらず、エピポーラ線に沿ったサンプリングされる記述子の長さを１００であるように設定する。我々は、実験的に、加重を［０．１，１．０，２．０，１．０，２．０］であるように設定する。

評価：ＳｃａｎＮｅｔ試験セットは、訓練データセット内の７０７の場面に関して異なる一意の場面の１００走査から成る。我々は、最初に、ＳｃａｎＮｅｔ上での姿勢推定の目的のために、我々の検出器および記述子デコーダの性能を評価する。我々は、ＳｕｐｅｒＰｏｉｎｔにおいて提案される評価プロトコルおよびメトリック、すなわち、平均位置特定誤差（ＭＬＥ）、マッチングスコア（ＭＳｃｏｒｅ）、再現性（Ｒｅｐ）、および回転に関して５°（５度）閾値および平行移動に関して５ｃｍにおいて、記述子マッチングおよびＰｎＰアルゴリズムを使用して推定される、正しい姿勢の割合を使用する。我々は、ＳｕｐｅｒＰｏｉｎｔの論文において提案されるように、Ｒｅｐ、ＭＬＥ、およびＭＳｃｏｒｅに関して３ピクセルのＮＭＳ閾値において、ＳｕｐｅｒＰｏｉｎｔ、ＳＩＦＴ、ＯＲＢ、およびＳＵＲＦに対して比較する。次に、我々は、標準メトリックを使用して、我々の推定される深度の品質を定量的に測定する、すなわち、絶対相対的誤差（ＡｂｓＲｅｌ）、絶対差誤差（Ａｂｓｄｉｆｆ）、相対二乗誤差（ＳｑＲｅｌ）、二乗平均平方根誤差、およびその対数スケール（ＲＭＳＥおよびＲＭＳＥ対数）、および正対応比率（δ＜１．２５ｉ、式中、ｉ∈１，２，３）である。

我々は、我々の方法とＭＶＳに関する最近の深層学習アプローチ、すなわち、（ａ）ＤＰＳＮｅｔ：深層平面掃引アプローチ、（ｂ）ＭＶＤｅｐｔｈＮｅｔ：マルチビュー深度ネットワーク、および（ｃ）ガウスプロセスを使用する、ＧＰ－ＭＶＳＮｅｔ一時非パラメータ融合アプローチを比較する。これらの方法は、従来的幾何学形状ベースのステレオアルゴリズムよりはるかに良好に性能を発揮することに留意されたい。我々の一次結果は、長さ３のシーケンスに基づくが、また、場面長の関数としての性能を理解するために、長さ２、４、５、および７のシーケンスに基づく数も報告する。我々は、我々のアプローチの他の屋内場面への一般化を理解するために、Ｓｕｎ３Ｄデータセット上での方法を評価する。我々はまた、ランタイムにおける動作効率性を理解するために、異なる方法に関する乗累算演算（ＭＡＣ）についても議論する。

記述子品質：

図８における表１は、我々の検出器および記述子評価の結果を示す。ＭＬＥおよび再現性は、検出器メトリックであって、ＭＳｃｏｒｅは、記述子メトリックであって、回転＠５および平行移動＠５は、組み合わせられたメトリックであることに留意されたい。我々は、我々の検出器に関する閾値を、訓練の間に使用されたものと同一である、０．０００５に設定する。これは、多数の着目点が検出される結果をもたらし（Ｎｕｍ）、これは、我々の発明に有利にあるように、再現性スコア（Ｒｅｐ）を人為的に上昇させるが、ＭＬＥメトリックによって示されるように、不良位置特定性能を有する。しかしながら、我々のＭＳｃｏｒｅは、完全画像ではなく、エピポーラ線に沿ってのみマッチングするように我々のネットワークを訓練したにもかかわらず、ＳｕｐｅｒＰｏｉｎｔと同等である。さらに、我々は、最良回転＠５および平行移動＠５メトリックを有し、我々の記述子を使用して見出されるマッチングが、回転および平行移動、すなわち、姿勢を正確に決定することに役立つことを示す。これらの結果は、我々の訓練プロシージャが、ＳｕｐｅｒＰｏｉｎｔのホモグラフィ適合技法を補完し、全体的性能を後押しし得ることを示す。

深度結果：

我々は、全てのシナリオに関して、かつ全てのデータセットを横断して、我々のネットワークを評価するために、同一ハイパーパラメータを設定する、すなわち、検出される点の数を５１２、サンプリングされる記述子の長さを１００、および検出器閾値を５ｅ－４に固定する。着目点の均一分布を確実にし、クラスタを回避するために、我々は、［参考文献９］に提案されるように、９の高ＮＭＳ値を設定する。付録は、ハイパーパラメータの異なる選択肢にわたるアブレーション研究を有する。図９の表２は、訓練セット内で使用されるように、長さ３および間隙２０のシーケンス上での深度推定の性能を示す。正当な比較のために、我々は、競合アプローチの２つのバージョン、すなわち、（１）我々が提供したオープンソース訓練モデルと、（２）原稿内に提案された、または著者によって利用可能にされた、デフォルト訓練パラメータを用いて、１０万回の反復にわたって、ＳｃａｎＮｅｔ上で微調整された、訓練モデルとを評価する。我々は、我々の発明と同様に、２０フレームの間隙を使用して、各ネットワークを訓練する。微調整されたモデルは、図９の表２内の添字「－ＦＴ」によって示される。当然のことながら、微調整されたモデルは、ＳｃａｎＮｅｔ評価上でのオリジナルモデルよりはるかに良好であった。ＭＶＤｅｐｔｈＮｅｔは、微調整後、少なくとも改良を有し、これは、訓練の間に使用される、著しい幾何学的および測光拡張に起因し、故に、良好に一般化させることができる。ＤＰＳＮｅｔは、絶対誤差における２５％超の低下を伴って、微調整から最大限に利益を享受する。しかしながら、本開示の方法による、我々のネットワークは、全てのメトリックを横断して、全ての方法より優れている。図６は、異なる方法間の定質的比較を示し、図７は、推定される深度マップからの場面のサンプル３Ｄ再構築物を示す。

任意のマルチビューステレオ方法の重要な特徴は、より多くのビューに伴って改良する能力である。図１０の表３は、異なる数の画像に関する性能を示す。我々は、それぞれ、２、４、５、および７つのフレームに関して、フレーム間隙を２０、１５、１２、および１０に設定する。これらの間隙は、各集合が３Ｄ空間内の類似体積に近似的に及び、任意の性能改良が、新しい情報を入手することとは対照的に、利用可能な情報を使用して、ネットワークからより良好に出現することを確実にする。我々は、再び、本明細書に開示される方法が、異なるシーケンス長に関する全３つのメトリックにおいて、全ての他の方法より優れていることを認める。値のより詳細な検討は、ＤＰＳＮｅｔおよびＧＰＭＶＳＮｅｔが、付加的ビューから利益を享受しない一方、ＭＶＤｅｐｔｈＮｅｔが、少数の付加的ビューから利益を享受するが、４つを上回るフレームに関して停滞することを示す。対照的に、本開示の方法は、付加的ビューを用いて、全３つのメトリックにおいて、定常改良を示す。これは、付加的ビューから必然的に利益を享受する、我々の点マッチャおよび三角測量モジュールに起因し得る。

最終実験として、我々は、我々のネットワークを８０対の画像から成るＳｕｎ３Ｄ試験データセット上で試験する。Ｓｕｎ３Ｄはまた、ＳｃａｎＮｅｔと比較してはるかに小さいスケールにあるにもかかわらず、屋内環境を捕捉する。図１１の表４は、開示される実施形態による、我々のネットワークと比較した、前述で議論されるＤＰＳＮｅｔおよびＭＶＤｅｐｔｈＮｅｔの２つのバージョンからの性能を示す。ＤＰＳＮｅｔおよびＭＶＤｅｐｔｈＮｅｔは、Ｓｕｎ３Ｄ訓練データベース上で元々訓練されていることに留意されたい。ＤＰＳＮｅｔの微調整されたバージョンは、ＳｃａｎＮｅｔ訓練データベース内により広い多様性に起因して、Ｓｕｎ３Ｄ試験セット上でのオリジナルネットワークより良好に性能を発揮する。ＭＶＤｅｐｔｈＮｅｔは、対照的に、より不良に性能を発揮し、ＳｃａｎＮｅｔに過剰適合し、オリジナルネットワークが、十分に訓練され、良好に一般化されたことを示す。着目すべきこととして、本明細書に開示される実施形態による、我々の方法は、再び、我々の訓練されたネットワークがＳｕｎ３Ｄデータベースからの任意の画像を経ていないにもかかわらず、両方の方法より優れている。これは、疎深度を決定し、次いで、稠密化する、我々の原理方法が、良好な一般化可能性を有することを示す。

次に、我々は、開示される実施形態による、我々のアプローチのために必要とされる、乗累算演算（ＭＡＣ）の総数を評価する。２画像シーケンスに関して、我々は、点検出器および記述子モジュールに関して、１６．５７ギガマック（ＧＭａｃｓ）、マッチャおよび三角測量モジュールに関して、０．００２ＧＭａｃｓ未満、および疎／稠密モジュールに関して、６７．９０ＧＭａｃｓを実施する。このうちの大部分は、画像および疎深度エンコーダをデコーダに接続する、Ｕ－ＮＥＴスタイル特徴テンソルに起因する。我々は、合計８４．４８ＧＭａｃｓを実施し、２画像シーケンスに関する深度を推定する。これは、２画像シーケンスに関して２９５．６３ＧＭａｃｓを実施する、ＤＰＳＮｅｔより著しく低く、また、深度を推定するために一対の画像に関して１３４．８ＧＭａｃｓを実施する、リアルタイムＭＶＤｅｐｔｈＮｅｔ未満である。深度をＮＶｉｄｉａＴｉＴａｎＲＴＸＧＰＵ上で推定するために、９０ミリ秒かかり、これは、ＤＰＳＮｅｔより２．５倍高速であると評価される。我々は、我々の本開示の方法が、ＰｙＴｏｒｃｈの本来のＳＶＤと三角測量のためのカスタム実装を置換することによって、さらに加速され得ると考える。さらに、コスト体積に依存しないため、画像認識およびオブジェクト検出のために導出されるものとしての複合スケーリング則は、我々の方法をより効率的にするために簡単に拡張されることができる。

深度推定のための本開示の方法は、マルチビューステレオシナリオにおいて、疎点を三角測量および稠密化するように学習することによって、効率的深度推定アルゴリズムを提供する。既存のベンチマークの全てにおいて、本明細書に開示される方法は、最先端結果を上回っており、かつ競合的方法の有意な算出効率性を実証している。これらの方法は、着目点マッチングのためのより効果的注意機構およびさらなるアンカサポートビュー選択を組み込むことによって、拡張され得ることが予期される。本方法はまた、深度推定およびＳＬＡＭが相互の重複となるように、ＳＬＡＭ問題とのより深層の統合を組み込んでもよい。

付属１：下記に列挙された参考文献は、上記の括弧内の参考文献（［参考文献＃＃］）に対応し、これらの参考文献はそれぞれ、参照することによってその全体として本明細書に組み込まれる。

本発明の種々の例示的実施形態が、本明細書に説明される。これらの実施例は、非限定的意味で参照される。それらは、本発明のより広く適用可能な側面を例証するために提供される。種々の変更が、説明される本発明に行われてもよく、本発明の真の精神および範囲から逸脱することなく、均等物が代用されてもよい。加えて、多くの修正が、特定の状況、材料、組成物、プロセス、プロセス作用、またはステップを本発明の目的、精神、または範囲に適合させるために行われてもよい。さらに、当業者によって理解されるであろうように、本明細書で説明および例証される個々の変形例はそれぞれ、本発明の範囲または精神から逸脱することなく、他のいくつかの実施形態のうちのいずれかの特徴から容易に分離される、またはそれらと組み合わせられる、離散コンポーネントおよび特徴を有する。全てのそのような修正は、本発明と関連付けられる請求項に記載の範囲内であることが意図される。

本発明は、本主題のデバイスを使用して実施され得る方法を含む。本方法は、そのような好適なデバイスを提供する行為を備えてもよい。そのような提供は、エンドユーザによって実施されてもよい。換言すると、「提供する」行為は、単に、エンドユーザが、本主題の方法において必要なデバイスを取得する、それにアクセスする、それに接近する、それを位置付ける、それを設定する、それを活性化する、それに電源を入れる、または別様にそれを提供するように作用することを要求する。本明細書に列挙される方法は、論理的に可能な列挙されたイベントの任意の順序およびイベントの列挙された順序で行われてもよい。

本発明の例示的側面が、材料選択および製造に関する詳細とともに、上記に記載されている。本発明の他の詳細に関して、これらは、前述の参照特許および刊行物に関連して理解され、概して、当業者によって公知である、または理解され得る。同じことが、一般的または理論的に採用されるような付加的行為の観点から、本発明の方法ベースの側面に関して当てはまり得る。

加えて、本発明は、随意に、種々の特徴を組み込む、いくつかの実施例を参照して説明されているが、本発明は、発明の各変形例に関して検討されるように説明または図示されるものに限定されるものではない。種々の変更が、説明される本発明に行われてもよく、均等物（本明細書に列挙されるか、またはある程度の簡潔目的のために含まれないかどうかにかかわらず）は、本発明の精神および範囲から逸脱することなく代用されてもよい。加えて、値の範囲が提供される場合、その範囲の上限と下限との間の全ての介在値および任意の他の述べられた値または述べられた範囲内の介在値が、本発明内に包含されるものと理解されたい。

また、説明される本発明の変形例の任意の随意の特徴は、独立して、または本明細書に説明される特徴のうちの任意の１つまたはそれを上回るものと組み合わせて、記載および請求され得ることが検討される。単数形の項目の言及は、複数の同一項目が存在する可能性を含む。より具体的には、本明細書および本明細書に関連付けられる請求項で使用されるように、単数形「ａ」、「ａｎ」、「ｓａｉｄ」、および「ｔｈｅ」は、別様に具体的に述べられない限り、複数の言及を含む。換言すると、冠詞の使用は、上記の説明および本発明と関連付けられる請求項における本主題のアイテムのうちの「少なくとも１つ」を可能にする。さらに、そのような請求項は、任意の随意の要素を除外するように起草され得ることに留意されたい。したがって、本文言は、請求項の要素の列挙と関連する「単に」、「のみ」、および同等物等の排他的専門用語の使用、または「消極的」限定の使用のための先行詞としての役割を果たすことが意図される。

そのような排他的専門用語を使用しなければ、本発明と関連付けられる請求項における用語「～を備える（ｃｏｍｐｒｉｓｉｎｇ）」は、所与の数の要素が請求項で列挙されるかどうかにかかわらず、任意の付加的要素の包含を可能にするものとする、または特徴の追加は、そのような請求項に記載される要素の性質を変換すると見なされ得る。本明細書で具体的に定義される場合を除いて、本明細書で使用される全ての技術および科学用語は、請求項の正当性を維持しながら、可能な限り広い一般的に理解されている意味を与えられるべきである。

本発明の範疇は、提供される実施例および／または本明細書に限定されるべきではなく、むしろ、本開示と関連付けられる請求項の用語の範囲のみによって限定されるものとする。

Claims

マルチビュー画像からの場面内の特徴の深度を推定するための方法であって、前記方法は、
前記場面のアンカ画像と、前記場面の基準画像のセットとを含むマルチビュー画像を取得するステップと、
（１）前記アンカ画像および各基準画像に関する記述子の個別の記述子フィールドを出力し、（ｉｉ）相対的姿勢と併せて、前記アンカ画像内の着目点を検出し、代替視点から前記基準画像内の検索空間を決定し、（ｉｉｉ）中間特徴マップを出力する、共有ＲＧＢエンコーダおよび記述子デコーダを通して、前記アンカ画像および基準画像を通過させるステップと、
各基準画像の前記検索空間内の前記個別の記述子をサンプリングし、前記検索空間内の記述子を決定し、前記識別された記述子と前記アンカ画像内の着目点に関する記述子をマッチングさせるステップであって、そのようなマッチングされる記述子は、マッチングされた特徴点と称される、ステップと、
特異値分解（ＳＶＤ）を使用して、前記マッチングされた特徴点を三角測量し、３Ｄ点を出力するステップと、
前記３Ｄ点を疎深度エンコーダを通して通過させ、疎深度画像を前記３Ｄ点および出力特徴マップから作成するステップと、
深度デコーダが、前記疎深度エンコーダに関する前記出力特徴マップと、前記ＲＧＢエンコーダからの前記中間特徴マップとに基づいて、稠密深度画像を生成するステップと
を含む、方法。
前記共有ＲＧＢエンコーダおよび記述子デコーダは、ＲＧＢ画像エンコーダおよび疎深度画像エンコーダを含む２つのエンコーダと、着目点検出エンコーダ、記述子デコーダ、および稠密深度予測エンコーダを含む３つのデコーダとを備える、請求項１に記載の方法。
前記共有ＲＧＢエンコーダおよび記述子デコーダは、前記アンカ画像およびトランザクション画像の完全分解能に作用するように構成される完全畳み込みニューラルネットワークである、請求項１に記載の方法。
前記ＲＧＢエンコーダからの前記特徴マップを第１のタスク特有のデコーダヘッドの中にフィードし、前記アンカ画像内の着目点の検出のための加重を決定し、着目点記述を出力するステップ
をさらに含む、請求項１に記載の方法。
前記記述子デコーダは、Ｕ－Ｎｅｔ様アーキテクチャを備え、前記識別された記述子と前記着目点に関する記述子をマッチングさせるために、微細および粗大レベル画像情報を融合させる、請求項１に記載の方法。
前記検索空間は、前記基準画像内の個別のエピポーラ線＋前記エピポーラ線の両側上の固定されたオフセットに制約され、前記エピポーラ線に沿った実行可能深度感知範囲内にある、請求項１に記載の方法。
双線形サンプリングが、前記共有ＲＧＢエンコーダおよび記述子デコーダによって使用され、前記個別の記述子を前記記述子フィールド内の所望の点において出力する、請求項１に記載の方法。
前記マッチングされた特徴点を三角測量するステップは、
空間軸を横断して、ｓｏｆｔｍａｘを算出し、相互相関マップを出力することによって、前記着目点の個別の２次元（２Ｄ）位置を推定するステップと、
ｓｏｆｔ－ａｒｇｍａｘ演算を実施し、節点の２Ｄ位置を対応する相互相関マップの質量中心として計算するステップと、
線形代数三角測量を前記２Ｄ推定値から実施するステップと、
特異値分解（ＳＶＤ）を使用して、３Ｄ点を出力するステップと
を含む、請求項１に記載の方法。
クロスリアリティシステムであって、
ディスプレイシステムを有する頭部搭載型ディスプレイデバイスと、
前記頭部搭載型ディスプレイと動作可能に通信するコンピューティングシステムと、
前記コンピューティングシステムと動作可能に通信する複数のカメラセンサと
を備え、前記コンピューティングシステムは、
前記カメラセンサからの前記カメラセンサの視野内の場面のアンカ画像と、場面の基準画像のセットとを含むマルチビュー画像を取得するステップと、
（１）前記アンカ画像および各基準画像に関する記述子の個別の記述子フィールドを出力し、（ｉｉ）相対的姿勢と併せて、前記アンカ画像内の着目点を検出し、代替視点から前記基準画像内の検索空間を決定し、（ｉｉｉ）中間特徴マップを出力する、共有ＲＧＢエンコーダおよび記述子デコーダを通して、前記アンカ画像および基準画像を通過させるステップと、
各基準画像の前記検索空間内の前記個別の記述子をサンプリングし、前記検索空間内の記述子を決定し、前記識別された記述子と前記アンカ画像内の着目点に関する記述子をマッチングさせるステップであって、そのようなマッチングされる記述子は、マッチングされた特徴点と称される、ステップと、
特異値分解（ＳＶＤ）を使用して、前記マッチングされた特徴点を三角測量し、３Ｄ点を出力するステップと、
前記３Ｄ点を疎深度エンコーダを通して通過させ、疎深度画像を前記３Ｄ点および出力特徴マップから作成するステップと、
深度デコーダが、前記疎深度エンコーダに関する前記出力特徴マップと、前記ＲＧＢエンコーダからの前記中間特徴マップとに基づいて、稠密深度画像を生成するステップと
を含むプロセスによって、前記カメラセンサによって捕捉された複数のマルチビュー画像からの場面内の特徴の深度を推定するように構成される、クロスリアリティシステム。
前記共有ＲＧＢエンコーダおよび記述子デコーダは、ＲＧＢ画像エンコーダおよび疎深度画像エンコーダを含む２つのエンコーダと、着目点検出エンコーダ、記述子デコーダ、および稠密深度予測エンコーダを含む３つのデコーダとを備える、請求項９に記載のクロスリアリティシステム。
前記共有ＲＧＢエンコーダおよび記述子デコーダは、前記アンカ画像およびトランザクション画像の完全分解能に作用するように構成される完全畳み込みニューラルネットワークである、請求項９に記載のクロスリアリティシステム。
前記カメラセンサによって捕捉された複数のマルチビュー画像からの場面内の特徴の深度を推定するためのプロセスはさらに、
前記ＲＧＢエンコーダからの前記特徴マップを第１のタスク特有のデコーダヘッドの中にフィードし、前記アンカ画像内の着目点の検出のための加重を決定し、着目点記述を出力するステップ
を含む、請求項９に記載のクロスリアリティシステム。
前記記述子デコーダは、Ｕ－Ｎｅｔ様アーキテクチャを備え、前記識別された記述子と前記着目点に関する記述子をマッチングさせるために、微細および粗大レベル画像情報を融合させる、請求項９に記載のクロスリアリティシステム。
前記検索空間は、前記基準画像内の個別のエピポーラ線＋前記エピポーラ線の両側上の固定されたオフセットに制約され、前記エピポーラ線に沿った実行可能深度感知範囲内にある、請求項９に記載のクロスリアリティシステム。
双線形サンプリングが、前記共有ＲＧＢエンコーダおよび記述子デコーダによって使用され、前記個別の記述子を前記記述子フィールド内の所望の点において出力する、請求項９に記載のクロスリアリティシステム。
前記マッチングされた特徴点を三角測量するステップは、
空間軸を横断して、ｓｏｆｔｍａｘを算出し、相互相関マップを出力することによって、前記着目点の個別の２次元（２Ｄ）位置を推定するステップと、
ｓｏｆｔ－ａｒｇｍａｘ演算を実施し、節点の２Ｄ位置を対応する相互相関マップの質量中心として計算するステップと、
線形代数三角測量を前記２Ｄ推定値から実施するステップと、
特異値分解（ＳＶＤ）を使用して、３Ｄ点を出力するステップと
を含む、請求項９に記載のクロスリアリティシステム。