JP2023516678A

JP2023516678A - マルチビュー画像からのエンドツーエンド場面再構築のためのシステムおよび方法

Info

Publication number: JP2023516678A
Application number: JP2022552800A
Authority: JP
Inventors: ザッカリーポールミュレズ，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2020-03-05
Filing date: 2021-03-05
Publication date: 2023-04-20
Also published as: WO2021178875A1; US20230290040A1; EP4115606A1; CN115191005A; US11694387B2; US20220366635A1; EP4115606A4; US20210279943A1; US11410376B2

Abstract

ＲＧＢ画像を備える、マルチビュー画像のみを使用して、深度センサまたはセンサからの深度データを必要とせずに、仮想現実、拡張現実または複合現実システム等の空間コンピューティングシステムのユーザを囲繞する、場面または環境の３次元（３Ｄ）再構築物を生成するシステムおよび方法。特徴が、ＲＧＢ画像のフレームのシーケンスから抽出され、既知のカメラ固有性質および付帯性質を使用して、３Ｄボクセルボリュームの中に逆投影され、ボクセルボリュームの各ピクセルは、ボクセルボリューム内の光線にマッピングされる。逆投影された特徴は、３Ｄボクセルボリュームの中に融合される。３Ｄボクセルボリュームは、特徴を精緻化し、３Ｄボクセルボリュームの各ボクセルにおいて、切り捨て符号付き距離関数値を回帰させるように、３Ｄ畳み込みニューラルネットワークを通して通過される。

Description

（発明の分野）
本発明は、コンピューティング、学習ネットワーク構成、ならびに接続されたモバイルコンピューティングシステム、方法、および構成に関し、より具体的には、仮想および／または拡張現実動作のために構成される、少なくとも１つのウェアラブルコンポーネントを有する、モバイルコンピューティングシステム、方法、および構成において利用され得る、マルチビュー画像から場面の３次元再構築物を生成するためのシステムおよび方法に関する。

（背景）
現代のコンピューティングおよびディスプレイ技術は、集合的に、「クロスリアリティ」環境または体験と称される、いわゆる仮想現実（「ＶＲ」）、拡張現実（「ＡＲ」）、および／または複合現実（「ＭＲ」）体験のためのシステムの開発を促進している。これは、頭部搭載型ディスプレイを通して、コンピュータ生成画像をユーザに提示することによって行われることができる。本画像は、感覚体験を作成し、これは、ユーザをシミュレートされた環境に没入させる。本データは、例えば、ユーザが、物理的世界の一部として、感知または知覚し、仮想オブジェクトと相互作用し得るようにレンダリングされ得る、仮想オブジェクトを説明し得る。ユーザは、例えば、頭部搭載型ディスプレイデバイス等のユーザインターフェースデバイスを通してレンダリングおよび提示されているデータの結果として、これらの仮想オブジェクトを体験し得る。データは、ユーザに見えるように表示され得る、またはユーザに聞こえるように再生される、オーディオを制御し得る、もしくは触知的（または触覚的）インターフェースを制御し、ユーザが、仮想オブジェクトを感じるにつれて、ユーザが感知または知覚する、タッチ感覚を体験することを可能にし得る。

ＸＲシステムは、科学的可視化、医療訓練、工学設計、およびプロトタイプ化、遠隔操作およびテレプレゼンス、ならびに個人的娯楽の分野に及ぶ、多くの用途のために有用であり得る。ＶＲシステムは、典型的には、実際の実世界視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。

ＡＲシステムは、概して、実世界環境をシミュレートされた要素で補完する。例えば、ＡＲシステムは、ユーザに、頭部搭載型ディスプレイを介して、周囲の実世界環境のビューを提供し得る。コンピュータ生成画像はまた、周囲の実世界環境を向上させるために頭部搭載型ディスプレイ上に提示されることもできる。本コンピュータ生成画像は、周囲の実世界環境にコンテキスト的に関連する、要素を含むことができる。そのような要素は、シミュレートされたテキスト、画像、オブジェクト、および同等物を含むことができる。ＭＲシステムはまた、シミュレートされたオブジェクトを実世界環境に導入するが、これらのオブジェクトは、典型的には、ＡＲシステムを上回る相互作用の程度を特徴とする。

ＡＲ／ＭＲシナリオは、多くの場合、実世界オブジェクトに関連して仮想画像要素の提示を含む。例えば、ＡＲ／ＭＲ場面は、ＡＲ／ＭＲ技術のユーザに、構造、オブジェクト等を含む、ユーザを囲繞する環境を特徴とする、実世界場面が見えるように描写される。これらの特徴に加え、ＡＲ／ＭＲ技術のユーザは、そのような特徴が実世界環境内に存在しない場合でも、彼らにコンピュータ生成された特徴（すなわち、仮想オブジェクト）が「見える」と知覚する。故に、ＡＲおよびＭＲは、ＶＲと対照的に、物理的世界の実オブジェクトに関連して、１つ以上の仮想オブジェクトを含む。仮想オブジェクトはまた、実世界オブジェクトと相互作用し、したがって、ＡＲ／ＭＲシステムは、ユーザを囲繞する３Ｄ世界とのシステムの相互作用に関連して、「空間コンピューティング」システムとも称され得る。実オブジェクトと相互作用する仮想オブジェクトの体験は、ＡＲ／ＭＲシステムを使用する際、ユーザの享受を大幅に向上させ、また、物理的世界が改変され得る方法についての現実的かつ容易に理解可能な情報を提示する、種々の用途のための可能性を広げる。

脳の視覚中枢は、貴重な知覚情報を相互に対する両眼およびその構成要素の運動から得る。相互に対する２つの眼の両眼離反運動移動（すなわち、眼の視線をオブジェクト上に収束させ、それを固視するための相互に向かってまたはそこから離れる瞳孔の回転移動）は、眼の水晶体の遠近調節（または合焦）と緊密に関連付けられる。正常条件下、眼を遠近調節し、または眼の水晶体の焦点を変化させ、異なる距離におけるオブジェクト上に合焦させることは、「遠近調節－両眼離反運動反射」として知られる関係下、同一距離への両眼離反運動の整合変化を自動的に生じさせるであろう。同様に、両眼離反運動の変化が、正常条件下、遠近調節の合致する変化を誘起するであろう。本反射に逆らう作用は、大部分の従来の立体視ＶＲ／ＡＲ／ＭＲ構成におけるように、眼精疲労、頭痛、または他の形態の不快感をユーザにもたらすことが知られている。

立体視ウェアラブル眼鏡は、概して、３次元視点がヒト視覚系によって知覚されるように、若干異なる要素提示を伴う画像を表示するように構成される、２つのディスプレイ（左眼に１つ、右眼に１つ）を特徴とする。そのような構成は、両眼離反運動と遠近調節との間の不整合（「両眼離反運動－遠近調節衝突」）に起因して、多くのユーザにとって不快であることが見出されており、これは、３次元における画像を知覚するために克服されなければならない。実際、一部のユーザは、立体視構成に耐えることが不可能である。これらの限界は、ＶＲ、ＡＲ、およびＭＲシステムに該当する。故に、大部分の従来のＶＲ／ＡＲ／ＭＲシステムは、部分的に、従来のシステムが、両眼離反運動－遠近調節衝突を含む、ヒト知覚系の基本側面のうちのいくつかに対処することができないため、ユーザにとって快適かつ最大限に有用となるであろう様式において、豊かな両眼３次元体験を提示するために最適に好適ではない。

種々のシステムおよび方法が、両眼離反運動－遠近調節衝突に対処するために開示されている。例えば、米国実用特許出願第１４／５５５，５８５号は、光および光によってレンダリングされた画像が複数の深度面から生じるように現れるように、１つ以上の光誘導光学要素を使用して、光をユーザの眼に投影させることによって、両眼離反運動－遠近調節衝突に対処する、ＶＲ／ＡＲ／ＭＲシステムおよび方法を開示する。光誘導光学要素は、デジタルまたは仮想オブジェクトに対応する仮想光を内部結合し、それを全内部反射（「ＴＩＲ」）によって伝搬し、次いで、仮想光を外部結合し、仮想オブジェクトをユーザの眼に表示するように設計される。ＡＲ／ＭＲシステムでは、光誘導光学要素はまた、実際の実世界オブジェクトからの（例えば、そこから反射する）光に対して透過性であるように設計される。したがって、光誘導光学要素の一部は、ＴＩＲを介した伝搬のために仮想光を反射させながら、ＡＲ／ＭＲシステム内の実世界オブジェクトからの実世界光に対して透過性であるように設計される。

ＡＲ／ＭＲシナリオは、多くの場合、仮想オブジェクトと実世界の物理的環境との間の相互作用を含む。同様に、いくつかのＶＲシナリオは、完全仮想オブジェクトと他の仮想オブジェクトとの間の相互作用を含む。物理的環境内のオブジェクトの輪郭を描くことは、それらの相互作用の境および境界線を画定することによって（例えば、物理的環境内の特定の構造またはオブジェクトの範囲を画定することによって）、仮想オブジェクトとの相互作用を促進する。例えば、ＡＲ／ＭＲシナリオが、物理的環境内の特定のオブジェクトから延在する仮想オブジェクト（例えば、触手または拳）を含む場合、３次元内のオブジェクトの範囲を画定することは、ＡＲ／ＭＲシステムがより現実的ＡＲ／ＭＲシナリオを提示することを可能にする。逆に言えば、オブジェクトの範囲が、画定されない、または不正確に画定される場合、アーチファクトまたは誤差が、表示される画像に生じるであろう。例えば、仮想オブジェクトは、オブジェクトの表面からの代わりに、部分的または完全に、オブジェクトに隣接する空中から延在するように現れ得る。別の実施例では、ＡＲ／ＭＲシナリオが、物理的環境内の特定の水平表面上を歩いている仮想キャラクタを含む場合、表面の範囲を不正確に画定することは、落下せずに、代わりに、空中に浮遊して、表面から離れて歩いているように現れる、仮想キャラクタをもたらし得る。

故に、正確かつ効果的３次元（３Ｄ）ＸＲ体験を提供するために、ＸＲシステムは、正確に、かつ効率的算出を伴って（例えば、近リアルタイムで）、周囲環境の３Ｄ再構築物を生成することが可能である必要がある。実際、我々の周囲の世界を再構築することは、コンピュータビジョンの長年にわたる目標となっている。

場面の３Ｄモデルを再構築することは、通常、画像のシーケンスに関する特徴の深度を入手し、３Ｄデータ構造を使用して、深度マップを融合させることを伴う。深度累積に関する最も一般的３Ｄ構造は、ＴＳＤＦ融合によって使用される、ボクセルボリュームである。しかしながら、サーフェル（配向付き点群）が、人気を博し始めている。これらの方法は、通常、物理的深度センサと併用されるが、また、単眼またはステレオ画像から予測される深度マップにも適用されることができる。

深層学習の台頭に伴って、単眼深度推定は、大幅に改良されているが、しかしながら、その正確度は、依然として、最先端ステレオ方法をはるかに下回る。ステレオに対する一般的古典的アプローチは、相互情報およびセミグローバルマッチングを使用して、２つの画像間の差量を算出するものである。より最近では、パッチマッチングネットワークを使用する、ＤｅｅｐＭＶＳ、およびコストボリュームを未加工ピクセル測定から構築し、２Ｄ畳み込みを実施し、平面を特徴チャネルとして取り扱う、ＭＶＤｅｐｔｈＮｅｔ等、いくつかのエンドツーエンド平面掃引アルゴリズムが、提案されている。ＧＰＭＶＳは、これを踏まえ、ガウスプロセスを使用して、長シーケンスにわたって、情報をコストボリュームの中に集約する。ＭＶＳＮｅｔおよびＤＰＳＮｅｔは、２ＤＣＮＮを使用して、コストボリュームを画像から抽出された特徴から構築する。それらは、次いで、３Ｄ畳み込みを４Ｄテンソル上で使用して、コストボリュームをフィルタリングする。これらの方法は全て、標的画像を選定し、深度を予測し、次いで、好適な近傍の基準画像を見出すことを要求する。

最近の両眼ステレオ方法は、類似コストボリュームアプローチを使用するが、固定されたベースラインステレオ対を使用することによって、フレーム選択を回避する。シーケンスにわたる深度マップは、独立して算出される（またはある場合には、弱結合される）。これらのアプローチと対照的に、本発明の方法は、直接、単一コヒーレント３Ｄモデルを入力画像のシーケンスから構築する。

ＴＳＤＦ融合は、単純かつ効果的であるが、部分的にオクルードされる幾何学形状を再構築することができず、雑音を低減させるために、多くの測定値を平均することを要求する。したがって、学習された方法が、融合を改良するために提案されている。ＯｃｔＮｅｔＦｕｓｉｏｎは、３Ｄエンコーダ－デコーダを使用して、複数の深度マップをＴＳＤＦの中に集約し、結果を単一オブジェクトおよび走査の一部上に示す。ＳｃａｎＣｏｍｐｌｅｔｅは、これを踏まえ、部屋全体に関する結果を示す。ＳＧ－ＮＮは、疎畳み込みを使用して、分解能を増加させ、新規自己教師あり訓練スキームを使用して、訓練することによって、ＳｃａｎＣｏｍｐｌｅｔｅに改良を加えている。３Ｄ－ＳＩＣは、領域提案を使用して、３Ｄインスタンスセグメント化に焦点を当て、インスタンス完了あたりヘッドを追加する。ルーティングされた融合は、深度マップの集約を改良するために、ビュー錐台内で２Ｄフィルタリングおよび３Ｄ畳み込みを使用する。

いくつかのネットワークが、開示されており、これは、１つ以上の画像をとり、直接、３Ｄ表現を予測する。例えば、３Ｄ－Ｒ２Ｎ２は、画像を潜在的空間にエンコードし、次いで、ボクセル占有率ボリュームをデコードする。Ｏｃｔｔｒｅｅ－Ｇｅｎは、３Ｄボクセルボリュームの効率性を改良するために、オクトツリーデータ構造を使用することによって、分解能を増加させる。深層ＳＤＦは、ボリュームを離散化する代わりに、任意の入力位置に関するＳＤＦ値を出力し得る、生成モデルを学習するように選定する。点集合生成ネットワークが、開示されており、これは、固定数の点を伴う、点群を生成するように学習する。Ｐｉｘｅｌ２Ｍｅｓｈ＋＋は、グラフ畳み込みネットワークを使用して、直接、三角測量されたメッシュを予測する。これらの方法は、入力を小潜在的コードにエンコードし、主に、Ｓｈａｐｅｎｅｔからの単一オブジェクトに関する結果を報告する。したがって、それらを完全場面再構築物上で機能するように拡張する方法は、明白ではない。Ｍｅｓｈ－ＲＣＮＮは、２Ｄオブジェクト検出を踏まえ、付加的ヘッドを追加し、インスタンス毎に、ボクセル占有率グリッドを予測し、次いで、グラフ畳み込みネットワークをメッシュ上で使用して、それらを精緻化する。

画像特徴をボクセルボリュームの中に逆投影し、次いで、３ＤＣＮＮを使用して、それらを精緻化することもまた、ヒトの姿勢推定のために使用されている。これらは、関節場所を位置特定するために使用される、回帰３Ｄヒートマップを機能させる。

深層ボクセルおよび場面表現ネットワークの後続研究は、特徴を３Ｄボリュームの中に累積し、世界の教師なし表現を形成し、これは、次いで、明示的幾何学的中間表現を形成することを必要とせずに、新規ビューをレンダリングするために使用されることができる。

３Ｄ再構築物に対する他のアプローチは、単眼、両眼、またはマルチビューステレオ方法を使用するものであって、これは、赤緑青（ＲＧＢ）画像（それぞれ、１つ、２つ、または複数）を画像センサからとり、画像に関する深度マップを予測する。例えば、ＲＧＢ画像を使用して、３Ｄ再構築物を生成するために、単眼ステレオ方法を使用する、方法は、以下の刊行物、すなわち、Ｆｕ，Ｈ．，Ｇｏｎｇ，Ｍ．，Ｗａｎｇ，Ｃ．Ｂａｔｍａｎｈｅｌｉｃｈ，Ｋ．，Ｔａｏ，Ｄ．：Ｄｅｅｐｏｒｄｉｎａｌｒｅｇｒｅｓｓｉｏｎｎｅｔｗｏｒｋｆｏｒｍｏｎｏｃｕｌａｒｄｅｐｔｈｅｓｔｉｍａｔｉｏｎ；ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｐｐ．２００２－２０１１（２０１８）、Ｌａｓｉｎｇｅｒ，Ｋ．，Ｒａｎｆｔｌ，Ｒ．，Ｓｃｈｉｎｄｌｅｒ，Ｋ．，Ｋｏｌｔｕｎ，Ｖ．：Ｔｏｗａｒｄｓｒｏｂｕｓｔｍｏｎｏｃｕｌａｒｄｅｐｔｈｅｓｔｉｍａｔｉｏｎ：Ｍｉｘｉｎｇｄａｔａｓｅｔｓｆｏｒｚｅｒｏ－ｓｈｏｔｃｒｏｓｓ－ｄａｔａｓｅｔｔｒａｎｓｆｅｒ；ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１９０７．０１３４１（２０１９）、およびＬｅｅ，Ｊ．Ｈ．，Ｈａｎｇ，Ｍ．Ｋ．，Ｋｏ，Ｄ．Ｗ．，Ｓｕｈ，Ｉ．Ｈ．：Ｆｒｏｍｂｉｇｔｏｓｍａｌｌ：Ｍｕｌｔｉ－ｓｃａｌｅｌｏｃａｌｐｌａｎａｒｇｕｉｄａｎｃｅｆｏｒｍｏｎｏｃｕｌａｒｄｅｐｔｈｅｓｔｉｍａｔｉｏｎ；ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１９０７．１０３２６（２０１９）に開示される。ＲＧＢ画像を使用して、３Ｄ再構築物を生成するために、両眼ステレオ方法を使用する、ある方法は、以下の刊行物、すなわち、Ｃｈａｂｒａ，Ｒ．，Ｓｔｒａｕｂ，Ｊ．，Ｓｗｅｅｎｅｙ，Ｃ．，Ｎｅｗｃｏｍｂｅ，Ｒ．，Ｆｕｃｈｓ，Ｈ．：Ｓｔｅｒｅｏｄｒｎｅｔ：Ｄｉｌａｔｅｄｒｅｓｉｄｕａｌｓｔｅｒｅｏｎｅｔ；ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ；ｐｐ．１１７８６－１１７９５（２０１９）、およびＣｈａｎｇ，Ａ．Ｘ．，Ｆｕｎｋｈｏｕｓｅｒ，Ｔ．，Ｇｕｉｂａｓ，Ｌ．，Ｈａｎｒａｈａｎ，Ｐ．，Ｈｕａｎｇ，Ｑ．Ｌｉ，Ｚ．，Ｓａｖａｒｅｓｅ，Ｓ．，Ｓａｖｖａ，Ｍ．，Ｓｏｎｇ，Ｓ．，Ｓｕ，Ｈ．，ｅｔａｌ．；Ｓｈａｐｅｎｅｔ：Ａｎｉｎｆｏｒｍａｔｉｏｎ－ｒｉｃｈ３ｄｍｏｄｅｌｒｅｐｏｓｉｔｏｒｙ；ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１５１２．００３１２（２０１５）に開示される。また、ＲＧＢ画像を使用して、３Ｄ再構築物を生成するために、マルチビューステレオ方法を使用する、種々の方法は、以下の刊行物、すなわち、Ｈｉｒｓｃｈｍｕｌｌｅｒ，Ｈ．：Ｓｔｅｒｅｏｐｒｏｃｅｓｓｉｎｇｂｙｓｅｍｉｇｌｏｂａｌｍａｔｃｈｉｎｇａｎｄｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ；ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ３０（２），３２８－３４１（２００７）、Ｈｕａｎｇ，Ｐ．Ｈ．，Ｍａｔｚｅｎ，Ｋ．，Ｋｏｐｆ，Ｊ．，Ａｈｕｊａ，Ｎ．，Ｈｕａｎｇ，Ｊ．Ｂ．；Ｄｅｅｐｍｖｓ：Ｌｅａｒｎｉｎｇｍｕｌｔｉ－ｖｉｅｗｓｔｅｒｅｏｐｓｉｓ；ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ；ｐｐ．２８２１－２８３０（２０１８）、Ｉ，Ｓ．，Ｊｅｏｎ，Ｈ．Ｇ．，Ｌｉｎ，Ｓ．，Ｋｗｅｏｎ，Ｉ．Ｓ．；ＤＰＳｎｅｔ：Ｅｎｄ－ｔｏ－ｅｎｄｄｅｅｐｐｌａｎｅｓｗｅｅｐｓｔｅｒｅｏ；７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ，ＩＣＬＲ２０１９；ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ，ＩＣＬＲ（２０１９）、およびＷａｎｔ，Ｋ．，Ｓｈｅｎ，Ｓ．；Ｍｖｄｅｐｔｈｎｅｔ：ｒｅａｌ－ｔｉｍｅｍｕｌｔｉｖｉｅｗｄｅｐｔｈｅｓｔｉｍａｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋ；２０１８ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ；ｐｐ．２０８８－２０９６（２０１７）に開示される。しかしながら、多数の最近の研究にもかかわらず、ＲＧＢ画像のみを使用して、３Ｄ再構築物を生成する、これらの方法は、依然として、深度センサよりもはるかに正確ではなく、３Ｄモデルの中に融合されるとき、満足の行く結果を生産しない。

幾何学形状を再構築することに加え、多くのＸＲ用途は、より豊かな表現を提供するために、３Ｄ再構築物の３Ｄ意味論標識化（すなわち、３Ｄ意味論セグメント化）を要求する。一般に、本問題を解法するために、２つのアプローチ、すなわち、１）２Ｄセグメント化ネットワークを使用して、２Ｄ入力画像上で意味論を予測し、標識を３Ｄに逆投影するものと、２）直接、意味論標識を３Ｄ空間内で予測するものとが存在する。これらの方法は全て、深度が深度センサによって提供されると仮定する。顕著な例外は、Ｋｉｍｅｒａであって、これは、マルチビューステレオを使用して、深度を予測するが、しかしながら、結果は、合成データおよびグラウンドトゥルース２Ｄセグメント化上でのみ示されている。

ＳＧＰＮは、インスタンスセグメント化を３Ｄ点群クラスタ化問題として公式化する。すなわち、類似性行列を予測し、３Ｄ点群をクラスタ化し、意味論およびインスタンス標識を導出する。３Ｄ－ＳＩＳは、２Ｄ特徴を３Ｄ表現内で融合させることによって、これらのアプローチに改良を加えている。ＲＧＢ画像は、２ＤＣＮＮを使用して、エンコードされ、深度マップから再構築された３Ｄ幾何学形状上に逆投影される。３ＤＣＮＮが、次いで、３Ｄオブジェクト境界ボックスおよび意味論標識を予測するために使用される。ＳＳＣＮは、疎畳み込みによって有効にされる高分解能ボクセルボリューム上で意味論を予測する。

故に、ＲＧＢ画像を使用して、深度センサの必要なく、エンドツーエンド様式において、場面の３Ｄ再構築物を生成するためのより効率的かつ正確な方法およびシステムの必要性が存在する。さらに、両眼離反運動－遠近調節不整合に関する容認可能許容値を超えずに、様々なユースケースのために実践的であるために、そのような３Ｄ再構築物が、複数の焦点面（例えば、２つ以上）において、仮想画像情報をＸＲディスプレイ上に提示する際に使用可能である必要性が存在する。加えて、軽量で、低コストであって、小形状因子を有し、広仮想画像視野を有し、かつ可能な限り透明である、ディスプレイを実装する、ＸＲシステムの必要性が存在する。さらにまた、深度センサを使用せずに、３Ｄ再構築物の３Ｄ意味論セグメント化の必要性が存在する。

（要約）
本明細書に開示される実施形態は、ＲＧＢ画像を備える、マルチビュー画像のみを使用して、深度センサまたはセンサからの深度データを必要とせずに、ＸＲシステム等の空間コンピューティングシステムのユーザを囲繞する、場面または環境の３次元（３Ｄ）再構築物を生成するシステムおよび方法を対象とする。３Ｄ再構築物は、空間コンピューティングシステムによって利用され、例えば、正確かつ効果的３ＤＸＲ体験を提供することができる。結果として生じる３ＤＸＲ体験は、部分的に、これが、両眼離反運動－遠近調節不整合等のヒト知覚系の基本側面のうちのいくつかに対処するように、画像を提示し得るため、ユーザにとって、快適かつ最大限に有用である、豊かで、両眼の、３次元体験において表示可能であろう。例えば、正確な深度データを有する、３Ｄ再構築物は、３Ｄ画像が複数の焦点面内に表示されることを有効にする。３Ｄ再構築物また、仮想オブジェクト、他の仮想オブジェクト、および／または実世界オブジェクト間の相互作用の正確な管理を有効にする。

故に、本発明の一実施形態は、マルチビュー画像を使用して、場面の３次元（３Ｄ）再構築物を生成する方法を対象とする。最初に、赤緑青（ＲＧＢ）画像のフレームのシーケンスが、取得される。これは、１つ以上の好適なカメラによって遂行され得る。特徴が、次いで、２次元畳み込みニューラルネットワーク（２ＤＣＮＮ）を使用して、ＲＧＢ画像のフレームのシーケンスから抽出される。各フレームからの抽出された特徴は、次いで、既知のカメラ固有性質および付帯性質を使用して、３Ｄボクセルボリュームの中に逆投影され、ボクセルボリュームの各ピクセルは、ボクセルボリューム内の光線にマッピングされる。単眼、両眼、およびマルチビュー画像を使用して、３Ｄ再構築物を生成する、標的画像を選定し、深度を予測し、次いで、好適な近傍の基準画像を見出すことを要求する、以前の方法と対照的に、本プロセスは、標的画像を選定する必要性を回避し、フレームのシーケンス全体の単一ボリュームの中への融合を可能にする。

各フレームからの逆投影された特徴は、３Ｄボクセルボリュームの中に累積（すなわち、融合）される。３Ｄボクセルボリュームは、３Ｄボクセルボリューム内の特徴を精緻化するように、エンコーダ－デコーダを有する３Ｄ畳み込みニューラルネットワーク（３ＤＣＮＮ）を通して通過される。３ＤＣＮＮはまた、３Ｄボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数（ＴＳＤＦ）値を回帰させる。

別の側面では、フレームは、単純移動平均または加重された移動平均等の移動平均を使用して、単一３Ｄ特徴ボリュームの中に融合されてもよい。

別の側面では、本方法はさらに、３Ｄボクセルボリュームを３ＤＣＮＮの全ての層を通して通過させた後、３Ｄボクセルボリューム内の精緻化された特徴および３Ｄボクセルボリュームの各ボクセルにおけるＴＳＤＦ値をバッチ正規化（バッチノルム）関数および正規化線形ユニット（ｒｅＬＵ）関数を通して通過させることを含んでもよい。

本方法のさらに別の側面では、３ＤＣＮＮは、３ＤＣＮＮのエンコーダからデコーダまでの付加的スキップ接続を含んでもよい。次いで、本方法は、付加的スキップ接続を使用して、３ＤＣＮＮのエンコーダからデコーダまでの３Ｄボクセルボリューム内の１つ以上の特徴をスキップする。

さらに別の側面では、本方法は、特徴をそれらの中に逆投影されていない、３Ｄボクセルボリューム内のヌルボクセルをハンドリングするように構成されてもよい。例えば、ヌルボクセルは、ＲＧＢ画像のフレームのシーケンスの間に観察されなかった、ボクセルに対応し得る。そのような場合、本方法はさらに、ヌルボクセルのために、エンコーダからの付加的スキップ接続を使用しないことと、ヌルボクセルをバッチノルム関数およびｒｅｌｕ関数を通して通過させ、スキップ接続を受けるボクセルの大きさにマッチングさせることとを含む。

本方法の別の側面では、３ＤＣＮＮは、それぞれが３×３×３残差ブロックのセットを有する、複数の層を有してもよく、３ＤＣＮＮは、３×３×３ストライド２畳み込みを用いたダウンサンプリングと、トライリニア補間後、１×１×１畳み込みを使用する、アップサンプリングとを実装してもよい。

本方法の別の側面では、３ＤＣＮＮはさらに、意味論セグメント化を予測するための付加的ヘッドを備える。本方法はさらに、３ＤＣＮＮが３Ｄボクセルボリューム内の特徴の意味論セグメント化を予測することを含む。

別の側面では、本方法はさらに、場面の一部を網羅する短フレームシーケンスを使用して、２ＤＣＮＮを訓練することを含む。短フレームシーケンスは、１０のまたはより少ないフレームシーケンスを含んでもよい。さらに別の側面では、２ＤＣＮＮの訓練は、短フレームシーケンスより多いフレームシーケンスを有する、より大きいフレームシーケンスを使用して、微調整されてもよい。より大きいフレームシーケンスは、例えば、１００以上のフレームシーケンスを含んでもよい。

別の開示される実施形態は、ＲＧＢ画像を備える、マルチビュー画像のみを使用して、深度センサまたはセンサからの深度データを必要とせずに、クロスリアリティシステムのユーザを囲繞する、場面または環境の３Ｄ再構築物を生成するように構成される、クロスリアリティシステムを対象とする。クロスリアリティシステムは、ディスプレイシステムを有する、頭部搭載型ディスプレイデバイスを備える。例えば、頭部搭載型ディスプレイは、眼鏡状構造における、一対の接眼ディスプレイを有してもよい。コンピューティングシステムが、頭部搭載型ディスプレイと動作可能に通信する。複数のカメラセンサが、コンピューティングシステムと動作可能に通信する。例えば、カメラセンサは、頭部搭載型ディスプレイ上または任意の他の好適な構造上に搭載されてもよい。コンピューティングシステムは、上記に説明される方法の任意の構成を含む、プロセスによって、場面の３次元（３Ｄ）再構築物をＲＧＢ画像のフレームのシーケンスから生成するように構成される。クロスリアリティシステムの付加的側面では、プロセスは、上記に説明される方法の付加的側面のうちの任意の１つ以上を含んでもよい。例えば、プロセスは、カメラセンサの視野内の場面の赤緑青（ＲＧＢ）画像のフレームのシーケンスをカメラセンサから取得することを含んでもよい。ＲＧＢ画像のフレームのシーケンスからの特徴が、２次元畳み込みニューラルネットワーク（２ＤＣＮＮ）を使用して、抽出される。各フレームからの特徴は、既知のカメラ固有性質および付帯性質を使用して、３Ｄボクセルボリュームの中に逆投影され、ボクセルボリュームの各ピクセルは、ボクセルボリューム内の光線にマッピングされる。各フレームからの特徴は、３Ｄボクセルボリュームの中に融合される。３Ｄボクセルボリュームは、３Ｄボクセルボリューム内の特徴を精緻化し、３Ｄボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数（ＴＳＤＦ）値を回帰させるように、エンコーダ－デコーダを有する３Ｄ畳み込みニューラルネットワーク（３ＤＣＮＮ）を通して通過される。

クロスリアリティシステムは、次いで、３Ｄ再構築物を利用して、３Ｄ画像を頭部搭載型ディスプレイ上の複数の焦点面に表示する等、豊かな、両眼の、３次元体験内に表示される、３ＤＸＲ体験を生成してもよい。クロスリアリティシステムはまた、３Ｄ再構築物を利用して、仮想オブジェクト、他の仮想オブジェクト、および／または実世界オブジェクト間の相互作用を管理してもよい。

図面は、本開示の好ましい実施形態の設計および有用性を図示し、その中で類似要素は、共通参照番号によって参照される。本開示の上記および他の利点ならびに目的が取得される方法をより深く理解するために、上記に簡単に説明される、本開示のより具体的説明が、付随の図面に図示される、その具体的実施形態を参照することによって与えられるであろう。これらの図面は、本開示の典型的実施形態のみを描写し、したがって、その範囲の限定と見なされないことを理解した上で、本開示は、付随の図面の使用を通して、付加的具体性および詳細とともに記載ならびに説明されるであろう。

図１は、一実施形態による、クロスリアリティ体験を提供するための例示的クロスリアリティシステムの概略図である。

図２は、深層マルチビューステレオ後、従来的ＴＳＤＦ融合を利用する、ベースライン方法と比較した、本明細書に開示される方法の一実施形態の実施形態に従って実施される、３Ｄ再構築物のＳｃａｎｎｅｔ上で実施される評価の比較を示す。

図３は、一実施形態による、ＲＧＢ画像を使用して、場面の３Ｄ再構築物を生成する方法を図示する、フローチャートである。

図４Ａ－４Ｃは、一実施形態による、３Ｄボクセルボリュームの中への特徴の逆投影の略図（図４Ａ）、３ＤＣＮＮ内で単純スキップ接続を使用した特徴の略図（図４Ｂ）および特徴マスクされたスキップ接続を使用して、アーチファクトを低減させ、観察されない領域の幾何学形状をより良好に完成させる略図（図４Ｃ）の比較を図示する。

図５は、一実施形態による、３Ｄエンコーダ－デコーダアーキテクチャの概略図である。

図６Ａ－６Ｅは、本明細書に説明される実施例においてＣＮＮを訓練するためのグラウンドトゥルースの準備を図示する、一連の画像である。

図７は、本明細書に開示される方法に従って説明される実施例において生成された３Ｄ再構築物と、ＤＰＳＮｅｔを使用して生成された３Ｄ再構築物と、グラウンドトゥルースとの比較を図示する、一連の画像である。

図８は、本明細書に開示される方法に従って説明される実施例において生成された定質的３Ｄ意味論セグメント化標識を、グラウンドトゥルースに転写された標識およびグラウンドトゥルース標識に対して比較する、一連の画像である。

図９は、本明細書に開示される方法に従って説明される実施例において生成された３Ｄ再構築物を、標準的２Ｄ深度メトリックおよび３Ｄメトリックを使用し、ＤＰＳＮｅｔおよびＧＰＭＶＳに従った、３Ｄ再構築物に対して比較する、テーブルである。

図１０は、一実施形態による、画像のシーケンスを２ＤＣＮＮバックボーンを通して通過させ、特徴を抽出し、特徴を３Ｄボクセルボリュームの中に逆投影するためのプロセスを記載する。

図１１は、一実施形態による、加重された移動平均を使用して、画像のシーケンス全体にわたって、特徴ボリュームを累積するためのプロセスを記載する。

図１２は、一実施形態による、例示的スキップ接続を表す、方程式を記載する。

（詳細な説明）
以下は、マルチビューＲＧＢ画像を利用し、かつ深度または距離センサを使用せずに、エンドツーエンド再構築において、ＸＲシステム等の空間コンピューティングシステムのユーザを囲繞する、場面または環境の３次元（３Ｄ）再構築物を生成するためのシステムおよび方法の種々の実施形態を説明する。種々の実施形態が、ここで、当業者が本開示を実践することを可能にするように、本開示の例証的実施例として提供される、図面を参照して詳細に説明されるであろう。着目すべきこととして、以下の図および実施例は、本開示の範囲を限定することを意味するものではない。本開示のある要素が、部分的または完全に、公知のコンポーネント（または方法もしくはプロセス）を使用して実装され得る場合、本開示の理解のために必要なそのような公知のコンポーネント（または方法もしくはプロセス）の一部のみが、説明され、そのような公知のコンポーネント（または方法もしくはプロセス）の他の部分の詳細な説明は、本開示を曖昧にしないように、省略されるであろう。さらに、種々の実施形態は、本明細書に例証として参照されるコンポーネントの現在および将来的公知の均等物を包含する。

さらに、空間コンピューティングシステムのユーザを囲繞する、場面または環境の３次元（３Ｄ）再構築物を生成するためのシステムおよび方法はまた、ＸＲシステムから独立して実装されてもよく、本明細書に描写される実施形態は、例証的目的のみのために、ＡＲ／ＭＲシステムに関連して説明される。

図１を参照すると、一実施形態による、例示的ＸＲシステム１００が、図示される。ＸＲシステム１００は、頭部搭載型ディスプレイデバイス２（ヘッド装着型視認コンポーネント２とも称される）と、ハンドヘルドコントローラ４（ハンドヘルドコントローラコンポーネント４とも称される）と、ベルトパックまたは同等物として、ユーザ上に装着されるように構成され得る、相互接続された補助コンピューティングシステムまたはコントローラ６（相互接続される補助コンピューティングシステムまたはコントローラコンポーネント６とも称される）とを含む。これらのコンポーネントはそれぞれ、ＩＥＥＥ８０２．１１、Ｂｌｕｅｔｏｏｔｈ（登録商標）（ＲＴＭ）、および他のコネクティビティ規格および構成によって規定されたもの等の有線または無線通信接続１０、１２、１４、１６、１７、１８を介して、相互および他の接続されたリソース８（クラウドコンピューティングまたはクラウド記憶リソース等）と動作可能に通信する（すなわち、動作可能に結合される）。頭部搭載型ディスプレイデバイスは、それを通してユーザには、その周囲の世界が、関連付けられるシステムコンポーネントによって生産されたビデオ画像および視覚的コンポーネントとともに見え得る、２つの描写される光学要素２０を含み、一対の画像源（例えば、マイクロディスプレイパネル）と、拡張現実体験のためにコンピュータ生成された画像を光学要素２０上に表示するための視認光学系とを含む。図１に図示されるように、ＸＲシステム１００はまた、限定ではないが、種々のカメラタイプセンサ２２、２４、２６（モノクロ、カラー／ＲＧＢ、および／または熱等）、深度カメラセンサ２８、および／または音センサ３０（マイクロホン等）を含む、ユーザの環境周囲に関する情報を提供するように構成される、種々のセンサを含む。

種々の実施形態では、ユーザが、図１に描写されるＸＲシステム１００等の拡張現実システムを装着し、これは、動作されるときのユーザの周囲の３次元世界とのそのようなシステムの相互作用に関連して、「空間コンピューティング」システムとも称され得る。カメラ２２、２４、２６が、ユーザの環境周囲をマッピングし、および／または壁、床、椅子、および同等物等のユーザの環境周囲内の種々のオブジェクトの幾何学形状を表す種々の点を備える、そのような環境の「メッシュ」を作成するように構成される。空間コンピューティングシステムは、ユーザの周囲の環境をマッピングまたはメッシュ化し、ＭａｇｉｃＬｅａｐ，Ｉｎｃ．（Ｐｌａｎｔａｔｉｏｎ，Ｆｌｏｒｉｄａ）から利用可能なもの等のソフトウェアを起動または動作させるように構成されてもよく、これは、部屋のマップまたはメッシュを利用して、ユーザが、ユーザの周囲の３次元空間内の種々のオブジェクトおよび要素を設置、操作、可視化、作成、および修正することを補助するように構成されてもよい。図１に示されるように、ＸＲシステム１００はまた、クラウドまたは他のコネクティビティ構成によって、他のコンピューティングシステム等の付加的接続されたリソース８に動作可能に結合されてもよい。

本明細書に説明される方法、システム、および構成は、適切なセンサおよび利用可能な関連付けられるデータに従って、ＸＲシステム１００等のウェアラブル空間コンピューティングの領域の外側の種々のシナリオに広く適用可能であることを理解されたい。

空間コンピューティングにおける課題のうちの１つは、例えば、ユーザの周囲の３次元世界に関連し得る、コンピュータビジョンおよび／またはオブジェクト認識課題等において、ユーザに有用および／または重要な判定を行う際に、ＸＲシステム１００の種々の動作可能に結合されるセンサ（図１のシステム１００の要素２２、２４、２６、２８等）によって捕捉されたデータの利用に関する。本明細書に開示されるものは、深度センサ２８からの深度データを使用せずに、カメラ２２、２４、および２６からのＲＧＢ画像等のＲＧＢ画像のみを使用して、ＸＲシステム１００のユーザを囲繞する３Ｄ環境等の場面の３Ｄ再構築物を生成するための方法およびシステムである。

比較的に不正確な深度および比較的に満足の行かない３Ｄ画像モデルを生産する、上記に説明されるＲＧＢ画像のみを使用して、３Ｄ再構築物を生成する以前の方法と対照的に、本明細書に開示される方法およびシステムは、正確な完全３Ｄモデルを生産し、また、意味論セグメント化を含む、他の再構築物データの効率的算出をサポートする。

一般に、姿勢付きＲＧＢ画像のセットのために、直接、切り捨て距離関数（「ＴＳＤＦ」）を回帰させるアプローチが、開示される。２次元（２Ｄ）ＣＮＮ（畳み込みニューラルネットワーク）が、独立して、特徴を各画像から抽出するように構成される。これらの特徴は、カメラ固有性質および付帯性質（各ピクセルの特徴が、光線全体に沿って設置される）を使用して、ボクセルボリュームの中に逆投影および累積される。累積後、ボクセルボリュームは、特徴を精緻化し、ＴＳＤＦ値を予測するように構成される、３次元（３Ｄ）ＣＮＮを通して通過される。付加的ヘッドが、最小限の余剰算出リソースを伴って、色、意味論、およびインスタンス標識を予測するために追加されてもよい。本明細書にさらに詳細に解説されるように、本方法は、Ｓｃａｎｎｅｔ上で評価され、そのような方法は、図２に示されるように、定量的および定質的の両方において、最先端ベースライン（深層マルチビューステレオ後、従来的ＴＳＤＦ融合が続く）より有意に優れていることが判定された。結果として生じる３Ｄ意味論セグメント化は、以前の研究がＲＧＢ入力のみを用いて問題を解決するように試みていないため、深度センサを使用する、以前の方法と比較された。本開示の方法および構成は、適切なセンサおよび利用可能な関連付けられるデータに従って、ウェアラブル空間コンピューティングの領域の外側の種々のシナリオに広く適用可能である。

深度マップは、典型的には、単に、次いで、他の深度マップとともに完全３Ｄモデルの中に融合される、中間表現であることが観察される。対照的に、本開示の方法は、ＲＧＢ画像のシーケンスをとり、直接、エンドツーエンド訓練可能様式において、完全３Ｄモデルを予測する。これは、ネットワークが、より多くの情報を融合させ、世界についてより良好な幾何学的初期値を学習し、はるかに良好な再構築物を生産することを可能にする。さらに、フレーム選択のようなステップを排除することによって、システムの複雑性を低減させ、かつシーケンス全体にわたるコストを償却することによって、要求される算出を低減させる。

本開示の方法は、カメラ２２、２４、および２６、または他の好適なカメラによって取得される画像等のＲＧＢ画像のフレームのシーケンスを取得することから開始する。次いで、フレームのそれぞれからの特徴が、２ＤＣＮＮを使用して抽出される。これらの特徴は、次いで、既知のカメラ固有性質および付帯性質を使用して、３Ｄボリュームの中に逆投影される。しかしながら、画像ワーピングを使用して、特徴を標的ビュー錐台の中に逆投影する、以前のコストボリュームアプローチと異なり、本方法は、各フレームからの特徴を規準３Ｄボクセルボリュームの中に逆投影し、各ピクセルは、ボリューム内の光線にマッピングされる。本プロセスは、標的画像を選定する必要性を回避し、単一ボリュームの中へのフレームのシーケンス全体の融合を可能にする。次いで、フレームの全て内の特徴はそれぞれ、単純移動平均を使用して、３Ｄボクセルボリュームの中に融合される。次いで、３Ｄボクセルボリュームは、３Ｄ畳み込みエンコーダ－デコーダを通して通過され、特徴を精緻化する。最後に、結果として生じる３Ｄボクセル特徴ボリュームが、各ボクセルにおいてＴＳＤＦ値を回帰させるために使用される。

ネットワークは、ＳｃａｎｎｅｔおよびＲＩＯデータセットからの屋内部屋の実際の走査上で訓練および評価される。本明細書に示されるように、本開示の方法は、正確かつ完全なメッシュを生産することによって、最先端マルチビューステレオベースラインより優位に優れている。さらに、本開示の方法は、シーケンスの終了時に１回のみ、大３ＤＣＮＮを起動することを要求するため、場面全体のメッシュを生成するために要求される総算出量は、以前のマルチビューステレオ方法よりはるかに低い。

付加的利点として、最小限の余剰算出のために、付加的ヘッドが、３ＤＣＮＮに追加され、また、意味論セグメント化を予測する。３Ｄ意味論およびインスタンスセグメント化の問題は、最近、多くの注目を集めているが、全ての以前の方法は、深度が深度センサを使用して入手されと仮定している。本明細書に開示される３Ｄセグメント化は、Ｓｃａｎｎｅｔベンチマークのスコアボード上での上位製品には匹敵しないが、３Ｄセグメント化は、マルチビューＲＧＢ画像からの３Ｄ再構築物からの３Ｄ意味論セグメント化の新しいタスクのための強力なベースラインを確立する。

図３を参照すると、方法１１０の一実施形態の概略が、描写される。ステップ１１２では、方法１１０は、入力として、それぞれ、既知のカメラ固有性質および姿勢を伴う、ＲＧＢ画像１１４の恣意的長さのシーケンスをとる。ステップ１１６では、これらの画像１１４ａ、１１４ｂ、１１４ｃは、２ＤＣＮＮ１１８バックボーンを通して通過され、特徴１２０を抽出する。本ステップ１１６は、図１０の方程式（１）に描写される。図１０に図示されるように、２Ｄ特徴は、次いで、ピンホールカメラモデルを仮定して、既知のカメラ固有性質および付帯性質を使用して、３Ｄボクセルボリュームの中に逆投影される。図１０のプロセスは、カメラ光線に沿った全てのボクセルが、そのピクセルに対応する、同一特徴で充填される結果をもたらす（図４Ａ－４Ｃ参照）。ステップ１２２では、特徴１２０ａ、１２０ｂ、１２０ｃは、次いで、個別の３Ｄボクセルボリューム１２４の中に逆投影される。本ステップ１２２は、図１０の方程式（２）に描写される。図１０は、下記に引用される。

依然として、図３を参照すると、ステップ１２５では、特徴１２０ａ、１２０ｂ、および１２０ｃは、移動平均を使用して、３Ｄボクセルボリューム１２６の中に累積される。ステップ１２４は、図１１の方程式（３）および（４）に描写され、これは、下記に引用される。

特徴ボリュームは、ＴＳＤＦ融合に類似する加重された移動平均を使用して、シーケンス全体にわたって累積される。加重に関して、バイナリマスクが、ボクセルは、カメラのビュー錐台の内側または外側にあるかどうかを記憶する。

いったん特徴１２４が、３Ｄボクセルボリューム１２６の中に累積されると、ステップ１２８では、３Ｄボクセルボリュームが、３Ｄ畳み込みエンコーダ－デコーダネットワーク１３０を通して通過され、特徴を精緻化し、出力されたＴＳＤＦを回帰させる。エンコーダおよびデコーダの各層は、３×３×３残差ブロックのセットを使用する。ダウンサンプリングが、３×３×３ストライド２畳み込みを用いて実装されてもよい一方、アップサンプリングは、トライリニア補間後、１×１×１畳み込みを利用し、特徴寸法を変化させてもよい。特徴寸法は、各ダウンサンプリングに伴って、２倍にされ、各アップサンプリングに伴って、二等分にされる。全ての畳み込み層は、その後、バッチノルム（バッチ正規化）関数およびＲｅＬＵ（正規化線形ユニット）関数が続く。図５は、その実施例を図示する。

依然として図３を参照すると、いったん画像特徴１２０が、３Ｄボクセルボリューム１２６の中に融合されると、ステップ１２８ａでは、３Ｄボクセルボリューム１２６は、３ＤＣＮＮ１３０を通して通過され、特徴を精緻化し、直接、３ＤＣＮＮを使用して、ＴＳＤＦ１３２を回帰させる。本ステップ１２８は、図５に描写され、これは、エンコーダ－デコーダアーキテクチャを図式的に示す。３ＤＣＮＮは、粗いものから微細なものへの様式において、ＴＳＤＦを予測し、前の層は、次の分解能を疎化するために使用される。ステップ１２８ｂでは、３ＤＣＮＮはまた、付加的ヘッドを含んでもよく、これは、３Ｄボクセルボリューム内の特徴の意味論セグメント化を予測する。

エンコーダからデコーダまでの付加的スキップ接続もまた、観察されない領域内の幾何学形状を完成させるために含まれてもよい。エンコーダ特徴は、１×１×１畳み込みを通して通過され、その後、バッチノルム関数およびＲｅｌｕ関数が続く。しかしながら、シーケンスの間に一度も観察されず、したがって、任意の特徴がそれらの中に逆投影させていない、ボクセルが存在し得る。ネットワーク内のより粗い分解能層の大受容野は、これらのエリアにわたって平滑化および充填することが可能であるが、デコーダの早期層からゼロ値を追加することは、これを取り消し、ゼロを戻すことになる。これは、観察されない領域内で幾何学形状を完成させるための３ＤＣＮＮの能力を有意に低減させる。したがって、これらのボクセルに関しては、エンコーダからスキップを使用しない。代わりに、デコーダ特徴は、同一バッチノルム関数およびｒｅｌｕ関数を通して通過され、標準的スキップ接続の大きさにマッチングさせ、それらを追加する。例示的スキップ接続は、図１２の方程式（５）に示され、これは、下記に引用される。

式中：ｘは、デコーダからの特徴であり、
ｙは、エンコーダからスキップされている特徴であり、
ｆは、畳み込みであり、
ｇは、バッチノルムおよびｒｅｌｕ関数である。
図４Ａ－４Ｃは、観察されない領域の幾何学形状を完成するためのこれらのマスクされたスキップ接続の使用を図示する。図４Ａは、３Ｄボクセルボリュームの中への特徴の逆投影を図示し、オーバーレイされた矩形内の観察されない領域を示す。図４Ｂは、３ＤＣＮＮ内の単純なスキップ接続が有意なアーチファクトにつながる様子を示す。図４Ｃは、マスクされたスキップ接続が、アーチファクトを低減させ、３ＤＣＮＮが、観察されない領域の幾何学形状をより良好に完成させることを可能にする様子を示す。

エンコーダ－デコーダ後、３ＤＣＮＮの１×１×１畳み込みに続く、ｔａｎｈ活性化が、最終ＴＳＤＦ値１３２を回帰させるために使用される。加えて、中間出力ヘッドが、アップサンプリングに先立って、分解能毎に、３ＤＣＮＮ内に含まれてもよい。これは、中間教師として使用され、ネットワーク訓練をより高速化することに役立ち、かつ後の分解能が、焦点を上に表面の近くの精緻化予測に焦点を当て、より粗い分解能がすでに確信を得ている、大空領域を無視するように誘導する。意味論セグメント化モデルに関して、付加的１×１×１畳み込みが、セグメント化ロジットを予測するために含まれてもよい（最終分解能においてのみ）。

特徴は、光線全体に沿って逆投影されるため、ボクセルボリュームは、稠密に充填され、したがって、本方法は、エンコーダ内で疎畳み込みを利用することができない。しかしながら、ハード閾値を中間出力ＴＳＤＦに適用することによって、デコーダは、疎化され、以前の方法に類似する疎畳み込みの使用を可能にすることができる。実践では、モデルが、疎畳み込みを必要とせず、４ｃｍ^３ボクセル分解能において訓練され得ることが見出された。特徴ボリュームは、疎化されないが、マルチ分解能出力が、最終的に予測されるＴＳＤＦを疎化するために使用される。固定距離閾値を超えることが予測される任意のボクセルは、続分解能において切り捨てられる。

実施例：

以下は、ＲＧＢ画像のシーケンスから場面の３Ｄ再構築物を生成するための方法の例示的ユースケースを説明する。Ｒｅｓｎｅｔ５０－ＦＰＮが、使用され、その後、Ｋｉｒｉｌｏｖ，Ａ．，Ｇｉｒｓｈｉｃｋ，Ｒ．，Ｈｅ，Ｋ．，Ｄｏｌｌａｒ，Ｐ．：Ｐａｎｏｐｔｉｃｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓ；ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ；ｐｐ．６３９９－６４０８（２０１９）内で使用される方法と、我々の２Ｄバックボーンとしての３２個の出力特徴チャネルのマージが続いた。特徴は、４ｃｍ^３ボクセルグリッドの中に逆投影される。我々の３ＤＣＮＮは、４スケール分解能ピラミッドから成り、分解能を半分にする度に、チャネルの数を２倍にする。エンコーダは、それぞれ、各スケールにおいて、（１，２，３，４）残差ブロックから成り、デコーダは、（３，２，１）残差ブロックから成る。

最初に、全てのフレームが逆伝搬のためにメモリ内に保たれる必要があるため、部屋の一部を網羅する、短シーケンスを使用して、ネットワークをエンドツーエンドで訓練する。１０個のフレームシーケンス、１ｅ－３の初期学習レート、および９６×９６×５６ボクセルグリッドを用いて、訓練する。３５ｋ反復後、２Ｄネットワークをフリーズさせ、３Ｄネットワークを微調整する。これは、２ＤＣＮＮからの全ての活性化をメモリ内に保つ必要性を除去し、特徴ボリュームのインプレース累積を可能にし、メモリをフレームの数への依存から脱却させる。１００個のフレームシーケンスを用いて、４ｅ－４の学習レートにおいて、ネットワークを微調整する。

試験時、微調整の間と同様に、特徴ボリュームをインプレースで累積し、恣意的長さのシーケンス（多くの場合、Ｓｃａｎｎｅｔに関しては、数千個のフレーム）に作用することを可能にし、４００×４００×１０４サイズのボクセルグリッドを使用する。

ネットワークが完成するための訓練は、１６のバッチサイズおよび同期されたバッチノルムを用いて、８つのＴｉｔａｎＲＴＸＧＰＵ上で約３６時間かかる。

グラウンドトゥルース準備および損失：

図６Ａ－６Ｅを参照すると、ｌ１個の損失をグラウンドトゥルースＴＳＤＦ値に対して使用して、マルチスケールＴＳＤＦ再構築を監督する。Ｄａｉ，Ａ．，Ｑｕｉ，Ｃ．Ｒ．，Ｎｉｅｂｎｅｒ，Ｍ．：Ｓｈａｐｅｃｏｍｐｌｅｔｉｏｎｕｓｉｎｇ３ｄ－ｅｎｃｏｄｅｒｐｒｅｄｉｃｔｏｒｃｎｎｓａｎｄｓｈａｐｅｓｙｎｔｈｅｓｉｓ（２０１６）の３Ｄエンコーダ－デコーダの使用に続いて、ｌ１個の損失を適用する前に、予測および標的値を対数変換し、グラウンドトゥルース内で観察された（すなわち、厳密に１未満のＴＳＤＦ値を有する）ボクセルに関する損失のみを逆伝搬する。しかしながら、ネットワークが壁の背後および部屋の外側のアーチファクトを幻影化しないように防止するために、我々はまた、その垂直列全体が１に等しい、全てのボクセルをマークし、これらのエリア内にもペナルティを科す。これに関する直感は、垂直列全体が観察されなかった場合、おそらくは、部屋内に存在しなかったということになる。

さらに、より微細な分解能層にさらなる詳細を学習するために、前の分解能内の切り捨て距離のある割合（０．９７）を超えなかった、ボクセルに関する損失のみを算出する。これがない場合、後の層損失は、表面から離れ、空として容易に分類される、多数のボクセルによって左右され、効果的に学習しないように妨げる。

グラウンドトゥルースＴＳＤＦを構築するために、訓練に先立って、ＴＳＤＦ融合を、各分解能において、完全シーケンス上で起動する。これは、単にオンザフライで短訓練バッチシーケンスを融合させることより少ない雑音およびより完全なグラウンドトゥルースをもたらす。しかしながら、これは、ここで我々が訓練バッチに関するＴＳＤＦの適切な領域を見出す必要があるという厄介な問題を追加する。２ステッププロセスにおいて、これを解決する。

訓練の間、カメラ錐台を使用して、本ＴＳＤＦの関連部分をクロップする。

関連部分をクロップするために、最初に、フレームのバッチからの全ての深度点を逆投影する。これらの点の重心は、再構築ボリューム内の点の中心のために使用される。我々はまた、データ拡張のために、垂直軸を中心としたランダム回転を適用する。我々が、訓練時、常時、可視幾何学形状を我々のボリューム内の中心に置く場合、ネットワークは、壁をはるかに越えた幾何学形状を幻影化しないように学習する（ネットワークが、ボリュームの境界が可視エリアに適合するという事実を利用する）機会を有しない。これは、ネットワークに、試験時、ボリュームがはるかに大きいとき、対処方法を把握させない。したがって、中心に置いた後、カメラの視認方向に沿って、ランダム偏移を適用する（したがって、ネットワークは、可視幾何学形状の背後の幾何学形状を幻影化しないように学習することを強いられる）。

完全グラウンドトゥルース再構築物であっても、不完全であるため、Ｄａｉ，Ａ．，Ｄｉｌｌｅｒ，Ｃ．，Ｎｉｅｂｎｅｒ，Ｍ．；ＳＧ－ｎｎＳｐａｒｓｅｇｅｎｅｒａｔｉｖｅｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｓｃｅｎｅｃｏｍｐｌｅｔｉｏｎｏｆｒｇｂ－ｄｓｃａｎｓ，ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１９１２．０００３６（２０１９）に開示されるものに類似損失スキームを採用し、グラウンドトゥルースＴＳＤＦが厳密に１未満（すなわち、既知の空ボクセル（Ｔ＝－１）および近表面（｜Ｔ｜＜１））である、損失のみを適用する。しかしながら、我々はまた、場面の外側にある、Ｔ＝１を伴う、ボクセルもマークし、また、それら上にもペナルティを科し、上記に述べられた幻影化問題に役立つ。

ネットワークが、幾何学形状を完成させるように学習することを所望するが、ビューから完全に外にある幾何学形状を完全に幻影化させることを求めることは、非常に困難である。したがって、可視錐台をクリッピングすることによって、我々がペナルティを科したＴＳＤＦの部分までさらに低減させる。マスクを、バッチ再構築物内で可視（Ｔ＜１）である、ボクセルから構築し、次いで、それを数ボクセル拡張させる（ネットワークに、可視錐台を若干越えて幾何学形状を完成させる）。さらに、部分的に可視である、任意のインスタンスが、マスク内に完全に含まれる。本マスクは、訓練のために使用される、完全ＴＳＤＦに適用される。

結果：

データセットおよびメトリック：

ＳｃａｎＮｅｔ上の実施例を評価し、これは、７０７個の明確に異なる空間を横断した２．５Ｍ画像から成る。標準的訓練／検証／試験スプリットを使用する。

標準的２Ｄ深度メトリックおよび３Ｄメトリックの両方（図９参照）を使用して、かつ定質的に（図７参照）、我々の３Ｄ再構築物を評価する。図９は、実施例に従った３Ｄ再構築物が、全ての点において、ＤＰＳＮｅｔおよびＧＰＭＶＳを使用して、生成された３Ｄ再構築物より正確であることを示す。

以前の研究は、完全３Ｄ場面をマルチビュー画像から再構築するように試みていないため、最先端マルチビューステレオアルゴリズムとの比較をする。これらを３Ｄで評価するために、その出力をとり、標準的ＴＳＤＦ融合を使用して、それらをＴＳＤＦの中に融合させる。

最近傍ルックアップを頂点上で使用して、我々のメッシュ上で予測された標識をグラウンドトゥルースメッシュ上に転移させることによって、我々の意味論セグメント化を評価し、次いで、図８に示されるように、Ｄａｉ，Ａ．，Ｃｈａｎｇ，Ａ．Ｘ．，Ｓａｖｖａ，Ｍ．，ＨａｌｂｅｒＭ．，Ｆｕｎｋｈｏｕｓｅｒ，Ｔ．，Ｎｉｅｂｎｅｒ，Ｍ．；Ｓｃａｎｎｅｔ：Ｒｉｃｈｌｙ－ａｎｎｏｔａｔｅｄ３ｄｒｅｃｏｎｓｔｒｕｃｔｉｏｎｓｏｆｉｎｄｏｏｒｓｃｅｎｅｓ；Ｐｒｏｃ．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），ＩＥＥＥ（２０１７）に定義される標準的ＩＯＵベンチマークを報告する。図８は、本明細書に開示される方法に従った我々の意味論セグメント化が、深度センサを使用せずに、３Ｄ場面を正確にセグメント化することを示す。以前の研究は、ＲＧＢ画像のみから３Ｄ意味論セグメント化を行うように試みていない。

結論：

本研究では、３Ｄ場面再構築に対する新規アプローチを提示する。着目すべきこととして、我々のアプローチは、深度入力を要求せず、時間的に拘束されず、長フレームシーケンスの統合を可能にし、メッシュを予測的に完成させ、意味論等の他の量の効率的算出をサポート。本研究が、３Ｄ場面再構築を解決するための新しい道を開くことを希望する。

本発明の種々の例示的実施形態が、本明細書に説明される。これらの実施例は、非限定的意味で参照される。それらは、本発明のより広く適用可能な側面を例証するために提供される。種々の変更が、説明される本発明に行われてもよく、本発明の真の精神および範囲から逸脱することなく、均等物が代用されてもよい。加えて、多くの修正が、特定の状況、材料、組成物、プロセス、プロセス作用、またはステップを本発明の目的、精神、または範囲に適合させるために行われてもよい。さらに、当業者によって理解されるであろうように、本明細書で説明および例証される個々の変形例はそれぞれ、本発明の範囲または精神から逸脱することなく、他のいくつかの実施形態のうちのいずれかの特徴から容易に分離される、またはそれらと組み合わせられる、離散コンポーネントおよび特徴を有する。全てのそのような修正は、本発明と関連付けられる請求項に記載の範囲内であることが意図される。

本発明は、本主題のデバイスを使用して実施され得る方法を含む。本方法は、そのような好適なデバイスを提供する行為を備えてもよい。そのような提供は、エンドユーザによって実施されてもよい。換言すると、「提供する」行為は、単に、エンドユーザが、本主題の方法において必要なデバイスを取得する、それにアクセスする、それに接近する、それを位置付ける、それを設定する、それを活性化する、それに電源を入れる、または別様にそれを提供するように作用することを要求する。本明細書に列挙される方法は、論理的に可能な列挙されたイベントの任意の順序ならびにイベントの列挙された順序で行われてもよい。

本発明の例示的側面が、材料選択および製造に関する詳細とともに、上記に記載されている。本発明の他の詳細に関して、これらは、前述の参照特許および刊行物に関連して理解され、概して、当業者によって公知である、または理解され得る。同じことが、一般的または理論的に採用されるような付加的行為の観点から、本発明の方法ベースの側面に関して当てはまり得る。

加えて、本発明は、随意に、種々の特徴を組み込む、いくつかの実施例を参照して説明されているが、本発明は、発明の各変形例に関して検討されるように説明または図示されるものに限定されるものではない。種々の変更が、説明される本発明に行われてもよく、均等物（本明細書に列挙されるか、またはある程度の簡潔目的のために含まれないかどうかにかかわらず）は、本発明の精神および範囲から逸脱することなく代用されてもよい。加えて、値の範囲が提供される場合、その範囲の上限と下限との間の全ての介在値および任意の他の述べられた値または述べられた範囲内の介在値が、本発明内に包含されるものと理解されたい。

また、説明される本発明の変形例の任意の随意の特徴は、独立して、または本明細書に説明される特徴のうちの任意の１つ以上と組み合わせて、記載および請求され得ることが検討される。単数形の項目の言及は、複数の同一項目が存在する可能性を含む。より具体的には、本明細書および本明細書に関連付けられる請求項で使用されるように、単数形「ａ」、「ａｎ」、「ｓａｉｄ」、および「ｔｈｅ」は、別様に具体的に述べられない限り、複数の言及を含む。換言すると、冠詞の使用は、上記の説明ならびに本発明と関連付けられる請求項における本主題のアイテムのうちの「少なくとも１つ」を可能にする。さらに、そのような請求項は、任意の随意の要素を除外するように起草され得ることに留意されたい。したがって、本文言は、請求項の要素の列挙と関連する「単に」、「のみ」、および同等物等の排他的専門用語の使用、または「消極的」限定の使用のための先行詞としての役割を果たすことが意図される。

そのような排他的専門用語を使用しなければ、本発明と関連付けられる請求項における用語「～を備える（ｃｏｍｐｒｉｓｉｎｇ）」は、所与の数の要素が請求項で列挙されるかどうかにかかわらず、任意の付加的要素の包含を可能にするものとする、または特徴の追加は、そのような請求項に記載される要素の性質を変換すると見なされ得る。本明細書で具体的に定義される場合を除いて、本明細書で使用される全ての技術および科学用語は、請求項の正当性を維持しながら、可能な限り広い一般的に理解されている意味を与えられるべきである。

本発明の範疇は、提供される実施例および／または本明細書に限定されるべきではなく、むしろ、本開示と関連付けられる請求項の用語の範囲のみによって限定されるものとする。

Claims

マルチビュー画像から場面の３次元（３Ｄ）再構築物を生成する方法であって、前記方法は、
赤緑青（ＲＧＢ）画像のフレームのシーケンスを取得することと、
２次元畳み込みニューラルネットワーク（２ＤＣＮＮ）を使用して、特徴を前記ＲＧＢ画像のフレームのシーケンスから抽出することと、
各フレームからの前記特徴を、既知のカメラ固有性質および付帯性質を使用して、３Ｄボクセルボリュームの中に逆投影することであって、前記ボクセルボリュームの各ピクセルは、前記ボクセルボリューム内の光線にマッピングされる、ことと、
各フレームからの特徴を前記３Ｄボクセルボリュームの中に融合／累積させることと、
前記３Ｄボクセルボリュームを、エンコーダ－デコーダを有する３Ｄ畳み込みニューラルネットワーク（３ＤＣＮＮ）を通して通過させ、前記３Ｄボクセルボリューム内の前記特徴を精緻化し、前記３Ｄボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数（ＴＳＤＦ）値を回帰させることと
を含む、方法。
前記フレームは、移動平均を使用して、単一３Ｄ特徴ボリュームの中に融合される、請求項１に記載の方法。
前記移動平均は、単純移動平均である、請求項２に記載の方法。
前記移動平均は、加重された移動平均である、請求項３に記載の方法。
前記３Ｄボクセルボリュームを前記３ＤＣＮＮの全ての層を通して通過させた後、前記３Ｄボクセルボリューム内の前記精緻化された特徴および前記３Ｄボクセルボリュームの各ボクセルにおけるＴＳＤＦ値をバッチ正規化（バッチノルム）関数および正規化線形ユニット（ｒｅＬＵ）関数を通して通過させることをさらに含む、請求項１に記載の方法。
付加的スキップ接続が、前記３ＤＣＮＮのエンコーダからデコーダまでに含まれ、
前記方法はさらに、前記付加的スキップ接続を使用して、前記３ＤＣＮＮの前記エンコーダから前記デコーダまでの前記３Ｄボクセルボリューム内の１つ以上の特徴をスキップすることを含む、請求項１に記載の方法。
前記３Ｄボクセルボリュームの１つ以上のヌルボクセルは、特徴を、前記ＲＧＢ画像のフレームのシーケンスの間に観察されなかったボクセルに対応する、それらの中に逆投影させず、前記方法はさらに、
前記ヌルボクセルのための付加的スキップ接続である、前記ヌルボクセルのための前記エンコーダからの前記付加的スキップ接続を使用しないことと、
前記ヌルボクセルを前記バッチノルム関数およびｒｅｌｕ関数を通して通過させ、前記スキップ接続を受ける前記ボクセルの大きさにマッチングさせることと
を含む、請求項６に記載の方法。
前記３ＤＣＮＮは、それぞれが３×３×３残差ブロックのセットを有する、複数の層を有し、前記３ＤＣＮＮは、３×３×３ストライド２畳み込みを用いたダウンサンプリングと、トライリニア補間後、１×１×１畳み込みを使用する、アップサンプリングとを実装する、請求項１に記載の方法。
前記３ＤＣＮＮはさらに、意味論セグメント化を予測するための付加的ヘッドを備え、
前記方法はさらに、前記３ＤＣＮＮが前記３Ｄボクセルボリューム内の前記特徴の意味論セグメント化を予測することを含む、請求項１に記載の方法。
場面の一部を網羅する短フレームシーケンスを使用して、前記２ＤＣＮＮを訓練することをさらに含む、請求項１に記載の方法。
前記短フレームシーケンスは、１０またはより少ないフレームシーケンスを含む、請求項１０に記載の方法。
前記短フレームシーケンスより多いフレームシーケンスを有する、より大きいフレームシーケンスを使用して、前記２ＤＣＮＮの訓練を微調整することをさらに含む、請求項１１に記載の方法。
前記より大きいフレームシーケンスは、１００以上のフレームシーケンスを含む、請求項１２に記載の方法。
クロスリアリティシステムであって、
ディスプレイシステムを有する、頭部搭載型ディスプレイデバイスと、
前記頭部搭載型ディスプレイと動作可能に通信する、コンピューティングシステムと、
前記コンピューティングシステムと動作可能に通信する、複数のカメラセンサと
を備え、
前記コンピューティングシステムは、プロセスによって、前記場面の３次元（３Ｄ）再構築物を前記カメラセンサによって捕捉されたＲＧＢ画像のフレームのシーケンスから生成するように構成され、
前記プロセスは、
前記カメラセンサの視野内の場面の赤緑青（ＲＧＢ）画像のフレームのシーケンスを前記カメラセンサから取得することと、
２次元畳み込みニューラルネットワーク（２ＤＣＮＮ）を使用して、特徴を前記ＲＧＢ画像のフレームのシーケンスから抽出することと、
各フレームからの前記特徴を、既知のカメラ固有性質および付帯性質を使用して、３Ｄボクセルボリュームの中に逆投影することであって、前記ボクセルボリュームの各ピクセルは、前記ボクセルボリューム内の光線にマッピングされる、ことと、
各フレームからの前記特徴を前記３Ｄボクセルボリュームの中に融合させることと、
前記３Ｄボクセルボリュームを、エンコーダ－デコーダを有する３Ｄ畳み込みニューラルネットワーク（３ＤＣＮＮ）を通して通過させ、前記３Ｄボクセルボリューム内の前記特徴を精緻化し、前記３Ｄボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数（ＴＳＤＦ）値を回帰させることと
を含む、システム。
前記フレームは、移動平均を使用して、単一３Ｄ特徴ボリュームの中に融合される、請求項１４に記載のシステム。
前記移動平均は、単純移動平均である、請求項１５に記載のシステム。
前記移動平均は、加重された移動平均である、請求項１６に記載のシステム。
前記場面の３次元（３Ｄ）再構築物を前記ＲＧＢ画像のフレームのシーケンスから生成するための前記プロセスはさらに、前記３Ｄボクセルボリュームを前記３Ｄ畳み込みエンコーダ－デコーダの全ての層を通して通過させた後、前記３Ｄボクセルボリューム内の前記精緻化された特徴および前記３Ｄボクセルボリュームの各ボクセルにおけるＴＳＤＦ値をバッチ正規化（バッチノルム）関数および正規化線形ユニット（ｒｅＬＵ）関数を通して通過させることを含む、請求項１４に記載のシステム。
付加的スキップ接続が、前記３ＤＣＮＮのエンコーダからデコーダまでに含まれ、
前記場面の３次元（３Ｄ）再構築物を前記ＲＧＢ画像のフレームのシーケンスから生成するための前記プロセスはさらに、前記付加的スキップ接続を使用して、前記３ＤＣＮＮの前記エンコーダから前記デコーダまでの前記３Ｄボクセルボリューム内の１つ以上の特徴をスキップすることを含む、請求項１４に記載のシステム。
前記３Ｄボクセルボリュームの１つ以上のヌルボクセル特徴を、前記ＲＧＢ画像のフレームのシーケンスの間に観察されなかったボクセルに対応する、それらの中に逆投影させず、前記場面の３次元（３Ｄ）再構築物を前記ＲＧＢ画像のフレームのシーケンスから生成するための前記プロセスはさらに、
前記ヌルボクセルのための付加的スキップ接続である、前記ヌルボクセルのための前記エンコーダからの前記付加的スキップ接続を使用しないことと、
前記ヌルボクセルを前記バッチノルム関数およびｒｅｌｕ関数を通して通過させ、前記スキップ接続を受ける前記ボクセルの大きさにマッチングさせることと
を含む、請求項１９に記載のシステム。
前記３ＤＣＮＮはさらに、意味論セグメント化を予測するための付加的ヘッドを備え、
方法はさらに、前記３ＤＣＮＮが前記３Ｄボクセルボリューム内の前記特徴の意味論セグメント化を予測することを含む、請求項１４に記載のシステム。