JP2023516674A

JP2023516674A - 屋内場面の３ｄ走査からの効率的間取図生成のためのシステムおよび方法

Info

Publication number: JP2023516674A
Application number: JP2022552796A
Authority: JP
Inventors: アメヤプラモドパラク，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2020-03-04
Filing date: 2021-03-03
Publication date: 2023-04-20
Also published as: EP4115392A4; WO2021178537A1; CN115516516A; US20240203138A1; EP4115392A1; US20210279950A1; US11928873B2

Abstract

本願は、屋内場面の３Ｄ走査からの効率的間取図生成のためのシステムおよび方法に関する。屋内場面の間取図を生成するための方法、システム、およびウェアラブルエクステンデッドリアリティデバイスが、提供される。部屋の部屋分類および部屋に関する壁の壁分類が、屋内場面の入力画像から決定され得る。間取図が、少なくとも部分的に、部屋分類および壁分類に基づいて、屋内場面内の部屋の総数または部屋のサイズを制約せずに、決定され得る。

Description

本願は、コンピューティング、学習ネットワーク構成、および接続されたモバイルコンピューティングシステム、方法、および構成に関し、より具体的には、仮想および／または拡張現実動作のために利用され得る、少なくとも１つのウェアラブルコンポーネントを特徴とする、モバイルコンピューティングシステム、方法、および構成に関する。

コンピュータは、ヒューマンユーザインターフェースを制御し、ユーザによって知覚されるにつれて、ＸＲ環境の一部または全部がコンピュータによって生成される、クロスリアリティ（ＸＲまたはクロスリアリティ）環境を作成し得る。これらのＸＲ環境は、ＸＲ環境の一部または全部が、部分的に、環境を説明するデータを使用して、コンピュータによって生成され得る、仮想現実（ＶＲ）、拡張現実（ＡＲ）、および複合現実（ＭＲ）環境であり得る。本データは、例えば、ユーザが、物理的世界の一部として、感知または知覚し、仮想オブジェクトと相互作用し得るようにレンダリングされ得る、仮想オブジェクトを説明し得る。ユーザは、例えば、頭部搭載型ディスプレイデバイス等のユーザインターフェースデバイスを通してレンダリングおよび提示されているデータの結果として、これらの仮想オブジェクトを体験し得る。データは、ユーザに見えるように表示され得る、またはユーザに聞こえるように再生される、オーディオを制御し得る、または触知的（または触覚的）インターフェースを制御し、ユーザが、仮想オブジェクトを感じるにつれて、ユーザが感知または知覚する、タッチ感覚を体験することを可能にし得る。

ＸＲシステムは、科学的可視化、医療訓練、工作、およびプロトタイプ化、遠隔操作およびテレプレゼンス、および個人的娯楽の分野に及ぶ、多くの用途のために有用であり得る。ＡＲおよびＭＲは、ＶＲと対照的に、物理的世界の実オブジェクトと関連して、１つまたはそれを上回る仮想オブジェクトを含む。実オブジェクトと相互作用する、仮想オブジェクトの体験は、ＸＲシステムを使用する際、ユーザの享受を大幅に向上させ、また、物理的世界が改変され得る様子についての現実的かつ容易に理解可能な情報を提示する、種々の用途のための可能性を広げる。

部屋レイアウトまたは間取図を推定することは、場面再構築、屋内位置特定、および拡張現実等の広範囲のタスクに対する用途を伴う、基本屋内場面理解問題である。画像からの部屋レイアウトまたは間取図推定は、屋内場面の２Ｄボックス状表現の輪郭を描くことを狙いとし、様々なコンピュータビジョンタスクのための重要なステップであって、近年、いくつかの用途から大きな注目を集めている。これらは、屋内ナビゲーション、場面再構築／レンダリング、拡張現実等を含む。部屋レイアウト推定の本分野は、主に、ローカル色、テクスチャ、および縁キュー等のボトムアップ画像特徴、その後、消失点検出を使用することに焦点が当てられている。別個の後処理段階が、特徴誤対応をクリーンアップし、構造化ＳＶＭ（サポートベクトルマシン）または条件付き確率場（ＣＲＦ）を用いて、大規模な部屋レイアウト仮説の集合を生成／ランク付けするために使用される。

原理上、部屋レイアウトの３Ｄ再構築物は、２Ｄレイアウトおよび消失点の知識を用いて取得されることができる（正確な縮尺で）。しかしながら、実践では、最終レイアウト予測の正確度は、多くの場合、主として、抽出された低レベル画像特徴の品質に依存し、これは、本質的には、ローカル雑音、場面クラッタ、およびオクルージョンを被りやすい。単一ビューＲＧＢ画像を検討すると、レイアウトまたは間取図推定タスクは、壁－天井、壁－床、および壁－壁境界の輪郭を描くことである。既存の研究は、最大で５つの平面（例えば、天井、床、左壁、正面壁、および右壁）を備える、部屋レイアウトの特殊な場合のみを標的化する。

従来の深層学習ベースの方法は、典型的には、２Ｄのピクセル毎の縁マップまたはセグメント化マップ（例えば、天井、床、左、正面、および右）を予測し、その後、古典的消失点／線サンプリング方法が続き、部屋レイアウトを生産する。しかしながら、これらの方法のいずれも、直接、非ボックス形状の部屋レイアウトトポロジに適用され得ない。例えば、より多くのセグメント化標識が、３つを上回る壁を含有する部屋に関するレイアウトを生成するために、フレームワーク内で定義される必要がある。加えて、これらの方法は、３つの相互に直交する消失点の抽出の正確度に大きく依存し、これは、時として、紛らわしいテクスチャに起因して、失敗する。

これらの問題に対する既存のソリューションは、多くの場合、手動で工作された特徴および消失点検出に大きく依拠し、これは、クラッタの存在下では、失敗を受けやすい。雑然とした屋内場面（例えば、乱雑な教室）の空間レイアウトを推定するタスクを検討する。しかしながら、特に、大量のクラッタの存在下でレイアウトを推測することは、困難なタスクである。屋内場面は、高クラス内分散度を有し、部屋の角等のレイアウトを推測するために要求される重要な情報は、多くの場合、オクルードされ、間接的に推測されなければならない。いくつかの従来のアプローチが、深度情報（例えば、ＲＧＢＤフレームまたは赤緑青深度）またはそこから深度が推測され得る単眼画像のシーケンスのいずれかを前提として、これらの問題に対処する。これらの従来のアプローチは、多くの場合、明示的または暗示的に、例えば、消費者グレードコンピューティングデバイスを使用して処理され得る、走査の数、推定されるべきレイアウト内の少数の部屋等、限界を課し、せいぜい、これらの従来のアプローチを非実践的にする程度である。ある他の従来のアプローチは、入力を、最も一般的場合、すなわち、単一ＲＧＢ画像に制限する。本問題に対するいくつかの以前のアプローチは、通常、２段階プロセスに従う。最初に、一連のレイアウト仮説が、生成される。次に、これらが、ランク付けされ、最終レイアウトに達する。第１の段階は、通常、多くの場合、縁等の低レベル特徴によって誘導される、場面内の３つの直交する消失点を検出することによって遂行される。例えば、主要となっている研究は、消失点を推測し、次いで、構造化ＳＶＭ（サポートベクトルマシン）を使用して、それらをランク付けすることによって、レイアウト候補を生成するものである。残念ながら、本第１の段階は、クラッタを著しく被りやすく、多くの場合、十分に正確な仮説を生産することに失敗する。後続研究は、本プロセスの第２の段階（例えば、レイアウトをランク付けする）に対する改良を提案しているが、それらは、候補生成の脆弱性によって損なわれている。

最近、意味論セグメント化のための深層畳み込みニューラルネットワーク（ＣＮＮ）における急速な進歩に伴って、研究者は、部屋レイアウト推定のためにそのようなＣＮＮを使用することの可能性を模索している。例えば、いくつかの以前のアプローチは、最初に、完全畳み込みネットワーク（ＦＣＮ）モデルを訓練し、手動で工作される低レベル画像特徴抽出に取って代わる、「有益な縁マップ」を生産するものである。予測される縁マップは、次いで、レイアウト仮説生成およびランク付けのために、消失線をサンプリングするために使用される。ある他の以前のアプローチは、ＦＣＮを使用して、左壁、正面壁、右壁、天井、および接地面等の意味論表面標識を学習する。次いで、接続成分および穴埋め技法が、ＦＣＮの未加工ピクセルあたり予測を精緻化するために使用され、その後、古典的消失点／線サンプリング方法が続き、部屋レイアウトを生産する。しかしながら、改良された結果にもかかわらず、これらの方法は、ＣＮＮを使用して、新しい「低レベル」特徴の集合を生成し、ＣＮＮのエンドツーエンド学習能力を利用することに達しない。換言すると、未加工ＣＮＮ予測は、最終レイアウトを生産するために、後に、高価な仮説試験段階によって処理される必要がある。これは、例えば、パイプラインが、各フレームを処理するために、３０秒かからせ、実践的用途において完全に役に立たないとはいかないまでも、非実践的である。

ある他の以前のアプローチは、完全畳み込みニューラルネットワークを採用する。これらの以前のアプローチは、既存の汎用意味論セグメント化方法の直接適用を妨害する、レイアウト推定に一意の制約に悩まされる。例えば、３つの潜在的壁クラスは、任意の特性外観を保有しない。複数のサブオブジェクトが、その境界内に含有され得、したがって、ＣＲＦ（条件付き確率場）方法によって行われる色一貫性仮定は、有効ではない。さらに、意味論レイアウト標識を用いることで、固有の曖昧性が存在する。これは、標識が一意に定義される、従来的意味論セグメント化問題と対照的である。

さらに、実世界屋内環境を捕捉することと関連付けられる記号論理学的難点と結び付けられる、意味論セグメント化およびオブジェクト認識を伴う、間取図推定は、必然的に、付随の３Ｄ点群／メッシュ表現とともに、注釈が付けられた間取図を伴う、屋内環境のデータセットの不足を反映している。さらに、単一原点のそのようなデータセットが、自然な状態で良好に性能を発揮することが可能な深層ネットワークを訓練するために必要とされる、多数かつ種々の異なるレイアウトタイプを伴う、サンプルを保有することが可能となることは、著しく可能性が低い。さらに、多くの意味論セグメント化技法は、最先端サーバによって提供され得るものよりもはるかに多くの算出リソースを要求し、したがって、種々の容量のコンピューティングデバイスへの広適用および展開を欠いている。高算出リソース要件に加え、これらの従来の意味論セグメント化技法は、多くの場合、入力データの次元がより高くなるにつれて、不良性能を呈する。

間取図推定における別の課題は、例えば、ユーザの周囲の３次元世界に関連し得る、コンピュータビジョンおよび／またはオブジェクト認識課題等において、決定をユーザに有用および／または重要なものにする際の種々の動作可能に結合されるセンサによって捕捉されたデータの利用に関する。グローバルグラフ最適化技法を使用する、「ＦｌｏｏｒＳＰ」として知られるもの等の方法および構成では、問題の複雑性は、ひいては、最適化されるべきグラフのサイズに比例する、部屋の数および部屋あたりの壁の数の観点からの入力のサイズに伴ってそれほどスケール変換されない。さらに、クラスタ化は、クラスタの数に関する事前知識を要求する、研究において、また、クラスタの数を体系的に決定する、アルゴリズムにおいては、深く調査されている。

場面理解および分析におけるさらに別の課題は、例えば、ユーザの周囲の３次元世界に関連し得る、コンピュータビジョンおよび／またはオブジェクト認識課題等において、決定をユーザに有用および／または重要なものにする際の種々の動作可能に結合されるセンサによって捕捉されたデータの利用に関する。多くの公的に入手可能なデータセットおよびライブラリは、場面理解および分析のための種々のモデルを訓練および検証する際と、１つまたはそれを上回る目印に基づいて、屋外環境のより小さい断片の再構築されたレイアウトをスティッチングすることによって、屋外環境の環境マップの構築とにおいて使用され得る。なお、そのようなデータセットおよびライブラリは、屋内環境のはるかに雑然とした性質は言うまでもなく、屋内環境に関して、せいぜい（全く存在しないわけではないにしても）、乏しい状態である。

したがって、従来のアプローチの少なくとも前述の欠点、課題、短所、および難点に対処するために、屋内場面の走査からの間取図の効率的生成のための改良された方法、システム、およびコンピュータプログラム製品の必要性が存在する。

いくつかの実施形態によると、屋内場面の間取図を生成するための方法が、説明される。これらの実施形態では、部屋の部屋分類および部屋に関する壁の壁分類が、屋内場面の入力画像から決定されてもよく、間取図は、少なくとも部分的に、部屋分類および壁分類に基づいて、屋内場面内の部屋の総数または部屋のサイズを制約せずに、生成されてもよい。

これらの実施形態のうちのいくつかでは、部屋分類および壁分類を決定するステップは、入力画像を識別するステップであって、入力画像は、屋内場面の３次元走査からの１つの画像または画像のシーケンスを備える、ステップと、入力画像に関する入力点群を決定するステップとを含んでもよい。

先行実施形態のうちのいくつかでは、部屋分類および壁分類を決定するために、入力点群のサブセットが、決定されてもよく、深層ネットワークは、少なくとも合成データセットを用いて訓練されてもよい。直前の先行実施形態のうちのいくつかでは、１つまたはそれを上回る部屋クラスタ標識が、深層ネットワークにおいて、サブセット内に表される１つまたはそれを上回る頂点に関して、壁クラスタ標識が、壁に関して生成され、部屋の部屋分類および壁の壁分類を決定してもよい。

これらの実施形態のうちのいくつかでは、ネスト化されたパーティション化が、点の集合上で実施され、少なくとも部分的に、屋内場面に関する距離メトリックに基づいて、点の集合を複数の重複ローカル領域に分割してもよく、ローカル特徴が、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するために、少なくとも、意味論特徴抽出を点の集合のネスト化されたパーティション化上で再帰的に実施することによって、屋内場面内の幾何学的構造を捕捉するように抽出されてもよい。

直前の先行実施形態のうちのいくつかでは、ローカル特徴は、より高レベルの特徴または表現に抽象化されてもよく、複数のローカル特徴が、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するために、複数の異なるスケールまたは分解能において適応的に加重されてもよい。

いくつかの実施形態では、複数の異なるスケールまたは分解能における複数のローカル特徴は、組み合わせられてもよく、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識は、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するために、少なくとも部分的に、距離メトリックに基づいて、屋内場面に関するメトリック空間に割り当てられてもよい。

いくつかの実施形態によると、プロセッサと、メモリとを有する、システムが、提供される。メモリは、プロセッサによって実行されると、プロセッサに、本明細書に説明される方法のいずれかを実施させる、命令を記憶する。

いくつかの実施形態によると、非一過性コンピュータ可読媒体が、提供される。非一過性コンピュータ可読媒体は、プロセッサによって実行されると、プロセッサに、本明細書に説明される方法のいずれかを実施させる、命令をその上に記憶する。

本開示のいくつかの実施形態の概要列挙

１．屋内場面の間取図を生成するための方法であって、部屋の部屋分類および部屋に関する壁の壁分類を屋内場面の入力画像から決定するステップと、少なくとも部分的に、部屋分類および壁分類に基づいて、間取図内の部屋の総数または部屋のサイズを制約せずに、間取図を決定するステップとを含む、方法。

２．部屋の部屋分類および壁の壁分類を決定するステップは、入力画像を識別するステップであって、入力画像は、屋内場面の３次元走査からの１つの画像または画像のシーケンスを備える、ステップと、入力画像に関する入力点群を決定するステップとを含む、請求項１に記載の方法。

３．部屋の部屋分類および壁の壁分類を決定するステップはさらに、入力点群のサブセットを識別するステップと、深層ネットワークを少なくとも合成データセットを用いて訓練するステップとを含む、請求項２に記載の方法。

４．部屋の部屋分類および壁の壁分類を決定するステップはさらに、深層ネットワークを使用する際、サブセット内に表される１つまたはそれを上回る頂点に関する１つまたはそれを上回る部屋クラスタ標識と、壁に関する壁クラスタ標識とを生成するステップとを含む、請求項３に記載の方法。

５．１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップは、少なくとも部分的に、屋内場面に関する距離メトリックに基づいて、ネスト化されたパーティション化を点の集合上で実施し、点の集合を複数の重複ローカル領域に分割するステップと、少なくとも、意味論特徴抽出を点の集合のネスト化されたパーティション化上で再帰的に実施することによって、屋内場面内の幾何学的構造を捕捉する、ローカル特徴を抽出するステップとを含む、請求項４に記載の方法。

６．１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップは、ローカル特徴をより高レベルの特徴または表現に抽象化するステップと、複数の異なるスケールまたは分解能における複数のローカル特徴に適応的に加重するステップとを含む、請求項５に記載の方法。

７．１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップは、複数の異なるスケールまたは分解能における複数のローカル特徴を組み合わせるステップと、少なくとも部分的に、距離メトリックに基づいて、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を屋内場面に関するメトリック空間に割り当てるステップとを含む、請求項６に記載の方法。

８．間取図を決定するステップは、少なくとも、部屋分類および壁分類を使用して、部屋に関する形状を生成するステップであって、部屋分類は、部屋に割り当てられるかまたはそれと関連付けられる部屋クラスタ標識を備え、壁分類は、部屋の１つまたはそれを上回る壁に割り当てられるかまたはそれと関連付けられる１つまたはそれを上回る壁クラスタ標識を備え、１つまたはそれを上回る壁は、壁を構成する、ステップと、少なくとも部分的に、形状に基づいて、少なくとも、グローバル座標系に対して推定される部屋周囲を集約または統合することによって、間取図を生成するステップであって、形状は、ＤｅｅｐＰｅｒｉｍｅｔｅｒタイプのポリゴンを備える、ステップとを含む、請求項１に記載の方法。

９．形状を生成するステップは、深層推定を屋内場面の入力画像のＲＧＢ（赤緑青）フレーム上で実施するステップと、少なくとも、マルチビュー深度推定ネットワークおよびセグメント化モジュールを使用することによって、深度マップおよび壁セグメント化マスクを生成するステップであって、セグメント化モジュールは、少なくとも部分的に、ＰＳＰＮｅｔ（ピラミッド場面解析ネットワーク）およびＲｅｓＮｅｔ（残差ネットワーク）に基づく、ステップとを含む、請求項８に記載の方法。

１０．形状を生成するステップはさらに、少なくとも、マーチングキューブアルゴリズムを使用して、１つまたはそれを上回るマスク深度画像と姿勢軌道を融合させることによって、壁点群を抽出するステップと、少なくとも、深層セグメント化ネットワークを訓練することによって、壁点群に対応する、深度予測を単離するステップと、深度予測を３次元（３Ｄ）点群に投影するステップとを含む、請求項９に記載の方法。

１１．形状を生成するステップはさらに、少なくとも、深層セグメント化ネットワークにおいて、同一平面インスタンスに属する、１つまたはそれを上回る点を検出することによって、３Ｄ点群を複数のクラスタにクラスタ化するステップと、複数のクラスタを、間取図に関する周囲レイアウトを形成する、平面の集合の中に平行移動させるステップとを含む、請求項１０に記載の方法。

１２．間取図を生成するステップは、部屋インスタンスおよび壁インスタンスを屋内環境の走査から識別するステップと、部屋インスタンスに関する閉鎖された周囲を推定するステップとを含む、請求項８に記載の方法。

１３．間取図を生成するステップはさらに、少なくとも、投票アーキテクチャを使用することによって、クラスタの数を予測するステップと、少なくとも、１つまたはそれを上回るスケールにおける複数の特徴を算出する、部屋または壁回帰を実施することによって、複数の特徴を抽出するステップとを含む、請求項１２に記載の方法。

１４．間取図を生成するステップはさらに、少なくとも部分的に、１つまたはそれを上回るスケールにおける複数の特徴に基づいて、入力点群のサブサンプリングされたバージョンを決定するステップと、入力点群のサブサンプリングされたバージョン内のシード点によって投じられる１つまたはそれを上回る投票を決定するステップとを含む、請求項１３に記載の方法。

１５．間取図を生成するステップはさらに、投票クラスタ化を１つまたはそれを上回る投票上で実施するステップと、間取図に関する部屋周囲を推定するステップとを含む、請求項１４に記載の方法。

１６．投票クラスタ化を実施するステップは、予測される投票の集合を識別するステップと、少なくとも、入力点群のサブサンプリングされたバージョン内のシード点に関するクラスタ標識を生成することによって、１つまたはそれを上回る部屋インスタンスおよび１つまたはそれを上回る壁インスタンスを決定するステップとを含む、請求項１５に記載の方法。

１７．投票クラスタ化を実施するステップはさらに、少なくとも、予測される部屋投票を１つまたはそれを上回る部屋投票の中に連結することによって、および予測される壁投票を１つまたはそれを上回る壁投票の中に連結することによって、クラスタ化入力を準備するステップと、密度ベースの空間クラスタ化を１つまたはそれを上回る部屋投票および１つまたはそれを上回る壁投票上で実施し、部屋分類を部屋に、および壁分類を壁に割り当てるステップとを含む、請求項１６に記載の方法。

１８．投票クラスタ化を実施するステップはさらに、少なくとも、部屋分類および壁分類を予測される投票の集合から入力点群のサブサンプリングされたバージョン内の１つまたはそれを上回るシード点に逆追跡することによって、割当を生成するステップと、少なくとも、積集合演算を部屋点の集合および壁点の集合上で実施することによって、部屋に関する壁点のリストを決定するステップとを含む、請求項１７に記載の方法。

１９．間取図に関する部屋周囲を推定するステップは、部屋に関する部屋点および壁点を標識を用いて識別するステップと、ＤｅｅｐＰｅｒｉｍｅｔｅｒモジュールを使用して、個々の部屋周囲を決定するステップと、部屋に関する部屋点または壁点内の点を平面に投影するステップとを含む、請求項１５に記載の方法。

２０．間取図に関する部屋周囲を推定するステップは、壁点に関する２次元（２Ｄ）線分を予測するステップを含む、請求項１９に記載の方法。

２１．間取図に関する部屋周囲を推定するステップは、少なくとも部分的に、基準に基づいて、１つまたはそれを上回る２Ｄ線分を除去するステップを含む、請求項１９に記載の方法。

２２．間取図に関する部屋周囲を推定するステップは、少なくとも２Ｄ線分を使用することによって、間取図に関する部屋周囲として、複数のノードに沿って、閉鎖された経路を形成するステップを含む、請求項２０に記載の方法。

２３．屋内場面の間取図を生成するためのシステムであって、プロセッサと、プロセッサに動作可能に結合され、プロセッサによって実行されると、プロセッサに、ある行為のセットを実施させる、命令のシーケンスを記憶する、メモリであって、行為のセットは、部屋の部屋分類および部屋に関する壁の壁分類を屋内場面の入力画像から決定するステップと、少なくとも部分的に、部屋分類および壁分類に基づいて、間取図内の部屋の総数または部屋のサイズを制約せずに、間取図を決定するステップとを含む、メモリとを備える、システム。

２４．プロセッサによって実行されると、プロセッサに、部屋の部屋分類および壁の壁分類を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、入力画像を識別するステップであって、入力画像は、屋内場面の３次元走査からの１つの画像または画像のシーケンスを備える、ステップと、入力画像に関する入力点群を決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項２３に記載のシステム。

２５．プロセッサによって実行されると、プロセッサに、部屋の部屋分類および壁の壁分類を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、入力点群のサブセットを識別するステップと、深層ネットワークを少なくとも合成データセットを用いて訓練するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項２４に記載のシステム。

２６．プロセッサによって実行されると、プロセッサに、部屋の部屋分類および壁の壁分類を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、深層ネットワークを使用する際、サブセット内に表される１つまたはそれを上回る頂点に関する１つまたはそれを上回る部屋クラスタ標識と、壁に関する壁クラスタ標識とを生成するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項２５に記載のシステム。

２７．プロセッサによって実行されると、プロセッサに、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも部分的に、屋内場面に関する距離メトリックに基づいて、ネスト化されたパーティション化を点の集合上で実施し、点の集合を複数の重複ローカル領域に分割するステップと、少なくとも、意味論特徴抽出を点の集合のネスト化されたパーティション化上で再帰的に実施することによって、屋内場面内の幾何学的構造を捕捉する、ローカル特徴を抽出するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項２６に記載のシステム。

２８．プロセッサによって実行されると、プロセッサに、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、ローカル特徴をより高レベルの特徴または表現に抽象化するステップと、複数の異なるスケールまたは分解能における複数のローカル特徴に適応的に加重するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項２７に記載のシステム。

２９．プロセッサによって実行されると、プロセッサに、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、複数の異なるスケールまたは分解能における複数のローカル特徴を組み合わせるステップと、少なくとも部分的に、距離メトリックに基づいて、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を屋内場面に関するメトリック空間に割り当てるステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項２８に記載のシステム。

３０．プロセッサによって実行されると、プロセッサに、間取図を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、部屋分類および壁分類を使用して、部屋に関する形状を生成するステップであって、部屋分類は、部屋に割り当てられるかまたはそれと関連付けられる部屋クラスタ標識を備え、壁分類は、部屋の１つまたはそれを上回る壁に割り当てられるかまたはそれと関連付けられる１つまたはそれを上回る壁クラスタ標識を備え、１つまたはそれを上回る壁は、壁を構成する、ステップと、少なくとも部分的に、形状に基づいて、少なくとも、グローバル座標系に対して推定される部屋周囲を集約または統合することによって、間取図を生成するステップであって、形状は、ＤｅｅｐＰｅｒｉｍｅｔｅｒタイプのポリゴンを備える、ステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項２３に記載のシステム。

３１．プロセッサによって実行されると、プロセッサに、形状を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、深層推定を屋内場面の入力画像のＲＧＢ（赤緑青）フレーム上で実施するステップと、少なくとも、マルチビュー深度推定ネットワークおよびセグメント化モジュールを使用することによって、深度マップおよび壁セグメント化マスクを生成するステップであって、セグメント化モジュールは、少なくとも部分的に、ＰＳＰＮｅｔ（ピラミッド場面解析ネットワーク）およびＲｅｓＮｅｔ（残差ネットワーク）に基づく、ステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項３０に記載のシステム。

３２．プロセッサによって実行されると、プロセッサに、形状を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、マーチングキューブアルゴリズムを使用して、１つまたはそれを上回るマスク深度画像と姿勢軌道を融合させることによって、壁点群を抽出するステップと、少なくとも、深層セグメント化ネットワークを訓練することによって、壁点群に対応する、深度予測を単離するステップと、深度予測を３次元（３Ｄ）点群に投影するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項３１に記載のシステム。

３３．プロセッサによって実行されると、プロセッサに、形状を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、深層セグメント化ネットワークにおいて、同一平面インスタンスに属する、１つまたはそれを上回る点を検出することによって、３Ｄ点群を複数のクラスタにクラスタ化するステップと、複数のクラスタを、間取図に関する周囲レイアウトを形成する、平面の集合の中に平行移動させるステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項３２に記載のシステム。

３４．プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、部屋インスタンスおよび壁インスタンスを屋内環境の走査から識別するステップと、部屋インスタンスに関する閉鎖された周囲を推定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項３０に記載のシステム。

３５．プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、投票アーキテクチャを使用することによって、クラスタの数を予測するステップと、少なくとも、１つまたはそれを上回るスケールにおける複数の特徴を算出する、部屋または壁回帰を実施することによって、複数の特徴を抽出するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項３４に記載のシステム。

３６．プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも部分的に、１つまたはそれを上回るスケールにおける複数の特徴に基づいて、入力点群のサブサンプリングされたバージョンを決定するステップと、入力点群のサブサンプリングされたバージョン内のシード点によって投じられる１つまたはそれを上回る投票を決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項３５に記載のシステム。

３７．プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、投票クラスタ化を１つまたはそれを上回る投票上で実施するステップと、間取図に関する部屋周囲を推定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項３６に記載のシステム。

３８．プロセッサによって実行されると、プロセッサに、投票クラスタ化を実施するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、予測される投票の集合を識別するステップと、少なくとも、入力点群のサブサンプリングされたバージョン内のシード点に関するクラスタ標識を生成することによって、１つまたはそれを上回る部屋インスタンスおよび１つまたはそれを上回る壁インスタンスを決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項３７に記載のシステム。

３９．プロセッサによって実行されると、プロセッサに、投票クラスタ化を実施するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、予測される部屋投票を１つまたはそれを上回る部屋投票の中に連結することによって、および予測される壁投票を１つまたはそれを上回る壁投票の中に連結することによって、クラスタ化入力を準備するステップと、密度ベースの空間クラスタ化を１つまたはそれを上回る部屋投票および１つまたはそれを上回る壁投票上で実施し、部屋分類を部屋に、および壁分類を壁に割り当てるステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項３８に記載のシステム。

４０．プロセッサによって実行されると、プロセッサに、投票クラスタ化を実施するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、部屋分類および壁分類を予測される投票の集合から入力点群のサブサンプリングされたバージョン内の１つまたはそれを上回るシード点に逆追跡することによって、割当を生成するステップと、少なくとも、積集合演算を部屋点の集合および壁点の集合上で実施することによって、部屋に関する壁点のリストを決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項３９に記載のシステム。

４１．プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、部屋に関する部屋点および壁点を標識を用いて識別するステップと、ＤｅｅｐＰｅｒｉｍｅｔｅｒモジュールを使用して、個々の部屋周囲を決定するステップと、部屋に関する部屋点または壁点内の点を平面に投影するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項３７に記載のシステム。

４２．プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、壁点に関する２次元（２Ｄ）線分を予測するステップをさらに含む、行為のセットを実施させる、命令を備える、請求項４１に記載のシステム。

４３．プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも部分的に、基準に基づいて、１つまたはそれを上回る２Ｄ線分を除去するステップをさらに含む、行為のセットを実施させる、命令を備える、請求項４１に記載のシステム。

４４．プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも２Ｄ線分を使用することによって、間取図に関する部屋周囲として、複数のノードに沿って、閉鎖された経路を形成するステップをさらに含む、行為のセットを実施させる、命令を備える、請求項４２に記載のシステム。

４５．屋内場面の間取図を生成するためのウェアラブルエクステンデッドリアリティデバイスであって、デジタルコンテンツをユーザの眼に提示するためのマイクロディスプレイまたはマイクロプロジェクタのアレイを有する、光学システムと、光学システムに結合される、プロセッサと、プロセッサに動作可能に結合され、プロセッサによって実行されると、プロセッサに、ある行為のセットを実施させる、命令のシーケンスを記憶する、メモリであって、行為のセットは、部屋の部屋分類および部屋に関する壁の壁分類を屋内場面の入力画像から決定するステップと、少なくとも部分的に、部屋分類および壁分類に基づいて、間取図内の部屋の総数または部屋のサイズを制約せずに、間取図を決定するステップとを含む、メモリとを備える、ウェアラブルエクステンデッドリアリティデバイス。

４６．プロセッサによって実行されると、プロセッサに、部屋の部屋分類および壁の壁分類を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、入力画像を識別するステップであって、入力画像は、屋内場面の３次元走査からの１つの画像または画像のシーケンスを備える、ステップと、入力画像に関する入力点群を決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項４５に記載のウェアラブルエクステンデッドリアリティデバイス。

４７．プロセッサによって実行されると、プロセッサに、部屋の部屋分類および壁の壁分類を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、入力点群のサブセットを識別するステップと、深層ネットワークを少なくとも合成データセットを用いて訓練するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項４６に記載のウェアラブルエクステンデッドリアリティデバイス。

４８．プロセッサによって実行されると、プロセッサに、部屋の部屋分類および壁の壁分類を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、深層ネットワークを使用する際、サブセット内に表される１つまたはそれを上回る頂点に関する１つまたはそれを上回る部屋クラスタ標識と、壁に関する壁クラスタ標識とを生成するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項４７に記載のウェアラブルエクステンデッドリアリティデバイス。

４９．プロセッサによって実行されると、プロセッサに、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも部分的に、屋内場面に関する距離メトリックに基づいて、ネスト化されたパーティション化を点の集合上で実施し、点の集合を複数の重複ローカル領域に分割するステップと、少なくとも、意味論特徴抽出を点の集合のネスト化されたパーティション化上で再帰的に実施することによって、屋内場面内の幾何学的構造を捕捉する、ローカル特徴を抽出するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項４８に記載のウェアラブルエクステンデッドリアリティデバイス。

５０．プロセッサによって実行されると、プロセッサに、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、ローカル特徴をより高レベルの特徴または表現に抽象化するステップと、複数の異なるスケールまたは分解能における複数のローカル特徴に適応的に加重するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項４９に記載のウェアラブルエクステンデッドリアリティデバイス。

５１．プロセッサによって実行されると、プロセッサに、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、複数の異なるスケールまたは分解能における複数のローカル特徴を組み合わせるステップと、少なくとも部分的に、距離メトリックに基づいて、１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を屋内場面に関するメトリック空間に割り当てるステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項５０に記載のウェアラブルエクステンデッドリアリティデバイス。

５２．プロセッサによって実行されると、プロセッサに、間取図を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、部屋分類および壁分類を使用して、部屋に関する形状を生成するステップであって、部屋分類は、部屋に割り当てられるかまたはそれと関連付けられる部屋クラスタ標識を備え、壁分類は、部屋の１つまたはそれを上回る壁に割り当てられるかまたはそれと関連付けられる１つまたはそれを上回る壁クラスタ標識を備え、１つまたはそれを上回る壁は、壁を構成する、ステップと、少なくとも部分的に、形状に基づいて、少なくとも、グローバル座標系に対して推定される部屋周囲を集約または統合することによって、間取図を生成するステップであって、形状は、ＤｅｅｐＰｅｒｉｍｅｔｅｒタイプのポリゴンを備える、ステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項４５に記載のウェアラブルエクステンデッドリアリティデバイス。

５３．プロセッサによって実行されると、プロセッサに、形状を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、深層推定を屋内場面の入力画像のＲＧＢ（赤緑青）フレーム上で実施するステップと、少なくとも、マルチビュー深度推定ネットワークおよびセグメント化モジュールを使用することによって、深度マップおよび壁セグメント化マスクを生成するステップであって、セグメント化モジュールは、少なくとも部分的に、ＰＳＰＮｅｔ（ピラミッド場面解析ネットワーク）およびＲｅｓＮｅｔ（残差ネットワーク）に基づく、ステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項５２に記載のウェアラブルエクステンデッドリアリティデバイス。

５４．プロセッサによって実行されると、プロセッサに、形状を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、マーチングキューブアルゴリズムを使用して、１つまたはそれを上回るマスク深度画像と姿勢軌道を融合させることによって、壁点群を抽出するステップと、少なくとも、深層セグメント化ネットワークを訓練することによって、壁点群に対応する、深度予測を単離するステップと、深度予測を３次元（３Ｄ）点群に投影するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項５３に記載のウェアラブルエクステンデッドリアリティデバイス。

５５．プロセッサによって実行されると、プロセッサに、形状を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、深層セグメント化ネットワークにおいて、同一平面インスタンスに属する、１つまたはそれを上回る点を検出することによって、３Ｄ点群を複数のクラスタにクラスタ化するステップと、複数のクラスタを、間取図に関する周囲レイアウトを形成する、平面の集合の中に平行移動させるステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項５４に記載のウェアラブルエクステンデッドリアリティデバイス。

５６．プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、部屋インスタンスおよび壁インスタンスを屋内環境の走査から識別するステップと、部屋インスタンスに関する閉鎖された周囲を推定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項５２に記載のウェアラブルエクステンデッドリアリティデバイス。

５７．プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、投票アーキテクチャを使用することによって、クラスタの数を予測するステップと、少なくとも、１つまたはそれを上回るスケールにおける複数の特徴を算出する、部屋または壁回帰を実施することによって、複数の特徴を抽出するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項５６に記載のウェアラブルエクステンデッドリアリティデバイス。

５８．プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも部分的に、１つまたはそれを上回るスケールにおける複数の特徴に基づいて、入力点群のサブサンプリングされたバージョンを決定するステップと、入力点群のサブサンプリングされたバージョン内のシード点によって投じられる１つまたはそれを上回る投票を決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項５７に記載のウェアラブルエクステンデッドリアリティデバイス。

５９．プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、投票クラスタ化を１つまたはそれを上回る投票上で実施するステップと、間取図に関する部屋周囲を推定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項５８に記載のウェアラブルエクステンデッドリアリティデバイス。

６０．プロセッサによって実行されると、プロセッサに、投票クラスタ化を実施するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、予測される投票の集合を識別するステップと、少なくとも、入力点群のサブサンプリングされたバージョン内のシード点に関するクラスタ標識を生成することによって、１つまたはそれを上回る部屋インスタンスおよび１つまたはそれを上回る壁インスタンスを決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項５９に記載のウェアラブルエクステンデッドリアリティデバイス。

６１．プロセッサによって実行されると、プロセッサに、投票クラスタ化を実施するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、予測される部屋投票を１つまたはそれを上回る部屋投票の中に連結することによって、および予測される壁投票を１つまたはそれを上回る壁投票の中に連結することによって、クラスタ化入力を準備するステップと、密度ベースの空間クラスタ化を１つまたはそれを上回る部屋投票および１つまたはそれを上回る壁投票上で実施し、部屋分類を部屋に、および壁分類を壁に割り当てるステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項６０に記載のウェアラブルエクステンデッドリアリティデバイス。

６２．プロセッサによって実行されると、プロセッサに、投票クラスタ化を実施するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、部屋分類および壁分類を予測される投票の集合から入力点群のサブサンプリングされたバージョン内の１つまたはそれを上回るシード点に逆追跡することによって、割当を生成するステップと、少なくとも、積集合演算を部屋点の集合および壁点の集合上で実施することによって、部屋に関する壁点のリストを決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項６１に記載のウェアラブルエクステンデッドリアリティデバイス。

６３．プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、部屋に関する部屋点および壁点を標識を用いて識別するステップと、ＤｅｅｐＰｅｒｉｍｅｔｅｒモジュールを使用して、個々の部屋周囲を決定するステップと、部屋に関する部屋点または壁点内の点を平面に投影するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項５９に記載のウェアラブルエクステンデッドリアリティデバイス。

６４．プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、壁点に関する２次元（２Ｄ）線分を予測するステップをさらに含む、行為のセットを実施させる、命令を備える、請求項６３に記載のウェアラブルエクステンデッドリアリティデバイス。

６５．プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも部分的に、基準に基づいて、１つまたはそれを上回る２Ｄ線分を除去するステップをさらに含む、行為のセットを実施させる、命令を備える、請求項６３に記載のウェアラブルエクステンデッドリアリティデバイス。

６６．プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも２Ｄ線分を使用することによって、間取図に関する部屋周囲として、複数のノードに沿って、閉鎖された経路を形成するステップをさらに含む、行為のセットを実施させる、命令を備える、請求項６４に記載のウェアラブルエクステンデッドリアリティデバイス。

前述の説明は、例証として提供され、限定することを意図するものではない。

添付の図面は、縮尺通りに描かれることを意図していない。図面では、種々の図に図示される、各同じまたはほぼ同じコンポーネントは、同様の数字で表される。明確性の目的のために、全てのコンポーネントが、全ての図面において標識されているわけではない。

図１は、いくつかの実施形態による、簡略化された拡張現実（ＡＲ）場面の実施例を図示する、スケッチである。

図２は、いくつかの実施形態による、ＸＲシステムの例示的ユースケースを示す、例示的簡略化されたＡＲ場面のスケッチである。

図３は、いくつかの実施形態による、物理的世界と相互作用するＡＲコンテンツの体験をユーザに提供するように構成される、ＡＲシステム内の単一ユーザのためのデータフローを図示する、概略図である。

図４は、いくつかの実施形態による、単一ユーザのための仮想コンテンツを表示する、例示的ＡＲディスプレイシステムを図示する、概略図である。

図５Ａは、いくつかの実施形態による、ユーザが物理的世界環境を通して移動するにつれてＡＲコンテンツをレンダリングする、ＡＲディスプレイシステムを装着しているユーザを図示する、概略図である。

図５Ｂは、いくつかの実施形態による、視認光学系アセンブリおよび付帯コンポーネントを図示する、概略図である。

図６Ａは、いくつかの実施形態による、世界再構築システムを使用するＡＲシステムを図示する、概略図である。

図６Ｂは、いくつかの実施形態による、パス可能世界のモデルを維持する、ＡＲシステムのコンポーネントを図示する、概略図である。

図７は、物理的世界を通した経路をトラバースするデバイスによって形成される、追跡マップの概略図である。

図８は、いくつかの実施形態による、仮想コンテンツを知覚する、クロスリアリティ（ＸＲ）システムのユーザを図示する、概略図である。図８は、いくつかの実施形態による、仮想コンテンツを知覚する、クロスリアリティ（ＸＲ）システムのユーザを図示する、概略図である。

図９は、いくつかの実施形態による、座標系間で変換する、図８のＸＲシステムの第１のＸＲデバイスのコンポーネントのブロック図である。図９は、いくつかの実施形態による、座標系間で変換する、図８のＸＲシステムの第１のＸＲデバイスのコンポーネントのブロック図である。図９は、いくつかの実施形態による、座標系間で変換する、図８のＸＲシステムの第１のＸＲデバイスのコンポーネントのブロック図である。図９は、いくつかの実施形態による、座標系間で変換する、図８のＸＲシステムの第１のＸＲデバイスのコンポーネントのブロック図である。

図１０は、１つまたはそれを上回る実施形態における、改良された安定性およびねじれに対する向上された能力を提供する、２つの対向するつるのアームと、ねじれバンドとを備える、例示的アイウェアデバイスの上面図を図示する。

図１１Ａは、１つまたはそれを上回る実施形態における、マイクロプロジェクタのアレイの例示的構成と、マイクロプロジェクタのアレイと光学システムの結合とを図示する。

図１１Ｂは、１つまたはそれを上回る実施形態における、ウェアラブルＸＲデバイスの概略表現のいくつかの例示的コンポーネントの上面図を図示する。

図１１Ｃは、１つまたはそれを上回る実施形態における、ウェアラブルＸＲデバイスの概略表現の例示的実施形態を図示する。

図１２Ａは、１つまたはそれを上回る実施形態における、２Ｄおよび／または３Ｄ画像シーケンスの時空間知覚に関する４次元（４Ｄ）時間的・空間的（または時空間）畳み込みニューラルネットワークのための例示的アーキテクチャを図示する。

図１２Ｂは、１つまたはそれを上回る実施形態における、２Ｄおよび／または３Ｄ画像シーケンスの時空間知覚に関する４次元（４Ｄ）時間的・空間的（または時空間）畳み込みニューラルネットワークのための別の例示的アーキテクチャを図示する。

図１２Ｃは、１つまたはそれを上回る実施形態における、点群内の３Ｄオブジェクト検出のための例示的アーキテクチャを図示する。

図１２Ｄは、１つまたはそれを上回る実施形態における、３次元（３Ｄ）境界ボックスを入力点群から生成する簡略化された実施例を図示する。

図１２Ｅは、１つまたはそれを上回る実施形態における、修正ＰｏｉｎｔＮｅｔ＋＋のための例示的アーキテクチャを図示する。

図１３Ａは、１つまたはそれを上回る実施形態における、いくつかの例示的データ点への最小二乗法の例示的適用を図示する。

図１３Ｂは、１つまたはそれを上回る実施形態における、場所決定タスクの例示的幾何学形状を図示する。

図１３Ｃは、いくつかの実施形態における、Ｐ２Ｐタスクの例示的幾何学形状を図示する。

図１３Ｄは、いくつかの実施形態における、Ｐ３Ｐタスクの例示的幾何学形状を図示する。

図１３Ｅ－（ａ）－１３Ｅ－（ｃ）は、いくつかの実施形態における、Ｐ３Ｐタスクに対するいくつかの例示的解を図示する。

図１３Ｆ－（ａ）－１３Ｆ－（ｃ）は、いくつかの実施形態における、Ｐ４Ｐタスクの実施例を図示する。

図１３Ｇは、いくつかの実施形態における、例示的Ｐ５Ｐタスクを図示する。

図１４Ａは、いくつかの実施形態における、ＭａｓｋＲＣＮＮの簡略化された概略実施例を図示する。

図１４Ｂは、いくつかの実施形態における、例示的ＲｏＩＡｌｉｇｎ（着目領域整合）を図示する。

図１４Ｃは、いくつかの実施形態における、ＲｅｓＮｅｔおよびＦＰＮ（特徴ピラミッドネットワーク）バックボーンを伴う、例示的ＦａｓｔｅｒＲ－ＣＮＮヘッドアーキテクチャを図示する。

図１４Ｄは、いくつかの実施形態における、例示的ＰＳＰＮｅｔアーキテクチャを図示する。

図１４Ｅは、いくつかの実施形態における、補助損失を伴う、例示的ＲｅｓＮｅｔを図示する。

図１４Ｆは、いくつかの実施形態における、３×３受容野を有する、１－膨張畳み込みの簡略化された実施例を図示する。

図１４Ｇは、いくつかの実施形態における、図７Ｂにおける１－膨張畳み込みから生産され、７×７受容野を有する、２－膨張畳み込みの簡略化された実施例を図示する。

図１４Ｈは、いくつかの実施形態における、図７Ｃにおける２－膨張畳み込みから生産され、１１×１１受容野を有する、３－膨張畳み込みの簡略化された実施例を図示する。

図１４Ｉは、いくつかの実施形態における、図７Ｄにおける２－膨張畳み込みから生産され、１５×１５受容野を有する、４－膨張畳み込みの簡略化された実施例を図示する。

図１４Ｊは、いくつかの実施形態における、周囲推定のための例示的パイプラインを図示する。

図１４Ｋは、いくつかの実施形態における、周囲推定のための別の例示的パイプラインを図示する。

図１５Ａは、いくつかの実施形態における、場面の間取図を生成するための高レベルフロー図を図示する。

図１５Ｂは、いくつかの実施形態における、場面の間取図を生成するための図１５Ａに図示される高レベルフロー図についてのさらなる詳細を図示する。

図１５Ｃは、いくつかの実施形態における、場面の間取図を生成するための図１５Ａに図示される高レベルフロー図についてのさらなる詳細を図示する。

図１５Ｄは、いくつかの実施形態における、場面の間取図を生成するための図１５Ｂに図示されるフロー図についてのさらなる詳細を図示する。

図１５Ｅは、いくつかの実施形態における、場面の間取図を生成するための図１５Ｃに図示されるフロー図についてのさらなる詳細を図示する。

図１５Ｆは、いくつかの実施形態における、場面の間取図を生成するための図１５Ｃに図示されるフロー図についてのさらなる詳細を図示する。

図１５Ｇは、いくつかの実施形態における、場面の間取図を生成するための図１５Ｆに図示されるフロー図についてのさらなる詳細を図示する。

図１５Ｈは、いくつかの実施形態における、場面の間取図を生成するための図１５Ｆに図示されるフロー図についてのさらなる詳細を図示する。

図１６Ａ－Ｉは、１つまたはそれを上回る実施形態における、マイクロプロジェクタのアレイの例示的構成と、マイクロプロジェクタのアレイと光学システムの結合を図示する。図１６Ａ－Ｉは、１つまたはそれを上回る実施形態における、マイクロプロジェクタのアレイの例示的構成と、マイクロプロジェクタのアレイと光学システムの結合を図示する。図１６Ａ－Ｉは、１つまたはそれを上回る実施形態における、マイクロプロジェクタのアレイの例示的構成と、マイクロプロジェクタのアレイと光学システムの結合を図示する。図１６Ａ－Ｉは、１つまたはそれを上回る実施形態における、マイクロプロジェクタのアレイの例示的構成と、マイクロプロジェクタのアレイと光学システムの結合を図示する。図１６Ａ－Ｉは、１つまたはそれを上回る実施形態における、マイクロプロジェクタのアレイの例示的構成と、マイクロプロジェクタのアレイと光学システムの結合を図示する。図１６Ａ－Ｉは、１つまたはそれを上回る実施形態における、マイクロプロジェクタのアレイの例示的構成と、マイクロプロジェクタのアレイと光学システムの結合を図示する。図１６Ａ－Ｉは、１つまたはそれを上回る実施形態における、マイクロプロジェクタのアレイの例示的構成と、マイクロプロジェクタのアレイと光学システムの結合を図示する。図１６Ａ－Ｉは、１つまたはそれを上回る実施形態における、マイクロプロジェクタのアレイの例示的構成と、マイクロプロジェクタのアレイと光学システムの結合を図示する。図１６Ａ－Ｉは、１つまたはそれを上回る実施形態における、マイクロプロジェクタのアレイの例示的構成と、マイクロプロジェクタのアレイと光学システムの結合を図示する。

詳細な説明
以下の説明では、ある具体的詳細が、種々の開示される実施形態の完全な理解を提供するために記載される。しかしながら、当業者は、実施形態は、これらの具体的詳細のうちの１つまたはそれを上回るものを伴わずに、または他の方法、コンポーネント、材料等を用いて、実践されてもよいことを認識するであろう。他の事例では、空間コンピューティングヘッドセットと、アイウェアのつるのアームのためのヒンジシステムとを含む、アイウェアと関連付けられる周知の構造は、実施形態の説明を不必要に曖昧にすることを回避するために、図示または詳細に説明されていない。

文脈によって別様に要求されない限り、本明細書および続く請求項全体を通して、単語「ｃｏｍｐｒｉｓｅ（～を備える）」および「ｃｏｍｐｒｉｓｅｓ（～を備える）」および「ｃｏｍｐｒｉｓｉｎｇ（～を備える）」等のその変形例は、「限定ではないが、～を含む」という制限のない、包含的意味で解釈されるべきである。

本明細書全体を通して、「一実施形態」または「ある実施形態」の言及は、実施形態に関連して説明される特定の特徴、構造、または特性が、少なくとも一実施形態に含まれることを意味する。したがって、本明細書全体を通した種々の場所における語句「一実施形態では」または「ある実施形態では」の表出は、必ずしも、全て同一実施形態を参照するわけではない。さらに、特定の特徴、構造、または特性は、１つ以上の実施形態では、任意の好適な様式において組み合わせられてもよい。

以下の説明では、ある具体的詳細が、種々の開示される実施形態の完全な理解を提供するために記載される。しかしながら、当業者は、実施形態が、これらの具体的詳細のうちの１つまたはそれを上回るものを伴わずに、または他の方法、コンポーネント、材料等を伴って、実践されてもよいことを認識するであろう。他の事例では、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、およびエクステンデッドリアリティ（ＸＲ）システムと関連付けられる周知の構造は、実施形態の説明を不必要に曖昧にすることを回避するために、図示または詳細に説明されていない。用語「仮想現実（ＶＲ）」、「拡張現実（ＡＲ）」、「複合現実（ＭＲ）」、および「エクステンデッドリアリティ（ＸＲ）」は、本開示では、同義的に使用され、少なくとも、少なくともウェアラブルＸＲデバイスおよびウェアラブルＸＲデバイスをサポートする１つまたはそれを上回る遠隔コンピューティングデバイスを介して、少なくとも仮想コンテンツをユーザに表示するための方法またはシステムを示し得るものとすることに留意されたい。

種々の実施形態では、ユーザが、図１に描写されるもの等の拡張現実システムを装着している場合があり、これは、動作されるときのユーザの周囲の３次元世界とのそのようなシステムの相互作用に関連して、「空間コンピューティング」システムとも称され得る。そのようなシステムは、例えば、頭部ウェアラブルディスプレイコンポーネント（２）を備えてもよく、ユーザの周囲の環境をマッピングする、または壁、床、椅子、および同等物等のユーザの周囲の環境内の種々のオブジェクトの幾何学形状を表す、種々の点を備える、そのような環境の「メッシュ」を作成するように構成され得る、種々のタイプのカメラ等、上記に説明されるような環境感知能力を特徴とし得る。空間コンピューティングシステムは、ユーザの周囲の環境をマッピングまたはメッシュ化し、部屋のマップまたはメッシュを利用して、ユーザが、ユーザの周囲の３次元空間内で、種々のオブジェクトおよび要素を設置、操作、可視化、作成、および修正することを補助するように構成され得る、ＭａｇｉｃＬｅａｐ，Ｉｎｃ．（Ｐｌａｎａｔｉｏｎ，Ｆｌｏｒｉｄａ）から利用可能なもの等のソフトウェアを起動または動作させるように構成されてもよい。図１に戻って参照すると、本システムは、クラウドまたは他のコネクティビティ構成によって、他のコンピューティングシステム等の付加的リソースに動作可能に結合されてもよい。

空間コンピューティングにおける課題のうちの１つは、例えば、ユーザの周囲の３次元世界に関連し得る、コンピュータビジョンおよび／またはオブジェクト認識課題等において、決定をユーザにとって有用および／または重要なものにする際における種々の動作可能に結合されるセンサ（図１のシステムの要素２２、２４、２６、２８等）によって捕捉されたデータの利用に関する。いくつかの実施形態は、少なくとも部分的に、関連屋内環境の構造要素の走査に基づいて、ユーザの周囲に位置付けられ、配向され得る、物理的環境に関する間取図の推定を正確に決定するために、本明細書では「ＦｌｏｏｒＶｏｔｅｒ」と称され得る、アプローチを導入する。説明される方法およびシステム構成のある変形例は、２段階アプローチを組み込み、初期段階は、ニューラルネットワークを使用して、場面の無秩序点群表現を部屋インスタンスおよび壁インスタンスにクラス化する。これらの方法および構成は、適切なセンサおよび関連付けられるデータが利用可能であることを条件として、ウェアラブル空間コンピューティングの領域外の種々のシナリオにも広く適用可能である。後続段階は、予測される部屋および壁特徴点に沿って最短経路を見出すことによって、個々の部屋毎に、単純ポリゴンによってパラメータ化された閉鎖された周囲を推定する。ＦｌｏｏｒＶｏｔｅｒパイプラインは、既存の方法と比較して、高度に並列化可能であって、非常に効率的である。いくつかの実施形態は、完全合成データセット上で訓練された深層ネットワークを採用し、方法を公的に入手可能なＳｔｒｕｃｔｕｒｅｄ３ＤおよびＢＫＥデータセット上で評価し、最先端技法を凌ぐ優れた定質的および定量的結果を実証している。

屋内環境を構成する、意味論成分の詳細な理解は、ますます重要となる問題に徐々に成長しつつある。場面理解として一般的に知られる、広範囲にわたる主題に該当する、そのような洞察は、種々の方法、例えば、とりわけ、屋内環境の２Ｄ／３Ｄデータの意味論セグメント化、オブジェクト検出／認識、家具のＣＡＤ走査置換、および間取図推定において表され得る。本説明は、屋内場面の正確な間取図を効率的に生成し、そのような場面理解を補助するタスクの種々の側面に焦点を当てる。間取図を３Ｄ走査から生成する能力は、複数の学術研究および商業分野において、広範囲に及ぶ関連事項を有する。住宅産業、建築設計、および内装設計は、以前よりも技術によって普及されつつあり、ＦｌｏｏｒＶｏｔｅｒ等の自動化されたツールは、そのような産業の設計可能性の効率および範囲を大幅に増加させ得る。同様に、環境のより賢明な理解は、拡張および仮想現実（ＡＲ／ＶＲ）デバイスが、消費者のためのより豊かなより双方向体験を提供するために絶対不可欠である。

実世界屋内環境を捕捉することと関連付けられる記号論理学的難点と結び付けられる、意味論セグメント化およびオブジェクト認識を伴う、一般に認められる深層学習問題と比較して、特定分野タスクである、間取図推定は、必然的に、付随の３Ｄ点群／メッシュ表現とともに、注釈が付けられた間取図を伴う、屋内環境のデータセットの不足を反映している。さらに、単一原点のそのようなデータセットが、自然な状態で良好に性能を発揮することが可能な深層ネットワークを訓練するために必要とされる、多数かつ種々の異なるレイアウトタイプを伴う、サンプルを保有することが可能となることは、著しく可能性が低い。

いくつかの実施形態は、壁、ドア、および窓を含み得る、環境の構造要素の３Ｄ走査等の捕捉されたデータから、単一または複数の部屋を伴う、屋内環境の間取図を抽出する。学術研究機関およびまた産業における広範な研究は、屋内環境内の２Ｄおよび３Ｄデータの意味論セグメント化に関して実施されているため、いくつかの実施形態は、理性の境界内において、部屋の形状および数に関する制限を伴わずに、制約されないレイアウトを推定する比較的に未開拓のタスクに焦点を当てている。これらの実施形態は、３Ｄ走査のためのＭｉｎｋｏｗｓｋｉＮｅｔ、ＳｃａｎＣｏｍｐｌｅｔｅ、および／または２Ｄセグメント化のためのＭａｓｋＲＣＮＮ、ＰＳＰＮｅｔ（付随のＲＧＢ／グレースケール画像が利用可能な場合）として知られるもの等の最先端技法が、ＦｌｏｏｒＶｏｔｅｒが、次いで、間取図を生成するために処理し得る、構造要素の走査を作成するために利用され得ると仮定する。

グローバルグラフ最適化技法を使用する、「ＦｌｏｏｒＳＰ」として知られるもの等の方法および構成では、問題の複雑性は、ひいては、最適化されるべきグラフのサイズに比例する、部屋の数および部屋あたりの壁の数の観点からの入力のサイズに伴ってそれほどスケール変換されない。対照的に、本主題のＦｌｏｏｒＶｏｔｅｒ方法および構成は、グローバル問題を、並行方式において効率的に処理され得る、複数のより小さい問題に分割することによって、スケール変換の問題点に対処することを狙いとする。

いくつかの実施形態では、本明細書に説明される方法および構成は、大まかには、２ステップアプローチに従う。最初に、ＰｏｉｎｔＮｅｔ＋＋バックボーンに基づく深層ネットワークが、屋内場面を構成する、部屋／面積を識別するために、入力点群の知覚的に均一なサブセットの頂点に関するクラスタ標識を生成する。同時に、本ネットワークの別の出力もまた、所与の場面内の各壁を識別するためのクラスタ標識である。次に、いくつかの実施形態は、部屋および壁標識をともに利用し、単純ポリゴンによって表される、部屋毎のＤｅｅｐＰｅｒｉｍｅｔｅｒタイプの形状を作成する。最終間取図は、単純に、オリジナル点群のグローバル座標系内にまとめられた、全ての推定される部屋周囲の集合となる。

要するに、いくつかの実施形態は、詳細な間取図を屋内場面の３Ｄ走査から生成するための新規技法を説明する。いくつかの実施形態では、本明細書に説明される方法および構成は、部屋の数、その構成、またはその形状に関する制約を課さない。いくつかの実施形態は、間取図推定の問題が、効率的に生成され、また、全ての側面において高度に構成可能であり得る、単純合成データセット上で、深層ネットワークを訓練することによって、解決され得ることを実証している。これらの実施形態は、付随の例証とともに、そのようなデータセットを生成するために使用される、アルゴリズムを詳細に説明する。本ネットワークは、下層機能を正常に近似させるためのアーキテクチャの能力に影響力を及ぼす、有意なドメイン適合問題点を伴わずに、実際のデータ上で見事に性能を発揮する。提案されるソリューションは、複数の段階において高度に並列化可能であって、ランタイム効率および正確度の観点から現在の最先端技術より優れている。

無秩序点群上の特徴抽出：拡張および仮想現実産業および自律車両産業の増加する動向に伴って、スマートフォン、消費者グレード深度センサ、およびＬｉＤＡＲ（光検出および測距）システム等の種々のソースからの「２．５Ｄ」および３次元（「３Ｄ」）データの可用性が、大きく後押しされている。複雑な学習タスクをそのようなデータ上で実施する必要性もまた、需要を増している。点ベクトルに直接作用するアーキテクチャは、入力空間を構造化されたグリッドにパーティション化し、入力を量子化し、したがって、３Ｄ畳み込みを導出されたグリッド上で起動することが可能である。より最近のアプローチは、疎畳み込みを３Ｄ点集合上で実施し、オブジェクト検出に関する見事な結果を達成する一方、いくつかのアプローチは、入力データ点をグラフにパラメータ化し、グラフ接続および構造を利用して、特徴を抽出する。

クラスタ化：クラスタ化の問題は、広義には、類似特徴を伴うデータ点が同一標識を割り当てられることになる、標識割当タスクとして定義され得る。従来的に、クラスタ化は、クラスタの数に関する事前の知識を要求する研究において、また、クラスタの数を体系的に決定するアルゴリズムにおいては、深く調査されている。最近、深層ニューラルネットワークはまた、教師ありまたは半教師ありおよび教師なし設定において本タスクを実施するためにも利用されている。本明細書に説明されるいくつかの実施形態と同様に、ある他の説明は、クラスタ化のための投票機構に焦点を当てる、いくつかの以前の研究を含む。

間取図推定：間取図推定における以前の研究は、そのような表現を表す汎用かつ標準化された方法が存在しないため、出力間取図のパラメータ化実践において、大変動を有することが観察されている。同様に、屋内環境は、手に入るセンサスイートの可用性、また、捕捉の次元および所望の分解能に応じて、種々の方法で捕捉されることができる。

従来的方法は、パノラマＲＧＢＤ画像を使用して、手順通り、構造文法を使用して、空間を再構築する一方、その他は、３Ｄ走査を利用して、平面プリミティブを抽出し、構築情報モデルをヒューリスティックに生成する。

深層学習ベースの方法は、単一画像（例えば、ピンホールまたはパノラマ画像）を処理して、単一部屋に関する直方体ベースのレイアウトを生成する。典型的には、これらの方法は、消失点および壁縁等の視覚的キューに依拠して、レイアウトを推定し、多くの場合、最良マッチングを事前にコンパイルされたＭａｎｈａｔｔａｎ式部屋形状のライブラリから選択する。いくつかのアプローチは、場面の単眼ビデオを使用して、多角形周囲を生成する、単一部屋レイアウト推定方法を使用する。

アパート／住宅スケールでの間取図は、３Ｄ走査を処理し、比較的により詳細かつ半制約された間取図を生成するであろう。しかしながら、その方法の高算出要件は、消費者グレードハードウェアを使用して容認可能時間内に処理され得る、走査の数を限定する。

ＦｌｏｏｒＶｏｔｅｒ－システム概要：図２を参照すると、ＦｌｏｏｒＶｏｔｅｒは、詳細な間取図を屋内環境の３Ｄ走査から抽出する、ロバストかつ効率的方法である。本節は、下記において、２Ｄ間取図を屋内場面の３Ｄ走査から推測する際に関わるコンポーネントを詳細に説明する。重要となるステップは、部屋毎に、部屋インスタンスおよび壁インスタンスをオリジナル３Ｄ走査から識別し、その後、部屋インスタンス毎に、閉鎖された周囲を推定するステップが続く。

部屋および壁クラスタ化：いくつかの実施形態は、入力３Ｄ点群２０２を、その構成部屋（例えば、２０４の部屋クラスタ）および壁（例えば、２０６の壁クラスタ）に、クラスタの数に関する任意の事前の仮定を伴わずに、間取図２０８、次いで、１つまたはそれを上回る壁クラスタ２１０にさらに処理される、３Ｄデータ点の非排他的クラスタ化として、分離する問題を呈する。本ステップが、ネットワークアーキテクチャから独立して、制約されない数のクラスタを予測することを可能にするために、いくつかの実施形態は、投票ベースの技法を採用する。

部屋および壁中心回帰：投票モジュールのアーキテクチャは、図３に要約される。いくつかの実施形態は、ＰｏｉｎｔＮｅｔ＋＋バックボーンを特徴抽出器として使用し、それに対する入力は、

となるような点ｐ３０２の点群である。バックボーン３１８内の集合抽象化３０４（ダウンサンプリングのためのＳＡ層）層および特徴伝搬３０６（例えば、アップサンプリングのためのＦＰ層）層は、種々のスケールにおいて特徴を算出し、

となるように、Ｃ個の付加的特徴寸法を有する、Ｍ個の点（Ｍ≦Ｎ）を伴う、ｓによって示される、入力のサブサンプリングされたバージョン（例えば、シード点３０８）を生産する。いくつかの実施形態は、以降、集合ｓをシード点３０８として参照し、その各要素は、投票生成器３１０ＦＣ１（全結合ネットワーク１）および３１２ＦＣ２（全結合ネットワーク２）を介して、

となるように、投票ｖを投じる。各シード点ｓ_ｉは、いくつかの実施形態では、３つの投票（例えば、シードあたり３つの３Ｄオフセットベクトル、すなわち、部屋投票３１４に関して２つと、壁投票３１６に関して１つ）を投じ、ｑ＝Ｒ_０またはｑ＝Ｒ_１は、投票が、ｓ_ｉが属する、部屋の中心を示すことを暗示し、ｑ＝Ｗは、投票が、ｓ_ｉが属する、壁の中心を示すことを暗示する。

シード点ｓ_ｉが、単一部屋に属する場合、ｖ_ｉ ^Ｒ０およびｖ_ｉ ^Ｒ１は、同じである一方、壁点が、２つの部屋間で共有される場合、それらは、明確に異なる。壁中心ｖ_ｉ ^Ｗを決定するために投じられる投票に関して、いくつかの実施形態は、各点が、単純性の目的のために、一意の壁のみに属し得ると仮定する。

投票ｖ_ｉ ^ｑを各シードｓ_ｉから生成するために、いくつかの実施形態は、複数の投票生成器を使用し、これは、全結合層の後、ＢａｔｃｈＮｏｒｍ（バッチ正規化）およびＲｅＬＵ（正規化線形ユニット）層が続く。投票生成器は、

となるように、投票オフセットｘ_ｉを単一シード点ｓ_ｉから抽出する。投票オフセットは、ｖ_ｉ ^ｑ＝ｓ_ｉ＋ｘ_ｉ ^ｑとなるようなシード点からその投票までのオフセットベクトルにすぎない。実践では、いくつかの実施形態は、部屋投票（ｑ∈｛Ｒ_０，Ｒ_１｝）のために１つと、壁投票（ｑ＝Ｗ）のために１つの、２つの投票生成器を使用する。任意の特定の投票生成器のパラメータは、全Ｍ個のシード点間で共有され、故に、各ｓ_ｉは、任意の他のシード点から独立して、ｘ_ｉ ^ｑを生成することが可能である。

いくつかの実施形態は、以下によって与えられる、ｓｍｏｏｔｈ－Ｌ１損失を使用して、ネットワークを訓練する。

ｇ_ｉ ^ｑは、予測されるオフセットベクトルｘ_ｉ ^ｑに対応する、グラウンドトゥルースオフセットベクトルである。最小限にされるべき総損失は、

であって、式中、αは、損失の大きさを平衡するための定数である。

いくつかの実施形態が、２つの無秩序対のグラウンドトゥルースおよび予測を有する、

の場合、これらの実施形態は、最低誤差をもたらす、対毎差を選定する。これは、部屋投票に関する人工的秩序化を強化せずに、ネットワークパラメータを最適化することを可能にする。Ｓｔｒｕｃｔｕｒｅｄ３Ｄデータセットからの実施例に関する壁および部屋投票の可視化は、図４に表示される。さらに、図４は、部屋および壁中心に関する投票を図示する。いくつかの実施形態では、図４は、投票モジュールへの点群入力が、投票モジュールへの点群入力４０２と、投票点ｖを伴うシード点ｓ４０４と、明確に異なり、かつ共有される部屋投票に関する投票オフセットベクトルｘ４０６と、投票点ｖを伴うシード点ｓ４０８と、壁に関する投票オフセットベクトルｘとを含み得ることを図示する。

投票クラスタ化－図５：

予測される中心ｖ_ｉ ^ｑの集合を前提として、いくつかの実施形態は、ここで、シード点に関する対応するクラスタ標識を生成し、部屋および壁インスタンスを取得することを意図する。本動作を実施するために、いくつかの実施形態は、ｖ_ｉ ^Ｒ０およびｖ_ｉ ^Ｒ１を連結し、部屋に関するクラスタ化入力（例えば、投票モジュールへの点群入力５０２）を準備し、単に、壁に関するｖ_ｉ ^Ｗを使用する。いくつかの実施形態は、ｅｐｓ＝εを伴う、クラスタ化アルゴリズム（ＤＢＳＣＡＮ）を、部屋および壁投票上で別個に起動し、ｑ’∈｛Ｒ，Ｗ｝となるように、クラスタ標識ｌ_ｉ ^ｑ’を各投票ｖ_ｉ ^ｑ’に割り当て、ｑ’＝Ｒは、標識が部屋に関するクラスタ割当であることを暗示する一方、ｑ’＝Ｗは、標識が壁に関するクラスタ割当であることを暗示する。ＤＢＳＣＡＮの使用は、最大数のクラスタに関する制限を伴わずに、単純に、その空間密度分布に基づいて、投票をクラスタ化することを可能にする。いくつかの実施形態は、次いで、クラスタ標識ｌ_ｉ ^ｑ’を投票ｖ_ｉ ^ｑ’からシードｓ_ｉに逆追跡し、割当ｓ_ｉ ^ｑ’、Ｌ（例えば、部屋５０４に関して、投票ｖからシード点ｓまで逆追跡される、クラスタ標識、および壁５０６に関して、投票ｖからシード点ｓまで逆追跡される、クラスタ標識）を作成し、式中、Ｌ＝ｌ_ｉ ^ｑ’である。これに続いて、いくつかの実施形態はまた、部屋に関して、０．０５×Ｍ、および壁に関して、０．０１×Ｍ未満の要素強度を伴う、任意のクラスタを除去し、最後に、Ｃ^Ｒ個の部屋クラスタの数およびＣ^Ｗ個の壁クラスタの数を作成する。部屋に属する壁点のリストを取得するために、いくつかの実施形態は、下記に説明されるように、積集合演算を部屋および壁点集合上で実施する。

式中、ｒ^ｋは、ｋ番目の部屋に属する、点の集合であって、ｗ^ｍ，ｋは、ｋ番目の部屋のｍ番目の壁に属する、点の集合である。全ての壁が、全ての部屋に属するわけではないため、多数の積集合ｗ^ｍ，ｋが、ヌル集合である。表記の容易性のために、いくつかの実施形態は、全てのそのようなヌル集合を無視し、ｗ^ｍ，ｋをｗ^ｍ’，ｋとして再定義し、

であり、Ｃ^ｍｋは、

内の非空集合の数である。

部屋周囲推定：

クラスタ標識ｋを伴う部屋に関する、部屋点ｒ^ｋおよび部屋壁点

を取得することに応じて、いくつかの実施形態は、ＤｅｅｐＰｅｒｉｍｅｔｅｒに説明される方法を踏まえ、個々の部屋周囲の輪郭を描く。最終間取図は、いくつかの実施形態では、２Ｄであるため、いくつかの実施形態は、全ての壁がＸ－Ｙ平面に直交するという仮定の下、ｒ^ｋおよび

内の全ての点をＸ－Ｙ平面に投影するステップに進む。ｗ^ｈ，ｋは、ｋ番目の部屋のｈ番目の壁に属する、点の集合を示すとする。ＲＡＮＳＡＣを使用することによって、いくつかの実施形態は、線分終点によってパラメータ化されたｐ^ｈ，ｋによって示される、ｗ^ｈ，ｋ内の全ての点に関する２Ｄ線分を予測する。いくつかの実施形態は、具体的には、その傾きにおける差異が≦θ_ｍｉｎであって、そのバイアスにおける差異が≦β_ｍｉｎである場合に複製であると見なされる、

内の任意の線分を除去する。最も近くの直交軸とθ_ｏｒｔｈの角度を伴う、任意の線分は、該軸と整合するようにスナップされる。非Ｍａｎｈａｔｔａｎレイアウトを可能にしながら、また、ＲＡＮＳＡＣ線適合におけるわずかな誤差を考慮するために、いくつかの実施形態は、下記に説明されるように、θ_ｏｒｔｈの値を比較的に低く保つ。

図６に示されるように、ノードの集合に沿って、閉鎖された経路を形成するために、いくつかの実施形態は、２－ｏｐｔアルゴリズムの修正バージョンを実装し、そこから準最適Ｏ（ｎ^２）解を悪評のある指数関数時間巡回セールスマン問題に提供する。より具体的には、図６は、部屋に関する周囲推定モジュールへのクラスタ化された壁点の集合の入力６０２と、最短経路アルゴリズムによって決定された壁のセグメント終点の秩序化６０２と、線分を押出または拡張させ、ポリゴン頂点を生成することによって、ポリゴンとして決定される、部屋周囲６０６とを図示する。それを通していくつかの実施形態が最短経路を算出する、ノードの集合は、線分の始点

および終点

の集合である。これは、事実上、入力ノードの数を２倍にするだけではなく、また、

の中央値のみをその集合のノードとして使用する、より複雑なレイアウト形状の場合、より最適な解を提供する。セグメントｐ^ｈ，ｋの対の終点ｐ_１ ^ｈ，ｋおよびｐ_２ ^ｈ，ｋは、常時、縁によって接続され得るため、いくつかの実施形態は、最適化問題において、全てのそのような対の縁に関する横断のコストを０に設定する。

データセット：

本節では、いくつかの実施形態は、ＦｌｏｏｒＶｏｔｅｒの訓練および評価のために使用される、種々のデータセットを説明する。本システムは、単純に、手順通り生成された合成データセット上で訓練されながら、観測されていない実際のおよび合成データセット上で優位性のある性能を達成することが可能であることに留意することが重要である。

合成データセット：

本明細書に説明されるネットワークを完全合成データセット上で訓練することの背後にある、重要となる動機要因は、注釈が付けられた間取図とともに、屋内場面の完全３Ｄ表現を伴う、公的に入手可能なデータセットの不足に基づく。いくつかの実施形態が生成する、合成データセットは、全ての側面において高度に構成可能であって、これは、必要に応じて、サンプルの分布を、部屋形状、サイズ、構成、および雑音パターンの観点から、任意の標的試験データセットにマッチングするように改変することを可能にする。さらに、アルゴリズムの単純性およびそのようなデータセットの高速生成は、可能性として考えられるレイアウトにおける豊かな多様性を伴う、多数のサンプル上における訓練を可能にする。

本データセットを生成するために、いくつかの実施形態は、図７Ａに示される形状のライブラリから開始し、これは、単に、バイナリ３×３カーネル上におけるビットの種々の組み合わせである。Ｎ_０の部屋を伴う、合成レイアウトを作成するために、いくつかの実施形態は、形状をライブラリからランダムに選択し、それを、占有グリッドと称される、３２×３２グリッドの中心の上に設置し、部屋標識ｌ＝０をそれに割り当てる。隣のＮ_０－１の部屋およびその標識を追加するために、いくつかの実施形態は、反復的に、隣接する占有されていないグリッド空間のいずれかを選択し、現在占有されている空間と重複しない限り、別のランダム形状をライブラリから設置する。随時、いくつかの実施形態は、「上位部屋」をランダムに作成し、これは、いくつかの実施形態が、同一標識ｌをいくつかの接続される形状に割り当てるときに該当する。実施例は、図７Ｂに見られることができ、赤色の部屋は、ライブラリ形状の組み合わせから作成される一方、その他は、単一形状から作成される。さらに、図７Ａは、形状ライブラリからのいくつかの例示的形状７０２Ａを図示し、図７Ｂは、データセットのサンプルに関して生成される、標識された占有グリッド７０４Ａを図示し、図７Ｃは、占有グリッドから生成される、最終点群７０６Ａを図示し、これは、パイプラインを訓練または試験するために使用されてもよい。

いったん占有グリッドが、０からＮ_oｍａｘまでのランダム数の部屋を用いて作成されると、いくつかの実施形態は、占有グリッドにわたって反復し、壁場所を識別し、全ての壁が固定された仰角を有すると仮定して、平面上の点をランダムにサンプリングすることによって、壁平面の３Ｄ表現を作成し、それに続いて、いくつかの実施形態は、点毎に２つの部屋標識および壁標識を伴う、３Ｄ点群を生成することが可能である。２つの部屋標識は、点が、単一部屋に属する場合、同じであるように設定され、点が、同時に、２つの異なる部屋に属する場合、それらは、明確に異なる。各点は、単一壁のみに属すると仮定される。部屋寸法において、さらにより多くの分散を作成するために、いくつかの実施形態は、占有グリッドの行および列の幅および高さをランダムにスケール変換する。また、ドアまたは窓が壁の一部であり得る、シナリオにおいて、欠失点を表すように、ランダムに定寸された矩形ブロックを切り出すことも可能である。結果として生じる点群は、図７Ｃに見られることができる。

訓練時、いくつかの実施形態は、ランダム回転、また、スケール変換を、Ｘ、Ｙ、およびＺ軸毎に、各サンプルに適用し、入力を第１の象限内の２ｍ×２ｍボックスに正規化する。同一正規化は、同様に、推定の際にも強化される。

Ｓｔｒｕｃｔｕｒｅｄ３Ｄデータセット：

いくつかの実施形態は、Ｓｔｒｕｃｔｕｒｅｄ３Ｄデータセットを使用して、本明細書に説明されるシステムまたは方法の定量的および定質的性能を評価する。本データセットは、部屋形状およびその構成において難解な分散を伴う、専門家設計者によって作成された３，５００枚の詳しく注釈が付けられたアパート走査の集合物である。

ＢＫＥデータセット：

いくつかの実施形態はまた、ＢＫＥデータセットを使用して、本明細書に説明されるシステムまたは方法の定量的および定質的性能を評価する。いくつかの実施形態は、入力走査が、壁、ドア、窓等の構造要素のみを含有するという仮定の下で動作するため、いくつかの実施形態は、本データセットの２つの異なるバージョンを使用することによって、実験を実施する。いくつかの実施形態がＢＫＥ－ｓｙｎと称する、第１のバージョンでは、いくつかの実施形態は、データセット内に提供される、角、縁、および部屋注釈を使用して、合成点群を構築する。本データセットからのサンプルは、クリーンで、雑音がなく、全ての壁に沿って、点の均一サンプリングを含有する。いくつかの実施形態がＢＫＥ－ｓｔｒｕｃｔと称する、第２のバージョンは、ＢＫＥ－ｓｙｎ内の同一場面からの最も近くの対応する点に対して０．１５ｍより近くにある、点をオリジナル走査内に留保することによって取得されてもよい。いくつかの実施形態は、内部クラッタを破棄しながら、間取図推定に不可欠な構造要素を表す、オリジナル走査の点のサブセットを取得する。また、ＭｉｎｋｏｗｓｋｉＮｅｔまたはＳｃａｎＣｏｍｐｌｅｔｅ等の公的に入手可能な意味論セグメント化ネットワークを使用して、本フィルタリングを実施することも可能である。しかしながら、ＢＫＥに関する訓練データセットの不在および観測されていないデータセット上で事前訓練されたＭｉｎｋｏｗｓｋｉＮｅｔの不良性能に起因して、いくつかの実施形態は、代わりに、データセット自体内に提供される注釈に依拠する。

実験：

いくつかの実施形態は、間取図を３Ｄ走査から生成するための経路上で実施される、種々の実験を詳述し、上記前節に議論されるデータセットに関するパイプラインの異なる部分の定量的および定質的結果について議論する。

例示的実装詳細：

いくつかの実施形態は、オリジナル点群をランダムにサブサンプリングすることによる訓練および評価のために、ネットワークに入力される点の数をＮ＝１６３８４として設定する。投票モジュール内のＰｏｉｎｔＮｅｔバックボーンに関して、いくつかの実施形態は、同一アーキテクチャを使用する。いくつかの実施形態は、全ての入力点を２×２ｍボックス内にあるように正規化するため、いくつかの実施形態は、それぞれ、４つの集合抽象化層の半径を［０．２，０．４，０．８，１．２］に設定し、あらゆる可能性として考えられるスケールにおける特徴の算出を可能にする。特徴チャネルの数は、シード点毎に、Ｃ＝２５６に設定され、作成されることになるシード点の数は、Ｍ＝１０２４となる。図３における第１の投票生成器（部屋に関する）は、［２５６，２５６，６］のサイズの出力を伴う層を有する一方、第２の隠れ層（壁に関する）は、［２５６，２５６，３］のサイズの出力を伴う層を有する。

ＤＢＳＣＡＮクラスタ化ステップに関して、いくつかの実施形態は、部屋投票に関して、ε＝５ｃｍ、壁投票に関して、ε＝２．５ｃｍの値を設定する。εは、ある意味では、それらを同一クラスタの中に群化するための２つの点間の最大距離の測定値である。周囲推定ステップの間、いくつかの実施形態は、θ_ｍｉｎ＝１５、β_ｍｉｎ＝１５ｃｍ、およびθ_ｏｒｔｈ＝１５を設定する。上記に議論される合成訓練データセットは、サンプルあたり最大で１０部屋のみを伴って生成されるが、しかしながら、評価の際、ネットワークは、部屋の数が１０を上回るときでも、同様に、優れた性能を達成することが可能である。

例示的結果および実施例メトリック：

本明細書に説明されるいくつかの実施形態によって生成された結果を最先端方法と比較するために、いくつかの実施形態は、ＦｌｏｏｒＳＰと同一メトリックに関して報告し、全ての角場所、縁、および部屋に関する精度および再現率値ＩＯＵ（積集合を和集合で割った値）を生成する。いくつかの実施形態は、レイアウトを合同グローバルグラフとしてパラメータ化せず、代わりに、各部屋をメトリックを算出するための独立単純ポリゴンと見なすことに留意されたい。ＦｌｏｏｒＳＰアプローチと同様に、いくつかの実施形態は、グラウンドトゥルースと予測角および縁の両方をともに変換し、２５６×２５６画像グリッド上に投影し、メトリックを計算するための以下のルールを使用する。

角：角のリストは、その場所に関係なく、全ての部屋の角の連結である。これは、複数の角が同一２Ｄ座標を有し得る場合でも、いくつかの実施形態が、それらが明確に異なる部屋に属する場合、それらを統合しないことを暗示する。本論理に従って、グラウンドトゥルースおよび予測される角の両方に関して、いくつかの実施形態は、Ｈｕｎｇａｒｉａｎ行列を使用して、割当問題を解法し、精度および再現率を算出し、予測は、そこから１０ピクセルの距離以内のＧＴ内の一意の角が存在する場合、正検出と見なされる。

縁：角と同様に、いくつかの実施形態は、全ての部屋を横断して、縁を連結し、その角の両方が正検出である場合、縁が正検出であると見なす。

部屋：部屋は、グラウンドトゥルースから一意の部屋を伴って、０．７を上回るＩＯＵスコアを有する場合、正検出であると見なされる。ＦｌｏｏｒＳＰと対照的に、いくつかの実施形態は、後処理において、任意の部屋重複をすでに解決しており、したがって、ＦｌｏｏｒＶｏｔｅｒによって生成された任意の部屋ポリゴンは、２Ｄ空間内で相互に排他的であることが保証される。

本方法の効率を査定するために、いくつかの実施形態は、パイプラインの異なるモジュールを計時する。上記に説明される深層ネットワークの順方向通過は、入力点群がＮ＝１６３８４点を有するとき、ＮｖｉｄｉａＧＴＸ－ＴｉＧＰＵ上で平均１．９９秒かかる。後続部屋あたりタスクは、各部屋が並列方式で処理されるように、８コアを伴うＩｎｔｅｌ－ＸＥＯＮＣＰＵ上で起動される。上記に説明されるアルゴリズムは、初期レイアウトを生成するために、場面あたり１．７７秒かかる。これに続いて、いくつかの実施形態は、全ての部屋レイアウトを共通座標系内に組み立て、いくつかの後処理ステップを起動し、共線形角を除去し、部屋ポリゴンの中の任意の重複を解決する。本ステップは、平均０．１９２秒を要し、Ｓｔｒｕｃｔｕｒｅｄ３Ｄデータセットに関する場面あたり３．９６秒の平均エンドツーエンドランタイムを提供する。比較として、同一ハードウェア上でエンドツーエンドで起動される、ＦｌｏｏｒＳＰパイプライン全体は、場面あたり１５～３０分を上回り、高価な最終グローバルグラフ最適化ステップが、処理時間の主要な部分を消費する。

ＦｌｏｏｒＶｏｔｅｒは、図８Ａ－８Ｂに示されるように、種々の形状に関する正確な間取図を生成することが可能である。図８Ａでは、８０２Ａは、いくつかの例示的グラウンドトゥルース画像を表し、８０４Ａは、従来のＦｌｏｏｒＳＰ方法からのある例示的結果を表し、８０６Ａは、同一の公的に入手可能なＳｔｒｕｃｔｕｒｅｄ３ＤおよびＢＫＥデータセットからのサンプル上で本明細書に説明されるいくつかの実施形態によって生成された、ある例示的間取図を表す。図８Ｂでは、８０２Ｂは、いくつかの例示的グラウンドトゥルース画像を表し、８０４Ｂは、従来のＦｌｏｏｒＳＰ方法からのある例示的結果を表し、８０６Ｂは、同一の公的に入手可能なＳｔｒｕｃｔｕｒｅｄ３ＤおよびＢＫＥデータセットからのサンプル上で本明細書に説明されるいくつかの実施形態によって生成された、ある例示的間取図を表す。いくつかの実施形態は、Ｍａｎｈａｔｔａｎスタイルレイアウトのみを用いて、投票ネットワークを訓練する場合でも、部屋および壁クラスタ化は、非Ｍａｎｈａｔｔａｎスタイルレイアウト、また、訓練セット内に存在しない、部屋形状上でも等しく成功することを理解されたい。これは、いくつかの実施形態がデータセット内に導入する、拡張、主に、いくつかの実施形態が入力上に適用する、ランダム化された回転が、ネットワークを軸整合されない部屋および壁上で訓練することに起因して、可能となる。

図９Ａにおけるもの等の極度に雑然としたレイアウトの場合、いくつかの小部屋は、２つの小さい接続された部屋が同一標識を割り当てられる、最初の不完全なクラスタ化と、いくつかの実施形態が、上記に説明されるように、少数の点を伴う壁を省略する、周囲推定における次の処理ステップの組み合わせのため、省略される。さらに、図９Ａは、グラウンドトゥルース９０２Ａ内のより小さい部屋が、面積９０６Ａによって示されるように、予測９０４Ａ内で不在である、非常に雑然としたレイアウトに及ぼされる、誤ったクラスタ化のある例示的影響を図示する。図９Ｂは、湾曲壁をグラウンドトゥルース９０２Ｂ内に伴う場合における、ある例示的不正確な部屋周囲推定を図示する一方、予測９０４Ｂは、面積９０６Ｂによって示されるように、不正確な予測を示す。図９Ｃは、入力点群９０２Ｃが推定される間取図９０６Ｃを生成するように提供される、壁カリングのある例示的有害な影響を図示する。図９Ｃに示されるように、入力点群０９２Ｃおよびグラウンドトゥルース９０４Ｃの両方内の左上角における小角は、推定される間取図９０６Ｃ内の面積９０８Ｃによって示されるように、推定される間取図９０６内に精密に表されていない。図９Ｄは、欠失点を伴う入力において非グローバル方法を使用することのいくつかの欠点を図示する。より具体的には、欠失点を伴う入力点群９０２Ｄは、推定される間取図９０６Ｄを生成するように提供される。図９Ｄに示されるように、グラウンドトゥルース９０４Ｄは、部屋が相互に接続されることを示す一方、推定される間取図９０６Ｄは、入力点群９０２Ｄ内のこれらの対応する面積における欠失点に起因して、９０８Ｄによって示されるように、３つの占有されていない面積を示す。

本壁カリングの１つのさらなる影響は、図９Ｃに見られることができ、間取図内の小切り欠きが、省略されている。いくつかの例示的方法の別の限界は、図９Ｃ等の湾曲壁を伴う走査を介して明らかになり、グラウンドトゥルースでは、曲率は、一連の角によって表される一方、クラスタ化モジュールは、複数のこれらの非常に小さいセグメントを１つの大セグメントの中に組み合わせる。

Ｓｔｒｕｃｔｕｒｅｄ３ＤおよびＢＫＥ－ｓｙｎデータセット（下記の表１参照）上では、例示的実装は、部屋再現率を除き、全てのカテゴリにおいて、最先端技術を凌ぐ。これは、本明細書に説明されるいくつかの例示的方法が、複数の部屋をともに群化するステップ、または図９において議論されるシナリオでは、部屋を完全に省略するステップを被りやすくあり得るという事実によって解説され得る。ＢＫＥ－ｓｔｒｕｃｔ上では、角および縁に関する精度－再現率において低下が存在する。本相違は、入力走査自体が、上記に説明される不完全なフィルタリングプロシージャに起因して、場面内の構造要素の複数のセクションを欠失している、図９Ｄを参照することによって解説され得る。しかしながら、部屋の大部分の全体的形状は、留保されるため、部屋再現率メトリックは、優位性のあるままである一方、部屋再現率は、いくつかのシナリオでは、部屋全体の省略を引き起こす、フィルタリングに起因して、低い。

表１：最先端間取図推定方法に対して比較される、ＦｌｏｏｒＶｏｔｅｒの定量的結果

本研究の将来的反復では、それに応じていくつかの実施形態が改良することを狙いとする、本パイプラインの複数の面積が存在する。本方法のランタイムをさらに改良するために、周囲推定段階は、クラスタ化段階と組み合わせられ、エンドツーエンド訓練可能システムを形成することができる。そのようなシステムは、同一点群を入力としてとり、場面内の部屋毎に、レイアウトまたは一連のポリゴンのラスタ化されたバージョンのいずれかを提供されるであろう。これは、本システムを入力における加算性および減算性雑音に対してさらによりロバストなものにし、また、周囲推定タスクから逆伝搬される誤差を伴うクラスタ化タスクを補助するであろう。さらに、また、バックボーンネットワークが、特徴を３Ｄ走査上に生成し、ドアおよび窓場所を識別する付加的タスクを実施し、さらに、意味論情報の別の次元を現在の推定に追加することが可能となるはずである。

「ＦｌｏｏｒＶｏｔｅｒ」の方法および構成は、正確な間取図を屋内場面の３Ｄ走査から生成するための効率的トップダウンアプローチを対象とする。ＦｌｏｏｒＶｏｔｅｒは、深層ネットワークに依拠し、部屋および壁クラスタ化を実施し、下記にも説明される合成データセット上で完全に訓練可能である。手続型アルゴリズムを使用して、個々の部屋周囲を予測する、パイプラインの後の部分は、高度に並列化可能であって、全体として、本方法は、速度および正確度において、現在の最新の技法を凌ぐ。ＦｌｏｏｒＶｏｔｅｒは、部屋の形状、サイズ、数、および構成に関する仮定を伴わずに、場面のレイアウトを生成することが可能にし、これは、自然な状態における３Ｄデータからの間取図推定のために有益なものにする。

本開示の種々の例示的実施形態が、本明細書に説明される。これらの実施例は、非限定的意味で参照される。それらは、本開示のより広義に適用可能な側面を例証するために提供される。種々の変更が、説明される本開示に行われてもよく、本開示の真の精神および範囲から逸脱することなく、均等物が代用されてもよい。加えて、多くの修正が、特定の状況、材料、組成物、プロセス、プロセス作用、またはステップを本開示の目的、精神、または範囲に適合させるために行われてもよい。さらに、当業者によって理解されるであろうように、本明細書で説明および例証される個々の変形例はそれぞれ、本開示の範囲または精神から逸脱することなく、他のいくつかの実施形態のうちのいずれかの特徴から容易に分離される、またはそれらと組み合わせられる、離散コンポーネントおよび特徴を有する。全てのそのような修正は、本開示と関連付けられる請求項に記載の範囲内であることが意図される。

本開示は、本主題のデバイスを使用して実施され得る方法を含む。本方法は、そのような好適なデバイスを提供する行為を含んでもよい。そのような提供は、エンドユーザによって実施されてもよい。換言すると、「提供する」行為は、単に、エンドユーザが、本主題の方法において必要なデバイスを取得する、それにアクセスする、それに接近する、それを位置付ける、それを設定する、それをアクティブ化する、それに電源を入れる、または別様にそれを提供するように作用することを要求する。本明細書に列挙される方法は、論理的に可能な列挙されたイベントの任意の順序およびイベントの列挙された順序で行われてもよい。

本開示の例示的側面が、材料選択および製造に関する詳細とともに、上記に記載されている。本開示の他の詳細に関して、これらは、前述の参照特許および刊行物に関連して理解され、概して、当業者によって公知である、または理解され得る。同じことは、一般または論理的に採用されるような付加的作用の観点から、本開示の方法ベースの側面に関しても当てはまり得る。

加えて、本開示は、随意に、種々の特徴を組み込む、いくつかの実施例を参照して説明されたが、本開示は、開示の各変形例に関して検討されるように説明または図示されるものに限定されるものではない。種々の変更が、説明される本開示に行われてもよく、均等物（本明細書に列挙されるか、またはある程度の簡潔目的のために含まれないかどうかにかかわらず）は、本開示の真の精神および範囲から逸脱することなく代用されてもよい。加えて、値の範囲が提供される場合、その範囲の上限と下限との間の全ての介在値および任意の他の述べられた値または述べられた範囲内の介在値が、本開示内に包含されるものと理解されたい。

また、説明される本発明の変形例の任意の随意の特徴は、独立して、または本明細書に説明される特徴のうちの任意の１つまたはそれを上回るものと組み合わせて、記載および請求され得ることが検討される。単数形の項目の言及は、複数の同一項目が存在する可能性を含む。より具体的には、本明細書および本明細書に関連付けられる請求項で使用されるように、単数形「ａ」、「ａｎ」、「ｓａｉｄ」、および「ｔｈｅ」は、別様に具体的に述べられない限り、複数の言及を含む。換言すると、冠詞の使用は、上記の説明および本開示と関連付けられる請求項における本主題のアイテムのうちの「少なくとも１つ」を可能にする。さらに、そのような請求項は、任意の随意の要素を除外するように起草され得ることに留意されたい。したがって、本文言は、請求項の要素の列挙と関連する「単に」、「のみ」、および同等物等の排他的専門用語の使用、または「消極的」限定の使用のための先行詞としての役割を果たすことが意図される。

そのような排他的専門用語を使用しなければ、本開示と関連付けられる請求項における用語「～を備える（ｃｏｍｐｒｉｓｉｎｇ）」は、所与の数の要素がそのような請求項で列挙されるかどうかにかかわらず、任意の付加的要素の包含を可能にするものとする、または特徴の追加は、そのような請求項に記載される要素の性質を変換すると見なされ得る。本明細書で具体的に画定される場合を除いて、本明細書で使用される全ての技術および科学用語は、請求項の正当性を維持しながら、可能な限り広い一般的に理解されている意味を与えられるべきである。

本開示の範疇は、提供される実施例および／または本明細書に限定されるべきではなく、むしろ、本開示と関連付けられる請求項の言語の範囲によってのみ限定されるべきである。

図１０は、１つまたはそれを上回る実施形態における、改良された安定性およびねじれに対する向上された能力を提供する、２つの対向するつるのアームと、ねじれバンドとを備える、例示的アイウェアデバイスの上面図を図示する。より具体的には、例示的アイウェアデバイス１０００は、例えば、光学要素、電子コンポーネント、ファイバプロジェクタ、それらのための任意の統合コンポーネント、または任意の他の好適なコンポーネントまたは要素等を収容するための１つまたはそれを上回る空間１００４を備え得る、フレーム正面１００２を含んでもよい。従来の仮想現実ゴーグルと異なり、例示的アイウェアデバイス１０００は、従来の対の眼眼鏡に類似し、右つるのアーム１００６と、左つるのアーム１０１２と、右および左つるのアームに動作可能に取り付けられる、拡張可能かつ圧壊可能ねじれバンドアセンブリ１００８とを備えてもよい。例示的アイウェアデバイス１０００はさらに、例えば、例示的アイウェアデバイス１０００におよびそこから、電力を提供し、および／またはデータを伝送し得る、ケーブルまたはケーブル１０１０の束を受容するためのプロビジョニングを含んでもよい。

図１１Ａは、１つまたはそれを上回る実施形態における、光学システムまたはＸＲデバイスに動作可能に結合される、電子機器のための例示的アーキテクチャ２５００を示す。光学システムまたはＸＲデバイス自体またはＸＲデバイスに結合される外部デバイス（例えば、ベルトパック）は、１つまたはそれを上回る印刷回路基板コンポーネント、例えば、左（２５０２）および右（２５０４）印刷回路基板アセンブリ（ＰＣＢＡ）を含んでもよい。図示されるように、左ＰＣＢＡ２５０２は、アクティブ電子機器の大部分を含む一方、右ＰＣＢＡ６０４支持体は、主に、ディスプレイまたはプロジェクタ要素を支持する。

右ＰＣＢＡ２５０４は、いくつかのプロジェクタドライバ構造を含んでもよく、これは、画像情報および制御信号を画像生成コンポーネントに提供する。例えば、右ＰＣＢＡ２５０４は、第１の、すなわち、左プロジェクタドライバ構造２５０６と、第２の、すなわち、右プロジェクタドライバ構造２５０８とを搬送してもよい。第１または左プロジェクタドライバ構造２５０６は、第１の、すなわち、左プロジェクタファイバ２５１０と、信号線（例えば、ピエゾドライバワイヤ）の集合を継合する。第２、すなわち、右プロジェクタドライバ構造２５０８は、第２、すなわち、右プロジェクタファイバ２５１２と、信号線（例えば、ピエゾドライバワイヤ）の集合を継合する。第１、すなわち、左プロジェクタ駆動構造２５０６は、第１、すなわち、左画像プロジェクタに通信可能に結合される一方、第２、すなわち、右プロジェクタ駆動構造２５０８は、第２、すなわち、右画像プロジェクタに通信可能に結合される。

動作時、画像プロジェクタは、個別の光学コンポーネント、例えば、導波管および／または補償レンズを介して、仮想コンテンツをユーザの左および右眼（例えば、網膜）にレンダリングし、仮想画像と関連付けられる光を改変する。

画像プロジェクタは、例えば、左および右プロジェクタアセンブリを含んでもよい。プロジェクタアセンブリは、種々の異なる画像形成または生産技術、例えば、ファイバ走査式プロジェクタ、液晶ディスプレイ（ＬＣＤ）、ＬＣＯＳ（シリコン上液晶）ディスプレイ、デジタル光処理（ＤＬＰ）ディスプレイを使用してもよい。ファイバ走査式プロジェクタが、採用される場合、画像は、光ファイバに沿って送達され、そこから、光ファイバの先端を介して、投影され得る。先端は、導波管の中に配索されるように配向されてもよい。光ファイバの先端は、画像を投影してもよく、これは、撓曲または発振するように支持されてもよい。いくつかの圧電アクチュエータが、先端の発振（例えば、周波数、振幅）を制御してもよい。プロジェクタドライバ構造は、画像を個別の光ファイバに提供し、制御信号を制御し、圧電アクチュエータを制御し、画像をユーザの眼に投影する。

右ＰＣＢＡ２５０４を継続すると、ボタンボードコネクタ２５１４は、通信および物理的結合をボタンボード２５１６に提供してもよく、これは、種々のユーザアクセス可能ボタン、キー、スイッチ、または他の入力デバイスを搬送する。右ＰＣＢＡ２５０４は、右イヤホンまたはスピーカコネクタ２５１８を含み、オーディオ信号を頭部装着型コンポーネントの右イヤホン２５２０またはスピーカに通信可能に結合してもよい。右ＰＣＢＡ２５０４はまた、右マイクロホンコネクタ２５２２を含み、オーディオ信号を頭部装着型コンポーネントのマイクロホンから通信可能に結合してもよい。右ＰＣＢＡ２５０４はさらに、右オクルージョンドライバコネクタ２５２４を含み、オクルージョン情報を頭部装着型コンポーネントの右オクルージョンディスプレイ２５２６に通信可能に結合してもよい。右ＰＣＢＡ２５０４はまた、ボード間コネクタを含み、そのボード間コネクタ２５３４を介して、左ＰＣＢＡ２５０２との通信を提供してもよい。

右ＰＣＢＡ２５０４は、身体または頭部装着型である、１つまたはそれを上回る右の外向きに面した、すなわち、世界ビューカメラ２５２８と、随意に、他者に画像が捕捉されていることを示すために照明する、右カメラ視覚的インジケータ（例えば、ＬＥＤ）とに通信可能に結合されてもよい。右ＰＣＢＡ２５０４は、右眼の画像を捕捉し、右眼の配向および／または移動の追跡、検出、または監視を可能にするように位置付けられ、配向される、頭部装着型コンポーネントによって搬送される、１つまたはそれを上回る右眼カメラ２５３２に通信可能に結合されてもよい。右ＰＣＢＡ２５０４は、随意に、１つまたはそれを上回る右眼照明源２５３０（例えば、ＬＥＤ）に通信可能に結合されてもよく、これは、本明細書に解説されるように、右眼を照明の（例えば、時間的、空間的）パターンで照明し、右眼の配向および／または移動の追跡、検出、または監視を促進する。

左ＰＣＢＡ２５０２は、制御サブシステムを含んでもよく、これは、１つまたはそれを上回るコントローラ（例えば、マイクロコントローラ、マイクロプロセッサ、デジタル信号プロセッサ、グラフィカル処理ユニット、中央処理ユニット、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）２５４０、および／またはプログラマブル論理ユニット（ＰＬＵ））を含んでもよい。制御システムは、実行可能論理または命令および／またはデータまたは情報を記憶する、１つまたはそれを上回る非一過性コンピュータまたはプロセッサ可読媒体を含んでもよい。非一過性コンピュータまたはプロセッサ可読媒体は、例えば、揮発性および不揮発性形態、例えば、読取専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ、ＤＲＡＭ、ＳＤ－ＲＡＭ）、フラッシュメモリ等の種々の形態をとってもよい。非一過性コンピュータまたはプロセッサ可読媒体は、例えば、マイクロプロセッサ、ＦＰＧＡ、またはＡＳＩＣの１つまたはそれを上回るレジスタとして形成されてもよい。

左ＰＣＢＡ２５０２は、左イヤホンまたはスピーカコネクタ２５３６を含み、オーディオ信号を頭部装着型コンポーネントの左イヤホンまたはスピーカ２５３８に通信可能に結合してもよい。左ＰＣＢＡ２５０２は、オーディオ信号増幅器（例えば、ステレオ増幅器）２５４２を含んでもよく、これは、左イヤホンまたはスピーカに通信可能に結合される。左ＰＣＢＡ２５０２はまた、左マイクロホンコネクタ２５４４を含み、オーディオ信号を頭部装着型コンポーネントのマイクロホンから通信可能に結合してもよい。左ＰＣＢＡ２５０２はさらに、左オクルージョンドライバコネクタ２５４６を含み、オクルージョン情報を頭部装着型コンポーネントの左オクルージョンディスプレイ２５４８に通信可能に結合してもよい。

左ＰＣＢＡ２５０２はまた、１つまたはそれを上回るセンサまたは変換器を含んでもよく、これは、周囲環境について、および／またはユーザについての情報を検出、測定、捕捉、または別様に感知する。例えば、加速変換器２５５０（例えば、３軸加速度計）は、３つの軸における加速を検出し、それによって、移動を検出してもよい。ジャイロスコープセンサ２５５２は、配向および／または磁気またはコンパス進行方向または配向を検出してもよい。他のセンサまたは変換器も、同様に採用されてもよい。

左ＰＣＢＡ２５０２は、身体または頭部装着型であり得る、１つまたはそれを上回る左外向きに面したまたは世界ビューカメラ２５５４と、随意に、他者に画像が捕捉されていることを示すために照明する、左カメラ視覚的インジケータ（例えば、ＬＥＤ）２５５６とに通信可能に結合されてもよい。左ＰＣＢＡは、左眼の画像を捕捉し、左眼の配向および／または移動の追跡、検出、または監視を可能にするように位置付けられ、配向される、頭部装着型コンポーネントによって搬送される、１つまたはそれを上回る左眼カメラ２５５８に通信可能に結合されてもよい。左ＰＣＢＡ２５０２は、随意に、１つまたはそれを上回る左眼照明源（例えば、ＬＥＤ）２５５６に通信可能に結合されてもよく、これは、本明細書に解説されるように、左眼を照明の（例えば、時間的、空間的）パターンで照明し、左眼の配向および／または移動の追跡、検出、または監視を促進する。

ＰＣＢＡ２５０２および２５０４は、１つまたはそれを上回るポート、コネクタ、および／または経路を介して、明確に異なる算出コンポーネント（例えば、ベルトパック）と通信可能に結合される。例えば、左ＰＣＢＡ２５０２は、１つまたはそれを上回る通信ポートまたはコネクタを含み、ベルトパックとの通信（例えば、双方向通信）を提供してもよい。１つまたはそれを上回る通信ポートまたはコネクタはまた、電力をベルトパックから左ＰＣＢＡ２５０２に提供してもよい。左ＰＣＢＡ２５０２は、通信ポートまたはコネクタに電気的に結合され、調整する（例えば、電圧を逓増させる、電圧を逓減させる、電流を平滑化する、過渡電流を低減させる）ように動作可能である、電力調整回路網２５８０（例えば、ＤＣ／ＤＣ電力コンバータ、入力フィルタ）を含んでもよい。

通信ポートまたはコネクタは、例えば、データおよび電力コネクタまたは送受信機２５８２（例えば、Ｔｈｕｎｄｅｒｂｏｌｔ（登録商標）ポート、ＵＳＢ（登録商標）ポート）の形態をとってもよい。右ＰＣＢＡ２５０４は、ポートまたはコネクタを含み、電力をベルトパックから受電してもよい。画像生成要素は、電力をポータブル電源（例えば、化学バッテリセル、一次または二次バッテリセル、ウルトラキャパシタセル、燃料セル）から受電してもよく、これは、例えば、ベルトパック内に位置してもよい。

図示されるように、左ＰＣＢＡ２５０２は、アクティブ電子機器の大部分を含む一方、右ＰＣＢＡ２５０４支持体は、主に、ディスプレイまたはプロジェクタおよび関連付けられるピエゾ駆動信号を支持する。電気および／または光ファイバ接続は、光学システムまたはＸＲデバイスの身体または頭部装着型コンポーネントの正面、背面、または上部を横断して採用される。ＰＣＢＡ２５０２および２５０４は両方とも、ベルトパックに通信可能に（例えば、電気的に、光学的に）結合される。左ＰＣＢＡ２５０２は、電力サブシステムと、高速通信サブシステムとを含む。右ＰＣＢＡ２５０４は、ファイバディスプレイピエゾ駆動信号をハンドリングする。図示される実施形態では、右ＰＣＢＡ２５０４のみが、ベルトパックに光学的に接続される必要がある。他の実施形態では、右ＰＣＢＡおよび左ＰＣＢＡは両方とも、ベルトパックに接続されてもよい。

２つのＰＣＢＡ２５０２および２５０４を採用するように図示されるが、身体または頭部装着型コンポーネントの電子機器は、他のアーキテクチャを採用してもよい。例えば、いくつかの実装は、より少ないまたはより多い数のＰＣＢＡを使用してもよい。別の実施例として、種々のコンポーネントまたはサブシステムは、図１１Ａに図示されるものと異なるように配列されてもよい。例えば、いくつかの代替実施形態では、一方のＰＣＢＡ上に常駐するような図１１Ａに図示されるコンポーネントのうちのいくつかは、一般性を失うことなく、他方のＰＣＢＡ上に位置してもよい。

例えば、図１を参照して上記に説明されるように、本明細書に説明される光学システムまたはＸＲデバイスは、いくつかの実施形態では、仮想コンテンツが３次元コンテンツとして知覚され得るように、仮想コンテンツをユーザに提示してもよい。いくつかの他の実施形態では、光学システムまたはＸＲデバイスは、仮想コンテンツを４または５次元ライトフィールド（またはライトフィールド）においてユーザに提示してもよい。

図１１Ｂ－Ｃに図示されるように、ライトフィールド生成サブシステム（例えば、それぞれ、１１００Ｃおよび１１０２Ｃ）は、好ましくは、ライトフィールドを生産するように動作可能である。例えば、光学装置１１６０Ｃまたはサブシステムは、光を生成または投影し、実３次元オブジェクトまたは場面から反射する光によって生産されるであろう、４次元（４Ｄ）または５次元（５Ｄ）ライトフィールドをシミュレートしてもよい。例えば、導波管反射体アレイプロジェクタ（ＷＲＡＰ）装置１１１０Ｃまたは複数の深度面３次元（３Ｄ）ディスプレイシステム等の光学装置は、いくつかの実施形態では、複数の仮想深度面を個別の半径方向焦点距離に生成または投影し、４Ｄまたは５Ｄライトフィールドをシミュレートしてもよい。これらの実施形態では、光学システムまたはＸＲデバイスは、入力画像をライトフィールドを表す４Ｄ関数の２次元（２Ｄ）スライスとして解釈することによって、４Ｄまたは５Ｄライトフィールドの接眼ライトフィールド生成器およびディスプレイとして機能する。図１１Ｂ－Ｃは、いくつかの実施形態では、本明細書に説明されるライトフィールド生成サブシステム、またはいくつかの他の実施形態では、複数の深度面に対応する光ビームをユーザの眼に投影する、立体視仮想コンテンツ生成サブシステムを有する、光学システムまたはＸＲデバイスを図示し得ることに留意されたい。

いくつかの実施形態では、光学システムまたはＸＲデバイスは、仮想コンテンツの異なるビューを事前に入手または事前に算出された像の集合から生成する、画像ベースのレンダリングを用いて、仮想コンテンツの立体視表現をユーザにレンダリングする。仮想コンテンツは、例えば、環境マップ、世界マップ、トポロジマップ（例えば、個別の場所を表す点ノード、および／またはノードを接続し、接続されるノード間の１つまたはそれを上回る関係を表す、特徴および縁等を有する、マップ）のうちの１つまたはそれを上回るものを使用することによって、その中に仮想コンテンツを視認しているユーザが位置する、環境内に混成または設置されてもよい。これらの実施形態では、光学システムまたはＸＲデバイスは、特に、仮想コンテンツのリアルタイム実装において、比較的に控え目な（例えば、同一仮想コンテンツのためのライトフィールドの生成と比較して）算出リソースを要求する、画像ベースのレンダリングのために、１つまたはそれを上回るディスプレイまたはレンダリングアルゴリズムを使用する。さらに、生成された仮想コンテンツとの相互作用のコストは、仮想コンテンツの複雑性から独立し得る。さらに、仮想コンテンツを生成する際に使用される画像のソースは、実際のもの（例えば、物理的オブジェクトの写真またはビデオシーケンス）または仮想のもの（例えば、１つまたはそれを上回るモデルから）であってもよい。

画像ベースのレンダリングおよび１つまたはそれを上回るマップに基づく、これらの実施形態は、１つまたはそれを上回る固定された視点（例えば、そこから画像ベースの仮想コンテンツをレンダリングするための画像の集合が入手される、視点）に基づいてもよい。これらの実施形態のうちのいくつかは、深度値（例えば、深度センサによって入手された、または三角測量等の位置特定技法によって算出された、深度情報）を使用して、ビュー補間によって、固定された視点限界を緩和する。これらの実施形態では、光学システムまたはＸＲデバイスは、点を、例えば、環境マップ（例えば、マップ内の特徴、点等の詳細な幾何学的および／または地理的情報を有する、幾何学的マップ）内に、例えば、ユーザの場所、配向、および／または視線方向に基づいて、ユーザに対して再投影するために、ビュー解釈のための深度情報（例えば、画像内のピクセルのより小さいサブセットまたは画像内の全てのピクセルに関する深度データ）を使用する。

画像ベースのレンダリングおよび１つまたはそれを上回るマップを使用する、いくつかの他の実施形態は、少なくとも部分的に、一対の画像を捕捉する画像センサの位置に基づいて、仮想コンテンツをレンダリングするために使用される、対の画像内の対応する点および／または対応を決定することによって、固定された視点限界を緩和する。画像ベースのレンダリングを伴う、両方のクラスの実施形態は、視認ユーザによって立体視として知覚され得る、仮想コンテンツを事実上生成および提示するが、例えば、画像の対間の対応を決定するステップが、必ずしも、決定論的に実施されるとは限らない、状況が存在し得る。

いくつかの他の実施形態は、したがって、前述の画像ベースのレンダリングを採用するのではなく、光学システムまたはＸＲデバイスを用いて、４Ｄまたは５Ｄライトフィールドを生成する。ライトフィールドは、５Ｄ関数（例えば、５Ｄプレノプティック関数）を用いて生成されてもよく、３次元空間内の所与の方向におけるある点に放射輝度を含む。したがって、ライトフィールドは、空間角度画像の集合を画定する、５Ｄ関数を含み得る。これらの実施形態では、方向Ｄ（φ，θ）に沿って伝搬する空間内の座標（ｘ，ｙ，ｚ）を有する、点Ａにおける放射輝度Ｒが、Ｒ（ｘ，ｙ，ｚ，φ，θ）の形態を有し得、φは、［０，π］の範囲（それらの値を含む）を有し、θは、［０，２π］の範囲（同様に、それらの値を含む）を有する。本形態では、φは、ｘ－軸およびｙ－軸によって画定された水平平面からの角度を示し、θは、３Ｄ空間内の点と座標系の原点を接続するベクトルと基準単位ベクトル（例えば、ｘ－軸に沿った単位ベクトル）との間の角度を示す。

いくつかの実施形態では、放射輝度は、媒体（例えば、空気等の透明媒体）内に保存される。上記の５Ｄ関数は、放射輝度保存に起因して、ある量の冗長性を呈する。これらの実施形態では、ライトフィールドを表す、前述の５Ｄ関数は、光学システムまたはＸＲデバイスが５Ｄ関数を表面（例えば、平面ｚ＝０）内に作成すると、４Ｄ関数Ｒ（ｘ，ｙ，φ，θ）に還元され、したがって、事実上、３つの空間次元（ｘ，ｙ，ｚ）と、２つの角度次元（φ，θ）とを有する５Ｄ関数を、２つの空間次元（ｘ，ｙ）と、２つの角度次元（φ，θ）とを有する、４Ｄ関数に還元し得る。５Ｄ関数から４Ｄ関数へのライトフィールド関数の次元の還元は、仮想コンテンツのためのライトフィールドの生成を促すだけではなく、また、算出リソースを節約する。

これらの実施形態では、本明細書に説明される光学システムまたはＸＲデバイスは、前述の４Ｄ関数（またはライトフィールド技法のより一般的用途では、５Ｄ関数）を用いて、仮想コンテンツのための複数の点の個別の放射輝度を算出することによって、仮想コンテンツのためのライトフィールドを生成し、ユーザに提示する。ある点に関して算出された放射輝度（または放射輝度束）は、その点によって放出、反射、透過、または受信される光に関するデータを含み、投影された面積当たりベースに基づいて算出されてもよい。ある点に関する放射輝度はまた、周波数および／または波長情報を含んでもよく、放射輝度が、光学システムまたはＸＲデバイスのユーザによって知覚され得る、仮想コンテンツの点（例えば、ピクセルまたはピクセルの集合）または一部を表す、点を表すように指向性である。放射輝度は、正投影画像または同次座標を使用した固定された視野を伴う画像を用いて、点および方向によって、線（例えば、ユーザの眼から仮想コンテンツの点までの線）をパラメータ化する等、任意の技法を用いて算出されてもよい。例えば、ある点の放射輝度は、光スラブ技法を使用して、仮想コンテンツのための点およびユーザの眼を表す点を個別の凸四辺形内にあるように制限し、線形投影マップ（例えば、３×３行列）を用いて、仮想コンテンツ（例えば、仮想コンテンツの画像ピクセル）の点とユーザの眼を表す点との間でマッピングすることによって、決定されてもよい。

例えば、光学システムまたはＸＲデバイスまたは電子機器（例えば、前述のベルトパック）は、画像の２Ｄアレイをレンダリングすることによって、光スラブを生成してもよく、各画像は、４Ｄ光スラブのスライスを固定された平面に表し、仮想カメラの投影の中心を、立体対の画像を生成するために使用されるものと実質的に類似する、剪断透視投影を実施することによって、仮想コンテンツの点に対応する、サンプル場所に設置することによって形成される。いくつかの実施形態では、光スラブは、正投影ビューの２Ｄアレイから形成されてもよい。

光学システムまたはＸＲデバイスを介して、仮想コンテンツのためのライトフィールド表現を生成し、ユーザに提示するために、光学システムまたはＸＲデバイスのレンズ（例えば、図１における１２ａまたは１２ｂ）は、１つまたはそれを上回る平面または自由形態導波管のスタックを含んでもよく、導波管は、それぞれ、１つまたはそれを上回る明確に異なる焦点距離に対応する、１つまたはそれを上回る明確に異なる焦点面を画定してもよい。１つまたはそれを上回る平面または自由形態導波管のスタックは、いくつかの実施形態では、したがって、対応する焦点距離に位置する、複数の焦点面を画定してもよい。画像の２Ｄスライスは、具体的焦点距離における焦点面上にレンダリングされてもよく、２Ｄスライスの集合は、したがって、複数の焦点面にレンダリングされ、次いで、光学システムまたはＸＲデバイスのユーザによって立体視として知覚され得る、仮想コンテンツを表してもよい。

いくつかの実施形態では、導波管は、内部結合光ビームを第１の直交光ビームレットの集合に分割するために平面光学導波管の第１の面と関連付けられる第１の直交瞳拡張（ＯＰＥ）要素と、内部結合光ビームを第２の直交光ビームレットの集合に分割するために平面光学導波管の第２の面と関連付けられる第２の直交瞳拡張（ＯＰＥ）要素とを備える。いくつかの実施形態では、第１のＯＰＥ要素は、平面光学導波管の第１の面上に配置され、第２のＯＰＥ要素は、平面光学導波管の第２の面上に配置される。内部結合要素は、内部結合光ビームの一部が、ＴＩＲを介して、第２の平行光学経路に沿って、平面光学導波管内を伝搬する、個別の第１の直交光ビームレットの集合および第２の直交光ビームレットの集合として偏向されるように、画像投影アセンブリからコリメート光ビームを、伝搬のために、内部結合光ビームとして、全内部反射（ＴＩＲ）を介して、第１のＯＰＥ要素および第２のＯＰＥ要素と交互に交差する、第１の光学経路に沿って、平面光学導波管内で光学的に結合するために構成されてもよい。この場合、第２の平行光学経路は、第１の光学経路に直交してもよい。

いくつかの実施形態では、半反射性界面は、内部結合された光ビームを少なくとも２つの内部結合される光ビームレットに分割させるために構成される。この場合、ＤＯＥは、それぞれ、少なくとも２つの内部結合された光ビームレットを少なくとも２つの直交光ビームレットの集合に分割させるために構成される、直交瞳拡張（ＯＰＥ）要素を備え、半反射性界面はさらに、少なくとも２つの直交光ビームレットの集合を少なくとも４つの直交光ビームレットの集合に分割させるために構成され、ＤＯＥは、少なくとも４つの直交光ビームレットの集合を外部結合された光ビームレットの集合に分割させるために構成される、射出瞳拡張（ＥＰＥ）要素を備える。ＯＰＥ要素およびＥＰＥ要素は、光学平面導波管の面上に配置されてもよい。

いくつかの実施形態では、導波管は、直交光ビームレットを平面光学導波管から退出する外部結合光ビームレットのアレイ（例えば、２次元の外部結合光ビームレットアレイ）に分割するために平面光学導波管と関連付けられる、射出瞳拡張（ＥＰＥ）要素を備えてもよい。コリメート光ビームは、入射瞳を画定してもよく、外部結合光ビームレットアレイは、入射瞳より大きい射出瞳を画定してもよく、例えば、入射瞳より少なくとも１０倍大きい、またはさらに、入射瞳より少なくとも１００倍大きい。

いくつかの実施形態では、ＥＰＥ要素は、平面光学導波管の第１および第２の表面のうちの１つ上に配置される。第１の直交光ビームレットの集合および第２の直交光ビームレットの集合は、第１の直交光ビームレットの集合および第２の直交光ビームレットの集合の一部が、外部結合光ビームレットアレイとして平面光学導波管から外に偏向されるように、ＥＰＥ要素と交差してもよい。いくつかの実施形態では、ＥＰＥ要素は、凸面波面外形を平面光学導波管から退出する外部結合光ビームレットアレイ上に付与するために構成される。この場合、凸面波面外形は、半径の中心を集光点に有し、画像を所与の焦点面に生産してもよい。別の実施形態では、ＩＣ要素、ＯＰＥ要素、およびＥＰＥ要素はそれぞれ、回折性である。

仮想画像生成システムはさらに、複数の一次光ビームレットを平面光学導波管の面から退出する外部結合光ビームレットのアレイ（例えば、２次元の外部結合されたビームレットアレイ）にさらに分割するために平面光学導波管と関連付けられる、１つまたはそれを上回る回折光学要素（ＤＯＥ）を備える。コリメート光ビームは、入射瞳を画定してもよく、外部結合光ビームレットアレイは、入射瞳より大きい射出瞳を画定してもよく、例えば、入射瞳より少なくとも１０倍大きい、またはさらに、入射瞳より少なくとも１００倍大きい。いくつかの実施形態では、一次基板の第１の厚さおよび二次基板の第２の厚さは、外部結合光ビームレットのうちの少なくとも２つの隣接するものの中心間の間隔がコリメート光ビームの幅と等しいまたはそれ未満であるように選択される。別の実施形態では、第１の厚さおよび第２の厚さは、外部結合光ビームレットの隣接するものの半分を上回る間隙が縁間に常駐しないように選択される。

いくつかの実施形態では、半反射性界面は、内部結合光ビームを少なくとも２つの内部結合光ビームレットに分割するために構成される。この場合、ＤＯＥは、それぞれ、少なくとも２つの内部結合光ビームレットを少なくとも２つの直交光ビームレットの集合に分割するために構成される、直交瞳拡張（ＯＰＥ）要素を備え、半反射性界面は、少なくとも２つの直交光ビームレットの集合を少なくとも４つの直交光ビームレットの集合にさらに分割するために構成され、ＤＯＥは、少なくとも４つの直交光ビームレットの集合を外部結合光ビームレットの集合に分割するために構成される、射出瞳拡張（ＥＰＥ）要素を備える。ＯＰＥ要素およびＥＰＥ要素は、光学平面導波管の面上に配置されてもよい。

少なくとも２つの内部結合光ビームレットは、少なくとも２つの内部結合光ビームレットの一部が、ＴＩＲを介して、第２の平行光学経路に沿って、平面光学導波管内を伝搬する、少なくとも２つの直交光ビームレットの集合として回折されるように、全内部反射（ＴＩＲ）を介して、ＯＰＥ要素と交差する第１の光学経路に沿って、平面光学導波管内を伝搬してもよい。第２の平行光学経路は、第１の光学経路に直交してもよい。少なくとも２つの直交光ビームレットの集合は、少なくとも２つの直交光ビームレットの集合の一部が、平面光学導波管の面から外に外部結合される光ビームレットの集合として回折されるように、ＥＰＥ要素と交差してもよい。いくつかの実施形態では、ＥＰＥ要素は、凸面波面外形を平面光学導波管から退出する外部結合光ビームレットアレイ上に付与するために構成されてもよい。この場合、凸面波面外形は、半径の中心を集光点に有し、画像を所与の焦点面に生産してもよい。

本開示の第３の側面によると、仮想画像生成システムは、第１の厚さを有する一次基板と、それぞれ少なくとも１つの第２の厚さを有する少なくとも１つの二次基板とを含む、複数の基板と、それぞれ、基板間に配置される、少なくとも１つの半反射性界面とを備える、平面光学導波管を備える。

第１の厚さは、少なくとも１つの第２の厚さのそれぞれの少なくとも２倍である。いくつかの実施形態では、第１の厚さは、第２の厚さのそれぞれの非倍数である。別の実施形態では、二次基板は、複数の二次基板を備える。この場合、第２の厚さは、相互に等しくてもよい、または二次基板のうちの２つまたはそれを上回るものは、相互に等しくない第２の厚さを有してもよい。第１の厚さは、第２の厚さのうちの少なくとも１つの非倍数であってもよい。等しくない第２の厚さのうちの少なくとも２つは、相互の非倍数であってもよい。

いくつかの実施形態では、半反射性界面はそれぞれ、半反射性コーティングを備え、これは、例えば、それぞれ、物理蒸着（ＰＶＤ）、イオン支援蒸着（ＩＡＤ）、およびイオンビームスパッタリング（ＩＢＳ）のうちの１つを介して、基板間に配置されてもよい。コーティングはそれぞれ、例えば、金属（Ａｕ、Ａｌ、Ａｇ、Ｎｉ－Ｃｒ、Ｃｒ等）、誘電体（酸化物、フッ化物、および硫化物）、および半導体（Ｓｉ、Ｇｅ）のうちの１つまたはそれを上回るものを含んでもよい。さらに別の実施形態では、基板の隣接するものは、異なる屈折率を有する材料から成る。

仮想画像生成システムはさらに、伝搬のために画像投影アセンブリからコリメート光ビームを内部結合光ビームとして平面光学導波管内で光学的に結合するために構成される、内部結合（ＩＣ）要素を備える。画像投影アセンブリは、コリメート光ビーム走査のために構成される、走査デバイスを備えてもよい。半反射性界面は、内部結合光ビームを一次基板内を伝搬する複数の一次光ビームレットに分割するために構成される。

本開示の第４の側面によると、仮想画像生成システムは、結像要素からコリメート光ビームを受光し、コリメート光ビームを初期外部結合光ビームレットの集合に分割するために構成される、前置瞳拡張（ＰＰＥ）要素を備える。仮想画像生成システムはさらに、平面光学導波管と、初期外部結合光ビームレットの集合を平面光学導波管の中に内部結合光ビームレットの集合として光学的に結合するために構成される、内部結合（ＩＣ）要素と、内部結合光ビームレットの集合を平面光学導波管の面から退出する最終外部結合光ビームレットの集合に分割するために平面光学導波管と関連付けられる１つまたはそれを上回る回折要素とを備える。回折要素は、内部結合光ビームレットの集合を直交光ビームレットの集合にさらに分割するために平面光学導波管と関連付けられる、直交瞳拡張（ＯＰＥ）要素と、直交光ビームレットの集合を最終外部結合光ビームレットの集合に分割するために平面光学導波管と関連付けられる、射出瞳拡張（ＥＰＥ）要素とを備えてもよい。

いくつかの実施形態では、コリメート光ビームは、入射瞳を画定し、初期外部結合光ビームレットの集合は、入射瞳より大きい事前拡張瞳を画定し、最終外部結合光ビームレットの集合は、事前拡張瞳より大きい射出瞳を画定する。一実施例では、事前拡張瞳は、入射瞳より少なくとも１０倍大きく、射出瞳は、事前拡張瞳より少なくとも１０倍大きい。いくつかの実施形態では、初期外部結合光ビームレットの集合は、２次元の光ビームレットアレイとして、平面光学導波管の中に光学的に結合され、最終外部結合光ビームレットの集合は、２次元の光ビームレットアレイとして、平面光学導波管の面から退出する。別の実施形態では、初期外部結合光ビームレットの集合は、１次元の光ビームレットアレイとして、平面光学導波管の中に光学的に結合され、最終的に外部結合される光ビームレットの集合は、２次元の光ビームレットアレイとして、平面光学導波管の面から退出する。

いくつかの実施形態では、ＰＰＥ要素は、小型平面光学導波管と、コリメート光ビームを初期直交光ビームレットの集合に分割するために小型平面光学導波管と関連付けられる、小型ＯＰＥ要素と、初期直交光ビームレットの集合を小型平面光学導波管の面から退出する初期外部結合光ビームレットの集合に分割するために小型平面光学導波管と関連付けられる、小型ＥＰＥ要素とを備える。ＰＰＥはさらに、コリメート光ビームを平面光学導波管の中に光学的に結合するために構成される、小型ＩＣ要素を備えてもよい。

別の実施形態では、ＰＰＥ要素は、コリメート光ビームを発散する光ビームレットの初期集合に分割するために構成される、回折ビームスプリッタ（例えば、１×ＮビームスプリッタまたはＭ×Ｎビームスプリッタ）と、発散する光ビームレットの初期集合を初期外部結合光ビームレットの集合に再コリメートするために構成される、レンズ（例えば、回折レンズ）とを備える。

さらに別の実施形態では、ＰＰＥ要素は、コリメート光ビームを内部結合光ビームレットの集合に分割するために構成される、プリズム（例えば、中実プリズムまたは空洞プリズム）を備える。プリズムは、コリメート光ビームを内部結合光ビームレットの集合に分割するために構成される、半反射性プリズム平面を備えてもよい。プリズムは、コリメート光ビームを内部結合光ビームレットの集合に分割するために構成される、複数の平行プリズム平面を備えてもよい。この場合、平行プリズム平面は、半反射性プリズム平面を備えてもよい。複数の平行プリズム平面は、完全反射性プリズム平面を備えてもよく、その場合、コリメート光ビームの一部は、少なくとも１つの半反射性プリズムによって第１の方向に反射されてもよく、コリメート光ビームの一部は、第１の方向における反射のために、完全反射性プリズム平面に透過されてもよい。プリズムは、コリメート光ビームを第１の方向に反射される初期直交光ビームレットの集合に分割するために構成される、第１の平行プリズム平面の集合と、初期直交光ビームレットを第１の方向と異なる第２の方向に反射される内部結合光ビームレットの集合に分割するために構成される、第２の平行プリズム平面の集合とを備えてもよい。第１および第２の指向性は、相互に直交してもよい。

さらに別の実施形態では、ＰＰＥ要素は、コリメート光ビームを第１の平面光学導波管アセンブリの面から退出する２次元の外部結合光ビームレットのアレイ（例えば、Ｎ×Ｎ光ビームレットアレイ）に分割するために構成される、第１の平面光学導波管アセンブリと、２次元の外部結合光ビームレットアレイを第２の平面光学導波管アセンブリの面から内部結合光ビームレットの集合として退出する複数の２次元の外部結合光ビームレットのアレイに分割するために構成される、第２の平面光学導波管アセンブリとを備える。第１および第２の平面光学導波管アセンブリはそれぞれ、等しくない厚さを有してもよい。

２次元の外部結合光ビームレットアレイは、ビームレット間間隔を有し、複数の２次元の外部結合光ビームレットアレイは、２次元の外部結合光ビームレットアレイのビームレット間間隔と異なるアレイ間間隔によって、相互から空間的にオフセットされる。いくつかの実施形態では、複数の２次元の外部結合光ビームレットアレイのアレイ間間隔および２次元の外部結合光ビームレットアレイのビームレット間間隔は、相互の非倍数である。複数の２次元の外部結合光ビームレットアレイのアレイ間間隔は、２次元の外部結合光ビームレットアレイのビームレット間間隔を上回ってもよい。

いくつかの実施形態では、第１の平面光学導波管アセンブリは、対向する第１および第２の面を有する、第１の平面光学導波管と、伝搬のために、コリメート光ビームを、全内部反射（ＴＩＲ）を介して、第１の光学経路に沿って、第１の平面光学導波管内で光学的に結合するために構成される、第１の内部結合（ＩＣ）要素と、コリメート光ビームを第１の平面光学導波管の第２の面から退出する１次元の光ビームレットアレイに分割するために第１の平面光学導波管と関連付けられる、第１の射出瞳エクスパンダ（ＥＰＥ）要素と、対向する第１および第２の面を有する、第２の平面光学導波管と、伝搬のために、１次元の光ビームレットアレイを、ＴＩＲを介して、第１の光学経路と垂直な個別の第２の光学経路に沿って、第２の平面光学導波管内で光学的に結合するために構成される、第２のＩＣ要素と、１次元の光ビームレットアレイを第２の平面光学導波管の第２の面から退出する２次元の光ビームレットアレイに分割するために第２の平面光学導波管と関連付けられる、第２の射出瞳エクスパンダ（ＥＰＥ）要素とを備える。この場合、第２の平面光学導波管の第１の面は、第１の平面光学導波管の第２の面に添着されてもよい。第１および第２の平面光学導波管は、それぞれ、実質的に等しい厚さを有してもよい。

第２の平面光学導波管アセンブリは、対向する第１および第２の面を有する、第３の平面光学導波管と、伝搬のために、第１の２次元の光ビームレットアレイを、ＴＩＲを介して、個別の第３の光学経路に沿って、第３の平面光学導波管内で光学的に結合するために構成される、第３のＩＣ要素と、２次元の光ビームレットアレイを第３の平面光学導波管の第２の面から退出する複数の２次元の光ビームレットアレイに分割するために第３の平面光学導波管と関連付けられる、第３のＥＰＥ要素と、対向する第１および第２の面を有する、第４の平面光学導波管と、伝搬のために、複数の２次元の光ビームレットアレイを、ＴＩＲを介して、第３の光学経路と垂直な個別の第４の光学経路に沿って、第４の平面光学導波管内で光学的に結合するために構成される、第４のＩＣ要素と、複数の２次元の光ビームレットアレイを第４の平面光学導波管の第２の面から光ビームレットの入力集合として退出する複数の２次元の光ビームレットアレイに分割するために第４の平面光学導波管と関連付けられる、第４のＥＰＥ要素とを備えてもよい。この場合、第４の平面光学導波管の第１の面は、第３の平面光学導波管の第２の面に添着されてもよく、第３の平面光学導波管の第１の面は、第２の平面光学導波管の第２の面に添着されてもよい。第１および第２の平面光学導波管は、それぞれ、実質的に等しい厚さを有してもよく、第３および第４の平面光学導波管は、それぞれ、実質的に等しい厚さを有してもよい。この場合、第１および第２の平面光学導波管の実質的に等しい厚さは、第３および第４の平面光学導波管の実質的に等しい厚さと異なってもよい。第３および第４の平面光学導波管の等しい厚さは、第１および第２の平面光学導波管の等しい厚さを上回ってもよい。

ＷＲＡＰ装置１１１０Ｃまたは複数の深度面３Ｄディスプレイシステムの形態における光学装置１１６０Ｃは、例えば、直接または間接的にのいずれかにおいて、画像をユーザの各眼の中に投影してもよい。仮想深度面の数および半径方向設置が、半径方向距離の関数として、ヒト視覚系の深度分解能に匹敵するとき、投影された深度面の離散集合は、実際の持続的３次元オブジェクトまたは場面によって生産される、精神物理的効果を模倣する。１つまたはそれを上回る実施形態では、システム１１００Ｃは、ＡＲユーザ毎にカスタマイズされ得る、フレーム１１７０Ｃを備えてもよい。システム１１００Ｃの付加的コンポーネントは、電子機器１１３０Ｃ（例えば、図１１Ａに図示される電子機器のいくつかまたは全て）を含み、ＡＲシステムの種々の電気および電子サブパーツを相互に接続する。

システム１１００Ｃはさらに、１つまたはそれを上回る仮想画像と関連付けられる光を導波管プリズム１１１０Ｃの中に投影する、マイクロディスプレイ１１２０Ｃを備えてもよい。図１１Ｂに示されるように、マイクロディスプレイ１１２０Ｃから生産された光は、導波管１１１０Ｃ内を進行し、光の一部は、ユーザの眼１１９０Ｃに到達する。１つまたはそれを上回る実施形態では、システム１１００Ｃはさらに、１つまたはそれを上回る補償レンズ１１８０Ｃを備え、仮想画像と関連付けられる光を改変してもよい。図１１Ｃは、図１１Ｂと同一コンポーネントを図示するが、マイクロディスプレイ１１２０Ｃからの光が、導波管１１１０Ｃを通して進行し、ユーザの眼１１９０Ｃに到達する、方法を図示する。

光学装置１１６０Ｃは、それぞれ、線形導波管のそれぞれ内に内蔵される、位置する、または形成される、個別の一連の分解された湾曲球状反射体またはミラーを伴う、いくつかの線形導波管を含んでもよいことを理解されたい。一連の分解された湾曲球状反射体またはミラーは、無限遠集束光を具体的半径方向距離に再集束させるように設計される。凸面球状ミラーが、出力球面波を生産し、凸面球状ミラーの背後の画定された距離に位置するように現れる、仮想点源を表すために使用されることができる。

線形または矩形導波管内において、ある形状（例えば、２つの軸を中心とする曲率半径）および配向の一連のマイクロ反射体をともに連結することによって、仮想点源によって生産された球面波面に対応する３Ｄ画像を特定のｘ、ｙ、ｚ座標に投影することが可能である。２Ｄ導波管または層はそれぞれ、他の導波管に対する独立光学経路を提供し、波面を成形し、入射光を集束させ、個別の半径方向距離に対応する、仮想深度面を投影する。それぞれ、焦点面を異なる焦点深度に提供する、複数の２Ｄ導波管を用いることで、投影された仮想深度面を視認するユーザは、３Ｄ効果を体験する。

図１４Ｆは、いくつかの実施形態における、３×３受容野を有する、１－膨張畳み込みの簡略化された実施例を図示する。より具体的には、図１４Ｆは、膨張が分解能または網羅率の損失を伴わずに、受容野の指数関数的拡張をサポートすることを図示する。図１４Ｆにおける各要素（円形ドット）は、３×３の受容野を有し、各層と関連付けられるパラメータの数は、１－膨張畳み込みと同じである。

図１４Ｇは、いくつかの実施形態における、図１４Ｆにおける１－膨張畳み込みから生産され、２－膨張畳み込みに起因して、７×７受容野を有する、２－膨張畳み込みの簡略化された実施例を図示する。図１４Ｈは、いくつかの実施形態における、図１４Ｇにおける２－膨張畳み込みから生産され、３－膨張畳み込みに起因して、１１×１１受容野を有する、３－膨張畳み込みの簡略化された実施例を図示する。図１４Ｉは、いくつかの実施形態における、図１４Ｈにおける２－膨張畳み込みから生産され、４－膨張畳み込みに起因して、１５×１５受容野を有する、４－膨張畳み込みの簡略化された実施例を図示する。図１４Ｆ－１４Ｉから分かり得るように、受容野は、指数関数的に増加するサイズの正方形である。すなわち、各要素の個別の野は、
（２^ｉ＋１－１）^２であって、式中、ｉ＝１、２、３、…．、ｎであって、ｉは、膨張係数を示す。

図１４Ｈは、いくつかの実施形態における、図７Ｃにおける２－膨張畳み込みから生産され、１１×１１受容野を有する、３－膨張畳み込みの簡略化された実施例を図示する。図１４Ｉは、いくつかの実施形態における、図７Ｄにおける２－膨張畳み込みから生産され、１５×１５受容野を有する、４－膨張畳み込みの簡略化された実施例を図示する。図１４Ｊは、いくつかの実施形態における、周囲推定のための例示的パイプラインを図示する。

図１５Ａは、いくつかの実施形態における、場面の間取図を生成するための高レベルフロー図を図示する。より具体的には、図１５Ａは、２ステッププロセスを伴う、推定される間取図を生成するための高レベルフロー図を図示する。第１のステップの間、部屋分類および壁分類が、いくつかの実施形態では、１５０２Ａにおいて、場面の入力画像から決定され得る。入力画像は、いくつかの実施形態では、カメラによって捕捉された写真等の静止画、いくつかの他の実施形態では、画像のシーケンス、他の実施形態では、ビデオを含んでもよい。入力画像は、入力点群とも称され得る、点または特徴の集合を決定するように処理されてもよい。分類が、標識（例えば、第１の壁標識、第２の壁標識、第１の部屋標識、第２の部屋標識等）を各点または特徴に割り当てるために実施されてもよい。

第２のステップ１５０４Ａの間、間取図が、部屋分類および壁分類に基づいて、推定または少なくとも部分的に決定され得る。現代の間取図推定アプローチと異なり、間取図は、１５０４Ａにおいて、いくつかの実施形態では、部屋の数、部屋の任意の具体的構成、または部屋の任意の形状に関する制約を伴わずに、決定され得る。図１５Ａに図示される２つのステップのそれぞれについてのさらなる詳細は、下記に説明されるであろう。

図１５Ｂは、いくつかの実施形態における、場面の間取図を生成するための図１５Ａに図示される高レベルフロー図についてのさらなる詳細を図示する。より具体的には、図１５Ｂは、図１５Ａにおける１５０２Ａでの部屋分類および壁分類の決定についてのさらなる詳細を図示する。これらの１つまたはそれを上回る実施形態では、入力画像は、１５０２Ｂにおいて識別され得る。画像は、場面（例えば、１つまたはそれを上回る壁を伴う、１つまたはそれを上回る部屋を有する、内環境）の走査から取得されてもよい。例えば、入力画像は、場面の３Ｄ走査から取得されてもよい。上記に説明されるように、入力画像は、いくつかの実施形態では、カメラによって捕捉された写真等の静止画、いくつかの他の実施形態では、画像のシーケンス、他の実施形態では、ビデオを含んでもよい。入力画像は、入力点群とも称され得る、点または特徴の集合を決定するように処理されてもよい。画像は、２次元（２Ｄ）平面画像（または画像のシーケンス）またはより高次元の画像（またはユークリッド空間内の３Ｄ画像等の画像のシーケンス、時間的および空間的次元を伴う、４Ｄ画像、４Ｄライトフィールド表現、５Ｄライトフィールド表現等）であってもよい。

入力点群は、１５０４Ｂにおいて、入力画像から決定されてもよい。例えば、種々の技法が、入力画像に適用され、点または特徴（例えば、頂点、縁等）を入力画像から抽出し、これらの抽出された点または特徴を、入力画像から取得される点の集合を備える、入力点群の中に記憶してもよい。いくつかの実施形態では、入力点群のサブセットが、１５０６Ｂにおいて、識別または決定されてもよい。これらの実施形態のうちのいくつかでは、入力点群の均一サブセットが、１５０６Ｂにおいて、識別または決定されてもよい。深層ネットワークが、識別され、随意に、１５０８Ｂにおいて、少なくとも１つのデータセットを用いて訓練されてもよい。いくつかの実施形態では、雑音を含まない、単純合成データセットが、深層ネットワークを訓練するために使用されてもよい。

１５１０Ｂでは、１つまたはそれを上回る部屋に関する１つまたはそれを上回る部屋クラスタ標識が、入力点群（または随意に、そのサブセット）に関して生成されてもよい。いくつかの実施形態では、部屋クラスタ標識および壁クラスタ標識が、個別の部屋および壁に関して、深層ネットワークを用いて、並行して生成されてもよい。いくつかの実施形態では、クラスタ標識が、図１５Ｄを参照して下記により詳細に説明される、ＰｏｉｎｔＮｅｔ＋＋ベースのクラスタ化モジュールを使用することによって、入力点群（またはそのサブセット）に関して生成されてもよい。加えて、または代替として、クラスタ標識は、クラスタの既存の数を識別し、クラスタの総数を体系的に決定し、教師ありまたは半教師あり設定または教師なし設定において、１つまたはそれを上回る深層ニューラルネットワークを使用することによって、クラスタを決定し、および／またはいくつかの他の実施形態では、投票機構を使用することによって、クラスタ化することによって、生成されてもよい。

図１５Ｃは、いくつかの実施形態における、場面の間取図を生成するための図１５Ａに図示される高レベルフロー図についてのさらなる詳細を図示する。より具体的には、図１５Ｃは、図１５Ａの１５０４Ａにおける間取図を決定するステップについてのさらなる詳細を図示する。これらの実施形態では、ＤｅｅｐＰｅｒｉｍｅｔｅｒタイプの形状（例えば、ＤｅｅｐＰｅｒｉｍｅｔｅｒモジュールを用いて生成された部屋周囲）が、１５０２Ｃにおいて、完全または部分的に、入力画像内に捕捉される（故に、入力点群内に表される）、部屋に関して生成されてもよい。これらの実施形態のうちのいくつかは、部屋毎に、ＤｅｅｐＰｅｒｉｍｅｔｅｒタイプの形状を生成し、ＤｅｅｐＰｅｒｉｍｅｔｅｒタイプの形状は、部屋をポリゴンとして表し、本明細書では、推定される部屋周囲と称され得る。間取図は、１５０４Ｃにおいて、少なくとも、推定される部屋周囲と、同一入力画像または１つまたはそれを上回る別個の入力画像からの場面に関して決定された１つまたはそれを上回る他の推定される部屋周囲を集約または統合することによって、生成されてもよい。１５０２ＣにおいてＤｅｅｐＰｅｒｉｍｅｔｅｒタイプの形状を生成するステップについてのさらなる詳細は、図１５Ｅを参照して下記に説明される。

図１５Ｄは、いくつかの実施形態における、場面の間取図を生成するための図１５Ｂに図示されるフロー図についてのさらなる詳細を図示する。より具体的には、図１５Ｄは、図１５Ｂの１５１０Ｂにおける、部屋クラスタ標識を生成するステップについてのさらなる詳細を図示する。これらの実施形態では、点の集合は、１５０２Ｄにおいて、少なくとも部分的に、下層空間の距離メトリックに基づいて、重複ローカル領域にパーティション化されてもよい。点集合の重複パーティション化を生成するために、パーティションは、下層ユークリッド空間内の近傍ボールとして定義されてもよく、そのパラメータは、いくつかの実施形態では、重心場所およびスケールを含む。集合全体を均一に網羅するために、重心は、これらの実施形態のうちのいくつかでは、最遠点サンプリング（ＦＰＳ）アルゴリズムによって、入力点集合の中から選択される。いくつかの実施形態では、点のパーティション化は、ローカル特徴学習器の加重が畳み込み設定におけるように共有され得るように、パーティションを横断して、共通構造を生産する。

幾何学的構造を捕捉する、１つまたはそれを上回るローカル特徴が、１５０４Ｄにおいて、少なくとも、意味論特徴抽出を点の集合のネスト化されたパーティション化上で再帰的に実施することによって、抽出されてもよい。ＰｏｉｎｔＮｅｔベースのモジュールが、ローカル特徴または点を抽出するために採用されてもよい。

ビジョン分野は、短時間周期にわたって、オブジェクト検出および意味論セグメント化結果を、急速に改良している。大部分において、これらの進歩は、それぞれ、オブジェクト検出および意味論セグメント化のためのＦａｓｔ／ＦａｓｔｅｒＲ－ＣＮＮおよび完全畳み込みネットワーク（ＦＣＮ）フレームワーク等の強力なベースラインシステムによって駆動されている。これらの方法は、概念的に直感的であって、高速訓練および推定時間とともに、フレキシビリティおよびロバスト性をもたらす。

これらの技法は、フレームワーク、例えば、セグメント化を発展させている。インスタンスセグメント化は、各インスタンスを精密にセグメント化もしながら、画像内の全てのオブジェクトの正しい検出を要求するため、困難である。これらの技法は、したがって、その目的が、個々のオブジェクトを分類し、各境界ボックスを使用して、それぞれを位置特定することである、オブジェクト検出、およびその目的が、オブジェクトインスタンスを区別せずに、各ピクセルをカテゴリの固定された集合に分類することである、意味論セグメント化の古典的コンピュータビジョンタスクからの要素を組み合わせる。

意味論セグメント化に基づく場面解析は、コンピュータビジョンにおける基本主題である。その目標は、画像内の各ピクセルに、カテゴリ標識を割り当てることである。場面解析は、場面の完全理解を提供する。これは、要素毎に、標識、場所、および形状を予測する。本主題は、いくつか挙げると、自動運転、ロボット感知のポテンシャル用途に関する広範な関心を集めている。場面解析の困難性は、場面および標識多様性に非常に関連する。先駆的場面解析タスクは、ＬＭＯデータセット上の２，６８８枚の画像に関して、３３個の場面を分類するものである。より最近のＰＡＳＣＡＬＶＯＣ意味論セグメント化およびＰＡＳＣＡＬコンテキストデータセットは、椅子およびソファ、ウマおよびウシ等の類似コンテキストを伴う、より多くの標識を含む。新しいＡＤＥ２０Ｋデータセットは、大規模かつ制限されていないオープン語彙およびより多くの場面クラスを伴う、最も困難なものである。

意味論フィルタリングまたは意味論セグメント化は、２Ｄ／３Ｄ知覚、場面分析、および場面理解等のコンピュータビジョンにおいて重要であって、ＸＲ（エクステンデッドリアリティ）、ＡＲ（拡張現実）、ＭＲ（複合現実）、ＶＲ（仮想現実）、ＬｉＤＡＲ（光検出および測距）、ロボット等の技術分野において、広範囲の用途を有する。意味論セグメント化またはフィルタリングは、環境の知覚等のコンピュータビジョンのための入力画像を受信する。種々のアプローチは、２Ｄ畳み込みニューラルネットワーク等の技法を用いて、２Ｄ画像のための意味論セグメント化の成功を実証している。

ＭｉｃｒｏｓｏｆｔＫｉｎｅｃｔ、ＩｎｔｅｌＲｅａｌＳｅｎｃｅ、およびＧｏｏｇｌｅＴａｎｇｏ等の汎用ＲＧＢ－Ｄセンサの広可用性に伴って、屋内空間の３Ｄ再構築物が、急速に増している。３Ｄ再構築物は、グラフィック用途、および高品質３Ｄモデルを周囲環境から取得することに依拠する、仮想および拡張現実用途のためのコンテンツを作成することに役立ち得る。有意な進歩が、大空間を走査するための追跡正確度および効率的データ構造において成されているが、結果として生じる再構築された３Ｄモデル品質は、満足の行かないままである。品質における１つの基本限界は、一般に、走査がオクルージョンおよび測距センサの物理的限界に悩まされるため、所与の場面の部分的かつ不完全な再構築物のみを取得し得ることである。実践では、ヒト専門家による慎重な走査を用いても、事実上、再構築物内に穴を伴わずに、部屋を走査することは不可能である。穴は、審美的に魅力的ではなく、かつ走査のある面積が自由空間または占有される空間を表すかどうかが不明であるため、３Ｄ印刷または場面編集等の下流処理における深刻な問題につながり得ることの両方をもたらす。Ｌａｐｌａｃｉａｎ穴埋めまたはＰｏｉｓｓｏｎ表面再構築等の従来的アプローチは、小穴を埋めることができる。しかしながら、欠失壁または椅子脚部等の高レベル場面幾何学形状を完成させることは、はるかに困難である。本問題を解法することに向けた１つの有望な方向性は、完成のために、機械学習を使用するものである。ごく最近では、単一オブジェクトまたは深度フレームを伴う、３Ｄ完成および他の生成タスクのための深層学習アプローチが、示される有望な結果を示している。しかしながら、３Ｄにおける生成モデル化および構造化された出力予測は、困難なままである。立体グリッドを用いて表されるとき、データサイズは、空間のサイズが増加するにつれて、３乗で成長し、これは、分解能を著しく限定する。屋内場面は、特に、それらが、大きいだけではなく、また、可変空間範囲を伴って、不規則的に成形され得るため、困難である。

最先端場面解析フレームワークは、主に、完全畳み込みネットワーク（ＦＣＮ）に基づく。深層畳み込みニューラルネットワーク（ＣＮＮ）ベースの方法は、動的オブジェクト理解を後押するが、依然として、多様な場面および制限されていない語彙を考慮して、課題に直面する。これらの誤差は、オブジェクトの類似外観に起因する。しかし、場面が川の近傍のボート小屋として説明された、コンテキスト先行値に関する画像を視認するとき、正しい予測が、もたらされるはずである。正確な場面知覚に向かって、知識グラフは、場面コンテキストの先行情報に依拠する。現在のＦＣＮベースのモデルに関する主要な問題点のうちの１つは、グローバル場面カテゴリ手掛かりを利用するための好適な方略の欠如である。典型的複雑な場面理解のため、以前は、グローバル画像レベル特徴を得るために、空間統計が全体的場面解釈のための良好な記述子を提供する、空間ピラミッドプーリングが、広く採用されていた。空間ピラミッドプーリングネットワークは、本能力をさらに向上させる。

３Ｄまたはさらにより高次元（例えば、４Ｄ時空間または時間的・空間的画像またはさらにより高次元の画像）の出現に伴って、これらの技法は、不良性能に悩まされ、通常、より高い次元の入力画像または画像シーケンス（例えば、３Ｄビデオ）に伴ってスケール変換しない。

入力画像または画像シーケンス（例えば、ビデオ）が、３Ｄまたはより高次元のデータ（例えば、３Ｄビデオ、４Ｄ時空間画像シーケンス等）を備える、いくつかの実施形態では、いくつかの実施形態は、意味論フィルタリングまたはセグメント化が場面分析および理解を実施するために、ＭｉｎｋｏｗｓｋｉＮｅｔベースのアルゴリズム、ＳｃａｎＣｏｍｐｌｅｔｅベースのアルゴリズム等のアルゴリズムを利用する。入力画像または画像シーケンス（例えば、ビデオ）が、２Ｄデータを備える、いくつかの他の実施形態では、いくつかの実施形態は、意味論フィルタリングまたはセグメント化が場面分析および理解を実施するために、ＭａｓｋＲＣＮＮベースのアルゴリズム、ＰＳＰＮｅｔベースのアルゴリズム等のアルゴリズムを利用する。

例えば、ＬＩＤＡＲスキャナおよび深度カメラが、より入手可能かつロボット用途のために広く使用されるようになるにつれて、３Ｄ－ビデオは、ロボットシステムまたはＡＲ／ＶＲ用途のための入力の容易に利用可能なソースとなった。しかしながら、高レベル知覚タスクのために３Ｄビデオを使用する際に、多くの技術的課題が存在する。第１に、３Ｄデータは、異種表現および処理を要求し、それらは、ユーザを遠ざけるか、またはより大きいシステムの中に統合することを困難にするかのいずれかとなる。第２に、３Ｄ畳み込みニューラルネットワークの性能は、２Ｄ畳み込みニューラルネットワークより劣るか、またはそれに匹敵するかである。第３に、高速大規模３Ｄデータのための限定された数のオープンソースライブラリが存在する。

高次元知覚における課題の、全部ではないにしても、大部分を解決するために、いくつかの実施形態は、問題のために疎テンソルを採用し、一般化された疎畳み込みを提案する。一般化された疎畳み込みは、全ての離散畳み込みをそのサブクラスとして包含し、高次元知覚のために重要である。いくつかの実施形態は、一般化された疎畳み込みおよび第４節およびオープンソースライブラリ内の全ての標準的ニューラルネットワーク機能を実装する。

いくつかの実施形態は、いくつかの理由から、疎表現を採用する。現在、３Ｄ知覚のための種々の同時研究、すなわち、稠密３Ｄ畳み込み、ＰｏｉｎｔＮｅｔ－バリアント、持続的畳み込み、表面畳み込み、および八分木畳み込みが存在する。これらの表現のうち、いくつかの実施形態は、高次元空間のためのその表現力および一般化可能性に起因して、疎テンソルを選定する。また、それらの大部分が疎テンソルをサポートするため、従来的ニューラルネットワークライブラリ内で同種データ表現を可能にする。第２に、疎畳み込みは、標準的畳み込み（第３節）に非常に類似し、これは、２Ｄ知覚および３Ｄ再構築、特徴学習、および意味論セグメント化において成功していることが証明されている。第３に、疎畳み込みは、効率的かつ高速である。これは、所定の座標に関する出力のみを算出し、それらをコンパクトな疎テンソル（第３節）の中に保存する。これは、特に、空間の大部分が空である、３Ｄ走査または高次元データのために、メモリおよび算出の両方を保存する。したがって、いくつかの実施形態は、問題に関する疎表現を採用し、最初の大規模３Ｄ／４ＤネットワークまたはＭｉｎｋｏｗｓｋｉネットワークを作成する。

しかしながら、効率的表現を用いても、単に、３Ｄ畳み込みを高次元空間にスケール変換することは、次元の呪いに起因して、有意な算出オーバーヘッドおよびメモリ消費をもたらす。カーネルサイズ５を伴う、２Ｄ畳み込みは、５２＝２５加重を要求し、これは、３Ｄ立方体では、５３＝１２５、４Ｄテッセラクトでは、６２５まで指数関数的に増加する。しかしながら、本指数関数的増加は、必ずしも、より良好な性能につながらず、ネットワークを有意に減速させる。本課題を克服するために、いくつかの実施形態は、一般化された疎畳み込みを使用して、非（ハイパー）立方体形状を伴う、カスタムカーネルを提案する。最後に、４Ｄ時間的・空間的一般化された疎畳み込みニューラルネットワークからの予測は、必ずしも、空間および時間全体を通して一貫しない。一貫性を強化するために、いくつかの実施形態は、定常対毎一貫性関数を伴う、７Ｄ三辺空間（空間－時間－色）に定義される、高次元条件付き確率場を採用する。いくつかの実施形態は、変分推定を使用して、条件付き確率場を弁別可能再帰層に変換する、これは、７Ｄ一般化疎畳み込みニューラルネットワークとして実装され、４Ｄおよび７Ｄネットワークの両方をエンドツーエンドで訓練することができる。

３Ｄ畳み込みを伴わない、ニューラルネットワーク。最近、３Ｄ知覚のための３Ｄ畳み込みを伴わない、ニューラルネットワークの使用が、著しく増加している。３Ｄ走査は、薄い観察可能な表面から成るため、意味論セグメント化のために、２Ｄ畳み込みを表面上で使用することが提案されている。別の方向性は、ＰｏｉｎｔＮｅｔベースの方法である。ＰｏｉｎｔＮｅｔは、入力座標の集合を多層パーセプトロンのための特徴として使用する。しかしながら、本アプローチは、限定された数の点を処理し、したがって、セクションを入力からクロップピングするためのスライディングウィンドウが、大空間が、限定されるのではなく、受容野サイズを作製するために使用された。いくつかのアプローチは、複数のＰｏｉｎｔＮｅｔ上で再帰ネットワークを用いて、そのような欠点を解決することを試み、ＰｏｉｎｔＮｅｔの下位層のための３Ｄ持続的畳み込みのバリアントを提案し、有意な性能上昇を得た。

疎テンソルおよび畳み込み：従来的発話、テキスト、または画像データでは、特徴が、稠密に抽出される。したがって、これらのデータの最も一般的表現は、ベクトル、行列、およびテンソルである。しかしながら、３次元走査またはさらにより高次元の空間に関して、そのような稠密表現は、疎密性に起因して、非効率的である。代わりに、いくつかの実施形態は、その座標および関連付けられる特徴として、空間の非空部分のみを保存することができる。本表現は、疎行列のＮ次元拡張であって、したがって、疎テンソルとして知られる。そのような疎テンソルをコンパクトなに保存するための多くの方法が存在するが、いくつかの実施形態は、近傍クエリのために効率的であるため、ＣＯＯフォーマットに従う。

一般化された疎畳み込み：いくつかの実施形態は、汎用入力および出力座標および恣意的カーネル形状に関して、疎畳み込みを一般化する。一般化された疎畳み込みは、全ての疎畳み込みだけではなく、また、従来の稠密畳み込みも包含する。

をｕ∈Ｒ^Ｄ（Ｄ次元座標）におけるＤ次元空間内のＮ^ｉｎ次元入力特徴ベクトルとし、畳み込みカーネル加重を

とする。いくつかの実施形態は、加重を、｛ｉ｝＝Ｋ^Ｄに関するＷｉとして、サイズＮ^ｏｕｔ×Ｎ^ｉｎのＫ^Ｄ行列を伴う、空間加重に分割する。したがって、Ｄ次元における従来の稠密畳み込みは、以下となる。

式中、Ｖ^Ｄ（ｋ）は、原点に心合されるＤ次元超立方体内のオフセットのリストであって、例えば、Ｖ^１（３）＝｛－１，０，１｝である。方程式１５Ｄ－３における一般化された疎畳み込みは、以下のように、方程式１５Ｄ－２を緩和する。

式中、Ｎ^Ｄは、カーネルの形状を定義する、オフセットの集合であって、Ｃ^ｉｎ内に存在する、現在の中心ｕからのオフセットの集合として、Ｎ^Ｄ（ｕ，Ｃ^ｉｎ）＝｛ｉ｜ｕ＋ｉ∈Ｃ^ｉｎ（ｉ∈Ｎ^Ｄ）｝である。Ｃ^ｉｎおよびＣ^ｏｕｔは、疎テンソルの所定の入力および出力座標である。第１に、入力座標および出力座標は、必ずしも、同一ではないことに留意されたい。第２に、いくつかの実施形態は、Ｎ^Ｄに伴って、畳み込みカーネルの形状を恣意的に定義する。本一般化は、膨張畳み込みおよび典型的超立方体カーネル等の多くの特殊な場合を包含する。別の興味深い特殊な場合は、いくつかの実施形態が、Ｃ_ｏｕｔ＝Ｃ_ｉｎおよびＮＤ＝ＶＤ（Ｋ）を設定するときの、「疎部分多様体畳み込み」である。Ｃ^ｉｎ＝Ｃ^ｏｕｔ＝Ｚ^ＤおよびＮ^Ｄ＝Ｖ^Ｄ（ｋ）が、設定される場合、一般化された疎畳み込みは、従来の稠密畳み込み（方程式１５Ｄ－２）となる。Ｃ^ｉｎおよびＣ^ｏｕｔが、自然数の倍数として定義され、Ｎ^Ｄ＝Ｖ^Ｄ（ｋ）である場合、ストライド稠密畳み込みが、取得され得る。

いくつかの実施形態は、上記に説明される疎テンソルおよび一般化された疎畳み込みのために、Ｍｉｎｋｏｗｓｋｉエンジンおよび自動分化ライブラリを利用する。疎畳み込みニューラルネットワークにおける第１のステップは、疎テンソルを生成するためのデータ処理であって、これは、入力を一意の座標、関連付けられる特徴、随意に、意味論セグメント化のために訓練するとき、標識に変換する。アルゴリズム１では、いくつかの実施形態は、本プロセスのためのＧＰＵ関数をリスト化する。稠密標識が、与られると、これらの実施形態は、１つを上回る一意の標識を伴うボクセルを無視することが重要である。これは、これらのボクセルをＩＧＮＯＲＥ＿ＬＡＢＥＬでマーキングすることによって行われることができる。最初に、これらの実施形態は、全ての座標をハッシュキーに変換し、全ての一意のハッシュキー－標識対を見出し、衝突を除去する。ＳｏｒｔＢｙＫｅｙ、ＵｎｉｑｕｅＢｙＫｅｙ、およびＲｅｄｕｃｅｄＢｙＫｅｙは全て、標準的Ｔｈｒｕｓｔライブラリ関数であることに留意されたい。還元関数ｆ（（ｌ_ｘ；ｉ_ｘ）；（ｌ_ｙ；ｉ_ｙ））＝＞（ＩＧＮＯＲＥ＿ＬＡＢＥＬ；ｉｘ）は、標識－キー対をとり、同一キー内の少なくとも２つの標識－キー対が、標識衝突が存在することを意味するため、ＩＧＮＯＲＥ＿ＬＡＢＥＬを返す。ＣＰＵ－バージョンも、全ての還元およびソートが順次処理されることを除き、同様に機能する。

パイプラインにおける次のステップは、入力座標Ｃ^ｉｎを前提として、出力座標Ｃ^ｏｕｔを生成する（方程式１５Ｄ－３）。従来のニューラルネットワーク内で使用されるとき、本プロセスは、畳み込みストライドサイズ、入力座標、および入力疎テンソルのストライドサイズ（座標間の最小距離）のみを要求する。アルゴリズムは、補助資料に提示される。いくつかの実施形態は、本出力座標を動的に作成し、一般化された疎畳み込みのための恣意的出力座標Ｃ^ｏｕｔを可能にする。次に、入力をカーネルを用いて畳み込むために、いくつかの実施形態は、どの入力がどの出力に影響を及ぼすかを識別するためのマッピングを必要とする。本マッピングは、容易に推測され得るため、従来の稠密畳み込みでは要求されない。しかしながら、座標が恣意的に散乱される、疎畳み込みに関して、いくつかの実施形態は、マッピングを規定する。本マッピングは、カーネルマップと称され、入力インデックスおよび出力インデックスの対のリストＭ＝｛（Ｉ_ｉ，Ｏ_ｉ）｝_ｉ（ｉ∈Ｎ^Ｄに対して）として定義され得る。最後に、入力および出力座標、カーネルマップ、およびカーネル加重Ｗｉを前提として、いくつかの実施形態は、オフセットｉ∈Ｎ^Ｄ（アルゴリズム２）のそれぞれを通して反復することによって、一般化された疎畳み込みを算出することができ、式中、Ｉ［ｎ］およびＯ［ｎ］は、それぞれ、インデックスＩおよびＯのリストのｎ番目の要素を示し、ＦｉｎおよびＦｏｎもまた、それぞれ、ｎ番目の入力および出力特徴ベクトルである。転置された一般化された疎畳み込み（逆畳み込み）も、入力および出力座標の役割が逆転されることを除き、同様に機能する。

稠密テンソルと異なり、疎テンソル上では、入力特徴の数は、出力あたりで変動する。したがって、これは、最大／平均プーリングのために簡単ではない実装をもたらす。ＩおよびＯを、それぞれ、ｉ∈Ｎ^Ｄに関して、全ての｛Ｉ_ｉ｝_ｉｉおよび｛Ｏ_ｉ｝_ｉを連結したベクトルとする。いくつかの実施形態は、最初に、各出力座標あたりの入力の数およびそれらの入力のインデックスを見出す。アルゴリズム３は、同一出力座標にマッピングされる、入力特徴を還元する。シーケンス（ｎ）は、０からｎ－１までの整数のシーケンスおよび還元関数ｆ（（ｋ_１，ｖ_１），（ｋ_２，ｖ_２））＝ｍｉｎ（ｖ_１，ｖ_２）を生成し、これは、２つのキー／値対を前提として、最小値を返す。ＭａｘＰｏｏｌＫｅｒｎｅｌは、同一出力にマッピングされる、Ｉの最初のインデックスを含有する、Ｓ’と、対応する出力インデックスＯ”とを使用して、規定されたチャネルにおいて、全ての特徴を還元する、カスタムＣＵＤＡカーネルである。

平均プーリングおよびグローバルプーリング層は、平均プーリングのための出力座標またはグローバルプーリングのための１つの出力座標毎に、入力特徴の平均を算出する。これは、複数の方法で実装されることができる。いくつかの実施形態は、ハードウェア上で、またはより高速の疎ＢＬＡＳライブラリを使用して、最適化され得るため、疎行列乗算を使用する。特に、いくつかの実施形態は、疎行列－行列（ｃｕｓｐａｒｓｅ＿ｃｓｒｍｍ）および行列ベクトル積（ｃｕｓｐａｒｓｅ＿ｃｓｒｍｖ）のためのｃｕＳｐａｒｓｅライブラリを使用して、これらの層を実装する。最大プーリングアルゴリズムと同様に、Ｍは、（Ｉ，Ｏ）入／出力カーネルマップである。グローバルプーリングに関して、いくつかの実施形態は、全ての入力を原点にマッピングし、同一アルゴリズム４を使用する、カーネルマップを作成する。転置されたプーリング（アンプーリング）も同様に、機能する。アルゴリズム４の最後の行では、いくつかの実施形態は、プーリングされた特徴を各出力にマッピングされた入力の数によって除算する。しかしながら、本プロセスは、密度情報を除去し得る。したがって、いくつかの実施形態は、入力の数で除算せず、和プーリングと命名される、変形例を提案する。

ＲｅＬＵ等の空間情報（座標）を要求しない、関数に関して、いくつかの実施形態は、関数を直接特徴Ｆに適用することができる。また、バッチ正規化に関して、Ｆの各行が特徴を表すため、いくつかの実施形態は、１Ｄバッチ正規化関数を直接Ｆ上で使用してもよい。

いくつかの実施形態は、時間的・空間的知覚のために、４次元時間的・空間的畳み込みニューラルネットワークを導入する。いくつかの実施形態は、時間次元を余剰空間次元として取り扱い、４次元畳み込みを伴う、ネットワークを作成する。しかしながら、高次元畳み込みから生じる一意の問題が存在する。第１に、算出コストおよびネットワーク内のパラメータの数は、いくつかの実施形態が次元を増加させるにつれて、指数関数的に増加する。しかしながら、いくつかの実施形態は、これらの増加が、必ずしも、より良好な性能につながるわけではないことを実験的に実証している。第２に、ネットワークは、予測を空間および時間全体を通して従来のクロスエントロピ損失のみと一貫させるための動因を有していない。第１の問題を解決するために、いくつかの実施形態は、一般化された疎畳み込みの特殊性質を利用して、メモリおよび算出を節約するだけではなく、また、より良好に性能を発揮する、非従来のカーネル形状を提案する。第２に、時間的・空間的一貫性を強化するために、いくつかの実施形態は、ネットワーク予測をフィルタリングする、高次元条件付き確率場（７Ｄ空間－時間－色空間）を採用する。いくつかの実施形態は、変分推定を使用して、基本ネットワークおよび条件付き確率場の両方をエンドツーエンドで訓練する。

テッセラクトカーネルおよびハイブリッドカーネル：３Ｄデータの表面積は、時間に対して一次式的に、空間分解能に対して二次式的に増加する。しかしながら、いくつかの実施形態が、畳み込みカーネルのために、従来の４Ｄ超立方体またはテッセラクトを使用するとき、パラメータの数の指数関数的増加は、過剰パラメータ化、過剰適合、および高算出コストおよびメモリ消費につながる。代わりに、いくつかの実施形態は、ハイブリッドカーネル（非超立方体、非置換多面体）を採用し、算出を節約する。いくつかの実施形態は、一般化された疎畳み込みの恣意的カーネルオフセットＮＤを使用して、ハイブリッドカーネルを実装する。ハイブリッドカーネルは、十字形カーネルと従来の立方体カーネルの組み合わせである。空間次元に関して、いくつかの実施形態は、立方体カーネルを使用して、空間幾何学形状を正確に捕捉する。時間的次元に関して、いくつかの実施形態は、十字形カーネルを使用して、時間を横断して、空間内の同一点を接続する。いくつかの実施形態は、ハイブリッドカーネルが、速度および正確度の両方において、テッセラクトカーネルを凌ぐことを実験的に実証している。

残差Ｍｉｎｋｏｗｓｋｉネットワーク：一般化された疎畳み込みは、ストライドおよびカーネル形状を恣意的に定義することを可能にする。したがって、いくつかの実施形態は、一般化された疎畳み込みのみを用いて、高次元ネットワークを作成し、実装をより容易かつ汎用性のあるものにすることができる。加えて、これは、２Ｄにおける最近のアーキテクチャ革新を直接高次元ネットワークに対して採用することを可能にする。実証するために、いくつかの実施形態は、図１２Ａにおける残差ネットワークの高次元バージョンを作成する。図１２Ａでは、例示的アーキテクチャは、ＲｅｓＮｅｔ１８を左側に、ＭｉｎｋｏｗｓｋｉＮｅｔ１８を右側に備える。本例示的アーキテクチャでは、「ｘ」は、超立方体カーネルを示し、「＋」は、ハイパークロスカーネルを示すことに留意されたい。第１の層に関して、７×７２Ｄ畳み込みの代わりに、いくつかの実施形態は、５×５×５×１の一般化された疎畳み込みを使用する。しかしながら、ネットワークの残りに関して、いくつかの実施形態は、オリジナルネットワークアーキテクチャに従う。Ｕ形状のバリアントに関して、いくつかの実施形態は、基本残差ネットワーク上で同一ストライドサイズを伴う層を接続するスキップ接続（図１２Ｂ参照）を伴って、多重ストライド疎畳み込みおよびストライド疎転置畳み込みを追加する。いくつかの実施形態は、意味論セグメント化実験のために、同一アーキテクチャの複数の変形例を使用する。図１２Ｂは、ＭｉｎｋｏｗｓｋｉＵＮｅｔ３２の例示的アーキテクチャを図示する。図１２Ｂでは、「ｘ」は、超立方体カーネルを示し、「＋」は、ハイパークロスカーネルを示す。

三辺定常－ＣＲＦ：意味論セグメント化のために、クロスエントロピ損失が、ピクセルまたはボクセル毎に適用される。しかしながら、損失は、対毎項を有していないため、一貫性を強化しない。そのような一貫性をより明示的にするために、いくつかの実施形態は、１つの画像意味論セグメント化で使用されるものに類似する、高次元条件付き確率場（ＣＲＦ）を採用する。画像セグメント化では、２Ｄ空間および３Ｄ色から成る、二辺空間が、ＣＲＦのために使用される。３Ｄ－ビデオに関して、いくつかの実施形態は、３Ｄ空間、１Ｄ時間、および３Ｄ色彩空間から成る、三辺空間を使用する。色空間は、（例えば、境界上で）空間的に隣接する、異なる色を伴う点間の「空間」間隙を作成する。したがって、これは、情報が異なる領域に「漏出」しないように防止する。ガウシアンエッジポテンシャルおよび稠密接続を伴う、従来のＣＲＦと異なり、いくつかの実施形態は、適合度関数をガウシアンになるように制限しない。代わりに、いくつかの実施形態は、制約を緩和し、定常性条件のみを適用する。分布のグローバル最適条件を見出すために、いくつかの実施形態は、変分推定を使用して、一連の固定点更新方程式を類似する再帰ニューラルネットワークに変換する。いくつかの実施形態は、一般化された疎畳み込みを７Ｄ空間内で使用し、再帰を実装し、単項ポテンシャルを生成する基本ネットワークとＣＲＦの両方をエンドツーエンドでともに訓練する。

７Ｄ（空間－時間－色）空間内のＣＲＦノードをｘ_ｉとして、単項ポテンシャルをφ_ｕ（ｘ_ｉ）として、対毎ポテンシャルをφ_ｐ（ｘ_ｉ，ｘ_ｊ）とし、ｘ_ｊは、ｘ_ｊ、Ｎ^７（ｘ_ｉ）の近傍である。条件付き確率場が、以下のように定義される。

式中、Ｚは、パーティション関数であって、Ｘは、全てのノードの集合であって、φ_ｐは、τ_ｕ,τ_ｖ∈Ｒ^Ｄに関して、定常性条件φ_ｐ（ｕ＋τ_ｕ，ｖ＋τ_ｖ）を充足させなければならない。いくつかの実施形態は、カメラ付帯性質を使用して、世界座標系内のノードｘ_ｉの空間座標を定義することに留意されたい。これは、定常点が、時間全体を通して同一座標を有することを可能にする。

最適化アルゴリズムｍａｘ_ｘＰ（ｘ）は、扱いにくい。代わりに、いくつかの実施形態は、変分推定を使用して、最適Ｐ（Ｘ）と近似される分布Ｑ（Ｘ）との間の発散を最小限にする。具体的には、いくつかの実施形態は、閉形式解が存在するため、平均場近似Ｑ＝Π_ｉＱ_ｉ（ｘ_ｉ）を使用する。定理１１．９から、Ｑは、以下の場合に限り、極大値である。

７Ｄ疎畳み込みを用いた学習：方程式１５Ｄ－４における加重和φ_ｐ（ｘ_ｉ，ｘ_ｊ）Ｑ_ｊ（ｘ_ｊ）は、φ_ｐ（ｘ_ｉ，ｘ_ｊ）が、定常であって、各縁ｘ_ｉ，ｘ_ｊ間の各縁が、Ｎ^７を使用してエンコードされ得るため、７Ｄ空間における一般化された疎畳み込みに匹敵する。したがって、これらの実施形態は、固定点更新方程式である方程式１５Ｄ－４をアルゴリズム５におけるアルゴリズムに変換する。

最後に、いくつかの実施形態は、φｕを４ＤＭｉｎｋｏｗｓｋｉネットワークのロジット予測として使用し、下記の方程式１５Ｄ－５を使用する、１つの４Ｄおよび１つの７ＤＭｉｎｋｏｗｓｋｉネットワークを使用して、φｕおよびφｐの両方をエンドツーエンドで訓練する。

上記の説明は、意味論セグメント化およびフィルタリングのためのＭｉｎｋｏｗｓｋｉＮｅｔベースのアルゴリズムを利用するためのものである。以下の説明は、意味論セグメント化またはフィルタリングのためのＳｃａｎＣｏｍｐｌｅｔｅベースのアルゴリズムを利用するためのものである。

いくつかの実施形態は、空間範囲に関する制限を伴わずに、大３Ｄ環境上で動作する、新規アプローチである、ＳｃａｎＣｏｍｐｌｅｔｅを提案する。いくつかの実施形態は、より小さいサブ体積上で訓練されるが、試験時に、恣意的サイズの場面環境に適用され得る、完全畳み込みニューラルネットワークを活用する。本能力は、非常に大きい屋内場面の３Ｄ走査の効率的処理を可能にし、いくつかの実施形態は、最大１，４８０×１，２３０×６４ボクセル（≒７０×６０×３ｍ）の境界を伴う、実施例を示す。いくつかの実施形態は、具体的には、場面完了および意味論推定のタスクに焦点を当て、所与の部分的入力走査に関して、いくつかの実施形態は、欠失幾何学形状を推測し、意味論標識をボクセル毎ベースで予測する。高品質出力を取得するために、モデルは、十分に高分解能を使用して、微細スケール詳細を予測しなければならない。しかしながら、また、十分に大コンテキストを検討し、大構造を認識し、グローバル一貫性を維持しなければならない。これらの競合懸念を解消するために、いくつかの実施形態は、その中でモデルが出力の多分解能階層を予測する、粗大／微細方略を採用する。第１の階層レベルは、場面幾何学形状および意味論を、低分解能であるが、大空間コンテキストで予測する。続くレベルは、より小さい空間コンテキストであるが、より高い分解能を使用して、グローバルコンテキストを活用するために、先行階層レベルの出力を入力としてとる。いくつかの実施形態では、場面完成および意味論標識化が、前例のない空間範囲で観察されている。加えて、いくつかの実施形態は、モデルを合成データ上で訓練し、それを汎用走査デバイスから得られた実ＲＧＢ－Ｄ走査の完成物に転写することが可能であることを実証している。結果は、既存の完成方法を凌ぎ、意味論ボクセル標識化のための有意に高い正確度を取得する。要するに、いくつかの実施形態は、少なくとも以下の技術的利点、すなわち、恣意的空間範囲を伴う３Ｄ場面を処理するための３Ｄ完全畳み込み完成ネットワーク、ローカル詳細およびグローバル構造の両方を捕捉する、粗大／微細完成方略、および両方とも有意な許容差で既存の方法を凌ぐ、場面完成および意味論標識化を提供する。

ＳｃａｎＣｏｍｐｌｅｔｅ方法は、入力として、立体グリッド内に記憶される切り捨て符号付き距離場（ＴＳＤＦ）によって表される、部分的３Ｄ走査をとる。ＴＳＤＦは、立体融合アプローチに続く深度フレームから生成され、これは、現代のＲＧＢ－Ｄ走査方法によって広く採用されている。いくつかの実施形態は、本部分的ＴＳＤＦを新しい立体ニューラルネットワークの中にフィードし、これは、切り捨て符号なし距離場（ＴＤＦ）を出力する。訓練時、いくつかの実施形態は、ネットワークに、標的ＴＤＦを提供し、これは、完全グラウンドトゥルースメッシュから生成される。ネットワークは、ＴＤＦを出力するように訓練され、これは、本標的完全ＴＤＦに可能な限り類似する。ネットワークは、３次元フィルタバンクとともに、完全畳み込みアーキテクチャを使用する。その重要となる性質は、入力空間範囲に対するその不変性であって、これは、特に、そのサイズが有意に変動し得る、大３Ｄ場面を完成するために重要である。すなわち、いくつかの実施形態は、サンプリングされた訓練場面からのランダム空間クロップを使用して、ネットワークを訓練し、次いで、試験時、異なる空間範囲上で試験することができる。立体グリッドのメモリ要件は、空間範囲に伴って、３乗で成長し、これは、管理可能な分解能を限定する。小ボクセルサイズは、ローカル詳細を捕捉するが、空間コンテキストを欠いており、大ボクセルサイズは、大空間コンテキストを提供するが、ローカル詳細を欠いている。高分解能を維持しながら、両方の世界の最良点を得るために、いくつかの実施形態は、粗大／微細階層方略を使用する。ネットワークは、最初に、入力からのよりグローバルな情報を活用するために、低分解能において、出力を予測する。後続階層レベルは、より高い分解能およびより小さいコンテキストサイズで動作する。それらは、現在のレベルの不完全なＴＳＤＦに加え、先行レベルの出力に条件付ける。いくつかの実施形態は、最粗大レベルにおける数メートル（約６ｍ^３）の大コンテキストから、約５ｃｍ^３の微細スケールボクセル分解能まで、３つの階層レベルを使用する。ネットワークは、自動回帰アーキテクチャを使用する。いくつかの実施形態は、同一群からのボクセルが相互に隣接しないように、所与の階層レベルの立体空間を８つのボクセル群の集合に分割する。ネットワークは、群１内の全てのボクセルを予測し、その後、群２内の全てのボクセルの予測が続く等となる。群毎の予測は、それに先行する、群に関する予測に関して条件付けられる。したがって、いくつかの実施形態は、ボクセル群毎に１つずつ、８つの別個のネットワークを使用する。いくつかの実施形態はまた、ネットワーク出力とグラウンドトゥルース標的ＴＤＦとの間の差異にペナルティを科す、訓練損失関数に関して、複数のオプションを模索する。１つのオプションとして、いくつかの実施形態は、決定的｀１－距離を使用し、これは、ネットワークに、単一モード上に焦点を当てさせる。本設定は、部分的走査が、十分なコンテキストを含有し、欠失幾何学形状の単一解説を可能にするとき、理想的である。別のオプションとして、いくつかの実施形態は、分類問題として公式化される、確率論的モデルを使用し、例えば、ＴＤＦ値は、ビンに離散化され、その確率は、ＴＤＦ値の大きさに基づいて加重される。本設定は、予測がマルチモード式であり得るため、非常に疎の入力に関してより好適であり得る。完全幾何学形状を予測することに加え、モデルは、意味論標識をボクセルあたりベースでともに予測する。意味論標識予測はまた、完全畳み込み自動回帰アーキテクチャおよび粗大／微細予測方略を活用して、場面の正確な意味論セグメント化を取得する。結果として、いくつかの実施形態は、完成が意味論推定にどれほど有用であるかを実証している。

ＳｃａｎＣｏｍｐｌｅｔｅＣＮＮアーキテクチャを訓練するために、いくつかの実施形態は、部分的ＴＳＤＦ走査とその完成ＴＤＦ対応物の訓練対を準備する。いくつかの実施形態は、以前の研究からの訓練－試験対合から５，３５９枚の訓練場面と、１５５枚の試験場面とを使用して、ＳＵＮＣＧから訓練実施例を生成する。ネットワークが、深度入力のみを要求するため、いくつかの実施形態は、実世界走査経路を模倣する走査軌道を生成することによって、深度データを仮想的に走査する。これを行うために、いくつかの実施形態は、軌道統計をＳｃａｎＮｅｔデータセットから抽出し、接地面の上方のカメラ高さおよび注視ベクトルと世界上方向ベクトルとの間のカメラ角度の平均値および分散値を算出する。ＳＵＮＣＧ場面内の部屋毎に、いくつかの実施形態は、次いで、本分布からサプリングし、カメラ高さおよび角度を選択する。

部屋内の各１．５ｍ^３領域において、いくつかの実施形態は、１つのカメラを選択し、訓練走査軌道に追加する。いくつかの実施形態は、その結果として生じる深度画像Ｄ（ｃ）がＳｃａｎＮｅｔからの深度画像に最も類似する、カメラｃを選定する。本類似性を定量化するために、いくつかの実施形態は、最初に、ＳｃａｎＮｅｔ内の全てのカメラに関する値の深度のヒストグラムＨ（Ｄ（ｃ））を算出し、次いで、平均ヒストグラム

を算出する。いくつかの実施形態は、次いで、ＳｃａｎＮｅｔ内の全てのカメラに関するヒストグラムと、ＳｃａｎＮｅｔ内の全てのカメラに関する

との間のＥａｒｔｈＭｏｖｅｒ’ｓＤｉｓｔａｎｃｅ、例えば、

を算出する。いくつかの実施形態は、これらの距離値の平均値μ_ＥＭＤおよび分散値σ_ＥＭＤ ^２を求める。これは、実走査軌道内で予期される平均深度ヒストグラムまでの距離にわたるガウス分布を与える。候補カメラｃ毎に、いくつかの実施形態は、本分布下のその確率、例えば、

を算出する。いくつかの実施形態は、人々が、深度センサを直接接地面または壁に向けるのではなく、走査を関心のあるオブジェクト上に合焦させる傾向にあるという仮定を反映して、（例えば、床、天井、または壁ではない）場面オブジェクトを網羅する、Ｄ（ｃ）内のピクセルのパーセンテージを用いて、本項の線形組み合わせを求める。本組み合わせられた対象下の最高スコアカメラｃ＊は、訓練走査軌道に追加される。

レンダリングされたビューに関して、いくつかの実施形態は、ピクセル毎深度をメートル単位で記憶する。これらの実施形態は、次いで、データを稠密な規則的グリッドの中に立体的に融合させ、各ボクセルは、切り捨て符号付き距離値を記憶する。いくつかの実施形態は、切り捨てを３×ボクセルサイズに設定し、これらの実施形態は、ＴＳＤＦ値をボクセル距離メトリック内に記憶する。これらの実施形態は、４．７ｃｍ^３、９．４ｃｆ’ｍ^３、および１８．８ｃｍ^３のボクセルサイズを伴う、３つの階層レベルに関して、独立して、本プロセスを繰り返す。いくつかの実施形態は、ＳＵＮＣＧからの完全メッシュを使用して訓練するために、標的ＴＤＦを生成する。これを行うために、これらの実施形態は、Ｂａｔｔｙによる等位集合生成ツールキットを採用する。ボクセル毎に、これらの実施形態は、切り捨て距離値（符号なし、すなわち、３×ボクセルサイズの切り捨て）およびボクセル中心に最も近いオブジェクトの意味論標識を記憶する。ＴＳＤＦと同様に、ＴＤＦ値は、ボクセル距離メトリック内に記憶され、これらの実施形態は、３つの階層レベル毎に、本グラウンドトゥルースデータ生成を繰り返す。

訓練するために、いくつかの実施形態は、訓練場面のそれぞれから３ｍ間隔でサブ体積を均一にサンプリングする。これらの実施形態は、任意の非構造オブジェクトボクセル（例えば、テーブル、椅子）を含有する、全てのサブ体積を保ち、９０％確率を伴う、構造ボクセル（例えば、壁／天井／床）のみを含有する、サブ体積をランダムに破棄する。これは、合計２２５，４１４個の訓練サブ体積をもたらす。いくつかの実施形態は、レベル毎に、［３２×１６×３２］、［３２×３２×３２］、および［３２×６４×３２］のボクセルグリッド分解能を使用し、それぞれ、［６ｍ×３ｍ×６ｍ］、［３ｍ^３］、［１．５ｍ×３ｍ×１．５ｍ］の空間範囲をもたらす。試験のために、いくつかの実施形態は、場面全体上で試験する。入力される部分的ＴＳＤＦおよび完全標的ＴＤＦは両方とも、場面の完全範囲に及ぶ均一グリッドとして記憶され、これは、試験集合を横断して変動する。完全畳み込みアーキテクチャは、異なるサイズ上で訓練および試験を可能にし、可変訓練空間範囲をサポートする。

入力ＴＳＤＦの符号は、カメラ可視性に従って、既知および未知の空間をエンコードし、例えば、負の値を伴うボクセルは、観察される表面の背後にあって、したがって、未知であることに留意されたい。対照的に、いくつかの実施形態は、全てのボクセルがグラウンドトゥルース内で既知であるため、グラウンドトゥルース標的体積に関して、符号なし距離場（ＴＤＦ）を使用する。標的距離場は、符号を使用して、オブジェクトの内側の空間を表すべきであると異議が唱えられ得る。しかしながら、これは、そこからグラウンドトゥルース距離場が生成される、合成３Ｄモデルが完璧であることは稀であるため、実践では、実行不可能である。離散占有グリッドではなく、暗示的関数（ＴＳＤＦおよびＴＤＦ）の使用は、訓練プロセスにおけるより良好な勾配を可能にし、これは、以前の研究における異なるタイプのグリッド表現上での種々の実験によって実証されている。

いくつかの実施形態では、単一階層レベルのためのＳｃａｎＣｏｍｐｌｅｔｅネットワークアーキテクチャは、直接３Ｄ内で動作する、完全畳み込みアーキテクチャを備え、これは、異なる訓練および試験入力データサイズに対して不変にする。各階層レベルでは、ネットワークは、入力される部分的走査（立体グリッド内のＴＳＤＦとしてエンコードされる）および先行低分解能ＴＤＦ予測（基本レベルではない場合）および任意の先行ボクセル群ＴＤＦ予測を入力としてとる。入力体積はそれぞれ、１×１×１畳み込みショートカットを伴う一連の３Ｄ畳み込みを用いて、処理される。それらは、次いで、特徴毎に全ての連結され、ショートカットを伴う３Ｄ畳み込みを用いて、さらに処理される。終了時、ネットワークは、２つの経路に分裂し、一方は、幾何学的完成物を出力し、他方は、意味論セグメント化を出力し、これは、それぞれ、｀１損失およびボクセル毎ソフトマックスクロスエントロピを用いて測定される。階層レベル間のアーキテクチャの概要。

ネットワークを訓練するために、いくつかの実施形態は、上記に説明されるように、ＳＵＮＣＧデータセットから生成された訓練データを使用する。訓練時、いくつかの実施形態は、グラウンドトゥルース体積をネットワークへの先行ボクセル群入力としてフィードする。しかしながら、先行階層レベル入力に関して、いくつかの実施形態は、先行階層レベルネットワークによって予測される体積をフィードする。代わりに、先行階層レベルの予測される体積を入力として使用することによって、ネットワークは、よりグローバルなより低周波数の情報（壁および床における大穴を充填する方法等）に関する先行レベルの入力のみに依拠して、現在のレベルの部分的入力走査を使用して、詳細を分解するように学習しなければならない。本アプローチの１つの欠点は、ネットワークが、階層レベル毎に、もはや並列に訓練されることができないことである。それらは、ネットワークが、階層レベル毎に、先行レベルにおいて訓練されたネットワークからの出力予測に依存するため、順次、訓練されなければならない。いくつかの実施形態では、全ての階層レベルは、単一のエンドツーエンドプロシージャにおいて訓練されてもよい。しかしながら、現在のＧＰＵメモリ限界は、これを扱いにくいものにする。いくつかの実施形態は、モデルを合成データ上で訓練するため、これらの実施形態は、訓練サンプルが過剰適合に対抗するために、高さジッタを導入し、［０，０．１８７５］ｍの範囲内の（均一）ランダムジッタによって、全ての訓練サンプルを高さにおいてジッタさせる。訓練データは、壁および床に向かって、歪まされるため、いくつかの実施形態は、構造クラス（例えば、壁／床／天井）対全ての他のオブジェクトクラスに関して、１：１０比率を使用して、再加重を意味論損失内に適用する。最終モデルに関して、いくつかの実施形態は、学習率０．００１（０．０００１まで減衰される）を伴うＡｄａｍオプティマイザを使用して、全てのネットワークをＮＶＩＤＩＡＧＴＸ１０８０上で訓練する。いくつかの実施形態は、合計２４個の訓練されたネットワークに関して、３つの階層レベルのそれぞれにおいて、８つのボクセル群毎に、１つのネットワークを訓練する。各階層レベル内の８つのネットワークは、並列に訓練され、完全階層のための総訓練時間は、約３日であることに留意されたい。

３Ｄまたは他のより高次元のデータセット（例えば、３Ｄ走査）上での意味論セグメント化が、前述の修正ＭｉｎｋｏｗｓｋｉＮｅｔベースのアルゴリズム、ＳｃａｎＣｏｍｐｌｅｔｅベースのアルゴリズム等を使用することによって、実施されてもよい一方、２Ｄデータセット上での意味論セグメント化は、修正ＭａｓｋＲＣＮＮベースのアルゴリズム、修正ＰＳＰＮｅｔベースのアルゴリズム等を使用することによって、実施されてもよい。以下の説明は、２Ｄデータセット上での意味論セグメント化またはフィルタリングのために使用され得る、修正ＭａｓｋＲＣＣベースのアルゴリズムを対象とする。

良好な結果を達成するために、複雑な方法を提供することは要求されず、いくつかの実施形態は、驚くべきことに、現在の最先端インスタンスセグメント化結果を上回る、単純、フレキシブル、かつ高速のシステムを提供する。ＭａｓｋＲ－ＣＮＮとも称される、これらの実施形態は、分類および境界ボックス回帰のための既存の分岐と並列に、各着目領域（ＲｏＩ）上でセグメント化マスクを予測するための分岐を追加することによって、ＦａｓｔｅｒＲ－ＣＮＮを拡張させる（図１４Ａ）。図１４Ａは、画像または画像シーケンス等の入力１４０２Ａを受信する、修正ＭａｓｋＲＣＮＮベースのアーキテクチャのための簡略化されたアーキテクチャを図示する。修正ＭａｓｋＲＣＮＮベースのアーキテクチャは、１４０４Ａにおいて本明細書に説明されるＲｏＩＡｌｉｇｎを使用することによって、入力画像１４０２Ａを処理し、着目領域（ＲｏＩ）を整合させる。ＲｏＩＡｌｉｇｎ１４０４Ａの出力は、第１の畳み込み１４０６Ａ（これはまた、その出力を分類ボックスに提供してもよい）に提供され、その後、下記に説明されるように、第２の畳み込み１４０８Ａが続き、出力１４１０Ａを生成する。

マスク分岐は、各ＲｏＩに適用される小ＦＣＮであって、ピクセル毎様式において、セグメント化マスクを予測する。ＭａｓｋＲ－ＣＮＮは、ＦａｓｔｅｒＲ－ＣＮＮフレームワークを前提として、実装および訓練が単純であって、これは、広範囲のフレキシブルアーキテクチャ設計を促進する。加えて、マスク分岐は、小算出オーバーヘッドのみを追加し、高速システムおよび高速実験を可能にする。原理上、ＭａｓｋＲ－ＣＮＮは、ＦａｓｔｅｒＲ－ＣＮＮの直感的拡張であるが、マスク分岐を適切に構築することは、良好な結果のために重要である。最も重要なこととして、ＦａｓｔｅｒＲ－ＣＮＮは、ネットワーク入力と出力との間のピクセル毎整合のために設計されなかった。これは、インスタンスに対応するための事実上のコア動作であるＲｏＩＰｏｏｌが、特徴抽出のために粗大空間量子化を実施する方法において最も明らかである。不整合を修正するために、我々は、正確な空間場所を忠実に保存する、ＲｏＩＡｌｉｇｎと呼ばれる、単純な量子化のない層を提案する。見掛け上、わずかな変化であるにもかかわらず、ＲｏＩＡｌｉｇｎは、大きな影響を及ぼす。すなわち、マスク正確度を相対的に１０％～５０％改良し、より厳密な位置特定メトリック下でより大きい利得を示す。第２に、我々は、マスクおよびクラス予測を分断することが不可欠であることを見出した。すなわち、クラス間で競合せずに、独立して、クラス毎にバイナリマスクを予測し、ネットワークのＲｏＩ分類分岐に依拠して、カテゴリを予測する。対照的に、ＦＣＮ（完全畳み込みネットワーク）は、通常、ピクセル毎のマルチクラスカテゴリ化を実施し、これは、セグメント化および分類を結合し、種々の実験に基づいて、例えば、セグメント化に関して、不良に機能する。

ＭａｓｋＲ－ＣＮＮは、概念的に単純である。すなわち、ＦａｓｔｅｒＲ－ＣＮＮは、候補オブジェクト毎の２つの出力、クラス標識、および境界ボックスオフセットを有する。このために、我々は、オブジェクトマスクを出力する、第３の分岐を追加する。ＭａｓｋＲ－ＣＮＮは、したがって、自然かつ直感的概念である。しかし、付加的マスク出力は、クラスおよびボックス出力と明確に異なり、オブジェクトのはるかに微細な空間レイアウトの抽出を要求する。次に、我々は、Ｆａｓｔ／ＦａｓｔｅｒＲ－ＣＮＮの主要な欠失断片である、ピクセル毎整合を含む、ＭａｓｋＲ－ＣＮＮの重要な要素を導入する。

いくつかの実施形態は、ＦａｓｔｅｒＲ－ＣＮＮ検出器を簡単に精査することによって開始する。ＦａｓｔｅｒＲ－ＣＮＮは、２つの段階から成る。領域提案ネットワーク（ＲＰＮ）と呼ばれる、第１の段階は、候補オブジェクト境界ボックスを提案する。本質的に、ＦａｓｔＲ－ＣＮＮである、第２の段階は、特徴を、ＲｏＩＰｏｏｌを使用して、各候補ボックスから抽出し、分類および境界ボックス回帰を実施する。両方の段階によって使用される特徴は、より高速の推定において共有されることができる。ＦａｓｔｅｒＲ－ＣＮＮと他のフレームワークとの間の最新の包括的比較に関しては、読者は、いくつかの実施形態を参照されたい。

ＭａｓｋＲ－ＣＮＮは、同一２段階プロシージャを採用し、同じ第１の段階（ＲＰＮである）を伴う。第２の段階では、クラスおよびボックスオフセットを予測することと並行して、ＭａｓｋＲ－ＣＮＮはまた、ＲｏＩ毎に、バイナリマスクを出力する。これは、分類がマスク予測に依存する、最も最近のシステムと対照的である。いくつかの実施形態は、境界ボックス分類および回帰を並行して適用する（オリジナルＲ－ＣＮＮの多段階パイプラインを大きく簡略化することが分かる）、ＦａｓｔＲ－ＣＮＮの精神に従う。形式上、訓練の間、いくつかの実施形態は、各サンプリングされるＲｏＩ上のマルチタスク損失をＬ＝Ｌ_ｃｌｓ＋Ｌ_ｂｏｘ＋Ｌ_ｍａｓｋとして定義する。分類損失Ｌ_ｃｌｓおよび境界ボックス損失Ｌ_ｂｏｘは、そこで定義されるものと同じである。マスク分岐は、ＲｏＩ毎にＫｍ^２寸法出力を有し、これは、Ｋ個のクラス毎に１つずつ、分解能ｍ×ｍのＫ個のバイナリマスクをエンコードする。この目的を達成するために、いくつかの実施形態は、ピクセル毎のシグモイドを適用し、Ｌ_ｍａｓｋを平均バイナリクロスエントロピ損失として定義する。グラウンドトゥルースクラスｋと関連付けられる、ＲｏＩに関して、Ｌ_ｍａｓｋは、ｋ番目のマスク上にのみ定義される（他のマスク出力は、損失に寄与しない）。Ｌ_ｍａｓｋの定義は、ネットワークが、クラス間で競合せずに、クラス毎にマスクを生成することを可能にする。いくつかの実施形態は、専用分類分岐に依拠して、出力マスクを選択するために使用されるクラス標識を予測する。これは、マスクおよびクラス予測を分断する。これは、典型的には、ピクセル毎のソフトマックスおよび多項クロスエントロピ損失を使用する、ＦＣＮを意味論セグメント化に適用するときの一般的実践と異なる。その場合、クラスを横断したマスクは、競合し、ピクセル毎のシグモイドおよびバイナリ損失を伴う、いくつかの実施形態では、それらは、競合しない。いくつかの実施形態は、本公式が良好なインスタンスセグメント化結果のために重要であることを示す。

マスク表現：マスクは、入力オブジェクトの空間レイアウトをエンコードする。したがって、全結合（ｆｃ）層によって、短出力ベクトルの中に不可避的に折り畳まれる、クラス標識またはボックスオフセットと異なり、マスクの空間構造を抽出するステップは、畳み込みによって提供されるピクセル毎対応によって、必然的に対処され得る。具体的には、いくつかの実施形態は、ＦＣＮを使用して、ｍ×ｍ個のマスクを各ＲｏＩから予測する。これは、マスク分岐内の各層が、それを空間次元を欠いているベクトル表現の中に折り畳まずに、明示的ｍ×ｍ個のオブジェクト空間レイアウトを維持することを可能にする。マスク予測のためのｆｃ層に依拠する、以前の方法と異なり、完全畳み込み表現は、より少ないパラメータを要求し、実験によって実証されるように、より正確である。本ピクセル毎挙動は、それ自体が小特徴マップである、ＲｏＩ特徴が、明示的ピクセル毎の空間対応を忠実に保存するように良好に整合されることを要求する。これは、マスク予測において重要な役割を担う、続くＲｏＩＡｌｉｇｎ層を開発することの動機付けとなった。

ＲｏＩＡｌｉｇｎ：ＲｏＩＰｏｏｌは、小特徴マップ（例えば、７×７）を各ＲｏＩから抽出するための標準的演算である。ＲｏＩＰｏｏｌは、最初に、浮動数ＲｏＩを特徴マップの離散粒度に量子化し、本量子化されたＲｏＩは、次いで、空間ビンに細分割され、これ自体が量子化され、最後に、各ビンによって網羅される特徴値が、集約される（通常、最大プーリングによって）。量子化は、例えば、［ｘ／１６］を算出することによって、持続的座標ｘ上で実施されて、１６は、特徴マップストライドであって、および［・］は、丸めである。同様に、量子化は、ビンを分割する（例えば、７×７）ときにも実施される。これらの量子化は、ＲｏＩと抽出された特徴との間の不整合を導入する。これは、分類に影響を及ぼさず、これは、小平行移動に対してロバストであり得るが、ピクセルに正確なマスクを予測するステップに大きな負の影響を及ぼす。これに対処するために、いくつかの実施形態は、ＲｏＩＰｏｏｌの厳格な量子化を除去し、抽出された特徴と入力を適切に整合させる、ＲｏＩＡｌｉｇｎ層を採用する。いくつかの提案される変更は、単純である。すなわち、いくつかの実施形態は、ＲｏＩ境界またはビンの任意の量子化を回避する（例えば、いくつかの実施形態は、［ｘ／１６］の代わりに、ｘ／１６を使用する）。いくつかの実施形態は、双線形補間を使用して、各ＲｏＩビン内の４つの定期的にサンプリングされる場所における入力特徴の正確な値を算出し、結果を集約する（最大または平均を使用して）（詳細に関しては、図１４Ｂ参照）。図１４Ｂは、ＲｏＩＡｌｉｇｎ（例えば、図１４Ａにおける１４０４Ａ）についてのさらなる詳細を図示する。より具体的には、破線グリッド１４０６Ｂは、特徴マップを表し、実線１４０２Ｂは、着目領域を表し、これは、２×２ビンを備える。各ビン内の４つのドット１４０４Ｂは、ビン内のサンプリング点を表す。本明細書に説明される、説明されたＲｏＩＡｌｉｇｎモジュール（例えば、図１４Ａにおける１４０４Ａ）は、例えば、特徴マップ上の近隣のグリッド点からの双線形補間によって、各サンプリング点の値を算出する。いくつかの実施形態では、量子化は、ＲｏＩ、そのビン、またはサンプリング点に関わる任意の座標上では実施されない。結果は、量子化が実施されない限り、正確なサンプリング場所またはサンプリングされる点の数に敏感ではないことに留意されたい。ＲｏＩＡｌｉｇｎモジュールは、いくつかの実施形態が以下の段落において示すように、大改良につながる。いくつかの実施形態はまた、ＲｏＩＷａｒｐ演算に匹敵する。ＲｏＩＡｌｉｇｎと異なり、ＲｏＩＷａｒｐは、整合問題点を許容し、ＲｏＩＰｏｏｌのように、ＲｏＩを量子化する際に実装された。したがって、ＲｏＩＷａｒｐはまた、それによって動機付けられた双線形再サンプリングを採用する場合でも、実験（表２ｃにさらなる詳細）によって示されるように、ＲｏＩＰｏｏｌに匹敵する性能を発揮し、整合の重要な役割を実証している。

ネットワークアーキテクチャ：いくつかの実施形態の汎用性を実証するために、いくつかの実施形態は、複数のアーキテクチャを用いて、ＭａｓｋＲ－ＣＮＮをインスタンス化する。明確にするために、いくつかの実施形態は、（ｉ）画像全体にわたる特徴抽出のために使用される、畳み込みバックボーンアーキテクチャと、（ｉｉ）各ＲｏＩに別個に適用される、境界ボックス認識（分類および回帰）およびマスク予測のためのネットワークヘッドとを区別する。いくつかの実施形態は、命名ネットワーク－深度－特徴を使用する、バックボーンアーキテクチャを示す。いくつかの実施形態は、深度５０または１０１層のＲｅｓＮｅｔおよびＲｅｓＮｅｘｔネットワークを評価する。ＲｅｓＮｅｔを伴う、ＦａｓｔｅｒＲ－ＣＮＮのオリジナル実装は、特徴を、Ｃ４と称され得る、４番目の段階の最終畳み込み層からの抽出した。ＲｅｓＮｅｔ－５０を伴う、本バックボーンは、例えば、ＲｅｓＮｅｔ－５０－Ｃ４によって示される。これは、そこで使用される一般的選択肢である。いくつかの実施形態はまた、特徴ピラミッドネットワーク（ＦＰＮ）等の別のより効果的バックボーンを模索する。ＦＰＮは、側方接続を伴う、トップダウンアーキテクチャを使用して、ネットワーク内特徴ピラミッドを単一スケール入力から構築する。ＦＰＮバックボーンを伴う、ＦａｓｔｅｒＲ－ＣＮＮは、そのスケールに従って、ＲｏＩ特徴を異なるレベルの特徴ピラミッドから抽出するが、そうでなければ、アプローチの残りは、ｖａｎｉｌｌａＲｅｓＮｅｔに類似する。ＭａｓｋＲ－ＣＮＮを用いた特徴抽出のためにＲｅｓＮｅｔ－ＦＰＮバックボーンを使用することは、正確度および速度の両方において、優れた利得を与える。ＦＰＮに関するさらなる詳細に関しては、読者は、いくつかの実施形態を参照されたい。ネットワークヘッドに関して、いくつかの実施形態は、以前の研究に提示されるアーキテクチャに従い、それに対していくつかの実施形態は、完全畳み込みマスク予測分岐を追加する。具体的には、いくつかの実施形態は、ＦａｓｔｅｒＲ－ＣＮＮボックスヘッドをＲｅｓＮｅｔおよびＦＰＮから拡張させる。詳細は、図１４Ｃに示される。ＲｅｓＮｅｔ－Ｃ４バックボーン上のヘッドは、ＲｅｓＮｅｔの５番目の段階（すなわち、９層「ｒｅｓ５」）を含み、これは、算出上集約的である。ＦＰＮに関して、バックボーンは、すでに、ｒｅｓ５を含み、したがって、より少ないフィルタを使用する、より効率的ヘッドを可能にする。マスク分岐は、簡単な構造を有することに留意されたい。より複雑な設計は、性能を改良するための潜在性を有するが、本研究の焦点ではない。

図１４Ｃでは、ヘッドアーキテクチャ内にＲｅｓＮｅｔ１４００Ｃを伴うＦａｓｔｅｒＲ－ＣＮＮは、１４０２Ｃにおいて、ＲｏＩ１４０１Ｃを識別し、これは、ｒｅｓ５ブロック１４０６Ｃを介して、別の７×７×２０４８ブロック１４０４Ｃへの出力を生産する、７×７×１０２４ブロックである。ブロック１４０４Ｃの出力は、分類および境界ボックスを提供するための、ブロック１４０８Ｃ（１，０２４個のチャネルに対応する）、および／またはその出力を１４×１４×８０ブロック１４１８Ｃにさらに提供する、１４×１４×２５６ブロック１４１６Ｃに提供されてもよい。ＦＰＮ１４２０Ｃを伴うＦａｓｔｅｒＲ－ＣＮＮブロックでは、ＲｏＩ１４０１Ｃは、７×７×２５６ブロック１４２２Ｃおよび／または１４×１４×２５６ブロック１４２８Ｃに提供されてもよい。７×７×２５６ブロック１４２２Ｃの出力は、分類出力１４１２Ｃおよび／または境界ボックス１４１４Ｃを生成する、ブロック１０２６Ｃ（また、１，０２４個のチャネルに対応する）への出力をさらに生産する、ブロック１４２４Ｃ（１，０２４個のチャネルに対応する）に提供されてもよい。１４×１４×２５６ブロック１４２８Ｃの出力は、第１の１４×１４×２５６ブロック１４３０Ｃに、その後、２８×２８×２５６ブロック１４３２Ｃに提供され、２８×２８×８０ブロック１４３４Ｃに続いてもよい。

ヘッドアーキテクチャ：いくつかの実施形態は、２つの既存のＦａｓｔｅｒＲ－ＣＮＮヘッドを拡張させる。２つのブロックは、それぞれ、ＲｅｓＮｅｔＣ４（１４００Ｃ）およびＦＰＮ（１４２０Ｃ）バックボーンのためのヘッドを示し、それに対してマスク分岐が追加される。７×７×１，０２５等の以下の数は、空間分解能（７×７）およびチャネル（１０２４）を示す。矢印は、コンテキストから推測され得るように、畳み込み、逆畳み込み、またはｆｃ（全結合）層のいずれかを示す（畳み込みは、空間次元を保存する一方、逆畳み込みは、それを増加させる）。全ての畳み込みは、３×３であるが、出力畳み込みは、１×１であって、逆畳み込みは、ストライド２を伴う、２×２であって、いくつかの実施形態は、ＲｅＬＵ（正規化線形ユニット）を隠れ層内で使用する。左：「ｒｅｓ５」は、ＲｅｓＮｅｔの第５段階を示し、便宜上、いくつかの実施形態は、第１の畳み込みがストライド１を伴う７×７ＲｏＩ（１４×１４／ストライド２の代わりに）に作用するように改変される。右：「×４」は、４つの連続畳み込みのスタックを示す。

例示的実装詳細：いくつかの実施形態は、既存のＦａｓｔ／ＦａｓｔｅｒＲ－ＣＮＮ研究に従う、ハイパーパラメータを設定する。これらの決定は、オリジナルでは、オブジェクト検出のために行われたが、いくつかの実施形態は、インスタンスセグメント化システムが、それらに対してロバストであることを見出した。

訓練：ＦａｓｔＲ－ＣＮＮにおけるように、ＲｏＩは、少なくとも０．５のグラウンドトゥルースボックスを伴う、ＩｏＵを有する場合、正であって、そうでなければ、負であると見なされる。マスク損失Ｌ_ｍａｓｋは、正のＲｏＩ上にのみ定義される。マスク標的は、ＲｏＩとその関連付けられるグラウンドトゥルースマスクとの間の積集合である。いくつかの実施形態は、画像中心訓練を採用する。画像は、そのスケール（より短い縁）が８００ピクセルであるように、サイズ変更される。各ミニバッチは、ＧＰＵあたり２つの画像を有し、各画像は、Ｎ個のサンプリングされるＲｏＩを有し、正対負の１：３の比率を伴う。Ｎは、Ｃ４バックボーンに関して、６４であって、ＦＰＮに関して、５１２である。いくつかの実施形態は、１６０ｋ回の反復にわたって、１２０ｋ回の反復時、１０減少される、０．０２の学習率を用いて、８つのＧＰＵ上で訓練する（したがって、有効ミニバッチサイズは、１６である）。いくつかの実施形態は、０．０００１の加重減衰と、０．９のモーメンタムとを使用する。ＲｅｓＮｅｘｔを用いることで、いくつかの実施形態は、０．０１の開始学習率を伴って、ＧＰＵあたり１つの画像および同一数の反復を用いて訓練する。その後、ＲＰＮアンカは、５つのスケールおよび３つのアスペクト比に及ぶ。便宜的アブレーションのために、ＲＰＮは、規定されない限り、別個に訓練され、ＭａｓｋＲ－ＣＮＮと特徴を共有しない。エントリ毎に、ＲＰＮおよびＭａｓｋＲ－ＣＮＮは、同一バックボーンを有し、したがって、それらは、共有可能である。推定：試験時、提案数は、Ｃ４バックボーンに関して、３００であって、ＦＰＮに関して、１，０００である。いくつかの実施形態は、ボックス予測分岐をこれらの提案上で起動し、その後、非最大値抑制が続く。マスク分岐は、次いで、最高スコアの１００個の検出ボックスに適用される。これは、訓練する際に使用される並列算出と異なるが、推定を加速させ、正確度を改良する（より少ない、より正確なＲｏＩの使用に起因して）。マスク分岐は、ＲｏＩあたりＫ個のマスクを予測することができるが、いくつかの実施形態は、ｋ番目のマスクのみを使用し、ｋは、分類分岐によって予測されるクラスである。ｍ×ｍ個の浮動数マスク出力は、次いで、ＲｏＩサイズにサイズ変更され、０．５の閾値においてバイナリ化される。いくつかの実施形態は、マスクを上位１００個の検出ボックス上でのみ算出するため、ＭａｓｋＲ－ＣＮＮは、小オーバーヘッドをそのＦａｓｔｅｒＲ－ＣＮＮ対応物に追加する（例えば、典型的モデルに関して約２０％）ことに留意されたい。

上記は、意味論セグメント化またはフィルタリングのための修正ＭａｓｋＲＣＮＮモジュールのいくつかの例示的実装詳細を説明する。上記に説明されるように、３Ｄまたは他のより高次元のデータセット（例えば、３Ｄ走査）上の意味論セグメント化は、前述の修正ＭｉｎｋｏｗｓｋｉＮｅｔベースのアルゴリズム、ＳｃａｎＣｏｍｐｌｅｔｅベースのアルゴリズム等を使用することによって、実施されてもよいが、２Ｄデータセット上の意味論セグメント化は、修正ＭａｓｋＲＣＮＮベースのアルゴリズム、修正ＰＳＰＮｅｔベースのアルゴリズム等を使用することによって、実施されてもよい。以下の説明は、２Ｄデータセット上での意味論セグメント化またはフィルタリングのために使用され得る、修正ＭａｓｋＲＣＣベースのアルゴリズムを対象とする。以下の節は、意味論セグメント化またはフィルタリングのための修正ＰＳＰＮｅｔベースのアルゴリズムを対象とする。

上記に説明されるように、最先端場面解析フレームワークは、主に、完全畳み込みネットワーク（ＦＣＮ）に基づく。深層畳み込みニューラルネットワーク（ＣＮＮ）ベースの方法は、動的オブジェクト理解を後押するが、依然として、多様な場面および制限されていない語彙を考慮すると、課題に直面する。これらの方法と異なり、好適なグローバル特徴を組み込むために、いくつかの実施形態は、ピラミッド場面解析ネットワーク（ＰＳＰＮｅｔ）を提案する。ピクセル予測のための従来的膨張ＦＣＮに加え、いくつかの実施形態は、ピクセルレベル特徴を特別に設計されたグローバルピラミッドプーリングのものに拡張する。ローカルおよびグローバル手掛かりはともに、最終予測をより信頼性があるものにする。いくつかの実施形態は、深層教師あり損失を伴う、最適化方略を採用する。いくつかの実施形態は、全ての実装に詳細を与え、これは、適切な性能に重要であって、コードおよび訓練されたモデルを公的に入手可能にする。いくつかの実施形態は、最先端性能を全ての利用可能なデータセット上で達成し、ＰＳＰＮｅｔが、ピクセルレベル予測タスクのための有望な方向性を与えることを明らかにし、これは、追随研究におけるＣＮＮベースのステレオマッチング、光学フロー、深度推定等においても有益であり得る。利点のうちのいくつかは、困難な場面コンテキスト特徴をＦＣＮベースのピクセル予測フレームワーク内に埋め込む、ピラミッド場面解析ネットワークの利用、深層教師あり損失に基づく、深層ＲｅｓＮｅｔのための効果的最適化方略、および全ての重要な実装詳細が含まれる、最先端場面解析および意味論セグメント化のための実践的システムのプロビジョニングを含む。

いくつかの実施形態は、有効グローバルコンテキスト先行値としてのピラミッドプーリングモジュールを用いて、ＦＣＮ方法を場面解析に適用するときの、代表的失敗の場合の観察および分析から開始する。図１４Ｄに図示されるピラミッド場面解析ネットワーク（ＰＳＰＮｅｔ）は、複雑な場面解析におけるオープン語彙オブジェクトおよび事物識別のための性能を改良するために説明される。

ピラミッドプーリングモジュール：いくつかの実施形態は、ピラミッドプーリングモジュール１４５０Ｄを採用し、これは、有効グローバルコンテキスト先行値であることが証明されている。深層ニューラルネットワークでは、受容野のサイズは、使用されるコンテキスト情報量を大まかに示し得る。理論上、ＲｅｓＮｅｔの受容野は、入力画像よりすでに大きいが、ＣＮＮの経験的受容野は、特に、高レベル層上において、理論的なものよりはるかに小さい。これは、多くのネットワークを瞬間グローバル場面先行値を組み込むために不十分にする。いくつかの実施形態は、有効グローバル先行値表現を提案することによって、本問題点に対処する。いくつかの実施形態では、グローバル平均プーリングは、グローバルコンテキスト先行値として良好なベースラインモデルであって、これは、一般に、画像分類タスクで使用される。いくつかの実施形態では、グローバル平均プーリングは、意味論セグメント化に正常に適用され得る。複雑な場面画像に関する、いくつかの実施形態では、本方略は、単独では、必要な情報を網羅するために不十分であり得る。これらの場面画像内のピクセルは、多くの事物およびオブジェクトに関して注釈が付けられる。それらを直接融合させ、単一ベクトルを形成することは、空間関係を喪失させ、曖昧性を引き起こし得る。グローバルコンテキスト情報は、サブ領域コンテキストとともに、本点について、種々のカテゴリの中で区別するために有用である。

より強力な表現は、これらの受容野を用いた、異なるサブ領域からの融合情報であり得る。いくつかの実施形態では、ピラミッドプーリングによって生成された、異なるレベルにおける特徴マップは、最終的に、平坦化され、連結され、分類のために、全結合層の中にフィードされた。本グローバル先行値は、画像分類のためのＣＮＮの固定サイズ制約を除去するように設計される。異なるサブ領域間のコンテキスト情報損失をさらに低減させるために、いくつかの実施形態は、異なるスケールを伴う情報を備え、異なるサブ領域間で変動する、階層グローバル先行値を提案する。これは、図１４Ｄに図示されるように、深層ニューラルネットワークの最終－層－特徴－マップに応じて、グローバル場面先行値構築のためのピラミッドプーリングモジュール（例えば、１４５０Ｄ）と称され得る。

ピラミッドプーリングモジュール（１４５０Ｄ）は、プーリングブロック１４０８Ｄを使用して、４つの異なるピラミッドスケール下で特徴を融合させる。最粗大レベル（１４３０Ｄ）は、グローバルプーリングであって、単一ビン出力を生成する。続くピラミッドレベル（１４３２Ｄ）は、特徴マップを異なるサブ領域に分離し、異なる場所に関するプーリングされた表現を形成する。ピラミッドプーリングモジュール１４５０Ｄ内の異なるレベル（１４３０Ｄ、１４３２Ｄ、１４３４Ｄ、および１４３６Ｄ）における出力は、可変サイズを伴う、特徴マップを備え、それぞれ、その対応する畳み込みブロック（例えば、１４３０Ｄのための畳み込みブロック１４１２Ｄ、１４３２Ｄのための畳み込みブロック１４１４Ｄ、１４３４Ｄのための畳み込みブロック１４１６Ｄ、および１４３６Ｄのための畳み込みブロック１４１８Ｄ）に提供され、アップサンプリングブロック１４２０Ｄにさらに提供される、個別の畳み込み出力を生成する。アップサンプリングブロック１４２０Ｄの出力は、個別の畳み込みブロック出力を、連結された出力を出力１４２８Ｄ（例えば、予測マップ）の中に畳み込む、畳み込み層１４２６Ｄに提供される、連結された出力の中に連結する、連結層１４２２Ｄに提供される。

図１４Ｄは、処理ブロックの特定の配列を図示するが、本特定の配列は、異なる配列またはブロックの構成を有する、他の実施形態を限定することを意図するものではないことに留意されたい。例えば、いくつかの実施形態は、ピラミッドプーリングモジュール１４５０Ｄのための最大プーリングブロックを採用してもよい一方、いくつかの他の実施形態は、ピラミッドプーリングモジュール１４５０Ｄのための平均プーリングブロックを採用してもよい。さらに、いくつかの実施形態は、個別の処理ブロックを、｛１×１｝のビンサイズを有する、プーリングされる特徴マップの中で利用してもよい一方、他の実施形態は、異なる処理ブロックを、｛１×１｝、｛２×２｝、｛３×３｝、｛６×６｝、または他の適切なサイズ等、またはそれらの任意の組み合わせの１つまたはそれを上回るビンサイズを有する、プーリングされる特徴マップの中で利用してもよい。いくつかの実施形態はさらに、プーリングブロック１４０８後、次元低減ブロックを含んでもよい一方、いくつかの他の実施形態は、そのような次元低減ブロックを含まなくてもよい。

グローバル特徴の加重を維持するために、いくつかの実施形態は、各ピラミッドレベル後、１×１畳み込み層を使用して、ピラミッドのレベルサイズがＮである場合、コンテキスト表現の寸法をオリジナルのものの１／Ｎに低減させる。これらの実施形態は、次いで、低次元特徴マップを直接アップサンプリングし、双線形補間を介して、オリジナル特徴マップと同一サイズ特徴を得る。最後に、異なるレベルの特徴が、最終ピラミッドプーリンググローバル特徴として連結される。ピラミッドレベルの数および各レベルのサイズは、修正され得ることに留意されたい。それらは、ピラミッドプーリング層の中にフィードされる、特徴マップのサイズに関連する。構造は、可変サイズプーリングカーネルを数ストライド内で採用することによって、異なるサブ領域を抽象化する。多段階カーネルは、合理的間隙を表現内に維持するべきである。ピラミッドプーリングモジュール１４５０Ｄは、それぞれ、１×１、２×２、３×３、および６×６のビンサイズを伴う、４レベルのものである。

ピラミッドプーリングモジュール１４５０Ｄを用いることで、いくつかの実施形態は、図１４Ｄに図示されるように、ピラミッド場面解析ネットワーク（ＰＳＰＮｅｔ）を採用する。図１４Ｄにおける入力画像１４０２Ｄを前提として、いくつかの実施形態は、畳み込みニューラルネットワーク（ＣＮＮ）１４０４Ｄを用いて、入力画像１４０２Ｄを処理し、膨張ネットワーク方略を伴う、事前訓練されたＲｅｓＮｅｔモデルを使用して、特徴マップを抽出する。最終特徴マップまたは特徴表現（１４０６Ｄ）サイズは、図１４Ｄに示されるように、入力画像１４０２Ｄの１／８である。マップの上部では、これらの実施形態は、ピラミッドプーリングモジュール１４５０Ｄを使用して、コンテキスト情報を集める。４レベルピラミッドを使用して、プーリングカーネルは、画像の全体、半分、および小部分を網羅する。これらの全体、半分、および小部分は、グローバル先行値として融合される。

次いで、先行値は、連結層１４２２Ｄ内において、オリジナル特徴マップ１４０６Ｄと連結される。連結後、畳み込み層１４２６Ｄが続き、最終予測マップ１４２８Ｄを生成する。本アーキテクチャを解説するために、ＰＳＰＮｅｔは、ピクセルレベル場面解析のための有効グローバルコンテキスト先行値を提供する。ピラミッドプーリングモジュールは、グローバルプーリングより代表的である、情報のレベルを収集することができる。ＰＳＰＮｅｔは、オリジナル膨張ＦＣＮネットワークと比較して、算出コストを著しく増加させない。エンドツーエンド学習では、グローバルピラミッドプーリングモジュールおよびローカルＦＣＮ特徴は、同時に最適化されることができる。

深層事前訓練ネットワークは、良好な性能につながる。ある場合には、ネットワークの深度を増加させることは、画像分類に関する付加的最適化困難度を導入し得る。ＲｅｓＮｅｔは、各ブロック内のスキップ接続を用いて、本問題を解決する。深層ＲｅｓＮｅｔの後の層は、主に、先行するものに基づいて、残留物を学習する。いくつかの実施形態は、付加的損失を用いた教師によって、初期結果を生成し、その後、最終損失を用いて残留物を学習するステップを提案する。これらの実施形態では、深層ネットワークの最適化は、２つに分解され得、それぞれ、解法することがより単純である。深層教師ありＲｅｓＮｅｔ１０１モデルの実施例は、ＲｅｓＮｅｔ１０１における補助損失の導入を図示する、図１４Ｅに図示される。図１４Ｅでは、深層教師ありＲｅｓＮｅｔ１０１モデルは、第４の段階におけるｒｅｓ４ｂ２２残留物ブロック１４０４Ｅに動作可能に結合される、最初の３つの段階における第１の複数の残留物ブロック１４０２Ｅを含み、その後、２つの第１の残留物ブロック１４０２Ｅが、第５および第６の段階として続く。補助損失１４０６Ｅは、ｒｅｓ４ｂ２２残留物ブロック１４０４Ｅ後に追加される。ｒｅｓ４ｂ２２ブロック１４０４Ｅの出力は、最終損失１４１０Ｅを伴う、Ｒｅｓ５Ｃブロック１４０８Ｅに提供される。図１４Ｅに図示される例示的アーキテクチャでは、後のブロックは、少なくとも部分的に、先行ブロックに基づいて、残留物を学習する一方、例示的アーキテクチャは、付加的損失（１４０６Ｅ）を伴う教師によって、初期結果を生成し、その後、最終損失（１４１０Ｅ）を用いて、残留物を学習する。

ソフトマックス損失を使用して、最終分類子を訓練する、主要な分岐以外に、別の分類子は、第４の段階、例えば、ｒｅｓ４ｂ２２残留物ブロック後に適用される。いくつかの浅層への後方補助損失をブロックする、中継逆伝搬と異なり、いくつかの実施形態は、２つの損失関数を全ての先行層を通して通過させる。補助損失は、学習プロセスを最適化することに役立つ一方、マスタ分岐損失は、最も責任を負う。いくつかの実施形態は、加重を追加し、補助損失を平衡する。試験相では、いくつかの実施形態は、本補助分岐を放棄し、最終予測のために、良好に最適化されたマスタ分岐のみを使用する。ＲｅｓＮｅｔベースのＦＣＮ（完全畳み込みネットワーク）のための本種類の深層教師あり訓練方略は、事前に訓練されたＲｅｓＮｅｔモデルを用いて、異なる実験設定および研究下で広く有用である。これは、そのような学習方略の汎用性を明らかにする。

図１５Ｄに戻って参照すると、ローカル特徴が、１５０６Ｄにおいて、より高いレベル特徴または表現の中に抽象化されてもよい。いくつかの実施形態では、ＰｏｉｎｔＮｅｔベースのモジュールは、ローカル点または特徴の集合をより高いレベル表現の中に抽象化する。これらの実施形態では、ＰｏｉｎｔＮｅｔ＋＋ベースのモジュールは、ＰｏｉｎｔＮｅｔを入力集合のネスト化されたパーティション化上で再帰的に適用する。さらに、複数の異なるスケールおよび／または分解能を有する、特徴または表現は、１５０８Ｄにおいて、学習を通して、適応的に加重され、組み合わせられてもよい。クラスタ標識が、１５１０Ｄにおいて、１つまたはそれを上回る集合関数（ｓｆ）によって、前述の距離メトリックを有する、メトリック空間に割り当てられてもよい。集合関数が、分類関数を含み、メトリック空間を、入力として、点毎の付加的特徴とともに受信し、メトリック空間に関する意味論的関心の情報を生産してもよい。集合関数はまた、標識をメトリック空間の一部に割り当ててもよい、またはセグメント化関数が、点あたり標識を点の集合の各要素に割り当ててもよい。上記のプロセスは、１５１２Ｄにおいて、例えば、点の集合全体が同様に処理され得るまで、繰り返されてもよい。

ＰｏｉｎｔＮｅｔ－および／またはＰｏｉｎｔＮｅｔ＋＋ベースのモジュールを採用する、これらの実施形態では、これらの実施形態は、幾何学的点集合を分析し、これは、ユークリッド空間内の点の集合である。特に、幾何学的点集合の重要なタイプは、例えば、適切に装備された自律車両から３Ｄスキャナによって捕捉された点群である。集合として、そのようなデータは、その要素の順列に対して不変である必要がある。加えて、距離メトリックは、異なる性質を呈し得る、ローカル近傍を定義する。例えば、点の密度および他の属性は、異なる場所を横断して均一ではない場合がある、すなわち、３Ｄ走査では、密度変動性が、見掛け効果、半径方向密度変動、運動等から生じ得る。いくつかの以前の研究は、点集合に関する深層学習を研究上している。ＰｏｉｎｔＮｅｔは、点集合を直接処理する、先駆的試みである。

ＰｏｉｎｔＮｅｔを伴う種々の実施形態は、各点の空間エンコーディングを学習し、次いで、全ての個々の点特徴をグローバル点群シグネチャに集約するためのものである。その設計上、ＰｏｉｎｔＮｅｔは、メトリックによって誘発されるローカル構造を捕捉しない。しかしながら、ローカル構造を利用することは、畳み込みアーキテクチャの成功に重要であることが証明されている。ＣＮＮは、規則的グリッド上に定義されるデータを入力としてとり、マルチ分解能階層に沿って、ますますより大きいスケールにおいて、徐々に特徴を捕捉することが可能である。より低いレベルでは、ニューロンは、より小さい受容野を有する一方、より高いレベルでは、それらは、より大きい受容野を有する。要約階層に沿ってローカルパターンを抽象化する能力は、観測されていない場合に対するより良好な一般化可能性を可能にする。いくつかの実施形態は、ＰｏｉｎｔＮｅｔ＋＋と命名される、階層ニューラルネットワークを導入し、階層方式においてメトリック空間内でサンプリングされる、点の集合を処理する。

ＰｏｉｎｔＮｅｔ＋＋を伴う種々の実施形態は、最初に、下層空間の距離メトリックによって、点の集合を重複ローカル領域の中にパーティション化する。ＣＮＮと同様に、これらの実施形態のうちのいくつかは、ローカル特徴を抽出し、微細幾何学的構造を小近傍から捕捉する。そのようなローカル特徴はさらに、より大きいユニットに群化され、より高いレベル特徴を生産するように処理される。本プロセスは、これらの実施形態が点集合全体の特徴を取得するまで、繰り返される。ＰｏｉｎｔＮｅｔ＋＋の設計は、２つの問題点、すなわち、（１）点集合のパーティション化を生成する方法と、（２）ローカル特徴学習器を通して、点の集合またはローカル特徴を抽象化する方法とに対処する。２つの問題点は、ローカル特徴学習器の加重が畳み込み設定におけるように共有され得るように、点集合のパーティション化がパーティションを横断して共通構造を生産する必要があるため、相関する。いくつかの実施形態は、意味論特徴抽出のために、点の無秩序集合を処理するための効果的アーキテクチャである、ＰｏｉｎｔＮｅｔとなるようにローカル特徴学習器を選定する。加えて、本アーキテクチャは、入力データ破損にロバストである。基本的構築ブロックとして、ＰｏｉｎｔＮｅｔは、ローカル点または特徴の集合をより高いレベル表現の中に抽象化する。本観点では、ＰｏｉｎｔＮｅｔ＋＋は、ＰｏｉｎｔＮｅｔを入力集合のネスト化されたパーティション化上で再帰的に適用する。

点集合の重複パーティション化を生成するために、パーティションは、下層ユークリッド空間内の近傍ボールとして定義され、そのパラメータは、重心場所およびスケールを含む。集合全体を均一に網羅するために、重心は、最遠点サンプリング（ＦＰＳ）アルゴリズムによって、入力点集合の中から選択される。固定ストライドを伴う空間を走査する、立体ＣＮＮと比較して、ＰｏｉｎｔＮｅｔ＋＋を伴うローカル受容野は、入力データおよびメトリックの両方に依存し、したがって、より効率的および効果的であり得る。しかしながら、ローカル近傍ボールの適切なスケールを決定することは、特徴スケールの交絡および入力点集合の非均一性に起因して、より困難であるが、興味深い問題である。これらの実施形態のうちのいくつかは、入力点集合が、異なる面積において、可変密度を有し得、これが、構造センサ走査等の実データにおいて非常に一般的であると仮定する。いくつかの実施形態では、入力点集合は、したがって、均一一定密度を伴う規則的グリッド上に定義されるデータと見なされ得る、ＣＮＮ入力と非常に異なる。ＣＮＮでは、ローカルパーティションスケールの対応物は、カーネルのサイズである。いくつかの実施形態は、より小さいカーネルを使用することが、ＣＮＮの能力を改良することに役立つことを実証している。利点のうちの１つは、ＰｏｉｎｔＮｅｔ＋＋が、ロバスト性および詳細捕捉の両方を達成するために、複数のスケールにおける近傍を活用することである。訓練の間のランダム入力ドロップアウトによる補助を得ることで、ネットワークは、異なるスケールにおいて検出されたパターンに適応的に加重し、入力データに従って、マルチスケール特徴を組み合わせることを学習する。実験は、ＰｏｉｎｔＮｅｔ＋＋ベースのモジュールが、点集合を効率的かつロバストに処理することが可能であることを示す。特に、最先端より有意に良好な結果が、３Ｄ点群の困難であるベンチマーク上で取得されている。

いくつかの実施形態では、Ｘ＝（Ｍ，ｄ）が、そのメトリックがユークリッド空間Ｒ^ｎから継承される、離散メトリック空間であって、式中、Ｍ⊆Ｒ^ｎは、点の集合を示し、ｄは、距離メトリックであると仮定する。加えて、周囲ユークリッド空間内のＭの密度は、あらゆる場所で均一ではない場合がある。これらの実施形態は、そのようなＸを入力（点毎の付加的特徴とともに）として受信し、Ｘに関する意味論的関心の情報を生産する、集合関数ｆを学習する。いくつかの実施形態では、そのようなｆは、標識をＸに割り当てる、分類関数、または点あたり標識をＭの各要素に割り当てる、セグメント化関数であってもよい。

いくつかの実施形態は、追加される階層構造を伴う、ＰｏｉｎｔＮｅｔの拡張と見なされ得る。これらの実施形態は、階層構造を伴う、ＰｏｉｎｔＮｅｔの基本拡張を導入し、非均一にサンプリングされる点集合内でも特徴をロバストに学習する。

ＰｏｉｎｔＮｅｔ：

汎用連続集合関数近似値：ｘｉ∈Ｒｄを伴う無秩序点集合｛ｘ_１，ｘ_{２，．．．，}ｘ_ｎ｝を前提として、点の集合をベクトルにマッピングする、集合関数ｆ：Ｘ→Ｒを定義することができる。

式中、γおよびｈは、通常、多層パーセプトロン（ＭＬＰ）ネットワークである。方程式１５Ｄ－（１）における集合関数ｆは、入力点順列に対して不変であって、恣意的に、任意の連続集合関数に近似させることができる。ｈの応答は、点の空間エンコーディングとして解釈され得ることに留意されたい。ＰｏｉｎｔＮｅｔは、見事な性能をいくつかのベンチマーク上で達成した。しかしながら、ローカルコンテキストを異なるスケールで捕捉する能力を欠いている。いくつかの実施形態は、以下の階層特徴学習フレームワークを導入し、限界を解決する。

階層点集合特徴学習：

ＰｏｉｎｔＮｅｔは、単一最大プーリング演算を使用して、点集合全体を集約するが、いくつかの実施形態は、点の階層群化を構築し、階層に沿って、ますます大きいローカル領域を徐々に抽象化する。本階層構造は、いくつかの集合抽象化レベル（図１２Ｅ）によって構成される。図１２Ｅは、１つまたはそれを上回る実施形態における、修正ＰｏｉｎｔＮｅｔ＋＋のための例示的アーキテクチャを図示する。より具体的には、図１２Ｅは、実施例として、２Ｄユークリッド空間内で点を使用する、階層特徴学習アーキテクチャおよび集合セグメント化および分類へのその適用を図示する。図１２Ｅは、単一点群化を図示するが、同じまたは実質的に類似アプローチもまた、密度適応群化に適用されてもよいことに留意されたい。

これらの実施形態では、例示的ネットワークアーキテクチャは、第１のサンプリングおよび群化モジュール１２０２Ｅと、ＰｏｉｎｔＮｅｔモジュール１２０４Ｅとをさらに含む、第１の集合抽象化１２５０Ｅを有する、階層点集合特徴学習モジュールを含む。図１２Ｅにおける本階層点集合特徴学習モジュールアーキテクチャはさらに、本明細書に説明されるように、第２の集合抽象化１２５２Ｅを含む、第２のサンプリングおよび群化モジュール１２０６Ｅと、第２のＰｏｉｎｔＮｅｔモジュール１２０８Ｅとを有する。階層点集合特徴学習モジュール（１２５０Ｅ、１２５２Ｅ）１２１０Ｅの出力は、直列または並列のいずれかにおいて、セグメント化１２５４Ｅおよび分類１２５６Ｅのために提供されてもよい。セグメント化処理１２５４Ｅは、補間１２１２Ｅ、ユニットＰｏｉｎｔＮｅｔ１２１４Ｅ（（Ｎ_１、ｄ＋Ｃ_２＋Ｃ_１））、補間１２１６Ｅ（（Ｎ_１、ｄ＋Ｃ_３））、別のユニットＰｏｉｎｔＮｅｔ１２１８Ｅ（（Ｎ、ｄ＋Ｃ_３＋Ｃ））を含み、点毎スコア（Ｎ，ｋ））を生成する。サンプリングおよび群化モジュール１２０２Ｅの出力は、下記に説明されるように、ユニットＰｏｉｎｔＮｅｔ１２１４Ｅと連結されてもよく、第２のサンプリングおよび群化モジュール１２０６Ｅの出力は、スキップリンク連結を介して、第２のユニットＰｏｉｎｔＮｅｔ１２１８Ｅと連結されてもよい。

分類処理１２５６Ｅは、階層点集合特徴学習出力１２１０Ｅを、ＰｏｉｎｔＮｅｔ出力１２２４Ｅ（（１，Ｃ_４））を生成し、これが、ひいては、全結合（ＦＣ）層１２２６Ｅの集合を生成するために使用される、ＰｏｉｎｔＮｅｔモジュール１２２２Ｅに提供する。プロセスは、次いで、クラススコア１２２８Ｅの集合を生成してもよい。図１２Ｅについてのさらなる詳細は、下記に説明される。

各レベルでは、点の集合は、処理および抽象化され、より少ない要素を伴う、新しい集合を生産する。集合抽象化レベルは、３つの重要となる層、すなわち、サンプリング層、群化層、およびＰｏｉｎｔＮｅｔ層を含んでもよい。サンプリング層は、点の集合を入力点から選択し、これは、ローカル領域の重心を定義する。群化層は、次いで、重心の周囲の「近傍」点を見出すことによって、ローカル領域集合を構築する。ＰｏｉｎｔＮｅｔ層は、ミニＰｏｉｎｔＮｅｔｔｏを使用して、ローカル領域パターンを特徴ベクトルの中にエンコードする。集合抽象化レベルは、ｄ－ｄｉｍ座標およびＣ－ｄｉｍ点特徴を伴う、Ｎ個の点から、Ｎ×（ｄ＋Ｃ）行列を入力としてとる。これは、ローカルコンテキストを要約する、ｄ－ｄｉｍ座標および新しいＣ’－ｄｉｍ特徴ベクトルを伴うＮ’個のサブサンプリングされた点のＮ’×（ｄ＋Ｃ’）行列を出力する。いくつかの実施形態は、以下の段落において、集合抽象化レベルの層を導入する。

サンプリング層。入力点｛ｘ_１，ｘ_{２，．．．，}ｘ_ｎ｝を前提として、いくつかの実施形態は、反復最遠点サンプリング（ＦＰＳ）を使用し、ｘｉｊが、静止点に関して集合｛ｘ_ｉ１，ｘ_{ｉ２，．．．，}ｘｉ_ｊ－１｝から最も離れた点（メトリック距離において）であるように、点のサブセット｛ｘ_ｉ１，ｘ_{ｉ２，．．．，}ｘ_ｉｍ｝を選定する。ランダムサンプリングと比較して、これは、同一数の重心を前提として、点集合全体のより良好な網羅率を有する。データ分布に依存しない、ベクトル空間を走査する、ＣＮＮと対照的に、サンプリング方略は、データ依存様式において、受容野を生成する。

群化層。いくつかの実施形態では、本層への入力は、サイズＮ×（ｄ＋Ｃ）の点集合およびサイズＮ’×ｄの重心の集合の座標である。出力は、サイズＮ’×Ｋ×（ｄ＋Ｃ）の点集合の群であって、各群は、ローカル領域に対応し、Ｋは、重心点の近傍における点の数である。Ｋは、群を横断して変動するが、後続ＰｏｉｎｔＮｅｔ層は、フレキシブルな点の数を固定長ローカル領域特徴ベクトルに変換することが可能であることに留意されたい。畳み込みニューラルネットワークでは、ピクセルのローカル領域は、ピクセルのあるＭａｎｈａｔｔａｎ距離（カーネルサイズ）内のアレイインデックスを伴う、ピクセルから成る。メトリック空間からサンプリングされる点集合では、点の近傍は、メトリック距離によって定義される。ボールクエリは、クエリ点に対してある半径の全ての点を見出す（Ｋの上限が、実装において設定される）。代替ＲａｎｇｅＱｕｅｒｙは、Ｋ最近傍（ｋＮＮ）検索であって、これは、固定数の近傍点を見出す。ｋＮＮと比較して、ボールクエリのローカル近傍は、固定領域スケールを保証し、したがって、空間を横断して、ローカル領域特徴をより一般的化可能にし、これは、ローカルパターン認識（例えば、意味論点標識化）を要求するタスクに好ましい。

ＰｏｉｎｔＮｅｔ層。本層では、入力は、データサイズＮ’×Ｋ×（ｄ＋Ｃ）を伴う、点のＮ’個のローカル領域である。出力内の各ローカル領域は、その重心と、重心の近傍をエンコードする、ローカル特徴とによって、抽象化される。出力データサイズは、Ｎ’×（ｄ＋Ｃ’）である。

ローカル領域内の点の座標は、最初に、重心点に対するローカルフレームの中に平行移動される、すなわち、ｉ＝１，２，．．．，Ｋおよびｊ＝１，２，．．．，ｄに関して、

であって、式中、＾ｘは、重心の座標である。いくつかの実施形態は、上記のＰｏｉｎｔＮｅｔをローカルパターン学習のための基本的構築ブロックとして使用する。相対的座標を点特徴とともに使用することによって、いくつかの実施形態は、ローカル領域内の２地点間関係を捕捉することができる。

非均一サンプリング密度下のロバストな特徴学習：

上記に議論されるように、点集合が異なる面積内に非均一密度を備えることは、一般的であり得る。そのような非均一性は、点集合特徴学習に関して有意な課題を導入する。稠密データ内で学習された特徴は、疎らにサンプリングされる領域に一般化され得ない。その結果、疎点群に関して訓練されたモデルは、微粒度ローカル構造を認識しない場合がある。いくつかの実施形態は、稠密にサンプリングされた領域内の最微細詳細を捕捉するために、点集合の中に可能な限り細かく点検する。しかしながら、そのような細かい点検は、ローカルパターンがサンプリング不足によって破損され得るため、低密度面積では禁じられる。この場合、これらの実施形態は、より大きな近傍において、より大きいスケールパターンを探す。本目標を達成するために、いくつかの実施形態は、入力サンプリング密度が変化すると、異なるスケールの領域からの特徴を組み合わせるように学習する、密度適応ＰｏｉｎｔＮｅｔ層を提案する。いくつかの実施形態は、密度適応ＰｏｉｎｔＮｅｔ層を伴う階層ネットワークをＰｏｉｎｔＮｅｔ＋＋として呼び出す。上記に説明されるように、各抽象化レベルは、単一スケールの群化および特徴抽出を含有する。ＰｏｉｎｔＮｅｔ＋＋では、各抽象化レベルは、ローカルパターンの複数のスケールを抽出し、ローカル点密度に従って、それらを知的に組み合わせる。ローカル領域を群化し、特徴を異なるスケールから組み合わせる観点から、いくつかの実施形態は、下記に列挙されるように、２つのタイプの密度適応層を採用する。

マルチスケール群化（ＭＳＧ）：

マルチスケールパターンを捕捉するための単純であるが、効果的方法は、異なるスケールを伴う層を群化し、その後、ＰｏｉｎｔＮｅｔｓに従って、各スケールの特徴を抽出するステップを適用することである。異なるスケールにおける特徴は、マルチスケール特徴を形成するように連結される。いくつかの実施形態は、ネットワークを訓練し、最適化された方略を学習し、マルチスケール特徴を組み合わせる。これは、インスタンス毎に、ランダム化された確率を用いて、入力点をランダムにドロップアウトすることによって達成されてもよく、いくつかの実施形態は、ランダム入力ドロップアウトと称する。具体的には、訓練点集合毎に、いくつかの実施形態は、［０，ｐ］（式中、ｐ≦１）から均一にサンプリングされるドロップアウト比θを選定する。点毎に、いくつかの実施形態は、確率θを用いて、点をランダムにドロップする。実践では、いくつかの実施形態は、空点集合を生成することを回避するために、ｐ＝０．９５を設定する。そうすることによって、これらの実施形態は、ネットワークに、種々の疎密性の訓練集合（θによって誘発される）を提示し、均一性を変動させる（ドロップアウトにおけるランダム性によって誘発される）。試験の間、いくつかの実施形態は、全ての利用可能な点を保つ。

マルチ分解能群化（ＭＲＧ）：

上記のＭＳＧアプローチは、重心点毎にローカルＰｏｉｎｔＮｅｔａｔ大規模近傍を起動するため、算出上高価である。特に、重心点の数は、通常、最低レベルにおいて、非常に大きいため、時間コストは、有意である。いくつかの実施形態は、そのような高価な算出を回避するが、依然として、点の分布性質に従って、情報を適応的に集約する能力を保存する。これらの実施形態では、あるレベルＬ_ｉにおける領域の特徴は、２つのベクトルの連結である。１つのベクトル（図中の左）は、集合抽象化レベルを使用して、より低いレベルＬ_ｉ－１からの各サブ領域における特徴を要約することによって取得される。他のベクトル（右）は、単一ＰｏｉｎｔＮｅｔを使用して、ローカル領域内の全ての未加工点を直接処理することによって取得される、特徴である。ローカル領域の密度が、低いとき、第１のベクトルは、第１のベクトルを算出する際のサブ領域が、さらにより疎の点を含有し、よりサンプリング不足に悩まされるため、第２のベクトルほど信頼性がない場合がある。そのような場合、第２のベクトルは、より高く加重されるべきである。他方では、ローカル領域の密度が、高いとき、第１のベクトルは、より低いレベルにおいてより高い分解能で再帰的に点検する能力を保有するため、より微細な詳細の情報を提供する。ＭＳＧと比較して、本方法は、これらの実施形態が最低レベルにおける大規模近傍での特徴抽出を回避するため、算出上より効率的である。

集合セグメント化のための点特徴伝搬：

集合抽象化層では、オリジナル点集合が、サブサンプリングされる。しかしながら、意味論点標識化等の集合セグメント化タスクでは、いくつかの実施形態は、全てのオリジナル点に関する点特徴を取得する。１つのソリューションは、常時、全ての点を全ての集合抽象化レベル内の重心としてサンプリングすることであるが、しかしながら、これは、高算出コストをもたらす。別の方法は、サブサンプリングされた点からの特徴をオリジナル点に伝搬することである。いくつかの実施形態は、距離ベースの補間およびレベル横断スキップリンクを伴う、階層伝搬方略を採用する（図１２Ｅに示されるように）。特徴伝搬レベルでは、いくつかの実施形態は、Ｎ_ｌ×（ｄ＋Ｃ）個の点からの点特徴をＮ_ｌ－１個の点に伝搬し、Ｎ_ｌ－１およびＮ_ｌ（Ｎ_ｌ≦Ｎ_ｌ－１）は、入力の点集合サイズおよび集合抽象化レベルｌの出力である。いくつかの実施形態は、Ｎｌ－１個の点の座標におけるＮｌ個の点の特徴値ｆを補間することによって、特徴伝搬を達成する。補間のための多くの選択肢のうち、いくつかの実施形態は、ｋ最近傍に基づいて、逆距離加重平均を使用する（方程式１５Ｄ－（２）におけるように、デフォルトにおいて、いくつかの実施形態は、ｐ＝２、ｋ＝３を使用する）。Ｎｌ－１個の点上に補間される特徴は、次いで、集合抽象化レベルからのスキップリンクされた点特徴と連結される。次いで、連結された特徴は、「ユニットＰｏｉｎｔＮｅｔ」を通して通過され、これは、ＣＮＮにおける１つずつの畳み込みに類似する。いくつかの共有全結合およびＲｅＬＵ層が、各点の特徴ベクトルを更新するために適用される。プロセスは、いくつかの実施形態が特徴を点のオリジナル集合に伝搬するまで、繰り返される。

図１５Ｅは、いくつかの実施形態における、場面の間取図を生成するための図１５Ｃに図示されるフロー図についてのさらなる詳細を図示する。より具体的には、図１５Ｅは、図１５Ｃの１５０２ＣにおいてＤｅｅｐＰｅｒｉｍｅｔｅｒタイプの形状を生成するステップについてのさらなる詳細を図示する。これらの実施形態は、１５０２Ｅにおいて、深層推定を環境の入力画像シーケンス内の１つまたはそれを上回るＲＧＢフレーム上で実施する。深度マップおよび壁セグメント化マスクは、１５０４Ｅにおいて、例えば、マルチビュー深度推定ネットワークおよびＰＳＰＮｅｔベースおよび／またはＲｅｓＮｅｔベースのセグメント化モジュールを使用することによって、生成されてもよい。いくつかの実施形態では、フレーム毎稠密深度マップが、１５０２Ｅにおいて、例えば、マルチビュー深度推定ネットワークを用いて、生成されてもよい。

壁点群が、１５０６Ｅにおいて、マーチングキューブモジュールを使用することによって、１つまたはそれを上回るマスク深度画像と１つまたはそれを上回る姿勢軌道を融合させることによって、抽出されてもよい。これらの実施形態はさらに、少なくとも、１５０８Ｅにおいて、深層セグメント化ネットワークを訓練することによって、壁点に対応する、深度予測を単離する。深度予測は、１５１０Ｅにおいて、３次元（３Ｄ）点群に投影されてもよい。３Ｄ点群は、１５１２Ｅにおいて、少なくとも、深層ネットワークを用いて、同一平面インスタンスに属する点を検出することによって、１つまたはそれを上回るクラスタにクラスタ化されてもよい。いくつかの実施形態は、これらの実施形態が、点（例えば、角、縁等に対応する、点）がオクルードされるとき、不利にならないように、直接、壁点をクラスタ化する。いくつかの実施形態は、合成的に生成されたグラウンドトゥルースを使用して、点群を長距離平面領域にクラスタ化するためのエンドツーエンドモデルを採用する。１５１２Ｅにおいて決定されたクラスタは、１５１４Ｅにおいて、周囲レイアウトを形成する、平面の集合の中に平行移動されてもよい。図１５Ｅについてのさらなる詳細は、下記に説明される。

ＤｅｅｐＰｅｒｉｍｅｔｅｒモジュールを利用して、屋内環境の３Ｄレイアウトの理解を得る、いくつかの実施形態は、拡張現実、ナビゲーション、および一般的場面理解における無数の用途を伴う、空間の長距離幾何学形状を理解するために重要であり得る。そのようなレイアウトは、直方体パラメータから、より意味論的に豊かな完全間取図に対する単眼角座標およびその接続性まで、種々の方法で提示されることができる。これらの方法は、それらが入力および部屋幾何学形状に関するその仮定において要求する、情報の量において異なる（例えば、いくつかのアプローチは、クリーン３Ｄ点群を入力において要求する一方、他のアプローチは、単眼視点またはパノラマ画像を要求する）。本関連問題の集合間の一貫性の欠如は、屋内場面に関してあるべきレイアウト予測に関する標準的設定にわたる一般的不一致を明らかにする。いくつかの実施形態は、その課題、すなわち、自然な状態で最も容易に利用可能なデータのタイプおよび現代のビジョン用途に関する最も差し迫った必要性を満たすレイアウトのタイプに回答することを対象とする。

センサデータの観点から、ＲＧＢ（赤緑青）カメラおよび姿勢データを多くの現代のデバイス（例えば、スマートフォン、ＡＲ／ＶＲＨＭＤ等）から取得することは、容易であり得る。完全ビデオシーケンスへのアクセスは、単眼レイアウト推定に一般的である、角および縁推定の域を超えることを可能にし、かつ内部空間の完全周囲マップの推定を可能にする。空間範囲および空間の形状に関するそのようなメトリック情報は、内部空間の基本不変条件であって（動的に偏移し得る、部屋内のオブジェクトと異なる）、したがって、モバイル拡張現実プラットフォームのための面積および体積測定を有効にすることによる、種々の下流３Ｄ用途のために有用である。

ＤｅｅｐＰｅｒｉｍｅｔｅｒフレームワークを採用する、いくつかの実施形態は、可能性として考えられる部屋のタイプの任意の手作業で作られる列挙される集合を伴わずに、本周囲を精密に推測する。ＤｅｅｐＰｅｒｉｍｅｔｅｒはまた、実世界場面において頻出する、角および縁オクルージョンに対してロバストである。説明および例証の容易性のために、下記の説明は、水平周囲（例えば、外壁の場所）を予測するが、これは、これらが、部屋レイアウト内の構造の大部分を含有する一方、床および天井が、通常、単一平面によって明確に近似されるためである。例示的パイプラインの基本概要に関しては、図１４Ｊを参照されたい。図１４Ｊでは、場面の入力姿勢付きビデオ１４０２Ｊが、本明細書に説明されるＤｅｅｐＰｅｒｉｍｅｔｅｒモジュール等の深層ネットワークに提供され、クラスタ化結果１４０４Ｊを生産し、これは、ひいては、深層ネットワークによって処理され、推定される周囲１４０８Ｊ（例えば、ＤｅｅｐＰｅｒｉｍｅｔｅｒタイプの形状によって生産された推定される周囲）を生産する。同一場面のグラウンドトゥルース１４０４Ｊもまた、推定される周囲または任意の他の中間結果を訓練または検証するために参照されてもよい。

パイプラインは、ビデオシーケンスのＲＧＢフレーム上での深層深度推定から開始してもよい。実際、深層学習の一般的３Ｄ再構築用途に関する最も制限的ボトルネックのうちの１つは、深層深度推定モデルの正確度である。ＮＹＵｖ２データセットにおけるもののような雑然とした屋内場面では、そのようなネットワークは、依然として、単眼入力を前提として、ＲＭＳ誤差の０．５～０．６ｍより良好に性能を発揮することに苦戦する。いくつかの実施形態は、代わりに、現代のマルチビューステレオ方法を使用することによって、複数視点を深度推定モジュールの中に組み込むことによって、本性能ボトルネックを避ける。これらの実施形態は、次いで、深層セグメント化ネットワークを訓練し、壁点に対応する深度予測を単離する。これらの予測は、３Ｄ点群に投影され、次いで、同一平面インスタンスに属する点を検出するように調整される、深層ネットワークを通してクラスタ化される。

いったん点クラスタが、割り当てられると、標準的方法は、クラスタを、完全周囲レイアウトを形成する、平面の完全集合の中に平行移動させる。いくつかの実施形態では、直接、壁点をクラスタ化することによって、いくつかの実施形態は、角がオクルードされるとき、不利とならない。いくつかの実施形態は、屋内周囲を姿勢付きＲＧＢ画像の単眼シーケンスから予測するための深層学習ベースのパイプラインを提供する。これらの実施形態は、オクルードされる角にロバストであることと、かつ先験的部屋形状の列挙される集合に依存しないこととの両方である。いくつかの実施形態は、合成的に生成されたグラウンドトゥルースを使用して、点群を長距離平面領域の中にクラスタ化するためのエンドツーエンドモデルを開発する。

パイプライン概要：

パイプラインは、２つの重要となる段階、すなわち、壁点群を抽出するための深層マルチビュー深度推定およびセグメント化（３．１）と、平面インスタンスを検出するための深層クラスタ化（３．２）とを含んでもよい。最終周囲は、後処理において、単純最小二乗法平面適合（３．３）によって生成される。完全パイプラインは、図１４Ｋに図示される。

図１４Ｋは、周囲推定のための例示的パイプラインを図示する。いくつかの実施形態は、その相対的姿勢とともに、画像の姿勢付き単眼シーケンスから開始する。これらの実施形態は、マルチビューステレオアルゴリズムを通して、壁に関する意味論セグメント化マップと、稠密深度マップとを抽出する。これらの２つの出力は、標準的投影解除を通して組み合わせられ、壁ピクセルのみから成る３Ｄ点群を形成する。これらの壁ピクセルは、次いで、深層クラスタ化ネットワークを使用して、壁インスタンス候補の中に着色され、線形最小二乗法および最短経路アルゴリズムを用いて、後処理され、最終周囲予測を形成する。図１４Ｋでは、例えば、軌道１４０２Ｋ、ビデオ１４０４Ｋ、画像、姿勢付き画像、姿勢付きビデオ、または任意の他の好適な入力、またはそれらの任意の組み合わせを含む、１つまたはそれを上回る入力１４００Ｋが、それぞれ、深度マップ１４１０Ｋおよび意味論セグメント化１４１２Ｋを生成し得る、マルチビュー深度ネットワーク１４０６Ｋ（ＭＶＤｅｐｔｈＮｅｔ）およびＰＳＰＮｅｔ（ピラミッド場面解析ネットワーク）１４０８Ｋ等の意味論セグメント化モジュールに提供されてもよい。

深度マップ１４１０Ｋおよび意味論セグメント化は、組み合わせらる、または別様に、投影解除モジュール１４１４Ｋを通して、マージされ、壁点群の集合１４１６Ｋを生成してもよい。壁点群１４１６Ｋは、クラスタモジュール１４１８Ｋ（例えば、本明細書に説明されるＣｌｕｓｔｅｒＮｅｔ）に提供され、標識されたクラスタ１４２０Ｋを生産してもよい。標識されたクラスタ１４２０Ｋはさらに、本明細書に説明される深層ネットワークまたは深層境界ネットワーク等の周囲推定モジュール１４２２Ｋに提供され、ＤｅｅｐＰｅｒｉｍｅｔｅｒタイプの形状を生産し、部屋およびそれに関する壁を表してもよい。

壁点群の抽出：

いくつかの実施形態は、種々の姿勢からの同一実世界場面の複数の観察を利用して、最新のマルチビュー深度推定ネットワークを通して、フレーム毎稠密深度マップを生成する。これらの実施形態は、次いで、ＲｅｓＮｅｔ－５０バックボーンを伴う、標準的ピラミッド場面解析（ＰＳＰ）ネットワークを通して、天井、床、および壁を分類するために、セグメント化アルゴリズムを最適化する。入力フレーム毎に、深度マップおよび壁セグメント化マスクを取得後、いくつかの実施形態は、壁クラスに属する深度ピクセルのみを使用して、統合されていない点群を生成する。そのために、これらの実施形態は、マスクされた深度画像の集合と暗示的表面表現内の既知の姿勢軌道を融合させ、マーチングキューブ方法の導関数によって、点群を抽出する。単に各深度ピクセルを投影解除するよりも、暗示的表面表現を使用することの利点は、図１４Ｋに示されるように、それが、冗長点を除去し、複数の観察にわたって雑音を平均化し、点のより平滑かつクリーンな集合につながることである。最後に、内壁点を除去するために、いくつかの実施形態は、α形状の概念を使用して、その凹包を表す、点群のサブセットを作成する。

ＣｌｕｓｔｅｒＮｅｔ：

場面内の壁のαカリングかれ、サブサンプリングされた、点群表現を取得することに応じて、いくつかの実施形態は、本点群の深層クラスタ化を実施することによって、壁インスタンスを分離するステップに進む。いくつかの実施形態は、推定の間、表面法線または平面パラメータを明示的に算出せずに、平面セクションに基づいて、無秩序点群をクラスタ化する、完全教師なし技法を採用する。ＣｌｕｓｔｅｒＮｅｔは、合成データセットのみを使用して訓練されてもよく、追加される容量のための予測ヘッドの直前に２つの付加的１２８→１２８フィルタ畳み込み層を伴う、ＰｏｉｎｔＮｅｔアーキテクチャを使用する。ＰｏｉｎｔＮｅｔグローバル特徴が、次いで、入力点毎に、クラスタ確率を出力するために使用される。別個の壁インスタンスに関する一意のクラスタ割当を生成するために、いくつかの実施形態は、３Ｄ場所雑音、オクルージョン、および可変点密度に対してロバストである必要がある。さらに、クラスタ化は、同一点法線を共有する、平行平面壁を区別する必要がある。いくつかの実施形態は、明確に異なる壁インスタンス上にある２つの点が同一標識を割り当てられるとき、ネットワークにペナルティを科す、対毎損失関数を公式化する。しかしながら、いくつかの実施形態は、クラスタマージが後処理において容易に遂行され得るため、過剰セグメント化にペナルティを科さない。３Ｄ座標Ｐｉ＝（ｘ_ｉ，ｙ_ｉ，ｚ_ｉ）、点法線＝（ｘ_ｉ ^（ｎ），ｙ_ｉ ^（ｎ），ｚ_ｉ ^（ｎ））、および予測されるクラスタ確率ベクトルＰ（ｘ）＝（ｐ^（ｘ）,…,ｐ_ｋ＋１ ^（ｘ））を伴う、Ｎ個の点×ｉを求める。（ｋ＋１）番目のクラスが、ネットワークが雑音点をフィルタ除去する能力を可能にするために確信を持って任意の平面インスタンス上に設置されることができない、点のために留保される。クラスタ化損失Ｌ^{ｃｌｕｓｔｅｒ}は、以下のように与えられる。

式中、和が、全ての離散対の点にわたって求められ、

は、予測されるクラスタ確率の第１のｋ個の要素の対毎ドット積であって、以下となる。

項Ｄ（ｘ_ｉ，ｘ_ｊ）は、ｘ_ｉおよびｘ_ｊが異なる平面（平行平面を含む）上にあるとき、高値を、ｘ_ｉおよびｘ_ｊが同一平面上にあるとき、低値を有する。さらに、ｘ_ｉおよびｘ_ｊが、類似クラスタ割当確率ベクトルを有する場合、Ｐ（ｘ_ｉ，ｘ_ｊ）は、高くあり得る。いくつかの実施形態は、２つの対が、明確に異なる壁に属するが、類似クラスタ割当確率を有するとき、ペナルティを科す。全ての点が（ｋ＋１）番目のクラスタに割り当てられる、自明な解を防止するために、いくつかの実施形態は、以下のように、正則化損失Ｌ^ｒｅｇを使用する。

これらの実施形態は、点が任意の平面に属する確率が小さいときは、常時、ペナルティを科す。総損失は、したがって、Ｌ^{ｃｌｕｓｔｅｒ}＋βＬ^ｒｅｇであって、いくつかの実施形態は、これらの実施形態では、βを１．０に設定する。

周囲推定：

全ての壁がＺ－軸と平行であるという仮定に従って、いくつかの実施形態は、全てのクラスタ化される３ｄ壁点をＸ－Ｙ平面に投影し、点群の上下図を生成する。いくつかの実施形態は、線形最小二乗法を使用して、クラスタ毎に、２Ｄ線パラメータを推定する。複製壁予測を除去するために、＜θマージの相対的正常逸脱＝３０°および＜ｅマージのクラスタ間点／線誤差＝０．３ｍを伴う、線パラメータを有する、クラスタは、同一標識を割り当てられる。クラスタ間の接続性を確立するために、いくつかの実施形態は、全てのクラスタ中央値に沿って、閉鎖された最短経路を見出す。解は、巡回セールスマン問題に基づいて、アルゴリズムを使用して計算され、２Ｄ線パラメータが、再推定される。結果として生じる線は、次いで、最も近くの直交軸にスナップされ、交差するように自明に拡張される。２つの近傍の壁セグメントの交点が、角として定義される。主要なオクルージョンが、生じ、２つの接続された平行セグメントもたらすとき、いくつかの実施形態は、交差を強制するように、直交方向におけるセグメントのうちの１つの終点を拡張させる。そのような発生は、稀であって、確実に、角オクルージョンよりはるかに稀であって、これは、直接角予測を通して動作する、多くのレイアウト推定パイプラインにおいて問題点を引き起こすことに留意されたい。

データセット：

いくつかの実施形態は、深層クラスタ化モデルを訓練するための合成的に生成されたデータセットを含む、種々のネットワークを訓練するために使用される、データセットを説明する。

公的データセット：

いくつかの実施形態は、以下のデータセットを使用して、種々のモデルを評価する。深度ネットワークを訓練し、推定される周囲を評価し、深度およびセグメント化モジュールを評価するためのＳｃａｎＮｅｔデータセット。セグメント化ネットワークを訓練するためのＡＤＥ２０ＫおよびＳｕｎＲＧＢＤデータセット。クラスタ化解除された点群からの周囲の推定の付加的評価のためのＦｌｏｏｒＮｅｔデータセット。

種々の実施形態は、種々の形状（矩形、Ｌ形状、Ｔ形状、またはＵ形状）からランダムにサンプリングされる、部屋周囲スケルトンから開始する、法線標識とともに、完全合成データセットを構築する。各縁の長さおよび角配向および部屋の高さが、均一にサンプリングされる。ガウス雑音が、追加され、いくつかの実施形態はまた、円筒形面積内の点のランダム削除を含み、点群測定において一般に生じる、欠失点を模倣する。

図１５Ｆは、いくつかの実施形態における、場面の間取図を生成するための図１５Ｃに図示されるフロー図についてのさらなる詳細を図示する。より具体的には、図１５Ｅは、図１５Ｃにおける１５０４Ｃにおいて間取図を生成するステップについてのさらなる詳細を図示する。これらの実施形態では、１つまたはそれを上回る部屋インスタンスおよび１つまたはそれを上回る壁インスタンスが、１５０２Ｆにおいて、乏しい公的に入手可能なデータセットおよび／またはライブラリを有する、屋内環境等の環境の走査から識別されてもよい。閉鎖された周囲が、１５０４Ｆにおいて、部屋インスタンスに関して推定されてもよい。

クラスタの数が、１５０６Ｆにおいて、少なくとも、例えば、投票アーキテクチャを使用することによって、予測されてもよい。いくつかの実施形態は、下記により詳細に説明される、深層Ｈｏｕｇｈ投票アーキテクチャ等の投票ベースのアーキテクチャを使用することによって、ネットワークアーキテクチャから独立して、制約されない数のクラスタを予測する。いくつかの実施形態では、クラスタの数を予測するステップは、いくつかの実施形態における、クラスタの数に関する以前の仮定を伴わずに、少なくとも、３Ｄデータ点の非排他的クラスタ化として、入力３Ｄ点群を１つまたはそれを上回る構成部屋および壁に分離することによって、部屋クラスタ化および壁クラスタ化を並列に実施する、投票ベースのアーキテクチャを使用することによって、ネットワークアーキテクチャから独立して、制約されない数のクラスタを予測するステップを含んでもよい。加えて、または代替として、１５０６Ｆにおいて、（１）真下の図１２Ｃ－１２Ｄを参照してより詳細に説明される、投票ベースの技法を使用することによって、入力点群（３ｄ）を構成部屋および壁に分離することによって、クラスタの数を予測するステップは、クラスタの数に関する以前の仮定を伴わずに、３Ｄデータ点の非排他的クラスタ化を実施するステップを含んでもよい。

従来的Ｈｏｕｇｈ投票２Ｄ検出器は、オフラインおよびオンラインステップを備える。最初に、注釈が付けられたオブジェクト境界ボックスを伴う、画像の集合を前提として、コードブックが、画像パッチ（またはその特徴）と対応するオブジェクト中心に対するそのオフセットとの間の記憶されたマッピングとともに構築される。推定時、着目点が、画像から選択され、その周囲のパッチを抽出する。これらのパッチは、次いで、コードブック内のパッチに対して比較され、オフセットを読み出し、投票を算出する。オブジェクトパッチは、賛成投票する傾向にあるであろうため、クラスタは、近傍オブジェクト中心を形成するであろう。最後に、オブジェクト境界が、クラスタ投票をその生成パッチに戻るようにトレースすることによって読み出される。いくつかの実施形態は、その中で本技法が着目問題に非常に好適である、２つの点を識別する。第１に、投票ベースの検出は、領域提案ネットワーク（ＲＰＮ）より疎集合と適合性がある。後者に関して、ＲＰＮは、提案をオブジェクト中心の近くに生成する必要があり、これは、虚空内にある可能性が高く、余剰算出を引き起こす。第２に、これは、ボトムアップ原理に基づき、部分的情報のごく一部が、確実な検出を形成するように蓄積される。ニューラルネットワークが、潜在的に、コンテキストを大受容野から集約し得る場合でも、依然として、投票空間内で集約するために有益であり得る。しかしながら、従来的Ｈｏｕｇｈ投票は、複数の分離されたモジュールを備えるため、それを最先端点群ネットワークの中に統合することは、未解決の研究主題である。この目的を達成するために、いくつかの実施形態は、異なるパイプライン構成要素に対する以下の適合を備える。

着目点が、手作業で作られた特徴に依存する代わりに、深層ニューラルネットワークによって記述および選択される。投票生成が、コードブックを使用する代わりに、ネットワークによって学習される。より大きい受容野を活用することによって、投票は、より曖昧性が少なくされ、したがって、より効果的となり得る。加えて、投票場所は、特徴ベクトルを用いて拡張され、より良好な集約を可能にすることができる。投票集約は、訓練可能パラメータを用いて、点群処理層を通して実現される。投票特徴を利用することによって、ネットワークは、潜在的に、低品質投票をフィルタ除去し、改良された提案を生成することができる。場所、次元、配向、およびさらに意味論クラスの形態における、オブジェクト提案が、直接、集約された特徴から生成され、投票の原点に戻るようにトレースする必要性を軽減することができる。以降では、いくつかの実施形態は、全ての前述の構成要素をＶｏｔｅＮｅｔと命名された単一エンドツーエンド訓練可能ネットワークの中に組み合わせる方法を説明する。

ＶｏｔｅＮｅｔアーキテクチャ：

図１２Ｃ－１２Ｄは、例示的エンドツーエンド検出ネットワーク（ＶｏｔｅＮｅｔ）を図示する。ネットワーク全体は、２つの部分、すなわち、既存の点を処理し、投票を生成するための１つの部分と、仮想点、すなわち、投票に作用し、オブジェクトを提案および分類するための他の部分とに分裂されてもよい。図１２Ｃは、点群内の３Ｄオブジェクト検出のための、投票モジュール１２５０Ｃと、オブジェクト提案および分類モジュール１２５２Ｃとを備える、ＶｏｔｅＮｅｔの例示的アーキテクチャ１２５６Ｃを図示する。これらの実施形態では、ＸＹＺ座標を伴う、Ｎ個の点の入力点群を前提として、バックボーンネットワーク（例えば、本明細書に説明されるＰｏｉｎｔＮｅｔ＋＋層を用いて実装される）が、点上の深層特徴をサブサンプリングおよび学習し、Ｍ個の点であるが、Ｃ－ｄｉｍ特徴によって拡張される、サブセットを出力する。本点のサブセットは、シード点と見なされ得る。

シードは、投票モジュール（例えば、１２０８Ｃ）を通して、投票を独立して生成してもよい。これらの投票は、クラスタに群化され、提案および分類モジュール（例えば、１２２０Ｃ）によって処理され、最終提案を生成してもよい。分類（１２２２Ｃ）およびＮＭＳ（１２２４）された提案は、最終３Ｄ境界ボックス出力（１２２６Ｃ）となる。図１２Ｃでは、Ｎ×３入力点群１２０２Ｃが、Ｍ×（３＋Ｃ）個の（例えば、ＸＹＺ＋特徴）シード点１２０６Ｃを生成する、点群特徴学習モジュール１２０４Ｃを備える、投票モジュール１２５０Ｃに提供される。投票モジュール１２５０Ｃの出力１２１０Ｃは、Ｍ×（３＋Ｃ）の寸法を有し、さらに、それぞれ、共有され得る、対応する提案および分類モジュール（１２２０Ｃ）に提供される、出力（１２１４Ｃ、１２１６Ｃ、１２１８Ｃ等）を生成する、オブジェクト提案および分類モジュール１２５２Ｃ内のサンプリングおよび群化モジュール１２１２Ｃに提供されてもよい。提案および分類モジュール１２２０Ｃの出力１２２２Ｃはさらに、０．２５のＩｏＵ閾値を伴う、３ＤＮＭＳモジュール１２２４Ｃによって処理され、最終出力１２２６Ｃ（例えば、３Ｄ境界ボックス）を生成してもよい。

図１２Ｄは、図１２Ｃに図示される前述の例示的アーキテクチャを用いて処理または生成された、種々のタイプの前述のデータのいくつかのグラフィカル実施例を図示する。１２０２Ｄは、入力点群のグラフィカル実施例を図示する。１２０４Ｄは、個別のＸＹＺ座標および特徴に対応する、いくつかのシード点のグラフィカル実施例を図示する。１２０６Ｄは、シード点に投じられた投票のグラフィカル実施例を図示する。１２０８Ｄは、投票クラスタのグラフィカル実施例を図示する。１２１０Ｄは、３Ｄ境界ボックスのグラフィカル例示的出力を図示する。

点群における投票の学習：

Ｎ個の点毎に３Ｄ座標を伴う、サイズＮ×３の入力点群から、いくつかの実施形態は、Ｍ個の投票を生成することを狙いとし、各投票は、３Ｄ座標および高次元特徴ベクトルの両方を有する。２つの主要なステップ、すなわち、バックボーンネットワークを通した点群特徴学習と、シード点からの学習されたＨｏｕｇｈ投票とが存在する。

点群特徴学習：

正確な投票を生成するステップは、幾何学的推測およびコンテキストを要求する。手作業で作られる特徴に依拠する代わりに、いくつかの実施形態は、点特徴学習のために、最近提案された深層ネットワークを点群上で活用する。いくつかの他の実施形態は、任意の点群ネットワークに制限されないが、いくつかの実施形態は、その単純性と、法線推定から、意味論セグメント化、３Ｄオブジェクト位置特定に及ぶ、タスクに関する実証された成功とに起因して、ＰｏｉｎｔＮｅｔ＋＋をバックボーンとして採用する。バックボーンネットワークは、スキップ接続とともに、いくつかの集合抽象化層および特徴伝搬（アップサンプリング）層を有し、これは、ＸＹＺおよび付加されたＣ次元特徴ベクトルを伴う、入力点のサブセットを出力する。結果は、寸法（３＋Ｃ）のＭ個のシード点となる。各シード点は、１つの投票を生成する。

深層ネットワークを伴う、Ｈｏｕｇｈ投票：

投票（ローカル特徴点からのオフセット）が事前に算出されたコードブックをルックアップすることによって決定される、従来的Ｈｏｕｇｈ投票と比較して、いくつかの実施形態は、深層ネットワークベースの投票モジュールを用いて、投票を生成し、これは、より効率的（ｋＮＮルックアップを伴わない）であることと、かつパイプラインの残りとともに訓練されるため、より正確であることとの両方である。

シード点の集合

（式中、ｘ_ｉ∈Ｒ^３およびｆ_ｉ∈Ｒ^Ｃを伴って、ｓ_ｉ＝｛ｘ_ｉ；ｆ_ｉ｝）を前提として、共有投票モジュールは、投票を各シードから独立して生成する。具体的には、投票モジュールは、全結合層、ＲｅＬＵ（正規化線形ユニット）、およびバッチ正規化を伴う、多層パーセプトロン（ＭＬＰ）ネットワークを用いて実現される。ＭＬＰは、シードｓ_ｉから生成された投票ｖ_ｉ＝［ｙ_ｉ；ｇ_ｉ］が、ｙ_ｉ＝ｘ_ｉ＋Δｘ_ｉおよびｇ_ｉ＝ｆ_ｉ＋Δｆ_ｉを有するように、シード特徴ｆ_ｉを求め、ユークリッド空間オフセットΔｘ_ｉ∈Ｒ^３および特徴オフセットΔｆ_ｉ∈Ｒ^Ｃを出力する。予測される３ＤオフセットΔｘ_ｉは、回帰損失によって明示的に監視される。

式中、１［ｓ_ｉｏｎｏｂｊｅｃｔ］は、シード点ｓ_ｉがオブジェクト表面上にあるかどうかを示し、Ｍ_ｐｏｓは、オブジェクト表面上のシードの総数のカウントである。Δｘ_ｉ ^＊は、シード位置ｘ_ｉからそれが属するオブジェクトの境界ボックス中心までのグラウンドトゥルース変位である。

投票は、テンソル表現内のシードと同一であるが、もはやオブジェクト表面上に基づいていない。より根本的差異は、その位置であるが、同一オブジェクト上のシードから生成された投票は、ここで、シードより相互に近くなり、これは、オブジェクトの異なる部分からのキューを組み合わせることをより容易にする。次に、いくつかの実施形態は、本意味論を意識した局所性を利用し、オブジェクト提案のための投票特徴を集約するであろう。

投票からのオブジェクト提案および分類：

投票は、オブジェクトの異なる部分からのコンテキスト集約のための規準「衝合点」を作成する。これらの投票をクラスタ化後、いくつかの実施形態は、その特徴を集約し、オブジェクト提案を生成し、それらを分類する。

サンプリングおよび群化を通した投票クラスタ化。投票をクラスタ化するための多くの方法が存在するが、いくつかの実施形態は、空間近接度に従った均一サンプリングおよび群化の単純方略を選ぶ。具体的には、投票の集合

から、いくつかの実施形態は、３Ｄユークリッド空間内の｛ｙ_ｉ｝に基づいて、最遠点サンプリングを使用して、Ｋ個の投票のサブセットをサンプリングし、ｋ＝１，．．．，Ｋを伴う、｛ｖ_ｉｋ｝を求める。次いで、これらの実施形態は、ｖ_ｉｋの３Ｄ場所のそれぞれに対する近傍投票を見出すことによって、Ｋ個のクラスタＣ_ｋ＝｛ｖ_ｉ ^（ｋ）｜||ｖ_ｉ－ｖ_ｉｌ||＜ｒ｝（ｋ＝１，．．．，Ｋ）を形成する。単純であるが、本クラスタ化技法は、エンドツーエンドパイプラインの中に統合することが容易であって、実践において良好に機能する。

投票クラスタからの提案および分類：

投票クラスタは、本質的に、高ｄｉｍ点の集合であるため、いくつかの実施形態は、オブジェクト提案を生成するために、汎用点集合学習ネットワークを活用して、投票を集約してもよい。オブジェクト境界を識別するための従来的Ｈｏｕｇｈ投票の逆トレースステップと比較して、本プロシージャは、非形式的境界を部分的観察からさえ提案し、および配向、クラス等のような他のパラメータを予測することを可能にする。いくつかの例示的実装では、いくつかの実施形態は、クラスタ内の投票集約および提案のために、共有ＰｏｉｎｔＮｅｔを使用する。ｉ＝１，．．．，ｎおよびそのクラスタ中心ｗ_ｉを伴う、投票クラスタＣ＝｛ｗ_ｉ｝（式中、投票場所としてのｚ_ｉ∈Ｒ^３および投票特徴としてのｈ_ｉ∈Ｒ^Ｃを伴って、ｗ_ｉ＝［ｚ_ｉ；ｈ_ｉ］）を前提とする。ローカル投票幾何学形状の使用を可能にするために、いくつかの実施形態は、

によって、投票場所をローカル正規化座標系に変換する。次いで、本クラスタｐ（Ｃ）に関するオブジェクト提案が、集合入力をＰｏｉｎｔＮｅｔ様モジュールを通して通過させることによって生成される。

上記の方程式１５Ｆ－（２）において、各クラスタからの投票は、独立して、単一特徴ベクトルに最大プーリングされ（チャネル毎）異なる投票からの情報がさらに組み合わせられる、ＭＬＰ２に、通過される前に、ＭＬＰ１によって処理される。いくつかの実施形態は、オブジェクト性スコア、境界ボックスパラメータ（パラメータ化された中心、進行方向、およびスケール）、および意味論分類スコアとともに、提案ｐを多次元ベクトルとして表す。

損失関数：

提案および分類段階における損失関数は、オブジェクト性、境界ボックス推定、および意味論分類損失から成る。いくつかの実施形態は、グラウンドトゥルースオブジェクト中心の近く（０．３メートル以内）、または任意の中心から離れて（０．６メートルを上回って）のいずれかに位置する、投票に関するオブジェクト性スコアを監視する。いくつかの実施形態は、それらの投票から生成された提案を、それぞれ、正および負の提案と見なす。他の提案に関するオブジェクト性予測は、ペナルティを科されない。オブジェクト性は、バッチ内の無視されない提案の数によって正規化されたクロスエントロピ損失を介して監視される。正の提案に関して、いくつかの実施形態はさらに、最も近いグラウンドトゥルース境界ボックスに従って、境界ボックス推定およびクラス予測を監視する。具体的には、いくつかの実施形態は、ボックス損失を中心回帰、進行方向角度推定、およびボックスサイズ推定に対して分断する。意味論分類に関して、いくつかの実施形態は、標準的クロスエントロピ損失を使用する。検出損失における全ての回帰では、いくつかの実施形態は、Ｈｕｂｅｒ（平滑－Ｌ_１）損失を使用する。さらなる詳細は、付属に提供される。

実装詳細：

入力およびデータ拡張。検出ネットワークへの入力は、ポップアップ深度画像（Ｎ＝２０ｋ）または３Ｄ走査（メッシュ頂点、Ｎ＝４０ｋ）のいずれかからサブサンプリングランダムにされる、Ｎ個の点の点群である。ＸＹＺ座標に加え、いくつかの実施形態はまた、点毎に、その床までの距離を示す、高さ特徴を含む。床高は、全ての点の高さの１％パーセンタイルとして推定される。訓練データを拡張させるために、いくつかの実施形態は、場面点からの点をオンザフライでランダムにサブサンプリングする。いくつかの実施形態はまた、点群を両水平方向にランダムにフリップし、場面点を直立軸の周囲で均一［－５°，５°］だけランダムに回転させ、点を均一［０．９，１．１］だけランダムにスケール変換する。

ネットワークの訓練：

いくつかの実施形態は、ネットワーク全体を、エンドツーエンドで、最初から、Ａｄａｍオプティマイザ、バッチサイズ８、および０．００１の初期学習率を用いて、訓練する。学習率は、８０基準時点後、１０分の１減少され、次いで、１２０基準時点後、さらに１０分の１減少される。モデルを収束に向かって１つのＶｏｌｔａＱｕａｄｒｏＧＰ１００ＧＰＵ上で訓練することは、推定上、ＳＵＮＲＧＢ－Ｄに関して約１０時間およびＳｃａｎＮｅｔＶ２に関して４時間未満かかる。いくつかの実施形態では、ＶｏｔｅＮｅｔは、場面全体の点群を求め、提案を１回の順方向通過において生成することが可能である。提案は、０．２５のＩｏＵ閾値を用いて、３ＤＮＭＳモジュールによって後処理される。評価は、平均適合率の平均値を使用する際のものと同一プロトコルに従う。

いくつかの実施形態は、１５０８Ｆにおいて、少なくとも、特徴を１つまたはそれを上回るスケールにおいて算出し、入力点群のサブサンプリングされたバージョン（例えば、シード点の集合）を決定し、入力点群のサブサンプリングされたバージョンによって投じられる投票を決定することによって、部屋および／または壁回帰を実施し、特徴を抽出する。いくつかの実施形態では、１５０８Ｆにおける部屋および／または壁回帰は、ＰｏｉｎｔＮｅｔベースおよび／またはＰｏｉｎｔＮｅｔ＋＋ベースのモジュールとともに実施されてもよく、これは、上記の図１５Ｄを参照してより詳細に下記に説明される。投票クラスタ化は、１５１０Ｆにおいて実施されてもよく、部屋周囲は、１５１２Ｆにおいて推定されてもよい。

図１５Ｇは、いくつかの実施形態における、場面の間取図を生成するための図１５Ｆに図示されるフロー図についてのさらなる詳細を図示する。より具体的には、図１５Ｇは、図１５Ｆの１５１０Ｆにおいて投票クラスタ化を実施するステップについてのさらなる詳細を図示する。これらの実施形態では、投票または予測される投票の集合が、１５０２Ｇにおいて識別されてもよい。１つまたはそれを上回る部屋インスタンスおよび１つまたはそれを上回る壁インスタンスが、少なくとも、シード点に関するクラスタ標識を生成することによって、１５０４Ｇにおいて決定されてもよい。いくつかの実施形態は、１５０６Ｇにおいて、少なくとも、部屋投票（または予測される部屋投票）を１つまたはそれを上回る部屋投票の中に連結することによって、さらに、少なくとも、壁投票（または予測される壁投票）を１つまたはそれを上回る壁投票の中に連結することによって、クラスタ化入力を調製する。

クラスタ化が、１５０８Ｇにおいて、１つまたはそれを上回る部屋投票および／または１つまたはそれを上回る壁投票上に実施され、１つまたはそれを上回る部屋標識および／または１つまたはそれを上回る壁標識を割り当ててもよい。いくつかの実施形態では、密度ベースの空間クラスタ化（例えば、雑音を伴う用途のＤＢＳＣＡＮまたは密度ベースの空間クラスタ化）が、１５０８Ｇにおいて、最大数のクラスタ（例えば、部屋または壁）に関する制限を伴わずに、単純に、投票の空間密度分布に基づいて、ｅｐｓ＝εを用いて、部屋および壁投票上に別個に実施され、ｑ’が｛Ｒ，Ｗ｝に属するように、クラスタ標識ｌ_ｉ ^ｑ’を各投票ｖ_ｉ ^ｑ’に割り当ててもよく、式中、ｑ’＝Ｒは、標識が部屋に関するクラスタ割当であることを暗示し、ｑ’＝Ｗは、標識が壁に関するクラスタ割当であることを暗示する。

ＤＢＳＣＡＮモデルは、半径ε（恣意的距離測定値を伴う）以内の近傍の数に関する閾値ＭｉｎＰｔｓに基づく、単純最小密度レベル推定を使用する。本半径（クエリ点を含む）内のＭｉｎＰｔｓ上回る近傍を伴うオブジェクトは、コア点と見なされる。ＤＢＳＣＡＮの直感力は、本最小密度を充足させ、より低い密度の面積によって分離される、それらの面積を見出すことである。効率性の理由から、ＤＢＳＣＡＮは、点間密度推定を実施しない。代わりに、コア点のε半径内の全ての近傍は、コア点と同一クラスタの一部と見なされる（直接密度到達可能と呼ばれる）。これらの近傍のいずれかが、再び、コア点である場合、その近傍は、推移的に含まれる（密度到達可能）。本集合内の非コア点は、境界線点と呼ばれ、同一集合内の全ての点は、密度接続される。任意のコア点から到達可能密度ではない、点は、雑音と見なされ、任意のクラスタに属しない。

さらに、ＤＢＳＣＡＮモジュールは、上記のモデルに従って、クラスタを算出する（複数のクラスタに属する境界線点が、それらのうちの１つのみに割り当てられることを除く）。本アルゴリズムでは、データベースは、まだ処理されていない、オブジェクトに関して、線形に走査される。非コア点は、雑音に割り当てられ、コア点が発見されると、その近傍は、反復的に拡張され、クラスタに追加される。クラスタに割り当てられている、オブジェクトは、次いで、後に線形走査によって遭遇されると、スキップされるであろう。本基本アルゴリズムは、コア点のみが拡張される、最小限の修正を伴って、関係の推移的閉鎖を算出するための標準的アプローチである。しかし、これは、データベースインデックスが使用される場合合理的に効率的アルゴリズムをもたらし得る。アルゴリズム１は、本ＤＢＳＣＡＮアルゴリズムに関する簡略化された擬似コードを与える。本擬似コードでは、関数ＲａｎｇｅＱｕｅｒｙに対する２つのコールが存在する。ライン３およびライン１３は両方とも、点がまだ標識されていない場合のみ、実行され、その場合、点は、続いて、標識される。これは、以下の性質が認められることを容易にする。すなわち、（ｉ）近傍クエリが、定義されていない標識された点に関してのみ実行される。（ｉｉ）近傍クエリが、ある点上で実行される場合、点は、続いて、クラスタ標識または雑音のいずれかで標識される。（ｉｉｉ）点が再標識される、唯一のときは、その標識が、ライン１１において、雑音からクラスタ標識に変化するときである。したがって、いくつかの実施形態は、データベース内の点毎に、正確に１つの近傍クエリを実行する。ライン１０においてシード集合反復が、適正に実装される場合、本ループは、データベース内の点毎に、最大で１回、実行され、いくつかの実施形態は、Ｏ（Ｃ＋ｎ×Ｑ＋Σ_ｉｒ_ｉ）のランタイム複雑性を求め、式中、Ｑは、関数ＲａｎｇｅＱｕｅｒｙの複雑性であって、ｒ_ｉは、ｉ番目のクエリの結果サイズである。データが、まだインデックス化されたデータベース内に記憶されていない場合、いくつかの実施形態は、インデックス構築時間Ｃを考慮し、これは、Ｏ（Ｃ＋ｎ×Ｑ＋Σ_ｉｒ_ｉ）の総ランタイム複雑性をもたらす。インデックスはまた、付加的記憶を必要とし得、したがって、いくつかの実施形態は、空間複雑性Ｏ（ｎ＋Ｉ）を有し、クラスタ標識およびインデックスを記憶する。

しかしながら、インデックスは、アルゴリズムの複数の工程を横断して共有され得、異なるアルゴリズムは、ＲａｎｇｅＱｕｅｒｙ（クエリの中でもとりわけ）をサポートする、「汎用」インデックス（Ｒ^＊－ツリー等）である場合、同一インデックスから利益を享受することができる。ＲａｎｇｅＱｕｅｒｙを線形走査を用いて実装することは、２つの点の距離を算出するコストＤを伴う、Ｑ∈Θ（ｎ・Ｄ）をもたらし、したがって、ＤＢＳＣＡＮランタイム複雑性は、Θ（ｎ^２・Ｄ）となる。次元ｄのユークリッド空間に関して、これは、Θ（ｎ^２・ｄ）であるが、共有最近傍距離等の高価な距離関数を使用すると、複雑性はさらに、Ｏ（ｎ３）になり得る。ＤＢＳＣＡＮは、決して、ユークリッド距離の使用またはＲ^ｄ内の点に制約されず、を有する、常時、地理的データ、ポリゴン、および他のデータタイプとも併用されるように意図されている。本「オリジナルＤＢＳＣＡＮ」アルゴリズムは、理論的ＤＢＳＣＡＮクラスタモデルに基づいてクラスタ化を生産するための唯一のアルゴリズムではない。例えば、ｓｃｉｋｉｔ－ｌｅａｒｎ０．１６は、最初に、全ての近傍を実体化し（最悪二次メモリをもたらす）、次いで、「ベクトル化」方法において、クラスタ拡張をコア点上でのみ実施する、バリアントを含む。全体的ランタイム複雑性は、改良されないが、これは、Ｐｙｔｈｏｎ／ＮｕｍＰｙランタイム環境によって実行するためにより効率的である。本ＤＢＳＣＡＮアルゴリズムの結果は、決定的であるが、データセットが順列化される場合、変化し得る。最初に、クラスタ標識は、クラスタが発見された順序に応じて、自明に変化し得る。次に、ＤＢＳＣＡＮ理論的モデル内の境界線点は、１つを上回るクラスタから到達可能な密度となり得る。オリジナルＤＢＳＣＡＮアルゴリズムは、一意のクラスタ割当が、多くの場合、ユーザの視点から望ましく、これが、最小量のメモリを要求するため、単に、境界線点を、それらが到達可能である、第１のクラスタに割り当てる。これは、殆ど着目されない稀な状況であるため、データセットの異なる順列を試みるために必要ない。ＨＤＢＳＣＡＮ^＊の改良されたクラスタモデルでは、本変則は、境界線点がそれ以上存在しないため、除去されている。いくつかの実施形態では、オリジナルＤＢＳＣＡＮアルゴリズムの複雑性についての議論に対する疑問は、近傍クエリＲａｎｇｅＱｕｅｒｙのランタイム複雑性Ｑである。本クエリは、データマイニングアルゴリズムをデータベースの上で効率的に実装および最適化するための再使用可能（他のアルゴリズムもまた、ＲａｎｇｅＱｕｅｒｙを使用することができる）かつ強力なインターフェースを構成する。しかし、本クエリが、加速されない場合、ランタイムは、Θ（ｎ２・Ｄ）であって、Ｄは、距離算出のコストである。

点のサンプル集合を調べるとき、いくつかの実施形態は、容易かつ明確に、点のクラスタと、それらのクラスタのいずれかにも属しない、雑音点とを検出し得る。これらの実施形態がクラスタを認識する、主要な理由は、各クラスタ内において、これらの実施形態が、クラスタの外側より著しく高い、典型的点の密度を有することである。さらに、雑音の面積内の密度は、クラスタのいずれか内の密度より低い。以下では、いくつかの実施形態は、あるｋ次元空間Ｓの点のデータベースＤ内の「クラスタ」および「雑音」の本直感的概念を形式化する。クラスタおよびアルゴリズムＤＢＳＣＡＮの両方の概念は、ある高次元特徴空間に関する２Ｄまたは３Ｄユークリッド空間にも同様に適用されることに留意されたい。重要となる概念は、クラスタの点毎に、所与の半径の近傍が、少なくとも点の最小数を含有する必要があることであって、例えば、近傍内の密度は、ある閾値を超える必要がある。近傍の形状は、ｄｉｓｔ（ｐ，ｑ）によって示される、２つの点ｐおよびｑに関する距離関数の選択肢によって決定される。例えば、Ｍａｎｈａｔｔａｎ距離を２Ｄ空間内で使用するとき、近傍の形状は、矩形である。本明細書に説明されるＤＢＳＣＡＮを用いる種々の実施形態は、適切な関数がある所与の用途に関して選定され得るように、任意の距離関数と機能することに留意されたい。適切な可視化の目的のために、全ての実施例は、ユークリッド距離を使用して、２Ｄ空間内にあるであろう。

定義１：（点のＥｐｓ－近傍）Ｎ_Ｅｐｓ（ｐ）によって示される、点ｐのＥｐｓ－近傍は、Ｎ_Ｅｐｓ（ｐ）＝｛ｑ∈Ｄ｜ｄｉｓｔ（ｐ，ｑ）≦Ｅｐｓ｝によって定義される。

本来のアプローチは、クラスタ内の点毎に、少なくとも、点の最小数（ＭｉｎＰｔｓ）がその点のＥｐｓ－近傍内に存在することを要求し得る。しかしながら、本アプローチは、２つの種類の点、すなわち、クラスタの内側の点（コア点）と、クラスタの境界線上の点（境界線点）とがクラスタ内に存在するため、失敗する。一般に、境界線点のＥｐｓ－近傍は、コア点のＥｐｓ－近傍より有意に少ない点を含有する。したがって、いくつかの実施形態は、同一クラスタに属する全ての点を含むために、点の最小数を比較的に低値に設定する。しかしながら、本値は、特に、雑音の存在下では、個別のクラスタに関して特性的ではないであろう。したがって、いくつかの実施形態は、クラスタＣ内の点ｐ毎に、ｐが、ｑのＥｐｓ－近傍の内側にあり、Ｎ_Ｅｐｓ（ｑ）が、少なくとも、ＭｉｎＰｔｓ点を含有するように、Ｃ内に点ｑが存在することを要求する。本定義は、以下に詳述される。

定義２：（直接密度到達可能）点ｐは、１）ｑ∈Ｎ_Ｅｐｓ（ｑ）であって、２）｜Ｎ_Ｅｐｓ（ｑ）｜≧ＭｉｎＰｔｓ（ｃｏｒｅｐｏｉｎｔｃｏｎｄｉｔｉｎ）である場合、Ｅｐｓ、ＭｉｎＰｔｓに対する点から直接密度到達可能である。

直接密度到達可能は、対のコア点に関して対称である。しかしながら、一般に、１つのコア点および１つの境界線点が関わる場合、対称ではない。

定義３：（密度到達可能）点ｐは、Ｐ_ｉ＋１がｐ_ｉから直接密度到達可能であるように、一連の点ｐ_{１，．．．，}ｐ_ｎ（ｐ_１＝ｑ、ｐ_ｎ＝ｐ）が存在する場合、ＥｐｓおよびＭｉｎＰｔｓに対する点ｑから密度到達可能である。

密度到達可能性は、直接密度到達可能性の規準拡張である。本関係は、推移的であるが、対称ではない。対称ではないが、一般に、密度到達可能性は、コア点に関して対称であることが明白である。同一クラスタＣの２つの境界線点は、コア点条件がそれらの両方に関して当てはまらない場合があるため、可能性として、相互から密度到達可能ではない。しかしながら、そこからＣの両方の境界線点が密度到達可能である、Ｃ内に、コア点が存在しなければならない。したがって、いくつかの実施形態は、密度接続性の概念を導入し、これは、境界線点の本関係を網羅する。

定義４：（密度接続）点「ｐ」は、ｐおよびｑの両方がＥｐｓおよびＭｉｎＰｔｓに対するｏから密度到達可能であるように、点「ｏ」が存在する場合、ＥｐｓおよびＭｉｎＰｔｓに対する点「ｑ」に密度集中される。

密度接続性は、対称関係である。密度到達可能点に関して、密度接続性の関係もまた、反映される。ここで、いくつかの実施形態は、クラスタの密度ベースの概念を定義することが可能である。直感的に、クラスタは、密度到達可能性に対する最大値である、密度接続点の集合であると定義される。雑音は、所与の集合のクラスタに対して定義されるであろう。雑音は、単に、そのクラスタのいずれにも属しない、Ｄ内の点の集合である。

定義５：（クラスタ）Ｄを点のデータベースとする。ＥｐｓおよびＭｉｎＰｔｓに対するクラスタＣは、以下の条件、すなわち、１）

ｐ∈Ｃであり、そしてｑが、ＥｐｓおよびＭｉｎＰｔｓに対するｐから密度到達可能である場合、ｑ∈Ｃ（最大性）であって、２）

ｐが、ＥｐｓおよびＭｉｎＰｔｓに対するｑに密度接続される（接続性）ことを充足させる、Ｄの非空サブセットである。

定義６：（雑音）Ｃ_{１，．．．，}Ｃ_ｋをパラメータＥｐｓ_ｉおよびＭｉｎＰｔｓ_ｉ（ｉ＝１、…，ｋ）に対するデータベースＤのクラスタとする。したがって、雑音は、任意のクラスタＣｉに属しない、データベースＤ内の点の集合、例えば、

として定義される。

ＥｐｓおよびＭｉｎＰｔｓに対するクラスタＣは、以下の理由のため、少なくともＭｉｎＰｔｓ点を含有することに留意されたい。Ｃは、少なくとも１つの点ｐを含有するため、ｐは、ある点ｏ（ｐに等しくあり得る）を介して、それ自体に密度接続されなければならない。したがって、少なくともｏは、コア点条件を充足させる必要があり、その結果、ｏのＥｐｓ－近傍は、少なくともＭｉｎＰｔｓ点を含有する。以下の補題は、クラスタ化アルゴリズムの正確性を検証するために重要である。直感的に、それらは、以下を述べる。パラメータＥｐｓおよびＭｉｎＰｔｓを前提として、いくつかの実施形態は、２ステップアプローチにおいて、クラスタを発見し得る。第１に、コア点条件を充足させるデータベースからの恣意的点をシードとして選定する。第２に、シードから密度到達可能な全ての点を読み出し、シードを含有するクラスタを取得する。

補題１：ｐをＤ内の点とし、｜Ｎ_Ｅｐｓ（ｐ）｜≧ＭｉｎＰｔｓとする。したがって、ｓｅｔ０＝｛ｏ｜ｏ∈Ｄであって、ｏは、ＥｐｓおよびＭｉｎＰｔｓに対するｐから密度到達可能である｝は、ＥｐｓおよびＭｉｎＰｔｓに対するクラスタである。ＥｐｓおよびＭｉｎＰｔｓに対するクラスタＣは、そのコア点のいずれかによって一意に決定されることは、明白ではない。しかしながら、Ｃ内の各点は、Ｃのコア点のいずれかから密度到達可能であって、したがって、クラスタＣは、正確に、Ｃの恣意的コア点から密度到達可能な点を含有する。

補題２：ＣをＥｐｓおよびＭｉｎＰｔｓに対するクラスタとし、ｐを｜Ｎ_Ｅｐｓ（ｐ）｜≧ＭｉｎＰｔｓを伴う、Ｃ内の任意の点とする。したがって、Ｃは、ｓｅｔ０＝｛ｏＩｏは、ＥｐｓおよびＭｉｎＰｔｓに対するｐから密度到達可能である｝に等しい。

雑音を伴う用途の密度ベースの空間クラスタ化：

いくつかの実施形態は、アルゴリズムＤＢＳＣＡＮ（雑音を伴う用途の密度ベースの空間クラスタ化）を提示し、これは、定義５および６に従って、空間データベース内のクラスタおよび雑音を発見するように設計される。理想的には、いくつかの実施形態は、各クラスタの適切なパラメータＥｐｓおよびＭｉｎＰｔｓおよび個別のクラスタからの少なくとも１つの点を把握する必要があるであろう。次いで、これらの実施形態は、正しいパラメータを使用して、所与の点から密度到達可能な全ての点を読み出し得る。しかし、データベースの全てのクラスタに関して本情報を事前に得るための容易な方法が存在しない。しかしながら、データベース内の「最薄」、例えば、最低密度のクラスタのパラメータＥｐｓおよびＭｉｎＰｔｓを決定するための単純かつ効果的ヒューリスティック（第４．２節に提示される）が存在する。したがって、ＤＢＳＣＡＮは、ＥｐｓおよびＭｉｎＰｔｓに関するグローバル値、例えば、全てのクラスタに関して同一値を使用する。「最薄」クラスタの密度パラメータは、最低密度を規定するこれらのグローバルパラメータ値に関する良好な候補であって、これは、雑音と見なされない。

クラスタを見出すために、ＤＢＳＣＡＮは、恣意的点ｐから開始し、ＥｐｓおよびＭｉｎＰｔｓに対するｐから密度到達可能な全ての点を読み出す。ｐが、コア点である場合、本プロシージャは、ＥｐｓおよびＭｉｎＰｔｓに対するクラスタをもたらす（補題２参照）。ｐが、境界線点である場合、いずれの点も、ｐから密度到達可能ではなく、ＤＢＳＣＡＮは、データベースの次の点に移る。いくつかの実施形態は、ＥｐｓおよびＭｉｎＰｔｓに関するグローバル値を使用するため、ＤＢＳＣＡＮは、異なる密度の２つのクラスタが相互に「近接」する場合、２つのクラスタを、定義５に従って、１つのクラスタにマージしてもよい。２つの点の集合Ｓ_１とＳ_２との間の距離をｄｉｓｔ（Ｓ_１，Ｓ_２）＝ｍｉｎ｛ｄｉｓｔ（ｐ，ｑ）｜ｐ∈Ｓ_１，ｑ∈Ｓ_２｝として定義する。したがって、少なくとも、最薄クラスタの密度を有する、２つの点の集合は、２つの集合間の距離がＥｐｓより大きい場合のみ、相互から分離されるであろう。その結果、ＤＢＳＣＡＮの回帰的コールが、ＭｉｎＰｔｓに関するより高い値を伴う、検出されたクラスタのために必要であり得る。しかしながら、これは、ＤＢＳＣＡＮの回帰的適用が簡潔かつ非常に効率的基本アルゴリズムをもたらすため、不利ではない。さらに、クラスタの点の回帰的クラスタ化は、容易に検出され得る条件下でのみ必要である。以下では、いくつかの実施形態は、ＤＢＳＣＡＮの基本バージョンを提示し、データタイプの詳細およびクラスタについての付加的情報の生成を省略する。

ＳｅｔＯｆＰｏｉｎｔｓは、データベース全体または前の工程から発見されたクラスタのいずれかである。ＥｐｓおよびＭｉｎＰｔｓは、手動で、または第４．２節に提示されるヒューリスティックに従ってのいずれかで決定されたグローバル密度パラメータである。関数ＳｅｔＯｆＰｏｉｎｔｓ．ｇｅｔ（ｉ）は、ＳｅｔＯｆＰｏｉｎｔｓのｉ番目の要素を返す。ＤＢＳＣＡＮによって使用される最も重要な関数は、ＥｘｐａｎｄＣｌｕｓｔｅｒであって、これは、下記に提示される。

ＳｅｔＯｆＰｏｉｎｔｓ．ｒｅｇｉｏｎＱｕｅｒｙ（Ｐｏｉｎｔ，Ｅｐｓ）のコールは、ＳｅｔＯｆＰｏｉｎｔｓ内の点のＥｐｓ－近傍を点のリストとして返す。ｒｅｇｉｏｎＱｕｅｒｙは、いくつかのタイプの空間クエリの効率的処理のためにＳＤＢＳにおいて利用可能であると仮定される、Ｒ^＊－ツリー等の空間アクセス方法によって効率的にサポートされることができる。Ｒ^＊－ツリーの高さは、最悪の場合における点のデータベースに関するＯ（ｌｏｇｎ）であって、「小」クエリ領域を伴うクエリは、Ｒ^＊－ツリー内の限定された数の経路のみをトラバースする必要がある。Ｅｐｓ－近傍は、データ空間全体のサイズと比較して、小さいことが予期されるため、単一ｒｅｇｉｏｎＱｕｅｒｙの平均ランタイム複雑性は、Ｏ（ｌｏｇｎ）である。データベースのｎ個の点毎に、いくつかの実施形態は、最大で１つのｒｅｇｉｏｎＱｕｅｒｙを有する。したがって、ＤＢＳＣＡＮの平均ランタイム複雑性は、Ｏ（ｎ^＊ｌｏｇｎ）である。雑音であるとマークされ得る、点のＣｌＩｄ（Ｃｌｕｓｔｅｒｌｄ）は、それらがデータベースのある他の点から密度到達可能である場合、後に、変化されてもよい。これは、クラスタの境界線点に関して起こる。それらの点は、いくつかの実施形態が、ＮＯＩＳＥのＣｌｌｄを伴う点がコア点ではないことをすでに把握しているため、シードリストに追加されない。それらの点をシードに追加することは、付加的ｒｅｇｉｏｎＱｕｅｒｙのみをもたらし、これは、新しい回答をもたらさないであろう。２つのクラスタＣ_１およびＣ_２が、相互に非常に近い場合、ある点ｐがＣ_１およびＣ_２の両方に属することが起こる場合がある。次いで、ｐは、いくつかの実施形態がグローバルパラメータを使用するため、そうでなければＣ_１がＣ_２に等しいであろうため、クラスタの両方内の境界線点とならなければならない。この場合、点ｐは、最初に発見されたクラスタに割り当てられるであろう。これらの稀な状況を除き、ＤＢＳＣＡＮの結果は、データベースの点が補題２に起因して移られる、順序から独立する。

パラメータＥｐｓおよびＭｉｎＰｔｓを決定するために、いくつかの実施形態は、ヒューリスティックを使用して、データベース内の「最薄」クラスタのパラメータＥｐｓおよびＭｉｎＰｔｓを決定する。本ヒューリスティックは、以下の観察に基づく。ｄを点ｐのそのｋ番目の最近傍までの距離とすると、したがって、ｐのｄ－近傍は、ほぼ全ての点ｐに関して、正確にｋ＋Ｉ個の点を含有する。ｐのｄ－近傍は、いくつかの点が、ｐから正確に同一距離ｄを有する場合のみ、ｋ＋１個を上回る点を含有するが、これは、非常に可能性が低い。さらに、クラスタ内のある点に関するｋを変化させることは、ｄの大変化をもたらさない。これは、ｐ（ｋ＝１，２，３，．．．）のｋ番目の最近傍が、ほぼ直線上に位置する場合のみ起こり、これは、一般に、クラスタ内のある点に関しては、該当しない。所与のｋに関して、いくつかの実施形態は、データベースＤから実数までの関数ｋ－ｄｉｓｔを定義し、各点をそのｋ番目の最近傍からの距離にマッピングする。データベース内の点をそのｋ－ｄｉｓｔ値の降順でソートするとき、本関数のグラフは、データベース内の密度分布に関するいくつかのヒントを与える。本グラフは、ソートされたｋ－ｄｉｓｔｇｒａｐｈと呼ばれ得る。恣意的点ｐが、選定される場合、いくつかの実施形態は、パラメータＥｐｓをｋ－ｄｉｓｔ（ｐ）に設定し、パラメータＭｉｎＰｔｓをｋに設定し、等しいまたはより小さいｋ－ｄｉｓｔ値を伴う、全ての点は、コア点となるであろう。最大限のｋ－ｄｉｓｔ値を伴う閾値点がＤの「最薄」クラスタ内に存在する場合、所望のパラメータ値が、取得され得る。閾値点は、ソートされたｋ－ｄｉｓｔｇｒａｐｈの第１の「谷」内の第１の点である。より高いｋ－ｄｉｓｔ値を伴う、全ての点（閾値の左）は、雑音と見なされ、全ての他の点（閾値の右）は、あるクラスタに割り当てられる。

一般に、第１の「谷」を自動的に検出することは、困難であり得るが、ユーザが本谷をグラフィカル表現において認めることは、比較的に単純である。したがって、いくつかの実施形態は、閾値点を決定するための双方向アプローチに従う。ＤＢＳＣＡＮは、２つのパラメータ、すなわち、ＥｐｓおよびＭｉｎＰｔｓを必要とする。しかしながら、実験は、ｋ－ｄｉｓｔｇｒａｐｈｓ（ｋ＞４）が、４－ｄｉｓｔｇｒａｐｈと有意に異ならず、さらに、それらが、著しくより多くの算出を必要とすることを示す。したがって、これらの実施形態は、全てのデータベースに関して（２次元データに関して）、それを４に設定することによって、パラメータＭｉｎＰｔｓを排除する。

いくつかの実施形態では、ＤＢＳＣＡＮによって導入されるモデルは、半径ε（恣意的距離測定値を伴う）以内の近傍の数に関する閾値ＭｉｎＰｔｓに基づく、単純最小密度レベル推定を使用する。本半径（クエリ点を含む）内のＭｉｎＰｔｓ上回る近傍を伴うオブジェクトは、コア点と見なされる。ＤＢＳＣＡＮの直感力は、本最小密度を充足させ、より低い密度の面積によって分離される、それらの面積を見出すことである。効率性の理由から、ＤＢＳＣＡＮは、点間密度推定を実施しない。代わりに、コア点のε半径内の全ての近傍は、コア点と同一クラスタの一部と見なされる（直接密度到達可能と呼ばれる）。これらの近傍のいずれかが、再び、コア点である場合、その近傍は、推移的に含まれる（密度到達可能）。本集合内の非コア点は、境界線点と呼ばれ、同一集合内の全ての点は、密度接続される。任意のコア点から到達可能密度ではない、点は、雑音と見なされ、任意のクラスタに属しない。

ＤＢＳＣＡＮモジュールはさらに、上記のモデルに従って、クラスタを算出する（複数のクラスタに属する境界線点が、それらのうちの１つのみに割り当てられることを除く）。本アルゴリズムでは、データベースは、まだ処理されていない、オブジェクトに関して、線形に走査される。非コア点は、雑音に割り当てられ、コア点が発見されると、その近傍は、反復的に拡張され、クラスタに追加される。クラスタに割り当てられている、オブジェクトは、次いで、後に線形走査によって遭遇されると、スキップされるであろう。本基本アルゴリズムは、コア点のみが拡張される、最小限の修正を伴って、関係の推移的閉鎖を算出するための標準的アプローチである。しかし、これは、データベースインデックスが使用される場合合理的に効率的アルゴリズムをもたらし得る。アルゴリズム１は、本ＤＢＳＣＡＮアルゴリズムに関する簡略化された擬似コードを与える。本擬似コードでは、関数ＲａｎｇｅＱｕｅｒｙに対する２つのコールが存在する。ライン３およびライン１３は両方とも、点がまだ標識されていない場合のみ、実行され、その場合、点は、続いて、標識される。これは、以下の性質が認められることを容易にする。すなわち、（ｉ）近傍クエリが、定義されていない標識された点に関してのみ実行される。（ｉｉ）近傍クエリが、ある点上で実行される場合、点は、続いて、クラスタ標識または雑音のいずれかで標識される。（ｉｉｉ）点が再標識される、唯一のときは、その標識が、ライン１１において、雑音からクラスタ標識に変化するときである。したがって、いくつかの実施形態は、データベース内の点毎に、正確に１つの近傍クエリを実行する。ライン１０においてシード集合反復が、適正に実装される場合、本ループは、データベース内の点毎に、最大で１回、実行され、いくつかの実施形態は、Ｏ（Ｃ＋ｎ×Ｑ＋Σ_ｉｒ_ｉ）のランタイム複雑性を求め、式中、Ｑは、関数ＲａｎｇｅＱｕｅｒｙの複雑性であって、ｒ_ｉは、ｉ番目のクエリの結果サイズである。データが、まだインデックス化されたデータベース内に記憶されていない場合、いくつかの実施形態は、インデックス構築時間Ｃを考慮し、これは、Ｏ（Ｃ＋ｎ×Ｑ＋Σ_ｉｒ_ｉ）の総ランタイム複雑性をもたらす。インデックスはまた、付加的記憶を必要とし得、したがって、いくつかの実施形態は、空間複雑性Ｏ（ｎ＋Ｉ）を有し、クラスタ標識およびインデックスを記憶する。

しかしながら、インデックスは、アルゴリズムの複数の工程を横断して共有され得、異なるアルゴリズムは、ＲａｎｇｅＱｕｅｒｙ（クエリの中でもとりわけ）をサポートする、「汎用」インデックス（Ｒ^＊－ツリー等）である場合、同一インデックスから利益を享受することができる。ＲａｎｇｅＱｕｅｒｙを線形走査を用いて実装することは、２つの点の距離を算出するコストＤを伴う、Ｑ∈Θ（ｎ・Ｄ）をもたらし、したがって、ＤＢＳＣＡＮランタイム複雑性は、Θ（ｎ^２・Ｄ）となる。次元ｄのユークリッド空間に関して、これは、Θ（ｎ^２・ｄ）であるが、共有最近傍距離等の高価な距離関数を使用すると、複雑性はさらに、Ｏ（ｎ３）になり得る。ＤＢＳＣＡＮは、決して、ユークリッド距離の使用またはＲ^ｄ内の点に制約されず、を有する、常時、地理的データ、ポリゴン、および他のデータタイプとも併用されるように意図されている。

１５０８Ｇにおいて実施されるクラスタ化を用いることで、割当は、１５１０Ｇにおいて、少なくとも、１つまたはそれを上回る部屋標識および／または１つまたはそれを上回る壁標識を対応する部屋投票および／または壁投票から対応するシード点まで逆追跡することによって、生成されてもよい。壁点のリストは、１５１２Ｇにおいて、少なくとも、積集合演算を部屋点の集合および壁点の集合上で実施することによって、決定されてもよい。

図１５Ｈは、いくつかの実施形態における、場面の間取図を生成するための図１５Ｆに図示されるフロー図についてのさらなる詳細を図示する。より具体的には、図１５Ｈは、図１５Ｆの１５１２Ｆにおいて部屋周囲を推定するステップについてのさらなる詳細を図示する。これらの実施形態では、部屋に関する部屋点の集合およびの１つまたはそれを上回る集合壁点が、１５０２Ｈにおいて識別されてもよい。個々の部屋周囲が、１５０４Ｈにおいて、エクステンデッドリアリティ、場面理解等の技術分野における屋内環境のレイアウトの理解および空間の長距離幾何学形状の理解を取得することによって、決定されてもよい。いくつかの実施形態では、個々の部屋周囲は、１５０４Ｈにおいて、少なくとも、上記の図１５Ｅを参照して上記に説明されるＤｅｅｐＰｅｒｉｍｅｔｅｒモジュールを使用することによって、決定されてもよい。

部屋に関する部屋点および壁点内の点は、１５０６Ｈにおいて、平面に投影されてもよい。例えば、これらの点は、Ｘ－Ｙ平面等の水平平面に投影されてもよく、Ｚ－方向は、重力方向を示す。２次元（２Ｄ）線分が、１５０８Ｈにおいて、場面分析または場面理解モジュールを使用することによって、壁点の１つまたはそれを上回る集合内の点に関して予測されてもよい。いくつかの実施形態では、２Ｄ線分は、１５０８Ｈにおいて、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ）モデルを使用することによって、壁点に関して予測されてもよい。

モデルを実験データに適合するために開発された、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ）モデルが、場面分析および自動化された地図作成で使用されてもよい。議論される用途である、場所決定問題（ＬＯＰ）は、ＲＡＮＳＡＣパラダイムの使用の単なる実施例を超えたレベルで取り扱われる。すなわち、その下でＬＤＰが解法されるべき、条件に関する新しい基本発見が、提示され、いくつかの実施形態が、近々実践的用途を有するであろうことを予期する、本問題の解に対する包括的アプローチが、説明される。大方の場合、場面分析（実際には、科学全般）は、所定のモデルの集合の観点から感知されるデータの解釈に関する。概念上、解釈は、２つの明確に異なるアクティビティを伴う。すなわち、１つ目は、データと利用可能なモデルのうちの１つとの間の最良マッチングを見出す問題（分類問題）であって、２つ目は、選択されたモデルの自由パラメータに関する最良値を算出する問題（パラメータ推定問題）である。実践では、これらの２つの問題は、独立していない。すなわち、パラメータ推定問題に対する解は、多くの場合、分類問題を解法するために要求される。最小二乗法等のパラメータ推定に関する古典的技法は、提示されるデータの全てへの機能的記述（モデル）の適合を最適化する（規定された目的関数に従って）。これらの技法は、大誤差を検出および除斥するための内部機構を有しない。それらは、仮定されるモデルからの任意のデータの最大予期逸脱がデータセットのサイズの一次関数であるという仮定（平滑化仮定）に依拠する、平均化技法であって、したがって、データセットのサイズにかかわらず、常時、任意の大逸脱を平滑化するために十分な良好な値が存在するであろう。

多くの実践的パラメータ推定問題では、平滑化仮定は、当てはまらない。例えば、データは、補償されない大誤差を含有する。本状況に対処するために、いくつかのヒューリスティックが、提案されている。通常採用される、技法は、最初に、全てのデータを使用して、モデルパラメータを導出し、次いで、それが大誤差であると仮定して、インスタンス化されたモデルとの一致から最も遠い、データを位置特定し、それを削除し、最大逸脱が事前設定閾値未満となるか、またはもはや進めるための十分なデータが存在しなくなるかのいずれかまで、本プロセスを反復するステップの、ある変形例である。良好なデータの集合と混合される、単一大誤差（「毒された点」）は、上記のヒューリスティック（例えば、図１３Ａ参照）を失敗させ得ることが容易に示され得る。平均化を採用する、従来のアプローチは、照合されていないデータセットに適用するために適切な技法ではない場合がある。

いくつかの実施形態では、ＲＡＮＳＡＣモデルは、大誤差の有意なパーセンテージを含む、データを平滑化する。本モデルはまた、頻繁に誤りを犯す、ローカル特徴検出器が、解釈アルゴリズムに提供されるデータのソースであるため、場面分析にも適用可能である。ローカル特徴検出器は、２つのタイプの誤り、すなわち、分類誤差および測定誤差を犯す。分類誤差は、特徴検出器が、画像の一部を特徴の発生として正しくなく識別するときに生じる。測定誤差は、特徴検出器が、特徴を正しく識別するが、若干、そのパラメータのうちの１つ（例えば、その画像場所）を誤算するときに生じる。測定誤差は、概して、正規分布に従い、したがって、平滑化仮定が、それらに適用可能である。しかしながら、分類誤差は、測定誤差より有意に大きい影響を及ぼす、大誤差であって、平均化されない。ＲＡＮＳＡＣモデルが、場所決定問題「その場所がある座標フレーム内で既知である、「目印」（「制御点」）の集合を前提として、そこから目印の画像が取得された空間内の（目印の座標フレームに対する）その点の場所を決定する」に対処するために使用されてもよい。

ＲＡＮＳＡＣ要件に応答して、いくつかの新しい結果が、解を取得するために必要とされる、最小数の目印上で導出され、次いで、アルゴリズムが、これらの最小目印解を閉形式において算出するために提示される。（従来の技法は、収束を保証するために、反復的であって、良好な初期推測を要求する。）これらの結果は、過酷な視認および分析条件下でＬＤＰを解法し得る、自動システムのための基礎を形成する。特に、本システムは、有意な数の目印が、低可視性、地形変化、または画像分析誤差に起因して、正しくなく位置特定される場合でも、適切に性能を発揮する。実装詳細および実験結果が、ＬＤＰ用途の説明を完了するために提示される。

ＲＡＮＳＡＣモデル内のプロシージャは、従来の平滑化技法のものと対照的である。すなわち、可能な限り多くのデータを使用して、初期解を取得し、次いで、無効データ点を排除するように試みるのではなく、ＲＡＮＳＡＣは、実行可能である限り小初期データセットを使用して、可能であるとき、一貫したデータを用いて、本セットを拡大させる。例えば、円形の弧を２次元点の集合に適合させるタスクを前提として、ＲＡＮＳＡＣアプローチは、３つの点の集合を選択し（３つの点が、円形を決定するために要求されるため）、暗示される円形の中心および半径を算出し、その円形に十分に近似する点の数をカウントし、それとのその適合性を示唆するであろう（例えば、その逸脱は、測定誤差であるために十分に小さい）。十分な適合性がある点が存在する場合、ＲＡＮＳＡＣは、最小二乗法等の平滑化技法を採用し、現時点で、相互に一貫した点の集合が識別されている、円形のパラメータに関する改良された推定値を算出するであろう。ＲＡＮＳＡＣパラダイムは、以下のように、より形式的に述べられる。

その自由パラメータをインスタンス化するための最小ｎ個のデータ点と、Ｐ内の点の数がｎ［＃（Ｐ）２≧ｎ］を上回るように、データ点Ｐの集合とを要求する、モデルを前提として、ｎ個のデータ点のサブセットＳ１をＰからランダムに選択し、モデルをインスタンス化する。インスタンス化されたモデルＭ１を使用して、Ｍ１のある誤差許容度内のＰ内の点のサブセットＳ１^＊を決定する。集合Ｓ１^＊は、ＳＩの共有項集合と呼ばれる。

＃（Ｓ１^＊）が、Ｐ内の大誤差の数の推定値の関数である、ある閾値ｔを上回る場合、Ｓｌ^＊を使用して、新しいモデルＭ１^＊を算出する（可能性として、最小二乗法を使用して）。＃（Ｓ１^＊）が、ｔ未満である場合、新しいサブセットＳ２をランダムに選択し、上記のプロセスを繰り返す。ある所定の数の試行後、ｔまたはそれを上回る要素を伴う共有項集合が、見出されない場合、見出される最大共有項集合を用いてモデルを解法するか、または失敗に終了するかのいずれかである。

ＲＡＮＳＡＣモデルによる上記のアルゴリズムに対して、２つの明白な改良点が存在する。第１に、点を選択し、Ｓを形成するための問題関連論拠が存在する場合、ランダムなものの代わりに、決定的選択プロセスを使用する。第２に、いったん好適な共有項集合Ｓ^＊が、見出され、モデルＭ^＊が、インスタンス化されると、Ｍ^＊と一致するＰからの任意の新しい点をＳ^＊に追加し、新しいモデルに基づいて、本より大きい集合を算出する。ＲＡＮＳＡＣパラダイムは、３つの規定されていないパラメータ、すなわち、（Ｉ）点がモデルと適合性があるかどうかを決定するために使用される、誤差許容度と、（２）試行するためのサブセットの数と、（３）正しいモデルが見出されたことを暗示するために使用される、適合性がある点の数である、閾値ｔとを備える。以下の項において、これらのパラメータのための合理的値を算出するための方法が、議論される。

データ／モデル適合性を確立するための誤差許容度：モデルからのデータの逸脱は、データと関連付けられる誤差とモデルと関連付けられる誤差の関数である（部分的に、モデルをインスタンス化するために使用されるデータと関連付けられる、誤差の関数である）。モデルが、データ点の単純関数である場合、誤差許容度に関する合理的境界を分析的に確立することが実践的であり得る。しかしながら、本簡単なアプローチは、多くの場合、機能不能である。そのような場合に関して、概して、誤差許容度に関する境界を実験的に推定することが可能である。サンプル逸脱は、データを摂動させ、モデルを算出し、暗示される誤差を測定することによって生産されることができる。誤差許容度は、次いで、測定された平均誤差を超える１つまたは２つの標準偏差に設定され得る。仮定されるモデルからのデータの予期される逸脱は、概して、データの関数であって、したがって、誤差許容度は、データ毎に、異なるはずである。しかしながら、誤差許容度における変動は、通常、大誤差のサイズと比較して、比較的に小さい。したがって、全てのデータに関する単一誤差許容度が、多くの場合、十分である。

共有項集合を見出すための試行の最大数：Ｐの新しいサブセットを選択することを停止することの決定は、ｎ個の良好なデータ点のサブセットを選択するために要求される、予期される試行の数ｋに基づくことができる。ｗを任意の選択されたデータ点がモデルの誤差許容度内にある確率とする。したがって、これらの実施形態は、以下を有する。
Ｅ（ｋ）＝ｂ＋２^＊（１－ｂ）^＊ｂ＋３^＊（１－ｂ）２^＊ｂ．．．＋ｉ^＊（ｌ－ｂ）ｉ－ｌ^＊ｂ＋．．．
Ｅ（ｋ）＝ｂ^＊［ｌ＋２^＊ａ＋３^＊ａ^２・・・＋ｉ^＊ａ^ｉ－ｌ＋．．．］
式中、Ｅ（ｋ）は、ｋの予期される値、ｂ＝ｗ^ｎ、およびａ＝（１－ｂ）である。
等比級数の和に関する恒等式は、ａ／（１－ａ）＝ａ＋ａ^２＋ａ^３・・・＋ａ^ｉ＋．．．である。
ａに対する上記の恒等式を微分すると、これらの実施形態は、１／（１－ａ）^２＝ｌ＋２^＊ａ＋３^＊ａ^２・・・＋ｉ^＊ａ^ｉ－１＋．．．を有する。
したがって、Ｅ（ｋ）＝ｌ／ｂ＝Ｗ^－ｎとなる。
いくつかの実施形態は、プロセスが終了する前に、１または２標準偏差だけ、Ｅ（ｋ）回の試行回数を超え得る。ｋの標準偏差ＳＤ（ｋ）は、以下によって与えられることに留意されたい。
ＳＤ（ｋ）＝ｓｑｒｔ［Ｅ（ｋ^２）－Ｅ（ｋ）^２
したがって、以下となる。

しかし、等比級数恒等式および２つの微分を使用すると、以下となる。

したがって、以下となる。
Ｅ（ｋ^２）＝（２－ｂ）／（ｂ^２）
および
ＳＤ（ｋ）＝［ｓｑｒｔ（１－ｗ^ｎ）］＊（１／ｗ^ｎ）

概して、ＳＤ（ｋ）は、Ｅ（ｋ）とほぼ等しいであろうことに留意されたい。したがって、例えば、（ｗ＝０．５）および（ｎ＝４）である場合、Ｅ（ｋ）＝１６およびＳＤ（ｋ）＝１５．５である。これは、２または３回、ｋによって暗示されるランダム選択の予期される数（上記で表化されるように）を試行し、ｔ個の要素を上回る共有項集合を取得することが所望され得ることを意味する。若干異なる視点から、いくつかの実施形態が、確率ｚを伴って、ランダム選択のうちの少なくとも１つが誤差のないｎ個のデータ点の集合であることを確実にすることになる場合、これらの実施形態は、少なくともｋ個の選択（選択あたりｎ個のデータ点）を行うことを予期しなければならず、（Ｉ－ｂ）ｋ＝（ｌ－ｚ）であって、
ｋ＝［ｌｏｇ（ｌ－ｚ）］／［ｌｏｇ（ｌ－ｂ）］である。
例えば、（ｗ＝０．５）および（ｎ＝４）である場合、（ｂ＝１／１６）である。少なくとも１つの誤差のない選択を行うことの９０パーセント保証を取得するために、
ｋ＝ｌｏｇ（Ｏ．ｌ）／ｌｏｇ（ｌ５／１６）＝３５．７である。
ｗ^ｎ<<ｌである場合、ｋ～ｌｏｇ（ｌ－ｚ）Ｅ（ｋ）であることに留意されたい。したがって、ｚ＝０．９０およびｗ^ｎ<<１である場合、ｋ～２．３Ｅ（ｋ）であって、ｚ＝０．９５およびｗ^ｎ<<１である場合、ｋ～３．０Ｅ（ｋ）である。

容認可能共有項集合のサイズに関する下限：ＲＡＮＳＡＣパラダイムの形式的命題における規定されていないパラメータである、閾値ｔが、Ｐのｎ個のサブセットが、アルゴリズムが終了することを可能にするための十分に大きい共有項集合を暗示することが見出されていることを決定するための基礎として使用される。したがって、ｔは、２つの目的、すなわち、正しいモデルが、データに関して見出されていることと、十分な数の相互に一貫した点が、（モデルパラメータに関する改良された推定値を算出する）最終平滑化プロシージャの必要性を充足させるために見出されていることとを充足させるために十分に大きいように選定されなければならない。最終共有項集合が正しくないモデルと適合性がある可能性を防ぐことを確実にするために、ｙが、任意の所与のデータ点が正しくないモデルの誤差許容度内にある確率であると仮定すると、いくつかの実施形態は、ｙ^ｔ－ｎが非常に小さいことを所望するであろう。ｙを精密に決定する一般的方法は、存在しないが、それがｗ未満であると仮定することは、確実に合理的である（例えば、ｗは、所与のデータ点が正しいモデルの誤差許容度内にあることの先験的確率である）。ｙ＜０．５であると仮定すると、５に等しいｔ－ｎの値は、正しくないモデルとの適合性が生じないであろう、９５パーセントより良好な確率を提供するであろう。最終平滑化プロシージャの必要性を充足させるために、採用されるべき特定のプロシージャが、規定されなければならない。最小二乗平滑化が、使用されるべきである場合、形式的方法が所望の精度を生産するために要求される点の数を決定するために呼び出され得る、多くの状況が存在する。

いくつかの実施形態は、ＲＡＮＳＡＣを図１３Ａに説明される実施例に適用する。０．８５に等しいｗ（任意の選択されたデータ点がモデルの誤差許容度内である確率）の値が、データと一致し、（データ／モデル適合性を確立するための）０．８ユニットの許容度が、問題命題の一部として供給された。ＲＡＮＳＡＣ供給モデルは、最終共有項集合の外部平滑化を伴わずに承認されるであろう。したがって、いくつかの実施形態は、全７つデータ点を備える、共有項集合を取得し得る。これらの点のうちの１つは、大誤差であるため、いくつかの実施形態は、所望のサイズの共有項集合を見出さないであろうことが明白であって、したがって、これらの実施形態は、これらの実施形態が見出すことが可能である、最大集合で終了するであろう。前述で提示される理論は、いくつかの実施形態が、２つのデータ点を一度に求め、それらを通した線を算出し、本線からの残りの点の逸脱を測定する場合、これらの実施形態が、２または３回の試行以内に好適な共有項集合を見出すことを予期するはずであることを示す。しかしながら、限定されるデータの量のため、いくつかの実施形態は、全２１個の組み合わせを試行し、最大共有項集合を見出し得る。いずれの場合も、いくつかの実施形態は、６つの有効データ点と、それらが暗示する、線とを含有する、共有項集合を容易に見出し得る。

場所決定問題（ＬＤＰ）：画像分析における基本問題は、所与の場面の２つの表現の要素間の対応を確立する。特に、地図作成において重要である、本問題の１つの変形例は、そこから画像または写真が画像内に現れる目印（制御点）の集合を認識することによって取得される、空間内の場所を決定することである（これは、外部カメラ配向の要素を決定する問題、またはカメラ較正問題、または画像／データベース対応問題と様々に呼ばれる）。これは、ヒトオペレータが、双方向に像点と対応する制御点の３次元座標との間の関連付けを確立することを伴って、最小二乗技法［１１，８］を使用して、日常的に解法される。しかしながら、対応が、わずかに有能な特徴検出器の決定に基づかなければならない、完全に自動化されたシステムでは、最小二乗法は、多くの場合、生じ得る、大誤差に対処することが不可能である。第ＩＩ節に詳細に議論される、本考慮点は、第ＩＶ節に提示される実施例において、ＬＤＰに関して例証される。本節では、ＬＤＰに対する新しい解が、ＲＡＮＳＡＣパラダイムに基づいて提示され、これは、入力データ内の大誤差を許容するその能力において一意である。いくつかの実施形態は、最初に、その下でＬＤＰに対する解が可能性として考えられる、条件を検査し、本質問に関する新しい結果を説明するであろう。これらの実施形態は、次いで、ＲＡＮＳＡＣベースのアルゴリズムの完全説明を提示し、最後に、アルゴリズムの使用を通して取得される、実験結果を説明する。

ＬＤＰは、以下のように、形式的に定義されてもよい。すなわち、ｍ個の制御点の集合を前提として、その３次元座標は、ある座標フレーム内で既知であって、その中でそれら制御点のあるサブセットが可視である、画像を前提として、そこから画像が取得された場所を決定する（制御点の座標系に対して）。いくつかの実施形態は、最初に、これらの実施形態がｎ個の像点と制御点との間の対応を把握すると仮定するであろう。すなわち、いくつかの他の実施形態は、その中でこれらの対応のうちのいくつかが無効である、状況を検討する。いくつかの実施形態はまた、像面内の主点（カメラの光学軸が像面を貫く場所）および結像システムの焦点距離（透視の中心から像面内の主点までの距離）の両方が既知であると仮定するであろう。したがって（図１３Ｂ参照）、いくつかの実施形態は、透視の中心（ＣＰ）から任意の対の制御点に対する角度を容易に算出することができる。最後に、いくつかの実施形態は、カメラが、制御点を包囲する凸包の外側かつその上方に常駐すると仮定する。いくつかの実施形態が、ＣＰから制御点のうちの３つまでの光線の長さを算出し得る場合、これらの実施形態は、直接、ＣＰの場所（および所望に応じて、像面の配向）を解法することができる。したがって、ＬＤＰの、同等であるが、数学的により簡潔な命題は、ｎ個の制御点の相対的空間の場所を前提として、および透視の中心（ＣＰ）と呼ばれる付加的点からの制御点の全ての対に対する角度を前提として、ＣＰを継合する線分（「辺」）から制御点のそれぞれまでの長さを見出す。これは、「ｎ点透視」問題（ＰｎＰ）と称され得る。ＲＡＮＳＡＣパラダイムを適用するために、いくつかの実施形態は、それに関してＰｎＰ問題を解法することが可能である、ｎの最小値を決定してもよい。

ｎ点透視問題の解：ＰＩＰ問題（ｎ＝Ｉ）は、いかなる制約情報も提供せず、したがって、無限の解が、可能性として考えられる。図１３Ｃに図示される、Ｐ２Ｐ問題（ｎ＝２）もまた、無限の解につながる。すなわち、ＣＰは、２つの制御点ＡおよびＢを継合する弦（線）を中心とする空間内で回転される、直径Ｒａｂ／ｓｉｎ（Ｏａｂ）の円形上の任意の場所に常駐することができる。Ｐ３Ｐ問題（ｎ＝３）は、いくつかの実施形態が、対向する三面体角度の基本寸法および面角を前提として、四面体の３つの辺の長さを決定することを要求する（図１３Ｄ参照）。本問題に対する解は、３つの方程式［Ａ^＊］によって暗示される。

ｎ個の独立多項式（ｎは、未知数である）は、その個別の度の積以下の解を有し得ることが知られている［２］。したがって、本系Ａ^＊は、最大８つの解を有することができる。しかしながら、本系Ａ^＊内の全ての項は、定数次数または二次のいずれかであるため、実数の正の解毎に、幾何学的に同型の負の解が存在する。したがって、Ａ^＊に対して、最大で４つの正の解が存在し、図１３Ｅ－（ａ）－１３Ｅ－（ｃ）では、いくつかの実施形態は、４つの解の上界が達成可能であることを実証する、実施例を実証している。

いくつかの実施形態は、本系Ａ^＊に関する明示的代数解を導出する。これは、Ａ^＊を、四面体の２つの辺の比率を表す、１つの未知数における四次（４乗）多項式まで還元し、次いで、本方程式を直接解法することによって遂行される（いくつかの実施形態はまた、解を所与の問題データから取得するための非常に単純な反復方法を提示し得る）。

場合ｎ＝４に関して、全４つの制御点が、共通平面にある（ＣＰを含有せず、制御点のうちの２つ以下が任意の単一線上にあるように）とき、いくつかの実施形態は、常時、一意の解を生産するであろう、技法を提供する。驚くべきことに、全４つの制御点が、同一平面にないとき、一意の解は、常時、保証されることができない。例えば、図１３Ｆ－（ａ）－１３Ｆ－（ｃ）は、少なくとも２つの解が、「一般的位置」における制御点を伴う、Ｐ４Ｐ問題に関して、可能性として考えられることを示す。４つの非平面制御点の場合のＣＰの場所を解法するために、いくつかの実施形態は、アルゴリズムを３つ一度に得られる制御点の２つの明確に異なるサブセット上で使用することができる。すなわち、両方のサブセットに共通の解は、所与の情報において固有の曖昧性内でＣＰを位置特定する。図１３Ｆ－（ａ）－１３Ｆ－（ｃ）に示される実施例を構築するために使用されるアプローチは、任意の数の付加的点に拡張されることができる。

これは、図１３Ｃに描写される原理に基づく。すなわち、ＣＰおよび任意の数の制御点が、同一円形上にある場合、任意の対の制御点とＣＰとの間の角度は、ＣＰの円形上の場所から独立するであろう（故に、ＣＰの場所は、決定されることができない）。したがって、いくつかの実施形態は、その中で一般的位置における５つの制御点がＰ５Ｐ問題に対する２つの解を暗示する、図１３Ｇに示される実施例を構築することが可能である。同一技法は、６つまたはそれを上回る制御点に関して機能するであろうが、これらの点のうちの４つまたはそれを上回るものは、ここでは、同一平面上になければならず、したがって、もはや一般的位置にはない。一般的位置における６つの（またはそれを上回る）制御点が、常時、Ｐ６Ｐ問題に対する一意の解を生産するであろうことを証明するために、本場合に関して、いくつかの実施形態は、常時、３－空間から２－空間へのマッピング規定する（同次座標内で）、３×４行列Ｔの１２個の係数を解法することができることに留意されたい。すなわち、６つの対応はそれぞれ、３つの新しい方程式を提供し、１つの付加的未知数（同次座標スケール係数）を導入する。したがって、６つの制御点に関して、いくつかの実施形態は、１８個の線形方程式を有し、１８個の未知数を解法する（実際には、最大で、１７個の未知数が独立することが示され得る）。変換行列Ｔを前提として、いくつかの実施形態は、所与の制御点のうちの３つとともに、共通平面にある、付加的（合成）制御点を構築し、像面内のその場所を算出し、一意の解が、取得され得る。

図１３Ｅ－（ａ）における四面体を検討する。基本ＡＢＣは、等辺三角形であって、「辺」（例えば、ＬＡ、ＬＢ、およびＬＣ）は全て、等しい。したがって、Ｌにおける３つの面角（例えば、＜ＡＬＢ、＜ＡＬＣ、および＜ＢＬＣ）は全て、等しい。余弦の法則によって、以下、すなわち、Ｃｏｓ（α）＝５／８が、確立され得る。本四面体は、Ｐ３Ｐ問題に対する１つの解を定義する。第２の解が、図１３Ｅ－（ｂ）に示される。これは、第１の解から、ＬをＢＣを中心として回転させることによって取得される。これは、剛性三角形ＡＢＣおよび角度アルファを前提として、Ｌ’Ａの長さが、１であり得ることを照合するために必要である。余弦の法則から、以下が、確立され得る

これは、以下に還元される。
（Ｌ’Ａ－１）＊（Ｌ’Ａ－４）＝０

したがって、Ｌ’Ａは、１または４のいずれかであることができる。図１３Ｅ－（ａ）は、Ｌ’Ａ＝４の場合を図示し、図１３Ｅ－（ｂ）は、Ｌ’Ａ＝１の場合を図示する。その頂点が辺上の異なる場所に移動するように、基本三角形を再位置付けすることは、Ｌを再位置付けすることに匹敵することに留意されたい。図１３Ｅ－（ｃ）は、第２の解に対応する、基本三角形の位置を示す。図１３Ｅ－（ａ）における四面体は、三回回転対称であるため、さらに２つの解が、三角形をＡＢおよびＡＣを中心として回転させることによって取得されることができる。

ＲＡＮＳＡＣ／ＬＤアルゴリズム：ＲＡＮＳＡＣ／ＬＤアルゴリズムは、入力として、以下のデータを受け取る。（Ｉ）ｍ個の６－タプルのリストＬ－各６－タプルは、制御点の３－Ｄ空間座標と、その対応する２－Ｄ像面座標と、像面内の所与の場所の予期される誤差（ピクセル単位）を与える、随意の数とを含有する。（２）結像システムの焦点距離および主点の像面座標。（３）６－タプルが大不整合を構成する、確率（１－ｗ）。（４）解に寄与する中間結果の承認に関する内部閾値を設定するために使用される、「信頼度」数Ｇ．１の信頼度数は、非常に保守的挙動をアルゴリズム上で強制し、ゼロの信頼度数は、ほぼあらゆるものを有効解と呼ぶであろう。

ＲＡＮＳＡＣ（ランダムサンプルコンセンサス）／ＬＤ（場所決定）アルゴリズムは、出力として、以下の情報、すなわち、（Ｉ）レンズ中心の３－Ｄ空間座標（例えば、透視の中心）および対応する誤差の推定値と、（２）像面の空間配向とを生産する。

ＲＡＮＳＡＣ／ＬＤアルゴリズムは、以下のように動作する。（Ｉ）３つの６－タプルが、対応する制御点に関する合理的空間分布を確実にする、準ランダム方法によって、リストＬから選択される。本初期選択は、ＳＩと呼ばれる。（２）選択ＳＩに対応する、ＣＰ（ＣＰＩと呼ばれる）が、閉形式の解を使用して決定される。複数の解は、それらが、以下のステップにおいて、別個の選択から取得されるかのように取り扱われる。（３）ＣＰＩの導出される場所における誤差は、３つの選択された制御点の所与の像面座標を摂動させ（６－タプル内に規定された量または１つのピクセルのデフォルト値のいずれかによって）、ＣＰＩの場所に及ぼされるであろう、影響を再算出することによって推定される。（４）ＣＰＩに関する誤差推定値を前提として、いくつかの実施形態は、［Ｉ］に説明される技法を使用して、リストＬ内に規定された制御点毎に、像面内の誤差楕円形（供給される信頼度数に基づく寸法）を決定し、関連付けられる画像座標が、対応する誤差楕円形内に常駐する場合、６－タプルは、共有項集合ＳＩ／ＣＰＩに付加される。（５）ＳＩ／ＣＰＩのサイズが、ある閾値ｔ（公称上、７とｍｗとの間の値に等しい）に等しいまたはそれを超える場合、共有項集合ＳＩ／ＣＰＩは、ＣＰ場所および像面配向の最終決定のために、最小二乗ルーチンに供給される。そうでなければ、上記のステップは、新しいランダム選択Ｓ２、Ｓ３、．．．等を用いて繰り返される。（６）上記のステップの反復の数が、ｋ＝［ｌｏｇ（Ｉ－Ｇ）］／［ｌｏｇ（ｌ－ｗ３）］を超える場合、これまで見出された最大共有項集合が、最終解を算出するために使用される（または本最大共有項集合が６つより少ない要素、を備える場合、失敗に終了する）。

１５０８Ｈにおいて予測される２Ｄ線分を用いることで、１つまたはそれを上回る線分は、１５１０Ｈにおいて、少なくとも部分的に、１つまたはそれを上回る基準に基づいて、除去されてもよい。例えば、傾き間の差異≦θ_ｍｉｎを有する、線分のうちの少なくとも１つは、いくつかの実施形態において上記に説明されるように、１５１０Ｈにおいて、除去されてもよい。閉鎖された経路が、１５１２Ｈにおいて、少なくとも、例えば、解を上記に説明されるように、指数関数時間巡回セールスマンに提供する、修正２－ｏｐｔアルゴリズムを実行することによって、点またはノードに沿って、推定される部屋周囲に関して作成されてもよい。

図１６Ａ－Ｉは、１つまたはそれを上回る実施形態における、マイクロプロジェクタのアレイのいくつかの非限定的例示的構成と、マイクロプロジェクタのアレイと光学システムの結合を示す、概略を図示する。図１６Ｇを参照すると、多数の入射ビームレット（１１３３２）がそれぞれ、離散化された波面ディスプレイ構成において、眼１１５８に対して、小射出瞳（１１３３０）を通して通過する。図１６Ｈを参照すると、ビームレット（１１３３２）の群のサブセット（１１３３４）が、それらが同一のより大きいサイズの光線の一部であるかのように知覚される（太線サブ群（１１３３４）は、「集約されたビーム」と見なされ得る）ように、マッチングする色および強度レベルを伴って、駆動されてもよい。この場合、ビームレットのサブセットは、相互に平行であって、光学無限遠からのコリメートされた集約ビーム（離れた山から生じる光等）を表す。眼は、無限遠に遠近調節され、したがって、ビームレットのサブセットは、眼の角膜および水晶体によって偏向され、全て、実質的に、網膜の同一場所上に当たり、単一の合焦しているピクセルを備えるように知覚される。

図１６Ｉは、ビームレットの別のサブセットを示し、眼１１５８が上方から冠状式平面視で視認される場合、ユーザ眼５８の視野の右側から生じる、集約されたコリメートされたビーム（１１３３６）を表す。再び、眼は、無限遠に遠近調節されるように示され、したがって、ビームレットは、網膜の同一スポット上に当たり、ピクセルは、合焦しているように知覚される。対照的に、光線の発散扇として眼に到達した、ビームレットの異なるサブセットが、選定される場合、それらのビームレットは、眼が、遠近調節を、光線のその扇の原点の幾何学的点にマッチングする、近くの点に偏移されるまで、網膜の同一場所上に当たらない（かつ合焦しているように知覚されない）であろう。

ビームレットと眼の解剖学的瞳孔の交差のパターン（例えば、射出瞳のパターン）に関して、交差は、断面効率的六角格子模様または正方形格子模様または他の２次元アレイ等の構成に編成されてもよい。さらに、射出瞳の３次元アレイが、射出瞳の時変アレイと同様に作成され得る。

離散化された集約波面は、付加的中間視認光学系、連続空間光変調アレイ技法、または導波管技法を伴わずに、それらが眼に直接光を投影するように、視野基板（眼鏡レンズ等）に直接結合される、視認光学系、マイクロディスプレイ、またはマイクロプロジェクタアレイの射出瞳と光学的に共役されるように設置される、マイクロディスプレイまたはマイクロプロジェクタのアレイ等のいくつかの構成を使用して、作成されてもよい。

図１６Ａを参照すると、一実施形態では、立体視（例えば、３次元）または４または５次元ライトフィールドが、小プロジェクタまたはディスプレイユニット（走査式ファイバディスプレイ等）の群を束化することによって作成されてもよい。図１６Ａは、六角形格子模様投影束１１３３８を描写し、これは、例えば、７ｍｍ径六角形アレイを作成し得、各ファイバディスプレイは、サブ画像（１１３４０）を出力する。そのようなアレイが、アレイが眼の入射瞳と光学的に共役されて設置されるように、その正面に設置される、レンズ等の光学システムを有する場合、これは、図１６Ｂに示されるように、アレイの画像を眼の瞳孔に作成し、これは、本質的に、図１６Ｇの実施形態と同一光学配列を提供する。

本構成の小射出瞳はそれぞれ、走査式ファイバディスプレイ等の束１１３３８内の専用小ディスプレイによって作成される。光学的に、これは、六角形アレイ１１３３８全体が、いくつかの実施形態では、解剖学的瞳孔１１４５に真っ直ぐ位置付けられるかのようになる。そのような実施形態は、異なるサブ画像を、多数の入射角および眼瞳孔との交差を伴う、ビームレットの上位集合を備える、眼のより大きい解剖学的入射瞳１１４５内の異なる小射出瞳に駆動するために使用されてもよい。別個のプロジェクタまたはディスプレイはそれぞれ、異なる光強度および色で駆動されるように光線の異なる集合を引き出す、サブ画像が、作成され得るように、若干異なる画像を用いて駆動されてもよい。

一実施形態では、厳密な画像共役が、図１６Ｂの実施形態におけるように作成されてもよく、その場合、アレイ１１３３８と瞳孔１１４５の直接１対１マッピングが存在する。別の変形例では、間隔は、アレイと眼瞳孔の共役マッピングを受信する代わりに、眼瞳孔が、光線をある他の距離におけるアレイから捕捉し得るように、アレイ内のディスプレイと光学システム（図１６Ｂにおけるレンズ１１３４２）との間で変化されてもよい。そのような構成を用いることで、依然として、それを通して離散化された集約波面表現を作成し得る、ビームの角度多様性を得るであろうが、どの光線を、どの電力および強度で駆動すべきかの方法に関する数学は、より複雑となり得る（但し、他方では、そのような構成は、と視認光学系の観点からより単純であると見なされ得る）。ライトフィールド画像捕捉に関わる数学が、これらの計算のために活用されてもよい。

図１６Ｃを参照すると、別のライトフィールド作成実施形態が、描写され、マイクロディスプレイまたはマイクロプロジェクタ１１３４６のアレイが、眼鏡フレーム等のフレーム（１１３４４）に結合され得る。本構成は、眼１１５８の正面に位置付けられてもよい。描写される構成は、非共役配列であって、アレイ１１３４６のディスプレイ（例えば、走査式ファイバディスプレイ）と眼１１５８との間に介在される、大規模光学要素が存在しない。一対の眼鏡が想像され得、それらの眼鏡に、走査式ファイバエンジン等の複数のディスプレイが結合され、それらがユーザの瞳孔に向いているように、眼鏡表面に直交して位置付けられ、全て内向きに角度付けられる。各ディスプレイは、ビームレット上位集合の異なる要素を表す、光線の集合を作成するように構成され得る。

そのような構成を用いることで、解剖学的瞳孔１１４５において、ユーザは、図１６Ｇを参照して議論される実施形態においた受光されたものと類似結果を受光し得、その中では、ユーザの瞳孔における全ての点は、異なるディスプレイから寄与されている、多数の入射角および交差を伴う、光線を受光する。図１６Ｄは、図１６Ｃのものに類似する、非共役構成を図示するが、図１６Ｄの実施形態は、反射表面（１１３４８）を特徴とし、ディスプレイアレイ１１３４６を眼５８の視野から離れるように移動させることを促進する一方、また、反射性表面（１１３４８）を通した実世界１１１４４のビューも可能にする。

離散化された集約波面ディスプレイのための角度多様性を作成するための別の構成も、提示される。そのような構成を最適化するために、ディスプレイのサイズは、最大値まで減少され得る。ディスプレイとして利用され得る、走査式ファイバディスプレイは、１ｍｍの範囲内のベースライン直径を有し得るが、エンクロージャおよび投影レンズハードウェアにおける低減は、そのようなディスプレイの直径を約０．５ｍｍまたはそれ未満まで減少させ得、これは、ユーザを殆ど煩わせない。別のサイズ縮小幾何学的精緻化は、直接、コリメートレンズ（例えば、勾配屈折率、すなわち、「ＧＲＩＮ」レンズ、従来の湾曲レンズ、または回折レンズを備えてもよい）を、ファイバ走査ディスプレイアレイの場合、走査式ファイバ自体の先端に結合することによって達成されてもよい。例えば、図１６Ｅを参照すると、ＧＲＩＮ（勾配屈折率）レンズ（１１３５４）が、単一モード光ファイバの端部に融合されて示される。圧電アクチュエータ等のアクチュエータ１１３５０が、ファイバ１１３５２に結合されてもよく、ファイバ先端走査のために使用されてもよい。

別の実施形態では、ファイバの端部は、光ファイバの湾曲研磨処理を使用して、半球形状に成形され、レンズ効果を作成してもよい。別の実施形態では、標準的屈折レンズが、接着剤を使用して、各光ファイバの端部に結合されてもよい。別の実施形態では、レンズが、エポキシ等のわずかな透過性ポリマー材料またはガラスから構築されてもよい。別の実施形態では、光ファイバの端部は、溶融され、レンズ効果のための湾曲表面を作成してもよい。

図１６Ｆは、ディスプレイ構成（例えば、図１６Ｅの拡大図に示される、ＧＲＩＮレンズを伴う、走査式ファイバディスプレイ）が、好ましくは、ファイバ自体が、描写されるアセンブリを横断した外界の視認のために実質的に可視ではないように、光ファイバ１１３５２のクラッディングに近似的にマッチングする、屈折率を有する、単一透明基板１１３５６を通してともに結合され得る、実施形態を示す。クラッディングの屈折率整合が、精密に行われる場合、より大きいクラッディング／筐体は、透明になり、好ましくは、約３ミクロンの直径である、小コアのみが、ビューを遮るであろうことを理解されたい。一実施形態では、ディスプレイの行列１１３５８は全て、それらがユーザの解剖学的瞳孔に向かって指向されるように内向きに角度付けられてもよい（別の実施形態では、それらは、相互に平行に留まり得るが、そのような構成は、あまり効率的ではない）。

これらおよび他の変更は、上記の詳細な説明に鑑みて、その実施形態に対して行われ得る。一般に、以下の特許請求の範囲において、使用される用語は、その特許請求の範囲を、本明細書および特許請求の範囲に開示される具体的実施形態に限定するとは解釈されるべきではなく、このような特許請求の範囲に権利が付与される均等物の全範囲とともに、全ての可能な実施形態を含むと解釈されるべきである。

図示される実施形態の上記の説明は、包括的である、または実施形態を開示される精密な形態に限定することを意図するものではない。具体的実施形態および実施例は、例証目的のために、本明細書に説明されるが、種々の同等修正が、当業者によって認識されるであろうように、本開示の精神および範囲から逸脱することなく、行われてもよい。種々の実施形態の本明細書に提供される教示は、必ずしも、上記に概して説明される例示的光学システムまたはＸＲデバイスではなく、ＶＲ、ＡＲ、ＭＲ、ＸＲ、またはハイブリッドシステムを実装し、および／またはユーザインターフェースを採用する、他のデバイスに適用されてもよい。

例えば、前述の詳細な説明は、ブロック図、概略図、および実施例の使用を介して、デバイスおよび／またはプロセスの種々の実施形態を記載している。ブロック図、概略図、および実施例が、１つまたはそれを上回る機能および／または動作を含有する限りにおいて、当業者によって、そのようなブロック図、フローチャート、または実施例内の各機能および／または動作は、個々におよび／または集合的に、広範囲のハードウェア、ソフトウェア、ファームウェア、またはそれらの仮想的任意の組み合わせによって実装されてもよいことが理解されるであろう。

一実施形態では、本主題は、特定用途向け集積回路（ＡＳＩＣ）を介して実装されてもよい。しかしながら、当業者は、本明細書に開示される実施形態が、全体または部分的に、同等に、標準的集積回路内に、１つまたはそれを上回るコンピュータによって実行される１つまたはそれを上回るコンピュータプログラムとして、（例えば、１つまたはそれを上回るコンピュータシステム上で起動する１つまたはそれを上回るプログラムとして）、１つまたはそれを上回るコントローラ（例えば、マイクロコントローラ）によって上で実行される１つまたはそれを上回るプログラムとして、１つまたはそれを上回るプロセッサ（例えば、マイクロプロセッサ）によって実行される１つまたはそれを上回るプログラムとして、ファームウェアとして、またはそれらの仮想的任意の組み合わせとして実装されてもよく、回路網を設計し、および／またはソフトウェアおよび／またはファームウェアのためのコードを書き込むことが、本開示の教示に照らして、優に当業者の技能内にあるであろうことを認識するであろう。

論理が、ソフトウェアとして実装され、メモリ内に記憶されるとき、論理または情報は、任意のプロセッサ関連システムまたは方法による、またはそれに関連した使用のために、任意のコンピュータ可読媒体上に記憶されてもよい。本開示の文脈では、メモリは、コンピュータおよび／またはプロセッサプログラムを含有または記憶する、電子、磁気、光学、または他の物理的デバイスまたは手段手段である、コンピュータ可読媒体である。論理および／または情報は、命令を命令実行システム、装置、またはデバイスからフェッチし、論理および／または情報と関連付けられる命令を実行し得る、コンピュータベースのシステム、プロセッサ含有システム、または他のシステム等、命令実行システム、装置、またはデバイスによる、またはそれに関連した使用のために、任意のコンピュータ可読媒体内に具現化されてもよい。

本明細書の文脈において、「コンピュータ可読媒体」は、命令実行システム、装置、および／またはデバイスによる、またはそれに関連した使用のために、論理および／または情報と関連付けられるプログラムを記憶し得る、任意の要素であってもよい。コンピュータ可読媒体は、例えば、限定ではないが、電子、磁気、光学、電磁、赤外線、または半導体システム、装置、またはデバイスであってもよい。コンピュータ可読媒体のより具体的実施例（非包括的リスト）は、以下、すなわち、ポータブルコンピュータディスケット（磁気、コンパクトフラッシュ（登録商標）カード、セキュアデジタル、または同等物）、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、消去可能プログラマブル読取専用メモリ（ＥＰＲＯＭ、ＥＥＰＲＯＭ、またはフラッシュメモリ）、ポータブルコンパクトディスク読取専用メモリ（ＣＤＲＯＭ）、デジタルテープ、および他の非一過性媒体を含むであろう。

本明細書に説明される方法の多くは、変動を伴って実施されてもよい。例えば、本方法の多くは、付加的行為を含む、いくつかの行為を省略する、および／または行為を図示または説明されるものと異なる順序において実施してもよい。

上記に説明される種々の実施形態は、組み合わせられ、さらなる実施形態を提供してもよい。それらが本明細書の具体的教示および画定と矛盾しない限り、本明細書で参照され、および／またはアプリケーションデータシートに列挙される、米国特許、米国特許出願公開、米国特許出願、外国特許、外国特許出願、および非特許刊行物は全て、参照することによって全体として本明細書に組み込まれる。実施形態の側面は、必要な場合、なおもさらなる実施形態を提供するために、種々の特許、出願、および刊行物のシステム、回路、および概念を採用するように修正されてもよい。

これらおよび他の変更は、上記の詳細な説明に鑑みて、その実施形態に対して行われ得る。一般に、以下の特許請求の範囲において、使用される用語は、その特許請求の範囲を、本明細書および特許請求の範囲に開示される具体的実施形態に限定するとは解釈されるべきではなく、このような特許請求の範囲に権利が付与される均等物の全範囲とともに、全ての可能な実施形態を含むと解釈されるべきである。故に、特許請求の範囲は、本開示によって限定されない。

さらに、上記に説明される種々の実施形態は、組み合わせられ、さらなる実施形態を提供してもよい。実施形態の側面は、必要な場合、なおもさらなる実施形態を提供するために、種々の特許、出願、および刊行物のシステム、回路、および概念を採用するように修正されてもよい。

Claims

屋内場面の間取図を生成するための方法であって、
部屋の部屋分類および前記部屋に関する壁の壁分類を屋内場面の入力画像から決定することと、
少なくとも部分的に、前記部屋分類および前記壁分類に基づいて、前記屋内場面内の部屋の総数または前記部屋のサイズを制約せずに、間取図を決定することと
を含む、方法。
前記部屋の部屋分類および前記壁の壁分類を決定することは、
前記入力画像を識別することであって、前記入力画像は、前記屋内場面の３次元走査からの１つの画像または画像のシーケンスを備える、ことと、
前記入力画像に関する入力点群を決定することと
を含む、請求項１に記載の方法。
前記部屋の部屋分類および前記壁の壁分類を決定することはさらに、
前記入力点群のサブセットを識別することと、
深層ネットワークを少なくとも合成データセットを用いて訓練することと
を含む、請求項２に記載の方法。
前記部屋の部屋分類および前記壁の壁分類を決定することはさらに、
深層ネットワークにおいて、前記サブセット内に表される１つまたはそれを上回る頂点に関する１つまたはそれを上回る部屋クラスタ標識と、前記壁に関する壁クラスタ標識とを生成すること
を含む、請求項３に記載の方法。
前記１つまたはそれを上回る部屋クラスタ標識および前記壁クラスタ標識を生成することは、
少なくとも部分的に、前記屋内場面に関する距離メトリックに基づいて、ネスト化されたパーティション化を点の集合上で実施し、前記点の集合を複数の重複ローカル領域に分割することと、
少なくとも、意味論特徴抽出を前記点の集合の前記ネスト化されたパーティション化上で再帰的に実施することによって、前記屋内場面内の幾何学的構造を捕捉するローカル特徴を抽出することと
を含む、請求項４に記載の方法。
前記１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成することは、
前記ローカル特徴をより高レベルの特徴または表現に抽象化することと、
複数の異なるスケールまたは分解能における複数のローカル特徴に適応的に加重することと
を含む、請求項５に記載の方法。
前記１つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成することは、
前記複数の異なるスケールまたは分解能における前記複数のローカル特徴を組み合わせることと、
少なくとも部分的に、前記距離メトリックに基づいて、前記１つまたはそれを上回る部屋クラスタ標識および前記壁クラスタ標識を前記屋内場面に関するメトリック空間に割り当てることと
を含む、請求項６に記載の方法。
屋内場面の間取図を生成するためのシステムであって、
プロセッサと、
前記プロセッサに動作可能に結合されたメモリであって、前記メモリは、命令のシーケンスを記憶しており、前記命令のシーケンスは、前記プロセッサによって実行されると、前記プロセッサに、行為のセットを実施させ、前記行為のセットは、
部屋の部屋分類および前記部屋に関する壁の壁分類を屋内場面の入力画像から決定することと、
少なくとも部分的に、前記部屋分類および前記壁分類に基づいて、前記屋内場面内の部屋の総数または前記部屋のサイズを制約せずに、間取図を決定することと
を含む、メモリと
を備える、システム。
前記プロセッサによって実行されると、前記プロセッサに、前記間取図を決定することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、前記部屋分類および前記壁分類を使用して、前記部屋に関する形状を生成することであって、前記部屋分類は、前記部屋に割り当てられるかまたはそれと関連付けられる部屋クラスタ標識を備え、前記壁分類は、前記部屋の１つまたはそれを上回る壁に割り当てられるかまたはそれと関連付けられる１つまたはそれを上回る壁クラスタ標識を備え、前記１つまたはそれを上回る壁は、前記壁を構成する、ことと、
少なくとも部分的に、前記形状に基づいて、少なくとも、グローバル座標系に対して推定される部屋周囲を集約または統合することによって、前記間取図を生成することであって、前記形状は、ＤｅｅｐＰｅｒｉｍｅｔｅｒタイプのポリゴンを備える、ことと
をさらに含む前記行為のセットを実施させる命令を備える、請求項８に記載のシステム。
前記プロセッサによって実行されると、前記プロセッサに、前記形状を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
深層推定を前記屋内場面の入力画像のＲＧＢ（赤緑青）フレーム上で実施することと、
少なくとも、マルチビュー深度推定ネットワークおよびセグメント化モジュールを使用することによって、深度マップおよび壁セグメント化マスクを生成することであって、前記セグメント化モジュールは、少なくとも部分的に、ＰＳＰＮｅｔ（ピラミッド場面解析ネットワーク）およびＲｅｓＮｅｔ（残差ネットワーク）に基づく、ことと
をさらに含む前記行為のセットを実施させる命令を備える、請求項９に記載のシステム。
前記プロセッサによって実行されると、前記プロセッサに、前記形状を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、マーチングキューブアルゴリズムを使用して、１つまたはそれを上回るマスク深度画像と姿勢軌道を融合させることによって、壁点群を抽出することと、
少なくとも、深層セグメント化ネットワークを訓練することによって、前記壁点群に対応する深度予測を単離することと、
前記深度予測を３次元（３Ｄ）点群に投影することと
をさらに含む前記行為のセットを実施させる命令を備える、請求項１０に記載のシステム。
前記プロセッサによって実行されると、前記プロセッサに、前記形状を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、前記深層セグメント化ネットワークにおいて、同一平面インスタンスに属する１つまたはそれを上回る点を検出することによって、前記３Ｄ点群を複数のクラスタにクラスタ化することと、
前記複数のクラスタを、前記間取図に関する周囲レイアウトを形成する平面の集合の中に平行移動させることと
をさらに含む前記行為のセットを実施させる命令を備える、請求項１１に記載のシステム。
前記プロセッサによって実行されると、前記プロセッサに、前記間取図を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
部屋インスタンスおよび壁インスタンスを前記屋内環境の走査から識別することと、
前記部屋インスタンスに関する閉鎖された周囲を推定することと
をさらに含む前記行為のセットを実施させる命令を備える、請求項９に記載のシステム。
前記プロセッサによって実行されると、前記プロセッサに、前記間取図を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、投票アーキテクチャを使用することによって、クラスタの数を予測することと、
少なくとも、１つまたはそれを上回るスケールにおける複数の特徴を算出する部屋または壁回帰を実施することによって、前記複数の特徴を抽出することと
をさらに含む前記行為のセットを実施させる命令を備える、請求項１３に記載のシステム。
屋内場面の間取図を生成するためのウェアラブルエクステンデッドリアリティデバイスであって、
デジタルコンテンツをユーザの眼に提示するためのマイクロディスプレイまたはマイクロプロジェクタのアレイを有する光学システムと、
前記光学システムに結合されるプロセッサと、
前記プロセッサに動作可能に結合されたメモリであって、前記メモリは、命令のシーケンスを記憶しており、前記命令のシーケンスは、前記プロセッサによって実行されると、前記プロセッサに、行為のセットを実施させ、前記行為のセットは、
部屋の部屋分類および前記部屋に関する壁の壁分類を屋内場面の入力画像から決定することと、
少なくとも部分的に、前記部屋分類および前記壁分類に基づいて、前記屋内場面内の部屋の総数または前記部屋のサイズを制約せずに、間取図を決定することと
を含む、メモリと
を備える、ウェアラブルエクステンデッドリアリティデバイス。
前記プロセッサによって実行されると、前記プロセッサに、前記間取図を決定することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、前記部屋分類および前記壁分類を使用して、前記部屋に関する形状を生成することであって、前記部屋分類は、前記部屋に割り当てられるかまたはそれと関連付けられる部屋クラスタ標識を備え、前記壁分類は、前記部屋の１つまたはそれを上回る壁に割り当てられるかまたはそれと関連付けられる１つまたはそれを上回る壁クラスタ標識を備え、前記１つまたはそれを上回る壁は、前記壁を構成する、ことと、
少なくとも部分的に、前記形状に基づいて、少なくとも、グローバル座標系に対して推定される部屋周囲を集約または統合することによって、前記間取図を生成することであって、前記形状は、ＤｅｅｐＰｅｒｉｍｅｔｅｒタイプのポリゴンを備える、ことと
をさらに含む前記行為のセットを実施させる命令を備える、請求項１５に記載のウェアラブルエクステンデッドリアリティデバイス。
前記プロセッサによって実行されると、前記プロセッサに、前記形状を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
深層推定を前記屋内場面の入力画像のＲＧＢ（赤緑青）フレーム上で実施することと、
少なくとも、マルチビュー深度推定ネットワークおよびセグメント化モジュールを使用することによって、深度マップおよび壁セグメント化マスクを生成することであって、前記セグメント化モジュールは、少なくとも部分的に、ＰＳＰＮｅｔ（ピラミッド場面解析ネットワーク）およびＲｅｓＮｅｔ（残差ネットワーク）に基づく、ことと
をさらに含む前記行為のセットを実施させる命令を備える、請求項１６に記載のウェアラブルエクステンデッドリアリティデバイス。
前記プロセッサによって実行されると、前記プロセッサに、前記形状を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、マーチングキューブアルゴリズムを使用して、１つまたはそれを上回るマスク深度画像と姿勢軌道を融合させることによって、壁点群を抽出することと、
少なくとも、深層セグメント化ネットワークを訓練することによって、前記壁点群に対応する深度予測を単離することと、
前記深度予測を３次元（３Ｄ）点群に投影することと
をさらに含む前記行為のセットを実施させる命令を備える、請求項１７に記載のウェアラブルエクステンデッドリアリティデバイス。
前記プロセッサによって実行されると、前記プロセッサに、前記形状を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、前記深層セグメント化ネットワークにおいて、同一平面インスタンスに属する１つまたはそれを上回る点を検出することによって、前記３Ｄ点群を複数のクラスタにクラスタ化することと、
前記複数のクラスタを、前記間取図に関する周囲レイアウトを形成する平面の集合の中に平行移動させることと
をさらに含む前記行為のセットを実施させる命令を備える、請求項１８に記載のウェアラブルエクステンデッドリアリティデバイス。
前記プロセッサによって実行されると、前記プロセッサに、前記間取図を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
部屋インスタンスおよび壁インスタンスを前記屋内環境の走査から識別することと、
前記部屋インスタンスに関する閉鎖された周囲を推定することと
をさらに含む前記行為のセットを実施させる命令を備える、請求項１６に記載のウェアラブルエクステンデッドリアリティデバイス。