JP2022531536A

JP2022531536A - セマンティック融合

Info

Publication number: JP2022531536A
Application number: JP2021553795A
Authority: JP
Inventors: ユーファンチェン，; リチャードアンドリューニューコム，; リンニマー，
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-05-03
Filing date: 2020-04-30
Publication date: 2022-07-07
Also published as: TW202046158A; CN113785332A; US20200349763A1; WO2020227003A1; KR20220004058A; US11244504B2; EP3948799A1

Abstract

一実施形態では、コンピューティングシステムが、複数のカメラポーズから１つまたは複数のカメラによってキャプチャされた複数の画像にアクセスする。コンピューティングシステムは、複数の画像を使用して、複数の画像中でキャプチャされた１つまたは複数のオブジェクトのセマンティック情報を含む複数のセマンティックセグメンテーションを生成する。コンピューティングシステムは、１つまたは複数のオブジェクトの３次元（３Ｄ）モデルにアクセスする。コンピューティングシステムは、複数のカメラポーズを使用して、１つまたは複数のオブジェクトの３Ｄモデルに対する対応する複数の仮想カメラポーズを決定する。コンピューティングシステムは、複数の仮想カメラポーズを使用して複数のセマンティックセグメンテーションのセマンティック情報を３Ｄモデルのほうへ投影することによってセマンティック３Ｄモデルを生成する。【選択図】図４Ｂ

Description

関連出願の相互参照
本出願は、その内容全体がすべての目的のために参照により本明細書に組み込まれる、２０１９年５月３日に出願された米国出願第１６／４０３，４２１号からの優先権を主張する。

本開示は、一般に、仮想現実環境におけるユーザ対話および体験のための制御およびインターフェースに関する。

仮想現実は、一見現実のまたは物理的なやり方でユーザが対話することができる環境（たとえば、３Ｄ環境）のコンピュータ生成されたシミュレーションである。単一のデバイスまたはデバイスのグループであり得る仮想現実システムが、たとえば、仮想現実ヘッドセットまたは何らかの他のディスプレイデバイス上で、ユーザに表示するために、このシミュレーションを生成し得る。シミュレーションは、現実のまたは想像上の環境を模倣するために、画像、音、触覚フィードバック、および／または他の感覚を含み得る。仮想現実がますます顕著になるにつれて、仮想現実の、有用な適用例の範囲は急速に広がっている。仮想現実の最も一般的な適用例は、ゲームまたは他の対話型コンテンツを伴うが、そのすぐ後ろに、エンターテインメントまたはトレーニング目的のための視覚メディアアイテム（たとえば、写真、ビデオ）の視聴など、他の適用例がある。現実の会話および他のユーザ対話をシミュレートするために仮想現実を使用することの実現可能性も検討されている。

仮想（または拡張）現実環境をレンダリングし、仮想（または拡張）現実環境と対話する様々な異なるやり方が本明細書で開示される。仮想現実システムが仮想環境をレンダリングし得、これは、１人または複数のユーザに表示するためにレンダリングされる仮想空間を含み得る。ユーザは、任意の好適な手段を通してこの仮想空間およびより広い仮想環境内で観察し、対話し得る。特定の実施形態では、仮想現実システムは、ユーザに提示すべき仮想空間を生成し得る。限定としてではなく一例として、仮想現実システムは、ユーザを内部に置くための仮想アリーナを生成し得る。特定の実施形態では、仮想空間のより良い理解をユーザに提供するために、仮想現実システムは、環境内のオブジェクトをラベリングし得る。ラベルは、オブジェクト（たとえば、椅子、デスクなど）の説明、オブジェクトのタイプまたはオブジェクトがどんな種類のオブジェクトであるかに対応するカラーコーディング、オブジェクトを識別するためのバウンディングボックス、および他の種類のラベリング方式であり得る。ラベルを提供することに加えて、システムは、環境内のオブジェクトに投影されるべきマスクを生成し得る。様々なオブジェクトのこの視覚表現は洞察を提供するが、それらはまた、環境の完全性が維持されることを保証することによって仮想現実システムを助ける。ユーザは、誤識別されたオブジェクトにアノテーションを付け、修復し得る。たとえば、ラグが床として誤識別された場合。オブジェクトの識別の保守は、仮想現実システムがモデルをトレーニングすることを通してユーザのための環境を正確にレンダリングし得ることを保証する。セマンティックモデルは、いくつかのオブジェクトを識別し、およびそれらのオブジェクトがどのように仮想現実環境に適合するかを識別するようにトレーニングされ得る。たとえば、複数のオブジェクトは、家具のような様々なセマンティックセットに対応し得る。ユーザが仮想現実環境内の家具を再編成することを希望する場合、ユーザは、フィルタリングツールの使用を通して、再配置すべき家具を迅速に除去することができる。しかしながら、そのフィルタリングツールは、オブジェクトが正しく識別され、適切なセマンティックセットにグループ化されない限り、適切に働かない。他の適用例は、現実世界ビュー内に拡張現実要素を投影することを含み得る。仮想現実システムは、現実世界と適宜にインターフェースするためにオブジェクトを識別しなければならないことがある。たとえば、ユーザは、生成されたテーブルをダイニングルームエリアの現実世界ビュー内に置くことを希望し得る。ダイニングルームエリアは、ラグと硬材床とを有し得る。生成されたテーブルを正確に置くために、仮想現実システムは、床およびラグの別個のオブジェクトを識別しなければならない。これは、識別されたオブジェクトに対応する情報を提供する複数のセグメンテーションを生成することを通してシーン内のオブジェクトを正しく識別するセマンティックモデルを構築することを通して達成され得る。

３Ｄセマンティックモデルを生成するために、特定の実施形態では、仮想現実システムは、複数のカメラポーズから１つまたは複数のカメラによってキャプチャされた複数の画像にアクセスし得る。限定としてではなく一例として、画像は、オフィス環境など、現実世界の環境からキャプチャされ得る。限定としてではなく別の例として、画像は、画像のストアから生成されるかまたはアクセスされ得る。特定の実施形態では、仮想現実システムは、画像を使用して、その画像内でキャプチャされたオブジェクトのセマンティック情報を含む複数のセマンティックセグメンテーションを生成し得る。セマンティックセグメンテーションおよびセマンティック情報が説明されたが、他のタイプのセグメンテーションおよび情報が、画像を使用して生成され得る。特定の実施形態では、仮想現実システムは、オブジェクトの３次元（３Ｄ）モデルにアクセスし得る。限定としてではなく一例として、仮想現実システムはオブジェクトの３Ｄモデルを、３Ｄモデルをレンダリングすることによって、キャプチャされた画像に基づいて生成し得る。特定の実施形態では、仮想現実システムは、カメラポーズを使用して、オブジェクトの３Ｄモデルに対する対応する複数の仮想カメラポーズを決定し得る。特定の実施形態では、仮想現実システムは、複数の仮想カメラポーズを使用して複数のセマンティックセグメンテーションのセマンティック情報を３Ｄモデルのほうへ投影することによってセマンティック３Ｄモデルを生成し得る。

仮想（または拡張）現実環境をレンダリングし、仮想（または拡張）現実環境と対話する様々な異なるやり方が本明細書で開示される。仮想現実システムが仮想環境をレンダリングし得、これは、１人または複数のユーザに表示するためにレンダリングされる仮想空間を含み得る。ユーザは、任意の好適な手段を通してこの仮想空間およびより広い仮想環境内で観察し、対話し得る。開示される方法の１つの目標は、ユーザに直観的な体験を提供することであり、これは、「存在」の感知、またはユーザが実際に仮想環境中にいるという感じをユーザに与えるものである。

本発明の実施形態は、人工現実システムを含むか、または人工現実システムに関連して実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッド現実、あるいはそれらの何らかの組合せおよび／または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされたコンテンツ（たとえば、現実世界の写真）と組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る（観察者に３次元効果をもたらすステレオビデオなど）。さらに、いくつかの実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作り出すために使用される、および／または人工現実において使用される（たとえば、人工現実におけるアクティビティを実施する）アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せに関連付けられ得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ（ＨＭＤ）、スタンドアロンＨＭＤ、モバイルデバイスまたはコンピューティングシステム、あるいは、１人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。

本明細書で開示される実施形態は例にすぎず、本開示の範囲はそれらに限定されない。特定の実施形態は、上記で開示された実施形態の構成要素、要素、特徴、機能、動作、またはステップのすべてを含むか、いくつかを含むか、またはいずれをも含まないことがある。本発明による実施形態は、特に、方法、記憶媒体、システムおよびコンピュータプログラム製品を対象とする添付の特許請求の範囲で開示され、１つの請求項カテゴリー、たとえば、方法において述べられた任意の特徴は、別の請求項カテゴリー、たとえば、システムにおいても請求され得る。添付の特許請求の範囲における従属関係または参照は、形式的理由で選定されるにすぎない。ただし、前の請求項への意図的な参照（特に複数の従属関係）から生じる主題も請求され得、その結果、請求項とその特徴との任意の組合せが、開示され、添付の特許請求の範囲で選定された従属関係にかかわらず請求され得る。請求され得る主題は、添付の特許請求の範囲に記載の特徴の組合せだけでなく、特許請求の範囲における特徴の任意の他の組合せをも含み、特許請求の範囲において述べられた各特徴は、特許請求の範囲における任意の他の特徴または他の特徴の組合せと組み合わせられ得る。さらに、本明細書で説明または示される実施形態および特徴のいずれも、別個の請求項において、ならびに／あるいは、本明細書で説明もしくは示される任意の実施形態もしくは特徴との、または添付の特許請求の範囲の特徴のいずれかとの任意の組合せで請求され得る。

一態様では、本発明は、添付の特許請求の範囲による方法を開示する。本方法は、コンピューティングシステムによって、
複数のカメラポーズから１つまたは複数のカメラによってキャプチャされた複数の画像にアクセスすることと、
複数の画像を使用して、複数の画像中でキャプチャされた１つまたは複数のオブジェクトのセマンティック情報を含む複数のセマンティックセグメンテーションを生成することと、
１つまたは複数のオブジェクトの３次元（３Ｄ）モデルにアクセスすることと、
複数のカメラポーズを使用して、１つまたは複数のオブジェクトの３Ｄモデルに対する対応する複数の仮想カメラポーズを決定することと、
複数の仮想カメラポーズを使用して複数のセマンティックセグメンテーションのセマンティック情報を３Ｄモデルのほうへ投影することによってセマンティック３Ｄモデルを生成することと
を含む。

本発明の一実施形態では、本方法は、複数の画像を使用して、複数の画像中でキャプチャされた１つまたは複数のオブジェクトの幾何学的情報を含む複数のジオメトリベースセグメンテーションを生成することをさらに含み得る。任意選択的に、複数のセマンティックセグメンテーションのセマンティック情報を投影することによってセマンティック３Ｄモデルを生成することは、複数の画像中でキャプチャされた１つまたは複数のオブジェクトに対応するセマンティック情報を投影するために１つまたは複数のオブジェクトの幾何学的情報を使用することをさらに含み得る。

本発明の別の実施形態では、本方法は、複数の画像を使用して、複数の画像中でキャプチャされた１つまたは複数のオブジェクトのオブジェクト識別を含む複数のインスタンスセグメンテーションを生成することをさらに含み得る。任意選択的に、本方法は、複数の仮想カメラポーズを使用して複数のインスタンスセグメンテーションのオブジェクト識別を３Ｄモデルのほうへ投影することによってインスタンス３Ｄモデルを生成することをさらに含み得、インスタンス３Ｄモデルを生成することは、１つまたは複数のオブジェクトのうちの１つに適用されるべき複数のインスタンスセグメンテーションの各々からのオブジェクト識別を組み合わせることをさらに含み得る。

本発明のまた別の実施形態では、本方法は、複数の画像中でキャプチャされた１つまたは複数のオブジェクトのセマンティック情報に基づいてセマンティックツリーを生成することをさらに含み得、セマンティックツリーは複数のセマンティックレベルを含み得、各セマンティックレベルはセマンティック情報のしきい値量に対応し得る。任意選択的に、複数のセマンティックレベルは、
１つまたは複数のオブジェクトの個々のオブジェクトに対応する情報を含む第１のセマンティックレベル、
１つまたは複数のオブジェクトのオブジェクトクラスに対応する情報を含む第２のセマンティックレベル、および
１つまたは複数のオブジェクトのセマンティックセットに対応する情報を含む第３のセマンティックレベル
のうちの１つまたは複数をさらに含み得る。

本発明のさらなる実施形態では、本方法は、複数の画像中でキャプチャされた１つまたは複数のオブジェクトのセマンティック情報に基づいてセマンティックツリーを生成することをさらに含み得、セマンティックツリーは複数のセマンティックレベルを含み得、各セマンティックレベルはセマンティック情報のしきい値量に対応し得、セマンティック情報を投影することは、特定のセマンティックレベルのセマンティック情報を３Ｄモデルのほうへ投影することをさらに含み得る。

本発明の別の実施形態では、本方法において、１つまたは複数のオブジェクトの３Ｄモデルは、複数の画像に基づいて生成され得る。

本発明のまた別の実施形態では、本方法は、複数のセマンティックセグメンテーションからの１つまたは複数のオブジェクトの各セマンティック情報がそれぞれのオブジェクトに対応する１つまたは複数の信頼値を計算することをさらに含み得る。任意選択的に、オブジェクトが複数の環境に関連付けられ得、１つまたは複数の信頼値は、１つまたは複数のオブジェクトのセマンティック情報が特定の環境内のオブジェクトに対応するかどうかに基づき得る。

本発明のまた別の実施形態では、本方法は、複数のセマンティックセグメンテーションからの１つまたは複数のオブジェクトの各セマンティック情報がそれぞれのオブジェクトに対応する１つまたは複数の信頼値を計算することをさらに含み得る。任意選択的に、複数のセマンティックセグメンテーションのセマンティック情報を３Ｄモデルのほうへ投影することは、
１つのオブジェクトについてのセマンティック情報の信頼値がしきい信頼値を超えると決定することと、
信頼値がしきい信頼値を超えることに応答して、セマンティック情報をそれぞれのオブジェクトの３Ｄモデルのほうへ投影することと
をさらに含み得る。
代替的に、またはそれの追加として、しきい信頼値よりも小さい信頼値に関連付けられたセマンティック情報は廃棄される。

本発明のさらなる実施形態では、本方法において、セマンティック３Ｄモデルを生成することは、１つまたは複数のオブジェクトのうちの１つに適用されるべき複数のセマンティックセグメンテーションの各々からのセマンティック情報を組み合わせることを含み得る。

本発明の別の実施形態では、本方法において、セマンティック情報を３Ｄモデルのほうへ投影することは、３Ｄモデルにおけるそれぞれのオブジェクトに対応するラベルを追加することを含み得る。

一態様では、本発明は、実行されたとき、上記で説明された方法を実施するように動作可能であるソフトウェアを具現する１つまたは複数のコンピュータ可読非一時的記憶媒体を対象とする。

一態様では、本発明は、１つまたは複数のプロセッサと、プロセッサによって実行可能な命令を含む、プロセッサに結合された非一時的メモリとを備えるシステムであって、プロセッサが、命令を実行したとき、上記で説明された方法を実施するように動作可能である、システムをさらに対象とする。

本特許または出願ファイルは、カラーで仕上げられた少なくとも１つの図面を含んでいる。（１つまたは複数の）カラー図面をもつ本特許または特許出願公開のコピーは、要求し、必要な料金を支払うと、特許庁によって提供される。

セマンティック融合アルゴリズムにおいて利用するためにセグメンテーションを実施する例示的なプロセスを示す図である。セマンティック融合アルゴリズムにおいて利用するためにセグメンテーションを実施する例示的なプロセスを示す図である。セマンティック融合アルゴリズムにおいて利用するためにセグメンテーションを実施する例示的なプロセスを示す図である。セマンティック融合プロセスの例示的なフローチャートである。セマンティック融合アルゴリズムにおいて利用するためにセグメンテーションを実施する別の例示的なプロセスを示す図である。セマンティック情報の例示的な投影プロセスを示す図である。別個のセグメンテーションからの情報をオブジェクトに投影する例示的なプロセスを示す図である。例示的なセマンティックツリーおよびセマンティックツリーの異なる構成要素を示す図である。仮想現実システムに関連付けられた例示的なネットワーク環境を示す図である。セマンティックモデルを生成するための例示的な方法を示す図である。例示的なコンピュータシステムを示す図である。

セマンティックシーン理解が、コンピュータビジョン、ロボティクスおよびグラフィックスにおける基本的な問題であり得る。調査を容易にするために、大規模高品質グランドトゥルースデータセットが、深層学習など、データを必要とする（ｄａｔａ－ｈｕｎｇｒｙ）アルゴリズムにとって重要である。大規模セマンティックＲＧＢ－Ｄデータセットは驚くべき規模を有するが、マルチビュー２Ｄ画像と３Ｄ再構築との間の一貫性をも保持する詳細なアノテーションをどのように効率的に取得するかに焦点を当てる研究はほとんどない。したがって、人間が３Ｄメッシュ上で直接アノテーションを付けることを可能にし、メッシュジオメトリのクリーンアップが２Ｄと３Ｄとの間のセマンティック伝搬を向上させることを可能にするための、ツールが必要とされ得る。大規模グランドトゥルース収集を目指して、将来のアノテーションをブートストラップするために既存のセマンティックセグメンテーションから学習する閉ループワークフローが、これらの機能性を支援し得る。

既存のアノテーションは、ラベリングノイズ（ｌａｂｅｌｉｎｇｎｏｉｓｅ）でしばしば汚染され得、２Ｄラベルと３Ｄラベルとの間の対応は、欠けているかまたは一貫性がないかのいずれかであり得、オブジェクト境界を尊重する詳細なアノテーションを取得することは困難であり得る。さらに、３Ｄデータセットは、高密度再構築のために構造化光深度センサーに大きく依拠し得る。オクルージョンとカバレージの欠如とセンサー制限とのために、消失した表面が、再構築において一般的であり得る。このことは、３Ｄを２Ｄ画像空間におよびその逆に投影するときの誤ったデータ関連付けにつながり得る。これは、２Ｄ機械学習アルゴリズムをトレーニングし、ベンチマークするためのセマンティック３Ｄデータセットの使用を厳しく制限し得る。大規模アノテーションを目指す場合、アノテーション効率は重要な懸念事項であり得る。それらの方針に沿って、既存のアノテーションは、さらなるラベリングを支援することができる。本明細書で説明されるワークフローは、より良い詳細および効率をもつ階層アノテーションを生じるセグメンテーション補助自由形式メッシュラベリングアルゴリズムと、２Ｄ／３Ｄ関連付けを向上させるために消失した表面を挿入するための人間補助ジオメトリ補正技法と、アノテーション付き（ａｎｎｏｔａｔｅｄ）データからのインスタンスセマンティックアノテーションをトレーニングし、予測をメッシュセグメンテーションに組み込む閉ループブートストラッピングアノテーション方式とを提供し得る。

特定の実施形態では、本明細書で説明される方法を使用することによって訂正された再構築は、レンダリング障害を低減し、より良いグランドトゥルースアノテーションをもたらし得る。最先端のセグメンテーションベースアルゴリズムと比較して、本アノテーション付きモデルは、約２０％良好な精度を与える２Ｄラベル画像をレンダリングし得る。特定の実施形態では、複数の画像がキャプチャされ、セグメンテーションアルゴリズムを用いてそれらの画像におけるセマンティックインスタンス予測を学習するために使用され得る。限定としてではなく一例として、セマンティックインスタンス予測を学習するプロセスのために、Ｍａｓｋ－ＲＣＮＮが使用され得る。

図１Ａを参照すると、セマンティック融合プロセス１００の第１の部分が示されている。特定の実施形態では、システムが、本明細書で説明されるようにセマンティック融合プロセス１００を実施し得る。限定としてではなく一例として、仮想現実システムが、セマンティック融合プロセス１００を実施し得る。プロセス１００は、画像１０２中に示されている特定のカメラポーズにおけるカメラビューから始まる。特定の実施形態では、システムは、画像１０２に対してセグメンテーションプロセスを実施し得る。限定としてではなく一例として、システムは、Ｍａｓｋ－ＲＣＮＮアルゴリズムを使用して、画像１０２内のオブジェクトを識別し、第１の画像１０２内のオブジェクトに対応する情報を生成し得る。特定の実施形態では、システムが実施し得る様々なセグメンテーションは、ジオメトリベースセグメンテーションと、インスタンスセグメンテーションと、セマンティックセグメンテーションとを備え得る。特定の実施形態では、ジオメトリベースセグメンテーションは、いくつかのオブジェクトと、画像１０２内のそれらのオブジェクトの幾何学的情報とを識別し得る。特定の実施形態では、インスタンスセグメンテーションは、異なるオブジェクトのインスタンスを識別し、それらのオブジェクトの各々にオブジェクト識別を割り当て得る。オブジェクト識別のこれらの割当ては、さらなるプロセスにおいて決定され得るソフト割当てであり得る。たとえば、画像１０２内で、識別された異なるオブジェクトの別個のインスタンスは異なる色でマークされ得る。異なるオブジェクトの予測は、常に正しいとは限らない。たとえば、橙色セクションと黄緑色セクションとを有する画像１０２中で識別された椅子がある。これらのセクションは、画像１０２内のオブジェクトの別個のインスタンスの予測として画像１０２に適用されたマスクであり得る。正しくない識別のうちのいくつかの結果として、セマンティック融合プロセス１００は、環境内のオブジェクトを正しく識別するために、複数の画像からの情報をアグリゲートする。特定の実施形態では、セマンティックセグメンテーションは、画像１０２内の各識別されたオブジェクトに関してセマンティック情報を生成し得る。限定としてではなく一例として、椅子が識別され得、その椅子に緑色マスクが適用され、これはオブジェクトを椅子として識別する。特定の実施形態では、システムは、セグメンテーションから集められた情報を環境および／またはオブジェクトの３Ｄモデル上に投影し得る。投影は、３Ｄモデルに適用されるマスクであり得る。特定の実施形態では、環境および／またはオブジェクトの３Ｄモデルは、複数の画像に基づいて生成され得る。システムは、画像１０２から集められたインスタンスレベルセグメンテーション情報を、画像１０４中に示されているように３Ｄモデル上に投影し得る。インスタンスレベルセグメンテーション情報は、環境がどんなものであるかの完全なピクチャではなく、画像１０２中で何がキャプチャされたかのみを提供し得る。したがって、たとえば、椅子は２つの異なるオブジェクトとして識別されたので、インスタンスレベルセグメンテーション情報は、画像１０４中に示されているように、オブジェクトの異なるインスタンスを異なる色で示し得る。同様に、セマンティックレベルセグメンテーション情報は、画像１０６中に示されているように３Ｄモデルに投影され得る。オブジェクトを正しく識別することによって、システムは、画像１０２から何がキャプチャされ、生成されたかに基づいて３Ｄモデル内のオブジェクトを正しくラベリングし得る。画像１０６中に示されているように、部分的な情報のみが集められたので、画像１０２中で何がキャプチャされたかに関係する情報のみが、画像１０６中に示されているように３Ｄモデルに投影され得る。

図１Ｂを参照すると、セマンティック融合プロセス１００の例示的な結果が示されている。特定の実施形態では、システムは、複数のカメラポーズから１つまたは複数のカメラによってキャプチャされた複数の画像にアクセスして、その画像内のオブジェクトに対応する情報を含む複数のセグメンテーションを生成し得る。特定の実施形態では、システムは、この情報を組み合わせて、複数のセグメンテーションからの情報を３Ｄモデル上に投影し得る。オフィスの３Ｄモデルシーンが画像１０８ａ中でキャプチャされ得、システムは、複数のカメラポーズにおけるそのシーンに対応する画像にアクセスして、セグメンテーションを生成する。複数のセグメンテーションから集められた情報は、環境内の異なるオブジェクトの理解を通してより完全なピクチャを提供し得る。特定の実施形態では、システムは、インスタンスレベルセグメンテーション情報を画像１１０ａ中の３Ｄモデル上に投影し得、画像１１０ａは、複数の画像から集められた情報を組み合わせるので、画像１０２よりも完全であるように見える。たとえば、緑色の椅子または青色の椅子のような、より完全な形状が示される。同様に、特定の実施形態では、システムは、セマンティックレベルセグメンテーション情報を画像１１２中の３Ｄモデル上に投影し得る。限定としてではなく一例として、すべての椅子が同じセマンティック意味（たとえば、それらは椅子である）を有することを表すために、すべての椅子は緑色マスクを投影され得る。特定の実施形態では、システムは、キャプチャされた画像の複数のカメラポーズを使用して、３Ｄモデルに対する対応する複数の仮想カメラポーズを決定し得る。特定の実施形態では、仮想カメラポーズは、セグメンテーションからの情報を３Ｄモデル上に投影するために使用され得る。限定としてではなく一例として、システムは、画像１１２中に示されているように、仮想カメラポーズを使用して複数のセマンティックセグメンテーションのセマンティック情報を３Ｄモデルのほうへ投影することによって、セマンティック３Ｄモデルを生成し得る。限定としてではなく別の例として、システムは、１１０ａ中に示されているように、複数の仮想カメラポーズを使用して複数のインスタンスセグメンテーションのオブジェクト識別を３Ｄモデルのほうへ投影することによって、インスタンス３Ｄモデルを生成し得る。特定の実施形態では、インスタンス３Ｄモデルを生成することは、３Ｄモデル中の１つまたは複数のオブジェクトに適用されるべきインスタンスセグメンテーションの各々からのオブジェクト識別を組み合わせることを含み得る。

図１Ｃを参照すると、セマンティック融合プロセス１００の別の例示的な結果が示されている。特定の実施形態では、システムは、図１Ｂと同様に、複数のカメラポーズから１つまたは複数のカメラによってキャプチャされた複数の画像にアクセスして、その画像内のオブジェクトに対応する情報を含む複数のセグメンテーションを生成し得る。オフィスの別の３Ｄモデルシーンが画像１０８ｂ中でキャプチャされ得、システムは、複数のカメラポーズにおけるそのシーンに対応する画像にアクセスして、セグメンテーションを生成する。特定の実施形態では、３Ｄモデルシーンは、現実世界の環境のキャプチャされた複数の画像に基づいてレンダリングされ得る。特定の実施形態では、システムは、インスタンスレベルセグメンテーション情報を画像１１０ｂ中の３Ｄモデル上に投影し得る。特定の実施形態では、システムは、セマンティックレベルセグメンテーション情報を画像１１４中の３Ｄモデル上に投影し得る。セマンティック情報は、オブジェクトに対応するバウンディングボックスをも備え得る。特定の実施形態では、バウンディングボックスは、オブジェクトに対するより緊密な適合であり得る。特定の実施形態では、バウンディングボックスの配向は、３Ｄモデルシーンの床と面一になるように調整され得る。特定の実施形態では、システムは、床、壁、および天井を別個のオブジェクトとして識別し得る。

図２Ａおよび図２Ｂは、３Ｄで大規模セマンティックアノテーションを生成するための例示的なフローチャート２００を示す。図２Ａを参照すると、特定の実施形態では、最初に、システムは、３Ｄメッシュ再構築２０２のために３Ｄメッシュにアクセスし得、アノテーションを支援するためにジオメトリベースセグメンテーション２０４を算出し得る。特定の実施形態では、初めに、アノテータが、次いで、３Ｄメッシュアノテーション２０６において自由形式のメッシュペインティングを使用して事前セグメンテーションを改良し、事前セグメンテーションにセマンティックアノテーションを付け得る。特定の実施形態では、アノテーションは、システムまたは人間アノテータによって行われ得る。特定の実施形態では、プロセス２００ａは、モデル完成２０８に進み得る。次いで、アノテーション付きメッシュは、２Ｄラベル生成２１０においてフルアノテーション付き（ｆｕｌｌｙａｎｎｏｔａｔｅｄ）２Ｄシーケンスを取得するためにレンダリングされ得、これは、セマンティック学習２１２におけるセマンティック理解のために深層学習アルゴリズムをトレーニングするために使用され得る。特定の実施形態では、十分な人間によるセグメント化およびアノテーション付きメッシュを仮定すれば、ループは、トレーニングされたモデルを使用して画像空間中のセマンティクスを推論し、これらの予測を融合して、学習ベースセグメンテーション２１４を用いて３Ｄメッシュ上の一貫したセグメンテーションにすることによって、閉じ得る。

図２Ｂを参照すると、モデルをその後トレーニングした後に、システムは、プロセス２００ｂを利用して、３Ｄで大規模アノテーションを生成し得る。特定の実施形態では、システムは、３Ｄメッシュ再構築２０２のために３Ｄメッシュにアクセスし得、アノテーションを支援するためにジオメトリベースセグメンテーション２０４を算出し得る。特定の実施形態では、システムは、学習ベースセグメンテーション２１４を実施し、次いで、学習ベースセグメンテーション２１４から集められた情報から３Ｄメッシュアノテーションを実施し得る。特定の実施形態では、システムは、３Ｄメッシュにアノテーションを付けた後にモデル完成２０８を実施し得る。特定の実施形態では、システムは、モデルをトレーニングし続けるために、モデルをトレーニングした後にプロセス２００ａを実施し続け得る。

図３Ａ～図３Ｃを参照すると、セマンティック融合プロセスを実施するための例示的なセマンティックセグメンテーションプロセスが示されている。図３Ａは、例示的なセグメンテーションプロセスを示す。特定の実施形態では、システムは、オブジェクト３０４の画像３００ａにアクセスし得る。特定の実施形態では、オブジェクト３０４は、レンダリングされた３Ｄシーン、現実世界のシーンなどの一部であり得る。特定の実施形態では、システムは、画像３００ａに対してセマンティックセグメンテーションを実施し、セマンティックレベルセグメンテーション情報を、画像３０２ａ中に示されているようにオブジェクト３０４上に投影し得る。特定の実施形態では、システムは、メッシュ３０６ａおよび３０８ａを、それぞれオブジェクト３０４ａおよび３０４ｂ上に適用し得る。特定の実施形態では、メッシュ３０６ａおよび３０８ａは、それらのそれぞれのオブジェクト３０４に対応するセマンティック意味を提供し得る。限定としてではなく一例として、メッシュ３０６ａは、オブジェクト３０４ａが椅子であることを指示し得る。図３Ｂを参照すると、システムは、オブジェクト３０４の別の画像３００ｂにアクセスし得る。画像３００ｂは、同じオブジェクト３０４の別のカメラポーズからのものであり得る。特定の実施形態では、システムは、画像３００ｂに対してセマンティックセグメンテーションを実施し、セマンティックレベルセグメンテーション情報を、画像３０２ｂ中に示されているようにオブジェクト３０４上に投影し得る。特定の実施形態では、システムは、メッシュ３０６ｂおよび３０８ｂをオブジェクト３０４上に適用し得る。特定の実施形態では、システムは、画像にアクセスするプロセスを実施し、その画像に対してセグメンテーションを実施して、アノテーション付き３Ｄモデルを生成し得る。限定としてではなく一例として、システムは、複数の画像に対してセマンティックセグメンテーションを実施し、複数のセマンティックセグメンテーションからセマンティック３Ｄモデルを生成し得る。図３Ｃを参照すると、システムは、３Ｄメッシュ３１２を、画像３１０中に示されているように椅子上に適用し得る。特定の実施形態では、セマンティック３Ｄモデルは、画像３０２ａ、３０２ｂ中で実施されたセマンティックセグメンテーションからのセマンティック情報の組合せに基づいて生成され得る。第１のカメラポーズにおいて、椅子の前面が見られ、椅子としてラベリングされるが、第２のカメラポーズは椅子の背面を椅子として識別し得る。一般に、単一の画像内で椅子の前面と背面の両方を見ることは極めて困難であるか、または不可能であろう。したがって、３Ｄモデルにおいて、システムは、別個のセグメンテーションから集められたセマンティック情報を組み合わせることによって、セマンティック３Ｄモデルを適宜に生成し得る。

図４Ａおよび図４Ｂを参照すると、３Ｄシーン内のオブジェクト上に情報を投影する例示的なプロセス４００。図４Ａを参照すると、カメラ４０４を用いて３Ｄシーン内でオブジェクト４０２がキャプチャされる。カメラ４０４は、３Ｄシーン内のオブジェクト４０２を観察する特定のカメラポーズにあり得る。図４Ｂを参照すると、カメラ４０４は、特定のカメラポーズにおけるカメラ４０４から出る光線４０６を通して、情報をオブジェクト４０２上に投影し得る。特定の実施形態では、システムは、オブジェクト４０２上に投影すべき情報を生成するためにセグメンテーションを実施し得る。特定の実施形態では、システムは、オブジェクト４０２に関係するセマンティック情報、オブジェクト識別、幾何学的情報をコンパイルし得る。特定の実施形態では、システムは、光線４０６を通して情報をオブジェクト４０２上に投影するためにカメラ４０４を使用し得る。特定の実施形態では、光線４０６は、オブジェクトに関係する情報を含み得る。限定としてではなく一例として、光線４０６は、オブジェクト４０２が立方体であることを指示し得る。

図５を参照すると、アノテーション付き３Ｄモデルを生成する別のプロセスが示されている。特定の実施形態では、画像５０２は、いくつかのセグメンテーションからの情報がその上に投影された椅子を示す。特定の実施形態では、システムは、セグメンテーションを実施し、情報を、異なる色で示されている椅子上に投影し得る。たとえば、黄色部分が、あるセグメンテーションに対応し得、赤色部分が、別のセグメンテーションに対応し得る。システムは、異なるセグメンテーションからの情報を投影し、情報を、画像５０４中に示されているように単一のマスク／メッシュにコンパイルし得る。特定の実施形態では、システムは、画像５０４中の椅子に適用されるべき赤色マスクを生成し得る。赤色マスクは、オブジェクトが椅子であることを指示する情報を含み得る。

特定の実施形態では、３ＤカラーメッシュＭは、頂点Ｖ＝｛ｖｉ∈Ｒ^３｝、エッジＥ＝｛ｅｉｊ｝、およびポリゴンプリミティブ（ｐｏｌｙｇｏｎｐｒｉｍｉｔｉｖｅ）Ｐ＝｛ｐｉ｝のセットによって定義される多様体であり得る。頂点ｖｉの属性は、単位法線ｎ_ｉ∈Ｒ^３と、カラーｃ_ｉ∈Ｒ^３とを含んでいることがある。メッシュＭは、独立（ｄｉｓｊｏｉｎｔ）セグメントＭｉに区分され、ラベルｌ_ｋに割り当てられ得る。特定の実施形態では、インスタンス区分およびセマンティック区分は、それぞれＭ^ｓ _ｉおよびＭ^ｑ _ｉによって示され得る。特定の実施形態では、区分は、セグメンテーションプロセスから生成され得る。ＲＧＢ－Ｄ記録は、タイムスタンプｔをもつシーケンス｛カラー画像および深度画像Ｉ^ｔ∈Ｒ３，Ｄ^ｔ∈Ｒ，ξ^ｔ∈Ｒ^６のＳ｝であり得る。特定の実施形態では、６ＤｏＦの剛体の動きξ^ｔが仮定され得、各フレームについて知られる。カメラモデルを仮定すれば、２Ｄ画像上への３Ｄポイントｖの投影は、ｘ＝π（ｖ）によって示され得、ｘ∈Ｒ２であり、逆投影は、ｖ＝π^－１（ｘ）によって示され得る。色距離を算出するために、ＣＩＥＬａｂ色空間がＲＧＢの代わりに使用され得、Δ（ｃｉ，ｃｊ）はＣＩＥＬａｂ空間中のユークリッド色距離を示し得る。

特定の実施形態では、アノテーションは、人間が３Ｄメッシュと対話するプロセスであり得る。アノテータがメッシュ上のどこでクリックするかを算出するために、ポリゴンインデックスをフレームバッファにレンダリングし、マウス位置下でインデックスを読み出すためにＯｐｅｎＧＬが使用され得る。このソリューションは、光線トレーシング（ｒａｙｔｒａｃｉｎｇ）よりも効率的であり得る。同様に、アノテーション付きメッシュから２Ｄラベリングを取得するために、ラベル値が、レンダリングされたプリミティブインデックスを通してルックアップされ得る。

特定の実施形態では、アノテーションアルゴリズムが、３Ｄメッシュおよびそこからの２Ｄレンダリング上で正確なセマンティックインスタンスラベリングを生成するために使用され得る。特定の実施形態では、アノテーションアルゴリズムの利益は、人間がセマンティックオブジェクトを正確に効率的にラベリングするのを支援し、異なる視点からの観測間のラベル一貫性を保証し、３Ｄ再構築と２Ｄ画像との緊密な関連付けを維持することであり得る。

この目的で、提案されるツールは、３Ｄカラーメッシュ上で動作し得る。アルゴリズムは、幾何学的セグメンテーションを用いてアノテーションを初期化し得る。アノテーションは、メッシュ多様体に沿った自由形式のペインティングを介して詳細を正しくキャプチャするための、セグメントを接合することとセグメントを変更することとの間の反復的プロセスであり得る。３Ｄから２Ｄにアノテーション結果を伝搬するためにビューレンダリングが適用され得る。不完全な再構築によるレンダリングエラーを補償するために、人間補助ジオメトリ完成が使用され得る。

特定の実施形態では、アノテーションのプロセスは、プリミティブからラベルドメイン（ｌａｂｅｌｄｏｍａｉｎ）へのマッピングｆ：ｐ_ｉ→ｌｊを作り出すことであり得る。マッピングｆが１対１であるとき、結果を編成することは単純であり得る。しかしながら、アノテーション付きモデルが実際にどのように使用されるかを考慮すると、多値マッピングをサポートすることが望ましいことがある。限定としてではなく一例として、同じプリミティブが、ある適用例についてはラグであり、別の適用例については床であり得る。同様に、階層関係がセマンティック関係の基本であり得る。限定としてではなく一例として、ほとんどどんなオブジェクトでも、より小さい部分に分解されるか、または新しいカテゴリーにグループ化され得る。セグメンテーションにおける１対多マッピングおよび階層関係をサポートするために、図６に示されているように、セマンティックツリーが生成され得る。

図６を参照すると、いくつかのレベル６０２を含むセマンティックツリー６００が示されている。特定の実施形態では、リーフノードは、事前セグメンテーションアルゴリズムまたは自由形式のペインティングのいずれかによって生成されたセグメントに対応するプリミティブのセットを含んでいることがある。これらのリーフは、異なるセマンティクスを表すためにツリーに連結され得る。特定の実施形態では、階層は以下のように定義され得る：レベル０６０２ａは上述の非セマンティック（ｎｏｎ－ｓｅｍａｎｔｉｃ）リーフセグメンテーションを表し、レベル１６０２ｂはオブジェクトインスタンスを表し、レベル２６０２ｃはオブジェクトクラスを表し、レベル３６０２ｄ以上はより高いレベルのセマンティックセットを符号化する。この定義では、異なるレベルにおいてツリーをレンダリングすることは、当然、アノテーションの異なる側面を生じる。これは、レベル３のセマンティックツリーまで、図６に示されている。特定の実施形態では、オブジェクト６０６の個々のインスタンスが、１つまたは複数の非セマンティックリーフノード６０４を備え得る。限定としてではなく一例として、個々のクッション６０６と、ソファー６０６と、テーブル６０６とが、非セマンティックリーフノード６０４を備え得る。特定の実施形態では、オブジェクトクラス６０８が、オブジェクト６０６の１つまたは複数の個々のインスタンスを備え得る。限定としてではなく一例として、複数のクッション６０６が、オブジェクトクラス６０８「クッション」を作成する。すなわち、特定の実施形態では、同じクラスのすべてのオブジェクトが、オブジェクトクラス６０８を作成する。特定の実施形態では、セマンティックセット６１０が、いくつかのオブジェクトクラス６０８と個々のオブジェクト６０６とを備え得る。限定としてではなく一例として、セマンティックセット６１０「家具」は、オブジェクトクラス６０８「クッション」とすべての他のオブジェクトインスタンス６０６とを備え得る。「家具」としてラベリングされたオブジェクト６０６は、「家具」セマンティックセット６１０中に含まれる。特定の実施形態では、セマンティックツリー６００は、３Ｄシーンに関係する複数の画像に対して実施されたセマンティックセグメンテーションから累積されたセマンティック情報に基づいて生成され得る。特定の実施形態では、セマンティックレベル６０２の各々は、セマンティック情報のしきい値量を含む。限定としてではなく一例として、レベル１６０２ｂにおける各オブジェクトインスタンス６０６は、個々のオブジェクトに関係するセマンティック情報を含む。さらに、次のレベル２６０２ｃは、より低いレベル６０２のセマンティック情報と追加のセマンティック情報とを含む。特定の実施形態では、システムは、セマンティックツリー６００の特定のレベル６０２に対応するセマンティック情報を３Ｄモデルに投影し得る。限定としてではなく一例として、システムは、レベル３６０２ｄに対応するセマンティック情報を投影し得、これは、いくつかのオブジェクトがセマンティックセット６１０「家具」の一部であることを指示する。

特定の実施形態では、知覚可能な初期セグメンテーションを抽出するために、（１）ＤＰ－ｖＭＦ平均アルゴリズムを介して方向性セグメンテーションを稼働し、（２）メッシュの多様体に沿って方向性セグメントの各々について連結成分分析を稼働する、ロバストな平坦セグメンテーションアルゴリズムが使用され得る。特定の実施形態では、セグメントは、セグメント中のすべてのポイントの共分散行列の固有値λ_１＜λ_２＜λ_３を分析することによって、平坦として分類され得る。特定の実施形態では、セグメントは、λ_１＜＜λ_２とλ_２＜＜λ_３の両方である場合、平面と見なされ得る。平坦として分類されないメッシュのセグメントは、Ｆｅｌｓｅｎｓｚｗａｌｂセグメンテーションアルゴリズムを介して改良され得る。これは、自由形式のセグメンテーション調整およびセマンティックアノテーションの次のステップのためにより有用な、すべての非平坦セグメントのより細かいセグメンテーションにつながり得る。

特定の実施形態では、得られたセグメンテーションをさらにクリーンアップするために、事前セグメンテーションにおける最終ステップとして３Ｄバイラテラルフィルタが稼働され得る。特定の実施形態では、バイラテラルフィルタは、以下の重み付け関数を伴ってメッシュの多様体に沿って働き得る。

多くの状況では、セグメントを接合することは、所望のアノテーションにつながらないことがある。これは、１）セグメントの境界が実際のオブジェクトとしばしば整合しない、２）いくつかのセグメントが複数のオブジェクト部分を連結する、および３）ヒューリスティック事前セグメンテーションアルゴリズムがオブジェクトを区別することができない、たとえばラグと床を分けることができないからであり得る。特定の実施形態では、この問題を解決するために、ＳｃｅｎｅＮＮは、セグメンテーションを生成し、アノテータが、粗いセグメンテーションから細かいセグメンテーションに切り替えることによって大きいセグメントを分解することを可能にし得る。したがって、セグメントを改良するために、メッシュ多様体に沿った自由形式のペインティングが使用され得る。ユーザ選択シードプリミティブ（ｓｅｅｄｐｒｉｍｉｔｉｖｅ）から、アルゴリズム１がペインティング方法を表し得る。アルゴリズム１は、セグメントを位置決めするためにメッシュに沿って領域拡張を使用し得る。特定の実施形態では、領域拡張は、３つのパラメータを用いて調節され得る。パラメータａ_ｔは法線方向を比較することによって平滑度を調節し得、パラメータｄ_ｔはシードプリミティブまでのユークリッド距離を制限し得、パラメータＳ_ｔは色類似度を調節し得る。これらのパラメータを適切に組み合わせると、領域拡張は、大きい平坦構造から小さい湾曲エリアまで、任意の表面パッチを選択する際にフレキシブルであり得る。これはまた、壁のポスターなど、詳細なテクスチャパターンを抽出することを可能にし得る。

特定の実施形態では、自由形式のペインティングは、セマンティックツリーにトポロジー変化を導入し得る。これらの変化を反映し、ツリー構造を保持するために、影響を受けたツリー分岐が検出され得、それらの空の双分岐（ｔｗｉｎｂｒａｎｃｈ）が作り出され得る。ペインティングの影響を受けたリーフは、２つにスプリットされ得る。選択されなかったプリミティブは変化しないままであり、選択されたプリミティブは抽出され、双分岐に転送され得る。

特定の実施形態では、多くの屋内再構築は、高密度再構築を取得するために構造光センサーに依拠し得る。センサー制限および不完全なキャプチャカバレージにより、得られたメッシュは、一般に、消失した表面を含んでいることがある。これは、間違った投影につながり得、消失した再構築の背後の表面が２Ｄ画像上に投影される。レンダリングされた深度を生深度画像と比較することは、いくつかのエラーを検出し得るが、深度が常に利用可能であるとは限らない。３Ｄアノテーションと２Ｄ画像との間の緊密な関連付けを維持するために、再構築を修理するために単純でしかも効果的な２つの技法が使用され得る。

特定の実施形態では、消失した表面はしばしば平坦であり得、したがって、アノテータは平坦なホールの周りのポリゴンＢ_ｉをマークし得る。ｐ_ｉ：＝（ｎ_ｉ，ｄ）によってパラメータ化された平面式は、次いで、最小２乗平面フィッティング（ｆｉｔｔｉｎｇ）によって推定され得る。

メッシュをスティッチするために、平坦パッチは、モデルを再構築するために使用されるＳＤＦボリュームに直接組み込まれ得る。ターゲットホールの周りのボクセルを更新するために、ＳＤＦ値Ｆ（ｖ）は、ボクセル間のボクセル中心ｖとターゲット平面との間の距離として計算され得る。

ＳＤＦ値が更新されると、メッシュは、標準的なマーチングキューブアルゴリズムを介して再生成され得る。拡張ポリゴンは、最も可能性がある境界プリミティブラベルに自動的に割り当てられ得る。

特定の実施形態では、円筒形構造、たとえば、部分的に再構築されたピラーの消失した表面を完成するために、円筒形構造の消失した表面を完成するための技法が実装され得る。このアイデアは、オブジェクトの中心軸および断面形状の曲線を最初に推定し、次いで、中心軸に沿って断面曲線を掃引することによって、消失した表面を完成することであり得る。特定の実施形態では、直線の支配的支持構造は、レンダリングエラーを引き起こし得る。中心軸を近似するためにＬ１中間軸を推定する代わりに、オブジェクトの中心軸が推定され得る。最初に、中心軸を近似するためにＰＣＡを介して支配的主成分が算出され得る。次いで、近隣の頂点が接平面上に投影され、非一様有理ベーススプライン（ＮＵＲＢＳ：ｎｏｎ－ｕｎｉｆｏｒｍｒａｔｉｏｎａｌｂａｓｉｓｓｐｌｉｎｅ）をフィッティングすることによって断面形状が推定され得る。最後に、軸は、断面ＮＵＲＢＳの中心に調整され得る。さらに、掃引方向は、最適な結果を達成するためにアノテータによって調整可能であり得る。

特定の実施形態では、これらの２つの技法は、再構築障害を最適に補正しないことがある。しかしながら、それらは、最も一般的なレンダリングエラーを効果的に低減し、３Ｄモデルから２Ｄ画像へのより良いラベル伝搬を生じ得る。

特定の実施形態では、アノテーションは費用がかかるプロセスであり得、したがって、人間オペレータを支援するために機械知能を搭載することが重要である。特定の実施形態では、大規模セマンティックアノテーション収集をブートストラップするために、閉ループアノテーション方式が使用され得る。３Ｄメッシュの一貫した予測を取得するためにマルチビュー２Ｄ画像からの理解を伝搬するために、３Ｄメッシュ上へのマルチビューセマンティックインスタンス融合のための方法が使用され得る。さらに、視覚ベースセグメンテーションとジオメトリベースセグメンテーションとの間のギャップを埋めるための技法が使用され得る。

特定の実施形態では、アノテーションのループを閉じることに向かう第１のステップは、機械学習アルゴリズムをトレーニングすることであり得る。２Ｄ畳み込みニューラルネットワークをトレーニングするために、３Ｄセマンティックメッシュは、高密度アノテーション付き（ｄｅｎｓｅｌｙａｎｎｏｔａｔｅｄ）ビデオシーケンスを取得するために、対応するカメラビューにレンダリングされ得る。ポーズ推定、モデル再構築、およびカメラキャリブレーションにおけるノイズおよびエラーにより、レンダリングされたラベル画像が、元のカラー画像中のオブジェクト境界を常に十分に尊重するとは限らない。メッシュアノテーションにおける消失したラベルおよび再構築における消失した表面は、ラベルレンダリングにおけるノイズにも寄与し得る。これらのアーティファクトを補正するために、エッジを保持しながら、レンダリングを平滑化するために２Ｄジョイントバイラテラルフィルタが適用され得る。３Ｄバイラテラルフィルタと同様に、

であり、ここで、σ_ｃ ^２、σ_ｘ ^２およびσ_ｖ ^２は、色、２Ｄピクセル座標および３Ｄユークリッドの分散であり得る。重みパラメータγ_ｊは、レンダリングされたラベルの確実性の推定であり得る。レンダリングされたラベルは、オブジェクト境界の周りのエラーおよびラベルジャンプをより受けやすいことがある。したがって、組み合わせられたエッジマップが、強い画像勾配＋ラベル境界として推定され得る。重み付けマップγが、次いで、最も近いエッジポイントに向かう距離として計算され、次いで、［０，１］の範囲に正規化され得る。値γｉはまた、動的フィルタウィンドウを算出するために使用され得る。最大ウィンドウサイズＫを仮定すれば、ピクセルｉのためのフィルタサイズは、γｊＦによって与えられ得る。

特定の実施形態では、以下は、３Ｄにおけるインスタンスレベルセマンティックセグメンテーションを算出するための手法を展開し得、これは、より正確には、メッシュＭ上の各プリミティブｐ_ｉについて、セマンティックｉｄおよびインスタンスｉｄのタプル、（Ｍ^ｓ _ｉ，Ｍ^ｑ _ｉ）を見つけることであり得る。アルゴリズム２に示されている手法は、３つの主要なフェーズにおいて動作し得る。最初に、生ビデオキャプチャシーケンスＳにおける各画像フレームＩ^ｔ中でオブジェクトを検出するために、Ｍａｓｋ－ＲＣＮＮモデルが使用され得る（ライン５～６）。特別に、Ｍａｓｋ－ＲＣＮＮはオブジェクトマスク｛ｄｋ｝のリストを見つけることがあり、オブジェクトマスクの各々がセマンティッククラスｃｋおよび信頼性スコアαｋに関連付けられ得る。３Ｄ再構築中に見つけられる投影関数を使用して、２Ｄにおける検出の各々が３Ｄメッシュ上にマッピングされ得る（ライン８～１０）。各マッピングされた検出は、同じセマンティッククラスｃ_ｋ、３Ｄメッシュ上の面ｉｄのセットｍ_ｋ、およびＭａｓｋ－ＲＣＮＮの予測スコアａ_ｋとメッシュのジオメトリ情報（すなわち、メッシュに対するカメラポーズ）とを組み合わせる対応する信頼性スコアｒ_ｋからなり得る。第２のフェーズでは、個々の検出Ｄのセットは、ライン１０に示されているように、セマンティックレベルセグメンテーションｓを取得するために一緒に融合され得る。第３のフェーズでは、各インスタンスが１つのセマンティックｉｄを有することを強制され得るので、インスタンスレベルセグメンテーションは、ライン１２～１６に示されているように、各セマンティッククラスｓ_ｋについて別々に実施され得る。後者の２つのフェーズの詳細は、以下で提示される。

特定の実施形態では、セマンティック融合は、アルゴリズム３で概説するＤにおいて個々の検出をアグリゲートすることによってメッシュの区分ｓを見つけることがある。詳細には、各検出の信頼性カウントｒ^ｔ _ｋは、ライン６～８においてインスタンスの３Ｄボリュームｍ^ｔ _ｋ（メッシュ上の面ｉｄのセット）にわたって蓄積され得、ライン９において各面ｉｄを最も多くのカウントをもつセマンティッククラスに割り当てることによって、区分が取得され得る。特定の実施形態では、アグリゲーションプロセスは、現在の区分との一貫性がない（ライン７）検出インスタンスを除去するために数回繰り返され得、これは、Ｍａｓｋ－ＲＣＮＮによるフォールスポジティブ検出を除去するために重要であり得る。この作業では、一貫性は、検出ボリュームｍ^ｔ _ｋの１／２超が区分Ｍ^Ｓにおいて予測されたセマンティッククラスｃ^ｔ _ｋを割り当てられるかどうかによって決定され得る。

特定の実施形態では、異なる観測間のインスタンスｉｄは直接関連付けられ得ないので、インスタンスレベルセグメンテーションはより困難であり得る。たとえば、画像Ａ中の椅子は、画像Ｂ中の椅子のいずれかに対応するか、またはいずれにも対応しないことがある。より重要なことに、検出は、当初、２Ｄ画像から導出されるので、同じオブジェクトインスタンスの異なる検出は、異なる視点からの画像に対応し、したがって、３Ｄメッシュ上で重複がほとんどないことがある。この課題に対処するために、各セマンティッククラスｓ_ｋについての検出Ｄ_ｓｋのセットを与えられたときにインスタンスレベル区分Ｍ^ｑ _ｓｋを見つけるために、アルゴリズム４が使用され得る。

提案される方法は、期待値最大化と同様に働き得る。特定の実施形態では、アルゴリズムは、（ｉ）各検出についてのソフト割当てｚ^ｔを見つけること（ライン９～１４）と、（ｉｉ）インスタンス区分Ｍ^ｑ _ｓｋを更新するために割り当てられた検出の信頼性カウント｛ｕ_ｈ｝をアグリゲートすること（ライン１５～１９）との間で反復し得る。この作業では、検出のインターセクションオーバーユニオン（ＩｏＵ：ｉｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒｕｎｉｏｎ）は、既存の区分の各々に関して算出され得る（ライン１１～１３）。特定の実施形態では、カメラの限られた視野を考慮するために、検出とインスタンス区分との間の和集合計算は、検出の対応する画像にとって可視のメッシュの部分に制約され得る。典型的なクラスタリング問題とのここでの重要な区別は、観測ｔが複数の相関する検出を有することができるということであり得る。限定としてではなく一例として、Ｍａｒｋ－ＲＣＮＮは、画像中で同じセマンティッククラスの複数のインスタンスを見つけることができる。限定としてではなく別の例として、同じ画像からの２つの検出は、２つの別個のインスタンスに対応し得、したがって、ライン１４におけるソフト割当てステップは、検出およびインスタンス区分の各ペア間のＩｏＵを考慮に入れる必要がある。さらに、ドアおよび壁など、大きい物理的サイズのインスタンスをもつセマンティッククラスについて、各検出は、一般に、オブジェクトインスタンスの小さい部分的なビューのみを得ることがある。特定の実施形態では、ＩｏＵ行列はまた、複数の区分が単一のオブジェクトにマージされるべきであるかどうかを決定するためのメトリックとして使用され得る（ライン１７～１８）。

特定の実施形態では、データ収集の初期段階において、利用可能なアノテーション付きデータは、かなり限られていることがある。アノテーション付きデータの不足は、あらゆるメッシュプリミティブについて常に正しい予測をするための、Ｍａｓｋ－ＲＣＮＮからの融合されたセマンティックおよびインスタンスセグメンテーションの失敗につながり得る。限定としてではなく一例として、メッシュの１／２は予測を得ないことがある。しかしながら、保守的な融合ストラテジーを使用することによって、たいていの有効な予測が正しくなり得る。特定の実施形態では、ジオメトリベースセグメンテーションは、オブジェクトクラスに関するクリーンで有用な予測を提供し得る。限定としてではなく一例として、構造表面、たとえば、床および壁は、うまくセグメント化され得る。特定の実施形態では、セマンティック予測は、ジオメトリセグメントを条件とし得る。すなわち、特定の実施形態では、セグメンテーションからの情報を投影することによってアノテーション付き３Ｄモデルを生成することは、３Ｄモデルにおけるオブジェクトに対応する追加情報を投影するために、オブジェクトの幾何学的情報を使用することを含み得る。限定としてではなく一例として、複数のセマンティックセグメンテーションのセマンティック情報を投影することによってセマンティック３Ｄモデルを生成することは、３Ｄモデルにおけるオブジェクトに対応するセマンティック情報を投影するために、オブジェクトに対する幾何学的情報を使用することを含み得る。

特定の実施形態では、１つの自明なソリューションは、各セグメントに、対応するセグメントを支配するラベルを割り当てることによって、最尤（ＭＬ）推定を使用することであり得る。ＭＬ推定は最適解を生じないことがある。正しいラベルは、わずかに低い発生頻度により、拒否され得る。この問題を解決するために、セマンティック意味およびカテゴリーワールドの仮定に基づくラベル信頼性の推定が使用され得る。限定としてではなく一例として、３Ｄシーンが、マンハッタンにあるアパートを表す場合、カテゴリーワールドは、マンハッタンアパート内で一般に見つけられるオブジェクトに対応する情報を含むマンハッタンワールドであり得る。特定の実施形態では、オブジェクトは複数の環境に関連付けられ得る。限定としてではなく一例として、Ｍａｓｋ－ＲＣＮＮセグメンテーションをとると、最初に、重力方向が、床とラベリングされた支配的セグメントをとることによって推定され得る。次いで、最小２乗平面フィッティングが、パラメータ（ｎｇ，ｄｇ）を取得するために実施され得る。推定された平面法線は、重力方向として働き得る。床であると予測されるプリミティブｐ_ｉの場合、ラベル信頼性は、

によって推定され得る。限定としてではなく一例として、再構築がマンハッタンワールドであり得ると仮定すると、一般に重力方向に直角なオブジェクト、たとえば、デスクおよび天井は、

を割り当てられ得る。一方、一般に重力に平行であるオブジェクト、たとえば、壁、ドアおよびモニタは、

を割り当てられ得る。表面配向がマンハッタンワールドにおいて表されることが困難であり得るオブジェクトクラスの場合、信頼性は、全体的予測信頼性を反映する経験的な値に設定され得る。信頼値を使用して、重み付き投票がラベル転送において実施され得、これは、ラベリングの改善につながり得る。特定の実施形態では、システムは、３Ｄモデル上への情報の投影のために信頼値を計算し得る。限定としてではなく一例として、システムは、セマンティックセグメンテーションからのオブジェクトのセマンティック情報がそれぞれのオブジェクトに対応する信頼値を計算し得る。すなわち、検出されたオブジェクトが実際に確かに椅子であるかどうかの信頼値である。特定の実施形態では、信頼値は、オブジェクトのセマンティック情報が特定の環境内のオブジェクトに対応するかどうかに基づき得る。限定としてではなく一例として、マンハッタンワールドカテゴリー内で、一般的なオブジェクトが、その環境中で見つけられ得る。たとえば、コーヒーテーブルは、他のワールドカテゴリーと比較して、マンハッタンワールドカテゴリー内で一般的であり得る。さらに、特定のオブジェクトのいくつかの構成またはスタイルが、その環境中で見つけられ得る。限定としてではなく一例として、現代的な椅子はマンハッタンワールドカテゴリーにおいて見つけられ得るが、他の種類の椅子は一般的でないことがある。特定の実施形態では、システムは、決定された信頼値がしきい信頼値を超えるかどうかに基づいて情報を３Ｄモデル上に投影し得る。特定の実施形態では、システムは、情報の決定された信頼値がしきい信頼値よりも小さい場合、情報を廃棄し得る。特定の実施形態では、３Ｄモデルのほうへの情報の投影は、３Ｄモデルにおける対応するオブジェクトをラベリングすることを含み得る。

特定の実施形態では、システムは、３Ｄシーンを正確にレンダリングするために、アノテーション付き３Ｄモデルを使用し得る。限定としてではなく一例として、システムは、ラグが床とは別個であることを正しく識別し、それらを互いとは別個にレンダリングし得る。特定の実施形態では、システムは、オブジェクトのセマンティック情報を使用することによって、現実世界ビュー上に拡張現実要素を正確にレンダリングし得る。限定としてではなく一例として、システムは、現実世界ビュー内で識別されたテーブルのみの上にくる拡張現実テーブルランプを生成し得る。特定の実施形態では、システムは、仮想現実環境からオブジェクトをフィルタリングするために、オブジェクトのセマンティック意味を使用し得る。限定としてではなく一例として、ユーザは、仮想現実環境から、セマンティックセット「家具」からのオブジェクトを除去し得る。

図７は、仮想現実システムに関連付けられた例示的なネットワーク環境７００を示す。ネットワーク環境７００は、ネットワーク７１０によって互いに接続された、クライアントシステム７３０、ソーシャルネットワーキングシステム７６０、およびサードパーティシステム７７０と対話するユーザ７０１を含む。図７は、ユーザ７０１、クライアントシステム７３０、ソーシャルネットワーキングシステム７６０、サードパーティシステム７７０、およびネットワーク７１０の特定の配置を示すが、本開示は、ユーザ７０１、クライアントシステム７３０、ソーシャルネットワーキングシステム７６０、サードパーティシステム７７０、およびネットワーク７１０の任意の好適な配置を企図する。限定としてではなく一例として、ユーザ７０１、クライアントシステム７３０、ソーシャルネットワーキングシステム７６０、およびサードパーティシステム７７０のうちの２つまたはそれ以上が、ネットワーク７１０をバイパスして、直接互いに接続され得る。別の例として、クライアントシステム７３０、ソーシャルネットワーキングシステム７６０、およびサードパーティシステム７７０のうちの２つまたはそれ以上が、全体的にまたは部分的に、物理的にまたは論理的に互いとコロケートされ得る。その上、図７は、特定の数のユーザ７０１、クライアントシステム７３０、ソーシャルネットワーキングシステム７６０、サードパーティシステム７７０、およびネットワーク７１０を示すが、本開示は、任意の好適な数のクライアントシステム７３０、ソーシャルネットワーキングシステム７６０、サードパーティシステム７７０、およびネットワーク７１０を企図する。限定としてではなく一例として、ネットワーク環境７００は、複数のユーザ７０１と、クライアントシステム７３０と、ソーシャルネットワーキングシステム７６０と、サードパーティシステム７７０と、ネットワーク７１０とを含み得る。

本開示は、任意の好適なネットワーク７１０を企図する。限定としてではなく一例として、ネットワーク７１０の１つまたは複数の部分は、アドホックネットワーク、イントラネット、エクストラネット、仮想プライベートネットワーク（ＶＰＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイヤレスＬＡＮ（ＷＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ワイヤレスＷＡＮ（ＷＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、インターネットの一部分、公衆交換電話網（ＰＳＴＮ）の一部分、セルラー電話ネットワーク、またはこれらのうちの２つまたはそれ以上の組合せを含み得る。ネットワーク７１０は、１つまたは複数のネットワーク７１０を含み得る。

リンク７５０は、クライアントシステム７３０と、ソーシャルネットワーキングシステム７６０と、サードパーティシステム７７０とを、通信ネットワーク７１０にまたは互いに接続し得る。本開示は、任意の好適なリンク７５０を企図する。特定の実施形態では、１つまたは複数のリンク７５０は、１つまたは複数の、（たとえば、デジタル加入者回線（ＤＳＬ）またはデータオーバーケーブルサービスインターフェース仕様（ＤＯＣＳＩＳ）などの）ワイヤラインリンク、（たとえば、Ｗｉ－Ｆｉまたはワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（ＷｉＭＡＸ）などの）ワイヤレスリンク、または（たとえば、同期光ネットワーク（ＳＯＮＥＴ）または同期デジタルハイアラーキ（ＳＤＨ）などの）光リンクを含む。特定の実施形態では、１つまたは複数のリンク７５０は、各々、アドホックネットワーク、イントラネット、エクストラネット、ＶＰＮ、ＬＡＮ、ＷＬＡＮ、ＷＡＮ、ＷＷＡＮ、ＭＡＮ、インターネットの一部分、ＰＳＴＮの一部分、セルラー技術ベースネットワーク、衛星通信技術ベースネットワーク、別のリンク７５０、または２つまたはそれ以上のそのようなリンク７５０の組合せを含む。リンク７５０は、ネットワーク環境７００の全体にわたって必ずしも同じである必要はない。１つまたは複数の第１のリンク７５０は、１つまたは複数の第２のリンク７５０とは１つまたは複数の点で異なり得る。

特定の実施形態では、クライアントシステム７３０は、ハードウェア、ソフトウェア、または埋込み論理構成要素、または２つまたはそれ以上のそのような構成要素の組合せを含み、クライアントシステム７３０によって実装またはサポートされる適切な機能性を行うことが可能な、電子デバイスであり得る。限定としてではなく一例として、クライアントシステム７３０は、デスクトップコンピュータ、ノートブックまたはラップトップコンピュータ、ネットブック、タブレットコンピュータ、電子ブックリーダー、ＧＰＳデバイス、カメラ、携帯情報端末（ＰＤＡ）、ハンドヘルド電子デバイス、セルラー電話、スマートフォン、仮想現実ヘッドセットおよびコントローラ、他の好適な電子デバイス、あるいはそれらの任意の好適な組合せなど、コンピュータシステムを含み得る。本開示は、任意の好適なクライアントシステム７３０を企図する。クライアントシステム７３０は、クライアントシステム７３０におけるネットワークユーザが、ネットワーク７１０にアクセスすることを可能にし得る。クライアントシステム７３０は、クライアントシステム７３０のユーザが、他のクライアントシステム７３０における他のユーザと通信することを可能にし得る。クライアントシステム７３０は、ユーザがコンテンツと対話するための仮想現実環境を生成し得る。

特定の実施形態では、クライアントシステム７３０は、ＯＣＵＬＵＳＲＩＦＴなど、仮想現実（または拡張現実）ヘッドセット７３２と、仮想現実コントローラなど、（１つまたは複数の）仮想現実入力デバイス７３４とを含み得る。クライアントシステム７３０におけるユーザは、仮想現実ヘッドセット７３２を装着し、仮想現実ヘッドセット７３２によって生成された仮想現実環境７３６と対話するために（１つまたは複数の）仮想現実入力デバイスを使用し得る。示されていないが、クライアントシステム７３０は、別個の処理コンピュータおよび／または仮想現実システムの任意の他の構成要素をも含み得る。仮想現実ヘッドセット７３２は、ソフトウェアまたはファームウェア更新など、（限定はしないがオペレーティングシステムを含む）システムコンテンツ７３８を含み、アプリケーションからのコンテンツ、またはインターネットから動的にダウンロードされたコンテンツ（たとえば、ウェブページコンテンツ）など、サードパーティコンテンツ７４０をも含み得る、仮想現実環境７３６を生成し得る。仮想現実ヘッドセット７３２は、ヘッドセットデバイス７３２のロケーションを追跡するセンサーデータを生成するための、加速度計、ジャイロスコープ、磁力計など、（１つまたは複数の）センサー７４２を含み得る。ヘッドセット７３２は、ユーザの眼の位置またはユーザの眼の観察方向を追跡するためのアイトラッカーをも含み得る。クライアントシステムは、ヘッドセットに関する速度、配向、および重力を決定するために、（１つまたは複数の）センサー７４２からのデータを使用し得る。（１つまたは複数の）仮想現実入力デバイス７３４は、入力デバイス７３４のロケーションとユーザの指の位置とを追跡するセンサーデータを生成するための、加速度計、ジャイロスコープ、磁力計、およびタッチセンサーなど、（１つまたは複数の）センサー７４４を含み得る。クライアントシステム７３０は、アウトサイドイン追跡（ｏｕｔｓｉｄｅ－ｉｎｔｒａｃｋｉｎｇ）を利用し得、ここで、追跡カメラ（図示せず）が、仮想現実ヘッドセット７３２の外部に、および仮想現実ヘッドセット７３２の見通し線内に置かれる。アウトサイドイン追跡では、追跡カメラは、（たとえば、仮想現実ヘッドセット７３２上の１つまたは複数の赤外線ＬＥＤマーカーを追跡することによって）仮想現実ヘッドセット７３２のロケーションを追跡し得る。代替または追加として、クライアントシステム７３０は、インサイドアウト追跡（ｉｎｓｉｄｅ－ｏｕｔｔｒａｃｋｉｎｇ）を利用し得、ここで、追跡カメラ（図示せず）が、仮想現実ヘッドセット７３２自体の上に、または仮想現実ヘッドセット７３２自体の内部に置かれ得る。インサイドアウト追跡では、追跡カメラは、現実世界において追跡カメラの周りの画像をキャプチャし得、現実世界の変化するパースペクティブを使用して、空間における追跡カメラ自体の位置を決定し得る。

サードパーティコンテンツ７４０は、ＭＩＣＲＯＳＯＦＴＩＮＴＥＲＮＥＴＥＸＰＬＯＲＥＲ、ＧＯＯＧＬＥＣＨＲＯＭＥまたはＭＯＺＩＬＬＡＦＩＲＥＦＯＸなど、ウェブブラウザを含み得、１つまたは複数のアドオン、プラグイン、あるいは、ＴＯＯＬＢＡＲまたはＹＡＨＯＯＴＯＯＬＢＡＲなど、他の拡張を有し得る。クライアントシステム７３０におけるユーザは、ウェブブラウザを（サーバ７６２、またはサードパーティシステム７７０に関連付けられたサーバなどの）特定のサーバに向けるユニフォームリソースロケータ（ＵＲＬ）または他のアドレスを入力し得、ウェブブラウザは、ハイパーテキスト転送プロトコル（ＨＴＴＰ）要求を生成し、ＨＴＴＰ要求をサーバに通信し得る。サーバは、ＨＴＴＰ要求を受け入れ、ＨＴＴＰ要求に応答する１つまたは複数のハイパーテキストマークアップ言語（ＨＴＭＬ）ファイルをクライアントシステム７３０に通信し得る。クライアントシステム７３０は、ユーザへの提示のためにサーバからのＨＴＭＬファイルに基づいてウェブインターフェース（たとえば、ウェブページ）をレンダリングし得る。本開示は、任意の好適なソースファイルを企図する。限定としてではなく一例として、ウェブインターフェースは、特定の必要に応じて、ＨＴＭＬファイル、拡張可能ハイパーテキストマークアップ言語（ＸＨＴＭＬ）ファイル、または拡張可能マークアップ言語（ＸＭＬ）ファイルから、レンダリングされ得る。そのようなインターフェースは、たとえば、限定はしないが、ＪＡＶＡＳＣＲＩＰＴ、ＪＡＶＡ、ＭＩＣＲＯＳＯＦＴＳＩＬＶＥＲＬＩＧＨＴで書かれたものなどのスクリプト、ＡＪＡＸ（非同期ＪＡＶＡＳＣＲＩＰＴおよびＸＭＬ）などのマークアップ言語とスクリプトとの組合せなどをも実行し得る。本明細書では、ウェブインターフェースへの言及は、適切な場合、（ブラウザがウェブインターフェースをレンダリングするために使用し得る）１つまたは複数の対応するソースファイルを包含し、その逆も同様である。

特定の実施形態では、ソーシャルネットワーキングシステム７６０は、オンラインソーシャルネットワークをホストすることができるネットワークアドレス指定可能なコンピューティングシステムであり得る。ソーシャルネットワーキングシステム７６０は、たとえば、ユーザプロファイルデータ、概念プロファイルデータ、ソーシャルグラフ情報、またはオンラインソーシャルネットワークに関係する他の好適なデータなど、ソーシャルネットワーキングデータを生成し、記憶し、受信し、送り得る。ソーシャルネットワーキングシステム７６０は、直接的にまたはネットワーク７１０を介してのいずれかで、ネットワーク環境７００の他の構成要素によってアクセスされ得る。限定としてではなく一例として、クライアントシステム７３０は、直接的にまたはネットワーク７１０を介してのいずれかで、サードパーティコンテンツ７４０のウェブブラウザ、またはソーシャルネットワーキングシステム７６０に関連付けられたネイティブアプリケーション（たとえば、モバイルソーシャルネットワーキングアプリケーション、メッセージングアプリケーション、別の好適なアプリケーション、またはそれらの任意の組合せ）を使用して、ソーシャルネットワーキングシステム７６０にアクセスし得る。特定の実施形態では、ソーシャルネットワーキングシステム７６０は、１つまたは複数のサーバ７６２を含み得る。各サーバ７６２は、単一サーバ、あるいは複数のコンピュータまたは複数のデータセンターにわたる分散型サーバであり得る。サーバ７６２は、たとえば、限定はしないが、ウェブサーバ、ニュースサーバ、メールサーバ、メッセージサーバ、広告サーバ、ファイルサーバ、アプリケーションサーバ、交換サーバ、データベースサーバ、プロキシサーバ、本明細書で説明される機能またはプロセスを実施するのに好適な別のサーバ、あるいはそれらの任意の組合せなど、様々なタイプのものであり得る。特定の実施形態では、各サーバ７６２は、サーバ７６２によって実装またはサポートされる適切な機能性を行うための、ハードウェア、ソフトウェア、または埋込み論理構成要素、または２つまたはそれ以上のそのような構成要素の組合せを含み得る。特定の実施形態では、ソーシャルネットワーキングシステム７６０は、１つまたは複数のデータストア７６４を含み得る。データストア７６４は、様々なタイプの情報を記憶するために使用され得る。特定の実施形態では、データストア７６４に記憶された情報は、固有のデータ構造に従って編成され得る。特定の実施形態では、各データストア７６４は、リレーショナルデータベース、列指向データベース、相関データベース、または他の好適なデータベースであり得る。本開示は、特定のタイプのデータベースを説明するかまたは示すが、本開示は任意の好適なタイプのデータベースを企図する。特定の実施形態は、クライアントシステム７３０、ソーシャルネットワーキングシステム７６０、またはサードパーティシステム７７０が、データストア７６４に記憶された情報を管理する、取り出す、修正する、追加する、または削除することを可能にするインターフェースを提供し得る。

特定の実施形態では、ソーシャルネットワーキングシステム７６０は、１つまたは複数のソーシャルグラフを１つまたは複数のデータストア７６４に記憶し得る。特定の実施形態では、ソーシャルグラフは、（各々特定のユーザに対応する）複数のユーザノードまたは（各々特定の概念に対応する）複数の概念ノードを含み得る、複数のノードと、ノードをつなげる複数のエッジとを含み得る。ソーシャルネットワーキングシステム７６０は、オンラインソーシャルネットワークのユーザに、他のユーザと通信および対話する能力を提供し得る。特定の実施形態では、ユーザは、ソーシャルネットワーキングシステム７６０を介してオンラインソーシャルネットワークに加わり、次いで、ユーザがつなげられることを希望するソーシャルネットワーキングシステム７６０の何人かの他のユーザへのつながり（たとえば、関係）を追加し得る。本明細書では、「友達」という用語は、ソーシャルネットワーキングシステム７６０を介してユーザがつながり、関連付け、または関係を形成したソーシャルネットワーキングシステム７６０の任意の他のユーザを指し得る。

特定の実施形態では、ソーシャルネットワーキングシステム７６０は、ソーシャルネットワーキングシステム７６０によってサポートされる様々なタイプのアイテムまたはオブジェクトに関するアクションをとる能力をユーザに提供し得る。限定としてではなく一例として、アイテムおよびオブジェクトは、ソーシャルネットワーキングシステム７６０のユーザが属し得るグループまたはソーシャルネットワーク、ユーザが興味があり得るイベントまたはカレンダーエントリ、ユーザが使用し得るコンピュータベースアプリケーション、ユーザがサービスを介してアイテムを購入または販売することを可能にするトランザクション、ユーザが実施し得る広告との対話、あるいは他の好適なアイテムまたはオブジェクトを含み得る。ユーザは、ソーシャルネットワーキングシステム７６０において、またはソーシャルネットワーキングシステム７６０とは別個であり、ネットワーク７１０を介してソーシャルネットワーキングシステム７６０に結合された、サードパーティシステム７７０の外部システムによって、表されることが可能であるものと対話し得る。

特定の実施形態では、ソーシャルネットワーキングシステム７６０は、様々なエンティティをリンクすることが可能であり得る。限定としてではなく一例として、ソーシャルネットワーキングシステム７６０は、ユーザが、互いと対話し、ならびにサードパーティシステム７７０または他のエンティティからコンテンツを受信すること、あるいは、ユーザがアプリケーションプログラミングインターフェース（ＡＰＩ）または他の通信チャネルを通してこれらのエンティティと対話することを可能にすることを可能にし得る。

特定の実施形態では、サードパーティシステム７７０は、１つまたは複数のタイプのサーバ、１つまたは複数のデータストア、限定はしないがＡＰＩを含む１つまたは複数のインターフェース、１つまたは複数のウェブサービス、１つまたは複数のコンテンツソース、１つまたは複数のネットワーク、またはたとえばサーバが通信し得る任意の他の好適な構成要素を含み得る。サードパーティシステム７７０は、ソーシャルネットワーキングシステム７６０を動作させるエンティティとは異なるエンティティによって動作させられ得る。しかしながら、特定の実施形態では、ソーシャルネットワーキングシステム７６０とサードパーティシステム７７０とは、互いと連携して動作して、ソーシャルネットワーキングシステム７６０またはサードパーティシステム７７０のユーザにソーシャルネットワーキングサービスを提供し得る。この意味で、ソーシャルネットワーキングシステム７６０は、サードパーティシステム７７０などの他のシステムが、インターネットにわたってユーザにソーシャルネットワーキングサービスおよび機能性を提供するために使用し得る、プラットフォームまたはバックボーンを提供し得る。

特定の実施形態では、サードパーティシステム７７０は、サードパーティコンテンツオブジェクトプロバイダを含み得る。サードパーティコンテンツオブジェクトプロバイダは、クライアントシステム７３０に通信され得る、コンテンツオブジェクトの１つまたは複数のソースを含み得る。限定としてではなく一例として、コンテンツオブジェクトは、たとえば、映画の上映時間、映画のレビュー、レストランのレビュー、レストランのメニュー、製品情報およびレビュー、または他の好適な情報など、ユーザにとって興味のある物またはアクティビティに関する情報を含み得る。限定としてではなく別の例として、コンテンツオブジェクトは、クーポン、ディスカウントチケット、ギフト券、または他の好適なインセンティブオブジェクトなど、インセンティブコンテンツオブジェクトを含み得る。

特定の実施形態では、ソーシャルネットワーキングシステム７６０は、ソーシャルネットワーキングシステム７６０とのユーザの対話を向上させ得る、ユーザ生成されたコンテンツオブジェクトをも含む。ユーザ生成されたコンテンツは、ユーザがソーシャルネットワーキングシステム７６０に追加するか、アップロードするか、送るか、または「投稿」することができるものを含み得る。限定としてではなく一例として、ユーザは、クライアントシステム７３０からソーシャルネットワーキングシステム７６０に投稿を通信する。投稿は、ステータス更新または他のテキストデータ、ロケーション情報、写真、ビデオ、リンク、音楽あるいは他の同様のデータまたはメディアなど、データを含み得る。コンテンツはまた、ニュースフィードまたはストリームなどの「通信チャネル」を通して、サードパーティによってソーシャルネットワーキングシステム７６０に追加され得る。

特定の実施形態では、ソーシャルネットワーキングシステム７６０は、様々なサーバ、サブシステム、プログラム、モジュール、ログ、およびデータストアを含み得る。特定の実施形態では、ソーシャルネットワーキングシステム７６０は、ウェブサーバ、アクションロガー、ＡＰＩ要求サーバ、関連性およびランキングエンジン、コンテンツオブジェクト分類子、通知コントローラ、アクションログ、サードパーティコンテンツオブジェクト露出ログ、推論モジュール、許可／プライバシーサーバ、検索モジュール、広告ターゲッティングモジュール、ユーザインターフェースモジュール、ユーザプロファイルストア、つながりストア、サードパーティコンテンツストア、またはロケーションストアのうちの１つまたは複数を含み得る。ソーシャルネットワーキングシステム７６０は、ネットワークインターフェース、セキュリティ機構、ロードバランサ、フェイルオーバサーバ、管理およびネットワーク運用コンソール、他の好適な構成要素、またはそれらの任意の好適な組合せなど、好適な構成要素をも含み得る。特定の実施形態では、ソーシャルネットワーキングシステム７６０は、ユーザプロファイルを記憶するための１つまたは複数のユーザプロファイルストアを含み得る。ユーザプロファイルは、たとえば、経歴情報、人口統計学的情報、行動情報、ソーシャル情報、あるいは、職歴、学歴、趣味もしくは選好、興味、親和性、またはロケーションなど、他のタイプの記述的情報を含み得る。興味情報は、１つまたは複数のカテゴリーに関係する興味を含み得る。カテゴリーは一般的であるかまたは固有のものであり得る。限定としてではなく一例として、ユーザが、靴のブランドに関する記事に対して「いいね！」を表明した場合、カテゴリーは、ブランド、あるいは「靴」または「衣類」の一般的なカテゴリーであり得る。つながりストアは、ユーザに関するつながり情報を記憶するために使用され得る。つながり情報は、同様のまたは共通の職歴、グループメンバーシップ、趣味、学歴を有するか、あるいはいかなる形でも関係するか、または共通属性を共有する、ユーザを指示し得る。つながり情報は、（内部と外部の両方の）異なるユーザとコンテンツとの間のユーザ定義されたつながりをも含み得る。ウェブサーバは、ネットワーク７１０を介して、ソーシャルネットワーキングシステム７６０を、１つまたは複数のクライアントシステム７３０または１つまたは複数のサードパーティシステム７７０にリンクするために使用され得る。ウェブサーバは、ソーシャルネットワーキングシステム７６０と１つまたは複数のクライアントシステム７３０との間でメッセージを受信およびルーティングするためのメールサーバまたは他のメッセージング機能性を含み得る。ＡＰＩ要求サーバは、サードパーティシステム７７０が、１つまたは複数のＡＰＩを呼び出すことによってソーシャルネットワーキングシステム７６０からの情報にアクセスすることを可能にし得る。アクションロガーは、ソーシャルネットワーキングシステム７６０上の、またはソーシャルネットワーキングシステム７６０から離れた、ユーザのアクションに関するウェブサーバからの通信を受信するために使用され得る。アクションログと併せて、サードパーティコンテンツオブジェクトへのユーザ露出についてのサードパーティコンテンツオブジェクトログが維持され得る。通知コントローラは、クライアントシステム７３０にコンテンツオブジェクトに関する情報を提供し得る。情報は、通知としてクライアントシステム７３０にプッシュされ得るか、または、情報は、クライアントシステム７３０から受信された要求に応答してクライアントシステム７３０からプルされ得る。許可サーバは、ソーシャルネットワーキングシステム７６０のユーザの１つまたは複数のプライバシー設定を施行するために使用され得る。ユーザのプライバシー設定は、ユーザに関連付けられた特定の情報がどのように共有され得るかを決定する。許可サーバは、ユーザが、たとえば、適切なプライバシー設定を設定することなどによって、そのユーザのアクションがソーシャルネットワーキングシステム７６０によってロギングされるか、または他のシステム（たとえば、サードパーティシステム７７０）と共有されることをオプトインまたはオプトアウトすることを可能にし得る。サードパーティコンテンツオブジェクトストアは、サードパーティシステム７７０など、サードパーティから受信されたコンテンツオブジェクトを記憶するために使用され得る。ロケーションストアは、ユーザに関連付けられたクライアントシステム７３０から受信されたロケーション情報を記憶するために使用され得る。広告価格設定モジュールは、ソーシャル情報、現在時間、ロケーション情報、または他の好適な情報を組み合わせて、関連する広告を通知の形態でユーザに提供し得る。

図８は、セマンティックモデルを生成するための例示的な方法８００を示す。特定の実施形態では、セマンティックモデルを生成するために仮想現実ヘッドセット７３２が使用され得る。方法はステップ８１０において開始し得、コンピューティングシステム（たとえば、仮想現実システム）が、複数のカメラポーズから１つまたは複数のカメラによってキャプチャされた複数の画像にアクセスし得る。ステップ８２０において、コンピューティングシステムは、複数の画像を使用して、複数の画像中でキャプチャされた１つまたは複数のオブジェクトのセマンティック情報を含む複数のセマンティックセグメンテーションを生成し得る。ステップ８３０において、コンピューティングシステムは、１つまたは複数のオブジェクトの３次元（３Ｄ）モデルにアクセスし得る。ステップ８４０において、コンピューティングシステムは、複数のカメラポーズを使用して、１つまたは複数のオブジェクトの３Ｄモデルに対する対応する複数の仮想カメラポーズを決定し得る。ステップ８５０において、コンピューティングシステムは、複数の仮想カメラポーズを使用して複数のセマンティックセグメンテーションのセマンティック情報を３Ｄモデルのほうへ投影することによってセマンティック３Ｄモデルを生成し得る。特定の実施形態は、適切な場合、図８の方法の１つまたは複数のステップを繰り返し得る。本開示は、図５の方法の特定のステップを、特定の順序で行われるものとして説明し、示すが、本開示は、図８の方法の任意の好適なステップが任意の好適な順序で行われることを企図する。その上、本開示は、図８の方法の特定のステップを含む、セマンティックモデルを生成するための例示的な方法を説明し、示すが、本開示は、適切な場合、図８の方法のステップのすべてを含むか、いくつかを含むか、またはいずれも含まないことがある、任意の好適なステップを含む、セマンティックモデルを生成する任意の好適な方法を企図する。さらに、本開示は、図８の方法の特定のステップを行う特定の構成要素、デバイス、またはシステムを説明し、示すが、本開示は、図８の方法の任意の好適なステップを行う任意の好適な構成要素、デバイス、またはシステムの任意の好適な組合せを企図する。

本開示は、仮想現実ヘッドセット１３２が様々な機能を実施することのコンテキストにおいてプロセスを説明し、示すが、コンピューティングシステム（たとえば、ソーシャルネットワーキングシステム１６０またはサードパーティシステム１７０として具現されたサーバ）が、処理を扱い、結果を仮想現実ヘッドセット１３２に送り得、その逆も同様である。

図９は、例示的なコンピュータシステム９００を示す。特定の実施形態では、１つまたは複数のコンピュータシステム９００は、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施する。特定の実施形態では、１つまたは複数のコンピュータシステム９００は、本明細書で説明または示される機能性を提供する。特定の実施形態では、１つまたは複数のコンピュータシステム９００上で稼働しているソフトウェアは、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施するか、あるいは本明細書で説明または示される機能性を提供する。特定の実施形態は、１つまたは複数のコンピュータシステム９００の１つまたは複数の部分を含む。本明細書では、コンピュータシステムへの言及は、適切な場合、コンピューティングデバイスを包含し得、その逆も同様である。その上、コンピュータシステムへの言及は、適切な場合、１つまたは複数のコンピュータシステムを包含し得る。

本開示は、任意の好適な数のコンピュータシステム９００を企図する。本開示は、任意の好適な物理的形態をとるコンピュータシステム９００を企図する。限定としてではなく例として、コンピュータシステム９００は、組込み型コンピュータシステム、システムオンチップ（ＳＯＣ）、（たとえば、コンピュータオンモジュール（ＣＯＭ）またはシステムオンモジュール（ＳＯＭ）などの）シングルボードコンピュータシステム（ＳＢＣ）、デスクトップコンピュータシステム、ラップトップまたはノートブックコンピュータシステム、対話型キオスク、メインフレーム、コンピュータシステムのメッシュ、携帯電話、携帯情報端末（ＰＤＡ）、サーバ、タブレットコンピュータシステム、あるいはこれらのうちの２つまたはそれ以上の組合せであり得る。適切な場合、コンピュータシステム９００は、１つまたは複数のコンピュータシステム９００を含むか、単一または分散型であるか、複数のロケーションにわたるか、複数のマシンにわたるか、複数のデータセンターにわたるか、あるいは１つまたは複数のネットワーク中の１つまたは複数のクラウド構成要素を含み得るクラウド中に常駐し得る。適切な場合、１つまたは複数のコンピュータシステム９００は、実質的な空間的または時間的制限なしに、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施し得る。限定としてではなく一例として、１つまたは複数のコンピュータシステム９００は、リアルタイムでまたはバッチモードで、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施し得る。１つまたは複数のコンピュータシステム９００は、適切な場合、異なる時間においてまたは異なるロケーションにおいて、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施し得る。

特定の実施形態では、コンピュータシステム９００は、プロセッサ９０２と、メモリ９０４と、ストレージ９０６と、入出力（Ｉ／Ｏ）インターフェース９０８と、通信インターフェース９１０と、バス９１２とを含む。本開示は、特定の配置において特定の数の特定の構成要素を有する特定のコンピュータシステムを説明し、示すが、本開示は、任意の好適な配置において任意の好適な数の任意の好適な構成要素を有する任意の好適なコンピュータシステムを企図する。

特定の実施形態では、プロセッサ９０２は、コンピュータプログラムを作成する命令など、命令を実行するためのハードウェアを含む。限定としてではなく一例として、命令を実行するために、プロセッサ９０２は、内部レジスタ、内部キャッシュ、メモリ９０４、またはストレージ９０６から命令を取り出し（またはフェッチし）、それらの命令を復号および実行し、次いで、内部レジスタ、内部キャッシュ、メモリ９０４、またはストレージ９０６に１つまたは複数の結果を書き込み得る。特定の実施形態では、プロセッサ９０２は、データ、命令、またはアドレスのための１つまたは複数の内部キャッシュを含み得る。本開示は、適切な場合、任意の好適な数の任意の好適な内部キャッシュを含むプロセッサ９０２を企図する。限定としてではなく一例として、プロセッサ９０２は、１つまたは複数の命令キャッシュと、１つまたは複数のデータキャッシュと、１つまたは複数のトランスレーションルックアサイドバッファ（ＴＬＢ）とを含み得る。命令キャッシュ中の命令は、メモリ９０４またはストレージ９０６中の命令のコピーであり得、命令キャッシュは、プロセッサ９０２によるそれらの命令の取出しを高速化し得る。データキャッシュ中のデータは、プロセッサ９０２において実行する命令が動作する対象のメモリ９０４またはストレージ９０６中のデータのコピー、プロセッサ９０２において実行する後続の命令によるアクセスのための、またはメモリ９０４もしくはストレージ９０６に書き込むための、プロセッサ９０２において実行された前の命令の結果、あるいは他の好適なデータであり得る。データキャッシュは、プロセッサ９０２による読取りまたは書込み動作を高速化し得る。ＴＬＢは、プロセッサ９０２のための仮想アドレストランスレーション（ｖｉｒｔｕａｌ－ａｄｄｒｅｓｓｔｒａｎｓｌａｔｉｏｎ）を高速化し得る。特定の実施形態では、プロセッサ９０２は、データ、命令、またはアドレスのための１つまたは複数の内部レジスタを含み得る。本開示は、適切な場合、任意の好適な数の任意の好適な内部レジスタを含むプロセッサ９０２を企図する。適切な場合、プロセッサ９０２は、１つまたは複数の算術論理ユニット（ＡＬＵ）を含むか、マルチコアプロセッサであるか、または１つまたは複数のプロセッサ９０２を含み得る。本開示は、特定のプロセッサを説明し、示すが、本開示は任意の好適なプロセッサを企図する。

特定の実施形態では、メモリ９０４は、プロセッサ９０２が実行するための命令、またはプロセッサ９０２が動作する対象のデータを記憶するためのメインメモリを含む。限定としてではなく一例として、コンピュータシステム９００は、ストレージ９０６または（たとえば、別のコンピュータシステム９００などの）別のソースからメモリ９０４に命令をロードし得る。プロセッサ９０２は、次いで、メモリ９０４から内部レジスタまたは内部キャッシュに命令をロードし得る。命令を実行するために、プロセッサ９０２は、内部レジスタまたは内部キャッシュから命令を取り出し、それらの命令を復号し得る。命令の実行中またはその後に、プロセッサ９０２は、（中間結果または最終結果であり得る）１つまたは複数の結果を内部レジスタまたは内部キャッシュに書き込み得る。プロセッサ９０２は、次いで、メモリ９０４にそれらの結果のうちの１つまたは複数を書き込み得る。特定の実施形態では、プロセッサ９０２は、１つまたは複数の内部レジスタまたは内部キャッシュ中の、あるいは（ストレージ９０６または他の場所とは対照的な）メモリ９０４中の命令のみを実行し、１つまたは複数の内部レジスタまたは内部キャッシュ中の、あるいは（ストレージ９０６または他の場所とは対照的な）メモリ９０４中のデータのみに対して動作する。（アドレスバスおよびデータバスを各々含み得る）１つまたは複数のメモリバスが、プロセッサ９０２をメモリ９０４に結合し得る。バス９１２は、以下で説明されるように、１つまたは複数のメモリバスを含み得る。特定の実施形態では、１つまたは複数のメモリ管理ユニット（ＭＭＵ）が、プロセッサ９０２とメモリ９０４との間に常駐し、プロセッサ９０２によって要求されるメモリ９０４へのアクセスを容易にする。特定の実施形態では、メモリ９０４は、ランダムアクセスメモリ（ＲＡＭ）を含む。このＲＡＭは、適切な場合、揮発性メモリであり得る。適切な場合、このＲＡＭは、ダイナミックＲＡＭ（ＤＲＡＭ）またはスタティックＲＡＭ（ＳＲＡＭ）であり得る。その上、適切な場合、このＲＡＭは、シングルポートまたはマルチポートＲＡＭであり得る。本開示は、任意の好適なＲＡＭを企図する。メモリ９０４は、適切な場合、１つまたは複数のメモリ９０４を含み得る。本開示は、特定のメモリを説明し、示すが、本開示は任意の好適なメモリを企図する。

特定の実施形態では、ストレージ９０６は、データまたは命令のための大容量ストレージを含む。限定としてではなく一例として、ストレージ９０６は、ハードディスクドライブ（ＨＤＤ）、フロッピーディスクドライブ、フラッシュメモリ、光ディスク、光磁気ディスク、磁気テープ、またはユニバーサルシリアルバス（ＵＳＢ）ドライブ、あるいはこれらのうちの２つまたはそれ以上の組合せを含み得る。ストレージ９０６は、適切な場合、リムーバブルまたは非リムーバブル（または固定）媒体を含み得る。ストレージ９０６は、適切な場合、コンピュータシステム９００の内部または外部にあり得る。特定の実施形態では、ストレージ９０６は、不揮発性ソリッドステートメモリである。特定の実施形態では、ストレージ９０６は、読取り専用メモリ（ＲＯＭ）を含む。適切な場合、このＲＯＭは、マスクプログラムＲＯＭ、プログラマブルＲＯＭ（ＰＲＯＭ）、消去可能ＰＲＯＭ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、電気的書き換え可能ＲＯＭ（ＥＡＲＯＭ）、またはフラッシュメモリ、あるいはこれらのうちの２つまたはそれ以上の組合せであり得る。本開示は、任意の好適な物理的形態をとる大容量ストレージ９０６を企図する。ストレージ９０６は、適切な場合、プロセッサ９０２とストレージ９０６との間の通信を容易にする１つまたは複数のストレージ制御ユニットを含み得る。適切な場合、ストレージ９０６は、１つまたは複数のストレージ９０６を含み得る。本開示は、特定のストレージを説明し、示すが、本開示は任意の好適なストレージを企図する。

特定の実施形態では、Ｉ／Ｏインターフェース９０８は、コンピュータシステム９００と１つまたは複数のＩ／Ｏデバイスとの間の通信のための１つまたは複数のインターフェースを提供する、ハードウェア、ソフトウェア、またはその両方を含む。コンピュータシステム９００は、適切な場合、これらのＩ／Ｏデバイスのうちの１つまたは複数を含み得る。これらのＩ／Ｏデバイスのうちの１つまたは複数は、人とコンピュータシステム９００との間の通信を可能にし得る。限定としてではなく一例として、Ｉ／Ｏデバイスは、キーボード、キーパッド、マイクロフォン、モニタ、マウス、プリンタ、スキャナ、スピーカー、スチールカメラ、スタイラス、タブレット、タッチスクリーン、トラックボール、ビデオカメラ、別の好適なＩ／Ｏデバイス、またはこれらのうちの２つまたはそれ以上の組合せを含み得る。Ｉ／Ｏデバイスは１つまたは複数のセンサーを含み得る。本開示は、任意の好適なＩ／Ｏデバイスと、それらのＩ／Ｏデバイスのための任意の好適なＩ／Ｏインターフェース９０８とを企図する。適切な場合、Ｉ／Ｏインターフェース９０８は、プロセッサ９０２がこれらのＩ／Ｏデバイスのうちの１つまたは複数を駆動することを可能にする１つまたは複数のデバイスまたはソフトウェアドライバを含み得る。Ｉ／Ｏインターフェース９０８は、適切な場合、１つまたは複数のＩ／Ｏインターフェース９０８を含み得る。本開示は、特定のＩ／Ｏインターフェースを説明し、示すが、本開示は任意の好適なＩ／Ｏインターフェースを企図する。

特定の実施形態では、通信インターフェース９１０は、コンピュータシステム９００と、１つまたは複数の他のコンピュータシステム９００または１つまたは複数のネットワークとの間の（たとえば、パケットベース通信などの）通信のための１つまたは複数のインターフェースを提供する、ハードウェア、ソフトウェア、またはその両方を含む。限定としてではなく一例として、通信インターフェース９１０は、イーサネットまたは他のワイヤベースネットワークと通信するためのネットワークインターフェースコントローラ（ＮＩＣ）またはネットワークアダプタ、あるいはＷＩ－ＦＩネットワークなどのワイヤレスネットワークと通信するためのワイヤレスＮＩＣ（ＷＮＩＣ）またはワイヤレスアダプタを含み得る。本開示は、任意の好適なネットワークと、そのネットワークのための任意の好適な通信インターフェース９１０とを企図する。限定としてではなく一例として、コンピュータシステム９００は、アドホックネットワーク、パーソナルエリアネットワーク（ＰＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、またはインターネットの１つまたは複数の部分、あるいはこれらのうちの２つまたはそれ以上の組合せと通信し得る。これらのネットワークのうちの１つまたは複数の１つまたは複数の部分は、ワイヤードまたはワイヤレスであり得る。一例として、コンピュータシステム９００は、（たとえば、ＢＬＵＥＴＯＯＴＨＷＰＡＮなどの）ワイヤレスＰＡＮ（ＷＰＡＮ）、ＷＩ－ＦＩネットワーク、ＷＩ－ＭＡＸネットワーク、（たとえば、モバイル通信用グローバルシステム（ＧＳＭ）ネットワークなどの）セルラー電話ネットワーク、または他の好適なワイヤレスネットワーク、あるいはこれらのうちの２つまたはそれ以上の組合せと通信し得る。コンピュータシステム９００は、適切な場合、これらのネットワークのいずれかのための任意の好適な通信インターフェース９１０を含み得る。通信インターフェース９１０は、適切な場合、１つまたは複数の通信インターフェース９１０を含み得る。本開示は、特定の通信インターフェースを説明し、示すが、本開示は任意の好適な通信インターフェースを企図する。

特定の実施形態では、バス９１２は、コンピュータシステム９００の構成要素を互いに結合する、ハードウェア、ソフトウェア、またはその両方を含む。限定としてではなく一例として、バス９１２は、アクセラレーテッドグラフィックスポート（ＡＧＰ）または他のグラフィックスバス、拡張業界標準アーキテクチャ（ＥＩＳＡ）バス、フロントサイドバス（ＦＳＢ）、ＨＹＰＥＲＴＲＡＮＳＰＯＲＴ（ＨＴ）相互接続、業界標準アーキテクチャ（ＩＳＡ）バス、ＩＮＦＩＮＩＢＡＮＤ相互接続、ローピンカウント（ＬＰＣ）バス、メモリバス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、周辺構成要素相互接続（ＰＣＩ）バス、ＰＣＩ－Ｅｘｐｒｅｓｓ（ＰＣＩｅ）バス、シリアルアドバンストテクノロジーアタッチメント（ＳＡＴＡ）バス、ビデオエレクトロニクス規格協会ローカル（ＶＬＢ）バス、または別の好適なバス、あるいはこれらのうちの２つまたはそれ以上の組合せを含み得る。バス９１２は、適切な場合、１つまたは複数のバス９１２を含み得る。本開示は、特定のバスを説明し、示すが、本開示は任意の好適なバスまたは相互接続を企図する。

本明細書では、１つまたは複数のコンピュータ可読非一時的記憶媒体は、適切な場合、（たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または特定用途向けＩＣ（ＡＳＩＣ）などの）１つまたは複数の半導体ベースまたは他の集積回路（ＩＣ）、ハードディスクドライブ（ＨＤＤ）、ハイブリッドハードドライブ（ＨＨＤ）、光ディスク、光ディスクドライブ（ＯＤＤ）、光磁気ディスク、光磁気ドライブ、フロッピーディスケット、フロッピーディスクドライブ（ＦＤＤ）、磁気テープ、ソリッドステートドライブ（ＳＳＤ）、ＲＡＭドライブ、セキュアデジタルカードまたはドライブ、任意の他の好適なコンピュータ可読非一時的記憶媒体、あるいはこれらのうちの２つまたはそれ以上の任意の好適な組合せを含み得る。コンピュータ可読非一時的記憶媒体は、適切な場合、揮発性、不揮発性、または揮発性と不揮発性との組合せであり得る。

本明細書では、「または」は、明確に別段に指示されていない限り、またはコンテキストによって別段に指示されていない限り、包括的であり、排他的ではない。したがって、本明細書では、「ＡまたはＢ」は、明確に別段に指示されていない限り、またはコンテキストによって別段に指示されていない限り、「Ａ、Ｂ、またはその両方」を意味する。その上、「および」は、明確に別段に指示されていない限り、またはコンテキストによって別段に指示されていない限り、共同と個別の両方である。したがって、本明細書では、「ＡおよびＢ」は、明確に別段に指示されていない限り、またはコンテキストによって別段に指示されていない限り、「共同でまたは個別に、ＡおよびＢ」を意味する。

本開示の範囲は、当業者が理解するであろう、本明細書で説明または示される例示的な実施形態に対するすべての変更、置換、変形、改変、および修正を包含する。本開示の範囲は、本明細書で説明または示される例示的な実施形態に限定されない。その上、本開示は、本明細書のそれぞれの実施形態を、特定の構成要素、要素、特徴、機能、動作、またはステップを含むものとして説明し、示すが、これらの実施形態のいずれも、当業者が理解するであろう、本明細書のどこかに説明または示される構成要素、要素、特徴、機能、動作、またはステップのうちのいずれかの任意の組合せまたは置換を含み得る。さらに、特定の機能を実施するように適応されるか、配置されるか、実施することが可能であるか、実施するように構成されるか、実施することが可能にされるか、実施するように動作可能であるか、または実施するように動作する、装置またはシステムあるいは装置またはシステムの構成要素に対する添付の特許請求の範囲における参照は、その装置、システム、または構成要素が、そのように適応されるか、配置されるか、可能であるか、構成されるか、可能にされるか、動作可能であるか、または動作する限り、その装置、システム、構成要素またはその特定の機能が、アクティブにされるか、オンにされるか、またはロック解除されるか否かにかかわらず、その装置、システム、構成要素を包含する。さらに、本開示は、特定の実施形態を、特定の利点を提供するものとして説明するかまたは示すが、特定の実施形態は、これらの利点のいずれをも提供しないか、いくつかを提供するか、またはすべてを提供し得る。

Claims

コンピューティングシステムによって、
複数のカメラポーズから１つまたは複数のカメラによってキャプチャされた複数の画像にアクセスすることと、
前記複数の画像を使用して、前記複数の画像中でキャプチャされた１つまたは複数のオブジェクトのセマンティック情報を含む複数のセマンティックセグメンテーションを生成することと、
前記１つまたは複数のオブジェクトの３次元（３Ｄ）モデルにアクセスすることと、
前記複数のカメラポーズを使用して、前記１つまたは複数のオブジェクトの前記３Ｄモデルに対する対応する複数の仮想カメラポーズを決定することと、
前記複数の仮想カメラポーズを使用して前記複数のセマンティックセグメンテーションの前記セマンティック情報を前記３Ｄモデルのほうへ投影することによってセマンティック３Ｄモデルを生成することと
を含む、方法。
前記複数の画像を使用して、前記複数の画像中でキャプチャされた前記１つまたは複数のオブジェクトの幾何学的情報を含む複数のジオメトリベースセグメンテーションを生成することをさらに含み、任意選択的に、前記複数のセマンティックセグメンテーションの前記セマンティック情報を投影することによって前記セマンティック３Ｄモデルを生成することが、前記複数の画像中でキャプチャされた前記１つまたは複数のオブジェクトに対応する前記セマンティック情報を投影するために前記１つまたは複数のオブジェクトの前記幾何学的情報を使用することをさらに含む、請求項１に記載の方法。
前記複数の画像を使用して、前記複数の画像中でキャプチャされた前記１つまたは複数のオブジェクトのオブジェクト識別を含む複数のインスタンスセグメンテーションを生成することをさらに含む、請求項１に記載の方法。
前記複数の仮想カメラポーズを使用して前記複数のインスタンスセグメンテーションの前記オブジェクト識別を前記３Ｄモデルのほうへ投影することによってインスタンス３Ｄモデルを生成することをさらに含み、任意選択的に、前記インスタンス３Ｄモデルを生成することが、前記１つまたは複数のオブジェクトのうちの１つに適用されるべき前記複数のインスタンスセグメンテーションの各々からのオブジェクト識別を組み合わせることを含む、請求項３に記載の方法。
前記複数の画像中でキャプチャされた前記１つまたは複数のオブジェクトの前記セマンティック情報に基づいてセマンティックツリーを生成することをさらに含み、前記セマンティックツリーが複数のセマンティックレベルを含み、各セマンティックレベルがセマンティック情報のしきい値量に対応する、請求項１に記載の方法。
前記複数のセマンティックレベルが、
前記１つまたは複数のオブジェクトの個々のオブジェクトに対応する情報を含む第１のセマンティックレベル、
前記１つまたは複数のオブジェクトのオブジェクトクラスに対応する情報を含む第２のセマンティックレベル、および
前記１つまたは複数のオブジェクトのセマンティックセットに対応する情報を含む第３のセマンティックレベル
のうちの１つまたは複数を含む、請求項５に記載の方法。
前記セマンティック情報を投影することが、特定のセマンティックレベルの前記セマンティック情報を前記３Ｄモデルのほうへ投影することをさらに含む、請求項５に記載の方法。
前記１つまたは複数のオブジェクトの前記３Ｄモデルが、前記複数の画像に基づいて生成される、請求項１に記載の方法。
前記複数のセマンティックセグメンテーションからの前記１つまたは複数のオブジェクトの各セマンティック情報がそれぞれの前記オブジェクトに対応する１つまたは複数の信頼値を計算することをさらに含む、請求項１に記載の方法。
オブジェクトが複数の環境に関連付けられ、前記１つまたは複数の信頼値は、前記１つまたは複数のオブジェクトの前記セマンティック情報が特定の環境内のオブジェクトに対応するかどうかに基づく、請求項９に記載の方法。
前記複数のセマンティックセグメンテーションの前記セマンティック情報を前記３Ｄモデルのほうへ投影することは、
１つのオブジェクトについてのセマンティック情報の前記信頼値がしきい信頼値を超えると決定することと、
前記信頼値が前記しきい信頼値を超えることに応答して、前記セマンティック情報をそれぞれの前記オブジェクトの前記３Ｄモデルのほうへ投影することと
をさらに含む、請求項９に記載の方法。
しきい信頼値よりも小さい信頼値に関連付けられた前記セマンティック情報が廃棄される、請求項９に記載の方法。
前記セマンティック３Ｄモデルを生成することが、前記１つまたは複数のオブジェクトのうちの１つに適用されるべき前記複数のセマンティックセグメンテーションの各々からのセマンティック情報を組み合わせることを含み、および／または、前記セマンティック情報を前記３Ｄモデルのほうへ投影することが、前記３Ｄモデルにおけるそれぞれの前記オブジェクトに対応するラベルを追加することを含む、請求項１に記載の方法。
ソフトウェアを具現する１つまたは複数のコンピュータ可読非一時的記憶媒体であって、前記ソフトウェアが、実行されたとき、
複数のカメラポーズから１つまたは複数のカメラによってキャプチャされた複数の画像にアクセスすることと、
前記複数の画像を使用して、前記複数の画像中でキャプチャされた１つまたは複数のオブジェクトのセマンティック情報を含む複数のセマンティックセグメンテーションを生成することと、
前記１つまたは複数のオブジェクトの３次元（３Ｄ）モデルにアクセスすることと、
前記複数のカメラポーズを使用して、前記１つまたは複数のオブジェクトの前記３Ｄモデルに対する対応する複数の仮想カメラポーズを決定することと、
前記複数の仮想カメラポーズを使用して前記複数のセマンティックセグメンテーションの前記セマンティック情報を前記３Ｄモデルのほうへ投影することによってセマンティック３Ｄモデルを生成することと
を行うように動作可能である、１つまたは複数のコンピュータ可読非一時的記憶媒体。
１つまたは複数のプロセッサと、前記プロセッサによって実行可能な命令を含む、前記プロセッサに結合された非一時的メモリとを備えるシステムであって、前記プロセッサが、前記命令を実行したとき、
複数のカメラポーズから１つまたは複数のカメラによってキャプチャされた複数の画像にアクセスすることと、
前記複数の画像を使用して、前記複数の画像中でキャプチャされた１つまたは複数のオブジェクトのセマンティック情報を含む複数のセマンティックセグメンテーションを生成することと、
前記１つまたは複数のオブジェクトの３次元（３Ｄ）モデルにアクセスすることと、
前記複数のカメラポーズを使用して、前記１つまたは複数のオブジェクトの前記３Ｄモデルに対する対応する複数の仮想カメラポーズを決定することと、
前記複数の仮想カメラポーズを使用して前記複数のセマンティックセグメンテーションの前記セマンティック情報を前記３Ｄモデルのほうへ投影することによってセマンティック３Ｄモデルを生成することと
を行うように動作可能である、システム。