JP2022537810A

JP2022537810A - クロスリアリティシステムにおけるスケーラブル３次元オブジェクト認識

Info

Publication number: JP2022537810A
Application number: JP2021574263A
Authority: JP
Inventors: シッダルタチョーダリー，; ディヴィヤラムナート，; シユドン，; シッダルタマヘンドラン，; アルムガムカライカナン，; プラティークシンガル，; クシグプタ，; ニテシュセカール，; マヌシュリガングワル，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2019-06-14
Filing date: 2020-06-12
Publication date: 2022-08-30
Anticipated expiration: 2040-06-12
Also published as: US20200394848A1; WO2020252371A1; US11257300B2; JP7448566B2; EP3983941A4; CN114730498A; US20220139057A1; US11704806B2; EP3983941A1; JP2024012657A

Abstract

クロスリアリティシステムにおけるスケーラブル３次元（３－Ｄ）オブジェクト認識のためのコンピュータ記憶媒体上にエンコーディングされたコンピュータプログラムを含む、方法、システム、および装置。本方法のうちの１つは、場面内で認識されているオブジェクトを規定する、オブジェクトデータを維持するステップを含む。カラー画像のストリームと、深度画像のストリームとを含む、場面の入力画像のストリームが、受信される。カラー画像は、入力としてオブジェクト認識システムに提供される。カラー画像内の各オブジェクトに対して個別のオブジェクトマスクを識別する、認識出力が、受信される。同期システムが、カラー画像のための対応する深度画像を判定する。

Description

（関連出願の相互参照）
本特許出願は、参照することによってその全体として本明細書に組み込まれる、２０１９年６月１４日に出願され、「ＯＢＪＥＣＴＲＥＣＯＧＮＩＴＩＯＮＡＮＤＳＣＥＮＥＵＮＤＥＲＳＴＡＮＤＩＮＧ」と題された、米国仮特許出願第６２／８６１，７８４号の優先権および利点を主張する。本特許出願はまた、参照することによってその全体として本明細書に組み込まれる、２０２０年１月３０日に出願され、「ＡＣＲＯＳＳＲＥＡＬＩＴＹＳＹＳＴＥＭ」と題された、米国仮特許出願第６２／９６８，０２３号の優先権および利点を主張する。本特許出願はまた、参照することによってその全体として本明細書に組み込まれる、２０２０年４月７日に出願され、「ＳＣＡＬＡＢＬＥＴＨＲＥＥ－ＤＩＭＥＮＳＩＯＮＡＬＯＢＪＥＣＴＲＥＣＯＧＮＩＴＩＯＮＩＮＡＣＲＯＳＳＲＥＡＬＩＴＹＳＹＳＴＥＭ」と題された、米国仮特許出願第６３／００６，４０８号の優先権および利点を主張する。本特許出願はまた、参照することによってその全体として本明細書に組み込まれる、２０２０年５月１３日に出願され、「ＳＣＡＬＡＢＬＥＴＨＲＥＥ－ＤＩＭＥＮＳＩＯＮＡＬＯＢＪＥＣＴＲＥＣＯＧＮＩＴＩＯＮＩＮＡＣＲＯＳＳＲＥＡＬＩＴＹＳＹＳＴＥＭ」と題された、米国仮特許出願第６３／０２４，２９１号の優先権および利点を主張する。

本願は、概して、クロスリアリティシステムに関する。

コンピュータは、ヒューマンユーザインターフェースを制御し、ユーザによって知覚されるにつれて、ＸＲ環境の一部または全部がコンピュータによって生成される、Ｘリアリティ（ＸＲまたはクロスリアリティ）環境を作成し得る。これらのＸＲ環境は、ＸＲ環境の一部または全部が、部分的に、環境を説明するデータを使用して、コンピュータによって生成され得る、仮想現実（ＶＲ）、拡張現実（ＡＲ）、および複合現実（ＭＲ）環境であり得る。本データは、例えば、ユーザが、物理的世界の一部として、感知または知覚し、仮想オブジェクトと相互作用し得るようにレンダリングされ得る、仮想オブジェクトを説明し得る。ユーザは、例えば、頭部搭載型ディスプレイデバイス等のユーザインターフェースデバイスを通してレンダリングおよび提示されているデータの結果として、これらの仮想オブジェクトを体験し得る。データは、ユーザに見えるように表示され得る、またはユーザに聞こえるように再生される、オーディオを制御し得る、または触知的（または触覚的）インターフェースを制御し、ユーザが、仮想オブジェクトを感じるにつれて、ユーザが感知または知覚する、タッチ感覚を体験することを可能にし得る。

ＸＲシステムは、科学的可視化、医療訓練、工学設計、およびプロトタイプ化、遠隔操作およびテレプレゼンス、および個人的娯楽の分野に及ぶ、多くの用途のために有用であり得る。ＡＲおよびＭＲは、ＶＲと対照的に、物理的世界の実オブジェクトと関連して、１つ以上のオブジェクトを含む。実オブジェクトと相互作用する、仮想オブジェクトの体験は、ＸＲシステムを使用する際、ユーザの享受を大幅に向上させ、また、物理的世界が改変され得る様子についての現実的かつ容易に理解可能な情報を提示する、種々の用途のための可能性を広げる。

仮想コンテンツを現実的にレンダリングするために、ＸＲシステムは、システムのユーザの周囲の物理的世界の表現を構築し得る。本表現は、例えば、ＸＲシステムの一部を形成する、ウェアラブルデバイス上のセンサを用いて入手された処理画像によって構築されてもよい。そのようなシステムでは、ユーザは、システムがその環境の表現を構築するために十分な情報を入手するまで、ユーザがＸＲシステムを使用することを意図する部屋または他の物理的環境を見て回ることによって、初期化ルーチンを実施し得る。システムが動作し、ユーザが環境の周囲を、または他の環境へと動き回るにつれて、ウェアラブルデバイス上のセンサは、付加的情報を入手し、物理的世界の表現を拡張または更新し得る。

本システムは、２次元（２－Ｄ）オブジェクト認識システムを使用して、物理的世界内のオブジェクトを認識してもよい。例えば、本システムは、ウェアラブルデバイス上のセンサを用いて入手された画像を入力として２－Ｄ境界ボックス生成システムに提供してもよい。本システムは、画像内で認識されているオブジェクトの各々に対し、個別の２－Ｄ境界ボックスを受信してもよい。ＸＲシステムは、認識されているオブジェクトのための２－Ｄ境界ボックスを使用して物理的世界の表現を構築することができる。ユーザがその環境または他の環境に動き回るにつれて、ＸＲシステムは、センサによって入手された付加的画像内で認識されているオブジェクトのための２－Ｄ境界ボックスを使用して、物理的世界の表現を拡張または更新することができる。

本願の側面は、Ｘリアリティ（クロスリアリティまたはＸＲ）システムにおけるスケーラブル３次元（３－Ｄ）オブジェクト認識のための方法および装置に関する。本明細書に説明される技法は、ともに、別個に、または任意の好適な組み合わせにおいて使用されてもよい。

一般に、本明細書に説明される主題の１つの革新的側面は、環境内の場面内で認識されているオブジェクトを規定する、オブジェクトデータを維持するステップと、場面の入力画像のストリームを受信するステップであって、入力画像のストリームは、カラー画像のストリームと、深度画像のストリームとを備える、ステップと、カラー画像のストリーム内の複数のカラー画像の各々に対し、カラー画像を入力としてオブジェクト認識システムに提供するステップと、オブジェクト認識システムからの出力として、カラー画像内で認識されている１つ以上のオブジェクトの各々に対し、カラー画像内の個別のオブジェクトマスクを識別する、認識出力を受信するステップと、対応する深度画像のタイムスタンプおよびカラー画像のタイムスタンプに基づいて、カラー画像のための対応する深度画像を決定する、同期システムに、カラー画像および深度画像のストリーム内の複数の深度画像を入力として提供するステップと、オブジェクトデータ、オブジェクトマスク、および対応する深度画像から、カラー画像内で認識されているオブジェクトのうちの１つ以上のものの各々に対し、個別の３－Ｄ境界ボックスを決定する、３次元（３－Ｄ）境界ボックス生成システムに、オブジェクトデータ、オブジェクトマスクを識別する認識出力、および対応する深度画像を入力として提供するステップと、３－Ｄ境界ボックス生成システムからの出力として、カラー画像内で認識されたオブジェクトのうちの１つ以上のもののための１つ以上の３－Ｄ境界ボックスを規定するデータを受信するステップと、出力として、１つ以上の３－Ｄ境界ボックスを規定する、データを提供するステップとのアクションを含む、方法内に具現化されることができる。本側面の他の実施形態は、対応するコンピュータシステムと、装置と、それぞれ、本方法のアクションを実施するように構成される、１つ以上のコンピュータ記憶デバイス上に記録されるコンピュータプログラムとを含む。１つ以上のコンピュータのシステムに関して、特定の動作またはアクションを実施するように構成されるとは、システムが、動作時、システムに動作またはアクションを実施させるように、そのソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせ上にインストールしていることを意味する。１つ以上のコンピュータプログラムに関して、特定の動作またはアクションを実施するように構成されるとは、１つ以上のプログラムが、データ処理装置によって実行されると、装置に、動作またはアクションを実施させる、命令を含むことを意味する。

前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの１つ以上のものを含むことができる。特に、一実施形態は、組み合わせて、全ての以下の特徴を含む。３－Ｄ境界ボックス生成システムは、３－Ｄオブジェクトマスクの初期セットを生成する、マルチビュー融合システムを備える。オブジェクト認識システム、同期システム、マルチビュー融合システムは、ステートレス様式で、相互から独立して動作する。マルチビュー融合システムは、維持されるオブジェクトデータから、対応するオブジェクトを規定する、カラー画像内の各認識されたオブジェクトの個別のオブジェクトマスクと合致されたオブジェクトデータを識別する、関連付けシステムと、カラー画像内のオブジェクトマスクと合致されたオブジェクトデータを組み合わせることによって、カラー画像内の各認識されたオブジェクトに対し、初期３－Ｄオブジェクトマスクを生成する、融合システムとを備える。３－Ｄ境界ボックス生成システムはさらに、３－Ｄオブジェクトマスクの初期セットを精緻化し、３－Ｄ境界ボックスの初期セットを生成する、オブジェクト精緻化システムを備える。３－Ｄ境界ボックス生成システムはさらに、３－Ｄ境界ボックスの初期セットを精緻化し、１つ以上の３－Ｄ境界ボックスを生成する、境界ボックス精緻化システムを備える。オブジェクト認識システムは、カラー画像を入力としてとり、カラー画像内で認識されている１つ以上のオブジェクトの各々に対し、個別の２次元（２－Ｄ）オブジェクトマスクを生成する、訓練された深層ニューラルネットワーク（ＤＮＮ）モデルを備える。同期システムによって、対応する深度画像のタイムスタンプおよびカラー画像のタイムスタンプに基づいて、カラー画像のための対応する深度を決定するステップは、カラー画像のタイムスタンプに最も近いタイムスタンプを有する、候補深度画像を識別するステップと、候補深度画像とカラー画像との間の時間差が閾値未満であることを決定するステップと、それに応答して、候補深度画像をカラー画像のための対応する深度画像として決定するステップとを含む。３－Ｄ境界ボックス生成システムは、オブジェクトマスクおよび対応する深度画像から、カラー画像内で認識されているオブジェクトのうちの１つ以上のものの各々に対し、個別の３－Ｄオブジェクトマスクを決定し、本方法はさらに、３－Ｄ境界ボックス生成システムからの出力として、カラー画像内で認識されたオブジェクトのうちの１つ以上のもののための１つ以上の３－Ｄオブジェクトマスクを規定する、データを受信するステップと、出力として、１つ以上の３－Ｄオブジェクトマスクを規定する、データを提供するステップとを含む。

一般に、本明細書に説明される主題の別の革新的側面は、環境内の場面内で認識されているオブジェクトを規定する、オブジェクトデータを維持するステップと、場面の入力画像のストリームを受信するステップと、入力画像のストリーム内の複数の入力画像の各々に対し、入力画像を入力としてオブジェクト認識システムに提供するステップと、オブジェクト認識システムからの出力として、入力画像内で認識されている１つ以上のオブジェクトの各々に対し、入力画像内の個別の境界ボックスを識別する、認識出力を受信するステップと、オブジェクトデータおよび境界ボックスから、入力画像内で認識されているオブジェクトのうちの１つ以上のものの各々に対し、個別の３－Ｄ境界ボックスを決定する、３次元（３－Ｄ）境界ボックス生成システムに、境界ボックスを識別するデータを入力として提供するステップと、３－Ｄ境界ボックス生成システムからの出力として、入力画像内で認識されたオブジェクトのうちの１つ以上のもののための１つ以上の３－Ｄ境界ボックスを規定する、データを受信するステップと、出力として、１つ以上の３－Ｄ境界ボックスを規定する、データを提供するステップとのアクションを含む、方法内に具現化されることができる。本側面の他の実施形態は、対応するコンピュータシステムと、装置と、それぞれ、本方法のアクションを実施するように構成される、１つ以上のコンピュータ記憶デバイス上に記録されるコンピュータプログラムとを含む。１つ以上のコンピュータのシステムに関して、特定の動作またはアクションを実施するように構成されるとは、システムが、動作時、システムに動作またはアクションを実施させるように、そのソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせ上にインストールしていることを意味する。１つ以上のコンピュータプログラムに関して、特定の動作またはアクションを実施するように構成されるとは、１つ以上のプログラムが、データ処理装置によって実行されると、装置に、動作またはアクションを実施させる、命令を含むことを意味する。

前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの１つ以上のものを含むことができる。特に、一実施形態は、組み合わせて、全ての以下の特徴を含む。３－Ｄ境界ボックス生成システムは、３－Ｄ境界ボックスの初期セットを生成する、マルチビュー融合システムと、３－Ｄ境界ボックスの初期セットを精緻化し、１つ以上の３－Ｄ境界ボックスを生成する、境界ボックス精緻化システムを備える。オブジェクト認識システム、マルチビュー融合システム、および境界ボックス精緻化システムは、ステートレス様式で、相互から独立して動作する。維持されるオブジェクトデータは、場面内で認識されている各オブジェクトの複数の２次元（２－Ｄ）境界ボックスから生成される、楕円体を備え、マルチビュー融合システムは、少なくとも以下のステップ、すなわち、入力画像内で識別された２－Ｄ境界ボックスの各々に対し、入力画像内で識別された２－Ｄ境界ボックスが、維持されるオブジェクトデータ内で認識されているオブジェクトの１つ以上の２－Ｄ境界ボックスと関連付けられるかどうかを決定するステップと、入力画像内で識別された２－Ｄ境界ボックスが、認識されているオブジェクトの１つ以上の２－Ｄ境界ボックスと関連付けられることの決定に応答して、入力画像内で識別された２－Ｄ境界ボックスを使用して、オブジェクトの更新された楕円体を計算することによって、維持されるオブジェクトデータを更新するステップと、入力画像内で識別された２－Ｄ境界ボックスが、認識されている任意のオブジェクトと関連付けられないことの決定に応答して、入力画像内で識別された少なくとも２－Ｄ境界ボックスから楕円体を生成することによって、新しいオブジェクトを作成するステップと、入力画像内で認識されているオブジェクトの楕円体を使用して、３－Ｄ境界ボックスの初期セットを生成するステップとを実施することによって、３－Ｄ境界ボックスの初期セットを生成する。オブジェクト認識システムは、入力画像をとり、入力画像内で認識されている１つ以上のオブジェクトの各々に対し、個別の２次元（２－Ｄ）オブジェクト境界ボックスを生成する、訓練された深層ニューラルネットワーク（ＤＮＮ）モデルを備える。場面の入力画像のストリームは、２つ以上のユーザデバイスから捕捉される。

本明細書は、オブジェクトの３－Ｄ境界ボックスをユーザデバイスによって捕捉されたカラー画像および深度画像から生成するための技法を説明する。これらの技法を使用することによって、３－Ｄオブジェクト認識システムは、クラウドに接続される、複数のユーザデバイスによって捕捉された画像のストリームを使用して、３－Ｄオブジェクト認識を実施することができる。本システムは、複数のユーザデバイス間で共有される場面内の複数のオブジェクトをともに認識することができ、オブジェクトの３－Ｄ境界ボックスをユーザデバイスによって捕捉されたカラー画像および深度画像から生成することができる。３－Ｄオブジェクト認識は、ユーザデバイスの数および場面内のオブジェクトの数においてスケーラブルである。３－Ｄオブジェクト認識システムは、複数のステートレスモジュール内に実装され得る、複数の独立サブシステムを含む。これらのステートレスモジュールは、必要に応じて、スケーリングアップまたはスケーリングダウンされることができる。これは、３－Ｄオブジェクト認識システムが、大環境内で、例えば、建物または都市スケールにおいて、数百または数千のＸＲデバイスを用いて、かつ数百または数千の３－Ｄオブジェクトを伴って、オブジェクトを認識することを有効にする。

３－Ｄ境界ボックスから生成または更新されたパス可能世界モデルに基づいて、ＸＲシステムは、複数のアプリケーションを有効にすることができ、アプリケーションにおける没入型の体験を改良することができる。ＸＲシステムのユーザまたはアプリケーション開発者は、環境の場面内で認識されている１つ以上のオブジェクトとともに、ＸＲコンテンツまたはアプリケーションを物理的世界内に設置することができる。例えば、ゲームアプリケーションは、仮想オブジェクト（例えば、コーヒーのカップ）をパス可能世界モデル内で認識されている実世界コーヒーテーブルの上部に設定することができる。

説明される技法を利用することによって、ＸＲアプリケーションは、より没入型の体験を有することができる。例えば、双方向ゲームアプリケーションの仮想アシスタントは、より没入型の体験を提供するために、パス可能世界モデル内で認識されている椅子のうちの１つ上に着座することができる。ＡＲアプリケーション内の空間オーディオは、検出された３－Ｄオブジェクトの場所を使用して、各オブジェクトのカテゴリに応じて、音を適切に反射させることができる。

いくつかの実装では、ＸＲシステムは、検出された３－Ｄオブジェクトの場所を含む、パス可能世界モデルに基づいて、オブジェクトの空間知識グラフを構築することができる。いくつかの実装では、ＸＲシステムは、検出された３－Ｄオブジェクトの場所情報を利用することによって、よりロバストに実施することができる。例えば、追跡、位置特定、またはメッシュ化算出は、３－Ｄオブジェクト検出を利用することによって、オブジェクトを移動させる等の長期の動的変化に対してよりロバストになり得る。

本明細書は、深度画像を使用せずに、オブジェクトの３－Ｄ境界ボックスをカラー画像から生成するための技法も説明する。これらの技法を使用することによって、３－Ｄオブジェクト認識システムは、クラウドに接続される、複数のユーザデバイスによって捕捉された画像のストリームを使用して、３－Ｄオブジェクト認識を実施することができる。本システムは、複数のユーザデバイス間で共有される場面内の複数のオブジェクトをともに認識することができ、オブジェクトの３－Ｄ境界ボックスをユーザデバイスによって捕捉されたカラー画像から生成することができる。深度画像を使用せずに、カラー画像のみを使用することによって、本システムは、例えば、それに関して深度情報が、欠測、不良、または信頼性がない傾向にある、黒色オブジェクトまたは反射性オブジェクト等、不良深度情報を伴っても、オブジェクトの正確な３－Ｄ境界ボックスを生成することができる。３－Ｄオブジェクト認識は、ユーザデバイスの数および場面内のオブジェクトの数においてスケーラブルである。３－Ｄオブジェクト認識システムは、複数のステートレスモジュール内に実装され得る、複数の独立サブシステムを含む。これらのステートレスモジュールは、必要に応じて、スケーリングアップまたはスケーリングダウンされることができる。これは、３－Ｄオブジェクト認識システムが、大環境内で、例えば、建物または都市スケールにおいて、数百または数千のＸＲデバイスを用いて、かつ数百または数千の３－Ｄオブジェクトを伴って、オブジェクトを認識することを有効にする。

前述の説明は、例証として提供され、限定することを意図するものではない。

添付の図面は、縮尺通りに描かれることを意図していない。図面では、種々の図に図示される、各同じまたはほぼ同じコンポーネントは、同様の数字で表される。明確性の目的のために、全てのコンポーネントが、全ての図面において標識されているわけではない。

図１は、ユーザに、ＡＲコンテンツが物理的世界と相互作用する体験を提供するように構成される、ＡＲシステム内のデータフローを図示する、概略図である。

図２は、パス可能世界のモデルを維持する、ＡＲシステムのコンポーネントを図示する、概略図である。

図３は、場面内のオブジェクトのための３－Ｄ境界ボックスを生成する、例示的３－Ｄオブジェクト認識システムを示す。

図４は、場面内のオブジェクトのための３－Ｄ境界ボックスをカラー画像のストリームおよび深度画像のストリームから生成する、例示的３－Ｄオブジェクト認識システムを図示する。

図５は、場面の入力画像のストリームからの３－Ｄオブジェクト認識結果を算出するための例示的プロセスのフローチャートである。

図６は、例示的３－Ｄ境界ボックス生成システム内のいくつかのサブシステムを図示する、システム図である。

図７は、場面内のオブジェクトのための３－Ｄ境界ボックスを入力画像のストリームから生成する、例示的３－Ｄオブジェクト認識システムを示す。

図８は、場面の入力画像のストリームからの３－Ｄオブジェクト認識結果を算出するための例示的プロセスのフローチャートである。

本明細書に説明されるものは、Ｘリアリティ（クロスリアリティまたはＸＲ）システムにおけるスケーラブル３次元（３－Ｄ）オブジェクト認識のための方法および装置である。現実的ＸＲ体験を複数のユーザに提供するために、ＸＲシステムは、実オブジェクトに関連して仮想オブジェクトの場所を正しく相関させるために、ユーザの物理的周囲を把握しなければならない。ＸＲシステムは、場面の環境マップを構築し得、これは、ＸＲシステムのユーザによって装着されるＸＲデバイスの一部であるセンサを用いて収集された、画像および／または深度情報から作成され得る。場面の環境マップは、スケーラブル３－Ｄオブジェクト認識を通して取得され得る、場面内の実オブジェクトを規定する、データを含むことができる。

図１は、いくつかの実施形態による、物理的世界１０６と相互作用するＡＲコンテンツの体験を提供するように構成される、ＡＲシステム１００を描写する。ＡＲシステム１００は、ディスプレイ１０８を含んでもよい。図示される実施形態では、ディスプレイ１０８は、ユーザが、一対のゴーグルまたは眼鏡のように、ディスプレイをその眼にわたって装着し得るように、ヘッドセットの一部としてユーザによって装着されてもよい。ディスプレイの少なくとも一部は、ユーザがシースルー現実１１０を観察し得るように、透明であってもよい。シースルー現実１１０は、ＡＲシステム１００の現在の視点（例えば、視野）内の物理的世界１０６の部分に対応し得、これは、ユーザが、ＡＲシステムのディスプレイおよびセンサの両方を組み込む、ヘッドセットを装着し、物理的世界についての情報を入手している場合のユーザの視点に対応し得る。

ＡＲコンテンツはまた、シースルー現実１１０上にオーバーレイされる、ディスプレイ１０８上に提示されてもよい。ＡＲコンテンツとシースルー現実１１０との間の正確な相互作用をディスプレイ１０８上で提供するために、ＡＲシステム１００は、物理的世界１０６についての情報を捕捉するように構成される、センサ１２２を含んでもよい。

センサ１２２は、深度マップ１１２を出力する、１つ以上の深度センサを含んでもよい。いくつかの実施形態では、１つ以上の深度センサは、異なるシステムによって、またはＸＲシステムの１つ以上の異なるコンポーネントによって、深度マップに変換され得る、深度データを出力してもよい。各深度マップ１１２は、それぞれ、深度センサに対する特定の方向における物理的世界１０６内の表面までの距離を表し得る、複数のピクセルを有してもよい。未加工深度データが、深度センサから生じ、深度マップを作成し得る。そのような深度マップは、深度センサが新しい画像を形成し得るほど高速に更新され得、これは、数百または数千回／秒であり得る。しかしながら、そのデータは、雑音が多くかつ不完全であって、図示される深度マップ上に黒色ピクセルとして示される、穴を有し得る。

システムは、画像センサ等の他のセンサを含んでもよい。画像センサは、他の方法において物理的世界を表すように処理され得る、単眼または立体視情報を入手してもよい。例えば、画像は、世界再構築コンポーネント１１６内で処理され、物理的世界内のオブジェクト全部または一部部分を表す、メッシュを作成してもよい。例えば、色および表面テクスチャを含む、そのようなオブジェクトについてのメタデータも同様に、センサを用いて入手され、世界再構築の一部として記憶されてもよい。

システムはまた、物理的世界に対するユーザの頭部姿勢（または「姿勢」）についての情報を入手してもよい。いくつかの実施形態では、システムの頭部姿勢追跡コンポーネントは、頭部姿勢をリアルタイムで算出するために使用されてもよい。頭部姿勢追跡コンポーネントは、例えば、３つの垂直軸における平行移動（例えば、前／後、上／下、左／右）および３つの垂直軸を中心とした回転（例えば、ピッチ、ヨー、およびロール）を含む、６自由度を伴って、座標フレーム内のユーザの頭部姿勢を表し得る。いくつかの実施形態では、センサ１２２は、頭部姿勢１１４を算出および／または決定するために使用され得る、慣性測定ユニットを含んでもよい。カメラ画像のための頭部姿勢１１４は、例えば、６自由度を伴う、カメラ画像を捕捉するセンサの現在の視点を示し得るが、頭部姿勢１１４は、画像情報を物理的世界の特定の部分に関連させる、またはユーザの頭部上に装着されるディスプレイの位置を物理的世界に関連させる等の他の目的のために使用されてもよい。

いくつかの実施形態では、ＡＲデバイスは、ユーザがＡＲデバイスとともに物理的世界全体を通して移動するにつれて捕捉された一連の画像フレーム内の連続画像内で認識される、特徴点から、マップを構築してもよい。各画像フレームは、ユーザが移動するにつれて、異なる姿勢から得られ得るが、システムは、連続画像フレームの特徴と以前に捕捉された画像フレームを合致させることによって、各連続画像フレームの特徴の配向を調節し、初期画像フレームの配向を合致させてもよい。同一特徴を表す点が、以前に収集された画像フレームからの対応する特徴点に合致するであろうように、連続画像フレームの平行移動は、各連続画像フレームを整合させ、以前に処理された画像フレームの配向を合致させるために使用されることができる。結果として生じるマップ内のフレームは、第１の画像フレームがマップに追加されたときに確立される共通配向を有し得る。本マップは、共通基準フレーム内の特徴点のセットとともに、現在の画像フレームからの特徴をマップに合致させることによって、物理的世界内のユーザの姿勢を決定するために使用されてもよい。いくつかの実施形態では、本マップは、追跡マップと呼ばれ得る。

環境内のユーザの姿勢の追跡を有効にすることに加え、本マップは、世界再構築コンポーネント１１６等のシステムの他のコンポーネントがユーザに対する物理的オブジェクトの場所を決定することを可能にし得る。世界再構築コンポーネント１１６は、深度マップ１１２および頭部姿勢１１４およびセンサからの任意の他のデータを受信し、そのデータを再構築１１８の中に統合してもよい。再構築１１８は、センサデータより完全かつより雑音が少なくあり得る。世界再構築コンポーネント１１６は、経時的に複数の視点からのセンサデータの空間および時間的平均を使用して、再構築１１８を更新してもよい。

再構築１１８は、例えば、ボクセル、メッシュ、平面等を含む、１つ以上のデータフォーマットにおいて、物理的世界の表現を含んでもよい。異なるフォーマットは、物理的世界の同一部分の代替表現を表し得る、または物理的世界の異なる部分を表し得る。図示される実施例では、再構築１１８の左側には、物理的世界の一部が、グローバル表面として提示され、再構築１１８の右側には、物理的世界の一部が、メッシュとして提示される。

いくつかの実施形態では、頭部姿勢コンポーネント１１４によって維持されるマップは、物理的世界の維持され得る他のマップに対して疎隔されてもよい。場所および可能性として表面の他の特性についての情報を提供するのではなく、疎マップは、角または縁等の着目点および／または構造の場所を示してもよい。いくつかの実施形態では、マップは、センサ１２２によって捕捉されるような画像フレームを含んでもよい。これらのフレームは、着目点および／または構造を表し得る、特徴に低減され得る。各フレームと併せて、そこからフレームが入手されたユーザの姿勢についての情報もまた、マップの一部として記憶されてもよい。いくつかの実施形態では、センサによって入手された全ての画像が、記憶される場合とそうではない場合がある。いくつかの実施形態では、システムは、それらがセンサによって収集されるにつれて、画像を処理し、さらなる算出のために、画像フレームのサブセットを選択してもよい。選択は、情報の追加を限定するが、マップが有用な情報を含有することを確実にする、１つ以上の基準に基づいてもよい。本システムは、例えば、マップにすでに追加されている以前の画像フレームとの重複に基づいて、または定常オブジェクトを表す可能性が高いと決定された十分な数の特徴を含有する、画像フレームに基づいて、新しい画像フレームをマップに追加してもよい。いくつかの実施形態では、選択された画像フレームまたは選択された画像フレームからの特徴の群は、マップのためのキーフレームとしての役割を果たし得、これは、空間情報を提供するために使用される。

ＡＲシステム１００は、物理的世界の複数の視点からのセンサデータを経時的に統合してもよい。センサの姿勢（例えば、位置および配向）が、センサを含むデバイスが移動されるにつれて追跡されてもよい。センサのフレーム姿勢およびそれが他の姿勢とどのように関連するかが、把握されるにつれて、物理的世界のこれらの複数の視点はそれぞれ、物理的世界の単一の組み合わせられた再構築の中にともに融合されてもよく、これは、マップのための抽象層としての役割を果たし、空間情報を提供し得る。再構築は、空間および時間的平均（すなわち、経時的に複数の視点からのデータの平均）または任意の他の好適な方法を使用することによって、オリジナルセンサデータより完全かつ雑音が少なくなり得る。

図１に図示される実施形態では、マップ（例えば、追跡マップ）は、その中に単一ウェアラブルデバイスのユーザが存在する、物理的世界の一部を表す。そのシナリオでは、マップ内のフレームと関連付けられる頭部姿勢は、セッションの開始時における単一デバイスに関する初期配向に対する配向を示す、ローカル頭部姿勢として表されてもよい。例えば、頭部姿勢は、デバイスが、オンにされた、または別様に、環境を走査し、その環境の表現を構築するように動作されたときの、初期頭部姿勢に対して追跡されてもよい。

物理的世界のその部分を特徴付けるコンテンツと組み合わせて、マップは、メタデータを含んでもよい。メタデータは、例えば、マップを形成するために使用されるセンサ情報の捕捉時間を示してもよい。メタデータは、代替として、または加えて、マップを形成するために使用される情報の捕捉時間におけるセンサの場所を示してもよい。場所は、直接、ＧＰＳチップからの情報等を用いて、または間接的に、センサデータが収集されていた間の１つ以上の無線アクセスポイントから受信された信号の強度を示す、Ｗｉ－Ｆｉシグネチャ等を用いて、および／またはセンサデータが収集された間にそれに対してユーザデバイスが接続した無線アクセスポイントのＢＳＳＩＤを用いて、表されてもよい。

再構築１１８は、オクルージョン処理または物理学ベースの処理のための物理的世界の表面表現の生産等、ＡＲ機能のために使用されてもよい。本表面表現は、ユーザが移動する、または物理的世界内のオブジェクトが変化するにつれて、変化してもよい。再構築１１８の側面は、例えば、他のコンポーネントによって使用され得る、世界座標内の変化するグローバル表面表現を生産する、コンポーネント１２０によって使用されてもよい。

ＡＲコンテンツは、本情報に基づいて、ＡＲアプリケーション１０４等によって生成されてもよい。ＡＲアプリケーション１０４は、例えば、視覚的オクルージョン、物理学ベースの相互作用、および環境推測等の物理的世界についての情報に基づいて、１つ以上の機能を実施する、ゲームプログラムであってもよい。これは、世界再構築コンポーネント１１６によって生産された再構築１１８から異なるフォーマットにおけるデータにクエリすることによって、これらの機能を実施してもよい。いくつかの実施形態では、コンポーネント１２０は、物理的世界の着目領域内の表現が変化すると、更新を出力するように構成されてもよい。その着目領域は、例えば、ユーザの視野内の一部等、システムのユーザの近傍内の物理的世界の一部に近似するように設定される、またはユーザの視野内に入るように投影（予測／決定）されてもよい。

ＡＲアプリケーション１０４は、本情報を使用して、ＡＲコンテンツを生成および更新してもよい。ＡＲコンテンツの仮想部分は、シースルー現実１１０と組み合わせて、ディスプレイ１０８上に提示され、現実的ユーザ体験を作成してもよい。

図２は、パス可能世界モデルを維持する、ＡＲシステム２００のコンポーネントを図示する、概略図である。パス可能世界モデルは、物理的世界内の実オブジェクトのデジタル表現である。パス可能世界モデルは、物理的世界内の実オブジェクトの変化を記憶および更新されることができる。パス可能世界モデルは、画像、特徴、指向性オーディオ入力、または他の所望のデータと組み合わせて、記憶システム内に記憶されることができる。パス可能世界モデルは、図１における世界再構築コンポーネント１１６によって、再構築１１８を生成するために使用されることができる。

いくつかの実装では、パス可能世界モデルは、ユーザ間で容易に共有され、アプリケーションを含む、コンポーネント間に分散され得るように表され得る。物理的世界についての情報は、例えば、持続的座標フレーム（ＰＣＦ）として表されてもよい。ＰＣＦは、物理的世界内で認識された特徴を表す、１つ以上の点に基づいて定義されてもよい。特徴は、それらがＸＲシステムのユーザセッション毎に同一である可能性が高いように選択されてもよい。ＰＣＦは、それらが効率的に処理および転送され得るように、空間内の１つ以上の点（例えば、角、縁）に基づいて、疎らに定義され、物理的世界についての利用可能な情報の全て未満を提供してもよい。ＰＣＦは、マップ座標系に対する平行移動および回転を伴う、６自由度を備えてもよい。

ＡＲシステム２００は、パス可能世界コンポーネント２０２と、オペレーティングシステム（ＯＳ）２０４と、ＡＰＩ２０６と、ＳＤＫ２０８と、アプリケーション２１０とを含んでもよい。ＯＳ２０４は、ＡＲデバイス、例えば、ＬｕｍｉｎＯＳと互換性があるカスタムドライバを伴う、Ｌｉｎｕｘ（登録商標）ベースのカーネルを含んでもよい。ＡＰＩ２０６は、ＡＲアプリケーション（例えば、アプリケーション２１０）にＡＲデバイスの空間コンピューティング特徴へのアクセスを与える、アプリケーションプログラミングインターフェースを含んでもよい。ＳＤＫ２０８は、ＡＲアプリケーションの作成を可能にする、ソフトウェア開発キットを含んでもよい。

パス可能世界コンポーネント２０２は、パス可能世界モデルを作成および維持することができる。本実施例では、センサデータが、ローカルデバイス上で収集される。そのセンサデータの処理は、部分的に、ＸＲデバイス上においてローカルで、部分的に、クラウド内で実施されてもよい。いくつかの実施形態では、そのセンサデータの処理は、ＸＲデバイス上でのみ、またはクラウド内でのみ、実施されてもよい。パス可能世界モデルは、少なくとも部分的に、複数のユーザによって装着されるＡＲデバイスによって捕捉されたデータに基づいて作成される、環境マップを含んでもよい。

パス可能世界コンポーネント２０２は、パス可能世界フレームワーク（ＦＷ）２２０と、記憶システム２２８と、複数の空間算出コンポーネント２２２とを含む。

パス可能世界フレームワーク２２０は、パス可能世界のモデルを作成および維持するようにプログラムされる、コンピュータ実装アルゴリズムを含むことができる。パス可能世界フレームワーク２２０は、パス可能世界モデルを記憶システム２２８内に記憶する。例えば、パス可能世界フレームワークは、現在のパス可能世界モデルおよびセンサデータを記憶システム２２８内に記憶することができる。パス可能世界フレームワーク２２０は、空間算出コンポーネント２２２を呼び出すことによって、パス可能世界モデルを作成および更新する。例えば、パス可能世界フレームワークは、オブジェクト認識装置２３２をトリガし、３－Ｄオブジェクト認識を実施することによって、場面内のオブジェクトの３－Ｄ境界ボックスを取得することができる。

空間算出コンポーネント２２２は、場面の３－Ｄ空間内の算出を実施し得る、複数のコンポーネントを含む。例えば、空間算出コンポーネント２２２は、オブジェクト認識システム（「オブジェクト認識装置」とも呼ばれる）２３２、疎マッピングシステム、稠密マッピングシステム、およびマップマージシステム等を含むことができる。空間算出コンポーネント２２２は、パス可能世界モデルを作成または更新するために使用され得る、出力を生成することができる。例えば、オブジェクト認識システムは、ＡＲデバイスのセンサによって捕捉された画像のストリーム内で認識されている１つ以上のオブジェクトの１つ以上の３－Ｄ境界ボックスを規定する、出力データを生成することができる。

記憶システム２２８は、複数のＡＲデバイスから入手されたパス可能世界モデルおよびセンサデータを１つ以上のデータベース内に記憶することができる。記憶システムは、センサデータおよび既存のパス可能世界モデル、例えば、場面内で認識されているオブジェクトを、パス可能世界ＦＷ２２０内のアルゴリズムに提供することができる。新しく入手されたセンサデータに基づいて、更新されたパス可能世界モデルを算出後、記憶システム２２８は、更新されたパス可能世界モデルをパス可能世界ＦＷ２２０から受信し、更新されたパス可能世界モデルをデータベース内に記憶することができる。

いくつかの実装では、パス可能世界コンポーネント２０２の一部または全部のコンポーネントは、クラウドコンピューティング環境２３４内の複数のコンピュータまたはコンピュータシステム内に実装されることができる。クラウドコンピューティング環境２３４は、ＡＲシステム２００の場所と異なる場所に物理的に位置し得る、分散型スケーラブル算出リソースを有する。クラウドコンピューティング環境２３４内の複数のコンピュータまたはコンピュータシステムは、フレキシブルな量の記憶および算出能力を提供することができる。クラウドコンピューティング環境を使用して、ＡＲシステム２００は、複数のユーザデバイスおよび／または大量の物理的オブジェクトを含む環境を伴う、スケーラブルなＡＲアプリケーション２１０を提供することができる。

いくつかの実装では、クラウド記憶システム２３０は、世界モデルと、センサデータとを記憶することができる。クラウド記憶システム２３０は、スケーラブル記憶容量を有することができ、種々の量の記憶の必要性に適合することができる。例えば、クラウド記憶システム２３０は、最近捕捉されたセンサデータをローカル記憶システム２２８から受信することができる。ますます多くのセンサデータがＡＲデバイスのセンサによって捕捉されるにつれて、大記憶容量を有する、クラウド記憶システム２３０は、最近捕捉されたセンサデータを収容することができる。クラウド記憶システム２３０およびローカル記憶システム２２８は、同一世界モデルを記憶することができる。いくつかの実装では、環境の完全世界モデルは、クラウド記憶システム２３０上に記憶されることができる一方、現在のＡＲアプリケーション２１０に関連する、パス可能世界モデルの一部は、ローカル記憶システム２２８上に記憶されることができる。

いくつかの実装では、空間算出コンポーネント２２２のうちのいくつかは、クラウドコンピューティング環境２３４内で実行されることができる。例えば、オブジェクト認識装置２２４、コンピュータビジョンアルゴリズム２２６、マップマージ、および多くの他の種類の空間算出コンポーネントは、クラウド内で実装および実行されることができる。クラウドコンピューティング環境２３４は、よりスケーラブルかつより強力なコンピュータおよびコンピュータシステムを提供し、これらの空間算出コンポーネントの算出必要性をサポートすることができる。例えば、オブジェクト認識装置は、ＤＮＮモデルを記憶するために、グラフィカル算出ユニット（ＧＰＵ）または他のハードウェアアクセラレータと、大量のランタイムメモリとを使用して、大量の算出を要求する、深層畳み込みニューラルネットワーク（ＤＮＮ）モデルを含んでもよい。クラウドコンピューティング環境は、オブジェクト認識装置の本種類の要件をサポートすることができる。

いくつかの実装では、空間算出コンポーネント、例えば、オブジェクト認識装置は、クラウド記憶システム２３０内に記憶される、センサデータおよび既存の世界モデルを使用しながら、クラウド内で算出を実施することができる。いくつかの実装では、空間算出およびクラウド記憶装置は、クラウド内での効率的算出を有効にするために、同一クラウドコンピュータシステム内に存在することができる。クラウド算出結果、例えば、オブジェクト認識結果は、さらに処理され、次いで、更新されたパス可能世界モデルとして、クラウド記憶システム２３０内に記憶されることができる。

いくつかの実装では、空間算出コンポーネントは、可変量の算出リソースを要求する、複数のサブシステムを含んでもよい。例えば、オブジェクト認識装置２２４は、それぞれ、システム上の現在の負荷に応じて、メモリ、プロセッササイクル、例えば、ＣＰＵまたはＧＰＵサイクル等の異なる量の算出リソースを要求する、複数のサブシステムを含むことができる。

これらのサブシステムは、必要に応じて、スケーリングアップおよびダウンされ得る、ステートレスモジュールとして実装されることができる。ステートレスモジュールは、算出のシーケンスにおける１つ以上の先行状態に依存しない、ステートレスソフトウェアアプリケーションである。各ステートレスモジュールは、算出を状態から分断し、各ステートレスモジュールの入力および出力を通して、状態を管理する。換言すると、ステートレスモジュールは、モジュールが前の入力からの任意の状態を維持することを要求せずに、算出を各入力上で実施することができる。これらのモジュールは、センサデータまたは他の中間データを記憶せずに、その個別の算出ワークロードを実施することができる一方、パス可能世界モデルは、クラウド記憶システム２３０内に記憶される。ステートレスモジュールは、相互から独立して、スケーリングアップまたはスケーリングダウンされることができる。

オブジェクト認識システム（「オブジェクト認識装置」とも呼ばれる）２２４は、オブジェクト認識アルゴリズムを使用して、環境の場面内の複数の３－Ｄオブジェクトのための３－Ｄオブジェクト認識出力を生成することができる。オブジェクト認識システム２２４は、入力として、１つ以上のＡＲデバイスのセンサから入手されたセンサデータをとることができる。各ＡＲデバイスから入手されたセンサデータは、複数のカメラ姿勢からの場面を特性評価する、画像（例えば、カラー画像）のストリームを提供することができる。オブジェクト認識アルゴリズムは、クラウドコンピューティング環境２３４内で起動し得る、複数の独立ステートレスモジュールに分割されることができる。複数のステートレスモジュールは、各モジュールの現在の算出の必要性に応じて、スケーリングアップまたはスケーリングダウンされることができる。スケーラブル３－Ｄオブジェクト認識システムのさらなる詳細は、図３および４に関連して説明される。

図３は、場面内のオブジェクトのための３－Ｄ境界ボックスを生成する、例示的３－Ｄオブジェクト認識システム７００を示す。システム７００は、クラウド環境内で起動する、オブジェクト認識装置２２４の一実施例であることができる。場面７０２の上面図が、左に示される。場面７０２は、ダイニングテーブルと、ダイニングテーブルを囲繞する、４つのダイニング椅子と、長い長椅子、単一ソファと、長い長椅子および単一ソファによって囲繞される、コーヒーテーブルとを含む、いくつかの３－Ｄオブジェクトを有する、居間の場面を描写する。場面７０２の入力画像のストリームは、１つ以上のカメラを使用して捕捉される。

いくつかの実装では、複数のＡＲデバイスからの複数のカメラ（例えば、ＲＧＢ－Ｄ）は、種々のカメラ姿勢から場面のカラー画像および深度画像を生成することができる。例えば、５つのＲＧＢ－Ｄカメラが、場面の情報を取得することができる。各カメラが、居間内を移動するにつれて、各カメラは、一連のタイムスタンプにおいて、画像のストリームを捕捉することができる。特定のタイムスタンプにおいて、５つのカメラのカメラ姿勢７１０、７１２、７１４、７１６、および７１８が、図３に示される。

各カメラ姿勢は、複数の直線を用いて図示され、各直線は、その姿勢から可視の各オブジェクト中心をカメラに接続する。例えば、カメラ姿勢７１０は、ダイニング椅子に接続する、第１の線と、長椅子に接続する、第２の線と、コーヒーテーブルに接続する、第３の線と、単一ソファに接続する、第４の線とを含む。これは、ダイニング椅子、長椅子、コーヒーテーブル、および単一ソファが、本カメラ姿勢から可視であることを意味する。ダイニングテーブルおよび他の３つのダイニング椅子は、本カメラ姿勢から不可視である。

いくつかの実装では、ＲＧＢ－Ｄカメラは、ＡＲデバイスを装着しているユーザが場面内を進行するにつれて、場面のカラー画像のストリームおよび深度画像のストリームを生成することができる。例えば、ＡＲデバイスを装着しているユーザが、居間に進入するにつれて、ＡＲデバイスは、カメラ姿勢７１０および７１２に対応する、複数の画像を捕捉することができる。ユーザが、コーヒーテーブルに向かって歩行するにつれて、ＡＲデバイスは、カメラ姿勢７１４および７１６に対応する、複数の画像を捕捉することができる。最後に、ユーザが、長椅子上に着座すると、ＡＲデバイスは、カメラ姿勢７１８に対応する、複数の画像を捕捉することができる。カメラ姿勢７１０、７１２、７１４、７１６、および７１８から捕捉された画像は、場面７０２の画像のストリームであることができる。

複数のカメラ姿勢によって捕捉された場面７０２の画像のストリームは、場面内の３－Ｄオブジェクトの豊富な３－Ｄ情報を提供することができる。場面の画像のストリームは、オブジェクトのうちのいくつかが、カメラ姿勢のうちのいくつかにおいて、オクルードされる、または不可視であっても、オブジェクト認識出力を生成するために使用されることができる。

いくつかの実施形態では、場面の画像のストリームは、カラー画像のストリームと、深度画像のストリームとを含むことができる。

カラー画像は、カメラによって捕捉された２次元（２－Ｄ）画像またはビデオのフレームである。各２－Ｄ画像は、１つ以上のオブジェクトの色と、物理的世界内のその周囲環境の色とを描写する、ＲＧＢ画像であることができる。カラー画像は、一連の対応するタイムスタンプにおいて捕捉されることができる。カラー画像のタイムスタンプ情報は、カラー画像が捕捉されている日付および時間を記録する。

深度画像は、場面内のオブジェクトの深度情報を捕捉する。深度画像内の強度値は、カメラ姿勢からのオブジェクトの表面の距離を表す。すなわち、画像内の各ピクセルに対する強度値は、深度画像を捕捉したカメラからのそのピクセルにおいて描写される場面内のオブジェクトの距離を表す。深度画像のタイムスタンプ情報は、深度画像が捕捉されている日付および時間を記録する。ＲＧＢ－Ｄカメラは、異なるフレームレートにおいて、またはいくつかの実施形態では、同一フレームレートにおいて、カラー画像のストリームと、深度画像のストリームとを同時に捕捉することができる。

３－Ｄオブジェクト認識システム７０４は、場面７０２の画像のストリームを処理することができ、場面７０２内の１つ以上のオブジェクトの１つ以上の３－Ｄ境界ボックスを規定する、データを生成することができる。３－Ｄオブジェクト認識システム７０４は、パス可能世界モデルを作成および維持する、パス可能世界コンポーネント２０２に属する。場面内の認識されたオブジェクトを規定する、生成された出力データは、パス可能世界モデルを作成および更新するために使用されることができる。

いくつかの実装では、１つ以上のＡＲデバイスは、画像のストリームをクラウドコンピューティング環境２３４に送信することができる。いくつかの実装では、１つ以上のＡＲデバイスは、処理された画像をクラウドコンピューティング環境２３４に送信する前に、事前処理をＡＲデバイス上で実施することができる。

３－Ｄオブジェクト認識システムは、クラウドコンピューティング環境２３４を用いて、スケーラブル３－Ｄオブジェクト認識を実施することができる。３－Ｄオブジェクト認識システムは、複数のサブシステムに分割され得る、３－Ｄオブジェクト認識アルゴリズムを使用することができる。サブシステムは、複数の独立ステートレスモジュール内に実装されることができる。ステートレスモジュールは、必要に応じて、開始、再開、スケーリングアップ、またはスケーリングダウンされることができる。例えば、本システムが、複数のＡＲデバイスから捕捉された大量の入力画像のストリームを処理しているとき、本システムは、入力画像フレームが並列に処理され得るように、ステートレスモジュールをスケーリングアップすることができる。

いくつかの実装では、３－Ｄオブジェクト認識システムは、場面７０２内の複数のオブジェクトの３－Ｄオブジェクト認識を実施し得る、複数のモジュールを開始することができる。複数のモジュールは、並列に、かつ相互から独立して、起動することができる。パス可能世界モデルは、各モジュールの３－Ｄオブジェクト認識出力に基づいて、更新されることができ、場面全体内の全てのオブジェクトの３－Ｄオブジェクト認識出力を待機する必要はない。

例えば、本システムは、単一長椅子のための３－Ｄ境界ボックスを生成するための第１のモジュールを有することができ、本システムは、コーヒーテーブルのための３－Ｄ境界ボックスを生成するための第２のモジュールを有することができる。第１のモジュールおよび第２のモジュールは、異なるオブジェクト、すなわち、単一長椅子およびコーヒーテーブルを処理することができる。したがって、第１のモジュールおよび第２のモジュールは、単一長椅子およびコーヒーテーブルの３－Ｄ境界ボックスを算出するために、必要に応じて、独立して、スケーリングされることができる。３－Ｄオブジェクト認識システムのサブシステムのさらなる詳細は、図４に関連して説明される。

オブジェクトの生成された３－Ｄ境界ボックスは、上面図７０６に示されるように、場面とともにオーバーレイされる。オブジェクトの各３－Ｄ境界ボックスは、オブジェクトを緊密に囲繞する、推定される矩形ボックスである。例えば、矩形ボックス７０８は、コーヒーテーブルの３－Ｄ境界ボックスの上面図である。３－Ｄ境界ボックスは、ボックスの角または他の基準場所の座標、ボックスの幅、高さ、および深度によって規定されることができる。いくつかの実装では、３－Ｄ境界ボックスは、境界ボックスの表面上の固定点に対する基準座標のセット、すなわち、ボックスの角と異なる座標、例えば、アンカポイントを使用して、規定されることができる。

図４は、場面内のオブジェクトのための３－Ｄ境界ボックスをカラー画像のストリームおよび深度画像のストリームから生成する、例示的３－Ｄオブジェクト認識システム８００を図示する。システム８００は、クラウド環境内で起動する、オブジェクト認識装置２２４の一実施例であることができる。システム８００は、場面の入力画像のストリームを受信する。入力画像のストリームは、カラー画像８０２のストリームと、深度画像８０４のストリームとを含む。カラー画像８０２および深度画像８０４は、異なるフレームレートにおける、非同期ストリーム内にあることができる。例えば、カラー画像８０２のストリームは、５フレーム／秒であることができ、深度画像のストリーム８０２は、１フレーム／秒であることができる。カラー画像８０２のストリームおよび深度画像８０４のストリームは、異なる画像分解能であることができる。例えば、カラー画像のストリームは、深度画像のストリームよりはるかに高い分解能を有することができる。

本システムは、入力として、カラー画像のストリーム内の複数のカラー画像のそれぞれをとる。本システムは、カラー画像のストリーム内の各カラー画像を処理してもよい。代替として、本システムは、カラー画像のストリームからある時間インターバルにおいて選択されたカラー画像のサブセットを処理してもよい。すなわち、本システムは、カラー画像のストリーム内の全てのカラー画像を処理しなくてもよい。深度画像のストリームは、本システムがカラー画像を処理している間、一時的に、記憶システム内に記憶されることができる。

各入力カラー画像は、環境の場面をあるカメラ姿勢から捕捉する。例えば、入力カラー画像８０２は、場面７０２の部分的ビューをカメラ姿勢７１０から捕捉し、可視オブジェクトは、場面７０２内の１つのダイニング椅子と、長椅子と、単一ソファと、コーヒーテーブルとを含む。

各入力カラー画像８０２は、オブジェクト認識システムを通して処理される。オブジェクト認識システムは、２－Ｄオブジェクト認識出力を入力カラー画像から生成することができる。２－Ｄオブジェクト認識出力は、カラー画像内で認識されている１つ以上のオブジェクトの各々に対し、カラー画像内の個別のオブジェクトマスクを識別する、データを含むことができる。オブジェクトマスクは、ピクセルがオブジェクトに属するかどうか、すなわち、前景ピクセルであるかまたは背景ピクセルであるかを示し得る、複数のピクセルの値を含むことができる。例えば、コーヒーテーブルのセグメント化マスクの輪郭８０３は、入力カラー画像８０２の上部にオーバーレイされる。輪郭８０３の内側の領域は、コーヒーテーブルオブジェクトに属する、ピクセルを示す。

２－Ｄオブジェクト認識システムは、２－Ｄオブジェクト認識を実施する、１つ以上のコンピュータビジョンアルゴリズムを実装することができる。１つ以上のコンピュータビジョンアルゴリズムは、機械学習ベースのアルゴリズム、例えば、２－Ｄオブジェクトマスクラベルを含む訓練データで事前に訓練されている、機械学習モデルを使用するものを含むことができる。

ＭａｓｋＲｅｇｉｏｎ－ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（Ｒ－ＣＮＮ）（Ｈｅ，Ｋａｉｍｉｎｇ，ｅｔａｌ．“ＭａｓｋＲ－ＣＮＮ．”ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．２０１７）、ＳｉｎｇｌｅＳｈｏｔＤｅｔｅｃｔｏｒ（ＳＳＤ）（ＷｅｉＬｉｕ，ＤｒａｇｏｍｉｒＡｎｇｕｅｌｏｖ，ＤｕｍｉｔｒｕＥｒｈａｎ，ＣｈｒｉｓｔｉａｎＳｚｅｇｅｄｙ，ＳｃｏｔｔＲｅｅｄ，Ｃｈｅｎｇ－ＹａｎｇＦｕ，ａｎｄＡｌｅｘａｎｄｅｒＣ．Ｂｅｒｇ．ＳＳＤ：Ｓｉｎｇｌｅｓｈｏｔｍｕｌｔｉ－ｂｏｘｄｅｔｅｃｔｏｒ．２０１６．）、およびＹＯＬＯＤｅｔｅｃｔｏｒ（Ｊ．Ｒｅｄｍｏｎ，Ｓ．Ｄｉｖｖａｌａ，Ｒ．Ｇｉｒｓｈｉｃｋ，ａｎｄＡ．Ｆａｒｈａｄｉ．Ｙｏｕｏｎｌｙｌｏｏｋｏｎｃｅ：Ｕｎｉｆｉｅｄ，ｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ．Ｉｎ２０１６ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），ｐａｇｅｓ７７９－７８８，Ｊｕｎｅ２０１６）等の種々の２－Ｄオブジェクト認識アルゴリズムが、使用されることができる。

例えば、２－Ｄオブジェクト認識システムは、着目屋内オブジェクト、例えば、椅子、テーブル、ソファ、ＴＶ等を検出する、オブジェクト検出データセット上で訓練されたＭａｓｋＲ－ＣＮＮニューラルネットワークを使用することができる。ＭａｓｋＲ－ＣＮＮは、所定の数のオブジェクトの各々に対し、バイナリマスクを生成することができる。各バイナリオブジェクトマスクは、前景オブジェクトを背景から分離することができる。

いくつかの実装では、オブジェクトが、入力カラー画像内で認識されていない場合、本システムは、カラー画像のストリーム内の複数のカラー画像内の次の入力カラー画像を処理するように進むことができる。

いくつかの実装では、１つ以上のオブジェクトが、入力カラー画像内で認識されている場合、本システムは、タイムスタンプに基づいて、入力カラー画像と深度画像を同期させるように進むことができる。本システムは、その中で少なくとも１つの着目オブジェクトが検出されている、カラー画像のための同期のみを実施してもよい。このように、本システムは、入力カラー画像の多くが着目オブジェクトを有していない場合があるため、必要とされる算出の量を低減させることができる。

入力カラー画像および深度画像のストリーム内の複数の深度画像は、入力として、同期システムに提供される。同期システムは、対応する深度画像のタイムスタンプおよびカラー画像のタイムスタンプに基づいて、カラー画像８０２のための対応する深度画像８０４を決定することができる。いくつかの実装では、複数の深度画像の中から、同期システムは、入力カラー画像８０２に最も近いタイムスタンプを有する、深度画像を識別することができる。タイムスタンプ差異が、ある閾値未満である場合、識別された深度画像は、入力カラー画像８０２と対応する深度画像８０４として承認される。いくつかの実装では、入力カラー画像および深度画像は、複数のＡＲデバイスの異なるカメラから捕捉されることができる。例えば、複数のＡＲデバイスが、居間の深度画像を捕捉する場合、タイムスタンプ情報およびカメラ姿勢に基づいて、本システムは、第１のＡＲデバイスによって捕捉された深度画像を第２のＡＲデバイスによって捕捉された入力カラー画像と対応する深度画像として識別してもよい。

オブジェクトマスクおよび対応する深度画像８０４を識別するデータは、入力として３－Ｄ境界ボックス生成システムに提供される。３－Ｄ境界ボックス生成システムは、オブジェクトマスクおよび対応する深度画像から、入力カラー画像８０２内で認識されている１つ以上のオブジェクトの各々に対し、個別の３－Ｄ境界ボックスを決定することができる。

いくつかの実装では、有効深度値を伴う各２－Ｄ画像座標に対し、本システムは、カラー画像を深度画像に投影することによって、２－Ｄ画像座標を３－Ｄボクセル座標の中に投影することができる。カラー画像内で認識されたオブジェクトのための予測されるバイナリ２－Ｄオブジェクトマスクを前提として、本システムは、３－Ｄオブジェクトマスク内で対応する３－Ｄボクセルを生成することができる。

いくつかの実装では、深度画像は、カラー画像より低い画像分解能を有することができる。例えば、深度画像の分解能は、２００×４００であることができる一方、対応するカラー画像は、８００×１，６００であることができる。カラー画像内の２－Ｄオブジェクトマスクから投影される、３－Ｄボクセルは、深度画像分解能に対応する、より低い分解能を有することができる。これは、後続処理ステップにおいて、算出コストを節約することができる。

例えば、コーヒーテーブルの深度画像８０４および２－Ｄオブジェクトマスク８０３から、３－Ｄ境界ボックス生成システムは、オブジェクトマスク内の各ピクセルに対し、深度値を決定することができる。本システムは、ボクセル８０５によって表される、３－Ｄオブジェクトマスクを生成することができ、各ボクセルは、入力カラー画像内のピクセル場所および対応する深度画像内の対応する深度値から計算されることができる。３－Ｄ境界ボックス生成システムは、３－Ｄオブジェクトマスク８０５に基づいて、コーヒーテーブルの３－Ｄ境界ボックスを決定することができる。

例えば、本システムは、ボクセル表現８０５をセグメント化マスク８０３内の前景ピクセルの場所から計算することができる。２－Ｄ画像座標（ｘ，ｙ）を伴う各前景ピクセルに対し、本システムは、深度画像の対応する深度値およびカメラ姿勢を使用して、画像座標を世界座標フレームの中に投影することができる。世界座標フレームは、事前に決定されることができ、深度画像のカメラ姿勢と同一であることができる。深度画像の分解能に基づいて決定される、ボクセル分解能ｒ（例えば、ｒ＝４ｃｍ）を前提として、世界座標フレーム内の各点は、対応するボクセルに離散化される。これらの変換に基づいて、入力カラー画像内のオブジェクトのための２－Ｄバイナリオブジェクトマスク８０３を前提として、本システムは、バイナリマスクの全ての前景ピクセルを世界座標フレーム内の対応する３－Ｄボクセル８０５に投影することができる。

いくつかの実装では、本システムは、環境内の場面内で以前に認識されている、オブジェクトを規定する、オブジェクトデータを維持することができる。オブジェクトデータは、環境の場面の多視点において以前に認識されている、１つ以上のオブジェクトの３－Ｄ境界ボックスを含むことができる。本システムは、以前に認識されたオブジェクトのオブジェクトデータを記憶システム２３０または２２８内に記憶することができる。

いくつかの実装では、３－Ｄ境界ボックス生成システムは、入力カラー画像内で現在認識されている１つ以上のオブジェクトの近くにある、以前に認識されているオブジェクトを規定する、オブジェクトデータを読み出し、以前に認識されたオブジェクトを規定する、オブジェクトデータを更新することができる。

３－Ｄ境界ボックス生成システムは、マルチビュー融合システムを含むことができる。マルチビュー融合システムは、入力画像のカメラ姿勢において可視８０８である、以前に認識されたオブジェクトの維持されるオブジェクトデータを取得することができる。マルチビュー融合システムは、現在の入力画像内の現在認識されているオブジェクトと以前に認識されたオブジェクトを関連付けることができる。マルチビュー融合システムは、現在認識されているオブジェクトの生成された３－Ｄオブジェクトマスクと、現在認識されているオブジェクトと関連付けられる、以前に認識されたオブジェクトを規定する、維持されるオブジェクトデータとの間の融合８１０を実施することができる。

例えば、マルチビュー融合システムは、現在認識されている３－Ｄオブジェクトマスクと現在の入力画像の近傍内の対応するオブジェクトのための以前に認識された３－Ｄオブジェクトマスクの交差を算出することによって、現在の入力画像内で可視８０８である、オブジェクトを推定することができる。近傍サイズは、所定の値、例えば、現在の入力画像の５メートル半径であることができる。いくつかの実装では、現在認識されている３－Ｄオブジェクトマスクと非ゼロ交差を伴う、全ての以前に認識されたオブジェクトは、可視であるオブジェクトと識別されることができる。例えば、本システムは、コーヒーテーブルの以前に認識された３－Ｄオブジェクトマスク８０７が現在のカメラ姿勢において可視であることを決定することができる。

例えば、現在のカメラ姿勢において可視である、以前に認識されたオブジェクト８０８をロード後、マルチビュー融合システムは、オブジェクト関連付けおよび融合を実施することができる。現在の入力カラー画像８０２内で認識された８０６内の各３－Ｄオブジェクトマスクに対し、本システムは、２つのマスクの相対的距離に基づいて、以前に認識されたオブジェクトのオブジェクトマスクが存在するかどうかを決定することができる。例えば、本システムは、３－Ｄオブジェクトマスク８０７が認識されたコーヒーテーブルの３－Ｄオブジェクトマスク８０５と関連付けられることを決定することができる。本システムは、２つのオブジェクトマスクの合体を計算することによって、更新された３－Ｄオブジェクトマスク８０９を生成することができる。本実施例では、２つのオブジェクトマスクの合体を計算することによって、本システムは、２つのオブジェクトマスクの融合を実施することができる。

カラー画像のストリーム内の複数の画像の各画像を処理後、本システムは、場面内の１つ以上の認識されたオブジェクトの１つ以上の３－Ｄ境界ボックスを規定する、データを含む、最終出力８１２を生成することができる。例えば、本システムは、居間内のコーヒーテーブルのための３－Ｄ境界ボックス８１４を出力することができる。

３－Ｄオブジェクト検出システムは、全ての入力カラー画像に対し、例えば、各フレーム上で、独立して、３－Ｄオブジェクト認識を起動することができる。本システムは、全ての入力カラー画像を異なるステートレスモジュール上で並列に処理することができる。いくつかの実装では、本システムは、オブジェクトレベルロック／ロック解除方法を使用して、同一オブジェクトが異なるモジュールによって同時に更新されないことを確実にすることができる。

例えば、本システムが、以前に認識されたコーヒーテーブル８０７が現在のカメラ姿勢において存在することを決定後、本システムは、記憶システム内に記憶される以前に認識されたコーヒーテーブルの情報をロックしながら、現在の入力画像内で認識された３－Ｄオブジェクトマスクとのオブジェクト関連付けおよび融合８１０を実施することができる。これは、並列に起動する他のモジュールによって、コーヒーテーブルが更新されないことを確実にすることができる。

１つ以上の３－Ｄ境界ボックス８１２が、パス可能世界のモデルを作成および維持する、パス可能世界コンポーネント２０２に提供されることができる。パス可能世界コンポーネントは、直接、１つ以上の３－Ｄ境界ボックスをパス可能世界モデル内で使用することができる。代替として、または組み合わせて、パス可能世界コンポーネントはさらに、新しいまたは更新されたパス可能世界モデルを生成するために、１つ以上の３－Ｄ境界ボックスを処理することができる。

図５は、場面の入力画像のストリームからの３－Ｄオブジェクト認識結果を算出するための例示的プロセス９００のフローチャートである。プロセスは、適切にプログラムされたＡＲシステム２００によって実施されるものとして説明されるであろう。プロセス９００は、クラウドコンピューティング環境２３４内で実施されることができる。いくつかの実装では、プロセス９００内のいくつかの算出は、ローカルＡＲデバイスがクラウドに接続される間、パス可能世界コンポーネント２０２内のローカルＡＲデバイス内で行われることができる。

本システムは、環境内の場面内で認識されているオブジェクトを規定する、オブジェクトデータを維持する（９０２）。場面は、小領域または大面積、例えば、部屋、建物の階、または都市程の大きさ等のいずれかを含むことができる。場面内のオブジェクトは、３－Ｄ実世界オブジェクトを含むことができる。オブジェクトは、定常オブジェクトまたは移動オブジェクトであることができる。認識されているオブジェクトを規定する、オブジェクトデータは、場面内のオブジェクトの以前に計算された３－Ｄ境界ボックスまたは３－Ｄオブジェクトマスクを含むことができる。本システムは、オブジェクトデータを、ＡＲデバイス上、またはクラウド内の一方、または両方であり得る、記憶システム内に記憶することによって、オブジェクトデータを維持することができる。本システムによって維持されるオブジェクトデータは、１つ以上のＡＲデバイスによって収集された環境の場面の画像を使用して、更新されることができる。

本システムは、場面の入力画像のストリームを受信する（９０４）。入力画像のストリームは、カラー画像のストリームと、深度画像のストリームとを含むことができる。入力画像のストリームは、場面を１つ以上のカメラ姿勢から捕捉する、１つ以上のＡＲデバイスからのものであることができる。いくつかの実装では、ＡＲデバイスは、ＡＲデバイスのユーザが場面内を進行する間、入力画像のストリームを捕捉することができる。入力画像のストリームは、対応するカメラ姿勢情報を含むことができる。カメラ姿勢は、カメラ姿勢を周囲環境の座標系に対して前後、上下、左右に変化させるための自由度を含む、６自由度（６ＤＯＦ）を含むことができる。

いくつかの実装では、環境を共有する、１つ以上のＡＲデバイスは、クラウドコンピューティング環境２３４に接続される。１つ以上のＡＲデバイスは、収集されたカメラ画像をクラウドに送信することができる。本システムは、クラウド内の画像のストリームを使用して、１つ以上のオブジェクトを認識することができる。

カラー画像のストリーム内の複数のカラー画像の各々に対し、本システムは、カラー画像を入力としてオブジェクト認識システムに提供する（９０６）。例えば、本システムは、各カラー画像を２－Ｄセグメント化モジュールにパスすることができ、これは、着目オブジェクトのためのオブジェクトセグメント化を実施することができる。２－Ｄセグメント化モジュールは、椅子、テーブル、ソファ、ポスタ、ＴＶ画面等のためのセグメント化マスクを生成することができる。

本システムは、同一オブジェクトの種々のビューを捕捉する、入力画像を、オブジェクト認識システムに提供することができる。オブジェクト認識システムは、同一オブジェクトの２－Ｄセグメント化マスクを種々のビューから生成することができる。例えば、本システムの２－Ｄセグメント化モジュールは、同一椅子の左側ビュー、右側ビュー、正面ビュー、および背面ビューから、椅子のための４つのセグメント化マスクを生成することができる。異なるビューからのセグメント化マスクを有することで、本システムは、後に、着目オブジェクトのより完全な３－Ｄオブジェクト認識出力を生成することができる。

本システムは、オブジェクト認識システムからの出力として、カラー画像内で認識されている１つ以上のオブジェクトの各々に対し、カラー画像内の個別のオブジェクトマスクを識別する、認識出力を受信する（９０８）。いくつかの実装では、オブジェクト認識システムは、訓練された深層ニューラルネットワーク（ＤＮＮ）モデルを含むことができる。ＤＮＮモデルは、カラー画像を入力としてとることができ、カラー画像内で認識されている１つ以上のオブジェクトの各々に対し、個別の２－Ｄオブジェクトマスクを生成することができる。各オブジェクトマスクは、入力カラー画像の対応するカメラ姿勢からのオブジェクトのサイズおよび形状を特性評価することができる。

本システムは、カラー画像および深度画像のストリーム内の複数の深度画像を入力として同期システムに提供する（９１０）。同期システムは、対応する深度画像のタイムスタンプおよびカラー画像のタイムスタンプに基づいて、カラー画像のための対応する深度画像を決定することができる。各深度画像またはカラー画像は、画像が捕捉されている日付および時間を説明する、タイムスタンプを有する。深度画像およびカラー画像のタイムスタンプ情報は、深度画像のストリームとカラー画像のストリームとの間の時間関係を示すことができる。

いくつかの実装では、同期システムは、カラー画像のタイムスタンプに最も近いタイムスタンプを有する、候補深度画像を識別することができる。同期システムは、候補深度画像とカラー画像との間の時間差が閾値、例えば、１秒未満であることを決定することができる。それに応答して、同期システムは、候補深度画像をカラー画像のための対応する深度画像として決定することができる。本システムが、カラー画像のための対応する深度画像を識別することができない場合、本システムは、そのカラー画像を処理することを停止し、カラー画像のストリーム内の次のカラー画像を処理することを開始することができる。

本システムは、オブジェクトマスクを識別するデータおよび対応する深度画像を入力として３－Ｄ境界ボックス生成システムに提供する（９１４）。３－Ｄ境界ボックス生成システムは、オブジェクトマスクおよび対応する深度画像から、カラー画像内で認識されているオブジェクトのうちの１つ以上のものの各々に対し、個別の３－Ｄ境界ボックスを決定する。

いくつかの実装では、３－Ｄ境界ボックス生成システムは、複数のサブシステムを含むことができる。図６は、例示的３－Ｄ境界ボックス生成システム１０００内のいくつかのサブシステムを図示する、システム図である。３－Ｄ境界ボックス生成システム１０００は、マルチビュー融合システム１００４と、オブジェクト精緻化システム１０１０と、境界ボックス精緻化システム１０１２とを含むことができる。これらのサブシステムは、これらのサブシステムが、ステートレス様式で、相互から独立して動作し得るように、ステートレスモジュールとして実装されることができる。各ステートレスモジュールは、全体的システム性能に影響を及ぼさずに、必要に応じて、独立して、開始、再開、スケーリングアップ、またはスケーリングダウンされることができる。

マルチビュー融合システムは、３－Ｄオブジェクトマスクの初期セットを生成することができる。いくつかの実装では、マルチビュー融合システムは、複数のステップを実施し、３－Ｄオブジェクトマスクの初期セットを生成することができる。本システムは、生成されたオブジェクトマスクが深度画像内の１つ以上の有効深度値に対応することを決定することができる。生成されたオブジェクトマスクが深度画像内の１つ以上の有効深度値に対応することの決定に応答して、本システムは、深度カメラの中心からの所定の距離内でカラー画像内で認識されている、近隣のオブジェクトを見出すことができる。深度画像内の対応するピクセルの深度値に基づいて、本システムは、近隣の各オブジェクトに対し、各オブジェクトマスクの３－Ｄボクセル表現を生成することができる。各オブジェクトマスクの３－Ｄボクセル表現は、３－Ｄオブジェクトの３－Ｄセグメント化マスクである。３－Ｄセグメント化マスク内の各ボクセルは、オブジェクトの対応する部分の３－Ｄ座標を表すことができる。

上記に議論されるように、本システムは、環境内の場面内で認識されているオブジェクトを規定する、オブジェクトデータを維持する。本システムは、現在のカメラ姿勢において可視である、以前に認識されたオブジェクトの維持されるオブジェクトデータを見出すことができる。維持されるオブジェクトデータは、以前に認識されたオブジェクトの３－Ｄオブジェクトマスクを含むことができる。いくつかの実装では、各以前に認識されたオブジェクトに対する維持されるオブジェクトデータは、３－Ｄ加重ボクセルおよびカテゴリラベルのセットを含むことができる。例えば、各ボクセルに対する加重の値は、ボクセルが以前に認識されたオブジェクトの一部を表す、尤度を示すことができる。カテゴリラベルは、椅子、ドア、ソファ、ＴＶ等、オブジェクトが属する、クラスを示すことができる。

いくつかの実装では、マルチビュー融合システムは、関連付けシステム１００６と、融合システム１００８とを含むことができる。

関連付けシステム１００６は、現在のカメラ姿勢において可視である、以前に認識されたオブジェクトの維持されるオブジェクトデータから、カラー画像内の現在認識されているオブジェクトのオブジェクトマスクと合致された以前に認識されたオブジェクトを規定する、オブジェクトデータを識別することができる。いくつかの実装では、関連付けシステムは、カラー画像内の認識されたオブジェクトの３－Ｄオブジェクトマスクと、以前に認識されている対応するオブジェクトの維持される３－Ｄオブジェクトマスクを関連付けることができる。

関連付けシステムは、割当問題を解決する、組み合わせ最適化アルゴリズムを使用して、オブジェクト関連付けを実施することができる。例えば、本システムは、Ｈｕｎｇａｒｉａｎｍｅｔｈｏｄ（Ｍｕｎｋｒｅｓ，Ｊａｍｅｓ．“Ａｌｇｏｒｉｔｈｍｓｆｏｒｔｈｅａｓｓｉｇｎｍｅｎｔａｎｄｔｒａｎｓｐｏｒｔａｔｉｏｎｐｒｏｂｌｅｍｓ．”Ｊｏｕｒｎａｌｏｆｔｈｅｓｏｃｉｅｔｙｆｏｒｉｎｄｕｓｔｒｉａｌａｎｄａｐｐｌｉｅｄｍａｔｈｅｍａｔｉｃｓ５，ｎｏ．１（１９５７）：３２－３８）を使用して、現在の入力画像内の検出と以前に認識されたオブジェクトを関連付けることができる。

融合システム１００８は、カラー画像内のオブジェクトマスクと合致されるオブジェクトデータとを組み合わせることによって、カラー画像内の各認識されたオブジェクトに対し、初期３－Ｄオブジェクトマスクを生成することができる。いくつかの実装では、色における認識されたオブジェクトの３－Ｄオブジェクトマスクと以前に認識されたオブジェクトの３－Ｄオブジェクトマスクとの間の関連付けが、見出される場合、本システムは、マスク融合を通して、３－Ｄオブジェクトマスクを更新することができる。例えば、融合システムは、２つの３－Ｄオブジェクトマスク間の重複ボクセルの加重の値を増加させ、オブジェクトの一部を表すこれらのボクセルが増加している尤度を示すことができる。融合システムはまた、新しいボクセルを更新された３－Ｄオブジェクトマスクに追加することができ、これらの新しいボクセルは、２つの３－Ｄオブジェクトマスク間の非重複ボクセルに対応する。

いくつかの実装では、本システムは、カラー画像内の認識されたオブジェクトが、現在のカメラ姿勢において可視である、以前に認識されたオブジェクトの維持されるオブジェクトデータ間に関連付けられる既存のオブジェクトを有していないことを決定することができ、本システムは、３－Ｄオブジェクトマスクを用いて、新しいオブジェクトインスタンスを作成することができ、本システムは、新しいオブジェクトインスタンスを維持されるオブジェクトデータに追加することができる。

マルチビュー融合システム１００４は、入力画像のストリームからの複数の３－Ｄオブジェクトマスク関連付け、融合させることができる。マルチビュー融合システムは、オブジェクトマスクをオブジェクトレベルで生成することができる。各オブジェクトマスクは、独立して、更新されることができ、複数のオブジェクトは、並行して、かつ非同期して、更新されることができる。

例えば、本システムは、並行して、長椅子のオブジェクトマスク８１１およびコーヒーテーブルのオブジェクトマスク８０９を更新することができる。本システムは、１つのマルチビュー融合システムを長椅子のオブジェクトマスクの関連付けおよび融合に作用させることができ、本システムは、非同期して、別のマルチビュー融合システムをコーヒーテーブルのオブジェクトマスクの関連付けおよび融合に作用させることができる。２つのシステムは、並行して、かつ並列に起動することができる。したがって、本システムは、多くの画像および多くのオブジェクトを効率的に処理することができる。

オブジェクト精緻化システム１０１０は、３－Ｄオブジェクトマスクの初期セットを精緻化し、３－Ｄ境界ボックスの初期セットを生成することができる。マルチビュー融合システムによって生成された全ての新しいまたは更新されたオブジェクトに対し、本システムは、新しいまたは更新されたオブジェクトの近傍にある、近隣のオブジェクトを見出すことができる。オブジェクト精緻化システムは、複数の参考文献に従って、複数のオブジェクト精緻化動作を実施することができる。

例えば、本システムは、３－Ｄ接続コンポーネントアルゴリズム（Ｓａｍｅｔ，Ｈ．；Ｔａｍｍｉｎｅｎ，Ｍ．（１９８８）．“ＥｆｆｉｃｉｅｎｔＣｏｍｐｏｎｅｎｔＬａｂｅｌｉｎｇｏｆＩｍａｇｅｓｏｆＡｒｂｉｔｒａｒｙＤｉｍｅｎｓｉｏｎＲｅｐｒｅｓｅｎｔｅｄｂｙＬｉｎｅａｒＢｉｎｔｒｅｅｓ”．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ．１０（４）：５７９．）を使用して、雑音ボクセルを３－Ｄオブジェクトマスクの初期セットから除去することができる。本システムは、十分な数のビューから見えない、ボクセルまたはオブジェクトを除去することができる。本システムは、それらが机およびテーブル等の関連するカテゴリに属する場合、近隣のオブジェクトをマージすることができる。

オブジェクト精緻化動作後、本システムは、精緻化された３－Ｄオブジェクトマスクを３－Ｄ境界ボックスの初期セットに変換することができる。本システムは、選定されたカメラ姿勢に配向される、３－Ｄ直方体境界ボックスを生成することができる。カメラ姿勢は、入力カラー画像のうちの１つのカメラ姿勢と同一であることができる、またはカメラ姿勢は、パス可能世界コンポーネント２０２によって事前に定義されることができる。

境界ボックス精緻化システム１０１２は、３－Ｄ境界ボックスの初期セットを精緻化し、１つ以上の最終３－Ｄ境界ボックス８１２を生成することができる。オブジェクト精緻化システムによって生成された全ての新しいまたは更新された境界ボックスに対し、境界ボックス精緻化システム１０１２は、雑音境界ボックスを除去することができる。境界ボックス精緻化システムは、複数の参考文献に基づいて、複数の境界ボックス精緻化動作を実施することができる。

例えば、本システムは、非最大値抑制アルゴリズム（Ｎｅｕｂｅｃｋ，Ａｌｅｘａｎｄｅｒ，ａｎｄＬｕｃＶａｎＧｏｏｌ．“Ｅｆｆｉｃｉｅｎｔｎｏｎ－ｍａｘｉｍｕｍｓｕｐｐｒｅｓｓｉｏｎ．”１８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＩＣＰＲ’０６）．Ｖｏｌ．３．ＩＥＥＥ，２００６）等のアルゴリズムを通して、同一カテゴリに属する、重複境界ボックスを除去することができる。別の実施例として、本システムは、所与のカテゴリラベルに関してサイズ制約を充足させない、境界ボックスを除去することができる。例えば、本システムは、３０センチメートル長未満である、長椅子として標識される、境界ボックスを除去することができる。

いくつかの実装では、オブジェクト認識システム、同期システム、マルチビュー融合システム、例えば、関連付けシステムおよび融合システム、オブジェクト精緻化システムおよび境界ボックス精緻化システムは、ステートレス様式で、相互から独立して動作することができる。オブジェクト認識タスクを複数のサブシステムに分割することによって、３－Ｄオブジェクト認識システムは、各サブシステムを独立ステートレスモジュール内に実装することができる。各ステートレスモジュールは、全体的システム性能に影響を及ぼさずに、必要に応じて、独立して、開始、再開、スケーリングアップ、またはスケーリングダウンされることができる。

例えば、複数のＡＲデバイスの複数のユーザが、同一オブジェクトを見ている場合、クラウドにおいて受信されている入力画像のフレーム／秒の数は、２－Ｄオブジェクト認識システムの各ステートレスモジュールが２－Ｄオブジェクト検出およびセグメント化を実施するために１秒かかり得るため、２－Ｄオブジェクト認識システムによって生成された出力／秒の数より多い。本システムは、２－Ｄオブジェクト認識を実施する、ステートレスモジュールをスケーリングアップし、本モジュールのスループットが、十分に高く、サブシーケンス処理モジュールをブロックしないことを確実にすることができる。

３－Ｄオブジェクト認識システムは、ＡＲデバイス（またはＡＲデバイスユーザ）の数および環境の場面内のオブジェクトの数においてスケーラブルである。複数のＡＲデバイスが、クラウドコンピューティング環境に接続されることができ、３－Ｄオブジェクト認識のための入力データの複数のストリームにともに寄与することができ、認識された３－Ｄオブジェクトを共有することができる。

本システムは、３－Ｄ境界ボックス生成システムからの出力として、カラー画像内で認識された１つ以上のオブジェクトのための１つ以上の３－Ｄ境界ボックスを規定する、データを受信する（９１６）。いくつかの実装では、本システムはまた、１つ以上の３－Ｄ境界ボックスを規定する、データを、中間３－Ｄ境界ボックスとして、記憶システム内に記憶する。

本システムは、出力として、１つ以上の３－Ｄ境界ボックスを規定する、データを提供する（９１８）。本システムは、１つ以上の３－Ｄ境界ボックスを更新された３－Ｄ境界ボックスとしてクラウド内の記憶システム２３０内に記憶することができる。本システムはまた、直近の３－Ｄ境界ボックスのコピーをＡＲデバイス上の記憶システム２２８内に記憶することができる。本システムは、出力をＡＲシステムのパス可能世界コンポーネント２０２に提供することができる。パス可能世界コンポーネント２０２は、１つ以上の認識されたオブジェクトの１つ以上の３－Ｄ境界ボックスを使用して、複数のＡＲデバイスを横断して共有される、パス可能世界モデルを作成または更新することができる。例えば、１つ以上の３－Ｄ境界ボックスは、パス可能世界モデル内の持続的座標フレーム（ＰＣＦ）を作成または更新するために使用されることができる。

いくつかの実装では、３－Ｄ境界ボックス生成システムは、オブジェクトマスクおよび対応する深度画像から、カラー画像内で認識されている１つ以上のオブジェクトの各々に対し、個別の３－Ｄオブジェクトマスクを決定することができる。本システムは、３－Ｄ境界ボックス生成システムからの出力として、カラー画像内で認識されたオブジェクトのうちの１つ以上のもののための１つ以上の３－Ｄオブジェクトマスクを規定する、データを受信することができる。本システムは、出力として、１つ以上の３－Ｄオブジェクトマスクを規定する、データを提供することができる。パス可能世界モデルは、１つ以上の３－Ｄオブジェクトマスクの情報を含むことができる。いくつかの実装では、本システムは、認識されているオブジェクトの３－Ｄオブジェクトマスクを識別する、３－Ｄメッシュデータを出力することができる。

ＡＲアプリケーションは、３－Ｄオブジェクトマスクに基づく、パス可能世界モデルを使用して、より没入型の体験を有することができる。例えば、双方向ゲームアプリケーションの仮想アシスタントは、パス可能世界モデル内で認識されている椅子上に着座することができる。椅子の３－Ｄメッシュデータを使用して、仮想アシスタントは、椅子の３－Ｄ境界ボックスの上部ではなく、椅子の座面の上に着座し、より没入型の体験を提供する。

図７は、場面内のオブジェクトのための３－Ｄ境界ボックスを入力画像のストリームから生成する、例示的３－Ｄオブジェクト認識システム３００を示す。システム３００は、クラウド環境内で起動する、オブジェクト認識装置２２４の一実施例であることができる。場面の入力画像のストリームは、１つ以上のカメラを使用して、捕捉されることができる。いくつかの実装では、複数のＡＲデバイスからの複数のカメラ（例えば、ＲＧＢカメラ）が、種々のカメラ姿勢からの場面の画像を生成することができる。例えば、カラー画像のストリーム３０２、３０４、および３０６は、オフィス環境の場面を描写することができる。オフィス環境は、モニタ、机、椅子、キーボード、およびマウス等を含む、いくつかの３－Ｄオブジェクトを有することができる。同一キーボード３１４は、３１４（ａ）、３１４（ｂ）および３１４（ｃ）として、入力画像３０２、３０４、および３０６に対応する、３つのカメラ姿勢から捕捉されることができる。各カメラが、環境（例えば、オフィス環境）内で移動するにつれて、各カメラは、一連のカメラ姿勢において、画像のストリームを捕捉することができる。

いくつかの実施形態では、場面の画像のストリームは、カラー画像のストリームを含むことができる。カラー画像のストリームは、カメラによって捕捉された２次元（２－Ｄ）画像またはビデオのフレームを含むことができる。カラー画像のストリームは、あるフレームレートであることができる。例えば、カラー画像のストリームは、５フレーム／秒であることができる。各２－Ｄ画像は、１つ以上のオブジェクトの色および物理的世界内のその周囲環境の色を描写する、ＲＧＢ画像であることができる。各カラー画像は、カラー画像が捕捉されるときのカメラ姿勢を識別する、データと関連付けられる。カメラ姿勢は、カメラ姿勢を周囲環境の座標系に対して前後、上下、左右に変化させるための自由度を含む、６自由度（６ＤＯＦ）を含むことができる。

いくつかの３－Ｄオブジェクトは、暗い、例えば、黒色、または反射性のいずれかであり得る。深度カメラを使用して、黒色または反射性である、これらの３－Ｄオブジェクトの深度画像を捕捉することは、困難であり得る。換言すると、これらの３－Ｄオブジェクトの深度情報は、不良品質を有し得、３－Ｄオブジェクト認識を実施する際に有益ではない場合がある。例えば、キーボードまたはマウスは、黒色であり得、ＲＧＢ－Ｄカメラ内の深度センサは、キーボードまたはマウスの深度情報を捕捉するために十分に良好に機能しない場合がある。

複数のカメラ姿勢によって捕捉された場面の画像のストリームは、深度情報が利用不可能であるときでも、場面内の３－Ｄオブジェクトの豊富な３－Ｄ情報を提供することができる。場面の画像のストリームは、深度情報が完全に利用不可能であり得るが、３－Ｄオブジェクト（例えば、キーボード）のオブジェクト認識出力を生成するために使用されることができる。

３－Ｄオブジェクト認識システム３１０は、場面の画像のストリームを処理することができ、場面内の１つ以上のオブジェクトの１つ以上の３－Ｄ境界ボックスを規定する、データ３１２を生成することができる。例えば、入力画像３０２、３０４、および３０６のストリームから、３－Ｄオブジェクト認識システム３１０は、各画像内の同一キーボード、例えば、キーボード３１４（ａ）、３１４（ｂ）および３１４（ｃ）の２－Ｄ境界ボックスを認識することができる。２－Ｄ境界ボックスに基づいて、３－Ｄオブジェクト認識システム３１０は、キーボードの３－Ｄ境界ボックス３２４を生成することができる。

オブジェクトの各３－Ｄ境界ボックスは、３－Ｄオブジェクトを緊密に囲繞する、推定される矩形ボックスである。例えば、矩形ボックス３２４は、キーボード３１４（ａ）（３１４（ｂ）または３１４（ｃ））の３－Ｄ境界ボックスである。

３－Ｄオブジェクト認識システム３１０は、パス可能世界モデルを作成および維持する、パス可能世界コンポーネント２０２に属する。場面内の認識されたオブジェクトを規定する、生成された出力データ３１２は、パス可能世界モデルを作成および更新するために使用されることができる。

いくつかの実装では、３－Ｄオブジェクト認識システムは、場面内の複数のオブジェクトの３－Ｄオブジェクト認識を実施し得る、複数のモジュールを開始することができるすることができる。複数のモジュールは、並列に、相互から独立して、起動することができる。パス可能世界モデルは、各モジュールの３－Ｄオブジェクト認識出力に基づいて、更新されることができ、場面全体内の全てのオブジェクトの３－Ｄオブジェクト認識出力を待機する必要はない。

例えば、本システムは、キーボード画像３１４（ａ）、３１４（ｂ）および３１４（ｃ）を使用して第１のキーボード３１４のための３－Ｄ境界ボックスを生成するための第１のモジュールを有することができ、本システムは、キーボード画像３１６（ｂ）および３１６（ｃ）を使用して第２のキーボード３１６のための３－Ｄ境界ボックスを生成するための第２のモジュールを有することができる。第１のモジュールおよび第２のモジュールは、異なるオブジェクト、すなわち、第１のキーボードおよび第２のキーボードのためのデータを処理することができる。したがって、第１のモジュールおよび第２のモジュールは、第１のキーボードの３－Ｄ境界ボックス３２４および第２のキーボードの３－Ｄ境界ボックス３２６を算出するために、必要に応じて、独立してスケーリングされることができる。３－Ｄオブジェクト認識システムのサブシステムのさらなる詳細は、図８に関連して説明される。

図８は、場面の入力画像のストリームからの３－Ｄオブジェクト認識結果を算出するための例示的プロセス４００のフローチャートである。プロセスは、適切にプログラムされたＡＲシステム２００によって実施されるものとして説明されるであろう。プロセス４００は、クラウドコンピューティング環境２３４内で実施されることができる。いくつかの実装では、プロセス４００内のいくつかの算出は、ローカルＡＲデバイスがクラウドに接続される間、パス可能世界コンポーネント２０２内のローカルＡＲデバイス内で行われることができる。

本システムは、環境内の場面内で認識されているオブジェクトを規定する、オブジェクトデータを維持する（４０２）。場面は、小領域または大面積、例えば、部屋、建物の階、または都市程の大きさ等のいずれかを含むことができる。場面内のオブジェクトは、３－Ｄ実世界オブジェクトを含むことができる。オブジェクトは、定常オブジェクトまたは移動オブジェクトであることができる。認識されているオブジェクトを規定する、オブジェクトデータは、場面内のオブジェクトの以前に計算された３－Ｄ境界ボックスまたは３－Ｄオブジェクトマスクを含むことができる。本システムは、オブジェクトデータを、ＡＲデバイス上、またはクラウド内の一方、または両方であり得る、記憶システム内に記憶することによって、オブジェクトデータを維持することができる。本システムによって維持されるオブジェクトデータは、１つ以上のＡＲデバイスによって収集された環境の場面の画像を使用して、更新されることができる。本システムは、以前に認識されたオブジェクトのオブジェクトデータを記憶システム２３０または２２８内に記憶することができる。

本システムは、場面の入力画像のストリームを受信する（４０４）。入力画像のストリームは、カラー画像のストリームを含むことができる。入力画像のストリームは、場面を１つ以上のカメラ姿勢から捕捉する、１つ以上のＡＲデバイスからのものであることができる。いくつかの実装では、ＡＲデバイスは、ＡＲデバイスのユーザが場面内を進行する間、入力画像のストリームを捕捉することができる。入力画像のストリームは、対応するカメラ姿勢情報を含むことができる。カメラ姿勢は、カメラ姿勢を前後、上下、左右に変化させるための自由度を含む、６自由度（６ＤＯＦ）を含むことができる。

本システムは、入力画像のストリーム内の各入力画像を処理してもよい。代替として、本システムは、入力画像のストリームからある時間インターバルにおいて選択された入力画像のサブセットを処理してもよい。すなわち、本システムは、入力画像のストリーム内の全ての入力画像を処理しなくてもよい。入力画像のストリームは、本システムがカラー画像を処理している間、一時的に、記憶システム内に記憶されることができる。

場面の複数の入力画像の各々に対し、本システムは、入力画像を入力としてオブジェクト認識システムに提供する（４０６）。例えば、本システムは、各カラー画像をオブジェクト認識システム、例えば、２－Ｄオブジェクト検出モジュールにパスすることができ、これは、キーボードまたはマウス等の着目オブジェクトのために、オブジェクト検出を実施することができる。

本システムは、同一オブジェクトの種々のビューを捕捉する、入力画像を、オブジェクト認識システムに提供することができる。オブジェクト認識システムは、同一オブジェクトの２－Ｄ境界ボックスを種々のビューから生成することができる。例えば、２－Ｄオブジェクト検出モジュールは、同一キーボードの左側ビュー、右側ビュー、および正面ビューから、キーボードのための３つの２－Ｄ境界ボックスを生成することができる。異なるビューからの２－Ｄ境界ボックスを有することで、本システムは、後に、着目オブジェクトのより完全な３－Ｄオブジェクト認識出力を生成することができる。

オブジェクト認識システム、例えば、２－Ｄオブジェクト認識システムは、２－Ｄオブジェクト認識を実施する、１つ以上のコンピュータビジョンアルゴリズムを実装することができる。１つ以上のコンピュータビジョンアルゴリズムは、機械学習ベースのアルゴリズム、例えば、２－Ｄオブジェクト境界ボックスを含む訓練データで事前に訓練されている、機械学習モデルを使用するものを含むことができる。いくつかの実装では、オブジェクト認識システムは、訓練された深層ニューラルネットワーク（ＤＮＮ）モデルを含むことができる。

ＦａｓｔｅｒＲｅｇｉｏｎ－ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（Ｒ－ＣＮＮ）（Ｒｅｎ，Ｓｈａｏｑｉｎｇ，ＫａｉｍｉｎｇＨｅ，ＲｏｓｓＧｉｒｓｈｉｃｋ，ａｎｄＪｉａｎＳｕｎ． “Ｆａｓｔｅｒｒ－ｃｎｎ：Ｔｏｗａｒｄｓｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋｓ．” ＩｎＡｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ，ｐｐ．９１－９９．２０１５），ａＳｉｎｇｌｅＳｈｏｔＤｅｔｅｃｔｏｒ（ＳＳＤ）（ＷｅｉＬｉｕ，ＤｒａｇｏｍｉｒＡｎｇｕｅｌｏｖ，ＤｕｍｉｔｒｕＥｒｈａｎ，ＣｈｒｉｓｔｉａｎＳｚｅｇｅｄｙ，ＳｃｏｔｔＲｅｅｄ，Ｃｈｅｎｇ－ＹａｎｇＦｕ，ａｎｄＡｌｅｘａｎｄｅｒＣ．Ｂｅｒｇ．ＳＳＤ：Ｓｉｎｇｌｅｓｈｏｔｍｕｌｔｉ－ｂｏｘｄｅｔｅｃｔｏｒ．２０１６．）、およびＹＯＬＯＤｅｔｅｃｔｏｒ（Ｊ．Ｒｅｄｍｏｎ，Ｓ．Ｄｉｖｖａｌａ，Ｒ．Ｇｉｒｓｈｉｃｋ，ａｎｄＡ．Ｆａｒｈａｄｉ．Ｙｏｕｏｎｌｙｌｏｏｋｏｎｃｅ：Ｕｎｉｆｉｅｄ，ｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ．Ｉｎ２０１６ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），ｐａｇｅｓ７７９－７８８，Ｊｕｎｅ２０１６．）等の種々の２－Ｄオブジェクト認識アルゴリズムが、使用されることができる。

例えば、２－Ｄオブジェクト認識システムは、例えば、椅子、テーブル、水瓶、キーボード、書籍、マウス等の着目屋内オブジェクトを検出する、オブジェクト検出データセット上で訓練されたＦａｓｔｅｒＲ－ＣＮＮニューラルネットワークモデルを使用することができる。ＦａｓｔｅｒＲ－ＣＮＮは、所定の数のオブジェクトの各々に対し、境界ボックスを生成することができる。各オブジェクト境界ボックスは、場面内で認識されているオブジェクトの場所を示すことができる。

本システムは、オブジェクト認識システムからの出力として、入力画像内で認識されている１つ以上のオブジェクトの各々に対し、入力画像内の個別の境界ボックスを識別する、認識出力を受信する（４０８）。

本システムは、境界ボックスを識別するデータを入力として３－Ｄ境界ボックス生成システムに提供する（４１０）。いくつかの実装では、オブジェクトが、入力カラー画像内で認識されていない場合、本システムは、入力画像のストリーム内の複数の入力画像内の次の入力カラー画像を処理するように進むことができる。本システムは、その中で少なくとも１つの着目オブジェクトが検出されている、入力画像のための３－Ｄ境界ボックス生成のみを実施してもよい。このように、本システムは、入力画像の多くが着目オブジェクトを有していない場合があるため、必要とされる算出の量を低減させることができる。

３－Ｄ境界ボックス生成システムは、オブジェクトデータおよび境界ボックスから、入力画像内で認識されているオブジェクトのうちの１つ以上のものの各々に対し、個別の３－Ｄ境界ボックスを決定する。いくつかの実装では、３－Ｄ境界ボックス生成システムは、複数のサブシステムを含むことができる。いくつかの実装では、３－Ｄ境界ボックス生成システムは、マルチビュー融合システムと、境界ボックス精緻化システムとを含むことができる。マルチビュー融合システムは、３－Ｄ境界ボックスの初期セットを生成することができる。境界ボックス精緻化システムは、３－Ｄ境界ボックスの初期セットを精緻化し、１つ以上の３－Ｄ境界ボックスを生成することができる。

マルチビュー融合システムは、３－Ｄオブジェクト境界ボックスの初期セットを生成することができる。いくつかの実装では、マルチビュー融合システムは、入力画像内で現在認識されている１つ以上のオブジェクトの近くにある、以前に認識されているオブジェクトを規定する、オブジェクトデータを読み出し、以前に認識されたオブジェクトを規定する、オブジェクトデータを更新することができる。

いくつかの実装では、マルチビュー融合システムは、複数のステップを実施し、３－Ｄオブジェクト境界ボックスの初期セットを生成する、楕円体適合アルゴリズム（ＲｕｂｉｎｏＣ，ＣｒｏｃｃｏＭ，ＤｅｌＢｕｅＡ．３ＤＯｂｊｅｃｔＬｏｃａｌｉｓａｔｉｏｎｆｒｏｍＭｕｌｔｉ－ｖｉｅｗＩｍａｇｅＤｅｔｅｃｔｉｏｎｓ．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ．２０１７Ｍａｙ４；４０（６）：１２８１－９４）を使用することができる。楕円体適合アルゴリズムは、多視点における２－Ｄオブジェクト検出境界ボックスに適合する２－Ｄ楕円体のセットを前提として、３－Ｄにおける楕円体の推定を生成することができる。

楕円体適合アルゴリズムを用いることで、本システムは、各境界ボックスと近隣の既存のオブジェクト境界ボックスを関連付けることができる。入力画像内で現在識別されている各２－Ｄ境界ボックスに対し、本システムは、入力画像内で現在識別されている各２－Ｄ境界ボックスが、維持されるオブジェクトデータ内で以前に認識されているオブジェクトの１つ以上の２－Ｄ境界ボックスと関連付けられるかどうかを決定することができる。本システムは、境界ボックス間の距離を比較することによって、境界ボックスを関連付けることができる。例えば、本システムは、キーボード３１４（ａ）の以前に認識された２－Ｄ境界ボックスが、キーボード３１４（ｂ）の現在認識されている２－Ｄ境界ボックスの近傍、例えば、１０ｃｍ範囲内にあることを決定することができる。本システムは、次いで、キーボード３１４（ｂ）の２－Ｄ境界ボックスと維持されるオブジェクトデータ内のキーボード３１４（ａ）の２－Ｄ境界ボックスを関連付けることができる。

本システムが、入力画像内で現在識別されている２－Ｄ境界ボックスが以前に認識されているオブジェクトの１つ以上の２－Ｄ境界ボックスと関連付けられることを決定する場合、本システムは、以前に認識されたオブジェクトの維持されるオブジェクトデータを計算および更新することができる。いくつかの実装では、維持されるオブジェクトデータは、１つ以上の以前に認識された２－Ｄ境界ボックスに最良適合する、楕円体を含むことができる。本システムは、入力画像内で現在識別されている２－Ｄ境界ボックスと１つ以上の以前に認識された２－Ｄ境界ボックスの両方に最良適合する、楕円体を再計算することができる。例えば、本システムは、画像３０６内で現在識別されているキーボード３１４（ｃ）の２－Ｄ境界ボックスがキーボード３１４（ａ）および３１４（ｂ）の２－Ｄ境界ボックスと関連付けられることを決定することができる。本システムは、３つの異なるカメラ姿勢において検出されたキーボード３１４（ａ）、３１４（ｂ）および３１４（ｃ）のための２－Ｄ境界ボックスに最良適合する、更新された３－Ｄ楕円体を生成することができる。

本システムが、入力画像内で現在識別されている２－Ｄ境界ボックスが以前に認識されているオブジェクトと関連付けられないことを決定する場合、本システムは、楕円体を入力画像内で現在識別されている少なくとも２－Ｄ境界ボックスから生成することによって、新しいオブジェクトを作成することができる。本システムは、新しいオブジェクトを維持されるオブジェクトデータに追加することができる。いくつかの実装では、本システムは、ＲＡＮＳＡＣループ（ＦｉｓｃｈｌｅｒＭＡ，ＢｏｌｌｅｓＲＣ．Ｒａｎｄｏｍｓａｍｐｌｅｃｏｎｓｅｎｓｕｓ：ａｐａｒａｄｉｇｍｆｏｒｍｏｄｅｌｆｉｔｔｉｎｇｗｉｔｈａｐｐｌｉｃａｔｉｏｎｓｔｏｉｍａｇｅａｎａｌｙｓｉｓａｎｄａｕｔｏｍａｔｅｄｃａｒｔｏｇｒａｐｈｙ．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ．１９８１Ｊｕｎ１；２４（６）：３８１－９５）内で複数の近隣のフレームから生成された２－Ｄ境界ボックスに最良適合する、楕円体を生成することによって、新しいオブジェクトを作成することができる。

本システムは、入力画像内で認識されているオブジェクトの楕円体を使用して、３－Ｄ境界ボックスの初期セットを生成することができる。例えば、入力画像内で認識されたオブジェクトのために生成された各３－Ｄ楕円体に対し、本システムは、緊密に適合する重力整合された３－Ｄ境界ボックスを、オブジェクトの初期３－Ｄ境界ボックスであり得る、楕円体から生成することができる（ＲｕｂｉｎｏＣ，ＣｒｏｃｃｏＭ，ＤｅｌＢｕｅＡ．３ＤＯｂｊｅｃｔＬｏｃａｌｉｓａｔｉｏｎｆｒｏｍＭｕｌｔｉ－ｖｉｅｗＩｍａｇｅＤｅｔｅｃｔｉｏｎｓ．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ．２０１７Ｍａｙ４；４０（６）：１２８１－９４）。楕円体のメッシュ点が、行列の固有ベクトルおよび固有値を算出することによって、楕円体行列を前提として抽出されることができる、楕円体のメッシュ点は、既知の重力方向に基づいて、Ｘ－Ｙ平面に投影されることができる。最も緊密に適合する２－Ｄ境界ボックスが、Ｘ－Ｙ平面において算出されることができる。最も緊密に適合する２－Ｄ境界ボックスは、Ｚ軸におけるメッシュ点の既知の範囲に基づいて、Ｚ軸において延在されることができ、これは、緊密に適合する重力整合された３－Ｄ境界ボックスをもたらし得る。

いくつかの実装では、マルチビュー融合システムは、３－Ｄオブジェクト境界ボックスをオブジェクトレベルにおいて生成することができる。各オブジェクト境界ボックスは、独立して更新されることができ、複数のオブジェクトが、並行して、かつ非同期して、更新されることができる。例えば、本システムは、並行して、第１のキーボード３１４の３－Ｄオブジェクト境界ボックス３２４と、第２のキーボード３１６の３－Ｄオブジェクト境界ボックス３２６とを更新することができる。本システムは、１つのマルチビュー融合システムを第１のキーボードのオブジェクト境界ボックスの作成および更新に作用させることができ、本システムは、非同期して、別のマルチビュー融合システムを第２のキーボードのオブジェクト境界ボックスの作成および更新に作用させることができ。２つのシステムは、並行して、かつ並列に、起動することができる。したがって、本システムは、多数のオブジェクトのための多数の画像およびデータを効率的に処理することができる。

いくつかの実装では、本システムは、オブジェクトレベルロック／ロック解除方法を使用して、同一オブジェクトが異なるモジュールによって同時に更新されないことを確実にすることができる。例えば、本システムが、維持されるオブジェクトデータ内の入力画像３０２から以前に認識されたキーボード３１４（ａ）が存在することを決定後、本システムは、記憶システム内に記憶される以前に認識されたキーボード３１４の情報をロックしながら、入力画像３０４内で現在認識されているキーボード３１４（ｂ）の２－Ｄオブジェクト境界ボックスとのマルチビュー融合を実施することができる。これは、キーボード３１４が並列に起動する他のモジュールによって更新されないことを確実にすることができる。

境界ボックス精緻化システムは、３－Ｄ境界ボックス生成システムのサブシステムであることができる。境界ボックス精緻化システムは、３－Ｄ境界ボックスの初期セットを精緻化することができ、１つ以上の最終３－Ｄ境界ボックスを生成することができる。マルチビュー融合システムによって生成された全ての新しいまたは更新された境界ボックスに対し、境界ボックス精緻化システムは、雑音または重複境界ボックスを除去することができる。境界ボックス精緻化システムは、複数の参考文献に基づいて、複数の境界ボックス精緻化動作を実施することができる。

例えば、本システムは、非最大値抑制アルゴリズム（（Ｎｅｕｂｅｃｋ，Ａｌｅｘａｎｄｅｒ，ａｎｄＬｕｃＶａｎＧｏｏｌ． “Ｅｆｆｉｃｉｅｎｔｎｏｎ－ｍａｘｉｍｕｍｓｕｐｐｒｅｓｓｉｏｎ．” １８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＩＣＰＲ’０６）．Ｖｏｌ．３．ＩＥＥＥ，２００６）等のアルゴリズムを通して、同一カテゴリに属する、重複境界ボックスを除去することができる。別の実施例として、本システムは、所与のカテゴリラベルに関してサイズ制約を充足させない、境界ボックスを除去することができる。例えば、本システムは、５センチメートル長未満である、キーボードとして標識される、境界ボックスを除去することができる。

いくつかの実装では、オブジェクト認識システム、マルチビュー融合システム、および境界ボックス精緻化システムは、ステートレス様式で、相互から独立して動作することができる。オブジェクト認識タスクを複数のサブシステムに分割することによって、３－Ｄオブジェクト認識システムは、各サブシステムを独立ステートレスモジュール内に実装することができる。各ステートレスモジュールは、全体的システム性能に影響を及ぼさずに、必要に応じて、独立して、開始、再開、スケーリングアップ、またはスケーリングダウンされることができる。

本システムは、３－Ｄ境界ボックス生成システムからの出力として、入力画像内で認識された１つ以上のオブジェクトのための１つ以上の３－Ｄ境界ボックスを規定する、データを受信する（４１２）。いくつかの実装では、本システムはまた、１つ以上の３－Ｄ境界ボックスを規定する、データを、中間３－Ｄ境界ボックスとして、記憶システム内に記憶する。

本システムは、出力として、１つ以上の３－Ｄ境界ボックスを規定する、データを提供する（４１４）。本システムは、１つ以上の３－Ｄ境界ボックスを更新された３－Ｄ境界ボックスとしてクラウド内の記憶システム２３０内に記憶することができる。本システムはまた、直近の３－Ｄ境界ボックスのコピーをＡＲデバイス上の記憶システム２２８内に記憶することができる。本システムは、出力をＡＲシステムのパス可能世界コンポーネント２０２に提供することができる。

パス可能世界コンポーネント２０２は、１つ以上の認識されたオブジェクトの１つ以上の３－Ｄ境界ボックスを使用して、複数のＡＲデバイスを横断して共有される、パス可能世界モデルを作成または更新することができる。例えば、１つ以上の３－Ｄ境界ボックスは、パス可能世界モデル内の持続的座標フレーム（ＰＣＦ）を作成または更新するために使用されることができる。いくつかの実装では、パス可能世界コンポーネントはさらに、新しいまたは更新されたパス可能世界モデルを生成するために、１つ以上の３－Ｄ境界ボックスを処理することができる。

いくつかの実施形態のいくつかの側面がこれまで説明されたが、種々の改変、修正、および改良が、当業者に容易に想起されるであろうことを理解されたい。

一実施例として、実施形態は、拡張（ＡＲ）環境に関連して説明される。本明細書に説明される技法の一部または全部は、ＭＲ環境、より一般的には、他のＸＲ環境およびＶＲ環境内に適用されてもよいことを理解されたい。

別の実施例として、実施形態は、ウェアラブルデバイス等のデバイスに関連して説明される。本明細書に説明される技法の一部または全部は、ネットワーク（クラウド等）、離散アプリケーション、および／またはデバイス、ネットワーク、および離散アプリケーションの任意の好適な組み合わせを介して実装されてもよいことを理解されたい。

本明細書は、システムおよびコンピュータプログラムコンポーネントに関連して、用語「構成される」を使用する。１つ以上のコンピュータのシステムに関して、特定の動作またはアクションを実施するように構成されるとは、システムが、動作時、システムに動作またはアクションを実施させるように、そのソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせ上にインストールしていることを意味する。１つ以上のコンピュータプログラムに関して、特定の動作またはアクションを実施するように構成されるとは、１つ以上のプログラムが、データ処理装置によって実行されると、装置に、動作またはアクションを実施させる、命令を含むことを意味する。

本明細書に説明される主題および機能的動作の実施形態は、デジタル電子回路網内に、有形に具現化されるコンピュータソフトウェアまたはファームウェア内に、本明細書に開示される構造およびその構造均等物を含む、コンピュータハードウェア内に、またはそれらのうちの１つ以上のものの組み合わせ内に実装されることができる。本明細書に説明される主題の実施形態は、データ処理装置による実行のための、またはその動作を制御するために、１つ以上のコンピュータプログラム、すなわち、有形非一過性記憶媒体上にエンコーディングされたコンピュータプログラム命令の１つ以上のモジュールとして実装されることができる。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムまたはシリアルアクセスメモリデバイス、またはそれらのうちの１つ以上のものの組み合わせであることができる。代替として、または加えて、プログラム命令は、データ処理装置による実行のために好適な受信機装置への伝送のために情報をエンコーディングするように生成される、人工的に生成された伝搬信号、例えば、機械生成電気、光学、または電磁信号上にエンコーディングされることができる。

用語「データ処理装置」は、データ処理ハードウェアを指し、一例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含む、データを処理するための全ての種類の装置、デバイス、および機械を包含する。装置はまた、またはさらに、特殊目的論理回路網、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）を含むことができる。装置は、随意に、ハードウェアに加え、コンピュータプログラムのための実行環境を作成する、コード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの１つ以上のものの組み合わせを構成する、コードを含むことができる。

プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、モジュール、ソフトウェアモジュール、スクリプト、またはコードとも称される、またはそのように説明され得る、コンピュータプログラムは、コンパイルまたはインタープリタ型言語または宣言型または手続型言語を含む、任意の形態のプログラミング言語で書き込まれることができ、独立型プログラムとして、またはモジュール、コンポーネント、サブルーチン、またはコンピューティング環境において使用するために好適な他のユニットとしてを含む、任意の形態で展開されることができる。プログラムは、ファイルシステム内のファイルに対応してもよいが、そうである必要はない。プログラムは、マークアップ言語ドキュメント内に、当該プログラムに専用の単一ファイル内に、または複数の協調されるファイル、例えば、１つ以上のモジュール、サブプログラム、またはコードの一部を記憶する、ファイル内に記憶される、他のプログラムまたはデータ、例えば、１つ以上のスクリプトを保持する、ファイルの一部内に記憶されることができる。コンピュータプログラムは、１つのコンピュータ上で、または１つの施設に位置する、または複数の施設を横断して分散され、データ通信ネットワークによって相互に接続される、複数のコンピュータ上で、実行されるように展開されることができる。

本明細書では、用語「データベース」は、任意のデータ集合を指すために広義に使用される。すなわち、データは、任意の特定の方法において構造化される必要はなく、または全く構造化されず、１つ以上の場所における記憶デバイス上に記憶されることができる。したがって、例えば、インデックスデータベースは、複数のデータ集合を含むことができ、それぞれ、異なるように編成およびアクセスされてもよい。

同様に、本明細書では、用語「エンジン」は、１つ以上の具体的機能を実施するようにプログラムされる、ソフトウェアベースのシステム、サブシステム、またはプロセスを指すために広義に使用される。概して、エンジンは、１つ以上の場所における１つ以上のコンピュータ上にインストールされる、１つ以上のソフトウェアモジュールまたはコンポーネントとして実装されるであろう。ある場合には、１つ以上のコンピュータは、特定のエンジンに専用であって、他の場合では、複数のエンジンが、同一コンピュータまたは複数のコンピュータ上にインストールされ、起動することができる。

本明細書に説明されるプロセスおよび論理フローは、入力データに作用し、出力を生成することによって、１つ以上のコンピュータプログラムを実行する、１つ以上のプログラマブルコンピュータによって実施され、機能を実施することができる。プロセスおよび論理フローはまた、特殊目的論理回路網、例えば、ＦＰＧＡまたはＡＳＩＣによって、または特殊目的論理回路網および１つ以上のプログラムされるコンピュータの組み合わせによって実施されることができる。

コンピュータプログラムの実行のために好適なコンピュータは、一般または特殊目的マイクロプロセッサまたは両方または任意の他の種類の中央処理ユニットに基づくことができる。概して、中央処理ユニットは、命令およびデータを読取専用メモリまたはランダムアクセスメモリまたは両方から受信するであろう。コンピュータの不可欠な要素は、命令を実施または実行するための中央処理ユニットと、命令およびデータを記憶するための１つ以上のメモリデバイスとである。中央処理ユニットおよびメモリは、特殊目的論理回路網によって補完される、またはその中に組み込まれることができる。概して、コンピュータもまた、データを記憶するための１つ以上の大容量記憶デバイス、例えば、磁気、光磁気ディスク、または光ディスクからデータを受信する、またはそこにデータを転送する、または両方を行うように含まれる、または動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。さらに、コンピュータは、別のデバイス、例えば、いくつかのみを挙げると、モバイル電話、携帯情報端末（ＰＤＡ）、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、またはポータブル記憶デバイス、例えば、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブに内蔵されることができる。

コンピュータプログラム命令およびデータを記憶するために好適なコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、メディア、およびメモリデバイスを含み、一例として、半導体メモリデバイス、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、光磁気ディスク、およびＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む。

ユーザとの相互作用を提供するために、本明細書に説明される主題の実施形態は、情報をユーザに表示するためのディスプレイデバイス、例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタと、それによってユーザがコンピュータに提供し得る、キーボードおよびポインティングデバイス、例えば、マウスまたはトラックボールとを有する、コンピュータ上に実装されることができる。他の種類のデバイスも同様に、ユーザとの相互作用を提供するために使用されることができる。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚的フィードバック、聴覚的フィードバック、または触覚フィードバックであることができ、ユーザからの入力は、音響、発話、または触覚入力を含む、任意の形態で受信されることができる。加えて、コンピュータは、ユーザによって使用されるデバイスにドキュメントを送信し、そこからドキュメントを受信することによって、例えば、ウェブブラウザから受信された要求に応答して、ウェブページをユーザのデバイス上のウェブブラウザに送信することによって、ユーザと相互作用することができる。また、コンピュータは、テキストメッセージまたは他の形態のメッセージをパーソナルデバイス、例えば、メッセージングアプリケーションを起動している、スマートフォンに送信し、返信として、応答性メッセージをユーザから受信することによって、ユーザと相互作用することができる。

機械学習モデルを実装するためのデータ処理装置はまた、例えば、機械学習訓練または生産の共通および算出集約的部分、すなわち、推定ワークロードを処理するための特殊目的ハードウェアアクセラレータユニットを含むことができる。

機械学習モデルは、機械学習フレームワーク、例えば、ＴｅｎｓｏｒＦｌｏｗフレームワーク、ＭｉｃｒｏｓｏｆｔＣｏｇｎｉｔｉｖｅＴｏｏｌｋｉｔフレームワーク、ＡｐａｃｈｅＳｉｎｇａフレームワーク、またはＡｐａｃｈｅＭＸＮｅｔフレームワークを使用して、実装および展開されることができる。

本明細書に説明される主題の実施形態は、例えば、データサーバとして、バックエンドコンポーネントを含む、またはミドルウェアコンポーネント、例えば、アプリケーションサーバを含む、またはフロントエンドコンポーネント、例えば、それを通してユーザが本明細書に説明される主題の実装と相互作用し得る、グラフィカルユーザインターフェース、ウェブブラウザ、またはアプリを有する、クライアントコンピュータを含む、または１つ以上のそのようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組み合わせである、コンピューティングシステム内に実装されることができる。本システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信、例えば、通信ネットワークによって相互接続されることができる。通信ネットワークの実施例は、ローカルエリアネットワーク（ＬＡＮ）および広域ネットワーク（ＷＡＮ）、例えば、インターネットを含む。

コンピューティングシステムは、クライアントと、サーバとを含むことができる。クライアントおよびサーバは、概して、相互から遠隔であって、典型的には、通信ネットワークを通して、相互作用する。クライアントおよびサーバの関係は、個別のコンピュータ上で起動し、相互にクライアント－サーバ関係を有する、コンピュータプログラムによって生じる。いくつかの実施形態では、サーバが、例えば、データを表示する目的のために、データ、例えば、ＨＴＭＬページをユーザデバイスに伝送し、ユーザ入力を、クライアントとして作用する、デバイスと相互作用するユーザから受信する。ユーザデバイスにおいて生成されたデータ、例えば、ユーザ相互作用の結果は、サーバにおいてデバイスから受信されることができる。

本明細書は、多くの具体的実装詳細を含有するが、これらは、任意の発明の範囲または請求され得る内容の範囲に関する限界としてではなく、むしろ、特定の発明の特定の実施形態に特有であり得る、特徴の説明として解釈されるべきである。別個の実施形態のコンテキストにおいて本明細書に説明される、ある特徴はまた、単一実施形態において組み合わせて実装されることができる。逆に言えば、単一実施形態のコンテキストに説明される、種々の特徴はまた、別個に、または任意の好適な副次的組み合わせにおいて、複数の実施形態に実装されることができる。さらに、特徴は、ある組み合わせにおいて作用するように上記に説明され、最初に、そのように請求さえされ得るが、請求される組み合わせからの１つ以上の特徴は、ある場合には、組み合わせから除外されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変動を対象とし得る。

同様に、動作は、特定の順序において、図面に描写され、請求項に列挙されるが、これは、そのような動作が示される特定の順序または順次順序において実施される、または全ての図示される動作が望ましい結果を達成するために実施されることを要求するものとして理解されるべきではない。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上記に説明される実施形態における種々のシステムモジュールおよびコンポーネントの分離は、全ての実施形態においてそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一ソフトウェア製品内にともに統合される、または複数のソフトウェア製品にパッケージ化されることができることを理解されたい。

本主題の特定の実施形態が、説明されている。他の実施形態も、以下の請求項の範囲内である。例えば、請求項に列挙されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。一実施例として、付随の図に描写されるプロセスは、必ずしも、望ましい結果を達成するために、示される特定の順序または順次順序を要求するものではない。ある場合には、マルチタスクおよび並列処理が、有利であり得る。

Claims

コンピュータ実装方法であって、前記方法は、
環境内の場面内で認識されているオブジェクトを規定するオブジェクトデータを維持することと、
前記場面の入力画像のストリームを受信することであって、前記入力画像のストリームは、カラー画像のストリームと、深度画像のストリームとを備える、ことと、
前記カラー画像のストリーム内の複数のカラー画像の各々に対し、
前記カラー画像を入力としてオブジェクト認識システムに提供することと、
前記オブジェクト認識システムからの出力として、前記カラー画像内で認識されている１つ以上のオブジェクトの各々に対し、前記カラー画像内の個別のオブジェクトマスクを識別する認識出力を受信することと、
対応する深度画像のタイムスタンプおよび前記カラー画像のタイムスタンプに基づいて、前記カラー画像のための対応する深度画像を決定する同期システムに、前記カラー画像および前記深度画像のストリーム内の複数の深度画像を入力として提供することと、
前記オブジェクトデータ、前記オブジェクトマスク、および前記対応する深度画像から、前記カラー画像内で認識されているオブジェクトのうちの１つ以上のものの各々に対し、個別の３－Ｄ境界ボックスを決定する３次元（３－Ｄ）境界ボックス生成システムに、前記オブジェクトデータ、前記オブジェクトマスクを識別する認識出力、および前記対応する深度画像を入力として提供することと、
前記３－Ｄ境界ボックス生成システムからの出力として、前記カラー画像内で認識されたオブジェクトのうちの１つ以上のもののための１つ以上の３－Ｄ境界ボックスを規定するデータを受信することと、
出力として、前記１つ以上の３－Ｄ境界ボックスを規定するデータを提供することと
を含む、方法。
前記３－Ｄ境界ボックス生成システムは、
３－Ｄオブジェクトマスクの初期セットを生成するマルチビュー融合システムを備える、請求項１に記載の方法。
前記オブジェクト認識システム、前記同期システム、前記マルチビュー融合システムは、ステートレス様式で、相互から独立して動作する、請求項２に記載の方法。
前記マルチビュー融合システムは、
関連付けシステムであって、前記関連付けシステムは、前記維持されるオブジェクトデータから、対応するオブジェクトを規定する、前記カラー画像内の各認識されたオブジェクトの個別のオブジェクトマスクと合致されたオブジェクトデータを識別する、関連付けシステムと、
融合システムであって、前記融合システムは、前記カラー画像内のオブジェクトマスクと前記合致されたオブジェクトデータを組み合わせることによって、前記カラー画像内の各認識されたオブジェクトに対し、初期３－Ｄオブジェクトマスクを生成する、融合システムと
を備える、請求項２－３のいずれか１項に記載の方法。
前記３－Ｄ境界ボックス生成システムはさらに、前記３－Ｄオブジェクトマスクの初期セットを精緻化し、３－Ｄ境界ボックスの初期セットを生成するオブジェクト精緻化システムを備える、前記請求項のいずれかに記載の方法。
前記３－Ｄ境界ボックス生成システムはさらに、前記３－Ｄ境界ボックスの初期セットを精緻化し、前記１つ以上の３－Ｄ境界ボックスを生成する境界ボックス精緻化システムを備える、前記請求項のいずれかに記載の方法。
前記オブジェクト認識システムは、前記カラー画像を入力としてとり、前記カラー画像内で認識されている１つ以上のオブジェクトの各々に対し、個別の２次元（２－Ｄ）オブジェクトマスクを生成する訓練された深層ニューラルネットワーク（ＤＮＮ）モデルを備える、前記請求項のいずれかに記載の方法。
前記同期システムによって、前記対応する深度画像のタイムスタンプおよび前記カラー画像のタイムスタンプに基づいて、前記カラー画像のための対応する深度を決定することは、
前記カラー画像のタイムスタンプに最も近いタイムスタンプを有する候補深度画像を識別することと、
前記候補深度画像と前記カラー画像との間の時間差が閾値未満であることを決定することと、
それに応答して、前記候補深度画像を前記カラー画像のための対応する深度画像として決定することと
を含む、前記請求項のいずれかに記載の方法。
前記３－Ｄ境界ボックス生成システムは、前記オブジェクトマスクおよび前記対応する深度画像から、前記カラー画像内で認識されているオブジェクトのうちの１つ以上のものの各々に対し、個別の３－Ｄオブジェクトマスクを決定し、前記方法はさらに、
前記３－Ｄ境界ボックス生成システムからの出力として、前記カラー画像内で認識されたオブジェクトのうちの１つ以上のもののための１つ以上の３－Ｄオブジェクトマスクを規定するデータを受信することと、
出力として、前記１つ以上の３－Ｄオブジェクトマスクを規定するデータを提供することと
を含む、前記請求項のいずれかに記載の方法。
システムであって、前記システムは、１つ以上のコンピュータと、１つ以上の記憶デバイスとを備え、前記１つ以上の記憶デバイスは、命令を記憶しており、前記命令は、前記１つ以上のコンピュータによって実行されると、前記１つ以上のコンピュータに、前記請求項のいずれかに記載の方法の個別の動作を実施させる、システム。
１つ以上の非一過性コンピュータ可読記憶媒体であって、前記１つ以上の非一過性コンピュータ可読記憶媒体は、命令を記憶しており、前記命令は、１つ以上のコンピュータによって実行されると、前記１つ以上のコンピュータに、前記請求項のいずれかに記載の方法の個別の動作を実施させる、１つ以上の非一過性コンピュータ可読記憶媒体。
コンピュータ実装方法であって、前記方法は、
環境内の場面内で認識されているオブジェクトを規定するオブジェクトデータを維持することと、
前記場面の入力画像のストリームを受信することと、
前記入力画像のストリーム内の複数の入力画像の各々に対し、
前記入力画像を入力としてオブジェクト認識システムに提供することと、
前記オブジェクト認識システムからの出力として、前記入力画像内で認識されている１つ以上のオブジェクトの各々に対し、前記入力画像内の個別の境界ボックスを識別する認識出力を受信することと、
前記オブジェクトデータおよび前記境界ボックスから、前記入力画像内で認識されているオブジェクトのうちの１つ以上のものの各々に対し、個別の３－Ｄ境界ボックスを決定する３次元（３－Ｄ）境界ボックス生成システムに、前記境界ボックスを識別するデータを入力として提供することと、
前記３－Ｄ境界ボックス生成システムからの出力として、前記入力画像内で認識されたオブジェクトのうちの１つ以上のもののための１つ以上の３－Ｄ境界ボックスを規定するデータを受信することと、
出力として、前記１つ以上の３－Ｄ境界ボックスを規定するデータを提供することと
を含む、方法。
前記３－Ｄ境界ボックス生成システムは、
３－Ｄ境界ボックスの初期セットを生成するマルチビュー融合システムと、
前記３－Ｄ境界ボックスの初期セットを精緻化し、前記１つ以上の３－Ｄ境界ボックスを生成する境界ボックス精緻化システムと
を備える、請求項１２に記載の方法。
前記オブジェクト認識システム、前記マルチビュー融合システム、および前記境界ボックス精緻化システムは、ステートレス様式で、相互から独立して動作する、請求項１３に記載の方法。
前記維持されるオブジェクトデータは、前記場面内で認識されている各オブジェクトの複数の２次元（２－Ｄ）境界ボックスから生成される楕円体を備え、前記マルチビュー融合システムは、少なくとも、
前記入力画像内で識別された各２－Ｄ境界ボックスに対し、
前記入力画像内で識別された２－Ｄ境界ボックスが、前記維持されるオブジェクトデータ内で認識されているオブジェクトの１つ以上の２－Ｄ境界ボックスと関連付けられるかどうかを決定するステップと、
前記入力画像内で識別された２－Ｄ境界ボックスが、認識されているオブジェクトの１つ以上の２－Ｄ境界ボックスと関連付けられることの決定に応答して、前記入力画像内で識別された２－Ｄ境界ボックスを使用して、前記オブジェクトの更新された楕円体を計算することによって、前記維持されるオブジェクトデータを更新するステップと、
前記入力画像内で識別された２－Ｄ境界ボックスが、認識されている任意のオブジェクトと関連付けられないことの決定に応答して、前記入力画像内で識別された少なくとも２－Ｄ境界ボックスから楕円体を生成することによって、新しいオブジェクトを作成するステップと、
前記入力画像内で認識されているオブジェクトの楕円体を使用して、前記３－Ｄ境界ボックスの初期セットを生成するステップと
を実施することによって、前記３－Ｄ境界ボックスの初期セットを生成する、請求項１３－１４のいずれか１項に記載の方法。
前記オブジェクト認識システムは、前記入力画像をとり、前記入力画像内で認識されている１つ以上のオブジェクトの各々に対し、個別の２次元（２－Ｄ）オブジェクト境界ボックスを生成する訓練された深層ニューラルネットワーク（ＤＮＮ）モデルを備える、請求項１２－１５のいずれか１項に記載の方法。
前記場面の入力画像のストリームは、２つ以上のユーザデバイスから捕捉される、請求項１２－１６のいずれか１項に記載の方法。
システムであって、前記システムは、１つ以上のコンピュータと、１つ以上の記憶デバイスとを備え、前記１つ以上の記憶デバイスは、命令を記憶しており、前記命令は、前記１つ以上のコンピュータによって実行されると、前記１つ以上のコンピュータに、請求項１２－１７のいずれか１項に記載の方法の個別の動作を実施させる、システム。
１つ以上の非一過性コンピュータ可読記憶媒体であって、前記１つ以上の非一過性コンピュータ可読記憶媒体は、命令を記憶しており、前記命令は、１つ以上のコンピュータによって実行されると、前記１つ以上のコンピュータに、請求項１２－１７のいずれか１項に記載の方法の個別の動作を実施させる、１つ以上の非一過性コンピュータ可読記憶媒体。