JP7477596B2

JP7477596B2 - 深度推定のための方法、深度推定システム、およびコンピュータプログラム

Info

Publication number: JP7477596B2
Application number: JP2022509068A
Authority: JP
Inventors: カー，アビシェーク; アイサック，ホッサム; コードル，アダルシュ・プラカシュ・ムルティー; プロヒット，アベーク; メドベージェフ，ドミトリー
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2024-05-01
Anticipated expiration: 2041-04-19
Also published as: WO2022225574A1; US20220335638A1; CN115500083A; EP4097680A1; JP2023527595A; KR20220145807A

Description

この記述は一般に、ニューラルネットワークを使用する深度推定に関する。

背景
深度推定は、画像データから深度（視差）を推定するためのコンピュータビジョン設計タスクである（たとえば、ＲＧＢ画像を受信し、深度画像を出力する）。いくつかの従来のアプローチでは、シーンにおける複数のカメラおよび／または物理的マーカーが、同じシーン／オブジェクトの複数のビューから深度マップを再構築するために使用される。しかしながら、単一の画像から深度マップを推定することは広範な計算パワーを必要とする場合があり、それは、場合によっては、モバイル用途にうまく適合していない。

概要
一局面によれば、深度推定のための方法は、センサシステムから画像データを受信するステップと、ニューラルネットワークが画像データに基づいて第１の深度マップを生成するステップとを含み、第１の深度マップは第１のスケールを有し、方法はさらに、画像データに関連付けられた深度推定値を取得するステップと、深度推定値を使用して第１の深度マップを第２の深度マップに変換するステップとを含み、第２の深度マップは第２のスケールを有する。

いくつかの局面によれば、方法は、以下の特徴のうちの１つ以上（またはそれらの任意の組合せ）を含んでいてもよい。方法は、ニューラルネットワークが画像データに基づいて表面法線を生成するステップを含み、第１の深度マップは、表面法線および深度推定値を使用して第２の深度マップに変換される。方法は、画像データに基づいて視覚的特徴点を生成するステップを含んでいてもよく、視覚的特徴点は深度推定値に関連付けられる。方法は、深度センサから深度推定値を取得するステップを含んでいてもよい。深度推定値は、モバイルコンピューティングデバイスによって実行可能な拡張現実（augmented reality：ＡＲ）セッション中に取得されてもよい。方法は、第１の深度マップと深度推定値との間のオフセットに基づいてアフィンパラメータを推定するステップを含んでいてもよく、アフィンパラメータは、スケールおよびシフトを含み、第１の深度マップは、アフィンパラメータに基づいて第２の深度マップに変換される。方法は、ニューラルネットワークが画像データに基づいて第１の表面法線を予測するステップと、第２の深度マップから第２の表面法線を予測するステップと、第１の表面法線および第２の表面法線に基づいて自己整合性損失を計算するステップと、自己整合性損失に基づいてニューラルネットワークを更新するステップとを含んでいてもよい。方法は、第２の深度マップを使用して画像データにおける少なくとも１つの平面領域を推定するステップを含んでいてもよく、少なくとも１つの平面領域は、仮想オブジェクトを取り付けるための表面として使用されるように構成される。

一局面によれば、深度推定システムは、画像データを取得するように構成されたセンサシステムと、画像データに基づいて第１の深度マップを生成するように構成されたニューラルネットワークとを含み、第１の深度マップは第１のスケールを有し、深度推定システムはさらに、画像データに関連付けられた深度推定値を取得するように構成された深度推定値生成器と、深度推定値および第１の深度マップに基づいてアフィンパラメータを推定し、アフィンパラメータを使用して第１の深度マップを第２の深度マップに変換するように構成された深度マップ変換器とを含み、第２の深度マップは第２のスケールを有する。

いくつかの局面によれば、深度推定システムは、上記／下記の特徴のうちの１つ以上（またはそれらの任意の組合せ）を含んでいてもよい。ニューラルネットワークは、モバイルコンピューティングデバイス上で実行されるように構成される。深度推定システムは、視覚的特徴点を生成するように構成された視覚的慣性運動追跡器を含んでいてもよく、視覚的特徴点は深度推定値に関連付けられる。深度推定システムは、深度推定値を取得するように構成された深度センサを含んでいてもよい。深度推定値生成器は、拡張現実（ＡＲ）セッション中に深度推定値を取得するように構成され、深度推定値生成器は、ＡＲセッション中に、ポーズデータ、重力方向、および、画像データにおける１つ以上の平面領域の識別情報も取得するように構成される。アフィンパラメータは、第１の深度マップにおける各深度推定値について、スケールおよびシフトを含んでいてもよい。深度マップ変換器は、スケールおよびシフトを推定するための目的関数を最小化する、ランダムサンプルコンセンサス（random sample consensus：ＲＡＮＳＡＣ）ベースの解決器を含んでいてもよい。深度推定システムは、畳み込みニューラルネットワーク訓練器を含んでいてもよく、畳み込みニューラルネットワーク訓練器は、ニューラルネットワークを使用して画像データに基づいて第１の表面法線を予測し、第２の深度マップから第２の表面法線を予測し、第１の表面法線および第２の表面法線に基づいて自己整合性損失を計算し、第１の表面法線およびグラウンドトゥルース（ground truth）法線に基づいて損失を計算し、自己整合性損失および損失に基づいてニューラルネットワークを更新するように構成される。深度推定システムは、第２の深度マップを使用して画像データにおける少なくとも１つの平面領域を推定するように構成された平面生成器を含んでいてもよく、少なくとも１つの平面領域は、仮想オブジェクトを取り付けるための表面として使用されるように構成され、平面生成器は、第２の深度マップを点群に変換するように構成されたマップ変換器と、点群を使用して平面適合アルゴリズムに従って少なくとも１つの平面領域を検出するように構成された平面検出器とを含む。

一局面によれば、非一時的コンピュータ読取可能媒体は、少なくとも１つのプロセッサによって実行されると少なくとも１つのプロセッサに複数のステップを行なわせる実行可能命令を格納し、複数のステップは、センサシステムから画像データを受信するステップと、ニューラルネットワークが画像データに基づいて第１の深度マップを生成するステップとを含み、第１の深度マップは第１のスケールを有し、複数のステップはさらに、画像データに関連付けられた深度推定値を取得するステップと、深度推定値を使用して第１の深度マップを第２の深度マップに変換するステップとを含み、第２の深度マップは第２のスケールを有し、複数のステップはさらに、第２の深度マップを使用して画像データにおける少なくとも１つの平面領域を推定するステップを含み、少なくとも１つの平面領域は、拡張現実（ＡＲ）セッション中に仮想オブジェクトを取り付けるための表面として使用されるように構成される。

非一時的コンピュータ読取可能媒体は、上記／下記の特徴のうちのいずれか（またはそれらの任意の組合せ）を含んでいてもよい。実行可能命令は、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに、第１の深度マップと深度推定値との間のオフセットに基づいてアフィンパラメータを推定するステップを行なわせる命令を含み、アフィンパラメータは、スケールおよびシフトを含み、第１の深度マップは、アフィンパラメータに基づいて第２の深度マップに変換される。深度推定値は、視覚的慣性運動追跡器、深度センサ、デュアル画素深度推定器、運動ステレオ深度推定器、スパースアクティブ深度推定器、または事前計算スパースマップのうちの少なくとも１つから取得されてもよい。実行可能命令は、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに、ニューラルネットワークが画像データに基づいて表面法線を生成するステップを行なわせる命令を含み、第１の深度マップは、表面法線および深度推定値を使用して第２の深度マップに変換される。

一局面に従った深度推定システムを示す図である。一局面に従った、深度推定値を取得する深度推定値生成器を示す図である。一局面に従った、画像データにおける視覚的特徴点の例を示す図である。一局面に従った深度マップ変換器を示す図である。一局面に従った、深度マップ変換器のパラメータ推定解決器の例示的な動作を示す図である。一局面に従った、重力方向を取得する加速度計を示す図である。一局面に従った、視覚的特徴点を使用して１つ以上の平面領域を検出するように構成された平面生成器を示す図である。拡張現実（ＡＲ）セッション中に取り込まれる情報の例を示す図である。一局面に従ったニューラルネットワーク訓練器を示す図である。一局面に従ったニューラルネットワークを示す図である。一局面に従った、メートル法の深度マップから画像データにおける１つ以上の平面領域を検出するように構成された平面生成器を示す図である。一局面に従った、深度推定システムを有するＡＲシステムを示す図である。一局面に従った、深度推定システムの例示的な動作を表わすフローチャートを示す図である。一局面に従った、ニューラルネットワークを調節する例示的な動作を表わすフローチャートを示す図である。別の局面に従った、深度推定システムの例示的な動作を表わすフローチャートを示す図である。一局面に従った、深度推定システムの例示的なコンピューティングデバイスを示す図である。

詳細な説明
実施形態は、画像データを取得するセンサシステムと、画像データの画像フレームに基づいて深度マップを生成する（たとえば、単一の画像フレームを使用して深度マップを生成する）ように構成されたニューラルネットワークとを含む、深度推定システムを提供する。いくつかの例では、ニューラルネットワークによって生成された深度マップは、第１のスケールに関連付けられていてもよい（たとえば非メートル法のマップ）。ニューラルネットワークによって生成された深度マップは、アフィン不変量深度マップであってもよく、それは、スケール／シフトに依存するものの、メートル法のスケール（または大英帝国単位系）に関連付けられていない深度マップである。深度推定システムは、１つ以上のソースから深度推定値（たとえば、第２のスケール（たとえばメートル法のスケール）に従った深度値を有する深度推定値）を取得する深度推定値生成器と、深度推定値を使用して、ニューラルネットワークによって生成された深度マップを、第２のスケール（たとえばメートル法のスケール）を有する深度マップに変換するように構成された深度マップ変換器とを含む。第１および第２のスケールは、異なる基準を用いる２つの異なる測定系に基づき得る、異なるスケールであってもよい。いくつかの例では、メートル法の深度マップとは、各画素が、画像における対応する画素についての、メートル法のスケールに従ったメートル法の深度値（たとえばメートル単位）を表わす、画像を指し得る。深度推定値生成器によって取得されたメートル法の深度推定値は、スパース（疎な）深度推定値（たとえば、画像データにおける画素のすべてではなく、それらのうちのいくつかについての深度推定値）と考えられてもよい。いくつかの例では、メートル法の深度推定値は、画像データにおける画素の部分集合に関連付けられる。深度マップ変換器は、スパース深度推定値を使用して、ニューラルネットワークによって生成された深度マップのための第２のスケール（たとえばメートル法のスケール）を提供する。いくつかの例では、実施形態は、メートル法の深度推定値がスパース部分集合についてのみ存在するかもしれない場合に、すべての画素についてメートル法のスケールを提供することができるシステムを提供し、密なメートル法の深度マップは、ダウンストリームアプリケーション（たとえば３Ｄ再構築、平面発見など）のために、疎なメートル法の深度に対する技術的利点を提供する。

深度推定システムは、単眼深度ニューラルネットワークにおけるスケール／シフト曖昧性（または、一般にアフィン曖昧性と呼ばれる）に対する解決策を提供し得る。たとえば、深度推定システムは、単眼機械学習（machine-learning：ＭＬ）深度モデルにおけるアフィン曖昧性を解決するために、メートル法の深度のスパースソースを使用してもよい。アフィン曖昧性は、現実世界のスケール（たとえばメートル法のスケール）を必要とする（または当該スケールから利益を得る）いくつかのアプリケーションについては、困難をもたらす場合がある。たとえば、モバイル拡張現実（ＡＲ）アプリケーションは、現実世界の寸法を有するカメラビューに仮想オブジェクトを配置することを伴う場合がある。現実世界のスケールでオブジェクトをレンダリングするために、仮想オブジェクトが配置される表面の深度をメートル単位で推定することが必要とされる場合がある。ここに説明される実施形態によれば、深度推定システムによって生成されたメートル法の深度マップは、画像データにおける平面領域を推定するために使用されてもよく、ここで平面領域は、仮想オブジェクトを取り付けるための表面として使用される。

いくつかの従来のＡＲアプリケーションでは、表面は３次元（３Ｄ）点群で推定されるが、これらのアプローチは、ユーザが仮想オブジェクトを迅速に（たとえば直ちに）シーンに配置することを可能にしないかもしれない。むしろ、ユーザは、十分な量の３Ｄ点の検出およびその後の平面検出にとって十分なテクスチャを有する平面を走査し、それは、ＡＲセッションが複数の平面を検出しないこと、および／または、平面が検出されるのに比較的長い時間がかかることをもたらす場合がある。しかしながら、深度推定システムによって生成されたメートル法の深度マップを使用することにより、平面領域を検出するための待ち時間を減少させることができる。たとえば、深度推定システムは、ニューラルネットワークを使用して、配置されたオブジェクトのスケール／平面深度を予測することによって、配置待ち時間を減少させ得る（たとえば、単一の画像または少数の画像から深度を推定するため、ユーザによる動きをそれほど必要としなくなる）。さらに、深度推定システムは、白いテーブルなどの低テクスチャ表面から深度を予測し得る。また、深度推定システムによって生成されたメートル法の深度マップは、ロボティックを含む（ＡＲアプリケーションの他の）多種多様のアプリケーションのために使用されてもよいということに留意されたい。

いくつかの例では、深度マップ変換器は、１つ以上の他の信号を使用して、ニューラルネットワークによって生成された深度マップのための第２のスケール（たとえばメートル法のスケール）を提供することを支援する。いくつかの例では、ニューラルネットワークは表面法線を予測し、深度マップ変換器は、予測された表面法線をスパース深度推定値とともに使用して、ニューラルネットワークによって生成された深度マップのための第２のスケール（たとえばメートル法のスケール）を提供する。

予測された深度の精度は、深度および表面法線を予測することによって高められ得る。予測された深度と表面法線との整合性を促すために、自己整合性損失（たとえば、教師なし自己整合性損失）が、ニューラルネットワークの訓練または調節中に使用される。たとえば、ニューラルネットワークは、ＲＧＢ画像から第１の表面法線を予測し、深度マップ変換器は、メートル法の深度マップから第２の表面法線を予測する。自己整合性損失は、第１の表面法線と第２の表面法線との差に基づいて計算され、自己整合性損失は教師あり損失に加算される。教師あり損失は、第１の表面法線とグラウンドトゥルース法線との差に基づいて計算される。自己整合性損失は、ニューラルネットワークに、第１の表面法線と第２の表面法線との間のいかなる偏差も最小化するよう促す。

いくつかの例では、深度マップ変換器は、重力方向および平面領域を受信してもよい。重力方向は、加速度計から取得される。平面領域は、ＡＲセッション中に視覚的特徴点（たとえばＳＬＡＭ点）を使用して平面生成器によって推定されてもよい。深度マップ変換器は、重力方向および平面領域を（スパース深度推定値とともに）使用して、ニューラルネットワークによって生成された深度マップのための第２のスケール（たとえばメートル法のスケール）を提供してもよい。

深度マップ変換器は、スパース深度推定値とニューラルネットワークによって生成された深度マップとの間のオフセットに基づいてアフィンパラメータ（たとえばシフト、スケール）を推定するためにパラメータ推定アルゴリズムを実行するように構成されたパラメータ推定解決器を含んでいてもよい。いくつかの例では、パラメータ推定解決器は、スケールおよびシフトを推定するための目的関数を解く、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ）ベースの解決器である。いくつかの例では、パラメータ推定解決器は、深度マップのためのアフィンパラメータを推定し、それを第２のスケール（たとえばメートル法のスケール）に変換するために、ＲＡＮＳＡＣループ内で最小自乗パラメータ推定問題を解くように構成される。

いくつかの例では、ニューラルネットワークは、単眼深度ニューラルネットワークと考えられる。なぜなら、ニューラルネットワークは、単一の画像フレームに基づいて深度マップを予測するためである。いくつかの例では、ニューラルネットワークは、赤－緑－青（red-green-blue：ＲＧＢ）画像から画素ごとの深度（pixel-wise depth）を予測するように構成されＵネットアーキテクチャを含む。いくつかの例では、ニューラルネットワークは、ニューラルネットワークがモバイルコンピューティングデバイス（たとえば、スマートフォン、タブレットなど）上で実行されることを可能にする特徴を含む。たとえば、ニューラルネットワークは、深度方向に（depth-wise）分離可能な畳み込みを使用する。深度方向に分離可能な畳み込みは、標準の畳み込みを、深度方向の畳み込み（depthwise convolution）と、点ごとの畳み込み（pointwise convolution）と呼ばれる１×１の畳み込みとに因数分解する、因数分解された畳み込みを含む。この因数分解は、計算およびモデルサイズを減少させる効果を有する。いくつかの例では、ニューラルネットワークはブラープール（Blurpool）符号器を使用してもよく、それは、ネットワークを、回転、スケーリング、ぶれ、およびノイズ変形などの破損に対してより頑強で安定したものにする、組合されたアンチエイリアスおよびサブサンプリング動作であってもよい。いくつかの例では、ニューラルネットワークは双線形アップサンプリングを含んでいてもよく、それはパラメータを転置畳み込みに減少させることができ、したがって、ネットワークのサイズを減少させる。これらのおよび他の特徴を、図を参照してさらに説明する。

図１Ａ～１Ｇは、一局面に従った深度推定システム１００を示す。深度推定システム１００は、（１つ以上のソースから取得された）深度推定値１０８に基づく深度マップ１３８と、ニューラルネットワーク１１８によって生成された深度マップ１２０とを生成する。ニューラルネットワーク１１８によって生成された深度マップ１２０は、第１のスケールを有する。いくつかの例では、第１のスケールは、非メートル法のスケールである。深度マップ１３８は、第２のスケールを有する。第１および第２のスケールは、異なる基準を用いる２つの異なる測定系に基づく。いくつかの例では、第２のスケールは、メートル法のスケールである。深度推定システム１００は、第１のスケールを有する深度マップ１２０を、第２のスケールを有する深度マップ１３８に変換するように構成される。第２のスケールを有する深度マップ１３８は、拡張現実、ロボティック、自然なユーザインターフェイス技術、ゲーミング、または他の用途を制御するために使用されてもよい。

深度推定システム１００は、画像データ１０４を取得するセンサシステム１０２を含む。センサシステム１０２は、１つ以上のカメラ１０７を含む。いくつかの例では、センサシステム１０２は、単一のカメラ１０７を含む。いくつかの例では、センサシステム１０２は、２つ以上のカメラ１０７を含む。センサシステム１０２は、慣性運動ユニット（inertial motion unit：ＩＭＵ）を含んでいてもよい。ＩＭＵは、コンピューティングデバイスの運動、動き、および／または加速度を検出してもよい。ＩＭＵは、たとえば、加速度計（たとえば図１Ｆの加速度計１２１）、ジャイロスコープ、磁力計、および他のそのようなセンサといった、さまざまな異なるタイプのセンサを含んでいてもよい。センサシステム１０２は、光センサ、音声センサ、距離および／または近接センサ、容量性センサなどの接触センサ、タイマー、および／または他のセンサ、および／またはセンサの異なる組合せといった、他のタイプのセンサを含んでいてもよい。

深度推定システム１００は１つ以上のプロセッサ１４０を含み、それは、１つ以上のマシン実行可能命令またはソフトウェア、ファームウェア、もしくはそれらの組合せを実行するように構成された基板において形成されてもよい。プロセッサ１４０は半導体ベースのものであってもよい。すなわち、プロセッサは、デジタル論理を行なうことができる半導体材料を含み得る。深度推定システム１００はまた、１つ以上のメモリデバイス１４２を含み得る。メモリデバイス１４２は、プロセッサ１４０によって読出および／または実行可能なフォーマットで情報を格納する任意のタイプの記憶デバイスを含んでいてもよい。メモリデバイス１４２は、プロセッサ１４０によって実行されるとここに説明される動作のいずれかを行なうアプリケーションおよびモジュールを格納してもよい。いくつかの例では、アプリケーションおよびモジュールは、外部記憶デバイスに格納され、メモリデバイス１４２にロードされてもよい。

ニューラルネットワーク１１８は、センサシステム１０２によって取り込まれた画像データ１０４に基づいて深度マップ１２０を生成するように構成される。いくつかの例では、ニューラルネットワーク１１８は、画像データ１０４の画像フレーム１０４ａを受信し、画像フレーム１０４ａに基づいて深度マップ１２０を生成する。画像フレーム１０４ａは、赤－緑－青（ＲＧＢ）画像である。いくつかの例では、ニューラルネットワーク１１８は、単一の画像フレーム１０４ａを使用して深度マップ１２０を生成する。いくつかの例では、ニューラルネットワーク１１８は、２つ以上の画像フレーム１０４ａを使用して深度マップ１２０を生成する。ニューラルネットワーク１１８によって生成された深度マップ１２０は、アフィン不変量深度マップであってもよく、それは、スケール／シフト次第であるものの、第２のスケール（たとえばメートル法のスケール）に関連付けられていない深度マップである。深度マップ１２０とは、各画素が、画像における対応する画素についての、非メートル法のスケールに従った深度値（たとえば０～１）を表わす、画像を指し得る。非メートル法のスケールとは、メートル系、国際単位系（international system of units：ＳＩ）、または測定の大英帝国単位系に基づいていないスケールであり得る。実施形態は、メートル法のスケール（またはメートル法の値）および非メートル法のスケール（または非メートル法の値）を参照して説明されるが、第１および第２のスケールは、異なる基準を用いる任意の２つの異なる測定系に基づき得る。深度マップ１２０は、カメラ視点からシーンにおけるオブジェクトの表面までの距離に関連する情報を含む画像を記述するために使用されてもよい。深度値は、カメラ視点からシーンにおけるオブジェクトの表面までの距離に反比例する。

ニューラルネットワーク１１８は、１つ以上の画像フレーム１０４ａ（または単一の画像フレーム１０４ａ）を使用して深度マップ１２０を生成するように構成された任意のタイプのディープニューラルネットワークであってもよい。いくつかの例では、ニューラルネットワーク１１８は、畳み込みニューラルネットワークである。いくつかの例では、ニューラルネットワーク１１８は、単眼深度ニューラルネットワークと考えられる。なぜなら、ニューラルネットワーク１１８は、単一の画像フレーム１０４ａに基づいて深度マップ１２０を予測するためである。ニューラルネットワーク１１８は、画像フレーム１０４ａから画素ごとの深度を予測するように構成される。いくつかの例では、ニューラルネットワーク１１８は、Ｕネットアーキテクチャ、たとえば、学習可能パラメータとのスキップ接続を有する符号器－復号器を含む。

いくつかの例では、ニューラルネットワーク１１８は、モバイルコンピューティングデバイス（たとえば、スマートフォン、タブレットなど）上で実行可能なサイズを有する。いくつかの例では、ニューラルネットワーク１１８のサイズは、１５０Ｍｂ未満である。いくつかの例では、ニューラルネットワーク１１８のサイズは、１００Ｍｂ未満である。いくつかの例では、ニューラルネットワーク１１８のサイズは、約７０Ｍｂ、または７０Ｍｂ未満である。いくつかの例では、ニューラルネットワーク１１８は深度方向に分離可能な畳み込みを使用し、それは、標準の畳み込みを、深度方向の畳み込みと、点ごとの畳み込みと呼ばれる１×１の畳み込みとに因数分解する、因数分解された畳み込みの形式である。この因数分解は、計算およびモデルサイズを減少させる効果を有し得る。いくつかの例では、ニューラルネットワーク１１８はブラープール符号器を使用してもよく、それは、ネットワークを、回転、スケーリング、ぶれ、およびノイズ変形などの破損に対してより頑強で安定したものにする、組合されたアンチエイリアスおよびサブサンプリング動作であってもよい。いくつかの例では、ニューラルネットワーク１１８は双線形アップサンプリングを含んでいてもよく、それはパラメータを転置畳み込みに減少させることができ、したがって、ネットワークのサイズを減少させる。

いくつかの例では、ニューラルネットワーク１１８はまた、画像フレーム１０４ａの表面配向を記述する表面法線１２２ａ（たとえば、シーンにおけるすべての可視表面）を予測する。いくつかの例では、表面法線１２２ａは、画素ごとの法線、または画素ごとの表面配向を含む。いくつかの例では、表面法線１２２ａは、表面法線ベクトルを含む。画像におけるある画素についての表面法線１２２ａは、現実世界においてその画素によって表わされる３Ｄ表面の配向に対応する３次元ベクトルとして定義されてもよい。３Ｄ表面の配向は、現実世界の３Ｄ表面に対して垂直である方向ベクトルによって表わされる。いくつかの例では、ニューラルネットワーク１１８はまた、画像フレーム１０４ａ内の平面領域１２４を検出するように構成される。平面領域１２４は、垂直面および／または水平面を含んでいてもよい。

深度推定システム１００は、画像データ１０４に関連付けられた深度推定値１０８（たとえば、メートル法の深度推定値）を取得する深度推定値生成器１０６を含む。深度推定値１０８は、画像データ１０４における画素のうちのいくつかについての、メートル法のスケールでの深度値を含んでいてもよい。たとえば、メートル法のスケールとは、メートル系および／または大英帝国単位系などの任意のタイプの測定系を指してもよい。深度推定値生成器１０６によって取得された深度推定値１０８は、スパース（疎な）深度推定値（たとえば、画像データにおける画素のすべてではなく、それらのうちのいくつかについての深度推定値）と考えられてもよい。たとえば、画像フレーム１０４ａが１０×１０である場合、画像フレーム１０４ａは１００個の画素を含む。しかしながら、深度推定値１０８は、画素の部分集合についての、メートル法のスケールでの深度推定値を含んでいてもよい。対照的に、密な深度マップ（たとえば深度マップ１２０）は、画像における多数の画素、または画像における画素のすべてについての深度値（たとえば、非メートル法の深度値）を提供する。

深度推定値生成器１０６は、画像データ１０４に基づいて深度推定値１０８を生成する（または取得する）ように構成された任意のタイプのコンポーネントであってもよい。いくつかの例では、深度推定値生成器１０６はまた、ポーズデータ１１０を取得し、画像データ１０４内の平面領域１１４を識別する。ポーズデータ１１０は、深度推定システム１００を実行するデバイス（たとえば、深度推定システム１００を有するスマートフォン）のポーズ（たとえば、位置および配向）を識別してもよい。いくつかの例では、ポーズデータ１１０は、デバイスの５つの自由度（degree-of-freedom：ＤｏＦ）位置を含む。いくつかの例では、ポーズデータ１１０は、デバイスの６つのＤｏＦ位置を含む。いくつかの例では、深度推定値生成器１０６は、任意のタイプの平面検出アルゴリズム（または平面適合アルゴリズム）を使用して画像データ１０４内の平面領域１１４を検出するように構成された平面生成器１２３を含む。平面領域１１４は、画像データ１０４内のオブジェクト（たとえばテーブル、壁など）の平面であってもよい。

図１Ｂを参照して、深度推定値生成器１０６は、視覚的慣性運動追跡器１６０、深度センサ１６４、デュアル画素深度推定器１６６、運動ステレオ深度推定器１６８、スパースアクティブ深度推定器１７０、および／または事前計算スパースマップ１７２を含んでいてもよい。深度推定値生成器１０６のコンポーネントの各々は、深度推定値１０８を取得するための別個のソースを表わしていてもよい。たとえば、各コンポーネントは深度推定値１０８を独立して生成してもよく、ここで深度推定値生成器１０６は、１つのコンポーネントまたは複数のコンポーネントを含んでいてもよい。いくつかの例では、深度推定値生成器１０６は、１つのソース、たとえば、視覚的慣性運動追跡器１６０、深度センサ１６４、デュアル画素深度推定器１６６、運動ステレオ深度推定器１６８、スパースアクティブ深度推定器１７０、または事前計算スパースマップ１７２のうちの１つを含んでいてもよい。いくつかの例では、深度推定値生成器１０６が複数のソース（たとえば複数のコンポーネント）を含む場合、深度推定値生成器１０６は、深度マップ１３８を生成する際に使用するためにソースのうちの１つを選択してもよい。いくつかの例では、深度推定値生成器１０６が複数のソース（たとえば複数のコンポーネント）を含む場合、深度推定値生成器１０６は、深度マップ１３８を生成する際に使用するために複数のソースを選択してもよい。

視覚的慣性運動追跡器１６０は、画像データ１０４を表わす視覚的特徴点１６２を生成するように構成される。視覚的特徴点１６２は、深度推定値１０８に関連付けられる。たとえば、各視覚的特徴点１６２は、メートル法のスケールでの深度値を含んでいてもよい。図１Ｃは、カメラ１０７によって取り込まれたシーン１２５を示し、ここでシーン１２５は、画像データ１０４を使用して視覚的慣性運動追跡器１６０によって生成された視覚的特徴点１６２を示す。視覚的特徴点１６２は、メートル法のスケールでの深度値を含んでいてもよく、ここで深度値は、カメラ視点からシーン１２５におけるオブジェクトの表面までの距離に反比例する。

視覚的特徴点１６２は、ユーザ環境を表わす、３Ｄ空間における複数の点（たとえば関心点）である。いくつかの例では、各視覚的特徴点１６２は、３Ｄ空間における固定された位置および配向の近似値を含み、これらの視覚的特徴点１６２は、時間がたつにつれて更新されてもよい。たとえば、ＡＲセッション１７４中、ユーザは、自分の携帯電話のカメラをシーン１２５の周りで動かしてもよく、ここで視覚的慣性運動追跡器１６０は、シーン１２５を表わす視覚的特徴点１６２を生成してもよい。いくつかの例では、視覚的特徴点１６２は、同時ローカライゼーションおよびマッピング（simultaneous localization and mapping：ＳＬＡＭ）点を含む。いくつかの例では、視覚的特徴点１６２は点群と呼ばれる。いくつかの例では、視覚的特徴点１６２は特徴点と呼ばれる。いくつかの例では、視覚的特徴点１６２は３Ｄ特徴点と呼ばれる。いくつかの例では、視覚的特徴点１６２は、画像フレーム１０４ａあたり２００～４００個という範囲内にある。

図１Ｂを再度参照して、いくつかの例では、視覚的慣性運動追跡器１６０は、カメラ１０７を使用することによって空間におけるデバイス（たとえばスマートフォン）の動きを推定することができる追跡アルゴリズムであるＳＬＡＭアルゴリズムを実行するように構成される。いくつかの例では、ＳＬＡＭアルゴリズムはまた、平面領域１１４を検出するように構成される。いくつかの例では、ＳＬＡＭアルゴリズムは、各画像のキーポイント（たとえば視覚的特徴点１６２）および記述子を分析し、これらの記述子をフレームごとに追跡することによって、デバイスの位置および配向（たとえばポーズデータ１１０）を繰り返し計算し、それは環境の３Ｄ再構築を可能にし得る。

深度センサ１６４は、画像データ１０４に基づいて深度推定値１０８を生成するように構成される。いくつかの例では、深度センサ１６４は、光検出測距（light detection and ranging：ＬｉＤＡＲ）センサを含む。デュアル画素深度推定器１６６は、機械学習モデルを使用して、カメラのデュアル画素自動焦点システムから深度を推定する。デュアル画素は、各半画素が主レンズの開口の異なる半分を見るように各画素を半分に分割することによって動作する。これらの半画素の画像の各々を別々に読み出すことにより、シーンのわずかに異なる２つのビューが取得され、これらの異なるビューは、深度推定値１０８を生成するためにデュアル画素深度推定器１６６によって使用される。運動ステレオ深度推定器１６８は、深度推定値１０８を生成するためのステレオマッチングアルゴリズムにおいて複数の画像を使用してもよい。いくつかの例では、単一のカメラが、複数の画像を取り込むためにシーン１２５の周りで動かされてもよく、ここでこれらの画像は、メートル法の深度を推定するためにステレオマッチするために使用される。スパースアクティブ深度推定器１７０は、スパース飛行時間推定器またはスパース位相検出自動焦点（phase detection autofocus：ＰＤＡＦ）推定器を含んでいてもよい。いくつかの例では、事前計算スパースマップ１７２は、視覚的位置決めサービスによって使用されるスパースマップである。

図１Ａを再度参照して、深度推定システム１００は、深度推定値１０８を使用して、ニューラルネットワーク１１８によって生成された深度マップ１２０を深度マップ１３８に変換するように構成された深度マップ変換器１２６を含む。深度マップ１３８とは、各画素が、画像データ１０４における対応する画素についての、メートル法のスケールに従った深度値（たとえばメートル単位）を表わす、画像を指し得る。深度マップ変換器１２６は、深度推定値１０８を使用して、ニューラルネットワーク１１８によって生成された深度マップ１２０のためのメートル法のスケールを提供するように構成される。

深度マップ変換器１２６は、ニューラルネットワーク１１８によって生成された深度マップ１２０と、深度推定値１０８とに基づいて、アフィンパラメータ１３２を推定するように構成される。アフィンパラメータ１３２は、深度マップ１２０のスケール１３４およびシフト１３６を含む。スケール１３４は、深度マップ１２０の再サイジング量を示すスケール値を含む。シフト１３６は、深度マップ１２０の画素がシフトされる量を示すシフト値を含む。なお、スケール１３４（またはスケール値）は、異なる測定系を指す上述の「第１のスケール」および「第２のスケール」（たとえば、第１のスケールは非メートル法のスケールであってもよく、第２のスケールはメートル法のスケールであってもよい）とは完全に異なるサイジング量を指す。深度マップ変換器１２６は、アフィンパラメータ１３２を使用して深度マップ１２０を深度マップ１３８に変換するように構成される。いくつかの例では、スケール１３４およびシフト１３６は、乗算されて深度マップ１２０での各画素における値に加算されると深度マップ１３８を生成する、２つの数（たとえば、ｓ＝スケール、ｔ＝シフト）を含み（たとえば、Ｄ１３８（ｘ，ｙ）＝ｓ^＊Ｄ１２０（ｘ，ｙ）＋ｔ）、式中、Ｄ１２０（ｘ，ｙ）は、深度マップ１２０における画素位置（ｘ，ｙ）での値である）。アフィンパラメータ１３２は、深度推定値１０８のスパースセットから推定され、次に、上述の式を使用して深度マップ１２０におけるすべての画素に適用され得る。深度マップ１２０はすべての画素について有効な深度を有するため、深度マップ１３８も、すべてについてメートル法のスケールを有するであろう。

深度マップ変換器１２６は、深度推定値１０８を深度マップ１２０と整列させるという目的を最小化する最適化問題（たとえば目的関数）を解くために、パラメータ推定アルゴリズムを実行するように構成される。言い換えれば、深度マップ変換器１２６は、アフィンパラメータ１３２を推定するために、深度推定値１０８を深度マップ１２０と整列させる目的関数を最小化するように構成される。たとえば、上述のように、深度推定値生成器１０６によって取得された深度推定値１０８は、スパース深度推定値（たとえば、画像データ１０４における画素のすべてではなく、それらのうちのいくつかについての深度推定値）と考えられてもよい。たとえば、画像フレーム１０４ａが１０×１０である場合、画像フレーム１０４ａは１００個の画素を含む。深度推定値１０８は、画像フレーム１０４ａにおける画素の部分集合（たとえば、１０×１０の画像の例では、１００未満の何らかの数）についての、メートル法のスケールでの深度推定値を含んでいてもよい。しかしながら、深度マップ１２０は、画像における各画素についての深度値を含み、ここで深度値は、０～１の数といった非メートル法の単位である。メートル法の深度推定値１０８（たとえばメートル法の深度値）を有する各画素について、深度マップ変換器１２６は、深度マップ１２０における対応する深度値（たとえば非メートル法の深度値）を取得し、メートル法の深度値と非メートル法の深度値とを使用してスケール１３４およびシフト１３６を推定してもよく、それは、スケール１３４×非メートル法の深度値＋シフト１３６－メートル法の深度値＝０である場合に誤差を最小化することを含んでいてもよい。いくつかの例では、深度マップ変換器１２６は、アフィンパラメータ１３２を推定するために、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ）ループ内で最小自乗パラメータ推定問題を解くように構成される。

図１Ｄを参照して、深度マップ変換器１２６は、深度推定値１０８を深度マップ１２０に投影するように構成されたデータ投影器１７６を含んでいてもよい。深度推定値１０８が視覚的特徴点１６２を含む場合、データ投影器１７６は、視覚的特徴点１６２を深度マップ１２０に投影する。深度マップ変換器１２６は、深度推定値１０８を深度マップ１２０と整列させるという目的を最適化問題が最小化するアフィンパラメータ１３２（たとえばスケール１３４、シフト１３６）を推定するために最適化問題を解くように構成されたパラメータ推定解決器１７８を含んでいてもよい。いくつかの例では、パラメータ推定解決器１７８は、ＲＡＮＳＡＣベースのパラメータ推定アルゴリズムを含む。いくつかの例では、パラメータ推定解決器１７８は、アフィンパラメータ１３２を推定するために、ＲＡＮＳＡＣループ内で最小自乗パラメータ推定問題を解くように構成される。

図１Ｅは、パラメータ推定解決器１７８の例示的な動作を示す。動作１０１で、パラメータ推定解決器１７８は、深度推定値１０８と深度マップ１２０との間の深度オフセットに基づいて、スケール１３４およびシフト１３６を決定する。パラメータ推定解決器１７８は、深度推定値１０８および深度マップ１２０における任意の２点を使用して、スケール１３４（たとえば逆深度についてのスケール）およびシフト１３６（たとえば逆数についてのシフト）を、以下の式に基づいて計算する。

式（２）：ｃ＝ｌ_ｉ－ｋｄ_ｉ
パラメータｋはスケール１３４を示し、パラメータｃはシフト１３６を示す。パラメータｌ_ｉは、（ｉ番目の深度予測に対応する）ｉ番目の推定値についての逆深度（たとえばメートル法の深度値）である。パラメータｄ_ｉは、ｉ番目の深度予測についての逆深度（たとえば非メートル法の深度値）である。パラメータｌ_ｊは、（ｊ番目の深度予測に対応する）ｊ番目の推定値についての逆深度（たとえばメートル法の深度値）である。パラメータｄ_ｊは、ｊ番目の深度予測についての逆深度（たとえば非メートル法の深度値）である。たとえば、ｌ_ｉおよびｌ_ｊは、深度推定値１０８における２点（たとえば２つの画素）についてのメートル法の深度値を表わしていてもよく、ｄ_ｉおよびｄ_ｊは、深度マップ１２０における対応する２点（たとえば２つの画素）の非メートル法の深度値を表わしていてもよい。

動作１０３で、パラメータ推定解決器１７８は、他のどの点（たとえば画素）が上述の解（たとえば式（１）および式（２））のインライアであるかを識別するための評価方法を、以下の式に基づいて実行する。

式（３）：ｅ＝（ｄ_ｉ－ｌ_ｉ）^２
式中、ｅ＜ｔであり、ｔはインライアしきい値（たとえばＲＡＮＳＡＣインライアしきい値）である。たとえば、非メートル法の深度値とメートル法の深度値とを有する特定の点（たとえば画素）について、パラメータ推定解決器１７８は非メートル法の深度値（ｄ_ｉ）とメートル法の深度値（ｌ_ｉ）とを取得し、自乗差がインライアしきい値未満である場合、その点はインライアとして識別される。

動作１０５で、パラメータ推定解決器１７８は、評価方法からのコンセンサス推定値から推定値を改良するために、スケール１３４（ｋ）およびシフト１３６（ｃ）のための最小自乗解決器を実行するように構成される。

図１Ａを再度参照して、深度マップ変換器１２６は、１つ以上の他の信号を使用して、ニューラルネットワーク１１８によって生成された深度マップ１２０のためのメートル法のスケールを提供することを支援してもよい。いくつかの例では、ニューラルネットワーク１１８は表面法線１２２ａを予測してもよく、深度マップ変換器１２６は、予測された表面法線１２２ａを深度推定値１０８とともに使用して、ニューラルネットワーク１１８によって生成された深度マップ１２０のためのメートル法のスケールを決定してもよい。たとえば、深度マップ変換器１２６は、深度マップ１３８から表面法線１２２ｂを予測し、深度マップ１３８から予測された表面法線１２２ｂとニューラルネットワーク１１８から予測された表面法線１２２ａとの間のオフセットを使用して、アフィンパラメータ１３２を決定することを支援してもよい。たとえば、深度マップ変換器１２６は、深度マップ１２０と深度推定値１０８との間のオフセット、および、ニューラルネットワーク１１８から予測された表面法線１２２ａと深度マップ１３８から予測された表面法線１２２ｂとの間のオフセットにペナルティを課すことができる目的関数を最小化してもよい。

いくつかの例では、深度マップ変換器１２６は、重力方向１１２および／または平面領域１１４を受信する。深度マップ変換器１２６は、重力方向１１２および平面領域１１４を（深度推定値１０８とともに）使用して、ニューラルネットワーク１１８によって生成された深度マップ１２０のためのメートル法のスケールを提供するように構成される。図１Ｆに示すように、重力方向１１２は、加速度計１２１から取得されてもよい。平面領域１１４は、画像データ１０４から検出されてもよい。いくつかの例では、図１Ｇに示すように、平面領域１１４は、視覚的特徴点１６２（たとえばＳＬＡＭ点）を使用して平面生成器１２３によって推定されてもよい。たとえば、平面生成器１２３は、画像データ１０４における平面領域１１４を検出する平面検出アルゴリズム（または平面適合アルゴリズム）を実行してもよい。重力方向１１２および平面領域１１４を使用して、深度マップ変換器１２６は、重力方向１１２（または、座標系に依存して、重力方向１１２の反対）と一致するように水平表面領域の表面法線１２２ｂにペナルティを課すことができる目的関数を最小化してもよい。

図１Ｈに示すように、深度推定値１０８、ポーズデータ１１０、重力方向１１２、および平面領域１１４は、クライアントＡＲアプリケーション１７３によって実行可能なＡＲセッション１７４中に取得されてもよい。ＡＲセッション１７４は、図４でさらに説明されるように、ユーザが多人数ＡＲ協調環境を作り出したかまたは当該環境に参加した場合に開始されてもよい。クライアントＡＲアプリケーション１７３は、モバイルコンピューティングデバイス上にインストールされて（および、モバイルコンピューティングデバイスによって実行可能であって）もよい。いくつかの例では、クライアントＡＲアプリケーション１７３は、１つ以上のＡＲアプリケーションとともに動作するソフトウェア開発キット（software development kit：ＳＤＫ）である。いくつかの例では、深度推定システム１００の他のコンポーネント（たとえば、深度推定値生成器１０６、センサシステム１０２など）と組合されて、クライアントＡＲアプリケーション１７３は、物理的空間に対するデバイスの位置を検出し追跡してポーズデータ１１０を取得し、異なるタイプの表面（たとえば、水平表面、垂直表面、角度のある表面）のサイズおよび場所を検出して平面領域１１４を取得し、加速度計１２１から重力方向１１２を取得し、深度推定値１０８（たとえば視覚的特徴点１６２）を生成するように構成される。ＡＲセッション１７４中、ユーザは仮想オブジェクトをシーン１２５に追加することができ、次に、複数のユーザがＡＲ環境に参加して、共有される物理的空間における異なる位置から同時にこれらの仮想オブジェクトを見て当該仮想オブジェクトと相互作用することができる。

図１Ｉに示すように、深度推定システム１００は、ニューラルネットワーク１１８を訓練または更新するように構成された畳み込みニューラルネットワーク（convolutional neural network：ＣＮＮ）訓練器１５５を含んでいてもよい。いくつかの例では、深度マップ１３８の精度は、深度および表面法線１２２ａを予測することによって高められ得る。表面法線は、より高次の構造的優先事項（structural priority）として見られてもよい。なぜなら、同じ３Ｄ平面に属する画素はすべて、同じ法線を有するものの、必ずしも同じ深度を有さないためである。したがって、表面法線１２２ａも予測するようにニューラルネットワーク１１８を訓練することにより、ニューラルネットワーク１１８は、シーン１２５における平面についてのより高次の知識を推論／推測するように訓練される。これは、仮想オブジェクトが通常配置されるシーン１２５における平面領域のためのより滑らかな深度をもたらし得る。

予測された深度と表面法線１２２ａとの整合性を促すために、自己整合性損失１８２（たとえば、教師なし自己整合性損失）が、ニューラルネットワーク１１８の訓練中に使用される。たとえば、ニューラルネットワーク１１８は、画像フレーム１０４ａから深度マップ１２０および表面法線１２２ａを予測し、深度マップ変換器１２６は、深度マップ１３８から表面法線１２２ｂを予測する。自己整合性損失１８２は、表面法線１２２ａと表面法線１２２ｂとの差に基づいて計算される。損失１８０（たとえば、教師あり損失）が、表面法線１２２ａとグラウンドトゥルース（ground truth）法線１２２ｃとの差に基づいて計算される。総損失１８４が、損失１８０および自己整合性損失１８２に基づいて計算される（たとえば、損失１８０が自己整合性損失１８２に加算される）。自己整合性損失１８２は、ニューラルネットワーク１１８に、表面法線１２２ａと表面法線１２２ｂとの間のいかなる偏差も最小化するよう促す。

図２は、ニューラルネットワーク２１８の一例を示す。ニューラルネットワーク２１８は、図１Ａ～１Ｉのニューラルネットワーク１１８の一例であってもよく、それらの図を参照して説明された詳細のいずれかを含んでいてもよい。いくつかの例では、ニューラルネットワーク２１８は、畳み込みニューラルネットワークである。ニューラルネットワーク２１８は、画像フレーム２０４ａを受信して、深度マップ２２０を生成する。深度マップ２２０は、図１Ａ～１Ｉの深度マップ１２０の一例であってもよく、それらの図を参照して説明された詳細のいずれかを含んでいてもよい。また、いくつかの例では、ニューラルネットワーク２１８は、表面法線（たとえば図１Ａ～１Ｉの表面法線１２２ａ）および平面領域１２４（たとえば図１Ａ～１Ｉの平面領域１２４）を予測するように構成される。いくつかの例では、ニューラルネットワーク２１８は、赤－緑－青（ＲＧＢ）画像から画素ごとの深度を予測するように構成されたＵネットアーキテクチャを含み、ここでＵネットアーキテクチャは、学習可能パラメータとのスキップ接続を有する符号器－復号器である。

ニューラルネットワーク１１８は、ダウンサンプラーユニット２４８－１、ダウンサンプラーユニット２４８－２、ダウンサンプラーユニット２４８－３、ダウンサンプラーユニット２４８－４、およびダウンサンプラーユニット２４８－５などの複数のダウンサンプラーユニットと、アップサンプラーユニット２４９－１、アップサンプラーユニット２４９－２、アップサンプラーユニット２４９－３、アップサンプラーユニット２４９－４、およびアップサンプラーユニット２４９－５などの複数のアップサンプラーユニットとを含んでいてもよい。各ダウンサンプラーユニット（たとえば、２４８－１、２４８－２、２４８－３、２４８－４、２４８－５）は、深度方向に分離可能な畳み込み２５２と、修正線形活性化関数（rectified linear activation function：ＲｅＬＵ）２５４と、最大プーリング演算２５６とを含む。各アップサンプラーユニット（たとえば２４９－１、２４９－２、２４９－３、２４９－４、２４９－５）は、深度方向に分離可能な畳み込み２５２と、修正線形活性化関数（ＲｅＬＵ）２５４と、双線形アップサンプリング演算２５８とを含む。最後のアップサンプラーユニット（たとえば２４９－５）の出力は、深度方向に分離可能な畳み込み２５２に提供され、次に修正線形活性化関数（ＲｅＬＵ）に提供される。

深度方向に分離可能な畳み込み２５２は、標準の畳み込みを、深度方向の畳み込みと、点ごとの畳み込みと呼ばれる１×１の畳み込みとに因数分解する、因数分解された畳み込みを含む。この因数分解は、計算およびモデルサイズを減少させる効果を有する。また、双線形アップサンプリング演算２５８の使用は、パラメータを転置畳み込みに減少させることができ、したがって、ネットワークのサイズを減少させる。いくつかの例では、ニューラルネットワーク２１８はブラープール符号器を使用してもよく、それは、ニューラルネットワーク２１８を、回転、スケーリング、ぶれ、およびノイズ変形などの破損に対してより頑強で安定したものにする、組合されたアンチエイリアスおよびサブサンプリング動作であってもよい。

図３は、メートル法の深度マップ３３８を使用して１つ以上の平面領域３９５（たとえばメートル法の平面領域）を検出または識別する平面生成器３９０の一例を示す。たとえば、平面領域３９５の場所およびサイズは、メートル法のスケールに従った情報によって識別されてもよい。いくつかの例では、平面生成器３９０は、図１Ａ～１Ｉの深度推定システム１００内に含まれており、それらの図を参照して説明された詳細のいずれかを含んでいてもよい。メートル法の平面領域とは、メートル法のスケールを用いる画像内のオブジェクトの平面であってもよい。いくつかの例では、平面生成器３９０は、メートル法の深度マップ３３８とポーズデータ３１０とを受信し、メートル法の深度マップ３３８から１つ以上の平面領域３９５を検出してもよい。

上述のように、アフィン曖昧性は、現実世界のスケールを必要とする（または当該スケールから利益を得る）いくつかのアプリケーションについては、困難をもたらす場合がある。たとえば、モバイルＡＲアプリケーションは、現実世界の寸法を有するカメラビューに仮想オブジェクトを配置することを伴う場合がある。しかしながら、現実世界のスケールでオブジェクトをレンダリングするために、仮想オブジェクトが配置される表面の深度をメートル単位で推定することが必要とされる場合がある。ここに説明される実施形態によれば、（たとえば図１Ａ～１Ｉの深度推定システム１００によって生成された）メートル法の深度マップ３３８は、画像データにおける少なくとも１つの平面領域３９５を推定するために使用されてもよく、ここで、少なくとも１つの平面領域３９５は、仮想オブジェクトを取り付けるための表面として使用されるように構成される。メートル法の深度マップ３３８を使用することにより、平面領域３９５を検出するための待ち時間を減少させることができる。たとえば、深度推定システム（たとえば図１Ａ～１Ｉの深度推定システム１００）は、畳み込みニューラルネットワークを使用して、配置されたオブジェクトのスケール／平面深度を予測することによって、配置待ち時間を減少させ得る（たとえば、単一の画像または少数の画像から深度を推定するため、ユーザによる動きをそれほど必要としなくなる）。さらに、深度推定システムは、白いテーブルなどの低テクスチャ表面から深度を予測し得る。

平面生成器３９０は、メートル法の深度マップ３３８を点群３９４に変換するように構成されたマップ変換器３９２を含んでいてもよい。平面生成器３９０は、点群３９４を使用して１つ以上の平面領域３９５を検出するように構成された平面適合アルゴリズムを実行する平面検出器３９６を含んでいてもよい。平面生成器３９０は、平面領域３９５を処理するように構成された検証モデル３９８を含み、それは、可視性および他の制約に基づいて１つ以上の平面領域３９５を拒否してもよい。

図４は、一局面に従ったＡＲシステム４５０を示す。図４を参照して、ＡＲシステム４５０は、第１のコンピューティングデバイス４１１－１と第２のコンピューティングデバイス４１１－２とを含み、第１のコンピューティングデバイス４１１－１のユーザと第２のコンピューティングデバイス４１１－２のユーザとは、共有されるＡＲ環境４０１に含まれる１つ以上の仮想オブジェクト４３０を見て当該仮想オブジェクト４３０と相互作用することができる。図４は２つのコンピューティングデバイスを示しているが、実施形態は、共有されるＡＲ環境４０１に参加することができる任意の数（たとえば３つ以上）のコンピューティングデバイスを包含する。第１のコンピューティングデバイス４１１－１と第２のコンピューティングデバイス４１１－２とは、１つ以上のアプリケーションプログラミングインターフェイス（application programming interface：ＡＰＩ）を介して、サーバコンピュータ４６１によって実行可能なＡＲ協調サービス４１５と通信するように構成される。

ＡＲ協調サービス４１５は、ユーザが共有できるマルチユーザまたは協調ＡＲ体験を生み出すように構成される。ＡＲ協調サービス４１５は、ネットワーク４５１を通して、第１のコンピューティングデバイス４１１－１と第２のコンピューティングデバイス４１１－２とを含む複数のコンピューティングデバイスと通信し、ここで第１のコンピューティングデバイス４１１－１のユーザと第２のコンピューティングデバイス４１１－２のユーザとは、同じＡＲ環境４０１を共有してもよい。ＡＲ協調サービス４１５は、ユーザが他のユーザと共有できるマルチプレーヤーまたは協調ＡＲ体験を生み出すための３Ｄマップを作成することを可能にしてもよい。ユーザは仮想オブジェクト４３０をシーン４２５に追加することができ、次に、複数のユーザが、共有される物理的空間における異なる位置から同時にこれらの仮想オブジェクト４３０を見て当該仮想オブジェクト４３０と相互作用することができる。

第１のコンピューティングデバイス４１１－１および／または第２のコンピューティングデバイス４１１－２は、スマートフォン、タブレット、ラップトップ、ウェアラブルデバイスなどといった任意のタイプのモバイルコンピューティングシステムであってもよい。ウェアラブルデバイスは、頭部装着型ディスプレイ（head-mounted display：ＨＭＤ）デバイス、たとえば、光学頭部装着型ディスプレイ（optical head-mounted display：ＯＨＭＤ）デバイス、透明ヘッドアップディスプレイ（heads-up display：ＨＵＤ）デバイス、拡張現実（ＡＲ）デバイス、もしくは、センサ、ディスプレイ、および計算能力を有するゴーグルまたはヘッドセットなどの他のデバイスを含んでいてもよい。いくつかの例では、ウェアラブルデバイスはスマート眼鏡を含む。スマート眼鏡とは、眼鏡の形状に設計された光学頭部装着型ディスプレイである。たとえば、スマート眼鏡は、着用者が眼鏡を通して見るものの傍らに情報を追加する眼鏡である。

ＡＲ環境４０１は、ユーザのビュー内に存在する物理的空間と、１つ以上の仮想オブジェクト４３０が位置付けられる仮想空間とを伴ってもよい。図４に示す仮想オブジェクト４３０はボックスとして示されているが、ユーザが追加する任意のタイプの仮想オブジェクトを含んでいてもよい。ＡＲ環境４０１を提供（またはレンダリング）することは次に、ユーザには仮想オブジェクト４３０がユーザのビュー内の物理的空間に存在するかまたは重なっているように見えるように仮想オブジェクト４３０を表示することによって、物理的空間のユーザのビューを変更することを伴ってもよい。仮想オブジェクト４３０の表示はしたがって、仮想空間と物理的空間との間のマッピングに従っている。仮想オブジェクト４３０を重ねることは、たとえば、仮想オブジェクト４３０を物理的空間のユーザの光学視野に重ね合わせることによって、１つ以上のディスプレイスクリーン上に物理的空間のユーザのビューを再生することによって、および／または、他のやり方で、たとえばヘッドアップディスプレイ、モバイルデバイスディスプレイスクリーンなどを使用することによって、実現されてもよい。

第１のコンピューティングデバイス４１１－１および／または第２のコンピューティングデバイス４１１－２は、深度推定システム４００を含む。深度推定システム４００は、図１Ａ～１Ｉの深度推定システム１００の一例であってもよく、それらの図を参照して説明された詳細のいずれかを含んでいてもよい。深度推定システム４００は、第１のコンピューティングデバイス４１１－１によって取り込まれた画像データを使用してメートル法の深度マップを生成し、メートル法の深度マップは、上述の手法のいずれかに従って１つ以上の平面領域４９５を検出するために使用される。いくつかの例では、平面領域４９５は、ユーザが平面領域４９５を見ることができるように、ユーザが仮想オブジェクト４３０を平面領域４９５に取り付けることができるように、ユーザに視覚的に示されてもよい。たとえば、第１のコンピューティングデバイス４１１－１のユーザは、仮想オブジェクト４３０を取り付けるために平面領域４９５を使用してもよい。第２のコンピューティングデバイス４１１－２が同じ物理的空間に入ると、ＡＲ協調サービス４１５は、ＡＲ環境４０１を第２のコンピューティングデバイス４１１－２のスクリーンにレンダリングしてもよく、そこでユーザは、第１のコンピューティングデバイス４１１－１のユーザによって追加された仮想オブジェクト４３０を見て当該仮想オブジェクト４３０と相互作用することができる。第２のコンピューティングデバイス４１１－２は、メートル法の深度マップを生成し、メートル法の深度マップを使用して１つ以上の平面領域４９５を検出するように構成された深度推定システム４００を含んでいてもよく、第２のコンピューティングデバイス４１１－２のユーザは、１つ以上の他の仮想オブジェクト４３０を、検出された平面領域４９５に追加してもよく、そこで第１のコンピューティングデバイス４１１－１のユーザは、当該他の仮想オブジェクト４３０を見て当該他の仮想オブジェクト４３０と相互作用することができるであろう。

図５は、深度推定システムの例示的な動作を表わすフローチャート５００を示す。これらの動作は図１Ａ～１Ｉの深度推定システム１００を参照して説明されるが、図５の動作は、ここに説明されるどのシステムにも適用可能であってもよい。図５のフローチャート５００は連続する順序の動作を示すが、これは一例に過ぎないこと、および、追加のまたは代替的な動作が含まれ得ることが理解されるであろう。また、図５の動作および関連動作は、図示されたものとは異なる順序で、または並行して、または重複して実行されてもよい。

動作５０２は、センサシステム１０２から画像データ１０４を受信することを含む。動作５０４は、ニューラルネットワーク１１８が画像データ１０４に基づいて深度マップ１２０（たとえば第１の深度マップ）を生成することを含み、深度マップ１２０は第１のスケールを有する。動作５０６は、画像データ１０４に関連付けられた深度推定値１０８を取得することを含む。動作５０８は、深度推定値１０８を使用して深度マップ１２０を深度マップ１３８（たとえば第２の深度マップ）に変換することを含み、深度マップ１３８は第２のスケールを有する。第１および第２のスケールは、異なる基準を用いる２つの異なる測定系に基づき得る、異なるスケールである。いくつかの例では、第１のスケールは、非メートル法のスケールである。いくつかの例では、第２のスケールは、メートル法のスケールである。また、深度推定値１０８は、第２のスケールに対応する深度値を有する。

図６は、深度推定システムの例示的な動作を表わすフローチャート６００を示す。これらの動作は図１Ａ～１Ｉの深度推定システム１００を参照して説明されるが、図６の動作は、ここに説明されるどのシステムにも適用可能であってもよい。図６のフローチャート６００は連続する順序の動作を示すが、これは一例に過ぎないこと、および、追加のまたは代替的な動作が含まれ得ることが理解されるであろう。また、図６の動作および関連動作は、図示されたものとは異なる順序で、または並行して、または重複して実行されてもよい。

動作６０２は、ニューラルネットワーク１１８が画像フレーム１０４ａに基づいて深度マップ１２０（たとえば第１の深度マップ）および第１の表面法線１２２ａを予測することを含み、深度マップ１２０は第１のスケール（たとえば非メートル法のスケール）を有する。動作６０４は、画像データ１０４に関連付けられた深度推定値１０８を取得することを含む。いくつかの例では、深度推定値１０８は、第２のスケール（たとえばメートル法のスケール）に従った深度値を有する。動作６０６は、深度推定値１０８を使用して深度マップ１２０を深度マップ１３８（たとえば第２の深度マップ）に変換することを含み、深度マップ１３８は第２のスケール（たとえばメートル法のスケール）を有する。動作６０８は、深度マップ１３８から第２の表面法線１２２ｂを推定することを含む。また、第１および第２のスケールは、異なる基準を用いる２つの異なる測定系に基づき得る、異なるスケールであることに留意されたい。

動作６１０は、第１の表面法線１２２ａと第２の表面法線１２２ｂとの差に基づいて自己整合性損失１８２を計算することを含む。いくつかの例では、自己整合性損失１８２は、教師なし損失である。いくつかの例では、フローチャート６００は、第１の表面法線１２２ａとグラウンドトゥルース法線１２２ｃとの差に基づいて損失１８０（たとえば教師あり損失）を計算することを含む。動作６１２は、自己整合性損失１８２に基づいてニューラルネットワーク１１８を更新することを含む。いくつかの例では、ニューラルネットワーク１１８は、自己整合性損失１８２および損失１８０に基づいて更新される。

図７は、深度推定システムの例示的な動作を表わすフローチャート７００を示す。これらの動作は図１Ａ～１Ｉの深度推定システム１００および図４のＡＲシステム４５０を参照して説明されるが、図７の動作は、ここに説明されるどのシステムにも適用可能であってもよい。図７のフローチャート７００は連続する順序の動作を示すが、これは一例に過ぎないこと、および、追加のまたは代替的な動作が含まれ得ることが理解されるであろう。また、図７の動作および関連動作は、図示されたものとは異なる順序で、または並行して、または重複して実行されてもよい。

動作７０２は、センサシステム１０２から画像データ１０４を受信することを含む。動作７０４は、ニューラルネットワーク１１８が画像データ１０４に基づいて深度マップ１２０（たとえば第１の深度マップ）を生成することを含み、深度マップ１２０は第１のスケール（たとえば非メートル法のスケール）を有する。動作７０６は、画像データ１０４に関連付けられた深度推定値１０８を取得することを含む。いくつかの例では、深度推定値１０８は、第２のスケール（たとえばメートル法のスケール）に従った深度値を有する。動作７０８は、深度推定値１０８を使用して深度マップ１２０を深度マップ１３８（たとえば第２の深度マップ）に変換することを含み、深度マップ１３８は第２のスケール（たとえばメートル法のスケール）を有する。動作７１０は、深度マップ１３８を使用して画像データ１０４における少なくとも１つの平面領域４９５を推定することを含み、少なくとも１つの平面領域４９５は、拡張現実（ＡＲ）セッション１７４中に仮想オブジェクト４３０を取り付けるための表面として使用されるように構成される。

例１：深度推定のための方法であって、方法は、センサシステムから画像データを受信するステップと、ニューラルネットワークが画像データに基づいて第１の深度マップを生成するステップとを含み、第１の深度マップは第１のスケールを有し、方法はさらに、画像データに関連付けられた深度推定値を取得するステップと、深度推定値を使用して第１の深度マップを第２の深度マップに変換するステップとを含み、第２の深度マップは第２のスケールを有する、方法。

例２：ニューラルネットワークが画像データに基づいて表面法線を生成するステップをさらに含む、例１に記載の方法。

例３：第１の深度マップは、表面法線および深度推定値を使用して第２の深度マップに変換される、例１～２のいずれかに記載の方法。

例４：画像データに基づいて視覚的特徴点を生成するステップをさらに含み、視覚的特徴点は深度推定値に関連付けられる、例１～３のいずれかに記載の方法。

例５：深度センサから深度推定値を取得するステップをさらに含む、例１～４のいずれかに記載の方法。

例６：深度推定値は、モバイルコンピューティングデバイスによって実行可能な拡張現実（ＡＲ）セッション中に取得される、例１～５のいずれかに記載の方法。

例７：第１の深度マップと深度推定値との間のオフセットに基づいてアフィンパラメータを推定するステップをさらに含み、アフィンパラメータは、スケールおよびシフトを含み、第１の深度マップは、アフィンパラメータに基づいて第２の深度マップに変換される、例１～６のいずれかに記載の方法。

例８：ニューラルネットワークが画像データに基づいて第１の表面法線を予測するステップと、第２の深度マップから第２の表面法線を予測するステップとをさらに含む、例１～７のいずれかに記載の方法。

例９：第１の表面法線および第２の表面法線に基づいて自己整合性損失を計算するステップをさらに含む、例１～８のいずれかに記載の方法。

例１０：自己整合性損失に基づいてニューラルネットワークを更新するステップをさらに含む、例１～９のいずれかに記載の方法。

例１１：第２の深度マップを使用して画像データにおける少なくとも１つの平面領域を推定するステップをさらに含み、少なくとも１つの平面領域は、仮想オブジェクトを取り付けるための表面として使用されるように構成される、例１～１０のいずれかに記載の方法。

例１２：深度推定システムであって、画像データを取得するように構成されたセンサシステムと、画像データに基づいて第１の深度マップを生成するように構成されたニューラルネットワークとを含み、第１の深度マップは第１のスケールを有し、深度推定システムはさらに、画像データに関連付けられた深度推定値を取得するように構成された深度推定値生成器と、深度推定値および第１の深度マップに基づいてアフィンパラメータを推定し、アフィンパラメータを使用して第１の深度マップを第２の深度マップに変換するように構成された深度マップ変換器とを含み、第２の深度マップは第２のスケールを有する、深度推定システム。

例１３：ニューラルネットワークは、モバイルコンピューティングデバイス上で実行されるように構成される、例１２に記載の深度推定システム。

例１４：視覚的特徴点を生成するように構成された視覚的慣性運動追跡器をさらに含み、視覚的特徴点は深度推定値に関連付けられる、例１２～１３のいずれかに記載の深度推定システム。

例１５：深度推定値を取得するように構成された深度センサをさらに含む、例１２～１４のいずれかに記載の深度推定システム。

例１６：深度推定値生成器は、拡張現実（ＡＲ）セッション中に深度推定値を取得するように構成され、深度推定値生成器は、ＡＲセッション中に、ポーズデータ、重力方向、および／または画像データにおける１つ以上の平面領域の識別情報も取得するように構成される、例１２～１５のいずれかに記載の深度推定システム。

例１７：アフィンパラメータは、第１の深度マップにおける各深度推定について、スケールおよびシフトを含む、例１２～１６のいずれかに記載の深度推定システム。

例１８：深度マップ変換器は、スケールおよびシフトを推定するための目的関数を最小化する、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ）ベースの解決器を含む、例１２～１７のいずれかに記載の深度推定システム。

例１９：ニューラルネットワーク訓練器をさらに含み、ニューラルネットワーク訓練器は、ニューラルネットワークを使用して画像データに基づいて第１の表面法線を予測し、第２の深度マップから第２の表面法線を予測し、第１の表面法線および第２の表面法線に基づいて自己整合性損失を計算し、第１の表面法線およびグラウンドトゥルース法線に基づいて損失を計算し、および／または、自己整合性損失および損失に基づいてニューラルネットワークを更新するように構成される、例１２～１８のいずれかに記載の深度推定システム。

例２０：第２の深度マップを使用して画像データにおける少なくとも１つの平面領域を推定するように構成された平面生成器をさらに含み、少なくとも１つの平面領域は、仮想オブジェクトを取り付けるための表面として使用されるように構成され、平面生成器は、第２の深度マップを点群に変換するように構成されたマップ変換器と、点群を使用して平面適合アルゴリズムに従って少なくとも１つの平面領域を検出するように構成された平面検出器とを含む、例１２～１９のいずれかに記載の深度推定システム。

例２１：少なくとも１つのプロセッサによって実行されると少なくとも１つのプロセッサに複数のステップを行なわせる実行可能命令を格納する、非一時的コンピュータ読取可能媒体であって、複数のステップは、センサシステムから画像データを受信するステップと、ニューラルネットワークが画像データに基づいて第１の深度マップを生成するステップとを含み、第１の深度マップは第１のスケールを有し、複数のステップはさらに、画像データに関連付けられた深度推定値を取得するステップと、深度推定値を使用して第１の深度マップを第２の深度マップに変換するステップとを含み、第２の深度マップは第２のスケールを有し、複数のステップはさらに、第２の深度マップを使用して画像データにおける少なくとも１つの平面領域を推定するステップを含み、少なくとも１つの平面領域は、拡張現実（ＡＲ）セッション中に仮想オブジェクトを取り付けるための表面として使用されるように構成される、非一時的コンピュータ読取可能媒体。

例２２：実行可能命令は、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに、第１の深度マップと深度推定値との間のオフセットに基づいてアフィンパラメータを推定するステップを行なわせる命令を含み、アフィンパラメータは、スケールおよびシフトを含み、第１の深度マップは、アフィンパラメータに基づいて第２の深度マップに変換される、例２１に記載の非一時的コンピュータ読取可能媒体。

例２３：深度推定値は、視覚的慣性運動追跡器、深度センサ、デュアル画素深度推定器、運動ステレオ深度推定器、スパースアクティブ深度推定器、および／または事前計算スパースマップのうちの少なくとも１つから取得される、例２１～２２のいずれかに記載の非一時的コンピュータ読取可能媒体。

例２４：実行可能命令は、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに、ニューラルネットワークが画像データに基づいて表面法線を生成するステップを行なわせる命令を含み、第１の深度マップは、表面法線および深度推定値を使用して第２の深度マップに変換される、例２１～２３のいずれかに記載の非一時的コンピュータ読取可能媒体。

図８は、ここに説明される手法を用いて使用され得る例示的なコンピュータデバイス８００および例示的なモバイルコンピュータデバイス８５０の一例を示す。コンピューティングデバイス８００は、プロセッサ８０２と、メモリ８０４と、記憶デバイス８０６と、メモリ８０４および高速拡張ポート８１０に接続している高速インターフェイス８０８と、低速バス８１４および記憶デバイス８０６に接続している低速インターフェイス８１２とを含む。コンポーネント８０２、８０４、８０６、８０８、８１０、および８１２の各々は、さまざまなバスを使用して相互接続されており、共通のマザーボード上に、または他の態様で適宜搭載され得る。プロセッサ８０２は、高速インターフェイス８０８に結合されたディスプレイ８１６などの外部入力／出力デバイス上にＧＵＩ用グラフィック情報を表示するためにメモリ８０４または記憶デバイス８０６に格納された命令を含む、コンピューティングデバイス８００内で実行される命令を処理することができる。他の実現化例では、複数のプロセッサおよび／または複数のバスが、複数のメモリおよび複数種類のメモリとともに適宜使用されてもよい。加えて、複数のコンピューティングデバイス８００が、各デバイスが（たとえばサーババンク、ブレードサーバ群、またはマルチプロセッサシステムとして）必要な動作の部分を提供する状態で接続されてもよい。

メモリ８０４は、コンピューティングデバイス８００内の情報を格納する。一実現化例では、メモリ８０４は揮発性メモリユニットである。別の実現化例では、メモリ８０４は不揮発性メモリユニットである。メモリ８０４はまた、磁気ディスクまたは光学ディスクといった、別の形態のコンピュータ読取可能媒体であってもよい。

記憶デバイス８０６は、コンピューティングデバイス８００のための大容量ストレージを提供することができる。一実現化例では、記憶デバイス８０６は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光学ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の同様のソリッドステートメモリデバイス、もしくは、ストレージエリアネットワークまたは他の構成のデバイスを含む一連のデバイスといった、コンピュータ読取可能媒体であってもよく、または当該コンピュータ読取可能媒体を含んでいてもよい。コンピュータプログラム製品が情報担体において有形に具体化され得る。コンピュータプログラム製品はまた、実行されると上述のような１つ以上の方法を行なう命令を含んでいてもよい。情報担体は、メモリ８０４、記憶デバイス８０６、またはプロセッサ８０２上のメモリといったコンピュータまたはマシン読取可能媒体である。

高速インターフェース８０８は、コンピューティングデバイス８００のための帯域幅集約的な動作を管理し、一方、低速インターフェース８１２は、より低い帯域幅集約的な動作を管理する。機能のそのような割当ては単なる例示である。一実現化例では、高速インターフェース８０８は、（たとえばグラフィックスプロセッサまたはアクセラレ－タを通して）メモリ８０４、ディスプレイ８１６に結合され、また、さまざまな拡張カード（図示せず）を受入れ得る高速拡張ポート８１０に結合される。当該実現化例では、低速インターフェース８１２は、記憶デバイス８０６および低速バス８１４に結合される。さまざまな通信ポート（たとえばＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット）を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナなどの１つ以上の入力／出力デバイス、もしくは、スイッチまたはルータなどのネットワーキングデバイスに、たとえばネットワークアダプタを通して結合されてもよい。

コンピューティングデバイス８００は、図に示すように多くの異なる形態で実現されてもよい。たとえば、それは標準サーバ８２０として、またはそのようなサーバの群で何度も実現されてもよい。それはまた、ラックサーバシステム８２４の一部として実現されてもよい。加えて、それは、ラップトップコンピュータ８２２などのパーソナルコンピュータで実現されてもよい。それに代えて、コンピューティングデバイス８００からのコンポーネントが、デバイス８５０などのモバイルデバイス（図示せず）における他のコンポーネントと組合されてもよい。そのようなデバイスの各々はコンピューティングデバイス８００、８５０のうちの１つ以上を含んでいてもよく、システム全体が、互いに通信する複数のコンピューティングデバイス８００、８５０から構成されてもよい。

コンピューティングデバイス８５０は、数あるコンポーネントの中でも特に、プロセッサ８５２と、メモリ８６４と、ディスプレイ８５４などの入力／出力デバイスと、通信インターフェイス８６６と、トランシーバ８６８とを含む。また、デバイス８５０には、追加のストレージを提供するために、マイクロドライブまたは他のデバイスなどの記憶デバイスが設けられてもよい。コンポーネント８５０、８５２、８６４、８５４、８６６、および８６８の各々は、さまざまなバスを使用して相互接続されており、これらのコンポーネントのうちのいくつかは、共通のマザーボード上に、または他の態様で適宜搭載され得る。

プロセッサ８５２は、メモリ８６４に格納された命令を含む、コンピューティングデバイス８５０内の命令を実行することができる。プロセッサは、別々の複数のアナログプロセッサおよびデジタルプロセッサを含むチップのチップセットとして実現されてもよい。プロセッサは、たとえば、ユーザインターフェイス、デバイス８５０によって実行されるアプリケーション、およびデバイス８５０による無線通信の制御といった、デバイス８５０の他のコンポーネントの連携を提供してもよい。

プロセッサ８５２は、ディスプレイ８５４に結合されたディスプレイインターフェイス８５６および制御インターフェイス８５８を通してユーザと通信してもよい。ディスプレイ８５４は、たとえば、ＴＦＴＬＣＤ（Thin-Film-Transistor Liquid Crystal Display：薄膜トランジスタ液晶ディスプレイ）、またはＯＬＥＤ（Organic Light Emitting Diode：有機発光ダイオード）ディスプレイ、または他の適切なディスプレイ技術であってもよい。ディスプレイインターフェイス８５６は、グラフィック情報および他の情報をユーザに提示するようにディスプレイ８５４を駆動するための適切な回路を含んでいてもよい。制御インターフェイス８５８は、ユーザからコマンドを受信し、当該コマンドをプロセッサ８５２に送信するために変換してもよい。加えて、デバイス８５０と他のデバイスとの近接領域通信を可能にするように、プロセッサ８５２と通信する外部インターフェイス８６２が提供されてもよい。外部インターフェイス８６２は、たとえば、いくつかの実現化例では有線通信を提供してもよく、他の実現化例では無線通信を提供してもよく、また、複数のインターフェイスが使用されてもよい。

メモリ８６４は、コンピューティングデバイス８５０内の情報を格納する。メモリ８６４は、コンピュータ読取可能媒体、揮発性メモリユニット、または不揮発性メモリユニットのうちの１つ以上として実現され得る。拡張メモリ８７４もデバイス８５０に提供され、たとえばＳＩＭＭ（Single In Line Memory Module：シングル・インライン・メモリ・モジュール）カードインターフェイスを含み得る拡張インターフェイス８７２を通して接続されてもよい。そのような拡張メモリ８７４はデバイス８５０のための追加の記憶空間を提供してもよく、または、デバイス８５０のためのアプリケーションまたは他の情報も格納してもよい。具体的には、拡張メモリ８７４は上述のプロセスを実行または補足するための命令を含んでいてもよく、セキュアな情報も含んでいてもよい。このため、たとえば、拡張メモリ８７４はデバイス８５０のためのセキュリティモジュールとして提供されてもよく、デバイス８５０のセキュアな使用を可能にする命令を用いてプログラムされてもよい。加えて、識別情報をハッキング不可能な態様でＳＩＭＭカード上に載せるなどして、セキュアなアプリケーションが追加情報とともにＳＩＭＭカードを介して提供されてもよい。

メモリは、以下に説明されるように、たとえばフラッシュメモリおよび／またはＮＶＲＡＭメモリを含んでいてもよい。一実現化例では、コンピュータプログラム製品が情報担体において有形に具体化される。コンピュータプログラム製品は、実行されると上述のような１つ以上の方法を行なう命令を含む。情報担体は、たとえばトランシーバ８６８または外部インターフェイス８６２を通して受信され得る、メモリ８６４、拡張メモリ８７４、またはプロセッサ８５２上のメモリといったコンピュータまたはマシン読取可能媒体である。

デバイス８５０は、必要に応じてデジタル信号処理回路を含み得る通信インターフェイス８６６を通して無線通信してもよい。通信インターフェイス８６６は、とりわけ、ＧＳＭ（登録商標）音声通話、ＳＭＳ、ＥＭＳまたはＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、またはＧＰＲＳといったさまざまなモードまたはプロトコル下で通信を提供してもよい。そのような通信は、たとえば無線周波数トランシーバ８６８を通して生じてもよい。加えて、ブルートゥース、Ｗｉ－Ｆｉ、または他のそのようなトランシーバ（図示せず）を使用するなどして、短距離通信が生じてもよい。加えて、ＧＰＳ（Global Positioning System：全地球測位システム）レシーバモジュール８７０が、ナビゲーションおよび位置に関連する追加の無線データをデバイス８５０に提供してもよく、当該データは、デバイス８５０上で実行されるアプリケーションによって適宜使用されてもよい。

デバイス８５０はまた、ユーザから口頭情報を受信してそれを使用可能なデジタル情報に変換し得る音声コーデック８６０を使用して、可聴的に通信してもよい。音声コーデック８６０も同様に、たとえばデバイス８５０のハンドセットにおけるスピーカなどを通して、ユーザのために可聴音を生成してもよい。そのような音は、音声電話からの音を含んでいてもよく、録音された音（たとえば音声メッセージ、音楽ファイルなど）を含んでいてもよく、また、デバイス８５０上で動作するアプリケーションによって生成された音を含んでいてもよい。

コンピューティングデバイス８５０は、図に示すように多くの異なる形態で実現されてもよい。たとえば、それは携帯電話８８０として実現されてもよい。それはまた、スマートフォン８８２、携帯情報端末、または他の同様のモバイルデバイスの一部として実現されてもよい。

ここに説明されるシステムおよび手法のさまざまな実現化例は、デジタル電子回路、集積回路、特別に設計されたＡＳＩＣ（application specific integrated circuit：特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せで実現され得る。これらのさまざまな実現化例は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能である１つ以上のコンピュータプログラムにおける実現化例を含んでいてもよく、当該プロセッサは専用であっても汎用であってもよく、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスとの間でデータおよび命令を送受信するように結合されてもよい。加えて、「モジュール」という用語は、ソフトウェアおよび／またはハードウェアを含んでいてもよい。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる）はプログラマブルプロセッサのためのマシン命令を含んでおり、高レベルの手続き型および／またはオブジェクト指向型プログラミング言語で、ならびに／もしくはアセンブリ／マシン言語で実現され得る。ここで使用される「マシン読取可能媒体」、「コンピュータ読取可能媒体」という用語は、マシン命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、装置、および／またはデバイス（たとえば、磁気ディスク、光学ディスク、メモリ、プログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ））を指しており、マシン命令をマシン読取可能信号として受信するマシン読取可能媒体を含む。「マシン読取可能信号」という用語は、マシン命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

ユーザとの相互作用を提供するために、ここに説明されるシステムおよび手法は、情報をユーザに表示するためのディスプレイデバイス（たとえばＣＲＴ（cathode-ray tube：陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター）と、ユーザがコンピュータに入力を提供する際に使用し得るキーボードおよびポインティングデバイス（たとえばマウスまたはトラックボール）とを有するコンピュータ上で実現され得る。他の種類のデバイスも、同様にユーザとの相互作用を提供するために使用され得る。たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（たとえば視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受信されてもよい。

ここに説明されるシステムおよび手法は、バックエンドコンポーネント（たとえばデータサーバ）を含む、もしくは、ミドルウェアコンポーネント（たとえばアプリケーションサーバ）を含む、もしくは、フロントエンドコンポーネント（たとえば、ここに説明されるシステムおよび手法の実現化例とユーザが相互作用できるようにするグラフィカルユーザインターフェイスまたはウェブブラウザを有するクライアントコンピュータ）を含む、もしくは、そのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントの任意の組合せを含む、コンピューティングシステムで実現され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体（たとえば通信ネットワーク）によって相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク（local area network：ＬＡＮ）、ワイドエリアネットワーク（wide area network：ＷＡＮ）、およびインターネットを含む。

コンピューティングシステムは、クライアントとサーバとを含み得る。クライアントとサーバとは一般に互いから離れており、典型的には通信ネットワークを通して相互作用する。クライアントとサーバとの関係は、コンピュータプログラムがそれぞれのコンピュータ上で実行され、互いにクライアント－サーバ関係を有することによって生じる。

いくつかの実現化例では、図８に示すコンピューティングデバイスは、仮想現実（ＶＲヘッドセット８９０）とインターフェイス接続するセンサを含み得る。たとえば、図８に示すコンピューティングデバイス８５０または他のコンピューティングデバイスに含まれる１つ以上のセンサが、ＶＲヘッドセット８９０に入力を提供するか、または概して、ＶＲ空間に入力を提供することができる。センサは、タッチスクリーン、加速度計、ジャイロスコープ、圧力センサ、バイオメトリックセンサ、温度センサ、湿度センサ、および周囲光センサを含み得るものの、これらに限定されない。コンピューティングデバイス８５０はこれらのセンサを使用して、ＶＲ空間におけるコンピューティングデバイスの絶対位置および／または検出された回転を判断することができ、それは次にＶＲ空間への入力として使用され得る。たとえば、コンピューティングデバイス８５０は、コントローラ、レーザポインタ、キーボード、武器などといった仮想オブジェクトとして、ＶＲ空間に組み込まれてもよい。ＶＲ空間に組み込まれる際のユーザによるコンピューティングデバイス／仮想オブジェクトの位置付けは、ユーザが、ＶＲ空間において仮想オブジェクトを特定の態様で見るようにコンピューティングデバイスを位置付けることができるようにする。たとえば、仮想オブジェクトがレーザポインタを表わす場合、ユーザはコンピューティングデバイスを、それが実際のレーザポインタであるかのように操作することができる。ユーザはコンピューティングデバイスを左右、上下、円形などに動かして、レーザポインタを使用するのと同様の態様でデバイスを使用することができる。

いくつかの実現化例では、コンピューティングデバイス８５０に含まれるかまたはそれに接続される１つ以上の入力デバイスが、ＶＲ空間への入力として使用され得る。入力デバイスは、タッチスクリーン、キーボード、１つ以上のボタン、トラックパッド、タッチパッド、ポインティングデバイス、マウス、トラックボール、ジョイスティック、カメラ、マイク、入力機能性を有するイヤホンまたはイヤバッド、ゲーミングコントローラ、または他の接続可能な入力デバイスを含み得るものの、それらに限定されない。コンピューティングデバイスがＶＲ空間に組み込まれる際にコンピューティングデバイス８５０に含まれる入力デバイスと相互作用するユーザは、特定のアクションがＶＲ空間で生じるようにすることができる。

いくつかの実現化例では、コンピューティングデバイス８５０のタッチスクリーンは、ＶＲ空間においてタッチパッドとしてレンダリングされ得る。ユーザは、コンピューティングデバイス８５０のタッチスクリーンと相互作用することができる。相互作用は、たとえばＶＲヘッドセット８９０において、ＶＲ空間におけるレンダリングされたタッチパッド上の動きとしてレンダリングされる。レンダリングされた動きは、ＶＲ空間においてオブジェクトを制御することができる。

いくつかの実現化例では、コンピューティングデバイス８５０に含まれる１つ以上の出力デバイスが、ＶＲ空間においてＶＲヘッドセット８９０のユーザに出力および／またはフィードバックを提供することができる。出力およびフィードバックは、視覚的、触覚的、または音声的であり得る。出力および／またはフィードバックは、振動、１つ以上のライトまたはストロボを点灯および消灯すること、もしくは明滅および／または点滅させること、アラームを鳴らすこと、チャイムを鳴らすこと、曲をかけること、ならびに音声ファイルを再生することを含み得るものの、これらに限定されない。出力デバイスは、振動モータ、振動コイル、圧電装置、静電装置、発光ダイオード（ＬＥＤ）、ストロボ、およびスピーカを含み得るものの、これらに限定されない。

いくつかの実現化例では、コンピューティングデバイス８５０は、コンピュータにより生成される３Ｄ環境において別のオブジェクトとして現れてもよい。ユーザによるコンピューティングデバイス８５０との相互作用（たとえば、タッチスクリーンを回転させること、振動させること、タッチスクリーンに触れること、タッチスクリーンを横切って指でスワイプすること）は、ＶＲ空間におけるオブジェクトとの相互作用として解釈され得る。ＶＲ空間におけるレーザポインタの例では、コンピューティングデバイス８５０は、コンピュータにより生成される３Ｄ環境において仮想レーザポインタとして現れる。ユーザがコンピューティングデバイス８５０を操作すると、ＶＲ空間におけるユーザはレーザポインタの動きを見る。ユーザは、コンピューティングデバイス８５０またはＶＲヘッドセット８９０についての、ＶＲ空間におけるコンピューティングデバイス８５０との相互作用からのフィードバックを受信する。

いくつかの実現化例では、コンピューティングデバイスに加えて、１つ以上の入力デバイス（たとえばマウス、キーボード）が、コンピュータにより生成される３Ｄ環境においてレンダリングされ得る。レンダリングされた入力デバイス（たとえばレンダリングされたマウス、レンダリングされたキーボード）は、ＶＲ空間においてオブジェクトを制御するためにＶＲ空間においてレンダリングされるように使用され得る。

コンピューティングデバイス８００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータといった、さまざまな形態のデジタルコンピュータを表わすよう意図されている。コンピューティングデバイス８５０は、携帯情報端末、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスといった、さまざまな形態のモバイルデバイスを表わすよう意図されている。ここに示す構成要素、それらの接続および関係、ならびにそれらの機能は単なる例示として意図されており、この文書で説明および／または請求される発明の実現化例を限定するよう意図されてはいない。

多くの実施形態が説明されてきたが、明細書の精神および範囲から逸脱することなくさまざまな変更が加えられ得ることが理解されるであろう。

加えて、図に示す論理フローは、望ましい結果を達成するために、図示された特定の順序または連続する順序を必要としない。加えて、説明されたフローに他のステップが提供されてもよく、またはそこからステップが削除されてもよく、説明されたシステムに他の構成要素が追加されてもよく、またはそこから除去されてもよい。したがって、他の実施形態は特許請求の範囲内にある。

Claims

深度推定のための方法であって、前記方法は、
センサシステムから画像データを受信するステップと、
ニューラルネットワークが前記画像データに基づいて第１の深度マップを生成するステップとを含み、前記第１の深度マップは第１のスケールを有し、前記方法はさらに、
前記画像データに関連付けられた深度推定値を取得するステップと、を含み、前記深度推定値は第２のスケールに従った値を有し、前記方法は、
前記深度推定値と前記第１の深度マップとに基づいて少なくとも１つのアフィンパラメータを推定し、前記少なくとも１つのアフィンパラメータを使用して前記第１の深度マップを第２の深度マップに変換するステップとを含み、前記第２の深度マップは前記第２のスケールを有し、
前記第１のスケールと前記第２のスケールは異なるスケールである、方法。
前記ニューラルネットワークが前記画像データに基づいて表面法線を生成するステップをさらに含み、
前記第１の深度マップは、前記表面法線および前記深度推定値を使用して前記第２の深度マップに変換される、請求項１に記載の方法。
前記第１の深度マップと前記深度推定値との間のオフセットに基づいて前記少なくとも１つのアフィンパラメータを推定するステップをさらに含み、前記少なくとも１つのアフィンパラメータは、スケールまたはシフトのうちの少なくとも１つを含む、請求項１または２に記載の方法。
深度推定のための方法であって、前記方法は、
センサシステムから画像データを受信するステップと、
ニューラルネットワークが前記画像データに基づいて第１の深度マップを生成するステップとを含み、前記第１の深度マップは第１のスケールを有し、前記方法はさらに、
前記画像データに関連付けられた深度推定値を取得するステップと、
前記深度推定値を使用して前記第１の深度マップを第２の深度マップに変換するステップとを含み、前記第２の深度マップは第２のスケールを有し、前記方法は、
前記ニューラルネットワークが前記画像データに基づいて第１の表面法線を予測するステップと、
前記第２の深度マップから第２の表面法線を予測するステップと、
前記第１の表面法線および前記第２の表面法線に基づいて自己整合性損失を計算するステップと、
前記自己整合性損失に基づいて前記ニューラルネットワークを更新するステップとをさらに含む、方法。
前記画像データに基づいて視覚的特徴点を生成するステップをさらに含み、前記視覚的特徴点は前記深度推定値に関連付けられる、請求項１～４のいずれか１項に記載の方法。
深度センサから前記深度推定値を取得するステップをさらに含む、請求項１～５のいずれか１項に記載の方法。
前記深度推定値は、モバイルコンピューティングデバイスによって実行可能な拡張現実（ＡＲ）セッション中に取得される、請求項１～６のいずれか１項に記載の方法。
前記第２の深度マップを使用して前記画像データにおける少なくとも１つの平面領域を推定するステップをさらに含み、前記少なくとも１つの平面領域は、仮想オブジェクトを取り付けるための表面として使用されるように構成される、請求項１～７のいずれか１項に記載の方法。
深度推定システムであって、
画像データを取得するように構成されたセンサシステムと、
前記画像データに基づいて第１の深度マップを生成するように構成されたニューラルネットワークとを含み、前記第１の深度マップは第１のスケールを有し、前記深度推定システムはさらに、
前記画像データに関連付けられた深度推定値を取得するように構成された深度推定値生成器と、を含み、前記深度推定値は第２のスケールに従った値を有し、
前記深度推定値および前記第１の深度マップに基づいて少なくとも１つのアフィンパラメータを推定し、前記少なくとも１つのアフィンパラメータを使用して前記第１の深度マップを第２の深度マップに変換するように構成された深度マップ変換器とを含み、前記第２の深度マップは前記第２のスケールを有し、
前記第１のスケールと前記第２のスケールは異なるスケールである、深度推定システム。
深度推定システムであって、
画像データを取得するように構成されたセンサシステムと、
前記画像データに基づいて第１の深度マップを生成するように構成されたニューラルネットワークとを含み、前記第１の深度マップは第１のスケールを有し、前記深度推定システムはさらに、
前記画像データに関連付けられた深度推定値を取得するように構成された深度推定値生成器と、
前記深度推定値および前記第１の深度マップに基づいて少なくとも１つのアフィンパラメータを推定し、前記少なくとも１つのアフィンパラメータを使用して前記第１の深度マップを第２の深度マップに変換するように構成された深度マップ変換器とを含み、前記第２の深度マップは第２のスケールを有し、
ニューラルネットワーク訓練器をさらに含み、前記ニューラルネットワーク訓練器は、
前記ニューラルネットワークを使用して前記画像データに基づいて第１の表面法線を予測し、
前記第２の深度マップから第２の表面法線を予測し、
前記第１の表面法線および前記第２の表面法線に基づいて自己整合性損失を計算し、
前記第１の表面法線およびグラウンドトゥルース法線に基づいて損失を計算し、
前記自己整合性損失および前記損失に基づいて前記ニューラルネットワークを更新するように構成される、深度推定システム。
前記ニューラルネットワークは、モバイルコンピューティングデバイス上で実行されるように構成される、請求項９または１０に記載の深度推定システム。
視覚的特徴点を生成するように構成された視覚的慣性運動追跡器をさらに含み、前記視覚的特徴点は前記深度推定値に関連付けられる、請求項９～１１のいずれか１項に記載の深度推定システム。
前記深度推定値を取得するように構成された深度センサをさらに含む、請求項９～１２のいずれか１項に記載の深度推定システム。
前記深度推定値生成器は、拡張現実（ＡＲ）セッション中に前記深度推定値を取得するように構成され、前記深度推定値生成器は、前記ＡＲセッション中に、ポーズデータ、重力方向、および、前記画像データにおける１つ以上の平面領域の識別情報も取得するように構成される、請求項９～１３のいずれか１項に記載の深度推定システム。
前記少なくとも１つのアフィンパラメータは、前記第１の深度マップにおける各深度推定値について、スケールまたはシフトのうちの少なくとも１つを含む、請求項９～１４のいずれか１項に記載の深度推定システム。
前記深度マップ変換器は、前記スケールまたは前記シフトのうちの少なくとも１つを推定するための目的関数を最小化する、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ）ベースの解決器を含む、請求項１５に記載の深度推定システム。
前記第２の深度マップを使用して前記画像データにおける少なくとも１つの平面領域を推定するように構成された平面生成器をさらに含み、前記少なくとも１つの平面領域は、仮想オブジェクトを取り付けるための表面として使用されるように構成され、前記平面生成器は、前記第２の深度マップを点群に変換するように構成されたマップ変換器と、前記点群を使用して平面適合アルゴリズムに従って前記少なくとも１つの平面領域を検出するように構成された平面検出器とを含む、請求項９～１６のいずれか１項に記載の深度推定システム。
コンピュータの少なくとも１つのプロセッサによって実行されると、前記コンピュータに、請求項１～８のいずれか１項に記載の方法を実施させる、コンピュータプログラム。
前記深度推定値は、視覚的慣性運動追跡器、深度センサ、デュアル画素深度推定器、運動ステレオ深度推定器、スパースアクティブ深度推定器、または事前計算スパースマップのうちの少なくとも１つから取得される、請求項１８に記載のコンピュータプログラム。