JP2022519194A

JP2022519194A - 奥行き推定

Info

Publication number: JP2022519194A
Application number: JP2021542489A
Authority: JP
Inventors: トリスタン・ウィリアム・レイドロー; ヤン・チャルノフスキ; ステファン・ロイテンエッガー
Original assignee: Imperial College Innovations Ltd
Current assignee: Ip2ipo Innovations Ltd
Priority date: 2019-01-24
Filing date: 2020-01-15
Publication date: 2022-03-22
Also published as: GB2580691A; GB201901007D0; US20210350560A1; WO2020152437A1; CN113330486A; US11941831B2; KR20210119417A; GB2580691B

Abstract

シーンの奥行きを推定する画像処理システムが提供される。画像処理システムは、融合エンジンを備え、融合エンジンは、幾何学的再構成エンジンからの第１の奥行き推定と、ニューラルネットワークアーキテクチャからの第２の奥行き推定と、を受信する。融合エンジンは、第１の奥行き推定と第２の奥行き推定とを確率的に融合させて、シーンの融合奥行き推定を出力するように構成される。融合エンジンは、幾何学的再構成エンジンからの第１の奥行き推定の不確実性測定と、ニューラルネットワークアーキテクチャからの第２の奥行き推定の不確実性測定と、を受信し、不確実性測定を使用して、第１の奥行き推定と第２の奥行き推定とを確率的に融合させるように構成される。

Description

本発明は、シーンの奥行きを推定することに関する。本発明は、ロボットデバイスがその環境内をナビゲートし及び／またはインタラクトするのに使用する奥行き推定に、排他的ではないが特に関する。

コンピュータビジョン及びロボット工学の分野では、頻繁に３次元（３Ｄ）空間の表現を構築する必要がある。３Ｄ空間の表現を構築することにより、現実世界の環境を仮想領域またはデジタル領域にマッピングすることが可能となり、電子デバイスにより使用及び操作され得る。例えば、拡張現実アプリケーションでは、ユーザは、ハンドヘルドデバイスを使用して、周囲環境内のエンティティに対応する仮想オブジェクトとインタラクトし得る、または移動可能なロボットデバイスは、位置特定及びマッピング同時実行、従ってその環境のナビゲーションを可能にするために、３Ｄ空間の表現が必要であり得る。多くのアプリケーションでは、インテリジェントシステムが、デジタル情報ソースを物理オブジェクトに結び付けることができるように、環境の表現を有する必要があり得る。これにより、人を取り巻く物理環境がインターフェースとなる高度なヒューマン‐マシンインターフェースが可能となる。同様に、このような表現により、高度なマシン‐世界インターフェースも可能となり得、例えば、ロボットデバイスが現実世界の環境で物理オブジェクトとインタラクトして操作することが可能となる。

３Ｄ空間の表現を構築するのに利用可能な技法がいくつか存在する。例えば、運動からの構造復元、並びに位置特定及びマッピング同時実行（ＳＬＡＭ）が、そのような技法の２つである。ＳＬＡＭ技法は、通常、マッピングする３Ｄシーンの奥行きの推定を伴う。奥行き推定は、深度カメラを使用して行われ得る。しかし、深度カメラは通常、範囲が制限され、消費電力が比較的高く、明るい日光などの屋外環境では正しく機能しない場合がある。他の事例では、奥行き推定は、例えば空間の画像に基づいて、深度カメラを使用せずに、行われ得る。

２０１７年のＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）に関するＩＥＥＥ会議の議事録に記載されるＫ．Ｔａｔｅｎｏｅｔａｌ．による論文「ＣＮＮ－ＳＬＡＭ：Ｒｅａｌ－ｔｉｍｅｄｅｎｓｅｍｏｎｏｃｕｌａｒＳＬＡＭｗｉｔｈｌｅａｒｎｅｄｄｅｐｔｈｐｒｅｄｉｃｔｉｏｎ」は、畳み込みニューラルネットワーク（ＣＮＮ）により取得された奥行きマップと、直接単眼ＳＬＡＭから取得された奥行き測定との融合を説明する。不鮮明な奥行き境界を回復させるために、ＣＮＮ予測奥行きマップが再構成の初期推定として使用され、ピクセルごとの小ベースラインステレオマッチングに依存する直接ＳＬＡＭスキームにより、連続的に精緻化される。しかし、この手法では、全体的な一貫性は保持されない。

既存の技法を考えると、例えば３Ｄ空間のマッピングを改善するために、奥行き推定の有効で効率的な方法が望まれる。

本発明の第１の態様による、シーンの奥行きを推定する画像処理システムが提供される。画像処理システムは、融合エンジンを備え、融合エンジンは、幾何学的再構成エンジンからの第１の奥行き推定と、ニューラルネットワークアーキテクチャからの第２の奥行き推定とを受信し、第１の奥行き推定と第２の奥行き推定とを確率的に融合させて、シーンの融合奥行き推定を出力し、融合エンジンは、幾何学的再構成エンジンからの第１の奥行き推定の不確実性測定と、ニューラルネットワークアーキテクチャからの第２の奥行き推定の不確実性測定と、を受信するように構成され、融合エンジンは、不確実性測定を使用して、第１の奥行き推定と第２の奥行き推定とを確率的に融合させるように構成される。

いくつかの実施例では、融合エンジンは、ニューラルネットワークアーキテクチャから表面配向推定及び表面配向推定の不確実性測定を受信し、表面配向推定及び表面配向推定の不確実性測定を使用して、第１の奥行き推定と第２の推定とを確率的に融合させるように構成される。

いくつかの実施例では、表面配向推定には、第１の方向の奥行き勾配推定、第１の方向に直交する方向の奥行き勾配推定、及び表面法線推定のうちの１つ以上が含まれる。

いくつかの実施例では、融合エンジンは、第１の奥行き推定と第２の推定とを確率的に融合させる時に、スケール推定を特定するように構成される。

いくつかの実施例では、シーンは、ビデオデータの第１のフレームでキャプチャされ、ビデオデータの第１のフレームについての第２の奥行き推定が受信され、第１の奥行き推定には、ビデオデータの第１のフレームについての複数の第１の奥行き推定が含まれ、複数の第１の奥行き推定のうちの少なくとも１つは、ビデオデータの第１のフレームとは異なるビデオデータの第２のフレームを使用して生成され、融合エンジンは、反復ごとに第２の奥行き推定と複数の奥行き推定のうちの１つとを処理して、シーンの融合奥行き推定を反復的に出力するように構成される。

いくつかの実施例では、第１の奥行き推定、第２の奥行き推定、及び融合奥行き推定はそれぞれ、複数のピクセルについての奥行きマップを含む。

いくつかの実施例では、第１の奥行き推定は、中密度奥行き推定であり、第２の奥行き推定及び融合奥行き推定はそれぞれ、高密度奥行き推定を含む。

いくつかの実施例では、システムは、ビデオデータのフレームをキャプチャする単眼カメラと、シーンを観察している間の単眼カメラの姿勢を特定する追跡システムと、幾何学的再構成エンジンと、を備える。このような実施例では、幾何学的再構成エンジンは、追跡システムからの姿勢と、ビデオデータのフレームとを使用して、ビデオデータのフレームからピクセルの少なくとも部分集合についての奥行き推定を生成するように構成され、幾何学的再構成エンジンは、測光誤差を最小化して、奥行き推定を生成するように構成される。

いくつかの実施例では、システムは、ニューラルネットワークアーキテクチャを備え、ニューラルネットワークアーキテクチャは、１つ以上のニューラルネットワークを含み、ビデオデータのフレームのピクセル値を受信し、予測を行うように構成され、当該予測では、第２の奥行き推定を生成するために、画像部分の第１の集合のそれぞれについての奥行き推定と、画像部分の第２の集合のそれぞれについての少なくとも１つの表面配向推定と、各奥行き推定に関連付けられた１つ以上の不確実性測定と、各表面配向推定に関連付けられた１つ以上の不確実性測定と、が予測される。

本発明の第２の態様による、シーンの奥行きを推定する方法が提供される。方法は、シーンの幾何学的再構成を使用して、シーンの第１の奥行き推定を生成することであって、幾何学的再構成は、第１の奥行き推定の不確実性測定を出力するように構成される、当該生成することと、ニューラルネットワークアーキテクチャを使用して、シーンの第２の奥行き推定を生成することであって、ニューラルネットワークアーキテクチャは、第２の奥行き推定の不確実性測定を出力するように構成される、当該生成することと、不確実性測定を使用して、第１の奥行き推定と第２の奥行き推定とを確率的に融合させて、シーンの融合奥行き推定を生成することと、を含む。

いくつかの実施例では、方法は、第１の奥行き推定を生成する前に、シーンの２つ以上のビューを表す画像データをカメラから取得することを含む。このような実施例では、第１の奥行き推定を生成することは、カメラの姿勢推定を取得することと、少なくとも姿勢推定と画像データとの関数である測光誤差を最小化することにより、第１の奥行き推定を生成することと、を含む。

いくつかの実施例では、方法は、第１の奥行き推定を生成する前に、シーンの１つ以上のビューを表す画像データをカメラから取得することを含む。このような実施例では、第２の奥行き推定を生成することは、ニューラルネットワークアーキテクチャで、画像データを受信することと、第２の奥行き推定を生成するために、ニューラルネットワークアーキテクチャを使用して、画像部分の集合のそれぞれについて奥行き推定を予測することと、ニューラルネットワークアーキテクチャを使用して、画像部分の集合のそれぞれについて少なくとも１つの表面配向推定を予測することと、ニューラルネットワークアーキテクチャを使用して、各奥行き推定及び各表面配向推定の不確実性測定の集合を予測することと、を含む。表面配向推定には、第１の方向の奥行き勾配推定、第１の方向に直交する方向の奥行き勾配推定、及び表面法線推定のうちの１つ以上が含まれ得る。

いくつかの実施例では、方法は、第１の奥行き推定を生成する前に、シーンの２つ以上のビューを表す画像データをカメラから取得することを含み、画像データは複数のピクセルを含む。このような実施例では、第１の奥行き推定を生成することは、カメラの姿勢推定を取得することと、画像データ内のピクセルの一部についての奥行き推定を含む中密度奥行き推定を生成することと、を含む。これらの実施例では、第２の奥行き推定を生成することは、画像データ内のピクセルについて高密度奥行き推定を生成することを含み、第１の奥行き推定と第２の奥行き推定とを確率的に融合させることは、画像データ内のピクセルについて高密度奥行き推定を出力することを含む。

いくつかの実施例では、方法は、反復的に繰り返され、後続の反復に関して、方法は、第２の奥行き推定を生成するか否かを判定することを含み、第１の奥行き推定と第２の奥行き推定とを確率的に融合させることは、第２の奥行き推定を生成しないという判定に応じて、第２の奥行き推定の前の値の集合を使用することを含む。

いくつかの実施例では、方法は、ビデオデータのフレームに適用され、第１の奥行き推定と第２の奥行き推定とを確率的に融合させることは、ビデオデータの所与のフレームについて、第１の奥行き推定に関連付けられた第１のコスト項と、第２の奥行き推定に関連付けられた第２のコスト項とを含むコスト関数を最適化することを含む。このような実施例では、第１のコスト項は、融合奥行き推定値と、第１の奥行き推定値と、第１の奥行き推定の不確実性値との関数を含み、第２のコスト項は、融合奥行き推定値と、第２の奥行き推定値と、第２の奥行き推定の不確実性値との関数を含み、コスト関数を最適化して、融合奥行き推定値が特定される。コスト関数を最適化することは、融合奥行き推定のスケールファクタを特定することを含み得、スケールファクタは、シーンに関する融合奥行き推定のスケールを示す。いくつかの実施例では、方法は、ニューラルネットワークアーキテクチャを使用して、シーンの少なくとも１つの表面配向推定を生成することを含み、ニューラルネットワークアーキテクチャは、少なくとも１つの表面配向推定のそれぞれについて不確実性測定を出力するように構成され、コスト関数は、少なくとも１つの表面配向推定に関連付けられた第３のコスト項を含み、第３のコスト項は、融合奥行き推定値と、表面配向推定値と、少なくとも１つの表面配向推定のそれぞれについての不確実性値との関数を含む。

第２の態様による特定の実施例集合では、シーンの幾何学的再構成は、シーンの第１の奥行き確率体積を生成するように構成され、第１の奥行き確率体積は、第１の奥行き推定を含む第１の複数の奥行き推定と、第１の複数の奥行き推定の各奥行き推定にそれぞれ関連付けられた第１の複数の不確実性測定と、を含み、第１の複数の奥行き推定のうちの所与の奥行き推定に関連付けられた不確実性測定は、シーンの所与の領域が、第１の複数の奥行き推定のうちの所与の奥行き推定により表される奥行きに存在する確率を表し、ニューラルネットワークアーキテクチャは、シーンの第２の奥行き確率体積を出力するように構成され、第２の奥行き確率体積は、第２の奥行き推定を含む第２の複数の奥行き推定と、第２の複数の奥行き推定の各奥行き推定にそれぞれ関連付けられた第２の複数の不確実性測定と、を含み、第２の複数の奥行き推定のうちの所与の奥行き推定に関連付けられた不確実性測定は、シーンの所与の領域が、第２の複数の奥行き推定のうちの所与の奥行き推定により表される奥行きに存在する確率を表す。

特定の実施例集合のうちのいくつかの実施例では、シーンの第２の奥行き推定を生成することは、ニューラルネットワークアーキテクチャを使用してシーンの画像を表す画像データを処理して、第２の奥行き確率体積を生成することを含み、第２の複数の奥行き推定は、複数の奥行き推定集合を含み、それぞれがシーンの画像の異なる各部分に関連付けられる。

特定の実施例集合のうちのいくつかの実施例では、第２の複数の奥行き推定は、事前に定義された値を有する奥行き推定を含む。事前に定義された値の間には、不均一な間隔があり得る。事前に定義された値は、事前に定義された奥行き範囲内の複数の対数奥行き値を含み得る。

特定の実施例集合のうちのいくつかの実施例では、シーンの第１の奥行き確率体積を生成することは、シーンの第１の観察を表すビデオデータの第１のフレームと、シーンの第２の観察を表すビデオデータの第２のフレームとを処理して、第１のフレームの複数の部分のそれぞれについて測光誤差の集合を生成することであって、測光誤差はそれぞれ、第１の複数の奥行き推定の異なる各奥行き推定に関連付けられる、当該生成することと、測光誤差をスケーリングして、測光誤差をそれぞれの確率値に変換することと、を含む。

特定の実施例集合のうちのいくつかの実施例では、不確実性測定を使用して第１の奥行き推定と第２の奥行き推定とを確率的に融合させることは、第１の複数の不確実性測定と第２の複数の不確実性測定とを組み合わせて、融合確率体積を生成することを含む。これらの実施例では、シーンの融合奥行き推定を生成することは、融合確率体積からシーンの融合奥行き推定を取得することを含み得る。これらの実施例は、融合確率体積を使用して奥行き確率関数を取得することと、奥行き確率関数を使用して、融合奥行き推定を取得することと、を含み得る。これらの実施例では、融合奥行き推定を取得することは、コスト関数を最適化することを含み得、当該コスト関数は、融合確率体積を使用して取得された第１のコスト項と、奥行き値に対する局所的な幾何学的制約を含む第２のコスト項と、を含む。このような事例では、方法は、さらなるニューラルネットワークアーキテクチャから、表面配向推定及びオクルージョン境界推定を受信することと、表面配向推定及びオクルージョン境界推定を使用して、第２のコスト項を生成することと、をさらに含み得る。これらの実施例では、融合奥行き確率体積は、シーンの第１の観察を表すビデオデータの第１のフレームに関連付けられた第１の融合奥行き確率体積であり得、方法は、第１の融合奥行き確率体積を、第１の占有確率体積に変換することと、シーンを観察している間のカメラの姿勢を表す姿勢データに基づいて、第１の占有確率体積をワープさせて、シーンの第２の観察を表すビデオデータの第２のフレームに関連付けられた第２の占有確率体積を取得することと、第２の占有確率体積を、第２のフレームに関連付けられた第２の融合奥行き確率体積に変換することと、を含み得る。

本発明の第３の態様による、シーンの奥行きを推定する画像処理システムが提供され、画像処理システムは、幾何学的再構成エンジンからの第１の奥行き確率体積と、ニューラルネットワークアーキテクチャからの第２の奥行き確率体積とを受信し、第１の奥行き確率体積と第２の奥行き確率体積とを融合させて、シーンの融合奥行き確率体積を出力する、融合エンジンと、融合奥行き確率体積を使用して、シーンの奥行きを推定する奥行き推定エンジンと、を備える。

本発明の第４の態様による、シーンの奥行きを推定する方法が提供され、方法は、シーンの幾何学的再構成を使用して、シーンの第１の奥行き確率体積を生成することと、ニューラルネットワークアーキテクチャを使用して、シーンの第２の奥行き確率体積を生成することと、第１の奥行き確率体積と第２の奥行き確率体積とを融合させて、シーンの融合奥行き確率体積を生成することと、融合奥行き確率体積を使用して、シーンの融合奥行き推定を生成することと、を含む。

本発明の第５の態様によるコンピューティングシステムが提供され、コンピューティングシステムは、ビデオのフレームを提供する単眼キャプチャデバイスと、単眼キャプチャデバイスの姿勢データを提供する位置特定及びマッピング同時実行システムと、第１または第３の態様のシステムと、姿勢データ及びビデオのフレームを受信して、幾何学的再構成エンジンを実施する中密度マルチビューステレオコンポーネントと、ニューラルネットワークアーキテクチャを実施する電子回路と、を備える。

本発明の第６の態様によるロボットデバイスが提供され、ロボットデバイスは、第５の態様のコンピューティングシステムと、ロボットデバイスが周囲の３次元環境とインタラクトすることを可能にする１つ以上のアクチュエータであって、周囲の３次元環境の少なくとも一部がシーンに示される、当該１つ以上のアクチュエータと、１つ以上のアクチュエータを制御する少なくとも１つのプロセッサを有するインタラクションエンジンであって、融合奥行き推定を使用して周囲の３次元環境とインタラクトする当該インタラクションエンジンと、を備える。

本発明の第７の態様による、コンピュータ実行可能命令を含む非一時的コンピュータ可読記憶媒体が提供され、コンピュータ実行可能命令は、プロセッサにより実行されると、コンピューティングデバイスに、前述の方法のうちのいずれかを実行させる。

添付の図面を参照する単なる例として与えられた本発明の実施形態の下記の説明から、さらなる機能が明らかになるであろう。

３次元（３Ｄ）空間の実施例を示す概略図である。３Ｄ空間における例示的なオブジェクトの利用可能な自由度を示す概略図である。例示的なキャプチャデバイスにより生成されるビデオデータを示す概略図である。実施例による画像処理システムの概略図である。さらなる実施例による、画像処理システムの概略図である。さらなる別の実施例による、画像処理システムの概略図である。実施例による、表面配向推定及び表面配向推定の不確実性測定を示す概略図である。さらなる別の実施例による、画像処理システムの概略図である。実施例による、コンピューティングシステムのコンポーネントを示す概略図である。実施例による、ロボットデバイスのコンポーネントを示す概略図である。図１～７を参照して説明された様々な機能の実施例を示す概略図である。シーンの奥行きを推定する例示的な方法を示すフロー図である。シーンの奥行きを推定するさらなる例示的な方法を示すフロー図である。プロセッサと、コンピュータ実行可能命令を含む非一時的コンピュータ可読記憶媒体との実施例を示す概略図である。さらなる実施例による、シーンの第１の奥行き推定と第２の奥行き推定との融合を示す概略図である。実施例による、第２の奥行き確率体積を取得するためのシステムの概略図である。図１３のシステムを使用して取得されたそれぞれの奥行き推定に関連付けられた不確実性測定の実施例を示す概略図である。実施例による、第１の奥行き確率体積を取得するためのシステムの概略図である。シーンの融合奥行き推定を取得する例示的な方法を示すフロー図である。図１６の方法を使用することにより、融合奥行き推定を取得するためのシステムの概略図である。第２の融合奥行き確率体積を取得する例示的な方法を示すフロー図である。さらなる実施例による、シーンの奥行きを推定する例示的な方法を示すフロー図である。さらなる実施例による、シーンの奥行きを推定する画像処理システムの概略図である。

本明細書で説明されるいくつかの実施例は、シーンの奥行きを推定することを可能にする。このような実施例は、シーンの幾何学的再構成を使用したシーンの第１の奥行き推定の生成を含む。第１の奥行き推定は、例えばシーンの画像を処理することにより、生成され得る。画像は、例えば、２次元（２Ｄ）カラー画像であり得、例えばＲＧＢ（赤、緑、青）画像であり得る。第１の奥行き推定は、幾何学的制約に基づいて生成され得る。例えば、シーンの所与の部分を表す画像内のピクセルの色は、画像をキャプチャするのに使用されるカメラの位置とは無関係であると想定され得る。これは、図を参照してさらに説明されるように、第１の奥行き推定の生成に利用され得る。幾何学的再構成はまた、例えば第１の奥行き推定の正確度を示す第１の奥行き推定の不確実性測定を出力するように構成される。例えば、第１の奥行き推定が多く制約を受け、正確に推定され得る場合、不確実性測定は、第１の奥行き推定が少なく制約を受けた他の事例より、低くなり得る。

ニューラルネットワークアーキテクチャを使用して、シーンの第２の奥行き推定が生成される。ニューラルネットワークアーキテクチャはまた、第２の奥行き推定の不確実性測定を出力するように構成される。例えば、入力画像から奥行き推定及び関連する不確実性の両方を予測するようにトレーニングされた畳み込みニューラルネットワーク（ＣＮＮ）などのニューラルネットワークアーキテクチャを使用して、シーンの画像は処理され得る。不確実性測定は、関連する第２の奥行き推定の信頼性を示し得る。例えば、ニューラルネットワークアーキテクチャのトレーニングに使用されたトレーニングデータに存在しなかったオブジェクトを含む画像領域の第２の奥行き推定は、比較的不確実であり得、よって、ニューラルネットワークアーキテクチャから取得された比較的高い不確実性測定に関連付けられ得る。反対に、トレーニングデータに存在したオブジェクトを含む画像領域の第２の奥行き推定は、より低い不確実性測定に関連付けられ得る。

第１の奥行き推定と第２の奥行き推定は、不確実性測定を使用して確率的に融合され、シーンの融合奥行き推定が生成される。このように第１の奥行き推定と第２の奥行き推定とを組み合わせることにより、融合奥行き推定の精度は向上し得る。例えば第１の奥行き推定（幾何学的制約に基づく）は、シーンの一部分をシーンの別の部分と比較して、シーンの当該部分の信頼できる相対的な奥行き推定を提供し得る。このようにして、第１の奥行き推定は、例えばシーンの他の部分と比較して、実世界環境内の好適な位置にシーンの当該部分を配置あるいは位置特定することが可能であり得る。しかし、第１の奥行き推定は、例えばシーンのその部分内の表面の不均一なテクスチャが原因で、シーンのその部分内の奥行きの変化など、シーンのその部分内の奥行き勾配をキャプチャする精度が低くあり得る。対照的に、第２の奥行き推定（ニューラルネットワークアーキテクチャから取得される）は、シーン内の奥行き勾配を正確にキャプチャし得るが、シーンの所与の部分をシーンの他の部分と比較して位置特定する精度は、低くあり得る。しかし、不確実性測定を使用して第１の奥行き推定と第２の奥行き推定とを確率的に融合させることにより、第１の奥行き推定及び第２の奥行き推定それぞれの個々の効果が相乗的に増強され得、よって、融合奥行き推定の精度が向上する。例えば、融合奥行き推定の全体的一貫性を確保するために、不確実性測定は、第１の奥行き推定と第２の奥行き推定との融合を制約し得る。さらに、シーンの推定奥行きにおける不鮮明なアーチファクトは、他の方法と比較して減少し得る。

図１Ａ及び図１Ｂは、３Ｄ空間の実施例と、その空間に関連付けられた画像データのキャプチャとを、概略的に示す。次に、図１Ｃは、空間を表示する時に画像データを生成するように構成されたキャプチャデバイスを示す。これらの実施例は、本明細書で説明されるいくつかの機能をよりよく説明するために提示されており、限定するものとしてみなされるべきではなく、説明をしやすくするために、いくつかの機能は省略及び簡略化されている。

図１Ａは、３Ｄ空間１１０の実施例１００を示す。３Ｄ空間１１０は、内部物理空間及び／または外部物理空間、例えば部屋または地理的場所の少なくとも一部であり得る。本実施例１００の３Ｄ空間１１０は、３Ｄ空間内に配置された、いくつかの物理オブジェクト１１５を含む。これらのオブジェクト１１５には、とりわけ、人、電子デバイス、家具、動物、建物部分、及び設備のうちの１つ以上が含まれ得る。図１Ａの３Ｄ空間１１０は、下面が示されているが、これが全ての実施態様においてそうである必要はなく、例えば環境は、空中または地球外空間内であってもよい。

実施例１００はまた、３Ｄ空間１１０に関連付けられたビデオデータをキャプチャするのに使用され得る様々な例示的なキャプチャデバイス１２０－Ａ、１２０－Ｂ、１２０－Ｃ（参照番号１２０と総称される）を示す。図１Ａのキャプチャデバイス１２０－Ａなどのキャプチャデバイスは、３Ｄ空間１１０を観察することにより生じるデータを、デジタル形式またはアナログ形式で記録するように構成されたカメラを備え得る。例えば、キャプチャデバイス１２０－Ａは、単眼カメラなどの単眼キャプチャデバイスであり得る。単眼カメラは通常、１度に１つの位置からシーンの画像をキャプチャし、単一のレンズまたはレンズシステムを有し得る。対照的に、ステレオカメラは一般に、少なくとも２つのレンズを含み、レンズごとに個別の画像センサを有する。キャプチャデバイス１２０－Ａとして使用可能な単眼キャプチャデバイスは、複数の角度位置から３Ｄ空間１１０の画像をキャプチャするように配置された単眼多方向カメラデバイスであり得る。使用時、複数の画像が次々にキャプチャされ得る。いくつかの事例では、複数の角度位置は、広い視野を占める。特定の事例では、キャプチャデバイス１２０－Ａは、全方向カメラ、例えば実質的に３６０度の視野をキャプチャするように構成されたデバイスを備え得る。この事例では、全方向カメラは、パノラマ環状レンズを有するデバイスを備え得、例えばレンズは、電荷結合アレイに関連して取り付けられ得る。

複数の異なる位置から３Ｄ空間の複数の画像をキャプチャするために、キャプチャデバイス１２０－Ａは、移動可能であり得る。例えば、キャプチャデバイス１２０－Ａは、３Ｄ空間１１０の異なる観察部分に対応する異なるフレームをキャプチャするように構成され得る。キャプチャデバイス１２０－Ａは、静止台を基準にして移動可能であり得、例えば３Ｄ空間１１０に関してカメラの位置及び／または配向を変更させるアクチュエータを備え得る。別の事例では、キャプチャデバイス１２０－Ａは、人間のユーザにより操作及び移動されるハンドヘルドデバイスであり得る。一事例では、キャプチャデバイス１２０－Ａは、一連の画像をキャプチャするように構成されたカメラなどの静止画像デバイスを備え得、別の事例では、キャプチャデバイス１２０－Ａは、一連の画像をビデオフレームの形式で含むビデオデータをキャプチャするビデオデバイスを備え得る。例えば、キャプチャデバイス１２０－Ａは、ビデオデータのフレームをキャプチャする、あるいは取得する単眼カメラまたは単眼キャプチャデバイスであり得る。

図１Ａでは、３Ｄ空間１１０内を移動するように構成されたロボットデバイス１３０に接続された複数のキャプチャデバイス１２０－Ｂ、１２０－Ｃも示される。ロボットデバイス１３５には、自律空中可動デバイス及び／または自律地上可動デバイスが含まれ得る。本実施例１００では、ロボットデバイス１３０は、アクチュエータ１３５を備え、アクチュエータ１３５は、デバイスが３Ｄ空間１１０をナビゲートすることを可能にする。これらのアクチュエータ１３５には、例示のホイールが含まれ、他の事例では、これらのアクチュエータ１３５には、線路、穿孔機構、ローターなどが含まれ得る。このようなデバイス上に、１つ以上のキャプチャデバイス１２０－Ｂ、１２０－Ｃは、静的にまたは移動可能に取り付けられ得る。いくつかの事例では、ロボットデバイスは、３Ｄ空間１１０内に静的に取り付けられ得るが、アームまたは他のアクチュエータなどのデバイスの一部は、空間内を移動して、空間内のオブジェクトとインタラクトするように構成され得る。各キャプチャデバイス１２０－Ｂ、１２０－Ｃは、異なる種類の画像データ、ビデオデータをキャプチャし得、及び／またはステレオ画像ソースを含み得る。一事例では、キャプチャデバイス１２０－Ｂ、１２０－Ｃのうちの少なくとも１つは、測光データ、例えばカラー画像またはグレースケール画像をキャプチャするように構成される。一事例では、キャプチャデバイス１２０－Ｂ、１２０－Ｃのうちの１つ以上は、ロボットデバイス１３０とは無関係に移動可能であり得る。一事例では、キャプチャデバイス１２０－Ｂ、１２０－Ｃのうちの１つ以上は、例えば角度のある円弧で回転する、及び／または３６０度で回転する回転機構上に取り付けられ得、並びに／あるいはシーンのパノラマ（例えば最大３６０度の完全パノラマ）をキャプチャするように適合された光学素子で構成される。いくつかの事例では、キャプチャデバイス１２０－Ａと同様または同一のキャプチャデバイスが、図１Ａのキャプチャデバイス１２０－Ｂ、１２０－Ｃのうちの一方または両方として、使用され得ることが、理解されよう。

図１Ｂは、キャプチャデバイス１２０及び／またはロボットデバイス１３０が利用可能な自由度の実施例１４０を示す。１２０－Ａなどのキャプチャデバイスの事例では、デバイスの方向１５０は、レンズまたは他の撮像装置の軸と同一線上であり得る。３軸のうちの１軸の周りを回転する例として、法線軸１５５が図に示される。同様に、ロボットデバイス１３０の事例では、ロボットデバイス１３０のアライメント方向１４５が定義され得る。これは、ロボットデバイスの向き及び／または進行方向を示し得る。法線軸１５５も示される。キャプチャデバイス１２０またはロボットデバイス１３０に関して単一の法線軸のみが示されるが、これらのデバイスは、後述されるように、１４０として概略的に示される軸のうちのいずれか１つ以上の軸の周りを回転し得る。

より一般的には、キャプチャデバイスの配向及び位置は、６自由度（６ＤＯＦ）を基準にして３次元において定義され得、位置は、３次元の各次元内に、例えば［ｘ、ｙ、ｚ］座標により定義され得、配向は、３軸の各軸の周りの回転を表す角度ベクトル、例えば［θ_ｘ、θ_ｙ、θ_ｚ］により定義され得る。位置及び配向は、例えば３Ｄ座標系内で定義された原点を基準とした、３次元内の変換とみなされ得る。例えば、［ｘ、ｙ、ｚ］座標は、原点から３Ｄ座標系内の特定の位置への変換を表し得、角度ベクトル［θ_ｘ、θ_ｙ、θ_ｚ］は、３Ｄ座標系内の回転を定義し得る。６ＤＯＦを有する変換は、行列として定義され得、よって行列による乗算により、変換が適用される。いくつかの実施態様では、キャプチャデバイスは、制限された６自由度の集合を基準にして定義され得、例えば地上車両上のキャプチャデバイスの場合、ｙ次元は一定であり得る。ロボットデバイス１３０などのいくつかの実施態様では、別のデバイスに接続されたキャプチャデバイスの配向及び位置は、その別のデバイスの配向及び位置を基準にして定義され得、例えばロボットデバイス１３０の配向及び位置を基準にして定義され得る。

本明細書で説明される実施例では、例えば６ＤＯＦ変換行列で記述されたように、キャプチャデバイスの配向及び位置は、キャプチャデバイスの姿勢として定義され得る。同様に、例えば６ＤＯＦ変換行列で記述されたように、オブジェクト表現の配向及び位置は、オブジェクト表現の姿勢として定義され得る。例えばビデオデータまたは一連の静止画像が記録される時、キャプチャデバイスが時間ｔ＋１に時間ｔとは異なる姿勢を取り得るように、キャプチャデバイスの姿勢は経時的に変化し得る。キャプチャデバイスを備えたハンドヘルドモバイルコンピューティングデバイスの事例では、ハンドヘルドデバイスはユーザにより３Ｄ空間１１０内を移動させられるため、その姿勢は変化し得る。

図１Ｃは、キャプチャデバイス構成の実施例を概略的に示す。図１Ｃの実施例１６０では、キャプチャデバイス１６５は、画像データ１７０を生成するように構成される。図１Ｃでは、画像データ１７０は、複数のフレーム１７５を含む。各プレーム１７５は、図１の１１０などの３Ｄ空間の画像がキャプチャされる期間内の特定の時間ｔに関連し得る（すなわちＦ_ｔ）。フレーム１７５は通常、測定データの２Ｄ表現から成る。例えば、フレーム１７５は、時間ｔに記録されたピクセル値の２Ｄ配列または行列を含み得る。図１Ｃの実施例では、画像データ内の全てのフレーム１７５は同じサイズであるが、これは全ての実施例においてそうである必要はない。フレーム１７５内のピクセル値は、３Ｄ空間の特定の部分の測定を表す。図１Ｃでは、画像データは、単眼キャプチャデバイスからのシーンの複数のビューを表し、複数のビューのそれぞれは、異なる各時間ｔにキャプチャされたものである。しかし、他の事例では、キャプチャデバイス（すなわち画像キャプチャシステムまたはビデオキャプチャシステム）によりキャプチャされた画像データは、互いに同じ時間、または少なくとも部分的に重複する時間にキャプチャされたシーンの複数のビューを表し得る。これは、キャプチャデバイスがステレオキャプチャシステムである事例であり得る。

図１Ｃの実施例では、各フレーム１７５は、測光データを含む。測光データは通常、輝度、強度、色など、画像の測光特性を表す。図１Ｃでは、各フレーム１７５は、フレーム１７５の各ピクセルの強度値を含み、これは、例えばカラーバンドまたはカラーチャネルごとに０～２５５のグレースケールレベルまたは輝度レベルで記憶され得る。例えばグレースケールレベル０は最も暗い強度（例えば黒）に該当し、例えばグレースケールレベル２５５は最も明るい強度（例えば白）に該当し、グレースケールレベル０～２５５は、黒と白との間の中間強度に該当する。図１Ｃでは、測光データは、所与の解像度の赤、緑、青のピクセル強度値を表す。ゆえに、各フレーム１７５は、カラー画像を表し、フレーム内の各［ｘ、ｙ］ピクセル値は、ＲＧＢベクトル［Ｒ、Ｇ、Ｂ］を含む。一実施例として、カラーデータの解像度は、６４０×４８０ピクセルであり得る。他の実施例では、他のカラー空間が使用され得、及び／または測光データは、他の測光特性を表し得る。

キャプチャデバイス１６５は、接続されたデータストレージデバイスに画像データ１７０を記憶するように構成され得る。別の事例では、キャプチャデバイス１６５は、画像データ１７０を、例えばデータストリームとして、またはフレームごとに、接続されたコンピューティングデバイスに送信し得る。接続されたコンピューティングデバイスは、例えばユニバーサルシリアルバス（ＵＳＢ）接続を介して直接接続され得る、または間接的に接続され得、例えば画像データ１７０は、１つ以上のコンピュータネットワークを介して送信され得る。さらに別の事例では、キャプチャデバイス１６５は、画像データ１７０を１つ以上のコンピュータネットワークを介して送信し、ネットワーク接続ストレージデバイスに記憶するように構成され得る。画像データ１７０は、フレームごとに、または例えば複数のフレームがまとめられ得るバッチベースで、記憶及び／または送信され得る。

画像データ１７０はまた、後述の実施例で使用される前に、１つ以上の前処理動作が実行され得る。一事例では、２つのフレーム集合が共通のサイズ及び解像度を有するように、前処理が適用され得る。

いくつかの事例では、キャプチャデバイス１６５は、画像データ形式でビデオデータを生成するように構成され得る。しかし、ビデオデータは、異なる各時間にキャプチャされた複数のフレームを同様に表し得る。一事例では、キャプチャデバイス１６５によりキャプチャされたビデオデータは、圧縮されたビデオストリームまたはファイルを含み得る。この事例では、例えばビデオデコーダの出力として、ストリームまたはファイルからビデオデータのフレームが再構成され得る。ビデオストリームまたはファイルの前処理に続いて、メモリ位置からビデオデータが取得され得る。

図１Ｃは実施例として提供され、後述の方法及びシステムで使用する画像データ１７０を生成するために、図に示される構成とは異なる構成を使用してもよいことが、理解されよう。画像データ１７０にはさらに、３Ｄ空間のキャプチャされたまたは記録されたビューを表す２次元形式で構成された任意の測定感覚入力が含まれ得る。例えば、これは、数ある中でも、測光データ、奥行きデータ電磁撮像、超音波撮像及びレーダ出力が挙げられ得る。これらの事例では、特定のデータ形式に関連付けられた撮像デバイス、例えば奥行きデータのないＲＧＢデバイスのみが必要になり得る。

図２は、シーンの奥行きを推定するための例示的な画像処理システム２００を示す。図２の画像処理システム２００では、幾何学的再構成エンジンにより、第１の奥行き推定２３０、及び第１の奥行き推定２３０の不確実性測定２３５が生成される。第１の奥行き推定２３０、及び第１の奥行き推定２３０の不確実性測定２３５は、まとめて第１の奥行きデータ２５０と称され得る。幾何学的再構成エンジンは、例えばシーンの少なくとも２つの画像を処理することにより、第１の奥行き推定２３０を取得するように構成される。図１Ａ～図１Ｃを参照して説明されたように、少なくとも２つの画像は、任意の好適なキャプチャデバイスを使用してキャプチャされ得、ＲＧＢデータなどの画像データとして表され得る。幾何学的再構成エンジンは、測光技法を利用して、第１の奥行き推定２３０を生成し得る。例えば、シーンの所与の部分の画像を取得するのに使用されたキャプチャデバイスの位置に関係なく、シーンの所与の部分は、同じ測光特性（輝度、強度、及び／または色など）を有するはずである。幾何学的再構成エンジンは、これを利用して、第１の奥行き推定２３０を生成し得る。一実施例として、幾何学的再構成エンジンは、異なるそれぞれの位置からキャプチャされた同一シーンの少なくとも２つの画像を処理して、測光誤差を最小化するシーンの所与の部分の奥行きを特定し得る。例えば、第１の奥行き推定２３０がシーンの所与の部分の実際の奥行きに最も近い時、測光誤差を最小化することができる。しかし、これは単なる例であり、他の実施例では、他の幾何学的技法を使用して第１の奥行き推定２３０が生成され得る。特に、例えば図２を参照して本明細書で説明される幾何学的再構成技法は、例えば単眼システムを使用して取得され得る２つの画像を使用するが、他の実施例、例えば単一ステレオ画像の事例では、１つ以上の画像が使用され得る。

いくつかの事例では、第１の奥行き推定２３０を生成する前に、シーンの２つ以上のビューを表す画像データが、カメラなどのキャプチャデバイスから取得される。このような事例では、第１の奥行き推定２３０を生成することは、カメラの姿勢推定を取得することと、少なくとも姿勢推定と画像データとの関数である測定誤差を最小化することにより、第１の奥行き推定２３０を生成することと、を含む。

カメラの姿勢推定は通常、画像データにより表される画像をキャプチャしている間のカメラの位置及び配向を示す。画像データが、例えばビデオのフレームに対応する一連のビューを表す場合、姿勢推定は、ビデオのフレームを通した経時的なカメラの位置及び配置を示し得る。例えば、画像データは、環境（部屋の内部など）の方々にカメラ（ＲＧＢカメラなど）を移動させることにより、取得され得る。従って、ビデオのフレームの少なくとも部分集合（ゆえに画像データにより表される画像の部分集合）は、フレームが記録された時間のカメラの位置及び配向を表す対応姿勢推定を有し得る。姿勢推定は、ビデオの全てのフレーム（または一連の画像の全ての画像）に存在するわけではないが、カメラが取得したビデオまたは複数の画像のうちの画像の部分集合の記録された時間範囲内の時間の部分集合に関して、特定され得る。

カメラの姿勢推定を取得するために、様々な異なる方法が使用され得る。例えば、カメラの姿勢は、画像データを受信し姿勢を出力する既知のＳＬＡＭシステムを使用して推定され得、位置及び配向を示すカメラのセンサを使用して、及び／またはカスタム姿勢追跡方法を使用して、推定され得る。ＳＬＡＭシステムでは、例えば、カメラの姿勢は、経時的にカメラがキャプチャした画像の処理に基づいて、推定され得る。

少なくともポーズ推定と画像データとの関数である測光誤差を最小化することにより、第１の奥行き推定２３０を取得することができる。いくつかの事例では、マッピング関数を適用して、第１の画像（シーンの第１のビューに対応）のピクセルを、第２の画像（シーンの第２のビューに対応）の対応位置にマッピングして、第１の画像の再マッピングバージョンが取得され得る。このようなマッピング関数は、例えば、第１の画像をキャプチャしている間のカメラの推定姿勢と、第１の画像のピクセルの奥行きに依存する。次に、第１の画像の再マッピングバージョンのピクセルごとに、測光特性が特定され得る（例えば所与のピクセルの強度値を返す強度関数を使用して）。次に、同じ強度関数を使用して、（カメラにより取得された）第１の画像のピクセルごとに、対応する測光特性が特定され得る。所与の奥行きのピクセルに関連付けられた測光特性（ピクセル強度値など）は、カメラの姿勢とは無関係であるはずのため、第１の画像の再マッピングバージョン及び第１の画像自体の測光特性は、奥行きが正しく推定されると、同一になるはずである。このようにして、第１の画像のピクセルの奥行きは、反復的に変更され得、測光誤差（例えば第１の画像の測光特性と、第１の画像の再マッピングバージョンの測光特性との差に基づく）は、反復ごとに計算され得る。所与のピクセルについての第１の奥行き推定２３０は、このような測光誤差を最小化する奥行き値であると考えられ得る。実施例では、測光誤差最小化プロセス中に反復的に使用される奥行き推定は、画像のエピポーラ線に沿い得る。所与のピクセルについて奥行き推定が既に存在する場合（例えば所与のピクセルに対応するピクセルを有する前のフレームまたは画像から取得済みである場合）、測光誤差計算に反復的に入力される奥行き推定は、前の奥行き推定の所与の範囲内であり得、例えば前の奥行き推定に関連付けられた不確実性測定を２回プラスマイナスした範囲内であり得る。これは、奥行き値のより可能性のある範囲内で好適な奥行き値の検索に集中することにより、第１の奥行き推定２３０の生成の効率性を向上させ得る。いくつかの事例では、最小測光誤差に関連付けられた奥行き値に近い、または当該奥行き値を含む２つの隣接する奥行き値の間で、補間が実行され得る。第１の奥行き推定２３０を取得するための好適な方法が、２０１３年のＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ）の議事録に掲載されたＪ．Ｅｎｇｅｌｅｔａｌ，による論文「Ｓｅｍｉ－ＤｅｎｓｅＶｉｓｕａｌＯｄｏｍｅｔｒｙｆｏｒａＭｏｎｏｃｕｌａｒＣａｍｅｒａ」に説明される。しかし、他の方法が代わりに使用されてもよい。

通常、第１の奥行き推定２３０に関連付けられた不確実性が存在する。不確実性は、例えば、第１の奥行き推定２３０が実際の奥行きに正しく対応する信頼度を表す。例えば、不確実性は、測光不確実性（キャプチャデバイスの測光解像度に制限され得るまたは依存し得る）に依存し得、測光不確実性は、第１の奥行き推定２３０が特定され得る精度を制限し得る。不確実性は、さらに、または代わりに、第１の奥行き推定２３０を生成するのに使用される方法と、第１の奥行き推定２３０の生成が補間プロセスを含む場合は隣接する補間点の間のステップサイズなど、この方法に関連付けられた任意の固有の不確実性とに依存し得る。不確実性は、第１の奥行き推定２３０に関連付けられた誤差に対応するとみなされ得る。図２の実施例では、幾何学的再構成エンジンは、第１の奥行き推定２３０、及び第１の奥行き推定２３０の不確実性測定２３５の両方を出力するように構成される。幾何学的再構成エンジンは、第１の奥行き推定２３０に対応する平均μと、不確実性測定２３５に対応する分散θとを含む配列または行列を生成するように構成され得るが、これは単なる例に過ぎない。平均及び分散は、画像全体、１つ以上の画像部分、画像のピクセルのうちの１つ以上に関して提供され得る。

第１の奥行き推定２３０の生成が測光誤差の最小化（または他の最適化）を含む実施例では、第１の奥行き推定２３０に関連付けられた不確実性測定２３５は、第１の奥行き推定２３０を取得するための補間に使用された２つの奥行き値間の測光誤差の差に基づき、及びこれらの２つの奥行き値間の差に基づいて、ヤコビアン項Ｊを計算することにより取得され得る。このような事例では、第１の奥行き推定２３０の不確実性θ_ｇｅｏは、次のように考えられ得る。
θ_ｇｅｏ＝（Ｊ^ＴＪ）^－１
しかし、これは単なる例に過ぎず、他の実施例では、他の不確実性測定が使用され得る。

いくつかの事例では、第１の奥行き推定２３０は、複数のピクセルについての第１の奥行きマップであり得る。例えば、第１の奥行き推定２３０には、シーンの入力画像のピクセルごとの毎ピクセル奥行き推定が含まれ得る。ゆえに、入力画像の解像度と、第１の奥行き推定２３０に対応する第１の奥行きマップとは、同一であり得る。第１の奥行き推定２３０を生成する前に、入力画像に対し前処理が実行され得、これには、入力画像の解像度を変更することが含まれ得ることを、理解されたい。例えば、入力画像の解像度は、例えば画像をダウンサンプリングして、入力画像を処理するための計算要件を削減することにより、低下し得る。他の事例では、第１の奥行き推定２３０には、複数のピクセルに対する単一の奥行き値が含まれ得、入力画像の奥行き値とピクセルとは、一対多対応である。例えば、複数のピクセル、例えば同様の色または強度など同様の測光特性を有する画像が組み合わせられ得、奥行き値は、このピクセルの組み合わせに関して取得され得る。

いくつかの事例では、第１の奥行き推定２３０は、いわゆる「中密度」奥行き推定であり得る。このような事例では、第１の奥行き推定２３０には、例えば入力画像（または複数の画像）でキャプチャされたような、シーンの部分の部分集合の奥行き推定が含まれ得る。例えば、中密度奥行き推定には、例えばシーンの２つ以上のビューの一部に対応する、シーンの２つ以上のビューを表す画像データ内のピクセルの一部の奥行き推定が含まれ得る。第１の奥行き推定２３０が取得されたシーンの部分は、いくつかの測光基準などのいくつかの画像基準を満たすピクセルの部分に対応し得る。例えば、第１の奥行き推定２３０は、十分な量の詳細または情報を含むと特定された画像の部分について、取得され得る。これは、例えば所与の領域にわたる測光特性（輝度または色など）の変化を示す画像勾配を計算することにより、特定され得る。画像勾配は、シーンの所与の領域にわたる奥行きの変化を示す奥行き勾配に対応し得る、または奥行き勾配の代用として使用され得る。例えばシーンの比較的小さい領域で奥行きの変化が比較的大きく、シーンの特徴豊富な部分に対応するなど、大量に詳細を有する画像領域では、画像勾配は通常、比較的大きい。他の事例では、第１の奥行き推定２３０は、いわゆる「低密度」奥行き推定であり得る。これらの事例では、第１の奥行き推定２３０は、特定の画像特徴に対応すると特定された画像の部分について、取得され得る。例えば、画像のキーポイントが特定され得、画像のキーポイントは通常、様々な視点、回転、スケール、及び照度から確実に位置特定可能であり得る画像内の特徴的位置に対応する。このような事例では、他の画像部分の奥行き推定を取得することなく、キーポイントを含む画像パッチについて、第１の奥行き推定２３０は取得され得る。さらなる別の事例では、第１の奥行き推定２３０は、画像または画像部分のコンテンツに関係なく、画像全体（または画像部分）について奥行き推定が取得される、いわゆる「高密度」奥行き推定であり得る。

いくつかの事例では、第１の奥行き推定２３０の不確実性測定２３５は、第１の奥行き推定２３０と、同じ種類であり得る、または同じ解像度を含み得る。例えば、第１の奥行き推定２３０に入力画像のピクセルごとの奥行き推定が含まれる場合、ピクセルごとの対応する不確実性測定も存在し得る。反対に、第１の奥行き推定２３０に入力画像の複数のピクセルについての奥行き推定が含まれる場合、その複数のピクセルについての対応する不確実性測定も存在し得る。同様に、第１の奥行き推定２３０が低密度、中密度、または高密度である場合、不確実性測定２３５もそれぞれ、低密度、中密度、または高密度であり得る。しかし他の事例では、不確実性測定２３５の種類または解像度は、第１の奥行き推定２３０の種類または解像度とは異なり得る。

図２の画像処理システム２００はまた、第２の奥行き推定２４０、及び第２の奥行き推定２４０の不確実性測定２４５を生成するように構成され、第２の奥行き推定２４０、及び第２の奥行き推定２４０の不確実性測定２４５は、まとめて第２の奥行きデータ２６０と称され得る。第２の奥行きデータ２６０は、ニューラルネットワークアーキテクチャを使用して生成され得、ニューラルネットワークアーキテクチャは、奥行き推定及び関連する不確実性測定を予測するように、教師なし画像データまたは教師あり（すなわちラベル付けされた）画像データでトレーニングされ得る。様々な異なるニューラルネットワークアーキテクチャが使用され得る。例えば、ニューラルネットワークアーキテクチャには、複数の層を有するいわゆる「ディープ」ニューラルネットワークであり得る少なくとも１つの畳み込みニューラルネットワーク（ＣＮＮ）が含まれ得る。

いくつかの実施例では、第１の奥行き推定２３０を生成する前に、シーンの１つ以上のビューを表す画像データが、カメラなどのキャプチャデバイスから取得され得る。このような事例では、第２の奥行き推定２４０を生成することは、ニューラルネットワークアーキテクチャで画像データを受信することを含み得る。画像データは、任意の好適な形式であり得、例えば、複数の異なる位置からキャプチャされたシーンの複数の２Ｄ画像を表し得る。次に、ニューラルネットワークアーキテクチャを使用して、画像部分の集合のそれぞれについて、奥行き推定が予測され、第２の奥行き推定２４０が生成され得る。画像部分の集合は、画像（もしくは複数の画像）の全体に、または画像もしくは複数の画像の部分集合に、対応し得る。

第１の奥行き推定２３０と同様に、第２の奥行き推定２４０は、複数のピクセルについての第２の奥行きマップであり得、例えばシーンの入力画像の奥行き値とピクセルとは、一対一マッピングである。しかし、他の事例では、第２の奥行き推定２４０には、複数のピクセルについての単一の奥行き値が含まれ得、入力画像の奥行き値とピクセルとは、一対多対応である。さらに、第２の奥行き推定２４０は、低密度、中密度、または高密度の奥行き推定であり得る。一事例では、２つの奥行き推定は異なる密度を有し、例えば第１の奥行き推定２３０は中密度奥行き推定であり得、第２の奥行き推定２４０は、高密度奥行き推定であり得る。さらに、第１の奥行き推定２３０を参照して説明されたように、第２の奥行き推定２４０の不確実性測定２４５の種類または解像度は、第２の奥行き推定２４０の種類または解像度と、同一であり得る、または異なり得る。

図２の画像処理システム２００は、融合エンジン２７０を含み、融合エンジン２７０は、幾何学的再構成エンジンからの第１の奥行き推定２３０と、第１の奥行き推定２３０の不確実性測定２３５と、ニューラルネットワークアーキテクチャからの第２の奥行き推定２４０と、第２の奥行き推定２４０の不確実性測定２４５と、を受信するように構成される。融合エンジン２７０は、第１の奥行き推定２３０の不確実性測定２３５と、第２の奥行き推定２４０の不確実性測定２４５とを使用して、第１の奥行き推定２３０と第２の奥行き推定２４０とを確率的に融合させて、シーンの融合奥行き推定２８０を出力するように構成される。このようにして、第１の奥行き推定２３０及び第２の奥行き推定２４０の両方が融合奥行き推定２８０に寄与し、これにより、第１の奥行き推定２３０または第２の奥行き推定２４０を単独で使用した場合と比べて、融合奥行き推定２８０の精度が向上し得る。

例えば、第１の奥行き推定２３０の不確実性（幾何学的制約に基づく）は、低テクスチャのシーンの領域で、例えば壁などの奥行きが比較的変化しない、または奥行きが少しずつ変化するシーンの領域で、より高くなり得る。さらに、付加的または代替的に、第１の奥行き推定２３０は、シーンの一部が部分的に遮られている領域では、比較的不確実であり得る。対照的に、第２の奥行き推定２４０（ニューラルネットワークアーキテクチャにより取得される）は、曖昧な領域（例えば低テクスチャの領域）では、第１の奥行き推定２３０より不確実性が低くあり得るが、高テクスチャ領域では、高テクスチャ領域が第１の奥行き推定２３０により正確にキャプチャされたにもかかわらず、第２の奥行き推定２４０は精度が低くなり得る。不確実性測定２３５及び不確実性測定２４５の使用は、例えば第１の奥行き推定２３０及び第２の奥行き推定２４０のそれぞれを、それらの相対的な不確実性に基づいて、好適にバランスをとって融合奥行き推定２８０に寄与させることにより、第１の奥行き推定２３０と第２の奥行き推定２４０との確率的融合を補助する。例えば、第１の奥行き推定２３０に関連付けられた不確実性測定２３５が、第２の奥行き推定２４０に関連付けられた不確実性測定２４５よりも高いシーンの領域では、第２の奥行き推定２４０が、第１の奥行き推定２３０よりも大きく融合奥行き推定２８０に寄与し得る。さらに、全体的な一貫性を維持することができるため、融合奥行き推定２８０は、選ばれた局所的なシーン領域だけでなく、全体的なレベルでシーンの奥行きを正確にキャプチャする。

いくつかの事例では、第１の奥行き推定２３０は、中密度奥行き推定であり、第２の奥行き推定２４０及び融合奥行き推定２８０はそれぞれ、高密度奥行き推定を含む。例えば、第１の奥行き推定２３０が適切に正確となり得る十分なテクスチャを有するシーンの部分について、第１の奥行き推定２３０は取得され得る。このような事例では、第１の奥行き推定２３０は、テクスチャが足りないシーンの他の部分については、取得され得ない。しかし、第２の奥行き推定２４０は、画像（または画像部分）でキャプチャされたシーン全体について取得され得る。ゆえに、このような事例では、第１の奥行き推定２３０と第２の奥行き推定２４０とを融合させることにより、融合奥行き推定２８０も、画像でキャプチャされたシーン全体について取得され得る。このような事例では、融合奥行き推定２８０の一部分は、第１の奥行き推定２３０及び第２の奥行き推定２４０の両方を融合させることにより、取得され得る（例えば融合奥行き推定２８０の一部分は、シーンのテクスチャの多い部分に対応する）。しかし、融合奥行き推定２８０の異なる部分は、第２の奥行き推定２４０からのみ取得され得る（例えば融合奥行き推定２８０の一部分はシーンの滑らかな部分に対応するため、第１の奥行き推定２３０は信頼性が低くなり得る）。

第１の奥行き推定２３０と第２の奥行き推定２４０とを確率的に融合させるために、様々な異なる方法が使用され得る。例えば、第１の奥行き推定２３０及び第２の奥行き推定２４０、並びに不確実性測定２３５及び不確実性測定２４５に基づくコスト関数は、第１の奥行き推定２３０と第２の奥行き推定２４０を確率的に融合させて、融合奥行き推定２８０を取得するために、最適化され得る。コスト関数の最小値が取得される融合奥行き推定２８０を取得するように、コスト関数の最適化は、異なる入力奥行き推定でコスト関数の値を反復的に計算することを含み得る。コスト関数は、代替的に、損失関数または誤差関数と称され得る。

図２の実施例では、コスト関数は、第１の奥行き推定２３０に関連付けられた第１のコスト項と、第２の奥行き推定２４０に関連付けられた第２のコスト項とを含む。第１のコスト項は、融合奥行き推定値と、第１の奥行き推定値（例えば幾何学的再構成エンジンから取得された第１の奥行き推定２３０から得られる）と、第１の奥行き推定２３０の不確実性値（例えば第１の奥行き推定２３０の不確実性測定２３５から得られる）との関数を含む。同様に、第２のコスト項は、融合奥行き推定値と、第２の奥行き推定値（例えばニューラルネットワークアーキテクチャから取得された第２の奥行き推定２４０から得られる）と、第２の奥行き推定２４０の不確実性値（例えば第２の奥行き推定２４０の不確実性測定２４５から得られる）との関数を含む。コスト関数を最適化して、融合エンジン２７０により出力される融合奥行き推定２８０を形成する融合奥行き推定値が特定される。これは、例えば、融合奥行き推定値を反復的に変更して、コスト関数を最適化する融合奥行き推定値を特定することを含む。例えば、コスト関数は、その値が事前に定義された基準を満たす場合、例えばその値が事前に定義された最小値以下である場合、最適化されたとみなすことができる。他の事例では、コスト関数の最適化は、コスト関数の最小化を含み得る。このようにして、第１の奥行き推定２３０及び第２の奥行き推定２４０、並びに不確実性測定２３５及び不確実性測定２４５の両方が、取得される融合奥行き推定２８０に対する制約として機能して、融合奥行き推定２８０の精度が向上する。

しかし、コスト関数の使用は単なる例に過ぎないことが、理解されよう。他の実施例では、第１の奥行き推定と第２の奥行き推定とは、異なる方法で、不確実性測定を使用して、確率的に融合され得る。

従って、本明細書のいくつかの実施例は、シーンの奥行き推定の正確な再構成を提供し、よって、ロボットデバイスと実世界環境とのインタラクションを促進する。具体的には、本明細書のいくつかの実施例は、リアルタイムまたはほぼリアルタイムの動作を可能にし（他の奥行き推定手法とは対照的に）、屋外及び屋内の場所を含む様々な異なる環境におけるシーンの奥行き推定を提供するように、設計される。

図３は、さらなる実施例による、画像処理システム３００の概略図である。図３の画像処理システム３００は、様々な点で図２の画像処理システム２００と類似する。図２の機能と同じ図３の対応する機能には、同じ参照番号がつけられるが、１００だけ増分される。

図３では、融合エンジン３７０は、第１の奥行き推定、第２の奥行き推定、及び不確実性測定に加えて、表面配向推定３２０、及び表面配向推定３２０の不確実性測定３２５を受信するように構成される。融合エンジン３７０は、表面配向推定３２０、及び表面配向推定３２０の不確実性測定３２５を使用して、第１の奥行き推定と第２の奥行き推定とを確率的に融合させるように構成される。

例えば、表面配向推定３２０は、キャプチャデバイスによりキャプチャされたシーンの画像のピクセルまたは他の画像領域に対応する表面の方向または傾斜を示す。例えば、表面の配向は、キャプチャデバイスによりキャプチャされたシーンの画像のピクセルまたは他の画像領域の表面の配向角度をキャプチャするとみなされ得る。例えば、表面配向は、所与の表面に垂直な軸である表面法線に対応する。他の事例では、表面配向推定３２０は、表面勾配、例えば表面の変化度の測定に対応し得る。複数のピクセルの表面配向を使用して、複数のピクセルに対応する表面の特質の指標が取得され得る。例えば、比較的滑らかで変化のない表面は、比較的一定の表面配向を有し得る。反対に、高テクスチャの表面は、様々な異なる表面配向に関連付けられ得る。

表面配向推定３２０、及び表面配向推定３２０の不確実性測定３２５は、様々な異なる方法で取得され得る。例えば、シーンの画像は、例えば画像のピクセルのピクセル強度値などの測光特性の変化に基づいて、表面配向推定３２０及び表面配向推定３２０の不確実性測定３２５を特定するように処理され得る。

図４は、さらなる別の実施例による、画像処理システム４００の概略図である。図４の画像処理システム４００は、様々な点で図３の画像処理システム３００と類似するが、幾何学的再構成エンジン４３０及びニューラルネットワークアーキテクチャ４２０を明確に例示する。

図４では、ビデオデータのフレーム４１０が受信される。フレーム４１０は、例えばカメラなどのキャプチャデバイスによりキャプチャされ、シーンのビューを含む。他の事例では、図４の画像処理システム４００を使用して、ビデオを表すビデオデータではなく、静止画像を表す画像データが処理され得ることを、理解されたい。

フレーム４１０は、幾何学的再構成エンジン４３０及びニューラルネットワークアーキテクチャ４２０により処理される。幾何学的再構成エンジン４３０及びニューラルネットワークアーキテクチャ４２０は、図２を参照して説明されたように、第１の奥行きデータ４５０及び第２の奥行きデータ４６０を生成するように構成され得る。

図４の実施例では、第２の奥行きデータ４６０は、表面配向推定、及び表面配向推定の不確実性測定を含む。この実施例では、表面配向推定、及び表面配向推定の不確実性測定は、第２の奥行き推定、及び第２の奥行き推定の不確実性測定に加えて、ニューラルネットワークアーキテクチャ４２０により生成される。

図４のニューラルネットワークアーキテクチャ４２０は、１つ以上のニューラルネットワークを含み得、図４に示されるフレーム４１０などのビデオデータのフレームのピクセル値を受信するように構成される。ニューラルネットワークアーキテクチャ４２０は、第２の奥行き推定を生成するために、画像部分の第１の集合のそれぞれについて奥行き推定を予測し、並びに画像部分の第２の集合のそれぞれについて少なくとも１つの表面配向推定を予測するように構成される。画像部分の第１の集合は、画像部分の第２の集合と同じであってもよく、異なっていてもよい。例えば、画像部分の第１の集合と第２の集合は、完全に重複している、部分的に重複している、または全く重複していない場合がある。奥行き推定及び少なくとも１つの表面配向は、異なるそれぞれの解像度で取得され得る。このような事例では、奥行き推定及び少なくとも１つの表面配向のうちの一方または両方の解像度は、その後、所望の解像度を得るために、例えば補間により、変更され得る。例えば、少なくとも１つの表面配向は、奥行き推定よりも低い解像度で取得され得るが、その後、奥行き推定と同じ解像度にアップスケーリングされ得る。ニューラルネットワークアーキテクチャ４２０はまた、各奥行き推定に関連付けられた１つ以上の不確実性測定と、各表面配向推定に関連付けられた１つ以上の不確実性測定とを予測するように構成される。

第１の奥行きデータ４５０と第２の奥行きデータ４６０とは、融合エンジン４７０を使用して確率的に融合され、融合奥行き推定４８０が取得される。図では、融合エンジン４７０は、少なくとも１つの表面配向も使用して、融合奥行き推定４８０を取得する。融合奥行き推定４８０を取得するためにコスト関数が最適化される実施例では、コスト関数は、少なくとも１つの表面配向推定に関連付けられた第３のコスト項を含み得る。このような事例では、第３のコスト項は、融合奥行き推定値、表面配向推定値（例えばニューラルネットワークアーキテクチャ４２０から取得される）、及び少なくとも１つの表面配向推定ごとの不確実性値（例えば表面配向推定ごとの不確実性測定から得られる）の関数を含み得る。例えば、第３のコスト項は、表面配向推定ごとのコスト項の合計を含み得る。コスト関数の最適化は、図２に関して説明されたとおりであり得るが、表面配向情報が追加されている。

表面配向情報を使用して融合奥行き推定４８０を取得することにより、融合奥行き推定４８０の精度は、さらに向上し得る。例えば、表面配向推定（及びその関連する不確実性測定）は、所与のピクセルとその隣接ピクセルとの間の制約を課し得る。このようにして、融合奥行き推定４８０の全体的な一貫性は向上し得る。

図５は、実施例５００による、表面配向推定３２０及び表面配向推定３２０の不確実性測定３２５を示す概略図である。図５では、表面配向推定３２０は、第１の方向（この事例ではｘ軸に沿った方向）の奥行き勾配推定５１０と、第１の方向に直交する方向（デカルト座標系が存在するこの事例ではｙ軸に沿った方向）の奥行き勾配推定５２０とを含む。

例えば、所与の方向の奥行き勾配推定は、その所与の方向におけるシーン（例えば画像でキャプチャされたシーン）の奥行きの変化の推定を表す。奥行き勾配推定を使用して、シーンの画像における奥行きの急速なまたは特有の変化が特定され得る。例えば、シーンの一部分にわたり奥行きが異なるシーンの当該一部分に対応する画像の領域では、奥行き勾配は比較的高くなり得る。反対に、カメラに対して比較的一定の奥行きに存在するシーンの別の一部分に対応する画像の他の領域では、奥行き勾配は比較的低くなり得る。２つの異なる方向（互いに直交する、すなわち垂直である２つの方向など）の奥行き勾配を推定することにより、画像でキャプチャされたシーンの奥行き特性は、より正確及び／またはより効率的に特定され得る。

他の実施例では、表面配向推定３２０は、奥行き配向推定５１０、５２０に加えて、またはこれらの代わりに、他の配向推定を含み得る。例えば、表面配向推定３２０は、表面法線推定を含み得る。

図５のように、いくつかの事例では、表面配向推定ごとに対応する不確実性測定が存在する。ゆえに、図５では、第１の方向の奥行き勾配推定５１０に関連付けられた第１の不確実性測定５３０と、第１の方向に直交する方向の奥行き勾配推定５２０に関連付けられた第２の不確実性測定５４０とが存在する。

各表面配向推定の不確実性測定は、様々な異なる方法で生成され得る。例えば、ニューラルネットワークアーキテクチャ（融合エンジンにより第１の奥行き推定と確率的に融合される第２の奥行き推定を生成するのに使用され得る）は、表面配向推定、及び各表面配向推定に関連付けられた対応する不確実性測定を生成するようにトレーニングされ得る。

いくつかの事例では、第２の奥行き推定及び／または表面配向推定（複数可）は、対数推定であり得る。これは、負の値に数値的意味があるため、ニューラルネットワークアーキテクチャによるこれらの推定の生成が促進され得る。さらに、２つの対数奥行きの差（例えば対数奥行きの勾配に対応する）は、スケールが不変である２つの奥行きの比率に対応する。さらに、対数奥行き勾配が２つの直交方向で予測される場合（図５の実施例のように）、第１の奥行き推定と第２の奥行き推定との確率的融合（例えば対数奥行き勾配を使用する）は、線形であり、ドット積及び正規化動作なしで実行され得る。ゆえに、他の場合よりも効率的に融合プロセスを実行することができる。

図６は、さらなる別の実施例による、画像処理システム６００の概略図である。画像処理システム６００は、単眼キャプチャデバイス６０５を含み、これは、シーンの画像をキャプチャするキャプチャデバイスまたはカメラの実施例である。単眼キャプチャデバイス６０５は、シーンのビデオを表すビデオデータをキャプチャするように構成される。シーンは、ビデオの第１のフレームでキャプチャされ、これは、図６の実施例では、キーフレーム６１０と称され得る。キーフレーム６１０は、例えば、より完全な奥行き推定が取得されるビデオのフレームに対応し、例えば、以前に奥行きが推定されていないシーンの新たな部分、または他の部分よりも特徴が豊富であると識別されたシーンの部分に対応する、またはそのような部分を含む。例えば、以前に奥行き推定が取得されていないビデオの第１のフレームは、キーフレームとみなされ得る。キーフレームは、例えば外部ＳＬＡＭシステムなどの外部システムにより指定されたキーフレームであり得る。他の事例では、単眼キャプチャデバイス６０５が閾値距離を超える距離を移動した後に得られるフレームが、キーフレームであり得る。単眼キャプチャデバイス６０５によりキャプチャされた他のフレームは、参照フレーム６１５とみなされ得る。

図６の実施例において単眼キャプチャデバイス６０５によりキャプチャされたフレームは（キーフレーム６１０であるか、参照フレーム６１５であるかに関係なく）、追跡システム６２５を使用して処理される。追跡システム６２５は、シーンを観察している間（例えばフレームをキャプチャしている間）の単眼キャプチャデバイス６０５の姿勢を特定するために使用される。図２を参照して説明されたように、追跡システム６２５は、動作センサを含み得、これは、単眼キャプチャデバイス６０５に接続された、または単眼キャプチャデバイス６０５を支持するロボットデバイスを動かすように構成されたアクチュエータに接続され得る、またはアクチュエータの一部を形成し得る。このように、追跡システム６２５は、オドメトリデータをキャプチャし、オドメトリデータを処理して、単眼キャプチャデバイス６０５の姿勢推定を生成し得る。

図６では、追跡システム６２５は、参照フレーム６１５をキャプチャしている間の単眼キャプチャデバイス６０５の姿勢の推定６４０と、キーフレームをキャプチャしている間の単眼キャプチャデバイス６０５の姿勢の推定６３５とを生成する。単眼キャプチャデバイス６０５の推定された姿勢６４０、６３５、及び単眼キャプチャデバイス６０５によりキャプチャされたビデオデータは、幾何学的再構成エンジン６３０により使用され、ビデオデータのフレームからピクセルの少なくとも部分集合についての奥行き推定が生成される。いくつかの事例において幾何学的再構成エンジン６３０は、測光誤差を最小化して奥行き推定を生成するように構成される。これは、図２を参照してさらに説明される。図６の幾何学的再構成エンジン６３０は、奥行き推定と、奥行き推定の不確実性測定とを含む第１の奥行きデータ６５０を出力する。

いくつかの事例では、第１の奥行きデータ６５０は、単眼キャプチャデバイス６０５により取得されるフレームごとに再度生成され、例えば第１の奥行きデータ６５０は、キーフレームに関連し得、さらに、取得され処理される追加参照フレームごとに反復的に更新され得る。第１の奥行きデータ６５０は、リアルタイムまたはほぼリアルタイムで生成され得、従って、例えば単眼キャプチャデバイス６０５のフレームレートに対応したレートで、頻繁に実行され得る。

キーフレーム６１０に対応すると特定されたフレームに関して、図６の画像処理システム６００はさらに、ニューラルネットワークアーキテクチャ６２０を使用して第２の奥行きデータ６６０を生成するキーフレーム６１０の処理を含む。しかし、ニューラルネットワークアーキテクチャ６２０を使用する参照フレーム６１５の処理は、いくつかの事例では省略され得る。これは、図６では、破線を使用して概略的に示される。破線は、画像処理システム６００により選択的に実行され得る画像処理パイプラインの部分に対応する。例えば、第１の奥行きデータ６５０の生成は、フレームが参照フレーム６１５であるかキーフレーム６１０であるかに関係なく、フレームについて実行され得るが、第２の奥行きデータの生成は、キーフレーム６１０に対して選択的に実行され得る。図６の実施例では、第２の奥行きデータ６６０は、第２の奥行き推定、第２の奥行き推定の不確実性測定、少なくとも１つの表面配向推定、及び表面配向推定の不確実性測定を含むが、これは単なる例に過ぎない。ニューラルネットワークアーキテクチャ６２０は、本明細書で説明される他の実施例のニューラルネットワークアーキテクチャと同様または同一であり得る。

図６の画像処理システム６００はまた、融合エンジン６７０を含み、これは、第１の奥行き推定及び第２の奥行き推定（幾何学的再構成エンジン６３０及びニューラルネットワークアーキテクチャ６２０によりそれぞれ取得された）を、関連する不確実性測定を使用して、統計的に融合させるように構成される。図６では、融合エンジン６７０はまた、少なくとも１つの表面配向推定、及び少なくとも１つの表面配向推定に関連付けられたそれぞれの不確実性測定を使用して、第１の奥行き推定と第２の奥行き推定とを統計的に融合させる。しかし、少なくとも１つの表面配向推定、及び少なくとも１つの表面配向推定に関連付けられたそれぞれの不確実性測定の使用は、他の事例では省略され得る。

融合エンジン６７０は、第１の奥行き推定と第２の奥行き推定とを統計的に融合させることにより、融合奥行き推定６８０を生成するように構成される。図６の融合エンジン６７０はまた、第１の奥行き推定と第２の奥行き推定とを確率的に融合させる時に、スケール推定を特定するように構成される。例えば、融合エンジン６７０が、コスト関数を最適化して融合奥行き推定６８０特定するように構成される場合、コスト関数を最適化することは、融合奥行き推定６８０のスケールファクタ６８５を特定することを含み得る。このような事例では、スケールファクタ６８５は、シーンに関する融合奥行き推定６８０のスケールを示す。従って、スケールファクタは、第１の奥行き推定及び第２の奥行き推定により提供されるシーンのスケールの不正確さを補い得る。スケールファクタは、スカラであり得る。例えば、第１の奥行き推定は、図６の単眼キャプチャデバイス６０５がもたらす姿勢に基づいて生成されるため、第１の奥行き推定は任意のスケールを有する。しかし、スケールファクタの生成により、特定のスケールでの奥行き推定を取得することが可能となる。

コスト関数を最適化して融合奥行き推定６８０が特定される事例では、コスト関数の第１のコスト項は、融合奥行き推定値、第１の奥行き推定値、第１の奥行き推定の不確実性値、及びスケールファクタの関数を含み得る。コスト関数の最適化は、スケールファクタ並びに融合奥行き推定６８０を反復的に変更して、コスト関数を最適化する（例えば最小化する）スケールファクタ及び融合奥行き推定６８０を特定することを含み得る。このような事例では、コスト関数はまた、図２及び図４を参照して説明されたように、第２のコスト項及び／または第３のコスト項を含み得る。このような事例では、第２のコスト項及び／または第３のコスト項は、スケールファクタとは無関係であり得る。

説明されるように、第１の奥行きデータ６５０が幾何学的再構成エンジン６３０により生成される頻度より少ない頻度で、第２の奥行きデータ６６０はニューラルネットワークアーキテクチャ６２０により生成され得る。例えば、キーフレーム６１０については、第１の奥行きデータ６５０と第２の奥行きデータ６６０の両方が生成され得る。第２の奥行きデータの生成が省略され得るキーフレーム６１０は、第２の奥行きデータの生成が省略され得る参照フレーム６１５よりも、少なくあり得る。

実施例として、ビデオデータの第１のフレームでシーンがキャプチャされ得、ビデオデータの第１のフレームについての第２の奥行き推定が受信され得る。第２の奥行き推定は、ニューラルネットワークアーキテクチャ６２０より生成され得る。ゆえに、ビデオデータの第１のフレームは、キーフレーム６１５であるとみなされ得る。この実施例では、複数の第１の奥行き推定が取得される。複数の第１の奥行き推定のうちの少なくとも１つは、ビデオデータの第１のフレームとは異なるビデオデータの第２のフレームを使用して生成される。例えば、複数の第１の奥行き推定（幾何学的再構成エンジン６３０により生成された）には、第１のフレーム（キーフレーム６１０である）の第１の奥行き推定と、第２のフレーム（参照フレーム６１５である）の第１の奥行き推定とが含まれ得る。この事例では、融合エンジン６７０は、反復ごとに第２の奥行き推定と複数の奥行き推定のうちの１つとを処理して、シーンの融合奥行き推定６８０を反復的に出力するように構成される。例えば、第１のフレームを受信すると、融合エンジン６７０は、第１のフレームを使用して生成された第１の奥行き推定と、第１のフレームを使用して生成された第２の奥行き推定とを融合させ得る。しかし、第２のフレームを受信すると、融合エンジン６７０は代わりに、第２のフレームを使用して生成された第１の奥行き推定と、第１のフレームを使用して前に生成された第２の奥行き推定とを融合させ得る。言い換えると、第２の奥行き推定は、フレームごとに再生成され得ず、代わりに、前のフレーム（前のキーフレーム６１５など）から再利用され得る。言い換えると、融合奥行き推定６８０の生成は、反復的に繰り返され得る。方法は、後続の反復に関して、第２の奥行き推定を生成するか否かを判定することを含み得る。上記で説明されたように、このような判定は、画像でキャプチャされたシーンのコンテンツに基づいて、例えば、シーンの前の画像と比較してコンテンツは著しく変化したか否か（例えば単眼キャプチャデバイス６０５の移動により）、またはコンテンツは特徴豊富であるか否かなどに基づいて、行われ得る。第２の奥行き推定を生成しない（例えば参照フレーム６１５について）という判定に応じて、これらの実施例は、前の第２の奥行き推定の値の集合を使用して、第１の奥行き推定と第２の奥行き推定とを確率的に融合させることを含む。これにより、ニューラルネットワークアーキテクチャ６２０を使用して画像を処理する必要がなくなる。

このような実施例では、第１の奥行き推定は、第２の奥行き推定よりも頻繁に生成され得る（第２の奥行き推定はニューラルネットワークアーキテクチャ６２０を使用するため生成がより遅くなり得る）。いくつかの事例では、融合奥行き推定６８０は、更新された第１の奥行き推定と既存の第２の奥行き推定とに基づいて、精緻化され得る。ゆえに、シーンの奥行きは、第１の奥行き推定及び第２の奥行き推定の両方が更新された後にシーンの奥行きが更新される他の事例よりも、高いレートで更新され得る。実際に、第１の奥行き推定と第２の奥行き推定とを別々に生成して、その後に第１の奥行き推定と第２の奥行き推定とを融合させることにより、本明細書の方法は、他の方法と比べて、より柔軟であり、より効率的に実行され得る。

図７Ａは、本明細書に説明される方法のうちのいずれかを実施するために使用され得るコンピューティングシステム７００のコンポーネントを示す概略図である。コンピューティングシステム７００は、単一のコンピューティングデバイス（例えばデスクトップ、ラップトップ、モバイル及び／または組み込みコンピューティングデバイス）であり得る、または複数の別個のコンピューティングデバイスにわたり分散された分散コンピューティングシステムであり得る（例えばいくつかのコンポーネントは、１つ以上のクライアントコンピューティングデバイスからネットワークを介して発せられた要求に基づいて、１つ以上のサーバコンピューティングデバイスにより実施され得る）。

コンピューティングシステム７００は、例えばシーンの観察を含むビデオのフレームを提供するビデオキャプチャデバイス７１０を含む。コンピューティングシステム７００はまた、位置特定及びマッピング同時実行（ＳＬＡＭ）システム７２０を含む。ロボットマッピング及びナビゲーションの分野におけるＳＬＡＭシステムは、未知の環境のマップを構築及び更新し、同時に環境内のマップに関連付けられたロボットデバイスの位置を特定するように機能する。例えば、ロボットデバイスは、マップを構築、更新、及び／または使用するデバイスであり得る。ＳＬＡＭシステム７２０は、ビデオキャプチャデバイス７１０の姿勢データを提供するように構成される。コンピューティングシステム７００の中密度マルチビューステレオコンポーネント７３０は、姿勢データ及びビデオのフレームを受信して、上記の他の実施例で説明された幾何学的再構成エンジンを実施するように構成される。中密度マルチビューステレオコンポーネント７３０は、前述の「中密度」であると言うことができ、用語「マルチビューステレオ」は、コンポーネント７３０が、単眼（例えば非ステレオ）カメラからのデータの連続フレームを使用する代わりに、ステレオ画像ペアをシミュレートして奥行きデータを特定するように機能することを示す。この事例では、移動するカメラからのフレームは、共通の環境の異なるビューを提供し得、これにより、前述のように奥行きデータを生成することが可能となる。コンピューティングシステム７００はまた、ニューラルネットワーク回路７４０を含み、これは、例えば、上記の実施例を参照して説明されたニューラルネットワークアーキテクチャを実施する電子回路である。コンピューティングシステム７００はまた、本明細書の実施例の融合エンジンを実施するように構成された画像処理システム７５０を含む。画像処理システム７５０は、例えば、中密度マルチビューステレオコンポーネント７３０からの第１の奥行きデータと、ニューラルネットワーク回路７４０からの第２の奥行きデータとを確率的に融合させて、融合奥行きデータを取得する。

図７Ｂは、実施例による、ロボットデバイス７６０のコンポーネントを示す概略図である。ロボットデバイス７６０は、図７Ａのコンピューティングシステム７００を含む。ロボットデバイス７６０はまた、ロボットデバイス７６０が周囲の３次元環境とインタラクトすることを可能にする１つ以上のアクチュエータ７７０を含む。周囲の３次元環境の少なくとも一部は、コンピューティングシステム７００のビデオキャプチャデバイス７１０によりキャプチャされたシーンに示され得る。図７Ｂの事例では、ロボットデバイス７６０は、ロボットデバイスが特定の環境をナビゲートする時に（例えば図１Ａのデバイス１３０により）、ビデオデータをキャプチャするように構成され得る。しかし、別の事例では、ロボットデバイス７６０は、環境をスキャンし得る、またはモバイルデバイスもしくは別のロボットデバイスを有するユーザなどの第三者から受信したビデオデータを操作し得る。ロボットデバイス７６０がビデオデータを処理する時、ロボットデバイス７６０は、例えば融合奥行き推定であるシーンの奥行き推定を生成するように構成され得る。

ロボットデバイス７６０はまた、１つ以上のアクチュエータ７７０を制御する少なくとも１つのプロセッサを含むインタラクションエンジン７８０を含む。図７Ｂのインタラクションエンジン７８０は、融合奥行き推定を使用して、周囲の３次元環境とインタラクトするように構成される。インタラクションエンジン７８０は、融合奥行き推定を使用して、１つ以上のアクチュエータを制御して環境とインタラクトし得る。例えば、融合奥行き推定を使用して、環境内のオブジェクトをつかむこと、及び／または壁などの障壁との衝突を回避することができる。

図７Ａ及び図７Ｂを参照して本明細書に説明される機能コンポーネントの実施例は、専用処理電子機器を含み得、及び／または少なくとも１つのコンピューティングデバイスのプロセッサにより実行されるコンピュータプログラムコードにより実施され得る。いくつかの事例では、１つ以上の組み込みコンピューティングデバイスが使用され得る。本明細書に説明されるコンポーネントは、コンピュータ可読媒体にロードされたコンピュータプログラムコードを実行するためにメモリと関連して作動する少なくとも１つのプロセッサを含み得る。この媒体は、消去可能プログラム可能読み出し専用メモリなどのソリッドステートストレージを含み得、コンピュータプログラムコードは、ファームウェアを含み得る。他の事例では、コンポーネントは、適切に構成されたシステムオンチップ、特定用途向け集積回路、及び／または１つ以上の適切にプログラムされたフィールドプログラマブルゲートアレイを含み得る。一事例では、コンポーネントは、モバイルコンピューティングデバイス及び／またはデスクトップコンピューティングデバイス内のコンピュータプログラムコード及び／または専用処理電子機器により、実施され得る。一事例では、前の事例と同様に、または前の事例の代わりに、コンポーネントは、コンピュータプログラムコードを実行する１つ以上のグラフィカル処理ユニットにより、実施され得る。いくつかの事例では、コンポーネントは、例えばグラフィックス処理ユニットの複数のプロセッサ及び／またはコア上で、並行して実施される１つ以上の機能により、実施され得る。

図８は、図１～７を参照して説明された様々な機能の実施例８００を示す概略図である。図８は、シーンと称され得る３次元（３Ｄ）環境８０５の実施例を示す。３Ｄ環境８０５は、図１のキャプチャデバイス１２０などのキャプチャデバイス８１０、並びに２つのオブジェクト８１５、８２０を含む。キャプチャデバイス８１０は、３Ｄ環境８０５の観察をキャプチャするように構成される（例えば静止画像またはビデオの形式で）。これらの観察は、例えば、オブジェクト８１５、８２０の観察を含み、オブジェクト８１５、８２０の互いに対する位置、及び他のオブジェクトまたは３Ｄ環境の地物（オブジェクト８１５、８２０を支持する表面、またはオブジェクト８１５、８２０の後ろの壁など）に対するオブジェクト８１５、８２０の位置を示し得る。キャプチャデバイス８１０によりキャプチャされた３Ｄ環境８０５の観察を示すビデオのフレーム８２５の実施例も、図８に示される。図示されるように、ビデオのフレーム８２５内に、２つのオブジェクト８１５、８２０が表示される。

図８はまた、幾何学的再構成エンジンにより取得された第１の奥行き推定８３０の実施例を概略的に示す。図示されるように、シーン内のオブジェクト８１５、８２０の存在は、第１の奥行き推定８３０において、輪郭８３２、８３４により示される。ゆえに、第１の奥行き推定８３０により、例えば、画像内の境界線または他の縁（例えばシーン内のオブジェクトの縁で起こり得る奥行きの突然の変化に対応する）を特定することが可能となる。

ニューラルネットワークアーキテクチャにより取得された第２の奥行き推定８３５も、図８に概略的に示される。図示されるように、シーン内のオブジェクト８１５、８２０の存在は、第２の奥行き推定８３５において、陰影８３６、８３８により示される。例えば、陰影のグレースケール値は、オブジェクトの一部の相対的な奥行きを示す。

図８の実施例では、２つのオブジェクト８１５、８２０は、キャプチャデバイス８１０に向かって突出している。例えば、図８において、第１のオブジェクト８１５は、垂直に延びる長手方向軸を有する円筒である。ゆえに、第１のオブジェクト８１５は、その中心がキャプチャデバイス８１０に向かって膨らみ、その側面がキャプチャデバイス８１０から後退する（キャプチャデバイス８１０から見た場合）。第１のオブジェクト８１５の形状は、第２の奥行き推定８３５でキャプチャされ、第１のオブジェクト８１５の中心に向いたキャプチャデバイス８１０に対して、第１のオブジェクト８１５の奥行きが減少することが示される（第２の奥行き推定８３５において第１のオブジェクトの中心に向かってより濃くなる陰影領域８３６により示される）。しかし、第１のオブジェクトの縁は、第２の奥行き推定８３５より第１の奥行き推定８３０において、より鋭くまたはより鮮明である。これは、第１の奥行き推定８３０は、シーンの高テクスチャ領域の奥行きをより正確にキャプチャし得、一方第２の奥行き推定８３５は、シーンの低テクスチャ（すなわち滑らかな）領域の奥行きをより正確にキャプチャし得ることを示す。これは、第２の奥行き推定８３５において、左上隅及び左下隅に陰影があり、これらの領域がシーンの他の領域と比べて奥行きの差を有することが示されていることから、さらにわかる。この差は、比較的微細なまたは小さな奥行きの変化であるため、第１の奥行き推定８３０では識別されていない。

図８はまた、第１の方向（この実施例では水平方向）の第１の奥行き勾配推定８４０と、第１の方向に直交する方向（この実施例では垂直方向）の第２の奥行き勾配推定８４５との実施例を概略的に示す。オブジェクト８１５、８２０の存在は、第１の奥行き勾配推定８４０において、矢印８４２、８４４によりそれぞれ示される。オブジェクト８１５、８２０の存在は、第２の奥行き勾配推定８４５において、矢印８４６、８４８によりそれぞれ示される。第１の奥行き推定８３０及び第２の奥行き推定８３５を参照して説明されたように、オブジェクト８１５は、その長手方向軸に沿ってキャプチャデバイス８１０に対して膨らむ。これは、第１の奥行き勾配推定８４０において、オブジェクト８１５がその円筒形状によりキャプチャデバイス８１０から後退方向へより急速に湾曲するオブジェクト８１５の側面方向よりも、中央領域で、矢印８４２が互いにより近接している（奥行き勾配の変化が急速でないことを示す）ことから、わかる。

図９は、シーンの奥行きを推定する例示的な方法９００を示すフロー図である。方法９００は、第１の奥行き推定を生成する第１の動作９１０を含む。シーンの幾何学的再構成を使用して、第１の奥行き推定が生成され得、シーンの幾何学的再構成は、第１の奥行き推定の不確実性測定を出力するように構成される。第２の動作９２０にて、ニューラルネットワークアーキテクチャを使用して、第２の奥行き推定が生成される。ニューラルネットワークアーキテクチャは、第２の奥行き推定の不確実性測定を出力するように構成される。第３の動作９３０にて、第１の奥行き推定と第２の奥行き推定は、不確実性測定を使用して確率的に融合され、シーンの融合奥行き推定が生成される。本明細書に説明されるシステムのうちのいずれかを使用して、図９の方法９００は実施され得る。

図１０は、シーンの奥行きを推定するさらなる例示的な方法１０００を示すフロー図である。第１の動作１０１０にて、画像データが取得される。画像データは、シーンの画像をキャプチャするように構成されたキャプチャデバイスから取得され得る。第２の動作１０２０にて、第１の動作１０１０の画像データを取得する間のキャプチャデバイスの姿勢推定が生成される。第３の動作１０３０にて、例えば本明細書の他の実施例を参照して説明されるように、幾何学的再構成エンジンを使用して、シーンの奥行きの中密度推定が取得される。第４の動作１０４０にて、図６を参照して説明されたように、キャプチャデバイスによりキャプチャされた画像がキーフレームであるか否かが判定される。キーフレームである場合、第２の奥行き推定を生成するために、第５の動作１０５０にて、ニューラルネットワーク出力が生成される。しかし、画像がキーフレームに該当しない場合、動作１０６０にて、既存のニューラルネットワーク出力（例えば前の画像で取得された）が代わりに使用される。ニューラルネットワーク出力には、例えば、第２の奥行き推定と、少なくとも１つの表面配向推定と、第２の奥行き推定及び少なくとも１つの表面配向推定のそれぞれに関連付けられた不確実性測定とが含まれる。最後に、第７の動作１０７０にて、第３の動作１０３０の第１の奥行き推定と、第５の動作１０５０または第６の動作１０６０の第２の奥行き推定とが、例えば第１の奥行き推定及び第２の奥行き推定にそれぞれ関連付けられた不確実性測定を使用する確率的な方法で融合される。この実施例では、融合奥行きマップ及びスケールファクタを取得するために、融合動作中に、少なくとも１つの表面配向推定及び対応する不確実性測定も使用される。図１０の方法１００は、例えば、図６のシステム６００を使用して実施され得る。

図１１は、プロセッサ１１１０と、コンピュータ実行可能命令１１３０を含む非一時的コンピュータ可読記憶媒体１１２０との実施例１１００を示す概略図である。コンピュータ実行可能命令１１３０は、プロセッサ１１１０により実行されると、プロセッサ１１１０を備えるコンピューティングデバイスなどのコンピュータデバイスに、シーンの奥行きを推定させる。命令により、結果的に、前述の例示的な方法と同様の方法が実行され得る。例えば、コンピュータ可読記憶媒体１１２０は、図６を参照して説明されたように、複数の参照フレームについて取得され得る複数の第１の奥行きデータ１１４０を記憶するように構成され得る。コンピュータ可読記憶媒体１１２０はまた、キーフレームの第２の奥行き推定１１５０を記憶するように構成され得る。第１の奥行きデータと第２の奥行きデータとは、確率的に融合され、融合奥行き推定が取得され得る。図１１では、第１の奥行きデータ１１４０及び第２の奥行きデータ１１５０がコンピュータ可読記憶媒体１１２０に記憶されているように示されるが、他の実施例では、第１の奥行きデータ１１４０及び第２の奥行きデータ１１５０のうちの少なくとも１つは、コンピュータ可読記憶媒体１１２０の外部の（しかしコンピュータ可読記憶媒体１１２０によりアクセス可能な）ストレージに記憶され得る。

図１２は、さらなる実施例による、シーンの第１の奥行き推定と第２の奥行き推定との融合を示す概略図である。図１２では、幾何学的再構成を使用して、シーンについての第１の奥行き確率体積１２００が生成される。第１の奥行き確率体積１２００は、第１の複数の奥行き推定（この事例では本明細書の他の実施例で論じられる第１の奥行き推定を含む）、及び第１の複数の奥行き推定の各奥行き推定にそれぞれ関連付けられた第１の複数の不確実性測定を含む。従って、第１の複数の不確実性測定には、第１の奥行き推定の不確実性測定が含まれる。

第１の奥行き確率体積１２００が図１２に概略的に示されるが、これは、例示しやすくするために簡略化された実施例である。図１２では、シーンの観察を表すフレームは、図１２ではＰ_１～Ｐ_９とラベル付けされた９つのピクセルを含む。ピクセルのそれぞれは、シーンの異なる各部分の観察に対応する。図１２のピクセルのそれぞれについて、Ｄ_１、Ｄ_２、及びＤ_３とラベル付けされた３つの奥行き推定が存在する（しかし他の実施例ではピクセルごとにさらに多いまたは少ない奥行き推定が存在する場合がある）。図１２の各奥行き推定は、それぞれの不確実性測定に関連付けられる。図１２では、ｎ番目のピクセルＰ_ｎについてのｍ番目の奥行き推定Ｄ_ｍに関連付けられた不確実性測定は、ｕ_ｎｍとラベル付けされる。図１２では、上部の行のピクセル（Ｐ_１、Ｐ_２、及びＰ_３）の不確実性測定が示される。しかし、フレームの他のピクセル（Ｐ_４～Ｐ_９）についての奥行き推定も、対応する不確実性測定（図１２に図示せず）を有することを、理解されたい。この実施例では、２次元ピクセル配列についてのそれぞれの奥行き推定に関連付けられた不確実性測定の３次元構成が、３次元確率体積を形成する。

図１２では、第１の奥行き確率体積１２００の第１の複数の奥行き推定のうちの所与の奥行き推定に関連付けられた不確実性測定は、シーンの所与の領域（その観察が所与のピクセルでキャプチャされる）が、第１の複数の奥行き推定のうちの所与の奥行き推定により表される奥行きに存在する確率を表す。ゆえに、図１２では、ｕ_１１は、第１のピクセルＰ_１でキャプチャされたシーンの領域が、第１の奥行き推定Ｄ_１の奥行きに対応する奥行きに存在する確率を表す。

図１２はまた、第２の奥行き確率体積１２０２を含み、第２の奥行き確率体積１２０２は、ニューラルネットワークアーキテクチャを使用してシーンについて生成される。この事例の第２の奥行き確率体積１２０２は、その他の点では第１の奥行き確率体積１２００に類似し、第２の奥行き推定を含む第２の複数の奥行き推定と、第２の複数の奥行き推定の各奥行き推定にそれぞれ関連付けられた第２の複数の不確実性測定とを含む。従って、第２の複数の不確実性測定には、第２の奥行き推定の不確実性測定が含まれる。第１の奥行き確率体積１２００に関して、第２の複数の奥行き推定のうちの所与の奥行き推定に関連付けられた不確実性測定は、シーンの所与の領域が、第２の複数の奥行き推定のうちの所与の奥行き推定により表される奥行きに存在する確率を表す。

図１２の実施例では、第１の奥行き確率体積１２００及び第２の奥行き確率体積１２０２は、所与のピクセルについての同一のそれぞれの奥行き推定（Ｄ_１、Ｄ_２、及びＤ_３）に関連付けられた不確実性測定を含む。しかし、他の実施例では、第１の奥行き確率体積１２００及び第２の奥行き確率体積１２０２の奥行き推定は、互いに異なり得ることを、理解されたい。例えば、第１の奥行き確率体積１２００及び第２の奥行き確率体積１２０２のうちの一方は、他方より多くの個数の奥行き推定を有し得、及び／または互いに異なる値の奥行き推定を有し得る。

シーンの所与の部分についての幾何学的再構成の精度とニューラルネットワークアーキテクチャの精度は通常異なるため、第１の奥行き確率体積１２００と第２の奥行き確率体積１２０２とでは、所与の奥行き推定に関連付けられた不確実性測定は通常異なることを、理解されたい。これにより、幾何学的再構成またはニューラルネットワークアーキテクチャのどちらが使用されているかに応じて、シーンの所与の部分について、異なる確率分布が生じ得る。例えば、所与の技法（幾何学的再構成、またはニューラルネットワークアーキテクチャの使用を伴う）がシーンの所与の部分の奥行きを正確に特徴付けることができない場合、シーンの所与の部分を表すピクセルに関連付けられた奥行き確率分布は、比較的均一となり得、シーンのその部分の最も可能性の高い奥行きを突き止めることが困難となる。反対に、所与の技法がシーンの所与の部分の奥行きを正確に特定することができる場合、奥行き確率分布は、シーンの所与の部分の奥行きに対応する奥行き推定で、より鋭いピークを有し得る。

第１の奥行き確率体積１２００及び第２の奥行き確率体積１２０２に関連付けられた不確実性測定を融合させることにより、第１の奥行き確率体積１２００及び第２の奥行き確率体積１２０２に関連付けられた奥行き推定自体が確率的に融合され得、これにより、融合奥行き確率体積１２０４が生成される。これは、図１２に概略的に示され、融合奥行き確率体積１２０４は、第１の奥行き確率体積１２００及び第２の奥行き確率体積１２０２に類似するが、第１の奥行き確率体積１２００の奥行き推定と第２の奥行き確率体積１２０２の奥行き推定との確率的融合により、第１の奥行き確率体積１２００及び第２の奥行き確率体積１２０２の不確実性測定ｕ_ｎｍの値とは異なる不確実性測定ｕ_ｎｍの値を通常含む。このように第１の奥行き確率体積１２００と第２の奥行き確率体積１２０２とを確率的に融合させることにより、２つの異なるソース（幾何学的再構成及びニューラルネットワークアーキテクチャ）からのシーンの奥行きに関する情報を組み合わせることが可能となり、通常、各ソースを個別に使用する場合と比較して、奥行き推定の精度が向上する。

図１３は、図１２の第２の奥行き確率体積１２０２と同様または同一であり得る第２の奥行き確率体積１３０２を取得するための例示的なシステム１３００の概略図である。システム１３００は、シーンの観察を表すフレーム１３０４を受信するように構成される。この事例のフレーム１３０４は、シーンの画像を表す画像データにより表される。システム１３００のニューラルネットワークアーキテクチャ１３０６は、フレーム１３０４を処理して第２の奥行き確率体積１３０２を生成するように構成され、第２の奥行き確率体積１３０２は、この事例では、第２の複数の奥行き推定１３０８、及び第２の複数の不確実性測定１３１０（この事例では、シーンの所与の領域が、第２の複数の奥行き推定１３０８のうちの奥行き推定により表される奥行きに存在するそれぞれの確率を表す）を含む。

図１３のシステム１３００は、シーンの画像の異なる各部分にそれぞれ関連付けられた複数の奥行き推定集合を含む第２の複数の奥行き推定１３０８を出力するように構成される。ゆえに、システム１３００を使用して図１２の第２の奥行き確率体積１２０２を出力する場合、所与のピクセルについての奥行き推定Ｄ_１、Ｄ_２、及びＤ_３は、奥行き推定集合に対応するとみなされ得る。従って、図１３のシステム１３００を使用して複数のピクセルを含む画像が処理され、複数のピクセルの異なる各ピクセルにそれぞれ関連付けられた複数の奥行き推定集合が生成され得る。

図１３の実施例のニューラルネットワークアーキテクチャ１３０６は、事前に定義された値を有するそれぞれの奥行き推定１３０８に関連付けられた不確実性測定１３１０を出力するように構成される。言い換えると、各ピクセルについて単一の奥行き値を出力するのではなく、図１３のニューラルネットワークアーキテクチャ１３０６は、各ピクセルについての複数の事前に定義された離散的な奥行き推定１３０８のそれぞれに関して、不確実性測定１３１０を出力するように構成される。このようにして、ニューラルネットワークアーキテクチャ１３０６は、所与のピクセルについて、所与の範囲にわたる離散奥行き確率分布を出力し、これは、この事例ではノンパラメトリックである。これにより、ニューラルネットワークアーキテクチャ１３０６は、予測される奥行きについての不確実性を表すことが可能となる（所与の奥行き推定に関連付けられた不確実性測定により表され、この事例では確率値により表される）。これにより、さらに、ニューラルネットワークアーキテクチャ１３０６は、多重仮説奥行き予測を行うことが可能となり、これは、幾何学的再構成により取得された奥行き推定と融合されると、シーンの奥行きをより正確に推定することが可能となる。

ニューラルネットワークアーキテクチャ１３０６により出力される事前に定義された値の間には、不均一な間隔があり得る。このような手法では、ニューラルネットワークアーキテクチャ１３０６は、所与のピクセルについて、奥行き推定により占められる奥行き範囲にわたる可変解像度を有する奥行き確率分布を出力するように構成される。例えば、事前に定義された値は、事前に定義された奥行き範囲（奥行き推定により占められる奥行き範囲の全てまたは一部であり得る範囲）内の複数の対数奥行き値を含み得る。対数奥行きパラメータ化を使用することにより、奥行き範囲は対数空間で均一に分割することが可能となる。これにより、シーンの観察をキャプチャするのに使用されるキャプチャデバイスにより近い領域では、より高い奥行き解像度が提供され、より遠い領域では、より低い解像度が提供される。

図１３のシステム１３００を使用して処理された画像の所与のピクセルについて、第２の複数の奥行き推定１３０８のそれぞれの奥行き推定に関連付けられた不確実性測定１３１０が、図１４に概略的に示される。図１４では、不確実性測定は、ｙ軸１４００上に示される確率密度値であり、奥行き推定は、ｘ軸１４０２上に示されるメートル単位の対数奥行き値である。図１４の奥行き推定は、離散値を有する。よって、図１４は、棒グラフ１４０６形式の離散確率分布１４００を示す。

いくつかの事例では、離散化誤差を減らすため、及びシーンの奥行き推定の取得を促進するために、離散確率分布１４００から連続確率関数が取得され得る。離散確率分布１４００から取得された連続確率関数１４０８が、図１４に概略的に示される。連続確率関数１４０８は、滑らかな関数であり得、図１６を参照して下記でさらに論述される。

図１３を参照し直すと、ニューラルネットワークアーキテクチャ１３０６として、様々な異なるニューラルネットワークアーキテクチャが使用され得る。一例では、ニューラルネットワークアーキテクチャ１３０６は、残差ニューラルネットワーク（ＲｅｓＮｅｔ）エンコーダと、その後に続く３つのアップサンプルブロックとを含み、各アップサンプルブロックは、双線形アップサンプリング層、入力画像との結合、その後に２つの畳み込み層を含み、これにより、出力は、シーンの観察を表す入力画像の解像度と同じ解像度を有する。

離散奥行き推定に関連付けられた確率値を予測するように図１３のニューラルネットワークアーキテクチャ１３０６をトレーニングするのに、順序損失関数が使用され得る。好適な順序損失関数Ｌ（θ）の例は、次のとおりである。

θは、ニューラルネットワークアーキテクチャ１３０６の重みの集合であり、Ｋは、奥行き範囲が離散化されるビンの数であり、ｋ_ｉ ^＊は、ピクセルｉについてのグラウンドトゥルース奥行きを含むビンのインデックスであり、ｐ_θ，ｉ（ｋ_ｉ ^＊＝ｊ）は、グラウンドトゥルース奥行きがビンｊ内である確率に関するニューラルネットワークアーキテクチャ１３０６の予測である。しかし、これは単なる例に過ぎず、他の実施例では、他の損失関数が使用され得る。

図１５を見ると、図１５は、図１２の第１の奥行き確率体積１２００と同様または同一であり得る第１の奥行き確率体積１５０２を取得するための例示的なシステム１５００の概略図である。図１５のシステム１５００は、シーンの第１の観察を表す第１のフレーム１５０４、及び例えばシーンの第１の観察の前または後のシーンの第２の観察を表す第２のフレーム１５０６を処理するように構成される。実施例の第１の観察及び第２の観察は、最後に部分的に重複する（例えば両方がシーンの同一部分の観察を含むように）。

第１のフレーム１５０４及び第２のフレーム１５０６は、測光誤差計算エンジン１５０８により処理され、第１のフレーム１５０４の複数の部分のそれぞれについて、測光誤差１５１０の集合が生成され、測光誤差１５１０はそれぞれ、第１の複数の奥行き推定１５１２のうちの異なる各奥行き推定に関連付けられる。測光誤差は、第１の複数の奥行き推定１５１２のそれぞれについて、第１のフレーム１５０４を第２のフレーム１５０６にワープさせ、ワープされた第１のフレーム１５０４と第２のフレーム１５０６との差を特定することにより、取得され得る。いくつかの事例では、差は、例えば３×３ピクセルサイズのピクセルのパッチについてのワープされた第１のフレーム１５０４のピクセル値と第２のフレーム１５０６のピクセル値との二乗差の合計であるが、これは単なる実例に過ぎない。このように第１のフレーム１５０４をワープさせることは、例えば図２を参照して説明されたように、第１のフレーム１５０４のピクセルを第２のフレーム１５０６内の対応する位置にマッピングすることに対応するとみなされ得る。例えば、図２を参照して説明された実施例における測光誤差を最小化する奥行き値を特定するためにそれぞれの奥行き値について反復的に計算された測光誤差は、図１５の実施例における測光誤差計算エンジン１５０８による測光誤差１５１０の集合として、出力され得る。図２の実施例は、測光誤差を最小化することにより取得された奥行き推定に関連付けられた不確実性測定を計算することを含み、例えば、ヤコビアン項を使用して計算される。対照的に、図１５の実施例では、測光誤差１５１０の集合は、それら自体が、各奥行き推定にそれぞれ関連付けられたそれぞれの不確実性測定として扱われる。

第１のフレーム１５０４のワープは、第２のフレーム１５０６でキャプチャされたシーンの第２の観察を複製することを目的とする（例えば第２のフレーム１５０６をキャプチャしている間のカメラの第２の姿勢と同じ姿勢を有するカメラで観察されたように）。第１のフレーム１５０４はこのように、第１の複数の奥行き推定１５１２のそれぞれについて、変換される（奥行き推定のそれぞれは、第１のフレーム１５０４をキャプチャしている間のカメラの第１の姿勢を基準としたシーンの仮説奥行きである）。通常、第１の姿勢を基準としたシーンの奥行きは不均一であるが、シーン全体が同じ奥行きにあると仮定して、その奥行き推定の測光誤差をピクセルごとに（または画像パッチごとに）計算することにより、より効率的にワープが実行され得る。この手法は、第１のフレーム１５０４の複数のピクセルのそれぞれについての第１の複数の奥行き推定１５１２に対して繰り返し実行されて、コスト体積が生成され得、コスト体積から第１の奥行き確率体積１５０２が取得され得る。図２を参照して説明されたように、カメラの第１の姿勢及び第２の姿勢は、任意の好適な方法を使用して取得され得ることを、理解されたい。

第１の奥行き確率体積１５０２と、図１３のシステム１３００を使用して取得される第２の奥行き確率体積との融合を簡潔にするために、確率値がニューラルネットワークアーキテクチャ１３０６により出力されるそれぞれの奥行きビンの中点が、第１の奥行き確率体積１５０２のそれぞれの奥行き推定として使用され得る。しかし、他の実施例において、そうである必要はない。

いくつかの実施例では、第１のフレーム１５０４がワープされる前、及び／または測光誤差１５１０の集合が計算される前に、第１のフレーム１５０４及び第２のフレーム１５０６は正規化される。正規化は、第１のフレーム１５０４及び第２のフレーム１５０６のそれぞれについて、ピクセル値のそれぞれから平均ピクセル値を減算して、出力された値のそれぞれを、第１のフレーム１５０４及び第２のフレーム１５０６の標準偏差で割ることにより、実行され得る。これにより、シーンの第１の観察と第２の観察との照明の変化に過度に影響されることなく、所与の奥行き推定に関して、ワープされた第１のフレーム１５０４と第２のフレーム１５０６との根本的な測光差を、より正確に特定することが可能となる。

前述のように、図１５の測光誤差計算エンジン１５０８により取得された測光誤差１５１０の集合は、コスト体積を形成するとみなされ得る。測光誤差１５１０の集合から第１の奥行き確率体積１５０２を取得するために、図１５のシステム１５００は、スケーリングエンジン１５１２を含み、これは、測光誤差１５１０をそれぞれの確率値１５１４（第１の複数の奥行き推定１５１２のうちの奥行き推定に関連付けられた不確実性測定に対応するとみなされ得る）にスケーリングするように構成される。一事例では、スケーリングは、スケーリング後に所与のピクセルについての第１の複数の奥行き推定１５１２のそれぞれに関する二乗測光誤差の負の値の合計が１となるように、各ピクセルの二乗測光誤差の負の値を個別にスケーリングすることを含む。次に、スケーリングされた値は、第１の複数の奥行き推定１５１２のうちの所与の奥行き推定に関連付けられたそれぞれの確率値１５１４として用いられ、これにより、第１の確率体積１５０２が生成され得る。

図１６は、シーンの融合奥行き推定を取得する例示的な方法１６００を示すフロー図であり、シーンの観察は、ピクセルの配列をそれぞれ含む複数のフレームでキャプチャされる。融合奥行き推定は、図１２～図１５を参照して説明されたような第１の奥行き確率体積及び第２の奥行き確率体積を使用して取得される。

図１６の項目１６０２は、融合確率体積を取得することを含む。項目１６０２にて、第１の奥行き推定と第２の奥行き推定（第１の奥行き確率体積と第２の奥行き確率体積の一部をそれぞれ形成する）は、第１の複数の不確実性測定と第２の複数の不確実性測定とを組み合わせることにより、確率的に融合され、融合確率体積が生成される。第１の複数の不確実性測定と第２の複数の不確実性測定は、様々な異なる方法で組み合され得る。第１の複数の不確実性測定及び第２の複数の不確実性測定が第１の奥行き確率体積及び第２の奥行き確率体積に関連付けられた確率値である一事例では、第１の複数の奥行き推定のうちの奥行き推定に関連付けられた確率値と、第２の複数の奥行き推定のうちの対応する奥行き推定に関連付けられた確率値と組み合わせることで（例えば乗算することで）、奥行き推定のそれぞれについて融合値を取得することにより、融合確率体積が取得される。いくつかの事例では、次に、所与のピクセルについての奥行き推定のそれぞれに関する融合値が、合計１となるようにスケーリングされ、奥行き推定のそれぞれに関する融合確率値が生成される。しかし、これは、他の事例では、例えば第１の複数の奥行き推定及び第２の複数の奥行き推定に関連付けられた確率値が、所与のピクセルについて合計１となるように既に前にスケーリングされている場合は、省略され得る。

図１６の実施例では、融合確率体積を使用して取得されるシーンの奥行き推定の定量化を回避するため、及び後続の最適化ステップで使用する好適な関数（図１６の項目１６０４及び１６０６を参照してさらに論述される）を取得するために、融合確率体積を使用して、奥行き確率関数が取得される。奥行き確率関数は、融合確率体積のパラメータ化を表し、連続的な奥行き値を取得することを可能にする（単に融合確率体積の離散的な奥行き推定だけでなく）。奥行き確率関数は、例えばガウス基底関数を使用する、カーネル密度推定（ＫＤＥ）技法など、離散分布をパラメータ化する任意の好適な技法を使用して、取得され得る。

図１６の項目１６０４及び１６０６にて、融合確率体積からシーンの融合奥行き推定が取得される（この事例では融合確率体積から取得された奥行き確率関数から取得されるが、これは単なる例に過ぎない）。図１６の実施例では、シーンの融合奥行き推定を取得することは、項目１６０４にてコスト関数を最適化することを含む。この事例のコスト関数は、融合確率体積を使用して取得された第１のコスト項と、奥行き値に対する局所的な幾何学的制約を含む第２のコスト項とを含む。コスト関数ｃ（ｄ）は、次のように表され得る。
ｃ（ｄ）＝ｃ_１（ｄ）＋λｃ_２（ｄ）
ｄは、推定される奥行き値であり、ｃ_１（ｄ）は、第１のコスト項であり、ｃ_２（ｄ）は第２のコスト項であり、λは、コスト関数に対する第２のコスト項の寄与を調整するために使用されるパラメータである。パラメータλは、実験的に調整され、奥行き値の好適な推定が取得され得る。一事例のパラメータλの好適な値は、１×１０^７であるが、これは単なる例に過ぎない。

第１のコスト項は、融合確率体積に依存し、図１６の実施例では、融合確率体積から取得された奥行き確率関数に依存する。この事例では、第１のコスト項は、次のように表され得る。

ｆ_ｉ（ｄ_ｉ）は、奥行きｄ_ｉで評価された、所与の入力フレーム（シーンの観察を表す）のピクセルｉについての奥行き確率関数の出力である。

第１の奥行き確率体積と第２の奥行き確率体積とを融合させることにより、融合確率体積は通常、幾何学的再構成またはニューラルネットワークアーキテクチャを単独で使用する場合よりも、局所的一貫性が高くなる。図１６の実施例では、正規化項とみなされ得る第２のコスト項を含むことにより、局所的一貫性は向上する。この事例の第２のコスト項は、コスト関数の最適化中に局所的な幾何学的制約を課し、これにより、局所的幾何学がより良く維持される。

図１６の方法１６００を使用して融合奥行き推定１７０２を取得するためのシステム１７００が、図１７に概略的に示される。融合奥行き確率体積１７０４が、システム１７００の奥行き推定エンジン１７０６に入力される。奥行き推定エンジン１７０６は、図１６の項目１６０４のコスト関数最適化を実行する。コスト関数の第１のコスト項は、奥行き推定エンジン１７０６に入力される融合奥行き確率体積１７０４に依存し、この事例では、上記の式ｃ_１（ｄ）を使用して表され得る。ゆえに、図１７では、奥行き推定エンジン１７０６は、第１のコスト項を計算するために、融合奥行き確率体積１７０４から奥行き確率関数を取得するように構成される。しかし、他の事例では、第１のコスト項は、融合奥行き確率体積１７０４自体から取得され得る、または奥行き推定エンジン１７０６は、融合奥行き確率体積１７０４ではなく、奥行き確率関数を受信するように構成され得る。

図１７のシステム１７００はまた、さらなるニューラルネットワークアーキテクチャ１７０８を含み、これは、融合奥行き推定が生成されるシーンの観察を表す入力フレーム１７１０を受信するように、及びコスト関数の第２のコスト項を生成する際に使用する幾何学的制約データ１７１２を生成するように、構成される。この事例の入力フレーム１７１０は、第２の奥行き確率体積を生成するためにニューラルネットワークアーキテクチャにより処理される入力フレームであり、第１の奥行き確率体積を生成するために幾何学的再構成エンジンにより処理されるフレームのうちの１つであるが、これは単なる例に過ぎない。

図１７の実施例の幾何学的制約データ１７１２は、表面配向推定及びオクルージョン境界推定を表す。表面配向推定及びオクルージョン境界推定を使用して、第２のコスト項が生成される。例えば、表面配向推定は、入力フレーム１７１０の所与のピクセルについての表面法線を表し、さらなるニューラルネットワークアーキテクチャ１７０８により予測される。当業者には理解されるように、任意の好適にトレーニングされたニューラルネットワークアーキテクチャが、さらなるニューラルネットワークアーキテクチャ１７０８として使用され得る。第２のコスト項で表面配向推定を使用すると、コスト関数を最適化することにより取得される融合奥行き推定において、局所的幾何学の維持が向上する。例えば、隣接するピクセルについて表面配向推定が類似する（例えばこれらのピクセルは同様の配向であり、連続した平面の表面が見込まれることを示す）場合、第２のコスト項は通常、小さくなる。

しかし、シーンは通常、オブジェクトの境界（オクルージョン境界と称され得る）に奥行きの不連続性を含む。このような境界では、シーンの観察を表す入力フレームの隣接するピクセルの表面配向推定は、通常、互いに異なる。これらの領域のオブジェクトの一部は、オブジェクト境界におけるオブジェクトの奥行きの急激な変化により遮蔽され得るため、このような領域では、表面配向推定は信頼性に欠き得る。従って、オブジェクトのこれらの部分の観察は、入力フレームに存在し得ず、これは、表面配向推定の信頼性、及びシーンの観察を表す画像の隣接するピクセルの表面配向推定間の差に基づくコスト項の信頼性に、影響を与え得る。

これを補うために、図１７の実施例の第２のコスト項が、オクルージョン境界での正規化項をマスクする。言い換えると、例えば、オクルージョン境界に対応するピクセルなど、入力フレーム１７１０の信頼性のない領域に対応するピクセルについては、第２のコスト項の寄与が低くなり、より信頼性のある領域に対応するピクセルについては、第２のコスト項の寄与が高くなるように、入力フレーム１７１０のそれぞれのピクセルについて第２のコスト項の寄与を調整するために、第２のコスト項は０～１の値などの値で重みづけされる。例えば、オクルージョン境界上にあるピクセルについて、第２のコスト項は、ゼロの値の重みで重みづけされ得、よって、これらのピクセルについては、第２のコスト項は、コスト関数の最適化に寄与しない。

いくつかの事例では、さらなるニューラルネットワークアーキテクチャ１７０８は、所与のピクセルがオクルージョン境界に属する確率を、オクルージョン境界推定として出力する。このような事例では、この確率が、例えば０．４などの所定閾値以上である値である場合、ピクセルはオクルージョン境界上にあるとみなされ得る。

図１７の実施例では、奥行き推定エンジン１７０６により生成され、コスト関数を最適化するのに使用される第２のコスト項ｃ_２（ｄ）は、次のように表され得る。

ｂ_ｉ∈｛０、１｝は、入力フレーム１７１０のピクセルｉのオクルージョン境界推定に基づいたマスクの値であり、＜．，．＞は、ドット積演算子を表し、

は、さらなるニューラルネットワークアーキテクチャ１７０８により出力された表面配向推定であり、Ｋは、入力フレーム１７１０をキャプチャするのに使用されたカメラに関連付けられた固有パラメータを表す行列であり（時にカメラ固有行列と称される）、

は、ピクセルｉの均一ピクセル座標を表し、Ｗはピクセル単位の画像の幅である。

図１７では、勾配降下を使用して奥行き推定エンジン１７０６によりコスト関数が最適化され、コスト関数の値を最小化する奥行き値ｄに対応する融合奥行き推定１７０２が取得される（図１６の項目１６０６）。しかし、これは単なる例に過ぎず、他の事例では、異なる最適化技法を使用して融合奥行き推定は取得され得る。

図１８は、第２の融合奥行き確率体積を取得する例示的な方法１８００を示すフロー図である。図１８の方法１８００を使用して、シーンの第１の観察を表すビデオの第１のフレームに関連付けられた第１の融合奥行き確率体積から、シーンの第２の観察を表すビデオデータの第２のフレームに関連付けられた第２の融合奥行き確率体積が取得され得、第１のフレームは、例えば第２のフレームの前または後である。第１の融合奥行き確率体積を使用して第２の融合奥行き確率体積を取得することにより、シーンの奥行きに関する情報が、複数のフレームにわたり保持され得る。これにより、第２のフレームの奥行き推定は、第１のフレームからの情報を使用せずに第２のフレームの奥行き推定を再計算する場合と比較して、向上し得る。

第１の融合奥行き確率体積は第１のフレームのそれぞれのピクセルの奥行き確率分布を表すため、第１の融合奥行き確率体積により表される情報を第２のフレームに組み込むことは、自明ではない。これに対処するために、図１８の項目１８０２は、第１の融合奥行き確率体積を、第１の占有確率体積に変換することを含む。第１のフレームの第１の融合奥行き確率体積は、図１２～図１７を参照して説明された方法のうちのいずれかを使用して取得され得る。第１の占有確率体積は、占有ベースの確率体積としてみなされ得、よって、シーンを向く第１のフレームのキャプチャに関連付けられた第１の姿勢のカメラから伝搬される光線に沿った奥行きごとに、空間内の関連ポイントが占有されている確率が存在する。

一事例では、第１の占有確率体積は、奥行きが第１の奥行き確率体積のビンｊに属することを条件として、ボクセルＳ_ｋ，ｉ（例えば第１のフレームのピクセルｉに関連付けられた光線に沿った第１の奥行き確率体積のビンｋに関連付けられた奥行き推定に対応する３次元体積要素である）が占有されている確率を最初に特定することにより、取得される。

これから、第１の占有確率体積ｐ（Ｓ_ｋ，ｉ＝１）が、以下の式を使用して取得され得る。

ｐ_ｉ（ｋ_ｉ ^＊＝ｋ）は、第１のフレームのピクセルｉについての第１の奥行き確率体積のビンｋの確率値であり、Ｋは、ピクセル単位の第１のフレームの幅である。

図１８の項目１８０４は、シーンを観察している間のカメラの姿勢を表す姿勢データに基づいて、第１の占有確率体積をワープさせて、第２のフレームに関連付けられた第２の占有確率体積を取得することを含む。第１の占有確率体積をワープさせることは、図１５を参照して説明された測光誤差１５１０を取得するために第１のフレームをワープさせることと、その他の点では類似し得、通常、第１のフレームをキャプチャしている間のカメラの第１の姿勢を表す第１の姿勢データと、第２のフレームをキャプチャしている間のカメラの第２の姿勢を表す第２の姿勢データとを、姿勢データとして使用する。このようにして、第１の占有確率体積は、第２のフレームにワープされ得る。いくつかの事例では、第２のフレームは、対応するワープされた第１の占有確率体積が存在しないいくつかのピクセルを含み得る。これらのピクセルには、例えば（単なる例に過ぎないが）０．０１の値などの所定値（例えばデフォルト値）が占有確率に使用され得る。

図１８の項目１８０６にて、第２の占有確率体積は、第２のフレームに関連付けられた第２の融合奥行き確率体積に変換される。この変換は、次の式を使用して実行され、第２のフレームのピクセルｉについての第２の奥行き確率分布のビンｋの確率値ｐ_ｉ（ｋ_ｉ ^＊＝ｋ）が取得され得る。

この式を使用して、第２のフレームの複数のピクセルのそれぞれについて、第２の融合奥行き確率分布のそれぞれのビンの確率値が生成され得る。次に、第２の融合奥行き確率分布は、１つの光線に沿って分布の合計が１となるようにスケーリングされ、第２の融合奥行き確率体積が取得され得る。次に、第２のフレームの融合奥行き推定が、例えば図１６及び図１７を参照して説明されるように、第２の融合奥行き確率体積から取得され得る。

図１９は、さらなる実施例による、シーンの奥行きを推定する例示的な方法１９００を示すフロー図である。

項目１９０２にて、シーンの幾何学的再構成を使用して、シーンの第１の奥行き確率体積が生成される。第１の奥行き確率体積は、例えば、図１２を参照して説明された第１の奥行き確率体積と同一または同様であり、例えば図１５を参照して説明されたように、生成され得る。

項目１９０４にて、ニューラルネットワークアーキテクチャを使用して、シーンの第２の奥行き確率体積が生成される。第２の奥行き確率体積は、例えば、図１２を参照して説明された第２の奥行き確率体積と同一または同様であり、例えば図１３及び図１４を参照して説明されたように、生成され得る。

項目１９０６にて、第１の奥行き確率体積及び第２の奥行き確率体積を使用して、シーンの融合奥行き確率体積が生成され、項目１９０８にて、融合奥行き確率体積を使用して、シーンの融合奥行き推定が生成される。図１９の項目１９０６及び１９０８の融合奥行き確率体積及び融合奥行き推定の生成は、図１６及び／または図１７の方法と同様または同一の方法を使用し得る。

図２０は、さらなる実施例による、シーンの奥行きを推定する画像処理システム２０００の概略図である。画像処理システム２０００は、融合エンジン２００２を含み、融合エンジン２００２は、幾何学的再構成エンジン２００６からの第１の奥行き確率体積２００４と、ニューラルネットワークアーキテクチャ２０１０からの第２の奥行き確率体積２００８とを受信し、第１の奥行き確率体積２００４と第２の奥行き確率体積２００８とを融合させて、シーンの融合奥行き確率体積２０１２を出力する。画像処理システム２０００はまた、奥行き推定エンジン２０１４を含み、奥行き推定エンジン２０１４は、融合奥行き確率体積２０１２を使用して、シーンの奥行きを推定する（融合奥行き推定２０１６と称され得る）。

図２０の実施例では、画像処理システム２０００は、シーンのそれぞれの観察を表す入力フレーム２０１８を処理して、融合奥行き推定２０１６を生成するように構成される。入力フレーム２０１８は、例えば、第１のフレームを含み、これは、例えば図１２～図１４を参照して説明されたように、第２の奥行き確率体積２００８を生成するためにニューラルネットワークアーキテクチャ２０１０により処理される。入力フレーム２０１８はまた、第２のフレームを含み得る。このような実施例では、例えば図１２及び図１５を参照して説明されたように、第１のフレーム及び第２のフレームの両方が、幾何学的再構成エンジン２００６により処理され、第１の奥行き確率体積２００４が生成され得る。融合エンジン２００２による融合奥行き確率体積２０１２の生成、及び奥行き推定エンジン２０１４による融合奥行き推定２０１６の生成は、例えば図１６及び図１７を参照して説明されたようなものであり得る。

上記の実施例は、例示として理解されるべきである。さらなる実施例が想定される。

図１６の実施例では、コスト関数は、第１のコスト項及び第２のコスト項を含む。その他の点では図１６の実施例と同一または同様である他の実施例では、コスト関数は、第２のコスト項を含み得ず、例えば第１のコスト項のみを含み得る。

図１９の方法１９００または図２０のシステム２０００により第１のフレームについて取得された融合奥行き確率体積は、図１８を参照して説明されたようにワープされ、第２のフレームの奥行き確率体積が取得され得る。

図１２～図１７及び図１９及び図２０を参照して説明されたようなシーンの奥行きの推定は、シーンの観察ごとに実行される必要はないことを、理解されたい。代わりに、キーフレームと称され得る観察の部分集合（例えばフレームの部分集合）について、奥行きは推定され得る。これにより、処理要件を軽減することができる。同様に、奥行きが推定されたキーフレームに続くフレームごとに、図１９の方法は実行される必要はない。例えば、第１のフレームと第２のフレームとの間でカメラの姿勢が大幅に変更した場合は、図１９の方法は省略されてもよい。

奥行きを推定するビデオの第１のフレームについて、前述のようなニューラルネットワークアーキテクチャを使用して、奥行きが推定されてもよい（例えば第２の奥行き確率体積を第１の奥行き確率体積と融合させることなく、第２の奥行き確率体積から奥行き推定を計算することにより）。ビデオの少なくとも１つのさらなるフレームを取得した後、第１の奥行き確率体積が計算され、第２の奥行き確率体積と融合され、シーンの融合奥行き推定を生成するために、融合奥行き確率体積が取得され得る。

図１６及び図１７の実施例では、融合奥行き確率体積から導出された奥行き確率関数に基づいたコスト関数を使用して、融合奥行き推定が生成される。この手法は、ニューラルネットワークアーキテクチャからの予測が比較的不確実であり、ゆえに誤った最小値の影響を受けやすい特徴のない領域において、より正確に機能する傾向がある。しかし、他の実施例では、所与のピクセルの融合奥行き推定が、融合奥行き確率体積からの最大の確率を有するピクセルの奥行き推定とみなされ得る。

図１２～図２０の実施例では、融合奥行き推定は、高密度奥行き推定である。しかし、他の事例では、同様の方法またはシステムを使用して、例えば本明細書の方法を使用して入力フレームのピクセルの部分集合を処理することにより、中密度または低密度の奥行き推定が取得され得る。付加的または代替的に、図１２～図２０のうちのいずれか１つの図の実施例に従って取得された融合奥行き推定のそれぞれの奥行き推定と、融合奥行き推定が取得された入力フレームのピクセルとの間には、一対一、一対多、または多対一のマッピングが存在し得る。

図１２～図２０の実施例は、シーンの観察を表すフレームを処理することを参照して説明されている。しかし、これらの方法及び／またはシステムは、代替的に、ビデオのフレームではなく静止画像を処理するために使用されてもよいことを、理解されたい。

図１９の方法１９００及び／または図２０のシステム２０００は、図１Ａ～図１Ｃのキャプチャデバイス、図７Ａのコンピューティングシステム７００、及び／または図７Ｂのロボットデバイス７６０など、本明細書に説明されるシステムまたは装置のいずれかを使用し得る。図１９の方法１９００を実行するための命令、または図２０のシステム２０００を実施するための命令は、図１１を参照して説明されたような非一時的コンピュータ可読記憶媒体に記憶され得る。

任意の１つの実施例に関連して説明される任意の機能は、単独で使用されてもよく、または説明される他の機能と組み合わせて使用されてもよく、また、実施例のうちの任意の他の実施例の１つ以上の機能と組み合わせて使用されてもよく、または実施例のうちの任意の他の実施例の任意の組み合わせの１つ以上の機能と組み合わせて使用されてもよいことを、理解されたい。さらに、添付の特許請求の範囲で定義される本発明の範囲から逸脱することなく、上記で説明されていない均等物及び変更物も使用されてもよい。

Claims

シーンの奥行きを推定する画像処理システムであって、
幾何学的再構成エンジンから第１の奥行き推定と、ニューラルネットワークアーキテクチャから第２の奥行き推定とを受信し、前記第１の奥行き推定と前記第２の奥行き推定とを確率的に融合させて、前記シーンの融合奥行き推定を出力する融合エンジンを備え、
前記融合エンジンは、前記幾何学的再構成エンジンからの前記第１の奥行き推定の不確実性測定と、前記ニューラルネットワークアーキテクチャから前記第２の奥行き推定の不確実性測定と、を受信するように構成され、
前記融合エンジンは、前記不確実性測定を使用して、前記第１の奥行き推定と前記第２の奥行き推定とを確率的に融合させるように構成される、
前記システム。
前記融合エンジンは、前記ニューラルネットワークアーキテクチャから表面配向推定及び前記表面配向推定の不確実性測定を受信し、前記表面配向推定及び前記表面配向推定の前記不確実性測定を使用して、前記第１の奥行き推定と前記第２の奥行き推定とを確率的に融合させるように構成される、請求項１に記載のシステム。
前記表面配向推定には、
第１の方向の奥行き勾配推定と、
前記第１の方向に直交する方向の奥行き勾配推定と、
表面法線推定と、
のうちの１つ以上が含まれる、請求項２に記載のシステム。
前記融合エンジンは、前記第１の奥行き推定と前記第２の奥行き推定とを確率的に融合させる時に、スケール推定を特定するように構成される、請求項１～３のいずれか１項に記載のシステム。
前記シーンは、ビデオデータの第１のフレームでキャプチャされ、
前記ビデオデータの第１のフレームについての前記第２の奥行き推定が受信され、
前記第１の奥行き推定には、前記ビデオデータの第１のフレームについての複数の第１の奥行き推定が含まれ、前記複数の第１の奥行き推定のうちの少なくとも１つは、前記ビデオデータの第１のフレームとは異なるビデオデータの第２のフレームを使用して生成され、
前記融合エンジンは、反復ごとに前記第２の奥行き推定と前記複数の奥行き推定のうちの１つとを処理して、前記シーンの前記融合奥行き推定を反復的に出力するように構成される、
請求項１～４のいずれか１項に記載のシステム。
前記第１の奥行き推定、前記第２の奥行き推定、及び前記融合奥行き推定はそれぞれ、複数のピクセルについての奥行きマップを含む、請求項１～５のいずれか１項に記載のシステム。
前記第１の奥行き推定は、中密度奥行き推定であり、前記第２の奥行き推定及び前記融合奥行き推定はそれぞれ、高密度奥行き推定を含む、請求項１～６のいずれか１項に記載のシステム。
ビデオデータのフレームをキャプチャする単眼カメラと、
前記シーンを観察している間の前記単眼カメラの姿勢を特定する追跡システムと、
前記幾何学的再構成エンジンと、を備え、
前記幾何学的再構成エンジンは、前記追跡システムからの前記姿勢と、前記ビデオデータのフレームとを使用して、前記ビデオデータのフレームからピクセルの少なくとも部分集合についての奥行き推定を生成するように構成され、前記幾何学的再構成エンジンは、測光誤差を最小化して、前記奥行き推定を生成するように構成される、
請求項１～７のいずれか１項に記載のシステム。
前記ニューラルネットワークアーキテクチャを備え、
前記ニューラルネットワークアーキテクチャは、１つ以上のニューラルネットワークを含み、ビデオデータのフレームのピクセル値を受信し、予測を行うように構成され、前記予測では、
前記第２の奥行き推定を生成するために、画像部分の第１の集合のそれぞれについての奥行き推定と、
画像部分の第２の集合のそれぞれについての少なくとも１つの表面配向推定と、
各奥行き推定に関連付けられた１つ以上の不確実性測定と、
各表面配向推定に関連付けられた１つ以上の不確実性測定と、
が予測される、
請求項１～８のいずれか１項に記載のシステム。
シーンの奥行きを推定する方法であって、
前記シーンの幾何学的再構成を使用して、前記シーンの第１の奥行き推定を生成することであって、前記幾何学的再構成は、前記第１の奥行き推定の不確実性測定を出力するように構成される、前記生成することと、
ニューラルネットワークアーキテクチャを使用して、前記シーンの第２の奥行き推定を生成することであって、前記ニューラルネットワークアーキテクチャは、前記第２の奥行き推定の不確実性測定を出力するように構成される、前記生成することと、
前記不確実性測定を使用して、前記第１の奥行き推定と前記第２の奥行き推定とを確率的に融合させて、前記シーンの融合奥行き推定を生成することと、
を含む、前記方法。
前記第１の奥行き推定を生成する前に、
前記シーンの２つ以上のビューを表す画像データをカメラから取得すること、
を含み、
前記第１の奥行き推定を生成することは、
前記カメラの姿勢推定を取得することと、
少なくとも前記姿勢推定と前記画像データとの関数である測光誤差を最小化することにより、前記第１の奥行き推定を生成することと、
を含む、
請求項１０に記載の方法。
前記第１の奥行き推定を生成する前に、
前記シーンの１つ以上のビューを表す画像データをカメラから取得すること、
を含み、
前記第２の奥行き推定を生成することは、
前記ニューラルネットワークアーキテクチャで、前記画像データを受信することと、
前記第２の奥行き推定を生成するために、前記ニューラルネットワークアーキテクチャを使用して、画像部分の集合のそれぞれについて奥行き推定を予測することと、
前記ニューラルネットワークアーキテクチャを使用して、前記画像部分の集合のそれぞれについて少なくとも１つの表面配向推定を予測することと、
前記ニューラルネットワークアーキテクチャを使用して、各奥行き推定及び各表面配向推定の不確実性測定の集合を予測することと、
を含む、
請求項１０に記載の方法。
前記表面配向推定には、
第１の方向の奥行き勾配推定と、
前記第１の方向に直交する方向の奥行き勾配推定と、
表面法線推定と、
のうちの１つ以上が含まれる、請求項１２に記載の方法。
前記第１の奥行き推定を生成する前に、
前記シーンの２つ以上のビューを表す、複数のピクセルを含む画像データをカメラから取得すること、
を含み、
前記第１の奥行き推定を生成することは、
前記カメラの姿勢推定を取得することと、
前記画像データ内の前記ピクセルの一部についての奥行き推定を含む中密度奥行き推定を生成することと、
を含み、
前記第２の奥行き推定を生成することは、前記画像データ内の前記ピクセルについて高密度奥行き推定を生成することを含み、
前記第１の奥行き推定と前記第２の奥行き推定とを確率的に融合させることは、前記画像データ内の前記ピクセルについて高密度奥行き推定を出力することを含む、
請求項１０に記載の方法。
前記方法は、反復的に繰り返され、後続の反復に関して、
前記方法は、前記第２の奥行き推定を生成するか否かを判定することを含み、
前記第１の奥行き推定と前記第２の奥行き推定とを確率的に融合させることは、前記第２の奥行き推定を生成しないという判定に応じて、前記第２の奥行き推定の前の値の集合を使用することを含む、
請求項１０～１４のいずれか１項に記載の方法。
前記方法は、ビデオデータのフレームに適用され、前記第１の奥行き推定と前記第２の奥行き推定とを確率的に融合させることは、ビデオデータの所与のフレームについて、
前記第１の奥行き推定に関連付けられた第１のコスト項と、前記第２の奥行き推定に関連付けられた第２のコスト項とを含むコスト関数を最適化することを含み、
前記第１のコスト項は、融合奥行き推定値と、第１の奥行き推定値と、前記第１の奥行き推定の不確実性値との関数を含み、
前記第２のコスト項は、融合奥行き推定値と、第２の奥行き推定値と、前記第２の奥行き推定の不確実性値との関数を含み、
前記コスト関数を最適化して、前記融合奥行き推定値が特定される、
請求項１０～１５のいずれか１項に記載の方法。
前記コスト関数を最適化することは、前記融合奥行き推定のスケールファクタを特定することを含み、前記スケールファクタは、前記シーンに関する前記融合奥行き推定のスケールを示す、請求項１６に記載の方法。
前記ニューラルネットワークアーキテクチャを使用して、前記シーンの少なくとも１つの表面配向推定を生成することを含み、
前記ニューラルネットワークアーキテクチャは、前記少なくとも１つの表面配向推定のそれぞれについて不確実性測定を出力するように構成され、
前記コスト関数は、前記少なくとも１つの表面配向推定に関連付けられた第３のコスト項を含み、
前記第３のコスト項は、融合奥行き推定値と、表面配向推定値と、前記少なくとも１つの表面配向推定のそれぞれについての不確実性値との関数を含む、
請求項１６または１７に記載の方法。
前記シーンの前記幾何学的再構成は、前記シーンの第１の奥行き確率体積を生成するように構成され、前記第１の奥行き確率体積は、
前記第１の奥行き推定を含む第１の複数の奥行き推定と、
前記第１の複数の奥行き推定の各奥行き推定にそれぞれ関連付けられた第１の複数の不確実性測定と、
を含み、
前記第１の複数の奥行き推定のうちの所与の奥行き推定に関連付けられた不確実性測定は、前記シーンの所与の領域が、前記第１の複数の奥行き推定のうちの前記所与の奥行き推定により表される奥行きに存在する確率を表し、
前記ニューラルネットワークアーキテクチャは、前記シーンの第２の奥行き確率体積を出力するように構成され、前記第２の奥行き確率体積は、
前記第２の奥行き推定を含む第２の複数の奥行き推定と、
前記第２の複数の奥行き推定の各奥行き推定にそれぞれ関連付けられた第２の複数の不確実性測定と、
を含み、
前記第２の複数の奥行き推定のうちの所与の奥行き推定に関連付けられた不確実性測定は、前記シーンの所与の領域が、前記第２の複数の奥行き推定のうちの前記所与の奥行き推定により表される奥行きに存在する確率を表す、
請求項１０に記載の方法。
前記シーンの前記第２の奥行き推定を生成することは、前記ニューラルネットワークアーキテクチャを使用して、前記シーンの画像を表す画像データを処理して、前記第２の奥行き確率体積を生成することを含み、
前記第２の複数の奥行き推定は、複数の奥行き推定集合を含み、それぞれが前記シーンの前記画像の異なる各部分に関連付けられる、
請求項１９に記載の方法。
前記第２の複数の奥行き推定は、事前に定義された値を有する奥行き推定を含む、請求項１９または２０に記載の方法。
前記事前に定義された値の間には、不均一な間隔がある、請求項２１に記載の方法。
前記事前に定義された値は、事前に定義された奥行き範囲内の複数の対数奥行き値を含む、請求項２１または２２に記載の方法。
前記シーンの前記第１の奥行き確率体積を生成することは、
前記シーンの第１の観察を表すビデオデータの第１のフレームと、前記シーンの第２の観察を表すビデオデータの第２のフレームとを処理して、前記第１のフレームの複数の部分のそれぞれについて測光誤差の集合を生成することであって、測光誤差はそれぞれ、前記第１の複数の奥行き推定の異なる各奥行き推定に関連付けられる、前記生成することと、
前記測光誤差をスケーリングして、前記測光誤差をそれぞれの確率値に変換することと、
を含む、請求項１９～２３のいずれか１項に記載の方法。
前記不確実性測定を使用して前記第１の奥行き推定と前記第２の奥行き推定とを確率的に融合させることは、前記第１の複数の不確実性測定と前記第２の複数の不確実性測定とを組み合わせて、融合確率体積を生成することを含む、請求項１９～２４のいずれか１項に記載の方法。
前記シーンの前記融合奥行き推定を生成することは、前記融合確率体積から前記シーンの融合奥行き推定を取得することを含む、請求項２５に記載の方法。
前記融合確率体積を使用して奥行き確率関数を取得することと、
前記奥行き確率関数を使用して、前記融合奥行き推定を取得することと、
を含む、請求項２５または２６に記載の方法。
前記融合奥行き推定を取得することは、コスト関数を最適化することを含み、前記コスト関数は、
前記融合確率体積を使用して取得された第１のコスト項と、
奥行き値に対する局所的な幾何学的制約を含む第２のコスト項と、
を含む、請求項２５～２７のいずれか１項に記載の方法。
さらなるニューラルネットワークアーキテクチャから、表面配向推定及びオクルージョン境界推定を受信することと、
前記表面配向推定及び前記オクルージョン境界推定を使用して、前記第２のコスト項を生成することと、
を含む、請求項２８に記載の方法。
前記融合奥行き確率体積は、前記シーンの第１の観察を表すビデオデータの第１のフレームに関連付けられた第１の融合奥行き確率体積であり、
前記方法は、
前記第１の融合奥行き確率体積を、第１の占有確率体積に変換することと、
前記シーンを観察している間のカメラの姿勢を表す姿勢データに基づいて、前記第１の占有確率体積をワープさせて、前記シーンの第２の観察を表すビデオデータの第２のフレームに関連付けられた第２の占有確率体積を取得することと、
前記第２の占有確率体積を、前記第２のフレームに関連付けられた第２の融合奥行き確率体積に変換することと、
を含む、請求項２５～２９のいずれか１項に記載の方法。
シーンの奥行きを推定する画像処理システムであって、
幾何学的再構成エンジンから第１の奥行き確率体積と、ニューラルネットワークアーキテクチャから第２の奥行き確率体積とを受信し、前記第１の奥行き確率体積と前記第２の奥行き確率体積とを融合させて、前記シーンの融合奥行き確率体積を出力する、融合エンジンと、
前記融合奥行き確率体積を使用して、前記シーンの前記奥行きを推定する奥行き推定エンジンと、
を備える、前記システム。
シーンの奥行きを推定する方法であって、
前記シーンの幾何学的再構成を使用して、前記シーンの第１の奥行き確率体積を生成することと、
ニューラルネットワークアーキテクチャを使用して、前記シーンの第２の奥行き確率体積を生成することと、
前記第１の奥行き確率体積と前記第２の奥行き確率体積とを融合させて、前記シーンの融合奥行き確率体積を生成することと、
前記融合奥行き確率体積を使用して、前記シーンの融合奥行き推定を生成することと、
を含む、前記方法。
ビデオのフレームを提供する単眼キャプチャデバイスと、
前記単眼キャプチャデバイスの姿勢データを提供する位置特定及びマッピング同時実行システムと、
請求項１または３１に記載のシステムと、
前記姿勢データ及びビデオのフレームを受信して、前記幾何学的再構成エンジンを実施する中密度マルチビューステレオコンポーネントと、
前記ニューラルネットワークアーキテクチャを実施する電子回路と、
を備える、コンピューティングシステム。
ロボットデバイスであって、
請求項３３に記載のコンピューティングシステムと、
前記ロボットデバイスが周囲の３次元環境とインタラクトすることを可能にする１つ以上のアクチュエータであって、前記周囲の３次元環境の少なくとも一部が前記シーンに示される、前記１つ以上のアクチュエータと、
前記１つ以上のアクチュエータを制御する少なくとも１つのプロセッサを含むインタラクションエンジンと、
を含み、
前記インタラクションエンジンは、前記融合奥行き推定を使用して、前記周囲の３次元環境とインタラクトする、
前記ロボットデバイス。
コンピュータ実行可能命令を含む非一時的コンピュータ可読記憶媒体であって、前記コンピュータ実行可能命令は、プロセッサにより実行されると、コンピューティングデバイスに、請求項１０～３０のいずれか１項の方法を実行させる、前記非一時的コンピュータ可読記憶媒体。