JP2023503827A

JP2023503827A - アップサンプリング、損失、および損失均衡による深度データモデルトレーニング

Info

Publication number: JP2023503827A
Application number: JP2022527901A
Authority: JP
Inventors: オスカーダジックトーマス; ゴエルクラタース; スリニヴァサンプラヴィーン; タリクサラ
Original assignee: ズークスインコーポレイテッド
Priority date: 2019-11-14
Filing date: 2020-11-09
Publication date: 2023-02-01
Also published as: EP4058974A4; WO2021096806A1; CN114981834A; EP4058974A1

Abstract

画像データに基づいて深度データを決定するためにＭＬモデルをトレーニングする技術が本明細書で説明される。トレーニングは立体画像データと深度データ（例えば、ｌｉｄａｒデータ）とを使用できる。第１の（例えば左）画像は、予測された視差および／または深度データを出力できるＭＬモデルに入力できる。予測された視差データを第２の画像データ（例えば右画像）と共に使用し第１の画像を再構築できる。第１のおよび再構築された画像の差を使用し損失を決定できる。損失は、ピクセル、平滑化、構造的類似性、および／または一貫性損失を含み得る。さらに、深度データと予測された深度データの差および／または予測された視差データと予測された深度データの差を決定でき、ＭＬモデルは、様々な損失に基づいてトレーニングできる。従って、技術は、自己教師ありトレーニングおよび教師ありトレーニングを使用しＭＬモデルをトレーニングできる。

Description

［関連出願の相互参照］
本特許出願は、２０１９年１１月１４日に出願されたシリアル番号16/684,568を有する「DEPTH DATA MODEL TRAINING WITH UPSAMPLING, LOSSES, AND LOSS BALANCING」と題する米国実用特許出願の優先権を主張し、２０１９年１１月１４日に出願されたシリアル番号16/684,554を有する「DEPTH DATA MODEL TRAINING」と題する米国実用特許出願の優先権を主張する。出願シリアル番号16/684,568および16/684,554は、参照により本明細書に完全に組み込まれる。

車両は、センサを使用してセンサデータをキャプチャし、環境内のオブジェクトを検出できる。正確かつ精密なセンサデータは、例えば、自律車両が環境を横断するのを支援できる。いくつかの例では、センサは、限られた範囲を有し、および／または環境に関連付けられた低密度のデータを提供し得る。

詳細な説明は、添付の図面を参照して説明される。図面において、参照番号の最も左の数字は、その参照番号が最初に現れる図面を識別する。異なる図面における同じ参照番号の使用は、類似または同一のコンポーネントまたは機能を示す。

図１は、立体画像データ、深度データ、および様々な損失に基づく機械学習モデルのトレーニングの例示的なプロセスの図解フロー図である。図２は、画像データと再構築された画像データとの差に基づいて損失を決定することに基づいて機械学習モデルをトレーニングする例示的なプロセスの図解フロー図である。図３は、立体画像データに関連付けられた損失に基づいて機械学習モデルをトレーニングする例示的なプロセスの図解フロー図である。図４は、自己教師出力および／または教師出力に関連付けられた損失に基づいて機械学習モデルをトレーニングする例示的なプロセスの図解フロー図である。図５は、本明細書で説明される技術を実装するための例示的なコンピュータシステムのブロック図である。図６は、画像ベースの深度データを生成するための機械学習モデルをトレーニングするための例示的なプロセスである。図７は、画像ベースの深度データを生成するための機械学習モデルをトレーニングするための別の例示的なプロセスである。

本開示は、画像データに基づいて深度データを決定するために機械学習モデルをトレーニングするためのシステム、方法、および装置を説明する。トレーニングは、立体画像データおよび深度データ（例えば、ｌｉｄａｒデータ）に基づくことができる。完全にトレーニングされた場合、機械学習モデルは、画像データ（例えば、単一の画像）を受信でき、画像内のピクセルに関連付けられた予測された深度情報を出力できる。立体画像のペアの左画像と右画像との間のシーンの差に基づく立体画像を使用して、機械学習モデルをトレーニングできる。例えば、第１の画像（例えば、左画像）を、予測された深度データを出力できる機械学習モデルに入力できる。予測された深度データを第２の画像データ（例えば、右画像）と組み合わせて使用して、第１の画像を再構築できる。第１の画像と再構築された第１の画像との間の差を使用して損失を決定できる。損失の例は、ピクセル損失、平滑化損失、構造的類似性損失、および／または一貫性損失を含むが、これらに限定されない。さらに、深度データ（例えば、グランドトゥルース深度を表す）と予測された深度データとの間の差を決定でき、機械学習モデルを本明細書で説明される損失に基づいてトレーニングできる。従って、技術は、自己教師ありトレーニング（例えば、立体画像に基づく）および教師ありトレーニング（例えば、深度データに基づく）を使用して、機械学習モデルをトレーニングできる。

機械学習モデルは、ピクセル損失、平滑化損失、構造的類似性損失、一貫性損失（例えば、左／右一貫性損失、深度／視差損失など）などを含むがこれらに限定されない様々な損失に少なくとも部分的に基づいてトレーニングされ得る。様々な損失の詳細は本開示を通して説明される。

いくつかの例では、本明細書で説明される技術は、ピクセル損失を決定することを含むことができる。例えば、動作は、左画像データ内のピクセルと再構築された左画像データ内の対応するピクセルとの間の差を決定することを含むことができる。いくつかの例では、ピクセル損失は、対応するピクセル間の強度値（例えば、Ｒ、Ｇ、Ｂ値）の差を表すことができる。理解できるように、動作は、右画像データ内のピクセルと再構築された右画像データ内の対応するピクセル（例えば、環境の同じ部分を表すピクセル）との間の差を決定することを含むことができる。いくつかの例では、ピクセル損失が閾値を上回る場合、これは、画像データ内のピクセルが再構築された画像データ内のピクセルに対応しないことを示し得（例えば、閉塞に起因して）、そのケースにおいては、特定のピクセルに関連付けられたピクセル損失をトレーニングの目的のために無視できる。

いくつかの例では、本明細書で説明される技術は平滑化損失を決定することを含むことができる。例えば、動作は、本明細書で説明される損失を決定する前、後、または組み合わせて、画像のパッチの平均化を実行することを含むことができる。いくつかの例では、平滑化損失を、画像データ内で検出されたエッジに基づいて重みを下げることができる。いくつかの例では、平滑化損失を単一の画像に関して評価できる。

いくつかの例では、本明細書で説明される技術は構造的類似性損失を決定することを含むことができる。例えば、動作は、第１の画像および再構築された第１の画像のパッチまたは領域を比較することを含むことができる。パッチの平均ＲＧＢ値を決定し、第１のパッチからの（例えば、第１の画像からの）データを第２のパッチからの（例えば、再構築された第１の画像からの）データと比較するなど、様々なパッチ上で動作を実行できる。いくつかの例では、構造的類似性損失は、対応する第１および第２のパッチにおけるエッジまたは不連続部の位置および／または存在を比較することを含むことができる。従って、構造的類似性損失は、それぞれの画像の一般的なレイアウトまたは構造に関する情報を決定することができ、ここで、パッチ間の差は損失を表すことができる。

いくつかの例では、本明細書で説明される技術は一貫性損失を決定することを含むことができる。例えば、本明細書で説明される技術を使用して、再構築された第１の画像（例えば、右画像データおよび第１の予測された深度情報に基づく再構築された左画像）および再構築された第２の画像（例えば、左画像データおよび第２の予測された深度情報に基づく再構築された右画像）を決定できる。一貫性損失（例えば、左／右一貫性損失）を再構築された第１の画像と再構築された第２の画像との間の差に基づいて決定できる。

いくつかの例では、一貫性損失は、機械学習モデルの異なる出力ヘッドからのデータ間の一貫性を強制できる。例えば、機械学習モデルの第１の出力ヘッドは、本明細書で説明される自己教師技術に基づいて（例えば、画像ベースの教師（supervision）に基づいて）、視差データ、予測された深度データ、および／または逆予測された深度データを出力できる。いくつかの例では、機械学習モデルの第２の出力ヘッドは、本明細書で説明される完全教師技術に基づいて（例えば、ｌｉｄａｒベース（または深度データベース）の教師（supervision）に基づいて）深度データを出力できる。一貫性損失は、第１の出力ヘッドによって出力される深度情報（または視差情報）が第２の出力ヘッドによって出力される深度情報と一貫するように、２つまたは複数の出力間の一貫性を強制できる。出力間の差を、機械学習モデルがトレーニングされるときに出力間の差を最小化するための損失として使用できる。

いくつかの例では、構造的類似性損失および／または一貫性損失は、データのピクセルまたはパッチに関連付けられた分類情報に少なくとも部分的に基づくことができる。例えば、構造的類似性および／または一貫性を、同じ分類を有するパッチまたはピクセル、または他のセグメンテーション情報の間でのみ強制できる。

いくつかのケースでは、機械学習モデルは様々な予測された深度データを出力できる。例えば、機械学習モデルは、深度データ、逆深度データ、視差データなどを出力できる。いくつかの例では、深度データおよび／または逆深度データは、原点（例えば、画像センサまたは深度センサに関連付けられた位置）と環境内のオブジェクト（いくつかの例では、ピクセル座標を通過する原点からの光線に沿って決定され得る）との間の測定値を表すことができる。いくつかの例では、視差データは、第１の画像（例えば、左画像）と第２の画像（例えば、右画像）との間のピクセル（またはデータ要素）の水平方向のシフトを表すことができる。いくつかの例では、視差データは、立体画像センサに関連付けられた内因性および／または外因性情報によって深度データに関連できる。

いくつかの例では、機械学習モデルは、別々に深度データおよび視差データを決定できる。上述のように、およびいくつかの例では、深度データと視差データとの間の差を決定でき、これは、様々な予測されたデータ間の一貫性を強制するために一貫性損失（例えば、深度／視差一貫性損失）を表すことができる。

いくつかの例では、機械学習モデルの出力は、離散的な出力を表すことができる、または連続的な出力値を表すことができる。例えば、機械学習モデルは、画像データに関連付けられた離散的な深度部分／ビンを決定できる。そのようなビンは、深度、逆深度、視差、または深度の任意の他の表現のいずれかにおいて、直線的または非直線的であり得る。いくつかの例では、機械学習モデルは、連続的な出力として連続的な深度値を出力できる（例えば、機械学習モデルは、そのようなビニング動作を実行することなく、１０．６５メートルの深度値を出力できる）。従って、連続オフセットは、離散的な深度ビンが使用されているかどうかにかかわらず、深度値間の段階的な移行を提供できる。少なくともいくつかの例では、ビニングおよびオフセットの組み合わせが使用され得る（例えば、モデルは、（ビンの「中心」から測定され得るように）細かいオフセットに加えて、ビンの「粗い」測定値を出力し得る）。いくつかの例では、機械学習アルゴリズムは深度ビンに関連付けられた損失関数および／またはソフトマックス損失を使用して、連続オフセットを決定できる。

いくつかの例では、機械学習モデルの態様は、第１の解像度または詳細のレベルにて特徴マップを決定すること、次いで、特徴マップをアップサンプリングして、様々なレベルで異なる情報を決定すること、を含むことができる。いくつかの例では、特徴マップは、機械学習モデルのエンコーダ部分またはデコーダ部分などの、機械学習モデルの一部の中間出力に対応し得る。いくつかの例では、本技術は、ローカル平面ガイダンスに基づいて1つまたは複数の特徴マップをアップサンプリングすることを含むことができ、これは、アップサンプリング用の方向および／または大きさに関連付けられたユニットベクトルを予測することを含むことができる。いくつかの例では、ローカル平面ガイダンスは、バイリニアアップサンプリング技術とは対照的に、形状ベースのアップサンプリング技術（例えば、球、平面、または他の形状を使用してアップサンプリングする）の例であり得る。

いくつかの例では、損失のいずれかは、Ｌ１損失（平均絶対エラー）、Ｌ２損失（平均二乗エラー）、尤度損失、ログ損失、クロスエントロピー損失、ヒンジ損失、ヒューバー損失などを表すことができる。

いくつかの例では、本明細書で説明される技術は、損失バランシングを使用して、機械学習モデルをトレーニングするための損失を、組み合わせる、集約する、またはそうでなければ決定することができる。例えば、ピクセル損失、平滑化損失、構造的類似性損失、左／右一貫性損失、深度／視差一貫性損失などの本明細書で説明される様々な損失を、損失バランシング技術を使用して組み合わせて、トレーニング（例えば、機械学習モデルを通じたバックプロパゲーション）のための「最終」損失を決定できる。いくつかの例では、損失を、1つまたは複数の重みに少なくとも部分的に基づいて組み合わせるまたは集約することができる。いくつかの例では、トレーニング動作の態様として、重みを学習できる。いくつかの例では、そのような学習は等分散性に基づくことができる。いくつかの例では、等分散性は、様々な損失に関連付けられた不確実性に少なくとも部分的に基づいて、損失に関連付けられた1つまたは複数の重みを決定し得る。

機械学習モデルをトレーニングするためのグランドトゥルースとしてトレーニング画像データとトレーニングｌｉｄａｒデータを使用して、機械学習モデルをトレーニングできる。従って、本明細書で説明される技術は、教師なしトレーニング、自己教師ありトレーニング、半教師ありトレーニング、完全教師ありトレーニング、またはそれらの任意の組合せを含み得る。機械学習モデルをトレーニングする追加の例は、例えば、「Dense Depth Estimation of Image Data」と題され、２０１７年１１月０３日に出願された米国特許出願第15/803,682号に見出すことができ、その全体が参照により本明細書に組み込まれる。いくつかの例では、トレーニング画像データは、トレーニングｌｉｄａｒデータと比較して、より高い解像度で、またはより高い密度のデータを表すデータを含むことができる。例示のみの目的のために、トレーニング画像データは、各々が数百万ピクセルを有する３つのチャネル（例えば、赤、緑、青）からのデータを含むことができ、一方、トレーニング画像データに対応するトレーニングｌｉｄａｒデータは、数十万点、またはそれ未満のオーダーを含むことができる。従って、トレーニング画像データと対応するトレーニングｌｉｄａｒデータの量との間の差に基づいて、画像データの特定のピクセルが対応するｌｉｄａｒ測定値を有し得ないことを理解することができる。いくつかの例では、本明細書で説明される動作は、トレーニング画像データの個々のピクセルのうちのいくつかまたはすべてが深度データに関連付けられることができるように、画像データに対応する深度データ（例えば、単深度データ）を提供できる。

いくつかの例では、例えば、ＲＧＢデータに対応する３つのチャネル、ｌｉｄａｒ（または他の深度データ）が特定のピクセルに対して利用可能であるかどうかを示すバイナリ表示（例えば、バイナリチャネル）に対応する１つのチャネル、および／または特定のピクセルに関連付けられた深度測定値に対応できる１つのチャネルを含む追加のデータのチャネルを使用して、機械学習アルゴリズムをトレーニングできる。いくつかの例では、深度測定値をグランドトゥルースと見なすことができ、ここで、トレーニングされている機械学習モデルは深度データを決定して、グランドトゥルースおよび生成された深度データとの間の差を最小化できる。理解できるように、任意の数のチャネルおよび／またはデータのタイプを、機械学習モデルをトレーニングするために、および展開された機械学習アルゴリズムへの入力として使用できる。いくつかの例では、バイナリチャネルを省略できる。

トレーニングされた機械学習モデルを、単一の画像センサからのデータから深度データを生成するために送信すること、またはそうでなければ実装することができる。すなわち、トレーニングされた機械学習モデルは、入力として画像データを受信し得、画像データの一部または全てのピクセルに関連付けられた深度データを出力し得る。いくつかの例では、深度データを後続の処理のために格納できる。例えば、自律車両のいくつかのアプリケーションまたはシステムは、深度データを、ローカライゼーション、知覚（例えば、環境内のオブジェクトの検出、識別、セグメンテーション、分類、トラッキングなど）、相対的深度データ生成などのために使用できる。理解できるように、これらの用途は例であり、そのような例および深度データまたは測定された深度データの使用は限定を意図していない。画像ベースの深度データを決定し、使用する追加の例は、例えば、「Depth from Vision」と題され、２０１９年５月９日に出願された米国特許出願第16/408,407号に見出すことができ、その全体が参照により本明細書に組み込まれる。

いくつかの例では、画像ベースのセグメンテーション技術を使用し、動的オブジェクトを除去して、トレーニング動作を改善できる。例えば、画像ベースのセグメンテーション技術を使用して、画像データ内に表される動的オブジェクトに関連付けられたデータを識別および除去／破棄でき、それによって、残りのデータは環境内の静的オブジェクトを表すことができる。機械学習モデルによって予測される視差データが、環境内のオブジェクトの移動ではなく、立体画像センサ構成に基づくことができるように、例えば、動的オブジェクト（例えば、車両、歩行者、自転車乗り、動物、デブリなど）に関連付けられた深度データを画像データから除外できる。Lidarベースのセグメンテーション技術を使用して、例えば、機械学習モデルのトレーニングを目的として、動的オブジェクトに関連付けられたデータを識別および除去する／破棄もできる。

上記で紹介したように、車両は、機械学習モデルによって生成された深度データを使用して、知覚動作を含む動作を実行して、例えば、他の動作の中で、環境のオブジェクトを検出、識別、セグメント化、分類、および／または追跡できる。いくつかの例では、深度データを使用して、オブジェクトに関連付けられた３次元バウンディングボックス（または、そうでなければ、マスク）を生成できる。

いくつかの例では、本明細書で説明される技術は、画像センサ（例えば、赤緑色（ＲＧＢ）カメラ、強度カメラ（グレースケール）、赤外線カメラ、紫外線カメラなど）、深度カメラ（例えば、ＲＧＢ－Ｄカメラ）、飛行時間センサ（time-of-flight sensor）、ｌｉｄａｒセンサ、ｒａｄａｒセンサ、ｓｏｎａｒセンサ、などを含むシステムに実装され、ハードウェアまたはソフトウェアの障害の場合に、システムに冗長性を提供できる。例えば、深度カメラ、ｌｉｄａｒセンサ、および／またはｒａｄａｒセンサが閉塞される、または機能不全を起こしている場合、本明細書で説明される技術を画像センサと共に使用して、冗長性および／またはバックアップを提供し、密度の高い深度情報を多くの状況下で利用可能にできること確実にすることができる。従って、本明細書で説明される技術は、例えば、マシンビジョンシステムにさらなる改善を提供できる。

本明細書に記載の深度データ生成技術は、後続の動作を実行して自律車両（または他のシステム）を制御するための追加の深度データを提供することによって、コンピューティングデバイスの機能を改善できる。例えば、画像データに関連付けられた深度データは、ローカライゼーション、知覚（例えば、検出、識別、セグメンテーション、分類、追跡など）、ルートプランニング、軌道生成などの後続のプロセスをより正確に実行することを可能にしでき、必要とされる処理能力をより少なくし得る、および／または必要とされるメモリをより少なくし得る。例えば、いくつかの例では、自律車両の軌道を生成することにおいて、より速いおよび／またはより正確なセグメンテーションを使用でき、これは、自律車両の乗員の安全性を改善できる。さらに、いくつかの例では、本明細書で説明される技術を、センサの較正を検証するために使用でき、センサ測定値が不正確であるかどうかを決定するためにエラーチェックまたは投票を提供でき（例えば、深度測定値を別の深度センサと比較することによって）、および／または他のセンサが閉塞または無効である場合のフォールバックとして使用できる。いくつかの例では、そのような自己教師および教師技術（共に、半教師ありトレーニングを含み得る）を使用して機械学習モデルをトレーニングすることは、これらの技術なしでトレーニングされたモデルよりも正確な深度推定値を出力し得る機械学習モデルを提供する。コンピュータの機能に対するこれらおよび他の改善について、本明細書で説明される。

本明細書で説明される技術は、多くの手法に実装できる。例示的な実施形態は、下記の図面を参照して以下に提供される。自律車両のコンテキストで説明されるが、本明細書で説明される方法、装置、およびシステムは、様々なシステム（例えば、センサシステム、またはロボットプラットフォーム）に適用でき、自律車両に限定されない。一例では、同様の技術をドライバーの制御する車両において利用し得、そのようなシステムは、様々な操作を実行することが安全であるか否かの表示を提供し得る。別の例では、本技術を、製造組立ラインのコンテキスト、航空測量のコンテキスト、または航海のコンテキストにおいて、利用できる。さらに、本明細書で説明される技術は、リアルデータ（例えば、センサを用いてキャプチャされる）、シミュレートデータ（例えば、シミュレーターによって生成される）、またはその２つの任意の組み合わせで使用できる。

図１は、立体画像データ、深度データ、および様々な損失に基づく機械学習モデルのトレーニングの例示的なプロセスの図解フロー図１００である。

動作は、立体画像センサ１０２から画像データをキャプチャおよび／または受信することを含むことができる。例えば、立体画像センサ１０２は、環境の右画像１０４および左画像１０６をキャプチャできる。右画像１０４および左画像１０６に例示されるように、画像データは、自律車両が横断している環境を表すことができる。

動作は、ｌｉｄａｒセンサ１０８（ｌｉｄａｒセンサ１０８とも称される）から深度データをキャプチャおよび／または受信することをさらに含むことができる。例えば、ｌｉｄａｒセンサ１０８は、右画像１０４および／または左画像１０６によって表される環境の少なくとも一部を表す深度データ１１０をキャプチャできる。いくつかの例では、ｌｉｄａｒセンサ１０８を、センサが環境の同じ部分をキャプチャするように、立体画像センサ１０２と組み合わせて整列および／または較正できる。いくつかの例では、深度データは、ｌｉｄａｒセンサによってキャプチャされた深度データに加えて、またはその代わりに、飛行時間センサによってキャプチャされ得る。

上述のように、右画像１０４および／または左画像１０６は、環境を表す数百万のＲＧＢピクセルを表すことができる。立体画像センサ１０２は、センサが少なくとも部分的に重複する視野をキャプチャする左画像センサおよび右画像センサ（例えば、図２に示すように）を含むことができる。いくつかの例では、ｌｉｄａｒセンサ１０８は、左画像センサまたは右画像センサに関連付けられた視野の少なくとも一部に対応する環境の少なくとも一部をキャプチャできる。いくつかの例では、画像データは、異なる方向に関連付けられた様々な画像センサによってキャプチャされ得る。すなわち、本明細書で説明される技術は、立体画像センサに限定されず、いくつかの共通の可視性を共有するマルチビューの幾何学形状を有する画像センサを含み得る。

右画像１０４および左画像１０６に対応する画像データ、ならびに深度データ１１０を、機械学習コンポーネント１１２をトレーニングするために機械学習コンポーネント１１２に入力できる。本明細書で説明されるように、機械学習コンポーネント１１２をトレーニングして、入力画像データに基づいて最終的に深度データを出力できる。いくつかの例では、機械学習コンポーネント１１２を様々なコンポーネント１１４に少なくとも部分的に基づいてトレーニングできる。いくつかの例では、そのようなコンポーネント１１４は、本明細書で説明されるように、様々な損失コンポーネントおよび／またはアーキテクチャコンポーネントを表し得る。

例えば、コンポーネント１１４は、限定ではないが、ピクセルごとの損失（ピクセル損失とも呼ばれる）の１つまたは複数、平滑化損失コンポーネント、構造的類似性損失コンポーネント、一貫性損失コンポーネント（例えば、左／右一貫性、深度／視差一貫性、エッジベースの一貫性、セグメンテーションベースの一貫性など）、スケーリングコンポーネント、順序回帰コンポーネント、Ｌ２損失コンポーネント、損失バランシングコンポーネント、ローカル平面ガイダンスコンポーネント（a local planar guidance component）、等分散性コンポーネント、などを含むことができる。前述のコンポーネントの追加の詳細は、上記および本開示を通して説明される。

機械学習コンポーネント１１２をトレーニングすると、機械学習コンポーネント１１２を使用して、画像データ（例えば、単一の画像センサからの画像データ）に基づいて環境の深度データを決定できる。そのような深度データは、環境を横断する自律車両と関連して使用できる。いくつかの例では、深度データを後続の処理のために格納できる。例えば、自律車両のいくつかのアプリケーションまたはシステムは、深度データを、ローカライゼーション、知覚（例えば、環境内のオブジェクトの検出、識別、セグメンテーション、分類、追跡など）、相対的深度データ生成などのために使用できる。理解できるように、これらの用途は例であり、そのような例および深度データまたは測定された深度データの使用は限定を意図していない。

図２は画像データと再構築された画像データとの差に基づいて損失を決定することに基づいて機械学習モデルをトレーニングする例示的なプロセスの図解フロー図２００である。

動作は、本明細書で説明されるように、立体画像センサによってキャプチャされた画像データをキャプチャおよび／または受信することを含むことができる。例えば、第１の画像センサ２０２（例えば、立体画像センサの対の左画像センサ）は、環境の左画像１０６をキャプチャできる。第２の画像センサ２０４（例えば、立体画像の対の右画像センサ）は、環境の右画像１０４をキャプチャできる。左画像１０６は、第１の画像センサ２０２に関連付けられた視野２０６を表すことができ、一方で、右画像１０４は、第２の画像センサ２０４に関連付けられた視野２０８を表すことができる。視野の少なくとも一部は、重複部分２１０として図示されるように、重複できる。理解できるように、視野２０６および２０８の少なくとも一部は重複しなくてもよい。

次に、左画像１０６を、図１の機械学習コンポーネント１１２に対応し得る機械学習コンポーネント２１２に入力できる。図２は機械学習コンポーネント２１２に入力されている左画像１０６を示すが、動作は、図３に関連して説明されるように、ならびに本開示を通じて、右画像１０４を機械学習コンポーネントに左画像１０６の入力と直列または並行して入力することを含むことができる。

いくつかの例では、動作は、左画像１０６および右画像１０４内の対応する点がピクセルの同じ行内にあるように、左画像１０６および右画像１０４を修正することを含むことができる。いくつかの例では、画像データを修正することは、視差および／またはワーピング動作を決定するための動作を単純化できる。

機械学習コンポーネント２１２は、左画像１０６に少なくとも部分的に基づいて、予測された逆深度データ２１４を決定できる。いくつかの例では、機械学習コンポーネント２１２は、深度データ、視差データなどを出力できる。いくつかの例では、予測された逆深度データ２１４は、計算の効率のための逆深度値を表すことができる。

動作は、予測された逆深度データ２１４および右画像１０４を逆ワーピングコンポーネント２１６に入力することを含むことができる。逆ワーピングコンポーネント２１６は、予測された逆深度データ２１４に基づいて、ならびに内部カメラパラメータ（例えば、レンズ歪み、焦点距離など）および／または外部カメラパラメータ（例えば、個々の画像センサおよび立体画像センサの姿勢（例えば、方向）など）に基づいて、右画像１０４をワーピングする機能を含むことができる。例えば、予測された逆深度データ２１４、右画像１０４、およびカメラ固有情報が与えられると、逆ワーピングコンポーネント２１６は、点間の視差を決定し、その視差を使用して再構築された左画像２１８を決定できる。

再構築された左画像２１８および左画像１０６を損失コンポーネント２２０に入力して、左画像１０６と再構築された左画像２１８との間の異または損失を決定できる。いくつかの例では、右画像１０４が左画像１０６と重複しないエリアは、再構築された左画像２１８についてのヌルデータをもたらすことができる。そのようなヌルデータを領域２２２として表すことができ、これはトレーニングのための損失を決定するときに重みを下げられる、または除外され得る。

本明細書で説明されるように、損失コンポーネント２２０は、機械学習コンポーネント２１２をトレーニングするための様々な損失を決定できる。例えば、損失成分は、ピクセル損失、平滑化損失、構造的類似性損失、一貫性損失などを決定できる。

いくつかの例では、動作は、左画像データに基づいて再構築された右画像を生成することと、左画像データに基づいて予測された逆深度データ（または予測された視差データ）を生成することとを含み得る（逆もまた同様である）。

図３は、立体画像データに関連付けられた損失に基づいて機械学習モデルをトレーニングする例示的なプロセスの図解フロー図３００である。図３の態様は、図１および図２に関連して説明した１つまたは複数のコンポーネントによって実行でき、これは、明確性のために省略できる。

例えば、動作は、左画像１０６をキャプチャまたは受信し、予測された逆深度データ３０２（例えば、左画像１０６に基づく）を決定することを含むことができる。さらに、動作は、右画像１０４をキャプチャまたは受信し、予測された逆深度データ３０４（例えば、右画像１０４に基づく）を決定することを含むことができる。予測される深度データを決定することは、技術的許容範囲内で、直列または並列で実行できる。

動作は、図２で上述したように、予測された逆深度データ３０２および右画像１０４に基づいて、再構築された左画像３０６を決定することをさらに含むことができる。さらに、動作は、本明細書で説明されるように、予測された逆深度データ３０４および左画像１０６に基づいて、再構築された右画像３０８を決定することを含むことができる。

1つまたは複数の損失（例えば、損失３１０）を、再構築された左画像３０６および左画像１０６に少なくとも部分的に基づいて決定できる。いくつかの例では、損失３１０は、ピクセル損失、平滑化損失、構造的類似性損失、一貫性損失（例えば、左／右の一貫性、エッジベースの一貫性、セグメンテーションベースの一貫性など）のうちの1つまたは複数を表すことができる。いくつかの例では、一貫性損失（例えば、左／右の一貫性損失）は、画像データおよび再構築された画像データ内のピクセル間の合計またはそうでなければ集約された差を表すことができる。いくつかの例では、一貫性損失は、再構築された画像（例えば、再構築された左画像３０６および再構築された右画像３０８）間の差に対応できる。

同様に、1つまたは複数の損失（例えば、損失３１２）を、再構築された右画像３０８および右画像１０４に少なくとも部分的に基づいて決定できる。いくつかの例では、損失３１２のカテゴリ／タイプは、損失３１０に実質的に対応できる。

損失３１０および３１２を、組み合わして、合計して、またはそうでなければ集約して、損失３１４を決定できる。本明細書で説明される機械学習モデルを損失３１４に少なくとも部分的に基づいてトレーニングできる。

図４は、自己教師出力および教師出力に関連付けられた損失に基づいて機械学習モデルをトレーニングする例示的なプロセスの図解フロー図４００である。

上述したように、トレーニング動作は、立体画像センサによってキャプチャされた画像データ（例えば、右画像１０４および左画像１０６として表される）をキャプチャおよび／または受信することを含むことができる。トレーニング動作は、深度データ１１０（例えば、1つまたは複数のｌｉｄａｒセンサおよび／または飛行時間センサによってキャプチャされた）をキャプチャおよび／または受信することをさらに含むことができる。右画像１０４、左画像１０６、および深度データ１１０を、機械学習コンポーネント４０２に入力できる。

いくつかの例では、機械学習コンポーネント４０２は、ニューラルネットワーク、畳み込みニューラルネットワーク、再帰型ニューラルネットワークなどを含むことができる。いくつかの例では、機械学習コンポーネント４０２は、それぞれ図１および図２で説明した機械学習コンポーネント１１２および２１２に対応できる。

機械学習コンポーネント４０２は、画像データ（例えば、右画像１０４および／または左画像１０６）および／または深度データ１１０に少なくとも部分的に基づいて、1つまたは複数の特徴マップを決定できる。いくつかの例では、機械学習コンポーネント４０２は、1つまたは複数の特徴マップをアップサンプリングコンポーネント４０４に出力できる。いくつかの例では、アップサンプリングコンポーネント４０４は、機械学習コンポーネント４０２とは別個のコンポーネントであってもよく、または機械学習コンポーネント４０２に組み込まれてもよい。いくつかの例では、アップサンプリングコンポーネント４０４は、機械学習モデルのデコーダ部分を表してもよく、またはその一部であってもよい。

いくつかの例では、アップサンプリングコンポーネントは、ローカル平面ガイダンスに少なくとも部分的に基づいて、1つまたは複数の特徴マップを様々な解像度レベルにアップサンプリングし得る。いくつかの例では、ローカル平面ガイダンスは、アップサンプリングのための個々のピクセルまたは特徴の方向および／または大きさに関連付けられた単位ベクトルを予測する機能を含むことができる。

機械学習コンポーネント４０２および／またはアップサンプリングコンポーネント４０４は、出力４０６を決定することができ、これは、自己教師出力４０８（例えば、逆深度マップ、視差、深度など）および／または教師出力４１０（例えば、深度など）を含み得る。

いくつかの例では、自己教師出力４０８は、本明細書で説明されるように、再構築された画像データに関連して決定された損失に少なくとも部分的に基づくことができる。

いくつかの例では、教師出力４１０は、予測された深度データをグランドトゥルースデータとして深度データ１１０と比較することに少なくとも部分的に基づくことができる。

いくつかの例では、機械学習コンポーネント４０２は、自己教師出力４０８および教師出力４１０を出力するためにニューラルネットワークの別個の出力ヘッドを含み得る。出力４０６を損失コンポーネント４１２に入力して、データに基づいて様々な損失を決定し得る。

例えば、損失コンポーネント４１２は、一貫性損失および／または損失バランシングを決定できる。例えば、一貫性損失は、自己教師出力４０８（例えば、視差データとして表される）と教師出力４１０（例えば、深度データとして表される）との間の差を決定できる。このような一貫性損失は、深度／視差一貫性損失と呼ぶことができる。

いくつかの例では、一貫性損失を片側的であることができ（例えば、自己教師出力に関連付けられた第１の損失を決定するためのグランドトゥルースとして教師出力を使用する、または教師出力に関連付けられた第２の損失を決定するためのグランドトゥルースとして自己教師出力を使用する）、または一貫性損失を両側的であることができる（例えば、自己教師出力に関連付けられた第１の損失を決定するためのグランドトゥルースとして教師出力を使用し、教師出力に関連付けられた第２の損失を決定するためのグランドトゥルースとして自己教師出力を使用し、第１の損失および第２の損失に基づいて第３の損失を決定する）。いくつかの例では、一貫性損失は、エッジベースの一貫性損失（例えば、画像と再構築された画像との間のエッジに基づく一貫性）またはセグメンテーションベースの一貫性損失（例えば、データの分類間またはデータ間のインスタンスセグメンテーションの一貫性）とすることができる。

いくつかの例では、教師ありトレーニングに関連付けられた損失（例えば、グランドトゥルースを表すｌｉｄａｒデータに基づいて）は、順序回帰に少なくとも部分的に基づくことができる。いくつかの例では、順序回帰に基づく損失は、エラーとグランドトゥルースの値との間の差に比例する、または関連することができる。

損失コンポーネント４１２は、損失バランシングのための機能性をさらに含むことができる。例えば、動作は、ピクセル損失、平滑化損失、構造的類似性損失、一貫性損失などの様々な損失を決定することを含むことができる。そのような損失を合計または集約して、するための集約された損失を決定して、トレーニングのために機械学習コンポーネント４０２を通してバックプロパゲートできる。いくつかの例では、損失を、各損失に関連付けられた重みおよび／または不確実性に従って合計できる。いくつかの例では、重みをトレーニングプロセスの一部として学習できる。いくつかの例では、損失に関連付けられた重みを、等分散性に少なくとも部分的に基づいて決定できる。

図５は、本明細書で説明する技術を実装するための例示的なシステム５００のブロック図を示す。少なくとも１つの例では、システム５００は、車両５０２を含むことができる。図示された例示的なシステム５００では、車両５０２は自律車両であるが、車両５０２は任意の他のタイプの車両とすることができる。

車両５０２は、米国国民高速道路交通安全局によって発行されるレベル５分類に従って動作するよう構成された自律車両などの無人運転車両とするこができ、これは、ドライバー（または乗員）が車両を常時制御することを期待することなく、全行程のすべての安全上重要な機能を実行することが可能な車両を説明している。そのような例では、車両５０２は、すべての駐車機能を含む、行程の開始から完了までのすべての機能を制御するよう構成されることができるため、ドライバーならびに／またはステアリングホイール、アクセルペダル、および／もしくはブレーキペダルのような車両５０２を駆動するための制御を含まなくてよい。これは単なる例であり、本明細書で説明するシステムおよび方法を、ドライバーが常に手動で制御する必要がある車両から、部分的または完全に自律的に制御されているものまでを含む任意の地上、空中、または水上車両に組み込み得る。

車両５０２は、1つまたは複数のコンピューティングデバイス５０４、1つまたは複数のセンサシステム５０６、1つまたは複数のエミッタ５０８、1つまたは複数の通信接続部５１０（通信デバイスおよび／またはモデムとも呼ばれる）、少なくとも１つの直接接続部５１２（例えば、車両５０２と物理的に結合してデータを交換する、および／または電力を供給するための）、および1つまたは複数の駆動システム５１４を含むことができる。１つまたは複数のセンサシステム５０６は、環境に関連付けられたセンサデータをキャプチャするように構成できる。

１つまたは複数のセンサシステム５０６は、飛行時間センサ、位置センサ（ＧＰＳ、コンパスなど）、慣性センサ（慣性測定装置（ＩＭＵ）、加速度計、磁力計、ジャイロスコープなど）、ｌｉｄａｒセンサ、ｒａｄａｒセンサ、ｓｏｎａｒセンサ、赤外線センサ、カメラ（ＲＧＢ、ＩＲ、強度、深度など）、マイクセンサ、環境センサ（温度センサ、湿度センサ、光センサ、圧力センサなど）、超音波トランスデューサー、ホイールエンコーダなどを含むことができる。１つまたは複数のセンサシステム５０６は、センサのこれらのまたは他のタイプのそれぞれの複数のインスタンスを含むことができる。例えば、飛行時間センサは、車両５０２の角、前部、後部、側部、および／または上部に配置された個々の飛行時間センサを含むことができる。別の例として、カメラセンサは車両５０２の外部および／または内部のさまざまな位置に配置された複数のカメラを含むことができる。1つまたは複数のセンサシステム５０６は、コンピューティングデバイス５０４に入力を提供できる。

車両５０２はまた、光および／または音を放出するための１つまたは複数のエミッタ５０８を含むことができる。この例における１つまたは複数のエミッタ５０８は、車両５０２の乗客と通信するための内部オーディオおよびビジュアルエミッタを含む。限定ではなく例として、内部エミッタは、スピーカー、ライト、標識、ディスプレイ画面、タッチスクリーン、触覚エミッタ（例えば、振動および／またはフォースフィードバック）、機械式アクチュエータ（例えば、シートベルトテンショナ、シートポジショナ、ヘッドレストポジショナなど）などを含むことができる。この例の１つまたは複数のエミッタ５０８はまた、外部エミッタを含む。限定ではなく例として、この例示の外部エミッタは、走行の方向または車両の作動の他のインジケータ（例えば、インジケータライト、標識、ライトアレイなど）を信号で送るためのライト、および音響ビームステアリング技術を備え得る１つまたは複数の歩行者または他の近くの車両と音声で通信するための1つまたは複数のオーディオエミッタ（例えば、スピーカー、スピーカーアレイ、ホーンなど）を含む。

車両５０２はまた、車両５０２と１つまたは複数の他のローカルまたはリモートコンピューティングデバイス（例えば、リモートテレオペレーションコンピューティングデバイス）またはリモートサービスとの間の通信を可能にする１つまたは複数の通信接続部５１０を含むことができる。例えば、１つまたは複数の通信接続部５１０は車両５０２および／または１つまたは複数の駆動システム５１４上の他のローカルコンピューティングデバイスとの通信を容易にできる。また、１つまたは複数の通信接続部５１０は、車両５０２が他の近くのコンピューティングデバイス（例えば、他の近くの車両、交通信号など）と通信することを可能にできる。

1つまたは複数の通信接続部５１０は、コンピューティングデバイス５０４を別のコンピューティングデバイスまたは1つまたは複数の外部ネットワーク５３４（例えば、インターネット）に接続するための物理的および／または論理的インターフェースを含むことができる。例えば、１つまたは複数の通信接続部５１０は、ＩＥＥＥ８０２．１１規格によって定義された周波数を介するようなＷｉ－Ｆｉベースの通信、Ｂｌｕｅｔｏｏｔｈなどの短距離無線周波数、セルラー通信（例えば、２Ｇ、３Ｇ、４Ｇ、４ＧＬＴＥ、５Ｇなど）、衛星通信、専用狭域通信（ＤＳＲＣ）、またはそれぞれのコンピューティングデバイスが他のコンピューティングデバイスとインターフェースで接続することを可能にする任意の適切な有線または無線通信プロトコルを可能にできる。

少なくとも１つの例では、車両５０２は、１つまたは複数の駆動システム５１４を含むことができる。いくつかの例では、車両５０２は、単一の駆動システム５１４を有することができる。少なくとも１つの例では、車両５０２が複数の駆動システム５１４を有する場合、個々の駆動システム５１４は車両５０２の両端部（例えば前部および後部など）に位置できる。少なくとも１つの例では、駆動システム５１４は駆動システム５１４および／または車両５０２の周辺のコンディションを検出する１つまたは複数のセンサシステム５０６を含むことができる。限定ではなく例として、センサシステム５０６は、駆動システムのホイールの回転を感知するための１つまたは複数のホイールエンコーダ（例えばロータリーエンコーダー）、駆動システムの方向と加速度を測定するための慣性センサ（例えば、慣性測定ユニット、加速度計、ジャイロスコープ、磁力計など）、カメラまたはその他の画像センサ、駆動システムの周囲のオブジェクトを音響的に検出するための超音波センサ、ｌｉｄａｒセンサ、ｒａｄａｒセンサなど、を含むことができる。一部のセンサ、ホイールエンコーダなど、は駆動システム５１４に固有とすることができる。いくつかのケースでは、駆動システム５１４上のセンサシステム５０６は、車両５０２の対応するシステム（例えば、センサシステム５０６）と重複または補完できる。

駆動システム５１４は、高電圧バッテリー、車両を推進するモーター、バッテリーからの直流を他の車両システムで使用するための交流に変換するインバーター、ステアリングモーターおよびステアリングラックを含むステアリングシステム（電動とすることができる）、油圧または電気アクチュエータを含むブレーキシステム、油圧および／または空気圧コンポーネントを含むサスペンションシステム、トラクションの損失を軽減し制御を維持するブレーキ力分散用の安定性制御システム、ＨＶＡＣシステム、照明（例えば車両の外部環境を照らすヘッド／テールライトなどの照明）、および1つまたは複数の他のシステム（例えば冷却システム、安全システム、車載充電システム、ＤＣ／ＤＣコンバーター、高電圧ジャンクション、高電圧ケーブル、充電システム、充電ポートなどのその他の電装コンポーネント）を含む多くの車両システムを含むことができる。さらに、駆動システム５１４は、センサシステム５０６からデータを受信および前処理し、様々な車両システムの動作を制御できる駆動システムコントローラを含むことができる。いくつかの例では、駆動システムコントローラは、１つまたは複数のプロセッサおよび１つまたは複数のプロセッサと通信可能に結合されたメモリを含むことができる。メモリは駆動システム５１４の様々な機能を実行する１つまたは複数のコンポーネントを格納できる。さらに、駆動システム５１４はまた、それぞれの駆動システムによる1つまたは複数の他のローカルまたはリモートコンピューティングデバイスとの通信を可能にする1つまたは複数の通信接続部を含む。

コンピューティングデバイス５０４は、１つまたは複数のプロセッサ５１６および１つまたは複数のプロセッサ５１６と通信可能に結合されたメモリ５１８を含むことができる。図示の例では、コンピューティングデバイス５０４のメモリ５１８は、ローカライゼーションコンポーネント５２０、機械学習コンポーネント５２４を備える知覚コンポーネント５２２、予測コンポーネント５２６、計画コンポーネント５２８、マップコンポーネント５３０、および１つまたは複数のシステムコントローラ５３２を格納する。例示の目的でメモリ５１８内に存在するものとして示されているが、ローカライゼーションコンポーネント５２０、知覚コンポーネント５２２、機械学習コンポーネント５２４、予測コンポーネント５２６、計画コンポーネント５２８、マップコンポーネント５３０、および１つまたは複数のシステムコントローラ５３２は、追加的にまたは代替的に、コンピューティングデバイス５０４（例えば、車両５０２の異なるコンポーネントに格納されている）にアクセス可能である、および／または車両５０２（例えば、遠隔に格納されている）にアクセス可能であることができる、ことが企図される。

コンピューティングデバイス５０４のメモリ５１８において、ローカライゼーションコンポーネント５２０はセンサシステム５０６からデータを受信して、車両５０２の位置を決定する機能を含むことができる。例えば、ローカライゼーションコンポーネント５２０は、環境の３次元マップを含み、および／または要求／受信でき、マップ内の自律車両の位置を継続的に決定できる。いくつかの例では、ローカライゼーションコンポーネント５２０は、ＳＬＡＭ（ローカリゼーションとマッピングの同時実行）またはＣＬＡＭＳ（キャリブレーション、ローカリゼーションとマッピングの同時実行）を使用し、飛行時間データ、画像データ、ｌｉｄａｒデータ、ｒａｄａｒデータ、ｓｏｎａｒデータ、ＩＭＵデータ、ＧＰＳデータ、ホイールエンコーダデータ、またはそれらの任意の組み合わせなどを受信して、自律車両の位置を正確に決定できる。いくつかの例では、本明細書で説明されるように、ローカライゼーションコンポーネント５２０は車両５０２の様々なコンポーネントにデータを提供して、軌道を生成するための自律車両の初期位置を確定できる。

上述したように、ローカライゼーションコンポーネント５２０は、機械学習モデルコンポーネント５２４によって生成された深度データを使用して、上述した動作を実行して、車両５０２の位置を決定できる。深度データは、３次元マップ（例えば、メッシュ）と比較するためのローカルマップを提供できる。いくつかの例では、ローカライゼーションコンポーネント５２０は、ローカルマップ、３次元マップ、および／または1つまたは複数のセンサシステム５０６に関連付けられたエラーを決定する機能を提供できる。例えば、ローカライゼーションコンポーネント５２０は車両５０２に関連付けられた位置エラー（例えば、ドリフトエラー）を決定できる。動作中の時間が経つにつれて、エラーが蓄積され、位置決めおよび／または軌道データにおけるエラーをもたらし得る。いくつかの例では、ローカライゼーションコンポーネント５２０は、例えば、位置エラーが閾値を満たす、または超えることに基づいてエラーを決定できる。いくつかの例では、ローカライゼーションコンポーネント５２０は、位置エラーに基づいて、1つまたは複数のセンサシステム５０６に関連付けられた較正調整を決定できる。

例示のみを目的として、ローカライゼーションコンポーネント５２０は、1つまたは複数のセンサシステム５０６からのＧＰＳデータに基づいて車両の位置を決定できる。しかし、ローカルマップの比較は、車両がＧＰＳデータによって示される位置とは異なる位置にあることを示す可能性がある。従って、ローカライゼーションコンポーネント５２０は、ＧＰＳセンサおよび／またはローカルマップにエラーが存在することを示すことができる。

いくつかの例では、ローカライゼーションコンポーネント５２０は３次元マップに関連付けられた更新を決定できる。例示のみを目的として、1つまたは複数のセンサシステム５０６は、ローカライゼーションコンポーネント５２０に位置データを提供できる。加えて、ローカライゼーションコンポーネント５２０は、ローカルマップと３次元マップとの比較に基づいて位置を決定できる。しかし、比較は、ローカルマップの1つまたは複数の点が３次元マップに対応しないことを示す可能性がある。これは、３次元マップが古いことを示すことができる。ローカライゼーションコンポーネント５２０は、ローカルマップと３次元マップとの間の差を更新されたマップとして決定し、マップの更新を格納する、または例えば、ネットワーク５３４を介してマップのデータサーバにマップの更新を提供できる。

知覚コンポーネント５２２は、オブジェクトの検出、セグメンテーション、および／または分類を実行するための機能を含むことができる。いくつかの例では、知覚コンポーネント５２２は、車両５０２に近接するエンティティの存在および／またはエンティティタイプ（例えば、車、歩行者、自転車乗り、建物、木、路面、縁石、歩道、不明など）としてのエンティティの分類を示す処理済みセンサデータを提供できる。追加および／または代替の例では、知覚コンポーネント５２２は、検出されたエンティティおよび／またはエンティティが位置する環境に関連付けられた１つまたは複数の特性を示す処理済みセンサデータを提供できる。いくつかの例では、エンティティに関連付けられた特性は、ｘ位置（グローバル位置）、ｙ位置（グローバル位置）、ｚ位置（グローバル位置）、オリエンテーション、エンティティタイプ（分類など）、エンティティの速度、エンティティの範囲（サイズ）などを含むことができるが、これらに限定されない。環境に関連付けられた特性は、環境内の別のエンティティの存在、環境内の別のエンティティの状態、時刻、曜日、季節、気象条件、暗闇／光の表示などを含むことができるが、これらに限定されない。

上述のように、知覚コンポーネント５２２は、知覚アルゴリズムを使用して、センサデータに基づいて環境内のオブジェクトに関連付けられた知覚ベースのバウンディングボックスを決定できる。例えば、知覚コンポーネント５２２は、画像データを受信および画像データを分類して、オブジェクトが画像データ内に表されていることを決定できる。次いで、検出アルゴリズムを使用して、知覚コンポーネント５２２は、２次元バウンディングボックスおよび／またはオブジェクトに関連付けられた知覚ベースの３次元バウンディングボックスを生成できる。知覚コンポーネント５２２はさらに、オブジェクトに関連付けられた３次元バウンディングボックスを生成できる。上述したように、３次元バウンディングボックスは、オブジェクトに関連付けられた位置、方向、姿勢、および／またはサイズ（例えば、長さ、幅、高さなど）などの追加情報を提供できる。

知覚コンポーネント５２２は、知覚コンポーネント５２２によって生成された知覚データを格納するための機能を含むことができる。いくつかの例では、知覚コンポーネント５２２は、オブジェクトタイプとして分類されているオブジェクトに対応するトラックを決定できる。例示のみを目的として、センサシステム５０６を使用する知覚コンポーネント５２２は、環境の１つまたは複数の画像をキャプチャできる。センサシステム５０６は、歩行者などのオブジェクトを含む環境の画像をキャプチャできる。歩行者は、時間Ｔにおいて第１の位置に、時間Ｔ＋ｔにおいて第２の位置にいることができる（例えば、時間Ｔの後の時間ｔのスパン中の移動）。換言すれば、歩行者は、この期間中に第１の位置から第２の位置まで移動できる。そのような移動を、例えば、オブジェクトに関連付けられた格納された知覚データとしてログに記録できる。

格納された知覚データは、いくつかの例では、車両によってキャプチャされた融合した知覚データを含むことができる。融合した知覚データは、画像センサ、ｌｉｄａｒセンサ、ｒａｄａｒセンサ、飛行時間センサ、ｓｏｎａｒセンサ、全地球測位システムセンサ、内部センサ、および／またはこれらの任意の組み合わせなどのセンサシステム５０６からのセンサデータの融合または他の組み合わせを含むことができる。格納された知覚データは、追加的または代替的に、センサデータに表されるオブジェクト（例えば、歩行者、車両、建物、路面など）の意味分類を含む分類データを含むことができる。格納された知覚データは、追加的または代替的に、環境を通る動的オブジェクトとして分類されるオブジェクトの動きに対応するトラックデータ（位置、方向、センサ特徴など）を含むことができる。トラックデータは、経時的に複数の異なるオブジェクトの複数のトラックを含むことができる。このトラックデータをマイニングして、オブジェクトが止まっている（例えば、静止している）または移動している（例えば、歩行、走行など）時に、特定のタイプのオブジェクト（例えば、歩行者、動物など）の画像を識別できる。この例では、コンピューティングデバイスは、歩行者に対応するトラックを決定する。

知覚コンポーネント５２２は機械学習コンポーネント５２４を含むことができ、これは、本明細書で説明される技術に従ってトレーニングされ、画像データに基づいて深度データを決定できる。いくつかの例では、機械学習コンポーネント５２４は、画像データ（例えば、単一の画像フレーム）を受信する機能を含むことができ、画像データ内の各ピクセルに関連付けられた深度データを出力できる。いくつかのケースでは、機械学習コンポーネント５２４は、1つまたは複数の他のセンサが機能していないコンポーネントである場合に、バックアップコンポーネントとして機能することができ、いくつかの例では、機械学習コンポーネント５２４は、本明細書で説明されるように、ローカライゼーションコンポーネント５２０、知覚コンポーネント５２２、予測コンポーネント５２６、および／または計画コンポーネント５２８の深度データの主要なソースとして機能できる。

予測コンポーネント５２６は、環境内の１つまたは複数のオブジェクトの可能な位置の予測確率を表す１つまたは複数の確率マップを生成できる。例えば、予測コンポーネント５２６は、車両５０２からの閾値距離内の車両、歩行者、動物などについての１つまたは複数の確率マップを生成できる。いくつかの例では、予測コンポーネント５２６は、オブジェクトのトラックを測定し、観測されたおよび予測された挙動に基づいて、離散化された予測確率マップ、ヒートマップ、確率分布、離散化された確率分布、および／またはオブジェクトについての軌道を生成できる。いくつかの例では、１つまたは複数の確率マップは、環境内の１つまたは複数のオブジェクトの意図を表すことができる。

計画コンポーネント５２８は、環境を通り横断するために車両５０２が辿る経路を決定できる。例えば、計画コンポーネント５２８は、様々なルートおよび経路ならびに様々なレベルの詳細を決定できる。いくつかの例では、計画コンポーネント５２８は、第１の位置（例えば、現在の位置）から第２の位置（例えば、目標の位置）へ進行するためのルートを決定できる。この説明を目的に、ルートは２つの位置の間を走行するための一連の経由地点にできる。非限定的な例示として、経由地点は、道路、交差点、全地球測位システム（ＧＰＳ）の座標などを含む。さらに、計画コンポーネント５２８は、第１の位置から第２の位置へのルートの少なくとも一部に沿って自律車両をガイドするための命令を生成できる。少なくとも１つの例において、計画コンポーネント５２８は、自律車両を一連の経由地点の第１の経由地点から一連の経由地点の第２の経由地点までどのようにガイドすべきかを決定できる。いくつかの例では、命令は経路または経路の一部とすることができる。いくつかの例では、複数の経路をreceding horizon技術に従って、実質的に同時に（すなわち、技術的許容差内で）生成できる。最も高い信頼水準を有する後退データ範囲内の複数の経路の単一の経路を、車両を動作させるために選択し得る。

他の例では、計画コンポーネント５２８は、代替的にまたは追加的に、知覚コンポーネント５２２および／または予測コンポーネント５２６からのデータを使用して、車両５０２が環境を通り横断するために辿る経路を決定できる。例えば、計画コンポーネント５２８は、環境に関連付けられたオブジェクトに関して、知覚コンポーネント５２２および／または予測コンポーネント５２６からデータを受信できる。このデータを使用して、計画コンポーネント５２８は、環境内のオブジェクトを回避する、第１の位置（例えば、現在の位置）から第２の位置（例えば、目標の位置）まで移動するルートを決定できる。少なくともいくつかの例では、そのような計画コンポーネント５２８は、そのような衝突のない経路がないと決定し、次に、車両５０２をすべての衝突を回避するおよび／またはそうでなければ損傷を軽減する、安全な停止へ導く経路を提供し得る。

メモリ５１８は、環境内をナビゲートするために車両５０２によって使用できる１つまたは複数のマップ５３０をさらに含むことができる。この説明の目的上、マップは、限定しないが、トポロジ（交差点のような）、通り、山脈、道路、地形、および一般的な環境などの環境についての情報を提供可能である２次元、３次元、またはＮ次元でモデル化された任意の数のデータ構造とすることができる。いくつかの例では、マップは、テクスチャ情報（例えば、色情報（例えば、ＲＧＢ色情報、ラボ色情報、ＨＳＶ／ＨＳＬ色情報）など）、強度情報（例えば、ＬＩＤＡＲ情報、ＲＡＤＡＲ情報など）、空間情報（例えば、メッシュに投影された画像データ、個々の「サーフェル」（例えば、個々の色および／または強度に関連付けられたポリゴン））、反射率情報（例えば、鏡面反射率情報、再帰反射率情報、ＢＲＤＦ情報、ＢＳＳＲＤＦ情報など）を含むことができるが、これらに限定されない。１つの例では、マップは、環境の３次元メッシュを含むことができる。いくつかの例では、マップの個々のタイルが環境の個別の部分を表すように、マップをタイルフォーマットで格納でき、本明細書で説明するように、必要に応じて作業メモリにロードできる。少なくとも１つの例では、１つまたは複数のマップ５３０は、少なくとも１つのマップ（例えば、画像および／またはメッシュ）を含むことができる。いくつかの例では、車両５０２は、マップ５３０に少なくとも部分的に基づいて制御できる。すなわち、マップ５３０を、ローカライゼーションコンポーネント５２０、知覚コンポーネント５２２、機械学習コンポーネント５２４、予測コンポーネント２２６、および／または計画コンポーネント５２８に関連して使用して、車両５０２の位置を決定する、環境内のオブジェクトを識別する、オブジェクトおよび／または車両５０２に関連付けられた予測確率を生成する、および／または環境内でナビゲートするための経路および／または軌道を生成することができる。

いくつかの例では、１つまたは複数のマップ５３０は、ネットワーク５３４を介してアクセス可能なリモートコンピューティングデバイス（コンピューティングデバイス５３６など）に格納できる。いくつかの例では、複数のマップ５３０は、例えば、特性（例えば、エンティティのタイプ、時刻、曜日、季節など）に基づいて格納できる。複数のマップ５３０を格納することは同様のメモリ要件を有することができるが、マップ内のデータにアクセスできる速度を増加できる。

少なくとも１つの例では、コンピューティングデバイス５０４は１つまたは複数のシステムコントローラ５３２を含むことができ、これは、車両５０２のステアリング、推進、ブレーキ、安全性、エミッタ、通信、および他のシステムを制御するように構成できる。これらのシステムコントローラ５３２は、駆動システム５１４の対応するシステムおよび／または車両５０２の他のコンポーネントと通信する、および／または制御することができ、これらは、計画コンポーネント５２８から提供される経路に従って動作するように構成され得る。

車両５０２は、ネットワーク５３４を介してコンピューティングデバイス５３６に接続でき、1つまたは複数のプロセッサ５３８および1つまたは複数のプロセッサ５３８と通信可能に結合されたメモリ５４０を含むことができる。少なくとも１つの例において、１つまたは複数のプロセッサ５３８はプロセッサ５１６に類似でき、メモリ５４０はメモリ５１８に類似できる。図示の例では、コンピューティングデバイス５３６のメモリ５４０は、画像データコンポーネント５４４、深度データコンポーネント５４６、機械学習コンポーネント５４８、逆ワーピングコンポーネント５５０、アップサンプリングコンポーネント５５２、および損失コンポーネント５５４を含むトレーニングコンポーネント５４２を格納する。少なくとも１つの例では、機械学習コンポーネント５４８は、トレーニング後、機械学習コンポーネント５２４に類似できる。説明のためにメモリ５４０に存在するものとして示されているが、トレーニングコンポーネント５４２、画像データコンポーネント５４４、深度データコンポーネント５４６、機械学習コンポーネント５４８、逆ワーピングコンポーネント５５０、アップサンプリングコンポーネント５５２、および損失コンポーネント５５４は、追加的にまたは代替的に、コンピューティングデバイス５３６（例えば、コンピューティングデバイス５３６の異なるコンポーネントに格納されている）にアクセス可能、および／またはコンピューティングデバイス５３６（例えば、遠隔に格納されている）にアクセス可能であることができる、ことが企図される。

本明細書で説明されるように、トレーニングコンポーネント５４２は、機械学習コンポーネント５４８をトレーニングして、画像データに基づいて深度データを生成できる。トレーニングコンポーネント５４２は、機械学習コンポーネント５４８への入力としてトレーニングデータを決定できる。例えば、トレーニングデータは、車両によってキャプチャされるトレーニング画像データなどのセンサデータを含むことができる。いくつかの例では、画像データは、修正された画像データおよび／または合成画像データとすることができる。加えて、トレーニングデータは、グランドトゥルースデータとして、ｌｉｄａｒデータ、飛行時間データ、および／またはｒａｄａｒデータなどのセンサデータを含むことができる。

いくつかの例では、画像データコンポーネント５４４は、立体画像センサによってキャプチャされた画像データを受信する機能を含むことができる。いくつかの例では、画像データコンポーネント５４４は、歪みを除去することおよび／または画像を互いに対して修正することなどによって、トレーニングのために画像データを前処理できる。歪みの例は、レンズ歪み、色補正などを含み得る。画像データを補正する例は、第１の画像データ内のピクセルが第２の画像データ内の対応するピクセルと同じ行になるように画像データを整列させることを含み得る。

いくつかの例では、深度データコンポーネント５４６は、1つまたは複数のｌｉｄａｒセンサ、飛行時間センサ、ｒａｄａｒセンサなどによってキャプチャされた深度データを受信する機能を含むことができる。いくつかの例では、深度データコンポーネント５４６は、深度データの対応する点が立体画像データの左画像データおよび／または右画像データ内の特定のピクセルに関連付けられるように、画像データに対して深度データを整列または登録できる。

機械学習コンポーネント５４８は、トレーニングコンポーネント５４２によって提供されるトレーニングデータ（例えば、画像データコンポーネント５４４および／または深度データコンポーネント５４６によって提供される）を使用して、機械学習モデルをトレーニングして、トレーニング画像データに関連付けられた深度データを決定できる。機械学習コンポーネント５４８がトレーニングされると、機械学習コンポーネント５４８を（トレーニングされた）機械学習コンポーネント５２４として、車両５０２内に展開できる。

いくつかの例では、逆ワーピングコンポーネント５５０は、推定された深度データ（例えば、機械学習コンポーネントによって出力された）に基づいて、および第２の画像データに基づいて、再構築された第１の画像を生成またはそうでなければ決定する機能を含むことができる。例えば、逆ワーピングコンポーネント５５０は、予測された深度データに少なくとも部分的に基づいて、水平走査線（a horizontal scan line）に沿って第２の画像からピクセルをシフトして、再構築された第１の画像を生成できる。

いくつかの例では、アップサンプリングコンポーネント５５２は、機械学習コンポーネントによって出力される1つまたは複数の特徴マップをアップサンプリングする機能を含むことができる。いくつかの例では、アップサンプリングコンポーネント５５２は、ローカル平面ガイダンス（ＬＰＧ）に基づくことができる。いくつかの例では、アップサンプリングコンポーネント５５２を機械学習モデルのデコーダ部分に含むことができるまたは別個のコンポーネントとすることができる。

いくつかの例では、損失コンポーネント５５４は、本明細書で説明されるように、自己教師および／または教師損失を決定する機能を含むことができる。損失は、ピクセル損失、平滑化損失、構造的類似性損失、一貫性損失（例えば、左／右の一貫性損失、深度／視差一貫性損失、エッジベースの一貫性損失、セグメンテーションベースの一貫性損失など）を含み得るが、これらに限定されない。いくつかの例では、損失のいずれかは、Ｌ１損失（平均絶対誤差）、Ｌ２損失（平均二乗誤差）、尤度損失、ログ損失、クロスエントロピー損失、ヒンジ損失、ヒューバー損失などを表すことができる。種々の損失の詳細は本開示を通して論じられる。

コンピューティングデバイス５０４のプロセッサ５１６およびコンピューティングデバイス５３６のプロセッサ５３８は、本明細書で説明されるように、データを処理し動作を実施するための命令を実行可能な任意の適切なプロセッサとすることができる。限定ではなく例として、プロセッサ５１６および５３８は、１つまたは複数の中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、または電子データを処理して当該電子データをレジスタまたはメモリに格納できる他の電子データに変換する他の任意のデバイスまたはデバイスの一部を含むことができる。いくつかの例では、集積回路（例えば、ＡＳＩＣなど）、ゲートアレイ（例えば、ＦＰＧＡなど）、および他のハードウェアデバイスはまた、それらが符号化された命令を実装するよう構成される限り、プロセッサと見なすことができる。

コンピューティングデバイス５０４のメモリ５１８およびコンピューティングデバイス５３６のメモリ５４０は、非一時的コンピュータ可読媒体の例である。メモリ５１８および５４０は、オペレーティングシステムおよび１つまたは複数のソフトウェアアプリケーション、命令、プログラム、および／またはデータを格納して、本明細書に記載の方法および様々なシステムに起因する機能を実装できる。様々な実装形態では、メモリ５１８および５４０を、スタティックランダムアクセスメモリ（ＳＲＡＭ）、シンクロナスダイナミックＲＡＭ（ＳＤＲＡＭ）、不揮発性／フラッシュタイプメモリ、または情報を格納可能な他の任意のタイプのメモリなど、任意の適切なメモリ技術を用いて実装できる。本明細書で説明されるアーキテクチャ、システム、および個々の要素は、多くの他の論理的、プログラム的、および物理的なコンポーネントを含むことができ、添付図面に図示されるそれらは、単に本明細書での説明に関連する例にすぎない。

いくつかの例では、本明細書で説明されるコンポーネントのうちのいくつかまたはすべての態様は、任意のモデル、アルゴリズムおよび／または機械学習アルゴリズムを含むことができる。例えば、いくつかの事例では、メモリ５１８および５４０内のコンポーネントは、ニューラルネットワークとして実装できる。

本明細書で説明するように、例示的なニューラルネットワークは、入力データを一連の接続された層に通して出力を生成する生物学的に着想を得たアルゴリズムである。ニューラルネットワークの各層はまた別のニューラルネットワークを含むことができる、または任意の数の層（畳み込みかどうかに関係なく）を含むこともできる。本開示のコンテキストで理解できるように、ニューラルネットワークは機械学習を利用でき、これは学習されたパラメータに基づいて出力が生成されるようなアルゴリズムの広範なクラスを指すことができる。

ニューラルネットワークのコンテキストで説明されるが、任意のタイプの機械学習を本開示と一致して使用できる。例えば、機械学習または機械学習アルゴリズムは、回帰アルゴリズム（例えば、通常最小二乗回帰（ＯＬＳＲ）、線形回帰、ロジスティック回帰、段階的回帰、多変量適応回帰スプライン（ＭＡＲＳ）、局所的に推定される散布図の平滑化（ＬＯＥＳＳ）、インスタンスベースのアルゴリズム（例えば、リッジ回帰、最小絶対値縮小選択演算子（ＬＡＳＳＯ）、弾性ネット、最小角回帰（ＬＡＲＳ）、決定木アルゴリズム（例えば、分類回帰木（ＣＡＲＴ）、反復二分法３（ＩＤ３）、カイ二乗自動相互作用検出（ＣＨＡＩＤ）、決定切り株、条件付き決定木）、ベイジアンアルゴリズム（例えば、ナイーブベイズ、ガウスナイーブベイズ、多項式ナイーブベイズ、平均１依存性推定器（ＡＯＤＥ）、ベイジアン信頼度ネットワーク（ＢＮＮ）、ベイジアンネットワーク）、クラスタリングアルゴリズム（例えば、ｋ平均法、ｋメジアン法、期待値最大化（ＥＭ）、階層的クラスタリング）、関連規則学習アルゴリズム（例えば、パーセプトロン、バックプロパゲーション、ホップフィールドネットワーク、動径基底関数ネットワーク（ＲＢＦＮ））、深層学習アルゴリズム（例えば、深層ボルツマンマシン（ＤＢＭ）、深層信頼ネットワーク（ＤＢＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、積層型オートエンコーダ）、次元削減アルゴリズム（例えば、主成分分析（ＰＣＡ）、主成分回帰（ＰＣＲ）、部分最小二乗回帰（ＰＬＳＲ）、サモンマッピング、多次元スケーリング（ＭＤＳ）、射影追跡法、線形判別分析（ＬＤＡ）、混合判別分析（ＭＤＡ）、二次判別分析（ＱＤＡ）、フレキシブル判別分析（ＦＤＡ））、アンサンブルアルゴリズム（例えば、ブースティング、ブートストラップ集約（バギング）、エイダブースト、階層型一般化（ブレンディング）、勾配ブースティングマシン（ＧＢＭ）、勾配ブースト回帰木（ＧＢＲＴ）、ランダムフォレスト）、ＳＶＭ（サポートベクトルマシン）、教師あり学習、教師なし学習、半教師あり学習などを含むことができるが、これらに限定されない。

アーキテクチャの追加の例は、ＲｅｓＮｅｔ５０、ＲｅｓＮｅｔ１０１、ＶＧＧ、ＤｅｎｓｅＮｅｔ、ＰｏｉｎｔＮｅｔなどのニューラルネットワークを含む。

従って、本明細書で説明される技術は、画像データに基づいて環境の深度データを決定し、自律車両の安全な動作を可能にするための堅牢な実施形態を提供する。

図６および７は、本開示の例による例示的なプロセスを示す。これらのプロセスは論理フローグラフとして図示され、このそれぞれの動作は、ハードウェア、ソフトウェア、またはそれらの組み合わせにおいて実装できる一連の操作を表す。ソフトウェアのコンテキストにおいては、動作は1つまたは複数のコンピュータ可読記録媒体に格納されたコンピュータ実行可能命令を表し、コンピュータ実行可能命令は、1つまたは複数のプロセッサで実行されると、列挙した動作を実行する。一般に、コンピュータ実行可能命令は、特定の機能を実行する、または特定の抽象的データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。動作が記載される順序は限定して解釈されることを意図しておらず、任意の数の記載される動作を任意の順序でおよび／または並行し結合して、プロセスを実施できる。

図６は、画像ベースの深度データを生成するための機械学習モデルをトレーニングするための例示的なプロセス６００である。例えば、プロセス６００の一部または全ては、本明細書に説明するように、図５の１つまたは複数のコンポーネントによって実行できる。例えば、プロセス６００のいくつかまたは全ては、車両コンピューティングデバイス５０４によって実行できる。

動作６０２において、プロセスは、立体画像データおよび立体画像データに関連付けられた深度データを受信することを含むことができる。いくつかの例では、動作６０２は、車両が環境を横断するときに、1つまたは複数の自律車両によってキャプチャされた立体画像データおよび深度データを受信することを含むことができる。上述のように、いくつかの例では、環境の少なくとも一部は、立体の両方の画像の対の内に表される。さらに、いくつかの例では、深度データを立体画像データの少なくとも一部に関連付けて、グランドトゥルース深度値を提供できる。上述のように、いくつかの例では、画像データは、共視性を含む任意のマルチビューシステムによってキャプチャされてもよく、立体画像センサに限定されない。いくつかの例では、深度データを1つまたは複数のｌｉｄａｒセンサおよび／または1つまたは複数の飛行時間センサによってキャプチャできる。

動作６０４において、プロセスは、左画像データを機械学習（ＭＬ）モデルに入力することを含むことができる。いくつかの例では、機械学習モデルを、画像データに関連付けられた予測された深度情報を出力するように構成できる。いくつかの例では、本明細書で説明されるように、ＭＬモデルに関連付けられた重みを、第１の時間にてランダム値で初期化でき、第１の時間の後の１つまたは複数の第２の時間で損失のバックプロパゲーションを介して調整できる。

動作６０６において、プロセスは、ＭＬモデルから、左画像データに関連付けられた予測された深度情報を受信することを含むことができる。上述のように、予測された深度情報は、深度値（例えば、メートル単位）、逆深度値（例えば、１／メートル）、または視差データ（例えば、ある画像から別の画像へのピクセルの水平変位を測定することであり、当該ピクセルは両方の画像内の同じオブジェクトまたは点を表す）を含み得るが、これらに限定されない。いくつかの例では、ＭＬモデルは、画像データの一部またはすべてのピクセルについて予測された深度情報を出力できる。

動作６０８において、プロセスは、予測された深度情報（動作６０６からの）および右画像データに少なくとも部分的に基づいて、再構築された左画像データを決定することを含むことができる。いくつかの例では、動作６０８は、予測された深度情報に基づいて右画像をワーピングして、再構築された左画像データを決定することを含むことができる。いくつかの例では、ワーピングを、アルゴリズム的に、または機械学習モデルによって実行できる。

動作６１０において、プロセスは、左画像データと再構築された左画像データとの間の第１の差を決定することを含むことができる。いくつかの例では、動作６１０は、ピクセル損失、平滑化損失（例えば、単一の画像に基づき得る）、構造的類似性損失、および／または一貫性損失（本明細書で説明される追加データに従う）を含むが、これらに限定されない1つまたは複数の損失を決定することを含むことができる。

理解できるように、動作６０４、６０６、６０８、および６１０は、入力として左画像データのコンテキストにおいて説明される。プロセス６００は、右画像データに対する同様の動作を含むことができる。

動作６１２において、右画像データを機械学習（ＭＬ）モデルに入力することを含むことができるプロセスを、プロセスは含むことができる。動作６１２は、実施形態に応じて、上述した動作６０４と同様であり得る、および任意選択であり得る。

動作６１４において、ＭＬモデルから、右画像データに関連付けられた予測された深度情報を受信することを含むことができるプロセスを、プロセスは含むことができる。動作６１４は、実施形態に応じて、上述した動作６０６と同様であり得る、および任意選択であり得る。

動作６１６において、プロセスは、予測された深度情報（動作６１４からの）および左画像データに少なくとも部分的に基づいて、再構築された右画像データを決定することを含むことができる。動作６１６は、実施形態に応じて、上述した動作６０８と同様であり得る、および任意選択であり得る。

動作６１８において、プロセスは、右画像データと再構築された右画像データとの間の第２の差を決定することを含むことができる。動作６１８は、実施形態に応じて、上述した動作６１０と同様であり得る、および任意選択であり得る。

動作６２０において、プロセスは、深度データ（例えば、動作６０２で受信されたｌｉｄａｒデータおよび／または飛行時間データ）と予測された深度情報との間の第３の差を決定することを含むことができる。いくつかの例では、予測された深度情報は、左画像データ（例えば、動作６０６からの）に関連付けられ得る、または予測された深度情報は右画像データ（例えば、動作６１４からの）に関連付けられ得る。

動作６２２において、プロセスは、第１の差（および／または第２の差）および第３の差に少なくとも部分的に基づいて損失を決定することを含むことができる。いくつかの例では、第１の差、第２の差、または第３の差のうちの少なくとも１つは、Ｌ２損失を含む。いくつかの例では、動作６２２は、実施形態に基づいて、決定された差に基づいて、損失を合計、集約、またはそうでなければ決定することを含むことができる。

動作６２４において、プロセスは、損失に少なくとも部分的に基づいて、機械学習モデルをトレーニングして、トレーニングされた機械学習モデルを生成することを含むことができる。例えば、損失を、機械学習モデルを通じてバックプロパゲートして、様々な作動関数の1つまたは複数の重みを調整して、全体的な損失を最小化できる。

いくつかの例では、プロセス６００は、本明細書で説明されるように、機械学習モデルを自律車両（または他のデバイスもしくはコンポーネント）に送信して、画像データに基づいて深度データを決定することをさらに含むことができる。さらに、動作は、画像ベースの深度データに少なくとも部分的に基づいて軌道を決定すること、および／または軌道を辿るように車両を制御することを含むことができる。

図７は、画像ベースの深度データを生成するための機械学習モデルをトレーニングするための別の例示的なプロセス７００である。例えば、プロセス７００の一部または全部を、本明細書で説明するように、図５の１つまたは複数のコンポーネントによって実行できる。例えば、プロセス７００のうちのいくつかまたは全ては、車両コンピューティングデバイス５０４によって実行できる。

動作７０２において、プロセスは、立体画像データおよび立体画像データに関連付けられた深度データ（例えば、ｌｉｄａｒデータおよび／または飛行時間データ）を受信することを含むことができる。いくつかの例では、動作７０２は、動作６０２に実質的に対応できる。

動作７０４において、プロセスは、機械学習モデルに入力された第１の画像データに少なくとも部分的に基づいて、予測された深度情報および予測された視差情報を決定することを含むことができる。いくつかの例では、動作７０４は、動作６０４、６０６、６１２、および／または６１４の態様に実質的に対応できる、および／または含むことができる。いくつかの例では、動作７０４は、ローカル平面ガイダンスアップサンプリング７０６に少なくとも部分的に基づくことができる。例えば、機械学習モデルは、機械学習モデルのエンコーダ部分によって出力される1つまたは複数の特徴マップをアップサンプリングするデコーダ部分を含むことができる。いくつかの例では、予測される深度情報がローカル平面ガイダンスアップサンプリングに少なくとも部分的に基づくことができるように、デコーダはローカル平面ガイダンスを使用して特徴マップをアップサンプリングすることができる。

動作７０８において、プロセスは、予測された視差情報および第２の画像データに少なくとも部分的に基づいて、再構築された第１の画像データを決定することを含むことができる。いくつかの例では、動作７０８は、動作６０８および／または６１６の態様に実質的に対応できる、および／または含むことができる。

動作７１０において、プロセスは、第１の画像データと再構築された第１の画像データとの間の第１の差を決定することを含むことができる。いくつかの例では、動作７１０は、動作６１０および／または動作６１８の態様に実質的に対応できる、および／または含むことができる。

動作７１２において、プロセスは、深度データと予測された深度情報との間の第２の差を決定することを含むことができる。いくつかの例では、動作７１２は、実質的に動作６２０の態様に対応できる、および／または含むことができる。

動作７１４において、プロセスは、一貫性損失を決定するかどうかを決定することを含むことができる。ＹＥＳである場合、プロセスは動作７１６に続く。ＮＯの場合、プロセスは動作７１８に続く。

動作７１６において、プロセスは、予測された深度情報と視差情報との間の第３の差を決定することを含むことができる。いくつかの例では、第３の差は、本明細書で説明されるように、深度／視差一貫性損失を表すことができる。例えば、機械学習モデルは、自己教師ありトレーニング（画像ベースのトレーニング）に基づいて予測された深度情報（および／または予測された逆深度情報または視差情報）を出力する第１の出力ヘッドと、教師ありトレーニング（ｌｉｄａｒベースのトレーニング）に基づいて予測された深度情報を出力する第２の出力ヘッドとを含み得る。

動作７１８において、プロセスは、機械学習モデルをトレーニングするために損失バランシングをするかどうかを決定することを含むことができる。ＹＥＳである場合、プロセスは動作７２０に続く。ＮＯの場合、プロセスは動作７２２に続く。

動作７２０において、プロセスは、差に関連付けられた重みを決定することを含むことができる。例えば、動作７２０は、重み（例えば、スカラー値）を決定（例えば、学習）して、様々な差（例えば、第１の差、第２の差、および／または第３の差）に重み付けすることを含むことができる。いくつかの例では、動作７２０は、様々な損失に関連付けられた等分散性および／または不確実性に少なくとも部分的に基づくことができる。

動作７２２において、プロセスは、第１の差および第２の差（ならびに／または第３の差および／もしくは重み）に少なくとも部分的に基づいて損失を決定することを含むことができる。１つの例では、第１の差、第２の差、および／または第３の差のうちの少なくとも１つは、要素７２４として表されるＬ２損失を含む。

動作７２６において、プロセスは、損失に少なくとも部分的に基づいて、機械学習モデルをトレーニングして、トレーニングされた機械学習モデルを生成することを含むことができる。いくつかの例では、動作７２６は、実質的に動作６２４の態様に対応できる、および／または含むことができる。

［例示的な発明内容］
Ａ：１つまたは複数のプロセッサと、コンピュータ実行可能命令を格納する１つまたは複数の非一時的コンピュータ可読媒体と、を含むシステムであって、前記コンピュータ実行可能命令が実行されると、前記１つまたは複数のプロセッサに、機械学習モデルをトレーニングして、深度情報を決定することであって、前記トレーニングが、立体画像センサによってキャプチャされた画像データを受信することであって、前記画像データは、左画像センサによってキャプチャされた左画像データと、右画像センサによってキャプチャされた右画像データとを含む、ことと、ｌｉｄａｒセンサによってキャプチャされたｌｉｄａｒデータを受信することであって、前記ｌｉｄａｒデータは前記画像データの一部に関連付けられている、ことと、前記左画像データを前記機械学習モデルに入力することと、前記機械学習モデルから、前記左画像データに関連付けられた予測された深度情報を受信することと、前記予測された深度情報および前記右画像データに少なくとも部分的に基づいて、再構築された左画像データを決定することと、前記左画像データと前記再構築された左画像データとの間の第１の差を決定することと、前記予測された深度情報の少なくとも一部と前記ｌｉｄａｒデータとの間の第２の差を決定することと、前記第１の差および前記第２の差に少なくとも部分的に基づいて損失を決定することと、前記損失に少なくとも部分的に基づいて、機械学習モデルをトレーニングして、機械学習モデルを生成することと、を含む、こと、を含む動作を実行させる、システム。

Ｂ：前記動作が、前記機械学習モデルを、自律車両を制御するために、前記自律車両に送信することと、をさらに含む、段落Ａに記載のシステム。

Ｃ：前記予測された深度情報が、深度データ、逆深度データ、または、視差データの少なくとも一つを含む、段落ＡまたはＢに記載のシステム。

Ｄ：前記第１の差が、前記左画像データの第１のピクセルに関連付けられた第１の強度値と、前記再構築された左画像データ内の第２のピクセルに関連付けられた第２の強度値との差を表すピクセル損失、または、前記左画像データおよび前記再構築された左画像データに関連付けられたエッジまたは不連続の少なくとも１つに関連付けられた構造的類似性損失の少なくとも一つを含む、段落Ａ乃至Ｃのいずれかに記載のシステム。

Ｅ：前記予測された深度情報が、離散的な深度値に関連付けられている、段落Ａ乃至Ｄのいずれかに記載のシステム。

Ｆ：第１の視野を含む第１の画像センサによってキャプチャされた第１の画像データを受信することと、第２の視野を含む第２の画像センサによってキャプチャされた第２の画像データを受信することであって、前記第１の視野の少なくとも一部が前記第２の視野の少なくとも一部に関連付けられている、ことと、深度センサによってキャプチャされた深度データを受信することであって、前記深度データは、前記第１の画像データまたは前記第２の画像データの少なくとも１つの一部に関連付けられている、ことと、前記第１の画像データを機械学習モデルに入力することと、前記機械学習モデルから、前記第１の画像データに関連付けられた予測された深度情報を受信することと、前記予測された深度情報および前記第２の画像データに少なくとも部分的に基づいて、再構築された第１の画像データを決定することと、前記第１の画像データと前記再構築された第１の画像データとの間の第１の差を決定することと、前記予測された深度情報と前記深度データとの間の第２の差を決定することと、前記第１の差および前記第２の差に少なくとも部分的に基づいて損失を決定することと、前記損失に少なくとも部分的に基づいて、前記機械学習モデルに関連付けられたパラメータを調整して、トレーニングされた機械学習モデルを生成することと、を含む方法。

Ｇ：前記トレーニングされた機械学習モデルを、自律車両を制御するために、前記自律車両に送信することと、をさらに含む段落Ｆに記載の方法。

Ｈ：前記予測された深度情報が、深度データ、逆深度データ、または視差データの少なくとも一つを含む、段落ＦまたはＧに記載の方法。

Ｉ：前記第１の差は、前記第１の画像データの第１のピクセルに関連付けられた第１の強度値と、前記再構築された第１の画像データ内の第２のピクセルに関連付けられた第２の強度値との差を表すピクセル損失を含む、段落Ｆ乃至Ｈのいずれかに記載の方法。

Ｊ：前記再構築された第１の画像データに少なくとも部分的に基づいて、平滑化損失を含む第３の差を決定することをさらに含み、前記平滑化損失に関連付けられた重み付けは、前記第１の画像データまたは前記再構築された第１の画像データの少なくとも１つに表されるエッジに少なくとも部分的に基づいている、段落Ｆ乃至Ｉのいずれかに記載の方法。

Ｋ：前記第１の差が、前記第１の画像データの一部に関連付けられた平均値または共分散の少なくとも１つに少なくとも部分的に基づく構造的類似性損失を含む、段落Ｆ乃至Ｊのいずれかに記載の方法。

Ｌ：前記予測された深度情報が、形状ベースのアップサンプリングに少なくとも部分的に基づいている、段落Ｆ乃至Ｋのいずれかに記載の方法。

Ｍ：前記再構築された第１の画像データを決定することが、前記予測された深度情報に少なくとも部分的に基づいて前記第２の画像データをワーピングすることを含む、段落Ｆ乃至Ｌのいずれかに記載の方法。

Ｎ：前記予測された深度情報は、第１の予測された深度情報であり、前記方法は、前記第２の画像データを前記機械学習モデルに入力することと、前記機械学習モデルから、前記第２の画像データに関連付けられた第２の予測された深度情報を受信することと、前記第２の予測された深度情報および前記第１の画像データに少なくとも部分的に基づいて、再構築された第２の画像データを決定することと、前記第２の画像データと前記再構築された第２の画像データとの間の第３の差を決定することと、前記第３の差に少なくとも部分的に基づいて前記損失をさらに決定することと、をさらに含む、段落Ｆ乃至Ｍのいずれかに記載の方法。

Ｏ：１つまたは複数プロセッサによって実行可能な命令を格納する１つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が実行されると、前記１つまたは複数のプロセッサに、立体画像センサの第１の画像センサによってキャプチャされた第１の画像データを受信することと、前記立体画像センサの第２の画像センサによってキャプチャされた第２の画像データを受信することと、深度センサによってキャプチャされた深度データを受信することであって、前記深度データは、前記第１の画像データまたは前記第２の画像データの少なくとも１つの一部に関連付けられている、ことと、前記第１の画像データを機械学習モデルに入力することと、前記機械学習モデルから、前記第１の画像データに関連付けられた予測された深度情報を受信することと、前記予測された深度情報および前記第２の画像データに少なくとも部分的に基づいて、再構築された第１の画像データを決定することと、前記第１の画像データと前記再構築された第１の画像データとの間の第１の差を決定することと、前記予測された深度情報と前記深度データとの間の第２の差を決定することと、前記第１の差および前記第２の差に少なくとも部分的に基づいて損失を決定することと、前記損失に少なくとも部分的に基づいて、前記機械学習モデルのパラメータを調整して、トレーニングされた機械学習モデルを生成することと、を含む動作を実行させる、１つまたは複数の非一時的コンピュータ可読媒体。

Ｐ：前記動作が、前記トレーニングされた機械学習モデルを、自律車両を制御するために、前記自律車両に送信することをさらに含む、段落Ｏに記載の１つまたは複数の非一時的コンピュータ可読媒体。

Ｑ：前記第１の差が、ピクセル損失、平滑化損失、または、構造的類似性損失の少なくとも一つを含む、段落ＯまたはＰに記載の１つまたは複数の非一時的コンピュータ可読媒体。

Ｒ：前記予測された深度情報が、離散的な深度値に関連付けられている、段落Ｏ乃至Ｑのいずれかに記載の１つまたは複数の非一時的コンピュータ可読媒体。

Ｓ：前記予測された深度情報が第１の予測された深度情報であり、前記動作が、前記第２の画像データを前記機械学習モデルに入力することと、前記機械学習モデルから、前記第２の画像データに関連付けられた第２の予測された深度情報を受信することと、前記第２の予測された深度情報および前記第１の画像データに少なくとも部分的に基づいて、再構築された第２の画像データを決定することと、前記第２の画像データと前記再構築された第２の画像データとの間の第３の差を決定することと、前記第３の差に少なくとも部分的に基づいて前記損失をさらに決定することと、をさらに含む、段落Ｏ乃至Ｒのいずれかに記載の1つまたは複数の非一時的コンピュータ可読媒体。

Ｔ：前記動作が、前記第１の画像データまたは前記第２の画像データの少なくとも１つで表されるオブジェクトに関連付けられた意味情報を受信することと、をさらに含み、前記損失は、前記意味情報に少なくとも部分的に基づいている段落Ｏ乃至Ｓのいずれかに記載の1つまたは複数の非一時的コンピュータ可読媒体。

Ｕ：１つまたは複数のプロセッサと、コンピュータ実行可能命令を格納する１つまたは複数の非一時的コンピュータ可読媒体と、を含むシステムであって、前記コンピュータ実行可能命令が実行されると、前記１つまたは複数のプロセッサに、立体画像センサによってキャプチャされた画像データを受信することであって、前記画像データは、左画像センサによってキャプチャされた左画像データと、右画像センサによってキャプチャされた右画像データとを含む、ことと、ｌｉｄａｒセンサによってキャプチャされたｌｉｄａｒデータを受信することであって、前記ｌｉｄａｒデータは前記画像データの一部に関連付けられている、ことと、前記左画像データを機械学習モデルに入力することと、前記機械学習モデルから、前記左画像データに関連付けられた予測された視差情報および予測された深度情報を受信することと、前記予測された視差情報および前記右画像データに少なくとも部分的に基づいて、再構築された左画像データを決定することと、前記左画像データと前記再構築された左画像データとの間の第１の差を決定することと、前記予測された深度情報と前記ｌｉｄａｒデータとの間の第２の差を決定することと、前記予測された視差情報と前記予測された深度情報との間の第３の差を決定することと、前記第１の差、前記第２の差、または前記第３の差の少なくとも１つに関連付けられた重みを決定することと、前記第１の差、前記第２の差、前記第３の差、および前記重みに少なくとも部分的に基づいて損失を決定することと、前記損失に少なくとも部分的に基づいて、機械学習モデルをトレーニングして、トレーニングされた機械学習モデルを生成することと、を含む動作を実行させる、システム。

Ｖ：前記動作が、形状ベースのアップサンプリングに少なくとも部分的に基づいて、前記機械学習モデルの中間出力を決定することと、をさらに含み、前記予測された視差情報または前記予測された深度情報の少なくとも１つは、前記中間出力に少なくとも部分的に基づいている段落Ｕに記載のシステム。

Ｗ：前記第３の差が一貫性損失を表す、段落ＵまたはＶに記載のシステム。

Ｘ：前記重みが、不確実性に少なくとも部分的に基づいて学習された重みである、段落Ｕ乃至Ｗのいずれかに記載のシステム。

Ｙ：前記動作が、前記トレーニングされた機械学習モデルを、自律車両を制御するために、前記自律車両に送信することをさらに含む、段落Ｕ乃至Ｘのいずれかに記載のシステム。

Ｚ：第１の視野を含む第１の画像センサによってキャプチャされた第１の画像データを受信することと、第２の視野を含む第２の画像センサによってキャプチャされた第２の画像データを受信することであって、前記第１の視野の少なくとも一部が前記第２の視野の少なくとも一部に関連付けられている、ことと、深度センサによってキャプチャされた深度データを受信することであって、前記深度データは、前記第１の画像データまたは前記第２の画像データの少なくとも１つの一部に関連付けられている、ことと、前記第１の画像データを機械学習モデルに入力することと、前記機械学習モデルから、前記第１の画像データに関連付けられた予測された視差情報および予測された深度情報を受信することと、前記予測された視差情報および前記第２の画像データに少なくとも部分的に基づいて、再構築された第１の画像データを決定することと、前記第１の画像データと前記再構築された第１の画像データとの間の第１の差を決定することと、前記予測された深度情報と前記深度データとの間の第２の差を決定することと、前記第１の差および前記第２の差に少なくとも部分的に基づいて損失を決定することと、前記損失に少なくとも部分的に基づいて、前記機械学習モデルのパラメータを調整して、トレーニングされた機械学習モデルを生成することと、を含む方法。

ＡＡ：前記トレーニングされた機械学習モデルを、自律車両を制御するために、前記自律車両に送信することをさらに含む、段落Ｚに記載の方法。

ＡＢ：前記予測された深度情報が、深度データ、逆深度データ、または、視差データの少なくとも一つを含む、段落ＺまたはＡＡに記載の方法。

ＡＣ：前記予測された視差情報と前記予測された深度情報との間の第３の差を決定することと、前記第３の差に少なくとも部分的に基づいて前記損失をさらに決定することと、をさらに含む、段落Ｚ乃至ＡＢのいずれかに記載の方法。

ＡＤ：前記第３の差が一貫性損失を表す、段落ＡＣに記載の方法。

ＡＥ：前記第１の差、または前記第２の差の少なくとも１つに関連付けられた重みを決定することと、前記重みに少なくとも部分的に基づいて前記損失をさらに決定することと、をさらに含む、段落Ｚ乃至ＡＤのいずれかに記載の方法。

ＡＦ：前記重みが、不確実性に少なくとも部分的に基づいて学習された重みである、段落ＡＥに記載の方法。

ＡＧ：前記再構築された第１の画像データを決定することが、前記予測された視差情報に少なくとも部分的に基づいて前記第２の画像データをワーピングすることを含む、段落Ｚ乃至ＡＦのいずれかに記載の方法。

ＡＨ：前記第１の差が、ピクセル損失、または、構造的類似性損失の少なくとも一つを含む、段落Ｚ乃至ＡＧのいずれかに記載の方法。

ＡＩ：１つまたは複数プロセッサによって実行可能な命令を格納する１つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が実行されると、前記１つまたは複数のプロセッサに、第１の視野を含む第１の画像センサによってキャプチャされた第１の画像データを受信することと、第２の視野を含む第２の画像センサによってキャプチャされた第２の画像データを受信することであって、前記第１の視野の少なくとも一部が前記第２の視野の少なくとも一部に関連付けられている、ことと、深度センサによってキャプチャされた深度データを受信することであって、前記深度データは、前記第１の画像データまたは前記第２の画像データの少なくとも１つの一部に関連付けられている、ことと、前記第１の画像データを前記機械学習モデルに入力することと、前記機械学習モデルから、前記第１の画像データに関連付けられた予測された視差情報および予測された深度情報を受信することと、前記予測された視差情報および前記第２の画像データに少なくとも部分的に基づいて、再構築された第１の画像データを決定することと、前記第１の画像データと前記再構築された第１の画像データとの間の第１の差を決定することと、前記予測された深度情報と前記深度データとの間の第２の差を決定することと、前記予測された視差情報と前記予測された深度情報との間の第３の差を決定することと、前記第１の差、前記第２の差、または前記第３の差の少なくとも１つに関連付けられた重みを決定することと、前記第１の差、前記第２の差、前記第３の差、および前記重みに少なくとも部分的に基づいて損失を決定することと、前記損失に少なくとも部分的に基づいて、前記機械学習モデルのパラメータを調整して、トレーニングされた機械学習モデルを生成することと、を含む動作を実行させる、１つまたは複数の非一時的コンピュータ可読媒体。

ＡＪ：前記予測された深度情報が、形状ベースのアップサンプリングに少なくとも部分的に基づいている、段落ＡＩに記載の１つまたは複数の非一時的コンピュータ可読媒体。

ＡＫ：前記重みが前記第１の差に関連付けられた第１の重みであり、前記動作が、前記第２の差または前記第３の差の少なくとも１つに関連付けられた第２の重みを決定することであって、前記第２の重みは前記第１の重みと異なる、ことと、前記第２の重みに少なくとも部分的に基づいて前記損失をさらに決定することと、をさらに含む、段落ＡＩまたはＡＪに記載の１つまたは複数の非一時的コンピュータ可読媒体。

ＡＬ：前記第１の重みおよび前記第２の重みが、学習された重みである、段落ＡＫに記載の1つまたは複数の非一時的コンピュータ可読媒体。

ＡＭ：前記動作が、前記第１の画像データまたは前記第２の画像データの少なくとも１つで表されるオブジェクトに関連付けられた意味情報を受信することと、をさらに含み、前記損失は、前記意味情報に少なくとも部分的に基づいている段落ＡＩ乃至ＡＬのいずれかに記載の1つまたは複数の非一時的コンピュータ可読媒体。

ＡＮ：前記意味情報は、静的分類、動的分類、またはオブジェクトタイプ分類の少なくとも１つを含む、段落ＡＭに記載の1つまたは複数の非一時的コンピュータ可読媒体。

上記で説明された例示的な発明内容が、１つの特定の実施形態に関して説明される一方で、本明細書のコンテキストにおいて、例示的な発明の内容はまた、方法、デバイス、システム、コンピュータ可読媒体、および／または別の実施形態を介して実施できることを理解されたい。さらに、例Ａ乃至ＡＮのいずれかは、単独で、または任意の他の１つもしくは複数の例Ａ乃至ＡＮと組み合わせて実装され得る。

［結論］
本明細書で説明する技術の1つまたは複数の例について説明したが、様々な変更、追加、置換、およびそれらの同等物が、本明細書で説明する技術の範囲内に含まれる。

例示の説明では、本明細書の一部を形成する添付の図面を参照するが、これは例示として請求される主題の具体的な例を示す。他の例を使用でき、構造的変更などの変更または代替を行うことできることを理解されたい。そのような例示、変更または代替は、意図して請求される主題に関する範囲から必ずしも逸脱するものではない。本明細書のステップは特定の順序で提示できるが、場合によっては、説明したシステムおよび方法の機能を変更することなく、特定の入力を異なる時間または異なる順序で提供するように、順序を変更できる。開示された手順はまた異なる順序で実行できる。さらに、本明細書にある様々な計算は開示された順序で実行される必要はなく、計算の代替順序を使用する他の例を容易に実装できる。並べ替えに加えて、計算はまた同じ結果となるサブ計算に分解できる。

Claims

第１の視野を含む第１の画像センサによってキャプチャされた第１の画像データを受信することと、
第２の視野を含む第２の画像センサによってキャプチャされた第２の画像データを受信することであって、前記第１の視野の少なくとも一部が前記第２の視野の少なくとも一部に関連付けられている、ことと、
深度センサによってキャプチャされた深度データを受信することであって、前記深度データは、前記第１の画像データまたは前記第２の画像データの少なくとも１つの一部に関連付けられている、ことと、
前記第１の画像データを機械学習モデルに入力することと、
前記機械学習モデルから、前記第１の画像データに関連付けられた予測された深度情報を受信することと、
前記予測された深度情報および前記第２の画像データに少なくとも部分的に基づいて、再構築された第１の画像データを決定することと、
前記第１の画像データと前記再構築された第１の画像データとの間の第１の差を決定することと、
前記予測された深度情報と前記深度データとの間の第２の差を決定することと、
前記第１の差および前記第２の差に少なくとも部分的に基づいて損失を決定することと、
前記損失に少なくとも部分的に基づいて、前記機械学習モデルに関連付けられたパラメータを調整して、トレーニングされた機械学習モデルを生成することと、
を含む方法。
前記トレーニングされた機械学習モデルを、自律車両を制御するために、前記自律車両に送信することと、をさらに含む請求項１に記載の方法。
前記予測された深度情報が、
深度データ、
逆深度データ、または、
視差データの少なくとも一つを含む、請求項１または２に記載の方法。
前記第１の差は、前記第１の画像データの第１のピクセルに関連付けられた第１の強度値と、前記再構築された第１の画像データ内の第２のピクセルに関連付けられた第２の強度値との差を表すピクセル損失を含む、請求項１乃至３のいずれか一項に記載の方法。
前記再構築された第１の画像データに少なくとも部分的に基づいて、平滑化損失を含む第３の差を決定することをさらに含み、前記平滑化損失に関連付けられた重み付けは、前記第１の画像データまたは前記再構築された第１の画像データの少なくとも１つに表されるエッジに少なくとも部分的に基づいている、請求項１乃至４のいずれか一項に記載の方法。
前記第１の差が、
前記第１の画像データの一部に関連付けられた平均値または共分散、または、
前記第１の画像データおよび前記再構築された第１の画像データに関連付けられたエッジまたは不連続性の少なくとも１つに、少なくとも部分的に基づく構造的類似性損失を含む、請求項１乃至５のいずれか一項に記載の方法。
前記予測された深度情報が、形状ベースのアップサンプリングに少なくとも部分的に基づいている、請求項１乃至６のいずれか一項に記載の方法。
前記再構築された第１の画像データを決定することが、前記予測された深度情報に少なくとも部分的に基づいて前記第２の画像データをワーピングすることを含む、請求項１乃至７のいずれか一項に記載の方法。
前記予測された深度情報は、第１の予測された深度情報であり、前記方法は
前記第２の画像データを前記機械学習モデルに入力することと、
前記機械学習モデルから、前記第２の画像データに関連付けられた第２の予測された深度情報を受信することと、
前記第２の予測された深度情報および前記第１の画像データに少なくとも部分的に基づいて、再構築された第２の画像データを決定することと、
前記第２の画像データと前記再構築された第２の画像データとの間の第３の差を決定することと、
前記第３の差に少なくとも部分的に基づいて前記損失をさらに決定することと、
をさらに含む、請求項１乃至８のいずれか一項に記載の方法。
コンピュータ上で実行されると、請求項１乃至９のいずれか一項に記載の方法を実施するコード化された命令を含むコンピュータプログラム製品。
１つまたは複数プロセッサによって実行可能な命令を格納する１つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が実行されると、前記１つまたは複数のプロセッサに、
立体画像センサの第１の画像センサによってキャプチャされた第１の画像データを受信することと、
前記立体画像センサの第２の画像センサによってキャプチャされた第２の画像データを受信することと、
深度センサによってキャプチャされた深度データを受信することであって、前記深度データは、前記第１の画像データまたは前記第２の画像データの少なくとも１つの一部に関連付けられている、ことと、
前記第１の画像データを機械学習モデルに入力することと、
前記機械学習モデルから、前記第１の画像データに関連付けられた予測された深度情報を受信することと、
前記予測された深度情報および前記第２の画像データに少なくとも部分的に基づいて、再構築された第１の画像データを決定することと、
前記第１の画像データと前記再構築された第１の画像データとの間の第１の差を決定することと、
前記予測された深度情報と前記深度データとの間の第２の差を決定することと、
前記第１の差および前記第２の差に少なくとも部分的に基づいて損失を決定することと、
前記損失に少なくとも部分的に基づいて、前記機械学習モデルのパラメータを調整して、トレーニングされた機械学習モデルを生成することと、
を含む動作を実行させる、１つまたは複数の非一時的コンピュータ可読媒体。
前記第１の差が、
ピクセル損失、
平滑化損失、または、
構造的類似性損失の少なくとも一つを含む、請求項１１に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測された深度情報が、離散的な深度値に関連付けられている、請求項１１または１２に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測された深度情報が第１の予測された深度情報であり、前記動作が、
前記第２の画像データを前記機械学習モデルに入力することと、
前記機械学習モデルから、前記第２の画像データに関連付けられた第２の予測された深度情報を受信することと、
前記第２の予測された深度情報および前記第１の画像データに少なくとも部分的に基づいて、再構築された第２の画像データを決定することと、
前記第２の画像データと前記再構築された第２の画像データとの間の第３の差を決定することと、
前記第３の差に少なくとも部分的に基づいて前記損失をさらに決定することと、
をさらに含む、請求項１１乃至１３のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
前記動作が、
前記第１の画像データまたは前記第２の画像データの少なくとも１つで表されるオブジェクトに関連付けられた意味情報を受信することと、をさらに含み、
前記損失は、前記意味情報に少なくとも部分的に基づいている、請求項１１乃至１４のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。