JP2023530762A

JP2023530762A - ３ｄバウンディングボックスからの単眼深度管理

Info

Publication number: JP2023530762A
Application number: JP2022579020A
Authority: JP
Inventors: ギジリーニ，ビトー; デイビッドガイドン，エイドリアン
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-06-23
Filing date: 2021-06-23
Publication date: 2023-07-19
Also published as: US11398095B2; US20220292837A1; CN115867940A; US20210397855A1; US11783593B2; WO2021260589A1

Abstract

方法は、自車両に隣接している環境であって少なくとも動的オブジェクトと静的オブジェクトを含んでいる環境の二次元（２Ｄ）画像を撮像することを含んでいる。方法はまた、深度推定ネットワークを介して、２Ｄ画像に基づいて環境の深度マップを生成することを含んでおり、深度マップにおける動的オブジェクトに対する深度推定の精度は深度マップにおける静的オブジェクトに対する深度推定の精度よりも高い。方法は更に、深度マップに基づいて環境の三次元（３Ｄ）推定を生成することと、３Ｄ推定における動的オブジェクトの位置を識別することと、を含んでいる。方法は追加的に、識別された位置に基づいて自車両の行動を制御することを含んでいる。【選択図】図７

Description

本開示の或る態様は、全体的に深度推定システムに関する。

自律エージェント（例えば、車両、ロボットなど）は、種々のタスクを実行するために、深度推定（depth estimate）に依存している。これらの種々のタスクは、周囲の環境の三次元（３Ｄ）表現を構築すること、または、３Ｄオブジェクトを識別することを含み得る。３Ｄ表現は、位置特定および／または自律ナビゲーションなどのような種々のタスクに使用され得る。深度推定の精度を向上させることにより、３Ｄ表現を生成すること又は３Ｄオブジェクト検出などのようなダウンストリームタスクの精度を向上させ得る。自律エージェントのセンサにより撮像された画像から取得された深度推定の精度を向上させることが望まれている。

本開示の１つの態様においては方法が開示される。方法は、自車両に隣接している環境の二次元（２Ｄ）画像を撮像することを含んでいる。環境は、少なくとも動的オブジェクトと静的オブジェクトを含んでいる。方法はまた、深度推定ネットワークを介して、２Ｄ画像に基づいて環境の深度マップを生成することを含んでいる。深度マップにおける動的オブジェクトに対する深度推定の精度は、深度マップにおける静的オブジェクトに対する深度推定の精度よりも高い。方法は更に、深度マップに基づいて環境の三次元（３Ｄ）推定を生成することを含んでいる。方法は更に、識別された位置に基づいて自車両の行動を制御することを含んでいる。

本開示の他の態様においては、非一時的プログラムコードが記録されている非一時的コンピュータ読み取り可能媒体が開示される。プログラムコードはプロセッサにより実行され、自車両に隣接している環境であって少なくとも動的オブジェクトと静的オブジェクトを備えている環境の２Ｄ画像を撮像するためのプログラムコードを含んでいる。プログラムコードはまた、深度推定ネットワークを介して、２Ｄ画像に基づいて環境の深度マップを生成するためのプログラムコードを含んでいる。深度マップにおける動的オブジェクトに対する深度推定の精度は、深度マップにおける静的オブジェクトに対する深度推定の精度よりも高い。プログラムコードは更に、深度マップに基づいて環境の３Ｄ推定を生成するためのプログラムコードを含んでいる。プログラムコードは更に、識別された位置に基づいて自車両の行動を制御するためのプログラムコードを含んでいる。

本開示の他の態様は装置に向けられている。装置は、メモリと、メモリに結合されている１つ以上のプロセッサと、メモリに格納されている命令と、を有している。命令は、プロセッサにより実行されると、装置に、自車両に隣接している環境であって少なくとも動的オブジェクトと静的オブジェクトを備えている環境の２Ｄ画像を撮像させるために動作可能である。命令はまた、装置に、深度推定ネットワークを介して、２Ｄ画像に基づいて環境の深度マップを生成させる。深度マップにおける動的オブジェクトに対する深度推定の精度は、深度マップにおける静的オブジェクトに対する深度推定の精度よりも高い。命令は追加的に装置に、深度マップに基づいて環境の３Ｄ推定を生成させる。命令は更に装置に、識別された位置に基づいて自車両の行動を制御させる。

ここでは、後に続く詳細な記述がより良好に理解できるように、本開示の特徴と技術的利点の概要を広く記述している。本開示の追加的特徴と利点は下記に記述される。この技術における当業者は、本開示は、本開示の同じ目的を実行するための他の構造を修正または設計するための根拠として容易に利用できるということは認識すべきである。この技術における当業者は、そのような等価な構成は、付随する特許請求の範囲において記述されているような本開示の教示から逸脱していないということも認識すべきである。その編成と動作の方法の両者について本開示の特質と思われる新規の特徴は、更なる目的および利点と共に、下記の記述を付随する図面と連携して考慮することでより良好に理解されるであろう。しかし、それぞれの図は、例示と記述の目的のためのみに提供されており、本開示の制限の定義としては意図されていないということは明確に理解されるべきである。

本開示の特徴、性質、および利点は、下記に記述されている詳細な記述から、図面を通して類似の参照文字は対応しているものを特定する図面と連携して解釈されるとより明確になるであろう。

図１は、本開示の態様に係る、或る環境における車両の例を示している。図２Ａは、本開示の態様に係る単一の画像の例である。図２Ｂは、本開示の態様に係る深度マップの例である。図２Ｃは、本開示の態様に係る、再構築されたターゲット画像の例である。図３は、本開示の態様に係る深度ネットワークの例を示している。図４は、本開示の態様に係る姿勢ネットワークの例を示している。図５は、本開示の態様に係る訓練パイプラインの例を示している。図６は、本開示の態様に係る深度推定システムに対するハードウェア実現形態の例を示している。図７は、本開示の態様に係る方法のためのフロー図を示している。

付随する図面と関連して下記に記述されている詳細な記述は、種々の構成の記述として意図されており、ここにおいて記述されているコンセプトを実践できる構成のみを表しているということは意図されていない。詳細な記述は、種々のコンセプトの完全な理解を提供する目的のための特定の詳細を含んでいる。しかし、この技術における当業者には、これらのコンセプトはこれらの特定の詳細なしで実践できるということは明白であろう。幾つかの例においては、よく知られている構造および構成要素は、そのようなコンセプトを不明瞭にすることを回避するためにブロック図の形状で示されている。

自律エージェントなどのようなエージェントは、深度推定に基づいて種々のタスクを実行し得る。例えば、エージェントは、センサから取得した画像に基づいてシーンの３Ｄ表現を生成し得る。３Ｄ表現は、３Ｄモデル、３Ｄシーン、または３Ｄマップとも称することもできる。３Ｄ表現は、シーンの理解、動作の計画、および／または障害物回避などのような種々のタスクを容易にし得る。例えば、エージェントは、３Ｄ表現に基づいて環境を通して自律的にナビゲートし得る。追加的にまたは代替的に、エージェントは、深度推定に基づいて３Ｄオブジェクトを識別し得る。

深度ネットワークなどのような人工ニューラルネットワークは、センサの測定値から深度を推定するために訓練され得る。深度訓練のための従来のシステムは、３Ｄオブジェクト検出などのようなダウンストリームタスクを向上させることとは反対に、深度性能を強調している。深度訓練とは、画像から深度を推定するために深度ネットワークを訓練するための訓練段階のことである。本開示の態様は、深度訓練に対する訓練損失の一部として３Ｄオブジェクト検出情報を組み込むことによりダウンストリームタスクに対する深度推定を向上させることに向けられている。

図１は、本開示の態様に係る、環境１５０における自車両（ego vecle）１００（例えば、自エージェント）の例を示している。図１において示されているように、自車両１００は道路１１０上を走行している。第１車両１０４（例えば、他のエージェント）は自車両１００の前方にあってよく、第２車両１１６は自車両１００の隣にあってよい。この例においては、自車両１００は、２ＤＲＧＢカメラなどのような２Ｄカメラ１０８と、第２センサ１０６と、を含み得る。第２センサ１０６は、他のＲＧＢカメラ、またはレーダーおよび／または超音波などのような他のタイプのセンサであってよい。追加的に、または代替的に、自車両１００は１つ以上の追加センサを含んでもよい。例えば、追加センサは、側方を向いている、および／または、後方を向いているセンサであってもよい。

１つの構成においては、２Ｄカメラ１０８は、２Ｄカメラ１０８の視野１１４内のオブジェクトを含む２Ｄ画像を撮像する。第２センサ１０６は１つ以上の出力ストリームを生成し得る。２Ｄカメラにより撮像された２Ｄ画像は、第１車両１０４が２Ｄカメラ１０８の視野１１４に入っているので第１車両１０４の２Ｄ画像を含んでいる。

第２センサ１０６と２Ｄカメラ１０８から取得された情報は、自車両１００が自律モードのときは、自車両１００をルートに沿ってナビゲートするために使用され得る。第２センサ１０６と２Ｄカメラ１０８は、車両１００のバッテリ（示されていない）から提供される電力から電力供給を受け得る。バッテリは、車両のモータにも電力供給し得る。第２センサ１０６及び２Ｄカメラ１０８から取得した情報は、環境の３Ｄ表現を生成するために使用され得る。

本開示の態様は、或る環境におけるオブジェクトに対する深度推定を向上させる。向上された深度推定は、３Ｄオブジェクト検出などのようなダウンストリームタスクを向上し得る。ダウンストリームタスクとは、深度推定に基づいて実行されるタスクのことを指し得る。幾つかの実現形態においては、オブジェクトに対応しているグラウンドトゥルース点は、３Ｄバウンディングボックス情報に基づいて選択され得る。オブジェクトに対応している各グラウンドトゥルース点（例えば、画素）に対する重みは増加され得る。深度ネットワークは、増加された重みの結果として、オブジェクトに対する深度推定を向上させる。

向上された深度推定は、増加された精度を有する深度推定のことを指し得る。オブジェクトは、自動車および歩行者などのような、入力画像において目立たないオブジェクトを含み得る。入力画像において目立たないオブジェクトの深度推定に対する精度を向上させることは、道路および建物などのような、入力画像において目立つ代表的オブジェクトに対する深度推定の精度を犠牲にし得る。入力画像において目立たないオブジェクトの深度推定に対する精度を向上させると、オブジェクトの識別が向上され得るので、３Ｄオブジェクト検出などのようなダウンストリームタスクに対するモデルが向上される。

教師あり単眼深度ネットワークは、入力画像を推定された深度出力に回帰することにより推定関数を学習する。教師あり訓練とは、ラベル付けされたグラウンドトゥルース情報から学習することを指している。例えば、従来の教師あり単眼深度ネットワークは、ニューラルネットワークを回帰モデルとして訓練するためにグラウンドトゥルース深度（例えば、ＬｉＤＡＲデータ）を使用し得る。教師あり深度ネットワークでは、畳み込みニューラルネットワークが、初期の大まかな予測を生成し、その予測を他のニューラルネットワークを使用して改良して、より精度の高い結果を生成する。深度推定のための教師あり技術が進歩するにつれ、目標深度ラベルの入手可能性は、ラベル付きデータを生成するコストにより削減される。例えば、屋外のシーンに対してラベル付けをすることは時間のかかるタスクである。

幾つかの従来の単眼深度ソリューションは、ＬｉＤＡＲ情報をビジョン（vision）に基づく情報で置き換える。つまり、ＬｉＤＡＲからの直接の点群を使用する代わりに、深度ネットワークは単一画像から点群を推定する。そのような例においては、従来の単眼深度ソリューションでは、３Ｄバウンディングボックスの検出に当たり、推定された点群が使用される。上述したように、カメラ（例えば、ビジョンに基づくシステム）は、ほとんどのシステムにおいて普遍的であり、ＬｉＤＡＲセンサと比較してコストが易い。したがって、カメラに基づくソリューションは、プラットフォームのより広い範囲に適用され得る。しかしそれでも、ＬｉＤＡＲシステムは、ビジョンに基づくシステムよりも性能がより良好である。深度推定ネットワークの精度を向上させると、ＬｉＤＡＲシステムとビジョンに基づくシステムとの間のギャップを減少させることができる。従来のシステムは、訓練またはテスト時のスパースなＬｉＤＡＲセンサからの情報を含むことにより、ＬｉＤＡＲシステムとビジョンに基づくシステムとの間のギャップを減少させることもできる。スパースなＬｉＤＡＲ情報は不整列（misalignment）を補正することができる。これらの従来のシステムは、ＬｉＤＡＲ情報の使用を減少させる。

ＬｉＤＡＲセンサのコストにより、ＬｉＤＡＲセンサは経済的に実現可能性がないことがあり得る。赤－緑－青（ＲＧＢ）カメラなどのようなカメラは、密な情報を提供し得る。加えて、カメラは、ＬｉＤＡＲセンサと比較してより経済的に高い実現可能性を有し得る。本開示の態様は、教師ありの方法で訓練された深度ネットワークから生成される単眼深度推定を向上させる。向上された単眼深度推定は、カメラが測距センサ（range sensor）を補強、補完、またはそれと置き換わることができるように、ＬｉＤＡＲによるソリューションとビジョンによるソリューションとの間のギャップを埋める。幾つかの実現形態においては、深度訓練（例えば、画像に基づく深度推定のための訓練）は、ロボットにおいて固有な幾何学的な制約を取り入れることにより、または、較正されたＬｉＤＡＲセンサからのスパースな深度ラベルを介して、自己教師ありとすることができる。

単眼カメラからの深度推定とＬｉＤＡＲセンサからの深度推定との間のギャップを埋めることは、カメラが測距センサの機能を補完するので、コストを削減し且つ頑強な（robust）ソリューションを増加させ得る。例えば、ＬｉＤＡＲセンサと比較して、カメラは雨の環境などのような幾つかの環境においては、より良好に機能し得る。逆に、カメラと比較して、ＬｉＤＡＲセンサは、光の少ない状況などのような他の環境においてより良好に機能し得る。したがって、単眼深度推定は、種々のタスクを実行するためのエージェントの能力を向上させ得る。

更に、エージェントはＬｉＤＡＲデータと比較してより多くの量の画像データを生成できる。画像データは、深度ネットワークに対する訓練データとして使用できる。そのため、単眼センサの使用は訓練データの量を増加でき、それにより自己教師あり単眼深度推定を向上させ得る。

上記のように、本開示の態様は、単眼画像（例えば、擬似ＬｉＤＡＲ点群）からの３Ｄオブジェクト検出を向上させる。３Ｄオブジェクト検出は、自律エージェントによる自律ナビゲーションを可能にするための構成要素である。現在では、ＬｉＤＡＲ情報を３Ｄオブジェクト検出に使用できる。ＬｉＤＡＲ情報よりも単眼点群を処理することにより３Ｄオブジェクト検出が向上されることが望ましい。

精度のよい深度推定は、環境を通しての自律ナビゲーションを向上させ得る。例えば、精度のよい深度推定は、自動車または歩行者などのようなオブジェクトとの衝突回避を向上させ得る。本開示の態様は自律エージェントに制限されない。本開示の態様は、手動モードまたは半自律モードで動作するエージェントも考慮している。手動モードにおいては、人間の運転手がエージェントを手動で操作する（例えば、制御する）。自律モードにおいては、エージェント制御システムが、人間の介在なしでエージェントを操作する。半自律モードにおいては、人間はエージェントを操作することができ、エージェント制御システムは、人間の操作を覆すことまたは人間を支援することができる。例えば。エージェント制御システムは、衝突を防止するために、または１つ以上の交通規則に従うために人間の操作を覆すことができる。

幾つかの例においては、従来のシステムは、予め訓練された深度ネットワークにより生成された擬似点群を取得する。予め訓練された深度ネットワークは、入力画像を、３Ｄバウンディングボックス検出（例えば、擬似点群）のために必要な情報に変換する。予め訓練された深度ネットワークは、半教師ありまたは教師ありで訓練された単眼、ステレオ、またはマルチビューネットワークを含んでいる。予め訓練された深度ネットワークは、特定のタスクに対して訓練されていない一般的な深度ネットワークであってもよい。予め訓練された深度ネットワークは、オフザシェルフ（非特注品、既製品）ネットワークと称することができる。

予め訓練された深度ネットワークは、環境（例えば、地面（ground-plane）、垂直壁、構造物）の強い事前確率（strong prior）を学習し得る。学習された事前確率は、全体的な深度の結果を向上させ得る。しかしそれでも、学習された事前確率は、３Ｄオブジェクト検出に関連するオブジェクトに対する深度推定は向上しない。３Ｄオブジェクト検出に関連するオブジェクトは、自動車や歩行者などのような動的オブジェクトであることがよくある。この技術における当業者には知られているように、動的オブジェクトは、半教師ありの設定における単眼深度推定では難しい問題である。例えば、動的オブジェクトの動きは、深度ネットワークを訓練するために使用される測光損失（photometric loss）に対する根拠を形成する静的世界仮定（static world assumption）を破ってしまう。

上述したように、従来のオフザシェルフ深度ネットワークは、３Ｄオブジェクト検出などのようなダウンストリームタスクとは異なる測定基準および損失を使用して訓練される。そのため、従来のオフザシェルフ深度ネットワークは、関連するタスクに対する精度を減少させる可能性がある。例えば、従来のオフザシェルフ深度ネットワークは、地面が画像における大きな部分（例えば、多数の画素）を含んでいるので、地面を精度よく回復できる。対照的に、歩行者を表している画素の数は、道路などのような地面を表している画素の数よりも少ないことが有り得る。したがって、単眼深度ネットワークの目標はすべての画素の予測の精度を最大にすることなので、歩行者は、深度推定に対する関連度がより少なくてよい。

深度推定に対してのみ開発されたオフザシェルフ深度ネットワークを使用するのではなく、本開示の態様は、３Ｄオブジェクト検出などのようなダウンストリームタスクを向上させるために深度ネットワークを訓練する。幾つかの実現形態においては、３Ｄオブジェクト検出情報は、深度訓練に対する訓練損失の一部として組み入れられ得る。３Ｄオブジェクト検出情報はダウンストリームタスク訓練を訓練するために特定され得る。したがって、３Ｄオブジェクト検出情報は深度ネットワークに対して既に利用可能である。従来のシステムは、深度訓練に対してそのような情報を使用しない。

幾つかの実現形態においては、３Ｄバウンディングボックス情報が訓練時に利用可能でない場合、深度ネットワークは、３Ｄバウンディングボックス情報なしの深度訓練に戻る。そのため、訓練段階では、３Ｄバウンディングボックスのある画像と、アノテーションされた３Ｄバウンディングボックスがない画像とから学習し得る。そのような実現形態は、利用可能なラベルが破棄されないように、情報の異なるソースを使用する深度訓練の柔軟性を増大させる。

幾つかの実現形態においては、訓練に基づいて、深度ネットワークは、テスト時の入力画像に基づいて深度推定を実行する。つまり、深度ネットワークが、３Ｄバウンディングボックス情報を、そして利用可能であればグラウンドトゥルース深度情報を使用して訓練されていたとしても、深度ネットワークは、テスト時の深度推定に対する入力画像を使用し得るのみである。

図２Ａは、本開示の態様に係る、シーン２０２のターゲット画像２００の例を示している。ターゲット画像２００は単眼カメラにより撮像され得る。単眼カメラは、エージェント（例えば、車両）の正面方向の画像を撮像し得る。１つの構成においては、単眼カメラは車両と統合される。例えば、単眼カメラは、車両の屋根構造、フロントガラス、放熱用格子、または他の部分において画定され得る。車両は１台以上のカメラおよび／または他のタイプのセンサを有し得る。ターゲット画像２００は、カレント画像と称されることもできる。ターゲット画像２００は、シーンの２Ｄ表現を取り込んでいる。

図２Ｂは、本開示の態様に係る、シーン２０２の深度マップ２２０の例を示している。深度マップ２２０は、ターゲット画像２００および１つ以上のソース画像から推定され得る。ソース画像は、ターゲット画像２００と関連して、以前の時間ステップにおいて撮像された画像であってもよい。深度マップ２２０はシーンの深度を提供する。深度は、色または他の特徴として表現され得る。

図２Ｃは、本開示の態様に係る、シーン２０２の３Ｄ再構築画像２４０の例を示している。３Ｄ再構築画像は、ターゲット画像２００の姿勢とソース画像と共に、深度マップ２２０から生成され得る。図２Ａ及び図２Ｃにおいて示されているように、３Ｄ再構築画像２４０における画角は、ターゲット画像２００におけるシーン２０２の画角とは異なっている。３Ｄ再構築画像２４０はシーン２０２の３Ｄ画像であるので、画角は所望されるように変更され得る。３Ｄ再構築画像２４０は、エージェントの１つ以上の行動を制御するために使用され得る。

図３は、本開示の態様に係る、深度ネットワーク３００の例を示している。図３において示されているように、深度ネットワーク３００はエンコーダ３０２とデコーダ３０４とを含んでいる。深度ネットワーク３００は、入力画像３２０の図２Ｂの深度マップ２２０などのような画素毎の深度マップを生成する。

エンコーダ３０２は複数のエンコーダ層３０２ａ～ｄを含んでいる。エンコーダ層３０２ａ～ｄのそれぞれは、符号化プロセスの間に特徴をダウンサンプリングするためのパッキング層であってよい。デコーダ３０４は複数のデコーダ層３０４ａ～ｄを含んでいる。図３においては、デコーダ層３０４ａ～ｄのそれぞれは、復号化プロセスの間に特徴をアップサンプリングするためのアンパッキング層であってよい。つまり、デコーダ層３０４ａ～ｄのそれぞれは、受信した特徴マップをアンパックし得る

スキップ接続３０６は、エンコーダ層３０２ａ～ｄとデコーダ層３０４ａ～ｄとの間で活性化関数と勾配を送信する。スキップ接続は、より高い解像度詳細を解像することを容易にする。例えば、勾配は、スキップ接続３０６を介して層に直接逆伝播され得、それにより訓練を向上させ得る。加えて、スキップ接続３０６は、畳み込み層から逆畳み込み層に直接画像詳細（例えば、特徴）を送信し、それにより、より高い解像度での画像回復を向上させる。

デコーダ層３０４ａ～ｄは中間逆深度マップ３１０を生成し得る。各中間逆深度マップ３１０は、対応しているスキップ接続３０６及び対応しているデコーダ層３０４ａ～ｄによりアンパックされる特徴マップに連結される前に、アップサンプリングされ得る。また、逆深度マップ３１０は、損失が計算される深度ネットワークの出力として機能する。各逆深度マップ３１０を漸増的に超解像する従来のシステムとは対照的に、本開示の態様は、バイリニア補間を使用して各逆深度マップ３１０を最高解像度にアップサンプリングする。最高解像度にアップサンプリングすることは、コピーに基づくアーティファクトおよび測光の不明瞭さを削減し、そのため深度推定を向上させる。

図４は、本開示の態様に係る、自動作推定（ego-motion estimation）のための姿勢ネットワーク４００の例を示している。従来の姿勢ネットワークとは対照的に、図４の姿勢ネットワーク４００は、説明可能性マスクを使用しない。従来のシステムにおいては、説明可能性マスクは静的世界仮定に合わないオブジェクトは除去する。

図４において示されているように、姿勢ネットワーク４００は、複数の畳み込み層４０２、最終畳み込み層４０４、およびマルチチャネル(例えば、６チャネル）平均プーリング層４０６を含んでいる。最終畳み込み層４０４は１×１層であってよい。マルチチャネル層４０６は６チャネル層であってよい。

１つの構成においては、ターゲット画像（Ｉ_ｔ）４０８とソース画像（Ｉ_ｓ）４１０が姿勢ネットワーク４００に入力される。ターゲット画像４０８及びソース画像４１０は、連結されたターゲット画像４０８及びソース画像４１０が姿勢ネットワーク４００に入力されるように共に連結され得る。訓練の間、１つ以上のソース画像４１０を異なる訓練エポックの間に使用できる。ソース画像４１０は、以前の時間ステップ（ｔ－１）における画像と後続の時間ステップ（ｔ＋１）における画像を含み得る。出力は、ターゲット画像４０８とソース画像４１０との間の６自由度（ＤｏＦ）変換の組である。プロセスは、２つ以上のソース画像４１０が考えられるときは各ソース画像４１０に対して繰り返され得る。

単眼深度推定ネットワークを訓練するために異なる訓練アプローチが使用され得る。訓練アプローチは、例えば、教師あり訓練、半教師あり訓練、および自己教師あり訓練を含み得る。教師あり訓練は、Ｌ１損失（例えば、絶対エラー）などのような損失を適用することによりグラウンドトゥルース深度情報を回帰するためにネットワークを訓練することを指す。自己教師あり訓練においては、深度情報及び姿勢情報は、再構築された画像（例えば、２Ｄ画像の３Ｄ表現）を生成するためにワープ（warp）される。測光損失は、オリジナル画像と再構築された画像との間の差を最小化する。半教師あり訓練は、自己教師あり訓練と教師あり訓練の組み合わせであってよい。

上述したように、幾つかの実現形態においては、或る画像におけるオブジェクトの第１セットに対応しているグラウンドトゥルース点は、その画像におけるオブジェクトの第２セットに対応しているグラウンドトゥルース点よりも重い重みを有している。オブジェクトのセットは、所望されるタスクに基づいて決定され得る。例えば、３Ｄオブジェクト検出に対しては、オブジェクトの第１セットは、動的オブジェクト、および／または、入力画像においてより低い出現率を有するオブジェクトであり得る。例として、オブジェクトの第１セットは、車両および／または歩行者を含み得る。加えて、オブジェクトの第２セットは、静的オブジェクト、および／または、入力画像においてより高い出現率を有するオブジェクトであり得る。例として、オブジェクトの第２セットは、建物、道路、および／または歩道を含み得る。ほとんどの場合、一連の画像は、人間および／または車両の出現と比較して、建物、道路、および／または歩道の出現をより多く含んでいる。

本開示の態様は、３Ｄバウンディングボックスで単眼深度推定訓練データを補強する。３Ｄバウンディングボックスは、訓練時に深度情報に追加して使用され得る。つまり、単眼深度ネットワークは、３Ｄバウンディングボックスとグラウンドトゥルース深度情報で訓練され得る。

１つの構成においては、３Ｄバウンディングボックス内の画素の重みは調整される。擬似点群は、３Ｄバウンディングボックス内の画素の関連性を増加することにより生成され得る。画素の重み（例えば、関連性）を増加することは深度測定基準（depth metric）を減少させる可能性がある。しかしそれでも、画素の重みを増加することは３Ｄオブジェクト検出を向上させる。

３Ｄオブジェクト検出は、割り当てられたタスク（例えば、３Ｄオブジェクト検出）に対して関連性があると思われる画像の部分に焦点を当てることにより向上され得る。つまり、深度ネットワークは３Ｄオブジェクト検出タスクに対して訓練され得る。特定タスク向け訓練は、特定のタスクに対して概念化、または訓練されていない、予め訓練された一般的な深度ネットワークを使用する従来のシステムとは対照的である。

本開示の態様は、教師あり訓練、自己教師あり訓練、および半教師あり訓練を向上させ得る。教師あり訓練に対しては、グラウンドトゥルース情報を含んでいる画像の画素に対して異なる重みが適用され得る。これらの画素は、アノテーションされた深度マップから識別され得る。例えば、深度マップはバウンディングボックスによりアノテーションされ得る。バウンディングボックス内の画素に対する重みは調整され得る。

幾つかの態様においては、自己教師あり訓練に対しては、３Ｄバウンディングボックスは入力画像に逆投影され、２Ｄ投影を生成する。異なる重みが２Ｄ再投影バウンディングボックス内の画素に適用され得る。図５は、本開示の態様に係る、深度推定ネットワーク５０４を訓練するための例としての訓練パイプライン５００を示している。図５において示されているように、深度推定ネットワーク３００は、図３において記述されているように、二次元入力画像５０２から深度推定５０６を生成し得る。訓練パイプライン５００は、図３において記述されているような深度推定ネットワーク３００を使用することに限定されず、他のタイプの深度推定ニューラルネットワークが実現されてもよい。

深度推定ネットワーク５０４は、再構築画像５１０（例えば、ワープされたソース画像）を生成するためにビュー合成モジュール５０８により使用され得る。幾つかの実現形態においては、カレント画像５０２及びソース画像５０４は、センサ（例えば、単眼カメラ）の姿勢を推定するために、図４において記述されているような姿勢ネットワークに入力される。カレント画像５０２は、時間ステップｔにおける画像であってよく、ソース画像５０２は時間ステップｔ－１における画像であってよい。ビュー合成モジュール５０８は、推定された深度と推定された姿勢に基づいて再構築画像５１０を生成し得る。また、ビュー合成モジュール５０８は、シーン再構築ネットワークとも称され得る。ビュー合成モジュール５０８は、ターゲット画像５０２と再構築画像５１０との間の差に基づいて訓練され得る。ネットワークは、測光損失５２０などのような損失を最小化するように訓練できる。

測光損失５２０は、ターゲット画像５０２と再構築画像５１０（例えば、ターゲット画像を近似するワープされたソース画像）との間の差に基づいて計算される。測光損失５２０は、深度ネットワーク３００、ビュー合成モジュール５０８、姿勢ネットワーク４００、および／または画素の重みを更新するために使用され得る。

測光損失５２０（Ｌ_ｐ）は以下のように決定できる。

ここで、ＳＳＩＭ（）は、ターゲット画像５０２と再構築画像５１０との間の構造類似性（ＳＳＩＭ）を推定するための関数である。ＳＳＩＭは以下のように決定され得る。
ＳＳＩＭ（ｘ，ｙ）＝［ｌ（ｘ，ｙ）］^α・［ｃ（ｘ，ｙ）］^β・［ｓ（ｘ、ｙ）］^γ，（２）
ここで、ｓ（）は構造類似性を決定し、ｃ（）はコントラスト類似性を決定し、そしてｌ（）は輝度類似性を決定する。α、β、およびγは、各構成要素の相対的重要性を調整するためのパラメータであり、各パラメータはゼロよりも大きい。

テスト段階の間、訓練パイプライン５００は、上述したような再構築画像５１０を生成し得る。測光損失５２０はテスト段階の間は計算されなくてもよい。再構築画像５１０は、位置特定および／または他の車両ナビゲーションタスクに対して使用され得る。

例えば、ビュー合成モジュール５０８は、推定された深度５０６とセンサの姿勢に基づいて、カレント画像５０２における各点（例えば、画素）を、ソース画像５０４の位置に投影し得る。点をソース画像５０４に投影した後に、点をワープされたソース画像５１０にワープするためにバイリニア補間が使用され得る。つまり、バイリニア補間は、ソース画像５０４に基づいて、ワープされたソース画像５１０における点の値（例えば、ＲＧＢ値）を取得する。

つまり、ワープされたソース画像５１０における点の位置（例えば、ｘ、ｙ座標）は、ターゲット画像５０２における点の位置に対応し得る。しかしそれでも、ワープされたソース画像５１０における点の色は、ソース画像５０４における隣接する画素の色に基づき得る。ワープされたソース画像５１０は、２Ｄターゲット画像の３Ｄ再構築画像であってよい。

幾つかの実現形態においては、３Ｄオブジェクト検出ネットワーク５１８は、ワープされたソース画像５１０におけるオブジェクト５１４の位置を推定し得る。オブジェクト５１４の位置は、３Ｄバウンディングボックス５１２でアノテーションされ得る。例示の目的のために、図５における３Ｄバウンディングボックス５１２は２Ｄバウンディングボックスとして示されている。１つの構成においては、３Ｄバウンディングボックス５１２は、カレント画像５０２に逆投影される。２Ｄバウンディングボックス５１６は、投影された３Ｄバウンディングボックス５１２から生成され得る。異なる重みが、２Ｄバウンディングボックス内の画素に適用され得る。重みは、例えば、２Ｄバウンディングボックス内の画素がより軽い重みの画素と比較して深度推定により多く貢献するように、増大され得る。１つの実現形態においては、増大された重みを有する画素は、減少された重みを有する画素と比較して、訓練の間、損失を最小化することにより多く貢献する。

教師あり訓練と自己教師あり訓練に対して検討されているプロセスは、半教師あり訓練に対して実行される。幾つかの実現形態においては、追加的な重みが、教師あり訓練プロセスと自己教師あり訓練プロセスとの間のバランスを取る。或る実現形態においては、複数のパス（工程）が訓練フェーズの間に実行され得、各パスは、異なるパラメータ値（例えば、重み）で実行され得る。性能（例えば、精度）は各パスの後に測定される。重みは、損失の大きさに基づいて順序付けることができ、それに従って調整（例えば、向上）され得る。

ピクセル化は、教師あり損失により引き起こされ得る。自己教師あり損失はピクセル化を軽減する。スケールにおける低精度は、自己教師あり損失により引き起こされ得る。教師あり損失はスケールにおける低精度を軽減する。追加的な重みは、教師あり損失により引き起こされ得る深度マップのピクセル化を低減し得る。追加的な重みはまた、教師あり深度エラー損失により引き起こされ得る深度マップのスケールにおける低精度を低減し得る。

１つの構成においては、画素重み調整を決定するときは、ネットワークは、有効画素の数（ＮＶＰ）の総計を決定する。有効画素は、対応しているグラウンドトゥルース深度情報を有する画素、または、測光損失を使用するときの有効な再投影値を有する画素を指す。例えば、教師あり訓練に対しては、ニューラルネットワークは、グラウンドトゥルース深度画像における深度情報を有している、画像における画素を識別する。

加えて、ネットワークはバウンディングボックスを有する有効画素の数（ＮＢＰ）を決定する。バウンディングボックスを有する有効画素に対する重みは、次の画素比（（ＮＶＰ－ＮＢＰ）／ＮＢＰ）に基づいて決定される。例えば、画像が１００，０００個の有効画素を含み、２０００個がバウンディングボックス内の場合、バウンディングボックスにおける画素に対する重みは４９（例えば、（１０００００－２０００）／２０００）となる。この例においては、バウンディングボックスの外側の重みは１に正規化される。対照的に、バウンディングボックスの内部の重みは上記の比（４９）（例えば、（ＮＶＰ－ＮＢＰ）／ＮＢＰ）として決定される。この画素比は画像によって異なる。

しかしそれでも、画素比は、シーンの構造及び幾何学的位置関係が保たれるように、バウンディングボックスに属していない領域における学習を可能にする。バウンディングボックスが特別な画像においてアノテーションされていない場合、重みはゼロであって如何なる画素にも適用されない。そのため、本開示の態様は、アノテーションされている３Ｄバウンディングボックスのある画像とそれがない画像とから深度ネットワークを訓練し、それにより、訓練データの頑強性を向上させ得る。

上述したように、グラウンドトゥルース点は３Ｄバウンディングボックス情報から取得され得る。ニューラルネットワーク（例えば、深度推定ニューラルネットワーク）によるオブジェクトの第１セットの検出は、重みの調整により向上され得る。向上された検出は、オブジェクトの第２セットの検出を犠牲にして得られ得る。つまり、オブジェクトの第２セットに対する検出精度を低下させることは、オブジェクトの第１セットに対する検出精度を向上させる。１つの態様においては、３Ｄオブジェクト検出のダウンストリームタスクのためのモデルは向上される。

図６は、本開示の態様に係る、深度推定システム６００に対するハードウェア実現形態の例を示している図である。深度推定システム６００は、車両、ロボット装置、または他の装置の構成要素であってよい。例えば、図６において示されているように、深度推定システム６００は車両６２８の構成要素である。本開示の態様は、バス、ボート、ドローン、またはロボットなどのような他のタイプのエージェントにも深度推定システム６００が使用されることが考えられるので、深度推定システム６００が車両６２８の構成要素であることに制限されない。

車両６２８は、自律操作モード、半自律操作モード、および手動操作モードの１つ以上において操作され得る。更に、車両６２８は、電気車両、ハイブリッド車両、燃料車両、または、他のタイプの車両であってよい。

深度推定システム６００は、全体としてバス６６０で表されているバスアーキテクチャで実現され得る。バス６６０は、深度推定システム６００の特定の適用と、全体の設計制約に依存して、任意の数の相互接続バスとブリッジを含み得る。バス６６０は、プロセッサ６２０、通信モジュール６２２、位置モジュール６１８、センサモジュール６０２、移動モジュール６２６、ナビゲーションモジュール６２４、およびコンピュータ読み取り可能媒体６１４により表されている１つ以上のプロセッサおよび／またはハードウェアモジュールを含む種々の回路を一緒にリンクする。バス６６０はまた、タイミングソース、周辺機器、電圧レギュレータ、および電力管理回路などのような種々の他の回路をリンクし得るが、それらの回路はこの技術においてはよく知られているのでこれ以上は記述しない。

深度推定システム６００は、プロセッサ６２０、センサモジュール６０２、深度推定モジュール６０８、通信モジュール６２２、位置モジュール６１８、移動モジュール６２６、ナビゲーションモジュール６２４、およびコンピュータ読み取り可能媒体６１４に結合されているトランシーバ６１６を含んでいる。トランシーバ６１６はアンテナ６４４に結合されている。トランシーバ６１６は、インフラストラクチャネットワーク、Ｖ２Ｖネットワーク、Ｖ２Ｉネットワーク、Ｖ２Ｘネットワーク、Ｖ２Ｐネットワーク、または他のタイプのネットワークなどのような、１つ以上の通信ネットワーク上で種々の他の装置と通信する。

深度推定システム６００は、コンピュータ読み取り可能媒体６１４に結合されているプロセッサ６２０を含んでいる。プロセッサ６２０は、開示に係る機能を提供するコンピュータ読み取り可能媒体６１４に格納されているソフトウェアの実行を含む処理を実行する。ソフトウェアはプロセッサ６２０により実行されると深度推定システム６００に、車両６２８などの特別な装置、または、モジュール６０２、６０８、６１４、６１６、６１８、６２０、６２２、６２４、６２６の何れかに対して記述されている種々の機能を実行させる。コンピュータ読み取り可能媒体６１４はまた、ソフトウェアを実行するときにプロセッサ６２０により操作されるデータを格納するために使用され得る。

センサモジュール６０２は、第１センサ６０６および第２センサ６０４などのような異なるセンサを介して、測定値を取得するために使用され得る。第１センサ６０６は、２Ｄ画像を撮像するための立体カメラまたは赤／緑／青（ＲＧＢ）カメラなどのようなビジョンセンサであってよい。第２センサ６０４は、光検出および測距（ＬＩＤＡＲ）センサまたは無線検出および測距（ＲＡＤＡＲ）センサなどのような測距センサであってよい。もちろん、例えば、熱、ソナー、および／またはレーザなどのような他のタイプのセンサもセンサ６０６、６０４の何れに対しても考えられるので、本開示の態様は上記のセンサに制限されない。

第１センサ６０６と第２センサ６０４の測定値は、プロセッサ６２０、センサモジュール６０２、深度推定モジュール６０８、通信モジュール６２２、位置モジュール６１８、移動モジュール６２６、ナビゲーションモジュール６２４の１つ以上により、コンピュータ読み取り可能媒体６１４と連携して、ここにおいて記述されている機能を実現するために処理され得る。１つの構成においては、第１センサ６０６及び第２センサ６０４により取り込まれたデータは、トランシーバ６１６を介して外部装置に送信され得る。第１センサ６０６と第２センサ６０４は車両６２８に結合されるか、または、車両６２８と通信され得る。

位置モジュール６１８は、車両６２８の位置を決定するために使用され得る。例えば、位置モジュール６１８は、車両６２８の位置を決定するために全地球測位システム（ＧＰＳ）を使用し得る。通信モジュール６２２は、トランシーバ６１６を介しての通信を容易にするために使用され得る。例えば、通信モジュール６２２は、ＷｉＦｉ、ロングタームエボルーション（ＬＴＥ）、６Ｇなどのような異なる無線プロトコルを介する通信機能を提供するように構成され得る。通信モジュール６２２はまた、深度推定システム６００のモジュールではない車両６２８の他の構成要素と通信するために使用され得る。

移動モジュール６２６は、車両６２８の移動を容易にするために使用され得る。例として、移動モジュール６２６は車輪の動きを制御し得る。他の例として、移動モジュール６２６は、モータおよび／またはバッテリなどのような、車両６２８の１つ以上の電源と通信し得る。もちろん、本開示の態様は車輪を介する移動を提供することに制限されず、プロペラ、トレッド、フィン、および／またはジェットエンジンなどのような、移動を提供するための他のタイプの構成要素に対して考えられる。

深度推定システム６００はまた、移動モジュール６２６を介して、車両６２８の経路を計画するための、または車両６２８の移動を制御するためのナビゲーションモジュール６２４を含んでいる。１つの構成においては、ナビゲーションモジュール６２４は、深度推定モジュール６０８が危険なエージェントを識別すると、防御的な運転モードを作動させる。ナビゲーションモジュール６２４は、ユーザ入力が衝突を引き起こすと予期される（例えば、予測される）ときはユーザ入力を覆し得る。モジュールは、プロセッサ６２０において作動するソフトウェアモジュール、コンピュータ読み取り可能媒体６１４に常駐している／格納されているソフトウェアモジュール、プロセッサ６２０に結合されている１つ以上のハードウェアモジュール、またはそれらの何等かの組み合わせであってよい。

深度推定モジュール６０８は、センサモジュール６０２、トランシーバ６１６、プロセッサ６２０、通信モジュール６２２、位置モジュール６１８、移動モジュール６２６、ナビゲーションモジュール６２４、およびコンピュータ読み取り可能媒体６１４と通信し得る。１つの構成においては、深度推定モジュール６０８は、センサモジュール６０２からセンサデータを受信する。センサモジュール６０２は、第１センサ６０６及び第２センサ６０４からセンサデータを受信し得る。本開示の態様によれば、センサモジュール６０２は、ノイズを除去するためにデータにフィルタをかけること、データをエンコードすること、データをデコードすること、データを融合すること、フレームを抽出すること、または他の機能を実行し得る。代替の構成においては、深度推定モジュール６０８は、第１センサ６０６と第２センサ６０４から直接センサデータを受信し得る。

１つの構成においては、深度推定モジュール６０８は、センサモジュール６０２、トランシーバ６１６、プロセッサ６２０、通信モジュール６２２、位置モジュール６１８、移動モジュール６２６、ナビゲーションモジュール６２４、第１センサ６０６、第２センサ６０４、およびコンピュータ読み取り可能媒体６１４の１つ以上と通信し得、および／または、それらと連携して作動し得る。深度推定モジュール６０８は、自車両に隣接する環境の二次元（２Ｄ）画像を受信するように構成できる。環境は、動的オブジェクトと静的オブジェクトを含んでいる。２Ｄ画像は、第１センサ６０６または第２センサ６０４により撮像し得る。

深度推定モジュール６０８は、２Ｄ画像に基づいて環境の深度マップを生成するように構成され得る。１つの実現形態においては、深度マップにおける動的オブジェクトに対する深度推定の精度は、深度マップにおける静的オブジェクトに対する深度推定の精度よりも高い。深度推定モジュール６０８は、深度マップに基づいて環境の三次元（３Ｄ）推定を生成するために、図５に対して記述したビュー合成モジュール５０８などのようなビュー合成モジュール（図６においては示されていない）と連携して作動し得る。加えて、深度推定モジュール６０８は、図５に対して記述した３Ｄオブジェクト検出ネットワーク５１８などのような３Ｄオブジェクト検出ネットワーク（図６においては示されていない）と連携して作動して、３Ｄ推定における動的オブジェクトの位置を識別し得る。最後に、少なくとも位置モジュール６１８、移動モジュール６２６、ナビゲーションモジュール６２４と連携して作動して、深度推定モジュール６０８は、識別された位置に基づいて自車両の行動を制御できる。

深度推定モジュール６０８は、図３を参照して記述した深度ネットワーク３００などのような深度ネットワーク、図４を参照して記述した姿勢ネットワーク４００などのような姿勢ネットワーク、ビュー合成モジュール、および／または３Ｄオブジェクト検出ネットワークを実現し得る。

図７は、本開示の態様に従う、深度推定に基づいてオブジェクトを識別し、車両を制御するためのプロセス７００に対するフロー図を例示している。プロセス７００は、図１を参照して記述した車両１００などのような車両、図３を参照して記述した深度ネットワーク３００などのような深度ネットワーク、図６を参照して記述したような深度推定モジュール６０８、図４に対して記述したような姿勢ネットワーク４００、および／または、図５を参照して記述したような訓練パイプライン５００の１つ以上により実行され得る。

図７において示されているように、プロセス７００は、自車両に隣接する環境の二次元（２Ｄ）画像を撮像することを含んでいる。２Ｄ画像は、図２を参照して記述したようなシーン２０２のターゲット画像２００であってよい。環境は、動的オブジェクト及び静的オブジェクトを含み得る（ブロック７０２）。環境は、車両、歩行者、および／または自転車に乗っている人などのような１つ以上の動的オブジェクトを含み得る。環境はまた、道路、歩道、および／または建物などのような１つ以上の静的オブジェクトを含み得る。２Ｄ画像は、自車両に統合されている単眼カメラを介して撮像され得る。

プロセス７００はまた、深度推定ネットワークを介して、２Ｄ画像に基づいて環境の深度マップを生成することを含み得る（ブロック７０４）。深度マップは、図２を参照して記述したようなシーン２０２の深度マップ２２０であってよい。１つの実現形態においては、深度マップにおける動的オブジェクトに対する深度推定の精度は、深度マップにおける静的オブジェクトに対する深度推定の精度よりも高い。精度は、例えば、図５を参照して記述したように、訓練に基づいて高め得る。

例えば、訓練の間に、２Ｄ画像におけるオブジェクトの位置に対応している各画素の重みが調整され得る。深度推定ネットワーク（例えば、深度ネットワーク）は、グラウンドトゥルース情報と調整された重みとに基づいて訓練され得る。加えて、訓練の間に、アノテーションされたグラウンドトゥルース情報に基づいて、動的オブジェクトの位置が識別され得る。例えば、３Ｄ推定におけるオブジェクトの位置を識別する３Ｄバウンディングボックスに基づいて位置が識別され得る。訓練の間に、３Ｄバウンディングボックスは、２Ｄ画像におけるオブジェクトの位置を識別するために２Ｄバウンディングボックスに変換され得る。

加えて、この例においては、重みは、深度情報を備えている画素の第１の数と、２Ｄ画像におけるオブジェクトの位置に対応している画素の数とに基づいて調整され得る。代替的に、重みは、測光損失および教師あり深度エラー損失に基づいて調整され得る。測光損失は、図５を参照して記述したような測光損失５２０であってよい。

プロセス７００はまた、深度マップに基づいて環境の３Ｄ推定を生成することを含み得る（ブロック７０６）。３Ｄ推定は、図５を参照して記述した再構築画像５１０、または、図２を参照して記述したようなシーン２０２の３Ｄ再構築２４０などのような再構築画像であり得る（例えば、ワープされたソース画像）。プロセス７００はまた、３Ｄ推定における動的オブジェクトの位置を識別することを含んでいる（ブロック７０８）。最後に、プロセス７００は、識別された位置に基づいて自車両の行動を制御することを含んでいる。

教示に基づいて、この技術における当業者は、本開示の範囲は、本開示の如何なる他の態様と独立して実現されるか、または、本開示の如何なる他の態様と組み合わせて実現されるかに関係なく、本開示の如何なる態様も含むことが意図されているということは認識すべきである。例えば、装置は、記述されている態様の如何なる数を使用しても実現でき、または方法は、記述されている如何なる態様の如何なる数を使用しても実践され得る。加えて、本開示の範囲は、他の構造、機能を使用するそのような装置、または、他の構造、機能を使用して実践されるそのような方法、または、記述されている本開示の種々の態様に加えて、またはそれ以外の構造と機能を使用するそのような装置または、それらを使用して実践されるそのような方法を含むことが意図されている。本開示の如何なる態様も、請求項の１つ以上の要素により具現化され得るということは理解されるべきである。

「例としての」という語句は本明細書おいては、「例、実例、または例示として機能している」ことを意味するために使用されている。「例としての」として本明細書において記述されている如何なる態様も、必ずしも他の態様より好適、または利点があると解釈されるべきとは限らない。

特別な態様が本明細書において記述されているが、これらの態様の多数の変形されたもの、または置換されたものは本開示の範囲内である。好適な態様の幾つかの恩典と利点に言及したが、本開示の範囲は、特別な恩典、使用、または目的に制限されないことが意図されている。そうではなく、本開示の態様は、幾つかが、例として図面、および好適な態様の下記の記述において示されている、異なる技術、システム構成、ネットワーク、およびプロトコルに広く適用可能であることが意図されている。詳細な記述と図面は制限的ではなく、本開示の単なる例にすぎず、本開示の範囲は、付随する特許請求の範囲とその等価物で定義されている。

本明細書において使用されているように、「決定する」という用語は広く多様な行動を含んでいる。例えば、「決定する」とは、計算する、演算する、処理する、導出する、調査する、調べる（例えば、表、データベース、または他のデータ構造を調べる）、確認するなどを含み得る。加えて、「決定する」とは、受信する（例えば、情報を受信する）、評価する（例えば、メモリにおけるデータを評価する）などを含み得る。更に、「決定する」とは、解決する、選択する、選ぶ、確立するなどを含み得る。

本明細書において使用されているように、項目のリスト「の少なくとも１つ」というフレーズは、個々の項目を含めて、それらの項目の任意の組み合わせのことを指している。例として、「ａ、ｂ、またはｃの少なくとも１つ」は「ａ、ｂ、ｃ、ａとｂ、ａとｃ、ｂとｃ、およびａとｂとｃ」を含むことが意図されている。

本開示と関連して記述されている種々の例としての論理ブロック、モジュール、および回路は、本開示において検討されている機能を実行するように特別に構成されているプロセッサで実現または実行され得る。プロセッサは、ニューラルネットワークプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他のプログラマブル論理装置（ＰＤＬ）、分離ゲートまたはトランジスタロジック、分離ハードウェア構成要素または、本明細書において記述されている機能を実行するように設計されているそれらの任意の組み合わせであってよい。代替的に、処理システムは、ニューロンモデルおよび、本明細書において記述されているニューラルシステムのモデルを実現するための１つ以上のニューロモルフィックプロセッサを備え得る。プロセッサは、マイクロプロセッサ、コントローラ、マイクロコントローラ、または、本明細書において記述されているように特別に構成されているステートマシンであってよい。プロセッサは、演算装置の組み合わせ、例えば、ＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと連携しての１つ以上のマイクロプロセッサ、または、本明細書において記述されているようなそのような他の特別な構成として実現され得る。

本開示と関連して記述されている方法またはアルゴリズムのステップは、ハードウェアにおいて直接、プロセッサにより実行されるソフトウェアモジュールにおいて、またはその２つの組み合わせにおいて具現化し得る。ソフトウェアモジュールは、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、フラッシュメモリ、消去可能型プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、電気的消去可能型プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ－ＲＯＭ、または他の光ディスク格納装置、磁気ディスク格納装置、または他の磁気格納装置、または、命令またはデータ構造の形状における所望されるプログラムコードを実行または格納するために使用されることができ且つコンピュータによりアクセスされることができる任意の他の媒体、を含む格納装置または機械読み取り可能媒体に常駐し得る。ソフトウェアモジュールは、単一の命令または多数の命令を備え得、且つ、異なるプログラムの中の幾つかの異なるコードセグメント上で複数の格納媒体にわたって分散され得る。格納媒体は、プロセッサが格納媒体から情報を読み込むこと及び格納媒体に情報を書き込むことができるようにプロセッサに結合され得る。代替においては、格納媒体はプロセッサに統合され得る。

本明細書において開示されている方法は、記述されている方法を達成するための１つ以上のステップまたは動作を備えている。方法のステップおよび／または動作は、請求事項の範囲から逸脱することなく互いに入れ替えられ得る。言い換えると、ステップまたは動作の特定の順序が指定されない限り、特定のステップおよび／または動作の順序および／または使用は、請求事項の範囲から逸脱することなく修正され得る。

記述されている機能は、ハードウェア、ソフトウェア、ファームウェア、または、それらの任意の組み合わせにおいて実現され得る。ハードウェアにおいて実現される場合、例としてのハードウェア構成は、装置における処理システムを備え得る。処理システムは、バスアーキテクチャで実現され得る。バスは、処理システムの特定の適用および全体の設計制約に依存して、任意の数の相互接続バスおよびブリッジを含み得る。バスは、プロセッサ、機械読み取り可能媒体、およびバスインタフェースを含む種々の回路を一緒にリンクされ得る。バスインタフェースは、バスを介してネットワークアダプタを、特には、処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能を実現するために使用され得る。或る態様に対しては、ユーザインタフェース（例えば、キーパッド、ディスプレイ、マウス、ジョイスティックなど）もまたバスに接続され得る。バスはまた、タイミングソース、周辺機器、電圧レギュレータ、電力管理回路などのような種々の他の回路を一緒にリンクされ得るが、それらはこの技術においてはよく知られているのでこれ以上は記述しない。

プロセッサは、バスと、機械読み取り可能媒体に格納されているソフトウェアの実行を含む処理を管理を担当し得る。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはその他と言及されるかに関係なく、命令、データ、またはそれらの任意の組み合わせを意味すると解釈されるべきである。

ハードウェアの実現においては、機械読み取り可能媒体は、プロセッサとは別個の処理システムの一部であってよい。しかし、この技術における当業者は容易に認識するように、機械読み取り可能媒体、またはその任意の部分は、処理システムの外部であってよい。例として、機械読み取り可能媒体は、送信線、データにより変調された搬送波、および／または、装置とは別個のコンピュータ製品を含むことができ、それらはすべてバスインタフェースを通してプロセッサによりアクセス可能である。代替的に、または追加的に、機械読み取り可能媒体、またはその任意の一部は、キャッシュおよび／または特殊化されたレジスタファイルの場合のようにプロセッサに統合され得る。検討されている種々の構成要素は、局所構成要素などのように特定の位置を有しているように記述され得るが、それらはまた、ある構成要素が分散された演算システムの一部として構成されているように、種々の方法で構成され得る。

機械読み取り可能媒体は多数のソフトウェアモジュールを備え得る。ソフトウェアモジュールは、送信モジュールおよび受信モジュールを含み得る。各ソフトウェアモジュールは、単一の格納装置に常駐でき、または、複数の格納装置にわたって分散され得る。例として、ソフトウェアモジュールは、誘発事象が起こると、ハードドライブからＲＡＭにロードされ得る。ソフトウェアモジュールの実行の間、プロセッサはアクセス速度を上げるために命令の幾つかをキャッシュにロードし得る。そして１つ以上のキャッシュラインは、プロセッサによる実行のために特殊目的レジスタファイルにロードされ得る。下記のソフトウェアモジュールの機能に言及するときに、そのような機能は、そのソフトウェアモジュールからの命令を実行するときにプロセッサにより実現されるということを理解するであろう。更に、本開示の態様は、プロセッサ、コンピュータ、マシン、またはそのような態様を実現する他のシステムの機能の向上という結果になるということは認識されるべきである。

ソフトウェアにおいて実現される場合、機能は格納され得、または、コンピュータ読み取り可能媒体上の１つ以上の命令またはコードとして送信され得る。コンピュータ読み取り可能媒体は、１つの場所から他の場所へのコンピュータプログラムの転送を容易にする任意の格納媒体を含む、コンピュータ格納媒体と通信媒体の両者を含んでいる。

更に、ここにおいて記述されている方法と技術を実行するためのモジュールおよび／または他の適切な手段は、ユーザ端末および／または、適用可能であれば基地局によりダウンロードおよび／または取得され得るということは認識されるべきである。例えば、そのような装置は、ここにおいて記述されている方法を実行するための手段の転送を容易にするためにサーバに結合され得る。代替的に、ここにおいて記述されている種々の方法は、格納手段を装置に結合または提供すると、ユーザ端末および／または基地局が種々の方法を取得できるように格納手段を介して提供され得る。更に、ここにおいて記述されている方法と技術を装置に提供するための任意の他の適切な技術が利用され得る。

特許請求の範囲は、上記に例示された正確な構成と構成要素に制限されないということは理解されるべきである。種々の修正、変更、および変形が、請求事項の範囲から逸脱することなく、上述した方法と装置の配置、動作、および詳細において実行され得る。

Claims

方法であって、
自車両に隣接している環境であって少なくとも動的オブジェクトと静的オブジェクトを備えている環境の二次元（２Ｄ）画像を撮像することと、
深度推定ネットワークを介して、前記２Ｄ画像に基づいて前記環境の深度マップを生成することであって、前記深度マップにおける前記動的オブジェクトに対する深度推定の精度は前記深度マップにおける前記静的オブジェクトに対する深度推定の精度よりも高い、ことと、
前記深度マップに基づいて前記環境の三次元（３Ｄ）推定を生成することと、
前記３Ｄ推定における前記動的オブジェクトの位置を識別することと、
前記識別された位置に基づいて前記自車両の行動を制御することと、を含む方法。
前記動的オブジェクトは、歩行者、近くの車両、またはサイクリストを含み、
前記静的オブジェクトは、道路、歩道、または建物を含む、請求項１の方法。
前記２Ｄ画像における前記オブジェクトの前記位置に対応している各画素の重みを調整し、且つ
グラウンドトゥルース情報及び前記調整された重みに基づいて前記深度推定ネットワークを訓練する
ことにより、前記自車両のニューラルネットワークを訓練することを更に含む、請求項１の方法。
訓練の間に、アノテーションされたグラウンドトゥルース情報に基づいて前記位置を識別することを更に含む、請求項３の方法。
３Ｄ推定における前記オブジェクトの位置を識別する３Ｄバウンディングボックスに基づいて前記位置を識別することと、
前記２Ｄ画像における前記オブジェクトの前記位置を識別するために、前記３Ｄバウンディングボックスを２Ｄバウンディングボックスに変換することを更に含む、請求項３の方法。
深度情報を備えている画素の第１の数と、前記２Ｄ画像における前記オブジェクトの前記位置に対応している画素の数とに基づいて前記重みを調整すること、または、
測光損失及び教師あり深度エラー損失に基づいて前記重みを調整すること、を更に含む、請求項３の方法。
前記自車両に統合された単眼カメラを介して前記２Ｄ画像を撮像することを更に含む、請求項１の方法。
プロセッサと、
前記プロセッサに結合されているメモリと、
前記メモリに格納されている命令と、を備えている装置であって、
前記命令は、前記プロセッサにより実行されると、前記装置に、
自車両に隣接している環境であって少なくとも動的オブジェクトと静的オブジェクトを備えている環境の二次元（２Ｄ）画像を撮像させ、
深度推定ネットワークを介して、前記２Ｄ画像に基づいて前記環境の深度マップを生成させ、
前記深度マップに基づいて前記環境の三次元（３Ｄ）推定を生成させ、
前記３Ｄ推定における前記動的オブジェクトの位置を識別させ、
前記識別された位置に基づいて前記自車両の行動を制御させるように動作でき、
前記深度マップにおける前記動的オブジェクトに対する深度推定の精度は前記深度マップにおける前記静的オブジェクトに対する深度推定の精度よりも高い、装置。
前記動的オブジェクトは、歩行者、近くの車両、またはサイクリストを含み、
前記静的オブジェクトは、道路、歩道、または建物を含む、請求項８の装置。
前記命令は、前記装置に更に、
前記２Ｄ画像における前記オブジェクトの前記位置に対応している各画素の重みを調整し、且つ
グラウンドトゥルース情報と前記調整された重みに基づいて前記深度推定ネットワークを訓練する
ことにより、前記自車両の前記深度推定ネットワークを訓練させる、請求項８の装置。
前記命令は、前記装置に更に、訓練の間に、アノテーションされたグラウンドトゥルース情報に基づいて前記位置を識別することにより、前記自車両の前記深度推定ネットワークを訓練させる、請求項１０の装置。
前記命令は、前記装置に更に、
３Ｄ推定における前記オブジェクトの位置を識別する３Ｄバウンディングボックスに基づいて前記位置を識別し、且つ
前記２Ｄ画像における前記オブジェクトの前記位置を識別するために、前記３Ｄバウンディングボックスを２Ｄバウンディングボックスに変換する
ことにより、前記自車両の前記深度推定ネットワークを訓練させる、請求項１０の装置。
前記命令は、前記装置に更に、
深度情報を備えている画素の第１の数と、前記２Ｄ画像における前記オブジェクトの前記位置に対応している画素の数とに基づいて前記重みを調整し、または、
測光損失と教師あり深度エラー損失に基づいて前記重みを調整する
ことにより、前記自車両の前記深度推定ネットワークを訓練させる、請求項１０の装置。
前記命令は、前記装置に更に、前記自車両に統合された単眼カメラを介して前記２Ｄ画像を撮像させる、請求項８の装置。
プログラムコードが記録されている非一時的コンピュータ読み取り可能媒体であって、前記プログラムコードはプロセッサにより実行され、
自車両に隣接している環境であって少なくとも動的オブジェクトと静的オブジェクトを備えている環境の二次元（２Ｄ）画像を撮像するためのプログラムコードと、
深度推定ネットワークを介して、前記２Ｄ画像に基づいて前記環境の深度マップを生成するためのプログラムコードであって、前記深度マップにおける前記動的オブジェクトに対する深度推定の精度は前記深度マップにおける前記静的オブジェクトに対する深度推定の精度よりも高い、プログラムコードと、
前記深度マップに基づいて前記環境の三次元（３Ｄ）推定を生成するためのプログラムコードと、
前記３Ｄ推定における前記動的オブジェクトの位置を識別するためのプログラムコードと、
前記識別された位置に基づいて前記自車両の行動を制御するためのプログラムコードと、を備えている、非一時的コンピュータ読み取り可能媒体。
前記動的オブジェクトは、歩行者、近くの車両、またはサイクリストを含み、
前記静的オブジェクトは、道路、歩道、または建物を含む、請求項１５の非一時的コンピュータ読み取り可能媒体。
前記プログラムコードは、
前記２Ｄ画像における前記オブジェクトの前記位置に対応している各画素の重みを調整し、且つ
グラウンドトゥルース情報及び前記調整された重みに基づいて前記深度推定ネットワークを訓練する
ことにより、前記自車両の前記深度推定ネットワークを訓練するためのプログラムコードを更に備えている、請求項１５の非一時的コンピュータ読み取り可能媒体。
前記プログラムコードは、訓練の間に、アノテーションされたグラウンドトゥルース情報に基づいて前記位置を識別することにより、前記自車両の前記深度推定ネットワークを訓練するためのプログラムコードを更に備えている、請求項１７の非一時的コンピュータ読み取り可能媒体。
前記プログラムコードは、
３Ｄ推定における前記オブジェクトの位置を識別する３Ｄバウンディングボックスに基づいて前記位置を識別し、且つ
前記２Ｄ画像における前記オブジェクトの前記位置を識別するために、前記３Ｄバウンディングボックスを２Ｄバウンディングボックスに変換する
ことにより、前記自車両の前記深度推定ネットワークを訓練するためのプログラムコードを更に備えている、請求項１７の非一時的コンピュータ読み取り可能媒体。
前記プログラムコードは、
深度情報を備えている画素の第１の数と、前記２Ｄ画像における前記オブジェクトの前記位置に対応している画素の数とに基づいて前記重みを調整し、または、
測光損失と教師あり深度エラー損失に基づいて前記重みを調整する
ことにより、前記自車両の前記深度推定ネットワークを訓練するためのプログラムコードを更に備えている、請求項１７の非一時的コンピュータ読み取り可能媒体。