JP2023530762A - 3dバウンディングボックスからの単眼深度管理 - Google Patents

3dバウンディングボックスからの単眼深度管理 Download PDF

Info

Publication number
JP2023530762A
JP2023530762A JP2022579020A JP2022579020A JP2023530762A JP 2023530762 A JP2023530762 A JP 2023530762A JP 2022579020 A JP2022579020 A JP 2022579020A JP 2022579020 A JP2022579020 A JP 2022579020A JP 2023530762 A JP2023530762 A JP 2023530762A
Authority
JP
Japan
Prior art keywords
depth
image
training
depth estimation
program code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022579020A
Other languages
English (en)
Inventor
ギジリーニ,ビトー
デイビッド ガイドン,エイドリアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of JP2023530762A publication Critical patent/JP2023530762A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Measurement Of Optical Distance (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

方法は、自車両に隣接している環境であって少なくとも動的オブジェクトと静的オブジェクトを含んでいる環境の二次元(2D)画像を撮像することを含んでいる。方法はまた、深度推定ネットワークを介して、2D画像に基づいて環境の深度マップを生成することを含んでおり、深度マップにおける動的オブジェクトに対する深度推定の精度は深度マップにおける静的オブジェクトに対する深度推定の精度よりも高い。方法は更に、深度マップに基づいて環境の三次元(3D)推定を生成することと、3D推定における動的オブジェクトの位置を識別することと、を含んでいる。方法は追加的に、識別された位置に基づいて自車両の行動を制御することを含んでいる。【選択図】図7

Description

本開示の或る態様は、全体的に深度推定システムに関する。
自律エージェント(例えば、車両、ロボットなど)は、種々のタスクを実行するために、深度推定(depth estimate)に依存している。これらの種々のタスクは、周囲の環境の三次元(3D)表現を構築すること、または、3Dオブジェクトを識別することを含み得る。3D表現は、位置特定および/または自律ナビゲーションなどのような種々のタスクに使用され得る。深度推定の精度を向上させることにより、3D表現を生成すること又は3Dオブジェクト検出などのようなダウンストリームタスクの精度を向上させ得る。自律エージェントのセンサにより撮像された画像から取得された深度推定の精度を向上させることが望まれている。
本開示の1つの態様においては方法が開示される。方法は、自車両に隣接している環境の二次元(2D)画像を撮像することを含んでいる。環境は、少なくとも動的オブジェクトと静的オブジェクトを含んでいる。方法はまた、深度推定ネットワークを介して、2D画像に基づいて環境の深度マップを生成することを含んでいる。深度マップにおける動的オブジェクトに対する深度推定の精度は、深度マップにおける静的オブジェクトに対する深度推定の精度よりも高い。方法は更に、深度マップに基づいて環境の三次元(3D)推定を生成することを含んでいる。方法は更に、識別された位置に基づいて自車両の行動を制御することを含んでいる。
本開示の他の態様においては、非一時的プログラムコードが記録されている非一時的コンピュータ読み取り可能媒体が開示される。プログラムコードはプロセッサにより実行され、自車両に隣接している環境であって少なくとも動的オブジェクトと静的オブジェクトを備えている環境の2D画像を撮像するためのプログラムコードを含んでいる。プログラムコードはまた、深度推定ネットワークを介して、2D画像に基づいて環境の深度マップを生成するためのプログラムコードを含んでいる。深度マップにおける動的オブジェクトに対する深度推定の精度は、深度マップにおける静的オブジェクトに対する深度推定の精度よりも高い。プログラムコードは更に、深度マップに基づいて環境の3D推定を生成するためのプログラムコードを含んでいる。プログラムコードは更に、識別された位置に基づいて自車両の行動を制御するためのプログラムコードを含んでいる。
本開示の他の態様は装置に向けられている。装置は、メモリと、メモリに結合されている1つ以上のプロセッサと、メモリに格納されている命令と、を有している。命令は、プロセッサにより実行されると、装置に、自車両に隣接している環境であって少なくとも動的オブジェクトと静的オブジェクトを備えている環境の2D画像を撮像させるために動作可能である。命令はまた、装置に、深度推定ネットワークを介して、2D画像に基づいて環境の深度マップを生成させる。深度マップにおける動的オブジェクトに対する深度推定の精度は、深度マップにおける静的オブジェクトに対する深度推定の精度よりも高い。命令は追加的に装置に、深度マップに基づいて環境の3D推定を生成させる。命令は更に装置に、識別された位置に基づいて自車両の行動を制御させる。
ここでは、後に続く詳細な記述がより良好に理解できるように、本開示の特徴と技術的利点の概要を広く記述している。本開示の追加的特徴と利点は下記に記述される。この技術における当業者は、本開示は、本開示の同じ目的を実行するための他の構造を修正または設計するための根拠として容易に利用できるということは認識すべきである。この技術における当業者は、そのような等価な構成は、付随する特許請求の範囲において記述されているような本開示の教示から逸脱していないということも認識すべきである。その編成と動作の方法の両者について本開示の特質と思われる新規の特徴は、更なる目的および利点と共に、下記の記述を付随する図面と連携して考慮することでより良好に理解されるであろう。しかし、それぞれの図は、例示と記述の目的のためのみに提供されており、本開示の制限の定義としては意図されていないということは明確に理解されるべきである。
本開示の特徴、性質、および利点は、下記に記述されている詳細な記述から、図面を通して類似の参照文字は対応しているものを特定する図面と連携して解釈されるとより明確になるであろう。
図1は、本開示の態様に係る、或る環境における車両の例を示している。 図2Aは、本開示の態様に係る単一の画像の例である。 図2Bは、本開示の態様に係る深度マップの例である。 図2Cは、本開示の態様に係る、再構築されたターゲット画像の例である。 図3は、本開示の態様に係る深度ネットワークの例を示している。 図4は、本開示の態様に係る姿勢ネットワークの例を示している。 図5は、本開示の態様に係る訓練パイプラインの例を示している。 図6は、本開示の態様に係る深度推定システムに対するハードウェア実現形態の例を示している。 図7は、本開示の態様に係る方法のためのフロー図を示している。
付随する図面と関連して下記に記述されている詳細な記述は、種々の構成の記述として意図されており、ここにおいて記述されているコンセプトを実践できる構成のみを表しているということは意図されていない。詳細な記述は、種々のコンセプトの完全な理解を提供する目的のための特定の詳細を含んでいる。しかし、この技術における当業者には、これらのコンセプトはこれらの特定の詳細なしで実践できるということは明白であろう。幾つかの例においては、よく知られている構造および構成要素は、そのようなコンセプトを不明瞭にすることを回避するためにブロック図の形状で示されている。
自律エージェントなどのようなエージェントは、深度推定に基づいて種々のタスクを実行し得る。例えば、エージェントは、センサから取得した画像に基づいてシーンの3D表現を生成し得る。3D表現は、3Dモデル、3Dシーン、または3Dマップとも称することもできる。3D表現は、シーンの理解、動作の計画、および/または障害物回避などのような種々のタスクを容易にし得る。例えば、エージェントは、3D表現に基づいて環境を通して自律的にナビゲートし得る。追加的にまたは代替的に、エージェントは、深度推定に基づいて3Dオブジェクトを識別し得る。
深度ネットワークなどのような人工ニューラルネットワークは、センサの測定値から深度を推定するために訓練され得る。深度訓練のための従来のシステムは、3Dオブジェクト検出などのようなダウンストリームタスクを向上させることとは反対に、深度性能を強調している。深度訓練とは、画像から深度を推定するために深度ネットワークを訓練するための訓練段階のことである。本開示の態様は、深度訓練に対する訓練損失の一部として3Dオブジェクト検出情報を組み込むことによりダウンストリームタスクに対する深度推定を向上させることに向けられている。
図1は、本開示の態様に係る、環境150における自車両(ego vecle)100(例えば、自エージェント)の例を示している。図1において示されているように、自車両100は道路110上を走行している。第1車両104(例えば、他のエージェント)は自車両100の前方にあってよく、第2車両116は自車両100の隣にあってよい。この例においては、自車両100は、2D RGBカメラなどのような2Dカメラ108と、第2センサ106と、を含み得る。第2センサ106は、他のRGBカメラ、またはレーダーおよび/または超音波などのような他のタイプのセンサであってよい。追加的に、または代替的に、自車両100は1つ以上の追加センサを含んでもよい。例えば、追加センサは、側方を向いている、および/または、後方を向いているセンサであってもよい。
1つの構成においては、2Dカメラ108は、2Dカメラ108の視野114内のオブジェクトを含む2D画像を撮像する。第2センサ106は1つ以上の出力ストリームを生成し得る。2Dカメラにより撮像された2D画像は、第1車両104が2Dカメラ108の視野114に入っているので第1車両104の2D画像を含んでいる。
第2センサ106と2Dカメラ108から取得された情報は、自車両100が自律モードのときは、自車両100をルートに沿ってナビゲートするために使用され得る。第2センサ106と2Dカメラ108は、車両100のバッテリ(示されていない)から提供される電力から電力供給を受け得る。バッテリは、車両のモータにも電力供給し得る。第2センサ106及び2Dカメラ108から取得した情報は、環境の3D表現を生成するために使用され得る。
本開示の態様は、或る環境におけるオブジェクトに対する深度推定を向上させる。向上された深度推定は、3Dオブジェクト検出などのようなダウンストリームタスクを向上し得る。ダウンストリームタスクとは、深度推定に基づいて実行されるタスクのことを指し得る。幾つかの実現形態においては、オブジェクトに対応しているグラウンドトゥルース点は、3Dバウンディングボックス情報に基づいて選択され得る。オブジェクトに対応している各グラウンドトゥルース点(例えば、画素)に対する重みは増加され得る。深度ネットワークは、増加された重みの結果として、オブジェクトに対する深度推定を向上させる。
向上された深度推定は、増加された精度を有する深度推定のことを指し得る。オブジェクトは、自動車および歩行者などのような、入力画像において目立たないオブジェクトを含み得る。入力画像において目立たないオブジェクトの深度推定に対する精度を向上させることは、道路および建物などのような、入力画像において目立つ代表的オブジェクトに対する深度推定の精度を犠牲にし得る。入力画像において目立たないオブジェクトの深度推定に対する精度を向上させると、オブジェクトの識別が向上され得るので、3Dオブジェクト検出などのようなダウンストリームタスクに対するモデルが向上される。
教師あり単眼深度ネットワークは、入力画像を推定された深度出力に回帰することにより推定関数を学習する。教師あり訓練とは、ラベル付けされたグラウンドトゥルース情報から学習することを指している。例えば、従来の教師あり単眼深度ネットワークは、ニューラルネットワークを回帰モデルとして訓練するためにグラウンドトゥルース深度(例えば、LiDARデータ)を使用し得る。教師あり深度ネットワークでは、畳み込みニューラルネットワークが、初期の大まかな予測を生成し、その予測を他のニューラルネットワークを使用して改良して、より精度の高い結果を生成する。深度推定のための教師あり技術が進歩するにつれ、目標深度ラベルの入手可能性は、ラベル付きデータを生成するコストにより削減される。例えば、屋外のシーンに対してラベル付けをすることは時間のかかるタスクである。
幾つかの従来の単眼深度ソリューションは、LiDAR情報をビジョン(vision)に基づく情報で置き換える。つまり、LiDARからの直接の点群を使用する代わりに、深度ネットワークは単一画像から点群を推定する。そのような例においては、従来の単眼深度ソリューションでは、3Dバウンディングボックスの検出に当たり、推定された点群が使用される。上述したように、カメラ(例えば、ビジョンに基づくシステム)は、ほとんどのシステムにおいて普遍的であり、LiDARセンサと比較してコストが易い。したがって、カメラに基づくソリューションは、プラットフォームのより広い範囲に適用され得る。しかしそれでも、LiDARシステムは、ビジョンに基づくシステムよりも性能がより良好である。深度推定ネットワークの精度を向上させると、LiDARシステムとビジョンに基づくシステムとの間のギャップを減少させることができる。従来のシステムは、訓練またはテスト時のスパースなLiDARセンサからの情報を含むことにより、LiDARシステムとビジョンに基づくシステムとの間のギャップを減少させることもできる。スパースなLiDAR情報は不整列(misalignment)を補正することができる。これらの従来のシステムは、LiDAR情報の使用を減少させる。
LiDARセンサのコストにより、LiDARセンサは経済的に実現可能性がないことがあり得る。赤-緑-青(RGB)カメラなどのようなカメラは、密な情報を提供し得る。加えて、カメラは、LiDARセンサと比較してより経済的に高い実現可能性を有し得る。本開示の態様は、教師ありの方法で訓練された深度ネットワークから生成される単眼深度推定を向上させる。向上された単眼深度推定は、カメラが測距センサ(range sensor)を補強、補完、またはそれと置き換わることができるように、LiDARによるソリューションとビジョンによるソリューションとの間のギャップを埋める。幾つかの実現形態においては、深度訓練(例えば、画像に基づく深度推定のための訓練)は、ロボットにおいて固有な幾何学的な制約を取り入れることにより、または、較正されたLiDARセンサからのスパースな深度ラベルを介して、自己教師ありとすることができる。
単眼カメラからの深度推定とLiDARセンサからの深度推定との間のギャップを埋めることは、カメラが測距センサの機能を補完するので、コストを削減し且つ頑強な(robust)ソリューションを増加させ得る。例えば、LiDARセンサと比較して、カメラは雨の環境などのような幾つかの環境においては、より良好に機能し得る。逆に、カメラと比較して、LiDARセンサは、光の少ない状況などのような他の環境においてより良好に機能し得る。したがって、単眼深度推定は、種々のタスクを実行するためのエージェントの能力を向上させ得る。
更に、エージェントはLiDARデータと比較してより多くの量の画像データを生成できる。画像データは、深度ネットワークに対する訓練データとして使用できる。そのため、単眼センサの使用は訓練データの量を増加でき、それにより自己教師あり単眼深度推定を向上させ得る。
上記のように、本開示の態様は、単眼画像(例えば、擬似LiDAR点群)からの3Dオブジェクト検出を向上させる。3Dオブジェクト検出は、自律エージェントによる自律ナビゲーションを可能にするための構成要素である。現在では、LiDAR情報を3Dオブジェクト検出に使用できる。LiDAR情報よりも単眼点群を処理することにより3Dオブジェクト検出が向上されることが望ましい。
精度のよい深度推定は、環境を通しての自律ナビゲーションを向上させ得る。例えば、精度のよい深度推定は、自動車または歩行者などのようなオブジェクトとの衝突回避を向上させ得る。本開示の態様は自律エージェントに制限されない。本開示の態様は、手動モードまたは半自律モードで動作するエージェントも考慮している。手動モードにおいては、人間の運転手がエージェントを手動で操作する(例えば、制御する)。自律モードにおいては、エージェント制御システムが、人間の介在なしでエージェントを操作する。半自律モードにおいては、人間はエージェントを操作することができ、エージェント制御システムは、人間の操作を覆すことまたは人間を支援することができる。例えば。エージェント制御システムは、衝突を防止するために、または1つ以上の交通規則に従うために人間の操作を覆すことができる。
幾つかの例においては、従来のシステムは、予め訓練された深度ネットワークにより生成された擬似点群を取得する。予め訓練された深度ネットワークは、入力画像を、3Dバウンディングボックス検出(例えば、擬似点群)のために必要な情報に変換する。予め訓練された深度ネットワークは、半教師ありまたは教師ありで訓練された単眼、ステレオ、またはマルチビューネットワークを含んでいる。予め訓練された深度ネットワークは、特定のタスクに対して訓練されていない一般的な深度ネットワークであってもよい。予め訓練された深度ネットワークは、オフザシェルフ(非特注品、既製品)ネットワークと称することができる。
予め訓練された深度ネットワークは、環境(例えば、地面(ground-plane)、垂直壁、構造物)の強い事前確率(strong prior)を学習し得る。学習された事前確率は、全体的な深度の結果を向上させ得る。しかしそれでも、学習された事前確率は、3Dオブジェクト検出に関連するオブジェクトに対する深度推定は向上しない。3Dオブジェクト検出に関連するオブジェクトは、自動車や歩行者などのような動的オブジェクトであることがよくある。この技術における当業者には知られているように、動的オブジェクトは、半教師ありの設定における単眼深度推定では難しい問題である。例えば、動的オブジェクトの動きは、深度ネットワークを訓練するために使用される測光損失(photometric loss)に対する根拠を形成する静的世界仮定(static world assumption)を破ってしまう。
上述したように、従来のオフザシェルフ深度ネットワークは、3Dオブジェクト検出などのようなダウンストリームタスクとは異なる測定基準および損失を使用して訓練される。そのため、従来のオフザシェルフ深度ネットワークは、関連するタスクに対する精度を減少させる可能性がある。例えば、従来のオフザシェルフ深度ネットワークは、地面が画像における大きな部分(例えば、多数の画素)を含んでいるので、地面を精度よく回復できる。対照的に、歩行者を表している画素の数は、道路などのような地面を表している画素の数よりも少ないことが有り得る。したがって、単眼深度ネットワークの目標はすべての画素の予測の精度を最大にすることなので、歩行者は、深度推定に対する関連度がより少なくてよい。
深度推定に対してのみ開発されたオフザシェルフ深度ネットワークを使用するのではなく、本開示の態様は、3Dオブジェクト検出などのようなダウンストリームタスクを向上させるために深度ネットワークを訓練する。幾つかの実現形態においては、3Dオブジェクト検出情報は、深度訓練に対する訓練損失の一部として組み入れられ得る。3Dオブジェクト検出情報はダウンストリームタスク訓練を訓練するために特定され得る。したがって、3Dオブジェクト検出情報は深度ネットワークに対して既に利用可能である。従来のシステムは、深度訓練に対してそのような情報を使用しない。
幾つかの実現形態においては、3Dバウンディングボックス情報が訓練時に利用可能でない場合、深度ネットワークは、3Dバウンディングボックス情報なしの深度訓練に戻る。そのため、訓練段階では、3Dバウンディングボックスのある画像と、アノテーションされた3Dバウンディングボックスがない画像とから学習し得る。そのような実現形態は、利用可能なラベルが破棄されないように、情報の異なるソースを使用する深度訓練の柔軟性を増大させる。
幾つかの実現形態においては、訓練に基づいて、深度ネットワークは、テスト時の入力画像に基づいて深度推定を実行する。つまり、深度ネットワークが、3Dバウンディングボックス情報を、そして利用可能であればグラウンドトゥルース深度情報を使用して訓練されていたとしても、深度ネットワークは、テスト時の深度推定に対する入力画像を使用し得るのみである。
図2Aは、本開示の態様に係る、シーン202のターゲット画像200の例を示している。ターゲット画像200は単眼カメラにより撮像され得る。単眼カメラは、エージェント(例えば、車両)の正面方向の画像を撮像し得る。1つの構成においては、単眼カメラは車両と統合される。例えば、単眼カメラは、車両の屋根構造、フロントガラス、放熱用格子、または他の部分において画定され得る。車両は1台以上のカメラおよび/または他のタイプのセンサを有し得る。ターゲット画像200は、カレント画像と称されることもできる。ターゲット画像200は、シーンの2D表現を取り込んでいる。
図2Bは、本開示の態様に係る、シーン202の深度マップ220の例を示している。深度マップ220は、ターゲット画像200および1つ以上のソース画像から推定され得る。ソース画像は、ターゲット画像200と関連して、以前の時間ステップにおいて撮像された画像であってもよい。深度マップ220はシーンの深度を提供する。深度は、色または他の特徴として表現され得る。
図2Cは、本開示の態様に係る、シーン202の3D再構築画像240の例を示している。3D再構築画像は、ターゲット画像200の姿勢とソース画像と共に、深度マップ220から生成され得る。図2A及び図2Cにおいて示されているように、3D再構築画像240における画角は、ターゲット画像200におけるシーン202の画角とは異なっている。3D再構築画像240はシーン202の3D画像であるので、画角は所望されるように変更され得る。3D再構築画像240は、エージェントの1つ以上の行動を制御するために使用され得る。
図3は、本開示の態様に係る、深度ネットワーク300の例を示している。図3において示されているように、深度ネットワーク300はエンコーダ302とデコーダ304とを含んでいる。深度ネットワーク300は、入力画像320の図2Bの深度マップ220などのような画素毎の深度マップを生成する。
エンコーダ302は複数のエンコーダ層302a~dを含んでいる。エンコーダ層302a~dのそれぞれは、符号化プロセスの間に特徴をダウンサンプリングするためのパッキング層であってよい。デコーダ304は複数のデコーダ層304a~dを含んでいる。図3においては、デコーダ層304a~dのそれぞれは、復号化プロセスの間に特徴をアップサンプリングするためのアンパッキング層であってよい。つまり、デコーダ層304a~dのそれぞれは、受信した特徴マップをアンパックし得る
スキップ接続306は、エンコーダ層302a~dとデコーダ層304a~dとの間で活性化関数と勾配を送信する。スキップ接続は、より高い解像度詳細を解像することを容易にする。例えば、勾配は、スキップ接続306を介して層に直接逆伝播され得、それにより訓練を向上させ得る。加えて、スキップ接続306は、畳み込み層から逆畳み込み層に直接画像詳細(例えば、特徴)を送信し、それにより、より高い解像度での画像回復を向上させる。
デコーダ層304a~dは中間逆深度マップ310を生成し得る。各中間逆深度マップ310は、対応しているスキップ接続306及び対応しているデコーダ層304a~dによりアンパックされる特徴マップに連結される前に、アップサンプリングされ得る。また、逆深度マップ310は、損失が計算される深度ネットワークの出力として機能する。各逆深度マップ310を漸増的に超解像する従来のシステムとは対照的に、本開示の態様は、バイリニア補間を使用して各逆深度マップ310を最高解像度にアップサンプリングする。最高解像度にアップサンプリングすることは、コピーに基づくアーティファクトおよび測光の不明瞭さを削減し、そのため深度推定を向上させる。
図4は、本開示の態様に係る、自動作推定(ego-motion estimation)のための姿勢ネットワーク400の例を示している。従来の姿勢ネットワークとは対照的に、図4の姿勢ネットワーク400は、説明可能性マスクを使用しない。従来のシステムにおいては、説明可能性マスクは静的世界仮定に合わないオブジェクトは除去する。
図4において示されているように、姿勢ネットワーク400は、複数の畳み込み層402、最終畳み込み層404、およびマルチチャネル(例えば、6チャネル)平均プーリング層406を含んでいる。最終畳み込み層404は1×1層であってよい。マルチチャネル層406は6チャネル層であってよい。
1つの構成においては、ターゲット画像(I)408とソース画像(I)410が姿勢ネットワーク400に入力される。ターゲット画像408及びソース画像410は、連結されたターゲット画像408及びソース画像410が姿勢ネットワーク400に入力されるように共に連結され得る。訓練の間、1つ以上のソース画像410を異なる訓練エポックの間に使用できる。ソース画像410は、以前の時間ステップ(t-1)における画像と後続の時間ステップ(t+1)における画像を含み得る。出力は、ターゲット画像408とソース画像410との間の6自由度(DoF)変換の組である。プロセスは、2つ以上のソース画像410が考えられるときは各ソース画像410に対して繰り返され得る。
単眼深度推定ネットワークを訓練するために異なる訓練アプローチが使用され得る。訓練アプローチは、例えば、教師あり訓練、半教師あり訓練、および自己教師あり訓練を含み得る。教師あり訓練は、L1損失(例えば、絶対エラー)などのような損失を適用することによりグラウンドトゥルース深度情報を回帰するためにネットワークを訓練することを指す。自己教師あり訓練においては、深度情報及び姿勢情報は、再構築された画像(例えば、2D画像の3D表現)を生成するためにワープ(warp)される。測光損失は、オリジナル画像と再構築された画像との間の差を最小化する。半教師あり訓練は、自己教師あり訓練と教師あり訓練の組み合わせであってよい。
上述したように、幾つかの実現形態においては、或る画像におけるオブジェクトの第1セットに対応しているグラウンドトゥルース点は、その画像におけるオブジェクトの第2セットに対応しているグラウンドトゥルース点よりも重い重みを有している。オブジェクトのセットは、所望されるタスクに基づいて決定され得る。例えば、3Dオブジェクト検出に対しては、オブジェクトの第1セットは、動的オブジェクト、および/または、入力画像においてより低い出現率を有するオブジェクトであり得る。例として、オブジェクトの第1セットは、車両および/または歩行者を含み得る。加えて、オブジェクトの第2セットは、静的オブジェクト、および/または、入力画像においてより高い出現率を有するオブジェクトであり得る。例として、オブジェクトの第2セットは、建物、道路、および/または歩道を含み得る。ほとんどの場合、一連の画像は、人間および/または車両の出現と比較して、建物、道路、および/または歩道の出現をより多く含んでいる。
本開示の態様は、3Dバウンディングボックスで単眼深度推定訓練データを補強する。3Dバウンディングボックスは、訓練時に深度情報に追加して使用され得る。つまり、単眼深度ネットワークは、3Dバウンディングボックスとグラウンドトゥルース深度情報で訓練され得る。
1つの構成においては、3Dバウンディングボックス内の画素の重みは調整される。擬似点群は、3Dバウンディングボックス内の画素の関連性を増加することにより生成され得る。画素の重み(例えば、関連性)を増加することは深度測定基準(depth metric)を減少させる可能性がある。しかしそれでも、画素の重みを増加することは3Dオブジェクト検出を向上させる。
3Dオブジェクト検出は、割り当てられたタスク(例えば、3Dオブジェクト検出)に対して関連性があると思われる画像の部分に焦点を当てることにより向上され得る。つまり、深度ネットワークは3Dオブジェクト検出タスクに対して訓練され得る。特定タスク向け訓練は、特定のタスクに対して概念化、または訓練されていない、予め訓練された一般的な深度ネットワークを使用する従来のシステムとは対照的である。
本開示の態様は、教師あり訓練、自己教師あり訓練、および半教師あり訓練を向上させ得る。教師あり訓練に対しては、グラウンドトゥルース情報を含んでいる画像の画素に対して異なる重みが適用され得る。これらの画素は、アノテーションされた深度マップから識別され得る。例えば、深度マップはバウンディングボックスによりアノテーションされ得る。バウンディングボックス内の画素に対する重みは調整され得る。
幾つかの態様においては、自己教師あり訓練に対しては、3Dバウンディングボックスは入力画像に逆投影され、2D投影を生成する。異なる重みが2D再投影バウンディングボックス内の画素に適用され得る。図5は、本開示の態様に係る、深度推定ネットワーク504を訓練するための例としての訓練パイプライン500を示している。図5において示されているように、深度推定ネットワーク300は、図3において記述されているように、二次元入力画像502から深度推定506を生成し得る。訓練パイプライン500は、図3において記述されているような深度推定ネットワーク300を使用することに限定されず、他のタイプの深度推定ニューラルネットワークが実現されてもよい。
深度推定ネットワーク504は、再構築画像510(例えば、ワープされたソース画像)を生成するためにビュー合成モジュール508により使用され得る。幾つかの実現形態においては、カレント画像502及びソース画像504は、センサ(例えば、単眼カメラ)の姿勢を推定するために、図4において記述されているような姿勢ネットワークに入力される。カレント画像502は、時間ステップtにおける画像であってよく、ソース画像502は時間ステップt-1における画像であってよい。ビュー合成モジュール508は、推定された深度と推定された姿勢に基づいて再構築画像510を生成し得る。また、ビュー合成モジュール508は、シーン再構築ネットワークとも称され得る。ビュー合成モジュール508は、ターゲット画像502と再構築画像510との間の差に基づいて訓練され得る。ネットワークは、測光損失520などのような損失を最小化するように訓練できる。
測光損失520は、ターゲット画像502と再構築画像510(例えば、ターゲット画像を近似するワープされたソース画像)との間の差に基づいて計算される。測光損失520は、深度ネットワーク300、ビュー合成モジュール508、姿勢ネットワーク400、および/または画素の重みを更新するために使用され得る。
測光損失520(L)は以下のように決定できる。

ここで、SSIM()は、ターゲット画像502と再構築画像510との間の構造類似性(SSIM)を推定するための関数である。SSIMは以下のように決定され得る。
SSIM(x,y)=[l(x,y)]α・[c(x,y)]β・[s(x、y)]γ, (2)
ここで、s()は構造類似性を決定し、c()はコントラスト類似性を決定し、そしてl()は輝度類似性を決定する。α、β、およびγは、各構成要素の相対的重要性を調整するためのパラメータであり、各パラメータはゼロよりも大きい。
テスト段階の間、訓練パイプライン500は、上述したような再構築画像510を生成し得る。測光損失520はテスト段階の間は計算されなくてもよい。再構築画像510は、位置特定および/または他の車両ナビゲーションタスクに対して使用され得る。
例えば、ビュー合成モジュール508は、推定された深度506とセンサの姿勢に基づいて、カレント画像502における各点(例えば、画素)を、ソース画像504の位置に投影し得る。点をソース画像504に投影した後に、点をワープされたソース画像510にワープするためにバイリニア補間が使用され得る。つまり、バイリニア補間は、ソース画像504に基づいて、ワープされたソース画像510における点の値(例えば、RGB値)を取得する。
つまり、ワープされたソース画像510における点の位置(例えば、x、y座標)は、ターゲット画像502における点の位置に対応し得る。しかしそれでも、ワープされたソース画像510における点の色は、ソース画像504における隣接する画素の色に基づき得る。ワープされたソース画像510は、2Dターゲット画像の3D再構築画像であってよい。
幾つかの実現形態においては、3Dオブジェクト検出ネットワーク518は、ワープされたソース画像510におけるオブジェクト514の位置を推定し得る。オブジェクト514の位置は、3Dバウンディングボックス512でアノテーションされ得る。例示の目的のために、図5における3Dバウンディングボックス512は2Dバウンディングボックスとして示されている。1つの構成においては、3Dバウンディングボックス512は、カレント画像502に逆投影される。2Dバウンディングボックス516は、投影された3Dバウンディングボックス512から生成され得る。異なる重みが、2Dバウンディングボックス内の画素に適用され得る。重みは、例えば、2Dバウンディングボックス内の画素がより軽い重みの画素と比較して深度推定により多く貢献するように、増大され得る。1つの実現形態においては、増大された重みを有する画素は、減少された重みを有する画素と比較して、訓練の間、損失を最小化することにより多く貢献する。
教師あり訓練と自己教師あり訓練に対して検討されているプロセスは、半教師あり訓練に対して実行される。幾つかの実現形態においては、追加的な重みが、教師あり訓練プロセスと自己教師あり訓練プロセスとの間のバランスを取る。或る実現形態においては、複数のパス(工程)が訓練フェーズの間に実行され得、各パスは、異なるパラメータ値(例えば、重み)で実行され得る。性能(例えば、精度)は各パスの後に測定される。重みは、損失の大きさに基づいて順序付けることができ、それに従って調整(例えば、向上)され得る。
ピクセル化は、教師あり損失により引き起こされ得る。自己教師あり損失はピクセル化を軽減する。スケールにおける低精度は、自己教師あり損失により引き起こされ得る。教師あり損失はスケールにおける低精度を軽減する。追加的な重みは、教師あり損失により引き起こされ得る深度マップのピクセル化を低減し得る。追加的な重みはまた、教師あり深度エラー損失により引き起こされ得る深度マップのスケールにおける低精度を低減し得る。
1つの構成においては、画素重み調整を決定するときは、ネットワークは、有効画素の数(NVP)の総計を決定する。有効画素は、対応しているグラウンドトゥルース深度情報を有する画素、または、測光損失を使用するときの有効な再投影値を有する画素を指す。例えば、教師あり訓練に対しては、ニューラルネットワークは、グラウンドトゥルース深度画像における深度情報を有している、画像における画素を識別する。
加えて、ネットワークはバウンディングボックスを有する有効画素の数(NBP)を決定する。バウンディングボックスを有する有効画素に対する重みは、次の画素比((NVP-NBP)/NBP)に基づいて決定される。例えば、画像が100,000個の有効画素を含み、2000個がバウンディングボックス内の場合、バウンディングボックスにおける画素に対する重みは49(例えば、(100000-2000)/2000)となる。この例においては、バウンディングボックスの外側の重みは1に正規化される。対照的に、バウンディングボックスの内部の重みは上記の比(49)(例えば、(NVP-NBP)/NBP)として決定される。この画素比は画像によって異なる。
しかしそれでも、画素比は、シーンの構造及び幾何学的位置関係が保たれるように、バウンディングボックスに属していない領域における学習を可能にする。バウンディングボックスが特別な画像においてアノテーションされていない場合、重みはゼロであって如何なる画素にも適用されない。そのため、本開示の態様は、アノテーションされている3Dバウンディングボックスのある画像とそれがない画像とから深度ネットワークを訓練し、それにより、訓練データの頑強性を向上させ得る。
上述したように、グラウンドトゥルース点は3Dバウンディングボックス情報から取得され得る。ニューラルネットワーク(例えば、深度推定ニューラルネットワーク)によるオブジェクトの第1セットの検出は、重みの調整により向上され得る。向上された検出は、オブジェクトの第2セットの検出を犠牲にして得られ得る。つまり、オブジェクトの第2セットに対する検出精度を低下させることは、オブジェクトの第1セットに対する検出精度を向上させる。1つの態様においては、3Dオブジェクト検出のダウンストリームタスクのためのモデルは向上される。
図6は、本開示の態様に係る、深度推定システム600に対するハードウェア実現形態の例を示している図である。深度推定システム600は、車両、ロボット装置、または他の装置の構成要素であってよい。例えば、図6において示されているように、深度推定システム600は車両628の構成要素である。本開示の態様は、バス、ボート、ドローン、またはロボットなどのような他のタイプのエージェントにも深度推定システム600が使用されることが考えられるので、深度推定システム600が車両628の構成要素であることに制限されない。
車両628は、自律操作モード、半自律操作モード、および手動操作モードの1つ以上において操作され得る。更に、車両628は、電気車両、ハイブリッド車両、燃料車両、または、他のタイプの車両であってよい。
深度推定システム600は、全体としてバス660で表されているバスアーキテクチャで実現され得る。バス660は、深度推定システム600の特定の適用と、全体の設計制約に依存して、任意の数の相互接続バスとブリッジを含み得る。バス660は、プロセッサ620、通信モジュール622、位置モジュール618、センサモジュール602、移動モジュール626、ナビゲーションモジュール624、およびコンピュータ読み取り可能媒体614により表されている1つ以上のプロセッサおよび/またはハードウェアモジュールを含む種々の回路を一緒にリンクする。バス660はまた、タイミングソース、周辺機器、電圧レギュレータ、および電力管理回路などのような種々の他の回路をリンクし得るが、それらの回路はこの技術においてはよく知られているのでこれ以上は記述しない。
深度推定システム600は、プロセッサ620、センサモジュール602、深度推定モジュール608、通信モジュール622、位置モジュール618、移動モジュール626、ナビゲーションモジュール624、およびコンピュータ読み取り可能媒体614に結合されているトランシーバ616を含んでいる。トランシーバ616はアンテナ644に結合されている。トランシーバ616は、インフラストラクチャネットワーク、V2Vネットワーク、V2Iネットワーク、V2Xネットワーク、V2Pネットワーク、または他のタイプのネットワークなどのような、1つ以上の通信ネットワーク上で種々の他の装置と通信する。
深度推定システム600は、コンピュータ読み取り可能媒体614に結合されているプロセッサ620を含んでいる。プロセッサ620は、開示に係る機能を提供するコンピュータ読み取り可能媒体614に格納されているソフトウェアの実行を含む処理を実行する。ソフトウェアはプロセッサ620により実行されると深度推定システム600に、車両628などの特別な装置、または、モジュール602、608、614、616、618、620、622、624、626の何れかに対して記述されている種々の機能を実行させる。コンピュータ読み取り可能媒体614はまた、ソフトウェアを実行するときにプロセッサ620により操作されるデータを格納するために使用され得る。
センサモジュール602は、第1センサ606および第2センサ604などのような異なるセンサを介して、測定値を取得するために使用され得る。第1センサ606は、2D画像を撮像するための立体カメラまたは赤/緑/青(RGB)カメラなどのようなビジョンセンサであってよい。第2センサ604は、光検出および測距(LIDAR)センサまたは無線検出および測距(RADAR)センサなどのような測距センサであってよい。もちろん、例えば、熱、ソナー、および/またはレーザなどのような他のタイプのセンサもセンサ606、604の何れに対しても考えられるので、本開示の態様は上記のセンサに制限されない。
第1センサ606と第2センサ604の測定値は、プロセッサ620、センサモジュール602、深度推定モジュール608、通信モジュール622、位置モジュール618、移動モジュール626、ナビゲーションモジュール624の1つ以上により、コンピュータ読み取り可能媒体614と連携して、ここにおいて記述されている機能を実現するために処理され得る。1つの構成においては、第1センサ606及び第2センサ604により取り込まれたデータは、トランシーバ616を介して外部装置に送信され得る。第1センサ606と第2センサ604は車両628に結合されるか、または、車両628と通信され得る。
位置モジュール618は、車両628の位置を決定するために使用され得る。例えば、位置モジュール618は、車両628の位置を決定するために全地球測位システム(GPS)を使用し得る。通信モジュール622は、トランシーバ616を介しての通信を容易にするために使用され得る。例えば、通信モジュール622は、WiFi、ロングタームエボルーション(LTE)、6Gなどのような異なる無線プロトコルを介する通信機能を提供するように構成され得る。通信モジュール622はまた、深度推定システム600のモジュールではない車両628の他の構成要素と通信するために使用され得る。
移動モジュール626は、車両628の移動を容易にするために使用され得る。例として、移動モジュール626は車輪の動きを制御し得る。他の例として、移動モジュール626は、モータおよび/またはバッテリなどのような、車両628の1つ以上の電源と通信し得る。もちろん、本開示の態様は車輪を介する移動を提供することに制限されず、プロペラ、トレッド、フィン、および/またはジェットエンジンなどのような、移動を提供するための他のタイプの構成要素に対して考えられる。
深度推定システム600はまた、移動モジュール626を介して、車両628の経路を計画するための、または車両628の移動を制御するためのナビゲーションモジュール624を含んでいる。1つの構成においては、ナビゲーションモジュール624は、深度推定モジュール608が危険なエージェントを識別すると、防御的な運転モードを作動させる。ナビゲーションモジュール624は、ユーザ入力が衝突を引き起こすと予期される(例えば、予測される)ときはユーザ入力を覆し得る。モジュールは、プロセッサ620において作動するソフトウェアモジュール、コンピュータ読み取り可能媒体614に常駐している/格納されているソフトウェアモジュール、プロセッサ620に結合されている1つ以上のハードウェアモジュール、またはそれらの何等かの組み合わせであってよい。
深度推定モジュール608は、センサモジュール602、トランシーバ616、プロセッサ620、通信モジュール622、位置モジュール618、移動モジュール626、ナビゲーションモジュール624、およびコンピュータ読み取り可能媒体614と通信し得る。1つの構成においては、深度推定モジュール608は、センサモジュール602からセンサデータを受信する。センサモジュール602は、第1センサ606及び第2センサ604からセンサデータを受信し得る。本開示の態様によれば、センサモジュール602は、ノイズを除去するためにデータにフィルタをかけること、データをエンコードすること、データをデコードすること、データを融合すること、フレームを抽出すること、または他の機能を実行し得る。代替の構成においては、深度推定モジュール608は、第1センサ606と第2センサ604から直接センサデータを受信し得る。
1つの構成においては、深度推定モジュール608は、センサモジュール602、トランシーバ616、プロセッサ620、通信モジュール622、位置モジュール618、移動モジュール626、ナビゲーションモジュール624、第1センサ606、第2センサ604、およびコンピュータ読み取り可能媒体614の1つ以上と通信し得、および/または、それらと連携して作動し得る。深度推定モジュール608は、自車両に隣接する環境の二次元(2D)画像を受信するように構成できる。環境は、動的オブジェクトと静的オブジェクトを含んでいる。2D画像は、第1センサ606または第2センサ604により撮像し得る。
深度推定モジュール608は、2D画像に基づいて環境の深度マップを生成するように構成され得る。1つの実現形態においては、深度マップにおける動的オブジェクトに対する深度推定の精度は、深度マップにおける静的オブジェクトに対する深度推定の精度よりも高い。深度推定モジュール608は、深度マップに基づいて環境の三次元(3D)推定を生成するために、図5に対して記述したビュー合成モジュール508などのようなビュー合成モジュール(図6においては示されていない)と連携して作動し得る。加えて、深度推定モジュール608は、図5に対して記述した3Dオブジェクト検出ネットワーク518などのような3Dオブジェクト検出ネットワーク(図6においては示されていない)と連携して作動して、3D推定における動的オブジェクトの位置を識別し得る。最後に、少なくとも位置モジュール618、移動モジュール626、ナビゲーションモジュール624と連携して作動して、深度推定モジュール608は、識別された位置に基づいて自車両の行動を制御できる。
深度推定モジュール608は、図3を参照して記述した深度ネットワーク300などのような深度ネットワーク、図4を参照して記述した姿勢ネットワーク400などのような姿勢ネットワーク、ビュー合成モジュール、および/または3Dオブジェクト検出ネットワークを実現し得る。
図7は、本開示の態様に従う、深度推定に基づいてオブジェクトを識別し、車両を制御するためのプロセス700に対するフロー図を例示している。プロセス700は、図1を参照して記述した車両100などのような車両、図3を参照して記述した深度ネットワーク300などのような深度ネットワーク、図6を参照して記述したような深度推定モジュール608、図4に対して記述したような姿勢ネットワーク400、および/または、図5を参照して記述したような訓練パイプライン500の1つ以上により実行され得る。
図7において示されているように、プロセス700は、自車両に隣接する環境の二次元(2D)画像を撮像することを含んでいる。2D画像は、図2を参照して記述したようなシーン202のターゲット画像200であってよい。環境は、動的オブジェクト及び静的オブジェクトを含み得る(ブロック702)。環境は、車両、歩行者、および/または自転車に乗っている人などのような1つ以上の動的オブジェクトを含み得る。環境はまた、道路、歩道、および/または建物などのような1つ以上の静的オブジェクトを含み得る。2D画像は、自車両に統合されている単眼カメラを介して撮像され得る。
プロセス700はまた、深度推定ネットワークを介して、2D画像に基づいて環境の深度マップを生成することを含み得る(ブロック704)。深度マップは、図2を参照して記述したようなシーン202の深度マップ220であってよい。1つの実現形態においては、深度マップにおける動的オブジェクトに対する深度推定の精度は、深度マップにおける静的オブジェクトに対する深度推定の精度よりも高い。精度は、例えば、図5を参照して記述したように、訓練に基づいて高め得る。
例えば、訓練の間に、2D画像におけるオブジェクトの位置に対応している各画素の重みが調整され得る。深度推定ネットワーク(例えば、深度ネットワーク)は、グラウンドトゥルース情報と調整された重みとに基づいて訓練され得る。加えて、訓練の間に、アノテーションされたグラウンドトゥルース情報に基づいて、動的オブジェクトの位置が識別され得る。例えば、3D推定におけるオブジェクトの位置を識別する3Dバウンディングボックスに基づいて位置が識別され得る。訓練の間に、3Dバウンディングボックスは、2D画像におけるオブジェクトの位置を識別するために2Dバウンディングボックスに変換され得る。
加えて、この例においては、重みは、深度情報を備えている画素の第1の数と、2D画像におけるオブジェクトの位置に対応している画素の数とに基づいて調整され得る。代替的に、重みは、測光損失および教師あり深度エラー損失に基づいて調整され得る。測光損失は、図5を参照して記述したような測光損失520であってよい。
プロセス700はまた、深度マップに基づいて環境の3D推定を生成することを含み得る(ブロック706)。3D推定は、図5を参照して記述した再構築画像510、または、図2を参照して記述したようなシーン202の3D再構築240などのような再構築画像であり得る(例えば、ワープされたソース画像)。プロセス700はまた、3D推定における動的オブジェクトの位置を識別することを含んでいる(ブロック708)。最後に、プロセス700は、識別された位置に基づいて自車両の行動を制御することを含んでいる。
教示に基づいて、この技術における当業者は、本開示の範囲は、本開示の如何なる他の態様と独立して実現されるか、または、本開示の如何なる他の態様と組み合わせて実現されるかに関係なく、本開示の如何なる態様も含むことが意図されているということは認識すべきである。例えば、装置は、記述されている態様の如何なる数を使用しても実現でき、または方法は、記述されている如何なる態様の如何なる数を使用しても実践され得る。加えて、本開示の範囲は、他の構造、機能を使用するそのような装置、または、他の構造、機能を使用して実践されるそのような方法、または、記述されている本開示の種々の態様に加えて、またはそれ以外の構造と機能を使用するそのような装置または、それらを使用して実践されるそのような方法を含むことが意図されている。本開示の如何なる態様も、請求項の1つ以上の要素により具現化され得るということは理解されるべきである。
「例としての」という語句は本明細書おいては、「例、実例、または例示として機能している」ことを意味するために使用されている。「例としての」として本明細書において記述されている如何なる態様も、必ずしも他の態様より好適、または利点があると解釈されるべきとは限らない。
特別な態様が本明細書において記述されているが、これらの態様の多数の変形されたもの、または置換されたものは本開示の範囲内である。好適な態様の幾つかの恩典と利点に言及したが、本開示の範囲は、特別な恩典、使用、または目的に制限されないことが意図されている。そうではなく、本開示の態様は、幾つかが、例として図面、および好適な態様の下記の記述において示されている、異なる技術、システム構成、ネットワーク、およびプロトコルに広く適用可能であることが意図されている。詳細な記述と図面は制限的ではなく、本開示の単なる例にすぎず、本開示の範囲は、付随する特許請求の範囲とその等価物で定義されている。
本明細書において使用されているように、「決定する」という用語は広く多様な行動を含んでいる。例えば、「決定する」とは、計算する、演算する、処理する、導出する、調査する、調べる(例えば、表、データベース、または他のデータ構造を調べる)、確認するなどを含み得る。加えて、「決定する」とは、受信する(例えば、情報を受信する)、評価する(例えば、メモリにおけるデータを評価する)などを含み得る。更に、「決定する」とは、解決する、選択する、選ぶ、確立するなどを含み得る。
本明細書において使用されているように、項目のリスト「の少なくとも1つ」というフレーズは、個々の項目を含めて、それらの項目の任意の組み合わせのことを指している。例として、「a、b、またはcの少なくとも1つ」は「a、b、c、aとb、aとc、bとc、およびaとbとc」を含むことが意図されている。
本開示と関連して記述されている種々の例としての論理ブロック、モジュール、および回路は、本開示において検討されている機能を実行するように特別に構成されているプロセッサで実現または実行され得る。プロセッサは、ニューラルネットワークプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のプログラマブル論理装置(PDL)、分離ゲートまたはトランジスタロジック、分離ハードウェア構成要素または、本明細書において記述されている機能を実行するように設計されているそれらの任意の組み合わせであってよい。代替的に、処理システムは、ニューロンモデルおよび、本明細書において記述されているニューラルシステムのモデルを実現するための1つ以上のニューロモルフィックプロセッサを備え得る。プロセッサは、マイクロプロセッサ、コントローラ、マイクロコントローラ、または、本明細書において記述されているように特別に構成されているステートマシンであってよい。プロセッサは、演算装置の組み合わせ、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと連携しての1つ以上のマイクロプロセッサ、または、本明細書において記述されているようなそのような他の特別な構成として実現され得る。
本開示と関連して記述されている方法またはアルゴリズムのステップは、ハードウェアにおいて直接、プロセッサにより実行されるソフトウェアモジュールにおいて、またはその2つの組み合わせにおいて具現化し得る。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、フラッシュメモリ、消去可能型プログラマブルリードオンリメモリ(EPROM)、電気的消去可能型プログラマブルリードオンリメモリ(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、CD-ROM、または他の光ディスク格納装置、磁気ディスク格納装置、または他の磁気格納装置、または、命令またはデータ構造の形状における所望されるプログラムコードを実行または格納するために使用されることができ且つコンピュータによりアクセスされることができる任意の他の媒体、を含む格納装置または機械読み取り可能媒体に常駐し得る。ソフトウェアモジュールは、単一の命令または多数の命令を備え得、且つ、異なるプログラムの中の幾つかの異なるコードセグメント上で複数の格納媒体にわたって分散され得る。格納媒体は、プロセッサが格納媒体から情報を読み込むこと及び格納媒体に情報を書き込むことができるようにプロセッサに結合され得る。代替においては、格納媒体はプロセッサに統合され得る。
本明細書において開示されている方法は、記述されている方法を達成するための1つ以上のステップまたは動作を備えている。方法のステップおよび/または動作は、請求事項の範囲から逸脱することなく互いに入れ替えられ得る。言い換えると、ステップまたは動作の特定の順序が指定されない限り、特定のステップおよび/または動作の順序および/または使用は、請求事項の範囲から逸脱することなく修正され得る。
記述されている機能は、ハードウェア、ソフトウェア、ファームウェア、または、それらの任意の組み合わせにおいて実現され得る。ハードウェアにおいて実現される場合、例としてのハードウェア構成は、装置における処理システムを備え得る。処理システムは、バスアーキテクチャで実現され得る。バスは、処理システムの特定の適用および全体の設計制約に依存して、任意の数の相互接続バスおよびブリッジを含み得る。バスは、プロセッサ、機械読み取り可能媒体、およびバスインタフェースを含む種々の回路を一緒にリンクされ得る。バスインタフェースは、バスを介してネットワークアダプタを、特には、処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能を実現するために使用され得る。或る態様に対しては、ユーザインタフェース(例えば、キーパッド、ディスプレイ、マウス、ジョイスティックなど)もまたバスに接続され得る。バスはまた、タイミングソース、周辺機器、電圧レギュレータ、電力管理回路などのような種々の他の回路を一緒にリンクされ得るが、それらはこの技術においてはよく知られているのでこれ以上は記述しない。
プロセッサは、バスと、機械読み取り可能媒体に格納されているソフトウェアの実行を含む処理を管理を担当し得る。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはその他と言及されるかに関係なく、命令、データ、またはそれらの任意の組み合わせを意味すると解釈されるべきである。
ハードウェアの実現においては、機械読み取り可能媒体は、プロセッサとは別個の処理システムの一部であってよい。しかし、この技術における当業者は容易に認識するように、機械読み取り可能媒体、またはその任意の部分は、処理システムの外部であってよい。例として、機械読み取り可能媒体は、送信線、データにより変調された搬送波、および/または、装置とは別個のコンピュータ製品を含むことができ、それらはすべてバスインタフェースを通してプロセッサによりアクセス可能である。代替的に、または追加的に、機械読み取り可能媒体、またはその任意の一部は、キャッシュおよび/または特殊化されたレジスタファイルの場合のようにプロセッサに統合され得る。検討されている種々の構成要素は、局所構成要素などのように特定の位置を有しているように記述され得るが、それらはまた、ある構成要素が分散された演算システムの一部として構成されているように、種々の方法で構成され得る。
機械読み取り可能媒体は多数のソフトウェアモジュールを備え得る。ソフトウェアモジュールは、送信モジュールおよび受信モジュールを含み得る。各ソフトウェアモジュールは、単一の格納装置に常駐でき、または、複数の格納装置にわたって分散され得る。例として、ソフトウェアモジュールは、誘発事象が起こると、ハードドライブからRAMにロードされ得る。ソフトウェアモジュールの実行の間、プロセッサはアクセス速度を上げるために命令の幾つかをキャッシュにロードし得る。そして1つ以上のキャッシュラインは、プロセッサによる実行のために特殊目的レジスタファイルにロードされ得る。下記のソフトウェアモジュールの機能に言及するときに、そのような機能は、そのソフトウェアモジュールからの命令を実行するときにプロセッサにより実現されるということを理解するであろう。更に、本開示の態様は、プロセッサ、コンピュータ、マシン、またはそのような態様を実現する他のシステムの機能の向上という結果になるということは認識されるべきである。
ソフトウェアにおいて実現される場合、機能は格納され得、または、コンピュータ読み取り可能媒体上の1つ以上の命令またはコードとして送信され得る。コンピュータ読み取り可能媒体は、1つの場所から他の場所へのコンピュータプログラムの転送を容易にする任意の格納媒体を含む、コンピュータ格納媒体と通信媒体の両者を含んでいる。
更に、ここにおいて記述されている方法と技術を実行するためのモジュールおよび/または他の適切な手段は、ユーザ端末および/または、適用可能であれば基地局によりダウンロードおよび/または取得され得るということは認識されるべきである。例えば、そのような装置は、ここにおいて記述されている方法を実行するための手段の転送を容易にするためにサーバに結合され得る。代替的に、ここにおいて記述されている種々の方法は、格納手段を装置に結合または提供すると、ユーザ端末および/または基地局が種々の方法を取得できるように格納手段を介して提供され得る。更に、ここにおいて記述されている方法と技術を装置に提供するための任意の他の適切な技術が利用され得る。
特許請求の範囲は、上記に例示された正確な構成と構成要素に制限されないということは理解されるべきである。種々の修正、変更、および変形が、請求事項の範囲から逸脱することなく、上述した方法と装置の配置、動作、および詳細において実行され得る。

Claims (20)

  1. 方法であって、
    自車両に隣接している環境であって少なくとも動的オブジェクトと静的オブジェクトを備えている環境の二次元(2D)画像を撮像することと、
    深度推定ネットワークを介して、前記2D画像に基づいて前記環境の深度マップを生成することであって、前記深度マップにおける前記動的オブジェクトに対する深度推定の精度は前記深度マップにおける前記静的オブジェクトに対する深度推定の精度よりも高い、ことと、
    前記深度マップに基づいて前記環境の三次元(3D)推定を生成することと、
    前記3D推定における前記動的オブジェクトの位置を識別することと、
    前記識別された位置に基づいて前記自車両の行動を制御することと、を含む方法。
  2. 前記動的オブジェクトは、歩行者、近くの車両、またはサイクリストを含み、
    前記静的オブジェクトは、道路、歩道、または建物を含む、請求項1の方法。
  3. 前記2D画像における前記オブジェクトの前記位置に対応している各画素の重みを調整し、且つ
    グラウンドトゥルース情報及び前記調整された重みに基づいて前記深度推定ネットワークを訓練する
    ことにより、前記自車両のニューラルネットワークを訓練することを更に含む、請求項1の方法。
  4. 訓練の間に、アノテーションされたグラウンドトゥルース情報に基づいて前記位置を識別することを更に含む、請求項3の方法。
  5. 3D推定における前記オブジェクトの位置を識別する3Dバウンディングボックスに基づいて前記位置を識別することと、
    前記2D画像における前記オブジェクトの前記位置を識別するために、前記3Dバウンディングボックスを2Dバウンディングボックスに変換することを更に含む、請求項3の方法。
  6. 深度情報を備えている画素の第1の数と、前記2D画像における前記オブジェクトの前記位置に対応している画素の数とに基づいて前記重みを調整すること、または、
    測光損失及び教師あり深度エラー損失に基づいて前記重みを調整すること、を更に含む、請求項3の方法。
  7. 前記自車両に統合された単眼カメラを介して前記2D画像を撮像することを更に含む、請求項1の方法。
  8. プロセッサと、
    前記プロセッサに結合されているメモリと、
    前記メモリに格納されている命令と、を備えている装置であって、
    前記命令は、前記プロセッサにより実行されると、前記装置に、
    自車両に隣接している環境であって少なくとも動的オブジェクトと静的オブジェクトを備えている環境の二次元(2D)画像を撮像させ、
    深度推定ネットワークを介して、前記2D画像に基づいて前記環境の深度マップを生成させ、
    前記深度マップに基づいて前記環境の三次元(3D)推定を生成させ、
    前記3D推定における前記動的オブジェクトの位置を識別させ、
    前記識別された位置に基づいて前記自車両の行動を制御させるように動作でき、
    前記深度マップにおける前記動的オブジェクトに対する深度推定の精度は前記深度マップにおける前記静的オブジェクトに対する深度推定の精度よりも高い、装置。
  9. 前記動的オブジェクトは、歩行者、近くの車両、またはサイクリストを含み、
    前記静的オブジェクトは、道路、歩道、または建物を含む、請求項8の装置。
  10. 前記命令は、前記装置に更に、
    前記2D画像における前記オブジェクトの前記位置に対応している各画素の重みを調整し、且つ
    グラウンドトゥルース情報と前記調整された重みに基づいて前記深度推定ネットワークを訓練する
    ことにより、前記自車両の前記深度推定ネットワークを訓練させる、請求項8の装置。
  11. 前記命令は、前記装置に更に、訓練の間に、アノテーションされたグラウンドトゥルース情報に基づいて前記位置を識別することにより、前記自車両の前記深度推定ネットワークを訓練させる、請求項10の装置。
  12. 前記命令は、前記装置に更に、
    3D推定における前記オブジェクトの位置を識別する3Dバウンディングボックスに基づいて前記位置を識別し、且つ
    前記2D画像における前記オブジェクトの前記位置を識別するために、前記3Dバウンディングボックスを2Dバウンディングボックスに変換する
    ことにより、前記自車両の前記深度推定ネットワークを訓練させる、請求項10の装置。
  13. 前記命令は、前記装置に更に、
    深度情報を備えている画素の第1の数と、前記2D画像における前記オブジェクトの前記位置に対応している画素の数とに基づいて前記重みを調整し、または、
    測光損失と教師あり深度エラー損失に基づいて前記重みを調整する
    ことにより、前記自車両の前記深度推定ネットワークを訓練させる、請求項10の装置。
  14. 前記命令は、前記装置に更に、前記自車両に統合された単眼カメラを介して前記2D画像を撮像させる、請求項8の装置。
  15. プログラムコードが記録されている非一時的コンピュータ読み取り可能媒体であって、前記プログラムコードはプロセッサにより実行され、
    自車両に隣接している環境であって少なくとも動的オブジェクトと静的オブジェクトを備えている環境の二次元(2D)画像を撮像するためのプログラムコードと、
    深度推定ネットワークを介して、前記2D画像に基づいて前記環境の深度マップを生成するためのプログラムコードであって、前記深度マップにおける前記動的オブジェクトに対する深度推定の精度は前記深度マップにおける前記静的オブジェクトに対する深度推定の精度よりも高い、プログラムコードと、
    前記深度マップに基づいて前記環境の三次元(3D)推定を生成するためのプログラムコードと、
    前記3D推定における前記動的オブジェクトの位置を識別するためのプログラムコードと、
    前記識別された位置に基づいて前記自車両の行動を制御するためのプログラムコードと、を備えている、非一時的コンピュータ読み取り可能媒体。
  16. 前記動的オブジェクトは、歩行者、近くの車両、またはサイクリストを含み、
    前記静的オブジェクトは、道路、歩道、または建物を含む、請求項15の非一時的コンピュータ読み取り可能媒体。
  17. 前記プログラムコードは、
    前記2D画像における前記オブジェクトの前記位置に対応している各画素の重みを調整し、且つ
    グラウンドトゥルース情報及び前記調整された重みに基づいて前記深度推定ネットワークを訓練する
    ことにより、前記自車両の前記深度推定ネットワークを訓練するためのプログラムコードを更に備えている、請求項15の非一時的コンピュータ読み取り可能媒体。
  18. 前記プログラムコードは、訓練の間に、アノテーションされたグラウンドトゥルース情報に基づいて前記位置を識別することにより、前記自車両の前記深度推定ネットワークを訓練するためのプログラムコードを更に備えている、請求項17の非一時的コンピュータ読み取り可能媒体。
  19. 前記プログラムコードは、
    3D推定における前記オブジェクトの位置を識別する3Dバウンディングボックスに基づいて前記位置を識別し、且つ
    前記2D画像における前記オブジェクトの前記位置を識別するために、前記3Dバウンディングボックスを2Dバウンディングボックスに変換する
    ことにより、前記自車両の前記深度推定ネットワークを訓練するためのプログラムコードを更に備えている、請求項17の非一時的コンピュータ読み取り可能媒体。
  20. 前記プログラムコードは、
    深度情報を備えている画素の第1の数と、前記2D画像における前記オブジェクトの前記位置に対応している画素の数とに基づいて前記重みを調整し、または、
    測光損失と教師あり深度エラー損失に基づいて前記重みを調整する
    ことにより、前記自車両の前記深度推定ネットワークを訓練するためのプログラムコードを更に備えている、請求項17の非一時的コンピュータ読み取り可能媒体。
JP2022579020A 2020-06-23 2021-06-23 3dバウンディングボックスからの単眼深度管理 Pending JP2023530762A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/909,907 US11398095B2 (en) 2020-06-23 2020-06-23 Monocular depth supervision from 3D bounding boxes
US16/909,907 2020-06-23
PCT/IB2021/055561 WO2021260589A1 (en) 2020-06-23 2021-06-23 Monocular depth supervision from 3d bounding boxes

Publications (1)

Publication Number Publication Date
JP2023530762A true JP2023530762A (ja) 2023-07-19

Family

ID=76921049

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022579020A Pending JP2023530762A (ja) 2020-06-23 2021-06-23 3dバウンディングボックスからの単眼深度管理

Country Status (4)

Country Link
US (2) US11398095B2 (ja)
JP (1) JP2023530762A (ja)
CN (1) CN115867940A (ja)
WO (1) WO2021260589A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10861359B2 (en) * 2017-05-16 2020-12-08 Texas Instruments Incorporated Surround-view with seamless transition to 3D view system and method
US11755917B2 (en) * 2019-11-15 2023-09-12 Waymo Llc Generating depth from camera images and known depth data using neural networks
US11600017B2 (en) * 2020-04-29 2023-03-07 Naver Corporation Adversarial scene adaptation for camera pose regression
US11398095B2 (en) 2020-06-23 2022-07-26 Toyota Research Institute, Inc. Monocular depth supervision from 3D bounding boxes
US11987236B2 (en) * 2020-08-31 2024-05-21 Nec Corporation Monocular 3D object localization from temporal aggregation
CN114842287B (zh) * 2022-03-25 2022-12-06 中国科学院自动化研究所 深度引导变形器的单目三维目标检测模型训练方法及装置
CN116189150B (zh) * 2023-03-02 2024-05-17 吉咖智能机器人有限公司 基于融合输出的单目3d目标检测方法、装置、设备和介质
CN116721143B (zh) * 2023-08-04 2023-10-20 南京诺源医疗器械有限公司 3d医学图像的深度信息处理装置及方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9098754B1 (en) * 2014-04-25 2015-08-04 Google Inc. Methods and systems for object detection using laser point clouds
US10372968B2 (en) 2016-01-22 2019-08-06 Qualcomm Incorporated Object-focused active three-dimensional reconstruction
US10699421B1 (en) * 2017-03-29 2020-06-30 Amazon Technologies, Inc. Tracking objects in three-dimensional space using calibrated visual cameras and depth cameras
CN111133447B (zh) 2018-02-18 2024-03-19 辉达公司 适于自主驾驶的对象检测和检测置信度的方法和系统
DE112018007287T5 (de) * 2018-03-15 2020-12-10 Harman International Industries, Incorporated Fahrzeugsystem und -verfahren zum erfassen von objekten und einer objektentfernung
US10782691B2 (en) * 2018-08-10 2020-09-22 Buffalo Automation Group Inc. Deep learning and intelligent sensing system integration
US11880770B2 (en) * 2018-08-31 2024-01-23 Intel Corporation 3D object recognition using 3D convolutional neural network with depth based multi-scale filters
US11555903B1 (en) * 2018-11-30 2023-01-17 Zoox, Inc. Sensor calibration using dense depth maps
US10916035B1 (en) * 2018-11-30 2021-02-09 Zoox, Inc. Camera calibration using dense depth maps
US10937169B2 (en) * 2018-12-18 2021-03-02 Qualcomm Incorporated Motion-assisted image segmentation and object detection
CN109737983B (zh) * 2019-01-25 2022-02-22 北京百度网讯科技有限公司 用于生成行驶路径的方法和装置
US11567497B1 (en) * 2019-02-04 2023-01-31 Direct Current Capital LLC Systems and methods for perceiving a field around a device
US11648945B2 (en) * 2019-03-11 2023-05-16 Nvidia Corporation Intersection detection and classification in autonomous machine applications
WO2021030414A1 (en) * 2019-08-12 2021-02-18 Nvidia Corporation Automatic high beam control for autonomous machine applications
CN110910447B (zh) 2019-10-31 2023-06-06 北京工业大学 一种基于动静态场景分离的视觉里程计方法
US11360197B2 (en) * 2020-01-07 2022-06-14 Luminar, Llc Calibration of sensor systems
US11398095B2 (en) 2020-06-23 2022-07-26 Toyota Research Institute, Inc. Monocular depth supervision from 3D bounding boxes

Also Published As

Publication number Publication date
US11398095B2 (en) 2022-07-26
US20220292837A1 (en) 2022-09-15
CN115867940A (zh) 2023-03-28
US20210397855A1 (en) 2021-12-23
US11783593B2 (en) 2023-10-10
WO2021260589A1 (en) 2021-12-30

Similar Documents

Publication Publication Date Title
JP2023530762A (ja) 3dバウンディングボックスからの単眼深度管理
US11386567B2 (en) Systems and methods for weakly supervised training of a model for monocular depth estimation
US11176709B2 (en) Systems and methods for self-supervised scale-aware training of a model for monocular depth estimation
US11436743B2 (en) Systems and methods for semi-supervised depth estimation according to an arbitrary camera
CN112912920B (zh) 用于2d卷积神经网络的点云数据转换方法和系统
US11966234B2 (en) System and method for monocular depth estimation from semantic information
CN110796692A (zh) 用于同时定位与建图的端到端深度生成模型
JP5782088B2 (ja) 歪みのあるカメラ画像を補正するシステム及び方法
CN110618678A (zh) 自主机器应用中的行为引导路径规划
US11341719B2 (en) System and method for estimating depth uncertainty for self-supervised 3D reconstruction
US11727588B2 (en) Depth estimation based on ego-motion estimation and residual flow estimation
US11144818B2 (en) Network architecture for ego-motion estimation
US11321859B2 (en) Pixel-wise residual pose estimation for monocular depth estimation
US11551363B2 (en) Systems and methods for self-supervised residual flow estimation
US20210281814A1 (en) Systems and methods for self-supervised depth estimation according to an arbitrary camera
CN115082874A (zh) 用于车辆中深度估计的系统和方法
US11756219B2 (en) Multi-scale recurrent decoder for monocular depth estimation
US11915487B2 (en) System and method for self-supervised depth and ego-motion overfitting
US11210802B2 (en) Systems and methods for conditioning training data to avoid learned aberrations
US20230386059A1 (en) Warping depth features for depth estimation
US20230386060A1 (en) Using Histograms For Self-Supervised Depth Estimation
US20220005217A1 (en) Multi-view depth estimation leveraging offline structure-from-motion
CN117011815A (zh) 车辆神经网络

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240516