JP2022142787A - 奥行き知覚のための予測システムを訓練するためのシステム及び方法 - Google Patents

奥行き知覚のための予測システムを訓練するためのシステム及び方法 Download PDF

Info

Publication number
JP2022142787A
JP2022142787A JP2022041705A JP2022041705A JP2022142787A JP 2022142787 A JP2022142787 A JP 2022142787A JP 2022041705 A JP2022041705 A JP 2022041705A JP 2022041705 A JP2022041705 A JP 2022041705A JP 2022142787 A JP2022142787 A JP 2022142787A
Authority
JP
Japan
Prior art keywords
depth
training
image
prediction system
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022041705A
Other languages
English (en)
Inventor
エイ. アンブラス ラレシュ
A Ambrus Rares
パーク デニス
Park Dennis
ギジリーニ ビトー
Guizilini Vitor
リ ジエ
Jie Li
デイビッド ガイドン エイドリアン
David Gaidon Adrien
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of JP2022142787A publication Critical patent/JP2022142787A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/02Systems using the reflection of electromagnetic waves other than radio waves
    • G01S17/06Systems determining position data of a target
    • G01S17/42Simultaneous measurement of distance and other co-ordinates
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • G01S7/4802Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】境界ボックスを使用して奥行き予測システムを訓練するシステム及び方法を提供すること。【解決手段】一実施形態では、本方法は、画像をセグメント化することにより、境界ボックスを超えた領域をマスクして、境界ボックスの内部の非マスク領域を識別することを含む。該方法は、また、非マスク領域内で画像の画素と関連付けられた重み付け点をグランドトゥルース奥行きと比較することからの奥行き損失を使用して、奥行きモデルを訓練することを含む。該方法は、また、物体検出のために奥行きモデルを提供することを含む。【選択図】図5

Description

本明細書で説明する主題は、一般に、予測システムを訓練することに関し、より詳細には、境界ボックス及びマスキングを使用して奥行き予測モデルを訓練することに関する。
自律的に動作する様々なデバイスは、又はそうでなければ周辺環境に関する状況を知覚するように機能する様々なデバイスは、多くの場合、物体を知覚したり環境に関する追加的な状況を知覚したりすることを容易とするセンサを、使用している。シーンの構造を高精度で再構築する能力は、シーンに関する認識及びナビゲーションにとって重要である。一例として、ロボットデバイス(例えば、車両)は、ナビゲートする際に障害物を回避する目的で、センサからの情報を使用することで、周辺環境の認識を容易としている。特に、ロボットデバイスは、認識された情報を使用することで、環境がなす3次元構造を決定し、これにより、そのデバイスは、航行可能な領域と潜在的な障害物とを区別してもよい。
1つのアプローチでは、ロボットデバイスは、単眼カメラを採用することにより、周辺環境の画像を取り込んでもよく、これにより、シーンの特徴を推定してもよい。様々な実装では、単眼カメラを使用したシステムは、画像内で物体の奥行きを推定して物体を検出するために、機械学習(ML:machine learning)モデルに依存してもよい。例えば、システムは、知覚及びナビゲーションのために画像から予測した物体の奥行きに従って点群を生成するために、疑似ライダ(PL:pseudo-lidar)アーキテクチャ内でMLモデルを訓練してもよい。しかしながら、奥行き推定のためにMLモデルを訓練するためのシステムでは、点群内で物体のサイズを正確に重み付けする際に、問題が発生し得る。例えば、システムは、シーンの顕著な物体が前景内にある場合であっても、前景内の物体点を、背景内の物体点と同様に処理する可能性がある。したがって、MLモデルを使用したロボットデバイスは、訓練時における奥行き点に関する特定の重み付けに起因して、多様な物体を有したシーンでは、誤った奥行き推定値を計算してしまう可能性がある。
一実施形態では、例示的なシステム及び方法は、画像の領域を選択的にマスクするために境界ボックスを使用して奥行き予測システムを訓練するための態様に関する。様々な実装では、単眼カメラ画像から奥行きを予測するために機械学習(ML:machine learning)モデルを訓練するためのシステムは、シーン内の異なる物体サイズに起因する問題を経験する可能性がある。例えば、システムは、建物が画像内でより多くの画素を占有することのために、歩行者よりも建物がより顕著となるように、訓練されてもよい。よって、システムは、歩行者の代わりに、訓練のために建物の奥行きを過度に重み付けしてもよく、これにより、ML実装中のロボットデバイス(例えば、車両)による衝突を潜在的に増加させてもよい。したがって、一実施形態では、予測システムは、単眼カメラからの画像などの画像の内部における物体に関する境界ボックスの外側領域をマスクすることにより、訓練される。マスキング後には、非マスク領域は、シーン内の関連する物体を含む境界ボックスと関連付けられてもよい。よって、マスクを使用した訓練は、境界ボックス内の物体上における奥行き推定に集中させてもよく、これにより、パイプライン内における物体検出を、及び、実装中の関連機能(例えば、衝突回避)を、向上させてもよい。
1つのアプローチでは、予測システムは、非マスク領域内の奥行き点を重み付けすることにより、奥行き損失を使用して奥行きモデルを訓練してもよい。重み付けされた奥行き点は、奥行き損失を計算するために、シーンのグランドトゥルースと比較される画素又は領域と関連付けられてもよい。様々な実装では、予測システムは、また、システムアプリケーションに従って点を過度に重み付けするための様々な機能を使用して、奥行きモデルを訓練してもよい。例えば、予測システムは、都市環境のために境界ボックス中心に従って、あるいは、農村環境のために確率的分布に従って、奥行きポイントを重み付けしてもよい。このようにして、予測システムは、奥行き推定値に対する重みを適応させることによって奥行きモデルを訓練して、オブジェクション検出を改良し、これにより、関連アプリケーション(例えば、ナビゲーション)を改良する。
一実施形態では、奥行きモデルを訓練するための予測システムが、開示される。予測システムは、プロセッサと、プロセッサによって実行された時には、プロセッサに、画像をセグメント化することにより、境界ボックスを超えた領域をマスクして、境界ボックスの内部の非マスク領域を識別することを実行させる命令を格納したメモリと、を含む。命令は、また、非マスク領域内で画像の画素と関連付けられた重み付け点をグランドトゥルース奥行きと比較することに基づく奥行き損失を使用して、奥行きモデルを訓練するための命令を含む。命令は、また、物体検出のために奥行きモデルを提供するための命令を含む。
一実施形態では、奥行きモデルを訓練するための非一時的コンピュータ可読媒体であって、プロセッサによって実行された時には、プロセッサに、1つ又は複数の機能を実行させる命令を含む、非一時的コンピュータ可読媒体が、開示される。命令は、画像をセグメント化することにより、境界ボックスを超えた領域をマスクして、境界ボックスの内部の非マスク領域を識別するための命令を含む。命令は、また、非マスク領域内で画像の画素と関連付けられた重み付け点をグランドトゥルース奥行きと比較することに基づく奥行き損失を使用して、奥行きモデルを訓練するための命令を含む。命令は、また、物体検出のために奥行きモデルを提供するための命令を含む。
一実施形態では、境界ボックスを使用して奥行き予測システムを訓練するための方法が、開示される。一実施形態では、方法は、画像をセグメント化することにより、境界ボックスを超えた領域をマスクして、境界ボックスの内部の非マスク領域を識別することを含む。方法は、また、非マスク領域内で画像の画素と関連付けられた重み付け点をグランドトゥルース奥行きと比較することに基づく奥行き損失を使用して、奥行きモデルを訓練することを含む。方法は、また、物体検出のために奥行きモデルを提供するための命令を含む。
本明細書に組み込まれて本明細書の一部を構成する添付図面は、本開示の様々な、システム、方法、及び他の実施形態を図示している。図面内で図示された要素境界(例えば、ボックス、ボックスのグループ、又は他の形状)が、境界の一実施形態を表していることは、理解されよう。いくつかの実施形態では、1つの要素が複数の要素として設計されてもよく、また、複数の要素が1つの要素として設計されてもよい。いくつかの実施形態では、他の要素の内部構成要素として図示された要素が、外部構成要素として実装されてもよく、その逆もまた成立する。さらに、要素は、縮尺通りに描画されていない場合がある。
本明細書で開示するシステム及び方法が内部に実装され得る車両の一実施形態を示している図である。 画像の領域を選択的にマスクするために境界ボックスを使用して奥行き知覚に関して訓練される予測システムの一実施形態を示している図である。 画像内の非マスク領域に従って図2の予測システムを訓練するためのアーキテクチャの一例の図である。 画像の領域を選択的にマスクするために境界ボックスを使用して奥行き予測モデルを訓練することに関連した方法の一実施形態を示している図である。 予測システムを訓練するために、画像上における選択的マスキング及び画素減衰のために境界ボックスを使用したシーンの例の図である。
画像の領域を選択的にマスクするために、境界ボックスを使用して奥行き予測システムを訓練することに関連した、システム、方法、及び他の実施形態について、本明細書で開示する。予測システムは、画像領域に関する損失計算に関して、奥行き点の均等な重み付けを回避することにより、訓練を改良する。重み付けの前に、予測システムは、検出器を使用することにより、他の領域をマスクしながら、関心点を有した非マスク領域内に境界ボックスを有したビューを生成してもよい。1つのアプローチでは、関心点は、所定の範囲又は画素密度で、物体を有した領域を表してもよい。
マスキングの完了時には、予測システムは、グラウンドトゥルースを使用して非マスク領域内の推定奥行き点に関する損失を計算することにより、奥行きモデルを訓練してもよい。特に、訓練は、奥行き点の損失を減衰させること又はランク付けすることを含んでもよく、これにより、訓練を関心点へと誘導してもよい。例えば、予測システムは、ガウス点分布を使用することにより、非マスク境界ボックス内の物体上の奥行き点からの損失を適応的に減衰させてもよい。予測システムは、様々な実装では、境界ボックスの中心からの距離に従って、損失を減衰させてもよい。
減衰に加えて、予測システムは、また、非マスク奥行き点をランク付けしてもよい。1つのアプローチでは、予測システムは、位置特定誤差に対して徐々にペナルティを科すガウス分布を使用した放射状ペナルティに従ってランク付けを行う。例えば、予測システムは、物体中心に関する誤り点に対して、誤差を予測するよりも少なく、ペナルティを科してもよい。このアプローチにより、推論時に、奥行きマップを、より滑らかなものとし得る。訓練を完了するために、予測システムは、収束のための基準が満たされるまで、損失計算を継続してもよい。例えば、基準は、境界ボックスの所定の径方向距離内における奥行き点の損失がしきい値を下回ることであってもよい。このようにして、予測システムは、シーン内の顕著な物体の近くの損失に対して適応的に訓練を集中させることにより、奥行き知覚及びその後の3D物体検出を改良してもよく、これにより、奥行きマップに依存した適用を改良してもよい。
図1を参照すると、車両100の一例が図示されている。本明細書で使用した際には、「車両」とは、任意の形態でのモータ駆動型輸送手段である。1つ又は複数の実装では、車両100は、自動車である。本明細書では、自動車に関して構成を説明するけれども、実施形態が自動車に限定されないことは、理解されよう。いくつかの実装では、予測システム170は、家電製品(CE:consumer electronics)、モバイルデバイス、ロボットデバイス、ドローン、及び同種のもの、に関して使用されてもよい。他の実装では、車両100は、例えば周囲環境の状況を知覚するためのセンサを含むことのために、画像の領域を選択的にマスクするために境界ボックスを使用して奥行き予測システムを訓練することに関連した本明細書で説明する機能から利益を得る、任意のロボットデバイス又は任意の形態でのモータ駆動型輸送手段であってもよい。
車両100は、また、様々な要素を含む。様々な実施形態では、車両100が、図1に示す要素よりも少ない要素を有してもよいことは、理解されよう。車両100は、図1に示す様々な要素の任意の組合せを有することができる。さらに、車両100は、図1に示す要素に対して追加的な要素を有することができる。いくつかの構成では、車両100は、図1に示す要素のうちの1つ又は複数を有することなく、実装され得る。様々な要素が、図1において車両100内に位置するものとして図示されているけれども、これら要素のうちの1つ又は複数が、車両100の外部に位置し得ることは、理解されよう。さらに、図示した要素は、大きな距離の分だけ、物理的に離れていてもよい。加えて、1つのアプローチでは、予測システム170の少なくとも1つのモジュールに関連した機能は、車両100内に実装され、他方、更なる機能は、奥行きモデルの訓練に関連したクラウドベースのコンピューティングシステム内に実装される。
車両100の可能な要素のいくつかは、図1に示されており、後続の図面と一緒に説明する。しかしながら、図1の要素の多くに関する説明は、本明細書を簡潔とする目的で、図2~図5の説明の後に提供されることとなる。これに加えて、図示の簡略化及び明瞭化のために、適切であれば、対応する要素又は同様の要素を示すために、参照符号が、異なる図間どうしの間にわたって繰り返されていることは、理解されよう。加えて、本明細書で説明する実施形態に関する徹底的な理解を提供するために、説明では、多数の具体的な詳細について概説している。しかしながら、当業者であれば、本明細書で説明する実施形態が、これら要素の様々な組合せを使用して実施され得ることは、理解されよう。いずれの場合も、車両100は、画像の領域を選択的にマスクするために境界ボックスを使用する訓練に関連した本明細書で開示する方法及び他の機能を実行するように実装される予測システム170を、含む。
図2を参照すると、図1の予測システム170の一実施形態が、さらに図示されている。予測システム170は、図1の車両100からの1つ又は複数のプロセッサ110を含むものとして示されている。したがって、1つ又は複数のプロセッサ110は、予測システム170の一部であってもよく、予測システム170は、車両100の1つ又は複数のプロセッサ110とは別個のプロセッサを含んでもよく、あるいは、予測システム170は、データバス又は別の通信経路を介して、1つ又は複数のプロセッサ110に対してアクセスしてもよい。一実施形態では、予測システム170は、予測モジュール220を格納したメモリ210を含む。メモリ210は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードディスクドライブ、フラッシュメモリ、又は、予測モジュール220を格納するための他の適切なメモリ、である。予測モジュール220は、例えば、1つ又は複数のプロセッサ110によって実行された時には、1つ又は複数のプロセッサ110に、本明細書で開示する様々な機能を実行させる、コンピュータ可読命令である。
その上、図2に示す予測システム170は、概ね例えば車両100とクラウドコンピューティング環境との間で実装され得る予測システム170の抽象化された形態である。よって、予測モジュール220は、概ね車両100の1つ又は複数のセンサからのデータ入力を受信するように1つ又は複数のプロセッサ110を制御するように機能する命令を、含む。入力は、一実施形態では、車両100に近接した環境内における、及び/又は、周囲に関した他の状況内における、1つ又は複数の物体に関する観測結果である。本明細書で提供されるように、予測モジュール220は、一実施形態では、奥行き知覚のための少なくともカメラ画像を含むセンサデータ240を、取得する。
したがって、予測モジュール220は、一実施形態では、センサデータ240という形態でデータ入力を提供するために、それぞれのセンサを制御する。これに加えて、予測モジュール220は、センサデータ240を提供するために様々なセンサを制御するものとして説明されているけれども、1つ又は複数の実施形態では、予測モジュール220は、センサデータ240を取得するために、能動的な又は受動的な他の技法を採用することができる。例えば、予測モジュール220は、センサデータ240を提供するに際し、複数のセンサからのデータを融合させるための、及び/又は、無線通信リンク上で取得されたセンサデータからのデータを融合させるための、様々なアプローチを行うことができる。よって、一実施形態では、センサデータ240は、複数のセンサから取得された知覚どうしの組合せを表してもよい。
その上、一実施形態では、予測システム170は、データストア230を含む。一実施形態では、データストア230は、データベースである。データベースは、一実施形態では、メモリ210内に又は別のデータストア内に格納された電子データ構造であるとともに、格納されたデータを分析したり、格納されたデータを提供したり、格納されたデータを整理したり、さらに同種のことを行ったり、するために、1つ又は複数のプロセッサ110によって実行可能なルーチンで構成された電子データ構造である。よって、一実施形態では、データストア230は、様々な機能を実行する際に予測モジュール220によって使用されるデータを格納する。一実施形態では、データストア230は、例えば、センサデータ240の様々な状況を特徴付けるメタデータと一緒に、センサデータ240を含む。一実施形態では、データストア230は、画像データ250をさらに含む。例えば、画像データ250は、車両100上の1つ又は複数の単眼カメラによって取り込んだ画像に対して関連付けられてもよい。
予測モジュール220は、一実施形態では、センサデータ240を取得して提供するために、それぞれのセンサを制御することを超える追加的なタスクを実行するように、さらに構成される。例えば、予測モジュール220は、1つ又は複数のプロセッサ110に、奥行き推定値がシーン内の関連する関心点又は焦点に集中するようにマスキングを使用して予測システム170を訓練させる命令を、含む。例えば、予測システム170を実装する車両100は、自動運転のために、他の車両に関連した奥行きの方が、道路と比較して、より関連性が高いことを見出してもよい。よって、予測システム170は、マスキングを使用して画素に関連した推定奥行き点の部分集合に対して訓練を実行してもよい。このアプローチは、訓練の成果を向上させるために、他の領域からの焦点からなる部分集合間について損失を識別してもよい。図3は、画像のマスク領域と非マスク領域との間の損失を識別することにより、図2の予測システム170を訓練するためのアーキテクチャ300の一例である。
図3では、推論要素310は、入力画像に対して奥行きを推定するとともに非マスク領域に従って訓練する予測システム170を含んでもよい。様々な実装では、予測は、画素密度に従ってなどのように、焦点又は奥行きの損失を適応させることにより、遠くの物体(例えば、30m~40m)と近くの物体(例えば、5m)との間における単眼奥行き推定を改良するために教師あり訓練を、実行してもよい。実装に関して、推論要素310は、シーン内の潜在的な物体の周囲に点群を生成するために、画像内の画素に対して距離を推定してもよい。例えば、点群は、奥行きを推定するために、光による検出及び測距(LIDAR:light detection and ranging)システムによって生成される表現と同様のものであってもよい。点群は、より単純なハードウェアと、精度を維持しながら処理を低減する奥行きモデルと、を使用して生成されてもよい。その結果、3次元(3D)検出ネットワークは、推論要素310の出力を利用することにより、3Dシーン内の物体の、位置、向き、又はクラスを、決定してもよい。
さらに、推論要素310の訓練は、クラウドサーバ、エッジサーバ、及び同種のもの、上において実行されてもよい。初期訓練データとして、入力画像は、LIDARに頼ることなく奥行きマップを生成するために、予測システム170の単眼カメラによって撮影されたものと同様の、赤/緑/青(RGB)画像であってもよい。奥行きマップは、各画素の強度が、物体と、画像センサ又はカメラと、の間の距離を表している、グレースケール画素を含む。奥行きマップを比較するために、訓練要素320は、グランドトゥルース奥行きを有したターゲットデータセットを使用して教師あり損失を計算してもよく、それに応じて、予測システム170の重みを微調整してもよい。例えば、教師あり損失は、非マスク領域に関する推定奥行きとグランドトゥルース奥行きとの間の差であってもよい。
上述したように、予測システム170は、マスキングを利用することにより、3D物体検出のための教師あり訓練及びその後のタスクを改良してもよい。よって、2次元(2D)検出器(例えば、OpenCV)などの境界ボックス検出器は、シーンをマスクすることにより、シーン内の特定の特徴点又は焦点に対して訓練を集中させてもよい。例えば、マスキングは、前景内の損失を、背景内の損失と比較して、より重み付けすること又はよりスケーリングすることを、促進してもよい。このことは、シーン内の物体の均等な重み付けを回避することにより、教師あり学習を改良してもよい。言い換えれば、車両100は、自動化モード時には、前景内の物体(例えば、歩行者、車両、等)の方が、背景内の物体(例えば、建物)と比較して、より関連性が高いことを、見出してもよい。よって、予測システム170は、均等な又は誤った重み付けを回避することにより、教師あり訓練ひいては奥行き知覚を改良するための関連した関心点に対して損失を効果的に誘導してもよい。
様々な実装では、予測システム170は、ネットワークモデルを使用することにより、シーン内の物体上の推定奥行き点を重み付け又は強調してもよい。例えば、予測システム170は、カーネル法に従って処理される、線形カーネル、ガウシアンカーネル、多項式カーネル、及び同種のもの、などのカーネル関数を使用してもよい。カーネルは、生表現におけるデータ点の組に関しての、ユーザ定義の同様の関数であってもよい。したがって、カーネル法は、その空間におけるデータの座標を計算することなく、高次元の暗黙の特徴空間内において動作してもよい。このようにして、カーネル法を使用した予測システム170は、より少ない計算コストで、非マスク領域の特徴点を識別してもよい。
カーネルベースの実装においては、予測システム170は、ガウシアンカーネルを使用することにより、非マスク境界ボックス内の物体上の奥行き点を、適応的に減衰又はランク付けしてもよい。例えば、予測システム170は、単眼カメラによって撮影された画像に関する境界ボックス中心に対しての画素からの損失寄与を減衰させてもよい。1つのアプローチでは、減衰は、シーン内の物体の配置又は特徴点に従って、指数関数的、多項式的、及び同種のもの、であってもよい。よって、予測システム170は、非マスク領域内における減衰がより少ない奥行き点に従って、様々な速度で奥行きモデルを訓練してもよい。
同様に、予測システム170は、損失計算のためにガウス分布を使用して放射状ペナルティに従って非マスク化された奥行き点をランク付けしてもよい。1つのアプローチでは、ランク付けは、画像内の物体に対する意味論的キーポイント処理又は関心キーポイント処理を模倣してもよい。意味論的キーポイントは、右目尻、車両100の右タイヤ、及び同種のものなどの、物体に対して意味論的意味を有した関心点に関連する。関心点は、線分の終点などの、明確な意味論的意味を有していない低レベル点に関連してもよい。よって、予測システム170は、キーポイント処理に関する分布に従って位置特定誤差に対して徐々にペナルティを科しながら、非マスク領域内における物体中心を強調してもよい。例えば、予測システム170は、推論時におけるより滑らかな推定のために、他の画素誤差よりも少ない1画素分だけずれた物体中心に対してペナルティを科してもよい。1つのアプローチでは、予測システム170は、また、奥行きバランスを高めるために、潜在的な物体サイズに従って奥行きポイントをランク付けすることにより、奥行きモデルを訓練してもよい。例えば、画像の中景内における他の物体と比較して、より大きな画素カウントを有した物体は、予測システム170によって過度に重み付けされてもよい。したがって、予測システム170は、奥行き点の適応的な重み付けに従って、画像内の物体に関する特定の焦点を見出してもよい。
加えて、予測システム170は、複数の物体を有した非マスク領域内の奥行き点をより高くランク付けすることにより、オーバーラップした境界ボックス上における推定奥行き点どうしの間の損失を使用して訓練を実行してもよい。例えば、予測システム170は、前景内の単一の物体奥行き点よりも、中景内の重なり合った奥行き点を、過度に重み付けしてもよい。機械学習(ML:machine learning)の実装に関して、奥行き点の過度の重み付けによって物体のクラスタを検出することは、自動運転時に潜在的に危険な領域を回避するように、車両100を支援してもよい。したがって、3D検出のための予測システム170を使用したシステムは、奥行き点の適応的な重み付けによって複数の物体をより容易に検出してもよい。
予測システム170に関しての、及び訓練のための損失重み付けに関しての、追加的な態様について、図4に関連して説明する。図4は、画像の領域を選択的にマスクするために境界ボックスを使用して奥行き予測モデルを訓練することに関連した方法400のフローチャートを示している。方法400について、図1及び図2の予測システム170の観点から説明する。方法400について、予測システム170と組み合わせて説明するけれども、方法400が、予測システム170内で実装されることに限定されるものではないこと、さらに、予測システム170が、方法400を実装し得るシステムの一例に過ぎないことは、理解されよう。さらに、1つのアプローチでは、訓練は、効率的な訓練を目的としてコンピューティングリソースを活用するために、車両100の代わりに、クラウドサーバ、エッジサーバ、及び同種のもの、など上において、実行されてもよい。
410では、予測システム170は、車両100によって取得されたデータを使用して、画像に関して境界ボックスを決定する。例えば、予測システム170は、検出器又はコンピュータビジョンモジュールを使用することにより、境界ボックスを決定してもよい。1つのアプローチでは、コンピュータビジョンモジュールは、異なる画像領域を表す画素情報に従って、画像内の物体のために、境界ボックスを描画することができる。
420では、予測システム170は、境界ボックスを使用して、画像をセグメント化してマスクする。画像は、RGB画像、又は、単眼カメラから撮影された画像と同様の画像、であってもよい。2D検出器(例えば、OpenCV)は、他の領域をマスクしながら、関心点を有した非マスク領域内に、境界ボックスを有したビューを生成してもよい。よって、予測システム170は、マスキングを使用して、画像内の画素と関連付けられた推定奥行き点の部分集合に対して訓練を実行してもよい。このようにして、システムは、関連する関心点を有した部分集合と他の奥行き点との間において損失を識別してもよい。部分集合を強調することで、予測システム170が、範囲又は画素密度に従って物体に焦点合わせすることを、可能としてもよい。例えば、予測システム170は、焦点損失又は奥行き損失を適応させることによって、遠くの物体(例えば、30m~40m)と近くの物体(例えば、5m)との間における単眼奥行き推定値を改良するように訓練を実行してもよい。
マスキング後、430では、予測システム170は、非マスク領域内の推定奥行き点に関する損失を使用して、奥行きモデルを訓練する。奥行き点は、奥行きマップなどの、画像の画素と関連付けられてもよい。様々な実装では、奥行きマップは、各画素の強度が、物体と、画像センサ又はカメラと、の間の距離を表している、グレースケール画素を含んでもよい。さらに、上述したように、また、以下に例示するように、予測システム170は、奥行き点の損失を減衰又はランク付けすることによって訓練を実行してもよく、これにより、画像に関する関連する関心点へと訓練を誘導してもよい。例えば、マスクされた画像に対してガウシアンカーネルを適用することは、非マスク境界ボックス内の物体上の奥行き点を適応的に減衰させてもよい、又は、それら奥行き点をランク付けしてもよい。1つのアプローチでは、減衰損失の寄与は、ガウス分布に従うことによって、境界ボックスの実質的に中央の画素から実行される。
その上、予測システム170は、より滑らかな推定となるよう、位置特定誤差に対して徐々にペナルティを科すために、ガウス分布を使用した放射状ペナルティに従って非マスク奥行き点をランク付けしてもよい。例えば、予測システム170は、他の予測誤差よりも1画素分だけ誤って物体中心に対してペナルティを科してもよい。同様に、予測システム170は、複数の物体を有した非マスク領域内の点をより高くランク付けすることにより、オーバーラップした境界ボックス上における推定奥行き点どうしの間の損失を使用して、訓練を実行してもよい。このようにして、予測システム170は、シーン内の関連する物体又は点の近くの損失に対して訓練を焦点合わせすることにより、奥行き知覚及びその後の3D物体検出を改良してもよく、これにより、奥行きマップを改良してもよい。
訓練は、予測システム170の収束のための基準が満たされるまで、440において継続される。例えば、基準は、境界ボックスの所定径方向距離内における奥行き点の損失がしきい値未満であること、であってもよい。1つのアプローチでは、予測システム170は、奥行きモデルの重みがネットワークに対して安定したレベルに到達するまで、訓練を継続してもよい。訓練の完了時には、予測システム170は、ロボットデバイス、車両、消費者デバイス、及び同種のもの、へとダウンロードされてもよく、これにより、後続のタスク(例えば、物体を検出すること)のために奥行きマップを生成してもよい。
予測システム170によるマスキング及び重み付けを説明するために、選択的マスキングのための境界ボックスを使用した、及び訓練のための画素減衰を使用した、シーンの例が、図5に示されている。510では、入力RGB画像1及び入力RGB画像2は、シーン内の潜在的な物体の周囲に境界ボックスを有している。上述したように、520では、予測システム170は、2D検出器(例えば、OpenCV)を使用して画像をマスクすることにより、境界ボックス内に位置している奥行き点を、又は境界ボックスに対して近接している奥行き点を、考慮してもよい。530では、予測システム170は、次に、ガウス分布及び教師あり訓練に従って、特定の点に対する損失を計量してもよい。例えば、黒い画素は、損失への寄与がゼロであることを表してもよく、他方、白い画素は、最大の寄与を有している。1つのアプローチでは、画像1内でオーバーラップしている物体の画素は、関連する関心点を識別するために他の白い画素と比較して、過度に重み付けされてもよい。さらに、ガウス分布を使用することで、前景、中景、及び背景内の物体などの、異なる奥行きの物体に関する均等な重み付けを回避してもよい。このようにして、予測システム170は、マスキング及び重み付けを通してシーンコンテキストに従って訓練を実行し、これにより、損失計算のために様々な奥行きの物体を適切に重み付けする。これに対応して、奥行きモデルは、バランスのとれた教師あり訓練を通して、重要な画素を占有している道路及び建物を有したシーン内における物体奥行きの推定を改良してもよい。
ここで、図1につき、本明細書で開示するシステム及び方法が動作し得る例示的な環境として、充分に詳細に説明する。いくつかの実例では、車両100は、車両100の1つ又は複数のモジュール/システムの向きに従って、動作/制御の異なるモードどうしの間にわたって、選択的に切り替えられるように構成されている。1つのアプローチでは、モードは、0、自動化なし、1、ドライバ支援、2、部分的自動化、3、条件付き自動化、4、高度な自動化、及び、5、完全自動化、を含む。1つ又は複数の構成では、車両100は、可能なモードの部分集合内で動作するように構成され得る。
1つ又は複数の実施形態では、車両100は、自動化車両又は自律型車両である。本明細書で使用した際には、「自律型車両」とは、自律モード(例えば、カテゴリ5、完全自動化)で動作し得る車両を指す。「自動化モード」又は「自律モード」とは、人間のドライバからの入力が最小限の入力でもって又は人間のドライバからの入力が全くない状態で車両100を制御するために、1つ又は複数のコンピューティングシステムを使用して走行経路に沿って車両100をナビゲート及び/又は操縦することを、意味する。1つ又は複数の実施形態では、車両100は、高度に自動化されている、又は、完全に自動化されている。一実施形態では、車両100は、1つ又は複数のコンピューティングシステムが、走行経路に沿った車両のナビゲーション及び/又は操縦の一部を実行するとともに、車両オペレータ(すなわち、ドライバ)が、走行経路に沿った車両100のナビゲーション及び/又は操縦の一部を実行するために車両に対して入力を提供するという、1つ又は複数の半自律運転モードを有して構成されている。
車両100は、1つ又は複数のプロセッサ110を含むことができる。1つ又は複数の構成では、1つ又は複数のプロセッサ110は、車両100のメインプロセッサとすることができる。例えば、1つ又は複数のプロセッサ110は、電子制御ユニット(ECU:electronic control unit)、及び特定用途向け集積回路(ASIC:application-specific integrated circuit)、マイクロプロセッサ、等とすることができる。車両100は、1つ又は複数のタイプのデータを格納するために、1つ又は複数のデータストア115を含むことができる。1つ又は複数のデータストア115は、揮発性メモリ及び/又は不揮発性メモリを含むことができる。好適なデータストア115の例は、RAM、フラッシュメモリ、ROM、プログラム可能読み取り専用メモリ(PROM:Programmable Read-Only Memory)、消去可能プログラム可能読み取り専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、電気的消去可能プログラム可能読み取り専用メモリ(EEPROM:Electriclly Erasable Programmable Read-Only Memory)、レジスタ、磁気ディスク、光ディスク、及び、ハードディスク、を含む。1つ又は複数のデータストア115は、1つ又は複数のプロセッサ110の構成要素とすることができる、あるいは、1つ又は複数のデータストア115は、それによる使用のために1つ又は複数のプロセッサ110に動作可能に接続されることができる。本明細書を通して使用された際には、「動作可能に接続された」という用語は、直接的な物理的接触を伴わない接続を含めた、直接的な又は間接的な接続を含むことができる。
1つ又は複数の構成では、1つ又は複数のデータストア115は、マップデータ116を含むことができる。マップデータ116は、1つ又は複数の地理的領域のマップを含むことができる。いくつかの構成では、マップデータ116は、1つ又は複数の地理的領域内における、道路、交通管制装置、道路標識、構造物、特徴物、及び/又はランドマークに関する、情報又はデータを含むことができる。マップデータ116は、任意の適切な形態とすることができる。いくつかの実例では、マップデータ116は、領域の航空写真を含むことができる。いくつかの実例では、マップデータ116は、360度の地上ビューを含めた、ある領域の地上ビューを含むことができる。マップデータ116は、マップデータ116内に含まれる1つ又は複数の項目に関しての、及び/又はマップデータ116内に含まれる他の項目に関しての、測定値、寸法、距離、及び/又は情報を、含むことができる。マップデータ116は、道路形状に関する情報を有したデジタルマップを含むことができる。
1つ又は複数の構成では、マップデータ116は、1つ又は複数の地形マップ117を含むことができる。1つ又は複数の地形マップ117は、1つ又は複数の地理的領域に関しての、地形、道路、表面、及び/又は、他の特徴点、に関する情報を含むことができる。1つ又は複数の地形マップ117は、1つ又は複数の地理的領域内における標高データを含むことができる。1つ又は複数の地形マップ117は、舗装道路、未舗装道路、土地、及び、地表を規定する他のものを含み得る、1つ又は複数の地表を規定することができる。
1つ又は複数の構成では、マップデータ116は、1つ又は複数の静的障害物マップ118を含むことができる。1つ又は複数の静的障害物マップ118は、1つ又は複数の地理的領域内に位置した1つ又は複数の静的障害物に関する情報を含むことができる。「静的障害物」とは、その位置が一定期間にわたって変化しない又は実質的に変化しない、及び/又は、そのサイズが一定期間にわたって変化しない又は実質的に変化しない、物理的物体である。静的障害物の例は、木、建物、縁石、フェンス、手すり、中央分離帯、電柱、彫像、記念碑、標識、ベンチ、家具、郵便受け、大きな岩、又は、丘、を含むことができる。静的障害物は、地表面より上に延びる物体とすることができる。1つ又は複数の静的障害物マップ118内に含まれる1つ又は複数の静的障害物は、それと関連付けられた、位置データ、サイズデータ、寸法データ、材料データ、及び/又は他のデータ、を有することができる。1つ又は複数の静的障害物マップ118は、1つ又は複数の静的障害物に関しての、測定値、寸法、距離、及び/又は情報、を含むことができる。1つ又は複数の静的障害物マップ118は、高品質なもの及び/又は高詳細なものとすることができる。1つ又は複数の静的障害物マップ118は、マッピング領域内の変化を反映するために、更新することができる。
1つ又は複数のデータストア115は、センサデータ119を含むことができる。この文脈では、「センサデータ」とは、車両100に設けられたセンサに関するあらゆる情報を意味し、このようなセンサに関する能力及び他の情報を含む。後述するように、車両100は、センサシステム120を含むことができる。センサデータ119は、センサシステム120の1つ又は複数のセンサと関連することができる。一例として、1つ又は複数の構成では、センサデータ119は、センサシステム120の1つ又は複数のLIDARセンサ124に関する情報を含むことができる。
いくつかの実例では、マップデータ116及び/又はセンサデータ119の少なくとも一部は、車両100に搭載された1つ又は複数のデータストア115内に配置することができる。これに代えて、あるいはこれに加えて、マップデータ116及び/又はセンサデータ119の少なくとも一部は、車両100から遠隔的に位置した1つ又は複数のデータストア115内に配置することができる。
上述したように、車両100は、センサシステム120を含むことができる。センサシステム120は、1つ又は複数のセンサを含むことができる。「センサ」とは、何かを検出し得るデバイス、及び/又は、何かを感知し得るデバイス、を意味する。少なくとも1つの実施形態では、1つ又は複数のセンサは、リアルタイムで、検出及び/又は感知する。本明細書で使用した際には、「リアルタイム」という用語は、特定のプロセス又は決定が行われるのに充分に即座であることをユーザ又はシステムが感知する処理応答性のレベル、あるいは、プロセッサがいくつかの外部プロセスに追いつくことを可能とするレベル、を意味する。
センサシステム120が複数のセンサを含む構成では、それらセンサは、独立して機能してもよい、あるいは、2つ以上のセンサが、組み合わせて機能してもよい。センサシステム120は、及び/又は、1つ又は複数のセンサは、1つ又は複数のプロセッサ110に対して、1つ又は複数のデータストア115に対して、及び/又は車両100の別の要素に対して、動作可能に接続することができる。センサシステム120は、車両100(例えば、近くの車両)の環境の一部に関して、観測を生成することができる。
センサシステム120は、任意の適切なタイプのセンサを含むことができる。異なるタイプのセンサの様々な例について、本明細書で説明する。しかしながら、実施形態が、説明する特定のセンサに限定されないことは、理解されよう。センサシステム120は、1つ又は複数の車両センサ121を含むことができる。1つ又は複数の車両センサ121は、車両100自体に関する情報を検出することができる。1つ又は複数の構成では、1つ又は複数の車両センサ121は、例えば、慣性加速度に基づくなどの、車両100の位置及び向きの変化を検出するように、構成することができる。1つ又は複数の構成では、1つ又は複数の車両センサ121は、1つ又は複数の加速度計、1つ又は複数のジャイロスコープ、慣性測定ユニット(IMU:inertial measurement unit)、デッドレコニングシステム、全地球ナビゲーション衛星システム(GNSS:global navigation satellite system)、全地球測位システム(GPS:global positioning system)、ナビゲーションシステム147、及び/又は、他の適切なセンサ、を含むことができる。1つ又は複数の車両センサ121は、車両100の1つ又は複数の特性を検出するように、及び/又は、車両100が動作している態様を検出するように、構成することができる。1つ又は複数の構成では、1つ又は複数の車両センサ121は、車両100の現在の速度を決定するための速度計を含むことができる。
これに代えて、あるいはこれに加えて、センサシステム120は、車両100が動作している車両100の周囲環境に関するデータを取得するように構成された1つ又は複数の環境センサ122を含むことができる。「周囲環境データ」は、車両が位置している外部環境に関するデータ、あるいは、そのようなデータの1つ又は複数の部分、を含む。例えば、1つ又は複数の環境センサ122は、車両100の外部環境の少なくとも一部内における障害物を感知するように、及び/又は、そのような障害物に関するデータを感知するように、構成することができる。そのような障害物は、静的な物体及び/又は動的な物体であってもよい。1つ又は複数の環境センサ122は、例えば、車線マーカ、標識、交通信号、交通標識、車線、横断歩道、車両100に対して近接した縁石、オフロード物体、等などの、車両100の外部環境内における他の物体を検出するように、構成することができる。
本明細書では、センサシステム120のセンサの様々な例について、説明する。例示的なセンサは、1つ又は複数の環境センサ122の一部、及び/又は、1つ又は複数の車両センサ121の一部、であってもよい。しかしながら、実施形態が、説明するされた特定のセンサに限定されないことは、理解されよう。
一例として、1つ又は複数の構成では、センサシステム120は、レーダセンサ123、LIDARセンサ124、ソナーセンサ125、気象センサ、触覚センサ、位置センサ、及び/又は、1つ又は複数のカメラ126、のうちの1つ又は複数を含むことができる。1つ又は複数の構成では、1つ又は複数のカメラ126は、高ダイナミックレンジ(HDR:high dynamic range)カメラ、ステレオ、又は、赤外線(IR:infrared)カメラ、とすることができる。
車両100は、入力システム130を含むことができる。「入力システム」は、様々な実体による機械内へのデータ入力を可能とする、構成要素、又は構成、又はそれらのグループ、を含む。入力システム130は、車両の乗員から、入力を受領することができる。車両100は、出力システム135を含むことができる。「出力システム」は、車両の乗員に対してデータを提示することを容易とする、1つ又は複数の構成要素を含む。
車両100は、1つ又は複数の車両システム140を含むことができる。図1には、1つ又は複数の車両システム140に関する様々な例が示されている。しかしながら、車両100は、より多数の、又はより少数の、又は異なる、車両システムを含むことができる。特定の車両システムが別々に規定されているけれども、任意のシステム又はその部分が、車両100内のハードウェア及び/又はソフトウェアを介して、他の態様で結合又は分離され得ることは、理解されよう。車両100は、推進システム141、ブレーキシステム142、ステアリングシステム143、スロットルシステム144、トランスミッションシステム145、信号伝達システム146、及び/又は、ナビゲーションシステム147、を含むことができる。任意のこれらシステムは、現時点で公知の又は後に開発される、1つ又は複数の、デバイス、構成要素、及び/又はこれらの組合せ、を含むことができる。
ナビゲーションシステム147は、車両100の地理的位置を決定するように構成された、及び/又は車両100の走行経路を決定するように構成された、現時点で公知の又は後に開発される、1つ又は複数の、デバイス、アプリケーション、及び/又はこれらの組合せ、を含むことができる。ナビゲーションシステム147は、車両100に関する走行経路を決定するための、1つ又は複数のマッピングアプリケーションを含むことができる。ナビゲーションシステム147は、全地球測位システム、局所的測位システム、又はジオロケーションシステム、を含むことができる。
1つ又は複数のプロセッサ110、予測システム170、及び/又は、1つ又は複数の自動運転モジュール160は、様々な車両システム140と通信するように、及び/又は、それらの個々の構成要素と通信するように、動作可能に接続することができる。例えば、図1に戻ると、1つ又は複数のプロセッサ110、及び/又は、1つ又は複数の自動運転モジュール160は、車両100の動きを制御するために、様々な車両システム140に対して情報を送信及び/又は受信するように、通信状態とすることができる。1つ又は複数のプロセッサ110、予測システム170、及び/又は、1つ又は複数の自動運転モジュール160は、車両システム140の一部又は全部を制御してもよく、したがって、自動車技術者協会(SAE:society of automotive engineers)レベル0~5で定義されるように、部分的に又は完全に自律的なものであってもよい。
1つ又は複数のプロセッサ110、予測システム170、及び/又は、1つ又は複数の自動運転モジュール160は、様々な車両システム140と通信するように、及び/又は、それらの個々の構成要素と通信するように、動作可能に接続することができる。例えば、図1に戻ると、1つ又は複数のプロセッサ110、予測システム170、及び/又は、1つ又は複数の自動運転モジュール160は、車両100の動きを制御するために、様々な車両システム140に対して情報を送信及び/又は受信するように、通信状態とすることができる。1つ又は複数のプロセッサ110、予測システム170、及び/又は、1つ又は複数の自動運転モジュール160は、車両システム140の一部又は全部を制御してもよい。
1つ又は複数のプロセッサ110、予測システム170、及び/又は、1つ又は複数の自動運転モジュール160は、車両システム140の1つ又は複数を制御することにより、及び/又は、それらの構成要素の1つ又は複数を制御することにより、車両100のナビゲーション及び操縦を制御するように動作可能であってもよい。例えば、自律モードで動作する時には、1つ又は複数のプロセッサ110、予測システム170、及び/又は、1つ又は複数の自動運転モジュール160は、車両100の向き及び/又は速度を制御することができる。1つ又は複数のプロセッサ110、予測システム170、及び/又は、1つ又は複数の自動運転モジュール160は、車両100を、加速させることができ、減速させることができ、及び/又は、向きを変更させることができる。本明細書で使用した際には、「引き起こす(cause)」又は「引き起こす(causing)」とは、直接的な態様又は間接的な態様のいずれかで、事象又は行為が起こることを、あるいは少なくともそのような事象又は行為が起こり得る状態であることを、発生させたり、強制したり、強いたり、指図したり、指示したり、命令したり、及び/又は、可能としたり、することを意味する。
車両100は、1つ又は複数のアクチュエータ150を含むことができる。1つ又は複数のアクチュエータ150は、1つ又は複数のプロセッサ110から、及び/又は、1つ又は複数の自動運転モジュール160から、信号又は他の入力を受領したことに応答して、車両システム140の1つ又は複数を、又は、それらの構成要素の1つ又は複数を、変更するように動作可能な、要素又は要素どうしの組合せ、とすることができる。例えば、1つ又は複数のアクチュエータ150は、いくつかの可能性を挙げると、モータ、空気圧アクチュエータ、油圧ピストン、リレー、ソレノイド、及び/又は、圧電アクチュエータ、を含むことができる。
車両100は、1つ又は複数のモジュールを含むことができ、そのうちの少なくともいくつかについて、本明細書で説明する。モジュールは、1つ又は複数のプロセッサ110よって実行された時には、本明細書で説明する様々なプロセスの1つ又は複数を実装するコンピュータ可読プログラムコードとして、実装することができる。モジュールの1つ又は複数は、1つ又は複数のプロセッサ110の構成要素とすることができる、あるいは、モジュールの1つ又は複数は、1つ又は複数のプロセッサ110が動作可能に接続された他の処理システム上で実行することができる、及び/又は、それら他の処理システムの間にわたって分散することができる。モジュールは、1つ又は複数のプロセッサ110によって実行可能な命令(例えば、プログラムロジック)を含むことができる。これに代えて、あるいはこれに加えて、1つ又は複数のデータストア115は、そのような命令を含んでもよい。
1つ又は複数の構成では、本明細書で説明するモジュールの1つ又は複数は、例えば、ニューラルネットワーク、ファジー論理、又は、他の機械学習アルゴリズム、などの人工知能要素を含むことができる。さらに、1つ又は複数の構成では、モジュールの1つ又は複数は、本明細書で説明する複数のモジュールの間にわたって分散することができる。1つ又は複数の構成では、本明細書で説明するモジュールの2つ以上は、単一モジュールへと組み合わせることができる。
車両100は、1つ又は複数の自動運転モジュール160を含むことができる。1つ又は複数の自動運転モジュール160は、センサシステム120から、及び/又は、車両100に関連した及び/又は車両100の外部環境に関連した情報を取り込み得る任意の他タイプのシステムから、データを受領するように構成することができる。1つ又は複数の構成では、1つ又は複数の自動運転モジュール160は、そのようなデータを使用することにより、1つ又は複数の運転シーンモデルを生成することができる。1つ又は複数の自動運転モジュール160は、車両100の位置及び速度を決定することができる。1つ又は複数の自動運転モジュール160は、障害物の位置を、あるいは、交通標識、木、低木、近くの車両、歩行者、等を含めた他の環境的特徴物の位置を、決定することができる。
1つ又は複数の自動運転モジュール160は、1つ又は複数のプロセッサ110による使用のために、及び/又は、本明細書で説明するモジュールの1つ又は複数による使用のために、車両100の外部環境内の障害物に関する位置情報を受領及び/又は決定するように構成することができ、これにより、マップを作成するに際して使用するために又はマップデータに対しての車両100の位置を決定するに際して使用するために、車両100の位置及び向きを、あるいは、複数の衛星からの信号に基づく全地球座標内における車両位置を、あるいは、車両100の現在の状態を決定するために又は環境に対しての車両100の位置を決定するために使用され得る任意の他のデータ及び/又は信号を、推定することができる。
1つ又は複数の自動運転モジュール160は、独立して又は予測システム170と組み合わせて、センサシステム120によって取得されたデータに基づいて、運転シーンモデルに基づいて、及び/又は、センサデータ240からの決定などの任意の他の適切な情報源からのデータに基づいて、1つ又は複数の走行経路、車両100に関する現在の自律運転操縦、将来の自律運転操縦、及び/又は、現在の自律運転操縦の修正を、決定するように構成することができる。「運転操縦」とは、車両の移動に影響を与える1つ又は複数の行為を意味する。運転操縦の例は、いくつかの可能性を挙げると、加速、減速、制動、旋回、車両100の横方向への移動、走行車線の変更、走行車線への合流、及び/又は、リバース運転、を含む。1つ又は複数の自動運転モジュール160は、決定された運転操縦を実装するように構成することができる。1つ又は複数の自動運転モジュール160は、直接的に又は間接的に、そのような自律的運転操縦の実装を、引き起こすことができる。本明細書で使用した際には、「引き起こす(cause)」又は「引き起こす(causing)」とは、直接的な態様又は間接的な態様のいずれかで、事象又は行為が起こることを、あるいは少なくともそのような事象又は行為が起こり得る状態であることを、発生させたり、命令したり、指示したり、及び/又は、可能としたり、することを意味する。1つ又は複数の自動運転モジュール160は、様々な車両機能を実行するように構成することができる、及び/又は、車両100あるいはその1つ又は複数のシステム(例えば、車両システム140の1つ又は複数)に関し、それに対してデータを送信するように、及び/又はそれからデータを受領するように、及び/又はそれと相互作用するように、及び/又はそれを制御するように、構成することができる。
本明細書では、詳細な実施形態について開示する。しかしながら、開示された実施形態が、例として意図されたものであることは、理解されよう。したがって、本明細書で開示する特定の構造的な及び機能的な詳細は、限定的なものとして解釈されるべきではなく、単に、請求項の根拠として、及び、当業者が、実質的に任意の適切な詳細構造内において本明細書の態様を様々に採用することを教示するための代表的な根拠として、解釈されるべきである。さらに、本明細書で使用する用語及び語句は、限定することを意図したものではなく、むしろ、可能な実装に関する理解可能な説明を提供することを意図している。様々な実施形態が図1~図5に図示されているけれども、実施形態は、図示した構造又は用途に限定されるものではない。
図面中のフローチャート及びブロック図は、様々な実施形態によるシステム、方法、及びコンピュータプログラム製品に関する可能な実装における、アーキテクチャ、機能性、及び動作を示している。この点において、フローチャート又はブロック図におけるブロックは、指定された1つ又は複数の論理機能を実装するための1つ又は複数の実行可能な命令を含む、モジュール、セグメント、又はコードの一部、を表してもよい。また、いくつかの代替的な実装では、ブロック内に記載された機能が、図面内に記載された順序とは異なって発生してもよいことに、留意されたい。例えば、連続して図示された2つのブロックは、実際、実質的に同時に実行されてもよい、あるいは、それらブロックは、関与する機能に応じて、時には逆の順序で実行されてもよい。
上述したシステム、構成要素、及び/又はプロセスは、ハードウェアで、又はハードウェアとソフトウェアとの組合せで、実現することができ、また、1つの処理システム内で集中的に、あるいは、複数の相互接続された処理システムにわたって異なる要素が分散した分散方式で、実現することができる。本明細書で説明する方法を実行するように構成された任意の種類の処理システム又は別の装置が、適している。ハードウェアとソフトウェアとの典型的な組合せは、ロードされて実行された時には本明細書で説明する方法を実行するように処理システムを制御するコンピュータ使用可能プログラムコードを有した処理システムとすることができる。
システム、構成要素、及び/又はプロセスは、また、本明細書で説明する方法及びプロセスを実行するために機械によって実行可能な命令からなるプログラムを明確に具現化した機械可読のコンピュータプログラム製品又は他のデータプログラム記憶デバイスなどのコンピュータ可読記憶媒体内へと、埋め込むこともできる。これらの要素は、また、本明細書で説明する方法の実装を可能とする特徴点を含むとともに、処理システム内へとロードされた時にはこれらの方法を実行し得る、アプリケーション製品内へと、埋め込むこともできる。
さらに、本明細書で説明する構成は、内部で具現化された例えば内部に格納されたコンピュータ可読プログラムコードを有した1つ又は複数のコンピュータ可読媒体内で具現化された、コンピュータプログラム製品の形態を取ってもよい。1つ又は複数のコンピュータ可読媒体どうしの任意の組合せが利用されてもよい。コンピュータ可読媒体は、コンピュータ可読信号媒体であってもよく、また、コンピュータ可読記憶媒体であってもよい。「コンピュータ可読記憶媒体」という語句は、非一時的な記憶媒体を意味する。コンピュータ可読記憶媒体は、例えば、電子的な、磁気的な、光学的な、電磁的な、赤外線的な、又は半導体的な、システム、装置、又はデバイス、あるいはこれらの任意の適切な組合せ、であってもよいが、これらに限定されるものではない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、携帯用コンピュータディスケット、ハードディスクドライブ(HDD:hard disk drive)、ソリッドステートドライブ(SSD:solid-state drive)、ROM、EPROM又はフラッシュメモリ、携帯用コンパクトディスク読み取り専用メモリ(CD-ROM:compact disc read-only memory)、デジタル多機能ディスク(DVD:digital versatile disc)、光学的記憶デバイス、磁気的記憶デバイス、あるいは、これらの任意の適切な組合せ、を含む。本文書の文脈では、コンピュータ可読記憶媒体は、命令実行システム、命令実行装置、又は命令実行デバイスによる使用のための又はそれらに関連した使用のためのプログラムを含有し得る、又はそのようなプログラムを格納し得る、任意の有形媒体であってもよい。
概して、本明細書で使用した際には、モジュールは、特定のタスクを実行する又は特定のデータタイプを実装する、ルーチン、プログラム、物体、構成要素、データ構造、及び同種のもの、を含む。更なる態様では、メモリは、概ね注記されたモジュールを格納する。モジュールに関連したメモリは、プロセッサ内に埋め込まれたバッファ又はキャッシュ、RAM、ROM、フラッシュメモリ、又は他の適切な電子的記憶媒体、であってもよい。なおも更なる態様では、本開示によって想定されるモジュールは、ASICとして、システムオンチップ(SoC:system on a chip)のハードウェア構成要素として、プログラマブルロジックアレイ(PLA:programmable logic array)として、あるいは、開示した機能を実行するための定義済み構成セット(例えば、命令)が埋め込まれた別の適切なハードウェア構成要素として、実装される。
コンピュータ可読媒体上で具現化されるプログラムコードは、無線、有線、光ファイバ、ケーブル、無線周波数(RF:radio frequency)等、あるいは、これらの任意の適切な組合せ、を含むがこれに限定されない、任意の適切な媒体を使用して送信することができる。本構成の態様に関する動作を実行するためのコンピュータプログラムコードは、Java(登録商標)、Smalltalk、C++、又は同種のもの、などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語、を含む1つ又は複数のプログラミング言語に関しての、任意の組合せで記述されてもよい。プログラムコードは、ユーザのコンピュータ上で全体的に実行されてもよい、又はユーザのコンピュータ上で部分的に実行されてもよい、又はスタンドアロンソフトウェアパッケージとして実行されてもよい、又はユーザのコンピュータ上で部分的に実行されかつリモートコンピュータ上で部分的に実行されてもよい、又はリモートコンピュータ若しくはサーバ上で全体的に実行されてもよい。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN:local area network)又はワイドエリアネットワーク(WAN:wide area network)を含む任意のタイプのネットワークを介して、ユーザのコンピュータに対して接続されてもよく、その接続は、外部のコンピュータに対して(例えば、インターネットサービスプロバイダを使用してインターネットを介して)行われてもよい。
本明細書で使用した際には、「1つの(a)」及び「1つの(an)」という用語は、1つのものとして、又は、2つ以上のものとして、定義される。本明細書で使用した際には、「複数の」という用語は、2つのものとして、又は、3つ以上のものとして、定義される。本明細書で使用した際には、「別の」という用語は、少なくとも第2のものとして、又は、第3以降のものとして、定義される。本明細書で使用した際には、「含む」及び/又は「有する」という用語は、含むもの(すなわち、オープンな言語)として、定義される。本明細書で使用した際には、「...及び...の少なくとも1つ」という語句は、関連して列挙された項目の1つ又は複数に関する、任意のもの及びすべての組合せを、指すとともに包含する。一例として、フレーズ「A、B、及びCの少なくとも1つ」は、A、B、C、又はこれらの任意の組合せ(例えば、AB、AC、BC、又はABC)を含む。
本明細書の態様は、本明細書の精神又は本質的な属性から逸脱することなく、他の形態で具現化することができる。したがって、本明細書の範囲を示すものとして、上記の明細書ではなく、以下の請求項が参照されるものとする。

Claims (20)

  1. 奥行きモデルを訓練するための予測システムであって、
    プロセッサと、
    メモリであって、前記プロセッサによって実行された時には、前記プロセッサに、
    画像をセグメント化することにより、境界ボックスを超えた領域をマスクして、前記境界ボックスの内部の非マスク領域を識別させ、
    前記非マスク領域内で前記画像の画素と関連付けられた重み付け点をグランドトゥルース奥行きと比較することからの奥行き損失を使用して、前記奥行きモデルを訓練させ、
    物体検出のために前記奥行きモデルを提供させる、
    命令を格納したメモリと、
    を含む、予測システム。
  2. 前記奥行きモデルを訓練するための命令は、前記境界ボックスの中心に対して前記画素を適応的に減衰させることにより、および、前記減衰に従って前記重み付け点を選択することにより、前記奥行き損失を計算するための命令をさらに含む、請求項1に記載の予測システム。
  3. 前記奥行きモデルを訓練するための命令は、前記重み付け点を選択するために、ガウス分布に従って前記境界ボックス内の前記画素をランク付けすることにより、前記奥行き損失を計算するための命令をさらに含む、請求項1に記載の予測システム。
  4. 前記重み付け点は、前記境界ボックスの間でオーバーラップする前記画素に対して過度に重み付けされ、前記境界ボックスは、前記画像内で識別された物体を表す、請求項1に記載の予測システム。
  5. 前記奥行きモデルを訓練するための命令は、前記非マスク領域内の物体の識別されたサイズに従って前記重み付け点を選択することにより、前記奥行き損失を計算するための命令をさらに含み、前記識別されたサイズは、前記物体の画素カウントと関連する、請求項1に記載の予測システム。
  6. 前記重み付け点は、前記非マスク領域内の物体の焦点に対して近接している、請求項1に記載の予測システム。
  7. 前記境界ボックスは、前記画像内における、シーン内に物体を有した位置であり、前記重み付け点は、前記画像から生成された点群と関連付けられる、請求項1に記載の予測システム。
  8. 奥行きモデルを訓練するための非一時的コンピュータ可読媒体であって、
    プロセッサによって実行された時には、前記プロセッサに、
    画像をセグメント化することにより、境界ボックスを超えた領域をマスクして、前記境界ボックスの内部の非マスク領域を識別させ、
    前記非マスク領域内で前記画像の画素と関連付けられた重み付け点をグランドトゥルース奥行きと比較することからの奥行き損失を使用して、前記奥行きモデルを訓練させ、
    物体検出のために前記奥行きモデルを提供させる、
    命令を含む、非一時的コンピュータ可読媒体。
  9. 前記奥行きモデルを訓練するための命令は、前記境界ボックスの中心に対して前記画素を適応的に減衰させることにより、および、前記減衰に従って前記重み付け点を選択することにより、前記奥行き損失を計算するための命令をさらに含む、請求項8に記載の非一時的コンピュータ可読媒体。
  10. 前記奥行きモデルを訓練するための命令は、前記重み付け点を選択するために、ガウス分布に従って前記境界ボックス内の前記画素をランク付けすることにより、前記奥行き損失を計算するための命令をさらに含む、請求項8に記載の非一時的コンピュータ可読媒体。
  11. 前記重み付け点は、前記境界ボックスの間でオーバーラップする前記画素に対して過度に重み付けされ、前記境界ボックスは、前記画像内で識別された物体を表す、請求項8に記載の非一時的コンピュータ可読媒体。
  12. 前記奥行きモデルを訓練するための命令は、前記非マスク領域内の物体の識別されたサイズに従って前記重み付け点を選択することにより、前記奥行き損失を計算するための命令をさらに含み、前記識別されたサイズは、前記物体の画素カウントと関連する、請求項8に記載の非一時的コンピュータ可読媒体。
  13. 前記重み付け点は、前記非マスク領域内の物体の焦点に対して近接している、請求項8に記載の非一時的コンピュータ可読媒体。
  14. 画像をセグメント化することにより、境界ボックスを超えた領域をマスクして、前記境界ボックスの内部の非マスク領域を識別することと、
    前記非マスク領域内で前記画像の画素と関連付けられた重み付け点をグランドトゥルース奥行きと比較することからの奥行き損失を使用して、前記奥行きモデルを訓練することと、
    物体検出のために前記奥行きモデルを提供することと、
    を含む、方法。
  15. 前記奥行きモデルを訓練することは、前記境界ボックスの中心に対して前記画素を適応的に減衰させることにより、および、前記減衰に従って前記重み付け点を選択することにより、前記奥行き損失を計算することをさらに含む、請求項14に記載の方法。
  16. 前記奥行きモデルを訓練することは、前記重み付け点を選択するために、ガウス分布に従って前記境界ボックス内の前記画素をランク付けすることにより、前記奥行き損失を計算することをさらに含む、請求項14に記載の方法。
  17. 前記重み付け点は、前記境界ボックスの間でオーバーラップする前記画素に対して過度に重み付けされ、前記境界ボックスは、前記画像内で識別された物体を表す、請求項14に記載の方法。
  18. 前記奥行きモデルを訓練することは、前記非マスク領域内の物体の識別されたサイズに従って前記重み付け点を選択することにより、前記奥行き損失を計算することをさらに含み、前記識別されたサイズは、前記物体の画素カウントと関連する、請求項14に記載の方法。
  19. 前記重み付け点は、前記非マスク領域内の物体の焦点に対して近接している、請求項14に記載の方法。
  20. 前記境界ボックスは、前記画像内における、シーン内に物体を有した位置であり、前記重み付け点は、前記画像から生成された点群と関連付けられる、請求項14に記載の方法。
JP2022041705A 2021-03-16 2022-03-16 奥行き知覚のための予測システムを訓練するためのシステム及び方法 Pending JP2022142787A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163161735P 2021-03-16 2021-03-16
US63/161,735 2021-03-16
US17/384,121 2021-07-23
US17/384,121 US12008818B2 (en) 2021-03-16 2021-07-23 Systems and methods to train a prediction system for depth perception

Publications (1)

Publication Number Publication Date
JP2022142787A true JP2022142787A (ja) 2022-09-30

Family

ID=83283648

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2022041807A Pending JP2022142789A (ja) 2021-03-16 2022-03-16 単眼深度推定およびオブジェクト検出のためのネットワークアーキテクチャ
JP2022041832A Pending JP2022142790A (ja) 2021-03-16 2022-03-16 マルチタスクネットワークのための評価プロセス
JP2022041705A Pending JP2022142787A (ja) 2021-03-16 2022-03-16 奥行き知覚のための予測システムを訓練するためのシステム及び方法
JP2022041668A Pending JP2022142784A (ja) 2021-03-16 2022-03-16 単眼物体検出を向上するための自己学習ラベル精密化のシステム及び方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2022041807A Pending JP2022142789A (ja) 2021-03-16 2022-03-16 単眼深度推定およびオブジェクト検出のためのネットワークアーキテクチャ
JP2022041832A Pending JP2022142790A (ja) 2021-03-16 2022-03-16 マルチタスクネットワークのための評価プロセス

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022041668A Pending JP2022142784A (ja) 2021-03-16 2022-03-16 単眼物体検出を向上するための自己学習ラベル精密化のシステム及び方法

Country Status (2)

Country Link
US (4) US11798288B2 (ja)
JP (4) JP2022142789A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11798288B2 (en) * 2021-03-16 2023-10-24 Toyota Research Institute, Inc. System and method for generating a training set for improving monocular object detection

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0089212B1 (en) * 1982-03-13 1987-10-28 Kabushiki Kaisha Ishida Koki Seisakusho Method and apparatus for sorting articles
CN104346620B (zh) * 2013-07-25 2017-12-29 佳能株式会社 对输入图像中的像素分类的方法和装置及图像处理系统
US9598015B1 (en) * 2015-03-05 2017-03-21 Ambarella, Inc. Automatic mirror adjustment using an in-car camera system
US10999559B1 (en) * 2015-09-11 2021-05-04 Ambarella International Lp Electronic side-mirror with multiple fields of view
US9824289B2 (en) * 2015-12-07 2017-11-21 Conduent Business Services, Llc Exploiting color for license plate recognition
US10530991B2 (en) * 2017-01-28 2020-01-07 Microsoft Technology Licensing, Llc Real-time semantic-aware camera exposure control
US10310087B2 (en) * 2017-05-31 2019-06-04 Uber Technologies, Inc. Range-view LIDAR-based object detection
US10824862B2 (en) * 2017-11-14 2020-11-03 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
US10839234B2 (en) * 2018-09-12 2020-11-17 Tusimple, Inc. System and method for three-dimensional (3D) object detection
WO2020069049A1 (en) 2018-09-25 2020-04-02 Matterport, Inc. Employing three-dimensional data predicted from two-dimensional images using neural networks for 3d modeling applications
AU2019369516B2 (en) 2018-10-30 2023-11-23 Allen Institute Segmenting 3D intracellular structures in microscopy images using an iterative deep learning workflow that incorporates human contributions
US11494937B2 (en) 2018-11-16 2022-11-08 Uatc, Llc Multi-task multi-sensor fusion for three-dimensional object detection
US11037051B2 (en) * 2018-11-28 2021-06-15 Nvidia Corporation 3D plane detection and reconstruction using a monocular image
US11170299B2 (en) * 2018-12-28 2021-11-09 Nvidia Corporation Distance estimation to objects and free-space boundaries in autonomous machine applications
EP3942528A1 (en) 2019-03-21 2022-01-26 Five AI Limited Perception uncertainty
US11455383B2 (en) 2019-04-30 2022-09-27 TruU, Inc. Supervised and unsupervised techniques for motion classification
US10937178B1 (en) * 2019-05-09 2021-03-02 Zoox, Inc. Image-based depth data and bounding boxes
DE102019206985A1 (de) * 2019-05-14 2020-11-19 Robert Bosch Gmbh Verfahren zum Ermitteln eines Betriebswinkels zwischen einer Zugmaschine und einem Anhänger der Zugmaschine
DE102019213546A1 (de) 2019-09-05 2021-03-11 Robert Bosch Gmbh Erzeugung synthetischer Lidarsignale
US11373332B2 (en) * 2020-01-06 2022-06-28 Qualcomm Incorporated Point-based object localization from images
US11145065B2 (en) * 2020-01-22 2021-10-12 Gracenote, Inc. Selection of video frames using a machine learning predictor
GB2593717B (en) * 2020-03-31 2022-08-24 Imperial College Innovations Ltd Image processing system and method
JP2023532285A (ja) * 2020-06-24 2023-07-27 マジック リープ, インコーポレイテッド アモーダル中心予測のためのオブジェクト認識ニューラルネットワーク
US11798180B2 (en) * 2021-02-26 2023-10-24 Adobe Inc. Generating depth images utilizing a machine-learning model built from mixed digital image sources and multiple loss function sets
US11798288B2 (en) * 2021-03-16 2023-10-24 Toyota Research Institute, Inc. System and method for generating a training set for improving monocular object detection
US20220308592A1 (en) * 2021-03-26 2022-09-29 Ohmnilabs, Inc. Vision-based obstacle detection for autonomous mobile robots

Also Published As

Publication number Publication date
US12020489B2 (en) 2024-06-25
US20220301202A1 (en) 2022-09-22
JP2022142790A (ja) 2022-09-30
JP2022142789A (ja) 2022-09-30
US12008818B2 (en) 2024-06-11
US20220300768A1 (en) 2022-09-22
JP2022142784A (ja) 2022-09-30
US11798288B2 (en) 2023-10-24
US20220301203A1 (en) 2022-09-22
US20220300746A1 (en) 2022-09-22

Similar Documents

Publication Publication Date Title
US11126185B2 (en) Systems and methods for predicting vehicle trajectory
US10788585B2 (en) System and method for object detection using a probabilistic observation model
US11447129B2 (en) System and method for predicting the movement of pedestrians
US11216000B2 (en) System and method for estimating lane prediction errors for lane segments
US20220057806A1 (en) Systems and methods for obstacle detection using a neural network model, depth maps, and segmentation maps
US10933880B2 (en) System and method for providing lane curvature estimates
US10962630B1 (en) System and method for calibrating sensors of a sensor system
US11662469B2 (en) System and method for merging clusters
US20210390714A1 (en) Producing a bird's eye view image from a two dimensional image
US12014549B2 (en) Systems and methods for vehicle light signal classification
US11200679B1 (en) System and method for generating a probability distribution of a location of an object
US10860020B2 (en) System and method for adaptive perception in a vehicle
US20230351773A1 (en) Systems and methods for detecting traffic lights corresponding to a driving lane
US11328517B2 (en) System and method for generating feature space data
JP2022191188A (ja) 予測システムを訓練するためのシステムと方法
US11775615B2 (en) System and method for tracking detected objects
US12039438B2 (en) Systems and methods for trajectory forecasting according to semantic category uncertainty
US12008818B2 (en) Systems and methods to train a prediction system for depth perception
US11037324B2 (en) Systems and methods for object detection including z-domain and range-domain analysis
US20240037961A1 (en) Systems and methods for detecting lanes using a segmented image and semantic context
US11809524B2 (en) System and method for training an adapter network to improve transferability to real-world datasets
US11238292B2 (en) Systems and methods for determining the direction of an object in an image
US20230343109A1 (en) Systems and methods for detecting traffic lights of driving lanes using a camera and multiple models
US12046050B2 (en) Systems and methods for detecting traffic lights using hierarchical modeling
US11935254B2 (en) Systems and methods for predicting depth using style transfer