JP2023515494A - 組み合わされたトラック信頼度及び分類モデル - Google Patents
組み合わされたトラック信頼度及び分類モデル Download PDFInfo
- Publication number
- JP2023515494A JP2023515494A JP2022549885A JP2022549885A JP2023515494A JP 2023515494 A JP2023515494 A JP 2023515494A JP 2022549885 A JP2022549885 A JP 2022549885A JP 2022549885 A JP2022549885 A JP 2022549885A JP 2023515494 A JP2023515494 A JP 2023515494A
- Authority
- JP
- Japan
- Prior art keywords
- track
- object detection
- data
- model
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title description 5
- 238000001514 detection method Methods 0.000 claims abstract description 129
- 238000010801 machine learning Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000008447 perception Effects 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000001953 sensory effect Effects 0.000 description 43
- 238000012549 training Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000004927 fusion Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000001133 acceleration Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000033001 locomotion Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241000238876 Acari Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000010238 partial least squares regression Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012628 principal component regression Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000972773 Aulopiformes Species 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000013488 ordinary least square regression Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 235000019515 salmon Nutrition 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/86—Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/93—Lidar systems specially adapted for specific applications for anti-collision purposes
- G01S17/931—Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/16—Anti-collision systems
- G08G1/166—Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Electromagnetism (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Aviation & Aerospace Engineering (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、組み合わされたトラック信頼度及び分類モデルに関する。
(関連出願の相互参照)
本出願は、2020年2月21日に出願され、「COMBINED TRACK CONFIDENCE AND CLASSIFICATION MODEL」と題された米国特許出願第16/797,656号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
本出願は、2020年2月21日に出願され、「COMBINED TRACK CONFIDENCE AND CLASSIFICATION MODEL」と題された米国特許出願第16/797,656号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
オブジェクトの検出及び追跡は、自律車両の操作、セキュリティ目的のための個人の識別など、多くの用途で使用されている。検出及び追跡技術は、センサを使用して環境に関するデータを取り込み、このセンサデータを使用して環境内のオブジェクトを検出し得る。検出及び追跡技術は、2つ以上の異なるタイプのセンサを利用し得るため、センサデータは、その形式及び内容において広範囲に異なる場合があり、検出アルゴリズムは、センサデータを異なる方法で処理し得るが、異なるセンサタイプによって生成された検出は異なる場合がある。
詳細な説明は、添付の図面を参照してなされる。図面において、参照番号の左端の数字は、その参照番号が最初に現れる図を識別する。異なる図面における同一の参照番号は、類似するまたは同一の項目を示している。
本明細書で論じられる技術は、一般に、トラック信頼度メトリック及びトラックの分類の両方を、1つまたは複数のパイプラインからの出力(例えば、少なくともいくつかの例では、特定のタイプまたはサブタイプのデータのみの使用を含む、特定の結果をもたらすためにデータに対して実行される一連のステップまたは動作)に少なくとも部分的に基づいて決定し得る、組み合わされたトラック信頼度及び分類モデル(本明細書では「組み合わされたモデル」とも称する)に関する。いくつかの例では、1つまたは複数のパイプライン(それらは知覚データ で動作するので、全体を通して知覚パイプラインとして参照され得る)は、異なるセンサタイプ(例えば、ライダセンサ、カメラ、レーダセンサ)に関連付けられたパイプライン、および/またはライダ-視覚などのセンサのハイブリッドな組み合わせに関連付けられたパイプラインなど)に関連付けられ得る。追跡コンポーネントは、1つまたは複数のパイプラインから入力を受け入れ、1つまたは複数のトラックを生成し得る。より具体的には、追跡コンポーネントは、1つまたは複数のパイプラインから受信したパイプラインデータに基づいて、検出されたオブジェクト(または追跡されたオブジェクト)の現在および/または前の位置、速度、加速度、および/または向きを含むトラックを追跡し、出力するように構成され得る。トラック信頼度メトリックは、関連付けられたトラックがトゥルーポジティブ(対応する追跡されたオブジェクトが環境内に存在する)かフォールスポジティブ(対応する追跡されたオブジェクトがパイプライン及び追跡コンポーネントによって検出及び追跡されたが、環境内に存在しない)かの尺度を提供し得る。さらに、トラックのための組み合わされたモデルによって出力される分類は、1つまたは複数の知覚パイプラインからの情報に基づいて決定され得る粗い分類及び/または細かい分類を含み得る。自律運転システムのいくつかの自律車両の実装では、トラックの追跡されたオブジェクトの粗い分類は、車両、歩行者、自転車運転者、および散乱物(clutter)などの一般的なカテゴリを含み得、一方、トラックの追跡されたオブジェクトの細かい分類は、例えば、サービス車両、オートバイ、トラクタートレーラー、セダン、ピックアップなどが車両の粗い分類内の細かい分類であるより具体的なサブカテゴリであり得る。
本明細書で詳細に説明されるいくつかの例では、トラックは、時間の経過とともにそのようなオブジェクトに関連付けられた運動学的および/または動的情報(例えば、線形および/または角速度、線形および/または角加速度など)に加えて、検出されたオブジェクトの以前の位置、方向、サイズ(範囲)、分類などの履歴記録との一定期間にわたる検出の関連付けを含み得る。
いくつかの例では、組み合わされたモデルは、自律車両または同様の自律または部分的自律システムの自動運転システムにおいて利用され得る。トラック信頼度メトリックは、自動運転システムの予測および/または計画コンポーネントに、関連付けられたトラックを出力するかどうかを決定するために利用され得る。他の例では、関連付けられたトラックは、自動運転システムの予測および/または計画コンポーネントに、トラック信頼度メトリックと共に出力され得る。次に、予測および/または計画コンポーネントは、トラック信頼度メトリックを利用して、重み(例えば、アップウェイトまたはダウンウェイト)を決定し、関連付けられたトラックを与え得る。分類(例えば、粗いおよび/または細かい分類)は、予測および/または計画コンポーネントによって利用されて、トラックに関連付けられたオブジェクトの変化および挙動を予測し、および/または自動運転システムの軌道または他のアクションを計画し得る。
本明細書で論じられる技術は、例えば、トラック及びその分類の精度を向上させること、及び/または一般にオブジェクトの検出を向上させることによって、オブジェクトの検出及び追跡を向上させ得る。例えば、組み合わされたモデルによって出力されたトラック信頼度メトリックは、追跡コンポーネントによって生成されたフォールスポジティブを検出及び/または抑制し、特定のパイプラインまたは複数のパイプラインへの過度の依存を回避するために使用されてもよく、これは、他のパイプライン内の実際のオブジェクトの検出が、過度に依存したパイプラインによる不検出のために無視されるシナリオにつながり得る。さらに、複数の知覚パイプラインからの情報に基づく組み合わされたモデルによる分類の決定は、いくつかのパイプラインが追跡されたオブジェクトのオブジェクト検出を提供しないときに分類を可能にし得、それによって特定のパイプラインへの過度の依存を排除し、冗長または競合するデータを削減する。オブジェクト及び/またはトラックがフォールスポジティブであるかまたはトゥルーポジティブであるかどうかを判定するためのヒューリスティックロジックは、開発及び改良することが困難であり、改善するために大幅な投資を必要とし得る。トラック信頼度メトリック及びトラックの分類(例えば、トラックの対応する追跡されたオブジェクトの分類)の両方を生成するための組み合わされたモデルの動作は、システム内の計算及びレイテンシを低減するとともに、システムの開発及び改良をより簡単にし得る。
上述のように、トラック信頼度メトリックは、複数の知覚パイプラインから集約されたトラックデータ(本明細書ではトラックの集約されたトラックデータと呼ばれる)が環境内のオブジェクトに対応する可能性を示し得る。例えば、トラック信頼度メトリックは、0と1との間の値であってよく、0は、トラックがトゥルーポジティブである可能性が低いことを組み合わされたモデルによって示すことを表し、1は、トラックがトゥルーポジティブである可能性が高いことを示すが、他の変更も考えられる。
トラック信頼度メトリック判定は、複数の知覚パイプラインの出力及び追跡コンポーネントの出力に少なくとも部分的に基づいて動作し得る。パイプラインデータは、それぞれのパイプラインによるオブジェクト検出に関する情報を含み得る。追跡コンポーネントは、知覚パイプラインから受信したパイプラインデータに基づいて、検出されたオブジェクトの現在および/または以前の位置、速度、加速度、および/または向きを追跡し、出力するように構成され得る。いくつかの例では、複数の知覚パイプラインの出力は、追跡コンポーネントによって、追跡されたオブジェクトに関連付けられた集約された追跡データに集約され得る。
一般に、追跡は、最近受信された(例えば、現在の)センサデータから生成された現在のオブジェクト検出を、他の(例えば、以前に受信された)センサデータから生成された別のオブジェクト検出に関連付けるかどうかを決定することを含み得る。トラックの集約されたトラックデータは、以前のセンサデータ及び現在のセンサデータ及び/または複数の知覚パイプラインによって出力された現在のパイプラインデータ内で検出されたオブジェクトが同じオブジェクトであることを識別し得る。いくつかの例では、集約されたトラックデータに集約されたデータは、現在の時間及び/または1つまたは複数の以前の時間のパイプライン出力の少なくとも一部を含み得る。
いくつかの例では、センサは、一定間隔または入力サイクルで知覚パイプラインにセンサデータを入力し得る。知覚パイプラインは、各入力サイクルについてパイプラインデータを生成し、追跡コンポーネントに出力し得る。いくつかの例では、パイプラインは、入力サイクル(例えば、100ミリ秒毎、500ミリ秒毎、1秒毎)に対応し得る周波数でパイプライン出力を生成するように同期され得る。パイプラインが500ミリ秒(例えば、500msサイクル)ごとに実質的に同じ時間でパイプラインデータを出力するように同期される例では、集約されたトラックデータは、0ミリ秒(すなわち、現在の入力サイクルのパイプラインデータの最近受信されたセットに対応するデータのセット)、-500ミリ秒、-1秒などについて上述したデータを含み得る。少なくとも1つの例では、集約されたトラックデータは、時間ステップ0ミリ秒、-100ミリ秒、-200ミリ秒、-300ミリ秒、及び/または-400ミリ秒、及び/または-1秒、-2秒、及び/または-3秒についてのパイプラインデータを含み得るが、任意の適切な時間ステップまたはサイクル長が使用され得る。いくつかの例では、時間ウィンドウにわたるすべての時間サイクルまたは一定間隔(例えば、すべての他のサイクル)に関連付けられたトラックデータは、現在のトラックデータと共に組み合わされたモデルに入力され得る。
上述したように、パイプラインデータは、トラックを決定するために利用され得るオブジェクト検出についての情報を含み得る。例えば、パイプラインデータは、少なくとも1つのパイプラインのMLモデルによって決定され、オブジェクトに関連付けられたセンサ及び/または知覚データの一部を識別する1つまたは複数の関心領域(ROI)の表示を含み得る。例えば、パイプラインによって出力されるパイプラインデータは、パイプラインによって検出されるオブジェクトに関連付けられた関心領域(ROI)の中心、範囲、及び/またはヨーを含んでよい。いくつかの例では、本明細書で論じられる関心領域は、関心のある3次元領域及び/または関心のある2次元領域(例えば、環境のトップダウン/鳥瞰図)であり得る。いくつかの例は、画像の異なる部分について複数の関心領域(ROI)を受信することを含み得る。ROIは、画像内のオブジェクトの存在を識別し得る任意の形態であり得る。例えば、ROIは、検出されたオブジェクトに関連付けられていると識別されたピクセルを示すボックスまたは他の形状(「バウンディングボックス」)、検出されたオブジェクトに対応するピクセルを含むマスクなどを含み得る。
追跡コンポーネントは、オブジェクト検出に関する情報を利用して、複数のパイプラインからのオブジェクト検出と、異なる入力サイクルからのオブジェクト検出とを照合し得る。追跡コンポーネントは、照合されたオブジェクト検出に関する情報を含むトラックのトラックデータを生成し得る。したがって、いくつかの例では、トラックは、オブジェクトに関連付けられた関心領域(ROI)の中心、範囲、及び/またはヨー、ならびに/または以前のサイクルでトラックに関連付けられて生成された以前のROIに関する同様の情報を含み得る。
トラックデータは、追加的または代替的に、追跡されたオブジェクトに関する他のデータを含み得る。例えば、トラックデータは、オブジェクト(例えば、車両、大型車両、歩行者、自転車運転者)に関連付けられた分類、オブジェクトに関連付けられた現在/または以前の向き、オブジェクトの現在及び/または以前の速度及び/または加速度、ならびに/またはオブジェクトの現在及び/または以前の位置を含み得る。
いくつかの例では、他のコンポーネントは、追跡コンポーネントによって出力されるトラックデータを利用して、自律車両を制御し得る。例えば、自律車両の計画コンポーネントは、検出されたオブジェクトの動き/挙動を予測し、そのような現在及び/または以前のデータに少なくとも部分的に基づいて、自律車両を制御するための軌道及び/または経路を決定し得る。
上述したように、知覚コンポーネントのいくつかの知覚パイプラインは、センサのそれぞれのセットに関連付けられ得、センサのそれぞれのセットからのデータに基づいて動作し得る。センサのそれぞれのセットに関連付けられたいくつかの例示的な知覚パイプラインは、視覚パイプライン、ライダパイプライン、レーダパイプラインなどの単一のセンサタイプパイプライン、及び/または視覚-ライダパイプライン、視覚-ライダ-レーダパイプラインなどの組み合わされたセンサタイプパイプラインを含み得る。いくつかの例では、少なくとも1つの知覚パイプラインは、他の知覚パイプラインからのデータに少なくとも部分的に基づいて動作し得る融合検出器またはディープ追跡ネットワークコンポーネントであり得る。例えば、両方ともその全体が本明細書に組み込まれる、米国特許出願第62/926,423号の利益を主張する米国特許出願第16/779,576号を参照されたい。
追加的または代替的に、知覚パイプラインは、パイプラインによって生成されたオブジェクト検出のオブジェクト信頼度スコアを決定し得る。例えば、パイプラインは、パイプラインが画像内の顕著なオブジェクトを実際に識別したかどうか、及び/またはオブジェクトに関連付けられたROIがオブジェクトにどの程度適合するかを示すオブジェクト信頼度スコアを生成し得るMLモデルを含んでよい。例えば、オブジェクト信頼度スコアは、0と1との間の値であってよく、0は、オブジェクトがROIに出現する可能性が低いことを表し、1は、オブジェクトがROIに出現する可能性が高いことを示すが、他の変更も考えられる。オブジェクト信頼度は、パイプラインデータ内のオブジェクト検出に関連する情報に含まれ得る。言い換えると、パイプラインは、オブジェクトがどこにある可能性があるかの指示、およびオブジェクトを正しく識別する可能性がどの程度あるか、および/またはROIがオブジェクトが画像内のどこにあるかをどの程度よく指摘するかを示すスコアを出力し得る。
上述したように、追跡コンポーネントは、1つまたは複数の知覚パイプラインによって出力される検出に関する情報をパイプラインデータとして受信し得る。追跡コンポーネントは、パイプラインデータ内の検出に関する情報を比較して、同じオブジェクトに関連するトラックを決定し得る。同じオブジェクトに関連するパイプラインデータを組み合わせて、集約されたトラックデータを生成し得る。例えば、パイプラインからのパイプラインデータを既存のトラックのデータと比較して、既存のトラックがパイプラインデータとマッチするかどうかを判定し得る。既存のトラックがパイプラインデータとマッチすることが見出された場合、トラックデータは、既存の集約されたトラックデータに組み込まれ得る。そうでない場合、新しいトラックが、パイプラインデータに基づいて生成され得る。追跡コンポーネントによるトラックの生成に関する追加の詳細は、米国特許出願第16/297,381号において提供され、その全体が本明細書に組み込まれる集約されたトラックデータは、次いで、組み合わされたモデルによって分析されて、集約されたトラックデータに関連付けられたトラックのトラック信頼度メトリック及び分類を生成し得る。
組み合わされたモデルは、いくつかの例では、トラックのトラック信頼度メトリックとトラックに関連付けられたオブジェクトの分類との両方を推論し得る単一の機械学習モデルを含み得る。少なくとも1つの非限定的な例では、組み合わされたモデルは、複数の知覚パイプラインからのデータを含む集約されたトラックデータを入力として受信して、トラック信頼度メトリック及び集約されたトラックデータに関連付けられたオブジェクトの粗い及び/または細かい分類を生成し得る単一の多層パーセプトロンであってもよい。
組み合わされたモデルに入力され得るデータの例示的なセットは、例えば、ライダ及び視覚のセマンティックセグメンテーション確率(例えば、フロート確率ベクトルの形態)などのライダ、レーダ、視覚、及び融合パイプラインオブジェクト検出、各知覚パイプラインのトラックに関連付けられたオブジェクト検出の存在を示すメトリクス、ライダオブジェクト検出におけるボクセルの総数などのトラックのオブジェクト検出統計、視覚オブジェクト検出信頼度、レーダオブジェクト検出ドプラー曖昧性解決状態など(連続フロート値として組み合わされたモデルに入力され得る)を含み得る。組み合わされたモデルは、追加的または代替的に、入力として、視覚パイプラインからの分類データ及び/またはライダパイプラインからのトップダウンセグメンテーション確率を(例えば、ワンホットベクトルまたは確率値のベクトルの形で)受信し得る。さらに、組み合わされたモデルへの入力は、速度、範囲、遮られる可能性のあるオブジェクトの割合、センサを含むデバイスからの距離などの幾何学的特性を追加的または代替的に含み得る。上記のデータに加えて、以前のサイクル、ティック、または動作からのトラックに関連付けられた任意の以前に生成されたデータも、組み合わされたモデルによって利用され得る。
例えば入力の例示的な形態が上記で提供されるが、実施形態はそれほど限定されず、そのような形態は、実装ごとに異なり得る。例えば、入力は、実装に応じて、ワンホットベクトルに離散化されてもよく、または連続値として入力されてもよい。
組み合わされたトラック信頼度及び分類モデルを訓練し、利用するための非限定的な例示的なシステムに関する追加の詳細は、図を参照して以下に提供される。
(例示的なシナリオ)
図1は、車両102を含む例示的なシナリオ100を示している。いくつかの例では、車両102は、米国運輸省道路交通安全局によって発行されたレベル5分類に従って動作するよう構成される自律車両であってよく、この分類は、運転者(または乗員)の常時車両制御を期待することなく全行程に対する全てのセーフティクリティカルな機能を実行することが可能な車両を説明する。しかしながら、他の例では、車両102は、任意の他のレベルまたは分類を有する完全なまたは部分的な自律車両であってよい。本明細書で説明される技術は、自律車両のようなロボット制御以外にも適用され得ることが企図される。例えば、本明細書に記載される技術は、マイニング、製造、拡張現実などに適用され得る。さらに、車両102は、陸上車両として描写されているが、宇宙船、水上機、および/または同様のものであってもよい。いくつかの例では、車両102は、シミュレーションされた車両としてシミュレーションにおいて表されてもよい。簡潔にするために、本明細書での説明は、シミュレーションされた車両と現実世界の車両とを区別しない。したがって、「車両」への言及は、シミュレーションされた車両および/または現実世界の車両を指す場合がある。
図1は、車両102を含む例示的なシナリオ100を示している。いくつかの例では、車両102は、米国運輸省道路交通安全局によって発行されたレベル5分類に従って動作するよう構成される自律車両であってよく、この分類は、運転者(または乗員)の常時車両制御を期待することなく全行程に対する全てのセーフティクリティカルな機能を実行することが可能な車両を説明する。しかしながら、他の例では、車両102は、任意の他のレベルまたは分類を有する完全なまたは部分的な自律車両であってよい。本明細書で説明される技術は、自律車両のようなロボット制御以外にも適用され得ることが企図される。例えば、本明細書に記載される技術は、マイニング、製造、拡張現実などに適用され得る。さらに、車両102は、陸上車両として描写されているが、宇宙船、水上機、および/または同様のものであってもよい。いくつかの例では、車両102は、シミュレーションされた車両としてシミュレーションにおいて表されてもよい。簡潔にするために、本明細書での説明は、シミュレーションされた車両と現実世界の車両とを区別しない。したがって、「車両」への言及は、シミュレーションされた車両および/または現実世界の車両を指す場合がある。
本明細書に記載される技術によれば、車両102は、車両102のセンサ104からセンサデータを受信し得る。例えば、センサ104は、位置センサ(例えば、全地球測位システム(GPS)センサ)、慣性センサ(例えば、加速度センサ、ジャイロスコープセンサ等)、磁場センサ(例えば、コンパス)、位置/速度/加速度センサ(例えば、速度計、駆動システムセンサ)、深度位置センサ(例えば、ライダセンサ、レーダセンサ、ソナーセンサ、飛行時間(ToF)カメラ、深度カメラ、超音波及び/またはソナーセンサ、及び/または他の深度感知センサ)、画像センサ(例えば、カメラ)、音声センサ(例えば、マイクロフォン)、及び/または環境センサ(例えば、気圧計、湿度計等)を含んでよい。
センサ104は、センサデータを生成し得、センサデータは、車両102に関連付けられたコンピューティングデバイス106によって受信され得る。しかしながら、他の例では、センサ104および/またはコンピューティングデバイス106のうちのいくつかまたは全ては、車両102から離れて別個に、および/または車両102から遠隔に配置され、データキャプチャ、処理、コマンド、および/または制御は、有線および/または無線ネットワークを介して1つまたは複数のリモートコンピューティングデバイスによって車両102との間で通信され得る。
コンピューティングデバイス106は、知覚コンポーネント110、追跡コンポーネント112、組み合わされたモデル114、予測コンポーネント116、計画コンポーネント118、及び/またはシステムコントローラ120を記憶するメモリ108を備えてもよい。図示されるように、知覚コンポーネント110は、追跡コンポーネント112および/または組み合わされたモデル114を含み得る。例示的な目的のために図1に描写されるが、追跡コンポーネント112および/または組み合わされたモデル114は、他のコンポーネントのうちのいずれか1つまたは複数とは別個のコンピューティングデバイス(またはその他)内/上に存在し得ることを理解されたい。一般に、知覚コンポーネント110は、車両102を取り囲む環境に何があるかを判定し得、予測コンポーネント116は、車両102を取り囲む環境内のオブジェクトの将来の動きまたは挙動を推定または予測し得、計画コンポーネント118は、知覚コンポーネント110及び/または予測コンポーネント116から受信した情報に従って、車両102を動作せる方法を決定し得る。例えば、計画コンポーネント118は、知覚データ、予測データおよび/または例えば、1つまたは複数の地図、位置情報(例えば、車両102が地図及び/または知覚コンポーネント110によって検出された特徴に対して環境内にある場合)等の他の情報に少なくとも部分的に基づいて軌道128を決定してもよい。軌道128は、車両位置、車両速度、および/または車両加速度をもたらし得るステアリング角度及び/またはステアリング速度を実現するように車両102の駆動コンポーネントを作動させるためのシステムコントローラ120に対する命令を含んでよい。例えば、軌道128は、コントローラ120が追跡するためのターゲット方向、ターゲットステアリング角度、ターゲットステアリング速度、ターゲット位置、ターゲット速度、および/またはターゲット加速度を含み得る。知覚コンポーネント110、予測コンポーネント116、計画コンポーネント118、及び/または追跡コンポーネント112は、1つまたは複数の機械学習(ML)モデル及び/または他のコンピュータ実行可能命令を含み得る。
いくつかの例では、知覚コンポーネント110は、センサ104からセンサデータを受信し、車両102の近傍のオブジェクト130に関連するデータ(例えば、検出されたオブジェクトに関連する分類、インスタンスセグメンテーション、セマンティックセグメンテーション、2次元及び/または3次元バウンディングボックス、トラック)、車両の目的地を指定する経路データ、車道の特徴を識別するグローバル地図データ(例えば、自律車両を位置決めするのに有用な異なる知覚パイプラインで検出可能な特徴)、車両に近接して検出された特徴を識別するローカル地図データ(例えば、建物、木、フェンス、消火栓、停止標識の位置及び/または寸法、ならびに様々な知覚パイプライン内で検出可能な任意の他の特徴)などを決定し得る。知覚コンポーネント110によって決定されるオブジェクト分類は、例えば、乗用車、歩行者、自転車運転者、配送トラック、セミトラック、交通標識等の異なるオブジェクトタイプを区別し得る。知覚コンポーネント110によって生成されたデータは、知覚データと総称され得る。
いくつかの例では、知覚コンポーネント110は、センサ能力、オブジェクト並びに/または環境オクルージョン(例えば、建物、高低差、他のオブジェクトの前方のオブジェクト)、および/または霧、雪などの環境影響によって制限され得る、自律車両を取り巻く環境のできるだけ多くを監視し得る。例えば、センサデータは、画像データ122、LIDAR124及び/またはレーダデータ(図示せず)を含んでもよく、これは、知覚コンポーネント110が入力として受信し得る。知覚コンポーネント110は、オブジェクトの変化または挙動を予測する際に予測コンポーネント116によって、および軌道128を決定する際に計画コンポーネント118によって考慮されるべきイベントまたはオブジェクトの挙動を考慮に入れないことを回避するために、できるだけ多くのオブジェクトおよび環境に関する情報を検出するように構成され得る。
いくつかの例では、知覚コンポーネント110は、1つまたは複数のGPU、MLモデル、カルマンフィルタ、及び/または同様のものを含み得る、ハードウェア及び/またはソフトウェアの1つまたは複数のパイプラインを含んでもよい。例えば、知覚データは、知覚コンポーネントのセンサ固有のパイプライン(例えば、視覚、ライダ、レーダ)、ハイブリッドセンサパイプライン(例えば、視覚-ライダ、レーダ-ライダ)、及び/または融合パイプライン(例えば、他のパイプラインの出力に少なくとも部分的に基づいて動作するパイプライン)の出力を含み得る。
いくつかの例では、知覚コンポーネント110の追跡コンポーネント112は、センサ104から受信したセンサデータに少なくとも部分的に基づいて追跡データを生成し得る。いくつかの例では、トラックデータは、知覚コンポーネント110によって出力される知覚データの一部であり得る。より具体的には、追跡コンポーネント112は、知覚コンポーネント110の1つまたは複数の知覚パイプラインから受信されたパイプラインデータに基づいて追跡データを決定し得る。例えば、知覚コンポーネント110は、センサ104のセットに関連付けられた知覚パイプラインを含み得る。いくつかの例では、各タイプのセンサ104は、知覚コンポーネント110の1つまたは複数の知覚パイプラインに関連付けられ得る。いくつかの知覚パイプラインは、複数のタイプのセンサに関連付けられ得る。追加的または代替的に、いくつかの知覚パイプラインは、1つまたは複数の他の知覚パイプライン(例えば、ディープ追跡ネットワークなどの融合検出器に関連付けられたパイプライン)によって出力される検出データに基づいて動作し得る。複数のパイプラインはそれぞれ、オブジェクトを検出し、各入力サイクルで検出されたオブジェクトの検出情報を生成し得る。
各パイプラインによって出力されるパイプラインデータは、1つまたは複数のオブジェクト検出を含み得る。いくつかの例では、トラックの検出されたオブジェクトは、環境内のオブジェクトの位置及び/または任意の他の知覚データを示す関心領域(ROI)に関連付けられ得る。そのようなROIは、図1に示され、画像122及びライダデータ124はそれぞれ、示されたトラックに関連付けられたROI126を含む。
追跡コンポーネント112は、様々なパイプラインからのオブジェクト検出を、以前のサイクルからのトラックと集約し得る(例えば、追跡されたオブジェクトの現在位置が、現在の検出のために複数のパイプラインにわたってどのくらい密接にマッチするか、および現在位置が、以前のサイクルに基づいて生成されたトラックに基づいて決定された予測された位置とどのくらい密接にマッチするかなど、様々なデータを考慮し得る類似性閾値に基づいて)。
具体的には、いくつかの例では、本明細書で説明されるコンポーネント112の各パイプラインは、1つまたは複数のセンサタイプ(例えば、ライダ、RGBカメラ、熱画像、ソナー、レーダなどの別個のセンサタイプ、または視覚-ライダ関連付け、ライダ-レーダ関連付けなどのハイブリッドセンサタイプ)によって生成されたセンサデータからオブジェクト検出を決定し得る。図1に示されるように、トラック132は、中心134、範囲、向き、分類136などを含み得る、少なくとも以前の関心領域126を含んでよい。オブジェクト検出は、推定された中心140及び向き142を有する推定されたROI138を含み得る。いくつかの例では、本明細書で説明される技術は、投影144を確立するために、トラックに関連付けられた速度及び/または向きに少なくとも部分的に基づいて、以前のROI126を投影することを含み得る。オブジェクト検出を投影144と比較して、オブジェクト検出がトラックとマッチするかどうかを決定し得る。
いくつかの例では、1つまたは複数の検出は、以前のトラックに照合されてもよく、または、照合が決定されない場合、新しいトラックが生成されてもよく、1つまたは複数の検出は、それに関連付けられてもよい。知覚コンポーネント110は、このデータのいずれかを、組み合わされたモデル114に出力し得る。
組み合わされたモデル114は、いくつかの例では、トラックのトラック信頼度メトリックとトラックに関連付けられたオブジェクトの分類との両方を推論し得る単一の機械学習モデルを含み得る。言い換えると、組み合わされたモデル114は、例えば、別個の分類コンポーネントを含む知覚コンポーネント110またはその追跡コンポーネント112の代わりに、知覚コンポーネント110によって出力される知覚データの分類部分を生成し得る。いくつかの例では、組み合わされたモデル114は、複数の知覚パイプラインからのデータを含む集約されたトラックデータに少なくとも部分的に基づいて動作して、トラック信頼度メトリックおよび集約されたトラックデータに関連付けられたオブジェクトの粗いおよび/または細かい分類を決定し得る多層パーセプトロンモデルであり得る。いくつかの例では、組み合わされたモデル114によって出力される分類は、集約されたトラックデータに集約され得る。
組み合わされたモデルに入力され得る集約されたトラックデータの例示的なセットは、例えば、ライダ及び視覚のセマンティックセグメンテーション確率(例えば、フロート確率ベクトル、マスクにわたる確率分散、またはフィールドの形態で)などのライダ、レーダ、視覚、及び融合パイプラインオブジェクト検出、各知覚パイプラインのトラックに関連付けられたオブジェクト検出の存在を示すメトリック、ライダ検出におけるボクセルの総数などのトラックのオブジェクト検出統計、視覚検出信頼度、レーダ検出ドプラー曖昧性解決状態など(連続フロート値として組み合わされたモデルに入力され得る)を含み得る。いくつかの例では、組み合わされたモデル114は、追加的または代替的に、視覚パイプライン(画像データ上で動作するパイプライン)からの入力としての分類データ、及びライダパイプラインからのトップダウンセグメンテーション確率を(例えば、ワンホットベクトル、確率値のベクトル、または確率に関連付けられたピクセル値を有する画像の形態で)受信してもよい。さらに、組み合わされたモデル114への入力は、速度、範囲、遮られる割合、センサを含むデバイスからの距離などの幾何学的特性を追加的または代替的に含み得る。上記のデータに加えて、以前のサイクル、ティック、または動作からのトラックに関連付けられた任意の以前に生成されたデータも、組み合わされたモデル114によって利用され得る。
いくつかの例では、知覚コンポーネント110が知覚データを生成すると(例えば、追跡コンポーネント112が集約されたトラックデータを生成し、組み合わされたモデル114がトラックについてのトラック信頼度メトリック及び分類を生成する)、知覚コンポーネント110は、閾値を超えるトラック信頼度メトリックを有するトラックを決定し得る。知覚コンポーネント110は、次いで、閾値を満たすかまたは超える信頼度メトリックを有するトラックに関連付けられた知覚データを予測コンポーネント116及び/または計画コンポーネント118に提供し得る。他の例では、関連付けられたトラックは、トラック信頼度メトリックと共に、予測コンポーネント116および/または計画コンポーネント118に出力され得る。次に、予測および/または計画コンポーネントは、トラック信頼度メトリックを利用して、重み(例えば、アップウェイトまたはダウンウェイト)を決定し、関連付けられたトラックを与え得る。
計画コンポーネント118は、知覚コンポーネント110から受信した知覚データ及び/または予測コンポーネント116から受信した予測データに少なくとも部分的に基づいて、車両102の動きを制御するための1つまたは複数の軌道128を決定し得る。いくつかの例では、計画コンポーネント118は、経路またはルートを横断するように車両102を制御するために、及び/またはそうでなければ車両102の動作を制御するために、1つまたは複数の軌道128を決定し得るが、任意のそのような動作は、様々な他のコンポーネントで実行されてもよい(例えば、位置決めは、位置決めコンポーネントによって実行され得、知覚データに少なくとも部分的に基づいてもよい)。例えば、計画コンポーネント118は、第1の位置から第2の位置への車両102のルートを決定し、(そのようなデータ内の検出されたオブジェクトに関する予測をさらに含み得る)知覚データおよび/またはシミュレートされた知覚データに実質的に同時にかつ少なくとも部分的に基づいて、後退水平線技法(例えば、1マイクロ秒、半秒)に従って車両102の動きを制御するための複数の潜在的な軌道を生成して、(例えば、任意の検出されたオブジェクトを回避するために)ルートを横断するように車両を制御し、車両102の駆動コンポーネントに送信され得る駆動制御信号を生成するために使用され得る潜在的な軌道のうちの1つを車両102の軌道128として選択し得る。図1は、方向、速度、および/または加速度を示す矢印として表されるそのような軌道128の例を示すが、軌道自体は、コントローラ120のための命令を含んでもよく、コントローラ120は、次いで、車両102の駆動システムを作動させてもよい。
いくつかの例では、コントローラ120は、軌道128を追跡するのに十分な車両102の駆動コンポーネントを作動させるためのソフトウェアおよび/またはハードウェアを備え得る。例えば、コントローラ120は、1つまたは複数の比例-積分-微分(PID)コントローラを備え得る。
例示的なシステム
図2は、本明細書で説明される技術を実装する例示的なシステム200のブロック図を示す。いくつかの例では、例示的なシステム200は、図1の車両102を表し得る車両202を含み得る。いくつかの例では、車両202は、米国運輸省道路交通安全局によって発行されたレベル5分類に従って動作するよう構成された自律車両であってよく、この分類は、運転者(または乗員)の常時車両制御を期待することなく全行程に対する全ての安全上重要な機能を実行することが可能な車両を説明する。しかしながら、他の例では、車両202は、他のレベルまたは分類を有する完全なまたは部分的な自律車両であり得る。さらに、場合によっては、本明細書に記載の技術は、非自律車両によっても使用可能であり得る。
図2は、本明細書で説明される技術を実装する例示的なシステム200のブロック図を示す。いくつかの例では、例示的なシステム200は、図1の車両102を表し得る車両202を含み得る。いくつかの例では、車両202は、米国運輸省道路交通安全局によって発行されたレベル5分類に従って動作するよう構成された自律車両であってよく、この分類は、運転者(または乗員)の常時車両制御を期待することなく全行程に対する全ての安全上重要な機能を実行することが可能な車両を説明する。しかしながら、他の例では、車両202は、他のレベルまたは分類を有する完全なまたは部分的な自律車両であり得る。さらに、場合によっては、本明細書に記載の技術は、非自律車両によっても使用可能であり得る。
車両202は、車両コンピューティングデバイス204、センサ206、エミッタ208、ネットワークインターフェース210、及び/または駆動コンポーネント212を含み得る。車両コンピューティングデバイス204は、コンピューティングデバイス106を表し得、センサ206は、センサ104を表し得る。システム200は、追加的または代替的に、コンピューティングデバイス214を含み得る。
いくつかの例では、センサ206は、センサ104を表してもよく、ライダセンサ、レーダセンサ、超音波トランスデューサ、ソナーセンサ、位置センサ(例えば、グローバルポジショニングシステム(GPS)、コンパスなど)、慣性センサ(例えば、慣性測定ユニット(IMU)、加速度計、磁力計、ジャイロスコープなど)、画像センサ(例えば、赤-緑-青(RGB)、赤外線(IR)、強度、深さ、飛行時間カメラなど)、マイクロフォン、ホイールエンコーダ、環境センサ(例えば、温度計、湿度計、光センサ、圧力センサなど)などを含んでもよい。センサ206は、これらまたは他のタイプのセンサのそれぞれの複数のインスタンスを含み得る。例えば、レーダセンサは、車両202の角部、前部、後部、側部、および/または上部に位置する個々のレーダセンサを含んでよい。別の例として、カメラは、車両202の外部および/または内部に関する様々な場所に配置された複数のカメラを含み得る。センサ206は、車両コンピューティングデバイス204及び/またはコンピューティングデバイス214に入力を提供し得る。
車両202はまた、上記のように、光および/または音を放出するためのエミッタ208を含み得る。この例におけるエミッタ208は、車両202の乗客と通信するための内部オーディオ及びビジュアルエミッタを含み得る。限定ではなく例として、内部エミッタは、スピーカ、ライト、サイン、ディスプレイスクリーン、タッチスクリーン、触覚エミッタ(例えば、振動および/または力フィードバック)、機械的アクチュエータ(例えば、シートベルトテンショナー、シートポジショナー、ヘッドレストポジショナーなど)などを含み得る。この例におけるエミッタ208はまた、外部エミッタを含み得る。限定ではなく例として、この例における外部エミッタは、移動の方向の信号を送る照明、または車両の行動の他のインジケーター(例えば、インジケーター照明、標識、照明アレイなど)、ならびに歩行者、または音響ビームステアリング技術を含む1つまたは複数の近隣の他の車両と音響で通信する1つまたは複数のオーディオエミッタ(例えば、スピーカ、スピーカアレイ、ホーンなど)を含む。
車両202はまた、車両202と1つまたは複数の他のローカルまたはリモートコンピューティングデバイスとの間の通信を可能にするネットワークインターフェース210を含み得る。例えば、ネットワークインターフェース210は、車両202および/または駆動コンポーネント212上の他のローカルコンピューティングデバイスとの通信を容易にし得る。また、ネットワークインターフェース210は、追加的または代替的に、車両が他の近くのコンピューティングデバイス(例えば、他の近くの車両、交通信号など)と通信することを可能にし得る。ネットワークインターフェース210は、追加的または代替的に、車両202がコンピューティングデバイス214と通信することを可能にし得る。いくつかの例では、コンピューティングデバイス214は、分散コンピューティングシステム(例えば、クラウドコンピューティングアーキテクチャ)の1つまたは複数のノードを含み得る。
ネットワークインターフェース210は、車両コンピューティングデバイス204を別のコンピューティングデバイスまたはネットワーク216などのネットワークに接続するための物理的および/または論理的インターフェースを含み得る。例えば、ネットワークインターフェース210は、IEEE200.11規格によって定義された周波数、ブルートゥース(登録商標)などの短距離無線周波数、セルラー通信(例えば、2G、3G、4G、4GLTE、5Gなど)、またはそれぞれのコンピューティングデバイスが他のコンピューティングデバイスとインターフェースできるようにする適切な有線または無線通信プロトコルを介するなどのWi-Fiベースの通信を可能にし得る。いくつかの例では、車両コンピューティングデバイス204および/またはセンサ206は、所定の期間の経過後、ほぼリアルタイムで、など、ネットワーク216を介して、特定の周波数でセンサデータをコンピューティングデバイス214に送信し得る。
いくつかの例では、車両202は、1つまたは複数の駆動コンポーネント212を含み得る。いくつかの例では、車両202は、単一の駆動コンポーネント212を有し得る。いくつかの例では、駆動コンポーネント212は、駆動コンポーネント212及び/または車両202の周囲の状態を検出するための1つまたは複数のセンサを含み得る。限定ではなく例として、駆動コンポーネント212のセンサは、駆動コンポーネントのホイールの回転を感知するための1つまたは複数のホイールエンコーダ(例えば、ロータリーエンコーダ)、駆動コンポーネントの方向および加速度を測定するための慣性センサ(例えば、慣性測定ユニット、加速度計、ジャイロスコープ、磁力計など)、カメラまたは他の画像センサ、駆動コンポーネントの周囲におけるオブジェクトを音響的に検出するための超音波センサ、ライダセンサ、レーダセンサなどを含んでよい。ホイールエンコーダのようなあるセンサは、駆動コンポーネント212に特有のものであってよい。場合によっては、駆動コンポーネント212上のセンサは、車両202の対応するシステム(例えば、センサ206)と重複するか、または補足し得る。
駆動コンポーネント212は、高電圧バッテリー、車両を推進させるためのモーター、他の車両システムによる使用のためにバッテリーからの直流を交流へと変換するためのインバーター、ステアリングモーターおよびステアリングラックを含むステアリングシステム(これは電動式とすることが可能である)、油圧または電動アクチュエータを含むブレーキシステム、油圧および/または空気圧コンポーネントを含むサスペンションシステム、トラクションの損失を緩和し、制御を維持するために制動力を分配するための安定性制御システム、HVACシステム、照明(例えば、車両の外部周囲を照らすためのヘッド/テールライトのような照明)、および1つまたは複数の他のシステム(例えば、冷却システム、安全システム、車載充電システム、DC/DCコンバーターのような他の電気コンポーネント、高電圧ジャンクション、高電圧ケーブル、充電システム、充電ポートなど)を含む車両システムの多くを含んでよい。さらに、駆動コンポーネント212は、センサからデータを受信して前処理をし得る駆動コンポーネントコントローラを含み、様々な車両システムの動作を制御し得る。場合によっては、駆動コンポーネントコントローラは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサと通信可能に結合されたメモリとを含み得る。メモリは、駆動コンポーネント212の様々な機能を実行する1つまたは複数のコンポーネントを記憶し得る。さらに、駆動コンポーネント212はまた、それぞれの駆動コンポーネントによる、1つまたは複数の他のローカルまたはリモートコンピューティングデバイスとの通信を可能にする1つまたは複数の通信接続を含み得る。
車両コンピューティングデバイス204は、プロセッサ218と、1つまたは複数のプロセッサ218と通信可能に結合されたメモリ220とを含み得る。メモリ220は、メモリ108を表し得る。コンピューティングデバイス214はまた、プロセッサ222、及び/またはメモリ224を含んでもよい。プロセッサ218及び/または222は、データを処理し、本明細書に記載されるような動作を実行するための命令を実行することができる任意の適切なプロセッサであり得る。限定ではなく例として、プロセッサ218および/または222は、1つまたは複数の中央処理装置(CPU)、グラフィックス処理装置(GPU)、集積回路(例えば、特定用途向け集積回路(ASIC))、ゲートアレイ(例えば、フィールドプログラマブルゲートアレイ(FPGA))、および/または電子データを処理してその電子データを、レジスタおよび/またはメモリに格納され得る他の電子データに変換する他のデバイスまたはデバイスの一部を含み得る。
メモリ220及び/または224は、非一時的なコンピュータ可読媒体の例であり得る。メモリ220及び/または224は、オペレーティングシステム、および本明細書で説明される方法および様々なシステムに起因する機能を実装するための1つまたは複数のソフトウェアアプリケーション、命令、プログラム、及び/またはデータを格納し得る。様々な実装において、メモリは、スタティックランダムアクセスメモリ(SRAM)、シンクロナスダイナミックRAM(SDRAM)、不揮発性/フラッシュタイプメモリ、または情報を格納可能な任意の他のタイプのメモリのような適切なメモリ技術を用いて実装されてよい。本明細書で説明される、アーキテクチャ、システム、及び個々のエレメントは、多くの他の論理的、プログラム的、及び物理的なコンポーネントを含んでよく、それらのうちの添付図面に示されるものは、単に本明細書での説明に関連する例示に過ぎない。
いくつかの例では、メモリ220及び/またはメモリ224は、位置決めコンポーネント226、知覚コンポーネント228、予測コンポーネント230、計画コンポーネント232、追跡コンポーネント234、組み合わされたモデル236、地図238、システムコントローラ240、及び/または訓練コンポーネント242を格納し得る。知覚コンポーネント228は、知覚コンポーネント110を表し得、予測コンポーネント230は、予測コンポーネント116を表し得、計画コンポーネント232は、計画コンポーネント118を表し得、追跡コンポーネント234は、追跡コンポーネント112を表し得、及び/または組み合わされたモデル236は、組み合わされたモデル114を表し得る。
少なくとも1つの例において、位置決めコンポーネント226は、車両202の位置、速度および/または方向(例えば、x位置、y位置、z位置、ロール、ピッチ、またはヨーのうちの1つまたは複数)を決定するためにセンサ206からのデータを受信するハードウェア及び/またはソフトウェアを含んでよい。例えば、位置決めコンポーネント226は、環境の地図238を含み、及び/または要求/受信し得、地図238内の自律車両の位置、速度、及び/または向きを継続的に決定することができる。いくつかの例では、位置決めコンポーネント226は、SLAM(自己位置推定とマッピングの同時実行(simultaneous localization and mapping))、CLAMS(calibration,localization and mapping,simultaneously)、相対SLAM、バンドル調整、非線形最小二乗最適化などを利用し、画像データ、ライダデータ、レーダデータ、IMUデータ、GPSデータ、ホイールエンコーダデータなどを受信し、自律車両の位置、姿勢、及び/または速度を正確に決定し得る。いくつかの例では、本明細書で説明されるように、位置決めコンポーネント226は、車両202の様々なコンポーネントにデータを提供して、軌道を生成するための、及び/または地図データを生成するための自律車両の初期位置を決定し得る。いくつかの例では、位置決めコンポーネント226は、追跡コンポーネント234に、それに関連付けられた環境及び/またはセンサデータに対する車両202の位置及び/または向きを提供し得る。
いくつかの例では、知覚コンポーネント228は、ハードウェア及び/またはソフトウェアで実装された一次知覚システム及び/または予測システムを含んでもよい。知覚コンポーネント228は、車両202を取り巻く環境内のオブジェクトを検出し(例えば、オブジェクトが存在することを識別する)、オブジェクトを分類し(例えば、検出されたオブジェクトに関連付けられたオブジェクトタイプを決定する)、センサデータ及び/または環境の他の表現をセグメント化し(例えば、センサデータの一部及び/または環境の表現を検出されたオブジェクト及び/またはオブジェクトタイプに関連付けられているものとして識別する)、オブジェクトに関連付けられた特性(例えば、オブジェクトに関連付けられた現在の、予測された、及び/または以前の位置、向き、速度、及び/または加速度を識別するトラック)及び/または同様のものを決定し得る。知覚コンポーネント228によって決定されるデータは、知覚データと呼ばれる。
予測コンポーネント230は、環境内の1つまたは複数のオブジェクトの可能な位置の予測確率を表す1つまたは複数の確率マップを生成することができる。例えば、予測コンポーネント230は、車両202からのしきい値距離内の車両、歩行者、動物などに関する1つまたは複数の確率マップを生成することができる。いくつかの例では、予測コンポーネント230は、オブジェクトのトラックを測定し、観測された及び予測された挙動に基づいて、オブジェクトについての、離散化された予測確率マップ、ヒートマップ、確率分布、離散化された確率分布、及び/または軌道を生成することができる。いくつかの例では、1つまたは複数の確率マップは、環境内の1つまたは複数のオブジェクトの意図を表すことができる。
計画コンポーネント232は、位置決めコンポーネント226から車両202の位置並びに/または向き、及び/または知覚コンポーネント228から知覚データを受信してもよく、このデータのいずれかに少なくとも部分的に基づいて車両202の動作を制御する命令を決定してもよい。いくつかの例では、命令を決定することは、命令が関連付けられたシステムに関連付けられたフォーマットに少なくとも部分的に基づいて命令を決定することを含み得る(例えば、自律車両の動きを制御するための第1の命令は、システムコントローラ240及び/または駆動コンポーネント212が解析する/実行させ得るメッセージ及び/または信号(例えば、アナログ、デジタル、空気圧、キネマティック)の第1のフォーマットでフォーマットされてもよく、エミッタ208のための第2の命令は、それに関連付けられた第2のフォーマットに従ってフォーマットされてもよい)。
追跡コンポーネント234は、車両202及び/またはコンピューティングデバイス214上で動作してもよい。いくつかの例では、追跡コンポーネント234は、パイプライン内の組み合わされたモデル236、予測コンポーネント230及び計画コンポーネント232から上流にあり得る(入力を提供し得る)。追跡コンポーネント234は、組み合わされたモデル236によって決定されたトラック信頼度メトリックが閾値を満たすかどうかに少なくとも部分的に基づいて、追跡コンポーネント234の出力の全部または一部を予測コンポーネント230及び計画コンポーネント232に渡すか、またはまったく渡さないように構成され得る。いくつかの例では、組み合わされたモデル236は、追跡コンポーネント234についての予測コンポーネント230及び/または計画コンポーネント232に追跡コンポーネント出力を出力し得る。
いくつかの例では、知覚コンポーネント228は、センサ206から受信したセンサデータに基づいてパイプラインまたは検出データを生成し得る。例えば、知覚コンポーネント228は、センサ104のセットに関連付けられた知覚パイプラインを含み得る。いくつかの例では、各タイプのセンサ206は、知覚コンポーネント228の1つまたは複数の知覚パイプラインに関連付けられ得る。いくつかの知覚パイプラインは、複数のタイプのセンサに関連付けられ得る。追加的または代替的に、いくつかの知覚パイプラインは、1つまたは複数の他の知覚パイプライン(例えば、ディープ追跡ネットワークなどの融合検出器に関連付けられたパイプライン)によって出力される検出及び/または追跡データに基づいて動作し得る。複数のパイプラインは、それぞれ、オブジェクトを検出し、各入力サイクルのオブジェクトの検出を生成し得る。いずれにしても、追跡コンポーネント234は、パイプラインデータ内のオブジェクト検出を既存のトラックに集約するか否か、またはオブジェクト検出に関連付けられた新しいトラックを生成するか否かを決定し得る。追跡コンポーネント234の動作の更なる詳細は、追跡コンポーネント112の上記の説明を参照して理解され得る。
組み合わされたモデル236は、いくつかの例では、トラックのトラック信頼度メトリックとトラックに関連付けられたオブジェクトの分類との両方を推論し得る単一の機械学習モデルを含み得る。より具体的には、組み合わされたモデル236は、複数の知覚パイプラインからのデータを含む集約されたトラックデータに基づいて動作し、集約されたトラックデータに関連付けられたオブジェクトのトラック信頼度メトリック及び分類(粗い粒度分類及び細かい粒度分類の両方を含み得る)を生成し得る単一の多層パーセプトロンモデルであり得る。組み合わされたモデル236の動作の更なる詳細は、組み合わされたモデル114の上記の説明を参照して理解され得る。
訓練コンポーネント242は、組み合わされたモデル236についての機械学習訓練動作を実行するように動作し得る。特に、訓練コンポーネント242は、組み合わされたモデル236を訓練して、集約されたトラックデータに表されるものとして検出されるオブジェクトと関連付けて、トラック信頼度メトリック及び分類(粗い粒度分類及び細かい粒度分類の両方を含み得る)を出力し得る。上述したように、集約されたトラックデータは、複数の知覚パイプラインから出力されたパイプラインデータ、及び、もしあれば、前の間隔またはサイクルからのマッチするトラックデータに基づいてもよい。言い換えれば、組み合わされたモデル236は、トラックのトラック信頼度メトリックを決定するように訓練されてもよく、それによって、追跡コンポーネント234によって出力されるトラックが「フォールスポジティブ」である可能性の尺度を提供する。同時に、組み合わされたモデルは、追跡されたオブジェクトの分類を決定するように訓練されてもよい。いくつかの自律車両の実装では、粗い分類は、車両、歩行者、自転車運転者、および散乱物などの一般的なカテゴリを含み得るが、細かい分類は、例えば、サービス車両、オートバイ、トラクター-トレーラー、セダン、ピックアップなどの車両の粗い分類内の細かい分類である、より具体的なものであり得る。
いくつかの例では、訓練コンポーネント242は、教師あり学習を使用することによって、および組み合わされたモデル236を通して損失を逆伝播することによって、組み合わされたモデル236を訓練するように動作し得る。
いくつかの例では、訓練コンポーネント242は、トラック信頼度メトリックの損失、並びに粗い分類及び/または細かい分類の1つまたは複数の損失を逆伝搬し得る。いくつかの例では、損失は、組み合わされたモデルの出力ごとに計算されてもよい(例えば、現在のROIが対応する以前の入力サイクルにおける現在のROI及び/または以前のROIを指定するグランドトゥルースデータ、ならびに現在のROIと関連付けられたオブジェクトの粗い分類及び/または細かい分類に少なくとも部分的に基づいて)。例えば、1つまたは複数の損失は、シグモイド関数を使用して、対応する組み合わされたモデル出力及びグランドトゥルースデータから計算され得る。グランドトゥルースデータは、例えば、追跡コンポーネント234によって組み合わされたモデル236に提供される入力データと共に含まれてもよく、または組み合わされたモデル236に注釈されてもよい。複数の知覚パイプラインが使用されるこれらの例では、グランドトゥルースデータは、センサデータのタイプごとのROIを含み得る。組み合わされたモデル236を訓練するために損失を逆伝播することは、組み合わされたモデル236の精度をさらに洗練し得る。いくつかの例では、組み合わされたモデル236の訓練は、トラック信頼度メトリックの損失、粗い分類の損失、及び細かい分類の損失を決定することを使用してもよい。他の例は、粗い分類および細かい分類出力の訓練のための組み合わされたグランドトゥルースデータおよび/または組み合わされた損失を含み得る。訓練は、次いで、改良のために組み合わされたモデルを通じて損失を逆に伝播し得る。自律車両システムでは、組み合わされたモデルが訓練されると、訓練された組み合わされたモデルは、将来の動作で使用されるために1つまたは複数の自律車両に出力され得る。
上述したように、訓練は、注釈を含む訓練データに基づいてもよい。例えば、自律車両の実装では、訓練データは、1つまたは複数のタイプのセンサデータを含み得る。センサデータのタイプのうちの1つまたは複数は、センサデータ内のオブジェクトを識別し、識別されたオブジェクトの分類を提供する注釈を含み得る。センサデータは、パイプラインデータを提供するために知覚パイプラインに入力され得る。パイプラインデータは、1つまたは複数のトラックを出力し得る追跡コンポーネントに提供され得る。1つまたは複数のトラックは、組み合わされたモデルによって処理されてよく、組み合わされたモデルは、トラック信頼度メトリック及び訓練データに基づいて生成された各トラックの分類を出力し得る。次いで、訓練コンポーネント242は、センサデータに付けられた注釈を使用して、組み合わされたモデルからの出力が正しいか正しくないかを判定し、それに基づいて損失を逆に伝播する。例えば、所与のトラックについて、訓練コンポーネントは、トラックが、注釈に含まれるオブジェクトに対応すると決定し得る。例えば、訓練コンポーネントは、追跡されたオブジェクトとの注釈で識別されたオブジェクトの交差点オーバーユニオン(IOU)が閾値を満たすか、またはそれを超えるかを判定することによって、追跡されたオブジェクトが、注釈で識別されたオブジェクトとマッチするかどうかを判定し得る。訓練コンポーネント242は、IOU及びトラック信頼度メトリックの大きさを使用してマッチングが見出されたかどうかに基づいて、トラックのトラック信頼度メトリックの損失を決定し得る。同様に、注釈内のオブジェクトがIOUに基づいてマッチングされるとき、訓練コンポーネント242は、注釈内の分類及び組み合わされたモデルによって出力される分類に基づいて、組み合わされたモデルによって出力される分類の損失を決定し得る。
位置決めコンポーネント226、予測コンポーネント230、計画コンポーネント232、地図238、及び/またはシステムコントローラ240は、メモリ220に記憶されているように図示されるが、これらのコンポーネントのうちのいずれかは、プロセッサ実行可能命令、機械学習モデル(例えば、ニューラルネットワーク)、及び/またはハードウェアを含んでもよく、これらのコンポーネントのいずれかの全てまたは一部は、メモリ224に記憶されてもよく、またはコンピューティングデバイス214の一部として構成されてもよい。
本明細書に記載されるように、位置決めコンポーネント226、知覚コンポーネント228、予測コンポーネント230、計画コンポーネント232、及び/またはシステム200の他のコンポーネントは、1つまたは複数のMLモデルを含み得る。例えば、位置決めコンポーネント226、知覚コンポーネント228、予測コンポーネント230、及び/または計画コンポーネント232はそれぞれ、異なるMLモデルパイプラインを含んでよい。いくつかの例では、MLモデルは、ニューラルネットワークを含み得る。例示的なニューラルネットワークは、一連の接続レイヤを通して入力データを渡して出力を生じさせる生物学的アルゴリズムである。ニューラルネットワークにおけるそれぞれのレイヤが別のニューラルネットワークを含むことも可能であり、または任意の数のレイヤ(畳み込み層であるか否か)を含むことが可能である。本開示のコンテキストで理解されることが可能である通り、ニューラルネットワークは、機械学習を利用することが可能であり、これは、出力が学習されたパラメータに基づいて生成される幅広いクラスのこのようなアルゴリズムを参照することが可能である。
ニューラルネットワークのコンテキストで説明されるものの、任意のタイプの機械学習が本開示と整合するように用いられることが可能である。例えば、機械学習アルゴリズムは、回帰アルゴリズム(例えば、通常最小二乗回帰(OLSR)、線形回帰、ロジスティック回帰、段階的回帰、多変量適応回帰スプライン(MARS)、局所的に推定される散布図の平滑化(LOESS)、インスタンスベースのアルゴリズム(例えば、リッジ回帰、最小絶対値縮小選択演算子(LASSO)、弾性ネット、最小角回帰(LARS)、決定木アルゴリズム(例えば、分類回帰木(CART)、反復二分法3(ID3)、カイ二乗自動相互作用検出(CHAID)、決定切り株、条件付き決定木)、ベイジアンアルゴリズム(例えば、ナイーブベイズ、ガウスナイーブベイズ、多項式ナイーブベイズ、平均1依存性推定器(AODE)、ベイジアン信頼度ネットワーク(BNN)、ベイジアンネットワーク)、クラスタリングアルゴリズム(例えば、k平均法、kメジアン法、期待値最大化(EM)、階層的クラスタリング)、関連規則学習アルゴリズム(例えば、パーセプトロン、誤差逆伝播法、ホップフィールドネットワーク、動径基底関数ネットワーク(RBFN))、深層学習アルゴリズム(例えば、深層ボルツマンマシン(DBM)、深層信頼ネットワーク(DBN)、畳み込みニューラルネットワーク(CNN)、積層型オートエンコーダ)、次元削減アルゴリズム(例えば、主成分分析(PCA)、主成分回帰(PCR)、部分最小二乗回帰(PLSR)、サモンマッピング、多次元スケーリング(MDS)、射影追跡法、線形判別分析(LDA)、混合判別分析(MDA)、二次判別分析(QDA)、柔軟判別分析(FDA))、アンサンブルアルゴリズム(例えば、ブースティング、ブートストラップ集約(バギング)、エイダブースト、階層型一般化(ブレンディング)、勾配ブースティングマシン(GBM)、勾配ブースト回帰木(GBRT)、ランダムフォレスト)、SVM(サポートベクトルマシン)、教師あり学習、教師なし学習、半教師あり学習などを含んでよいが、これらに限定されない。アーキテクチャのさらなる例は、ResNet-50、ResNet-101、VGG、DenseNet、PointNetなどのニューラルネットワークを含む。いくつかの例では、本明細書で説明されるMLモデルは、PointPillars、SECOND、トップダウン特徴層(例えば、その全体が本明細書に組み込まれる米国特許出願第15/963,833号を参照)、及び/またはVoxelNetを含み得る。アーキテクチャ待ち時間最適化は、MobilenetV2、Shufflenet、Channelnet、Peleenet、及び/または同様のものを含み得る。MLモデルは、いくつかの例では、Pixorなどの残差ブロックを含んでもよい。
メモリ220は、追加的または代替的に、1つまたは複数のシステムコントローラ240を格納し得、これは、車両202のステアリング、推進、ブレーキ、安全、エミッタ、通信、および他のシステムを制御するように構成され得る。これらのシステムコントローラ240は、駆動コンポーネント212及び/または車両202の他のコンポーネントの対応するシステムと通信し、及び/または制御し得る。例えば、計画コンポーネント232は、知覚コンポーネント228及び予測コンポーネント230によって生成された知覚データ及び予測データに少なくとも部分的に基づいて命令を生成し得る。システムコントローラ240は、計画コンポーネント232から受信した命令に少なくとも部分的に基づいて、車両202の動作を制御し得る。
図2は分散システムとして示されているが、代替の例では、車両202のコンポーネントは、コンピューティングデバイス214に関連付けられ得、および/またはコンピューティングデバイス214のコンポーネントは、車両202に関連付けられ得ることに留意されたい。すなわち、車両202は、コンピューティングデバイス214に関連する1つまたは複数の機能を実行し得、逆もまた同様である。
(例示的な処理)
図3は、集約されたトラックデータに少なくとも部分的に基づいてトラック信頼度メトリック及び分類を決定するための例示的なプロセス300のフロー図を示す。集約されたトラックデータは、同じ時間に関連付けられた1つまたは複数のオブジェクト検出および/または前の時間に関連付けられた1つまたは複数のオブジェクト検出を関連付けるトラックを含んでよい。いくつかの例では、プロセス300は、トラック及び/またはそれに関連付けられたオブジェクト検出が、フォールスポジティブ及び/または集約されたトラックに関連付けられて表されたオブジェクトの分類である可能性を表すメトリクスを判定するMLモデルによって実行されてもよい。トラックがフォールスポジティブである場合、例示的なプロセス300は、予測および計画コンポーネントへの集約されたトラックの出力を抑制することを含み得る。そうでなければ、例示的なプロセス300は、集約されたトラックを予測および計画コンポーネントに出力することを含み得る。システム100及び200の組み合わされたモデル114または236は、それぞれ、プロセス300を実行し得るが、1つまたは複数の他のコンポーネントが、例示的なプロセス300の少なくとも一部を実行し得ることが企図される。
図3は、集約されたトラックデータに少なくとも部分的に基づいてトラック信頼度メトリック及び分類を決定するための例示的なプロセス300のフロー図を示す。集約されたトラックデータは、同じ時間に関連付けられた1つまたは複数のオブジェクト検出および/または前の時間に関連付けられた1つまたは複数のオブジェクト検出を関連付けるトラックを含んでよい。いくつかの例では、プロセス300は、トラック及び/またはそれに関連付けられたオブジェクト検出が、フォールスポジティブ及び/または集約されたトラックに関連付けられて表されたオブジェクトの分類である可能性を表すメトリクスを判定するMLモデルによって実行されてもよい。トラックがフォールスポジティブである場合、例示的なプロセス300は、予測および計画コンポーネントへの集約されたトラックの出力を抑制することを含み得る。そうでなければ、例示的なプロセス300は、集約されたトラックを予測および計画コンポーネントに出力することを含み得る。システム100及び200の組み合わされたモデル114または236は、それぞれ、プロセス300を実行し得るが、1つまたは複数の他のコンポーネントが、例示的なプロセス300の少なくとも一部を実行し得ることが企図される。
302において、例示的なプロセス300は、第1のセンサタイプに関連付けられた第1のオブジェクト検出、第2のセンサタイプに関連付けられた第2のオブジェクト検出、及び/または環境内のオブジェクトに関連付けられた他のトラックデータ及び分類情報を受信することを含んでよい。例えば、受信され得るデータの例示的なセットは、例えば、ライダ、レーダ、視覚(例えば、熱及び/又は可視光スペクトル画像)、並びにライダ及び視覚のセマンティックセグメンテーション確率(例えば、フロート確率ベクトルの形態)などの融合パイプラインオブジェクト検出、各知覚パイプラインのトラックに関連付けられたオブジェクト検出の存在を示すメトリクス、ライダオブジェクト検出におけるボクセルの総数などのトラックのオブジェクト検出統計、視覚オブジェクト検出信頼度、レーダオブジェクト検出ドプラー曖昧性解決状態など(連続フロート値として組み合わされたモデルに入力され得る)を含み得る。プロセス300は、追加的または代替的に、入力として分類データ及び/またはトップダウンセグメンテーション確率を受信し得る(例えば、その全体が本明細書に組み込まれる米国特許出願第15/963,833号を参照されたい)。さらに、受信されたデータは、速度、範囲、閉塞された割合、センサを含むデバイスからの距離などの幾何学的統計を追加的または代替的に含み得る。上記のデータに加えて、以前のサイクル、ティック、または動作からのトラックに関連付けられた任意の以前に生成されたデータも、組み合わされたモデルによって利用され得る。
304において、例示的なプロセス300は、組み合わされたモデルのMLモデルへの入力として、第1のオブジェクト検出、第2のオブジェクト検出、他のトラックデータ及び/または分類情報を提供することを含んでよい。組み合わされたモデルは、次いで、組み合わされたモデルのMLモデルからの出力として、トラック信頼度メトリック及び分類を306にて受信し得る。組み合わされたモデルは、いくつかの例では、トラックのトラック信頼度メトリックとトラックに関連付けられたオブジェクトの分類との両方を推論し得る単一の機械学習モデルを含み得る。より具体的には、MLモデルは、複数の知覚パイプラインからのデータを含む集約されたトラックデータに基づいて動作し、集約されたトラックデータに関連付けられたオブジェクトのトラック信頼度メトリック及び分類(粗い粒度分類及び細かい粒度分類の両方を含み得る)を生成し得る単一の多層パーセプトロンモデルであり得る。いくつかの例では、MLモデルは、複数の入力サイクルに関連付けられたデータを受信するための長短期記憶などの、追加または代替のタイプのMLモデル及び/または他の付随するコンポーネントを含み得る。組み合わされたモデルの動作の更なる詳細は、組み合わされたモデル114及び236の上記の説明を参照して理解され得る。
いくつかの例では、組み合わされたモデルのMLモデルは、教師ありおよび/または半教師あり学習技術を使用することによって訓練され得る。MLモデルの訓練は、MLモデルの出力に関連付けられた損失を判定し、MLモデルを通して損失を逆伝播することを含み得る。いくつかの例では、損失を判定することは、トラック信頼度メトリックおよび/または粗いおよび/または細かい分類とグランドトゥルースデータとの間の差に少なくとも部分的に基づいてもよい。例えば、損失は、現在のROIが対応する以前の入力サイクルにおける現在のROI及び/または以前のROIを指定するグランドトゥルース、ならびに現在のROIに関連付けられたオブジェクトの粗い分類及び/または細かい分類に少なくとも部分的に基づいてもよい。複数の知覚パイプラインが使用されるこれらの例では、グランドトゥルースデータは、センサデータの1つまたは複数のタイプのROIを含み得る。MLモデルを訓練することは、損失を低減するためにMLモデルの1つまたは複数のパラメータを変更することを含み得る。このようにしてMLモデルを訓練するために損失を逆伝搬することは、MLモデルの精度をさらに改善し得る。いくつかの例では、MLモデルの訓練は、複数の損失を使用し、改良のために複数の損失を逆に伝播し得る。
308において、例示的なプロセス300は、308においてトラック信頼度メトリックが閾値を満たすかどうかを判定することを含んでよい。上述のように、トラック信頼度メトリックは、複数の知覚パイプラインから集約されたトラックデータ(本明細書ではトラックの集約されたトラックデータと呼ばれる)が環境内のオブジェクトに対応する可能性を示し得る。例えば、トラック信頼度メトリックは、0と1との間の値であってよく、0は、トラックがトゥルーポジティブである可能性が低いことを組み合わされたモデルによって示すことを表し、1は、トラックがトゥルーポジティブである可能性が高いことを示すが、他の変更も考えられる。閾値は、実装に応じて設定される、0と1との間の値(例えば、0.1、0.5、0.95)であってよい。トラック信頼度メトリクスは、メトリクス判定及び閾値がどのように設定されるかに応じて、閾値を満たすか、または閾値を超えるか、または閾値未満であることによって、閾値を満たすことができる。
トラック信頼度メトリックが閾値を満たす場合、プロセスは310に継続し得る。そうでなければ、プロセスは、312に継続し得る。
310において、例示的なプロセス300は、組み合わされたモデルによって出力される分類と共に、第1のオブジェクト検出、第2のオブジェクト検出、および/またはトラックデータに関連付けられたトラックを予測および/または計画コンポーネントに送信することを含み得る。
312において、例示的なプロセス300は、第1のオブジェクト検出、第2のオブジェクト検出、他のトラックデータ及び分類情報に関連付けられたトラックを、予測及び計画コンポーネントから予測及び計画コンポーネントに抑制することを含み得る。いくつかの例では、例示的なプロセス300は、予測および計画コンポーネントへのトラックのトラックデータの出力をブロックするか、または出力しないことによってトラックを抑制し得る。
上記のように、例は、トラック信頼度測定に基づいて、予測および/または計画コンポーネントにトラックを出力するかどうかを決定するものに限定されない。他の例では、関連付けられたトラックは、トラック信頼度メトリックの値に関係なく、自動運転システムの予測および/または計画コンポーネントにトラック信頼度メトリックとともに出力され得る。次に、予測および/または計画コンポーネントは、トラック信頼度メトリックを利用して、重み(例えば、アップウェイトまたはダウンウェイト)を決定し、関連付けられたトラックを与え得る。
図4は、追跡コンポーネント404及び組み合わされたモデル406(例えば、組み合わされたモデル114及び/または236)を含む、自律車両(例えば、コンポーネント110または228)の知覚コンポーネント402内の例示的なデータフロー400のブロック図を示す。
図4に示されるように、知覚コンポーネント402は、視覚データ408、ライダデータ410、およびレーダデータ(図示せず)などの様々なタイプのセンサデータを受信し得る。様々なタイプのセンサデータは、視覚パイプライン412、レーダパイプライン414、およびライダパイプライン416などの知覚パイプラインに入力され得る。
パイプライン412~416は、視覚パイプラインデータ418、レーダパイプラインデータ420、及び/またはライダパイプラインデータ422を判定するために、それぞれのセンサデータ入力に対して検出動作を実行してもよい。
1つまたは複数の追加または代替の知覚パイプラインは、生のセンサデータ及び/または他の知覚パイプラインの出力を受信して、パイプラインデータを生成し得る。例は、融合パイプライン424として図4に示される。特に、融合パイプライン424は、入力として視覚パイプラインデータ418、レーダパイプラインデータ420、及び/またはライダパイプラインデータ422を受信し、さらに検出動作を実行して融合パイプラインデータ426を生成し得る。融合パイプラインの動作の詳細は、上記の融合検出器の説明に関して理解され得る。
追跡コンポーネント404は、パイプラインデータ418~422及び/または426及び以前のトラック428のうちの任意の1つまたは複数を入力として受信し得る。パイプラインデータ418~422及び/または426及び/または以前のトラック428に基づいて、追跡コンポーネント404は、トラックを判定し、対応する集約されたトラックデータ430を生成し得る。集約されたトラックデータは、図1、2、及び3に関する上記の説明に基づいて、データ418~422、426、及び/または428から集約されてよい。
追跡コンポーネント404は、集約されたトラックデータ430を組み合わされたモデル406に提供し得る。組み合わされたモデルは、集約されたトラックデータの各トラックのトラック信頼度メトリック及び分類情報を決定し得る。分類情報は、追跡されたオブジェクトの粗い分類及び/または細かい分類を含み得る。自動運転システムのいくつかの自律車両の実装では、粗い分類は、車両、歩行者、自転車運転者、および散乱物などの一般的なカテゴリを含み得、一方、細かい分類は、例えば、サービス車両、オートバイ、トラクタートレーラー、セダン、ピックアップなどが車両の粗い分類内の細かい分類であるより具体的なサブカテゴリであり得る。次いで、組み合わされたモデルは、トラック信頼度メトリックが閾値を満たす場合、トラック430の集約されたトラックデータ及び組み合わされたモデル406から予測コンポーネント434及び/または計画コンポーネント436への分類を含んでもよく、それぞれ予測コンポーネント116もしくは230及び/または計画コンポーネント118もしくは232に対応してもよいデータ432を出力してもよい。
(例示的な節)
A.第1のタイプの第1のセンサデータと、第2のタイプの第2のセンサデータとを含むセンサデータを受信することと、第1のタイプに関連付けられたセンサデータに少なくとも部分的に基づいて、センサデータに表されたオブジェクトの第1のオブジェクト検出を決定することと、第2のタイプに関連付けられたセンサデータに少なくとも部分的に基づいて、センサデータに表されたオブジェクトの第2のオブジェクト検出を決定することと、オブジェクトに関連付けられたトラックを受信することであって、トラックは、1つまたは複数の以前のオブジェクト特性を含む、ことと、第1のオブジェクト検出、第2のオブジェクト検出、及びトラックの少なくとも一部を機械学習(ML)モデルに入力することと、MLモデルからの出力として、トラック信頼度メトリック及びオブジェクトの分類を受信することであって、トラック信頼度メトリックは、トラックがトゥルーポジティブである可能性を含む、ことと、トラック信頼度メトリックに少なくとも部分的に基づいて、自律車両の計画コンポーネントにトラックを出力することと、を含む方法。
A.第1のタイプの第1のセンサデータと、第2のタイプの第2のセンサデータとを含むセンサデータを受信することと、第1のタイプに関連付けられたセンサデータに少なくとも部分的に基づいて、センサデータに表されたオブジェクトの第1のオブジェクト検出を決定することと、第2のタイプに関連付けられたセンサデータに少なくとも部分的に基づいて、センサデータに表されたオブジェクトの第2のオブジェクト検出を決定することと、オブジェクトに関連付けられたトラックを受信することであって、トラックは、1つまたは複数の以前のオブジェクト特性を含む、ことと、第1のオブジェクト検出、第2のオブジェクト検出、及びトラックの少なくとも一部を機械学習(ML)モデルに入力することと、MLモデルからの出力として、トラック信頼度メトリック及びオブジェクトの分類を受信することであって、トラック信頼度メトリックは、トラックがトゥルーポジティブである可能性を含む、ことと、トラック信頼度メトリックに少なくとも部分的に基づいて、自律車両の計画コンポーネントにトラックを出力することと、を含む方法。
B.分類が、オブジェクトのカテゴリに関連付けられた粗いオブジェクト分類と、カテゴリ内のオブジェクトのサブカテゴリに関連付けられた細かい分類とを含む、節Aに記載の方法。
C.計画コンポーネントによって、トラックに少なくとも部分的に基づいて自律車両を制御するための命令を決定することと、命令に少なくとも部分的に基づいて自律車両を制御することとをさらに含む、節Aに記載の方法。
D.トラックを計画コンポーネントに出力することは、トラック信頼度メトリックが信頼度閾値を満たすか、または超えると判断することを含む、節Aに記載の方法。
E.第1のオブジェクト検出または第2のオブジェクト検出のうちの少なくとも1つは、トップダウンの視点からの環境の表現と、環境の一部が占有されることを示す表示と、オブジェクトに関連付けられた関心領域と、第1のセンサタイプに関連付けられた知覚パイプラインによって決定されたオブジェクトに関連付けられたオブジェクト分類と、センサデータセグメンテーションと、センサデータのボクセル化と、またはオブジェクトに関連付けられたヨーと、のうちの少なくとも1つを含む、節Aに記載の方法。
F.1つまたは複数のプロセッサと、プロセッサ実行可能命令を記憶するメモリであって、プロセッサ実行可能命令は1つまたは複数のプロセッサによって実行されると、システムに、環境内のオブジェクトの第1のオブジェクト検出及び環境内のオブジェクトの第2のオブジェクト検出に関連付けられたトラックの少なくとも一部を機械学習(ML)モデルに入力することと、MLモデルからの出力として、トラック信頼度メトリック及びオブジェクトの分類を受信することであって、トラック信頼度メトリックは、トラックがトゥルーポジティブである可能性を含む、ことと、トラック、トラック信頼度メトリック及び分類を計画コンポーネントに出力することと、を含む動作を実行させる、メモリと、を備えるシステム。
G.動作は、トラックの少なくとも一部を機械学習モデルに入力することは、第1のオブジェクト検出に関連付けられたオブジェクト検出信頼度値を前記MLモデルに入力することをさらに含む、節Fに記載のシステム。
H.トラックを計画コンポーネントに出力することは、トラック信頼度メトリックが信頼度閾値を満たすか、または超えると判定することを含む、節Gに記載のシステム。
I.第1のオブジェクト検出または第2のオブジェクト検出のうちの少なくとも1つは、トップダウンの視点からの環境の表現と、環境の一部が占有されることを示す表示と、オブジェクトに関連付けられた関心領域と、第1のセンサタイプに関連付けられた知覚パイプラインによって決定されたオブジェクトに関連付けられたオブジェクト分類と、センサデータセグメンテーションと、センサデータのボクセル化と、またはオブジェクトに関連付けられたヨーと、のうちの少なくとも1つを含む、節Fに記載のシステム。
J.トラックは、第1のオブジェクト検出が生成された時間の前の時間、及び第2のオブジェクト検出が生成された時間の前の時間に関連付けられた第1の先行オブジェクト検出にさらに関連付けられ、少なくともトラックの一部をMLモデルに入力することは、少なくとも第1の先行オブジェクト検出をMLモデルに入力することをさらに含む、節Fに記載のシステム。
K.第1のオブジェクト検出は、第1のセンサタイプに関連付けられ、第2のオブジェクト検出は、第2のセンサタイプに関連付けられる、節Fに記載のシステム。
L.動作は、計画コンポーネントによって、トラック信頼度メトリックに基づいて制御情報の生成におけるトラックの重みを調整することによって、少なくとも部分的に、自律車両のための制御情報を生成することをさらに含む、節Fに記載のシステム。
M.動作は、計画コンポーネントによって、トラックに基づいて自律車両のための制御情報を生成することと、制御情報に基づいて自律車両を制御することとをさらに含む、節Fに記載のシステム。
N.第1のセンサタイプが、ライダ、レーダ、ソナー、飛行時間(TOF)、またはカメラのうちの少なくとも1つを含む、節Fに記載のシステム。
O.1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、環境内のオブジェクトの第1のオブジェクト検出及び環境内のオブジェクトの第2のオブジェクト検出に関連付けられたトラックを受信することと、トラックの少なくとも一部を機械学習(ML)モデルに入力することと、MLモデルからの出力を受信することであって、出力はトラック信頼度メトリック及びオブジェクトの分類を含む、ことと、出力に少なくとも部分的に基づいて損失を判定することと、訓練されたMLモデルとして、MLモデルの1つまたは複数のパラメータを変更して損失を低減することと、訓練されたMLモデルを自律車両に送信することと、を含む動作を実行させる、プロセッサ実行可能命令を格納する非一時的なコンピュータ可読媒体。
P.動作は、第1のオブジェクト検出に関連付けられたグランドトゥルースデータを受信することと、グランドトゥルースデータに少なくとも部分的に基づいて損失を判定することと、損失を逆伝搬することによってパラメータの変更を実行することとをさらに含む、節Oに記載の非一時的なコンピュータ可読媒体。
Q.トラックの少なくとも一部を前記MLモデルに入力することは、第1のオブジェクト検出に関連付けられたオブジェクト検出信頼度値をMLモデルに入力することを含む、請求項15に記載の非一時的コンピュータ可読媒体。
R.第1のオブジェクト検出は、第1のセンサタイプに関連付けられ、第2のオブジェクト検出は、第2のセンサタイプに関連付けられる、節Oに記載の非一時的コンピュータ可読媒体。
S.トラックは、第1のオブジェクト検出が生成された時間の前の時間、及び第2のオブジェクト検出が生成された時間の前の時間に関連付けられた第1の先行オブジェクト検出にさらに関連付けられ、トラックの一部は、第1の先行オブジェクト検出、第1のオブジェクト検出、及び第2のオブジェクト検出のそれぞれの少なくとも一部を含む、節Oに記載の非一時的コンピュータ可読媒体。
T.第1のオブジェクト検出または第2のオブジェクト検出のうちの少なくとも1つは、トップダウンの視点からの環境の表現と、環境の一部が占有されることを示す表示と、オブジェクトに関連付けられた関心領域と、第1のセンサタイプに関連付けられた知覚パイプラインによって決定されたオブジェクトに関連付けられたオブジェクト分類と、センサデータセグメンテーションと、センサデータのボクセル化と、またはオブジェクトに関連付けられたヨーと、のうちの少なくとも1つを含む、節Oに記載の非一時的コンピュータ可読媒体。
上記で説明された例示的な節が、1つの特定の実装に関して説明される一方で、本明細書のコンテキストにおいて、例示的な節の内容は、方法、デバイス、システム、コンピュータ可読媒体、及び/または別の実装を介して実施されることも可能であることを理解されたい。さらに、節A-Tのいずれかは、単独で、または他の1つもしくは複数の節A-Tと組み合わせて実装され得る。
発明の主題は、構造的な特徴および/または方法的な動作に特有の言語で説明されてきたが、添付の特許請求の範囲の中で画定される発明の主題は、必ずしも説明される特定の特徴、または動作に限定されるものではないことを理解されたい。むしろ、特定の特徴、および動作は、特許請求の範囲を実施する例示的形態として開示される。
本明細書で説明されるコンポーネントは、任意のタイプのコンピュータ可読媒体に格納し得、且つソフトウェアおよび/またはハードウェアにおいて実装され得る命令を表す。上述の方法およびプロセスの全ては、1つもしくは複数のコンピュータまたはプロセッサ、ハードウェア、またはそれらのいくつかの組み合わせによって実行されるソフトウェアコードコンポーネントおよび/またはコンピュータ実行可能命令を介して具体化され、および完全に自動化され得る。あるいは、方法のうちの一部または全ては、専門のコンピュータハードウェアで具現化し得る。
そうではないと特に明記されていない限り、特に「可能である」、「得る」、「できる」、または「してよい」などの条件付きの用語は、とりわけ、他の例示が含まないある特徴、要素および/またはステップをある例示が含み、提示することの文脈内で理解される。したがって、そのような条件付きの用語は、概して、ある特徴、要素および/またはステップが、1つまたは複数の例示に任意の方法で要求されるか、またはその1つまたは複数の例示が、ユーザのインプット、またはプロンプトを用いて、または用いずに、ある特徴、要素および/またはステップが任意の具体的な例示に含まれるか、または実行されるべきであるかを判断するための論理を必ずしも含むことを暗示することは意図されていない。
「X、Y、またはZのうちの少なくとも1つ」という句などの接続言語は、そうではないと特に明記されていない限り、項目、用語などがX、Y、またはZのいずれか、またはそれぞれの要素の集合を含む、それらの任意の組み合わせであってよいと理解されるべきである。単数として明示的に説明されていない限り、「a」は、単数、および複数を意味する。
本明細書で説明され、および/または添付の図面に示したフロー図における任意のルーティンの説明、要素、またはブロックは、ルーティンにおける特定の論理機能、または要素を実装するための1つまたは複数のコンピュータ実行可能命令を含むモジュール、セグメント、またはコードの部分を潜在的に表すものとして理解されるべきである。代替的な実装は、本明細書に説明される例示の範囲内に含まれ、その中で、要素または機能は、当業者によって理解されるように、関係する機能に応じて、追加の動作と実質的に同時、または逆の順序を含む、図示されたもの、または説明されたものと順不同で、削除され、実行されることが可能である。
上述の例示に対して多くの変形例、および修正例を作成することが可能であり、それらの要素は、他の容認できる例示の中にあるものとして理解されるべきである。このような変更例および変形例の全てが本開示の範囲内で本明細書に含まれ、以下の特許請求の範囲によって保護されることが意図される。
Claims (15)
- システムであって、
1つまたは複数のプロセッサと、
プロセッサ実行可能命令を格納するメモリであって、前記プロセッサ実行可能命令は前記一つまたは複数のプロセッサによって実行されると、前記システムに、
環境内のオブジェクトの第1のオブジェクト検出、及び前記環境内の前記オブジェクトの第2のオブジェクト検出に関連付けられたトラックの少なくとも一部を機械学習(ML)モデルに入力することと、
前記MLモデルからの出力としてトラック信頼度メトリック及び前記オブジェクトの分類を受信することであって、前記トラック信頼度メトリックは、前記トラックがトゥルーポジティブである可能性を含む、ことと、
前記トラック、前記トラック信頼度メトリック、及び前記分類を計画コンポーネントに出力することと、
を含む動作を実行させる、メモリと、を備えたシステム。 - 前記トラックの少なくとも前記一部を前記MLモデルに入力することは、前記第1のオブジェクト検出に関連付けられたオブジェクト検出信頼度値を前記MLモデルに入力することをさらに含む、請求項1に記載のシステム。
- 前記トラックを前記計画コンポーネントに出力することは、前記トラック信頼度メトリックが信頼度閾値を満たすか、または超えることを判定することを含む、請求項1または2に記載のシステム。
- 前記第1のオブジェクト検出または前記第2のオブジェクト検出のうちの少なくとも1つが、
トップダウンの視点からの前記環境の表現と、
前記環境の一部が占有されている表示と、
前記オブジェクトに関連付けられた関心領域と、
前記第1のオブジェクト検出に関連付けられた第1のセンサタイプに関連付けられた知覚パイプラインによって決定された前記オブジェクトに関連付けられたオブジェクト分類と、
センサデータセグメンテーションと、
センサデータのボクセル化と、
前記オブジェクトに関連付けられたヨーと、
のうちの少なくとも1つを含む、請求項1から3のいずれか1項に記載のシステム。 - 前記トラックは、前記第1のオブジェクト検出が生成された時間の前、及び前記第2のオブジェクト検出が生成された時間の前の時間に関連付けられた第1の先行オブジェクト検出にさらに関連付けられ、
前記トラックの少なくとも前記一部を前記MLモデルに入力することは、少なくとも前記第1の先行オブジェクト検出を前記MLモデルに入力することをさらに含む、請求項1から4のいずれか1項に記載のシステム。 - 前記第1のオブジェクト検出が、第1のセンサタイプに関連付けられ、
前記第2のオブジェクト検出が、第2のセンサタイプに関連付けられる、請求項1から5のいずれか1項に記載のシステム。 - 前記動作は、
前記計画コンポーネントによって、前記トラック信頼度メトリックに基づいて前記制御情報の前記生成における前記トラックの重みを調整することによって、少なくとも部分的に、自律車両のための制御情報を生成することをさらに含む、請求項1から6のいずれか1項に記載のシステム。 - 前記動作は、
前記計画コンポーネントによって、前記トラックに基づいて自律車両の制御情報を生成することと、
前記制御情報に基づいて前記自律車両を制御することと、
をさらに含む、請求項1から7のいずれか1項に記載のシステム。 - 環境内のオブジェクトの第1のオブジェクト検出、及び前記環境内の前記オブジェクトの第2のオブジェクト検出に関連付けられたトラックを受信することと、
前記トラックの少なくとも一部を機械学習(ML)モデルに入力することと、
前記MLモデルから出力を受信することであって、前記出力は、トラック信頼度メトリック及び前記オブジェクトの分類を含む、ことと、
前記出力に少なくとも部分的に基づいて損失を判定することと、
訓練されたMLモデルとして、前記損失を低減するために前記MLモデルの1つまたは複数のパラメータを変更することと、
前記訓練されたMLモデルを自律車両に送信することと、
を含む方法。 - 前記第1のオブジェクト検出に関連付けられたグランドトゥルースデータを受信することと、
前記グランドトゥルースデータに少なくとも部分的に基づいて前記損失を判定することと、
前記損失を逆伝搬することによって前記パラメータの前記変更を実行することと、
をさらに含む、請求項9に記載の方法。 - 前記トラックの少なくとも一部を前記MLモデルに入力することは、少なくとも前記第1のオブジェクト検出に関連付けられたオブジェクト検出信頼度値を前記MLモデルに入力することを含む、請求項9または10に記載の方法。
- 前記第1のオブジェクト検出が、第1のセンサタイプに関連付けられ、
前記第2のオブジェクト検出が、第2のセンサタイプに関連付けられる、請求項9から11のいずれか1項に記載の方法。 - 前記第1のオブジェクト検出または前記第2のオブジェクト検出のうちの少なくとも1つが、
トップダウンの視点からの前記環境の表現と、
前記環境の一部が占有されている表示と、
前記オブジェクトに関連付けられた関心領域と、
前記第1のセンサタイプに関連付けられた知覚パイプラインによって決定された前記オブジェクトに関連付けられたオブジェクト分類と、
センサデータセグメンテーションと、
センサデータのボクセル化と、
前記オブジェクトに関連付けられたヨーと、
のうちの少なくとも1つを含む、請求項12に記載の方法。 - 前記トラックは、前記第1のオブジェクト検出が生成された時間の前、及び前記第2のオブジェクト検出が生成された時間の前の時間に関連付けられた第1の先行オブジェクト検出にさらに関連付けられ、
前記トラックの前記一部は、前記第1の先行オブジェクト検出、前記第1のオブジェクト検出、及び前記第2のオブジェクト検出のそれぞれの少なくとも一部を含む、請求項9から13のいずれか1項に記載の方法。 - 1つまたは複数のプロセッサによって実行されると、1つまたは複数のコンピューティングデバイスに、請求項9から14のいずれか1項に記載の方法を実行させる命令を格納する、1つまたは複数の非一時的コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/797,656 | 2020-02-21 | ||
US16/797,656 US11625041B2 (en) | 2020-02-21 | 2020-02-21 | Combined track confidence and classification model |
PCT/US2021/018334 WO2021167953A1 (en) | 2020-02-21 | 2021-02-17 | Combined track confidence and classification model |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023515494A true JP2023515494A (ja) | 2023-04-13 |
Family
ID=77366115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022549885A Pending JP2023515494A (ja) | 2020-02-21 | 2021-02-17 | 組み合わされたトラック信頼度及び分類モデル |
Country Status (5)
Country | Link |
---|---|
US (1) | US11625041B2 (ja) |
EP (1) | EP4107042A4 (ja) |
JP (1) | JP2023515494A (ja) |
CN (1) | CN115135548A (ja) |
WO (1) | WO2021167953A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11625041B2 (en) * | 2020-02-21 | 2023-04-11 | Zoox, Inc. | Combined track confidence and classification model |
US11580723B2 (en) * | 2020-02-28 | 2023-02-14 | Invision Ai Inc. | Scene-aware object detection |
US11906967B1 (en) * | 2020-03-31 | 2024-02-20 | Zoox, Inc. | Determining yaw with learned motion model |
DE102020207065B3 (de) * | 2020-06-05 | 2021-02-11 | Volkswagen Aktiengesellschaft | Fahrzeug, Verfahren, Computerprogramm und Vorrichtung zum Zusammenführen von Objektinformationen über ein oder mehrere Objekte in einem Umfeld eines Fahrzeugs |
US11823458B2 (en) * | 2020-06-18 | 2023-11-21 | Embedtek, LLC | Object detection and tracking system |
US11885886B2 (en) | 2020-10-23 | 2024-01-30 | Ford Global Technologies, Llc | Systems and methods for camera-LiDAR fused object detection with LiDAR-to-image detection matching |
US20220126873A1 (en) * | 2020-10-23 | 2022-04-28 | Argo AI, LLC | Systems and methods for camera-lidar fused object detection with segment merging |
US12050273B2 (en) | 2020-10-23 | 2024-07-30 | Ford Global Technologies, Llc | Systems and methods for camera-LiDAR fused object detection with point pruning |
EP4012603B1 (en) * | 2020-12-10 | 2023-12-06 | Aptiv Technologies Limited | Method for classifying a tracked object |
US11698452B2 (en) * | 2020-12-10 | 2023-07-11 | GM Global Technology Operations LLC | Target tracking during acceleration events |
TWI806006B (zh) * | 2021-02-20 | 2023-06-21 | 緯創資通股份有限公司 | 熱影像定位方法及其系統 |
US20220309767A1 (en) * | 2021-03-26 | 2022-09-29 | Teledyne Flir Detection, Inc. | Object tracking in local and global maps systems and methods |
US20220366175A1 (en) * | 2021-05-13 | 2022-11-17 | Waymo Llc | Long-range object detection, localization, tracking and classification for autonomous vehicles |
US11625909B1 (en) * | 2022-05-04 | 2023-04-11 | Motional Ad Llc | Track segment cleaning of tracked objects |
US20230393267A1 (en) * | 2022-06-07 | 2023-12-07 | Caterpillar Sarl | System and method to reliably detect objects using camera and radar |
US20240020987A1 (en) * | 2022-07-13 | 2024-01-18 | GM Global Technology Operations LLC | Methods and system for controlling a vehicle using fusion of multi_modality perception data |
CN115861366B (zh) * | 2022-11-07 | 2024-05-24 | 成都融达昌腾信息技术有限公司 | 一种用于目标探测的多源感知信息融合方法与系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2747056B1 (en) | 2011-12-27 | 2017-12-06 | Honda Motor Co., Ltd. | Driving assistance system |
JP6537780B2 (ja) | 2014-04-09 | 2019-07-03 | 日立オートモティブシステムズ株式会社 | 走行制御装置、車載用表示装置、及び走行制御システム |
BR112017014574B1 (pt) | 2015-01-05 | 2022-11-16 | Nissan Motor Co., Ltd | Dispositivo de geração de caminho alvo e dispositivo de controle de deslocamento |
US10445928B2 (en) * | 2017-02-11 | 2019-10-15 | Vayavision Ltd. | Method and system for generating multidimensional maps of a scene using a plurality of sensors of various types |
US10816991B2 (en) * | 2017-07-11 | 2020-10-27 | Waymo Llc | Methods and systems for providing remote assistance via pre-stored image data |
WO2019161300A1 (en) * | 2018-02-18 | 2019-08-22 | Nvidia Corporation | Detecting objects and determining confidence scores |
US11157527B2 (en) | 2018-02-20 | 2021-10-26 | Zoox, Inc. | Creating clean maps including semantic information |
CN111757822B (zh) * | 2018-02-26 | 2024-04-02 | 联邦快递服务公司 | 用于使用多传感器检测融合来在物流地面支持设备上进行增强的碰撞避免的系统和方法 |
US11453122B2 (en) * | 2018-03-28 | 2022-09-27 | Bae Systems Plc | Collaborative robot system |
US11133953B2 (en) * | 2018-05-11 | 2021-09-28 | Catherine Lois Shive | Systems and methods for home automation control |
US10867210B2 (en) * | 2018-12-21 | 2020-12-15 | Waymo Llc | Neural networks for coarse- and fine-object classifications |
US11214261B2 (en) * | 2019-06-11 | 2022-01-04 | GM Global Technology Operations LLC | Learn association for multi-object tracking with multi sensory data and missing modalities |
US11354913B1 (en) * | 2019-11-27 | 2022-06-07 | Woven Planet North America, Inc. | Systems and methods for improving vehicle predictions using point representations of scene |
US11440196B1 (en) * | 2019-12-17 | 2022-09-13 | X Development Llc | Object association using machine learning models |
US11625041B2 (en) * | 2020-02-21 | 2023-04-11 | Zoox, Inc. | Combined track confidence and classification model |
-
2020
- 2020-02-21 US US16/797,656 patent/US11625041B2/en active Active
-
2021
- 2021-02-17 WO PCT/US2021/018334 patent/WO2021167953A1/en unknown
- 2021-02-17 CN CN202180015319.XA patent/CN115135548A/zh active Pending
- 2021-02-17 JP JP2022549885A patent/JP2023515494A/ja active Pending
- 2021-02-17 EP EP21757043.1A patent/EP4107042A4/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2021167953A1 (en) | 2021-08-26 |
EP4107042A1 (en) | 2022-12-28 |
US11625041B2 (en) | 2023-04-11 |
EP4107042A4 (en) | 2023-12-27 |
CN115135548A (zh) | 2022-09-30 |
US20210263525A1 (en) | 2021-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11625041B2 (en) | Combined track confidence and classification model | |
US11631200B2 (en) | Prediction on top-down scenes based on action data | |
JP2022527072A (ja) | 属性に基づく歩行者の予測 | |
CN114901534A (zh) | 对象检测以及跟踪 | |
JP2022522132A (ja) | 外観に基づく動きの予測 | |
JP2022552138A (ja) | 衝突回避知覚システム | |
US11787438B2 (en) | Collaborative vehicle path generation | |
JP2023511755A (ja) | オブジェクト速度および/またはヨーレート検出およびトラッキング | |
JP2022551437A (ja) | 衝突回避パーセプションシステム | |
US11810365B1 (en) | Perception error modeling | |
US11537819B1 (en) | Learned state covariances | |
CN115485177A (zh) | 雷达跟踪的对象速度和/或偏航 | |
US11516613B1 (en) | Emergency sound localization | |
JP2022550388A (ja) | 複雑な地面のプロファイル推定 | |
US11648962B1 (en) | Safety metric prediction | |
JP2023505426A (ja) | センサデータアラインメントの補正及び環境マッピング関連アプリケーション | |
WO2022125308A1 (en) | Determining inputs for perception system | |
US11590969B1 (en) | Event detection based on vehicle data | |
EP4136004A1 (en) | Teleoperations for collaborative vehicle guidance | |
US20240253620A1 (en) | Image synthesis for discrete track prediction | |
US20240212360A1 (en) | Generating object data using a diffusion model | |
US20240208546A1 (en) | Predictive models for autonomous vehicles based on object interactions | |
US20240211731A1 (en) | Generating object representations using a variable autoencoder | |
US11906967B1 (en) | Determining yaw with learned motion model | |
US20240210942A1 (en) | Generating a scenario using a variable autoencoder conditioned with a diffusion model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240903 |