JP2022142790A - マルチタスクネットワークのための評価プロセス - Google Patents

マルチタスクネットワークのための評価プロセス Download PDF

Info

Publication number
JP2022142790A
JP2022142790A JP2022041832A JP2022041832A JP2022142790A JP 2022142790 A JP2022142790 A JP 2022142790A JP 2022041832 A JP2022041832 A JP 2022041832A JP 2022041832 A JP2022041832 A JP 2022041832A JP 2022142790 A JP2022142790 A JP 2022142790A
Authority
JP
Japan
Prior art keywords
data
network
mask
depth
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022041832A
Other languages
English (en)
Inventor
エイ. アンブラス ラレシュ
A Ambrus Rares
パーク デニス
Park Dennis
ギジリーニ ビトー
Guizilini Vitor
リ ジエ
Jie Li
デイビッド ガイドン エイドリアン
David Gaidon Adrien
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of JP2022142790A publication Critical patent/JP2022142790A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/02Systems using the reflection of electromagnetic waves other than radio waves
    • G01S17/06Systems determining position data of a target
    • G01S17/42Simultaneous measurement of distance and other co-ordinates
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • G01S7/4802Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electromagnetism (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

Figure 2022142790000001
【課題】深度推定値およびオブジェクト検出の精度に関連して知覚ネットワークを評価するシステム及び方法を提供すること。
【解決手段】一実施形態において、本方法は、画像内で識別されたオブジェクトの境界ボックスにしたがって画像に結び付けられたレンジデータをセグメント化してマスクデータを生成することを含む。該方法には、深度推定値を深度マップと相関させる評価マスクにしたがって、前記マスクデータを深度マップ内の対応する深度推定値と比較することが含まれる。該方法は、深度マップおよび境界ボックスを生成したネットワークを査定するために比較することを定量化する測定基準を提供すること含む。
【選択図】図5

Description

本明細書中に記載の主題は、概して、ネットワークを評価するためのシステムおよび方法に関し、より詳細には、際立ったアスペクトの評価に集中するために、識別されたオブジェクトの境界ボックスと結び付けられた評価マスクを使用することに関する。
自律的に動作するかまたは周囲環境についてのアスペクトを知覚するために他の形で機能するさまざまなデバイスが、多くの場合、周囲環境の障害物および付加的なアスペクトの知覚を容易にするセンサを使用する。高い精度で1シーンの構造を再構築する能力は、そのシーンの認識度およびナビゲーションにとって重要である。一例として、ロボットデバイスは、周囲環境の認識度を発達させてナビゲート中の危険を回避するために、センサからの情報を使用する。詳細には、ロボットデバイスは、このデバイスがナビゲート可能な領域と潜在的な危険を区別できるように、知覚した情報を使用して環境の3D構造を決定する。さまざまな態様において、これには、距離を知覚することおよび離散的オブジェクトを検出することが含まれ得、これは概して、利用可能なセンサデータを離散的観察事実へと精確に処理することに依存している。
1つのアプローチにおいては、ロボットデバイスは、例えば離散的オブジェクトの識別など、周囲環境の画像を捕捉し、そこから距離および他のアスペクトを推定できるようにするため単眼カメラを利用することができる。このアプローチでは、多数の観察事実(例えば距離およびオブジェクト検出)を提供するために、単一の組合せ型機械学習モデルが使用され得る。しかしながら、このようなモデルを精確に評価することは、著しく困難であり得る。すなわち、単一タスクモデルを査定するための標準的測定基準は、このような測定基準が概して、組合されたアスペクト(例えば識別されたオブジェクトの深度推定値)ではなく、個別のタスクに集中していることから、マルチタスクネットワークにおける改善を正確に識別しない可能性がある。したがって、既存のアプローチは、どのマルチタスクモデルが実装に最も好適であるかを精確に識別しない可能性がある。
一実施形態において、例示的システムおよび方法は、際立った特徴に分析を集中させるために評価マスクを使用する組合せ型ネットワークの評価に対する改良型のアプローチに関する。先に指摘したように、深度推定およびオブジェクト検出を行なうために多数の別個のネットワークを実装することは、資源集約的である。さらにマルチタスクネットワークの事例においては、このようなネットワークを精確に評価することは、標準的アプローチがマルチタスクネットワークの複雑性にうまく適合していないことに起因して、さらに困難である。
したがって、1つの配設においては、評価システムが、ネットワークをより良く区別する目的でネットワーク構造および異なる訓練アプローチと結び付けられた改善を識別するために組合せ型ネットワークの形態にさらに良好に対応する改良型測定基準を生成するように機能する。したがって、一つの配設において、評価システムは最初に、例えば単眼RGB画像である画像を取得する。さらに、評価システムは、LiDARリターンの形でのレンジデータなどの、画像と結び付けられたグラウンドトルースデータを取得する。評価システムは次に、評価中のネットワークからの出力を生成するかまたは、画像と結び付けられたネットワークからの既存の出力を使用することができる。いずれの場合でも、評価システムは、改善された測定基準の生成を容易にする評価マスクを生成するためにレンジデータを使用する。
例えば、評価システムは、画像内のオブジェクトを識別する境界ボックスにしたがってレンジデータをセグメント化し、これはグラウンドトルースデータの一部としても提供され得る。その結果が評価マスクであり、評価システムはこれを次に、ネットワークからの深度データと共に画像内に投影することができる。したがって、結果として得られた評価マスクは、画像全体ではなくむしろ画像内のオブジェクトと相関するグラウンドトルースレンジデータを含む。同様にして、評価システムは、境界ボックスを用いて深度マップをマスキングするかまたは、比較のため対応する点を有する深度マップ内の点を決定するために直接評価マスクを使用することができる。いずれの場合でも、評価システムは、評価マスクを深度データの結び付けられた部分と比較して測定基準を導出する。測定基準は、深度推定およびオブジェクト検出の両方に関連してネットワークの精度を単一の値で特徴付けする。比較自体には概して、各オブジェクトベースでかまたは評価マスク内の全ての点を横断する深度に対して評価マスクを比較することが関与し、これが平均化される。さらに、より良い結果を提供するためにデータセット内の複数の出力を横断してこれを行なうことも可能である。このようにして、導出された測定基準は、さほど極立っていない領域を含む出力の全部域を横断した評価ではなく、深度推定と3D検出性能をより良く相関させる極めて重要な部域上でのネットワークの出力の評価を提供する。
一実施形態においては、評価システムが開示される。評価システムは、1つ以上のプロセッサと、この1つ以上のプロセッサに対して通信可能に結合されたメモリとを含む。このメモリは、1つ以上のプロセッサによって実行された時点で1つ以上のプロセッサに、画像内で識別されたオブジェクトの境界ボックスにしたがって画像と結び付けられたレンジデータをセグメント化してマスクデータを生成させる命令を含むネットワークモジュールを記憶する。ネットワークモジュールは、深度推定値を深度マップと相関させる評価マスクにしたがって、マスクデータを深度マップ内の対応する深度推定値と比較する命令を含む。ネットワークモジュールは、深度マップおよび境界ボックスを生成したネットワークを査定するために比較することを定量化する測定基準を提供するための命令を含む。
一実施形態においては、1つ以上のプロセッサによって実行された時点で1つ以上のプロセッサに、さまざまな機能を行なわせる命令を含む非一時的コンピュータ可読媒体が開示されている。命令は、画像内で識別されたオブジェクトの境界ボックスにしたがって画像に結び付けられたレンジデータをセグメント化してマスクデータを生成するための命令を含む。命令は、深度推定値を深度マップと相関させる評価マスクにしたがって、マスクデータを深度マップ内の対応する深度推定値と比較するための命令を含む。命令は、深度マップおよび境界ボックスを生成したネットワークを査定するために比較することを定量化する測定基準を提供するための命令を含む。
一実施形態においては、方法が開示されている。該方法は、画像内で識別されたオブジェクトの境界ボックスにしたがって画像に結び付けられたレンジデータをセグメント化してマスクデータを生成することを含む。方法は、深度推定値を深度マップと相関させる評価マスクにしたがって、マスクデータを深度マップ内の対応する深度推定値と比較することを含む。方法は、深度マップおよび境界ボックスを生成したネットワークを査定するために比較することを定量化する測定基準を提供することを含む。
明細書中に組込まれその一部を構成する添付図面は、本開示のさまざまなシステム、方法および他の実施形態を例示する。図中の例示された要素境界(例えばボックス、ボックス群または他の形状)は、境界の一実施形態を表わしているということが認識される。いくつかの実施形態においては、1つの要素が多数の要素として設計されてよく、または多数の要素が1つの要素として設計されてもよい。いくつかの実施形態においては、別の要素の内部コンポーネントとして示されている要素を、外部コンポーネントとして実装することが可能であり、その逆も同様である。さらに、要素は、原寸に比例して描かれていない場合がある。
本明細書中で開示されているシステムおよび方法を内部で実装できる車両の一実施形態を例示する図である。 組合せ型ネットワークについての測定基準の生成と結び付けられた評価システムの一実施形態を例示する図である。 オブジェクト識別のための境界ボックスを含む画像の一例を示す図である。 図3の画像と結び付けられたレンジデータの例示的表現を示す図である。 評価マスクの一例を示す図である。 画像および対応する評価マスクの一例を示す図である。 グラウンドトルースレンジデータと結び付けられた画像および対応する評価マスクの別の例を示す図である。 評価マスクを用いて組合せ型ネットワークを評価する一実施形態に結び付けられた流れ図を例示する図である。
際立った特徴に分析を集中させるために評価マスクを使用する組合せ型ネットワークの評価に対する改良型のアプローチに結び付けられたシステム、方法および他の実施形態が開示されている。先に指摘したように、深度推定およびオブジェクト検出を行なうために多数の別個のネットワークを実装することは、資源集約的なことである。さらにマルチタスクネットワークの事例においては、このようなネットワークを精確に評価することは、標準的アプローチがマルチタスクネットワークの複雑性にうまく適合していないことに起因して、さらに困難である。
したがって、1つの配設においては、評価システムが、ネットワークをより良く区別する目的でネットワーク構造および異なる訓練レジメンと結び付けられた改善を識別するために組合せ型ネットワークの形態にさらに良好に対応する改良型測定基準を生成するように機能する。したがって、一つの配設において、評価システムは最初に、例えば単眼RGB画像である画像を取得する。さらに、評価システムは、LiDARリターンの形でのレンジデータなどの、画像と結び付けられたグラウンドトルースデータを取得する。評価システムは次に、評価中のネットワークからの出力を生成するかまたは、画像と結び付けられた既存の出力を使用することができる。いずれの場合でも、評価システムは、改善された測定基準の生成を容易にする評価マスクを生成するためにレンジデータを使用する。
例えば、評価システムは、画像内のオブジェクトを識別する境界ボックスにしたがってレンジデータをセグメント化する。その結果が評価マスクであり、評価システムは、ネットワークからの深度データと共に画像内にセグメント化されたデータを投影することによってこの評価マスクを形成する。したがって、結果として得られた評価マスクは、画像全体ではなくむしろ画像内のオブジェクトと相関するグラウンドトルースレンジデータを含む。同様にして、評価システムは、境界ボックスを用いて深度マップをマスキングするかまたは、比較のため対応する点を有する深度マップ内の点を決定するために直接評価マスクを使用することができる。いずれの場合でも、評価システムは、評価マスクを深度データの結び付けられた部分と比較して測定基準を導出する。測定基準は、深度推定およびオブジェクト検出の両方に関連してネットワークの精度を単一の値で特徴付けする。比較自体には概して、各オブジェクトベースでかまたは評価マスク内の全ての点を横断する深度に対して評価マスクを比較することが関与し、これが平均化される。さらに、より良い結果を提供するためにデータセット内の複数の出力を横断してこれを行なうことも可能である。このようにして、導出された測定基準は、(例えば建物および路面などの)さほど極立っていない領域を含む出力の全部域を横断した評価ではなく、深度推定と3D検出性能をより良く相関させる極めて重要な部域上でのネットワークの出力の評価を提供する。
図1を参照すると、車両100の一例が示されている。本明細書中で使用される「車両」とは、あらゆる形態の動力式輸送手段である。1つ以上の実装において、車両100は自動車である。本明細書中では自動車に関連して配設が説明されているものの、実施形態は自動車に限定されないということが理解される。いくつかの実装において、車両100は、例えば周囲の状況を観察してそこからの決定を提供し、こうして本明細書中で論述されている機能性からの恩恵を享受するあらゆるロボットデバイスまたは別のデバイス(例えば監視デバイス)であってよい。さらなる実施形態においては、車両100は、原動デバイスの代わりに、静的に組付けられたデバイス、埋込まれたデバイスまたは、深度およびシーンについてのオブジェクト情報を導出するために単眼画像を使用する別のデバイスであり得る。
いずれの場合でも、車両100は同様に、さまざまな要素を含む。さまざまな実施形態において、車両100が図1中に示された要素の全てを有する必要は無い可能性がある。車両100は、図1に示されたさまざまな要素の任意の組合せを有し得る。さらに、車両100は、図1に示された要素に対する追加の要素を有することができる。いくつかの配設において、車両100は、図1に示された要素の1つ以上が無い状態で実装され得る。さまざまな要素が、車両100の内部に位置設定されているものとして例示されているものの、これらの要素の1つ以上を車両100の外部に位置設定することも可能であるということが理解される。さらに、図示された要素は、物理的に大きな距離だけ離隔され、遠隔サービス(例えばクラウドコンピューティングサービス、サービス型ソフトウェア(SaaS)など)として提供されてよい。
車両100の考えられる要素のいくつかは、図1に示されており、後続の図と共に説明される。しかしながら、図1中の要素の多くの説明が、この説明の簡潔性を目的として、図2~8の論述の後で提供される。さらに、例示の平易さおよび明瞭さのために、必要に応じて、対応するまたは類似の要素を表示するために異なる図の間で参照番号が反復されている。さらに、論述では、本明細書中に記載の実施形態を徹底的に理解できるように、多くの具体的詳細の概要が述べられている。しかしながら、当業者であれば、本明細書中に記載されている実施形態がこれらの要素のさまざまな組合せを用いて実践可能である、ということを理解するものである。
いずれの場合でも、車両100は、機械学習モデルを評価するために機能する評価システム170を含む。その上、スタンドアロンのコンポーネントとして描かれているものの、1つ以上の実施形態において、評価システム170は、自律運転モジュール160、カメラ126、または車両100の別のコンポーネントと統合されている。さらに、先に指摘したように、評価システム170の1つ以上のコンポーネントが、車両100から遠隔のクラウドベースの要素であり得る。例えば、少なくとも1つの配設において、評価システム170は、車両100とは別個であり、評価時点で車両100に対し、選択されたネットワークを提供する。指摘された機能および方法は、図のさらなる論述によって、さらに明らかなものとなる。
図2を参照すると、評価システム170の一実施形態がさらに例示されている。評価システム170はプロセッサ110を含むものとして示されている。したがって、プロセッサ110は評価システム170の一部であり得るか、または評価システム170はデータバスまたは別の通信経路を通して、プロセッサ110にアクセスすることができる。1つ以上の実施形態において、プロセッサ110は、ネットワークモジュール220と結び付けられた機能を実装するように構成されている特定用途向け集積回路(ASIC)である。概して、プロセッサ110は、本明細書中に記載のさまざまな機能を行なう能力を有するマイクロプロセッサなどの電子プロセッサである。一実施形態において、評価システム170は、ネットワークモジュール220および/または深度情報の生成を支援するように機能し得る他のモジュールを記憶するメモリ210を含む。メモリ210は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、ハードディスクドライブ、フラッシュメモリまたはネットワークモジュール220を記憶するための他の好適なメモリである。ネットワークモジュール220は例えば、プロセッサ110によって実行された時点で、プロセッサ110に、本明細書中で開示されたさまざまな機能を行なわせるコンピュータ可読命令である。さらなる配設において、ネットワークモジュール220は、論理、集積回路または、内部に統合された命令を含む指摘された機能を行なうための別のデバイスである。
さらに、一実施形態において、評価システム170は、データストア230を含む。データストア230は、一配設において、メモリ210または別のデータストア中に記憶された電子データ構造であり、記憶されたデータを分析し、記憶されたデータを提供し、記憶されたデータを組織することなどのためにプロセッサ110によって実行され得るルーチンと共に構成されているものである。したがって、一実施形態において、データストア230は、さまざまな機能を実行する上でネットワークモジュール220によって使用されるデータを記憶する。例えば、図2に描かれているように、データストア230は、画像240、少なくとも1つのアプローチにおいて、少なくとも深度推定およびオブジェクト検出を行なうマルチタスクネットワークであるネットワーク250および評価データ260を、例えばネットワークモジュール220によって使用および/または生成される他の情報と共に含んでいる。評価システム170は、さまざまな要素を含むものとして例示されているものの、例示された要素の1つ以上はさまざまな実装においてデータストア230の内部に含まれない可能性があるということを認識すべきである。例えば、評価システム170は1つのアプローチにおいて、ネットワーク250を含まない場合があり、代りに、評価のためにネットワーク250の出力を取得することができる。いずれの場合でも、評価システム170は、ネットワークモジュール220の機能を支援するためにデータストア230内にさまざまなデータ要素を記憶する。
引き続き、強調されたデータ要素に関して言うと、画像240は、例えば、カメラ126または別の撮像デバイスからの単眼画像である。単眼画像は概して、複数のフレームで構成されている1つ以上の単眼ビデオから導出されるが、画像240を静止画像カメラから導出することも同様に可能である。本明細書中に記載されているように、単眼画像は例えば、さらなるモダリティを一切伴わない光三原色(RGB)画像であり、かつ周囲環境の少なくとも一部分の車両100を中心とする視野(FOV)を包含する、カメラ126または別の撮像デバイスからの画像である。すなわち、単眼画像240は、一つのアプローチにおいては、周囲環境のサブ領域に限定される。こうして、画像240は、前向き方向(すなわち走行方向)60、90、120度FOV、後方/側方向きFOV、またはカメラ126の撮像特性(例えばレンズのひずみ、FOVなど)によって定義される他のサブ領域であり得る。さまざまな態様において、カメラ126は、ピンホールカメラ、魚眼カメラ、反射屈折カメラ、または、特定の深度モダリティを伴わない画像を取得する別の形態のカメラである。
個別の単眼画像はそれ自体、カメラ126またはソースである別の撮像デバイスと結び付けられた撮像標準(例えばコーデック)にしたがってエンコードされたFOVの視覚データを含む。概して、ソースカメラ(例えばカメラ126)およびビデオ規格の特性が、単眼画像のフォーマットを定義する。したがって、特定の特性は異なる実装に応じて変動し得るものの、概して、画像は、定義された解像度(すなわち画素単位の高さおよび幅)およびフォーマットを有する。したがって、例えば、単眼画像240は、RGB可視光画像である。さらなる態様においては、単眼画像240は、対応する赤外線カメラと結び付けられた赤外線画像、白黒画像、または所望され得る通りの別の好適なフォーマットであり得る。評価システム170がどのフォーマットを実装しようとも、画像240は、深度を標示するいかなる明示的な追加のモダリティも、深度導出の元となる別のカメラからのいかなる明示的な対応する画像も(すなわちいかなるステレオカメラ対も)存在しないという点において、単眼画像である。追加の深度チャネルを提供するために並んで組付けられた別個のカメラからの左右の画像を統合し得るステレオ画像とは対照的に、単眼画像240は、ステレオ画像を画素毎に比較することで導出される視差マップなどの明示的な深度情報を含んでいない。その代り、単眼画像240は、ネットワーク250による出力の導出元である、内部に描かれた要素のサイズと射影の関係において深度情報を黙示的に提供する。
さらに、1つ以上の配設において、データストア230はさらに、画像240に対応する評価データ260を含む。一般的態様として、画像240および評価データ260は単数形で論述されているものの、さまざまな配設においてデータストア230は、ネットワーク250の評価を支援するために多数の画像および対応する評価データを含む。画像240と結び付けられた評価データ260には、一実施形態においてグラウンドトルース深度データ、グラウンドトルース境界ボックスおよび、深度マップと少なくとも1つの配設ではオブジェクト検出のための生成済み境界ボックスとを含むネットワーク250の出力が含まれる。当然のことながら、さらなる実装においては、評価データ260の1つ以上の態様を省略することができる。
評価システム170がアクセスできるネットワークの一例として、ネットワーク250を考慮されたい。ネットワーク250は、一配設において、深度、オブジェクト検出そして1つ以上のアプローチではオブジェクト分類などの追加のアスペクトについての推論を裏付けるマルチタスクネットワークである。1つの構成において、ネットワーク250は、単一段階である完全に畳み込み型のネットワークである。さらに、ネットワーク250は、画像240からの特徴マップをエンコードするためのボトムアップバックボーン、特徴マップをデコードするトップダウン経路および共用ヘッドを含む特徴ピラミッドネットワーク(FPN)として言及され得る。いくつかの実装において同様に特徴ピラミッドとしても言及されているトップダウン経路は、別個の層間の直列接続に加えてバックボーンとの異なるスケールでの側方接続を含む。したがって、トップダウン経路は、最高の解像度で出力される深度マップを除いて、異なるスケール(例えば境界ボックス)での結果を出力する。ヘッドは、トップダウン経路の別個の出力スケールの間で供用される。一実施形態において、ヘッドは、クラスコンポーネント、2次元コンポーネントおよび3次元コンポーネントなどの多数の異なる構造を含む。
クラスコンポーネントは、それについてネットワーク250が訓練される一定数のクラスに対応するC次元のベクトルを生成する。クラスコンポーネントは、オブジェクトについてのクラス決定を生成するためのマルチクラス分類子または複数の二項分類子を含み得る。2Dコンポーネントは、画像240のフレームの2D空間内でオブジェクトを識別するために機能する。1つのアプローチでは、2Dコンポーネントは、画像240のフレームからの識別として2D境界ボックスを生成する畳み込みネットワークである。2Dコンポーネントは、2Dおよび3Dオブジェクト検出間の一貫性を提供するために機能することができる。ヘッドは、さらに、カメライントリンシクスを用いて3D点クラウドへと変換される高密度の画素単位深度を予測するための疑似LiDAR3D検出器として作用する深度コンポーネントを含むことができる。3Dコンポーネントは、点クラウドを入力画像240と連結させて、深度マップとして3D座標と共に画素色値を包含する6次元テンソルを生成する。3Dコンポーネントはさらに、オブジェクトを検出するための境界ボックスを生成する3D検出ネットワークによって処理される、2Dコンポーネント由来の提案領域を受諾する。ネットワーク250の概略的に説明した配設は、単に、評価システム170が査定し得るマルチタスクネットワークの1つの実装にすぎず、評価システム170が査定できる全てのネットワークの包含的な言明であるように意図されていないということを認識すべきである。概して、評価システム170が行うアプローチは、評価システム170の動作対象である出力を生成する任意の機械学習アルゴリズムに適用可能である。
図2に戻ると、ネットワークモジュール220は、ネットワーク250を実装することができる。さまざまな態様において、ネットワークモジュール220は、ネットワーク250を適用するための命令を含み、ネットワーク250は、ネットワークモジュール220と統合され得る。概して、ネットワークモジュール220は、画像240を含む画像240を処理するためにネットワーク250を制御し、訓練するときには、結び付けられた訓練データを用いて、訓練損失を生成してネットワーク250を更新する。
いずれの場合でも、評価システム170は、一実施形態において、深度マップ、境界ボックスおよびさらなる情報(例えば2D境界ボックス、分類など)を生成するためにネットワーク250を利用する。本明細書中で論述されているように、ネットワーク250の評価は、深度マップおよび境界ボックスに焦点を当てている。概して、深度マップは、疑似LiDAR深度データまたは高密度深度データとして言及され得る画像240についての深度の画素単位の予測である。すなわち、ネットワーク250は、画像240の形で描かれた異なるアスペクトについての深度の推定値を提供する。当然のことながら、マルチタスク機能性の当該アプローチにおいて、ネットワーク250はさらに、2Dおよび3D境界ボックスの形でのオブジェクト検出を提供するため、深度マップを超えたところからの情報を統合する。
ネットワークモジュール220は、評価データ260および画像240を含めた情報を最初に取得することによってネットワーク250を評価する。一配設において、評価データ260は、ネットワーク250により生成された深度マップおよび境界ボックスを含む。したがって、ネットワークモジュール220は最初に、例えばグラウンドトルース境界ボックスにしたがって画像240と結び付けられたグラウンドトルースレンジデータをセグメント化して、マスクデータを生成する。すなわち、ネットワークモジュール220は、マスクとしてグラウンドトルース境界ボックスを使用して、レンジデータから関連するセクションをセグメント化する。したがって、境界ボックス内に入るレンジデータの点は、マスクデータとして保持され、一方、他の点は破棄される。このようにして、ネットワークモジュール220は、データ内のより一般化された点を回避しながらネットワーク250の主要な機能に関連しているアスペクトに評価を集中させることができる。
マスクデータを用いて、ネットワークモジュール220は、画像240内にマスクデータを投影して、評価マスクを生成する。グラウンドトルースデータの境界ボックスは、別個の2Dまたは3Dオブジェクト検出器によって生成され得、あるいはさらなるアプローチにおいては手作業でラベル付けして訓練を容易にすることが可能である。したがって、さまざまな実装において、境界ボックスは画像240の画像空間の内部にあり得、こうして、ネットワークモジュール220は、レンジデータを画像240内に投影して、レンジデータのセグメント化の前にRGB-D画像を形成することができる。すなわち、代替的配設においては、レンジデータと境界ボックスの間の対応性を識別するために、レンジデータは、最初に画像240内に投影され、その後、画像空間内に存在する境界ボックスとの対応性にしたがってセグメント化され得る。どのアプローチを行なうにせよ、レンジデータをセグメント化することで結果として得られた評価マスクは、評価システム170による評価に集中するように機能する。
一例として、評価データおよびマスクデータに対応する画像240の一例を示す図3~5を考慮する。図3は、画像300のための代表的なボックスとして境界ボックス310、320および330を含む画像300を示す。画像300は、画像240の一例であり、一方境界ボックス310~330は評価データ260を代表するものである。さらに、境界ボックス310~330に関して、画像300が、付番されていないさらなる境界ボックスを含み、したがって境界ボックス310~330は論述を目的として強調されている、という点に留意されたい。その上、境界ボックス310~330が、車両という単一のクラスを包含し、木、建物などのさらなるオブジェクトを識別しないという点に留意されたい。概して、境界ボックスは、ネットワーク250の訓練対象である1組のクラスと符合する。したがって、境界ボックスに対応する識別されたオブジェクトは、画像240内のオブジェクトのサブセットを表わし得るが、概して、ネットワーク250が具体的に識別するように構造化されている対象である画像240の際立ったアスペクトである。
図4に目を向けると、図3の画像300と符合するレンジデータ400が例示されている。レンジデータ400はLiDARデータである。図示されているように、画像300と符合する境界ボックス310~330が図4で表現されており、境界ボックスと結び付けられたデータ点がさらに識別されている。すなわち、レンジデータ400のサブセットが境界ボックス310~330およびさらなる境界ボックスと符合し、この場合、このサブセットは、オブジェクトに対応するものよりも著しく大量の情報を表わしている。したがって、評価システム170は、図5に示されているようなマスクデータ500を生成するために境界ボックスにしたがってレンジデータ400をセグメント化する。したがって、図5は、画像300の極立ったアスペクトと符合するレンジデータ400の一部分を表わす。
したがって、評価システム170は、1つの配設において、マスクデータ500を画像300内に投影して評価マスクを生成する。評価マスクの例は、図6~7に関連してさらに示される。図6は、画像600および対応する評価マスク610を例示し、一方図7は、画像700および対応する評価マスク710を例示する。例を見れば分かるように、評価マスク610および710は、境界ボックス内に識別されたオブジェクトと結び付けられたレンジデータからの点を含む。そうでなければ、評価システム170は、境界ボックス内に入らない残りの点を破棄する。このようにして、評価システム170は、その後、シーン内部の関連するオブジェクトに対する比較のために使用されるデータに集中する。
図2に戻ると、ネットワークモジュール220はさらに、評価マスクにしたがって深度マップ内の対応する深度推定値とマスクデータとを比較するための命令を含む。したがって、ネットワークモジュール220はさらに、評価マスクを用いて画像240内にネットワーク250からの深度推定値を投影することができ、あるいは単純に、評価マスクを深度推定値に対し比較する。概して、評価マスクを深度推定値と比較するプロセスには、各オブジェクトベースかまたは評価マスクの全ての点を横断して点毎に行なわれ得る比較の値の平均化が関与する。例えば、比較することには、評価マスクからの点と深度推定値からの点の間の差分を生成することが関与する。ネットワークモジュール220は、このとき、オブジェクトを横断した、または評価マスクからの、評価されつつある点全体を横断した差分を平均化して、測定基準を生成することができる。
測定基準は、深度マップの生成および評価マスクを用いたオブジェクトの識別におけるネットワーク250の精度を特徴付けして、画像240のシーン内のオブジェクトに測定基準を集中させる。このようにして、測定基準は、他のモデルに比べたネットワーク250の改善を識別する。指摘された改善は、ネットワーク250の訓練および/または他のモデルと比較したアーキテクチャ全体の中の差異における改善に基づくものであり得る。いずれの場合でも、このようにして測定基準を生成することによって、マルチタスクモデルの査定が改善されることになる。
ネットワークモジュール220は、ひとたび測定基準を生成すると、ネットワーク250の査定を定量化するための測定基準を提供する。一配設において、ネットワークモジュール220は、ネットワーク250を含む複数の異なる機械学習モデルのための測定基準を生成する。したがって、ネットワークモジュール220は、測定基準にしたがってモデルをスコアリングし、次に所望のスコアを有するモデルの1つを選択し得る。その結果、例えば、モデルを車両100に対して通信しその後続いて、選択されたモデルを用いて機械知覚タスク、例えば指摘された深度推定およびオブジェクト検出を行なうことによって、選択されたモデルを車両100の内部に実装することができる。このアプローチにより、評価システム170は、モデルが精確に評価されて、指摘されたタスクにとって最も高い性能を示すモデルの実装を容易にすることを保証することができる。
マルチタスクネットワークの評価という追加の態様について、図8に関連して論述される。図8は、評価マスクを使用したマルチタスクネットワークの査定に結び付けられた方法800の流れ図を例示する。方法800については、図1~2の評価システム170の観点から見て論述される。方法800は評価システム170と組合わせて論述されているものの、該方法800が評価システム170の内部で実装されることに限定されず、むしろ該方法800を実装し得るシステムの一例であるということを認識すべきである。
810において、ネットワークモジュール220は、画像240および評価データ260を取得する。先に説明されているように、画像240は、少なくとも単眼カメラからの単眼画像または車両100または評価システム170が情報を解析する対象である別のデバイスの周囲環境のビデオで構成されている。したがって、先に指摘したように、評価システム170は、車両100または別のデバイスと統合されてよく、あるいは代替的に、広域ネットワーク(WAN)などの通信経路を介して画像240を受信すること、そして、画像240を解析するべく遠隔で機能することができる。その上、評価データ260は、少なくとも画像240と符合するグラウンドトルースデータ、例えばLiDARリターンの形をしたレンジデータ、および少なくとも1つの配設においては2Dまたは3D境界ボックスを含む。2D境界ボックスは、別個の検出モデルにより生成され得るか、または手作業で注釈付けされ得る。いずれの場合でも、評価データ260はグラウンドトルースデータを含み、さらに、画像240のための対応する深度推定値を含む深度マップなどの、評価対象であるネットワーク250の出力を含み得る。
820において、ネットワークモジュール220は、画像240および/またはレンジデータの中で識別されたオブジェクトの境界ボックスにしたがってレンジデータをセグメント化してマスクデータを生成する。システム170は、画像240の解析、レンジデータおよび/または手作業での注釈付けから生成された境界ボックスを活用することができるということを認識すべきである。いずれの場合でも、2Dまたは3Dであり得る境界ボックスは、レンジデータおよび画像260の両方と結び付けられたシーン内のオブジェクトの場所と符合しこれを識別する。ネットワークモジュール220は、1つのアプローチにおいて、境界ボックス内に入るレンジデータからの点を選択する一方で、レンジデータ内の残りの点を破棄することによりレンジデータをセグメント化する。セグメント化の結果、ネットワークモジュール220は、画像240によって描かれたシーン内に存在するオブジェクトと符合するレンジデータ内の関連する点に解析を集中させる。
830において、ネットワークモジュール220は、マスクデータを用いて評価マスクを生成する。すなわち、1つのアプローチにおいて、ネットワークモジュール220は画像240内にマスクデータを投影して評価マスクを形成する。評価マスクは単に、画像240内の識別されたオブジェクトと符合するLiDARリターンの点クラウドからの1組のグラウンドトルースデータ点であるにすぎない。オブジェクトは、選択されたクラスのオブジェクト、例えば車両または特定のタスク(例えば自律運転)に関連する他のオブジェクトであり得る。
840において、ネットワークモジュール220は、深度推定値をマスクデータと相関させる評価マスクにしたがって、マスクデータを深度マップ内の対応する深度推定値と比較する。概して、ネットワークモジュール220は、マスクデータの値を深度推定値と比較して、点毎の比較を生成する。比較の値は、絶対値として提供され得、850で論述される通り、共に平均化されて測定基準を形成することができる。
850において、ネットワークモジュール220は、比較にしたがって測定基準を生成する。測定基準は、深度マップおよび境界ボックスの生成におけるネットワーク250の精度を特徴付けするということを認識すべきである。したがって、ネットワークモジュール220は、比較の値を平均化し、平均を組合わせて測定基準を生成する。ネットワークモジュール220は、各オブジェクトベースでのまたは画像240全体を横断した平均を生成することができる。いずれの場合でも、ネットワークモジュール220は、どのモデルが組合せ型タスク上で優れた性能を示すかを後で決定するための共通の比較点を測定基準が提供するような形で、他のモデルに比べたネットワーク250内改善を識別するための測定基準を生成する。
860において、ネットワークモジュール220は測定基準を提供する。1つのアプローチにおいて、ネットワークモジュール220は、モジュール160に利用可能なモデル間での選択を行なわせるために、自律運転モジュール160などの車両100の支援システムに対して測定基準を提供する。したがって、ネットワークモジュール220は、モジュール160が、組合せ型タスクを行なうのに最も好適であるモデルを使用していることを保証することによって、車両100のナビゲーションを支援するために測定基準を使用することができる。さらなる態様においては、評価システム170は、ネットワーク250を含めた複数の異なるモデルのための測定基準にしたがって、モデルを別個に選択することができる。このような場合、評価システム170は、車両100および/または深度およびオブジェクトの識別の機械知覚を行なう他の車両に対して通信経路(例えば無線通信リンク)を介して選択されたモデルを分散させることができる。このようにして、評価システム170は、モデルを精確に査定し、他のアプローチによっては観察不可能であり得る改善を識別することができる。
本明細書中で開示されているシステムおよび方法が中で動作し得る例示的環境として、ここで図1について完全に詳述する。いくつかの事例において、車両100は、自律モード、1つ以上の半自律動作モードおよび/または手動モードの間で選択的に切換えるように構成されている。このような切換えは、現在公知のまたは将来開発される好適な形で実装可能である。「手動モード」は、車両のナビゲーションおよび/または操作の全てまたは大部分が、ユーザ(例えば人間のドライバ)から受けた入力にしたがって行なわれることを意味する。1つ以上の配設において、車両100は、手動モードのみで動作するように構成されている従来の車両であり得る。
1つ以上の実施形態において、車両100は自律型車両である。本明細書中で使用される「自律型車両」とは、自律モードで動作する車両を意味する。「自律モード」とは、人間のドライバからの入力が最小限であるかまたは全く無い状態で、車両100を制御するために1つ以上の計算システムを使用して走行ルートに沿って車両100をナビゲートおよび/または操作することを意味する。1つ以上の実施形態において、車両100は、高度に自動化されているか、または完全に自動化されている。一実施形態において、車両100は、1つ以上の計算システムが走行ルートに沿った車両のナビゲーションおよび/または操作の一部分を行ない、車両のオペレータ(すなわちドライバ)が、走行ルートに沿った車両100のナビゲーションおよび/または操作の一部分を行なうために車両に入力を提供する、1つ以上の半自律動作モードを伴って構成されている。
車両100は、1つ以上のプロセッサ110を含むことができる。1つ以上の配設において、プロセッサ110は、車両100の主プロセッサであり得る。例えば、プロセッサ110は、電子制御ユニット(ECU)であり得る。車両100は、1つ以上のタイプのデータを記憶するための1つ以上のデータストア115を含むことができる。データストア115は、揮発性および/または不揮発性メモリを含むことができる。好適なデータストア115の例としては、RAM(ランダムアクセスメモリ)、フラッシュメモリ、ROM(読取り専用メモリ)、PROM(プログラマブル読取り専用メモリ)、EPROM(消去可能なプログラマブル読取り専用メモリ)、EEPROM(電気的消去可能なプログラマブル読取り専用メモリ)、レジスタ、磁気ディスク、光ディスク、ハードドライブまたは他の任意の好適な記憶媒体、またはその任意の組合せを含むことができる。データストア115は、プロセッサ110の1つのコンポーネントであり得、あるいはデータストア115はプロセッサ110に対し作動的に接続されてそれにより使用され得る。本明細書全体を通して使用される「作動的に接続された」なる用語は、直接的な物理的接触の無い接続を含めた、直接的または間接的接続を含むことができる。
1つ以上の配設において、1つ以上のデータストア115は、マップデータ116を含むことができる。マップデータ116は、1つ以上の地理的地域のマップを含み得る。いくつかの事例において、マップデータ116は、1つ以上の地理的地域内の道路、交通管制装置、路面標識、構造、特徴および/またはランドマークについての情報またはデータを含み得る。マップデータ116は、任意の好適な形態であり得る。いくつかの事例において、マップデータ116は、一地域の航空写真を含み得る。いくつかの事例において、マップデータ116は、360度の地上写真を含めた、一地域の地上写真であり得る。マップデータ116は、マップデータ116内に含まれた1つ以上のアイテムについてのおよび/またはマップデータ116内に含まれた他のアイテムに関する測定値、寸法、距離および/または情報を含むことができる。マップデータ116は、道路の幾何形状についての情報を伴うデジタルマップを含むことができる。マップデータ116は、高品質のおよび/または高精細のものであり得る。
1つ以上の配設において、マップデータ116は、1つ以上の地形図117を含み得る。地形図117は、1つ以上の地理的地域の地面、地形、道路、表面および/または他の特徴についての情報を含むことができる。地形図117は、1つ以上の地理的地域内の標高データを含み得る。マップデータ116は、高品質および/または高精細のものであり得る。地形図117は、舗装道路、未舗装道路、陸地および地表を画定する他の物を含み得る1つ以上の地表を定義し得る。
1つ以上の配設において、マップデータ116は、1つ以上の静止障害物マップ118を含むことができる。静止障害物マップ118は、1つ以上の地理的地域内に位置設定された1つ以上の静止障害物についての情報を含むことができる。「静止障害物」は、一定の期間にわたりその位置が変わらないかまたは実質的に変わらずかつ/または一定の期間にわたりそのサイズが変わらないかまたは実質的に変わらない物理的オブジェクトである。静止障害物の例としては、木、建物、縁石、フェンス、ガードレール、中央分離帯、電柱、塑像、モニュメント、看板、ベンチ、調度品、郵便箱、大きな岩、丘が含まれる。静止障害物は、地表面より上に延在するオブジェクトであり得る。静止障害物マップ118に含まれる1つ以上の静止障害物は、場所データ、サイズデータ、寸法データ、材料データおよび/またはそれに結び付けられた他のデータを有することができる。静止障害物マップ118は、1つ以上の静止障害物についての測定値、寸法、距離および/または情報を含むことができる。静止障害物マップ118は、高品質および/または高精細のものであり得る。静止障害物マップ118は、マッピングされた地域内の変化を反映するように更新され得る。
1つ以上のデータストア115は、センサデータ119を含み得る。これに関連して、「センサデータ」は、車両100に具備されたセンサについての能力および他の情報を含めた、このようなセンサについてのあらゆる情報を意味する。以下で説明されるように、車両100はセンサシステム120を含むことができる。センサデータ119は、センサシステム120の1つ以上のセンサに関係し得る。一例として、1つ以上の配設において、センサデータ119は、センサシステム120の1つ以上のLIDARセンサ124についての情報を含むことができる。
いくつかの事例において、マップデータ116および/またはセンサデータ119の少なくとも一部分は、車両100に搭載された1つ以上のデータストア115内に位置設定され得る。代替的に、または付加的に、マップデータ116および/またはセンサデータ119の少なくとも一部分を、車両100から遠隔に位置設定された1つ以上のデータストア115内に位置設定することができる。
以上で指摘したように、車両100は、センサシステム120を含むことができる。センサシステム120は、1つ以上のセンサを含み得る。「センサ」とは、何かを検出および/または検知できるあらゆるデバイス、コンポーネントおよび/またはシステムを意味する。1つ以上のセンサは、実時間で検出および/または検知するように構成され得る。本明細書中で使用される「実時間」なる用語は、特定のプロセスまたは決定を行なうのに充分に即時であるものとしてユーザまたはシステムが検知する、またはプロセッサがいくつかの外部プロセスに遅れずについていけるようにする処理応答性レベルを意味する。
センサシステム120が複数のセンサを含んでいる配設において、センサは互いに独立して作動し得る。代替的には、センサの2つ以上が互いに組合わさって作動することができる。このような場合には、2つ以上のセンサはセンサネットワークを形成し得る。センサシステム120および/または1つ以上のセンサは、プロセッサ110、データストア115および/または車両100の別の要素(図1に示された要素のいずれかを含む)に対して作動的に接続され得る。センサシステム120は、車両100の外部環境の少なくとも一部分(例えば近傍の車両)のデータを取得することができる。
センサシステム120は、任意の好適なタイプのセンサを含むことができる。本明細書中では、異なるタイプのセンサのさまざまな例が記載される。しかしながら、実施形態は、記載された特定のセンサに限定されない、ということが理解される。センサシステム120は、1つ以上の車両センサ121を含むことができる。車両センサ121は、車両100自体についての情報を検出、決定および/または検知できる。1つ以上の配設において、車両センサ121は、例えば慣性加速度に基づいて、車両100の位置および配向の変化を検出および/または検知するように構成され得る。1つ以上の配設において、車両センサ121は、1つ以上の加速度計、1つ以上のジャイロスコープ、慣性測定ユニット(IMU)、推測航法システム、全地球的航法衛星システム(GNSS)、全地球測位システム(GPS)、ナビゲーションシステム147および/または他の好適なセンサを含むことができる。車両センサ121は、車両100の1つ以上の特性を検出および/または検知するように構成され得る。1つ以上の配設において、車両センサ121は、車両100の現在速度を決定するための速度計を含み得る。
代替的に、または付加的に、センサシステム120は、運転環境データを取得および/または検知するように構成された1つ以上の環境センサ122を含むことができる。「運転環境データ」には、自律型車両が中に位置設定されている外部環境またはその1つ以上の部分についてのデータまたは情報が含まれる。例えば、1つ以上の環境センサ122は、車両100の外部環境の少なくとも一部分の中の障害物、および/またはこのような障害物についての情報/データを検出、定量化および/または検知するように構成され得る。このような障害物は、不動のオブジェクトおよび/または動的オブジェクトであり得る。1つ以上の環境センサ122は、車両100の外部環境内の他の物、例えば車線マーカー、看板、交通信号灯、交通標識、車線ライン、横断歩道、車両100に近接した縁石、オフロードオブジェクトなどを検出、測定、定量化および/または検知するように構成され得る。
本明細書には、センサシステム120のセンサのさまざまな例が記載されている。例示的センサは、1つ以上の環境センサ122および/または1つ以上の車両センサ121の一部であり得る。しかしながら、実施形態は、記載されている特定のセンサに限定されないことが理解される。
一例として、1つ以上の配設において、センサシステム120は、1つ以上のレーダセンサ123、1つ以上のLIDARセンサ124、1つ以上のソーナセンサ125および/または1つ以上のカメラ126を含むことができる。1つ以上の配設において、1つ以上のカメラ126は、高ダイナミックレンジ(HDR)カメラまたは赤外線(IR)カメラであり得る。
車両100は、入力システム130を含むことができる。「入力システム」には、情報/データを機械に入力できるようにするあらゆるデバイス、コンポーネント、システム、要素、または配設またはそれらの群が含まれる。入力システム130は、車両の乗員(例えばドライバまたは同乗者)からの入力を受信することができる。車両100は、出力システム135を含み得る。「出力システム」には、車両の乗員(例えば人物、車両の乗員)に対して情報/データを提示できるようにするあらゆるデバイス、コンポーネントまたは配設、またはそれらの群が含まれる。
車両100は、1つ以上の車両システム140を含むことができる。1つ以上の車両システム140のさまざまな例が、図1に示されている。しかしながら、車両100は、より多くの、より少ない、または異なる車両システムを含むことができる。特定の車両システムが別個に定義されているものの、これらのシステムまたはその部分の各々またはいずれかを、車両100の内部でハードウェアおよび/またはソフトウェアを介して他の形で組合わせるかまたは分離してもよい、ということを認識すべきである。車両100は、推進システム141、制動システム142、ステアリングシステム143、スロットルシステム144、トランスミッションシステム145、信号システム146および/またはナビゲーションシステム147を含むことができる。これらのシステムの各々は、現在公知のまたは将来開発される1つ以上のデバイス、コンポーネントおよび/またはそれらの組合せを含むことができる。
ナビゲーションシステム147は、車両100の地理的場所を決定しかつ/または車両100のための走行ルートを決定するように構成された、現在公知のまたは将来開発される1つ以上のデバイス、アプリケーションおよび/またはそれらの組合せを含むことができる。ナビゲーションシステム147は、車両100の走行ルートを決定するための1つ以上のマッピングアプリケーションを含むことができる。ナビゲーションシステム147は、全地球測位システム、局地測位システムまたは地理位置情報システムを含むことができる。
プロセッサ110、評価システム170および/または自律運転モジュール160は、さまざまな車両システム140および/またはその個別のコンポーネントと通信するために作動的に接続され得る。例えば、図1に戻ると、プロセッサ110および/または自律運転モジュール160は、車両100の運動、速度、操作、進路、方向などを制御する目的で、さまざまな車両システム140からの情報を送信および/または受信するように通信状態にあり得る。プロセッサ110、評価システム170および/または自律運転モジュール160は、これらの車両システム140のいくつかまたは全てを制御することができ、したがって、部分的または完全に自律型である。
プロセッサ110、評価システム170および/または自律運転モジュール160は、さまざまな車両システム140および/またはその個別のコンポーネントと通信するために作動的に接続され得る。例えば、図1に戻ると、プロセッサ110、評価システム170および/または自律運転モジュール160は、車両100の運動、速度、操作、進路、方向などを制御する目的で、さまざまな車両システム140からの情報を送信および/または受信するように通信状態にあり得る。プロセッサ110、評価システム170および/または自律運転モジュール160は、これらの車両システム140のいくつかまたは全てを制御することができる。
プロセッサ110、評価システム170および/または自律運転モジュール160は、車両システム140および/またはそのコンポーネントの1つ以上を制御することによって、車両100のナビゲーションおよび/または操作を制御するように動作可能であり得る。例えば、自律モードで動作している場合、プロセッサ110、評価システム170および/または自律運転モジュール160は、車両100の方向および/または速度を制御することができる。プロセッサ110、評価システム170および/または自律運転モジュール160は、車両100に加速させる(例えばエンジンに対し提供される燃料供給を増大させることによる)、減速させる(例えばエンジンに対する燃料供給を減少させることおよび/またはブレーキをかけることによる)、および/または方向転換させる(例えば2つの前輪を回転させることによる)ことができる。本明細書中で使用される「~させる(causeまたはcausing)」は、直接的にまたは間接的に、1つの事象またはアクションが発生するかまたはこのような事象またはアクションが発生し得る状態にあるようにする、強制する、余儀なくさせる、指図する、指令する、命令する、および/または可能にすることを意味している。
車両100は、1つ以上のアクチュエータ150を含むことができる。アクチュエータ150は、プロセッサ110および/または自律運転モジュール160からの信号または他の出力の受信に対する応答性を有するように車両システム140またはそのコンポーネントの1つ以上を修正、調整および/または改変するために動作可能であるあらゆる要素または要素の組合せであり得る。任意の好適なアクチュエータを使用することができる。例えば、1つ以上のアクチュエータ150には、幾つかの可能性を挙げると、モータ、空気圧式アクチュエータ、油圧式ピストン、継電器、ソレノイド、および/または圧電アクチュエータが含まれ得る。
車両100は、1つ以上のモジュールを含むことができ、そのうちの少なくともいくつかが本明細書中に記載されている。モジュールは、プロセッサ110によって実行された時点で、本明細書中に記載のさまざまなプロセスの1つ以上を実装するコンピュータ可読プログラムコードとして実装され得る。モジュールの1つ以上は、プロセッサ110の1つのコンポーネントであり得、あるいは、モジュールの1つ以上を、プロセッサ110が作動的に接続されている他の処理システム上で実行することおよび/またはこれらの他のシステムの間で分散させることが可能である。モジュールは、1つ以上のプロセッサ110により実行可能な命令(例えばプログラム論理)を含むことができる。代替的にまたは付加的に、1つ以上のデータストア115が、このような命令を格納していてよい。
1つ以上の配設において、本明細書中に記載のモジュールの1つ以上は、人工または計算知能要素、例えばニューラルネットワーク、ファジー論理または他の機械学習アルゴリズムを含むことができる。さらに、1つ以上の配設において、モジュールの1つ以上は、本明細書中に記載のモジュールのうちの複数のものの間で分散され得る。1つ以上の配設において、本明細書中に記載のモジュールの2つ以上を単一のモジュールの形に組合わせることができる。
車両100は1つ以上の自律運転モジュール160を含むことができる。自律運転モジュール160は、センサシステム120および/または車両100および車両100の外部環境に関する情報を捕捉する能力を有する任意の他のタイプのシステムからデータを受信するように構成され得る。1つ以上の配設において、自律運転モジュール160は、このようなデータを用いて1つ以上の運転シーンモデルを生成することができる。自律運転モジュール160は、車両100の位置および速度を決定することができる。自律運転モジュール160は、障害物、障害物または、交通標識、樹木、低木、隣接車両、歩行者などを含めた他の環境特徴の場所を決定することができる。
自律運転モジュール160は、車両100の位置および配向を推定するために、プロセッサ110および/または本明細書中に記載のモジュールの1つ以上によって使用されるための車両100の外部環境内の障害物についての場所情報、複数の衛星からの信号に基づくグローバル座標内の車両の位置、または、車両100の現在の状態を決定するかまたはマップの作成またはマップデータとの関係における車両100の位置の決定において使用するための環境との関係における車両100の位置を決定するために使用可能と思われる任意の他のデータ、および/または信号を受信および/または決定するように構成され得る。
自律運転モジュール160は、独立してまたは評価システム170と組合わせた形で、センサシステム120が取得したデータ、運転シーンモデルおよび/または他の任意の好適なソースからのデータに基づいて、走行経路、車両100のための現在の自律運転操作、将来の自律運転操作、および/または現在の自律運転操作に対する修正を決定するように構成され得る。「運転操作」とは、車両の動きに影響を及ぼす1つ以上のアクションを意味する。運転操作の例としては、幾つかの可能性を挙げると、加速、減速、制動、方向転換、車両100の横方向移動、走行車線の変更、走行車線内への合流および/または逆進が含まれる。自律運転モジュール160は、決定された運転操作を実装するように構成され得る。自律運転モジュール160は、直接的にまたは間接的にこのような自律運転操作を実装させることができる。本明細書中で使用される「~させる(causeまたはcausing)」は、直接的にまたは間接的に、1つの事象またはアクションが発生するかまたはこのような事象またはアクションが発生し得る状態にあるようにする、指令する、命令する、および/または可能にすることを意味している。自律運転モジュール160は、さまざまな車両機能を実行しかつ/または、車両100またはその1つ以上のシステム(例えば車両システム140の1つ以上)にデータを伝送する、これらからデータを受信する、これらと対話するおよび/またはこれらを制御するように構成され得る。
本明細書中では、詳細にわたる実施形態が開示されている。しかしながら、開示された実施形態は単なる例として意図されたものであることを理解しなければならない。したがって、本明細書中で開示されている具体的な構造的および機能的詳細は、限定的なものとしてではなく、単にクレームの根拠として、およびほぼあらゆる適切に詳述された構造において本明細書中の態様をさまざまな形で利用するように当業者に教示するための代表的な原則として解釈されるべきものである。さらに、本明細書中で使用されている用語および言い回しは、限定的であるように意図されておらず、むしろ考えられる実装の理解可能な描写を提供するように意図されたものである。さまざまな実施形態が図1~8に示されているが、実施形態は、例示された構造または利用分野に限定されない。
図中の流れ図およびブロック図は、さまざまな実施形態にしたがったシステム、方法およびコンピュータプログラムプロダクツの考えられる実装のアーキテクチャ、機能性および動作を例示している。この点において、流れ図またはブロック図中の各ブロックは、規定された論理的機能を実装するための1つ以上の実行可能な命令を含む、モジュール、セグメントまたはコードの一部分を表わし得る。同様に、いくつかの代替的な実装においては、ブロック内に記された機能が図中に記された順序から外れて発生し得る、ということも指摘しておくべきである。例えば、連続して示されている2つのブロックを、実際には、実質的に同時に実行してもよく、あるいは、時として、関与する機能性に応じてブロックを逆の順序で実行してもよい。
以上で説明したシステム、コンポーネントおよび/またはプロセスは、ハードウェア、またはハードウェアとソフトウェアの組合せの形で実現可能であり、1つの処理システム内に集中した形で、または異なる要素が複数の相互接続された処理システムを横断して展開されている分散した形で実現され得る。本明細書中に記載の方法を実施するために適応されたあらゆる種類の処理システムまたは別の装置が好適である。ハードウェアとソフトウェアの典型的な組合せは、ロードされ実行された場合に、本明細書中に記載の方法を実施するような形で処理システムを制御するコンピュータ使用可能プログラムコードを伴う処理システムであり得る。システム、コンポーネントおよび/またはプロセスは同様に、本明細書中に記載の方法およびプロセスを行なうように機械により実行可能な命令プログラムを有形に具現する、機械可読コンピュータプログラムプロダクトまたは他のデータプログラム記憶デバイスなどのコンピュータ可読記憶装置の中に埋込まれ得る。これらの要素は同様に、本明細書中に記載の方法の実装を可能にする全ての特徴を含み、かつ処理システム内にロードされた時点でこれらの方法を実施することのできるアプリケーションプロダクトの中に埋込まれ得る。
さらに、本明細書中に記載の配設は、例えば上に記憶された状態で実施されているコンピュータ可読プログラムコードを有する1つ以上のコンピュータ可読媒体中に埋込まれたコンピュータプログラムプロダクトの形をとり得る。1つ以上のコンピュータ可読媒体の任意の組合せを利用してよい。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。「コンピュータ可読記憶媒体」なる言い回しは、非一時的記憶媒体を意味する。コンピュータ可読記憶媒体は例えば、ただし非限定的に、電子、磁気、光学、電磁、赤外線または半導体システム、装置またはデバイス、またはそれらの任意の好適な組合せであり得る。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)には、以下のものが含まれると考えられる:ポータブルコンピュータディスケット、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、読取り専用メモリ(ROM)、消去可能なプログラマブル読取り専用メモリ(EPROMまたはフラッシュメモリ)、ポータブルコンパクトディスク読取り専用メモリ(CD-ROM)、デジタル多目的ディスク(DVD)、光学記憶デバイス、磁気記憶デバイス、または以上のものの任意の好適な組合せ。本書に関連して、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスによって、またはこれと接続して使用されるためのプログラムを格納または記憶することのできるあらゆる有形媒体であってよい。
概して、本明細書中で使用されるモジュールには、特定のタスクを行なうかまたは特定のデータタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。さらなる態様においては、メモリが概して、指摘されたモジュールを記憶する。モジュールと結び付けられるメモリは、プロセッサの内部に埋込まれたバッファまたはキャッシュ、RAM、ROM、フラッシュメモリまたは別の好適な電子記憶媒体であり得る。さらなる態様において、本開示が想定するモジュールは、特定用途向け集積回路(ASIC)、システムオンチップ(SoC)のハードウェアコンポーネントとして、プログラマブル論理アレイ(PLA)として、または開示された機能を行なうために定義された構成セット(例えば命令)と共に埋込まれる別の好適なハードウェアコンポーネントとして実装される。
無線、有線、光ファイバ、ケーブル、RFなど、または以上のものの任意の好適な組合せを非限定的に含む任意の適切な媒体を用いて、コンピュータ可読媒体上に具現されたプログラムコードを伝送することができる。本配設の態様のために動作を行なうためのコンピュータプログラムコードは、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語および非一時的コンピュータ記憶媒体プログラミング言語、または類似のプログラミング言語などの従来の手続き型プログラミング言語を含めた1つ以上のプログラミング言語の任意の組合せで書かれてよい。プログラムコードは、全体がユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアローンソフトウェアパッケージとして、一部ユーザのコンピュータ上、一部遠隔コンピュータ上で、あるいは全体が遠隔のコンピュータまたはサーバ上で、実行可能である。後者のシナリオでは、遠隔コンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含めたあらゆるタイプのネットワークを通して、ユーザのコンピュータに接続され得るか、または、(例えばインタネットサービスプロバイダを用いてインタネットを通して)外部のコンピュータに対する接続を行なってもよい。
本明細書中で使用される「a」および「an」なる用語は、1または2以上として定義される。本明細書中で使用される「複数(plurality)」なる用語は、2または3以上として定義される。本明細書中で使用される「別の(anothen)」なる用語は、少なくとも2つ目以降として定義される。本明細書中で使用される「含む(including)」および/または「有する(having)」なる用語は、含む(comprising)として定義される(すなわちオープンランゲージ)。本明細書中で使用される「~と~のうちの少なくとも1つ(at least one of~and~)は、結び付けられた列挙項目のうちの1つ以上の項目のありとあらゆる可能な組合せを意味しそれを包含する。一例として、「A、BおよびCのうちの少なくとも1つ(at laest one of A、B and C)」なる言い回しは、Aのみ、Bのみ、Cのみ、またはその任意の組合せ(例えばAB、AC、BCまたはABC)を含む。
本明細書中の態様は、その精神または本質的な属性から逸脱することなく、他の形態で具現可能である。したがって、その範囲を示すものとしては、以上の明細書ではなくむしろ以下のクレームを参照すべきである。

Claims (20)

  1. 評価システムにおいて、
    1つ以上のプロセッサに対して通信可能に結合されたメモリであって、前記1つ以上のプロセッサによって実行された時点で前記1つ以上のプロセッサに、
    画像およびレンジデータのうちの少なくとも1つの中で識別されたオブジェクトの境界ボックスにしたがってレンジデータをセグメント化してマスクデータを生成させ、
    深度推定値を深度マップと相関させる評価マスクにしたがって、前記マスクデータを深度マップ内の対応する深度推定値と比較させ、
    前記深度マップを生成したネットワークを査定するために前記比較させることを定量化する測定基準を提供させる、
    命令を含むネットワークモジュール、
    を記憶するメモリ、
    を含む、評価システム。
  2. 前記ネットワークモジュールは、前記マスクデータを前記画像に投影して前記評価マスクを生成するための命令を含む前記マスクデータを比較するための命令を含む、請求項1に記載の評価システム。
  3. 前記ネットワークモジュールは、前記境界ボックス内に入る前記レンジデータからの点を選択する一方で、前記レンジデータ内の残りの点を破棄するための命令を含む前記マスクデータを生成するために前記レンジデータをセグメント化するための命令を含む、請求項1に記載の評価システム。
  4. 前記ネットワークモジュールは、前記境界ボックスの生成および該境界ボックスにより識別されたオブジェクトについての深度マップの生成における前記ネットワークの精度を特徴付けするために前記マスクデータと前記深度推定値を比較することにしたがって、前記測定基準を生成するための命令を含む、請求項1に記載の評価システム。
  5. 前記ネットワークモジュールは、各オブジェクトベースの値の平均化および前記評価マスクの全ての点を横断した点毎の値の平均化のうちの少なくとも1つを行なうための命令を含む前記マスクデータと前記深度推定値を比較するための命令を含む、請求項4に記載の評価システム。
  6. 前記ネットワークモジュールは、複数のモデルについての追加測定基準を提供し、周囲環境の機械による知覚を容易にするべくデバイス内部での活動化のための測定基準および追加の測定基準にしたがってモデルの1つを選択するための命令を含む前記測定基準を提供するための命令を含む、請求項1に記載の評価システム。
  7. 前記ネットワークは、少なくとも深度推定およびオブジェクト検出を含めた多数のタスクを行なうための機械学習モデルであり、測定基準が、デバイス内部での機械による知覚のための選択を容易にするべく他のモデルに比べた前記ネットワークの改善を識別する、請求項1に記載の評価システム。
  8. 前記レンジデータは、LiDARデータである、請求項1に記載の評価システム。
  9. 1つ以上のプロセッサによって実行された時点で前記1つ以上のプロセッサに、
    画像およびレンジデータのうちの少なくとも1つの中で識別されたオブジェクトの境界ボックスにしたがってレンジデータをセグメント化してマスクデータを生成させ、
    深度推定値を深度マップと相関させる評価マスクにしたがって、前記マスクデータを深度マップ内の対応する深度推定値と比較させ、
    前記深度マップを生成したネットワークを査定するために前記比較させることを定量化する測定基準を提供させる、
    命令を含む、非一時的コンピュータ可読媒体。
  10. 前記マスクデータを比較するための命令は、前記マスクデータを前記画像に投影して前記評価マスクを生成するための命令を含む、請求項9に記載の非一時的コンピュータ可読媒体。
  11. 前記マスクデータを生成するために前記レンジデータをセグメント化するための命令は、前記境界ボックス内に入る前記レンジデータからの点を選択する一方で、前記レンジデータ内の残りの点を破棄するための命令を含む、請求項9に記載の非一時的コンピュータ可読媒体。
  12. 前記命令は、前記境界ボックスの生成および該境界ボックスにより識別されたオブジェクトについての深度マップの生成における前記ネットワークの精度を特徴付けするために前記マスクデータと前記深度推定値を比較することにしたがって、前記測定基準を生成するための命令を含む、請求項9に記載の非一時的コンピュータ可読媒体。
  13. 前記マスクデータと前記深度推定値を比較するための命令は、各オブジェクトベースの値の平均化および前記評価マスクの全ての点を横断した点毎の値の平均化のうちの少なくとも1つを行なうための命令を含む、請求項12に記載の非一時的コンピュータ可読媒体。
  14. 画像およびレンジデータのうちの少なくとも1つの中で識別されたオブジェクトの境界ボックスにしたがってレンジデータをセグメント化してマスクデータを生成することと、
    深度推定値を深度マップと相関させる評価マスクにしたがって、前記マスクデータを深度マップ内の対応する深度推定値と比較することと、
    前記深度マップを生成したネットワークを査定するために前記比較することを定量化する測定基準を提供することと、
    を含む、方法。
  15. 前記マスクデータを比較することは、前記マスクデータを前記画像に投影して前記評価マスクを生成することを含む、請求項14に記載の方法。
  16. 前記レンジデータはLiDARデータであり、前記マスクデータを生成するために前記レンジデータをセグメント化することが、前記境界ボックス内に入る前記レンジデータからの点を選択する一方で、前記レンジデータ内の残りの点を破棄することを含む、請求項14に記載の方法。
  17. 前記深度マップおよび前記境界ボックスの生成における前記ネットワークの精度を特徴付けするために比較することにしたがって、前記測定基準を生成することをさらに含む、請求項14に記載の方法。
  18. 前記マスクデータを前記深度推定値と比較することは、各オブジェクトベースでの前記比較の値の平均化および前記評価マスクの全ての点を横断した点毎の値の平均化のうちの少なくとも1つを含む、請求項17に記載の方法。
  19. 前記測定基準を提供することは、複数のモデルについての追加測定基準を提供することと、周囲環境の機械による知覚を容易にするべくデバイス内部での活動化のための測定基準および追加の測定基準にしたがってモデルの1つを選択することとを含む、請求項14に記載の方法。
  20. 前記ネットワークは、少なくとも深度推定およびオブジェクト検出を含めた多数のタスクを行なうための機械学習モデルであり、測定基準が、デバイス内部での機械による知覚のための選択を容易にするべく訓練にしたがって、他のモデルに比べた前記ネットワークの改善を識別する、請求項14に記載の方法。
JP2022041832A 2021-03-16 2022-03-16 マルチタスクネットワークのための評価プロセス Pending JP2022142790A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163161735P 2021-03-16 2021-03-16
US63/161,735 2021-03-16
US17/358,497 2021-06-25
US17/358,497 US20220300768A1 (en) 2021-03-16 2021-06-25 Evaluation process for a multi-task network

Publications (1)

Publication Number Publication Date
JP2022142790A true JP2022142790A (ja) 2022-09-30

Family

ID=83283648

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2022041832A Pending JP2022142790A (ja) 2021-03-16 2022-03-16 マルチタスクネットワークのための評価プロセス
JP2022041807A Pending JP2022142789A (ja) 2021-03-16 2022-03-16 単眼深度推定およびオブジェクト検出のためのネットワークアーキテクチャ
JP2022041668A Pending JP2022142784A (ja) 2021-03-16 2022-03-16 単眼物体検出を向上するための自己学習ラベル精密化のシステム及び方法
JP2022041705A Pending JP2022142787A (ja) 2021-03-16 2022-03-16 奥行き知覚のための予測システムを訓練するためのシステム及び方法

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2022041807A Pending JP2022142789A (ja) 2021-03-16 2022-03-16 単眼深度推定およびオブジェクト検出のためのネットワークアーキテクチャ
JP2022041668A Pending JP2022142784A (ja) 2021-03-16 2022-03-16 単眼物体検出を向上するための自己学習ラベル精密化のシステム及び方法
JP2022041705A Pending JP2022142787A (ja) 2021-03-16 2022-03-16 奥行き知覚のための予測システムを訓練するためのシステム及び方法

Country Status (2)

Country Link
US (4) US11798288B2 (ja)
JP (4) JP2022142790A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11798288B2 (en) * 2021-03-16 2023-10-24 Toyota Research Institute, Inc. System and method for generating a training set for improving monocular object detection

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0089212B1 (en) * 1982-03-13 1987-10-28 Kabushiki Kaisha Ishida Koki Seisakusho Method and apparatus for sorting articles
CN104346620B (zh) * 2013-07-25 2017-12-29 佳能株式会社 对输入图像中的像素分类的方法和装置及图像处理系统
US9598015B1 (en) * 2015-03-05 2017-03-21 Ambarella, Inc. Automatic mirror adjustment using an in-car camera system
US10999559B1 (en) * 2015-09-11 2021-05-04 Ambarella International Lp Electronic side-mirror with multiple fields of view
US9824289B2 (en) * 2015-12-07 2017-11-21 Conduent Business Services, Llc Exploiting color for license plate recognition
US10530991B2 (en) * 2017-01-28 2020-01-07 Microsoft Technology Licensing, Llc Real-time semantic-aware camera exposure control
US10310087B2 (en) * 2017-05-31 2019-06-04 Uber Technologies, Inc. Range-view LIDAR-based object detection
US10824862B2 (en) * 2017-11-14 2020-11-03 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
US10839234B2 (en) * 2018-09-12 2020-11-17 Tusimple, Inc. System and method for three-dimensional (3D) object detection
US11037051B2 (en) * 2018-11-28 2021-06-15 Nvidia Corporation 3D plane detection and reconstruction using a monocular image
US11170299B2 (en) * 2018-12-28 2021-11-09 Nvidia Corporation Distance estimation to objects and free-space boundaries in autonomous machine applications
US10937178B1 (en) * 2019-05-09 2021-03-02 Zoox, Inc. Image-based depth data and bounding boxes
DE102019206985A1 (de) * 2019-05-14 2020-11-19 Robert Bosch Gmbh Verfahren zum Ermitteln eines Betriebswinkels zwischen einer Zugmaschine und einem Anhänger der Zugmaschine
WO2021016596A1 (en) * 2019-07-25 2021-01-28 Nvidia Corporation Deep neural network for segmentation of road scenes and animate object instances for autonomous driving applications
US11373332B2 (en) * 2020-01-06 2022-06-28 Qualcomm Incorporated Point-based object localization from images
US11145065B2 (en) * 2020-01-22 2021-10-12 Gracenote, Inc. Selection of video frames using a machine learning predictor
GB2593717B (en) * 2020-03-31 2022-08-24 Imperial College Innovations Ltd Image processing system and method
EP4172862A4 (en) * 2020-06-24 2023-08-09 Magic Leap, Inc. OBJECT RECOGNITION NEURONAL NETWORK FOR AMODAL CENTER PREDICTION
US11798180B2 (en) * 2021-02-26 2023-10-24 Adobe Inc. Generating depth images utilizing a machine-learning model built from mixed digital image sources and multiple loss function sets
US11798288B2 (en) * 2021-03-16 2023-10-24 Toyota Research Institute, Inc. System and method for generating a training set for improving monocular object detection
US20220308592A1 (en) * 2021-03-26 2022-09-29 Ohmnilabs, Inc. Vision-based obstacle detection for autonomous mobile robots

Also Published As

Publication number Publication date
JP2022142789A (ja) 2022-09-30
US11798288B2 (en) 2023-10-24
US20220301203A1 (en) 2022-09-22
JP2022142784A (ja) 2022-09-30
US20220300746A1 (en) 2022-09-22
US20220301202A1 (en) 2022-09-22
US20220300768A1 (en) 2022-09-22
JP2022142787A (ja) 2022-09-30

Similar Documents

Publication Publication Date Title
US11107230B2 (en) Systems and methods for depth estimation using monocular images
US11436743B2 (en) Systems and methods for semi-supervised depth estimation according to an arbitrary camera
US11386567B2 (en) Systems and methods for weakly supervised training of a model for monocular depth estimation
US11176709B2 (en) Systems and methods for self-supervised scale-aware training of a model for monocular depth estimation
US20190092318A1 (en) Systems and methods for rear signal identification using machine learning
US20220057806A1 (en) Systems and methods for obstacle detection using a neural network model, depth maps, and segmentation maps
US11727169B2 (en) Systems and methods for inferring simulated data
US11868439B2 (en) Mixed-batch training of a multi-task network
US11010592B2 (en) System and method for lifting 3D representations from monocular images
US11216987B2 (en) Systems and methods for associating LiDAR points with objects
US11144818B2 (en) Network architecture for ego-motion estimation
US11663729B2 (en) Network architecture for the joint learning of monocular depth prediction and completion
US11321863B2 (en) Systems and methods for depth estimation using semantic features
US11652972B2 (en) Systems and methods for self-supervised depth estimation according to an arbitrary camera
US11200679B1 (en) System and method for generating a probability distribution of a location of an object
JP2021077359A (ja) 単眼画像を用いた深度推定のためのシステムおよび方法
US11775615B2 (en) System and method for tracking detected objects
US20220284222A1 (en) Systems and methods for vehicle light signal classification
US11328517B2 (en) System and method for generating feature space data
JP2022142790A (ja) マルチタスクネットワークのための評価プロセス
US11210802B2 (en) Systems and methods for conditioning training data to avoid learned aberrations
US11238292B2 (en) Systems and methods for determining the direction of an object in an image
US20230351739A1 (en) Network for multisweep 3d detection
US20240037961A1 (en) Systems and methods for detecting lanes using a segmented image and semantic context
US20230326049A1 (en) Self-supervised monocular depth estimation via rigid-motion embeddings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240411