JP2021082296A - 3次元オブジェクトを分類するための方法及びそのシステム - Google Patents

3次元オブジェクトを分類するための方法及びそのシステム Download PDF

Info

Publication number
JP2021082296A
JP2021082296A JP2020193640A JP2020193640A JP2021082296A JP 2021082296 A JP2021082296 A JP 2021082296A JP 2020193640 A JP2020193640 A JP 2020193640A JP 2020193640 A JP2020193640 A JP 2020193640A JP 2021082296 A JP2021082296 A JP 2021082296A
Authority
JP
Japan
Prior art keywords
point
bounding box
label
classifying
voxel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020193640A
Other languages
English (en)
Inventor
リン サン,
Lin Sun
リン サン,
チー チェン,
Qi Chen
チー チェン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2021082296A publication Critical patent/JP2021082296A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • G01S17/8943D imaging with simultaneous measurement of time-of-flight at a 2D array of receiver pixels, e.g. time-of-flight cameras or flash lidar
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/003Reconstruction from projections, e.g. tomography
    • G06T11/008Specific post-processing after tomographic reconstruction, e.g. voxelisation, metal artifact correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0004In digital systems, e.g. discrete-time systems involving sampling
    • B60W2050/0005Processor details or data handling, e.g. memory registers or chip architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0043Signal treatments, identification of variables or parameters, parameter estimation or state estimation
    • B60W2050/0057Frequency analysis, spectral techniques or transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Computer Graphics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ポイントクラウドデータに基づく3次元オブジェクトの検出方法及びそのシステムを提供する。【解決手段】本発明による3次元オブジェクトの分類方法は、コンピューティングシステムによって、入力ソースから3次元空間内の第1のポイント及び第2のポイントを含むポイントクラウドデータを受信する段階と、第1のラベルで第1のポイントを分類するためのニューラルネットワークを呼び出す段階と、前記第1のラベルで前記第1のポイントを分類することに基づくバウンディングボックスを回帰する段階と、バウンディングボックスを回帰することに基づいて、自律走行車両を制御する段階と、を有し、第1のポイントは、オブジェクトの特徴を示し、バウンディングボックスを回帰する段階は、バウンディングボックスの少なくとも1つの位置を予測する段階を含む。【選択図】 図1

Description

本発明は、3次元(three−dimensional、3D)オブジェクト検出に関し、特に、ポイントクラウドデータ(point cloud data)を介して表現された3Dオブジェクトを検出する3次元オブジェクトを分類するための方法及びそのシステムに関する。
自律走行システムでは、知覚(又は、認知、認識)モジュール(perception module)は、人間の目のように環境内で安全に移動するために、環境内のオブジェクトを感知する。
知覚のエレメント(要素:element)は、3次元オブジェクト検出である。
3次元オブジェクトの検出は、環境内のオブジェクトの位置、ディメンション、及び動きの方向を提供する。
このような3D検出情報は、ライダー(Light Detection and Ranging:LiDAR)のレーザースキャナー/センサーを使用して収集された地理的ポイントクラウド(geographic point cloud)を介して供給される。
しかし、ライダーベースのポイントクラウドで正確な3Dオブジェクト検出は、ポイントクラウドデータのデータスパーシティ(sparsity)と不規則性のような問題から困難を経験する可能性がある。
例えば、ポイントクラウドは、オブジェクトの表面に存在するため、自己遮蔽(self−occlusion)、反射(reflection)、又は望ましくない気象条件は、ライダーのスキャナからキャプチャーされるポイントの数を限定する可能性がある。
したがって、このようなポイントクラウドデータがスパース(sparse)である場合にも、ライダーベースのポイントクラウドを用いて、3次元オブジェクトを検出するためのシステム及び方法が開発の課題となっている。
米国特許出願公開第2018/0376305号明細書 米国特許出願公開第2019/0261161号明細書 米国特許出願公開第2019/0310651号明細書 米国特許出願公開第2019/0174276号明細書
ZHANG, Shifeng et al., "Bridging the Gap Between Anchor−based and Anchor−free Detection via Adaptive Training Sample Selection," March 24, 2020, arXiv:1912.02424v3 [cs.CV], 10 pages KUANG, Ping et al., "3D Bounding Box Generative Adversarial Nets," In Proceedings of the International Conference on Advances in Computer Technology, Information Science and Communications (CTISC 2019), pages 117−121 CHEN, Qi et al., "Object as Hotspots: An Anchor−Free 3D Object Detection Approach via Firing of Hotspots," December 30, 2019, arXiv:1912.12791v1 [cs.CV], 15 pages WANG, Bei et al., "Voxel−FPN: multi−scale voxel feature aggregation in 3D object detection from point clouds," January 1, 2020, 12 pages YANG, Bin et al., "PIXOR: Real−time 3D Object Detection from Point Clouds," March 2, 2019, arXiv:1902.06326 [cs.CV], 10 pages
本発明は、上記従来の3Dオブジェクト検出における課題に鑑みてなされたものであって、本発明の目的は、ポイントクラウドデータ(point cloud data)に基づく3次元オブジェクトの分類方法及びそのシステムを提供することにある。
上記目的を達成するためになされた本発明による3次元オブジェクトの分類方法は、コンピューティングシステムによって、入力ソースから3次元(three−dimensional:3D)空間内の第1のポイント及び第2のポイントを含むポイントクラウドデータ(point cloud data)を受信する段階と、前記コンピューティングシステムによって、第1のラベルで前記第1のポイントを分類するためのニューラルネットワーク(neural network)を呼び出す段階と、前記コンピューティングシステムによって、前記第1のラベルで前記第1のポイントを分類することに基づくバウンディングボックス(bounding box)を回帰する(regressing)段階と、前記コンピューティングシステムによって、前記バウンディングボックスを回帰することに基づいて、自律走行車両を制御する段階と、を有し、前記第1のポイントは、オブジェクトの特徴を示し、前記バウンディングボックスを回帰する段階は、前記バウンディングボックスの少なくとも1つの位置を予測する段階を含むことを特徴とする。
前記受信したポイントクラウドデータを複数のボクセル(voxel)に変換する段階をさらに有し、前記複数のボクセルの内、第1のボクセルは、前記第1のポイントを含み、前記複数のボクセルの内、第2のボクセルは、ポイントを含んでいないこと。
前記第2のボクセルを前記第1のラベルと異なる第2のラベルで分類する段階をさらに有し、前記第1のポイントを分類することは、前記第1のボクセルを前記第1のラベルで分類することを含み、前記バウンディングボックスを回帰することは、前記第1のボクセルに基づくこと。
前記第2のボクセルを前記第1のラベルで分類する段階をさらに有し、前記第1のポイントを分類することは、前記第1のボクセルを前記第1のラベルで分類することを含み、前記バウンディングボックスを回帰することは、前記第1のボクセル及び前記第2のボクセルに基づくこと。
トレーニングデータ(training data)に基づいて、前記ニューラルネットワークをトレーニングする段階をさらに有し、前記トレーニングデータは、前記オブジェクトに関連付けられた特定のポイントを含み、前記特定のポイントが前記オブジェクトの中心から閾値の距離内にあるものであると検出されることに応答して、前記特定のポイントは、前記第1のラベルに割り当てられること。
前記トレーニングデータからM個のポイントは、前記第1のラベルに割り当てられ、前記Mは、前記オブジェクトの体積に基づいて決定されること。
トレーニングデータ(training data)に基づいて、前記ニューラルネットワークをトレーニングする段階をさらに有し、前記トレーニングする段階は、前記第1のラベルに割り当てられた2つのポイントの相対的な空間情報を学習する段階を含むこと。
前記相対的な空間情報を学習するための段階は、前記オブジェクトに関連付けられた正解(ground truth)のバウンディングボックスをパーティションに分割する段階と、前記オブジェクトと関連して、前記第1のラベルに割り当てられた特定のポイントを前記パーティションのいずれか1つに分類する段階と、を含むこと。
パーティション分類損失(partition classification loss)を計算する段階と、前記パーティション分類損失に基づいて、前記ニューラルネットワークをトレーニングする段階と、をさらに有すること。
前記ニューラルネットワークをトレーニングする段階は、前記第1のラベルでポイントを分類することから計算された分類の損失(classification loss)、及び前記分類されたポイントのバウンディングボックス回帰から計算された回帰損失(regression loss)に基づくこと。
前記バウンディングボックスを回帰する段階は、前記第1のポイントと関連した位置パラメータを回帰するためのソフトアーグミン(soft argmin)関数を適用する段階を含むこと。
上記目的を達成するためになされた本発明によるシステムは、3次元(three−dimensional:3D)オブジェクトの分類のためのシステムであって、プロセッサと、前記プロセッサによって実行される命令語を格納するメモリと、を有し、前記命令語は、前記命令語が実行される場合、前記プロセッサによって、入力ソースから3次元空間内の第1のポイント及び第2のポイントを含むポイントクラウドデータ(point cloud data)を受信し、第1のラベルで前記第1のポイントを分類するためのニューラルネットワーク(neural network)を呼び出し、前記第1のラベルで前記第1のポイントを分類することに基づいて、バウンディングボックス(bounding box)を回帰し、前記バウンディングボックスを回帰することに基づいて、自律走行車両を制御するように行わせ、前記第1のポイントは、オブジェクトの特徴を示し、前記バウンディングボックスを回帰することは、前記バウンディングボックスの少なくとも1つの位置を予測することを特徴とする。
通常の技術者が認識できるように、本発明の実施形態は、ポイントクラウドデータが不足している場合にも、ポイントクラウドデータを使用して、3次元オブジェクトを効率的に認識するためのメカニズムを提供する。
本発明の実施形態の特徴、様相及び利点は、以下の詳細な説明、添付された特許請求の範囲及び添付された図面を介して完全に理解されるだろう。
もちろん、本発明の権利範囲は、添付された特許請求の範囲によって定義される。
本発明に係る3次元オブジェクトを分類するための方法及びそのシステムによれば、ポイントクラウドデータが不足している場合にも、ポイントクラウドデータに基づいて、3次元オブジェクトを効率的かつ正確に認識することができる。
本発明の一実施形態による自律走行車両のナビゲーションを制御するためのシステムの概略構成を示すブロック図である。 本発明の多様な実施形態によるトレーニングモジュールによるホットスポットの選択、及び割り当ての配置図である。 本発明の一実施形態による1段のアンカーフリーの3次元オブジェクトの検出のためのホットスポットオブジェクトのヘッドをトレーニングするためのプロセスの概念的配置図である。 本発明の一実施形態によるバウンディングボックスを象限に分ける空間関係エンコーダーサブネットの概念的配置図である。 本発明の単一の実施形態によるホットスポットを用いた3次元オブジェクト検出の概念的配置図である。 本発明の単一の実施形態によるホットスポットを用いた3次元オブジェクト検出の概念的配置図である。 本発明の単一の実施形態によるホットスポットを用いた3次元オブジェクト検出の概念的配置図である。 本発明の一実施形態によるホットスポットオブジェクトのヘッドをトレーニングするためのプロセスを説明するためのフローチャートである。 本発明の一実施形態による、3次元オブジェクトの単一のパスのアンカーフリーの検出のためのプロセスを説明するためのフローチャートである。
次に、本発明に係る3次元オブジェクトを検出するための方法及びそのシステムを実施するための形態の具体例を図面を参照しながら説明する
本発明の実施形態の非限定的(non−limiting)かつ非包括的な(non−exhaustive)実施形態は、以下の図面を参照して説明され、ここで同一の参照番号は、別のものを明示していない限り、多様な図面にわたって同一のパーツ(parts)を示す。
以下、明細書全般にわたって同一の参照番号は、同一の構成を示す添付図面を参照して本発明の例としての実施形態が詳細に説明されるだろう。
しかし、本発明は、多様な形で実施され得、本明細書で単に例示された実施形態に限定されるものではない。
むしろ、このような実施形態は、本明細書の開示が徹底かつ完全になるための例として提供され、通常の技術者(当業者)にとって本発明の特徴及び機能を完全に伝えるはずである。
したがって、本発明の技術分野における通常の知識を有する者が、本発明の特徴及び機能を完全に理解するために必要としないプロセス、要素、及び技術は説明されないことが有り得る。
異なるように言及していない限り、類似の参照番号は、添付された図面及び書かれた説明で類似の要素を示し、したがってそれに対する説明は繰り返されない。
なお、図面では、要素、レイヤー及び領域の相対的なサイズは、明確性のために誇張されることがある。
一般的に、本発明の実施形態は、地理的なポイントクラウド(geographic point cloud)(例えば、ライダーレーザースキャナー(LiDAR laser scanner)によって作成された地理的ポイントクラウドのような)を使用する3次元オブジェクトの検出のためのシステム及び方法に関する。
多様な実施形態は、ライダーレーザースキャナーによって生成されたポイントクラウドに限定されず、ステレオカメラ(stereo camera)から生成されたポイントクラウド、アジュールキネクト(Azure Kinect)を使用して収集されたポイントクラウドなどのような他のポイントクラウドを含み得る。
ライダーベースのポイントクラウドでの正確な3次元オブジェクトの検出は、例えば、データでのデータのスパーシティ及び不規則性によって難しいことに直面する可能性がある。
このような問題(難しいこと)を軽減するために、関連技術の方法は、個々のオブジェクト上のポイントを共に構成し、オブジェクトレベルのアンカー(object−level anchor)(例えば、ボックスの位置及びサイズがあるバウンディングボックス(bounding box))を定義し得、オブジェクトレベルのアンカー(object−level anchor)は、関心のオブジェクト上のすべてのポイントから収集した証拠を使用して3次元バウンディングボックスのオフセットを予測する。
例えば、関連技術のシステムは、ボクセル(voxel)でサンプリングされたポイントの特徴を集めて、2次元/3次元のニューラルネットワーク(neural network)を使用して、ボクセルの特徴を抽出するボクセルの特徴エンコーダー(voxel feature encoder)を含み得る。
ボクセルベースのアプローチは、オブジェクトレベルのアンカーを定義するために、アンカーの範囲(anchor range)、アンカーサイズ(anchor size)、及び方向のようなハイパーパラメータ(hyperparameter)を活用することができ、正解(gound truth)を割り当てるためにIOU(Intersection Over Union:ユニオン交差)の閾値を活用することができる。
しかし、予め定義されたアンカーの使用は、オブジェクトの統計的なサイズ及び方向に関する事前知識を必要とし得る。
一実施形態で、ポイントクラウドデータからの3次元オブジェクトの検出は、予め定義されたオブジェクトレベルのアンカーを必要とせず、アンカーなしで実行され得る。
オブジェクトレベルのアンカーを使用する代わりに、本発明による一実施形態は、ホットスポット(hotspot)(オブジェクトの内部ポイント又はボクセルはホットスポットと称される)の空間的関係とともに、ホットスポットであるオブジェクトの内部ポイント又はボクセル(例えば、ポイントを含む空いていないボクセル)の構成(composition)としてオブジェクトを表す。
空いていないボクセルは、スポット(spot)と呼ばれることがある。
一実施形態で、オブジェクトを表すスポットの中で、オブジェクトの差別化された特徴を有する、限られた数のスポットが選択され、ホットスポットとして割り当てられる。
例えば、自動車のフロントガラスに近いポイントは、車を表すための差別化された特徴を含み得る。
一実施形態で、それぞれのボクセル内の個々のポイントの特徴は、特定のホットスポットの表現を形成するために集まる。
したがって、オブジェクトの限られた特徴についての情報があるホットスポットは、すべてのオブジェクトの情報を担当し得る。
このような方式で、小さなオブジェクトが少ないことのポイントを介して表現された時も、他より大きなオブジェクトがほとんど遮られたり、部分的にスキャンされたりした場合も、オブジェクトの存在は、オブジェクトの差別的な特徴に関連されたホットスポットを検出するとき、相変わらず検出され得る。
その次に、オブジェクトの意味情報(semantic information)(例えば、オブジェクトが属するオブジェクトカテゴリ(カテゴリ)とローカライゼーション(局地化、localization、例えば、バウンディングボックスを配置するためのオブジェクトの位置)は、検出されたホットスポットを介して取得され得る。
ホットスポット及びそれらの空間的関係の情報を介したオブジェクトの表現は、ホットスポットオブジェクト(Object as Hotspots:OHS)と称される。
一実施形態で、3次元オブジェクトのアンカーのない検出は、アンカーのない検出ヘッド(ホットスポットオブジェクトのヘッド、OHSヘッド)を含むシステムによって実行される。
OHSヘッドは、あらかじめ定義されたバウンディングボックスなしで、限られた数の個々のホットスポットからオブジェクトに対する予測を実行するように構成される1つ以上のニューラルネットワークを含み得る。
OHSヘッドは、検出されたホットスポットに基づいてバウンディングボックスを予測することができる。
一実施形態で、OHSヘッドは、ホットスポットを割り当てるにあたって、正解の割り当て戦略(ground truth assignment strategy)を使用して、これは異なるオブジェクトのサイズ、ライダーセンサーまでの異なる距離、異なる閉塞(occlusion)/切断(truncation)/反射(reflection)レベルなどによって発生する可能性があるオブジェクト間のポイントスパーシティの不均衡の問題を扱う。
一実施形態による、正解の割り当て戦略は、ネットワークがより多くのポイントを有するオブジェクトに向けるよう偏向されることを防止するように構成される。
例として、複数のポイントがライダーセンサーソースに近い大きなオブジェクト上でキャプチャーされることがある一方で、より少ないポイントが、より小さいオブジェクト及び/又は隠遮断されたオブジェクトに対して収集され得る。
これにより、より多くのポイントを有するオブジェクトは、意味クラス(semantic class)及びローカライズを予測するための豊富で重複された機能を有する一方で、より少ないポイントを有するオブジェクトは、ラーニングのためのより少ない特徴を有する場合には、特徴の不均衡は発生する可能性がある。
一実施形態で、OHSヘッドは、より多くのポイントを有するオブジェクトに対する偏向の防止を助けるために、例えば、最も差別的なものと見なされるオブジェクトの限られた特徴からラーニングするように構成される。
推論段階の間に、OHSヘッドは、個々のホットスポットに対する予測を行うことにより、オブジェクトの意味情報とローカライゼーションに対する予測を実行するように構成される。
これと関連して、あらかじめ定義されたバウンディングボックスの設定なしで、ホットスポットがオブジェクトの一部であるという閾値の信頼性を提供する場合は、ホットスポットは活性化される。
そうすると、3次元バウンディングボックスは、活性化されたホットスポットに対して回帰(regress)される。
人間によって定義される以前のアンカーサイズから利点が得られないアンカーのない検出器を使用して、バウンディングボックスの回帰を実行するのは、困難なことに直面する可能性がある。
このような困難さの中の一つは、バウンディングボックスのスケール(又はスケール、scale)の変動によって引き起こされる回帰対象(ターゲット)の不均衡なことからであり得る。
もう少し詳しく、バウンディングボックスによってマークされたいくつかのオブジェクトは、比較的に大きなサイズを有し得るが、他のオブジェクトはそうではない可能性があるため、バウンディングボックスの中心及びサイズは、異なるスケールで表されることがある。
バウンディングボックスに対する対象(ターゲット)値でのスケール変動は、勾配(又は傾斜、gradient)でのスケール変動を引き起こす可能性がある。
小さな値は、より小さな勾配を有してトレーニング中に影響をあまり受けない。
いくつかのシステムにおいて、アンカーベースの検出器は、回帰の目標(ターゲット)がほとんど小さな値(例えば、約ゼロ(0))であるものを保障するのに役に立つ正規化因子の役割をするアンカーの位置及びサイズに依存し得る。
バウンディングボックスサイズのマルチモーダル分布(multi−modal distribution)をキャプチャー(capture)するために、複数のサイズ及びアスペクト比(aspect ratio)は、手作業で設計されることがある。
これに関連して、アンカーのない検出器は、それぞれの位置で単位サイズの一つのアンカーがあるアンカーベースの検出器とみなされる。
したがって、アンカーのない検出器は、異なるアンカーサイズの正規化の効果を享有できない。
一実施形態で、回帰目標の不均衡は、ステレオビジョンの原理から「soft argmin」(ソフトアーグミン)関数の適用を介して解決される。
これに関連して、OHSヘッドバウンディングボックスの位置を回帰し、バウンディングボックス回帰の問題点を解決するために「soft argmin」関数を使用することができる。
一実施形態で、回帰目標不均衡は、また絶対値の代わりにバウンディングボックスディメンションに対するログ値を回帰することによって解決され得る。
図1は、本発明の一実施形態による自律走行車両100のナビゲーションを制御するためのシステムの概略構成を示すブロック図である。
自律走行車両100は、陸上車両(例えば、自動車)、航空機(例えば、飛行機)又はそのようなもの(例えば、水上車両)であり得る。
本発明の実施形態は、自律走行車両のナビゲーションを制御すること以外の状況(コンテキスト)でも適用され得る。
例えば、本発明の実施形態は、拡張現実のアプリケーション(又は応用プログラム、application)、運転者/パイロットのサポートアプリケーション、マッピングアプリケーション、及び/又は3次元オブジェクト検出を必要とする他のアプリケーションに拡張され得る。
自律走行車両100は、1つ以上のセンサー102、計算システム104、及び1つ以上の車両制御器106を含み得る。
1つ以上のセンサー102は、測距レーザー(ranging laser)を反射したオブジェクトに対応する複数のポイントの3次元位置を提供するように構成される1つ以上のライダーセンサーを含み得る。
ポイントの集合は、オブジェクトの3次元形状を表すポイントクラウドを形成することができる。
たとえば、1つ以上のセンサー102は、自律走行車両のルーフ(roof)の上に配置され得る。
計算システム104は、1つ以上のプロセッサ及びメモリを含み得る。
メモリは、1つ以上のプロセッサによって実行されるとき、1つ以上のプロセッサが本発明で開示した多様な演算を実行させる命令語を保存する。
一実施形態で、命令語は、1つ以上のプロセッサによってセンサー102からポイントクラウドデータを受信し、周辺環境を理解するためのデータを処理し、環境の理解に基づいて、自律走行車両を制御するように行わせる。
一実施形態で、計算システム104は、限定なしに、知覚モジュール(perception module)108、推論モジュール(inference module)110、モーションプランニングモジュール(motion planning module)111、及び制御モジュール(control module)112を含む。
多様なモジュール(108〜112)は、機能的ユニットに分離されていると仮定されるが、通常の技術者は、本発明の思想及び範囲内では、モジュールの機能が、単一のモジュールに結合又は統合されることがあるか、あるいは追加の下位モジュールに、もっと細分化されることがあるのを認識するだろう。
一実施形態で、知覚モジュール108は、1つ以上のセンサー102から自律走行車両100をめぐる環境内のオブジェクトに対応するポイントの位置上の情報を受信し、車両にもっとも近いオブジェクトの状態を決定する。
例えば、状態情報は、オブジェクトの位置/ポジション、速度、進行方向(heading)、方向(方位、orientation)、ヨーレート(yaw rate)などを含み得る。
推論モジュール110は、OHSヘッドを構成する1つ以上のニューラルネットワーク(神経網、neural network)、例えば、1つ以上のコンボリュション(合成積)ニューラルネットワーク(Convolution neural network:CNN)を含み得る。
OHSヘッドの1つ以上のニューラルネットワークは、センサー102によって提供されるポイントクラウドデータでオブジェクトの1つ以上のクラスを検出し、検出されたオブジェクトに対する出力データを生成するようにトレーニングされ得る。
例えば、出力データは、予測されたオブジェクトの分類ラベル(例えば、車両、自転車、歩行者など)、並びに検出されたオブジェクトと関連された位置、方向、及び/又はバウンディングボックス情報であり得る。
本明細書では、一例として、コンボリューションニューラルネットワーク(Convolutional Neural Network:CNN)が使用されると言及しているが、例えば、回帰型(recurrent)ニューラルネットワーク(Recurrent Neural Network:RNN)、長・短期メモリ(Long Short−Term Memory:LSTM)回帰型ニューラルネットワーク、フィードフォワードニューラルネットワーク(Feed−forward Neural Network)などのような他の種類のニューラルネットワークがコンボリューションニューラルネットワークの代わりをしたり、コンボリューションニューラルネットワークに追加されたりして使用される。
使用されるニューラルネットワークは、異なる数のレイヤー(layer)及びニューラルネットワークの各レイヤー内で異なる数のノードを含み得る。
一実施形態によると、推論モジュール110は、OHSヘッドを介して3次元オブジェクの1段(one−stage)のアンカーのない検出を行う。
これに関連して、OHSヘッドは、正解としてアンカー/バウンディングボックスの予め定義された位置及びサイズの必要性なしで、オブジェクトのホットスポットの予測を行うことにより、3次元バウンディングボックスを予測するために、入力データを一度処理するように構成される。
本明細書では、例えば、検出されたオブジェクトをマークするために使用される注釈の例としてバウンディングボックスが使用されているが、本発明の実施形態は、ボックスに限定されず、任意の2次元又は3次元のバウンディングポリゴン(polygon)が使用され得る。
一実施形態で、推論モジュール110は、入力ポイントクラウドデータから特徴マップを抽出し、関心のオブジェクト(object of interest)に対するホットスポットに対応するものとして特徴マップのニューロンを分類するためにOHSヘッドを呼び出す。
一実施形態で、OHSヘッドは、個々のホットスポット上の予測を行うことにより、オブジェクトの意味情報(例えば、オブジェクトの分類)及び位置(例えば、オブジェクトのバウンディングボックス)に対する予測を実行するように構成され得る。
個々のホットスポットからの予測は、最終的なオブジェクト検出結果を生成するために集計される。
一実施形態で、OHSヘッドは、3次元ポイントクラウド空間でオブジェクトをマークするために、識別されたオブジェクトのホットスポットに対する3次元バウンディングボックスを回帰するように構成される。
一実施形態で、OHSヘッドは、3次元バウンディングボックスの中心位置、ディメンション、及び方向を回帰する。
回帰対象(ターゲット、目標)の不均衡な問題を解決するために、生の値の代わりにソフトアーグミン(soft argmin)関数によって回帰が行われる。
これと関連して、実験では、特に小さいサイズの物体(例えば、自転車に乗る人及び歩行者)の場合に、ソフトアーグミン(soft argmin)関数は、異なるスケールの絶対値に対する回帰を防止することにより、性能を向上させることを示す。
また、1実施形態では、回帰目標の不均衡は、絶対値の代わりにバウンディングボックス次元に対するログ値を回帰することによって解決される。
一実施形態で、推論モジュール110によって検出されたオブジェクト上の情報は、モーションプランニングモジュール111に提供される。
一実施形態で、モーションプランニングモジュール111は、推論モジュール110によって検出されたオブジェクトの未来位置及び/又は移動経路の予測に基づいて自律走行車両100のモーションプラン(motion plan)を決定するように構成される。
これと関連して、モーションプランニングモジュール111は、オブジェクトとの衝突を避けるか、オブジェクトに接近するか、又はこれらを組み合わせるモーションプランを生成することができる。
モーションプランニングモジュール111は、特定のオブジェクトを避けるか、又は特定のオブジェクトに接近させるか否かは、推論モジュール110によって生成されたオブジェクトの分類情報に基づく。
例えば、モーションプランニングモジュール111は、自転車として分類されたオブジェクトを回避し、燃料ポンプに近づくようにモーションプランを生成することができる。
オブジェクトに接近するモーションプランは、オブジェクトとの衝突をまた回避することもできる。
例えば、モーションプランは、燃料ポンプに接近することはできるが、交差しない可能性はある。
一実施形態で、制御モジュール112は、モーションプランニングモジュール111によるモーションプランにしたがって自律走行車両100を制御するための車両制御106へのコマンドを生成する。
1つ以上の車両制御106は、燃料の流れ、加速、ステアリング(steering)、制動などを制御するアクチュエータ(actuator)又はその他の装置を限定なく含み得る。
制御モジュール112からのコマンドに基づいて、車両の制御106は、自律走行車両100が移動、停止、又は他の所望する動作をとらせることができる。
一実施形態で、計算システム104は、データ通信ネットワーク116を通じてトレーニングシステム114と連結される。
データ通信ネットワーク116は、ローカルエリアネットワーク(Local Area Network:LAN)、プライベートワイドエリアネットワーク(Private Wide Area Network:Private WAN)、及び/又はインターネットなどのようなパブリックワイドネットワーク(Public Wide Area Network)であり得る。
いくつかの実施形態では、通信ネットワークは、CDMA(Code Division Multiple Access)ネットワーク、GSM(Global System for Mobile communications)ネットワーク、又は当業界に通常の任意のワイヤレスネットワーク/技術を含む無線キャリアネットワーク(wireless carrier network)(例えば、3G、4G、5G、LTEなどを含むがこれらに限定されない)を含み得る。
トレーニングシステム114は、1つ以上のプロセッサとメモリを含み得る。
メモリは、1つ以上のプロセッサによって実行されるときに、1つ以上のプロセッサに3次元オブジェクトの検出のためにOHSヘッドをトレーニングさせる命令語を格納することができる。
これと関連して、トレーニングシステム114は、1つ以上のトレーニング又はラーニングアルゴリズムを使用してOHSヘッドをトレーニングさせるためのトレーニングモジュール118を含み得る。
一つの例としてのトレーニングの技術は、エラーの逆方向伝播(backwards propagation)である。
いくつかの実施形態では、トレーニングモジュール118は、ラベル付けされた(labeled)トレーニングデータに基づいた教師付き学習(supervised training)のために構成される。
一実施形態で、トレーニングモジュール118は、トレーニングデータを使用してOHSヘッドをトレーニングするための教師付き学習の技術を使用する。
例えば、トレーニングデータは、正解のデータを含み得る。
正解のデータは、ポイントクラウドデータ(例えば、自律走行車両100のセンサー102によって記録された)、及びポイントクラウドデータ内のオブジェクト(ここで、オブジェクトはバウンディングボックスによって表される)と関連された1つ以上のラベル/注釈の表現であり得る。
1つ以上のラベルは、オブジェクトの分類情報(例えば、自動車、歩行者、自転車、信号など)、並びに位置/ポジション、方向、速度、及び加速度の情報を限定なしに提供することができる。
一実施形態で、正解のデータは、ホットスポット又は非ホットスポットとしてオブジェクトの特徴を示す特徴マップ上のニューロンと、ホットスポットのパーティション情報/空間関係の情報を識別する。
特徴マップのニューロンは、ボクセルの収集を表すことができる。
空いていないボクセル(スポットと呼ばれる)は、1つ以上のポイントを含み得る。
一実施形態によれば、オブジェクトの1つ以上の差別的な特徴に関連されたスポットのサブセットのみがホットスポットとして割り当てられる。
このような方式で、ホットスポットであるポイントを含むスパース(又は密度が稀薄な)ポイントクラウド(sparse point cloud)に対しても予測が達成され得る。
一実施形態で、OHSヘッドのトレーニングは、検出されたオブジェクトに対する予測を実行するためにOHSヘッドに正解のデータ(例えば、ポイントクラウドデータの表現)の部分を提供することを含む。
例えば、OHSヘッドは、ポイントクラウドデータ内の検出されたオブジェクトの分類、並びに関連付けられた位置/ポジション、方向、及び/又はバウンディングボックスの情報に対する予測を出力することができる。
予測結果は、予測をニューラルネットワークが予測のために試みた正解のデータと比較する損失関数を適用又は計算するために、トレーニングモジュール118によって使用される。
トレーニングモジュール118は、例えば、OHSヘッドを構成するニューラルネットワークと関連された1つ以上の重みを修正することにより、OHSヘッドをトレーニングするように、OHSヘッドを介して損失関数を逆伝播するように構成される。
正解のデータを入力して損失関数を決定し、損失関数を逆伝播するプロセスは、収束が達成されるまで、異なるトレーニングデータで複数回繰り返されることがあり、収束が達成される位置で瞬間OHSヘッドはトレーニングされたものとみなされる。
通常の技術者が理解できるように、トレーニング中にポイントをローカル化(局所化)させることは、損失が大きくなる。
一実施形態で、空間的関係のエンコーディングは、3次元情報を正確かつ効率的に得るために、ホットスポットの間の相対的な空間情報を学習するために使用される。
これと関連して、トレーニングモジュール118は、オブジェクト(又はそれの対応するバウンディングボックス)をパーティション(例えば、象限)に分割する空間関係エンコーダーを含む。
一実施形態で、ホットスポットが位置することができるパーティションに対して予測が行われる。
従って、予測されたパーティションに関連されたより小さな領域は、より大きな領域を検索する代わりに、ホットスポットをローカル化するために検索される。
このような方式で、空間的関係のエンコーディングは、OHSヘッドの収束を促進するのに役立つことができる。
図2は、本発明の多様な実施形態によるトレーニングモジュール118によるホットスポットの選択、及び割り当ての配置図である。
図2の例示では、正解(注釈がある)のバウンディングボックス(b)200は、特定のオブジェクト(たとえば、自動車)からのポイントクラウド202を含む。
注釈は、オブジェクトの位置を示すために、次のようにバウンディングボックス(b)200を定義することができる。
つまり、b=[k、x、y、z、l、w、h、r]、ここで、kは、オブジェクトのカテゴリインデックスであり、(x、y、z)はボックスの中心であり、(l、w、h)はボックスの次元であり、rはライダーの座標で半径のz軸を中心とした回帰角である。
いくつかの状況において、ラベリングエラーにより、バウンダリー(又は境界)ポイントは、オブジェクトと背景との間の紛らわしい領域にあり得、最終的回帰に寄与しない可能性がある。
一つの実施形態で、有効なボックス(effective box)は、[x,y,z,
Figure 2021082296

Figure 2021082296

Figure 2021082296
,r]として定義され、有効ボックス内のポイントは、すべて信頼度の高いホットスポットとみなされる。一つの実施例では、有効なボックス外の無視ボックス(ignoring box)[x,y,z,
Figure 2021082296

Figure 2021082296

Figure 2021082296
,r]は、オブジェクトと背景との間のソフトバウンダリーとして定義される。
一実施形態で、
Figure 2021082296
及び
Figure 2021082296
は、有効領域及び無視領域を制御する割合であり、ここで
Figure 2021082296
である。
一実施形態で、有効なボックスの外部にあるが、無視ボックスの内部にあるポイントは、トレーニング中に逆伝播を実行するのに使用されていないことがあり得る。
無視ボックスの外部にあるポイントは、非ホットスポットと見なされる。
一実施形態によれば、ホットスポットとして選択されたスポットは、次の3つのプロパティ(property)を満たすことを目的とする。
つまり、
1)区別される特徴をキャプチャーするために、オブジェクトの区別可能な部分を構成し、
2)同じカテゴリのオブジェクトの中で共有されて同じカテゴリから共通の特徴が学習され、そして、
3)少ない数のポイント(又は遮断されたポイント)を有するオブジェクトを検出できるように個数が限定されているが、意味情報とローカル化を予測するための十分な情報を含む。
これと関連して、ホットスポットは、直接方法論(direct methodology)又は密度方法論(dense methodology)を使用してトレーニング中に選択されて割り当てられる。
直接方法論において、オブジェクトの中心から閾値の距離内にあるオブジェクト202と関連付けられたポイント(スポット)を含むボクセル(204、206、208)が識別され得る。
識別されたボクセルの予め設定され個数が選択され得、バックボーンネットワーク(backbone network)の出力特性マップ上のニューロンの対応する位置に投影される。
次に、対応するニューロンは、ホットスポットとして指定され得、ポジティブラベル(positive label)を割り当てられる。
一実施形態ででは、オブジェクトの中心に最も近いM個のスポットは、ホットスポットとして選択され、ここで、Mは、オブジェクトの体積に基づいて変更することができる。
本発明の実施形態は、ホットスポットを選択するための他の方法論に拡張することができ、ここに開示された方法論に限らない。
密度方法論において、いかなるポイントも含まない空きのボクセルを含むバウンディングボックス200と関連されたすべてのボクセル210は、特徴マップ上のニューロンの対応する位置に投影され、対応するニューロンは、ホットスポットとして指定される。
バウンディングボックスのバウンダリー周辺のボクセルは、無視され得る。
より具体的には、オブジェクト上の空いていないボクセル(スポット)のサブセットをホットスポットとして選択する直接方法論と関連して、より具体的に出力の特徴マップのニューロンに対応するボクセルは、Vとして表記され得、ここで、nは、ニューロンをインデックス化(索引化)する。
一実施形態で、注釈は、どの部分が区別されるか否かを示さないが、正解のバウンディングボックス(Bgt)(例えば、バウンディングボックス200)から推論され得る。
正解のバウンディングボックス(Bgt)の内部にある場合は、Vは、オブジェクトの内部のボクセルであると仮定される。
なお、Vが空いていなく、バウンディングボックス(Bgt)の内部にある場合は、スポットと見なされる。
一実施形態で、オブジェクトの中心に最も近いスポットは2つの動機に基づいて、ホットスポットとして選択される。
つまり、
1)オブジェクトの中心にもっと近いポイントは、大部分のオブジェクトで出現する可能性が高い反面、側面にあるポイントは、視野角が変更される場合に消える可能性が大きく、そして、
2)オブジェクトの中心にもっと近い位置は、より正確なローカライゼーションを提供する傾向がある。
一実施形態で、多くてもM個の最寄りのスポットが、各オブジェクトでホットスポットとして選択され、ここで、Mは適応型の数(adaptive number)である。
一実施形態で、M=C/Volであり、ここで、Cは、ユーザーによって調整されるハイパーパラメータであり、Volはバウンディングボックスの体積である。
より大きな体積のオブジェクトは、より多くのポイント及び豊富な特徴を有する傾向があるため、本発明による一実施形態は、より大きなオブジェクトでホットスポットの数をもっと抑制するために適応型Mを使用する。
一実施形態で、オブジェクトのスポットの数がM未満であれば、すべてのスポットがホットスポットとして割り当てられる。
図3は、一つの実施例にしたがって1段のアンカーフリー(anchor−free)の3次元オブジェクトの検出のためのOHS(Object−as−Hotspot)ヘッドをトレーニングするためのプロセスの概念的配置である。
一実施形態で、1つ以上のセンサー102からのポイントクラウドデータ200は、セル(例えば、立方体形状のボクセル202)の格子に変換/ボクセル化されることがあり、バックボーンネットワーク204に伝達される。
特定のセル/ボクセルは、ポイントクラウドデータのゼロ(0)個又はそれ以上のポイントを含み得る。
いくつかの実施形態では、ポイントクラウドをボクセル化する段階はバイパスされることがあり、ポイントをボクセル化せずに、オブジェクト検出を実行するために、生のポイントクラウドデータが使用される。
例えば、バックボーンネットワーク204は、推論モジュール110によってホストされる(hosted)3次元コンボリューションニューラルネットワークであり得る。
バックボーンネットワーク204の1つ以上のレイヤーは、ポイントクラウドデータの多様な特徴を抽出するために呼び出される。
抽出された特徴にマッピングされる1つ以上のニューロンを有する1つ以上の出力の特徴マップは、バックボーンネットワーク204によって出力される。
一実施形態では、出力の特徴マップは、鳥瞰図(Bird’s Eye View、BEV)に縮小される。
一実施形態では、1つ以上のボクセルの位置は、特定の出力特徴マップのニューロンの対応する位置に投影される。
一実施形態で、1つ以上の出力の特徴マップは、ホットスポットの分類、3次元ボックス回帰、及び空間的関係のエンコーディングのための1つ以上のコンボリューションレイヤーを提供する、共有されたコンボリューションネットワーク206に提供される。
これと関連して、共有されたコンボリューションネットワーク206は、ホットスポットの分類のためのホットスポット分類のサブネット208、3次元ボックス回帰のためのボックス回帰サブネット210、及び空間的関係のエンコーディングのための空間的関係のエンコーダーサブネット212を含み得る。
共有されたコンボリューションネットワーク206は、多様なサブネット(208〜212)と共にOHSヘッドと呼ばれる。
OHSヘッドは、管理をガイドし、予測された3次元バウンディングボックスを生成することができる。
一実施形態で、OHSヘッドは、推論モジュール110及び/又はトレーニングモジュール118によってホストされ得る。
一実施形態で、ホットスポット分類のサブネット208は、出力の特徴マップのニューロンに対するオブジェクトクラスカテゴリの可能性を予測する。
一つの例では、ホットスポット分類のサブネット208は、オブジェクトの特定のクラスに対して出力の特徴マップのニューロンをホットスポットとして分類するか、又は非ホットスポット(ホットスポットではないもの)として分類するバイナリ分類器である。
一実施形態によれば、分類サブネット208は、Kヒートマップ(heatmap)を有するコンボリューションレイヤーの形態を取ることができ、ここで、特定のヒートマップは、オブジェクトの特定のカテゴリ/クラス(例えば、自動車、歩行者、自転車、信号など)に対応する。
オブジェクトの特定のクラスに対するホットスポットは、「1」としてラベル付けされ、一方、非ホットスポットである対象(ターゲット)は、「0」としてラベル付けされる。
一つの実施例で、ホットスポット分類のサブネット208は、正解のバウンディングボックスの内部の非ホットスポットに対する勾配が0(ゼロ)に設定されるように勾配マスク214を適用する。こうなると、トレーニング中に非ホットスポットは無視され、逆伝播に寄与しない可能性がある。勾配マスク214は、信頼度の閾値レベルを有する、予測されたホットスポットを出力することができる。一つの実施例では、ホットスポットの予測が閾値の信頼度を満たしている場合(例えば、以上又は同一の場合)、特徴マップ上のニューロンは、ホットスポットとして識別される。
一実施形態で、ホットスポット分類のサブネット208は、ホットスポット及び非ホットスポットに対するバイナリ分類を行う。
例えば、焦点損失関数(focal loss function)のような分類の損失関数は、分類末尾に適用され、したがって、
Figure 2021082296
で、ここで
Figure 2021082296
であり、ここでpは出力確率で、Kはオブジェクトカテゴリの数である。
一実施形態で、総分類損失は、ホットスポット及び非ホットスポットの総個数に対して平均化される(正解のバウンディングボックスにおいて、非ホットスポットを除く)。
ボックス回帰のサブネット210は、予測されたホットスポット215に基づいて、3次元バウンディングボックス218を予測するためのバウンディングボックス回帰216に参加するように構成される。
一実施形態で、ボックス回帰のサブネット210は、予測されたホットスポットに対応する出力の特徴マップのニューロンの位置、ディメンション、及び方向を回帰する。
回帰されたデータは、3次元ポイントクラウド200空間で検出されたオブジェクトをマークするためにバウンディングボックス200を生成するために使用される。
一実施形態で、バウンディングボックスの回帰は、ホットスポットに対してのみ実行されることがある。
これと関連して、特定のホットスポットについて、8次元ベクトル[d,d,z,log(l),log(w),log(h),cos(r),sin(r)]は、位置、ディメンション、及び方向に関連されたパラメータと共にポイントクラウド200空間で検出されたオブジェクトを示すために回帰される。
パラメータ(d、d)は、オブジェクトの中心(centroid)に対する特徴マップ上でホットスポットの軸整列偏差(deviation)であり得る。
鳥瞰図(BEV)で入力ポイントクラウドの区間200のホットスポットボクセルの中心は、次のように求められる。
つまり、
Figure 2021082296
、ここで、i、jは、サイズがW×Lである特性マップ上の対応するニューロンの空間インデックスであり、[xmin、xmax]、[ymin、ymax]は、ポイントがボクセル化になる場合に、x、yの範囲である。
上述したように、アンカーのない検出器は、回帰目標(ターゲット)の不均衡のことから困難に直面する。
このような回帰目標の不均衡は、目標を慎重に設計することで解決される。
一実施形態で、対数関数が絶対値を縮小するため、元の値を代わりにしてlog(l)、log(w)、log(h)が回帰される。
さらに、cos(r)、sin(r)は、元の角度値[−π、π]の範囲の代わりに[−1、1]の範囲に限定されるため、絶対値rの代わりに、cos(r)、sin(r)が回帰される。
なお、ソフトアーグミン(soft argmin)関数は、d、d、及びzにより表示されるホットスポットの回帰位置を助けるために使用される。
ソフトアーグミン(soft argmin)関数によって、範囲がaからbまでに至るセグメント(segment)でポイントの位置を回帰するには、セグメントは、それぞれのビン(bin)が「(b−a)/N」である長さを占めるN個のビン(bin)に分割される。
目標位置は、
Figure 2021082296
として表現され、Sは、i番目のビンのソフトマックス(softmax)スコア(点数、score)を示し、Cは、i番目のビン(bin)の中心位置を示す。
ソフトアーグミン(Soft argmin)関数は、絶対値回帰を避ける分類の問題に回帰を転換することにより、回帰目標の不均衡を解決することができる。
一実施形態で、a、bの選択は、それらが目標値の範囲を含む限り、アプローチの性能に影響を与えない。
一実施形態で、例えば、平坦なL1損失(smooth L1 loss)のような回帰損失関数は、バウンディングボックスの目標を回帰するために、次のように採択される。つまり、
Figure 2021082296
一実施形態で、回帰損失は、ホットスポットと関連された位置を予測するようにネットワークをトレーニングさせるために計算される。
一実施形態で、空間的関係のエンコーダーサブネット212は、トレーニング中にホットスポットの相対的な空間関係性を学習するために呼び出される。
トレーニングに使用される正解のデータ222は、ホットスポット間の相対的な空間情報を暗黙的に提供することができる。
したがって、空間的関係のエンコーディングは、ホットスポット間の固有な(内在する)空間的関係を強化することができる。
これに関連して、OHSヘッドによって予測されたホットスポットからオブジェクトの中心までの軸整列偏差(dx、dy)は、オブジェクトの方向に応じて異なることができ、したがって、ホットスポットとオブジェクトの中心との間の固有な関係を示していない可能性がある。
一実施形態で、OHSヘッドは、ホットスポットの大略的な(coarse)推定のためのスーパービジョン信号を通じて、固有で不変なオブジェクト・部分(object−part)の関係を学習するようにトレーニングされる。
これに関連して、自律走行のコンテキストでは、1つ以上の目標オブジェクトは、堅いオブジェクト(例えば、自動車)と見なされ、したがって、オブジェクトの中心に対するホットスポットの相対的な位置は変更されない可能性があり、相対的な位置はバウンディングボックスの中心及び方向の助けによって決定される。
一実施形態で、オブジェクトの中心に対する相対的なホットスポットの位置(鳥瞰図で)は、パーティションを示すベクトルに分類される。
一実施形態で、ホットスポットの空間的関係のエンコーダーサブネット212は、バイナリクロスエントロピー損失(binary cross−entropy loss)でトレーニングされる。
一実施形態で、パーティションの損失は、次のようにホットスポットについてのみ計算される。つまり、
Figure 2021082296
ここで、iは、パーティションをインデックスし、qは、対象(ターゲット)であり、pは、特定のパーティションに属する予測された尤度を示す。
また、OHSヘッドのトレーニングは、ホットスポットの選択及び割り当て224を含み得る。
一実施形態で、ポイント/ボクセルは、オブジェクトの中心までの距離に対する決定に基づいて、ホットスポットとして選択されて割り当てられる。
一実施形態で、オブジェクトを表すために選択されたホットスポットの数は、オブジェクトの体積に依存して異なり得る。
一実施形態で、トレーニングモジュール118は、次のように分類、回帰、及びパーティションの損失の加重された総計として、総損失を計算するように構成される。
つまり、
Figure 2021082296
ここで、δ、β、及びζは、それぞれ分類、回帰、及びパーティションの損失のバランスのための重みである。
一実施形態で、総損失は、OHSヘッドをトレーニングするために使用される。
これに関連して、総損失は、例えば、OHSヘッドを示すニューラルネットワークと関連された1つ以上の重みを修正するためにOHSヘッドを介して逆伝播され得る。
一度トレーニングされると、OHSヘッドは、入力ポイントクラウド内のオブジェクトの特定のクラスに対応する予測されたホットスポットに対し予測された3次元バウンディングボックスを生成するために使用され得る。
予測に基づいて、図1の車両100のような自律走行車が制御される。
推論のプロセスにおいて、オブジェクトクラスに対応するK分類ヒートマップのK次元のベクトルは、ベクトルの最大の信頼値を識別するために評価され得る。
一実施形態で、特定のオブジェクトクラスに対する識別された値が閾値を満たしている場合(例えば、以上又は同一の場合)、対応する位置は、関連されたオブジェクトインスタンス(instance)に対するホットスポットとみなされる。
予測されたバウンディングボックスは、b=[dx、dy、z、l、w、h、cos(r)、sin(r)]に基づいて識別されたホットスポットに対して回帰され得、これは正規(canonical)表現[x、y、z、l、w、h、r]にマッピングされ、元のポイントクラウド空間に投影される。
一実施形態で、識別されたホットスポットと関連付けられたオブジェクトのラベルは、投影されたバウンディングボックスと関連して、獲得・出力される。
オブジェクトインスタンスは、与えられた閾値を超える複数の予測されたホットスポットを有し得る。
一実施形態で、そのような状況は、オブジェクトに対する最も確実なホットスポットを選択するためのIOU(Intersection Over Unit)の閾値を有するNMS(Non−Maximum Suppression)を介して処理される。
IOUの閾値は、予測されたホットスポットに対する正解のホットスポットの重畳領域の閾値の比率を提供することができる。
IOUの閾値を満足する最も確実なホットスポットは、特定のオブジェクトのために選択される。
図4は、本発明の一実施形態によるバウンディングボックス400を、4つのパーティション(象限(402a〜408a))に分割する空間的関係のエンコーダーサブネット(spatial relation encoder subnet)212の概念的配置図である。
鳥瞰図において、象限は、オブジェクトの方向410(例えば、正面を向く方向)及びそれの垂直方向412に基づいて、分けられる。
一実施形態で、象限は、オブジェクトの方向410に対して固定される。
たとえば、象限は、数字(0、1、2、3)、色(緑、青、紫、オレンジ)などを介して識別される。
一実施形態で、オブジェクトを表すポイント(例えば、ホットスポット)は、それぞれの象限(402b〜408b)に分類される。
図5A〜図5Cは、本発明の単一の実施形態によるホットスポットを用いた3次元オブジェクト検出の概念的配置図である。
ホットスポット(500〜516)は、1つ以上のオブジェクトのカテゴリ(例えば、自動車、歩行者、自転車、信号など)に属するオブジェクトに対して選択される。
例えば、図5Aの例では、ホットスポット(500〜514)は、歩行者としてラベル付けされたオブジェクトに割り当てられ、ホットスポット516は、自転車としてラベル付けされたオブジェクトに割り当てられる。
ホットスポットの割り当てに基づいて、歩行者(518〜532)、又は自転車534としてラベル付けされた3次元バウンディングボックスは、OHSヘッドによって検出されたホットスポットに対して回帰され得る。
図5Cは、割り当てられたホットスポット(500、502、506)に対して照射/動作(fire/actuate)される例としてのホットスポットを識別する。
照射されたホットスポット(500b、502b、516b)は、関連のオブジェクトインスタンスについての3次元情報を推論するのに使用される。
図6は、本発明の一実施形態によるOHSヘッドをトレーニングするためのプロセスを説明するためのフローチャートである。
プロセスが開始され、ステップS600において、トレーニングモジュール118は、データ記憶装置からポイントクラウド内の1つ以上のオブジェクトインスタンスの正解のデータを含むトレーニングデータを回収(retrieve)する。
たとえば、特定のオブジェクトインスタンスに対する正解のデータは、オブジェクトインスタンスに対するバウンディングボックスの情報を含み得る。
バウンディングボックスの情報は、限定なしでオブジェクトインスタンスが属するオブジェクトのカテゴリ、並びにバウンディングボックスの位置、ディメンション、及び方向を含み得る。
ステップS602において、特定のバウンディングボックスの1つ以上のポイント/ボクセルをホットスポットとして割り当てる。
一実施形態で、バウンディングボックス内の空いていないボクセルの集合は、対応する特徴マップのニューロンの対応する位置に投影され、その次にニューロンには、ホットスポットのポジティブ(positive)ラベルを与える。
いくつかの実施形態で、空いていないボクセルだけを選択する代わりに、バウンディングボックスの空きボクセル及び空きでないボクセルのすべてがホットスポットとして指定されるように選択する。
ステップS604において、適切な特徴抽出後に、ホットスポット分類のサブネット208は、出力の特徴マップの1つ以上のニューロンをホットスポットとして分類するために呼び出す。
これと関連して、ホットスポットと予測されるニューロンは、「1」としてラベル付けし、ホットスポットと予測されていないニューロンは「0」としてラベル付けする。
一実施形態で、予測に対する信頼値が生成され、閾値信頼レベルを満たしているホットスポットと予測されるニューロンがホットスポットとして分類される。
その後に、分類損失を計算し、ここで総分類損失は、ホットスポットと非ホットスポットの総数(正解のバウンディングボックスの内の非ホットスポットを除く)に対して平均化する。
ステップS606において、ボックス回帰のサブネット210は、分類されたホットスポットに対するバウンディングボックスを回帰するために呼び出す。
これと関連して、8次元ベクトル[d、d、z、log(l)、log(w)、log(h)、cos(r)、sin(r)]は、ポイントクラウド内のオブジェクトインスタンスを示すために回帰される。
これと関連して、多様な実施形態による3次元オブジェクトの検出がアンカーフリーであると与えられる場合、ソフトアーグミン(soft argmin)関数は、バウンディングボックスのd、d、及びzの座標を回帰するために活用する。
実験によると、生の値の代わりにソフトアーグミン(soft argmin)関数を使用するのは、回帰を異なるスケールの絶対値に対する回帰を防止する分類問題に切り替えて回帰目標の不均衡を解決することで、性能が向上されることを示す。
一実施形態で、回帰損失は、バウンディングボックスの目標を回帰するために計算する。
ステップS608において、空間的関係のエンコーダーサブネット212は、ホットスポットの間の相対的な空間関係性を学習するために呼び出す。
これと関連して、空間的関係のエンコーダーサブネット212は、識別されたホットスポットをパーティションの設定個数(set number)を表すパラメータの設定個数によって定義されるベクトルにカテゴリー化されるように構成される。
一実施形態で、パーティションの損失は、パーティションのカテゴリー化に基づいて、ホットスポットについて計算する。
ステップS610において、総損失は、計算された分類、回帰、及びパーティションの損失の加重された総計として計算する。
ステップS612において、総損失は、OHSヘッドを構成するニューラルネットワークと関連された1つ以上の重みを調整するために逆伝播する。
ステップS614において、OHSヘッドが十分にトレーニングされたか否かに対する決定を下す。
たとえば、特定の回数だけ繰り返された後、総損失が減少するのを止めた場合には、トレーニングは終了する。
もしトレーニングが終了していない場合には、手順は、例えば、追加的なトレーニングデータでトレーニングし続けるためにステップS600に戻る。
図7は、本発明の一実施形態よる、3次元オブジェクトの単一のパス(single pass)のアンカーフリーの検出のためのプロセスのフローチャートである。
ステップS700において、3次元空間でのポイントを含むポイントクラウドデータは、例えば、自律走行車両の上部にある1つ以上のセンサー102のような入力ソースから受信する。
ステップS702において、生のポイントクラウドデータ、又はデータのボクセル化されたバージョンを、例えば、ポイントクラウドデータから特徴を抽出するためのバックボーンネットワーク204などのような1つ以上のニューラルネットワークに提供する。
1つ以上の出力の特徴マップは、抽出された特徴に基づいて生成する。
抽出された特徴マップは、1つ以上のニューロンを含み、ここで、特定のニューロンは、1つ以上のポイント又はボクセルと関連される。
ステップS704において、共有されたコンボリューションネットワーク206とホットスポット分類のサブネット208は、ニューロンを、オブジェクトの特定のクラスに対して、ホットスポット又は非スポットに分類するために呼び出す。
これと関連して、ホットスポット分類のサブネット208は、抽出された特徴マップ内のニューロンがオブジェクトの多様なクラスに対するホットスポットである、確率/信頼度の値を計算する。
閾値よりも高い信頼度の値を有するニューロンは、特定のクラスと関連された特定のオブジェクトインスタンスに対するホットスポットとして分類する。
一実施形態で、特定のオブジェクトインスタンスが1つ以上のホットスポットと関連付けられている場合は、最も高い信頼度の値を有するホットスポットを、オブジェクトを表現するために選択する。
ステップS706において、バウンディングボックスは、特定のホットスポットに対して回帰する。
バウンディングボックスの回帰は、図6のステップS606でのバウンディングボックスの回帰と類似する。
ステップS708において、バウンディングボックスと関連されたオブジェクトインスタンスに対するラベル及び他のタイプの注釈データを回収する。
例えば、このようなラベル/注釈データは、オブジェクトの分類ID、バウンディングボックスの位置座標及び方向などを含み得る。
ステップS710において、回帰されたバウンディングボックスは、検出されたオブジェクトをマークするために、受信されたポイントクラウド空間に投影する。
一実施形態で、図1の車両100のような自律走行車は、回帰されたバウンディングボックス情報に基づいて制御される。
図6及び図7の手順のステップの順序は、固定されておらず、通常の技術者によって認識される任意の所望の順序に変更され得ることが理解されるべきである。
たとえば、ステップS604〜ステップS608は、異なる順序又は並列に発生させることができる。
いくつかの実施形態において、上述した多様なモジュール(108〜112、118)は、1つ以上のプロセッサで実装される。
用語のプロセッサは、1つ以上のプロセッサ及び/又は1つ以上のプロセッシングコアを指すことができる。
1つ以上のプロセッサは、単一の装置でホストされるか、又は複数の装置(例えば、クラウドシステム)に分散される。
例えば、プロセッサは、特定用途向け集積回路 (Application Specific Integrated Circuit:ASIC)、汎用又は特殊目的の中央処理装置(Central Processing Unit:CPU)、デジタル信号プロセッサ(Digital Signal Processor:DSP)、グラフィックス処理装置(Graphics Processing Unit:GPU)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)のようなプログラマブルロジック装置を含み得る。
本明細書で使用されるプロセッサでは、それぞれの機能は、その機能を実行するように構成されたハードウェア(例えば、ハードワイヤード(hard−wired))又は非一時的記憶媒体に格納された命令語を実行するように構成された、より汎用的なハードウェア(中央処理装置のような)によって実行され得る。
プロセッサは、単一のプリント回路基板(Printed Circuit Board:PCB)又は複数の相互接続されたプリント回路基板に分散されて製作され得る。
プロセッサは、他の処理回路を含み得る。
例えば、処理回路は、プリント回路基板上で相互接続された2つの処理回路であるフィールドプログラマブルゲートアレイ、及び中央処理装置を含み得る。
たとえば、本明細書で「第1」、「第2」、「第3」などの用語は、多様な要素、コンポーネント、領域、レイヤー、及び/又はセクションを説明するために使用されるが、このような要素、コンポーネント、領域、レイヤー、及び/又はセクションは、このような用語によって限定されないことと理解されるだろう。
このような用語は、他の要素、コンポーネント、領域、レイヤー又はセクションから1つの要素、コンポーネント、領域、レイヤー又はセンションを区別するために使用される。
したがって、本明細書で記述された第1の要素、コンポーネント、領域、レイヤー又はセクションは、本発明の思想及び範囲を逸脱せずに、第2の要素、コンポーネント、領域、レイヤー又はセクションと称され得る。
本明細書で使用される用語は、特定の実施形態を説明するためのものであり、本発明の概念を限定しようとする意図ではない。
また、明示的に言及されていない限り、本明細書に説明した実施形態は、相互に排他的ではない。
本明細書で説明した実施形態の様相は、一部の実装において結合される。
本明細書で使用される「実質的に」、「約」及び類似の用語は、程度を表す用語ではなく近似値の用語として使用され、これは通常の技術者によって認識される測定又は計算された値で固有な偏差を説明するためのものである。
本明細書で使用されたように、文脈上明らかに別の意味を示していると判定されない限り、単数形の「1つ」は、複数形を含むものと意図される。
本明細書で「含む(comprises)」及び/又は「含む(comprising)」との用語が使用される場合に、このような用語は、定められた特徴、整数、段階、動作、要素及び/又はコンポーネントの存在を明示するが、一つ以上の他の特徴、整数、段階、動作、要素、コンポーネント、及び/又はそれらのグループの追加若しくは存在を排除しない。
本明細書で使用したように、「及び/又は」という用語は、1つ以上の列挙された項目と関連付けられている任意かつすべての組み合わせを含む。
「少なくとも一つ」のような表現は、要素の全体リストを修正し、リストの個々の要素を修正しない。
なお、本発明の実施形態を説明するにあたって、「できる」の使用は、「本発明の1つ以上の実施例」を意味する。
また、「例としての」という用語は、例又は例示を指すものと意図される。本明細書で使用されているように、「使用する(use)」、「使用する(using)」及び「使用された(used)」という用語は、それぞれ「活用する(utilize)」、「活用する(utilizing)」及び「活用された(utilized)」という用語と同義語としてみなされ得る。
要素又はレイヤーが、他の要素又はレイヤー「上に」、「に連結された」、「に結合された」又は「に隣接した」と言及されている場合、それは他の要素又はレイヤー「に直接に」、「に直接連結された」、「に直接結合された」又は「にすぐ隣接した」であるか、又は1つ以上の間に介在する要素又はレイヤーが存在できる。
対照的に、要素又はレイヤーが他の要素又はレイヤ−「に直接に」、「に直接連結された」、「に直接結合された」又は「にすぐ隣接した」と述べられている場合は、間に介在する要素又はレイヤーが存在しない。
本明細書で引用した任意の数値の範囲は、引用された範囲内に含まれている同じ数値精度のすべての下位の範囲を含むものと意図する。
たとえば、「1.0〜10.0」の範囲は、言及された最小値1.0と言及された最大値10.0との間のすべての下位の範囲を含むものであり、つまり、最小値が1.0以上であり、最大値は10.0以下の値を有する(例えば、2.4〜7.6)。本発明に記載された任意の最大値の限定は、その中に含まれているすべてのより低い数値限定を含むものと意図し、本明細書に記載された任意の最小値の限定は、それに含まれているすべてのより高い数値限定を含むものと意図する。
本明細書では、3次元オブジェクト検出のためのシステム及び方法に関する例としての実施形態を具体的に説明・例示されたが、多くの修正及び変形が通常の技術者には明らかであろう。
したがって、本発明の原理に基づいて構成された3次元オブジェクト検出のためのシステム及び方法は、本明細書で具体的に説明されたものと異なるように実装され得ることが理解されるべきである。
100 自律走行車両
102 センサー
104 計算システム
106 車両制御器
108 知覚モジュール
110 推論モジュール
112 制御モジュール
114 トレーニングシステム
116 データ通信ネットワーク
118 トレーニングモジュール

Claims (20)

  1. コンピューティングシステムによって、入力ソースから3次元(three−dimensional:3D)空間内の第1のポイント及び第2のポイントを含むポイントクラウドデータ(point cloud data)を受信する段階と、
    前記コンピューティングシステムによって、第1のラベルで前記第1のポイントを分類するためのニューラルネットワーク(neural network)を呼び出す段階と、
    前記コンピューティングシステムによって、前記第1のラベルで前記第1のポイントを分類することに基づくバウンディングボックス(bounding box)を回帰する(regressing)段階と、
    前記コンピューティングシステムによって、前記バウンディングボックスを回帰することに基づいて、自律走行車両を制御する段階と、を有し、
    前記第1のポイントは、オブジェクトの特徴を示し、
    前記バウンディングボックスを回帰する段階は、前記バウンディングボックスの少なくとも1つの位置を予測する段階を含むことを特徴とする3次元オブジェクトの分類方法。
  2. 前記受信したポイントクラウドデータを複数のボクセル(voxel)に変換する段階をさらに有し、
    前記複数のボクセルの内、第1のボクセルは、前記第1のポイントを含み、
    前記複数のボクセルの内、第2のボクセルは、ポイントを含んでいないことを特徴とする請求項1に記載の3次元オブジェクトの分類方法。
  3. 前記第2のボクセルを前記第1のラベルと異なる第2のラベルで分類する段階をさらに有し、
    前記第1のポイントを分類することは、前記第1のボクセルを前記第1のラベルで分類することを含み、
    前記バウンディングボックスを回帰することは、前記第1のボクセルに基づくことを特徴とする請求項2に記載の3次元オブジェクトの分類方法。
  4. 前記第2のボクセルを前記第1のラベルで分類する段階をさらに有し、
    前記第1のポイントを分類することは、前記第1のボクセルを前記第1のラベルで分類することを含み、
    前記バウンディングボックスを回帰することは、前記第1のボクセル及び前記第2のボクセルに基づくことを特徴とする請求項2に記載の3次元オブジェクトの分類方法。
  5. トレーニングデータ(training data)に基づいて、前記ニューラルネットワークをトレーニングする段階をさらに有し、
    前記トレーニングデータは、前記オブジェクトに関連付けられた特定のポイントを含み、
    前記特定のポイントが前記オブジェクトの中心から閾値の距離内にあるものであると検出されることに応答して、前記特定のポイントは、前記第1のラベルに割り当てられることを特徴とする請求項1に記載の3次元オブジェクトの分類方法。
  6. 前記トレーニングデータからM個のポイントは、前記第1のラベルに割り当てられ、
    前記Mは、前記オブジェクトの体積に基づいて決定されることを特徴とする請求項5に記載の3次元オブジェクトの分類方法。
  7. トレーニングデータ(training data)に基づいて、前記ニューラルネットワークをトレーニングする段階をさらに有し、
    前記トレーニングする段階は、前記第1のラベルに割り当てられた2つのポイントの相対的な空間情報を学習する段階を含むことを特徴とする請求項1に記載の3次元オブジェクトの分類方法。
  8. 前記相対的な空間情報を学習するための段階は、前記オブジェクトに関連付けられた正解(ground truth)のバウンディングボックスをパーティションに分割する段階と、
    前記オブジェクトと関連して、前記第1のラベルに割り当てられた特定のポイントを前記パーティションのいずれか1つに分類する段階と、を含むことを特徴とする請求項7に記載の3次元オブジェクトの分類方法。
  9. パーティション分類損失(partition classification loss)を計算する段階と、
    前記パーティション分類損失に基づいて、前記ニューラルネットワークをトレーニングする段階と、をさらに有することを特徴とする請求項7に記載の3次元オブジェクトの分類方法。
  10. 前記ニューラルネットワークをトレーニングする段階は、前記第1のラベルでポイントを分類することから計算された分類の損失(classification loss)、及び前記分類されたポイントのバウンディングボックス回帰から計算された回帰損失(regression loss)に基づくことを特徴とする請求項9に記載の3次元オブジェクト分類方法。
  11. 前記バウンディングボックスを回帰する段階は、前記第1のポイントと関連した位置パラメータを回帰するためのソフトアーグミン(soft argmin)関数を適用する段階を含むことを特徴とする請求項1に記載の3次元オブジェクトの分類方法。
  12. 3次元(three−dimensional:3D)オブジェクトの分類のためのシステムであって、
    プロセッサと、
    前記プロセッサによって実行される命令語を格納するメモリと、を有し、
    前記命令語は、前記命令語が実行される場合、前記プロセッサによって、入力ソースから3次元空間内の第1のポイント及び第2のポイントを含むポイントクラウドデータ(point cloud data)を受信し、
    第1のラベルで前記第1のポイントを分類するためのニューラルネットワーク(neural network)を呼び出し、
    前記第1のラベルで前記第1のポイントを分類することに基づいて、バウンディングボックス(bounding box)を回帰し、
    前記バウンディングボックスを回帰することに基づいて、自律走行車両を制御するように行わせ、
    前記第1のポイントは、オブジェクトの特徴を示し、
    前記バウンディングボックスを回帰することは、前記バウンディングボックスの少なくとも1つの位置を予測することを特徴とするシステム。
  13. 前記命令語は、前記プロセッサによって前記受信したポイントクラウドデータを複数のボクセル(voxel)に変換するようにさらに行わせ、
    前記複数のボクセルの内、第1のボクセルは、前記第1のポイントを含み、
    前記複数のボクセルの内、第2のボクセルは、ポイントを含んでいないことを特徴とする請求項12に記載のシステム。
  14. 前記プロセッサによって、前記第1のポイントを分類するように行わせる前記命令語は、前記プロセッサによって前記第1のラベルで前記第1のボクセルを分類するように行わせる命令語を含み、
    前記命令語は、前記プロセッサによって前記第2のボクセルを前記第1のラベルと異なる第2のラベルで分類するようにさらに行わせ、
    前記プロセッサによって前記バウンディングボックスを回帰するように行わせる前記命令語は、前記プロセッサによって前記第1のボクセルに基づいて、前記バウンディングボックスを回帰するように行わせる命令語を含むことを特徴とする請求項13に記載のシステム。
  15. 前記プロセッサによって前記第1のポイントを分類するように行わせる前記命令語は、前記プロセッサによって前記第1のラベルで前記第1のボクセルを分類するように行わせる命令語を含み、
    前記命令語は、前記プロセッサによって前記第2のボクセルを前記第1のラベルで分類するようにさらに行わせ、
    前記プロセッサによって前記バウンディングボックスを回帰するように行わせる前記命令語は、前記プロセッサによって前記第1のボクセル及び前記第2のボクセルに基づいて、前記バウンディングボックスを回帰するように行わせる命令語を含むことを特徴とする請求項13に記載のシステム。
  16. 前記命令語は、前記プロセッサによってトレーニングデータ(training data)に基づいて、前記ニューラルネットワークをトレーニングするようにさらに行わせ、
    前記トレーニングデータは、前記オブジェクトと関連付けられた特定のポイントを含み、
    前記特定のポイントが前記オブジェクトの中心から閾値の距離内にあるものであると検出されることに応答して、前記特定のポイントは前記第1のラベルに割り当てられることを特徴とするシステム。
  17. 前記トレーニングデータからM個のポイントは、前記第1のラベルに割り当てられ、
    前記Mは、前記オブジェクトの体積に基づいて決定されることを特徴とする請求項16に記載のシステム。
  18. 前記命令語は、前記プロセッサによってトレーニングデータ(training data)に基づいて、前記ニューラルネットワークをトレーニングするように行わせ、
    前記トレーニングは、前記第1のラベルに割り当てられている2つのポイントの相対的な空間情報を学習することを含むことを特徴とする請求項12に記載のシステム。
  19. 前記プロセッサによって前記相対的な空間情報を学習するように行わせる前記命令語は、前記プロセッサによって前記オブジェクトに関連付けられた正解(ground truth)のバウンディングボックスをパーティションに分割し、前記オブジェクトと関連して、前記第1のラベルに割り当てられた特定のポイントを前記パーティションのいずれか1つに分類するように行わせる命令語を含むことを特徴とする請求項18に記載のシステム。
  20. 前記命令語は、前記プロセッサがパーティションの分類損失(partition classification loss)を計算し、前記パーティションの分類損失に基づいて、前記ニューラルネットワークをトレーニングするようにさらに行わせることを特徴とする請求項18に記載のシステム。
JP2020193640A 2019-11-22 2020-11-20 3次元オブジェクトを分類するための方法及びそのシステム Pending JP2021082296A (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201962939548P 2019-11-22 2019-11-22
US62/939,548 2019-11-22
US202063050654P 2020-07-10 2020-07-10
US63/050,654 2020-07-10
US16/985,092 US11543534B2 (en) 2019-11-22 2020-08-04 System and method for three-dimensional object detection
US16/985,092 2020-08-04

Publications (1)

Publication Number Publication Date
JP2021082296A true JP2021082296A (ja) 2021-05-27

Family

ID=73452057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020193640A Pending JP2021082296A (ja) 2019-11-22 2020-11-20 3次元オブジェクトを分類するための方法及びそのシステム

Country Status (5)

Country Link
US (1) US11543534B2 (ja)
EP (1) EP3825908A1 (ja)
JP (1) JP2021082296A (ja)
KR (1) KR20210064067A (ja)
CN (1) CN112836564A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7224682B1 (ja) 2021-08-17 2023-02-20 忠北大学校産学協力団 自律走行のための3次元多重客体検出装置及び方法
JP7450654B2 (ja) 2022-02-10 2024-03-15 本田技研工業株式会社 移動体制御装置、移動体制御方法、学習装置、学習方法、およびプログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11543534B2 (en) * 2019-11-22 2023-01-03 Samsung Electronics Co., Ltd. System and method for three-dimensional object detection
US11361201B2 (en) 2020-10-08 2022-06-14 Argo AI, LLC Systems and methods for determining an object type and an attribute for an observation based on fused sensor data
US11731662B2 (en) * 2020-10-08 2023-08-22 Ford Global Technologies, Llc Autonomous vehicle system for detecting pedestrian presence
WO2023107599A1 (en) * 2021-12-08 2023-06-15 Carnegie Mellon University System and method for assigning complex concave polygons as bounding boxes
CN113256622A (zh) * 2021-06-28 2021-08-13 北京小白世纪网络科技有限公司 基于三维图像的目标检测方法、装置及电子设备
WO2023003354A1 (ko) * 2021-07-20 2023-01-26 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
US20230034777A1 (en) * 2021-07-28 2023-02-02 GM Global Technology Operations LLC Collaborative illumination
CN113591811A (zh) * 2021-09-28 2021-11-02 湖南大学 零售货柜商品搜索识别方法、系统及计算机可读存储介质
KR102660084B1 (ko) 2021-09-30 2024-04-22 연세대학교 산학협력단 3d 객체 탐지 장치 및 방법
KR102394024B1 (ko) * 2021-11-19 2022-05-06 서울대학교산학협력단 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법 및 이러한 방법을 수행하는 장치
KR102416691B1 (ko) * 2021-11-24 2022-07-06 주식회사 마크애니 다중 객체 인식용 기계학습을 위한 다중 데이터셋 기반 학습 장치 및 방법
US20230169780A1 (en) * 2021-12-01 2023-06-01 Motional Ad Llc Automatically detecting traffic signals using sensor data
CN113989519B (zh) * 2021-12-28 2022-03-22 中科视语(北京)科技有限公司 一种长尾目标检测方法及系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885398B2 (en) 2017-03-17 2021-01-05 Honda Motor Co., Ltd. Joint 3D object detection and orientation estimation via multimodal fusion
US10460180B2 (en) * 2017-04-20 2019-10-29 GM Global Technology Operations LLC Systems and methods for visual classification with region proposals
US10809361B2 (en) 2017-05-31 2020-10-20 Uatc, Llc Hybrid-view LIDAR-based object detection
US10595175B2 (en) * 2017-06-23 2020-03-17 Veniam, Inc. Methods and systems for detecting anomalies and forecasting optimizations to improve smart city or region infrastructure management using networks of autonomous vehicles
US11334762B1 (en) * 2017-09-07 2022-05-17 Aurora Operations, Inc. Method for image analysis
EP3477616A1 (en) * 2017-10-27 2019-05-01 Sigra Technologies GmbH Method for controlling a vehicle using a machine learning system
US10824862B2 (en) * 2017-11-14 2020-11-03 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
US10674332B2 (en) * 2017-12-01 2020-06-02 Veniam, Inc. Systems and methods for the data-driven and distributed interoperability between nodes to increase context and location awareness in a network of moving things, for example in a network of autonomous vehicles
EP3525131A1 (en) * 2018-02-09 2019-08-14 Bayerische Motoren Werke Aktiengesellschaft Methods and apparatuses for object detection in a scene represented by depth data of a range detection sensor and image data of a camera
US10999731B2 (en) * 2018-02-20 2021-05-04 Veniam, Inc. Systems and methods for real-time handling and processing of data in a network of moving things
DE112019000048T5 (de) * 2018-03-15 2020-01-16 Nvidia Corporation Bestimmung eines befahrbaren freiraums für autonome fahrzeuge
US20190310651A1 (en) * 2018-04-10 2019-10-10 Uber Technologies, Inc. Object Detection and Determination of Motion Information Using Curve-Fitting in Autonomous Vehicle Applications
US10915793B2 (en) * 2018-11-08 2021-02-09 Huawei Technologies Co., Ltd. Method and system for converting point cloud data for use with 2D convolutional neural networks
US11755018B2 (en) * 2018-11-16 2023-09-12 Uatc, Llc End-to-end interpretable motion planner for autonomous vehicles
US10891518B1 (en) * 2018-12-14 2021-01-12 Waymo Llc Auto labeler
US20210142160A1 (en) * 2019-11-08 2021-05-13 Nvidia Corporation Processor and system to identify out-of-distribution input data in neural networks
US11543534B2 (en) * 2019-11-22 2023-01-03 Samsung Electronics Co., Ltd. System and method for three-dimensional object detection
US20220032970A1 (en) * 2020-07-29 2022-02-03 Uber Technologies, Inc. Systems and Methods for Mitigating Vehicle Pose Error Across an Aggregated Feature Map
US11282291B1 (en) * 2021-02-09 2022-03-22 URC Ventures, Inc. Determining object structure using fixed-location cameras with only partial view of object

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7224682B1 (ja) 2021-08-17 2023-02-20 忠北大学校産学協力団 自律走行のための3次元多重客体検出装置及び方法
JP2023027736A (ja) * 2021-08-17 2023-03-02 忠北大学校産学協力団 自律走行のための3次元多重客体検出装置及び方法
JP7450654B2 (ja) 2022-02-10 2024-03-15 本田技研工業株式会社 移動体制御装置、移動体制御方法、学習装置、学習方法、およびプログラム

Also Published As

Publication number Publication date
US20210157006A1 (en) 2021-05-27
CN112836564A (zh) 2021-05-25
EP3825908A1 (en) 2021-05-26
KR20210064067A (ko) 2021-06-02
US11543534B2 (en) 2023-01-03

Similar Documents

Publication Publication Date Title
JP2021082296A (ja) 3次元オブジェクトを分類するための方法及びそのシステム
US11703566B2 (en) Multi-modal sensor data association architecture
Bachute et al. Autonomous driving architectures: insights of machine learning and deep learning algorithms
Philion et al. Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d
CN110782481B (zh) 无人艇智能决策方法及系统
US11670038B2 (en) Processing point clouds using dynamic voxelization
Yu et al. Vehicle detection and localization on bird's eye view elevation images using convolutional neural network
JP2022554184A (ja) オブジェクトの検出及び追跡
US11994866B2 (en) Collision avoidance perception system
WO2021067445A1 (en) Collision avoidance perception system
KR20210074193A (ko) 궤적 예측을 위한 시스템 및 방법
US20230288929A1 (en) Ranking agents near autonomous vehicles by mutual importance
Zhao et al. A path planning method based on multi-objective cauchy mutation cat swarm optimization algorithm for navigation system of intelligent patrol car
WO2022232708A1 (en) Velocity regression safety system
CN116830164A (zh) LiDAR去相关对象检测系统与方法
CN117813230A (zh) 基于对象轨迹的主动预测
CN116110025A (zh) 栅格检测跟踪框架构建环境语义占据与速度场方法及系统
CN114120270A (zh) 一种基于注意力和采样学习的点云目标检测方法
Yan et al. Mvfan: Multi-view feature assisted network for 4d radar object detection
YU et al. Vehicle Intelligent Driving Technology
US20240125919A1 (en) Scintillation-based neural network for radar target classification
EP4231044A1 (en) Object detection and state estimation from deep learned per-point radar representations
US11915436B1 (en) System for aligning sensor data with maps comprising covariances
US20240101157A1 (en) Latent variable determination by a diffusion model
WO2023231689A1 (en) Systems and methods for enhancement of 3d object detection using point cloud semantic segmentation and attentive anchor generation