JP2022142784A - 単眼物体検出を向上するための自己学習ラベル精密化のシステム及び方法 - Google Patents
単眼物体検出を向上するための自己学習ラベル精密化のシステム及び方法 Download PDFInfo
- Publication number
- JP2022142784A JP2022142784A JP2022041668A JP2022041668A JP2022142784A JP 2022142784 A JP2022142784 A JP 2022142784A JP 2022041668 A JP2022041668 A JP 2022041668A JP 2022041668 A JP2022041668 A JP 2022041668A JP 2022142784 A JP2022142784 A JP 2022142784A
- Authority
- JP
- Japan
- Prior art keywords
- bounding boxes
- predicted
- bounding
- processor
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000001514 detection method Methods 0.000 title description 75
- 238000004891 communication Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 10
- 238000001914 filtration Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000007670 refining Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/02—Systems using the reflection of electromagnetic waves other than radio waves
- G01S17/06—Systems determining position data of a target
- G01S17/42—Simultaneous measurement of distance and other co-ordinates
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/86—Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/89—Lidar systems specially adapted for specific applications for mapping or imaging
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/93—Lidar systems specially adapted for specific applications for anti-collision purposes
- G01S17/931—Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/48—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
- G01S7/4802—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Electromagnetism (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
【課題】より高品質な訓練セットを作成するための自己学習ラベル精密化のシステム及び方法を提供する。
【解決手段】訓練セットを作成する方法600は、プロセッサに、モデルへの入力としての画像及び3D境界ボックスに基づいたグラウンドトゥルースとしての2D境界を用いてモデルを訓練させ604、モデルにより前もって出力された予測2D境界ボックスから第1のサブセットを選択させ606、入力としての画像及びグラウンドトゥルースとしての第1のサブセットを用いてモデルを再訓練させ608、モデルにより前もって出力された予測2D境界ボックスの第2のセットを選択させ610、第2のサブセットを形成する対応する2D境界ボックスを有する3D境界ボックスのマスターセットから3D境界ボックスを選択することにより、訓練セットを作成させる612。
【選択図】図11
【解決手段】訓練セットを作成する方法600は、プロセッサに、モデルへの入力としての画像及び3D境界ボックスに基づいたグラウンドトゥルースとしての2D境界を用いてモデルを訓練させ604、モデルにより前もって出力された予測2D境界ボックスから第1のサブセットを選択させ606、入力としての画像及びグラウンドトゥルースとしての第1のサブセットを用いてモデルを再訓練させ608、モデルにより前もって出力された予測2D境界ボックスの第2のセットを選択させ610、第2のサブセットを形成する対応する2D境界ボックスを有する3D境界ボックスのマスターセットから3D境界ボックスを選択することにより、訓練セットを作成させる612。
【選択図】図11
Description
本明細書に記載の主題は、一般に、単眼物体検出を向上するための自己学習ラベル精密化のシステム及び方法に関する。
与えられた背景技術の説明は、開示の文脈を一般的に提示することである。この背景技術の項で説明され得る限りにおける発明者の創作、及び出願時に先行技術としての資格がないかもしれない説明の態様は、本技術に対する先行技術として明示的にも黙示的にも認められない。
いくつかのニューラルネットワークモデルは、3次元(3D)単眼物体検出を行うことができる。さらに、これらのニューラルネットワークモデルは、入力として、カメラなどの撮像装置により取り込まれた画像を受信する。画像内に位置する物体を3D空間において識別し、これらの画像のまわりに適切な3D境界ボックスを作成するため、ニューラルネットワークモデルを訓練してきた。入力画像の本質が2次元(2D)であるため、これはとりわけ困難なことである。
これらのニューラルネットワークモデルは、様々な異なる方法で訓練されてもよい。注釈付けされグラウンドトゥルース(ground truth)として機能する訓練セットを必要とする監視訓練にとって、訓練セット内の注釈の精度は、訓練、ひいてはこれらのニューラルネットワークの性能に直接影響を与える。この問題を大きくしているのは、注釈は画像である2D平面上の物体の3D位置を識別しなければならないため、単眼3D物体検出を行うモデルを訓練するための訓練セットを作成するのに非常に高くつくことである。
物体の3D位置を作成するため、いくつかの注釈は、光による検知と測距(LIDAR)センサから取り込まれた点群情報に基づいている。これらの訓練セットが注釈を作成するための有用なデータを提供し得る一方で、欠点を抱えている。例えば、点群情報を取り込むために用いるLIDARセンサ及び対応する画像を取り込むために利用するカメラが精密に配列していない結果、視差の問題をもたらす可能性がある。その上、点群がLIDARセンサにより作成された時とカメラが画像を取り込んだ時のタイミングが精密に同期していない結果、同期の問題をもたらす可能性がある。同期の問題における視差は、欠陥のある注釈の作成をもたらすかもしれない。モデルを訓練するために欠陥のある注釈を含む訓練セットを用いると、モデルの究極性能に影響を与えるかもしれない。
この項は、一般的に、開示を要約するものであり、その全範囲又はその特徴の全ての包括的な説明ではない。
一実施形態において、訓練セットのラベルをフィルタし精密化するシステムは、プロセッサと、プロセッサとつながったメモリと、を含む。メモリは訓練セット作成モジュールを含み、訓練セット作成モジュールは、マスターセットから3D境界ボックスをフィルタして除去することにより、プロセッサに、3D境界ボックスの訓練セットを作成させる命令を有する。これを達成するため、訓練セット作成モジュールは、画像内の物体の3D境界ボックスのマスターセットに基づき、プロセッサに、物体の2D境界ボックスを作成させ、プロセッサに、入力としての画像及びグラウンドトゥルースとしての2D境界ボックスを用いてモデルを訓練させる。訓練の間、モデルは予測2D境界ボックスの第1のセット及び予測2D境界ボックスの第1のセットに対する信頼スコアを出力する。
次に、訓練セット作成モジュールは、予測2D境界ボックスの第1のセットに対する信頼スコアに基づき、プロセッサに、予測2D境界ボックスの第1のセットから第1のサブセットを選択させ、プロセッサに、入力としての画像及びグラウンドトゥルースとしての第1のサブセットを用いてモデルを再訓練させる。再訓練の間、モデルは予測2D境界ボックスの第2のセット及び予測2D境界ボックスの第2のセットに対する信頼スコアを出力する。
訓練セット作成モジュールは、その後、予測2D境界ボックスの第2のセットに対する信頼スコアに基づき、プロセッサに、第2のセットから予測2D境界ボックスの第2のサブセットを選択させ、第2のサブセットを形成する対応する2D境界ボックスを有する3D境界ボックスのマスターセットから3D境界ボックスを選択することにより、プロセッサに、訓練セットを作成させる。
他の実施形態において、訓練セットのラベルをフィルタし精密化する方法は、画像内の物体の3D境界ボックスのマスターセットに基づき、物体の2D境界ボックスを作成するステップ、及び入力としての画像及びグラウンドトゥルースとしての2D境界ボックスを用いてモデルを訓練するステップ、を含む。モデルは予測2D境界ボックスの第1のセット及び予測2D境界ボックスの第1のセットに対する信頼スコアを出力する。
次に、該方法は、予測2D境界ボックスの第1のセットに対する信頼スコアに基づき、予測2D境界ボックスの第1のセットから第1のサブセットを選択するステップ、及び入力としての画像及びグラウンドトゥルースとしての第1のサブセットを用いてモデルを再訓練するステップ、を行う。再び、モデルは予測2D境界ボックスの第2のセット及び予測2D境界ボックスの第2のセットに対する信頼スコアを出力する。
該方法は、その後、予測2D境界ボックスの第2のセットに対する信頼スコアに基づき、予測2D境界ボックスの第2のセットから予測2D境界ボックスの第2のサブセットを選択するステップ、及び第2のサブセットを形成する対応する2D境界ボックスを有する3D境界ボックスのマスターセットから3D境界ボックスを選択することにより、訓練セットを作成するステップ、を行う。
さらに他の実施形態において、訓練セットのラベルをフィルタし精密化する方法は、入力としての画像及び3D境界ボックスのマスターセットに基づいたグラウンドトゥルースとしての2D境界ボックスを用いてモデルを訓練し、モデルは予測2D境界ボックスのセット及び予測2D境界ボックスのセットに対する信頼スコアを出力するステップを含んでもよい。次に、該方法は、その後、予測2D境界ボックスの第1のセットに対する信頼スコアに基づき、予測2D境界ボックスのセットからサブセットを選択するステップを行ってもよい。それから、該方法は、その後、サブセットを形成する対応する2D境界ボックスを有する3D境界ボックスのマスターセットから3D境界ボックスを選択することにより、訓練セットを作成するステップを行ってもよい。
適用可能なさらなる分野と開示された技術を高める様々な方法が、与えられた説明から明らかになるであろう。この発明の概要内の説明と具体的な例は説明のためのみを意図しており、本開示の範囲を限定することを意図していない。
明細書に組み込まれ、明細書の一部を構成する添付図面は、開示の様々なシステム、方法、及び他の実施形態を示す。図に示された要素境界(例えば、ボックス、ボックスのグループ、又は他の形状)は、境界の一実施形態を表していることを理解されたい。いくつかの実施形態において、1つの要素が複数の要素として設計されてもよく、あるいは、複数の要素が1つの要素として設計されてもよい。いくつかの実施形態において、他の要素の内部構成要素として示された要素が外部構成要素として実装されてもよく、逆もまた同様である。さらに、要素は、一定の縮尺で描かれていなくてもよい。
訓練セットのラベルをフィルタし、及び/又は精密化することにより訓練セットを作成するシステム及び方法を説明する。次に、単眼3D物体検出モデルを訓練するため訓練セットを用いてもよい。さらに、一例において、単眼3D物体検出モデルは、画像センサにより取り込まれた画像内で、1又は複数の物体を3D空間において識別してもよい。これを達成するため、単眼3D物体検出モデルは、最初にグラウンドトゥルース3D境界ボックスを用いて訓練される必要があるかもしれない。しかしながら、背景技術の項で説明したように、グラウンドトゥルース3D境界ボックスは、LIDARセンサから取り込まれた点群データに基づいている可能性があり、視差及び/又は同期の問題を抱えているかもしれない。
本明細書に記載のシステム及び方法は、2D物体検出モデルを利用し、視差及び/又は同期の問題によるエラーを有し得るマスターセットから3D境界ボックスをフィルタして除去する。システム及び方法は、まず、マスターセットからの3D境界ボックスを画像内の物体を識別する2D境界ボックスに変換する。2D境界ボックスを作成する際、単眼3D物体検出モデルを訓練するための適切な3D境界ボックスを選択するため、特定の2D境界ボックスとそれが基づいた3D境界ボックスとの間の関係に関する情報を取り込み、後で用いてもよい。
グラウンドトゥルースとしての2D境界ボックス及び入力としての関連した画像を用いて2D物体検出モデルを訓練した結果、2D物体検出モデルは、予測2D境界ボックスの第1のセット及び関連した信頼スコアを出力することになる。信頼スコアを用いてこの予測2D境界ボックスの第1のセットをフィルタし、サブセットを作る。その後、このサブセットを利用し、2D物体検出モデルを再訓練する。同様に、再訓練後、2D物体検出モデルは、予測2D境界ボックスの第2のセット及び関連した信頼スコアを出力する。第2のサブセットは、信頼スコアに基づき、予測2D境界ボックスの第2のセットから選択される。
そのため、第2のサブセットを形成する2D境界ボックスは、画像内の物体を2D空間において正しく識別する可能性がある。第2のサブセットからの2D境界ボックスを用いて、マスターセットからの対応する3D境界ボックスが識別及び選択され、訓練セットを形成する。そうすることによって、第2のサブセットからの対応する2D境界ボックスを有する3D境界ボックスは高品質であり、視差及び/又は同期の問題をそれほど抱えていないはずである。その後、単眼3D物体検出モデルを訓練するために、訓練セットを形成する3D境界ボックスを用いることができる。
どのようにシステム及び方法が作動するのかをよりよく理解するため、どのようにグラウンドトゥルース3D境界ボックスがまず作成されるのかを説明する。図1を参照すると、道路11を含む情景10が示される。LIDARセンサ14及びカメラセンサ16を含む車両12が道路11上に位置する。物体をレーザで標的にし、反射光がLIDARセンサ14の受信機に戻ってくる時間を測定することにより、LIDARセンサ14は距離を判定することができる。一例において、LIDARセンサ14は、物体までの距離を点群の形で出力してもよい。カメラセンサ16は、任意の種類の画像センサであってもよく、情景10の画像を取り込むことができる。
この例において、情景10は、道路11上に位置する車両20及び22を含む。ここで、LIDARセンサ14は、車両20及び22を表す点を含む点群を作成するのに用いられ得る情報を出力してもよい。同様に、カメラセンサ16は、車両20及び22を含む画像を出力してもよい。この例において、LIDARセンサ14及びカメラセンサ16に関する配列の問題があることに注意すべきである。さらに、LIDARセンサ14及びカメラセンサ16は、わずかに異なる位置で車両12に取り付けられている。そのため、この配列の違いにより視差の問題が生じ得る。視差の問題に加え、カメラセンサ16及びLIDARセンサ14はそれぞれ、わずかに異なる時間の瞬間で画像及び点群を取り込むため、同期の問題が生じ得ることに注意すべきである。
前述したように、単眼3D物体検出モデルは、カメラセンサなどの画像センサからの入力画像を受信し、画像内の物体を3D空間において識別する3D境界ボックスを出力することができる。3D物体検出モデルは、訓練を受ける必要があるかもしれない1又は複数のニューラルネットワークであってもよい。一例において、3D物体検出モデルは監視方式で訓練されてもよく、画像内の物体の予測3D境界ボックスを出力する3D物体検出モデルに画像が提供される。その後、予測3D境界ボックスをグラウンドトゥルース3D境界ボックスと比較し、損失を生じさせる。この損失に基づいて、3D物体検出モデルの1又は複数のモデル重量が調節される。訓練の過程で、3D物体検出モデルの性能は時間と共に向上するはずである。
3D物体検出モデルを訓練するためにグラウンドトゥルースとして用いられた3D境界ボックスは、一般的に、LIDARセンサ14などのLIDARセンサにより作成された点群情報に基づいている。さらに、図2A及び図2Bを参照すると、訓練目的の、グラウンドトゥルース3D境界ボックスを作成するのに用いられる点群30及び画像40の一例が示される。ここで、点群30の点は、点群30内で物体を識別するために利用された。この例において、点群30内の物体は、3D境界ボックス32A~32E及び34A~34Bにより識別された。3D境界ボックス32A~32Eは車両として識別された一方で、3D境界ボックス34A~34Bは歩行者として識別された。図2Bに最もよく示すように、点群30の点から作成された3D境界ボックス32A~32E及び34A~34Bを画像40に重ね合わせた。この例において、単眼3D物体検出器モデルをモデルへの入力としての画像40を用いて訓練し、3D境界ボックス32A~32E及び34A~34Bはモデルを教師有り方式(supervised fashion)で訓練するためのグラウンドトゥルースとして機能するであろう。
しかしながら、前述したように、グラウンドトゥルースとして機能する3D境界ボックスはLIDARセンサにより作成された点群に基づいているため、視差及び/又は同期の問題が存在するかもしれない。例えば、図3は、車両54を含む画像50を示す。3D境界ボックス52は、車両54とずれた配列で示される。3D境界ボックス52が車両54と正しく配列していないため、モデルを訓練するための3D境界ボックス52の使用は逆効果であるかもしれない。
図4は他の共通の問題を示す。ここで、画像60は、それぞれ境界ボックス66及び72により識別された車両64及び車両70を含む。一般的に、車両64は境界ボックス66により正しく識別される。しかしながら、車両70は群葉68によってはっきり見えない。そのため、車両70は画像60内で容易に目に入らず、訓練の量にかかわらず単眼3D物体検出モデルにより識別できないであろう。そのため、モデルを訓練するための境界ボックス72の使用は逆効果であるかもしれない。
図5は、図3及び図4に示されたような、3D境界ボックスをフィルタして除去し、より良い訓練セットを作ることができる訓練セット作成システム100を示す。図のように、訓練セット作成システム100は1又は複数のプロセッサ110を含む。よって、プロセッサ110は訓練セット作成システム100の一部であってもよく、あるいは、訓練セット作成システム100はデータバス又は他の通信路を通ってプロセッサ110にアクセスしてもよい。1又は複数の実施形態において、プロセッサ110は、訓練セット作成モジュール122と関連付けられた機能を実装するように構成された特定用途向け集積回路である。一般に、プロセッサ110は、本明細書に記載の様々な機能を行うことができるマイクロプロセッサなどの電子プロセッサである。一実施形態において、訓練セット作成システム100は、訓練セット作成モジュール122を保存するメモリ120を含む。メモリ120は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードディスクドライブ、フラッシュメモリ、又は訓練セット作成モジュール122を保存するための他の適切なメモリである。訓練セット作成モジュール122は、例えば、プロセッサ110により実行されると、プロセッサ110に、本明細書に開示された様々な機能を行わせるコンピュータ可読の命令である。
さらに、一実施形態において、訓練セット作成システム100は1又は複数のデータストア130を含む。一実施形態において、データストア130は、メモリ120又は他のメモリに保存され、保存データを分析する、保存データを提供する、保存データを整理する、保存データを作成する、などのためにプロセッサ110により実行され得るルーティンを持って構成された、データベースなどの電子データ構造である。よって、一実施形態において、データストア130は、様々な機能を実行する際に訓練セット作成モジュール122により用いられるデータを保存する。一実施形態において、データストア130は、単眼3D物体検出モデル170を訓練するための情報を含み得るマスター訓練データ140を保存する。さらに、マスター訓練データ140は画像142を含んでもよく、画像142は、画像142内の物体を識別するために注釈付けされたグラウンドトゥルース3D境界ボックス144A~144Hのマスターセット144を有する。
単眼3D物体検出モデル170は、多数の異なる形態のいずれを取ってもよい。一例において、単眼3D物体検出モデル170は、画像を受信し、受信画像内の物体を3D空間において識別する3D境界ボックスを出力することができる1又は複数のニューラルネットワークであってもよい。単眼3D物体検出モデル170は、多数の異なる用途に利用してもよい。そのような用途の1つにおいて、単眼3D物体検出モデル170は、自律走行車用途に利用してもよい。
前述したように、マスターセット144の3D境界ボックス144A~144Hのいくつかなどのグラウンドトゥルースとして機能するいくつかの3D境界ボックスは、視差、同期、及び他の問題などの問題を抱えている。本明細書で説明するように、訓練セット作成モジュール122は、プロセッサ110に、単眼2D物体検出モデル160を利用させ、マスターセット144の3D境界ボックス144A~144Hをフィルタして除去し、訓練セット145を作成する。この例において、訓練セット作成システム100はマスターセット144から3D境界ボックスのいくつかをフィルタして除去し、3D境界ボックス144A、144D、144F、及び144Hを有する訓練セット145を残している。3D境界ボックス144A、144D、144F、及び144Hは、訓練セット作成システム100により、視差及び/又は同期の問題、及び/又は他の問題をそれほど抱えていない点でより高品質であると見なされるであろう。そのため、訓練のためフィルタされた訓練データ150は、訓練セット145及び画像142を含むであろう。
マスター訓練データ140及びフィルタされた訓練データ150は単一画像を含み、単一画像は単一画像内の物体を識別する複数の3D境界ボックスを有するように示されることに注意すべきである。しかしながら、マスター訓練データ140及び/又はフィルタされた訓練データ150は複数の画像を含んでもよく、複数の画像のそれぞれが画像内の物体を識別するグラウンドトゥルースとして機能する境界ボックスをいくつ含んでもよいことを理解すべきである。
そのため、訓練セット145を形成する3D境界ボックス144A、144D、144F、及び144Hは、単眼3D物体検出モデル170を訓練するために利用されるであろう。この例において、単眼3D物体検出モデル170の訓練を監視方式で行ってもよく、損失関数からの損失が計算され、その損失に基づいて、単眼3D物体検出モデル170の1又は複数のモデル重量172が調節されるであろう。マスターセット144をフィルタし訓練セット145を作成することにより、単眼3D物体検出モデル170は、単眼3D物体検出モデル170の性能に良い影響を及ぼし得る、より高品質な訓練セットを受信するであろう。
このプロセスをよりよく理解するため、プロセスフローを示す図6を参照する。ここで、訓練セット作成モジュール122は、マスターセット144の3D境界ボックス144A~144Hに基づき、プロセッサ110に、画像142内の物体の2D境界ボックス244A~244Hのセット244を作成させる。さらに、訓練セット作成モジュール122は、プロセッサ110に、2D境界ボックス244A~244Hを対応する3D境界ボックス144A~144Hと関連付けさせてもよい。この例において、2D境界ボックス244Aは3D境界ボックス144Aに関連し、2D境界ボックス244Bは3D境界ボックス144Bに関連している、などである。
2D境界ボックス244A~244Hは、物体の3D境界ボックス144A~144Hを画像142の画像平面に投影することにより作成され得る。この投影を用いて、訓練セット作成モジュール122は、プロセッサ110に、3D境界ボックス144A~144Hの角を覆う軸整列境界ボックス(axis-aligned bounding boxes)を描かせ、2D境界ボックス244A~244Hを作成する。例えば、図7を参照すると、3D空間において、8つの角180A~180Hを用いて物体80の輪郭を描く3D境界ボックス144Aが示される。この例において、訓練セット作成モジュール122は、プロセッサ110に、3D境界ボックス144Aの8つの角180A~180Hを覆う4つの角190A~190Dにより定義される2D境界ボックス244Aを描かせる。
2D境界ボックス244A~244Hが一旦作成されると、単眼2D物体検出モデル160は、入力としての画像142及びグラウンドトゥルースとしての2D境界ボックス244A~244Hを用いて訓練する。さらに、単眼2D物体検出モデル160は、入力としての画像142を用いて予測2D境界ボックスのセット344及び予測2D境界ボックスのそれぞれに関連した信頼スコアを出力するであろう。この例において、単眼2D物体検出モデル160は、それぞれが信頼スコアを有する予測2D境界ボックス344A~344D及び344F~344Hを出力した。その上、訓練セット作成モジュール122は、プロセッサ110に、予測2D境界ボックス344A~344D及び344F~344Hをマスターセット144からの対応する3D境界ボックス144A~144Hと関連付けさせる。これは、2D境界ボックス244A~244Hと対応する3D境界ボックス144A~144Hとの間の関連に関して前もって判定された関連情報を利用することにより成し遂げられ得る。
特に、単眼2D物体検出モデル160は、画像142内の少なくとも1つの物体に対する境界ボックスを出力しなかった。場合によっては、これは、図4で記載されたものと同様に検出されなかった物体がはっきり見えないため、又は単眼2D物体検出モデル160によりその物体が検出されるのを妨げる他の問題を有するためであるかもしれない。
その上、単眼2D物体検出モデル160はまた、閾値202を受信してもよい。閾値202は、単眼2D物体検出モデル160が作り出すであろう2D境界ボックスの最小信頼スコアを示すパラメータ値を提供してもよい。閾値202が低いほど、単眼2D物体検出モデル160によってより多くの境界ボックスが戻るであろう。そのため、8つではなく7つの予測2D境界ボックス344A~344D及び344F~344Hのみが戻るように閾値202を設定してもよい。
セット344の予測2D境界ボックス344A~344D及び344F~344H及びグラウンドトゥルースとしての2D境界ボックス244A~244Hを用いて、訓練セット作成モジュール122は、プロセッサに、損失を判定するための損失関数206を利用させてもよい。損失は、単眼2D物体検出モデル160の1又は複数のモデル重量162を調節するために利用され、単眼2D物体検出モデル160の性能を向上させるであろう。
単眼2D物体検出モデル160に関して手短に述べる。単眼2D物体検出モデル160は、入力として画像を受信し、画像内で物体を識別する1又は複数の2D境界ボックスを出力する、任意の種類の単眼2D物体検出モデルであってもよい。一例において、単眼2D物体検出モデル160は、完全畳み込み一段階物体検出器であってもよい。しかしながら、任意の種類の単眼2D物体検出モデルを利用してもよい。
予測2D境界ボックス344A~344D及び344F~344Hが一旦作成されたら、訓練セット作成モジュール122は、信頼スコアに基づき、プロセッサ110に、予測2D境界ボックス344A~344D及び344F~344Hからサブセットを選択させてもよい。さらに、図8を参照すると、プロセッサ110は、予測2D境界ボックス344A~344D、344F、及び344Hを選択し、サブセット345を形成している。この例において、予測2D境界ボックス344A~344D、344F、及び344Hのそれぞれと関連付けられた信頼スコアは、物体が予測2D境界ボックス344A~344D、344F、及び344H内に位置する高い可能性を示すものであってもよい。
サブセット345の選択は、信頼スコアに基づき、プロセッサ110に、予測2D境界ボックス344A~344D及び344F~344Hのセット344を順位付けさせ、セット344からサブセット345を選択することにより起こり得る。サブセット345は、所定の閾値を満たす信頼スコアを有するセット344の予測2D境界ボックス344A~344D及び344F~344Hを含んでもよい。
サブセット345を用いて、訓練セット作成モジュール122は、プロセッサ110に、入力としての画像142及びグラウンドトゥルースとしての予測2D境界ボックス344A~344D、344F、及び344Hを含むサブセット345を用いて単眼2D物体検出モデル160を再訓練させてもよい。「再訓練する」又は「再訓練」という用語はそれぞれ、「訓練する」又は「訓練」と同じように解釈することができることを理解すべきである。ここで、2D単眼2D物体検出モデル160は、予測2D境界ボックス444A、444B、444D、444F、及び444Hのセット444及び関連した信頼スコアを出力する。訓練セット作成モジュール122は、プロセッサ110に、損失関数206を用いて損失を計算させてもよい。この損失に基づいて、プロセッサ110は、2D単眼2D物体検出モデル160の1又は複数のモデル重量162を調節してもよい。任意に、単眼2D物体検出モデル160は、前述した閾値202を受信してもよい。
再び、訓練セット作成モジュール122は、プロセッサ110に、予測2D境界ボックス444A、444B、444D、444F、及び444Hをマスターセット144からの対応する3D境界ボックス144A~144Hと関連付けさせる。そのため、予測2D境界ボックス444A、444B、444D、444F、及び444Hが3D境界ボックス144A、144B、144D、144F、及び144Hに対応するという情報がセーブされる。前と同様に、これは、前もって判定された関連情報を利用することにより成し遂げられ得る。
訓練セット作成モジュール122は、プロセッサ110に、図8に示す再訓練を何度でも好きなだけ行わせることができる。例えば、訓練セット作成モジュール122は、プロセッサ110に、セット444から他のサブセットを選択させ、単眼2D物体検出モデル160の追加の再訓練を反復方式で行わせることができる。この例において、一度の再訓練のみを示したが、図8に示す再訓練は何度でも起こってもよいことを理解すべきである。
図9を参照すると、訓練セット作成モジュール122は、予測2D境界ボックス444A、444B、444D、444F、及び444Hに対する信頼スコアに基づき、プロセッサ110に、予測2D境界ボックス444A、444D、444F、及び444Hの他のサブセット445を選択させてもよい。この例において、予測2D境界ボックス444A、444D、444F、及び444Hのそれぞれと関連付けられた信頼スコアは、物体が予測2D境界ボックス444A、444D、444F、及び444H内に位置するさらに高い可能性を示すものであってもよい。サブセット345の選択と同様に、サブセット445の選択は、信頼スコアに基づき、プロセッサ110に、予測2D境界ボックス444A、444B、444D、444F、及び444Hのセット444を順位付けさせ、セット444からサブセット445を選択することにより起こり得る。
そのため、訓練セット作成モジュール122は、プロセッサ110に、画像142内の物体が2D境界ボックスのこのサブセット445内に位置する高い可能性を有するとして、予測2D境界ボックス444A、444D、444F、及び444Hを識別させた。その後、3D境界ボックス144A~144Hのどれが予測2D境界ボックス444A、444D、444F、及び444Hと関連するかを探すことにより訓練セット145が作成される。ここで、3D境界ボックス144A、144D、144F、及び144Hが予測2D境界ボックス444A、444D、444F、及び444Hに関連するため、訓練セット作成モジュール122は、プロセッサ110に、3D境界ボックス144A、144D、144F、及び144Hを選択させ、訓練セット145を形成してもよい。対応する3D境界ボックスのこの識別は、前述した関連情報を利用することにより起こってもよい。
その後、3D境界ボックス144A、144D、144F、及び144Hは、フィルタされた訓練データ150内に保存され、単眼3D物体検出モデル170を訓練するために利用されてもよい。3D境界ボックス144A~144Hに基づいたグラウンドトゥルースを用いて画像142内の実際の物体の位置を正しく判定するため、単眼2D物体検出モデル160を利用し訓練することにより、訓練セット作成システム100は、画像142内の物体と正しく配列していない、及び/又は図3及び図4に示され説明されたような同期エラーが生じやすい3D境界ボックスをフィルタして除去することができる。
図10は、訓練セット145を用いた単眼3D物体検出モデル170の訓練を示す。単眼3D物体検出モデル170の訓練は訓練セット作成システム100により行ってもよく、あるいは、単眼3D物体検出モデル170を訓練するためにフィルタされた訓練セット145を単純に利用する他のシステムにより行ってもよいことを理解すべきである。
ここで、単眼3D物体検出モデル170は、画像142を受信し、セット544を形成する予測3D境界ボックス544A、544F、及び544Hを出力する。プロセッサ110は、損失関数212を用い、予測3D境界ボックス544A、544F、及び544Hとグラウンドトゥルースとして機能する3D境界ボックス144A、144D、144F、及び144Hとの間の損失を判定する。その後、プロセッサ110は、損失を用いて単眼3D物体検出モデルのモデル重量172を調節し、単眼3D物体検出モデル170の性能を向上してもよい。
そのため、訓練セット作成システム100を用いてマスター訓練データ140からフィルタされた訓練データ150を用いて単眼3D物体検出モデル170を訓練することにより、訓練データ150には、我々の同期エラーにおける視差に関連した問題を軽減した、より高品質なグラウンドトゥルース3D境界ボックスが投入されるであろう。最終的に、単眼3D物体検出モデル170はより良い訓練データを用いて訓練されるであろうことから、単眼3D物体検出モデルは向上した性能を得るであろう。
図11を参照すると、訓練セットを作成する方法600が示される。図6、図8、及び図9に示されたプロセスフローを参照し、図5の訓練セット作成システム100の観点から方法600を説明する。しかしながら、これは、方法600を実行するほんの一例であることを理解すべきである。方法600を訓練セット作成システム100と組み合わせて述べているが、方法600は、訓練セット作成システム100内で実行されることに限られず、代わりに、方法600を実行できるシステムの一例であることを理解されたい。
ステップ602において、訓練セット作成モジュール122は、マスターセット144の3D境界ボックス144A~144Hに基づき、プロセッサ110に、画像142内の物体の2D境界ボックス244A~244Hのセット244を作成させる。前述したように、2D境界ボックス244A~244Hは、物体の3D境界ボックス144A~144Hを画像142の画像平面に投影することにより作成され得る。この投影を用いて、訓練セット作成モジュール122は、プロセッサ110に、3D境界ボックス144A~144Hの角を覆う軸整列境界ボックスを描かせ、2D境界ボックス244A~244Hを作成する。
ステップ604において、訓練セット作成モジュール122は、プロセッサ110に、入力としての画像142及びグラウンドトゥルースとしての2D境界ボックス244A~244Hを用いて単眼2D物体検出モデル160を訓練させる。さらに、単眼2D物体検出モデル160は、入力としての画像142を用いて予測2D境界ボックスのセット344及び予測2D境界ボックスのそれぞれに関連した信頼スコアを出力するであろう。この例において、単眼2D物体検出モデル160は、それぞれが信頼スコアを有する予測2D境界ボックス344A~344D及び344F~344Hを出力した。
ステップ606において、訓練セット作成モジュール122は、信頼スコアに基づき、プロセッサ110に、予測2D境界ボックス344A~344D及び344F~344Hからサブセットを選択させてもよい。さらに、図8を参照すると、プロセッサ110は、予測2D境界ボックス344A~344D、344F、及び344Hを選択し、サブセット345を形成している。この例において、予測2D境界ボックス344A~344D、344F、及び344Hのそれぞれと関連付けられた信頼スコアは、物体が予測2D境界ボックス344A~344D、344F、及び344H内に位置する高い可能性を示すものであってもよい。
ステップ608において、訓練セット作成モジュール122は、プロセッサ110に、入力としての画像142及びグラウンドトゥルースとしての予測2D境界ボックス344A~344D、344F、及び344Hを含むサブセット345を用いて単眼2D物体検出モデル160を再訓練させてもよい。ここで、2D単眼2D物体検出モデル160は、予測2D境界ボックス444A、444B、444D、444F、及び444Hのセット444及び関連した信頼スコアを出力する。訓練セット作成モジュール122は、プロセッサ110に、図8に示す再訓練を何度でも好きなだけ行わせることができる。
ステップ610において、訓練セット作成モジュール122は、予測2D境界ボックス444A、444B、444D、444F、及び444Hに対する信頼スコアに基づき、プロセッサ110に、予測2D境界ボックス444A、444D、444F、及び444Hの他のサブセット445を選択させてもよい。
ステップ612において、3D境界ボックス144A、144D、144F、及び144Hが予測2D境界ボックス444A、444D、444F、及び444Hに関連するため、訓練セット作成モジュール122は、プロセッサ110に、3D境界ボックス144A、144D、144F、及び144Hを選択させ、訓練セット145を形成してもよい。対応する3D境界ボックスのこの識別は、前述した関連情報を利用することにより起こってもよい。その後、3D境界ボックス144A、144D、144F、及び144Hは、フィルタされた訓練データ150内に保存され、単眼3D物体検出モデル170を訓練するために利用されてもよい。
そのため、方法600を用いて、訓練データ150には、我々の同期エラーにおける視差に関連した問題を軽減した、より高品質なグラウンドトゥルース3D境界ボックスが投入され、単眼3D物体検出モデルの向上した訓練につながるであろう。
詳細な実施形態が本明細書に開示されている。しかしながら、開示された実施形態は、例としてのみ意図されたものであることを理解すべきである。したがって、本明細書に開示された特定の構造的及び機能的詳細は、限定的なものとして解釈されるべきではなく、特許請求の範囲のための基礎として、及び事実上あらゆる適切で詳細な構造において本明細書の態様を様々に採用するために当業者へ教示するための代表的な基礎としてのみ解釈されるべきである。さらに、本明細書で使用される用語及びフレーズは、限定を意図したものではなく、むしろ、可能な実装形態の理解可能な説明を提供することを意図したものである。様々な実施形態が図1~図11に示されるが、実施形態は、示された構造又は用途に限定されるものではない。
様々な実施形態によると、図中のフローチャート及びブロック図は、システム、方法、及びコンピュータプログラムプロダクトの可能な実装形態のアーキテクチャ、機能、及び動作を示す。この点に関して、フローチャート又はブロック図内のそれぞれのブロックは、コードのモジュール、セグメント、又は部分を表していてもよく、これらは、特定の論理的機能を実装するための1又は複数の実行可能命令を含む。また、いくつかの代替の実装形態において、ブロック内に記された機能は、図に記されたものとは異なる順序で起こってもよいことにも注意すべきである。例えば、関与する機能に応じて、連続的に示された2つのブロックは、実質的に同時に実行されてもよく、あるいは、しばしば、逆の順序で実行されてもよい。
上述のシステム、コンポーネント、及び/又はプロセスは、ハードウェアにおいて、又はハードウェアとソフトウェアとの組み合わせにおいて実現可能であり、1つの処理システム内で中央集中化された方式、又は異なる要素がいくつかの相互接続した処理システムにまたがって分散された分散型の方式において実現可能である。本明細書に記載の方法を実行するために適合されたあらゆる種類の処理システム又は他の機器が適している。ハードウェアとソフトウェアとの典型的な組み合わせは、読み込まれ、実行された際に、本明細書に記載の方法を実行するように処理システムを制御するコンピュータ使用可能プログラムコードを有する処理システムであり得る。システム、コンポーネント、及び/又はプロセスはまた、本明細書に記載の方法及びプロセスを行うため、機械によって実行可能な命令のプログラムを有体に実施する、機械により可読なコンピュータプログラムプロダクト又は他のデータプログラム記憶装置などのコンピュータ可読ストレージに埋め込むことができる。これらの要素はまた、本明細書に記載の方法の実行を可能にする全ての特徴を含み、処理システムに読み込まれた際にこれらの方法を実行し得るアプリケーションプロダクトに埋め込むことができる。
さらに、本明細書に記載の構成は、その中で実施された、例えば、保存されたコンピュータ可読プログラムコードを有する1又は複数のコンピュータ可読媒体において実施されたコンピュータプログラムプロダクトの形態を有してもよい。1又は複数のコンピュータ可読媒体の任意の組み合わせを利用してもよい。コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体であってもよい。「コンピュータ可読記憶媒体」というフレーズは、非一時的な記録媒体を意味する。コンピュータ可読記憶媒体は、例えば、これらに限定されないが、電子、磁気、光学、電磁気、赤外線、若しくは半導体システム、機器、若しくは装置、又は上記の任意の適切な組み合わせであってもよい。コンピュータ可読記憶媒体のさらに具体的な例(完全に網羅されていないリスト)は、以下:携帯型コンピュータディスケット、ハードディスクドライブ(HDD)、半導体ドライブ(SSD)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、携帯型コンパクトディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、光学記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせ、を含むことになろう。本明細書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、機器、又は装置によって、あるいは、これと関連して使用されるプログラムを含み得る、又は保存し得る、任意の有体の媒体であってもよい。
一般的に、本明細書で使用されるモジュールは、特定のタスクを行う、あるいは、特定のデータタイプを実行するルーティン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。さらなる態様において、メモリは、一般的に、言及されたモジュールを保存する。モジュールと関連付けられたメモリは、プロセッサに埋め込まれたバッファ又はキャッシュ、RAM、ROM、フラッシュメモリ、又は他の適切な電子記憶媒体であってもよい。よりさらなる態様において、本開示により想定されるモジュールは、特定用途向け集積回路(ASIC)、システムオンチップ(SoC)のハードウェアコンポーネント、プログラマブルロジックアレイ(PLA)、又は開示された機能を行うための定義された設定セット(例えば、命令)が埋め込まれた他の適切なハードウェアコンポーネントとして実行される。
コンピュータ可読媒体で実施されたプログラムコードは、限定されるわけではないが、無線、有線、光ファイバー、ケーブル、RFなど、又は上記の任意の適切な組み合わせを含む、任意の適切な媒体を用いて送信されてもよい。本構成の態様に対し動作を実行するためのコンピュータプログラムコードは、Java(登録商標)、Smalltalk、C++、又は同種のものなどのオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで記述されてもよい。プログラムコードは、スタンドアロンソフトウェアパッケージとして、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、又は、部分的にユーザのコンピュータ上で、及び部分的に遠隔コンピュータ上で、又は、完全に遠隔コンピュータ上で、若しくは、サーバ上で実行されてもよい。後者のシナリオでは、遠隔コンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、あるいは、その接続は、外部コンピュータになされてもよい(例えば、インターネットサービスプロバイダを用いたインターネットを経由して)。
本明細書で使用される「1つの」という用語は、1つではなく、1つ以上として定義される。本明細書で使用される「複数の」という用語は、2つではなく、2つ以上として定義される。本明細書で使用される「他の」という用語は、少なくとも2番目又はそれ以上として定義される。本明細書で使用される「含む」及び/又は「有する」という用語は、包含する(すなわち、オープン言語)として定義される。本明細書で使用される「~及び~の少なくとも1つ」というフレーズは、関連する列挙されたアイテムの1又は複数の任意の及び全ての可能な組み合わせを意味し、包含する。例として、「A、B、及びCの少なくとも1つ」というフレーズは、Aのみ、Bのみ、Cのみ、又はこれらの任意の組み合わせ(例えば、AB、AC、BC、又はABC)を含む。
本明細書における態様は、その精神又は本質的な特質から逸脱することなく、他の形態で実施することができる。よって、本明細書の範囲を示すものとして、上記の明細書ではなく、以下の特許請求の範囲を参照すべきである。
Claims (20)
- プロセッサと、
前記プロセッサとつながったメモリと、を備えるシステムであって、
前記メモリは訓練セット作成モジュールを有し、前記訓練セット作成モジュールは、前記プロセッサにより実行されると、
画像内の物体の3D境界ボックスのマスターセットに基づき、前記プロセッサに、前記物体の2D境界ボックスを作成させ、
前記プロセッサに、入力としての前記画像及びグラウンドトゥルースとしての前記2D境界ボックスを用いてモデルを訓練させ、前記モデルは予測2D境界ボックスの第1のセット及び前記予測2D境界ボックスの第1のセットに対する信頼スコアを出力し、
前記予測2D境界ボックスの第1のセットに対する前記信頼スコアに基づき、前記プロセッサに、前記予測2D境界ボックスの第1のセットから第1のサブセットを選択させ、
前記プロセッサに、前記入力としての前記画像及びグラウンドトゥルースとしての前記第1のサブセットを用いて前記モデルを再訓練させ、前記モデルは予測2D境界ボックスの第2のセット及び前記予測2D境界ボックスの第2のセットに対する信頼スコアを出力し、
前記予測2D境界ボックスの第2のセットに対する前記信頼スコアに基づき、前記プロセッサに、前記第2のセットから予測2D境界ボックスの第2のサブセットを選択させ、
前記第2のサブセットを形成する対応する2D境界ボックスを有する前記3D境界ボックスのマスターセットから前記3D境界ボックスを選択することにより、前記プロセッサに、訓練セットを作成させる命令を有する、
システム。 - 前記訓練セット作成モジュールは、前記プロセッサにより実行されると、前記プロセッサに、前記物体の前記3D境界ボックスを前記画像の画像平面に投影させ、前記物体の前記2D境界ボックスを作成する命令をさらに含む、請求項1に記載のシステム。
- 前記訓練セット作成モジュールは、前記プロセッサにより実行されると、前記信頼スコアに基づき、前記プロセッサに、前記予測2D境界ボックスの第1のセットを順位付けさせ、前記プロセッサに、前記予測2D境界ボックスの第1のセットから前記第1のサブセットを選択させる命令をさらに含み、前記第1のサブセットが、所定の閾値を満たす信頼スコアを有する前記第1のセットの前記予測2D境界ボックスを含む、請求項1に記載のシステム。
- 前記訓練セット作成モジュールは、前記プロセッサにより実行されると、前記信頼スコアに基づき、前記プロセッサに、前記予測2D境界ボックスの第2のセットを順位付けさせ、前記プロセッサに、前記予測2D境界ボックスの第2のセットから前記第2のサブセットを選択させる命令をさらに含み、前記第2のサブセットが、所定の閾値を満たす信頼スコアを有する前記第2のセットの前記予測2D境界ボックスを含む、請求項1に記載のシステム。
- 前記訓練セット作成モジュールは、前記プロセッサにより実行されると、前記プロセッサに、前記モデルに閾値を提供させる命令をさらに含み、前記モデルが前記閾値を満たす予測2D境界ボックスを出力する、請求項1に記載のシステム。
- 前記物体を有する情景のLIDARセンサから取り込まれた情報に基づき、前記3D境界ボックスが作成された、請求項1に記載のシステム。
- 前記信頼スコアは、物体が前記予測2D境界ボックスにより定義される可能性を示す、請求項1に記載のシステム。
- 前記訓練セット作成モジュールは、前記プロセッサにより実行されると、前記プロセッサに、前記3D境界ボックスの角を覆う軸整列境界ボックスを描かせ、前記2D境界ボックスを作成する命令をさらに含む、請求項1に記載のシステム。
- 画像内の物体の3D境界ボックスのマスターセットに基づき、前記物体の2D境界ボックスを作成するステップ、
入力としての前記画像及びグラウンドトゥルースとしての前記2D境界ボックスを用いてモデルを訓練し、前記モデルは予測2D境界ボックスの第1のセット及び前記予測2D境界ボックスの第1のセットに対する信頼スコアを出力するステップ、
前記予測2D境界ボックスの第1のセットに対する前記信頼スコアに基づき、前記予測2D境界ボックスの第1のセットから第1のサブセットを選択するステップ、
前記入力としての前記画像及びグラウンドトゥルースとしての前記第1のサブセットを用いて前記モデルを再訓練し、前記モデルは予測2D境界ボックスの第2のセット及び前記予測2D境界ボックスの第2のセットに対する信頼スコアを出力するステップ、
前記予測2D境界ボックスの第2のセットに対する前記信頼スコアに基づき、前記予測2D境界ボックスの第2のセットから予測2D境界ボックスの第2のサブセットを選択するステップ、及び
前記第2のサブセットを形成する対応する2D境界ボックスを有する前記3D境界ボックスのマスターセットから前記3D境界ボックスを選択することにより、訓練セットを作成するステップ、
を含む、方法。 - 前記物体の前記3D境界ボックスを前記画像の画像平面に投影し、前記物体の前記2D境界ボックスを作成するステップをさらに含む、請求項9に記載の方法。
- 前記信頼スコアに基づき、前記予測2D境界ボックスの第1のセットを順位付けするステップ、及び前記予測2D境界ボックスの第1のセットから前記第1のサブセットを選択するステップをさらに含み、前記第1のサブセットが、所定の閾値を満たす信頼スコアを有する前記第1のセットの前記予測2D境界ボックスを含む、請求項9に記載の方法。
- 前記信頼スコアに基づき、前記予測2D境界ボックスの第2のセットを順位付けするステップ、及び前記予測2D境界ボックスの第2のセットから前記第2のサブセットを選択するステップをさらに含み、前記第2のサブセットが、所定の閾値を満たす信頼スコアを有する前記第2のセットの前記予測2D境界ボックスを含む、請求項9に記載の方法。
- 前記モデルに閾値を提供するステップをさらに含み、前記モデルが前記閾値を満たす予測2D境界ボックスを出力する、請求項9に記載の方法。
- 前記物体を有する情景のLIDARセンサから取り込まれた情報に基づき、前記3D境界ボックスが作成された、請求項9に記載の方法。
- 前記信頼スコアは、物体が前記予測2D境界ボックスにより定義される可能性を示す、請求項9に記載の方法。
- 前記3D境界ボックスの角を覆う軸整列境界ボックスを描き、前記2D境界ボックスを作成するステップをさらに含む、請求項9に記載の方法。
- 入力としての画像及び3D境界ボックスのマスターセットに基づいたグラウンドトゥルースとしての2D境界ボックスを用いてモデルを訓練し、前記モデルは予測2D境界ボックスのセット及び前記予測2D境界ボックスのセットに対する信頼スコアを出力するステップ、
前記予測2D境界ボックスのセットに対する前記信頼スコアに基づき、前記予測2D境界ボックスのセットからサブセットを選択するステップ、及び
前記サブセットを形成する対応する2D境界ボックスを有する前記3D境界ボックスのマスターセットから前記3D境界ボックスを選択することにより、訓練セットを作成するステップ、
を含む、方法。 - 前記モデルに閾値を提供するステップをさらに含み、前記モデルが前記閾値を満たす予測2D境界ボックスを出力する、請求項17に記載の方法。
- 前記信頼スコアは、物体が前記予測2D境界ボックスにより定義される可能性を示す、請求項17に記載の方法。
- 前記マスターセットの前記3D境界ボックスの角を覆う軸整列境界ボックスを描き、前記2D境界ボックスを作成するステップをさらに含む、請求項17に記載の方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163161735P | 2021-03-16 | 2021-03-16 | |
US63/161,735 | 2021-03-16 | ||
US17/329,922 | 2021-05-25 | ||
US17/329,922 US11798288B2 (en) | 2021-03-16 | 2021-05-25 | System and method for generating a training set for improving monocular object detection |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022142784A true JP2022142784A (ja) | 2022-09-30 |
Family
ID=83283648
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022041832A Pending JP2022142790A (ja) | 2021-03-16 | 2022-03-16 | マルチタスクネットワークのための評価プロセス |
JP2022041807A Pending JP2022142789A (ja) | 2021-03-16 | 2022-03-16 | 単眼深度推定およびオブジェクト検出のためのネットワークアーキテクチャ |
JP2022041668A Pending JP2022142784A (ja) | 2021-03-16 | 2022-03-16 | 単眼物体検出を向上するための自己学習ラベル精密化のシステム及び方法 |
JP2022041705A Pending JP2022142787A (ja) | 2021-03-16 | 2022-03-16 | 奥行き知覚のための予測システムを訓練するためのシステム及び方法 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022041832A Pending JP2022142790A (ja) | 2021-03-16 | 2022-03-16 | マルチタスクネットワークのための評価プロセス |
JP2022041807A Pending JP2022142789A (ja) | 2021-03-16 | 2022-03-16 | 単眼深度推定およびオブジェクト検出のためのネットワークアーキテクチャ |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022041705A Pending JP2022142787A (ja) | 2021-03-16 | 2022-03-16 | 奥行き知覚のための予測システムを訓練するためのシステム及び方法 |
Country Status (2)
Country | Link |
---|---|
US (4) | US11798288B2 (ja) |
JP (4) | JP2022142790A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11798288B2 (en) * | 2021-03-16 | 2023-10-24 | Toyota Research Institute, Inc. | System and method for generating a training set for improving monocular object detection |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0089212B1 (en) * | 1982-03-13 | 1987-10-28 | Kabushiki Kaisha Ishida Koki Seisakusho | Method and apparatus for sorting articles |
CN104346620B (zh) * | 2013-07-25 | 2017-12-29 | 佳能株式会社 | 对输入图像中的像素分类的方法和装置及图像处理系统 |
US9598015B1 (en) * | 2015-03-05 | 2017-03-21 | Ambarella, Inc. | Automatic mirror adjustment using an in-car camera system |
US10999559B1 (en) * | 2015-09-11 | 2021-05-04 | Ambarella International Lp | Electronic side-mirror with multiple fields of view |
US9824289B2 (en) * | 2015-12-07 | 2017-11-21 | Conduent Business Services, Llc | Exploiting color for license plate recognition |
US10530991B2 (en) * | 2017-01-28 | 2020-01-07 | Microsoft Technology Licensing, Llc | Real-time semantic-aware camera exposure control |
US10310087B2 (en) * | 2017-05-31 | 2019-06-04 | Uber Technologies, Inc. | Range-view LIDAR-based object detection |
US10824862B2 (en) * | 2017-11-14 | 2020-11-03 | Nuro, Inc. | Three-dimensional object detection for autonomous robotic systems using image proposals |
US10839234B2 (en) * | 2018-09-12 | 2020-11-17 | Tusimple, Inc. | System and method for three-dimensional (3D) object detection |
US11037051B2 (en) * | 2018-11-28 | 2021-06-15 | Nvidia Corporation | 3D plane detection and reconstruction using a monocular image |
US11170299B2 (en) * | 2018-12-28 | 2021-11-09 | Nvidia Corporation | Distance estimation to objects and free-space boundaries in autonomous machine applications |
US10937178B1 (en) * | 2019-05-09 | 2021-03-02 | Zoox, Inc. | Image-based depth data and bounding boxes |
DE102019206985A1 (de) * | 2019-05-14 | 2020-11-19 | Robert Bosch Gmbh | Verfahren zum Ermitteln eines Betriebswinkels zwischen einer Zugmaschine und einem Anhänger der Zugmaschine |
WO2021016596A1 (en) * | 2019-07-25 | 2021-01-28 | Nvidia Corporation | Deep neural network for segmentation of road scenes and animate object instances for autonomous driving applications |
US11373332B2 (en) * | 2020-01-06 | 2022-06-28 | Qualcomm Incorporated | Point-based object localization from images |
US11145065B2 (en) * | 2020-01-22 | 2021-10-12 | Gracenote, Inc. | Selection of video frames using a machine learning predictor |
GB2593717B (en) * | 2020-03-31 | 2022-08-24 | Imperial College Innovations Ltd | Image processing system and method |
EP4172862A4 (en) * | 2020-06-24 | 2023-08-09 | Magic Leap, Inc. | OBJECT RECOGNITION NEURONAL NETWORK FOR AMODAL CENTER PREDICTION |
US11798180B2 (en) * | 2021-02-26 | 2023-10-24 | Adobe Inc. | Generating depth images utilizing a machine-learning model built from mixed digital image sources and multiple loss function sets |
US11798288B2 (en) * | 2021-03-16 | 2023-10-24 | Toyota Research Institute, Inc. | System and method for generating a training set for improving monocular object detection |
US20220308592A1 (en) * | 2021-03-26 | 2022-09-29 | Ohmnilabs, Inc. | Vision-based obstacle detection for autonomous mobile robots |
-
2021
- 2021-05-25 US US17/329,922 patent/US11798288B2/en active Active
- 2021-05-28 US US17/333,537 patent/US20220301202A1/en active Pending
- 2021-06-25 US US17/358,497 patent/US20220300768A1/en active Pending
- 2021-07-23 US US17/384,121 patent/US20220301203A1/en active Pending
-
2022
- 2022-03-16 JP JP2022041832A patent/JP2022142790A/ja active Pending
- 2022-03-16 JP JP2022041807A patent/JP2022142789A/ja active Pending
- 2022-03-16 JP JP2022041668A patent/JP2022142784A/ja active Pending
- 2022-03-16 JP JP2022041705A patent/JP2022142787A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2022142789A (ja) | 2022-09-30 |
US11798288B2 (en) | 2023-10-24 |
US20220301203A1 (en) | 2022-09-22 |
US20220300746A1 (en) | 2022-09-22 |
US20220301202A1 (en) | 2022-09-22 |
JP2022142790A (ja) | 2022-09-30 |
US20220300768A1 (en) | 2022-09-22 |
JP2022142787A (ja) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6745328B2 (ja) | 点群データを復旧するための方法及び装置 | |
CN109117831B (zh) | 物体检测网络的训练方法和装置 | |
US10535160B2 (en) | Markerless augmented reality (AR) system | |
TW201837786A (zh) | 基於圖像的車輛定損方法、裝置、電子設備及系統 | |
TW201839704A (zh) | 基於圖像的車輛定損方法、裝置及電子設備 | |
US20190026948A1 (en) | Markerless augmented reality (ar) system | |
US20190340746A1 (en) | Stationary object detecting method, apparatus and electronic device | |
US20160098858A1 (en) | 3-dimensional model generation using edges | |
JP2022526513A (ja) | ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム | |
KR102206834B1 (ko) | 도로정보 변화 감지 방법 및 시스템 | |
KR20200027885A (ko) | 자율 주행 상황에서 장애물 검출을 위한 cnn 학습용 이미지 데이터 세트의 생성 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
KR101965878B1 (ko) | 시각적 피처들을 이용한 이미지들의 자동 연결 | |
CN109118532B (zh) | 视觉景深估计方法、装置、设备及存储介质 | |
US20210397907A1 (en) | Methods and Systems for Object Detection | |
KR20200018411A (ko) | 전극편의 버를 검출하기 위한 방법 및 장치 | |
CN113408566A (zh) | 目标检测方法及相关设备 | |
WO2023024443A1 (zh) | 数据匹配方法及装置、电子设备、存储介质和程序产品 | |
AU2019233778A1 (en) | Urban environment labelling | |
CN111797711A (zh) | 一种模型训练的方法及装置 | |
JP2022142784A (ja) | 単眼物体検出を向上するための自己学習ラベル精密化のシステム及び方法 | |
CN113281780B (zh) | 对图像数据进行标注的方法、装置及电子设备 | |
CN111460854B (zh) | 一种远距离目标检测方法、装置及系统 | |
JP6087218B2 (ja) | 画像解析装置 | |
Wozniak et al. | Towards a Robust Sensor Fusion Step for 3D Object Detection on Corrupted Data | |
CN113808186B (zh) | 训练数据生成方法、装置与电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240411 |