JP2020119523A - 疑似3dバウンディングボックスを検出する方法及びこれを利用した装置 - Google Patents
疑似3dバウンディングボックスを検出する方法及びこれを利用した装置 Download PDFInfo
- Publication number
- JP2020119523A JP2020119523A JP2019239475A JP2019239475A JP2020119523A JP 2020119523 A JP2020119523 A JP 2020119523A JP 2019239475 A JP2019239475 A JP 2019239475A JP 2019239475 A JP2019239475 A JP 2019239475A JP 2020119523 A JP2020119523 A JP 2020119523A
- Authority
- JP
- Japan
- Prior art keywords
- test
- bounding box
- layer
- feature map
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000011176 pooling Methods 0.000 claims abstract description 67
- 238000013528 artificial neural network Methods 0.000 claims abstract description 41
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 393
- 238000012549 training Methods 0.000 claims description 42
- 238000006073 displacement reaction Methods 0.000 claims description 29
- 238000010998 test method Methods 0.000 claims description 13
- 238000000638 solvent extraction Methods 0.000 claims 2
- 238000004891 communication Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 101100410043 Caenorhabditis elegans rpn-12 gene Proteins 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
- G06T2207/30261—Obstacle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
Description
一実施例において、前記マスクは、前記それぞれのインスタンス特徴マップ上で前記物体が位置すると判断される少なくとも一つのピクセルと、前記物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする。
また、プロセッサ120は、少なくとも一つのマスクロスレイヤをもって、それぞれのマスク情報とこれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成することにより、マスクロスをバックプロパゲーションしてマスクレイヤ及びコンボリューションレイヤのうち少なくとも一部のパラメータを調整することができる。
120:プロセッサ
130:データベース
200:テスト装置
210:通信部
220:プロセッサ
Claims (30)
- インスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似(Pseudo)3Dバウンディングボックスを少なくとも一つ検出する方法において、
(a)少なくとも一つの入力特徴マップと少なくとも一つの2Dバウンディングボックスとが取得される際に、前記入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記2Dバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含むと、学習装置が、プーリングレイヤをもって前記入力特徴マップ上で前記2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、FCレイヤをもって、前記プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックス(pseudo−3D bounding box)に対応するボックスパターン情報を生成させる段階;
(b)前記学習装置が、(i)分類レイヤをもって、前記ボックスパターン情報を参照して前記物体の方向に対応するクラス情報を生成させ、(ii)リグレッションレイヤをもって、前記ボックスパターン情報を参照して前記2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するリグレッション情報を生成させ、(iii)コンボリューションレイヤをもって、前記プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記それぞれの表面は前記リグレッション情報を参照して生成される)に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを生成し、マスクレイヤをもって、前記インスタンス特徴マップと前記クラス情報とを参照して前記それぞれの表面に対応するマスクそれぞれを生成させる段階;及び
(c)前記学習装置が、少なくとも一つのFCロスレイヤをもって、前記クラス情報と、前記リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることにより、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習する段階;
を含むことを特徴とする検出方法。 - 前記(b)段階以後に、
前記学習装置は、少なくとも一つのマスクロスレイヤをもって、前記マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする請求項1に記載の方法。 - 前記マスクレイヤは、FCN(Fully Convolutional Network)の少なくとも一部を含むことを特徴とする請求項1に記載の方法。
- 前記マスクは、前記それぞれのインスタンス特徴マップ上で、前記物体が位置すると判断される少なくとも一つのピクセルと、前記物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする請求項1に記載の方法。
- 前記(b)段階で、
前記学習装置は、前記リグレッションレイヤをもって、(i)前記2Dバウンディングボックスの頂点から前記物体の前面と裏面それぞれに対応するそれぞれのインスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)前記2Dバウンディングボックスの中心から前記それぞれのインスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記2Dバウンディングボックスの幅/高さの割合と前記インスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記リグレッション情報を生成させることを特徴とする請求項1に記載の方法。 - 対角線をなす前記2Dバウンディングボックスのそれぞれの頂点を第1頂点と第2頂点とし、前記第1頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第1インスタンスバウンディングボックスとし、前記第2頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第2インスタンスバウンディングボックスとする場合、
前記学習装置は、(i)前記第1及び前記第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、前記第1及び前記第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、前記第1及び前記第2ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす各頂点それぞれのどの各頂点とも接さず、(ii)前記2Dバウンディングボックスのどのライン上にも存在しない前記第2インスタンスバウンディングボックスの頂点を前記第1頂点と連結した後、前記2Dバウンディングボックスのどのライン上にも存在しない前記第1インスタンスバウンディングボックスの頂点を前記第2頂点と連結し、前記クラス情報を参照して前記疑似3Dバウンディングボックスを生成することを特徴とする請求項5に記載の方法。 - 前記学習装置は、CNN基盤の物体検出器から前記入力特徴マップと前記2Dバウンディングボックスとを取得することを特徴とする請求項1に記載の方法。
- 前記物体検出器は、少なくとも一つの先行(Preceding)コンボリューションレイヤをもって、前記トレーニングイメージに対して前記コンボリューション演算を遂行して少なくとも一つの先行特徴マップを生成させ、少なくとも一つの先行RPNをもって、前記先行特徴マップから前記トレーニングイメージ内に位置する少なくとも一つの前記学習用物体に対応する少なくとも一つの先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記先行特徴マップ上で前記先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つの先行プーリング済み特徴マップを生成させ、少なくとも一つの先行FCレイヤをもって、前記先行プーリング済み特徴マップに対して少なくとも一回ニューラルネットワーク演算を適用させて前記学習用物体に対応する先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記先行物体パターン情報を参照して前記学習用物体の先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記先行物体パターン情報を参照して前記学習用物体に対応する前記2Dバウンディングボックスに関する先行リグレッション情報を生成させることで、前記入力特徴マップと前記2Dバウンディングボックスとを生成することを特徴とする請求項7に記載の方法。
- インスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似(Pseudo)3Dバウンディングボックスを少なくとも一つ検出するテスト方法において、
(a)学習装置が(i)少なくとも一つの学習用入力特徴マップと少なくとも一つの学習用2Dバウンディングボックスとが取得された場合、前記学習用入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記学習用2Dバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含み、(ii)少なくとも一つのプーリングレイヤをもって、前記学習用入力特徴マップ上で前記学習用2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を少なくとも一回適用させて少なくとも一つの学習用プーリング済み特徴マップを生成させ、(iii)少なくとも一つのFCレイヤをもって、前記学習用プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応する学習用ボックスパターン情報を生成させ、(iv)少なくとも一つの分類レイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用物体の方向に対応する学習用クラス情報を生成し、(v)少なくとも一つのリグレッションレイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に対する学習用リグレッション情報を生成させ、(vi)少なくとも一つのコンボリューションレイヤをもって、前記学習用プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記それぞれの表面は前記学習用リグレッション情報を参照して生成される)に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つの学習用インスタンス特徴マップを生成し、(vii)少なくとも一つのマスクレイヤをもって、前記学習用インスタンス特徴マップと前記学習用クラス情報とを参照して前記それぞれの表面に対応する学習用マスクそれぞれを生成させ、(viii)少なくとも一つのFCロスレイヤをもって、前記学習用クラス情報と、前記学習用リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習した状態で、テスト装置が、前記プーリングレイヤをもって、少なくとも一つのテスト用入力特徴マップ上で少なくとも一つのテスト用2Dバウンディングボックスに対応する少なくとも一つの領域に対して前記プーリング演算を適用させて少なくとも一つのテスト用プーリング済み特徴マップを生成させ、前記FCレイヤをもって、前記テスト用プーリング済み特徴マップに対して前記ニューラルネットワーク(Neural Network)演算を適用させて前記疑似3Dバウンディングボックスに対応するテスト用ボックスパターン情報を生成させる段階;及び
(b)前記テスト装置が、(i)前記分類レイヤをもって、前記テスト用ボックスパターン情報を参照して少なくとも一つのテスト用物体の方向に対応するテスト用クラス情報を生成させ、(ii)前記リグレッションレイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するテスト用リグレッション情報を生成させ、(iii)前記コンボリューションレイヤをもって、前記テスト用プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記表面は前記テスト用リグレッション情報を参照して生成される)に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つのテスト用インスタンス特徴マップを生成し、前記マスクレイヤをもって、前記テスト用インスタンス特徴マップと前記テスト用クラス情報とを参照して前記それぞれの表面に対応するテスト用マスクそれぞれを生成させる段階;
を含むことを特徴とするテスト方法。 - 前記(vii)プロセス以後に、
前記学習装置は、少なくとも一つのマスクロスレイヤをもって、前記学習用マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする請求項9に記載のテスト方法。 - 前記テスト用マスクそれぞれは、前記それぞれのテスト用インスタンス特徴マップ上で前記テスト用物体が位置すると判断される少なくとも一つのピクセルと、前記テスト用物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする請求項9に記載のテスト方法。
- 前記(b)段階で、
前記テスト装置は、前記リグレッションレイヤをもって、(i)前記テスト用2Dバウンディングボックスの頂点から前記テスト用物体の前面と裏面それぞれに対応するそれぞれのテスト用インスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)前記テスト用2Dバウンディングボックスの中心から前記それぞれのテスト用インスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記テスト用2Dバウンディングボックスの幅/高さの割合と前記テスト用インスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記テスト用リグレッション情報を生成させることを特徴とする請求項9に記載のテスト方法。 - 対角線をなす前記テスト用2Dバウンディングボックスのそれぞれの頂点を第1頂点と第2頂点とし、前記第1頂点に少なくとも一つの頂点がマッチングする前記テスト用インスタンスバウンディングボックスをテスト用第1インスタンスバウンディングボックスとし、前記第2頂点に少なくとも一つの頂点がマッチングする前記テスト用インスタンスバウンディングボックスをテスト用第2インスタンスバウンディングボックスとする場合、
前記テスト装置は、(i)前記テスト用第1及び前記テスト用第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記テスト用2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、前記テスト用第1及び前記テスト用第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記テスト用2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、前記第1及び前記第2ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、(ii)前記テスト用2Dバウンディングボックスのどのライン上にも存在しない前記テスト用第2インスタンスバウンディングボックスの頂点を前記第1頂点と連結した後、前記テスト用2Dバウンディングボックスのどのライン上にも存在しない前記テスト用第1インスタンスバウンディングボックスの頂点を前記第2頂点と連結して、前記クラス情報を参照して前記疑似3Dバウンディングボックスを生成することを特徴とする請求項12に記載のテスト方法。 - 前記テスト装置は、CNN基盤の物体検出器から前記テスト用入力特徴マップと前記テスト用2Dバウンディングボックスとを取得することを特徴とする請求項9に記載のテスト方法。
- 前記物体検出器は、少なくとも一つの先行コンボリューションレイヤをもって、前記テストイメージに対して前記コンボリューション演算を遂行して少なくとも一つのテスト用先行特徴マップを生成させ、少なくとも一つの先行RPNをもって、前記テスト用先行特徴マップから前記テストイメージ内に位置する少なくとも一つの前記テスト用物体に対応する少なくとも一つのテスト用先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記テスト用先行特徴マップ上で前記テスト用先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つのテスト用先行プーリング済み特徴マップを生成させ、少なくとも一つの先行FCレイヤをもって、前記テスト用先行プーリング済み特徴マップに対して前記ニューラルネットワーク演算を適用させて前記テスト用物体に対応するテスト用先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体のテスト用先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体に対応する前記テスト用2Dバウンディングボックスに対するテスト用先行リグレッション情報を生成させることで、前記テスト用入力特徴マップと前記テスト用2Dバウンディングボックスとを生成することを特徴とする請求項14に記載のテスト方法。
- インスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似(Pseudo)3Dバウンディングボックスを検出する学習装置において、
インストラクション(Instruction)を格納する少なくとも一つのメモリ;及び
(I)プーリングレイヤをもって、少なくとも一つの入力特徴マップ上で少なくとも一つの2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、前記入力特徴マップは少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記2Dバウンディングボックスは、前記トレーニングイメージ内の少なくとも一つの物体を含み、FCレイヤをもって、前記プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応するボックスパターン情報を生成させるプロセス、(II)(II−1)分類レイヤをもって、前記ボックスパターン情報を参照して前記物体の方向に対応するクラス情報を生成させ、(II−2)リグレッションレイヤをもって、前記ボックスパターン情報を参照して前記2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するリグレッション情報を生成させ、(II−3)コンボリューションレイヤをもって、前記プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記表面は前記リグレッション情報を参照して生成される)に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを生成し、マスクレイヤをもって、前記インスタンス特徴マップと前記クラス情報とを参照して前記それぞれの表面に対応するマスクそれぞれを生成させるプロセス、及び(III)少なくとも一つのFCロスレイヤをもって、前記クラス情報と、前記リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることにより、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習するプロセスを遂行するためのインストラクションを実行するように構成された少なくとも一つのプロセッサ;
を含むことを特徴とする学習装置。 - 前記(II−3)プロセス以後に、
前記プロセッサは、少なくとも一つのマスクロスレイヤをもって、前記マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする請求項16に記載の学習装置。 - 前記マスクレイヤは、FCN(Fully Convolutional Network)の少なくとも一部を含むことを特徴とする請求項16に記載の学習装置。
- 前記マスクは、前記それぞれのインスタンス特徴マップ上で前記物体が位置すると判断される少なくとも一つのピクセルと、前記物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする請求項16に記載の学習装置。
- 前記(II−3)プロセスで、
前記プロセッサは、前記リグレッションレイヤをもって、(i)前記2Dバウンディングボックスの頂点から前記物体の前面と裏面それぞれに対応するそれぞれのインスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)前記2Dバウンディングボックスの中心から前記それぞれのインスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記2Dバウンディングボックスの幅/高さの割合と前記インスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記リグレッション情報を生成させることを特徴とする請求項16に記載の学習装置。 - 対角線をなす前記2Dバウンディングボックスのそれぞれの頂点を第1頂点と第2頂点とし、前記第1頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第1インスタンスバウンディングボックスとし、前記第2頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第2インスタンスバウンディングボックスとする場合、
前記プロセッサは、(i)前記第1及び前記第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、前記第1及び前記第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、前記第1及び前記第2ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、(ii)前記2Dバウンディングボックスのどのライン上にも存在しない前記第2インスタンスバウンディングボックスの頂点を前記第1頂点と連結した後、前記2Dバウンディングボックスのどのライン上にも存在しない前記第1インスタンスバウンディングボックスの頂点を前記第2頂点と連結して、前記クラス情報を参照して前記疑似3Dバウンディングボックスを生成することを特徴とする請求項20に記載の学習装置。 - 前記プロセッサは、CNN基盤の物体検出器から前記入力特徴マップと前記2Dバウンディングボックスとを取得することを特徴とする請求項16に記載の学習装置。
- 前記物体検出器は、少なくとも一つの先行(Preceding)コンボリューションレイヤをもって、前記トレーニングイメージに対して前記コンボリューション演算を遂行して少なくとも一つの先行特徴マップを生成させ、少なくとも一つの先行RPNをもって、前記先行特徴マップから前記トレーニングイメージ内に位置する少なくとも一つの前記学習用物体に対応する少なくとも一つの先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記先行特徴マップ上で前記先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つの先行プーリング済み特徴マップを生成させ、少なくとも一つの先行FCレイヤをもって、前記先行プーリング済み特徴マップに対して少なくとも一回ニューラルネットワーク演算を適用させて前記学習用物体に対応する先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記先行物体パターン情報を参照して前記学習用物体の先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記先行物体パターン情報を参照して前記学習用物体に対応する前記2Dバウンディングボックスに関する先行リグレッション情報を生成させることで、前記入力特徴マップと前記2Dバウンディングボックスとを生成することを特徴とする請求項22に記載の学習装置。
- インスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似(Pseudo)3Dバウンディングボックスを少なくとも一つ検出するテスト装置において、
インストラクション(Instruction)を格納する少なくとも一つのメモリ;及び
学習装置が(i)少なくとも一つの学習用入力特徴マップと少なくとも一つの学習用2Dバウンディングボックスとが取得された場合、前記学習用入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記学習用2Dバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含み、(ii)少なくとも一つのプーリングレイヤをもって、前記学習用入力特徴マップ上で前記学習用2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を少なくとも一回適用させて少なくとも一つの学習用プーリング済み特徴マップを生成させ、(iii)少なくとも一つのFCレイヤをもって、前記学習用プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応する学習用ボックスパターン情報を生成させ、(iv)少なくとも一つの分類レイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用物体の方向に対応する学習用クラス情報を生成し、(v)少なくとも一つのリグレッションレイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に対する学習用リグレッション情報を生成させ、(vi)少なくとも一つのコンボリューションレイヤをもって、前記学習用プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記表面は前記学習用リグレッション情報を参照して生成される)に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つの学習用インスタンス特徴マップを生成し、(vii)少なくとも一つのマスクレイヤをもって、前記学習用インスタンス特徴マップと前記学習用クラス情報とを参照して前記それぞれの表面に対応する学習用マスクそれぞれを生成させ、(viii)少なくとも一つのFCロスレイヤをもって、前記学習用クラス情報と、前記学習用リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成するようにすることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習するようにして、前記クラスロスと前記リグレッションロスとをバックプロパゲーションして前記FCレイヤを学習した状態で、(I)前記プーリングレイヤをもって、少なくとも一つのテスト用入力特徴マップ上で少なくとも一つのテスト用2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてテスト用プーリング済み特徴マップを生成させ、前記テスト用入力特徴マップは、少なくとも一つのテストイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記テスト用2Dバウンディングボックスは、前記テストイメージ内の少なくとも一つのテスト用物体を含み、FCレイヤをもって、前記テスト用プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応するテスト用ボックスパターン情報を生成させるプロセス、及び(II)(II−1)前記分類レイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用物体の方向に対応するテスト用クラス情報を生成させ、(II−2)リグレッションレイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するテスト用リグレッション情報を生成させ、(II−3)コンボリューションレイヤをもって、前記テスト用プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記表面は前記テスト用リグレッション情報を参照して生成される)に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのテスト用インスタンス特徴マップを生成し、マスクレイヤをもって、前記テスト用インスタンス特徴マップと前記テスト用クラス情報とを参照して前記それぞれの表面に対応するテスト用マスクそれぞれを生成させるプロセスを遂行する前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
を含むことを特徴とするテスト装置。 - 前記(vii)プロセス以後に、
前記学習装置が、少なくとも一つのマスクロスレイヤをもって、前記学習用マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする請求項24に記載のテスト装置。 - 前記テスト用マスクそれぞれは、前記それぞれのテスト用インスタンス特徴マップ上で前記テスト用物体が位置すると判断される少なくとも一つのピクセルと、前記テスト用物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする請求項24に記載のテスト装置。
- 前記(II−2)プロセスで、
前記プロセッサは、前記リグレッションレイヤをもって、(i)前記テスト用2Dバウンディングボックスの頂点から前記テスト用物体の前面と裏面それぞれに対応するそれぞれのテスト用インスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)前記テスト用2Dバウンディングボックスの中心から前記それぞれのテスト用インスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記テスト用2Dバウンディングボックスの幅/高さの割合と前記テスト用インスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記テスト用リグレッション情報を生成させることを特徴とする請求項24に記載のテスト装置。 - 対角線をなす前記テスト用2Dバウンディングボックスのそれぞれの頂点を第1頂点と第2頂点とし、前記第1頂点に少なくとも一つの頂点がマッチングするテスト用インスタンスバウンディングボックスを第1テスト用インスタンスバウンディングボックスとし、前記第2頂点に少なくとも一つの頂点がマッチングするテスト用インスタンスバウンディングボックスを第2テスト用インスタンスバウンディングボックスとする場合、
前記プロセッサは、(i)前記テスト用第1及び前記テスト用第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記テスト用2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、前記テスト用第1及び前記テスト用第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記テスト用2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、前記第1及び前記第2ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、(ii)前記テスト用2Dバウンディングボックスのどのライン上にも存在しない前記テスト用第2インスタンスバウンディングボックスの頂点を前記第1頂点と連結した後、前記テスト用2Dバウンディングボックスのどのライン上にも存在しない前記テスト用第1インスタンスバウンディングボックスの頂点を前記第2頂点と連結して、前記クラス情報を参照して前記疑似3Dバウンディングボックスを生成することを特徴とする請求項27に記載のテスト装置。 - 前記プロセッサは、CNN基盤の物体検出器から前記テスト用入力特徴マップと前記テスト用2Dバウンディングボックスとを取得することを特徴とする請求項24に記載のテスト装置。
- 前記物体検出器は、少なくとも一つの先行コンボリューションレイヤをもって前記テストイメージに対して前記コンボリューション演算を遂行して少なくとも一つのテスト用先行特徴マップを生成させ、少なくとも一つの先行RPNをもって、前記テスト用先行特徴マップから前記テストイメージ内に位置する少なくとも一つの前記テスト用物体に対応する少なくとも一つのテスト用先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記テスト用先行マップ上で前記テスト用先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用するようにして、少なくとも一つのテスト用先行プーリング済み特徴マップを生成するようにし、少なくとも一つの先行FCレイヤをもって、前記テスト用先行プーリング済み特徴マップに対して前記ニューラルネットワーク演算を適用させて
前記テスト用物体に対応するテスト用先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体のテスト用先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体に対応する前記テスト用2Dバウンディングボックスに対するテスト用先行リグレッション情報を生成させることで、前記テスト用入力特徴マップと前記テスト用2Dバウンディングボックスとを生成することを特徴とする請求項29に記載のテスト装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/258,156 | 2019-01-25 | ||
US16/258,156 US10402978B1 (en) | 2019-01-25 | 2019-01-25 | Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020119523A true JP2020119523A (ja) | 2020-08-06 |
JP7112752B2 JP7112752B2 (ja) | 2022-08-04 |
Family
ID=67770264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019239475A Active JP7112752B2 (ja) | 2019-01-25 | 2019-12-27 | 疑似3dバウンディングボックスを検出する方法及びそのテスト方法、並びに疑似3dバウンディングボックスを検出する方法を利用した装置及びそのテスト装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10402978B1 (ja) |
EP (1) | EP3686775B1 (ja) |
JP (1) | JP7112752B2 (ja) |
KR (1) | KR102309708B1 (ja) |
CN (1) | CN111489368B (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108701210B (zh) * | 2016-02-02 | 2021-08-17 | 北京市商汤科技开发有限公司 | 用于cnn网络适配和对象在线追踪的方法和系统 |
US10503998B2 (en) * | 2016-11-07 | 2019-12-10 | Gracenote, Inc. | Recurrent deep neural network system for detecting overlays in images |
US10726303B1 (en) * | 2019-01-30 | 2020-07-28 | StradVision, Inc. | Learning method and learning device for switching modes of autonomous vehicle based on on-device standalone prediction to thereby achieve safety of autonomous driving, and testing method and testing device using the same |
CN110807369B (zh) * | 2019-10-09 | 2024-02-20 | 南京航空航天大学 | 基于深度学习和注意力机制的短视频内容智能分类方法 |
CN112258504B (zh) * | 2020-11-13 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、设备及计算机可读存储介质 |
CN112560972B (zh) * | 2020-12-21 | 2021-10-08 | 北京航空航天大学 | 基于毫米波雷达先验定位和视觉特征融合的目标检测方法 |
US20220261593A1 (en) * | 2021-02-16 | 2022-08-18 | Nvidia Corporation | Using neural networks to perform object detection, instance segmentation, and semantic correspondence from bounding box supervision |
CN112949551A (zh) * | 2021-03-19 | 2021-06-11 | 科大讯飞股份有限公司 | 一种眼部关键信息确定方法、装置、设备及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10331974B2 (en) * | 2016-11-08 | 2019-06-25 | Nec Corporation | Action recognition system with landmark localization on objects in images using convolutional neural networks |
KR102267553B1 (ko) * | 2016-11-15 | 2021-06-22 | 매직 립, 인코포레이티드 | 큐보이드 검출을 위한 딥 러닝 시스템 |
KR101871098B1 (ko) * | 2017-01-12 | 2018-06-25 | 포항공과대학교 산학협력단 | 이미지 처리 방법 및 장치 |
US10671873B2 (en) * | 2017-03-10 | 2020-06-02 | Tusimple, Inc. | System and method for vehicle wheel detection |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
US10460180B2 (en) * | 2017-04-20 | 2019-10-29 | GM Global Technology Operations LLC | Systems and methods for visual classification with region proposals |
US9946960B1 (en) * | 2017-10-13 | 2018-04-17 | StradVision, Inc. | Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same |
KR101932009B1 (ko) * | 2017-12-29 | 2018-12-24 | (주)제이엘케이인스펙션 | 다중 객체 검출을 위한 영상 처리 장치 및 방법 |
KR101896357B1 (ko) * | 2018-02-08 | 2018-09-07 | 주식회사 라디코 | 객체를 검출하는 방법, 디바이스 및 프로그램 |
KR101896406B1 (ko) * | 2018-03-13 | 2018-10-22 | 연세대학교 산학협력단 | 블랙박스 영상을 이용한 딥러닝 기반의 픽셀 단위 도로 크랙 검출 장치 및 그 방법, 그리고 이 방법을 실행시키기 위해 컴퓨터가 판독 가능한 기록매체에 저장된 컴퓨터 프로그램 |
CN108416394B (zh) * | 2018-03-22 | 2019-09-03 | 河南工业大学 | 基于卷积神经网络的多目标检测模型构建方法 |
CN108564022A (zh) * | 2018-04-10 | 2018-09-21 | 深圳市唯特视科技有限公司 | 一种基于定位分类回归网络的多人物姿势检测方法 |
CN109255351B (zh) * | 2018-09-05 | 2020-08-18 | 华南理工大学 | 基于三维卷积神经网络的边界框回归方法、系统、设备及介质 |
-
2019
- 2019-01-25 US US16/258,156 patent/US10402978B1/en active Active
- 2019-09-27 KR KR1020190119510A patent/KR102309708B1/ko active IP Right Grant
- 2019-10-28 CN CN201911028618.8A patent/CN111489368B/zh active Active
- 2019-11-07 EP EP19207567.9A patent/EP3686775B1/en active Active
- 2019-12-27 JP JP2019239475A patent/JP7112752B2/ja active Active
Non-Patent Citations (2)
Title |
---|
ARSALAN MOUSAVIAN, DRAGOMIR ANGUELOV, JOHN FLYNN: "3D Bounding Box Estimation Using Deep Learning and Geometry", ARXIV, JPN7022000040, 1 December 2016 (2016-12-01), US, ISSN: 0004679544 * |
MAHDI RAD, VINCENT LEPETIT: "BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predictingthe 3D Poses of Challeng", ARXIV, JPN7022000041, 31 March 2017 (2017-03-31), US, ISSN: 0004679543 * |
Also Published As
Publication number | Publication date |
---|---|
US10402978B1 (en) | 2019-09-03 |
EP3686775C0 (en) | 2024-03-27 |
JP7112752B2 (ja) | 2022-08-04 |
KR102309708B1 (ko) | 2021-10-08 |
CN111489368A (zh) | 2020-08-04 |
EP3686775B1 (en) | 2024-03-27 |
KR20200092845A (ko) | 2020-08-04 |
EP3686775A1 (en) | 2020-07-29 |
CN111489368B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102309708B1 (ko) | 인스턴스 세그멘테이션을 이용한 객체의 자세에 따라 모드를 전환할 수 있는 cnn 기반의 수도-3d 바운딩 박스를 검출하는 방법 및 이를 이용한 장치 | |
CN110084304B (zh) | 一种基于合成数据集的目标检测方法 | |
CN112270249A (zh) | 一种融合rgb-d视觉特征的目标位姿估计方法 | |
KR102121764B1 (ko) | 회귀 분석으로 2d 바운딩 박스에서 수도(pseudo)-3d박스를 획득하는 방법 및 이를 이용한 학습 장치 및 테스트 장치 | |
US10410120B1 (en) | Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same | |
CN108983781A (zh) | 一种无人车目标搜索系统中的环境探测方法 | |
CN109074668A (zh) | 路径导航方法、相关装置及计算机可读存储介质 | |
EP3867862A1 (en) | Method and system for converting point cloud data for use with 2d convolutional neural networks | |
JP6979228B2 (ja) | V2v通信によって取得された、他の自律走行車両の空間探知結果を自身の自律走行車両の空間探知結果と統合する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for integrating object detection information acquired through v2v communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same} | |
JP6810432B2 (ja) | 物体の条件に応じてモードを切り換えることができるcnn基盤で軍事目的、スマートフォン又は仮想走行に使用される疑似3dバウンディングボックスを検出する方法及びこれを利用した装置 | |
CN109074490A (zh) | 通路检测方法、相关装置及计算机可读存储介质 | |
JP6892157B2 (ja) | V2x情報融合技術によって取得された、各物体に対する深さ予測情報及び各物体に対するクラス情報を利用して3d空間を再構築することによりhdマップをアップデートする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置 | |
KR102373492B1 (ko) | 자체적으로 생성된 정보 및 다른 개체에 의해 생성된 정보를 선택적으로 사용하여 카메라의 오정렬을 보정하는 방법 및 이를 이용한 장치 | |
US20230121534A1 (en) | Method and electronic device for 3d object detection using neural networks | |
EP3690817A1 (en) | Method for providing robust object distance estimation based on camera by performing pitch calibration of camera more precisely with fusion of information acquired through camera and information acquired through v2v communication and device using the same | |
CN111507161B (zh) | 利用合并网络进行异质传感器融合的方法和装置 | |
CN114118247A (zh) | 一种基于多传感器融合的无锚框3d目标检测方法 | |
CN111460879B (zh) | 利用网格生成器的神经网络运算方法及使用该方法的装置 | |
Iz et al. | An image-based path planning algorithm using a UAV equipped with stereo vision | |
US10373004B1 (en) | Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image | |
Roberts et al. | Optical flow templates for superpixel labeling in autonomous robot navigation | |
Yan et al. | A 3d grid mapping system based on depth prediction from a monocular camera | |
Smith et al. | AeriaLPiPS: A Local Planner for Aerial Vehicles with Geometric Collision Checking | |
Ulusoy et al. | Object recognition and cognitive map formation using active stereo vision in a virtual world | |
Mühlbauer | Aspects of Cognitive Understanding of the Environment by Vision-Based Semantic Mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210202 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20210409 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20210416 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210430 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210701 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210701 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7112752 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |