JP2020119523A - 疑似3dバウンディングボックスを検出する方法及びこれを利用した装置 - Google Patents

疑似3dバウンディングボックスを検出する方法及びこれを利用した装置 Download PDF

Info

Publication number
JP2020119523A
JP2020119523A JP2019239475A JP2019239475A JP2020119523A JP 2020119523 A JP2020119523 A JP 2020119523A JP 2019239475 A JP2019239475 A JP 2019239475A JP 2019239475 A JP2019239475 A JP 2019239475A JP 2020119523 A JP2020119523 A JP 2020119523A
Authority
JP
Japan
Prior art keywords
test
bounding box
layer
feature map
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019239475A
Other languages
English (en)
Other versions
JP7112752B2 (ja
Inventor
− ヒョン キム、ケイ
Kye-Hyeon Kim
− ヒョン キム、ケイ
キム、ヨンジュン
Young Jun Kim
キム、インスー
Insu Kim
− キョン キム、ハク
Hak-Kyoung Kim
− キョン キム、ハク
ナム、ウヒョン
Woonhyu Nam
ブー、ソッフン
Sukhoon Boo
ソン、ミュンチュル
Myungchul Sung
ヨー、ドンフン
Donghun Yeo
リュー、ウジュ
Wooju Ryu
チャン、テウン
Taewoong Jang
ジョン、キュンチョン
Kyungjoong Jeong
チェ、ホンモ
Hongmo Je
チョウ、ホジン
Hojin Cho
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020119523A publication Critical patent/JP2020119523A/ja
Application granted granted Critical
Publication of JP7112752B2 publication Critical patent/JP7112752B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

【課題】インスタントセグメンテーションを利用して検出した物体の姿勢に応じてモードを切り換えることができるCNN基盤の疑似3Dバウンディングボックスを検出する方法を提供する。【解決手段】疑似3Dバウンディングボックスのそれぞれの表面に対する陰影情報を学習に反映することができ、疑似3Dバウンディングボックスがライダ(Lidar)またはレーダを介して取得され、表面がカメラを利用してセグメンテーションされる方法であって、検出方法は、学習装置100がプーリングレイヤをもって2Dバウンディングボックスに対してプーリング演算を適用させてプーリング済み特徴マップを生成し、FCレイヤをもってニューラルネットワーク演算を適用させ、コンボリューションレイヤをもって、表面の領域に対してコンボリューション演算を適用させ、FCレイヤをもって、クラスロスとリグレッションロスを生成させる段階を含む。【選択図】図2

Description

インスタンスセグメンテーションを利用した物体の姿勢に応じてモードを切り換えることができるCNN基盤の疑似3Dバウンディングボックスを検出する方法及びこれを利用した装置{METHOD FOR DETECTING PSEUDO−3D BOUNDING BOX BASED ON CNN CAPABLE OF CONVERTING MODES ACCORDING TO POSES OF OBJECTS USING INSTANCE SEGMENTATION AND DEVICE USING THE SAME}を提供する。
本発明はインスタントセグメンテーション(Instance Segmentation)を利用した物体の姿勢に応じてモードを切り換えることができるCNN(Convolutional Neural Network)基盤の疑似3Dバウンディングボックスを検出する方法、及びこれを利用した装置に関し、より詳細には、前記インスタンスセグメンテーション(Instance Segmentation)を利用した前記CNN基盤の前記疑似(Pseudo)3Dバウンディングボックスを少なくとも一つ検出する方法において、(a)少なくとも一つの入力特徴マップと少なくとも一つの2Dバウンディングボックスとが取得される際に、前記入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記2Dバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含むと、学習装置が、プーリングレイヤをもって前記入力特徴マップ上で前記2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、FCレイヤをもって、前記プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応するボックスパターン情報を生成させる段階;(b)前記学習装置が、(i)分類レイヤをもって、前記ボックスパターン情報を参照して前記物体の方向に対応するクラス情報を生成させ、(ii)リグレッションレイヤをもって、前記ボックスパターン情報を参照して前記2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するリグレッション情報を生成させ、(iii)コンボリューションレイヤをもって、前記プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記リグレッション情報を参照して生成)に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを生成し、マスクレイヤをもって、前記インスタンス特徴マップと前記クラス情報とを参照して前記それぞれの表面に対応するマスクそれぞれを生成させる段階;及び(c)前記学習装置が、少なくとも一つのFCロスレイヤをもって、前記クラス情報と、前記リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることにより、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習する段階;を含むことを特徴とする検出方法及び装置、それを利用したテスト方法及び装置に関する。
自律走行自動車は、人が入力した内容なしに周辺環境を感知して走行することができる車両である。自律走行自動車は、囲まれた環境を検出するために、レーダ、レーザ光線、GPS、走行測定器、コンピュータビジョン(Computer Vision)のような多様な技術を使用する。
コンピュータビジョンを使用して2次元単眼映像(2D Monocular Image)から3次元情報を推定することは、自律走行及び個人ロボットのような応用分野において非常に重要な作業である。一般的にイメージ内の物体をバウンディング(Bounding)するための2Dボックスを生成した後、2Dボックスから3Dモデルを構成する。
物体をバウンディングするために2Dボックスを探し出す従来の技術は、一般的にテンプレート基盤の方法を使用していた。2Dボックスを生成するための従来の技術のうち一つであるスライディングウィンドウ方法(Sliding Windows Method)である。この方法は、様々なスケールを有する全体イメージに対してウィンドウのようなボックスを繰り返しスライドさせて、ウィンドウのようなボックス内のそれぞれの個体を検出する方法である。つまり、イメージ内の物体が互いに異なるサイズやスケールを有することができるため、イメージを数回縮小し、ウィンドウのようなボックスをイメージ上に再びスライドさせて、サイズが異なる物体を探し出す。
他の従来の方法のうちの一つは、アンカーボックス方法である。この方法では、多様なアンカーボックスを所定の位置に中心を合わせ、多様なアンカーボックスのうち確率が最も高いアンカーボックス(例えば、原本正解物体と重なる領域が最も多いアンカーボックス)をリグレッション分析により決定する。
そして、3Dバウンディングボックス(3D Bounding Box)が先に決定されたアンカーボックスから構成されるが、これに制限されはしない。まず、3Dバウンディングボックスは6つの表面を有することができ、6つの表面のうち3つは徹底して検索する必要があり得る。第二に、単一テンプレートを3Dバウンディングボックスの表面のうち3つを決定するために使用する場合、物体の3D方向が変わると、リグレッションの境界線の条件が異なるようになるため、正確度が低いことがある。第三に、3Dバウンディングボックスを取得する従来の方法は、コンピューティングリソースが多く必要である。例えば、3Dバウンディングボックスを探すために、正六面体テンプレートやボクセル(Voxel)をマッチングさせるのに演算時間が長くかかるのと同じである。
したがって、本発明はこのような不必要な演算を取り除き、検出精度を向上させるための新たな方法を提示する。
本発明は、上述した問題点を全て解決することを目的とする。
本発明は、疑似3Dボックスを利用して3D物体に外接する3Dバウンディングボックス(3D Bounding Box)を単純化することを他の目的とする。
本発明は、疑似3Dボックス(Pseudo−3D Box)の頂点の2D座標を利用して演算時間とコンピューティングリソースを減らすことをまた他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記の通りである。
本発明の一態様によると、インスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似(Pseudo)3Dバウンディングボックスを少なくとも一つ検出する方法において、(a)少なくとも一つの入力特徴マップと少なくとも一つの2Dバウンディングボックスとが取得される際に、前記入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記2Dバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含むと、学習装置が、プーリングレイヤをもって前記入力特徴マップ上で前記2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、FCレイヤをもって、前記プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応するボックスパターン情報を生成させる段階;(b)前記学習装置が、(i)分類レイヤをもって、前記ボックスパターン情報を参照して前記物体の方向に対応するクラス情報を生成させ、(ii)リグレッションレイヤをもって、前記ボックスパターン情報を参照して前記2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するリグレッション情報を生成させ、(iii)コンボリューションレイヤをもって、前記プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記リグレッション情報を参照して生成)に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを生成し、マスクレイヤをもって、前記インスタンス特徴マップと前記クラス情報とを参照して前記それぞれの表面に対応するマスクそれぞれを生成させる段階;及び(c)前記学習装置が、少なくとも一つのFCロスレイヤをもって前記クラス情報と、前記リグレッション情報と、これに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習する段階;を含むことを特徴とする。
一実施例において、前記(b)段階以後に、前記学習装置は、少なくとも一つのマスクロスレイヤをもって、前記マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする。
一実施例において、前記マスクレイヤは、FCN(Fully Convolutional Network)の少なくとも一部を含むことを特徴とする。
一実施例において、前記マスクは、前記それぞれのインスタンス特徴マップ上で前記物体が位置すると判断される少なくとも一つのピクセルと、前記物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする。
一実施例において、前記(b)段階で、前記学習装置は、前記リグレッションレイヤをもって、(i)前記2Dバウンディングボックスの頂点から前記物体の前面と裏面それぞれに対応するそれぞれのインスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)前記2Dバウンディングボックスの中心から前記それぞれのインスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記2Dバウンディングボックスの幅/高さの割合と前記インスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記リグレッション情報を生成させることを特徴する。
一実施例において、対角線をなす前記2Dバウンディングボックスのそれぞれの頂点を第1頂点と第2頂点とし、前記第1頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第1インスタンスバウンディングボックスとし、前記第2頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第2インスタンスバウンディングボックスとする場合、前記学習装置は、(i)前記第1及び前記第2インスタンスバウンディングボックスの頂点を連結し、前記頂点が前記2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、前記第1及び前記第2インスタンスバウンディングボックスの頂点を連結し、前記頂点が前記2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、前記第1及び前記第2ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、(ii)前記2Dバウンディングボックスのどのライン上にも存在しない前記第2インスタンスバウンディングボックスの頂点を前記第1頂点と連結した後、前記2Dバウンディングボックスのどのライン上にも存在しない前記第1インスタンスバウンディングボックスの頂点を前記第2頂点と連結して、前記クラス情報を参照して前記疑似3Dバウンディングボックスを生成することを特徴する。
一実施例において、前記学習装置は、CNN基盤の物体検出器から前記入力特徴マップと前記2Dバウンディングボックスとを取得することを特徴する。
一実施例において、前記物体検出器は、少なくとも一つの先行(Preceding)コンボリューションレイヤをもって、前記トレーニングイメージに対して前記コンボリューション演算を遂行して少なくとも一つの先行特徴マップを生成させ、少なくとも一つの先行RPNをもって、前記先行特徴マップから前記トレーニングイメージ内に位置する少なくとも一つの前記学習用物体に対応する少なくとも一つの先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記先行特徴マップ上で前記先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つの先行プーリング済み特徴マップを生成させ、少なくとも一つの先行FCレイヤをもって、前記先行プーリング済み特徴マップに対して少なくとも一回ニューラルネットワーク演算を適用させて前記学習用物体に対応する先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記先行物体パターン情報を参照して前記学習用物体の先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記先行物体パターン情報を参照して前記学習用物体に対応する前記2Dバウンディングボックスに関する先行リグレッション情報を生成させることで、前記入力特徴マップと前記2Dバウンディングボックスとを生成することを特徴する。
本発明の他の態様によると、インスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似(Pseudo)3Dバウンディングボックスを少なくとも一つ検出するテスト方法において、(a)学習装置が(i)少なくとも一つの学習用入力特徴マップと少なくとも一つの学習用2Dバウンディングボックスとが取得された場合、前記学習用入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記学習用2Dバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含み、(ii)少なくとも一つのプーリングレイヤをもって、前記学習用入力特徴マップ上で前記学習用2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を少なくとも一回適用させて少なくとも一つの学習用プーリング済み特徴マップを生成させ、(iii)少なくとも一つのFCレイヤをもって、前記学習用プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応する学習用ボックスパターン情報を生成させ、(iv)少なくとも一つの分類レイヤをもって前記学習用ボックスパターン情報を参照して前記学習用物体の方向に対応する学習用クラス情報を生成し、(v)少なくとも一つのリグレッションレイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に対する学習用リグレッション情報を生成させ、(vi)少なくとも一つのコンボリューションレイヤをもって、前記学習用プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記学習用リグレッション情報を参照して生成)に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つの学習用インスタンス特徴マップを生成し、(vii)少なくとも一つのマスクレイヤをもって、前記学習用インスタンス特徴マップと前記学習用クラス情報とを参照して前記それぞれの表面に対応する学習用マスクそれぞれを生成させ、(viii)少なくとも一つのFCロスレイヤをもって、前記学習用クラス情報と、前記学習用リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習した状態で、テスト装置が、前記プーリングレイヤをもって、少なくとも一つのテスト用入力特徴マップ上で少なくとも一つのテスト用2Dバウンディングボックスに対応する少なくとも一つの領域に対して前記プーリング演算を適用させて少なくとも一つのテスト用プーリング済み特徴マップを生成させ、前記FCレイヤをもって、前記テスト用プーリング済み特徴マップに対して前記ニューラルネットワーク(Neural Network)演算を適用させて前記疑似3Dバウンディングボックスに対応するテスト用ボックスパターン情報を生成させる段階;及び(b)前記テスト装置が、(i)前記分類レイヤをもって前記テスト用ボックスパターン情報を参照して少なくとも一つのテスト用物体の方向に対応するテスト用クラス情報を生成させ、(ii)前記リグレッションレイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するテスト用リグレッション情報を生成させ、(iii)前記コンボリューションレイヤをもって、前記テスト用プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記テスト用リグレッション情報を参照して生成)に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つのテスト用インスタンス特徴マップを生成し、前記マスクレイヤをもって前記テスト用インスタンス特徴マップと前記テスト用クラス情報とを参照して前記それぞれの表面に対応するテスト用マスクそれぞれを生成させる段階;を含むことを特徴とする。
一実施例において、前記(vii)プロセス以後に、前記学習装置は、少なくとも一つのマスクロスレイヤをもって前記学習用マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして、前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする。
一実施例において、前記テスト用マスクそれぞれは、前記それぞれのテスト用インスタンス特徴マップ上で前記テスト用物体が位置すると判断される少なくとも一つのピクセルと、前記テスト用物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする。
一実施例において、前記(b)段階で、前記テスト装置は前記リグレッションレイヤをもって、(i)前記テスト用2Dバウンディングボックスの頂点から前記テスト用物体の前面と裏面それぞれに対応するそれぞれのテスト用インスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)前記テスト用2Dバウンディングボックスの中心から前記それぞれのテスト用インスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記テスト用2Dバウンディングボックスの幅/高さの割合と前記テスト用インスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記テスト用リグレッション情報を生成させることを特徴とする。
一実施例において、対角線をなす前記テスト用2Dバウンディングボックスのそれぞれの頂点を第1頂点と第2頂点とし、前記第1頂点に少なくとも一つの頂点がマッチングする前記テスト用インスタンスバウンディングボックスをテスト用第1インスタンスバウンディングボックスとし、前記第2頂点に少なくとも一つの頂点がマッチングする前記テスト用インスタンスバウンディングボックスをテスト用第2インスタンスバウンディングボックスとする場合、前記テスト装置は、(i)前記テスト用第1及び前記テスト用第2インスタンスバウンディングボックスの各頂点を連結し、前記頂点が前記テスト用2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、前記テスト用第1及び前記テスト用第2インスタンスバウンディングボックスの頂点を連結し、前記頂点が前記テスト用2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、前記第1及び前記第2ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、(ii)前記テスト用2Dバウンディングボックスのどのライン上にも存在しない前記テスト用第2インスタンスバウンディングボックスの頂点を前記第1頂点と連結した後、前記テスト用2Dバウンディングボックスのどのライン上にも存在しない前記テスト用第1インスタンスバウンディングボックスの頂点を前記第2頂点と連結して、前記クラス情報を参照して前記疑似3Dバウンディングボックスを生成することを特徴する。
一実施例において、前記テスト装置は、CNN基盤の物体検出器から前記テスト用入力特徴マップと前記テスト用2Dバウンディングボックスとを取得することを特徴する。
一実施例において、前記物体検出器は、少なくとも一つの先行コンボリューションレイヤをもって前記テストイメージに対して前記コンボリューション演算を遂行して少なくとも一つのテスト用先行特徴マップを生成させ、少なくとも一つの先行RPNをもって、前記テスト用先行特徴マップから前記テストイメージ内に位置する少なくとも一つの前記テスト用物体に対応する少なくとも一つのテスト用先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記テスト用先行特徴マップ上で前記テスト用先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つのテスト用先行プーリング済み特徴マップを生成させ、少なくとも一つの先行FCレイヤをもって、前記テスト用先行プーリング済み特徴マップに対して前記ニューラルネットワーク演算を適用させて前記テスト用物体に対応するテスト用先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって前記テスト用先行物体パターン情報を参照して前記テスト用物体のテスト用先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体に対応する前記テスト用2Dバウンディングボックスに対するテスト用先行リグレッション情報を生成させることで、前記テスト用入力特徴マップと前記テスト用2Dバウンディングボックスとを生成することを特徴する。
本発明のまた他の態様によると、インスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似(Pseudo)3Dバウンディングボックスを検出する学習装置において、インストラクション(Instruction)を格納する少なくとも一つのメモリ;及び(I)プーリングレイヤをもって、少なくとも一つの入力特徴マップ上で少なくとも一つの2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、前記入力特徴マップは少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記2Dバウンディングボックスは、前記トレーニングイメージ内の少なくとも一つの物体を含み、FCレイヤをもって、前記プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応するボックスパターン情報を生成させるプロセス、(II)(II−1)分類レイヤをもって、前記ボックスパターン情報を参照して前記物体の方向に対応するクラス情報を生成させ、(II−2)リグレッションレイヤをもって、前記ボックスパターン情報を参照して前記2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するリグレッション情報を生成させ、(II−3)コンボリューションレイヤをもって、前記プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記リグレッション情報を参照して生成)に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを生成し、マスクレイヤをもって、前記インスタンス特徴マップと前記クラス情報とを参照して前記それぞれの表面に対応するマスクそれぞれを生成させるプロセス、及び(III)少なくとも一つのFCロスレイヤをもって、前記クラス情報と、前記リグレッション情報と、これに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習するプロセスを遂行するための前記インストラクションを実行するように構成された、少なくとも一つのプロセッサ;を含むことを特徴とする。
一実施例において、前記(II−3)プロセス以後に、前記プロセッサは、少なくとも一つのマスクロスレイヤをもって前記マスクそれぞれとこれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることで、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴する。
一実施例において、前記マスクレイヤは、FCN(Fully Convolutional Network)の少なくとも一部を含むことを特徴とする。
一実施例において、前記マスクは、前記それぞれのインスタンス特徴マップ上で前記物体が位置すると判断される少なくとも一つのピクセルと、前記物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする。
一実施例において、前記(II−3)プロセスで、前記プロセッサは、前記リグレッションレイヤをもって、(i)前記2Dバウンディングボックスの頂点から前記物体の前面と裏面それぞれに対応するそれぞれのインスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)前記2Dバウンディングボックスの中心から前記それぞれのインスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記2Dバウンディングボックスの幅/高さの割合と前記インスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記リグレッション情報を生成させることを特徴する。
一実施例において、対角線をなす前記2Dバウンディングボックスのそれぞれの頂点を第1頂点と第2頂点とし、前記第1頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第1インスタンスバウンディングボックスとし、前記第2頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第2インスタンスバウンディングボックスとする場合、前記プロセッサは、(i)前記第1及び前記第2インスタンスバウンディングボックスの頂点を連結し、前記頂点が前記2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、前記第1及び前記第2インスタンスバウンディングボックスの各頂点を連結し、前記頂点が前記2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、前記第1及び前記第2ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、(ii)前記2Dバウンディングボックスのどのライン上にも存在しない前記第2インスタンスバウンディングボックスの頂点を前記第1頂点と連結した後、前記2Dバウンディングボックスのどのライン上にも存在しない前記第1インスタンスバウンディングボックスの頂点を前記第2頂点と連結して、前記クラス情報を参照して前記疑似3Dバウンディングボックスを生成することを特徴する。
一実施例において、前記プロセッサは、CNN基盤の物体検出器から前記入力特徴マップと前記2Dバウンディングボックスとを取得することを特徴する。
一実施例において、前記物体検出器は、少なくとも一つの先行(Preceding)コンボリューションレイヤをもって、前記トレーニングイメージに対して前記コンボリューション演算を遂行して少なくとも一つの先行特徴マップを生成させ、少なくとも一つの先行RPNをもって、前記先行特徴マップから前記トレーニングイメージ内に位置する少なくとも一つの前記学習用物体に対応する少なくとも一つの先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記先行特徴マップ上で前記先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つの先行プーリング済み特徴マップを生成させ、少なくとも一つの先行FCレイヤをもって、前記先行プーリング済み特徴マップに対して少なくとも一回ニューラルネットワーク演算を適用させて前記学習用物体に対応する先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記先行物体パターン情報を参照して前記学習用物体の先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記先行物体パターン情報を参照して前記学習用物体に対応する前記2Dバウンディングボックスに関する先行リグレッション情報を生成させることで、前記入力特徴マップと前記2Dバウンディングボックスとを生成することを特徴する。
本発明のまた他の態様によると、インスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似(Pseudo)3Dバウンディングボックスを少なくとも一つ検出するテスト装置において、インストラクション(Instruction)を格納する少なくとも一つのメモリ;及び学習装置が(i)少なくとも一つの学習用入力特徴マップと少なくとも一つの学習用2Dバウンディングボックスとが取得された場合、前記学習用入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記学習用2Dバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含み、(ii)少なくとも一つのプーリングレイヤをもって、前記学習用入力特徴マップ上で前記学習用2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を少なくとも一回適用させて少なくとも一つの学習用プーリング済み特徴マップを生成させ、(iii)少なくとも一つのFCレイヤをもって、前記学習用プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応する学習用ボックスパターン情報を生成させ、(iv)少なくとも一つの分類レイヤをもって前記学習用ボックスパターン情報を参照して前記学習用物体の方向に対応する学習用クラス情報を生成し、(v)少なくとも一つのリグレッションレイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に対する学習用リグレッション情報を生成させ、(vi)少なくとも一つのコンボリューションレイヤをもって、前記学習用プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記学習用リグレッション情報を参照して生成)に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つの学習用インスタンス特徴マップを生成し、(vii)少なくとも一つのマスクレイヤをもって、前記学習用インスタンス特徴マップと前記学習用クラス情報とを参照して前記それぞれの表面に対応する学習用マスクそれぞれを生成させ、(viii)少なくとも一つのFCロスレイヤをもって、前記学習用クラス情報と、前記学習用リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習するようにして、前記クラスロスと前記リグレッションロスとをバックプロパゲーションして、前記FCレイヤを学習した状態で、(I)前記プーリングレイヤをもって、少なくとも一つのテスト用入力特徴マップ上で少なくとも一つのテスト用2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてテスト用プーリング済み特徴マップを生成させ、前記テスト用入力特徴マップは、少なくとも一つのテストイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記テスト用2Dバウンディングボックスは、前記テストイメージ内の少なくとも一つのテスト用物体を含み、FCレイヤをもって、前記テスト用プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応するテスト用ボックスパターン情報を生成させるプロセス、及び(II)(II−1)前記分類レイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用物体の方向に対応するテスト用クラス情報を生成させ、(II−2)リグレッションレイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するテスト用リグレッション情報を生成させ、(II−3)コンボリューションレイヤをもって、前記テスト用プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記テスト用リグレッション情報を参照して生成)に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのテスト用インスタンス特徴マップを生成し、マスクレイヤをもって、前記テスト用インスタンス特徴マップと前記テスト用クラス情報とを参照して、前記それぞれの表面に対応するテスト用マスクそれぞれを生成させるプロセスを遂行する前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とする。
一実施例において、前記(vii)プロセス以後に、前記学習装置が少なくとも一つのマスクロスレイヤをもって、前記学習用マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして、前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする。
一実施例において、前記テスト用マスクそれぞれは、前記それぞれのテスト用インスタンス特徴マップ上で前記テスト用物体が位置すると判断される少なくとも一つのピクセルと、前記テスト用物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする。
一実施例において、前記(II−2)プロセスで、前記プロセッサは、前記リグレッションレイヤをもって、(i)前記テスト用2Dバウンディングボックスの頂点から前記テスト用物体の前面と裏面それぞれに対応するそれぞれのテスト用インスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)前記テスト用2Dバウンディングボックスの中心から前記それぞれのテスト用インスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記テスト用2Dバウンディングボックスの幅/高さの割合と前記テスト用インスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記テスト用リグレッション情報を生成させることを特徴とする。
一実施例において、対角線をなす前記テスト用2Dバウンディングボックスのそれぞれの頂点を第1頂点と第2頂点とし、前記第1頂点に少なくとも一つの頂点がマッチングするテスト用インスタンスバウンディングボックスを第1テスト用インスタンスバウンディングボックスとし、前記第2頂点に少なくとも一つの頂点がマッチングするテスト用インスタンスバウンディングボックスを第2テスト用インスタンスバウンディングボックスとする場合、前記プロセッサは、(i)前記テスト用第1及び前記テスト用第2インスタンスバウンディングボックスの頂点を連結し、前記頂点が前記テスト用2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、前記テスト用第1及び前記テスト用第2インスタンスバウンディングボックスの頂点を連結し、前記頂点が前記テスト用2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、前記第1及び前記第2ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、(ii)前記テスト用2Dバウンディングボックスのどのライン上にも存在しない前記テスト用第2インスタンスバウンディングボックスの頂点を前記第1頂点と連結した後、前記テスト用2Dバウンディングボックスのどのライン上にも存在しない前記テスト用第1インスタンスバウンディングボックスの頂点を前記第2頂点と連結して、前記クラス情報を参照して前記疑似3Dバウンディングボックスを生成することを特徴する。
一実施例において、前記プロセッサは、CNN基盤の物体検出器から前記テスト用入力特徴マップと前記テスト用2Dバウンディングボックスとを取得することを特徴する。
一実施例において、前記物体検出器は、少なくとも一つの先行コンボリューションレイヤをもって前記テストイメージに対して前記コンボリューション演算を遂行して少なくとも一つのテスト用先行特徴マップを生成させ、少なくとも一つの先行RPNをもって、前記テスト用先行特徴マップから前記テストイメージ内に位置する少なくとも一つの前記テスト用物体に対応する少なくとも一つのテスト用先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記テスト用先行特徴マップ上で前記テスト用先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つのテスト用先行プーリング済み特徴マップを生成させ、少なくとも一つの先行FCレイヤをもって、前記テスト用先行プーリング済み特徴マップに対して前記ニューラルネットワーク演算を適用させて前記テスト用物体に対応するテスト用先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって前記テスト用先行物体パターン情報を参照して前記テスト用物体のテスト用先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体に対応する前記テスト用2Dバウンディングボックスに対するテスト用先行リグレッション情報を生成させることで、前記テスト用入力特徴マップと前記テスト用2Dバウンディングボックスとを生成することを特徴する。
この他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。
本発明は、3D座標生成のための複雑な演算なしに、物体の3Dバウンディングボックスを生成することができ、物体検出の正確性を向上させることができる効果がある。
また、本発明は、疑似3Dバウンディングボックスを利用することで、3D物体に外接する3Dバウンディングボックスを単純化することができる他の効果がある。
また、本発明は、疑似3Dボックスの位置に対する頂点の2D座標を利用することで、コンピューティングリソースと演算時間を減少させることが可能なまた他の効果がある。
本発明の実施例の説明に利用されるために添付された以下の図面は、本発明の実施例のうち単に一部であるにすぎず、本発明の属する技術分野において通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
図1は、本発明の一実施例によるインスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似3Dバウンディングボックスを検出する学習装置を簡略に示したものである。 図2は、本発明の一実施例によるインスタンスセグメンテーションを利用したCNN基盤の疑似3Dバウンディングボックスを検出する学習方法を簡略に示したものである。 図3は、本発明の一実施例によるインスタンスセグメンテーションを利用したCNN基盤の疑似3Dバウンディングボックスを検出する学習方法において、物体方向のクラスを簡略に示したものである。 図4は、本発明の一実施例によるインスタンスセグメンテーションを利用したCNN基盤の疑似3Dバウンディングボックスを検出する学習方法において、疑似3Dバウンディングボックスの位置情報を生成するプロセスを簡略に示したものである。 図5は、本発明の一実施例によるインスタンスセグメンテーションを利用したCNN基盤の疑似3Dバウンディングボックスを検出する学習方法において、疑似3Dバウンディングボックスの位置情報を生成する他のプロセスを簡略に示したものである。 図6は、本発明の一実施例によるインスタンスセグメンテーションを利用したCNN基盤の疑似3Dバウンディングボックスを検出するテスト装置を簡略に示したものである。 図7は、本発明の一実施例によるインスタンスセグメンテーションを利用したCNN基盤の疑似3Dバウンディングボックスを検出するテスト方法を簡略に示したものである。 図8は、本発明の一実施例によるインスタンスセグメンテーションを利用したCNN基盤の疑似3Dバウンディングボックスを検出するテスト方法によって生成された疑似3Dバウンディングボックスを簡略に示したものである。
後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施するようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することとする。
図1は、本発明の一実施例によるインスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似3Dバウンディングボックスを検出する学習装置を簡略に示したものであって、図1を参照すると、学習装置100は、通信部110とプロセッサ120とを含むことができる。また、学習装置は、次のプロセスを遂行するためのコンピュータ読取り可能なインストラクション(Instruction)を格納することができるメモリ115をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は、統合プロセッサ(Integrated Processor)として統合され得る。
先ず、通信部110は、少なくとも一つの入力特徴マップと少なくとも一つの2Dバウンディングボックスとを取得することができる。ここで、入力特徴マップは、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、2Dバウンディングボックスは、トレーニングイメージにおいて少なくとも一つの物体に外接するボックスを設定する。
この際、通信部110は、データベース130に格納されたトレーニングイメージを物体検出器に入力することによって、データベース130またはCNN基盤の物体検出器から入力特徴マップ上の情報と2Dバウンディングボックスとを取得するか又は他の装置によって取得することができるよう支援することができる。物体検出器を利用して入力特徴マップと2Dバウンディングボックスとを生成するプロセスは、以下で詳しく説明することにする。そして、データベース130には、2Dバウンディングボックスに対応する物体の方向に関するクラス情報及び疑似3Dバウンディングボックスの位置情報に対する少なくとも一つの原本正解(Ground Truth)が格納されていてもよい。これに加えて、データベース130には、トレーニングイメージ内の物体の2Dバウンディングボックスに対する位置情報に対応する少なくとも一つの原本正解及び物体クラスに対応する少なくとも一つの原本正解が格納されていてもよい。
次に、プロセッサ120は、少なくとも一つのプーリングレイヤ(Pooling Layer)をもって、入力特徴マップ上で2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を少なくとも一回適用させて少なくとも一つのプーリング済み特徴マップを生成させ、少なくとも一つのFCレイヤをもってプーリング済み特徴マップに対してニューラルネットワーク演算を少なくとも一回適用させて、疑似3Dバウンディングボックスに対応するボックスパターン情報を生成させる。そして、プロセッサ120は(i)少なくとも一つの分類レイヤをもって、ボックスパターン情報を参照して物体の方向に対応するクラス情報を生成させ、(ii)少なくとも一つのリグレッションレイヤをもって、ボックスパターン情報を参照して2Dバウンディングボックスの座標に対応する疑似3Dバウンディングボックスの座標に関するリグレッション情報を出力させ、(iii)少なくとも一つのコンボリューションレイヤをもって、プーリング済み特徴マップ上で疑似3Dバウンディングボックスのそれぞれの面(リグレッション情報、すなわち、疑似3Dバウンディングボックスの座標に関する情報を参照して生成された面)に対応する領域それぞれに対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを出力させ、少なくとも一つのマスクレイヤをもって、インスタンス特徴マップとクラス情報とを参照して、それぞれの該当面に対応するマスクそれぞれを生成させる。以後、プロセッサ120は、少なくとも一つのFCロスレイヤをもって、クラス情報と、リグレッション情報と、これに対応する原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成することにより、クラスロス及びリグレッションロスを利用したバックプロパゲーションを通じてFCレイヤのパラメータを学習することができる。
また、プロセッサ120は、少なくとも一つのマスクロスレイヤをもって、それぞれのマスク情報とこれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成することにより、マスクロスをバックプロパゲーションしてマスクレイヤ及びコンボリューションレイヤのうち少なくとも一部のパラメータを調整することができる。
この際、本発明の一実施例による学習装置100は、コンピュータ装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明による学習装置100として採択され得る。また、図1では、一つの学習装置100のみを示したが、これに限定されず、学習装置100は複数個に分けて役割を遂行することもできる。
本発明の一実施例による学習装置100を利用して、インスタンスセグメンテーションを利用したCNN基盤の疑似3Dバウンディングボックスを検出する学習方法を図2を参照して説明すると次のとおりである。
まず、学習装置100は、トレーニングイメージに対してコンボリューション演算を遂行して生成された特徴マップと、トレーニングイメージ内に物体を含む2Dバウンディングボックスとを取得することができる。
この際、学習装置100は、トレーニングイメージを物体検出器に入力することによって、データベース130またはCNN基盤の物体検出器10から入力特徴マップ上の情報と2Dバウンディングボックスとを取得するか又は他の装置によって取得することができるよう支援することができる。
そして、物体検出器10から入力特徴マップと2Dバウンディングボックスとを取得するプロセスを簡略に説明すると次のとおりである。
この際、「先行(Preceding)」という用語は、学習装置100における混乱を防ぐために、本発明で最も重要な装置である学習装置100の入力端のすぐ前に配置され得る物体検出器10内のレイヤ、入力及び出力に関して使用され得る。
以下、物体検出器10内のそれぞれのレイヤに対する演算は、物体検出器10によって制御されるが、場合に応じて学習装置100によって制御されてもよい。
物体検出器10が、データベースからトレーニングイメージを取得した後、物体検出器10が学習された少なくとも一つの先行コンボリューションレイヤ11をもって、トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの先行特徴マップを出力させる。そして、物体検出器10は、少なくとも一つのRPN12をもって、先行特徴マップからトレーニングイメージ内の物体に対応する先行プロポーザルボックスを生成させ、少なくとも一つのプーリングレイヤ13をもって、それぞれのプロポーザルボックスに対応する先行特徴マップ上のそれぞれの領域に対してプーリング演算を適用させて少なくとも一つの先行プーリング済み特徴マップを生成させる。以後、物体検出器10は、学習された少なくとも一つの先行FCレイヤ14をもって、先行プーリング済み特徴マップに対してニューラルネットワーク演算を適用させ、物体に対応する物体パターン情報を生成させる。その際、特徴に対応する先行物体パターン情報は、検出しようとする物体クラスのうち予測される物体クラスに関する情報と、バウンディングボックスに関する位置情報を含むことができる。そして、物体検出器10は、少なくとも一つの先行分類レイヤ15をもって、先行物体パターン情報を参照して物体に対する先行クラス情報(例えば、検出しようとするそれぞれのクラスの確率情報)を生成させ、少なくとも一つの先行リグレッションレイヤ16をもって、先行物体パターン情報を参照して物体に対応する先行リグレッション情報を生成させることができる。この際、2Dバウンディングボックスは、先行プロポーザルボックスと先行リグレッション情報とを参照して生成され得る。これを通じて、学習装置100は、CNN基盤の物体検出器10の先行コンボリューションレイヤ11から生成される先行特徴マップと、先行リグレッションレイヤ16から生成される先行リグレッション情報とを利用して、入力特徴マップとトレーニングイメージ内の物体に対する2Dバウンディングボックスとを取得することができる。
次に、入力特徴マップと2Dバウンディングボックスとが取得されると、学習装置100は、プーリングレイヤ121をもって、入力特徴マップ上で2Dバウンディングボックスに対応する領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、FCレイヤ122をもってプーリング済み特徴マップに対してニューラルネットワーク演算を適用させて、疑似3Dバウンディングボックスに対応するパターン情報を生成させる。この際、特徴に対応する疑似3Dバウンディングボックスのパターン情報は、検出しようとする物体の方向クラスのうち予測される方向クラスに関する情報と疑似3Dバウンディングボックスに関する予測される位置情報とを含むことができる。
次に、学習装置100は、分類レイヤ123をもって、FCレイヤ122から生成されるボックスパターン情報を参照して物体の方向に対応するクラス情報を生成させる。一例として、学習装置100は、分類レイヤ123をもって、ボックスパターン情報を参照して検出しようとするそれぞれの方向クラスに関する確率情報を生成させることができ、これを通じて確率が最も高いクラスを物体の方向クラスと判別することができるようになる。
この際、図3を参照すると、方向クラスは物体の方向を判別するためのものであって、自動車を例を挙げると、方向クラスそれぞれは(a)の場合、物体の裏面を、(b)の場合、物体の右側裏面を、(c)の場合、物体の右側面を、(d)の場合、物体の右側前面を、(e)の場合、物体の前面を、(f)の場合、物体の左側前面、(g)の場合、物体の左側面を、(h)の場合、物体の左側裏面を示す。
そして、学習装置100は、リグレッションレイヤ124をもって、FCレイヤ122からのボックスパターン情報を参照して2Dバウンディングボックスの座標に対応する疑似3Dバウンディングボックスの座標に関するリグレッション情報を生成させることができる。
すなわち、学習装置100は、リグレッションレイヤ124をもって、(i)2Dバウンディングボックスの頂点から物体の前面と裏面それぞれに対応するそれぞれのインスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)2Dバウンディングボックスの中心からそれぞれのインスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び2Dバウンディングボックスの幅/高さの割合とインスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、リグレッション情報を生成させる。この際、それぞれのインスタンスバウンディングボックスの少なくとも一つの頂点それぞれが、対角線をなす2Dバウンディングボックスのそれぞれの頂点にそれぞれ対応することができる。
一例として、図4を参照すると、(i)物体の前面と裏面のうちいずれか一面に対応するインスタンスバウンディングボックスの頂点P1、P2、P3、P4と(ii)2Dバウンディングボックスの頂点B1、B2、B3、B4との間のそれぞれの変位、及び(i)物体の前面と裏面のうち他の一面に対応する他のインスタンスバウンディングボックスの頂点P5、P6、P7、P8と頂点B1、B2、B3、B4との間の変位を含むリグレッション情報が生成され得る。この際、一つのインスタンスバウンディングボックスの頂点P1は、2Dバウンディングボックスの頂点B1とマッチングされ得、他のインスタンスバウンディングボックスの頂点P8は、2Dバウンディングボックスの頂点B4とマッチングされ得る。また、物体の前面と裏面についての判別は、分類レイヤ123からのクラス情報を通じて確認することができる。
そして、リグレッション情報は、一つのインスタンスバウンディングボックス内の左側上段にある頂点P1とP5との間の変位及び他のインスタンスのボックス内の右下にある頂点P4とP8との間の変位をそれぞれ含むことができ、この場合、一つのインスタンスバウンディングボックスの左側上段にある頂点であるP1は、2Dバウンディングボックスの左側上段にある頂点であるB1にマッチングし、他のインスタンスバウンディングボックスの右側下段にある頂点であるP8は、2Dバウンディングボックスの右側下段にある頂点であるB4にマッチングするので、リグレッション情報は頂点B4と頂点P4との間の変位、及び頂点B1と頂点P5との間の変位を含むことができる。一方、これとは異なり、リグレッション情報は一つのインスタンスバウンディングボックスの頂点P1、P2、P3、P4から他のインスタンスバウンディングボックスの頂点P5、P6、P7、P8までのそれぞれの変位を含むようにすることもできる。
他の例として、図5を参照すると、リグレッション情報は、(i)物体の前面と裏面のうちいずれか一面に対応する一つのインスタンスバウンディングボックスの頂点P1、P2、P3、P4の中心であるC1と、2Dバウンディングボックスの頂点B1、B2、B3、B4の中心であるC0との間の変位、(ii)物体の前面と裏面のうち他の一面に対応する他のインスタンスバウンディングボックスの頂点P5、P6、P7、P8の中心であるC2と、2Dバウンディングボックスの頂点B1、B2、B3、B4の中心であるC0との間の変位、及び(iii)一つのインスタンスバウンディングボックスの頂点P1、P2、P3、P4の幅であるW1と高さであるH1から2Dバウンディングボックスの幅であるW0と高さであるH0までのそれぞれの変位、及び他のインスタンスバウンディングボックスの幅であるW2と高さであるH2から2Dバウンディングボックスの幅であるW0と高さであるH0までのそれぞれの変位を含み得、これを通じてリグレッション情報を参照して一つのインスタンスバウンディングボックス及び他のインスタンスバウンディングボックスのそれぞれの頂点に対する座標を確認することができるようになる。
一方、対角線をなす2Dバウンディングボックスのそれぞれの頂点(例えば、B1とB4)を第1頂点と第2頂点とし、第1頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第1インスタンスバウンディングボックスとし、第2頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第2インスタンスバウンディングボックスとする場合、学習装置100は(i)第1及び第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、第1及び第2インスタンスバウンディングボックスの各頂点を連結し、前記頂点が2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、第1及び第2ペアそれぞれにある二つの隣接したラインが対角線をなす頂点それぞれのどの頂点とも接さず、(ii)2Dバウンディングボックスのどのライン上にも存在しない第2インスタンスバウンディングボックスの頂点を第1頂点と連結した後、2Dバウンディングボックスのどのライン上にも存在しない第1インスタンスバウンディングボックスの頂点を第2頂点と連結して、クラス情報を参照して疑似3Dバウンディングボックスを生成することができる。
つまり、図4または図5のように、頂点B1から始まって頂点B2を経て頂点B4までのライン上に位置する、一つのインスタンスバウンディングボックスの頂点P2と他のインスタンスバウンディングボックスの頂点P6とは連結され得、頂点B1から始まって頂点B3を経て頂点B4までのライン上に位置する、一つのインスタンスバウンディングボックスの頂点P3と他のインスタンスバウンディングボックスの頂点P7とは連結され得る。そして、一つのインスタンスバウンディングボックスの頂点P1と他のインスタンスバウンディングボックスの頂点P5とが連結され、頂点P4が頂点P8と連結され得る。これを通じて学習装置100は、六面体の形態で疑似3Dバウンディングボックスを生成することができ、疑似3Dバウンディングボックスは、頂点P1、P2、P4、P3によって形成される一面と、頂点P5、P6、P8、P7によって形成される一面と、頂点P1、P5、P7、P3によって形成される一面と、頂点P2、P6、P8、P4によって形成される一面と、頂点P1、P2、P6、P5によって形成される一面と、頂点P3、P4、P8、P7によって形成される一面とを含むようになる。
次に、学習装置100はコンボリューションレイヤ125をもって、プーリング済み特徴マップ上でリグレッション情報を参照して疑似3Dバウンディングボックスのそれぞれの面に対応するそれぞれの領域に対してコンボリューション演算を適用してインスタンス特徴マップを生成させ、マスクレイヤ126をもって、インスタンス特徴マップとクラス情報とを参照してそれぞれの前記面に対応するそれぞれのマスクを生成させる。
この際、マスクは、それぞれのインスタンス特徴マップ上で物体が位置すると判断される少なくとも一つのピクセルと、物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であり得る。また、マスクレイヤ126は、FCN(Fully Convolutional Network)の少なくとも一部を含むことができる。
次に、学習装置100はFCロスレイヤ127−1、127−2をもって、クラス情報、リグレッション情報と、これに対応する原本正解(つまり、方向クラスに対する原本正解と疑似3Dバウンディングボックスに対する原本正解)とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成することにより、クラスロス及びリグレッションロスをバックプロパゲーションしてFCレイヤ122のパラメータを学習することができる。
また、学習装置100は、少なくとも一つのマスクロスレイヤ127−3をもって、それぞれのマスクとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成することにより、マスクロスをバックプロパゲーションしてマスクレイヤ126及びコンボリューションレイヤ125のうち少なくとも一部のパラメータを調整することができる。
参考までに、以下の説明において混同を避けるため、「学習用」という文言は、前述の学習プロセスに関連する用語に対して追加され、「テスト用」という文言は、テストプロセスに関連する用語に対して追加される。
図6は、本発明の一実施例によるインスタンスセグメンテーションを利用したCNN基盤の疑似3Dバウンディングボックスを検出するテスト装置を簡略に示したものであって、図6を参照すると、テスト装置200は通信部210とプロセッサ220を含むことができる。また、次のプロセスを遂行するためのコンピュータ読取り可能なインストラクション(Instruction)を格納することができるメモリ115をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は、統合プロセッサ(Integrated Processor)として統合され得る。
まず、図1と図2とを参照して説明した学習装置が、(a)少なくとも一つの学習用入力特徴マップと少なくとも一つの学習用2Dバウンディングボックスとを取得し、学習用入力特徴マップは、少なくとも一つのトレーニングイメージに対してコンボリューション演算を適用して生成され、学習用2Dバウンディングボックスは、トレーニングイメージ内の少なくとも一つの学習用物体を含むと、(i)プーリングレイヤをもって入力特徴マップ上で学習用2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させて学習用プーリング済み特徴マップを生成させ、(ii)FCレイヤをもって学習用プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を適用させて、疑似3Dバウンディングボックスに対応する学習用ボックスパターン情報を生成させ、(b)(i)分類レイヤをもって、学習用ボックスパターン情報を参照して学習用物体の方向に対応する学習用クラス情報を生成させ、(ii)リグレッションレイヤをもって、学習用ボックスパターン情報を参照して学習用2Dバウンディングボックスの座標に対応する疑似3Dバウンディングボックスの座標に対する学習用リグレッション情報を生成させ、(iii)コンボリューションレイヤをもって、学習用プーリング済み特徴マップ上の疑似3Dバウンディングボックスのそれぞれの表面(学習用リグレッション情報を参照して生成)に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つの学習用インスタンス特徴マップを生成し、マスクレイヤをもって、学習用インスタンス特徴マップと学習用クラス情報とを参照してそれぞれの表面に対応する学習用マスクそれぞれを生成させ、(c)FCロスレイヤをもって、学習用クラス情報と、学習用リグレッション情報と、これに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることにより、クラスロス及びリグレッションロスをバックプロパゲーションしてFCレイヤのパラメータを学習を遂行した状態で、通信部210は、少なくとも一つのテストイメージに対してコンボリューション演算を適用して生成された少なくとも一つのテスト用入力特徴マップと、テストイメージ内の少なくとも一つのテスト用物体に対する少なくとも一つのテスト用2Dバウンディングボックスとを取得するか又は他の装置によって取得することができるよう支援することができる。この際、通信部210は、テスト用入力特徴マップと少なくとも一つのテスト用2Dバウンディングボックスとを取得し、テスト用入力特徴マップは少なくとも一つのトレーニングイメージに対してコンボリューション演算を適用して生成され、テスト用2Dバウンディングボックスがトレーニングイメージ内の少なくとも一つの学習用物体を含む。
次に、プロセッサ220は、(a)(i)プーリングレイヤをもって、少なくとも一つのテスト用入力特徴マップ上でテスト用2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させて、テスト用プーリング済み特徴マップを生成させ、(ii)FCレイヤをもってテスト用プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を適用させて、疑似3Dバウンディングボックスに対応するテスト用ボックスパターン情報を生成させる第1プロセス、及び(b)(i)分類レイヤをもってテスト用ボックスパターン情報を参照して少なくとも一つのテスト用物体の方向に対応するテスト用クラス情報を生成させ、(ii)リグレッションレイヤをもって、テスト用ボックスパターン情報を参照してテスト用2Dバウンディングボックスの座標に対応する疑似3Dバウンディングボックスの座標に関するテスト用リグレッション情報を生成させ、(iii)コンボリューションレイヤをもってテスト用プーリング済み特徴マップ上の疑似3Dバウンディングボックスのそれぞれの表面(テスト用リグレッション情報を参照して生成)に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのテスト用インスタンス特徴マップを生成し、マスクレイヤをもって、テスト用インスタンス特徴マップとテスト用クラス情報とを参照してそれぞれの表面に対応するテスト用マスクそれぞれを生成させる第2プロセスを遂行するか又は他の装置をもって遂行を支援する。
この際、本発明の一実施例によるテスト装置200はコンピュータ装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明によるテスト装置200として採択され得る。また、図6では一つのテスト装置200のみを示したが、これに限定されず、テスト装置は複数個に分けて役割を遂行することもできる。
このように構成された本発明の一実施例によるテスト装置200を利用して、インスタンスセグメンテーションを用いたCNN基盤の疑似3Dバウンディングボックスを検出するテスト方法を図7を参照して説明すると次のとおりである。以下の説明で、図2ないし図5を参照して説明した学習方法から容易に理解可能な部分については詳細な説明を省略することとする。
まず、図2ないし図5を参照して説明した学習方法によってFCレイヤ222、コンボリューションレイヤ225及びマスクレイヤ226が学習された状態で、テストイメージがCNN基盤の物体検出器10に入力されると、テスト装置200は、物体検出器10からテスト用入力特徴マップとテスト用2Dバウンディングボックスとを取得するか又は他の装置によって取得するように支援する。
つまり、物体検出器10が、先行コンボリューションレイヤ11をもって、テストイメージに対してコンボリューション演算を適用して少なくとも一つのテスト用先行特徴マップを出力させる。そして、物体検出器10は、先行RPN12をもって、テスト用先行特徴マップからテストイメージ内に位置するテスト用物体に対応するテスト用先行プロポーザルボックスそれぞれを生成させ、先行プーリングレイヤ13をもって、テスト用先行プロポーザルボックスに対応するテスト用先行特徴マップ上のそれぞれの領域に対してプーリング演算を適用させて少なくとも一つのテスト用先行プーリング済み特徴マップを生成させる。以後、物体検出器10は、先行FCレイヤ14をもって、テスト用先行プーリング済み特徴マップに対してニューラルネットワーク演算を適用させてテスト用物体に対応するテスト用先行物体パターン情報を生成させる。そして、物体検出器10は、先行分類レイヤ15をもって、テスト用先行物体パターン情報を参照してテスト用物体に対するテスト用クラス情報を生成させ、先行リグレッションレイヤ16をもって、テスト用先行物体パターン情報を参照してテスト用物体に対応するテスト用先行リグレッション情報を生成させることができる。これを通じてテスト装置200は、CNN基盤の物体検出器10の先行コンボリューションレイヤ11から生成されるテスト用先行特徴マップと、先行リグレッションレイヤ16から生成されるテスト用先行リグレッション情報とを利用して、テスト用入力特徴マップとテストイメージ内のテスト用物体に対するテスト用2Dバウンディングボックスを取得するか又は他の装置によって取得することができるよう支援することができる。
次に、テストイメージに対してコンボリューション演算を適用して生成されたテスト用入力特徴マップとテストイメージ内にテスト用物体を含むテスト用2Dバウンディングボックスとが取得されると、テスト装置200はプーリングレイヤ221をもって、テスト用入力特徴マップ上でテスト用2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてテスト用プーリング済み特徴マップを生成させ、FCレイヤ222をもって、テスト用プーリング済み特徴マップに対してニューラルネットワーク演算を適用させて、疑似3Dバウンディングボックスに対応するテスト用ボックスパターン情報を生成させる。
次に、テスト装置200は、分類レイヤ223をもって、FCレイヤ222から出力されるテスト用ボックスパターン情報を参照してテスト用物体の方向に対応するテスト用クラス情報を生成させる。
そして、テスト装置200は、リグレッションレイヤ224をもって、FCレイヤ222から生成されるテスト用ボックスパターン情報を参照してテスト用2Dバウンディングボックスの座標に対応する疑似3Dバウンディングボックスの座標に関するテスト用リグレッション情報を生成させることができる。
次に、テスト装置200は、コンボリューションレイヤ225をもって、テスト用プーリング済み特徴マップ上でテスト用リグレッション情報を参照して疑似3Dバウンディングボックスのそれぞれの面に対応するそれぞれの領域に対してコンボリューション演算を適用させてテスト用インスタンス特徴マップを生成させ、マスクレイヤ226をもって、テスト用インスタンス特徴マップとテスト用クラス情報とを参照してそれぞれの該当面に対応するマスクそれぞれを生成させる。
そうすると、図8から分かるように、テスト装置200は、テスト用2Dバウンディングボックス内のテスト用物体に対して、テスト用リグレッション情報とテスト用マスクそれぞれを利用してテスト用物体のそれぞれの面に対してインスタンスセグメンテーションが遂行された疑似3Dバウンディングボックスを生成するか又は他の装置によって生成するように支援することができる。
CNNは、検出された物体の姿勢に応じてモードを切り換えることができ、仮想走行やこれと類似した環境で現実的なレンダリングに使用され得る。疑似3Dバウンディングボックスは、ライダ(Lidar)またはレーダを介して取得され、表面はカメラを利用してセグメンテーションされるので、疑似3Dバウンディングボックスのそれぞれの表面に対する陰影情報は学習に反映され得る。
また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な格納媒体に格納され得る。前記コンピュータ読取り可能な格納媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な格納媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な格納媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光格納媒体、フロプティカル・ディスク(floptical disk)のような磁気−光メディア(magneto−optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。
110:通信部
120:プロセッサ
130:データベース
200:テスト装置
210:通信部
220:プロセッサ

Claims (30)

  1. インスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似(Pseudo)3Dバウンディングボックスを少なくとも一つ検出する方法において、
    (a)少なくとも一つの入力特徴マップと少なくとも一つの2Dバウンディングボックスとが取得される際に、前記入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記2Dバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含むと、学習装置が、プーリングレイヤをもって前記入力特徴マップ上で前記2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、FCレイヤをもって、前記プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックス(pseudo−3D bounding box)に対応するボックスパターン情報を生成させる段階;
    (b)前記学習装置が、(i)分類レイヤをもって、前記ボックスパターン情報を参照して前記物体の方向に対応するクラス情報を生成させ、(ii)リグレッションレイヤをもって、前記ボックスパターン情報を参照して前記2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するリグレッション情報を生成させ、(iii)コンボリューションレイヤをもって、前記プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記それぞれの表面は前記リグレッション情報を参照して生成される)に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを生成し、マスクレイヤをもって、前記インスタンス特徴マップと前記クラス情報とを参照して前記それぞれの表面に対応するマスクそれぞれを生成させる段階;及び
    (c)前記学習装置が、少なくとも一つのFCロスレイヤをもって、前記クラス情報と、前記リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることにより、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習する段階;
    を含むことを特徴とする検出方法。
  2. 前記(b)段階以後に、
    前記学習装置は、少なくとも一つのマスクロスレイヤをもって、前記マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする請求項1に記載の方法。
  3. 前記マスクレイヤは、FCN(Fully Convolutional Network)の少なくとも一部を含むことを特徴とする請求項1に記載の方法。
  4. 前記マスクは、前記それぞれのインスタンス特徴マップ上で、前記物体が位置すると判断される少なくとも一つのピクセルと、前記物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする請求項1に記載の方法。
  5. 前記(b)段階で、
    前記学習装置は、前記リグレッションレイヤをもって、(i)前記2Dバウンディングボックスの頂点から前記物体の前面と裏面それぞれに対応するそれぞれのインスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)前記2Dバウンディングボックスの中心から前記それぞれのインスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記2Dバウンディングボックスの幅/高さの割合と前記インスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記リグレッション情報を生成させることを特徴とする請求項1に記載の方法。
  6. 対角線をなす前記2Dバウンディングボックスのそれぞれの頂点を第1頂点と第2頂点とし、前記第1頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第1インスタンスバウンディングボックスとし、前記第2頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第2インスタンスバウンディングボックスとする場合、
    前記学習装置は、(i)前記第1及び前記第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、前記第1及び前記第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、前記第1及び前記第2ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす各頂点それぞれのどの各頂点とも接さず、(ii)前記2Dバウンディングボックスのどのライン上にも存在しない前記第2インスタンスバウンディングボックスの頂点を前記第1頂点と連結した後、前記2Dバウンディングボックスのどのライン上にも存在しない前記第1インスタンスバウンディングボックスの頂点を前記第2頂点と連結し、前記クラス情報を参照して前記疑似3Dバウンディングボックスを生成することを特徴とする請求項5に記載の方法。
  7. 前記学習装置は、CNN基盤の物体検出器から前記入力特徴マップと前記2Dバウンディングボックスとを取得することを特徴とする請求項1に記載の方法。
  8. 前記物体検出器は、少なくとも一つの先行(Preceding)コンボリューションレイヤをもって、前記トレーニングイメージに対して前記コンボリューション演算を遂行して少なくとも一つの先行特徴マップを生成させ、少なくとも一つの先行RPNをもって、前記先行特徴マップから前記トレーニングイメージ内に位置する少なくとも一つの前記学習用物体に対応する少なくとも一つの先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記先行特徴マップ上で前記先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つの先行プーリング済み特徴マップを生成させ、少なくとも一つの先行FCレイヤをもって、前記先行プーリング済み特徴マップに対して少なくとも一回ニューラルネットワーク演算を適用させて前記学習用物体に対応する先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記先行物体パターン情報を参照して前記学習用物体の先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記先行物体パターン情報を参照して前記学習用物体に対応する前記2Dバウンディングボックスに関する先行リグレッション情報を生成させることで、前記入力特徴マップと前記2Dバウンディングボックスとを生成することを特徴とする請求項7に記載の方法。
  9. インスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似(Pseudo)3Dバウンディングボックスを少なくとも一つ検出するテスト方法において、
    (a)学習装置が(i)少なくとも一つの学習用入力特徴マップと少なくとも一つの学習用2Dバウンディングボックスとが取得された場合、前記学習用入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記学習用2Dバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含み、(ii)少なくとも一つのプーリングレイヤをもって、前記学習用入力特徴マップ上で前記学習用2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を少なくとも一回適用させて少なくとも一つの学習用プーリング済み特徴マップを生成させ、(iii)少なくとも一つのFCレイヤをもって、前記学習用プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応する学習用ボックスパターン情報を生成させ、(iv)少なくとも一つの分類レイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用物体の方向に対応する学習用クラス情報を生成し、(v)少なくとも一つのリグレッションレイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に対する学習用リグレッション情報を生成させ、(vi)少なくとも一つのコンボリューションレイヤをもって、前記学習用プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記それぞれの表面は前記学習用リグレッション情報を参照して生成される)に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つの学習用インスタンス特徴マップを生成し、(vii)少なくとも一つのマスクレイヤをもって、前記学習用インスタンス特徴マップと前記学習用クラス情報とを参照して前記それぞれの表面に対応する学習用マスクそれぞれを生成させ、(viii)少なくとも一つのFCロスレイヤをもって、前記学習用クラス情報と、前記学習用リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習した状態で、テスト装置が、前記プーリングレイヤをもって、少なくとも一つのテスト用入力特徴マップ上で少なくとも一つのテスト用2Dバウンディングボックスに対応する少なくとも一つの領域に対して前記プーリング演算を適用させて少なくとも一つのテスト用プーリング済み特徴マップを生成させ、前記FCレイヤをもって、前記テスト用プーリング済み特徴マップに対して前記ニューラルネットワーク(Neural Network)演算を適用させて前記疑似3Dバウンディングボックスに対応するテスト用ボックスパターン情報を生成させる段階;及び
    (b)前記テスト装置が、(i)前記分類レイヤをもって、前記テスト用ボックスパターン情報を参照して少なくとも一つのテスト用物体の方向に対応するテスト用クラス情報を生成させ、(ii)前記リグレッションレイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するテスト用リグレッション情報を生成させ、(iii)前記コンボリューションレイヤをもって、前記テスト用プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記表面は前記テスト用リグレッション情報を参照して生成される)に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つのテスト用インスタンス特徴マップを生成し、前記マスクレイヤをもって、前記テスト用インスタンス特徴マップと前記テスト用クラス情報とを参照して前記それぞれの表面に対応するテスト用マスクそれぞれを生成させる段階;
    を含むことを特徴とするテスト方法。
  10. 前記(vii)プロセス以後に、
    前記学習装置は、少なくとも一つのマスクロスレイヤをもって、前記学習用マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする請求項9に記載のテスト方法。
  11. 前記テスト用マスクそれぞれは、前記それぞれのテスト用インスタンス特徴マップ上で前記テスト用物体が位置すると判断される少なくとも一つのピクセルと、前記テスト用物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする請求項9に記載のテスト方法。
  12. 前記(b)段階で、
    前記テスト装置は、前記リグレッションレイヤをもって、(i)前記テスト用2Dバウンディングボックスの頂点から前記テスト用物体の前面と裏面それぞれに対応するそれぞれのテスト用インスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)前記テスト用2Dバウンディングボックスの中心から前記それぞれのテスト用インスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記テスト用2Dバウンディングボックスの幅/高さの割合と前記テスト用インスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記テスト用リグレッション情報を生成させることを特徴とする請求項9に記載のテスト方法。
  13. 対角線をなす前記テスト用2Dバウンディングボックスのそれぞれの頂点を第1頂点と第2頂点とし、前記第1頂点に少なくとも一つの頂点がマッチングする前記テスト用インスタンスバウンディングボックスをテスト用第1インスタンスバウンディングボックスとし、前記第2頂点に少なくとも一つの頂点がマッチングする前記テスト用インスタンスバウンディングボックスをテスト用第2インスタンスバウンディングボックスとする場合、
    前記テスト装置は、(i)前記テスト用第1及び前記テスト用第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記テスト用2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、前記テスト用第1及び前記テスト用第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記テスト用2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、前記第1及び前記第2ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、(ii)前記テスト用2Dバウンディングボックスのどのライン上にも存在しない前記テスト用第2インスタンスバウンディングボックスの頂点を前記第1頂点と連結した後、前記テスト用2Dバウンディングボックスのどのライン上にも存在しない前記テスト用第1インスタンスバウンディングボックスの頂点を前記第2頂点と連結して、前記クラス情報を参照して前記疑似3Dバウンディングボックスを生成することを特徴とする請求項12に記載のテスト方法。
  14. 前記テスト装置は、CNN基盤の物体検出器から前記テスト用入力特徴マップと前記テスト用2Dバウンディングボックスとを取得することを特徴とする請求項9に記載のテスト方法。
  15. 前記物体検出器は、少なくとも一つの先行コンボリューションレイヤをもって、前記テストイメージに対して前記コンボリューション演算を遂行して少なくとも一つのテスト用先行特徴マップを生成させ、少なくとも一つの先行RPNをもって、前記テスト用先行特徴マップから前記テストイメージ内に位置する少なくとも一つの前記テスト用物体に対応する少なくとも一つのテスト用先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記テスト用先行特徴マップ上で前記テスト用先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つのテスト用先行プーリング済み特徴マップを生成させ、少なくとも一つの先行FCレイヤをもって、前記テスト用先行プーリング済み特徴マップに対して前記ニューラルネットワーク演算を適用させて前記テスト用物体に対応するテスト用先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体のテスト用先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体に対応する前記テスト用2Dバウンディングボックスに対するテスト用先行リグレッション情報を生成させることで、前記テスト用入力特徴マップと前記テスト用2Dバウンディングボックスとを生成することを特徴とする請求項14に記載のテスト方法。
  16. インスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似(Pseudo)3Dバウンディングボックスを検出する学習装置において、
    インストラクション(Instruction)を格納する少なくとも一つのメモリ;及び
    (I)プーリングレイヤをもって、少なくとも一つの入力特徴マップ上で少なくとも一つの2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてプーリング済み特徴マップを生成させ、前記入力特徴マップは少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記2Dバウンディングボックスは、前記トレーニングイメージ内の少なくとも一つの物体を含み、FCレイヤをもって、前記プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応するボックスパターン情報を生成させるプロセス、(II)(II−1)分類レイヤをもって、前記ボックスパターン情報を参照して前記物体の方向に対応するクラス情報を生成させ、(II−2)リグレッションレイヤをもって、前記ボックスパターン情報を参照して前記2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するリグレッション情報を生成させ、(II−3)コンボリューションレイヤをもって、前記プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記表面は前記リグレッション情報を参照して生成される)に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのインスタンス特徴マップを生成し、マスクレイヤをもって、前記インスタンス特徴マップと前記クラス情報とを参照して前記それぞれの表面に対応するマスクそれぞれを生成させるプロセス、及び(III)少なくとも一つのFCロスレイヤをもって、前記クラス情報と、前記リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成させることにより、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習するプロセスを遂行するためのインストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とする学習装置。
  17. 前記(II−3)プロセス以後に、
    前記プロセッサは、少なくとも一つのマスクロスレイヤをもって、前記マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする請求項16に記載の学習装置。
  18. 前記マスクレイヤは、FCN(Fully Convolutional Network)の少なくとも一部を含むことを特徴とする請求項16に記載の学習装置。
  19. 前記マスクは、前記それぞれのインスタンス特徴マップ上で前記物体が位置すると判断される少なくとも一つのピクセルと、前記物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする請求項16に記載の学習装置。
  20. 前記(II−3)プロセスで、
    前記プロセッサは、前記リグレッションレイヤをもって、(i)前記2Dバウンディングボックスの頂点から前記物体の前面と裏面それぞれに対応するそれぞれのインスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)前記2Dバウンディングボックスの中心から前記それぞれのインスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記2Dバウンディングボックスの幅/高さの割合と前記インスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記リグレッション情報を生成させることを特徴とする請求項16に記載の学習装置。
  21. 対角線をなす前記2Dバウンディングボックスのそれぞれの頂点を第1頂点と第2頂点とし、前記第1頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第1インスタンスバウンディングボックスとし、前記第2頂点に少なくとも一つの頂点がマッチングするインスタンスバウンディングボックスを第2インスタンスバウンディングボックスとする場合、
    前記プロセッサは、(i)前記第1及び前記第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、前記第1及び前記第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、前記第1及び前記第2ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、(ii)前記2Dバウンディングボックスのどのライン上にも存在しない前記第2インスタンスバウンディングボックスの頂点を前記第1頂点と連結した後、前記2Dバウンディングボックスのどのライン上にも存在しない前記第1インスタンスバウンディングボックスの頂点を前記第2頂点と連結して、前記クラス情報を参照して前記疑似3Dバウンディングボックスを生成することを特徴とする請求項20に記載の学習装置。
  22. 前記プロセッサは、CNN基盤の物体検出器から前記入力特徴マップと前記2Dバウンディングボックスとを取得することを特徴とする請求項16に記載の学習装置。
  23. 前記物体検出器は、少なくとも一つの先行(Preceding)コンボリューションレイヤをもって、前記トレーニングイメージに対して前記コンボリューション演算を遂行して少なくとも一つの先行特徴マップを生成させ、少なくとも一つの先行RPNをもって、前記先行特徴マップから前記トレーニングイメージ内に位置する少なくとも一つの前記学習用物体に対応する少なくとも一つの先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記先行特徴マップ上で前記先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用させて少なくとも一つの先行プーリング済み特徴マップを生成させ、少なくとも一つの先行FCレイヤをもって、前記先行プーリング済み特徴マップに対して少なくとも一回ニューラルネットワーク演算を適用させて前記学習用物体に対応する先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記先行物体パターン情報を参照して前記学習用物体の先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記先行物体パターン情報を参照して前記学習用物体に対応する前記2Dバウンディングボックスに関する先行リグレッション情報を生成させることで、前記入力特徴マップと前記2Dバウンディングボックスとを生成することを特徴とする請求項22に記載の学習装置。
  24. インスタンスセグメンテーション(Instance Segmentation)を利用したCNN基盤の疑似(Pseudo)3Dバウンディングボックスを少なくとも一つ検出するテスト装置において、
    インストラクション(Instruction)を格納する少なくとも一つのメモリ;及び
    学習装置が(i)少なくとも一つの学習用入力特徴マップと少なくとも一つの学習用2Dバウンディングボックスとが取得された場合、前記学習用入力特徴マップが少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記学習用2Dバウンディングボックスが前記トレーニングイメージ内の少なくとも一つの物体を含み、(ii)少なくとも一つのプーリングレイヤをもって、前記学習用入力特徴マップ上で前記学習用2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を少なくとも一回適用させて少なくとも一つの学習用プーリング済み特徴マップを生成させ、(iii)少なくとも一つのFCレイヤをもって、前記学習用プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応する学習用ボックスパターン情報を生成させ、(iv)少なくとも一つの分類レイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用物体の方向に対応する学習用クラス情報を生成し、(v)少なくとも一つのリグレッションレイヤをもって、前記学習用ボックスパターン情報を参照して前記学習用2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に対する学習用リグレッション情報を生成させ、(vi)少なくとも一つのコンボリューションレイヤをもって、前記学習用プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記表面は前記学習用リグレッション情報を参照して生成される)に対応するそれぞれの領域に対して前記コンボリューション演算を適用させて少なくとも一つの学習用インスタンス特徴マップを生成し、(vii)少なくとも一つのマスクレイヤをもって、前記学習用インスタンス特徴マップと前記学習用クラス情報とを参照して前記それぞれの表面に対応する学習用マスクそれぞれを生成させ、(viii)少なくとも一つのFCロスレイヤをもって、前記学習用クラス情報と、前記学習用リグレッション情報と、それに対応する少なくとも一つの原本正解とを参照してそれぞれのクラスロス及びそれぞれのリグレッションロスを生成するようにすることで、前記クラスロス及び前記リグレッションロスをバックプロパゲーションして前記FCレイヤのパラメータを学習するようにして、前記クラスロスと前記リグレッションロスとをバックプロパゲーションして前記FCレイヤを学習した状態で、(I)前記プーリングレイヤをもって、少なくとも一つのテスト用入力特徴マップ上で少なくとも一つのテスト用2Dバウンディングボックスに対応する少なくとも一つの領域に対してプーリング演算を適用させてテスト用プーリング済み特徴マップを生成させ、前記テスト用入力特徴マップは、少なくとも一つのテストイメージに対してコンボリューション演算を少なくとも一回適用して生成され、前記テスト用2Dバウンディングボックスは、前記テストイメージ内の少なくとも一つのテスト用物体を含み、FCレイヤをもって、前記テスト用プーリング済み特徴マップに対してニューラルネットワーク(Neural Network)演算を少なくとも一回適用させて前記疑似3Dバウンディングボックスに対応するテスト用ボックスパターン情報を生成させるプロセス、及び(II)(II−1)前記分類レイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用物体の方向に対応するテスト用クラス情報を生成させ、(II−2)リグレッションレイヤをもって、前記テスト用ボックスパターン情報を参照して前記テスト用2Dバウンディングボックスの座標に対応する前記疑似3Dバウンディングボックスの座標に関するテスト用リグレッション情報を生成させ、(II−3)コンボリューションレイヤをもって、前記テスト用プーリング済み特徴マップ上の前記疑似3Dバウンディングボックスのそれぞれの表面(前記表面は前記テスト用リグレッション情報を参照して生成される)に対応するそれぞれの領域に対してコンボリューション演算を適用させて少なくとも一つのテスト用インスタンス特徴マップを生成し、マスクレイヤをもって、前記テスト用インスタンス特徴マップと前記テスト用クラス情報とを参照して前記それぞれの表面に対応するテスト用マスクそれぞれを生成させるプロセスを遂行する前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とするテスト装置。
  25. 前記(vii)プロセス以後に、
    前記学習装置が、少なくとも一つのマスクロスレイヤをもって、前記学習用マスクそれぞれとそれに対応するマスク原本正解とを参照して少なくとも一つのマスクロスを生成させることにより、前記マスクロスをバックプロパゲーションして前記マスクレイヤ及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを調整することを特徴とする請求項24に記載のテスト装置。
  26. 前記テスト用マスクそれぞれは、前記それぞれのテスト用インスタンス特徴マップ上で前記テスト用物体が位置すると判断される少なくとも一つのピクセルと、前記テスト用物体が位置しないと判断される少なくとも一つのピクセルとを区分するバイナリマスク(Binary Mask)であることを特徴とする請求項24に記載のテスト装置。
  27. 前記(II−2)プロセスで、
    前記プロセッサは、前記リグレッションレイヤをもって、(i)前記テスト用2Dバウンディングボックスの頂点から前記テスト用物体の前面と裏面それぞれに対応するそれぞれのテスト用インスタンスバウンディングボックスの頂点までのそれぞれの変位(Displacement)、並びに(ii)前記テスト用2Dバウンディングボックスの中心から前記それぞれのテスト用インスタンスバウンディングボックスのそれぞれの中心までのそれぞれの変位、及び前記テスト用2Dバウンディングボックスの幅/高さの割合と前記テスト用インスタンスバウンディングボックスのそれぞれの幅/高さの割合との間のそれぞれの差のうち少なくとも一つを利用して、前記テスト用リグレッション情報を生成させることを特徴とする請求項24に記載のテスト装置。
  28. 対角線をなす前記テスト用2Dバウンディングボックスのそれぞれの頂点を第1頂点と第2頂点とし、前記第1頂点に少なくとも一つの頂点がマッチングするテスト用インスタンスバウンディングボックスを第1テスト用インスタンスバウンディングボックスとし、前記第2頂点に少なくとも一つの頂点がマッチングするテスト用インスタンスバウンディングボックスを第2テスト用インスタンスバウンディングボックスとする場合、
    前記プロセッサは、(i)前記テスト用第1及び前記テスト用第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記テスト用2Dバウンディングボックスを構成する二つの隣接するラインの第1ペア(First Pair)上に位置し、前記テスト用第1及び前記テスト用第2インスタンスバウンディングボックスの各頂点を連結し、前記各頂点が前記テスト用2Dバウンディングボックスの他の二つの隣接したラインの第2ペア(Second Pair)上に位置し、前記第1及び前記第2ペアそれぞれにある前記二つの隣接したラインが前記対角線をなす頂点それぞれのどの頂点とも接さず、(ii)前記テスト用2Dバウンディングボックスのどのライン上にも存在しない前記テスト用第2インスタンスバウンディングボックスの頂点を前記第1頂点と連結した後、前記テスト用2Dバウンディングボックスのどのライン上にも存在しない前記テスト用第1インスタンスバウンディングボックスの頂点を前記第2頂点と連結して、前記クラス情報を参照して前記疑似3Dバウンディングボックスを生成することを特徴とする請求項27に記載のテスト装置。
  29. 前記プロセッサは、CNN基盤の物体検出器から前記テスト用入力特徴マップと前記テスト用2Dバウンディングボックスとを取得することを特徴とする請求項24に記載のテスト装置。
  30. 前記物体検出器は、少なくとも一つの先行コンボリューションレイヤをもって前記テストイメージに対して前記コンボリューション演算を遂行して少なくとも一つのテスト用先行特徴マップを生成させ、少なくとも一つの先行RPNをもって、前記テスト用先行特徴マップから前記テストイメージ内に位置する少なくとも一つの前記テスト用物体に対応する少なくとも一つのテスト用先行プロポーザルボックスを生成させ、少なくとも一つの先行プーリングレイヤをもって、前記テスト用先行マップ上で前記テスト用先行プロポーザルボックスに対応する少なくとも一つの領域に前記プーリング演算を適用するようにして、少なくとも一つのテスト用先行プーリング済み特徴マップを生成するようにし、少なくとも一つの先行FCレイヤをもって、前記テスト用先行プーリング済み特徴マップに対して前記ニューラルネットワーク演算を適用させて
    前記テスト用物体に対応するテスト用先行物体パターン情報を生成させ、少なくとも一つの先行分類レイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体のテスト用先行クラス情報を生成させ、少なくとも一つの先行リグレッションレイヤをもって、前記テスト用先行物体パターン情報を参照して前記テスト用物体に対応する前記テスト用2Dバウンディングボックスに対するテスト用先行リグレッション情報を生成させることで、前記テスト用入力特徴マップと前記テスト用2Dバウンディングボックスとを生成することを特徴とする請求項29に記載のテスト装置。
JP2019239475A 2019-01-25 2019-12-27 疑似3dバウンディングボックスを検出する方法及びそのテスト方法、並びに疑似3dバウンディングボックスを検出する方法を利用した装置及びそのテスト装置 Active JP7112752B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/258,156 2019-01-25
US16/258,156 US10402978B1 (en) 2019-01-25 2019-01-25 Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same

Publications (2)

Publication Number Publication Date
JP2020119523A true JP2020119523A (ja) 2020-08-06
JP7112752B2 JP7112752B2 (ja) 2022-08-04

Family

ID=67770264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019239475A Active JP7112752B2 (ja) 2019-01-25 2019-12-27 疑似3dバウンディングボックスを検出する方法及びそのテスト方法、並びに疑似3dバウンディングボックスを検出する方法を利用した装置及びそのテスト装置

Country Status (5)

Country Link
US (1) US10402978B1 (ja)
EP (1) EP3686775B1 (ja)
JP (1) JP7112752B2 (ja)
KR (1) KR102309708B1 (ja)
CN (1) CN111489368B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701210B (zh) * 2016-02-02 2021-08-17 北京市商汤科技开发有限公司 用于cnn网络适配和对象在线追踪的方法和系统
US10503998B2 (en) * 2016-11-07 2019-12-10 Gracenote, Inc. Recurrent deep neural network system for detecting overlays in images
US10726303B1 (en) * 2019-01-30 2020-07-28 StradVision, Inc. Learning method and learning device for switching modes of autonomous vehicle based on on-device standalone prediction to thereby achieve safety of autonomous driving, and testing method and testing device using the same
CN110807369B (zh) * 2019-10-09 2024-02-20 南京航空航天大学 基于深度学习和注意力机制的短视频内容智能分类方法
CN112258504B (zh) * 2020-11-13 2023-12-08 腾讯科技(深圳)有限公司 一种图像检测方法、设备及计算机可读存储介质
CN112560972B (zh) * 2020-12-21 2021-10-08 北京航空航天大学 基于毫米波雷达先验定位和视觉特征融合的目标检测方法
US20220261593A1 (en) * 2021-02-16 2022-08-18 Nvidia Corporation Using neural networks to perform object detection, instance segmentation, and semantic correspondence from bounding box supervision
CN112949551A (zh) * 2021-03-19 2021-06-11 科大讯飞股份有限公司 一种眼部关键信息确定方法、装置、设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10331974B2 (en) * 2016-11-08 2019-06-25 Nec Corporation Action recognition system with landmark localization on objects in images using convolutional neural networks
KR102267553B1 (ko) * 2016-11-15 2021-06-22 매직 립, 인코포레이티드 큐보이드 검출을 위한 딥 러닝 시스템
KR101871098B1 (ko) * 2017-01-12 2018-06-25 포항공과대학교 산학협력단 이미지 처리 방법 및 장치
US10671873B2 (en) * 2017-03-10 2020-06-02 Tusimple, Inc. System and method for vehicle wheel detection
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
US10460180B2 (en) * 2017-04-20 2019-10-29 GM Global Technology Operations LLC Systems and methods for visual classification with region proposals
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
KR101932009B1 (ko) * 2017-12-29 2018-12-24 (주)제이엘케이인스펙션 다중 객체 검출을 위한 영상 처리 장치 및 방법
KR101896357B1 (ko) * 2018-02-08 2018-09-07 주식회사 라디코 객체를 검출하는 방법, 디바이스 및 프로그램
KR101896406B1 (ko) * 2018-03-13 2018-10-22 연세대학교 산학협력단 블랙박스 영상을 이용한 딥러닝 기반의 픽셀 단위 도로 크랙 검출 장치 및 그 방법, 그리고 이 방법을 실행시키기 위해 컴퓨터가 판독 가능한 기록매체에 저장된 컴퓨터 프로그램
CN108416394B (zh) * 2018-03-22 2019-09-03 河南工业大学 基于卷积神经网络的多目标检测模型构建方法
CN108564022A (zh) * 2018-04-10 2018-09-21 深圳市唯特视科技有限公司 一种基于定位分类回归网络的多人物姿势检测方法
CN109255351B (zh) * 2018-09-05 2020-08-18 华南理工大学 基于三维卷积神经网络的边界框回归方法、系统、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARSALAN MOUSAVIAN, DRAGOMIR ANGUELOV, JOHN FLYNN: "3D Bounding Box Estimation Using Deep Learning and Geometry", ARXIV, JPN7022000040, 1 December 2016 (2016-12-01), US, ISSN: 0004679544 *
MAHDI RAD, VINCENT LEPETIT: "BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predictingthe 3D Poses of Challeng", ARXIV, JPN7022000041, 31 March 2017 (2017-03-31), US, ISSN: 0004679543 *

Also Published As

Publication number Publication date
US10402978B1 (en) 2019-09-03
EP3686775C0 (en) 2024-03-27
JP7112752B2 (ja) 2022-08-04
KR102309708B1 (ko) 2021-10-08
CN111489368A (zh) 2020-08-04
EP3686775B1 (en) 2024-03-27
KR20200092845A (ko) 2020-08-04
EP3686775A1 (en) 2020-07-29
CN111489368B (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
KR102309708B1 (ko) 인스턴스 세그멘테이션을 이용한 객체의 자세에 따라 모드를 전환할 수 있는 cnn 기반의 수도-3d 바운딩 박스를 검출하는 방법 및 이를 이용한 장치
CN110084304B (zh) 一种基于合成数据集的目标检测方法
CN112270249A (zh) 一种融合rgb-d视觉特征的目标位姿估计方法
KR102121764B1 (ko) 회귀 분석으로 2d 바운딩 박스에서 수도(pseudo)-3d박스를 획득하는 방법 및 이를 이용한 학습 장치 및 테스트 장치
US10410120B1 (en) Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
CN108983781A (zh) 一种无人车目标搜索系统中的环境探测方法
CN109074668A (zh) 路径导航方法、相关装置及计算机可读存储介质
EP3867862A1 (en) Method and system for converting point cloud data for use with 2d convolutional neural networks
JP6979228B2 (ja) V2v通信によって取得された、他の自律走行車両の空間探知結果を自身の自律走行車両の空間探知結果と統合する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for integrating object detection information acquired through v2v communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same}
JP6810432B2 (ja) 物体の条件に応じてモードを切り換えることができるcnn基盤で軍事目的、スマートフォン又は仮想走行に使用される疑似3dバウンディングボックスを検出する方法及びこれを利用した装置
CN109074490A (zh) 通路检测方法、相关装置及计算机可读存储介质
JP6892157B2 (ja) V2x情報融合技術によって取得された、各物体に対する深さ予測情報及び各物体に対するクラス情報を利用して3d空間を再構築することによりhdマップをアップデートする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置
KR102373492B1 (ko) 자체적으로 생성된 정보 및 다른 개체에 의해 생성된 정보를 선택적으로 사용하여 카메라의 오정렬을 보정하는 방법 및 이를 이용한 장치
US20230121534A1 (en) Method and electronic device for 3d object detection using neural networks
EP3690817A1 (en) Method for providing robust object distance estimation based on camera by performing pitch calibration of camera more precisely with fusion of information acquired through camera and information acquired through v2v communication and device using the same
CN111507161B (zh) 利用合并网络进行异质传感器融合的方法和装置
CN114118247A (zh) 一种基于多传感器融合的无锚框3d目标检测方法
CN111460879B (zh) 利用网格生成器的神经网络运算方法及使用该方法的装置
Iz et al. An image-based path planning algorithm using a UAV equipped with stereo vision
US10373004B1 (en) Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image
Roberts et al. Optical flow templates for superpixel labeling in autonomous robot navigation
Yan et al. A 3d grid mapping system based on depth prediction from a monocular camera
Smith et al. AeriaLPiPS: A Local Planner for Aerial Vehicles with Geometric Collision Checking
Ulusoy et al. Object recognition and cognitive map formation using active stereo vision in a virtual world
Mühlbauer Aspects of Cognitive Understanding of the Environment by Vision-Based Semantic Mapping

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210202

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210409

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210416

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220715

R150 Certificate of patent or registration of utility model

Ref document number: 7112752

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150