JP2020119539A - ハードウェア最適化に使用される1xHコンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置 - Google Patents
ハードウェア最適化に使用される1xHコンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置 Download PDFInfo
- Publication number
- JP2020119539A JP2020119539A JP2020002054A JP2020002054A JP2020119539A JP 2020119539 A JP2020119539 A JP 2020119539A JP 2020002054 A JP2020002054 A JP 2020002054A JP 2020002054 A JP2020002054 A JP 2020002054A JP 2020119539 A JP2020119539 A JP 2020119539A
- Authority
- JP
- Japan
- Prior art keywords
- feature map
- test
- learning
- layer
- proposal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012360 testing method Methods 0.000 title claims description 536
- 238000010998 test method Methods 0.000 title claims description 11
- 238000005457 optimization Methods 0.000 title description 2
- 238000011176 pooling Methods 0.000 claims abstract description 99
- 238000001514 detection method Methods 0.000 claims abstract description 97
- 238000012549 training Methods 0.000 claims description 50
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 230000001629 suppression Effects 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 6
- 238000013101 initial test Methods 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 description 35
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
である前記第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネルKであるNx1xKのボリュームを有する前記第1調整特徴マップを生成させ、前記学習装置は、前記第2リシェイプレイヤをもって、幅H2、高さN、チャンネルCEIL
である前記第2リシェイプ済み特徴マップを生成させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネルLであるNx1xLのボリュームを有する前記第2調整特徴マップを生成させることを特徴とする。
である前記テスト用第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数KであるNx1xKのボリュームを有する前記テスト用第1調整特徴マップを生成させ、前記テスト装置は、前記第2リシェイプレイヤをもって、幅N、高さH2、チャンネル個数CEIL
である前記テスト用第2リシェイプ済み特徴マップを生成させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数LであるNx1xLのボリュームを有する前記テスト用第2調整特徴マップを生成させることを特徴とする。
である前記第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネルKであるNx1xKのボリュームを有する前記第1調整特徴マップを生成させ、前記プロセッサは、前記第2リシェイプレイヤをもって、幅H2、高さN、チャンネルCEIL
である前記第2リシェイプ済み特徴マップを出力させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネルLであるNx1xLのボリュームを有する前記第2調整特徴マップを生成させることを特徴とする。
である前記テスト用第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数KであるNx1xKのボリュームを有する前記テスト用第1調整特徴マップを生成させ、前記プロセッサは、前記第2リシェイプレイヤをもって、幅N、高さH2、チャンネル個数CEIL
である前記テスト用第2リシェイプ済み特徴マップを生成させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数LであるNx1xLのボリュームを有する前記テスト用第2調整特徴マップを生成させることを特徴とする。
である第1リシェイプ済み特徴マップ500Aを生成させることができる。
番目のチャンネルをコンカチネートして生成される統合特徴マップ400のサイズが幅N、高さH1にならない場合、統合特徴マップ400の幅がN、高さがH1になるように少なくとも一つのゼロパディング領域を追加することができる。
の第2リシェイプ済み特徴マップ600Aを生成させることができる。
番目のチャンネルをコンカチネートして生成される第1調整特徴マップ500Bのサイズが幅N、高さH2にならない場合、第1調整特徴マップ500Bの幅はN、高さはH2となるように少なくとも一つのゼロパディング領域を追加することができる。
番目のチャンネルをコンカチネートして生成されるテスト用統合特徴マップのサイズが幅N、高さH1にならない場合、テスト用統合特徴マップの幅はN、高さはH1になるように少なくとも一つのゼロパディング領域を追加することができる。
番目のチャンネルをコンカチネートして生成されるテスト用第1調整特徴マップのサイズが幅N、高さH2にならない場合、テスト用第1調整特徴マップの幅はN、高さはH2になるように少なくとも一つのゼロパディング領域を追加することができる。
200:テスト装置
110、210:通信部
120、220:プロセッサ
300:データベース
Claims (30)
- CNN基盤の物体検出器のパラメータを学習する方法において、
(a)少なくとも一つのトレーニングイメージが取得されると、学習装置が、(i)少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート(Concatenating)させて統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記プロポーザルごとにコンカチネートさせて前記統合特徴マップを生成させる段階;
(b)前記学習装置が、(b1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップ(Adjusted Feature Map)を生成させ、(b2)(i)第2リシェイプレイヤをもって、前記第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させる段階;及び
(c)前記学習装置が、(c1)(i)第2トランスポーズレイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する前記物体クラス情報を生成させた後、(c2)検出レイヤをもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、(c3)検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階;
を含むことを特徴とする学習方法。 - 前記(a)段階以後、
前記学習装置は、RPNロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることで、前記RPNロスをバックプロパゲーションして前記RPNの少なくとも一部のパラメータを学習することを特徴とする請求項1に記載の学習方法。 - 前記(b)段階で、
前記統合特徴マップのチャンネル個数が前記H1の倍数でない場合、前記学習装置は、前記第1リシェイプレイヤをもって、前記統合特徴マップに少なくとも一つの第1ダミーチャンネル(Dummy Channel)を追加させて少なくとも一つの前記第1ダミーチャンネルを含む前記統合特徴マップのチャンネル個数が前記H1の倍数になるようにした後、前記統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH1個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、
前記(b)段階で、
前記第1調整特徴マップのチャンネル個数が前記H2の倍数でない場合、前記学習装置は、前記第2リシェイプレイヤをもって、前記第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して少なくとも一つの前記第2ダミーチャンネルを含む前記第1調整特徴マップのチャンネル個数が前記H2の倍数になるようにした後、前記第1調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH2個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする請求項1に記載の学習方法。 - 前記プロポーザルの個数をNとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をM1、高さをM2とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をJとする場合、
前記(a)段階で、
前記学習装置は、(i)前記第1トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記統合特徴マップに変換させるようにすることを特徴とする請求項1に記載の学習方法。 - 前記1xH1コンボリューションレイヤのフィルタの個数をKとし、前記1xH2コンボリューションレイヤのフィルタの個数をLとする場合、
前記(b)段階で、
前記学習装置は、前記第1リシェイプレイヤをもって、幅N、高さH1、チャンネルCEIL
である前記第1リシェイプ済み特徴マップを生成させ、
前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネルKであるNx1xKのボリュームを有する前記第1調整特徴マップを生成させ、
前記学習装置は、前記第2リシェイプレイヤをもって、幅H2、高さN、チャンネルCEIL
である前記第2リシェイプ済み特徴マップを生成させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネルLであるNx1xLのボリュームを有する前記第2調整特徴マップを生成させることを特徴とする請求項4に記載の学習方法。 - 前記(c)段階で、
前記学習装置は、(i)前記第2トランスポーズレイヤをもって、前記第2調整特徴マップを、N個の前記プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを、N個の前記プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする請求項5に記載の学習方法。 - 前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする請求項1に記載の学習方法。
- 前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする請求項1に記載の学習方法。
- CNN基盤の物体検出器をテストする方法において、
(a)学習装置は、(1)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記学習用初期特徴マップ上において前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート(Concatenating)させて学習用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートさせて前記学習用統合特徴マップを生成させ、(2)(2−1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記学習用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記学習用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された学習用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(2−2)(i)第2リシェイプレイヤをもって、前記学習用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記学習用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された学習用第2調整特徴マップを生成させ、(3)(3−1)(i)第2トランスポーズレイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成させ、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する前記学習用物体クラス情報を生成させた後、(3−2)検出レイヤをもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、(3−3)検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、少なくとも一つのテストイメージが取得されると、テスト装置が、(a1)前記コンボリューションレイヤをもって、前記テストイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用初期特徴マップ(Initial Feature Map)を生成させ、(a2)前記RPNをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させ、(a3)(a3−1)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第1トランスポーズレイヤ(Transposing Layer)をもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネート(Concatenating)させてテスト用統合特徴マップ(Integrated Feature Map)を生成させるか、(a3−2)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートさせて前記テスト用統合特徴マップを生成させる段階;
(b)前記テスト装置が、(b1)(i)前記第1リシェイプレイヤ(Reshaping Layer)をもって、前記テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)前記1xH1コンボリューションレイヤをもって、前記テスト用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整されたテスト用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(b2)(i)前記第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第2リシェイプ済み特徴マップを生成させ、(ii)前記1xH2コンボリューションレイヤをもって、前記テスト用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させる段階;及び
(c)前記テスト装置が、(c1)(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用前記物体クラス情報を生成させた後、(c2)前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させる段階;
を含むことを特徴とするテスト方法。 - 前記(b)段階で、
前記テスト用統合特徴マップのチャンネル個数が前記H1の倍数でない場合、前記テスト装置は、前記第1リシェイプレイヤをもって、前記テスト用統合特徴マップに少なくとも一つの第1ダミーチャンネル(Dummy Channel)を追加させて少なくとも一つの前記第1ダミーチャンネルを含む前記テスト用統合特徴マップのチャンネル個数が前記H1の倍数になるようにした後、前記テスト用統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH1個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、
前記(b)段階で、
前記テスト用第1調整特徴マップのチャンネル個数が前記H2の倍数でない場合、前記テスト装置は、前記第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して少なくとも一つの前記第2ダミーチャンネルを含む前記テスト用第1調整特徴マップのチャンネル個数が前記H2の倍数になるようにした後、前記テスト用第1調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH2個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする請求項9に記載のテスト方法。 - 前記テスト用プロポーザルの個数をNとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をM1、高さをM2とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をJとする場合、
前記(a)段階で、
前記テスト装置は、(i)前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記テスト用統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記テスト用統合特徴マップに変換させるようにすることを特徴とする請求項9に記載のテスト方法。 - 前記1xH1コンボリューションレイヤのフィルタの個数をKとし、前記1xH2コンボリューションレイヤのフィルタの個数をLとする場合、
前記(b)段階で、
前記テスト装置は、前記第1リシェイプレイヤをもって、幅N、高さH1、チャンネル個数CEIL
である前記テスト用第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数KであるNx1xKのボリュームを有する前記テスト用第1調整特徴マップを生成させ、
前記テスト装置は、前記第2リシェイプレイヤをもって、幅N、高さH2、チャンネル個数CEIL
である前記テスト用第2リシェイプ済み特徴マップを生成させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数LであるNx1xLのボリュームを有する前記テスト用第2調整特徴マップを生成させることを特徴とする請求項11に記載のテスト方法。 - 前記(c)段階で、
前記テスト装置は、(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを、N個の前記テスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを、N個の前記テスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする請求項12に記載のテスト方法。 - 前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする請求項9に記載のテスト方法。
- 前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする請求項9に記載のテスト方法。
- CNN基盤の物体検出器のパラメータを学習する学習装置において、
インストラクションを格納する少なくとも一つのメモリと、
(I)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート(Concatenating)させて統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記プロポーザルごとにコンカチネートさせて前記統合特徴マップを生成させるプロセス、(II)(II−1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップ(Adjusted Feature Map)を生成させ、(II−2)(i)第2リシェイプレイヤをもって、前記第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させるプロセス、及び(III)(III−1)(i)第2トランスポーズレイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する前記物体クラス情報を生成させた後、(III−2)検出レイヤをもって、前記物体クラス情報と前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、(III−3)検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする学習装置。 - 前記(I)プロセス以後、
前記プロセッサは、RPNロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることで、前記RPNロスをバックプロパゲーションして前記RPNの少なくとも一部のパラメータを学習することを特徴とする請求項16に記載の学習装置。 - 前記(II)プロセスで、
前記統合特徴マップのチャンネル個数が前記H1の倍数でない場合、前記プロセッサは、前記第1リシェイプレイヤをもって、前記統合特徴マップに少なくとも一つの第1ダミーチャンネル(Dummy Channel)を追加させて少なくとも一つの前記第1ダミーチャンネルを含む前記統合特徴マップのチャンネル個数が前記H1の倍数になるようにした後、前記統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH1個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、
前記(II)プロセスで、
前記第1調整特徴マップのチャンネル個数が前記H2の倍数でない場合、前記プロセッサは、前記第2リシェイプレイヤをもって、前記第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して前記少なくとも一つの第2ダミーチャンネルを含む前記第1調整特徴マップのチャンネル個数が前記H2の倍数になるようにした後、前記第1調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH2個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする請求項16に記載の学習装置。 - 前記プロポーザルの個数をNとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をM1、高さをM2とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をJとする場合、
前記(I)プロセスで、
前記プロセッサは、(i)前記第1トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記統合特徴マップに変換させるようにすることを特徴とする請求項16に記載の学習装置。 - 前記1xH1コンボリューションレイヤのフィルタの個数をKとし、前記1xH2コンボリューションレイヤのフィルタの個数をLとする場合、
前記(II)プロセスで、
前記プロセッサは、前記第1リシェイプレイヤをもって、幅N、高さH1、チャンネル個数CEIL
である前記第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネルKであるNx1xKのボリュームを有する前記第1調整特徴マップを生成させ、
前記プロセッサは、前記第2リシェイプレイヤをもって、幅H2、高さN、チャンネルCEIL
である前記第2リシェイプ済み特徴マップを出力させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネルLであるNx1xLのボリュームを有する前記第2調整特徴マップを生成させることを特徴とする請求項19に記載の学習装置。 - 前記(III)プロセスで、
前記プロセッサは、(i)前記第2トランスポーズレイヤをもって、前記第2調整特徴マップを、N個の前記プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを、N個の前記プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする請求項20に記載の学習装置。 - 前記分類レイヤは少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする請求項16に記載の学習装置。
- 前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする請求項16に記載の学習装置。
- CNN基盤の物体検出器をテストするテスト装置において、
インストラクションを格納する少なくとも一つのメモリと、
学習装置は、(1)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート(Concatenating)させて学習用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートさせて前記学習用統合特徴マップを生成させ、(2)(2−1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記学習用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記学習用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された学習用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(2−2)(i)第2リシェイプレイヤをもって、前記学習用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記学習用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された学習用第2調整特徴マップを生成させ、(3)(3−1)(i)第2トランスポーズレイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成させ、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する前記学習用物体クラス情報を生成させた後、(3−2)検出レイヤをもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、(3−3)検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、(I)(i)前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップ(Initial Feature Map)を生成させ、(ii)前記RPNをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させ、(iii)(iii−1)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第1トランスポーズレイヤ(Transposing Layer)をもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネート(Concatenating)させてテスト用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートさせて前記テスト用統合特徴マップを生成させるプロセス、(II)(II−1)(i)前記第1リシェイプレイヤ(Reshaping Layer)をもって、前記テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)前記1xH1コンボリューションレイヤをもって、前記テスト用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整されたテスト用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(II−2)(i)前記第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第2リシェイプ済み特徴マップを生成させ、(ii)前記1xH2コンボリューションレイヤをもって、前記テスト用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させるプロセス、及び(III)(III−1)(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用前記物体クラス情報を生成させた後、(III−2)前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするテスト装置。 - 前記(II)プロセスで、
前記テスト用統合特徴マップのチャンネル個数が前記H1の倍数でない場合、前記プロセッサは、前記第1リシェイプレイヤをもって、前記テスト用統合特徴マップに少なくとも一つの第1ダミーチャンネル(Dummy Channel)を追加させて少なくとも一つの前記第1ダミーチャンネルを含む前記テスト用統合特徴マップのチャンネル個数が前記H1の倍数になるようにした後、前記テスト用統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH1個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、
前記(II)プロセスで、
前記テスト用第1調整特徴マップのチャンネル個数が前記H2の倍数でない場合、前記プロセッサは、前記第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して少なくとも一つの前記第2ダミーチャンネルを含む前記テスト用第1調整特徴マップのチャンネル個数が前記H2の倍数になるようにした後、前記テスト用第1調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH2個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする請求項24に記載のテスト装置。 - 前記テスト用プロポーザルの個数をNとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をM1、高さをM2とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をJとする場合、
前記(I)プロセスで、
前記プロセッサは、(i)前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記テスト用統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記テスト用統合特徴マップに変換させるようにすることを特徴とする請求項24に記載のテスト装置。 - 前記1xH1コンボリューションレイヤのフィルタの個数をKとし、前記1xH2コンボリューションレイヤのフィルタの個数をLとする場合、
前記(II)プロセスで、
前記プロセッサは、前記第1リシェイプレイヤをもって、幅N、高さH1、チャンネル個数CEIL
である前記テスト用第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数KであるNx1xKのボリュームを有する前記テスト用第1調整特徴マップを生成させ、
前記プロセッサは、前記第2リシェイプレイヤをもって、幅N、高さH2、チャンネル個数CEIL
である前記テスト用第2リシェイプ済み特徴マップを生成させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数LであるNx1xLのボリュームを有する前記テスト用第2調整特徴マップを生成させることを特徴とする請求項26に記載のテスト装置。 - 前記(III)プロセスで、
前記プロセッサは、(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを、N個の前記テスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを、N個の前記テスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする請求項27に記載のテスト装置。 - 前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする請求項24に記載のテスト装置。
- 前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする請求項24に記載のテスト装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/254,976 US10387754B1 (en) | 2019-01-23 | 2019-01-23 | Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same |
US16/254,976 | 2019-01-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020119539A true JP2020119539A (ja) | 2020-08-06 |
JP6858382B2 JP6858382B2 (ja) | 2021-04-14 |
Family
ID=67620910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020002054A Active JP6858382B2 (ja) | 2019-01-23 | 2020-01-09 | ハードウェア最適化に使用される1xHコンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10387754B1 (ja) |
EP (1) | EP3686800B1 (ja) |
JP (1) | JP6858382B2 (ja) |
KR (1) | KR102338750B1 (ja) |
CN (1) | CN111476262B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022049767A (ja) * | 2020-09-17 | 2022-03-30 | 株式会社スペースリー | 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018211144A1 (en) | 2017-05-19 | 2018-11-22 | Deepmind Technologies Limited | Making object-level predictions of the future state of a physical system |
CN110874671B (zh) * | 2019-10-24 | 2021-03-16 | 腾讯科技(深圳)有限公司 | 一种配电网的电力负荷预测方法、装置及存储介质 |
CN113269014A (zh) * | 2020-02-17 | 2021-08-17 | 阿里巴巴集团控股有限公司 | 图像处理方法、设备及存储介质 |
DE102020107108A1 (de) * | 2020-03-16 | 2021-09-16 | Kopernikus Automotive GmbH | Verfahren und System zum autonomen Fahren eines Fahrzeugs |
CN112035683A (zh) * | 2020-09-30 | 2020-12-04 | 北京百度网讯科技有限公司 | 用户交互信息处理模型生成方法和用户交互信息处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017157138A (ja) * | 2016-03-04 | 2017-09-07 | キヤノン株式会社 | 画像認識装置、画像認識方法及びプログラム |
JP2018022484A (ja) * | 2016-08-02 | 2018-02-08 | 三菱電機株式会社 | 画像内の物体を検出する方法及び物体検出システム |
JP2018084982A (ja) * | 2016-11-24 | 2018-05-31 | キヤノン株式会社 | 画像処理装置、情報処理方法及びプログラム |
US10169679B1 (en) * | 2017-10-13 | 2019-01-01 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9536293B2 (en) * | 2014-07-30 | 2017-01-03 | Adobe Systems Incorporated | Image assessment using deep convolutional neural networks |
CN106156807B (zh) * | 2015-04-02 | 2020-06-02 | 华中科技大学 | 卷积神经网络模型的训练方法及装置 |
WO2016165060A1 (en) * | 2015-04-14 | 2016-10-20 | Intel Corporation | Skin detection based on online discriminative modeling |
US9965719B2 (en) * | 2015-11-04 | 2018-05-08 | Nec Corporation | Subcategory-aware convolutional neural networks for object detection |
US20170124409A1 (en) * | 2015-11-04 | 2017-05-04 | Nec Laboratories America, Inc. | Cascaded neural network with scale dependent pooling for object detection |
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
JP2018005520A (ja) * | 2016-06-30 | 2018-01-11 | クラリオン株式会社 | 物体検出装置及び物体検出方法 |
US10019655B2 (en) * | 2016-08-31 | 2018-07-10 | Adobe Systems Incorporated | Deep-learning network architecture for object detection |
US10354159B2 (en) * | 2016-09-06 | 2019-07-16 | Carnegie Mellon University | Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network |
US10354362B2 (en) * | 2016-09-08 | 2019-07-16 | Carnegie Mellon University | Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network |
US11308350B2 (en) * | 2016-11-07 | 2022-04-19 | Qualcomm Incorporated | Deep cross-correlation learning for object tracking |
US10846523B2 (en) * | 2016-11-14 | 2020-11-24 | Kodak Alaris Inc. | System and method of character recognition using fully convolutional neural networks with attention |
US10380741B2 (en) * | 2016-12-07 | 2019-08-13 | Samsung Electronics Co., Ltd | System and method for a deep learning machine for object detection |
US10262237B2 (en) * | 2016-12-08 | 2019-04-16 | Intel Corporation | Technologies for improved object detection accuracy with multi-scale representation and training |
CN108303748A (zh) * | 2017-01-12 | 2018-07-20 | 同方威视技术股份有限公司 | 检查设备和检测行李物品中的枪支的方法 |
US10185878B2 (en) * | 2017-02-28 | 2019-01-22 | Microsoft Technology Licensing, Llc | System and method for person counting in image data |
US10635927B2 (en) * | 2017-03-06 | 2020-04-28 | Honda Motor Co., Ltd. | Systems for performing semantic segmentation and methods thereof |
US20180260414A1 (en) * | 2017-03-10 | 2018-09-13 | Xerox Corporation | Query expansion learning with recurrent networks |
US10678846B2 (en) * | 2017-03-10 | 2020-06-09 | Xerox Corporation | Instance-level image retrieval with a region proposal network |
US11010595B2 (en) * | 2017-03-23 | 2021-05-18 | Samsung Electronics Co., Ltd. | Facial verification method and apparatus |
US10325342B2 (en) * | 2017-04-27 | 2019-06-18 | Apple Inc. | Convolution engine for merging interleaved channel data |
US10460470B2 (en) * | 2017-07-06 | 2019-10-29 | Futurewei Technologies, Inc. | Recognition and reconstruction of objects with partial appearance |
US10503978B2 (en) * | 2017-07-14 | 2019-12-10 | Nec Corporation | Spatio-temporal interaction network for learning object interactions |
US10776903B2 (en) * | 2017-07-17 | 2020-09-15 | Open Text Corporation | Systems and methods for image modification and image based content capture and extraction in neural networks |
EP3432263B1 (en) * | 2017-07-17 | 2020-09-16 | Siemens Healthcare GmbH | Semantic segmentation for cancer detection in digital breast tomosynthesis |
KR101880901B1 (ko) * | 2017-08-09 | 2018-07-23 | 펜타시큐리티시스템 주식회사 | 기계 학습 방법 및 장치 |
CN108022238B (zh) * | 2017-08-09 | 2020-07-03 | 深圳科亚医疗科技有限公司 | 对3d图像中对象进行检测的方法、计算机存储介质和系统 |
US10753997B2 (en) * | 2017-08-10 | 2020-08-25 | Siemens Healthcare Gmbh | Image standardization using generative adversarial networks |
JP6972756B2 (ja) * | 2017-08-10 | 2021-11-24 | 富士通株式会社 | 制御プログラム、制御方法、及び情報処理装置 |
JP6972757B2 (ja) * | 2017-08-10 | 2021-11-24 | 富士通株式会社 | 制御プログラム、制御方法、及び情報処理装置 |
US10929987B2 (en) * | 2017-08-16 | 2021-02-23 | Nvidia Corporation | Learning rigidity of dynamic scenes for three-dimensional scene flow estimation |
US10679351B2 (en) * | 2017-08-18 | 2020-06-09 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
US20190063932A1 (en) * | 2017-08-28 | 2019-02-28 | Nec Laboratories America, Inc. | Autonomous Vehicle Utilizing Pose Estimation |
CN107492099B (zh) * | 2017-08-28 | 2021-08-20 | 京东方科技集团股份有限公司 | 医学图像分析方法、医学图像分析系统以及存储介质 |
US20190094858A1 (en) * | 2017-09-25 | 2019-03-28 | Uber Technologies, Inc. | Parking Location Prediction |
US9984325B1 (en) * | 2017-10-04 | 2018-05-29 | StradVision, Inc. | Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same |
US10223610B1 (en) * | 2017-10-15 | 2019-03-05 | International Business Machines Corporation | System and method for detection and classification of findings in images |
US10007865B1 (en) * | 2017-10-16 | 2018-06-26 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same |
EP3622520A1 (en) * | 2017-10-16 | 2020-03-18 | Illumina, Inc. | Deep learning-based techniques for training deep convolutional neural networks |
CN108764292B (zh) * | 2018-04-27 | 2022-03-18 | 北京大学 | 基于弱监督信息的深度学习图像目标映射及定位方法 |
-
2019
- 2019-01-23 US US16/254,976 patent/US10387754B1/en active Active
- 2019-11-15 KR KR1020190147087A patent/KR102338750B1/ko active IP Right Grant
- 2019-12-24 CN CN201911347404.7A patent/CN111476262B/zh active Active
-
2020
- 2020-01-09 JP JP2020002054A patent/JP6858382B2/ja active Active
- 2020-01-10 EP EP20151209.2A patent/EP3686800B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017157138A (ja) * | 2016-03-04 | 2017-09-07 | キヤノン株式会社 | 画像認識装置、画像認識方法及びプログラム |
JP2018022484A (ja) * | 2016-08-02 | 2018-02-08 | 三菱電機株式会社 | 画像内の物体を検出する方法及び物体検出システム |
JP2018084982A (ja) * | 2016-11-24 | 2018-05-31 | キヤノン株式会社 | 画像処理装置、情報処理方法及びプログラム |
US10169679B1 (en) * | 2017-10-13 | 2019-01-01 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same |
Non-Patent Citations (2)
Title |
---|
"Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. Volume: 39, Issue: 6, JPN6021008508, 6 June 2016 (2016-06-06), ISSN: 0004463150 * |
"深層学習による画像認識", 日本ロボット学会誌, vol. 第35巻 第3号, JPN6021008509, 15 April 2017 (2017-04-15), ISSN: 0004463151 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022049767A (ja) * | 2020-09-17 | 2022-03-30 | 株式会社スペースリー | 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3686800B1 (en) | 2024-06-19 |
US10387754B1 (en) | 2019-08-20 |
CN111476262A (zh) | 2020-07-31 |
EP3686800A1 (en) | 2020-07-29 |
KR102338750B1 (ko) | 2021-12-15 |
JP6858382B2 (ja) | 2021-04-14 |
EP3686800C0 (en) | 2024-06-19 |
CN111476262B (zh) | 2023-08-15 |
KR20200091793A (ko) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020119539A (ja) | ハードウェア最適化に使用される1xHコンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置 | |
JP2020119542A (ja) | ハードウェア最適化に使用されるイメージ認識のための1x1コンボリューションを利用したCNN学習方法及び学習装置、それを利用したテスト方法及びテスト装置{LEARNING METHOD AND LEARNING DEVICE FOR CONVOLUTIONAL NEURAL NETWORK USING 1×1 CONVOLUTION FOR IMAGE RECOGNITION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAME} | |
JP6857368B2 (ja) | Cnn学習方法及び学習装置、これを利用したテスト方法及びテスト装置 | |
KR102337376B1 (ko) | 레인 마스크(Lane Mask)를 사용하여 후처리 없이 입력 이미지에 포함된 하나 이상의 차선을 검출하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
JP2020126624A (ja) | ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法 | |
JP6857369B2 (ja) | Cnnを学習する方法及び学習装置、それを利用したテスト方法及びテスト装置 | |
JP2020047271A (ja) | イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置 | |
JP6957050B2 (ja) | モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same} | |
CN110399789A (zh) | 行人重识别方法、模型构建方法、装置、设备和存储介质 | |
JP2020119524A (ja) | 核心性能指数を満たすことができるハードウェア最適化が行われるように、cnnで複数のブロック内の入力イメージから特徴を抽出する学習方法及び学習装置、それを利用したテスト方法及びテスト装置 | |
JP2020126622A (ja) | 非最大値抑制を学習する併合ネットワークを利用した異種センサ融合のための学習方法及び学習装置{learning method and learning device for heterogeneous sensor fusion by using merging network which learns non−maximum suppression} | |
JP6853592B2 (ja) | ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING METHOD AND LEARNING DEVICE FOR OBJECT DETECTOR BASED ON CNN USING 1×1 CONVOLUTION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAME} | |
KR20220134428A (ko) | 서로 다른 스펙을 가지는 영상 장치들로부터 획득된 이미지들을 이용하여 퍼셉션 네트워크를 학습 및 테스트하는 방법 및 이를 이용한 학습 및 테스트 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6858382 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |