JP6858382B2 - ハードウェア最適化に使用される1xHコンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置 - Google Patents

ハードウェア最適化に使用される1xHコンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置 Download PDF

Info

Publication number
JP6858382B2
JP6858382B2 JP2020002054A JP2020002054A JP6858382B2 JP 6858382 B2 JP6858382 B2 JP 6858382B2 JP 2020002054 A JP2020002054 A JP 2020002054A JP 2020002054 A JP2020002054 A JP 2020002054A JP 6858382 B2 JP6858382 B2 JP 6858382B2
Authority
JP
Japan
Prior art keywords
feature map
test
learning
proposal
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020002054A
Other languages
English (en)
Other versions
JP2020119539A (ja
Inventor
− ヒョン キム、ケイ
− ヒョン キム、ケイ
キム、ヨンジュン
キム、インスー
− キョン キム、ハク
− キョン キム、ハク
ナム、ウヒョン
ブー、ソッフン
ソン、ミュンチュル
ヨー、ドンフン
リュー、ウジュ
チャン、テウン
ジョン、キュンチョン
チェ、ホンモ
チョウ、ホジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020119539A publication Critical patent/JP2020119539A/ja
Application granted granted Critical
Publication of JP6858382B2 publication Critical patent/JP6858382B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Description

本発明は、ハードウェア最適化に使用される1xHコンボリューションを利用したCNN基盤の物体検出器のパラメータを学習する方法に関し、より詳細には、前記CNN基盤の前記物体検出器の前記パラメータを学習する方法において、(a)少なくとも一つのトレーニングイメージが取得されると、学習装置が、(i)少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート(Concatenating)させて統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記プロポーザルごとにコンカチネートさせて前記統合特徴マップを生成させる段階:(b)前記学習装置が、(b1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップ(Adjusted Feature Map)を生成させ、(b2)(i)第2リシェイプレイヤをもって、前記第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させる段階;及び(c)前記学習装置が、(c1)(i)第2トランスポーズレイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する前記物体クラス情報を生成させた後、(c2)検出レイヤをもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、(c3)検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階;を含むことを特徴とする学習方法及び学習装置、それを利用してテストする方法及びテスト装置に関する。
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;Deep CNN)は、ディープラーニング分野で起きた驚くべき発展の核心である。CNNは、文字の認識問題を解決するために90年代にすでに使用されていたが、現在のように広く使用されるようになったのは最近の研究結果の賜物である。このようなディープCNNは、2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習(Machine Learning)分野で非常に有用なツールとなった。
このようなCNNは、イメージから特徴を抽出する特徴抽出器と、特徴抽出器から抽出された特徴を参照してイメージを認識したりイメージ内の物体を検出したりする特徴分類器とからなる。
そして、CNNは、イメージから特徴を抽出する特徴抽出器(Feature Extractor)及びイメージ内の物体を検出したり特徴抽出器が抽出したりする特徴を参照してイメージを認識する特徴分類器(Feature Classifier)から構成される。
そして、CNNの特徴抽出器はコンボリューションレイヤから構成され、特徴分類器は特徴抽出器が抽出した特徴に対してFC演算(Fully Connected Operation)を適用することができるFCレイヤから構成される。
しかしながら、このようなFCレイヤは入力された全ての特徴に対して重み付け値を生成しなければならない不便さがあり、入力されたすべての特徴に対してFC演算を遂行しなければならないため、コンピューティング演算量が多くなる短所がある。
また、FCレイヤではFCレイヤに入力されるイメージのサイズがFCレイヤモデルの所定サイズと一致しなければならない。そのため、このようなFCレイヤを含むCNNに予め設定されたサイズと異なるトレーニングイメージまたはテストイメージが入力される場合、コンボリューションレイヤがトレーニングイメージやテストイメージに対して当該演算を適用することができるが、FCレイヤでは前記所定サイズと異なるサイズの入力イメージが入力されるため、トレーニングイメージやテストイメージに該当演算を適用することができない。
したがって、本発明者は、前記のようなFCレイヤの問題点を克服することができるようにするCNN基盤の物体検出器を提案することにする。
本発明は、上述した問題点を全て解決することをその目的とする。
本発明は、入力イメージのサイズと関係なしに入力イメージ内に位置する少なくとも一つの物体を検出することができるようにするCNN基盤の物体検出器を提供することを他の目的とする。
本発明は、特徴分類のための重み付け値の個数を最小化することができるようにするCNN基盤の物体検出器を提供することをまた他の目的とする。
本発明は、特徴分類のためのコンピューティング演算量を減少させ得るようにするCNN基盤の物体検出器を提供することをまた他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は以下の通りである。
本発明の一態様によると、CNN基盤の物体検出器のパラメータを学習する方法において、(a)少なくとも一つのトレーニングイメージが取得されると、学習装置が、(i)少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート(Concatenating)させて統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記プロポーザルごとにコンカチネートさせて前記統合特徴マップを生成させる段階;(b)前記学習装置が、(b1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップ(Adjusted Feature Map)を生成させ、(b2)(i)第2リシェイプレイヤをもって、前記第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させる段階;及び(c)前記学習装置が、(c1)(i)第2トランスポーズレイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する前記物体クラス情報を生成させた後、(c2)検出レイヤをもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、(c3)検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階;を含むことを特徴とする。
一実施例において、前記(a)段階以後、前記学習装置は、RPNロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることで、前記RPNロスをバックプロパゲーションして前記RPNの少なくとも一部のパラメータを学習することを特徴とする。
一実施例において、前記(b)段階で、前記統合特徴マップのチャンネル個数が前記H1の倍数でない場合、前記学習装置は、前記第1リシェイプレイヤをもって、前記統合特徴マップに少なくとも一つの第1ダミーチャンネル(Dummy Channel)を追加させて少なくとも一つの前記第1ダミーチャンネルを含む前記統合特徴マップのチャンネル個数が前記H1の倍数になるようにした後、前記統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH1個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、前記(b)段階で、前記第1調整特徴マップのチャンネル個数が前記H2の倍数でない場合、前記学習装置は、前記第2リシェイプレイヤをもって、前記第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して少なくとも一つの前記第2ダミーチャンネルを含む前記第1調整特徴マップのチャンネル個数が前記H2の倍数になるようにした後、前記第1調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH2個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする。
一実施例において、前記プロポーザルの個数をNとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をM1、高さをM2とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をJとする場合、前記(a)段階で、前記学習装置は、(i)前記第1トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記統合特徴マップに変換させるようにすることを特徴とする。
一実施例において、前記1xH1コンボリューションレイヤのフィルタの個数をKとし、前記1xH2コンボリューションレイヤのフィルタの個数をLとする場合、前記(b)段階で、前記学習装置は、前記第1リシェイプレイヤをもって、幅N、高さH1、チャンネルCEIL
Figure 0006858382
である前記第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネルKであるNx1xKのボリュームを有する前記第1調整特徴マップを生成させ、前記学習装置は、前記第2リシェイプレイヤをもって、幅H2、高さN、チャンネルCEIL
Figure 0006858382
である前記第2リシェイプ済み特徴マップを生成させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネルLであるNx1xLのボリュームを有する前記第2調整特徴マップを生成させることを特徴とする。
一実施例において、前記(c)段階で、前記学習装置は、(i)前記第2トランスポーズレイヤをもって、前記第2調整特徴マップを、N個の前記プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを、N個の前記プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする。
一実施例において、前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする。
一実施例において、前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする。
本発明の他の態様によると、CNN基盤の物体検出器をテストする方法において、(a)学習装置は、(1)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記学習用初期特徴マップ上において前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート(Concatenating)させて学習用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートさせて前記学習用統合特徴マップを生成させ、(2)(2−1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記学習用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記学習用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された学習用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(2−2)(i)第2リシェイプレイヤをもって、前記学習用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記学習用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された学習用第2調整特徴マップを生成させ、(3)(3−1)(i)第2トランスポーズレイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成させ、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する前記学習用物体クラス情報を生成させた後、(3−2)検出レイヤをもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、(3−3)検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、少なくとも一つのテストイメージが取得されると、テスト装置が、(a1)前記コンボリューションレイヤをもって、前記テストイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用初期特徴マップ(Initial Feature Map)を生成させ、(a2)前記RPNをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させ、(a3)(a3−1)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第1トランスポーズレイヤ(Transposing Layer)をもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネート(Concatenating)させてテスト用統合特徴マップ(Integrated Feature Map)を生成させるか、(a3−2)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートさせて前記テスト用統合特徴マップを生成させる段階;(b)前記テスト装置が、(b1)(i)前記第1リシェイプレイヤ(Reshaping Layer)をもって、前記テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)前記1xH1コンボリューションレイヤをもって、前記テスト用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整されたテスト用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(b2)(i)前記第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第2リシェイプ済み特徴マップを生成させ、(ii)前記1xH2コンボリューションレイヤをもって、前記テスト用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させる段階;及び(c)前記テスト装置が、(c1)(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用前記物体クラス情報を生成させた後、(c2)前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させる段階;を含むことを特徴とする。
一実施例において、前記(b)段階で、前記テスト用統合特徴マップのチャンネル個数が前記H1の倍数でない場合、前記テスト装置は、前記第1リシェイプレイヤをもって、前記テスト用統合特徴マップに少なくとも一つの第1ダミーチャンネル(Dummy Channel)を追加させて少なくとも一つの前記第1ダミーチャンネルを含む前記テスト用統合特徴マップのチャンネル個数が前記H1の倍数になるようにした後、前記テスト用統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH1個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、前記(b)段階で、前記テスト用第1調整特徴マップのチャンネル個数が前記H2の倍数でない場合、前記テスト装置は、前記第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して少なくとも一つの前記第2ダミーチャンネルを含む前記テスト用第1調整特徴マップのチャンネル個数が前記H2の倍数になるようにした後、前記テスト用第1調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH2個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする。
一実施例において、前記テスト用プロポーザルの個数をNとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をM1、高さをM2とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をJとする場合、前記(a)段階で、前記テスト装置は、(i)前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記テスト用統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記テスト用統合特徴マップに変換させるようにすることを特徴とする。
一実施例において、前記1xH1コンボリューションレイヤのフィルタの個数をKとし、前記1xH2コンボリューションレイヤのフィルタの個数をLとする場合、前記(b)段階で、前記テスト装置は、前記第1リシェイプレイヤをもって、幅N、高さH1、チャンネル個数CEIL
Figure 0006858382
である前記テスト用第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数KであるNx1xKのボリュームを有する前記テスト用第1調整特徴マップを生成させ、前記テスト装置は、前記第2リシェイプレイヤをもって、幅N、高さH2、チャンネル個数CEIL
Figure 0006858382
である前記テスト用第2リシェイプ済み特徴マップを生成させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数LであるNx1xLのボリュームを有する前記テスト用第2調整特徴マップを生成させることを特徴とする。
一実施例において、前記(c)段階で、前記テスト装置は、(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを、N個の前記テスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを、N個の前記テスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする。
一実施例において、前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする。
一実施例において、前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする。
本発明のまた他の態様によると、CNN基盤の物体検出器のパラメータを学習する学習装置において、インストラクションを格納する少なくとも一つのメモリと、(I)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート(Concatenating)させて統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記プロポーザルごとにコンカチネートさせて前記統合特徴マップを生成させるプロセス、(II)(II−1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップ(Adjusted Feature Map)を生成させ、(II−2)(i)第2リシェイプレイヤをもって、前記第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させるプロセス、及び(III)(III−1)(i)第2トランスポーズレイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する前記物体クラス情報を生成させた後、(III−2)検出レイヤをもって、前記物体クラス情報と前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、(III−3)検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。
一実施例において、前記(I)プロセス以後、前記プロセッサは、RPNロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることで、前記RPNロスをバックプロパゲーションして前記RPNの少なくとも一部のパラメータを学習することを特徴とする。
一実施例において、前記(II)プロセスで、前記統合特徴マップのチャンネル個数が前記H1の倍数でない場合、前記プロセッサは、前記第1リシェイプレイヤをもって、前記統合特徴マップに少なくとも一つの第1ダミーチャンネル(Dummy Channel)を追加させて少なくとも一つの前記第1ダミーチャンネルを含む前記統合特徴マップのチャンネル個数が前記H1の倍数になるようにした後、前記統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH1個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、前記(II)プロセスで、前記第1調整特徴マップのチャンネル個数が前記H2の倍数でない場合、前記プロセッサは、前記第2リシェイプレイヤをもって、前記第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して前記少なくとも一つの第2ダミーチャンネルを含む前記第1調整特徴マップのチャンネル個数が前記H2の倍数になるようにした後、前記第1調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH2個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする。
一実施例において、前記プロポーザルの個数をNとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をM1、高さをM2とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をJとする場合、前記(I)プロセスで、前記プロセッサは、(i)前記第1トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記統合特徴マップに変換させるようにすることを特徴とする。
一実施例において、前記1xH1コンボリューションレイヤのフィルタの個数をKとし、前記1xH2コンボリューションレイヤのフィルタの個数をLとする場合、前記(II)プロセスで、前記プロセッサは、前記第1リシェイプレイヤをもって、幅N、高さH1、チャンネル個数CEIL
Figure 0006858382
である前記第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネルKであるNx1xKのボリュームを有する前記第1調整特徴マップを生成させ、前記プロセッサは、前記第2リシェイプレイヤをもって、幅H2、高さN、チャンネルCEIL
Figure 0006858382
である前記第2リシェイプ済み特徴マップを出力させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネルLであるNx1xLのボリュームを有する前記第2調整特徴マップを生成させることを特徴とする。
一実施例において、前記(III)プロセスで、前記プロセッサは、(i)前記第2トランスポーズレイヤをもって、前記第2調整特徴マップを、N個の前記プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを、N個の前記プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする。
一実施例において、前記分類レイヤは少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする。
一実施例において、前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする。
本発明のまた他の態様によると、 CNN基盤の物体検出器をテストするテスト装置において、インストラクションを格納する少なくとも一つのメモリと、学習装置は、(1)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート(Concatenating)させて学習用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートさせて前記学習用統合特徴マップを生成させ、(2)(2−1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記学習用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記学習用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された学習用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(2−2)(i)第2リシェイプレイヤをもって、前記学習用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記学習用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された学習用第2調整特徴マップを生成させ、(3)(3−1)(i)第2トランスポーズレイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成させ、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する前記学習用物体クラス情報を生成させた後、(3−2)検出レイヤをもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、(3−3)検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、(I)(i)前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップ(Initial Feature Map)を生成させ、(ii)前記RPNをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させ、(iii)(iii−1)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第1トランスポーズレイヤ(Transposing Layer)をもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネート(Concatenating)させてテスト用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートさせて前記テスト用統合特徴マップを生成させるプロセス、(II)(II−1)(i)前記第1リシェイプレイヤ(Reshaping Layer)をもって、前記テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)前記1xH1コンボリューションレイヤをもって、前記テスト用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整されたテスト用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(II−2)(i)前記第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第2リシェイプ済み特徴マップを生成させ、(ii)前記1xH2コンボリューションレイヤをもって、前記テスト用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させるプロセス、及び(III)(III−1)(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用前記物体クラス情報を生成させた後、(III−2)前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。
一実施例において、前記(II)プロセスで、前記テスト用統合特徴マップのチャンネル個数が前記H1の倍数でない場合、前記プロセッサは、前記第1リシェイプレイヤをもって、前記テスト用統合特徴マップに少なくとも一つの第1ダミーチャンネル(Dummy Channel)を追加させて少なくとも一つの前記第1ダミーチャンネルを含む前記テスト用統合特徴マップのチャンネル個数が前記H1の倍数になるようにした後、前記テスト用統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH1個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、前記(II)プロセスで、前記テスト用第1調整特徴マップのチャンネル個数が前記H2の倍数でない場合、前記プロセッサは、前記第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して少なくとも一つの前記第2ダミーチャンネルを含む前記テスト用第1調整特徴マップのチャンネル個数が前記H2の倍数になるようにした後、前記テスト用第1調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH2個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする。
一実施例において、前記テスト用プロポーザルの個数をNとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をM1、高さをM2とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をJとする場合、前記(I)プロセスで、前記プロセッサは、(i)前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記テスト用統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記テスト用統合特徴マップに変換させるようにすることを特徴とする。
一実施例において、前記1xH1コンボリューションレイヤのフィルタの個数をKとし、前記1xH2コンボリューションレイヤのフィルタの個数をLとする場合、前記(II)プロセスで、前記プロセッサは、前記第1リシェイプレイヤをもって、幅N、高さH1、チャンネル個数CEIL
Figure 0006858382
である前記テスト用第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数KであるNx1xKのボリュームを有する前記テスト用第1調整特徴マップを生成させ、前記プロセッサは、前記第2リシェイプレイヤをもって、幅N、高さH2、チャンネル個数CEIL
Figure 0006858382
である前記テスト用第2リシェイプ済み特徴マップを生成させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数LであるNx1xLのボリュームを有する前記テスト用第2調整特徴マップを生成させることを特徴とする。
一実施例において、前記(III)プロセスで、前記プロセッサは、(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを、N個の前記テスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを、N個の前記テスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする。
一実施例において、前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする。
一実施例において、前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする。
その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。
本発明は、コンボリューションレイヤのみでCNN基盤の物体検出器を具現することにより、入力イメージのサイズに関係なしに入力イメージ内に位置する物体を検出することができる効果がある。
また、本発明は、コンボリューションレイヤのみでCNN基盤の物体検出器を具現することにより、従来のFCレイヤを利用する場合に比べて特徴分類のための重み付け値の個数を最小化することができる他の効果がある。
また、本発明は、コンボリューションレイヤのみでCNN基盤の物体検出器を具現することにより、従来のFCレイヤを利用する場合に比べて特徴分類のためのコンピューティング演算量を減少させ得るまた他の効果がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明が属する技術分野において通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われることなくこの各図面に基づいて他の図面が得られ得る。
図1は、本発明の一実施例によるCNN基盤の物体検出器を学習する学習装置を簡略に示したものである。 図2は、本発明の一実施例によるCNN基盤の物体検出器を学習する方法を簡略に示したものである。 図3は、本発明の一実施例によるCNN基盤の物体検出器を学習する方法に使用され、プーリングレイヤによって生成されたプロポーザルごとのプーリング済み特徴マップ(Pooled Feature Map)を簡略に示したものである。 図4は、本発明の一実施例によるCNN基盤の物体検出器を学習する方法に使用され、プロポーザルごとのプーリング済み特徴マップを利用して生成された統合特徴マップ(Integrated Feature Map)を簡略に示したものである。 図5aは、それぞれ本発明の一実施例による(i)統合特徴マップを修正して生成された第1リシェイプ済み特徴マップ(Reshaped Feature Map)と(ii)第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用して生成された第1調整特徴マップ(Adjusted Feature Map)とを簡略に示したものである。 図5bは、それぞれ本発明の一実施例による(i)統合特徴マップを修正して生成された第1リシェイプ済み特徴マップ(Reshaped Feature Map)と(ii)第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用して生成された第1調整特徴マップ(Adjusted Feature Map)とを簡略に示したものである。 図6aは、それぞれ本発明の一実施例による(i)第1調整特徴マップを修正して生成された第2リシェイプ済み特徴マップと(ii)第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用して生成された第2調整特徴マップとを簡略に示したものである。 図6bは、それぞれ本発明の一実施例による(i)第1調整特徴マップを修正して生成された第2リシェイプ済み特徴マップと(ii)第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用して生成された第2調整特徴マップとを簡略に示したものである。 図7は、本発明の一実施例によるCNN基盤の物体検出器を学習するのに使用され、第2調整特徴マップから変換されたプロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を簡略に示したものである。 図8は、本発明の一実施例によるCNN基盤の物体検出器をテストするテスト装置を簡略に示したものである。 図9は、本発明の一実施例によるCNN基盤の物体検出器をテストする方法を簡略に示したものである。
後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、各構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるわけではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるわけではない。
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することとする。
図1は、本発明の一実施例によるCNN基盤の物体検出器を学習する学習装置100を簡略に示したものであって、図1を参照すると、学習装置100は通信部110とプロセッサ120とを含むことができる。
先ず、通信部110は、少なくとも一つのトレーニングイメージを受信することができる。
この際、トレーニングイメージはデータベース300に格納されていてもよく、データベース300にはトレーニングイメージに対応して少なくとも一つの物体に対するクラス情報の少なくとも一つの原本正解(Ground Truth)及び前記それぞれの物体に対する位置情報の少なくとも一つの原本正解が格納されていてもよい。
また、学習装置は、次のプロセスを遂行するためのコンピュータ読取り可能なインストラクション(Instruction)を格納することができるメモリ115をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は統合プロセッサ(Integrated Processor)として統合され得る。
次に、プロセッサ120は、(i)少なくとも一つのコンボリューションレイヤをもって、トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、初期特徴マップを利用してトレーニングイメージ内に位置する物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、初期特徴マップ上でプロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させてプロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、プロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをプロポーザルごとにコンカチネート(Concatenating)させて統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)プーリングレイヤをもって、初期特徴マップ上でプロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させてプロポーザルごとのプーリング済み特徴マップを生成させ、プーリングレイヤをもって、プロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをプロポーザルごとにコンカチネートさせて統合特徴マップを生成させるプロセスを遂行することができる。そして、プロセッサ120は、(i)第1リシェイプレイヤ(Reshaping Layer)をもって、統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップ(Adjusted Feature Map)を生成させ、(iii)第2リシェイプレイヤをもって、第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第2リシェイプ済み特徴マップを生成させ、(vi)1xH2コンボリューションレイヤをもって、第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させるプロセスを遂行することができる。以後、プロセッサ120は、(i)第2トランスポーズレイヤをもって、第2調整特徴マップをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、プロポーザルごとのピクセル別特徴マップを利用してプロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)分類レイヤをもって、第2調整特徴マップをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップを生成させ、分類レイヤをもって、プロポーザルごとのピクセル別特徴マップを利用してプロポーザルそれぞれに関する物体クラス情報を生成させるプロセスを遂行することができる。そして、プロセッサ120は、検出レイヤをもって、物体クラス情報とプロポーザルごとのピクセル別特徴マップとを参照してトレーニングイメージ内に位置する物体に対応する物体検出情報を生成させ、検出ロスレイヤをもって、物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、物体検出ロスをバックプロパゲーションして1xH2コンボリューションレイヤ、1xH1コンボリューションレイヤ、及びコンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行することができる。
また、プロセッサ120は、RPNロスレイヤをもって、プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることで、RPNロスをバックプロパゲーションしてRPNの少なくとも一部のパラメータを学習することができる。
ここで、物体検出ロスによるバックプロパゲーションとRPNロスによるバックプロパゲーションの時間的順序には制限がないであろう。
この際、本発明の一実施例による学習装置100は、コンピューティング装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置100として採択され得る。また、図1では一つの学習装置100のみを示したが、これに限定されず、学習装置は複数個に分けて役割を遂行することもできる。
このように構成された本発明の一実施例による学習装置100を利用してCNN基盤の物体検出器のパラメータを学習する方法を、図2を参照して説明すると以下のとおりである。
まず、トレーニングイメージが入力されると、学習装置100がコンボリューションレイヤ121をもって、トレーニングイメージに対してコンボリューション演算を適用させて初期特徴マップを出力させる。この際、コンボリューションレイヤ121は、トレーニングイメージを順次にコンボリューションするために単一のコンボリューションレイヤ又は複数個のコンボリューションレイヤであり得る。
そして、学習装置100は、RPN122をもって、初期特徴マップを利用してトレーニングイメージ内に位置する物体に対応する少なくとも一つのプロポーザルを生成させることができる。この際、RPN122は、トレーニングイメージ内に物体が位置するものと推定される候補領域に対応するROI候補を生成させ、ROI候補のうち物体が位置するものと判断される確率の高い特定のROI候補をプロポーザルとして出力することができる。
次に、学習装置100はプーリングレイヤ123をもって、初期特徴マップ上でプロポーザルそれぞれに対応する領域をプーリングしてプロポーザルごとのプーリング済み特徴マップを生成させることができる。
一例として、図3を参照すると、プロポーザルの個数をNとし、プロポーザルごとのプーリング済み特徴マップの幅をM1、高さをM2とし、プロポーザルごとのプーリング済み特徴マップのチャンネル個数をJとする場合、プロポーザルごとのプーリング済み特徴マップP1、P2、…、PNはそれぞれM1xM2xJのボリュームを有することができる。
次に、学習装置100は、第1トランスポーズレイヤ124をもって、プーリングレイヤ123から出力されたプロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをプロポーザルごとにコンカチネートして統合特徴マップを生成させることができる。
一例として、図3と図4を参照すると、図3におけるプロポーザルごとのプーリング済み特徴マップP1、P2、…、PN上における最も左側上端のピクセルをそれぞれP1F1、P2F1、…、PNF1とする場合、プロポーザルごとのプーリング済み特徴マップP1、P2、…、PNそれぞれにおける最も左側上端のピクセルであるP1F1、P2F1、…、PNF1をコンカチネートして図4のようにすべてのチャンネルのうち第1チャンネルに対応する最も前面にあるラインのように幅N、高さ1である統合特徴マップ400の第1部分が生成されるようにし、この過程をプロポーザルごとのプーリング済み特徴マップP1、P2、…PNそれぞれにある残りのピクセルにも適用することができる。その結果、プロポーザルごとのプーリング済み特徴マップP1、P2、…、PNそれぞれにおけるピクセル数と同一にチャンネル個数がM1xM2xJである統合特徴マップ400を生成させることができる。
一方、前記においては、学習装置100が第1トランスポーズレイヤ124をもって、プーリングレイヤ123から出力されたプロポーザルごとのプーリング済み特徴マップを利用して統合特徴マップを生成させた。その他の例として、学習装置100は、第1トランスポーズレイヤ124を使用せずに、プーリングレイヤ123をもって、統合特徴マップを生成させることができる。つまり、その他の例として、学習装置100はプーリングレイヤ123をもって、初期特徴マップ上でプロポーザルそれぞれに対応する領域に対してプーリング演算を適用してプロポーザルごとのプーリング済み特徴マップを生成し、プロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをプロポーザルごとにコンカチネートして統合特徴マップを生成させることができる。
次に、学習装置100は、第1リシェイプレイヤ125をもって、統合特徴マップ400のすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートして第1リシェイプ済み特徴マップ500Aを生成させることができる。
一例として、図4と図5aを参照すると、学習装置100は、第1リシェイプレイヤ125をもって、統合特徴マップ400の第1チャンネル内それぞれの特徴P1CH1、P2CH1、…、PNCH1ないし前記統合特徴マップの第H1チャンネル内それぞれの特徴P1CH(H1)、P2CH(H1)、…、PNCH(H1)をコンカチネートさせ、統合特徴マップ400の第H1+1チャンネル内それぞれの特徴P1CH(H1+1)、P2CH(H1+1)、…、PNCH(H1+1)ないし前記統合特徴マップの第2xH1チャンネル内それぞれの特徴P1CH(2xH1)、P2CH(2xH1)、…、PNCH(2xH1)をコンカチネートさせることができる。つまり、学習装置100は、この過程を繰り返すことにより、幅N、高さH1、チャンネル個数CEIL
Figure 0006858382
である第1リシェイプ済み特徴マップ500Aを生成させることができる。
この際、統合特徴マップ400のチャンネル個数がH1の倍数でない場合、学習装置100は、第1リシェイプレイヤ125をもって、統合特徴マップ400に少なくとも一つの第1ダミーチャンネルを追加させて少なくとも一つの第1ダミーチャンネルを含む統合特徴マップ400のチャンネル個数がH1の倍数になるようにした後、統合特徴マップ400のすべてのチャンネルのうち、それぞれの対応するH1個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせることができる。すなわち、統合特徴マップのチャンネル個数がH1の倍数にならないことにより、CEIL
Figure 0006858382
番目のチャンネルをコンカチネートして生成される統合特徴マップ400のサイズが幅N、高さH1にならない場合、統合特徴マップ400の幅がN、高さがH1になるように少なくとも一つのゼロパディング領域を追加することができる。
次に、学習装置100は、1xH1コンボリューションレイヤ126をもって、第1リシェイプ済み特徴マップ500Aに対して1xH1コンボリューション演算を適用させてボリュームが調整された第1調整特徴マップ500Bを生成させることができる。
一例として、図5aと図5bを参照すると、1xH1コンボリューションレイヤ126のフィルタの個数をKとする場合、学習装置100は、1xH1コンボリューションレイヤ126をもって、図5aの第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させて幅N、高さ1、チャンネル個数KであるNx1xKのボリュームを有する第1調整特徴マップ500Bを生成させることができる。これを通じて、コンピューティング演算量を従来の技術の1/H1に減少させることができるようになり、それに伴ってコンピューティング演算速度、及び演算能力を増大させ得るようになる。
この際、第1調整特徴マップ500B上の特徴P1’CH1、P2’CH1、…、PN’CH1は、それぞれ第1リシェイプ済み特徴マップ500A上の特徴P1CH1、P1CH2、…、P1CH(H1)を局地的に統合(Locally Connecting)し、第1リシェイプ済み特徴マップ500A上の特徴P2CH1、P2CH2、…、P2CH(H1)を局地的に統合し、第1リシェイプ済み特徴マップ500A上の特徴PNCH1、PNCH2、…、PNCH(H1)を局地的に統合した結果であり得る。参考までに、前記局地的統合(Locally Connecting)は、1×H1コンボリューション演算を適用することを意味する。
次に、学習装置100は、第2リシェイプレイヤ127をもって、第1調整特徴マップ500Bのすべてのチャンネルのうち、それぞれの対応するH2個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせて第2リシェイプ済み特徴マップ600Aを生成させることができる。
一例として、図5bと図6aを参照すると、学習装置100は、第2リシェイプレイヤ127をもって、第1調整特徴マップ500Bの第1チャンネル内のそれぞれの特徴P1’CH1、P2’CH1、…、PN’CH1)ないし第H2チャンネル内のそれぞれの特徴P1’CH(H2)、P2’CH(H2),…、PN’CH(H2)をコンカチネートさせ、第1調整特徴マップ500Bの第H2+1チャンネル内のそれぞれの特徴P1’CH(H2+1)、P2’CH(H2+1)、…、PN’CH(H2+1)ないし第2xH2チャンネル内のそれぞれの特徴P1’CH(2xH2)、P2’CH(2xH2),…、PN’CH(2xH2)をコンカチネートさせることができる。つまり、学習装置100は、このコンカチネートの過程を繰り返すことにより、幅N、高さH2、チャンネル個数CEIL
Figure 0006858382
の第2リシェイプ済み特徴マップ600Aを生成させることができる。
この際、第1調整特徴マップ500Bのチャンネル個数がH2の倍数でない場合、学習装置100は第2リシェイプレイヤ127をもって、第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加させて少なくとも一つの第2ダミーチャンネルを含む第1調整特徴マップ500Bのチャンネル個数がH2の倍数になるようにした後、第1調整特徴マップ500Bのすべてのチャンネルのうち、それぞれの対応するH2個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせることができる。すなわち、第1調整特徴マップ500Bのチャンネル個数がH2の倍数にならないことにより、CEIL
Figure 0006858382
番目のチャンネルをコンカチネートして生成される第1調整特徴マップ500Bのサイズが幅N、高さH2にならない場合、第1調整特徴マップ500Bの幅はN、高さはH2となるように少なくとも一つのゼロパディング領域を追加することができる。
次に、学習装置100は、1xH2コンボリューションレイヤ128をもって、第2リシェイプ済み特徴マップ600Aに対して1xH2コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップ600Bを生成させることができる。
一例として、図6aと図6bを参照すると、1xH2コンボリューションレイヤ128のフィルタの個数をLとする場合、学習装置100は、1xH2コンボリューションレイヤ128をもって、図6aの第2リシェイプ済み特徴マップ600Aに対して1xH2コンボリューション演算を適用させて幅N、高さ1、チャンネル個数LであるNx1xLのボリュームを有する第2調整特徴マップ600Bを生成させることができる。これを通じて、コンピューティング演算量を従来の技術の1/H2に減少させることができるようになり、それを通じてコンピューティング演算速度及び演算能力を増大させ得るようになる。この際、第2調整特徴マップ600B上の特徴P1”CH1、P2”CH1、…、PN”CH1は、それぞれ第2リシェイプ済み特徴マップ600A上の特徴P1’CH1、P1’CH2、…、P1’CH(H1)を局地的に統合し、第2リシェイプ済み特徴マップ600A上の特徴P2’CH1、P2’CH2、…、P2’CH(H1)を局地的に統合し、第2リシェイプ済み特徴マップ600A上の特徴PN’CH1、PN’CH2、…、PN’CH(H1)を局地的に統合した結果であり得る。参考までに、前記局地的統合(Locally Connecting)は、1×H2コンボリューション演算を適用することを意味する。
次に、学習装置100は、第2トランスポーズレイヤ129をもって、第2調整特徴マップ600Bをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップPW1、PW2、…、PWNを生成させることができる。
一例として、図7を参照すると、学習装置100は第2トランスポーズレイヤ129をもって、図6bのように幅N、高さ1、チャンネル個数Lであるボリュームを有する第2調整特徴マップ600Bをピクセルごとに分離させて幅1、高さ1、チャンネル個数Lであるプロポーザルごとのピクセル別特徴マップPW1、PW2、…、PWNを生成させる。
次に、学習装置100は分類レイヤ130をもって、プロポーザルごとのピクセル別特徴マップPW1、PW2、…PWNを利用してプロポーザルそれぞれに関する物体クラス情報を生成させることができる。この際、分類レイヤ130は、ソフトマックス(Softmax)アルゴリズムを使用することができ、それぞれのプロポーザルが検出しようとする物体に対応するのかに関する確率情報を生成することができる。
一方、前記においては第2トランスポーズレイヤ129をもって、第2調整特徴マップ600Bを利用してプロポーザルごとのピクセル別特徴マップPW1、PW2、…、PWNを生成させた。その他の例として、分類レイヤ130は、第2トランスポーズレイヤ129を使用せずに第2調整特徴マップ600Bを利用してプロポーザルごとのピクセル別特徴マップPW1、PW2、…、PWNを生成させることができる。つまり、学習装置100は分類レイヤ130をもって、第2調整特徴マップ600Bをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップPW1、PW2、…、PWNを生成し、分類レイヤ130をもって、プロポーザルごとのピクセル別特徴マップPW1、PW2、…、PWNを利用してプロポーザルそれぞれに関する物体クラス情報を生成させることができる。
次に、学習装置100は、検出レイヤ131をもって、物体クラス情報とプロポーザルごとのピクセル別特徴マップPW1、PW2、…、PWNとを参照してトレーニングイメージ内に位置する物体に対応する物体検出情報を生成させることができる。この際、検出レイヤ129は、NMS(Non−Maximum Suppression)アルゴリズムを使用することができ、単一の物体に複数のプロポーザルがタグ付けされた場合、そのうち確率の高い、少なくとも一つの特定のプロポーザルを当該単一の物体に対応する物体検出情報として選択することができる。
次に、学習装置100は検出ロスレイヤ132をもって、物体検出情報とこれに対応する原本正解とを参照して少なくとも一つの物体検出ロスを算出させることで、物体検出ロスをバックプロパゲーションして1xH2コンボリューションレイヤ128、1xH1コンボリューションレイヤ126、及びコンボリューションレイヤ121のうち少なくとも一部のパラメータを調整することができる。
また、学習装置100は、RPN122に対応するRPNロスレイヤ133をもって、プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることで、RPNロスをバックプロパゲーションしてRPN122の少なくとも一つのパラメータを調整することができる。
前記のように、本発明の一実施例によるCNN基盤の物体検出器は、コンボリューションレイヤのみで構成されることにより、従来のFCレイヤを利用したものとは異なって入力イメージのサイズに関係なしに入力イメージ内の物体を検出することができる。また、本発明の一実施例によるCNN基盤の物体検出器は、1xHコンボリューションレイヤの局地的統合の演算(Local Connected Operation)を適用することにより、従来のFCレイヤのFC演算(Fully Connected Operation)を適用するのに比べてコンピューティング演算量を減少させ得るようになる。
図8は、本発明の一実施例によるCNN基盤の物体検出器をテストするテスト装置200を簡略に示したものであって、図8を参照すると、テスト装置200は、通信部210とプロセッサ220を含むことができる。
また、テスト装置200は、次のプロセスを遂行するためのコンピュータ読取り可能なインストラクション(Instruction)を格納することができるメモリ215をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は統合プロセッサ(Integrated Processor)として統合され得る。
先ず、通信部210は、少なくとも一つのテストイメージを取得するか、他の装置をもって取得するように支援することができる。
この際、本発明の一実施例によるCNN基盤の物体検出器は、図1ないし図7を参照して説明した学習方法によって学習された状態であり得る。参考までに、以下の説明で混同を避けるために「学習用」という文句は、先に説明した学習プロセスに関する用語について追加され、「テスト用」という文句はテストプロセスに関する用語について追加される。
つまり、少なくとも一つのトレーニングイメージが入力されると、学習装置は、(a)(i)コンボリューションレイヤをもって、トレーニングイメージに対してコンボリューション演算を適用させて少なくとも一つの学習用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、学習用初期特徴マップを利用してトレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、学習用初期特徴マップ上で学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、学習用プロポーザルごとの学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを学習用プロポーザルごとにコンカチネート(Concatenating)させて学習用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)プーリングレイヤをもって、学習用初期特徴マップ上で学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、プーリングレイヤをもって、学習用プロポーザルごとの学習用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを学習用プロポーザルごとにコンカチネートさせて学習用統合特徴マップを生成させ、(b)(b1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、学習用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、学習用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された学習用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(b2)(i)第2リシェイプレイヤをもって、学習用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、学習用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された学習用第2調整特徴マップを生成させ、(c)(c1)(i)第2トランスポーズレイヤをもって、学習用第2調整特徴マップをピクセルごとに分離して学習用プロポーザルごとの学習用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、学習用プロポーザルごとの学習用ピクセル別特徴マップを利用して学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させるか、(ii)分類レイヤをもって、学習用第2調整特徴マップをピクセルごとに分離して学習用プロポーザルごとの学習用ピクセル別特徴マップを生成させ、学習用プロポーザルごとの学習用ピクセル別特徴マップを利用して学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させた後、(c2)検出レイヤをもって、学習用物体クラス情報と学習用プロポーザルごとの学習用ピクセル別特徴マップを参照してトレーニングイメージ内に位置する学習用物体に対応する学習用物体検出情報を生成させ、(c3)検出ロスレイヤをもって、学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、物体検出ロスをバックプロパゲーションして1xH2コンボリューションレイヤ、1xH1コンボリューションレイヤ、及びコンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行した状態であり得る。
また、学習装置は、RPNロスレイヤをもって、学習用プロポーザルとこれに対応する原本正解とを参照して、少なくとも一つのRPNロスを算出させることで、RPNロスをバックプロパゲーションしてRPNの少なくとも一部のパラメータを学習した状態であり得る。
次に、プロセッサ220は、(i)コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、テスト用初期特徴マップを利用してテストイメージ内に位置する少なくとも一つのテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、テスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをテスト用プロポーザルごとにコンカチネート(Concatenating)させてテスト用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)プーリングレイヤをもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、テスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをテスト用プロポーザルごとにコンカチネートさせてテスト用統合特徴マップを生成させるプロセスを遂行することができる。そして、プロセッサ220は(i)第1リシェイプレイヤ(Reshaping Layer)をもって、テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、テスト用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整されたテスト用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(iii)第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第2リシェイプ済み特徴マップを生成させ、(vi)1xH2コンボリューションレイヤをもって、テスト用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成するようにプロセスを遂行することができる。以後、プロセッサ220は、(i)第2トランスポーズレイヤをもって、テスト用第2調整特徴マップをピクセルごとに分離してテスト用プロポーザルごとのテスト用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、(ii)分類レイヤをもって、テスト用第2調整特徴マップをピクセルごとに分離してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるプロセスを遂行することができる。そして、プロセッサ220は、検出レイヤをもって、テスト用物体クラス情報とテスト用プロポーザルごとのテスト用ピクセル別特徴マップとを参照してテストイメージ内に位置するテスト用物体に対応するテスト用物体検出情報を生成させることができる。
この際、本発明の一実施例によるテスト装置200は、コンピューティング装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明によるテスト装置200として採択され得る。また、図8では一つのテスト装置200のみを示したが、これに限定されず、テスト装置は複数個に分けて役割を遂行することもできる。
このように構成された本発明の一実施例によるテスト装置200を利用してCNN基盤の物体検出器をテストする方法を、図9を参照して説明すると以下のとおりである。以下の説明において、図1ないし図7を参照して説明した学習方法から容易に理解可能な部分については、詳細な説明を省略することとする。
まず、図1ないし図7を参照して説明した学習方法によってコンボリューションレイヤ221、1xH1コンボリューションレイヤ226、及び1xH2コンボリューションレイヤ228の少なくとも一部のパラメータが学習された状態で、テストイメージが入力されると、テスト装置200がコンボリューションレイヤ221をもって、テストイメージに対してコンボリューション演算を適用させてテスト用初期特徴マップを生成させる。この際、コンボリューションレイヤ221は、テストイメージに対して順次にコンボリューション演算を適用するために単一のコンボリューションレイヤ又は複数個のコンボリューションレイヤであり得る。
そして、テスト装置200はRPN222をもって、テスト用初期特徴マップを利用してテストイメージ内に位置するテスト用物体に対応する少なくとも一つのテスト用プロポーザルを生成させることができる。この際、RPN222は、テストイメージ内にテスト用物体が位置するものと推定されるテスト用候補の領域に対応するテスト用ROI候補を生成することができ、テスト用ROI候補のうち、テスト用物体が位置するものと判断される確率の高い特定のテスト用ROI候補をテスト用プロポーザルとして出力することができる。
次に、テスト装置200は、プーリングレイヤ223をもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応するそれぞれの領域をプーリングしてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させることができる。
次に、テスト装置200は第1トランスポーズレイヤ224をもって、プーリングレイヤ223から出力されたテスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをテスト用プロポーザルごとにコンカチネートさせてテスト用ピクセル別特徴マップを生成させることができる。
一方、前記では、テスト装置200が第1トランスポーズレイヤ224をもって、プーリングレイヤ223から出力されたテスト用プロポーザルごとのテスト用プーリング済み特徴マップを利用してテスト用統合特徴マップを生成させた。その他の例として、テスト装置200は、第1トランスポーズレイヤ224を使用せずにプーリングレイヤ223をもって、テスト用ピクセル別特徴マップを生成させることができる。つまり、テスト装置200は、プーリングレイヤ223をもって、テスト用特徴マップ上でテスト用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、テスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをテスト用プロポーザルごとにコンカチネートさせてテスト用統合特徴マップを生成させることができる。
次に、テスト装置200は、第1リシェイプレイヤ225をもって、テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせてテスト用第1リシェイプ済み特徴マップを生成させることができる。
この際、テスト用統合特徴マップのチャンネル個数がH1の倍数でない場合、テスト装置200は第1リシェイプレイヤ225をもって、テスト用統合特徴マップに少なくとも一つの第1ダミーチャンネルを追加して少なくとも一つの第1ダミーチャンネルを含むテスト用統合特徴マップのチャンネル個数がH1の倍数になるようにした後、テスト用統合特徴マップのすべてのチャンネルのうち、それぞれの対応するH1個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせることができる。すなわち、テスト用統合特徴マップのチャンネル個数がH1の倍数にならないことにより、CEIL
Figure 0006858382
番目のチャンネルをコンカチネートして生成されるテスト用統合特徴マップのサイズが幅N、高さH1にならない場合、テスト用統合特徴マップの幅はN、高さはH1になるように少なくとも一つのゼロパディング領域を追加することができる。
次に、テスト装置200は、1xH1コンボリューションレイヤ226をもって、テスト用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリュームが調整された第1テスト用調整特徴マップを生成させることができる。
次に、テスト装置200は、第2リシェイプレイヤ227をもって、テスト用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせてテスト用第2リシェイプ済み特徴マップを生成させることができる。
この際、テスト用第1調整特徴マップのチャンネル個数がH2の倍数でない場合、テスト装置200は、第2リシェイプレイヤ227をもって、テスト用第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して少なくとも一つの第2ダミーチャンネルを含むテスト用第1調整特徴マップのチャンネル個数がH2の倍数になるようにした後、テスト用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせることができる。すなわち、テスト用第1調整特徴マップのチャンネル個数がH2の倍数にならないことにより、CEIL
Figure 0006858382
番目のチャンネルをコンカチネートして生成されるテスト用第1調整特徴マップのサイズが幅N、高さH2にならない場合、テスト用第1調整特徴マップの幅はN、高さはH2になるように少なくとも一つのゼロパディング領域を追加することができる。
次に、テスト装置200は1xH2コンボリューションレイヤ228をもって、テスト用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させることができる。
次に、テスト装置200は第2トランスポーズレイヤ229をもって、第2テスト用調整特徴マップをピクセルごとに分離させてテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させることができる。
次に、テスト装置200は分類レイヤ230をもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させることができる。この際、分類レイヤ230は、ソフトマックスアルゴリズムを使用することができ、それぞれのテスト用プロポーザルが検出しようとするテスト用物体に対応するのかに関する確率情報を生成することができる。
一方、前記においては、第2トランスポーズレイヤ229は、テスト用第2調整特徴マップを利用してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成することができる。その他の例として、分類レイヤ230は、第2トランスポーズレイヤ229を使用せずに、テスト用第2調整特徴マップを利用してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成することができる。つまり、テスト装置200は分類レイヤ230をもって、テスト用第2調整特徴マップをピクセルごとに分離させてテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、分類レイヤ230をもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させることができる。
次に、テスト装置200は検出レイヤ231をもって、テスト用物体クラス情報とテスト用プロポーザルごとのテスト用ピクセル別特徴マップとを参照してテストイメージ内に位置するテスト用物体に対応するテスト用物体検出情報を生成させることができる。この際、検出レイヤ231はNMS(Non−Maximum Suppression)アルゴリズムを使用することができ、単一のテスト用物体に複数のテスト用プロポーザルがタグ付けされた場合、そのうち確率の高い、少なくとも一つの特定のテスト用プロポーザルを該当単一のテスト用物体に対応するテスト用物体検出情報として選択することができる。
本方法において、同一のプロセッサがコンボリューション演算及びFC演算を遂行するため、チップ(Chip)のサイズを小さくし、ハードウェアを最適化してKPI(Key Performance Index、重要業績評価指標)を満たすことができる。
また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(Floptical Disk)のような磁気−光メディア(Magneto−Optical Media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。
100:学習装置
200:テスト装置
110、210:通信部
120、220:プロセッサ
300:データベース

Claims (30)

  1. CNN基盤の物体検出器のパラメータを学習する方法において、
    (a)少なくとも一つのトレーニングイメージが取得されると、学習装置が、(i)少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート(Concatenating)させて統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記プロポーザルごとにコンカチネートさせて前記統合特徴マップを生成させる段階;
    (b)前記学習装置が、(b1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップ(Adjusted Feature Map)を生成させ、(b2)(i)第2リシェイプレイヤをもって、前記第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させる段階;及び
    (c)前記学習装置が、(c1)(i)第2トランスポーズレイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する前記物体クラス情報を生成させた後、(c2)検出レイヤをもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、(c3)検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階;
    を含むことを特徴とする学習方法。
  2. 前記(a)段階以後、
    前記学習装置は、RPNロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることで、前記RPNロスをバックプロパゲーションして前記RPNの少なくとも一部のパラメータを学習することを特徴とする請求項1に記載の学習方法。
  3. 前記(b)段階で、
    前記統合特徴マップのチャンネル個数が前記H1の倍数でない場合、前記学習装置は、前記第1リシェイプレイヤをもって、前記統合特徴マップに少なくとも一つの第1ダミーチャンネル(Dummy Channel)を追加させて少なくとも一つの前記第1ダミーチャンネルを含む前記統合特徴マップのチャンネル個数が前記H1の倍数になるようにした後、前記統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH1個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、
    前記(b)段階で、
    前記第1調整特徴マップのチャンネル個数が前記H2の倍数でない場合、前記学習装置は、前記第2リシェイプレイヤをもって、前記第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して少なくとも一つの前記第2ダミーチャンネルを含む前記第1調整特徴マップのチャンネル個数が前記H2の倍数になるようにした後、前記第1調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH2個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする請求項1に記載の学習方法。
  4. 前記プロポーザルの個数をNとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をM1、高さをM2とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をJとする場合、
    前記(a)段階で、
    前記学習装置は、(i)前記第1トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記統合特徴マップに変換させるようにすることを特徴とする請求項1に記載の学習方法。
  5. 前記1xH1コンボリューションレイヤのフィルタの個数をKとし、前記1xH2コンボリューションレイヤのフィルタの個数をLとする場合、
    前記(b)段階で、
    前記学習装置は、前記第1リシェイプレイヤをもって、幅N、高さH1、チャンネルCEIL
    Figure 0006858382
    である前記第1リシェイプ済み特徴マップを生成させ、
    前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネルKであるNx1xKのボリュームを有する前記第1調整特徴マップを生成させ、
    前記学習装置は、前記第2リシェイプレイヤをもって、幅H2、高さN、チャンネルCEIL
    Figure 0006858382
    である前記第2リシェイプ済み特徴マップを生成させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネルLであるNx1xLのボリュームを有する前記第2調整特徴マップを生成させることを特徴とする請求項4に記載の学習方法。
  6. 前記(c)段階で、
    前記学習装置は、(i)前記第2トランスポーズレイヤをもって、前記第2調整特徴マップを、N個の前記プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを、N個の前記プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする請求項5に記載の学習方法。
  7. 前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする請求項1に記載の学習方法。
  8. 前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする請求項1に記載の学習方法。
  9. CNN基盤の物体検出器をテストする方法において、
    (a)学習装置は、(1)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記学習用初期特徴マップ上において前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート(Concatenating)させて学習用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートさせて前記学習用統合特徴マップを生成させ、(2)(2−1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記学習用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記学習用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された学習用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(2−2)(i)第2リシェイプレイヤをもって、前記学習用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記学習用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された学習用第2調整特徴マップを生成させ、(3)(3−1)(i)第2トランスポーズレイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成させ、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する前記学習用物体クラス情報を生成させた後、(3−2)検出レイヤをもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、(3−3)検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、少なくとも一つのテストイメージが取得されると、テスト装置が、(a1)前記コンボリューションレイヤをもって、前記テストイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用初期特徴マップ(Initial Feature Map)を生成させ、(a2)前記RPNをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させ、(a3)(a3−1)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第1トランスポーズレイヤ(Transposing Layer)をもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネート(Concatenating)させてテスト用統合特徴マップ(Integrated Feature Map)を生成させるか、(a3−2)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートさせて前記テスト用統合特徴マップを生成させる段階;
    (b)前記テスト装置が、(b1)(i)前記第1リシェイプレイヤ(Reshaping Layer)をもって、前記テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)前記1xH1コンボリューションレイヤをもって、前記テスト用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整されたテスト用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(b2)(i)前記第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第2リシェイプ済み特徴マップを生成させ、(ii)前記1xH2コンボリューションレイヤをもって、前記テスト用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させる段階;及び
    (c)前記テスト装置が、(c1)(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用前記物体クラス情報を生成させた後、(c2)前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させる段階;
    を含むことを特徴とするテスト方法。
  10. 前記(b)段階で、
    前記テスト用統合特徴マップのチャンネル個数が前記H1の倍数でない場合、前記テスト装置は、前記第1リシェイプレイヤをもって、前記テスト用統合特徴マップに少なくとも一つの第1ダミーチャンネル(Dummy Channel)を追加させて少なくとも一つの前記第1ダミーチャンネルを含む前記テスト用統合特徴マップのチャンネル個数が前記H1の倍数になるようにした後、前記テスト用統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH1個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、
    前記(b)段階で、
    前記テスト用第1調整特徴マップのチャンネル個数が前記H2の倍数でない場合、前記テスト装置は、前記第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して少なくとも一つの前記第2ダミーチャンネルを含む前記テスト用第1調整特徴マップのチャンネル個数が前記H2の倍数になるようにした後、前記テスト用第1調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH2個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする請求項9に記載のテスト方法。
  11. 前記テスト用プロポーザルの個数をNとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をM1、高さをM2とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をJとする場合、
    前記(a)段階で、
    前記テスト装置は、(i)前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記テスト用統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記テスト用統合特徴マップに変換させるようにすることを特徴とする請求項9に記載のテスト方法。
  12. 前記1xH1コンボリューションレイヤのフィルタの個数をKとし、前記1xH2コンボリューションレイヤのフィルタの個数をLとする場合、
    前記(b)段階で、
    前記テスト装置は、前記第1リシェイプレイヤをもって、幅N、高さH1、チャンネル個数CEIL
    Figure 0006858382
    である前記テスト用第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数KであるNx1xKのボリュームを有する前記テスト用第1調整特徴マップを生成させ、
    前記テスト装置は、前記第2リシェイプレイヤをもって、幅N、高さH2、チャンネル個数CEIL
    Figure 0006858382
    である前記テスト用第2リシェイプ済み特徴マップを生成させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数LであるNx1xLのボリュームを有する前記テスト用第2調整特徴マップを生成させることを特徴とする請求項11に記載のテスト方法。
  13. 前記(c)段階で、
    前記テスト装置は、(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを、N個の前記テスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを、N個の前記テスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする請求項12に記載のテスト方法。
  14. 前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする請求項9に記載のテスト方法。
  15. 前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする請求項9に記載のテスト方法。
  16. CNN基盤の物体検出器のパラメータを学習する学習装置において、
    インストラクションを格納する少なくとも一つのメモリと、
    (I)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート(Concatenating)させて統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記プロポーザルごとにコンカチネートさせて前記統合特徴マップを生成させるプロセス、(II)(II−1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップ(Adjusted Feature Map)を生成させ、(II−2)(i)第2リシェイプレイヤをもって、前記第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させるプロセス、及び(III)(III−1)(i)第2トランスポーズレイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する前記物体クラス情報を生成させた後、(III−2)検出レイヤをもって、前記物体クラス情報と前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、(III−3)検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
    を含むことを特徴とする学習装置。
  17. 前記(I)プロセス以後、
    前記プロセッサは、RPNロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることで、前記RPNロスをバックプロパゲーションして前記RPNの少なくとも一部のパラメータを学習することを特徴とする請求項16に記載の学習装置。
  18. 前記(II)プロセスで、
    前記統合特徴マップのチャンネル個数が前記H1の倍数でない場合、前記プロセッサは、前記第1リシェイプレイヤをもって、前記統合特徴マップに少なくとも一つの第1ダミーチャンネル(Dummy Channel)を追加させて少なくとも一つの前記第1ダミーチャンネルを含む前記統合特徴マップのチャンネル個数が前記H1の倍数になるようにした後、前記統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH1個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、
    前記(II)プロセスで、
    前記第1調整特徴マップのチャンネル個数が前記H2の倍数でない場合、前記プロセッサは、前記第2リシェイプレイヤをもって、前記第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して前記少なくとも一つの第2ダミーチャンネルを含む前記第1調整特徴マップのチャンネル個数が前記H2の倍数になるようにした後、前記第1調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH2個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする請求項16に記載の学習装置。
  19. 前記プロポーザルの個数をNとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をM1、高さをM2とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をJとする場合、
    前記(I)プロセスで、
    前記プロセッサは、(i)前記第1トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記統合特徴マップに変換させるようにすることを特徴とする請求項16に記載の学習装置。
  20. 前記1xH1コンボリューションレイヤのフィルタの個数をKとし、前記1xH2コンボリューションレイヤのフィルタの個数をLとする場合、
    前記(II)プロセスで、
    前記プロセッサは、前記第1リシェイプレイヤをもって、幅N、高さH1、チャンネル個数CEIL
    Figure 0006858382
    である前記第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネルKであるNx1xKのボリュームを有する前記第1調整特徴マップを生成させ、
    前記プロセッサは、前記第2リシェイプレイヤをもって、幅H2、高さN、チャンネルCEIL
    Figure 0006858382
    である前記第2リシェイプ済み特徴マップを出力させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネルLであるNx1xLのボリュームを有する前記第2調整特徴マップを生成させることを特徴とする請求項19に記載の学習装置。
  21. 前記(III)プロセスで、
    前記プロセッサは、(i)前記第2トランスポーズレイヤをもって、前記第2調整特徴マップを、N個の前記プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを、N個の前記プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする請求項20に記載の学習装置。
  22. 前記分類レイヤは少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする請求項16に記載の学習装置。
  23. 前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする請求項16に記載の学習装置。
  24. CNN基盤の物体検出器をテストするテスト装置において、
    インストラクションを格納する少なくとも一つのメモリと、
    学習装置は、(1)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート(Concatenating)させて学習用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートさせて前記学習用統合特徴マップを生成させ、(2)(2−1)(i)第1リシェイプレイヤ(Reshaping Layer)をもって、前記学習用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)1xH1コンボリューションレイヤをもって、前記学習用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整された学習用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(2−2)(i)第2リシェイプレイヤをもって、前記学習用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第2リシェイプ済み特徴マップを生成させ、(ii)1xH2コンボリューションレイヤをもって、前記学習用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整された学習用第2調整特徴マップを生成させ、(3)(3−1)(i)第2トランスポーズレイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成させ、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する前記学習用物体クラス情報を生成させた後、(3−2)検出レイヤをもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、(3−3)検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記1xH2コンボリューションレイヤ、前記1xH1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、(I)(i)前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップ(Initial Feature Map)を生成させ、(ii)前記RPNをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させ、(iii)(iii−1)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第1トランスポーズレイヤ(Transposing Layer)をもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネート(Concatenating)させてテスト用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートさせて前記テスト用統合特徴マップを生成させるプロセス、(II)(II−1)(i)前記第1リシェイプレイヤ(Reshaping Layer)をもって、前記テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するH1個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第1リシェイプ済み特徴マップ(Reshaped Feature Map)を生成させ、(ii)前記1xH1コンボリューションレイヤをもって、前記テスト用第1リシェイプ済み特徴マップに対して1xH1コンボリューション演算を適用させてボリューム(Volume)が調整されたテスト用第1調整特徴マップ(Adjusted Feature Map)を生成させ、(II−2)(i)前記第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するH2個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第2リシェイプ済み特徴マップを生成させ、(ii)前記1xH2コンボリューションレイヤをもって、前記テスト用第2リシェイプ済み特徴マップに対して1xH2コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させるプロセス、及び(III)(III−1)(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用前記物体クラス情報を生成させた後、(III−2)前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
    を含むことを特徴とするテスト装置。
  25. 前記(II)プロセスで、
    前記テスト用統合特徴マップのチャンネル個数が前記H1の倍数でない場合、前記プロセッサは、前記第1リシェイプレイヤをもって、前記テスト用統合特徴マップに少なくとも一つの第1ダミーチャンネル(Dummy Channel)を追加させて少なくとも一つの前記第1ダミーチャンネルを含む前記テスト用統合特徴マップのチャンネル個数が前記H1の倍数になるようにした後、前記テスト用統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH1個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、
    前記(II)プロセスで、
    前記テスト用第1調整特徴マップのチャンネル個数が前記H2の倍数でない場合、前記プロセッサは、前記第2リシェイプレイヤをもって、前記テスト用第1調整特徴マップに少なくとも一つの第2ダミーチャンネルを追加して少なくとも一つの前記第2ダミーチャンネルを含む前記テスト用第1調整特徴マップのチャンネル個数が前記H2の倍数になるようにした後、前記テスト用第1調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するH2個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする請求項24に記載のテスト装置。
  26. 前記テスト用プロポーザルの個数をNとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をM1、高さをM2とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をJとする場合、
    前記(I)プロセスで、
    前記プロセッサは、(i)前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記テスト用統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅N、高さ1、チャンネルM1xM2xJである前記テスト用統合特徴マップに変換させるようにすることを特徴とする請求項24に記載のテスト装置。
  27. 前記1xH1コンボリューションレイヤのフィルタの個数をKとし、前記1xH2コンボリューションレイヤのフィルタの個数をLとする場合、
    前記(II)プロセスで、
    前記プロセッサは、前記第1リシェイプレイヤをもって、幅N、高さH1、チャンネル個数CEIL
    Figure 0006858382
    である前記テスト用第1リシェイプ済み特徴マップを生成させ、前記1xH1コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数KであるNx1xKのボリュームを有する前記テスト用第1調整特徴マップを生成させ、
    前記プロセッサは、前記第2リシェイプレイヤをもって、幅N、高さH2、チャンネル個数CEIL
    Figure 0006858382
    である前記テスト用第2リシェイプ済み特徴マップを生成させ、前記1xH2コンボリューションレイヤをもって、幅N、高さ1、チャンネル個数LであるNx1xLのボリュームを有する前記テスト用第2調整特徴マップを生成させることを特徴とする請求項26に記載のテスト装置。
  28. 前記(III)プロセスで、
    前記プロセッサは、(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを、N個の前記テスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを、N個の前記テスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネルLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする請求項27に記載のテスト装置。
  29. 前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする請求項24に記載のテスト装置。
  30. 前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする請求項24に記載のテスト装置。
JP2020002054A 2019-01-23 2020-01-09 ハードウェア最適化に使用される1xHコンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置 Active JP6858382B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,976 US10387754B1 (en) 2019-01-23 2019-01-23 Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same
US16/254,976 2019-01-23

Publications (2)

Publication Number Publication Date
JP2020119539A JP2020119539A (ja) 2020-08-06
JP6858382B2 true JP6858382B2 (ja) 2021-04-14

Family

ID=67620910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020002054A Active JP6858382B2 (ja) 2019-01-23 2020-01-09 ハードウェア最適化に使用される1xHコンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置

Country Status (5)

Country Link
US (1) US10387754B1 (ja)
EP (1) EP3686800B1 (ja)
JP (1) JP6858382B2 (ja)
KR (1) KR102338750B1 (ja)
CN (1) CN111476262B (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3593291B8 (en) 2017-05-19 2024-08-14 DeepMind Technologies Limited Making object-level predictions of the future state of a physical system
CN110874671B (zh) * 2019-10-24 2021-03-16 腾讯科技(深圳)有限公司 一种配电网的电力负荷预测方法、装置及存储介质
CN113269014A (zh) * 2020-02-17 2021-08-17 阿里巴巴集团控股有限公司 图像处理方法、设备及存储介质
DE102020107108A1 (de) * 2020-03-16 2021-09-16 Kopernikus Automotive GmbH Verfahren und System zum autonomen Fahren eines Fahrzeugs
JP6830561B1 (ja) * 2020-09-17 2021-02-17 株式会社スペースリー 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム
CN112035683A (zh) * 2020-09-30 2020-12-04 北京百度网讯科技有限公司 用户交互信息处理模型生成方法和用户交互信息处理方法

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536293B2 (en) * 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
WO2016165060A1 (en) * 2015-04-14 2016-10-20 Intel Corporation Skin detection based on online discriminative modeling
US20170124409A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Cascaded neural network with scale dependent pooling for object detection
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
JP6873600B2 (ja) * 2016-03-04 2021-05-19 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
US20180039853A1 (en) * 2016-08-02 2018-02-08 Mitsubishi Electric Research Laboratories, Inc. Object Detection System and Object Detection Method
US10019655B2 (en) * 2016-08-31 2018-07-10 Adobe Systems Incorporated Deep-learning network architecture for object detection
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US11308350B2 (en) * 2016-11-07 2022-04-19 Qualcomm Incorporated Deep cross-correlation learning for object tracking
US10846523B2 (en) * 2016-11-14 2020-11-24 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
JP6929047B2 (ja) * 2016-11-24 2021-09-01 キヤノン株式会社 画像処理装置、情報処理方法及びプログラム
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
CN108303748A (zh) * 2017-01-12 2018-07-20 同方威视技术股份有限公司 检查设备和检测行李物品中的枪支的方法
US10185878B2 (en) * 2017-02-28 2019-01-22 Microsoft Technology Licensing, Llc System and method for person counting in image data
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US20180260414A1 (en) * 2017-03-10 2018-09-13 Xerox Corporation Query expansion learning with recurrent networks
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
US11010595B2 (en) * 2017-03-23 2021-05-18 Samsung Electronics Co., Ltd. Facial verification method and apparatus
US10325342B2 (en) * 2017-04-27 2019-06-18 Apple Inc. Convolution engine for merging interleaved channel data
US10460470B2 (en) * 2017-07-06 2019-10-29 Futurewei Technologies, Inc. Recognition and reconstruction of objects with partial appearance
US10503978B2 (en) * 2017-07-14 2019-12-10 Nec Corporation Spatio-temporal interaction network for learning object interactions
US10776903B2 (en) * 2017-07-17 2020-09-15 Open Text Corporation Systems and methods for image modification and image based content capture and extraction in neural networks
EP3432263B1 (en) * 2017-07-17 2020-09-16 Siemens Healthcare GmbH Semantic segmentation for cancer detection in digital breast tomosynthesis
CN108022238B (zh) * 2017-08-09 2020-07-03 深圳科亚医疗科技有限公司 对3d图像中对象进行检测的方法、计算机存储介质和系统
KR101880901B1 (ko) * 2017-08-09 2018-07-23 펜타시큐리티시스템 주식회사 기계 학습 방법 및 장치
JP6972756B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
US10753997B2 (en) * 2017-08-10 2020-08-25 Siemens Healthcare Gmbh Image standardization using generative adversarial networks
JP6972757B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
US10929987B2 (en) * 2017-08-16 2021-02-23 Nvidia Corporation Learning rigidity of dynamic scenes for three-dimensional scene flow estimation
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN107492099B (zh) * 2017-08-28 2021-08-20 京东方科技集团股份有限公司 医学图像分析方法、医学图像分析系统以及存储介质
US10884433B2 (en) * 2017-08-28 2021-01-05 Nec Corporation Aerial drone utilizing pose estimation
US20190094858A1 (en) * 2017-09-25 2019-03-28 Uber Technologies, Inc. Parking Location Prediction
US9984325B1 (en) * 2017-10-04 2018-05-29 StradVision, Inc. Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
US11798650B2 (en) * 2017-10-16 2023-10-24 Illumina, Inc. Semi-supervised learning for training an ensemble of deep convolutional neural networks
CN108764292B (zh) * 2018-04-27 2022-03-18 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法

Also Published As

Publication number Publication date
KR20200091793A (ko) 2020-07-31
JP2020119539A (ja) 2020-08-06
KR102338750B1 (ko) 2021-12-15
EP3686800C0 (en) 2024-06-19
CN111476262B (zh) 2023-08-15
US10387754B1 (en) 2019-08-20
EP3686800B1 (en) 2024-06-19
CN111476262A (zh) 2020-07-31
EP3686800A1 (en) 2020-07-29

Similar Documents

Publication Publication Date Title
JP6858382B2 (ja) ハードウェア最適化に使用される1xHコンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置
JP6857368B2 (ja) Cnn学習方法及び学習装置、これを利用したテスト方法及びテスト装置
JP6964353B2 (ja) ハードウェア最適化に使用されるイメージ認識のための1x1コンボリューションを利用したCNN学習方法及び学習装置、それを利用したテスト方法及びテスト装置{LEARNING METHOD AND LEARNING DEVICE FOR CONVOLUTIONAL NEURAL NETWORK USING 1×1 CONVOLUTION FOR IMAGE RECOGNITION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAME}
KR102337376B1 (ko) 레인 마스크(Lane Mask)를 사용하여 후처리 없이 입력 이미지에 포함된 하나 이상의 차선을 검출하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
JP6857369B2 (ja) Cnnを学習する方法及び学習装置、それを利用したテスト方法及びテスト装置
JP6924517B2 (ja) ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法
JP6957050B2 (ja) モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same}
CN110399789A (zh) 行人重识别方法、模型构建方法、装置、设备和存储介质
JP6853592B2 (ja) ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING METHOD AND LEARNING DEVICE FOR OBJECT DETECTOR BASED ON CNN USING 1×1 CONVOLUTION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAME}
JP6856957B2 (ja) 写真スタイル変換を使用してランタイム入力の変換によりリアル世界で使用されるバーチャル世界で学習されたcnnを許容するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
JP6864891B2 (ja) 自律走行車両レベル4を満たすために領域のクラスに応じてモードを切り換えるためにグリッド生成器を利用するニューラルネットワーク演算方法及びこれを利用した装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210316

R150 Certificate of patent or registration of utility model

Ref document number: 6858382

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250