JP6853592B2

JP6853592B2 - ハードウェア最適化に使用される１ｘ１コンボリューションを利用したＣＮＮ基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置｛ＬＥＡＲＮＩＮＧＭＥＴＨＯＤＡＮＤＬＥＡＲＮＩＮＧＤＥＶＩＣＥＦＯＲＯＢＪＥＣＴＤＥＴＥＣＴＯＲＢＡＳＥＤＯＮＣＮＮＵＳＩＮＧ１×１ＣＯＮＶＯＬＵＴＩＯＮＴＯＢＥＵＳＥＤＦＯＲＨＡＲＤＷＡＲＥＯＰＴＩＭＩＺＡＴＩＯＮ，ＡＮＤＴＥＳＴＩＮＧＭＥＴＨＯＤＡＮＤＴＥＳＴＩＮＧＤＥＶＩＣＥＵＳＩＮＧＴＨＥＳＡＭＥ｝

Info

Publication number: JP6853592B2
Application number: JP2020002334A
Authority: JP
Inventors: 金桂賢; 金鎔重; 金寅洙; 金鶴京; 南雲鉉; 夫碩▲くん▼; 成明哲; 呂東勳; 柳宇宙; 張泰雄; 鄭景中; 諸泓模; 趙浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-23
Filing date: 2020-01-09
Publication date: 2021-03-31
Anticipated expiration: 2040-01-09
Also published as: JP2020119541A; EP3686797B1; US10395140B1; EP3686797C0; CN111476075B; EP3686797A1; CN111476075A; KR102328733B1; KR20200091791A

Description

本発明は、ハードウェア最適化に使用される１ｘ１コンボリューションを利用したＣＮＮ基盤の物体検出器のパラメータを学習する方法及び学習装置、これを利用したテスト方法及びテスト装置に関し、より詳細には、前記ＣＮＮ基盤の前記物体検出器の前記パラメータを学習する方法において、（ａ）少なくとも一つのトレーニングイメージが入力されると、学習装置が、（ｉ）少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体に対応する少なくとも一つのプロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネートして前記統合特徴マップを生成させる段階：（ｂ）前記学習装置が、第１の１ｘ１コンボリューションレイヤをもって、前記統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤをもって、前記第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップを生成させる段階；及び（ｃ）前記学習装置が、（ｃ１）（ｉ）第２トランスポーズレイヤをもって、前記第２調整特徴マップをピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成し、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに対する前記物体クラス情報を生成させた後、（ｃ２）検出レイヤ（ＤｅｔｅｃｔｉｎｇＬａｙｅｒ）をもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、（ｃ３）検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスを利用したバックプロパゲーションを通じて前記第２の１ｘ１コンボリューションレイヤ、前記第１の１ｘ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階；を含む学習方法、これを利用してテストする方法と、これを利用した学習装置及びテスト装置に関する。

ディープコンボリューションニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＤｅｅｐＣＮＮ）は、ディープラーニング分野で起きた驚くべき発展の核心である。ＣＮＮは、文字の認識問題を解決するために９０年代にすでに使用されていたが、現在のように広く使われるようになったのは最近の研究結果の賜物である。このようなディープＣＮＮは、２０１２年ＩｍａｇｅＮｅｔイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）分野で非常に有用なツールとなった。
このようなＣＮＮは、イメージから特徴を抽出する特徴抽出器と、特徴抽出器から抽出された特徴を参照してイメージを認識するか、イメージ内の物体を検出する特徴分類器とで構成される。

そして、ＣＮＮは、イメージで特徴を抽出する特徴抽出器（ＦｅａｔｕｒｅＥｘｔｒａｃｔｏｒ）及びイメージ内の物体を検出したり特徴抽出器が抽出した特徴を参照してイメージを認識する特徴分類器（ＦｅａｔｕｒｅＣｌａｓｓｉｆｉｅｒ）で構成される。

そして、ＣＮＮの特徴抽出器はコンボリューションレイヤで構成され、特徴分類器は、特徴抽出器が抽出した特徴に対してＦＣ演算（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＯｐｅｒａｔｉｏｎ）を適用することができるＦＣレイヤで構成される。

しかしながら、このようなＦＣレイヤは入力された全ての特徴に対して重み付け値を生成しなければならない不便さがあり、入力されたすべての特徴に対してＦＣ演算を遂行しなければならないため、コンピューティング演算量が多くなる短所がある。

また、ＦＣレイヤではＦＣレイヤに入力されるイメージのサイズがＦＣレイヤモデルの所定サイズと一致しなければならない。そのため、このようなＦＣレイヤを含むＣＮＮに予め設定されたサイズと異なるトレーニングイメージまたはテストイメージが入力される場合、コンボリューションレイヤがトレーニングイメージやテストイメージに対して当該演算を適用することができるが、ＦＣレイヤでは前記所定サイズと異なるサイズの入力イメージが入力されるため、トレーニングイメージやテストイメージに該当演算を適用することができない。

したがって、本発明の発明者は、前記のようなＦＣレイヤの問題点を克服することができるようにするＣＮＮ基盤の物体検出器を提案することにする。

本発明は、上述した問題点を全て解決することをその目的とする。

本発明は、入力イメージのサイズと関係なしに少なくとも一つの入力イメージ内に位置する物体を検出することができるようにするＣＮＮ基盤の物体検出器を提供することを他の目的とする。

本発明は、特徴分類のための重み付け値の個数を最小化することができるようにするＣＮＮ基盤の物体検出器を提供することをまた他の目的とする。

本発明は、特徴分類のためのコンピューティング演算量を減少させることができるようにするＣＮＮ基盤の物体検出器を提供することをまた他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下の通りである。

本発明の一態様によると、ＣＮＮ基盤の物体検出器のパラメータを学習する方法において、（ａ）少なくとも一つのトレーニングイメージが入力されると、学習装置が、（ｉ）少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体に対応する少なくとも一つのプロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネートして前記統合特徴マップを生成させる段階；（ｂ）前記学習装置が、第１の１ｘ１コンボリューションレイヤをもって、前記統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤをもって、前記第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップを生成させる段階；及び（ｃ）前記学習装置が、（ｃ１）（ｉ）第２トランスポーズレイヤをもって、前記第２調整特徴マップをピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成し、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに対する前記物体クラス情報を生成させた後、（ｃ２）検出レイヤ（ＤｅｔｅｃｔｉｎｇＬａｙｅｒ）をもって、前記物体クラス情報と前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、（ｃ３）検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスを利用したバックプロパゲーションを通じて前記第２の１ｘ１コンボリューションレイヤ、前記第１の１ｘ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階；を含むことを特徴とする。

一実施例において、前記（ａ）段階以後、前記学習装置は、ＲＰＮロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることにより、前記ＲＰＮロスをバックプロパゲーションして前記ＲＰＮのパラメータの少なくとも一部を学習することを特徴とする。

一実施例において、前記プロポーザルの個数をＮとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をＪとする場合、前記（ａ）段階で、前記学習装置は、（ｉ）前記第１トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにすることを特徴とする。

一実施例において、前記第１の１ｘ１コンボリューションレイヤ内のフィルタの個数をＫとし、前記第２の１ｘ１コンボリューションレイヤ内のフィルタの個数をＬとする場合、前記（ｂ）段階で、前記学習装置は、前記第１の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＫであるＮｘ１ｘＫのボリュームを有する前記第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、前記第２の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＬであるＮｘ１ｘＬのボリュームを有する前記第２調整特徴マップを生成させることを特徴とする。

一実施例において、前記（ｃ）段階で、前記学習装置は、（ｉ）前記第２トランスポーズレイヤをもって、前記第２調整特徴マップを、Ｎ個のプロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを、前記Ｎ個のプロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする。

一実施例において、前記分類レイヤは、少なくとも一つのソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することを特徴とする。

一実施例において、前記検出レイヤは、少なくとも一つのＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することを特徴とする。

本発明の一態様によると、ＣＮＮ基盤の物体検出器をテストする方法において、（ａ）学習装置は、（１）（ｉ）少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体に対応する少なくとも一つの学習用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して学習用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートして前記学習用統合特徴マップを生成させ、（２）第１の１ｘ１コンボリューションレイヤをもって、前記学習用統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された学習用第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤをもって、前記学習用第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整された学習用第２調整特徴マップを生成させ、（３）（３−１）（ｉ）第２トランスポーズレイヤをもって、前記学習用第２調整特徴マップをピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する学習用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記学習用第２調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する前記学習用物体クラス情報を生成させた後、（３−２）検出レイヤ（ＤｅｔｅｃｔｉｎｇＬａｙｅｒ）をもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、（３−３）検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記第２の１ｘ１コンボリューションレイヤ、前記第１の１ｘ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、少なくとも一つのテストイメージが入力されると、テスト装置が、（ｉ）前記コンボリューションレイヤをもって、前記テストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップを生成させ、（ｉｉ）前記ＲＰＮをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体に対応する少なくとも一つのテスト用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第１トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートして前記テスト用統合特徴マップを生成させる段階；（ｂ）前記テスト装置が、前記第１の１ｘ１コンボリューションレイヤをもって、前記テスト用統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整されたテスト用第１調整特徴マップを生成させ、前記第２の１ｘ１コンボリューションレイヤをもって、前記テスト用第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整されたテスト用第２調整特徴マップを生成させる段階；及び（ｃ）前記テスト装置が、（ｃ１）（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップをピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに対する前記テスト用物体クラス情報を生成させた後、（ｃ２）前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させる段階；を含むことを特徴とする。

一実施例において、前記（１）プロセス以後、前記学習装置は、ＲＰＮロスレイヤをもって、前記学習用プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることで、前記ＲＰＮロスをバックプロパゲーションして前記ＲＰＮのパラメータの少なくとも一部を学習することを特徴とする。

一実施例において、前記テスト用プロポーザルの個数をＮとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をＪとする場合、前記（ａ）段階で、前記テスト装置は、（ｉ）前記第１トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにすることを特徴とする。

一実施例において、前記第１の１ｘ１コンボリューションレイヤ内のフィルタの個数をＫとし、前記第２の１ｘ１コンボリューションレイヤ内のフィルタの個数をＬとする場合、前記（ｂ）段階で、前記テスト装置は、前記第１の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＫであるＮｘ１ｘＫのボリュームを有する前記テスト用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、前記第２の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＬであるＮｘ１ｘＬのボリュームを有する前記テスト用第２調整特徴マップを生成させることを特徴とする。

一実施例において、前記（ｃ）段階で、前記テスト装置は、（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップを、Ｎ個のテスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを、前記Ｎ個のテスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする。

本発明のまた他の態様によると、ＣＮＮ基盤の物体検出器のパラメータを学習する学習装置において、インストラクションを格納する少なくとも一つのメモリと、（Ｉ）（ｉ）少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体に対応する少なくとも一つのプロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネートして前記統合特徴マップを生成させるプロセス、（ＩＩ）第１の１ｘ１コンボリューションレイヤをもって、前記統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤをもって、前記第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップを生成させるプロセス、及び（ＩＩＩ）（ＩＩＩ−１）（ｉ）第２トランスポーズレイヤをもって、前記第２調整特徴マップをピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成し、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに対する前記物体クラス情報を生成させた後、（ＩＩＩ−２）検出レイヤ（ＤｅｔｅｃｔｉｎｇＬａｙｅｒ）をもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、（ＩＩＩ−３）検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスを利用したバックプロパゲーションを通じて前記第２の１ｘ１コンボリューションレイヤ、前記第１の１ｘ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

一実施例において、前記（Ｉ）プロセス以後、前記プロセッサは、ＲＰＮロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることにより、前記ＲＰＮロスをバックプロパゲーションして前記ＲＰＮのパラメータの少なくとも一部を学習することを特徴とする。

一実施例において、前記プロポーザルの個数をＮとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をＪとする場合、前記（Ｉ）プロセスで、前記プロセッサは、（ｉ）前記第１トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにすることを特徴とする。

一実施例において、前記第１の１ｘ１コンボリューションレイヤ内のフィルタの個数をＫとし、前記第２の１ｘ１コンボリューションレイヤ内のフィルタの個数をＬとする場合、前記（ＩＩ）プロセスにおいて、前記プロセッサは、前記第１の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＫであるＮｘ１ｘＫのボリュームを有する前記第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、前記第２の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＬであるＮｘ１ｘＬのボリュームを有する前記第２調整特徴マップを生成させることを特徴とする。

一実施例において、前記（ＩＩＩ）プロセスにおいて、前記プロセッサは、（ｉ）前記第２トランスポーズレイヤをもって、前記第２調整特徴マップを、Ｎ個のプロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを、前記Ｎ個のプロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする。

本発明のまた他の態様によると、ＣＮＮ基盤の物体検出器をテストするテスト装置において、インストラクションを格納する少なくとも一つのメモリと、学習装置は、（１）（ｉ）少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体に対応する少なくとも一つの学習用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルを前記学習用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して学習用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルを前記学習用プロポーザルごとにコンカチネートして前記学習用統合特徴マップを生成させ、（２）第１の１ｘ１コンボリューションレイヤをもって、前記学習用統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された学習用第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤをもって、前記学習用第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整された学習用第２調整特徴マップを生成させ、（３）（３−１）（ｉ）第２トランスポーズレイヤをもって、前記学習用第２調整特徴マップをピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する学習用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記学習用第２調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する前記学習用物体クラス情報を生成させた後、（３−２）検出レイヤ（ＤｅｔｅｃｔｉｎｇＬａｙｅｒ）をもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、（３−３）検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記第２の１ｘ１コンボリューションレイヤ、前記第１の１ｘ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、（Ｉ）（ｉ）前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップを生成させ、（ｉｉ）前記ＲＰＮをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体に対応する少なくとも一つのテスト用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第１トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートして前記テスト用統合特徴マップを生成させるプロセス、（ＩＩ）前記第１の１ｘ１コンボリューションレイヤをもって、前記テスト用統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整されたテスト用第１調整特徴マップを生成させ、前記第２の１ｘ１コンボリューションレイヤをもって、前記テスト用第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整されたテスト用第２調整特徴マップを生成させるプロセス、及び（ＩＩＩ）（ＩＩＩ−１）（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップをピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに対する前記テスト用物体クラス情報を生成させた後、（ＩＩＩ−２）前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

一実施例において、前記テスト用プロポーザルの個数をＮとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をＪとする場合、前記（Ｉ）プロセスで、前記プロセッサは、（ｉ）前記第１トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにすることを特徴とする。

一実施例において、前記第１の１ｘ１コンボリューションレイヤ内のフィルタの個数をＫとし、前記第２の１ｘ１コンボリューションレイヤ内のフィルタの個数をＬとする場合、前記（ＩＩ）プロセスにおいて、前記プロセッサは、前記第１の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＫであるＮｘ１ｘＫのボリュームを有する前記テスト用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、前記第２の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＬであるＮｘ１ｘＬのボリュームを有する前記テスト用第２調整特徴マップを生成させることを特徴とする。

一実施例において、前記（ＩＩＩ）プロセスにおいて、前記プロセッサは、（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップを、Ｎ個のテスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを、前記Ｎ個のテスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする。

その他にも、本発明の方法を実行するためのコンピュータプログラムを記録するためのコンピュータ読取り可能な記録媒体がさらに提供される。

本発明は、コンボリューションレイヤのみでＣＮＮ基盤の物体検出器を具現することにより、入力イメージのサイズに関係なく入力イメージ内に位置する物体を検出することができる効果がある。

また、本発明は、コンボリューションレイヤのみでＣＮＮ基盤の物体検出器を具現することにより、ＦＣレイヤを利用する場合に比べて特徴分類のための重み付け値の個数を最小化することができる他の効果がある。

また、本発明は、コンボリューションレイヤのみでＣＮＮ基盤の物体検出器を具現することにより、ＦＣレイヤを利用する場合に比べて特徴分類のためのコンピューティング演算量を減少させ得るまた他の効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。

本発明の一実施例によるＣＮＮ基盤の物体検出器を学習する学習装置を簡略に示したものである。本発明の一実施例によるＣＮＮ基盤の物体検出器を学習する方法を簡略に示したものである。本発明の一実施例によるＣＮＮ基盤の物体検出器を学習する方法においてプーリングレイヤによって生成されたプロポーザルごとのプーリング済み特徴マップを簡略に示したものである。本発明の一実施例によるＣＮＮ基盤の物体検出器を学習する方法において、プロポーザルごとのプーリング済み特徴マップを利用して生成された統合特徴マップを簡略に示したものである。本発明の一実施例による、第１の１ｘ１コンボリューションレイヤをもって、統合特徴マップに対してコンボリューション演算を少なくとも一回適用させて生成された第１調整特徴マップを簡略に示したものである。本発明の一実施例による、第２の１ｘ１コンボリューションレイヤをもって、第１調整特徴マップに対してコンボリューション演算を適用させて生成された第２調整特徴マップを簡略に示したものである。本発明の一実施例によるＣＮＮ基盤の物体検出器を学習する方法において、第２調整特徴マップを利用して生成されたプロポーザルごとのピクセル別特徴マップを簡略に示したものである。本発明の一実施例によるＣＮＮ基盤の物体検出器をテストするテスト装置を簡略に示したものである。本発明の一実施例によるＣＮＮ基盤の物体検出器をテストする方法を簡略に示したものである。

後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施するようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することとする。

図１は、本発明の一実施例によるＣＮＮ基盤の物体検出器を学習する学習装置１００を簡略に示したものであって、図１を参照すると、学習装置１００は通信部１１０とプロセッサ１２０とを含むことができる。

先ず、通信部１１０は、少なくとも一つのトレーニングイメージを受信することができる。

この際、トレーニングイメージはデータベース１３０に格納されていてもよく、データベース１３０にはトレーニングイメージにそれぞれ対応する少なくとも一つの物体それぞれに対するクラス情報の少なくとも一つの原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）及び前記物体に対する位置情報の少なくとも一つの原本正解が格納されていてもよい。

また、学習装置は、次のプロセスを遂行するためのコンピュータ読取り可能ななインストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納することができるメモリ１１５をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は統合プロセッサ（ＩｎｔｅｇｒａｔｅｄＰｒｏｃｅｓｓｏｒ）として統合され得る。

次に、プロセッサ１２０は、（ｉ）少なくとも一つのコンボリューションレイヤをもって、トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させるプロセス、（ｉｉ）ＲＰＮをもって、初期特徴マップを利用してトレーニングイメージ内に位置する物体それぞれに対応する少なくとも一つのプロポーザルを生成させるプロセス、及び（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、初期特徴マップ上でプロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させてプロポーザルごとのプーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、プロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをプロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）プーリングレイヤをもって、初期特徴マップ上でプロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させてプロポーザルごとのプーリング済み特徴マップを生成し、プーリングレイヤをもって、プロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをプロポーザルごとにコンカチネートして統合特徴マップを生成させるプロセスを遂行することができる。

また、プロセッサ１２０は、第１の１ｘ１コンボリューションレイヤをもって、統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤをもって、第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップ５００Ｂを生成させるプロセスを遂行することができる。その後、プロセッサ１２０は（ｉ）第２トランスポーズレイヤをもって、第２調整特徴マップ５００Ｂをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、プロポーザルごとのピクセル別特徴マップを利用してプロポーザルそれぞれに関する物体クラス情報を生成させるか、（ｉｉ）分類レイヤをもって、第２調整特徴マップ５００Ｂをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップを生成し、プロポーザルごとのピクセル別特徴マップを利用してプロポーザルそれぞれに関する物体クラス情報を生成させるプロセスを遂行することができる。

そして、プロセッサ１２０は、検出レイヤ（ＤｅｔｅｃｔｉｎｇＬａｙｅｒ）をもって、物体クラス情報とプロポーザルごとのピクセル別特徴マップとを参照してトレーニングイメージ内に位置する物体に対応する物体検出情報を生成させ、検出ロスレイヤをもって、物体検出情報とこれに対応する原本正解とを参照して少なくとも一つの物体検出ロスを算出させることにより、物体検出ロスをバックプロパゲーションして第２の１ｘ１コンボリューションレイヤ、第１の１ｘ１コンボリューションレイヤ、及びコンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行することができる。

また、プロセッサ１２０は、ＲＰＮロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることにより、ＲＰＮロスをバックプロパゲーションしてＲＰＮのパラメータの少なくとも一部を学習することができる。

ここで、物体検出ロス及びＲＰＮロスによるバックプロパゲーションの時間的順序には制限がないであろう。

この際、本発明の一実施例による学習装置１００は、コンピューティング装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置１００として採択され得る。また、図１では一つの学習装置１００のみを示したが、これに限定されず、学習装置は複数個に分けて役割を遂行することもできる。

このように構成された本発明の一実施例による学習装置１００を利用してＣＮＮ基盤の物体検出器のパラメータを学習する方法を、図２を参照して説明すると以下のとおりである。

まず、トレーニングイメージが入力されると、学習装置１００が、コンボリューションレイヤ１２１をもって、トレーニングイメージをコンボリューションに対してコンボリューション演算を適用させて初期特徴マップを出力させる。この際、コンボリューションレイヤ１２１は、トレーニングイメージ上に順次コンボリューション演算を適用するために単一コンボリューションレイヤ又は複数個のコンボリューションレイヤを含むことができる。

そして、学習装置１００は、ＲＰＮ１２２をもって、初期特徴マップを利用してトレーニングイメージ内に位置する物体に対応する少なくとも一つのプロポーザルを生成させることができる。この際、ＲＰＮ１２２は、トレーニングイメージ内に物体が位置するものと推定される候補領域に対応するＲＯＩ候補を生成することができ、ＲＯＩ候補のうち物体が位置するものと判断される確率が高い特定のＲＯＩ候補をプロポーザルとして出力することができる。

次に、学習装置１００は、プーリングレイヤ１２３をもって、初期特徴マップ上でプロポーザルそれぞれに対応するそれぞれの領域をプーリングしてプロポーザルごとのプーリング済み特徴マップを生成させることができる。

一実施例として、図３を参照すると、プロポーザルの個数をＮとし、プロポーザルごとのプーリング済み特徴マップの幅をＭ１、高さをＭ２とし、プロポーザルごとのプーリング済み特徴マップのチャンネル個数をＪとする場合、プロポーザルごとのプーリング済み特徴マップＰ１、Ｐ２、…、ＰＮはそれぞれＭ１ｘＭ２ｘＪのボリュームサイズを有することができる。

次に、学習装置１００は、第１トランスポーズレイヤ１２４をもって、プーリングレイヤ１２３から出力されたプロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをプロポーザルごとにコンカチネートしてピクセル別特徴マップを生成させることができる。

一例として、図３と図４を参照すると、図３におけるプロポーザルごとのそれぞれのプーリング済み特徴マップＰ１、Ｐ２、…、ＰＮ上における最も左側上端のピクセルをそれぞれＰ１Ｆ１１、Ｐ２Ｆ１１、…、ＰＮＦ１１とする場合、Ｐ１Ｆ１１、Ｐ２Ｆ１１、…、ＰＮＦ１１をコンカチネートして、図４ですべてのチャンネルのうち最初のチャンネルに対応する最も前面にあるラインのように幅Ｎ、高さ１である統合特徴マップ４００の第１部分が生成されるようにし、この過程をピクセルの残りの部分にも繰り返し実行する。そして、プロポーザルごとのプーリング済み特徴マップＰ１、Ｐ２、…、ＰＮそれぞれにおけるピクセル個数と同一にチャンネル個数がＭ１ｘＭ２ｘＪである統合特徴マップ４００を生成することができる。

先に説明したように、学習装置１００が、第１トランスポーズレイヤ１２４をもって、プーリングレイヤ１２３から出力されたプロポーザルごとのプーリング済み特徴マップＰ１、Ｐ２、…、ＰＮを利用して統合特徴マップ４００を生成させることができる。他の例として、学習装置１００が第１トランスポーズレイヤ１２４を使用せずに、プーリングレイヤ１２３をもって統合特徴マップを生成させることができる。つまり、学習装置１００は、プーリングレイヤ１２３をもって、初期特徴マップ上でプロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させてプロポーザルごとのプーリング済み特徴マップＰ１、Ｐ２、…、ＰＮを生成させ、プロポーザルごとのプーリング済み特徴マップＰ１、Ｐ２、…、ＰＮ上の対応する同一の各位置それぞれのピクセルをプロポーザルごとにコンカチネートさせて統合特徴マップ４００を生成させることができる。

次に、学習装置１００は、第１の１ｘ１コンボリューションレイヤ１２５をもって、統合特徴マップ４００に対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップ５００Ａを生成させ、第２の１ｘ１コンボリューションレイヤ１２６をもって、第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップ５００Ｂを生成させるプロセスを遂行することができる。

一例として、図５ａと図５ｂを参照すると、第１の１ｘ１コンボリューションレイヤ１２５のフィルタの個数をＫとし、第２の１ｘ１コンボリューションレイヤ１２６のフィルタの個数をＬとする場合、学習装置１００は第１の１ｘ１コンボリューションレイヤ１２５をもって、図４の統合特徴マップ４００に対して１ｘ１コンボリューション演算を適用させて図５ａのように幅Ｎ、高さ１、チャンネル個数ＫであるＮｘ１ｘＫのボリューム（Ｖｏｌｕｍｅ）を有する第１調整特徴マップ５００Ａを生成させ、第２の１ｘ１コンボリューションレイヤ１２６をもって、第１調整特徴マップ５００Ａに対して１ｘ１コンボリューション演算を適用させて図５ｂのように幅Ｎ、高さ１、チャンネル個数ＬであるＮｘ１ｘＬのボリュームを有する第２調整特徴マップ５００Ｂを生成させることができる。

次に、学習装置１００は、第２トランスポーズレイヤ１２７をもって、第２調整特徴マップ５００Ｂをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…及びＰＷＮを生成させることができる。

一例として、図６を参照すると、学習装置１００は第２トランスポーズレイヤ１２７をもって、図５ｂのように幅Ｎ、高さ１、チャンネル個数Ｌであるボリュームを有する第２調整特徴マップ５００Ｂをピクセルごとに分離してプロポーザルごとに幅１、高さ１、チャンネル個数Ｌであるピクセル別特徴マップＰＷ１、ＰＷ２、…及びＰＷＮを生成する。

次に、学習装置１００は、分類レイヤ１２８をもって、プロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…、及びＰＷＮを利用してプロポーザルそれぞれに関する物体クラス情報を生成させることができる。この際、分類レイヤ１２８は、少なくとも一つのソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することができ、それぞれのプロポーザルが検出しようとするそれぞれの物体と一致するものと判断される確率情報を生成させることができる。

先に説明したように、第２トランスポーズレイヤ１２７は、第２調整特徴マップ５００Ｂを利用してプロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…、及びＰＷＮを生成することができる。他の例として、分類レイヤ１２８は第２トランスポーズレイヤ１２７を使用せずに、第２調整特徴マップ５００Ｂを利用してプロポーザルごとのピクセル別特徴マップを生成することができる。つまり、学習装置１００は、分類レイヤ１２８をもって、第２調整特徴マップ５００Ｂをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…、及びＰＷＮを生成させ、分類レイヤ１２８をもって、プロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…及びＰＷＮを利用してプロポーザルそれぞれに関する物体クラス情報を生成させることができる。

次に、学習装置１００は、検出レイヤ１２９をもって、物体クラス情報とプロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…及びＰＷＮを参照してトレーニングイメージ内に位置する物体に対応する物体検出情報を生成させることができる。この際、検出レイヤ１２９は、ＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することができ、単一の物体に複数のプロポーザルがタグ付けされた場合、そのうち確率の高い少なくとも一つの特定プロポーザルを選択して単一の物体に対応する物体検出情報として出力することができる。

次に、学習装置１００は、検出ロスレイヤ１３２をもって、物体検出情報とこれに対応する原本正解とを参照して少なくとも一つの物体検出ロスを生成させることにより、物体検出ロスをバックプロパゲーションして第２の１ｘ１コンボリューションレイヤ１２６、第１の１ｘ１コンボリューションレイヤ１２５、及びコンボリューションレイヤ１２１のうち少なくとも一部のパラメータを調整することができる。

また、学習装置１００は、ＲＰＮ１２２に対応する少なくとも一つのＲＰＮロスレイヤ１３１をもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることにより、ＲＰＮロスをバックプロパゲーションしてＲＰＮ１２２の少なくとも一部のパラメータを調整することができる。

前記のように、本発明の一実施例によるＣＮＮ基盤の物体検出器は、コンボリューションレイヤのみで構成されているので、従来のＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）を利用したものとは異なって、ＦＣレイヤに入力されるイメージのサイズに関係なしに入力イメージ内の物体を検出することができる。また、本発明の一実施例によるＣＮＮ基盤の物体検出器は、１ｘ１コンボリューションのＬＣ演算（ＬｏｃａｌｌｙＣｏｎｎｅｃｔｅｄＯｐｅｒａｔｉｏｎ）を適用することにより、従来のＦＣレイヤのＦＣ演算に比べてコンピューティング演算量を減少させ得るようになる。

図７は、本発明の一実施例によるＣＮＮ基盤の物体検出器をテストするテスト装置２００を簡略に示したものであって、図７を参照すると、テスト装置２００は通信部２１０とプロセッサ２２０とを含むことができる。

また、テスト装置は、次のプロセスを遂行するためのコンピュータ読取り可能なインストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納することができるメモリ２１５をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は、統合プロセッサ（ＩｎｔｅｇｒａｔｅｄＰｒｏｃｅｓｓｏｒ）として統合され得る。

参考までに、以下の説明で混同を避けるために、「学習用」という文句は前述の学習プロセスに関する用語について追加され、「テスト用」という文句はテストプロセスに関する用語について追加される。

先ず、通信部２１０は、少なくとも一つのテストイメージを取得することができる。

この際、本発明の一実施例によるＣＮＮ基盤の物体検出器は、図１ないし図６を参照して説明した学習方法によって学習された状態であり得る。

つまり、少なくとも一つのトレーニングイメージが取得されると、学習装置は（ａ）（１）（ｉ）少なくとも一つのコンボリューションレイヤをもって、トレーニングイメージに対してコンボリューション演算を少なくとも一回適用して少なくとも一つの学習用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、学習用初期特徴マップを利用してトレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、学習用初期特徴マップ上で学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、学習用プロポーザルごとの学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを学習用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して学習用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）プーリングレイヤをもって、学習用初期特徴マップ上で学習用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて学習用プロポーザルごとの学習用プーリング済み特徴マップを生成し、プーリングレイヤをもって、学習用プロポーザルごとの学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを学習用プロポーザルごとにコンカチネートして学習用統合特徴マップを生成させるプロセス；（ｂ）第１の１ｘ１コンボリューションレイヤをもって、学習用統合特徴マップに対して１ｘ１コンボリューション演算を適用してボリューム（Ｖｏｌｕｍｅ）が調整された学習用第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤをもって、学習用第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整された学習用第２調整特徴マップを生成させるプロセス；（ｃ）（ｃ１）（ｉ）第２トランスポーズレイヤをもって、学習用第２調整特徴マップをピクセルごとに分離して学習用プロポーザルごとの学習用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、学習用プロポーザルごとの学習用ピクセル別特徴マップを利用して学習用プロポーザルそれぞれに対する学習用物体クラス情報を生成させるか、（ｉｉ）分類レイヤをもって、学習用第２調整特徴マップをピクセルごとに分離して学習用プロポーザルごとの学習用ピクセル別特徴マップを生成し、分類レイヤをもって、学習用プロポーザルごとの学習用ピクセル別特徴マップを利用して学習用プロポーザルそれぞれに対する学習用物体クラス情報を生成させ、（ｃ２）検出レイヤ（ＤｅｔｅｃｔｉｎｇＬａｙｅｒ）をもって、学習用物体クラス情報と学習用プロポーザルごとの学習用ピクセル別特徴マップとを参照してトレーニングイメージ内に位置する学習用物体に対応する学習用物体検出情報を生成させ、（ｃ３）検出ロスレイヤをもって、学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることにより、物体検出ロスをバックプロパゲーションして第２の１ｘ１コンボリューションレイヤ、第１の１ｘ１コンボリューションレイヤ、及びコンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行した状態であり得る。

また、学習装置は、ＲＰＮロスレイヤをもって、学習用プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることにより、ＲＰＮロスをバックプロパゲーションしてＲＰＮのパラメータの少なくとも一部を学習した状態であり得る。

次に、プロセッサ２２０は、（ｉ）コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、テスト用初期特徴マップを利用してテストイメージ内に位置する少なくとも一つのテスト用物体に対応する少なくとも一つのテスト用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成するようにし、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、テスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをテスト用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）してテスト用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）プーリングレイヤをもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成し、プーリングレイヤをもって、テスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをテスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを生成させるプロセスを遂行することができる。そして、プロセッサ２２０は、第１の１ｘ１コンボリューションレイヤをもって、テスト用統合特徴マップに対して１ｘ１コンボリューション演算を適用してボリューム（Ｖｏｌｕｍｅ）が調整されたテスト用第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤをもって、テスト用第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整されたテスト用第２調整特徴マップを生成させるプロセスを遂行することができる。以後、プロセッサ２２０は、（ｉ）第２トランスポーズレイヤをもって、テスト用第２調整特徴マップをピクセルごとに分離してテスト用プロポーザルごとのテスト用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、（ｉｉ）分類レイヤをもって、テスト用第２調整特徴マップをピクセルごとに分離してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成し、分類レイヤをもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるプロセスを遂行することができる。そして、プロセッサ２２０は、検出レイヤ（ＤｅｔｅｃｔｉｎｇＬａｙｅｒ）をもって、テスト用物体クラス情報とテスト用プロポーザルごとのテスト用ピクセル別特徴マップとを参照してテストイメージ内に位置するテスト用物体に対応するテスト用物体検出情報を生成させることができる。

この際、本発明の一実施例によるテスト装置２００は、コンピューティング装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明によるテスト装置２００として採択され得る。また、図７では一つのテスト装置２００のみを示したが、これに限定されず、テスト装置は複数個に分けて役割を遂行することもできる。

このように構成された本発明の一実施例によるテスト装置２００を利用してＣＮＮ基盤の物体検出器のパラメータをテストする方法を、図８を参照して説明すると以下のとおりである。以下の説明において、図１ないし図６を参照して説明した学習方法から容易に理解可能な部分については詳細な説明を省略することとする。

まず、図１ないし図６を参照して説明した学習方法によってコンボリューションレイヤ２２１、ＲＰＮ２２２、第１の１ｘ１コンボリューションレイヤ２２５、及び第２の１ｘ１コンボリューションレイヤ２２６の少なくとも一部のパラメータが学習された状態で、テストイメージが入力されると、テスト装置２００がコンボリューションレイヤ２２１をもって、テストイメージに対してコンボリューション演算を適用させてテスト用初期特徴マップを生成させる。この際、コンボリューションレイヤ２２１は、テストイメージに対して順次にコンボリューション演算を適用するために単一のコンボリューションレイヤまたは複数個のコンボリューションレイヤであり得る。

そして、テスト装置２００は、ＲＰＮ２２２をもって、テスト用初期特徴マップを利用してテストイメージ内に位置するテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させることができる。この際、ＲＰＮ２２２は、テストイメージ内にテスト用物体が位置するものと推定されるテスト用候補領域に対応するテスト用ＲＯＩ候補を生成させ、テスト用ＲＯＩ候補のうちテスト用物体が位置するものと判断される確率が高い特定のテスト用ＲＯＩ候補をテスト用プロポーザルとして出力することができる。

次に、テスト装置２００は、プーリングレイヤ２２３をもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応する領域それぞれをプーリングさせてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させることができる。

次に、テスト装置２００は、第１トランスポーズレイヤ２２４をもって、プーリングレイヤ２２３から出力されたテスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをテスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを出力させることができる。

一方、前記では、テスト装置２００が第１トランスポーズレイヤ２２４をもって、プーリングレイヤ２２３から出力されたテスト用プロポーザルごとのテスト用プーリング済み特徴マップを利用してテスト用統合特徴マップを生成させた。その他の例として、テスト装置２００は、第１トランスポーズレイヤ２２４を使用せずに、プーリングレイヤ２２３をもってテスト用統合特徴マップを生成させることができる。つまり、テスト装置２００は、プーリングレイヤ２２３をもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応する領域それぞれをプーリングしてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、テスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをテスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを生成させることができる。

次に、テスト装置２００は、第１の１ｘ１コンボリューションレイヤ２２５をもって、テスト用統合特徴マップに対して１ｘ１コンボリューション演算を適用してボリューム（Ｖｏｌｕｍｅ）が調整されたテスト用第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤ２２６をもって、テスト用第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整されたテスト用第２調整特徴マップを生成させるプロセスを遂行することができる。

次に、テスト装置２００は、第２トランスポーズレイヤ２２７をもって、テスト用第２調整特徴マップをピクセルごとに分離してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させることができる。

次に、テスト装置２００は、分類レイヤ２２８をもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに対するテスト用物体クラス情報を生成させることができる。この際、分類レイヤ２２８は、ソフトマックスアルゴリズムを使用することができ、それぞれのテスト用プロポーザルが検出しようとするテスト用物体に対応するのかに関する確率情報を生成させることができる。

一方、前記においては、第２トランスポーズレイヤ２２７はテスト用第２調整特徴マップを利用してテスト用プロポーザルごとのピクセル別特徴マップを生成することができる。その他の例として、第２トランスポーズレイヤ２２７を使用せずに、分類レイヤ２２８がテスト用第２調整特徴マップを利用してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させることができる。つまり、テスト装置２００は、分類レイヤ２２８をもって、テスト用第２調整特徴マップをピクセルごとに分離してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、分類レイヤをもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに対するテスト用物体クラス情報を生成させることができる。
次に、テスト装置２００は、検出レイヤ２２９をもって、テスト用物体クラス情報とテスト用プロポーザルごとのテスト用ピクセル別特徴マップとを参照してテストイメージ内に位置するテスト用物体に対応するテスト用物体検出情報を生成させることができる。この際、検出レイヤ２２９は、ＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することができ、単一のテスト用物体に複数のテスト用プロポーザルがタグ付けされた場合、そのうち確率が高い特定のテスト用プロポーザルを単一のテスト用物体に対応するテスト用物体検出情報として選択することができる。

本方法において、同一のプロセッサがコンボリューション演算及びＦＣ演算を遂行するため、チップ（Ｃｈｉｐ）のサイズを小さくしてハードウェアを最適化してＫＰＩ（ＫｅｙＰｅｒｆｏｒｍａｎｃｅＩｎｄｅｘ、重要業績評価指標）を満たすことができる。したがって、半導体製作の過程において追加のラインを設置する必要がなく、電力節減、半導体ダイ（Ｄｉｅ）内でＦＣモジュールの代わりに他のモジュールを設置するスペースが広くなるなどの長所がある。

また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカル・ディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気−光メディア（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

１００：学習装置
２００：テスト装置
１１０、２１０：通信部
１２０、２２０：プロセッサ
１３０：データベース

Claims

ＣＮＮ基盤の物体検出器のパラメータを学習する方法において、
（ａ）少なくとも一つのトレーニングイメージが入力されると、学習装置が、（ｉ）少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体に対応する少なくとも一つのプロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネートして前記統合特徴マップを生成させる段階；
（ｂ）前記学習装置が、第１の１ｘ１コンボリューションレイヤをもって、前記統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤをもって、前記第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップを生成させる段階；及び
（ｃ）前記学習装置が、（ｃ１）（ｉ）第２トランスポーズレイヤをもって、前記第２調整特徴マップをピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成し、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに対する前記物体クラス情報を生成させた後、（ｃ２）検出レイヤ（ＤｅｔｅｃｔｉｎｇＬａｙｅｒ）をもって、前記物体クラス情報と前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、（ｃ３）検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスを利用したバックプロパゲーションを通じて前記第２の１ｘ１コンボリューションレイヤ、前記第１の１ｘ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階；
を含むことを特徴とする学習方法。
前記（ａ）段階以後、
前記学習装置は、ＲＰＮロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることにより、前記ＲＰＮロスをバックプロパゲーションして前記ＲＰＮのパラメータの少なくとも一部を学習することを特徴とする請求項１に記載の学習方法。
前記プロポーザルの個数をＮとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をＪとする場合、
前記（ａ）段階で、
前記学習装置は、（ｉ）前記第１トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにすることを特徴とする請求項１に記載の学習方法。
前記第１の１ｘ１コンボリューションレイヤ内のフィルタの個数をＫとし、前記第２の１ｘ１コンボリューションレイヤ内のフィルタの個数をＬとする場合、
前記（ｂ）段階で、
前記学習装置は、
前記第１の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＫであるＮｘ１ｘＫのボリュームを有する前記第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、前記第２の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＬであるＮｘ１ｘＬのボリュームを有する前記第２調整特徴マップを生成させることを特徴とする請求項３に記載の学習方法。
前記（ｃ）段階で、
前記学習装置は、（ｉ）前記第２トランスポーズレイヤをもって、前記第２調整特徴マップを、Ｎ個のプロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを、前記Ｎ個のプロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする請求項４に記載の学習方法。
前記分類レイヤは、少なくとも一つのソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することを特徴とする請求項１に記載の学習方法。
前記検出レイヤは、少なくとも一つのＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することを特徴とする請求項１に記載の学習方法。
ＣＮＮ基盤の物体検出器をテストする方法において、
（ａ）学習装置は、（１）（ｉ）少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体に対応する少なくとも一つの学習用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して学習用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートして前記学習用統合特徴マップを生成させ、（２）第１の１ｘ１コンボリューションレイヤをもって、前記学習用統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された学習用第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤをもって、前記学習用第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整された学習用第２調整特徴マップを生成させ、（３）（３−１）（ｉ）第２トランスポーズレイヤをもって、前記学習用第２調整特徴マップをピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する学習用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記学習用第２調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する前記学習用物体クラス情報を生成させた後、（３−２）検出レイヤ（ＤｅｔｅｃｔｉｎｇＬａｙｅｒ）をもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、（３−３）検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記第２の１ｘ１コンボリューションレイヤ、前記第１の１ｘ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、少なくとも一つのテストイメージが入力されると、テスト装置が、（ｉ）前記コンボリューションレイヤをもって、前記テストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップを生成させ、（ｉｉ）前記ＲＰＮをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体に対応する少なくとも一つのテスト用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第１トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートして前記テスト用統合特徴マップを生成させる段階；
（ｂ）前記テスト装置が、前記第１の１ｘ１コンボリューションレイヤをもって、前記テスト用統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整されたテスト用第１調整特徴マップを生成させ、前記第２の１ｘ１コンボリューションレイヤをもって、前記テスト用第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整されたテスト用第２調整特徴マップを生成させる段階；及び
（ｃ）前記テスト装置が、（ｃ１）（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップをピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに対する前記テスト用物体クラス情報を生成させた後、（ｃ２）前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させる段階；
を含むことを特徴とするテスト方法。
前記（１）プロセス以後、
前記学習装置は、ＲＰＮロスレイヤをもって、前記学習用プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることで、前記ＲＰＮロスをバックプロパゲーションして前記ＲＰＮのパラメータの少なくとも一部を学習することを特徴とする請求項８に記載のテスト方法。
前記テスト用プロポーザルの個数をＮとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をＪとする場合、
前記（ａ）段階で、
前記テスト装置は、（ｉ）前記第１トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにすることを特徴とする請求項８に記載のテスト方法。
前記第１の１ｘ１コンボリューションレイヤ内のフィルタの個数をＫとし、前記第２の１ｘ１コンボリューションレイヤ内のフィルタの個数をＬとする場合、
前記（ｂ）段階で、
前記テスト装置は、
前記第１の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＫであるＮｘ１ｘＫのボリュームを有する前記テスト用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、前記第２の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＬであるＮｘ１ｘＬのボリュームを有する前記テスト用第２調整特徴マップを生成させることを特徴とする請求項８に記載のテスト方法。
前記（ｃ）段階で、
前記テスト装置は、（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップを、Ｎ個のテスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを、前記Ｎ個のテスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする請求項１１に記載のテスト方法。
前記分類レイヤは、少なくとも一つのソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することを特徴とする請求項８に記載のテスト方法。
前記検出レイヤは、少なくとも一つのＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することを特徴とする請求項８に記載のテスト方法。
ＣＮＮ基盤の物体検出器のパラメータを学習する学習装置において、
インストラクションを格納する少なくとも一つのメモリと、
（Ｉ）（ｉ）少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体に対応する少なくとも一つのプロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネートして前記統合特徴マップを生成させるプロセス、（ＩＩ）第１の１ｘ１コンボリューションレイヤをもって、前記統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤをもって、前記第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップを生成させるプロセス、及び（ＩＩＩ）（ＩＩＩ−１）（ｉ）第２トランスポーズレイヤをもって、前記第２調整特徴マップをピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成し、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに対する前記物体クラス情報を生成させた後、（ＩＩＩ−２）検出レイヤ（ＤｅｔｅｃｔｉｎｇＬａｙｅｒ）をもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、（ＩＩＩ−３）検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスを利用したバックプロパゲーションを通じて前記第２の１ｘ１コンボリューションレイヤ、前記第１の１ｘ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする学習装置。
前記（Ｉ）プロセス以後、
前記プロセッサは、ＲＰＮロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることにより、前記ＲＰＮロスをバックプロパゲーションして前記ＲＰＮのパラメータの少なくとも一部を学習することを特徴とする請求項１５に記載の学習装置。
前記プロポーザルの個数をＮとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をＪとする場合、
前記（Ｉ）プロセスで、
前記プロセッサは、（ｉ）前記第１トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにすることを特徴とする請求項１５に記載の学習装置。
前記第１の１ｘ１コンボリューションレイヤ内のフィルタの個数をＫとし、前記第２の１ｘ１コンボリューションレイヤ内のフィルタの個数をＬとする場合、
前記（ＩＩ）プロセスにおいて、
前記プロセッサは、前記第１の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＫであるＮｘ１ｘＫのボリュームを有する前記第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、前記第２の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＬであるＮｘ１ｘＬのボリュームを有する前記第２調整特徴マップを生成させることを特徴とする請求項１７に記載の学習装置。
前記（ＩＩＩ）プロセスにおいて、
前記プロセッサは、（ｉ）前記第２トランスポーズレイヤをもって、前記第２調整特徴マップを、Ｎ個のプロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを、前記Ｎ個のプロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする請求項１８に記載の学習装置。
前記分類レイヤは、少なくとも一つのソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することを特徴とする請求項１５に記載の学習装置。
前記検出レイヤは、少なくとも一つのＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することを特徴とする請求項１５に記載の学習装置。
ＣＮＮ基盤の物体検出器をテストするテスト装置において、
インストラクションを格納する少なくとも一つのメモリと、
学習装置は、（１）（ｉ）少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体に対応する少なくとも一つの学習用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルを前記学習用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して学習用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルを前記学習用プロポーザルごとにコンカチネートして前記学習用統合特徴マップを生成させ、（２）第１の１ｘ１コンボリューションレイヤをもって、前記学習用統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された学習用第１調整特徴マップを生成させ、第２の１ｘ１コンボリューションレイヤをもって、前記学習用第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整された学習用第２調整特徴マップを生成させ、（３）（３−１）（ｉ）第２トランスポーズレイヤをもって、前記学習用第２調整特徴マップをピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する学習用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記学習用第２調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する前記学習用物体クラス情報を生成させた後、（３−２）検出レイヤ（ＤｅｔｅｃｔｉｎｇＬａｙｅｒ）をもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、（３−３）検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記第２の１ｘ１コンボリューションレイヤ、前記第１の１ｘ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、（Ｉ）（ｉ）前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップを生成させ、（ｉｉ）前記ＲＰＮをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体に対応する少なくとも一つのテスト用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第１トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートして前記テスト用統合特徴マップを生成させるプロセス、（ＩＩ）前記第１の１ｘ１コンボリューションレイヤをもって、前記テスト用統合特徴マップに対して１ｘ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整されたテスト用第１調整特徴マップを生成させ、前記第２の１ｘ１コンボリューションレイヤをもって、前記テスト用第１調整特徴マップに対して１ｘ１コンボリューション演算を適用させてボリュームが調整されたテスト用第２調整特徴マップを生成させるプロセス、及び（ＩＩＩ）（ＩＩＩ−１）（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップをピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに対する前記テスト用物体クラス情報を生成させた後、（ＩＩＩ−２）前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするテスト装置。
前記（１）プロセス以後、
前記学習装置は、ＲＰＮロスレイヤをもって、前記学習用プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることで、前記ＲＰＮロスをバックプロパゲーションして前記ＲＰＮのパラメータの少なくとも一部を学習することを特徴とする請求項２２に記載のテスト装置。
前記テスト用プロポーザルの個数をＮとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をＪとする場合、
前記（Ｉ）プロセスで、
前記プロセッサは、（ｉ）前記第１トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がＮ、高さが１、チャンネル個数がＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにすることを特徴とする請求項２２に記載のテスト装置。
前記第１の１ｘ１コンボリューションレイヤ内のフィルタの個数をＫとし、前記第２の１ｘ１コンボリューションレイヤ内のフィルタの個数をＬとする場合、
前記（ＩＩ）プロセスにおいて、
前記プロセッサは、前記第１の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＫであるＮｘ１ｘＫのボリュームを有する前記テスト用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、前記第２の１ｘ１コンボリューションレイヤをもって、幅がＮ、高さが１であり、チャンネル個数がＬであるＮｘ１ｘＬのボリュームを有する前記テスト用第２調整特徴マップを生成させることを特徴とする請求項２２に記載のテスト装置。
前記（ＩＩＩ）プロセスにおいて、
前記プロセッサは、（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップを、Ｎ個のテスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを、前記Ｎ個のテスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネル個数がＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする請求項２５に記載のテスト装置。
前記分類レイヤは、少なくとも一つのソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することを特徴とする請求項２２に記載のテスト装置。
前記検出レイヤは、少なくとも一つのＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することを特徴とする請求項２２に記載のテスト装置。