JP2020119539A

JP2020119539A - ハードウェア最適化に使用される１ｘＨコンボリューションを利用したＣＮＮ基盤の物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置

Info

Publication number: JP2020119539A
Application number: JP2020002054A
Authority: JP
Inventors: − ヒョンキム、ケイ; Kye-Hyeon Kim; キム、ヨンジュン; Young Jun Kim; キム、インスー; Insu Kim; − キョンキム、ハク; Hak-Kyoung Kim; ナム、ウヒョン; Woonhyu Nam; ブー、ソッフン; Sukhoon Boo; ソン、ミュンチュル; Myungchul Sung; ヨー、ドンフン; Donghun Yeo; リュー、ウジュ; Wooju Ryu; チャン、テウン; Taewoong Jang
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-23
Filing date: 2020-01-09
Publication date: 2020-08-06
Anticipated expiration: 2040-01-09
Also published as: EP3686800B1; US10387754B1; CN111476262A; EP3686800A1; KR102338750B1; JP6858382B2; EP3686800C0; CN111476262B; KR20200091793A

Abstract

【課題】ＣＮＮ基盤の物体検出器のパラメータを学習する方法を提供する。【解決手段】本方法は、第１トランスポーズレイヤ又はプーリングレイヤをもって、プロポーザルごとのプーリング済マップ上のピクセルをプロポーザルごとにコンカチネートさせる段階；１×Ｈ１及び１×Ｈ２コンボリューションレイヤをもって、コンカチネートされたプーリング済マップのすべてのチャンネルのうちでそれぞれの対応するチャンネル内のそれぞれのをコンカチネートして生成されたリシェイプ済マップに対して１×Ｈ１及び１×Ｈ２コンボリューション演算を適用させて調整マップを生成させる段階；第２トランスポーズレイヤ又は分類レイヤをもって、調整マップをピクセルごとに分離し、物体検出情報及びそれに対応する原本正解を参照して算出された物体検出ロスをバックプロパゲーションしてプロポーザルごとのピクセル別マップを生成させる段階を含む。【選択図】図２

Description

本発明は、ハードウェア最適化に使用される１ｘＨコンボリューションを利用したＣＮＮ基盤の物体検出器のパラメータを学習する方法に関し、より詳細には、前記ＣＮＮ基盤の前記物体検出器の前記パラメータを学習する方法において、（ａ）少なくとも一つのトレーニングイメージが取得されると、学習装置が、（ｉ）少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させて統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記プロポーザルごとにコンカチネートさせて前記統合特徴マップを生成させる段階：（ｂ）前記学習装置が、（ｂ１）（ｉ）第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）１ｘＨ１コンボリューションレイヤをもって、前記第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｂ２）（ｉ）第２リシェイプレイヤをもって、前記第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第２リシェイプ済み特徴マップを生成させ、（ｉｉ）１ｘＨ２コンボリューションレイヤをもって、前記第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップを生成させる段階；及び（ｃ）前記学習装置が、（ｃ１）（ｉ）第２トランスポーズレイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する前記物体クラス情報を生成させた後、（ｃ２）検出レイヤをもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、（ｃ３）検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記１ｘＨ２コンボリューションレイヤ、前記１ｘＨ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階；を含むことを特徴とする学習方法及び学習装置、それを利用してテストする方法及びテスト装置に関する。

ディープコンボリューションニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＤｅｅｐＣＮＮ）は、ディープラーニング分野で起きた驚くべき発展の核心である。ＣＮＮは、文字の認識問題を解決するために９０年代にすでに使用されていたが、現在のように広く使用されるようになったのは最近の研究結果の賜物である。このようなディープＣＮＮは、２０１２年ＩｍａｇｅＮｅｔイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）分野で非常に有用なツールとなった。

このようなＣＮＮは、イメージから特徴を抽出する特徴抽出器と、特徴抽出器から抽出された特徴を参照してイメージを認識したりイメージ内の物体を検出したりする特徴分類器とからなる。

そして、ＣＮＮは、イメージから特徴を抽出する特徴抽出器（ＦｅａｔｕｒｅＥｘｔｒａｃｔｏｒ）及びイメージ内の物体を検出したり特徴抽出器が抽出したりする特徴を参照してイメージを認識する特徴分類器（ＦｅａｔｕｒｅＣｌａｓｓｉｆｉｅｒ）から構成される。

そして、ＣＮＮの特徴抽出器はコンボリューションレイヤから構成され、特徴分類器は特徴抽出器が抽出した特徴に対してＦＣ演算（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＯｐｅｒａｔｉｏｎ）を適用することができるＦＣレイヤから構成される。

しかしながら、このようなＦＣレイヤは入力された全ての特徴に対して重み付け値を生成しなければならない不便さがあり、入力されたすべての特徴に対してＦＣ演算を遂行しなければならないため、コンピューティング演算量が多くなる短所がある。

また、ＦＣレイヤではＦＣレイヤに入力されるイメージのサイズがＦＣレイヤモデルの所定サイズと一致しなければならない。そのため、このようなＦＣレイヤを含むＣＮＮに予め設定されたサイズと異なるトレーニングイメージまたはテストイメージが入力される場合、コンボリューションレイヤがトレーニングイメージやテストイメージに対して当該演算を適用することができるが、ＦＣレイヤでは前記所定サイズと異なるサイズの入力イメージが入力されるため、トレーニングイメージやテストイメージに該当演算を適用することができない。

したがって、本発明者は、前記のようなＦＣレイヤの問題点を克服することができるようにするＣＮＮ基盤の物体検出器を提案することにする。

本発明は、上述した問題点を全て解決することをその目的とする。

本発明は、入力イメージのサイズと関係なしに入力イメージ内に位置する少なくとも一つの物体を検出することができるようにするＣＮＮ基盤の物体検出器を提供することを他の目的とする。

本発明は、特徴分類のための重み付け値の個数を最小化することができるようにするＣＮＮ基盤の物体検出器を提供することをまた他の目的とする。

本発明は、特徴分類のためのコンピューティング演算量を減少させ得るようにするＣＮＮ基盤の物体検出器を提供することをまた他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は以下の通りである。

本発明の一態様によると、ＣＮＮ基盤の物体検出器のパラメータを学習する方法において、（ａ）少なくとも一つのトレーニングイメージが取得されると、学習装置が、（ｉ）少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させて統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記プロポーザルごとにコンカチネートさせて前記統合特徴マップを生成させる段階；（ｂ）前記学習装置が、（ｂ１）（ｉ）第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）１ｘＨ１コンボリューションレイヤをもって、前記第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｂ２）（ｉ）第２リシェイプレイヤをもって、前記第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第２リシェイプ済み特徴マップを生成させ、（ｉｉ）１ｘＨ２コンボリューションレイヤをもって、前記第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップを生成させる段階；及び（ｃ）前記学習装置が、（ｃ１）（ｉ）第２トランスポーズレイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する前記物体クラス情報を生成させた後、（ｃ２）検出レイヤをもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、（ｃ３）検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記１ｘＨ２コンボリューションレイヤ、前記１ｘＨ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階；を含むことを特徴とする。

一実施例において、前記（ａ）段階以後、前記学習装置は、ＲＰＮロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることで、前記ＲＰＮロスをバックプロパゲーションして前記ＲＰＮの少なくとも一部のパラメータを学習することを特徴とする。

一実施例において、前記（ｂ）段階で、前記統合特徴マップのチャンネル個数が前記Ｈ１の倍数でない場合、前記学習装置は、前記第１リシェイプレイヤをもって、前記統合特徴マップに少なくとも一つの第１ダミーチャンネル（ＤｕｍｍｙＣｈａｎｎｅｌ）を追加させて少なくとも一つの前記第１ダミーチャンネルを含む前記統合特徴マップのチャンネル個数が前記Ｈ１の倍数になるようにした後、前記統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ１個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、前記（ｂ）段階で、前記第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数でない場合、前記学習装置は、前記第２リシェイプレイヤをもって、前記第１調整特徴マップに少なくとも一つの第２ダミーチャンネルを追加して少なくとも一つの前記第２ダミーチャンネルを含む前記第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数になるようにした後、前記第１調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ２個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする。

一実施例において、前記プロポーザルの個数をＮとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をＪとする場合、前記（ａ）段階で、前記学習装置は、（ｉ）前記第１トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにすることを特徴とする。

一実施例において、前記１ｘＨ１コンボリューションレイヤのフィルタの個数をＫとし、前記１ｘＨ２コンボリューションレイヤのフィルタの個数をＬとする場合、前記（ｂ）段階で、前記学習装置は、前記第１リシェイプレイヤをもって、幅Ｎ、高さＨ１、チャンネルＣＥＩＬ
である前記第１リシェイプ済み特徴マップを生成させ、前記１ｘＨ１コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネルＫであるＮｘ１ｘＫのボリュームを有する前記第１調整特徴マップを生成させ、前記学習装置は、前記第２リシェイプレイヤをもって、幅Ｈ２、高さＮ、チャンネルＣＥＩＬ
である前記第２リシェイプ済み特徴マップを生成させ、前記１ｘＨ２コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネルＬであるＮｘ１ｘＬのボリュームを有する前記第２調整特徴マップを生成させることを特徴とする。

一実施例において、前記（ｃ）段階で、前記学習装置は、（ｉ）前記第２トランスポーズレイヤをもって、前記第２調整特徴マップを、Ｎ個の前記プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを、Ｎ個の前記プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする。

一実施例において、前記分類レイヤは、少なくとも一つのソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することを特徴とする。

一実施例において、前記検出レイヤは、少なくとも一つのＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することを特徴とする。

本発明の他の態様によると、ＣＮＮ基盤の物体検出器をテストする方法において、（ａ）学習装置は、（１）（ｉ）少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記学習用初期特徴マップ上において前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させて学習用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートさせて前記学習用統合特徴マップを生成させ、（２）（２−１）（ｉ）第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記学習用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）１ｘＨ１コンボリューションレイヤをもって、前記学習用第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された学習用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（２−２）（ｉ）第２リシェイプレイヤをもって、前記学習用第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第２リシェイプ済み特徴マップを生成させ、（ｉｉ）１ｘＨ２コンボリューションレイヤをもって、前記学習用第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整された学習用第２調整特徴マップを生成させ、（３）（３−１）（ｉ）第２トランスポーズレイヤをもって、前記学習用第２調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記学習用第２調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成させ、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する前記学習用物体クラス情報を生成させた後、（３−２）検出レイヤをもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、（３−３）検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記１ｘＨ２コンボリューションレイヤ、前記１ｘＨ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、少なくとも一つのテストイメージが取得されると、テスト装置が、（ａ１）前記コンボリューションレイヤをもって、前記テストイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ａ２）前記ＲＰＮをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させ、（ａ３）（ａ３−１）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させてテスト用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ａ３−２）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートさせて前記テスト用統合特徴マップを生成させる段階；（ｂ）前記テスト装置が、（ｂ１）（ｉ）前記第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）前記１ｘＨ１コンボリューションレイヤをもって、前記テスト用第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整されたテスト用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｂ２）（ｉ）前記第２リシェイプレイヤをもって、前記テスト用第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第２リシェイプ済み特徴マップを生成させ、（ｉｉ）前記１ｘＨ２コンボリューションレイヤをもって、前記テスト用第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整されたテスト用第２調整特徴マップを生成させる段階；及び（ｃ）前記テスト装置が、（ｃ１）（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用前記物体クラス情報を生成させた後、（ｃ２）前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させる段階；を含むことを特徴とする。

一実施例において、前記（ｂ）段階で、前記テスト用統合特徴マップのチャンネル個数が前記Ｈ１の倍数でない場合、前記テスト装置は、前記第１リシェイプレイヤをもって、前記テスト用統合特徴マップに少なくとも一つの第１ダミーチャンネル（ＤｕｍｍｙＣｈａｎｎｅｌ）を追加させて少なくとも一つの前記第１ダミーチャンネルを含む前記テスト用統合特徴マップのチャンネル個数が前記Ｈ１の倍数になるようにした後、前記テスト用統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ１個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、前記（ｂ）段階で、前記テスト用第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数でない場合、前記テスト装置は、前記第２リシェイプレイヤをもって、前記テスト用第１調整特徴マップに少なくとも一つの第２ダミーチャンネルを追加して少なくとも一つの前記第２ダミーチャンネルを含む前記テスト用第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数になるようにした後、前記テスト用第１調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ２個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする。

一実施例において、前記テスト用プロポーザルの個数をＮとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をＪとする場合、前記（ａ）段階で、前記テスト装置は、（ｉ）前記第１トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにすることを特徴とする。

一実施例において、前記１ｘＨ１コンボリューションレイヤのフィルタの個数をＫとし、前記１ｘＨ２コンボリューションレイヤのフィルタの個数をＬとする場合、前記（ｂ）段階で、前記テスト装置は、前記第１リシェイプレイヤをもって、幅Ｎ、高さＨ１、チャンネル個数ＣＥＩＬ
である前記テスト用第１リシェイプ済み特徴マップを生成させ、前記１ｘＨ１コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネル個数ＫであるＮｘ１ｘＫのボリュームを有する前記テスト用第１調整特徴マップを生成させ、前記テスト装置は、前記第２リシェイプレイヤをもって、幅Ｎ、高さＨ２、チャンネル個数ＣＥＩＬ
である前記テスト用第２リシェイプ済み特徴マップを生成させ、前記１ｘＨ２コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネル個数ＬであるＮｘ１ｘＬのボリュームを有する前記テスト用第２調整特徴マップを生成させることを特徴とする。

一実施例において、前記（ｃ）段階で、前記テスト装置は、（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップを、Ｎ個の前記テスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを、Ｎ個の前記テスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする。

本発明のまた他の態様によると、ＣＮＮ基盤の物体検出器のパラメータを学習する学習装置において、インストラクションを格納する少なくとも一つのメモリと、（Ｉ）（ｉ）少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させて統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記プロポーザルごとにコンカチネートさせて前記統合特徴マップを生成させるプロセス、（ＩＩ）（ＩＩ−１）（ｉ）第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）１ｘＨ１コンボリューションレイヤをもって、前記第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ＩＩ−２）（ｉ）第２リシェイプレイヤをもって、前記第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第２リシェイプ済み特徴マップを生成させ、（ｉｉ）１ｘＨ２コンボリューションレイヤをもって、前記第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップを生成させるプロセス、及び（ＩＩＩ）（ＩＩＩ−１）（ｉ）第２トランスポーズレイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する前記物体クラス情報を生成させた後、（ＩＩＩ−２）検出レイヤをもって、前記物体クラス情報と前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、（ＩＩＩ−３）検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記１ｘＨ２コンボリューションレイヤ、前記１ｘＨ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

一実施例において、前記（Ｉ）プロセス以後、前記プロセッサは、ＲＰＮロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることで、前記ＲＰＮロスをバックプロパゲーションして前記ＲＰＮの少なくとも一部のパラメータを学習することを特徴とする。

一実施例において、前記（ＩＩ）プロセスで、前記統合特徴マップのチャンネル個数が前記Ｈ１の倍数でない場合、前記プロセッサは、前記第１リシェイプレイヤをもって、前記統合特徴マップに少なくとも一つの第１ダミーチャンネル（ＤｕｍｍｙＣｈａｎｎｅｌ）を追加させて少なくとも一つの前記第１ダミーチャンネルを含む前記統合特徴マップのチャンネル個数が前記Ｈ１の倍数になるようにした後、前記統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ１個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、前記（ＩＩ）プロセスで、前記第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数でない場合、前記プロセッサは、前記第２リシェイプレイヤをもって、前記第１調整特徴マップに少なくとも一つの第２ダミーチャンネルを追加して前記少なくとも一つの第２ダミーチャンネルを含む前記第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数になるようにした後、前記第１調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ２個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする。

一実施例において、前記プロポーザルの個数をＮとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をＪとする場合、前記（Ｉ）プロセスで、前記プロセッサは、（ｉ）前記第１トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにすることを特徴とする。

一実施例において、前記１ｘＨ１コンボリューションレイヤのフィルタの個数をＫとし、前記１ｘＨ２コンボリューションレイヤのフィルタの個数をＬとする場合、前記（ＩＩ）プロセスで、前記プロセッサは、前記第１リシェイプレイヤをもって、幅Ｎ、高さＨ１、チャンネル個数ＣＥＩＬ
である前記第１リシェイプ済み特徴マップを生成させ、前記１ｘＨ１コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネルＫであるＮｘ１ｘＫのボリュームを有する前記第１調整特徴マップを生成させ、前記プロセッサは、前記第２リシェイプレイヤをもって、幅Ｈ２、高さＮ、チャンネルＣＥＩＬ
である前記第２リシェイプ済み特徴マップを出力させ、前記１ｘＨ２コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネルＬであるＮｘ１ｘＬのボリュームを有する前記第２調整特徴マップを生成させることを特徴とする。

一実施例において、前記（ＩＩＩ）プロセスで、前記プロセッサは、（ｉ）前記第２トランスポーズレイヤをもって、前記第２調整特徴マップを、Ｎ個の前記プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを、Ｎ個の前記プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする。

一実施例において、前記分類レイヤは少なくとも一つのソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することを特徴とする。

本発明のまた他の態様によると、ＣＮＮ基盤の物体検出器をテストするテスト装置において、インストラクションを格納する少なくとも一つのメモリと、学習装置は、（１）（ｉ）少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させて学習用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートさせて前記学習用統合特徴マップを生成させ、（２）（２−１）（ｉ）第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記学習用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）１ｘＨ１コンボリューションレイヤをもって、前記学習用第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された学習用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（２−２）（ｉ）第２リシェイプレイヤをもって、前記学習用第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第２リシェイプ済み特徴マップを生成させ、（ｉｉ）１ｘＨ２コンボリューションレイヤをもって、前記学習用第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整された学習用第２調整特徴マップを生成させ、（３）（３−１）（ｉ）第２トランスポーズレイヤをもって、前記学習用第２調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記学習用第２調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成させ、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する前記学習用物体クラス情報を生成させた後、（３−２）検出レイヤをもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、（３−３）検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記１ｘＨ２コンボリューションレイヤ、前記１ｘＨ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、（Ｉ）（ｉ）前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）前記ＲＰＮをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させてテスト用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートさせて前記テスト用統合特徴マップを生成させるプロセス、（ＩＩ）（ＩＩ−１）（ｉ）前記第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）前記１ｘＨ１コンボリューションレイヤをもって、前記テスト用第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整されたテスト用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ＩＩ−２）（ｉ）前記第２リシェイプレイヤをもって、前記テスト用第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第２リシェイプ済み特徴マップを生成させ、（ｉｉ）前記１ｘＨ２コンボリューションレイヤをもって、前記テスト用第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整されたテスト用第２調整特徴マップを生成させるプロセス、及び（ＩＩＩ）（ＩＩＩ−１）（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用前記物体クラス情報を生成させた後、（ＩＩＩ−２）前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

一実施例において、前記（ＩＩ）プロセスで、前記テスト用統合特徴マップのチャンネル個数が前記Ｈ１の倍数でない場合、前記プロセッサは、前記第１リシェイプレイヤをもって、前記テスト用統合特徴マップに少なくとも一つの第１ダミーチャンネル（ＤｕｍｍｙＣｈａｎｎｅｌ）を追加させて少なくとも一つの前記第１ダミーチャンネルを含む前記テスト用統合特徴マップのチャンネル個数が前記Ｈ１の倍数になるようにした後、前記テスト用統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ１個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、前記（ＩＩ）プロセスで、前記テスト用第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数でない場合、前記プロセッサは、前記第２リシェイプレイヤをもって、前記テスト用第１調整特徴マップに少なくとも一つの第２ダミーチャンネルを追加して少なくとも一つの前記第２ダミーチャンネルを含む前記テスト用第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数になるようにした後、前記テスト用第１調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ２個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする。

一実施例において、前記テスト用プロポーザルの個数をＮとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をＪとする場合、前記（Ｉ）プロセスで、前記プロセッサは、（ｉ）前記第１トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにすることを特徴とする。

一実施例において、前記１ｘＨ１コンボリューションレイヤのフィルタの個数をＫとし、前記１ｘＨ２コンボリューションレイヤのフィルタの個数をＬとする場合、前記（ＩＩ）プロセスで、前記プロセッサは、前記第１リシェイプレイヤをもって、幅Ｎ、高さＨ１、チャンネル個数ＣＥＩＬ
である前記テスト用第１リシェイプ済み特徴マップを生成させ、前記１ｘＨ１コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネル個数ＫであるＮｘ１ｘＫのボリュームを有する前記テスト用第１調整特徴マップを生成させ、前記プロセッサは、前記第２リシェイプレイヤをもって、幅Ｎ、高さＨ２、チャンネル個数ＣＥＩＬ
である前記テスト用第２リシェイプ済み特徴マップを生成させ、前記１ｘＨ２コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネル個数ＬであるＮｘ１ｘＬのボリュームを有する前記テスト用第２調整特徴マップを生成させることを特徴とする。

一実施例において、前記（ＩＩＩ）プロセスで、前記プロセッサは、（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップを、Ｎ個の前記テスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを、Ｎ個の前記テスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする。

その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。

本発明は、コンボリューションレイヤのみでＣＮＮ基盤の物体検出器を具現することにより、入力イメージのサイズに関係なしに入力イメージ内に位置する物体を検出することができる効果がある。

また、本発明は、コンボリューションレイヤのみでＣＮＮ基盤の物体検出器を具現することにより、従来のＦＣレイヤを利用する場合に比べて特徴分類のための重み付け値の個数を最小化することができる他の効果がある。

また、本発明は、コンボリューションレイヤのみでＣＮＮ基盤の物体検出器を具現することにより、従来のＦＣレイヤを利用する場合に比べて特徴分類のためのコンピューティング演算量を減少させ得るまた他の効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明が属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われることなくこの各図面に基づいて他の図面が得られ得る。

図１は、本発明の一実施例によるＣＮＮ基盤の物体検出器を学習する学習装置を簡略に示したものである。図２は、本発明の一実施例によるＣＮＮ基盤の物体検出器を学習する方法を簡略に示したものである。図３は、本発明の一実施例によるＣＮＮ基盤の物体検出器を学習する方法に使用され、プーリングレイヤによって生成されたプロポーザルごとのプーリング済み特徴マップ（ＰｏｏｌｅｄＦｅａｔｕｒｅＭａｐ）を簡略に示したものである。図４は、本発明の一実施例によるＣＮＮ基盤の物体検出器を学習する方法に使用され、プロポーザルごとのプーリング済み特徴マップを利用して生成された統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を簡略に示したものである。図５ａは、それぞれ本発明の一実施例による（ｉ）統合特徴マップを修正して生成された第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）と（ｉｉ）第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用して生成された第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）とを簡略に示したものである。図５ｂは、それぞれ本発明の一実施例による（ｉ）統合特徴マップを修正して生成された第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）と（ｉｉ）第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用して生成された第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）とを簡略に示したものである。図６ａは、それぞれ本発明の一実施例による（ｉ）第１調整特徴マップを修正して生成された第２リシェイプ済み特徴マップと（ｉｉ）第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用して生成された第２調整特徴マップとを簡略に示したものである。図６ｂは、それぞれ本発明の一実施例による（ｉ）第１調整特徴マップを修正して生成された第２リシェイプ済み特徴マップと（ｉｉ）第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用して生成された第２調整特徴マップとを簡略に示したものである。図７は、本発明の一実施例によるＣＮＮ基盤の物体検出器を学習するのに使用され、第２調整特徴マップから変換されたプロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を簡略に示したものである。図８は、本発明の一実施例によるＣＮＮ基盤の物体検出器をテストするテスト装置を簡略に示したものである。図９は、本発明の一実施例によるＣＮＮ基盤の物体検出器をテストする方法を簡略に示したものである。

後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、各構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるわけではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるわけではない。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することとする。

図１は、本発明の一実施例によるＣＮＮ基盤の物体検出器を学習する学習装置１００を簡略に示したものであって、図１を参照すると、学習装置１００は通信部１１０とプロセッサ１２０とを含むことができる。

先ず、通信部１１０は、少なくとも一つのトレーニングイメージを受信することができる。

この際、トレーニングイメージはデータベース３００に格納されていてもよく、データベース３００にはトレーニングイメージに対応して少なくとも一つの物体に対するクラス情報の少なくとも一つの原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）及び前記それぞれの物体に対する位置情報の少なくとも一つの原本正解が格納されていてもよい。

また、学習装置は、次のプロセスを遂行するためのコンピュータ読取り可能なインストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納することができるメモリ１１５をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は統合プロセッサ（ＩｎｔｅｇｒａｔｅｄＰｒｏｃｅｓｓｏｒ）として統合され得る。

次に、プロセッサ１２０は、（ｉ）少なくとも一つのコンボリューションレイヤをもって、トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、初期特徴マップを利用してトレーニングイメージ内に位置する物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、初期特徴マップ上でプロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させてプロポーザルごとのプーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、プロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをプロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させて統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）プーリングレイヤをもって、初期特徴マップ上でプロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させてプロポーザルごとのプーリング済み特徴マップを生成させ、プーリングレイヤをもって、プロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをプロポーザルごとにコンカチネートさせて統合特徴マップを生成させるプロセスを遂行することができる。そして、プロセッサ１２０は、（ｉ）第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）１ｘＨ１コンボリューションレイヤをもって、第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉｉ）第２リシェイプレイヤをもって、第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第２リシェイプ済み特徴マップを生成させ、（ｖｉ）１ｘＨ２コンボリューションレイヤをもって、第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップを生成させるプロセスを遂行することができる。以後、プロセッサ１２０は、（ｉ）第２トランスポーズレイヤをもって、第２調整特徴マップをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、プロポーザルごとのピクセル別特徴マップを利用してプロポーザルそれぞれに関する物体クラス情報を生成させるか、（ｉｉ）分類レイヤをもって、第２調整特徴マップをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップを生成させ、分類レイヤをもって、プロポーザルごとのピクセル別特徴マップを利用してプロポーザルそれぞれに関する物体クラス情報を生成させるプロセスを遂行することができる。そして、プロセッサ１２０は、検出レイヤをもって、物体クラス情報とプロポーザルごとのピクセル別特徴マップとを参照してトレーニングイメージ内に位置する物体に対応する物体検出情報を生成させ、検出ロスレイヤをもって、物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、物体検出ロスをバックプロパゲーションして１ｘＨ２コンボリューションレイヤ、１ｘＨ１コンボリューションレイヤ、及びコンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行することができる。

また、プロセッサ１２０は、ＲＰＮロスレイヤをもって、プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることで、ＲＰＮロスをバックプロパゲーションしてＲＰＮの少なくとも一部のパラメータを学習することができる。

ここで、物体検出ロスによるバックプロパゲーションとＲＰＮロスによるバックプロパゲーションの時間的順序には制限がないであろう。

この際、本発明の一実施例による学習装置１００は、コンピューティング装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置１００として採択され得る。また、図１では一つの学習装置１００のみを示したが、これに限定されず、学習装置は複数個に分けて役割を遂行することもできる。

このように構成された本発明の一実施例による学習装置１００を利用してＣＮＮ基盤の物体検出器のパラメータを学習する方法を、図２を参照して説明すると以下のとおりである。

まず、トレーニングイメージが入力されると、学習装置１００がコンボリューションレイヤ１２１をもって、トレーニングイメージに対してコンボリューション演算を適用させて初期特徴マップを出力させる。この際、コンボリューションレイヤ１２１は、トレーニングイメージを順次にコンボリューションするために単一のコンボリューションレイヤ又は複数個のコンボリューションレイヤであり得る。

そして、学習装置１００は、ＲＰＮ１２２をもって、初期特徴マップを利用してトレーニングイメージ内に位置する物体に対応する少なくとも一つのプロポーザルを生成させることができる。この際、ＲＰＮ１２２は、トレーニングイメージ内に物体が位置するものと推定される候補領域に対応するＲＯＩ候補を生成させ、ＲＯＩ候補のうち物体が位置するものと判断される確率の高い特定のＲＯＩ候補をプロポーザルとして出力することができる。

次に、学習装置１００はプーリングレイヤ１２３をもって、初期特徴マップ上でプロポーザルそれぞれに対応する領域をプーリングしてプロポーザルごとのプーリング済み特徴マップを生成させることができる。

一例として、図３を参照すると、プロポーザルの個数をＮとし、プロポーザルごとのプーリング済み特徴マップの幅をＭ１、高さをＭ２とし、プロポーザルごとのプーリング済み特徴マップのチャンネル個数をＪとする場合、プロポーザルごとのプーリング済み特徴マップＰ１、Ｐ２、…、ＰＮはそれぞれＭ１ｘＭ２ｘＪのボリュームを有することができる。

次に、学習装置１００は、第１トランスポーズレイヤ１２４をもって、プーリングレイヤ１２３から出力されたプロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをプロポーザルごとにコンカチネートして統合特徴マップを生成させることができる。

一例として、図３と図４を参照すると、図３におけるプロポーザルごとのプーリング済み特徴マップＰ１、Ｐ２、…、ＰＮ上における最も左側上端のピクセルをそれぞれＰ１Ｆ１、Ｐ２Ｆ１、…、ＰＮＦ１とする場合、プロポーザルごとのプーリング済み特徴マップＰ１、Ｐ２、…、ＰＮそれぞれにおける最も左側上端のピクセルであるＰ１Ｆ１、Ｐ２Ｆ１、…、ＰＮＦ１をコンカチネートして図４のようにすべてのチャンネルのうち第１チャンネルに対応する最も前面にあるラインのように幅Ｎ、高さ１である統合特徴マップ４００の第１部分が生成されるようにし、この過程をプロポーザルごとのプーリング済み特徴マップＰ１、Ｐ２、…ＰＮそれぞれにある残りのピクセルにも適用することができる。その結果、プロポーザルごとのプーリング済み特徴マップＰ１、Ｐ２、…、ＰＮそれぞれにおけるピクセル数と同一にチャンネル個数がＭ１ｘＭ２ｘＪである統合特徴マップ４００を生成させることができる。

一方、前記においては、学習装置１００が第１トランスポーズレイヤ１２４をもって、プーリングレイヤ１２３から出力されたプロポーザルごとのプーリング済み特徴マップを利用して統合特徴マップを生成させた。その他の例として、学習装置１００は、第１トランスポーズレイヤ１２４を使用せずに、プーリングレイヤ１２３をもって、統合特徴マップを生成させることができる。つまり、その他の例として、学習装置１００はプーリングレイヤ１２３をもって、初期特徴マップ上でプロポーザルそれぞれに対応する領域に対してプーリング演算を適用してプロポーザルごとのプーリング済み特徴マップを生成し、プロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをプロポーザルごとにコンカチネートして統合特徴マップを生成させることができる。

次に、学習装置１００は、第１リシェイプレイヤ１２５をもって、統合特徴マップ４００のすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートして第１リシェイプ済み特徴マップ５００Ａを生成させることができる。

一例として、図４と図５ａを参照すると、学習装置１００は、第１リシェイプレイヤ１２５をもって、統合特徴マップ４００の第１チャンネル内それぞれの特徴Ｐ１ＣＨ１、Ｐ２ＣＨ１、…、ＰＮＣＨ１ないし前記統合特徴マップの第Ｈ１チャンネル内それぞれの特徴Ｐ１ＣＨ（Ｈ１）、Ｐ２ＣＨ（Ｈ１）、…、ＰＮＣＨ（Ｈ１）をコンカチネートさせ、統合特徴マップ４００の第Ｈ１＋１チャンネル内それぞれの特徴Ｐ１ＣＨ（Ｈ１＋１）、Ｐ２ＣＨ（Ｈ１＋１）、…、ＰＮＣＨ（Ｈ１＋１）ないし前記統合特徴マップの第２ｘＨ１チャンネル内それぞれの特徴Ｐ１ＣＨ（２ｘＨ１）、Ｐ２ＣＨ（２ｘＨ１）、…、ＰＮＣＨ（２ｘＨ１）をコンカチネートさせることができる。つまり、学習装置１００は、この過程を繰り返すことにより、幅Ｎ、高さＨ１、チャンネル個数ＣＥＩＬ
である第１リシェイプ済み特徴マップ５００Ａを生成させることができる。

この際、統合特徴マップ４００のチャンネル個数がＨ１の倍数でない場合、学習装置１００は、第１リシェイプレイヤ１２５をもって、統合特徴マップ４００に少なくとも一つの第１ダミーチャンネルを追加させて少なくとも一つの第１ダミーチャンネルを含む統合特徴マップ４００のチャンネル個数がＨ１の倍数になるようにした後、統合特徴マップ４００のすべてのチャンネルのうち、それぞれの対応するＨ１個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせることができる。すなわち、統合特徴マップのチャンネル個数がＨ１の倍数にならないことにより、ＣＥＩＬ
番目のチャンネルをコンカチネートして生成される統合特徴マップ４００のサイズが幅Ｎ、高さＨ１にならない場合、統合特徴マップ４００の幅がＮ、高さがＨ１になるように少なくとも一つのゼロパディング領域を追加することができる。

次に、学習装置１００は、１ｘＨ１コンボリューションレイヤ１２６をもって、第１リシェイプ済み特徴マップ５００Ａに対して１ｘＨ１コンボリューション演算を適用させてボリュームが調整された第１調整特徴マップ５００Ｂを生成させることができる。

一例として、図５ａと図５ｂを参照すると、１ｘＨ１コンボリューションレイヤ１２６のフィルタの個数をＫとする場合、学習装置１００は、１ｘＨ１コンボリューションレイヤ１２６をもって、図５ａの第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させて幅Ｎ、高さ１、チャンネル個数ＫであるＮｘ１ｘＫのボリュームを有する第１調整特徴マップ５００Ｂを生成させることができる。これを通じて、コンピューティング演算量を従来の技術の１／Ｈ１に減少させることができるようになり、それに伴ってコンピューティング演算速度、及び演算能力を増大させ得るようになる。

この際、第１調整特徴マップ５００Ｂ上の特徴Ｐ１’ＣＨ１、Ｐ２’ＣＨ１、…、ＰＮ’ＣＨ１は、それぞれ第１リシェイプ済み特徴マップ５００Ａ上の特徴Ｐ１ＣＨ１、Ｐ１ＣＨ２、…、Ｐ１ＣＨ（Ｈ１）を局地的に統合（ＬｏｃａｌｌｙＣｏｎｎｅｃｔｉｎｇ）し、第１リシェイプ済み特徴マップ５００Ａ上の特徴Ｐ２ＣＨ１、Ｐ２ＣＨ２、…、Ｐ２ＣＨ（Ｈ１）を局地的に統合し、第１リシェイプ済み特徴マップ５００Ａ上の特徴ＰＮＣＨ１、ＰＮＣＨ２、…、ＰＮＣＨ（Ｈ１）を局地的に統合した結果であり得る。参考までに、前記局地的統合（ＬｏｃａｌｌｙＣｏｎｎｅｃｔｉｎｇ）は、１×Ｈ１コンボリューション演算を適用することを意味する。

次に、学習装置１００は、第２リシェイプレイヤ１２７をもって、第１調整特徴マップ５００Ｂのすべてのチャンネルのうち、それぞれの対応するＨ２個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせて第２リシェイプ済み特徴マップ６００Ａを生成させることができる。

一例として、図５ｂと図６ａを参照すると、学習装置１００は、第２リシェイプレイヤ１２７をもって、第１調整特徴マップ５００Ｂの第１チャンネル内のそれぞれの特徴Ｐ１’ＣＨ１、Ｐ２’ＣＨ１、…、ＰＮ’ＣＨ１）ないし第Ｈ２チャンネル内のそれぞれの特徴Ｐ１’ＣＨ（Ｈ２）、Ｐ２’ＣＨ（Ｈ２），…、ＰＮ’ＣＨ（Ｈ２）をコンカチネートさせ、第１調整特徴マップ５００Ｂの第Ｈ２＋１チャンネル内のそれぞれの特徴Ｐ１’ＣＨ（Ｈ２＋１）、Ｐ２’ＣＨ（Ｈ２＋１）、…、ＰＮ’ＣＨ（Ｈ２＋１）ないし第２ｘＨ２チャンネル内のそれぞれの特徴Ｐ１’ＣＨ（２ｘＨ２）、Ｐ２’ＣＨ（２ｘＨ２），…、ＰＮ’ＣＨ（２ｘＨ２）をコンカチネートさせることができる。つまり、学習装置１００は、このコンカチネートの過程を繰り返すことにより、幅Ｎ、高さＨ２、チャンネル個数ＣＥＩＬ
の第２リシェイプ済み特徴マップ６００Ａを生成させることができる。

この際、第１調整特徴マップ５００Ｂのチャンネル個数がＨ２の倍数でない場合、学習装置１００は第２リシェイプレイヤ１２７をもって、第１調整特徴マップに少なくとも一つの第２ダミーチャンネルを追加させて少なくとも一つの第２ダミーチャンネルを含む第１調整特徴マップ５００Ｂのチャンネル個数がＨ２の倍数になるようにした後、第１調整特徴マップ５００Ｂのすべてのチャンネルのうち、それぞれの対応するＨ２個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせることができる。すなわち、第１調整特徴マップ５００Ｂのチャンネル個数がＨ２の倍数にならないことにより、ＣＥＩＬ
番目のチャンネルをコンカチネートして生成される第１調整特徴マップ５００Ｂのサイズが幅Ｎ、高さＨ２にならない場合、第１調整特徴マップ５００Ｂの幅はＮ、高さはＨ２となるように少なくとも一つのゼロパディング領域を追加することができる。

次に、学習装置１００は、１ｘＨ２コンボリューションレイヤ１２８をもって、第２リシェイプ済み特徴マップ６００Ａに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップ６００Ｂを生成させることができる。

一例として、図６ａと図６ｂを参照すると、１ｘＨ２コンボリューションレイヤ１２８のフィルタの個数をＬとする場合、学習装置１００は、１ｘＨ２コンボリューションレイヤ１２８をもって、図６ａの第２リシェイプ済み特徴マップ６００Ａに対して１ｘＨ２コンボリューション演算を適用させて幅Ｎ、高さ１、チャンネル個数ＬであるＮｘ１ｘＬのボリュームを有する第２調整特徴マップ６００Ｂを生成させることができる。これを通じて、コンピューティング演算量を従来の技術の１／Ｈ２に減少させることができるようになり、それを通じてコンピューティング演算速度及び演算能力を増大させ得るようになる。この際、第２調整特徴マップ６００Ｂ上の特徴Ｐ１”ＣＨ１、Ｐ２”ＣＨ１、…、ＰＮ”ＣＨ１は、それぞれ第２リシェイプ済み特徴マップ６００Ａ上の特徴Ｐ１’ＣＨ１、Ｐ１’ＣＨ２、…、Ｐ１’ＣＨ（Ｈ１）を局地的に統合し、第２リシェイプ済み特徴マップ６００Ａ上の特徴Ｐ２’ＣＨ１、Ｐ２’ＣＨ２、…、Ｐ２’ＣＨ（Ｈ１）を局地的に統合し、第２リシェイプ済み特徴マップ６００Ａ上の特徴ＰＮ’ＣＨ１、ＰＮ’ＣＨ２、…、ＰＮ’ＣＨ（Ｈ１）を局地的に統合した結果であり得る。参考までに、前記局地的統合（ＬｏｃａｌｌｙＣｏｎｎｅｃｔｉｎｇ）は、１×Ｈ２コンボリューション演算を適用することを意味する。

次に、学習装置１００は、第２トランスポーズレイヤ１２９をもって、第２調整特徴マップ６００Ｂをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…、ＰＷＮを生成させることができる。

一例として、図７を参照すると、学習装置１００は第２トランスポーズレイヤ１２９をもって、図６ｂのように幅Ｎ、高さ１、チャンネル個数Ｌであるボリュームを有する第２調整特徴マップ６００Ｂをピクセルごとに分離させて幅１、高さ１、チャンネル個数Ｌであるプロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…、ＰＷＮを生成させる。

次に、学習装置１００は分類レイヤ１３０をもって、プロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…ＰＷＮを利用してプロポーザルそれぞれに関する物体クラス情報を生成させることができる。この際、分類レイヤ１３０は、ソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することができ、それぞれのプロポーザルが検出しようとする物体に対応するのかに関する確率情報を生成することができる。

一方、前記においては第２トランスポーズレイヤ１２９をもって、第２調整特徴マップ６００Ｂを利用してプロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…、ＰＷＮを生成させた。その他の例として、分類レイヤ１３０は、第２トランスポーズレイヤ１２９を使用せずに第２調整特徴マップ６００Ｂを利用してプロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…、ＰＷＮを生成させることができる。つまり、学習装置１００は分類レイヤ１３０をもって、第２調整特徴マップ６００Ｂをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…、ＰＷＮを生成し、分類レイヤ１３０をもって、プロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…、ＰＷＮを利用してプロポーザルそれぞれに関する物体クラス情報を生成させることができる。

次に、学習装置１００は、検出レイヤ１３１をもって、物体クラス情報とプロポーザルごとのピクセル別特徴マップＰＷ１、ＰＷ２、…、ＰＷＮとを参照してトレーニングイメージ内に位置する物体に対応する物体検出情報を生成させることができる。この際、検出レイヤ１２９は、ＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することができ、単一の物体に複数のプロポーザルがタグ付けされた場合、そのうち確率の高い、少なくとも一つの特定のプロポーザルを当該単一の物体に対応する物体検出情報として選択することができる。

次に、学習装置１００は検出ロスレイヤ１３２をもって、物体検出情報とこれに対応する原本正解とを参照して少なくとも一つの物体検出ロスを算出させることで、物体検出ロスをバックプロパゲーションして１ｘＨ２コンボリューションレイヤ１２８、１ｘＨ１コンボリューションレイヤ１２６、及びコンボリューションレイヤ１２１のうち少なくとも一部のパラメータを調整することができる。

また、学習装置１００は、ＲＰＮ１２２に対応するＲＰＮロスレイヤ１３３をもって、プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることで、ＲＰＮロスをバックプロパゲーションしてＲＰＮ１２２の少なくとも一つのパラメータを調整することができる。

前記のように、本発明の一実施例によるＣＮＮ基盤の物体検出器は、コンボリューションレイヤのみで構成されることにより、従来のＦＣレイヤを利用したものとは異なって入力イメージのサイズに関係なしに入力イメージ内の物体を検出することができる。また、本発明の一実施例によるＣＮＮ基盤の物体検出器は、１ｘＨコンボリューションレイヤの局地的統合の演算（ＬｏｃａｌＣｏｎｎｅｃｔｅｄＯｐｅｒａｔｉｏｎ）を適用することにより、従来のＦＣレイヤのＦＣ演算（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＯｐｅｒａｔｉｏｎ）を適用するのに比べてコンピューティング演算量を減少させ得るようになる。

図８は、本発明の一実施例によるＣＮＮ基盤の物体検出器をテストするテスト装置２００を簡略に示したものであって、図８を参照すると、テスト装置２００は、通信部２１０とプロセッサ２２０を含むことができる。

また、テスト装置２００は、次のプロセスを遂行するためのコンピュータ読取り可能なインストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納することができるメモリ２１５をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は統合プロセッサ（ＩｎｔｅｇｒａｔｅｄＰｒｏｃｅｓｓｏｒ）として統合され得る。

先ず、通信部２１０は、少なくとも一つのテストイメージを取得するか、他の装置をもって取得するように支援することができる。

この際、本発明の一実施例によるＣＮＮ基盤の物体検出器は、図１ないし図７を参照して説明した学習方法によって学習された状態であり得る。参考までに、以下の説明で混同を避けるために「学習用」という文句は、先に説明した学習プロセスに関する用語について追加され、「テスト用」という文句はテストプロセスに関する用語について追加される。

つまり、少なくとも一つのトレーニングイメージが入力されると、学習装置は、（ａ）（ｉ）コンボリューションレイヤをもって、トレーニングイメージに対してコンボリューション演算を適用させて少なくとも一つの学習用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、学習用初期特徴マップを利用してトレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、学習用初期特徴マップ上で学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、学習用プロポーザルごとの学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを学習用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させて学習用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）プーリングレイヤをもって、学習用初期特徴マップ上で学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、プーリングレイヤをもって、学習用プロポーザルごとの学習用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを学習用プロポーザルごとにコンカチネートさせて学習用統合特徴マップを生成させ、（ｂ）（ｂ１）（ｉ）第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、学習用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）１ｘＨ１コンボリューションレイヤをもって、学習用第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された学習用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｂ２）（ｉ）第２リシェイプレイヤをもって、学習用第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第２リシェイプ済み特徴マップを生成させ、（ｉｉ）１ｘＨ２コンボリューションレイヤをもって、学習用第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整された学習用第２調整特徴マップを生成させ、（ｃ）（ｃ１）（ｉ）第２トランスポーズレイヤをもって、学習用第２調整特徴マップをピクセルごとに分離して学習用プロポーザルごとの学習用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、学習用プロポーザルごとの学習用ピクセル別特徴マップを利用して学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させるか、（ｉｉ）分類レイヤをもって、学習用第２調整特徴マップをピクセルごとに分離して学習用プロポーザルごとの学習用ピクセル別特徴マップを生成させ、学習用プロポーザルごとの学習用ピクセル別特徴マップを利用して学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させた後、（ｃ２）検出レイヤをもって、学習用物体クラス情報と学習用プロポーザルごとの学習用ピクセル別特徴マップを参照してトレーニングイメージ内に位置する学習用物体に対応する学習用物体検出情報を生成させ、（ｃ３）検出ロスレイヤをもって、学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、物体検出ロスをバックプロパゲーションして１ｘＨ２コンボリューションレイヤ、１ｘＨ１コンボリューションレイヤ、及びコンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行した状態であり得る。

また、学習装置は、ＲＰＮロスレイヤをもって、学習用プロポーザルとこれに対応する原本正解とを参照して、少なくとも一つのＲＰＮロスを算出させることで、ＲＰＮロスをバックプロパゲーションしてＲＰＮの少なくとも一部のパラメータを学習した状態であり得る。

次に、プロセッサ２２０は、（ｉ）コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、テスト用初期特徴マップを利用してテストイメージ内に位置する少なくとも一つのテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、テスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをテスト用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させてテスト用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）プーリングレイヤをもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、テスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをテスト用プロポーザルごとにコンカチネートさせてテスト用統合特徴マップを生成させるプロセスを遂行することができる。そして、プロセッサ２２０は（ｉ）第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）１ｘＨ１コンボリューションレイヤをもって、テスト用第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整されたテスト用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉｉ）第２リシェイプレイヤをもって、前記テスト用第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第２リシェイプ済み特徴マップを生成させ、（ｖｉ）１ｘＨ２コンボリューションレイヤをもって、テスト用第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整されたテスト用第２調整特徴マップを生成するようにプロセスを遂行することができる。以後、プロセッサ２２０は、（ｉ）第２トランスポーズレイヤをもって、テスト用第２調整特徴マップをピクセルごとに分離してテスト用プロポーザルごとのテスト用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、（ｉｉ）分類レイヤをもって、テスト用第２調整特徴マップをピクセルごとに分離してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるプロセスを遂行することができる。そして、プロセッサ２２０は、検出レイヤをもって、テスト用物体クラス情報とテスト用プロポーザルごとのテスト用ピクセル別特徴マップとを参照してテストイメージ内に位置するテスト用物体に対応するテスト用物体検出情報を生成させることができる。

この際、本発明の一実施例によるテスト装置２００は、コンピューティング装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明によるテスト装置２００として採択され得る。また、図８では一つのテスト装置２００のみを示したが、これに限定されず、テスト装置は複数個に分けて役割を遂行することもできる。

このように構成された本発明の一実施例によるテスト装置２００を利用してＣＮＮ基盤の物体検出器をテストする方法を、図９を参照して説明すると以下のとおりである。以下の説明において、図１ないし図７を参照して説明した学習方法から容易に理解可能な部分については、詳細な説明を省略することとする。

まず、図１ないし図７を参照して説明した学習方法によってコンボリューションレイヤ２２１、１ｘＨ１コンボリューションレイヤ２２６、及び１ｘＨ２コンボリューションレイヤ２２８の少なくとも一部のパラメータが学習された状態で、テストイメージが入力されると、テスト装置２００がコンボリューションレイヤ２２１をもって、テストイメージに対してコンボリューション演算を適用させてテスト用初期特徴マップを生成させる。この際、コンボリューションレイヤ２２１は、テストイメージに対して順次にコンボリューション演算を適用するために単一のコンボリューションレイヤ又は複数個のコンボリューションレイヤであり得る。

そして、テスト装置２００はＲＰＮ２２２をもって、テスト用初期特徴マップを利用してテストイメージ内に位置するテスト用物体に対応する少なくとも一つのテスト用プロポーザルを生成させることができる。この際、ＲＰＮ２２２は、テストイメージ内にテスト用物体が位置するものと推定されるテスト用候補の領域に対応するテスト用ＲＯＩ候補を生成することができ、テスト用ＲＯＩ候補のうち、テスト用物体が位置するものと判断される確率の高い特定のテスト用ＲＯＩ候補をテスト用プロポーザルとして出力することができる。

次に、テスト装置２００は、プーリングレイヤ２２３をもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応するそれぞれの領域をプーリングしてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させることができる。

次に、テスト装置２００は第１トランスポーズレイヤ２２４をもって、プーリングレイヤ２２３から出力されたテスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをテスト用プロポーザルごとにコンカチネートさせてテスト用ピクセル別特徴マップを生成させることができる。

一方、前記では、テスト装置２００が第１トランスポーズレイヤ２２４をもって、プーリングレイヤ２２３から出力されたテスト用プロポーザルごとのテスト用プーリング済み特徴マップを利用してテスト用統合特徴マップを生成させた。その他の例として、テスト装置２００は、第１トランスポーズレイヤ２２４を使用せずにプーリングレイヤ２２３をもって、テスト用ピクセル別特徴マップを生成させることができる。つまり、テスト装置２００は、プーリングレイヤ２２３をもって、テスト用特徴マップ上でテスト用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、テスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをテスト用プロポーザルごとにコンカチネートさせてテスト用統合特徴マップを生成させることができる。

次に、テスト装置２００は、第１リシェイプレイヤ２２５をもって、テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせてテスト用第１リシェイプ済み特徴マップを生成させることができる。

この際、テスト用統合特徴マップのチャンネル個数がＨ１の倍数でない場合、テスト装置２００は第１リシェイプレイヤ２２５をもって、テスト用統合特徴マップに少なくとも一つの第１ダミーチャンネルを追加して少なくとも一つの第１ダミーチャンネルを含むテスト用統合特徴マップのチャンネル個数がＨ１の倍数になるようにした後、テスト用統合特徴マップのすべてのチャンネルのうち、それぞれの対応するＨ１個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせることができる。すなわち、テスト用統合特徴マップのチャンネル個数がＨ１の倍数にならないことにより、ＣＥＩＬ
番目のチャンネルをコンカチネートして生成されるテスト用統合特徴マップのサイズが幅Ｎ、高さＨ１にならない場合、テスト用統合特徴マップの幅はＮ、高さはＨ１になるように少なくとも一つのゼロパディング領域を追加することができる。

次に、テスト装置２００は、１ｘＨ１コンボリューションレイヤ２２６をもって、テスト用第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリュームが調整された第１テスト用調整特徴マップを生成させることができる。

次に、テスト装置２００は、第２リシェイプレイヤ２２７をもって、テスト用第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせてテスト用第２リシェイプ済み特徴マップを生成させることができる。

この際、テスト用第１調整特徴マップのチャンネル個数がＨ２の倍数でない場合、テスト装置２００は、第２リシェイプレイヤ２２７をもって、テスト用第１調整特徴マップに少なくとも一つの第２ダミーチャンネルを追加して少なくとも一つの第２ダミーチャンネルを含むテスト用第１調整特徴マップのチャンネル個数がＨ２の倍数になるようにした後、テスト用第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成された各グループ内のそれぞれの特徴をコンカチネートさせることができる。すなわち、テスト用第１調整特徴マップのチャンネル個数がＨ２の倍数にならないことにより、ＣＥＩＬ
番目のチャンネルをコンカチネートして生成されるテスト用第１調整特徴マップのサイズが幅Ｎ、高さＨ２にならない場合、テスト用第１調整特徴マップの幅はＮ、高さはＨ２になるように少なくとも一つのゼロパディング領域を追加することができる。

次に、テスト装置２００は１ｘＨ２コンボリューションレイヤ２２８をもって、テスト用第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整されたテスト用第２調整特徴マップを生成させることができる。

次に、テスト装置２００は第２トランスポーズレイヤ２２９をもって、第２テスト用調整特徴マップをピクセルごとに分離させてテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させることができる。

次に、テスト装置２００は分類レイヤ２３０をもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させることができる。この際、分類レイヤ２３０は、ソフトマックスアルゴリズムを使用することができ、それぞれのテスト用プロポーザルが検出しようとするテスト用物体に対応するのかに関する確率情報を生成することができる。

一方、前記においては、第２トランスポーズレイヤ２２９は、テスト用第２調整特徴マップを利用してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成することができる。その他の例として、分類レイヤ２３０は、第２トランスポーズレイヤ２２９を使用せずに、テスト用第２調整特徴マップを利用してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成することができる。つまり、テスト装置２００は分類レイヤ２３０をもって、テスト用第２調整特徴マップをピクセルごとに分離させてテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、分類レイヤ２３０をもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させることができる。

次に、テスト装置２００は検出レイヤ２３１をもって、テスト用物体クラス情報とテスト用プロポーザルごとのテスト用ピクセル別特徴マップとを参照してテストイメージ内に位置するテスト用物体に対応するテスト用物体検出情報を生成させることができる。この際、検出レイヤ２３１はＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することができ、単一のテスト用物体に複数のテスト用プロポーザルがタグ付けされた場合、そのうち確率の高い、少なくとも一つの特定のテスト用プロポーザルを該当単一のテスト用物体に対応するテスト用物体検出情報として選択することができる。

本方法において、同一のプロセッサがコンボリューション演算及びＦＣ演算を遂行するため、チップ（Ｃｈｉｐ）のサイズを小さくし、ハードウェアを最適化してＫＰＩ（ＫｅｙＰｅｒｆｏｒｍａｎｃｅＩｎｄｅｘ、重要業績評価指標）を満たすことができる。

また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気−光メディア（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

１００：学習装置
２００：テスト装置
１１０、２１０：通信部
１２０、２２０：プロセッサ
３００：データベース

Claims

ＣＮＮ基盤の物体検出器のパラメータを学習する方法において、
（ａ）少なくとも一つのトレーニングイメージが取得されると、学習装置が、（ｉ）少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させて統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記プロポーザルごとにコンカチネートさせて前記統合特徴マップを生成させる段階；
（ｂ）前記学習装置が、（ｂ１）（ｉ）第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）１ｘＨ１コンボリューションレイヤをもって、前記第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｂ２）（ｉ）第２リシェイプレイヤをもって、前記第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第２リシェイプ済み特徴マップを生成させ、（ｉｉ）１ｘＨ２コンボリューションレイヤをもって、前記第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップを生成させる段階；及び
（ｃ）前記学習装置が、（ｃ１）（ｉ）第２トランスポーズレイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する前記物体クラス情報を生成させた後、（ｃ２）検出レイヤをもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、（ｃ３）検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記１ｘＨ２コンボリューションレイヤ、前記１ｘＨ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階；
を含むことを特徴とする学習方法。
前記（ａ）段階以後、
前記学習装置は、ＲＰＮロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることで、前記ＲＰＮロスをバックプロパゲーションして前記ＲＰＮの少なくとも一部のパラメータを学習することを特徴とする請求項１に記載の学習方法。
前記（ｂ）段階で、
前記統合特徴マップのチャンネル個数が前記Ｈ１の倍数でない場合、前記学習装置は、前記第１リシェイプレイヤをもって、前記統合特徴マップに少なくとも一つの第１ダミーチャンネル（ＤｕｍｍｙＣｈａｎｎｅｌ）を追加させて少なくとも一つの前記第１ダミーチャンネルを含む前記統合特徴マップのチャンネル個数が前記Ｈ１の倍数になるようにした後、前記統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ１個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、
前記（ｂ）段階で、
前記第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数でない場合、前記学習装置は、前記第２リシェイプレイヤをもって、前記第１調整特徴マップに少なくとも一つの第２ダミーチャンネルを追加して少なくとも一つの前記第２ダミーチャンネルを含む前記第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数になるようにした後、前記第１調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ２個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする請求項１に記載の学習方法。
前記プロポーザルの個数をＮとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をＪとする場合、
前記（ａ）段階で、
前記学習装置は、（ｉ）前記第１トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにすることを特徴とする請求項１に記載の学習方法。
前記１ｘＨ１コンボリューションレイヤのフィルタの個数をＫとし、前記１ｘＨ２コンボリューションレイヤのフィルタの個数をＬとする場合、
前記（ｂ）段階で、
前記学習装置は、前記第１リシェイプレイヤをもって、幅Ｎ、高さＨ１、チャンネルＣＥＩＬ
である前記第１リシェイプ済み特徴マップを生成させ、
前記１ｘＨ１コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネルＫであるＮｘ１ｘＫのボリュームを有する前記第１調整特徴マップを生成させ、
前記学習装置は、前記第２リシェイプレイヤをもって、幅Ｈ２、高さＮ、チャンネルＣＥＩＬ
である前記第２リシェイプ済み特徴マップを生成させ、前記１ｘＨ２コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネルＬであるＮｘ１ｘＬのボリュームを有する前記第２調整特徴マップを生成させることを特徴とする請求項４に記載の学習方法。
前記（ｃ）段階で、
前記学習装置は、（ｉ）前記第２トランスポーズレイヤをもって、前記第２調整特徴マップを、Ｎ個の前記プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを、Ｎ個の前記プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする請求項５に記載の学習方法。
前記分類レイヤは、少なくとも一つのソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することを特徴とする請求項１に記載の学習方法。
前記検出レイヤは、少なくとも一つのＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することを特徴とする請求項１に記載の学習方法。
ＣＮＮ基盤の物体検出器をテストする方法において、
（ａ）学習装置は、（１）（ｉ）少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記学習用初期特徴マップ上において前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させて学習用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートさせて前記学習用統合特徴マップを生成させ、（２）（２−１）（ｉ）第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記学習用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）１ｘＨ１コンボリューションレイヤをもって、前記学習用第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された学習用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（２−２）（ｉ）第２リシェイプレイヤをもって、前記学習用第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第２リシェイプ済み特徴マップを生成させ、（ｉｉ）１ｘＨ２コンボリューションレイヤをもって、前記学習用第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整された学習用第２調整特徴マップを生成させ、（３）（３−１）（ｉ）第２トランスポーズレイヤをもって、前記学習用第２調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記学習用第２調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成させ、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する前記学習用物体クラス情報を生成させた後、（３−２）検出レイヤをもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、（３−３）検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記１ｘＨ２コンボリューションレイヤ、前記１ｘＨ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、少なくとも一つのテストイメージが取得されると、テスト装置が、（ａ１）前記コンボリューションレイヤをもって、前記テストイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ａ２）前記ＲＰＮをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させ、（ａ３）（ａ３−１）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させてテスト用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ａ３−２）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートさせて前記テスト用統合特徴マップを生成させる段階；
（ｂ）前記テスト装置が、（ｂ１）（ｉ）前記第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）前記１ｘＨ１コンボリューションレイヤをもって、前記テスト用第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整されたテスト用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｂ２）（ｉ）前記第２リシェイプレイヤをもって、前記テスト用第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第２リシェイプ済み特徴マップを生成させ、（ｉｉ）前記１ｘＨ２コンボリューションレイヤをもって、前記テスト用第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整されたテスト用第２調整特徴マップを生成させる段階；及び
（ｃ）前記テスト装置が、（ｃ１）（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用前記物体クラス情報を生成させた後、（ｃ２）前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させる段階；
を含むことを特徴とするテスト方法。
前記（ｂ）段階で、
前記テスト用統合特徴マップのチャンネル個数が前記Ｈ１の倍数でない場合、前記テスト装置は、前記第１リシェイプレイヤをもって、前記テスト用統合特徴マップに少なくとも一つの第１ダミーチャンネル（ＤｕｍｍｙＣｈａｎｎｅｌ）を追加させて少なくとも一つの前記第１ダミーチャンネルを含む前記テスト用統合特徴マップのチャンネル個数が前記Ｈ１の倍数になるようにした後、前記テスト用統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ１個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、
前記（ｂ）段階で、
前記テスト用第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数でない場合、前記テスト装置は、前記第２リシェイプレイヤをもって、前記テスト用第１調整特徴マップに少なくとも一つの第２ダミーチャンネルを追加して少なくとも一つの前記第２ダミーチャンネルを含む前記テスト用第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数になるようにした後、前記テスト用第１調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ２個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする請求項９に記載のテスト方法。
前記テスト用プロポーザルの個数をＮとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をＪとする場合、
前記（ａ）段階で、
前記テスト装置は、（ｉ）前記第１トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにすることを特徴とする請求項９に記載のテスト方法。
前記１ｘＨ１コンボリューションレイヤのフィルタの個数をＫとし、前記１ｘＨ２コンボリューションレイヤのフィルタの個数をＬとする場合、
前記（ｂ）段階で、
前記テスト装置は、前記第１リシェイプレイヤをもって、幅Ｎ、高さＨ１、チャンネル個数ＣＥＩＬ
である前記テスト用第１リシェイプ済み特徴マップを生成させ、前記１ｘＨ１コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネル個数ＫであるＮｘ１ｘＫのボリュームを有する前記テスト用第１調整特徴マップを生成させ、
前記テスト装置は、前記第２リシェイプレイヤをもって、幅Ｎ、高さＨ２、チャンネル個数ＣＥＩＬ
である前記テスト用第２リシェイプ済み特徴マップを生成させ、前記１ｘＨ２コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネル個数ＬであるＮｘ１ｘＬのボリュームを有する前記テスト用第２調整特徴マップを生成させることを特徴とする請求項１１に記載のテスト方法。
前記（ｃ）段階で、
前記テスト装置は、（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップを、Ｎ個の前記テスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを、Ｎ個の前記テスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする請求項１２に記載のテスト方法。
前記分類レイヤは、少なくとも一つのソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することを特徴とする請求項９に記載のテスト方法。
前記検出レイヤは、少なくとも一つのＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することを特徴とする請求項９に記載のテスト方法。
ＣＮＮ基盤の物体検出器のパラメータを学習する学習装置において、
インストラクションを格納する少なくとも一つのメモリと、
（Ｉ）（ｉ）少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体それぞれに対応する少なくとも一つのプロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させて統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記プロポーザルごとにコンカチネートさせて前記統合特徴マップを生成させるプロセス、（ＩＩ）（ＩＩ−１）（ｉ）第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）１ｘＨ１コンボリューションレイヤをもって、前記第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ＩＩ−２）（ｉ）第２リシェイプレイヤをもって、前記第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて第２リシェイプ済み特徴マップを生成させ、（ｉｉ）１ｘＨ２コンボリューションレイヤをもって、前記第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整された第２調整特徴マップを生成させるプロセス、及び（ＩＩＩ）（ＩＩＩ−１）（ｉ）第２トランスポーズレイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する前記物体クラス情報を生成させた後、（ＩＩＩ−２）検出レイヤをもって、前記物体クラス情報と前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、（ＩＩＩ−３）検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記１ｘＨ２コンボリューションレイヤ、前記１ｘＨ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする学習装置。
前記（Ｉ）プロセス以後、
前記プロセッサは、ＲＰＮロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのＲＰＮロスを算出させることで、前記ＲＰＮロスをバックプロパゲーションして前記ＲＰＮの少なくとも一部のパラメータを学習することを特徴とする請求項１６に記載の学習装置。
前記（ＩＩ）プロセスで、
前記統合特徴マップのチャンネル個数が前記Ｈ１の倍数でない場合、前記プロセッサは、前記第１リシェイプレイヤをもって、前記統合特徴マップに少なくとも一つの第１ダミーチャンネル（ＤｕｍｍｙＣｈａｎｎｅｌ）を追加させて少なくとも一つの前記第１ダミーチャンネルを含む前記統合特徴マップのチャンネル個数が前記Ｈ１の倍数になるようにした後、前記統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ１個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、
前記（ＩＩ）プロセスで、
前記第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数でない場合、前記プロセッサは、前記第２リシェイプレイヤをもって、前記第１調整特徴マップに少なくとも一つの第２ダミーチャンネルを追加して前記少なくとも一つの第２ダミーチャンネルを含む前記第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数になるようにした後、前記第１調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ２個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする請求項１６に記載の学習装置。
前記プロポーザルの個数をＮとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をＪとする場合、
前記（Ｉ）プロセスで、
前記プロセッサは、（ｉ）前記第１トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記統合特徴マップに変換させるようにすることを特徴とする請求項１６に記載の学習装置。
前記１ｘＨ１コンボリューションレイヤのフィルタの個数をＫとし、前記１ｘＨ２コンボリューションレイヤのフィルタの個数をＬとする場合、
前記（ＩＩ）プロセスで、
前記プロセッサは、前記第１リシェイプレイヤをもって、幅Ｎ、高さＨ１、チャンネル個数ＣＥＩＬ
である前記第１リシェイプ済み特徴マップを生成させ、前記１ｘＨ１コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネルＫであるＮｘ１ｘＫのボリュームを有する前記第１調整特徴マップを生成させ、
前記プロセッサは、前記第２リシェイプレイヤをもって、幅Ｈ２、高さＮ、チャンネルＣＥＩＬ
である前記第２リシェイプ済み特徴マップを出力させ、前記１ｘＨ２コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネルＬであるＮｘ１ｘＬのボリュームを有する前記第２調整特徴マップを生成させることを特徴とする請求項１９に記載の学習装置。
前記（ＩＩＩ）プロセスで、
前記プロセッサは、（ｉ）前記第２トランスポーズレイヤをもって、前記第２調整特徴マップを、Ｎ個の前記プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記第２調整特徴マップを、Ｎ個の前記プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする請求項２０に記載の学習装置。
前記分類レイヤは少なくとも一つのソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することを特徴とする請求項１６に記載の学習装置。
前記検出レイヤは、少なくとも一つのＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することを特徴とする請求項１６に記載の学習装置。
ＣＮＮ基盤の物体検出器をテストするテスト装置において、
インストラクションを格納する少なくとも一つのメモリと、
学習装置は、（１）（ｉ）少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）ＲＰＮをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させて学習用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記学習用初期特徴マップ上において、前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成させ、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートさせて前記学習用統合特徴マップを生成させ、（２）（２−１）（ｉ）第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記学習用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）１ｘＨ１コンボリューションレイヤをもって、前記学習用第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整された学習用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（２−２）（ｉ）第２リシェイプレイヤをもって、前記学習用第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせて学習用第２リシェイプ済み特徴マップを生成させ、（ｉｉ）１ｘＨ２コンボリューションレイヤをもって、前記学習用第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整された学習用第２調整特徴マップを生成させ、（３）（３−１）（ｉ）第２トランスポーズレイヤをもって、前記学習用第２調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する学習用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記学習用第２調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成させ、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに関する前記学習用物体クラス情報を生成させた後、（３−２）検出レイヤをもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、（３−３）検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記１ｘＨ２コンボリューションレイヤ、前記１ｘＨ１コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、（Ｉ）（ｉ）前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップ（ＩｎｉｔｉａｌＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）前記ＲＰＮをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させ、（ｉｉｉ）（ｉｉｉ−１）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第１トランスポーズレイヤ（ＴｒａｎｓｐｏｓｉｎｇＬａｙｅｒ）をもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）させてテスト用統合特徴マップ（ＩｎｔｅｇｒａｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させるか、（ｉｉｉ−２）前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置の前記ピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートさせて前記テスト用統合特徴マップを生成させるプロセス、（ＩＩ）（ＩＩ−１）（ｉ）前記第１リシェイプレイヤ（ＲｅｓｈａｐｉｎｇＬａｙｅｒ）をもって、前記テスト用統合特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ１個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第１リシェイプ済み特徴マップ（ＲｅｓｈａｐｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ｉｉ）前記１ｘＨ１コンボリューションレイヤをもって、前記テスト用第１リシェイプ済み特徴マップに対して１ｘＨ１コンボリューション演算を適用させてボリューム（Ｖｏｌｕｍｅ）が調整されたテスト用第１調整特徴マップ（ＡｄｊｕｓｔｅｄＦｅａｔｕｒｅＭａｐ）を生成させ、（ＩＩ−２）（ｉ）前記第２リシェイプレイヤをもって、前記テスト用第１調整特徴マップのすべてのチャンネルのうちでそれぞれの対応するＨ２個のチャンネルから構成されたそれぞれのグループ内の特徴それぞれをコンカチネートさせてテスト用第２リシェイプ済み特徴マップを生成させ、（ｉｉ）前記１ｘＨ２コンボリューションレイヤをもって、前記テスト用第２リシェイプ済み特徴マップに対して１ｘＨ２コンボリューション演算を適用させてボリュームが調整されたテスト用第２調整特徴マップを生成させるプロセス、及び（ＩＩＩ）（ＩＩＩ−１）（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップ（Ｐｉｘｅｌ−ＷｉｓｅＦｅａｔｕｒｅＭａｐ）を生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成させ、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用前記物体クラス情報を生成させた後、（ＩＩＩ−２）前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするテスト装置。
前記（ＩＩ）プロセスで、
前記テスト用統合特徴マップのチャンネル個数が前記Ｈ１の倍数でない場合、前記プロセッサは、前記第１リシェイプレイヤをもって、前記テスト用統合特徴マップに少なくとも一つの第１ダミーチャンネル（ＤｕｍｍｙＣｈａｎｎｅｌ）を追加させて少なくとも一つの前記第１ダミーチャンネルを含む前記テスト用統合特徴マップのチャンネル個数が前記Ｈ１の倍数になるようにした後、前記テスト用統合特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ１個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせ、
前記（ＩＩ）プロセスで、
前記テスト用第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数でない場合、前記プロセッサは、前記第２リシェイプレイヤをもって、前記テスト用第１調整特徴マップに少なくとも一つの第２ダミーチャンネルを追加して少なくとも一つの前記第２ダミーチャンネルを含む前記テスト用第１調整特徴マップのチャンネル個数が前記Ｈ２の倍数になるようにした後、前記テスト用第１調整特徴マップの前記すべてのチャンネルのうちでそれぞれの対応するＨ２個の前記チャンネルから構成されたそれぞれのグループ内の前記特徴それぞれをコンカチネートさせることを特徴とする請求項２４に記載のテスト装置。
前記テスト用プロポーザルの個数をＮとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をＭ１、高さをＭ２とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をＪとする場合、
前記（Ｉ）プロセスで、
前記プロセッサは、（ｉ）前記第１トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにするか、（ｉｉ）前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを、幅Ｎ、高さ１、チャンネルＭ１ｘＭ２ｘＪである前記テスト用統合特徴マップに変換させるようにすることを特徴とする請求項２４に記載のテスト装置。
前記１ｘＨ１コンボリューションレイヤのフィルタの個数をＫとし、前記１ｘＨ２コンボリューションレイヤのフィルタの個数をＬとする場合、
前記（ＩＩ）プロセスで、
前記プロセッサは、前記第１リシェイプレイヤをもって、幅Ｎ、高さＨ１、チャンネル個数ＣＥＩＬ
である前記テスト用第１リシェイプ済み特徴マップを生成させ、前記１ｘＨ１コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネル個数ＫであるＮｘ１ｘＫのボリュームを有する前記テスト用第１調整特徴マップを生成させ、
前記プロセッサは、前記第２リシェイプレイヤをもって、幅Ｎ、高さＨ２、チャンネル個数ＣＥＩＬ
である前記テスト用第２リシェイプ済み特徴マップを生成させ、前記１ｘＨ２コンボリューションレイヤをもって、幅Ｎ、高さ１、チャンネル個数ＬであるＮｘ１ｘＬのボリュームを有する前記テスト用第２調整特徴マップを生成させることを特徴とする請求項２６に記載のテスト装置。
前記（ＩＩＩ）プロセスで、
前記プロセッサは、（ｉ）前記第２トランスポーズレイヤをもって、前記テスト用第２調整特徴マップを、Ｎ個の前記テスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、（ｉｉ）前記分類レイヤをもって、前記テスト用第２調整特徴マップを、Ｎ個の前記テスト用プロポーザルそれぞれに対応する幅１、高さ１、チャンネルＬである１ｘ１ｘＬのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする請求項２７に記載のテスト装置。
前記分類レイヤは、少なくとも一つのソフトマックス（Ｓｏｆｔｍａｘ）アルゴリズムを使用することを特徴とする請求項２４に記載のテスト装置。
前記検出レイヤは、少なくとも一つのＮＭＳ（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを使用することを特徴とする請求項２４に記載のテスト装置。