JP6846069B2

JP6846069B2 - 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したｃｎｎ基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置｛ｌｅａｒｎｉｎｇｍｅｔｈｏｄａｎｄｌｅａｒｎｉｎｇｄｅｖｉｃｅｆｏｒｏｂｊｅｃｔｄｅｔｅｃｔｏｒｗｉｔｈｈａｒｄｗａｒｅｏｐｔｉｍｉｚａｔｉｏｎｂａｓｅｄｏｎｃｎｎｆｏｒｄｅｔｅｃｔｉｏｎａｔｄｉｓｔａｎｃｅｏｒｍｉｌｉｔａｒｙｐｕｒｐｏｓｅｕｓｉｎｇｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ，ａｎｄｔｅｓｔｉｎｇｍｅｔｈｏｄａｎｄｔｅｓｔｉｎｇｄｅｖｉｃｅｕｓｉｎｇｔｈｅｓａｍｅ｝

Info

Publication number: JP6846069B2
Application number: JP2020002303A
Authority: JP
Inventors: 金桂賢; 金鎔重; 金寅洙; 金鶴京; 南雲鉉; 夫碩▲くん▼; 成明哲; 呂東勳; 柳宇宙; 張泰雄; 鄭景中; 諸泓模; 趙浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-22
Filing date: 2020-01-09
Publication date: 2021-03-24
Anticipated expiration: 2040-01-09
Also published as: KR20200091324A; CN111460877A; JP2020119540A; US10387752B1; EP3686781A1; KR102337367B1; CN111460877B

Description

本発明は遠距離検出又は軍事目的のために、イメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）を利用したＣＮＮ基盤のハードウェア最適化が可能な物体検出器のパラメータを学習する方法に関し；より詳細には、（ａ）少なくとも一つのトレーニングイメージが入力されると、（ｉ）ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズ済みイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域ないし第ｎターゲット領域それぞれを予測させ、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージから、前記第１ターゲット領域ないし前記第ｎターゲット領域それぞれに対応する第１加工イメージないし第ｎ加工イメージを取得させ、（ｉｉｉ）前記第１加工イメージないし前記第ｎ加工イメージをコンカチネートした統合トレーニングイメージを出力させる段階；（ｂ）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力させ、（ｉｉ）ＲＰＮをもって、前記統合特徴マップを利用して、前記第１加工イメージないし前記第ｎ加工イメージそれぞれ内に位置する一つ以上の物体に対応する第１物体プロポーザルないし第ｎ物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記統合特徴マップ上で、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させる段階；及び（ｃ）少なくとも一つのＦＣロスレイヤをもって、前記第１物体検出情報ないし前記第ｎ物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して、一つ以上の第１ＦＣロスないし一つ以上の第ｎＦＣロスを取得させることにより、前記第１ＦＣロスないし前記第ｎＦＣロスを利用したバックプロパゲーションを通じて、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整させる段階；を含むことを特徴とする方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置に関する。

機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）において、コンボリューションニューラルネットワーク（ＣＮＮまたはＣｏｎｖＮｅｔ）は、視覚的イメージ分析に成功裏に適用された深層フィードフォワード人工ニューラルネットワーク（Ｄｅｅｐｆｅｅｄｆｏｒｗａｒｄａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）である。

ＣＮＮ基盤物体検出器は、（ｉ）一つ以上のコンボリューションレイヤをもって、入力イメージにコンボリューション演算を適用することにより、前記入力イメージに対応する特徴マップを出力し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記特徴マップを利用して、前記入力イメージ内の物体に対応するプロポーザルを確認し、（ｉｉｉ）プーリングレイヤをもって、前記確認されたプロポーザルに対応する前記特徴マップ上の領域に少なくとも一つ以上のプーリング演算を適用してプーリング済み特徴マップを取得し、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、少なくとも一つのＦＣ演算を前記取得されたプーリング済み特徴マップないし前記物体に関する出力クラス情報とリグレッション情報とに適用することにより、前記入力イメージ上の前記物体を検出する。

しかしながら、前記ＣＮＮ基盤物体検出器は、前記コンボリューションレイヤによって前記入力イメージのサイズを縮小したサイズの前記特徴マップを利用するようになるので、前記入力イメージに位置するサイズが大きい物体は容易に検出されるものの、前記入力イメージに位置するサイズが小さい物体を検出することは難しい。

すなわち、前記入力イメージ上で検出される対象としての一つ以上の物体に対応する多数のターゲット領域がある場合、一部ターゲット領域からはサイズのために所望の特徴が正確に抽出され得なくなり、それに伴って特定の物体は検出することができなくなる。

これらの問題を解決するために、前記入力イメージから得たイメージピラミッドのうちそれぞれのイメージ内に前記ターゲット領域それぞれをクロップして物体検出を遂行することができるものの、この場合には前記ターゲット領域に対応してクロップしたそれぞれのイメージに対して前記物体検出を遂行しなければならないため、演算量が増加し得る。

また、ＣＮＮ演算は、迅速な演算のために一定の単位、一例として、３２、６４、１２８などの倍数でブロック演算を行うのにおいて、前記単位の倍数にならない幅や高さを有する入力のイメージが取得されると、前記単位の倍数にするために一つ以上のパディング領域を追加しなければならないが、これは前記ＣＮＮ演算に負担となる。したがって、前記単位の倍数ではない幅や高さを有するクロップしたイメージが多くなると、前記ＣＮＮ演算にさらに大きな負担として作用して前記ＣＮＮの演算速度は減少するようになる。

したがって、本発明の発明者は、前記入力イメージ上に位置する様々なサイズの物体に対応する前記ターゲット領域を利用して、前記ＣＮＮの演算時間を減らし、効果的に物体を検出することができる学習方法、学習装置及びそれを利用したテスト方法とテスト装置を提案することにする。

本発明は、上述した問題点を全て解決することをその目的とする。

本発明は、イメージ上に位置する物体をサイズに関係なしに効果的に検出することができるようにするＣＮＮ基盤の物体検出器を提供することを他の目的とする。
本発明は、演算量を増加させずに前記イメージ上の前記物体を検出することができるようにする、前記ＣＮＮ基盤の前記物体検出器を提供することをまた他の目的とする。

本発明は、前記入力イメージ上の様々なサイズの前記物体に対応するターゲット領域を利用して、前記ＣＮＮの演算時間を減らし、効果的に前記物体を検出することができるようにする前記ＣＮＮ基盤の前記物体検出器を提供することを他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下の通りである。

本発明の一態様によると、イメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）を利用した、ＣＮＮ基盤物体検出器のパラメータを学習する方法において、（ａ）少なくとも一つのトレーニングイメージが入力されると、学習装置が、（ｉ）ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズ済みイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域ないし第ｎターゲット領域それぞれを予測させ、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージから、前記第１ターゲット領域ないし前記第ｎターゲット領域それぞれに対応する第１加工イメージないし第ｎ加工イメージを取得させ、（ｉｉｉ）前記第１加工イメージないし前記第ｎ加工イメージをコンカチネートした統合トレーニングイメージを出力させる段階；（ｂ）前記学習装置が、（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力させ、（ｉｉ）ＲＰＮをもって、前記統合特徴マップを利用して、前記第１加工イメージないし前記第ｎ加工イメージそれぞれ内に位置する一つ以上の物体に対応する第１物体プロポーザルないし第ｎ物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記統合特徴マップ上で、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させる段階；及び（ｃ）前記学習装置が、少なくとも一つのＦＣロスレイヤをもって、前記第１物体検出情報ないし前記第ｎ物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して、一つ以上の第１ＦＣロスないし一つ以上の第ｎＦＣロスを取得させることにより、前記第１ＦＣロスないし前記第ｎＦＣロスを利用したバックプロパゲーションを通じて、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整させる段階；を含むことを特徴とする方法が開示される。

一実施例において、前記（ｂ）段階以後、前記学習装置が少なくとも一つのＲＰＮロスレイヤをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルとこれに対応する原本正解とを参照して、一つ以上の第１ＲＰＮロスないし一つ以上の第ｎＲＰＮロスを取得させることにより、前記第１ＲＰＮロスないし前記第ｎＲＰＮロスを利用したバックプロパゲーションを通じて、前記ＲＰＮのパラメータのうち少なくとも一部を調整することを特徴とする。

一実施例において、前記（ａ）段階で、前記学習装置が前記イメージ加工ネットワークをもって、第１加工イメージないし前記第ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）させることを特徴とする。

一実施例において、前記学習装置が、前記イメージ加工ネットワークをもって、前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージのうち、隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする。

一実施例において、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを特徴とする。

一実施例において、前記（ａ）段階で、前記学習装置は前記ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージそれぞれに対するそれぞれのスケールヒストグラムを演算させ、前記スケールヒストグラムを参照することにより、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第１ターゲット領域ないし前記第ｎターゲット領域を予測させることを特徴とする。

一実施例において、前記（ａ）段階で、前記学習装置は、前記イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第１加工イメージないし前記第ｎ加工イメージを取得させるか、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第１加工イメージないし前記第ｎ加工イメージを取得させることを特徴とする。

一実施例において、前記第１ターゲット領域ないし前記第ｎターゲット領域は、前記トレーニングイメージ内に位置する前記ターゲット物体のうち互いに異なる多数のターゲット物体に対応するか、前記トレーニングイメージ及びこれに対応するリサイズ済みイメージ内に位置する少なくとも一つの同一のターゲット物体に対応することを特徴とする。

本発明の他の態様によると、イメージコンカチネーションを利用したＣＮＮ基盤物体検出器をテストする方法において、（ａ）学習装置が、（１）（ｉ）ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされた学習用イメージにおいて一つ以上の学習用ターゲット物体が位置するものと予測される領域に対応する第１学習用ターゲット領域ないし第ｎ学習用ターゲット領域それぞれを予測させ、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされた学習用イメージから前記第１学習用ターゲット領域ないし前記第ｎ学習用ターゲット領域それぞれに対応する第１学習用加工イメージないし第ｎ学習用加工イメージを取得させ、（ｉｉｉ）前記第１学習用加工イメージないし前記第ｎ学習用加工イメージをコンカチネートした統合トレーニングイメージを出力させ、（２）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力させ、（ｉｉ）ＲＰＮをもって、前記学習用統合特徴マップを利用して、前記第１学習用加工イメージないし前記第ｎ学習用加工イメージそれぞれ内に位置する一つ以上の学習用物体に対応する第１学習用物体プロポーザルないし第ｎ学習用物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記学習用物体に対応する第１学習用物体検出情報ないし第ｎ学習用物体検出情報を出力させ、（３）少なくとも一つのＦＣロスレイヤをもって、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して、一つ以上の第１ＦＣロスないし一つ以上の第ｎＦＣロスを取得させることにより、前記第１ＦＣロスないし前記第ｎＦＣロスを利用したバックプロパゲーションを通じて、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整した状態で、テスト装置が、少なくとも一つのテストイメージが取得されると、（ｉ）前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージで一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域ないし第ｎテスト用ターゲット領域それぞれを予測させ、（ｉｉ）前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージから、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域それぞれに対応する第１テスト用加工イメージないし第ｎテスト用加工イメージを取得させ、（ｉｉｉ）前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージをコンカチネートした統合テストイメージを出力させる段階；及び（ｂ）前記テスト装置が、（ｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力させ、（ｉｉ）前記ＲＰＮをもって、前記テスト用統合特徴マップを利用して、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージそれぞれ内に位置する一つ以上のテスト用物体に対応する第１テスト用物体プロポーザルないし第ｎテスト用物体プロポーザルそれぞれを出力させ、（ｉｉｉ）前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力させ、（ｉｖ）前記ＦＣレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１テスト用物体検出情報ないし第ｎテスト用物体検出情報を出力させる段階；を含むことを特徴とする方法が開示される。

一実施例において、前記（ａ）段階で、前記テスト装置が、前記イメージ加工ネットワークをもって、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージをコンカチネートさせることを特徴とする。

一実施例において、前記テスト装置が、前記イメージ加工ネットワークをもって、前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージのうち、隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする。

一実施例において、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを特徴とする。

一実施例において、前記（ａ）段階で、前記テスト装置は、前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージそれぞれに対するそれぞれのテスト用スケールヒストグラムを演算させ、前記テスト用スケールヒストグラムを参照することによって、前記テスト用ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域を予測させることを特徴とする。

一実施例において、前記（ａ）段階で、前記テスト装置は、前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージを取得させるか、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージを取得させることを特徴とする。

一実施例において、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域は、前記テストイメージ内に位置する前記テスト用ターゲット物体のうち互いに異なる多数のテスト用ターゲット物体に対応するか、又は前記テストイメージ及びこれに対応するリサイズされたテスト用イメージ内に位置する少なくとも一つの同一のテスト用ターゲット物体に対応することを特徴とする

本発明のまた他の態様によると、イメージコンカチネーションを利用した、ＣＮＮ基盤物体検出器のパラメータを学習するための学習装置において、インストラクションを格納する少なくとも一つのメモリと、（Ｉ）（ｉ）ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズ済みイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域ないし第ｎターゲット領域それぞれを予測させ、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージから、前記第１ターゲット領域ないし前記第ｎターゲット領域それぞれに対応する第１加工イメージないし第ｎ加工イメージを取得させ、（ｉｉｉ）前記第１加工イメージないし前記第ｎ加工イメージをコンカチネートした統合トレーニングイメージを出力させるプロセス、（ＩＩ）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力させ、（ｉｉ）ＲＰＮをもって、前記統合特徴マップを利用して、前記第１加工イメージないし前記第ｎ加工イメージそれぞれ内に位置する一つ以上の物体に対応する第１物体プロポーザルないし第ｎ物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記統合特徴マップ上で、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させるプロセス、及び（ＩＩＩ）少なくとも一つのＦＣロスレイヤをもって、前記第１物体検出情報ないし前記第ｎ物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して、一つ以上の第１ＦＣロスないし一つ以上の第ｎＦＣロスを取得させることにより、前記第１ＦＣロスないし前記第ｎＦＣロスを利用したバックプロパゲーションを通じて、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整するプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする学習装置が開示される。

一実施例において、前記プロセッサは、前記（ＩＩ）プロセス以後、少なくとも一つのＲＰＮロスレイヤをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルとこれに対応する原本正解とを参照して、一つ以上の第１ＲＰＮロスないし一つ以上の第ｎＲＰＮロスを取得させることにより、前記第１ＲＰＮロスないし前記第ｎＲＰＮロスを利用したバックプロパゲーションを通じて、前記ＲＰＮのパラメータのうち少なくとも一部を調整することを特徴とする。

一実施例において、前記プロセッサは、前記（Ｉ）プロセスにおいて、前記イメージ加工ネットワークをもって、前記第１加工イメージないし前記第ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）させることを特徴とする。

一実施例において、前記プロセッサは、前記イメージ加工ネットワークをもって、前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージのうち、隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする。

になるようにすることを特徴とする。

一実施例において、前記プロセッサは、前記（Ｉ）プロセスにおいて、前記ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージそれぞれに対するそれぞれのスケールヒストグラムを演算させ、前記スケールヒストグラムを参照することにより、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第１ターゲット領域ないし前記第ｎターゲット領域を予測させることを特徴とする。

一実施例において、前記プロセッサは、前記（Ｉ）プロセスにおいて、前記イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第１加工イメージないし前記第ｎ加工イメージを取得させるか、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第１加工イメージないし前記第ｎ加工イメージを取得させることを特徴とする。

本発明のまた他の態様によると、イメージコンカチネーションを利用した、ＣＮＮ基盤物体検出器をテストするためのテスト装置において、各インストラクションを格納する少なくとも一つのメモリと、学習装置が、（１）（ｉ）ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされた学習用イメージにおいて一つ以上の学習用ターゲット物体が位置するものと予測される領域に対応する第１学習用ターゲット領域ないし第ｎ学習用ターゲット領域それぞれを予測させ、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされた学習用イメージから前記第１学習用ターゲット領域ないし前記第ｎ学習用ターゲット領域それぞれに対応する第１学習用加工イメージないし第ｎ学習用加工イメージを取得させ、（ｉｉｉ）前記第１学習用加工イメージないし前記第ｎ学習用加工イメージをコンカチネートした統合トレーニングイメージを出力させ、（２）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力させ、（ｉｉ）ＲＰＮをもって、前記学習用統合特徴マップを利用して、前記第１学習用加工イメージないし前記第ｎ学習用加工イメージそれぞれ内に位置する一つ以上の学習用物体に対応する第１学習用物体プロポーザルないし第ｎ学習用物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記学習用物体に対応する第１学習用物体検出情報ないし第ｎ学習用物体検出情報を出力させ、（３）少なくとも一つのＦＣロスレイヤをもって、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して、一つ以上の第１ＦＣロスないし一つ以上の第ｎＦＣロスを取得させることにより、前記第１ＦＣロスないし前記第ｎＦＣロスを利用したバックプロパゲーションを通じて、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整した状態で、（Ｉ）（ｉ）前記ターゲット領域予測ネットワークをもって、少なくとも一つのテストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージで一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域ないし第ｎテスト用ターゲット領域それぞれを予測させ、（ｉｉ）前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージから前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域それぞれに対応する第１テスト用加工イメージないし第ｎテスト用加工イメージを取得させ、（ｉｉｉ）前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージをコンカチネートした統合テストイメージを出力させるプロセス、及び（ＩＩ）（ｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力させ、（ｉｉ）前記ＲＰＮをもって、前記テスト用統合特徴マップを利用して、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージそれぞれ内に位置する一つ以上のテスト用物体に対応する第１テスト用物体プロポーザルないし第ｎテスト用物体プロポーザルそれぞれを出力させ、（ｉｉｉ）前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力させ、（ｉｖ）前記ＦＣレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１テスト用物体検出情報ないし第ｎテスト用物体検出情報を出力させるプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とするテスト装置が開示される。

一実施例において、前記プロセッサは、前記（Ｉ）プロセスにおいて、前記イメージ加工ネットワークをもって、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージをコンカチネートさせることを特徴とする。

一実施例において、前記プロセッサは、前記イメージ加工ネットワークをもって、第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージのうち、隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする。

になるようにすることを特徴とする。

一実施例において、前記プロセッサは、前記（Ｉ）プロセスにおいて、前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージそれぞれに対するそれぞれのテスト用スケールヒストグラムを演算させ、前記テスト用スケールヒストグラムを参照することによって、前記テスト用ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域を予測させることを特徴とする。

一実施例において、前記プロセッサは、前記（Ｉ）プロセスにおいて、前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージを取得させるか、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージを取得させることを特徴とする。

一実施例において、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域は、前記テストイメージ内に位置する前記テスト用ターゲット物体のうち互いに異なる多数のテスト用ターゲット物体に対応するか、又は前記テストイメージ及びこれに対応するリサイズされたテスト用イメージ内に位置する少なくとも一つの同一のテスト用ターゲット物体に対応することを特徴とする。

この他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体（ｒｅｃｏｒｄａｂｌｅｍｅｄｉａ）がさらに提供される。

本発明は、イメージ上に位置する物体をサイズに関係なく効果的に検出することができる効果がある。

また、本発明は、演算量を増加させずに、かつ前記イメージ内の物体を検出することができる効果がある。

また、本発明は、サイズが様々な物体に対応するターゲット領域を利用して、ＣＮＮの演算量を減らし、かつ効果的に物体を検出することができる効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるにすぎず、本発明の属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。

は本発明の一実施例によるイメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）を利用した、ＣＮＮ基盤物体検出器を学習する学習装置を簡略に示した図面である。本発明の一実施例による前記イメージコンカチネーションを利用した、前記ＣＮＮ基盤物体検出器を学習する方法を簡略に示した図面である。本発明の一実施例による前記イメージコンカチネーションを利用した、前記ＣＮＮ基盤物体検出器を学習するのに使用されるイメージピラミッド上でそれぞれのターゲット領域を予測する状態を簡略に示した図面である。本発明の一実施例による前記イメージコンカチネーションを利用した、前記ＣＮＮ基盤物体検出器を学習するのに利用されるそれぞれのターゲット領域に対応して加工されたイメージをコンカチネートした状態を簡略に示した図面である。本発明の一実施例による前記イメージコンカチネーションを利用した、前記ＣＮＮ基盤物体検出器のテスト装置を簡略に示した図面である。本発明の一実施例による前記イメージコンカチネーションを利用した、前記ＣＮＮ基盤の物体検出器をテストする方法を簡略に示したものである。

後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に表示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施させるために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。

図１は、本発明の一実施例によるイメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）を利用した、ＣＮＮ基盤物体検出器を学習する学習装置を簡略に示したものであり、図１を参照すると、前記学習装置１００は、通信部１１０とプロセッサ１２０を含むことができる。

まず、前記通信部１１０は、少なくとも一つのトレーニングイメージを取得するか、又は他の装置をもって取得し得るように支援することができる。

この際、前記トレーニングイメージは、データベース１３０に格納され得、前記データベース１３０は、前記トレーニングイメージに位置する一つ以上の物体それぞれに対応するクラス情報及び位置情報に対する少なくとも一つの原本正解（ｇｒｏｕｎｄｔｒｕｔｈ）を格納することができる。また、前記データベース１３０は、前記トレーニングイメージをリサイズして生成された、リサイズ済みイメージ内に位置する前記物体それぞれに関する位置情報及びクラス情報に関する少なくとも一つの原本正解を格納することができる。

また、前記学習装置は後述されるプロセスを遂行するコンピュータ読取り可能なインストラクション（ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｉｎｓｔｒｕｃｔｉｏｎ）を格納することが可能なメモリ１１５をさらに含むことができる。一例として、前記プロセッサ、前記メモリ、及び媒体等は、一つのプロセッサとして統合されて機能することもできる。

次に、前記プロセッサ１２０は、（ｉ）ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズ済みイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域ないし第ｎターゲット領域それぞれを予測させ、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージから、前記第１ターゲット領域ないし前記第ｎターゲット領域それぞれに対応する第１加工イメージないし第ｎ加工イメージを取得させ、（ｉｉｉ）前記第１加工イメージないし前記第ｎ加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）した統合トレーニングイメージを出力させることができる。そして、前記プロセッサ１２０は、（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力させ、（ｉｉ）ＲＰＮをもって、前記統合特徴マップを利用して、前記第１加工イメージないし前記第ｎ加工イメージそれぞれ内に位置する前記物体に対応する第１物体プロポーザルないし第ｎ物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記統合特徴マップ上で、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させることができる。以後、前記プロセッサ１２０は、少なくとも一つのＦＣロスレイヤをもって、前記第１物体検出情報ないし前記第ｎ物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して、一つ以上の第１ＦＣロスないし一つ以上の第ｎＦＣロスを取得させることにより、前記第１ＦＣロスないし前記第ｎＦＣロスを利用したバックプロパゲーションを通じて、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整させることができる。

また、前記プロセッサ１２０は、少なくとも一つのＲＰＮロスレイヤをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルとこれに対応する原本正解とを参照して、一つ以上の第１ＲＰＮロスないし一つ以上の第ｎＲＰＮロスを取得させることにより、前記第１ＲＰＮロスないし前記第ｎＲＰＮロスを利用したバックプロパゲーションを通じて、前記ＲＰＮのパラメータのうち少なくとも一部を調整させることができる。

この際、本発明の一実施例による前記学習装置１００は、コンピュータ装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明による学習装置１００として採択され得る。また、図１では一つの学習装置１００のみを示したが、これに限定されず、前記学習装置は複数個に分けて役割を遂行することもできる。

このように構成された本発明の一実施例による前記学習装置１００を利用して、前記イメージコンカチネーションを利用したＣＮＮ基盤物体検出器のパラメータを学習する方法を図２を参照して説明すると以下のとおりである。

まず、前記トレーニングイメージが入力されると、前記学習装置１００が、ターゲット領域予測ネットワーク１２１をもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上に少なくとも一つのターゲット物体が位置するものと予測される少なくとも一つの領域に対応する前記第１ターゲット領域ないし前記第ｎターゲット領域を予測させる。

この際、前記第１ターゲット領域ないし前記第ｎターゲット領域は、同一のイメージ内に位置する前記ターゲット物体のうち互いに異なる複数のターゲット物体に対応するか、互いに異なるサイズの複数のイメージ内に位置する同一のターゲット物体に対応し得る。また、前記第１ターゲット領域ないし前記第ｎターゲット領域は、同一のイメージのサイズを互いに異なるようにした前記イメージピラミッドのうちそれぞれのイメージ内に位置すると予測されるターゲット物体に対応し得る。

つまり、前記ターゲット領域予測ネットワーク１２１は、前記トレーニングイメージ内、第１ターゲット物体ないし第ｎターゲット物体が位置するものと予測される領域に対応する、前記第１ターゲット領域ないし前記第ｎターゲット領域を探し出すか、又は前記トレーニングイメージをリサイズして得た第１リサイズ済みイメージないし第ｎリサイズ済みイメージそれぞれに、少なくとも一つの特定ターゲット物体が位置するものと予測される領域に対応する、前記第１ターゲット領域それぞれないし前記第ｎターゲット領域それぞれを探し出すことができる。

また、前記ターゲット領域予測ネットワーク１２１は、前記トレーニングイメージに、単一のターゲット物体が位置するものと予測される領域に対応する特定のターゲット領域を探し出し、前記トレーニングイメージをリサイズして得た前記第１リサイズ済みイメージないし前記第ｎリサイズ済みイメージそれぞれに、前記単一のターゲット物体が位置するものと予測される領域に対応する、前記第１ターゲット領域それぞれないし前記第ｎターゲット領域を探し出すことができる。これに加えて、前記トレーニングイメージ内に多数のターゲット物体が位置する場合、前記リサイズ済みイメージそれぞれにおいて前記ターゲット物体に対応する前記ターゲット領域を予測することができる。

一方、前記ターゲット領域予測ネットワーク１２１は、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージそれぞれに対するそれぞれのスケールヒストグラムを演算し、前記スケールヒストグラムを参照することによって、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第１ターゲット領域ないし前記第ｎターゲット領域を予測することができる。

また、前記ターゲット領域予測ネットワーク１２１は、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージそれぞれに対してセグメンテーションを遂行し、前記セグメンテーションを基盤として前記ターゲット領域を探し出すためのシード（ｓｅｅｄ）を設定した後、小さなターゲット領域が繰り返し統合された統合領域を参照して前記ターゲット領域を設定することができる。

また、前記ターゲット領域予測ネットワーク１２１は、フォアグラウンドセグメンテーション（ｆｏｒｅｇｒｏｕｎｄｓｅｇｍｅｎｔａｔｉｏｎ）を通じてイメージ上のフォアグラウンドを確認し、前記確認されたフォアグラウンドを参照して、少なくとも一つのターゲット物体が位置するものと予測され、前記少なくとも一つのターゲット物体を含むものと予測されるサイズの、少なくとも一つの領域を少なくとも一つのターゲット領域に設定することができる。

これに加えて、前記ターゲット領域予測ネットワーク１２１は、重要度検出（ｓａｌｉｅｎｃｙｄｅｔｅｃｔｉｏｎ）方法を利用して、一つ以上のターゲット領域を設定することができる。

しかし、本願発明はこれに限定されず、イメージ内のターゲット物体が位置すると予測されるターゲット領域を探し出すすべての方法が使用され得る。

次に、前記学習装置１００は、イメージ加工ネットワーク１１１をもって、前記ターゲット領域予測ネットワーク１２１で設定された第１ターゲット領域ないし第ｎターゲット領域それぞれに対応する前記トレーニングイメージまたはそれぞれのこれに対応するリサイズ済みイメージ上で、前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する第１加工イメージないし第ｎ加工イメージを取得させる。

この際、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する一つ以上の領域をクロップして、前記第１加工イメージないし前記第ｎ加工イメージを取得させるか、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する一つ以上の領域をクロップした後、リサイズして、前記第１加工イメージないし前記第ｎ加工イメージを取得させることができる。

一例として、図３を参照すると、前記第１ターゲット領域を含む前記第１リサイズ済みイメージＲＩ１を前記第１加工イメージＭＩ１として取得することができ、前記第２ターゲット領域に対応する前記第２加工イメージＭＩ２は、前記第２リサイズ済みイメージＲＩ２から生成され得、第３ターゲット領域に対応する前記第３加工イメージＭＩ３は、第３リサイズ済みイメージから生成され得る。

次に、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記第１加工イメージないし前記第３加工イメージをコンカチネートした前記統合トレーニングイメージを取得させることができる。

この際、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記第１加工イメージないし前記第３加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第１調整済み加工イメージないし前記第３調整済み加工イメージをコンカチネートさせることができる。

そして、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記第１調整済み加工イメージないし前記第３調整済み加工イメージのうち、隣接するそれぞれの二つの調整済み加工イメージで構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加させることができる。この際、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

となるようにすることができる。これを通じて、前記ＣＮＮのオーバーヘッド（ｏｖｅｒｈｅａｄ）を最小化することができる。

一例として、図４を参照すると、図３の過程を通じて生成された前記第１加工イメージＭＩ１、前記第２加工イメージＭＩ２、及び前記第３加工イメージＭＩ３は、互いに高さが同じに調整された後、コンカチネートされ得る。その際、それぞれのゼロパディング領域（ＰＲ）は、それぞれの前記隣接した調整済み加工イメージの間に追加され得る。他の例示として、前記加工イメージの幅を同一に調整した後、前記調整された幅を利用して前記それぞれの加工イメージをコンカチネートするか、又は前記幅と前記高さとを同一に調整した後、前記それぞれの加工イメージを大きな正方形状にコンカチネートすることができる。

次に、前記学習装置１００は、コンボリューションレイヤ１２２をもって、前記統合トレーニングイメージに前記コンボリューション演算を適用することにより、少なくとも一つの統合特徴マップを出力させることができる。この際、前記コンボリューションレイヤ１２２は、単一のコンボリューションレイヤでもあり得、多数のコンボリューションレイヤでもあり得る。

次に、前記学習装置１００は、ＲＰＮ１２３をもって、前記統合ピッチャーマップを利用して、前記統合トレーニングイメージに含まれた前記第１加工イメージないし前記第ｎ加工イメージ内に位置する前記物体に対応する一つ以上の第１物体プロポーザルないし一つ以上の第ｎ物体プロポーザルを出力させることができる。

この際、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれは、前記第１加工イメージないし前記第ｎ加工イメージ内に位置する前記物体それぞれに対応することができ、前記物体プロポーザルそれぞれは、前記物体それぞれ、すなわち、タグ付けされた領域に対応する位置情報と、前記タグ付けされた領域それぞれが物体であるか否かに関する情報を有する各プロポーザルボックスに関する情報とを含むことができる。この際、物体であるか否かに関する情報は、前記それぞれの物体プロポーザルが物体と予測される確率情報を含むことができ、前記プロポーザルボックスに関する情報は、前記プロポーザルボックスが前記物体の位置に一致するものと予測される確率情報を含むことができる。

次に、前記学習装置１００は、プーリングレイヤ１２４をもって、前記統合特徴マップ上で前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、ＦＣレイヤ１２５をもって、前記プーリング済み統合特徴マップに前記ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させることができる。

この際、前記第１物体検出情報ないし前記第ｎ物体検出情報は、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルに対応する前記物体それぞれに関するクラス情報とバウンディングボックスに関する情報（つまり、前記物体それぞれに関する位置情報）を含むことができる。また、前記クラス情報は、前記物体それぞれが当該クラスと予測される確率情報を含むことができ、前記バウンディングボックスに関する情報は、前記バウンディングボックスそれぞれが前記物体の位置に一致するものと予測される確率情報を含むことができる。

次に、前記学習装置１００は、少なくとも一つのＦＣロスレイヤ１２６をもって、前記第１物体検出情報ないし前記第ｎ物体検出情報とこれに対応する原本正解とを参照して、一つ以上の第１ＦＣロスないし一つ以上の第ｎＦＣロスを取得させることにより、前記第１ＦＣロスないし前記第ｎＦＣロスを利用したバックプロパゲーションを通じて、前記ＦＣレイヤ１２５及び前記コンボリューションレイヤ１２２のパラメータのうち少なくとも一部を調整させることができる。

また、前記学習装置１００は、少なくとも一つのＲＰＮロスレイヤ１２７をもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルとこれに対応する原本正解とを参照して、一つ以上の第１ＲＰＮロスないし一つ以上の第ｎＲＰＮロスを取得させることにより、前記第１ＲＰＮロスないし前記第ｎＲＰＮロスを利用したバックプロパゲーションを通じて、前記ＲＰＮ１２３のパラメータのうち少なくとも一部を調整させることができる。

前記のような方法により、前記トレーニングイメージ内に位置するサイズが様々な物体、特にサイズが小さく遠距離に位置する前記物体は効率的に検出することが可能となり、また、前記予測されたターゲット領域に対応する領域のみを使用するので演算量を減らすことができ、それに伴って前記ＣＮＮ基盤の前記物体検出の演算時間を減らすことが可能となる。

また、前記では前記トレーニングイメージ上にターゲット物体が一つである場合を想定して説明したが、前記トレーニングイメージ内にターゲット物体が多数存在する場合にも、前記トレーニングイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して前記それぞれのターゲット物体の検出が可能である。

図５は、本発明の一実施例による前記イメージコンカチネーションを利用した、前記ＣＮＮ基盤物体検出器をテストするテスト装置を簡略に示したものであり、図５を参照すると、前記テスト装置２００は、通信部２１０とプロセッサ２２０とを含むことができる。

まず、前記通信部２１０は、少なくとも一つのテストイメージを取得するか、又は他の装置をもって取得し得るように支援することができる。

また、前記テスト装置は後述するプロセスを遂行するコンピュータ読取り可能なインストラクション（ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｉｎｓｔｒｕｃｔｉｏｎ）を格納することができるメモリ２１５をさらに含むことができる。一例として、前記プロセッサ、前記メモリ、及び媒体（ｍｅｄｉｕｍ）等は、一つのプロセッサとして統合されて機能することもできる。

この際、前記イメージコンカチネーションを利用した、前記ＣＮＮの基盤の前記物体検出器は、図１ないし図４を参照して説明された前記学習方法で学習され得る。
参考までに、以下の説明で混同を防止するために、学習プロセスに関連する用語には「学習用」という文言が追加され、テストプロセスに関連する用語には「テスト用」という文言が追加された。

つまり、少なくとも一つのトレーニングイメージが取得されると、前記学習装置は、（ａ）（ｉ）前記ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズされた学習用イメージにおいて一つ以上の学習用ターゲット物体が位置するものと予測される領域に対応する第１学習用ターゲット領域ないし第ｎ学習用ターゲット領域それぞれを予測させ、（ｉｉ）前記イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされた学習用イメージから前記第１学習用ターゲット領域ないし前記第ｎ学習用ターゲット領域それぞれに対応する第１学習用加工イメージないし第ｎ学習用加工イメージを取得させ、（ｉｉｉ）前記第１学習用加工イメージないし前記第ｎ学習用加工イメージをコンカチネートした統合トレーニングイメージを出力させ、（ｂ）（ｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力させ、（ｉｉ）前記ＲＰＮをもって、前記学習用統合特徴マップを利用して、前記第１学習用加工イメージないし前記第ｎ学習用加工イメージそれぞれ内に位置する一つ以上の学習用物体に対応する第１学習用物体プロポーザルないし第ｎ学習用物体プロポーザルそれぞれを出力させ、（ｉｉｉ）前記プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、（ｉｖ）前記ＦＣレイヤをもって、前記学習用プーリング済み統合特徴マップに前記ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記学習用物体に対応する第１学習用物体検出情報ないし第ｎ学習用物体検出情報を出力させ、（ｃ）前記ＦＣロスレイヤをもって、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して、一つ以上の第１ＦＣロスないし一つ以上の第ｎＦＣロスを算出させることにより、前記第１ＦＣロスないし前記第ｎＦＣロスを利用したバックプロパゲーションを通じて、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整させた状態であり得る。

また、前記学習装置が、前記ＲＰＮロスレイヤをもって、第１トレーニング用物体プロポーザルないし第ｎトレーニング用物体プロポーザルの情報とこれにそれぞれ対応する原本正解とを参照して第１ＲＰＮロスないし第ｎＲＰＮロスを取得させることにより、前記第１ＲＰＮロスないし前記第ｎＲＰＮロスを利用したバックプロパゲーションを通じて、前記ＲＰＮのパラメータを調整した状態であり得る。
次に、前記プロセッサ２２０は、（ｉ）前記ターゲット領域予測ネットワークをもって、少なくとも一つのテストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージで一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域ないし第ｎテスト用ターゲット領域それぞれを予測させ、（ｉｉ）前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージから前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域それぞれに対応する第１テスト用加工イメージないし第ｎテスト用加工イメージを取得させ、（ｉｉｉ）前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージをコンカチネートした統合テストイメージを出力させるプロセスを遂行することができる。そして、前記プロセッサ２２０は、（ｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力させ、（ｉｉ）前記ＲＰＮをもって、前記テスト用統合特徴マップを利用して、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージそれぞれ内に位置する一つ以上のテスト用物体に対応する第１テスト用物体プロポーザルないし第ｎテスト用物体プロポーザルそれぞれを出力させ、（ｉｉｉ）前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリングされた統合特徴マップを出力させ、（ｉｖ）前記ＦＣレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１テスト用物体検出情報ないし第ｎテスト用物体検出情報を出力させることができる。

この際、本発明の一実施例によるテスト装置２００は、コンピュータ装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明によるテスト装置２００として採択され得る。また、図６では一つのテスト装置２００のみを示したが、これに限定されず、テスト装置は複数個に分けて役割を遂行することもできる。

本発明の一実施例による前記テスト装置２００を利用して、前記イメージコンカチネーションを利用した前記ＣＮＮの基盤の前記物体検出器をテストする方法を図６を参照して説明すると以下のとおりである。以下の説明で、図１ないし図４を参照して説明した前記学習方法で容易に理解可能な部分については、詳細な説明を省略することにする。

まず、図１ないし図４を参照して説明した学習方法によってＦＣレイヤ２２５、コンボリューションレイヤ２２２及びＲＰＮ２２３のパラメータのうち少なくとも一部が学習された状態で、前記テストイメージが入力されると、前記テスト装置２００がターゲット領域予測ネットワーク２２１をもって、前記テストイメージまたはこれに対応するリサイズ済みイメージにおいて前記テスト用ターゲット物体が位置するものと予測される少なくとも一つの領域に対応する前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域を探すようにすることができる。

この際、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域は、同一のテストイメージ内に位置する前記テスト用ターゲット物体のうち互いに異なる複数のテスト用ターゲット物体に対応するか、又は互いに異なるサイズの複数のイメージ内に位置する同一のテスト用ターゲット物体に対応し得る。また、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域は、同一のイメージのサイズを互いに異にした前記イメージピラミッドのうちそれぞれのイメージ内に位置するものと予測されるテスト用ターゲット物体に対応し得る。

つまり、前記ターゲット領域予測ネットワーク２２１は、前記テストイメージ内に、第１テスト用ターゲット物体ないし第ｎテスト用ターゲット物体が位置するものと予測される領域に対応する、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域を探し出すか、又は前記テストイメージをリサイズして得た第１テスト用リサイズ済みイメージないし第ｎテスト用リサイズ済みイメージそれぞれに、少なくとも一つの特定のテスト用ターゲット物体が位置するものと予測される領域に対応する、前記第１テスト用ターゲット領域それぞれないし前記第ｎテスト用ターゲット領域それぞれを探し出すことができる。また、前記ターゲット領域予測ネットワーク２２１は、前記テストイメージに、単一のターゲット物体が位置するものと予測される領域に対応する、特定のターゲット領域を探し出し、前記テストイメージをリサイズして得た第１テスト用リサイズ済みイメージないし第ｎテスト用リサイズ済みイメージそれぞれに、前記単一のテスト用ターゲット物体が位置するものと予測される領域に対応する、前記第１テスト用ターゲット領域それぞれないし前記第ｎテスト用ターゲット領域を探し出すことができる。これに加えて、前記テストイメージ内に多数のテスト用ターゲット物体が位置する場合、前記テストイメージのリサイズ済みイメージそれぞれにおいて、前記テスト用ターゲット物体に対応する前記テスト用ターゲット領域を予測することができる。

次に、前記テスト装置２００は、前記イメージ加工ネットワーク２１１をもって、前記ターゲット領域予測ネットワーク２２１で設定された第１テスト用ターゲット領域ないし第ｎテスト用ターゲット領域それぞれに対応する前記テストイメージまたはそれぞれのこれに対応するリサイズ済みイメージ上で、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する第１テスト用加工イメージないし第ｎテスト用加工イメージを取得させる。

この際、前記テスト装置２００は、前記イメージ加工ネットワーク２１１をもって、前記テストイメージまたはこれに対応するリサイズ済みイメージ上で前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する一つ以上の領域をクロップして、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージを取得させるか、前記テストイメージまたはこれに対応するリサイズ済みイメージ上で前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する一つ以上の領域をクロップした後、リサイズして、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージを取得させることができる。

次に、前記テスト装置２００は、前記イメージ加工ネットワーク２１１をもって、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージをコンカチネートした前記統合テストイメージを取得させることができる。

この際、前記テスト装置２００は、前記イメージ加工ネットワーク２１１をもって、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージをコンカチネートさせることができる。

そして、前記テスト装置２００は、前記イメージ加工ネットワーク２１１をもって、前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージのうち、隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加させることができる。この際、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることができる。

次に、前記テスト装置２００は、前記コンボリューションレイヤ２２２をもって、前記統合テストイメージに前記コンボリューション演算を適用することにより、少なくとも一つのテスト用統合特徴マップを出力させることができる。この際、前記コンボリューションレイヤ２２２は、単一のコンボリューションレイヤでもあり得、多数のコンボリューションレイヤでもあり得る。

次に、前記テスト装置２００は、前記ＲＰＮ２２３をもって、前記テスト用統合ピッチャーマップを利用して、前記統合テストイメージに含まれた前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージ内に位置する前記テスト用物体に対応する一つ以上の第１テスト用物体プロポーザルないし一つ以上の第ｎテスト用物体プロポーザルを出力させることができる。

この際、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれは、前記テスト用物体それぞれ、つまり、タグ付けされた領域に対応する位置情報と、前記タグ付けされた領域が物体であるか否かに関する情報を有する各プロポーザルボックスに関する情報とを含むことができる。

次に、前記テスト装置２００は、プーリングレイヤ２２４をもって、前記テスト用統合特徴マップ上で、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力させ、前記ＦＣレイヤ２２５をもって、前記テスト用プーリング済み統合特徴マップに前記ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記テスト用物体に対応する第１テスト用物体検出情報ないし第ｎテスト用物体検出情報を出力させることができる。

この際、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報は、テスト用バウンディングボックスに関する情報（すなわち、前記テスト用物体それぞれに関する位置情報）及び前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルに対応する前記テスト用物体それぞれに関するクラス情報を含むことができる。

前記のような方法により、前記テストイメージ内に位置するサイズが様々な物体、特にサイズが小さく遠距離に位置する前記物体は効率的に検出することが可能となり、また、前記予測されたターゲット領域に対応する領域のみを使用するので演算量を減らすことができ、それに伴って前記ＣＮＮ基盤の前記物体検出の演算時間を減らすことが可能となる。

また、上記では前記テストイメージ上にターゲット物体が一つである場合を想定して説明したが、前記テストイメージ内にターゲット物体多数がある場合にも、上記のような方法により前記テストイメージ内における前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して前記それぞれのターゲット物体の検出が可能である。

前記ＣＮＮは、核心成果指標（ＫＰＩ）のようなユーザ要求事項に適応することが可能である。すなわち、前記ＫＰＩによる解像度や焦点距離（ｆｏｃａｌｌｅｎｇｔｈ）が変わるようになるに伴って、物体サイズが変われば前記ＣＮＮの再設計が可能である。このようなＣＮＮを利用して、ハードウェアは処理速度が向上し、最適化され得る。

本発明によると、イメージコンカチネーションを利用するＣＮＮ基盤のハードウェア最適化が可能な前記物体検出器は、軍事目的又は遠距離にある物体検出のために使用することができるようになる。

以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計されて構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカル・ディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光メディア（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記各実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

イメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）を利用した、ＣＮＮ基盤物体検出器のパラメータを学習する方法において、
（ａ）少なくとも一つのトレーニングイメージが入力されると、学習装置が、（ｉ）ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズ済みイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域ないし第ｎターゲット領域それぞれを予測させ、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージから、前記第１ターゲット領域ないし前記第ｎターゲット領域それぞれに対応する第１加工イメージないし第ｎ加工イメージを取得させ、（ｉｉｉ）前記第１加工イメージないし前記第ｎ加工イメージをコンカチネートした統合トレーニングイメージを出力させる段階；
（ｂ）前記学習装置が、（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力させ、（ｉｉ）ＲＰＮをもって、前記統合特徴マップを利用して、前記第１加工イメージないし前記第ｎ加工イメージそれぞれ内に位置する一つ以上の物体に対応する第１物体プロポーザルないし第ｎ物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記統合特徴マップ上で、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させる段階；及び
（ｃ）前記学習装置が、少なくとも一つのＦＣロスレイヤをもって、前記第１物体検出情報ないし前記第ｎ物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して、一つ以上の第１ＦＣロスないし一つ以上の第ｎＦＣロスを取得させることにより、前記第１ＦＣロスないし前記第ｎＦＣロスを利用したバックプロパゲーションを通じて、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整させる段階；
を含むことを特徴とする方法。
前記（ｂ）段階以後、
前記学習装置が、少なくとも一つのＲＰＮロスレイヤをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルとこれに対応する原本正解とを参照して、一つ以上の第１ＲＰＮロスないし一つ以上の第ｎＲＰＮロスを取得させることにより、前記第１ＲＰＮロスないし前記第ｎＲＰＮロスを利用したバックプロパゲーションを通じて、前記ＲＰＮのパラメータのうち少なくとも一部を調整することを特徴とする請求項１に記載の方法。
前記（ａ）段階で、
前記学習装置が、前記イメージ加工ネットワークをもって、第１加工イメージないし前記第ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）させることを特徴とする請求項１に記載の方法。
前記学習装置が、前記イメージ加工ネットワークをもって、前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージのうち、隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加させることを特徴とする請求項３に記載の方法。
前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを特徴とする請求項４に記載の方法。
前記（ａ）段階で、
前記学習装置は、前記ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージそれぞれに対するそれぞれのスケールヒストグラムを演算させ、前記スケールヒストグラムを参照することにより、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第１ターゲット領域ないし前記第ｎターゲット領域を予測させることを特徴とする請求項１に記載の方法。
前記（ａ）段階で、
前記学習装置は、前記イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第１加工イメージないし前記第ｎ加工イメージを取得させるか、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第１加工イメージないし前記第ｎ加工イメージを取得させることを特徴とする請求項１に記載の方法。
前記第１ターゲット領域ないし前記第ｎターゲット領域は、前記トレーニングイメージ内に位置する前記ターゲット物体のうち互いに異なる多数のターゲット物体に対応するか、前記トレーニングイメージ及びこれに対応するリサイズ済みイメージ内に位置する少なくとも一つの同一のターゲット物体に対応することを特徴とする請求項１に記載の方法。
イメージコンカチネーションを利用したＣＮＮ基盤物体検出器をテストする方法において、
（ａ）学習装置が、（１）（ｉ）ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされた学習用イメージにおいて一つ以上の学習用ターゲット物体が位置するものと予測される領域に対応する第１学習用ターゲット領域ないし第ｎ学習用ターゲット領域それぞれを予測させ、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされた学習用イメージから前記第１学習用ターゲット領域ないし前記第ｎ学習用ターゲット領域それぞれに対応する第１学習用加工イメージないし第ｎ学習用加工イメージを取得させ、（ｉｉｉ）前記第１学習用加工イメージないし前記第ｎ学習用加工イメージをコンカチネートした統合トレーニングイメージを出力させ、（２）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力させ、（ｉｉ）ＲＰＮをもって、前記学習用統合特徴マップを利用して、前記第１学習用加工イメージないし前記第ｎ学習用加工イメージそれぞれ内に位置する一つ以上の学習用物体に対応する第１学習用物体プロポーザルないし第ｎ学習用物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記学習用物体に対応する第１学習用物体検出情報ないし第ｎ学習用物体検出情報を出力させ、（３）少なくとも一つのＦＣロスレイヤをもって、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して、一つ以上の第１ＦＣロスないし一つ以上の第ｎＦＣロスを取得させることにより、前記第１ＦＣロスないし前記第ｎＦＣロスを利用したバックプロパゲーションを通じて、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整した状態で、テスト装置が、少なくとも一つのテストイメージが取得されると、（ａ−ｉ）前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージで一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域ないし第ｎテスト用ターゲット領域それぞれを予測させ、（ａ−ｉｉ）前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージから、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域それぞれに対応する第１テスト用加工イメージないし第ｎテスト用加工イメージを取得させ、（ａ−ｉｉｉ）前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージをコンカチネートした統合テストイメージを出力させる段階；及び
（ｂ）前記テスト装置が、（ｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力させ、（ｉｉ）前記ＲＰＮをもって、前記テスト用統合特徴マップを利用して、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージそれぞれ内に位置する一つ以上のテスト用物体に対応する第１テスト用物体プロポーザルないし第ｎテスト用物体プロポーザルそれぞれを出力させ、（ｉｉｉ）前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力させ、（ｉｖ）前記ＦＣレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１テスト用物体検出情報ないし第ｎテスト用物体検出情報を出力させる段階；
を含むことを特徴とする方法。
前記（ａ）段階で、
前記テスト装置が、前記イメージ加工ネットワークをもって、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージをコンカチネートさせることを特徴とする請求項９に記載の方法。
前記テスト装置が、前記イメージ加工ネットワークをもって、前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージのうち、隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする請求項１０に記載の方法。
前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを特徴とする請求項１１に記載の方法。
前記（ａ）段階で、
前記テスト装置は、前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージそれぞれに対するそれぞれのテスト用スケールヒストグラムを演算させ、前記テスト用スケールヒストグラムを参照することによって、前記テスト用ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域を予測させることを特徴とする請求項９に記載の方法。
前記（ａ）段階で、
前記テスト装置は、前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージを取得させるか、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージを取得させることを特徴とする請求項９に記載の方法。
前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域は、前記テストイメージ内に位置する前記テスト用ターゲット物体のうち互いに異なる多数のテスト用ターゲット物体に対応するか、又は前記テストイメージ及びこれに対応するリサイズされたテスト用イメージ内に位置する少なくとも一つの同一のテスト用ターゲット物体に対応することを特徴とする請求項９に記載の方法。
イメージコンカチネーションを利用した、ＣＮＮ基盤物体検出器のパラメータを学習するための学習装置において、
インストラクションを格納する少なくとも一つのメモリと、
（Ｉ）（ｉ）ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズ済みイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域ないし第ｎターゲット領域それぞれを予測させ、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージから、前記第１ターゲット領域ないし前記第ｎターゲット領域それぞれに対応する第１加工イメージないし第ｎ加工イメージを取得させ、（ｉｉｉ）前記第１加工イメージないし前記第ｎ加工イメージをコンカチネートした統合トレーニングイメージを出力させるプロセス、（ＩＩ）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力させ、（ｉｉ）ＲＰＮをもって、前記統合特徴マップを利用して、前記第１加工イメージないし前記第ｎ加工イメージそれぞれ内に位置する一つ以上の物体に対応する第１物体プロポーザルないし第ｎ物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記統合特徴マップ上で、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させるプロセス、及び（ＩＩＩ）少なくとも一つのＦＣロスレイヤをもって、前記第１物体検出情報ないし前記第ｎ物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して、一つ以上の第１ＦＣロスないし一つ以上の第ｎＦＣロスを取得させることにより、前記第１ＦＣロスないし前記第ｎＦＣロスを利用したバックプロパゲーションを通じて、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整するプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする学習装置。
前記プロセッサは、
前記（ＩＩ）プロセス以後、少なくとも一つのＲＰＮロスレイヤをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルとこれに対応する原本正解とを参照して、一つ以上の第１ＲＰＮロスないし一つ以上の第ｎＲＰＮロスを取得させることにより、前記第１ＲＰＮロスないし前記第ｎＲＰＮロスを利用したバックプロパゲーションを通じて、前記ＲＰＮのパラメータのうち少なくとも一部を調整することを特徴とする請求項１６に記載の学習装置。
前記プロセッサは、
前記（Ｉ）プロセスにおいて、前記イメージ加工ネットワークをもって、前記第１加工イメージないし前記第ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）させることを特徴とする請求項１６に記載の学習装置。
前記プロセッサは、前記イメージ加工ネットワークをもって、前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージのうち、隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする請求項１８に記載の学習装置。
前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを特徴とする請求項１９に記載の学習装置。
前記プロセッサは、
前記（Ｉ）プロセスにおいて、前記ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージそれぞれに対するそれぞれのスケールヒストグラムを演算させ、前記スケールヒストグラムを参照することにより、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第１ターゲット領域ないし前記第ｎターゲット領域を予測させることを特徴とする請求項１６に記載の学習装置。
前記プロセッサは、
前記（Ｉ）プロセスにおいて、前記イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第１加工イメージないし前記第ｎ加工イメージを取得させるか、前記トレーニングイメージまたはこれに対応するリサイズ済みイメージ上で前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第１加工イメージないし前記第ｎ加工イメージを取得させることを特徴とする請求項１６に記載の学習装置。
前記第１ターゲット領域ないし前記第ｎターゲット領域は、前記トレーニングイメージ内に位置する前記ターゲット物体のうち互いに異なる多数のターゲット物体に対応するか、前記トレーニングイメージ及びこれに対応するリサイズ済みイメージ内に位置する少なくとも一つの同一のターゲット物体に対応することを特徴とする請求項１６に記載の学習装置。
イメージコンカチネーションを利用した、ＣＮＮ基盤物体検出器をテストするためのテスト装置において、
各インストラクションを格納する少なくとも一つのメモリと、
学習装置が、（１）（ｉ）ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされた学習用イメージにおいて一つ以上の学習用ターゲット物体が位置するものと予測される領域に対応する第１学習用ターゲット領域ないし第ｎ学習用ターゲット領域それぞれを予測させ、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされた学習用イメージから前記第１学習用ターゲット領域ないし前記第ｎ学習用ターゲット領域それぞれに対応する第１学習用加工イメージないし第ｎ学習用加工イメージを取得させ、（ｉｉｉ）前記第１学習用加工イメージないし前記第ｎ学習用加工イメージをコンカチネートした統合トレーニングイメージを出力させ、（２）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力させ、（ｉｉ）ＲＰＮをもって、前記学習用統合特徴マップを利用して、前記第１学習用加工イメージないし前記第ｎ学習用加工イメージそれぞれ内に位置する一つ以上の学習用物体に対応する第１学習用物体プロポーザルないし第ｎ学習用物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記学習用物体に対応する第１学習用物体検出情報ないし第ｎ学習用物体検出情報を出力させ、（３）少なくとも一つのＦＣロスレイヤをもって、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報とこれに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して、一つ以上の第１ＦＣロスないし一つ以上の第ｎＦＣロスを取得させることにより、前記第１ＦＣロスないし前記第ｎＦＣロスを利用したバックプロパゲーションを通じて、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータのうち少なくとも一部を調整した状態で、（Ｉ）（ｉ）前記ターゲット領域予測ネットワークをもって、少なくとも一つのテストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージで一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域ないし第ｎテスト用ターゲット領域それぞれを予測させ、（ｉｉ）前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージから前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域それぞれに対応する第１テスト用加工イメージないし第ｎテスト用加工イメージを取得させ、（ｉｉｉ）前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージをコンカチネートした統合テストイメージを出力させるプロセス、及び（ＩＩ）（ｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力させ、（ｉｉ）前記ＲＰＮをもって、前記テスト用統合特徴マップを利用して、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージそれぞれ内に位置する一つ以上のテスト用物体に対応する第１テスト用物体プロポーザルないし第ｎテスト用物体プロポーザルそれぞれを出力させ、（ｉｉｉ）前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力させ、（ｉｖ）前記ＦＣレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１テスト用物体検出情報ないし第ｎテスト用物体検出情報を出力させるプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするテスト装置。
前記プロセッサは、
前記（Ｉ）プロセスにおいて、前記イメージ加工ネットワークをもって、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージをコンカチネートさせることを特徴とする請求項２４に記載のテスト装置。
前記プロセッサは、前記イメージ加工ネットワークをもって、第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージのうち、隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加させることを特徴とする請求項２５に記載のテスト装置。
前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを特徴とする請求項２６に記載のテスト装置。
前記プロセッサは、
前記（Ｉ）プロセスにおいて、前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージそれぞれに対するそれぞれのテスト用スケールヒストグラムを演算させ、前記テスト用スケールヒストグラムを参照することによって、前記テスト用ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域を予測させることを特徴とする請求項２４に記載のテスト装置。
前記プロセッサは、
前記（Ｉ）プロセスにおいて、前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する一つ以上の領域をクロップすることにより、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージを取得させるか、前記テストイメージまたはこれに対応するリサイズされたテスト用イメージ上で前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する一つ以上の領域をクロップした後にリサイズすることにより、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージを取得させることを特徴とする請求項２４に記載のテスト装置。
前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域は、前記テストイメージ内に位置する前記テスト用ターゲット物体のうち互いに異なる多数のテスト用ターゲット物体に対応するか、又は前記テストイメージ及びこれに対応するリサイズされたテスト用イメージ内に位置する少なくとも一つの同一のテスト用ターゲット物体に対応することを特徴とする請求項２４に記載のテスト装置。