JP2020119530A

JP2020119530A - 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、ｃｎｎ基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置

Info

Publication number: JP2020119530A
Application number: JP2020001648A
Authority: JP
Inventors: ゲヒョンキム; Kye-Hyeon Kim; ヨンジュンキム; Yong-Jun Kim; インスキム; Insu Kim; ハクギョンキム; Hak Kyoung Kim; ウンヒョンナム; Woonhyun Nam; ソクフンブ; Sukhoon Boo; ミョンチョルソン; Myungchul Sung; ドンフンヨ; Donghun Yeo; ウジュリュ; Wooju Ryu; テウンジャン; Taewoong Jang
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-22
Filing date: 2020-01-08
Publication date: 2020-08-06
Anticipated expiration: 2040-01-08
Also published as: CN111461161B; KR20200091323A; EP3686785A1; KR102246368B1; JP6850046B2; CN111461161A; US10402692B1

Abstract

【課題】入力イメージ上に位置する様々なサイズの物体を、演算時間を減らして効率的に検出する学習方法と学習装置及びこれを利用したテスティング方法とテスティング装置を提供する。【解決手段】学習方法は、ＦＣレイヤ１２４により第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して第１物体に対応する第１物体検出情報を出力し、ＦＣロスレイヤ１２５による第１物体検出情報と対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、ＦＣレイヤ１２４及びコンボリューションレイヤ１２１のパラメータの中の少なくとも一部を学習する段階と、ｋを２からｎまで増加させながら、第（ｋ−１）物体プロポーザルを参照して第ｋ物体検出情報を出力し、第ｋＦＣロスを利用したバックプロパゲーションによって、ＦＣレイヤ１２４及びコンボリューションレイヤ１２１のパラメータの中の少なくとも一部を学習する段階と、を含む。【選択図】図２

Description

重要業績評価指標（ＫＰＩ）のようなユーザ要求事項によって適応可能なターゲット物体予測ネットワークを用いた、変動に強い物体検出器のパラメータを学習する方法に関し、より詳細には、前記ターゲット物体予測ネットワークを用いた前記物体検出器の前記パラメータを学習する方法において、（ａ）少なくとも一つのトレーニングイメージが取得されると、（ｉ）一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第１加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する一つ以上の第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１特徴マップ上で、前記第１物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにし、（ｖ）ＦＣロスレイヤをもって、前記第１物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階；及び（ｂ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ特徴マップを参照して、前記第ｋ加工イメージ内に位置する一つ以上の第ｋ物体それぞれに対応する一つ以上の第ｋ物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋプーリング済み特徴マップに適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにし、（ｖｉ）前記ＦＣロスレイヤをもって、前記第ｋ物体検出情報と、これに対応するＧＴとを参照して一つ以上の第ｋＦＣロスを取得するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階；を含むことを特徴とする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置に関する。

機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）において、コンボリューションニューラルネットワーク（ＣＮＮまたはＣｏｎｖＮｅｔ）は、視覚的イメージ分析に成功的に適用された深層フィードフォワード人工ニューラルネットワーク（Ｄｅｅｐｆｅｅｄｆｏｒｗａｒｄａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）である。

ＣＮＮ基盤の物体検出器は、（ｉ）コンボリューションレイヤをもって、入力イメージにコンボリューション演算を適用することにより、前記入力イメージに対応した特徴マップを出力し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記特徴マップを利用して、前記入力イメージ内の物体に対応するプロポーザルを確認し、（ｉｉｉ）プーリングレイヤをもって、前記確認されたプロポーザルに対応する前記特徴マップ上の領域に少なくとも一つのプーリング演算を適用して、プーリング済み特徴マップを取得し、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、少なくとも一つのＦＣ演算を、前記取得されたプーリング済み特徴マップないし前記物体に関する出力クラス情報と、リグレッション情報とに適用することにより、前記入力イメージ上の前記物体を検出する。

だが、前記ＣＮＮ基盤の物体検出器は、前記コンボリューションレイヤにより前記入力イメージのサイズを縮小したサイズの前記特徴マップを用いることになるので、前記入力イメージに位置するサイズの大きい物体は容易に検出されるが、前記入力イメージに位置するサイズの小さい物体を検出することは難しい。

他の例として、前記入力イメージを拡大して取得した、リサイズされたイメージを利用してサイズが小さい物体を検出し得るが、この場合は、前記物体検出器による演算量が増加することになり、これによって前記物体検出器の性能が低下する。

従って、本発明の発明者は、入力イメージ上に位置する様々なサイズの物体を、演算時間を減らして効率的に検出する学習方法と学習装置及びこれを利用したテスティング方法とテスティング装置を提案したい。

本発明は、前述した問題点を全て解決することを目的とする。

本発明は、イメージ上の物体をサイズに関係なく効率的に検出できるように、ＣＮＮ基盤の物体検出器を提供することを他の目的とする。

本発明は、さらに演算量を増加させないうえ、前記イメージ上のサイズが小さい物体を検出できるようにするＣＮＮ基盤の物体検出器を提供することを別の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は次の通りである。

本発明の一態様によれば、ターゲット物体予測ネットワークを用いた物体検出器のパラメータの学習方法において、（ａ）少なくとも一つのトレーニングイメージが取得されると、学習装置が、（ｉ）一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第１加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する一つ以上の第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１特徴マップ上で、前記第１物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにし、（ｖ）ＦＣロスレイヤをもって、前記第１物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階；及び（ｂ）ｋを２からｎまで増加させながら、前記学習装置が、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ特徴マップを参照して、前記第ｋ加工イメージ内に位置する一つ以上の第ｋ物体それぞれに対応する一つ以上の第ｋ物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋプーリング済み特徴マップに適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにし、（ｖｉ）前記ＦＣロスレイヤをもって、前記第ｋ物体検出情報と、これに対応するＧＴとを参照して一つ以上の第ｋＦＣロスを取得するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階；を含むことを特徴とする方法が開示される。

一例として、前記（ａ）段階で、前記学習装置は、ＲＰＮロスレイヤをもって、前記第１物体プロポーザルの情報と、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、前記（ｂ）段階で、前記学習装置は、前記ＲＰＮロスレイヤをもって、前記第ｋ物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整することを特徴とする。

一例として、前記（ｂ）段階で、前記学習装置は、前記ターゲット物体予測ネットワークをもって、（ｉ）前記第（ｋ−１）加工イメージをＭｘＮグリッドで区分するようにし、（ｉｉ）前記第（ｋ−１）物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するプロポーザルの個数を示す少なくとも一つ以上のヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、（ｉｉｉ）ムービングウィンドウの中の少なくとも一つの領域を利用して、前記第（ｋ−１）ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする。

一例として、前記（ｂ）段階で、前記学習装置は、前記トレーニングイメージのサイズを前記第１加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたトレーニングイメージを生成した後、前記リサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する少なくとも一つの領域をクロップ（ｃｒｏｐ）して、前記第ｋ加工イメージを生成することを特徴とする。

一例として、前記（ｂ）段階で、前記学習装置は、前記トレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第ｋ加工イメージを生成することを特徴とする。

一例として、前記第ｋ加工イメージのサイズが、前記第（ｋ−１）ターゲット領域のサイズより大きくなるように前記第ｋ加工イメージをリサイズすることを特徴とする。

一例として、前記第１加工イメージないし第ｎ加工イメージのサイズが、同一の大きさを有することを特徴とする。

本発明の他の態様によれば、ターゲット物体予測ネットワークを用いた物体検出器のテスト方法において、（ａ）学習装置が、（１−１）一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第１学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１学習用特徴マップを出力するようにし、（１−２）ＲＰＮをもって、前記第１学習用特徴マップを利用して、前記第１学習用加工イメージ内に位置する一つ以上の第１学習用物体それぞれに対応する一つ以上の第１学習用物体プロポーザルを出力するようにし、（１−３）プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力するようにし、（１−４）ＦＣレイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１学習用物体に対応する第１学習用物体検出情報を出力するようにし、（１−５）ＦＣロスレイヤをもって、前記第１学習用物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するようにし、ｋを２からｎまで増加させながら、（２−１）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）学習用加工イメージ上の一つ以上の第（ｋ−１）学習用物体プロポーザルを参照して、前記第（ｋ−１）学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）学習用ターゲット領域を探すようにし、（２−２）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）学習用ターゲット領域に対応する第ｋ学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ学習用加工イメージに前記コンボリューション演算を適用して第ｋ学習用特徴マップを出力するようにし、（２−３）前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ学習用加工イメージ内に位置する一つ以上の第ｋ学習用物体それぞれに対応する一つ以上の第ｋ学習用物体プロポーザルを出力するようにし、（２−４）前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力するようにし、（２−５）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋ学習用プーリング済み特徴マップに適用して、前記第ｋ学習用物体に対応する第ｋ学習用物体検出情報を出力するようにし、（２−６）前記ＦＣロスレイヤをもって、前記第ｋ学習用物体検出情報と、これに対応するＧＴとを参照して一つ以上の第ｋＦＣロスを取得するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、少なくとも一つのテストイメージが取得されると、テスティング装置が、（ｉ）前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第１テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第１テスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１テスト用加工イメージ内に位置する一つ以上の第１テスト用物体それぞれに対応する一つ以上の第１テスト用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１テスト用物体に対応する第１テスト用物体検出情報を出力するようにする段階；及び（ｂ）ｋを２からｎまで増加させながら、前記テスティング装置が、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）テスト用加工イメージ上の一つ以上の第（ｋ−１）テスト用物体プロポーザルを参照して、前記第（ｋ−１）テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）テスト用ターゲット領域を探すようにし、（ｉｉ）前記テストイメージ、またはリサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する第ｋテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記テスト用第ｋ加工イメージに前記コンボリューション演算を適用して第ｋテスト用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋテスト用特徴マップを参照して、前記第ｋテスト用加工イメージ内に位置する一つ以上の第ｋテスト用物体それぞれに対応する一つ以上の第ｋテスト用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋテスト用プーリング済み特徴マップに適用して、前記第ｋテスト用物体に対応する第ｋテスト用物体検出情報を出力するようにする段階；を含むことを特徴とする方法が開示される。

一例として、前記学習装置は、ＲＰＮロスレイヤをもって、前記第１学習用物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、前記学習装置は、前記ＲＰＮロスレイヤをもって、前記第ｋ学習用物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整することを特徴とする。

一例として、前記（ｂ）段階で、前記テスティング装置は、前記ターゲット物体予測ネットワークをもって、（ｉ）前記第（ｋ−１）テスト用加工イメージをＭｘＮグリッドで区分するようにし、（ｉｉ）前記第（ｋ−１）テスト用物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するテスト用プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記テスト用プロポーザルそれぞれの全体領域または分割の領域が存在し、（ｉｉｉ）ムービングウィンドウの中の少なくとも一つの領域を利用して前記第（ｋ−１）テスト用ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記テスト用ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする。

一例として、前記（ｂ）段階で、前記テスティング装置は、前記テストイメージのサイズを前記第１テスト用加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたテストイメージを生成した後、前記リサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第ｋテスト用加工イメージを生成することを特徴とする。

一例として、前記（ｂ）段階で、前記テスティング装置は、前記テストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第ｋテスト用加工イメージを生成することを特徴とする。

一例として、前記第ｋテスト用加工イメージのサイズが、前記第（ｋ−１）テスト用ターゲット領域のサイズより大きくなるように前記第ｋテスト用加工イメージをリサイズすることを特徴とする。

一例として、前記第１テスト用加工イメージないし第ｎテスト用加工イメージのサイズが同一の大きさを有することを特徴とする。

本発明のまた他の態様によれば、ターゲット物体予測ネットワークを用いた物体検出器のパラメータの学習するための学習装置において、各インストラクションを格納する少なくとも一つのメモリ；及び（Ｉ）（ｉ）一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第１加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する一つ以上の第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１特徴マップ上で、前記第１物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにし、（ｖ）ＦＣロスレイヤをもって、前記第１物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセス、及び（ＩＩ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ特徴マップを参照して、前記第ｋ加工イメージ内に位置する一つ以上の第ｋ物体それぞれに対応する一つ以上の第ｋ物体プロポーザルを出力するようにし、（ｉｖ）プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋプーリング済み特徴マップに適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにし、（ｖｉ）前記ＦＣロスレイヤをもって、前記第ｋ物体検出情報と、これに対応するＧＴとを参照して一つ以上の第ｋＦＣロスを取得するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とする学習装置が開示される。

一例として、前記（Ｉ）プロセスで、前記プロセッサは、ＲＰＮロスレイヤをもって、前記第１物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、前記（ＩＩ）プロセスで、前記プロセッサは、前記ＲＰＮロスレイヤをもって、前記第ｋ物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整することを特徴とする。

一例として、前記（ＩＩ）プロセスで、前記プロセッサは、前記ターゲット物体予測ネットワークをもって、（ｉ）前記第（ｋ−１）加工イメージをＭｘＮグリッドで区分するようにし、（ｉｉ）前記第（ｋ−１）物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するプロポーザルの個数を示す少なくとも一つ以上のヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、（ｉｉｉ）ムービングウィンドウの中の少なくとも一つの領域を利用して、前記第（ｋ−１）ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする。

一例として、前記（ＩＩ）プロセスで、前記プロセッサは、前記トレーニングイメージのサイズを前記第１加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたトレーニングイメージを生成した後、前記リサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第ｋ加工イメージを生成することを特徴とする。

一例として、前記（ＩＩ）プロセスで、前記プロセッサは、前記トレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第ｋ加工イメージを生成することを特徴とする。

一例として、前記第１加工イメージないし第ｎ加工イメージのサイズが同一の大きさを有することを特徴とする。

本発明のまた他の態様によれば、ターゲット物体予測ネットワークを用いた物体検出器をテストするためのテスティング装置において、各インストラクションを格納する少なくとも一つのメモリ；及び学習装置が、（１−１）一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第１学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１学習用特徴マップを出力するようにし、（１−２）ＲＰＮをもって、前記第１学習用特徴マップを利用して、前記第１学習用加工イメージ内に位置する一つ以上の第１学習用物体それぞれに対応する一つ以上の第１学習用物体プロポーザルを出力するようにし、（１−３）プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力するようにし、（１−４）ＦＣレイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１学習用物体に対応する第１学習用物体検出情報を出力するようにし、（１−５）ＦＣロスレイヤをもって、前記第１学習用物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するようにし、ｋを２からｎまで増加させながら、（２−１）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）学習用加工イメージ上の一つ以上の第（ｋ−１）学習用物体プロポーザルを参照して、前記第（ｋ−１）学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット学習用領域を探すようにし、（２−２）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）学習用ターゲット領域に対応する第ｋ学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ学習用加工イメージに前記コンボリューション演算を適用して第ｋ学習用特徴マップを出力するようにし、（２−３）前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ学習用加工イメージ内に位置する一つ以上の第ｋ学習用物体それぞれに対応する一つ以上の第ｋ学習用物体プロポーザルを出力するようにし、（２−４）前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力するようにし、（２−５）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋ学習用プーリング済み特徴マップに適用して、前記第ｋ学習用物体に対応する第ｋ学習用物体検出情報を出力するようにし、（２−６）前記ＦＣロスレイヤをもって、前記第ｋ学習用物体検出情報と、これに対応するＧＴとを参照して一つ以上の第ｋＦＣロスを取得するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、（Ｉ）（ｉ）前記コンボリューションレイヤをもって、テストイメージに対応する少なくとも一つの第１テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第１テスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１テスト用加工イメージ内に位置する一つ以上の第１テスト用物体それぞれに対応する一つ以上の第１テスト用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１テスト用物体に対応する第１テスト用物体検出情報を出力するようにするプロセス、及び（ＩＩ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）テスト用加工イメージ上の一つ以上の第（ｋ−１）テスト用物体プロポーザルを参照して、前記第（ｋ−１）テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）テスト用ターゲット領域を探すようにし、（ｉｉ）前記テストイメージ、またはリサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する第ｋテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記テスト用第ｋ加工イメージに前記コンボリューション演算を適用して第ｋテスト用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋテスト用特徴マップを参照して、前記第ｋテスト用加工イメージ内に位置する一つ以上の第ｋテスト用物体それぞれに対応する一つ以上の第ｋテスト用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋテスト用プーリング済み特徴マップに適用して、前記第ｋテスト用物体に対応する第ｋテスト用物体検出情報を出力するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とするテスティング装置が開示される。

一例として、前記（ＩＩ）プロセスで、前記プロセッサは、前記ターゲット物体予測ネットワークをもって、（ｉ）前記第（ｋ−１）テスト用加工イメージをＭｘＮグリッドで区分するようにし、（ｉｉ）前記第（ｋ−１）テスト用物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するテスト用プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記テスト用プロポーザルそれぞれの全体領域または分割の領域が存在し、（ｉｉｉ）ムービングウィンドウの中の少なくとも一つの領域を利用して、前記第（ｋ−１）テスト用ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記テスト用ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする。

一例として、前記（ＩＩ）プロセスで、前記プロセッサは、前記テストイメージのサイズを前記第１テスト用加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたテストイメージを生成した後、前記リサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第ｋテスト用加工イメージを生成することを特徴とする。

一例として、前記（ＩＩ）プロセスで、前記プロセッサは、前記テストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第ｋテスト用加工イメージを生成することを特徴とする。

一例として、前記第１テスト用加工イメージないし第ｎテスト用加工イメージのサイズが、同一の大きさを有することを特徴とする。

この他にも、本発明の方法を実行するためのコンピュータプログラムを記録するためのコンピュータ読読可能な記録媒体がさらに提供される。

本発明によれば、入力イメージを互いに異なるサイズを有するイメージに加工した上で、それぞれの加工されたイメージ上に物体が位置するものと推定されるターゲット領域を利用してイメージ内の小さな物体を容易に検出し得る効果がある。

また、本発明によれば、前記入力イメージを互いに異なるサイズのイメージに加工した後、それぞれの前記加工されたイメージ上に物体が位置すると推定されるターゲット領域をクロップして加工されたイメージを利用して、イメージ内のサイズが小さい物体を検出することにより、演算量と演算時間を最小化し得る効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者（以下「通常の技術者」）は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
図１は、本発明の一例に係るターゲット物体予測ネットワークを利用した、ＣＮＮ基盤物体検出器を学習する学習装置を概略的に示した図面である。図２は、本発明の一例に係る前記ターゲット物体予測ネットワークを利用した、前記ＣＮＮ基盤物体検出器を学習する学習方法を概略的に示した図面である。図３は、本発明の一例に係る前記ターゲット物体予測ネットワークを利用した、前記ＣＮＮ基盤物体の検出器の学習方法から考慮される、ＲＰＮから出力される、物体プロポーザルを概略的に示した図面である。図４は、本発明の一例に係る前記ターゲット物体予測ネットワークを利用した、前記ＣＮＮ基盤物体の検出器の学習方法において考慮される、前記ＲＰＮから出力される前記物体プロポーザルを利用してターゲット領域を探す状態を概略的に示した図面である。図５は、本発明の一例に係る加工イメージを利用して、少なくとも一つのターゲット物体を検出する状態を概略的に示した図面である。図６は、本発明の一例に係る前記ターゲット物体予測ネットワークを利用した、前記ＣＮＮ基盤物体検出器のテスティング装置を概略的に示した図面である。図７は、本発明の一例に係る前記ターゲット物体予測ネットワークを利用した、前記ＣＮＮ基盤物体検出器のテスティング方法を概略的に示した図面である。

後述する本発明に対する詳細な説明は、本発明の各目的、技術的解決方法及び長所を明確にするために、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように充分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得り、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。

図１は、本発明の一例に係るターゲット物体予測ネットワークを利用した、ＣＮＮ基盤物体検出器を学習する学習装置を概略的に示した図面である。

図１を参照すれば、前記学習装置１００は、通信部１１０とプロセッサ１２０とを含み得る。

まず、前記通信部１１０は、少なくとも一つのトレーニングイメージを取得するか、他の装置をもって取得するように支援し得る。

この際、前記トレーニングイメージは、データベース１３０に格納され得り、前記データベース１３０は、前記トレーニングイメージに位置する一つ以上の物体それぞれに対応するクラス情報及び位置情報に対する少なくとも一つのＧＴ（ｇｒｏｕｎｄｔｒｕｔｈ）を格納し得る。

また、前記学習装置は、後述するプロセスを遂行するコンピュータ読み取り可能なインストラクション（ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｉｎｓｔｒｕｃｔｉｏｎ）を格納し得るメモリ１１５を追加的に含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体等は、一つのプロセッサに統合されて機能することもできる。

次に、前記プロセッサ１２０は（ｉ）一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第１加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する一つ以上の第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１特徴マップ上で、前記第１物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにし、（ｖ）ＦＣロスレイヤをもって、前記第１物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するか、他の装置をもって遂行するように支援し得る。

また、前記プロセッサ１２０は、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ特徴マップを参照して、前記第ｋ加工イメージ内に位置する一つ以上の第ｋ物体それぞれに対応する一つ以上の第ｋ物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋプーリング済み特徴マップに適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにし、（ｖｉ）前記ＦＣロスレイヤをもって、前記第ｋ物体検出情報と、これに対応するＧＴとを参照して一つ以上の第ｋＦＣロスを取得するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するか、他の装置をもって遂行するように支援し得る。

また、前記プロセッサ１２０は、ＲＰＮロスレイヤをもって、前記第１物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、前記ＲＰＮロスレイヤをもって、前記第ｋ物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整し得る。

この際、本発明の一例に係る前記学習装置１００は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置１００として採択され得る。また、図１では一つの学習装置１００のみを示したが、これに限定されず、前記学習装置は複数に分けて役割を遂行することもできる。

このように構成された本発明の一例に係る前記学習装置１００を利用して、前記ターゲット物体予測ネットワークを利用してＣＮＮ基盤物体検出器のパラメータを学習する方法を、図２を参照して説明する。

まず、前記トレーニングイメージが入力されると、前記学習装置１００がコンボリューションレイヤ１２１をもって、前記トレーニングイメージに対応する前記第１加工イメージに前記コンボリューション演算を適用して、前記第１特徴マップを出力するようにし得る。ここで、前記コンボリューションレイヤ１２１は、単一のコンボリューションレイヤまたは多数のコンボリューションレイヤになり得る。

この際、前記学習装置１００は、イメージ加工ネットワーク１１１をもって、前記トレーニングイメージを加工してサイズが互いに異なるイメージ多数を含むイメージピラミッドを生成するようにし得、前記イメージピラミッドイメージの中の一つを前記第１加工イメージとして前記コンボリューションレイヤ１２１に入力し得る。

次に、前記学習装置１００は、ＲＰＮ１２２をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する前記第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし得る。

一例として、図３を参照すれば、前記ＲＰＮ１２２から出力された前記第１物体プロポーザルは、前記第１加工イメージ内の前記第１物体それぞれに対応し得、前記第１物体プロポーザルそれぞれは、前記第１物体それぞれ、つまり、タグ付け領域に対応する位置情報と、前記タグ付け領域それぞれが物体であるか否かに対する情報とを有する各プロポーザルに対する情報を含み得る。この際、物体であるか否かに対する情報は、前記それぞれの物体プロポーザルが物体であると予測される確率情報を含み得り、前記プロポーザルボックスに関する情報は、前記プロポーザルボックスが前記物体の位置に一致すると予測される確率情報を含み得る。

次に、前記学習装置１００は、プーリングレイヤ１２３をもって、前記第１特徴マップ上で、前記第１物体プロポーザルに対応する少なくとも一つの領域に前記プーリング演算を適用して、前記第１プーリング済み特徴マップを出力するようにし、ＦＣレイヤ１２４をもって、前記第１プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにし得る。

この際、前記第１物体検出情報は、バウンディングボックスに関する情報（すなわち、前記第１物体それぞれに関する位置情報）と、前記第１物体プロポーザルに対応する前記第１物体それぞれに関するクラス情報とを含み得る。また、前記クラス情報は、前記第１物体それぞれが該当クラスと予測される確率情報を含み得、前記バウンディングボックスに関する情報は、前記バウンディングボックスそれぞれが前記物体の位置に一致するものと予測される確率情報を含み得る。

次に、前記学習装置１００は、少なくとも一つのＦＣロスレイヤ１２５をもって、前記第１物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ１２４及び前記コンボリューションレイヤ１２１のパラメータの中の少なくとも一部を調整し得る。

また、前記学習装置１００は、少なくとも一つのＲＰＮロスレイヤ１２６をもって、前記第１物体プロポーザルと、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮ１２２のパラメータの中の少なくとも一部を調整し得る。

次に、前記学習装置１００は、前記ターゲット物体予測ネットワーク１２７をもって、第１加工イメージ上の前記第１物体プロポーザルを参照して、前記第１加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域を探すようにし得る。

一例として、図４を参照すれば、前記ターゲット物体予測ネットワーク１２７は（ｉ）前記第１加工イメージをＭｘＮグリッドで区分し、（ｉｉ）前記第（ｋ−１）物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するプロポーザルの個数を示す少なくとも一つ以上のヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、好ましくは、前記対応するプロポーザルのサイズが、前記ＲＰＮ１２２から出力された前記物体プロポーザルの中の、前記ターゲット物体のサイズに対応する予め設定されているサイズより小さくなるようにすることができ、（ｉｉｉ）前記第１ターゲット領域のサイズに対応するＰｘＱサイズを有するムービングウィンドウの少なくとも一つの領域を利用して前記第１ターゲット領域（ＴＲ）を決定し、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中の前記ヒストグラムの合計が最も大きい値を有し得る。

次に、前記学習装置１００は、前記トレーニングイメージ、またはこれをリサイズしたイメージ、つまり、前記リサイズされたトレーニングイメージ上の前記第１ターゲット領域（ＴＲ）に対応する第２加工イメージを取得するか、他の装置をもって取得するように支援し得る。

この際、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記トレーニングイメージのサイズを前記第１加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたトレーニングのイメージを生成した後、前記リサイズされたトレーニングイメージ上で前記第１ターゲット領域（ＴＲ）に対応する少なくとも一つの領域をクロップして前記第２加工イメージを生成するか、前記トレーニングイメージ上の前記第１ターゲット領域（ＴＲ）に対応する少なくとも一つの領域をクロップ及びリサイズして前記第２加工イメージを生成するようにし得る。

一例として、前記イメージ加工ネットワーク１１１は、前記トレーニングイメージに対応する前記イメージピラミッドの中の、第１加工イメージよりサイズが大きいイメージ上で、第１ターゲット領域（ＴＲ）に対応する少なくとも一つの領域をクロップして、前記第２加工イメージを生成し得る。また、前記イメージ加工ネットワーク１１１は、前記トレーニングイメージにおいて前記第１ターゲット領域（ＴＲ）に対応する少なくとも一つの領域をクロップし、前記クロップされたイメージをリサイズすることにより、前記第２加工イメージを生成し得る。この際、前記第２加工イメージは、サイズが前記第１ターゲット領域のサイズより大きくリサイズされ得る。このために、前記イメージ加工ネットワーク１１１は、前記クロップされたイメージを、前記トレーニングイメージの前記イメージピラミッドの中の、前記第１加工イメージの次のイメージのサイズに対応するようにリサイズして、前記第２加工イメージを生成し得る。

次に、前記学習装置１００は、前記生成された第２加工イメージを利用して、前記のような過程を繰り返して前記トレーニングイメージ上でのサイズが小さい物体、つまり、遠距離に位置する物体を効率的に検出できるようになる。

つまり、前記学習装置１００は、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワーク１２７をもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、前記ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。そして、前記学習装置１００は、前記ＲＰＮ１２２をもって、前記第ｋ特徴マップを利用して、前記第ｋ加工イメージ内に位置する第ｋ物体それぞれに対応する前記第ｋ物体プロポーザルを出力するようにし、前記プーリングレイヤ１２３をもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、前記少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし得る。その後、前記テスティング装置１００は、前記ＦＣレイヤ１２４をもって、前記ＦＣ演算を前記第ｋプーリング済み特徴マップに適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにし得る。そして、前記学習装置１００は、前記ＦＣロスレイヤ１２５をもって、前記第ｋ物体検出情報と、これに対応するＧＴとを参照して一つ以上の第ｋＦＣロスを取得するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を調整するようにし得る。また、前記学習装置１００は、前記ＲＰＮロスレイヤ１２６をもって、前記第ｋ物体プロポーザルと、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮ１２２のパラメータの中の少なくとも一部を調整するようにし得る。

一例として、図５を参照すれば、前記イメージピラミッドの中の最小サイズのイメージである第１イメージ（Ｐ１）に対応する前記第１加工イメージ（ＭＩ１）上で物体検出が遂行されて前記第１ターゲット領域（ＴＲ１）が予測され、前記イメージピラミッドの中で、次の最小サイズのイメージである第２イメージ（Ｐ２）において、前記第１ターゲット領域（ＴＲ１）に対応する前記第２加工イメージ（ＭＩ２）上で物体検出が遂行されて第２ターゲット領域（ＴＲ２）が確認され、前記イメージピラミッドの中の、第２イメージ（Ｐ２）の次の最小サイズのイメージである第３イメージ（Ｐ３）において、前記第２ターゲット領域（ＴＲ２）に対応する第３加工イメージ（ＭＩ３）上で物体検出が遂行されることにより、特定サイズを有する第ｋ物体、好ましくは、遠距離に位置するサイズが小さい物体が短い演算時間によって容易に検出され得るようになる。

この際、前記第１加工イメージないし第（ｎ−１）加工イメージにおいて、第１ターゲット領域ないし第（ｎ−１）ターゲット領域のサイズは同一になるようにするか、それぞれの加工イメージのサイズに対応してアスペクト比（ａｓｐｅｃｔｒａｔｉｏ）を同一にした状態でそのサイズが異なるようにすることもできる。また、前記第１加工イメージないし前記第ｎ加工イメージは、同一の大きさを有するようにすることもできる。

前記のような方法により、前記のトレーニングイメージ内に位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記第ｋ物体を効率的に検出できるようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記ＣＮＮベースの前記物体検出の演算時間を減らし得るようになる。

また、前記では、前記トレーニングイメージ上にターゲット物体が一つである場合を想定して説明したが、前記トレーニングイメージ内にターゲット物体多数がある場合にも、前記のような方法により前記トレーニングイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して、前記それぞれのターゲット物体の検出が可能である。

図６は、本発明の一例に係る前記ターゲット物体予測ネットワークを利用した、前記ＣＮＮ基盤物体検出器をテスティングするテスティング装置を概略的に示したもので、図６を参照すれば、前記テスティング装置２００は、通信部２１０とプロセッサ２２０を含み得る。

まず、前記通信部２１０は、少なくとも一つのテストイメージを取得するか、他の装置をもって取得するように支援し得る。

また、前記テスティング装置は、後述するプロセスを遂行するコンピュータ読み取り可能なインストラクション（ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｉｎｓｔｒｕｃｔｉｏｎ）を格納し得るメモリ２１５を追加的に含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体（ｍｅｄｉｕｍ）等は、一つのプロセッサに統合されて機能することもできる。

この際、前記ターゲット物体予測ネットワークを利用した、前記ＣＮＮ基盤、前記物体検出器は、図１ないし図５を参照して説明された前記学習方法として学習され得る。

参考までに、以下の説明において混乱を避けるために、前記学習プロセスに関連する用語には「学習用」という単語が追加され、テスト用プロセスに関連する用語には「テスト用」という単語が追加された。

つまり、トレーニングイメージが取得されると、前記学習装置が、（ａ）（ｉ）前記コンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第１学習用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第１学習用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記第１学習用特徴マップを利用して、前記第１学習用加工イメージ内に位置する一つ以上の第１学習用物体それぞれに対応する一つ以上の第１学習用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１学習用物体に対応する第１学習用物体検出情報を出力するようにし、（ｖ）前記ＦＣロスレイヤをもって、前記第１学習用物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するようにし、（ｂ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）学習用加工イメージ上の一つ以上の第（ｋ−１）学習用物体プロポーザルを参照して、前記第（ｋ−１）学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）学習用ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）学習用ターゲット領域に対応する第ｋ学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ学習用加工イメージに前記コンボリューション演算を適用して第ｋ学習用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ学習用加工イメージ内に位置する一つ以上の第ｋ学習用物体それぞれに対応する一つ以上の第ｋ学習用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋ学習用プーリング済み特徴マップに適用して、前記第ｋ学習用物体に対応する第ｋ学習用物体検出情報を出力するようにし、（ｖｉ）前記ＦＣロスレイヤをもって、前記第ｋ学習用物体検出情報と、これに対応するＧＴとを参照して一つ以上の第ｋＦＣロスを取得するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤの前記パラメータの中の少なくとも一部を学習するプロセスを遂行し得る。

また、前記学習装置は、前記ＲＰＮロスレイヤをもって、前記第１学習用物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、前記ＲＰＮロスレイヤをもって、前記第ｋ物体学習用プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整し得る。

次に、前記プロセッサ２２０は（ｉ）前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第１テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第１テスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１テスト用加工イメージ内に位置する一つ以上の第１テスト用物体それぞれに対応する一つ以上の第１テスト用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１テスト用物体に対応する第１テスト用物体検出情報を出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。その後、前記プロセッサ２２０は、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）テスト用加工イメージ上の一つ以上の第（ｋ−１）テスト用物体プロポーザルを参照して、前記第（ｋ−１）テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）テスト用ターゲット領域を探すようにし、（ｉｉ）前記テストイメージ、またはリサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する第ｋテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記テスト用第ｋ加工イメージに前記コンボリューション演算を適用して第ｋテスト用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋテスト用特徴マップを参照して、前記第ｋテスト用加工イメージ内に位置する一つ以上の第ｋテスト用物体それぞれに対応する一つ以上の第ｋテスト用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋテスト用プーリング済み特徴マップに適用して、前記第ｋテスト用物体に対応する第ｋテスト用物体検出情報を出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。

この際、本発明の一例に係るテスティング装置２００は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置２００として採択され得る。また、図６では一つのテスティング装置２００のみを示したが、これに限定されず、テスティング装置は複数に分けて役割を遂行することもできる。

本発明の一例に係る前記テスティング装置２００を利用して、前記ターゲット物体予測ネットワークを利用した前記ＣＮＮ基盤物体検出器をテスティングする方法を、図７を参照して説明する。以下の説明で、図１ないし図５を参照して説明した前記学習方法により容易に理解可能な部分については、詳細な説明を省略することにする。

まず、図１ないし図５を参照に説明した学習方法によってＦＣレイヤ２２４、コンボリューションレイヤ２２１、及びＲＰＮ２２２のパラメータの中の少なくとも一部を学習した状態で、前記テストイメージが入力されると、前記テスティング装置２００がコンボリューションレイヤ２２１をもって、前記テストイメージに対応する前記第１加工イメージに前記コンボリューション演算を適用して、前記第１テスト用特徴マップを出力するようにし得る。この際、前記コンボリューションレイヤ２２１は、単一のコンボリューションレイヤであることもあり、または多数のコンボリューションレイヤであることもある。

この際、前記テスティング装置２００は、イメージ加工ネットワーク２１１をもって、前記テストイメージを加工してサイズが互いに異なるイメージを含むイメージピラミッドを生成するようにし得、前記イメージピラミッドイメージの中の一つイメージを前記第１テスト用加工イメージとして前記コンボリューションレイヤ２２１に入力し得る。

次に、前記テスティング装置２００は、前記ＲＰＮ２２２をもって前記第１テスト用特徴マップを利用して、前記第１テスト用加工イメージ内に位置する前記第１テスト用物体それぞれに対応する一つ以上の第１テスト用物体プロポーザルを出力するようにし得る。

この際、前記第１テスト用物体プロポーザルそれぞれは、前記それぞれの第１テスト用物体、つまり、タグ付き領域に対応する位置情報と、前記それぞれのタグ付け領域が物体であるか否かに対する情報とを有する各プロポーザルに対する情報を含み得る。

次に、前記テスティング装置２００は、プーリングレイヤ２２３をもって、前記第１テスト用特徴マップ上で、前記第１物体プロポーザルに対応する少なくとも一つの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力するようにし、前記ＦＣレイヤ２２４をもって、前記ＦＣ演算を前記第１テスト用プーリング済み特徴マップに適用して、前記第１テスト用物体に対応する第１テスト用物体検出情報を出力するようにし得る。

この際、前記第１テスト用物体検出情報は、テスト用バウンディングボックスに関する情報（すなわち、前記テスト用物体それぞれに関する位置情報）と、前記第１テスト用物体プロポーザルに対応する前記第１テスト用物体それぞれに関するクラス情報とを含み得る。

次に、前記テスティング装置２００は、ターゲット物体予測ネットワーク２２７をもって、第１テスト用加工イメージ上の前記第１テスト用物体プロポーザルを参照して、前記第１テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域を探すようにし得る。

次に、前記テスティング装置２００は、前記リサイズされたテストイメージ、または前記テストイメージ上の前記第１テスト用ターゲット領域に対応する第２テスト用加工イメージを取得するか、他の装置をもって取得するように支援し得る。

この際、前記テスティング装置２００は、前記イメージ加工ネットワーク２１１をもって、前記テストイメージのサイズを前記第１テスト用加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたテストイメージを生成した後、前記リサイズされたテストイメージ上で前記第１テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして前記第２加工イメージを生成するか、前記テストイメージ上の前記第１テスト用ターゲット領域に対応する少なくとも一つの領域をクロップ及びリサイズして前記第２テスト用加工イメージを生成するようにし得る。

一例として、前記イメージ加工ネットワーク２１１は、前記テストイメージに対応する前記イメージピラミッドの中の、第１テスト用加工イメージよりサイズが大きいイメージ上で、第１テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第２テスト用加工イメージを生成し得る。また、前記イメージ加工ネットワーク２１１は、前記トレーニングイメージにおいて前記第１ターゲット領域に対応する少なくとも一つの領域をクロップして、前記クロップされたイメージをリサイズすることにより、前記第２テスト用加工イメージを生成し得る。この際、前記第２テスト用加工イメージのサイズが、前記第１テスト用ターゲット領域のサイズより大きくなるようにリサイズされ得る。このために、前記イメージ加工ネットワーク２１１は、前記クロップされたイメージを、前記テストイメージの前記イメージピラミッドの中の、前記第１テスト用加工イメージの次のイメージのサイズに対応するようにリサイズして、前記第２加工イメージを生成し得る。

次に、前記テスティング装置２００は、前記生成された第２テスト用加工イメージを利用して前記のような過程を繰り返して前記テストイメージ上でのサイズが小さい物体、つまり、遠距離に位置する物体を効率的に検出できるようになる。

つまり、前記テスティング装置２００は、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワーク２２７をもって、第（ｋ−１）テスト用加工イメージ上の一つ以上の第（ｋ−１）テスト用物体プロポーザルを参照して、前記第（ｋ−１）テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）テスト用ターゲット領域を探すようにし、（ｉｉ）前記テストイメージ、またはリサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する第ｋテスト用加工イメージが取得されると、前記コンボリューションレイヤ２２１をもって、前記テスト用第ｋ加工イメージに前記コンボリューション演算を適用して第ｋテスト用特徴マップを出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。そして、前記テスティング装置２００は、前記ＲＰＮ２２２をもって、前記第ｋテスト用特徴マップを利用して、前記第ｋテスト用加工イメージ内に位置する前記第ｋテスト用物体それぞれに対応する前記第ｋテスト用物体プロポーザルを出力するようにし、前記プーリングレイヤ２２３をもって、前記第ｋテスト用特徴マップ上で、前記第ｋテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし得る。その後、前記テスティング装置２００は、前記ＦＣレイヤ２２４をもって、前記ＦＣ演算を前記第ｋテスト用プーリング済み特徴マップに適用して、前記第ｋテスト用物体に対応する第ｋテスト用物体検出情報を出力するようにし得る。

前記のような方法により、前記テストイメージ内に位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記第ｋ物体を効率的に検出できるようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記ＣＮＮベースの前記物体検出の演算時間を減らし得るようになる。

また、前記では、前記テストイメージ上にターゲット物体が一つである場合を想定して説明したが、前記テストイメージ内にターゲット物体多数がある場合にも、前記のような方法により前記テストイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して前記それぞれのターゲット物体の検出が可能である。

物体検出器のパラメータを学習して、重要業績評価指標（ＫＰＩ）のようなユーザ要求事項に適応可能なターゲット物体予測ネットワークが提供され得る。前記ＫＰＩによる解像度（ｒｅｓｏｌｕｔｉｏｎ）や焦点距離（ｆｏｃａｌｌｅｎｇｔｈ）が変われば、物体の大きさもまた変わる。ユーザ最適化設計のための前記方法で、落下する、または、落下した物体のように、確実でない物体がより正確に検出され得、また前記物体の変動（ｆｌｕｃｔｕａｔｉｏｎ）も感知し得る。従って、前記方法は、軍事目的や遠距離にある物体検出のために有用に遂行され得る。

また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータ読み取り可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

ターゲット物体予測ネットワークを用いた物体検出器のパラメータの学習方法において、
（ａ）少なくとも一つのトレーニングイメージが取得されると、学習装置が、（ｉ）一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第１加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する一つ以上の第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１特徴マップ上で、前記第１物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにし、（ｖ）ＦＣロスレイヤをもって、前記第１物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階；及び
（ｂ）ｋを２からｎまで増加させながら、前記学習装置が、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ特徴マップを参照して、前記第ｋ加工イメージ内に位置する一つ以上の第ｋ物体それぞれに対応する一つ以上の第ｋ物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋプーリング済み特徴マップに適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにし、（ｖｉ）前記ＦＣロスレイヤをもって、前記第ｋ物体検出情報と、これに対応するＧＴとを参照して一つ以上の第ｋＦＣロスを取得するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階；
を含むことを特徴とする方法。
前記（ａ）段階で、
前記学習装置は、ＲＰＮロスレイヤをもって、前記第１物体プロポーザルの情報と、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、
前記（ｂ）段階で、
前記学習装置は、前記ＲＰＮロスレイヤをもって、前記第ｋ物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整することを特徴とする請求項１に記載の方法。
前記（ｂ）段階で、
前記学習装置は、前記ターゲット物体予測ネットワークをもって、（ｉ）前記第（ｋ−１）加工イメージをＭｘＮグリッドで区分するようにし、（ｉｉ）前記第（ｋ−１）物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するプロポーザルの個数を示す少なくとも一つ以上のヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、（ｉｉｉ）ムービングウィンドウの中の少なくとも一つの領域を利用して、前記第（ｋ−１）ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする請求項１に記載の方法。
前記（ｂ）段階で、
前記学習装置は、前記トレーニングイメージのサイズを前記第１加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたトレーニングイメージを生成した後、前記リサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する少なくとも一つの領域をクロップ（ｃｒｏｐ）して、前記第ｋ加工イメージを生成することを特徴とする請求項１に記載の方法。
前記（ｂ）段階で、
前記学習装置は、前記トレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第ｋ加工イメージを生成することを特徴とする請求項１に記載の方法。
前記第ｋ加工イメージのサイズが、前記第（ｋ−１）ターゲット領域のサイズより大きくなるように前記第ｋ加工イメージをリサイズすることを特徴とする請求項５に記載の方法。
前記第１加工イメージないし第ｎ加工イメージのサイズが、同一の大きさを有することを特徴とする請求項１に記載の方法。
ターゲット物体予測ネットワークを用いた物体検出器のテスト方法において、
（ａ）学習装置が、（１−１）一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第１学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１学習用特徴マップを出力するようにし、（１−２）ＲＰＮをもって、前記第１学習用特徴マップを利用して、前記第１学習用加工イメージ内に位置する一つ以上の第１学習用物体それぞれに対応する一つ以上の第１学習用物体プロポーザルを出力するようにし、（１−３）プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力するようにし、（１−４）ＦＣレイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１学習用物体に対応する第１学習用物体検出情報を出力するようにし、（１−５）ＦＣロスレイヤをもって、前記第１学習用物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するようにし、ｋを２からｎまで増加させながら、（２−１）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）学習用加工イメージ上の一つ以上の第（ｋ−１）学習用物体プロポーザルを参照して、前記第（ｋ−１）学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）学習用ターゲット領域を探すようにし、（２−２）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）学習用ターゲット領域に対応する第ｋ学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ学習用加工イメージに前記コンボリューション演算を適用して第ｋ学習用特徴マップを出力するようにし、（２−３）前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ学習用加工イメージ内に位置する一つ以上の第ｋ学習用物体それぞれに対応する一つ以上の第ｋ学習用物体プロポーザルを出力するようにし、（２−４）前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力するようにし、（２−５）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋ学習用プーリング済み特徴マップに適用して、前記第ｋ学習用物体に対応する第ｋ学習用物体検出情報を出力するようにし、（２−６）前記ＦＣロスレイヤをもって、前記第ｋ学習用物体検出情報と、これに対応するＧＴとを参照して一つ以上の第ｋＦＣロスを取得するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、少なくとも一つのテストイメージが取得されると、テスティング装置が、（ｉ）前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第１テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第１テスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１テスト用加工イメージ内に位置する一つ以上の第１テスト用物体それぞれに対応する一つ以上の第１テスト用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１テスト用物体に対応する第１テスト用物体検出情報を出力するようにする段階；及び
（ｂ）ｋを２からｎまで増加させながら、前記テスティング装置が、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）テスト用加工イメージ上の一つ以上の第（ｋ−１）テスト用物体プロポーザルを参照して、前記第（ｋ−１）テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）テスト用ターゲット領域を探すようにし、（ｉｉ）前記テストイメージ、またはリサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する第ｋテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記テスト用第ｋ加工イメージに前記コンボリューション演算を適用して第ｋテスト用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋテスト用特徴マップを参照して、前記第ｋテスト用加工イメージ内に位置する一つ以上の第ｋテスト用物体それぞれに対応する一つ以上の第ｋテスト用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋテスト用プーリング済み特徴マップに適用して、前記第ｋテスト用物体に対応する第ｋテスト用物体検出情報を出力するようにする段階；
を含むことを特徴とする方法。
前記学習装置は、ＲＰＮロスレイヤをもって、前記第１学習用物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、
前記学習装置は、前記ＲＰＮロスレイヤをもって、前記第ｋ学習用物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整することを特徴とする請求項８に記載の方法。
前記（ｂ）段階で、
前記テスティング装置は、前記ターゲット物体予測ネットワークをもって、（ｉ）前記第（ｋ−１）テスト用加工イメージをＭｘＮグリッドで区分するようにし、（ｉｉ）前記第（ｋ−１）テスト用物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するテスト用プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記テスト用プロポーザルそれぞれの全体領域または分割の領域が存在し、（ｉｉｉ）ムービングウィンドウの中の少なくとも一つの領域を利用して前記第（ｋ−１）テスト用ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記テスト用ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする請求項８に記載の方法。
前記（ｂ）段階で、
前記テスティング装置は、前記テストイメージのサイズを前記第１テスト用加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたテストイメージを生成した後、前記リサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第ｋテスト用加工イメージを生成することを特徴とする請求項８に記載の方法。
前記（ｂ）段階で、
前記テスティング装置は、前記テストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第ｋテスト用加工イメージを生成することを特徴とする請求項８に記載の方法。
前記第ｋテスト用加工イメージのサイズが、前記第（ｋ−１）テスト用ターゲット領域のサイズより大きくなるように前記第ｋテスト用加工イメージをリサイズすることを特徴とする請求項１２に記載の方法。
前記第１テスト用加工イメージないし第ｎテスト用加工イメージのサイズが同一の大きさを有することを特徴とする請求項８に記載の方法。
ターゲット物体予測ネットワークを用いた物体検出器のパラメータの学習するための学習装置において、
各インストラクションを格納する少なくとも一つのメモリ；及び
（Ｉ）（ｉ）一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第１加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する一つ以上の第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１特徴マップ上で、前記第１物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにし、（ｖ）ＦＣロスレイヤをもって、前記第１物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセス、及び（ＩＩ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ特徴マップを参照して、前記第ｋ加工イメージ内に位置する一つ以上の第ｋ物体それぞれに対応する一つ以上の第ｋ物体プロポーザルを出力するようにし、（ｉｖ）プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋプーリング済み特徴マップに適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにし、（ｖｉ）前記ＦＣロスレイヤをもって、前記第ｋ物体検出情報と、これに対応するＧＴとを参照して一つ以上の第ｋＦＣロスを取得するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とする学習装置。
前記（Ｉ）プロセスで、
前記プロセッサは、ＲＰＮロスレイヤをもって、前記第１物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、
前記（ＩＩ）プロセスで、
前記プロセッサは、前記ＲＰＮロスレイヤをもって、前記第ｋ物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整することを特徴とする請求項１５に記載の学習装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記ターゲット物体予測ネットワークをもって、（ｉ）前記第（ｋ−１）加工イメージをＭｘＮグリッドで区分するようにし、（ｉｉ）前記第（ｋ−１）物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するプロポーザルの個数を示す少なくとも一つ以上のヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、（ｉｉｉ）ムービングウィンドウの中の少なくとも一つの領域を利用して、前記第（ｋ−１）ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする請求項１５に記載の学習装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記トレーニングイメージのサイズを前記第１加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたトレーニングイメージを生成した後、前記リサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第ｋ加工イメージを生成することを特徴とする請求項１５に記載の学習装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記トレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第ｋ加工イメージを生成することを特徴とする請求項１５に記載の学習装置。
前記第ｋ加工イメージのサイズが、前記第（ｋ−１）ターゲット領域のサイズより大きくなるように前記第ｋ加工イメージをリサイズすることを特徴とする請求項１９に記載の学習装置。
前記第１加工イメージないし第ｎ加工イメージのサイズが同一の大きさを有することを特徴とする請求項１５に記載の学習装置。
ターゲット物体予測ネットワークを用いた物体検出器をテストするためのテスティング装置において、
各インストラクションを格納する少なくとも一つのメモリ；及び
学習装置が、（１−１）一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第１学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１学習用特徴マップを出力するようにし、（１−２）ＲＰＮをもって、前記第１学習用特徴マップを利用して、前記第１学習用加工イメージ内に位置する一つ以上の第１学習用物体それぞれに対応する一つ以上の第１学習用物体プロポーザルを出力するようにし、（１−３）プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力するようにし、（１−４）ＦＣレイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１学習用物体に対応する第１学習用物体検出情報を出力するようにし、（１−５）ＦＣロスレイヤをもって、前記第１学習用物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するようにし、ｋを２からｎまで増加させながら、（２−１）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）学習用加工イメージ上の一つ以上の第（ｋ−１）学習用物体プロポーザルを参照して、前記第（ｋ−１）学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット学習用領域を探すようにし、（２−２）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）学習用ターゲット領域に対応する第ｋ学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ学習用加工イメージに前記コンボリューション演算を適用して第ｋ学習用特徴マップを出力するようにし、（２−３）前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ学習用加工イメージ内に位置する一つ以上の第ｋ学習用物体それぞれに対応する一つ以上の第ｋ学習用物体プロポーザルを出力するようにし、（２−４）前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力するようにし、（２−５）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋ学習用プーリング済み特徴マップに適用して、前記第ｋ学習用物体に対応する第ｋ学習用物体検出情報を出力するようにし、（２−６）前記ＦＣロスレイヤをもって、前記第ｋ学習用物体検出情報と、これに対応するＧＴとを参照して一つ以上の第ｋＦＣロスを取得するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、（Ｉ）（ｉ）前記コンボリューションレイヤをもって、テストイメージに対応する少なくとも一つの第１テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第１テスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１テスト用加工イメージ内に位置する一つ以上の第１テスト用物体それぞれに対応する一つ以上の第１テスト用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１テスト用物体に対応する第１テスト用物体検出情報を出力するようにするプロセス、及び（ＩＩ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）テスト用加工イメージ上の一つ以上の第（ｋ−１）テスト用物体プロポーザルを参照して、前記第（ｋ−１）テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）テスト用ターゲット領域を探すようにし、（ｉｉ）前記テストイメージ、またはリサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する第ｋテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記テスト用第ｋ加工イメージに前記コンボリューション演算を適用して第ｋテスト用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋテスト用特徴マップを参照して、前記第ｋテスト用加工イメージ内に位置する一つ以上の第ｋテスト用物体それぞれに対応する一つ以上の第ｋテスト用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記ＦＣ演算を前記第ｋテスト用プーリング済み特徴マップに適用して、前記第ｋテスト用物体に対応する第ｋテスト用物体検出情報を出力するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とするテスティング装置。
前記学習装置は、ＲＰＮロスレイヤをもって、前記第１学習用物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、
前記学習装置は、前記ＲＰＮロスレイヤをもって、前記第ｋ学習用物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整することを特徴とする請求項２２に記載のテスティング装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記ターゲット物体予測ネットワークをもって、（ｉ）前記第（ｋ−１）テスト用加工イメージをＭｘＮグリッドで区分するようにし、（ｉｉ）前記第（ｋ−１）テスト用物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するテスト用プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記テスト用プロポーザルそれぞれの全体領域または分割の領域が存在し、（ｉｉｉ）ムービングウィンドウの中の少なくとも一つの領域を利用して、前記第（ｋ−１）テスト用ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中で、前記テスト用ヒストグラムの合計が最も大きい値を有する領域であることを特徴とする請求項２２に記載のテスティング装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記テストイメージのサイズを前記第１テスト用加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたテストイメージを生成した後、前記リサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第ｋテスト用加工イメージを生成することを特徴とする請求項２２に記載のテスティング装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記テストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する少なくとも一つの領域をクロップし、前記クロップされた領域をリサイズして、前記第ｋテスト用加工イメージを生成することを特徴とする請求項２２に記載のテスティング装置。
前記第ｋテスト用加工イメージのサイズが、前記第（ｋ−１）テスト用ターゲット領域のサイズより大きくなるように前記第ｋテスト用加工イメージをリサイズすることを特徴とする請求項２６に記載のテスティング装置。
前記第１テスト用加工イメージないし第ｎテスト用加工イメージのサイズが、同一の大きさを有することを特徴とする請求項２２に記載のテスティング装置。