JP6857370B2

JP6857370B2 - ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置

Info

Publication number: JP6857370B2
Application number: JP2020002986A
Authority: JP
Inventors: 桂賢金; 鎔重金; 寅洙金; 鶴京金; 雲鉉南; 碩▲ふん▼ 夫; 明哲成; 東勳呂; 宇宙柳; 泰雄張; 景中鄭; 泓模諸; 浩辰趙
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-22
Filing date: 2020-01-10
Publication date: 2021-04-14
Anticipated expiration: 2040-01-10
Also published as: JP2020119545A; KR20200091329A; KR102338744B1; EP3686782A1; US10509987B1; CN111461106A; CN111461106B; US10621476B1

Description

本発明は、ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標（ＫＰＩ）のようなユーザー要求事項に係る最適化のための再構成可能なＣＮＮ基盤の物体検出器のパラメータを学習する方法に関し；より詳細には、ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤の物体検出器のパラメータを学習する方法において、（ａ）少なくとも一つのトレーニングイメージが入力されると、（ｉ）一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第１加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する一つ以上の第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１特徴マップ上で、前記第１物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにする段階；（ｂ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはこれに対応するリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ特徴マップを参照して、前記第ｋ加工イメージ内に位置する一つ以上の第ｋ物体それぞれに対応する一つ以上の第ｋ物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにする段階；及び（ｃ）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第1物体プロポーザルないし前記第n物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第1物体検出情報ないし前記第n物体検出情報を統合して統合物体検出情報を出力するようにし、（ｉｉ）ＦＣロスレイヤをもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の、少なくとも一部を学習する段階；を含むことを特徴とする前記方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置に関する。

機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）において、コンボリューションニューラルネットワーク（ＣＮＮまたはＣｏｎｖＮｅｔ）は、視覚的イメージ分析に成功的に適用された深層フィードフォワード人工ニューラルネットワーク（Ｄｅｅｐｆｅｅｄｆｏｒｗａｒｄａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）である。

ＣＮＮ基盤の物体検出器は、（ｉ）コンボリューションレイヤをもって、入力イメージにコンボリューション演算を適用することにより、前記入力イメージに対応した特徴マップを出力し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記特徴マップを利用して、前記入力イメージ内の物体に対応するプロポーザルを確認し、（ｉｉｉ）プーリングレイヤをもって、前記確認されたプロポーザルに対応する前記特徴マップ上の領域に少なくとも一つのプーリング演算を適用して、プーリング済み特徴マップを取得し、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、少なくとも一つのＦＣ演算を、前記取得されたプーリング済み特徴マップないし前記物体に関する出力クラス情報と、リグレッション情報とに適用することにより、前記入力イメージ上の前記物体を検出する。

だが、前記ＣＮＮ基盤の物体検出器は、前記コンボリューションレイヤにより前記入力イメージのサイズを縮小したサイズの前記特徴マップを用いることになるので、前記入力イメージに位置するサイズの大きい物体は容易に検出されるが、前記入力イメージに位置するサイズの小さい物体を検出することは難しい。

他の例として、前記入力イメージを拡大して取得した、リサイズされたイメージを利用してサイズが小さい物体を検出し得るが、この場合は、前記物体検出器による演算量が増加することになり、これによって前記物体検出器の性能が低下する。

従って、本発明の発明者は、入力イメージ上に位置する様々なサイズの物体を、演算時間を減らして効率的に検出する学習方法と学習装置及びこれを利用したテスティング方法とテスティング装置を提案したい。

本発明は、前述した問題点を全て解決することを目的とする。

本発明は、イメージ上の物体をサイズに関係なく効率的に検出できるように、ＣＮＮ基盤の物体検出器を提供することを他の目的とする。

本発明は、さらに演算量を増加させないうえ、前記イメージ上のサイズが小さい物体を検出できるようにするＣＮＮ基盤の物体検出器を提供することを別の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記の通りである。

本発明の一態様によれば、ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤の物体検出器のパラメータを学習する方法において、（ａ）少なくとも一つのトレーニングイメージが入力されると、学習装置が、（ｉ）一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第１加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する一つ以上の第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１特徴マップ上で、前記第１物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにする段階；（ｂ）ｋを２からｎまで増加させながら、前記学習装置が、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはこれに対応するリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ特徴マップを参照して、前記第ｋ加工イメージ内に位置する一つ以上の第ｋ物体それぞれに対応する一つ以上の第ｋ物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにする段階；及び（ｃ）前記学習装置が、（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を出力するようにし、（ｉｉ）ＦＣロスレイヤをもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階；を含むことを特徴とする学習方法が提供される。

一例として、前記（ｃ）段階で、前記学習装置は、ＲＰＮロスレイヤをもって、前記統合物体プロポーザルと、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを算出するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータを学習する。

一例として、前記（ｃ）段階で、前記第（ｋ−１）加工イメージ及び前記第ｋ加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第（ｋ−１）加工イメージ上で前記第（ｋ−１）物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第（ｋ−１）特定物体プロポーザルとし、前記第ｋ加工イメージ上で、前記第ｋ物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第ｋ特定物体プロポーザルであるとする場合、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、前記ＩＯＵが前記第１閾値未満であると判断されれば、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの間の調整ＩＯＵを算出するようにし、前記調整ＩＯＵが第２閾値以上と判断されれば、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの中で、（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。

一例として、前記調整ＩＯＵは、前記第ｋ加工イメージ上で前記第（ｋ−１）特定物体プロポーザルに対応する領域と、前記第（ｋ−１）加工イメージ上で前記第ｋ特定物体プロポーザルに対応する領域とを参照して算出される。

一例として、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）特定物体プロポーザルと、前記第k特定物体プロポーザルとの中で（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記加工イメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成する。

一例として、前記（ｃ）段階で、前記第（ｋ−１）加工イメージ及び前記第ｋ加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第（ｋ−１）加工イメージ上で、前記第（ｋ−１）物体検出情報に含まれた物体バウンディングボックス（Ｂｏｕｎｄｉｎｇｂｏｘ）の中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第（ｋ−１）特定物体バウンディングボックスとし、前記第ｋ加工イメージ上で、前記第ｋ物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第ｋ特定物体バウンディングボックスとした場合、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの間のＩＯＵが、第１閾値以上になるか否かを判断するようにし、前記ＩＯＵが前記第１閾値未満と判断されると、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの間の調整ＩＯＵとを算出するようにし、前記調整ＩＯＵが、第２閾値以上と判断されたら、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの中から（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。

一例として、前記調整ＩＯＵは、前記第ｋ加工イメージ上で前記第（ｋ−１）特定物体バウンディングボックスに対応する領域と、前記第（ｋ−１）加工イメージ上で前記第ｋ特定物体バウンディングボックスに対応する領域とを参照して算出される。

一例として、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの中の（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記加工イメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成する。

本発明の他の態様によれば、ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤の物体検出器をテスティングする方法において、（ａ）学習装置が、（１）（ｉ）一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第１学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１学習用特徴マップを出力するようにし、（ｉｉ）ＲＰＮをもって、前記第１学習用特徴マップを利用して、前記第１学習用加工イメージ内に位置する一つ以上の第１学習用物体それぞれに対応する一つ以上の第１学習用物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣレイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１学習用物体に対応する第１学習用物体検出情報を出力するようにし、（２）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）学習用加工イメージ上の一つ以上の第（ｋ−１）学習用物体プロポーザルを参照して、前記第（ｋ−１）学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）学習用ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはこれに対応する一つ以上のリサイズされたトレーニングイメージ上で、前記第（ｋ−１）学習用ターゲット領域に対応する第ｋ学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ学習用加工イメージに前記コンボリューション演算を適用して第ｋ学習用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ学習用加工イメージ内に位置する一つ以上の第ｋ学習用物体それぞれに対応する一つ以上の第ｋ学習用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋ学習用プーリング済み特徴マップにＦＣ演算を適用して、前記第ｋ学習用物体に対応する第ｋ学習用物体検出情報を出力するようにし、（３）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、（ｉｉ）ＦＣロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、少なくとも一つのテストイメージが取得されると、テスティング装置が、（ｉ）前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第１テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第１テスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１テスト用加工イメージ内に位置する一つ以上の第１テスト用物体それぞれに対応する一つ以上の第１テスト用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１テスト用物体に対応する第１テスト用物体検出情報を出力するようにする段階；（ｂ）ｋを２からｎまで増加させながら、前記テスティング装置が、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）テスト用加工イメージ上の一つ以上の第（ｋ−１）テスト用物体プロポーザルを参照して、前記第（ｋ−１）テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）テスト用ターゲット領域を探すようにし、（ｉｉ）前記テストイメージ、またはこれに対応する一つ以上のリサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する第ｋテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋテスト用加工イメージに前記コンボリューション演算を適用して第ｋテスト用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋテスト用特徴マップを参照して、前記第ｋテスト用加工イメージ内に位置する一つ以上の第ｋテスト用物体それぞれに対応する一つ以上の第ｋテスト用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋテスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋテスト用物体に対応する第ｋテスト用物体検出情報を出力するようにする段階；及び（ｃ）前記テスティング装置が（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報を統合してテスト用統合物体検出情報を出力する段階；を含むことを特徴とするテスティング方法が提供される。

一例として、前記（ｃ）段階で、前記第（ｋ−１）テスト用加工イメージ及び前記第ｋテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第（ｋ−１）テスト用加工イメージ上で前記第（ｋ−１）テスト用物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第（ｋ−１）特定物体プロポーザルとし、前記第ｋテスト用加工イメージ上で、前記第ｋテスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第ｋテスト用特定物体プロポーザルであるとする場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、前記テスト用ＩＯＵが前記第１閾値未満であると判断されると、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの間のテスト用調整ＩＯＵを算出するようにし、前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの中で、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。

一例として、前記テスト用調整ＩＯＵは、前記第ｋテスト用加工イメージ上で前記第（ｋ−１）テスト用特定物体プロポーザルに対応する領域と、前記第（ｋ−１）テスト用加工イメージ上で前記第ｋテスト用特定物体プロポーザルに対応する領域とを参照して算出される。

一例として、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記テスト用ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記テスト用ＩＯＵが前記第１閾値以上であると判断されれば、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの中で、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記テスト加工イメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成する。

一例として、前記（ｃ）段階で、前記第（ｋ−１）テスト用加工イメージ及び前記第ｋテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第（ｋ−１）テスト用加工イメージ上で、前記第（ｋ−１）テスト用物体検出情報に含まれたテスト用物体バウンディングボックス（Ｂｏｕｎｄｉｎｇｂｏｘ）の中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第（ｋ−１）テスト用特定物体バウンディングボックスとし、前記第ｋテスト用加工イメージ上で、前記第ｋテスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第ｋテスト用特定物体バウンディングボックスとした場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの間のテスト用ＩＯＵが、第１閾値以上になるかを判断するようにし、前記テスト用ＩＯＵが前記第１閾値未満であると判断されれば、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの間のテスト用調整ＩＯＵを算出するようにし、前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの中から（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。

一例として、前記テスト用調整ＩＯＵは、前記第ｋテスト用加工イメージ上で前記第（ｋ−１）テスト用特定物体バウンディングボックスに対応する領域と、前記第（ｋ−１）テスト用加工イメージ上で前記第ｋテスト用特定物体バウンディングボックスに対応する領域とを参照して算出される。

一例として、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記テスト用ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記テスト用ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの中から（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記テスト用加工イメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成する。

本発明のまた他の態様によれば、ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤の物体検出器のパラメータを学習するための学習装置において、インストラクションを格納する少なくとも一つのメモリ；及び（Ｉ）（ｉ）一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第１加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する一つ以上の第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１特徴マップ上で、前記第１物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにするプロセス、（ＩＩ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはこれに対応するリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ特徴マップを参照して、前記第ｋ加工イメージ内に位置する一つ以上の第ｋ物体それぞれに対応する一つ以上の第ｋ物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにするプロセス、及び（ＩＩＩ）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を出力するようにし、（ｉｉ）ＦＣロスレイヤをもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とする学習装置が提供される。

一例として、前記（ＩＩＩ）プロセスで、前記プロセッサは、ＲＰＮロスレイヤをもって、前記統合物体プロポーザルと、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを算出するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータを学習する。

一例として、前記（ＩＩＩ）プロセスで、前記第（ｋ−１）加工イメージ及び前記第ｋ加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第（ｋ−１）加工イメージ上で前記第（ｋ−１）物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第（ｋ−１）特定物体プロポーザルとし、前記第ｋ加工イメージ上で、前記第ｋ物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第ｋ特定物体プロポーザルであるとする場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、前記ＩＯＵが前記第１閾値未満であると判断されれば、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの間の調整ＩＯＵを算出するようにし、前記調整ＩＯＵが第２閾値以上と判断されれば、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの中で、（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。

一例として、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの中の（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記加工イメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成する。

一例として、前記（ＩＩＩ）プロセスで、前記第（ｋ−１）加工イメージ及び前記第ｋ加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第（ｋ−１）加工イメージ上で、前記第（ｋ−１）物体検出情報に含まれた物体バウンディングボックス（Ｂｏｕｎｄｉｎｇｂｏｘ）の中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第（ｋ−１）特定物体バウンディングボックスとし、前記第ｋ加工イメージ上で、前記第ｋ物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第ｋ特定物体バウンディングボックスとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの間のＩＯＵが、第１閾値以上になるか否かを判断するようにし、前記ＩＯＵが前記第１閾値未満と判断されると、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの間の調整ＩＯＵとを算出するようにし、前記調整ＩＯＵが、第２閾値以上と判断されたら、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの中から（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。

一例として、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの中から（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記加工イメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成する。

本発明のまた他の態様によれば、ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤の物体検出器をテストするためのテスティング装置において、インストラクションを格納する少なくとも一つのメモリ；及び学習装置が、（１）（ｉ）一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第１学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１学習用特徴マップを出力するようにし、（ｉｉ）ＲＰＮをもって、前記第１学習用特徴マップを利用して、前記第１学習用加工イメージ内に位置する一つ以上の第１学習用物体それぞれに対応する一つ以上の第１学習用物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣレイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１学習用物体に対応する第１学習用物体検出情報を出力するようにし、（２）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）学習用加工イメージ上の一つ以上の第（ｋ−１）学習用物体プロポーザルを参照して、前記第（ｋ−１）学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）学習用ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはこれに対応する一つ以上のリサイズされたトレーニングイメージ上で、前記第（ｋ−１）学習用ターゲット領域に対応する第ｋ学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ学習用加工イメージに前記コンボリューション演算を適用して第ｋ学習用特徴マップを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋ学習用プーリング済み特徴マップにＦＣ演算を適用して、前記第ｋ学習用物体に対応する第ｋ学習用物体検出情報を出力するようにし、（３）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、（ｉｉ）ＦＣロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、（Ｉ）（ｉ）前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対応する少なくとも一つの第１テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第１テスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１テスト用加工イメージ内に位置する一つ以上の第１テスト用物体それぞれに対応する一つ以上の第１テスト用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１テスト用物体に対応する第１テスト用物体検出情報を出力するようにするプロセス、（ＩＩ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）テスト用加工イメージ上の一つ以上の第（ｋ−１）テスト用物体プロポーザルを参照して、前記第（ｋ−１）テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）テスト用ターゲット領域を探すようにし、（ｉｉ）前記テストイメージ、またはこれに対応する一つ以上のリサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する第ｋテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋテスト用加工イメージに前記コンボリューション演算を適用して第ｋテスト用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋテスト用特徴マップを参照して、前記第ｋテスト用加工イメージ内に位置する一つ以上の第ｋテスト用物体それぞれに対応する一つ以上の第ｋテスト用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋテスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋテスト用物体に対応する第ｋテスト用物体検出情報を出力するようにするプロセス、及び（ＩＩＩ）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とするテスティング装置が提供される。

一例として、前記（ＩＩＩ）プロセスで、前記第（ｋ−１）テスト用加工イメージ及び前記第ｋテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第（ｋ−１）テスト用加工イメージ上で前記第（ｋ−１）テスト用物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第（ｋ−１）特定物体プロポーザルとし、前記第ｋテスト用加工イメージ上で、前記第ｋテスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第ｋテスト用特定物体プロポーザルであるとする場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、前記テスト用ＩＯＵが前記第１閾値未満であると判断されれば、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの間のテスト用調整ＩＯＵを算出するようにし、前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの中で、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。

一例として、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記テスト用ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記テスト用ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの中の（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記テスト加工イメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成する。

一例として、前記（ＩＩＩ）プロセスで、前記第（ｋ−１）テスト用加工イメージ及び前記第ｋテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第（ｋ−１）テスト用加工イメージ上で、前記第（ｋ−１）テスト用物体検出情報に含まれたテスト用物体バウンディングボックス（Ｂｏｕｎｄｉｎｇｂｏｘ）の中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第（ｋ−１）テスト用特定物体バウンディングボックスとし、前記第ｋテスト用加工イメージ上で、前記第ｋテスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第ｋテスト用特定物体バウンディングボックスとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの間のテスト用ＩＯＵが、第１閾値以上になるか否かを判断するようにし、前記テスト用ＩＯＵが前記第１閾値未満と判断されると、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの間のテスト用調整ＩＯＵを算出するようにし、前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの中から（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択させることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。

一例として、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記テスト用ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記テスト用ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの中の（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記テスト用加工イメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択させることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成する。

本発明によれば、入力イメージを互いに異なるサイズを有するイメージに加工した上で、それぞれの加工されたイメージ上にターゲット物体が位置するものと推定されるターゲット領域を利用してイメージ内の小さな物体を容易に検出し得る効果がある。

また、本発明によれば、前記入力イメージを互いに異なるサイズのイメージに加工した後、それぞれの前記加工されたイメージ上にターゲット物体が位置すると推定されるターゲット領域をクロップして加工されたイメージを利用して、イメージ内のサイズが小さい物体を検出することにより、演算量と演算時間を最小化し得る効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者（以下「通常の技術者」）は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
本発明の一例に係るターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用した、ＣＮＮ基盤物体検出器を学習する学習装置を概略的に示した図面である。本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記ＣＮＮ基盤物体検出器を学習する学習方法を概略的に示した図面である。本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記ＣＮＮ基盤物体の検出器の学習方法から考慮される、ＲＰＮから出力される、物体プロポーザルを概略的に示した図面である。本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記ＣＮＮ基盤物体検出器の学習方法において考慮される、前記ＲＰＮから出力される前記物体プロポーザルを利用してターゲット領域を探す状態を概略的に示した図面である。本発明に一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記ＣＮＮ基盤物体検出器の学習方法において考慮される、加工イメージを利用して少なくとも一つのターゲット物体を検出する状態を概略的に示した図面である。本発明に一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記ＣＮＮ基盤物体検出器の学習方法において考慮される、他のターゲット領域内に含まれる少なくとも一つの物体に対応する物体プロポーザルと、物体検出情報とを統合する状態を概略的に示した図面である。本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記ＣＮＮ基盤物体検出器をテスティングするためのテスティング装置を概略的に示した図面である。本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記ＣＮＮ基盤物体検出器をテスティングするためのテスティング方法を概略的に示した図面である。

後述する本発明に対する詳細な説明は、本発明の各目的、技術的解決方法及び長所を明確にするために、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように充分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得り、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。

図１は、本発明の一例に係るターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用した、ＣＮＮ基盤物体検出器を学習する学習装置を概略的に示した図面である。

図１を参照すれば、前記学習装置１００は、通信部１１０とプロセッサ１２０とを含み得る。

まず、前記通信部１１０は、少なくとも一つのトレーニングイメージを取得するか、他の装置をもって取得するように支援し得る。

この際、前記トレーニングイメージは、データベース１３０に格納され得り、前記データベース１３０は、前記トレーニングイメージに位置する一つ以上の物体それぞれに対応するクラス情報及び位置情報に対する少なくとも一つのＧＴ（ｇｒｏｕｎｄｔｒｕｔｈ）を格納し得る。

また、前記学習装置は、後述するプロセスを遂行するコンピュータ読み取り可能なインストラクション（ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｉｎｓｔｒｕｃｔｉｏｎ）を格納し得るメモリ１１５を追加的に含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体等は、一つのプロセッサに統合されて機能することもできる。

次に、前記プロセッサ１２０は（ｉ）一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第１加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する一つ以上の第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１特徴マップ上で、前記第１物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。また、前記プロセッサ１２０は、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ特徴マップを参照して、前記第ｋ加工イメージ内に位置する一つ以上の第ｋ物体それぞれに対応する一つ以上の第ｋ物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するプロセスを遂行するか、他の装置をもって遂行するように支援し得る。

その後、前記プロセッサ１２０が、（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を出力するようにするプロセス、及び（ｉｉ）ＦＣロスレイヤをもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行する。

また、前記プロセッサ１２０は、少なくとも一つのＲＰＮロスレイヤをもって、前記統合物体プロポーザルと、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを取得するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を学習する。

この際、本発明の一例に係る前記学習装置１００は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置１００として採択され得る。また、図１では一つの学習装置１００のみを示したが、これに限定されず、前記学習装置は複数に分けて役割を遂行することもできる。

このように構成された本発明の一例に係る前記学習装置１００を利用して、前記ターゲット物体予測ネットワーク及び前記ターゲット物体統合ネットワークを利用してＣＮＮ基盤物体検出器のパラメータを学習する方法を、図２を参照して説明する。

まず、前記トレーニングイメージが入力されると、前記学習装置１００がコンボリューションレイヤ１２１をもって、前記トレーニングイメージに対応する前記第１加工イメージに前記コンボリューション演算を適用して、前記第１特徴マップを出力するようにし得る。ここで、前記コンボリューションレイヤ１２１は、単一のコンボリューションレイヤまたは多数のコンボリューションレイヤになり得る。

この際、前記学習装置１００は、イメージ加工ネットワーク１１１をもって、前記トレーニングイメージを加工してサイズが互いに異なるイメージ多数を含むイメージピラミッドを生成するようにし得、前記イメージピラミッドイメージの中の一つを前記第１加工イメージとして前記コンボリューションレイヤ１２１に入力し得る。

次に、前記学習装置１００は、ＲＰＮ１２２をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する前記第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし得る。

一例として、図３を参照すれば、前記ＲＰＮ１２２から出力された前記第１物体プロポーザルは、前記第１加工イメージ内の前記第１物体それぞれに対応し得、前記第１物体プロポーザルそれぞれは、前記第１物体それぞれ、つまり、タグ付け領域に対応する位置情報と、前記タグ付け領域それぞれが物体であるか否かに対する情報とを有する各プロポーザルに対する情報を含み得る。この際、物体であるか否かに対する情報は、前記それぞれの物体プロポーザルが物体であると予測される確率情報を含み得り、前記プロポーザルボックスに関する情報は、前記プロポーザルボックスが前記物体の位置に一致すると予測される確率情報を含み得る。

次に、前記学習装置１００は、プーリングレイヤ１２３をもって、前記第１特徴マップ上で、前記第１物体プロポーザルに対応する少なくとも一つの領域に前記プーリング演算を適用して、前記第１プーリング済み特徴マップを出力するようにし、ＦＣレイヤ１２４をもって、前記第１プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにし得る。

この際、前記第１物体検出情報は、バウンディングボックスに関する情報（すなわち、前記第１物体それぞれに関する位置情報）と、前記第１物体プロポーザルに対応する前記第１物体それぞれに関するクラス情報とを含み得る。また、前記クラス情報は、前記第１物体それぞれが該当クラスと予測される確率情報を含み得、前記バウンディングボックスに関する情報は、前記バウンディングボックスそれぞれが前記物体の位置に一致するものと予測される確率情報を含み得る。

次に、前記学習装置１００は、前記ターゲット物体予測ネットワーク１２５をもって、第１加工イメージ上の前記第１物体プロポーザルを参照して、前記第１加工イメージ上で、前記ターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域を探すようにし得る。

一例として、図４を参照すれば、前記ターゲット物体予測ネットワーク１２５は（ｉ）前記第１加工イメージをＭｘＮグリッドで区分し、（ｉｉ）前記第（ｋ−１）物体プロポーザルの中で、前記グリッドの各セルごとにそれぞれに対応するプロポーザルの個数を示す少なくとも一つ以上のヒストグラムを生成するようにし、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、好ましくは、前記対応するプロポーザルのサイズが、前記ＲＰＮ１２２から出力された前記物体プロポーザルの中の、前記ターゲット物体のサイズに対応する予め設定されているサイズより小さくなるようにすることができ、（ｉｉｉ）前記第１ターゲット領域のサイズに対応するＰｘＱサイズを有するムービングウィンドウの少なくとも一つの領域を利用して前記第１ターゲット領域（ＴＲ）を決定し、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中の前記ヒストグラムの合計が最も大きい値を有し得る。

次に、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記トレーニングイメージ、またはこれをリサイズしたイメージ、つまり、前記リサイズされたトレーニングイメージ上の前記第１ターゲット領域（ＴＲ）に対応する第２加工イメージを取得するか、他の装置をもって取得するように支援し得る。

この際、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記トレーニングイメージのサイズを前記第１加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたトレーニングイメージを生成した後、前記リサイズされたトレーニングイメージ上で前記第１ターゲット領域（ＴＲ）に対応する少なくとも一つの領域をクロップして前記第２加工イメージを生成するか、前記トレーニングイメージ上の前記第１ターゲット領域（ＴＲ）に対応する少なくとも一つの領域をクロップ及びリサイズして前記第２加工イメージを生成するようにし得る。

一例として、前記イメージ加工ネットワーク１１１は、前記トレーニングイメージに対応する前記イメージピラミッドの中の、第１加工イメージよりサイズが大きいイメージ上で、第１ターゲット領域（ＴＲ）に対応する少なくとも一つの領域をクロップして、前記第２加工イメージを生成し得る。また、前記イメージ加工ネットワーク１１１は、前記トレーニングイメージにおいて前記第１ターゲット領域（ＴＲ）に対応する少なくとも一つの領域をクロップし、前記クロップされたイメージをリサイズすることにより、前記第２加工イメージを生成し得る。この際、前記第２加工イメージは、サイズが前記第１ターゲット領域のサイズより大きくなるようにリサイズされ得る。このために、前記イメージ加工ネットワーク１１１は、前記クロップされたイメージを、前記トレーニングイメージの前記イメージピラミッドの中の、前記第１加工イメージの次のイメージのサイズに対応するようにリサイズして、前記第２加工イメージを生成し得る。

次に、前記学習装置１００は、前記生成された第２加工イメージを利用して、前記のような過程を繰り返して前記トレーニングイメージ上でのサイズが小さい物体、つまり、遠距離に位置する物体を効率的に検出できるようになる。

つまり、前記学習装置１００は、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワーク１２５をもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、前記ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。そして、前記学習装置１００は、前記ＲＰＮ１２２をもって、前記第ｋ特徴マップを利用して、前記第ｋ加工イメージ内に位置する第ｋ物体それぞれに対応する前記第ｋ物体プロポーザルを出力するようにし、前記プーリングレイヤ１２３をもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、前記少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし得る。その後、前記テスティング装置１００は、前記ＦＣレイヤ１２４をもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにし得る。

一例として、図５を参照すれば、前記イメージピラミッドの中の、最小サイズのイメージである第１イメージ（Ｐ１）に対応する前記第１加工イメージ（ＭＩ１）上で物体検出が遂行されて前記第１ターゲット領域（ＴＲ１）が予測され、前記イメージピラミッドの中で、次の最小サイズのイメージである第２イメージ（Ｐ２）において、前記第１ターゲット領域（ＴＲ１）に対応する前記第２加工イメージ（ＭＩ２）上で物体検出が遂行されて第２ターゲット領域（ＴＲ２）が確認され、前記イメージピラミッドの中の、第２イメージ（Ｐ２）の次の最小サイズのイメージである第３イメージ（Ｐ３）において、前記第２ターゲット領域（ＴＲ２）に対応する第３加工イメージ（ＭＩ３）上で物体検出が遂行されることにより、特定サイズを有する第ｋ物体、好ましくは、遠距離に位置するサイズが小さい物体が短い演算時間によって容易に検出され得るようになる。

この際、前記第１加工イメージないし第（ｎ−１）加工イメージにおいて、第１ターゲット領域ないし第（ｎ−１）ターゲット領域のサイズは同一になるようにするか、それぞれの加工イメージのサイズに対応してアスペクト比（ａｓｐｅｃｔｒａｔｉｏ）を同一にした状態でそのサイズが異なるようにすることもできる。また、前記第１加工イメージないし前記第ｎ加工イメージは、同一の大きさを有するようにすることもできる。

その後、前記学習装置１００は、（ｉ）前記ターゲット物体統合ネットワーク１２６をもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を出力するようにするプロセスを遂行する。

一例として、図６を参照すれば、前記第（ｋ−１）加工イメージ（ＭＩ（ｋ−１））及び前記第ｋ加工イメージ（ＭＩ（ｋ））上に少なくとも一つの特定同一物体が位置し、前記第（ｋ−１）加工イメージ（ＭＩ（ｋ−１））上の前記第（ｋ−１）物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第（ｋ−１）特定物体プロポーザルとし、前記第ｋ加工イメージ（ＭＩ（ｋ））上で、前記第ｋ物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第ｋ特定物体プロポーザルであるとする場合、前記学習装置１００は、前記ターゲット物体統合ネットワーク１２６をもって、前記第（ｋ−１）特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋ特定物体プロポーザル（ＰＢ（ｋ））との間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにする。その後、前記ＩＯＵが前記第１閾値未満と判断されれば、前記第（ｋ−１）特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋ特定物体プロポーザル（ＰＢ（ｋ））との間の調整ＩＯＵが算出されるようにする。

この際、前記調整ＩＯＵは、前記第ｋ加工イメージ（ＭＩ（ｋ））上で前記第（ｋ−１）特定物体プロポーザル（ＰＢ（ｋ−１））に対応する領域、すなわち、交差領域（ＰＢ（ｋ−１），ＭＩ（ｋ））と、前記第（ｋ−１）加工イメージ（ＭＩ（ｋ−１））上で前記第ｋ特定物体プロポーザル（ＰＢ（ｋ））に対応する領域、すなわち、交差領域（ＰＢ（ｋ），ＭＩ（ｋ−１））とを参照して算出されたＩＯＵである。

そして、前記調整ＩＯＵが第２閾値以上と判断されれば、前記学習装置１００は、前記第（ｋ−１）特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋ特定物体プロポーザル（ＰＢ（ｋ））との中で、（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。

しかし、前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記学習装置１００は、前記第（ｋ−１）特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋ特定物体プロポーザル（ＰＢ（ｋ））とが、それぞれ異なる物体に対応すると判断する。つまり、前記第（ｋ−１）特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋ特定物体プロポーザル（ＰＢ（ｋ））との間の前記ＩＯＵが前記第１閾値未満であり、これらの間の前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記学習装置１００は、前記第（ｋ−１）特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋ特定物体プロポーザル（ＰＢ（ｋ））とがそれぞれ異なる物体に対応するものと判断する。

一方、前記第（ｋ−１）特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋ特定物体プロポーザル（ＰＢ（ｋ））との間の前記ＩＯＵが前記第１閾値以上であると判断されれば、前記学習装置は、前記第（ｋ−１）特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋ特定物体プロポーザル（ＰＢ（ｋ））との中で（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記加工イメージ（ＭＩ（ｋ−１）及びＭＩ（ｋ））上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成する。

また、図６を参照すれば、前記第（ｋ−１）加工イメージ（ＭＩ（ｋ−１））及び前記第ｋ加工イメージ（ＭＩ（ｋ））上に少なくとも一つの特定同一物体が位置し、前記第（ｋ−１）加工イメージ（ＭＩ（ｋ−１））上で、前記第（ｋ−１）物体検出情報に含まれた物体バウンディングボックス（Ｂｏｕｎｄｉｎｇｂｏｘ）の中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第（ｋ−１）特定物体バウンディングボックス（ＢＢ（ｋ−１））とし、前記第ｋ加工イメージ（ＭＩ（ｋ））上で、前記第ｋ物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第ｋ特定物体バウンディングボックス（ＢＢ（ｋ））とした場合、前記学習装置１００は、前記ターゲット物体統合ネットワーク１２６をもって、前記第（ｋ−１）特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋ特定物体バウンディングボックス（ＢＢ（ｋ））との間のＩＯＵが、第１閾値以上になるかを判断するようにする。この際、前記物体プロポーザル間のＩＯＵ判断に利用された前記第１閾値と、前記物体バウンディングボックス間のＩＯＵ判断に利用された前記第１閾値とは、同じこともあり、同じくないこともある。そして、前記物体プロポーザル間のＩＯＵ判断に利用された前記第２閾値と、前記物体バウンディングボックス間のＩＯＵ判断に利用された前記第２閾値とは、同じこともあり、同じくないこともある。その後、前記バウンディングボックス間のＩＯＵが前記第１閾値未満と判断されれば、前記第（ｋ−１）特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋ特定物体バウンディングボックス（ＢＢ（ｋ））との間の調整ＩＯＵが算出される。

この際、前記調整ＩＯＵは、前記第ｋ加工イメージ（ＭＩ（ｋ））上で前記第（ｋ−１）特定物体バウンディングボックス（ＢＢ（ｋ−１））に対応する領域、すなわち、交差領域（ＢＢ（ｋ−１），ＭＩ（ｋ））と、前記第（ｋ−１）加工イメージ（ＭＩ（ｋ−１））上で前記第ｋ特定物体バウンディングボックス（ＢＢ（ｋ））に対応する領域、すなわち、交差領域（ＢＢ（ｋ），ＭＩ（ｋ−１））とを参照して算出されたＩＯＵである。

そして、前記調整ＩＯＵが前記第２閾値以上と判断されれば、前記学習装置１００は、前記第（ｋ−１）特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋ特定物体バウンディングボックス（ＢＢ（ｋ））との中で、（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。この際、前記物体プロポーザル間のＩＯＵ判断に利用された前記第２閾値と、前記物体バウンディングボックス間のＩＯＵ判断に利用された前記第２閾値とは、同じこともあり、同じくないこともある。

しかし、前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記学習装置１００は、前記第（ｋ−１）特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋ特定物体バウンディングボックス（ＢＢ（ｋ））とが、それぞれ異なる物体に対応すると判断する。つまり、前記第（ｋ−１）特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋ特定物体バウンディングボックス（ＢＢ（ｋ））との間の前記ＩＯＵが前記第１閾値未満であり、これらの間の前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記学習装置１００は、前記第（ｋ−１）特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋ特定物体バウンディングボックス（ＢＢ（ｋ））とがそれぞれ異なる物体に対応するものと判断する。

一方、前記第（ｋ−１）特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋ特定物体バウンディングボックス（ＢＢ（ｋ））との間の前記ＩＯＵが前記第１閾値以上であると判断されれば、前記学習装置は、前記第（ｋ−１）特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋ特定物体バウンディングボックス（ＢＢ（ｋ））との中で（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記加工イメージ（ＭＩ（ｋ−１）及びＭＩ（ｋ））上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成する。

前記のような方法により、前記のトレーニングイメージ内に位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記第ｋ物体を効率的に検出できるようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記ＣＮＮベースの前記物体検出の演算時間を減らし得るようになる。

また、前記では、前記トレーニングイメージ上にターゲット物体が一つである場合を想定して説明したが、前記トレーニングイメージ内にターゲット物体多数がある場合にも、前記のような方法により前記トレーニングイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して、前記それぞれのターゲット物体の検出が可能である。

その後、前記学習装置１００は、前記ＦＣロスレイヤ１２７をもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを取得するようにすることで、前記ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ１２４及び前記コンボリューションレイヤ１２１のパラメータの中の少なくとも一部を学習する。

また、前記学習装置１００は、前記ＲＰＮロスレイヤ１２８をもって、前記統合物体プロポーザルと、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを取得するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮ１２２のパラメータの中の少なくとも一部を学習する。

図７は、本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記ＣＮＮ基盤物体検出器をテスティングするテスティング装置を概略的に示したもので、図７を参照すれば、前記テスティング装置２００は、通信部２１０とプロセッサ２２０とを含み得る。

まず、前記通信部２１０は、少なくとも一つのテストイメージを取得するか、他の装置をもって取得するように支援し得る。

また、前記テスティング装置は、後述するプロセスを遂行するコンピュータ読み取り可能なインストラクション（ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｉｎｓｔｒｕｃｔｉｏｎ）を格納し得るメモリ２１５を追加的に含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体（ｍｅｄｉｕｍ）等は、一つのプロセッサに統合されて機能することもできる。

この際、前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した前記ＣＮＮ基盤の前記物体検出器は、図１ないし図６を参照して説明された前記学習方法として学習され得る。

参考までに、以下の説明において混乱を避けるために、前記学習プロセスに関連する用語には「学習用」という単語が追加され、テスト用プロセスに関連する用語には「テスト用」という単語が追加された。

つまり、トレーニングイメージが取得されると、前記学習装置が、（ａ）（ｉ）前記コンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第１学習用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第１学習用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記第１学習用特徴マップを利用して、前記第１学習用加工イメージ内に位置する一つ以上の第１学習用物体それぞれに対応する一つ以上の第１学習用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１学習用物体に対応する第１学習用物体検出情報を出力するプロセス；（ｂ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）学習用加工イメージ上の一つ以上の第（ｋ−１）学習用物体プロポーザルを参照して、前記第（ｋ−１）学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）学習用ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはリサイズされたトレーニングイメージ上で、前記第（ｋ−１）学習用ターゲット領域に対応する第ｋ学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ学習用加工イメージに前記コンボリューション演算を適用して第ｋ学習用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ学習用加工イメージ内に位置する一つ以上の第ｋ学習用物体それぞれに対応する一つ以上の第ｋ学習用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋ学習用プーリング済み特徴マップにＦＣ演算を適用して、前記第ｋ学習用物体に対応する第ｋ学習用物体検出情報を出力するようにするプロセス；及び（ｃ）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、（ｉｉ）前記ＦＣロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するＧＴとを参照して前記ＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセス；を遂行する。

また、前記学習装置は、前記ＲＰＮロスレイヤをもって、前記学習用統合物体プロポーザルと、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを取得するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を学習する。

次に、前記プロセッサ２２０は（ｉ）前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第１テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第１テスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１テスト用加工イメージ内に位置する一つ以上の第１テスト用物体それぞれに対応する一つ以上の第１テスト用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１テスト用物体に対応する第１テスト用物体検出情報を出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。その後、前記プロセッサ２２０は、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）テスト用加工イメージ上の一つ以上の第（ｋ−１）テスト用物体プロポーザルを参照して、前記第（ｋ−１）テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）テスト用ターゲット領域を探すようにし、（ｉｉ）前記テストイメージ、またはリサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する第ｋテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋテスト用加工イメージに前記コンボリューション演算を適用して第ｋテスト用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋテスト用特徴マップを参照して、前記第ｋテスト用加工イメージ内に位置する一つ以上の第ｋテスト用物体それぞれに対応する一つ以上の第ｋテスト用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋテスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋテスト用物体に対応する第ｋテスト用物体検出情報を出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。その後、前記プロセッサ２２０は、（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するプロセスを遂行する。

この際、本発明の一例に係るテスティング装置２００は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置２００として採択され得る。また、図７では一つのテスティング装置２００のみを示したが、これに限定されず、テスティング装置は複数に分けて役割を遂行することもできる。

本発明の一例に係る前記テスティング装置２００を利用して、ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用した前記ＣＮＮ基盤物体検出器をテスティングする方法を、図８を参照して説明する。以下の説明で、図１ないし図６を参照して説明した前記学習方法により容易に理解可能な部分については、詳細な説明を省略することにする。

まず、図１ないし図６を参照に説明した学習方法によってＦＣレイヤ２２４と、コンボリューションレイヤ２２１と、ＲＰＮ２２２のパラメータとの中の少なくとも一部を学習した状態で、前記テストイメージが入力されると、前記テスティング装置２００がをコンボリューションレイヤ２２１をもって、前記テストイメージに対応する前記第１加工イメージに前記コンボリューション演算を適用して、前記第１テスト用特徴マップを出力するようにし得る。この際、前記コンボリューションレイヤ２２１は、単一のコンボリューションレイヤであることもあり、または多数のコンボリューションレイヤであることもある。

この際、前記テスティング装置２００は、イメージ加工ネットワーク２１１をもって、前記テストイメージを加工してサイズが互いに異なるイメージを含むイメージピラミッドを生成するようにし得、前記イメージピラミッドイメージの中の一つイメージを前記第１テスト用加工イメージとして前記コンボリューションレイヤ２２１に入力し得る。

次に、前記テスティング装置２００は、前記ＲＰＮ２２２をもって前記第１テスト用特徴マップを利用して、前記第１テスト用加工イメージ内に位置する前記第１テスト用物体それぞれに対応する一つ以上の第１テスト用物体プロポーザルを出力するようにし得る。

この際、前記第１テスト用物体プロポーザルそれぞれは、前記それぞれの第１テスト用物体、つまり、タグ付き領域に対応する位置情報と、前記それぞれのタグ付け領域が物体であるか否かに対する情報とを有する各プロポーザルに対する情報を含み得る。

次に、前記テスティング装置２００は、プーリングレイヤ２２３をもって、前記第１テスト用特徴マップ上で、前記第１物体プロポーザルに対応する少なくとも一つの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力するようにし、前記ＦＣレイヤ２２４をもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１テスト用物体に対応する第１テスト用物体検出情報を出力するようにし得る。

この際、前記第１テスト用物体検出情報は、テスト用バウンディングボックスに関する情報（すなわち、前記第１テスト用物体それぞれに関する位置情報）と、前記第１テスト用物体プロポーザルに対応する前記第１テスト用物体それぞれに関するクラス情報とを含み得る。

次に、前記テスティング装置２００は、ターゲット物体予測ネットワーク２２５をもって、第１テスト用加工イメージ上の前記第１テスト用物体プロポーザルを参照して、前記第１テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域を探すようにし得る。

次に、前記テスティング装置２００は、前記リサイズされたテストイメージ、または前記テストイメージ上の前記第１テスト用ターゲット領域に対応する第２テスト用加工イメージを取得するか、他の装置をもって取得するように支援し得る。

この際、前記テスティング装置２００は、前記イメージ加工ネットワーク２１１をもって、前記テストイメージのサイズを前記第１テスト用加工イメージのサイズより大きいサイズに拡大して、前記リサイズされたテストイメージを生成した後、前記リサイズされたテストイメージ上で前記第１テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして前記第２加工イメージを生成するか、前記テストイメージ上の前記第１テスト用ターゲット領域に対応する少なくとも一つの領域をクロップ及びリサイズして前記第２テスト用加工イメージを生成するようにし得る。

一例として、前記イメージ加工ネットワーク２１１は、前記テストイメージに対応する前記イメージピラミッドの中の、第１テスト用加工イメージよりサイズが大きいイメージ上で、第１テスト用ターゲット領域に対応する少なくとも一つの領域をクロップして、前記第２テスト用加工イメージを生成し得る。また、前記イメージ加工ネットワーク２１１は、前記トレーニングイメージにおいて前記第１ターゲット領域に対応する少なくとも一つの領域をクロップして、前記クロップされたイメージをリサイズすることにより、前記第２テスト用加工イメージを生成し得る。この際、前記第２テスト用加工イメージのサイズが、前記第１テスト用ターゲット領域のサイズより大きくなるようにリサイズされ得る。このために、前記イメージ加工ネットワーク２１１は、前記クロップされたイメージを、前記テストイメージの前記イメージピラミッドの中の、前記第１テスト用加工イメージの次のイメージのサイズに対応するようにリサイズして、前記第２加工イメージを生成し得る。

次に、前記テスティング装置２００は、前記に生成された第２テスト用加工のイメージを利用して前記のような過程を繰り返して前記テストイメージ上でのサイズが小さい物体、つまり、遠距離に位置する物体を効率的に検出できるようになる。

つまり、前記テスティング装置２００は、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワーク２２５をもって、第（ｋ−１）テスト用加工イメージ上の一つ以上の第（ｋ−１）テスト用物体プロポーザルを参照して、前記第（ｋ−１）テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）テスト用ターゲット領域を探すようにし、（ｉｉ）前記テストイメージ、またはリサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する第ｋテスト用加工イメージが取得されると、前記コンボリューションレイヤ２２１をもって、前記第ｋテスト用加工イメージに前記コンボリューション演算を適用して第ｋテスト用特徴マップを出力するようにするプロセスを遂行するか、他の装置をもって遂行するように支援し得る。そして、前記テスティング装置２００は、前記ＲＰＮ２２２をもって、前記第ｋテスト用特徴マップを利用して、前記第ｋテスト用加工イメージ内に位置する前記第ｋテスト用物体それぞれに対応する前記第ｋテスト用物体プロポーザルを出力するようにし、前記プーリングレイヤ２２３をもって、前記第ｋテスト用特徴マップ上で、前記第ｋテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし得る。その後、前記テスティング装置２００は、前記ＦＣレイヤ２２４をもって、前記第ｋテスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋテスト用物体に対応する第ｋテスト用物体検出情報を出力するようにし得る。

その後、前記テスティング装置２００は、（ｉ）前記ターゲット物体統合ネットワーク２２６をもって、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するようにする。

一例として、図６を参照すれば、前記第（ｋ−１）テスト用加工イメージ（ＭＩ（ｋ−１））及び前記第ｋテスト用加工イメージ（ＭＩ（ｋ））上に少なくとも一つのテスト用特定同一物体が位置し、前記第（ｋ−１）テスト用加工イメージ（ＭＩ（ｋ−１））上の前記第（ｋ−１）テスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第（ｋ−１）テスト用特定物体プロポーザルとし、前記第ｋテスト用加工イメージ（ＭＩ（ｋ））上で、前記第ｋテスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第ｋテスト用特定物体プロポーザルであるとする場合、前記テスティング装置２００は、前記ターゲット物体統合ネットワーク２２６をもって、前記第（ｋ−１）テスト用特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋテスト用特定物体プロポーザル（ＰＢ（ｋ））との間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにする。その後、前記テスト用ＩＯＵが前記第１閾値未満と判断されれば、前記第（ｋ−１）テスト用特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋテスト用特定物体プロポーザル（ＰＢ（ｋ））との間のテスト用調整ＩＯＵが算出されるようにする。

この際、前記テスト用調整ＩＯＵは、前記第ｋテスト用加工イメージ（ＭＩ（ｋ）上で前記第（ｋ−１）テスト用特定物体プロポーザル（ＰＢ（ｋ−１））に対応する領域、すなわち、交差領域（ＰＢ（ｋ−１），ＭＩ（ｋ））と、前記第（ｋ−１）テスト用加工イメージ（ＭＩ（ｋ−１））上で前記第ｋテスト用特定物体プロポーザル（ＰＢ（ｋ））に対応する領域、すなわち、交差領域（ＰＢ（ｋ），ＭＩ（ｋ−１））とを参照して算出されたＩＯＵである。

そして、前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記テスティング装置２００は、前記第（ｋ−１）テスト用特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋテスト用特定物体プロポーザル（ＰＢ（ｋ））との中で、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。

しかし、前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記テスティング装置２００は、前記第（ｋ−１）テスト用特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋテスト用特定物体プロポーザル（ＰＢ（ｋ））とが、それぞれ異なるテスト用物体に対応すると判断する。つまり、前記第（ｋ−１）テスト用特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋテスト用特定物体プロポーザル（ＰＢ（ｋ））との間の前記ＩＯＵが前記第１閾値未満であり、これら間の前記テスト用調整ＩＯＵが前記第２閾値未満と判断されれば、前記テスティング装置２００は、前記第（ｋ−１）テスト用特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋテスト用特定物体プロポーザル（ＰＢ（ｋ））とがそれぞれ異なる物体に対応するものと判断する。

つまり、前記第（ｋ−１）テスト用特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋテスト用特定物体プロポーザル（ＰＢ（ｋ））との間の前記ＩＯＵが前記第１閾値以上であると判断されれば、前記テスティング装置は、前記第（ｋ−１）テスト用特定物体プロポーザル（ＰＢ（ｋ−１））と、前記第ｋテスト用特定物体プロポーザル（ＰＢ（ｋ））との中で（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記テスト用加工イメージ（ＭＩ（ｋ−１）及びＭＩ（ｋ））上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成する。

また、図６を参照すれば、前記第（ｋ−１）テスト用加工イメージ（ＭＩ（ｋ−１））及び前記第ｋテスト用加工イメージ（ＭＩ（ｋ））上に少なくとも一つのテスト用特定同一物体が位置し、前記第（ｋ−１）テスト用加工イメージ（ＭＩ（ｋ−１））上で、前記第（ｋ−１）テスト用物体検出情報に含まれたテスト用物体バウンディングボックス（Ｂｏｕｎｄｉｎｇｂｏｘ）の中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第（ｋ−１）テスト用特定物体バウンディングボックス（ＢＢ（ｋ−１））とし、前記第ｋテスト用加工イメージ（ＭＩ（ｋ））上で、前記第ｋテスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第ｋテスト用特定物体バウンディングボックス（ＢＢ（ｋ））とした場合、前記テスティング装置２００は、前記ターゲット物体統合ネットワーク２２６をもって、前記第（ｋ−１）テスト用特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋテスト用特定物体バウンディングボックス（ＢＢ（ｋ））との間の前記テスト用ＩＯＵが、前記第１閾値以上になるかを判断するようにする。この際、前記テスト用物体プロポーザル間のテスト用ＩＯＵ判断に利用された前記第１閾値と、前記テスト用物体バウンディングボックス間のテスト用ＩＯＵ判断に利用された前記第１閾値とは、同じこともあり、同じくないこともある。その後、前記テスト用バウンディングボックス間のテスト用ＩＯＵが前記第１閾値未満と判断されれば、前記第（ｋ−１）テスト用特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋテスト用特定物体バウンディングボックス（ＢＢ（ｋ））との間のテスト用調整ＩＯＵが算出される。

この際、前記テスト用調整ＩＯＵは、前記第ｋテスト用加工イメージ（ＭＩ（ｋ））上で前記第（ｋ−１）テスト用特定物体バウンディングボックス（ＢＢ（ｋ−１））に対応する領域、すなわち、交差領域（ＢＢ（ｋ−１），ＭＩ（ｋ））と、前記第（ｋ−１）テスト用加工イメージ（ＭＩ（ｋ−１））上で前記第ｋテスト用特定物体バウンディングボックス（ＢＢ（ｋ））に対応する領域、すなわち、交差領域（ＢＢ（ｋ），ＭＩ（ｋ−１））とを参照して算出されたＩＯＵである。

そして、前記テスト用調整ＩＯＵが前記第２閾値以上と判断されれば、前記テスティング装置２００は、前記第（ｋ−１）テスト用特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋテスト用特定物体バウンディングボックス（ＢＢ（ｋ））との中で、（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。この際、前記テスト用物体プロポーザル間のテスト用ＩＯＵ判断に利用された前記第２閾値と、前記テスト用物体バウンディングボックス間のテスト用ＩＯＵ判断に利用された前記第２閾値とは、同じこともあり、同じくないこともある。

しかし、前記テスト用調整ＩＯＵが前記第２閾値未満と判断されれば、前記テスティング装置２００は、前記第（ｋ−１）テスト用特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋテスト用特定物体バウンディングボックス（ＢＢ（ｋ））とが、それぞれ異なるテスト用物体に対応すると判断する。つまり、前記第（ｋ−１）テスト用特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋテスト用特定物体バウンディングボックス（ＢＢ（ｋ））との間の前記テスト用ＩＯＵが前記第１閾値未満であり、これらの間の前記テスト用調整ＩＯＵが前記第２閾値未満と判断されれば、前記テスティング装置２００は、前記第（ｋ−１）テスト用特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋテスト用特定物体バウンディングボックス（ＢＢ（ｋ））とがそれぞれ異なるテスト用物体に対応するものと判断する。

つまり、前記第（ｋ−１）テスト用特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋテスト用特定物体バウンディングボックス（ＢＢ（ｋ））との間の前記テスト用ＩＯＵが前記第１閾値未満であると判断されれば、前記テスティング装置は、前記第（ｋ−１）テスト用特定物体バウンディングボックス（ＢＢ（ｋ−１））と、前記第ｋテスト用特定物体バウンディングボックス（ＢＢ（ｋ））との中で（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記テスト用加工イメージ（ＭＩ（ｋ−１）及びＭＩ（ｋ））上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成する。

前記のような方法により、前記テストイメージ内に位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した物体を効率的に検出できるようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記ＣＮＮベースの前記物体検出の演算時間を減らし得るようになる。

また、前記では、前記テストイメージ上にターゲット物体が一つである場合を想定して説明したが、前記テストイメージ内にターゲット物体多数がある場合にも、前記のような方法により前記テストイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して前記それぞれのターゲット物体の検出が可能である。

前記ＣＮＮは、ターゲット物体予測ネットワーク及び物体統合ネットワークを利用して、重要業績評価指標（ＫＰＩ：ＫｅｙＰｅｒｆｏｒｍａｎｃｅＩｎｄｅｘ）のようなユーザーの要求事項に合わせて調整可能である。また、前記ＣＮＮは、前記重要業績評価指標に係る解像度や焦点距離が変化し、物体のスケールが変化するに伴い再設計され得る。前記方法は、２Ｄバウンディングボックスの正確度が向上し、多重カメラ、サラウンドビューモニタリング（ｓｕｒｒｏｕｎｄｖｉｅｗｍｏｎｉｔｏｒｉｎｇ）などに有用に遂行され得る。

また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで読み取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤の物体検出器のパラメータを学習する方法において、
（ａ）少なくとも一つのトレーニングイメージが入力されると、学習装置が、（ｉ）一つ以上のコンボリューションレイヤをもって、前記トレーニングイメージに対応する少なくとも一つの第１加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する一つ以上の第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１特徴マップ上で、前記第１物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにする段階；
（ｂ）ｋを２からｎまで増加させながら、前記学習装置が、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはこれに対応するリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ特徴マップを参照して、前記第ｋ加工イメージ内に位置する一つ以上の第ｋ物体それぞれに対応する一つ以上の第ｋ物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにする段階；及び
（ｃ）前記学習装置が、（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を出力するようにし、（ｉｉ）ＦＣロスレイヤをもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階；
を含むことを特徴とする学習方法。
前記（ｃ）段階で、
前記学習装置は、ＲＰＮロスレイヤをもって、前記統合物体プロポーザルと、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを算出するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータを学習することを特徴とする請求項１に記載の学習方法。
前記（ｃ）段階で、
前記第（ｋ−１）加工イメージ及び前記第ｋ加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第（ｋ−１）加工イメージ上で前記第（ｋ−１）物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第（ｋ−１）特定物体プロポーザルとし、前記第ｋ加工イメージ上で、前記第ｋ物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第ｋ特定物体プロポーザルであるとする場合、
前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、前記ＩＯＵが前記第１閾値未満であると判断されれば、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの間の調整ＩＯＵを算出するようにし、前記調整ＩＯＵが第２閾値以上と判断されれば、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの中で、（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項１に記載の学習方法。
前記調整ＩＯＵは、前記第ｋ加工イメージ上で前記第（ｋ−１）特定物体プロポーザルに対応する領域と、前記第（ｋ−１）加工イメージ上で前記第ｋ特定物体プロポーザルに対応する領域とを参照して算出されることを特徴とする請求項３に記載の学習方法。
前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）特定物体プロポーザルと、前記第k特定物体プロポーザルとの中で（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記加工イメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成することを特徴とする請求項３に記載の学習方法。
前記（ｃ）段階で、
前記第（ｋ−１）加工イメージ及び前記第ｋ加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第（ｋ−１）加工イメージ上で、前記第（ｋ−１）物体検出情報に含まれた物体バウンディングボックス（Ｂｏｕｎｄｉｎｇｂｏｘ）の中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第（ｋ−１）特定物体バウンディングボックスとし、前記第ｋ加工イメージ上で、前記第ｋ物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第ｋ特定物体バウンディングボックスとした場合、
前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの間のＩＯＵが、第１閾値以上になるか否かを判断するようにし、前記ＩＯＵが前記第１閾値未満と判断されると、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの間の調整ＩＯＵを算出するようにし、前記調整ＩＯＵが、第２閾値以上と判断されたら、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの中から（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項１に記載の学習方法。
前記調整ＩＯＵは、前記第ｋ加工イメージ上で前記第（ｋ−１）特定物体バウンディングボックスに対応する領域と、前記第（ｋ−１）加工イメージ上で前記第ｋ特定物体バウンディングボックスに対応する領域とを参照して算出されることを特徴とする請求項６に記載の学習方法。
前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの中の（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記加工イメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成することを特徴とする請求項６に記載の学習方法。
ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤の物体検出器をテスティングする方法において、
（ａ）学習装置が、（１）（ｉ）一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第１学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１学習用特徴マップを出力するようにし、（ｉｉ）ＲＰＮをもって、前記第１学習用特徴マップを利用して、前記第１学習用加工イメージ内に位置する一つ以上の第１学習用物体それぞれに対応する一つ以上の第１学習用物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣレイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１学習用物体に対応する第１学習用物体検出情報を出力するようにし、（２）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）学習用加工イメージ上の一つ以上の第（ｋ−１）学習用物体プロポーザルを参照して、前記第（ｋ−１）学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）学習用ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはこれに対応する一つ以上のリサイズされたトレーニングイメージ上で、前記第（ｋ−１）学習用ターゲット領域に対応する第ｋ学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ学習用加工イメージに前記コンボリューション演算を適用して第ｋ学習用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ学習用加工イメージ内に位置する一つ以上の第ｋ学習用物体それぞれに対応する一つ以上の第ｋ学習用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋ学習用プーリング済み特徴マップにＦＣ演算を適用して、前記第ｋ学習用物体に対応する第ｋ学習用物体検出情報を出力するようにし、（３）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、（ｉｉ）ＦＣロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、少なくとも一つのテストイメージが取得されると、テスティング装置が、（ｉ）前記コンボリューションレイヤをもって、前記テストイメージに対応する少なくとも一つの第１テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第１テスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１テスト用加工イメージ内に位置する一つ以上の第１テスト用物体それぞれに対応する一つ以上の第１テスト用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１テスト用物体に対応する第１テスト用物体検出情報を出力するようにする段階；
（ｂ）ｋを２からｎまで増加させながら、前記テスティング装置が、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）テスト用加工イメージ上の一つ以上の第（ｋ−１）テスト用物体プロポーザルを参照して、前記第（ｋ−１）テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）テスト用ターゲット領域を探すようにし、（ｉｉ）前記テストイメージ、またはこれに対応する一つ以上のリサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する第ｋテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋテスト用加工イメージに前記コンボリューション演算を適用して第ｋテスト用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋテスト用特徴マップを参照して、前記第ｋテスト用加工イメージ内に位置する一つ以上の第ｋテスト用物体それぞれに対応する一つ以上の第ｋテスト用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋテスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋテスト用物体に対応する第ｋテスト用物体検出情報を出力するようにする段階；及び
（ｃ）前記テスティング装置が（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報を統合してテスト用統合物体検出情報を出力する段階；
を含むことを特徴とするテスティング方法。
前記（ｃ）段階で、
前記第（ｋ−１）テスト用加工イメージ及び前記第ｋテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第（ｋ−１）テスト用加工イメージ上で前記第（ｋ−１）テスト用物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第（ｋ−１）特定物体プロポーザルとし、前記第ｋテスト用加工イメージ上で、前記第ｋテスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第ｋテスト用特定物体プロポーザルであるとする場合、
前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、前記テスト用ＩＯＵが前記第１閾値未満であると判断されると、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの間のテスト用調整ＩＯＵを算出するようにし、前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの中で、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項９に記載のテスティング方法。
前記テスト用調整ＩＯＵは、前記第ｋテスト用加工イメージ上で前記第（ｋ−１）テスト用特定物体プロポーザルに対応する領域と、前記第（ｋ−１）テスト用加工イメージ上で前記第ｋテスト用特定物体プロポーザルに対応する領域とを参照して算出されることを特徴とする請求項１０に記載のテスティング方法。
前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記テスト用ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記テスト用ＩＯＵが前記第１閾値以上であると判断されれば、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの中で、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記テスト加工イメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成することを特徴とする請求項１０に記載のテスティング方法。
前記（ｃ）段階で、
前記第（ｋ−１）テスト用加工イメージ及び前記第ｋテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第（ｋ−１）テスト用加工イメージ上で、前記第（ｋ−１）テスト用物体検出情報に含まれたテスト用物体バウンディングボックス（Ｂｏｕｎｄｉｎｇｂｏｘ）の中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第（ｋ−１）テスト用特定物体バウンディングボックスとし、前記第ｋテスト用加工イメージ上で、前記第ｋテスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第ｋテスト用特定物体バウンディングボックスとした場合、
前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの間のテスト用ＩＯＵが、第１閾値以上になるかを判断するようにし、前記テスト用ＩＯＵが前記第１閾値未満であると判断されれば、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの間のテスト用調整ＩＯＵを算出するようにし、前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの中から（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項９に記載のテスティング方法。
前記テスト用調整ＩＯＵは、前記第ｋテスト用加工イメージ上で前記第（ｋ−１）テスト用特定物体バウンディングボックスに対応する領域と、前記第（ｋ−１）テスト用加工イメージ上で前記第ｋテスト用特定物体バウンディングボックスに対応する領域とを参照して算出されることを特徴とする請求項１３に記載のテスティング方法。
前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記テスト用ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記テスト用ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの中から（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記テスト用加工イメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成することを特徴とする請求項１３に記載のテスティング方法。
ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤の物体検出器のパラメータを学習するための学習装置において、
インストラクションを格納する少なくとも一つのメモリ；及び
（Ｉ）（ｉ）一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第１加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１加工イメージ内に位置する一つ以上の第１物体それぞれに対応する一つ以上の第１物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１特徴マップ上で、前記第１物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１物体に対応する第１物体検出情報を出力するようにするプロセス、（ＩＩ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）加工イメージ上の一つ以上の第（ｋ−１）物体プロポーザルを参照して、前記第（ｋ−１）加工イメージ上で、少なくとも一つのターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはこれに対応するリサイズされたトレーニングイメージ上で、前記第（ｋ−１）ターゲット領域に対応する第ｋ加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ加工イメージに前記コンボリューション演算を適用して第ｋ特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋ特徴マップを参照して、前記第ｋ加工イメージ内に位置する一つ以上の第ｋ物体それぞれに対応する一つ以上の第ｋ物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋ物体に対応する第ｋ物体検出情報を出力するようにするプロセス、及び（ＩＩＩ）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を出力するようにし、（ｉｉ）ＦＣロスレイヤをもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とする学習装置。
前記（ＩＩＩ）プロセスで、
前記プロセッサは、ＲＰＮロスレイヤをもって、前記統合物体プロポーザルと、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを算出するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータを学習することを特徴とする請求項１６に記載の学習装置。
前記（ＩＩＩ）プロセスで、
前記第（ｋ−１）加工イメージ及び前記第ｋ加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第（ｋ−１）加工イメージ上で前記第（ｋ−１）物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第（ｋ−１）特定物体プロポーザルとし、前記第ｋ加工イメージ上で、前記第ｋ物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第ｋ特定物体プロポーザルであるとする場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、前記ＩＯＵが前記第１閾値未満であると判断されれば、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの間の調整ＩＯＵを算出するようにし、前記調整ＩＯＵが第２閾値以上と判断されれば、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの中で、（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項１６に記載の学習装置。
前記調整ＩＯＵは、前記第ｋ加工イメージ上で前記第（ｋ−１）特定物体プロポーザルに対応する領域と、前記第（ｋ−１）加工イメージ上で前記第ｋ特定物体プロポーザルに対応する領域とを参照して算出されることを特徴とする請求項１８に記載の学習装置。
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）特定物体プロポーザルと、前記第ｋ特定物体プロポーザルとの中の（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記加工イメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成することを特徴とする請求項１８に記載の学習装置。
前記（ＩＩＩ）プロセスで、
前記第（ｋ−１）加工イメージ及び前記第ｋ加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第（ｋ−１）加工イメージ上で、前記第（ｋ−１）物体検出情報に含まれた物体バウンディングボックス（Ｂｏｕｎｄｉｎｇｂｏｘ）の中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第（ｋ−１）特定物体バウンディングボックスとし、前記第ｋ加工イメージ上で、前記第ｋ物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第ｋ特定物体バウンディングボックスとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの間のＩＯＵが、第１閾値以上になるか否かを判断するようにし、前記ＩＯＵが前記第１閾値未満と判断されると、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの間の調整ＩＯＵとを算出するようにし、前記調整ＩＯＵが、第２閾値以上と判断されたら、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの中から（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項１６に記載の学習装置。
前記調整ＩＯＵは、前記第ｋ加工イメージ上で前記第（ｋ−１）特定物体バウンディングボックスに対応する領域と、前記第（ｋ−１）加工イメージ上で前記第ｋ特定物体バウンディングボックスに対応する領域とを参照して算出されることを特徴とする請求項２１に記載の学習装置。
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）特定物体バウンディングボックスと、前記第ｋ特定物体バウンディングボックスとの中から（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記加工イメージ上で演算される面積の大きい特定物体バウンディングボックスを選択させることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成することを特徴とする請求項２１に記載の学習装置。
ターゲット物体予測ネットワークと、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤の物体検出器をテストするためのテスティング装置において、
インストラクションを格納する少なくとも一つのメモリ；及び
学習装置が、（１）（ｉ）一つ以上のコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対応する少なくとも一つの第１学習用加工イメージに一つ以上のコンボリューション演算を適用して、少なくとも一つの第１学習用特徴マップを出力するようにし、（ｉｉ）ＲＰＮをもって、前記第１学習用特徴マップを利用して、前記第１学習用加工イメージ内に位置する一つ以上の第１学習用物体それぞれに対応する一つ以上の第１学習用物体プロポーザルを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力するようにし、（ｉｖ）ＦＣレイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記第１学習用物体に対応する第１学習用物体検出情報を出力するようにし、（２）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）学習用加工イメージ上の一つ以上の第（ｋ−１）学習用物体プロポーザルを参照して、前記第（ｋ−１）学習用加工イメージ上で、少なくとも一つの学習用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）学習用ターゲット領域を探すようにし、（ｉｉ）前記トレーニングイメージ、またはこれに対応する一つ以上のリサイズされたトレーニングイメージ上で、前記第（ｋ−１）学習用ターゲット領域に対応する第ｋ学習用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋ学習用加工イメージに前記コンボリューション演算を適用して第ｋ学習用特徴マップを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋ学習用プーリング済み特徴マップにＦＣ演算を適用して、前記第ｋ学習用物体に対応する第ｋ学習用物体検出情報を出力するようにし、（３）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、（ｉｉ）ＦＣロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、（Ｉ）（ｉ）前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対応する少なくとも一つの第１テスト用加工イメージに前記コンボリューション演算を適用して、少なくとも一つの第１テスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１テスト用加工イメージ内に位置する一つ以上の第１テスト用物体それぞれに対応する一つ以上の第１テスト用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１テスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第１テスト用物体に対応する第１テスト用物体検出情報を出力するようにするプロセス、（ＩＩ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第（ｋ−１）テスト用加工イメージ上の一つ以上の第（ｋ−１）テスト用物体プロポーザルを参照して、前記第（ｋ−１）テスト用加工イメージ上で、少なくとも一つのテスト用ターゲット物体が位置するものと予測される領域に対応する第（ｋ−１）テスト用ターゲット領域を探すようにし、（ｉｉ）前記テストイメージ、またはこれに対応する一つ以上のリサイズされたテストイメージ上で、前記第（ｋ−１）テスト用ターゲット領域に対応する第ｋテスト用加工イメージが取得されると、前記コンボリューションレイヤをもって、前記第ｋテスト用加工イメージに前記コンボリューション演算を適用して第ｋテスト用特徴マップを出力するようにし、（ｉｉｉ）前記ＲＰＮをもって、前記第ｋテスト用特徴マップを参照して、前記第ｋテスト用加工イメージ内に位置する一つ以上の第ｋテスト用物体それぞれに対応する一つ以上の第ｋテスト用物体プロポーザルを出力するようにし、（ｉｖ）前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし、（ｖ）前記ＦＣレイヤをもって、前記第ｋテスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記第ｋテスト用物体に対応する第ｋテスト用物体検出情報を出力するようにするプロセス、及び（ＩＩＩ）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とするテスティング装置。
前記（ＩＩＩ）プロセスで、
前記第（ｋ−１）テスト用加工イメージ及び前記第ｋテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第（ｋ−１）テスト用加工イメージ上で前記第（ｋ−１）テスト用物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第（ｋ−１）特定物体プロポーザルとし、前記第ｋテスト用加工イメージ上で、前記第ｋテスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第ｋテスト用特定物体プロポーザルであるとする場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、前記テスト用ＩＯＵが前記第１閾値未満であると判断されれば、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの間のテスト用調整ＩＯＵを算出するようにし、前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの中で、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項２４に記載のテスティング装置。
前記テスト用調整ＩＯＵは、前記第ｋテスト用加工イメージ上で前記第（ｋ−１）テスト用特定物体プロポーザルに対応する領域と、前記第（ｋ−１）テスト用加工イメージ上で前記第ｋテスト用特定物体プロポーザルに対応する領域とを参照して算出されることを特徴とする請求項２５に記載のテスティング装置。
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記テスト用ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記テスト用ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体プロポーザルと、前記第ｋテスト用特定物体プロポーザルとの中の（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記テスト加工イメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成することを特徴とする請求項２５に記載のテスティング装置。
前記（ＩＩＩ）プロセスで、
前記第（ｋ−１）テスト用加工イメージ及び前記第ｋテスト用加工イメージ上に少なくとも一つのテスト用特定同一物体が位置し、前記第（ｋ−１）テスト用加工イメージ上で、前記第（ｋ−１）テスト用物体検出情報に含まれたテスト用物体バウンディングボックス（Ｂｏｕｎｄｉｎｇｂｏｘ）の中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第（ｋ−１）テスト用特定物体バウンディングボックスとし、前記第ｋテスト用加工イメージ上で、前記第ｋテスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第ｋテスト用特定物体バウンディングボックスとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの間のテスト用ＩＯＵが、第１閾値以上になるか否かを判断するようにし、前記テスト用ＩＯＵが前記第１閾値未満と判断されると、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの間のテスト用調整ＩＯＵを算出するようにし、前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの中から（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択させることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項２４に記載のテスティング装置。
前記テスト用調整ＩＯＵは、前記第ｋテスト用加工イメージ上で前記第（ｋ−１）テスト用特定物体バウンディングボックスに対応する領域と、前記第（ｋ−１）テスト用加工イメージ上で前記第ｋテスト用特定物体バウンディングボックスに対応する領域とを参照して算出されることを特徴とする請求項２８に記載のテスティング装置。
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記テスト用ＩＯＵが前記第１閾値以上になるか否かを判断するようにし、前記テスト用ＩＯＵが前記第１閾値以上と判断されれば、前記第（ｋ−１）テスト用特定物体バウンディングボックスと、前記第ｋテスト用特定物体バウンディングボックスとの中の（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記テスト用加工イメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択させることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成することを特徴とする請求項２８に記載のテスティング装置。