JP6908943B2

JP6908943B2 - イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置

Info

Publication number: JP6908943B2
Application number: JP2020002987A
Authority: JP
Inventors: 桂賢金; 鎔重金; 寅洙金; 鶴京金; 雲鉉南; 碩▲ふん▼ 夫; 明哲成; 東勳呂; 宇宙柳; 泰雄張; 景中鄭; 泓模諸; 浩辰趙
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-22
Filing date: 2020-01-10
Publication date: 2021-07-28
Anticipated expiration: 2040-01-10
Also published as: EP3686791A1; JP2020119546A; CN111462193B; KR102349920B1; CN111462193A; US10423860B1; EP3686791C0; EP3686791B1; KR20200091330A

Description

本発明は、イメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）と、ターゲット物体統合ネットワークとを利用した、多重カメラまたはサラウンドビューモニタリング（ｓｕｒｒｏｕｎｄｖｉｅｗｍｏｎｉｔｏｒｉｎｇ）に利用されるＣＮＮ基盤物体検出器のパラメータを学習する方法に関し；より詳細には、イメージコンカチネーションと、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤の物体検出器のパラメータを学習する方法において、（ａ）少なくとも一つのトレーニングイメージが入力されると、（ｉ）ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズされたイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域ないし第ｎターゲット領域それぞれを探すようにし、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージから、前記第１ターゲット領域ないし前記第ｎターゲット領域それぞれに対応する第１加工イメージないし第ｎ加工イメージを取得させ、（ｉｉｉ）前記第１加工イメージないし前記第ｎ加工イメージをコンカチネートした統合トレーニングイメージを出力させる段階；（ｂ）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記統合特徴マップを利用して、前記第１加工イメージないし前記第ｎ加工イメージそれぞれ内に位置する一つ以上の物体に対応する第１物体プロポーザルないし第ｎ物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記統合特徴マップ上で、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させる段階；及び（ｃ）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを生成するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を生成するようにし、（ｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階；を含むことを特徴とする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置に関する。

機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）において、コンボリューションニューラルネットワーク（ＣＮＮまたはＣｏｎｖＮｅｔ）は、視覚的イメージ分析に成功的に適用された深層フィードフォワード人工ニューラルネットワーク（Ｄｅｅｐｆｅｅｄｆｏｒｗａｒｄａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）である。

ＣＮＮ基盤の物体検出器は、（ｉ）一つ以上のコンボリューションレイヤをもって、入力イメージにコンボリューション演算を適用することにより、前記入力イメージに対応した特徴マップを出力し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記特徴マップを利用して、前記入力イメージ内の物体に対応するプロポーザルを確認し、（ｉｉｉ）プーリングレイヤをもって、前記確認されたプロポーザルに対応する前記特徴マップ上の領域に少なくとも一つのプーリング演算を適用して、プーリング済み特徴マップを取得し、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、少なくとも一つのＦＣ演算を、前記取得されたプーリング済み特徴マップないし前記物体に関する出力クラス情報と、リグレッション情報とに適用することにより、前記入力イメージ上の前記物体を検出する。

だが、前記ＣＮＮ基盤の物体検出器は、前記コンボリューションレイヤにより前記入力イメージのサイズを縮小したサイズの前記特徴マップを用いることになるので、前記入力イメージに位置するサイズの大きい物体は容易に検出されるが、前記入力イメージに位置するサイズの小さい物体を検出することは難しい。

すなわち、前記入力イメージ上で検出される対象としての一つ以上の物体に対応する多数のターゲット領域がある場合、一部ターゲット領域からはサイズのために所望の特徴が正確に抽出され得なくなり、それに伴って特定の物体は検出することができなくなる。

これらの問題を解決するために、前記入力イメージから得たイメージピラミッドのうちそれぞれのイメージ内に前記ターゲット領域それぞれをクロップして物体検出を遂行することができるものの、この場合には前記ターゲット領域に対応してクロップしたそれぞれのイメージに対して前記物体検出を遂行しなければならないため、演算量が増加し得る。

また、ＣＮＮ演算は、迅速な演算のために一定の単位、一例として、３２、６４、１２８などの倍数でブロック演算を行うにおいて、前記単位の倍数にならない幅や高さを有する入力イメージが取得されると、前記単位の倍数にするために一つ以上のパディング領域を追加しなければならないが、これは前記ＣＮＮ演算に負担となる。したがって、前記単位の倍数ではない幅や高さを有するクロップしたイメージが多くなると、前記ＣＮＮ演算にさらに大きな負担として作用して前記ＣＮＮの演算速度は減少するようになる。

したがって、本発明の発明者は、前記入力イメージ上に位置する様々なサイズの物体に対応する前記ターゲット領域を利用して、前記ＣＮＮの演算時間を減らし、効果的に物体を検出することができる学習方法、学習装置及びそれを利用したテスト方法とテスティング装置を提案することにする。

本発明は、前述した問題点を全て解決することを目的とする。

本発明は、イメージ上に位置する物体をサイズに関係なく効果的に検出することができるようにするＣＮＮ基盤の物体検出器を提供することを他の目的とする。

本発明は、演算量を増加させずに前記イメージ上の前記物体を検出することができるようにする、前記ＣＮＮ基盤の前記物体検出器を提供することをまた他の目的とする。

本発明は、前記入力イメージ上の様々なサイズの前記物体に対応するターゲット領域を利用して、前記ＣＮＮの演算時間を減らし、効果的に前記物体を検出することができるようにする前記ＣＮＮ基盤の前記物体検出器を提供することを他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記の通りである。

本発明の一態様によれば、イメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）と、ターゲット物体統合ネットワークとを利用した、ＣＮＮ基盤物体検出器のパラメータを学習する方法において、（ａ）少なくとも一つのトレーニングイメージが入力されると、学習装置が、（ｉ）ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズされたイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域ないし第ｎターゲット領域それぞれを探すようにし、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージから、前記第１ターゲット領域ないし前記第ｎターゲット領域それぞれに対応する第１加工イメージないし第ｎ加工イメージを取得させ、（ｉｉｉ）前記第１加工イメージないし前記第ｎ加工イメージをコンカチネートした統合トレーニングイメージを出力させる段階；（ｂ）前記学習装置が、（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記統合特徴マップを利用して、前記第１加工イメージないし前記第ｎ加工イメージそれぞれ内に位置する一つ以上の物体に対応する第１物体プロポーザルないし第ｎ物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記統合特徴マップ上で、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させる段階；及び（ｃ）前記学習装置が、（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを生成するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を生成するようにし、（ｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階；を含むことを特徴とする方法が提供される。

一例として、前記（ｃ）段階で、前記学習装置が、少なくとも一つのＲＰＮロスレイヤをもって、前記統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを算出するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータを学習する。

一例として、前記（ａ）段階で、前記学習装置が、前記イメージ加工ネットワークをもって、第１加工イメージないし前記第ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）させる。

一例として、前記学習装置が、前記イメージ加工ネットワークをもって、前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにする。

一例として、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにする。

一例として、前記（ｃ）段階で、第１特定加工イメージ及び第２特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第１特定物体プロポーザルとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第２特定物体プロポーザルとした場合、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が第１閾値以上になるかを判断するようにし、（Ｉ）前記ＩＯＵが、前記第1閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体プロポーザルに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体プロポーザルに対応する領域との間の調整ＩＯＵを算出し、（ＩＩ）前記調整ＩＯＵが第２閾値以上と判断されれば、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの中から、（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。

一例として、前記（ｃ）段階で、第１特定加工イメージ及び第２特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第１特定物体バウンディングボックスとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第２特定物体バウンディングボックスとした場合、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの間のＩＯＵが、第１閾値以上になるか否かを判断するようにし、（Ｉ）前記ＩＯＵが、前記第1閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体バウンディングボックスに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体バウンディングボックスに対応する領域との間の調整ＩＯＵを算出し、（ＩＩ）前記調整ＩＯＵが第２閾値以上と判断されたら、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの中から（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。

本発明の他の態様によれば、イメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）と、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤物体検出器をテスティングする方法において、（ａ）学習装置が、（１）（ｉ）ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされたトレーニングイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１学習用ターゲット領域ないし第ｎ学習用ターゲット領域それぞれを探すようにし、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたトレーニングイメージから、前記第１学習用ターゲット領域ないし前記第ｎ学習用ターゲット領域それぞれに対応する第１学習用加工イメージないし第ｎ学習用加工イメージを取得するようにし、（ｉｉｉ）前記第１学習用加工イメージないし前記第ｎ学習用加工イメージをコンカチネートした統合トレーニングイメージを出力するようにし、（２）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力するようにし、（ｉｉ）ＲＰＮをもって、前記学習用統合特徴マップを利用して、前記第１学習用加工イメージないし前記第ｎ学習用加工イメージそれぞれ内に位置する学習用物体に対応する第１学習用物体プロポーザルないし第ｎ学習用物体プロポーザルそれぞれを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つの前記ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記学習用物体に対応する第１学習用物体検出情報ないし第ｎ学習用物体検出情報を出力するようにし、（３）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルを統合して学習用統合物体プロポーザルを生成するようにし、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報を統合して学習用統合物体検出情報を生成するようにし、（ｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、テスティング装置が、少なくとも一つのテストイメージを取得すると、（ｉ）前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージ上で、一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域ないし第ｎテスト用ターゲット領域それぞれを探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテストイメージから、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域それぞれに対応する第１テスト用加工イメージないし第ｎテスト用加工イメージを取得するようにし、（ｉｉｉ）前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージをコンカチネートした統合テストイメージを出力するようにする段階；（ｂ）前記テスティング装置が、（ｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記テスト用統合特徴マップを利用して、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージそれぞれ内に位置するテスト用物体に対応する第１テスト用物体プロポーザルないし第ｎテスト用物体プロポーザルそれぞれを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１テスト用物体検出情報ないし第ｎテスト用物体検出情報を出力するようにする段階；及び（ｃ）前記テスティング装置が、（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを生成するようにし、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報を統合してテスト用統合物体検出情報を生成するようにする段階；を含むことを特徴とする方法が提供される。

一例として、前記（３）プロセスで、前記学習装置が、少なくとも一つのＲＰＮロスレイヤをもって、前記学習用統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを算出するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータを学習する。

一例として、前記（ａ）段階で、前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージをコンカチネートするようにする。

一例として、前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加するようにする。

一例として、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにする。

一例として、前記（ｃ）段階で、第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第１テスト用特定物体プロポーザルとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第２テスト用特定物体プロポーザルとした場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、（I）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体プロポーザルに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体プロポーザルに対応する領域との間のテスト用調整ＩＯＵを算出し、（ＩＩ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの中から、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。

一例として、前記（ｃ）段階で、第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第１テスト用特定物体バウンディングボックスとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第２テスト用特定物体バウンディングボックスとした場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの間のテスト用ＩＯＵが第１閾値以上になるかを判断するようにし、（I）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体バウンディングボックスに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整ＩＯＵを算出し、（ＩＩ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの中から、（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。

本発明のまた他の態様によれば、イメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）と、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤物体検出器のパラメータを学習するための学習装置において、インストラクションを格納する少なくとも一つのメモリ；及び（Ｉ）（ｉ）ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされたイメージにおいて、一つ以上のターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域ないし第ｎターゲット領域それぞれを探すようにし、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージから、前記第１ターゲット領域ないし前記第ｎターゲット領域それぞれに対応する第１加工イメージないし第ｎ加工イメージを取得させ、（ｉｉｉ）前記第１加工イメージないし前記第ｎ加工イメージをコンカチネートした統合トレーニングイメージを出力させるプロセス、（ＩＩ）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記統合特徴マップを利用して、前記第１加工イメージないし前記第ｎ加工イメージそれぞれ内に位置する一つ以上の物体に対応する第１物体プロポーザルないし第ｎ物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記統合特徴マップ上で、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させるプロセス、及び（ＩＩＩ）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを生成するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を生成するようにし、（ｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とする学習装置が提供される。

一例として、前記（ＩＩＩ）プロセスで、前記プロセッサが、少なくとも一つのＲＰＮロスレイヤをもって、前記統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを算出するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータを学習する。

一例として、前記（Ｉ）プロセスで、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第１加工イメージないし前記第ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）させる。

一例として、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにする。

になるようにする。

一例として、前記（ＩＩＩ）プロセスで、第１特定加工イメージ及び第２特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第１特定物体プロポーザルとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第２特定物体プロポーザルとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、（ｉ）前記ＩＯＵが、前記第１閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体プロポーザルに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体プロポーザルに対応する領域との間の調整ＩＯＵを算出し、（ｉｉ）前記調整ＩＯＵが第２閾値以上と判断されれば、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの中から、確率値の高い特定物体プロポーザルを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。

一例として、前記（ＩＩＩ）プロセスで、第１特定加工イメージ及び第２特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第１特定物体バウンディングボックスとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第２特定物体バウンディングボックスとした場合、前記プロセスは、前記ターゲット物体統合ネットワークをもって、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの間のＩＯＵが、第１閾値以上になるか否かを判断するようにし、（ｉ）前記ＩＯＵが、前記第１閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体バウンディングボックスに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体バウンディングボックスに対応する領域との間の調整ＩＯＵを算出し、（ｉｉ）前記調整ＩＯＵが第２閾値以上と判断されたら、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの中から、確率値の高い特定物体バウンディングボックスを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。

本発明のまた他の態様によれば、イメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）と、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤物体検出器をテストするためのテスティング装置において、インストラクションを格納する少なくとも一つのメモリ；及び学習装置が、（１）（ｉ）ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされたトレーニングイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１学習用ターゲット領域ないし第ｎ学習用ターゲット領域それぞれを探すようにし、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたトレーニングイメージから、前記第１学習用ターゲット領域ないし前記第ｎ学習用ターゲット領域それぞれに対応する第１学習用加工イメージないし第ｎ学習用加工イメージを取得するようにし、（ｉｉｉ）前記第１学習用加工イメージないし前記第ｎ学習用加工イメージをコンカチネートした統合トレーニングイメージを出力するようにし、（２）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力するようにし、（ｉｉ）ＲＰＮをもって、前記学習用統合特徴マップを利用して、前記第１学習用加工イメージないし前記第ｎ学習用加工イメージそれぞれ内に位置する学習用物体に対応する第１学習用物体プロポーザルないし第ｎ学習用物体プロポーザルそれぞれを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つの前記ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記学習用物体に対応する第１学習用物体検出情報ないし第ｎ学習用物体検出情報を出力するようにし、（３）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルを統合して学習用統合物体プロポーザルを生成するようにし、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報を統合して学習用統合物体検出情報を生成するようにし、（ｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するＧＴとを参照して前記ＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、（Ｉ）（ｉ）前記ターゲット領域予測ネットワークをもって、少なくとも一つのテストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージ上で、一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域ないし第ｎテスト用ターゲット領域それぞれを探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテストイメージから、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域それぞれに対応する第１テスト用加工イメージないし第ｎテスト用加工イメージを取得するようにし、（ｉｉｉ）前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージをコンカチネートした統合テストイメージを出力するようにするプロセス、（ＩＩ）（ｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記テスト用統合特徴マップを利用して、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージそれぞれ内に位置するテスト用物体に対応する第１テスト用物体プロポーザルないし第ｎテスト用物体プロポーザルそれぞれを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１テスト用物体検出情報ないし第ｎテスト用物体検出情報を出力するようにするプロセス、及び（ＩＩＩ）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを生成するようにし、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報を統合してテスト用統合物体検出情報を生成するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とするテスティング装置が提供される。

一例として、前記（Ｉ）プロセスで、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージをコンカチネートするようにする。

一例として、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加するようにする。

になるようにする。

一例として、前記（ＩＩＩ）プロセスで、第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第１テスト用特定物体プロポーザルとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第２テスト用特定物体プロポーザルとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、（ｉ）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体プロポーザルに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体プロポーザルに対応する領域との間のテスト用調整ＩＯＵを算出し、（ｉｉ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの中から、確率値の高いテスト用特定物体プロポーザルを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。

一例として、前記（ＩＩＩ）プロセスで、第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第１テスト用特定物体バウンディングボックスとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第２テスト用特定物体バウンディングボックスとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの間のテスト用ＩＯＵが第１閾値以上になるかを判断するようにし、（ｉ）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体バウンディングボックスに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整ＩＯＵを算出し、（ｉｉ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの中から、確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。

本発明は、イメージ上に位置する物体をサイズに関係なく効果的に検出し得る効果がある。

また、本発明は、演算量を増加させずに前記イメージ内の物体を検出し得る効果がある。

また、本発明は、サイズが多様な物体に対応するターゲット領域を利用して、ＣＮＮの演算量を減らしながら効果的に物体を検出し得る効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者（以下「通常の技術者」）は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
本発明の一例に係るイメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）と、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤物体検出器を学習する学習装置を概略的に示した図面である。本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記ＣＮＮ基盤物体検出器を学習する方法を概略的に示した図面である。本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記ＣＮＮ基盤物体検出器学習に利用される、イメージピラミッド内に含まれたイメージ上のそれぞれのターゲット領域を予測するプロセスを概略的に示した図面である。本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記ＣＮＮ基盤物体検出器学習に利用される、それぞれのターゲット領域に対応する加工済みイメージをコンカチネートするプロセスを概略的に示した図面である。本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記ＣＮＮ基盤物体検出器学習に利用される、一つ以上のターゲット物体を統合するプロセスを概略的に示した図面である。本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記ＣＮＮ基盤物体検出器をテスティングするテスティング装置を概略的に示した図面である。本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記ＣＮＮ基盤物体検出器をテスティングするテスティング方法を概略的に示した図面である。

後述する本発明に対する詳細な説明は、本発明の各目的、技術的解決方法及び長所を明確にするために、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように充分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。

図１は、本発明の一実施例によるイメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）と、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤物体検出器を学習する学習装置を簡略に示したものであり、図１を参照すると、前記学習装置１００は、通信部１１０とプロセッサ１２０とを含むことができる。

まず、前記通信部１１０は、少なくとも一つのトレーニングイメージを取得するか、他の装置をもって取得するように支援し得る。

この際、前記トレーニングイメージは、データベース１３０に格納され得、前記データベース１３０は、前記トレーニングイメージに位置する一つ以上の物体それぞれに対応するクラス情報及び位置情報に対する少なくとも一つのＧＴ（ｇｒｏｕｎｄｔｒｕｔｈ）を格納し得る。また、前記データベース１３０は、前記トレーニングイメージをリサイズして生成された、リサイズされたイメージ内に位置する前記物体それぞれに関する位置情報及びクラス情報に関する少なくとも一つのＧＴを格納することができる。

また、前記学習装置は、後述されるプロセスを遂行するコンピュータ読取り可能なインストラクション（ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｉｎｓｔｒｕｃｔｉｏｎ）を格納し得るメモリ１１５をさらに含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体等は、一つのプロセッサに統合されて機能することもできる。

次に、前記プロセッサ１２０は（ｉ）ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズされたイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域ないし第ｎターゲット領域それぞれを探すようにし、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージから、前記第１ターゲット領域ないし前記第ｎターゲット領域それぞれに対応する第１加工イメージないし第ｎ加工イメージを取得させ、（ｉｉｉ）前記第１加工イメージないし前記第ｎ加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）した統合トレーニングイメージを出力するようにすることができる。また、前記プロセッサ１２０は、（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力するようにし、（ｉｉ）ＲＰＮをもって、前記統合特徴マップを利用して、前記第１加工イメージないし前記第ｎ加工イメージそれぞれ内に位置する前記物体に対応する第１物体プロポーザルないし第ｎ物体プロポーザルそれぞれを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記統合特徴マップ上で、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力するようにし得る。その後、前記プロセッサ１２０が、（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを生成するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を生成するようにし、（ｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する。

また、前記プロセッサ１２０は、少なくとも一つのＲＰＮロスレイヤをもって、前記統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを取得するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を学習する。

この際、本発明の一例に係る前記学習装置１００は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置１００として採択され得る。また、図１では一つの学習装置１００のみを示したが、これに限定されず、前記学習装置は複数に分けて役割を遂行することもできる。

このように構成された本発明の一例に係る前記学習装置１００を利用して、前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークを利用してＣＮＮ基盤物体検出器のパラメータを学習する方法を、図２を参照して説明する。

まず、前記トレーニングイメージが入力されると、前記学習装置１００が、ターゲット領域予測ネットワーク１２１をもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージ上に少なくとも一つのターゲット物体が位置するものと予測される少なくとも一つの領域に対応する前記第１ターゲット領域ないし前記第ｎターゲット領域を探すようにする。

この際、前記第１ターゲット領域ないし前記第ｎターゲット領域は、同一のイメージ内に位置する前記ターゲット物体のうち互いに異なる複数のターゲット物体に対応するか、互いに異なるサイズの複数のイメージ内に位置する同一のターゲット物体に対応し得る。また、前記第１ターゲット領域ないし前記第ｎターゲット領域は、同一のイメージのサイズを互いに異なるようにした前記イメージピラミッドのうちそれぞれのイメージ内に位置すると予測されるターゲット物体に対応し得る。

つまり、前記ターゲット領域予測ネットワーク１２１は、前記トレーニングイメージ内、第１ターゲット物体ないし第ｎターゲット物体が位置するものと予測される領域に対応する、前記第１ターゲット領域ないし前記第ｎターゲット領域を探し出すか、前記トレーニングイメージをリサイズして得た第１リサイズされたイメージないし第ｎリサイズされたイメージそれぞれに、少なくとも一つの特定ターゲット物体が位置するものと予測される領域に対応する、前記第１ターゲット領域それぞれないし前記第ｎターゲット領域それぞれを探し出すことができる。また、前記ターゲット領域予測ネットワーク１２１は、前記トレーニングイメージに、単一のターゲット物体が位置するものと予測される領域に対応する特定のターゲット領域を探し出し、前記トレーニングイメージをリサイズして得た前記第１リサイズされたイメージないし前記第ｎリサイズされたイメージそれぞれに、前記単一のターゲット物体が位置するものと予測される領域に対応する、前記第１ターゲット領域それぞれないし前記第ｎターゲット領域を探し出すことができる。これに加えて、前記トレーニングイメージ内に多数のターゲット物体が位置する場合、前記リサイズされたイメージそれぞれにおいて前記ターゲット物体に対応する前記ターゲット領域を探すことができる。

一方、前記ターゲット領域予測ネットワーク１２１は、前記トレーニングイメージまたはこれに対応するリサイズされたイメージそれぞれに対するそれぞれのスケールヒストグラムを演算し、前記スケールヒストグラムを参照することによって、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第１ターゲット領域ないし前記第ｎターゲット領域を探すことができる。また、前記ターゲット領域予測ネットワーク１２１は、前記トレーニングイメージまたはこれに対応するリサイズされたイメージそれぞれに対してセグメンテーションを遂行し、前記セグメンテーションを基盤として前記ターゲット領域を探し出すためのシード（ｓｅｅｄ）を設定した後、小さなターゲット領域が繰り返し統合された統合領域を参照して前記ターゲット領域を設定することができる。また、前記ターゲット領域予測ネットワーク１２１は、フォアグラウンドセグメンテーション（ｆｏｒｅｇｒｏｕｎｄｓｅｇｍｅｎｔａｔｉｏｎ）を通じてイメージ上のフォアグラウンドを確認し、前記確認されたフォアグラウンドを参照して、少なくとも一つのターゲット物体が位置するものと予測され、前記少なくとも一つのターゲット物体を含むものと予測されるサイズの、少なくとも一つの領域を少なくとも一つのターゲット領域に設定することができる。これに加えて、前記ターゲット領域予測ネットワーク１２１は、重要度検出（ｓａｌｉｅｎｃｙｄｅｔｅｃｔｉｏｎ）方法を利用して、一つ以上のターゲット領域を設定することができる。しかし、本願発明はこれに限定されず、イメージ内のターゲット物体が位置すると予測されるターゲット領域を探し出すすべての方法が使用され得る。

次に、前記学習装置１００は、イメージ加工ネットワーク１１１をもって、前記ターゲット領域予測ネットワーク１２１で設定された第１ターゲット領域ないし第ｎターゲット領域それぞれに対応する前記トレーニングイメージまたはそれぞれのこれに対応するリサイズされたイメージ上で、前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する第１加工イメージないし第ｎ加工イメージを取得するようにする。

この際、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージ上で前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する一つ以上の領域をクロップして、前記第１加工イメージないし前記第ｎ加工イメージを取得させるか、前記トレーニングイメージまたはこれに対応するリサイズされたイメージ上で前記第１ターゲット領域ないし前記第ｎターゲット領域に対応する一つ以上の領域をクロップした後、リサイズして、前記第１加工イメージないし前記第ｎ加工イメージを取得させることができる。

一例として、図３を参照すると、前記第１ターゲット領域を含む前記第１リサイズされたイメージＲＩ１を前記第１加工イメージＭＩ１として取得することができ、前記第２ターゲット領域に対応する前記第２加工イメージＭＩ２は、前記第２リサイズされたイメージＲＩ２から生成され得、第３ターゲット領域に対応する前記第３加工イメージＭＩ３は、第３リサイズされたイメージから生成され得る。

次に、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記第１加工イメージないし前記第３加工イメージをコンカチネートした前記統合トレーニングイメージを取得させることができる。

この際、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記第１加工イメージないし前記第３加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第１調整済み加工イメージないし前記第３調整済み加工イメージをコンカチネートさせることができる。

そして、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記第１調整済み加工イメージないし前記第３調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージで構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加させることができる。この際、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

となるようにすることができる。これを通じて、前記ＣＮＮのオーバーヘッド（ｏｖｅｒｈｅａｄ）を最小化することができる。

一例として、図４を参照すると、図３の過程を通じて生成された前記第１加工イメージＭＩ１、前記第２加工イメージＭＩ２、及び前記第３加工イメージＭＩ３は、互いに高さが同じに調整された後、コンカチネートされ得る。その際、それぞれのゼロパディング領域（ＰＲ）は、それぞれの前記隣接した調整済み加工イメージの間に追加され得る。他の例示として、前記加工イメージの幅を同一に調整した後、前記調整された幅を利用して前記それぞれの加工イメージをコンカチネートするか、又は前記幅と前記高さとを同一に調整した後、前記それぞれの加工イメージを大きな正方形状にコンカチネートすることができる。

次に、前記学習装置１００は、コンボリューションレイヤ１２２をもって、前記統合トレーニングイメージに前記コンボリューション演算を適用することにより、少なくとも一つの統合特徴マップを出力させることができる。この際、前記コンボリューションレイヤ１２２は、単一のコンボリューションレイヤでもあり得、多数のコンボリューションレイヤでもあり得る。

次に、前記学習装置１００は、ＲＰＮ１２３をもって、前記統合ピッチャーマップを利用して、前記統合トレーニングイメージに含まれた前記第１加工イメージないし前記第ｎ加工イメージ内に位置する前記物体に対応する一つ以上の第１物体プロポーザルないし一つ以上の第ｎ物体プロポーザルを出力させることができる。

この際、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれは、前記第１加工イメージないし前記第ｎ加工イメージ内に位置する前記物体それぞれに対応することができ、前記物体プロポーザルそれぞれは、前記物体それぞれ、すなわち、タグ付けされた領域に対応する位置情報と、前記タグ付けされた領域それぞれが物体であるか否かに関する情報を有する各プロポーザルボックスに関する情報とを含むことができる。この際、物体であるか否かに対する情報は、前記それぞれの物体プロポーザルが物体であると予測される確率情報を含み得、前記プロポーザルボックスに関する情報は、前記プロポーザルボックスが前記物体の位置に一致すると予測される確率情報を含み得る。

次に、前記学習装置１００は、プーリングレイヤ１２４をもって、前記統合特徴マップ上で前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、ＦＣレイヤ１２５をもって、前記プーリング済み統合特徴マップに前記ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させることができる。

この際、前記第１物体検出情報ないし前記第ｎ物体検出情報は、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルに対応する前記物体それぞれに関するクラス情報とバウンディングボックスに関する情報（つまり、前記物体それぞれに関する位置情報）を含むことができる。また、前記クラス情報は、前記物体それぞれが該当クラスと予測される確率情報を含み得、前記バウンディングボックスに関する情報は、前記バウンディングボックスそれぞれが前記物体の位置に一致するものと予測される確率情報を含み得る。

その後、前記学習装置１００は、（ｉ）前記ターゲット物体統合ネットワーク１２６をもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを出力するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を出力するようにする。ここで、前記第１物体プロポーザルないし第ｎ物体プロポーザルに対する情報は、前記トレーニングイメージに対応するように変換され得る。

一例として、図５を参照すれば、前記第１加工イメージＭＩ１及び前記第２加工イメージＭＩ２上に少なくとも一つの特定同一物体が位置し、前記第１加工イメージＭＩ１上の前記第１物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第１特定物体プロポーザルＰＢ１とし、前記第２加工イメージＭＩ２上の前記第２物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第２特定物体プロポーザルＰＢ２とした場合、前記学習装置１００は、前記ターゲット物体統合ネットワーク１２６をもって、前記第１特定物体プロポーザルＰＢ１と、前記第２特定物体プロポーザルＰＢ２との間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにする。その後、前記ＩＯＵが前記第１閾値未満と判断されれば、前記第１特定物体プロポーザルＰＢ１と、前記第２特定物体プロポーザルＰＢ２との間の調整ＩＯＵが算出されるようにする。

この際、前記調整ＩＯＵは、前記第２加工イメージＭＩ２上で前記第１特定物体プロポーザルＰＢ１に対応する領域、すなわち、交差領域ＰＢ１，ＭＩ２と、前記第１加工イメージＭＩ１上で前記第２特定物体プロポーザルＰＢ２に対応する領域、すなわち、交差領域ＰＢ２，ＭＩ１とを参照して算出されたＩＯＵである。

そして、前記調整ＩＯＵが第２閾値以上と判断されれば、前記学習装置１００は、前記第１特定物体プロポーザルＰＢ１と、前記第２特定物体プロポーザルＰＢ２との中から、（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。

しかし、前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記学習装置１００は、前記第１特定物体プロポーザルＰＢ１と、前記第２特定物体プロポーザルＰＢ２とが、それぞれ異なる物体に対応すると判断する。つまり、前記第１特定物体プロポーザルＰＢ１と、前記第２特定物体プロポーザルＰＢ２との間の前記ＩＯＵが前記第１閾値未満であり、これらの間の前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記学習装置１００は、前記第１特定物体プロポーザルＰＢ１と、前記第２特定物体プロポーザルＰＢ２とがそれぞれ異なる物体に対応するものと判断する。

一方、前記第１特定物体プロポーザルＰＢ１と、前記第２特定物体プロポーザルＰＢ２との間の前記ＩＯＵが前記第１閾値以上であると判断されれば、前記学習装置は、前記第１特定物体プロポーザルＰＢ１と、前記第２特定物体プロポーザルＰＢ２との中から（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記加工イメージＭＩ１及びＭＩ２上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成する。

また、図５を参照すれば、前記第１加工イメージＭＩ１及び前記第２加工イメージＭＩ２上に少なくとも一つの特定同一物体が位置し、前記第１加工イメージＭＩ１上で、前記第１物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第１特定物体バウンディングボックスＢＢ１とし、前記第２加工イメージＭＩ２上で、前記第２物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第２特定物体バウンディングボックスＢＢ２とした場合、前記学習装置１００は、前記ターゲット物体統合ネットワーク１２６をもって、前記第１特定物体バウンディングボックスＢＢ１と、前記第２特定物体バウンディングボックスＢＢ２との間のＩＯＵが、前記第１閾値以上になるかを判断するようにする。この際、前記物体プロポーザル間の前記ＩＯＵ判断に利用された前記第１閾値と、前記物体バウンディングボックス間のＩＯＵ判断に利用された前記第１閾値とは、同じこともあり、同じくないこともある。その後、前記バウンディングボックス間のＩＯＵが前記第１閾値未満と判断されれば、前記第１特定物体バウンディングボックスＢＢ１と、前記第２特定物体バウンディングボックスＢＢ２との間の調整ＩＯＵが算出される。

この際、前記調整ＩＯＵは、前記第２加工イメージＭＩ２上で前記第１特定物体バウンディングボックスＢＢ１に対応する領域、すなわち、交差領域ＢＢ１，ＭＩ２と、前記第１加工イメージＭＩ１上で前記第２特定物体プロポーザルＢＢ２に対応する領域、すなわち、交差領域ＢＢ２，ＭＩ１とを参照して算出されたＩＯＵである。

そして、前記調整ＩＯＵが前記第２閾値以上と判断されれば、前記学習装置１００は、前記第１特定物体バウンディングボックスＢＢ１と、前記第２特定物体バウンディングボックスＢＢ２との中から、（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。この際、前記物体プロポーザル間のＩＯＵ判断に利用された前記第２閾値と、前記物体バウンディングボックス間のＩＯＵ判断に利用された前記第２閾値とは、同じこともあり、同じくないこともある。

しかし、前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記学習装置１００は、前記第１特定物体バウンディングボックスＢＢ１と、前記第２特定物体バウンディングボックスＢＢ２とが、それぞれ異なる物体に対応すると判断する。つまり、前記第１特定物体バウンディングボックスＢＢ１と、前記第２特定物体バウンディングボックスＢＢ２との間の前記ＩＯＵが前記第１閾値未満であり、これらの間の前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記学習装置１００は、前記第１特定物体バウンディングボックスＢＢ１と、前記第２特定物体バウンディングボックスＢＢ２とがそれぞれ異なる物体に対応するものと判断する。

一方、前記第１特定物体バウンディングボックスＢＢ１と、前記第２特定物体バウンディングボックスＢＢ２との間の前記ＩＯＵが前記第１閾値以上であると判断されれば、前記学習装置は、前記第１特定物体バウンディングボックスＢＢ１と、前記第２特定物体バウンディングボックスＢＢ２との中から（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記加工イメージＭＩ１及びＭＩ２上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成する。

その後、前記学習装置１００は、前記ＦＣロスレイヤ１２７をもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを取得するようにすることで、前記ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ１２５及び前記コンボリューションレイヤ１２２のパラメータの中の少なくとも一部を学習する。

また、前記学習装置１００が、前記ＲＰＮロスレイヤ１２８をもって、前記統合物体プロポーザルと、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを取得するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮ１２３のパラメータの中の少なくとも一部を学習する。

前記のような方法により、前記トレーニングイメージ内に位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記物体を効率的に検出できるようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記ＣＮＮ基盤の前記物体検出の演算時間を減らし得るようになる。

また、前記では、前記トレーニングイメージ上にターゲット物体が一つである場合を想定して説明したが、前記トレーニングイメージ内にターゲット物体多数がある場合にも、前記のような方法により前記トレーニングイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して、前記それぞれのターゲット物体の検出が可能である。

図６は、本発明の一例に係る前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した、前記ＣＮＮ基盤物体検出器をテスティングするテスティング装置を概略的に示したもので、図６を参照すれば、前記テスティング装置２００は、通信部２１０とプロセッサ２２０とを含み得る。

まず、前記通信部２１０は、少なくとも一つのテストイメージを取得するか、他の装置をもって取得するように支援し得る。

また、前記テスティング装置は、後述するプロセスを遂行するコンピュータ読取り可能なインストラクション（ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｉｎｓｔｒｕｃｔｉｏｎ）を格納し得るメモリ２１５を追加的に含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体（ｍｅｄｉｕｍ）等は、一つのプロセッサに統合されて機能することもできる。

この際、前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記ＣＮＮ基盤の前記物体検出器は、図１ないし図５を参照して説明された前記学習方法として学習され得る。

参考までに、以下の説明において混乱を避けるために、前記学習プロセスに関連する用語には「学習用」という単語が追加され、テスト用プロセスに関連する用語には「テスト用」という単語が追加された。

つまり、少なくとも一つのトレーニングイメージが取得されると、前記学習装置は、（ａ）（ｉ）前記ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズされた学習用イメージにおいて一つ以上の学習用ターゲット物体が位置するものと予測される領域に対応する第１学習用ターゲット領域ないし第ｎ学習用ターゲット領域それぞれを探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされた学習用イメージから前記第１学習用ターゲット領域ないし前記第ｎ学習用ターゲット領域それぞれに対応する第１学習用加工イメージないし第ｎ学習用加工イメージを取得するようにし、（ｉｉｉ）前記第１学習用加工イメージないし前記第ｎ学習用加工イメージをコンカチネートした統合トレーニングイメージを出力するようにし、（ｂ）（ｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記学習用統合特徴マップを利用して、前記第１学習用加工イメージないし前記第ｎ学習用加工イメージそれぞれ内に位置する一つ以上の学習用物体に対応する第１学習用物体プロポーザルないし第ｎ学習用物体プロポーザルそれぞれを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、（ｉｖ）前記ＦＣレイヤをもって、前記学習用プーリング済み統合特徴マップに前記ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記学習用物体に対応する第１学習用物体検出情報ないし第ｎ学習用物体検出情報を出力するようにし、（ｃ）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルを統合して学習用統合物体プロポーザルを出力するようにし、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報を統合して学習用統合物体検出情報を出力するようにし、（ｉｉ）前記ＦＣロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するＧＴとを参照して前記ＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する。

また、前記学習装置は、前記ＲＰＮロスレイヤをもって、前記学習用統合物体プロポーザルと、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを取得するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を学習する。

次に、前記プロセッサ２２０が、（ｉ）前記ターゲット領域予測ネットワークをもって、少なくとも一つのテストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージ上で、一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域ないし第ｎテスト用ターゲット領域それぞれを探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテストイメージから、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域それぞれに対応する第１テスト用加工イメージないし第ｎテスト用加工イメージを取得するようにし、（ｉｉｉ）前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージをコンカチネートした統合テストイメージを出力するようにする。その後、前記プロセッサ２２０は、（ｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記テスト用統合特徴マップを利用して、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージそれぞれ内に位置するテスト用物体に対応する第１テスト用物体プロポーザルないし第ｎテスト用物体プロポーザルそれぞれを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリングされた統合特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１テスト用物体検出情報ないし第ｎテスト用物体検出情報を出力するようにすることができる。その後、前記プロセッサ２２０は、（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するプロセスを遂行する。

この際、本発明の一例に係るテスティング装置２００は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置２００として採択され得る。本発明の一例に係る前記テスティング装置２００を利用して、前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記ＣＮＮ基盤物体検出器をテスティングする方法を、図７を参照して説明する。

本発明の一例に係る前記テスティング装置２００を利用して、前記イメージコンカチネーションと、前記ターゲット物体統合ネットワークとを利用した前記ＣＮＮ基盤物体検出器をテスティングする方法を、図７を参照して説明する。以下の説明で、図１ないし図５を参照して説明した前記学習方法により容易に理解可能な部分については、詳細な説明を省略することにする。

まず、図１ないし図５を参照して説明した学習方法によってＦＣレイヤ２２５、コンボリューションレイヤ２２２及びＲＰＮ２２３のパラメータのうち少なくとも一部が学習された状態で、前記テストイメージが入力されると、前記テスティング装置２００がターゲット領域予測ネットワーク２２１をもって、前記テストイメージまたはこれに対応するリサイズされたイメージにおいて前記テスト用ターゲット物体が位置するものと予測される少なくとも一つの領域に対応する前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域を探すようにすることができる。

この際、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域は、同一のテストイメージ内に位置する前記テスト用ターゲット物体のうち互いに異なる複数のテスト用ターゲット物体に対応するか、互いに異なるサイズの複数のイメージ内に位置する同一のテスト用ターゲット物体に対応し得る。また、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域は、同一のイメージのサイズを互いに異にした前記イメージピラミッドのうちそれぞれのイメージ内に位置するものと予測されるテスト用ターゲット物体に対応し得る。

つまり、前記ターゲット領域予測ネットワーク２２１は、前記テストイメージ内に、第１テスト用ターゲット物体ないし第ｎテスト用ターゲット物体が位置するものと予測される領域に対応する、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域を探し出すか、前記テストイメージをリサイズして得た第１テスト用リサイズされたイメージないし第ｎテスト用リサイズされたイメージそれぞれに、少なくとも一つの特定のテスト用ターゲット物体が位置するものと予測される領域に対応する、前記第１テスト用ターゲット領域それぞれないし前記第ｎテスト用ターゲット領域それぞれを探し出すことができる。また、前記ターゲット領域予測ネットワーク２２１は、前記テストイメージ上で、単一のターゲット物体が位置するものと予測される領域に対応する、特定のターゲット領域を探し出し、前記テストイメージをリサイズして得た第１テスト用リサイズされたイメージないし第ｎテスト用リサイズされたイメージそれぞれに、前記単一のテスト用ターゲット物体が位置するものと予測される領域に対応する、前記第１テスト用ターゲット領域それぞれないし前記第ｎテスト用ターゲット領域を探し出すことができる。これに加えて、前記テストイメージ内に多数のテスト用ターゲット物体が位置する場合、前記テストイメージのリサイズされたイメージそれぞれにおいて、前記テスト用ターゲット物体に対応する前記テスト用ターゲット領域を予測することができる。

次に、前記テスト装置２００は、前記イメージ加工ネットワーク２１１をもって、前記ターゲット領域予測ネットワーク２２１で設定された第１テスト用ターゲット領域ないし第ｎテスト用ターゲット領域それぞれに対応する前記テストイメージまたはそれぞれのこれに対応するリサイズされたイメージ上で、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する第１テスト用加工イメージないし第ｎテスト用加工イメージを取得するようにする。

この際、前記テスト装置２００は、前記イメージ加工ネットワーク２１１をもって、前記テストイメージまたはこれに対応するリサイズされたイメージ上で前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する一つ以上の領域をクロップして、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージを取得するようにするか、前記テストイメージまたはこれに対応するリサイズされたイメージ上で前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域に対応する一つ以上の領域をクロップした後、リサイズして、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージを取得するようにできる。

次に、前記テスト装置２００は、前記イメージ加工ネットワーク２１１をもって、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージをコンカチネートした前記統合テストイメージを取得させることができる。

この際、前記テスト装置２００は、前記イメージ加工ネットワーク２１１をもって、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージをコンカチネートさせることができる。

そして、前記テスト装置２００は、前記イメージ加工ネットワーク２１１をもって、前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにすることができる。この際、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることができる。

次に、前記テスト装置２００は、前記コンボリューションレイヤ２２２をもって、前記統合テストイメージに前記コンボリューション演算を適用することにより、少なくとも一つのテスト用統合特徴マップを出力させることができる。この際、前記コンボリューションレイヤ２２２は、単一のコンボリューションレイヤでもあり得、多数のコンボリューションレイヤでもあり得る。

次に、前記テスト装置２００は、前記ＲＰＮ２２３をもって、前記テスト用統合特徴マップを利用して、前記統合テストイメージに含まれた前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージ内に位置する前記テスト用物体に対応する一つ以上の第１テスト用物体プロポーザルないし一つ以上の第ｎテスト用物体プロポーザルを出力させることができる。

この際、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれは、前記テスト用物体それぞれ、つまり、タグ付けされた領域に対応する位置情報と、前記タグ付けされた領域が物体であるか否かに関する情報を有する各プロポーザルボックスに関する情報とを含むことができる。

次に、前記テスト装置２００は、プーリングレイヤ２２４をもって、前記テスト用統合特徴マップ上で、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力させ、前記ＦＣレイヤ２２５をもって、前記テスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１テスト用物体検出情報ないし第ｎテスト用物体検出情報を出力させることができる。

この際、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報は、テスト用バウンディングボックスに関する情報（すなわち、前記テスト用物体それぞれに関する位置情報）及び前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルに対応する前記テスト用物体それぞれに関するクラス情報を含むことができる。

その後、前記テスティング装置２００は、（ｉ）前記ターゲット物体統合ネットワーク２２６をもって、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを出力するようにし、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報を統合してテスト用統合物体検出情報を出力するようにする。ここで、前記第１テスト用物体プロポーザルないし第ｎテスト用物体プロポーザルに対する情報は、前記テスト用イメージに対応するように変換され得る。

一例として、図６を参照すれば、前記第１テスト用加工イメージＭＩ１及び前記第２テスト用加工イメージＭＩ２上に少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用加工イメージＭＩ１上の前記第１テスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第１テスト用特定物体プロポーザルとし、前記第２テスト用加工イメージＭＩ２上で、前記第２テスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第２テスト用特定物体プロポーザルであるとする場合、前記テスティング装置２００は、前記ターゲット物体統合ネットワーク２２６をもって、前記第１テスト用特定物体プロポーザルＰＢ１と、前記第２テスト用特定物体プロポーザルＰＢ２との間のテスト用ＩＯＵが、第１閾値以上になるかを判断するようにする。その後、前記テスト用ＩＯＵが前記第１閾値未満と判断されれば、前記第１テスト用特定物体プロポーザルＰＢ１と、前記第２テスト用特定物体プロポーザルＰＢ２との間のテスト用調整ＩＯＵが算出されるようにする。

この際、前記テスト用調整ＩＯＵは、前記第２テスト用加工イメージＭＩ２上で前記第１テスト用特定物体プロポーザルＰＢ１に対応する領域、すなわち、交差領域ＰＢ１，ＭＩ２と、前記第１テスト用加工イメージＭＩ１上で前記第２テスト用特定物体プロポーザルＰＢ２に対応する領域、すなわち、交差領域ＰＢ２，ＭＩ１とを参照して算出されたＩＯＵである。

そして、前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記テスティング装置２００は、前記第１テスト用特定物体プロポーザルＰＢ１と、前記第２テスト用特定物体プロポーザルＰＢ２との中から、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。

しかし、前記テスト用調整ＩＯＵが前記第２閾値未満と判断されれば、前記テスティング装置２００は、前記第１テスト用特定物体プロポーザルＰＢ１と、前記第２テスト用特定物体プロポーザルＰＢ２とが、それぞれ異なるテスト用物体に対応すると判断する。つまり、前記第１テスト用特定物体プロポーザルＰＢ１と、前記第２テスト用特定物体プロポーザルＰＢ２との間の前記テスト用ＩＯＵが前記第１閾値未満であり、これら間の前記テスト用調整ＩＯＵが前記第２閾値未満と判断されれば、前記テスティング装置２００は、前記第１テスト用特定物体プロポーザルＰＢ１と、前記第２テスト用特定物体プロポーザルＰＢ２とがそれぞれ異なる物体に対応するものと判断する。

つまり、前記第１テスト用特定物体プロポーザルＰＢ１と、前記第２テスト用特定物体プロポーザルＰＢ２との間の前記ＩＯＵが前記第１閾値以上であると判断されれば、前記テスティング装置は、前記第１テスト用特定物体プロポーザルＰＢ１と、前記第２テスト用特定物体プロポーザルＰＢ２との中から（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記テスト用加工イメージＭＩ１及びＭＩ２上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成する。

また、図６を参照すれば、前記第１テスト用加工イメージＭＩ１及び前記第２テスト用加工イメージＭＩ２上に少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用加工イメージＭＩ１上で、前記第１テスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第１テスト用特定物体バウンディングボックスＢＢ１とし、前記第２テスト用加工イメージＭＩ２上で、前記第２テスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第２テスト用特定物体バウンディングボックスＢＢ２とした場合、前記テスティング装置２００は、前記ターゲット物体統合ネットワーク２２６をもって、前記第１テスト用特定物体バウンディングボックスＢＢ１と、前記第２テスト用特定物体バウンディングボックスＢＢ２との間の前記テスト用ＩＯＵが、前記第１閾値以上になるかを判断するようにする。この際、前記テスト用物体プロポーザル間のテスト用ＩＯＵ判断に利用された前記第１閾値と、前記テスト用物体バウンディングボックス間のテスト用ＩＯＵ判断に利用された前記第１閾値とは、同じこともあり、同じくないこともある。その後、前記テスト用バウンディングボックス間のテスト用ＩＯＵが前記第１閾値未満と判断されれば、前記第１テスト用特定物体バウンディングボックスＢＢ１と、前記第２テスト用特定物体バウンディングボックスＢＢ２との間のテスト用調整ＩＯＵが算出される。

この際、前記テスト用調整ＩＯＵは、前記第２テスト用加工イメージＭＩ２上で前記第１テスト用特定物体バウンディングボックスＢＢ１に対応する領域、すなわち、交差領域ＢＢ１，ＭＩ２と、前記第１テスト用加工イメージＭＩ１上で前記第２テスト用特定物体バウンディングボックスＢＢ２に対応する領域、すなわち、交差領域ＢＢ２，ＭＩ１とを参照して算出されたＩＯＵである。

そして、前記テスト用調整ＩＯＵが前記第２閾値以上と判断されれば、前記テスティング装置２００は、前記第１テスト用特定物体バウンディングボックスＢＢ１と、前記第２テスト用特定物体バウンディングボックスＢＢ２との中から、（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。この際、前記テスト用物体プロポーザル間のテスト用ＩＯＵ判断に利用された前記第２閾値と、前記テスト用物体バウンディングボックス間のテスト用ＩＯＵ判断に利用された前記第２閾値とは、同じこともあり、同じくないこともある。

しかし、前記テスト用調整ＩＯＵが前記第２閾値未満と判断されれば、前記テスティング装置２００は、前記第１テスト用特定物体バウンディングボックスＢＢ１と、前記第２テスト用特定物体バウンディングボックスＢＢ２とが、それぞれ異なるテスト用物体に対応すると判断する。つまり、前記第１テスト用特定物体バウンディングボックスＢＢ１と、前記第２テスト用特定物体バウンディングボックスＢＢ２との間の前記テスト用ＩＯＵが前記第１閾値未満であり、これらの間の前記テスト用調整ＩＯＵが前記第２閾値未満と判断されれば、前記テスティング装置２００は、前記第１テスト用特定物体バウンディングボックスＢＢ１と、前記第２テスト用特定物体バウンディングボックスＢＢ２とがそれぞれ異なるテスト用物体に対応するものと判断する。

一方、前記第１テスト用特定物体バウンディングボックスＢＢ１と、前記第２テスト用特定物体バウンディングボックスＢＢ２との間の前記テスト用ＩＯＵが前記第１閾値未満であると判断されれば、前記テスティング装置は、前記第１テスト用特定物体バウンディングボックスＢＢ１と、前記第２テスト用特定物体バウンディングボックスＢＢ２との中から（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記テスト用加工イメージＭＩ１及びＭＩ２上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成する。

前記のような方法により、前記テストイメージ内に位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記物体を効率的に検出できるようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記ＣＮＮ基盤の前記物体検出の演算時間を減らし得るようになる。

また、前記では、前記テストイメージ上にターゲット物体が一つである場合を想定して説明したが、前記テストイメージ内にターゲット物体多数がある場合にも、前記のような方法により前記テストイメージ内での前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して前記それぞれのターゲット物体の検出が可能である。

前記ＣＮＮは、重要業績評価指標（ＫｅｙＰｅｒｆｏｒｍａｎｃｅＩｎｄｅｘ）のようなユーザー要求事項に適応することが可能であり、前記重要業績評価指標による解像度や焦点距離が変わるようになるに伴って、前記ＣＮＮが再設計され得る。前記方法によって、２Ｄバウンディングボックスの正確度が向上し、多重カメラ、サラウンドビューモニタリング（ｓｕｒｒｏｕｎｄｖｉｅｗｍｏｎｉｔｏｒｉｎｇ）などに有用に遂行され得る。

また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

イメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）と、ターゲット物体統合ネットワークとを利用した、ＣＮＮ基盤物体検出器のパラメータを学習する方法において、
（ａ）少なくとも一つのトレーニングイメージが入力されると、学習装置が、（ｉ）ターゲット領域予測ネットワークをもって、前記トレーニングイメージまたはこれに対応する一つ以上のリサイズされたイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域ないし第ｎターゲット領域それぞれを探すようにし、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージから、前記第１ターゲット領域ないし前記第ｎターゲット領域それぞれに対応する第１加工イメージないし第ｎ加工イメージを取得させ、（ｉｉｉ）前記第１加工イメージないし前記第ｎ加工イメージをコンカチネートした統合トレーニングイメージを出力させる段階；
（ｂ）前記学習装置が、（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記統合特徴マップを利用して、前記第１加工イメージないし前記第ｎ加工イメージそれぞれ内に位置する一つ以上の物体に対応する第１物体プロポーザルないし第ｎ物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記統合特徴マップ上で、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させる段階；及び
（ｃ）前記学習装置が、（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを生成するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を生成するようにし、（ｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習する段階；
を含むことを特徴とする方法。
前記（ｃ）段階で、
前記学習装置が、少なくとも一つのＲＰＮロスレイヤをもって、前記統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを算出するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータを学習することを特徴とする請求項１に記載の方法。
前記（ａ）段階で、
前記学習装置が、前記イメージ加工ネットワークをもって、第１加工イメージないし前記第ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第１調整済み加工イメージないし第ｎ調整済み加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）させることを特徴とする請求項１に記載の方法。
前記学習装置が、前記イメージ加工ネットワークをもって、前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにすることを特徴とする請求項３に記載の方法。
前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを特徴とする請求項４に記載の方法。
前記（ｃ）段階で、
第１特定加工イメージ及び第２特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第１特定物体プロポーザルとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第２特定物体プロポーザルとした場合、
前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が第１閾値以上になるかを判断するようにし、（Ｉ）前記ＩＯＵが、前記第1閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体プロポーザルに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体プロポーザルに対応する領域との間の調整ＩＯＵを算出し、（ＩＩ）前記調整ＩＯＵが第２閾値以上と判断されれば、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの中から、（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項１に記載の方法。
前記（ｃ）段階で、
第１特定加工イメージ及び第２特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第１特定物体バウンディングボックスとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第２特定物体バウンディングボックスとした場合、
前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの間のＩＯＵが、第１閾値以上になるか否かを判断するようにし、（Ｉ）前記ＩＯＵが、前記第1閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体バウンディングボックスに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体バウンディングボックスに対応する領域との間の調整ＩＯＵを算出し、（ＩＩ）前記調整ＩＯＵが第２閾値以上と判断されたら、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの中から（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項１に記載の方法。
イメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）と、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤物体検出器をテスティングする方法において、
（ａ）学習装置が、（１）（ｉ）ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされたトレーニングイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１学習用ターゲット領域ないし第ｎ学習用ターゲット領域それぞれを探すようにし、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたトレーニングイメージから、前記第１学習用ターゲット領域ないし前記第ｎ学習用ターゲット領域それぞれに対応する第１学習用加工イメージないし第ｎ学習用加工イメージを取得するようにし、（ｉｉｉ）前記第１学習用加工イメージないし前記第ｎ学習用加工イメージをコンカチネートした統合トレーニングイメージを出力するようにし、（２）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力するようにし、（ｉｉ）ＲＰＮをもって、前記学習用統合特徴マップを利用して、前記第１学習用加工イメージないし前記第ｎ学習用加工イメージそれぞれ内に位置する学習用物体に対応する第１学習用物体プロポーザルないし第ｎ学習用物体プロポーザルそれぞれを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記学習用物体に対応する第１学習用物体検出情報ないし第ｎ学習用物体検出情報を出力するようにし、（３）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルを統合して学習用統合物体プロポーザルを生成するようにし、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報を統合して学習用統合物体検出情報を生成するようにし、（ｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、テスティング装置が、少なくとも一つのテストイメージを取得すると、（ｉ）前記ターゲット領域予測ネットワークをもって、前記テストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージ上で、一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域ないし第ｎテスト用ターゲット領域それぞれを探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテストイメージから、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域それぞれに対応する第１テスト用加工イメージないし第ｎテスト用加工イメージを取得するようにし、（ｉｉｉ）前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージをコンカチネートした統合テストイメージを出力するようにする段階；
（ｂ）前記テスティング装置が、（ｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記テスト用統合特徴マップを利用して、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージそれぞれ内に位置するテスト用物体に対応する第１テスト用物体プロポーザルないし第ｎテスト用物体プロポーザルそれぞれを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１テスト用物体検出情報ないし第ｎテスト用物体検出情報を出力するようにする段階；及び
（ｃ）前記テスティング装置が、（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを生成するようにし、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報を統合してテスト用統合物体検出情報を生成するようにする段階；
を含むことを特徴とする方法。
前記（３）プロセスで、
前記学習装置が、少なくとも一つのＲＰＮロスレイヤをもって、前記学習用統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを算出するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータを学習することを特徴とする請求項８に記載の方法。
前記（ａ）段階で、
前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第１テスト用調整済み加工イメージないし第ｎテスト用調整済み加工イメージをコンカチネートするようにすることを特徴とする請求項８に記載の方法。
前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加するようにすることを特徴とする請求項１０に記載の方法。
前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを特徴とする請求項１１に記載の方法。
前記（ｃ）段階で、
第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第１テスト用特定物体プロポーザルとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第２テスト用特定物体プロポーザルとした場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、（I）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体プロポーザルに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体プロポーザルに対応する領域との間のテスト用調整ＩＯＵを算出し、（ＩＩ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの中から、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項８に記載の方法。
前記（ｃ）段階で、
第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第１テスト用特定物体バウンディングボックスとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第２テスト用特定物体バウンディングボックスとした場合、
前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの間のテスト用ＩＯＵが第１閾値以上になるかを判断するようにし、（I）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体バウンディングボックスに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整ＩＯＵを算出し、（ＩＩ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの中から、（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項８に記載の方法。
イメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）と、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤物体検出器のパラメータを学習するための学習装置において、
インストラクションを格納する少なくとも一つのメモリ；及び
（Ｉ）（ｉ）ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされたイメージにおいて、一つ以上のターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域ないし第ｎターゲット領域それぞれを探すようにし、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたイメージから、前記第１ターゲット領域ないし前記第ｎターゲット領域それぞれに対応する第１加工イメージないし第ｎ加工イメージを取得させ、（ｉｉｉ）前記第１加工イメージないし前記第ｎ加工イメージをコンカチネートした統合トレーニングイメージを出力させるプロセス、（ＩＩ）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの統合特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記統合特徴マップを利用して、前記第１加工イメージないし前記第ｎ加工イメージそれぞれ内に位置する一つ以上の物体に対応する第１物体プロポーザルないし第ｎ物体プロポーザルそれぞれを出力させ、（ｉｉｉ）プーリングレイヤをもって、前記統合特徴マップ上で、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つのプーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１物体検出情報ないし第ｎ物体検出情報を出力させるプロセス、及び（ＩＩＩ）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１物体プロポーザルないし前記第ｎ物体プロポーザルを統合して統合物体プロポーザルを生成するようにし、前記第１物体検出情報ないし前記第ｎ物体検出情報を統合して統合物体検出情報を生成するようにし、（ｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記統合物体検出情報と、これに対応するＧＴとを参照して一つ以上のＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とする学習装置。
前記（ＩＩＩ）プロセスで、
前記プロセッサが、少なくとも一つのＲＰＮロスレイヤをもって、前記統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを算出するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータを学習することを特徴とする請求項１５に記載の学習装置。
前記（Ｉ）プロセスで、
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第１加工イメージないし前記第ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第１調整済み加工イメージないし第ｎ調整済み加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）させることを特徴とする請求項１５に記載の学習装置。
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第１調整済み加工イメージないし前記第ｎ調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにすることを特徴とする請求項１７に記載の学習装置。
前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを特徴とする請求項１８に記載の学習装置。
前記（ＩＩＩ）プロセスで、
第１特定加工イメージ及び第２特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第１特定物体プロポーザルとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第２特定物体プロポーザルとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、（ｉ）前記ＩＯＵが、前記第１閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体プロポーザルに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体プロポーザルに対応する領域との間の調整ＩＯＵを算出し、（ｉｉ）前記調整ＩＯＵが第２閾値以上と判断されれば、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの中から、確率値の高い特定物体プロポーザルを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項１５に記載の学習装置。
前記（ＩＩＩ）プロセスで、
第１特定加工イメージ及び第２特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第１特定物体バウンディングボックスとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第２特定物体バウンディングボックスとした場合、
前記プロセスは、前記ターゲット物体統合ネットワークをもって、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの間のＩＯＵが、第１閾値以上になるか否かを判断するようにし、（ｉ）前記ＩＯＵが、前記第１閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体バウンディングボックスに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体バウンディングボックスに対応する領域との間の調整ＩＯＵを算出し、（ｉｉ）前記調整ＩＯＵが第２閾値以上と判断されたら、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの中から、確率値の高い特定物体バウンディングボックスを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項１５に記載の学習装置。
イメージコンカチネーション（Ｉｍａｇｅｃｏｎｃａｔｅｎａｔｉｏｎ）と、ターゲット物体統合ネットワークとを利用したＣＮＮ基盤物体検出器をテストするためのテスティング装置において、
インストラクションを格納する少なくとも一つのメモリ；及び
学習装置が、（１）（ｉ）ターゲット領域予測ネットワークをもって、少なくとも一つのトレーニングイメージまたはこれに対応する一つ以上のリサイズされたトレーニングイメージにおいて一つ以上のターゲット物体が位置するものと予測される領域に対応する第１学習用ターゲット領域ないし第ｎ学習用ターゲット領域それぞれを探すようにし、（ｉｉ）イメージ加工ネットワークをもって、前記トレーニングイメージまたはこれに対応するリサイズされたトレーニングイメージから、前記第１学習用ターゲット領域ないし前記第ｎ学習用ターゲット領域それぞれに対応する第１学習用加工イメージないし第ｎ学習用加工イメージを取得するようにし、（ｉｉｉ）前記第１学習用加工イメージないし前記第ｎ学習用加工イメージをコンカチネートした統合トレーニングイメージを出力するようにし、（２）（ｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記統合トレーニングイメージに適用することにより、少なくとも一つの学習用統合特徴マップを出力するようにし、（ｉｉ）ＲＰＮをもって、前記学習用統合特徴マップを利用して、前記第１学習用加工イメージないし前記第ｎ学習用加工イメージそれぞれ内に位置する学習用物体に対応する第１学習用物体プロポーザルないし第ｎ学習用物体プロポーザルそれぞれを出力するようにし、（ｉｉｉ）プーリングレイヤをもって、前記学習用統合特徴マップ上で、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルそれぞれに対応するそれぞれの領域に一つ以上のプーリング演算を適用して、少なくとも一つの学習用プーリング済み統合特徴マップを出力させ、（ｉｖ）ＦＣレイヤをもって、前記学習用プーリング済み統合特徴マップに少なくとも一つのＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記学習用物体に対応する第１学習用物体検出情報ないし第ｎ学習用物体検出情報を出力するようにし、（３）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１学習用物体プロポーザルないし前記第ｎ学習用物体プロポーザルを統合して学習用統合物体プロポーザルを生成するようにし、前記第１学習用物体検出情報ないし前記第ｎ学習用物体検出情報を統合して学習用統合物体検出情報を生成するようにし、（ｉｉ）少なくとも一つのＦＣロスレイヤをもって、前記学習用統合物体検出情報と、これに対応するＧＴとを参照してＦＣロスを生成するようにすることで、前記ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ及び前記コンボリューションレイヤのパラメータの中の少なくとも一部を学習した状態で、（Ｉ）（ｉ）前記ターゲット領域予測ネットワークをもって、少なくとも一つのテストイメージまたはこれに対応する一つ以上のリサイズされたテスト用イメージ上で、一つ以上のテスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域ないし第ｎテスト用ターゲット領域それぞれを探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記テストイメージまたはこれに対応するリサイズされたテストイメージから、前記第１テスト用ターゲット領域ないし前記第ｎテスト用ターゲット領域それぞれに対応する第１テスト用加工イメージないし第ｎテスト用加工イメージを取得するようにし、（ｉｉｉ）前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージをコンカチネートした統合テストイメージを出力するようにするプロセス、（ＩＩ）（ｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記統合テストイメージに適用することにより、少なくとも一つのテスト用統合特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記テスト用統合特徴マップを利用して、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージそれぞれ内に位置するテスト用物体に対応する第１テスト用物体プロポーザルないし第ｎテスト用物体プロポーザルそれぞれを出力するようにし、（ｉｉｉ）前記プーリングレイヤをもって、前記テスト用統合特徴マップ上で、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つのテスト用プーリング済み統合特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤをもって、前記テスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１テスト用物体検出情報ないし第ｎテスト用物体検出情報を出力するようにするプロセス、及び（ＩＩＩ）（ｉ）前記ターゲット物体統合ネットワークをもって、前記第１テスト用物体プロポーザルないし前記第ｎテスト用物体プロポーザルを統合してテスト用統合物体プロポーザルを生成するようにし、前記第１テスト用物体検出情報ないし前記第ｎテスト用物体検出情報を統合してテスト用統合物体検出情報を生成するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とするテスティング装置。
前記（３）プロセスで、
前記学習装置が、少なくとも一つのＲＰＮロスレイヤをもって、前記学習用統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上のＲＰＮロスを算出するようにすることで、前記ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータを学習することを特徴とする請求項２２に記載のテスティング装置。
前記（Ｉ）プロセスで、
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第１テスト用加工イメージないし前記第ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第１テスト用調整済み加工イメージないし第ｎテスト用調整済み加工イメージをコンカチネートするようにすることを特徴とする請求項２２に記載のテスティング装置。
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第１テスト用調整済み加工イメージないし前記第ｎテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング領域を追加するようにすることを特徴とする請求項２４に記載のテスティング装置。
前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを特徴とする請求項２５に記載のテスティング装置。
前記（ＩＩＩ）プロセスで、
第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第１テスト用特定物体プロポーザルとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第２テスト用特定物体プロポーザルとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、（ｉ）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体プロポーザルに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体プロポーザルに対応する領域との間のテスト用調整ＩＯＵを算出し、（ｉｉ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの中から、確率値の高いテスト用特定物体プロポーザルを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項２２に記載のテスティング装置。
前記（ＩＩＩ）プロセスで、
第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第１テスト用特定物体バウンディングボックスとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第２テスト用特定物体バウンディングボックスとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの間のテスト用ＩＯＵが第１閾値以上になるかを判断するようにし、（ｉ）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体バウンディングボックスに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整ＩＯＵを算出し、（ｉｉ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの中から、確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項２２に記載のテスティング装置。